CN115273819A - 声音事件检测模型建立方法、装置及可读存储介质 - Google Patents

声音事件检测模型建立方法、装置及可读存储介质 Download PDF

Info

Publication number
CN115273819A
CN115273819A CN202211186501.4A CN202211186501A CN115273819A CN 115273819 A CN115273819 A CN 115273819A CN 202211186501 A CN202211186501 A CN 202211186501A CN 115273819 A CN115273819 A CN 115273819A
Authority
CN
China
Prior art keywords
event detection
sound event
audio
detection model
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211186501.4A
Other languages
English (en)
Other versions
CN115273819B (zh
Inventor
郑鑫江
艾国
杨作兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen MicroBT Electronics Technology Co Ltd
Original Assignee
Shenzhen MicroBT Electronics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen MicroBT Electronics Technology Co Ltd filed Critical Shenzhen MicroBT Electronics Technology Co Ltd
Priority to CN202211186501.4A priority Critical patent/CN115273819B/zh
Publication of CN115273819A publication Critical patent/CN115273819A/zh
Application granted granted Critical
Publication of CN115273819B publication Critical patent/CN115273819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提出声音事件检测模型建立方法、装置及可读存储介质。方法包括:A、对每个训练样本分别采用不同的数据增强方式进行数据增强,将各增强音频对划分到多个批处理集中;B、依次获取一批处理集,将当前批处理集中的每条增强音频分别依次输入编码层和投影层,根据如下原则计算损失函数:对于当前批处理集中的任两条增强音频,若属于同一声音类别,将它们的投影特征之间的距离拉近,否则,将它们的投影特征之间的距离拉远;C、重复步骤B,直至编码层和投影层收敛;D、将音频训练样本输入收敛的编码层和待训练的分类层进行训练,根据收敛的编码层和收敛的分类层得到声音事件检测模型。本发明提高了声音事件检测准确性。

Description

声音事件检测模型建立方法、装置及可读存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及声音事件检测模型建立方法、装置及可读存储介质。
背景技术
目前,在边缘端智能语音设备中,SED(Sound Event Detection,声音事件检测)主要包括检测婴儿哭声、玻璃破碎声等家庭场景中常见声音的语音任务。SED任务通常要求对应算法具有良好的召回率和误唤醒率。
目前一般采用深度学习方法进行SED任务,对每一种检测的声音事件输出对应概率,大于概率阈值的类别即认为有该类声音。分类类别数一般设定为要检测的类别数加一个其他类。如需要检测婴儿哭声、玻璃破碎声,则分类类别数设定为3类。该设定方法需要其他类声音尽可能多地包含非检测类的声音,因此对训练数据的要求会很高。模型训练完成后,通常取验证集准确率最高的模型进行相应的部署,然而验证集的数据不能覆盖到生活中的所有场景,所以验证集准确率最高的模型并不一定是实际应用中声音事件检测效果最好的模型。
发明内容
本发明实施例提出声音事件检测模型建立方法、装置及可读存储介质,以提高声音事件检测模型检测声音事件的准确性。
本发明实施例的技术方案是这样实现的:
一种声音事件检测模型建立方法,该方法包括:
A、获取音频训练样本,标注每个训练样本对应的声音类别;对每个训练样本分别采用不同的数据增强方式进行数据增强,得到对应的增强音频对;当对所有训练样本都执行完数据增强后,得到各训练样本对应的增强音频对,将得到的各增强音频对划分到多个批处理集中;
B、依次获取一个批处理集,将当前批处理集中的每条增强音频分别依次输入待训练的编码层和投影层,得到每条增强音频对应的投影特征;根据如下原则计算当前批处理集的损失函数:对于当前批处理集中的任两条增强音频,若该两条增强音频属于同一声音类别,则将该两条增强音频的投影特征之间的距离拉近,否则,将该两条增强音频的投影特征之间的距离拉远;根据得到的损失函数调整编码层和投影层的权重;
C、重复步骤B,直至编码层和投影层收敛;
D、将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测训练过程,直至分类层收敛,则根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型。
所述计算当前批处理集的损失函数,包括:
Figure 100002_DEST_PATH_IMAGE001
其中,loss为当前批处理集的损失函数,I表示当前批处理集中包含的所有增强音频的集合,i代表I中的任一增强音频,P(i)表示I中与i的声音类别相同的增强音频的集合,p代表P(i)中的任一增强音频,|P(i)|表示P(i)中的增强音频的条数,A(i)表示I中与i的声音类别不同的增强音频的集合,a代表A(i) 中的任一增强音频,Z i 为增强音频i的投影特征,Z p 为增强音频p的投影特征,Z a 为增强音频a的投影特征,τ为常数。
所述τ>0。
步骤D所述将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测之前,进一步包括:
为每一音频训练样本标注声音类别,其中,声音类别包括:一个或多个待检测声音事件类别、非检测语音类别和其他类。
步骤D所述将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测之前,进一步包括:设定声音事件检测模型的数目,并设定每个声音事件检测模型的超参;
且,步骤D所述将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测训练过程,包括:
采用当前待训练声音事件检测模型的超参,将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测训练过程;
且,步骤D所述直至分类层收敛之后、所述根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型之前,进一步包括:
将收敛的编码层和当前收敛的分类层作为当前声音事件检测模型,判断已经得到的声音事件检测模型是否达到设定的数目,若是,执行所述根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型的动作;否则,将当前待训练声音事件检测模型的超参更新为设定的下一待训练声音事件检测模型的超参,并返回所述采用当前待训练声音事件检测模型的超参,将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测训练过程的动作。
步骤D所述根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型,包括:
采用测试样本集分别验证已经得到的每个声音事件检测模型的检测正确率,将检测正确率低于预设阈值的声音事件检测模型丢弃;
对剩下的声音事件检测模型,按照检测正确率从高到低的顺序进行排序;
选择排在最前面的声音事件检测模型初始化为最优声音事件检测模型;
从排序后的声音事件检测模型列表中,按顺序选择一个未被选择过的声音事件检测模型,将选择的声音事件检测模型的权重与最优声音事件检测模型的权重进行平均,得到待选声音事件检测模型;
采用测试样本集分别验证最优声音事件检测模型和待选声音事件检测模型的检测正确率;
判断是否满足:最优声音事件检测模型的检测准确率>待选声音事件检测模型的检测正确率,若是,保持最优声音事件检测模型不变;否则,以待选声音事件检测模型更新最优声音事件检测模型;
判断是否排序后的所有声音事件检测模型都被选择过,若是,将最优声音事件检测模型作为最终使用的声音事件检测模型;否则,返回所述从排序后的声音事件检测模型列表中,按顺序选择一个未被选择过的声音事件检测模型的动作。
所述步骤D之后,进一步包括:
为各待检测声音事件类别设置第一阈值,为非检测语音类别和其他类设置第二阈值,其中,第二阈值大于第一阈值;
将待检测音频输入最终使用的声音事件检测模型,若分类层判定待检测音频属于一声音事件类别的判定值大于第一阈值,则发出警报。
一种声音事件检测模型建立装置,该装置包括:
数据增强模块,用于获取音频训练样本,标注每个训练样本对应的声音类别;对每个训练样本分别采用不同的数据增强方式进行数据增强,得到对应的增强音频对;当对所有训练样本都执行完数据增强后,得到各训练样本对应的增强音频对,将得到的各增强音频对划分到多个批处理集中;
编码层训练模块,用于依次获取一个批处理集,将当前批处理集中的每条增强音频分别依次输入待训练的编码层和投影层,得到每条增强音频对应的投影特征;根据如下原则计算当前批处理集的损失函数:对于当前批处理集中的任两条增强音频,若该两条增强音频属于同一声音类别,则将该两条增强音频的投影特征之间的距离拉近,否则,将该两条增强音频的投影特征之间的距离拉远;根据得到的损失函数调整编码层和投影层的权重;返回依次获取一个批处理集的动作,直至编码层和投影层收敛;
分类层训练模块,用于将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测训练过程,直至分类层收敛,则根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型。
所述编码层训练模块计算当前批处理集的损失函数,包括:
Figure 762350DEST_PATH_IMAGE001
其中,loss为当前批处理集的损失函数,I表示当前批处理集中包含的所有增强音频的集合,i代表I中的任一增强音频,P(i)表示I中与i的声音类别相同的增强音频的集合,p代表P(i)中的任一增强音频,|P(i)|表示P(i)中的增强音频的条数,A(i)表示I中与i的声音类别不同的增强音频的集合,a代表A(i) 中的任一增强音频,Z i 为增强音频i的投影特征,Z p 为增强音频p的投影特征,Z a 为增强音频a的投影特征,τ为常数。
一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如上任一项所述的方法的步骤。
本发明实施例中,考虑到:为了降低声音事件检测的误唤醒率,需要尽可能多的其他类噪声,这样对训练数据的数目和种类要求很高。从而上述实施例中,在学习声音事件检测模型的编码层时,采用拉近同一声音类别的音频之间的投影特征距离,拉远不同声音类别的音频之间的投影特征距离的学习方法,从而对于未学习到的声音类别,其投影特征会和待检测的声音事件类别的投影特征之间的距离较远,从而提高了声音事件检测模型对噪声的鲁棒性,并使得声音事件检测模型具有更加优良的泛化能力,最终提高了声音事件检测的正确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的声音事件检测模型建立方法流程图;
图2为本发明实施例提供的声音事件检测模型建立装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明实施例提供的声音事件检测模型建立方法流程图,其具体步骤如下:
步骤101:获取音频训练样本,标注每个训练样本对应的声音类别。
声音类别包括:一个或多个待检测声音事件类别、非检测语音类别和其他类。待检测声音事件类别如:婴儿哭声、玻璃破碎声等,非检测语音类别为除待检测声音事件外的语音,非检测语音类别的音频训练样本可选择与待检测声音事件相接近的语音。
步骤102:对每个训练样本分别采用不同的数据增强方式进行数据增强,得到对应的增强音频对。
例如:一训练样本为音频A,采用第一数据增强方式对音频A进行数据增强,得到增强音频A1,采用第二数据增强方式对音频A进行数据增强,得到增强音频A2。数据增强方式包括:改变音频速度、改变基频,添加噪声等之一或任意组合。
步骤103:当对所有训练样本都执行完数据增强后,得到各训练样本对应的增强音频对,将得到的各增强音频对划分到多个批处理集中。
在实际应用中,批处理集可以是包含小数量样本的mini-batch(迷你批处理集)。
其中,每一增强音频对中的两个增强音频必须划分到同一批处理集中。
每条增强音频对应的声音类别即其对应的原始音频训练样本的声音类别,可为放入批处理集的每一条增强音频标注其对应的声音类别。
步骤104:依次获取一个批处理集。
步骤105:将当前批处理集中的每条增强音频分别依次输入待训练的编码层和投影层,得到每条增强音频对应的投影特征。
即,对于当前批处理集中的任一条增强音频,先将该增强音频输入待训练的编码层,得到该增强音频的编码特征,该编码特征之后输入待训练的投影层,得到该增强音频的投影特征。
步骤106:根据如下原则计算当前批处理集的损失函数:对于当前批处理集中的任两条增强音频,若该两条增强音频属于同一声音类别,则将该两条增强音频的投影特征之间的距离拉近,否则,将该两条增强音频的投影特征之间的距离拉远。
根据步骤103中为每条增强音频标注的声音类别,可得知任两条增强音频是否属于同一声音类别。
步骤107:根据得到的损失函数调整编码层和投影层的权重。
步骤108:重复步骤104-107,直至编码层和投影层收敛。
步骤109:将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测训练过程,直至分类层收敛,则根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型。
在步骤109中,编码层采用的是步骤108中已经收敛的编码层,即编码层的权重在步骤109的训练过程中始终不变,在步骤109的训练过程中,只更新分类层的权重,不更新编码层的权重。
本步骤中,要根据分类层输出的对输入的训练样本的声音类别判别结果以及输入的训练样本的真实声音类别,进行损失函数计算,根据损失函数调整分类层的权重,直至分类层收敛。其中,损失函数可采用交叉熵损失函数。
其中,编码层、投影层和分类层的结构都为神经网络。
上述实施例中,考虑到:为了降低声音事件检测的误唤醒率,需要尽可能多的其他类噪声,这样对训练数据的数目和种类要求很高。从而上述实施例中,在学习声音事件检测模型的编码层时,采用拉近同一声音类别的音频之间的投影特征距离,拉远不同声音类别的音频之间的投影特征距离的学习方法,从而对于未学习到的声音类别,其投影特征会和待检测的声音事件类别的投影特征之间的距离较远,从而提高了声音事件检测模型对噪声的鲁棒性,并使得声音事件检测模型具有更加优良的泛化能力,最终提高了声音事件检测的正确性。
通过步骤101-109可以看出:本发明实施例在建立声音事件检测模型时,共进行了两轮训练,第一轮的结构是:编码层+投影层,在该轮训练过程中,编码层和投影层的权重都要不断地学习,直至收敛;第二轮的结构是:编码层+分类层,其中编码层是第一轮训练后收敛的编码层,在第二轮训练中编码层的权重是保持不变的,在第二轮训练中只对分类层的权重进行学习,当分类层收敛后,则根据收敛的编码层+收敛的分类层得到最终需要的声音事件检测模型。
一可选实施例中,步骤106中,计算当前批处理集的损失函数,包括:
Figure 216334DEST_PATH_IMAGE001
其中,loss为当前批处理集的损失函数,I表示当前批处理集中包含的所有增强音频的集合,i代表I中的任一增强音频,P(i)表示I中与i的声音类别相同的增强音频的集合,p代表P(i)中的任一增强音频,|P(i)|表示P(i)中的增强音频的条数,A(i)表示I中与i的声音类别不同的增强音频的集合,a代表A(i) 中的任一增强音频,Z i 为增强音频i的投影特征,Z p 为增强音频p的投影特征,Z a 为增强音频a的投影特征,τ为常数。
通过上述loss的计算公式可以看出,其中包括属于同一声音类别的增强音频的投影特征之间的距离即:exp(Z i ·Z p /τ),也包括属于不同声音类别的增强音频的投影特征之间的距离即:exp(Z i ·Z a /τ),在训练编码层和投影层时,目标是让loss的取值越来越小,即拉近同一声音类别的音频之间的投影特征距离,拉远不同声音类别的音频之间的投影特征距离,将每一次计算得到的loss值反传以更新编码层和投影层的权重。
一可选实施例中,τ>0。
一可选实施例中,步骤109中,将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测之前,进一步包括:为每一音频训练样本标注声音类别,其中,声音类别包括:一个或多个待检测声音事件类别、非检测语音类别和其他类。
例如:待检测声音事件类别包括:婴儿哭声、玻璃破碎声,则声音类别一共有4类:婴儿哭声、玻璃破碎声、非检测语音类别和其他类。其中,非检测语音类别对应除待检测声音事件外的语音,在训练时,可采用与待检测声音事件的声音较接近的声音如:与婴儿哭声较接近的儿童说话声等。
其他类的训练样本可选择较常见的家居环境噪声等。
上述实施例中,考虑到:若为了提高分类层的分类准确性,在训练样本中包含尽可能多的属于其他类的噪声类别,则会导致样本分布不均衡,使得收敛后的分类层在实际应用中输出的类别会更容易倾向于其他类,同时考虑到:实际环境中,还存在与待检测声音事件类别接近的噪声如:与婴儿哭声接近的儿童说话声,从而上述实施例中,扩展了训练样本的声音类别,即增加了非检测语音类,从而提高了分类层的分类准确性。
一可选实施例中,步骤109中,将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测之前,进一步包括:设定声音事件检测模型的数目,并设定每个声音事件检测模型的超参;
且,步骤109中,将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测训练过程,包括:采用当前待训练声音事件检测模型的超参,将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测训练过程;
且,步骤109中,直至分类层收敛之后、根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型之前,进一步包括:将收敛的编码层和当前收敛的分类层作为当前声音事件检测模型,判断已经得到的声音事件检测模型是否达到设定的数目,若是,执行所述根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型的动作;否则,将当前待训练声音事件检测模型的超参更新为设定的下一待训练声音事件检测模型的超参,并返回上述采用当前待训练声音事件检测模型的超参,将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测训练过程的动作。
一可选实施例中,步骤109中,根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型,包括:
步骤1091:采用测试样本集分别验证已经得到的每个声音事件检测模型的检测正确率,将检测正确率低于预设阈值的声音事件检测模型丢弃。
步骤1092:对剩下的声音事件检测模型,按照检测正确率从高到低的顺序进行排序。
步骤1093:选择排在最前面的声音事件检测模型初始化为最优声音事件检测模型。
步骤1094:从排序后的声音事件检测模型列表中,按顺序选择一个未被选择过的声音事件检测模型,将选择的声音事件检测模型的权重与最优声音事件检测模型的权重进行平均,得到待选声音事件检测模型。
声音事件检测模型的权重包括编码层的各权重和分类层的各权重,本步骤中,将选择的声音事件检测模型与最优声音事件检测模型中的每个相同位置的权重分别进行平均,得到待选声音事件检测模型。
步骤1095:采用测试样本集分别验证最优声音事件检测模型和待选声音事件检测模型的检测正确率。
步骤1096:判断是否满足:最优声音事件检测模型的检测准确率>待选声音事件检测模型的检测正确率,若是,保持最优声音事件检测模型不变,转至步骤1097;否则,以待选声音事件检测模型更新最优声音事件检测模型,转至步骤1097。
步骤1097:判断是否排序后的所有声音事件检测模型都被选择过,若是,将最优声音事件检测模型作为最终使用的声音事件检测模型;否则,返回步骤1094。
上述实施例中,通过以测试样本集的检测准确率为指标进行最优声音事件检测模型的搜索,因此最终得到的最优声音事件检测模型在测试样本集的检测性能一定是不劣于任一原始声音事件检测模型,从而提高了最优声音事件检测在实际使用时的唤醒率,同时降低误唤醒率。
一可选实施例中,步骤109之后,进一步包括:为各待检测声音事件类别设置第一阈值,为非检测语音类别和其他类设置第二阈值,其中,第二阈值大于第一阈值;将待检测音频输入最终使用的声音事件检测模型,若分类层判定待检测音频属于一声音事件类别的判定值大于第一阈值,则发出警报。
在实际应用中,第二阈值要远远大于第一阈值,以降低声音事件的误唤醒率。
图2为本发明实施例提供的声音事件检测模型建立装置的结构示意图,该装置主要包括:数据增强模块21、编码层训练模块22和分类层训练模块23,其中:
数据增强模块21,用于获取音频训练样本,标注每个训练样本对应的声音类别;对每个训练样本分别采用不同的数据增强方式进行数据增强,得到对应的增强音频对;当对所有训练样本都执行完数据增强后,得到各训练样本对应的增强音频对,将得到的各增强音频对划分到多个批处理集中。
编码层训练模块22,用于从数据增强模块21划分的多个批处理集中依次获取一个批处理集,将当前批处理集中的每条增强音频分别依次输入待训练的编码层和投影层,得到每条增强音频对应的投影特征;根据如下原则计算当前批处理集的损失函数:对于当前批处理集中的任两条增强音频,若该两条增强音频属于同一声音类别,则将该两条增强音频的投影特征之间的距离拉近,否则,将该两条增强音频的投影特征之间的距离拉远;根据得到的损失函数调整编码层和投影层的权重;返回依次获取一个批处理集的动作,直至编码层和投影层收敛。
分类层训练模块23,用于将音频训练样本依次输入编码层训练模块22训练完的收敛的编码层和待训练的分类层进行声音事件检测训练过程,直至分类层收敛,则根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型。
一可选实施例中,编码层训练模块22计算当前批处理集的损失函数,包括:
Figure 415234DEST_PATH_IMAGE001
其中,loss为当前批处理集的损失函数,I表示当前批处理集中包含的所有增强音频的集合,i代表I中的任一增强音频,P(i)表示I中与i的声音类别相同的增强音频的集合,p代表P(i)中的任一增强音频,|P(i)|表示P(i)中的增强音频的条数,A(i)表示I中与i的声音类别不同的增强音频的集合,a代表A(i) 中的任一增强音频,Z i 为增强音频i的投影特征,Z p 为增强音频p的投影特征,Z a 为增强音频a的投影特征,τ为常数。
一可选实施例中,τ>0。
一可选实施例中,分类层训练模块23将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测之前,进一步用于:为每一音频训练样本标注声音类别,其中,声音类别包括:一个或多个待检测声音事件类别、非检测语音类别和其他类。
一可选实施例中,分类层训练模块23将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测之前,进一步用于:设定声音事件检测模型的数目,并设定每个声音事件检测模型的超参;
且,分类层训练模块23将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测训练过程,包括:采用当前待训练声音事件检测模型的超参,将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测训练过程;
且,分类层训练模块23根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型之前,进一步用于:将收敛的编码层和当前收敛的分类层作为当前声音事件检测模型,判断已经得到的声音事件检测模型是否达到设定的数目,若是,执行所述根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型的动作;否则,将当前待训练声音事件检测模型的超参更新为设定的下一待训练声音事件检测模型的超参,并返回所述采用当前待训练声音事件检测模型的超参,将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测训练过程的动作。
一可选实施例中,分类层训练模块23根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型,包括:采用测试样本集分别验证已经得到的每个声音事件检测模型的检测正确率,将检测正确率低于预设阈值的声音事件检测模型丢弃;对剩下的声音事件检测模型,按照检测正确率从高到低的顺序进行排序;选择排在最前面的声音事件检测模型初始化为最优声音事件检测模型;从排序后的声音事件检测模型列表中,按顺序选择一个未被选择过的声音事件检测模型,将选择的声音事件检测模型的权重与最优声音事件检测模型的权重进行平均,得到待选声音事件检测模型;采用测试样本集分别验证最优声音事件检测模型和待选声音事件检测模型的检测正确率;判断是否满足:最优声音事件检测模型的检测准确率>待选声音事件检测模型的检测正确率,若是,保持最优声音事件检测模型不变;否则,以待选声音事件检测模型更新最优声音事件检测模型;判断是否排序后的所有声音事件检测模型都被选择过,若是,将最优声音事件检测模型作为最终使用的声音事件检测模型;否则,返回所述从排序后的声音事件检测模型列表中,按顺序选择一个未被选择过的声音事件检测模型的动作。
一可选实施例中,上述装置进一步包括:检测模块,用于为各待检测声音事件类别设置第一阈值,为非检测语音类别和其他类设置第二阈值,其中,第二阈值大于第一阈值;将待检测音频输入最终使用的声音事件检测模型,若分类层判定待检测音频属于一声音事件类别的判定值大于第一阈值,则发出警报。
本发明实施例还提供一种非瞬时计算机可读存储介质,非瞬时计算机可读存储介质存储指令,指令在由处理器执行时使得处理器执行本发明任一实施例所述的方法的步骤。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本申请公开的范围。
本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思路,并不用于限制本申请。对于本领域的技术人员来说,可以依据本发明的思路、精神和原则,在具体实施方式及应用范围上进行改变,其所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种声音事件检测模型建立方法,其特征在于,该方法包括:
A、获取音频训练样本,标注每个训练样本对应的声音类别;对每个训练样本分别采用不同的数据增强方式进行数据增强,得到对应的增强音频对;当对所有训练样本都执行完数据增强后,得到各训练样本对应的增强音频对,将得到的各增强音频对划分到多个批处理集中;
B、依次获取一个批处理集,将当前批处理集中的每条增强音频分别依次输入待训练的编码层和投影层,得到每条增强音频对应的投影特征;根据如下原则计算当前批处理集的损失函数:对于当前批处理集中的任两条增强音频,若该两条增强音频属于同一声音类别,则将该两条增强音频的投影特征之间的距离拉近,否则,将该两条增强音频的投影特征之间的距离拉远;根据得到的损失函数调整编码层和投影层的权重;
C、重复步骤B,直至编码层和投影层收敛;
D、将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测训练过程,直至分类层收敛,则根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型。
2.根据权利要求1所述的方法,其特征在于,所述计算当前批处理集的损失函数,包括:
Figure DEST_PATH_IMAGE001
其中,loss为当前批处理集的损失函数,I表示当前批处理集中包含的所有增强音频的集合,i代表I中的任一增强音频,P(i)表示I中与i的声音类别相同的增强音频的集合,p代表P(i)中的任一增强音频,|P(i)|表示P(i)中的增强音频的条数,A(i)表示I中与i的声音类别不同的增强音频的集合,a代表A(i) 中的任一增强音频,Z i 为增强音频i的投影特征,Z p 为增强音频p的投影特征,Z a 为增强音频a的投影特征,τ为常数。
3.根据权利要求2所述的方法,其特征在于,所述τ>0。
4.根据权利要求1所述的方法,其特征在于,步骤D所述将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测之前,进一步包括:
为每一音频训练样本标注声音类别,其中,声音类别包括:一个或多个待检测声音事件类别、非检测语音类别和其他类。
5.根据权利要求1或4所述的方法,其特征在于,步骤D所述将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测之前,进一步包括:设定声音事件检测模型的数目,并设定每个声音事件检测模型的超参;
且,步骤D所述将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测训练过程,包括:
采用当前待训练声音事件检测模型的超参,将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测训练过程;
且,步骤D所述直至分类层收敛之后、所述根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型之前,进一步包括:
将收敛的编码层和当前收敛的分类层作为当前声音事件检测模型,判断已经得到的声音事件检测模型是否达到设定的数目,若是,执行所述根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型的动作;否则,将当前待训练声音事件检测模型的超参更新为设定的下一待训练声音事件检测模型的超参,并返回所述采用当前待训练声音事件检测模型的超参,将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测训练过程的动作。
6.根据权利要求5所述的方法,其特征在于,步骤D所述根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型,包括:
采用测试样本集分别验证已经得到的每个声音事件检测模型的检测正确率,将检测正确率低于预设阈值的声音事件检测模型丢弃;
对剩下的声音事件检测模型,按照检测正确率从高到低的顺序进行排序;
选择排在最前面的声音事件检测模型初始化为最优声音事件检测模型;
从排序后的声音事件检测模型列表中,按顺序选择一个未被选择过的声音事件检测模型,将选择的声音事件检测模型的权重与最优声音事件检测模型的权重进行平均,得到待选声音事件检测模型;
采用测试样本集分别验证最优声音事件检测模型和待选声音事件检测模型的检测正确率;
判断是否满足:最优声音事件检测模型的检测准确率>待选声音事件检测模型的检测正确率,若是,保持最优声音事件检测模型不变;否则,以待选声音事件检测模型更新最优声音事件检测模型;
判断是否排序后的所有声音事件检测模型都被选择过,若是,将最优声音事件检测模型作为最终使用的声音事件检测模型;否则,返回所述从排序后的声音事件检测模型列表中,按顺序选择一个未被选择过的声音事件检测模型的动作。
7.根据权利要求4所述的方法,其特征在于,所述步骤D之后,进一步包括:
为各待检测声音事件类别设置第一阈值,为非检测语音类别和其他类设置第二阈值,其中,第二阈值大于第一阈值;
将待检测音频输入最终使用的声音事件检测模型,若分类层判定待检测音频属于一声音事件类别的判定值大于第一阈值,则发出警报。
8.一种声音事件检测模型建立装置,其特征在于,该装置包括:
数据增强模块,用于获取音频训练样本,标注每个训练样本对应的声音类别;对每个训练样本分别采用不同的数据增强方式进行数据增强,得到对应的增强音频对;当对所有训练样本都执行完数据增强后,得到各训练样本对应的增强音频对,将得到的各增强音频对划分到多个批处理集中;
编码层训练模块,用于依次获取一个批处理集,将当前批处理集中的每条增强音频分别依次输入待训练的编码层和投影层,得到每条增强音频对应的投影特征;根据如下原则计算当前批处理集的损失函数:对于当前批处理集中的任两条增强音频,若该两条增强音频属于同一声音类别,则将该两条增强音频的投影特征之间的距离拉近,否则,将该两条增强音频的投影特征之间的距离拉远;根据得到的损失函数调整编码层和投影层的权重;返回依次获取一个批处理集的动作,直至编码层和投影层收敛;
分类层训练模块,用于将音频训练样本依次输入收敛的编码层和待训练的分类层进行声音事件检测训练过程,直至分类层收敛,则根据收敛的编码层和收敛的分类层得到最终使用的声音事件检测模型。
9.根据权利要求8所述的装置,其特征在于,所述编码层训练模块计算当前批处理集的损失函数,包括:
Figure 938118DEST_PATH_IMAGE001
其中,loss为当前批处理集的损失函数,I表示当前批处理集中包含的所有增强音频的集合,i代表I中的任一增强音频,P(i)表示I中与i的声音类别相同的增强音频的集合,p代表P(i)中的任一增强音频,|P(i)|表示P(i)中的增强音频的条数,A(i)表示I中与i的声音类别不同的增强音频的集合,a代表A(i) 中的任一增强音频,Z i 为增强音频i的投影特征,Z p 为增强音频p的投影特征,Z a 为增强音频a的投影特征,τ为常数。
10.一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,其特征在于,所述指令在由处理器执行时使得所述处理器执行如权利要求1至7中任一项所述的方法的步骤。
CN202211186501.4A 2022-09-28 2022-09-28 声音事件检测模型建立方法、装置及可读存储介质 Active CN115273819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211186501.4A CN115273819B (zh) 2022-09-28 2022-09-28 声音事件检测模型建立方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211186501.4A CN115273819B (zh) 2022-09-28 2022-09-28 声音事件检测模型建立方法、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN115273819A true CN115273819A (zh) 2022-11-01
CN115273819B CN115273819B (zh) 2022-12-06

Family

ID=83756981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211186501.4A Active CN115273819B (zh) 2022-09-28 2022-09-28 声音事件检测模型建立方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN115273819B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180122171A (ko) * 2017-05-02 2018-11-12 서강대학교산학협력단 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치
US10783434B1 (en) * 2019-10-07 2020-09-22 Audio Analytic Ltd Method of training a sound event recognition system
CN112559797A (zh) * 2020-12-22 2021-03-26 湖南大学 一种基于深度学习的音频多标签分类方法
CN112820322A (zh) * 2021-03-18 2021-05-18 中国科学院声学研究所 一种基于自监督对比学习的半监督音频事件标注方法
CN113205820A (zh) * 2021-04-22 2021-08-03 武汉大学 一种用于声音事件检测的声音编码器的生成方法
CN113470695A (zh) * 2021-06-30 2021-10-01 平安科技(深圳)有限公司 声音异常检测方法、装置、计算机设备及存储介质
CN113807408A (zh) * 2021-08-26 2021-12-17 华南理工大学 基于数据驱动的有监督字典学习音频分类方法、系统及介质
CN114333895A (zh) * 2022-01-10 2022-04-12 阿里巴巴达摩院(杭州)科技有限公司 语音增强模型、电子设备、存储介质和相关方法
CN114664290A (zh) * 2022-05-17 2022-06-24 深圳比特微电子科技有限公司 声音事件检测方法、装置及可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180122171A (ko) * 2017-05-02 2018-11-12 서강대학교산학협력단 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치
US10783434B1 (en) * 2019-10-07 2020-09-22 Audio Analytic Ltd Method of training a sound event recognition system
CN112559797A (zh) * 2020-12-22 2021-03-26 湖南大学 一种基于深度学习的音频多标签分类方法
CN112820322A (zh) * 2021-03-18 2021-05-18 中国科学院声学研究所 一种基于自监督对比学习的半监督音频事件标注方法
CN113205820A (zh) * 2021-04-22 2021-08-03 武汉大学 一种用于声音事件检测的声音编码器的生成方法
CN113470695A (zh) * 2021-06-30 2021-10-01 平安科技(深圳)有限公司 声音异常检测方法、装置、计算机设备及存储介质
CN113807408A (zh) * 2021-08-26 2021-12-17 华南理工大学 基于数据驱动的有监督字典学习音频分类方法、系统及介质
CN114333895A (zh) * 2022-01-10 2022-04-12 阿里巴巴达摩院(杭州)科技有限公司 语音增强模型、电子设备、存储介质和相关方法
CN114664290A (zh) * 2022-05-17 2022-06-24 深圳比特微电子科技有限公司 声音事件检测方法、装置及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ACHYUT MANITRIPATHI,ET AL.: "Self-supervised learning for Environmental Sound Classification", 《APPLIED ACOUSTICS》 *
侯元波: "基于模糊标签的音频标记与音频事件检测", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
高旭旭: "基于深度学习的分类预测算法研究及实现", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Also Published As

Publication number Publication date
CN115273819B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN106098059B (zh) 可定制语音唤醒方法及系统
CN110517664B (zh) 多方言识别方法、装置、设备及可读存储介质
Aldosari et al. Fusion in sensor networks with communication constraints
CN107222865A (zh) 基于可疑行为识别的通讯诈骗实时检测方法和系统
CN110309771B (zh) 一种基于gbdt-insgaii的eas声磁系统标签识别算法
CN106710599A (zh) 一种基于深度神经网络的特定声源检测方法与系统
CN110648659B (zh) 基于多任务模型的语音识别与关键词检测装置和方法
CN110349597B (zh) 一种语音检测方法及装置
CN111653275B (zh) 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法
CN111862951B (zh) 语音端点检测方法及装置、存储介质、电子设备
CN112786029B (zh) 使用弱监督数据训练vad的方法及装置
CN114550705A (zh) 对话推荐方法、模型的训练方法、装置、设备及介质
CN112488316A (zh) 事件意图推理方法、装置、设备及存储介质
CN110827809B (zh) 一种基于条件生成式对抗网络的语种识别分类方法
CN113362814B (zh) 一种融合组合模型信息的语音鉴别模型压缩方法
Zeghidour et al. DIVE: End-to-end speech diarization via iterative speaker embedding
CN115273819B (zh) 声音事件检测模型建立方法、装置及可读存储介质
EP3267438B1 (en) Speaker authentication with artificial neural networks
CN111862963B (zh) 语音唤醒方法、装置和设备
US10529339B2 (en) Method and system for facilitating reliable pattern detection
CN114547264A (zh) 一种基于马氏距离和对比学习的新意图数据识别方法
Kachuee et al. Scalable and robust self-learning for skill routing in large-scale conversational ai systems
CN116205221B (zh) 实体识别和文本分类的方法、存储介质和计算机设备
CN110610066B (zh) 仿冒应用检测方法和相关装置
CN111105813B (zh) 朗读评分方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant