CN111681671A - 异常音识别方法、装置及计算机存储介质 - Google Patents
异常音识别方法、装置及计算机存储介质 Download PDFInfo
- Publication number
- CN111681671A CN111681671A CN202010432874.XA CN202010432874A CN111681671A CN 111681671 A CN111681671 A CN 111681671A CN 202010432874 A CN202010432874 A CN 202010432874A CN 111681671 A CN111681671 A CN 111681671A
- Authority
- CN
- China
- Prior art keywords
- sequence
- standard template
- audio
- feature
- feature sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 56
- 238000012216 screening Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 21
- 238000009432 framing Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000002790 cross-validation Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009429 distress Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种异常音识别方法、装置及计算机存储介质,该异常音识别方法包括:获取待测音频数据;将待测音频数据转换为待测音频特征序列;对多个标准模板特征序列进行筛选而保留与待测音频特征序列相似的部分标准模板特征序列;利用形状动态时间规整算法分别计算待测音频特征序列与保留的部分标准模板特征序列之间的相似度;根据待测音频特征序列与保留的部分标准模板特征序列之间的相似度而确定与待测音频特征序列最相似的标准模板特征序列;根据最相似的标准模板特征序列确定待测音频数据中异常音的类别。本申请所提供的异常音识别方法能够快速、准确地识别异常音。
Description
技术领域
本申请涉及异常音检测领域,特别是涉及一种异常音识别方法、装置及计算机存储介质。
背景技术
目前的安防监控的解决方案主要以视频为核心,实现对大场景、动态场所的异常状况的监控和报警,但是视频监控在异常天气或者复杂场合下存在短板,同时视频解决方案对硬件性能要求较高,针对这种情况,现在越来越多的安防领域采用音视频结合的手段,综合两者信息提高监控系统的智能化程度。
当采用音视频结合的手段进行监控时,需要对异常音进行识别,而安防领域的异常音包括爆炸声、枪声、呼救声、玻璃碎裂声音等,针对异常音的识别技术由语音识别技术发展而来,本申请的发明人发现目前进行异常音识别的速度和准确率还有待提高。
发明内容
本申请主要解决的技术问题是提供一种异常音识别方法、装置及计算机存储介质,能够快速、准确地识别异常音。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种异常音识别方法,所述方法包括:获取待测音频数据;将所述待测音频数据转换为待测音频特征序列;对多个标准模板特征序列进行筛选而保留与所述待测音频特征序列相似的部分所述标准模板特征序列;利用形状动态时间规整算法分别计算所述待测音频特征序列与保留的部分所述标准模板特征序列之间的相似度;根据所述待测音频特征序列与保留的部分所述标准模板特征序列之间的相似度而确定与所述待测音频特征序列最相似的标准模板特征序列;根据所述最相似的标准模板特征序列确定所述待测音频数据中异常音的类别。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种异常音识别装置,包括处理器、存储器以及通信电路,所述处理器分别耦接所述存储器、所述通信电路,所述存储器中存储有程序数据,所述处理器通过执行所述存储器内的所述程序数据以实现上述方法中的步骤。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机存储介质,所述计算机存储介质存储有程序数据,所述程序数据能够被处理器执行以实现上述方法中的步骤。
本申请的有益效果是:本申请异常音识别方法一方面先对多个标准模板特征序列进行筛选,只保留与待测音频特征序列相似的部分标准模板特征序列,另一方面利用形状动态时间规整算法分别计算待测音频特征序列与保留的部分标准模板特征序列之间的相似度,从而确定与待测音频特征序列最相似的标准模板特征序列,能够节省计算时间,加快计算速度,以及提高待测音频特征序列与标准模板特征序列之间相似度计算的准确率,间接提高异常音识别的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请异常音识别方法一实施方式的流程示意图;
图2是图1中步骤S120的流程示意图;
图3是图1中步骤S130在一应用场景中的流程示意图;
图4是在对待测音频特征序列和标准模板特征序列进行分割时的示意图;
图5是图1中步骤S130在另一应用场景中的流程示意图;
图6是待测音频特征序列和标准模板特征序列的相对位置示意图;
图7是本申请异常音识别装置一实施方式的结构示意图;
图8是本申请异常音识别装置另一实施方式的结构示意图;
图9是本申请计算机存储介质一实施方式的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参阅图1,图1是本申请异常音识别方法一实施方式的流程示意图。
该异常音识别方法包括:
S110:获取待测音频数据。
通过声音采集设备获取到待测音频数据。
S120:将待测音频数据转换为待测音频特征序列。
对待测音频数据在时间上进行离散化处理而得到待测音频特征序列。
在一应用场景中,如图2所示,步骤S120具体包括:
S121:将待测音频数据进行交叠分帧处理,以得到多个声音帧。
对待测音频数据进行分帧实质上是对待测音频数据进行短时分析,短时分析就是把声音信号分成具有固定周期的时间短段,每个时间短段是相对固定的持续时间片段。
对待测音频数据进行交叠分帧处理就是得到的相邻声音帧之间部分重叠,其中重叠情况可以根据实际情况进行选择,例如在一应用场景中,为了减少能量泄露以及保证音频数据信息的完整性,相邻两帧重叠的部分为帧长的1/3。
S122:计算多个声音帧各自对应的特征矢量。
声音帧对应的特征矢量用于表征声音帧的特征信息。其中,声音帧对应的特征矢量可以是梅尔倒谱系数(MFCC)、线性预测系数(LPC)等。
在一具体实例中,步骤S122具体包括:计算多个声音帧各自对应的梅尔倒谱系数(MFCC)。
具体地,依次对多个声音帧进行加窗处理、FFT变换(快速傅里叶变换)、MEL滤波处理(三角滤波处理)、LOG变换(对数变换)、DCT变换(离散余弦变换)等步骤而得到多个声音帧各自对应的梅尔倒谱系数,其中,梅尔倒谱系数的计算过程属于现有技术,在此不做具体介绍。
S123:将多个声音帧各自对应的特征矢量按照多个声音帧的先后顺序进行排序而组成待测音频特征序列。
S130:对多个标准模板特征序列进行筛选而保留与待测音频特征序列相似的部分标准模板特征序列。
其中,每个标准模板特征序列各自对应一种异常音,例如,有的标准模板特征序列对应枪声,有的标准模板序列对应爆炸声,而有的标准模板特征序列对应呼叫声。
具体地,先粗略估计待测音频特征序列和一标准模板特征序列之间是否相似,若粗略判定待测音频特征序列和该标准模板特征序列不相似,则直接判定待测音频特征序列对应的异常音与标准模板特征序列对应的异常音不同,直接将该标准模板特征序列舍弃,后续不再计算待测音频特征序列与该标准模板特征序列之间的相似度;若粗略判定待测音频特征序列和该标准模板特征序列相似,则保留该标准模板特征序列,后续再通过精确计算待测音频特征序列与该标准模板特征序列之间的相似度而判断待测音频特征序列对应的异常音与该标准模板特征序列对应的异常音是否相同。
最终通过步骤S130可以筛选掉一部分与待测音频特征序列不相似的标准模板特征序列,可以减少后续的计算量,提高整个运行速度。
S140:利用形状动态时间规整算法分别计算待测音频特征序列与保留的部分标准模板特征序列之间的相似度。
形状动态时间规整算法shapeDTW是在传统的动态时间规整算法DTW上进行改进的算法。
具体地,传统的动态时间规整算法DTW(Dynamic Time Warping)基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法,用于孤立词识别。
传统的动态时间规整算法DTW在计算测试序列和模板序列(两个序列的长度可以相等,也可以不等)之间的距离时可以分为三步进行:一是计算测试序列中的每一个特征矢量与模板序列中的每一个特征矢量之间的欧式距离,并基于计算得到的欧式距离构建欧式距离矩阵,二是计算构建的欧式距离矩阵中所有可能路径的距离;三是在计算的所有路径中找出一条累加距离最小的路径。而该最小的累加距离表征着测试序列和模板序列之间的相似度:最小的累加距离越小,测试序列和模板序列越相似。
下面结合数学表达式对动态时间规整算法DTW进行介绍:
假设存在模板序列R和测试序列T,其中,模板序列R可表示为R={R(1),R(2),……,R(m),……,R(M)},m为模板帧的时序标号,m=1为起点帧,m=M为终点帧,因此M为该模板序列所包含的音频帧总数,R(m)为第m帧的音频特征矢量;测试序列T可表示为T={T(1),T(2),……,T(n),……,T(N)},n为测试帧的时序标号,n=1为起点帧,n=N为终点帧,因此N为该测试序列所包含的音频帧总数,T(n)为第n帧的音频特征矢量。
为了比较模板序列R和测试序列T的相似度,可以计算他们之间最小的累加距离,其中,计算出的最小的累加距离越小则相似度越高。
设Tn和Rm分别是测试序列和模板序列中的任意一帧特征矢量,d(Tn,Rm)表示这两帧特征矢量之间的欧式距离,则按照如下公式找到模板序列R和测试序列T之间最小的累加距离l(n,m),公式如下:
l(n,m)=d(Tn,Rm)+min{l(n-1,m),l(n,m-1),l(n-1,m-1)}
以上为传统的动态时间规整算法DTW的简单过程的介绍,由于传统的动态时间规整算法DTW属于现有技术,因此在此不再做具体介绍。
传统的动态时间规整算法DTW虽然可以得到全局最优解,但是没有考虑局部特征的上下文信息,基于此,形状动态时间规整算法shapeDTW解决了该问题,具体地,形状动态时间规整算法shapeDTW在计算模板序列R和测试序列T中任意两帧特征矢量之间的距离时,并不是单纯计算这两个特征矢量之间的欧式距离,而是先分别计算这两个特征矢量各自的描述符序列,然后再计算这两个描述符序列之间的距离,具体过程如下:
首先确定特征矢量Tn的描述符序列:在一应用场景中,先确定特征矢量Tn周围的L个特征矢量,并将该L个特征矢量分为等长的p个区间(p小于L),然后求取每个区间的平均值,最后将每个区间对应的平均值按照区间的先后顺序进行排序后组成特征矢量Tn的描述符序列。
按照上述同样的方法确定特征矢量Rm的描述符序列。
计算特征矢量Tn的描述符序列和特征矢量Rm的描述符序列之间的欧式距离d′(Tn,Rm)。
然后按照如下公式找到模板序列R和测试序列T之间最小的累加距离l′(n,m):
l′(n,m)=d′(Tn,Rm)+min{l′(n-1,m),l′(n,m-1),l′(n-1,m-1)}
其中,在其他应用场景中,还可以将Tn或者Rm周围的L个特征矢量按照进行音频帧的先后排序进行排序后而得到特征矢量Tn或特征矢量Rm的描述符序列,或者,在将L个特征矢量分为等长的p个区间(p小于L)后,不是求取每个区间的平均值,而是求取每个区间的最大值、最小值或者方差等,而后将对应的计算值进行排序而得到描述符序列,总而言之,如何得到特征矢量Tn或者Rm的描述符序列在此不做限制,只要该描述符特征序列能够描述特征矢量Tn或者Rm的上下文信息即可。
相比动态时间规整算法DTW,利用形状动态时间规整算法shapeDTW计算两个序列之间的相似度的准确率更高。
S150:根据待测音频特征序列与保留的部分标准模板特征序列之间的相似度而确定与待测音频特征序列最相似的标准模板特征序列。
S160:根据最相似的标准模板特征序列确定待测音频数据中异常音的类别。
若保留的一个标准模板特征序列与待测音频特征序列之间的相似度最高,则说明该标准模板特征序列对应的异常音与待测音频特征序列对应的异常音最接近,因此可确定待测音频数据中异常音的类别。
在上述实施方式中,一方面先对多个标准模板特征序列进行筛选,只保留与待测音频特征序列相似的部分标准模板特征序列,另一方面利用形状动态时间规整算法分别计算待测音频特征序列与保留的部分标准模板特征序列之间的相似度,从而确定与待测音频特征序列最相似的标准模板特征序列,能够节省计算时间,加快计算速度,以及提高待测音频特征序列与标准模板特征序列之间相似度计算的准确率,间接提高异常音识别的准确率。
参阅图3,图3是图1中步骤S130在一应用场景中的流程示意图,步骤S130具体包括:
S1311:确定一标准模板特征序列。
S1312:将待测音频特征序列分割成自左向右依次排列的待测音频第一子特征序列和待测音频第二子特征序列,以及将确定的标准模板特征序列分割成自左向右依次排列的标准模板第一子特征序列和标准模板第二子特征序列,其中,待测音频第一子特征序列和标准模板第一子特征序列的长度相等。
S1313:利用动态时间规整算法计算待测音频第一子特征序列和标准模板第一子特征序列之间的第一距离值,以及利用LB_Keogh算法计算待测音频第二子特征序列和标准模板第二子特征序列之间的第二距离值,而后将第一距离值和第二距离值相加而得到第三距离值。
S1314:判断是否存在最短距离值。
若判定不存在最短距离值,则进入步骤S1315,否则进入步骤S1316。
S1315:将第三距离值保存为最短距离值,并保留确定的标准模板特征序列。
在执行完步骤S1315后,进入步骤S1319。
S1316:判断第三距离值是否小于最短距离值。
若判定第三距离值小于最短距离值,则进入步骤S1317,否则进入步骤S1318。
S1317:利用第三距离值替代最短距离值,并保留确定的标准模板特征序列。
在执行完步骤S1317后,进入步骤S1319。
S1318:舍弃确定的标准模板特征序列。
在执行完步骤S1318后,进入步骤S1319。
S1319:判断是否遍历所有的标准模板特征序列。
若判断结果为是,则结束流程,若判断结果为否,则返回执行步骤1311。
具体地,在多个标准模板特征序列中随机或者按照预定策略确定一标准模板特征序列。
将待测音频特征序列和该确定的标准模板特征序列左端对齐后,如图4所示,用分割线k(图中虚线所示)分割待测音频特征序列和该确定的标准模板特征序列,从而得到待测音频第一子特征序列、待测音频第二子特征序列、标准模板第一子特征序列和标准模板第二子特征序列,其中,待测音频第一子特征序列和标准模板第一子特征序列长度相等,待测音频第二子特征序列和标准模板第二子特征序列长度相等或不等,具体由待测音频特征序列和该确定的标准模板特征序列的总长度决定。
计算动态时间规整算法DTW计算待测音频第一子特征序列和标准模板第一子特征序列之间的第一距离值d1。其中,如何计算第一距离值属于现有技术,在此不做具体介绍。
利用LB_Keogh算法计算待测音频第二子特征序列和标准模板第二子特征序列之间的第二距离值d2。
其中,LB_Keogh算法是由Keogh提出的一种距离算法,其具体计算过程如下:
分别将标准模板第二子特征序列和待测音频第二子特征序列记为Q和C,其中,Q={q1,q2,…,qi,…,qm},C={c1,c2,…,ci,…,cn},其中,m和n的值相等或不等。
当m和n相等,即Q={q1,q2,…,qi,…,qn},C={c1,c2,…,ci,…,cn}时,首先确定Q的上包络线U和下包络线L,其中,Ui=max(qi-r:qi+r),Li=min(qi-r:qi+r),其中,r为滑行窗距离,可自行定义,U为上包络线,即为序列Q中每一个特征矢量前后步长r中的最大值,L为下包络线,即为序列Q中每一个特征矢量前后步长r中的最小值;在确定上下包络线后,按照如下公式计算序列Q和C之间的LB_Keogh值,即第二距离值d2:
当m和n不相等时,首先确定Q和C中的短序列,然后以短序列为标准对长序列自左向右进行截取,使得长序列经过截取后而得到的新序列和短序列一样长,然后按照上述m和n相等的情况计算新序列和短序列之间的LB_Keogh值,该LB_Keogh值即为序列Q和C之间的LB_Keogh值,即第二距离值d2。
在计算得到第一距离值和第二距离值后,将第一距离值和第二距离值相加得到第三距离值。该第三距离值是对待测音频特征序列和确定的标准模板特征序列之间相似度的一个估算值,其中,第三距离值越大,表明待测音频特征序列和标准模板特征序列越不相似。
判断是都存在最短距离值。
若不存在最短距离值,则说明上述确定的标准模板特征序列是第一次确定的标准模板特征序列,则将第三距离值保存为最短距离值,并保留该确定的标准模板特征序列。
若存在最短距离值,则说明上述确定的标准模板特征序列不是第一次确定的标准模板特征序列,在此之前已经粗略地计算过待测音频特征序列与其他的标准模板特征序列之间的相似度。而后判断第三距离值是否小于最短距离值。
若第三距离值小于最短距离值,则说明待测音频特征序列与该确定的标准模板特征序列是相似的,且该确定的标准模板特征序列可能是与待测音频特征序列最相似的标准模板特征序列,而后将第三距离值替代最短距离值,并保留该确定的标准模板特征序列。
若第三距离值大于最短距离值,说明待测音频特征序列与之前确定的标准模板特征序列更加相似,此次确定的标准模板特征序列在很大概率上不可能是与待测音频特征序列最相似的标准模板特征序列,则将此次确定的标准模板特征序列舍弃。
重复上述步骤,直至遍历所有的标准模板特征序列。
经过上述步骤,能够对所有的标准模板特征序列进行一次初筛,将与待测音频特征序列不相似的一些标准模板特征序列舍弃掉。
参阅图5,图5是图1中步骤S130在另一应用场景中的流程示意图,步骤S130具体包括:
S1321:确定一标准模板特征序列。
S1322:计算待测音频特征序列与确定的标准模板特征序列各自起点之间的第一距离值、各自终点之间的第二距离值、各自最高点之间的第三距离值以及各自最低点之间的第四距离值。
如图6所示,两个序列各自起点之间的第一距离值为A,各自终点之间的第二距离值为B,各自最高点之间的第三距离值为C,各自最低点之间的第四距离值为D。
S1323:查询第一距离值、第二距离值、第三距离值以及第四距离值中的最大值。
S1324:判断最大值是否大于距离阈值。
若判断结果为是,则进入步骤S1325,若判断结果为否,则进入步骤S1326。
其中,距离阈值可以由设计人员预先设置。
S1325:舍弃确定的标准模板特征序列。
执行完步骤S1325后,进入步骤S1327。
S1326:保留确定的标准模板特征序列。
执行完步骤S1326后,进入步骤S1327。
S1327:判断是否遍历所有的标准模板特征序列。
若判断结果为是,则结束流程,若判断结果为否,则返回执行步骤S1321。
通过上述方法也能够对多个标准音频特征序列进行初筛。
当然在其他应用场景中也可以通过其他方法对多个标准音频特征序列进行初筛,在此不做限制。
在本实施方式中,在步骤S130之前还包括:分别对待测音频特征序列和至少一标准模板特征序列进行标准化处理。
对待测音频特征序列和标准模板特征序列进行标准化处理能够进一步提高整个运算速度。
在一应用场景中,对待测音频特征序列和标准模板特征序列进行z-标准化(z-normalization)处理。
具体地,利用如下公式分别对待测音频特征序列和标准模板特征序列进行处理:
在本实施方式中,为了获取有用的异常音有效音频,在步骤S120之前还包括:利用语音端点检测技术对待测音频数据进行处理,后续步骤S120将经过处理后的待测音频数据转换为待测音频特征序列。
具体地,语音端点检测技术(Voice Activity Detection,VAD)的目的是对语音和非语音的区域进行区分,通俗地理解就是在带有噪声的语音中准确地定位出语音的开始点和结束点,去掉静音和噪声的部分,从而找出一端语音真正有效的内容。
本实施方式在将待测音频数据转换为待测音频特征序列之前,利用语音端点检测技术对待测音频数据进行处理,能够减少背景噪音对异常音有效音频段的干扰,为后续快速、准确地识别异常音提供技术支持。
在本实施方式中,在步骤S110之前,还包括:
A:获取多个样本音频数据。
多个样本音频数据对应着同一种类别的异常音。
B:分别将多个样本音频数据转换为样本音频特征序列。
将样本音频数据转换为样本音频特征序列的过程与上述将待测音频数据转换为待测音频特征序列的过程相同,在此不再赘述。
其中,待测音频特征序列与样本音频特征序列采用相同的特征矢量(例如都采用MFCC)、相同的帧长、相同的窗函数和相同的帧移。
在一应用场景中,在将样本音频数据转换为样本音频特征序列之前,也会利用语音端点检测技术VAD对样本音频数据进行处理。
C:计算多个样本音频特征序列中每个样本音频特征序列与其他的样本音频特征序列之间的相似度之和。
D:将与其他的样本音频特征序列之间的相似度之和最大的样本音频特征序列作为标准模板特征序列。
具体地,利用动态时间规整算法DTW或者形状动态时间规整算法shapeDTW计算两个样本音频特征序列之间的相似度。
若一个样本音频特征序列与其他的样本音频特征序列之间的相似度之和最大,则说明该样本音频特征序列与其他的样本音频特征序列均比较相似,将该样本音频特征序列作为标准模板特征序列而代表着一种类别的异常音。
在本实施方式中,在步骤S110之前,还包括:
E:获取多个样本音频数据。
F:分别将多个样本音频数据转换为样本音频特征序列。
G:利用交叉验证法对多个样本音频特征序列进行处理而得到标准模板特征序列。
具体地,在利用交叉验证法对多个样本音频特征序列进行处理时,先将多个样本音频特征序列随机划分为N份,其中取一份作为测试集,另(N-1)份作为训练集,然后基于训练集训练出一个模板特征序列,而后观察模板特征序列对测试集进行识别的准确率。
接着再对多个样本音频特征序列进行重新划分,重复N次上述过程,最后选取对测试集进行识别的准确率最高的模板特征序列作为最终的标准模板特征序列。
通过交叉验证法对多个样本音频特征序列进行处理,能够避免在训练过程中训练集和测试集高度重合,保证最后得到的标准模板特征序列具有较高的代表性。
参阅图7,图7是本申请异常音识别装置一实施方式的结构示意图,该异常音识别装置200包括处理器210、存储器220以及通信电路230。
其中,处理器210分别耦接存储器220、通信电路230,存储器220中存储有程序数据,处理器210通过执行存储器220内的程序数据以实现上述异常音识别方法中的步骤,详细的方法可参见上述实施方式,在此不再赘述。
其中,该异常音识别装置200可以是任一项具有声音处理能力的装置,例如手机、电脑等,在此不做限制。
参阅图8,图8是本申请异常音识别装置一实施方式的结构示意图,该异常音识别装置300包括:数据获取模块310、数据转换模块320、序列筛选模块330、相似度计算模块340、相似度比较模块350以及类别确定模块360。
数据获取模块310用于获取待测音频数据。
数据转换模块320与数据获取模块310连接,用于将待测音频数据转换为待测音频特征序列。
序列筛选模块330与数据转换模块320连接,用于对多个标准模板特征序列进行筛选而保留与待测音频特征序列相似的部分标准模板特征序列。
相似度计算模块340与序列筛选模块330连接,用于利用形状动态时间规整算法分别计算待测音频特征序列与保留的部分标准模板特征序列之间的相似度。
相似度比较模块350与相似度计算模块340连接,用于根据待测音频特征序列与保留的部分标准模板特征序列之间的相似度而确定与待测音频特征序列最相似的标准模板特征序列。
类别确定模块360与相似度比较模块350连接,用于根据最相似的标准模板特征序列确定待测音频数据中异常音的类别。
在一实施方式中,序列筛选模块330具体用于确定一标准模板特征序列;将待测音频特征序列分割成自左向右依次排列的待测音频第一子特征序列和待测音频第二子特征序列;将确定的标准模板特征序列分割成自左向右依次排列的标准模板第一子特征序列和标准模板第二子特征序列,其中,待测音频第一子特征序列和标准模板第一子特征序列的长度相等;利用动态时间规整算法计算待测音频第一子特征序列和标准模板第一子特征序列之间的第一距离值,以及利用LB_Keogh算法计算待测音频第二子特征序列和标准模板第二子特征序列之间的第二距离值,而后将第一距离值和第二距离值相加而得到第三距离值;判断是否存在最短距离值;若不存在,则将第三距离值保存为最短距离值,并保留确定的标准模板特征序列;若存在,则判断第三距离值是否小于最短距离值;若第三距离值小于最短距离值,则利用第三距离值替代最短距离值,并保留确定的标准模板特征序列,否则则舍弃确定的标准模板特征序列;返回执行确定一标准模板特征序列的步骤,直至遍历所有的标准模板特征序列。
在一实施方式中,序列筛选模块330具体用于确定一标准模板特征序列;计算待测音频特征序列与确定的标准模板特征序列各自起点之间的第一距离值、各自终点之间的第二距离值、各自最高点之间的第三距离值以及各自最低点之间的第四距离值;查询第一距离值、第二距离值、第三距离值以及第四距离值中的最大值;判断最大值是否大于距离阈值;若最大值大于距离阈值,则舍弃确定的标准模板特征序列,否则则保留确定的标准模板特征序列;返回执行确定一标准模板特征序列的步骤,直至遍历所有的标准模板特征序列。
在一实施方式中,异常音识别装置300还包括预处理模块,用于分别对待测音频特征序列和至少一标准模板特征序列进行标准化处理,或者,用于利用语音端点检测技术对待测音频数据进行处理。
在一实施方式中,数据转换模块320包括分帧单元、矢量计算单元以及排序单元。分帧单元用于将待测音频数据进行交叠分帧处理,以得到多个声音帧;矢量计算单元用于计算多个声音帧各自对应的特征矢量;排序单元用于将多个声音帧各自对应的特征矢量按照多个声音帧的先后顺序进行排序而组成待测音频特征序列。
在一实施方式中,异常音识别装置300还包括模板特征序列建立模块。模板特征序列建立模块用于获取多个样本音频数据;分别将多个样本音频数据转换为样本音频特征序列;计算多个样本音频特征序列中每个样本音频特征序列与其他的样本音频特征序列之间的相似度之和;将与其他的样本音频特征序列之间的相似度之和最大的样本音频特征序列作为标准模板特征序列,或者,模板特征序列建立模块用于获取多个样本音频数据;分别将多个样本音频数据转换为样本音频特征序列;利用交叉验证法对多个样本音频特征序列进行处理而得到标准模板特征序列。
其中,该异常音识别装置300可以是任一项具有声音处理能力的装置,例如手机、电脑等,且其采用上述任一项实施方式中的方法对异常音进行识别,详细方法可参见上述实施方式,在此不再赘述。
参阅图9,图9是本申请计算机存储介质一实施方式的结构示意图。该计算机存储介质400存储有程序数据410,该程序数据410能够被处理器执行以实现上述任一项实施方式中的方法,其中详细的方法可参见上述实施方式,在此不再赘述。
其中计算机存储介质400具体可以为U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等可以存储程序数据410的装置,或者也可以为存储有该程序数据410的服务器,该服务器可将存储的程序数据410发送给其他设备运行,或者也可以自运行该存储的程序数据410。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种异常音识别方法,其特征在于,所述方法包括:
获取待测音频数据;
将所述待测音频数据转换为待测音频特征序列;
对多个标准模板特征序列进行筛选而保留与所述待测音频特征序列相似的部分所述标准模板特征序列;
利用形状动态时间规整算法分别计算所述待测音频特征序列与保留的部分所述标准模板特征序列之间的相似度;
根据所述待测音频特征序列与保留的部分所述标准模板特征序列之间的相似度而确定与所述待测音频特征序列最相似的标准模板特征序列;
根据所述最相似的标准模板特征序列确定所述待测音频数据中异常音的类别。
2.根据权利要求1所述的方法,其特征在于,所述对多个标准模板特征序列进行筛选而保留与所述待测音频特征序列相似的部分所述标准模板特征序列的步骤,包括:
确定一所述标准模板特征序列;
将所述待测音频特征序列分割成自左向右依次排列的待测音频第一子特征序列和待测音频第二子特征序列;
将确定的所述标准模板特征序列分割成自左向右依次排列的标准模板第一子特征序列和标准模板第二子特征序列,其中,所述待测音频第一子特征序列和所述标准模板第一子特征序列的长度相等;
利用动态时间规整算法计算所述待测音频第一子特征序列和所述标准模板第一子特征序列之间的第一距离值,以及利用LB_Keogh算法计算所述待测音频第二子特征序列和所述标准模板第二子特征序列之间的第二距离值,而后将所述第一距离值和所述第二距离值相加而得到第三距离值;
判断是否存在最短距离值;
若不存在,则将所述第三距离值保存为所述最短距离值,并保留确定的所述标准模板特征序列;
若存在,则判断所述第三距离值是否小于所述最短距离值;
若所述第三距离值小于所述最短距离值,则利用所述第三距离值替代所述最短距离值,并保留确定的所述标准模板特征序列,否则则舍弃确定的所述标准模板特征序列;
返回执行所述确定一所述标准模板特征序列的步骤,直至遍历所有的所述标准模板特征序列。
3.根据权利要求1所述的方法,其特征在于,所述对多个标准模板特征序列进行筛选而保留与所述待测音频特征序列相似的部分所述标准模板特征序列的步骤,包括:
确定一所述标准模板特征序列;
计算所述待测音频特征序列与确定的所述标准模板特征序列各自起点之间的第一距离值、各自终点之间的第二距离值、各自最高点之间的第三距离值以及各自最低点之间的第四距离值;
查询所述第一距离值、所述第二距离值、所述第三距离值以及所述第四距离值中的最大值;
判断所述最大值是否大于距离阈值;
若所述最大值大于所述距离阈值,则舍弃确定的所述标准模板特征序列,否则则保留确定的所述标准模板特征序列;
返回执行所述确定一所述标准模板特征序列的步骤,直至遍历所有的所述标准模板特征序列。
4.根据权利要求1所述的方法,其特征在于,在所述对多个标准模板特征序列进行筛选而保留与所述待测音频特征序列相似的部分所述标准模板特征序列之前,还包括:
分别对所述待测音频特征序列和多个所述标准模板特征序列进行标准化处理。
5.根据权利要求1所述的方法,其特征在于,所述将所述待测音频数据转换为待测音频特征序列的步骤,包括:
将所述待测音频数据进行交叠分帧处理,以得到多个声音帧;
计算所述多个声音帧各自对应的特征矢量;
将所述多个声音帧各自对应的特征矢量按照所述多个声音帧的先后顺序进行排序而组成所述待测音频特征序列。
6.根据权利要求1所述的方法,其特征在于,在所述将所述待测音频数据转换为待测音频特征序列之前,还包括:
利用语音端点检测技术对所述待测音频数据进行处理。
7.根据权利要求1所述的方法,其特征在于,在所述获取待测音频数据之前,还包括:
获取多个样本音频数据;
分别将所述多个样本音频数据转换为样本音频特征序列;
计算多个所述样本音频特征序列中每个所述样本音频特征序列与其他的所述样本音频特征序列之间的相似度之和;
将与其他的所述样本音频特征序列之间的相似度之和最大的所述样本音频特征序列作为所述标准模板特征序列。
8.根据权利要求1所述的方法,其特征在于,在所述获取待测音频数据之前,还包括:
获取多个样本音频数据;
分别将所述多个样本音频数据转换为样本音频特征序列;
利用交叉验证法对多个所述样本音频特征序列进行处理而得到所述标准模板特征序列。
9.一种异常音识别装置,其特征在于,包括处理器、存储器以及通信电路,所述处理器分别耦接所述存储器、所述通信电路,所述存储器中存储有程序数据,所述处理器通过执行所述存储器内的所述程序数据以实现如权利要求1-8任一项所述方法中的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有程序数据,所述程序数据能够被处理器执行以实现如权利要求1至8任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010432874.XA CN111681671B (zh) | 2020-05-20 | 2020-05-20 | 异常音识别方法、装置及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010432874.XA CN111681671B (zh) | 2020-05-20 | 2020-05-20 | 异常音识别方法、装置及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111681671A true CN111681671A (zh) | 2020-09-18 |
CN111681671B CN111681671B (zh) | 2023-03-10 |
Family
ID=72433861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010432874.XA Active CN111681671B (zh) | 2020-05-20 | 2020-05-20 | 异常音识别方法、装置及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111681671B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112565183A (zh) * | 2020-10-29 | 2021-03-26 | 中国船舶重工集团公司第七0九研究所 | 一种基于流式动态时间规整算法的网络流量异常检测方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02236599A (ja) * | 1988-01-20 | 1990-09-19 | Ricoh Co Ltd | 話者照合方式 |
JPH0432899A (ja) * | 1990-05-30 | 1992-02-04 | Casio Comput Co Ltd | 音声信号のピッチ検出装置 |
JPH07306692A (ja) * | 1994-05-13 | 1995-11-21 | Matsushita Electric Ind Co Ltd | 音声認識装置及び音声入力装置 |
US20100049072A1 (en) * | 2008-08-22 | 2010-02-25 | International Business Machines Corporation | Method and apparatus for retrieval of similar heart sounds from a database |
CN104464754A (zh) * | 2014-12-11 | 2015-03-25 | 北京中细软移动互联科技有限公司 | 声音商标检索方法 |
CN108922541A (zh) * | 2018-05-25 | 2018-11-30 | 南京邮电大学 | 基于dtw和gmm模型的多维特征参数声纹识别方法 |
CN110047515A (zh) * | 2019-04-04 | 2019-07-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频识别方法、装置、设备及存储介质 |
-
2020
- 2020-05-20 CN CN202010432874.XA patent/CN111681671B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02236599A (ja) * | 1988-01-20 | 1990-09-19 | Ricoh Co Ltd | 話者照合方式 |
JPH0432899A (ja) * | 1990-05-30 | 1992-02-04 | Casio Comput Co Ltd | 音声信号のピッチ検出装置 |
JPH07306692A (ja) * | 1994-05-13 | 1995-11-21 | Matsushita Electric Ind Co Ltd | 音声認識装置及び音声入力装置 |
US20100049072A1 (en) * | 2008-08-22 | 2010-02-25 | International Business Machines Corporation | Method and apparatus for retrieval of similar heart sounds from a database |
CN104464754A (zh) * | 2014-12-11 | 2015-03-25 | 北京中细软移动互联科技有限公司 | 声音商标检索方法 |
CN108922541A (zh) * | 2018-05-25 | 2018-11-30 | 南京邮电大学 | 基于dtw和gmm模型的多维特征参数声纹识别方法 |
CN110047515A (zh) * | 2019-04-04 | 2019-07-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频识别方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
姚光超等: "基于MPI+GPU的哼唱检索系统加速", 《计算机工程与科学》 * |
张涛等: "一种用于枪声的多级检测识别技术", 《电子设计工程》 * |
谢忠好等: "24小时便携式咳嗽音信号监测", 《数理医药学杂志》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112565183A (zh) * | 2020-10-29 | 2021-03-26 | 中国船舶重工集团公司第七0九研究所 | 一种基于流式动态时间规整算法的网络流量异常检测方法及装置 |
CN112565183B (zh) * | 2020-10-29 | 2022-12-09 | 中国船舶重工集团公司第七0九研究所 | 一种基于流式动态时间规整算法的网络流量异常检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111681671B (zh) | 2023-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6938784B2 (ja) | オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体 | |
CN109473123B (zh) | 语音活动检测方法及装置 | |
CN109584884B (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
WO2019134247A1 (zh) | 基于声纹识别模型的声纹注册方法、终端装置及存储介质 | |
US20160111112A1 (en) | Speaker change detection device and speaker change detection method | |
US20030231775A1 (en) | Robust detection and classification of objects in audio using limited training data | |
WO2017162053A1 (zh) | 一种身份认证的方法和装置 | |
US20130035933A1 (en) | Audio signal processing apparatus and audio signal processing method | |
CN112053695A (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN111816185A (zh) | 一种对混合语音中说话人的识别方法及装置 | |
JP3298858B2 (ja) | 低複雑性スピーチ認識器の区分ベースの類似性方法 | |
CA2304747C (en) | Pattern recognition using multiple reference models | |
CN110164417A (zh) | 一种语种向量获得、语种识别的方法和相关装置 | |
CN111681671B (zh) | 异常音识别方法、装置及计算机存储介质 | |
JPWO2020003413A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
CN110875044B (zh) | 一种基于字相关得分计算的说话人识别方法 | |
Herrera-Camacho et al. | Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE | |
CN112992175B (zh) | 一种语音区分方法及其语音记录装置 | |
CN111933153B (zh) | 一种语音分割点的确定方法和装置 | |
CN113327618A (zh) | 声纹判别方法、装置、计算机设备和存储介质 | |
US12118987B2 (en) | Dialog detector | |
CN112185347A (zh) | 语种识别方法、装置、服务器及存储介质 | |
EP1488410B1 (en) | Distortion measure determination in speech recognition | |
Tahliramani et al. | Performance Analysis of Speaker Identification System With and Without Spoofing Attack of Voice Conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |