CN112735466B - 一种音频检测方法及装置 - Google Patents
一种音频检测方法及装置 Download PDFInfo
- Publication number
- CN112735466B CN112735466B CN202011582010.2A CN202011582010A CN112735466B CN 112735466 B CN112735466 B CN 112735466B CN 202011582010 A CN202011582010 A CN 202011582010A CN 112735466 B CN112735466 B CN 112735466B
- Authority
- CN
- China
- Prior art keywords
- frame
- voice
- feature
- initial
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims abstract description 9
- 238000011176 pooling Methods 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 abstract description 11
- 238000004220 aggregation Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 28
- 239000013598 vector Substances 0.000 description 27
- 230000008569 process Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 238000005520 cutting process Methods 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及计算机技术领域,公开了一种音频检测方法及装置,用以解决在检测时长较短或较长的声音事件时,检测准确率低的问题。该方法包括:对音频进行时频转换处理得到声谱图,对声谱图进行特征提取,确定各帧的初始语音特征,并对归属于同一帧的初始语音特征进行聚合处理,得到各帧的聚合语音特征;分别确定各个初始语音特征的第一上下文关联度,和各个聚合语音特征的第二上下文关联度;基于各个第一上下文关联度确定各帧包含的声音事件,以及基于各个第二上下文关联度对各帧包含的声音事件进行分类,并确定各个声音事件的起止时间。基于各个第一上下文关联度和各个第二上下文关联度,检测音频所包含的每类声音事件的起止时间,提高检测准确率。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种音频检测方法及装置。
背景技术
随着人工智能的飞速发展,在物联网、移动导航设备等领域以及视觉信息不明确的情况下,采用深度学习技术检测音频,感知计算音频中包含的声音事件,以及对应的声音事件发生的时间段,为用户提供更好的响应服务。
声音事件是时序信号,因此,在检测声音事件时,其上下文的相关性是非常重要的,深度学习模型难以捕获时长较短的声音事件,导致该声音事件被忽略,进而出现删除该声音事件的错误;深度学习模型也难以检测出时长较长的声音事件,会将一个声音事件切割为多个声音事件,进而出现插入错误。
有鉴于此,需要设计一种新的音频检测方法,以克服上述缺陷。
发明内容
本申请实施例提供一种音频检测方法及装置,用以解决在检测时长较短或较长的声音事件时,检测准确率低的问题。
本申请实施例提供的具体技术方案如下:
第一方面,本申请实施例提供了一种音频检测方法,包括:
对音频进行时频转换处理得到声谱图,所述声谱图上的每一帧对应一个语音信号组,所述一个语音信号组中各个语音信号的频率不同;
对所述声谱图进行特征提取,确定各帧的初始语音特征,并对归属于同一帧的初始语音特征进行聚合处理,确定各帧的聚合语音特征;
分别确定各个初始语音特征的第一上下文关联度,和各个聚合语音特征的第二上下文关联度,其中,一个第一上下文关联度表征了一个初始语音特征与所述各个初始语音特征之间的相关性,一个第二上下文关联度表征了一个聚合语音特征与所述各个聚合语音特征之间的相关性;
基于各个第一上下文关联度确定各帧包含的声音事件,以及基于各个第二上下文关联度对各帧包含的声音事件进行分类,并确定各个声音事件的起止时间。
可选的,对所述声谱图进行特征提取,确定各帧的初始语音特征,包括:
将所述声谱图输入梅尔滤波器中,将各帧所包含的频谱转换为梅尔特征,并将各帧的梅尔特征作为所述各帧的初始语音特征。
可选的,对归属于同一帧的初始语音特征进行聚合处理,确定各帧的聚合语音特征,包括:
对归属于同一帧中且处于不同频率的初始语音特征进行池化处理,确定所述各帧的聚合语音特征。
可选的,在确定各帧的初始语音特征和聚合语音特征之后,在确定各个第一上下文关联度和第二上下文关联度之前,进一步包括:
根据设定的单位频率的长度,分别确定所述各帧的初始语音特征的位置编码,以及所述各帧的聚合语音特征的位置编码。
可选的,通过以下方式确定所述各个声音事件的起止时间,包括:
分别将归属于同一声音事件的帧数总和与设定的单位帧长相乘,将各个乘积结果确定为对应的声音事件的起止时间。
第二方面,本申请实施例还提供了一种音频检测装置,包括:
转换单元,用于对音频进行时频转换处理得到声谱图,所述声谱图上的每一帧对应一个语音信号组,所述一个语音信号组中各个语音信号的频率不同;
特征提取单元,用于对所述声谱图进行特征提取,确定各帧的初始语音特征,并对归属于同一帧的初始语音特征进行聚合处理,确定各帧的聚合语音特征;
分别确定各个初始语音特征的第一上下文关联度,和各个聚合语音特征的第二上下文关联度,其中,一个第一上下文关联度表征了一个初始语音特征与所述各个初始语音特征之间的相关性,一个第二上下文关联度表征了一个聚合语音特征与所述各个聚合语音特征之间的相关性;
检测单元,用于基于各个第一上下文关联度确定各帧包含的声音事件,以及基于各个第二上下文关联度对各帧包含的声音事件进行分类,并确定各个声音事件的起止时间。
可选的,所述特征提取单元用于:
将所述声谱图输入梅尔滤波器中,将各帧所包含的频谱转换为梅尔特征,并将各帧的梅尔特征作为所述各帧的初始语音特征。
可选的,所述特征提取单元进一步用于:
对归属于同一帧中且处于不同频率的初始语音特征进行池化处理,确定所述各帧的聚合语音特征。
可选的,所述特征提取单元进一步用于:
根据设定的单位频率的长度,分别确定所述各帧的初始语音特征的位置编码,以及所述各帧的聚合语音特征的位置编码。
可选的,所述检测单元用于:
分别将归属于同一声音事件的帧数总和与设定的单位帧长相乘,将各个乘积结果确定为对应的声音事件的起止时间。
第三方面,本申请实施例还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述任一项音频检测方法。
第四方面,本申请实施例还提供了一种存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述任一项音频检测方法。
本申请有益效果如下:
本申请实施例中,对音频进行时频转换处理得到声谱图,对声谱图进行特征提取,确定各帧的初始语音特征,并对归属于同一帧的初始语音特征进行聚合处理,得到各帧的聚合语音特征;分别确定各个初始语音特征的第一上下文关联度,和各个聚合语音特征的第二上下文关联度;基于各个第一上下文关联度确定各帧包含的声音事件,以及基于各个第二上下文关联度对各帧包含的声音事件进行分类,并确定各个声音事件的起止时间。在检测过程中,捕获每个初始语音特征与所有初始语音特征之间的上下文关系,每个聚合语音特征与所有聚合语音特征之间的上下文关系,基于各个第一上下文关联度和各个第二上下文关联度,检测音频所包含的每类声音事件的起止时间,以免误删时长较短的声音事件或误切割时长较长的声音事件,提高检测准确率。
附图说明
图1为本申请实施例提供的音频检测系统的架构示意图;
图2为本申请实施例提供的检测音频的流程示意图;
图3a为本申请实施例提供的时域图;
图3b为本申请实施例提供的频谱图;
图3c为本申请实施例提供的声谱图;
图4a为本申请实施例提供的局部注意力模块的结构示意图;
图4b为本申请实施例提供的Transformer编码模块的结构示意图;
图4c为本申请实施例中生成初始语音特征的查询向量、键向量、值向量的示意图;
图4d为本申请实施例中生成初始语音特征Y对应的第一上下文关联度的示意图;
图4e为本申请实施例中生成聚合语音特征的查询向量、键向量、值向量的示意图;
图4f为本申请实施例中生成聚合语音特征Z对应的第二上下文关联度的示意图;
图5为本申请实施例提供的音频检测结果示意图;
图6为本申请实施例提供的音频检测装置的结构示意图;
图7为本申请实施例提供的计算设备的结构示意图。
具体实施方式
为了解决在检测时长较短或较长的声音事件时,检测准确率低的问题,本申请实施例中,提出了一种新的技术方案。该方案包括:对音频进行时频转换处理得到声谱图,对声谱图进行特征提取,确定各帧的初始语音特征,并对归属于同一帧的初始语音特征进行聚合处理,得到各帧的聚合语音特征;分别确定各个初始语音特征的第一上下文关联度,和各个聚合语音特征的第二上下文关联度;基于各个第一上下文关联度确定各帧包含的声音事件,以及基于各个第二上下文关联度对各帧包含的声音事件进行分类,并确定各个声音事件的起止时间。
下面结合附图对本申请优选的实施方式作出详细说明。
本申请实施例使用音频检测系统对接收到的音频数据进行音频检测,确定音频数据包含的声音事件归属的类型、以及声音事件的起止时间。具体地,该系统的架构示意图如图1所示,系统由特征提取模型、深度学习模型和检测模型三部分构成,其中,深度学习模型由局部注意力模块和Transformer编码模块两部分构成,检测模型由声音事件分类模块和声音事件检测模块两部分构成,声音事件检测模块用于检测每一帧所包含的音频事件,声音事件分类模块用于为检测到的声音事件分类。局部注意力模块用于控制神经网络中的信息流传递,将重要的信息继续向前传递,将不重要的信息抑制住,这样是因为在一段音频中包含了很多的信息,有些信息对于音频分类、音频所包含的声音事件检测是有用的,而有些信息对上述的分类、检测过程是毫无用处的,因此,采用局部注意力模块可以有效地筛选出有用信息和冗余信息,减少后续分类、检测的工作量,同时还会提升检测准确率;Transformer编码模块用于对各个初始语音特征和各个聚合语音特征进行注意力打分,以捕获每个初始语音特征与所有初始语音特征之间的上下文关系,每个聚合语音特征与所有聚合语音特征之间的上下文关系,这样,检测模型可以更多的关注第一上下文关联度比较高和第二上下文关联度比较高的特征,以输出更加准确的预测结果,并根据各帧的预测结果,计算得到各个声音时间的起止时间,这样,在检测音频时可以准确划分声音事件的起止时间,防止误删时间较短的声音事件或者误切割时间较长的声音事件,提高检测准确率。
接下来,参阅图2所示,采用训练完毕的音频检测系统对一段音频进行检测,确定该段音频所包含的声音事件以及各个声音事件的类型,并确定每类声音事件发生的时间段。
S201:对音频进行时频转换处理得到声谱图,声谱图上的每一帧对应一个语音信号组,一个语音信号组中各个语音信号的频率不同。
音频是一段语音信号,其在时域上形成了一段连续的波(后续简称为时域图),时域图如图3a所示,其中,时域图的横轴为时间、纵轴为振幅。语音信号属于模拟信号,但模拟信号的时域波形只能体现出声压随时间的变化,无法体现出更多有用的信息用于信号分析,因此,为了获取到更多有用的信息,需要将时域图转换为声谱图。下面对声谱图的生成过程进行介绍:
(1)对音频执行加窗分帧操作,得到处于不同帧的初始语音信号。
语音信号具有短时平稳性,其在宏观上是不稳定的,但在微观上是平稳的,因此,可以按照预设的帧间距将时域图截取为多个短的时间段进行处理,而每一个短的时间段称之为一帧,也就是说,每一帧对应一小段波形(即一小段语音信号)。需要说明的是,为了保证合成信号的连续性,相邻帧之间会存在重叠部分。
使用窗函数分别与各帧的语音信号相乘,使得原本没有周期性的语音信号呈现出周期函数的部分特征,便于后续的傅里叶变换处理。
(2)对各个初始语音信号进行傅里叶变换,得到对应的频谱图。
虽然时域图直观地展示了语音信号在不同时刻的振幅取值,但是难以提取到更多有用的信息用于信号分析,而根据傅里叶变换公式可知,一帧对应的波是由多个不同频率的波合成的,因此,可以利用傅里叶变换将音频由时域映射到频域中,得到如图3b所示的频域图,其中,频域图的横轴为频率、纵轴为振幅。
(3)按照时间顺序拼接各个频谱图,得到声谱图。
按照时间顺序拼接各个频谱图,得到如图3c所示的声谱图,其横轴为时间、纵轴为频率。
S202:对声谱图进行特征提取,确定各帧的初始语音特征,并对归属于同一帧的初始语音特征进行聚合处理,确定各帧的聚合语音特征。
声谱图的横轴为时间、纵轴为频率,坐标点表示了语音数据能量,也就是说,声谱图看起来是一张二维坐标图,但却可以表达出三维的信息。其中,能量的大小可以通过颜色来区分,颜色愈深表示该点的语音能量愈强。研究发现,人耳针对不同频率的声波,所产生的听觉敏感度是不同的,尤其是人耳无法分辨高频的频率变化,因此,可以使用更加符合人耳听觉原理的梅尔频率倒谱系数(Mel-Frequency Cepstrum Coefficients,MFCC)特征提取算法,滤除声谱图上存在的无用讯息。
使用MFCC算法对声谱图进行特征提取,先使用一组20个非线性分布的梅尔滤波器对声谱图中高频语音信号的幅度进行衰减,将各帧所包含的频谱转换为梅尔特征;再对梅尔滤波器的输出结果依次进行对数运算和离散傅里叶反变换,得到各帧对应的初始语音特征。
一帧上可能不存在声音事件、可能仅存在一个声音事件,还可能存在多个类型不同的声音事件,而不同帧上可能存在类型相同的声音事件,也就是说,若想确定出各个声音事件的类型的话,声音事件分类模块需要提取出不同帧的初始语音特征,并基于提取出的初始语音特征进行运算得到预测分类结果。可完整的初始语音特征图所包含的特征数量很多,与之相对的,声音事件分类模块也需要使用大量的参数进行运算,导致模块运算速度慢,模块参数量大、占用存储空间,以及在训练该模块或者更新该模块时,模块不易收敛,无异于又增加了训练时间和模块更新时间。因此,在执行分类步骤之前,先将归属于同一帧中且处于不同频率的初始语音特征进行池化处理,得到各帧的聚合语音特征,在一个聚合语音特征中融合同一帧中不同频率的特征,减少声音事件分类模块的参数量和运算量,提高了运算速度无论是在训练该模块还是在更新该模块时,方便模块的收敛,节省训练时间和模块更新时间,而且,一个聚合语音特征融合了同一帧中不同频率的特征,增加了特征的多样性,有利于模块学习到不同频率语音信号的特征,进一步提高了分类准确率。
因为在一段音频中包含了很多的信息,有些信息对于音频分类、音频所包含的声音事件检测是有用的,而有些信息对上述的分类、检测过程是毫无用处的,因此,本申请实施例还提出了一种更优的实现方式,即将初始语音特征图输入局部注意力模块中,筛选出有用的初始语音特征,剔除无用的初始语音特征;再对局部注意力模块处理过的初始语音特征图进行聚合处理,得到处理过的聚合语音特征图。
在本申请实施例中,对所使用的局部注意力模块的数量不作限制,可以使用一个局部注意力模块,也可以为了提高后续系统的检测准确率,使用多个局部注意力模块。为了便于描述,参阅图4a所示,以一个局部注意力模块为例,描述了处理初始语音特征图的过程。
将初始语音特征图输入到第一卷积单元中进行特征提取,得到第一语音特征图集合,每个第一语音特征都是n维向量。将一半第一语音特征图X输入到S形函数(sigmoid)单元中,以将第一语音特征图上的向量映射到(0,1)的区间上,将另外一半第一语音特征图X'输入到linear单元中,linear单元输出的语音特征图的尺寸、数量、以及所包含的各个语音特征,均与输入的第一语音特征图X'保持一致;
将sigmoid单元输出的各张语音特征图,与linear单元输出的语音特征图对应点乘,得到第二语音特征图集合,即对linear单元的每一张语音特征图进行加权处理;
将第二语音特征图集合输入到第二卷积单元中,重复执行上述操作,得到第三语音特征图集合;
将第三语音特征图集合依次经过最大全局池化操作、全连接操作和上采样操作,得到第四语音特征图集合,而第四语音特征图与第二语音特征图的尺寸是一样的,因此,将第四语音特征图集合与第二语音特征图集合对应点乘后,再次经过一个池化层,可以得到处理后的初始语音特征图。此时的初始语音特征图上筛选出了有用的语音特征,剔除了无用的语音特征。再对处理后的初始语音特征图的频率轴进行池化处理,将归属于同一帧且处于不同频率的初始语音特征聚合到一起,得到聚合语音特征图。
S203:分别确定各个初始语音特征的第一上下文关联度,和各个聚合语音特征的第二上下文关联度,其中,一个第一上下文关联度表征了一个初始语音特征与各个初始语音特征之间的相关性,一个第二上下文关联度表征了一个聚合语音特征与各个聚合语音特征之间的相关性。
在本申请实施例中,第一上下文关联度和第二上下文关联度都是通过Transformer编码模块实现的。但Transformer编码模块在利用内部的多头注意力机制,对初始语音特征图和聚合语音特征图进行注意力打分之前,需要使用Transformer编码模块对初始语音特征图和聚合语音特征图上的各个语音特征进行位置编码,这样做是为了向检测模型提供各个语音特征的顺序信息,方便检测模型区分各个语音特征。为了保证Transformer编码模块可以同时读取初始语音特征图和聚合语音特征图,在执行读取步骤之前,需要先将两张语音特征图拼接在一起,形成一张新的语音特征图,再将新的语音特征图输入Transformer编码模块中依次进行位置编码和注意力打分处理。
位置编码的方式是,根据设定的单位频率的长度,确定新的语音特征图上各个语音特征的位置编码。具体地,针对在新的语音特征图中位于偶数位置的语音特征,是采用公式(1)确定其位置信息的,其中,公式(1)里的pos表示语音特征在新的语音特征图的位置,i表示语音特征的索引值,dmodel表示设定的单位频率的长度;而针对在新的语音特征图中位于奇数位置的语音特征,是采用公式(2)确定其位置信息的。
将位置编码后的语音特征图输入到训练完毕的Transformer编码模块里,在本申请实施例中,对所使用的Transformer编码模块的数量不作限制,可以使用一个Transformer编码模块,也可以为了提高后续系统的检测准确率,使用多个Transformer编码模块。参阅图4b所示,一个Transformer编码模块是由多头注意力单元和全连接单元两部分构成的,多头注意力单元和全连接单元均采用了残差连接结构,在该结构中包含两个通道,一个是用于特征提取的主处理层的通道,另一个是让输入层直达输出层的通道。
以一个注意力单元为例,对通过注意力单元生成各个第一上下文关联度和各个第二上下文关联度的过程进行介绍。
参阅图4c所示,将位置编码后的初始语音特征图作为输入矩阵,使用线性变阵矩阵WQ、WK、WV,得到每个初始语音特征对应的查询向量、键向量和值向量。参阅图4d所示,以一个初始语音特征Y为例,确定其对应的第一上下文关联度的过程是,查询向量分别与各个键向量相乘,将乘积结果作为初始语音特征Y对各个初始语音特征的注意力权重,再让各个值向量分别与对应的注意力权重相乘,将乘积结果作为第一上下文关联度输出。在生成第一上下文向量的过程中,加权融合了初始语音特征Y的值向量和归属于同一个初始语音特征图的各个初始语音特征的值向量,体现了初始语音特征Y与归属于同一个初始语音特征图的各个初始语音特征之间的相关性。
参阅图4e所示,将位置编码后的聚合语音特征图作为输入矩阵,使用线性变阵矩阵WQ、WK、WV,得到每个聚合语音特征对应的查询向量、键向量和值向量。参阅图4f所示,以一个聚合语音特征Z为例,确定其对应的第二上下文关联度的过程是,查询向量分别与各个键向量相乘,将乘积结果作为聚合语音特征Z对各个聚合语音特征的注意力权重,再让各个值向量分别与对应的注意力权重相乘,将乘积结果作为第二上下文关联度输出。在生成第二上下文向量的过程中,加权融合了聚合语音特征Z的值向量和归属于同一个聚合语音特征图的各个聚合语音特征的值向量,体现了聚合语音特征Z与归属于同一个聚合语音特征图的各个聚合语音特征之间的相关性。
上述过程还可以使用公式(3)表示,其中KT表示键向量的转置矩阵,dk表示每头注意力机制的单位长度。
S204:基于各个第一上下文关联度确定各帧包含的声音事件,以及基于各个第二上下文关联度对各帧包含的声音事件进行分类,并确定各个声音事件的起止时间。
声音事件检测模块读取初始语音特征图,在捕获到各个初始语音特征的第一上下文关联度的前提下,提取到用于预测该帧是否包含声音事件的语音特征,从而得到整个音频的每一帧上是否包含声音事件的预测结果;
声音事件分类模块读取聚合语音特征图,在捕获到各个聚合语音特征的第二上下文关联度的前提下,提取到用于预测声音事件归属类别的语音特征,从而得到各个声音事件的预测分类结果。
将声音事件的预测分类结果,与每一帧上是否包含声音事件的预测结果合并在一起,就可以得到如图5所示的音频检测结果示意图,若想确定出每个声音事件的起止时间,只需分别将归属于同一声音事件的帧数总和与设定的单位帧长相乘,各个乘积结果就是每个声音事件的起止时间。在确定出每个声音事件的起止时间之后,就可以避免误删时长较短的声音事件或误切割时长较长的声音事件,提高检测准确率。
基于同一发明构思,本申请实施例还提供了一种音频检测装置,参阅图6所示,至少包括转换单元601、特征提取单元602和检测单元603,其中,
转换单元601,用于对音频进行时频转换处理得到声谱图,所述声谱图上的每一帧对应一个语音信号组,所述一个语音信号组中各个语音信号的频率不同;
特征提取单元602,用于对所述声谱图进行特征提取,确定各帧的初始语音特征,并对归属于同一帧的初始语音特征进行聚合处理,确定各帧的聚合语音特征;
分别确定各个初始语音特征的第一上下文关联度,和各个聚合语音特征的第二上下文关联度,其中,一个第一上下文关联度表征了一个初始语音特征与所述各个初始语音特征之间的相关性,一个第二上下文关联度表征了一个聚合语音特征与所述各个聚合语音特征之间的相关性;
检测单元603,用于基于各个第一上下文关联度确定各帧包含的声音事件,以及基于各个第二上下文关联度对各帧包含的声音事件进行分类,并确定各个声音事件的起止时间。
可选的,所述特征提取单元602用于:
将所述声谱图输入梅尔滤波器中,将各帧所包含的频谱转换为梅尔特征,并将各帧的梅尔特征作为所述各帧的初始语音特征。
可选的,所述特征提取单元602进一步用于:
对归属于同一帧中且处于不同频率的初始语音特征进行池化处理,确定所述各帧的聚合语音特征。
可选的,所述特征提取单元602进一步用于:
根据设定的单位频率的长度,分别确定所述各帧的初始语音特征的位置编码,以及所述各帧的聚合语音特征的位置编码。
可选的,所述检测单元603用于:
分别将归属于同一声音事件的帧数总和与设定的单位帧长相乘,将各个乘积结果确定为对应的声音事件的起止时间。
基于同一发明构思,本申请实施例中,提供一种计算设备,参阅图7所示,至少包括存储器701和至少一个处理器702,其中,存储器701和处理器702通过通信总线完成相互间的通信;
存储器701用于存储程序指令;
处理器702用于调用存储器701中存储的程序指令,按照获得的程序执行前述音频检测方法。
基于同一发明构思,本申请实施例中,提供一种存储介质,至少包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行前述音频检测方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种音频检测方法,其特征在于,包括:
对音频进行时频转换处理得到声谱图,所述声谱图上的每一帧对应一个语音信号组,所述一个语音信号组中各个语音信号的频率不同;
对所述声谱图进行特征提取,确定各帧的初始语音特征,并对归属于同一帧中且处于不同频率的初始语音特征进行池化处理,确定各帧的聚合语音特征;
分别确定各个初始语音特征的第一上下文关联度,和各个聚合语音特征的第二上下文关联度,其中,一个第一上下文关联度表征了一个初始语音特征与所述各个初始语音特征之间的相关性,一个第二上下文关联度表征了一个聚合语音特征与所述各个聚合语音特征之间的相关性;
基于各个第一上下文关联度确定各帧包含的声音事件,以及基于各个第二上下文关联度对各帧包含的声音事件进行分类,并确定各个声音事件的起止时间。
2.如权利要求1所述的方法,其特征在于,对所述声谱图进行特征提取,确定各帧的初始语音特征,包括:
将所述声谱图输入梅尔滤波器中,将各帧所包含的频谱转换为梅尔特征,并将各帧的梅尔特征作为所述各帧的初始语音特征。
3.如权利要求1所述的方法,其特征在于,在确定各帧的初始语音特征和聚合语音特征之后,在确定各个第一上下文关联度和第二上下文关联度之前,进一步包括:
根据设定的单位频率的长度,分别确定所述各帧的初始语音特征的位置编码,以及所述各帧的聚合语音特征的位置编码。
4.如权利要求1~3任一项所述的方法,其特征在于,通过以下方式确定所述各个声音事件的起止时间,包括:
分别将归属于同一声音事件的帧数总和与设定的单位帧长相乘,将各个乘积结果确定为对应的声音事件的起止时间。
5.一种音频检测装置,其特征在于,包括:
转换单元,用于对音频进行时频转换处理得到声谱图,所述声谱图上的每一帧对应一个语音信号组,所述一个语音信号组中各个语音信号的频率不同;
特征提取单元,用于对所述声谱图进行特征提取,确定各帧的初始语音特征,并对归属于同一帧中且处于不同频率的初始语音特征进行池化处理,确定各帧的聚合语音特征;
分别确定各个初始语音特征的第一上下文关联度,和各个聚合语音特征的第二上下文关联度,其中,一个第一上下文关联度表征了一个初始语音特征与所述各个初始语音特征之间的相关性,一个第二上下文关联度表征了一个聚合语音特征与所述各个聚合语音特征之间的相关性;
检测单元,用于基于各个第一上下文关联度确定各帧包含的声音事件,以及基于各个第二上下文关联度对各帧包含的声音事件进行分类,并确定各个声音事件的起止时间。
6.如权利要求5所述的装置,其特征在于,所述特征提取单元用于:
将所述声谱图输入梅尔滤波器中,将各帧所包含的频谱转换为梅尔特征,并将各帧的梅尔特征作为所述各帧的初始语音特征。
7.如权利要求5所述的装置,其特征在于,所述特征提取单元进一步用于:
根据设定的单位频率的长度,分别确定所述各帧的初始语音特征的位置编码,以及所述各帧的聚合语音特征的位置编码。
8.如权利要求5~7任一项所述的装置,其特征在于,所述检测单元用于:
分别将归属于同一声音事件的帧数总和与设定的单位帧长相乘,将各个乘积结果确定为对应的声音事件的起止时间。
9.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1-4任一项所述的方法。
10.一种存储介质,其特征在于,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行如权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011582010.2A CN112735466B (zh) | 2020-12-28 | 2020-12-28 | 一种音频检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011582010.2A CN112735466B (zh) | 2020-12-28 | 2020-12-28 | 一种音频检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112735466A CN112735466A (zh) | 2021-04-30 |
CN112735466B true CN112735466B (zh) | 2023-07-25 |
Family
ID=75606620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011582010.2A Active CN112735466B (zh) | 2020-12-28 | 2020-12-28 | 一种音频检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735466B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114333908B (zh) * | 2021-12-29 | 2022-09-30 | 广州方硅信息技术有限公司 | 在线音频分类方法、装置及计算机设备 |
CN117116289B (zh) * | 2023-10-24 | 2023-12-26 | 吉林大学 | 病区医护对讲管理系统及其方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110718234A (zh) * | 2019-09-02 | 2020-01-21 | 江苏师范大学 | 基于语义分割编解码网络的声学场景分类方法 |
CN110827804A (zh) * | 2019-11-14 | 2020-02-21 | 福州大学 | 一种音频帧序列到事件标签序列的声音事件标注方法 |
CN110992979A (zh) * | 2019-11-29 | 2020-04-10 | 北京搜狗科技发展有限公司 | 一种检测方法、装置和电子设备 |
CN111161715A (zh) * | 2019-12-25 | 2020-05-15 | 福州大学 | 一种基于序列分类的特定声音事件检索与定位的方法 |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN111986699A (zh) * | 2020-08-17 | 2020-11-24 | 西安电子科技大学 | 基于全卷积网络的声音事件检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10141009B2 (en) * | 2016-06-28 | 2018-11-27 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
KR102635469B1 (ko) * | 2019-03-18 | 2024-02-13 | 한국전자통신연구원 | 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치 |
-
2020
- 2020-12-28 CN CN202011582010.2A patent/CN112735466B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110718234A (zh) * | 2019-09-02 | 2020-01-21 | 江苏师范大学 | 基于语义分割编解码网络的声学场景分类方法 |
CN110827804A (zh) * | 2019-11-14 | 2020-02-21 | 福州大学 | 一种音频帧序列到事件标签序列的声音事件标注方法 |
CN110992979A (zh) * | 2019-11-29 | 2020-04-10 | 北京搜狗科技发展有限公司 | 一种检测方法、装置和电子设备 |
CN111161715A (zh) * | 2019-12-25 | 2020-05-15 | 福州大学 | 一种基于序列分类的特定声音事件检索与定位的方法 |
CN111986699A (zh) * | 2020-08-17 | 2020-11-24 | 西安电子科技大学 | 基于全卷积网络的声音事件检测方法 |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112735466A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN108922513B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN108735202A (zh) | 用于小占用资源关键词检索的卷积递归神经网络 | |
CN110600059B (zh) | 声学事件检测方法、装置、电子设备及存储介质 | |
CN111785288B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN112735466B (zh) | 一种音频检测方法及装置 | |
CN113488058A (zh) | 一种基于短语音的声纹识别方法 | |
CN111429932A (zh) | 语音降噪方法、装置、设备及介质 | |
CN113205820B (zh) | 一种用于声音事件检测的声音编码器的生成方法 | |
CN112289334B (zh) | 一种混响消除方法及装置 | |
WO2019232833A1 (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN112750461B (zh) | 语音通信优化方法、装置、电子设备及可读存储介质 | |
US20230186943A1 (en) | Voice activity detection method and apparatus, and storage medium | |
CN115565548A (zh) | 异常声音检测方法、装置、存储介质及电子设备 | |
US20230116052A1 (en) | Array geometry agnostic multi-channel personalized speech enhancement | |
CN117746905B (zh) | 基于时频持续性分析的人类活动影响评估方法及系统 | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN113782044B (zh) | 一种语音增强方法及装置 | |
CN113077812A (zh) | 语音信号生成模型训练方法、回声消除方法和装置及设备 | |
CN117419915A (zh) | 一种多源信息融合的电机故障诊断方法 | |
CN116884435A (zh) | 一种基于音频提示学习的声音事件检测方法及装置 | |
CN114333844A (zh) | 声纹识别方法、装置、介质及设备 | |
CN112750469A (zh) | 语音中检测音乐的方法、语音通信优化方法及对应的装置 | |
CN110931046A (zh) | 一种面向重叠声音事件检测的音频高层语义特征提取方法及系统 | |
Ngoc et al. | A Proposed CNN Model for Audio Recognition on Embedded Device. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |