CN110942766A - 音频事件检测方法、系统、移动终端及存储介质 - Google Patents
音频事件检测方法、系统、移动终端及存储介质 Download PDFInfo
- Publication number
- CN110942766A CN110942766A CN201911207416.XA CN201911207416A CN110942766A CN 110942766 A CN110942766 A CN 110942766A CN 201911207416 A CN201911207416 A CN 201911207416A CN 110942766 A CN110942766 A CN 110942766A
- Authority
- CN
- China
- Prior art keywords
- audio
- neural network
- features
- event detection
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 65
- 238000003062 neural network model Methods 0.000 claims abstract description 62
- 230000005236 sound signal Effects 0.000 claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000009466 transformation Effects 0.000 claims abstract description 22
- 230000009467 reduction Effects 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims description 40
- 238000001228 spectrum Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明适用于语音识别技术领域,提供了一种音频事件检测方法、系统、移动终端及存储介质,该方法包括:获取原始音频信号,对原始音频信号进行特征提取,以得到音频特征;将音频特征输入神经网络模型中进行瓶颈特征提取和合并,以得到深层变换特征;对深层变换特征进行降维处理,以得到特征矢量,并将特征矢量作为当前帧的信息输入神经网络模型;获取训练集数据和待检测数据,根据训练集数据对神经网络模型进行训练,并将待检测数据输入至训练后的神经网络模型进行事件分析,以得到音频事件检测结果。本发明通过基于音频特征和深层变换特征的提取,提高了神经网络模型音频事件检测的准确性。
Description
技术领域
本发明属于语音识别技术领域,尤其涉及一种音频事件检测方法、系统、移动终端及存储介质。
背景技术
音频事件检测是指对连续音频信号流中具有明确语义的片段进行检测与标定的过程。它是机器对环境声音场景进行识别和语义理解的重要基础,并将在未来机器人声音环境的语义理解、无人车行车周边环境的声音感知等方面发挥重要的作用。
音频事件检测与语音识别类似,都属于模式识别问题。目前音频事件检测所采用的音频特征大多来自于语音识别领域,但由于各类音频事件与语音信号的产生机理不同,且各类音频事件的时频特性更多复杂多变,进而使得现有的音频事件的检测准确率低下。
发明内容
本发明实施例的目的在于提供一种音频事件检测方法、系统、移动终端及存储介质,旨在解决现有的音频事件检测方法中,其音频事件的检测准确率低下的问题。
本发明实施例是这样实现的,一种音频事件检测方法,所述方法包括:
获取原始音频信号,对所述原始音频信号进行特征提取,以得到音频特征;
将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并,以得到深层变换特征,所述神经网络模型中至少设有一层深度神经网络;
对所述深层变换特征进行降维处理,以得到特征矢量,并将所述特征矢量作为当前帧的信息输入所述神经网络模型;
获取训练集数据和待检测数据,根据所述训练集数据对所述神经网络模型进行训练,并将所述待检测数据输入至训练后的所述神经网络模型进行事件分析,以得到音频事件检测结果。
更进一步的,所述将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并的步骤包括:
将所述音频特征输入当前层深度神经网络进行所述瓶颈特征的提取和合并,以得到音频矢量;
将所述音频矢量作为下一层深度神经网络的输入,并控制所述下一层深度神经网络依序对所述音频矢量进行所述瓶颈特征的提取和合并;
将最后层深度神经网络提取出的所述瓶颈特征设置为所述深层变换特征。
更进一步的,所述对所述深层变换特征进行降维处理的步骤包括:
采用离散余弦变换去除所述深层变换特征中的冗余信息。
更进一步的,所述对所述原始音频信号进行特征提取的步骤包括:
对所述原始音频信号进行预加重处理,并对预加重处理后的所述原始音频信号进行分帧处理;
对分帧处理的后的所述原始音频信号进行加窗处理,并将加窗处理后的所述原始音频信号进行滤波;
对滤波后的所述原始音频信号进行对数运算,并对对数运算后的所述原始音频信号进行离散余弦变换,以得到所述音频特征。
更进一步的,所述将加窗处理后的所述原始音频信号进行滤波的步骤之前,所述方法还包括:
对加窗处理后的所述原始音频信号进行傅里叶变换,以得到所述原始音频信号对应的功率谱。
更进一步的,所述方法还包括:
获取所述音频事件检测结果中存储的结果特征;
当所述结果特征为数字特征值,且判断到所述数字特征值在预设值范围内时,判定所述待检测数据中有音频事件的发生;
当所述结果特征为文字特征,且判断到所述文字特征中存储有预设文字时,判定所述待检测数据中有音频事件的发生;
当所述结果特征为图像特征,且判断到所述图像特征中存储有预设图像时,判定所述待检测数据中有音频事件的发生。
本发明实施例的另一目的在于提供一种音频事件检测系统,所述系统包括:
音频特征提取模块,用于获取原始音频信号,对所述原始音频信号进行特征提取,以得到音频特征;
特征合并模块,用于将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并,以得到深层变换特征,所述神经网络模型中至少设有一层深度神经网络;
降维模块,用于对所述深层变换特征进行降维处理,以得到特征矢量,并将所述特征矢量作为当前帧的信息输入所述神经网络模型;
事件检测模块,用于获取训练集数据和待检测数据,根据所述训练集数据对所述神经网络模型进行训练,并将所述待检测数据输入至训练后的所述神经网络模型进行事件分析,以得到音频事件检测结果。
更进一步的,所述特征合并模块还用于:
将所述音频特征输入当前层深度神经网络进行所述瓶颈特征的提取和合并,以得到音频矢量;
将所述音频矢量作为下一层深度神经网络的输入,并控制所述下一层深度神经网络依序对所述音频矢量进行所述瓶颈特征的提取和合并;
将最后层深度神经网络提取出的所述瓶颈特征设置为所述深层变换特征。
本发明实施例的另一目的在于提供一种移动终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的音频事件检测方法。
本发明实施例的另一目的在于提供一种存储介质,其存储有上述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的音频事件检测方法的步骤。
本发明实施例,通过基于所述音频特征和所述深层变换特征的提取,有效的提高了所述神经网络模型音频事件检测的准确性,且通过在所述神经网络模型中进行瓶颈特征提取和合并的设计,以提高音频事件的特性差异,进而进一步提高了所述神经网络模型音频事件检测的准确性。
附图说明
图1是本发明第一实施例提供的音频事件检测方法的流程图;
图2是本发明第二实施例提供的音频事件检测方法的流程图;
图3是本发明第三实施例提供的音频事件检测系统的结构示意图;
图4是本发明第四实施例提供的移动终端的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参阅图1,是本发明第一实施例提供的音频事件检测方法的流程图,包括步骤:
步骤S10,获取原始音频信号,对所述原始音频信号进行特征提取,以得到音频特征;
其中,该音频特征为梅尔倒谱系数(Mel-scaleFrequency CepstralCoefficients,简称MFCC),MFCC是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:
式中f为频率,单位为Hz;
步骤S20,将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并,以得到深层变换特征;
其中,所述神经网络模型中至少设有一层深度神经网络,该步骤中,通过将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并的设计,以使将不同类型特征可以从不同的侧面刻画复杂音频事件的特性差异,使得具有信息互补性,进而提高了所述音频事件检测方法的准确性;
步骤S30,对所述深层变换特征进行降维处理,以得到特征矢量,并将所述特征矢量作为当前帧的信息输入所述神经网络模型;
其中,通过对所述深层变换特征进行降维处理的设计,以使将特征信息转换为矢量信息,方便了信息的处理和叠加,提高了所述音频事件检测方法的工作效率
步骤S40,获取训练集数据和待检测数据,根据所述训练集数据对所述神经网络模型进行训练;
其中,可以通过采用交叉熵损失函数和Adam算法分别对所述神经网络模型进行网络参数的计算和更新,并通过预设次数迭代,以完成模型的训练;
优选的,本实施例中,还可以在所述神经网络模型中进行dropout处理,以防止所述神经网络模型的过拟合;
步骤S50,将所述待检测数据输入至训练后的所述神经网络模型进行事件分析,以得到音频事件检测结果;
本实施例,通过基于所述音频特征和所述深层变换特征的提取,有效的提高了所述神经网络模型音频事件检测的准确性,且通过在所述神经网络模型中进行瓶颈特征提取和合并的设计,以提高音频事件的特性差异,进而进一步提高了所述神经网络模型音频事件检测的准确性。
实施例二
请参阅图2,是本发明第二实施例提供的音频事件检测方法的流程图,包括步骤:
步骤S11,获取原始音频信号,对所述原始音频信号进行预加重处理,并对预加重处理后的所述原始音频信号进行分帧处理;
其中,是通过将该原始音频信号通过一高通滤波器,以实现预加重处理的操作,预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰;
优选的,该步骤中,先将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000 1000=32ms;
步骤S21,对分帧处理的后的所述原始音频信号进行加窗处理,对加窗处理后的所述原始音频信号进行傅里叶变换,以得到所述原始音频信号对应的功率谱;
该步骤中,将每一帧乘以汉明窗,以增加帧左端和右端的连续性。假设分帧后的信号为S(n),n=0,1,…,N-1,N为帧的大小,那么乘上汉明窗后,W(n)形式如下:
不同的a值会产生不同的汉明窗,一般情况下a取0.46;
优选的,由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的DFT为:
式中x(n)为输入的语音信号,N表示傅里叶变换的点数;
步骤S31,将功率谱进行滤波,对滤波后的所述功率谱进行对数运算,并对对数运算后的所述功率谱进行离散余弦变换,以得到所述音频特征;
其中,可以采用滤波器的方式以达到对所述功率谱的滤波效果,即通过将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
具体的,三角带通滤波器有两个主要目的:
对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。(因此一段语音的音调或音高,是不会呈现在MFCC参数内,以MFCC为特征的语音辨识系统,并不会受到输入语音的音调不同而有所影响)此外,还可以降低运算量;
三角滤波器的频率响应定义为:
且该步骤中,计算每个滤波器组输出的对数能量为:
则,经离散余弦变换(DCT)得到MFCC系数为:
将上述的对数能量带入离散余弦变换,求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数,通常取12-16,该M是三角滤波器个数;
此外,一帧的音量(即能量),也是语音的重要特征,而且非常容易计算。因此,通常再加上一帧的对数能量(定义:一帧内信号的平方和,再取10为底的对数值,再乘以10)使得每一帧基本的语音特征就多了一维,包括一个对数能量和剩下的倒频谱参数;
步骤S41,将所述音频特征输入当前层深度神经网络进行所述瓶颈特征的提取和合并,以得到音频矢量;
其中,该步骤中,通过将该音频特征输入神经网络模型中以进行瓶颈特征的提取和合并,优选的,所述神经网络模型中至少设有一层深度神经网络;
步骤S51,将所述音频矢量作为下一层深度神经网络的输入,并控制所述下一层深度神经网络依序对所述音频矢量进行所述瓶颈特征的提取和合并;
具体的,本实施例中,首先,将多流的音频特征输入第一层深度神经网络分别提取瓶颈特征。然后将上一层深度神经网络的瓶颈特征进行合并,作为下一层网络的输入;如果有多层深度神经网络,则一次这样传递下去。由于不同类型特征可以从不同的侧面刻画复杂音频事件的特性差异,具有信息互补性;
步骤S61,将最后层深度神经网络提取出的所述瓶颈特征设置为所述深层变换特征;
其中,深度神经网络有多个隐含层,多隐层的深度神经网络具有优异的特征学习能力,学习得到的特征对于数据有着更本质的刻画,有利于分类。利用多流多层深度神经网络的深层变换特征提取方法,并以两流两层为例将浅层音频特征作为输入,提取的深层变换特征比传统的浅层特征分类效果要好,除此之外,利用深度神经网络构建的深度模型对数据的建模能力比一般的分类器,如GMM,HMM和SVM要强。因此,在音频事件检测中,将DNN的声学特征提取能力与对复杂数据的建模能力结合起来,将进一步提升检测性能;
优选的,通过组合多流神经网络的瓶颈特征作为下一层深度神经网络的输入,则能进一步区分信息的挖掘,最后将最后一层深度神经网络提取出来的瓶颈特征就是复杂音频事件的深层变换特征;
步骤S71,采用离散余弦变换去除所述深层变换特征中的冗余信息,以得到特征矢量,并将所述特征矢量作为当前帧的信息输入所述神经网络模型;
其中,通过采用离散余弦变换去除所述深层变换特征中的冗余信息的设计,以使将特征信息转换为矢量信息,方便了信息的处理和叠加,提高了所述音频事件检测方法的工作效率;
步骤S81,获取训练集数据和待检测数据,根据所述训练集数据对所述神经网络模型进行训练;
其中,该训练集数据可以根据需求进行数量和类别的调整,该待检测数据可以采用麦克风或者拾音器的方式进行音频数据获取;
步骤S91,将所述待检测数据输入至训练后的所述神经网络模型进行事件分析,以得到音频事件检测结果,并获取所述音频事件检测结果中存储的结果特征;
步骤S101,当所述结果特征为数字特征值,且判断到所述数字特征值在预设值范围内时,判定所述待检测数据中有音频事件的发生;
其中,该预设范围可以根据需求进行设置,该步骤中的预设范围为0-1;
步骤S111,当所述结果特征为文字特征,且判断到所述文字特征中存储有预设文字时,判定所述待检测数据中有音频事件的发生;
其中,该预设文字可以根据需求进行设置,例如该预设文字为“检测到存在音频事件”等;
步骤S121,当所述结果特征为图像特征,且判断到所述图像特征中存储有预设图像时,判定所述待检测数据中有音频事件的发生;
其中,该预设图像可以根据需求进行设置,例如该步骤中的预设图像可以为“√”;
本实施例,通过基于所述音频特征和所述深层变换特征的提取,有效的提高了所述神经网络模型音频事件检测的准确性,且通过在所述神经网络模型中进行瓶颈特征提取和合并的设计,以提高音频事件的特性差异,进而进一步提高了所述神经网络模型音频事件检测的准确性。
实施例三
请参阅图3,是本发明第三实施例提供的音频事件检测系统100的结构示意图,包括:音频特征提取模块10、特征合并模块11、降维模块12和事件检测模块13,其中:
音频特征提取模块10,用于获取原始音频信号,对所述原始音频信号进行特征提取,以得到音频特征。
其中,所述音频特征提取模块10还用于:
对所述原始音频信号进行预加重处理,并对预加重处理后的所述原始音频信号进行分帧处理;
对分帧处理的后的所述原始音频信号进行加窗处理,并将加窗处理后的所述原始音频信号进行滤波;
对滤波后的所述原始音频信号进行对数运算,并对对数运算后的所述原始音频信号进行离散余弦变换,以得到所述音频特征。
优选的,所述音频特征提取模块10还用于:
对加窗处理后的所述原始音频信号进行傅里叶变换,以得到所述原始音频信号对应的功率谱。
特征合并模块11,用于将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并,以得到深层变换特征,所述神经网络模型中至少设有一层深度神经网络。
其中,所述特征合并模块11还用于:
将所述音频特征输入当前层深度神经网络进行所述瓶颈特征的提取和合并,以得到音频矢量;
将所述音频矢量作为下一层深度神经网络的输入,并控制所述下一层深度神经网络依序对所述音频矢量进行所述瓶颈特征的提取和合并;
将最后层深度神经网络提取出的所述瓶颈特征设置为所述深层变换特征。
降维模块12,用于对所述深层变换特征进行降维处理,以得到特征矢量,并将所述特征矢量作为当前帧的信息输入所述神经网络模型。
其中,所述降维模块12还用于:采用离散余弦变换去除所述深层变换特征中的冗余信息。
事件检测模块13,用于获取训练集数据和待检测数据,根据所述训练集数据对所述神经网络模型进行训练,并将所述待检测数据输入至训练后的所述神经网络模型进行事件分析,以得到音频事件检测结果。
进一步地,所述事件检测模块13还用于:
获取所述音频事件检测结果中存储的结果特征;
当所述结果特征为数字特征值,且判断到所述数字特征值在预设值范围内时,判定所述待检测数据中有音频事件的发生;
当所述结果特征为文字特征,且判断到所述文字特征中存储有预设文字时,判定所述待检测数据中有音频事件的发生;
当所述结果特征为图像特征,且判断到所述图像特征中存储有预设图像时,判定所述待检测数据中有音频事件的发生。
本实施例,通过基于所述音频特征和所述深层变换特征的提取,有效的提高了所述神经网络模型音频事件检测的准确性,且通过在所述神经网络模型中进行瓶颈特征提取和合并的设计,以提高音频事件的特性差异,进而进一步提高了所述神经网络模型音频事件检测的准确性。
实施例四
请参阅图4,是本发明第四实施例提供的移动终端101,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端101执行上述的音频事件检测方法。
本实施例还提供了一种存储介质,其上存储有上述移动终端101中所使用的计算机程序,该程序在执行时,包括如下步骤:
获取原始音频信号,对所述原始音频信号进行特征提取,以得到音频特征;
将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并,以得到深层变换特征,所述神经网络模型中至少设有一层深度神经网络;
对所述深层变换特征进行降维处理,以得到特征矢量,并将所述特征矢量作为当前帧的信息输入所述神经网络模型;
获取训练集数据和待检测数据,根据所述训练集数据对所述神经网络模型进行训练,并将所述待检测数据输入至训练后的所述神经网络模型进行事件分析,以得到音频事件检测结果。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域技术人员可以理解,图3中示出的组成结构并不构成对本发明的音频事件检测系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,而图1-2中的音频事件检测方法亦采用图3中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标音频事件检测系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序,其均可存储于所述目标音频事件检测系统的存储设备(图未示)内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种音频事件检测方法,其特征在于,所述方法包括:
获取原始音频信号,对所述原始音频信号进行特征提取,以得到音频特征;
将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并,以得到深层变换特征,所述神经网络模型中至少设有一层深度神经网络;
对所述深层变换特征进行降维处理,以得到特征矢量,并将所述特征矢量作为当前帧的信息输入所述神经网络模型;
获取训练集数据和待检测数据,根据所述训练集数据对所述神经网络模型进行训练,并将所述待检测数据输入至训练后的所述神经网络模型进行事件分析,以得到音频事件检测结果。
2.如权利要求1所述的音频事件检测方法,其特征在于,所述将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并的步骤包括:
将所述音频特征输入当前层深度神经网络进行所述瓶颈特征的提取和合并,以得到音频矢量;
将所述音频矢量作为下一层深度神经网络的输入,并控制所述下一层深度神经网络依序对所述音频矢量进行所述瓶颈特征的提取和合并;
将最后层深度神经网络提取出的所述瓶颈特征设置为所述深层变换特征。
3.如权利要求1所述的音频事件检测方法,其特征在于,所述对所述深层变换特征进行降维处理的步骤包括:
采用离散余弦变换去除所述深层变换特征中的冗余信息。
4.如权利要求1所述的音频事件检测方法,其特征在于,所述对所述原始音频信号进行特征提取的步骤包括:
对所述原始音频信号进行预加重处理,并对预加重处理后的所述原始音频信号进行分帧处理;
对分帧处理的后的所述原始音频信号进行加窗处理,并将加窗处理后的所述原始音频信号进行滤波;
对滤波后的所述原始音频信号进行对数运算,并对对数运算后的所述原始音频信号进行离散余弦变换,以得到所述音频特征。
5.如权利要求4所述的音频事件检测方法,其特征在于,所述将加窗处理后的所述原始音频信号进行滤波的步骤之前,所述方法还包括:
对加窗处理后的所述原始音频信号进行傅里叶变换,以得到所述原始音频信号对应的功率谱。
6.如权利要求1所述的音频事件检测方法,其特征在于,所述方法还包括:
获取所述音频事件检测结果中存储的结果特征;
当所述结果特征为数字特征值,且判断到所述数字特征值在预设值范围内时,判定所述待检测数据中有音频事件的发生;
当所述结果特征为文字特征,且判断到所述文字特征中存储有预设文字时,判定所述待检测数据中有音频事件的发生;
当所述结果特征为图像特征,且判断到所述图像特征中存储有预设图像时,判定所述待检测数据中有音频事件的发生。
7.一种音频事件检测系统,其特征在于,所述系统包括:
音频特征提取模块,用于获取原始音频信号,对所述原始音频信号进行特征提取,以得到音频特征;
特征合并模块,用于将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并,以得到深层变换特征,所述神经网络模型中至少设有一层深度神经网络;
降维模块,用于对所述深层变换特征进行降维处理,以得到特征矢量,并将所述特征矢量作为当前帧的信息输入所述神经网络模型;
事件检测模块,用于获取训练集数据和待检测数据,根据所述训练集数据对所述神经网络模型进行训练,并将所述待检测数据输入至训练后的所述神经网络模型进行事件分析,以得到音频事件检测结果。
8.如权利要求7所述的音频事件检测系统,其特征在于,所述特征合并模块还用于:
将所述音频特征输入当前层深度神经网络进行所述瓶颈特征的提取和合并,以得到音频矢量;
将所述音频矢量作为下一层深度神经网络的输入,并控制所述下一层深度神经网络依序对所述音频矢量进行所述瓶颈特征的提取和合并;
将最后层深度神经网络提取出的所述瓶颈特征设置为所述深层变换特征。
9.一种移动终端,其特征在于,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至6任一项所述的音频事件检测方法。
10.一种存储介质,其特征在于,其存储有权利要求10所述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现权利要求1至6任一项所述的音频事件检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911207416.XA CN110942766A (zh) | 2019-11-29 | 2019-11-29 | 音频事件检测方法、系统、移动终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911207416.XA CN110942766A (zh) | 2019-11-29 | 2019-11-29 | 音频事件检测方法、系统、移动终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110942766A true CN110942766A (zh) | 2020-03-31 |
Family
ID=69909213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911207416.XA Pending CN110942766A (zh) | 2019-11-29 | 2019-11-29 | 音频事件检测方法、系统、移动终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110942766A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916059A (zh) * | 2020-07-01 | 2020-11-10 | 深圳大学 | 一种基于深度学习的平滑语音检测方法、装置及智能设备 |
CN112241467A (zh) * | 2020-12-18 | 2021-01-19 | 北京爱数智慧科技有限公司 | 一种音频查重的方法和装置 |
CN112309425A (zh) * | 2020-10-14 | 2021-02-02 | 浙江大华技术股份有限公司 | 一种声音变调方法、电子设备及计算机可读存储介质 |
CN112529152A (zh) * | 2020-12-03 | 2021-03-19 | 开放智能机器(上海)有限公司 | 一种基于人工智能的西瓜成熟度检测的系统和方法 |
CN112836591A (zh) * | 2021-01-14 | 2021-05-25 | 清华大学深圳国际研究生院 | 一种油气长输管道光纤预警信号特征提取方法 |
CN113645439A (zh) * | 2021-06-22 | 2021-11-12 | 宿迁硅基智能科技有限公司 | 事件检测方法及系统、存储介质及电子装置 |
CN113823323A (zh) * | 2021-09-30 | 2021-12-21 | 深圳万兴软件有限公司 | 一种基于卷积神经网络的音频处理方法、装置及相关设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819770A (zh) * | 2010-01-27 | 2010-09-01 | 武汉大学 | 音频事件检测系统及方法 |
CN104269169A (zh) * | 2014-09-09 | 2015-01-07 | 山东师范大学 | 一种混叠音频事件分类方法 |
CN106024014A (zh) * | 2016-05-24 | 2016-10-12 | 努比亚技术有限公司 | 一种语音转换方法、装置及移动终端 |
CN106952644A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于瓶颈特征的复杂音频分割聚类方法 |
CN107483879A (zh) * | 2016-06-08 | 2017-12-15 | 中兴通讯股份有限公司 | 视频标记方法、装置及视频监控方法和系统 |
CN108182949A (zh) * | 2017-12-11 | 2018-06-19 | 华南理工大学 | 一种基于深度变换特征的高速公路异常音频事件分类方法 |
CN108510982A (zh) * | 2017-09-06 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 音频事件检测方法、装置及计算机可读存储介质 |
CN108694951A (zh) * | 2018-05-22 | 2018-10-23 | 华南理工大学 | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 |
CN110223713A (zh) * | 2019-06-11 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 声音事件检测模型训练方法及声音事件检测方法 |
-
2019
- 2019-11-29 CN CN201911207416.XA patent/CN110942766A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819770A (zh) * | 2010-01-27 | 2010-09-01 | 武汉大学 | 音频事件检测系统及方法 |
CN104269169A (zh) * | 2014-09-09 | 2015-01-07 | 山东师范大学 | 一种混叠音频事件分类方法 |
CN106024014A (zh) * | 2016-05-24 | 2016-10-12 | 努比亚技术有限公司 | 一种语音转换方法、装置及移动终端 |
CN107483879A (zh) * | 2016-06-08 | 2017-12-15 | 中兴通讯股份有限公司 | 视频标记方法、装置及视频监控方法和系统 |
CN106952644A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于瓶颈特征的复杂音频分割聚类方法 |
CN108510982A (zh) * | 2017-09-06 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 音频事件检测方法、装置及计算机可读存储介质 |
CN108182949A (zh) * | 2017-12-11 | 2018-06-19 | 华南理工大学 | 一种基于深度变换特征的高速公路异常音频事件分类方法 |
CN108694951A (zh) * | 2018-05-22 | 2018-10-23 | 华南理工大学 | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 |
CN110223713A (zh) * | 2019-06-11 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 声音事件检测模型训练方法及声音事件检测方法 |
Non-Patent Citations (1)
Title |
---|
金海: ""基于深度神经网络的音频事件检测"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916059A (zh) * | 2020-07-01 | 2020-11-10 | 深圳大学 | 一种基于深度学习的平滑语音检测方法、装置及智能设备 |
CN111916059B (zh) * | 2020-07-01 | 2022-12-27 | 深圳大学 | 一种基于深度学习的平滑语音检测方法、装置及智能设备 |
CN112309425A (zh) * | 2020-10-14 | 2021-02-02 | 浙江大华技术股份有限公司 | 一种声音变调方法、电子设备及计算机可读存储介质 |
CN112529152A (zh) * | 2020-12-03 | 2021-03-19 | 开放智能机器(上海)有限公司 | 一种基于人工智能的西瓜成熟度检测的系统和方法 |
CN112241467A (zh) * | 2020-12-18 | 2021-01-19 | 北京爱数智慧科技有限公司 | 一种音频查重的方法和装置 |
CN112836591A (zh) * | 2021-01-14 | 2021-05-25 | 清华大学深圳国际研究生院 | 一种油气长输管道光纤预警信号特征提取方法 |
CN112836591B (zh) * | 2021-01-14 | 2024-02-27 | 清华大学深圳国际研究生院 | 一种油气长输管道光纤预警信号特征提取方法 |
CN113645439A (zh) * | 2021-06-22 | 2021-11-12 | 宿迁硅基智能科技有限公司 | 事件检测方法及系统、存储介质及电子装置 |
CN113645439B (zh) * | 2021-06-22 | 2022-07-29 | 宿迁硅基智能科技有限公司 | 事件检测方法及系统、存储介质及电子装置 |
CN113823323A (zh) * | 2021-09-30 | 2021-12-21 | 深圳万兴软件有限公司 | 一种基于卷积神经网络的音频处理方法、装置及相关设备 |
CN113823323B (zh) * | 2021-09-30 | 2023-12-12 | 深圳万兴软件有限公司 | 一种基于卷积神经网络的音频处理方法、装置及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107146601B (zh) | 一种用于说话人识别系统的后端i-vector增强方法 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
KR100908121B1 (ko) | 음성 특징 벡터 변환 방법 및 장치 | |
CN110459241B (zh) | 一种用于语音特征的提取方法和系统 | |
CN110931023B (zh) | 性别识别方法、系统、移动终端及存储介质 | |
Yücesoy et al. | Gender identification of a speaker using MFCC and GMM | |
WO2023070874A1 (zh) | 一种声纹识别方法 | |
CN109147798B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN105679321B (zh) | 语音识别方法、装置及终端 | |
Abdalla et al. | DWT and MFCCs based feature extraction methods for isolated word recognition | |
KR101236539B1 (ko) | 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법 | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
Saksamudre et al. | Comparative study of isolated word recognition system for Hindi language | |
CN112397090A (zh) | 一种基于fpga的实时声音分类方法及系统 | |
Gaudani et al. | Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language | |
Garg et al. | Enhancement of speech signal using diminished empirical mean curve decomposition-based adaptive Wiener filtering | |
Joy et al. | Deep scattering power spectrum features for robust speech recognition | |
Rao | Accent classification from an emotional speech in clean and noisy environments | |
Upadhyay et al. | Robust recognition of English speech in noisy environments using frequency warped signal processing | |
Tzudir et al. | Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients | |
Singh et al. | A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters | |
Konduru et al. | Multidimensional feature diversity based speech signal acquisition | |
CN111785262A (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Sunil Kumar et al. | Phoneme recognition using zerocrossing interval distribution of speech patterns and ANN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200331 |
|
RJ01 | Rejection of invention patent application after publication |