CN108346428B - 语音活动检测及其模型建立方法、装置、设备及存储介质 - Google Patents
语音活动检测及其模型建立方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN108346428B CN108346428B CN201710824269.5A CN201710824269A CN108346428B CN 108346428 B CN108346428 B CN 108346428B CN 201710824269 A CN201710824269 A CN 201710824269A CN 108346428 B CN108346428 B CN 108346428B
- Authority
- CN
- China
- Prior art keywords
- audio
- frame
- features
- voice activity
- activity detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 191
- 230000000694 effects Effects 0.000 title claims abstract description 132
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 64
- 238000003062 neural network model Methods 0.000 claims abstract description 53
- 238000009432 framing Methods 0.000 claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 230000010365 information processing Effects 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000009499 grossing Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000011478 gradient descent method Methods 0.000 description 3
- 101000836873 Homo sapiens Nucleotide exchange factor SIL1 Proteins 0.000 description 2
- 102100027096 Nucleotide exchange factor SIL1 Human genes 0.000 description 2
- 101100355601 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RAD53 gene Proteins 0.000 description 2
- 101000880156 Streptomyces cacaoi Subtilisin inhibitor-like protein 1 Proteins 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 101150087667 spk1 gene Proteins 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101100043388 Arabidopsis thaliana SRK2D gene Proteins 0.000 description 1
- 102100027662 Sphingosine kinase 2 Human genes 0.000 description 1
- 101710156532 Sphingosine kinase 2 Proteins 0.000 description 1
- 101000880160 Streptomyces rochei Subtilisin inhibitor-like protein 2 Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000005654 stationary process Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种语音活动检测及其模型建立方法、装置、设备及存储介质,该模型建立方法包括:获取训练音频文件及训练音频文件的目标结果;对训练音频文件进行分帧得到音频帧,并提取音频帧的音频特征,音频特征包括至少两种特征,至少两种特征包括能量;将音频特征作为深度神经网络模型的输入,并经过深度神经网络模型的隐藏层进行信息处理,由深度神经网络模型的输出层输出,得到训练结果;将训练结果与目标结果的偏差作为误差反向传播机制的输入,对隐藏层的权重分别进行更新,直至深度神经网络模型达到预设条件得到语音活动检测模型。因此,通过该语音活动检测模型进行语音活动检测时的准确性高。
Description
本发明涉及语音信息处理技术领域,特别涉及一种语音活动检测及其模型建立方法、装置、设备及存储介质。
背景技术
随着信息技术的发展,语音信息的应用越来越广泛,而语音活动检测对于语音信息的处理具有十分重要的意义。语音活动检测(Voice Activity Detection,VAD)又称语音端点检测,语音边界检,是指在噪声环境中检测语音的存在与否,通常用于语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少计算机设备能耗、提高识别率等作用。
常用的语音活动检测方法是基于能量的语音活动检测方法,该方法认为噪声是平稳的,语音部分的能量要高于噪声部分的能量。根据这个规则进行语音/非语音的判定,其主要优点是对于平稳噪声的场合有很好的应用,应用的场合比较广泛,缺点是对于非平稳噪声以及噪声比较大的环境效果不佳,误判情况严重。因此,传统的语音活动检测方法存在检测准确性较差的问题。
发明内容
基于此,有必要针对检测准确性差的问题,提出一种能提高检测准确性的语音活动检测及其模型建立方法、装置、设备及存储介质。
一种语音活动检测模型建立方法,包括:
获取训练音频文件及所述训练音频文件的目标结果;
对所述训练音频文件进行分帧得到音频帧,并提取所述音频帧的音频特征,所述音频特征包括至少两种特征,所述至少两种特征包括能量;
将所述音频特征作为深度神经网络模型的输入,并经过所述深度神经网络模型的隐藏层进行信息处理,由所述深度神经网络模型的输出层输出,得到训练结果;
将所述训练结果与所述目标结果的偏差作为误差反向传播机制的输入,对所述隐藏层的权重分别进行更新,直至所述深度神经网络模型达到预设条件得到语音活动检测模型。
一种语音活动检测方法,包括:
获取待检测音频文件;
对所述待检测音频文件进行分帧得到音频帧,并提取所述音频帧的音频特征;
获取基于权利要求1-4任意一项所述的语音活动检测模型建立方法得到的语音活动检测模型;
将所述音频特征输入至所述语音活动检测模型,得到检测结果。
一种语音活动检测模型建立装置,包括:
文件结果获取模块,用于获取训练音频文件及所述训练音频文件的目标结果;
分帧特征提取模块,用于对所述训练音频文件进行分帧得到音频帧,并提取所述音频帧的音频特征,所述音频特征包括至少两种特征,所述至少两种特征包括能量;
模型输入输出模块,用于将所述音频特征作为深度神经网络模型的输入,并经过所述深度神经网络模型的隐藏层进行信息处理,由所述深度神经网络模型的输出层输出,得到训练结果;
模型更新优化模块,用于将所述训练结果与所述目标结果的偏差作为误差反向传播机制的输入,对所述隐藏层的权重分别进行更新,直至所述深度神经网络模型达到预设条件得到语音活动检测模型。
一种语音活动检测装置,包括:
待检文件获取模块,用于获取待检测音频文件;
分帧特征提取模块,用于对所述待检测音频文件进行分帧得到音频帧,并提取所述音频帧的音频特征;
检测模型获取模块,用于获取基于权利要求8-10任意一项所述的语音活动检测模型建立装置得到的语音活动检测模型;
检测结果确定模块,用于将所述音频特征输入至所述语音活动检测模型,得到检测结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述的方法的步骤。
一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得处理器执行上述的方法的步骤。
上述的方法、装置、设备及存储介质,由于音频特征包括能量及至少一种区别于能量的特征,该音频特征相对于传统检测方式中携带的信息更多;同时,深度神经网络模型的学习能力强,可以同时输入多种不同的特征,对模型进行训练得到语音活动检测模型。因此,通过该语音活动检测模型进行语音活动检测时的准确性高。
附图说明
图1为第一个实施例中语音活动检测模型建立方法的流程示意图;
图2为图1的语音活动检测模型建立方法的深度神经网络模型的框架结构;
图3为第二个实施例中语音活动检测模型建立方法的流程示意图;
图4为第三个实施例中语音活动检测模型建立方法的流程示意图;
图5为一个具体实施例中语音活动检测模型建立方法的的原理框图;
图6为一实施例中语音活动检测方法的流程示意图;
图7为一具体实施例中语音活动检测方法过程示意图;
图8为另一实施例中语音活动检测方法的流程示意图;
图9为另一具体实施例中语音活动检测方法过程示意图;
图10为一实施例中语音活动检测模型建立装置的结构框图;
图11为图10的语音活动检测模型建立装置的一个模块的单元结构图;
图12为一实施例中语音活动检测装置的结构框图;
图13为另一实施例中语音活动检测装置的结构框图;
图14为一实施例的计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明可应用于需要对语音活动情况进行检测的任何场景。如图1所示,在一个实施例中,提供了一种语音活动检测模型建立方法。该语音活动检测模型建立方法在执行设备上执行,该执行设备可以作为服务器也可以作为客户终端。执行设备可以为计算机设备、移动设备等能够播放动态图片的设备。计算机设备包括台式计算机、手提式计算机等;移动设备包括智能移动终端,如智能手机、平板电脑等。该语音活动检测模型建立方法包括如下步骤:
S110:获取训练音频文件及训练音频文件的目标结果。
可以从训练样本中获取训练音频文件及训练音频文件的目标结果。训练样本为通过人工识别的方式,将一组训练音频文件进行语音检测得到的结果作为该训练音频文件的目标结果。训练音频文件为用于训练的音频文件,如,可以为各种应用场景下的音频文件。目标结果为该训练音频应该得到的训练结果,但由于模型可能并未达到最优,因此在训练过程中,训练结果会与目标结果存在一定的偏差。
S120:对训练音频文件进行分帧得到音频帧,并提取所述音频帧的音频特征,音频特征包括至少两种特征,所述至少两种特征包括能量。即音频特征包括能量及区别于能量的至少一种特征。
将一个完整的训练音频文件进行分帧处理,然后对每一音频帧进行语音活动检测。在检测过程中,首先要提取该音频帧的音频特征。音频特征包括至少两种特征,所述至少两种特征包括能量。如,音频特征除了包括能量还可以包括过零率,均值,方差等特征中的至少一项。当除了能量之外还包括多种特征时,可以将该多种特征分为单一类型的多种特征和非单一类型的多种特征。由于不同的特征对语音/非语音的解释不同,有些特征对平稳噪声有效果,有些特征对非平稳噪声有效,因此多种特征相较于一种特征对语音/非语音的表述更加清晰,因而效果也更好;在一定程度上,非单一类型的多种特征相较于单一类型的多种特征对语音/非语音的表述也更加全面,因而效果也更好。
S130:将音频特征作为深度神经网络模型的输入,经过深度神经网络模型的隐藏层进行信息处理,由深度神经网络模型的输出层输出,得到训练结果。
深度神经网络模型的框架结构如图2所示,包括一输入层、一输出层,在输入层及输出层之间还包括多层隐藏层,隐藏层也可以称为隐层。输入层用于接收模型的输入特征,在本实施例中,输入特征为音频特征。输出层用于输出模型的输出结果,在本实施例中,输出结果为训练结果。隐藏层用于模型的信息处理,如信息传递。隐藏层中包括权重,通过在训练过程中调整、更新这些权重,可以使得模型达到预设条件。
如,信息传递的规则可以表示为y=W·z+b,其中,z=f(yl-1)是经过非线性变换之后的最终输出,W和b是隐藏层的权重和偏差;yl-1是上一层的线性乘积的结果,f是非线性函数,隐藏层的非线性函数可以为sigmoid函数(S形生长曲线函数)。
S140:将训练结果与目标结果的偏差作为误差反向传播机制的输入,对隐藏层的权重分别进行更新,直至深度神经网络模型达到预设条件得到语音活动检测模型。
偏差可以为训练结果与目标结果的差值。训练结果和目标结果均可以通过一个标注来表示,每一个标注均对应一个以数值形式表示的ID(身份标识),可以通过该训练结果对应的身份标识与目标结果对应的身份标识的差值来表示偏差。在深度神经网络模型未达到预设条件之前采用误差反向传播机制从输出层到输入层中的隐藏层逐层的权重进行逐层更新,从而更新深度神经网络模型,直至深度神经网络模型达到预设条件时,将该深度神经网络模型作为语音活动检测模型。误差反向传播机制可以通过误差反向传播算法实现。预设条件为深度神经网络达到最优。深度神经网络达是否达到最优,可以通过损失函数来确定。损失函数将训练样本中练音频文件及训练音频文件的目标结果分别输入至该深度神经网络模型,当连续预设次数的准确率不变时,深度神经网络达到最庸。优选地,损失函数可以为最大熵和最小均方误差函数,在对隐藏层的权重进行更新时,可以采用随机梯度下降法,经过多轮迭代最终使得深度神经网络模型达到预设条件。其中,随机梯度下降法中使用的公式为:Wt+1=Wt-η△Wt,η是学习率,Wt+1为第t+1层隐藏层的权重,Wt为第t层隐藏层的权重,△Wt为损失函数对权重求偏导之后的结果。最大熵损失函数对损失函数中的权重w和偏差b求偏导,使用随机梯度下降法逐轮对权重w和偏差b进行更新。
上述语音活动检测模型建立方法,由于音频特征包括能量及至少一种区别于能量的特征,该音频特征相对于传统检测方式中携带的信息更多;同时,深度神经网络模型的学习能力强,可以同时输入多种不同的特征,对模型进行训练得到语音活动检测模型。因此,通过该语音活动检测模型进行语音活动检测时的准确性高。
为了进一步提高检测的准确性,在其中一实施例中,目标结果包括至少两个语音类或/及至少两个噪音类。相较于仅分为语音类和噪音类两个类别的两类建模方式,本实施例采用多类建模方式,将目标结果为语音类和噪音类再细分成不同的类,比如对于语音类可以细分为第一语音类SPK1,第二语音类SPK2,第三语音类SPK3,...,噪音类可以细分为第一噪音类SIL1,第二噪音类SIL2,第三噪音类SIL3,...等,多类建模方式比两类建模训练更加充分,在检测的过程中仅需要对相同的类别进行加和,然后比较最终的得分,即可得到最终的类别,其结果更为准确。
请参阅图3,在其中一实施例中,音频特征为融合音频特征。融合音频特征包括至少两项独立音频特征,独立音频特征包括能量,以及过零率、均值、方差中的至少一种。提取每一音频帧的音频特征的步骤,包括:
S221:提取每一音频帧的独立音频特征。
S222:对各独立音频特征进行融合得到融合音频特征。
独立音频特征是指该音频特征仅包括单独的一个特征。在深度神经网络模型中,各种类型的独立音频特征之间是平等的。特征融合的方法是增加音频特征的维度,比如,均值是40维,那么增加10维的能量特征就变成50维的融合音频特征。如此,通过特征融合的方式将音频特征输入到深度神经网络中。
请参阅图4,为了进一步提高检测的准确性,在其中一实施例中,每一音频帧的音频特征为扩展帧音频特征。扩展帧音频特征包括当前帧的单帧音频特征,以及当前帧之前第一预设数量帧的单帧音频特征或/及当前帧之后第二预设数量帧的单帧音频特征。
提取每一音频帧的音频特征的步骤,包括:
S323:提取每一音频帧的单帧音频特征。
S324:将当前帧的单帧音频特帧以及当前帧之前第一预设数量帧的单帧音频特征或/及当前帧之后第二预设数量帧的单帧音频特征作为当前帧的扩展帧音频特征。
单帧音频特征是指仅包括一个帧的特征的音频特征。扩展帧音频特征,是指包括多个帧的特征的音频特征,该多个帧具体为当前帧以及当前帧之前第一预设数量帧或/及当前帧之后第二预设数量帧。如,假设单帧音频特征为N维的音频特征,第一预设数量帧为m1,第二数量帧为m2,则扩展音频特征的维数为N*(m1+1),或N*(m2+1),或N*(m1+m2+1)。如此,通过扩展音频特征可以使得每一个音频特征携带更多的信息,从而提高检测的准确性。
由于音频是一个短时平稳过程,因而在训练深度神经网络模型的时候如果能同时使用历史和未来信息,效果会更好,当前时间点(当前帧)之前的第一预设帧数量的独立音频特征是历史信息,之后的第二预设帧数量的独立音频特征是未来信息。即较优地,扩展帧音频特征包括当前帧的单帧音频特征,以及当前帧之前第一预设数量帧的单帧音频特征及当前帧之后第二预设数量帧的单帧音频特征。
S325:分别将每一音频帧作为当前帧得到每一音频帧的扩展音频特征。
分别将每一音频帧作为当前帧,执行步骤S323,可以得到每一音频帧的扩展音频特征。
如此,对每一个音频特征进行扩展,从而提高检测的准确性。
在其中一个具体实施例中,如图5所示,为语音活动检测模型建立的原理图,语音活动检测模型建立方法,包括:音频获取的步骤,目标结果获取的步骤,特征提取的步骤,帧扩展的步骤,输入深度神经网络模型的步骤,偏差计算的步骤及误差反向传播(BackPropagation,BP)的步骤。通过音频获取及目标结果获取的步骤,获取训练音频文件及训练音频文件的目标结果targets。通过特征提取的步骤,对训练音频文件进行分帧,提取每一音频帧的独立音频特征,并对各独立音频特征进行融合得到融合音频特征。通过帧扩展的步骤,对每一音频帧进行单帧音频特征的提取,得到每一音频帧的融合音频特征;将当前帧、当前帧之前第一预设帧数的融合音频特征以及当前帧之后第二预设帧数量的融合音频特征进帧扩展,得到扩展帧音频特征;对每一音频帧进行帧扩展得到每一音频帧的扩展音频特征。通过输入深度神经网络模型的步骤,将扩展音频特征输入至深度神经网络,并经过深度神经网络模型的隐藏层进行信息传递,由深度神经网络模型的输出层输出训练结果。通过偏差(bias)计算的步骤,计算训练结果与目标结果的偏差,可以将该偏差作为误差反向传播算法的输入,对隐藏层的权重进行更新,直至深度神经网络模型达到预设条件得到语音活动检测模型。在该实施例中,通过损失函数来确定深度神经网络模型是否达到预设条件。
请参阅图6,本发明还提供一种应用上述语音活动检测模型建立方法的语音活动检测方法,包括:
S610:获取待检测音频文件。
S620:对待检测音频文件进行分帧得到音频帧,并提取音频帧的音频特征。
S630:获取基于上述的语音活动检测模型建立方法得到的语音活动检测模型。
S640:将音频特征输入至语音活动检测模型,得到检测结果。
相较于上述的模型建立方法,语音活动检测方法与之对应,且无需获取目标结果,也不用根据目标结果和训练结果进行模型的更新。只需要在将音频特征输入到语音活动检测模型之后,得到检测结果即可。
由于音频特征包括能量及至少一种区别于能量的特征,该音频特征相对于传统检测方式中携带的信息更多;同时,深度神经网络的学习能力强,可以同时输入多种不同的特征,进行训练得到语音活动检测模型。因此,通过该语音活动检测模型进行语音活动检测时的准确性高。
在其中一具体实施例中,语音活动检测方法的过程示意图,如图7所示,首先获取待检测音频,对待检测音频进行分帧,然后对每一音频帧进行特征提取得到每一音频帧的音频特征;接着对音频特征进行帧扩展得到每一音频帧的扩展音频特征,最后将扩展音频特征输入至训练好的深度神经网络模型即语音活动检测模型,即可得待检测音频的每一音频帧的检测结果。检测结果可以为目标结果中的一种,目标结果包括至少两个语音类或/及至少两个噪音类。对于语音类可以为第一语音类SPK1,第二语音类SPK2,...,噪音类可以为第一噪音类SIL1,第二噪音类SIL2,...等。
如图8所示,在其中一实施方式,将音频特征输入至语音活动检测模型,得到检测结果的步骤,包括:
S842:将音频特征输入至语音活动检测模块,得到待检测音频文件的各音频帧的帧检测结果。
S844:对待检测音频文件中各帧检测结果进行平滑处理,得到待检测音频文件的检测结果。
在本实施例中,在对待检测音频文件的每一音频帧进行检测得到帧检测结果之后,对整个待检测音频文件的各音频帧的帧检测结果进行平滑处理,以纠正在检测过程中出现错判的情况。由于在判断的过程中不可避免地,可能会出现明显的错判的情况,比如深度神经网络模型的输出序列为:SPK(语音类),SPK,SPK,SIL(噪音类),SPK,很明显其中的SIL应该为错判的情况,经过平滑之后检测结果为SPK,SPK,SPK,SPK,SPK,该平滑后的检测结果更为准确。
请继续参阅图8,在其中一实施例中,得到待检测音频文件的检测结果的步骤之后,还包括:
S850:根据检测结果确定待检测音频文件中的语音起始点和语音结束点。
可以通过使用一个滑动窗,设置时间阈值,如果滑动窗内语音段的长度超过该时间阈值,那么就找到了语音起始点;语音起始点找到之后,如果滑动窗内静音的长度超过这个阈值,那么就找到语音结束点;最后,可以根据语音起始点及语音结束点将音频分成不同的子段,如语音子段、噪音子段。
在其中一具体实施例中,语音活动检测方法的过程示意图,如图9所示,首先获取待检测音频,对待检测音频进行分帧,然后对每一音频帧进行特征提取得到每一音频帧的音频特征;接着对音频特征进行帧扩展得到每一音频帧的扩展音频特征,再将扩展音频特征输入至训练好的深度神经网络模型即语音活动检测模型重,即可得待检测音频的每一音频帧的帧检测结果,也即深度神经网络模型的输出序列;对帧检测结果进行平滑处理之后可以得到待检测音频的检测结果,最后根据检测结果确定待检测音频文件中的语音起始点和语音结束点,从而可以将待检测音频划分成同的子段,如SPK(音频)子段或SIL(噪音)子段。
如图10所示,本发明还提供一种与上述语音活动检测模型建立方法对应的语音活动检测模型建立装置,包括:
文件结果获取模块110,用于获取训练音频文件及训练音频文件的目标结果。
分帧特征提取模块120,用于对训练音频文件进行分帧得到音频帧,并提取所述音频帧的音频特征,音频特征包括至少两种特征,所述至少两种特征包括能量。即音频特征包括能量及区别于能量的至少一种特征。
模型输入输出模块130,用于将音频特征作为深度神经网络模型的输入,经过深度神经网络模型的隐藏层进行信息处理,由深度神经网络模型的输出层输出,得到训练结果。
模型更新优化模块140,用于将训练结果与目标结果的偏差作为误差反向传播机制的输入,对隐藏层的权重分别进行更新,直至深度神经网络模型达到预设条件得到语音活动检测模型。
上述语音活动检测模型建立装置,由于音频特征包括能量及至少一种区别于能量的特征,该音频特征相对于传统检测方式中携带的信息更多;同时,深度神经网络模型的学习能力强,可以同时输入多种不同的特征,对模型进行训练得到语音活动检测模型。因此,通过该语音活动检测模型进行语音活动检测时的准确性高。
在其中一实施例中,目标结果包括至少两个语音类或/及至少两个噪音类。
请参阅图11,在其中一实施例中,音频特征为融合音频特征;融合音频特征包括至少两项独立音频特征,独立音频特征包括能量,以及过零率、均值、方差中的至少一种;分帧特征提取模块220,包括:
独立特征提取单元221,用于提取每一音频帧的独立音频特征;
融合特征融合单元222,用于对各独立音频特征进行融合得到融合音频特征。
请继续参阅图11,在其中一实施例中,音频特征为扩展帧音频特征;扩展帧音频特征包括当前帧的单帧音频特征、以及当前帧之前第一预设数量帧的单帧音频特征或/及当前帧之后第二预设数量帧的单帧音频特征;
分帧特征提取模块220,包括:
单帧特征提取单元223,用于提取每一音频帧的单帧音频特征;
音频帧扩展单元224,用于将当前帧的单帧音频特帧,以及当前帧之前第一预设数量帧的单帧音频特征或/及当前帧之后第二预设数量帧的单帧音频特征,作为当前帧的扩展帧音频特征;
音频帧扩展单元224,还用于分别将每一音频帧作为当前帧得到每一音频帧的扩展音频特征。
如图12所示,本发明还提供一种与上述语音活动检测方法对应的语音活动检测装置,包括:
待检文件获取模块310,用于获取待检测音频文件;
分帧特征提取模块320,用于对待检测音频文件进行分帧得到音频帧,并提取所述音频帧的音频特征;
检测模型获取模块330,用于获取基上述的语音活动检测模型建立装置得到的语音活动检测模型;
检测结果确定模块340,用于将音频特征输入至语音活动检测模型,得到检测结果。
由于音频特征包括能量及至少一种区别于能量的特征,该音频特征相对于传统检测方式中携带的信息更多;同时,深度神经网络的学习能力强,可以同时输入多种不同的特征,进行训练得到语音活动检测模型。因此,通过该语音活动检测模型进行语音活动检测时的准确性高。
请参阅图13,在其中一实施例中,检测结果确定模块440,包括:
帧检结果确定单元442,用于将音频特征输入至语音活动检测模块,得到待检测音频文件的各音频帧的帧检测结果;
帧检结果平滑单元444,用于对待检测音频文件中各帧检测结果进行平滑处理,得到待检测音频文件的检测结果。
在其中一实施例中,该检测装置,还包括:
待检音频分段模块450,用于根据检测结果确定待检测音频文件中的语音起始点和语音结束点。
图14示出了一个实施例中计算机设备的内部结构图。该计算机设备包括该通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现语音活动检测模型建立方法、语音活动检测方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行语音活动检测模型建立方法、语音活动检测方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的语音活动检测模型建立装置、语音活动检测装置可以实现为一种计算机程序的形式,计算机程序可在如图14所示的计算机设备上运行。计算机设备的存储器中可存储组成该语音活动检测模型建立装置、语音活动检测装置的各个程序模块,比如,图10所示的文件结果获取模块110、分帧特征提取模块120、模型输入输出模块130及模型更新优化模块140。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的语音活动检测模型建立方法中的步骤。
以语音活动检测模型建立装置为例,请结合参阅图1、10及14,图14所示的计算机设备可以通过如图10所示的语音活动检测模型建立装置中的文件结果获取模块110执行步骤S110。计算机设备可通过分帧特征提取模块120执行步骤S120。计算机设备可通过模型输入输出模块130执行步骤S130。计算机设备可通过模型更新优化模块140执行步骤S140。
本发明还提供一种与上述方法及装置对应的计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述的方法的步骤。
本发明还提供一种与上述方法及装置对应的存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述的方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种语音活动检测模型建立方法,包括:
获取训练音频文件及所述训练音频文件的目标结果;所述目标结果包括至少两个语音类或/及至少两个噪音类;所述至少两个语音类属于语音类别中不同的类,所述至少两个噪音类属于噪音类别中不同的类,所述目标结果根据所述至少两个语音类或所述至少两个噪音类中相同类别的和对应的得分得到;
对所述训练音频文件进行分帧得到音频帧,并提取所述音频帧的音频特征,所述音频特征包括至少两种特征,所述至少两种特征包括能量,以及过零率、均值、方差中的至少一种;
将所述音频特征作为深度神经网络模型的输入,经过所述深度神经网络模型的隐藏层进行信息处理,由所述深度神经网络模型的输出层输出,得到训练结果;
将所述训练结果与所述目标结果的偏差作为误差反向传播机制的输入,对所述隐藏层的权重分别进行更新,直至所述深度神经网络模型达到预设条件得到语音活动检测模型。
2.根据权利要求1所述的语音活动检测模型建立方法,其特征在于:所述误差反向传播机制包括误差反向传播算法;所述预设条件包括通过损失函数确定深度神经网络模型达到最优。
3.根据权利要求1所述的语音活动检测模型建立方法,其特征在于,所述音频特征为融合音频特征;所述融合音频特征包括至少两项独立音频特征,所述独立音频特征包括能量,以及过零率、均值、方差中的至少一种;所述提取每一音频帧的音频特征的步骤,包括:
提取每一音频帧的独立音频特征;
对各所述独立音频特征进行融合得到所述融合音频特征。
4.根据权利要求1-3任意一项所述的语音活动检测模型建立方法,其特征在于,所述音频特征为扩展帧音频特征;所述扩展帧音频特征包括当前帧的单帧音频特征、以及所述当前帧之前第一预设数量帧的单帧音频特征或/及所述当前帧之后第二预设数量帧的单帧音频特征;
所述提取每一音频帧的音频特征的步骤,包括:
提取每一音频帧的所述单帧音频特征;
将当前帧的所述单帧音频特帧,以及所述当前帧之前第一预设数量帧的所述单帧音频特征或/及所述当前帧之后第二预设数量帧的所述单帧音频特征,作为所述当前帧的所述扩展帧音频特征;
分别将每一音频帧作为所述当前帧得到每一音频帧的扩展音频特征。
5.一种语音活动检测方法,包括:
获取待检测音频文件;
对所述待检测音频文件进行分帧得到音频帧,并提取所述音频帧的音频特征;
获取基于权利要求1-4任意一项所述的语音活动检测模型建立方法得到的语音活动检测模型;
将所述音频特征输入至所述语音活动检测模型,得到检测结果。
6.根据权利要求5所述的语音活动检测方法,其特征在于,所述将所述音频特征输入至所述语音活动检测模型,得到检测结果的步骤,包括:
将所述音频特征输入至所述语音活动检测模块,得到所述待检测音频文件的各音频帧的帧检测结果;
对所述待检测音频文件中各所述帧检测结果进行平滑处理,得到所述待检测音频文件的检测结果。
7.根据权利要求6所述的语音活动检测方法,其特征在于,所述得到所述待检测音频文件的检测结果的步骤之后,还包括:
根据所述检测结果确定所述待检测音频文件中的语音起始点和语音结束点。
8.一种语音活动检测模型建立装置,包括:
文件结果获取模块,用于获取训练音频文件及所述训练音频文件的目标结果;所述目标结果包括至少两个语音类或/及至少两个噪音类;所述至少两个语音类属于不同的类,所述至少两个噪音类属于不同的类,所述目标结果根据所述至少两个语音类或所述至少两个噪音类中相同类别的和对应的得分得到;
分帧特征提取模块,用于对所述训练音频文件进行分帧得到音频帧,并提取所述音频帧的音频特征,所述音频特征包括至少两种特征,所述至少两种特征包括能量,以及过零率、均值、方差中的至少一种;
模型输入输出模块,用于将所述音频特征作为深度神经网络模型的输入,经过所述深度神经网络模型的隐藏层进行信息处理,由所述深度神经网络模型的输出层输出,得到训练结果;
模型更新优化模块,用于将所述训练结果与所述目标结果的偏差作为误差反向传播机制的输入,对所述隐藏层的权重分别进行更新,直至所述深度神经网络模型达到预设条件得到语音活动检测模型。
9.根据权利要求8所述的语音活动检测模型建立装置,其特征在于,所述音频特征为融合音频特征;所述融合音频特征包括至少两项独立音频特征,所述独立音频特征包括能量,以及过零率、均值、方差中的至少一种;所述分帧特征提取模块,包括:
独立特征提取单元,用于提取每一音频帧的独立音频特征;
融合特征融合单元,用于对各所述独立音频特征进行融合得到所述融合音频特征。
10.根据权利要求8或9所述的语音活动检测模型建立装置,其特征在于,所述音频特征为扩展帧音频特征;所述扩展帧音频特征包括当前帧的单帧音频特征、以及所述当前帧之前第一预设数量帧的单帧音频特征或/及所述当前帧之后第二预设数量帧的单帧音频特征;
所述分帧特征提取模块,包括:
单帧特征提取单元,用于提取每一音频帧的所述单帧音频特征;
音频帧扩展单元,用于将当前帧的所述单帧音频特帧,以及所述当前帧之前第一预设数量帧的所述单帧音频特征或/及所述当前帧之后第二预设数量帧的所述单帧音频特征,作为所述当前帧的所述扩展帧音频特征;
所述音频帧扩展单元,还用于分别将每一音频帧作为所述当前帧得到每一音频帧的扩展音频特征。
11.一种语音活动检测装置,包括:
待检文件获取模块,用于获取待检测音频文件;
分帧特征提取模块,用于对所述待检测音频文件进行分帧得到音频帧,并提取所述音频帧的音频特征;
检测模型获取模块,用于获取基于权利要求8-10任意一项所述的语音活动检测模型建立装置得到的语音活动检测模型;
检测结果确定模块,用于将所述音频特征输入至所述语音活动检测模型,得到检测结果。
12.根据权利要求11所述的语音活动检测装置,其特征在于,所述检测结果确定模块,包括:
帧检结果确定单元,用于将所述音频特征输入至所述语音活动检测模块,得到所述待检测音频文件的各音频帧的帧检测结果;
帧检结果平滑单元,用于对所述待检测音频文件中各所述帧检测结果进行平滑处理,得到所述待检测音频文件的检测结果。
13.根据权利要求12所述的语音活动检测装置,其特征在于,所述检测结果确定模块,还包括:
待检音频分段单元,用于根据所述检测结果确定所述待检测音频文件中的语音起始点和语音结束点。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-7中任意一项所述的方法的步骤。
15.一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得处理器执行如权利要求1-7中任意一项所述的方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710824269.5A CN108346428B (zh) | 2017-09-13 | 2017-09-13 | 语音活动检测及其模型建立方法、装置、设备及存储介质 |
PCT/CN2018/102982 WO2019052337A1 (zh) | 2017-09-13 | 2018-08-29 | 语音活动检测方法及语音活动检测模型建立方法、计算机设备及存储介质 |
US16/678,001 US11393492B2 (en) | 2017-09-13 | 2019-11-08 | Voice activity detection method, method for establishing voice activity detection model, computer device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710824269.5A CN108346428B (zh) | 2017-09-13 | 2017-09-13 | 语音活动检测及其模型建立方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108346428A CN108346428A (zh) | 2018-07-31 |
CN108346428B true CN108346428B (zh) | 2020-10-02 |
Family
ID=62962403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710824269.5A Active CN108346428B (zh) | 2017-09-13 | 2017-09-13 | 语音活动检测及其模型建立方法、装置、设备及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11393492B2 (zh) |
CN (1) | CN108346428B (zh) |
WO (1) | WO2019052337A1 (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11475310B1 (en) * | 2016-11-29 | 2022-10-18 | Perceive Corporation | Training network to minimize worst-case error |
CN108346428B (zh) | 2017-09-13 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 语音活动检测及其模型建立方法、装置、设备及存储介质 |
CN109086709B (zh) * | 2018-07-27 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 特征提取模型训练方法、装置及存储介质 |
US20200074997A1 (en) * | 2018-08-31 | 2020-03-05 | CloudMinds Technology, Inc. | Method and system for detecting voice activity in noisy conditions |
CN111382645B (zh) * | 2018-12-29 | 2023-11-28 | 顺丰科技有限公司 | 电子地图中识别过期建筑的方法和系统 |
CN109567797B (zh) * | 2019-01-30 | 2021-10-01 | 浙江强脑科技有限公司 | 癫痫预警方法、装置及计算机可读存储介质 |
US20220172735A1 (en) * | 2019-03-07 | 2022-06-02 | Harman International Industries, Incorporated | Method and system for speech separation |
CN111797866A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 特征提取方法、装置、存储介质及电子设备 |
CN110010144A (zh) * | 2019-04-24 | 2019-07-12 | 厦门亿联网络技术股份有限公司 | 语音信号增强方法及装置 |
CN110289016A (zh) * | 2019-06-20 | 2019-09-27 | 深圳追一科技有限公司 | 一种基于实时对话的语音质检方法、装置及电子设备 |
CN110473528B (zh) * | 2019-08-22 | 2022-01-28 | 北京明略软件系统有限公司 | 语音识别方法和装置、存储介质及电子装置 |
CN118349673A (zh) * | 2019-09-12 | 2024-07-16 | 华为技术有限公司 | 文本处理模型的训练方法、文本处理方法及装置 |
CN110838296B (zh) * | 2019-11-18 | 2022-04-29 | 锐迪科微电子科技(上海)有限公司 | 录音过程的控制方法、系统、电子设备和存储介质 |
US11664044B2 (en) * | 2019-11-25 | 2023-05-30 | Qualcomm Incorporated | Sound event detection learning |
KR20210095431A (ko) * | 2020-01-23 | 2021-08-02 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN111462735B (zh) * | 2020-04-10 | 2023-11-28 | 杭州网易智企科技有限公司 | 语音检测方法、装置、电子设备及存储介质 |
CN111816216A (zh) * | 2020-08-25 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 语音活性检测方法和装置 |
CN111986680A (zh) * | 2020-08-26 | 2020-11-24 | 天津洪恩完美未来教育科技有限公司 | 对象的口语评测方法和装置、存储介质和电子装置 |
CN111798859B (zh) * | 2020-08-27 | 2024-07-12 | 北京世纪好未来教育科技有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
CN112508058B (zh) * | 2020-11-17 | 2023-11-14 | 安徽继远软件有限公司 | 基于音频特征分析的变压器故障诊断方法及装置 |
JP2023552090A (ja) * | 2020-11-20 | 2023-12-14 | ザ トラスティーズ オブ コロンビア ユニバーシティ イン ザ シティー オブ ニューヨーク | 連邦政府が後援する研究に関する音声ノイズ除去の声明のためのニューラルネットワークベースの手法 |
CN112530408A (zh) * | 2020-11-20 | 2021-03-19 | 北京有竹居网络技术有限公司 | 用于识别语音的方法、装置、电子设备和介质 |
CN113327630B (zh) * | 2021-05-27 | 2023-05-09 | 平安科技(深圳)有限公司 | 语音情绪识别方法、装置、设备及存储介质 |
CN113257284B (zh) * | 2021-06-09 | 2021-11-02 | 北京世纪好未来教育科技有限公司 | 语音活动检测模型训练、语音活动检测方法及相关装置 |
CN113593603A (zh) * | 2021-07-27 | 2021-11-02 | 浙江大华技术股份有限公司 | 音频类别的确定方法、装置、存储介质及电子装置 |
CN114333912B (zh) * | 2021-12-15 | 2023-08-29 | 北京百度网讯科技有限公司 | 语音激活检测方法、装置、电子设备和存储介质 |
JP2023135203A (ja) * | 2022-03-15 | 2023-09-28 | 株式会社東芝 | 音声区間検出装置、学習装置及び音声区間検出プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105529038A (zh) * | 2014-10-21 | 2016-04-27 | 阿里巴巴集团控股有限公司 | 对用户语音信号进行处理的方法及其系统 |
CN105788592A (zh) * | 2016-04-28 | 2016-07-20 | 乐视控股(北京)有限公司 | 一种音频分类方法及装置 |
CN106782511A (zh) * | 2016-12-22 | 2017-05-31 | 太原理工大学 | 修正线性深度自编码网络语音识别方法 |
GB2546325A (en) * | 2016-01-18 | 2017-07-19 | Toshiba Res Europe Ltd | Speaker-adaptive speech recognition |
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别系统的后端i‑vector增强方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102522081B (zh) * | 2011-12-29 | 2015-08-05 | 北京百度网讯科技有限公司 | 一种检测语音端点的方法及系统 |
US9460711B1 (en) * | 2013-04-15 | 2016-10-04 | Google Inc. | Multilingual, acoustic deep neural networks |
US9892745B2 (en) * | 2013-08-23 | 2018-02-13 | At&T Intellectual Property I, L.P. | Augmented multi-tier classifier for multi-modal voice activity detection |
US10360901B2 (en) * | 2013-12-06 | 2019-07-23 | Nuance Communications, Inc. | Learning front-end speech recognition parameters within neural network training |
US10403269B2 (en) * | 2015-03-27 | 2019-09-03 | Google Llc | Processing audio waveforms |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
US10706873B2 (en) * | 2015-09-18 | 2020-07-07 | Sri International | Real-time speaker state analytics platform |
US9892731B2 (en) * | 2015-09-28 | 2018-02-13 | Trausti Thor Kristjansson | Methods for speech enhancement and speech recognition using neural networks |
CN105469785B (zh) * | 2015-11-25 | 2019-01-18 | 南京师范大学 | 通信终端双麦克风消噪系统中的语音活动检测方法及装置 |
US10347271B2 (en) * | 2015-12-04 | 2019-07-09 | Synaptics Incorporated | Semi-supervised system for multichannel source enhancement through configurable unsupervised adaptive transformations and supervised deep neural network |
US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US11037330B2 (en) * | 2017-04-08 | 2021-06-15 | Intel Corporation | Low rank matrix compression |
CN109313892B (zh) * | 2017-05-17 | 2023-02-21 | 北京嘀嘀无限科技发展有限公司 | 稳健的语言识别方法和系统 |
CN108346428B (zh) * | 2017-09-13 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 语音活动检测及其模型建立方法、装置、设备及存储介质 |
US12073922B2 (en) * | 2018-07-11 | 2024-08-27 | Illumina, Inc. | Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors (SSEs) |
US20210012200A1 (en) * | 2019-04-03 | 2021-01-14 | Mashtraxx Limited | Method of training a neural network and related system and method for categorizing and recommending associated content |
US11681923B2 (en) * | 2019-04-19 | 2023-06-20 | Samsung Electronics Co., Ltd. | Multi-model structures for classification and intent determination |
US11769056B2 (en) * | 2019-12-30 | 2023-09-26 | Affectiva, Inc. | Synthetic data for neural network training using vectors |
-
2017
- 2017-09-13 CN CN201710824269.5A patent/CN108346428B/zh active Active
-
2018
- 2018-08-29 WO PCT/CN2018/102982 patent/WO2019052337A1/zh active Application Filing
-
2019
- 2019-11-08 US US16/678,001 patent/US11393492B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105529038A (zh) * | 2014-10-21 | 2016-04-27 | 阿里巴巴集团控股有限公司 | 对用户语音信号进行处理的方法及其系统 |
GB2546325A (en) * | 2016-01-18 | 2017-07-19 | Toshiba Res Europe Ltd | Speaker-adaptive speech recognition |
CN105788592A (zh) * | 2016-04-28 | 2016-07-20 | 乐视控股(北京)有限公司 | 一种音频分类方法及装置 |
CN106782511A (zh) * | 2016-12-22 | 2017-05-31 | 太原理工大学 | 修正线性深度自编码网络语音识别方法 |
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别系统的后端i‑vector增强方法 |
Non-Patent Citations (2)
Title |
---|
深度学习神经网络在语音识别中的应用研究);陈硕;《中国优秀硕士学位论文全文数据库信息科技辑》;20140115(第01期);第I140-94页 * |
陈硕.深度学习神经网络在语音识别中的应用研究).《中国优秀硕士学位论文全文数据库信息科技辑》.2014,(第01期),第I140-94页. * |
Also Published As
Publication number | Publication date |
---|---|
US11393492B2 (en) | 2022-07-19 |
WO2019052337A1 (zh) | 2019-03-21 |
CN108346428A (zh) | 2018-07-31 |
US20200090682A1 (en) | 2020-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108346428B (zh) | 语音活动检测及其模型建立方法、装置、设备及存储介质 | |
US10339935B2 (en) | Context-aware enrollment for text independent speaker recognition | |
EP3806089B1 (en) | Mixed speech recognition method and apparatus, and computer readable storage medium | |
CN109448719B (zh) | 神经网络模型建立方法及语音唤醒方法、装置、介质和设备 | |
US20200134506A1 (en) | Model training method, data identification method and data identification device | |
US11862176B2 (en) | Reverberation compensation for far-field speaker recognition | |
CN111832294B (zh) | 标注数据的选择方法、装置、计算机设备和存储介质 | |
EP3605537A1 (en) | Speech emotion detection method and apparatus, computer device, and storage medium | |
WO2014114116A1 (en) | Method and system for voiceprint recognition | |
CN111653274B (zh) | 唤醒词识别的方法、装置及存储介质 | |
JPWO2019220620A1 (ja) | 異常検出装置、異常検出方法及びプログラム | |
CN111583911A (zh) | 基于标签平滑的语音识别方法、装置、终端及介质 | |
CN111613231A (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
CN112395857B (zh) | 基于对话系统的语音文本处理方法、装置、设备及介质 | |
CN112966744A (zh) | 模型训练方法、图像处理方法、装置和电子设备 | |
CN112331207A (zh) | 服务内容监控方法、装置、电子设备和存储介质 | |
CN114360552A (zh) | 用于说话人识别的网络模型训练方法、装置及存储介质 | |
CN112634870B (zh) | 关键词检测方法、装置、设备和存储介质 | |
CN114067099A (zh) | 学生图像识别网络的训练方法及图像识别方法 | |
WO2021217619A1 (zh) | 基于标签平滑的语音识别方法、终端及介质 | |
CN112037772B (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
CN113555005B (zh) | 模型训练、置信度确定方法及装置、电子设备、存储介质 | |
CN114783423A (zh) | 基于语速调整的语音切分方法、装置、计算机设备及介质 | |
CN114187487A (zh) | 一种大规模点云数据的处理方法、装置、设备及介质 | |
CN113948089A (zh) | 声纹模型训练和声纹识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |