CN111341351A - 基于自注意力机制的语音活动检测方法、装置及存储介质 - Google Patents
基于自注意力机制的语音活动检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111341351A CN111341351A CN202010117497.0A CN202010117497A CN111341351A CN 111341351 A CN111341351 A CN 111341351A CN 202010117497 A CN202010117497 A CN 202010117497A CN 111341351 A CN111341351 A CN 111341351A
- Authority
- CN
- China
- Prior art keywords
- voice
- detected
- model
- state value
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 93
- 230000000694 effects Effects 0.000 title claims abstract description 59
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 27
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000013136 deep learning model Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L2013/021—Overlap-add techniques
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于自注意力机制的语音活动检测方法,包括:采集待处理语音,对待处理语音进行语音合成处理,得到待检测语音;对待检测语音进行特征提取,得到待检测语音的多维特征;建立基于自注意力机制的RNN模型,并将多维特征输入至RNN模型;对RNN模型进行训练,得到语音检测模型;语音检测模型根据多维特征计算待检测语音的状态值,并根据状态值判断待检测语音的类别。本发明提供的一种基于自注意力机制的语音活动检测方法及装置,能够有效提高语音活动检测的效果,且能够有效提高语音活动检测的稳定性和可靠性。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种基于自注意力机制的语音活动检测方法、装置及存储介质。
背景技术
VAD(Voice Activity Detection,语音活动检测),又称语音端点检测,是指在噪声环境中检测语音存在与否,通常应用于语音编码、语音活动检测等语音等处理系统中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率和算法性能等作用。VAD算法的准确性对语音前端算法十分关键,传统的VAD算法通常包括两个部分:特征提取和语音/非语音判决,常用的特征提取分为五类:基于能量、频域、倒普、谐波、和长时信息;语音/非语音判决则根据各自提取的特征的特性进行设计,常用的有根据门限、长时包络、基频等。但是传统VAD算法往往对环境和信噪比依赖性较大,准确性也无法得到保证,十分不利应用于实时会议通信设备中。
近年来,由于深度学习的发展,开始出现了利用深度学习进行VAD检测的技术。相对于传统算法,深度学习的非线性拟合能力极强,而且较为成熟的深度学习模型如RNN、LSTM和GRU等也十分适用于音频信号这种序列型输入数据。现有技术深度学习的参数规模和计算开销通常较大,直接使用小模型又使得算法的稳定性和效果得不到保障,因此很难应用于实时会议通信设备。
发明内容
本发明实施例提供的一种基于自注意力机制的语音活动检测方法及装置,能够有效提高语音活动检测的效果,且能够有效提高语音活动检测的稳定性和可靠性。
为解决上述问题,一方面,本发明的一个实施例提供了一种基于自注意力机制的语音活动检测方法,包括:
采集待处理语音,对所述待处理语音进行语音合成处理,得到待检测语音;
对所述待检测语音进行特征提取,得到所述待检测语音的多维特征;
建立基于自注意力机制的RNN模型,并将所述多维特征输入至所述RNN模型;
对所述RNN模型进行训练,得到语音检测模型;
所述语音检测模型根据所述多维特征计算所述待检测语音的状态值,并根据所述状态值判断所述待检测语音的类别。
进一步地,所述待处理语音包括纯净语音和原始噪声;所述采集待处理语音,对所述待处理语音进行语音合成处理,得到待检测语音,具体为:
采集纯净语音以及不同场景的原始噪声,根据预设的筛选规则对所述原始噪声进行筛选,得到常规噪声;对所述纯净语音和所述常规噪声进行语音合成处理,得到待检测语音。
进一步地,所述对所述待检测语音进行特征提取,得到所述待检测语音的多维特征,具体为:
对所述待检测语音进行加窗分帧处理并进行快速傅里叶变换,并计算每帧待检测语音的幅度谱;
通过采用巴尔刻度将所述幅度谱平均分为22个子频带,并计算每一所述子频带的对数谱;
分别对所述对数谱进行一阶差分计算和二阶差分计算,得到一阶差分数值和二阶差分数值;
将所述22个子频带、所述一阶差分数值和所述二阶差分数值进行串联得到所述待检测语音的66维特征。
进一步地,所述对所述RNN模型进行训练,得到语音检测模型,具体为:
采用Adam训练策略和loss函数对所述RNN模型进行训练,得到语音检测模型。
进一步地,所述语音检测模型根据所述多维特征计算所述待检测语音的状态值,并根据所述状态值判断所述待检测语音的类别,具体为:
所述语音检测模型根据所述多维特征计算所述待检测语音的状态值,并将所述状态值与预设阈值进行比对,若所述状态值小于所述预设阈值,则判断所述待检测语音为非语音信号;若所述状态值大于或等于所述预设阈值,则判断所述待检测语音为语音信号。
另一方面,本发明的另一实施例提供了一种基于自注意力机制的语音活动检测装置,包括语音合成模块、特征提取模块、特征输入模块、训练模块和语音检测模块;
所述语音合成模块,用于采集待处理语音,对所述待处理语音进行语音合成处理,得到待检测语音;
所述特征提取模块,用于对所述待检测语音进行特征提取,得到所述待检测语音的多维特征;
所述特征输入模块,用于建立基于自注意力机制的RNN模型,并将所述多维特征输入至所述RNN模型;
所述训练模块,用于对所述RNN模型进行训练,得到语音检测模型;
所述语音检测模块,用于所述语音检测模型根据所述多维特征计算所述待检测语音的状态值,并根据所述状态值判断所述待检测语音的类别。
又一方面,本发明的又一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的基于自注意力机制的语音活动检测方法。
本发明实施例提供的一种基于自注意力机制的语音活动检测方法、装置及存储介质,通过对待处理语音进行语音合成处理得到待检测语音,并将所述待检测语音进行特征提取得到多维特征,能够有效避免噪声对待检测语音的影响,能够有效提高语音活动检测的效果;通过对RNN模型进行模型训练得到语音检测模型,并将所述多维特征输入到语音检测模型中计算所述待检测语音的状态值,并根据所述状态值判断所述待检测语音的类别。本发明实施例采用较小的模型实现语音活动检测,能够有效解决深度学习模型参数规模和计算开销过大导致的无法应用部署至实时会议通信设备的问题,且采用自注意力机制能够有效提高语音活动检测的稳定性和可靠性。
附图说明
图1是本发明实施例提供的一种基于自注意力机制的语音活动检测方法的流程示意图;
图2是本发明实施例提供的一种基于自注意力机制的语音活动检测方法步骤S2的流程示意图;
图3是本发明实施例提供的一种基于自注意力机制的语音活动检测方法的RNN模型结构示意图;
图4是本发明实施例提供的一种基于自注意力机制的语音活动检测方法的另一流程示意图;
图5是本发明实施例提供的一种基于自注意力机制的语音活动检测装置的结构示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-4:
本发明的第一实施例。
本发明实施例提供了一种基于自注意力机制的语音活动检测方法,包括:
S1、采集待处理语音,对待处理语音进行语音合成处理,得到待检测语音;
在本发明实施例中,待处理语音包括纯净的语音和原始噪声,其中纯净的语音可以通过声音采集设备在消音室进行采集,噪声可以通过声音采集设备在不同的场景进行采集,不同的场景包括火车站、街道、公园、篮球场、体育场、办公室和铃声等,且在噪声采集完成后对采集到的噪声根据预设的筛选条件进行筛选,得到符合场景的常见噪声数据,能够有效提高语音合成处理的效率,从而能够得到更准确的待检测语音,进而能够有效提高语音活动检测的效果。
S2、对待检测语音进行特征提取,得到待检测语音的多维特征;
S3、建立基于自注意力机制的RNN(Recurrent Neural Networks,循环神经网络)
模型,并将多维特征输入至RNN模型;
S4、对RNN模型进行训练,得到语音检测模型;
S5、语音检测模型根据多维特征计算待检测语音的状态值,并根据状态值判断待检测语音的类别。
在本发明实施例中,可以理解的是,本发明实施例的声音采集设备包括麦克风和信号转换器,麦克风用于采集纯净的语音和原始噪声,信号转换器用于将不同场景环境中的声学信号转换成适合计算的数字信号;采用存储有计算程序的存储器;采用处理器执行程序得到语音活动检测模型和语音活动检测模型的计算;采用可传发数据的网络系统对计算数据进行传输;采用存储器对语音模型参数进行存储;采用终端进行处理后的音频数据播放。本发明实施例通过对待处理语音进行语音合成处理得到待检测语音,并将待检测语音进行特征提取得到多维特征,能够有效避免噪声对待检测语音的影响,能够有效提高语音活动检测的效果;建立基于自注意力机制的RNN模型,通过对RNN模型进行模型训练得到语音检测模型,并将多维特征输入到语音检测模型中计算待检测语音的状态值,并根据状态值判断待检测语音的类别。本发明实施例采用较小的模型实现语音活动检测,能够有效解决深度学习模型参数规模和计算开销过大导致的无法应用部署至实时会议通信设备的问题,且采用自注意力机制能够有效提高语音活动检测的稳定性和可靠性。
作为本发明实施例的一种具体实施方式,待处理语音包括纯净语音和原始噪声;采集待处理语音,对待处理语音进行语音合成处理,得到待检测语音,具体为:
采集纯净语音以及不同场景的原始噪声,根据预设的筛选规则对原始噪声进行筛选,得到常规噪声;对纯净语音和常规噪声进行语音合成处理,得到待检测语音。
在本发明实施例中,待处理语音包括纯净的语音和原始噪声,其中纯净的语音可以通过声音采集设备在消音室进行采集,噪声可以通过声音采集设备在不同的场景进行采集,不同的场景包括火车站、街道、公园、篮球场、体育场、办公室和铃声等,且在噪声采集完成后对采集到的噪声根据预设的筛选条件进行筛选,得到符合场景的常见噪声数据,能够有效提高语音合成处理的效率,从而能够得到更准确的待检测语音,进而能够有效提高语音活动检测的效果。
本发明实施例语音合成公式如下:
Smix=α×Sclean+β×N
其中,Smix为合成的待检测语音,Sclean为纯净语音,N为噪声,α为纯净语音的衰减系数,0.3≤α≤1;β为噪声的衰减系数,0.3≤β≤1;优选地,本实施例中α=0.5,β=0.6。
请参阅图2,在本发明实施例中,对待检测语音进行特征提取,得到待检测语音的多维特征,具体为:
S21、对待检测语音进行加窗分帧处理并进行快速傅里叶变换,并计算每帧待检测语音的幅度谱;
S22、通过采用巴尔刻度将幅度谱平均分为22个子频带,并计算每一子频带的对数谱;
S23、分别对对数谱进行一阶差分计算和二阶差分计算,得到一阶差分数值和二阶差分数值;
S24、将22个子频带、一阶差分数值和二阶差分数值进行串联得到待检测语音的66维特征。
请参阅图4,为本发明实施例提供的一种基于自注意力机制的语音检测方法的另一流程示意图。
作为本发明实施例的一种具体实施方式,对RNN模型进行训练,得到语音检测模型,具体为:
采用Adam训练策略和loss函数对RNN模型进行训练,得到语音检测模型。
在本发明实施例中,请参阅图3,为本发明实施例提供的RNN模型结构图。其中,Atttention层的计算公式如下:
其中hk和hq分别为GRU(hk)以及GRU(hq)的输出,score(.)为相关性得分,表达式如下:
score(hk,hq)=hk TWhq
其中,W为hk和hq的权重。
本发明实施例通过将66维特征输入至基于自注意力机制的RNN模型,再采用Adam训练策略和loss函数进行训练得到语音检测模型;其中,模型学习率为0.0001。本发明实施例中的loss函数的公式如下:
k2=k1×log(thread)/log(1-thread)
其中,WBCmin(x)i为加权二值交叉熵,k1和k2为加权系数,thread为阈值,在本发明实施例中thread取0.5,k1取30。
本发明实施例Adam训练策略公式如下:
mt=μ×mt-1+(1-μ)×gt
其中,gt为梯度,mt为梯度的一阶动量,mt-1为在t-1时刻梯度的一阶动量,nt为梯度的二阶动量,nt-1为在t-1时刻梯度的二阶动量,为对mt的校正,为对nt的校正,θ为学习率,θt+1为在t-1时刻学习率,θt为在t时刻的学习率,μ和ρ为衰减系数,0≤μ<1,0≤ρ<1;本实施例中μ=0.9,ρ=0.999,∈是用于数值稳定的小常数,∈=10-8。
本发明的语音检测模型的参数包括Input层(输入层)与Dense(全连接层)层的权重和偏置、Dense层与GRU(Gated Recurrent Unit,门控循环单元)层的权重和偏置,GRU层和Attention层(注意力层)的权重和偏置,Attention联合GRU层和Output层(输出层)的权重和偏置;根据模型结构设计并优化前向算法,具体为根据权重数量与各个层之间的连接情况定义同等大小的数组,并根据Dense层、GRU层和Attention层的神经元的输入输出设计对应数据结构储存参数,从而可以存储至存储器中,进而可以部署在实时会议通信设备中。本发明实施例通过语音检测模型对待检测语音进行计算并检测,能够有效提高语音活动检测的检测率,且本发明实施例的语音检测模型鲁棒性高,在同等效果小,能够有效降低参数的规模,从而能够有效提高语音检测的稳定性和可靠性。
作为本发明实施例的一种具体实施方式,语音检测模型根据多维特征计算待检测语音的状态值,并根据状态值判断待检测语音的类别,具体为:
语音检测模型根据多维特征计算待检测语音的状态值,并将状态值与预设阈值进行比对,若状态值小于预设阈值,则判断待检测语音为非语音信号;若状态值大于或等于预设阈值,则判断待检测语音为语音信号。
在本发明实施例中,计算得到的待检测语音的状态值在[0,1]范围,本发明实施例预设阈值设定为0.5,若状态值小于0.5,则判断待检测语音为非语音信号,若状态值大于等于0.5,则判断待检测语音为语音信号。
实施本发明实施例,具有以下有益效果。
在本发明实施例中,可以理解的是,本发明实施例的声音采集设备包括麦克风和信号转换器,麦克风用于采集纯净的语音和原始噪声,信号转换器用于将不同场景环境中的声学信号转换成适合计算的数字信号;采用存储有计算程序的存储器;采用处理器执行程序得到语音活动检测模型和语音活动检测模型的计算;采用可传发数据的网络系统对计算数据进行传输;采用存储器对语音模型参数进行存储;采用终端进行处理后的音频数据播放。本发明实施例通过对待处理语音进行语音合成处理得到待检测语音,并将待检测语音进行特征提取得到多维特征,能够有效避免噪声对待检测语音的影响,能够有效提高语音活动检测的效果;建立基于自注意力机制的RNN模型,通过对RNN模型进行模型训练得到语音检测模型,并将多维特征输入到语音检测模型中计算待检测语音的状态值,并根据状态值判断待检测语音的类别。本发明实施例采用较小的模型实现语音活动检测,能够有效解决深度学习模型参数规模和计算开销过大导致的无法应用部署至实时会议通信设备的问题,且采用自注意力机制能够有效提高语音活动检测的稳定性和可靠性。
请参阅图5:
本发明的第二实施例。
本发明实施例提供了一种基于自注意力机制的语音检测装置,包括语音合成模块10、特征提取模块20、特征输入模块30、训练模块40和语音检测模块50;
语音合成模块10,用于采集待处理语音,对待处理语音进行语音合成处理,得到待检测语音;
特征提取模块20,用于对待检测语音进行特征提取,得到待检测语音的多维特征;
特征输入模块30,用于建立基于自注意力机制的RNN模型,并将多维特征输入至RNN模型;
训练模块40,用于对RNN模型进行训练,得到语音检测模型;
语音检测模块50,用于语音检测模型根据多维特征计算待检测语音的状态值,并根据状态值判断待检测语音的类别。
实施本发明实施例,具有以下有益效果:
在本发明实施例中,可以理解的是,本发明实施例的声音采集设备包括麦克风和信号转换器,麦克风用于采集纯净的语音和原始噪声,信号转换器用于将不同场景环境中的声学信号转换成适合计算的数字信号;采用存储有计算程序的存储器;采用处理器执行程序得到语音活动检测模型和语音活动检测模型的计算;采用可传发数据的网络系统对计算数据进行传输;采用存储器对语音模型参数进行存储;采用终端进行处理后的音频数据播放。本发明实施例通过语音合成模块10对待处理语音进行语音合成处理得到待检测语音,并通过特征提取模块20将待检测语音进行特征提取得到多维特征,能够有效避免噪声对待检测语音的影响,能够有效提高语音活动检测的效果;通过训练模块40建立基于自注意力机制的RNN模型,通过对RNN模型进行模型训练得到语音检测模型,并将多维特征输入到语音检测模型中通过语音检测模块50计算待检测语音的状态值,并根据状态值判断待检测语音的类别。本发明实施例采用较小的模型实现语音活动检测,能够有效解决深度学习模型参数规模和计算开销过大导致的无法应用部署至实时会议通信设备的问题,且采用自注意力机制能够有效提高语音活动检测的稳定性和可靠性。
本发明的第三实施例提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行如上述的基于自注意力机制的语音活动检测方法。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (7)
1.一种基于自注意力机制的语音活动检测方法,其特征在于,包括:
采集待处理语音,对所述待处理语音进行语音合成处理,得到待检测语音;
对所述待检测语音进行特征提取,得到所述待检测语音的多维特征;
建立基于自注意力机制的RNN模型,并将所述多维特征输入至所述RNN模型;
对所述RNN模型进行训练,得到语音检测模型;
所述语音检测模型根据所述多维特征计算所述待检测语音的状态值,并根据所述状态值判断所述待检测语音的类别。
2.如权利要求1所述的基于自注意力机制的语音活动检测方法,其特征在于,所述待处理语音包括纯净语音和原始噪声;所述采集待处理语音,对所述待处理语音进行语音合成处理,得到待检测语音,具体为:
采集纯净语音以及不同场景的原始噪声,根据预设的筛选规则对所述原始噪声进行筛选,得到常规噪声;对所述纯净语音和所述常规噪声进行语音合成处理,得到待检测语音。
3.如权利要求1所述的基于自注意力机制的语音活动检测方法,其特征在于,所述对所述待检测语音进行特征提取,得到所述待检测语音的多维特征,具体为:
对所述待检测语音进行加窗分帧处理并进行快速傅里叶变换,并计算每帧待检测语音的幅度谱;
通过采用巴尔刻度将所述幅度谱平均分为22个子频带,并计算每一所述子频带的对数谱;
分别对所述对数谱进行一阶差分计算和二阶差分计算,得到一阶差分数值和二阶差分数值;
将所述22个子频带、所述一阶差分数值和所述二阶差分数值进行串联得到所述待检测语音的66维特征。
4.如权利要求1所述的基于自注意力机制的语音活动检测方法,其特征在于,所述对所述RNN模型进行训练,得到语音检测模型,具体为:
采用Adam训练策略和loss函数对所述RNN模型进行训练,得到语音检测模型。
5.如权利要求1所述的基于自注意力机制的语音活动检测方法,其特征在于,所述语音检测模型根据所述多维特征计算所述待检测语音的状态值,并根据所述状态值判断所述待检测语音的类别,具体为:
所述语音检测模型根据所述多维特征计算所述待检测语音的状态值,并将所述状态值与预设阈值进行比对,若所述状态值小于所述预设阈值,则判断所述待检测语音为非语音信号;若所述状态值大于或等于所述预设阈值,则判断所述待检测语音为语音信号。
6.一种基于自注意力机制的语音活动检测装置,其特征在于,包括语音合成模块、特征提取模块、特征输入模块、训练模块和语音检测模块;
所述语音合成模块,用于采集待处理语音,对所述待处理语音进行语音合成处理,得到待检测语音;
所述特征提取模块,用于对所述待检测语音进行特征提取,得到所述待检测语音的多维特征;
所述特征输入模块,用于建立基于自注意力机制的RNN模型,并将所述多维特征输入至所述RNN模型;
所述训练模块,用于对所述RNN模型进行训练,得到语音检测模型;
所述语音检测模块,用于所述语音检测模型根据所述多维特征计算所述待检测语音的状态值,并根据所述状态值判断所述待检测语音的类别。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至5中任意一项所述的基于自注意力机制的语音活动检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010117497.0A CN111341351B (zh) | 2020-02-25 | 2020-02-25 | 基于自注意力机制的语音活动检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010117497.0A CN111341351B (zh) | 2020-02-25 | 2020-02-25 | 基于自注意力机制的语音活动检测方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111341351A true CN111341351A (zh) | 2020-06-26 |
CN111341351B CN111341351B (zh) | 2023-05-23 |
Family
ID=71181852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010117497.0A Active CN111341351B (zh) | 2020-02-25 | 2020-02-25 | 基于自注意力机制的语音活动检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111341351B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112820309A (zh) * | 2020-12-31 | 2021-05-18 | 北京天润融通科技股份有限公司 | 基于rnn的降噪处理方法及系统 |
CN113345423A (zh) * | 2021-06-24 | 2021-09-03 | 科大讯飞股份有限公司 | 语音端点检测方法、装置、电子设备和存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6694294B1 (en) * | 2000-10-31 | 2004-02-17 | Qualcomm Incorporated | System and method of mu-law or A-law compression of bark amplitudes for speech recognition |
US20090144053A1 (en) * | 2007-12-03 | 2009-06-04 | Kabushiki Kaisha Toshiba | Speech processing apparatus and speech synthesis apparatus |
KR101575128B1 (ko) * | 2014-07-07 | 2015-12-09 | 경북대학교 산학협력단 | 음성 구간 검출 장치, 음성 처리 장치 및 방법 |
CN106847267A (zh) * | 2015-12-04 | 2017-06-13 | 中国科学院声学研究所 | 一种连续语音流中的叠音检测方法 |
CN108630209A (zh) * | 2018-04-24 | 2018-10-09 | 中国科学院深海科学与工程研究所 | 一种基于特征融合与深度置信网络的海洋生物识别方法 |
CN108682418A (zh) * | 2018-06-26 | 2018-10-19 | 北京理工大学 | 一种基于预训练和双向lstm的语音识别方法 |
CN109817246A (zh) * | 2019-02-27 | 2019-05-28 | 平安科技(深圳)有限公司 | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 |
CN110085249A (zh) * | 2019-05-09 | 2019-08-02 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
CN110120225A (zh) * | 2019-04-01 | 2019-08-13 | 西安电子科技大学 | 一种基于gru网络的结构的音频降噪系统及方法 |
CN110265065A (zh) * | 2019-05-13 | 2019-09-20 | 厦门亿联网络技术股份有限公司 | 一种构建语音检测模型的方法及语音端点检测系统 |
CN110349597A (zh) * | 2019-07-03 | 2019-10-18 | 山东师范大学 | 一种语音检测方法及装置 |
CN110428854A (zh) * | 2019-08-12 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 车载端的语音端点检测方法、装置和计算机设备 |
-
2020
- 2020-02-25 CN CN202010117497.0A patent/CN111341351B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6694294B1 (en) * | 2000-10-31 | 2004-02-17 | Qualcomm Incorporated | System and method of mu-law or A-law compression of bark amplitudes for speech recognition |
US20090144053A1 (en) * | 2007-12-03 | 2009-06-04 | Kabushiki Kaisha Toshiba | Speech processing apparatus and speech synthesis apparatus |
KR101575128B1 (ko) * | 2014-07-07 | 2015-12-09 | 경북대학교 산학협력단 | 음성 구간 검출 장치, 음성 처리 장치 및 방법 |
CN106847267A (zh) * | 2015-12-04 | 2017-06-13 | 中国科学院声学研究所 | 一种连续语音流中的叠音检测方法 |
CN108630209A (zh) * | 2018-04-24 | 2018-10-09 | 中国科学院深海科学与工程研究所 | 一种基于特征融合与深度置信网络的海洋生物识别方法 |
CN108682418A (zh) * | 2018-06-26 | 2018-10-19 | 北京理工大学 | 一种基于预训练和双向lstm的语音识别方法 |
CN109817246A (zh) * | 2019-02-27 | 2019-05-28 | 平安科技(深圳)有限公司 | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 |
CN110120225A (zh) * | 2019-04-01 | 2019-08-13 | 西安电子科技大学 | 一种基于gru网络的结构的音频降噪系统及方法 |
CN110085249A (zh) * | 2019-05-09 | 2019-08-02 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
CN110265065A (zh) * | 2019-05-13 | 2019-09-20 | 厦门亿联网络技术股份有限公司 | 一种构建语音检测模型的方法及语音端点检测系统 |
CN110349597A (zh) * | 2019-07-03 | 2019-10-18 | 山东师范大学 | 一种语音检测方法及装置 |
CN110428854A (zh) * | 2019-08-12 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 车载端的语音端点检测方法、装置和计算机设备 |
Non-Patent Citations (1)
Title |
---|
YEONGUK YU等: ""A Voice Activity Detection Model Composed of Bidirectional LSTM and Attention Mechanism"", 《IEEE EXPLORE》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112820309A (zh) * | 2020-12-31 | 2021-05-18 | 北京天润融通科技股份有限公司 | 基于rnn的降噪处理方法及系统 |
CN113345423A (zh) * | 2021-06-24 | 2021-09-03 | 科大讯飞股份有限公司 | 语音端点检测方法、装置、电子设备和存储介质 |
CN113345423B (zh) * | 2021-06-24 | 2024-02-13 | 中国科学技术大学 | 语音端点检测方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111341351B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105513605B (zh) | 手机麦克风的语音增强系统和语音增强方法 | |
CN110265065B (zh) | 一种构建语音端点检测模型的方法及语音端点检测系统 | |
CN100573663C (zh) | 基于语音特征判别的静音检测方法 | |
CN105261359B (zh) | 手机麦克风的消噪系统和消噪方法 | |
CN110070880B (zh) | 用于分类的联合统计模型的建立方法及应用方法 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN111292762A (zh) | 一种基于深度学习的单通道语音分离方法 | |
CN107393550A (zh) | 语音处理方法及装置 | |
CN113488058B (zh) | 一种基于短语音的声纹识别方法 | |
CN107863099A (zh) | 一种新型双麦克风语音检测和增强方法 | |
CN112017632A (zh) | 一种自动化会议记录生成方法 | |
CN103021405A (zh) | 基于music和调制谱滤波的语音信号动态特征提取方法 | |
CN111341351B (zh) | 基于自注意力机制的语音活动检测方法、装置及存储介质 | |
CN105448302A (zh) | 一种环境自适应的语音混响消除方法和系统 | |
CN105306673A (zh) | 移动终端及其自动调整情景模式的方法 | |
CN111540342A (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
JPWO2014168022A1 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
CN112382301A (zh) | 基于轻量级神经网络的含噪语音性别识别方法及系统 | |
CN111341331B (zh) | 基于局部注意力机制的语音增强方法、装置及介质 | |
CN114245266B (zh) | 小型麦克风阵列设备的区域拾音方法及系统 | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
CN112562717A (zh) | 啸叫检测方法、装置、存储介质、计算机设备 | |
Pham et al. | Performance analysis of wavelet subband based voice activity detection in cocktail party environment | |
CN112669877B (zh) | 噪声检测及压制方法、装置、终端设备和系统、芯片 | |
Wu et al. | Improving speech enhancement with phonetic embedding features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |