CN110265065A - 一种构建语音检测模型的方法及语音端点检测系统 - Google Patents
一种构建语音检测模型的方法及语音端点检测系统 Download PDFInfo
- Publication number
- CN110265065A CN110265065A CN201910394746.8A CN201910394746A CN110265065A CN 110265065 A CN110265065 A CN 110265065A CN 201910394746 A CN201910394746 A CN 201910394746A CN 110265065 A CN110265065 A CN 110265065A
- Authority
- CN
- China
- Prior art keywords
- current
- speech
- detection model
- voice
- dimensional features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000005540 biological transmission Effects 0.000 claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims description 17
- 230000015572 biosynthetic process Effects 0.000 claims description 14
- 238000003786 synthesis reaction Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000151 deposition Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 abstract description 12
- 230000007812 deficiency Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种构建语音检测模型的方法及语音端点检测系统,属于语音识别技术领域。本发明的一种构建语音检测模型的方法,先采集音频数据并合成混合语音,而后对混合语音进行特征提取得到62维特征,再将62维特征输入至RNN模型进行训练得到语音检测模型。本发明的一种语音端点检测系统,包括采集单元、计算单元、传输单元和终端,采集单元与计算单元电连接,计算单元和终端分别与传输单元连接。本发明克服了现有技术中,语音识别准确性和稳定性不高的不足,提供了一种构建语音检测模型的方法及语音端点检测系统,对各类噪声下的语音数据具有较高的识别率,可以应用部署至实时会议通信设备。
Description
技术领域
本发明涉及语音识别领域,更具体地说,涉及一种构建语音检测模型的方法及语音端点检测系统。
背景技术
VAD(Voice Activity Detection),又称语音端点检测,是指在噪声环境中检测语音存在与否,通常应用于语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。传统算法在进行语音活动检测时有两个问题需要注意:
一、背景噪声问题,即如何在较大的背景噪声中检测语音;
二、前后沿剪切问题,即还原语音时,由于从实际讲话开始到检测到语音之间有一定的判断门限和时延,有时语音波形的开始和结束部分会作为非语音被丢掉,还原的语音会出现变化,因此需要在突发语音分组前面或后面增加一个语音分组进行平滑以解决这一问题。
VAD算法的准确性对语音前端算法十分关键,传统的VAD算法通常包括两个部分:特征提取和语音/非语音判决,常用的特征提取分为五类:基于能量、频域、倒普、谐波、和长时信息;语音/非语音判决则根据各自提取的特征的特性进行设计,常用的有根据门限、长时包络、基频等。但是传统VAD算法往往对环境和信噪比依赖性较大,准确性也无法得到保证,十分不利应用于实时会议通信设备中。
近年来,由于深度学习的发展,开始出现了利用深度学习进行VAD检测的技术。相对于传统算法,深度学习的非线性拟合能力极强,而且较为成熟的深度学习模型如RNN、LSTM和GRU等也十分适用于音频信号这种序列型输入数据。但是深度学习的参数规模和计算开销通常较大,直接使用小模型又使得算法的稳定性和效果得不到保障,因此很难应用于实时会议通信设备。
综上所述,如何提高语音识别的准确性及稳定性,是现有技术亟需解决的问题。
发明内容
1.要解决的问题
本发明的目的在于克服现有技术中,语音识别准确性和稳定性不高,很难应用于实时会议通信设备的不足,提供了一种构建语音检测模型的方法及语音端点检测系统,对各类噪声下的语音数据具有较高的识别率,可以应用部署至实时会议通信设备。
2.技术方案
为了解决上述问题,本发明所采用的技术方案如下:
本发明的一种构建语音检测模型的方法,先采集音频数据并合成混合语音,而后对混合语音进行特征提取得到62维特征,再将62维特征输入至RNN模型进行训练得到语音检测模型。
进一步地,具体步骤如下:
步骤一、合成混合语音
先采集纯净语音和噪声,而后将采集的纯净语音和噪声进行语音合成得到混合语音;
步骤二、特征提取
先对混合语音进行加窗分帧处理并进行短时傅里叶变换,再计算每帧的频域对数谱,而后对对数谱进行特征提取得到62维特征;
步骤三、生成语音检测模型
将62维特征输入至RNN模型,再采用Adam训练策略和改进的loss函数进行训练得到语音检测模型;改进的loss函数的公式如下:
BCEmin(x)i=0.1×MC(x)×[-yilog fi(x)+(1-yi)log(1-fi(x))]
其中,BCEmin(x)i为二值交叉熵,fi(x)表示预测结果,yi表示真实标签,MC(x)为最小期望成本,公式如下:
MC(x)=P(preL0,tureL1,x)×C10+P(preL1,trueL0,x)×C0
式中,pre代表预测结果,ture代表真实标签,P(preL0,tureL1,x)表示真实标签为L1,L1为语音标签,预测为L0的个数占总个数的比,L0为非语音标签;P(preL1,trueL0,x)表示真实标签为L0,预测为L1的个数占总个数的比;C10为真实标签为L1但检测为L0时的成本,C0为真实标签为L0但检测为L1的成本。
进一步地,步骤一中语音合成公式如下:
Smix=α×Sclean+β×N
其中,Smix为合成的混合语音,Sclean为纯净语音,N为噪声,α为纯净语音的衰减系数,0.3≤α≤1;β为噪声的衰减系数,0.3≤β≤1。
进一步地,步骤二中对对数谱进行特征提取的具体步骤为:将对数谱均匀分成22个子频带,再对每个子频带进行DCT变换得到22维特征,再根据22维特征将当前帧与当前帧的前两帧和当前帧的后两帧的数据特征分别进行差异比较并根据当前帧特征共得到36维特征;而后将基音周期、当前帧谱距离、当前帧与前两帧分别计算所得的谱距离差作为特征得到4维特征,最终共得到62维特征。
进一步地,步骤三中Adam训练策略公式如下:
mt=μ×mt-1+(1-μ)×gt
其中,gt表示梯度,mt表示梯度的一阶动量,mt-1表示在t-1时刻梯度的一阶动量,nt表示梯度的二阶动量,nt-1表示在t-1时刻梯度的二阶动量,表示对mt的校正,表示对nt的校正,θ表示学习率,μ和ρ表示衰减系数,0≤μ<1,0≤ρ<1;∈是常数,∈=10-8。
进一步地,将前6个频带的系数作为6维特征进行差异比较,差异比较的计算公式如下:
F1=(fcurrent(i)+fcurrent+1(i)+fcurrent+2(i))/3
F2=fcurrent(i)-fcurrent+2(i)
F3=fcurrent(i)-2×fcurrent+1(i)+fcurrent+2(i)
F4=fcurrent(i)-fcurrent-1(i)
F5=fcurrent(i)-fcurrent-2(i)
F6=fcurrent(i)
其中,fcurrent代表当前帧,fcurrent+1代表当前帧的后一帧,fcurrent+2代表fcurrent+1的后一帧,fcurrent-1代表当前帧的前一帧,fcurrent-2代表fcurrent-1的前一帧,i表示22维特征对应的索引,1≤i≤6,F1~F5代表5种差异比较方式,F6代表当前帧特征。
进一步地,RNN模型包括一层16个神经元的Dense层和一层24个输出的GRU层。
本发明的一种语音端点检测系统,包括采集单元、计算单元、传输单元和终端,采集单元与计算单元电连接,计算单元和终端分别与传输单元连接,计算单元包括存储器和处理器,存储器内存储有程序,该程序用于实现上述的一种构建语音检测模型的方法,处理器用于执行程序得到语音检测模型并用于语音检测模型的计算。
进一步地,采集单元包括声音采集器和信号转换器,声音采集器与信号转换器电连接,信号转换器与计算单元电连接。
3.有益效果
相比于现有技术,本发明的有益效果为:
本发明的一种构建语音检测模型的方法,通过RNN模型训练得到的语音检测模型不仅规模小且具有良好的稳定性,进一步提高了模型的鲁棒性,并且可以应用部署至实时会议通信设备。本发明的一种语音端点检测系统对各类噪声下的语音数据具有较高的识别率,从而可以实现实时通信。
附图说明
图1为本发明的一种构建语音检测模型的方法流程示意图;
图2为本发明的合成混合语音的流程示意图;
图3为本发明RNN模型示意图;
图4为实施例1中正常底噪下的语音检测示意图;
图5为实施例1中多种噪声下的语音检测示意图;
图6为实施例1中低信噪比噪声下的语音检测示意图;
图7为本发明的一种语音端点检测系统的结构示意图。
示意图中的标号说明:100、采集单元;200、计算单元;300、传输单元;400、终端。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例;而且,各个实施例之间不是相对独立的,根据需要可以相互组合,从而达到更优的效果。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。
实施例1
结合图1所示,本发明的一种构建语音检测模型的方法,先采集音频数据并合成混合语音,而后对混合语音进行特征提取得到62维特征,再将62维特征输入至RNN模型进行训练得到语音检测模型,值得说明的是,语音检测模型即为训练后的RNN模型,RNN模型规模小但是不稳定,但是训练后的RNN模型不仅规模小且具有良好的稳定性,从而使得语音检测模型可以应用部署至实时会议通信设备。
本发明的一种构建语音检测模型的方法的具体步骤如下:
步骤一、合成混合语音
如图2所示,先采集纯净语音和噪声,而后将采集的纯净语音和噪声进行语音合成得到混合语音;值得说明的是,通过采用合成混合语音,从而能够准确且大量的标注语音数据。具体地,首先在消音室采集纯净语音,再采集各个场景的噪声,例如火车站,街道,公园,篮球场,体育场,办公室和铃声录制等,并对采集的噪声进行筛选选取符合场景的常见噪声数据;需要说明的是,本实施例中使用麦克风进行录音采集。而后将采集的纯净语音和噪声进行语音合成得到混合语音,语音合成公式如下:
Smix=α×Sclean+β×N
其中,Smix为合成的混合语音,Sclean为纯净语音,N为噪声,α为纯净语音的衰减系数,0.3≤α≤1;β为噪声的衰减系数,0.3≤β≤1;本实施例中α=0.5,β=0.6。
步骤二、特征提取
先对混合语音进行加窗分帧处理并进行短时傅里叶变换,再计算每帧的频域对数谱,而后对对数谱进行特征提取得到62维特征;具体地,将对数谱均匀分成22个子频带,再对每个子频带进行DCT变换得到22维特征,再根据22维特征将当前帧与当前帧的前两帧和当前帧的后两帧的数据特征分别进行差异比较并根据当前帧特征共得到36维特征;而后将基音周期、当前帧谱距离、当前帧与前两帧分别计算所得的谱距离差作为特征得到4维特征,最终共得到62维特征。其中,22维特征为22个子频带进行DCT变换得到的系数。
需要说明的是,DCT变换公式如下所示:
其中N是数据的总长度,u代表补偿因子,本实施例中u取值为1,c(u)系数使得DCT变换矩阵成为正交矩阵,f(i)代表子频带数据,i代表数据的索引。
差异比较的具体过程为:将前6个频带的系数作为6维特征进行差异比较,差异比较的计算公式如下:
F1=(fcurrent(i)+fcurrent+1(i)+fcurrent+2(i))/3
F2=fcurrent(i)-fcurrent+2(i)
F3=fcurrent(i)-2×fcurrent+1(i)+fcurrent+2(i)
F4=fcurrent(i)-fcurrent-1(i)
F5=fcurrent(i)-fcurrent-2(i)
F6=fcurrent(i)
其中,fcurrent代表当前帧,fcurrent+1代表当前帧的后一帧,fcurrent+2代表fcurrent+1的后一帧,fcurrent-1代表当前帧的前一帧,fcurrent-2代表fcurrent-1的前一帧,i表示22维特征对应的索引,1≤i≤6,F1~F5代表5种差异比较方式,F6代表当前帧特征。
步骤三、生成语音检测模型
将62维特征输入至RNN模型,再采用Adam训练策略和改进的loss函数进行训练得到语音检测模型;其中,模型学习率为0.0001,改进的loss函数的公式如下:
BCEmin(x)i=0.1×MC(x)×[-yilog fi(x)+(1-yi)log(1-fi(x))]
其中,BCEmin(x)i为二值交叉熵,fi(x)表示预测结果,具体为RNN模型的输出结果;
yi表示真实标签,MC(x)为最小期望成本,公式如下:
MC(x)=P(preL0,tureL1,x)×C10+P(preL1,trueL0,x)×C0
式中,x表示RNN模型的输入值,即62维特征;pre代表预测结果,ture代表真实标签,P(preL0,tureL1,x)表示真实标签为L1,L1为语音标签,预测为L0的个数占总个数的比,L0为非语音标签;P(preL1,trueL0,x)表示真实标签为L0,预测为L1的个数占总个数的比;C10为真实标签为L1但检测为L0时的成本,C0为真实标签为L0但检测为L1的成本。值得说明的是,在实际应用场景中出现漏检率的代价远大于虚检率,本发明采用以降低漏检率为前提的最小成本理论来改进loss函数,从而更符合实际的应用场景;其中,漏检率指的是原本是语音但是检测为噪音,虚检率指的是原本是噪音但检测为语音。
需要说明的是,Adam训练策略公式如下:
mt=μ×mt-1+(1-μ)×gt
其中,gt表示梯度,mt表示梯度的一阶动量,mt-1表示在t-1时刻梯度的一阶动量,nt表示梯度的二阶动量,nt-1表示在t-1时刻梯度的二阶动量,表示对mt的校正,表示对nt的校正,θ表示学习率,θt+1表示在t-1时刻学习率,θt表示在t时刻的学习率,μ和ρ表示衰减系数,0≤μ<1,0≤ρ<1;本实施例中μ=0.9,ρ=0.999,∈是用于数值稳定的小常数,∈=10-8。
此外,需要进一步说明的是,本发明的RNN模型包括一层16个神经元的Dense层(全连接层)和一层24个输出的GRU层,且RNN模型的输出值为output,0≤output≤1(如图3所示)。
而后将得到的语音预测模型对数据进行预测,当输出值output>=p时,则该数据为语音,当output<p时,则该数据为非语音;0<p<1,本实施p取0.5。
本发明的语音检测模型的参数主要包括输入层与Dense层的权重、Dense层与GRU层的权重,GRU与输出层的权重;根据模型结构设计并优化前向算法,具体为根据权重数量与各个层之间的连接情况定义同等大小的数组,并根据Dense层和GRU层的神经元的输入输出设计对应数据结构储存参数,从而可以存储至存储器中,进而可以部署在实时会议通信设备中。
通过上述方法构建的语音检测模型对各类噪声下的语音数据具有较高的识别率,且语音检测模型的鲁棒性高;如图4、图5和图6所示,语音检测模型对在正常底噪下的语音,多种噪声下的语音和低信噪比噪声下的语音均能检测识别。
如图7所示,本发明的一种语音端点检测系统,包括采集单元100、计算单元200、传输单元300和终端400,采集单元100与计算单元200电连接,计算单元200和终端400分别与传输单元300连接;具体地,采集单元100包括声音采集器和信号转换器,声音采集器与信号转换器电连接,信号转换器与计算单元200电连接。其中,声音采集器用于采集语音,信号转换器用于将环境中的声学信号转换成数字信号,本实施例中的声音采集器麦克风,信号转换器为ADC硬件芯片;计算单元200包括存储器和处理器,存储器内存储有程序,该程序用于实现上述的一种构建语音检测模型的方法,处理器用于执行程序得到语音检测模型并用于语音检测模型的计算,本实施例中计算单元200为单片机或者计算机;传输单元300用于传输计算单元200计算的数据,本实施例中传输单元300为传输数据的网络系统;终端400用于播放处理后的音频数据,终端400为接入网络的实时会议通信系统。本发明的语音端点检测系统对各类噪声下的语音数据具有较高的识别率,从而可以实现实时通信。
在上文中结合具体的示例性实施例详细描述了本发明。但是,应当理解,可在不脱离由所附权利要求限定的本发明的范围的情况下进行各种修改和变型。详细的描述和附图应仅被认为是说明性的,而不是限制性的,如果存在任何这样的修改和变型,那么它们都将落入在此描述的本发明的范围内。此外,背景技术旨在为了说明本技术的研发现状和意义,并不旨在限制本发明或本申请和本发明的应用领域。
Claims (9)
1.一种构建语音检测模型的方法,其特征在于,先采集音频数据并合成混合语音,而后对混合语音进行特征提取得到62维特征,再将62维特征输入至RNN模型进行训练得到语音检测模型。
2.根据权利要求1所述的一种构建语音检测模型的方法,其特征在于,具体步骤如下:
步骤一、合成混合语音
先采集纯净语音和噪声,而后将采集的纯净语音和噪声进行语音合成得到混合语音;
步骤二、特征提取
先对混合语音进行加窗分帧处理并进行短时傅里叶变换,再计算每帧的频域对数谱,而后对对数谱进行特征提取得到62维特征;
步骤三、生成语音检测模型
将62维特征输入至RNN模型,再采用Adam训练策略和改进的loss函数进行训练得到语音检测模型;改进的loss函数的公式如下:
BCEmin(x)i=0.1×MC(x)×[-yilogfi(x)+(1-yi)log(1-fi(x))]
其中,BCEmin(x)i为二值交叉熵,fi(x)表示预测结果,yi表示真实标签,MC(x)为最小期望成本,公式如下:
MC(x)=P(preL0,tureL1,x)×C10+P(preL1,trueL0,x)×C0
式中,pre代表预测结果,ture代表真实标签,P(preL0,tureL1,x)表示真实标签为L1,L1为语音标签,预测为L0的个数占总个数的比,L0为非语音标签;P(preL1,trueL0,x)表示真实标签为L0,预测为L1的个数占总个数的比;C10为真实标签为L1但检测为L0时的成本,C0为真实标签为L0但检测为L1的成本。
3.根据权利要求2所述的一种构建语音检测模型的方法,其特征在于,步骤一中语音合成公式如下:
Smix=α×Sclean+β×N
其中,Smix为合成的混合语音,Sclean为纯净语音,N为噪声,α为纯净语音的衰减系数,0.3≤α≤1;β为噪声的衰减系数,0.3≤β≤1。
4.根据权利要求2所述的一种构建语音检测模型的方法,其特征在于,步骤二中对对数谱进行特征提取的具体步骤为:将对数谱均匀分成22个子频带,再对每个子频带进行DCT变换得到22维特征,再根据22维特征将当前帧与当前帧的前两帧和当前帧的后两帧的数据特征分别进行差异比较并根据当前帧特征共得到36维特征;而后将基音周期、当前帧谱距离、当前帧与前两帧分别计算所得的谱距离差作为特征得到4维特征,最终共得到62维特征。
5.根据权利要求2所述的一种构建语音检测模型的方法,其特征在于,步骤三中Adam训练策略公式如下:
mt=μ×mt-1+(1-μ)×gt
其中,gt表示梯度,mt表示梯度的一阶动量,mt-1表示在t-1时刻梯度的一阶动量,nt表示梯度的二阶动量,nt-1表示在t-1时刻梯度的二阶动量,表示对mt的校正,表示对nt的校正,θ表示学习率,μ和ρ表示衰减系数,0≤μ<1,0≤ρ<1;∈是常数,∈=10-8。
6.根据权利要求4所述的一种构建语音检测模型的方法,其特征在于,将前6个频带的系数作为6维特征进行差异比较,差异比较的计算公式如下:
F1=(fcurrent(i)+fcurrent+1(i)+fcurrent+2(i))/3
F2=fcurrent(i)-fcurrent+2(i)
F3=fcurrent(i)-2×fcurrent+1(i)+fcurrent+2(i)
F4=fcurrent(i)-fcurrent-1(i)
F5=fcurrent(i)-fcurrent-2(i)
F6=fcurrent(i)
其中,fcurrent代表当前帧,fcurrent+1代表当前帧的后一帧,fcurrent+2代表fcurrent+1的后一帧,fcurrent-1代表当前帧的前一帧,fcurrent-2代表fcurrent-1的前一帧,i表示22维特征对应的索引,1≤i≤6,F1~F5代表5种差异比较方式,F6代表当前帧特征。
7.根据权利要求1~6任一项所述的一种构建语音检测模型的方法,其特征在于,RNN模型包括一层16个神经元的Dense层和一层24个输出的GRU层。
8.一种语音端点检测系统,其特征在于,包括采集单元、计算单元、传输单元和终端,集单元与计算单元电连接,计算单元和终端分别与传输单元连接,其中,所述计算单元包括存储器和处理器,存储器内存储有程序,该程序用于实现权利要求1~7任一项所述的一种构建语音检测模型的方法,处理器用于执行程序得到语音检测模型并用于语音检测模型的计算。
9.根据权利要求8所述的一种生成混合语音数据的系统,其特征在于,采集单元包括声音采集器和信号转换器,声音采集器与信号转换器电连接,信号转换器与计算单元电连接。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910394746.8A CN110265065B (zh) | 2019-05-13 | 2019-05-13 | 一种构建语音端点检测模型的方法及语音端点检测系统 |
EP20173897.8A EP3739582B1 (en) | 2019-05-13 | 2020-05-11 | Voice detection |
US16/871,906 US11295761B2 (en) | 2019-05-13 | 2020-05-11 | Method for constructing voice detection model and voice endpoint detection system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910394746.8A CN110265065B (zh) | 2019-05-13 | 2019-05-13 | 一种构建语音端点检测模型的方法及语音端点检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110265065A true CN110265065A (zh) | 2019-09-20 |
CN110265065B CN110265065B (zh) | 2021-08-03 |
Family
ID=67914633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910394746.8A Active CN110265065B (zh) | 2019-05-13 | 2019-05-13 | 一种构建语音端点检测模型的方法及语音端点检测系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11295761B2 (zh) |
EP (1) | EP3739582B1 (zh) |
CN (1) | CN110265065B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111341351A (zh) * | 2020-02-25 | 2020-06-26 | 厦门亿联网络技术股份有限公司 | 基于自注意力机制的语音活动检测方法、装置及存储介质 |
CN112567457A (zh) * | 2019-12-13 | 2021-03-26 | 华为技术有限公司 | 语音检测方法、预测模型的训练方法、装置、设备及介质 |
CN112820309A (zh) * | 2020-12-31 | 2021-05-18 | 北京天润融通科技股份有限公司 | 基于rnn的降噪处理方法及系统 |
CN114720956A (zh) * | 2022-06-07 | 2022-07-08 | 成都信息工程大学 | 针对双偏振天气雷达的水凝物粒子分类识别方法及装置 |
CN115249487A (zh) * | 2022-07-21 | 2022-10-28 | 中国科学院自动化研究所 | 一种回放边界负样例的增量式生成语音检测方法和系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115995235B (zh) * | 2023-03-23 | 2023-05-30 | 世优(北京)科技有限公司 | 基于语音信号分离的远程数字人交互方法、装置及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180038219A (ko) * | 2016-10-06 | 2018-04-16 | 국방과학연구소 | 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법 |
CN108564954A (zh) * | 2018-03-19 | 2018-09-21 | 平安科技(深圳)有限公司 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
CN108922513A (zh) * | 2018-06-04 | 2018-11-30 | 平安科技(深圳)有限公司 | 语音区分方法、装置、计算机设备及存储介质 |
US20190043528A1 (en) * | 2017-08-03 | 2019-02-07 | Spotify Ab | Extracting signals from paired recordings |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107785029B (zh) * | 2017-10-23 | 2021-01-29 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
JP7279080B2 (ja) * | 2018-04-27 | 2023-05-22 | ドルビー ラボラトリーズ ライセンシング コーポレイション | バイノーラル化ステレオ・コンテンツのブラインド検出 |
US11322148B2 (en) * | 2019-04-30 | 2022-05-03 | Microsoft Technology Licensing, Llc | Speaker attributed transcript generation |
-
2019
- 2019-05-13 CN CN201910394746.8A patent/CN110265065B/zh active Active
-
2020
- 2020-05-11 US US16/871,906 patent/US11295761B2/en active Active
- 2020-05-11 EP EP20173897.8A patent/EP3739582B1/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180038219A (ko) * | 2016-10-06 | 2018-04-16 | 국방과학연구소 | 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법 |
US20190043528A1 (en) * | 2017-08-03 | 2019-02-07 | Spotify Ab | Extracting signals from paired recordings |
CN108564954A (zh) * | 2018-03-19 | 2018-09-21 | 平安科技(深圳)有限公司 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
CN108922513A (zh) * | 2018-06-04 | 2018-11-30 | 平安科技(深圳)有限公司 | 语音区分方法、装置、计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
GREGORY GELLY ET AL: "Optimization of RNN-Based Speech Activity Detection", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
YEONGUK YU ET AL: "A Voice Activity Detection Model Composed of Bidirectional LSTM and Attention Mechanism", 《2018 IEEE 10TH INTERNATIONAL CONFERENCE ON HUMANOID,COMMUNICATION AND CONTROL,ENVIRONMENT AND MANAGEMENT (HNICEM)》 * |
包武杰: "噪声环境下的VAD检测方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112567457A (zh) * | 2019-12-13 | 2021-03-26 | 华为技术有限公司 | 语音检测方法、预测模型的训练方法、装置、设备及介质 |
CN112567457B (zh) * | 2019-12-13 | 2021-12-10 | 华为技术有限公司 | 语音检测方法、预测模型的训练方法、装置、设备及介质 |
US12094468B2 (en) | 2019-12-13 | 2024-09-17 | Huawei Technologies Co., Ltd. | Speech detection method, prediction model training method, apparatus, device, and medium |
CN111341351A (zh) * | 2020-02-25 | 2020-06-26 | 厦门亿联网络技术股份有限公司 | 基于自注意力机制的语音活动检测方法、装置及存储介质 |
CN112820309A (zh) * | 2020-12-31 | 2021-05-18 | 北京天润融通科技股份有限公司 | 基于rnn的降噪处理方法及系统 |
CN114720956A (zh) * | 2022-06-07 | 2022-07-08 | 成都信息工程大学 | 针对双偏振天气雷达的水凝物粒子分类识别方法及装置 |
CN115249487A (zh) * | 2022-07-21 | 2022-10-28 | 中国科学院自动化研究所 | 一种回放边界负样例的增量式生成语音检测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
US11295761B2 (en) | 2022-04-05 |
US20200365173A1 (en) | 2020-11-19 |
CN110265065B (zh) | 2021-08-03 |
EP3739582B1 (en) | 2023-07-26 |
EP3739582A1 (en) | 2020-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110265065A (zh) | 一种构建语音检测模型的方法及语音端点检测系统 | |
CN103971680B (zh) | 一种语音识别的方法、装置 | |
CN103065631B (zh) | 一种语音识别的方法、装置 | |
CN104067341A (zh) | 在存在背景噪声的情况下的语音活动检测 | |
US10014005B2 (en) | Harmonicity estimation, audio classification, pitch determination and noise estimation | |
US20060053009A1 (en) | Distributed speech recognition system and method | |
CN103377651B (zh) | 语音自动合成装置及方法 | |
KR20200013094A (ko) | 오디오 신호 분류 방법 및 장치 | |
CN102576542A (zh) | 从窄频带信号确定上频带信号 | |
CN108597505A (zh) | 语音识别方法、装置及终端设备 | |
CN114338623B (zh) | 音频的处理方法、装置、设备及介质 | |
CN111722696B (zh) | 用于低功耗设备的语音数据处理方法和装置 | |
CN103021405A (zh) | 基于music和调制谱滤波的语音信号动态特征提取方法 | |
CN104981870A (zh) | 声音增强装置 | |
CN115116458B (zh) | 语音数据转换方法、装置、计算机设备及存储介质 | |
CN111798875A (zh) | 一种基于三值量化压缩的vad实现方法 | |
CN114333912B (zh) | 语音激活检测方法、装置、电子设备和存储介质 | |
CN113299306B (zh) | 回声消除方法、装置、电子设备及计算机可读存储介质 | |
EP1239458A2 (en) | Voice recognition system, standard pattern preparation system and corresponding methods | |
US7529661B2 (en) | Pitch extraction methods and systems for speech coding using quadratically-interpolated and filtered peaks for multiple time lag extraction | |
CN112151055B (zh) | 音频处理方法及装置 | |
CN111341331B (zh) | 基于局部注意力机制的语音增强方法、装置及介质 | |
CN115188389A (zh) | 基于神经网络的端到端语音增强方法、装置 | |
CN106463140A (zh) | 具有语音信息的改进型帧丢失矫正 | |
CN112420079A (zh) | 语音端点检测方法和装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |