CN110265065B - 一种构建语音端点检测模型的方法及语音端点检测系统 - Google Patents

一种构建语音端点检测模型的方法及语音端点检测系统 Download PDF

Info

Publication number
CN110265065B
CN110265065B CN201910394746.8A CN201910394746A CN110265065B CN 110265065 B CN110265065 B CN 110265065B CN 201910394746 A CN201910394746 A CN 201910394746A CN 110265065 B CN110265065 B CN 110265065B
Authority
CN
China
Prior art keywords
voice
current
endpoint detection
detection model
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910394746.8A
Other languages
English (en)
Other versions
CN110265065A (zh
Inventor
方泽煌
康元勋
冯万健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yealink Network Technology Co Ltd
Original Assignee
Xiamen Yealink Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yealink Network Technology Co Ltd filed Critical Xiamen Yealink Network Technology Co Ltd
Priority to CN201910394746.8A priority Critical patent/CN110265065B/zh
Publication of CN110265065A publication Critical patent/CN110265065A/zh
Priority to EP20173897.8A priority patent/EP3739582B1/en
Priority to US16/871,906 priority patent/US11295761B2/en
Application granted granted Critical
Publication of CN110265065B publication Critical patent/CN110265065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Abstract

本发明公开了一种构建语音端点检测模型的方法及语音端点检测系统,属于语音识别技术领域。本发明的一种构建语音端点检测模型的方法,先采集音频数据并合成混合语音,而后对混合语音进行特征提取得到62维特征,再将62维特征输入至RNN模型进行训练得到语音端点检测模型。本发明的一种语音端点检测系统,包括采集单元、计算单元、传输单元和终端,采集单元与计算单元电连接,计算单元和终端分别与传输单元连接。本发明克服了现有技术中,语音识别准确性和稳定性不高的不足,提供了一种构建语音端点检测模型的方法及语音端点检测系统,对各类噪声下的语音数据具有较高的识别率,可以应用部署至实时会议通信设备。

Description

一种构建语音端点检测模型的方法及语音端点检测系统
技术领域
本发明涉及语音识别领域,更具体地说,涉及一种构建语音端点检测模型的方法及语音端点检测系统。
背景技术
VAD(Voice Activity Detection),又称语音端点检测,是指在噪声环境中检测语音存在与否,通常应用于语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。传统算法在进行语音活动检测时有两个问题需要注意:
一、背景噪声问题,即如何在较大的背景噪声中检测语音;
二、前后沿剪切问题,即还原语音时,由于从实际讲话开始到检测到语音之间有一定的判断门限和时延,有时语音波形的开始和结束部分会作为非语音被丢掉,还原的语音会出现变化,因此需要在突发语音分组前面或后面增加一个语音分组进行平滑以解决这一问题。
VAD算法的准确性对语音前端算法十分关键,传统的VAD算法通常包括两个部分:特征提取和语音/非语音判决,常用的特征提取分为五类:基于能量、频域、倒普、谐波、和长时信息;语音/非语音判决则根据各自提取的特征的特性进行设计,常用的有根据门限、长时包络、基频等。但是传统VAD算法往往对环境和信噪比依赖性较大,准确性也无法得到保证,十分不利应用于实时会议通信设备中。
近年来,由于深度学习的发展,开始出现了利用深度学习进行VAD检测的技术。相对于传统算法,深度学习的非线性拟合能力极强,而且较为成熟的深度学习模型如RNN、LSTM和GRU等也十分适用于音频信号这种序列型输入数据。但是深度学习的参数规模和计算开销通常较大,直接使用小模型又使得算法的稳定性和效果得不到保障,因此很难应用于实时会议通信设备。
综上所述,如何提高语音识别的准确性及稳定性,是现有技术亟需解决的问题。
发明内容
1.要解决的问题
本发明的目的在于克服现有技术中,语音识别准确性和稳定性不高,很难应用于实时会议通信设备的不足,提供了一种构建语音端点检测模型的方法及语音端点检测系统,对各类噪声下的语音数据具有较高的识别率,可以应用部署至实时会议通信设备。
2.技术方案
为了解决上述问题,本发明所采用的技术方案如下:
本发明的一种构建语音端点检测模型的方法,先采集音频数据并合成混合语音,而后对混合语音进行特征提取得到62维特征,再将62维特征输入至RNN模型进行训练得到语音端点检测模型。
进一步地,具体步骤如下:
步骤一、合成混合语音
先采集纯净语音和噪声,而后将采集的纯净语音和噪声进行语音合成得到混合语音;
步骤二、特征提取
先对混合语音进行加窗分帧处理并进行短时傅里叶变换,再计算每帧的频域对数谱,而后对对数谱进行特征提取得到62维特征;
步骤三、生成语音端点检测模型
将62维特征输入至RNN模型,再采用Adam训练策略和改进的loss函数进行训练得到语音端点检测模型;改进的loss函数的公式如下:
BCEmin(x)i′=0.1×MC(x)×[-yi′logfl′(x)+(1-yi′)log(1-fi′(x))]
其中,BCEmin(x)i′为二值交叉熵,fi′(x)表示预测结果,yi′表示真实标签,MC(x)为最小期望成本,公式如下:
MC(x)=P(preL0,tureL1,x)×C10+P(preL1,trueL0,x)×C0
式中,pre代表预测结果,ture代表真实标签,P(preL0,tureL1,x)表示真实标签为L1,L1为语音标签,预测为L0的个数占总个数的比,L0为非语音标签;P(preL1,trueL0,x)表示真实标签为L0,预测为L1的个数占总个数的比;C10为真实标签为L1但检测为L0时的成本,C0为真实标签为L0但检测为L1的成本。
进一步地,步骤一中语音合成公式如下:
Smix=α×Sclean+β×N
其中,Smix为合成的混合语音,Sclean为纯净语音,N为噪声,α为纯净语音的衰减系数,0.3≤α≤1;β为噪声的衰减系数,0.3≤β≤1。
进一步地,步骤二中对对数谱进行特征提取的具体步骤为:将对数谱均匀分成22个子频带,再对每个子频带进行DCT变换得到22维特征,再根据22维特征将当前帧与当前帧的前两帧和当前帧的后两帧的数据特征分别进行差异比较并根据当前帧特征共得到36维特征;而后将基音周期、当前帧谱距离、当前帧与前两帧分别计算所得的谱距离差作为特征得到4维特征,最终共得到62维特征。
进一步地,步骤三中Adam训练策略公式如下:
mt=μ×mt-1+(1-μ)×gt
Figure GDA0003098597280000031
Figure GDA0003098597280000032
Figure GDA0003098597280000033
Figure GDA0003098597280000034
其中,gt表示梯度,mt表示梯度的一阶动量,mt-1表示在t-1时刻梯度的一阶动量,nt表示梯度的二阶动量,nt-1表示在t-1时刻梯度的二阶动量,
Figure GDA0003098597280000035
表示对mt的校正,
Figure GDA0003098597280000036
表示对nt的校正,θ表示学习率,μ和ρ表示衰减系数,0≤μ<1,0≤ρ<1;∈是常数,∈=10-8
进一步地,将前6个频带的系数作为6维特征进行差异比较,差异比较的计算公式如下:
F1=(fcurrent(i)+fcurrent+1(i)+fcurrent+2(i))/3
F2=fcurrent(i)-fcurrent+2(i)
F3=fcurrent(i)-2×fcurrent+1(i)+fcurrent+2(i)
F4=fcurrent(i)-fcurrent-1(i)
F5=fcurrent(i)-fcurrent-2(i)
F6=fcurrent(i)
其中,fcurrent代表当前帧,fcurrent+1代表当前帧的后一帧,fcurrent+2代表fcurrent+1的后一帧,fcurrent-1代表当前帧的前一帧,fcurrent-2代表fcurrent-1的前一帧,i表示22维特征对应的索引,1≤i≤6,F1~F5代表5种差异比较方式,F6代表当前帧特征。
进一步地,RNN模型包括一层16个神经元的Dense层和一层24个输出的GRU层。
本发明的一种语音端点检测系统,包括采集单元、计算单元、传输单元和终端,采集单元与计算单元电连接,计算单元和终端分别与传输单元连接,计算单元包括存储器和处理器,存储器内存储有程序,该程序用于实现上述的一种构建语音端点检测模型的方法,处理器用于执行程序得到语音端点检测模型并用于语音端点检测模型的计算。
进一步地,采集单元包括声音采集器和信号转换器,声音采集器与信号转换器电连接,信号转换器与计算单元电连接。
3.有益效果
相比于现有技术,本发明的有益效果为:
本发明的一种构建语音端点检测模型的方法,通过RNN模型训练得到的语音端点检测模型不仅规模小且具有良好的稳定性,进一步提高了模型的鲁棒性,并且可以应用部署至实时会议通信设备。本发明的一种语音端点检测系统对各类噪声下的语音数据具有较高的识别率,从而可以实现实时通信。
附图说明
图1为本发明的一种构建语音端点检测模型的方法流程示意图;
图2为本发明的合成混合语音的流程示意图;
图3为本发明RNN模型示意图;
图4为实施例1中正常底噪下的语音端点检测示意图;
图5为实施例1中多种噪声下的语音端点检测示意图;
图6为实施例1中低信噪比噪声下的语音端点检测示意图;
图7为本发明的一种语音端点检测系统的结构示意图。
示意图中的标号说明:100、采集单元;200、计算单元;300、传输单元;400、终端。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例;而且,各个实施例之间不是相对独立的,根据需要可以相互组合,从而达到更优的效果。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。
实施例1
结合图1所示,本发明的一种构建语音端点检测模型的方法,先采集音频数据并合成混合语音,而后对混合语音进行特征提取得到62维特征,再将62维特征输入至RNN模型进行训练得到语音端点检测模型,值得说明的是,语音端点检测模型即为训练后的RNN模型,RNN模型规模小但是不稳定,但是训练后的RNN模型不仅规模小且具有良好的稳定性,从而使得语音端点检测模型可以应用部署至实时会议通信设备。
本发明的一种构建语音端点检测模型的方法的具体步骤如下:
步骤一、合成混合语音
如图2所示,先采集纯净语音和噪声,而后将采集的纯净语音和噪声进行语音合成得到混合语音;值得说明的是,通过采用合成混合语音,从而能够准确且大量的标注语音数据。具体地,首先在消音室采集纯净语音,再采集各个场景的噪声,例如火车站,街道,公园,篮球场,体育场,办公室和铃声录制等,并对采集的噪声进行筛选选取符合场景的常见噪声数据;需要说明的是,本实施例中使用麦克风进行录音采集。而后将采集的纯净语音和噪声进行语音合成得到混合语音,语音合成公式如下:
Smix=α×Sclean+β×N
其中,Smix为合成的混合语音,Sclean为纯净语音,N为噪声,α为纯净语音的衰减系数,0.3≤α≤1;β为噪声的衰减系数,0.3≤β≤1;本实施例中α=0.5,β=0.6。
步骤二、特征提取
先对混合语音进行加窗分帧处理并进行短时傅里叶变换,再计算每帧的频域对数谱,而后对对数谱进行特征提取得到62维特征;具体地,将对数谱均匀分成22个子频带,再对每个子频带进行DCT变换得到22维特征,再根据22维特征将当前帧与当前帧的前两帧和当前帧的后两帧的数据特征分别进行差异比较并根据当前帧特征共得到36维特征;而后将基音周期、当前帧谱距离、当前帧与前两帧分别计算所得的谱距离差作为特征得到4维特征,最终共得到62维特征。其中,22维特征为22个子频带进行DCT变换得到的系数。
需要说明的是,DCT变换公式如下所示:
Figure GDA0003098597280000051
Figure GDA0003098597280000052
其中N是数据的总长度,u代表补偿因子,本实施例中u取值为1,c(u)系数使得DCT变换矩阵成为正交矩阵,f(i)代表子频带数据,i代表数据的索引。
差异比较的具体过程为:将前6个频带的系数作为6维特征进行差异比较,差异比较的计算公式如下:
F1=(fcurrent(i)+fcurrent+1(i)+fcurrent+2(i))/3
F2=fcurrent(i)-fcurrent+2(i)
F3=fcurrent(i)-2×fcurrent+1(i)+fcurrent+2(i)
F4=fcurrent(i)-fcurrent-1(i)
F5=fcurrent(i)-fcurrent-2(i)
F6=fcurrent(i)
其中,fcurrent代表当前帧,fcurrent+1代表当前帧的后一帧,fcurrent+2代表fcurrent+1的后一帧,fcurrent-1代表当前帧的前一帧,fcurrent-2代表fcurrent-1的前一帧,i表示22维特征对应的索引,1≤i≤6,F1~F5代表5种差异比较方式,F6代表当前帧特征。
步骤三、生成语音端点检测模型
将62维特征输入至RNN模型,再采用Adam训练策略和改进的loss函数进行训练得到语音端点检测模型;其中,模型学习率为0.0001,改进的loss函数的公式如下:
BCEmin(x)i′=0.1×MC(x)×[-yi′logfi′(x)+(1-yi′)log(1-fi′(x))]
其中,BCEmin(x)i′为二值交叉熵,fi′(x)表示预测结果,具体为RNN模型的输出结果;yi′表示真实标签,MC(x)为最小期望成本,公式如下:
MC(x)=P(preL0,tureL1,x)×C10+P(preL1,trueL0,x)×C0
式中,x表示RNN模型的输入值,即62维特征;pre代表预测结果,ture代表真实标签,P(preL0,tureL1,x)表示真实标签为L1,L1为语音标签,预测为L0的个数占总个数的比,L0为非语音标签;P(preL1,trueL0,x)表示真实标签为L0,预测为L1的个数占总个数的比;C10为真实标签为L1但检测为L0时的成本,C0为真实标签为L0但检测为L1的成本。值得说明的是,在实际应用场景中出现漏检率的代价远大于虚检率,本发明采用以降低漏检率为前提的最小成本理论来改进loss函数,从而更符合实际的应用场景;其中,漏检率指的是原本是语音但是检测为噪音,虚检率指的是原本是噪音但检测为语音。
需要说明的是,Adam训练策略公式如下:
mt=μ×mt-1+(1-μ)×gt
Figure GDA0003098597280000061
Figure GDA0003098597280000062
Figure GDA0003098597280000063
Figure GDA0003098597280000071
其中,gt表示梯度,mt表示梯度的一阶动量,mt-1表示在t-1时刻梯度的一阶动量,nt表示梯度的二阶动量,nt-1表示在t-1时刻梯度的二阶动量,
Figure GDA0003098597280000072
表示对mt的校正,
Figure GDA0003098597280000073
表示对nt的校正,θ表示学习率,θt+1表示在t-1时刻学习率,θt表示在t时刻的学习率,μ和ρ表示衰减系数,0≤μ<1,0≤ρ<1;本实施例中μ=0.9,ρ=0.999,∈是用于数值稳定的小常数,∈=10-8
此外,需要进一步说明的是,本发明的RNN模型包括一层16个神经元的Dense层(全连接层)和一层24个输出的GRU层,且RNN模型的输出值为output,0≤output≤1(如图3所示)。
而后将得到的语音预测模型对数据进行预测,当输出值output>=p时,则该数据为语音,当output<p时,则该数据为非语音;0<p<1,本实施p取0.5。
本发明的语音端点检测模型的参数主要包括输入层与Dense层的权重、Dense层与GRU层的权重,GRU与输出层的权重;根据模型结构设计并优化前向算法,具体为根据权重数量与各个层之间的连接情况定义同等大小的数组,并根据Dense层和GRU层的神经元的输入输出设计对应数据结构储存参数,从而可以存储至存储器中,进而可以部署在实时会议通信设备中。
通过上述方法构建的语音端点检测模型对各类噪声下的语音数据具有较高的识别率,且语音端点检测模型的鲁棒性高;如图4、图5和图6所示,语音端点检测模型对在正常底噪下的语音,多种噪声下的语音和低信噪比噪声下的语音均能检测识别。
如图7所示,本发明的一种语音端点检测系统,包括采集单元100、计算单元200、传输单元300和终端400,采集单元100与计算单元200电连接,计算单元200和终端400分别与传输单元300连接;具体地,采集单元100包括声音采集器和信号转换器,声音采集器与信号转换器电连接,信号转换器与计算单元200电连接。其中,声音采集器用于采集语音,信号转换器用于将环境中的声学信号转换成数字信号,本实施例中的声音采集器麦克风,信号转换器为ADC硬件芯片;计算单元200包括存储器和处理器,存储器内存储有程序,该程序用于实现上述的一种构建语音端点检测模型的方法,处理器用于执行程序得到语音端点检测模型并用于语音端点检测模型的计算,本实施例中计算单元200为单片机或者计算机;传输单元300用于传输计算单元200计算的数据,本实施例中传输单元300为传输数据的网络系统;终端400用于播放处理后的音频数据,终端400为接入网络的实时会议通信系统。本发明的语音端点检测系统对各类噪声下的语音数据具有较高的识别率,从而可以实现实时通信。
在上文中结合具体的示例性实施例详细描述了本发明。但是,应当理解,可在不脱离由所附权利要求限定的本发明的范围的情况下进行各种修改和变型。详细的描述和附图应仅被认为是说明性的,而不是限制性的,如果存在任何这样的修改和变型,那么它们都将落入在此描述的本发明的范围内。此外,背景技术旨在为了说明本技术的研发现状和意义,并不旨在限制本发明或本申请和本发明的应用领域。

Claims (8)

1.一种构建语音端点检测模型的方法,其特征在于,先采集音频数据并合成混合语音,而后对混合语音进行特征提取得到62维特征,再将62维特征输入至RNN模型进行训练得到语音端点检测模型;具体步骤如下:
步骤一、合成混合语音
先采集纯净语音和噪声,而后将采集的纯净语音和噪声进行语音合成得到混合语音;
步骤二、特征提取
先对混合语音进行加窗分帧处理并进行短时傅里叶变换,再计算每帧的频域对数谱,而后对对数谱进行特征提取得到62维特征;
步骤三、生成语音端点检测模型
将62维特征输入至RNN模型,再采用Adam训练策略和改进的loss函数进行训练得到语音端点检测模型;改进的loss函数的公式如下:
BCEmin(x)i′=0.1×MC(x)×[-yi′logfi′(x)+(1-yi′)log(1-fi′(x))]
其中,BCEmin(x)i′为二值交叉熵,fi′(x)表示预测结果,yi′表示真实标签,MC(x)为最小期望成本,公式如下:
MC(x)=P(preL0,tureL1,x)×C10+P(preL1,trueL0,x)×C0
式中,pre代表预测结果,ture代表真实标签,P(preL0,tureL1,x)表示真实标签为L1,L1为语音标签,预测为L0的个数占总个数的比,L0为非语音标签;P(preL1,trueL0,x)表示真实标签为L0,预测为L1的个数占总个数的比;C10为真实标签为L1但检测为L0时的成本,C0为真实标签为L0但检测为L1的成本。
2.根据权利要求1所述的一种构建语音端点检测模型的方法,其特征在于,步骤一中语音合成公式如下:
Smix=α×Sclean+β×N
其中,Smix为合成的混合语音,Sclean为纯净语音,N为噪声,α为纯净语音的衰减系数,0.3≤α≤1;β为噪声的衰减系数,0.3≤β≤1。
3.根据权利要求1所述的一种构建语音端点检测模型的方法,其特征在于,步骤二中对对数谱进行特征提取的具体步骤为:将对数谱均匀分成22个子频带,再对每个子频带进行DCT变换得到22维特征,再根据22维特征将当前帧与当前帧的前两帧和当前帧的后两帧的数据特征分别进行差异比较并根据当前帧特征共得到36维特征;而后将基音周期、当前帧谱距离、当前帧与前两帧分别计算所得的谱距离差作为特征得到4维特征,最终共得到62维特征。
4.根据权利要求1所述的一种构建语音端点检测模型的方法,其特征在于,步骤三中Adam训练策略公式如下:
mt=μ×mt-1+(1-μ)×gt
Figure FDA0003098597270000021
Figure FDA0003098597270000022
Figure FDA0003098597270000023
Figure FDA0003098597270000024
其中,gt表示梯度,mt表示梯度的一阶动量,mt-1表示在t-1时刻梯度的一阶动量,nt表示梯度的二阶动量,nt-1表示在t-1时刻梯度的二阶动量,
Figure FDA0003098597270000025
表示对mt的校正,
Figure FDA0003098597270000026
表示对nt的校正,θ表示学习率,μ和ρ表示衰减系数,0≤μ<1,0≤ρ<1;∈是常数,∈=10-8
5.根据权利要求3所述的一种构建语音端点检测模型的方法,其特征在于,将前6个频带的系数作为6维特征进行差异比较,差异比较的计算公式如下:
F1=(fcurrent(i)+fcurrent+1(i)+fcurrent+2(i))/3
F2=fcurrent(i)-fcurrent+2(i)
F3=fcurrent(i)-2×fcurrent+1(i)+fcurrent+2(i)
F4=fcurrent(i)-fcurrent-1(i)
F5=fcurrent(i)-fcurrent-2(i)
F6=fcurrent(i)
其中,fcurrent代表当前帧,fcurrent+1代表当前帧的后一帧,fcurrent+2代表fcurrent+1的后一帧,fcurrent-1代表当前帧的前一帧,fcurrent-2代表fcurrent-1的前一帧,i表示22维特征对应的索引,1≤i≤6,F1~F5代表5种差异比较方式,F6代表当前帧特征。
6.根据权利要求1~5任一项所述的一种构建语音端点检测模型的方法,其特征在于,RNN模型包括一层16个神经元的Dense层和一层24个输出的GRU层。
7.一种语音端点检测系统,其特征在于,包括采集单元、计算单元、传输单元和终端,采集单元与计算单元电连接,计算单元和终端分别与传输单元连接,其中,所述计算单元包括存储器和处理器,存储器内存储有程序,该程序用于实现权利要求1~6任一项所述的一种构建语音端点检测模型的方法,处理器用于执行程序得到语音端点检测模型并用于语音端点检测模型的计算。
8.根据权利要求7所述的一种语音端点检测系统,其特征在于,采集单元包括声音采集器和信号转换器,声音采集器与信号转换器电连接,信号转换器与计算单元电连接。
CN201910394746.8A 2019-05-13 2019-05-13 一种构建语音端点检测模型的方法及语音端点检测系统 Active CN110265065B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910394746.8A CN110265065B (zh) 2019-05-13 2019-05-13 一种构建语音端点检测模型的方法及语音端点检测系统
EP20173897.8A EP3739582B1 (en) 2019-05-13 2020-05-11 Voice detection
US16/871,906 US11295761B2 (en) 2019-05-13 2020-05-11 Method for constructing voice detection model and voice endpoint detection system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910394746.8A CN110265065B (zh) 2019-05-13 2019-05-13 一种构建语音端点检测模型的方法及语音端点检测系统

Publications (2)

Publication Number Publication Date
CN110265065A CN110265065A (zh) 2019-09-20
CN110265065B true CN110265065B (zh) 2021-08-03

Family

ID=67914633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910394746.8A Active CN110265065B (zh) 2019-05-13 2019-05-13 一种构建语音端点检测模型的方法及语音端点检测系统

Country Status (3)

Country Link
US (1) US11295761B2 (zh)
EP (1) EP3739582B1 (zh)
CN (1) CN110265065B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112567457B (zh) * 2019-12-13 2021-12-10 华为技术有限公司 语音检测方法、预测模型的训练方法、装置、设备及介质
CN111341351B (zh) * 2020-02-25 2023-05-23 厦门亿联网络技术股份有限公司 基于自注意力机制的语音活动检测方法、装置及存储介质
CN112820309A (zh) * 2020-12-31 2021-05-18 北京天润融通科技股份有限公司 基于rnn的降噪处理方法及系统
CN114720956B (zh) * 2022-06-07 2022-11-01 成都信息工程大学 针对双偏振天气雷达的水凝物粒子分类识别方法及装置
CN115249487B (zh) * 2022-07-21 2023-04-14 中国科学院自动化研究所 一种回放边界负样例的增量式生成语音检测方法和系统
CN115995235B (zh) * 2023-03-23 2023-05-30 世优(北京)科技有限公司 基于语音信号分离的远程数字人交互方法、装置及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180038219A (ko) * 2016-10-06 2018-04-16 국방과학연구소 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법
CN108564954A (zh) * 2018-03-19 2018-09-21 平安科技(深圳)有限公司 深度神经网络模型、电子装置、身份验证方法和存储介质
CN108922513A (zh) * 2018-06-04 2018-11-30 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10839826B2 (en) * 2017-08-03 2020-11-17 Spotify Ab Extracting signals from paired recordings
CN107785029B (zh) * 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
JP7279080B2 (ja) * 2018-04-27 2023-05-22 ドルビー ラボラトリーズ ライセンシング コーポレイション バイノーラル化ステレオ・コンテンツのブラインド検出
US11322148B2 (en) * 2019-04-30 2022-05-03 Microsoft Technology Licensing, Llc Speaker attributed transcript generation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180038219A (ko) * 2016-10-06 2018-04-16 국방과학연구소 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법
CN108564954A (zh) * 2018-03-19 2018-09-21 平安科技(深圳)有限公司 深度神经网络模型、电子装置、身份验证方法和存储介质
CN108922513A (zh) * 2018-06-04 2018-11-30 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Voice Activity Detection Model Composed of Bidirectional LSTM and Attention Mechanism;Yeonguk Yu et al;《2018 IEEE 10TH INTERNATIONAL CONFERENCE ON HUMANOID,COMMUNICATION AND CONTROL,ENVIRONMENT AND MANAGEMENT (HNICEM)》;20181129;第2,3页 *
Optimization of RNN-Based Speech Activity Detection;Gregory Gelly et al;《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》;20180331;第26卷(第3期);全文 *
噪声环境下的VAD检测方法的研究;包武杰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20171115(第11期);全文 *

Also Published As

Publication number Publication date
EP3739582A1 (en) 2020-11-18
EP3739582B1 (en) 2023-07-26
US20200365173A1 (en) 2020-11-19
CN110265065A (zh) 2019-09-20
US11295761B2 (en) 2022-04-05

Similar Documents

Publication Publication Date Title
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测系统
RU2373584C2 (ru) Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков
CN107910011B (zh) 一种语音降噪方法、装置、服务器及存储介质
JP3591068B2 (ja) 音声信号の雑音低減方法
JP5127754B2 (ja) 信号処理装置
CN110782910B (zh) 一种高检出率的啸叫音频检测系统
CN109147763B (zh) 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置
CN107863099B (zh) 一种新型双麦克风语音检测和增强方法
WO2012158156A1 (en) Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN112951259A (zh) 音频降噪方法、装置、电子设备及计算机可读存储介质
CN111899750B (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN111540342A (zh) 一种能量阈值调整方法、装置、设备及介质
CN112309417A (zh) 风噪抑制的音频信号处理方法、装置、系统和可读介质
CN111341351B (zh) 基于自注意力机制的语音活动检测方法、装置及存储介质
CN111341331B (zh) 基于局部注意力机制的语音增强方法、装置及介质
CN112151055B (zh) 音频处理方法及装置
CN111627426B (zh) 消除语音交互中信道差异的方法及系统、电子设备及介质
CN100495537C (zh) 强鲁棒性语音分离方法
CN113744725A (zh) 一种语音端点检测模型的训练方法及语音降噪方法
CN113593604A (zh) 检测音频质量方法、装置及存储介质
CN117198312B (zh) 一种用于智能眼镜的语音交互处理方法
CN112669877B (zh) 噪声检测及压制方法、装置、终端设备和系统、芯片

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant