CN109036460B - 基于多模型神经网络的语音处理方法和装置 - Google Patents
基于多模型神经网络的语音处理方法和装置 Download PDFInfo
- Publication number
- CN109036460B CN109036460B CN201810990242.8A CN201810990242A CN109036460B CN 109036460 B CN109036460 B CN 109036460B CN 201810990242 A CN201810990242 A CN 201810990242A CN 109036460 B CN109036460 B CN 109036460B
- Authority
- CN
- China
- Prior art keywords
- neural network
- masking threshold
- masking
- weighted average
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 54
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 230000000873 masking effect Effects 0.000 claims abstract description 160
- 238000003062 neural network model Methods 0.000 claims abstract description 114
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000000926 separation method Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims description 25
- 230000004927 fusion Effects 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 14
- 125000004122 cyclic group Chemical group 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 9
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 9
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 230000000306 recurrent effect Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000006735 deficit Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 241001122767 Theaceae Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供一种基于多模型神经网络的语音处理方法和装置,包括:获取目标语音帧中的声学特征,将该声学特征分别作为N个第一神经网络模型的输入参数,得到N个第一掩蔽阈值,该N个第一神经网络模型均不同,将声学特征作为第二神经网络模型的输入参数,得到N个权重,该N个权重与该N个第一掩蔽阈值一一对应,根据N个权重和N个第一掩蔽阈值,得到第二掩蔽阈值,根据第二掩蔽阈值对该声学特征进行处理,得到目标语音帧的源信号的估计值。通过多个不同的第一神经网络模型得到多个不同的第一掩蔽阈值,进而对多个第一掩蔽阈值进行处理得到最终的掩蔽阈值,从而提高了掩蔽阈值的准确度,使得盲源分离的效果更佳。
Description
技术领域
本申请实施例涉及语音信号处理技术领域,尤其涉及一种基于多模型神经网络的语音处理方法和装置。
背景技术
语音交互中一个常见的应用场景就是高噪声情况下的语音识别,高噪声情况下,人类的听觉系统可以分辨出嘈杂环境中的感兴趣的声音,这个现象叫做“鸡尾酒会效应”,“鸡尾酒会效应”在技术上描述为盲源分离(Blind Source Separation,BSS)问题,也就是在没有参考信号的情况下,把感兴趣的“前景音”从嘈杂的“背景音”中分离出来。
常用的盲源分离方法为理想比例掩蔽(Ideal Ratio Mask,IRM)阈值,现有技术中,采用单模型神经网络计算掩蔽阈值,该单模型神经网络由多个卷几层、多个循环神经网络(Recurrent Neural Networks,RNN)层和一个输出层组成,输出层与RNN层之间采用全连接的方式,激活函数使用sigmoid。
但是,单模型神经网络具有性能上限,导致掩蔽阈值的准确度不高。
发明内容
本申请实施例提供一种基于多模型神经网络的语音处理方法和装置,提高了掩蔽阈值的准确度,使得盲源分离的效果更佳
本发明第一方面提供一种基于多模型神经网络的语音处理方法,包括:
获取目标语音帧中的声学特征,所述目标语音帧中包括源信号和噪音;
将所述声学特征分别作为N个第一神经网络模型的输入参数,得到N个第一掩蔽阈值,N为大于1的整数,所述N个第一神经网络模型均不同;
将所述声学特征作为第二神经网络模型的输入参数,得到N个权重,所述N个权重与所述N个第一掩蔽阈值一一对应;
根据所述N个权重和所述N个第一掩蔽阈值,得到第二掩蔽阈值;
根据所述第二掩蔽阈值对所述声学特征进行处理,得到所述目标语音帧的源信号的估计值。
可选的,所述根据所述N个权重和所述N个第一掩蔽阈值,得到第二掩蔽阈值,包括:
根据所述N个权重计算所述N个第一掩蔽阈值的加权平均值;
根据所述加权平均值得到所述第二掩蔽阈值。
可选的,所述根据所述加权平均值得到所述第二掩蔽阈值,包括:
将所述加权平均值和1中的较小者作为所述第二掩蔽阈值。
可选的,所述根据所述加权平均值得到所述第二掩蔽阈值,包括:
若所述加权平均值小于或等于1,则将所述加权平均值作为所述第二掩蔽阈值;
若所述加权平均值大于1,则计算所述加权平均值与修正因子的乘积,得到所述第二掩蔽阈值,其中,所述修正因子大于0且小于1。
可选的,所述第一神经网络模型包括至少一个卷积层、至少一个循环神经网络层以及一个输出层;或者,
所述第一神经网络模型包括至少一个卷积层以及一个输出层;或者,
所述第一神经网络模型包括至少一个门控循环单元层以及一个输出层。
可选的,所述第二神经网络模型包括至少一个卷积层、至少一个循环神经网络层以及一个输出层;或者,
所述第二神经网络模型包括至少一个卷积层以及一个输出层;或者,
所述第二神经网络模型包括至少一个卷积层、至少一个门控循环单元层以及一个输出层。
可选的,所述根据所述第二掩蔽阈值对所述声学特征进行处理,得到所述目标语音帧的源信号的估计值,包括:
计算所述第二掩蔽阈值与所述声学特征的乘积,得到所述目标语音帧的源信号的估计值。
可选的,所述目标语音帧的声学特征包括以下特征中的任意一种:
快速傅里叶变换FFT的幅值谱、梅尔频率倒谱系数MFCC特征、梅尔标度滤波器组FBank特征或者感知线性预测PLP特征。
本发明第二方面提供一种基于多模型神经网络的语音处理装置,包括:
获取模块,用于获取目标语音帧中的声学特征,所述目标语音帧中包括源信号和噪音;
第一训练模块,用于将所述声学特征分别作为N个第一神经网络模型的输入参数,得到N个第一掩蔽阈值,N为大于1的整数,所述N个第一神经网络模型均不同;
第二训练模块,用于将所述声学特征作为第二神经网络模型的输入参数,得到N个权重,所述N个权重与所述N个第一掩蔽阈值一一对应;
融合模块,用于根据所述N个权重和所述N个第一掩蔽阈值,得到第二掩蔽阈值;
分离模块,用于根据所述第二掩蔽阈值对所述声学特征进行处理,得到所述目标语音帧的源信号的估计值。
可选的,所述融合模块具体用于:
根据所述N个权重计算所述N个第一掩蔽阈值的加权平均值;
根据所述加权平均值得到所述第二掩蔽阈值。
可选的,所述融合模块具体用于:
将所述加权平均值和1中的较小者作为所述第二掩蔽阈值。
可选的,所述融合模块具体用于:
若所述加权平均值小于或等于1,则将所述加权平均值作为所述第二掩蔽阈值;
若所述加权平均值大于1,则计算所述加权平均值与修正因子的乘积,得到所述第二掩蔽阈值,其中,所述修正因子大于0且小于1。
可选的,所述第一神经网络模型包括至少一个卷积层、至少一个循环神经网络层以及一个输出层;或者,
所述第一神经网络模型包括至少一个卷积层以及一个输出层;或者,
所述第一神经网络模型包括至少一个门控循环单元层以及一个输出层。
可选的,所述第二神经网络模型包括至少一个卷积层、至少一个循环神经网络层以及一个输出层;或者,
所述第二神经网络模型包括至少一个卷积层以及一个输出层;或者,
所述第二神经网络模型包括至少一个卷积层、至少一个门控循环单元层以及一个输出层。
可选的,所述分离模块具体用于:
计算所述第二掩蔽阈值与所述声学特征的乘积,得到所述目标语音帧的源信号的估计值。
可选的,所述目标语音帧的声学特征包括以下特征中的任意一种:
快速傅里叶变换FFT的幅值谱、梅尔频率倒谱系数MFCC特征、梅尔标度滤波器组FBank特征或者感知线性预测PLP特征。
本发明第三方面提供一种基于多模型神经网络的语音处理装置,包括:处理器、存储器和收发器,所述存储器用于存储指令,所述收发器用于和其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述装置执行如本发明第一方面提供的方法。
本发明第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被执行时,使得计算机执行如本发明第一方面提供的方法。
本发明提供的基于多模型神经网络的语音处理方法和装置,包括:获取目标语音帧中的声学特征,将该声学特征分别作为N个第一神经网络模型的输入参数,得到N个第一掩蔽阈值,该N个第一神经网络模型均不同,将声学特征作为第二神经网络模型的输入参数,得到N个权重,该N个权重与该N个第一掩蔽阈值一一对应,根据N个权重和N个第一掩蔽阈值,得到第二掩蔽阈值,根据第二掩蔽阈值对该声学特征进行处理,得到目标语音帧的源信号的估计值。通过多个不同的第一神经网络模型得到多个不同的第一掩蔽阈值,进而对多个第一掩蔽阈值进行处理得到最终的掩蔽阈值,从而提高了掩蔽阈值的准确度,使得盲源分离的效果更佳。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例一提供的基于多模型神经网络的语音处理方法的流程图;
图2为多模型神经网络的一种结构示意图;
图3为多模型神经网络的一种具体结构示意图;
图4为本发明实施例二提供的一种基于多模型神经网络的语音处理装置的结构示意图;
图5为本发明实施例三提供的一种基于多模型神经网络的语音处理装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
本申请提供一种基于多模型神经网络的语音处理方法,所述方法由具有语音处理功能的语音处理设备执行,该语音处理设备可以是智能音箱、智能电视、智能冰箱、智能空调、对话式人工智能系统等具有语音功能的一些智能设备,还可以个人电脑、智能手机、平板电脑、个人数字助理(personal digital assistant,PDA)、膝上型计算机、智能车载设备等。
本实施例的方法应用在盲源分离的场景中,常见的盲源分离场景包括以下场景:
场景一、将目标说话人的语音从一段多说话人同时说话的音频中提取出来。一个简单的例子,客厅里电视正在播放新闻联播,用户A想和茶几上智能音箱进行交互,音箱同时接收到了用户A的语音请求以及新闻联播中主持人的播报。也就是说,同一时刻,两个人在说话,因此,音箱需要将用户A的语音从用户A的语音和新闻联播中主持人的播报组成和混合语音中分离出来。
场景二、将语音从背景噪声中分离出来。一个典型的例子就是车载环境下的语音识别,人们在开车的时候,车载设备或者手机的麦克风不仅会接收到用户发送的语音信号,还会接受到各种环境噪声,例如风噪、路噪和鸣笛等,盲源分离算法可以抑制这些环境噪声,只把语音增强取出,送到语音识别系统中。
盲源分离本身是个回归模型,回归模型是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系,如果模型性能不理想,就会出现不理性的案例(badcase)。典型的badcase有3种:
(1)、背景音没有消除。也就是说盲源分离算法去噪效果差,对噪声的抑制能力低。
(2)语音被消除了。也就是说,盲源分离算法步不仅把噪声抑制掉了,同时也把目标语音也抑制了。
(3)噪声没有消除干净,语音被损伤了。这个情况最为普遍,也就是在某些时频点,噪声被保留了下来,而在另一些时频点,语音却被消除了。
因此,盲源分离最核心的指标是:噪声抑制,并且不损伤语音。一个好的盲源分离系统,应该能够在尽量少的损伤语音的情况下,把背景噪声抑制到最强程度。
图1为本发明实施例一提供的基于多模型神经网络的语音处理方法的流程图,如图1所示,本实施例提供的方法包括以下步骤:
步骤S101、获取目标语音帧中的声学特征,该目标语音帧中包括源信号和噪音。
目标语音帧包括源信号和噪音,目标语音帧可以采用32毫秒(ms)帧长,10ms帧移,16khz采样率下每帧的长度是512。目标语音帧的声学特征可以为快速傅里叶变换(FastFourier Transformation,FFT)的幅值谱、梅尔频率倒谱系数(Mel-frequency CepstrumCoefficients,MFCC)特征、梅尔标度滤波器组(Mel-scale Filter Bank,FBank)特征或者感知线性预测(Perceptual Linear Predictive,PLP)特征。目标语音帧中包括多个频点的信号,本实施例中目标语音帧的声学特征是指某个频点的声学特征。
步骤S102、将声学特征分别作为N个第一神经网络模型的输入参数,得到N个第一掩蔽阈值,N为大于1的整数,N个第一神经网络模型均不同。
听觉中的掩蔽效应指人的耳朵只对最明显的声音反应敏感,而对于不明显的声音,反应则较不为敏感。一个声音的闻阈值由于另一个声音的出现而提高的效应。前者称为掩蔽音(masking tone),后者称为被掩蔽声(masked tone)。对于两个纯音来说,最明显的掩蔽效应出现在掩蔽声频率附近,低频纯音能有效地掩蔽高频纯音,而高频纯音对低频纯音的掩蔽效应小。听觉掩蔽效应则主要包括噪声、人耳、频域、时域和时间掩蔽效应。在掩蔽情况下,提高被掩蔽音的强度,使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽阈值),被掩蔽音必须提高的分贝值称为掩蔽量(或称阈移)。
步骤S103、将声学特征作为第二神经网络模型的输入参数,得到N个权重,N个权重与N个第一掩蔽阈值一一对应。
本实施例的方法应用在多模型神经网络中,图2为多模型神经网络的一种结构示意图,如图2所示,该多模型神经网络包括声学特征提取模块、N个第一神经网络模型、一个第二神经网络模型和一个融合模块。第一神经网络模型和第二神经网络模型的输入相同,都是目标语音帧的声学特征。融合模块用于根据第一神经网络模型和第二神经网络模型的输出值,计算得到掩蔽阈值。
其中,第一神经网络模型用于计算第一掩蔽阈值,第一掩蔽阈值的取值为[0,1],即第一神经网络模型的输出值位于[0,1]之间。示例性的,第一神经网络模型包括至少一个卷积层(conv)、至少一个循环神经网络层(Recurrent Neural Networks,RNN)以及一个输出层;或者,第一神经网络模型包括至少一个卷积层以及一个输出层;或者,第一神经网络模型包括至少一个门控循环单元(Gated Recurrent Unit,GRU)层以及一个输出层。
第一神经网络模型的输出层可以采用sigmoid函数,sigmoid函数也称为生长曲线,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到[0,1]之间。该输出层采用全连接层,全连接层中的每个神经元与其前一层的所有神经元进行全连接.全连接层可以整合卷积层、循环神经网络层或者门控循环单元层中具有类别区分性的局部信息。可循的,该输出层中包括激活函数(activation function),在神经网络中,激活函数的作用是能够给神经网络加入一些非线性因素,使得神经网络可以更好地解决较为复杂的问题。该激活函数可以是线性整流函数(Rectified Linear Unit,
ReLU),ReLU又称修正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数。
第二神经网络模型用于计算权重,第二神经网络模型输出的权重的个数与第一神经网络模型的个数相同。示例性的,第二神经网络模型包括至少一个卷积层、至少一个循环神经网络层以及一个输出层;或者,第二神经网络模型包括至少一个卷积层以及一个输出层;或者,第二神经网络模型包括至少一个卷积层、至少一个门控循环单元层以及一个输出层。
第二神经网络模型的输出层可以采用softmax函数,softmax函数也可以称为归一化指数函数,它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中,使得每一个元素的范围都在[0,1]之间,并且所有元素的和为1。
图3为多模型神经网络的一种具体结构示意图,如图3所示,该多模型神经网络包括两个第一神经网络模型、一个第二神经网络模型和一个融合模块。其中,一个第一神经网络模型包括4个卷积层和一个输出层,4个卷积层串联,另一个第一神经网络模型包括两个层GRU和一个输出层,第一神经网络模型的输出层采用Sigmoid函数。第二神经网络模型包括一个卷积层、一个门控循环单元层和一个输出层,第二神经网络模型的输出层采用softmax函数。
图3只是举例说明,多模型神经网络还可以包括更多的第一神经网络模型,第一神经网络模型的结构也不限于图3所示的两种示意图,例如,N个第一神经网络模型均采用卷积层和输出层的结构,其中,N个第一神经网络模型的卷积层的个数不同。可选的,N个第一神经网络模型的卷积层的个数呈阶梯状递增或递减。例如,第一个第一神经网络模型包括一个卷积层,第二个第一神经网络模型包括两个卷积层,第三个第一神经网络模型包括三个卷积层,以此类推,第N个第一神经网络模型包括N个卷积层。
通过多个第一神经网络模型并行对声学特征进行训练,得到N个第一掩蔽阈值,由于多个第一神经网络模型不同,从而能够更加全面的获取掩蔽阈值。
步骤S104、根据N个权重和N个第一掩蔽阈值,得到第二掩蔽阈值。
多模型神经网络模型的融合模块使用预设的融合算法对N个权重和N个第一掩蔽阈值进行融合,得到第二掩蔽阈值。示例性,该融合算法为线性求和算法,融合模块根据N个权重计算N个第一掩蔽阈值的加权平均值,根据加权平均值得到第二掩蔽阈值。
加权平均算法的公式如下:
其中,y是第一掩蔽阈值的加权平均值,ai是第二神经网络模型的输出,ai表示第i个权重,i的取值为1到N,ai满足以下条件:
即N个权重的和为1。
xi是第i个第一神经网络模型的输出,即第i个第一掩蔽阈值。
上述计算第一掩蔽阈值时使用的声学特征为某个频点的声学特征,相应的,计算得到的第一掩蔽阈值为该频点的掩蔽阈值,第一掩蔽阈值的加权平均值也是该频点对应的加权平均值。相应的,第j个频点的第一掩蔽阈值的加权平均值yj可以通过如下公式表示:
j是频点,j的取值为1到K,K是目标语音帧中的声学特征的长度,例如,当声学特征为256维的FFT幅值谱时,K的取值为256,ai是第二神经网络模型的输出,ai表示第i个权重,i的取值为1到N,ai满足以下条件:
xi,j是第i个第一神经网络模型在第j个频点的输出。
示例性的,根据加权平均值得到第二掩蔽阈值,可以为:将加权平均值和1中的较小者作为第二掩蔽阈值。
示例性的,根据加权平均值得到第二掩蔽阈值,还可以为:若加权平均值小于或等于1,则将加权平均值作为第二掩蔽阈值;若加权平均值大于1,则计算加权平均值与修正因子的乘积,得到第二掩蔽阈值,其中,修正因子大于0且小于1。
步骤S105、根据第二掩蔽阈值对目标语音帧的声学特征进行处理,得到目标语音帧的源信号的估计值。
示例性的,计算第二掩蔽阈值与目标语音帧的声学特征的乘积,得到目标语音帧的源信号的估计值。可以通过如下公式表示:
estimate=h.*noisy
其中,noisy表示目标语音帧的声学特征,h表示第二掩蔽阈值,estimate表示目标语音帧的估计值。该目标语音帧中包括源信号和噪音,相应的,该目标语音帧的声学特征也包括源信号特征和噪音特征,通过将第二掩蔽阈值与目标语音帧的声学特征的相乘,可以将噪音特征抑制,得到源信号特征,从而将源信号从目标语音帧中识别出来。
本实施例中,获取目标语音帧中的声学特征,该目标语音帧中包括源信号和噪音,将该声学特征分别作为N个第一神经网络模型的输入参数,得到N个第一掩蔽阈值,该N个第一神经网络模型均不同,将声学特征作为第二神经网络模型的输入参数,得到N个权重,该N个权重与该N个第一掩蔽阈值一一对应,根据N个权重和N个第一掩蔽阈值,得到第二掩蔽阈值,根据第二掩蔽阈值对该声学特征进行处理,得到目标语音帧的源信号的估计值。通过多个不同的第一神经网络模型得到多个不同的第一掩蔽阈值,进而对多个第一掩蔽阈值进行处理得到最终的掩蔽阈值,从而提高了掩蔽阈值的准确度,使得盲源分离的效果更佳。
在实施例一的基础上,先要通过模型训练得到多模型神经网络,在训练过程中需要使用大量样本,样本的参数为语音帧的声学特征和语音帧的标签,语音帧的标签为语音帧的掩蔽阈值,语音帧的声学特征和标签预先获取到,并人工标定。语音帧的声学特征采用一种声学特征,可以为语音帧的FFT幅值谱、MFCC特征,PLP特征,或者Fbank特征。
语音帧的标签可以通过如下公式计算得到:
其中,t是时间标度,表示第t帧语音帧,f是频域点的标号,表示第f个频点,表示第t帧中f频点的纯净语音(clean语音)的功率;表示第t帧中f频点的的噪音(noisy)的功率,mask(t,f)表示第t帧中f频点的掩蔽阈值。
在训练过程中,针对每个样本,将语音帧的声学特征作为输入,通过多模型神经网络得到一个第二掩蔽阈值,根据该第二掩蔽阈值和语音帧的标签所对应的掩蔽阈值对多模型神经网络各层的参数进行调整,通过大量的训练,得到最终的多模型神经网络。
图4为本发明实施例二提供的一种基于多模型神经网络的语音处理装置的结构示意图,如图4所示,本实施例提供装置包括:
获取模块11,用于获取目标语音帧中的声学特征,所述目标语音帧中包括源信号和噪音;
第一训练模块12,用于将所述声学特征分别作为N个第一神经网络模型的输入参数,得到N个第一掩蔽阈值,N为大于1的整数,所述N个第一神经网络模型均不同;
第二训练模块13,用于将所述声学特征作为第二神经网络模型的输入参数,得到N个权重,所述N个权重与所述N个第一掩蔽阈值一一对应;
融合模块14,用于根据所述N个权重和所述N个第一掩蔽阈值,得到第二掩蔽阈值;
分离模块15,用于根据所述第二掩蔽阈值对所述声学特征进行处理,得到所述目标语音帧的源信号的估计值。
示例性的,所述融合模块具体用于:
根据所述N个权重计算所述N个第一掩蔽阈值的加权平均值;
根据所述加权平均值得到所述第二掩蔽阈值。
示例性的,所述融合模块具体用于:
将所述加权平均值和1中的较小者作为所述第二掩蔽阈值。
示例性的,所述融合模块具体用于:
若所述加权平均值小于或等于1,则将所述加权平均值作为所述第二掩蔽阈值;
若所述加权平均值大于1,则计算所述加权平均值与修正因子的乘积,得到所述第二掩蔽阈值,其中,所述修正因子大于0且小于1。
示例性的,所述第一神经网络模型包括至少一个卷积层、至少一个循环神经网络层以及一个输出层;或者,
所述第一神经网络模型包括至少一个卷积层以及一个输出层;或者,
所述第一神经网络模型包括至少一个门控循环单元层以及一个输出层。
示例性的,所述第二神经网络模型包括至少一个卷积层、至少一个循环神经网络层以及一个输出层;或者,
所述第二神经网络模型包括至少一个卷积层以及一个输出层;或者,
所述第二神经网络模型包括至少一个卷积层、至少一个门控循环单元层以及一个输出层。
示例性的,所述分离模块15具体用于:
计算所述第二掩蔽阈值与所述声学特征的乘积,得到所述目标语音帧的源信号的估计值。
示例性的,所述目标语音帧的声学特征包括以下特征中的任意一种:
快速傅里叶变换FFT的幅值谱、梅尔频率倒谱系数MFCC特征、梅尔标度滤波器组FBank特征或者感知线性预测PLP特征。
本实施例提供的装置可用于执行实施例一的方法,具体实现方式和技术效果类似,这里不再赘述。
图5为本发明实施例三提供的一种基于多模型神经网络的语音处理装置的结构示意图,如图5所示,本实施例提供装置包括:处理器21、存储器22和收发器23,所述存储器22用于存储指令,所述收发器23用于和其他设备通信,所述处理器21用于执行所述存储器22中存储的指令,以使所述装置执行如下所述方法:
获取目标语音帧中的声学特征,所述目标语音帧中包括源信号和噪音;
将所述声学特征分别作为N个第一神经网络模型的输入参数,得到N个第一掩蔽阈值,N为大于1的整数,所述N个第一神经网络模型均不同;
将所述声学特征作为第二神经网络模型的输入参数,得到N个权重,所述N个权重与所述N个第一掩蔽阈值一一对应;
根据所述N个权重和所述N个第一掩蔽阈值,得到第二掩蔽阈值;
根据所述第二掩蔽阈值对所述声学特征进行处理,得到所述目标语音帧的源信号的估计值。
示例性的,所述处理器21具体用于:
根据所述N个权重计算所述N个第一掩蔽阈值的加权平均值;
根据所述加权平均值得到所述第二掩蔽阈值。
示例性的,所述处理器21具体用于:
将所述加权平均值和1中的较小者作为所述第二掩蔽阈值。
示例性的,所述处理器21具体用于:
若所述加权平均值小于或等于1,则将所述加权平均值作为所述第二掩蔽阈值;
若所述加权平均值大于1,则计算所述加权平均值与修正因子的乘积,得到所述第二掩蔽阈值,其中,所述修正因子大于0且小于1。
示例性的,所述第一神经网络模型包括至少一个卷积层、至少一个循环神经网络层以及一个输出层;或者,
所述第一神经网络模型包括至少一个卷积层以及一个输出层;或者,
所述第一神经网络模型包括至少一个门控循环单元层以及一个输出层。
示例性的,所述第二神经网络模型包括至少一个卷积层、至少一个循环神经网络层以及一个输出层;或者,
所述第二神经网络模型包括至少一个卷积层以及一个输出层;或者,
所述第二神经网络模型包括至少一个卷积层、至少一个门控循环单元层以及一个输出层。
示例性的,所述处理器21具体用于:
计算所述第二掩蔽阈值与所述声学特征的乘积,得到所述目标语音帧的源信号的估计值。
示例性的,所述目标语音帧的声学特征包括以下特征中的任意一种:
快速傅里叶变换FFT的幅值谱、梅尔频率倒谱系数MFCC特征、梅尔标度滤波器组FBank特征或者感知线性预测PLP特征。
本实施例提供的装置可用于执行实施例一的方法,具体实现方式和技术效果类似,这里不再赘述。
本发明实施例四提供一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被执行时,使得计算机执行如本发明第一方面所述的方法。
应理解,本发明中涉及的处理器可以是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:只读存储器(英文:read-only memory,缩写:ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(英文:magnetictape)、软盘(英文:floppy disk)、光盘(英文:opticaldisc)及其任意组合。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (17)
1.一种基于多模型神经网络的语音处理方法,其特征在于,包括:
获取目标语音帧中的声学特征,所述目标语音帧中包括源信号和噪音;
将所述声学特征分别作为N个第一神经网络模型的输入参数,得到N个第一掩蔽阈值,N为大于1的整数,所述N个第一神经网络模型均不同;
将所述声学特征作为第二神经网络模型的输入参数,得到N个权重,所述N个权重与所述N个第一掩蔽阈值一一对应;
根据所述N个权重和所述N个第一掩蔽阈值,得到第二掩蔽阈值;
根据所述第二掩蔽阈值对所述声学特征进行处理,得到所述目标语音帧的源信号的估计值;
所述根据所述N个权重和所述N个第一掩蔽阈值,得到第二掩蔽阈值,包括:
根据所述N个权重计算所述N个第一掩蔽阈值的加权平均值;
根据所述加权平均值得到所述第二掩蔽阈值。
2.根据权利要求1所述的方法,其特征在于,所述根据所述加权平均值得到所述第二掩蔽阈值,包括:
将所述加权平均值和1中的较小者作为所述第二掩蔽阈值。
3.根据权利要求1所述的方法,其特征在于,所述根据所述加权平均值得到所述第二掩蔽阈值,包括:
若所述加权平均值小于或等于1,则将所述加权平均值作为所述第二掩蔽阈值;
若所述加权平均值大于1,则计算所述加权平均值与修正因子的乘积,得到所述第二掩蔽阈值,其中,所述修正因子大于0且小于1。
4.根据权利要求1-3任一项所述的方法,其特征在于,
所述第一神经网络模型包括至少一个卷积层、至少一个循环神经网络层以及一个输出层;或者,
所述第一神经网络模型包括至少一个卷积层以及一个输出层;或者,
所述第一神经网络模型包括至少一个门控循环单元层以及一个输出层。
5.根据权利要求1-3任一项所述的方法,其特征在于,
所述第二神经网络模型包括至少一个卷积层、至少一个循环神经网络层以及一个输出层;或者,
所述第二神经网络模型包括至少一个卷积层以及一个输出层;或者,
所述第二神经网络模型包括至少一个卷积层、至少一个门控循环单元层以及一个输出层。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述第二掩蔽阈值对所述声学特征进行处理,得到所述目标语音帧的源信号的估计值,包括:
计算所述第二掩蔽阈值与所述声学特征的乘积,得到所述目标语音帧的源信号的估计值。
7.根据权利要求1所述的方法,其特征在于,所述目标语音帧的声学特征包括以下特征中的任意一种:
快速傅里叶变换FFT的幅值谱、梅尔频率倒谱系数MFCC特征、梅尔标度滤波器组FBank特征或者感知线性预测PLP特征。
8.一种基于多模型神经网络的语音处理装置,其特征在于,包括:
获取模块,用于获取目标语音帧中的声学特征,所述目标语音帧中包括源信号和噪音;
第一训练模块,用于将所述声学特征分别作为N个第一神经网络模型的输入参数,得到N个第一掩蔽阈值,N为大于1的整数,所述N个第一神经网络模型均不同;
第二训练模块,用于将所述声学特征作为第二神经网络模型的输入参数,得到N个权重,所述N个权重与所述N个第一掩蔽阈值一一对应;
融合模块,用于根据所述N个权重和所述N个第一掩蔽阈值,得到第二掩蔽阈值;
分离模块,用于根据所述第二掩蔽阈值对所述声学特征进行处理,得到所述目标语音帧的源信号的估计值;
所述融合模块具体用于:
根据所述N个权重计算所述N个第一掩蔽阈值的加权平均值;
根据所述加权平均值得到所述第二掩蔽阈值。
9.根据权利要求8所述的装置,其特征在于,所述融合模块具体用于:
将所述加权平均值和1中的较小者作为所述第二掩蔽阈值。
10.根据权利要求8所述的装置,其特征在于,所述融合模块具体用于:
若所述加权平均值小于或等于1,则将所述加权平均值作为所述第二掩蔽阈值;
若所述加权平均值大于1,则计算所述加权平均值与修正因子的乘积,得到所述第二掩蔽阈值,其中,所述修正因子大于0且小于1。
11.根据权利要求8-10任一项所述的装置,其特征在于,
所述第一神经网络模型包括至少一个卷积层、至少一个循环神经网络层以及一个输出层;或者,
所述第一神经网络模型包括至少一个卷积层以及一个输出层;或者,
所述第一神经网络模型包括至少一个门控循环单元层以及一个输出层。
12.根据权利要求8-10任一项所述的装置,其特征在于,
所述第二神经网络模型包括至少一个卷积层、至少一个循环神经网络层以及一个输出层;或者,
所述第二神经网络模型包括至少一个卷积层以及一个输出层;或者,
所述第二神经网络模型包括至少一个卷积层、至少一个门控循环单元层以及一个输出层。
13.根据权利要求8-10任一项所述的装置,其特征在于,所述分离模块具体用于:
计算所述第二掩蔽阈值与所述声学特征的乘积,得到所述目标语音帧的源信号的估计值。
14.根据权利要求8所述的装置,其特征在于,所述目标语音帧的声学特征包括以下特征中的任意一种:
快速傅里叶变换FFT的幅值谱、梅尔频率倒谱系数MFCC特征、梅尔标度滤波器组FBank特征或者感知线性预测PLP特征。
15.一种基于多模型神经网络的语音处理装置,其特征在于,包括:处理器、存储器和收发器,所述存储器用于存储指令,所述收发器用于和其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述装置执行如下方法:
获取目标语音帧中的声学特征,所述目标语音帧中包括源信号和噪音;
将所述声学特征分别作为N个第一神经网络模型的输入参数,得到N个第一掩蔽阈值,N为大于1的整数,所述N个第一神经网络模型均不同;
将所述声学特征作为第二神经网络模型的输入参数,得到N个权重,所述N个权重与所述N个第一掩蔽阈值一一对应;
根据所述N个权重和所述N个第一掩蔽阈值,得到第二掩蔽阈值;
根据所述第二掩蔽阈值对所述声学特征进行处理,得到所述目标语音帧的源信号的估计值;
所述处理器具体用于:
根据所述N个权重计算所述N个第一掩蔽阈值的加权平均值;
根据所述加权平均值得到所述第二掩蔽阈值。
16.根据权利要求15所述的装置,其特征在于,所述处理器具体用于:
将所述加权平均值和1中的较小者作为所述第二掩蔽阈值。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被执行时,使得计算机执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810990242.8A CN109036460B (zh) | 2018-08-28 | 2018-08-28 | 基于多模型神经网络的语音处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810990242.8A CN109036460B (zh) | 2018-08-28 | 2018-08-28 | 基于多模型神经网络的语音处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109036460A CN109036460A (zh) | 2018-12-18 |
CN109036460B true CN109036460B (zh) | 2020-01-07 |
Family
ID=64624882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810990242.8A Active CN109036460B (zh) | 2018-08-28 | 2018-08-28 | 基于多模型神经网络的语音处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109036460B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584903B (zh) * | 2018-12-29 | 2021-02-12 | 中国科学院声学研究所 | 一种基于深度学习的多人语音分离方法 |
CN110491404B (zh) * | 2019-08-15 | 2020-12-22 | 广州华多网络科技有限公司 | 语音处理方法、装置、终端设备及存储介质 |
CN111126199B (zh) * | 2019-12-11 | 2023-05-30 | 复旦大学 | 基于回波测量数据的信号特征提取与数据挖掘方法 |
CN113053400B (zh) * | 2019-12-27 | 2024-06-07 | 武汉Tcl集团工业研究院有限公司 | 音频信号降噪模型的训练方法、音频信号降噪方法及设备 |
CN111105809B (zh) * | 2019-12-31 | 2022-03-22 | 云知声智能科技股份有限公司 | 一种降噪方法及装置 |
CN111354371B (zh) * | 2020-02-26 | 2022-08-05 | Oppo广东移动通信有限公司 | 交通工具运行状态的预测方法、装置、终端及存储介质 |
US11678120B2 (en) * | 2020-05-14 | 2023-06-13 | Nvidia Corporation | Audio noise determination using one or more neural networks |
CN111667842B (zh) * | 2020-06-10 | 2023-10-31 | 北京达佳互联信息技术有限公司 | 音频信号处理方法及装置 |
CN112669870B (zh) * | 2020-12-24 | 2024-05-03 | 北京声智科技有限公司 | 语音增强模型的训练方法、装置和电子设备 |
CN114495974B (zh) * | 2022-02-18 | 2024-02-23 | 腾讯科技(深圳)有限公司 | 音频信号处理方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886863A (zh) * | 2012-12-20 | 2014-06-25 | 杜比实验室特许公司 | 音频处理设备及音频处理方法 |
US10733505B2 (en) * | 2016-11-10 | 2020-08-04 | Google Llc | Performing kernel striding in hardware |
CN107301864B (zh) * | 2017-08-16 | 2020-12-22 | 重庆邮电大学 | 一种基于Maxout神经元的深度双向LSTM声学模型 |
CN107680611B (zh) * | 2017-09-13 | 2020-06-16 | 电子科技大学 | 基于卷积神经网络的单通道声音分离方法 |
CN107845389B (zh) * | 2017-12-21 | 2020-07-17 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
-
2018
- 2018-08-28 CN CN201810990242.8A patent/CN109036460B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109036460A (zh) | 2018-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109036460B (zh) | 基于多模型神经网络的语音处理方法和装置 | |
US10504539B2 (en) | Voice activity detection systems and methods | |
CN110634497B (zh) | 降噪方法、装置、终端设备及存储介质 | |
CN107004409B (zh) | 利用运行范围归一化的神经网络语音活动检测 | |
CN108877823B (zh) | 语音增强方法和装置 | |
CN111418010A (zh) | 一种多麦克风降噪方法、装置及终端设备 | |
CN114175144A (zh) | 用于训练声学模型的每一代的数据增强 | |
JPH0916194A (ja) | 音声信号の雑音低減方法 | |
JP2000515987A (ja) | 音声活性度検出器 | |
MX2011001339A (es) | Aparato y metodo para procesar una señal de audio para mejora de habla, utilizando una extraccion de caracteristica. | |
CN101593522A (zh) | 一种全频域数字助听方法和设备 | |
CN108806707B (zh) | 语音处理方法、装置、设备及存储介质 | |
CN108922517A (zh) | 训练盲源分离模型的方法、装置及存储介质 | |
CN109979478A (zh) | 语音降噪方法及装置、存储介质及电子设备 | |
CN111508519A (zh) | 一种音频信号人声增强的方法及装置 | |
Ma et al. | Perceptual Kalman filtering for speech enhancement in colored noise | |
CN115359804A (zh) | 一种基于麦克风阵列的定向音频拾取方法和系统 | |
CN109841223B (zh) | 一种音频信号处理方法、智能终端及存储介质 | |
RU2616534C2 (ru) | Ослабление шума при передаче аудиосигналов | |
CN113838471A (zh) | 基于神经网络的降噪方法、系统、电子设备及存储介质 | |
CN108899041B (zh) | 语音信号加噪方法、装置及存储介质 | |
CN114127846A (zh) | 语音跟踪收听设备 | |
CN106997768A (zh) | 一种语音出现概率的计算方法、装置及电子设备 | |
WO2022150286A1 (en) | Determining dialog quality metrics of a mixed audio signal | |
Uhle et al. | Speech enhancement of movie sound |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |