CN108877823B - 语音增强方法和装置 - Google Patents
语音增强方法和装置 Download PDFInfo
- Publication number
- CN108877823B CN108877823B CN201810841012.5A CN201810841012A CN108877823B CN 108877823 B CN108877823 B CN 108877823B CN 201810841012 A CN201810841012 A CN 201810841012A CN 108877823 B CN108877823 B CN 108877823B
- Authority
- CN
- China
- Prior art keywords
- voice
- neural network
- data
- predetermined
- stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000013528 artificial neural network Methods 0.000 claims abstract description 116
- 230000015654 memory Effects 0.000 claims abstract description 61
- 230000009467 reduction Effects 0.000 claims abstract description 26
- 230000006403 short-term memory Effects 0.000 claims abstract description 14
- 230000007787 long-term memory Effects 0.000 claims abstract description 12
- 230000002708 enhancing effect Effects 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 21
- 238000011478 gradient descent method Methods 0.000 claims description 18
- 210000002569 neuron Anatomy 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 12
- 230000003111 delayed effect Effects 0.000 claims description 10
- 239000000203 mixture Substances 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000003062 neural network model Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000010892 electric spark Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明提供一种语音增强方法和装置,所述语音增强方法包括:接收待增强的语音数据;基于长短期记忆神经网络从所述待增强的语音数据中分离出至少一个语音流;基于时间延迟神经网络从所述至少一个语音流中识别出与预定语音对应的目标语音流;增强所述目标语音流;输出增强后的目标语音流。本发明的语音增强方法和装置,通过长短期记忆神经网络对待增强的语音数据进行分离,再通过时间延迟神经网络从分离的结果中识别出目标语音流,然后仅对目标语音流进行增强,使目标语音清晰化,从而达到降噪的效果,有效提升用户体验。
Description
技术领域
本发明总体说来涉及通信领域,更具体地讲,涉及一种语音增强方法和装置。
背景技术
语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术,其本质就是语音降噪。语音增强涉及的应用领域十分广泛,包括:语音通话、电话会议、场景录音、军事窃听、助听器设备和语音识别设备等。
目前,一般采用以下两种方式进行语音增强:(1)在原始声音的基础上,针对不同类型的噪音直接进行降噪。例如,针对汽车喇叭声、风声、警报声等类型的噪音直接进行降噪。但是,这种语音增强的方法通常难以消除其他人声所造成的影响。(2)对原始声音进行语音识别,然后进行降噪处理。但是,由于原始声音中包含干扰音,会造成语音识别不准确,导致语音增强效果不佳。
发明内容
本发明的目的在于提供一种语音增强方法和装置,可以使目标语音清晰化,从而达到降噪的效果。
本发明的一方面提供一种语音增强方法,包括:所述语音增强方法包括:接收待增强的语音数据;基于长短期记忆神经网络从所述待增强的语音数据中分离出至少一个语音流;基于时间延迟神经网络从所述至少一个语音流中识别出与预定语音对应的目标语音流;增强所述目标语音流;输出增强后的目标语音流。
可选地,所述语音增强方法还包括:注册所述预定语音。
可选地,注册所述预定语音的步骤包括:对所述预定语音进行录音;或者,从预定语音文件中提取所述预定语音。
可选地,所述语音增强方法还包括:对所述长短期记忆神经网络进行训练,其中,对所述长短期记忆神经网络进行训练的步骤包括:从预定声音混合数据中提取声学特征;从提取的声学特征获得特征信息;对所述特征信息进行降维操作;从降维的特征信息中提取帧数据,并通过所述长短期记忆神经网络对提取的帧数据进行计算;当计算结果的损耗值不小于第一预定阈值时,通过梯度下降方法更新所述长短期记忆神经网络的参数,并返回所述计算步骤,直到计算结果的损耗值小于所述第一预定阈值为止。
可选地,通过以下等式对提取的帧数据进行计算:y=wx+b,其中,y为所述长短期记忆神经网络中的当前神经元的值,x为当前时刻的帧数据,w和b表示所述长短期记忆神经网络的参数,其中,w是各个维度的数据与神经元的连接权重,b是偏置。
可选地,所述语音增强方法还包括:对所述时间延迟神经网络进行训练,其中,对所述时间延迟神经网络进行训练的步骤包括:将预定语音流拆分成帧数据;对拆分得到的帧数据进行降维和非线性变换处理;对处理结果进行计算和特征提取,以生成特征矢量数据;对特征矢量数据进行分类,并计算各个类的概率值;将各个类的概率值与对应的预定概率阈值进行比较,以计算损耗值,并且当损耗值不小于第二预定阈值时,通过梯度下降方法更新所述时间延迟神经网络的参数,并返回所述拆分步骤,直到损耗值小于所述第二预定阈值为止。
可选地,基于时间延迟神经网络从所述至少一个语音流中识别出与预定语音对应的目标语音流的步骤包括:使所述至少一个语音流中的每个语音流通过所述时间延迟神经网络,以生成与每个语音流对应的特征矢量数据;当生成的特征矢量数据与所述预定语音的特征矢量数据之间的余弦相似度大于或者等于第三预定阈值时,确定与生成的特征矢量数据对应的语音流为目标语音流。
本发明的另一方面还提供一种语音增强装置,所述语音增强装置包括:存储器,被配置为存储长短期记忆神经网络和时间延迟神经网络;处理器,被配置为:接收待增强的语音数据;基于所述长短期记忆神经网络从所述待增强的语音数据中分离出至少一个语音流;基于所述时间延迟神经网络从所述至少一个语音流中识别出与预定语音对应的目标语音流;增强所述目标语音流;输出增强后的目标语音流。
可选地,所述处理器还被配置为注册所述预定语音。
可选地,所述处理器还被配置为对所述预定语音进行录音或者从预定语音文件中提取所述预定语音。
可选地,所述处理器还被配置为对所述长短期记忆神经网络进行训练,其中,通过以下处理对所述长短期记忆神经网络进行训练:从预定声音混合数据中提取声学特征;从提取的声学特征获得特征信息;对所述特征信息进行降维操作;从降维的特征信息中提取帧数据,并通过所述长短期记忆神经网络对提取的帧数据进行计算;当计算结果的损耗值不小于第一预定阈值时,通过梯度下降方法更新所述长短期记忆神经网络的参数,并返回所述计算步骤,直到计算结果的损耗值小于所述第一预定阈值为止。
可选地,通过以下等式对提取的帧数据进行计算:y=wx+b,其中,y为所述长短期记忆神经网络中的当前神经元的值,x为当前时刻的帧数据,w和b表示所述长短期记忆神经网络的参数,其中,w是各个维度的数据与神经元的连接权重,b是偏置。
可选地,所述处理器还被配置为对所述时间延迟神经网络进行训练,其中,通过以下处理对所述时间延迟神经网络进行训练:将预定语音流拆分成帧数据;对拆分得到的帧数据进行降维和非线性变换处理;对处理结果进行计算和特征提取,以生成特征矢量数据;对特征矢量数据进行分类,并计算各个类的概率值;将各个类的概率值与对应的预定概率阈值进行比较,以计算损耗值,并且当损耗值不小于第二预定阈值时,通过梯度下降方法更新所述时间延迟神经网络的参数,并返回所述拆分步骤,直到损耗值小于所述第二预定阈值为止。
可选地,所述处理器还被配置为:使所述至少一个语音流中的每个语音流通过所述时间延迟神经网络,以生成与每个语音流对应的特征矢量数据;当生成的特征矢量数据与所述预定语音的特征矢量数据之间的余弦相似度大于或者等于第三预定阈值时,确定与生成的特征矢量数据对应的语音流为目标语音流。
本发明的另一方面还提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被处理器执行时实现如上所述的语音增强方法。
本发明的另一方面还提供一种计算装置,包括:处理器和存储器。所述存储器用于存储当被处理器执行使得处理器执行如上所述的语音增强方法的计算机程序。
本发明的语音增强方法和装置,通过长短期记忆神经网络对待增强的语音数据进行分离,再通过时间延迟神经网络从分离的结果中识别出目标语音流,然后仅对目标语音流进行增强,使目标语音清晰化,从而达到降噪的效果,有效提升用户体验。
附图说明
通过下面结合附图进行的详细描述,本发明的上述和其它目的、特点和优点将会变得更加清楚,其中:
图1示出根据本发明的实施例的语音增强方法的流程图;
图2示出根据本发明的实施例的训练长短期记忆神经网络的流程图;
图3示出根据本发明的实施例的长短期记忆神经网络模型的示意图;
图4示出根据本发明的实施例的训练时间延迟神经网络的流程图;
图5示出根据本发明的实施例的时间延迟神经网络模型的示意图;
图6示出根据本发明的实施例的语音增强装置的框图。
具体实施方式
现在,将参照附图更充分地描述不同的示例实施例,其中,一些示例性实施例在附图中示出。
下面参照图1和图6描述根据本发明的实施例的语音增强方法和装置。
图1示出根据本发明的实施例的语音增强方法的流程图。
在步骤S10,接收待增强的语音数据。
作为示例,待增强的语音数据可为受到干扰的语音数据。例如,待增强的语音数据可为混合有噪声和语音的数据,但本发明不限于此。
例如,实际语音遇到的干扰通常可以分以下几类:(1)周期性噪声,例如电气干扰、发动机旋转部分引起的干扰等;(2)冲激噪声,例如电火花、放电产生的噪声干扰等;(3)宽带噪声,例如高斯噪声或白噪声一类的噪声,宽带噪声的特点是频带宽,几乎覆盖整个语音频带;(4)语音干扰,例如话筒中拾入其它人的说话,或者传输时遇到串音引起的语音干扰等。
在步骤S20,基于长短期记忆神经网络(Long Short-Term Memory,LSTM)从待增强的语音数据中分离出至少一个语音流。
也就是说,可通过长短期记忆神经网络对待增强的语音数据进行拆分,分离得到不同的音频流,从而实现高质量的语音分离。不同的音频流可包括至少一个语音流。
在步骤S30,基于时间延迟神经网络(TDNN)从至少一个语音流中识别出与预定语音对应的目标语音流。
在步骤S30的一个实施例中,使至少一个语音流中的每个语音流通过时间延迟神经网络,以生成与每个语音流对应的特征矢量数据(embeddings);当生成的特征矢量数据与预定语音的特征矢量数据(xvector)之间的余弦相似度大于或者等于第三预定阈值时,确定与生成的特征矢量数据对应的语音流为目标语音流,从而达到语音识别的效果。
作为示例,可通过PLDA评分模型对生成的特征矢量数据与预定语音的特征矢量数据进行余弦相似度计算,当计算的余弦相似度大于或者等于第三预定阈值时,可确定与生成的特征矢量数据对应的语音流与预定语音为同一人的语音,从而准确的识别目标人物的语音。
在步骤S40,增强目标语音流。
应当理解,可通过各种能够增强语音的语音增强技术来进行目标语音流的增强,本发明对此不作限定。作为示例,可通过基于谱相减的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法、基于听觉掩蔽效应的语音增强方法、基于独立分量分析的语音增强方法以及基于神经网络的语音增强方法等增强目标语音流。
可以理解,通过将分离得到的不同的音频流中的其他音频流丢弃,使目标语音流不被噪声和/或其他语音干扰,然后通过传统的语音增强技术仅对目标语音流进行增强,有效提高语音清晰度与音量,显著提高语音质量。
在步骤S50,输出增强后的目标语音流。
作为示例,可将增强后的目标语音流输出给用户使用。
此外,所述语音增强方法可还包括:注册预定语音。
应当理解,可采用各种能够注册语音的方法来对预定语音进行注册,本发明对此不作限定。作为示例,可对预定语音进行录音;或者,可从预定语音文件(例如,电话或者视频中的语音)中提取预定语音。
下面描述根据本发明的实施例的语音增强方法的示例。
作为示例,当用户给朋友打电话时,朋友处于比较噪杂的环境中,根据本发明的实施例的语音增强方法可对朋友的语音与环境的背景音进行实时分离,并将朋友的语音进行增强后输出,有效提高通话质量。
作为示例,在录像时,旁边有陌生人说话。根据本发明的实施例的语音增强方法可将陌生人的声音过滤掉,仅输出目标人物的语音,显著提高语音清晰度。
作为示例,亲人通过第三方应用程序发送的语音比较嘈杂。根据本发明的实施例的语音增强方法可过滤掉干扰音,而仅提取亲人的语音单独播放,从而达到降噪的效果,节省了重新录音的过程。
作为示例,用户通过语音助手对移动终端发布指令时,背景音很吵。根据本发明的实施例的语音增强方法可过滤掉背景音,而仅提取用户的语音输入给语音助手,从而显著提高语音清晰度,并提高语音识别的准确率。
此外,所述语音增强方法可还包括:对长短期记忆神经网络进行训练。
作为示例,长短期记忆神经网络训练的模型可包括:输入层、特征提取层、线性变换(Linear)层、长短期记忆神经网络(LSTM)层、输出层和模型保存层。
下面结合图2和图3描述“对长短期记忆神经网络进行训练”的过程。
图2示出根据本发明的实施例的训练长短期记忆神经网络的流程图,图3示出根据本发明的实施例的长短期记忆神经网络模型的示意图。
参照图2和图3,在步骤S201,从预定声音混合数据中提取声学特征。
作为示例,可在输入层从预定声音混合数据中提取声学特征。
作为示例,声学特征可为梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients,MFCC),但本发明不限于此。
在步骤S201的一个实施例中,可对预定声音混合数据进行预加重、分帧和加窗;然后对每一个短时分析窗,通过FFT(快速傅里叶变换)得到对应的频谱;再将得到的频谱通过梅尔(Mel)滤波器组得到梅尔频谱;在梅尔频谱上进行倒谱分析,获得梅尔频率倒谱系数。可以理解,梅尔频率倒谱系数是这帧语音的声学特征。
作为示例,预定声音混合数据可为预先将语音和噪音混合后生成的音频流。噪音可包括:风声、音乐、嗡嗡声、混响、汽车喇叭、风声、动物叫声、摩擦声、机器轰鸣、碰撞声、敲打声等,本发明对此不作限定。
例如,预定声音混合数据可为张三的语音、李四的语音和风声混合后生成的音频流。
在步骤S202,从提取的声学特征获得特征信息。
作为示例,可由黑盒子机器学习模型通过数据对输入的梅尔频率倒谱系数进行处理,抽取出比较重要的核心的特征信息。该抽取获得的特征信息是提供给计算机在进行识别时所使用的特征信息。
可以理解,可在特征提取层从提取的声学特征获得特征信息。
在步骤S203,对特征信息进行降维操作。
应当理解,可通过各种能够降维的算法对特征信息进行降维操作,本发明对此不作限定。
例如,LDA(Linear Discriminant Analysis,也可称为Fisher LinearDiscriminant)是一种有监督的(supervised)线性降维算法。LDA可尽可能地使降维后的数据点容易被区分。假设原始数据表示为X,(m×n矩阵,m是维度,n是样本(sample)的数量)。既然是线性的,那么就是希望找到映射向量a,使得aX后的数据点能够保持以下两种性质:(1)同类的数据点尽可能的接近(within class);(2)不同类的数据点尽可能的分开(between class);经过映射后,原始数据X的维度降低,复杂度减少。
可以理解,可在线性变换层对特征信息进行降维操作,从而减少特征维数,降低计算量,提高运行效率。
在步骤S204,从降维的特征信息中提取帧数据,并通过长短期记忆神经网络对提取的帧数据进行计算。
作为示例,可在长短期记忆神经网络层提取当前时刻的帧数据并进行计算,得到的计算结果分为两个输出流,一个输出给下一个层,另外一个循环输入给本层,与下一个时刻的帧数据结合进行处理。
优选地,通过以下等式一对提取的帧数据进行计算。
等式一:
y=wx+b,
其中,y为长短期记忆神经网络中的当前神经元的值,x为当前时刻的帧数据,w和b表示长短期记忆神经网络的参数,其中,w是各个维度的数据与神经元的连接权重,b是偏置。
在步骤S205,检测计算结果的损耗(loss)值是否小于第一预定阈值。
作为示例,第一预定阈值可表示分离得到的语音与预定语音之间的差距阈值。
在步骤S206,当计算结果的损耗值不小于第一预定阈值时,通过梯度下降方法更新长短期记忆神经网络的参数,并返回步骤S204,直到计算结果的损耗值小于第一预定阈值为止。
可以理解,经过迭代的训练过程后,使得计算结果小于第一预定阈值,此时,长短期记忆神经网络训练完成,可以满足用户的需求。
也就是说,在步骤S207,当计算结果的损耗值小于第一预定阈值时,结束对长短期记忆神经网络进行的训练。在此情况下,可在模型保存层(未示出)将各层的网络结构与对应的参数保存下来,生成最终的训练完成的长短期记忆神经网络模型。
作为示例,可通过梯度下降方法更新长短期记忆神经网络的各个维度的数据与神经元的连接权重以及偏置。
可以理解,可在输出层执行步骤S205至步骤S207。
此外,所述语音增强方法可还包括:对时间延迟神经网络进行训练。
作为示例,时间延迟神经网络训练的模型由操作语音帧的层组成,可包括:帧层(frame-level)、池化层(polling-level)、段层(segment-level)和输出层。
下面结合图4和图5描述“对时间延迟神经网络进行训练”的过程。
图4示出根据本发明的实施例的训练时间延迟神经网络的流程图,图5示出根据本发明的实施例的时间延迟神经网络模型的示意图。
参照图4,在步骤S301,将预定语音流拆分成帧数据。
可以理解,可在帧层将预定语音流拆分成帧数据。
在步骤S302,对拆分得到的帧数据进行降维和非线性变换处理。
可以理解,可在池化层对拆分得到的帧数据进行降维和非线性变换处理,并将处理结果输出给段层。
在步骤S303,对处理结果进行计算和特征提取,以生成特征矢量数据。
可以理解,可在段层对处理结果进行计算和特征提取,生成特征矢量数据,并将特征矢量数据传输给输出层,以进行分类。
在步骤S304,对特征矢量数据进行分类,并计算各个类的概率值。
可以理解,可在输出层对特征矢量数据进行分类,并计算各个类的概率值。
在步骤S305,将各个类的概率值与对应的预定概率阈值进行比较,以计算损耗值。
在步骤S306,检测损耗值是否小于第二预定阈值。
在步骤S307,当损耗值不小于第二预定阈值时,通过梯度下降方法更新所述时间延迟神经网络的参数,并返回步骤S301,直到损耗值小于所述第二预定阈值为止。
也就是说,在步骤S308,当损耗值小于第二预定阈值时,结束对时间延迟神经网络进行的训练。
经过迭代的训练过程后,使得损耗值小于第二预定阈值,此时,时间延迟神经网络模型训练完成。
作为示例,可通过梯度下降方法更新时间延迟神经网络的各个维度的数据与神经元的连接权重以及偏置。
参照图5,作为示例,时间延迟神经网络的前5层在帧层工作,分别为:帧层1、帧层2、帧层3、帧层4和帧层5,具有时延结构。假设t是当前时刻(time step)。在输入端,我们将t-2、t-1、t、t+1和t+2时刻的预定语音流的帧拼接。接下来的两层将上一层的输出分别在{t-2,t,t+2}和{t-3,t,t+3}的帧拼接。接下来的两层也在帧层操作,但是没有附加的时间上下文(temporal context)。总的来说,时间延迟神经网络的帧层部分有一个从t-8到t+8帧的时间上下文。各层的大小不同,输出数据的维数取决于拼接时用到的上下文。将帧层的输出作为输入,在输入段层之前进行聚类,计算其平均值和标准偏差。这些输入段层的统计信息被连接在一起,并传递给其他段层(例如,段层1、段层2和段层3,作为示例,段层可包括具有512维和300维的隐藏层),其中任何一个都可以用来计算特征矢量数据。最后是输出层,该输出层在时间延迟神经网络模型训练完成后不再需要。最终,训练时间延迟神经网络模型的目标是产生特征矢量数据,并且需要特征矢量数据能在整个语音流中捕捉到说话人的特征,而不是在帧层上。因此,池化层之后的任何层都是提取特征矢量数据的合理位置。例如,保留三个段层来提取特征矢量数据。在线性整流函数(ReLU)之后,从下一个段层中提取特征矢量数据与之前的具有不同的表达。当输出的分类结果被计算时,时间延迟神经网络模型就会同时得到表达语音特征的特征矢量数据。
下面结合图6来详细描述本发明的实施例的语音增强装置。
图6示出根据本发明的实施例的语音增强装置的框图。
参照图6,根据本发明的实施例的语音增强装置包括:存储器100和处理器200。
存储器100存储长短期记忆神经网络和时间延迟神经网络。
处理器200接收待增强的语音数据;基于长短期记忆神经网络从待增强的语音数据中分离出至少一个语音流;基于时间延迟神经网络从至少一个语音流中识别出与预定语音对应的目标语音流;增强目标语音流;输出增强后的目标语音流。
作为示例,待增强的语音数据可为受到干扰的语音数据。例如,待增强的语音数据可为混合有噪声和语音的数据,但本发明不限于此。
处理器200可通过长短期记忆神经网络对待增强的语音数据进行拆分,分离得到不同的音频流,从而实现高质量的语音分离。不同的音频流可包括至少一个语音流。
在一个实施例中,处理器200使至少一个语音流中的每个语音流通过时间延迟神经网络,以生成与每个语音流对应的特征矢量数据;当生成的特征矢量数据与预定语音的特征矢量数据之间的余弦相似度大于或者等于第三预定阈值时,确定与生成的特征矢量数据对应的语音流为目标语音流。
作为示例,处理器200可通过PLDA评分模型对生成的特征矢量数据与预定语音的特征矢量数据进行余弦相似度计算。当计算的余弦相似度大于或者等于第三预定阈值时,处理器200可确定与生成的特征矢量数据对应的语音流与预定语音为同一人的语音,从而准确的识别目标人物的语音。
应当理解,处理器200可通过各种能够增强语音的语音增强技术来进行目标语音流的增强,本发明对此不作限定。作为示例,处理器200可通过基于谱相减的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法、基于听觉掩蔽效应的语音增强方法、基于独立分量分析的语音增强方法以及基于神经网络的语音增强方法等增强目标语音流。
可以理解,处理器200通过将分离得到的不同的音频流中的其他音频流丢弃,使目标语音流不被噪声和/或其他语音干扰,然后通过传统的语音增强技术仅对目标语音流进行增强,有效提高语音清晰度与音量,显著提高语音质量。
作为示例,处理器200可将增强后的目标语音流输出给用户使用。
此外,处理器200可还注册预定语音。
应当理解,处理器200可采用各种能够注册语音的方法来对预定语音进行注册,本发明对此不作限定。作为示例,处理器200可对预定语音进行录音;或者,处理器200可从预定语音文件(例如,电话或者视频中的语音)中提取预定语音。
此外,处理器200可对长短期记忆神经网络进行训练。
作为示例,处理器200可通过以下处理对所述长短期记忆神经网络进行训练:从预定声音混合数据中提取声学特征;从提取的声学特征获得特征信息;对所述特征信息进行降维操作;从降维的特征信息中提取帧数据,并通过所述长短期记忆神经网络对提取的帧数据进行计算;当计算结果的损耗值不小于第一预定阈值时,通过梯度下降方法更新所述长短期记忆神经网络的参数,并返回所述计算步骤,直到计算结果的损耗值小于所述第一预定阈值为止。
优选地,处理器200可还通过上述等式一对提取的帧数据进行计算。
作为示例,处理器200可通过梯度下降方法更新长短期记忆神经网络的各个维度的数据与神经元的连接权重以及偏置。
作为示例,预定声音混合数据可为预先将语音和噪音混合后生成的音频流。噪音可包括:风声、音乐、嗡嗡声、混响、汽车喇叭、风声、动物叫声、摩擦声、机器轰鸣、碰撞声、敲打声等,本发明对此不作限定。
作为示例,长短期记忆神经网络训练的模型可包括:输入层、特征提取层、线性变换层、长短期记忆神经网络层、输出层和模型保存层。
可以理解,处理器200可在输入层从预定声音混合数据中提取声学特征,在特征提取层从提取的声学特征获得特征信息,可在线性变换层对特征信息进行降维操作,在长短期记忆神经网络层提取当前时刻的帧数据并进行计算,在输出层对计算结果进行判断。具体地,当计算结果的损耗值不小于第一预定阈值时,通过梯度下降方法更新所述长短期记忆神经网络的参数,并返回所述计算步骤,直到计算结果的损耗值小于所述第一预定阈值为止。
经过迭代的训练过程后,处理器200使得计算结果小于第一预定阈值,此时,处理器200完成对长短期记忆神经网络的训练。
此外,处理器200可还对时间延迟神经网络进行训练。
作为示例,处理器200可通过以下处理对时间延迟神经网络进行训练:将预定语音流拆分成帧数据;对拆分得到的帧数据进行降维和非线性变换处理;对处理结果进行计算和特征提取,以生成特征矢量数据;对特征矢量数据进行分类,并计算各个类的概率值;将各个类的概率值与对应的预定概率阈值进行比较,以计算损耗值,并且当损耗值不小于第二预定阈值时,通过梯度下降方法更新时间延迟神经网络的参数,并返回拆分步骤,直到损耗值小于第二预定阈值为止。
作为示例,处理器200可通过梯度下降方法更新时间延迟神经网络的各个维度的数据与神经元的连接权重以及偏置。
作为示例,时间延迟神经网络训练的模型由操作语音帧的层组成,可包括:帧层、池化层、段层和输出层。
可以理解,处理器200可在帧层将预定语音流拆分成帧数据;可在池化层对拆分得到的帧数据进行降维和非线性变换处理,并将处理结果输出给段层;可在段层对处理结果进行计算和特征提取,生成特征矢量数据,并将特征矢量数据传输给输出层,以进行分类;可在输出层对特征矢量数据进行分类,并计算各个类的概率值,并将各个类的概率值与对应的预定概率阈值进行比较,以计算损耗值,并且当损耗值不小于第二预定阈值时,通过梯度下降方法更新所述时间延迟神经网络的参数,并返回拆分步骤,直到损耗值小于第二预定阈值为止。
经过迭代的训练过程后,处理器200使得损耗值小于第二预定阈值,此时,处理器200完成对时间延迟神经网络的训练。
此外,本发明的实施例的语音增强方法和装置,通过长短期记忆神经网络对待增强的语音数据进行分离,再通过时间延迟神经网络从分离的结果中识别出目标语音流,然后仅对目标语音流进行增强,使目标语音清晰化,从而达到降噪的效果,有效提升用户体验。
根据本发明的实施例还提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被处理器执行时实现如上所述的语音增强方法。
根据本发明的实施例还提供一种计算装置。该计算装置包括处理器和存储器。存储器用于存储当被处理器执行使得处理器执行如上所述的语音增强方法的计算机程序。
此外,应该理解,根据本发明示例性实施例的语音增强装置中的各个单元可被实现硬件组件和/或软件组件。本领域技术人员根据限定的各个单元所执行的处理,可以例如使用现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现各个单元。
尽管已经参照其示例性实施例具体显示和描述了本发明,但是本领域的技术人员应该理解,在不脱离权利要求所限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种改变。
Claims (14)
1.一种语音增强方法,其特征在于,所述语音增强方法包括:
接收待增强的语音数据;
基于长短期记忆神经网络对所述待增强的语音数据进行拆分,以从所述待增强的语音数据中分离出不同的音频流,所述不同的音频流包括至少一个语音流;
基于时间延迟神经网络从所述至少一个语音流中识别出与预定语音对应的目标语音流;
增强所述目标语音流;
输出增强后的目标语音流。
2.如权利要求1所述的语音增强方法,其特征在于,所述语音增强方法还包括:
注册所述预定语音,
其中,注册所述预定语音的步骤包括:
对所述预定语音进行录音;
或者,从预定语音文件中提取所述预定语音。
3.如权利要求1所述的语音增强方法,其特征在于,所述语音增强方法还包括:对所述长短期记忆神经网络进行训练,
其中,对所述长短期记忆神经网络进行训练的步骤包括:
从预定声音混合数据中提取声学特征;
从提取的声学特征获得特征信息;
对所述特征信息进行降维操作;
从降维的特征信息中提取帧数据,并通过所述长短期记忆神经网络对提取的帧数据进行计算;
当计算结果的损耗值不小于第一预定阈值时,通过梯度下降方法更新所述长短期记忆神经网络的参数,并返回所述计算步骤,直到计算结果的损耗值小于所述第一预定阈值为止。
4.如权利要求3所述的语音增强方法,其特征在于,通过以下等式对提取的帧数据进行计算:
y=wx+b,
其中,y为所述长短期记忆神经网络中的当前神经元的值,x为当前时刻的帧数据,w和b表示所述长短期记忆神经网络的参数,其中,w是各个维度的数据与神经元的连接权重,b是偏置。
5.如权利要求1所述的语音增强方法,其特征在于,所述语音增强方法还包括:对所述时间延迟神经网络进行训练,
其中,对所述时间延迟神经网络进行训练的步骤包括:
将预定语音流拆分成帧数据;
对拆分得到的帧数据进行降维和非线性变换处理;
对处理结果进行计算和特征提取,以生成特征矢量数据;
对特征矢量数据进行分类,并计算各个类的概率值;
将各个类的概率值与对应的预定概率阈值进行比较,以计算损耗值,并且当损耗值不小于第二预定阈值时,通过梯度下降方法更新所述时间延迟神经网络的参数,并返回所述拆分步骤,直到损耗值小于所述第二预定阈值为止。
6.如权利要求1所述的语音增强方法,其特征在于,基于时间延迟神经网络从所述至少一个语音流中识别出与预定语音对应的目标语音流的步骤包括:
使所述至少一个语音流中的每个语音流通过所述时间延迟神经网络,以生成与每个语音流对应的特征矢量数据;
当生成的特征矢量数据与所述预定语音的特征矢量数据之间的余弦相似度大于或者等于第三预定阈值时,确定与生成的特征矢量数据对应的语音流为目标语音流。
7.一种语音增强装置,其特征在于,所述语音增强装置包括:
存储器,被配置为存储长短期记忆神经网络和时间延迟神经网络;
处理器,被配置为:接收待增强的语音数据;基于所述长短期记忆神经网络对所述待增强的语音数据进行拆分,以从所述待增强的语音数据中分离出不同的音频流,所述不同的音频流包括至少一个语音流;基于所述时间延迟神经网络从所述至少一个语音流中识别出与预定语音对应的目标语音流;增强所述目标语音流;输出增强后的目标语音流。
8.如权利要求7所述的语音增强装置,其特征在于,所述处理器还被配置为注册所述预定语音,
其中,所述处理器还被配置为对所述预定语音进行录音或者从预定语音文件中提取所述预定语音。
9.如权利要求7所述的语音增强装置,其特征在于,所述处理器还被配置为对所述长短期记忆神经网络进行训练,
其中,通过以下处理对所述长短期记忆神经网络进行训练:
从预定声音混合数据中提取声学特征;
从提取的声学特征获得特征信息;
对所述特征信息进行降维操作;
从降维的特征信息中提取帧数据,并通过所述长短期记忆神经网络对提取的帧数据进行计算;
当计算结果的损耗值不小于第一预定阈值时,通过梯度下降方法更新所述长短期记忆神经网络的参数,并返回所述计算步骤,直到计算结果的损耗值小于所述第一预定阈值为止。
10.如权利要求9所述的语音增强装置,其特征在于,通过以下等式对提取的帧数据进行计算:
y=wx+b,
其中,y为所述长短期记忆神经网络中的当前神经元的值,x为当前时刻的帧数据,w和b表示所述长短期记忆神经网络的参数,其中,w是各个维度的数据与神经元的连接权重,b是偏置。
11.如权利要求7所述的语音增强装置,其特征在于,所述处理器还被配置为对所述时间延迟神经网络进行训练,
其中,通过以下处理对所述时间延迟神经网络进行训练:
将预定语音流拆分成帧数据;
对拆分得到的帧数据进行降维和非线性变换处理;
对处理结果进行计算和特征提取,以生成特征矢量数据;
对特征矢量数据进行分类,并计算各个类的概率值;
将各个类的概率值与对应的预定概率阈值进行比较,以计算损耗值,并且当损耗值不小于第二预定阈值时,通过梯度下降方法更新所述时间延迟神经网络的参数,并返回所述拆分步骤,直到损耗值小于所述第二预定阈值为止。
12.如权利要求7所述的语音增强装置,其特征在于,所述处理器还被配置为:
使所述至少一个语音流中的每个语音流通过所述时间延迟神经网络,以生成与每个语音流对应的特征矢量数据;
当生成的特征矢量数据与所述预定语音的特征矢量数据之间的余弦相似度大于或者等于第三预定阈值时,确定与生成的特征矢量数据对应的语音流为目标语音流。
13.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被处理器执行时实现如权利要求1至6中的任意一项所述的语音增强方法。
14.一种计算装置,其特征在于,包括:
处理器;
存储器,用于存储当被处理器执行使得处理器执行如权利要求1至6中任意一项所述的语音增强方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810841012.5A CN108877823B (zh) | 2018-07-27 | 2018-07-27 | 语音增强方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810841012.5A CN108877823B (zh) | 2018-07-27 | 2018-07-27 | 语音增强方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108877823A CN108877823A (zh) | 2018-11-23 |
CN108877823B true CN108877823B (zh) | 2020-12-18 |
Family
ID=64305702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810841012.5A Active CN108877823B (zh) | 2018-07-27 | 2018-07-27 | 语音增强方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108877823B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859767B (zh) * | 2019-03-06 | 2020-10-13 | 哈尔滨工业大学(深圳) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 |
CN111988704B (zh) * | 2019-05-21 | 2021-10-22 | 北京小米移动软件有限公司 | 声音信号处理方法、装置以及存储介质 |
CN111988705B (zh) * | 2019-05-21 | 2023-01-03 | 北京小米移动软件有限公司 | 音频处理方法、装置、终端及存储介质 |
CN110534123B (zh) * | 2019-07-22 | 2022-04-01 | 中国科学院自动化研究所 | 语音增强方法、装置、存储介质、电子设备 |
CN110648680B (zh) * | 2019-09-23 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 语音数据的处理方法、装置、电子设备及可读存储介质 |
CN110491406B (zh) * | 2019-09-25 | 2020-07-31 | 电子科技大学 | 一种多模块抑制不同种类噪声的双噪声语音增强方法 |
CN110992974B (zh) * | 2019-11-25 | 2021-08-24 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN111583947A (zh) * | 2020-04-30 | 2020-08-25 | 厦门快商通科技股份有限公司 | 一种语音增强方法和装置以及设备 |
CN111599371B (zh) * | 2020-05-19 | 2023-10-20 | 苏州奇梦者网络科技有限公司 | 语音增加方法、系统、装置及存储介质 |
CN113327616A (zh) * | 2021-06-02 | 2021-08-31 | 广东电网有限责任公司 | 声纹识别方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034472A (zh) * | 2009-09-28 | 2011-04-27 | 戴红霞 | 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法 |
CN103219011A (zh) * | 2012-01-18 | 2013-07-24 | 联想移动通信科技有限公司 | 降噪方法、装置与通信终端 |
WO2016208789A1 (ko) * | 2015-06-26 | 2016-12-29 | 삼성전자 주식회사 | 소리를 판별하는 방법 및 이를 위한 장치 |
CN106653056A (zh) * | 2016-11-16 | 2017-05-10 | 中国科学院自动化研究所 | 基于lstm循环神经网络的基频提取模型及训练方法 |
CN106971741A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
JP2018031910A (ja) * | 2016-08-25 | 2018-03-01 | 日本電信電話株式会社 | 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808659A (zh) * | 2017-12-02 | 2018-03-16 | 宫文峰 | 智能语音信号模式识别系统装置 |
-
2018
- 2018-07-27 CN CN201810841012.5A patent/CN108877823B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034472A (zh) * | 2009-09-28 | 2011-04-27 | 戴红霞 | 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法 |
CN103219011A (zh) * | 2012-01-18 | 2013-07-24 | 联想移动通信科技有限公司 | 降噪方法、装置与通信终端 |
WO2016208789A1 (ko) * | 2015-06-26 | 2016-12-29 | 삼성전자 주식회사 | 소리를 판별하는 방법 및 이를 위한 장치 |
CN106971741A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
JP2018031910A (ja) * | 2016-08-25 | 2018-03-01 | 日本電信電話株式会社 | 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置 |
CN106653056A (zh) * | 2016-11-16 | 2017-05-10 | 中国科学院自动化研究所 | 基于lstm循环神经网络的基频提取模型及训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108877823A (zh) | 2018-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108877823B (zh) | 语音增强方法和装置 | |
US11488605B2 (en) | Method and apparatus for detecting spoofing conditions | |
CN109065067B (zh) | 一种基于神经网络模型的会议终端语音降噪方法 | |
US10622009B1 (en) | Methods for detecting double-talk | |
AU2017327003B2 (en) | Channel-compensated low-level features for speaker recognition | |
Gabbay et al. | Seeing through noise: Visually driven speaker separation and enhancement | |
CN110956957B (zh) | 语音增强模型的训练方法及系统 | |
US10360905B1 (en) | Robust audio identification with interference cancellation | |
CN111128214B (zh) | 音频降噪方法、装置、电子设备及介质 | |
CN109036460B (zh) | 基于多模型神经网络的语音处理方法和装置 | |
Gabbay et al. | Seeing through noise: Speaker separation and enhancement using visually-derived speech | |
CN113921026A (zh) | 语音增强方法和装置 | |
CN110556114B (zh) | 基于注意力机制的通话人识别方法及装置 | |
Zheng et al. | Spectra restoration of bone-conducted speech via attention-based contextual information and spectro-temporal structure constraint | |
EP3516652A1 (en) | Channel-compensated low-level features for speaker recognition | |
WO2020015546A1 (zh) | 一种远场语音识别方法、语音识别模型训练方法和服务器 | |
Upadhyay et al. | Robust recognition of English speech in noisy environments using frequency warped signal processing | |
Anderson et al. | Robust tri-modal automatic speech recognition for consumer applications | |
CN110049409B (zh) | 用于全息影像的动态立体声调节方法及装置 | |
CN112118511A (zh) | 耳机降噪方法、装置、耳机及计算机可读存储介质 | |
Kim et al. | Spectral distortion model for training phase-sensitive deep-neural networks for far-field speech recognition | |
Singh et al. | A novel algorithm using MFCC and ERB gammatone filters in speech recognition | |
CN112201262B (zh) | 一种声音处理方法及装置 | |
CN108632692B (zh) | 一种麦克风设备的智能控制方法及麦克风设备 | |
WO2022068675A1 (zh) | 发声者语音抽取方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |