CN112767959A - 语音增强方法、装置、设备及介质 - Google Patents

语音增强方法、装置、设备及介质 Download PDF

Info

Publication number
CN112767959A
CN112767959A CN202011635949.0A CN202011635949A CN112767959A CN 112767959 A CN112767959 A CN 112767959A CN 202011635949 A CN202011635949 A CN 202011635949A CN 112767959 A CN112767959 A CN 112767959A
Authority
CN
China
Prior art keywords
signal
target
frequency domain
voice
domain signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011635949.0A
Other languages
English (en)
Other versions
CN112767959B (zh
Inventor
梁彧
傅强
马多佳
田野
杨满智
蔡琳
王杰
金红
陈晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eversec Beijing Technology Co Ltd
Original Assignee
Eversec Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eversec Beijing Technology Co Ltd filed Critical Eversec Beijing Technology Co Ltd
Priority to CN202011635949.0A priority Critical patent/CN112767959B/zh
Publication of CN112767959A publication Critical patent/CN112767959A/zh
Application granted granted Critical
Publication of CN112767959B publication Critical patent/CN112767959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明实施例公开了一种语音增强方法、装置、设备及介质。该方法包括:获取目标含噪语音信号并对其进行短时傅里叶变换,得到与目标含噪语音信号对应的目标频域信号;将目标频域信号当前信号帧的目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,得到与目标频域信号当前信号帧对应的编码特征;将编码特征、语音噪声抑制模型中的解码器输出的目标频域信号当前信号帧的前一个信号帧对应的解码特征,输入解码器中,得到与目标频域信号当前信号帧对应的解码特征;将与目标频域信号各个信号帧对应的解码特征进行信号重构,得到与目标含噪语音信号对应的目标增强语音信号。上述技术方案可以提高语音增强效果,减少计算时间和计算成本。

Description

语音增强方法、装置、设备及介质
技术领域
本发明实施例涉及信号处理技术领域,尤其涉及一种语音增强方法、装置、设备及介质。
背景技术
语音增强的任务是最大化语音信号的感知质量,抑制背景噪声的干扰。语音增强技术普遍是基于语音信号的频域信号或语音信号的信号特征进行的,在传统的方法中,语音增强使用的方法主要包括:谱减法、维纳滤波法、基于统计特征的最小二次均方法和子空间算法等,这些算法中的大多数算法处理的噪音类型的条件有限,并依赖于一阶统计特性。为了规避这些算法中的局限性,深层网络已经被越来越多地应用在噪声抑制问题中。
目前,深层网络的方法主要集中在生成式对抗网络(Generative AdversarialNetwork,GAN)方面,例如语音增强生成式对抗网络(Speech Enhancement GenerativeAdversarial Network,SEGAN),它由生成器和判别器组成,生成器的目的在于迷惑判别器,而判别器的目的在于不被生成器迷惑,生成器是通过与辨别器的对抗训练来学习映射关系的。在SEGAN中,生成器输入的是带噪的语音信号,输出的是干净的语音信号,判别器的输入是生成器输出的干净的语音信号及原始的干净的语音信号,输出的是对输入语音的二分类,SEGAN将生成器作为语音增强网络,通过判别器来区分原始干净的语音信号和增强后的语音信号。在语音增强应用中,还可以采用其他的深度网络,例如,卷积神经网络(Convolutional Neural Network,CNN)、深度神经网络(Deep Neural Networks,DNN)和循环神经网络(Recurrent Neural Network,RNN)等,但是CNN和DNN只能对语音信号对应的频域信号逐帧进行处理,导致语音增强效果不够理想,而由于语音信号本身具有数据量较大的特性,使得RNN和GAN方法又受限于递归计算,无法并行计算而造成计算时间较长且计算成本大的问题。因此,如何提高语音增强效果,减少计算时间和计算成本,是亟待解决的问题。
发明内容
本发明实施例提供一种语音增强方法、装置、设备及介质,以提高语音增强效果,减少计算时间和计算成本。
第一方面,本发明实施例提供了一种语音增强方法,包括:
获取目标含噪语音信号,对所述目标含噪语音信号进行短时傅里叶变换,得到与所述目标含噪语音信号对应的目标频域信号;
将所述目标频域信号当前信号帧的目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,得到与所述目标频域信号当前信号帧对应的编码特征;
将所述编码特征、所述语音噪声抑制模型中的解码器输出的所述目标频域信号当前信号帧的前一个信号帧对应的解码特征,输入所述解码器中,得到与所述目标频域信号当前信号帧对应的解码特征;
将与所述目标频域信号各个信号帧对应的解码特征进行信号重构,得到与所述目标含噪语音信号对应的目标增强语音信号。
第二方面,本发明实施例还提供了一种语音增强装置,包括:
目标频域信号生成模块,设置为获取目标含噪语音信号,对所述目标含噪语音信号进行短时傅里叶变换,得到与所述目标含噪语音信号对应的目标频域信号;
编码特征生成模块,设置为将所述目标频域信号当前信号帧的目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,得到与所述目标频域信号当前信号帧对应的编码特征;
解码特征生成模块,设置为将所述编码特征、所述语音噪声抑制模型中的解码器输出的所述目标频域信号当前信号帧的前一个信号帧对应的解码特征,输入所述解码器中,得到与所述目标频域信号当前信号帧对应的解码特征;
目标增强语音信号生成模块,设置为将与所述目标频域信号各个信号帧对应的解码特征进行信号重构,得到与所述目标含噪语音信号对应的目标增强语音信号。
第三方面,本发明实施例还提供了一种计算机/终端设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任意实施例所述的语音增强方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的语音增强方法。
本发明实施例提供的技术方案中,首先将获取到的目标含噪语音信号进行短时傅里叶变换,得到与之对应的目标频域信号,然后将目标频域信号当前信号帧的目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,得到与目标频域信号当前信号帧对应的编码特征,再将编码特征、语音噪声抑制模型中的解码器输出的目标频域信号当前信号帧的前一个信号帧对应的解码特征,输入解码器中,得到与目标频域信号当前信号帧对应的解码特征,最终将与目标频域信号各个信号帧对应的解码特征进行信号重构,从而得到与目标含噪语音信号对应的目标增强语音信号,通过在语音增强过程中引入频域信号当前信号帧的前一个信号帧,实现了将含噪语音信号在频域中的前后信号帧进行关联,以此提高了语音增强效果,并且可以通过语音噪声抑制模型中的编码器和解码器对含噪语音信号对应的频域信号并行计算,减少了计算时间和计算成本。
附图说明
图1a是本发明实施例一中的一种语音增强方法的流程示意图;
图1b是本发明实施例一中的一种生成编码特征的流程示意图;
图1c是本发明实施例一中的一种生成解码特征的流程示意图;
图2a是本发明实施例二中的一种语音增强方法的流程示意图;
图2b是本发明实施例二中的一种语音噪声抑制模型训练的流程示意图;
图3是本发明实施例三中的一种语音增强装置的结构示意图;
图4是本发明实施例四中的一种计算机设备的硬件结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1a是本发明实施例一提供的一种语音增强方法的流程图,本发明实施例可适用于基于引入注意力机制的语音噪声抑制模型对含噪语音信号进行语音增强处理的情况,该方法可以由本发明实施例提供的语音增强装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在计算机设备中,如车载终端设备。
如图1a所示,本实施例提供的语音增强方法,具体包括:
S110、获取目标含噪语音信号,对目标含噪语音信号进行短时傅里叶变换,得到与目标含噪语音信号对应的目标频域信号。
目标含噪语音信号,指的是含有噪声的待进行语音增强的语音信号。其中,语音信号中含有的噪声一般可以是来自周围环境中的噪声干扰或其他任意类型的噪声干扰,本发明对此不做具体限制。
短时傅里叶变换(Short-Time Fourier Transform,STFT)是一种常用的时频分析方法,它是与傅里叶变换相关的一种数学变换,可以通过时间窗内的一段信号来表示某一时刻的信号特征,以确定时变信号的频率与相位。短时傅里叶变换就是先将一个函数和窗函数进行相乘,然后再进行一维的傅里叶变换,可以通过公式
Figure BDA0002881108020000061
表示,其中,x(m)为输入信号,w(m)为窗函数。在本发明实施例中,窗函数可以采用汉宁(Hanning)窗函数,设置窗长为256个采样周期,窗移动步长为128个采样周期。
目标频域信号,指的是将目标含噪语音信号进行短时傅里叶变换后,将目标含噪语音信号从时域转换为频域所对应的信号。
在获取目标含噪语音信号后,对目标含噪语音信号进行短时傅里叶变换,将其由时域转换为频域,从而得到与目标含噪语音信号对应的目标频域信号。
S120、将目标频域信号当前信号帧的目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,得到与目标频域信号当前信号帧对应的编码特征。
信号帧,指的是将目标含噪语音信号进行短时傅里叶变换后得到的与目标含噪语音信号对应的目标频域信号中每一个采样周期所对应的频域信号。当前信号帧就是指当前正在被语音噪声抑制模型进行语音增强处理的目标频域信号中的一帧数据。
目标特征,指的是与目标含噪语音信号对应的目标频域信号当前信号帧的频域特征。
语音噪声抑制模型,指的是用于对含噪语音进行噪声抑制、语音增强的模型,以此可以对含噪语音中的噪声进行处理,从而获得增强语音信号。在本发明实施例中,语音噪声抑制模型可以由编码器和解码器组成,其中,编码器和解码器中分别可以包括自注意力层和前馈神经网络。
通过编码器可以将输入的目标频域信号当前信号帧的目标特征重构获得与目标频域信号当前信号帧对应的编码特征,并输出该编码特征。其中,所谓编码特征就是通过编码器将原始特征数据编码重构后得到的一个新的特征数据。
将目标频域信号当前信号帧的目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,可以得到与目标频域信号当前信号帧对应的编码特征,编码特征即为语音噪声抑制模型中的编码器的输出。
进一步的,将目标频域信号当前信号帧的目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,得到与目标频域信号当前信号帧对应的编码特征,可以包括:将目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,编码器包括第一自注意力层和第一前馈神经网络;在第一自注意力层中,根据目标特征生成查询特征和关键字特征,并根据查询特征和关键字特征计算目标特征的概率分布值,将概率分布值与目标特征的乘积作为第一自注意力层输出特征;在第一前馈神经网络中,根据第一前馈神经网络的参数对第一自注意力层输出特征进行处理,得到第一前馈神经网络输出特征;将第一前馈神经网络输出特征进行归一化处理,得到与目标频域信号当前信号帧对应的编码特征。
自注意力层,指的是引入自注意力机制的一个网络层。其中,自注意力机制可以描述为一个寻址的过程,即给定一个与任务相关的查询(Query)向量,通过计算其与关键字(Key)向量的注意力分布并附加在值(Value)中,从而确定自注意力分布值,自注意力分布值可以用来表示根据某个任务对数据中心各部分的关注程度。在本发明实施例中,引入自注意力机制可以用于确定目标含噪语音信号中有效信号部分和噪声干扰部分所占的权重,对于有效信号部分可以选择较大的权重,而对于噪声干扰部分可以选择较小的权重。第一自注意力层是语音噪声抑制模型中的编码器中的一个引入自注意力机制的网络层,以实现对目标频域信号当前信号帧的目标特征设置相应的权重。
在进行自注意力分布计算以获取目标特征的权重时,首先,根据目标特征生成查询特征和关键字特征,即通过公式Q=Wq*X及K=Wk*X分别计算出查询特征Q和关键字特征K,其中Wq和Wk分别表示预设的查询矩阵和关键字矩阵,X表示目标特征;然后,根据查询特征和关键字特征计算目标特征的概率分布值,其中,概率分布值相当于目标特征的自注意分布值,根据概率分布值可以确定目标特征的权重;最后,可以将计算获得的概率分布值与目标特征的乘积作为第一自注意力层输出特征,获得的第一自注意力层输出特征可以看做对输入的目标频域信号当前信号帧的目标特征进行了加权平均。
前馈神经网络,是人工神经网络的一种,在前馈神经网络中,各输入数据从输入层开始,接收前一级输入并输入至下一级,直至输出层输出数据,整个前馈神经网络中没有反馈通道。第一前馈神经网络是语音噪声抑制模型中的编码器中的一个前馈神经网络,以实现对第一自注意力层输出的特征进行处理,从而获得第一前馈神经网络输出特征。
归一化处理,指的是将数据映射至(0,1)区间范围内进行处理。在本发明实施例中,归一化处理可以采用Softmax激活函数。
在第一前馈神经网络中,根据第一前馈神经网络的参数对第一自注意力层输出特征H进行处理,可以得到第一前馈神经网络输出特征(W*H+b),其中,W和b分别表示第一前馈神经网络中的权重矩阵和偏置向量两个参数,然后将第一前馈神经网络输出特征进行归一化处理,即Outputencoder=Softmax(W*H+b),从而得到与目标频域信号当前信号帧对应的编码特征。
在将目标频域信号当前信号帧的目标特征输入预先训练得到的语音噪声抑制模型中的包含第一自注意力层和第一前馈神经网络的编码器中时,首先在第一自注意力层中,根据目标特征生成查询特征和关键字特征,并根据查询特征和关键字特征计算目标特征的概率分布值,以此可以确定目标特征的权重,进而将概率分布值与目标特征的乘积作为第一自注意力层输出特征;然后在第一前馈神经网络中,根据第一前馈神经网络的参数对第一自注意力层输出特征进行处理,得到第一前馈神经网络输出特征;最后将得到的第一前馈神经网络输出特征通过激活函数进行归一化处理,从而得到与目标频域信号当前信号帧对应的编码特征。
可选的,根据查询特征和关键字特征计算目标特征的概率分布值,可以包括:使用激活函数根据查询特征和关键字特征计算目标特征的概率分布值。
所谓激活函数就是一种在输入的数据上运行的函数,负责将输入的数据映射到输出端。在本发明实施例中,可以选择任一种能将数据进行归一化处理的激活函数,本发明对此不做具体限制。
示例性的,可以选择Softmax激活函数,它可以将数据映射到(0,1)区间范围内,将数据进行归一化处理,并且可以将得到的计算结果看做概率分布值。在本发明实施例中,采用Softmax激活函数对查询特征和关键字特征的乘积进行归一化处理以获取目标特征的概率分布值,即Softmax(Q*K),然后将计算获得的概率分布值与目标特征相乘就可以得到第一自注意力层输出特征,即H=Softmax(Q*K)*X。
使用激活函数根据查询特征和关键字特征计算目标特征的概率分布值,进而可以将概率分布值与目标特征相乘获得第一自注意力层输出特征。
图1b是本发明实施例提供的一种生成编码特征的流程示意图,在一个具体的例子中,如图1b所示,其中,语音噪声抑制模型中的编码器包含第一自注意力层和第一前馈神经网络。将目标频域信号当前信号帧的目标特征X输入预先训练得到的语音噪声抑制模型中的编码器中,首先在第一自注意力层中,根据目标特征X生成查询特征Q和关键字特征K,并根据查询特征Q和关键字特征K计算目标特征的概率分布值Softmax(Q*K),以此可以确定目标特征的权重,进而将概率分布值与目标特征的乘积,即Softmax(Q*K)*X作为第一自注意力层输出特征H;然后在第一前馈神经网络中,根据第一前馈神经网络的参数对第一自注意力层输出特征H进行处理,得到第一前馈神经网络输出特征(W*H+b);最后将得到的第一前馈神经网络输出特征(W*H+b)通过激活函数进行归一化处理Softmax(W*H+b),从而得到与目标频域信号当前信号帧对应的编码特征Outputencoder
S130、将编码特征、语音噪声抑制模型中的解码器输出的目标频域信号当前信号帧的前一个信号帧对应的解码特征,输入解码器中,得到与目标频域信号当前信号帧对应的解码特征。
通过解码器可以将编码特征重构获得解码特征,并输出该解码特征。其中,所谓解码特征就是通过解码器将编码特征重构后得到的一个新的特征数据。
将编码特征、语音噪声抑制模型中的解码器输出的目标频域信号当前信号帧的前一个信号帧对应的解码特征输入解码器中,得到与目标频域信号当前信号帧对应的解码特征,其中由于引入了频域信号当前信号帧的前一个信号帧,因此能够将含噪语音信号在频域中的前后信号帧关联起来,以提高语音增强效果。
需要指出的是,当处理目标频域信号的第一信号帧的特征时,可以将得到的编码特征直接作为解码器的输入,以使第一信号帧的编码特征在语音噪声抑制模型中的解码器中输出,获得与目标频域信号第一信号帧对应的解码特征。
语音噪声抑制模型中的编码器和解码器可以直接对目标频域信号进行分析处理,无需通过其他中间变换手段提取语音信号中的声学特征,即编码器的输出即可作为解码器的输入,将与目标含噪语音信号对应的目标频域信号通过引入注意力机制的端到端语音信号处理方式进行语音增强处理,减少了计算成本与计算时间,提高了计算效率。
进一步的,将编码特征、语音噪声抑制模型中的解码器输出的目标频域信号当前信号帧的前一个信号帧对应的解码特征输入解码器中,得到与目标频域信号当前信号帧对应的解码特征,可以包括:将编码特征、目标频域信号当前信号帧的前一个信号帧对应的解码特征输入解码器中,解码器包括第二自注意力层和第二前馈神经网络;在第二自注意力层中,对编码特征与目标频域信号当前信号帧的前一个信号帧对应的解码特征进行拼接作为目标特征,根据目标特征生成查询特征和关键字特征,并根据查询特征和关键字特征计算目标特征的概率分布值,将概率分布值与目标特征的乘积作为第二自注意力层输出特征;在第二前馈神经网络中,根据第二前馈神经网络的参数对第二自注意力层输出特征进行处理,得到第二前馈神经网络输出特征;将第二前馈神经网络输出特征进行归一化处理,得到与目标频域信号当前信号帧对应的解码特征。
第二自注意力层,指的是语音噪声抑制模型中的解码器中的一个引入自注意力机制的网络层,以实现对编码特征与目标频域信号当前信号帧的前一个信号帧对应的解码特征进行拼接后生成的目标特征设置相应的权重。
拼接,指的是将两个特征向量进行合并,从而生成一个新的特征向量。例如,当两个长度为n的特征向量合并后,可以生成一个长度为2n的新的特征向量。
在进行自注意力分布计算以获取拼接后生成的目标特征的权重时,首先,根据目标特征生成查询特征和关键字特征,即通过公式Q=Wq*X及K=Wk*X分别计算出查询特征Q和关键字特征K,其中Wq和Wk分别表示预设的查询矩阵和关键字矩阵,X表示目标特征;然后,根据查询特征和关键字特征计算目标特征的概率分布值,其中,概率分布值相当于目标特征的自注意分布值,根据概率分布值可以确定目标特征的权重;最后,可以将计算获得的概率分布值与目标特征的乘积作为第二自注意力层输出特征,获得的第二自注意力层输出特征可以看做对输入的拼接后生成的目标特征进行了加权平均。
第二前馈神经网络是语音噪声抑制模型中的解码器中的一个前馈神经网络,以实现对第二自注意力层输出的特征进行处理,从而获得第二前馈神经网络输出特征。
本发明实施例中,第二前馈神经网络输出特征进行归一化处理时选择的激活函数可以与第一前馈神经网络输出特征进行归一化处理时选择的激活函数一致,即归一化处理可以采用Softmax激活函数。
在第二前馈神经网络中,根据第二前馈神经网络的参数对第二自注意力层输出特征H进行处理,可以得到第二前馈神经网络输出特征(W*H+b),其中,W和b分别表示第二前馈神经网络中的权重矩阵和偏置向量两个参数,与第一前馈神经网络中的权重矩阵和偏置向量的参数取值可以不一致,然后将第二前馈神经网络输出特征进行归一化处理,即Outputdecoder=Softmax(W*H+b),从而得到与目标频域信号当前信号帧对应的解码特征。
在将编码特征、目标频域信号当前信号帧的前一个信号帧对应的解码特征输入预先训练得到的语音噪声抑制模型中的包含第二自注意力层和第二前馈神经网络解码器中时,首先在第二自注意力层中,将编码特征与目标频域信号当前信号帧的前一个信号帧对应的解码特征进行拼接后生成目标特征,根据目标特征生成查询特征和关键字特征,并根据查询特征和关键字特征计算目标特征的概率分布值,以此可以确定目标特征的权重,进而将概率分布值与目标特征的乘积作为第二自注意力层输出特征;然后在第二前馈神经网络中,根据第二前馈神经网络的参数对第二自注意力层输出特征进行处理,得到第二前馈神经网络输出特征;最后将得到的第二前馈神经网络输出特征通过激活函数进行归二化处理,从而得到与目标频域信号当前信号帧对应的解码特征。
可选的,根据查询特征和关键字特征计算目标特征的概率分布值,可以包括:使用激活函数根据查询特征和关键字特征计算目标特征的概率分布值。
示例性的,可以选择Softmax激活函数,它可以将数据映射到(0,1)区间范围内,将数据进行归一化处理,并且可以将得到的计算结果看做概率分布值。在本发明实施例中,采用Softmax激活函数对查询特征和关键字特征的乘积进行归一化处理以获取目标特征的概率分布值,即Softmax(Q*K),然后将计算获得的概率分布值与编码特征和目标频域信号当前信号帧的前一个信号帧对应的解码特征进行拼接后生成的目标特征相乘就可以得到第二自注意力层输出特征,即H=Softmax(Q*K)*concat(X,Outputencoder)。
图1c是本发明实施例提供的一种生成解码特征的流程示意图,在一个具体的例子中,如图1c所示,其中,语音噪声抑制模型中的解码器包含第二自注意力层和第二前馈神经网络。将编码特征X、目标频域信号当前信号帧的前一个信号帧对应的解码特征Outputencoder输入语音噪声抑制模型中的解码器中,首先在第二自注意力层中,对编码特征X与目标频域信号当前信号帧的前一个信号帧对应的解码特征Outputencoder进行拼接作为目标特征concat(X,Outputencoder),根据目标特征生成查询特征Q和关键字特征K,并根据查询特征Q和关键字特征K计算目标特征的概率分布值Softmax(Q*K),以此可以确定目标特征的权重,将概率分布值与目标特征的乘积,即Softmax(Q*K)*concat(X,Outputencoder)作为第二自注意力层输出特征H;在第二前馈神经网络中,根据第二前馈神经网络的参数对第二自注意力层输出特征进行处理,得到第二前馈神经网络输出特征(W*H+b);将第二前馈神经网络输出特征进行归一化处理Softmax(W*H+b),得到与目标频域信号当前信号帧对应的解码特征Outputdecoder
S140、将与目标频域信号各个信号帧对应的解码特征进行信号重构,得到与目标含噪语音信号对应的目标增强语音信号。
信号重构,指的是从部分或完整的频域信号恢复至完整的时域信号,以消除噪声干扰对原始信号的影响。本发明实施例可采用现有技术中任一种能够重构信号的算法,例如,傅里叶反变换等,本发明对此不做具体限制。
目标增强语音信号,指的是对目标含噪信号进行语音增强处理,部分抑制或完全抑制目标含噪信号中的噪声干扰后得到的语音信号。
在目标频域信号各个信号帧经过预先训练得到的语音噪声抑制模型处理后,将得到的与目标频域信号各个信号帧对应的解码特征进行信号重构,得到与目标含噪语音信号对应的目标增强语音信号,从而实现对目标含噪语音信号的语音增强。
本发明实施例提供的技术方案,首先将获取到的目标含噪语音信号进行短时傅里叶变换,得到与之对应的目标频域信号,然后将目标频域信号当前信号帧的目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,得到与目标频域信号当前信号帧对应的编码特征,再将编码特征、语音噪声抑制模型中的解码器输出的目标频域信号当前信号帧的前一个信号帧对应的解码特征,输入解码器中,得到与目标频域信号当前信号帧对应的解码特征,最终将与目标频域信号各个信号帧对应的解码特征进行信号重构,从而得到与目标含噪语音信号对应的目标增强语音信号,通过在语音增强过程中引入频域信号当前信号帧的前一个信号帧,实现了将含噪语音信号在频域中的前后信号帧进行关联,以此提高了语音增强效果,并且可以通过语音噪声抑制模型中的编码器和解码器对含噪语音信号对应的频域信号并行计算,减少了计算时间和计算成本。
实施例二
图2a是本发明实施例二提供的一种语音增强方法的流程图。本实施例在上述实施例的基础上进行具体化,其中,在获取目标含噪语音信号之前,还可以包括:
对语音含噪样本信号和语音样本信号进行短时傅里叶变换,分别得到与语音含噪样本信号对应的第一频域信号,以及与语音样本信号对应的第二频域信号;其中,语音含噪样本信号是在语音样本信号的基础上叠加噪声信号生成的;
在对语音噪声抑制模型进行训练时,将第一频域信号当前信号帧的特征输入编码器中,得到与第一频域信号当前信号帧对应的编码特征;
将编码特征、第二频域信号当前信号帧的前一个信号帧的特征输入解码器中,得到与第一频域信号当前信号帧的对应的解码特征;
计算语音噪声抑制模型的当前损失函数值;如果当前损失函数值大于误差阈值,则对编码器以及解码器的参数进行优化,继续对语音噪声抑制模型进行训练;
如果当前损失函数值小于或等于误差阈值,则停止对语音噪声抑制模型进行训练,并将当前的语音噪声抑制模型作为预先训练得到的语音噪声抑制模型。
进一步的,编码器可以包括第一自注意力层和第一前馈神经网络;解码器可以包括第二自注意力层和第二前馈神经网络;其中,对编码器以及解码器的参数进行优化,可以包括:
对编码器中第一前馈神经网络的参数以及对解码器中第二前馈神经网络的参数进行优化。
如图2a所示,本实施例提供的一种语音增强方法,具体包括:
S210、对语音含噪样本信号和语音样本信号进行短时傅里叶变换,分别得到与语音含噪样本信号对应的第一频域信号,以及与语音样本信号对应的第二频域信号。
其中,语音含噪样本信号是在语音样本信号的基础上叠加噪声信号生成的。
语音含噪样本信号,指的是用于训练语音噪声抑制模型的含噪样本数据。语音含噪样本数据可以通过对无噪声的语音样本信号叠加噪声干扰,以生成用于训练语音噪声抑制模型的语音含噪样本信号。其中,叠加的噪声干扰可以来自NIST噪声数据库,或者其他任何类型的噪声干扰,如周围环境产生的随机噪声干扰等,并且叠加的噪声干扰可以出现在语音样本数据中的任何时刻,本发明对此不做具体限定。
语音样本信号,指的是用于训练语音噪声抑制模型的无噪样本数据。语音样本数据可以作为语音噪声抑制模型输出的标签,以用于训练语音噪声抑制模型中的解码器。
第一频域信号,指的是将语音含噪样本信号进行短时傅里叶变换后,将语音含噪样本信号从时域转换为频域所对应的信号。
第二频域信号,指的是将语音样本信号进行短时傅里叶变换后,将语音样本信号从时域转换为频域所对应的信号。
对语音含噪样本信号和语音样本信号进行短时傅里叶变换,分别得到与语音含噪样本信号对应的第一频域信号,以及与语音样本信号对应的第二频域信号,以用于语音噪声抑制模型的训练过程中,其中,语音含噪样本信号是在语音样本信号的基础上叠加噪声信号生成的,第二频域信号可以作为与第一频域信号对应的标签。
S220、在对语音噪声抑制模型进行训练时,将第一频域信号当前信号帧的特征输入编码器中,得到与第一频域信号当前信号帧对应的编码特征。
其中,编码器可以包括第一自注意力层和第一前馈神经网络。
在对语音噪声抑制模型进行训练时,将第一频域信号当前信号帧的特征输入包含第一自注意力层和第一前馈神经网络的编码器中,可以得到与第一频域信号当前信号帧对应的编码特征。
S230、将编码特征、第二频域信号当前信号帧的前一个信号帧的特征输入解码器中,得到与第一频域信号当前信号帧的对应的解码特征。
其中,解码器可以包括第二自注意力层和第二前馈神经网络。
第一频域信号和第二频域信号是对应的,二者中的信号帧也是一一对应的,第二频域信号当前信号帧可以作为第一频域信号当前信号帧的标签。第二频域信号当前信号帧的前一个信号帧的特征,指的是与第一频域信号当前信号帧对应的前一个信号帧所对应的标签的特征。
将编码特征、第二频域信号当前信号帧的前一个信号帧的特征输入包含第二自注意力层和第二前馈神经网络的解码器中,即将编码器输出的第一频域信号当前信号帧对应的编码特征与解码器输出的第一频域信号前一个信号帧对应的标签的特征输入解码器中,可以得到与第一频域信号当前信号帧的对应的解码特征,因此能够将语音含噪样本信号在频域中的前后信号帧关联起来,以提高语音增强效果。
需要指出的是,当处理第一频域信号的第一信号帧的特征时,可以将得到的编码特征直接作为解码器的输入,以使第一信号帧的编码特征在语音噪声抑制模型中的解码器中输出,获得与第一频域信号第一信号帧对应的解码特征。
S240、计算语音噪声抑制模型的当前损失函数值。
损失函数值,指的是度量语音噪声抑制模型输出的特征与实际信号特征之间的差距程度,以用于衡量语音噪声抑制模型对含噪语音信号的语音增强效果。所谓当前损失函数值,就是指解码器获得的第一频域信号当前信号帧的对应的解码特征与第二频域信号当前信号帧的特征之间的差距程度。损失函数值可以采用现有技术中任一种损失函数计算获得,本发明对此不做具体限制。
示例性的,在本发明实施例中,损失函数可以采用加入L1范数正则化的均方根误差,即
Figure BDA0002881108020000181
其中,L(W)表示第一频域信号对应的解码特征的L1范数,ωi表示解码器获得的第一频域信号的对应的解码特征与第二频域信号的对应的特征之间的偏差。正则化可以约束参数并降低语音噪声抑制模型的复杂性,同时由于L1范数正则化可以约束语音噪声抑制模型的特性,是语音噪声抑制模型中产生系数矩阵,避免了在语音噪声抑制模型训练过程中出现过拟合的问题。
当得到与第一频域信号当前信号帧的对应的解码特征之后,基于第二频域信号当前信号帧的对应的特征,计算语音噪声抑制模型的当前损失函数值,以确定语音噪声抑制模型输出的特征与实际信号特征之间的差距程度。
S250、如果当前损失函数值大于误差阈值,则对编码器以及解码器的参数进行优化,继续对语音噪声抑制模型进行训练;如果当前损失函数值小于或等于误差阈值,则停止对语音噪声抑制模型进行训练,并将当前的语音噪声抑制模型作为预先训练得到的语音噪声抑制模型。
误差阈值,指的是解码器获得的第一频域信号当前信号帧的对应的解码特征与第二频域信号当前信号帧的特征之间差距的临界值。
当前损失函数值大于误差阈值时,可以对编码器以及解码器的参数进行优化,并继续对语音噪声抑制模型进行训练,以使之后在计算解码器获得的第一频域信号的解码特征与第二频域信号的特征之间差距时所得到的损失函数值能够落入误差阈值范围内;当前损失函数值小于或等于误差阈值时,则可以停止对语音噪声抑制模型进行训练,并将当前的语音噪声抑制模型作为预先训练得到的语音噪声抑制模型。其中,在对编码器以及解码器的参数进行优化时,可以采用现有技术中的任意一种参数优化算法,本发明对此不做具体限制。
示例性的,本发明实施例可以采用Adam优化算法对编码器以及解码器中多包含的参数进行优化。其中,Adam优化算法是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新权重。Adam具有实现过程简单、计算效率高、对内存需求少以及优化参数时不受梯度的伸缩变换影响等优点,通过计算梯度的一阶矩估计和二阶矩估计可以为不同的参数设计独立的自适应性学习率,适用于大规模的数据及参数的应用场景中,并且适用于梯度系数或梯度中存在很大噪声干扰的问题中,因此,在语音信号噪声抑制问题中,可以采用Adam优化算法来优化语音噪声抑制模型中的参数。
可选的,对编码器以及解码器的参数进行优化,可以包括:对编码器中第一前馈神经网络的参数以及对解码器中第二前馈神经网络的参数进行优化。
其中,第一前馈神经网络的参数以及第二前馈神经网络的参数可以包括权重矩阵和偏置向量。当前损失函数值大于误差阈值时,可以对编码器中第一前馈神经网络的参数以及对解码器中第二前馈神经网络的参数进行优化,然后继续对语音噪声抑制模型进行训练,以使计算得到的损失函数值能够落入误差阈值范围内。
图2b是本发明实施例提供的一种语音噪声抑制模型训练的流程示意图,在一个具体的例子中,如图2b所示,其中,语音噪声抑制模型中包含编码器和解码器,编码器中包含第一自注意力层和第一前馈神经网络,解码器包含第二自注意力层和第二前馈神经网络。对语音含噪样本信号和语音样本信号进行短时傅里叶变换,分别得到与语音含噪样本信号对应的第一频域信号,以及与语音样本信号对应的第二频域信号,在对语音噪声抑制模型进行训练时,首先将第一频域信号当前信号帧的特征前向传播输入至编码器中,得到与第一频域信号当前信号帧对应的编码特征;然后将编码特征、第二频域信号当前信号帧的前一个信号帧的特征前向传播输入至解码器中,得到与第一频域信号当前信号帧的对应的解码特征;再前向传播根据解码器获得的第一频域信号当前信号帧的对应的解码特征与第二频域信号当前信号帧的特征计算语音噪声抑制模型的当前损失函数值,如果当前损失函数值大于误差阈值,则反向传播对编码器及解码器中所包含的参数进行优化,并继续对语音噪声抑制模型进行训练,如果当前损失函数值小于或等于误差阈值,则停止对语音噪声抑制模型进行训练,并将当前的语音噪声抑制模型作为预先训练得到的语音噪声抑制模型。
语音噪声抑制模型中的编码器和解码器可以直接对频域信号进行分析处理,无需通过其他中间变换手段提取语音含噪信号中的声学特征,即编码器的输出即可作为解码器的输入,使语音噪声抑制模型实现了引入注意力机制的端到端语音信号处理方式,减少了计算成本与计算时间,提高了计算效率。
进一步的,在将当前的语音噪声抑制模型作为预先训练得到的语音噪声抑制模型之后,还可以包括:对语音含噪测试信号进行短时傅里叶变换,得到与语音含噪测试信号对应的测试频域信号;在对语音噪声抑制模型进行测试时,将测试频域信号当前信号帧的特征输入编码器中,得到与测试频域信号当前信号帧对应的编码特征;将编码特征、解码器输出的测试频域信号当前信号帧的前一个信号帧对应的解码特征,输入解码器中,得到与测试频域信号当前信号帧对应的解码特征;将与测试频域信号各个信号帧对应的解码特征进行信号重构,得到与语音含噪测试信号对应的语音增强测试信号;将对语音增强测试信号的测试结果,作为对语音噪声抑制模型的测试结果。
语音含噪测试信号,指的是用于测试语音噪声抑制模型的含噪样本数据。
测试频域信号,指的是将语音含噪测试信号进行短时傅里叶变换后,将语音含噪测试信号从时域转换为频域所对应的信号。
语音增强测试信号,指的是对语音含噪测试信号进行语音增强处理,部分抑制或完全抑制语音含噪测试信号中的噪声干扰后得到的语音信号。
对语音含噪测试信号进行短时傅里叶变换后,得到与语音含噪测试信号对应的测试频域信号,以用于语音噪声抑制模型的测试过程中。在对语音噪声抑制模型进行测试时,首先将测试频域信号当前信号帧的特征输入编码器中,编码器可以输出与测试频域信号当前信号帧对应的编码特征,然后将编码特征、解码器输出的测试频域信号当前信号帧的前一个信号帧对应的解码特征,输入解码器中,解码器可以输出与测试频域信号当前信号帧对应的解码特征,再将与测试频域信号各个信号帧对应的解码特征进行信号重构,获得与语音含噪测试信号对应的语音增强测试信号,最终可以将对语音增强测试信号的测试结果,作为对语音噪声抑制模型的测试结果。例如,对语音含噪测试信号进行短时傅里叶变换后输入至语音噪声抑制模型中,将获得的语音增强测试信号与对应的不含噪声干扰的纯净语音测试信号或增强处理前的原始语音含噪测试信号进行对比,计算语音增强测试信号的信噪比、均方误差等指标参数,确定语音增强测试信号中的噪声干扰含量,并将计算结果作为对语音增强测试信号的测试结果,进而作为对语音噪声抑制模型的测试结果。
需要指出的是,当处理测试频域信号第一信号帧的特征时,可以将得到的编码特征直接作为解码器的输入,以使第一信号帧的编码特征在语音噪声抑制模型中的解码器中输出,获得与测试频域信号第一信号帧对应的解码特征。
S260、获取目标含噪语音信号,对目标含噪语音信号进行短时傅里叶变换,得到与目标含噪语音信号对应的目标频域信号。
S270、将目标频域信号当前信号帧的目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,得到与目标频域信号当前信号帧对应的编码特征。
S280、将编码特征、语音噪声抑制模型中的解码器输出的目标频域信号当前信号帧的前一个信号帧对应的解码特征,输入解码器中,得到与目标频域信号当前信号帧对应的解码特征。
S290、将与目标频域信号各个信号帧对应的解码特征进行信号重构,得到与目标含噪语音信号对应的目标增强语音信号。
本实施例未尽详细解释之处请参见前述实施例,在此不再赘述。
上述技术方案,在训练语音噪声抑制模型时,首先对语音含噪样本信号和语音样本信号进行短时傅里叶变换,分别得到与语音含噪样本信号对应的第一频域信号,以及与语音样本信号对应的第二频域信号,然后将第一频域信号当前信号帧的特征输入编码器中,得到与第一频域信号当前信号帧对应的编码特征,再将编码特征、第二频域信号当前信号帧的前一个信号帧的特征输入解码器中,得到与第一频域信号当前信号帧的对应的解码特征,接着根据解码特征与第二频域信号当前信号帧的特征计算语音噪声抑制模型的当前损失函数值,如果当前损失函数值大于误差阈值,则可以对编码器以及解码器的参数进行优化,并继续对语音噪声抑制模型进行训练,如果当前损失函数值小于或等于误差阈值,则停止对语音噪声抑制模型进行训练,并将当前的语音噪声抑制模型作为预先训练得到的语音噪声抑制模型,之后便可以通过预先训练得到的语音噪声抑制模型对目标含噪语音信号进行处理,实现了将含噪语音信号在频域中的前后信号帧进行关联,以此提高了语音增强效果,并且可以通过语音噪声抑制模型中的编码器和解码器对含噪语音信号对应的频域信号并行计算,减少了计算时间和计算成本。
实施例三
图3是本发明实施例三提供的一种语音增强装置的结构示意图,本发明实施例可适用于基于引入注意力机制的语音噪声抑制模型对含噪语音信号进行语音增强处理的情况,该装置可采用软件和/或硬件的方式实现,并一般可集成在计算机设备中。
如图3所示,该数据查询装置具体包括:目标频域信号生成模块310、编码特征生成模块320、解码特征生成模块330以及目标增强语音信号生成模块340。其中,
含噪语音信号处理模块310,设置为获取目标含噪语音信号,对所述目标含噪语音信号进行短时傅里叶变换,得到与所述目标含噪语音信号对应的目标频域信号;
编码模块320,设置为将所述目标频域信号当前信号帧的目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,得到与所述目标频域信号当前信号帧对应的编码特征;
解码模块330,设置为将所述编码特征、所述语音噪声抑制模型中的解码器输出的所述目标频域信号当前信号帧的前一个信号帧对应的解码特征,输入所述解码器中,得到与所述目标频域信号当前信号帧对应的解码特征;
增强信号生成模块340,设置为将与所述目标频域信号各个信号帧对应的解码特征进行信号重构,得到与所述目标含噪语音信号对应的目标增强语音信号。
本发明实施例提供的技术方案,首先将获取到的目标含噪语音信号进行短时傅里叶变换,得到与之对应的目标频域信号,然后将目标频域信号当前信号帧的目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,得到与目标频域信号当前信号帧对应的编码特征,再将编码特征、语音噪声抑制模型中的解码器输出的目标频域信号当前信号帧的前一个信号帧对应的解码特征,输入解码器中,得到与目标频域信号当前信号帧对应的解码特征,最终将与目标频域信号各个信号帧对应的解码特征进行信号重构,从而得到与目标含噪语音信号对应的目标增强语音信号,通过在语音增强过程中引入频域信号当前信号帧的前一个信号帧,实现了将含噪语音信号在频域中的前后信号帧进行关联,以此提高了语音增强效果,并且可以通过语音噪声抑制模型中的编码器和解码器对含噪语音信号对应的频域信号并行计算,减少了计算时间和计算成本。
可选的,编码模块320,包括:输入单元、第一自注意力层处理单元、第一前馈神经网络处理单元和输出单元,其中,
输入单元,设置为将所述目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,所述编码器包括第一自注意力层和第一前馈神经网络;
第一自注意力层处理单元,设置为在所述第一自注意力层中,根据所述目标特征生成查询特征和关键字特征,并根据所述查询特征和所述关键字特征计算所述目标特征的概率分布值,将所述概率分布值与所述目标特征的乘积作为所述第一自注意力层输出特征;
第一前馈神经网络处理单元,设置为在所述第一前馈神经网络中,根据所述第一前馈神经网络的参数对所述第一自注意力层输出特征进行处理,得到所述第一前馈神经网络输出特征;
输出单元,设置为将所述第一前馈神经网络输出特征进行归一化处理,得到与所述目标频域信号当前信号帧对应的编码特征。
可选的,解码模块330,包括:输入单元、第二自注意力层处理单元、第二前馈神经网络处理单元和输出单元,其中,
输入单元,设置为将所述编码特征、所述目标频域信号当前信号帧的前一个信号帧对应的解码特征输入所述解码器中,所述解码器包括第二自注意力层和第二前馈神经网络;
第二自注意力层处理单元,设置为在所述第二自注意力层中,对所述编码特征与所述目标频域信号当前信号帧的前一个信号帧对应的解码特征进行拼接作为目标特征,根据所述目标特征生成查询特征和关键字特征,并根据所述查询特征和所述关键字特征计算所述目标特征的概率分布值,将所述概率分布值与所述目标特征的乘积作为所述第二自注意力层输出特征;
第二前馈神经网络处理单元,设置为在所述第二前馈神经网络中,根据所述第二前馈神经网络的参数对所述第二自注意力层输出特征进行处理,得到所述第二前馈神经网络输出特征;
输出单元,设置为将所述第二前馈神经网络输出特征进行归一化处理,得到与所述目标频域信号当前信号帧对应的解码特征。
可选的,第一自注意力层输出特征生成单元具体设置为:使用激活函数根据所述查询特征和所述关键字特征计算所述目标特征的概率分布值;
第二自注意力层输出特征生成单元,具体设置为:
使用激活函数根据所述查询特征和所述关键字特征计算所述目标特征的概率分布值。
进一步的,上述装置还包括:模型训练模块,其中,模型训练模块模块具体设置为:
在获取目标含噪语音信号之前,对语音含噪样本信号和语音样本信号进行短时傅里叶变换,分别得到与所述语音含噪样本信号对应的第一频域信号,以及与所述语音样本信号对应的第二频域信号;其中,所述语音含噪样本信号是在所述语音样本信号的基础上叠加噪声信号生成的;
在对所述语音噪声抑制模型进行训练时,将所述第一频域信号当前信号帧的特征输入所述编码器中,得到与所述第一频域信号当前信号帧对应的编码特征;
将所述编码特征、所述第二频域信号当前信号帧的前一个信号帧的特征输入所述解码器中,得到与所述第一频域信号当前信号帧的对应的解码特征;
计算所述语音噪声抑制模型的当前损失函数值;
如果所述当前损失函数值大于误差阈值,则对所述编码器以及所述解码器的参数进行优化,继续对所述语音噪声抑制模型进行训练;
如果所述当前损失函数值小于或等于所述误差阈值,则停止对所述语音噪声抑制模型进行训练,并将当前的所述语音噪声抑制模型作为所述预先训练得到的语音噪声抑制模型。
可选的,所述编码器包括第一自注意力层和第一前馈神经网络;所述解码器包括第二自注意力层和第二前馈神经网络;
模型训练模块,具体设置为:如果所述当前损失函数值大于误差阈值,则对所述编码器中所述第一前馈神经网络的参数以及对所述解码器中所述第二前馈神经网络的参数进行优化。
进一步的,上述装置还包括:模型测试模块,其中,模型测试模块具体设置为:在将当前的所述语音噪声抑制模型作为所述预先训练得到的语音噪声抑制模型之后,对语音含噪测试信号进行短时傅里叶变换,得到与所述语音含噪测试信号对应的测试频域信号;
在对所述语音噪声抑制模型进行测试时,将所述测试频域信号当前信号帧的特征输入所述编码器中,得到与所述测试频域信号当前信号帧对应的编码特征;
将所述编码特征、所述解码器输出的所述测试频域信号当前信号帧的前一个信号帧对应的解码特征,输入所述解码器中,得到与所述测试频域信号当前信号帧对应的解码特征;
将与所述测试频域信号各个信号帧对应的解码特征进行信号重构,得到与所述语音含噪测试信号对应的语音增强测试信号;
将对所述语音增强测试信号的测试结果,作为对所述语音噪声抑制模型的测试结果。
上述语音增强装置可执行本发明任意实施例所提供的语音增强方法,具备执行语音增强方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种计算机设备的硬件结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图4中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种语音增强方法。也即,所述处理单元执行所述程序时实现:
获取目标含噪语音信号,对所述目标含噪语音信号进行短时傅里叶变换,得到与所述目标含噪语音信号对应的目标频域信号;
将所述目标频域信号当前信号帧的目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,得到与所述目标频域信号当前信号帧对应的编码特征;
将所述编码特征、所述语音噪声抑制模型中的解码器输出的所述目标频域信号当前信号帧的前一个信号帧对应的解码特征,输入所述解码器中,得到与所述目标频域信号当前信号帧对应的解码特征;
将与所述目标频域信号各个信号帧对应的解码特征进行信号重构,得到与所述目标含噪语音信号对应的目标增强语音信号。
实施例五
本发明实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的一种语音增强方法:也即,该程序被处理器执行时实现:
获取目标含噪语音信号,对所述目标含噪语音信号进行短时傅里叶变换,得到与所述目标含噪语音信号对应的目标频域信号;
将所述目标频域信号当前信号帧的目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,得到与所述目标频域信号当前信号帧对应的编码特征;
将所述编码特征、所述语音噪声抑制模型中的解码器输出的所述目标频域信号当前信号帧的前一个信号帧对应的解码特征,输入所述解码器中,得到与所述目标频域信号当前信号帧对应的解码特征;
将与所述目标频域信号各个信号帧对应的解码特征进行信号重构,得到与所述目标含噪语音信号对应的目标增强语音信号。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言(诸如Java、Smalltalk、C++),还包括常规的过程式程序设计语言(诸如“C”语言或类似的程序设计语言)。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN)),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种语音增强方法,其特征在于,包括:
获取目标含噪语音信号,对所述目标含噪语音信号进行短时傅里叶变换,得到与所述目标含噪语音信号对应的目标频域信号;
将所述目标频域信号当前信号帧的目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,得到与所述目标频域信号当前信号帧对应的编码特征;
将所述编码特征、所述语音噪声抑制模型中的解码器输出的所述目标频域信号当前信号帧的前一个信号帧对应的解码特征,输入所述解码器中,得到与所述目标频域信号当前信号帧对应的解码特征;
将与所述目标频域信号各个信号帧对应的解码特征进行信号重构,得到与所述目标含噪语音信号对应的目标增强语音信号。
2.根据权利要求1所述的方法,其特征在于,将所述目标频域信号当前信号帧的目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,得到与所述目标频域信号当前信号帧对应的编码特征,包括:
将所述目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,所述编码器包括第一自注意力层和第一前馈神经网络;
在所述第一自注意力层中,根据所述目标特征生成查询特征和关键字特征,并根据所述查询特征和所述关键字特征计算所述目标特征的概率分布值,将所述概率分布值与所述目标特征的乘积作为所述第一自注意力层输出特征;
在所述第一前馈神经网络中,根据所述第一前馈神经网络的参数对所述第一自注意力层输出特征进行处理,得到所述第一前馈神经网络输出特征;
将所述第一前馈神经网络输出特征进行归一化处理,得到与所述目标频域信号当前信号帧对应的编码特征。
3.根据权利要求2所述的方法,其特征在于,将所述编码特征、所述语音噪声抑制模型中的解码器输出的所述目标频域信号当前信号帧的前一个信号帧对应的解码特征,输入所述解码器中,得到与所述目标频域信号当前信号帧对应的解码特征,包括:
将所述编码特征、所述目标频域信号当前信号帧的前一个信号帧对应的解码特征输入所述解码器中,所述解码器包括第二自注意力层和第二前馈神经网络;
在所述第二自注意力层中,对所述编码特征与所述目标频域信号当前信号帧的前一个信号帧对应的解码特征进行拼接作为目标特征,根据所述目标特征生成查询特征和关键字特征,并根据所述查询特征和所述关键字特征计算所述目标特征的概率分布值,将所述概率分布值与所述目标特征的乘积作为所述第二自注意力层输出特征;
在所述第二前馈神经网络中,根据所述第二前馈神经网络的参数对所述第二自注意力层输出特征进行处理,得到所述第二前馈神经网络输出特征;
将所述第二前馈神经网络输出特征进行归一化处理,得到与所述目标频域信号当前信号帧对应的解码特征。
4.根据权利要求2或3所述的方法,其特征在于,根据所述查询特征和所述关键字特征计算所述目标特征的概率分布值,包括:
使用激活函数根据所述查询特征和所述关键字特征计算所述目标特征的概率分布值。
5.根据权利要求1所述的方法,其特征在于,在获取目标含噪语音信号之前,还包括:
对语音含噪样本信号和语音样本信号进行短时傅里叶变换,分别得到与所述语音含噪样本信号对应的第一频域信号,以及与所述语音样本信号对应的第二频域信号;其中,所述语音含噪样本信号是在所述语音样本信号的基础上叠加噪声信号生成的;
在对所述语音噪声抑制模型进行训练时,将所述第一频域信号当前信号帧的特征输入所述编码器中,得到与所述第一频域信号当前信号帧对应的编码特征;
将所述编码特征、所述第二频域信号当前信号帧的前一个信号帧的特征输入所述解码器中,得到与所述第一频域信号当前信号帧的对应的解码特征;
计算所述语音噪声抑制模型的当前损失函数值;
如果所述当前损失函数值大于误差阈值,则对所述编码器以及所述解码器的参数进行优化,继续对所述语音噪声抑制模型进行训练;
如果所述当前损失函数值小于或等于所述误差阈值,则停止对所述语音噪声抑制模型进行训练,并将当前的所述语音噪声抑制模型作为所述预先训练得到的语音噪声抑制模型。
6.根据权利要求5所述的方法,其特征在于,所述编码器包括第一自注意力层和第一前馈神经网络;所述解码器包括第二自注意力层和第二前馈神经网络;其中,对所述编码器以及所述解码器的参数进行优化,包括:
对所述编码器中所述第一前馈神经网络的参数以及对所述解码器中所述第二前馈神经网络的参数进行优化。
7.根据权利要求5所述的方法,其特征在于,在将当前的所述语音噪声抑制模型作为所述预先训练得到的语音噪声抑制模型之后,还包括:
对语音含噪测试信号进行短时傅里叶变换,得到与所述语音含噪测试信号对应的测试频域信号;
在对所述语音噪声抑制模型进行测试时,将所述测试频域信号当前信号帧的特征输入所述编码器中,得到与所述测试频域信号当前信号帧对应的编码特征;
将所述编码特征、所述解码器输出的所述测试频域信号当前信号帧的前一个信号帧对应的解码特征,输入所述解码器中,得到与所述测试频域信号当前信号帧对应的解码特征;
将与所述测试频域信号各个信号帧对应的解码特征进行信号重构,得到与所述语音含噪测试信号对应的语音增强测试信号;
将对所述语音增强测试信号的测试结果,作为对所述语音噪声抑制模型的测试结果。
8.一种语音增强装置,其特征在于,包括:
含噪语音信号处理模块,设置为获取目标含噪语音信号,对所述目标含噪语音信号进行短时傅里叶变换,得到与所述目标含噪语音信号对应的目标频域信号;
编码模块,设置为将所述目标频域信号当前信号帧的目标特征输入预先训练得到的语音噪声抑制模型中的编码器中,得到与所述目标频域信号当前信号帧对应的编码特征;
解码模块,设置为将所述编码特征、所述语音噪声抑制模型中的解码器输出的所述目标频域信号当前信号帧的前一个信号帧对应的解码特征,输入所述解码器中,得到与所述目标频域信号当前信号帧对应的解码特征;
增强信号生成模块,设置为将与所述目标频域信号各个信号帧对应的解码特征进行信号重构,得到与所述目标含噪语音信号对应的目标增强语音信号。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202011635949.0A 2020-12-31 2020-12-31 语音增强方法、装置、设备及介质 Active CN112767959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011635949.0A CN112767959B (zh) 2020-12-31 2020-12-31 语音增强方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011635949.0A CN112767959B (zh) 2020-12-31 2020-12-31 语音增强方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN112767959A true CN112767959A (zh) 2021-05-07
CN112767959B CN112767959B (zh) 2023-10-17

Family

ID=75698009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011635949.0A Active CN112767959B (zh) 2020-12-31 2020-12-31 语音增强方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112767959B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744753A (zh) * 2021-08-11 2021-12-03 清华大学苏州汽车研究院(相城) 一种多人语音分离方法及语音分离模型的训练方法
CN114419327A (zh) * 2022-01-18 2022-04-29 北京百度网讯科技有限公司 图像检测方法和图像检测模型的训练方法、装置
WO2023123835A1 (zh) * 2021-12-29 2023-07-06 煤炭科学技术研究院有限公司 Prach信号处理方法和装置
CN117711417A (zh) * 2024-02-05 2024-03-15 武汉大学 一种基于频域自注意力网络的语音质量增强方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003295898A (ja) * 2002-04-05 2003-10-15 Nippon Telegr & Teleph Corp <Ntt> 音声処理方法、音声処理装置、音声処理プログラム
CN101483495A (zh) * 2008-03-20 2009-07-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
US20100217607A1 (en) * 2009-01-28 2010-08-26 Max Neuendorf Audio Decoder, Audio Encoder, Methods for Decoding and Encoding an Audio Signal and Computer Program
CN110111803A (zh) * 2019-05-09 2019-08-09 南京工程学院 基于自注意多核最大均值差异的迁移学习语音增强方法
CN110164463A (zh) * 2019-05-23 2019-08-23 北京达佳互联信息技术有限公司 一种语音转换方法、装置、电子设备及存储介质
CN110739003A (zh) * 2019-10-23 2020-01-31 北京计算机技术及应用研究所 基于多头自注意力机制的语音增强方法
CN110867192A (zh) * 2019-10-23 2020-03-06 北京计算机技术及应用研究所 基于门控循环编解码网络的语音增强方法
US20200194017A1 (en) * 2018-12-17 2020-06-18 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
CN111653288A (zh) * 2020-06-18 2020-09-11 南京大学 基于条件变分自编码器的目标人语音增强方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003295898A (ja) * 2002-04-05 2003-10-15 Nippon Telegr & Teleph Corp <Ntt> 音声処理方法、音声処理装置、音声処理プログラム
CN101483495A (zh) * 2008-03-20 2009-07-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
US20100217607A1 (en) * 2009-01-28 2010-08-26 Max Neuendorf Audio Decoder, Audio Encoder, Methods for Decoding and Encoding an Audio Signal and Computer Program
US20200194017A1 (en) * 2018-12-17 2020-06-18 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
CN110111803A (zh) * 2019-05-09 2019-08-09 南京工程学院 基于自注意多核最大均值差异的迁移学习语音增强方法
CN110164463A (zh) * 2019-05-23 2019-08-23 北京达佳互联信息技术有限公司 一种语音转换方法、装置、电子设备及存储介质
CN110739003A (zh) * 2019-10-23 2020-01-31 北京计算机技术及应用研究所 基于多头自注意力机制的语音增强方法
CN110867192A (zh) * 2019-10-23 2020-03-06 北京计算机技术及应用研究所 基于门控循环编解码网络的语音增强方法
CN111653288A (zh) * 2020-06-18 2020-09-11 南京大学 基于条件变分自编码器的目标人语音增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEHRESA, S.: "Improved codebook constrained Wiener filter speech enhancement", 《2010 5TH INTERNATIONAL SYMPOSIUM ON TELECOMMUNICATIONS (IST)》 *
江文斌: "面向复杂场景的极低码率语音编解码和语音增强关键技术研究", 《中国博士学位论文全文数据库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744753A (zh) * 2021-08-11 2021-12-03 清华大学苏州汽车研究院(相城) 一种多人语音分离方法及语音分离模型的训练方法
CN113744753B (zh) * 2021-08-11 2023-09-08 清华大学苏州汽车研究院(相城) 一种多人语音分离方法及语音分离模型的训练方法
WO2023123835A1 (zh) * 2021-12-29 2023-07-06 煤炭科学技术研究院有限公司 Prach信号处理方法和装置
CN114419327A (zh) * 2022-01-18 2022-04-29 北京百度网讯科技有限公司 图像检测方法和图像检测模型的训练方法、装置
CN117711417A (zh) * 2024-02-05 2024-03-15 武汉大学 一种基于频域自注意力网络的语音质量增强方法及系统
CN117711417B (zh) * 2024-02-05 2024-04-30 武汉大学 一种基于频域自注意力网络的语音质量增强方法及系统

Also Published As

Publication number Publication date
CN112767959B (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
Li et al. Two heads are better than one: A two-stage complex spectral mapping approach for monaural speech enhancement
EP3926623B1 (en) Speech recognition method and apparatus, and neural network training method and apparatus
CN112767959B (zh) 语音增强方法、装置、设备及介质
Drude et al. NARA-WPE: A Python package for weighted prediction error dereverberation in Numpy and Tensorflow for online and offline processing
JP6415705B2 (ja) ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法
EP3477633A1 (en) Systems and methods for robust speech recognition using generative adversarial networks
KR101004495B1 (ko) 증분 베이즈 학습을 사용하는 잡음 추정 방법
WO2019199501A1 (en) Systems, methods, and computer-readable media for improved real-time audio processing
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
Saleem et al. Deepresgru: residual gated recurrent neural network-augmented kalman filtering for speech enhancement and recognition
US20230267315A1 (en) Diffusion Models Having Improved Accuracy and Reduced Consumption of Computational Resources
CN113345460B (zh) 音频信号处理方法、装置、设备及存储介质
KR101620866B1 (ko) 학습 기법을 적용한 사전 학습 알고리즘 기반의 음원 분리 방법
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
WO2022213825A1 (zh) 基于神经网络的端到端语音增强方法、装置
Saleem et al. NSE-CATNet: deep neural speech enhancement using convolutional attention transformer network
Saleem et al. Multi-attention bottleneck for gated convolutional encoder-decoder-based speech enhancement
Jannu et al. Multi-stage progressive learning-based speech enhancement using time–frequency attentive squeezed temporal convolutional networks
Astudillo et al. Uncertainty propagation
Saeki et al. SelfRemaster: Self-supervised speech restoration with analysis-by-synthesis approach using channel modeling
Badiezadegan et al. A wavelet-based thresholding approach to reconstructing unreliable spectrogram components
CN117174102A (zh) 音频信号噪声抑制的系统和方法
CN113823312B (zh) 语音增强模型生成方法和装置、语音增强方法和装置
JP7103390B2 (ja) 音響信号生成方法、音響信号生成装置およびプログラム
Li et al. An improved speech enhancement algorithm based on combination of OMLSA and IMCRA

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant