CN110503940B

CN110503940B - 语音增强方法、装置、存储介质、电子设备

Info

Publication number: CN110503940B
Application number: CN201910631894.7A
Authority: CN
Inventors: 许家铭; 李晨星; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2021-08-31
Anticipated expiration: 2039-07-12
Also published as: CN110503940A

Abstract

本发明实施例涉及一种语音增强方法、装置、存储介质、电子设备，所述方法包括：调用语音采集设备，采集当前环境中的语音；按照预设的语音处理算法，对所述语音进行处理，得到单通道语音；对所述单通道语音进行断句切分，得到包含预设类型声音的语音分段数据流；从所述语音分段数据流中提取语音特征；将所述语音特征输入预设的语音增强网络模型中，得到与所述语音特征对应的增强语音；将所述增强语音合成为语音段。由此，可以实现多场景的应用，避免了噪声的影响，考虑到语音特性，避免引入失真，从而避免对语音造成损伤。

Description

语音增强方法、装置、存储介质、电子设备

技术领域

本发明实施例涉及计算机信息自动处理技术领域，尤其涉及一种语音增强方法、装置、存储介质、电子设备。

背景技术

语音，即语言的物质外壳，是语言的外部形式，是最直接地记录人的思维活动的符号体系，是用户进行信息交互最自然、最有效的手段之一。用户在获得语音信号的同时，不可避免的会受到环境噪声、房间混响以及其他用户的干扰，严重影响了语音质量，进而影响语音识别的性能，自此语音增强应运而生。语音增强，作为前置处理方式，是抑制干扰、提示远场语音识别率的一种有效途径。

语音增强，是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。一句话，从含噪语音中提取尽可能纯净的原始语音。

相关技术中，传统的语音增强方法主要有谱减法、维纳滤波和基于最小均方误差的短时谱幅增强方法。虽然传统的语音增强方法具有速度快、不需要大规模训练语料库等优点，但是这些方法在很大程度上取决于噪声的估计，并且这些方法适用场景少，未能考虑语音特性，不可避免地引入失真，对语音造成损伤。

发明内容

鉴于此，为解决上述技术问题或部分技术问题，本发明实施例提供了一种语音增强方法、装置、存储介质、电子设备。

第一方面，本发明实施例提供了一种语音增强方法，所述方法包括：

调用语音采集设备，采集当前环境中的语音；

按照预设的语音处理算法，对所述语音进行处理，得到单通道语音；

对所述单通道语音进行断句切分，得到包含预设类型声音的语音分段数据流；从所述语音分段数据流中提取语音特征；

将所述语音特征输入预设的语音增强网络模型中，得到与所述语音特征对应的增强语音；

将所述增强语音合成为语音段。

在一个可能的实施方式中，所述按照预设的语音处理算法，对所述语音进行处理，得到单通道语音，包括：

将所述语音经过A/D转换，按照预设的采样率进行采样，得到单通道语音。

在一个可能的实施方式中，所述从所述语音分段数据流中提取语音特征，包括：

从所述语音分段数据流中提取短时傅里叶特征。

在一个可能的实施方式中，所述从所述语音分段数据流中提取短时傅里叶特征，包括：

对所述语音分段数据流进行短时傅里叶变换，获得短时傅里叶特征；

其中，对所述短时傅里叶特征求取绝对值，获得语音频谱。

在一个可能的实施方式中，所述将所述语音特征输入预设的语音增强网络模型中，得到与所述语音特征对应的增强语音，包括：

预先构建基于自注意力机制的语音增强网络模型，捕捉长时依赖信息，并同时融合语音时间和频率域信息。其中，所述基于自注意力机制的语音增强网络模型额外增加边缘增强模块，细化语音纹理特征，使恢复语音清晰；

将所述语音频谱输入基于自注意力机制的语音增强网络模型中，得到与所述语音频谱对应的增强语音频谱。

在一个可能的实施方式中，所述将所述增强语音合成为语音段，包括：

将增强后的语音频谱结合带噪语音的相位，利用逆傅里叶变换恢复为语音采样点，并将所述语音采样点融合获得连续的语音数据流。

在一个可能的实施方式中，所述对所述单通道语音进行断句切分，得到包含预设类型声音的语音分段数据流，包括：

对所述单通道语音中在预设阈值范围内的语音进行断句切分；

对于所述单通道语音中在预设阈值范围内的任意一帧语音，利用预先建立的神经网络模型检测是否包含预设类型声音；

如果该帧语音包含预设类型声音，则保留该帧语音，如果该帧语音不包含预设类型声音，则过滤该帧语音；

组合所有包含预设类型声音的语音帧，得到包含预设类型声音的语音分段数据流。

第二方面，本发明实施例提供一种语音增强装置，所述装置包括：

语音采集模块，用于调用语音采集设备，采集当前环境中的语音；

语音处理模块，用于按照预设的语音处理算法，对所述语音进行处理，得到单通道语音；

语音切分模块，用于对所述单通道语音进行断句切分，得到包含预设类型声音的语音分段数据流；

特征提取模块，用于从所述语音分段数据流中提取语音特征；

语音增强模块，用于将所述语音特征输入预设的语音增强网络模型中，得到与所述语音特征对应的增强语音；

语音合成模块，用于将所述增强语音合成为语音段。

第三方面，本发明实施例提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述的语音增强方法。

第四方面，本发明实施例提供一种电子设备，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的语音增强程序，以实现前述的语音增强方法。

本发明实施例提供的技术方案，通过对语音进行处理得到单通道语音，对单通道语音进行断句切分得到包含预设类型声音的语音分段数据流，从所述语音分段数据流中提取语音特征，将所述语音特征输入预设的语音增强网络模型中，避免了噪声的影响，考虑到语音特性，避免引入失真，从而避免对语音造成损伤，如此可以得到增强语音，合成该增强语音得到语音段，可以实现多场景的应用。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例的语音增强方法的实施流程示意图；

图2为本发明实施例的语音增强装置的结构示意图；

图3为本发明实施例的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

如图1所示，为本发明实施例提供的一种语音增强方法的实施流程示意图，该方法具体可以包括以下步骤：

S101，调用语音采集设备，采集当前环境中的语音。

在本发明实施例中，对于当前环境，可以是在远场、带噪的声学环境中，本发明实施例对此不作限定。

在当前环境中，调用语音采集设备，例如麦克风，采集语音，该语音中携带目标用户的原有语音以及当前环境中的噪声，对于当前环境中的噪声，可以是当前环境中其他用户的语音，可以是当前环境中音乐、击打声等，相对于目标用户的原有语音，其它一切声音可以视为噪声，本发明实施例对此不作限定。

S102，按照预设的语音处理算法，对所述语音进行处理，得到单通道语音。

对于上述步骤S101中采集到的语言，按照预设的语音处理算法进行处理，得到单通道语音，这里提供一种按照预设的语音处理算法进行处理的可选实现方式：

将所述语音经过A/D转换，按照预设的采样率进行采样，得到单通道语音。其中，对于A/D，指的是将模拟信号转换成数字信号的电路，称为模数转换器。

例如，调用麦克风采集当前环境中的语言，将语音经过A/D转换，按照16000采样率进行采样，得到16000采样率的单通道语音。

S103，对所述单通道语音进行断句切分，得到包含预设类型声音的语音分段数据流。

预先训练一个神经网络模型，该神经网络模型用于检测每帧语音是否包含预设类型声音，这里预设类型声音指的是目标用户的原有语音；

对所述单通道语音中在预设阈值范围内的语音进行断句切分，对于所述单通道语音中在预设阈值范围内的任意一帧语音，利用预先建立的神经网络模型检测是否包含预设类型声音；

如果该帧语音包含预设类型声音，则保留该帧语音；如果该帧语音不包含预设类型声音，则过滤该帧语音；如此通过预先建立的神经网络模型可以过滤除包含目标用户的原有语音之外的其它语音帧，可以留下包含预设类型声音的语音帧；

S104，从所述语音分段数据流中提取语音特征。

从所述语音分段数据流中提取语音特征，具体是从所述语音分段数据流中提取短时傅里叶特征。这里提供一种提取短时傅里叶特征的可选实现方式：

对所述语音分段数据流进行短时傅里叶变换，获得短时傅里叶特征。

对该短时傅里叶特征求取绝对值，得到语音频谱，即幅度频谱特征，该幅度频谱特征即幅值部分。

S105，将所述语音特征输入预设的语音增强网络模型中，得到与所述语音特征对应的增强语音。

预先构建基于自注意力机制的语音增强网络模型，捕捉长时依赖信息，并同时融合语音时间和频率域信息。其中，所述基于自注意力机制的语音增强网络模型额外增加边缘增强模块，可以细化语音纹理特征，使恢复语音更清晰。

将所述语音频谱输入基于自注意力机制的语音增强网络模型中，得到与所述语音频谱对应的增强语音频谱。基于自注意力机制的语音增强网络模型，将上述步骤S103中语音频谱作为其输入，输出为增强语音频谱。

在本发明实施例中，基于自注意力机制的语音增强网络模型，具体可以包括：二维自注意力增强模块和边缘增强模块。

二维自注意力增强模块：自我注意机制避免了循环机制，完全依赖于注意机制来绘制输入和输出之间的全局依赖关系。从技术上讲，它将查询和一组键值对映射到输出。核心机制是“点乘注意力机制”，它计算查询、键和值之间的非线性关系。一维自注意力机制只关注时间维度上的信息流。然而，时间维度和频率维度的信息对语音增强都是必不可少的。从时间维度和频率维度中提取和整合信息到自注意中。提出了一种同时考虑时间维度和频率维度信息的二维自注意机制算法。

具体来说，基于自注意力机制的语音增强网络模型首先将输入特征转换为查询和一组键值对，之后计算其之间的相似性和注意力。多头注意使模型能够在不同位置共同关注来自不同表示子空间的信息，因此平行计算多个二维自注意力操作，并将其拼接得到二位注意力表征特征，最后利用二维带门卷积网络对该特征进一步在高维空间映射后送入下一注意力层。

边缘增强模块：基于最小均方误差的损失函数常常使产生的频谱模糊，直接影响语音质量，因此需要增强频谱的边缘和纹理细节。为了恢复纹理细节，构建边缘增强网络来捕获和恢复频谱细节。边缘增强网络的目的是捕获频谱中最重要的信息并恢复细节。本发明实施例中使用门控卷积网络来捕获频谱中的主导信息。频率维度的最大池化使网络能够注意到更重要的特性和细节，同时获得更广泛的感受野。在这个子网络的末尾，选择激活函数对输出从0到1进行缩放，可以将其描述为一个边缘掩蔽。这个掩蔽乘以主线上卷积层的输出，用来突出和增强频谱中最重要的部分。

S106，将所述增强语音合成为语音段。

本发明实施例中的语音增强方法，利用带门卷积网络和自注意力机制获取语音信号的时序信息；提出了一种同时关注二维信息(如时间和频率维度)的二维自注意力机制，可以学习并融合二维特征；引入了一个子网络E2Net来建模和恢复语音纹理细节。

为了验证本发明实施例中自注意力机制的作用，在该实验中不添加边缘增强模块。为了充分利用和集成时间维和频率维的信息，提出了一种二维自注意力机制算法。系统设有1、2、3、4个注意模块，配备二维注意力机制的模型取得了显著的性能提升。最好的系统在PESQ(语音质量知觉评价)和STOI(短时客观可懂度)上都取得了最好的性能，分别提高了0.44和0.057。这表明，提出的二维自注意力机制算法能够有效地提取和集成时间和频率维的信息，并能有效地利用这些信息提高模型性能。

边缘增强模块被认为是提取主要特征和锐化频谱。添加了边缘增强模块的网络，相对于噪声语音，在PESQ和STOI中的绝对改善分别为0.55和0.057。同时，基于边缘增强的系统在PESQ上的性能优于其他基于循环神经网络的系统，也说明了该方法的有效性。

通过上述对本发明实施例提供的技术方案的描述，通过对语音进行处理得到单通道语音，对单通道语音进行断句切分得到包含预设类型声音的语音分段数据流，从所述语音分段数据流中提取语音特征，将所述语音特征输入预设的语音增强网络模型中，避免了噪声的影响，考虑到语音特性，避免引入失真，从而避免对语音造成损伤，如此可以得到增强语音，合成该增强语音得到语音段，可以实现多场景的应用。

相对于上述方法实施例，本发明实施例还提供了一种语音增强装置的实施例，如图2所示，该装置可以包括：语音采集模块210、语音处理模块220、语音切分模块230、特征提取模块240、语音增强模块250、语音合成模块260。

语音采集模块210，用于调用语音采集设备，采集当前环境中的语音；

语音处理模块220，用于按照预设的语音处理算法，对所述语音进行处理，得到单通道语音；

语音切分模块230，用于对所述单通道语音进行断句切分，得到包含预设类型声音的语音分段数据流；

特征提取模块240，用于从所述语音分段数据流中提取语音特征；

语音增强模块250，用于将所述语音特征输入预设的语音增强网络模型中，得到与所述语音特征对应的增强语音；

语音合成模块260，用于将所述增强语音合成为语音段。

图3为本发明实施例提供的一种的电子设备的结构示意图，图3所示的电子设备300包括：至少一个处理器301、存储器302、至少一个网络接口304和其他用户接口303。移动终端300中的各个组件通过总线系统305耦合在一起。可理解，总线系统305用于实现这些组件之间的连接通信。总线系统305除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统305。

其中，用户接口303可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本发明实施例中的存储器302可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-OnlyMemory，ROM)、可编程只读存储器(ProgrammableROM，PROM)、可擦除可编程只读存储器(ErasablePROM，EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(StaticRAM，SRAM)、动态随机存取存储器(DynamicRAM，DRAM)、同步动态随机存取存储器(SynchronousDRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM，DRRAM)。本文描述的存储器302旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器302存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统3021和应用程序3022。

其中，操作系统3021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序3022，包含各种应用程序，例如媒体播放器(MediaPlayer)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序3022中。

在本发明实施例中，通过调用存储器302存储的程序或指令，具体的，可以是应用程序3022中存储的程序或指令，处理器301用于执行各方法实施例所提供的方法步骤，例如包括：

调用语音采集设备，采集当前环境中的语音；按照预设的语音处理算法，对所述语音进行处理，得到单通道语音；对所述单通道语音进行断句切分，得到包含预设类型声音的语音分段数据流；从所述语音分段数据流中提取语音特征；将所述语音特征输入预设的语音增强网络模型中，得到与所述语音特征对应的增强语音；将所述增强语音合成为语音段。

上述本发明实施例揭示的方法可以应用于处理器301中，或者由处理器301实现。处理器301可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器301可以是通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecific IntegratedCircuit，ASIC)、现成可编程门阵列(FieldProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器302，处理器301读取存储器302中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits，ASIC)、数字信号处理器(DigitalSignalProcessing，DSP)、数字信号处理设备(DSPDevice，DSPD)、可编程逻辑设备(ProgrammableLogicDevice，PLD)、现场可编程门阵列(Field-ProgrammableGateArray，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本实施例提供的电子设备可以是如图3中所示的电子设备，可执行如图1中语音增强方法的所有步骤，进而实现图1所示语音增强方法的技术效果，具体请参照图1相关描述，为简洁描述，在此不作赘述。

本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在语音增强设备侧执行的语音增强方法。

所述处理器用于执行存储器中存储的语音增强程序，以实现以下在语音增强设备侧执行的语音增强方法的步骤：

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音增强方法，其特征在于，所述方法包括：

调用语音采集设备，采集当前环境中的语音；

对所述单通道语音进行断句切分，得到包含预设类型声音的语音分段数据流；

从所述语音分段数据流中提取短时傅里叶特征，包括：对所述语音分段数据流进行短时傅里叶变换，获得短时傅里叶特征；其中，对所述短时傅里叶特征求取绝对值，获得语音频谱；

将语音特征输入预设的语音增强网络模型中，得到与所述语音特征对应的增强语音，包括：预先构建基于自注意力机制的语音增强网络模型，捕捉长时依赖信息，并同时融合语音时间和频率域信息，其中，所述基于自注意力机制的语音增强网络模型额外增加边缘增强模块，细化语音纹理特征，使恢复语音清晰；将所述语音频谱输入基于自注意力机制的语音增强网络模型中，得到与所述语音频谱对应的增强语音频谱；

将所述增强语音合成为语音段。

2.根据权利要求1所述的方法，其特征在于，所述按照预设的语音处理算法，对所述语音进行处理，得到单通道语音，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述增强语音合成为语音段，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述单通道语音进行断句切分，得到包含预设类型声音的语音分段数据流，包括：

如果该帧语音包含预设类型声音，则保留该帧语音；

如果该帧语音不包含预设类型声音，则过滤该帧语音；

5.一种语音增强装置，其特征在于，所述装置包括：

特征提取模块，用于从所述语音分段数据流中提取短时傅里叶特征，包括：对所述语音分段数据流进行短时傅里叶变换，获得短时傅里叶特征；其中，对所述短时傅里叶特征求取绝对值，获得语音频谱；

语音增强模块，用于将语音特征输入预设的语音增强网络模型中，得到与所述语音特征对应的增强语音，包括：预先构建基于自注意力机制的语音增强网络模型，捕捉长时依赖信息，并同时融合语音时间和频率域信息，其中，所述基于自注意力机制的语音增强网络模型额外增加边缘增强模块，细化语音纹理特征，使恢复语音清晰；将所述语音频谱输入基于自注意力机制的语音增强网络模型中，得到与所述语音频谱对应的增强语音频谱；

语音合成模块，用于将所述增强语音合成为语音段。

6.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的语音增强程序，以实现权利要求1～4中任一项所述的语音增强方法。

7.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1～4中任一项所述的语音增强方法。