CN114550743A

CN114550743A - 一种语音增强方法、装置、计算机设备及存储介质

Info

Publication number: CN114550743A
Application number: CN202210168436.6A
Authority: CN
Inventors: 张之勇; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-05-27
Anticipated expiration: 2042-02-23
Also published as: CN114550743B

Abstract

本申请实施例属于人工智能领域，涉及一种语音增强方法、装置、计算机设备及存储介质，所述方法包括获取待增强语音数据，所述待增强语音数据包括多个声道语音数据,每个所述声道语音数据均携带有对应的声道空间信息；将所述多个声道语音数据输入目标全卷积网络的编辑器模块中的声道编码器进行独立编码处理后，基于每个声道语音数据对应的声道空间信息，在所述编辑器模块的跨声道注意力块中进行降噪处理，以得到所述多个声道语音数据对应的多个声道语音目标特征图；将所述多个声道语音目标特征图输入所述目标全卷积网络中的解码模块进行解码融合，得到增强后的目标语音数据。本申请能够提高语音增强算法的鲁棒性。

Description

一种语音增强方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及语音增强方法、装置、计算机设备及存储介质。

背景技术

随着语音增强领域不断发展，语音增强受到了越来越多的关注。语音增强是语音识别，情绪识别等噪音的关键点。随着深度学习的发展，依赖于数据的语音增强方法在使用单个麦克风时取得了突破。在大多数单通道方法中，首先将语音信号变换到频域，然后估计时频掩模，以确定每个掩膜的降噪量。然而，这种方法在相位谱估计和在低信噪比环境下表现不佳。一些方案估计了复杂域内的时频掩码，但网络不易训练。当处理多麦克风场景时，麦克风之间存在空间信息，可以利用空间信息进一步提高语音增强算法的性能。统计方法如波束形成和多通道维纳滤波首先估计麦克风之间的到达方向，然后利用线性滤波器增强来自估计源方向的输入信号，衰减来自其他方向的干扰。虽然这些方法快速且轻量级，但它们在恶劣的环境中，性能和鲁棒性并不可靠。

发明内容

本申请实施例的目的在于提出一种语音增强方法、装置、计算机设备及存储介质，以解决现有语音增强方法的性能和鲁棒性不可靠的问题。

为了解决上述技术问题，本申请实施例提供一种语音增强方法，采用了如下所述的技术方案：

获取待增强语音数据，所述待增强语音数据包括多个声道语音数据,每个所述声道语音数据均携带有对应的声道空间信息；

将所述多个声道语音数据输入目标全卷积网络的编辑器模块中的声道编码器进行独立编码处理后，基于每个声道语音数据对应的声道空间信息，在所述编辑器模块的跨声道注意力块中进行降噪处理，以得到所述多个声道语音数据对应的多个声道语音目标特征图；

将所述多个声道语音目标特征图输入所述目标全卷积网络中的解码模块进行解码融合，得到增强后的目标语音数据。

为了解决上述技术问题，本申请实施例还提供一种语音增强装置，采用了如下所述的技术方案：

获取模块，用于获取待增强语音数据，所述待增强语音数据包括多个声道语音数据,每个所述声道语音数据均携带有对应的声道空间信息；

降噪模块，用于将所述多个声道语音数据输入目标全卷积网络的编辑器模块中的声道编码器进行独立编码处理后，基于每个声道语音数据对应的声道空间信息，在所述编辑器模块的跨声道注意力块中进行降噪处理，以得到所述多个声道语音数据对应的多个声道语音目标特征图；

融合模块，用于将所述多个声道语音目标特征图输入所述目标全卷积网络中的解码模块进行解码融合，得到增强后的目标语音数据。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述实施例所述的语音增强方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述实施例所述的语音增强方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：能够通过获取待增强语音数据，所述待增强语音数据包括多个声道语音数据,每个所述声道语音数据均携带有对应的声道空间信息；将所述多个声道语音数据输入目标全卷积网络的编辑器模块中的声道编码器进行编码处理后，基于每个声道语音数据对应的声道空间信息，在所述编辑器模块的跨声道注意力块中进行降噪处理，以得到所述多个声道语音数据对应的多个声道语音目标特征图；将所述多个声道语音目标特征图输入所述目标全卷积网络中的解码模块进行解码融合，得到增强后的目标语音数据。这样对于多声道的语音数据，对每一条声道的语音数据均使用单独的声道编码器进行独立编码，各信道之间编码处理互不干扰。同时为了在声道编码器间交换信息，使用了跨声道注意力块的传递方式，有效利用多声道语音数据的空间信息，即使在混响和极噪声环境下也具有高性能，可以应对高信号失真，音素错误率等问题，进而提高网络性能，同时提高语音增强的鲁棒性。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1本申请实施例提供的语音增强方法的一个实施例的流程图；

图2是本申请实施例提供的一种目标全卷积网络的结构示意图；

图3是图1中步骤S102的一种具体实施方式的流程图；

图4是图3中步骤S202的一种具体实施方式的流程图；

图5是图1中步骤S103的一种具体实施方式的流程图；

图6是本申请实施例提供的语音增强装置的一个实施例的结构示意图；

图7是图6所示降噪模块的一种具体实施方式的结构示意图；

图8是图7所示降噪模块的一种具体实施方式的结构示意图；

图9是图6所示融合模块的一种具体实施方式的结构示意图；

图10是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

继续参考图1，示出了根据本申请的一种语音增强方法的一个实施例的流程图。该语音增强方法包括以下步骤：

步骤S101，获取待增强语音数据，待增强语音数据包括多个声道语音数据，每个声道语音数据均携带有对应的声道空间信息。

其中，上述待增强语音数据可以是需要进行语音增强的语音数据。上述多个声道语音数据是指来自多个不同声道的语音数据，比如来自声道一的语音数据，声道二的语音数据，声道三的语音数据，还可以是来自更多不同声道的语音数据。声道也可以称为通道。每个声道语音数据均携带有对应的声道空间信息。声道空间信息是声道的空间信息，比如，声道一的空间信息，声道二的空间信息，其中，声道的空间信息可以是采集设备的空间位置信息，具体可以用采集设备的位置信息来表示。

具体的，待增强语音数据可以是从预设语音数据库中获取的，当然，也可以是从本地语音数据库中获取得到的，还可以是实时从语音采集设备中采集得到的。多个声道语音数据可以通过多个不同空间位置的语音采集设备(如麦克风、话筒等)获取得到的。

步骤S102，将多个声道语音数据输入目标全卷积网络的编辑器模块中的声道编码器进行独立编码处理后，基于每个声道语音数据对应的声道空间信息，在编辑器模块的跨声道注意力块中进行降噪处理，以得到多个声道语音数据对应的多个声道语音目标特征图。

其中，如图2所示，上述目标全卷积网络包括编码器模块1以及解码模块4，编码器模块1包括多个声道编码器2以及设置在多个声道编码器2之间的跨声道注意力块3，每个声道编码器2均采用独立信道的频谱估计编码体系结构，每个声道编码器2独立处理一个声道语音数据，跨声道注意力块3的主要目标是推导出两个声道之间的关系，并实现多个声道编码器2之间的信息交互换。如图2所示，声道编码器2间的箭头线表示声道间的信息互换。解码模块4包括解码器6以及多个一维卷积层5。

上述声道语音数据与声道语音目标特征图一一对应，一个声道语音数据对应一个声道语音目标特征图。声道语音目标特征图均携带有对应声道空间信息。

在本发明实施例中，如图3所示，步骤S102具体包括：

步骤S201，将多声道语音数据分别输入多个声道编码器中进行独立编码，得到多个声道语音特征图。

步骤S202，基于每个声道语音数据对应的声道空间信息，将多个声道语音特征图输入跨声道注意力块中进行信息交换。

步骤S203，根据信息交换结果计算通道掩膜，根据通道掩膜对多个声道语音特征图进行降噪，以得到多个声道语音目标特征图。

具体的，声道编码器独立处理每个声道的语音数据，即每个声道编码器都能够独立对一个声道语音数据进行独立编码，进而得到多个声道语音特征图。来自每个声道编码器的声道语音特征图输入到跨声道注意力块中，然后在各声道之间信息互换。最后根据各声道之间信息互换结果来计算通道掩膜，并基于计算得到的通道掩膜对对应的声道语音特征图进行降噪，从而得到对应的声道语音目标特征图。

在本发明实施例中，对于每一个声道使用单独的声道编码器。并且为了能够利用不同声道的空间信息，在声道编码器间使用跨声道注意力块从而实现不同声道间的信息传递，有效的利用了多声道数据的空间信息，提高了网络性能。同时，通过计算各个通道掩膜来进行降噪，进一步提高语音质量。

更进一步的，如图4所示，步骤S202包括：

步骤301，将多个声道语音特征图中任意一个声道语音特征图作为参考声道语音特征图。

步骤302，将参考声道语音特征图，分别通过跨声道注意力块与多个声道语音特征图中，除了参考声道语音特征图以外的声道语音特征图进行信息交换。

具体的，当声道数大于两个时，选择一个声道作为参考声道(进而确定参考声道语音特征图)，并在参考声道和其他声道(除了参考声道语音特征图以外的声道语音特征图)之间遍历交换声道语音特征图。从而突出声道语音数据，抑制干扰语音，实现语音增强的效果。

需要说明的是，在现实生活中，目标源位置与干扰源位置相比变化不大；目标语音的时间延迟通常比干扰语音的延迟短。此外，即使在低信噪比的情况下，目标语音能量高于噪声能量。基于此，通过跨通道注意力块突出目标语音，同时减弱干扰语音，实现语音增强。

在本发明实施例中，任意两个声道语音数据的通道掩膜的计算公式为：

其中，M^l表示掩膜，

表示声道一的输入经过第一卷积层(一维卷积网络)，

表示第一卷积层的卷积核大小，

表示声道二的输入经过第二卷积层(一维卷积网络)，

表示第二卷积层的卷积核大小，tanh和σ_α,β为激活函数，

表示第三卷积层的卷积核大小。

需要说明的是，声道一的输入以及声道二的输入经过第一卷积层、第二卷积层和tanh激活函数后的两个输入进行元素乘积(元素相乘将会突出随时间变化缓慢且能量更高的区域，也就是和目标的语音关联度更高)，取绝对值后，经过可学习的sigmoid函数(σ_α,β)后再次通过第三卷积层(一维卷积网络)。

sigmoid激活函数(σ_α,β)的表达式为：

其中，α与M相关，M表示为掩膜，β表示的是一个阈值，它的值会高于想要抑制的噪音值，sigmoid函数的作用是过滤掉语音中的噪音成分。

更进一步地，跨声道注意力块与多个声道编码器之间采用残差连接方式，在步骤S203中之后，将降噪后的多个声道语音特征图与对应的原始输入的多个声道语音特征图进行融合，得到对应的多个声道语音目标特征图，多个声道语音目标特征图的最终输出结果为

的计算公式如下：

其中，

表示输出的第i个声道语音目标特征图，

第i个交换后的声道语音特征图。

在本发明实施例中，能够通过跨通道注意力块以及计算通道掩膜的方式进行降噪处理，以突出目标语音，同时减弱干扰语音，实现语音增强。

步骤S103，将多个声道语音目标特征图输入目标全卷积网络中的解码模块进行解码融合，得到增强后的目标语音数据。

在本发明实施例中，如图5所示，步骤S103具体包括：

步骤S401,将多个声道语音目标特征图分别输入多个一维卷积层进行卷积处理，得到多个声道语音卷积数据；

步骤S402,将多个声道语音卷积数据输入解码器中进行解码融合，得到增强后的目标语音数据。

具体的，在通过编码器模块处理后，首先通过一层一维卷积层将编码器模块的输出输入到解码器中。在每个解码层中，从编码层提取的特征图由一维卷积层后与解码层相融合，最后输出增强后的语音数据，进而实现语音增强效果。

在本发明实施例中，能够通过获取待增强语音数据，待增强语音数据包括多个声道语音数据,每个声道语音数据均携带有对应的声道空间信息；将多个声道语音数据输入目标全卷积网络的编辑器模块中的声道编码器进行编码处理后，基于每个声道语音数据对应的声道空间信息，在编辑器模块的跨声道注意力块中进行降噪处理，以得到多个声道语音数据对应的多个声道语音目标特征图；将多个声道语音目标特征图输入目标全卷积网络中的解码模块进行解码融合，得到增强后的目标语音数据。这样对于多声道的语音数据，对每一条声道的语音数据均使用单独的声道编码器进行独立编码，各信道之间编码处理互不干扰。同时为了在声道编码器间交换信息，使用了跨声道注意力块的传递方式，有效利用多声道语音数据的空间信息，即使在混响和极噪声环境下也具有高性能，可以应对高信号失真，音素错误率等问题，进而提高网络性能，同时提高语音增强算法的鲁棒性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图6，作为对上述图1所示方法的实现，本申请提供了一种语音增强装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例语音增强装置500包括：

获取模块501，用于获取待增强语音数据，待增强语音数据包括多个声道语音数据,每个声道语音数据均携带有对应的声道空间信息。

降噪模块502，用于将多个声道语音数据输入目标全卷积网络的编辑器模块中的声道编码器进行独立编码处理后，基于每个声道语音数据对应的声道空间信息，在编辑器模块的跨声道注意力块中进行降噪处理，以得到多个声道语音数据对应的多个声道语音目标特征图。

在本发明实施例中，如图7所示，降噪模块502包括：

编码单元5021，用于将多声道语音数据分别输入多个声道编码器中进行独立编码，得到多个声道语音特征图。

交换单元5022，用于基于每个声道语音数据对应的声道空间信息，将多个声道语音特征图输入跨声道注意力块中进行信息交换。

降噪单元5023，用于根据信息交换结果计算通道掩膜，根据通道掩膜对多个声道语音特征图进行降噪，以得到多个声道语音目标特征图。

更进一步的，如图8所示，交换单元5022包括：

确定子单元50221，用于将多个声道语音特征图中任意一个声道语音特征图作为参考声道语音特征图。

交换子单元50222，用于将参考声道语音特征图，分别通过跨声道注意力块与多个声道语音特征图中，除了参考声道语音特征图以外的声道语音特征图进行信息交换。

其中，M^l表示掩膜，

表示声道一的输入经过第一卷积层(一维卷积网络)，

表示第一卷积层的卷积核大小，

表示声道二的输入经过第二卷积层(一维卷积网络)，

表示第二卷积层的卷积核大小，tanh和σ_α,β为激活函数，

表示第三卷积层的卷积核大小。

sigmoid激活函数(σ_α,β)的表达式为：

更进一步地，跨声道注意力块与多个声道编码器之间采用残差连接方式，降噪单元5023中，将降噪后的多个声道语音特征图与对应的原始输入的多个声道语音特征图进行融合，得到对应的多个声道语音目标特征图，多个声道语音目标特征图的最终输出结果为

的计算公式如下：

其中，

表示输出的第i个声道语音目标特征图，

第i个交换后的声道语音特征图。

融合模块503，用于将多个声道语音目标特征图输入目标全卷积网络中的解码模块进行解码融合，得到增强后的目标语音数据。

在本发明实施例中，如图9所示，融合模块503包括：

卷积单元5031，用于将多个声道语音目标特征图分别输入多个一维卷积层进行卷积处理，得到多个声道语音卷积数据.

融合单元5032，用于将多个声道语音卷积数据输入解码器中进行解码融合，得到增强后的目标语音数据。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图10，图10为本实施例计算机设备基本结构框图。

计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是，图中仅示出了具有组件61-63的计算机设备6，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器61至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器61可以是计算机设备6的内部存储单元，例如该计算机设备6的硬盘或内存。在另一些实施例中，存储器61也可以是计算机设备6的外部存储设备，例如该计算机设备6上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器61还可以既包括计算机设备6的内部存储单元也包括其外部存储设备。本实施例中，存储器61通常用于存储安装于计算机设备6的操作系统和各类应用软件，例如语音增强方法的计算机可读指令等。此外，存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器62在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制计算机设备6的总体操作。本实施例中，处理器62用于运行存储器61中存储的计算机可读指令或者处理数据，例如运行语音增强方法的计算机可读指令。

网络接口63可包括无线网络接口或有线网络接口，该网络接口63通常用于在计算机设备6与其他电子设备之间建立通信连接。

本申请实施例提供的电子设备能够实现上述方法实施例中语音增强方法实现的各个过程，且可以达到相同的有益效果。为避免重复，这里不再赘述。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可读指令，计算机可读指令可被至少一个处理器执行，以使至少一个处理器执行如上述的语音增强方法的步骤。且能达到相同的技术效果，为避免重复，这里不再赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种语音增强方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的语音增强方法，其特征在于，所述编码器模块包括多个声道编码器以及设置在多个声道编码器之间的跨声道注意力块，每个声道编码器均采用独立信道的频谱估计编码体系结构；所述将所述多个声道语音数据输入目标全卷积网络的编辑器模块中的声道编码器进行独立编码处理后，基于每个声道语音数据对应的声道空间信息，在所述编辑器模块的跨声道注意力块中进行降噪处理，以得到所述多个声道语音数据对应的多个声道语音目标特征图，包括：

将所述多声道语音数据分别输入所述多个声道编码器中进行独立编码，得到多个声道语音特征图；

基于每个声道语音数据对应的声道空间信息，将所述多个声道语音特征图输入所述跨声道注意力块中进行信息交换；

根据信息交换结果计算通道掩膜，根据所述通道掩膜对所述多个声道语音特征图进行降噪，以得到多个声道语音目标特征图。

3.根据权利要求2所述的语音增强方法，其特征在于，所述基于每个声道语音数据对应的声道空间信息，将所述多个声道语音特征图输入所述跨声道注意力块中进行信息交换，包括：

将所述多个声道语音特征图中任意一个声道语音特征图作为参考声道语音特征图；

将所述参考声道语音特征图，分别通过所述跨声道注意力块与所述多个声道语音特征图中，除了所述参考声道语音特征图以外的声道语音特征图进行信息交换。

4.根据权利要求2所述的语音增强方法，其特征在于，所述通道掩膜的计算公式为：