CN112951263B

CN112951263B - 语音增强方法、装置、设备和存储介质

Info

Publication number: CN112951263B
Application number: CN202110287956.4A
Authority: CN
Inventors: 关海欣; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd; Shenzhen Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Shenzhen Yunzhisheng Information Technology Co Ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2022-08-02
Anticipated expiration: 2041-03-17
Also published as: CN112951263A

Abstract

本发明涉及一种语音增强方法、装置、设备和存储介质，方法包括对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号，根据每个通道的频域信号的相位进行信号规整，得到每个通道的仅与麦克风阵列拓扑结构相关联的规整信号后，利用预设长度的样本数据对应的每个通道的样本规整信号，对待训练CGMM进行训练，得到目标CGMM，并使用目标CGMM，确定语音数据的时频掩膜信息，实现了所有通道的频域信号的统一建模，降低了计算量、内存占用量较小，进而降低了资源消耗，避免了因此存在多个CGMM时造成的排序问题，从而提高了得到的掩膜信息准确度，提高语音增强的结果的可靠性。

Description

语音增强方法、装置、设备和存储介质

技术领域

本发明涉及语音识别技术领域，具体涉及一种语音增强方法、装置、设备和存储介质。

背景技术

目前，语音增强技术是语音信号处理必不可少的部分，能够提高音频信号的信噪比，使得语音增强时更少的被噪声影响。波束形成方法是语音增强技术中，多通道信号增强领域最具效果的方法。

通常情况下，大多通过复高斯混合模型(Complex Gaussian Mixture Model，CGMM)得到时频点的掩膜信息，计算语音协方差矩阵和噪声协方差矩阵后，再利用最小方差无失真响应(Minimum Variance Distortionless Response，MVDR)进行语音增强。

但通过CGMM得到时频点的掩膜信息面临两个问题：

第一、各个频带独立建模，则存在排序问题，即在每个频带使用CGMM方法聚类得到多个类别的掩膜信息时，各掩膜信息所对应的类别是不确定的。例如，第3个频带聚类了两类A3、B3，第5个频带也聚了两类A5、B5，那么最理想情况是A3与A5是一类，但由于每个频带完全独立建模，没有顺序，所以结果往往不一定，可能A3与B5是一类，导致得到的掩膜信息不准确，语音增强的结果的可靠性较差。

其二，每个频带独立建模，则需要建立/存储数百个模型，计算量大、内存占用大，即资源消耗大。

因此，如何降低建模时的资源消耗，提高语音增强的结果的可靠性是本领域技术人员亟待解决的技术问题。

发明内容

本发明提供一种语音增强方法、装置、设备和存储介质，以解决现有技术中语音增强的结果可靠性较差，资源消耗大的技术问题。

本发明解决上述技术问题的技术方案如下：

一种语音增强方法，包括：

对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号；

根据每个通道的频域信号的相位进行信号规整，得到每个通道的规整信号；其中，所述规整信号为仅与麦克风阵列拓扑结构相关联的信号；

利用预设长度的样本数据对应的每个通道的样本规整信号，对待训练复高斯混合模型进行训练，得到训练后的目标复高斯混合模型；

利用所述目标复高斯混合模型，确定所述语音数据的时频掩膜信息；

利用所述语音数据的时频掩膜信息，对所述语音数据进行波束增强，得到增强语音数据。

进一步地，上述所述的语音增强方法中，根据每个通道的频域信号的相位进行信号规整，得到每个通道的规整信号，包括：

根据选取的参考通道的音频信号的相位，对每个通道的音频信号进行频率移除，得到每个通道的频率移除信号；

对每个通道的频率移除信号进行幅值移除，得到每个通道的幅值移除信号作为所述每个通道的规整信号。

进一步地，上述所述的语音增强方法中，根据选取的参考通道的音频信号的相位，对每个通道的音频信号进行频率移除，得到每个通道的频率移除信号，包括：

计算每个通道的音频信号与参考通道音频信号的相位差；

对计算的每个相位差进行规制，得到每个规制相位差；

将每个规制相位差与对应音频信号的模相乘，得到每个通道的频率移除信号。

进一步地，上述所述的语音增强方法中，利用所述语音数据的时频掩膜信息，对所述语音数据进行波束增强，得到增强语音数据，包括：

根据语音数据的时频掩膜信息，计算语音协方差矩阵和噪声协方差矩阵；

根据语音协方差矩阵和噪声协方差矩阵，确定波束形成器的最优权值；

通过波束形成器实现MVDR最小方差无失真响应波束形成算法，对所述语音数据进行波束增强，得到所述增强语音数据。

本发明还提供一种语音增强装置，包括：

转换模块，用于对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号；

规整模块，用于根据每个通道的频域信号的相位进行信号规整，得到每个通道的规整信号；其中，所述规整信号为仅与麦克风阵列拓扑结构相关联的信号；

训练模块，用于利用预设长度的样本数据对应的每个通道的样本规整信号，对待训练复高斯混合CGMM模型进行训练，得到训练后的目标CGMM模型；

确定模块，用于利用所述目标CGMM模型，确定所述语音数据的时频掩膜信息；

增强模块，用于利用所述语音数据的时频掩膜信息，对所述语音数据进行波束增强，得到增强语音数据。

进一步地，上述所述的语音增强装置中，所述规整模块，具体用于：

进一步地，上述所述的语音增强装置中，所述规整模块还用于：

计算每个通道的音频信号与参考通道音频信号的相位的相位差；

对计算的每个相位差进行规制，得到每个规制相位差；

进一步地，上述所述的语音增强装置中，所述增强模块，具体用于：

本发明还提供一种语音增强设备，包括：处理器和存储器；

所述处理器用于执行所述存储器中存储的应用程序，以实现上述任一项所述的语音增强方法。

本发明还提供一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被执行时实现上述任一项所述的语音增强方法。

本发明的有益效果是：

通过对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号，并根据每个通道的频域信号的相位进行信号规整，得到每个通道的仅与麦克风阵列拓扑结构相关联的规整信号后，利用预设长度的样本数据对应的每个通道的样本规整信号，对待训练CGMM进行训练，得到训练后的目标CGMM，实现了所有通道的频域信号的统一建模，降低了计算量、内存占用量较小，进而降低了资源消耗。并利用所有通道的频域信号的统一建模得到的目标CGMM，确定语音数据的时频掩膜信息，避免了因此存在多个CGMM时造成的排序问题，从而提高了得到的掩膜信息准确度，提高语音增强的结果的可靠性。

附图说明

图1为本发明的语音增强方法实施例的流程图；

图2为本发明的语音增强装置实施例的结构示意图；

图3为本发明的语音增强设备的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明的语音增强方法实施例的流程图，如图1所示，本实施例的语音增强方法具体可以包括如下步骤：

100、对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号；

在一个具体实现过程中，可以对获取的语音数据中每个通道的音频信号进行分帧、加窗处理，并进一步经短时傅里叶变换(Short-Time Fourier Transform，STFT)转换，得到每个通道的频域信号。

101、根据每个通道的频域信号的相位进行信号规整，得到每个通道的规整信号；

在实际应用中，由于每个通道的频率不同，观测的各个通道的方向矢量虽然方向一致，但各个通道的音频信号并不具有一致性，所以每个通道的频域信号无法放在一起建模，因此，为了解决上述技术问题，本实施例中，可以根据每个通道的频域信号的相位进行信号规整，以使得到的每个通道的规整信号仅与麦克风阵列拓扑结构相关联，即每个通道的规整信号仅与麦克风阵列传输路径有关，使得每个通道的频域信号能够放在一起进行建模。

具体地，该步骤可以按照如下方式实现：

(1)根据选取的参考通道的音频信号的相位，对每个通道的音频信号进行频率移除，得到每个通道的频率移除信号；

在一个具体实现过程中，可以计算每个通道的音频信号与参考通道音频信号的相位差；对计算的每个相位差进行规制，得到每个规制相位差；将每个规制相位差与对应音频信号的模相乘，得到每个通道的频率移除信号。

具体地，可以按照计算式(1)对每个通道的音频信号进行频率移除。

其中，J表示参考通道；j表示第j通道，j＝(1、2....j)；

表示频率移除信号；f表示频率；τ表示时间；|x_j(f,τ)|表示音频信号的模，arg表示取相位角运算，arg[x_j(f,τ)/x_J(f,τ)]表示每个通道的音频信号与参考通道音频信号的相位差；d_max阵元最大间距；c表示声音在空气中传播速度；w表示角速度。

有上述计算式(1)可知，本实施例中经过计算后，f被消除，使得每个通道的音频信号不再与频率相关。

(2)对每个通道的频率移除信号进行幅值移除，得到每个通道的幅值移除信号作为所述每个通道的规整信号。

在一个具体实现过程中，在得到每个通道的频率移除信号后，可以进一步对每个通道的频率移除信号进行幅值移除，以便消除能量干扰，从而得到每个通道的幅值移除信号作为每个通道的规整信号。

经上述处理后，即可使得到的每个通道的规整信号仅与麦克风阵列拓扑结构相关联，即每个通道的规整信号仅与麦克风阵列传输路径有关，使得每个通道的频域信号能够放在一起进行建模。

102、利用预设长度的样本数据对应的每个通道的样本规整信号，对待训练CGMM进行训练，得到训练后的目标CGMM；

在一个具体实现过程中，可以根据预设长度从语音数据中选取对应的样本数据，并利用预设长度的样本数据对应的每个通道的样本规整信号，对待训练CGMM进行训练，得到训练后的目标CGMM。

具体地，初始化步骤：可以从预设长度的样本数据中抽取第一块数据T1和第二块数据T2，两块数据的长度分别小于预设长度，数据帧数不低于通道数目的5倍，比如4mic，通常我们使用20帧以上数据用于初始化。利用两块数据对待训练CGMM进行初始化。其中，对于离线处理任务，抽取数据快可以在整段数据随机抽取，对于在线处理任务，通常选取前面数据快初始化。

迭代训练步骤：经过对待训练CGMM进行初始化后，即可基于设定迭代算法及设定迭代次数，利用选取的样本数据迭代CGMM模型的参数，最终得到训练后的目标CGMM。

103、利用目标CGMM，确定语音数据的时频掩膜信息；

在得到目标CGMM后，可以将每个可用的语音数据中每个通道的规整信号输入目标CGMM，以确定语音数据的时频掩膜信息。

104、利用语音数据的时频掩膜信息，对语音数据进行波束增强，得到增强语音数据。

在一个具体实现过程中，可以根据语音数据的时频掩膜信息，计算语音协方差矩阵和噪声协方差矩阵；根据语音协方差矩阵和噪声协方差矩阵，确定波束形成器的最优权值；通过波束形成器实现MVDR最小方差无失真响应波束形成算法，对语音数据进行波束增强，得到增强语音数据。

本实施例的语音增强方法，通过对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号，并根据每个通道的频域信号的相位进行信号规整，得到每个通道的仅与麦克风阵列拓扑结构相关联的规整信号后，利用预设长度的样本数据对应的每个通道的样本规整信号，对待训练CGMM进行训练，得到训练后的目标CGMM，实现了所有通道的频域信号的统一建模，降低了计算量、内存占用量较小，进而降低了资源消耗。并利用所有通道的频域信号的统一建模得到的目标CGMM，确定语音数据的时频掩膜信息，避免了因此存在多个CGMM时造成的排序问题，从而提高了得到的掩膜信息准确度，提高语音增强的结果的可靠性。

需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成的方法。

图2为本发明的语音增强装置实施例的结构示意图，如图2所示，本实施例的语音增强装置可以包括转换模块20、规整模块21、训练模块22、确定模块23和增强模块24。

转换模块20，用于对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号；

规整模块21，用于根据每个通道的频域信号的相位进行信号规整，得到每个通道的规整信号；其中，规整信号为仅与麦克风阵列拓扑结构相关联的信号；

在一个具体实现过程中，规整模块21，具体用于：

根据选取的参考通道的音频信号的相位，对每个通道的音频信号进行频率移除，得到每个通道的频率移除信号；对每个通道的频率移除信号进行幅值移除，得到每个通道的幅值移除信号作为所述每个通道的规整信号。

在一个具体实现过程中，规整模块21，还用于：

计算每个通道的音频信号与参考通道音频信号的相位的相位差；对计算的每个相位差进行规制，得到每个规制相位差；将每个规制相位差与对应音频信号的模相乘，得到每个通道的频率移除信号。

训练模块22，用于利用预设长度的样本数据对应的每个通道的样本规整信号，对待训练复高斯混合CGMM模型进行训练，得到训练后的目标CGMM模型；

确定模块23，用于利用目标CGMM模型，确定语音数据的时频掩膜信息；

增强模块24，用于利用语音数据的时频掩膜信息，对语音数据进行波束增强，得到增强语音数据。

在一个具体实现过程中，增强模块24，具体用于：

本实施例的语音增强装置通过对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号，并根据每个通道的频域信号的相位进行信号规整，得到每个通道的仅与麦克风阵列拓扑结构相关联的规整信号后，利用预设长度的样本数据对应的每个通道的样本规整信号，对待训练CGMM进行训练，得到训练后的目标CGMM，实现了所有通道的频域信号的统一建模，降低了计算量、内存占用量较小，进而降低了资源消耗。并利用所有通道的频域信号的统一建模得到的目标CGMM，确定语音数据的时频掩膜信息，避免了因此存在多个CGMM时造成的排序问题，从而提高了得到的掩膜信息准确度，提高语音增强的结果的可靠性。

上述实施例的装置用于实现前述实施例中相应的方法，其具体实现方案可以参见前述实施例记载的方法及方法实施例中的相关说明，并且具有相应的方法实施例的有益效果，在此不再赘述。

图3为本发明的语音增强设备的结构示意图，如图3所示，本实施例的通行设备可以包括：处理器1010和存储器1020。本领域技术人员可知的，该设备还可以包括输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本发明还提供一种存储介质，其存储有一个或者多个程序，所述一个或者多个程序可被执行时实现上述实施例的音增强方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音增强方法，其特征在于，包括：

对每个通道的频率移除信号进行幅值移除，得到每个通道的幅值移除信号作为所述每个通道的规整信号；其中，所述规整信号为仅与麦克风阵列拓扑结构相关联的信号；

2.根据权利要求1所述的语音增强方法，其特征在于，根据选取的参考通道的音频信号的相位，对每个通道的音频信号进行频率移除，得到每个通道的频率移除信号，包括：

计算每个通道的音频信号与参考通道音频信号的相位差；

对计算的每个相位差进行规制，得到每个规制相位差；

3.根据权利要求1所述的语音增强方法，其特征在于，利用所述语音数据的时频掩膜信息，对所述语音数据进行波束增强，得到增强语音数据，包括：

4.一种语音增强装置，其特征在于，包括：

规整模块，用于根据选取的参考通道的音频信号的相位，对每个通道的音频信号进行频率移除，得到每个通道的频率移除信号；对每个通道的频率移除信号进行幅值移除，得到每个通道的幅值移除信号作为所述每个通道的规整信号；其中，所述规整信号为仅与麦克风阵列拓扑结构相关联的信号；

5.根据权利要求4所述的语音增强装置，其特征在于，所述规整模块还用于：

对计算的每个相位差进行规制，得到每个规制相位差；

6.根据权利要求4所述的语音增强装置，其特征在于，所述增强模块，具体用于：

7.一种语音增强设备，其特征在于，包括：处理器和存储器；

所述处理器用于执行所述存储器中存储的应用程序，以实现权利要求1-3任一项所述的语音增强方法。

8.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被执行时实现权利要求1-3 任一项所述的语音增强方法。