CN110838307B

CN110838307B - 语音消息处理方法及装置

Info

Publication number: CN110838307B
Application number: CN201911125988.3A
Authority: CN
Inventors: 邵雅婷; 沈小正; 周强
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2022-02-25
Anticipated expiration: 2039-11-18
Also published as: CN110838307A

Abstract

本发明公开一种语音消息处理方法及装置。在该方法中，获取语音消息；提取与所述语音消息的至少一个语音帧分别相对应的至少一个语音特征，所述语音特征包括以下中任意的一者或多者：梅尔频率倒谱系数特征、巴克域频率倒谱系数特征和线性预测倒谱系数特征；针对所述语音消息中的各个语音帧，将所提取的关于各个语音帧的语音特征提供给语音噪音判别模型，以由该语音噪音判别模型确定各个语音帧是属于有效语音帧还是属于噪音帧；针对所述语音消息中的有效语音帧执行语音增强操作。由此，利用机器学习模型技术，能够较精确地识别语音帧中的有效语音帧和噪音帧，实现语音增强的目的，保障了语音信号的输出质量。

Description

语音消息处理方法及装置

技术领域

本发明属于互联网技术领域，尤其涉及一种语音消息处理方法及装置。

背景技术

语音信号处理是现代通信、多媒体应用和人工智能等领域的核心技术之一。在语音采集过程中，由于环境噪声、房间混响等影响，所获语音音质和清晰度会下降。语音增强作为一种前置处理方案，是一种有效的抑制干扰的方法。

在低信噪比环境下，通常用多通道系统获得高质量的语音通信，与单通道系统相比，多通道可以获得显著的性能提升，并且通道数越多，干扰抑制能力越强。多通道信号处理方法包括基于空间、基于能量差、相位差的方法等。其中，基于能量差的方法利用不同麦克风接收到的近场目标语音能量有差异而接收到的远场干扰信号能量几乎相同的原理，设计滤波器进行增强，但是这一方法只在目标语音在近场的情形下有效，而无法适用于目标语音在远场的情形。另外，基于相位差的方法利用补偿目标语音到达不同麦克风之间的时延差设计相应的滤波器，此方法对时延差估计有极高的要求，并且基于相位差时延差的方法会带来非线性的语音失真的问题。

针对上述问题，目前业界暂时并未提供较佳的解决方案。

发明内容

本发明实施例提供一种语音消息处理方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音消息处理方法，包括：获取语音消息；提取与所述语音消息的至少一个语音帧分别相对应的至少一个语音特征，所述语音特征包括以下中任意的一者或多者：梅尔频率倒谱系数特征、巴克域频率倒谱系数特征和线性预测倒谱系数特征；针对所述语音消息中的各个语音帧，将所提取的关于所述各个语音帧的语音特征提供给语音噪音判别模型，以由该语音噪音判别模型确定所述各个语音帧是属于有效语音帧还是属于噪音帧；针对所述语音消息中有效语音帧执行语音增强操作。

第二方面，本发明实施例提供一种语音消息处理装置，包括：语音消息获取单元，用于获取语音消息；语音特征提取单元，用于提取与所述语音消息的至少一个语音帧分别相对应的至少一个语音特征，所述语音特征包括以下中任意的一者或多者：梅尔频率倒谱系数特征、巴克域频率倒谱系数特征和线性预测倒谱系数特征；噪音帧识别单元，用于针对所述语音消息中的各个语音帧，将所提取的关于所述各个语音帧的语音特征提供给语音噪音判别模型，以由该语音噪音判别模型确定所述各个语音帧是属于有效语音帧还是属于噪音帧；语音增强单元，用于针对所述语音消息中有效语音帧执行语音增强操作。

第三方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明实施例的有益效果在于：在处理语音消息时，对语音消息的语音特征进行提取，并由语音噪音判别模型来判断各个语音帧是属于有效语音帧还是属于噪音帧，从而对语音消息中的有效语音帧执行语音增强操作。由此，利用机器学习模型技术，能够较精确地识别语音帧中的有效语音帧和噪音帧，实现语音增强的目的，保障了语音信号的输出质量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的语音消息处理方法的一示例的流程图；

图2示出了根据本发明实施例的对有效语音帧执行语音增强操作的一示例的流程图；

图3示出了根据本发明实施例的对有效语音帧执行语音增强操作的另一示例的流程图；

图4示出了根据本发明一实施例的语音消息处理装置的一示例的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“系统”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

图1示出了根据本发明实施例的语音消息处理方法的流程图，该方法的执行主体可以是各种语音处理设备，例如手机、音箱、电脑等等。通过实施本发明实施例的语音消息处理操作，至少可以实现语音增强功能，从而提升用户语音体验。

如图1所示，本发明实施例的语音消息处理方法的流程。在步骤110中、获取待处理的语音消息，例如通过设备上的麦克风采集语音消息。

接着，在步骤120中，提取与语音消息的至少一个语音帧分别相对应的至少一个语音特征，语音特征包括以下中任意的一者或多者：梅尔频率倒谱系数特征(MFCC,MelFrequency Cepstral Coefficents)、巴克域频率倒谱系数特征(BFCC,Bark FrequencyCepstral Coefficients)和线性预测倒谱系数特征(LPCC,Linear Prediction CepstrumCoefficient)。

应理解的是，语音消息可以具有多个语音帧，在对语音消息进行处理时，可以是针对语音消息中的各个语音帧分别进行处理。并且，一个语音帧所对应的语音特征的数量也可以是多个，其可以是由语音噪音判别模型所选用的特征维度来确定的。

接着，在步骤130中，针对语音消息中的各个语音帧，将所提取的关于各个语音帧的语音特征提供给语音噪音判别模型，以由该语音噪音判别模型确定各个语音帧是属于有效语音帧还是属于噪音帧。

如上面所描述的，语音噪音判别模型所具有的特征维度可以是与语音消息所对应的语音特征相匹配的，例如可以具有诸如MFCC特征、BFCC特征和LPCC特征之类的特征维度。进而，通过在各个特征维度上对语音帧所对应的语音特征进行评价，从而识别语音帧中的有效语音帧或噪音帧。

接着，在块141中，针对语音消息中的有效语音帧可以执行语音增强操作。

另外，在块142中，针对语音消息中的噪音帧可以执行滤除操作。

需说明的是，本发明实施例中的语音噪音判别模型可以采用各种类型的机器学习模型，例如深度神经网络模型等。在一些实施方式中，该语音噪音判别模型还可以是递归神经网络(RNN,Recurrent Neural Networks)。

另外，用于对语音噪音判别模型进行训练的数据样本集可以采用人工加噪的方式来确定的。示例性地，可以对干净语音叠加不同信噪比、不同类型的噪声数据，然后针对这些语音数据进行标注，例如VAD(Voice Activity Detection,语音活动检测)。进而，基于所确定的样本数据集可以对语音噪音判别模型进行训练。

在本实施例中，通过应用机器学习模型来对语音消息中的噪音帧和语音帧进行区分，并针对语音消息中的语音帧进行加强处理，可以实现语音增强的目的。

需说明的是，针对有效语音帧所执行的语音增强操作的操作方式可以是多样化的，例如可以基于空间滤波器针对语音消息中的有效语音帧执行MVDR(Minimum VarianceDistortionless Response,最小方差无失真响应)操作。

目前，基于空间滤波器的波束形成在前端语音信号处理中发挥着重要的作用，进而影响智能语音交互中的语音唤醒语音识别等。另外，MVDR(Minimum VarianceDistortionless Response，最小方差无失真响应)是其中一种重要的波束形成方法，当导向矢量已知时，MVDR在噪声抑制方面展现出优越的性能。

但是，在未知导向矢量的声学场景中，导向矢量的求解依旧是个极具挑战性的任务。并且，导向矢量与目标语音的波达方向(DOA，Direction Of Arrival)有关，当麦克风数目有限(甚至只有两个麦克风时)，噪声场景下的DOA几乎很难估准。

鉴于此，本发明实施例针对上述问题还提出了在针对有效语音帧进行语音增强处理方面的操作的改进，例如改进的MVDR等。

图2示出了根据本发明实施例的对有效语音帧执行语音增强操作的一示例的流程图。

如图2所示，在步骤210中，基于语音消息中的有效语音帧集进行SVD(SingularlyValuable Decomposition,奇异值分解)处理操作，以确定语音消息所对应的导向矢量。

在步骤220中，基于导向矢量与语音消息中的有效语音帧集和噪音帧集，确定MVDR滤波器系数。

在步骤230中，基于配置有MVDR滤波器系数的空间滤波器，对语音消息进行MVDR增强处理。

示例性地，可以是首先初始化针对噪音帧集的噪声协方差矩阵公式和针对有效语音帧集的语音协方差矩阵公式。

coh_noise(k,f)＝αcoh_noise(k-1,f)+(1-α)MIC(k,f)*MIC(k,f)^H

coh_noisy(k,f)＝βcoh_noisy(k-1,f)+(1-β)MIC(k,f)*MIC^H(k,f)

其中，k表示语音消息的第k个帧，f表示帧的第f个频点，coh_noise表示噪声协方差矩阵公式，coh_noisy表示语音协方差矩阵公式，α和β表示平滑因子，H表示共轭转置。MIC表示语音消息的原始帧向量(或输入向量)，以双通道为例，MIC(k,f)为2行1列的向量，此时coh_noise(k,f)为2行2列的矩阵。这里，可以利用coh_noise(k,f)和coh_noisy(k,f)分别更新噪音帧集对应的噪音协方差矩阵和有效语音帧对应的语音协方差矩阵。

当VAD＝1时，也就是针对有效语音集所对应的语音协方差矩阵，首先对语音协方差矩阵进行SVD分解，coh_noisy(k,f)的左奇异矩阵的第一列表明主成分语音分量的信息，因此可以将其作为语音的导向矢量d(k,f)。

进一步地，可以将上述的coh_noise(k,f)以及d(k,f)代入W_mvdr，W_mvdr可以表示MVDR滤波器系数。

W_mvdr(k,f)＝coh_noise(k,f)^-1d(k,f)/(d(k,f)^Hcoh_noise(k,f)^-1d(k,f))

在得到MVDR的滤波器系数之后，利用该系数配置空间滤波器，从而实现语音增强的目的。

在本实施例中，基于SVD操作和RNN模型的改进MVDR算法，可以在不需要估计DOA的情况下，借助VAD准确估计噪声协方差矩阵以及导向矢量，在噪声抑制方面展现优越的性能，并且带来较小的语音失真。另外，实验发现较小的RNN网络也能够带来优越的VAD检测性能，因此利用预先训练好的模型估计VAD并不会引入太大的计算量，可以保障语音系统的实时性能。

图3示出了根据本发明实施例的对有效语音帧执行语音增强操作的一示例的流程图。

如图3所示，在步骤310中，基于预设定的P-MVDR参数和语音消息中的有效语音帧集和噪音帧集，确定P-MVDR滤波器系数。

接着，在步骤320中，基于配置有P-MVDR滤波器系数的空间滤波器，对语音消息进行P-MVDR增强处理。

在本实施例中，采用参数MVDR(P-mvdr，parameter MVDR)操作替代MVDR操作，无需估计导向矢量，并可以直接利用噪声协方差矩阵和语音协方差矩阵估计滤波器系数。

示例性地，可以通过以下方式来确定P-MVDR滤波器系数：

W_pmvdr(k,f)＝coh_noise(k,f)^-1coh_noisy(k,f)/(trace(coh_noise(k,f)^- ¹coh_noisy(k,f))+p)

其中，k表示语音消息的第k个帧，f表示帧的第f个频点，coh_noise表示噪音帧集所对应的噪声协方差矩阵，coh_noisy表示有效语音帧集所对应的语音协方差矩阵，p表示预设定的P-MVDR参数，trace表示矩阵所对应的求迹符号，W_pmvdr表示P-MVDR滤波器系数。

在本实施例中，可以避免对导向矢量的估计操作，减少了因SVD分解的计算量，使得算法更为简洁。但是，需要经过大量的预先的实验操作来确定P-MVDR参数，以保障语音功能的鲁棒性。

图4示出了根据本发明一实施例的语音消息处理装置400的结构框图。

如图4所示，语音消息处理装置400包括语音消息获取单元410、语音特征提取单元420、噪音帧识别单元430和语音增强单元440。

语音消息获取单元410用于获取语音消息。

语音特征提取单元420用于提取与所述语音消息的至少一个语音帧分别相对应的至少一个语音特征，所述语音特征包括以下中任意的一者或多者：梅尔频率倒谱系数特征、巴克域频率倒谱系数特征和线性预测倒谱系数特征。

噪音帧识别单元430用于针对所述语音消息中的各个语音帧，将所提取的关于各个语音帧的语音特征提供给语音噪音判别模型，以由该语音噪音判别模型确定各个语音帧是属于有效语音帧还是属于噪音帧。

语音增强单元440用于针对所述语音消息中有效语音帧执行语音增强操作。

上述本发明实施例的装置可用于执行本发明中相应的方法实施例，并相应的达到上述本发明方法实施例所达到的技术效果，这里不再赘述。

本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

另一方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行如上的人机对话打断方法的步骤。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的客户端以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音消息处理方法，包括：

获取语音消息；

提取与所述语音消息的至少一个语音帧分别相对应的至少一个语音特征，所述语音特征包括以下中任意的一者或多者：梅尔频率倒谱系数特征、巴克域频率倒谱系数特征和线性预测倒谱系数特征；

针对所述语音消息中的各个语音帧，将所提取的关于所述各个语音帧的语音特征提供给语音噪音判别模型，以由所述语音噪音判别模型确定所述各个语音帧是属于有效语音帧还是属于噪音帧；

针对所述语音消息中的有效语音帧执行语音增强操作；

针对所述语音消息中的有效语音帧执行语音增强操作包括：

基于所述语音消息中的有效语音帧集进行SVD处理操作，以确定所述语音消息所对应的导向矢量；

基于所述导向矢量与所述语音消息中的有效语音帧集和噪音帧集，确定MVDR滤波器系数；以及

基于配置有所述MVDR滤波器系数的空间滤波器，对所述语音消息进行MVDR增强处理。

2.如权利要求1所述的方法，其中，通过以下方式来确定所述MVDR滤波器系数：

coh_noise(k,f)＝αcoh_noise(k-1,f)+(1-α)MIC(k,f)*MIC(k,f)^H

coh_noisy(k,f)＝βcoh_noisy(k-1,f)+(1-β)MIC(k,f)*MIC^H(k,f)

W_mvdr(k,f)＝coh_noise(k,f)^-1d(k,f)/(d(k,f)^Hcoh_noise(k,f)^-1d(k,f))

其中，k表示语音消息的第k个帧，f表示帧的第f个频点，d表示导向矢量，coh_noise表示噪音帧集所对应的噪声协方差矩阵，coh_noisy表示有效语音帧集所对应的语音协方差矩阵，α和β表示平滑因子，H表示共轭转置，MIC表示语音消息的原始帧向量，W_mvdr表示MVDR滤波器系数。

3.如权利要求1所述的方法，其中，针对所述语音消息中的有效语音帧执行语音增强操作包括：

基于预设定的P-MVDR参数和所述语音消息中的有效语音帧集和噪音帧集，确定P-MVDR滤波器系数；

基于配置有所述P-MVDR滤波器系数的空间滤波器，对所述语音消息进行P-MVDR增强处理。

4.如权利要求3所述的方法，其中，通过以下方式来确定所述P-MVDR滤波器系数：

W_pmvdr(k,f)＝coh_noise(k,f)^-1coh_noisy(k,f)/(trace(coh_noise(k,f)^-1coh_noisy(k,f))+p)

5.如权利要求1所述的方法，还包括：

针对所述语音消息中的噪音帧执行滤除操作。

6.如权利要求1所述的方法，其中，所述语音噪音判别模型包括递归神经网络。

7.一种语音消息处理装置，包括：

语音消息获取单元，用于获取语音消息；

语音特征提取单元，用于提取与所述语音消息的至少一个语音帧分别相对应的至少一个语音特征，所述语音特征包括以下中任意的一者或多者：梅尔频率倒谱系数特征、巴克域频率倒谱系数特征和线性预测倒谱系数特征；

噪音帧识别单元，用于针对所述语音消息中的各个语音帧，将所提取的关于所述各个语音帧的语音特征提供给语音噪音判别模型，以由该语音噪音判别模型确定所述各个语音帧是属于有效语音帧还是属于噪音帧；

语音增强单元，用于针对所述语音消息中有效语音帧执行语音增强操作；

针对所述语音消息中的有效语音帧执行语音增强操作包括：

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。