CN109326299A

CN109326299A - 基于全卷积神经网络的语音增强方法、装置及存储介质

Info

Publication number: CN109326299A
Application number: CN201811350813.8A
Authority: CN
Inventors: 赵峰; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2019-02-12
Anticipated expiration: 2038-11-14
Also published as: CN109326299B; WO2020098256A1

Abstract

本发明属于人工智能领域，本发明公开了一种基于全卷积神经网络的语音增强方法，包括：构建全卷积神经网络模型，所述全卷积神经网络模型包括输入层、隐含层和输出层，所述隐含层为多个卷积层，每个卷积层均具有多个滤波器；训练所述全卷积神经网络模型；将原始语音信号输入经过训练的全卷积神经网络模型；输出增强语音信号。本发明的全卷积神经网络模型中，删除了全连接层，仅包含卷积层，大大减小了神经网络的参数，使得全卷积神经网络模型可以适用于限制内存的移动设备中，并且每个输出样本仅仅依赖相邻输入，可以通过更少的权重值很好地保留语音信号的原始信息和空间排列信息。本发明还公开了一种电子装置和计算机可读存储介质。

Description

基于全卷积神经网络的语音增强方法、装置及存储介质

技术领域

本发明涉及语音技术领域，尤其涉及一种基于全卷积神经网络的语音增强方法、装置及存储介质。

背景技术

语音增强，是指干净语音在现实的生活场景中受到各种噪声干扰时，需要通过一定的方法将噪声滤除，以提升该段语音的质量和可懂度的技术。日常生活中，麦克风采集的语音通常是带有不同噪声的“污染”语音，语音增强的主要目的就是从这些被“污染”的带噪语音中恢复出干净语音。语音增强涉及的应用领域十分广泛，包括语音通话、电话会议、场景录音、军事窃听、助听器设备和语音识别设备等，并成为许多语音编码和识别系统的预处理模块。以语音增强应用于助听器为例，通常的助听器，只是实现一个语音的基本放大，复杂一些的会进行声压级压缩以实现对患者听觉范围的补偿，但是如果听觉场景比较复杂，患者听到的语音中不仅包含了放大后的语音也包含了很多噪声，时间一长势必会对患者的听觉系统造成二次损害，因此高端的数字助听器设备中，语音增强也成为不容忽视的一个重要方面。

语音增强应用在语音相关应用的前端处理过程中，确保把语音从带噪信号中分离出来，以便后端识别模型正确识别语音的内容。现有的语音增强方法包括无监督语音增强方法和有监督语音增强方法，其中，无监督语音增强方法是提取语音信号的幅度谱或对数谱，相位信息被忽略，当将语音信号合成到时域时，相位信号不变的应用带噪语音信号的相位信息，会减弱增强语音信号的质量。有监督语音增强方法是基于神经网络的语音增强方法，而采用带有全连接层的深度神经网络(DNN，Deep Neural Network)和卷积神经网络(CNN，Convolutional Neural Network)进行有监督的语音增强，不能很好的表示模型的高低频成分，并且其中的全连接层也不能很好地保留信号的原始信息和空间排列信息。

发明内容

鉴于以上问题，本发明提供一种基于全卷积神经网络的语音增强方法、装置及存储介质，以解决现有的语音增强方法的神经网络模型不能很好地保留语音信号的原始信息和空间排列信息的问题。

为了实现上述目的，本发明提供一种基于全卷积神经网络的语音增强方法，包括：

构建全卷积神经网络模型，所述全卷积神经网络模型包括输入层、隐含层和输出层，所述隐含层为多个卷积层，每个卷积层均具有多个滤波器，所述输出层的输出模型为：

y_t＝F^T*R_t (1)

其中，y_t是输出层的第t个节点，F^T是滤波器的权重矩阵的转置，F∈R^f×1，f表示滤波器尺寸，R_t是隐含层的第t个节点；

训练所述全卷积神经网络模型；

将原始语音信号输入经过训练的全卷积神经网络模型；

输出增强语音信号。

优选地，根据下式构建全卷积神经网络模型的隐含层的模型：

其中，表示第1个隐含层的第j个节点的输出值，x_i表示输入层的第i个节点的变量，表示输入层第i个节点和第1个隐含层第k个节点的连接权重值，表示第1个隐含层第k个节点的偏移量，n表示输入层的节点数，表示第l个隐含层的第k个节点的输出值，表示第l-1个隐含层的第j个节点的输出值，表示第l个隐含层的第k个节点和第l-1个隐含层的第j个节点的连接权重值，表示第l个隐含层第k个节点的偏移量，H为隐含层的节点数，f为激励函数。

优选地，训练所述全卷积神经网络模型包括：

对所述全卷积神经网络模型的参数进行初始赋值，所述参数包括输入层和隐含层的连接权重值、相邻隐含层之间的连接权重值和隐含层的偏移量；

构建样本集，并将所述样本集按比例划分为训练样本集和测试样本集；

输入所述训练样本集中的一个训练样本，并从所述训练样本中提取特征向量；

将训练样本的输入数据代入公式(1)-(3)，计算隐含层各节点的输出值和输出层各节点的输出值；

计算输出层各节点误差：

e_k＝o_k-y_k (4)

其中，e_k表示输出层第k个节点的误差，o_k表示输出层第k个节点的实际值，y_k表示输出层第k个节点的输出值；

基于误差反向传播更新所述全卷积神经网络模型的参数；

输入下一个训练样本，继续更新全卷积神经网络模型的参数，直至训练样本集中的所有训练样本训练结束，完成一次迭代；

设定全卷积神经网络模型的损失函数：

其中，n表示输出层的节点数，o_k表示输出层第k个节点的实际值，y_k表示输出层第k个节点的输出值；

判断训练是否满足结束条件，如果满足结束条件，则结束训练，输出经过训练的全卷积神经网络模型，如果不满足结束条件，将继续训练模型，其中，所述结束条件包括第一结束条件或/和第二结束条件中的一个或两个，第一结束条件为当前迭代次数大于设定的最大迭代次数，第二结束条件为连续多次迭代时损失函数值的变化小于设定目标值。

优选地，根据下式计算测试误差：

其中，MSE表示测试误差，N表示测试样本集的样本个数，表示测试样本集的样本z在输出层第k个节点的实际值，表示测试样本集的样本z在输出层第k个节点的输出值。

优选地，测试样本集中的测试样本与训练样本集中的训练样本的信噪比不同，噪声类型也不同。

优选地，所述全卷积神经网络模型包括输入层、六个卷积层和输出层，每个卷积层均具有1024个节点，卷积跨度为1。

为了实现上述目的，本发明的另一个方面是提供一种电子装置，该电子装置包括：存储器和处理器，所述存储器中包括语音增强程序，所述语音增强程序被所述处理器执行时实现如下步骤：

y_t＝F^T*R_t (1)

训练所述全卷积神经网络模型；

将原始语音信号输入经过训练的全卷积神经网络模型；

输出增强语音信号。

优选地，所述全卷积神经网络模型中隐含层的模型为：

优选地，处理器训练所述全卷积神经网络模型包括：

计算输出层各节点误差：

e_k＝o_k-y_k (4)

基于误差反向传播更新所述全卷积神经网络模型的参数；

设定全卷积神经网络模型的损失函数：

为了实现上述目的，本发明的再一个方面是提供一种计算机可读存储介质，所述计算机可读存储介质中包括语音增强程序，所述语音增强程序被处理器执行时，实现如上所述的语音增强方法的步骤。

相对于现有技术，本发明具有以下优点和有益效果：

本发明通过构建全卷积神经网络模型作为语音增强模型，输入原始语音信号进行处理，得到增强语音信号。全卷积神经网络模型中，删除了全连接层，仅包含卷积层，大大减小了神经网络的参数，使得全卷积神经网络模型可以适用于限制内存的移动设备中，并且每个输出样本仅仅依赖相邻输入，可以通过相关的更少的权重值很好地保留语音信号的原始信息和空间排列信息。

附图说明

图1为本发明所述基于全卷积神经网络的语音增强方法的流程示意图；

图2为本发明中全卷积神经网络模型结构示意图；

图3为本发明中语音增强程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，仅仅用以解释本发明，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

图1为本发明所述基于全卷积神经网络的语音增强方法的流程示意图，如图1所示，本发明所述基于全卷积神经网络的语音增强方法包括以下步骤：

步骤S1、构建全卷积神经网络模型，如图2所示，所述全卷积神经网络模型包括输入层、隐含层和输出层，所述隐含层为多个卷积层，每个卷积层均具有多个滤波器，所述输出层的输出模型为：

y_t＝F^T*R_t (1)

其中，y_t是输出层的第t个节点，F^T是滤波器的权重矩阵的转置，F∈R^f×1(f表示滤波器尺寸)，R_t是隐含层的第t个节点；

步骤S2、训练所述全卷积神经网络模型；

步骤S3、将原始语音信号输入经过训练的全卷积神经网络模型；

步骤S4、输出增强语音信号。

本发明中，滤波器的权重矩阵F在卷积操作过程中是共享的，因此，无论输出层节点是高频部分还是低频部分，隐含层节点R_t与相邻的两个节点R_t-1和R_t+1不会很相似，隐含层节点与相邻节点是否相似取决于原始的输入层节点的输入，使得全卷积神经网络可以很好地保留原始输入信息。

本发明中通过构建全卷积神经网络模型作为语音增强模型，输入原始语音信号进行处理，得到增强语音信号。全卷积神经网络模型中，删除了全连接层，仅包含卷积层，大大减小了神经网络的参数，使得全卷积神经网络模型可以适应限制内存的移动设备中，例如手机等移动终端，并且每个输出样本仅仅依赖相邻输入，可以通过相关的更少的权重值很好地保留语音信号的原始信息和空间排列信息。

本发明的一个可选实施例中，所述全卷积神经网络模型包括：输入层、六个卷积层(具有padding)和输出层，每个卷积层均具有1024个节点，卷积跨度为1，每个卷积层均具有15个尺寸为11的滤波器，根据下式构建全卷积神经网络模型的隐含层的模型：

其中，表示第1个隐含层的第j个节点的输出值，x_i表示输入层的第i个节点的变量，表示输入层第i个节点和第1个隐含层第k个节点的连接权重值，表示第1个隐含层第k个节点的偏移量，n表示输入层的节点数，表示第l个隐含层的第k个节点的输出值，表示第l-1个隐含层的第j个节点的输出值，表示第l个隐含层的第k个节点和第l-1个隐含层的第j个节点的连接权重值，表示第l个隐含层第k个节点的偏移量，H为隐含层的节点数，f为激励函数，选择PReLUs激活函数。

本发明的一个可选实施例中，训练所述全卷积神经网络模型包括：

构建样本集，并将所述样本集按比例划分为训练样本集和测试样本集，其中，样本集中的样本可以从TIMIT语料库中随机选取，训练样本集和测试样本集中样本个数的比例为6：1，例如，从TIMIT语料库中随机选取700个短语，其中的600个短语构成训练样本集，其余的100个短语构成测试样本集，训练样本集中包含5种信噪比下的5种噪声类型(白噪声、粉噪声、办公室噪声、超市噪声和街道噪声)，测试样本集中包含与训练样本集中相同或不同的信噪比和噪声类型，信噪比可以不同，且噪声类型也可以不同，以使测试条件更加贴近真实。本发明中的训练样本集中仅列举出5种噪声类型，但本发明并不限于此。

输入所述训练样本集中的一个训练样本，并从所述训练样本中提取对数功率谱(LPS，Log power spectra)特征向量；例如，在输入的训练样本中，选取原始语音的512个采样点作为一帧，并且，每帧提取257维LPS向量作为特征向量。

计算输出层各节点误差：

e_k＝o_k-y_k (4)

基于误差反向传播更新所述全卷积神经网络模型的参数；

设定全卷积神经网络模型的损失函数：

优选地，根据下式计算测试误差：

其中，MSE表示测试误差，N表示测试样本集的样本个数，表示测试样本集的样本z在输出层第k个节点的实际值，表示测试样本集的样本z在输出层第k个节点的输出值。测试误差越小，表明构建的全卷积神经网络模型的精度越高。

本发明中，对全卷积神经网络模型的输出数据进行归一化处理，之后，再进行输出层节点误差的计算和测试误差的计算等，以减小测试误差，提高模型精度。

优选地，通过语音质量评价(PESQ，Perceptual evaluation of speech quality)评价语音质量，通过短时客观可懂度得分(STOI，Short Time ObjectiveIntelligibility)评价语音的可懂度。

通过本发明的全卷积神经网络模型进行语音增强，相对于包含全连接层的深度神经网络模型和卷积神经网络模型，PESQ和STOI均有所提高，PESQ可以提高0.5左右，STOI可以提高0.2-0.3左右。

本发明所述基于全卷积神经网络的语音增强方法应用于电子装置，电子装置可以是电视机、智能手机、平板电脑、计算机等终端设备。然而，电子装置并不限于所列举示例，电子装置可以是用户控制的通过语音识别技术处理用户命令的任何其他装置，通过对输入用户的语音进行语音增强处理，输出语音识别结果。

所述电子装置包括：存储器和处理器，所述存储器中包括语音增强程序，所述语音增强程序被所述处理器执行时实现如下步骤：

y_t＝F^T*R_t (1)

训练所述全卷积神经网络模型；

将原始语音信号输入经过训练的全卷积神经网络模型；

输出增强语音信号。

存储器包括至少一种类型的可读存储介质，可以是闪存、硬盘、光盘等非易失性存储介质，也可以是插接式硬盘等，且并不限于此，可以是以非暂时性方式存储指令或软件以及任何相关联的数据文件并向处理器提供指令或软件程序以使该处理器能够执行指令或软件程序的任何装置。

所述电子装置还包括语音接收器，通过电子装置的麦克风等设备接收用户的语音信号，再对输入的语音信号进行语音增强处理。

处理器可以是中央处理器、微处理器或其他数据处理芯片等，可以运行存储器中的存储程序。

本发明的一个可选实施例中，所述全卷积神经网络模型中隐含层的模型为：

其中，表示第1个隐含层的第j个节点的输出值，x_i表示输入层的第i个节点的变量，表示输入层第i个节点和第1个隐含层第k个节点的连接权重值，表示第1个隐含层第k个节点的偏移量，n表示输入层的节点数，表示第l个隐含层的第k个节点的输出值，表示第l-1个隐含层的第j个节点的输出值，表示第l个隐含层的第k个节点和第l-1个隐含层的第j个节点的连接权重值，表示第l个隐含层第k个节点的偏移量，H为隐含层的节点数，f为激励函数，其中，激励函数可以选择PReLUs激活函数、Sigmoid函数、tanh函数、Relu函数等函数。

本发明的一个实施例中，处理器训练所述全卷积神经网络模型的步骤包括：

构建样本集，并将所述样本集按比例划分为训练样本集和测试样本集，其中，样本集中的样本可以从TIMIT语料库中随机选取，训练样本集和测试样本集中样本个数的比例为6：1，例如，从TIMIT语料库中随机选取700个短语，其中的600个短语构成训练样本集，其余的100个短语构成测试样本集，训练样本集中包含5种信噪比下的5种噪声类型(白噪声、粉噪声、办公室噪声、超市噪声和街道噪声)，测试样本集中包含与训练样本集中相同或不同的信噪比和噪声类型，以使测试条件更加贴近真实。本发明中的训练样本集中仅列举出5种噪声类型，但本发明并不限于此；

计算输出层各节点误差：

e_k＝o_k-y_k (4)

基于误差反向传播更新所述全卷积神经网络模型的参数；

设定全卷积神经网络模型的损失函数：

优选地，根据下式计算测试误差：

在其他实施例中，语音增强程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器中，并由处理器执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。所述语音增强程序可以被分割为：模型构建模块1、模型训练模块2、输入模块3和输出模块4。上述模块所实现的功能或操作步骤均与上文类似，此处不再详述，示例性地，例如其中：

模型构建模块1，构建全卷积神经网络模型，所述全卷积神经网络模型包括输入层、隐含层和输出层，所述隐含层为多个卷积层，每个卷积层均具有多个滤波器，所述输出层的输出模型为：

y_t＝F^T*R_t (1)

其中，t是节点的索引，y_t是输出层的第t个节点，F是滤波器，F∈R^f×1，f表示滤波器尺寸，R_t是隐含层的第t个节点；

模型训练模块2，训练所述全卷积神经网络模型；

输入模块3，将原始语音信号输入经过训练的全卷积神经网络模型；

输出模块4，输出增强语音信号。

本发明的一个实施例中，计算机可读存储介质可以是任何包含或存储程序或指令的有形介质，其中的程序可以被执行，通过存储的程序指令相关的硬件实现相应的功能。例如，计算机可读存储介质可以是计算机磁盘、硬盘、随机存取存储器、只读存储器等。本发明并不限于此，可以是以非暂时性方式存储指令或软件以及任何相关数据文件或数据结构并且可提供给处理器以使处理器执行其中的程序或指令的任何装置。所述计算机可读存储介质中包括语音增强程序，所述语音增强程序被处理器执行时，实现如下的语音增强方法：

y_t＝F^T*R_t (1)

训练所述全卷积神经网络模型；

将原始语音信号输入经过训练的全卷积神经网络模型；

输出增强语音信号。

优选地，训练所述全卷积神经网络模型包括：

计算输出层各节点误差：

e_k＝o_k-y_k (4)

基于误差反向传播更新所述全卷积神经网络模型的参数；

设定全卷积神经网络模型的损失函数：

优选地，根据下式计算测试误差：

优选地，测试样本集中的测试样本与训练样本集中的训练样本的信噪比和噪声类型不同。

本发明之计算机可读存储介质的具体实施方式与上述语音增强方法、电子装置的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于全卷积神经网络的语音增强方法，应用于电子装置，其特征在于，

y_t＝F^T*R_t (1)

训练所述全卷积神经网络模型；

将原始语音信号输入经过训练的全卷积神经网络模型；

输出增强语音信号。

2.根据权利要求1所述的基于全卷积神经网络的语音增强方法，其特征在于，根据下式构建全卷积神经网络模型的隐含层的模型：

3.根据权利要求2所述的基于全卷积神经网络的语音增强方法，其特征在于，训练所述全卷积神经网络模型包括：

计算输出层各节点误差：

e_k＝o_k-y_k (4)

基于误差反向传播更新所述全卷积神经网络模型的参数；

设定全卷积神经网络模型的损失函数：

4.根据权利要求3所述的基于全卷积神经网络的语音增强方法，其特征在于，根据下式计算测试误差：

5.根据权利要求3所述的基于全卷积神经网络的语音增强方法，其特征在于，测试样本集中的测试样本与训练样本集中的训练样本的信噪比不同，且噪声类型也不同。

6.根据权利要求1至5中任一项所述的基于全卷积神经网络的语音增强方法，其特征在于，所述全卷积神经网络模型包括输入层、六个卷积层和输出层，每个卷积层均具有1024个节点，卷积跨度为1。

7.一种电子装置，其特征在于，该电子装置包括：存储器和处理器，所述存储器中包括语音增强程序，所述语音增强程序被所述处理器执行时实现如下步骤：

y_t＝F^T*R_t (1)

训练所述全卷积神经网络模型；

将原始语音信号输入经过训练的全卷积神经网络模型；

输出增强语音信号。

8.根据权利要求7所述的电子装置，其特征在于，所述全卷积神经网络模型中隐含层的模型为：

9.根据权利要求8所述的电子装置，其特征在于，处理器训练所述全卷积神经网络模型包括：

计算输出层各节点误差：

e_k＝o_k-y_k (4)

基于误差反向传播更新所述全卷积神经网络模型的参数；

设定全卷积神经网络模型的损失函数：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括语音增强程序，所述语音增强程序被处理器执行时，实现如权利要求1至6中任一项所述的语音增强方法的步骤。