CN111326170B

CN111326170B - 联合时频域扩张卷积的耳语音向正常音转换方法及其装置

Info

Publication number: CN111326170B
Application number: CN202010105525.7A
Authority: CN
Inventors: 周健; 黄岩
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2022-12-13
Anticipated expiration: 2040-02-20
Also published as: CN111326170A

Abstract

本发明公开了一种联合时频域扩张卷积的耳语音向正常音转换方法及其装置。该方法包括：提取耳语音的谱包络，正常音的谱包络、非周期成分以及基频；将谱包络对齐，并转化为第一梅尔倒谱系数特征、第二梅尔倒谱系数特征；训练出谱包络转换模型、非周期转换模型以及基频转换模型；提取耳语的谱包络，并转化为第三梅尔倒谱系数特征；将第三梅尔倒谱系数特征进行转换，获得预测梅尔倒谱系数特征、预测非周期成分以及预测基频；将预测梅尔倒谱系数特征还原成预测谱包络；将预测谱包络、预测非周期成分以及预测基频合成为预测语音。本发明有效捕获语音时频域局部特征，可以显著降低模型参数量，提高语音转换速率，提升语音质量、语音可懂度以及连续性。

Description

联合时频域扩张卷积的耳语音向正常音转换方法及其装置

技术领域

本发明涉及声学技术领域的一种语音转换方法，尤其涉及一种联合时频域扩张卷积的耳语音向正常音转换方法，还涉及应用该方法的联合时频域扩张卷积的耳语音向正常音转换装置。

背景技术

耳语音是人与人之间一种特殊而重要的语言交流方式，被广泛应用于禁止大声喧哗的场所。此外，在机器轰鸣的工厂车间，为了减少噪音干扰，一个有效的通信方式是采用骨导麦克风代替传统的气导麦克风采集和传递语音信号，这种骨导语音信号与耳语音信号具有非常相似的声学特性。由于耳语音中缺少声带振动信息，可懂度与自然度较低。将耳语向正常音转换是理解耳语语义信息的一个有效手段，在人机交互、医疗通讯等领域有极大的应用价值。由于耳语音独特的发音机理，早期研究主要集中在基于规则的耳语音转换。这类转换方法根据耳语音与正常音频谱间的统计特性，采用约定的规则将耳语音频谱向正常音频谱转换，以实现耳语音转换目的。现有基于规则的耳语音转换方法有混合激励线性预测(Mixed Excitation Linear Prediction,MELP)、码激励线性预测编码(Code ExcitedLinear Prediction,CELP)、线性预测编码(Linear Prediction Coding,LPC)等。但该类方法基于整体统计特性假设，忽略了不同语句间存在的差异，使得转换后语音的质量较低，可懂度与自然度难以令人满意。

近年来，统计模型逐渐成为解决耳语转换问题的主要途径。通过对频谱间非线性映射关系的建模，基于统计模型的耳语转换方法显著提升了转换后语音的质量。统计模型分为两种，一种是高斯混合模型(Gaussian Mixture Model, GMM)，另一种是神经网络模型。得益于强大的非线性描述能力，神经网络模型有着更好的耳语转换性能。然而，语音时频域中蕴含着丰富的语言声学模式信息，相邻语音帧频域特征较为稳定，同一帧语音频域信息又有着特定分布，现有的耳语音转换方法没有充分有效利用这些局部特征，使得语音质量、语音可懂度以及连续性均比较差。

发明内容

为解决现有的耳语音转换方法的语音质量、语音可懂度以及连续性均比较差的技术问题，本发明提供一种联合时频域扩张卷积的耳语音向正常音转换方法及其装置。

本发明采用以下技术方案实现：一种联合时频域扩张卷积的耳语音向正常音转换方法，其用于将至少一组耳语转换为至少一组预测语音，其包括以下步骤：

一、生成训练系统：

(1.1)提取至少一组耳语音的谱包络，并提取至少一组正常音的谱包络、非周期成分以及基频；

(1.2)将所述耳语音的谱包络及所述正常音的谱包络对齐，并将所述耳语音的谱包络转化为第一梅尔倒谱系数特征，将所述正常音的谱包络转化为第二梅尔倒谱系数特征；

(1.3)使用所述第一梅尔倒谱系数特征与对应的第二梅尔倒谱系数特征训练出所述训练系统中的谱包络转换模型，使用所述第一梅尔倒谱系数特征与对应的非周期成分训练出所述训练系统中的非周期转换模型，使用所述第一梅尔倒谱系数特征与对应的基频训练出所述训练系统中的基频转换模型；

二、通过所述训练系统进行语音转换：

(2.1)提取所述耳语的谱包络，并将所述耳语的谱包络转化为第三梅尔倒谱系数特征；

(2.2)将所述第三梅尔倒谱系数特征输入至所述谱包络转换模型、所述非周期转换模型以及所述基频转换模型中并进行转换，以获得至少一个预测梅尔倒谱系数特征、至少一个预测非周期成分以及至少一个预测基频；

(2.3)将所述预测梅尔倒谱系数特征还原成一个预测谱包络；

(2.4)将所述预测谱包络、所述预测非周期成分以及所述预测基频合成为所述预测语音。

本发明通过先提取耳语音谱包络，并提取正常音的谱包络、非周期成分以及基频，再将谱包络转化为梅尔倒谱系数特征，最后将耳语音的梅尔倒谱系数特征与正常音的梅尔倒谱系数特征、非周期成分以及基频分别进行训练，从而生成训练系统的三个训练模型，而后提取耳语的谱包络并转化为相应的梅尔倒谱系数特征，再将该梅尔倒谱系数特征导入到之前训练的三个训练模型中进行转换，以获得三个预测特征，然后将预测梅尔倒谱系数特征还原成预测谱包络，最后将预测谱包络、预测非周期成分以及预测基频合成为预测语音，实现对耳语的语音转换，利用卷积神经网络有效捕获语音时频域局部特征，同时因其权值共享的特性，可以显著降低模型参数量，提高语音转换速率，可以在不损失分辨率的情况下增大模型感受野，帮助模型更有效地利用语音长期上下文信息，解决了现有的耳语音转换方法的语音质量、语音可懂度以及连续性均比较差的技术问题，得到了提升耳语音转换的语音质量、语音可懂度以及连续性的技术效果。

作为上述方案的进一步改进，所述谱包络转换模型、所述非周期转换模型以及所述基频转换模型均采用语音时频域扩展卷积模型；所述第三梅尔倒谱系数特征在所述语音时频域扩展卷积模型中转换的方法包括以下步骤：

(2.2.1)通过两组二维卷积层提取所述第三梅尔倒谱系数特征中的时频域特征；

(2.2.2)将所述时频域特征的特征图重构为多维图；

(2.2.3)将所述多维图输出至多块时域扩张块中依次进行扩张，以获得多个扩张特征；

(2.2.4)将多个扩张特征进行激活，以获得相应的一个目标特征。

进一步地，其中一组二维卷积层使用尺寸为1x3的卷积核，用于执行时间方向上的扩张，且卷积核宽度为3的方向对应所述第三梅尔倒谱系数特征的时间方向；其中另一组二维卷积层使用尺寸为3x1的卷积核，并用于执行频域扩张。

再进一步地，多块时域扩张块的输出由各块时域扩张块的跳跃连接输出相加获得，每块时域扩张块具有残差连接结构；每块时域扩张块包括三层一维卷积核，且位于前两层的两层一维卷积核用于降低维度，位于最后一层的一维卷积核用于将前一层的一维卷积核输出的预测特征映射到一个目标维度。

再进一步地，获得所述目标特征的目标函数为：

式中，y_i为所述目标特征，Y_i为预测特征，λ为模型每轮训练输入的帧数。

再进一步地，通过门控线性单元生成训练系统，且所述门控线性单元表示为：

y＝σ(x*W₁+b₁)⊙(x*W₂+b₂)

式中，W₁和W₂分别为卷积层权重，b₁和b₂为对应的偏置，σ为sigmoid激活函数，⊙为逐元素相乘运算符号

再进一步地，三层一维卷积核均使用MISH激活函数，且所述MISH激活函数表示为：

x＝x*(tanh(softplus(x)))

式中，tanh表示tanh函数，softplus表示softplus函数，且softplus函数表示为softplus＝log(1+e^x)。

再进一步地，在每块时域扩张块中的多个卷积层中执行扩张，且扩张率分别为1、2、4、8、16，扩张重复次数为3次。

再进一步地，所述耳语音向正常音转换方法还包括以下步骤：

三、评价语音转换质量：

将倒谱失真度、短时可懂度、主观语音质量以及均方根误差作为对转换语音的客观评价指标，并选择平均意见评分作为主观评价指标，以评价所述转换语音的听感质量；其中，所述倒谱失真度的计算公式为：

式中，C_d和C'_d分别为所述目标音与模型预测语音某一帧的第d维梅尔倒谱系数，D为梅尔倒谱维度，所有帧计算的平均值作为该句语音的CD值。

本发明还提供一种联合时频域扩张卷积的耳语音向正常音转换装置，其应用上述任意所述的联合时频域扩张卷积的耳语音向正常音转换方法，其包括：

训练系统生成模块，其用于生成至少一个训练系统：所述训练系统生成模块包括提取单元一、转化单元以及模型训练单元；所述提取单元一用于提取至少一组耳语音的谱包络，并提取至少一组正常音的谱包络、非周期成分以及基频；所述转化单元用于将所述耳语音的谱包络及所述正常音的谱包络对齐，并将所述耳语音的谱包络转化为第一梅尔倒谱系数特征，将所述正常音的谱包络转化为第二梅尔倒谱系数特征；所述模型训练单元用于使用所述第一梅尔倒谱系数特征与对应的第二梅尔倒谱系数特征训练出所述训练系统中的谱包络转换模型，使用所述第一梅尔倒谱系数特征与对应的非周期成分训练出所述训练系统中的非周期转换模型，使用所述第一梅尔倒谱系数特征与对应的基频训练出所述训练系统中的基频转换模型；以及

语音转换模块，其用于通过所述训练系统将至少一组耳语转换为至少一组预测语音；所述语音转换模块包括提取单元二、导入单元、还原单元以及合成单元；所述提取单元二用于提取所述耳语的谱包络，并将所述耳语的谱包络转化为第三梅尔倒谱系数特征；所述导入单元用于将所述第三梅尔倒谱系数特征输入至所述谱包络转换模型、所述非周期转换模型以及所述基频转换模型中并进行转换，以获得至少一个预测梅尔倒谱系数特征、至少一个预测非周期成分以及至少一个预测基频；所述还原单元用于将所述预测梅尔倒谱系数特征还原成一个预测谱包络；所述合成单元用于将所述预测谱包络、所述预测非周期成分以及所述预测基频合成为所述预测语音。

相较于现有的耳语音转换方法，本发明的联合时频域扩张卷积的耳语音向正常音转换方法及其装置具有以下有益效果：

1、该联合时频域扩张卷积的耳语音向正常音转换方法，其先提取耳语音谱包络，并同时提取正常音的谱包络、非周期成分以及基频，再将这两个谱包络分别转化为两个梅尔倒谱系数特征，最后将耳语音的梅尔倒谱系数特征与正常音的梅尔倒谱系数特征、非周期成分以及基频分别进行训练，从而生成训练系统的三个训练模型，即谱包络转换模型、非周期转换模型以及基频转换模型，随后，该转换方法提取耳语的谱包络并转化为相应的梅尔倒谱系数特征，再将该耳语的梅尔倒谱系数特征导入到之前训练的三个训练模型中分别进行转换，以获得三个预测特征，然后将预测梅尔倒谱系数特征还原成预测谱包络，最后将预测谱包络、预测非周期成分以及预测基频合成为预测语音，实现对耳语的语音转换。由于该方法利用卷积神经网络，这样可以有效捕获语音时频域局部特征，同时因其权值共享的特性，可以显著降低模型参数量，提高语音转换速率，可以在不损失分辨率的情况下增大模型感受野，帮助模型更有效地利用语音长期上下文信息，从而提升耳语音转换的语音质量、语音可懂度以及连续性。

2、该联合时频域扩张卷积的耳语音向正常音转换方法，其训练模型均可以采用语音时频域扩展卷积模型，可以有效捕获语音的局部特征，通过在不同维度扩张的卷积层提取语音局部特征，并使用堆叠的扩张卷积块对语音长期时间依赖性进行建模，可以避免当循环层深度较大时模型的参数量急剧增多、计算效率偏低的问题，提高转换模型的预测精度，从而达到提高转换后语音质量的目的，而且通过实验表明该方法与现有耳语音转换方法相比，在语音质量、语音可懂度以及连续性指标上均有明显提升。

3、该联合时频域扩张卷积的耳语音向正常音转换方法，其多块时域扩张块的输出由各块时域扩张块的跳跃连接输出相加获得，每块时域扩张块具有残差连接结构，可以在网络层数较深时减轻梯度消散问题，并保持模型的整体性能。而且，该转换方法还可以使用门控线性单元，可以进一步提升模型训练过程的稳定性，并利用MISH激活函数，可以允许网络在负值时有一定的梯度流，有利于较深网络的训练。

4、该联合时频域扩张卷积的耳语音向正常音转换方法，其目标函数的公式类似于倒谱失真度公式，将其作为目标函数可以一定程度减少预测语音与目标音的频谱误差，提高目标语音频谱特征预测精度。

该联合时频域扩张卷积的耳语音向正常音转换装置的有益效果与该方法的有益效果相同，在此不再做赘述。

附图说明

图1为本发明实施例1的联合时频域扩张卷积的耳语音向正常音转换方法的流程图；

图2为图1中的耳语音向正常音转换方法的转换框架图；

图3为图1中的耳语音向正常音转换方法的语音时频域扩展卷积模型图；

图4为图1中的耳语音向正常音转换方法的时域扩张块结构图；

图5为本发明实施例2的联合时频域扩张卷积的耳语音向正常音转换方法中输入帧数对CD指标影响示意图；

图6为本发明实施例2的联合时频域扩张卷积的耳语音向正常音转换方法中输入帧数对STOI指标影响示意图；

图7为本发明实施例2的联合时频域扩张卷积的耳语音向正常音转换方法中输入帧数对PESQ指标影响示意图；

图8为本发明实施例2中原始耳语音的仿真语谱图；

图9为本发明实施例2中正常语音的仿真语谱图；

图10为本发明实施例2中GMM方法转换后语音的仿真语谱图；

图11为本发明实施例2中DNN方法转换后语音的仿真语谱图；；

图12为本发明实施例2中BLSTM方法转换后语音的仿真语谱图；

图13为本发明实施例2中联合时频域扩张卷积的耳语音向正常音转换方法转换后语音的仿真语谱图；

图14为本发明实施例2中不同方法的参数量比较的柱状图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

请参阅图1、图2以及图3，本实施例提供了一种联合时频域扩张卷积的耳语音向正常音转换方法，该转换方法用于将至少一组耳语转换为至少一组预测语音。其中，该转换方法利用扩张卷积神经网络设计耳语转换(DCNN)模型，能够充分利用语音时频域局部特征。在本实施例中，该耳语音向正常音转换方法包括以下这些步骤。

步骤一、生成训练系统

(1.1)提取至少一组耳语音的谱包络，并提取至少一组正常音的谱包络、非周期成分以及基频。在本实施例中，通过使用STRAIGHT(Speech Transformation andRepresentation Using AdaptiveInterpolation of Weighted Spectrum)模型进行特征提取。STRAIGHT模型的基本原理来源于信道声码器，而信道声码器与线性预测编码可以灵活对参数进优化，在语音分析阶段利用语音基率频率、平滑功率谱以及非周期成分三个模型参数表示语音功率谱和源特征。

(1.2)将耳语音的谱包络及正常音的谱包络对齐，并将耳语音的谱包络转化为第一梅尔倒谱系数(MCC)特征，将正常音的谱包络转化为第二梅尔倒谱系数(MCC)特征。在本实施例中，使用动态时间规整(Dynamic Time Warping, DTW)算法对齐耳语音谱包络和对应的正常音谱包络，随后，将谱包络转化为 30维MCC特征。

(1.3)使用第一梅尔倒谱系数特征与对应的第二梅尔倒谱系数特征训练出训练系统中的谱包络转换模型，使用第一梅尔倒谱系数特征与对应的非周期成分训练出训练系统中的非周期转换模型，使用第一梅尔倒谱系数特征与对应的基频训练出训练系统中的基频转换模型。

在本实施例中，谱包络转换模型用于转换语音的MCC特征(DCNN_mcc)，非周期转换模型用于预测目标音非周期成分(DCNN_ap)，用于基频转换模型预测目标音基频(DCNN_f0)。其中，谱包络转换模型、非周期转换模型以及基频转换模型均采用语音时频域扩展卷积模型。

步骤二、通过训练系统进行语音转换

(2.1)提取耳语的谱包络，并将耳语的谱包络转化为第三梅尔倒谱系数特征。

(2.2)将第三梅尔倒谱系数特征输入至谱包络转换模型、非周期转换模型以及基频转换模型中并进行转换，以获得至少一个预测梅尔倒谱系数特征、至少一个预测非周期成分以及至少一个预测基频。在本实施例中，第三梅尔倒谱系数特征在语音时频域扩展卷积模型中转换的方法包括以下步骤：

(2.2.1)通过两组二维卷积层提取第三梅尔倒谱系数特征中的时频域特征；

(2.2.2)将时频域特征的特征图重构为多维图；

(2.2.3)将多维图输出至多块时域扩张块中依次进行扩张，以获得多个扩张特征；

请参阅图4，耳语声学特征输入模型后，由两组二维卷积层提取语音的时频域特征。其中一组二维卷积层使用尺寸为1x3的卷积核，用于执行时间方向上的扩张，且卷积核宽度为3的方向对应第三梅尔倒谱系数特征的时间方向。这组卷积称为时域扩张卷积层，时频域扩张卷积可以有效捕获语音的局部特征。其中另一组二维卷积层使用尺寸为3x1的卷积核，并用于执行频域扩张。

时频域扩张卷积层输出的特征图会被重构为适当维度后再输入时域扩张块。现有的耳语转换方法通常使用循环神经网络对语音的帧间关系进行建模，当循环层深度较大时，模型的参数量急剧增多，计算效率偏低。而本实施例使用一组时域扩张块对语音的长期时间依赖进行建模。

多块时域扩张块的输出由各块时域扩张块的跳跃连接输出相加获得，每块时域扩张块具有残差连接结构。每块时域扩张块包括三层一维卷积核，且位于前两层的两层一维卷积核用于降低维度，位于最后一层的一维卷积核用于将前一层的一维卷积核输出的预测特征映射到一个目标维度。同时，本实施例通过门控线性单元(Gated Linear Units,GLUs)生成训练系统，进一步提升模型训练过程的稳定性，而且门控线性单元(GLUs)表示为：

y＝σ(x*W₁+b₁)⊙(x*W₂+b₂)

式中，W₁和W₂分别为卷积层权重，b₁和b₂为对应的偏置，σ为sigmoid激活函数，⊙为逐元素相乘运算符号。为了对语音长期时间依赖性进行建模，在每块时域扩张块中的多个卷积层中执行扩张，且扩张率分别为1、2、4、8、16，扩张重复次数为3次。三层一维卷积核均使用MISH激活函数，且MISH激活函数表示为：

x＝x*(tanh(softplus(x)))

式中，tanh表示tanh函数，softplus表示softplus函数，且softplus函数表示为：

softplus＝log(1+e^x)

MISH激活函数允许网络在负值时有一定的梯度流，有利于较深网络的训练。时域扩张块的输出由跳跃连接相加获得。模型输出部分由三层卷积核大小为1的一维卷积组成，前两层起到降维作用，最后一层为输出层，将预测特征映射到目标维度，三层卷积层均使用MISH激活函数。

(2.3)将预测梅尔倒谱系数特征还原成一个预测谱包络。

(2.4)将预测谱包络、预测非周期成分以及预测基频合成为预测语音。

通常，在一般的回归任务中使用均方误差(Mean Square Error,MSE)作为目标函数，其形式为：

其中，y_i和Y_i分别表示目标特征与预测特征。然而，该目标函数在优化网络参数时忽略了语音的感知特性，转换后语音与目标音的频谱差异较大。为了提高转换后语音的质量，本实施例中获得目标特征的目标函数为：

式中，y_i为目标特征，Y_i为预测特征，λ为模型每轮训练输入的帧数，在本实施例中，该帧数数值为150。该函数类似于倒谱失真度(Cepstral Distortion,CD) 公式，将其作为目标函数可以一定程度减少预测语音与目标音的频谱误差，提高目标语音频谱特征预测精度。在本实施例中，DCNN模型详细参数如表1所示，输出层的不同维度对应于模型预测的不同特征。其中二维卷积输入输出参数依次为帧数、频率通道、特征图通道，卷积层参数分别代表卷积核尺寸、扩张率、卷积核个数。一维卷积输入输出参数依次为帧数、频率通道，卷积层参数含义与二维卷积相同。所有卷积层均采用补零处理，使输入输出维度保持一致。

表1DCNN模型参数表

综上所述，相较于现有的耳语音转换方法，本实施例的联合时频域扩张卷积的耳语音向正常音转换方法及其装置具有以下优点：

2、该联合时频域扩张卷积的耳语音向正常音转换方法，其训练模型均可以采用语音时频域扩展卷积模型，可以有效捕获语音的局部特征，通过在不同维度扩张的卷积层提取语音局部特征，并使用堆叠的扩张卷积块对语音长期时间依赖性进行建模，可以避免当循环层深度较大时模型的参数量急剧增多、计算效率偏低的问题，提高转换模型的预测精度，从而达到提高转换后语音质量的目的。

实施例2

本实施例提供了一种联合时频域扩张卷积的耳语音向正常音转换方法，该方法在实施例1的基础上增加了部分步骤。其中，本实施例的耳语音向正常音转换方法还包括以下步骤。

步骤三、评价语音转换质量

将倒谱失真度(Cepstral Distortion,CD)、短时可懂度(Shore Time ObjectiveIntelligibility,STOI)、主观语音质量(Perceptual Evaluation of Speech Quality,PESQ)以及均方根误差(Root mean square error,RMSE)作为对转换语音的客观评价指标，并选择平均意见评分(Mean Opinion Score，MOS)作为主观评价指标，以评价转换语音的听感质量；其中，倒谱失真度的计算公式为：

式中，C_d和C'_d分别为目标音与模型预测语音某一帧的第d维梅尔倒谱系数， D为梅尔倒谱维度(本实施例中设为26)，所有帧计算的平均值作为该句语音的CD值。CD值越小代表模型转换后语音与目标音之间的频谱差异越小，表明模型的转换效果越好。STOI用于客观评估语音的可懂度，取值范围为0～1，值越大，表明语音可懂度越高。PESQ用于评估语音质量，范围在0～5之间，值越大代表语音的听感质量越好。RMSE是一种计算预测基频和真实基频间差异的方法，RMSE值越小代表预测的基频越准确。MOS是一种常用的语音质量主观评价方法，范围在0～5之间，得分越高，代表语音听感舒适度越好。

为了验证本实施例中耳语音向正常音转换方法的效果，本实施例进行仿真评价实验，具体如下。

1、模型参数选择

请参阅图5、图6以及图7，为了获得更好的系统转换性能，本实施例评估了输入特征帧数、网络结构以及目标函数对转换后语音质量的影响。图5、图6 以及图7给出了模型每轮训练输入帧数与转换后语音质量的关系。可以看出，随着输入帧数的增加，转换后语音的CD值呈下降趋势，当输入语音帧数较多时，CD值基本保持不变；同时，STOI和PESQ在输入帧数达到150帧时基本趋于稳定。在综合考虑模型性能与复杂度后，本实施例选择每轮训练输入150 帧语音特征以达到较好的语音转换效果。

为了评估时频域扩张卷积对模型性能的影响，选取3x3单一尺寸卷积核以及时频域扩张卷积分别进行耳语转换。表2给出了不同卷积核对转换后语音质量的影响。由表2可以看出，使用时频扩张卷积可以给模型带来2％左右的性能提升，这是由于扩张卷积可以获得更大尺度的上下文信息，同时不同尺寸的卷积核相当于大小不同的窗函数，有利于模型捕获到更大时频范围的语音声学特征。

表2卷积核尺寸和数量对DCNN模型性能的影响表

表3给出了分别采用MSE以及本实施例目标函数的BLSTM方法与DCNN 方法转换后语音质量的比较。BLSTM_MSE与DCNN_MSE代表对应方法在训练过程中使用MSE作为目标函数。由表3可以看出使用本实施例提出的目标函数可以一定程度减少预测语音与目标音之间的频谱误差。

表3目标函数对DRCNN模型的影响

2、实验结果对比分析

为了评估本实施例方法在耳语音转换任务中的性能，本实施例将DCNN模型与GMM耳语音转换模型、DNN耳语音转换模型和BLSTM耳语音转换模型进行比较。实验中使用的平行语料均采用DTW算法进行时间对齐，由于耳语音持续时间通常长于正常音，在对齐步骤中我们使用耳语音特征序列约束正常音特征序列，以保证耳语特征序列时序不被破坏，有利于提升转换后语音的质量。

在基于GMM耳语音转换方法中，分别训练了GMM_mcc、GMM_ap、 GMM_f0三个模型用于预测正常音的MCC、非周期性和基频，将耳语音的MCC 特征作为GMM模型的输入，采用联合密度高斯混合模型(Joint Density Gaussian Mixture Model,JDGMM)对耳语音和正常音的联合特征概率分布进行建模。其中 GMM_mcc和GMM_f0的高斯分量数设置为32，GMM_ap的高斯分量数设置为16。对比的DNN转换方法中，本实施例训练了三个DNN模型用于估计目标语音的MCC特征、非周期性成分和基频，DNN模型结构为 30x30-900-1024-2048-1024-1024-900/7710/30，其中输出层维度对应于预测的不同特征。对于BLSTM耳语音转换方法，也分别训练了三个BLSTM模型用于预测对应特征，使用的BLSTM包含两个单元数为1024的隐层。

表4给出了由不同方法转换后语音的客观评价数据。可以看出GMM方法转换性能较差，这是因为GMM是一种分段线性模型，对非线性关系的建模能力较弱。虽然DNN模型可以较好的表示出非线性映射关系，但它无法对语音的长期时间相关性进行建模，语音转换效果也不理想。与DNN模型相比， BLSTM可以较好的利用语音帧间相关性，同时当时间步较大时，也可以对语音的长期相关性进行建模，所以转换效果要优于GMM和DNN方法。但BLSTM 难以有效利用语音时频域上的局部特征，转换后语音有一定的频谱误差。由表可见，本实施例方法转换后的语音有着更好的语音质量。

表4不同转换方法的客观评价分数表

同时还比较了四种转换方法预测的基频与目标音基频的RMSE值，如表5 所示，本实施例方法预测的基频与目标基频差异最小。再次证明了联合语音时频域局部特征有利于提升耳语音转换系统的性能。

表5不同方法预测基频与真实基频的RMSE值的数据表

请参阅图8-13，为了更直观的展示各方法转换后语音的质量，给出了同一句耳语音由不同转换方法转换后语音的仿真语谱图以及对应的正常音仿真语谱图。由图8可以看出，原始耳语音频谱较为平坦，共振峰信息模糊。图9为正常语音仿真语谱图，正常音声纹清晰，音高变化明显。图10与图11分别为GMM 方法和DNN方法转换后语音的仿真语谱图，两种方法转换后语音都出现了明显的共振峰信息，DNN方法相较于GMM方法有着更清晰的声纹特征，但两种语音的频谱都较为模糊。图12为BLSTM方法转换后语音的频谱图，BLSTM 转换后的语音与目标音有较高的相似度，语音帧间较为平滑，有着明显的声纹起伏。图13为本实施例方法转换后的耳语音，本实施例方法转换后的语音频谱清晰，相较于对比方法，有着更高的频谱相似度。

表6给出了四种方法转换后语音获得的MOS分数，本实施例方法与 BLSTM方法均有着令人满意的听感舒适度。

表6不同转换方法转换后语音的MOS得分表

请参阅图14，由于本实施例方法基于全卷积架构，卷积层的权值共享特性使得本实施例方法具有较小的模型参数量。图14示出了本实施例方法与DNN 方法和BLSTM方法的参数量比较。由图可见，本实施例方法的参数量远小于对比方法，模型计算速率更高。

3、实验结论

将耳语转换为正常音有利于传递耳语语义信息，结合语音时频域相关性以及长期时间依赖是提高转换后语音质量的一个有效手段。考虑到卷积网络局部连接的特性有利于捕获语音时频域局部特征，同时扩张卷积有助于长期上下文信息的建模。DCNN模型由时频域扩张卷积捕获语音局部特征，并使用一维扩张卷积模拟语音的长期时间关系。实验结果表明，与现有的耳语转换方法相比，本实施例方法在拥有更低参数量的同时，可以更好的将耳语音向正常音转换，有效减少了预测语音与目标音之间的频谱误差，显著提高了转换后语音的质量。而且，该转换方法转换后的语音在各项客观评价指标中均优于现有方法，同时，在主观听力测试中，取得了与现有性能最好的耳语转换方法相似的成绩。

实施例3

本实施例提供了一种联合时频域扩张卷积的耳语音向正常音转换装置，该装置应用实施例1或实施例2的联合时频域扩张卷积的耳语音向正常音转换方法，而且包括训练系统生成模块和语音转换模块。

训练系统生成模块用于生成至少一个训练系统，而且包括提取单元一、转化单元以及模型训练单元。提取单元一用于提取至少一组耳语音的谱包络，并提取至少一组正常音的谱包络、非周期成分以及基频。转化单元用于将耳语音的谱包络及正常音的谱包络对齐，并将耳语音的谱包络转化为第一梅尔倒谱系数特征，将正常音的谱包络转化为第二梅尔倒谱系数特征。模型训练单元用于使用第一梅尔倒谱系数特征与对应的第二梅尔倒谱系数特征训练出训练系统中的谱包络转换模型，使用第一梅尔倒谱系数特征与对应的非周期成分训练出训练系统中的非周期转换模型，使用第一梅尔倒谱系数特征与对应的基频训练出训练系统中的基频转换模型。

语音转换模块用于通过训练系统将至少一组耳语转换为至少一组预测语音，而且包括提取单元二、导入单元、还原单元以及合成单元。提取单元二用于提取耳语的谱包络，并将耳语的谱包络转化为第三梅尔倒谱系数特征。导入单元用于将第三梅尔倒谱系数特征输入至谱包络转换模型、非周期转换模型以及基频转换模型中并进行转换，以获得至少一个预测梅尔倒谱系数特征、至少一个预测非周期成分以及至少一个预测基频。还原单元用于将预测梅尔倒谱系数特征还原成一个预测谱包络。合成单元用于将预测谱包络、预测非周期成分以及预测基频合成为预测语音。

该联合时频域扩张卷积的耳语音向正常音转换装置可以有效捕获语音时频域局部特征，同时因其权值共享的特性，可以显著降低模型参数量，提高语音转换速率，可以在不损失分辨率的情况下增大模型感受野，帮助模型更有效地利用语音长期上下文信息，从而提升耳语音转换的语音质量、语音可懂度以及连续性。

实施例4

本实施例提供了一种联合时频域扩张卷积的耳语音向正常音转换装置，其在实施例3的基础上增加了评价模块。该评价模块用于评价语音转换模块的语音转换质量。该评价模块将倒谱失真度、短时可懂度、主观语音质量以及均方根误差作为对转换语音的客观评价指标，并选择平均意见评分作为主观评价指标，以评价转换语音的听感质量；其中，倒谱失真度的计算公式为：

式中，C_d和C'_d分别为目标音与模型预测语音某一帧的第d维梅尔倒谱系数， D为梅尔倒谱维度，所有帧计算的平均值作为该句语音的CD值。

在评价时，CD值越小代表模型转换后语音与目标音之间的频谱差异越小，表明模型的转换效果越好。STOI用于客观评估语音的可懂度，取值范围为0～ 1，值越大，表明语音可懂度越高。PESQ用于评估语音质量，范围在0～5之间，值越大代表语音的听感质量越好。RMSE是一种计算预测基频和真实基频间差异的方法，RMSE值越小代表预测的基频越准确。MOS是一种常用的语音质量主观评价方法，范围在0～5之间，得分越高，代表语音听感舒适度越好。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种联合时频域扩张卷积的耳语音向正常音转换方法，其用于将至少一组耳语转换为至少一组预测语音，其特征在于，其包括以下步骤：

一、生成训练系统：

二、通过所述训练系统进行语音转换：

(2.3)将所述预测梅尔倒谱系数特征还原成一个预测谱包络；

(2.4)将所述预测谱包络、所述预测非周期成分以及所述预测基频合成为所述预测语音；

其中，所述谱包络转换模型、所述非周期转换模型以及所述基频转换模型均采用语音时频域扩展卷积模型；所述第三梅尔倒谱系数特征在所述语音时频域扩展卷积模型中转换的方法包括以下步骤：

(2.2.2)将所述时频域特征的特征图重构为多维图；

2.如权利要求1所述的联合时频域扩张卷积的耳语音向正常音转换方法，其特征在于，其中一组二维卷积层使用尺寸为1x3的卷积核，用于执行时间方向上的扩张，且卷积核宽度为3的方向对应所述第三梅尔倒谱系数特征的时间方向；其中另一组二维卷积层使用尺寸为3x1的卷积核，并用于执行频域扩张。

3.如权利要求1所述的联合时频域扩张卷积的耳语音向正常音转换方法，其特征在于，多块时域扩张块的输出由各块时域扩张块的跳跃连接输出相加获得，每块时域扩张块具有残差连接结构；每块时域扩张块包括三层一维卷积核，且位于前两层的两层一维卷积核用于降低维度，位于最后一层的一维卷积核用于将前一层的一维卷积核输出的预测特征映射到一个目标维度。

4.如权利要求3所述的联合时频域扩张卷积的耳语音向正常音转换方法，其特征在于，获得所述目标特征的目标函数为：

5.如权利要求3所述的联合时频域扩张卷积的耳语音向正常音转换方法，其特征在于，通过门控线性单元生成训练系统，且所述门控线性单元表示为：

y＝σ(x*W₁+b₁)⊙(x*W₂+b₂)

式中，W₁和W₂分别为卷积层权重，b₁和b₂为对应的偏置，σ为sigmoid激活函数，⊙为逐元素相乘运算符号。

6.如权利要求3所述的联合时频域扩张卷积的耳语音向正常音转换方法，其特征在于，三层一维卷积核均使用MISH激活函数，且所述MISH激活函数表示为：

x＝x*(tanh(softplus(x)))

7.如权利要求1所述的联合时频域扩张卷积的耳语音向正常音转换方法，其特征在于，在每块时域扩张块中的多个卷积层中执行扩张，且扩张率分别为1、2、4、8、16，扩张重复次数为3次。

8.如权利要求1所述的联合时频域扩张卷积的耳语音向正常音转换方法，其特征在于，所述耳语音向正常音转换方法还包括以下步骤：

三、评价语音转换质量：

式中，C_d和C'_d分别为目标音与模型预测语音某一帧的第d维梅尔倒谱系数，D为梅尔倒谱维度，所有帧计算的平均值作为该语音的CD值。

9.一种联合时频域扩张卷积的耳语音向正常音转换装置，其应用如权利要求1-8中任意一项所述的联合时频域扩张卷积的耳语音向正常音转换方法，其特征在于，其包括：