CN116884427A

CN116884427A - 基于端到端深度学习语音复刻模型的嵌入向量处理方法

Info

Publication number: CN116884427A
Application number: CN202310528041.7A
Authority: CN
Inventors: 朱明�; 王卓越; 刘浩哲; 张笑源
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2023-10-13

Abstract

本发明公开了一种基于端到端深度学习语音复刻模型的嵌入向量处理方法，属于基于深度学习端到端的语音处理技术领域。其中方法的实现包括：语音复刻编码器模型从话者的语音样本中提取话者嵌入向量，计算标准语音与话者语音的基频和相似度量值，选取最优的标准语音，以固定步长计算话者语音与标准语音的不同权值比，得到最优权值比，完成声音美颜的处理。以固定步长选取阈值，得到最优置零阈值后，将嵌入向量所有维度中低于置零阈值的维置零，完成小向量阈值置零处理。本发明利用嵌入向量这一工具，进行声音美颜和小向量阈值置零处理，可以显著提高生成语音的音频质量。

Description

基于端到端深度学习语音复刻模型的嵌入向量处理方法

技术领域

本发明属于基于深度学习端到端的语音处理技术领域，更具体地，涉及一种基于端到端深度学习语音复刻模型的嵌入向量处理方法。

背景技术

嵌入向量是语音复刻系统的重要组成部分。语音复刻系统使用深度学习神经网络，将高维度的局部空间，映射至一个低维度的分布式空间中，分布式空间的维度一般远小于局部空间。其中每个特征向量不再是坐标轴上的坐标点，而是分布在整个低维空间中，故将其称为分布式空间。在机器学习中，我们称之为映射过程嵌入。将输入语音特征提取后在特征空间生成的嵌入向量，是语音复刻处理的重要工具。

传统的端到端文字转语音系统，只可通过固定的话者模型生成输出语音。基于深度学习的端到端语音复刻系统，相对于传统语音转文字系统，可以通过输入的话者语音，建立任意的话者模型，完成语音复刻的功能。但是现有的语音复刻系统，建立的话者模型与其所对应的实际话者相似度不高，同时生成的输出语音的相似度、自然度、流畅度较差，不能很好的完成语音复刻的功能需要。在实际计算过程中，模型无法判断话者性别。通过语音复刻编码器从话者的语音样本中提取话者嵌入向量，会引入系统的噪声，同时降低嵌入向量的质量。其次，由于系统所选训练数据集包括的话者数量有限，导致对于训练集以外的话者，其建立的语音模型质量较差，数据结果音频质量低。

由此可见，现有的基于深度学习端到端的语音复刻系统，受到嵌入向量质量的限制，同时其生成的输出语音自然度、清晰度、相似度较差。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于端到端深度学习语音复刻模型的嵌入向量处理方法，其目的在于提供一种提高嵌入向量质量，消除系统引入的嵌入向量噪声的方法，由此解决现有的基于深度学习端到端的语音复刻系统，受到嵌入向量质量的限制，同时其生成的输出语音自然度，清晰度，相似度较差的技术问题。

为实现上述目的，第一方面，本发明提供了一种基于端到端深度学习语音复刻模型的嵌入向量处理方法，包括：

建立标准语音库；

从所述标准语音库中选择与输入语音相似度最高的标准语音作为参考语音；

对所述输入语音的嵌入向量和参考语音的嵌入向量进行加权，再将加权后的嵌入向量中模值小于置零阈值的维置零，作为所述输入语音的最优嵌入向量。

进一步地，所述标准语音库包括男性标准语音库和女性标准语音库；

所述从所述标准语音库中选择与输入语音相似度最高的标准语音作为参考语音之前，所述方法还包括：

利用输入语音的基频得到话者性别，从而选取对应性别的标准语音库。

进一步地，所述从所述标准语音库中选择与输入语音相似度最高的标准语音作为参考语音，包括：

利用余弦相似度与皮尔逊相关系数从所述标准语音库中选择与输入语音相似度最高的标准语音作为参考语音。

进一步地，所述对所述输入语音的嵌入向量和参考语音的嵌入向量进行加权，包括：

以第一步长遍历输入语音和参考语音的嵌入向量的权值比，计算不同权值比下的输出语音音频质量；选取最优音频质量对应的权值比，对所述输入语音的嵌入向量和参考语音的嵌入向量进行加权。

进一步地，所述置零阈值通过经验值确定，或者通过以下方式确定：

以第二步长遍历置零阈值，计算不同置零阈值下的输出语音音频质量；选取最优音频质量对应的置零阈值作为最终置零阈值。

进一步地，对输出语音进行平均意见分数评分、客观清晰度估计评分与主观测评评分，并选取这个三种评价方式所得分数的加权来表征输出语音的音频质量。

第二方面，本发明提供了一种语音复刻方法，包括：将第一方面所述的基于端到端深度学习语音复刻模型的嵌入向量处理方法得到的最优嵌入向量输入所述语音复刻模型，得到输出语音。

第三方面，本发明提供了一种电子设备，其特征在于，包括：

处理器；

存储器，其存储有计算机可执行程序，所述计算机可执行程序在被所述处理器执行时，使得所述处理器执行如第一方面所述的基于端到端深度学习语音复刻模型的嵌入向量处理方法，和/或如第二方面所述的语音复刻方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

本发明首次提出通过对嵌入向量进行处理来显著提高语音复刻系统的性能。具体地，首先选取与输入语音相似度最高的标准语音，然后对二者的嵌入向量进行加权，完成声音美颜的处理；接着将加权后的嵌入向量中模值小于置零阈值的维置零，完成小向量阈值置零的处理，以降低系统中引入的噪声干扰，相较于未进行处理的语音，输出语音的自然度、清晰度、相似度显著提高。

附图说明

图1为本发明实施例提供的一种基于端到端深度学习语音复刻模型的嵌入向量处理方法的流程图之一；

图2为本发明实施例提供的一种基于端到端深度学习语音复刻模型的嵌入向量处理方法的流程图之二；

图3为本发明实施例提供的在不同话者条件，不同嵌入向量处理方法，相同环境噪声水平，相同录音设备，相同录音文本的条件下输入语音平均意见分数评分的柱状统计图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

参阅图1和图2，本发明提供了一种基于端到端深度学习语音复刻模型的嵌入向量处理方法，包括操作S1至操作S3。

操作S1，建立标准语音库。

具体的，分别建立男性标准语音库和女性标准语音库。其中标准语音需要满足相应的平均意见分数评分(MOS)≥4，客观清晰度估计评分≥0.8，,主观测评评分≥4。

具体的，平均意见分数是使用基于深度学习的评估，用于预测转换语音的人类评级的模型。其采用卷积和循环神经网络模型，以构建平均意见分数预测器。其中，平均意见分数评分无量纲，越高越好。0＝非常糟糕，5＝非常好。

具体的，语音与混响调制能量比(客观清晰度估计)是一种非侵入式基于调制频谱的语音质量和清晰度指标语音信号的表示。其中，客观清晰度估计评分无量纲，越高越好。0＝非常糟糕，5＝非常好。

具体的，主观测评步骤为：

1、准备测试语音数据。

(1)从各领域和语音合成系统实际应用场景中，摘选常规文本作为测试语料，选取的语句一般尽可能排除生僻字；

(2)用于测试的句子未出现在训练集中；

(3)被试必须使用耳机试听语音，以便于判断更为细微的差别；

(4)为了避免被试的疲惫，待测评系统和语料数量不可太多，需要控制测评时间；

(5)一个句子需要由多个被试打分。

2、设置实验参数。

在准备测试语音时，需要提前设置好训练语料、待测系统、参与测试的句子数量、每个句子被试听的次数等。

3、准备HTML文档等展示材料，向被试介绍该测试。

该HTML文档至少包括：

(1)测试注意事项，如被试应该使用何种设备，在何种环境下试听，试听时应该排除的干扰因素等。

(2)测试任务，向被试介绍本次试听的测试目标，应关注的侧重点，如可懂度、相似度、清晰度等方面。

(3)参考音频，可以放置一些示例音频，如MOS＝5的优质语音，MOS＝1的低劣音频，以便被试更好地对音频打分。

(4)测试音频，根据不同任务，放置合理的测试音频，真实和合成音频应提前打乱，并且不可告知被试打乱的顺序。

4、测评具体步骤。

(1)收集合成语音和录制的真实语音。

(2)确保文本和语音一一对应，去除发音明显错误的音频样本。

(3)生成问卷，将合成语音和真实语音交叉打乱，确保打乱的顺序没有规律，合成语音和真实语音不可让被测试者提前探知到。

(4)开始任务前，被测试者试听示例语音，并告知其对应的大致得分，参见表1。

表1不同音频级别对应的平均意见分数评分及评价标准

音频级别	平均意见分数评分	评价标准
			优	5.0	很好，听得清楚；延迟小，交流流畅
良	4.0	稍差，听得清楚；延迟小，交流欠流畅，有点杂音
			中	3.0	还可以，听不太清；有一定延迟，可以交流
差	2.0	勉强，听不太清；延迟较大，交流需要重复多遍
			劣	1.0	极差，听不懂；延迟大，交流不通畅

(5)被测试者开始对给定音频打分，前三条语音可以作为被试进入平稳打分状态的铺垫，不计入最终结果。

(6)回收问卷，舍弃有明显偏差的评价数据，统计最终得分。

(7)测评后数据处理。由于被试有可能没有受到监督，因此需要对收集到的评分进行事后检查，如删除使用扬声器试听的评分。另外，为了控制个体因素对整体结果的影响，减少偏离整体数据的异常值，需要计算每个人的评分与总体得分序列的相关性，相关性的度量使用相关系数来实现，如果相关系数r大于0.25，则保留；否则拒绝该被试的所有评分。相关系数r的计算方法如下：

其中，M是句子数量，N为被试数量，μ_mn为被试n对句子m给出的评分，1≤m≤M,1≤n≤N，为句子m的总体平均分，cov为协方差，var为方差。

操作S2，从所述标准语音库中选择与输入语音相似度最高的标准语音作为参考语音。

本实施例中，先利用输入语音的基频得到话者性别，一般地，基频≤170Hz认为是男声，基频≥170Hz认为是女声。

具体的，通过对每一个候选频率f，设计一个函数来表达f是基频的可能性，称为显著度函数。一个频率f若是好的基频候选值，那么幅度谱不仅要在f的整数倍处取得峰值，还要在f的半整数倍处取得谷值。SWIPE用如下的函数衡量幅度谱在kf处的峰值相对于紧邻它的两个谷值有多显著，称为峰谷距，其计算方式如下：

各次谐波的平均峰谷距，就可以代表f的显著度，其计算方式如下：

平均峰谷距可以表达成幅度谱与一个核函数的内积，这个核函数在f的整数倍处有向上的冲激，在f的半整数倍处有向下的冲激。为了表达平均峰谷距而不是总峰谷距，核函数需要经过归一化。

考虑到信号的幅度谱|X(f)|在基频f₀的整数倍处会有峰值，于是可以用幅度谱在f的各个倍数处的值的总和来代表f的显著度，其计算方式如下：

显著度函数取得最大值的频率f就当作基频。

进一步，利用输入语音的基频得到话者性别，并选取对应性别的标准语音库后，再遍历标准语音库，利用余弦相似度(Cosine Similarity)与皮尔逊相关系数(PearsonCorrelation)得到与输入语音最优匹配的标准语音。

余弦相似度计算公式为：

其中，sim(X,Y)表示标准语音嵌入向量与话者语音嵌入向量的余弦相似度，x表示标准语音嵌入向量，y表示话者语音嵌入向量，||x||表示标准语音嵌入向量的模，||y||表示话者语音嵌入向量的模。

皮尔逊相关系数计算公式为：

其中ρ_X,Y表示标准语音嵌入向量与话者语音嵌入向量的皮尔逊相关系数，x表示标准语音嵌入型向量，y表示话者语音嵌入向量，cov(X,Y)表示标准语音嵌入向量与话者语音嵌入向量的协方差，σ_X、σ_Y表示标准语音嵌入向量与话者语音嵌入向量的标准差。皮尔逊相关系数数值范围也是[-1，1]。皮尔逊相关系数可看作是在余弦相似度或协方差基础上做了优化(变量的协方差除以标准差)。它消除每个分量标准不同(分数膨胀)的影响，具有平移不变性和尺度不变性。

示例性的，对于编码器encoder，使用独立有噪训练集进行训练，仅依赖几秒钟的语音信号输入，生成一个固定维度为256维的嵌入向量。

具体的，提取独立有噪音频的4通道log-mel频谱，在log对数动态范围压缩，之后通过3个LSTM层网络，其中，每层网络有768个单元，每层有256维投影，最后，完成最终嵌入，最后一帧对顶层输出进行L2归一化，增加预测频谱图上的L2损失和额外的L1损失来扩展，在此过程中，任意长的语音信号被分成800ms长的窗，两两之间重叠50％，生成一个固定维度为256维的嵌入向量。

操作S3，对所述输入语音的嵌入向量和参考语音的嵌入向量进行加权，再将加权后的嵌入向量中模值小于置零阈值的维置零，作为所述输入语音的最优嵌入向量。

具体的，操作S3包括子操作S31和子操作S32。

在子操作S31中，以第一步长遍历输入语音和参考语音的嵌入向量的权值比，计算不同权值比下的输出语音音频质量；选取最优音频质量对应的权值比，对所述输入语音的嵌入向量和参考语音的嵌入向量进行加权。

具体的，嵌入向量计算公式为：

Embed＝k₁·embed₁+k₂·embed₂

其中，embed₁是话者语音的嵌入向量，k₁是话者语音嵌入向量对应的权值；embed₂是标准语音的嵌入向量，k₂是标准语音嵌入向量对应的权值。

以固定步长s＝0.1遍历权值比，取s＝0.1在保证计算结果准确率较高的同时，兼顾了计算效率和运行时间。

其中{k₁,k₂}取{0.1,0.9}{0.2,0.8}·······{0.9,0.1}，生成9组输出语音。可以利用平均意见分数评分方法计算不同权值比下的输出语音音频质量；或者，对输出语音进行平均意见分数评分、客观清晰度估计评分与主观测评评分，并选取这个三种评价方式所得分数的加权来表征输出语音的音频质量。从而获得9组语音中的最优值，其对应的权值比即为最优权值比。

在子操作S32中，将子操作S31加权后的嵌入向量中模值小于置零阈值的维置零，作为所述输入语音的最优嵌入向量。

其中，置零阈值可以通过以下两种方式确定。

方式一：使用默认置零阈值预设值Default＝0.06，可以满足大多数嵌入向量的处理需要，提高了计算效率。

方式二：计算最优置零阈值，取固定步长t＝0.01，用小向量阈值置零方法处理嵌入向量，利用嵌入向量生成输出语音，使用平均意见分数评分、客观清晰度估计评分与主观测评评分计算不同置零阈值下的输出语音音频质量，选取最优音频质量对应的置零阈值，得到最优置零阈值。

确定置零阈值后，遍历嵌入向量的256维，若该维的模小于等于默认置零阈值预设值或最优置零阈值，则将该维的模置零。

实施例2

本实施例还提供了一种语音复刻方法，包括：将实施例1得到的最优嵌入向量输入语音复刻模型，得到输出语音。

相关技术方案同实施例1，此处不再赘述。

为了验证本发明方法的正确性和有效性，本发明分别在不同话者，不同处理方法下进行了若干实验。

选取了八名话者，在相同环境噪声水平，相同录音设备，相同录音文本的条件下每人分别录制四段输入语音。采用了三种不同的嵌入向量处理方法，分别是未使用处理方法、仅使用声音美颜方法、使用全部处理方法(即同时使用声音美颜方法和小向量阈值置零方法)，对生成的输出语音音频质量进行平均意见分数评分，对同一话者的四段基于不同文本的语音评分取均值，作为该话者在该处理方法下的输出语音音频质量评分。

如图3所示，使用全部处理方法输出语音评分均值约为未使用处理方法输出语音评分均值的1.377倍，仅使用声音美颜方法输出语音评分均值约为未使用处理方法输出语音评分均值的1.251倍。证明了本处理方法可以显著提高生成语音的音频质量。

实施例3

本实施例还提供了一种电子设备，包括：

处理器；

存储器，其存储有计算机可执行程序，所述计算机可执行程序在被所述处理器执行时，使得所述处理器执行如实施例1所述的基于端到端深度学习语音复刻模型的嵌入向量处理方法，和/或如实施例2所述的语音复刻方法。

相关技术方案同实施例1和2，此处不再赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于端到端深度学习语音复刻模型的嵌入向量处理方法，其特征在于，包括：

建立标准语音库；

2.根据权利要求1所述的基于端到端深度学习语音复刻模型的嵌入向量处理方法，其特征在于，所述标准语音库包括男性标准语音库和女性标准语音库；

3.根据权利要求1或2所述的基于端到端深度学习语音复刻模型的嵌入向量处理方法，其特征在于，所述从所述标准语音库中选择与输入语音相似度最高的标准语音作为参考语音，包括：

4.根据权利要求1所述的基于端到端深度学习语音复刻模型的嵌入向量处理方法，其特征在于，所述对所述输入语音的嵌入向量和参考语音的嵌入向量进行加权，包括：

5.根据权利要求1所述的基于端到端深度学习语音复刻模型的嵌入向量处理方法，其特征在于，所述置零阈值通过经验值确定，或者通过以下方式确定：

6.根据权利要求4或5所述的基于端到端深度学习语音复刻模型的嵌入向量处理方法，其特征在于，对输出语音进行平均意见分数评分、客观清晰度估计评分与主观测评评分，并选取这个三种评价方式所得分数的加权来表征输出语音的音频质量。

7.一种语音复刻方法，其特征在于，包括：将采用权利要求1至6任一项所述的基于端到端深度学习语音复刻模型的嵌入向量处理方法得到的最优嵌入向量输入所述语音复刻模型，得到输出语音。

8.一种电子设备，其特征在于，包括：

处理器；

存储器，其存储有计算机可执行程序，所述计算机可执行程序在被所述处理器执行时，使得所述处理器执行如权利要求1-6中任一项所述的基于端到端深度学习语音复刻模型的嵌入向量处理方法，和/或如权利要求7所述的语音复刻方法。