CN113852851B

CN113852851B - 一种基于并行流模型的快速唇动-语音对齐方法

Info

Publication number: CN113852851B
Application number: CN202110926508.4A
Authority: CN
Inventors: 胡若云; 沈然; 张宏达; 丁麒; 郑斌; 马亮; 沈皓; 谷泓杰
Original assignee: Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2023-04-18
Anticipated expiration: 2041-08-12
Also published as: CN113852851A

Abstract

本发明公开了一种基于并行流模型的快速唇动‑语音对齐方法。本发明使用基于流的解码器在无约束限制下快速生成高质量的语音，提出了一种简单的视频和音频对齐方法来实现语音的并行生成，保证视频帧和音频帧的时间同步；提出了一个状态模块，通过它生成粗糙但可理解的语音；基于这些粗糙的语音，进一步提出了一种基于流的解码器来生成更高质量的语音。相比于一般的现有方法，本发明突破了只能生成语音在有限的词汇和固定的句子结构的约束条件的限制，可以生成比当前最先进的口型到语音模型更自然的语音，并实现比当前最先进模型高达20倍左右的加速。

Description

一种基于并行流模型的快速唇动-语音对齐方法

技术领域

本发明涉及语音合成领域，尤其是一种基于并行流模型的快速唇动-语音对齐方法。

背景技术

借助视觉线索生成可理解语音是语音合成领域的一个重要主题，但仅从唇部动作推断语音是一项众所周知的艰巨任务，由于视位(语音的视觉单位)和音位(语音的语音单位)之间的一对多映射，同音词广泛存在并成为唇读和唇语语音准确信息提取的关键障碍。

随着深度学习的发展，在视频理解、视听学习和基于视频的声音生成方面取得了很大进展，而特定视位组合中的视位更有可能对应于独特的音素，模型可以利用更大的上下文来更准确地推断特定音素，并进一步减少歧义。

发明内容

本发明所要解决的技术问题是克服上述现有技术仅从唇部动作推断语音无法实现唇动-语音对齐，本发明提供一种基于并行流模型的快速唇动-语音对齐方法，以突破现有技术只能生成语音在有限的词汇和固定的句子结构的约束条件的限制，可生成比当前最先进的口型到语音模型更自然的语音。

为此，本发明采用的技术方案如下：一种基于并行流模型的快速唇动-语音对齐方法，其包括如下步骤：

1)提取视频的语义特征，通过视觉编码器，提取包含明确语义信息的视觉特征向量；

2)将视觉特征向量的长度校准至对应音频内容的长度，引入步骤1)得到的包含明确语义信息的视觉特征向量，设计校准模块，得到与音频特征向量长度统一的校准视觉特征向量；

3)根据步骤2)得到的与音频特征向量长度统一的校准视觉特征向量，通过状态模块得到最终编码向量，其中状态模块包含一个堆叠的前馈转换器、一个标准化层和一个多头注意力层；

4)根据步骤3)得到的最终编码向量，通过流解码器解码生成语音音频，其中流解码器包含一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层；

5)在模型训练阶段，通过视觉编码器与状态模块、流解码器分部式训练的方法，完成模型训练。

为了实现语音的并行生成，充分利用视频和音频的时间同步，本发明提出了一种简单的视频和音频对齐方法。通过实验，发现受流模型容量的限制，直接使用视觉编码器的输出作为基于流的解码器的条件，往往会导致语音清晰度下降。因此本发明进一步提出了一个状态模块生成粗糙但可理解的语音，并使用粗糙语音作为解码器的条件生成相应的高质量语音。本发明可以处理大量词汇和复杂句子，速度比当前最先进的模型快20倍左右。

进一步地，所述步骤1)的具体内容为：

1.1)输入面部视频序列V＝{v₁，v₂，...v_i…，v_M}，其中v_i代表面部视频序列的第i_th视频帧，批标准化后通过激活函数为relu函数的3D卷积神经网络，下采样视频帧得到一个D维向量f_i，视频特征向量序列为F＝{f₁，f₂，...f_i…，f_M}，其中

其中

为视频语义向量空间；

1.2)将步骤1.1)得到的视频特征向量序列一个双向LSTM网络，处理上下文信息，得到包含明确语义信息的视觉特征向量

更进一步地，所述步骤2)的具体内容为：

2.1)将步骤1.2)得到的包含明确语义信息的视觉特征向量

长度为M的视频特征向量通过校准模块，得到与音频特征向量长度统一的长度为N的校准视觉特征向量F′。

再进一步地，所述步骤2.1)中的校准视觉特征向量，具体内容为：

2.1.1)输入长度M的视频帧和长度为N的梅尔声谱，M＜N，如果N可被M整除，校准结果为{N/M，N/M，...}，如果N不可被M整除，取M与N的最大公约数K，将视频帧和音频帧分割为K组，每组的校准结果为：

其中，al_i代表每组中梅尔声谱的帧数对应的第i_th视频帧。

更进一步地，所述的步骤3)中通过状态模块得到最终编码向量，具体内容为：

3.1)根据步骤2.1)所得的校准视觉特征向量F′加入位置向量后传入一个堆叠的前馈转换器得到中间向量F′₁，其中堆叠的前馈转换器依次由一个多头注意力层、一个标准化层、一个卷积层和一个标准化层连接组成；

3.2)根据步骤3.1)所得的中间向量F′₁，传入一个全连接层将前馈转换器的输出线性映射至与梅尔声谱相同的通道数量的最终编码F′₂；

3.3)使用均方差损失函数

训练状态模块，均方差函数的表达式为

其中cond为条件模块的输出，mel为梅尔声谱的真实值。

再进一步地，所述步骤4)中的流解码器，具体内容为：

4.1)根据步骤3.2)所得的最终编码F′₂传入流解码器解码生成语音音频，流解码器由一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层组成；

为方便对所述步骤4.1)进行简要说明，提出如下两种定义：(1)每个模块的输入和输出均由x和y表示，尺寸为t×c，其中t为时间维度、c为通道维度；(2)sum()代表对矩阵元素所有元素进行加和。

更进一步地，所述步骤4.1)的具体内容为：

4.1.1)将步骤3.2)所得的最终编码F′₂作为输入传入压缩层，将80路的梅尔声谱帧分为按时间维度等分的两部分和将它们组成160路的特征图W_j；

4.1.2)将步骤4.1.1)压缩层的输出作为标准执行层的输入传入逆卷积层，标准执行层对每路的规模s和偏差参数b进行仿射转化，在模型训练中，标准执行层进行的运算为y＝s·x+b，在预测过程中，对应的逆变换为x＝(y-b)/s，其中标准执行层的雅克比对数行列式由sum(log(|s|))×t计算而得，其中规模s和偏差参数b在第一批数据的初始化时应实现零均值和单位方差，在初始化后s与b可看作常规可训练参数；

4.1.3)将4.1.2)标准执行层的输出作为逆卷积层的输入，将输入的分为40组，并将训练过程的变换定义为：y_i＝Wx_i，，其中W是一个

的矩阵，x_i，y_i为第i_th组的输入与输出x，y，逆变换为x_i＝W^-1y_i，逆变换的雅克比对数行列式为40×log(|det(W)|)×t；

4.1.4)将4.1.3)逆卷积层的输出作为仿射层的输入，训练过程的正向变换为：

x_a，x_b＝split(x)，

(log sc，t)＝func(x_b，cond)，

y_a＝sc·x_a+t，

y_b＝x_b，

y＝concat(y_a，y_b)，

split和concat为向量运算，split运算将输入分为两部分，concat运算将输入进行结合，cond是步骤3)提到的状态模块的输出，在预测的过程中，逆变换运算为：

y_a，y_b＝split(y)，

x_b＝y_b，

(log sc，t)＝func(x_b，cond)，

x＝concat(x_a，x_b)，

其中，func为建立残差链接和跳跃链接的门控tanh的非线性卷积函数，对应的雅克比对数行列式为sum(log(|sc|))；

4.1.5)将4.1.4)仿射层的输出一次传回4.1.3)所述的逆卷积层、4.1.2)所述的逆卷积层，并将逆卷积层结果进行解压运算，将160路的特征图解压为按时间维度等分的两张80路的梅尔声谱，得到最后的梅尔声谱形状。

更进一步地，所述步骤5)中的分部式训练方法，具体内容为：

5.1)根据损失函数

仅对步骤1)和3)中提到的视觉编码器和状态模块进行训练；

5.2)根据步骤5.1)所得训练完成后的视觉编码器、状态模块生成粗粒度梅尔声谱传入步骤4)中提到的流解码器，通过损失函数

训练流解码器，其中，s_i为步骤4.1.2)所述的逆卷积层中第i_th路的规模参数，c_k为第步骤4.1.3)所述矩阵W的第c_th行的第k_th个参数，z表示训练过程的输出，Act表示标准执行模块，Couple表示仿射模块，Conv表示逆卷积层，t、c、sum的定义与步骤4.1)描述一致；损失函数

的第一部分为球面高斯函数的对数似然，剩余部分为标准执行模块、仿射层与逆卷积层的雅克比对数行列式。

本发明具有的有益效果为：本发明为一种基于并行流模型的快速唇动-语音对齐方法，突破了只能生成语音在有限的词汇和固定的句子结构的约束条件的限制，可以生成比当前最先进的口型到语音模型更自然的语音，并实现比当前最先进模型高达20倍左右的加速。

附图说明

图1是本发明一种基于并行流模型的快速唇动-语音对齐方法的整体架构示意图；

图2是本发明视觉编码器的架构示意图；

图3是本发明状态模块的架构示意图；

图4是本发明流解码器的架构示意图。

具体实施方式

下面结合说明书附图和具体实施方式对本发明做进一步阐述和说明。

实施例

如图1所示，本发明为一种基于并行流模型的快速唇动-语音对齐方法，包括如下步骤：

步骤一、提取视频的语义特征，通过视觉编码器，提取包含明确语义信息的视觉特征向量。

输入面部视频序列V＝{v₁，v₂，...v_i…，v_M}，其中v_i代表面部视频序列第i_th视频帧，批标准化后通过激活函数为relu函数的3D卷积神经网络，下采样视频帧得到一个D维向量f_i，视频特征向量序列为F＝{f₁，f₂，...f_i...，f_M}，其中

将得到的视频特征向量序列一个双向LSTM网络，处理上下文信息，得到包含明确语义信息的视觉特征向量

步骤二、将视觉特征向量的长度校准至对应音频内容的长度，引入步骤一得到的包含明确语义信息的视觉特征向量，设计校准模块，得到与音频特征长度统一的校准后视觉特征。

首先，将步骤一得到的包含明确语义信息的视觉特征向量

所述校准视觉特征向量的具体内容为：

输入长度M的视频帧和长度为N的梅尔声谱(M＜N)，如果N可被M整除，校准结果为{N/M，N/M，...}，如果N不可被M整除，取M与N的最大公约数K，将视频帧和音频帧分割为K组，每组的校准结果为：

其中al_i代表每组中梅尔声谱的帧数对应的第i_th视频帧(例如，输入了240个梅尔声谱帧与90个声谱帧，则校准的结果为{3，3，2，3，3，2，3，3，2，...})。

步骤三、根据步骤二得到的与音频特征长度统一的校准视觉特征向量，通过状态模块得到最终编码向量，其中状态模块包含一个堆叠的前馈转换器、一个标准化层和一个多头注意力层。

首先，将步骤二所得的校准视觉特征向量F′加入位置向量后传入一个堆叠的前馈转换器得到中间向量F′₁，其中堆叠的前馈转换器依次由一个多头注意力层、一个标准化层、一个卷积层和一个标准化层连接组成；

接着，将所得的中间向量F′₁，传入一个全连接层将前馈转换器的输出线性映射至与梅尔声谱相同的通道数量的最终编码F′₂；

最后，使用均方差损失函数

训练状态模块，均方差函数的表达式为

其中cond为条件模块的输出，mel为梅尔声谱的真实值。

步骤四、根据步骤三得到的最终编码向量，通过流解码器解码生成语音音频，其中流解码器包含一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层。

根据步骤三所得的最终编码F′₂传入流解码器解码生成语音音频，流解码器由一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层组成，为对该部分进行简要介绍，提出如下两种定义：(1)每个模块的输入和输出均由x和y表示，尺寸为t×c)，其中t为时间维度、c为通道维度；(2)sum()代表对矩阵元素所有元素进行加和。

首先，将步骤三所得的最终编码F′₂作为输入传入压缩层，将80路的梅尔声谱帧分为按时间维度等分的两部分和将它们组成的160路的特征图；

接着，将压缩层的输出作为标准执行层的输入，标准执行层对每路的规模s和偏差参数b进行仿射转化，在模型训练中，标准执行层进行的运算为y＝s·x+b，在预测过程中，对应的逆变换为x＝(y-b)/s，其中标准执行层的雅克比对数行列式由sum(log(|s|))×t计算而得，其中规模s和偏差参数b在第一批数据的初始化时应实现零均值和单位方差，在初始化后s与b可看作常规可训练参数；

然后，将标准执行层的输出作为逆卷积层的输入，将输入的分为40组，并将训练过程的变换定义为：y_i＝Wx_i，，其中W是一个

再将逆卷积层的输出作为仿射层的输入，训练过程的正向变换为：

x_a，x_b＝split(x)，

(log sc，t)＝func(x_b，cond)，

y_a＝sc·x_a+t，

y_b＝x_b，

y＝concat(y_a，y_b)，

split和concat为向量运算，split运算将输入分为两部分，concat运算将输入进行结合，cond是步骤三提到的状态模块的输出，在预测的过程中，逆变换运算为：

y_a，y_b＝split(y)，

x_b＝y_b，

(log sc，t)＝func(x_b，cond)，

x＝concat(x_a，x_b)，

其中，func为建立了残差链接和跳跃链接的门控tanh的非线性卷积函数，对应的雅克比对数行列式为sum(log(|sc|))。

最后，将仿射层的输出一次传回步骤四所述的逆卷积层，并将逆卷积层结果进行解压运算，将160路的特征图解压为按时间维度等分的两张80路的梅尔声谱，得到最后的梅尔声谱形状。

步骤五、在模型训练阶段，通过视觉编码器与状态模块、流解码器分部式训练的方法，完成模型训练。

首先，根据损失函数

仅对步骤一和三中提到的视觉编码器、状态模块进行训练；

然后，根据所得训练完成后的视觉编码器、状态模块生成粗粒度梅尔声谱传入步骤四中提到的流解码器，通过损失函数

训练流解码器，其中z表示训练过程的输出，Act表示标准执行模块，Couple表示仿射模块，Conv表示逆卷积层，t、c、sum的定义与步骤四描述一致，损失函数

应用例

本发明提出了一种基于并行流模型的快速唇动-语音对齐方法，并根据该方法提出了一种基于非自回归架构的GlowLTS模型。与自回归架构模型相比，GlowLTS可以生成更高质量的语音。

本发明采用了无约束数据集：Lip2Wav-Chemistry-Lecture、Lip2Wav-ChessAnalysis和Lip2Wav-Hardware-Security。

视频预处理步骤如下：1、利用预训练人脸检测模型提取视频帧的面部区域作为原始视频2、通过双线性插值将面部图像重塑为特定大小。

音频预处理为对原始音频16KHZ频率进行采样，并将窗口大小、跳跃大小和梅尔维度分别设置为800、200和80。

拟建模型配置如下：1、视觉编码器与Lip2Wav相同；2、状态模块使用4个具有2个注意头和0.1超参的前馈转换器。3、基于流的解码器使用12个流块，每个流块包括1个actnorm层、1个可逆的1x1conv层和4个仿射耦合层。4、训练和推理过程使用初始学习率2×10^-4和权重下降率1×10^-6的Adam优化器优化GlowLTS模型。

本发明采用客观评价法和主观评价法评估GlowLTS模型性能。

客观评价法采用捕捉音频可解释性的STOI(短期客观可解释性)和ESTOI(扩展短期客观可解释性)进行评估，并对GAN-based、Ephrat、Lip2Wav(目前最先进的模型)和本发明GlowLTS模型作数据统计，统计结果见表1。其中STOI用于衡量语音信号的可解释性。一个0-1之间的近似值被看作是可解释性值。ESTOI是STOI的扩展，消除了STOI线性相关系数的缺点，对多种语言和口音具有鲁棒性。

在所有数据集中，与最先进的自回归模型相比，本发明提出的GlowLTS模型了获得类似或更好的STOI和ESTOI分数，并且以很大的优势优于其他两种有竞争力的非自回归模型。这说明本发明的GlowLTS模型可以生成更高质量的语音。

表1：客观评价

虽然客观评价法可以部分反映生成语音的可解释性，但语音质量是由人类感觉决定的。因此，主观的人为评价是最重要的和决定性的标准。主观评价法使用MOS(平均意见得分)进行评估。15位参与者需要根据表2的标准对Lip2Wav和GlowLTS模型生成的语音进行打分，结果见表3。

本发明提出的模型生成的语音优于或非常接近当前最先进模型的可解释性，这与客观评价结果一致。在自然度方面，GlowLTS模型处于领先地位，表明本发明提出的模型可以合成更多自然语音。

表2：MOS评分标准

分数	语音质量	失真情况
			5	很好	几乎感觉不到
4	好	感觉的到但不影响
			3	一般	感觉的到有轻微影响
2	差	有影响但可以接受
			1	很差	无法接受

表3：MOS主观评价

结果表明：通过采用Lip2Wav-Chemistry-Lectur等3个数据集，本发明提出的GlowLTS模型的客观评估结果和主观评价结果皆优于其它模型，证明了GlowLTS模型生成语音的优越性。