CN113450824A

CN113450824A - 一种基于多尺度视频特征融合的语音唇读方法及系统

Info

Publication number: CN113450824A
Application number: CN202110716761.7A
Authority: CN
Inventors: 熊盛武; 曾瑞; 陈燚雷
Original assignee: Wuhan University of Technology WUT
Current assignee: Chongqing Wurong Technology Co ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-09-28
Anticipated expiration: 2041-06-28
Also published as: CN113450824B

Abstract

本发明提供了一种基于多尺度视频特征融合的语音唇读方法及系统，其中，基于多尺度视频特征融合的语音唇读方法，步骤如下：首先将输入视频的视频帧和语音分离，视频帧用不同大小的滑动窗口划分为多个尺度并构造出n个时间金字塔，再利用3D卷积提取各时间金字塔内各时间尺度的视频特征之后，将视频特征通过多尺度特征融合模块，得到一个固定维度的中间向量，然后再通过使用解码器将中间特征向量合成对应语音的Mel频谱图，最后将得到的Mel谱通过声码器合成语音。本发明主要应用于语音唇读，大大改善了语音合成的效果。

Description

一种基于多尺度视频特征融合的语音唇读方法及系统

技术领域

本发明涉及多媒体和人工智能领域，尤其涉及一种基于多尺度视频特征融合的语音唇读方法及系统。

背景技术

语音唇读任务由唇读任务衍生而来，因为人们发现，语音往往比文字更具表现力。所以语音唇读领域在前端进行特征提取时所存在的问题也有一部分和唇读任务是相同的，但又因为语音唇读这一任务有合成语音的需要，那么在后端进行语音合成时，也会遇到一些语音合成领域会遇到的问题。

Heiga Zen等人将用于唇读任务和Text-To-Speech任务(文字到语音)的模型相结合的方法来生成语音。虽然对语言感知任务来说,音频信息包含的信息量更为丰富,但研究表明,利用视觉信息能够增强语音识别的精确度和鲁棒性，所以声音和视觉之间是有很强大的相关性的，因此，Abe Davis等人提出了利用视频来重建语音信号的方法。Ephrat等人将语音重建视为一个使用神经网络的回归问题，首次提出了音素和视素语义对应的问题。Akbari等人试图利用神经网络重建自然的语音，该网络以说话者的脸部区域为输入，并由一个预训练好的自动编码器绘制谱图，最后将谱图转化为语音。

本申请发明人在实施本发明的过程中，发现现有技术中存在如下技术问题：

现有技术中的上述方法都有一个主要的限制：音谱图和人工设计的特征中都不包含语音信号的所有信息。Vougioukas等人为了解决了这个问题，提出了一种端到端模型，该模型可以使用生成对抗网络直接合成视频中的音频波形。然而由于他们对时域信号进行的直接估计，重建的语音难免会存在比较明显的人工合成痕迹。

由此可知，现有技术中的方法存在语音合成效果不佳的技术问题。

发明内容

本发明提出一种基于多尺度视频特征融合的语音唇读方法及系统，用于解决或者至少部分解决现有技术中的方法存在语音合成效果不佳的技术问题。

为了解决上述技术问题，本发明第一方面提供了一种基于多尺度视频特征融合的语音唇读方法，包括：

S1：获取大量的说话人说话视频数据集；

S2：从获取的视频数据集中提取出视频帧和语音数据；

S3：从语音数据中提取出Mel谱；

S4：构建基于多尺度视频特征融合的语音唇读模型，其中，语音唇读模型包括编码器、解码器以及声码器，编码器包括多时间尺度视频划分模块、位置编码模块和多尺度特征融合模块，多时间尺度视频划分模块用于通过不同窗口大小的滑动窗口来构造时间金字塔捕获时间维度的特征，得到不同尺度的特征向量，位置编码模块用于将每个视频片段的位置信息引入到不同尺度的特征向量中，多尺度特征融合模块用于采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合，得到融合后的时空向量；解码器用于根据融合后的时空向量重建出语音Mel谱，声码器用于将得到的代表语音的Mel谱转化为语音；

S5：将步骤S2中提取出的视频帧作为训练数据，对语音唇读模型进行训练，将解码器重建出的语音Mel谱和步骤S3中提取出的Mel谱之间的MSE损失最小化为目标，得到训练好的语音唇读模型；

S6：利用训练好的语音唇读模型对输入的视频进行语音识别。

在一种实施方式中，在将步骤S2中提取出的视频帧作为训练数据，对语音唇读模型进行训练之前，所述方法还包括：

采用人脸对齐工具，检测视频帧中的人脸特征点，并剪裁成预设大小。

在一种实施方式中，步骤S2中位置编码模块的处理过程包括：

学习一个函数G_spe(·)，将每一个位置索引映射到具有相同长度的片段特征向量中，带有位置信息的特征向量表示为

其中，G_spe(·)为一个正余弦函数，两个位置之间的关系可以通过他们位置编码间的仿射变换来建模获得，

表示不带位置信息的特征向量，k表示每一帧在序列中的位置。

在一种实施方式中，步骤S2中多尺度特征融合模块采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合，包括：

首先利用点乘注意力将同一时间金字塔内不同尺度的视频片段特征进行特征融合，再利用自注意力将各时间金字塔的特征进行融合；

其中，点乘注意力使中间隐向量考虑到局部信息，自注意力使得中间隐向量考虑非局部的上下文信息的影响，点乘注意力公式如公式(1)～(4)所示、自注意力公式如下(5)～(6)所示：

e＝G_attn(W_eh,W_eh,W_eh),W_e∈R^D”×D......(5)

h＝[h₀,h₁,...,h_L-1],h_k∈R^D......(6)

公式(1)为一个时间金字塔在共享特征空间中的向量表示，W_g为线性映射函数，z₀...z_p-1表示构成时间金字塔的各视频片段；公式(2)为一个时间金字塔的构造，其中，

和

分别表示带有各自位置编码的

片段和ψ片段的向量表示，

表示一个以

为主片段的时间金字塔，M为片段所包含的视频帧数；公式(3)中，c_k是通过点乘注意力计算出来的注意力分数，W_g为线性映射函数，W_g∈R^D'^×D将向量映射到共享特征空间R^D'，

代表视频的k+1个主片段特征；公式(4)将计算出来的注意力用Softmax函数进行归一化，得到符合概率分布取值区间的注意力分配概率分布数值，d为Q和K向量的维度，其中，公式(3)中的

Z_k、Z_k分别对应公式(4)中的Q、K、V；公式(5)为自注意力计算出来的注意力分数，其中，W_e为权重，通过网络训练得到的，h为所有时间金字塔表示集合的矩阵；为得到更具表现力的特征，添加两个线性层W₁和W₂，两个线性层中间加入GELU激活函数，公式(6)中h_k＝W₂·GELU(W₁c_k+b₁)+b₂,b₁∈R^D,b₂∈R^D，其中，b₁和b₂分别代表线性层W₁和W₂的偏差，h_k表示第k个时间金字塔的表示。

在一种实施方式中，步骤S2解码器包括一个前处理网络、两层LSTM和一个位置敏感的注意力层。

在一种实施方式中，步骤S5中以解码器重建出的语音Mel谱和步骤S3中提取出的Mel谱之间的MSE损失最小化为目标，构建MSE损失函数，公式为：

式中，

代表模型重建出的语音Mel谱，y_i代表真实语音Mel谱，n代表样本对的个数。

基于同样的发明构思，本发明第二方面提供了一种基于多尺度视频特征融合的语音唇读系统，包括：

视频数据获取模块，用于获取大量的说话人说话视频数据集；

语音分离模块，用于从获取的视频数据集中提取出视频帧和语音数据；

语音特征提取模块，用于从语音数据中提取出Mel谱；

语音唇读模型构建模块，用于构建基于多尺度视频特征融合的语音唇读模型，其中，语音唇读模型包括编码器、解码器以及声码器，编码器包括多时间尺度视频划分模块、位置编码模块和多尺度特征融合模块，多时间尺度视频划分模块用于通过不同窗口大小的滑动窗口来构造时间金字塔捕获时间维度的特征，得到不同尺度的特征向量，位置编码模块用于将每个视频片段的位置信息引入到不同尺度的特征向量中，多尺度特征融合模块用于采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合，得到融合后的时空向量；解码器用于根据融合后的时空向量重建出语音Mel谱，声码器用于将得到的代表语音的Mel谱转化为语音；

模型训练模块，用于将语音分离模块中提取出的视频帧作为训练数据，将解码器重建出的语音Mel谱和语音特征提取模块中提取出的Mel谱之间的MSE损失最小化为目标，对语音唇读模型进行训练，得到训练好的语音唇读模型；

语音识别模块，用于利用训练好的语音唇读模型对输入的视频进行语音识别。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于多尺度视频特征融合的语音唇读方法，构建了语音唇读模型，其包括编码器、解码器以及声码器，通过编码器可以提取视频中的时空信息，得到能够表示该说话视频的时空特征向量，解码器能够从编码器得到的时空特征向量中，得到静默说话视频所对应的语音特征，即语音的中间特征—Mel谱，将后端语音合成的声码器(Griffin-Lim算法)网络，可以基于解码器得到的Mel谱重建出相应的语音。由于编码器采用了多时间尺度视频划分、位置编码以及多尺度特征融合，可以提取视频中的动态信息，生成更丰富的语音特征，因此大大改善了语音合成的效果。

进一步地，本发明在深度学习的序列到序列编解码器模型基础上，融入了时间金字塔和注意力机制在捕捉时间特征方面的优良特性，通过挖掘视频信号中的动态信息，在语音重建清晰度和表现力方面有较大的提升。也填补了语音唇读技术缺乏考虑利用视频数据中动态信息的方案空白。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于多尺度视频特征融合的语音唇读的方法流程图；

图2为本发明实施例中构建的基于多尺度视频特征融合的语音唇读模型的总体架构图；

图3为本发明实施例中对于时间金字塔的构造示意图；

图4为本发明实施例中基于多尺度视频特征融合的局部特征融合过程示意图；

图5为本发明实施例中本发明基于多尺度视频特征融合的全局特征融合过程示意图。

具体实施方式

相较于传统的唇读任务，语音唇读不需要将口型(视素)和文本(音素)做映射，数据集中不需要标签，所以对于数据集的收集与整理比较方便。也不像文本到语音任务(text-to-speech)和传统文本唇读任务，语音唇读还属于一个比较新兴的待探索的领域，就目前来看还有很大的创新和发展空间。

本发明的目的在于，提供一种基于多尺度视频特征融合的语音唇读方法，在时间尺度上挖掘视频中动态信息(时间和空间信息)，并充分利用视频数据提供的信息对视频帧的语音进行识别，以提高语音识别的效果。

本发明的主要构思如下：

本发明利用序列到序列的模型来学习说话视频的高维表示，同时完成其对应说话内容的语音重建任务。利用编码器的多尺度特征融合模块来生成更丰富的语音特征。首先将输入视频数据的视频帧和语音分离，视频帧用不同大小的滑动窗口划分为多个尺度并构造出n个时间金字塔，再利用3D卷积提取各时间金字塔内各时间尺度的视频特征之后，将视频特征通过多尺度特征融合模块，得到一个固定维度的中间向量(融合后的时空向量)，然后再通过使用解码器将中间特征向量合成对应语音的Mel频谱图，最后将得到的Mel谱通过声码器合成语音。其中，所述编码器包含三个部分，多时间尺度视频划分模块、位置编码模块和多尺度特征融合模块。本发明主要应用于语音唇读。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种基于多尺度视频特征融合的语音唇读方法，包括：

S1：获取大量的说话人说话视频数据集；

S2：从获取的视频数据集中提取出视频帧和语音数据；

S3：从语音数据中提取出Mel谱；

具体实施过程中，S1中说话人说话视频数据集的数量可以根据实际情况设置，S2可以采用现有的工具对视频帧和语音数据进行分离，例如ffmpeg工具，提取的视频帧为静音的视频帧。S3中从语音数据中提取出Mel谱作为真实的语音Mel谱，用于后续训练过程中计算损失。

S4中构建的基于多尺度视频特征融合的语音唇读模型包括编码器、解码器以及声码器，编码器得到能够表示该说话视频的时空特征向量，将提取出的时空特征输入解码器中，得到该静音说话视频所对应的语音特征，即语音的中间特征—Mel谱；再将Mel谱输入后端语音合成的声码器(Griffin-Lim算法)网络，重建出相应的语音。

编码器包含三个部分，多时间尺度视频划分模块、位置编码模块和多尺度特征融合模块。其中多时间尺度视频划分模块在进行多时间尺度视频划分：通过不同窗口大小的滑动窗口来构造时间金字塔。为了更好地获取视频数据在时间尺度上的特征，使用具有不同窗口大小来捕获时间维度的特征，窗口大小w可取8、12、16等，不同的w值代表不同的时间尺度。

图1为本发明实施例中基于多尺度视频特征融合的语音唇读的方法流程图，其中，提取源语音和视频分段即为语音和视频分离。

图2为本发明实施例中构建的基于多尺度视频特征融合的语音唇读模型的总体架构图，图3为本发明实施例中对于时间金字塔的构造示意图。

具体实施过程中，可以利用face_alignment提供的人脸对齐工具来检测人脸特征点。剪裁成N*N的大小，N代表图片长和宽的取值，以像素为单位。例如当N取64时，表示将图片剪裁成一张长、宽都为64像素的图片，根据实际情况取值，N可以取64、128、256等值。

具体来说，为了使模型能够利用序列的顺序，将每个视频片段的位置信息注入到特征向量中，例如第一帧中，k＝0。

e＝G_attn(W_eh,W_eh,W_eh),W_e∈R^D”×D......(5)

h＝[h₀,h₁,...,h_L-1],h_k∈R^D......(6)

和

分别表示带有各自位置编码的

片段和ψ片段的向量表示，

表示一个以

具体来说，在通过多时间尺度视频划分模块进行多尺度卷积之后，得到三种不同尺度的的特征向量，分别表示为不同尺度的特征信息，首先利用点乘注意力将同一时间金字塔内不同尺度的视频片段特征进行特征融合，再利用自注意力将各时间金字塔的特征进行融合。其中，点乘注意力令中间隐向量考虑到局部信息，自注意力可以令中间隐向量考虑非局部的上下文信息的影响，两者结合可以使特征向量具有更好的表达能力。点乘注意力和自注意力为两种不同的计算相似度的方式。

具体实施过程中，利用点乘注意力将同一时间金字塔内不同尺度的视频片段特征进行特征融合，为局部特征融合过程，结合图4，其实现步骤如下：

步骤一：准备输入：带有位置信息的特征向量

步骤二：初始化权重：每个输入必须具有三个表示形式。这些表示形式称为键(K)，查询(Q)和值(V)。为了获得这些表示形式，每个输入都将与一组键的权重、一组查询的权重和一组值的权重相乘。向量矩阵Wg就代表这些权重；

步骤三：派生键、查询和值：得到权重之后就可以获取每个输入的键、查询和值表示形式，即公式(3)中的

Z_k、Z_k分别对应公式(4)中的Q、K、V；

步骤四：用公式(3)计算输入的注意力得分c_k；

步骤五：计算softmax；

步骤六：将分数与值相乘并相加得到h_n。

利用自注意力将各时间金字塔的特征进行融合，为全局特征融合的过程，结合图5，其实现步骤如下：

步骤一：准备输入：局部特征融合后的注意力向量；

步骤二：初始化权重：每个输入必须具有三个表示形式。这些表示形式称为键(K)，查询(Q)和值(V)。为了获得这些表示形式，每个输入都将与一组键的权重，一组查询的权重和一组值的权重相乘。公式(5)中的向量矩阵We就代表这些权重；

步骤三：派生键、查询和值：有了权重就可以获取每个输入的键、查询和值表示形式，即公式(5)中的W_eh、W_eh、W_eh分别对应Q、K、V；

步骤四：计算输入的注意力得分，即公式(5)；

步骤五：计算softmax；

步骤六：将分数与值相乘并相加得到A_n。

具体实施过程中，将编码器得到的融合后的特征向量输入前处理网络(两层全连接层)将特征映射到一个隐空间，接着取一帧输入两层LSTM之后输入位置敏感的注意层，从而可以得到代表语音的Mel谱。

再通过声码器(Griffin-Lim算法)将Mel谱转化为语音。

式中，

相对于现有技术，本发明的有益效果是：

在深度学习的序列到序列编解码器模型基础上，融入了时间金字塔和注意力机制在捕捉时间特征方面的优良特性，提出了基于多尺度视频特征融合的语音唇读方法。通过挖掘视频信号中的动态信息，在语音重建清晰度和表现力方面有较大的提升，填补了语音唇读技术缺乏考虑利用视频数据中动态信息的方案空白。

实施例二

基于同样的发明构思，本实施例提供了一种基于多尺度视频特征融合的语音唇读系统，包括：

语音特征提取模块，用于从语音数据中提取出Mel谱；

由于本发明实施例二所介绍的系统，为实施本发明实施例一中基于多尺度视频特征融合的语音唇读所采用的系统，故而基于本发明实施例一所介绍的方法，本领域所属技术人员能够了解该系统的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。