CN108538282A

CN108538282A - 一种由唇部视频直接生成语音的方法

Info

Publication number: CN108538282A
Application number: CN201810214692.8A
Authority: CN
Inventors: 贾振堂
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power
Priority date: 2018-03-15
Filing date: 2018-03-15
Publication date: 2018-09-14
Anticipated expiration: 2038-03-15
Also published as: CN108538282B

Abstract

本发明涉及一种由唇部视频直接生成语音的方法，包括以下步骤：1)获取唇部视频：采用摄像装置采集包含嘴唇的视频，得到嘴唇部分的视频；2)获取唇部部特征向量：对嘴唇部分的视频中每一帧图像，围绕嘴唇的内唇边缘和外唇边缘提取多个用以描述嘴唇形状的特征点，得到当前帧图像的唇部特征向量，以此获取一系列的唇部特征向量；3)唇音转换：将得到的唇部特征向量输入到唇音转换器中，每间隔一定的时间，唇音转换器将最新缓存的k个唇部特征向量进行一次语音帧参数向量的转换；4)语音合成：根据语音帧参数向量进行语音合成，还原音频采样并输出语音。与现有技术相比，本发明具有无需中间文字、转换效率高、便于训练等优点。

Description

一种由唇部视频直接生成语音的方法

技术领域

本发明涉及计算机视觉、数字图像处理、微电子技术和残疾人辅助技术领域，尤其是涉及一种由唇部视频直接生成语音的方法。

背景技术

本发明与唇语识别领域相关。“唇语识别”是依据嘴唇视频生成对应的文字表达，以下是目前能查到的最相关的技术方案信息：

(1)CN107122646A，发明名称：一种实现唇语解锁的方法。其原理是将实时采集的嘴唇特征与预先存储的嘴唇特征比对，用以确定身份，但并不能输出语音。

(2)CN107437019A，发明名称：唇语识别的身份验证方法和装置。其原理与(1)类似，差异在于采用了3D图像用以确定身份。

(3)CN106504751A，发明名称：自适应唇语交互方法以及交互装置。其原理依然是将嘴唇识别成文字，然后基于文字进行指令交互。

(4)LipNet，是牛津大学联合DeepMind发布的深度学习唇语识别算法，其目的也是将嘴唇识别成文字，与之前技术相比，识别率更高一些。

(5)CN107610703A，发明名称：一种基于唇语采集和语音拾取的多语言翻译器。它利用了现有的语音识别模块来识别成文字，然后再利用现有的语音合成模块将文字转换成语音。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种由唇部视频直接生成语音的方法。

本发明的目的可以通过以下技术方案来实现：

一种由唇部视频直接生成语音的方法，包括以下步骤：

1)获取唇部视频：采用摄像装置采集包含嘴唇的视频，并提取嘴唇区域，得到嘴唇部分的视频；

2)获取唇部部特征向量：对嘴唇部分的视频中每一帧图像，围绕嘴唇的内唇边缘和外唇边缘提取多个用以描述嘴唇形状的特征点，获取特征点的x，y坐标并做归一化处理后得到当前帧图像的唇部特征向量，以此获取一系列的唇部特征向量；

3)唇音转换：将得到的唇部特征向量输入到唇音转换器中，唇音转换器将唇部特征向量进行短时缓存，每间隔一定的时间Δt，唇音转换器将最新缓存的k个唇部特征向量进行一次语音帧参数向量的转换，并输出该语音帧参数向量；

4)语音合成：根据从唇音转换器输出的语音帧参数向量进行语音合成，将语音帧参数向量合成为语音帧，还原音频采样并输出语音。

所述的步骤2)中，围绕嘴唇的内唇边缘和外唇边缘提取20个用以描述嘴唇形状的特征点，并对这些特征点坐标值依据人脸参数进行姿态矫正和归一化处理。

所述的步骤3)中，所述的唇音转换器的参数包括Δt和k，所述的一定的时间Δt为一个语音帧的时间。

所述的一定的时间Δt取值为22.5ms，k设置为0.5秒钟的图像数，对于每秒50帧的视频帧率，k优选取值为25。

所述的步骤3)中，采用LPC10e算法进行语音帧参数向量的转换。

所述的语音帧参数向量包括2个清浊音标志、1个基因周期、1个增益和10个反射系数。

合成的一帧语音帧A包含180个音频采样。

与现有技术相比，本发明具有以下优点：

本发明利用一个唇音转换器，将唇部特征向量序列直接转换为语音帧编码参数向量序列，进而采用语音合成技术得到语音帧序列，并由语音帧特征数据合成语音，而不需要经过“文字”这一中间环节，提高了转换效率，并且唇音转换器易于训练。

附图说明

图1为本发明的方法原理图。

图2为唇音转换器的构成。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

本发明设计了一种由唇部视频生成语音的方法。该生成过程的步骤依次为：视频采集、提取唇部视频、计算唇部特征、预测语音帧编码参数、语音合成、语音播放。按照时间先后顺序，具体技术过程描述如下：

(1)通过视频采集设备采集包含唇部的视频(不需要采集音频)，并从采集的视频中提取嘴唇部分(包含嘴唇在内的一个矩形区域)的视频V。V是由一系列图像I₁,I₂,...,I_n按时间顺序组成的。

(2)对唇部视频V中的每一帧唇部图像I计算一个唇部特征向量FI，可得到一系列唇部特征向量FI₁,FI₂,...,FI_n，他们蕴含了唇部图像的运动变化信息。

(3)FI₁,FI₂,...,FI_n依次被送入唇音转换器P，唇音转换器P会按照一定的时间间隔(即一个语音帧所占的时间)将最新缓存的k个唇部特征向量转换输出为一个语音帧的编码参数向量，依次可得到语音帧编码参数序列FA₁,FA₂,...,FA_m。这里n和m分别代表视频帧和语音帧的当前帧号，他们不一定相等，因为他们的帧率可能不同。

(4)根据转换出来的语音帧编码参数向量序列，采用语音合成的方法重建每一个语音帧A。每一个编码参数向量FA被重建为一个语音帧A。每一个语音帧都是可以直接播放的音频数据。

(5)通过播放设备播放出语音帧序列A₁,A₂,...,A_m，即可听到声音。或者将他们予以存储。

上述步骤中使用的“唇音转换器P”是一个独立的功能单元，它能将唇部特征向量序列FI₁,FI₂,...,FI_n转换成语音帧的编码参数向量序列FA₁,FA₂,...,FA_m。

实施例：

如图1所示，本发明首先通过视频采集设备采集包含唇部的视频，并提取嘴唇部分图像得到唇部的视频V，V是由一系列图像I₁,I₂,...,I_n按顺序组成的。然后对每一副图像I都提取唇部特征FI，得到唇部特征序列FI₁,FI₂,...,FI_n。该唇部特征序列被依次送入唇音转换器P，从唇音转换器P的输出端可得到语音编码参数序列FA₁,FA₂,...,FA_m。采用语音合成技术，将语音帧编码参数序列合成为语音帧序列A₁,A₂,...,A_m。

本实施例中转换方法具体过程描述如下。

(1)第一步，获取唇部视频：利用摄像装置采集包含嘴唇的视频(不需要采集音频)，并提取出嘴唇区域，得到嘴唇部分的视频V。可以采用现有的嘴唇图像检测技术来检测和切割出唇部视频；

(2)第二步，计算唇部部特征向量：对于嘴唇部分视频V中的每一帧图像，围绕嘴唇的内唇边缘和外唇边缘，共提取20个特征点，以描述当前嘴唇的形状。每个点有x和y两个坐标值，20个点共有40个坐标数据。依据人脸坐标对40个坐标值进行姿态矫正和归一化处理后，作为一个唇部特征向量FI。从连续的视频图像中可以得到一系列的唇部特征向量FI₁,FI₂,...,FI_n。鉴于图像帧率通常不高，可对唇部特征向量进行插值，以提高帧率。

(3)第三步，唇音转换：将计算得到的每一个唇部特征向量立刻输入到转换器中，这些唇部特征向量会在转换器中进行一个短时间的缓存。每间隔一定的时间间隔Δt(一个语音帧的时间)，转换器会利用最新缓存的k个唇部特征向量进行一次语音帧参数向量FA的计算，并将该FA其输出。k和Δt是唇音转换器的参数。按照一般的做法，音频采样率设置为8000Hz，Δt设置为22.5ms，也就是一个语音帧含180个采样。k可设置为0.5秒钟的图像数，视频特征插值后的帧率为每秒50帧，于是k可设置为0.5x50＝25。

(4)第四步，语音合成：根据从唇音转换器得到的语音帧参数向量FA，利用语音合成技术，将FA合成为语音帧A，即还原出音频采样。这里采用LPC10e算法，FA是14个数值的LPC参数向量(2个清浊音标志、1个基因周期、1个增益、10个反射系数)，合成的一帧音频A包含180个音频采样。

(5)按照上述配置，视频特征经过插值后，帧率为50帧每秒，转换后的音频帧为44.4帧每秒。以上步骤连续处理，可以得到连续的转换结果。可以根据需要将其播放和存储。

如图2所示，唇音转换器P由输入缓存、预测器和配置参数组成。

唇音转换器接收一系列唇部特征向量，并将其存储在输入缓存中。每隔一定的时间间隔Δt，将缓存的k个最新的唇部特征向量送入预测器，并由测器得到一个预测结果，并将该结果从输出口输出。该预测结果是一个语音帧的编码参数。配置参数主要存储了预测器的配置参数。k是一个参数，其值近似等于一个待识别的字、词和短语所占的最大视频帧数，如果进行单字的识别，正常语速下k＝25左右，如果以词语或短语为单位，则k值大致按照字数倍增。

转换器的核心是一个预测器，该预测器是一个机器学习模型，能够利用训练样本对它进行训练。预测器可采用人工神经网络来实现，作为一个实例，该神经网络由3个LSTM层+2个全连接层依次连接组成。每两层之间以及LSTM的内部反馈层之间都添加Dropout层。预测器的训练方法为：

①样本生成：取任意时刻t的连续k个唇部特征向量组成一个短时序列FIS_t＝(FI_t-k+1,...,FI_t-2,FI_t-1,FI_t)作为预测器的输入样本，其中FI_t为时间上最接近t的一个唇部特征向量。提取对应时刻的L个连续语音采样值作为一个语音帧A_t＝(S_t-L+1,...,S_t-2,S_t-1,S_t)，其中S_t是时间上最接近t的一个语音采样，并采用语音分析算法LPC10e对该语音帧计算其编码参数，作为t时刻的语音帧编码参数向量FA_t。其中L＝180，是一个固定的参数。不同时刻t，可得到大量训练样本对{FIS_t，FA_t}。

②利用大量样本对{FIS_t，FA_t}，按照深度人工神经网络的一般训练方法对预测器进行训练(即采用误差反向传播的方法逐步调整网络权值)，并采用均方误差MSE来计算预测误差。

训练完成后，预测器每间隔一定的时间间隔Δt，从缓存中获取k个最新唇部特征向量FI_t-k+1,...,FI_t-2,FI_t-1,FI_t作为输入，并预测输出一个语音帧的编码参数向量FA_t。例如，对于k＝25的情况：

t＝t₀+Δt时，由FI₁,FI₂,...,FI₂₅预测得到FA₁(t₀为起始时间)

t＝t₀+2Δt时，由FI₂,FI₃,...,FI₂₆预测得到FA₂

t＝t₀+3Δt时，由FI₃,FI₄,...,FI₂₇预测得到FA₃

......

这样不断处理下去，由唇部特征向量序列FI₁,FI₂,...,FI_n(n≥k)转换得到语音帧的编码参数向量序列FA₁,FA₂,...,FA_m。

Claims

1.一种由唇部视频直接生成语音的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种由唇部视频直接生成语音的方法，其特征在于，所述的步骤2)中，围绕嘴唇的内唇边缘和外唇边缘提取20个用以描述嘴唇形状的特征点，并对这些特征点坐标值依据人脸参数进行姿态矫正和归一化处理。

3.根据权利要求1所述的一种由唇部视频直接生成语音的方法，其特征在于，所述的步骤3)中，所述的唇音转换器的参数包括Δt和k，所述的一定的时间Δt为一个语音帧的时间。

4.根据权利要求3所述的一种由唇部视频直接生成语音的方法，其特征在于，所述的一定的时间Δt取值为22.5ms，k设置为0.5秒钟的图像数，对于每秒50帧的视频帧率，k取值为25。

5.根据权利要求1所述的一种由唇部视频直接生成语音的方法，其特征在于，所述的步骤3)中，采用LPC10e算法进行语音帧参数向量的转换。

6.根据权利要求5所述的一种由唇部视频直接生成语音的方法，其特征在于，所述的语音帧参数向量包括2个清浊音标志、1个基因周期、1个增益和10个反射系数。

7.根据权利要求4所述的一种由唇部视频直接生成语音的方法，其特征在于，合成的一帧语音帧A包含180个音频采样。