CN108648745B

CN108648745B - 一种由唇部图像序列到语音编码参数的转换方法

Info

Publication number: CN108648745B
Application number: CN201810215186.0A
Authority: CN
Inventors: 贾振堂
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power
Priority date: 2018-03-15
Filing date: 2018-03-15
Publication date: 2020-09-01
Anticipated expiration: 2038-03-15
Also published as: CN108648745A

Abstract

本发明涉及一种由唇部图像序列到语音编码参数的转换方法，包括以下步骤：1)构建语音编码参数转换器，包括输入缓存和参数配置后的预测器；2)按照时间先后顺序依次接收唇部图像，并将其存储在转换器的输入缓存中；3)每隔一定的时间，将当前时刻缓存的k个最新的唇部图像作为一个短时图像序列送入预测器，并获取一个预测结果，该预测结果为一个语音帧的编码参数向量；4)语音编码参数转换器输出预测结果。与现有技术相比，本发明具有直接转换、无需文字转换、便于构造训练等优点。

Description

一种由唇部图像序列到语音编码参数的转换方法

技术领域

本发明涉及计算机视觉、数字图像处理和微电子技术领域，尤其是涉及一种由唇部图像序列到语音编码参数的转换方法

背景技术

唇语识别是依据嘴唇视频生成对应的文字表达，以下是现有的相关的技术方案：

(1)CN107122646A，发明名称：一种实现唇语解锁的方法。其原理是将实时采集的嘴唇特征与预先存储的嘴唇特征比对，以确定身份，但是只能获取嘴唇特征。

(2)CN107437019A，发明名称：唇语识别的身份验证方法和装置。其原理与(1)类似，差异在于采用了3D图像。

(3)CN106504751A，发明名称：自适应唇语交互方法以及交互装置。其原理依然是将嘴唇识别成文字，然后基于文字进行指令交互，转换步骤繁复。

(4)LipNet，是牛津大学联合DeepMind发布的深度学习唇语识别算法，其目的也是将嘴唇识别成文字。与之前技术相比，识别率更高一些，但转换的过程也很复杂。

(5)CN107610703A，发明名称：一种基于唇语采集和语音拾取的多语言翻译器。它利用了现有的语音识别模块来识别成文字，然后再利用现有的语音合成模块将文字转换成语音。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种由唇部图像序列到语音编码参数的转换方法

本发明的目的可以通过以下技术方案来实现：

一种由唇部图像序列到语音编码参数的转换方法，包括以下步骤：

1)构建语音编码参数转换器，包括输入缓存和参数配置后的预测器；

2)按照时间先后顺序依次接收唇部图像，并将其存储在转换器的输入缓存中；

3)每隔一定的时间，将当前时刻缓存的k个最新的唇部图像作为一个短时图像序列送入预测器，并获取一个预测结果，该预测结果为一个语音帧的编码参数向量；

4)语音编码参数转换器输出预测结果。

所述的预测器为训练后的深度人工神经网络，所述的深度人工神经网络由3个卷积LSTM网络层和2个全连接层依次连接组成，中间插入必要的池化层和丢弃层。

所述的预测器的训练方法具体包括以下步骤：

21)同步采集视频和语音：通过视频和音频采集设备，同步采集视频和对应的语音数据，从视频中提取唇部图像I₁,I₂,...,I_n，唇部图像包括整个嘴部以及以嘴为中心的一个矩形区域，并依据人脸参数进行姿态矫正和尺度规范化，所述的语音数据为语音样值序列S₁,S₂,...,S_M，并使唇部图像和语音数据保持时间对应关系；

22)获取任意时刻t的唇部图像短时序列IS_t：对给定的任意时刻t，提取k个连续的唇部图像作为t时刻的唇部图像短时序列IS_t＝(I_t-k+1,...,I_t-2,I_t-1,I_t)，其中，I_t为时间上最接近t的一个唇部图像，k为指定参数；

23)获取任意时刻t的语音帧编码参数向量FA_t，对任意时刻t，提取L个连续语音采样值作为一个语音帧A_t＝(S_t-L+1,...,S_t-2,S_t-1,S_t)，其中S_t是时间上最接近t的一个语音采样，采用基于声码器的语音编码算法获取该语音帧的编码参数，即为t时刻的语音帧编码参数向量FA_t，其中，L为固定参数；

24)采用样本训练预测器：任取一时刻t，根据步骤22)和23)得到的训练样本对{FIS_t，FA_t}作为预测器的输入和期望输出，并在有效范围内随机选取多个t值，以获取多个训练样本对，对预测器进行训练。

所述的步骤22)中，采用对唇部图像进行时间插值使其帧率加倍，或采用高速图像采集设备进行采集的方式提高唇部图像的帧率。

所述的步骤22)中，根据应用情景中需要识别的词汇长度选取k值，k值等于一个待识别的字、词或者短语所占的最大视频帧数。

所述的步骤23)中，L的取值为180。

所述的步骤23)中，所述的语音编码算法为LPC10e算法，所述的编码参数向量为LPC参数，包括1个前半帧清浊音标志、1个后半帧清浊音标志、1个基音周期、1个增益和10个反射系数。

与现有技术相比，本发明具有以下特点：

一、直接转换：本发明采用机器学习技术构造了一个特殊的转换器，它实现从唇部图像到语音帧编码参数向量的转换。其中的预测器，可用深度学习人工神经网络来实现，但并不限于人工神经网络。

二、无需文字转换：该转换器采用唇部图像序列作为输入，语音帧编码参数向量作为输出。其输出的语音帧编码参数向量，可以由语音合成技术直接合成为语音采样帧，而不需要经过“文字”这一中间环节。

三、便于构造训练：本发明还提供了所设计预测器的训练方法，以及训练样本的构造方法。

附图说明

图1为转换器的组成和接口结构图。

图2为预测器的训练流程图。

图3为预测器的人工神经网络结构。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

本发明设计了一种由唇部图像序列到语音编码参数转换的转换器。它能够将接收唇部图像序列，并将它们转换成语音帧编码参数向量序列、并予以输出。

如图1所示，该转换器主要包括输入缓存、预测器、和配置参数。其核心是一个预测器，该预测器是一个机器学习模型，能够利用训练样本对它进行训练。训练完成后的预测器，能够将唇部图像的一个短时序列预测输出为一个对应的语音编码参数向量。

转换器的工作过程描述如下，包括四个步骤：

(1)转换器启动后，读取配置参数，从而构建预测器。

(2)转换器接收一系列时间上连续的唇部图像I₁,I₂,...,I_n，并将其存储在输入缓存中。这些唇部图像按照时间先后顺序依次输入。

(3)每隔一定的时间Δt，转换器就将当前时刻t缓存的k个最新的唇部图像作为一个短时图像序列IS_t＝(I_t-k+1,...,I_t-2,I_t-1,I_t)送入预测器，并得到一个预测结果FA_t。该预测结果是一个语音帧的编码参数向量。其中Δt等于一个语音帧所占的时长，k是一个固定的参数。

(4)得到一个预测结果FA_t后，随即将其从输出接口输出。

以上步骤持续循环运行，从而将唇部图像序列I₁,I₂,...,I_n转换成语音帧的编码参数向量序列FA₁,FA₂,...,FA_m。由于语音帧的频率和视频帧的频率并不一定相等，因此这里输入的图像I的个数n和输出的语音帧参数向量FA个数m也不一定相等。

本专利描述的转换器中，涉及一个预测器，该预测器用一种具有数据预测能力的机器学习模型来实现，例如用一个人工神经网络来实现，但不限于人工神经网络。在应用之前，需要对其进行训练(即让预测器进行学习)，训练其原理如图2所示，图中，从唇部视频的图像中任意选取的一个唇部图像短序列IS_t＝(I_t-k+1,...,I_t-2,I_t-1,I_t)，作为训练用的输入样本；在语音中选取一个与IS_t对应的语音帧A_t＝(S_t-L+1,...,S_t-2,S_t-1,S_t)，其中S_t是在时间上与I_t最接近的一个音频采样，然后采用基于声码器的语音编码算法对语音帧A_t进行分析，得到其编码参数向量FA_t，作训练用的期望输出，即标签，由此获取大量的训练样本和标签对{IS_t，FA_t}，用来训练预测器，这里t为随机的任意有效时刻。

(1)同步采集视频和语音。通过视频和音频采集设备，同步采集视频和对应的语音数据。视频中需要包含嘴唇部分。从视频中提取嘴唇部分，即包含整个嘴部、以觜为中心的一个矩形区域，并依据人脸参数进行姿态矫正和尺度规范化，最终的唇部视频是由一系列唇部图像I₁,I₂,...,I_n组成，语音数据则表现为语音样值序列S₁,S₂,...,S_M(这里M为大写，表示采样数，语音帧数表示为小写m)，图像和语音保持时间对应关系。

(2)任意时刻t的唇部图像短时序列IS_t。对给定的任意时刻t，提取k个连续的唇唇部图像作为t时刻的唇部图像短时序列IS_t＝(I_t-k+1,...,I_t-2,I_t-1,I_t)，其中I_t为时间上最接近t的一个唇部图像，k是一个固定的参数。为了提高唇部图像的帧率，可对唇部图像进行时间插值使其帧率加倍，或者直接采用高速的图像采集设备。

(3)任意时刻t的语音帧编码参数向量FA_t，对任意时刻t，提取L个连续语音采样值作为一个语音帧A_t＝(S_t-L+1,...,S_t-2,S_t-1,S_t)，其中S_t是时间上最接近t的一个语音采样。采用基于声码器的语音编码算法，对该语音帧计算其编码参数，得到t时刻的语音帧编码参数向量FA_t，其中L是一个固定的参数。

(4)用样本训练预测器。任取一时刻t，根据(2)和(3)得到一个训练样本对{IS_t，FA_t}，其中IS_t为预测器的输入，FA_t为预测器的期望输出，即标签。在有效范围内随机选取大量t值，可得到大量的样本。用这些样本，依据预测器的类型，采用相应的方法对预测器进行训练。

(5)将训练完成后的预测器，作为一个组件用于构建唇音转换器，如图1所示，该转换器主要包括输入缓存、预测器、和配置参数，以及输入和输出接口。转换器接收一个个唇部图像，并将其存储在输入缓存中。每隔一定的时间间隔Δt，将缓存的k个最新的唇部图像送入预测器，并由测器得到一个预测结果，并将该结果从输出口输出。该预测结果是一个语音帧的编码参数。配置参数主要存储了预测器的配置参数。

实施例1：

下面是一种具体的实施方法，但本发明所述的方法和原理并不限于其中所给出的具体数字。

(1)预测器，可采用人工神经网络来实现。亦可采用其他机器学习技术对预测器进行构建。下面的过程中，预测器采用深度人工神经网络，即预测器等同于一个深度人工神经网络；

如图3所示，该人工神经网络主要由3个卷积LSTM网络层(ConvLSTM2D)和2个全连接层(Dense)依次连接组成。每个ConvLSTM2D都跟一个池化层(MaxPooling2D)，两个Dense层前面都有一个丢弃层(Dropout)，为结构清晰，这些在图3中没有画出。

其中，三层卷积LSTM都各有80个神经元，前两层采用“return_sequences”模式。两个Dense层分别有100个神经元和14个神经元。网络采用均方方误差MSE来计算损失，并以精度为评价标准。

第一个ConvLSTM2D层接收唇部图像序列的输入，输入的格式是一个5维数组(BATCHES,STEPS,HEIGHT,WIDTH,CH)。最后一个全连接层是神经网络的输出层，输出LPC参数，其格式是一个2维数组(BATCHES,LPC_DIM)。上述格式中，BATCHES指定每次送入神经网络的样本数目(习惯地称为批数)，训练时BATCHES通常为大于1的数值，应用时BATCHES＝1；一个输入样本的形状由STEPS,HEIGHT,WIDTH,CH指定，STEPS指定一个唇部图像短时序列的长度(习惯地称为步数)，也就是IS_t＝(I_t-k+1,...,I_t-2,I_t-1,I_t)中的k值，即STEPS＝k；HEIGHT为唇部图片的高度，WIDTH为图片的宽度，CH为图片的通道数(灰度图像CH＝1,彩色图像CH＝3)。输出格式中，LPC_DIM是一个语音编码参数向量的维度，对于LPC10e来说，LPC_DIM＝14。

神经元的数目和层数，可依据应用场景的不同做适当调整，对于词汇量大的应用情景中，神经元数目和层数相可以设置得较多些。

(2)选取唇部图像短时序列。任意选取k个连续的唇部图像，组成一个短时序列IS_t＝(I_t-k+1,...,I_t-2,I_t-1,I_t)作为预测器的一个输入样本，其中k是一个参数，依据应用情景选取合适的k值，k值大约等于一个待识别的字、词、或者短语所占用的最大视频帧数。鉴于图像帧率通常不高，可对唇部视频进行插值，以提高帧率。

(3)k的值的确定。k值需要根据应用情景来确定，对于简单的应用场景，可能只需要进行单个汉字的识别，由于一个汉字的发音大约0.5秒，如果视频为50帧/秒，则k为0.5秒所包含的视频帧数，即k＝50x0.5＝25。对于用字较多的情景，则需要以词汇甚至短句作为一个整体来识别，这时k的数值相应倍增。例如“大小”和“卡车”两个词中，由于“大”和“卡”的口型近似，难以单字区分，则需要整词“大小”和“卡车”进行识别，k至少需要等于2x25＝50左右。

(4)语音帧编码参数向量的计算。选择一个与(2)中IS_t对应时刻的语音帧A_t＝(S_t-L+1,...,S_t-2,S_t-1,S_t)，其中S_t是时间上最接近I_t的一个语音采样。利用语音分析算法，对该语音帧A_t进行分析，得到该帧的编码参数向量FA_t，

这里，语音可采用8000Hz的采样率，L设为180，即每180个样值作为一个音频帧，占22.5ms的时间。语音编码可采用LPC10e算法。用此算法对一个语音帧A_t进行分析得到该帧的编码参数向量FA_t，即14个数值的LPC参数，包括1个前半帧清浊音标志、1个后半帧清浊音标志、1个基因周期、1个增益、和10个反射系数。

(5)预测器的训练：通过上述(2)、(3)中描述的方法，获取ISt和对应的FA_t，从而组成一个样本对{IS_t,FA_t}。由于t可取任意有效时间内的值，因此可得到大量的训练样本，用于对预测器的训练。训练时，采用均方误差MSE来计算预测误差，并采用误差反向传播的方法逐步调整网络权值。最终提供一个训练完成的、可用的预测器。

(6)预测器训练完成后，作为一个模块用于转换器中。预测器结构描述数据和训练好的权值数据，都存储在“配置参数”中，当转换器启动时将配置参数读取出来，并依据这些参数重建预测器。

(7)本文所述的方法可采用软件手段实现，亦可部分或全部地采用硬件手段实现。

本发明设计了一种由唇部图像序列到语音编码参数的转换器，它的输入为唇部图像序列，输出为语音帧编码参数向量序列。它可用于构建“唇”-“音”转换装置，为发音困难的人士提供便利，也有助于在嘈杂环境中进行交谈，还可以用于对视频监控中的人脸唇部视频进行语音分析。

Claims

1.一种由唇部图像序列到语音编码参数的转换方法，其特征在于，包括以下步骤：

3)每隔一定的时间，将当前时刻缓存的k个最新的唇部图像作为一个短时图像序列送入预测器，并获取一个预测结果，该预测结果为一个语音帧的编码参数向量，所述的预测器为训练后的深度人工神经网络，所述的深度人工神经网络由3个卷积LSTM网络层和2个全连接层依次连接组成，中间插入必要的池化层和丢弃层，所述的预测器的训练方法具体包括以下步骤：

22)获取任意时刻t的唇部图像短时序列IS _t：对给定的任意时刻t，提取k个连续的唇部图像作为t时刻的唇部图像短时序列IS _t＝(I_t-k+1,...,I_t-2,I_t-1,I_t)，其中，I_t为时间上最接近t的一个唇部图像，k为指定参数；

23)获取任意时刻t的语音帧编码参数向量FA_t，对任意时刻t，提取L个连续语音采样值作为一个语音帧A_t＝(S_t-L+1,...,S_t-2,S_t-1,S_t)，其中S_t是时间上最接近t的一个语音采样，采用基于声码器的语音编码算法获取该语音帧的编码参数，即为t时刻的语音帧编码参数向量FA_t，其中，L为固定参数，所述的语音编码算法为LPC10e算法，所述的编码参数向量为LPC参数，包括1个前半帧清浊音标志、1个后半帧清浊音标志、1个基音周期、1个增益和10个反射系数；

24)采用样本训练预测器：任取一时刻t，根据步骤22)和23)得到的训练样本对{FIS_t，FA_t}作为预测器的输入和期望输出，并在有效范围内随机选取多个t值，以获取多个训练样本对，对预测器进行训练；

4)语音编码参数转换器输出预测结果。

2.根据权利要求1所述的一种由唇部图像序列到语音编码参数的转换方法，其特征在于，步骤22)中，采用对唇部图像进行时间插值使其帧率加倍，或采用高速图像采集设备进行采集的方式提高唇部图像的帧率。

3.根据权利要求1所述的一种由唇部图像序列到语音编码参数的转换方法，其特征在于，步骤22)中，根据应用情景中需要识别的词汇长度选取k值，k值等于一个待识别的字、词或者短语所占的最大视频帧数。

4.根据权利要求1所述的一种由唇部图像序列到语音编码参数的转换方法，其特征在于，步骤23)中，L的取值为180。