CN110796000A - 基于双向lstm的唇形样本生成方法、装置和存储介质 - Google Patents
基于双向lstm的唇形样本生成方法、装置和存储介质 Download PDFInfo
- Publication number
- CN110796000A CN110796000A CN201910896546.2A CN201910896546A CN110796000A CN 110796000 A CN110796000 A CN 110796000A CN 201910896546 A CN201910896546 A CN 201910896546A CN 110796000 A CN110796000 A CN 110796000A
- Authority
- CN
- China
- Prior art keywords
- lip
- sample data
- audio information
- model
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims description 26
- 238000001514 detection method Methods 0.000 claims description 12
- 238000000926 separation method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000009432 framing Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于双向LSTM的唇形样本生成方法、装置和存储介质,通过从样本数据库中采集用户的样本数据,根据样本数据训练预设双向LSTM模型,以得到训练完成的双向LSTM模型;根据样本数据得到唇部掩码人脸图象,并根据样本数据和唇部掩码人脸图象训练预设图象补全模型,以得到训练完成的图象补全模型;获取新增的用户音频信息,并将用户音频信息输入至训练完成的双向LSTM模型,得到对应的第一唇部关键点;将第一唇部关键点和唇部掩码人脸图象输入至训练完成的图象补全模型,得到新增的样本数据。根据用户输入的音频信息新增样本数据,且通过对双向LSTM模型和图象补全模型的训练保证样本数据的准确性,避免极端环境下的样本数据的产生。
Description
技术领域
本发明涉及计算机处理技术领域,尤其涉及一种基于双向LSTM的唇形样本生成方法、装置和存储介质。
背景技术
唇语识别技术目前已经逐渐被应用在金融安防之类的业务场景中,与语音识别不同,唇语识别是基于机器视觉与自然语言处理于一体的技术。唇语识别技术作为活体检测的一种手段,它的主要工作方式为,向用户提示一串数字,并要求用户阅读该串数字,以确定用户的身份,通过机器视觉识别说话人唇部动作,解读说话者的说话内容,并以此判断说话者是否为目标用户。
为了实现达到上述技术效果,唇语识别技术的后台数据库往往存储有目标用户的样本数据。但是,现有的唇语识别技术中,主要通过人工标注数据的方式增加样本数据,人工标注方式会消耗大量的人力,且人工标注的数据可能存在大量极端环境数据,难以满足唇语识别技术对样本数据的要求,进而影响唇语识别技术的识别准确率。
发明内容
本发明的主要目的在于提供了一种基于双向LSTM的唇形样本生成方法、装置和存储介质,旨在解决唇语识别技术中因存在极端环境的样本数据,进而影响识别准确率的技术问题。
为实现上述目的,本发明提供了一种基于双向LSTM的唇形样本生成方法,包括以下步骤:
从样本数据库中采集用户的样本数据,根据所述样本数据训练预设双向长短期记忆网络LSTM模型,以得到训练完成的双向LSTM模型;
根据所述样本数据得到唇部掩码人脸图象,并根据所述样本数据和所述唇部掩码人脸图象训练预设图象补全模型,以得到训练完成的图象补全模型;
获取新增的用户音频信息,并将所述用户音频信息输入至训练完成的双向LSTM模型,得到对应的第一唇部关键点;
将所述第一唇部关键点和所述唇部掩码人脸图象输入至训练完成的图象补全模型,得到新增的样本数据。
可选地,所述从样本数据库中采集用户的样本数据,根据所述样本数据训练预设双向LSTM模型,以得到训练完成的双向LSTM模型的步骤包括:
对所述样本数据进行格式分离,得到对应的音频信息以及图象信息;
根据所述音频信息得到对应的第一Mel频率倒谱系数MFCC特征,并根据所述图象信息得到对应的第二唇部关键点;
将所述第一MFCC特征作为预设双向LSTM模型的输入,所述第二唇部关键点作为预设双向LSTM模型的输出,其中,所述第一MFCC特征和所述第二唇部关键点序列相同,训练预设双向LSTM模型,以得到训练完成的双向LSTM模型。
可选地,所述将所述用户音频信息输入至训练完成的双向LSTM模型,得到对应的第一唇部关键点的步骤包括:
将新增的用户音频信息输入至预设第一算法中,得到所述用户音频信息的第二MFCC特征;
将所述第二MFCC特征输入至训练完成的双向LSTM模型,得到对应的第一唇部关键点。
可选地,所述根据所述音频信息得到对应的第一MFCC特征的步骤包括:
将所述音频信息输入至预设第一算法中,以对所述音频信息进行预加重处理,得到对应的音频序列;
其中,对所述音频信息进行预加重处理的公式为:
H(Z)=1-μZ-1
μ为滤波参数,Z为音频信息的数据量;
对所述音频序列进行分帧和加窗处理,以得到所述音频序列的第一MFCC特征。
可选地,所述根据所述图象信息得到对应的第二唇部关键点的步骤包括:
对所述图象信息进行人脸检测,得到对应的人脸图象;
将所述人脸图象输入至预设第二算法中进行卷积和降维,得到对应的第二唇部关键点。
可选地,预设第二算法中对人脸图象进行降维的公式为:
可选地,所述根据所述样本数据得到唇部掩码人脸图象的步骤包括:
根据所述第二唇部关键点,得到图象信息中所述人脸图象中的唇部区域;
对所述唇部区域掩码处理,将唇部区域进行掩码处理的人脸图象作为所述唇部掩码人脸图象。
可选地,所述根据所述音频信息得到对应的第一MFCC特征,并根据所述图象信息得到对应的第二唇部关键点的步骤之后,还包括:
将所述第一MFCC特征和所述第二唇部关键点输入至预设线性插值算法中,以调整所述第一MFCC特征和所述第二唇部关键点的序列相等。
此外,为实现上述目的,本发明还提供一种装置,所述装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于双向LSTM的唇形样本生成程序,所述基于双向LSTM的唇形样本生成程序被所述处理器执行时实现如上所述基于双向LSTM的唇形样本生成方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于双向LSTM的唇形样本生成程序,所述基于双向LSTM的唇形样本生成程序被处理器执行时实现如上所述基于双向LSTM的唇形样本生成方法的步骤。
本发明公开了一种基于双向LSTM的唇形样本生成方法、装置和存储介质,通过从样本数据库中采集用户的样本数据,根据样本数据训练预设双向LSTM模型,以得到训练完成的双向LSTM模型;根据样本数据得到唇部掩码人脸图象,并根据样本数据和唇部掩码人脸图象训练预设图象补全模型,以得到训练完成的图象补全模型;获取新增的用户音频信息,并将用户音频信息输入至训练完成的双向LSTM模型,得到对应的第一唇部关键点;将第一唇部关键点和唇部掩码人脸图象输入至训练完成的图象补全模型,得到新增的样本数据。通过对双向LSTM模型和图象补全模型进行训练,只需要将用户的音频信息输入至训练完成的双向LSTM模型和图象补全模型中,就能得到新增的用户数据,使用双向LSTM模型和图象补全模型保证新增的用户数据的准确性,从而避免极端环境下的样本数据的产生,通过上述方式产生大量新增样本,以此提高唇语识别的准确率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图;
图2为本发明基于双向LSTM的唇形样本生成方法一实施例的流程示意图;
图3为本发明所述从样本数据库中采集用户的样本数据,根据所述样本数据训练预设双向LSTM模型,以得到训练完成的双向LSTM模型的步骤细化流程示意图;
图4为本发明所述根据所述图象信息得到对应的第二唇部关键点的步骤细化流程示意图;
图5为本发明基于双向LSTM的唇形样本生成方法另一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明终端是一种装置,该装置可以是一种手机、电脑、移动电脑等具有存储功能的终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、Wi-Fi模块等等,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
可选地,终端还可以包括摄像头、Wi-Fi模块等等,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要包括输入单元比如键盘,键盘包括无线键盘和有线键盘,用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的基于双向LSTM的唇形样本生成程序,并执行以下操作:
从样本数据库中采集用户的样本数据,根据所述样本数据训练预设双向长短期记忆网络LSTM模型,以得到训练完成的双向LSTM模型;
根据所述样本数据得到唇部掩码人脸图象,并根据所述样本数据和所述唇部掩码人脸图象训练预设图象补全模型,以得到训练完成的图象补全模型;
获取新增的用户音频信息,并将所述用户音频信息输入至训练完成的双向LSTM模型,得到对应的第一唇部关键点;
将所述第一唇部关键点和所述唇部掩码人脸图象输入至训练完成的图象补全模型,得到新增的样本数据。
进一步地,处理器1001可以调用存储器1005中存储的基于双向LSTM的唇形样本生成程序,还执行以下操作:
对所述样本数据进行格式分离,得到对应的音频信息以及图象信息;
根据所述音频信息得到对应的第一Mel频率倒谱系数MFCC特征,并根据所述图象信息得到对应的第二唇部关键点;
将所述第一MFCC特征作为预设双向LSTM模型的输入,所述第二唇部关键点作为预设双向LSTM模型的输出,其中,所述第一MFCC特征和所述第二唇部关键点序列相同,训练预设双向LSTM模型,以得到训练完成的双向LSTM模型。
进一步地,处理器1001可以调用存储器1005中存储的基于双向LSTM的唇形样本生成程序,还执行以下操作:
将新增的用户音频信息输入至预设第一算法中,得到所述用户音频信息的第二MFCC特征;
将所述第二MFCC特征输入至训练完成的双向LSTM模型,得到对应的第一唇部关键点。
进一步地,处理器1001可以调用存储器1005中存储的基于双向LSTM的唇形样本生成程序,还执行以下操作:
将所述音频信息输入至预设第一算法中,以对所述音频信息进行预加重处理,得到对应的音频序列;
其中,对所述音频信息进行预加重处理的公式为:
H(Z)=1-μZ-1
μ为滤波参数,Z为音频信息的数据量;
对所述音频序列进行分帧和加窗处理,以得到所述音频序列的第一MFCC特征。
进一步地,处理器1001可以调用存储器1005中存储的基于双向LSTM的唇形样本生成程序,还执行以下操作:
对所述图象信息进行人脸检测,得到对应的人脸图象;
将所述人脸图象输入至预设第二算法中进行卷积和降维,得到对应的第二唇部关键点。
进一步地,处理器1001可以调用存储器1005中存储的基于双向LSTM的唇形样本生成程序,还执行以下操作:
根据所述第二唇部关键点,得到图象信息中所述人脸图象中的唇部区域;
对所述唇部区域掩码处理,将唇部区域进行掩码处理的人脸图象作为所述唇部掩码人脸图象。
进一步地,处理器1001可以调用存储器1005中存储的基于双向LSTM的唇形样本生成程序,还执行以下操作:
将所述第一MFCC特征和所述第二唇部关键点输入至预设线性插值算法中,以调整所述第一MFCC特征和所述第二唇部关键点的序列相等。
本装置的具体实施例与下述基于双向LSTM的唇形样本生成方法各实施例基本相同,在此不作赘述。
请参阅图2,图2为本发明基于双向LSTM的唇形样本生成方法一实施例的流程示意图,本实施例提供的基于双向LSTM的唇形样本生成方法包括如下步骤:
步骤S10,从样本数据库中采集用户的样本数据,根据所述样本数据训练预设双向长短期记忆网络LSTM模型,以得到训练完成的双向LSTM模型;
容易理解的是,对于预设双向LSTM模型和预设图象补全模型的训练都是利用的现有的样本数据。在样本数据库中存储有用户原先的样本数据,从所述样本数据库中采集任意一段样本数据,即任意一段样本视频。为了进行后续的特征分离,优选地,采集时长大于1秒的样本视频。根据采集的样本数据对预设双向LSTM模型进行训练,并得到训练完成的双向LSTM模型。
步骤S20,根据所述样本数据得到唇部掩码人脸图象,并根据所述样本数据和所述唇部掩码人脸图象训练预设图象补全模型,以得到训练完成的图象补全模型;
本实施例中,使用采集的样本数据对原有的人脸图象信息进行处理,得到唇部掩码人脸图象。本实施例中还预设有图像补全模型,使用所述样本数据和唇部掩码人脸图象训练预设图象补全模型,并得到训练完成的图象补全模型。优选地,所述图像补全模型为U-NET模型,U-Net模型是基于FCN模型改进所得到的,U-Net模型较比FCN模型能够在更少的训练图像的情况下运行,并做出更为精确的分割操作,由于网络结构像U型,所以也叫U-Net网络,其具体包括特征提取部分和上采样部分。其中,上采样部分,每上采样一次,就和特征提取部分对应的通道数相同尺度融合,实现多尺度特征的融合。
步骤S30,获取新增的用户音频信息,并将所述用户音频信息输入至训练完成的双向LSTM模型,得到对应的第一唇部关键点;
本实施例中,得到训练完成的双向LSTM模型和图象补全模型后,通过获取新增的用户音频信息增加样本数据库中的样本数据,且能保证新增的样本数据不处于极端环境的情况。具体的,先将所述用户音频信息输入至训练完成的双向LSTM模型,得到与所述用户新增的音频信息对应的第一唇部关键点。
步骤S40,将所述第一唇部关键点和所述唇部掩码人脸图象输入至训练完成的图象补全模型,得到新增的样本数据。
上述步骤后,将从双向LSTM模型得到的第一唇部关键点和唇部掩码人脸图象输入至训练完成的图象补全模型,得到新增的唇形人脸同步视频,并将所述唇形人脸同步视频作为新增的样本数据。
本实施例通过从样本数据库中采集用户的样本数据,根据样本数据训练预设双向LSTM模型,以得到训练完成的双向LSTM模型;根据样本数据得到唇部掩码人脸图象,并根据样本数据和唇部掩码人脸图象训练预设图象补全模型,以得到训练完成的图象补全模型;获取新增的用户音频信息,并将用户音频信息输入至训练完成的双向LSTM模型,得到对应的第一唇部关键点;将第一唇部关键点和唇部掩码人脸图象输入至训练完成的图象补全模型,得到新增的样本数据。本实施例通过对双向LSTM模型和图象补全模型进行训练,只需要将用户的音频信息输入至训练完成的双向LSTM模型和图象补全模型中,就能得到新增的用户数据,使用双向LSTM模型和图象补全模型保证新增的用户数据的准确性,从而避免极端环境下的样本数据的产生,通过上述方式产生大量新增样本,当对用户进行唇语识别时,由于样本数据的扩充,实现进一步地提高唇语识别的准确率。
进一步地,请参阅图3,图3为本发明所述从样本数据库中采集用户的样本数据,根据所述样本数据训练预设双向LSTM模型,以得到训练完成的双向LSTM模型步骤细化流程示意图。所述从样本数据库中采集用户的样本数据,根据所述样本数据训练预设双向LSTM模型,以得到训练完成的双向LSTM模型的步骤包括:
步骤S11,对所述样本数据进行格式分离,得到对应的音频信息以及图象信息;
应当理解的是,样本数据库中用户原先存储的样本数据为录制的用户说话视频,由于视频文件中具有音频和图像两种不同的格式,先对样本数据进行格式分离,可以使用常见的格式分离的方法,或链接格式分离的软件来实现图像和音频的分离,以此得到样本数据中的图像信息和音频信息。
步骤S12,根据所述音频信息得到对应的第一Mel频率倒谱系数MFCC特征,并根据所述图象信息得到对应的第二唇部关键点;
得到样本数据的音频信息后,对所述音频信息进行处理,提取出音频信息对应的第一MFCC特征,MFCC特征是将音频信息的频谱包络和音频细节进行编码运算得到的一组特征向量;并根据样本数据中的图像信息得到所述图像信息中对应的第二唇部关键点。
步骤S13,将所述第一MFCC特征作为预设双向LSTM模型的输入,所述第二唇部关键点作为预设双向LSTM模型的输出,其中,所述第一MFCC特征和所述第二唇部关键点序列相同,训练预设双向LSTM模型,以得到训练完成的双向LSTM模型。
本实施例中,预设有双向LSTM模型,双向LSTM模型在传统RNN模型上进行了改进,RNN模型由于其优化过程中运用到了梯度消失,因此不能很好的解决长期依赖问题,而本实施例应用的双向LSTM模型对于长期依赖关系的学习能力强于RNN模型,且LSTM训练上远比其他模型简单,因此选用双向LSTM模型。预设双向LSTM模型中新增了3个门,分别为输入门、遗忘门和输出门,以及隐藏状态,隐藏状态用于存储之前时间步的信息;通过上述改进记录额外的信息,以应对循环神经网络(RNN)中的梯度衰减问题,并更好地捕捉时间序列中时间步距离较大的依赖关系,体现了对长期依赖关系的学习能力较强的特点。
本实施例中,将所述第一MFCC特征作为预设双向LSTM模型的输入,所述唇部关键点作为预设双向LSTM模型的输出,训练预设双向LSTM模型,在所述双向LSTM模型训练完成后,得到一组可表现MFCC特征和唇部关键点映射关系的函数。
本实施例通过对样本数据进行数据分离,得到对应的音频信息和图像信息,并利用从样本数据提取出的音频信息和图像信息训练预设的双向LSTM模型,从而保证双向LSTM模型的训练完成度。
进一步地,所述将所述用户音频信息输入至训练完成的双向LSTM模型,得到对应的第一唇部关键点的步骤包括:
步骤S31,将新增的用户音频信息输入至预设第一算法中,得到所述用户音频信息的第二MFCC特征;
本实施例中还预设有第一算法,所述预设算法为MFCC提取算法,MFCC特征提取算法的主要目的在于提取音频信息中的MFCC特征,可以将上述样本数据中的音频信息理解为一组一维序列,将所述音频序列输入至预设MFCC特征提取算法中,得到该音频信息的第二MFCC特征。
步骤S32,将所述第二MFCC特征输入至训练完成的双向LSTM模型,得到对应的第一唇部关键点。
由于双向LSTM模型的输入为MFCC特征,双向LSTM模型的输出为唇部关键点。因此将预设双向LSTM模型训练完成后,将通过上述步骤得到的第二MFCC特征作为训练完成的双向LSTM模型的输入,则所述双向LSTM模型对应的输出为第一唇部关键点。
本实施例通过将新增的用户音频信息输入至训练完成的双向LSTM模型中,以此得到第一唇部关键点,从而保证后续生成的新增样本数据的准确性。
进一步地,所述根据所述音频信息得到对应的第一MFCC特征的步骤包括:
步骤S121,将所述音频信息输入至预设第一算法中,以对所述音频信息进行预加重处理,得到对应的音频序列;
其中,对所述音频信息进行预加重处理的公式为:
H(Z)=1-μZ-1
μ为滤波参数,Z为音频信息的数据量;
将音频信息输入至预设第一算法中,得到对应的第一MFCC特征,预设第一算法具体的处理步骤为,先对所述音频信息进行预加重处理,得到音频序列。预加重处理其实是将语音信号通过一个高通滤波器的过程,具体的公式如上所示。其中,滤波参数μ的数值范围为(0.9,1),通常取值0.97,当然,也可以根据实际情况对应调整滤波参数的具体数值,本实施例在此不做具体限制。
步骤S122,对所述音频序列进行分帧和加窗处理,以得到所述音频序列的第一MFCC特征。
对所述音频信息进行预加重处理后,对所述音频序列进行分帧和加窗处理,经过分帧和加窗后,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。特别的,对经过分帧和加窗的音频序列进行快速傅里叶变化,并输入至三角带通滤波器中,以得到所述音频序列的第一MFCC特征。
本实施例通过预设第一算法对新增的音频数据进行预加重处理、分帧以及加窗处理,得到对应的第一MFCC特征,保证后续生成的新增样本数据的准确性。
进一步地,请参阅图4,图4为本发明所述根据所述图象信息得到对应的第二唇部关键点的步骤细化流程示意图。所述根据所述图象信息得到对应的第二唇部关键点的步骤包括:
步骤S123,对所述图象信息进行人脸检测,得到对应的人脸图象;
得到所述样本数据中的图像信息后,对所述图象信息进行人脸检测,可选地,可以使用SSD关键点算法或MTCNN算法实现对图像信息的人脸检测,并得到图像信息中的人脸图像,具体的人脸检测的算法,本实施例在此不作限制。
步骤S124,将所述人脸图象输入至预设第二算法中进行卷积和降维,得到对应的第二唇部关键点。
本实施例中,还预设有第二算法,优选地,所述第二算法为改进的dlib人脸检测算法,若获得的样本数据中的人脸图像为RGB图像,则可以将所述人脸图像作为dlib人脸检测算法的输入,当然也可以将人脸图像的RGB图像处理形成灰度图像后作为dlib人脸检测算法的输入。
预设第二算法对人脸图像进行卷积和降维,具体的,对输入的图像使用skipconnection连接(残差连接),总共堆叠4层卷积层,每层卷积核的宽度依次为5*5、3*3、3*3以及3*3每层卷积核的数量对应分别为16、32、64以及128。每实现一次卷积后使用ReLu激活函数对卷积后的数据进行处理,具体的,使每层卷积层后接一层内核为2*2,步长为2的maxpooling层(最大池化层)达到降采样的目的。如此,经过四层卷积之后,卷积张量的形状为128*2*2,通过一层global average pooling(全局均值池化层),从而将卷积张量降维到128的特征向量,经过全连接层回归出20个唇部关键点坐标,即全连接层后的输出为40维向量。
进一步地,预设第二算法中对人脸图象进行降维的公式为:
具体的,预设第二算法中对人脸图象进行降维的公式如上所示,本实施例通过对样本数据中的图像信息进行人脸检测,得到对应的人脸图像,再利用预设第二算法精准的提取与所述人脸图像对应的第二唇部关键点,从而保证后续生成的新增样本数据的准确性。
进一步地,所述根据所述样本数据得到唇部掩码人脸图象的步骤包括:
步骤S21,根据所述第二唇部关键点,得到图象信息中所述人脸图象中的唇部区域;
可选地,本实施例中唇部关键点的数目为20,将20个唇部关键点进行连线,就得到人脸图像中的唇部区域。
步骤S22,对所述唇部区域掩码处理,将唇部区域进行掩码处理的人脸图象作为所述唇部掩码人脸图象。
得到人脸图像中的唇部区域后,对图像信息中的所述唇部区域进行掩码处理,即将人脸图像中该唇部区域中各个像素对应的掩码位设置为屏蔽状态,后续对人脸图像进行处理时,并不会对掩码位状态为屏蔽状态的像素点进行处理。
此外,也可以通过更换唇部掩码人脸图像的方式,生成不同用户的唇形人脸同步视频。具体的,在得到唇部关键点后,并不使用原目标用户的唇部掩码人脸图像,而可以根据唇部关键点对任一其他用户的人脸图像信息进行唇部掩码处理,得到新的唇部掩码人脸图像,将唇部关键点和新的唇部掩码人脸图像输入至训练完成的图像补全模型中,得到唇形人脸同步视频。
进一步地,请参阅图5,图5为本发明基于双向LSTM的唇形样本生成方法另一实施例的流程示意图。上述步骤S12根据所述音频信息得到对应的第一MFCC特征,并根据所述图象信息得到对应的第二唇部关键点之后,还包括:
步骤S14,将所述第一MFCC特征和所述第二唇部关键点输入至预设线性插值算法中,以调整所述第一MFCC特征和所述第二唇部关键点的序列相等。
容易理解的是,由于音频分帧为一秒60帧,则第一MFCC特征序列是60帧/秒,而第二唇部关键点序列则是24帧/秒,上述第二唇部关键点序列和第一MFCC特征序列的长度不一定相等,因此应用线性插值法使第一MFCC特征和唇部关键点序列相等。
线性插值是指插值函数为一次多项式的插值方式,其在插值节点上的插值误差为零,线性插值可以用来近似代替原函数,也可以用来计算得到查表过程中表中没有的数值,将唇部关键点序列长度插值到第一MFCC特征序列长度,得到一段MFCC特征序列到唇部关键点的序列。
本实施例将第一MFCC特征和第二唇部关键点的序列调整相等,满足预设双向LSTM模型对输入数据和输出数据的要求,对应的减少计算量,提高所述双向LSTM模型的训练效率。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有证件识别过程中自动填入拼音的程序,所述证件识别过程中自动填入拼音的程序被处理器执行时实现如上所述证件识别过程中自动填入拼音的方法的操作。
本发明计算机可读存储介质的具体实施例与上述证件识别过程中自动填入拼音的方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于双向LSTM的唇形样本生成方法,其特征在于,包括以下步骤:
从样本数据库中采集用户的样本数据,根据所述样本数据训练预设双向长短期记忆网络LSTM模型,以得到训练完成的双向LSTM模型;
根据所述样本数据得到唇部掩码人脸图象,并根据所述样本数据和所述唇部掩码人脸图象训练预设图象补全模型,以得到训练完成的图象补全模型;
获取新增的用户音频信息,并将所述用户音频信息输入至训练完成的双向LSTM模型,得到对应的第一唇部关键点;
将所述第一唇部关键点和所述唇部掩码人脸图象输入至训练完成的图象补全模型,得到新增的样本数据。
2.如权利要求1所述的基于双向LSTM的唇形样本生成方法,其特征在于,所述从样本数据库中采集用户的样本数据,根据所述样本数据训练预设双向LSTM模型,以得到训练完成的双向LSTM模型的步骤包括:
对所述样本数据进行格式分离,得到对应的音频信息以及图象信息;
根据所述音频信息得到对应的第一Mel频率倒谱系数MFCC特征,并根据所述图象信息得到对应的第二唇部关键点;
将所述第一MFCC特征作为预设双向LSTM模型的输入,所述第二唇部关键点作为预设双向LSTM模型的输出,其中,所述第一MFCC特征和所述第二唇部关键点序列相同,训练预设双向LSTM模型,以得到训练完成的双向LSTM模型。
3.如权利要求1所述的基于双向LSTM的唇形样本生成方法,其特征在于,所述将所述用户音频信息输入至训练完成的双向LSTM模型,得到对应的第一唇部关键点的步骤包括:
将新增的用户音频信息输入至预设第一算法中,得到所述用户音频信息的第二MFCC特征;
将所述第二MFCC特征输入至训练完成的双向LSTM模型,得到对应的第一唇部关键点。
4.如权利要求2所述的基于双向LSTM的唇形样本生成方法,其特征在于,所述根据所述音频信息得到对应的第一MFCC特征的步骤包括:
将所述音频信息输入至预设第一算法中,以对所述音频信息进行预加重处理,得到对应的音频序列;
其中,对所述音频信息进行预加重处理的公式为:
H(Z)=1-μZ-1
μ为滤波参数,Z为音频信息的数据量;
对所述音频序列进行分帧和加窗处理,以得到所述音频序列的第一MFCC特征。
5.如权利要求2所述的基于双向LSTM的唇形样本生成方法,其特征在于,所述根据所述图象信息得到对应的第二唇部关键点的步骤包括:
对所述图象信息进行人脸检测,得到对应的人脸图象;
将所述人脸图象输入至预设第二算法中进行卷积和降维,得到对应的第二唇部关键点。
7.如权利要求5所述的基于双向LSTM的唇形样本生成方法,其特征在于,所述根据所述样本数据得到唇部掩码人脸图象的步骤包括:
根据所述第二唇部关键点,得到图象信息中所述人脸图象中的唇部区域;
对所述唇部区域掩码处理,将唇部区域进行掩码处理的人脸图象作为所述唇部掩码人脸图象。
8.如权利要求2所述的基于双向LSTM的唇形样本生成方法,其特征在于,所述根据所述音频信息得到对应的第一MFCC特征,并根据所述图象信息得到对应的第二唇部关键点的步骤之后,还包括:
将所述第一MFCC特征和所述第二唇部关键点输入至预设线性插值算法中,以调整所述第一MFCC特征和所述第二唇部关键点的序列相等。
9.一种装置,其特征在于,所述装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于双向LSTM的唇形样本生成程序,所述基于双向LSTM的唇形样本生成程序配置为实现如权利要求1至8中任一项所述的基于双向LSTM的唇形样本生成方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有基于双向LSTM的唇形样本生成程序,所述基于双向LSTM的唇形样本生成程序被处理器执行时实现如权利要求1至8任一项所述的基于双向LSTM的唇形样本生成方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910896546.2A CN110796000B (zh) | 2019-09-18 | 2019-09-18 | 基于双向lstm的唇形样本生成方法、装置和存储介质 |
PCT/CN2019/118373 WO2021051606A1 (zh) | 2019-09-18 | 2019-11-14 | 基于双向lstm的唇形样本生成方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910896546.2A CN110796000B (zh) | 2019-09-18 | 2019-09-18 | 基于双向lstm的唇形样本生成方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110796000A true CN110796000A (zh) | 2020-02-14 |
CN110796000B CN110796000B (zh) | 2023-12-22 |
Family
ID=69439662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910896546.2A Active CN110796000B (zh) | 2019-09-18 | 2019-09-18 | 基于双向lstm的唇形样本生成方法、装置和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110796000B (zh) |
WO (1) | WO2021051606A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094682A (zh) * | 2021-04-12 | 2021-07-09 | 中国工商银行股份有限公司 | 反欺诈身份识别方法及装置 |
CN114338959A (zh) * | 2021-04-15 | 2022-04-12 | 西安汉易汉网络科技股份有限公司 | 端到端即文本到视频的视频合成方法、系统介质及应用 |
CN114419702B (zh) * | 2021-12-31 | 2023-12-01 | 南京硅基智能科技有限公司 | 数字人生成模型、模型的训练方法以及数字人生成方法 |
CN116071472B (zh) * | 2023-02-08 | 2024-04-30 | 华院计算技术(上海)股份有限公司 | 图像生成方法及装置、计算机可读存储介质、终端 |
CN116741198B (zh) * | 2023-08-15 | 2023-10-20 | 合肥工业大学 | 一种基于多尺度字典的唇形同步方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108847234A (zh) * | 2018-06-28 | 2018-11-20 | 广州华多网络科技有限公司 | 唇语合成方法、装置、电子设备及存储介质 |
CN109377539A (zh) * | 2018-11-06 | 2019-02-22 | 北京百度网讯科技有限公司 | 用于生成动画的方法和装置 |
US20190080148A1 (en) * | 2017-09-08 | 2019-03-14 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for generating image |
CN110111399A (zh) * | 2019-04-24 | 2019-08-09 | 上海理工大学 | 一种基于视觉注意力的图像文本生成方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000181333A (ja) * | 1998-12-21 | 2000-06-30 | Nippon Telegr & Teleph Corp <Ntt> | 発音訓練支援装置、その方法及びプログラム記録媒体 |
CN108763897A (zh) * | 2018-05-22 | 2018-11-06 | 平安科技(深圳)有限公司 | 身份合法性的校验方法、终端设备及介质 |
CN109409195A (zh) * | 2018-08-30 | 2019-03-01 | 华侨大学 | 一种基于神经网络的唇语识别方法及系统 |
CN109685724B (zh) * | 2018-11-13 | 2020-04-03 | 天津大学 | 一种基于深度学习的对称感知人脸图像补全方法 |
-
2019
- 2019-09-18 CN CN201910896546.2A patent/CN110796000B/zh active Active
- 2019-11-14 WO PCT/CN2019/118373 patent/WO2021051606A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190080148A1 (en) * | 2017-09-08 | 2019-03-14 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for generating image |
CN108847234A (zh) * | 2018-06-28 | 2018-11-20 | 广州华多网络科技有限公司 | 唇语合成方法、装置、电子设备及存储介质 |
CN109377539A (zh) * | 2018-11-06 | 2019-02-22 | 北京百度网讯科技有限公司 | 用于生成动画的方法和装置 |
CN110111399A (zh) * | 2019-04-24 | 2019-08-09 | 上海理工大学 | 一种基于视觉注意力的图像文本生成方法 |
Non-Patent Citations (2)
Title |
---|
贾振堂;: "由嘴唇视频直接生成语音的研究", 计算机应用研究, no. 06 * |
马宁等: "一种基于long short-term memory的唇语识别方法", 中国科学院大学学报, vol. 35, no. 01, pages 110 - 117 * |
Also Published As
Publication number | Publication date |
---|---|
WO2021051606A1 (zh) | 2021-03-25 |
CN110796000B (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110796000A (zh) | 基于双向lstm的唇形样本生成方法、装置和存储介质 | |
CN108898186B (zh) | 用于提取图像的方法和装置 | |
WO2020221013A1 (zh) | 一种图像处理方法、装置、电子设备以及存储介质 | |
WO2020038205A1 (zh) | 目标检测方法、装置、计算机可读存储介质及计算机设备 | |
CN110136744B (zh) | 一种音频指纹生成方法、设备及存储介质 | |
CN109583483B (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
CN109829506B (zh) | 图像处理方法、装置、电子设备和计算机存储介质 | |
CN111881913A (zh) | 图像识别方法及装置、存储介质和处理器 | |
WO2021175040A1 (zh) | 视频处理方法及相关装置 | |
CN110619334B (zh) | 基于深度学习的人像分割方法、架构及相关装置 | |
CN109947971B (zh) | 图像检索方法、装置、电子设备及存储介质 | |
CN113780326A (zh) | 一种图像处理方法、装置、存储介质及电子设备 | |
CN114387977A (zh) | 基于双域深度特征和注意力机制的语音裁剪痕迹定位方法 | |
CN112328830A (zh) | 一种基于深度学习的信息定位方法及相关设备 | |
US9595113B2 (en) | Image transmission system, image processing apparatus, image storage apparatus, and control methods thereof | |
CN111916059B (zh) | 一种基于深度学习的平滑语音检测方法、装置及智能设备 | |
CN111353514A (zh) | 模型训练方法、图像识别方法、装置及终端设备 | |
CN110299148B (zh) | 基于Tensorflow的语音融合方法、电子装置及存储介质 | |
CN112380978A (zh) | 基于关键点定位的多人脸检测方法、系统及存储介质 | |
CN116363641A (zh) | 一种图像处理方法、装置及电子设备 | |
CN112287734A (zh) | 碎屏检测及用于碎屏检测的卷积神经网络的训练方法 | |
CN110647500A (zh) | 文件存储方法、装置、终端及计算机可读存储介质 | |
CN110853115A (zh) | 一种开发流程页面的创建方法及设备 | |
CN110210290A (zh) | 人脸图片采集方法、装置和计算机设备 | |
KR20140104789A (ko) | 정지영상의 식별자 생성 방법 및 이를 수행하는 영상 처리 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |