CN113192162A - 语音驱动图像的方法、系统、装置及存储介质 - Google Patents

语音驱动图像的方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN113192162A
CN113192162A CN202110436595.5A CN202110436595A CN113192162A CN 113192162 A CN113192162 A CN 113192162A CN 202110436595 A CN202110436595 A CN 202110436595A CN 113192162 A CN113192162 A CN 113192162A
Authority
CN
China
Prior art keywords
series
voice
parameters
images
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110436595.5A
Other languages
English (en)
Other versions
CN113192162B (zh
Inventor
王伦基
李�权
叶俊杰
朱杰
成秋喜
韩蓝青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CYAGEN BIOSCIENCES (GUANGZHOU) Inc
Research Institute Of Tsinghua Pearl River Delta
Original Assignee
CYAGEN BIOSCIENCES (GUANGZHOU) Inc
Research Institute Of Tsinghua Pearl River Delta
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CYAGEN BIOSCIENCES (GUANGZHOU) Inc, Research Institute Of Tsinghua Pearl River Delta filed Critical CYAGEN BIOSCIENCES (GUANGZHOU) Inc
Priority to CN202110436595.5A priority Critical patent/CN113192162B/zh
Publication of CN113192162A publication Critical patent/CN113192162A/zh
Application granted granted Critical
Publication of CN113192162B publication Critical patent/CN113192162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种语音驱动图像的方法、系统、装置及存储介质,所述方法包括:获取语音及图像;根据所述图像提取面部特征参数;将所述语音输入到头部位姿及表情预测模型获取系列动态参数;根据所述面部特征参数及所述系列动态参数生成系列图像;根据所述语音及所述系列图像生成视频文件。本发明实施例通过图像提取面部特征参数实现对多种图像的面部参数进行更准确的提取,通过头部位姿及表情预测模型获取与语音匹配的动态参数,通过语音、面部特征参数及动态参数生成生动逼真且与语音匹配的视频文件,整个过程操作简单且便于推广。本发明实施例可广泛应用于图像处理技术领域。

Description

语音驱动图像的方法、系统、装置及存储介质
技术领域
本申请涉及图像处理技术领域,尤其涉及一种语音驱动图像的方法、系统、装置及存储介质。
背景技术
随着互联网的不断发展,传统媒体已经逐渐数字化,如广播、电视或报纸。随着社交网络的进一步发展,普通大众也可以通过网络等途径向外发布他们自身的事实和新闻,人人皆是自媒体。但是,目前自媒体的形式和制作仍然存在一些问题:如大多数社交动态只用图文说明,不够生动。如果采用虚拟人物形象达到动态变化的效果,需要专业的建模师,耗费成本较高;如果采用视频拍摄并制作动态效果,需要专人录制及后期处理且成本较高,一旦发现有错误则难以修改;采用虚拟人物或视频拍摄制作动态效果,操作复杂,不便于推广。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种语音驱动图像的方法、系统、装置及存储介质,能够根据语音驱动静态图像形成与语音匹配的视频文件,生动逼真,操作简单且便于推广。
第一方面,本发明实施例提供了一种语音驱动图像的方法,包括步骤:
获取语音及图像;
根据所述图像提取面部特征参数;
将所述语音输入到头部位姿及表情预测模型获取系列动态参数;
根据所述面部特征参数及所述系列动态参数生成系列图像;
根据所述语音及所述系列图像生成视频文件。
可选地,所述根据所述图像提取面部特征参数,包括步骤:
根据所述图像提取面部特征向量;
根据所述图像获取若干个关键点及所述若干个关键点对应的雅克比矩阵。
可选地,所述将所述语音输入到头部位姿及表情预测模型获取系列动态参数,包括步骤:
将所述语音输入到头部位姿及表情预测模型获取系列旋转矩阵、系列平移矢量及系列表情参数。
可选地,所述根据所述面部特征参数及所述系列动态参数生成系列图像,包括步骤:
根据所述若干个关键点、所述系列旋转矩阵、所述系列平移矢量及所述系列表情参数获取若干个新的系列关键点;
根据所述若干个关键点对应的雅克比矩阵及所述系列旋转矩阵获取若干个新的系列雅克比矩阵;
根据所述面部特征向量、所述若干个新的系列关键点及所述若干个新的系列雅克比矩阵生成系列图像。
可选地,所述头部位姿及表情预测模型是经过训练得到,训练方法包括:
获取训练的视频文件,并提取所述训练的视频文件中音频文件的声音频谱图及系列图像帧;
根据所述系列图像帧检测得到训练的系列旋转矩阵、系列平移矢量及系列表情参数;
根据所述声音频谱图及所述训练的系列旋转矩阵、系列平移矢量及系列表情参数训练所述头部位姿及表情预测模型。
第二方面,本发明实施例提供了一种语音驱动图像的系统,包括:
第一获取模块,用于获取语音及图像;
提取模块,用于根据所述图像提取面部特征参数;
第二获取模块,用于将所述语音输入到头部位姿及表情预测模型获取系列动态参数;
第一生成模块,用于根据所述面部特征参数及所述系列动态参数生成系列图像;
第二生成模块,用于根据所述语音及所述系列图像生成视频文件。
可选地,所述头部位姿及表情预测模型包括:
音频处理单元,用于将所述语音转化为声音频谱图;
声音编码器,用于提取所述声音频谱图的声音特征;
若干个线性层,所述线性层用于根据所述声音特征预测动态参数。
可选地,所述面部特征参数包括面部特征向量、关键点及所述关键点对应的雅克比矩阵,所述第一生成模块包括:
参数编码器,用于根据所述关键点、所述关键点对应的雅克比矩阵及所述动态参数生成新的关键点及新的关键点对应的雅克比矩阵;
图像解码器,用于根据所述面部特征向量、所述新的关键点及所述新的关键点对应的雅克比矩阵生成图像。
第三方面,本发明实施例提供了一种语音驱动图像的装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现第一方面实施例提供的语音驱动图像的方法。
第四方面,本发明实施例提供了一种计算机存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由所述处理器执行时用于实现第一方面实施例提供的语音驱动图像的方法。
实施本发明实施例可以实现以下效果:通过图像提取面部特征参数实现对多种图像的面部参数进行更准确的提取,通过头部位姿及表情预测模型获取与语音匹配的动态参数,通过语音、面部特征参数及动态参数生成生动逼真且与语音匹配的视频文件,整个过程操作简单且便于推广。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本申请提供的一种语音驱动图像的方法的步骤流程示意图;
图2是本申请提供的一种根据图像提取面部特征参数的步骤流程示意图;
图3是本申请提供的一种关键点检测模型的结构示意图;
图4是本申请提供的一种将语音输入到头部位姿及表情预测模型获取动态参数的步骤流程示意图;
图5是本申请提供的一种根据面部特征参数及动态参数生成图像的步骤流程示意图;
图6是本申请提供的一种训练头部位姿及表情预测模型的步骤流程示意图;
图7是本申请提供的另一种训练头部位姿及表情预测模型的步骤流程示意图;
图8是本申请提供的另一种语音驱动图像的方法的步骤流程示意图;
图9是本申请提供的一种语音驱动图像的系统的结构示意图;
图10是本申请提供的一种部位姿及表情预测模型的结构示意图;
图11是本申请提供的一种第一生成模块的结构示意图;
图12是本申请提供的一种语音驱动图像的装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在系统示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于系统中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
下面结合附图,对本申请实施例作进一步阐述。
参考图1,本发明实施例提供了一种语音驱动图像的方法,包括步骤:
S100、获取语音及图像;
S200、根据所述图像提取面部特征参数;
S300、将所述语音输入到头部位姿及表情预测模型获取系列动态参数;
S400、根据所述面部特征参数及所述系列动态参数生成系列图像;
S500、根据所述语音及所述系列图像生成视频文件。
需要说明的是,语音不限语种和形式,如语种包括中文、英文或日文等,如形式包括录制、合成或从网络获取等形式,本发明实施例对语音的语种或形式等不做限制,可根据具体情况进行设置。
本领域技术人员可以理解的是,图像是指一种静态的图像,图像的对象包括但不限于人物图像、动漫人物图像或动物图像等;图像可以是不同角度的图像,如正面照或侧面照等;图像的形式包括但不限于证件照、自拍照或采用生成式对抗网络合成的照片等。本发明实施例对图像的对象、角度或形式等不做限制,可根据具体情况进行设置。
需要说明的是,面部特征参数可以用于对面部进行识别以辨别不同的面部;另外,面部特征参数还可以用于生成动态头部特征;图像的面部特征参数的提取可根据实际情况进行设置。
本领域技术人员可以理解的是,头部位姿及表情预测模型是预先训练好的,头部位姿及表情预测模型用于根据输入的语音生成一系列与语音匹配的面部动态参数。
语音驱动图像的过程如下:首先,获取语音和语音驱动的图像;然后,对图像提取能够识别面部及生成头部动态特征的面部特征参数,以及将语音输入到头部位姿及表情预测模型生成一系列与语音匹配的系列面部动态参数;最后,根据面部特征参数及系列面部动态参数生成系列图像,该系列图像组合在一起可形成动态的图像,并根据语音及系列图像生成与语音匹配的视频文件。
实施本发明实施例可以实现以下效果:通过图像提取面部特征参数实现对多种图像的面部参数进行更准确的提取,通过头部位姿及表情预测模型获取与语音匹配的动态参数,通过语音、面部特征参数及动态参数生成生动逼真且与语音匹配的视频文件,整个过程操作简单且便于推广。
在一些实施例中,参考图2,所述根据所述图像提取面部特征参数,包括步骤:
S201、根据所述图像提取面部特征向量。
具体地,以人物图像为例,通过人脸识别模型对人物图像提取面部特征向量。由于提供的人物图像可能是从不同角度拍摄的,在定位目标时可能会出现误判,将同一个人不同角度的图像判断为不同的人。因此,本实施例使用脸部特征点估计算法,找到人脸的68个特征点,其中,包括眼睛、鼻子、嘴巴和面部轮廓;找到脸部特征点后,无论人脸的朝向如何,根据眼睛和嘴巴的位置,将若干人脸检测结果组中的人脸区域进行仿射变换(如旋转,缩放和剪切图像),使人脸区域中人脸的眼睛和嘴巴在预设的位置范围,得到扭曲后的人脸检测结果组,一般预设的位置范围位于人脸的中部。此时,人脸的眼睛和嘴巴位于人脸的中部,定位更准确。将扭曲后的人脸检测结果组输入训练好的深度卷积神经网络模型,得到若干128维度的人脸特征向量f。
S202、根据所述图像获取若干个关键点及所述若干个关键点对应的雅克比矩阵。
具体地,相对于人脸识别模型采用的脸部特征点估算算法,人物的关键点检测采用了U-Net网络。通过输入一张人物图片,采用无监督训练,获取K个关键点(x,K×3的矩阵)和关键点对应的Jacobians(J,雅可比矩阵,K×3×3的矩阵)。K可设为10~30,它允许操作3D空间中的关键点,合成过程中可以旋转并平移人物的头部。雅可比矩阵表示如何通过仿射变换将关键点周围的局部区域转换为生成图像中的对应区域。
参阅图3,获取图像的关键点及关键点对应的Jacobians具体过程如下:将输入的人物图像调整到256x256,首先经过多个DownBlock模块进行卷积的下采样操作,如DownBlock-64、DownBlock-128、DownBlock-256、DownBlock-512及DownBlock-1024模块;再经过一个一维卷积并进行矩阵变换;然后输入到多个UpBlock模块进行卷积的上采样操作,UpBlock-512、UpBlock-256、UpBlock-128、UpBlock-64及UpBlock-32模块,得到K个关键点(x,K×3的矩阵)和关键点对应的Jacobians(J,雅可比矩阵,K×3×3的矩阵)。
在一些实施例中,参阅图4,所述将所述语音输入到头部位姿及表情预测模型获取系列动态参数,包括步骤:
S301、将所述语音输入到头部位姿及表情预测模型获取系列旋转矩阵、系列平移矢量及系列表情参数。
在一些实施例中,参阅图5,所述根据所述面部特征参数及所述系列动态参数生成系列图像,包括步骤:
S401、根据所述若干个关键点、所述系列旋转矩阵、所述系列平移矢量及所述系列表情参数获取若干个新的系列关键点;
S402、根据所述若干个关键点对应的雅克比矩阵及所述系列旋转矩阵获取若干个新的系列雅克比矩阵;
S403、根据所述面部特征向量、所述若干个新的系列关键点及所述若干个新的系列雅克比矩阵生成系列图像。
具体地,根据关键点、关键点对应的雅克比矩阵及系列动态参数生成新的关键点及新的关键点对应的雅克比矩阵的计算方法如下:
x'a=Rax+taa
J'a=RaJ
其中,Ra、ta及δa分别表示系列旋转矩阵、系列平移矢量及系列表情参数,x表示关键点,J表示雅克比矩阵,x'a表示某新的系列关键点,J'a表示新的系列雅克比矩阵。其中,新的系列关键点包括{x'a1,x'a2,...x'an},新的系列雅克比矩阵包括{J'a1,J'a2,...J'an},x'a1表示第一张图像帧的新系列关键点,x'a2表示第二张图像帧的新系列关键点,x'an表示第n张图像帧的新系列关键点,J'a1表示第一张图像帧新系列关键点对应的雅克比矩阵,J'a2表示第二张图像帧新系列关键点对应的雅克比矩阵,J'an表示第n张图像帧新系列关键点对应的雅克比矩阵。
在一些实施例中,参阅图6,所述头部位姿及表情预测模型是经过训练得到,训练方法包括:
S001、获取训练的视频文件,并提取所述训练的视频文件中音频文件的声音频谱图及系列图像帧;
S002、根据所述系列图像帧检测得到训练的系列旋转矩阵、系列平移矢量及系列表情参数;
S003、根据所述声音频谱图及所述训练的系列旋转矩阵、系列平移矢量及系列表情参数训练所述头部位姿及表情预测模型。
具体地,如图7所示,收集一定数量的不同语种及不同人种的视频数据作为训练数据,如几千人或几万人的视频数据;另外,训练过程中,通过Syncnet的唇型判别网络保证说话人的语音和图像是同步的。首先,对视频数据分别提取其中的音频文件和图像文件;图像文件是一系列的图像帧,对每帧图像由头部位姿及表情检测网络得到一系列的旋转矩阵R、平移矢量t及表情参数δ;对音频文件进行归一化处理得到音频波形数据,再将音频波形数据转化为声音频谱图,如梅尔频谱或线性频谱等;将旋转矩阵R、平移矢量t、表情参数δ及声音频谱图作为头部位姿及表情预测模型的训练数据。
具体地,头部位姿及表情检测网络由一系列ResNet残差网络组成,之后用全局池化以消除空间维度,然后使用不同的线性层来估计旋转角度、平移矢量及表情参数。旋转矩阵R可采用3×3的矩阵,平移矢量t可采用3×1的矩阵,表情参数δ可采用K×3的矩阵。头部位姿及表情检测网络用来提取输入图像中人物的头部位置和姿态表情,得到旋转矩阵、平移矢量及表情参数。
参阅图8,以一个具体实施例说明上述语音驱动图像的具体过程:首先,获取一张人物图像和一段语音;然后,将图像输入到人脸识别模型得到特征向量f,以及对图像进行关键点检测得到若干个关键点x及关键点对应的雅可比矩阵J;其次,将语音输入到头部位姿及表情预测模型得到系列旋转矩阵Ra、系列平移矢量ta及系列表情参数δa;其次,将特征向量f、关键点x、关键点对应的雅可比矩阵J、系列旋转矩阵Ra、系列平移矢量ta及系列表情参数δa输入到人物生成模型生成系列与声音同步的人物表情及唇型图像Frame't,其中,根据不同的生成需求,图像Frame't包括但不限于96x96、128x128、256x256及512x512等;最后,将输入的一段语音与生成的一系列图片{Frame'1,Frame'2,...,Frame'n}合并成视频文件。
下面以一个具体实施例说明语音驱动图像的方法,具体包括以下步骤:
(1)选取一张人物图像,如某明星的照片;
(2)选择指定要说的内容,如“新年快乐”。要说的内容是一段语音,该语音可以自行录制,也可以通过语音合成得到;
(3)对人物图片进行人物特征提取,得到特征向量f,关键点x及关键点的雅克比矩阵J;
(4)假如语音长度为2秒,指定视频帧率为25fps,将语音输入到头部位姿及表情预测模型,得到50组旋转矩阵Ra、平移矢量ta及表情参数δa;
(5)将人物特征参数(f,x,J)及动作参数(Ra,ta,δa)一起输入到人物生成模型,生成50张图像;
(6)通过ffmpeg等工具,将图像及语音合并成视频文件,即可得到某明星对你说“新年快乐”的短视频。
参阅图9,本发明实施例提供了一种语音驱动图像的系统,包括:
第一获取模块,用于获取语音及图像;
提取模块,用于根据所述图像提取面部特征参数;
第二获取模块,用于将所述语音输入到头部位姿及表情预测模型获取系列动态参数;
第一生成模块,用于根据所述面部特征参数及所述系列动态参数生成系列图像;
第二生成模块,用于根据所述语音及所述系列图像生成视频文件。
实施本发明实施例可以实现以下效果:通过图像提取面部特征参数实现对多种图像的面部参数进行更准确的提取,通过头部位姿及表情预测模型获取与语音匹配的动态参数,通过语音、面部特征参数及动态参数生成生动逼真且与语音匹配的视频文件,整个过程操作简单且便于推广。
在一些实施例中,所述头部位姿及表情预测模型包括:
音频处理单元,用于将所述语音转化为声音频谱图;
声音编码器,用于提取所述声音频谱图的声音特征;
若干个线性层,所述线性层用于根据所述声音特征预测动态参数。
具体地,参阅图10,语音输入到头部位姿及表情预测模型,首先,经过音频处理单元获得声音频谱图;然后,声音频谱图经过声音编码器通过卷积声音频谱图提取声音特征,其中,声音编码器由多个下采样DownBlock层组成;最后,提取的声音特征通过不同的线性层预测动态参数,如通过线性层1预测旋转矩阵R、通过线性层2预测平移矢量t及通过线性层3预测表情参数δ。
在一些实施例中,所述面部特征参数包括面部特征向量、关键点及所述关键点对应的雅克比矩阵,所述第一生成模块包括:
参数编码器,用于根据所述关键点、所述关键点对应的雅克比矩阵及所述动态参数生成新的关键点及新的关键点对应的雅克比矩阵;
图像解码器,用于根据所述面部特征向量、所述新的关键点及所述新的关键点对应的雅克比矩阵生成图像。
具体地,参阅图11,首先,关键点x、关键点对应的雅克比矩阵J、旋转矩阵R、平移矢量t及表情参数δ通过参数编码器形成新的关键点x'及新的关键点对应的雅克比矩阵J',具体计算方法采用上述公式(1)及公式(2);然后,面部特征向量f、新的关键点x'及新的关键点对应的雅克比矩阵J'通过图像解码器生成图像。
参照图12,图12是本发明一个实施例提供的控制装置110的结构示意图。本发明实施例的控制装置110内置于计算机或服务器等设备中,包括一个或多个控制处理器1101和存储器1102,图12中以一个控制处理器1101及一个存储器1102为例。
控制处理器1101和存储器1102可以通过总线或者其他方式连接,图12中以通过总线连接为例。
存储器1102作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器1102可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器1102可选包括相对于控制处理器1101远程设置的存储器1102,这些远程存储器1102可以通过网络连接至该控制装置110。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本领域技术人员可以理解,图12中示出的装置结构并不构成对控制装置110的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
实现上述实施例中应用于控制装置110的控制方法所需的非暂态软件程序以及指令存储在存储器1102中,当被控制处理器1101执行时,执行上述实施例中应用于控制装置110的控制方法,例如,执行以上描述的图1中的方法步骤S100至步骤S400、图2中的方法步骤S201至步骤S202、图4中的方法步骤S301、图5中的方法步骤S401及步骤S403、图6中的方法步骤S001及步骤S003。
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行程序,该计算机可执行程序被一个或多个控制处理器执行,例如,被图12中的一个控制处理器1101执行,可使得上述一个或多个控制处理器1101执行上述方法实施例中的控制方法,如,执行以上描述的图1中的方法步骤S100至步骤S500、图2中的方法步骤S201至步骤S202、图4中的方法步骤S301、图5中的方法步骤S401及步骤S403、图6中的方法步骤S001及步骤S003。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种语音驱动图像的方法,其特征在于,包括步骤:
获取语音及图像;
根据所述图像提取面部特征参数;
将所述语音输入到头部位姿及表情预测模型获取系列动态参数;
根据所述面部特征参数及所述系列动态参数生成系列图像;
根据所述语音及所述系列图像生成视频文件。
2.根据权利要求1所述的语音驱动图像的方法,其特征在于,所述根据所述图像提取面部特征参数,包括步骤:
根据所述图像提取面部特征向量;
根据所述图像获取若干个关键点及所述若干个关键点对应的雅克比矩阵。
3.根据权利要求2所述的语音驱动图像的方法,其特征在于,所述将所述语音输入到头部位姿及表情预测模型获取系列动态参数,包括步骤:
将所述语音输入到头部位姿及表情预测模型获取系列旋转矩阵、系列平移矢量及系列表情参数。
4.根据权利要求3所述的语音驱动图像的方法,其特征在于,所述根据所述面部特征参数及所述系列动态参数生成系列图像,包括步骤:
根据所述若干个关键点、所述系列旋转矩阵、所述系列平移矢量及所述系列表情参数获取若干个新的系列关键点;
根据所述若干个关键点对应的雅克比矩阵及所述系列旋转矩阵获取若干个新的系列雅克比矩阵;
根据所述面部特征向量、所述若干个新的系列关键点及所述若干个新的系列雅克比矩阵生成系列图像。
5.根据权利要求3所述的语音驱动图像的方法,其特征在于,所述头部位姿及表情预测模型是经过训练得到,训练方法包括:
获取训练的视频文件,并提取所述训练的视频文件中音频文件的声音频谱图及系列图像帧;
根据所述系列图像帧检测得到训练的系列旋转矩阵、系列平移矢量及系列表情参数;
根据所述声音频谱图及所述训练的系列旋转矩阵、系列平移矢量及系列表情参数训练所述头部位姿及表情预测模型。
6.一种语音驱动图像的系统,其特征在于,包括:
第一获取模块,用于获取语音及图像;
提取模块,用于根据所述图像提取面部特征参数;
第二获取模块,用于将所述语音输入到头部位姿及表情预测模型获取系列动态参数;
第一生成模块,用于根据所述面部特征参数及所述系列动态参数生成系列图像;
第二生成模块,用于根据所述语音及所述系列图像生成视频文件。
7.根据权利要求6所述的语音驱动图像的系统,其特征在于,所述头部位姿及表情预测模型包括:
音频处理单元,用于将所述语音转化为声音频谱图;
声音编码器,用于提取所述声音频谱图的声音特征;
若干个线性层,所述线性层用于根据所述声音特征预测动态参数。
8.根据权利要求6所述的语音驱动图像的系统,其特征在于,所述面部特征参数包括面部特征向量、关键点及所述关键点对应的雅克比矩阵,所述第一生成模块包括:
参数编码器,用于根据所述关键点、所述关键点对应的雅克比矩阵及所述动态参数生成新的关键点及新的关键点对应的雅克比矩阵;
图像解码器,用于根据所述面部特征向量、所述新的关键点及所述新的关键点对应的雅克比矩阵生成图像。
9.一种语音驱动图像的装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-5中任一项所述的方法。
10.一种计算机存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1-5任一项所述的方法。
CN202110436595.5A 2021-04-22 2021-04-22 语音驱动图像的方法、系统、装置及存储介质 Active CN113192162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110436595.5A CN113192162B (zh) 2021-04-22 2021-04-22 语音驱动图像的方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110436595.5A CN113192162B (zh) 2021-04-22 2021-04-22 语音驱动图像的方法、系统、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113192162A true CN113192162A (zh) 2021-07-30
CN113192162B CN113192162B (zh) 2022-12-02

Family

ID=76978668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110436595.5A Active CN113192162B (zh) 2021-04-22 2021-04-22 语音驱动图像的方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113192162B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023050921A1 (zh) * 2021-09-30 2023-04-06 中兴通讯股份有限公司 视音频数据的发送方法、显示方法、发送端及接收端
CN117523051A (zh) * 2024-01-08 2024-02-06 南京硅基智能科技有限公司 基于音频生成动态图像的方法、装置、设备及存储介质
WO2024078243A1 (zh) * 2022-10-13 2024-04-18 腾讯科技(深圳)有限公司 视频生成模型的训练方法、装置、存储介质及计算机设备
WO2024098685A1 (zh) * 2022-11-07 2024-05-16 广州趣丸网络科技有限公司 虚拟人物面部驱动方法、装置、终端设备和可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120280974A1 (en) * 2011-05-03 2012-11-08 Microsoft Corporation Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech
CN107004136A (zh) * 2014-08-20 2017-08-01 北京市商汤科技开发有限公司 用于估计人脸图像的人脸关键点的方法和系统
US10658005B1 (en) * 2019-08-19 2020-05-19 Neon Evolution Inc. Methods and systems for image and voice processing
CN111988658A (zh) * 2020-08-28 2020-11-24 网易(杭州)网络有限公司 视频生成方法及装置
CN112001992A (zh) * 2020-07-02 2020-11-27 超维视界(北京)传媒科技有限公司 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120280974A1 (en) * 2011-05-03 2012-11-08 Microsoft Corporation Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech
CN107004136A (zh) * 2014-08-20 2017-08-01 北京市商汤科技开发有限公司 用于估计人脸图像的人脸关键点的方法和系统
US10658005B1 (en) * 2019-08-19 2020-05-19 Neon Evolution Inc. Methods and systems for image and voice processing
CN112001992A (zh) * 2020-07-02 2020-11-27 超维视界(北京)传媒科技有限公司 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统
CN111988658A (zh) * 2020-08-28 2020-11-24 网易(杭州)网络有限公司 视频生成方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALIAKSANDR SIAROHIN ET AL.: "First Order Motion Model for Image Animation", 《ARXIV》 *
刘涵: "语音驱动的人脸视频生成", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
罗宇轩: "基于Actor-Critic方法的口型同步动画生成", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023050921A1 (zh) * 2021-09-30 2023-04-06 中兴通讯股份有限公司 视音频数据的发送方法、显示方法、发送端及接收端
WO2024078243A1 (zh) * 2022-10-13 2024-04-18 腾讯科技(深圳)有限公司 视频生成模型的训练方法、装置、存储介质及计算机设备
WO2024098685A1 (zh) * 2022-11-07 2024-05-16 广州趣丸网络科技有限公司 虚拟人物面部驱动方法、装置、终端设备和可读存储介质
CN117523051A (zh) * 2024-01-08 2024-02-06 南京硅基智能科技有限公司 基于音频生成动态图像的方法、装置、设备及存储介质
CN117523051B (zh) * 2024-01-08 2024-05-07 南京硅基智能科技有限公司 基于音频生成动态图像的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113192162B (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
CN113192162B (zh) 语音驱动图像的方法、系统、装置及存储介质
CN113192161B (zh) 一种虚拟人形象视频生成方法、系统、装置及存储介质
CN111243626B (zh) 一种说话视频生成方法及系统
US20210357625A1 (en) Method and device for generating video, electronic equipment, and computer storage medium
US11386900B2 (en) Visual speech recognition by phoneme prediction
CN113793408B (zh) 一种实时音频驱动人脸生成方法、装置及服务器
CN113194348B (zh) 一种虚拟人讲课视频生成方法、系统、装置及存储介质
CN113822969B (zh) 训练神经辐射场模型和人脸生成方法、装置及服务器
Ezzat et al. Trainable videorealistic speech animation
CN111428088A (zh) 视频分类方法、装置及服务器
Zimmermann et al. Visual speech recognition using PCA networks and LSTMs in a tandem GMM-HMM system
CN112750185A (zh) 一种肖像画视频生成方法、装置、电子设备及存储介质
US7257538B2 (en) Generating animation from visual and audio input
Ivanko et al. RUSAVIC Corpus: Russian audio-visual speech in cars
CN114581812B (zh) 视觉语言识别方法、装置、电子设备及存储介质
CN116597857A (zh) 一种语音驱动图像的方法、系统、装置及存储介质
CN112639964A (zh) 利用深度信息识别语音的方法、系统及计算机可读介质
CN112329663B (zh) 一种基于人脸图像序列的微表情时刻检测方法及装置
CN117593473A (zh) 动作图像与视频生成方法、设备与存储介质
CN117409121A (zh) 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质
CN113179449B (zh) 语音及动作驱动图像的方法、系统、装置及存储介质
Ivanko et al. Designing advanced geometric features for automatic Russian visual speech recognition
CN116152608A (zh) 基于点云多模态的对比学习预训练方法、装置及介质
Koumparoulis et al. Audio-assisted image inpainting for talking faces
Shashidhar et al. Enhancing Visual Speech Recognition for Deaf Individuals: A Hybrid LSTM and CNN 3D Model for Improved Accuracy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant