CN113179449B - 语音及动作驱动图像的方法、系统、装置及存储介质 - Google Patents

语音及动作驱动图像的方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN113179449B
CN113179449B CN202110436618.2A CN202110436618A CN113179449B CN 113179449 B CN113179449 B CN 113179449B CN 202110436618 A CN202110436618 A CN 202110436618A CN 113179449 B CN113179449 B CN 113179449B
Authority
CN
China
Prior art keywords
series
image
parameters
key point
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110436618.2A
Other languages
English (en)
Other versions
CN113179449A (zh
Inventor
王伦基
李�权
叶俊杰
朱杰
成秋喜
韩蓝青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CYAGEN BIOSCIENCES (GUANGZHOU) Inc
Research Institute Of Tsinghua Pearl River Delta
Original Assignee
CYAGEN BIOSCIENCES (GUANGZHOU) Inc
Research Institute Of Tsinghua Pearl River Delta
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CYAGEN BIOSCIENCES (GUANGZHOU) Inc, Research Institute Of Tsinghua Pearl River Delta filed Critical CYAGEN BIOSCIENCES (GUANGZHOU) Inc
Priority to CN202110436618.2A priority Critical patent/CN113179449B/zh
Publication of CN113179449A publication Critical patent/CN113179449A/zh
Application granted granted Critical
Publication of CN113179449B publication Critical patent/CN113179449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2621Cameras specially adapted for the electronic generation of special effects during image pickup, e.g. digital cameras, camcorders, video cameras having integrated special effects capability

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种语音及动作驱动图像的方法、系统、装置及存储介质,所述方法包括:获取语音、动作视频及图像;根据所述图像提取面部特征向量,以及根据所述语音预测系列表情参数;根据所述图像及所述动作视频确定驱动的系列关键点参数;根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像;根据所述语音及所述系列图像生成视频文件。本发明实施例能够驱动静态图像按照预设的语音及动作形成匹配的视频文件,生动逼真,操作简单且便于推广。本发明实施例可广泛应用于图像处理技术领域。

Description

语音及动作驱动图像的方法、系统、装置及存储介质
技术领域
本申请涉及图像处理技术领域,尤其涉及一种语音及动作驱动图像的方法、系统、装置及存储介质。
背景技术
随着互联网的不断发展,传统媒体已经逐渐数字化,如广播、电视或报纸。随着社交网络的进一步发展,普通大众也可以通过网络等途径向外发布他们自身的事实和新闻,人人皆是自媒体。但是,目前自媒体的形式和制作仍然存在一些问题:如大多数社交动态只用图文说明,不够生动,更无法通过语音及动作视频驱动静态的图像,即无法使静态的图像按照预设的语音说话以及使静态的图像按照预设的动作视频进行动态变化;如果采用虚拟人物形象达到动态变化的效果,需要专业的建模师,耗费成本较高;如果采用视频拍摄并制作动态效果,需要专人录制及后期处理且成本较高,一旦发现有错误则难以修改;采用虚拟人物或视频拍摄制作动态效果,操作复杂,不便于推广。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种语音及动作驱动图像的方法、系统、装置及存储介质,能够驱动静态图像按照预设的语音及动作形成匹配的视频文件,生动逼真,操作简单且便于推广。
第一方面,本发明实施例提供了一种语音及动作驱动图像的方法,包括步骤:
获取语音、动作视频及图像;
根据所述图像提取面部特征向量,以及根据所述语音预测系列表情参数;
根据所述图像及所述动作视频确定驱动的系列关键点参数;
根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像;
根据所述语音及所述系列图像生成视频文件。
可选地,所述根据所述图像及所述动作视频确定驱动的系列关键点参数,包括步骤:
对所述动作视频的每一帧图像进行检测得到动作视频的系列关键点参数,以及对所述图像进行检测得到关键点参数;
根据所述动作视频及所述图像确定所述动作视频中与所述图像最相似的图像帧,并对所述最相似的图像帧进行检测得到最相似的图像帧的关键点参数;
根据所述最相似的图像帧的关键点参数、所述图像的关键点参数及所述动作视频的系列关键点参数确定驱动的系列关键点参数。
可选地,根据所述最相似的图像帧的关键点参数、所述图像的关键点参数及所述动作视频的系列关键点参数确定驱动的系列关键点参数,包括步骤:
根据所述动作视频的系列关键点参数及所述图像最相似的图像帧的关键点参数确定第一系列关键点参数;
根据所述第一系列关键点参数与所述图像的关键点参数确定所述驱动的系列关键点参数。
可选地,所述根据所述动作视频及所述图像确定所述动作视频中与所述图像最相似的图像帧,包括步骤:
对所述动作视频的每一帧图像进行提取得到系列面部特征点,以及对所述图像进行提取得到图像的面部特征点;
确定所述系列面部特征点与所述图像的面部特征点的系列均方误差;
确定所述系列均方误差中的最小值对应的图像帧为与所述图像最相似的图像帧。
可选地,所述方法还包括步骤:对所述语音及所述动作视频进行长度匹配。
可选地,所述根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像,包括步骤:
根据所述驱动的系列关键点参数及所述系列表情参数对应生成第一系列特征参数;
根据所述第一系列特征参数及所述面部特征向量生成系列图像。
可选地,根据所述语音预测系列表情参数,包括步骤:
将所述语音通过音频处理单元提取声音频谱图;
将所述声音频谱图通过声音编码器提取声音特征;
将所述声音特征通过线性层预测系列表情参数。
第二方面,本发明实施例提供了一种语音及动作驱动图像的系统,包括:
获取模块,用于获取语音、动作视频及图像;
第一处理模块,用于根据所述图像提取面部特征向量,以及根据所述语音确定系列表情参数;
第二处理模块,用于根据所述图像及所述动作视频确定驱动的系列关键点参数;
第一生成模块,用于根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像;
第二生成模块,用于根据所述语音及所述系列图像生成视频文件。
第三方面,本发明实施例提供了一种语音及动作驱动图像的装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述第一方面实施例所述的方法。
第四方面,本发明实施例提供了一种计算机存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由所述处理器执行时用于实现上述第一方面实施例所述的方法。
实施本发明实施例可以实现以下效果:首先,通过图像提取面部特征向量,以及通过语音预测系列表情参数;然后,通过图像及动作视频确定驱动的系列关键点参数;然后,通过面部特征向量、系列表情参数及系列关键点参数生成与动作视频匹配的系列图像;最后,根据语音及与动作视频匹配的系列图像生产按照预设的语音及动作变化的视频文件,生动逼真,操作简单且便于推广。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本申请提供的一种语音及动作驱动图像的方法的步骤流程示意图;
图2是本申请提供的一种根据语音预测系列表情参数的步骤流程示意图;
图3是本申请提供的一种通过表情预测模型预测表情参数的步骤流程示意图;
图4是本申请提供的一种根据图像及动作视频确定驱动的系列关键点参数的步骤流程示意图;
图5是本申请提供的一种关键点检测模型的结构示意图;
图6是本申请提供的一种根据动作视频及图像确定动作视频中与图像最相似的图像帧的步骤流程示意图;
图7是本申请提供的一种根据最相似的图像帧的关键点参数、图像的关键点参数及动作视频的系列关键点参数确定驱动的系列关键点参数的步骤流程示意图;
图8是本申请提供的一种根据面部特征向量、驱动的系列关键点参数及系列表情参数对应生成系列图像的步骤流程示意图;
图9是本申请提供的一种通过人物生成模型生成图像的步骤流程示意图;
图10是本申请提供的另一种语音及动作驱动图像的方法的步骤流程示意图;
图11是本申请提供的一种语音及动作驱动图像的系统的结构示意图;
图12是本申请提供的一种语音及动作驱动图像的装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在系统示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于系统中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
下面结合附图,对本申请实施例作进一步阐述。
参考图1,本发明实施例提供了一种语音及动作驱动图像的方法,包括步骤:
S100、获取语音、动作视频及图像;
S200、根据所述图像提取面部特征向量,以及根据所述语音预测系列表情参数;
S300、根据所述图像及所述动作视频确定驱动的系列关键点参数;
S400、根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像;
S500、根据所述语音及所述系列图像生成视频文件。
需要说明的是,语音不限语种和形式,如语种包括中文、英文或日文等,如形式包括录制、合成或从网络获取等形式,本发明实施例对语音的语种或形式等不做限制,可根据具体情况进行设置。
本领域技术人员可以理解的是,动作视频可以是自己拍摄的,可以是网络视频,也可以与输入的人物无关的视频,本发明实施例对语音的语种或形式等不做限制,可根据具体情况进行设置。
需要说明的是,图像是指一种静态的图像,图像的对象包括但不限于人物图像、动漫人物图像或动物图像等;图像可以是不同角度的图像,如正面照或侧面照等;图像的形式包括但不限于证件照、自拍照或采用生成式对抗网络合成的照片等。本发明实施例对图像的对象、角度或形式等不做限制,可根据具体情况进行设置。
本领域技术人员可以理解的是,以人物图像为例,通过人脸识别模型对人物图像提取面部特征向量。由于提供的人物图像可能是从不同角度拍摄的,在定位目标时可能会出现误判,将同一个人不同角度的图像判断为不同的人。因此,本实施例使用脸部特征点估计算法,找到人脸的68个特征点,其中,包括眼睛、鼻子、嘴巴和面部轮廓;找到脸部特征点后,无论人脸的朝向如何,根据眼睛和嘴巴的位置,将若干人脸检测结果组中的人脸区域进行仿射变换(如旋转,缩放和剪切图像),使人脸区域中人脸的眼睛和嘴巴在预设的位置范围,得到扭曲后的人脸检测结果组,一般预设的位置范围位于人脸的中部。此时,人脸的眼睛和嘴巴位于人脸的中部,定位更准确。将扭曲后的人脸检测结果组输入训练好的深度卷积神经网络模型,得到若干128维度的人脸特征向量f。
需要说明的是,相对于人脸识别模型采用的脸部特征点估算算法,人物的关键点参数检测采用了U-Net网络。通过输入一张人物图片,采用无监督训练,获取K个关键点(x,K×3的矩阵)和关键点对应的Jacobians(J,雅可比矩阵,K×3×3的矩阵)。K可设为10~30,它允许操作3D空间中的关键点,合成过程中可以旋转并平移人物的头部。雅可比矩阵表示如何通过仿射变换将关键点周围的局部区域转换为生成图像中的对应区域。
上述语音及动作驱动图像的工作过程如下:首先,从外界获取被驱动的静态图像,以及用于驱动静态图像的语音及动作视频;然后,通过人脸识别模型从图像中提取面部特征向量,以及通过语音预测系列表情参数;然后,根据图像及动作视频确定驱动的系列关键点参数;然后,根据面部特征向量、驱动的系列关键点参数及系列表情参数对应生成系列图像;最后,根据语音及系列图像生成视频文件。
实施本发明实施例可以实现以下效果:首先,通过图像提取面部特征向量,以及通过语音预测系列表情参数;然后,通过图像及动作视频确定驱动的系列关键点参数;然后,通过面部特征向量、系列表情参数及系列关键点参数生成与动作视频匹配的系列图像;最后,根据语音及与动作视频匹配的系列图像生产按照预设的语音及动作变化的视频文件,生动逼真,操作简单且便于推广。
参考图2,根据所述语音预测系列表情参数,包括步骤:
S210、将所述语音通过音频处理单元提取声音频谱图;
S220、将所述声音频谱图通过声音编码器提取声音特征;
S230、将所述声音特征通过线性层预测系列表情参数。
具体地,语音通过表情预测模型预测表情参数,如图3所示,表情预测模型包括音频处理单元、声音编码器及线性层构成。首先,语音通过音频处理单元提取声音频谱图;然后,声音编码器通过卷积声音频谱图提取声音特征,其中,声音编码器由多个下采样DownBlock层组成;最后,提取的声音特征通过线性层预测系列表情参数δa。
参考图4,所述根据所述图像及所述动作视频确定驱动的系列关键点参数,包括步骤:
S310、对所述动作视频的每一帧图像进行检测得到动作视频的系列关键点参数,以及对所述图像进行检测得到关键点参数;
S320、根据所述动作视频及所述图像确定所述动作视频中与所述图像最相似的图像帧,并对所述最相似的图像帧进行检测得到最相似的图像帧的关键点参数;
S330、根据所述最相似的图像帧的关键点参数、所述图像的关键点参数及所述动作视频的系列关键点参数确定驱动的系列关键点参数。
具体地,关键点参数包括关键点及关键点对应的雅可比矩阵,如图5所示,获取图像的关键点及关键点对应的Jacobians具体过程如下:输入人物图像,如大小为256x256,首先经过多个DownBlock模块进行卷积的下采样操作,如DownBlock-64、DownBlock-128、DownBlock-256、DownBlock-512及DownBlock-1024模块;再经过一个一维卷积并进行矩阵变换;然后输入到多个UpBlock模块进行卷积的上采样操作,UpBlock-512、UpBlock-256、UpBlock-128、UpBlock-64及UpBlock-32模块,得到K个关键点(x,K×3的矩阵)和关键点对应的Jacobians(J,雅可比矩阵,K×3×3的矩阵)。
参考图6,所述根据所述动作视频及所述图像确定所述动作视频中与所述图像最相似的图像帧,包括步骤:
S321、对所述动作视频的每一帧图像进行提取得到系列面部特征点,以及对所述图像进行提取得到图像的面部特征点;
S322、确定所述系列面部特征点与所述图像的面部特征点的系列均方误差;
S323、确定所述系列均方误差中的最小值对应的图像帧为与所述图像最相似的图像帧。
具体地,首先,对动作视频的每一帧图像采用人脸识别模型获取每一帧图像的68个特征点,即可以得到动作视频的一系列面部特征点{keypoint1,keypoint2,...,keypointn},对图像采用人脸识别模型获取图像的面部特征点keypoints;然后,采用MSE(Mean Square Error,均方误差)算法计算静态人物图像的特征点与动作视频的系列面部特征点之间的值,第t帧的MSE值的具体计算公式如下:
Figure BDA0003033334200000061
其中,MSETt表示第t帧图像的均方误差,keypointn,Dt表示动作视频的第t帧图像的第n个特征点,keypointn,s表示静态人物图像的第n个特征点,N表示特征点的数量。
最后,从系列均方误差中找出最小值对应的图像帧,并将最小值对应的图像帧作为图像最相似的图像帧Framebest
参考图7,根据所述最相似的图像帧的关键点参数、所述图像的关键点参数及所述动作视频的系列关键点参数确定驱动的系列关键点参数,包括步骤:
S331、根据所述动作视频的系列关键点参数及所述图像最相似的图像帧的关键点参数确定第一系列关键点参数;
S332、根据所述第一系列关键点参数与所述图像的关键点参数确定所述驱动的系列关键点参数。
具体地,静态图像FrameS的3D关键点xS及其雅可比矩阵JS,与图像最相似的图像帧Framebest的3D关键点xbest及其关键点对应的雅可比矩阵Jbest,动作视频的系列关键点xD及其系列关键点对应的系列雅可比矩阵JD,动作视频的第t帧图像Framet的3D关键点xt及其雅可比矩阵Jt,驱动的系列第t帧图像关键点参数中的3D关键点x't的计算公式如下:
xdiff=xt-xbest
x't=xdiff+xS
驱动的系列第t帧图像关键点参数中的3D关键点对应的雅可比矩阵J't的计算公式如下:
Jdiff=Jt*inv(Jbest)
J't=Jdiff*JS
其中,xdiff及Jdiff分别表示第一系列关键点参数(xD,JD)第t帧图像关键点参数中的3D关键点及其关键点对应的雅可比矩阵的相对变化量。
参考图8,所述根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像,包括步骤:
S410、根据所述驱动的系列关键点参数及所述系列表情参数对应生成第一系列特征参数;
S420、根据所述第一系列特征参数及所述面部特征向量生成系列图像。
具体地,通过人物生成模型生成系列图像,如图9所示,人物生成模型包括参数编码器及图像解码器;关键点x、关键点对应的雅可比矩阵J及表情参数δ先经过参数编码器后生成第一特征参数,第一特征参数再与特征向量f经过图像解码器生成图像。当关键点参数及表情参数均取值为系列值时,如,关键点参数系列为xD,JD,表情参数系列为δa,经过人物生成模型会生成系列图像。
需要说明的是,最终生成的第t帧与声音同步的人物表情及唇型图像Frame't,根据不同的使用需求,可包括但不限于96x96、128x128、256x256及512x512等。
可选地,所述方法还包括步骤:对所述语音及所述动作视频进行长度匹配。
需要说明的是,当语音及动作视频的长度不匹配时,对语音及视频动作处理之前,先对动作视频截取合适的长度,然后对语音及动作视频进行长度匹配。语音及动作视频进行长度匹配的具体方法如下:获取动作视频的第一长度;获取语音的第二长度;根据第一长度与第二长度的长度差异,对动作视频和/或语音进行变速处理,得到长度匹配的原始视频和合成语音。具体地,通过比较动作视频及语音长度,确定变速参数;对动作视频进行检测,根据动作幅度的大小,对动作视频不同片段进行不同的变速参数调整,如动作幅度较大的,变速参数可调大些,而动作幅度较小的,变速参数可调小些。
参阅图10,以一个具体实施例说明上述语音驱动图像的具体过程:首先,获取一张图像、一段语音及一段动作;然后,将图像经过人脸识别模型后得到面部特征向量f,并对图像进行关键点检测得到关键点x及关键点对应的雅可比矩阵J;然后,对语音及动作视频进行长度匹配,对匹配好长度的动作视频的每一帧图像进行关键点检测,得到系列关键点xD及系列关键点对应的系列雅可比矩阵JD,并根据图像的关键点x、关键点对应的雅可比矩阵J、动作视频的系列关键点xD及系列关键点对应的系列雅可比矩阵JD确定驱动的系列关键点参数(x't,J't);然后,将语音通过表情预测模型预测系列表情参数δa;然后,根据面部特征向量f、驱动的系列关键点参数(x't,J't)及系列表情参数δa通过人物生成模型生成系列图像{Frame'1,Frame'2,...,Frame'n};最后,根据系列图像{Frame'1,Frame'2,...,Frame'n}及语音生成视频文件。
下面以一个具体实施例说明语音及动作驱动图像的方法,具体包括以下步骤:
(1)选取一张人物图片,如某明星的照片;
(2)选择指定要说的内容(如“牛年大吉”),要说的内容是一段语音,该语音可以自行录制,也可以通过语音合成得到;
(3)选择指定展示的动作,动作视频可以自行录制或者找现有的一段与音频差不多时长的动作;
(4)对人物图片进行人物特征提取,得到面部特征向量f,关键点x及关键点对应的雅可比矩阵J;
(5)对语音及动作进行长度匹配,得到匹配后的语音及动作;
(6)假如匹配后的语音长度为2秒,指定视频帧率为25fps,将语音输入到表情预测模型得到50组表情参数δa,将匹配后的动作视频,进行人物关键点提取,得到50组3D关键点xD及其雅可比矩阵JD
(7)根据关键点x及关键点对应的雅可比矩阵J,动作视频的系列关键点xD及其雅可比矩阵JD生成驱动的系列关键点x't及其雅可比矩阵J't,并将特征向量f、语音对应的系列表情参数δa、驱动的系列关键点x't及其雅可比矩阵J't输入到人物生成模型生成50张系列图像;
(8)通过ffmpeg等工具,将图像及语音合并成视频,即可得到某明星展现指定动作并对你说“牛年大吉”的短视频。
参阅图11,本发明实施例提供了一种语音及动作驱动图像的系统,包括:
获取模块,用于获取语音、动作视频及图像;
第一处理模块,用于根据所述图像提取面部特征向量,以及根据所述语音确定系列表情参数;
第二处理模块,用于根据所述语音、所述图像及所述动作视频确定驱动的系列关键点参数;
第一生成模块,用于根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像;
第二生成模块,用于根据所述语音及所述系列图像生成视频文件。
实施本发明实施例可以实现以下效果:首先,通过图像提取面部特征向量,以及通过语音预测系列表情参数;然后,通过图像及动作视频确定驱动的系列关键点参数;然后,通过面部特征向量、系列表情参数及系列关键点参数生成与动作视频匹配的系列图像;最后,根据语音及与动作视频匹配的系列图像生产按照预设的语音及动作变化的视频文件,生动逼真,操作简单且便于推广。
参照图12,图12是本发明一个实施例提供的控制装置110的结构示意图。本发明实施例的控制装置110内置于计算机或服务器等设备中,包括一个或多个控制处理器1101和存储器1102,图12中以一个控制处理器1101及一个存储器1102为例。
控制处理器1101和存储器1102可以通过总线或者其他方式连接,图12中以通过总线连接为例。
存储器1102作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器1102可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器1102可选包括相对于控制处理器1101远程设置的存储器1102,这些远程存储器1102可以通过网络连接至该控制装置110。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本领域技术人员可以理解,图12中示出的装置结构并不构成对控制装置110的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
实现上述实施例中应用于控制装置110的控制方法所需的非暂态软件程序以及指令存储在存储器1102中,当被控制处理器1101执行时,执行上述实施例中应用于控制装置110的控制方法,例如,执行以上描述的图1中的方法步骤S100至步骤S500、图2中的方法步骤S210至步骤S230、图4中的方法步骤S310至步骤S330、图6中的方法步骤S321及步骤S323、图7中的方法步骤S331及步骤S332、图8中的方法步骤S410及步骤S420。
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行程序,该计算机可执行程序被一个或多个控制处理器执行,例如,被图12中的一个控制处理器1101执行,可使得上述一个或多个控制处理器1101执行上述方法实施例中的控制方法,如,执行以上描述的图1中的方法步骤S100至步骤S500、图2中的方法步骤S210至步骤S230、图4中的方法步骤S310至步骤S330、图6中的方法步骤S321及步骤S323、图7中的方法步骤S331及步骤S332、图8中的方法步骤S410及步骤S420。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1.一种语音及动作驱动图像的方法,其特征在于,包括步骤:
获取语音、获取动作视频及获取图像;
根据获取的图像提取面部特征向量,以及根据所述语音预测系列表情参数;
根据所述获取的图像及所述动作视频确定驱动的系列关键点参数;
根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像;
根据所述语音及所述系列图像生成视频文件;
其中,所述根据所述获取的图像及所述动作视频确定驱动的系列关键点参数,具体包括:
对所述动作视频的每一帧图像进行检测得到动作视频的系列关键点参数,以及对所述获取的图像进行检测得到关键点参数;
根据所述动作视频及所述获取的图像确定所述动作视频中与所述获取的图像最相似的图像帧,并对所述最相似的图像帧进行检测得到最相似的图像帧的关键点参数;
根据所述最相似的图像帧的关键点参数、所述获取的图像的关键点参数及所述动作视频的系列关键点参数确定驱动的系列关键点参数;
其中,所述根据所述动作视频及所述获取的图像确定所述动作视频中与所述获取的图像最相似的图像帧,具体包括:
对所述动作视频的每一帧图像进行提取得到系列面部特征点,以及对所述获取的图像进行提取得到图像的面部特征点;
确定所述系列面部特征点与所述获取的图像的面部特征点的系列均方误差;
确定所述系列均方误差中的最小值对应的图像帧为与所述获取的图像最相似的图像帧。
2.根据权利要求1所述的语音及动作驱动图像的方法,其特征在于,根据所述最相似的图像帧的关键点参数、所述获取的图像的关键点参数及所述动作视频的系列关键点参数确定驱动的系列关键点参数,包括步骤:
根据所述动作视频的系列关键点参数及所述最相似的图像帧的关键点参数确定第一系列关键点参数;
根据所述第一系列关键点参数与所述获取的图像的关键点参数确定所述驱动的系列关键点参数。
3.根据权利要求1所述的语音及动作驱动图像的方法,其特征在于,根据所述语音预测系列表情参数,包括步骤:
将所述语音通过音频处理单元提取声音频谱图;
将所述声音频谱图通过声音编码器提取声音特征;
将所述声音特征通过线性层预测系列表情参数。
4.根据权利要求1所述的语音及动作驱动图像的方法,其特征在于,所述根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像,包括步骤:
根据所述驱动的系列关键点参数及所述系列表情参数对应生成第一系列特征参数;
根据所述第一系列特征参数及所述面部特征向量生成系列图像。
5.根据权利要求1-4任一项所述的语音及动作驱动图像的方法,其特征在于,所述方法还包括步骤:对所述语音及所述动作视频进行长度匹配。
6.一种语音及动作驱动图像的系统,其特征在于,包括:
获取模块,用于获取语音、获取动作视频及获取图像;
第一处理模块,用于根据获取的图像提取面部特征向量,以及根据所述语音确定系列表情参数;
第二处理模块,用于根据所述获取的图像及所述动作视频确定驱动的系列关键点参数;
第一生成模块,用于根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像;
第二生成模块,用于根据所述语音及所述系列图像生成视频文件;
其中,所述根据所述获取的图像及所述动作视频确定驱动的系列关键点参数,具体包括:
对所述动作视频的每一帧图像进行检测得到动作视频的系列关键点参数,以及对所述获取的图像进行检测得到关键点参数;
根据所述动作视频及所述获取的图像确定所述动作视频中与所述获取的图像最相似的图像帧,并对所述最相似的图像帧进行检测得到最相似的图像帧的关键点参数;
根据所述最相似的图像帧的关键点参数、所述获取的图像的关键点参数及所述动作视频的系列关键点参数确定驱动的系列关键点参数;
其中,所述根据所述动作视频及所述获取的图像确定所述动作视频中与所述获取的图像最相似的图像帧,具体包括:
对所述动作视频的每一帧图像进行提取得到系列面部特征点,以及对所述获取的图像进行提取得到图像的面部特征点;
确定所述系列面部特征点与所述获取的图像的面部特征点的系列均方误差;
确定所述系列均方误差中的最小值对应的图像帧为与所述获取的图像最相似的图像帧。
7.一种语音及动作驱动图像的装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-5中任一项所述的方法。
8.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1-5任一项所述的方法。
CN202110436618.2A 2021-04-22 2021-04-22 语音及动作驱动图像的方法、系统、装置及存储介质 Active CN113179449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110436618.2A CN113179449B (zh) 2021-04-22 2021-04-22 语音及动作驱动图像的方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110436618.2A CN113179449B (zh) 2021-04-22 2021-04-22 语音及动作驱动图像的方法、系统、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113179449A CN113179449A (zh) 2021-07-27
CN113179449B true CN113179449B (zh) 2022-04-12

Family

ID=76924737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110436618.2A Active CN113179449B (zh) 2021-04-22 2021-04-22 语音及动作驱动图像的方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113179449B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020253051A1 (zh) * 2019-06-18 2020-12-24 平安科技(深圳)有限公司 唇语的识别方法及其装置
WO2021012590A1 (zh) * 2019-07-22 2021-01-28 广州华多网络科技有限公司 面部表情迁移方法、装置、存储介质及计算机设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054287B (zh) * 2009-11-09 2015-05-06 腾讯科技(深圳)有限公司 面部动画视频生成的方法及装置
EP3216008B1 (en) * 2014-11-05 2020-02-26 Intel Corporation Avatar video apparatus and method
CN107340859B (zh) * 2017-06-14 2021-04-06 北京光年无限科技有限公司 多模态虚拟机器人的多模态交互方法和系统
EP3912092A1 (en) * 2019-01-18 2021-11-24 Snap Inc. Systems and methods for realistic head turns and face animation synthesis on mobile device
CN110688911B (zh) * 2019-09-05 2021-04-02 深圳追一科技有限公司 视频处理方法、装置、系统、终端设备及存储介质
CN112667068A (zh) * 2019-09-30 2021-04-16 北京百度网讯科技有限公司 虚拟人物的驱动方法、装置、设备及存储介质
CN111291674B (zh) * 2020-02-04 2023-07-14 清华珠三角研究院 一种虚拟人物表情动作的提取方法、系统、装置及介质
CN111370020B (zh) * 2020-02-04 2023-02-14 清华珠三角研究院 一种将语音转换成唇形的方法、系统、装置和存储介质
CN111508064B (zh) * 2020-04-14 2022-06-17 北京世纪好未来教育科技有限公司 基于音素驱动的表情合成方法、装置和计算机存储介质
CN112308949A (zh) * 2020-06-29 2021-02-02 北京京东尚科信息技术有限公司 模型训练、人脸图像生成方法和装置以及存储介质
CN111988658B (zh) * 2020-08-28 2022-12-06 网易(杭州)网络有限公司 视频生成方法及装置
CN112562720A (zh) * 2020-11-30 2021-03-26 清华珠三角研究院 一种唇形同步的视频生成方法、装置、设备及存储介质
CN112562721B (zh) * 2020-11-30 2024-04-16 清华珠三角研究院 一种视频翻译方法、系统、装置及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020253051A1 (zh) * 2019-06-18 2020-12-24 平安科技(深圳)有限公司 唇语的识别方法及其装置
WO2021012590A1 (zh) * 2019-07-22 2021-01-28 广州华多网络科技有限公司 面部表情迁移方法、装置、存储介质及计算机设备

Also Published As

Publication number Publication date
CN113179449A (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN113192162B (zh) 语音驱动图像的方法、系统、装置及存储介质
US11200424B2 (en) Space-time memory network for locating target object in video content
US20210357625A1 (en) Method and device for generating video, electronic equipment, and computer storage medium
CN113793408B (zh) 一种实时音频驱动人脸生成方法、装置及服务器
US11386900B2 (en) Visual speech recognition by phoneme prediction
CN113194348B (zh) 一种虚拟人讲课视频生成方法、系统、装置及存储介质
CN113822969B (zh) 训练神经辐射场模型和人脸生成方法、装置及服务器
Ezzat et al. Trainable videorealistic speech animation
CN113192161A (zh) 一种虚拟人形象视频生成方法、系统、装置及存储介质
CN111243626A (zh) 一种说话视频生成方法及系统
CN111428088A (zh) 视频分类方法、装置及服务器
CN114283430A (zh) 跨模态图文匹配训练方法及装置、存储介质、电子设备
EP3635719A1 (en) Systems and methods for generating a summary storyboard from a plurality of image frames
US7257538B2 (en) Generating animation from visual and audio input
US20200160581A1 (en) Automatic viseme detection for generating animatable puppet
CN111178217A (zh) 人脸图像的检测方法及设备
CN112639964A (zh) 利用深度信息识别语音的方法、系统及计算机可读介质
Chen et al. Sound to visual: Hierarchical cross-modal talking face video generation
CN113179449B (zh) 语音及动作驱动图像的方法、系统、装置及存储介质
CN117409121A (zh) 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质
CN116152608A (zh) 基于点云多模态的对比学习预训练方法、装置及介质
KR20230167086A (ko) 공간과 시간에 따른 어텐션을 이용한 비디오 시퀀스에서 객체 표현에 대한 비지도 학습
US20230368576A1 (en) Image processing apparatus, image processing method, and non-transitory storage medium
CN115240240A (zh) 基于yolo网络的红外人脸识别方法及系统
Koumparoulis et al. Audio-assisted image inpainting for talking faces

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant