CN113179449B

CN113179449B - 语音及动作驱动图像的方法、系统、装置及存储介质

Info

Publication number: CN113179449B
Application number: CN202110436618.2A
Authority: CN
Inventors: 王伦基; 李�权; 叶俊杰; 朱杰; 成秋喜; 韩蓝青
Original assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Current assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2022-04-12
Anticipated expiration: 2041-04-22
Also published as: CN113179449A

Abstract

本发明公开了一种语音及动作驱动图像的方法、系统、装置及存储介质，所述方法包括：获取语音、动作视频及图像；根据所述图像提取面部特征向量，以及根据所述语音预测系列表情参数；根据所述图像及所述动作视频确定驱动的系列关键点参数；根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像；根据所述语音及所述系列图像生成视频文件。本发明实施例能够驱动静态图像按照预设的语音及动作形成匹配的视频文件，生动逼真，操作简单且便于推广。本发明实施例可广泛应用于图像处理技术领域。

Description

语音及动作驱动图像的方法、系统、装置及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种语音及动作驱动图像的方法、系统、装置及存储介质。

背景技术

随着互联网的不断发展，传统媒体已经逐渐数字化，如广播、电视或报纸。随着社交网络的进一步发展，普通大众也可以通过网络等途径向外发布他们自身的事实和新闻，人人皆是自媒体。但是，目前自媒体的形式和制作仍然存在一些问题：如大多数社交动态只用图文说明，不够生动，更无法通过语音及动作视频驱动静态的图像，即无法使静态的图像按照预设的语音说话以及使静态的图像按照预设的动作视频进行动态变化；如果采用虚拟人物形象达到动态变化的效果，需要专业的建模师，耗费成本较高；如果采用视频拍摄并制作动态效果，需要专人录制及后期处理且成本较高，一旦发现有错误则难以修改；采用虚拟人物或视频拍摄制作动态效果，操作复杂，不便于推广。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请提出一种语音及动作驱动图像的方法、系统、装置及存储介质，能够驱动静态图像按照预设的语音及动作形成匹配的视频文件，生动逼真，操作简单且便于推广。

第一方面，本发明实施例提供了一种语音及动作驱动图像的方法，包括步骤：

获取语音、动作视频及图像；

根据所述图像提取面部特征向量，以及根据所述语音预测系列表情参数；

根据所述图像及所述动作视频确定驱动的系列关键点参数；

根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像；

根据所述语音及所述系列图像生成视频文件。

可选地，所述根据所述图像及所述动作视频确定驱动的系列关键点参数，包括步骤：

对所述动作视频的每一帧图像进行检测得到动作视频的系列关键点参数，以及对所述图像进行检测得到关键点参数；

根据所述动作视频及所述图像确定所述动作视频中与所述图像最相似的图像帧，并对所述最相似的图像帧进行检测得到最相似的图像帧的关键点参数；

根据所述最相似的图像帧的关键点参数、所述图像的关键点参数及所述动作视频的系列关键点参数确定驱动的系列关键点参数。

可选地，根据所述最相似的图像帧的关键点参数、所述图像的关键点参数及所述动作视频的系列关键点参数确定驱动的系列关键点参数，包括步骤：

根据所述动作视频的系列关键点参数及所述图像最相似的图像帧的关键点参数确定第一系列关键点参数；

根据所述第一系列关键点参数与所述图像的关键点参数确定所述驱动的系列关键点参数。

可选地，所述根据所述动作视频及所述图像确定所述动作视频中与所述图像最相似的图像帧，包括步骤：

对所述动作视频的每一帧图像进行提取得到系列面部特征点，以及对所述图像进行提取得到图像的面部特征点；

确定所述系列面部特征点与所述图像的面部特征点的系列均方误差；

确定所述系列均方误差中的最小值对应的图像帧为与所述图像最相似的图像帧。

可选地，所述方法还包括步骤：对所述语音及所述动作视频进行长度匹配。

可选地，所述根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像，包括步骤：

根据所述驱动的系列关键点参数及所述系列表情参数对应生成第一系列特征参数；

根据所述第一系列特征参数及所述面部特征向量生成系列图像。

可选地，根据所述语音预测系列表情参数，包括步骤：

将所述语音通过音频处理单元提取声音频谱图；

将所述声音频谱图通过声音编码器提取声音特征；

将所述声音特征通过线性层预测系列表情参数。

第二方面，本发明实施例提供了一种语音及动作驱动图像的系统，包括：

获取模块，用于获取语音、动作视频及图像；

第一处理模块，用于根据所述图像提取面部特征向量，以及根据所述语音确定系列表情参数；

第二处理模块，用于根据所述图像及所述动作视频确定驱动的系列关键点参数；

第一生成模块，用于根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像；

第二生成模块，用于根据所述语音及所述系列图像生成视频文件。

第三方面，本发明实施例提供了一种语音及动作驱动图像的装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述第一方面实施例所述的方法。

第四方面，本发明实施例提供了一种计算机存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由所述处理器执行时用于实现上述第一方面实施例所述的方法。

实施本发明实施例可以实现以下效果：首先，通过图像提取面部特征向量，以及通过语音预测系列表情参数；然后，通过图像及动作视频确定驱动的系列关键点参数；然后，通过面部特征向量、系列表情参数及系列关键点参数生成与动作视频匹配的系列图像；最后，根据语音及与动作视频匹配的系列图像生产按照预设的语音及动作变化的视频文件，生动逼真，操作简单且便于推广。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是本申请提供的一种语音及动作驱动图像的方法的步骤流程示意图；

图2是本申请提供的一种根据语音预测系列表情参数的步骤流程示意图；

图3是本申请提供的一种通过表情预测模型预测表情参数的步骤流程示意图；

图4是本申请提供的一种根据图像及动作视频确定驱动的系列关键点参数的步骤流程示意图；

图5是本申请提供的一种关键点检测模型的结构示意图；

图6是本申请提供的一种根据动作视频及图像确定动作视频中与图像最相似的图像帧的步骤流程示意图；

图7是本申请提供的一种根据最相似的图像帧的关键点参数、图像的关键点参数及动作视频的系列关键点参数确定驱动的系列关键点参数的步骤流程示意图；

图8是本申请提供的一种根据面部特征向量、驱动的系列关键点参数及系列表情参数对应生成系列图像的步骤流程示意图；

图9是本申请提供的一种通过人物生成模型生成图像的步骤流程示意图；

图10是本申请提供的另一种语音及动作驱动图像的方法的步骤流程示意图；

图11是本申请提供的一种语音及动作驱动图像的系统的结构示意图；

图12是本申请提供的一种语音及动作驱动图像的装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在系统示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于系统中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

下面结合附图，对本申请实施例作进一步阐述。

参考图1，本发明实施例提供了一种语音及动作驱动图像的方法，包括步骤：

S100、获取语音、动作视频及图像；

S200、根据所述图像提取面部特征向量，以及根据所述语音预测系列表情参数；

S300、根据所述图像及所述动作视频确定驱动的系列关键点参数；

S400、根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像；

S500、根据所述语音及所述系列图像生成视频文件。

需要说明的是，语音不限语种和形式，如语种包括中文、英文或日文等，如形式包括录制、合成或从网络获取等形式，本发明实施例对语音的语种或形式等不做限制，可根据具体情况进行设置。

本领域技术人员可以理解的是，动作视频可以是自己拍摄的，可以是网络视频，也可以与输入的人物无关的视频，本发明实施例对语音的语种或形式等不做限制，可根据具体情况进行设置。

需要说明的是，图像是指一种静态的图像，图像的对象包括但不限于人物图像、动漫人物图像或动物图像等；图像可以是不同角度的图像，如正面照或侧面照等；图像的形式包括但不限于证件照、自拍照或采用生成式对抗网络合成的照片等。本发明实施例对图像的对象、角度或形式等不做限制，可根据具体情况进行设置。

本领域技术人员可以理解的是，以人物图像为例，通过人脸识别模型对人物图像提取面部特征向量。由于提供的人物图像可能是从不同角度拍摄的，在定位目标时可能会出现误判，将同一个人不同角度的图像判断为不同的人。因此，本实施例使用脸部特征点估计算法，找到人脸的68个特征点，其中，包括眼睛、鼻子、嘴巴和面部轮廓；找到脸部特征点后，无论人脸的朝向如何，根据眼睛和嘴巴的位置，将若干人脸检测结果组中的人脸区域进行仿射变换(如旋转，缩放和剪切图像)，使人脸区域中人脸的眼睛和嘴巴在预设的位置范围，得到扭曲后的人脸检测结果组，一般预设的位置范围位于人脸的中部。此时，人脸的眼睛和嘴巴位于人脸的中部，定位更准确。将扭曲后的人脸检测结果组输入训练好的深度卷积神经网络模型，得到若干128维度的人脸特征向量f。

需要说明的是，相对于人脸识别模型采用的脸部特征点估算算法，人物的关键点参数检测采用了U-Net网络。通过输入一张人物图片，采用无监督训练，获取K个关键点(x，K×3的矩阵)和关键点对应的Jacobians(J，雅可比矩阵，K×3×3的矩阵)。K可设为10～30，它允许操作3D空间中的关键点，合成过程中可以旋转并平移人物的头部。雅可比矩阵表示如何通过仿射变换将关键点周围的局部区域转换为生成图像中的对应区域。

上述语音及动作驱动图像的工作过程如下：首先，从外界获取被驱动的静态图像，以及用于驱动静态图像的语音及动作视频；然后，通过人脸识别模型从图像中提取面部特征向量，以及通过语音预测系列表情参数；然后，根据图像及动作视频确定驱动的系列关键点参数；然后，根据面部特征向量、驱动的系列关键点参数及系列表情参数对应生成系列图像；最后，根据语音及系列图像生成视频文件。

参考图2，根据所述语音预测系列表情参数，包括步骤：

S210、将所述语音通过音频处理单元提取声音频谱图；

S220、将所述声音频谱图通过声音编码器提取声音特征；

S230、将所述声音特征通过线性层预测系列表情参数。

具体地，语音通过表情预测模型预测表情参数，如图3所示，表情预测模型包括音频处理单元、声音编码器及线性层构成。首先，语音通过音频处理单元提取声音频谱图；然后，声音编码器通过卷积声音频谱图提取声音特征，其中，声音编码器由多个下采样DownBlock层组成；最后，提取的声音特征通过线性层预测系列表情参数δa。

参考图4，所述根据所述图像及所述动作视频确定驱动的系列关键点参数，包括步骤：

S310、对所述动作视频的每一帧图像进行检测得到动作视频的系列关键点参数，以及对所述图像进行检测得到关键点参数；

S320、根据所述动作视频及所述图像确定所述动作视频中与所述图像最相似的图像帧，并对所述最相似的图像帧进行检测得到最相似的图像帧的关键点参数；

S330、根据所述最相似的图像帧的关键点参数、所述图像的关键点参数及所述动作视频的系列关键点参数确定驱动的系列关键点参数。

具体地，关键点参数包括关键点及关键点对应的雅可比矩阵，如图5所示，获取图像的关键点及关键点对应的Jacobians具体过程如下：输入人物图像，如大小为256x256，首先经过多个DownBlock模块进行卷积的下采样操作，如DownBlock-64、DownBlock-128、DownBlock-256、DownBlock-512及DownBlock-1024模块；再经过一个一维卷积并进行矩阵变换；然后输入到多个UpBlock模块进行卷积的上采样操作，UpBlock-512、UpBlock-256、UpBlock-128、UpBlock-64及UpBlock-32模块，得到K个关键点(x，K×3的矩阵)和关键点对应的Jacobians(J，雅可比矩阵，K×3×3的矩阵)。

参考图6，所述根据所述动作视频及所述图像确定所述动作视频中与所述图像最相似的图像帧，包括步骤：

S321、对所述动作视频的每一帧图像进行提取得到系列面部特征点，以及对所述图像进行提取得到图像的面部特征点；

S322、确定所述系列面部特征点与所述图像的面部特征点的系列均方误差；

S323、确定所述系列均方误差中的最小值对应的图像帧为与所述图像最相似的图像帧。

具体地，首先，对动作视频的每一帧图像采用人脸识别模型获取每一帧图像的68个特征点，即可以得到动作视频的一系列面部特征点{keypoint₁，keypoint₂，...，keypoint_n}，对图像采用人脸识别模型获取图像的面部特征点keypoint_s；然后，采用MSE(Mean Square Error，均方误差)算法计算静态人物图像的特征点与动作视频的系列面部特征点之间的值，第t帧的MSE值的具体计算公式如下：

其中，MSET_t表示第t帧图像的均方误差，keypoint_n，Dt表示动作视频的第t帧图像的第n个特征点，keypoint_n，s表示静态人物图像的第n个特征点，N表示特征点的数量。

最后，从系列均方误差中找出最小值对应的图像帧，并将最小值对应的图像帧作为图像最相似的图像帧Frame_best。

参考图7，根据所述最相似的图像帧的关键点参数、所述图像的关键点参数及所述动作视频的系列关键点参数确定驱动的系列关键点参数，包括步骤：

S331、根据所述动作视频的系列关键点参数及所述图像最相似的图像帧的关键点参数确定第一系列关键点参数；

S332、根据所述第一系列关键点参数与所述图像的关键点参数确定所述驱动的系列关键点参数。

具体地，静态图像Frame_S的3D关键点x_S及其雅可比矩阵J_S，与图像最相似的图像帧Frame_best的3D关键点x_best及其关键点对应的雅可比矩阵J_best，动作视频的系列关键点x_D及其系列关键点对应的系列雅可比矩阵J_D，动作视频的第t帧图像Frame_t的3D关键点x_t及其雅可比矩阵J_t，驱动的系列第t帧图像关键点参数中的3D关键点x'_t的计算公式如下：

x_diff＝x_t-x_best

x'_t＝x_diff+x_S

驱动的系列第t帧图像关键点参数中的3D关键点对应的雅可比矩阵J'_t的计算公式如下：

J_diff＝J_t*inv(J_best)

J'_t＝J_diff*J_S

其中，x_diff及J_diff分别表示第一系列关键点参数(x_D，J_D)第t帧图像关键点参数中的3D关键点及其关键点对应的雅可比矩阵的相对变化量。

参考图8，所述根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像，包括步骤：

S410、根据所述驱动的系列关键点参数及所述系列表情参数对应生成第一系列特征参数；

S420、根据所述第一系列特征参数及所述面部特征向量生成系列图像。

具体地，通过人物生成模型生成系列图像，如图9所示，人物生成模型包括参数编码器及图像解码器；关键点x、关键点对应的雅可比矩阵J及表情参数δ先经过参数编码器后生成第一特征参数，第一特征参数再与特征向量f经过图像解码器生成图像。当关键点参数及表情参数均取值为系列值时，如，关键点参数系列为x_D，J_D，表情参数系列为δa，经过人物生成模型会生成系列图像。

需要说明的是，最终生成的第t帧与声音同步的人物表情及唇型图像Frame't，根据不同的使用需求，可包括但不限于96x96、128x128、256x256及512x512等。

需要说明的是，当语音及动作视频的长度不匹配时，对语音及视频动作处理之前，先对动作视频截取合适的长度，然后对语音及动作视频进行长度匹配。语音及动作视频进行长度匹配的具体方法如下：获取动作视频的第一长度；获取语音的第二长度；根据第一长度与第二长度的长度差异，对动作视频和/或语音进行变速处理，得到长度匹配的原始视频和合成语音。具体地，通过比较动作视频及语音长度，确定变速参数；对动作视频进行检测，根据动作幅度的大小，对动作视频不同片段进行不同的变速参数调整，如动作幅度较大的，变速参数可调大些，而动作幅度较小的，变速参数可调小些。

参阅图10，以一个具体实施例说明上述语音驱动图像的具体过程：首先，获取一张图像、一段语音及一段动作；然后，将图像经过人脸识别模型后得到面部特征向量f，并对图像进行关键点检测得到关键点x及关键点对应的雅可比矩阵J；然后，对语音及动作视频进行长度匹配，对匹配好长度的动作视频的每一帧图像进行关键点检测，得到系列关键点x_D及系列关键点对应的系列雅可比矩阵J_D，并根据图像的关键点x、关键点对应的雅可比矩阵J、动作视频的系列关键点x_D及系列关键点对应的系列雅可比矩阵J_D确定驱动的系列关键点参数(x'_t，J'_t)；然后，将语音通过表情预测模型预测系列表情参数δa；然后，根据面部特征向量f、驱动的系列关键点参数(x'_t，J'_t)及系列表情参数δa通过人物生成模型生成系列图像{Frame'1，Frame'2，...，Frame'n}；最后，根据系列图像{Frame'1，Frame'2，...，Frame'n}及语音生成视频文件。

下面以一个具体实施例说明语音及动作驱动图像的方法，具体包括以下步骤：

(1)选取一张人物图片，如某明星的照片；

(2)选择指定要说的内容(如“牛年大吉”)，要说的内容是一段语音，该语音可以自行录制，也可以通过语音合成得到；

(3)选择指定展示的动作，动作视频可以自行录制或者找现有的一段与音频差不多时长的动作；

(4)对人物图片进行人物特征提取，得到面部特征向量f，关键点x及关键点对应的雅可比矩阵J；

(5)对语音及动作进行长度匹配，得到匹配后的语音及动作；

(6)假如匹配后的语音长度为2秒，指定视频帧率为25fps，将语音输入到表情预测模型得到50组表情参数δa，将匹配后的动作视频，进行人物关键点提取，得到50组3D关键点x_D及其雅可比矩阵J_D；

(7)根据关键点x及关键点对应的雅可比矩阵J，动作视频的系列关键点x_D及其雅可比矩阵J_D生成驱动的系列关键点x'_t及其雅可比矩阵J'_t，并将特征向量f、语音对应的系列表情参数δa、驱动的系列关键点x'_t及其雅可比矩阵J'_t输入到人物生成模型生成50张系列图像；

(8)通过ffmpeg等工具，将图像及语音合并成视频，即可得到某明星展现指定动作并对你说“牛年大吉”的短视频。

参阅图11，本发明实施例提供了一种语音及动作驱动图像的系统，包括：

获取模块，用于获取语音、动作视频及图像；

第二处理模块，用于根据所述语音、所述图像及所述动作视频确定驱动的系列关键点参数；

参照图12，图12是本发明一个实施例提供的控制装置110的结构示意图。本发明实施例的控制装置110内置于计算机或服务器等设备中，包括一个或多个控制处理器1101和存储器1102，图12中以一个控制处理器1101及一个存储器1102为例。

控制处理器1101和存储器1102可以通过总线或者其他方式连接，图12中以通过总线连接为例。

存储器1102作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器1102可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器1102可选包括相对于控制处理器1101远程设置的存储器1102，这些远程存储器1102可以通过网络连接至该控制装置110。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本领域技术人员可以理解，图12中示出的装置结构并不构成对控制装置110的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

实现上述实施例中应用于控制装置110的控制方法所需的非暂态软件程序以及指令存储在存储器1102中，当被控制处理器1101执行时，执行上述实施例中应用于控制装置110的控制方法，例如，执行以上描述的图1中的方法步骤S100至步骤S500、图2中的方法步骤S210至步骤S230、图4中的方法步骤S310至步骤S330、图6中的方法步骤S321及步骤S323、图7中的方法步骤S331及步骤S332、图8中的方法步骤S410及步骤S420。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行程序，该计算机可执行程序被一个或多个控制处理器执行，例如，被图12中的一个控制处理器1101执行，可使得上述一个或多个控制处理器1101执行上述方法实施例中的控制方法，如，执行以上描述的图1中的方法步骤S100至步骤S500、图2中的方法步骤S210至步骤S230、图4中的方法步骤S310至步骤S330、图6中的方法步骤S321及步骤S323、图7中的方法步骤S331及步骤S332、图8中的方法步骤S410及步骤S420。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种语音及动作驱动图像的方法，其特征在于，包括步骤：

获取语音、获取动作视频及获取图像；

根据获取的图像提取面部特征向量，以及根据所述语音预测系列表情参数；

根据所述获取的图像及所述动作视频确定驱动的系列关键点参数；

根据所述语音及所述系列图像生成视频文件；

其中，所述根据所述获取的图像及所述动作视频确定驱动的系列关键点参数，具体包括：

对所述动作视频的每一帧图像进行检测得到动作视频的系列关键点参数，以及对所述获取的图像进行检测得到关键点参数；

根据所述动作视频及所述获取的图像确定所述动作视频中与所述获取的图像最相似的图像帧，并对所述最相似的图像帧进行检测得到最相似的图像帧的关键点参数；

根据所述最相似的图像帧的关键点参数、所述获取的图像的关键点参数及所述动作视频的系列关键点参数确定驱动的系列关键点参数；

其中，所述根据所述动作视频及所述获取的图像确定所述动作视频中与所述获取的图像最相似的图像帧，具体包括：

对所述动作视频的每一帧图像进行提取得到系列面部特征点，以及对所述获取的图像进行提取得到图像的面部特征点；

确定所述系列面部特征点与所述获取的图像的面部特征点的系列均方误差；

确定所述系列均方误差中的最小值对应的图像帧为与所述获取的图像最相似的图像帧。

2.根据权利要求1所述的语音及动作驱动图像的方法，其特征在于，根据所述最相似的图像帧的关键点参数、所述获取的图像的关键点参数及所述动作视频的系列关键点参数确定驱动的系列关键点参数，包括步骤：

根据所述动作视频的系列关键点参数及所述最相似的图像帧的关键点参数确定第一系列关键点参数；

根据所述第一系列关键点参数与所述获取的图像的关键点参数确定所述驱动的系列关键点参数。

3.根据权利要求1所述的语音及动作驱动图像的方法，其特征在于，根据所述语音预测系列表情参数，包括步骤：

将所述语音通过音频处理单元提取声音频谱图；

将所述声音频谱图通过声音编码器提取声音特征；

将所述声音特征通过线性层预测系列表情参数。

4.根据权利要求1所述的语音及动作驱动图像的方法，其特征在于，所述根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像，包括步骤：

5.根据权利要求1-4任一项所述的语音及动作驱动图像的方法，其特征在于，所述方法还包括步骤：对所述语音及所述动作视频进行长度匹配。

6.一种语音及动作驱动图像的系统，其特征在于，包括：

获取模块，用于获取语音、获取动作视频及获取图像；

第一处理模块，用于根据获取的图像提取面部特征向量，以及根据所述语音确定系列表情参数；

第二处理模块，用于根据所述获取的图像及所述动作视频确定驱动的系列关键点参数；

第二生成模块，用于根据所述语音及所述系列图像生成视频文件；

7.一种语音及动作驱动图像的装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-5中任一项所述的方法。

8.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1-5任一项所述的方法。