CN109087380B

CN109087380B - 一种漫画动图生成方法、装置及存储介质

Info

Publication number: CN109087380B
Application number: CN201810872328.0A
Authority: CN
Inventors: 钟宜峰; 马杰; 赵璐; 莫东松; 张进
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2023-10-20
Anticipated expiration: 2038-08-02
Also published as: CN109087380A

Abstract

本发明公开了一种漫画动图生成方法，包括：向卷积神经网络模型中输入第一图像，第一图像用于表征真实人脸，第一图像至少包括真实人脸的表情信息；接收卷积神经网络模型输出的与第一图像对应的第二图像，以及与真实人脸的表情对应的第一差异向量；第二图像用于表征漫画人脸，漫画人脸与真实人脸相对应，第二图像至少包括漫画人脸的表情信息，第一差异向量用于表征以漫画人脸在第二图像中的表情为表情起点的连续变化的表情对应的多帧图像与其前一帧图像之间的图像差异；基于第二图像和第一差异向量，生成以第二图像为起始帧的包括漫画人脸连续变化表情的漫画动图。本发明还公开了一种漫画动图生成装置和存储介质。

Description

一种漫画动图生成方法、装置及存储介质

技术领域

本发明涉及图像生成技术，尤其涉及一种漫画动图生成方法、装置及存储介质。

背景技术

现有技术在对图像的转换处理的过程中，仅能根据单一的真实图像生成相应的单一漫画，缺乏生成漫画动图的有效手段，同时，在由真实图像生成相应漫画的过程中缺乏对真实图像变化的预测。

发明内容

本发明实施例提供一种漫画动图生成方法及装置，能够通过用户所输入的表征真实人脸的图像生成包括漫画人脸连续变化表情的漫画动图。

本发明实施例的技术方案是这样实现的：

本发明是实施例提供了一种漫画动图生成方法，所述方法包括：

向卷积神经网络模型中输入第一图像，所述第一图像用于表征真实人脸，所述第一图像至少包括所述真实人脸的表情信息；

接收所述卷积神经网络模型输出的与所述第一图像对应的第二图像，以及与所述真实人脸的表情对应的第一差异向量；

所述第二图像用于表征漫画人脸，所述漫画人脸与所述真实人脸相对应，所述第二图像至少包括所述漫画人脸的表情信息，所述第一差异向量用于表征以所述漫画人脸在所述第二图像中的表情为表情起点的连续变化的表情对应的多帧图像与其前一帧图像之间的图像差异；

基于所述第二图像和所述第一差异向量，生成以所述第二图像为起始帧的包括所述漫画人脸连续变化表情的漫画动图。

上述方案中，

所述第一差异向量的数量为至少两个；

所述基于所述第二图像和所述第一差异向量，生成以所述第二图像为起始帧的包括所述漫画人脸连续变化表情的漫画动图，包括：

基于所述第二图像和所述第一差异向量，得到预设数量的图像，其中，所述预设数量的图像包含以所述漫画人脸在所述第二图像中的表情为表情起点的连续变化的表情；

基于所述第二图像以及所述预设数量的图像，生成漫画动图。

上述方案中，

所述第一差异向量是由所述卷积神经网络模型基于输入的前一帧图像以及前一帧图像对应的指定第一差异向量得到的，其中，所述前一帧图像对应的指定第一差异向量用于表征所述前一帧图像的后一帧图像与所述前一帧图像之间的图像差异，所述前一帧图像的后一帧图像与所述前一帧图像包含连续变化的表情。

上述方案中，

所述方法还包括：

对所述卷积神经网络模型进行训练；

其中，所述对所述卷积神经网络模型进行训练包括：

根据第三图像以及第四图像对所述卷积神经网络模型进行第一阶段的训练，以实现根据包含真实人脸的图像得到对应的包含漫画人脸的图像，其中，所述第三图像为漫画人脸图像、所述第四图像为真实人脸图像；

根据第一媒体文件，对所述卷积神经网络模型进行第二阶段的训练，以实现根据真实人脸的连续变化的表情，得到表征与所述真实人脸对应的漫画人脸的连续表情变化的图像之间的差异向量；其中，所述媒体文件包括真实人脸连续变化的表情，所述媒体文件至少包括动图或视频。

上述方案中，

所述根据第三图像以及第四图像对所述卷积神经网络模型进行第一阶段的训练，包括：

基于所述第三图像以及第四图像，确定所述卷积神经网络模型中的第一参数，其中，所述第一参数用于使所述卷积神经网络模型基于输入的包含真实人脸的图像，输出对应的包含漫画人脸的图像，以及基于输入的包含漫画人脸的图像输出对应的包含漫画人脸的图像。

上述方案中，

所述卷积神经网络模型中的第一参数至少包括第一提取参数、第二提取参数，以及第三提取参数，其中，所述第一提取参数用于使所述卷积神经网络模型对所述第三图像的图像特征和所述第四图像的图像特征的第一提取结果进行调整；所述第二提取参数用于使所述卷积神经网络模型对所述媒体文件中的连续两帧图像对应的图像特征点差值的第二提取结果进行调整；所述第三提取参数用于使所述卷积神经网络模型对目标特征的第三提取结果进行调整，所述目标特征为基于所述第一提取结果和所述第二提取结果确定的特征。

上述方案中，

所述根据采集的媒体文件，对所述卷积神经网络模型进行第二阶段的训练，包括：

基于所述采集的媒体文件，确定所述卷积神经网络模型中的第二参数，其中，所述第二参数用于使所述卷积神经网络模型基于输入的包含真实人脸的连续变化表情的媒体文件输出最小的对应差异偏差值，所述对应差异偏差值为所述媒体文件中包含所述真实人脸的连续变化表情的图像之间的图像特征点差值，与包含漫画人脸的连续变化表情的图像之间的图像特征点差值之间的偏差值，所述漫画人脸与所述真实人脸相对应。

上述方案中，

所述基于所述媒体文件，确定所述卷积神经网络模型中的第二参数，包括：

获取所选择的媒体文件中连续两帧图像的图像特征点差值；

将所获取的所述连续两帧图像的图像特征点差值输入所述卷积神经网络模型中，得到所述卷积神经网络模型输出的第二差异向量；

根据所获取的所述连续两帧图像的图像特征点差值，与所述第二差异向量，确定所述差异损失值；

基于所述差异损失值确定所述对应差异偏差值；

根据最小的所述对应差异偏差值，确定所述卷积神经网络模型中的第二参数。

本发明是实施例还提供了一种漫画动图生成装置，所述装置包括：

图像收发模块，用于向卷积神经网络模型中输入第一图像，所述第一图像用于表征真实人脸，所述第一图像至少包括所述真实人脸的表情信息；

所述图像收发模块，用于接收所述卷积神经网络模型输出的与所述第一图像对应的第二图像，以及与所述真实人脸的表情对应的第一差异向量；

所述第二图像用于表征漫画人脸，所述漫画人脸与所述真实人脸相对应，所述第二图像至少包括所述漫画人脸的表情信息，所述第一差异向量用于表征以所述漫画人脸的表情为表情起点的连续变化的表情对应的多帧图像与其前一帧图像之间的图像差异；

图像处理模块，用于基于所述第二图像和所述第一差异向量，生成以所述第二图像为起始帧的包括所述漫画人脸连续变化表情的漫画动图。

处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行以下操作：

本发明是实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行：

所述第二图像用于表征漫画人脸，所述漫画人脸与所述真实人脸相对应，所述第二图像至少包括所述漫画人脸的表情信息，所述第一差异向量用于表征以所述漫画人脸的表情为表情起点的连续变化的表情对应的多帧图像与其前一帧图像之间的图像差异向量；

本发明实施例中，通过向卷积神经网络模型中输入第一图像，可以接收所述卷积神经网络模型输出的与所述第一图像对应的第二图像，以及与所述真实人脸的表情对应的第一差异向量；进一步的，利用所述卷积神经网络模型，基于所述第二图像和所述第一差异向量，生成以所述第二图像为起始帧的包括所述漫画人脸连续变化表情的漫画动图。

附图说明

图1是本发明实施例提供的漫画动图生成方法的一个可选的过程示意图；

图2是本发明实施例提供的漫画动图生成方法的一个可选的训练过程示意图；

图3是本发明实施例提供的一种可选的第一阶段的训练过程示意图；

图4是本发明实施例提供的一种可选的第二阶段的训练过程示意图；

图5是本发明实施例提供的漫画动图生成装置的一个可选的结构示意图；

图6是本发明实施例提供的漫画动图生成方法的一个可选的过程示意图；

图7为本发明实施例漫画动图生成装置一个组成示意图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

对本发明进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)第一图像，用于表征真实人脸，其中至少包括所述真实人脸的表情信息，所述第一图像一种可选的表示为照片。

2)第二图像，用于表征漫画人脸，至少包括漫画人脸的表情信息。

3)第三图像，用于表征任意一帧漫画人脸图像；

4)第四图像，用于表征任意一帧真实人脸图像

5)第一差异向量，用于表征以所述漫画人脸在所述第二图像中的表情为表情起点的连续变化的表情对应的多帧图像与其前一帧图像之间的图像差异。

图1是本发明实施例提供的漫画动图生成方法的一个可选的过程示意图，如图1所示，本发明实施例提供的漫画动图生成方法的一个可选的过程包括以下步骤：

步骤101：向卷积神经网络模型中输入第一图像。

其中，所述第一图像用于表征真实人脸，所述第一图像至少包括所述真实人脸的表情信息；

步骤102：接收所述卷积神经网络模型输出的与所述第一图像对应的第二图像，以及与所述真实人脸的表情对应的第一差异向量。

其中，所述第一差异向量的数量为至少两个；

步骤103：基于所述第二图像和所述第一差异向量，生成以所述第二图像为起始帧的包括所述漫画人脸连续变化表情的漫画动图。

在本发明的一个实施例中，所述基于所述第二图像和所述第一差异向量，生成以所述第二图像为起始帧的包括所述漫画人脸连续变化表情的漫画动图，包括：基于所述第二图像和所述第一差异向量，得到预设数量的图像，其中，所述预设数量的图像包含以所述漫画人脸在所述第二图像中的表情为表情起点的连续变化的表情；基于所述第二图像以及所述预设数量的图像，生成漫画动图。

在本发明的一个实施例中，所述第一差异向量是由所述卷积神经网络模型基于输入的前一帧图像以及前一帧图像对应的指定第一差异向量得到的，其中，所述前一帧图像对应的指定第一差异向量用于表征所述前一帧图像的后一帧图像与所述前一帧图像之间的图像差异，所述前一帧图像的后一帧图像与所述前一帧图像包含连续变化的表情。

图2是本发明实施例提供的漫画动图生成方法的一个可选的训练过程示意图，如图2所示，在漫画动图生成过程中需要对所使用的卷积神经网络模型进行训练，具体的所述对所述卷积神经网络模型进行训练包括：

根据媒体文件，对所述卷积神经网络模型进行第二阶段的训练，以实现根据真实人脸的连续变化的表情，得到表征与所述真实人脸对应的漫画人脸的连续表情变化的图像之间的差异向量；其中，所述媒体文件包括真实人脸连续变化的表情，所述媒体文件至少包括动图和视频。

本发明实施例提供的漫画动图生成方法的一个可选的训练过程包括以下步骤：

步骤201：对所述卷积神经网络模型进行第一阶段训练。

步骤202：对所述卷积神经网络模型进行第二阶段训练。

步骤203：根据对所述卷积神经网络模型的训练结果，调整所述卷积神经网络模型的参数。

在本发明的一个实施例中，所述根据第三图像以及第四图像对所述卷积神经网络模型进行第一阶段的训练，包括：

基于所述第三图像以及第四图像，确定所述卷积神经网络模型中的第一参数，其中，所述提取参数用于使所述卷积神经网络模型基于输入的包含真实人脸的图像输出对应的包含漫画人脸的图像，以及基于输入的包含漫画人脸的图像输出对应的包含漫画人脸的图像。

在本发明的一个实施例中，所述卷积神经网络模型中的第一参数至少包括第一提取参数、第二提取参数，以及第三提取参数，其中，所述第一提取参数用于使所述卷积神经网络模型对所述第三图像的图像特征和所述第四图像的图像特征的第一提取结果进行调整；所述第二提取参数用于使所述卷积神经网络模型对所述媒体文件中的连续两帧图像对应的图像特征点差值的第二提取结果进行调整；所述第三提取参数用于使所述卷积神经网络模型对目标特征的第三提取结果进行调整，所述目标特征为基于所述第一提取结果和所述第二提取结果确定的特征。

在本发明的一个实施例中，所述，所述根据媒体文件，对所述卷积神经网络模型进行第二阶段的训练，包括：

基于所述媒体文件，确定所述卷积神经网络模型中的第二参数，其中，所述第二参数用于使所述卷积神经网络模型基于输入的包含真实人脸的连续变化表情的媒体文件输出最小的对应差异偏差值，所述对应差异偏差值为所述媒体文件中包含所述真实人脸的连续变化表情的图像之间的图像特征点差值，与包含漫画人脸的连续变化表情的图像之间的图像特征点差值之间的偏差值，所述漫画人脸与所述真实人脸相对应。

进一步的，所述基于所述媒体文件，确定所述卷积神经网络模型中的第二参数，包括：

获取所选择的媒体文件中连续两帧图像的图像特征点差值；

基于所述差异损失值确定所述对应差异偏差值；

图3是本发明实施例提供的一种可选的第一阶段的训练过程示意图，如图3所示，本发明实施例提供的一种可选的第一阶段的训练过程包括以下步骤：

步骤301：将待提取的图像输入卷积神经网络模型；

步骤302：通过所述卷积神经网络模型提取所述图像的图像特征,；

步骤303：将与待提取的图像对应的图像差异向量输入所述卷积神经网络模型；

步骤304：对所述卷积神经网络模型进行第一阶段的训练。

在本发明的一个实施例中，服务器在对所述卷积神经网络模型进行第一训练阶段的训练时，可以向所述卷积神经网络模型中输入一张真实人脸图像，以及一张漫画人脸图像，其中，该漫画人脸图像以及该真实人脸图像可以为服务器从采集到的人脸图像中随机选择的，该漫画人脸图像与该真实人脸图像之间可以存在关联关系，如都对应同一张人脸，

进一步的，所述真实人脸图像，以及一张漫画人脸图像也可以不存在关联关系，可以从服务器对应的数据库中随机选择所述真实人脸图像，以及一张漫画人脸图像。

进一步的，在将所述真实人脸图像以及漫画人脸图像输入到所述卷积神经网络模型中后，所述卷积神经网络模型的输入层可以分别从该真实人脸图像以及该漫画人脸图像中提取相应的图像特征，优选的，在提取相应的图像特征时，可以基于所述卷积神经网络模型的四层卷积网络来分别提取该真实人脸图像以及该漫画人脸图像中的相应图像特征。

在本发明的一个实施例中，可以首先对所述卷积神经网络模型的四层卷积网络中用于提取相应图像特征的第一提取参数进行预设，然后，基于预设的第一提取参数对应的四层卷积网络来分别从真实人脸图像以及漫画人脸图像中提取各自相应的图像特征。优选的，从真实人脸图像中所提取图像特征时对应的四层卷积网络预设的第一提取参数，与从漫画人脸图像中提取图像特征时对应的四层卷积网络预设的第一提取参数相同。

在本发明的一个实施例中，为使得提取出的图像特征更收敛，可以分别通过所述卷积神经网络模型的批标准化层和激活函数层对所提取图像的图像特征进行收敛。

在本发明的一个实施例中，所述卷积神经网络模型在基于四层卷积网络来分别从真实人脸图像以及漫画人脸图像中提取相应的图像特征时，可以均得到对应的四层特征，其中，所得到的四层图像的特征中的每层图像的特征可以为64维图像特征。

在本发明的一个实施例中，服务器在对所述卷积神经网络模型进行第一训练阶段的训练时，还可以先从媒体文件中随机选择任一视频或动图，其中，所述媒体文件包括真实人脸连续变化的表情，所述媒体文件至少包括动图或视频。该视频或动图中的人脸，与上述输入的漫画人脸图像或真实人脸图像之间可以存在关联关系，如都对应同一张人脸，也可以不存在关联关系。进一步的，在选择了视频或动图后，可以获取视频或动图中的每一帧图像与其后一帧图像的图像差异向量，服务器可以将获取的图像差异向量输入到所述卷积神经网络模型中。

在本发明的一个实施例中，服务器在获取视频或动图中的每一帧图像与其后一帧图像的图像差异向量时，可以先获取视频或动图中的每帧图像的每个像素点对应的RGB三维矩阵值，然后，服务器可以将每帧图像的每个像素点对应的RGB三维矩阵值，与其前一帧图像的对应的位置相同的像素点对应的RGB三维矩阵值进行相减，得到与该帧图像对应的图像差异向量。在得到视频或动图中的每一帧图像对应的图像差异向量后，服务器可以将得到的该视频或动图对应的所有图像差异向量输入到所述卷积神经网络模型中。

在将图像差异向量输入到所述卷积神经网络模型后，所述卷积神经网络模型可以从相应的图像差异向量中提取动态特征。其中，在提取动态特征时，所述卷积神经网络模型的输入层可以基于现有的三层卷积网络来从该图像差异向量中提取动态特征。

在本发明的一个实施例中，模型可以先对三层卷积网络中用于提取动态特征的第二提取参数进行预设，然后，基于预设的第二提取参数对应的三层卷积网络来从该图像差异向量中提取动态特征。优选的，所述卷积神经网络模型在基于三层卷积网络从该图像差异向量中提取动态特征时，可以得到对应的三层动态特征，此时，所述卷积神经网络模型可以仅保留最后一层特征，以表征所提取的动态特征，所述卷积神经网络模型可以通过核解码器来将该保留的最后一层特征划分为维数相同的4段，以加快提取过程的处理速度。优选的，所述卷积神经网络模型保留的最后一层特征可以为1280维，在划分为4段后，每段特征对应的维数可以为320维。

在本发明的一个实施例中，在得到真实人脸图像对应的四层图像特征、漫画人脸对应的四层图像特征，以及被划分为四段的一层动态特征后，模型可以分别对真实人脸图像和得到的动态特征，以及对漫画人脸图像和得到的动态特征进行联合卷积。具体地，模型可以先分别对真实人脸图像对应的图像特征和得到的动态特征，以及漫画人脸图像对应的图像特征和得到的动态特征进行拼接，得到两个拼接后的特征。

在本发明的一个实施例中，在对真实人脸图像对应的图像特征和得到的动态特征，或漫画人脸图像对应的图像特征和得到的动态特征进行拼接时，可以将真实人脸图像或漫画人脸图像对应的四层图像特征中的每层图像特征分别与任一段一层动态特征进行拼接，其中，不同层的图像特征可以与不同段的动态特征进行拼接。在将一层64维的图像特征与一层320维的动态特征拼接后，可以得到一层384维的特征，在将四层的图像特征与四段一层的动态特征进行拼接后，可以得到4层384维的特征，而在分别将真实人脸图像对应的图像特征和动态特征，以及漫画人脸图像对应的图像特征和动态特征进行拼接后，可以得到两个4层384维的特征。在得到两个拼接后的特征之后，模型可以分别从该两个拼接后的特征中，提取出目标特征，其中，在提取目标特征时，模型可以基于现有的五层卷积网络来从该两个拼接后的特征中提取出两个目标特征。

在本发明的一个实施例中，所述卷积神经网络模型在基于五层卷积网络从拼接后的四层特征中提取目标特征时，可以基于五层卷积网络分别对每层特征进行提取，在对每层特征进行提取后，所述卷积神经网络模型可以得到对应的五层的特征，此时，模型可以在得到的五层特征中，仅对最后一层特征进行保留，由此实现了在基于五层卷积网络对四层特征均进行提取后，可以得到对应的四层目标特征。

在本发明的一个实施例中，所述卷积神经网络模型可以先对上述五层卷积网络中用于提取目标特征的第三提取参数进行预设，然后，基于预设的第三提取参数对应的五层卷积网络来分别从真实人脸图像对应的拼接后的特征，以及从漫画人脸图像对应的拼接后的特征中提取目标特征。在得到真实人脸图像对应的四层目标特征，以及漫画人脸对应的四层目标特征后，模型可以分别对该两个目标特征进行上采样处理。

在本发明的一个实施例中，模型在对目标特征进行上采样处理时，可以基于逆卷积网络来进行上采样处理，以实现对所述目标特征的压缩，以使所述卷积神经网络模型能够处理分辨率较高的图像，同时提升对分辨率较高的模型的处理速度。在得到两个经上采样处理后的目标特征后，所述卷积神经网络模型可以从该两个经上采样处理的目标特征中获取对应的可用于生成漫画图像的特征，然后，基于获取到可用于生成漫画图像的特征来生成两帧相应的图像，判断所生成的两帧图像是否均为漫画图像，若均为漫画图像，则可以确定上述使用的卷积网络对应的第一提取参数、第二提取参数以及第三提取参数为有效参数；反之，则可以确定上述使用的卷积网络对应的第一提取参数、第二提取参数以及第三提取参数为无效参数。

在本发明的一个实施例中，在上述判断该生成的两帧图像是否均为漫画图像时，可以通过图像判断器进行判断，图像判断器可以由一个多层卷积网络后接softmax分类器来构成。由在确定上述使用的卷积网络对应的第一提取参数、第二提取参数以及第三提取参数为有效参数后，服务器可以对模型进行第二训练阶段的训练。其中，服务器在对模型进行第二训练阶段的训练时，可以保持上述使用的卷积网络对应的参数、第二提取参数以及第三提取参数不变，并在训练过程中，对上述卷积网络对应的其余参数进行训练。

图4是本发明实施例提供的一种可选的第二阶段的训练过程示意图，如图4所示，本发明实施例提供的一种可选的第二阶段的训练过程包括以下步骤：

步骤401：将待提取的媒体文件的图像输入卷积神经网络模型；

步骤402：通过所述卷积神经网络模型提取所述媒体文件图像的图像特征；

步骤403：将与待提取的媒体文件的图像对应的图像差异向量输入所述卷积神经网络模型；

步骤404：对所述卷积神经网络模型进行第二阶段的训练。

通过所述第二阶段的训练，可以通过所述卷积神经网络模型实现以真实人脸图像当前的表情为表情起点，推测后续连续变化的表情对应的图像差异向量

在本发明的一个实施例中，服务器在对所述卷积神经网络模型进行第二阶段的训练时，可以从预先采集的包含真实人脸连续表情变化的视频或动图中，随机选择一个视频或动图，然后，服务器可以从该视频或动图中抽取一帧图像，以及抽取该帧图像的下一帧图像，并计算下一帧图像与该帧图像的图像差异向量，可选的，服务器在获取视频或动图中的每一帧图像与其后一帧图像的图像差异向量时，可以先获取视频或动图中的每帧图像的每个像素点对应的RGB三维矩阵值，然后，服务器可以将每帧图像的每个像素点对应的RGB三维矩阵值，与其前一帧图像的对应的位置相同的像素点对应的RGB三维矩阵值进行相减，得到与该帧图像对应的图像差异向量。在得到视频或动图中的每一帧图像对应的图像差异向量后，服务器可以将得到的该视频或动图对应的所有图像差异向量输入到所述卷积神经网络模型中。在计算得到下一帧图像与该帧图像的图像差异向量后，服务器可以将该帧图像以及该计算得到的图像差异向量输入到模型中。

所述卷积神经网络模型接收到该帧图像以及上述计算得到的图像差异向量后，可以基于四层卷积网络从该帧图像中提取出四层特征，以及基于三层卷积网络从上述计算得到的图像差异向量中提取出三层动态特征，并对最后一层动态特征进行保留，以及将最后一层的动态特征划分为维数相同的四段。

优选的，在基于四层卷积网络从该帧图像中提取出四层特征时，可以基于第一训练阶段中使用的第一参数对应的四层卷积网络来进行对应提取，类似地，在基于三层卷积网络从上述计算得到的图像差异向量中提取出三层动态特征时，可以基于第一训练阶段中使用的第二提取参数对应的三层卷积网络来进行对应提取。在得到四层图像特征，以及一层动态特征后，模型可以进行对应的特征拼接，并基于五层卷积网络从拼接后的特征中进行进一步的特征提取。需要说明的是，在基于五层卷积网络从拼接后的特征中进行进一步的特征提取，可以基于第一训练阶段中使用的第三提取参数对应的五层卷积网络来进行对应提取。

在从拼接后的特征中进一步提取特征后，模型可以对进一步提取的特征进行上采样处理，在本发明的一个实施例中，模型在对目标特征进行上采样处理时，可以基于逆卷积网络来进行上采样处理，以实现对所述目标特征的压缩，以使所述卷积神经网络模型能够处理分辨率较高的图像，同时提升对分辨率较高的模型的处理速度。

在得到经上采样处理的特征后，模型可以从经上采样处理的特征中获取对应的特征差异向量，并通过动态解码器对获取到的特征差异向量进行回归处理，其中，其中，动态解码器可以为现有的具有回归功能的装置或设备。

在本发明的一个实施例中，通过动态解码器对获取到的特征差异向量进行回归处理时，模型可以获取该获取的特征差异向量与输入的特征差异向量得到对应的损失值，其中，该损失值可以为该获取的特征差异向量与输入的特征差异向量的平方差。

在得到该获取的特征差异向量与输入的特征差异向量对应的损失值后，所述卷积神经网络模型可以通过对上述卷积网络对应的除第一提取参数、第二提取参数以及第三提取参数以外的其余参数的值的调整，来使得上述得到的损失值最小。在得到最小的损失值后，模型可以对上述卷积网络对应的除第一提取参数、第二提取参数以及第三提取参数以外的其余参数的值进行确定。

图5是本发明实施例提供的漫画动图生成装置的一个可选的结构示意图，如图5所示，本发明实施例提供的漫画动图生成装置的一个可选的结构，包括：

图像收发模块501，用于向卷积神经网络模型中输入第一图像，所述第一图像用于表征真实人脸，所述第一图像至少包括所述真实人脸的表情信息；

所述图像收发模块501，用于接收所述卷积神经网络模型输出的与所述第一图像对应的第二图像，以及与所述真实人脸的表情对应的第一差异向量；

图像处理模块502，用于基于所述第二图像和所述第一差异向量，生成以所述第二图像为起始帧的包括所述漫画人脸连续变化表情的漫画动图。

在本发明的一个实施例中，所述第一差异向量的数量为至少两个；

所述图像处理模块502，用于基于所述第二图像和所述第一差异向量，得到预设数量的图像，其中，所述预设数量的图像包含以所述漫画人脸在所述第二图像中的表情为表情起点的连续变化的表情；

所述图像处理模块502，用于基于所述第二图像以及所述预设数量的图像，生成漫画动图。

其中，所述第一差异向量是由所述卷积神经网络模型基于输入的前一帧图像以及前一帧图像对应的指定第一差异向量得到的，其中，所述前一帧图像对应的指定第一差异向量用于表征所述前一帧图像的后一帧图像与所述前一帧图像之间的图像差异，所述前一帧图像的后一帧图像与所述前一帧图像包含连续变化的表情。

在本发明的一个实施例中，所述装置还包括：

训练模块(图中未示出)，用于对所述卷积神经网络模型进行训练；

所述训练模块，用于根据第三图像以及第四图像对所述卷积神经网络模型进行第一阶段的训练，以实现根据包含真实人脸的图像得到对应的包含漫画人脸的图像，其中，所述第三图像为漫画人脸图像、所述第四图像为真实人脸图像；

所述训练模块，用于根据媒体文件，对所述卷积神经网络模型进行第二阶段的训练，以实现根据真实人脸的连续变化的表情，得到表征与所述真实人脸对应的漫画人脸的连续表情变化的图像之间的差异向量；其中，所述媒体文件包括真实人脸连续变化的表情，所述媒体文件至少包括动图或视频。

在本发明的一个实施例中，所述训练模块，用于基于所述第三图像以及第四图像，确定所述卷积神经网络模型中的第一参数，其中，所述提取参数用于使所述卷积神经网络模型基于输入的包含真实人脸的图像输出对应的包含漫画人脸的图像，以及基于输入的包含漫画人脸的图像输出对应的包含漫画人脸的图像。

其中，所述卷积神经网络模型中的第一参数至少包括第一提取参数、第二提取参数，以及第三提取参数，其中，所述第一提取参数用于使所述卷积神经网络模型对所述第三图像的图像特征和所述第四图像的图像特征的第一提取结果进行调整；所述第二提取参数用于使所述卷积神经网络模型对所述媒体文件中的连续两帧图像对应的图像特征点差值的第二提取结果进行调整；所述第三提取参数用于使所述卷积神经网络模型对目标特征的第三提取结果进行调整，所述目标特征为基于所述第一提取结果和所述第二提取结果确定的特征。

在本发明的一个实施例中，所述训练模块，用于基于所述媒体文件，确定所述卷积神经网络模型中的第二参数，其中，所述第二提取参数用于使所述卷积神经网络模型基于输入的包含真实人脸的连续变化表情的媒体文件输出最小的对应差异偏差值，所述对应差异偏差值为所述媒体文件中包含所述真实人脸的连续变化表情的图像之间的图像特征点差值，与包含漫画人脸的连续变化表情的图像之间的图像特征点差值之间的偏差值，所述漫画人脸与所述真实人脸相对应。

在本发明的一个实施例中，所述训练模块，用于获取所选择的媒体文件中连续两帧图像的图像特征点差值；

基于所述差异损失值确定所述对应差异偏差值；

图6是本发明实施例提供的漫画动图生成方法的一个可选的过程示意图，如图6所示，在所述卷积神经网络模型训练完成后，服务器可以向所述卷积神经网络模型中输入一张真实人脸图像6A，并得到模型输出的漫画人脸图像6B，以及以该真实人脸图像的人脸表情为表情起点的漫画人脸的连续变化的表情对应的图像差异向量，然后，服务器可以根据该得到的漫画人脸图像6B以及该得到的图像差异向量来预测下一帧的漫画人脸图像6C，其中，下一帧的漫画人脸图像中的漫画人脸的表情与该真实人脸图像中的真实人脸的表情可以为连续变化的表情。

在预测了下一帧的漫画人脸图像6C后，服务器可以将所述下一帧的漫画人脸图像6C输入到模型中，并得到以该下一帧的漫画人脸图像的人脸表情为表情起点的漫画人脸的连续变化的表情对应的图像差异向量，然后，服务器可以根据该得到的图像差异向量来预测下一帧的漫画人脸图像6D，其中，下一帧的漫画人脸图像6C中的漫画人脸的表情与该下一帧的漫画人脸图像6D中的漫画人脸的表情可以为连续变化的表情。以此类推，还可以得到漫画人脸图像6E，在根据上述步骤得到6B-6E漫画人脸图像后，服务器可以将该多帧漫画人脸图像组合在一起，形成一个对应的漫画动图。

图7为本发明实施例漫画动图生成装置一个组成示意图，如图7所示，漫画动图生成装置700可以是带有包括带有显示功能的，具有图像展示功能的移动电话、计算机、数字广播终端、信息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。图7所示的漫画动图生成装置700包括：至少一个处理器701、存储器702、至少一个网络接口704和用户接口703。漫画动图生成装置700中的各个组件通过总线系统705耦合在一起。可理解，总线系统705用于实现这些组件之间的连接通信。总线系统705除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线系统705。

其中，用户接口703可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器702可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器702旨在包括这些和任意其它适合类型的存储器。

本发明实施例中的存储器702用于存储图像数据在内的各种类型的数据以支持漫画动图生成装置700的操作。这些数据的示例包括：用于在漫画动图生成装置700上操作的任何计算机程序，如操作系统7021和应用程序7022；联系人数据；电话簿数据；消息；图片；视频等。其中，操作系统7021包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序7022可以包含各种应用程序，例如带有图像处理功能的客户端、媒体播放器(Media Player)、浏览器(Browser)等，用于实现包括通过漫画动图生成程序在内的各种应用业务。实现本发明实施漫画动图生成方法的程序可以包含在应用程序7022中。

上述本发明实施例揭示的方法可以应用于处理器701中，或者由处理器701实现。处理器701可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的操作完成。上述的处理器701可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器701可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器702，处理器701读取存储器702中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，漫画动图生成装置700可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现，用于执行所述储物信息处理方法。

在示例性实施例中，本发明实施例还提供了一种计算机可读存储介质，例如包括计算机程序的存储器702，上述计算机程序可由漫画动图生成装置700的处理器701执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、FlashMemory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器运行时，执行：

本领域内的技术人员应明白，本发明实施例可提供为方法、系统、或计算机程序产品。因此，本发明实施例可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序操作实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序操作到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的操作产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序操作也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的操作产生包括操作装置的制造品，该操作装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序操作也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的操作提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种漫画动图生成方法，其特征在于，所述方法包括：

接收所述卷积神经网络模型输出的与所述第一图像对应的第二图像，以及与所述真实人脸的表情对应的第一差异向量；其中，所述卷积神经网络模型用于从所述第一差异向量中提取动态特征；

基于所述第二图像和所述第一差异向量，生成以所述第二图像为起始帧的包括所述漫画人脸连续变化表情的漫画动图；

其中，所述方法还包括：对所述卷积神经网络模型进行训练；所述对所述卷积神经网络模型进行训练包括：

根据第三图像以及第四图像对所述卷积神经网络模型进行第一阶段的训练，以实现根据包含真实人脸的图像得到对应的包含漫画人脸的图像，其中，所述第三图像为漫画人脸图像、所述第四图像为真实人脸图像；所述第三图像、所述第四图像由随机选择确定；

根据第一媒体文件，对所述卷积神经网络模型进行第二阶段的训练，以实现根据真实人脸的连续变化的表情，得到表征与所述真实人脸对应的漫画人脸的连续表情变化的图像之间的差异向量；其中，所述媒体文件包括真实人脸连续变化的表情，所述媒体文件至少包括动图或视频；所述媒体文件由随机选择确定。

2.根据权利要求1所述的方法，其特征在于，

所述第一差异向量的数量为至少两个；

3.根据权利要求2所述的方法，其特征在于，所述第一差异向量是由所述卷积神经网络模型基于输入的前一帧图像以及前一帧图像对应的指定第一差异向量得到的，其中，所述前一帧图像对应的指定第一差异向量用于表征所述前一帧图像的后一帧图像与所述前一帧图像之间的图像差异，所述前一帧图像的后一帧图像与所述前一帧图像包含连续变化的表情。

4.根据权利要求1所述的方法，其特征在于，所述根据第三图像以及第四图像对所述卷积神经网络模型进行第一阶段的训练，包括：

5.根据权利要求4所述的方法，其特征在于，所述卷积神经网络模型中的第一参数至少包括第一提取参数、第二提取参数，以及第三提取参数，其中，所述第一提取参数用于使所述卷积神经网络模型对所述第三图像的图像特征和所述第四图像的图像特征的第一提取结果进行调整；所述第二提取参数用于使所述卷积神经网络模型对所述媒体文件中的连续两帧图像对应的图像特征点差值的第二提取结果进行调整；所述第三提取参数用于使所述卷积神经网络模型对目标特征的第三提取结果进行调整，所述目标特征为基于所述第一提取结果和所述第二提取结果确定的特征。

6.根据权利要求3所述的方法，其特征在于，根据采集的媒体文件，对所述卷积神经网络模型进行第二阶段的训练，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述媒体文件，确定所述卷积神经网络模型中的第二参数，包括：

获取所选择的媒体文件中连续两帧图像的图像特征点差值；

根据所获取的所述连续两帧图像的图像特征点差值，与所述第二差异向量，确定差异损失值；

基于所述差异损失值确定所述对应差异偏差值；

8.一种漫画动图生成装置，其特征在于，所述装置包括：

图像收发模块，用于向卷积神经网络模型中输入第一图像，所述第一图像用于表征真实人脸，所述第一图像至少包括所述真实人脸的表情信息；所述图像收发模块，用于接收所述卷积神经网络模型输出的与所述第一图像对应的第二图像，以及与所述真实人脸的表情对应的第一差异向量；其中，所述卷积神经网络模型用于从所述第一差异向量中提取动态特征；

图像处理模块，用于基于所述第二图像和所述第一差异向量，生成以所述第二图像为起始帧的包括所述漫画人脸连续变化表情的漫画动图；

其中，所述装置还包括训练模块，用于根据第三图像以及第四图像对所述卷积神经网络模型进行第一阶段的训练，以实现根据包含真实人脸的图像得到对应的包含漫画人脸的图像，其中，所述第三图像为漫画人脸图像、所述第四图像为真实人脸图像；所述第三图像、所述第四图像由随机选择确定；

9.一种漫画动图生成装置，其特征在于，所述装置包括：

其中，所述处理器用于运行所述计算机程序时，还执行以下操作：根据第三图像以及第四图像对所述卷积神经网络模型进行第一阶段的训练，以实现根据包含真实人脸的图像得到对应的包含漫画人脸的图像，其中，所述第三图像为漫画人脸图像、所述第四图像为真实人脸图像；所述第三图像、所述第四图像由随机选择确定；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行：

其中，该计算机程序被处理器执行时，还执行以下操作：对所述卷积神经网络模型进行训练；所述对所述卷积神经网络模型进行训练包括：