CN117252966B

CN117252966B - 动态漫画生成方法及装置、存储介质及电子设备

Info

Publication number: CN117252966B
Application number: CN202311544905.0A
Authority: CN
Inventors: 谢昊源; 杨杰; 郑孝直; 陈劲; 陈智聪; 黄泱柯; 刘琰
Original assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Current assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-01-30
Anticipated expiration: 2043-11-20
Also published as: CN117252966A

Abstract

本发明提供一种动态漫画生成方法及装置、存储介质及电子设备，本发明从影视作品中提取与故事脚本对应的分镜背景图像和影视角色的角色剧照，然后通过角色剧照生成影视角色的多张漫画化角色人物图，通过分镜背景图像获得漫画背景图像，然后使用漫画背景图像和漫画化角色人物图生成漫画视频帧，将各个漫画视频帧拼接并添加嘴部动效和三维背景特效即可得到动态漫画视频。整个过程无需创作者创作影视角色的漫画形象，也无需创作者逐帧绘制故事脚本的漫画图像，有效缩短动态漫画视频的生成周期，减少生成动态漫画视频的成本，提高生成效率。

Description

动态漫画生成方法及装置、存储介质及电子设备

技术领域

本发明涉及动漫设计技术领域，特别涉及一种动态漫画生成方法及装置、存储介质及电子设备。

背景技术

动态漫画，是一种平面漫画与动态元素相结合的动画表现形式，其在漫画图片的基础上可以进行一定的动作处理，令漫画中的人物可以做出简单的动作，并且可以添加旁白、对话以及背景音乐等特效，更能生动的向人们展示作品。

动态漫画相对于传统的动画，其制作成本低，制作周期短，开始广泛应用于各类视频平台中。传统动态漫画在制作时，需要创作者完成设计对应的动漫人物、绘制漫画图片等制作工作，整个周期投入的人力成本高，且花费的时间长，制作效率低下。

发明内容

有鉴于此，本发明实施例提供一种动态漫画生成方法及装置、存储介质及电子设备，应用本发明可以快速的生成动态漫画视频，减少生成动态漫画视频的成本。

为实现上述目的，本发明实施例提供如下技术方案：

一种动态漫画生成方法，包括：

确定故事脚本和影视作品；

获取所述影视作品中的各个影视角色的各个角色剧照；

获取所述故事脚本中各个故事分镜的各个分镜背景图像，所述分镜背景图像为从所述影视作品中提取的图像；

对于每个所述影视角色，基于预设的漫画人物生成底座模型对所述影视角色的各个角色剧照进行处理，获取所述影视角色的多张漫画化角色人物图；

对于每个所述故事分镜，将所述故事分镜的每个所述分镜背景图像进行漫画化处理，得到每个所述分镜背景图像的漫画背景图像；

基于各个所述漫画化角色人物图和各个所述漫画背景图像，生成每个所述故事分镜的各个漫画视频帧，将各个所述漫画视频帧逐帧拼接并添加嘴部动效和三维背景特效，得到与所述故事脚本对应的动态漫画视频。

一种动态漫画生成装置，包括：

确定单元，用于确定故事脚本和影视作品；

第一获取单元，用于获取所述影视作品中的各个影视角色的各个角色剧照；

第二获取单元，用于获取所述故事脚本中各个故事分镜的各个分镜背景图像，所述分镜背景图像为从所述影视作品中提取的图像；

第三获取单元，用于对于每个所述影视角色，基于预设的漫画人物生成底座模型对所述影视角色的各个角色剧照进行处理，获取所述影视角色的多张漫画化角色人物图；

处理单元，用于对于每个所述故事分镜，将所述故事分镜的每个所述分镜背景图像进行漫画化处理，得到每个所述分镜背景图像的漫画背景图像；

生成单元，用于基于各个所述漫画化角色人物图和各个所述漫画背景图像，生成每个所述故事分镜的各个漫画视频帧，将各个所述漫画视频帧逐帧拼接并添加嘴部动效和三维背景特效，得到与所述故事脚本对应的动态漫画视频。

一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上所述的动态漫画生成方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上所述的动态漫画生成方法。

与现有技术相比，本发明具有以下优点：

本发明从影视作品中提取与故事脚本对应的分镜背景图像和影视角色的角色剧照，然后通过角色剧照生成影视角色的漫画形象的漫画化角色人物图，通过分镜背景图像获得漫画背景图像，然后使用漫画背景图像和漫画化角色人物图生成漫画视频帧，将各个漫画视频帧拼接并添加嘴部动效和三维背景特效即可得到动态漫画视频。整个过程无需创作者创作影视角色的漫画形象，也无需创作者逐帧绘制故事脚本的漫画图像，有效缩短动态漫画视频的生成周期，减少生成动态漫画视频的成本，提高生成效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供一种动态漫画生成方法的方法流程图；

图2为本发明实施例提供的获取影视作品中的各个影视角色的各个角色剧照的方法流程图；

图3为本发明实施例提供的获取故事脚本中各个故事分镜的各个分镜背景图像的方法流程图；

图4为本发明实施例提供的基于各个漫画化角色人物图和各个漫画背景图像，生成每个故事分镜的各个漫画视频帧的方法流程图；

图5为本发明实施例提供的将目标漫画化角色人物图和漫画背景图像融和后得到漫画视频帧的示例图；

图6为本发明实施例提供的为动态漫画视频添加音频的方法流程图；

图7为本发明实施例提供的动态漫画生成方法的一流程示例图；

图8为本发明实施例提供的有声的动态漫画视频在播放后漫画人物的嘴部变化的效果图；

图9为本发明实施例提供的一种动态漫画生成装置的结构示意图；

图10为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明可以应用于处理器或服务器，参照图1，为本发明实施例提供一种动态漫画生成方法的方法流程图，具体说明如下所述。

S101、确定故事脚本和影视作品。

故事脚本和影视作品可以为用户上传的内容，进一步的，影视作品可以是不是用户上传的，可以是用户在预设的影视库选择的，影视库中收录了大量的影视作品，用户可以根据自己的需要进行选择；用户所选择的影视作品为经过版权方授权的作品，或是用户拥有版权的影视作品，换言之，用户所选择的影视作品是经过各方充分授权、满足相关国家和地区的相关法律法规和标准的作品。

故事脚本可以是基于影视作品创造的衍生故事。

S102、获取影视作品中的各个影视角色的各个角色剧照。

本发明在获取影视作品中的各个影视角色的各个角色剧照之前，获取出演影视角色的每个演员关于自身的肖像等与其他有关的权益的授权，从而确保本发明获取各个影视角色的各个角色剧照是满足国家和地区的相关法律法规和标准的。

需要说明的是，本发明所提及的各个影视角色可以为影视作品中的所有角色；优选的，可以是在影视作品的多个角色中自定义选择的角色，示例性的，选择出各个影视角色的过程如下所述：

将影视作品中的各个角色均确定为待选角色；

获取故事脚本中的故事人物信息；

将与故事人物信息对应的待选角色确定为影视角色。

故事人物信息中包含故事脚本中涉及的各个角色的信息，例如角色A、B以及C等角色的名称等信息；示例性的，影视作品中的各个角色为A、B、C、D、E、F、G以及H，而故事人物信息中包含角色A、B以及C的信息，则将角色A、B以及C均确定为影视角色。

通过基于故事脚本中的故事人物信息从影视作品的大量角色中选择出需要的角色，后续对选中的角色进行相关的动态漫画处理，无需对未选中的角色进行相关的动态漫画处理，减少计算机的处理量，节约计算机的处理资源，缩短生成动态漫画的时间，提高生成动态漫画的效率。

参照图2，为本发明实施例提供的获取影视作品中的各个影视角色的各个角色剧照的方法流程图，具体说明如下所述。

S201、确定每个影视角色在影视作品中的各个妆造形象。

影视角色在影视作品中出现的妆造不止一个，不同的妆造均是影视角色不同的妆造形象；优选的，不同的发型、服饰或是装扮均会给角色带来不一样的妆造。

示例性的，角色A在影视作品中有服饰1、服饰2以及服饰3，则角色A有3个妆造形象，分别为与服饰1对应的妆造形象、与服饰2对应的妆造形象以及与服饰3对应的妆造形象。需要说明的是，为了便于理解，本发明此处仅以服饰进行举例说明，而妆造形象还与角色的发型、妆容等内容相关，例如同一服饰，不同的发型则存在不同的妆造形象，延续上述的示例说明，角色A在服饰1下有发型a和b，则角色A在存在与服饰1+发型a对应的妆造形象，以及还存在与服饰1+发型b对应的妆造形象。

进一步的，影视角色可以使用角色名表示，影视角色和妆造形象之间存在层级关系，示例性的影视角色可以为一级分类，而影视角色的妆造形象为二级分类。

S202、对于每个影视角色的每个妆造形象，从影视作品中提取与妆造形象对应的各个视频帧，并将提取的各个视频帧确定为影视角色的角色剧照。

在从影视作品中提取与妆造形象对应的各个视频帧时，可以优先选择清晰度高、角色人脸清晰以及背景单一的视频帧，进一步的，各个视频帧为影视角色在不同角度下的图像，不同角度下的影视角色的人脸占比有所不同，每个影视角色的每个妆造形象要提取的视频帧的数量可以根据实际需求进行设置。

优选的，提取的各个影视角色的各个角色剧照可以存在预设的前景图像数据库中，均存在前景图像数据库便于后续对角色剧照的处理。

通过从影视作品中提取每个影视角色的每个妆造形象的角色剧照，可以确保后续创建的影视角色的漫画形象与影视作品中的真人角色形象更加贴近，使得影视角色的漫画形象与真人角色形象的相似度高，提高漫画形象的辨识度。

S103、获取故事脚本中各个故事分镜的各个分镜背景图像，分镜背景图像为从影视作品中提取的图像。

故事脚本中有多个故事分镜，从影视作品中提取每个故事分镜的各个分镜背景图像，分镜背景图像可以为影视作品中的视频帧。

参照图3，为本发明实施例提供的获取故事脚本中各个故事分镜的各个分镜背景图像的方法流程图，具体说明如下所述。

S301、对故事脚本进行解析，获取故事脚本中的各个故事分镜的画面描述词。

在对故事脚本进行解析时，可以使用语言处理模块辅助人工对故事脚本进行解析，进而获取故事脚本中的各个故事分镜的画面描述词。优选的，每个故事分镜的画面描述词至少为一个。

示例性的，语言处理模块可以为ChatGPT（Chat Generative Pre-trainedTransformer）、LSDSem或是其他由人工智能技术驱动的自然语言处理工具。

S302、对于每个故事分镜，在影视作品中检索与故事分镜的画面描述词对应的各个视频帧，并将检索到的各个视频帧确定为故事分镜的分镜背景图像。

在获取到每个故事分镜的画面描述词后，对于每个故事分镜，可以将该故事分镜的画面描述词输入预设的图文检索系统，然后图文件检索系统在视频作品中检索与画面描述词对应的视频帧，然后将检索到的视频帧确定为该故事分镜的分镜背景图像，优选的，故事分镜的分镜背景图像至少为一张。

优选的，图文检索系统可以为基于CLIP（Contrastive Language-Image Pre-Training）的系统，该图文检索系统还可以是应用其他图文处理技术或是算法的系统。

优选的，所有的故事分镜的分镜背景图像可以保存在预设的背景图像数据库中，以便于后续的处理。

从影视作品中提取故事分镜的分镜背景图像，后续使用分镜背景图像生成动态漫画，使得影视作品中的景象出现在动态漫画中，增加动态漫画与影视作品的相似度，使得动态漫画更容易受到喜爱该影视作品的群众的关注。

S104、对于每个影视角色，基于预设的漫画人物生成底座模型对影视角色的各个角色剧照进行处理，获取影视角色的漫画形象的多张漫画化角色人物图。

需要说明的是，获取影视角色的漫画形象的多张漫画化角色人物图的过程如：调用漫画人物生成底座模型对各个角色剧照进行处理，得到各个角色漫画图，角色漫画图包含影视角色的漫画形象；对各个角色漫画图中的漫画形象进行抠图处理，得到各个漫画化角色人物图，漫画化角色人物图可以为矢量图。

不同的漫画风格有不同的漫画人物生成底座模型，可以根据实际需求选择漫画人物生成底座模型，示例性的，可以选择中国风格的漫画人物生成底座模型。漫画人物生成底座模型可以为Stable diffusion底座模型，使用该模型的图生图功能生成影视角色的漫画形象，即使用漫画任务生成底座模型对影视角色的角色剧照进行处理，生成包含影视角色的漫画形象的角色漫画图，在对角色漫画图进行抠图时，可以使用Rembg算法自动识别主体人物并自动抠图生成人物矢量PNG图，此时生成的人物矢量PNG图即为影视角色的漫画形象的漫画化角色人物图。

S105、对于每个故事分镜，将故事分镜的每个分镜背景图像进行漫画化处理，得到每个分镜背景图像的漫画背景图像。

在将分镜背景图像进行漫画化处理时，可以使用Stable diffusion中的图生图功能生成分镜背景图像的漫画化图像，或者基于故事分镜的画面描述词，使用Stablediffusion中的文生图的方式生成故事分镜的分镜背景图像的漫画化图像，又或者这两种方式耦合生成分镜背景图像的漫画化图像，需要说明的是，生成的漫画化图像为2D背景图。

进一步的，在生成漫画化图像后，可以检测漫画化图像的前景区域，并生成景深图，此处的景深图即为上文所述的漫画背景图像。

S106、基于各个漫画化角色人物图和各个漫画背景图像，生成每个故事分镜的各个漫画视频帧，将各个漫画视频帧逐帧拼接并添加嘴部动效和三维背景特效，得到与故事脚本对应的动态漫画视频。

对于每个故事分镜，基于各个漫画化角色人物图和该故事分镜的各个漫画背景图像，生成该故事分镜的各个漫画视频帧，需要说明的是，漫画视频帧由漫画化角色人物图和漫画背景图像融合而成。

每个故事分镜的各个漫画视频帧是存在先后顺序的，可以将各个故事分镜的各个漫画视频帧按照先后顺序进行排序，由此实现各个漫画视频帧的逐帧拼接，在将各个漫画视频帧逐帧拼接时，为漫画视频帧中的漫画形象添加嘴部动效以及为漫画视频帧中的漫画背景图像添加三维背景特效，使得漫画视频帧具有3D效果的漫画背景。在添加嘴部动效时，可以使用sadtalker模型添加。

本发明实施例提供的方法中，确定故事脚本和影视作品；获取影视作品中的各个影视角色的各个角色剧照；获取故事脚本中各个故事分镜的各个分镜背景图像，分镜背景图像为从影视作品中提取的图像；对于每个影视角色，基于预设的漫画人物生成底座模型对影视角色的各个角色剧照进行处理，获取影视角色的漫画形象的多张漫画化角色人物图；对于每个故事分镜，将故事分镜的每个分镜背景图像进行漫画化处理，得到每个分镜背景图像的漫画背景图像；基于各个漫画化角色人物图和各个漫画背景图像，生成每个故事分镜的各个漫画视频帧，将各个漫画视频帧逐帧拼接并添加嘴部动效和三维背景特效，得到与故事脚本对应的动态漫画视频。本发明从影视作品中提取与故事脚本对应的分镜背景图像和影视角色的角色剧照，然后通过角色剧照生成影视角色的漫画形象的漫画化角色人物图，通过分镜背景图像获得漫画背景图像，然后使用漫画背景图像和漫画化角色人物图生成漫画视频帧，将各个漫画视频帧拼接并添加嘴部动效和三维背景特效即可得到动态漫画视频。整个过程无需创作者创作影视角色的漫画形象，也无需创作者逐帧绘制故事脚本的漫画图像，有效缩短动态漫画视频的生成周期，减少生成动态漫画视频的成本，提高生成效率。

应用本发明提供的方法，可以基于故事脚本生成与影视作品存在关联的原创衍生漫画动态视频，便于众多喜爱影视作品的群众对影视作品进行二次创作，增加群众与影视作品之间的粘性，通过群众创作与影视作品对应的漫画动态视频，增加了影视作品的曝光率，扩大影视作品的宣传范围。

对于图1中基于各个漫画化角色人物图和各个漫画背景图像，生成每个故事分镜的各个漫画视频的过程，本发明提供对应的流程图进行说明，参照图4，为本发明实施例提供的基于各个漫画化角色人物图和各个漫画背景图像，生成每个故事分镜的各个漫画视频帧的方法流程图。

S401、获取每个故事分镜的角色信息以及故事时间信息。

需要说明的是，不同的故事分镜的角色信息有可能不同，角色信息中包含出现在该故事分镜的各个角色的信息，例如角色名字，一个故事分镜可能会出现一个角色，也可能出现多个角色。

故事时间信息包含该故事分镜在故事脚本中的时间信息，例如该故事分镜在故事脚本中的故事背景时间，例如具体的年月日。

S402、基于每个故事分镜的角色信息，在各个影视角色中确定每个故事分镜的各个参与角色。

S403、对于每个故事分镜的每个参与角色，基于各个故事时间信息，在参与角色的各个妆造形象中确定目标妆造形象，并将与目标妆造形象对应的各个漫画化角色人物图确定为目标漫画化角色人物图。

在为每个故事分镜的每个参与角色选择妆造形象时，对于同一个参与角色，在相同故事时间信息的故事分镜中的妆造形象需要相同，由此可以确保在故事脚本中，参与角色在相同时间线的镜头的妆造是一致的，避免出现穿帮或是逻辑不对的情况。

示例性的，角色A在故事分镜1和故事分镜2中均有出现，并且故事分镜1和故事分镜2的时间线是相同的，则角色A在故事分镜1和故事分镜2中所选择的妆造形象需要是相同的，由此可以保证同一角色在同一时间线的镜头的妆造的一致性，从而保证故事逻辑的顺畅，使得观众更好的融入故事情节。

S404、对于每个故事分镜，将故事分镜的各个目标漫画化角色人物图和各个漫画背景图像进行图像融合处理，得到各个漫画视频帧。

在确定每个故事分镜的目标漫画化角色人物图和各个漫画背景图像后，将故事分镜的目标角色人图和各个漫画背景图像进行图像融合，进而得到各个漫画视频帧。

参照图5，为本发明实施例提供的将目标漫画化角色人物图和漫画背景图像融和后得到漫画视频帧的示例图。

本发明在生成故事分镜的漫画视频帧的过程中，会为该故事分镜的漫画角色选择合适的妆造形象，从而可以保证同一角色在同一时间线的不同的故事分镜中的妆造的一致性，以确保后续用户在观看动态漫画视频时有更好的代入感。

需要说明的是，在得到动态漫画视频后，为了使动态漫画视频更加丰富，以及为了给观众有更好的观看体验，可以给动态漫画视频中的角色添加对应的台词音频，从而可以得到有声的动态漫画视频。

参照图6，为本发明实施例提供的为动态漫画视频添加音频的方法流程图，具体说明如下所述。

S601、从影视作品中采集每个影视角色的音频数据。

采集的音频数据为影视角色在影视作品中的台词音频，或是影视角色在影视作品中的音频干声数据。

S602、对于每个影视角色，使用影视角色的音频数据对预设的初始语音输出模型进行训练，并在训练完成后得到影视角色的语音输出模型。

优选的，为每个影视角色训练对应的语音输出模型，该语音输出模型可以为Sambert语音合成模型，优选的，语音输出模型中可以为应用Text To Speech方法的模型，语音输出模型可以输出为影视角色定制的专属音色的音频，该音色与影视角色在影视作品中的音色的相似度极高；使用影视角色的音频数据作为训练数据对语音输出模型进行训练，从而可以保证语音输出模型输出的语音音色与影视角色在影视作品中的语音音色更加的贴近，可以在动态漫画视频中高度还原影视角色的声音。

S603、获取各个影视角色在故事脚本中的台词信息。

台词信息包含影视角色在故事脚本中涉及的所有台词。

S604、对于每个影视角色，使用语音输出模型对影视角色的台词信息进行处理，得到与影视角色对应的台词音频。

使用训练完成的语音输出模型对台词信息进行处理，从而可以输出与台词信息对应的语音，该语音即为影视角色的台词音频。

优选的，语音输出模型通过微调采样率、音量以及语速等参数输出影视角色的动漫角色的专属定制音色，相较于传统人工配音或开源音色，本发明提供的方式成本更低，周期更短，并且更能满足用户对影视角色的认知，不易使用户出戏，为用户提供良好的视听感受。

S605、将各个影视角色的台词音频与动态漫画视频融合，得到有声的动态漫画视频。

将各个影视角色的台词音频与动态漫画视频融合后，得到有声的动态漫画视频，影视角色在有声的动态漫画视频中的音色与在影视作品中的音色的相似度很高，由此可以提高有声的动态漫画视频中的影视角色与影视作品中的角色的贴合度，也提高有声的动态漫画视频中的影视角色的辨识度。

优选的，通过为动态漫画视频添加音频，可以与为影视角色添加的嘴部动效相搭配，使得影视角色的嘴部在动的同时输出对应的音频。

本发明在为动态漫画视频中的影视角色添加音频时，无需演员进行配音，使用训练完成的语音输出模型即可合成音色与影视作品中的角色的音色相似度高的音频，有效缩短获取音频的时间周期，并且减少获取音频所需的花费。

进一步的，除了为动态漫画视频添加音频之外，还可以添加其他的视频素材，具体如，确定待添加的各项视频素材，将各项视频素材添加至到动态漫画视频中；各项视频素材包括但不限于字幕、背景音乐以及转场特效等，通过添加这些视频素材，使得动态漫画视频的内容更加的立体化、丰富化，提高用户的视听体验。

参照图7，为本发明实施例提供的动态漫画生成方法的一流程示例图，具体说明如下所述。

动态漫画生成的过程可以分成4个部分，可以分为图像数据预处理、生成动态漫画视频、生成影视角色的台词音频以及添加各项视频素材；具体的说明如下所述。

如图7所示，图像数据预处理的流程为图中701部分，生成动态漫画视频的流程为图中的702部分，生成影视角色的台词音频的流程为图中703部分，添加各项视频素材的流程为图中704部分。

对图像数据预处理的过程进行说明，首先需要收集被漫画化改编的影视作品的演员剧照；首先按照角色人物进行一级分类，即获取影视作品中的各个影视角色，并通过对单个角色人物的服饰和脸部占比大小进行二级分类，即确定各个影视角色的各个妆造形象，最终获得每个影视角色的每个妆造形象的角色剧照，将各个角色剧照整合成前景图像数据库。同样地，根据漫画的故事脚本，使用ChatGPT辅助人工将故事脚本拆分出多个故事分镜的画面描述词，将画面描述词输入基于CLIP的图文检索系统找到原电视剧相关分镜的镜头图片，即获得各个分镜背景图像，将各个分镜背景图像整合得到背景图像数据库。

对生成动态漫画视频的过程进行说明，对前景图像数据库中的角色剧照挑选适合中国风格的Stable diffusion底座模型，使用图生图功能生成影视角色的漫画形象的角色漫画图，该角色漫画图可以称为前景角色人物图，对角色漫画图进行抠图处理，得到漫画化角色人物图；使用图生图功能将背景图像数据库中的分镜背景图像进行处理，得到漫画背景图像，或是使用文生图功能生成漫画背景图像；然后将漫画化角色人物图和漫画背景图像进行融合处理，得到多个漫画视频帧。进一步的，生成漫画化角色人物图、分镜背景图像以及漫画视频帧的技术可以认为是AI技术中的一种。

将各个漫画视频帧进行排序、拼接，并使用Sadtalker模型在漫画视频帧中添加由语音驱动的嘴型动效，另外，采用3d-point-inpainting模型检测2D的漫画视频帧中的漫画背景图像的前景区域并生成景深图，并添加3d背景特效。最后得到具有嘴部动效和三维背景特效的动态漫画视频。进一步的，在添加嘴型动效时，可以调整漫画化角色人物的嘴型区域系数、头部转动姿势系数等参数，从而实现动态漫画视频中的漫画化人物的嘴动特效。

对生成影视角色的台词音频的过程进行说明，收集影视角色在影视作品中的音频数据，该音频数据可以为影视角色的音频干声数据，对音频数据进行简单降噪处理，使用应用Text To Speech方法的语音输出模型对人声音色数据进行训练，为每个影视角色定制专属音色，最终可以使用语音输出模型输出影视角色在故事脚本中的台词音频。具体的，为影视角色定制专有音色、生成台词音频的技术也可以认为是AI技术中的一种。

优选的，动态漫画视频可以看做视频模态数据，台词音频可以看做音频模态数据，将视频模态数据和音频模态数据融合，即可得到有声的动态漫画视频，还可以给动态漫画视频添加转场特效、背景音特效、字幕和背景音乐、眨眼动效、头部动效等各项视频素材，让动态漫画的内容更加立体化、丰富化，提高提高用户的视听体验。

优选的，在将台词音频与动态漫画视频融合后，有声的动态漫画视频在播放时，有声的动态漫画视频中的漫画人物的嘴部和脸型会随着音频的输出进行改变。参照图8，为本发明实施例提供的有声的动态漫画视频在播放后漫画人物的嘴部变化的效果图。

本发明生成动态漫画视频的过程相较传统人工绘制生产漫画，可以以自身的视频资源为基准，集成图像/音频数据收集搭建、图文检索方法、漫画画面生成模块、前/背景动效添加和角色专属音色定制以及AI绘画/问答等生成式大模型，多维模型、多种数据耦合成为AI动态漫画生成系统技术。

本发明还应用了前/背景动效生成算法，相较传统静态漫画，应用一种多模型融合的前/背景人物动效算法，前景图像由Sadtalker模型驱动生成的角色对应的嘴型动效；背景图像则采用3d-point-inpainting模型检测2d背景图的前景区域并生成景深图，最终为背景图像生成动效。该算法相较传统的静态漫画，为漫画人物及背景提供了丰富的动画效果，增强漫画内容与用户交互，增加电视剧集内容多样性衍生并提高内容流量。

本发明还应用角色专属音色生成算法，相较传统人工配音或开源音色，可以降低成本低，缩短动态漫画视频的生成周期，不容易使用户出戏。提供一种小样本角色音色语音合成模块，通过训练改良的Sambert语音合成模型，并同步微调采样率、音量和语速等参数输出每个电视剧中的动漫角色专属定制音色，该种算法只需要少量剧中音色就可以模拟剧中角色音色，相较传统人工配音或开源音色，成本低，周期短，不容易使用户出戏。

与图1所示的方法相对应的，本发明还提供一种动态漫画生成装置，该装置用于支持图1所示的方法的实现。

参照图9，为本发明实施例提供的一种动态漫画生成装置的结构示意图，具体说明如下所述。

确定单元801，用于确定故事脚本和影视作品；

第一获取单元802，用于获取所述影视作品中的各个影视角色的各个角色剧照；

第二获取单元803，用于获取所述故事脚本中各个故事分镜的各个分镜背景图像，所述分镜背景图像为从所述影视作品中提取的图像；

第三获取单元804，用于对于每个所述影视角色，基于预设的漫画人物生成底座模型对所述影视角色的各个角色剧照进行处理，获取所述影视角色的多张漫画化角色人物图；

处理单元805，用于对于每个所述故事分镜，将所述故事分镜的每个所述分镜背景图像进行漫画化处理，得到每个所述分镜背景图像的漫画背景图像；

生成单元806，用于基于各个所述漫画化角色人物图和各个所述漫画背景图像，生成每个所述故事分镜的各个漫画视频帧，将各个所述漫画视频帧逐帧拼接并添加嘴部动效和三维背景特效，得到与所述故事脚本对应的动态漫画视频。

在本发明提供的另一实施例中，该装置的第一获取单元802可以配置为：

第一确定子单元，用于确定每个所述影视角色在所述影视作品中的各个妆造形象；

提取子单元，用于对于每个所述影视角色的每个妆造形象，从所述影视作品中提取与所述妆造形象对应的各个视频帧，并将提取的各个视频帧确定为所述影视角色的角色剧照。

在本发明提供的另一实施例中，该装置的第二获取单元803可以配置为：

第一获取子单元，用于对所述故事脚本进行解析，获取所述故事脚本中的各个故事分镜的画面描述词；

检索子单元，用于对于每个所述故事分镜，在所述影视作品中检索与所述故事分镜的画面描述词对应的各个视频帧，并将检索到的各个视频帧确定为所述故事分镜的分镜背景图像。

在本发明提供的另一实施例中，该装置的第三获取单元804可以配置为：

调用子单元，用于调用所述漫画人物生成底座模型对各个所述角色剧照进行处理，得到各个角色漫画图，所述角色漫画图包含所述影视角色的漫画形象；

抠图处理子单元，用于对各个所述角色漫画图中的漫画形象进行抠图处理，得到各个漫画化角色人物图。

在本发明提供的另一实施例中，该装置的生成单元806可以配置为：

第二获取子单元，用于获取每个所述故事分镜的角色信息以及故事时间信息；

第一确定子单元，用于基于每个所述故事分镜的角色信息，在各个所述影视角色中确定每个所述故事分镜的各个参与角色；

第二确定子单元，用于对于每个所述故事分镜的每个参与角色，基于各个所述故事时间信息，在所述参与角色的各个妆造形象中确定目标妆造形象，并将与所述目标妆造形象对应的各个漫画化角色人物图确定为目标漫画化角色人物图；

融合子单元，用于对于每个所述故事分镜，将所述故事分镜的各个所述目标漫画化角色人物图和各个所述漫画背景图像进行图像融合处理，得到各个漫画视频帧。

在本发明提供的另一实施例中，该装置还可以配置为：

采集单元，用于从所述影视作品中采集每个所述影视角色的音频数据；

训练单元，用于对于每个所述影视角色，使用所述影视角色的音频数据对预设的初始语音输出模型进行训练，并在训练完成后得到所述影视角色的语音输出模型；

第四获取单元，用于获取各个所述影视角色在所述故事脚本中的台词信息；

第五获取单元，用于，用于对于每个所述影视角色，使用所述语音输出模型对所述影视角色的台词信息进行处理，得到与所述影视角色对应的台词音频；

融合单元，用于将各个所述影视角色的台词音频与所述动态漫画视频融合，得到有声的动态漫画视频。

在本发明提供的另一实施例中，该装置还可以配置为：

添加单元，用于确定待添加的各项视频素材，将各项所述视频素材添加至所述动态漫画视频中。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述动态漫画生成方法。

本发明实施例还提供了一种电子设备，其结构示意图如图10所示，具体包括存储器901，以及一个或者一个以上的指令902，其中一个或者一个以上指令902存储于存储器901中，且经配置以由一个或者一个以上处理器903执行所述一个或者一个以上指令902执行上述动态漫画生成方法。

需要说明的是，本申请所涉及的信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

上述各个实施例的具体实施过程及其衍生方式，均在本发明的保护范围之内。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种动态漫画生成方法，其特征在于，包括：

确定故事脚本和影视作品；

获取所述影视作品中的各个影视角色的各个角色剧照；

对于每个所述影视角色，基于预设的漫画人物生成底座模型对所述影视角色的各个角色剧照进行处理，获取所述影视角色的多张漫画化角色人物图，不同的漫画风格有不同的漫画人物生成底座模型；

2.根据权利要求1所述的方法，其特征在于，所述获取所述影视作品中的各个影视角色的各个角色剧照，包括：

确定每个所述影视角色在所述影视作品中的各个妆造形象；

对于每个所述影视角色的每个妆造形象，从所述影视作品中提取与所述妆造形象对应的各个视频帧，并将提取的各个视频帧确定为所述影视角色的角色剧照。

3.根据权利要求1所述的方法，其特征在于，所述获取所述故事脚本中各个故事分镜的各个分镜背景图像，包括：

对所述故事脚本进行解析，获取所述故事脚本中的各个故事分镜的画面描述词；

对于每个所述故事分镜，在所述影视作品中检索与所述故事分镜的画面描述词对应的各个视频帧，并将检索到的各个视频帧确定为所述故事分镜的分镜背景图像。

4.根据权利要求2所述的方法，其特征在于，所述基于预设的漫画人物生成底座模型对所述影视角色的各个角色剧照进行处理，获取所述影视角色的多张漫画化角色人物图，包括：

调用所述漫画人物生成底座模型对各个所述角色剧照进行处理，得到各个角色漫画图，所述角色漫画图包含所述影视角色的漫画形象；

对各个所述角色漫画图中的漫画形象进行抠图处理，得到各个漫画化角色人物图。

5.根据权利要求2所述的方法，其特征在于，所述基于各个所述漫画化角色人物图和各个所述漫画背景图像，生成每个所述故事分镜的各个漫画视频帧，包括：

获取每个所述故事分镜的角色信息以及故事时间信息；

基于每个所述故事分镜的角色信息，在各个所述影视角色中确定每个所述故事分镜的各个参与角色；

对于每个所述故事分镜的每个参与角色，基于各个所述故事时间信息，在所述参与角色的各个妆造形象中确定目标妆造形象，并将与所述目标妆造形象对应的各个漫画化角色人物图确定为目标漫画化角色人物图；

对于每个所述故事分镜，将所述故事分镜的各个所述目标漫画化角色人物图和各个所述漫画背景图像进行图像融合处理，得到各个漫画视频帧。

6.根据权利要求1所述的方法，其特征在于，还包括：

从所述影视作品中采集每个所述影视角色的音频数据；

对于每个所述影视角色，使用所述影视角色的音频数据对预设的初始语音输出模型进行训练，并在训练完成后得到所述影视角色的语音输出模型；

获取各个所述影视角色在所述故事脚本中的台词信息；

对于每个所述影视角色，使用所述语音输出模型对所述影视角色的台词信息进行处理，得到与所述影视角色对应的台词音频；

将各个所述影视角色的台词音频与所述动态漫画视频融合，得到有声的动态漫画视频。

7.根据权利要求1-6任意一项所述的方法，其特征在于，还包括：

确定待添加的各项视频素材，将各项所述视频素材添加至所述动态漫画视频中。

8.一种动态漫画生成装置，其特征在于，包括：

确定单元，用于确定故事脚本和影视作品；

第三获取单元，用于对于每个所述影视角色，基于预设的漫画人物生成底座模型对所述影视角色的各个角色剧照进行处理，获取所述影视角色的多张漫画化角色人物图，不同的漫画风格有不同的漫画人物生成底座模型；

9.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1-7任意一项所述的动态漫画生成方法。

10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1-7任意一项所述的动态漫画生成方法。