CN115811639A

CN115811639A - 漫画视频生成方法、装置、电子设备和存储介质

Info

Publication number: CN115811639A
Application number: CN202211425118.XA
Authority: CN
Inventors: 郭明坤
Original assignee: Baidu International Technology Shenzhen Co ltd
Current assignee: Baidu International Technology Shenzhen Co ltd
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-03-17

Abstract

本公开提供了一种漫画视频生成方法、装置、电子设备和存储介质，涉及深度学习、图像处理、计算机视觉技术领域，可应用于AIGC(AI‑Generated Content，利用AI(Artificial Intelligence，人工智能)技术自动生成内容的生产方式)等场景。具体实现方案为：根据至少一幅漫画图像的画面内容，生成至少一幅漫画图像对应的视频片段，并根据至少一幅漫画图像的排列位置，对至少一幅漫画图像对应的视频片段进行视频合成，以得到漫画视频。由此，可以实现将静态的漫画图像制作为动态的漫画视频，可以便于读者直观且快速地了解漫画剧情。并且，无需用户对静态的漫画图像进行定位和翻页，可以降低读者操作，改善读者的阅读体验。

Description

漫画视频生成方法、装置、电子设备和存储介质

技术领域

本公开涉及AI(Artificial Intelligence，人工智能)领域，具体涉及深度学习、图像处理、计算机视觉技术领域，可应用于AIGC(AI-Generated Content，利用AI技术自动生成内容的生产方式)等场景，尤其涉及漫画视频生成方法、装置、电子设备和存储介质。

背景技术

随着移动互联网技术的快速发展，基于电子设备进行阅读的方式逐渐普及，其中，电子漫画作为阅读内容的一部分也被人们所接受。电子漫画是纸质漫画的电子化版本，读者需要采用与阅读纸质漫画相同的方式，一页一页地对电子漫画进行浏览。即，读者在对电子漫画进行浏览的过程中，需要对电子漫画进行不断地定位和翻页，是一种传统的图片级的浏览方式。

发明内容

本公开提供了一种用于漫画视频生成方法、装置、电子设备和存储介质。

根据本公开的一方面，提供了一种漫画视频生成方法，包括：

获取至少一幅漫画图像；

根据所述至少一幅漫画图像的画面内容，生成所述至少一幅漫画图像对应的视频片段；

根据所述至少一幅漫画图像的排列位置，对所述至少一幅漫画图像对应的视频片段进行视频合成，以得到漫画视频。

根据本公开的另一方面，提供了一种漫画视频生成装置，包括：

第一获取模块，用于获取至少一幅漫画图像；

生成模块，用于根据所述至少一幅漫画图像的画面内容，生成所述至少一幅漫画图像对应的视频片段；

合成模块，用于根据所述至少一幅漫画图像的排列位置，对所述至少一幅漫画图像对应的视频片段进行视频合成，以得到漫画视频。

根据本公开的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开上述一方面提出的漫画视频生成方法。

根据本公开的再一方面，提供了一种计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开上述一方面提出的漫画视频生成方法。

根据本公开的还一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开上述一方面提出的漫画视频生成方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例一所提供的漫画视频生成方法的流程示意图；

图2(a)为本公开实施例所提供的电子漫画示意图一；

图2(b)为本公开实施例所提供的电子漫画示意图二；

图2(c)为本公开实施例所提供的电子漫画示意图三；

图3为本公开实施例二所提供的漫画视频生成方法的流程示意图；

图4为本公开实施例三所提供的漫画视频生成方法的流程示意图；

图5为本公开实施例所提供的电子漫画示意图四；

图6为本公开实施例四所提供的漫画视频生成方法的流程示意图；

图7为本公开实施例五所提供的漫画视频生成方法的流程示意图；

图8为本公开实施例六所提供的漫画视频生成装置的结构示意图；

图9示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前，动漫视频的制作流程包括：剧情策划-美术设计-造型设计-分镜头台本-原画设计-动画设计-后期处理-配音-配乐-混录等。上述制作流程繁琐，需要专业的设计经验和工具使用经验，才能够制作出动漫视频。并且，上述方式虽然能够提供高画质和高流畅度的动漫视频，但对于漫画读者来说，直观快速的了解漫画剧情才是核心诉求。

针对上述存在的至少一项问题，本公开提出一种漫画视频生成方法、装置、电子设备和存储介质。

下面参考附图描述本公开实施例的漫画视频生成方法、装置、电子设备和存储介质。

图1为本公开实施例一所提供的漫画视频生成方法的流程示意图。

本公开实施例以该漫画视频生成方法被配置于漫画视频生成装置中来举例说明，该漫画视频生成装置可以应用于任一电子设备中，以使该电子设备可以执行漫画视频生成功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为PC(PersonalComputer，个人电脑)、移动终端、服务器等，移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该漫画视频生成方法可以包括以下步骤：

步骤101，获取至少一幅漫画图像。

在本公开实施例中，对漫画图像的获取方式不作限制，比如，漫画图像可以为用户绘制的电子漫画，再比如，漫画图像可以为在线下载的电子漫画，例如通过网络爬虫技术在线采集的电子漫画，再比如，漫画图像可以线下采集的电子漫画，比如通过图像采集设备对纸质漫画进行拍摄得到的电子漫画，等等，本公开对此并不做限制。

在本公开实施例中，漫画图像的个数可以为一个，或者，漫画图像的个数也可以为多个，本公开对此并不做限制。

其中，每一幅漫画图像中可以包含一帧子图像(即漫画图像的一页只有一张图片)，或者，每一幅漫画图像也可以包含多帧子图像(即漫画图像的一页包含多张图片)。

作为一种示例，当漫画图像中包含多帧子图像时，漫画图像中的多帧子图像的排版方式可以包括纵向排版或纵向排列(如图2(a)所示)、横向排版或横向排列(如图2(b)所示)、网格状排版或网格状排列(如图2(c)所示)。

步骤102，根据至少一幅漫画图像的画面内容，生成至少一幅漫画图像对应的视频片段。

在本公开实施例中，针对至少一幅漫画图像中的任意一幅漫画图像，可以根据该漫画图像的画面内容，生成该漫画图像对应的视频片段。

步骤103，根据至少一幅漫画图像的排列位置，对至少一幅漫画图像对应的视频片段进行视频合成，以得到漫画视频。

在本公开实施例中，可以根据至少一幅漫画图像的排列位置，对至少一幅漫画图像对应的视频片段进行视频合成，以得到漫画图像。即，可以根据各漫画图像的页码顺序，将各漫画图像的视频片段按照时间顺序进行拼接或组合，以得到漫画视频。

本公开实施例的漫画视频生成方法，通过根据至少一幅漫画图像的画面内容，生成至少一幅漫画图像对应的视频片段，并根据至少一幅漫画图像的排列位置，对至少一幅漫画图像对应的视频片段进行视频合成，以得到漫画视频。由此，可以实现将静态的漫画图像制作为动态的漫画视频，可以便于读者直观且快速地了解漫画剧情。并且，无需用户对静态的漫画图像进行定位和翻页，可以降低读者操作，改善读者的阅读体验。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均在征得用户同意的前提下进行，并且均符合相关法律法规的规定，且不违背公序良俗。

作为一种可能的实现方式，当每一幅漫画图像中包含一帧子图像，即漫画图像的一页只有一张图片的情况下，为了清楚说明本公开上述实施例中是如何生成漫画图像对应的视频片段的，本公开还提出一种漫画视频生成方法。

图3为本公开实施例二所提供的漫画视频生成方法的流程示意图。

如图3所示，该漫画视频生成方法可以包括以下步骤：

步骤301，获取至少一幅漫画图像。

步骤301的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤302，针对至少一幅漫画图像中的任一漫画图像，对该漫画图像的画面内容进行光学字符识别，以得到文本信息。

在本公开实施例中，在漫画图像包含一帧子图像的情况下，针对至少一幅漫画图像中的任意一幅漫画图像，可以基于OCR(Optical Character Recognition，光学字符识别)技术，对该漫画图像的画面内容进行光学字符识别，以得到文本信息。

需要说明的是，漫画图像中可能包含对象(比如人、动物等)的对话信息，也可能包含一些与对话无关的文字信息或字符信息(比如街景中的广告信息、招聘信息、招租信息等)，而读者在阅读漫画时，更为关心的是各个对象的对话信息，以了解剧情发展。因此，在本公开实施例的一种可能的实现方式中，为了便于用户了解漫画剧情，可以根据漫画图像的画面内容，从漫画图像中提取包含对话内容的目标区域，仅对目标区域进行光学字符识别，以得到文本信息。

由此，通过提取漫画图像中各个对象的对话内容，过滤与对话内容无关的文字信息(比如街景中的广告信息、招聘信息、招租信息等)，一方面，可以便于读者快速了解漫画剧情，另一方面，可以提升字符的识别效率。

步骤303，对文本信息进行语音转换，以得到音频片段。

在本公开实施例中，可以基于TTS(Text To Speech，文本到语音)技术(即语音合成技术)，对文本信息进行语音转换，以得到音频片段。

步骤304，将漫画图像与音频片段进行合成，以得到漫画图像对应的视频片段。

在本公开实施例中，可以将漫画图像与音频片段进行合成，以得到漫画图像对应的视频片段。

需要说明的是，在漫画图像中未包含文本信息的情况下，可以仅根据该漫画图像生成视频片段。

还需说明的是，不同读者的阅读速度可能不同，比如，有的读者阅读速度相对较快，而有的读者阅读速度相对较慢，对于阅读速度较快的读者而言，如果一幅漫画图像的视频片段的展示时长较长，则可能会发生漫画视频的播放速度较慢的情况，或者，对于阅读速度较慢的读者而言，如果一幅漫画图像的视频片段的展示时长较短，则可能发生漫画视频的播放速度较快的情况，上述方式均会降低读者的阅读体验。

因此，针对上述问题，在本公开实施例的一种可能的实现方式中，为了满足不同用户的个性化阅读需求，可以由用户设置每一幅漫画图像对应的视频片段的展示时长。

作为一种示例，针对步骤306，可以获取第一配置时长，其中，第一配置时长是响应于用户触发的第一配置操作，对各视频片段的展示时长进行配置得到的，可以根据第一配置时长对音频片段的时长进行调整，以使时长调整后的音频片段的播放时长与第一配置时长匹配，之后，可以将漫画图像与时长调整后的音频片段进行合成，以得到展示时长与第一配置时长匹配的漫画图像的视频片段。

由此，可以实现由用户对一幅漫画图像对应的视频片段的展示时长进行配置，以满足不同用户的个性化阅读需求。同时，根据视频片段的展示时长对音频片段的播放时长进行调整，可以使得音频片段的播放语速适中，进一步改善用户的阅读体验。

步骤305，根据至少一幅漫画图像的排列位置，对至少一幅漫画图像对应的视频片段进行视频合成，以得到漫画视频。

步骤305的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

本公开实施例的漫画视频生成方法，通过针对至少一幅漫画图像中的任一漫画图像，对该漫画图像的画面内容进行光学字符识别，以得到文本信息；对文本信息进行语音转换，以得到音频片段；将该漫画图像与音频片段进行合成，以得到该漫画图像对应的视频片段。由此，可以实现根据漫画图像中的文本信息，对漫画图像对应的视频片段进行配音，可以提升漫画视频的吸引力和趣味性。

作为一种可能的实现方式，当每一幅漫画图像中包含多帧子图像，即漫画图像的一页包含多张图片的情况下，为了清楚说明本公开上述实施例中是如何生成漫画图像对应的视频片段的，本公开还提出一种漫画视频生成方法。

图4为本公开实施例三所提供的漫画视频生成方法的流程示意图。

如图4所示，该漫画视频生成方法可以包括以下步骤：

步骤401，获取至少一幅漫画图像。

步骤401的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤402，针对至少一幅漫画图像中的任一漫画图像，对该漫画图像进行拆分，以得到多帧目标子图像。

在本公开实施例中，针对至少一幅漫画图像中的任意一幅漫画图像，可以对该漫画图像进行拆分，以得到多帧目标子图像。比如，可以基于图像识别技术，识别得到漫画图像中的每一帧目标子图像，并从漫画图像中截取每一帧目标子图像。

需要说明的是，当漫画图像包含多帧子图像的情况下，各个子图像可能是规则排版的，也可能是不规则排版的，对于规则排版的各个子图像(比如图2(a)、图2(b)或图2(c)中的各个子图像)，可以基于图像识别技术提取每个子图像，并作为目标子图像。而对于非规则排版的各个子图像(比如图5中的各个子图像，例如图5中的子图像2、子图像3、子图像4和子图像5)，此时，为了降低计算的复杂度，提升图像的处理效率，以及避免生成的漫画视频中各视频帧的展示顺序与漫画情节不符的情况，可以将图5中的子图像2、子图像3、子图像4和子图像5所组成的局部图像，作为一个目标子图像。

作为一种示例，针对步骤402，在漫画图像中包含与设定形状(比如矩形)匹配的第一候选子图像的情况下，可以将该第一候选子图像作为目标子图像，并从漫画图像中截取目标子图像；而在漫画图像中包含与设定形状不匹配的第二候选子图像的情况下，可以根据各第二候选子图像在漫画图像中的排列位置，从漫画图像中截取与设定形状匹配的目标子图像，其中，目标子图像中包含排列位置临近的多个第二候选子图像。

仍以漫画图像如图5所示，且设定形状为矩形进行示例，可以将与设定形状匹配的子图像1和子图像6均作为目标子图像，将子图像2、子图像3、子图像4和子图像5所组成的局部图像，作为一个目标子图像。

由此，对于非规则排版的各个子图像，从漫画图像中提取与设定形状匹配的目标子图像，可以降低计算的复杂度，提升图像的处理效率，并且，还可以避免生成的漫画视频中各视频帧的展示顺序与漫画情节不符的情况。

步骤403，根据多帧目标子图像的画面内容，生成多帧目标子图像对应的子视频片段。

在本公开实施例中，针对多帧目标子图像中的任意一帧目标子图像，可以根据该目标子图像的画面内容，生成该目标子图像对应的子视频片段。

作为一种可能的实现方式，目标子图像对应的子视频片段的生成方式可以为：可以基于OCR技术，对该目标子图像的画面内容进行光学字符识别，以得到子文本信息，并基于TTS技术，对子文本信息进行语音转换，以得到子音频片段，从而可以将目标子图像与该子音频片段进行合成，以得到目标子图像对应的子视频片段。

由此，可以实现根据目标子图像中的文本信息，对目标子图像对应的子视频片段进行配音，可以提升漫画视频的吸引力和趣味性。

需要说明的是，不同读者的阅读速度可能不同，比如，有的读者阅读速度相对较快，而有的读者阅读速度相对较慢，对于阅读速度较快的读者而言，如果一帧目标子图像的子视频片段的展示时长较长，则可能会发生漫画视频的播放速度较慢的情况，或者，对于阅读速度较慢的读者而言，如果一帧目标子图像的子视频片段的展示时长较短，则可能发生漫画视频的播放速度较快的情况，上述方式均会降低读者的阅读体验。

因此，针对上述问题，在本公开实施例的一种可能的实现方式中，为了满足不同用户的个性化阅读需求，可以由用户设置每一帧子图像对应的子视频片段的展示时长。

作为一种示例，子视频片段的生成方式可以为：可以获取第二配置时长，其中，第二配置时长是响应于用户触发的第二配置操作，对各子视频片段的展示时长进行配置得到的，可以根据第二配置时长对子音频片段的时长进行调整，以使时长调整后的子音频片段的播放时长与第二配置时长匹配，之后，可以将目标子图像与时长调整后的子音频片段进行合成，以得到展示时长与第二配置时长匹配的目标子图像的子视频片段。

由此，可以实现由用户对一帧子图像对应的子视频片段的展示时长进行配置，以满足不同用户的个性化阅读需求。同时，根据子视频片段的展示时长对子音频片段的播放时长进行调整，可以使得子音频片段的播放语速适中，进一步改善用户的阅读体验。

步骤404，确定多帧目标子图像在漫画图像中的排版方式。

在本公开实施例中，排版方式包括但不限于横向排版(或横向排列)、纵向排版(或纵向排列)、网格状排版(或网格状排列)。

在本公开实施例中，可以基于图像识别技术，对漫画图像进行图像识别，以确定多帧目标子图像在漫画图像中的排版方式，或者，也可以通过人工识别方式，确定多帧目标子图像在漫画图像中的排版方式，本公开对此并不做限制。

步骤405，根据排版方式，对多帧目标子图像对应的子视频片段进行合成，以得到漫画图像对应的视频片段。

在本公开实施例中，可以根据排版方式，对多帧目标子图像对应的子视频片段进行合成，以得到漫画图像对应的视频片段。

作为一种示例，当排版方式为纵向排版时，如图2(a)所示，可以将子图像A的子视频片段、子图像B的子视频片段、子图像C的子视频片段和子图像D的子视频片段，按照时间顺序进行依次拼接或组合，得到漫画图像对应的视频片段。

作为另一种示例，当排版方式为横向排版时，如图2(b)所示，可以将子图像A’的子视频片段、子图像B’的子视频片段、子图像C’的子视频片段和子图像D’的子视频片段，按照时间顺序进行依次拼接或组合，得到漫画图像对应的视频片段。

作为又一种示例，当排版方式为网格状排版时，如图2(c)所示，可以将子图像A”的子视频片段、子图像B”的子视频片段、子图像C”的子视频片段、子图像D”的子视频片段、子图像E”的子视频片段和子图像F”的子视频片段，按照时间顺序进行依次拼接或组合，得到漫画图像对应的视频片段。

需要说明的是，不同漫画图像的阅读方式可能不同，比如，有的漫画图像的阅读方式为从左向右阅读，有的漫画图像的阅读方式为从右向左阅读，有的漫画图像的阅读方式为从上向下阅读，有的漫画图像的阅读方式为从下向上阅读，对于排版方式相同但阅读方式不同的漫画图像，如果采用相同的方式，将各目标子图像的子视频片段进行合成，将导致合成的漫画视频中的视频帧是乱序的，与漫画图像中所展示的情节不匹配。

针对上述问题，作为本公开实施例的一种可能的实现方式，还可以获取漫画图像的阅读方式(比如可由用户指定阅读方式，或者，漫画图像上可以标注有阅读方式)，从而本公开中，可以根据漫画图像的阅读方式和排版方式，对多帧目标子图像对应的子视频片段进行合成，以得到漫画图像对应的视频片段。

作为一种示例，当排版方式为纵向排版，且阅读方式为从上向下阅读时，如图2(a)所示，可以将子图像A的子视频片段、子图像B的子视频片段、子图像C的子视频片段和子图像D的子视频片段，按照时间顺序进行依次拼接或组合，得到漫画图像对应的视频片段。而当排版方式为纵向排版，且阅读方式为从下向上阅读时，如图2(a)所示，可以将子图像D的子视频片段、子图像C的子视频片段、子图像B的子视频片段和子图像A的子视频片段，按照时间顺序进行依次拼接或组合，得到漫画图像对应的视频片段。

作为另一种示例，当排版方式为横向排版，且阅读方式为从左向右阅读时，如图2(b)所示，可以将子图像A’的子视频片段、子图像B’的子视频片段、子图像C’的子视频片段和子图像D’的子视频片段，按照时间顺序进行依次拼接或组合，得到漫画图像对应的视频片段。而当排版方式为横向排版，且阅读方式为从右向左阅读时，如图2(b)所示，可以将子图像D’的子视频片段、子图像C’的子视频片段、子图像B’的子视频片段和子图像A’的子视频片段，按照时间顺序进行依次拼接或组合，得到漫画图像对应的视频片段

作为又一种示例，当排版方式为网格状排版，且阅读方式为从左向右阅读时，如图2(c)所示，可以将子图像A”的子视频片段、子图像B”的子视频片段、子图像C”的子视频片段、子图像D”的子视频片段、子图像E”的子视频片段和子图像F”的子视频片段，按照时间顺序进行依次拼接或组合，得到漫画图像对应的视频片段。而当排版方式为网格状排版，且阅读方式为从由右向左阅读时，如图2(c)所示，可以将子图像B”的子视频片段、子图像A”的子视频片段、子图像E”的子视频片段、子图像D”的子视频片段、子图像C”的子视频片段和子图像F”的子视频片段，按照时间顺序进行依次拼接或组合，得到漫画图像对应的视频片段。

步骤406，根据至少一幅漫画图像的排列位置，对至少一幅漫画图像对应的视频片段进行视频合成，以得到漫画视频。

步骤406的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

本公开实施例的漫画视频生成方法，通过针对至少一幅漫画图像中的任一漫画图像，对该漫画图像进行拆分，以得到多帧目标子图像；根据多帧目标子图像的画面内容，生成多帧目标子图像对应的子视频片段；确定多帧目标子图像在漫画图像中的排版方式；根据排版方式，对多帧目标子图像对应的子视频片段进行合成，以得到该漫画图像对应的视频片段。由此，当一幅漫画图像中包含多帧目标子图像的情况下，可以分别生成每一帧目标子图像对应的子视频片段，无需用户通过上下滑动方式或左右滑动方式，阅读同一幅漫画图像中的不同子图像，可以便于用户阅读漫画图像，改善用户的阅读体验。

作为一种可能的实现方式，为了进一步改善用户的阅读体验，还可以根据漫画图像所属的题材和/或风格，为漫画视频添加背景音频。下面结合图6，对上述过程进行详细说明。

图6为本公开实施例四所提供的漫画视频生成方法的流程示意图。

如图6所示，在上述任一实施例的基础上，该漫画视频生成方法还可以包括以下步骤：

步骤601，获取至少一幅漫画图像中的文本信息。

在本公开实施例中，漫画图像中的文本信息，可以是漫画图像中的所有字符信息，或者，也可以是漫画图像中与对话内容相关的字符信息。

步骤602，对至少一幅漫画图像中的文本信息进行分类，以得到目标类别，其中，目标类别用于指示至少一幅漫画图像所属的题材和/或风格。

在本公开实施例中，可以将各漫画图像中的文本信息进行分类，以得到目标类别，其中，目标类别用于指示漫画图像所属的题材和/或风格。

作为一种示例，可以采用经过训练的文本分类模型对各漫画图像中的文本信息进行分类，以得到目标类别，其中，文本分类模型已学习到文本与类别之间的对应关系。

步骤603，根据目标类别，从多个候选背景音频中确定与目标类别匹配的目标背景音频。

在本公开实施例中，可以预先配置不同背景音频与类别之间的对应关系，从而本公开中，在确定漫画图像所属的目标类别后，可以根据目标类别查询上述对应关系，以确定与该目标类别匹配的背景音频，并作为目标背景音频。

需要说明的是，当与目标类别匹配的背景音频的个数为多个时，可以根据多个背景音频的热度，从多个背景音频中选择目标背景音频。其中，热度可以通过对背景音频监测到的用户交互数据确定，比如可以根据背景音频的播放量、点击量、收藏量、分享量等用户交互数据确定。

步骤604，将目标背景音频与漫画视频进行合成，以得到合成后的漫画视频。

在本公开实施例中，可以将目标背景音频与漫画视频进行合成，即，可以为漫画视频添加目标背景音频，以得到合成后的漫画视频。

本公开实施例的漫画视频生成方法，通过获取至少一幅漫画图像中的文本信息；对至少一幅漫画图像中的文本信息进行分类，以得到目标类别，其中，目标类别用于指示至少一幅漫画图像所属的题材和/或风格；根据目标类别，从多个候选背景音频中确定与目标类别匹配的目标背景音频；将目标背景音频与漫画视频进行合成，以得到合成后的漫画视频。由此，可以实现对漫画视频，添加与漫画图像所属题材和/或风格匹配的目标背景音频，以提升漫画视频的吸引力，改善用户的阅读体验。

在本公开实施例的一种可能的实现方式，为了进一步提升漫画视频的吸引力，可以识别漫画图像是否为灰度图像，若是，则可以对漫画视频中的视频帧进行自动配色，以得到彩色的漫画视频。下面结合图7，对上述过程进行详细说明。

图7为本公开实施例五所提供的漫画视频生成方法的流程示意图。

如图7所示，在上述任一实施例的基础上，该漫画视频生成方法还可以包括以下步骤：

步骤701，识别至少一幅漫画图像是否为灰度图像。

在本公开实施例中，可以基于图像识别技术，识别至少一幅漫画图像是否为灰度图像，在各漫画图像均为彩色图像的情况下，可以无需任何处理，而在各漫画图像中存在至少一幅灰度图像的情况下，可以执行步骤702。或者，在漫画图像中存在至少一帧目标子图像为灰度图像的情况下，可以执行步骤702。

步骤702，在至少一幅漫画图像为灰度图像的情况下，基于目标配色模型对漫画视频中的各视频帧进行配色，以得到配色后的漫画视频。

在本公开实施例中，在各漫画图像中存在至少一幅漫画图像为灰度图像的情况下，或者，在漫画图像中存在至少一帧目标子图像为灰度图像的情况下，可以基于经过训练的目标配色模型对漫画视频中的各视频帧进行配色，以得到配色后的漫画视频。

在本公开实施例的一种可能的实现方式中，目标配色模型的训练方式可以为：可以获取彩色漫画，并获取样本漫画，其中，样本漫画是对彩色漫画进行灰度处理得到的，可以采用初始配色模型对样本漫画进行配色，以得到配色漫画，并根据配色漫画和彩色漫画之间的色彩差异，对初始配色模型进行训练，以得到目标配色模型。

其中，彩色漫画是指彩色的漫画图像。本公开中，对彩色漫画的获取方式不做限制，比如可以在线采集彩色漫画，或者也可以线下采集漫画图像，等等。

作为一种示例，可以根据配色漫画和彩色漫画之间的色彩差异，生成损失值，根据损失值对初始配色模型中的模型参数进行调整，以得到目标配色模型。其中，损失值与上述色彩差异呈正相关关系，即色彩差异越小，损失值越小，反之，色彩差异越大，损失值越大。

比如，可以根据损失值对初始配色模型中的模型参数进行调整，以使损失值最小化。

需要说明的是，上述仅以模型训练的终止条件为损失值最小化进行示例，实际应用时，还可以设置其他终止条件，比如，训练次数达到设定次数，训练时长达到设定时长，损失值收敛等等，本公开对此并不做限制。

由此，预先对配色模型进行训练，采用经过训练后的配色模型对漫画视频进行自动配色，可以提升漫画视频的配色效果，提升漫画视频的吸引力。

本公开实施例的漫画视频生成方法，通过在至少一幅漫画图像为灰度图像的情况下，基于目标配色模型对漫画视频中的各视频帧进行配色，以得到配色后的漫画视频。由此，可以基于深度学习技术，对漫画视频进行自动配色，以提升漫画视频的吸引力，改善用户的阅读体验。

在本公开的任意一个实施例之中，可以将图片级的电子漫画转换为漫画视频，同时搭配自动生成的语音，给读者提供视频级观看体验。

具体地，对于不同排版方式的电子漫画而言，例如，有的电子漫画的一页只有一张图片，有的电子漫画的一页是多张图片纵向排列、横向排列或网格状排列。针对电子漫画的一页只有一张图片的情况，可以按照电子漫画的页码顺序，将各漫画图像依次合成视频帧，每个视频帧的持续时长可以自定义设置，从而可以根据自定义设置的持续时长，为每个视频帧生成对应的视频片段。同时，可以基于OCR技术，将各漫画图像中的对话内容提取出来，并通过语音生成技术生成音频片段，将音频片段作为对应漫画图像的配音。

可选地，对于完整的漫画视频，可根据电子漫画所属的题材和/或风格，为该漫画视频选择设置背景音乐或背景音频。

针对电子漫画的一页包含多张图片(比如横向、纵向或网格状排列)的情况，除了按照电子漫画的页码顺序排序之外，还需要对每一页漫画图像按照窗格进行自动拆分，通过指定的窗格顺序或阅读顺序(例如从上到下，从右到左)，将拆分得到的各图片(本公开中记为目标子图像)依次合成视频帧。并且，可以将每个窗格内的对话内容提取出来，通过语音生成技术生成子音频片段，将子音频片段作为对应目标子图像的配音。

可选地，当漫画图像为黑白图像或灰度图像时，可以通过目标配色模型，对漫画视频信息自动配色或上色，以得到彩色的漫画视频，提升用户的观看体验。

综上，用户无需具有专业的动漫视频的设计经验和工具使用经验，即可制作出漫画视频，并且，将图片级的电子漫画转换为漫画视频，可以给读者提供视频级观看体验。

与上述图1至图7实施例提供的漫画视频生成方法相对应，本公开还提供一种漫画视频生成装置，由于本公开实施例提供的漫画视频生成装置与上述图1至图7实施例提供的漫画视频生成方法相对应，因此在漫画视频生成方法的实施方式也适用于本公开实施例提供的漫画视频生成装置，在本公开实施例中不再详细描述。

图8为本公开实施例六所提供的漫画视频生成装置的结构示意图。

如图8所示，该漫画视频生成装置800可以包括：第一获取模块801、生成模块802以及合成模块803。

其中，第一获取模块801，用于获取至少一幅漫画图像。

生成模块802，用于根据至少一幅漫画图像的画面内容，生成至少一幅漫画图像对应的视频片段。

合成模块803，用于根据至少一幅漫画图像的排列位置，对至少一幅漫画图像对应的视频片段进行视频合成，以得到漫画视频。

在本公开实施例的一种可能的实现方式中，漫画图像包含一帧子图像；生成模块802，用于：针对至少一幅漫画图像中的任一漫画图像，对漫画图像的画面内容进行光学字符识别，以得到文本信息；对文本信息进行语音转换，以得到音频片段；将漫画图像与音频片段进行合成，以得到漫画图像对应的视频片段。

在本公开实施例的一种可能的实现方式中，生成模块802，用于：根据漫画图像的画面内容，从漫画图像中提取包含对话内容的目标区域；对目标区域进行光学字符识别，以得到文本信息。

在本公开实施例的一种可能的实现方式中，生成模块802，用于：获取第一配置时长，其中，第一配置时长是响应于第一配置操作对各视频片段的展示时长进行配置得到的；根据第一配置时长对音频片段的时长进行调整；将漫画图像与时长调整后的音频片段进行合成，以得到展示时长与第一配置时长匹配的漫画图像的视频片段。

在本公开实施例的一种可能的实现方式中，漫画图像包含多帧子图像；生成模块802，用于：针对至少一幅漫画图像中的任一漫画图像，对漫画图像进行拆分，以得到多帧目标子图像；根据多帧目标子图像的画面内容，生成多帧目标子图像对应的子视频片段；确定多帧目标子图像在漫画图像中的排版方式；根据排版方式，对多帧目标子图像对应的子视频片段进行合成，以得到漫画图像对应的视频片段。

在本公开实施例的一种可能的实现方式中，生成模块802，用于：在漫画图像中包含与设定形状匹配的第一候选子图像的情况下，将第一候选子图像作为目标子图像，并从漫画图像中截取目标子图像；在漫画图像中包含与设定形状不匹配的第二候选子图像的情况下，根据各第二候选子图像在漫画图像中的排列位置，从漫画图像中截取与设定形状匹配的目标子图像，其中，目标子图像中包含排列位置临近的多个第二候选子图像。

在本公开实施例的一种可能的实现方式中，生成模块802，用于：针对多帧目标子图像中的任一目标子图像，对目标子图像的画面内容进行光学字符识别，以得到子文本信息；对子文本信息进行语音转换，以得到子音频片段；将目标子图像与子音频片段进行合成，以得到目标子图像对应的子视频片段。

在本公开实施例的一种可能的实现方式中，生成模块802，用于：获取第二配置时长，其中，第二配置时长是响应于第二配置操作对各子视频片段的展示时长进行配置得到的；根据第二配置时长对子音频片段的时长进行调整；将目标子图像与时长调整后的子音频片段进行合成，以得到展示时长与第二配置时长匹配的目标子图像的子视频片段。

在本公开实施例的一种可能的实现方式中，漫画视频生成装置800还可以包括：

第二获取模块，用于获取至少一幅漫画图像中的文本信息。

分类模块，用于对至少一幅漫画图像中的文本信息进行分类，以得到目标类别，其中，目标类别用于指示至少一幅漫画图像所属的题材和/或风格。

确定模块，用于根据目标类别，从多个候选背景音频中确定与目标类别匹配的目标背景音频。

处理模块，用于将目标背景音频与漫画视频进行合成，以得到合成后的漫画视频。

识别模块，用于识别至少一幅漫画图像是否为灰度图像。

第一配色模块，用于在至少一幅漫画图像为灰度图像的情况下，基于目标配色模型对漫画视频中的各视频帧进行配色，以得到配色后的漫画视频。

在本公开实施例的一种可能的实现方式中，目标配色模型通过以下模块训练得到：

第三获取模块，用于获取彩色漫画，并获取样本漫画，其中，样本漫画是对彩色漫画进行灰度处理得到的。

第二配色模块，用于采用初始配色模型对样本漫画进行配色，以得到配色漫画。

训练模块，用于根据配色漫画和彩色漫画之间的色彩差异，对初始配色模型进行训练，以得到目标配色模型。

本公开实施例的漫画视频生成装置，通过根据至少一幅漫画图像的画面内容，生成至少一幅漫画图像对应的视频片段，并根据至少一幅漫画图像的排列位置，对至少一幅漫画图像对应的视频片段进行视频合成，以得到漫画视频。由此，可以实现将静态的漫画图像制作为动态的漫画视频，可以便于读者直观且快速地了解漫画剧情。并且，无需用户对静态的漫画图像进行定位和翻页，可以降低读者操作，改善读者的阅读体验。

为了实现上述实施例，本公开还提供一种电子设备，该电子设备可以包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开上述任一实施例提出的漫画视频生成方法。

为了实现上述实施例，本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开上述任一实施例提出的漫画视频生成方法。

为了实现上述实施例，本公开还提供一种计算机程序产品，该计算机程序产品包括计算机程序，计算机程序在被处理器执行时实现本公开上述任一实施例提出的漫画视频生成方法。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

其中，电子设备可以包括上述实施例中的服务端、客户端。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，电子设备900包括计算单元901，其可以根据存储在ROM(Read-OnlyMemory，只读存储器)902中的计算机程序或者从存储单元908加载到RAM(Random AccessMemory，随机访问/存取存储器)903中的计算机程序，来执行各种适当的动作和处理。在RAM903中，还可存储电子设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM903通过总线904彼此相连。I/O(Input/Output，输入/输出)接口905也连接至总线904。

电子设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于CPU(Central Processing Unit，中央处理单元)、GPU(Graphic Processing Units，图形处理单元)、各种专用的AI(Artificial Intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如上述漫画视频生成方法。例如，在一些实施例中，上述漫画视频生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的漫画视频生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述漫画视频生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit，专用集成电路)、ASSP(Application Specific StandardProduct，专用标准产品)、SOC(System On Chip，芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode-Ray Tube，阴极射线管)或者LCD(Liquid Crystal Display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：LAN(LocalArea Network，局域网)、WAN(Wide Area Network，广域网)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(VirtualPrivate Server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

根据本公开实施例的技术方案，通过根据至少一幅漫画图像的画面内容，生成至少一幅漫画图像对应的视频片段，并根据至少一幅漫画图像的排列位置，对至少一幅漫画图像对应的视频片段进行视频合成，以得到漫画视频。由此，可以实现将静态的漫画图像制作为动态的漫画视频，可以便于读者直观且快速地了解漫画剧情。并且，无需用户对静态的漫画图像进行定位和翻页，可以降低读者操作，改善读者的阅读体验。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提出的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种漫画视频生成方法，所述方法包括：

获取至少一幅漫画图像；

2.根据权利要求1所述的方法，其中，所述漫画图像包含一帧子图像；

所述根据所述至少一幅漫画图像的画面内容，生成所述至少一幅漫画图像对应的视频片段，包括：

针对所述至少一幅漫画图像中的任一所述漫画图像，对所述漫画图像的画面内容进行光学字符识别，以得到文本信息；

对所述文本信息进行语音转换，以得到音频片段；

将所述漫画图像与所述音频片段进行合成，以得到所述漫画图像对应的视频片段。

3.根据权利要求2所述的方法，其中，所述对所述漫画图像的画面内容进行光学字符识别，以得到文本信息，包括：

根据所述漫画图像的画面内容，从所述漫画图像中提取包含对话内容的目标区域；

对所述目标区域进行光学字符识别，以得到文本信息。

4.根据权利要求2所述的方法，其中，所述将所述漫画图像与所述音频片段进行合成，以得到所述漫画图像对应的视频片段，包括：

获取第一配置时长，其中，所述第一配置时长是响应于第一配置操作对各所述视频片段的展示时长进行配置得到的；

根据所述第一配置时长对所述音频片段的时长进行调整；

将所述漫画图像与时长调整后的所述音频片段进行合成，以得到展示时长与所述第一配置时长匹配的所述漫画图像的视频片段。

5.根据权利要求1所述的方法，其中，所述漫画图像包含多帧子图像；

针对所述至少一幅漫画图像中的任一所述漫画图像，对所述漫画图像进行拆分，以得到多帧目标子图像；

根据所述多帧目标子图像的画面内容，生成所述多帧目标子图像对应的子视频片段；

确定所述多帧目标子图像在所述漫画图像中的排版方式；

根据所述排版方式，对所述多帧目标子图像对应的子视频片段进行合成，以得到所述漫画图像对应的视频片段。

6.根据权利要求5所述的方法，其中，所述对所述漫画图像进行拆分，以得到多帧目标子图像，包括：

在所述漫画图像中包含与设定形状匹配的第一候选子图像的情况下，将所述第一候选子图像作为目标子图像，并从所述漫画图像中截取所述目标子图像；

在所述漫画图像中包含与所述设定形状不匹配的第二候选子图像的情况下，根据各所述第二候选子图像在所述漫画图像中的排列位置，从所述漫画图像中截取与所述设定形状匹配的目标子图像，其中，所述目标子图像中包含排列位置临近的多个所述第二候选子图像。

7.根据权利要求5所述的方法，其特征在于，所述根据所述多帧目标子图像的画面内容，生成所述多帧目标子图像对应的子视频片段，包括：

针对所述多帧目标子图像中的任一所述目标子图像，对所述目标子图像的画面内容进行光学字符识别，以得到子文本信息；

对所述子文本信息进行语音转换，以得到子音频片段；

将所述目标子图像与所述子音频片段进行合成，以得到所述目标子图像对应的子视频片段。

8.根据权利要求7所述的方法，其中，所述将所述目标子图像与所述子音频片段进行合成，以得到所述目标子图像对应的子视频片段，包括：

获取第二配置时长，其中，所述第二配置时长是响应于第二配置操作对各所述子视频片段的展示时长进行配置得到的；

根据所述第二配置时长对所述子音频片段的时长进行调整；

将所述目标子图像与时长调整后的所述子音频片段进行合成，以得到展示时长与所述第二配置时长匹配的所述目标子图像的子视频片段。

9.根据权利要求1-8中任一项所述的方法，其中，所述方法还包括：

获取所述至少一幅漫画图像中的文本信息；

对所述至少一幅漫画图像中的文本信息进行分类，以得到目标类别，其中，所述目标类别用于指示所述至少一幅漫画图像所属的题材和/或风格；

根据所述目标类别，从多个候选背景音频中确定与所述目标类别匹配的目标背景音频；

将所述目标背景音频与所述漫画视频进行合成，以得到合成后的所述漫画视频。

10.根据权利要求1-8中任一项所述的方法，其中，所述方法还包括：

识别所述至少一幅漫画图像是否为灰度图像；

在所述至少一幅漫画图像为灰度图像的情况下，基于目标配色模型对所述漫画视频中的各视频帧进行配色，以得到配色后的所述漫画视频。

11.根据权利要求10所述的方法，其中，所述目标配色模型通过以下步骤训练得到：

获取彩色漫画，并获取样本漫画，其中，所述样本漫画是对所述彩色漫画进行灰度处理得到的；

采用初始配色模型对所述样本漫画进行配色，以得到配色漫画；

根据所述配色漫画和所述彩色漫画之间的色彩差异，对所述初始配色模型进行训练，以得到所述目标配色模型。

12.一种漫画视频生成装置，所述装置包括：

第一获取模块，用于获取至少一幅漫画图像；

13.根据权利要求12所述的装置，其中，所述漫画图像包含一帧子图像；所述生成模块，用于：

对所述文本信息进行语音转换，以得到音频片段；

14.根据权利要求13所述的装置，其中，所述生成模块，用于：

对所述目标区域进行光学字符识别，以得到文本信息。

15.根据权利要求13所述的装置，其中，所述生成模块，用于：

根据所述第一配置时长对所述音频片段的时长进行调整；

16.根据权利要求12所述的装置，其中，所述漫画图像包含多帧子图像；所述生成模块，用于：

确定所述多帧目标子图像在所述漫画图像中的排版方式；

17.根据权利要求16所述的装置，其中，所述生成模块，用于：

18.根据权利要求16所述的装置，其特征在于，所述生成模块，用于：

对所述子文本信息进行语音转换，以得到子音频片段；

19.根据权利要求18所述的装置，其中，所述生成模块，用于：

根据所述第二配置时长对所述子音频片段的时长进行调整；

20.根据权利要求12-19中任一项所述的装置，其中，所述装置还包括：

第二获取模块，用于获取所述至少一幅漫画图像中的文本信息；

分类模块，用于对所述至少一幅漫画图像中的文本信息进行分类，以得到目标类别，其中，所述目标类别用于指示所述至少一幅漫画图像所属的题材和/或风格；

确定模块，用于根据所述目标类别，从多个候选背景音频中确定与所述目标类别匹配的目标背景音频；

处理模块，用于将所述目标背景音频与所述漫画视频进行合成，以得到合成后的所述漫画视频。

21.根据权利要求12-19中任一项所述的装置，其中，所述装置还包括：

识别模块，用于识别所述至少一幅漫画图像是否为灰度图像；

第一配色模块，用于在所述至少一幅漫画图像为灰度图像的情况下，基于目标配色模型对所述漫画视频中的各视频帧进行配色，以得到配色后的所述漫画视频。

22.根据权利要求21所述的装置，其中，所述目标配色模型通过以下模块训练得到：

第三获取模块，用于获取彩色漫画，并获取样本漫画，其中，所述样本漫画是对所述彩色漫画进行灰度处理得到的；

第二配色模块，用于采用初始配色模型对所述样本漫画进行配色，以得到配色漫画；

训练模块，用于根据所述配色漫画和所述彩色漫画之间的色彩差异，对所述初始配色模型进行训练，以得到所述目标配色模型。

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的漫画视频生成方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的漫画视频生成方法。

25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述漫画视频生成方法的步骤。