CN111415399B

CN111415399B - 图像处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111415399B
Application number: CN202010197849.8A
Authority: CN
Inventors: 王波; 张骞
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2023-12-22
Anticipated expiration: 2040-03-19
Also published as: CN111415399A

Abstract

本发明提供了一种图像处理方法、装置、电子设备、计算机可读存储介质，该方法包括：对漫画图片按照漫画格进行分割，生成多个候选图片和多个候选图片之间的第一排列顺序；针对每个候选图片，从候选图片中提取文本信息，以及，生成与文本信息对应的语音信息，以及，基于候选图片的画面内容和文本信息的语义中的至少一个，获取特效信息，以及基于特效信息，对候选图片和语音信息中的至少一个进行编辑，生成与候选图片匹配的具有目标特效的视频片段，其中，目标特效为与特效信息匹配的特效；按照第一排列顺序，对与各候选图片分别匹配的所述视频片段进行拼接，生成与所述漫画图片匹配的目标视频。本发明能够将已有漫画转换为视频。

Description

图像处理方法、装置、电子设备及计算机可读存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像处理方法、装置、电子设备及计算机可读存储介质。

背景技术

随着硬件技术的发展，移动智能设备在互联网的占比已经超过PC(PersonalComputer，个人计算机)端。与PC的横屏显示不同，移动设备主要是竖屏显示方式。因此，许多原本适用于PC的信息展示方式已经不适合移动端。

以漫画来说，在PC端显示的漫画类型为页漫，由于PC端为宽屏、横屏显示，因此，为了适用于PC端的内容显示，页漫中的漫画格可以横向以及纵向排列，例如如图1所示的页漫，包括6个漫画格，画面内容较为密集；而随着技术的发展，目前移动端已经成为主流终端，由于移动端(例如手机)主要为窄屏、竖屏显示，因此，漫画开发者开发并创作了不同于页漫的条漫，例如如图2所示的条漫，条漫中的漫画格自上而下依次排序，通过连续画面叙述故事，在阅读时由于通过纵向阅读的多格长条形漫画，因此称为条漫画。条漫不同于页漫，条漫的漫画格采用上下结构进行排列，方便用户上下滑动切换显示的漫画格；并且条漫的内容不如页漫那么密集，适合小屏幕的观看。

由此可见，因PC端和移动端对内容显示方式的差异，页漫和条漫难以兼容上述两类终端的内容显示，使得漫画开发者需要依据PC端和移动端的内容显示方式分别重新开发并创作可适合显示的漫画，造成漫画制作成本较高和制作效率低的问题。

发明内容

本发明实施例提供了一种图像处理方法、装置、电子设备及计算机可读存储介质，以解决相关技术中需要依据PC端和移动端的内容显示方式分别重新开发并创作可适合显示的漫画而导致的漫画制作成本高和制作效率低的问题。

为了解决上述问题，根据本发明实施例的一个方面，本发明公开了一种图像处理方法，包括：

对漫画图片按照漫画格进行分割，生成多个候选图片和所述多个候选图片之间的第一排列顺序；

针对每个候选图片，从所述候选图片中提取文本信息，以及，生成与所述文本信息对应的语音信息，以及，基于所述候选图片的画面内容和所述文本信息的语义中的至少一个，获取特效信息，以及基于所述特效信息，对所述候选图片和所述语音信息中的至少一个进行编辑，生成与所述候选图片匹配的具有目标特效的视频片段，其中，所述目标特效为与所述特效信息匹配的特效；

按照所述第一排列顺序，对与各候选图片分别匹配的所述视频片段进行拼接，生成与所述漫画图片匹配的目标视频。

根据本发明实施例的另一方面，本发明还公开了一种图像处理装置，包括：

分割模块，用于对漫画图片按照漫画格进行分割，生成多个候选图片和所述多个候选图片之间的第一排列顺序；

处理模块，用于针对每个候选图片，从所述候选图片中提取文本信息，以及，生成与所述文本信息对应的语音信息，以及，基于所述候选图片的画面内容和所述文本信息的语义中的至少一个，获取特效信息，以及基于所述特效信息，对所述候选图片和所述语音信息中的至少一个进行编辑，生成与所述候选图片匹配的具有目标特效的视频片段，其中，所述目标特效为与所述特效信息匹配的特效；

拼接模块，用于按照所述第一排列顺序，对与各候选图片分别匹配的所述视频片段进行拼接，生成与所述漫画图片匹配的目标视频。

根据本发明实施例的又一方面，本发明还公开了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述任意一项所述的图像处理方法的步骤。

根据本发明实施例的再一方面，本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任意一项所述的图像处理方法中的步骤。

根据本发明实施例的又一方面，本发明还公开了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的图像处理方法。

在本发明实施例中，可以利用已有的漫画图片，来对漫画图片按照漫画格进行分割，从而生成多个候选图片、多个候选图片之间的第一排列顺序；然后，针对每个候选图片生成该候选图片中文本信息对应的语音信息，以及基于候选图片的画面内容和所述文本信息的语义中的至少一个，来获取该候选图片的特效信息；然后，基于该特效信息，来对该候选图片以及语音信息中的至少一个进行编辑，使得生成的对应单个候选图片的视频片段的图像和/或音频信息是带有特效的，其该特效是匹配于该文本信息的语义和候选图片的画面内容中至少一项的，那么基于该视频片段所生成的目标视频所表达的漫画资源的动态性较高，使用户更有沉浸感。此外，通过按照第一排列顺序来对与各候选图片分别匹配的视频片段进行拼接，来生成漫画图片的目标视频，使得目标视频中播放的画面和音频能够符合漫画图片的叙事顺序，确保了漫画图片的内容表达准确性；且目标视频可以按照第一排列顺序拼接生成，因此用户无需手动操作，就可以自动按序浏览漫画图片的动态画面，以及自动按序收听漫画图片中文本信息所转换成的语音信息，提升了漫画的浏览便捷性。由于本发明实施例的方法能够利用已有的漫画图片，来生成目标视频，以声画结合的方式来展示漫画资源，因此，避免了开发者依据已有漫画资源的漫画内容，再依据PC端和移动端的内容显示方式分别重新开发并创作可适合显示的相同漫画内容的漫画，从而降低了漫画制作成本，并提升了漫画的制作效率。

附图说明

图1是现有技术中的一种页漫图像的示意图；

图2是现有技术中的一种条漫图像的示意图；

图3是本发明的一种图像处理系统实施例的结构框图；

图4是本发明的一种图像处理方法实施例的步骤流程图；

图5是本发明的一种页漫图像的标注示意图；

图6是本发明的另一种图像处理方法实施例的部分步骤流程图；

图7是本发明的又一种图像处理方法实施例的部分步骤流程图；

图8是本发明的一种图像处理装置实施例的结构框图；

图9是本发明的一种图像处理装置实施例中的处理模块的结构框图；

图10是本发明的另一种图像处理装置实施例的结构框图；

图11是本发明的一种电子设备实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

随着互联网的信息爆炸，用户接受信息的方式越来越快节奏，总体来说，信息载体的受欢迎程度是：视频>图片>文字。其中，ACG(Animation(动画)，Comic(漫画)和Game(游戏))文化越来越受用户欢迎。因此，相较传统的PC端而言，移动端的内容交互和显示方式能够得到更多用户的喜爱，比如信息流、短视频等。对于漫画而言，其载体是图片和文字，因此，漫画的受欢迎程度远不如视频类型的动画和游戏。其原因在于传统的漫画显示方式(页漫)不太适合目前的移动端的内容显示方式，也不适合目前的快节奏生活。此外，而如果直接去创作适合显示在移动端的漫画又会耗费较大的人力物力。

因此，发明人为了解决相关技术中需要依据PC端和移动端的内容显示方式分别重新开发并创作可适合显示的漫画而导致的漫画制作成本高和制作效率低的问题，在本发明实施例中，提供了如图3所示的图像处理系统，该图像处理系统可以利用视觉和语音方面的人工智能技术，将大量已有的现存漫画资源(包括条漫和页漫中的至少一类漫画资源)转换为可播放的动态漫画视频(显示方式与一般视频相同)，这样，生成的漫画视频可以适合移动端以及PC端的内容显示方式，避免了使用大量人力来重新创造相应的漫画。

目前主流电子设备为移动终端，而将漫画显示于移动终端时，传统方法主要是通过重新创作条漫来实现的，但是条漫的展示方式比较单一，仅仅是利用图片进行显示；而且，仍然需要用户进行滑动和翻页，无法满足用户的便捷性要求；此外，很难利用现存的大量页漫资源，需要大量的人力进行制作条漫。那么面对电子设备为移动终端的场景时，本发明实施例为了解决传统技术中创作条漫来在移动终端显示条漫所存在的诸多问题，可以直接利用已有的漫画资源(其中，由于已有的漫画资源中页漫较多，条漫较少，因此，优选采用页漫资源来实施本发明的技术方案)来生成适合移动终端显示的动态视频；

那么面对电子设备为PC端的场景时，本发明实施例可以直接利用已有的漫画资源(条漫或页漫)来生成适合PC端显示的动态视频。

参照图3，示出了本发明的一个图像处理系统实施例的框图，该系统可以应用于电子设备，该电子设备可以是移动终端，也可以是PC端。

由于目前主流的电子设备为移动终端，非PC端，因此，大量现存的漫画资源主要为显示于PC端的页漫资源，而显示于移动终端侧的条漫资源由于需要大量的人力创作，现存页漫资源较少，所以，本发明实施例的图像处理系统以及后续的各个方法、装置实施例以将现存的页漫转换为漫画视频为例来对本发明的技术方案进行说明。但是，需要注意的是，后文的图像处理方法、系统以及装置，同样适用于将已有的条漫资源转换为漫画视频，其方法原理与将页漫转换为漫画视频类似，因此不再一一举例说明。

在本发明实施例中，以将已有的页漫资源转换为适合移动终端显示的动态视频为例，来说明本发明实施例的图像处理系统。

如图3所示，图3的图像处理系统可以接收到页漫图片11，通过对其进行如下处理，生成可播放的漫画视频，具体而言：

首先，可以对该页漫图片11进行漫画切分，生成对应不同漫画格的多个候选图片；

然后，针对每个候选图片进行处理，以候选图片21为例进行说明，可以对候选图片21作超分辨率处理，来提升其分辨率；接着，将处理后的候选图片21进行剪裁和缩放，使其自适应于移动终端(用于输出显示该页慢图片对应的视频漫画)的屏幕显示比例，得到自适应显示的图像；

此外，还需要对候选图片21作OCR(Optical Character Recognition，光学字符识别)处理，获取候选图片中的对白文字；对对白文字做TTS(Text To Speech，从文本到语音)的处理，生成语音对白；以及利用对白文字识别场景，根据场景来确定声音和画面特效；

另外，还需要对候选图片21作艺术字检测识别(这里的艺术字指代漫画中显示的拟声词)，依据识别到的艺术字来确定声音和画面特效；

根据以上步骤得到的针对候选图片21的图像、语音对白以及声音和画面特效，来生成关于候选图片21的可播放的视频片段；

最后，将页漫图片中切分的每个候选图片对应的视频片段按序拼接，可以得到可播放的漫画视频。

通过本发明实施例的上述图像处理系统，可以利用人工智能技术自动将页漫转化为合成好动态漫画视频。具体而言，首先可以将一张页漫图片分为对应多个漫画格的多个候选图片；然后，基于每个漫画格的候选图片生成用于构成视频的素材，例如可以从每个候选图片中提取和生成出图片、对白语音和特效三种素材；最后，将素材组合在一起，并按照漫画格的顺序拼接，形成可播放的漫画视频。由于页漫一般具有多个漫画格，内容密集且排列方式不固定，不适合在移动端进行显示。因此，为了适合显示，本发明实施例转化之后的动态漫画视频每次只显示单个漫画格对应的漫画内容，方便用户观看；而且，漫画视频配有语音对白，用户无需阅读文字；另外，漫画视频中的漫画图像和音频可以加上特效，使用户在观看视频时更有沉浸感。本发明实施例的上述系统利用了现存的大量页漫资源，无需重新创作条漫，需要的人力更少。并且实现了声画结合的展示方式，符合目前移动互联网用户的使用习惯。

为了便于理解本发明上述实施例的图3所示的图像处理系统，下面结合图像处理方法的多个实施例，来对本发明实施例的图像处理系统的工作流程做详细阐述。

参照图4，示出了本发明的一种图像处理方法实施例的步骤流程图，该方法可以应用于电子设备，该电子设备可以是PC端，也可以是移动终端。为了便于说明，后文均以电子设备为移动终端(例如手机)，所处理的漫画图片为页漫为例进行说明。

该方法具体可以包括如下步骤：

步骤101，对漫画图片按照漫画格进行分割，生成多个候选图片和所述多个候选图片之间的第一排列顺序；

其中，该漫画图片可以是手机本地保存的漫画图片，也可以是从外部设备接收到的漫画图片。

此外，该漫画图片包括页漫和/或条漫。后文以页漫为例进行说明。

在一个示例中，如图3所示，该图像处理系统可以包括分割模块，该分割模块可以执行步骤101。在图3中，该漫画图片11(即页漫11)包括5个漫画格，分割模块可以按照漫画格的不同来对漫画图片11进行分割。

在对漫画图片11进行分割后，不仅可以得到属于不同漫画格的多个候选图片，还可以得到该多个候选图片之间的第一排列顺序，该第一排列顺序表达了该漫画图片11中各漫画格之间的叙事顺序，也即漫画图片中各漫画格的阅读顺序。

可选地，在对漫画图片按照漫画格进行分割后，还可以生成候选图片中各对话框之间的第二排列顺序。

在一个示例中，图3的分割模块在按照漫画格对漫画图片进行分割后，可以生成候选图片中各对话框之间的第二排列顺序。

例如，每一个漫画格中包括至少一个对话框(例如图1中的“不说你能把我怎么的？”所属的白色对话框)，因此，分割模块对漫画图片执行分割操作后生成的分割结果不仅包括上述多个候选图片和上述第一排列顺序，还包括每张候选图片中各个对话框之间的第二排列顺序，该第二排列顺序表达了一个候选图片中各对话之间的对话顺序。

分割模块在对页漫进行分割时，可以通过实例分割算法来将页漫切分成对应不同漫画格的多个候选图片，其中，每个候选图片内可以有相对应的对话框。

其中，实例分割算法类似于目标检测，主要通过将目标(这里为对应每个漫画格的每个候选图片)用mask(掩膜)分割出来，每个目标对应有一个单独的mask，那么通过将一个漫画格对应的mask与页漫图像进行相乘，则可以从页漫图像中提取出对应该漫画格的候选图片。

其中，mask是带类别标签的掩膜，可以简称掩膜。在分割任务中，一个类别的mask是一张二值图，尺寸(例如100*100)与该mask所对应的原图片的尺寸相同。对于原图片(这里为每个漫画格对应的图像)中每个像素，若属于该类别，则二值图中对应像素位置的取值为1，若不属于该类别，则二值图中对应像素位置的取值为0。

另外，实例分割算法只需要标记感兴趣的目标，无需分割所有像素。因此，实例分割算法更加适合这里的分割任务。在具体操作时，可以将页漫11中的每个漫画格作为一个单独的实例，而由于有些页漫中并不是所有的漫画图像都对应有一个漫画格，有些页漫中存在一个或两个图像没有所属的漫画格的情况，这些像素可以称为背景像素，而在使用实例分割算法进行分割时，背景像素无需标记为mask。因为，页漫中属于漫画格的候选图像可以通过实例分割算法分割出来，那么页漫11中最后剩余的一个或两个图像区域，即为背景像素，可以将该一个或两个图像区域截取出来，从而得到多个候选图片。

在一个示例中，该实例分割算法可以是mask-rcnn(Rich feature hierarchiesfor accurate object detection and semantic segmentation，用于精确物体定位和语义分割的丰富特征层次结构)。

为了通过实例分割算法来将页漫切分成多个候选图片，提升分割准确性以及符合分割需求，可以采用页漫的样本来对该实例分割算法进行训练，最后，使用训练收敛后的实例分割算法来对页漫11进行分割，得到多个候选图片，以及上述第一排列顺序和第二排列顺序。

训练样本中的每个样本作标注，标注数据包括：根据页漫样本中各个图片在原图中的位置，按照叙事顺序对各个漫画格作标注。例如图5中的页漫样本，按照叙事顺序(一般为从左至右，从上至下的顺序)标注了漫画格，各个漫画格的标号依次为01、02、03、04、05、06；漫画格的顺序序列默认为按照页漫的从左到右、从上到下的顺序。

此外，标注数据还包括每个漫画格中各个对话框之间的对话顺序，例如漫画格01中的两个对话框分别标注为01-1、01-2；类似的，漫画格02中的两个对话框分别标注为02-1、02-2。其中，漫画格02中的对话顺序依次为对话框02-1的对话内容、对话框02-2的对话内容。而由于漫画格01先于漫画格02，因此，不同漫画格之间的对话顺序也可以通过上述两类标注数据体现出来，例如前两个漫画格的对话顺序依次为对话框01-1的对话内容、对话框01-2的对话内容、对话框02-1的对话内容、对话框02-2的对话内容。

此外，在标注数据时，当一个对话框跨两个漫画格时，则可以人工将该该对话框标注属于其中一个漫画格。

那么通过具有以上标注数据的训练样本来对实例分割算法的模型进行训练，待该模型收敛后，就可以应用到本发明实施例中，来对图3所示的页漫11进行分割，生成多个候选图片、所述多个候选图片之间的第一排列顺序，以及各候选图片中不同对话框之间的第二排列顺序。

步骤102，针对每个候选图片，从所述候选图片中提取文本信息，以及，生成与所述文本信息对应的语音信息，以及，基于所述候选图片的画面内容和所述文本信息的语义中的至少一个，获取特效信息，以及基于所述特效信息，对所述候选图片和所述语音信息中的至少一个进行编辑，生成与所述候选图片匹配的具有目标特效的视频片段，其中，所述目标特效为与所述特效信息匹配的特效；

其中，步骤102中首先需要从候选图片中提取文本信息，具体可以通过对候选图片进行字符识别，来生成文本信息；

在一个示例中，如图3所示，该图像处理系统可以包括文本检测和识别模块，该文本检测和识别模块可以对每个候选图片(以图3中的候选图片21为例进行说明)进行OCR识别，来识别到候选图片21中的文本信息。

在一些应用场景下，这里漫画图片中的文本可以包括以下至少一种类型的文本：对白、旁白和艺术字。

在识别对白、旁白这两类文本时，由于这两类文本为漫画图片中比较常规的字体，因此，可以直接将候选图片21输入至文本检测和识别模块，来获得对白文本、旁白文本。

而对于艺术字而言，漫画中艺术字的一般是拟声词，如“轰隆”表示爆炸声，“嗖”表示快速移动。艺术字的字体与对白和旁白这两者的字体存在着较大的差异，艺术字的文字形态非规则化，因此，需要预先采用标注有艺术字的条漫或页漫的图片数据，来对上述文本检测和识别模块中的算法模型进行训练，训练收敛后，再使用训练后的文本检测和识别模块来识别候选图片21中的拟声词。

对于本发明实施例的文本检测和识别模块而言，其用于文本检测的算法可以为TextBoxes++算法(用于检测图像中具有文本的区域)；文本检测和识别模块中用于文本识别的算法可以为ASTER算法(用于识别文本)。

通过采用不同类型的训练样本可以训练两种类型的文本检测和识别模块，一种为用于识别对白和旁白这两类文本的文本检测和识别模块1，另一种为用于识别艺术字(即拟声词)的文本的文本检测和识别模块2。

那么本实施例中，则可以将步骤101得到的每个候选图片分别输入到文本检测和识别模块1和文本检测和识别模块2，从而识别到每个候选图片中的文本信息，该文本信息包括以下至少之一：对白文本、旁白文本、拟声词。

在图3的示例中，通过OCR识别(即文本检测和识别模块1)，获取到了候选图片21中的对白文字，以及通过艺术字检测识别(即文本检测和识别模块2)获取到了艺术字。

另外，在步骤102中，还可以生成与上述文本信息对应的语音信息。

可选地，在一个实施例中，在生成上述语音信息时，如果候选图片的文本信息包括与不同对话框匹配的多组文本段，则可以将多组文本段转换为匹配所述不同对话框的多个语音段，然后，按照该候选图片中各对话框之间的上述第二排列顺序，来对多个语音段进行拼接，从而生成候选图片的文本信息对应的语音信息。

其中，一个漫画格对应的候选图片中包括至少一个对话框，因此，可以将一个漫画格中的文本信息转换为语音信息，并且，每个对话框中的文本信息转换为一个语音段。

其中，这里的多个语音段对应的文本类型可以包括以下至少一种：拟声词、对白文本、旁白文本。

在一个示例中，可以利用语音合成技术WaveNet，来将步骤102中提取的每个文本段转换为语音，从而得到对应不同对话框的多个语音段。

在图3实施例中，可以通过TTS(text to speech，从文本到语音)模块来将对白文字转换为语音对白，即这里的对应不同对话框的多个语音段。其中，TTS模块集成有语音合成技术。

那么在按照一个候选图片对应的第二排列顺序来对该候选图片的多个语音段进行拼接时，以图5来举例说明，在图5中，对于漫画格01的候选图片，其对应的第二排列顺序为01-1、01-2，因此，可以按照第二排列顺序来该将对话框01-1对应的语音段，和该对话框01-2对应的语音段进行顺序拼接，生成对应漫画格01的候选图片的语音信息。该语音信息中的音频是按照对话先后顺序排序的。

在本发明实施例中，可以对漫画图片分割，针对每个候选图片生成不同对话框之间的第二排列顺序；然后，针对每个候选图片中的文本信息转换为匹配不同对话框的多个语音段，并按照第二排列顺序来拼接多个语音段，从而使得单个候选图片的语音信息是按照第二排列顺序叙述的语音，能够与用户浏览单个漫画格内的文本的浏览顺序相匹配，并使得用户浏览目标视频时无需浏览文本信息。

此外，在步骤102中，还可以基于候选图片的画面内容和该候选图片的所述文本信息的语义中的至少一个，来获取该候选图片的特效信息。

其中，可以根据候选图片的画面内容来获取该候选图片的特效，还可以根据该候选图片对应的文本信息的语义来获取候选图片的特效，还可以根据候选图片的画面内容以及该语义来获取该候选图片的特效。

其中，所获取到的该候选图片的特效可以包括画面特效和/或音频特效。

在图3的示例中，可以通过候选图片21中的对白文字的语义来获取音频特效和画面特效，以及通过从候选图片21中检测到的艺术字的语义来获取音频特效和画面特效，以及通过从候选图片21中除文本之外的画面内容来获取音频特效和画面特效。这三组特效的并集为该候选图片21的特效信息。

另外，在步骤102中，还可以基于候选图片的上述特效信息，来对该候选图片和该候选图片对应的语音信息中的至少一个(即编辑对象为候选图片和/或该语音信息)进行编辑，来生成与所述候选图片匹配的具有目标特效的视频片段，其中，所述目标特效为与所述特效信息匹配的特效。

其中，该语音信息表达了单个漫画格内的候选图片中的文本内容，该候选图片表达了单个漫画格中的图像信息，那么本步骤则可以利用该候选图片的特效信息，来对所述图像信息以及所述语音信息中的至少一项进行编辑，从而生成与所述候选图片匹配的具有目标特效的视频片段。

在图3实施例中，是根据音频特效和画面特效来对自适应显示后的候选图片21以及候选图片21中对白的语音进行编辑，从而生成对应候选图片21的一个视频片段，对其他切分得到的候选图片同理处理，得到对应不同候选图片的多个视频片段。

步骤103，按照所述第一排列顺序，对与各候选图片分别匹配的所述视频片段进行拼接，生成与所述漫画图片匹配的目标视频。

其中，由于第一排列顺序表达了该漫画图片中各漫画格对应的多个候选图片之间的叙事顺序，也即漫画图片中各漫画格的阅读顺序，因此，为了确保目标视频的叙事准确，可以按照该第一排列顺序来对与多个候选图片分别匹配的多个视频片段进行拼接。

可选地，当所述文本信息包括与不同对话框匹配的多组文本段时，参照图6，为了生成的目标视频中各个角色的语音信息能够区分不同的音色，在执行上述步骤102中的所述生成与所述文本信息对应的语音信息步骤时，还可以通过S201～S205来实现：

S201，针对每个对话框，基于人物与对话框之间的预设第一对应关系，识别与所述对话框匹配的目标人物；

S202，针对每个目标人物，基于所述漫画图片的人物与音色类型之间的预设第二对应关系，识别与所述目标人物匹配的目标音色类型；

S203，针对每个对话框的每个文本段，按照所述目标音色类型，将所述文本段转换为语音段；

S204，获取所述候选图片中各对话框之间的第二排列顺序；

S205，按照所述第三排列顺序，对各所述语音段进行拼接，生成与所述文本信息对应的语音信息。

具体而言，在步骤102的从候选图片中提取文本信息时，可以获取到候选图片中文本段与对话框之间的对应关系。即一个对话框对应有一个文本段。那么在S201中，就可以通过查询该预设第一对应关系，来识别各候选图片中的每个对话框所分别匹配的目标人物。

可选地，在S201之前，可以通过人工配置漫画图片中每个漫画格内的图像中的人物角色与对话框之间的第一对应关系，从而生成S201中的预设第一对应关系，该第一对应关系表达了说话人和所说的话之间的对应关系。

此外，本发明实施例的方法预设有预设数量的音色类型，例如20种音色类型。那么在S202之前，可以通过人工来对该漫画图片中各个角色人物配置音色类型，该音色类型选自上述20种音色类型，此外，不同的角色类型配置不同的音色类型，因此，可以生成上述预设第二对应关系。

那么S201已经确定漫画图片中每个候选图片中的各个对话框所分别对应的目标人物；因此，在S202中，则可以利用该目标人物来查询上述预设第二对应关系，从而获取到各个目标人物分别对应的各个目标音色类型。这里不同的目标人物对应的目标音色类型不同。例如人物1的目标音色类型为少年的音色，人物2的目标音色类型为少女的音色。

由于通过S201～S202可以推导出漫画图片中每个候选图片中对话框与音色类型之间的对应关系，因此，在S203中，可以按照每个候选图片的该对话框与音色类型之间的对应关系，来对该候选图片的各对话框中的文本段转换为相应的音色类型的各个语音段。

例如图3中的候选图片21包括文本段31和文本段32，它们分别对应少年的音色1和少女的音色2，则在S203中可以将文本段31转换为音色1的语音段，以及将文本段32转换为音色2的语音段。

在执行S203的将文本段转换为相应音色类型的语音段时，可以通过首先将文本段转换为默认音色(其中，该默认音色可以为TTS模块在模型训练后，对输入的文本所转换的语音的音色)的语音段，然后再通过音色迁移技术，来将该语音段的音色转换为目标音色类型的语音段来实现；也可以通过将文本段直接转换为目标音色类型的语音段来实现。

在本发明实施例中，可以针对每个对话框，基于人物与对话框之间的预设第一对应关系，识别与所述对话框匹配的目标人物，针对每个目标人物，基于所述漫画图片的人物与音色类型之间的预设第二对应关系，识别与所述目标人物匹配的目标音色类型，从而识别到漫画图片中每个候选图片中各个对话框所对应的目标人物及其目标音色类型，能够按照人物来区分不同对话框中的文本段所转换成的语音的音色，并针对每个对话框的每个文本段，按照所述目标音色类型，将所述文本段转换为语音段；按照所述候选图片中各对话框之间的第三排列顺序，对各所述语音段进行拼接，生成与所述文本信息对应的语音信息，那么生成的带有语音信息的目标视频则可以以不同音色来表达不同人物所说的话语，使得用户在浏览目标视频时能更有代入感，并且可以起到减弱语音的机械感的作用。

可选地，参照图7，在执行上述步骤102中的所述基于所述候选图片的画面内容和所述文本信息的语义中的至少一个，获取特效信息的步骤时，可以通过S301～S302来实现：

S301，获取与所述候选图片的目标内容匹配的场景信息和/或剧情信息，其中，所述目标内容为所述候选图片的画面内容和所述文本信息的语义中的至少一个；

S302，获取与所述场景信息和/或所述剧情信息匹配的第一特效信息，以作为所述候选图片的特效信息。

具体而言，在S301中，文本信息可以包括旁白和/或对白，可以通过自然语言理解技术来获取文本信息的语义信息，例如可以获取与不同对话框匹配的各文本段的语义。

其中，场景信息表达了候选图片所涉及的场景(偏重环境场景)，例如夜晚的野外场景、风雨交加的场景、欢乐的场景、开会的场景等；

剧情信息表达了候选图片所涉及的剧情(偏重人物之间的剧情)，例如吵架的剧情、哭泣的剧情。

在S301中，在获取候选图片的场景信息和/或剧情信息时，可以通过获取与候选图片的画面内容匹配的第一场景信息和/或第一剧情信息来实现，也可以通过获取与候选图片的文本信息的语义匹配的第二场景信息和/或第二剧情信息来实现，还可以通过上述第一场景信息与第二场景信息的并集，和/或，第一剧情信息和第二剧情信息的并集来实现。

在S302中，可以通过利用获取到的候选图片的场景信息和/或剧情信息，来查询相应的对应关系(包括预先配置的特效信息与场景之间的对应关系，以及预先配置的特效信息与剧情之间的对应关系)，来获取与相应的场景和/或剧情所匹配的第一特效信息，这里的第一特效信息是通过场景信息和/或剧情信息所分别查找到的特效信息的并集。

例如在图3的示例中，可以获取与对白文字匹配的场景信息，从而依据该场景信息确定与之匹配的音频特效和/或画面特效。

本发明实施例的特效信息可以包括画面特效和/或音频特效。

在本发明实施例中，可以通过获取漫画图片中每个漫画格对应的候选图片中文本信息的语义信息，并获取与所述候选图片的目标内容匹配的场景信息和/或剧情信息，其中，所述目标内容为所述候选图片的画面内容和所述文本信息的语义中的至少一个，从而可以基于画面内容和/或语义信息来获取该候选图片所表达的场景信息和/或剧情信息，最后，将与所述场景信息和/或所述剧情信息匹配的第一特效信息作为候选图片的特效信息，使得目标视频中对应各个候选图片的特效信息能够表达出候选图片的场景和/或剧情，使得目标视频这种漫画视频的动态感更强。

可选地，当所述文本信息包括拟声词时，在执行上述步骤102中的所述基于所述文本信息的语义，获取特效信息的步骤时，可以通过获取与所述拟声词匹配的第二特效信息以作为所述候选图片的特效信息。

其中，如果检测到候选图片中包括拟声词时，例如“轰隆”艺术字，则根据预设的拟声词与特效信息之间的对应关系，来获取与该“轰隆”匹配的第二特效信息(例如雷声特效)，其中，第二特效信息可以包括画面特效和/或音频特效。

在本发明实施例中，可以通过获取漫画图片中每个漫画格对应的拟声词，来获取与拟声词匹配的特效信息，将该特效信息作为该漫画格的候选图片的特效信息，使得目标视频中各个候选图片的视频片段中的特效信息可以包括候选图片中的拟声词所表达的声音，能够以视频的方式将漫画图片中的拟声词也形象的表达出来，漫画视频的动态感更强。

需要说明的是，当文本信息包括与所述不同对话框匹配的多组文本段，以及包括拟声词时，则该候选图片的特效信息可以为上述第一特效信息和第二特效信息的并集。

可选地，在执行上述步骤102中的所述所述基于所述特效信息，对所述候选图片和所述语音信息中的至少一个进行编辑，生成与所述候选图片匹配的具有目标特效的视频片段的步骤时，可以通过以下方式来实现：

当所述特效信息包括画面特效时，基于所述画面特效的特效参数对所述候选图片进行编辑，以获取多帧图像，以及，基于所述画面特效的特效参数，获取所述多帧图像的第三排列顺序和各帧图像的显示时长，以及，按照所述第三排列顺序和所述显示时长，将所述多帧图像编辑为第一视频；和/或，当所述特效信息包括音频特效时，在所述语音信息中添加所述音频特效，生成音频数据；将所述第一视频的视频开始时间和所述音频数据的音频开始时间进行对齐，生成与所述候选图片匹配的具有目标特效的视频片段。

具体而言，当所述特效信息包括画面特效时，该画面特效可以包括画面抖动、镜头移动(自上而下移动画面图像，或，自左而右移动画面图像等)、镜头缩放(由远而近显示画面，或由近而远显示画面等)等；

在一个示例中，当画面特效包括画面抖动时，则该画面特效的特效参数可以包括抖动频率、抖动方向等，在对候选图片进行编辑时，可以将未编辑的候选图片作为抖动特效的多帧图像中的第一帧图像，并且，基于上述抖动频率、抖动方向来获取对候选图片进行编辑的编辑参数(例如多种旋转参数，包括旋转方向、旋转角度)，然后，按照不同的旋转参数来分别对原始的候选图片进行旋转编辑，生成包括第一帧图像在内的多帧图像，其中，多帧图像各自对应的旋转参数不同(例如旋转角度不同、旋转方向不同)。

在另一个示例中，当画面特效包括镜头移动、镜头缩放中的至少一项时，则可以基于画面特效的特效参数确定对候选图片的编辑参数，这里可以包括对候选图片的多个截取位置参数，在对候选图片进行编辑时，可以保留一张未编辑的原始的候选图片，并且，基于上述多个截取位置参数分别对原始的候选图片进行不同截取位置的截取，最后，生成包括原始的候选图片在内，以及对应不同截取位置的多张截取后的多张图像，共同构成这里的多帧图像。

并且，可以基于该画面特效的特效参数来获取该多帧图像之间的第三排列顺序(其中，特效参数的区别可以使得多帧图像之间的显示顺序有差异)以及基于该画面特效的特效参数来确定上述多帧图像中各帧图像的显示时长；

然后，按照该第三排列顺序来将多帧图像按照各自的显示时长编辑为一个视频，在该视频中各帧图像所显示的时间长度即为各帧图像的显示时长，可以理解的是，这里的视频是无声的视频，只有画面。

当所述特效信息包括音频特效时，音频特效可以包括与声音有关的各种特效，在一个示例中，该音频特效可以包括以下至少一类：与场景相关的音频特效、与剧情相关的音频特效。其中，与场景相关的音频特效可以包括风声、雨声、虫鸣声、水声等；与剧情相关音频特效可以包括击打声、脚步声等。

在一个示例中，例如确定候选图片的场景信息为夜晚的野外场景，该场景对应于虫鸣声的音频特效，则可以在该候选图片对应的语音信息中添加该虫鸣声的声音，生成该候选图片的音频数据；

在本发明实施例中，在语音信息中添加音频特效时，可以在语音信息中的某个位置插入该音频特效(例如开头、结尾、中间某个位置)或者，在语音信息的各个位置穿插该音频特效，还可以将该音频特效与该语音信息叠加。

在又一个示例中，例如确定候选图片包括“轰隆”艺术字，确定与之匹配的特效为雷声特效，则可以在该候选图片对应的语音信息中添加该雷声的声音，生成该候选图片的音频数据。

此外，本发明实施例中的生成第一视频和生成音频数据的两个步骤可以择一执行，当同时具备时，则可以先后执行或者并列执行，本发明对此不做限制。

可选地，在生成与候选图片匹配的具有目标特效的视频片段时，如果上述特效信息仅包括画面特效，则可以将第一视频的视频开始时间与上述语音信息的音频开始时间进行对齐，来生成该候选图片的视频片段；

可选地，在生成与候选图片匹配的具有目标特效的视频片段时，如果上述特效信息仅包括音频特效，则可以将所述候选图片的显示开始时间与上述音频数据的音频开始时间进行对齐，来生成该候选图片的视频片段；

可选地，在生成与候选图片匹配的具有目标特效的视频片段时，如果上述特效信息包括音频特效和画面特效，则可以将所述第一视频的视频开始时间和所述音频数据的音频开始时间进行对齐，生成与所述候选图片匹配的具有目标特效的视频片段。

在本发明实施例中，当特效信息包括画面特效时，可以基于所述画面特效的特效参数对所述候选图片进行编辑，以获取多帧图像，以及，基于所述画面特效的特效参数，获取所述多帧图像的第三排列顺序和各帧图像的显示时长，以及，按照所述第三排列顺序和所述显示时长，将所述多帧图像编辑为第一视频；这样，利用该多帧图像以及语音信息(或者音频数据)在开始时间对齐后所生成的视频片段的画面是动态的，而非单一的候选图片，提升了目标视频的画面动态性；此外，当特效信息包括音频特效时，则可以在语音信息中添加该音频特效，生成音频数据，使得对单个漫画格的候选图片所生成的视频片段的音频添加有符合漫画内容的声音特效，增强了目标视频的音频动感。

可选地，本发明实施例还可以预设音频特效与播放方式(例如包括即时性地，持续性地，逐渐增强的，逐渐减弱的等)之间的对应关系，那么在将音频特效添加到语音信息中时，则可以按照音频特效对应的播放方式来添加音频特效。这样目标视频中的音频特效更贴合实际的场景和剧情等。

此外，需要说明的是，为了避免音频特效对作为主体音频的语音信息的干扰，音频特效的音量需要低于语音信息的音量。

可选地，在执行上述步骤102中的所述基于所述特效信息，对所述候选图片和所述语音信息中的至少一个进行编辑，生成与所述候选图片匹配的具有目标特效的视频片段的步骤时，可以首先获取待输出所述目标视频的电子设备的屏幕比例；然后，按照所述屏幕比例对所述候选图片进行缩放处理，生成中间图像；接着，以所述第一图片的几何中心为基准，将所述中间图像剪裁为图片比例与所述屏幕比例相同的第一图片；最后，基于所述特效信息，对所述第一图片和所述语音信息中的至少一个进行编辑，生成与所述候选图片匹配的具有目标特效的视频片段。

具体而言，不论是页漫还是条漫，尤其是页漫，其各个漫画格的长宽比例比较多样，而每个移动终端的屏幕比例是固定的。因此，为了确保对漫画图片所转换生成的动态的漫画视频(即目标视频)中每一帧图像都是相同尺寸，且比例与该屏幕比例一致，本实施例需要对候选图片进行缩放处理(例如原图比例为4:3，移动终端的屏幕比例为16:9，则需要将原图放大至少4倍，得到16:12的中间图像，若只放大3倍，则还会使得显示的移动终端的该漫画的图像是窄或短于该屏幕的尺寸的)；然后，为了确保处理后的候选图片的主要画面内容和/或文字内容没有缺失(因为一般情况下，漫画格的图片中的中心区域的画面信息是最为重要的)，需要以某个漫画格的候选图片对应的中间图像的几何中心为基准，按照输出该目标视频的例如手机的屏幕比例(长宽比例)进行剪裁(按照手机的长宽比例，调整截取的位置，例如上述举例的中间图像尺寸为16:12的，则中间图像的宽度需要以上述几何中心为基准，左右共剪裁3个单位宽度，得到16:9的第一图片)，使得处理后生成的第一图片的比例能够自适应于手机的屏幕比例。

这里，手机屏幕显示目标视频中的每帧图像时，每帧图像的比例与该手机屏幕的长宽比一致，从而可以将每帧图像占满该屏幕。

在本发明实施例中，考虑到漫画图片中不同漫画格的尺寸存在差异，因此，可以对分割自漫画图片中的候选图片依次作缩放和剪裁处理，具体处理时则按照所述屏幕比例对所述候选图片进行缩放处理，生成中间图像，以所述第一图片的几何中心为基准，将所述中间图像剪裁为图片比例与所述屏幕比例相同的第一图片，使得目标视频中的每帧图像不仅可以保留漫画图片中每个漫画格内的图像的主要画面信息，确保了转换后的动态的漫画视频的重要内容较少缺失，还可以使得每帧图像的比例与屏幕比例一致，使得视频的画面能够占满屏幕，提升了视频的观感。

可选地，在执行步骤101的所述对漫画图片按照漫画格进行分割，生成多个候选图片的步骤时，可以对漫画图片按照漫画格进行分割，生成多个原始图片；针对每个原始图片作超分辨率处理，生成多个候选图片。

由于已有的漫画资源主要包括页漫和条漫，而单个漫画格一般较小，那么如果将一个漫画格放大到整个屏幕中，显示的清晰度较低，会影响用户体验。因此，需要先对从漫画图片中分割出来的多个原始图片分别做超分辨率处理，使得处理后的候选图片有足够大的分辨率。

在一个示例中，可以使用以下两种超分辨算法waifu2x和Anime4K，来对原始图片进行处理。

其中，Waifu2x是一种基于深度神经网络的图像超分辨算法，在动漫图片上效果较好；Anime4K是基于传统图像处理的动画超分辨算法，利用动画图片的特性，对其他超分辨算法的结果进行调整和提升。

因此，为了提升超分辨率处理的效果，本例中结合以上两种算法来对目标图像进行处理。

发明人考虑到预训练好的waifu2x无法适应漫画的一些情况(例如之前可能不是处理动画的)，因此，本发明实施例可以预先使用漫画数据对waifu2x再次进行训练，而由于页漫的漫画格一般较小，数据搜集比较困难，因此，在训练时，可以使用更容易获得的条漫的漫画格的图像数据作为训练样本，来对waifu2x进行训练，直至waifu2x训练结束。

在使用上述两种算法时，则可以将漫画图片分割后的原始图片输入至再次训练好的waifu2x模型，输出得到第二图像；再将第二图像输入至Anime4K模型，从而得到超分辨率的候选图像。

在本发明实施例中，在将漫画图片转换为目标视频时，考虑到漫画图片中漫画格内的原始图片的分辨率较低，因此，在生成用于制作视频的多个候选图片时，可以对各个原始图片作超分辨率处理，然后，再使用超分辨率处理后的候选图片来生成第一视频，进而生成目标视频，使得生成的目标视频中的每帧图像的分辨率较高，视频画面清晰度高。

此外，需要说明的是，本发明对于这里对原始图片进行的超分辨率处理的步骤，与上述实施例的对候选图片作的剪裁和缩放处理的步骤之间的执行顺序不做限制，优选地，超分辨率处理的步骤在上述剪裁和缩放处理的步骤之前执行，例如在图3的实施例中，先对图片21作图像超分辨率处理，然后，再对超分辨率处理后的图片21作自适应显示的剪裁和缩放处理，这样视频片段中的多帧图像的分辨率更高。

综上所述，借助于本发明实施例的上述图像处理方法和系统可以利用计算机视觉和智能语音技术来将漫画图片转换为动态的目标视频，能够更适应潮流的视频显示方式；此外，无需创作人员人工创造漫画，而可以直接利用现存的漫画资源，优选页漫资源来转换为可播放的目标视频，可以节约人力成本；且已将漫画图像中的文本内容(例如旁白、对白)转换为目标视频中音频，具有了可播放的旁白和对白，从而能够带来沉浸感的声音特效；另外，传统的页漫和条漫需要手动滑动操作来切换不同漫画格的图像，而本发明实施例所转换后的目标视频可以将不同漫画格的视频片段按照叙事顺序拼接，从而给出了一个更符合用户使用习惯的漫画展示方式，具有较大的用户优越性；并且，即便输出目标视频的电子设备为小屏幕设备，仍旧可以不受尺寸限制的浏览目标视频，更加适合小屏显示的单漫画格的画面。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

与上述本发明实施例所提供的上述图像处理方法相对应，参照图8，示出了本发明的一种图像处理装置实施例的结构框图，具体可以包括如下模块：

分割模块601，用于对漫画图片按照漫画格进行分割，生成多个候选图片和所述多个候选图片之间的第一排列顺序；

处理模块602，用于针对每个候选图片，从所述候选图片中提取文本信息，以及，生成与所述文本信息对应的语音信息，以及，基于所述候选图片的画面内容和所述文本信息的语义中的至少一个，获取特效信息，以及基于所述特效信息，对所述候选图片和所述语音信息中的至少一个进行编辑，生成与所述候选图片匹配的具有目标特效的视频片段，其中，所述目标特效为与所述特效信息匹配的特效；

拼接模块603，用于按照所述第一排列顺序，对与各候选图片分别匹配的所述视频片段进行拼接，生成与所述漫画图片匹配的目标视频。

可选地，如图9所示，所述处理模块602包括：

第一处理子模块701，用于当所述特效信息包括画面特效时，基于所述画面特效的特效参数对所述候选图片进行编辑，以获取多帧图像，以及，基于所述画面特效的特效参数，获取所述多帧图像的第二排列顺序和各帧图像的显示时长，以及，按照所述第二排列顺序和所述显示时长，将所述多帧图像编辑为第一视频；

第二处理子模块702，用于当所述特效信息包括音频特效时，在所述语音信息中添加所述音频特效，生成音频数据；

对齐子模块703，用于将所述第一视频的视频开始时间和所述音频数据的音频开始时间进行对齐，生成与所述候选图片匹配的具有目标特效的视频片段。

可选地，如图9所示，所述处理模块602包括：

第一获取子模块704，用于获取与所述候选图片的目标内容匹配的场景信息和/或剧情信息，其中，所述目标内容为所述候选图片的画面内容和所述文本信息的语义中的至少一个；

第二获取子模块705，用于获取与所述场景信息和/或所述剧情信息匹配的第一特效信息，以作为所述候选图片的特效信息。

可选地，如图9所示，所述处理模块602包括：

第三获取子模块706，用于当所述文本信息包括拟声词时，获取与所述拟声词匹配的第二特效信息，以作为所述候选图片的特效信息。

可选地，如图9所示，所述处理模块602包括：

第一识别子模块707，用于当所述文本信息包括与不同对话框匹配的多组文本段时，针对每个对话框，基于人物与对话框之间的预设第一对应关系，识别与所述对话框匹配的目标人物；

第二识别子模块708，用于针对每个目标人物，基于所述漫画图片的人物与音色类型之间的预设第二对应关系，识别与所述目标人物匹配的目标音色类型；

转换子模块709，用于针对每个对话框的每个文本段，按照所述目标音色类型，将所述文本段转换为语音段；

第四获取子模块710，用于获取所述候选图片中各对话框之间的第三排列顺序；

拼接子模块711，用于按照所述第三排列顺序，对各所述语音段进行拼接，生成与所述文本信息对应的语音信息。

可选地，如图10所示，所述处理模块602包括：

第五获取子模块712，用于获取待输出所述目标视频的电子设备的屏幕比例；

缩放子模块713，用于按照所述屏幕比例对所述候选图片进行缩放处理，生成中间图像；

剪裁子模块714，用于以所述第一图片的几何中心为基准，将所述中间图像剪裁为图片比例与所述屏幕比例相同的第一图片；

编辑子模块715，用于基于所述特效信息，对所述第一图片和所述语音信息中的至少一个进行编辑，生成与所述候选图片匹配的具有目标特效的视频片段。

可选地，如图10所示，所述分割模块601包括：

分割子模块801，用于对漫画图片按照漫画格进行分割，生成多个原始图片；

超分辨率子模块802，用于针对每个原始图片作超分辨率处理，生成多个候选图片。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

根据本发明的又一个实施例，本发明还提供了一种电子设备，如图11所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信；

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现如下步骤：

上述电子设备提到的通信总线504可以是外设部件互连标准(PeripheralComponent Interconnect，简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture，简称EISA)总线等。该通信总线504可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口502用于上述电子设备与其他设备之间的通信。

存储器503可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器503还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器501可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

根据本发明的再一个实施例，本发明还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一实施例所述的图像处理方法中的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一实施例所述的图像处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像处理方法，其特征在于，包括：

按照所述第一排列顺序，对与各候选图片分别匹配的所述视频片段进行拼接，生成与所述漫画图片匹配的目标视频；

当所述文本信息包括与不同对话框匹配的多组文本段时，所述生成与所述文本信息对应的语音信息，包括：

针对每个对话框，基于人物与对话框之间的预设第一对应关系，识别与所述对话框匹配的目标人物；

针对每个目标人物，基于所述漫画图片的人物与音色类型之间的预设第二对应关系，识别与所述目标人物匹配的目标音色类型；

针对每个对话框的每个文本段，按照所述目标音色类型，将所述文本段转换为语音段；

获取所述候选图片中各对话框之间的第三排列顺序；按照所述第三排列顺序，对各所述语音段进行拼接，生成与所述文本信息对应的语音信息。

2.根据权利要求1所述的方法，其特征在于，所述基于所述特效信息，对所述候选图片和所述语音信息中的至少一个进行编辑，生成与所述候选图片匹配的具有目标特效的视频片段，包括：

当所述特效信息包括画面特效时，基于所述画面特效的特效参数对所述候选图片进行编辑，以获取多帧图像，以及，基于所述画面特效的特效参数，获取所述多帧图像的第二排列顺序和各帧图像的显示时长，以及，按照所述第二排列顺序和所述显示时长，将所述多帧图像编辑为第一视频；和/或，当所述特效信息包括音频特效时，在所述语音信息中添加所述音频特效，生成音频数据；

将所述第一视频的视频开始时间和所述音频数据的音频开始时间进行对齐，生成与所述候选图片匹配的具有目标特效的视频片段。

3.根据权利要求1所述的方法，其特征在于，所述基于所述候选图片的画面内容和所述文本信息的语义中的至少一个，获取特效信息，包括：

获取与所述候选图片的目标内容匹配的场景信息和/或剧情信息，其中，所述目标内容为所述候选图片的画面内容和所述文本信息的语义中的至少一个；

获取与所述场景信息和/或所述剧情信息匹配的第一特效信息，以作为所述候选图片的特效信息。

4.根据权利要求1所述的方法，其特征在于，当所述文本信息包括拟声词时，基于所述文本信息的语义，获取特效信息，包括：

获取与所述拟声词匹配的第二特效信息，以作为所述候选图片的特效信息。

5.根据权利要求1所述的方法，其特征在于，所述基于所述特效信息，对所述候选图片和所述语音信息中的至少一个进行编辑，生成与所述候选图片匹配的具有目标特效的视频片段，包括：

获取待输出所述目标视频的电子设备的屏幕比例；

按照所述屏幕比例对所述候选图片进行缩放处理，生成中间图像；

以所述中间图像的几何中心为基准，将所述中间图像剪裁为图片比例与所述屏幕比例相同的第一图片；

基于所述特效信息，对所述第一图片和所述语音信息中的至少一个进行编辑，生成与所述候选图片匹配的具有目标特效的视频片段。

6.根据权利要求1所述的方法，其特征在于，所述对漫画图片按照漫画格进行分割，生成多个候选图片，包括：

对漫画图片按照漫画格进行分割，生成多个原始图片；

针对每个原始图片作超分辨率处理，生成多个候选图片。

7.一种图像处理装置，其特征在于，包括：

拼接模块，用于按照所述第一排列顺序，对与各候选图片分别匹配的所述视频片段进行拼接，生成与所述漫画图片匹配的目标视频；

所述处理模块包括：

第一识别子模块，用于当所述文本信息包括与不同对话框匹配的多组文本段时，针对每个对话框，基于人物与对话框之间的预设第一对应关系，识别与所述对话框匹配的目标人物；

第二识别子模块，用于针对每个目标人物，基于所述漫画图片的人物与音色类型之间的预设第二对应关系，识别与所述目标人物匹配的目标音色类型；

转换子模块，用于针对每个对话框的每个文本段，按照所述目标音色类型，将所述文本段转换为语音段；

第四获取子模块，用于获取所述候选图片中各对话框之间的第三排列顺序；

拼接子模块，用于按照所述第三排列顺序，对各所述语音段进行拼接，生成与所述文本信息对应的语音信息。

8.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

任一项所述的图像处理方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任一项所述的图像处理方法中的步骤。