CN109859298B

CN109859298B - 一种图像处理方法及其装置、设备和存储介质

Info

Publication number: CN109859298B
Application number: CN201910163781.9A
Authority: CN
Inventors: 杨广煜
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2023-06-30
Anticipated expiration: 2039-03-05
Also published as: CN109859298A

Abstract

本申请实施例提供一种图像处理方法及其装置、设备和存储介质，其中，所述方法包括：获取待处理的视频文件，其中所述视频文件至少包括字幕文件和图像文件；从所述图像文件中确定所述字幕文件中每一条字幕对应的目标图像帧；将所述每一条字幕按照预设格式添加至对应的目标图像帧中，得到漫画文件；输出所述漫画文件。

Description

一种图像处理方法及其装置、设备和存储介质

技术领域

本申请涉及图像处理技术领域，涉及但不限于一种图像处理方法及其装置、设备和存储介质。

背景技术

随着通信技术以及智能终端的发展，人们的工作、生活以及娱乐也发生了翻天覆地的变化，并且人们的娱乐方式也愈发多样化。例如可以通过智能终端观看视频、阅读电子书、阅读漫画等等。

漫画又可大致分为手绘漫画和真人漫画，其中，真人漫画以静态影像(拍摄的照片)为素材，以条漫的形式来表现的一种讲故事模式。在形式方面，真人漫画和现有条漫并无区别，都是用切分格数来表现一个特定的故事情节，包括对话框和画面的位置，空镜的运用。

在内容方面，真人漫画的素材非画手直接勾勒画面，所有的分镜画面均是由一张一张照片构成向观众展示故事发展，观众能够在适当的节奏里去了解整个故事的进程，且真人漫画的视觉冲击力更强。虽然现在的视频产品形态越来越丰富，但是有时受客观环境的影响，人们更喜欢通过真人漫画的形式来接收信息，而绝大部分视频是没有漫画的作品的。因此，将视频转换成漫画的形式成为为亟需解决的问题。

发明内容

有鉴于此，本申请实施例期望提供一种图像处理方法及其装置、设备和存储介质，能够实现将视频转换为漫画的形式，从而提高视频资源的利用率，解决了目前大部分视频没有对应的漫画作品而导致的视频资源利用率低的问题。

本申请实施例提供一种图像处理方法，所述方法包括：

获取待处理的视频文件，其中所述视频文件至少包括字幕文件和图像文件；

从所述图像文件中确定所述字幕文件中每一条字幕对应的目标图像帧；

将所述每一条字幕按照预设格式添加至对应的目标图像帧中，得到漫画文件；

输出所述漫画文件。

本申请实施例提供一种图像处理装置，所述图像处理装置至少包括：第一获取模块、第一确定模块、第一添加模块和输出模块，其中：

所述第一获取模块，用于获取待处理的视频文件，其中所述视频文件至少包括字幕文件和图像文件；

所述第一确定模块，用于从所述图像文件中确定所述字幕文件中每一条字幕对应的目标图像帧；

所述添加模块，用于将所述每一条字幕按照预设格式添加至对应的目标图像帧中，得到漫画文件；

所述输出模块，用于输出所述漫画文件。

本申请实施例提供一种图像处理设备，所述图像处理设备至少包括：

存储器、通信总线和处理器，其中：

所述存储器，用于存储图像处理程序；

所述通信总线，用于实现处理器和存储器之间的连接通信；

所述处理器，用于执行存储器中存储的图像处理程序，以实现本申请实施例提供的图像处理方法中的步骤。

本申请实施例提供一种存储介质，所述存储介质上存储有图像处理程序，所述图像处理程序被处理器执行时实现如上所述的图像处理方法的步骤。

本申请实施例提供一种图像处理方法及其装置、设备和存储介质，其中，首先获取待处理的视频文件，其中所述视频文件至少包括字幕文件和图像文件；然后再从所述图像文件中确定所述字幕文件中每一条字幕对应的目标图像帧；进而将所述每一条字幕按照预设格式添加至对应的目标图像帧中，得到漫画文件；最后输出所述漫画文件；如此，能够通过字幕文件和图像文件将各条字幕都添加至对应的目标图像帧中，从而实现将视频转换为漫画的形式，使漫画爱好者也能以漫画的形式够观看到电影、电视剧中内容，进而能够提高视频资源的利用率。

附图说明

图1A为本申请实施例图像处理方法的应用场景示意图；

图1B为本申请实施例图像处理方法的又一个应用场景示意图；

图2为本申请实施例图像处理方法的实现流程示意图；

图3为本申请实施例图像处理方法的又一个实现流程示意图；

图4为本申请实施例合帧的效果示意图；

图5为本申请实施例图像处理方法的再一个实现流程示意图；

图6为本申请实施例确定声音与人物的对应关系的实现流程示意图；

图7为本申请实施例合帧的实现流程示意图

图8为本申请实施例图像处理装置的组成结构示意图；

图9为本申请实施例图像处理设备的组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对发明的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

需要指出，本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

对本申请实施例进行进一步详细说明之前，本申请实施例涉及的术语进行说明。

帧：影像动画中最小单位的单幅影像画面。一帧就是一副静止的画面。

气泡文字：一种用气泡图案中增加文字来表示说话的艺术形式，例如气泡图案可以由椭圆形主体加上一个尖角组成。

人物识别：又叫人脸识别，或称人像识别，运用人工智能领域内先进的生物识别技术，特指利用分析比较人物视觉特征信息进行身份鉴别的计算机技术。

声纹识别：生物识别技术的一种，也称为说话人识别，是一种通过声音判别说话人身份的技术。

图1A为本申请实施例图像处理方法的应用场景示意图，如图1A所示，在该应用场景中，包括：终端101和服务器102。其中，终端101可以是移动电话(手机)、平板电脑、笔记本电脑等具有无线通信能力的移动终端，还可以是不便移动的具有计算功能的台式计算机、桌面电脑等。终端101中可以安装有观看视频的应用程序(Application，App)，还可以安装有阅读电子书的App，用户可以通过这些App观看视频，阅读漫画等。服务器102可以是指一台服务器，也可以是由多台服务器构成的服务器集群、云计算中心等等，在此不加以限定。

当终端101想要以漫画的形式观看某一视频时，可以向服务器102发送一个获取漫画请求，该获取漫画请求中至少包括漫画的标识，该漫画的标识至少包括漫画的名称。服务器102在接收到请求后，会根据漫画的名称进行搜索，如果存在对应的漫画，则将该漫画文件发送给终端101；如果服务器102中不存在对应的漫画，可以提示用户当前没有该漫画文件。服务器102会根据漫画的标识来获取与漫画的标识相匹配的视频文件，然后再将该视频文件转换为漫画文件，并在转换完成后，将获取该漫画文件的链接发送给终端101。

图1B为本申请实施例图像处理方法的又一个应用场景示意图，如图1B所示，在该应用场景中，包括：终端111和服务器112。其中，当终端111想要以漫画的形式观看某一视频时，可以从服务器112中将所述视频下载下来，然后再将下载下来的视频文件转换为漫画文件进行观看。需要说明的是，为了减少终端的运算量以及加快转换效率，图1B提供的应用场景一般用于转换时长比较短的视频。

结合图1A和图1B所示的应用场景示意图，以下对图像处理方法及图像处理装置、设备的各实施例进行说明。在本发明各实施例中，图像处理设备可以是如图1A中所示的服务器，还可以是如图1B中所示的终端。

本申请实施例提供一种图像处理方法，图2为本申请实施例图像处理方法的实现流程示意图，如图2所示，所述方法包括以下步骤：

步骤S201，图像处理设备获取待处理的视频文件。

这里，所述视频文件至少包括字幕文件和图像文件，其中，字幕文件中包括有该视频文件中的语音对应的字幕文本，还包括每条字幕的起始时间和结束时间；图像文件中包括视频文件中各个图像帧。

在本实施例中，当步骤S201是由服务器实现时，待处理的视频文件可以是自身存储的，用户观看频率较高的视频，或者是用户请求将视频转漫画的次数较高的视频。当步骤S201是由终端实现时，待处理的视频文件可以是从服务器获取的，还可以是自身存储的本地视频。

步骤S202，图像处理设备从所述图像文件中确定所述字幕文件中每一条字幕对应的目标图像帧。

这里，步骤S202在实现时，可以是根据每一条字幕的起始时间和结束时间，从图像文件中确定出该条字幕对应的图像帧集合，然后再从该图像帧集合中选择出一个图像帧作为该条字幕对应的目标图像帧。

在其他实施例中，从该图像帧集合中选择目标图像帧时，可以是将该起始时间和结束时间中间时间点对应的一帧图像作为目标图像帧，还可以是从该图像帧集合中选择出具有该字幕对应角色正面图像的一帧图像作为目标图像帧。

步骤S203，图像处理设备将所述每一条字幕按照预设格式添加至对应的目标图像帧中，得到漫画文件。

这里，预设格式可以包括字幕的字体、字号及颜色、对齐方式，还可以包括显示的气泡形状，例如可以是以椭圆形式显示、还可以以云朵形式显示、心形形式显示等等。

步骤S203在实现时，首先图像处理设备要获取所述目标图像帧中所述字幕对应的角色所在的位置信息，这样才能进一步根据所述位置信息确定所述字幕对应的目标区域，然后再将所述字幕按照预设格式添加至所述目标图像帧中的目标区域；这样就能够保证用户可以直接明了的确定该句字幕是由那一角色说出的，从而正确了解剧情发展。

需要说明的是，在将字幕添加到目标图像帧中时，还需要注意添加的字幕尽量不要遮挡目标图像帧中的其他角色。

在其他实施例中，还可以根据时间确定目标图像帧，例如可以将每N秒所包括的图像帧合成一个目标图像帧，其中N为正整数。

步骤S204，图像处理设备输出所述漫画文件。

这里，当步骤S204是由服务器实现时，输出所述漫画文件可以是将该漫画文件发送给终端，或者是输出所述漫画文件所对应的资源入口，以便于用户通过该资源入口下载阅读该漫画文件。当步骤S204是由智能终端实现时，输出所述漫画文件可以是在智能终端的显示屏中显示该漫画文件中的图像。

在本申请实施例提供的图像处理方法中，能够通过字幕文件和图像文件将各条字幕都添加至对应的目标图像帧中，从而实现将视频转换为漫画的形式，使漫画爱好者也能以漫画的形式够观看到电影、电视剧中内容，进而能够提高视频资源的利用率。

基于前述的实施例，本申请实施例再提供一种图像处理方法，图3为本申请实施例图像处理方法的又一个实现流程示意图，如图3所示，所述方法包括：

步骤S301，图像处理设备获取待处理的视频文件。

这里，所述视频文件至少包括字幕文件和图像文件，所述视频文件还可以包括音频文件。

步骤S302，图像处理设备获取声纹与角色之间的对应关系表。

这里，所述对应关系表是基于所述视频文件预先生成的，并且所述对应关系表中存储有声纹特征与角色图像之间的对应关系。

步骤S303，图像处理设备从所述图像文件中获取每一条字幕对应的第一图像帧集合。

这里，步骤S303在实现时，首先图像处理设备基于所述字幕文件，获取每一条字幕的起始时间和结束时间；再基于所述起始时间和结束时间，从所述图像文件中获取每一条字幕对应的第一图像帧集合。

例如，“你怎么还没起床！”这句字幕的起始时间为23分34秒，结束时间为23分37秒，那么就将23分34秒至23分37秒之间的所有图像帧作为该条字幕对应的第一图像帧集合。

步骤S304，图像处理设备从所述音频文件中获取每一条字幕对应的各个音频片段。

这里，步骤S304在实现时，可以是根据一条字幕的起始时间和结束时间来从音频文件中截取该条字幕对应的音频片段。

步骤S305，图像处理设备获取所述各个音频片段的各个声纹特征。

这里，声纹是用电声学仪器显示的携带言语信息的声波频谱，而声纹特征是指说话人的声纹中具有可分性强、稳定性高等特性的声学或语言特征。利用声纹特征能够表征音频的能量、过零率、线性预测(Linear Prediction Coefficient，LPC)系数等。声纹特征包括时域特征和频域特征，其中，时域特征是直接在原始的语音信号基础上所提取的特征，而频域特征是把原始的语音信号先进行傅里叶变换，将原始信号转换到频域，然后再频域上提取的特征。

在本实施例中，提取的声纹特征为频域特征，例如可以基于滤波器组的(Filterbank，Fbank)特征、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)特征、感知线性预测系数(Perceptual Linear Predictive，PLP)特征等。当然也可以是提取其他类型的声纹特征，本申请实施例不加限定。

步骤S306，图像处理设备基于所述对应关系表，确定所述各个声纹特征对应的各个角色图像。

这里，由于对应关系表中存储有声纹特征与角色图像之间的对应关系，那么当提取了音频片段的声纹特征之后，基于该对应关系表，就可以确定出该声纹特征所对应的角色图像。

由于在进行角色识别时，一般是根据角色的面部进行识别，因此在本实施例中，角色图像至少包括角色的面部区域。例如当是人物角色时，角色图像可以是人脸图像。

步骤S307，图像处理设备根据所述各个角色图像从所述第一图像帧集合中确定每一条字幕对应的目标图像帧。

这里，步骤S307在实现时，可以是首先提取所述角色图像的图像特征；然后再根据所述图像特征与所述第一图像帧集合中的各个图像帧进行匹配，确定所述字幕对应的目标图像帧。

图像特征主要有图像的颜色特征、纹理特征、形状特征和空间关系特征。图像特征提取是指使用计算机提取图像信息，决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集，这些子集往往属于孤立的点、连续的曲线或者连续的区域。

当视频中的角色为人物时，那么角色图像为人脸图像，此时提取的图像特征为人脸特征，当视频中的角色为动物时，那么角色图像至少是包括角色的面部图像的，还可以包括身体部分的图像，并进一步提取角色图像的特征。

需要说明的是，在本申请实施例中，角色图像为角色的正面图像，以保证在利用角色图像的图像特征从第一图像帧集合中确定目标图像帧时能够匹配出包括角色正面形象的目标图像帧。

经过步骤S304至步骤S307就完成了基于音频文件和对应关系表，从所述第一图像帧集合中确定每一条字幕对应的目标图像帧的实现过程。

步骤S308，图像处理设备将所述每一条字幕按照预设格式添加至对应的目标图像帧中，得到漫画文件。

步骤S309，图像处理设备输出所述漫画文件。

需要说明的是，本申请实施例与其他实施例相同步骤或概念的解释可以参考其它实施例中的描述。

在本申请实施例提供的图像处理方法中，首先是根据一条字幕的起始时间和结束时间，获取该条字幕对应的图像帧集合，然后再根据该条字幕的音频片段提取出声纹特征，进而根据声纹与角色之间的对应关系表来确定出该声纹对应的角色图像，并根据角色图像的图像特征与该图像帧集合中的各个图像帧进行匹配，从而匹配出目标帧图像，并将该条字幕按照预设格式添加至对应的目标图像帧中，以得到漫画文件；这样通过利用声纹特征与角色图像的对应关系表，以及对该条字幕对应的音频片段的声纹识别和图像识别，完成视频到漫画的转换，不仅能够准确确定出字幕与目标图像帧中角色的对应关系，能够保证添加字幕的准确性，以便用户了解正确的剧情。

本申请实施例再提供一种图像处理方法，应用于至少由终端和服务器构成的图像处理系统，所述方法包括：

步骤401，终端向服务器发送获取漫画文件的第一请求消息。

这里，所述第一请求消息中至少携带有漫画文件的标识。

步骤402，服务器基于接收到的第一请求消息，确定自身是否存储有终端请求获取的漫画文件。

这里，如果服务器自身存储有该漫画文件，则进入步骤403；如果服务器自身并没有存储有该漫画文件，则进入步骤404。

步骤403，服务器将携带有该漫画文件的资源入口的第一响应消息发送给终端。

这里，步骤403在实现时，可以是将该漫画文件的链接携带于第一响应消息中。

步骤404，服务器向终端返回第二响应消息。

这里，第二响应消息中至少携带目前没有该漫画文件的提示信息。

步骤405，服务器将请求该漫画文件的次数加1，并判断该次数是否大于预设的次数阈值。

这里，如果该次数大于预设的次数阈值，说明有较多的用户想要阅读该漫画文件，此时进入步骤406；如果该次数不大于次数阈值，则结束流程。

步骤406，服务器基于该漫画文件的标识获取待处理的视频文件。

这里，该漫画文件的标识可以是漫画名称，然后再去获取与漫画名称相同的视频文件。

步骤407，服务器获取基于所述视频文件预先生成的声纹与角色之间的对应关系表。

这里，步骤407在实现时，可以首先建立一个声纹与角色之间的对应关系表，此时该对应关系表是空表；然后再从所述音频文件中依次获取每一条字幕对应的音频片段；并获取所述音频片段的声纹特征；如果所述声纹特征不存在于对应关系表中，再基于该条字幕对应的第一图像帧集合中的各个图像帧中角色的嘴型变化，确定所述声纹特征对应的角色图像；并将所述声纹特征和所述角色图像增加至对应关系表中。

步骤408，服务器从所述图像文件中获取每一条字幕对应的第一图像帧集合。

步骤409，服务器根据所述音频文件和所述对应关系表，从所述第一图像帧集合中确定每一条字幕对应的目标图像帧。

这里，步骤409在实现时，首先从所述音频文件中获取所述字幕对应的音频片段；然后再获取所述音频片段的声纹特征；并基于所述对应关系表，确定所述声纹特征对应的角色图像；最后再根据所述角色图像从所述第一图像帧集合中确定所述字幕对应的目标图像帧。

步骤410，服务器将所述字幕按照预设格式添加至对应的目标图像帧中。

这里，步骤410在实现时，获取所述目标图像帧中所述字幕对应的角色所在的位置信息；并根据所述位置信息确定所述字幕对应的目标区域；然后将所述字幕按照预设格式添加至所述目标图像帧中的目标区域。

步骤411，服务器获取两个相邻目标图像帧的背景相似度。

这里，在本申请实施例中，目标图像帧的背景图像可以是指目标图像帧中除去字幕对应的角色图像区域之外的图像，还可以是指目标图像帧中除去各个角色图像区域之外的图像。

两个相邻目标图像帧的背景相似度可以是指两个目标图像帧中背景图像的相似度。

步骤412，如果所述背景相似度满足预设条件，服务器确定所述两个相邻目标图像帧对应的两条相邻字幕是否属于同一角色。

这里，如果背景相似度满足预设条件可以认为是两个相邻目标图像帧的背景基本相同，此时可以考虑合帧。如果两个相邻目标图像帧对应的两条相邻字幕属于同一角色，此时认为可以进行合帧，进入步骤413；如果两条相邻字幕不属于同一角色，此时进入步骤414。

步骤413，服务器将前一条字幕按照预设格式添加至后一个目标图像帧中。

这里，图4为本申请实施例合帧的效果示意图，其中“还有王法吗？”为前一条字幕，“还有法律吗？”为后一条字幕401，这两条相邻字幕都是属于同一角色，因此将“还有王法吗？”这一条字幕对应的文字气泡402并入到“还有法律吗？”这一条字幕对应的目标图像帧中，因此在该目标图像帧中就包括前一帧的文字气泡402和本帧的文字气泡403。

步骤414，服务器确定所述后一个目标图像帧是否包括两条相邻字幕对应的两个角色。

这里，如果后一个目标图像帧中包括两条相邻字幕对应的两个角色，此时认为可以进行合帧，进入步骤415；如果后一个目标图像帧中不包括两条相邻字幕对应的两个角色，进入步骤417。

步骤415，服务器将前一条字幕按照预设格式添加至所述后一个目标图像帧中。

步骤416，服务器删除前一个目标图像帧。

步骤417，如果后一个目标图像帧中不包括所述两个角色，服务器确定所述前一个目标图像帧是否包括两条相邻字幕对应的两个角色。

这里，如果前一个目标图像帧包括两条相邻字幕对应的两个角色，则认为可以进行合帧，进入步骤418；如果前一个目标图像帧不包括两条相邻字幕对应的两个角色，此时不具备合帧条件，结束流程。

步骤418，服务器将所述后一条字幕按照预设格式添加至所述前一个目标图像帧中。

步骤419，服务器删除所述后一个目标图像帧。

步骤420，服务器根据所述字幕文件和所述图像文件，获取相邻两条字幕之间的间隔时长。

这里，在实现时，间隔时长可以是根据后一条字幕的开始时间与前一条字幕的结束时间确定的。例如后一条字幕的开始时间为10分20秒，前一条字幕的结束时间为10分5秒，那么这两条相邻字幕之间的间隔时长为15秒。

在其他实施例中，在步骤420之后，服务器会判断间隔时长是否大于预设的间隔阈值，如果间隔时长大于间隔阈值，则认为需要提取静默图像帧，进入步骤421；如果间隔时长不大于间隔阈值，则认为不需要提取静默图像帧，此时结束流程。

步骤421，服务器获取所述相邻两条字幕之间的第二图像帧集合。

步骤422，服务器基于所述间隔时长，从所述第二图像帧集合中确定静默图像帧。

这里，步骤422在实现时，可以根据间隔时长来确定将第二图像帧集合中的哪些帧作为静默图像帧。在本实施例中，一般是选取一到两个帧作为静默图像帧。例如当间隔时长小于取帧阈值时，则从第二图像帧集合中选择出一帧作为静默图像帧，如果间隔时长大于取帧阈值时，则从第二图像帧集合中选择两帧作为静默图像帧。

假设取帧阈值为10秒，如果间隔时长为8秒，那么就从第二图像帧集合中选择一帧作为静默图像帧，一般是将位于中间时间点对应的帧作为静默图像帧；如果间隔时长为20秒，那么就从第二图像帧集合中选择两帧作为静默图像帧。

步骤423，服务器将所述静默图像帧添加至漫画文件。

这里，在本实施例中，漫画文件中的目标图像帧和静默图像帧都还可以具有时间信息，在将静默图像帧添加至漫画文件中时，可以是根据时间信息，按照先后顺序添加至漫画文件适当的位置。

步骤424，服务器将携带有该漫画文件的资源入口的通知消息发送给终端。

这里，该漫画文件的资源入口可以是可以获取到该漫画文件的链接。

步骤425，终端在接收到该漫画文件的资源入口后，基于用户的操作指令，获取并显示该漫画文件。

在本申请实施例中，当将字幕添加到对应的目标图像帧，并进行合帧处理，以及获取静默图像帧之后，将多张图片帧按竖直方向排列连在一起，形成一个章节，一般在一章节中由30至50张图片组成。终端在获取并显示该漫画文件时，可以一章一章的获取并显示，这样能够提高终端的显示效率；并且还能减少每次阅读都要获取全部漫画文件所需的数据流量。

在本申请实施例提供的图像处理方法中，在从视频文件所包含的图像文件中确定出每一条字幕对应的目标图像帧，并将字幕按照预设格式添加至目标图像帧之后，还会根据两个相邻目标图像帧的背景相似度以及两条相邻字幕是否属于同一角色进行合帧处理，在保证剧情正确的前提下，能够尽量减少图片数量；并且还会根据两条相邻字幕之间的间隔时长，提取两条相邻字幕之间的静默图像帧，以保证剧情能够平滑过渡。

基于前述的实施例，本申请实施例再提供一种图像处理方法，以实现视频到漫画的转换。在实现过程中，可以通过视频画面的变化速度、语言句子、时间间隔等条件生成图片，再加上字幕，将多张图片编排连起来就可以形成一部漫画。图5为本申请实施例图像处理方法的另一个实现流程示意图，如图5所示，所述方法包括：

步骤S501，图像处理设备根据字幕文件确定字幕所需要的时间和字幕之间的间隔。

这里，步骤S501在实现时，是图像处理设备根据字幕文件确定一句字幕所需要的时间，以及相邻两句字幕之间的时间间隔。

步骤S502，图像处理设备根据字幕所需要的时间和字幕之间的间隔判断是否需要提取帧以及该帧的类型。

这里，当两条字幕之间的时间间隔小于预设的间隔阈值时，则不需要提取帧，也即进入步骤S503；当两条字幕之间的时间间隔大于或者等于该间隔阈值时，则需要提取帧，也即进入步骤S504，此时提取的图像帧的类型为静默帧，也即没有字幕的图像帧；另外还需要根据一条字幕所需要的时间，从播放该字幕的这段时间内提取出一个图像帧，此时提取的图像帧的类型为对话帧，也即进入步骤S505。

步骤S503，图像处理设备确定不需要提取静默帧，结束流程。

步骤S504，图像处理设备确定需要提取静默帧。

步骤S505，图像处理设备确定需要提取对话帧。

这里，对话帧也即包括字幕的图像帧，在提取对话帧时，需要以一句字幕为单位，通过声音与人物的对应关系来确定该句字幕所对应人物的关键帧。

步骤S506，图像处理设备将对话帧中的人物与字幕对应。

这里，步骤S506在实现时，可以是图像处理设备根据该句字幕来生成文字气泡，并将该文字气泡添加至与该句字幕对应的人物的附近区域。

步骤S507，图像处理设备提取目标图像帧。

这里，图像处理设备将需要提取的静默帧和对话帧提取出来，作为目标图像帧。

步骤S508，图像处理设备进行帧处理。

在实际实现过程中，图像处理设备进行帧处理包括合帧、在提取出的图像帧或者合帧处理后的图像帧中添加对话等。

在步骤S501至步骤S508所在的实施例中，图像处理设备根据字幕文件确定字幕所需要的时间和字幕之间的间隔，进而判断是否需要提取帧以及该帧的类型，如果为对话帧，则需要以一句字幕为单位，通过声音和人物的对应关系来提取对应人物的关键帧，然后通过添加文字气泡来表达人物所说的字幕内容。如无人物的过度场景或有人物无对话的静默场景则根据时长来提取帧。最后进行图片处理，形成条漫的形式，即可供客户使用。

在本申请实施例中，进行视频转换至漫画的图像处理过程之前，首先要确定待处理的视频中声音与人物的对应关系，在实际实现过程中，声音与人物的对应关系可以是以表的形式存储，并且是存储的声纹信息与人脸特征的对应关系。图6为本申请实施例确定声音与人物的对应关系的实现流程示意图，如图6所示，该实现流程包括：

步骤S801，图像处理设备根据字幕文件进行声纹识别。

这里，可以从该视频的第一句字幕进行识别，提取该字幕对应的音频的声纹信息。

步骤S802，图像处理设备进行人物识别。

这里，步骤S802在实现时，可以根据字幕文件确定该字幕对应的开始时间和结束时间，从而获取到开始时间和结束时间这一时间段内的图像帧，进而对图像帧进行识别，根据这一时间段内的图像帧中人物的嘴型变化，确定出该句字幕对应的人物，并进行人物识别，提取该人物的人脸特征。

步骤S803，图像处理设备判断是否已经存在该声纹与人物的对应关系。

这里，通过查询已有的声音和人物的对应关系表，判断是否已经存在该声纹信息与人脸特征的对应关系，如果已经存在该声纹信息与人脸特征的对应关系，则结束流程；如果不存在该声纹信息与人脸特征的对应关系，则进入步骤S804。

步骤S804，图像处理设备添加对应关系。

这里，步骤S804在实现时，可以是将该声纹信息和人脸特征的对应关系添加至声音与人物的对应关系表中。

在本申请实施例中，最终得到的声音与人物的对应关系表是通过一整部视频进行分析的，主要有一对一、多对一和一对多这3种对应关系，其中一对一为最常见的对应关系，也就是声纹信息与人脸特征是一一对应的；多对一是指多个人脸对应一个声音，这种对应关系一般出现在一个人为多个角色配音的场景，此时一个声纹信息对应多个不同的人脸特征；一对多是指一个人脸对应多个声音，这种对应关系一般出现在有长相相同的双胞胎的场景，虽然双胞胎的人脸特征相同，可是声纹信息却是不同的。

在本实施例中，从两句字幕之间的无字幕场景进行取帧时，是根据无字幕场景的时长，来确定是否进行取帧，如果无字幕场景的时长小于一定阈值，例如小于5秒，则不单独提取帧，如果无字幕场景的时长大于5秒，则根据场景切换，提取一到两个帧。在实际实现过程中，一般以取该场景所在时间段的中间的一帧。

在说话场景中，若每一句字幕都单独提取一帧，则会造成图片数量过多，所以在说话场景中需要多一个合帧步骤，用以减少图片的张数。但一张图片也不能将一大段对话内容全部展示，一般进行3-4次合帧则需停止。图7为本申请实施例合帧的实现流程示意图，如图7所示，所述流程包括：

步骤S1001，图像处理设备提取该字幕对应的帧。

这里，步骤S1001在实现时，首先根据该字幕的开始时间和结束时间，获取该字幕对应的时间段内的图像帧，然后再通过声音和人物的对应关系表，从这些图像帧中截取该时间段内话语人的人物正面形象的帧片段，并尽量满足画面中人数数量的最大化。

步骤S1002，图像处理设备判断该帧与前一帧的背景是否相同。

这里，步骤S1002在实现时，可以是获取该帧与前一帧的背景的相似度，并进一步判断该相似度是否在一预设的阈值范围内，如果该帧与前一帧的背景的相似度在阈值范围内，则认为该帧与前一帧的背景是相同的，此时进入步骤S1003；如果该帧与前一帧的背景的相似度不在阈值范围内，则认为该帧与前一帧的背景是不同的，此时结束流程。

步骤S1003，图像处理设备判断该帧与前一帧的话语人是否相同。

这里，如果该帧与前一帧的话语人是相同的，此时进入步骤S1005；如果该帧与前一帧的话语人是不同的，此时进入步骤S1004。

步骤S1004，图像处理设备判断前一帧的话语人是否在该帧中。

这里，如果前一帧的话语人在该帧中，进入步骤S1005；如果前一帧的话语人不在该帧中，结束流程。

步骤S1005，图像处理设备将前一帧合入该帧。

在步骤S1001至步骤S1005所在的实施例中，对比前后两帧，若背景变化不大即可认为这两帧在同一场景，此时可以将这两帧合为一帧，以减少图片的张数。

需要说明的是，在进行合帧时，以这两帧为同一话语人优先，如果是对话关系，则要求两人都出现。

在得到图片后，根据声音和人物的对应关系，对图片添加文字气泡。在本实施例中文字气泡以白底黑边的椭圆形气泡形式展示，在气泡中添加字幕文字，文字气泡的尖角指向说出该字幕的人物，且要尽量保证文字气泡不遮挡画面中其他的话语人。文字气泡不局限于必须在图片内部，还可以超出图片，但尖角指向要正确。

完成字幕的添加后，一张基本的图片便制作完成了，将多张图片按竖直方向排列连在一起，即可形成条漫形式的漫画。在本实施例中，一个章节例如可以包括30-至50张图片。

漫画作为一种文化载体，有着较多的受众。目前大多数漫画皆以手绘完成。但真人漫画制作周期漫长，内容也是极其匮乏，而电影、电视剧有着丰富的资源。而利用本申请实施例提供的图像处理方法，可以通过视频画面的变化速度、语言句子、时间间隔等条件生成图片，再加上字幕，将多张图片编排连起来就可以形成一部漫画，从而使漫画爱好者也能以漫画的形式够观看到电影、电视剧中内容，提高视频资源的利用率。

基于前述的实施例，本申请实施例提供一种图像处理装置，该装置包括所包括的各单元、以及各单元所包括的各模块，可以通过图像处理设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图8为本申请实施例图像处理装置的组成结构示意图，如图8所示，所述图像处理装置1100包括：第一获取模块1101、第一确定模块1102、第一添加模块1103和输出模块1104，其中：

所述第一获取模块1101，用于获取待处理的视频文件，其中所述视频文件至少包括字幕文件和图像文件；

所述第一确定模块1102，用于从所述图像文件中确定所述字幕文件中每一条字幕对应的目标图像帧；

所述第一添加模块1103，用于将所述每一条字幕按照预设格式添加至对应的目标图像帧中，得到漫画文件；

所述输出模块1104，用于输出所述漫画文件。

在其他实施例中，所述视频文件中还包括音频文件，对应地，所述第一确定模块1102，包括：

第一获取单元，用于获取声纹与角色之间的对应关系表，其中，所述对应关系表是基于所述视频文件生成的；

第二获取单元，用于从所述图像文件中获取每一条字幕对应的第一图像帧集合；

第一确定单元，用于根据所述音频文件和所述对应关系表，从所述第一图像帧集合中确定每一条字幕对应的目标图像帧。

在其他实施例中，所述第二获取单元，包括：

第一获取子单元，用于基于所述字幕文件，获取每一条字幕的起始时间和结束时间；

第二获取子单元，用于基于所述起始时间和结束时间，从所述图像文件中获取每一条字幕对应的第一图像帧集合。

在其他实施例中，所述第一确定单元，包括：

第三获取子单元，用于从所述音频文件中获取每一条字幕对应的各个音频片段；

第四获取子单元，用于获取所述各个音频片段的各个声纹特征；

第一确定子单元，用于基于所述对应关系表，确定所述各个声纹特征对应的各个角色图像；

第二确定子单元，用于根据所述各个角色图像从所述第一图像帧集合中确定每一条字幕对应的目标图像帧。

在其他实施例中，所述第二确定子单元，还用于：

分别提取所述各个角色图像的各个图像特征；

根据所述各个图像特征与所述第一图像帧集合中的各个图像帧进行匹配，确定每一条字幕对应的目标图像帧。

在其他实施例中，所述图像处理装置还包括：

第二获取模块，用于根据所述字幕文件和所述图像文件，获取相邻两条字幕之间的间隔时长；

第三获取模块，用于如果所述间隔时长大于预设的间隔阈值，获取所述相邻两条字幕之间的第二图像帧集合；

第二确定模块，用于基于所述间隔时长，从所述第二图像帧集合中确定静默图像帧；

第二添加模块，用于将所述静默图像帧添加至所述漫画文件。

在其他实施例中，所述第一添加模块，包括：

第三获取单元，用于获取所述目标图像帧中每一条字幕对应的角色所在的位置信息；

第二确定单元，用于根据所述位置信息确定所述每一条字幕对应的目标区域；

添加单元，用于将所述每一条字幕按照预设格式添加至所述目标图像帧中的目标区域。

在其他实施例中，所述图像处理装置还包括：

第四获取模块，用于获取两个相邻目标图像帧的背景相似度；

第三确定模块，用于如果所述背景相似度满足预设条件，确定所述两个相邻目标图像帧对应的两条相邻字幕是否属于同一角色；

第三添加模块，用于如果所述两条相邻字幕属于同一角色，将前一条字幕按照预设格式添加至后一个目标图像帧中；

第一删除模块，用于删除前一个目标图像帧。

在其他实施例中，所述图像处理装置还包括：

第四确定模块，用于如果所述两条相邻字幕不属于同一角色，确定所述后一个目标图像帧是否包括两条相邻字幕对应的两个角色；

第四添加模块，用于如果所述后一个目标图像帧中包括所述两个角色，将前一条字幕按照预设格式添加至所述后一个目标图像帧中；

第二删除模块，用于删除所述前一个目标图像帧。

在其他实施例中，所述图像处理装置还包括：

第五确定模块，用于如果后一个目标图像帧中不包括所述两个角色，确定所述前一个目标图像帧是否包括两条相邻字幕对应的两个角色；

第五添加模块，用于如果所述前一个目标图像帧中包括所述两个角色，将所述后一条字幕按照预设格式添加至所述前一个目标图像帧中；

第三删除模块，用于删除所述后一个目标图像帧。

在其他实施例中，所述图像处理装置还包括：

第五获取模块，用于从所述音频文件中依次获取每一条字幕对应的音频片段；

第六获取模块，用于获取所述音频片段的声纹特征；

第六确定模块，用于如果所述声纹特征不存在于对应关系表中，基于所述第一图像帧集合中的各个图像帧中角色的嘴型变化，确定所述声纹特征对应的角色图像；

第六添加模块，用于将所述声纹特征和所述角色图像增加至对应关系表中。

在利用本申请实施例提供的图像处理装置进行视频转漫画的处理时，可以首先利用视频文件生成声纹特征与角色图像的对应关系表，进而利用声纹特征与角色图像的对应关系表，以及对该条字幕对应的音频片段的声纹识别和图像识别，完成视频到漫画的转换，不仅能够准确确定出字幕与目标图像帧中角色的对应关系，从而能够保证添加字幕的准确性，以便用户了解正确的剧情。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的图像处理方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read OnlyMemory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，本申请实施例再提供一种可读存储介质，所述可读存储介质上存储有图像处理程序，所述图像处理程序被处理器执行时实现上述的图像处理方法的步骤。

对应地，本申请实施例提供一种图像处理设备，图9为本申请实施例图像处理设备的组成结构示意图，如图9所示，所述图像处理设备1200包括：至少一个处理器1201、至少一个通信总线1202、用户接口1203、至少一个外部通信接口1204和存储器1205。其中：

图像处理设备1200中的各个组件通过通信总线1202耦合在一起。可理解，通信总线1202用于实现这些组件之间的连接通信。通信总线1202除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图9中将各种总线都标为通信总线1202。

用户接口1203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

外部通信接口1204可以包括标准的有线接口和无线接口。

存储器1205可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、闪存(Flash Memory)等。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static RandomAccess Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random AccessMemory)。本申请实施例描述的存储器1205旨在包括这些和任意其它适合类型的存储器。

作为本申请实施例提供的方法采用软硬件结合实施的示例，本申请实施例所提供的方法可以直接体现为由处理器1201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器1205，处理器1201读取存储器1205中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器1201以及连接到通信总线1202的其他组件)以实现上述实施例中提供的图像处理方法。

作为示例，处理器1201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

以上图像处理设备和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请图像处理设备和存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待处理的视频文件，其中所述视频文件至少包括字幕文件、图像文件和音频文件，所述字幕文件包括每条字幕的起始时间和结束时间；

获取声纹与角色之间的对应关系表，其中，所述对应关系表是基于所述视频文件生成的；从所述图像文件中获取每一条字幕对应的第一图像帧集合；根据所述音频文件和所述对应关系表，从所述第一图像帧集合中确定每一条字幕对应的目标图像帧；

输出所述漫画文件；

其中，所述从所述图像文件中获取每一条字幕对应的第一图像帧集合，包括：根据每一条字幕的起始时间和所述每一条字幕的结束时间，从所述图像文件中确定每一条字幕对应的图像帧集合；

在所述将所述每一条字幕按照预设格式添加至对应的目标图像帧中之后，还包括：获取两个相邻目标图像帧的背景相似度，如果所述背景相似度满足预设条件，且其中一个目标图像帧包括所述两个相邻目标图像帧的两条相邻字幕对应的角色，合并所述两个相邻目标图像帧。

2.根据权利要求1中所述的方法，其特征在于，所述从所述图像文件中获取每一条字幕对应的第一图像帧集合，包括：

基于所述字幕文件，获取每一条字幕的起始时间和结束时间；

基于所述起始时间和结束时间，从所述图像文件中获取每一条字幕对应的第一图像帧集合。

3.根据权利要求1中所述的方法，其特征在于，所述根据所述音频文件和所述对应关系表，从所述第一图像帧集合中确定每一条字幕对应的目标图像帧，包括：

从所述音频文件中获取每一条字幕对应的各个音频片段；

获取所述各个音频片段的各个声纹特征；

基于所述对应关系表，确定所述各个声纹特征对应的各个角色图像；

根据所述各个角色图像从所述第一图像帧集合中确定每一条字幕对应的目标图像帧。

4.根据权利要求3中所述的方法，其特征在于，所述根据所述各个角色图像从所述第一图像帧集合中确定每一条字幕对应的目标图像帧，包括：

分别提取所述各个角色图像的各个图像特征；

将所述各个图像特征与所述第一图像帧集合中的各个图像帧进行匹配，确定每一条字幕对应的目标图像帧。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

根据所述字幕文件和所述图像文件，获取相邻两条字幕之间的间隔时长；

如果所述间隔时长大于预设的间隔阈值，获取所述相邻两条字幕之间的第二图像帧集合；

从所述第二图像帧集合中确定静默图像帧；

将所述静默图像帧添加至所述漫画文件。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述将所述每一条字幕按照预设格式添加至对应的目标图像帧中，得到漫画文件，包括：

获取所述目标图像帧中每一条字幕对应的角色所在的位置信息；

根据所述位置信息确定所述每一条字幕对应的目标区域；

将所述每一条字幕按照预设格式添加至所述目标区域。

7.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

获取两个相邻目标图像帧的背景相似度；

如果所述背景相似度满足预设条件，确定所述两个相邻目标图像帧对应的两条相邻字幕是否属于同一角色；

如果所述两条相邻字幕属于同一角色，将前一条字幕按照预设格式添加至后一个目标图像帧中；

删除前一个目标图像帧。

8.根据权利要求7中所述的方法，其特征在于，所述方法还包括：

如果所述两条相邻字幕不属于同一角色，确定所述后一个目标图像帧是否包括两条相邻字幕对应的两个角色；

如果所述后一个目标图像帧中包括所述两个角色，将前一条字幕按照预设格式添加至所述后一个目标图像帧中；

删除所述前一个目标图像帧。

9.根据权利要求8中所述的方法，其特征在于，所述方法还包括：

如果后一个目标图像帧中不包括所述两个角色，确定所述前一个目标图像帧是否包括两条相邻字幕对应的两个角色；

如果所述前一个目标图像帧中包括所述两个角色，将后一条字幕按照预设格式添加至所述前一个目标图像帧中；

删除所述后一个目标图像帧。

10.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

从所述音频文件中依次获取每一条字幕对应的音频片段；

获取所述音频片段的声纹特征；

如果所述声纹特征不存在于对应关系表中，基于所述第一图像帧集合中的各个图像帧中角色的嘴型变化，确定所述声纹特征对应的角色图像；

将所述声纹特征和所述角色图像增加至对应关系表中。

11.一种图像处理装置，其特征在于，所述图像处理装置至少包括：第一获取模块、第一确定模块、添加模块和输出模块，其中：

所述第一获取模块，用于获取待处理的视频文件，其中所述视频文件至少包括字幕文件、图像文件和音频文件，所述字幕文件包括每条字幕的起始时间和结束时间；

所述第一确定模块，用于获取声纹与角色之间的对应关系表，其中，所述对应关系表是基于所述视频文件生成的；从所述图像文件中获取每一条字幕对应的第一图像帧集合；根据所述音频文件和所述对应关系表，从所述第一图像帧集合中确定每一条字幕对应的目标图像帧；还用于根据每一条字幕的起始时间和所述每一条字幕的结束时间，从所述图像文件中确定每一条字幕对应的图像帧集合；

所述添加模块，用于将所述每一条字幕按照预设格式添加至对应的目标图像帧中，得到漫画文件；还用于获取两个相邻目标图像帧的背景相似度，如果所述背景相似度满足预设条件，且其中一个目标图像帧包括所述两个相邻目标图像帧的两条相邻字幕对应的角色，合并所述两个相邻目标图像帧；

所述输出模块，用于输出所述漫画文件。

12.一种图像处理设备，其特征在于，所述图像处理设备至少包括：存储器、通信总线和处理器，其中：

所述存储器，用于存储图像处理程序；

所述通信总线，用于实现处理器和存储器之间的连接通信；

所述处理器，用于执行存储器中存储的图像处理程序，以实现权利要求1至10中任一项所述的图像处理方法的步骤。

13.一种存储介质，其特征在于，所述存储介质上存储有图像处理程序，所述图像处理程序被处理器执行时实现1至10中任一项中所述的图像处理方法的步骤。