CN105574524B

CN105574524B - 基于对白和分镜联合识别的漫画图像版面识别方法和系统

Info

Publication number: CN105574524B
Application number: CN201510920816.0A
Authority: CN
Inventors: 周亚峰; 王勇涛; 汤帜
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2015-12-11
Filing date: 2015-12-11
Publication date: 2018-10-19
Anticipated expiration: 2035-12-11
Also published as: CN105574524A

Abstract

本发明公布了一种基于对白和分镜联合识别的漫画图像版面识别方法和系统，将漫画图像分为分镜层和对白层；包括：提取得到漫画图像版面中的分镜；提取得到漫画图像版面中的对白；进行分镜与分镜、对白与对白、分镜与对白的联合识别：利建立能量最小化函数，通过优化求解能量最小化函数，得到分镜多边形和对白包围框的标记结果；根据多边形几何位置关系，识别得到阅读顺序；由此完成漫画图像版面的识别。本发明突破了只注重构成对象的独立提取、忽视构成对象间联系的识别方法的局限性，提高了分镜识别的准确率，具有更强的通用性。

Description

基于对白和分镜联合识别的漫画图像版面识别方法和系统

技术领域

本发明属于图像处理与计算机视觉领域，涉及一种基于对白和分镜联合识别的漫画图像版面识别方法和系统。

背景技术

近年来，随着各种移动终端如智能手机、平板电脑、电子书阅读器的普及，移动阅读发展迅猛，正逐步成为我们生活中不可或缺的一个组成部分。由于各种终端硬件制造工艺完善和制造成本的不断下降，目前移动阅读进入了“内容为王”的时代，如何制作适合在移动终端上阅读的内容是目前移动阅读所面临的关键问题之一。本发明从漫画移动阅读入手，改善用户的阅读体验。

漫画是一类相对特殊的出版物，其页面通常被分成若干个独立的子图像，在漫画制作领域，这些独立的子图像常常被称为“分镜”。分镜是一个语义的概念，与电影中的分镜、戏剧中的场景含义相近，它通常由两部分组成：1)角色的画面展示，对应于子图像中的图像内容部分；2)角色的语言展示，即对白，对应于子图像中的字符块及特定形状的包围框部分。

现有的漫画出版物通常针对纸质媒介进行排版设计，由于移动终端屏幕大小的限制，这些出版物的电子文档(用于出版物印刷的PDF等格式的电子文件或者纸质文档的扫描图像文档)并不能很好地在移动终端进行展示。为了解决这一问题，国内外相关研究人员提出对这些出版电子文档页面(以下简称文档页面)按内容进行一定粒度下的分解，然后在移动终端上将分解后的内容逐条显示以获得更好的展示效果。例如，一个漫画页面无法在智能手机的屏幕上完整且清晰地显示，但是若将漫画页面按内容分解成一幅一幅分镜进行显示，则可以获得更好的显示效果。

为了实现这一解决方案，需要知道出版物每个页面内容的结构信息，如插图该如何分解且它们之间的阅读先后顺序是怎样的。然而，现有的电子漫画文档并不直接包含这些结构信息，需要额外地获取这些信息。采用人工标注的方法费时费力而且成本非常高，无法满足移动终端上阅读内容制作日益增长的需求，因此迫切地需要相应的出版物电子文档页面结构信息自动提取技术与方法。对于如学术期刊、书籍之类以文字内容为主要构成部分的电子文档，现有的文档图像分析与理解方法通常可以取得较好的页面结构信息提取效果。然而，对于移动阅读中比较受欢迎的漫画出版物的电子文档，其页面通常包含大量的图形图像而且排版布局相对复杂，现有的文档图像分析与理解方法无法取得较好的提取结果。

国内外针对漫画文档图像的分析与理解方法的工作开展得不够系统与充分，通常借助于常规的文档图像处理分析方法，采用一些简单的规则和方法，局限性较大。针对目前相关国内外研究现状及发展动态叙述如下：

针对漫画图像理解问题(即识别出漫画图像中的每个分镜、对白这些构成对象并辨识出他们之间的阅读先后顺序)，文献“T.Tanaka et al.Layout Analysis of Tree-Structured Scene Frames in Comic Images.IJCAI.2007”首次提出了一种将漫画图像分割成分镜的方法(以下简称为分镜分割方法)及相应的分镜阅读顺序识别方法。该方法的基本假设是漫画图像总是能够用水平线和竖直线分割成一个个分镜(斜线可以按斜率大小分划到水平和竖直两种)，按照分割的次序漫画图像可以表示成一个树状的结构，其中根节点就代表整幅漫画，叶子节点就表示各个分镜，中间节点表示分割的方式(竖直或水平)。文献“C.Ponsard et al.Enhancing the accessibility for all of digital comicbooks.www.eminds.hci-rg.com，2009”提出了一种基于分水岭分割算法的分镜分割方法及相应的分镜阅读顺序识别方法。其主要思想是将漫画图像转为灰度图像进行二值化，然后对得到的前景图像进行分水岭分割，对分割得到的区域，去掉较小的，合并重叠较大的，得到最后的分镜分割结果。对于每个分镜，提取其矩形包围框，使用竖直方向-水平方向进行排序，从而得到分镜的阅读顺序。文献“E.Hanet al.Efficient Page Layout Analysis onSmall Devices.Journal of Zhejiang University.2009”提出了一种分镜分割算法，主要思想是先利用投影法得到一些潜在的分割点，然后再用训练得到的多层感知器分类器来判别这些潜在的分割点是否是真正的分割点。确定了分割点之后，再使用X-Y切割(X-Ycut)方法完成对漫画页面图像的分割得到分割结果。该方法的缺点是只能处理分镜边框为矩形的情况，且没有得到紧凑的分镜包围框。为了解决文献“T.Tanaka et al.Layout Analysisof Tree-Structured Scene Frames in Comic Images.IJCAI.2007”中方法不能得到紧凑分镜包围框的问题，文献“D.Ishii et al.A Study on Frame Position Detection ofDigitized Comic Images.Workshop on Picture Coding and Image Processing.2010”中提出了一种基于角点检测的漫画分割方法，主要思想是通过角点位置来精确定位分镜包围框的拐角从而减少初始分割中的空白部分。该方法一样无法处理分镜之间有粘连的情况。文献“K.Arai et al.Automatic E-Comic Content Adaptation.InternationalJournal of Ubiquitous Computing.2010”中也提出了一种分镜分割方法，该方法的主要步骤是先将图像二值化得到前景图像，然后进行连通分支搜索，将每个高度大于图像高度的1/8、宽度大于图像宽度的1/6的连通分支作为一个分镜。对于分镜有粘连的情况，该方法提出了一种进一步寻找分割线的解决方法。该方法的一个主要问题是，它并没有得到紧凑分镜包围框，而只是用一个矩形代替，当实际的分镜包围框并不是矩形的时候分割效果比较差。文献“Anh Khoi Ngo Ho et al.Panel and Speech Balloon Extraction fromComic Books.IAPR International Workshop on Document Analysis Systems.2012”中提出了一种基于区域生长和形态学处理的分镜分割方法。该文献采用了区域生长的分割方法进行背景提取，初始种子点的选取为漫画图像的四个角上的像素点。为了处理分镜之间有粘连的情况，该方法对得到的背景图像进行了N次的膨胀然后进行N次的腐蚀。文献中使用了3x3的模板，N值选取为图像长宽中较小值的1/6。最后对形态学处理后的图像提取前景的连通分量作为分镜分割结果。该方法完全依赖于经验，局限性太大，而且要进行2N次的形态学操作，效率比较低。此外，上面所述的分镜和对白提取方法是通过一个个模块独立完成的，往往会产生一些虚警，无法处理一些复杂的情况。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于对白和分镜联合识别的漫画图像版面识别方法和系统，在已有分镜识别、对白识别方法的基础上，充分考虑分镜和对白的密切联系，利用能量最小化模型及其图切分优化算法，提高分镜识别的准确率，从而增强漫画版面理解识别能力。

漫画图像版面通常存在：分镜包含对白、分镜和对白一般同时出现的规律。本发明基于这一规律，通过构成漫画图像版面的对象(分镜、对白等)联合识别，提供分镜和对白的提取过程并检验两者的提取结果。并且，本发明还通过使用能量最小化模型及其优化算法，充分地利用相关先验知识，实现漫画图像版面识别中所涉及的一些构成对象提取、构成对象联合识别，由此实现漫画图像版面识别。为了充分利用复杂漫画图像构成对象(分镜与对白)之间的逻辑结构关系、空间位置关系等上下文信息，本发明在使用能量最小化模型进行图像分割的基础上，采用标号分层的思想(如图6所示)来完成联合识别的任务。对漫画页面图像，按逻辑结构可分为两层：分镜层和对白层，每一个层对应同一个逻辑层次的对象。

本发明提供的技术方案是：

一种基于对白和分镜联合识别的漫画图像版面识别方法，通过采用能量最小化模型方法提取得到多种漫画构成对象，并通过设计能量最小化函数和推理(优化)机制，针对多种漫画构成对象进行联合识别，由此实现漫画图像版面识别；包括如下步骤：

1)提取漫画图像版面中的分镜；

11)进行前景背景分割过程，将输入图像转换为灰度图像，通过广度优先搜索方法得到背景区域，再将其他所有区域当作前景区域，并将漫画图像二值化为黑白二值图；

12)进行轮廓检测过程，检测并提取得到所述黑白二值图的轮廓；

13)对所述黑白二值图的轮廓进行多边形拟合，对于能够拟合出四边形的轮廓，将拟合得到的四边形加入已识别的分镜中；对于不能通过四边形拟合的轮廓，继续进行步骤14)直线段检测过程；

14)直线段检测过程通过直线段检测过程逐个提取轮廓中所包含的直线段：具体可设定一个固定阈值，抛弃长度小于该阈值的分镜边线和从曲线上提取出的直线段，使用直线段的左端点坐标(x1，y1)和右端点坐标(x2，y2)表示一条直线段，从而得到被识别出的直线段；

15)进行查找分镜过程，对被识别出的直线段进行预处理，去除冗余的直线段进行拼接，成为完整的四边形，所述四边形作为可能的漫画图像分镜；

2)提取漫画图像版面中的对白(包括对话气泡)；

21)对输入的漫画图像进行选择查找(selective search)过程，产生多个不同级别的、形状大小不一的、可能包含对白的区域，这些区域可能存在重叠；

从完整的漫画图像中剪裁出每一个区域对应的图片，将这幅图片作为卷积神经网络的输入图片；

22)使用图片数据集(如ILSVRC 2012数据集，该数据集包含120万张自然场景图片，总共分为1000类)预训练得到一个包含五层卷积层、两层全连接层、一层softmax层的卷积神经网络，并使用输入的漫画图像中有标注的漫画对白数据微调(fine-tuning)卷积神经网络；

本发明中，卷积神经网络的结构采用文献“Alex Krizhevsky,Ilya Sutskever,Geoffrey E.Hinton:ImageNet Classification with Deep Convolutional NeuralNetworks.NIPS 2012”记载的卷积神经网络结构，该卷积神经网络模型是包含八层结构的卷积神经网络，八层结构依次为五层卷积层、两层全连接层和一层softmax分类层。五层卷积层中，第1层作用在224*224*3的输入图像上，包含96个核(每个核大小：11*11*3)，步长(stride)为4pixels；第2层是包含256个核(大小：5*5*48)；第3、4、5层没有利用归一化，第3层有384个核(大小：3*3*256)，其输入是第二层归一化并pooling的输出；第4层拥有384个核(大小：3*3*192)；第5层含256个核(大小：3*3*192)；两层全连接层每层有4096个神经元。

23)将输入的漫画图像中所有有标注的漫画对白数据，送到卷积神经网络中，取出卷积神经网络第七层(第二层全连接层)的输出，训练得到一个支持向量机分类器；通过支持向量机得到各区域的分类评分；对于步骤21)中产生的每一个区域，同样取出卷积神经网络第七层的输出，送到支持向量机分类器中，过滤掉分类评分低于设定值(如0.5)的区域；

24)将所有有标注的漫画对白数据，再送到卷积神经网络中，取出卷积神经网络第五层(第五层卷积层)的输出，训练得到一个线性回归分类器；对于23)中过滤剩下的每一个区域，同样取出卷积神经网络第五层的输出，送到线性回归分类器中，获得区域的紧凑矩形包围框。所述矩形包围框作为可能的漫画对白框；

3)进行分镜与分镜、对白与对白、分镜与对白的联合识别；

同一漫画页面所包含的多个分镜(对白)在排布上具有一定的规律，特别是相邻分镜(对白)之间可能存在包围框边线平行等规律，利用这些规律指导分镜(对白)分割和检验分镜(对白)分割结果。另一方面，分镜包含对白，它们一般同时出现，这一规律可以用来相互指导两者的提取过程和检验两者的提取结果。本发明利用分镜和对白的关联关系建立树状层级、构建特殊的能量函数，通过求解能量函数，得到分镜四边形和对白包围框的标记结果，最终识别出漫画页面中的分镜和对白；

4)将分镜多边形识别结果作为分镜阅读顺序检测过程的输入，所述分镜阅读顺序检测过程根据多边形之间的几何位置关系识别得到分镜阅读顺序。对白识别结果也作为对白阅读顺序检测过程的输入，做类似处理，然后可以识别对白文字并翻译为指定语言。由此完成漫画版面的识别。

本发明中，漫画内容主要是由漫画书逐页扫描得到的漫画图像。用户首先获得图像格式的漫画电子文件(例如：jpg、png等格式的文件)，这些文件是由纸质漫画逐页扫描得到或是由漫画出版商提供的图像格式的漫画包(将漫画图像逐页编号并压缩成为zip,rar等格式的压缩文件包)，并且将这些漫画图像逐页输入系统。因此，漫画图像可以是由漫画书籍进行逐页扫描得到，也可以是漫画出版商提供的漫画图像包(漫画包是将漫画图像逐页编号并压缩成为.zip或.rar等格式的压缩文件包，将该压缩文件解压之后即可获得逐页的漫画图像)。

本发明还提供一种实现上述漫画图像版面的识别方法的漫画图像版面识别系统，包括构成对象提取模块、联合识别模块和后处理模块；所述构成对象提取模块包括分镜识别与提取模块、对白识别和提取模块；所述联合识别模块包括分镜与分镜联合识别模块、对白与对白联合识别模块、分镜与对白联合识别模块；所述后处理模块包括分镜和对白的阅读顺序辨识模块；

分镜识别与提取模块，用于自动识别出组成分镜边框的多边形(大多数为四边形)，得到所有可能是分镜边框的四边形；

对白识别与提取模块，用于自动识别出分镜中的对白，得到所有可能包含对白的对话气泡；

分镜与分镜联合识别模块，用于筛选分镜四边形，利用分镜之间的空间位置关系约束，得到识别更精确的分镜；

对白与对白联合识别模块，用于筛选对话气泡，利用对白之间的空间位置关系约束，得到识别更准确的对白；

分镜与对白联合识别模块，用于筛选分镜四边形和对话气泡，利用分镜和对白的空间位置关系约束、分镜和对白的逻辑结构关系约束，最终得到确定的分镜和对白；

分镜和对白的阅读顺序辨识模块，包括分镜阅读顺序识别模块和对白阅读顺序识别模块，两个模块分别通过将上述联合识别模块得到的分镜多边形和对话气泡结果作为输入，根据各自的排序对象(分镜多边形或者对话气泡)的几何位置关系，将所述排序对象进行排序，得到排序后的对象。

对白文字识别模块，可选模块，检查对白包围框中的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成文字，后续还可以将文字翻译为多国语言。

与现有技术相比，本发明的有益效果是：

漫画图像理解或识别是要识别出漫画图像中的每个分镜，辨识出这些分镜之间的关系，即识别获得阅读顺序。本发明分析输入的漫画图像，获取漫画版面中的分镜和对白，利用复杂漫画图像构成对象之间的空间位置关系约束、逻辑结构关系约束(如分镜包含对白)进行构成对象的联合识别，将这些上下文信息引入到能量最小化模型方法中，设计相应的标号分层的能量函数及对应的优化方法，分镜和对白互相指导对方的识别，从而完成漫画版面的联合识别。本发明提供的方法和系统突破了现有方法只注重构成对象的独立提取、忽视构成对象间联系的局限性，提高了分镜识别的准确率，具有更强的通用性。

附图说明

图1为一幅典型的漫画页面扫描图像(简称为漫画图像)和分成的分镜、对白示意图；

其中，(a)为一幅示例漫画图像；(b)为该漫画图像被分成独立的分镜F1、F2等、独立的对白B1、B2、B3等，每个分镜包括多边形边框和由多边形边框包围的部分；(c)为将漫画图像按分镜依序在手机上展示的结果，分镜下方可附上从对白中识别出的文字。

图2为本发明实施例提供的漫画图像版面识别系统的系统结构图。

图3为本发明实施例提供的漫画图像版面识别方法的流程框图。

图4为水平直线段和垂直直线段T形交叉和L形交叉的示意图；

其中，(a)为T形交叉；(b)为L形交叉。

图5为分镜紧凑性说明的示意图；

其中，(a)为松散的分镜；(b)为紧凑的分镜。

图6为分镜层与对白层的层内关系和层间的交互关系示意图。

图7为本发明实施例中应用的一幅漫画图像。

图8为本发明实施例进行分镜识别得到的最终结果示意图；

其中，不同编号代表不同的分镜，当分镜没有进行排序时，展示顺序为f1、f2、f3、f4、f5；当所有分镜进行排序后，展示顺序为f5、f2、f4、f3、f1。

图9为本发明实施例进行对白识别得到的最终结果示意图；

其中，不同编号b1～b5代表不同的对白；当对白没有进行排序时，展示顺序为b1、b2、b3、b4、b5；当所有对白进行排序后，展示顺序为b4、b5、b2、b3、b1。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明以漫画出版物页面图像为处理对象，借鉴当前自然图像理解方法，充分利用能量最小化模型及其图切分优化算法，提供这类复杂文档图像的结构信息自动提取方法，既提出该类图像各种构成对象(分镜、对白或对话气泡)的识别方法，也提出根据构成对象之间的逻辑结构关系联合地识别对象，并判断阅读的先后顺序。

例如，图1为一幅典型的漫画页面扫描图像(简称为漫画图像)和分成的分镜、对白示意图；其中，(a)为一幅示例漫画图像；(b)为该漫画图像被分成独立的分镜F1、F2等、独立的对白B1、B2、B3等，每个分镜包括多边形边框和由多边形边框包围的部分；(c)为将漫画图像按分镜依序在手机上展示的结果，分镜下方可附上从对白中识别出的文字。

本实施例中，用户U的设备(个人电脑、手持设备等)需要先安装实现了本发明提供的漫画图像版面识别方法的客户端软件，相关功能模块被部署到该客户端软件中。图2为本发明实施例提供的漫画图像版面识别系统的系统结构图。漫画图像版面识别系统包括构成对象提取模块、联合识别模块和后处理模块；其中，构成对象提取模块包括分镜识别与提取模块、对白识别和提取模块；联合识别模块包括分镜与分镜联合识别模块、对白与对白联合识别模块、分镜与对白联合识别模块；后处理模块包括分镜和对白的阅读顺序辨识模块。

图3为本发明实施例提供的漫画图像版面识别方法的流程框图。本发明提供的漫画图像版面识别方法和自动识别系统工作时的总体流程是：用户U在获取漫画图像文件之后，将漫画图像依次输入系统，并且发出漫画版面分析的请求，进行漫画图像的版面理解工作。系统的分镜提取模块和对白提取模块同时响应该请求，从漫画图像中找出可能的分镜四边形和对白矩形包围框，构建各自独立的能量函数；接着结合分镜和对白的能量函数，增加联合识别能量函数，构建为统一的能量函数并求解，得到分镜四边形和对白矩形包围框标记结果；用户U可以查看并可对检测结果进行筛选，发送给阅读顺序检测模块；根据分镜、对白之间的相对几何位置进行排序，可选对对白图像进行光学字符识别，最后将漫画图像连同分镜、对白的位置(对白文字)以及阅读顺序返回给用户U。

本实施例的具体步骤如下：

为了充分利用复杂漫画图像构成对象(分镜与对白)之间的逻辑结构关系、空间位置关系等上下文信息，本发明在使用能量最小化模型进行图像分割的基础上，采用标号分层的思想(如图6所示)来完成联合识别的任务。对漫画页面图像，按逻辑结构可分为两层：分镜层、对白层，每一个层对应同一个逻辑层次的对象。例如，每一个对白区域都被当做一个对白节点，所有的对白节点构成了对白层。

1)分镜识别与提取过程

11)前景背景分离过程是将输入图像转换为灰度图像，进行广度优先搜索得到背景区域，将其他所有区域当作前景区域，并将漫画图像二值化为黑白二值图。

用户U获取漫画图像文档之后，将其输入已安装好的实现本发明的客户端软件中。首先自动检测漫画图像的背景。前景背景分离模块首先将输入图像转换为灰度图像，接着从左上角的像素点开始进行广度优先搜索，如果准备搜索的像素点与当前像素点集合的平均像素值差小于设定值(如60)，那么将准备搜索的像素点加入当前像素点集合，否则新建一个像素点集合，将准备搜索的像素点加入新建的集合。重复搜索过程，直至漫画图像中所有的像素点都被搜索过。搜索结束后，找到分布范围最广(区域的矩形包围框面积最大)的像素点集合(即连通区域)，将其当作背景区域，将其他所有区域当作前景区域，并将漫画图像二值化为黑白二值图(背景为黑色，前景为白色)。

12)轮廓检测过程

在进行轮廓检测前，可选对二值图进行预处理，对二值化的图像进行一次形态学腐蚀操作一次形态学膨胀操作。接着使用文献“Suzuki,S.and Abe,K.,TopologicalStructural Analysis of Digitized Binary Images by Border Following.CVGIP 301,pp 32-46(1985)”提出的考察二值化图像的边界包围关系的方法，对二值化图像的外轮廓进行追踪。得到轮廓之后，使用道格拉斯-普克算法(参数epsilon设为7.0)对轮廓进行多边形拟合。该算法迭代地将曲线近似表示为一系列点，并减少点的数量。如果某个轮廓能够拟合出四边形，那么跳过直线段检测和分镜查找模块，直接送到多边形验证模块。本实施例中使用计算机自动筛选来验证多边形，设置分辨率约束、面积约束和边长约束；具体是：分辨率约束即多边形的长宽比必须在1:20到20:1之间，面积约束即多边形的面积至少占整幅漫画页面的0.0015倍，边长约束即多边形的每一条边长度至少为25像素。如果通过多边形验证，那么认为这个拟合出的四边形是一个分镜。

13)直线段检测过程

对于每一个没有通过四边形拟合的轮廓，逐个提取轮廓中所包含的直线段。可设定一个固定阈值，当长度小于该阈值，从曲线上提取出的直线段将被抛弃；因为分镜的边线不可能过短也不可能处于曲线上，所以长度小于漫画页面长度1/32的直线段，以及从曲线上提取出的直线段将被抛弃。使用直线段的左端点坐标(x1,y1)和右端点坐标(x2,y2)表示一条直线段。坐标空间定义为：漫画图像页面左上角点作为坐标原点，X轴方向从左到右增加，Y轴方向从上到下增加。

14)分镜四边形形成过程

得到被识别出的直线段之后，通过多边形形成模块对于这些直线段进行拼接，成为完整的四边形，这些四边形都是可能的漫画图像分镜。具体拼接方法为：将直线段按照斜率分为两类，一类是水平直线段，另一类是垂直直线段，接着选取两条水平直线段和两条垂直直线段，将他们延长使水平直线段与垂直直线段相交，两条垂直和两条水平的直线段会有四个交点，形成一个四边形。在形成四边形时，并不是所有的线段都可以组合。如果两条直线段的交点处于其中一条直线段内部，此时形成了T形交叉，这样的交叉是不允许的，仅仅允许L形交叉。图4解释了这两种情况。

每个组合直线段形成的四边形都会送到多边形验证模块进行校验，校验之后，分镜查找模块进一步去除互相重合面积超过95％的分镜，只保留一份副本，并且去除与已有分镜重合面积超过20％的四边形，不保留副本。

接下来，本发明根据过滤后的四边形(多个)和同一图像中已有的分镜构建图模型，每一个四边形或者分镜(本小节下面统称为四边形)都是图模型中的一个节点。根据形成的图结构，本发明定义能量函数E₁(y₁；x₁,w)如式1：

(式1)

其中，E₁表示分镜层的总能量，y₁表示分镜节点的标记值集合，表示节点p的标记值，x₁表示分镜层内节点的特征集合，w是能量函数的参数，p∈P表示p是分镜节点集合P的一个节点。表示一元势能，对于未确定为分镜的四边形，其取值为对于已确定为分镜的四边形，其取值为INF表示无穷大。本发明中使用四边形的紧凑性度量作为特征，紧凑性即实际构成分镜的直线段长度之和与分镜边框周长的比例，取值范围在0～1.0之间，考虑实际应用的需求也可以扩充特征向量。图5定性地描述了紧凑性的定义。节点的标记值取值为0或1，0表示该节点(四边形)不是分镜，1表示该节点(四边形)是分镜。

2)对白识别与提取过程

21)对输入进行选择查找(selective search)过程，产生多个不同级别的、形状大小不一的、可能包含对白的区域，这些区域可能存在重叠；

22)使用ILSVRC 2012数据集预训练一个包含五层卷积层、两层全连接层、一层softmax层的卷积神经网络，并使用有标注的漫画对白数据微调(fine-tuning)卷积神经网络。ILSVRC2012数据集拥有超过120万张图像，包含1000个类别。有标注的漫画对白数据集拥有800张图像，总计5147个对白矩形包围框。卷积神经网络的结构采用参考文献“AlexKrizhevsky,Ilya Sutskever,Geoffrey E.Hinton:ImageNet Classification with DeepConvolutional Neural Networks.NIPS 2012”记载的卷积神经网络结构；

23)将所有有标注的漫画对白数据，输送到卷积神经网络中，取出卷积神经网络第七层的输出，共4096维特征，训练一个二分类(表示一个对白矩形包围框是否是正确的包围框，当该包围框与数据集中的某个包围框重叠面积大于阈值时，认为是正确的包围框，分类器将其分类为1，否则分为0)的支持向量机分类器。对于21)中产生的每一个区域，同样取出卷积神经网络第七层的输出，送到支持向量机分类器中，过滤掉分类评分低于0.5的区域；

24)将所有有标注的漫画对白数据，送到卷积神经网络中，取出卷积神经网络第五层的输出，共9216维特征，训练一个线性回归分类器。对于23)中过滤剩下的每一个区域，同样取出卷积神经网络第五层的输出，送到线性回归分类器中，获得区域的紧凑矩形包围框。所述矩形包围框作为可能的漫画对白框；

25)本发明根据过滤后的矩形包围框构建图模型，每一个矩形包围框(本小节下面统称为包围框)都是图模型中的一个节点。根据形成的图结构，本发明定义能量函数E₂(y₂；x₂,ξ)如式2：

(式2)

其中，E₂表示对白层的总能量，y₂表示对白节点的标记值集合，表示节点i的标记值，x₂表示节点的特征集合，ξ是能量函数的参数，i∈I表示i是节点集合I的一个节点。表示一元势能。本发明中使用对白的颜色、对白内部区块的几何特性作为特征。节点的标记值取值为0或1，0表示该节点(包围框)不是正确的对白，1表示该节点(包围框)是正确的对白。

3)联合识别过程

联合识别过程分为分镜与分镜的联合识别、对白与对白的联合识别、分镜与对白的联合识别，前两者通过构造层内二元势能(即，互动势能)实现，后者通过构造层间二元势能实现。图6描述了这几种情况。

31)分镜与分镜的联合识别

步骤14)中构建的图模型仅仅考虑了分镜自身的特征，没有考虑分镜和分镜之间的联系，容易导致标记结果缺少统一性，影响最终的分镜识别准确率。需要为能量函数增加成对分镜的约束，本发明首先如下定义邻域：针对过滤后的多个四边形，如果两两四边形有面积重合，在两个节点间连一条边，表明这两个节点互斥；如果两两四边形没有面积重合，并且两两相邻，在两个节点间连一条边，表明这两个节点相邻；由此形成图结构。根据形成的图结构，本发明修改能量函数E₁(y₁；x₁,w)式1为式3：

(式3)

其中，除了能量函数的参数w进行了扩展(维度增加)以外，各个在式1中出现过的符号意义不变，新增加的符号定义如下：表示节点q的标记值，(p,q)∈N₁表示分镜层的节点p和分镜层的节点q在邻域定义N₁中相邻。表示二元势能。二元势能中的N₁包含了两种不同的邻域定义，一种是互斥一种是相邻，如果两个节点互斥，二元势能如下计算：

(式4)

如果两个节点相邻，二元势能如下计算：

(式5)

32)对白与对白的联合识别

类似的，步骤24)中构建的图模型仅仅考虑了对白自身的特征，没有考虑对白和对白之间的联系，本发明为对白层内节点定义与步骤31)中相同的邻域，修改能量函数E₂(y₂；x₂,ξ)式2为：

(式6)

其中，除了能量函数的参数ξ进行了扩展(维度增加)以外，各个在式2中出现过的符号意义不变，新增加的符号定义如下：表示节点j的标记值，(i,j)∈N₂表示对白层的节点i和对白层的节点j在邻域定义N₂中相邻。表示二元势能。

33)分镜与对白的联合识别

为了充分利用复杂漫画图像构成对象(分镜与对白)之间的逻辑结构关系、空间位置关系等上下文信息，本发明在使用能量最小化模型进行图像分割的基础上，采用标号分层的思想(如图6所示)来完成联合识别的任务。对漫画页面图像，按逻辑结构可分为两层：分镜层、对白层，每一个层对应同一个逻辑层次的对象。步骤31)与步骤32)分别考虑了分镜层和对白层内部各对象的关联(分镜与分镜的关联、对白与对白的关联)，为分镜层和对白层添加了层内的二元势能。本步骤中将为分镜层和对白层添加层间的关联，使分镜和对白互相指导对方的识别过程。特别地，结合式3和式6，本发明定义一种新的能量最小化函数来完成联合识别任务：

(式7)

其中，第一行第三项为新增的层间关联势能。y为y₁，y₂的集合；x为x₁，x₂，x₃的集合；ζ为w，ξ，θ的集合。(q,j)∈N₃表示分镜层的节点q和对白层的节点j在邻域定义N₃中相邻。N₃为新定义的邻域，如果一个对白包围框的大部分内容处于某个分镜四边形内，就认为该对白节点与该分镜节点相邻。表示二元势能，使用分镜和对白的几何联系和上下文联系作为新特征，构成x₃。θ为新增的能量函数项的参数。

34)联合识别能量函数的优化求解；

构造完成能量函数之后，需要使用图模型理论中的推断算法最小化上述能量函数式7，得到最优标记值集合。常用的推断方法包括GraphCuts图割算法、置信传播算法和Move-making算法，本发明的能量函数是非凸函数，不满足使用GraphCuts图割算法要求二元势能为度量或者半度量的前提条件，所以不能使用GraphCuts算法中的和求解。本发明实施例使用Loopy Belief Propagation(LBP，循环置信传播)算法、Iterated ConditionalModes(ICM，迭代条件模式)算法和BruteForce(BF，暴力搜索)算法进行求解。循环置信传播算法较为高效，迭代条件模式算法保证能量函数随着迭代次数增加必定收敛到某一个局部最小能量值，而暴力搜索算法保证找到全局最小能量值。本发明可以在不同的应用场景中按照使用需求来选取推断算法。

最后，将能量函数的解(即标记值集合)对应到分镜四边形和对白包围框中：将标记值为1的分镜四边形加入已识别的分镜中，其余标记为0的四边形将被抛弃；将标记值为1的对白包围框加入已识别的对白中，抛弃其余标记为0的。

4)用户U保存并且确认分镜多边形识别结果(本实施例为四边形识别，四边形识别结果由其四个顶点表示，左下角、左上角、右上角、右下角依次为点1、点2、点3和点4)和对白矩形包围框识别结果(本实施例为矩形包围框识别，识别结果由其左上角和右下角两个顶点表示)之后，将作为阅读顺序检测模块的输入。分镜阅读顺序检测模块根据多边形之间的几何位置关系判断其阅读顺序，对白阅读顺序检测类似。分镜阅读顺序的识别将输入的分镜进行排序，排序的核心是如何判定任意两个分镜之间的阅读顺序。具体做法是判定两个分镜横向和纵向的交叠情况：1.如果两个分镜在竖直方向没有交叠，则分镜中心点偏上的阅读顺序靠前；2.如果两个分镜在竖直方向有交叠水平方向无交叠，对于日系漫画，分镜中心点偏右的阅读顺序靠前，对于欧美以及大陆港澳台漫画则阅读顺序靠后；3.如果两个分镜水平竖直方向均有交叠，则两分镜相邻处必有一对平行的直线，如果这两直线段与X轴夹角小于45°则同情况2，否则同情况1。用户可选对对白进行光学字符识别(OCR)，将对白图像转换成对白文字，依序显示在分镜下方。

5)最终，客户端软件将漫画版面分析结果(包括源图像，识别出的分镜和对白的几何位置以及阅读顺序)返回给用户。

下面针对一幅输入的漫画图像根据上述具体实施方法，对本发明提供方法的过程进行叙述。首先将一幅通过扫描得到的漫画图像(如图7所示的漫画图像)作为系统的输入。分镜识别与提取模块对漫画图像进行前背景分割、轮廓检测、直线段拼接，形成所有可能是分镜包围框的四边形；对白识别与提取模块从漫画图像中找出所有可能包含对白的区域，接着利用卷积神经网络和支持向量机过滤不合理的区域，最后使用线性回归器从区域中提取出可能包含对白的矩形包围框；联合识别模块考察分镜四边形和对白矩形包围框的几何和结构关系，构造并求解能量函数，结合分镜检测模块中的轮廓检测提取出的分镜和能量函数求得的分镜，形成最终的分镜四边形和对白矩形包围框的识别结果；之后根据分镜之间、对白之间的几何位置关系，完成分镜阅读顺序、对白阅读顺序的识别，最终完成漫画图像版面理解识别，最终分镜识别与对白识别结果如图8与图9所示。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于对白和分镜联合识别的漫画图像版面识别方法，针对漫画图像按逻辑结构分为分镜层和对白层，每一层对应同一个逻辑层次的漫画构成对象；通过采用能量最小化模型方法提取得到多种漫画构成对象；再通过构建能量最小化函数和优化方法，针对所述提取得到的多种漫画构成对象进行联合识别，由此实现漫画图像版面识别；包括如下步骤：

1)提取得到漫画图像版面中的分镜；

2)提取得到漫画图像版面中的对白；

3)针对步骤1)所述分镜和步骤2)所述对白，通过进行分镜与分镜、对白与对白、分镜与对白的联合识别：利用分镜和对白的关联关系建立能量最小化函数，通过优化求解能量最小化函数，得到分镜多边形和对白包围框的标记结果，从而识别得到漫画图像版面中的分镜和对白；

4)将步骤3)识别得到的分镜多边形作为分镜阅读顺序检测过程的输入，所述分镜阅读顺序检测过程根据所述分镜多边形之间的几何位置关系，识别得到分镜阅读顺序；将步骤3)识别得到的对白包围框作为对白阅读顺序检测过程的输入，所述对白阅读顺序检测过程根据所述对白包围框之间的几何位置关系，识别得到对白文字；由此完成漫画图像版面的识别。

2.如权利要求1所述基于对白和分镜联合识别的漫画图像版面识别方法，其特征是，步骤2)所述提取得到漫画图像版面中的对白，具体包括如下步骤：

21)对输入的漫画图像通过选择查找过程，产生多个可能包含对白的区域，这些区域为不同级别的、形状大小不一的，不同区域还可能存在重叠；

22)使用ILSVRC 2012数据集预训练得到一个包含八层的卷积神经网络，并使用有标注的漫画对白数据微调(fine-tuning)卷积神经网络；

23)将所有有标注的漫画对白数据，送到所述卷积神经网络中，取出卷积神经网络第七层的输出，训练得到一个支持向量机分类器；对于21)中产生的每一个区域，同样取出卷积神经网络第七层的输出，送到所述支持向量机分类器中，根据分类评分过滤区域，得到过滤后的区域；

24)对于所有有标注的漫画对白数据，送到卷积神经网络中，取出卷积神经网络第五层的输出，训练一个线性回归分类器；对于23)所述过滤后的每一个区域，同样取出卷积神经网络第五层的输出，送到所述线性回归分类器中，获得区域的紧凑矩形包围框，作为可能的漫画对白框。

3.如权利要求2所述基于对白和分镜联合识别的漫画图像版面识别方法，其特征是，所述八层的卷积神经网络包括五层卷积层、两层全连接层和一层softmax层。

4.如权利要求2所述基于对白和分镜联合识别的漫画图像版面识别方法，其特征是，步骤23)所述训练得到的支持向量机分类器为一个二分类的支持向量机分类器，所述二分类表示一个对白矩形包围框是否是正确的包围框，当该包围框与数据集中的某个包围框重叠面积大于阈值时，该包围框是正确的包围框，分类器将该包围框分类为1；当该包围框与数据集中的某个包围框重叠面积不大于阈值时，该包围框不是正确的包围框，分类器将该包围框分类为0。

5.如权利要求2所述基于对白和分镜联合识别的漫画图像版面识别方法，其特征是，步骤24)得到的可能的漫画对白框为矩形包围框，所述每一个矩形包围框都是图模型中的一个节点，由此构建形成图模型；根据所述形成的图模型的图结构通过式2表示为能量函数E₂(y₂；x₂,ξ)：

式2中，E₂表示对白层的总能量；y₂表示对白节点的标记值集合；表示节点i的标记值，表示该节点是或者不是正确的对白；x₂表示节点的特征集合；ξ是能量函数的参数；i∈I表示i是节点集合I的一个节点；表示一元势能；

通过求解式2所述能量函数E₂(y₂；x₂,ξ)，提取得到正确的对白。

6.如权利要求1所述基于对白和分镜联合识别的漫画图像版面识别方法，其特征是，步骤3)针对步骤1)所述分镜和步骤2)所述对白，包括分镜与分镜的联合识别过程、对白与对白的联合识别过程和分镜与对白的联合识别过程：

所述分镜与分镜的联合识别过程，具体针对过滤后的多个分镜四边形设为节点，设定当两两四边形有面积重合时，在两个节点间连一条边，该两个节点为互斥关系；当两两四边形没有面积重合并且两两相邻时，在两个节点间连一条边，该两个节点为相邻关系；由此形成图结构；根据形成的图结构构建能量函数E₁(y₁；x₁,w)为式3：

式3中，E₁表示分镜层的总能量；y₁表示分镜节点的标记值集合；表示节点p的标记值，取值为0或1，0表示该节点四边形不是分镜，1表示该节点四边形是分镜；x₁表示分镜层内节点的特征集合；w是进行维度增加扩展的能量函数的参数；p∈P表示p是分镜节点集合P的一个节点；表示一元势能，对于未确定为分镜的四边形，其取值为对于已确定为分镜的四边形，其取值为INF表示无穷大；表示节点q的标记值；(p,q)∈N₁表示分镜层的节点p和分镜层的节点q在邻域定义N₁中相邻；表示二元势能，二元势能中的N₁包含了两种不同的邻域定义，一种是互斥另一种是相邻，当两个节点为互斥关系时，二元势能通过式4计算得到：

当两个节点为相邻关系时，二元势能通过式5计算得到：

通过求解式3所述能量函数E₁(y₁；x₁,w)，完成分镜与分镜的联合识别过程，提取得到正确的分镜；

所述对白与对白的联合识别过程，具体针对白层内的漫画对白框，所述漫画对白框为矩形包围框，设为节点；设定当两两矩形包围框有面积重合时，在两个节点间连一条边，该两个节点为互斥关系；当两两矩形包围框没有面积重合并且两两相邻时，在两个节点间连一条边，该两个节点为相邻关系；由此形成图结构；根据形成的图结构构建能量函数E₂(y₂；x₂,ξ)为式6：

式6中，E₂表示对白层的总能量；y₂表示对白节点的标记值集合；表示节点i的标记值；x₂表示节点的特征集合；ξ是能量函数进行了维度增加扩展的参数；i∈I表示i是节点集合I的一个节点；表示一元势能；表示节点j的标记值，(i,j)∈N₂表示对白层的节点i和对白层的节点j在邻域定义N₂中相邻；表示二元势能；

通过求解式6所述能量函数E₂(y₂；x₂,ξ)，完成对白与对白的联合识别过程，提取得到正确的对白；

所述分镜与对白的联合识别过程，具体针对分镜层和对白层添加层间的关联，建立式7新的能量最小化函数E(y；x,ζ)来完成分镜与对白联合识别过程：

式7中，相比式3和式6，为新增的层间关联势能；y为y₁，y₂的集合；x为x₁，x₂，x₃的集合；ζ为w，ξ，θ的集合；(q,j)∈N₃表示分镜层的节点q和对白层的节点j在邻域定义N₃中相邻；N₃为新定义的邻域；表示二元势能，使用分镜和对白的几何联系和上下文联系作为新特征，构成x₃；θ为新增的能量函数项的参数；

通过推断算法最小化式7所述能量函数，得到最优标记值集合，从而识别得到分镜多边形和对白矩形包围框。

7.如权利要求1所述基于对白和分镜联合识别的漫画图像版面识别方法，其特征是，步骤3)所述得到分镜多边形和对白包围框的标记结果，所述分镜多边形为分镜四边形，由四边形的左下角、左上角、右上角、右下角四个顶点依次标记，作为分镜识别结果；所述对白包围框由左上角和右下角两个顶点依次标记，作为对白识别结果。

8.如权利要求1所述基于对白和分镜联合识别的漫画图像版面识别方法，其特征是，通过对任意两个分镜之间的阅读顺序进行排序得到步骤4)所述分镜阅读顺序，所述排序具体是按照输入的两个分镜多边形的横向和纵向的交叠情况进行排序；所述两个分镜多边形的横向和纵向的交叠情况包括：两个分镜多边形在竖直方向没有交叠的情况、两个分镜多边形在竖直方向有交叠但水平方向无交叠的情况、两个分镜多边形在水平和竖直方向均有交叠的情况；当两个分镜多边形在竖直方向没有交叠时，分镜多边形的中心点偏上的阅读顺序靠前；当两个分镜多边形在竖直方向有交叠但水平方向无交叠时，日系漫画的分镜中心点偏右的阅读顺序靠前，欧美和大陆港澳台漫画的分镜中心点偏右的阅读顺序靠后；当两个分镜多边形在水平和竖直方向均有交叠时，两分镜相邻处必有一对平行的直线，如果这两直线段与X轴夹角小于45°，处理与当两个分镜多边形在竖直方向有交叠但水平方向无交叠时相同，如果这两直线段与X轴夹角不小于45°，处理与当两个分镜多边形在竖直方向没有交叠时相同。

9.如权利要求1所述基于对白和分镜联合识别的漫画图像版面识别方法，其特征是，所述漫画图像由将漫画书籍进行逐页扫描得到，或者将漫画出版商提供的漫画图像包压缩文件进行解压之后获得。

10.一种实现权利要求1～9任一项所述基于对白和分镜联合识别的漫画图像版面识别方法的漫画图像版面识别系统，其特征是，包括构成对象提取模块、联合识别模块和后处理模块；所述构成对象提取模块包括分镜识别与提取模块、对白识别与提取模块；所述联合识别模块包括分镜与分镜联合识别模块、对白与对白联合识别模块、分镜与对白联合识别模块；所述后处理模块包括分镜阅读顺序辨识模块和对白阅读顺序辨识模块；

分镜识别与提取模块，用于自动识别出组成分镜边框的多边形，得到所有可能的分镜边框的四边形；

对白识别与提取模块，用于自动识别出分镜中的对白，得到所有可能包含对白的对话气泡的对白包围框；

分镜与分镜联合识别模块，用于通过空间位置关系进一步精确识别分镜四边形，得到筛选后的分镜四边形；

对白与对白联合识别模块，用于通过空间位置关系进一步精确识别对话气泡的对白包围框，得到筛选后的对白包围框；

分镜与对白联合识别模块，用于通过分镜与对白的空间位置关系约束、分镜与对白的逻辑结构关系约束，对分镜和对白进行进一步筛选，从而得到确定的分镜和对白；

分镜阅读顺序辨识模块和对白阅读顺序辨识模块，分别通过将所述联合识别模块得到的分镜多边形和对白包围框识别结果作为输入，根据几何位置关系进行排序，得到排序后的分镜多边形和对白包围框对象。