CN105528614A

CN105528614A - 一种漫画图像版面的识别方法和自动识别系统

Info

Publication number: CN105528614A
Application number: CN201510868065.2A
Authority: CN
Inventors: 周亚峰; 王勇涛; 汤帜
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2016-04-27
Anticipated expiration: 2035-12-02
Also published as: CN105528614B

Abstract

本发明公布了一种漫画图像版面的识别方法和系统，通过利用能量最小化模型和图切分优化方法，自动识别出组成图像分镜边框的多边形，根据识别得到的多边形之间的几何位置关系得到图像分镜之间的阅读顺序，从而完成漫画版面的识别；包括前景背景分割、轮廓检测、多边形拟合、直线段检测、查找分镜和阅读顺序检测过程；识别系统包括前景背景分割模块、轮廓检测模块、直线段检测模块、分镜查找模块和后处理模块。本发明根据识别出的多边形的位置关系判断分镜阅读顺序，可以有效地处理较为复杂的漫画版面，提升处理效率并丰富移动设备用户的阅读体验。

Description

一种漫画图像版面的识别方法和自动识别系统

技术领域

本发明属于图像处理与计算机视觉领域，涉及一种基于能量最小化模型的漫画图像版面的识别方法和自动识别系统。

背景技术

移动漫画是一类特殊的出版物，通常由简单幽默的画面组和少量的文字构成，深受不同国界不同年龄段的阅读者喜爱。近年来电子漫画正版化和漫画移动阅读普及化趋势明显，漫画数字出版行业面临着全新的机遇，同时付费阅读漫画的终端用户也对漫画内容、漫画质量和漫画移动阅读体验提出了全新的要求。当前没有足够多的漫画内容专门为移动阅读体验做出优化，大部分漫画内容提供商仅仅是逐页扫描已有的纸质漫画出版物，并将其存储为图像或者PDF文档，逐页地在移动设备上进行展示。在从纸质内容出版到电子内容出版的过渡期，漫画出版行业需要一个成熟的理解传统纸质漫画版面、并根据理解的内容调整版面以适应漫画移动阅读的系统。

在漫画制作领域，独立的子图像常常被称为“分镜”。分镜是一个语义的概念，与电影中的分镜、戏剧的场景接近。它通常由两部分组成：1)角色的画面展示，对应于子图像中的图像内容部分；2)角色的语言展示即对白，即子图像中的字符块部分。目前的漫画书籍在创作时是以普通纸质书籍的页面大小进行版面设计的，一个页面通常包含多个分镜，而且这些分镜是以一定的排版规则进行排列的(如从上往下、从左往右)。这样导致了一个问题是，当用户在屏幕较小的终端例如智能手机上阅读对应的漫画图像时，无法完整地清晰地观看整个漫画图像，需要上下左右来回地拖动画面，阅读体验非常差。这一问题制约了漫画产业向数字化方向的发展。

为了克服上述问题，文献“M.Yamadaetal.ComicImageDecompositionforReadingComicsonCellularPhones.IEEETrans.oninformationandsystems,2004”中第一次提出一种解决方案，该方案将漫画图像预先分割成一个个分镜，在显示时按阅读顺序依次显示各个分镜。上述文献还提出了一种对手工分割得到的分镜进行分镜阅读顺序检测的算法。然而，该方法局限性在于必须对于漫画版面进行手动的分割然后才能自动辨识分镜的阅读顺序，对于目前大量的漫画书籍和图像文件，手工完成上述工作费时费力。文献“T.Tanakaetal.Layoutanalysisoftree-structuredsceneframesincomicimages.IJCAI,2007”首次提出了一种将漫画图像分割成分镜的方法。该方法的基本假设是漫画总是能够用水平线和竖直线分割成一个个分镜(斜线可以按照斜率分为水平和竖直两种)，按照分割的次序，漫画可以表示成一个树状的结构，其中根节点就代表整幅漫画，叶子节点就表示各个分镜，中间节点表示分割的方式。该文献同时提出了一种类似霍夫变换的分割线检测方法，并且对T字型分割线进行了特殊的处理。不难看出，这种方法的局限性较大，只能处理特定版式的漫画图像，对于分镜之间存在粘连的复杂情况难以进行处理。文献“C.Ponsardetal.Enhancingtheaccessibilityforallofdigitalcomicbooks.www.eminds.hci-rg.com,2009”提出了一种基于分水岭分割算法的分镜分割算法，主要思想是将漫画图像转为灰度图像进行二值化，然后对得到的前景图像进行分水岭分割，对分割得到的区域，去掉较小的，合并重叠较大的，然后得到分镜的分割结果。然而，该方法同样无法处理分镜之间有粘连的复杂漫画图像。

综上所述，目前现有的大多数漫画版面分析识别只能处理较为简单的漫画版面，有些方法甚至必须依赖手工处理，而没有一种高效、通用的漫画图像版面分析识别方法和自动识别系统。

发明内容

为了克服上述现有技术的不足，本发明提供一种漫画图像版面的识别方法和自动识别系统，充分利用能量最小化模型及其图切分优化算法，自动识别出组成分镜边框的多边形(大多数为四边形)，并且根据识别出的多边形之间的几何位置关系判断分镜之间的阅读顺序，从而完成漫画版面理解识别。本发明可以有效地处理较为复杂的漫画版面，提升处理效率并丰富移动设备用户的阅读体验。

本发明提供的技术方案是：

一种漫画图像版面的识别方法，通过利用能量最小化模型和图切分优化方法，自动识别出组成图像分镜边框的多边形，根据识别得到的多边形之间的几何位置关系得到图像分镜之间的阅读顺序，从而完成漫画版面的识别；包括如下步骤：

1)进行前景背景分割过程，将输入图像转换为灰度图像，通过广度优先搜索方法得到背景区域，再将其他所有区域当作前景区域，并将漫画图像二值化为黑白二值图；

2)进行轮廓检测过程，检测并提取得到所述黑白二值图的轮廓；

3)对所述黑白二值图的轮廓进行多边形拟合：

31)得到所述黑白二值图的轮廓之后，使用道格拉斯-普克算法对轮廓进行多边形拟合；

32)对于能够拟合出四边形的轮廓，将拟合得到的四边形加入已识别的分镜中，转入执行步骤6)；对于不能通过四边形拟合的轮廓，继续进行步骤4)直线段检测过程；

进行多边形拟合时，如果一个轮廓能够拟合出四边形，我们认为拟合出四边形的轮廓就是一个分镜，不再执行查找分镜过程；当一个轮廓不能拟合出四边形时，需要执行直线段检测过程和查找分镜过程；查找分镜过程中，构造能量函数时，我们会将已经确认为分镜的四边形(拟合出的四边形)加入所构造的能量函数中，以帮助函数求解。

4)直线段检测过程通过直线段检测过程逐个提取轮廓中所包含的直线段：具体可设定一个固定阈值，抛弃长度小于该阈值的分镜边线和从曲线上提取出的直线段，使用直线段的左端点坐标(x1,y1)和右端点坐标(x2,y2)表示一条直线段，从而得到被识别出的直线段；

5)进行查找分镜过程，包括形成多边形过程和构造求解能量函数过程：

51)形成多边形过程：对被识别出的直线段进行预处理，去除冗余的直线段进行拼接，成为完整的四边形，所述四边形作为可能的漫画图像分镜；

52)构造求解能量函数过程：根据形成多边形过程中得到的可能的漫画图像分镜和已有的分镜构建图模型，连接图像分镜的节点形成图结构；根据形成的图结构，设定能量函数E(y；x,w)如式1：

E(y；x,w)＝∑_p∈PΦ⁽¹⁾(y^p,x；w)+∑_(p,q)∈NΦ⁽²⁾(y^p,y^q,x；w)(式1)

其中，E表示总能量；y表示节点的标记值集合；y^p表示节点p的标记值；x表示节点的特征集合；w是能量函数的参数；p∈p表示p是节点集合P的一个节点；(p,q)∈N表示节点p和q在邻域定义N中相邻；Φ⁽¹⁾(y^p,x；w)表示一元势能，对于未确定为分镜的四边形，其取值为100(1-y^p)x^p+100y^p(1-x^p)，对于已确定为分镜的四边形，其取值为(1-y^p)·INF，INF表示无穷大；Φ⁽²⁾(y^p,y^q,x；w)表示二元势能；x^p表示节点p的特征向量；节点的标记值y^p取值为0或1，0表示该节点相应的四边形不是分镜，1表示该节点相应的四边形是分镜；二元势能中的邻域定义N包含节点互斥和节点相邻两种；

53)通过推断算法最小化式1中的能量函数，得到最优标记值集合，为所述能量函数的解；

54)将最优标记值集合对应到四边形中，将标记值为1的四边形加入已识别的分镜中；

6)将多边形识别结果作为阅读顺序检测过程的输入，所述阅读顺序检测过程根据多边形之间的几何位置关系识别得到分镜阅读顺序，由此完成漫画版面的识别。

上述漫画图像版面的识别方法中，进一步地，步骤1)所述通过广度优先搜索得到背景区域，具体是：从左上角的像素点开始进行广度优先搜索，当准备搜索的像素点与当前像素点集合的平均像素值差小于设定值，则将准备搜索的像素点加入当前像素点集合；当准备搜索的像素点与当前像素点集合的平均像素值差不小于设定值，则新建一个像素点集合，将准备搜索的像素点加入新建的像素点集合；重复上述搜索过程，直至漫画图像中所有的像素点都被搜索过；搜索结束后，得到区域的矩形包围框面积最大的像素点集合，作为背景区域。

上述漫画图像版面的识别方法中，进一步地，在步骤2)所述进行轮廓检测过程之前，对所述黑白二值图进行预处理，所述预处理包括对所述黑白二值图进行一次形态学腐蚀操作和一次形态学膨胀操作。

上述漫画图像版面的识别方法中，进一步地，在步骤2)所述进行轮廓检测过程，具体通过采用文献“Suzuki,S.andAbe,K.,TopologicalStructuralAnalysisofDigitizedBinaryImagesbyBorderFollowing.CVGIP301,pp32-46(1985)”提出的考察二值化图像的边界包围关系的方法，对二值化图像的外轮廓进行追踪，从而得到二值化图像的轮廓。

上述漫画图像版面的识别方法中，进一步地，步骤31)所述使用道格拉斯-普克算法对轮廓进行多边形拟合，所述道格拉斯-普克算法的参数epsilon设为7.0。

上述漫画图像版面的识别方法中，进一步地，所述识别方法在步骤32)所述拟合出四边形之后还包括多边形验证过程，通过设置分辨率约束、面积约束和边长约束，针对所述拟合出四边形进行多边形验证，当多边形验证通过时，拟合出的四边形是一个分镜。

上述漫画图像版面的识别方法中，进一步地，步骤5)所述推断方法包括GraphCuts图割算法、置信传播算法和Move-making算法。

上述漫画图像版面的识别方法中，进一步地，步骤52)所述二元势能∑_(p,q)∈NΦ⁽²⁾(y^p,y^q,x；w)中，当N表示节点互斥时，二元势能Φ⁽²⁾(y^p,y^q,x；w)通过式2计算得到：

Φ^{(2)} (y^{p}, y^{q}, x; w) = \{\begin{matrix} 0 & y^{p} = y^{q} = 0 \\ 0 & y^{p} = 0, y^{q} = 1 \\ 0 & y^{p} = 1, y^{q} = 0 \\ I N F & y^{p} = y^{q} = 1 \end{matrix}

(式2)

当表示节点相邻时，二元势能Φ⁽²⁾(y^p,y^q,x；w)通过式3计算得到：

Φ^{(2)} (y^{p}, y^{q}, x; w) = \{\begin{matrix} 0 & y^{p} = y^{q} = 0 \\ 5 & y^{p} = 0, y^{q} = 1 \\ 5 & y^{p} = 1, y^{q} = 0 \\ 4 & y^{p} = y^{q} = 1 \end{matrix}

(式3)

式2或式3中，y^p为节点的标记值；x表示节点的特征集合；w是能量函数的参数。

上述漫画图像版面的识别方法中，进一步地，步骤6)所述阅读顺序检测过程根据多边形之间的几何位置关系识别得到分镜阅读顺序，具体是：将输入的多边形或分镜通过两个多边形或分镜横向和纵向的交叠情况进行排序；所述两个多边形或分镜横向和纵向的交叠情况包括：两个多边形或分镜在竖直方向没有交叠的情况、两个多边形或分镜在竖直方向有交叠但水平方向无交叠的情况和两个分镜水平竖直方向均有交叠的情况。

本发明还提供一种实现上述漫画图像版面的识别方法的漫画图像版面自动识别系统，包括分镜识别与提取模块和后处理模块；所述分镜识别与提取模块包括前景背景分割模块、轮廓检测模块、直线段检测模块和分镜查找模块；

前景背景分割模块，用于获得漫画页面的背景区域，并将前景和背景区域进行二值化，得到二值化的图像；

轮廓检测模块，用于对二值化的图像进行轮廓追踪，得到所述黑白二值图的轮廓；得到轮廓之后，对轮廓进行多边形拟合；

直线段检测模块，用于识别漫画图像中的直线段，并且记录所述直线段的位置信息；

分镜查找模块，包括两个子模块多边形形成模块和构造求解能量函数模块；所述多边形形成模块根据直线段检测模块检测的结果，对直线段进行拼接形成多个四边形；所述构造求解能量函数模块用于根据形成的多个多边形构造能量函数，通过优化能量函数判断形成的多边形是否是分镜；

后处理模块，包括分镜补全模块和阅读顺序检测模块；所述分镜补全模块用于补全一些完全没有包围框的分镜；所述阅读顺序检测模块通过将所述分镜识别与提取模块得到的结果作为输入，根据多边形之间的几何位置关系，将所述多边形代表的分镜进行排序，得到排序后的分镜。

此外，上述漫画图像版面自动识别系统还可包括多边形验证模块，该模块对形成的多边形进行修正和排除。该模块可以通过设定规则筛选识别出的分镜从而实现自动的多边形验证。

与现有技术相比，本发明的有益效果是：

漫画图像理解或识别是要识别出漫画图像中的每个分镜，辨识出这些分镜之间的关系，即识别获得阅读顺序。本发明借鉴当前自然图像理解方法，充分利用能量最小化模型及其图切分优化算法，提供一种基于能量最小化的漫画图像版面理解识别方法，该方法可以自动识别出组成分镜边框的多边形(大多数为四边形)，并且根据识别出的多边形之间的几何位置关系判断分镜之间的阅读顺序，从而完成漫画版面理解识别。通过对用户输入的漫画图像进行自动分析，从而获取漫画版面中的分镜，并且根据识别的分镜之间的几何位置关系判定其阅读顺序，从而使得漫画图像能更好地在移动设备上阅读。本发明提供的方法和系统可以有效地处理较为复杂的漫画版面，能够自动理解漫画版面，解决了目前方法不能处理复杂布局版面的问题，提升处理效率和用户体验；而且，提供的方法和系统具有高效、通用的优点，尤其可以丰富移动设备用户的阅读体验。

附图说明

图1为一幅典型的漫画页面扫描图像(简称为漫画图像)和分成的子图像示意图；

其中，(a)为一幅示例漫画图像；(b)为该漫画图像被分成独立的子图像1～7，每个子图像包括多边形边框和由多边形边框包围的部分；(c)为将漫画图像按分镜依序在手机上展示的结果。

图2为本发明实施例提供的漫画图像版面自动识别系统的系统结构图。

图3为本发明实施例提供的漫画图像版面识别方法的流程框图。

图4为水平直线段和垂直直线段T形交叉和L形交叉的示意图；

其中，(a)为T形交叉；(b)为L形交叉。

图5为分镜紧凑性说明的示意图；

其中，(a)为松散的分镜；(b)为紧凑的分镜。

图6为本发明实施例中应用的一幅漫画图像。

图7为本发明实施例中对漫画图像的前景和背景进行分割时连通分量的搜索结果示意图，

其中，图中的不同灰度分别表示不同连通分量。

图8为本发明实施例中对漫画图像的前景和背景进行二值化后得到的图像。

图9为本发明实施例中从二值化图像中识别出的轮廓示意图；

其中，图中的不同灰度分别表示不同轮廓，轮廓中注明了轮廓的编号；c1～c7为识别出的轮廓的编号。

图10为本发明实施例进行分镜识别得到的最终结果示意图；

其中，不同编号代表不同的分镜，当分镜没有进行排序时，展示顺序为f1、f2、f3、f4、f5；当所有分镜进行排序后，展示顺序为f5、f2、f4、f3、f1。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种漫画图像版面的识别方法和自动识别系统，充分利用能量最小化模型及其图切分优化算法，自动识别出组成分镜边框的多边形(大多数为四边形)，并且根据识别出的多边形之间的几何位置关系判断分镜之间的阅读顺序，从而完成漫画版面理解识别。本发明可以有效地处理较为复杂的漫画版面，提升处理效率并丰富移动设备用户的阅读体验。

下面针对将漫画图像作为漫画图像版面理解系统的输入的应用场景，叙述漫画版面自动理解的的具体实施流程。本发明中，所述的漫画内容主要是由漫画书逐页扫描得到的漫画图像。用户首先获得图像格式的漫画电子文件(例如：jpg、png等格式的文件)，这些文件是由纸质漫画逐页扫描得到或是由漫画出版商提供的图像格式的漫画包(将漫画图像逐页编号并压缩成为zip,rar等格式的压缩文件包)，并且将这些漫画图像逐页输入系统。因此，漫画图像可以是由漫画书籍进行逐页扫描得到，也可以是漫画出版商提供的漫画图像包(漫画包是将漫画图像逐页编号并压缩成为.zip或.rar等格式的压缩文件包，将该压缩文件解压之后即可获得逐页的漫画图像)。例如，图1为一幅典型的漫画页面扫描图像(下文简称为漫画图像)和分成的子图像示意图；其中，(a)为一幅示例漫画图像；(b)为该漫画图像被分成的多个独立的子图像，每个子图像包括多边形边框和由多边形边框包围的部分；(c)为将漫画图像按分镜依序在手机上展示的结果。

本实施例中，用户U的设备(个人电脑、手持设备等)需要先安装实现了本发明提供的漫画图像版面识别方法的客户端软件，相关功能模块被部署到该客户端软件中。图2为本发明实施例提供的漫画图像版面自动识别系统的系统结构图。漫画图像版面自动识别系统包括五大模块：前景背景分割，轮廓检测，直线段检测，分镜查找模块，以及后处理模块。前面四个模块共同构成“分镜的识别与提取”模块，另外有一个独立的功能模块——多边形验证模块。

本发明提供的漫画图像版面识别方法和自动识别系统工作时的总体流程是：用户U在获取漫画图像文件之后，将漫画图像依次输入系统，并且发出漫画版面分析的请求，进行漫画图像的版面理解工作。系统的前景背景分割模块响应该请求，将漫画图像二值化为前景和背景图像；接着系统的轮廓检测模块提取出二值图的轮廓，初步判断轮廓是否是分镜；对于轮廓检测模块不能判断的轮廓，直线检测模块识别轮廓中的直线段，这些直线段主要是组成分镜边框的直线段；然后，直线段识别结果被发送到分镜查找模块，将被识别的直线段进行预处理，去除冗余的直线段进行拼接，得到由多边形代表的分镜，并且构造、求解能量函数，根据解的结果判断多边形是否是分镜；所有形成的多边形都会送到多边形验证模块，用户U可以查看并可对多边形检测的结果进行筛选，发送给阅读顺序检测模块；根据分镜之间的相对几何位置进行排序，最后将漫画图像连同分镜的位置以及阅读顺序返回给用户U。

图3为本发明实施例提供的漫画图像版面识别方法的流程框图。本实施例的具体步骤如下：

1)前景背景分离过程是将输入图像转换为灰度图像，进行广度优先搜索得到背景区域，将其他所有区域当作前景区域，并将漫画图像二值化为黑白二值图：

用户U获取漫画图像文档之后，将其输入已安装好的实现本发明的客户端软件中。首先自动检测漫画图像的背景。前景背景分离模块首先将输入图像转换为灰度图像，接着从左上角的像素点开始进行广度优先搜索，如果准备搜索的像素点与当前像素点集合的平均像素值差小于设定值(如60)，那么将准备搜索的像素点加入当前像素点集合，否则新建一个像素点集合，将准备搜索的像素点加入新建的集合。重复搜索过程，直至漫画图像中所有的像素点都被搜索过。搜索结束后，找到分布范围最广(区域的矩形包围框面积最大)的像素点集合(即连通区域)，将其当作背景区域，将其他所有区域当作前景区域，并将漫画图像二值化为黑白二值图(背景为黑色，前景为白色)。

2)轮廓检测过程

在进行轮廓检测前，可选对二值图进行预处理，对二值化的图像进行一次形态学腐蚀操作一次形态学膨胀操作。接着使用文献“Suzuki,S.andAbe,K.,TopologicalStructuralAnalysisofDigitizedBinaryImagesbyBorderFollowing.CVGIP301,pp32-46(1985)”提出的考察二值化图像的边界包围关系的方法，对二值化图像的外轮廓进行追踪。得到轮廓之后，使用道格拉斯-普克算法(参数epsilon设为7.0)对轮廓进行多边形拟合。该算法迭代地将曲线近似表示为一系列点，并减少点的数量。如果某个轮廓能够拟合出四边形，那么跳过直线段检测和分镜查找模块，直接送到多边形验证模块。本实施例中使用计算机自动筛选来验证多边形，设置分辨率约束、面积约束和边长约束；具体是：分辨率约束即多边形的长宽比必须在1:20到20:1之间，面积约束即多边形的面积至少占整幅漫画页面的0.0015倍，边长约束即多边形的每一条边长度至少为25像素。如果通过多边形验证，那么认为这个拟合出的四边形是一个分镜。

3)直线段检测过程

对于每一个没有通过四边形拟合的轮廓，逐个提取轮廓中所包含的直线段。可设定一个固定阈值，当长度小于该阈值，从曲线上提取出的直线段将被抛弃；因为分镜的边线不可能过短也不可能处于曲线上，所以长度小于漫画页面长度1/32的直线段，以及从曲线上提取出的直线段将被抛弃。使用直线段的左端点坐标(x1,y1)和右端点坐标(x2,y2)表示一条直线段。坐标空间定义为：漫画图像页面左上角点作为坐标原点，X轴方向从左到右增加，Y轴方向从上到下增加。

4)分镜查找过程

得到被识别出的直线段之后，通过多边形形成模块对于这些直线段进行拼接，成为完整的四边形，这些四边形都是可能的漫画图像分镜。具体拼接方法为：将直线段按照斜率分为两类，一类是水平直线段，另一类是垂直直线段，接着选取两条水平直线段和两条垂直直线段，将他们延长使水平直线段与垂直直线段相交，两条垂直和两条水平的直线段会有四个交点，形成一个四边形。在形成四边形时，并不是所有的线段都可以组合。如果两条直线段的交点处于其中一条直线段内部，此时形成了T形交叉，这样的交叉是不允许的，仅仅允许L形交叉。

每个组合直线段形成的四边形都会送到多边形验证模块进行校验，校验之后，分镜查找模块进一步去除互相重合面积超过95％的分镜，只保留一份副本，并且去除与已有分镜重合面积超过20％的四边形，不保留副本。

接下来，本发明根据过滤后的四边形(多个)和同一图像中已有的分镜构建图模型，每一个四边形或者分镜(本小节下面统称为四边形)都是图模型中的一个节点。针对过滤后的多个四边形，如果两两四边形有面积重合，在两个节点间连一条边，表明这两个节点互斥；如果两两四边形没有面积重合，并且两两相邻，在两个节点间连一条边，表明这两个节点相邻；由此形成图结构。根据形成的图结构，本发明定义能量函数E(y；x,w)如式1：

其中，E表示总能量，y表示节点的标记值集合，y^p表示节点p的标记值，y^q表示节点q的标记值，x表示节点的特征集合，w是能量函数的参数，p∈P表示p是节点集合P的一个节点，(p,q)∈N表示节点p和q在邻域定义N中相邻。Φ⁽¹⁾(y^p,x；w)表示一元势能，对于未确定为分镜的四边形，其取值为100(1-y^p)x^p+100y^p(1-x^p)，对于已确定为分镜的四边形，其取值为(1-y^p)·INF，INF表示无穷大。Φ⁽²⁾(y^p,y^q,x；w)表示二元势能。本发明中使用四边形的紧凑性度量作为特征，紧凑性即实际构成分镜的直线段长度之和与分镜边框周长的比例，取值范围在0～1.0之间，考虑实际应用的需求也可以扩充特征向量。节点的标记值y^p取值为0或1，0表示该节点(四边形)不是分镜，1表示该节点(四边形)是分镜。二元势能中的N包含了两种不同的邻域定义，一种是互斥一种是相邻，如果两个节点互斥，二元势能如下计算：

Φ^{(2)} (y^{p}, y^{q}, x; w) = \{\begin{matrix} 0 & y^{p} = y^{q} = 0 \\ 0 & y^{p} = 0, y^{q} = 1 \\ 0 & y^{p} = 1, y^{q} = 0 \\ I N F & y^{p} = y^{q} = 1 \end{matrix}

(式2)

如果两个节点相邻，二元势能如下计算：

Φ^{(2)} (y^{p}, y^{q}, x; w) = \{\begin{matrix} 0 & y^{p} = y^{q} = 0 \\ 5 & y^{p} = 0, y^{q} = 1 \\ 5 & y^{p} = 1, y^{q} = 0 \\ 4 & y^{p} = y^{q} = 1 \end{matrix}

(式3)

构造完成能量函数之后，需要使用图模型理论中的推断算法最小化上述能量函数，得到最优标记值集合。常用的推断方法包括GraphCuts图割算法、置信传播算法和Move-making算法，本发明的能量函数是非凸函数，不满足使用GraphCuts图割算法要求二元势能为度量或者半度量的前提条件，所以不能使用GraphCuts算法中的α-expansion和α-β-swap求解。本发明实施例使用LoopyBeliefPropagation(LBP，循环置信传播)算法、IteratedConditionalModes(ICM，迭代条件模式)算法和BruteForce(BF，暴力搜索)算法进行求解。循环置信传播算法较为高效，迭代条件模式算法保证能量函数随着迭代次数增加必定收敛到某一个局部最小能量值，而暴力搜索算法保证找到全局最小能量值。本发明可以在不同的应用场景中按照使用需求来选取推断算法。

最后，将能量函数的解(即标记值集合)对应到四边形中，将标记值为1的四边形加入已识别的分镜中，其余标记为0的四边形将被抛弃。四边形识别结果由其四个顶点表示，左下角、左上角、右上角、右下角依次为点1、点2、点3和点4。

(5)多边形验证模块为可选模块。默认情况启用该模块进行多边形验证。本实施例中使用计算机自动筛选。

(6)用户U保存并且确认多边形识别结果(本实施例为四边形识别，四边形识别结果由其四个顶点表示，左下角、左上角、右上角、右下角依次为点1、点2、点3和点4)之后，将作为阅读顺序检测模块的输入。阅读顺序检测模块根据多边形之间的几何位置关系判断其阅读顺序。分镜阅读顺序的识别将输入的分镜进行排序，排序的核心是如何判定任意两个分镜之间的阅读顺序。具体做法是判定两个分镜横向和纵向的交叠情况：1.如果两个分镜在竖直方向没有交叠，则分镜中心点偏上的阅读顺序靠前；2.如果两个分镜在竖直方向有交叠水平方向无交叠，对于日系漫画，分镜中心点偏右的阅读顺序靠前，对于欧美以及大陆港澳台漫画则阅读顺序靠后；3.如果两个分镜水平竖直方向均有交叠，则两分镜相邻处必有一对平行的直线，如果这两直线段与X轴夹角小于45°则同情况2，否则同情况1。

(7)最终，客户端软件将漫画版面分析结果(包括源图像，识别出的分镜的几何位置以及阅读顺序)返回给用户。

本发明还提供实现上述漫画图像版面的识别方法的漫画图像版面自动识别系统，包括分镜识别与提取模块和后处理模块；所述分镜识别与提取模块包括前景背景分割模块、轮廓检测模块、直线段检测模块和分镜查找模块；具体地，本发明的各个模块主要实现以下功能：

前景背景分割模块，该模块可以寻找漫画页面的背景区域，并将前景和背景区域二值化，为后续模块提供预处理。需要注意的是漫画图像的背景不一定是纯白色，也可能是其他颜色，所以前景背景分割模块对于本发明中的系统是不可或缺的。

轮廓检测模块，该模块对二值化的图像进行轮廓追踪(根据文献“Suzuki,S.andAbe,K.,TopologicalStructuralAnalysisofDigitizedBinaryImagesbyBorderFollowing.CVGIP301,pp32-46(1985)”提出的算法)。得到轮廓之后，使用道格拉斯-普克算法对轮廓进行多边形拟合，如果某个轮廓能够拟合出四边形，那么跳过直线段检测和分镜查找模块，直接送到多边形验证模块。如果通过多边形验证，那么认为这个拟合出的四边形是一个分镜。

直线段检测模块：识别漫画图像中的直线段，并且记录这些直线段的位置信息。

分镜查找模块：该模块包括两个子模块多边形形成模块(四边形形成模块)和构造求解能量函数模块。多边形形成模块根据直线段检测模块检测的结果，对直线段进行拼接、形成若干个四边形。这个过程会产生大量的四边形，需要合并重叠程度过高(比如高于95％)的四边形。构造求解能量函数模块根据形成的若干多边形构造能量函数，使用优化算法优化能量函数，判断形成的多边形是否是分镜。

后处理模块：该模块包括两个子模块，分镜补全模块和阅读顺序检测模块。分镜补全模块用于补全一些完全没有包围框的分镜，因为这样的分镜无法通过上述几个模块识别出来。阅读顺序检测模块以分镜的识别与提取的结果作为输入，即用被识别分割出的分镜作为输入。该模块根据多边形之间的几何位置关系，将这些多边形代表的分镜进行排序，然后将排序后的分镜连同各分镜的位置信息一同输入到具有版式信息的漫画文件中去，从而实现漫画版面的自动理解。

下面针对一幅输入的漫画图像根据上述具体实施方法，对本发明提供方法的过程进行叙述。首先将一幅通过扫描得到的漫画图像(如图6所示的漫画图像)作为系统的输入。前景背景分割模块对漫画图像进行区域生长，找出所有的连通分量，每个连通分量内颜色(或灰度)相近(如图7所示)；判定一个连通分量为背景、其他所有连通分量为前景，进行二值化(如图8所示)；轮廓检测模块识别二值图中的轮廓(如图9所示)，进行多边形近似，将近似为四边形的轮廓判定为分镜，其余轮廓送到直线段检测模块；直线段检测模块检测出漫画图像中的直线段；分镜查找模块从直线段中拼接出若干四边形，构造并求解能量函数，得到分镜标记结果，结合轮廓检测中提取出的分镜和能量函数求得的分镜，形成最终的分镜识别结果(如图10所示)；之后根据分镜之间的几何位置关系，完成分镜阅读顺序的识别，最终完成漫画图像版面理解识别。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种漫画图像版面的识别方法，通过利用能量最小化模型和图切分优化方法，自动识别出组成图像分镜边框的多边形，根据识别得到的多边形之间的几何位置关系得到图像分镜之间的阅读顺序，从而完成漫画版面的识别；包括如下步骤：

3)对所述黑白二值图的轮廓进行多边形拟合：

32)对于能够拟合出四边形的轮廓，将拟合得到的四边形加入已识别的分镜中，转入执行步骤6)；对于不能通过四边形拟合的轮廓，继续进行步骤4)；

4)进行直线段检测过程，逐个提取所述黑白二值图的轮廓中包含的直线段，具体通过设定一个固定阈值，当长度小于所述阈值，从曲线上提取出的直线段将被抛弃；再使用直线段的左端点坐标和右端点坐标表示一条直线段，由此识别提取得到所述黑白二值图的轮廓中包含的直线段；

52)构造求解能量函数过程：根据形成多边形过程中得到的可能的漫画图像分镜和已有的分镜构建图模型，每个分镜作为图模型中的一个节点，连接图像分镜的节点形成图结构；根据形成的图结构，设定能量函数E(y；x，w)如式1：

E(y；x，w)＝Σ_p∈PΦ⁽¹⁾(y^p，x；w)+∑_(p,q)∈NΦ⁽²⁾(y^p，y^q，x；w)(式1)

其中，E表示总能量；y表示节点的标记值集合；y^p表示节点p的标记值；，y^q表示节点q的标记值；x表示节点的特征集合；w是能量函数的参数；p∈P表示p是节点集合P的一个节点；(p,q)∈N表示节点p和q在邻域定义N中相邻；Φ⁽¹⁾(y^p，x；w)表示一元势能，对于未确定为分镜的四边形，其取值为100(1-y^p)x^p+100y^p(1-x^p)，对于已确定为分镜的四边形，其取值为(1-y^p)·INF，INF表示无穷大；Φ⁽²⁾(y^p，y^p，x；w)表示二元势能；节点的标记值y^p取值为0或1，0表示该节点相应的四边形不是分镜，1表示该节点相应的四边形是分镜；二元势能中的邻域定义N包含节点互斥和节点相邻两种；

2.如权利要求1所述漫画图像版面的识别方法，其特征是，步骤1)所述通过广度优先搜索得到背景区域，具体是：从左上角的像素点开始进行广度优先搜索，当准备搜索的像素点与当前像素点集合的平均像素值差小于设定值，则将准备搜索的像素点加入当前像素点集合；当准备搜索的像素点与当前像素点集合的平均像素值差不小于设定值，则新建一个像素点集合，将准备搜索的像素点加入新建的像素点集合；重复上述搜索过程，直至漫画图像中所有的像素点都被搜索过；搜索结束后，得到区域的矩形包围框面积最大的像素点集合，作为背景区域。

3.如权利要求1所述漫画图像版面的识别方法，其特征是，在步骤2)所述进行轮廓检测过程之前，对所述黑白二值图进行预处理，所述预处理包括对所述黑白二值图进行一次形态学腐蚀操作和一次形态学膨胀操作。

4.如权利要求1所述漫画图像版面的识别方法，其特征是，在步骤2)所述进行轮廓检测过程，具体通过采用文献“Suzuki,S.andAbe,K.,TopologicalStructuralAnalysisofDigitizedBinaryImagesbyBorderFollowing.CVGIP301,pp32-46(1985)”提出的考察二值化图像的边界包围关系的方法，对二值化图像的外轮廓进行追踪，从而得到二值化图像的轮廓。

5.如权利要求1所述漫画图像版面的识别方法，其特征是，步骤31)所述使用道格拉斯-普克算法对轮廓进行多边形拟合，所述道格拉斯-普克算法的参数epsilon设为7.0。

6.如权利要求1所述漫画图像版面的识别方法，其特征是，所述识别方法在步骤32)所述拟合出四边形之后还包括多边形验证过程，通过设置分辨率约束、面积约束和边长约束，针对所述拟合出四边形进行多边形验证，当多边形验证通过时，拟合出的四边形是一个分镜。

7.如权利要求1所述漫画图像版面的识别方法，其特征是，步骤5)所述推断方法包括GraphCuts图割算法、置信传播算法和Move-making算法。

8.如权利要求1所述漫画图像版面的识别方法，其特征是，步骤52)所述二元势能Σ_(p,q)∈NΦ⁽²⁾(y^p，y^q，x；w)中，当N表示节点互斥时，二元势能Φ⁽²⁾(y^p，y^q，x；w)通过式2计算得到：

Φ^{(2)} (y^{p}, y^{q}, x; w) = \{\begin{matrix} 0 & y^{p} = y^{q} = 0 \\ 0 & y^{p} = 0, y^{q} = 1 \\ 0 & y^{p} = 1, y^{q} = 0 \\ I N F & y^{p} = y^{q} = 1 \end{matrix}

(式2)

当N表示节点相邻时，二元势能Φ⁽²⁾(y^p，y^q，x；w)通过式3计算得到：

Φ^{(2)} (y^{p}, y^{q}, x; w) = \{\begin{matrix} 0 & y^{p} = y^{q} = 0 \\ 5 & y^{p} = 0, y^{q} = 1 \\ 5 & y^{p} = 1, y^{q} = 0 \\ 4 & y^{p} = y^{q} = 1 \end{matrix}

(式3)

9.如权利要求1所述漫画图像版面的识别方法，其特征是，步骤6)所述阅读顺序检测过程根据多边形之间的几何位置关系识别得到分镜阅读顺序，具体是：将输入的多边形或分镜通过两个多边形或分镜横向和纵向的交叠情况进行排序；所述两个多边形或分镜横向和纵向的交叠情况包括：两个多边形或分镜在竖直方向没有交叠的情况、两个多边形或分镜在竖直方向有交叠但水平方向无交叠的情况和两个分镜水平竖直方向均有交叠的情况。

10.一种实现权利要求1～9所述漫画图像版面的识别方法的漫画图像版面自动识别系统，包括分镜识别与提取模块和后处理模块；所述分镜识别与提取模块包括前景背景分割模块、轮廓检测模块、直线段检测模块和分镜查找模块；

后处理模块，包括分镜补全模块和阅读顺序检测模块；所述分镜补全模块用于补全一些完全没有包围框的分镜；所述阅读顺序检测模块通过将所述分镜识别与提取模块得到的结果作为输入，根据多边形之间的几何位置关系，将所述多边形代表的分镜进行排序，得到排序后的图像分镜。