CN111444903A - 漫画气泡内文字定位方法、装置、设备及可读存储介质 - Google Patents
漫画气泡内文字定位方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN111444903A CN111444903A CN202010209610.8A CN202010209610A CN111444903A CN 111444903 A CN111444903 A CN 111444903A CN 202010209610 A CN202010209610 A CN 202010209610A CN 111444903 A CN111444903 A CN 111444903A
- Authority
- CN
- China
- Prior art keywords
- character
- bubble
- contour
- outline
- rectangle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 97
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000013507 mapping Methods 0.000 claims abstract description 13
- 238000004590 computer program Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 238000012946 outsourcing Methods 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 239000003086 colorant Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 13
- 238000013519 translation Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 239000012535 impurity Substances 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 230000007797 corrosion Effects 0.000 description 4
- 238000005260 corrosion Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明属于数字图像处理技术领域,本发明公开了一种漫画气泡内文字定位方法、装置、设备及可读存储介质,包括:获取数字漫画图像并依次进行灰度和二值化处理,将二值图像进行轮廓检测得到轮廓集;根据轮廓的关系层级从轮廓集内部提取得到气泡集和文字集;根据轮廓面积去除文字集中的干扰轮廓,然后将文字集内每个剩余轮廓的外接矩形集合,根据外接矩形周围背景颜色去除初始文字矩形集中的干扰外接矩形,建立文字矩形集内的外接矩形与气泡集内的轮廓之间的映射关系;扩展文字矩形集内的每个外接矩形,并保存扩展后外接矩形的位置信息。不仅能够为文字回填提供位置信息,还能通过优化文字位置实现回填效果的提升,为漫画读者提更好地阅读体验。
Description
技术领域
本发明属于数字图像处理技术领域,涉及一种漫画气泡内文字定位方法、装置、设备及可读存储介质。
背景技术
随着漫画产业的不断扩大以及全球化的不断增强,人工译制漫画的速度和范围已经难以满足漫画读者的需求。此外,随着国产漫画水平的不断提高,通过漫画实现文化输出迫在眉睫。众所周知,传统的漫画译制需要通过人工进行一系列翻译、涂白、嵌入、调整文本内容、字号、字体等工作,每一项都十分复杂,耗时耗力的同时还需要大量专业人才才能保证译制的准确、美观。尽管如此,漫画的译制也难以覆盖各种类漫画,更无法做到实时更新。而现实生活中,漫画读者涉猎范围广,且往往希望在第一时间获取漫画更新。因此,传统的漫画译制已经难以满足漫画读者的需求,而随着数字图像处理技术的成熟,自动化的漫画译制已是大势所趋。
在实现自动化漫画译制过程中,首要任务就是精准定位漫画图像中气泡文字位置,所获得的文字位置信息是后续译制文本回填的基础。此外,漫画气泡内往往存在大面积留白,考虑到翻译后文本长度可能发生变化,对留白区域的合理利用能进一步改善最终文本回填的效果。因此,对漫画内气泡文字位置的准确识别与优化是漫画自动化译制的首要任务,也是最为关键的任务。但是,目前的自动化漫画译制过程中,普遍存在文本定位错误率高,文本回填基于原始文本位置信息及回填位置过于局限的问题。
发明内容
本发明的目的在于克服上述现有技术中自动化漫画译制过程中文本定位错误率高,文本回填基于原始文本位置信息及回填位置过于局限的缺点,提供一种漫画气泡内文字定位方法、装置、设备及可读存储介质。
为达到上述目的,本发明采用以下技术方案予以实现:
本发明第一方面,一种漫画气泡内文字定位方法,包括以下步骤:
S1:获取数字漫画图像并依次进行灰度和二值化处理,得到二值图像;
S2:将二值图像进行轮廓检测得到轮廓集;
S3:根据轮廓的关系层级从轮廓集内部提取得到气泡集和文字集,其中,气泡集为有内嵌轮廓的轮廓的集合,文字集为有外包轮廓的轮廓的集合;
S4:根据轮廓面积去除文字集中的干扰轮廓,然后将文字集内每个剩余轮廓的外接矩形集合,得到初始文字矩形集;
S5:根据外接矩形周围背景颜色去除初始文字矩形集中的干扰外接矩形,得到文字矩形集;
S6:建立文字矩形集内的外接矩形与气泡集内的轮廓之间的映射关系;
S7:扩展文字矩形集内的每个外接矩形,直至外接矩形的顶点至对应映射的气泡集内的轮廓的边缘,并保存扩展后外接矩形的位置信息。
本发明漫画气泡内文字定位方法进一步的改进在于:
所述S1中进行二值化处理时,二值化处理的阈值采用自适应阈值。
所述S2的具体方法为:
利用findContours函数将二值图像进行轮廓检测,并将检测到的轮廓组织成两级层次结构,存在内嵌轮廓的轮廓为第一级轮廓,其余轮廓为第二级轮廓,得到轮廓集,其中,通过保存轮廓的拐点来记录检测到的轮廓。
所述S4中根据轮廓面积去除文字集中的干扰轮廓的具体方法为:
预设第一最小阈值和第二最小阈值,将轮廓面积小于第一最小阈值的轮廓去除,然后采用drawContours函数将文字集中的剩余轮廓绘制到与数字漫画图像大小一致的空白背景图上,将轮廓面积小于第二最小阈值的轮廓去除。
所述最小阈值为漫画气泡内文字中一个句号的面积,第二最小阈值为漫画气泡内文字中一个文字的面积。
所述S5的具体方法为:
将外接矩形的上边界中点处向上预设大小的像素区域与下边界中点处向下预设大小的像素区域颜色不同的外接矩形从除初始文字矩形集中去除,得到文字矩形集。
所述S5的具体方法为:
将文字矩形集内外接矩形四个顶点的横纵坐标分别以一个像素为单位,沿着与外接矩形中心点连线的延长线方向向外逐步扩展,直至任一顶点触及对应映射的气泡集内的轮廓的边缘,并保存扩展后外接矩形的位置信息。
本发明第二方面,一种漫画气泡内文字定位装置,包括:
二值图像生成模块,用于获取数字漫画图像并依次进行灰度和二值化处理,得到二值图像;
轮廓集生成模块,用于将二值图像进行轮廓检测得到轮廓集;
气泡集和文字集提取模块,用于根据轮廓的关系层级从轮廓集内部提取得到气泡集和文字集,其中,气泡集为有内嵌轮廓的轮廓的集合,文字集为有外包轮廓的轮廓的集合;
文字矩形集生成模块,用于根据轮廓面积去除文字集中的干扰轮廓,然后将文字集内每个剩余轮廓的外接矩形集合,得到初始文字矩形集;
文字矩形集优化模块,用于根据外接矩形周围背景颜色去除初始文字矩形集中的干扰外接矩形,得到文字矩形集;
映射关系生成模块,用于建立文字矩形集内的外接矩形与气泡集内的轮廓之间的映射关系;
以及位置优化模块,用于扩展文字矩形集内的每个外接矩形至对应映射的气泡集内的轮廓的边缘,并保存扩展后外接矩形的位置信息。
本发明第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述漫画气泡内文字定位方法的步骤。
本发明第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述漫画气泡内文字定位方法的步骤。
与现有技术相比,本发明具有以下有益效果:
通过图像二值化处理后进行轮廓检测,从图像中检测到所有轮廓,然后根据轮廓的关系层级从轮廓集内部提取得到气泡集和文字集,并根据轮廓面积去除文字集中的干扰轮廓,然后将文字集内每个剩余轮廓的外接矩形集合,得到初始文字矩形集;进而根据外接矩形周围背景颜色去除初始文字矩形集中的干扰外接矩形,得到文字矩形集,更准确地对气泡内的文字的轮廓进行识别;然后建立文字矩形集内的外接矩形与气泡集内的轮廓之间的映射关系,经过轮廓除杂后的文字矩形集有效的提升了气泡内文字的轮廓定位的准确性,同时,通过对气泡内文字的轮廓的外矩形的扩展,能够有效地使气泡空间充分利用,解决了由于不同语言文字在翻译过程中,往往会出现长度变化的问题,进一步为漫画自动译制过程中的回填工作提供便利条件。综上所述,本发明解决了实际自动化漫画译制研究中文本轮廓定位错误率高,文本回填位置过于局限的问题,不仅能够为文字回填提供有效地位置信息,还能通过优化文字位置实现回填效果的提升,为漫画读者提更好地阅读体验,促进文化交流,也为国产漫画走向世界提供支持,助力增强国家软实力。
进一步的,进行二值化处理时,二值化处理的阈值采用自适应阈值,相较直接给定阈值的二值化方法,它通过对局部区域的像素值进行加权计算,自适应的给出局部的合理阈值,进而实现对灰度图像的二值化处理,二值化结果更接近实际情况。
进一步的,利用findContours函数将二值图像进行轮廓检测,并将检测到的轮廓组织成两级层次结构,有效记录了轮廓的外包与内嵌关系,便于气泡集与文字集的提取,同时,通过保存轮廓的拐点来记录检测到的轮廓,减少操作的复杂程度,提升轮廓检测的效率。
附图说明
图1为本发明的整体流程框图;
图2为本发明的轮廓除杂流程框图;
图3为本发明的第1个实例漫画示意图;
图4为本发明的第2个实例漫画示意图;
图5为本发明的第3个实例漫画示意图;
图6为本发明的第4个实例漫画示意图;
图7为本发明的第5个实例漫画示意图;
图8为本发明的第6个实例漫画示意图;
图9为本发明的第7个实例漫画示意图;
图10为本发明的第8个实例漫画示意图;
图11为本发明的第9个实例漫画示意图;
图12为本发明的第10个实例漫画示意图;
图13为本发明的第11个实例漫画示意图;
图14为本发明的第12个实例漫画示意图;
图15为本发明的第1个实例漫画的气泡内文字定位结果示意图;
图16为本发明的第1个实例漫画的气泡内文字优化结果示意图;
图17为本发明的第7个实例漫画的气泡内文字定位结果示意图;
图18为本发明的第7个实例漫画的气泡内文字优化结果示意图;
图19为本发明的第10个实例漫画的气泡内文字定位结果示意图;
图20为本发明的第10个实例漫画的气泡内文字优化结果示意图;
图21为本发明的第12个实例漫画的气泡内文字定位结果示意图;
图22为本发明的第12个实例漫画的气泡内文字优化结果示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
参见图1和2,本发明漫画气泡内文字定位方法,包括以下步骤:获取数字漫画图像、数字漫画图像预处理、对漫画图像进行轮廓检测及轮廓除杂、精准定位气泡内文字轮廓、优化气泡内文字轮廓位置和记录气泡内文字轮廓位置信息六个步骤,其中,定位气泡内文字轮廓通过轮廓除杂实现。具体过程如下:
1、数字漫画图像获取。
数字漫画一般以“话”为单位进行内容间的分割,而“一话”通常是一张长图或由多张图片组成。为保证图像数据的一致性,本发明处理数字漫画图像时以“话”为单位,如果是一张长图,即将其直接转化成‘.jpg’格式进行存储;如果“一话”由多张图片组成,即将其拼接为一张长图后以‘.jpg’格式存储。
2、数字漫画图像预处理。
由于获取的数字漫画图像为彩色图像,为了更便于自动化处理,我们需要对其进行预处理,使其能满足后续图像处理算法的要求。主要实施方法如下:
2.1、将彩色数字漫画图像转为灰度图像。
由于所获取的彩色数字漫画图像均为三通道RGB图像,所以,本方法利用公式(1),将RGB图像三个通道值按预设的加权比合并为一个通道,将其转为为单通道的灰度图像。
Gray=0.299×R+0.587×G+0.114×B (1)
其中,Gray为生成灰度图像对应像素的灰度值,R、G、B分别为图像中某一像素的三通道的值。
2.2、将灰度图像进行二值化处理,得到原始数字漫画图像的二值图像。
对灰度图像进行二值化处理,即将灰度图像的像素区分为0(黑)和1(白)以分离目标区域,该方法可迅速减少无用数据,凸显目标区域。本方法利用公式(2)实现灰度图像的二值化。
其中,Rk(x,y)为进行二值化处理后的像素值,Gk(i,j)为灰度图像中的灰度值,T为进行二值化处理的阈值。在实际操作中,图像的二值化处理的阈值T获取有两种方法,分别为给定阈值和自适应阈值。在本方法中,由于所处理的漫画气泡可能存在色彩不确定的情况,因此,我们采用自适应阈值的方法实现图像的二值化。自适应的二值化方法,又叫局部阈值法,相较直接给定阈值的二值化方法,它通过对局部区域的像素值进行加权计算,自适应的给出局部的合理阈值,进而实现对灰度图像的二值化处理,得到原始数字漫画图像的二值图像。
3、对漫画图像进行轮廓检测及轮廓除杂,得到轮廓集。
经过对原始数字漫画图像的二值化处理,所得到的二值图像中,只有0(黑)与1(白)两种像素值存在,因此在进行轮廓检测时,无需考虑气泡颜色的问题。同时,轮廓检测就是以此为基础,得到二值图像内0与1的交界轮廓。在本方法中,我们利用OpenCV提供的findContours函数实现轮廓检测。具体函数说明如表1所示。
表1 findContours函数说明表
int findContours(InputOutputArray image | //输入单通道二值图像 |
OutputArrayOfArrays contours | //得到的轮廓集合 |
OutputArray hierarchy | //得到的轮廓关系 |
int mode | //定义轮廓的检索模式 |
int method | //定义轮廓的近似方法 |
Point offset=Point()) | //轮廓信息相对于原始图像对应点的偏移量 |
在findContours函数中,轮廓检索模式有四种,由第四个参数指定:(1)int mode=CV_RETR_EXTERNAL,表示仅检测极端外围轮廓,包含在外围轮廓内的内围轮廓被忽略。(2)int mode=CV_RETR_LIST,表示检测所有轮廓,包括外围、内围轮廓,但是对检测到的轮廓不建立任何等级关系,彼此之间处于同一等级,相互独立。(3)int mode=CV_RETR_CCOMP,表示检测所有轮廓,并将他们组织成两级层次结构,最外层轮廓为第一级轮廓,第一级轮廓的内嵌轮廓为第二级轮廓,如果第二级轮廓内存在内嵌轮廓,则这个内嵌轮廓被分为第一级轮廓,以此类推,轮廓之间的等级关系在第三个参数中保存。(4)int mode=CV_RETR_TREE,表示检测所有轮廓,并将所有轮廓建立一个等级树结构,等级树存放在第三个参数中。此外,在findContours函数中,轮廓近似方法最常用的有两种,由第五个参数制定:(1)int method=CV_CHAIN_APPROX_NONE,保存物体边界上所有连续的轮廓点,存储在contours向量中。(2)int method=CV_CHAIN_APPROX_SIMPLE,仅保存轮廓的拐点信息,把所有轮廓拐点处的点存储在contours向量中。
调用findContours函数后的输出为二维向量contours以及hierarchy,其中,contours中保存了检测出来的所有轮廓,hierarchy中则保存了每个轮廓所对应的轮廓关系,两个向量内部元素互相对应。具体来说,hierarchy中的每个元素包含四个整型变量,分别表示它对应轮廓的后一个轮廓、前一个轮廓、外包轮廓及内嵌轮廓的索引编号,如果不存在则为-1。通过轮廓检测,我们可以得到二值图像的全部轮廓信息,但由于所需要的气泡内文字轮廓在图像中所占比例较小,第四种建立等级树的轮廓检索方式则过于复杂,极大的占用了程序运行时间,因此,在本方法中,使用第(3)种轮廓检索模式实现二值图像的轮廓检测,即令mode=CV_RETR_CCOMP。此外,为了减少程序的空间复杂度,我们通过第(2)种轮廓近似方法即保存轮廓的拐点来记录检测到的轮廓,即令method=CV_CHAIN_APPROX_SIMPLE。
4、精准定位气泡内文字轮廓。通过去除轮廓集中的干扰轮廓,优化轮廓集,以正确识别气泡内的文字轮廓位置,并生成记录文字轮廓外接矩形的文字矩形集。
通过findContours函数实现轮廓检测后,便可得到二值图像中所有轮廓的集合即轮廓集。由于检测得到的轮廓集中包含大量漫画本身的背景轮廓,而气泡内文字轮廓在图像中所占比例较小,因此,需要去除干扰轮廓,准确识别文字轮廓位置。
通过分析,数字漫画图片中文字气泡的特征主要有以下三点:(1)气泡内一定有文字符号;(2)气泡内文字大小有限,并且同一段文字距离相近;(3)气泡内文字周围颜色相同,即为所在气泡背景颜色,大多数为白色,但也有彩色气泡存在。
根据以上三个特征,本方法通过四步依次对轮廓集中轮廓进行筛选,去除干扰轮廓。具体实施方法如下:
4.1、根据轮廓的关系层级对轮廓进行分类,并去除干扰轮廓。
针对气泡内一定存在文字符号的特征,将其类比得到气泡轮廓内部一定存在文字轮廓,反之,文字轮廓外部也一定存在气泡轮廓。由于本方法在轮廓检测过程中采用了第三种检索模式,为所检测到的轮廓建立了两级层次结构,有效记录了轮廓的外包与内嵌关系。本方法将轮廓关系保存在hierarchy向量中,hierarchy向量中每个轮廓对应的关系由四个整形数字组成,如公式(3)。
hierarchy=[after,before,outter,inner] (3)
其中,每组数据从前到后依次为当前轮廓的后一个轮廓、前一个轮廓、外包轮廓及内嵌轮廓的索引编号,如果不存在则所为-1。本方法通过判断outter及inner参数的值是否为-1对当前轮廓集进行分类。具体分类如下:
①将有内嵌轮廓的轮廓集合称为气泡集,气泡轮廓一定在该集合内。
②将有外包轮廓的轮廓集合称为文字集,文字轮廓一定在该集合内。
③其他轮廓集合,此集合内轮廓不包含气泡轮廓也不包含文字轮廓,属于背景干扰轮廓,需要从轮廓集中移除去除。
通过分析轮廓间关系,将轮廓集划分为气泡集和文字集,并去除了其他干扰轮廓,实现了对轮廓集的初步优化。
4.2、根据轮廓面积去除文字集中的干扰轮廓。
针对气泡内文字大小有限,并且同一段文字距离相近的特征,本方法实现了利用轮廓面积去除文字集中的干扰轮廓。
首先,在数字漫画图片中,为了便于读者阅读,文字大小存在一个最小阈值,所以,当轮廓面积小于该最小阈值时,该轮廓一定不是文字轮廓,可以从文字集中去除。通过对数字漫画图片文字进行归类分析,本方法将最小阈值设置为漫画文字中一个句号的近似面积。针对本发明实施例中所获取的数字漫画图像,本方法中的最小阈值为150像素,通过遍历文字集以删除轮廓面积小于150像素的轮廓,以减少文字集中干扰轮廓的数量,同时在一定程度上避免后续膨胀腐蚀处理过程中杂质相互连通的问题。
此外,由于气泡内文字间距离相近,所以只需进行少量的膨胀腐蚀操作即可使气泡内文字形成一块相连的大面积连通域。在本方法中,我们对处理后的文字集调用OpenCV中的drawContours函数,使用轮廓绘制的方法将其绘制到与原始漫画图像大小一致的空白背景图上,使其区分于气泡集,防止互相影响。
针对新绘制的图像,本方法重新对其进行轮廓检测得到新的文字集。由于新绘制的图像通过drawContours函数经历了膨胀腐蚀处理,使气泡内文字相互连通形成较大的文字轮廓,因此,所形成的文字轮廓大小至少为一个字,因此将轮廓面积小于一个字大小的轮廓删除,进一步优化文字集。经过两次依据面积大小的优化后,文字集内的非文字干扰轮廓大幅度减少。
4.3、生成文字矩形集,记录气泡内文字位置,并根据气泡背景颜色和文字矩形的关系去除文字矩形集中的干扰轮廓,更准确地对气泡内的文字轮廓进行识别。
针对气泡内文字周围颜色相同,即为所在气泡背景颜色的特征。本方法通过判断文字轮廓周围背景颜色是否相同,进一步去除干扰轮廓。为方便对文字周围色彩进行检索,本方法对文字集内的所有轮廓计算其外接矩形,得到初始文字矩形集,并其保存至二维数组M中,M为大小为N×4的文字矩形集,其结构如公式(4)所示。
其中,数组M中的行数据记录文字集中每一个轮廓所对应的外接矩形,用(l_xk,l_yk,wk,hk)表示,k为轮廓所对应的索引值,(l_xk,l_yk)记录轮廓外接矩形的左上顶点的横纵坐标,wk,hk记录轮廓外接矩形的长和宽。
由于文字书写从左至右,存在文字过多导致文字轮廓的外接矩形的左右边界接近气泡本身轮廓,可能会将文字背景色误判为气泡边界颜色。通过分析,文字轮廓的外接矩形上下往往与气泡边界存在有一定距离。因此,本方法通过判断原RGB图像中,文字集内轮廓的外接矩形的上边界中点,即坐标为的点处向上10×10像素区域,与下边界中点处,即坐标为的点向下10×10像素区域是否为相同颜色,即可实现对文字矩形集中轮廓是否为气泡轮廓的判断,如果不同则从初始文字矩形集中删除,得到文字矩形集。具体实施步骤如下:
①利用公式(5)求得文字集内轮廓的上边界中点向上10×10像素区域内的R,G,B三通道均值,并利用公式(6)对三通道的均值求取平均值,得到topavg,同理可得到下边界对应的bottomavg。
②当topavg与bottomavg的差的绝对值均小于阈值t时,认为当前轮廓的外接矩形在气泡内,即满足公式(7)。考虑到图片像素值存在一定误差,因此本方法令阈值t=8。
|topavg-bottomavg|<t (7)
通过上述步骤,本方法生成了对应的文字矩形集保存文字轮廓的外接矩形,并进一步去除了气泡外的干扰轮廓,优化了初始文字矩形集,得到文字矩形集,后续操作我们将在文字矩形集的基础上进行。
4.4、根据文字矩形集,从气泡集中识别气泡轮廓。
根据文字气泡的特征,通过上述步骤所得到文字矩形集已基本将存在的干扰轮廓去除。因此,可利用文字矩形集从气泡集中匹配对应气泡轮廓。具体实施步骤如下:
①记录文字矩形集中每个矩形的中心点坐标(cx,cy),该坐标标识文字的位置。
②遍历气泡集,寻找气泡轮廓。由于中心点一定在文字矩形的内部,而文字矩形也一定在其所对应的气泡内部,因此只需遍历气泡集,若中心点坐标在气泡轮廓内部,即找到相对应的气泡轮廓。
③建立文字矩形与气泡轮廓的映射字典,保存文字矩形与对应气泡轮廓间的映射关系。
本方法通过上述步骤,对利用轮廓检测算法得到的轮廓集进行了优化,去除了干扰轮廓,并生成了基本准确的文字矩形集,能正确识别气泡内的文字位置。
5、优化气泡内文字轮廓位置。
通过优化文字矩形集,使气泡空间能被充分利用。由于本发明所提出方法基于漫画自动译制工作,通过准确定位气泡内文字位置来为后续译文回填工作创造条件。但是,由于不同语言文字在翻译过程中,往往会出现长度变化的问题,与此同时,考虑到漫画气泡内存在大面积空白区域,因此,本方法通过对现有文字矩形集进行优化,以实现对气泡空白区域的利用,为后续的译文回填工作创造更优越的条件。而已知文字矩形集内所保存的就是气泡内文字的外接矩形,因此,对其优化可以转化为在气泡内对其位置进行扩展。
针对每一个文字矩形,本方法采用等比拉伸的方式扩展文字矩形在气泡内的位置。即文字矩形四个顶点的横纵坐标分别以一个像素为单位,沿着与文字矩形中心点连线的延长线方向向外逐步扩展,以文字矩形左上顶点top_left为例,其每次扩展后的新坐标如公式(8)所示。
四个顶点逐步向外扩展直至某一顶点触及气泡边缘,则停止扩展,并更新扩展后文字矩形的位置信息。文字矩形是否扩展至气泡边缘的判断,以气泡内部背景颜色一致的特征为前提,当文字矩形四个顶点中某一顶点新扩展位置的R,G,B三通道值与前一位置的值相差较大,即每个色彩通道的差值均大于50时,则认为该顶点已扩展至气泡边缘,其他顶点也停止扩展。
6、记录气泡内文字轮廓位置信息。
在本方法中,使用“.txt”文档保存优化后的气泡内文字位置信息。其中,所保存的位置信息包括优化后的文字矩形的左上顶点的横纵坐标(top_leftx,top_lefty),以及文字矩形的长度w及宽度h。每个文字矩形的数据在“.txt”中占一行,top_leftx,top_lefty,w,h以空格分隔。
通过对气泡内文字矩形位置的扩展,能够有效地使气泡空间充分利用,进一步为漫画自动译制过程中的回填工作提供便利条件,有助于优化回填效果,提升读者阅读体验。
本发明还公开了一种漫画气泡内文字定位装置,包括:二值图像生成模块、轮廓集生成模块、气泡集和文字集提取模块、文字矩形集生成模块、文字矩形集优化模块、映射关系生成模块以及位置优化模块。
二值图像生成模块用于获取数字漫画图像并依次进行灰度和二值化处理,得到二值图像;轮廓集生成模块用于将二值图像进行轮廓检测得到轮廓集;气泡集和文字集提取模块用于根据轮廓的关系层级从轮廓集内部提取得到气泡集和文字集,其中,气泡集为有内嵌轮廓的轮廓的集合,文字集为有外包轮廓的轮廓的集合;文字矩形集生成模块用于根据轮廓面积去除文字集中的干扰轮廓,然后将文字集内每个剩余轮廓的外接矩形集合,得到初始文字矩形集;文字矩形集优化模块用于根据外接矩形周围背景颜色去除初始文字矩形集中的干扰外接矩形,得到文字矩形集;映射关系生成模块用于建立文字矩形集内的外接矩形与气泡集内的轮廓之间的映射关系;位置优化模块用于扩展文字矩形集内的每个外接矩形至对应映射的气泡集内的轮廓的边缘,并保存扩展后外接矩形的位置信息。
本发明漫画气泡内文字定位方法可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明漫画气泡内文字定位方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
基于这样的理解,在示例性实施例中,还提供了一种计算机可读存储介质,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于该计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
在示例性实施例中,还提供计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述漫画气泡内文字定位方法的步骤。处理器可能是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor、DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
在实际数字漫画图像中,由于气泡形状不只是椭圆形,还存在矩形、放射形及一些不规则形状,而且气泡颜色多变,如图3至14所示。因此,单纯通过图像二值化及轮廓检测方法定位气泡内文字位置,误检率高,难以被实际应用。因此,本发明提出了通过轮廓间关系对轮廓检测得到的轮廓进行优化,去除干扰轮廓,实现对气泡内文字轮廓较为精准的识别。此外,本发明还利用文字轮廓及气泡轮廓的关系,实现对文字位置的优化,提高气泡空白区域的利用率,进一步提升读者阅读体验。
本发明的实施效果如图15至22所示,其中,图15、17、19和21为通过本发明方法对气泡内文字定位的结果,图16、18、20和22为利用本发明方法对定位到的文字位置进行优化后的效果。本发明方法还对收集到的30张包含彩色气泡的漫画图像进行了实验,得到的结果如表2所示。
表2本发明方法对实际漫画图像的处理结果表
实际气泡内文字(个) | 1092 |
本发明定位的气泡内文字(个) | 1105 |
本发明正确定位的气泡内文字(个) | 1039 |
查准率(%) | 94% |
召回率(%) | 95.1% |
其中,查准率和召回率分别利用公式(9)和(10)进行计算。
可以发现,本发明所提出的方法的查准率和召回率都在94%以上,能较为精准的实现气泡内文字的定位。
本发明利用成熟的数字图像处理技术,包括图像灰度化、膨胀腐蚀、轮廓检测等实现对数字漫画图像中气泡内的文字定位,此外,根据气泡大小,优化文字位置。因此,本发明不仅能够为文字回填提供位置信息,还能通过优化文字位置实现回填效果的提升,为漫画读者提更好地阅读体验,促进各文化间的交流。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (10)
1.一种漫画气泡内文字定位方法,其特征在于,包括以下步骤:
S1:获取数字漫画图像并依次进行灰度和二值化处理,得到二值图像;
S2:将二值图像进行轮廓检测得到轮廓集;
S3:根据轮廓的关系层级从轮廓集内部提取得到气泡集和文字集,其中,气泡集为有内嵌轮廓的轮廓的集合,文字集为有外包轮廓的轮廓的集合;
S4:根据轮廓面积去除文字集中的干扰轮廓,然后将文字集内每个剩余轮廓的外接矩形集合,得到初始文字矩形集;
S5:根据外接矩形周围背景颜色去除初始文字矩形集中的干扰外接矩形,得到文字矩形集;
S6:建立文字矩形集内的外接矩形与气泡集内的轮廓之间的映射关系;
S7:扩展文字矩形集内的每个外接矩形,直至外接矩形的顶点至对应映射的气泡集内的轮廓的边缘,并保存扩展后外接矩形的位置信息。
2.根据权利要求1所述的漫画气泡内文字定位方法,其特征在于,所述S1中进行二值化处理时,二值化处理的阈值采用自适应阈值。
3.根据权利要求1所述的漫画气泡内文字定位方法,其特征在于,所述S2的具体方法为:
利用findContours函数将二值图像进行轮廓检测,并将检测到的轮廓组织成两级层次结构,存在内嵌轮廓的轮廓为第一级轮廓,其余轮廓为第二级轮廓,得到轮廓集,其中,通过保存轮廓的拐点来记录检测到的轮廓。
4.根据权利要求1所述的漫画气泡内文字定位方法,其特征在于,所述S4中根据轮廓面积去除文字集中的干扰轮廓的具体方法为:
预设第一最小阈值和第二最小阈值,将轮廓面积小于第一最小阈值的轮廓去除,然后采用drawContours函数将文字集中的剩余轮廓绘制到与数字漫画图像大小一致的空白背景图上,将轮廓面积小于第二最小阈值的轮廓去除。
5.根据权利要求4所述的漫画气泡内文字定位方法,其特征在于,所述最小阈值为漫画气泡内文字中一个句号的面积,第二最小阈值为漫画气泡内文字中一个文字的面积。
6.根据权利要求4所述的漫画气泡内文字定位方法,其特征在于,所述S5的具体方法为:
将外接矩形的上边界中点处向上预设大小的像素区域与下边界中点处向下预设大小的像素区域颜色不同的外接矩形从除初始文字矩形集中去除,得到文字矩形集。
7.根据权利要求4所述的漫画气泡内文字定位方法,其特征在于,所述S5的具体方法为:
将文字矩形集内外接矩形四个顶点的横纵坐标分别以一个像素为单位,沿着与外接矩形中心点连线的延长线方向向外逐步扩展,直至任一顶点触及对应映射的气泡集内的轮廓的边缘,并保存扩展后外接矩形的位置信息。
8.一种漫画气泡内文字定位装置,其特征在于,包括:
二值图像生成模块,用于获取数字漫画图像并依次进行灰度和二值化处理,得到二值图像;
轮廓集生成模块,用于将二值图像进行轮廓检测得到轮廓集;
气泡集和文字集提取模块,用于根据轮廓的关系层级从轮廓集内部提取得到气泡集和文字集,其中,气泡集为有内嵌轮廓的轮廓的集合,文字集为有外包轮廓的轮廓的集合;
文字矩形集生成模块,用于根据轮廓面积去除文字集中的干扰轮廓,然后将文字集内每个剩余轮廓的外接矩形集合,得到初始文字矩形集;
文字矩形集优化模块,用于根据外接矩形周围背景颜色去除初始文字矩形集中的干扰外接矩形,得到文字矩形集;
映射关系生成模块,用于建立文字矩形集内的外接矩形与气泡集内的轮廓之间的映射关系;
以及位置优化模块,用于扩展文字矩形集内的每个外接矩形至对应映射的气泡集内的轮廓的边缘,并保存扩展后外接矩形的位置信息。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述漫画气泡内文字定位方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述漫画气泡内文字定位方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010209610.8A CN111444903B (zh) | 2020-03-23 | 2020-03-23 | 漫画气泡内文字定位方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010209610.8A CN111444903B (zh) | 2020-03-23 | 2020-03-23 | 漫画气泡内文字定位方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444903A true CN111444903A (zh) | 2020-07-24 |
CN111444903B CN111444903B (zh) | 2022-12-09 |
Family
ID=71629420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010209610.8A Active CN111444903B (zh) | 2020-03-23 | 2020-03-23 | 漫画气泡内文字定位方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444903B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115063829A (zh) * | 2022-08-15 | 2022-09-16 | 万翼科技有限公司 | 非封闭区域识别方法、装置、设备及存储介质 |
CN116259050A (zh) * | 2023-05-11 | 2023-06-13 | 长春融成智能设备制造股份有限公司 | 灌装桶标签文字定位识别方法、装置、设备及检测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07203180A (ja) * | 1993-12-28 | 1995-08-04 | Canon Inc | 画像処理装置 |
US20090097750A1 (en) * | 2007-10-16 | 2009-04-16 | Canon Kabushiki Kaisha | Image processing apparatus |
CN105528614A (zh) * | 2015-12-02 | 2016-04-27 | 北京大学 | 一种漫画图像版面的识别方法和自动识别系统 |
CN106157284A (zh) * | 2015-04-01 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 图像中文字区域的定位方法及装置 |
CN106845480A (zh) * | 2017-01-13 | 2017-06-13 | 河海大学 | 一种从图片中识别车牌的方法 |
CN110097046A (zh) * | 2019-03-11 | 2019-08-06 | 上海肇观电子科技有限公司 | 一种文字检测方法及装置、设备和计算机可读存储介质 |
CN110717489A (zh) * | 2019-09-19 | 2020-01-21 | 平安科技(深圳)有限公司 | Osd的文字区域的识别方法、装置及存储介质 |
CN110738207A (zh) * | 2019-09-10 | 2020-01-31 | 西南交通大学 | 一种融合文字图像中文字区域边缘信息的文字检测方法 |
-
2020
- 2020-03-23 CN CN202010209610.8A patent/CN111444903B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07203180A (ja) * | 1993-12-28 | 1995-08-04 | Canon Inc | 画像処理装置 |
US20090097750A1 (en) * | 2007-10-16 | 2009-04-16 | Canon Kabushiki Kaisha | Image processing apparatus |
CN106157284A (zh) * | 2015-04-01 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 图像中文字区域的定位方法及装置 |
CN105528614A (zh) * | 2015-12-02 | 2016-04-27 | 北京大学 | 一种漫画图像版面的识别方法和自动识别系统 |
CN106845480A (zh) * | 2017-01-13 | 2017-06-13 | 河海大学 | 一种从图片中识别车牌的方法 |
CN110097046A (zh) * | 2019-03-11 | 2019-08-06 | 上海肇观电子科技有限公司 | 一种文字检测方法及装置、设备和计算机可读存储介质 |
CN110738207A (zh) * | 2019-09-10 | 2020-01-31 | 西南交通大学 | 一种融合文字图像中文字区域边缘信息的文字检测方法 |
CN110717489A (zh) * | 2019-09-19 | 2020-01-21 | 平安科技(深圳)有限公司 | Osd的文字区域的识别方法、装置及存储介质 |
Non-Patent Citations (3)
Title |
---|
KYI PYAR ZAW ET AL: "Y-Position based Myanmar Touching Character Segmentation and Sub-components based Character Classification", 《2019 IEEE 17TH INTERNATIONAL CONFERENCE ON SOFTWARE ENGINEERING RESEARCH, MANAGEMENT AND APPLICATIONS (SERA)》 * |
刘冬等: "一种无监督的中文漫画对白自动定位方法", 《北京大学学报(自然科学版)》 * |
焦利敏: "漫画帧与文本的识别及排序研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115063829A (zh) * | 2022-08-15 | 2022-09-16 | 万翼科技有限公司 | 非封闭区域识别方法、装置、设备及存储介质 |
CN116259050A (zh) * | 2023-05-11 | 2023-06-13 | 长春融成智能设备制造股份有限公司 | 灌装桶标签文字定位识别方法、装置、设备及检测方法 |
CN116259050B (zh) * | 2023-05-11 | 2023-07-25 | 长春融成智能设备制造股份有限公司 | 灌装桶标签文字定位识别方法、装置、设备及检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111444903B (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110659644B (zh) | 书法单字的笔画自动提取方法 | |
CN105528614B (zh) | 一种漫画图像版面的识别方法和自动识别系统 | |
CN112418216B (zh) | 一种复杂自然场景图像中的文字检测方法 | |
CN110969620A (zh) | 一种磁瓦波纹类缺陷的检测方法及装置 | |
CN111444903B (zh) | 漫画气泡内文字定位方法、装置、设备及可读存储介质 | |
CN110751606B (zh) | 一种基于神经网络算法的泡沫图像处理方法及系统 | |
CN112991536B (zh) | 一种专题地图地理面要素自动提取和矢量化方法 | |
CN114359538A (zh) | 一种水表读数定位与识别方法 | |
CN115690823A (zh) | 电气图纸中带有毛刺特征的表格信息提取方法及装置 | |
CN114386504A (zh) | 一种工程图纸文字识别方法 | |
CN116543391A (zh) | 一种结合图像校正的文本数据采集系统及方法 | |
CN109271882B (zh) | 一种区分颜色的手写体汉字提取方法 | |
CN112070684B (zh) | 基于形态先验特征的甲骨刻辞文字修复方法 | |
CN117576699A (zh) | 一种基于深度学习的机车工单信息智能识别方法及系统 | |
CN112926694A (zh) | 基于改进的神经网络对图像中的猪只进行自动识别的方法 | |
CN109117841B (zh) | 基于笔画宽度变换与卷积神经网络的场景文本检测方法 | |
CN111539312A (zh) | 一种从图像中抽取表格的方法 | |
CN111210452A (zh) | 一种基于图割和均值偏移的证件照人像分割方法 | |
CN116030472A (zh) | 文字坐标确定方法及装置 | |
CN114170218B (zh) | 一种染色体图像实例标签生成方法及系统 | |
CN115273108A (zh) | 一种人工智能识别自动归集方法及系统 | |
CN112581487B (zh) | 自动提取检测区域及定位核的方法 | |
CN114332866A (zh) | 一种基于图像处理的文献曲线分离与坐标信息提取方法 | |
CN115171133A (zh) | 用于不规则表格图像拉平的表格结构检测方法 | |
CN110175563B (zh) | 金属切削刀具图纸标注识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |