CN111626302B - 乌金体藏文古籍文档图像的粘连文本行切分方法及系统 - Google Patents

乌金体藏文古籍文档图像的粘连文本行切分方法及系统 Download PDF

Info

Publication number
CN111626302B
CN111626302B CN202010447300.XA CN202010447300A CN111626302B CN 111626302 B CN111626302 B CN 111626302B CN 202010447300 A CN202010447300 A CN 202010447300A CN 111626302 B CN111626302 B CN 111626302B
Authority
CN
China
Prior art keywords
line
image
text
generate
connected domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010447300.XA
Other languages
English (en)
Other versions
CN111626302A (zh
Inventor
王维兰
胡鹏飞
王筱娟
王铁君
郝玉生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Minzu University
Original Assignee
Northwest Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest Minzu University filed Critical Northwest Minzu University
Priority to CN202010447300.XA priority Critical patent/CN111626302B/zh
Publication of CN111626302A publication Critical patent/CN111626302A/zh
Priority to US17/167,684 priority patent/US11488402B2/en
Application granted granted Critical
Publication of CN111626302B publication Critical patent/CN111626302B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种乌金体藏文古籍文档图像的粘连文本行切分方法及系统。所述方法首先获取乌金体藏文古籍文档版面处理后的二值图像;对二值图像进行局部基线检测,生成局部基线信息集合;根据所述局部基线信息集合对所述二值图像中的粘连区域进行检测、切分,生成粘连区域切分后图像;对所述粘连区域切分后图像进行连通域所属行的分配,生成文本行分配结果;根据所述文本行分配结果对所述粘连区域切分后图像进行文本行的分割,生成行切分后的图像。采用本发明方法能够有效切分藏文古籍粘连文本行,提高藏文古籍文本行的切分效率。

Description

乌金体藏文古籍文档图像的粘连文本行切分方法及系统
技术领域
本发明涉及藏文古籍文档图像自动化处理技术领域,特别是涉及一种乌金体藏文古籍文档图像的粘连文本行切分方法及系统。
背景技术
藏文文献浩如烟海,其数量仅次于汉文文献,且有木刻本、线装本、手抄本、铅印本以及壁画文字等多种形式,其中木刻本中的乌金体藏文古籍通过木刻后进行印刷的方式将乌金体藏文印制在纸上,这类古籍是珍贵的文化遗产,具有很高的研究价值,需要利用科学技术从不同的科学领域去分析和保护。目前,众多方法中,利用计算机对古籍文档图像进行识别是数字化保护很好的选择。然而,由于藏文古籍版面存在笔迹脱落、纸张破损、噪声复杂等情况,在进行乌金体藏文古籍文档图像版面分析、行切分、字切分、识别等内容的研究时面临众多的困难。
对于文档图像进行版面分析与处理后,进一步获取文本行即文本行切分是一个关键的步骤。乌金体藏文古籍木刻版经书为人为篆刻,之后使用特定的油墨在藏纸上印刷,整个过程人为因素较多,诸如不像藏文印刷体一样,一行上的所有字丁和音节点依字丁的基线绝对对齐且在一条水平直线上。此外,由于藏文字丁不等高且木刻版乌金体藏文古籍文本行之间的距离较小,使用通常的投影或外接矩形的切割方法无法实现行切分,甚至相邻文本行间还存在字符笔画粘连的现象,使文本行分割变得更加复杂。又由于藏文古籍年代久远且贮藏条件有限,导致纸质版受损,形成的图像文档存在大量的噪点、笔画断裂、污渍形成复杂的粘连等情况,因此乌金体藏文古籍文档图像行切分工作具有很大的挑战性。
在现有的技术中,专利一种藏文古籍文档的行切分方法及系统 (专利号:201711206538.8) 中公开了基于一种轮廓跟踪的行切分方法,该方法对连通域进行重心点计算,并根据重心点距离对满足一定关系的连通域进行连接,最后通过轮廓跟踪的方式将整个文本行取出,该方法无法对粘连文本行进行切分,而且该方法时间复杂度较高。在行粘连处理时,主要有如下两种方法:第一种是对粘连区域进行投影,寻找最小投影点进行切分,这种方法对规范的印刷体能取得较好的效果,但对于图像质量较差、粘连情况复杂的藏文古籍并不能取得较好的结果;第二种是使用神经网络,专利CN201710226748将分割问题作为一个切分点与非切分点的二分类问题,但该方法需要大量的标注样本,成本较高,切分效率较低。因此,现有的藏文古籍行切分算法对粘连文本行均不能进行有效的切分。
发明内容
本发明的目的是提供一种乌金体藏文古籍文档图像的粘连文本行切分方法及系统,以解决现有的藏文古籍行切分算法对粘连文本行不能进行有效的切分以及切分效率低的问题。
为实现上述目的,本发明提供了如下方案:
一种乌金体藏文古籍文档图像的粘连文本行切分方法,所述方法包括:
获取乌金体藏文古籍文档版面处理后的二值图像;
对所述二值图像进行局部基线检测,生成局部基线信息集合;
根据所述局部基线信息集合对所述二值图像中的粘连区域进行检测、切分,生成粘连区域切分后图像;
对所述粘连区域切分后图像进行连通域所属行的分配,生成文本行分配结果;
根据所述文本行分配结果对所述粘连区域切分后图像进行文本行的分割,生成行切分后的图像。
可选的,所述对所述二值图像进行局部基线检测,生成局部基线信息集合,具体包括:
对所述二值图像进行水平投影,统计各个Y纬度方向上前景色像素点个数之和,生成水平投影集合;
采用霍夫直线检测方法查找所述二值图像中的直线段,生成各个Y纬度方向上的直线段长度集合;
根据所述水平投影集合、所述水平投影集合的中位数、所述直线段长度集合以及所述直线段长度集合的中位数确定可能存在基线信息的基线位置,生成第一基线信息集合;
对所述二值图像进行连通域检测,生成各个Y纬度方向上的连通域集合;
根据所述连通域集合统计各个Y纬度方向上连通域最小外接矩形上边界的个数,生成外接矩形个数集合;
根据所述连通域集合计算平均文字高度;
根据所述外接矩形个数集合和所述平均文字高度过滤所述第一基线信息集合中的基线位置,生成第二基线信息集合;
根据所述平均文字高度对所述第二基线信息集合中的基线位置进行分组,确定文本行所在位置信息;
根据所述文本行所在位置信息确定各条局部基线,生成局部基线信息集合。
可选的,所述根据所述局部基线信息集合对所述二值图像中的粘连区域进行检测、切分,生成粘连区域切分后图像,具体包括:
根据所述连通域集合和所述局部基线信息集合确定粘连区域;
对所述粘连区域进行中轴化处理,生成中轴化粘连区域;
根据所述局部基线信息集合和所述平均文字高度确定所述中轴化粘连区域中的粘连点;
采用道格拉斯-普克算法对所述粘连区域进行非平滑点检测,得到非平滑点的X纬度坐标和Y纬度坐标依次存入候选切割列表;
根据所述粘连点从所述候选切割列表中寻找到最佳切分点;
连接所述最佳切分点生成分割线;
采用所述分割线对所述粘连区域进行切分,生成粘连区域切分后图像。
可选的,所述对所述粘连区域切分后图像进行连通域所属行的分配,生成文本行分配结果,具体包括:
遍历所述连通域集合中的所有连通域,将经过局部基线的连通域直接分配给所述局部基线所在的文本行;
根据所述连通域与所述局部基线信息集合中的第一条局部基线的位置关系分配第一个文本行的连通域;
根据所述连通域与所述局部基线信息集合中的最后一条局部基线的位置关系分配最后一个文本行的连通域;
根据所述连通域的重心坐标与其相邻局部基线之间的距离,将所述连通域分配至相邻文本行,生成文本行分配结果。
可选的,所述根据所述文本行分配结果对所述粘连区域切分后图像进行文本行的分割,生成行切分后的图像,具体包括:
根据所述文本行分配结果生成文本行图像蒙版;
将所述文本行分配结果中每个文本行内的连通域与所述文本行图像蒙版进行与运算,生成文本行切割结果;
将所述文本行切割结果以图像的形式输出,生成行切分后的图像。
一种乌金体藏文古籍文档图像的粘连文本行切分系统,所述系统包括:
二值图像获取模块,用于获取乌金体藏文古籍文档版面处理后的二值图像;
局部基线检测模块,用于对所述二值图像进行局部基线检测,生成局部基线信息集合;
粘连区域检测切分模块,用于根据所述局部基线信息集合对所述二值图像中的粘连区域进行检测、切分,生成粘连区域切分后图像;
连通域所属行分配模块,用于对所述粘连区域切分后图像进行连通域所属行的分配,生成文本行分配结果;
文本行分割模块,用于根据所述文本行分配结果对所述粘连区域切分后图像进行文本行的分割,生成行切分后的图像。
可选的,所述局部基线检测模块具体包括:
水平投影单元,用于对所述二值图像进行水平投影,统计各个Y纬度方向上前景色像素点个数之和,生成水平投影集合;
霍夫直线检测单元,用于采用霍夫直线检测方法查找所述二值图像中的直线段,生成各个Y纬度方向上的直线段长度集合;
第一基线信息集合确定单元,用于根据所述水平投影集合、所述水平投影集合的中位数、所述直线段长度集合以及所述直线段长度集合的中位数确定可能存在基线信息的基线位置,生成第一基线信息集合;
连通域检测单元,用于对所述二值图像进行连通域检测,生成各个Y纬度方向上的连通域集合;
外接矩形个数统计单元,用于根据所述连通域集合统计各个Y纬度方向上连通域最小外接矩形上边界的个数,生成外接矩形个数集合;
平均文字高度计算单元,用于根据所述连通域集合计算平均文字高度;
基线位置过滤单元,用于根据所述外接矩形个数集合和所述平均文字高度过滤所述第一基线信息集合中的基线位置,生成第二基线信息集合;
基线位置分组单元,用于根据所述平均文字高度对所述第二基线信息集合中的基线位置进行分组,确定文本行所在位置信息;
局部基线确定单元,用于根据所述文本行所在位置信息确定各条局部基线,生成局部基线信息集合。
可选的,所述粘连区域检测切分模块具体包括:
粘连区域确定单元,用于根据所述连通域集合和所述局部基线信息集合确定粘连区域;
中轴化处理单元,用于对所述粘连区域进行中轴化处理,生成中轴化粘连区域;
粘连点确定单元,用于根据所述局部基线信息集合和所述平均文字高度确定所述中轴化粘连区域中的粘连点;
非平滑点检测单元,用于采用道格拉斯-普克算法对所述粘连区域进行非平滑点检测,得到非平滑点的X纬度坐标和Y纬度坐标依次存入候选切割列表;
最佳切分点确定单元,用于根据所述粘连点从所述候选切割列表中寻找到最佳切分点;
分割线生成单元,用于连接所述最佳切分点生成分割线;
粘连区域切分单元,用于采用所述分割线对所述粘连区域进行切分,生成粘连区域切分后图像。
可选的,所述连通域所属行分配模块具体包括:
第一连通域所属行分配单元,用于遍历所述连通域集合中的所有连通域,将经过局部基线的连通域直接分配给所述局部基线所在的文本行;
第二连通域所属行分配单元,用于根据所述连通域与所述局部基线信息集合中的第一条局部基线的位置关系分配第一个文本行的连通域;
第三连通域所属行分配单元,用于根据所述连通域与所述局部基线信息集合中的最后一条局部基线的位置关系分配最后一个文本行的连通域;
第四连通域所属行分配单元,用于根据所述连通域的重心坐标与其相邻局部基线之间的距离,将所述连通域分配至相邻文本行,生成文本行分配结果。
可选的,所述文本行分割模块具体包括:
文本行图像蒙版生成单元,用于根据所述文本行分配结果生成文本行图像蒙版;
与运算单元,用于将所述文本行分配结果中每个文本行内的连通域与所述文本行图像蒙版进行与运算,生成文本行切割结果;
文本行切分结果输出单元,用于将所述文本行切割结果以图像的形式输出,生成行切分后的图像。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供一种乌金体藏文古籍文档图像的粘连文本行切分方法及系统,所述方法首先获取乌金体藏文古籍文档版面处理后的二值图像;对所述二值图像进行局部基线检测,生成局部基线信息集合;根据所述局部基线信息集合对所述二值图像中的粘连区域进行检测、切分,生成粘连区域切分后图像;对所述粘连区域切分后图像进行连通域所属行的分配,生成文本行分配结果;根据所述文本行分配结果对所述粘连区域切分后图像进行文本行的分割,生成行切分后的图像。本发明方法首先对藏文古籍文档版面处理后的图像进行局部基线检测,然后检测相邻行粘连区域并进行切分,再根据连通域所属行的分配结果,完成并生成切分后的文本行图像,能够有效切分藏文古籍粘连文本行,提高藏文古籍文本行的切分效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的乌金体藏文古籍文档图像的粘连文本行切分方法的流程图;
图2为本发明提供的局部基线检测流程图;
图3为本发明提供的粘连区域检测、切分流程图;
图4为本发明提供的连通域所属行分配流程图;
图5为本发明提供的连通域检测及水平投影图;
图6为本发明提供的使用Y纬度投影中位数及检测直线中位数过滤后基线所在位置示意图;
图7为本发明提供的使用连通域个数及平均行高信息过滤后基线所在位置示意图;
图8为本发明提供的文本行所在位置示意图;
图9为本发明提供的将图像沿X纬度分为8份后的局部基线图像示意图;
图10为本发明提供的第一类粘连区域示意图;
图11为本发明提供的去除非粘连区域后的第一类粘连区域示意图;
图12为本发明提供的模板匹配算法所使用的模板图像示意图;
图13为本发明提供的去除非粘连区域后的第二类粘连区域示意图;
图14为本发明提供的粘连区域中轴化结果示意图;
图15为本发明提供的采用道格拉斯-普克算法进行粘连区域平滑点检测的结果示意图;
图16为本发明提供的粘连位置去毛刺处理后示意图;
图17为本发明提供的寻找最佳粘连点示意图;
图18为本发明提供的寻找最佳切分点示意图;
图19为本发明提供的粘连区域切分示意图;
图20为本发明提供的文本行切分结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种乌金体藏文古籍文档图像的粘连文本行切分方法及系统,以解决现有的藏文古籍行切分算法对粘连文本行不能进行有效的切分以及切分效率低的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明提供的乌金体藏文古籍文档图像的粘连文本行切分方法的流程图。参见图1,本发明提供的乌金体藏文古籍文档图像的粘连文本行切分方法具体包括:
步骤1:获取乌金体藏文古籍文档版面处理后的二值图像。
本发明实施例中,获取的乌金体藏文古籍文档版面处理后的二值图像如图5中右侧文字所示。该段乌金体藏文古籍文字的含义为:莲花隅安盛满香水之钵上,盛于五甘露之四嘎布拉碗,复搅亦搅方便八味中,火隅白色大勇母,水隅琉璃色无能胜母,风隅虚空蓝色时相母,土隅黄色邬摩。一切皆青年,一面、三眼、四臂。日轮之上王姿坐,执五契印、裸体、持钺刀、嘎布拉、三股叉、小鼓。东门忿怒金刚母大黑色身,北门怖金刚母黄色身,西门金刚大红色身,南门金刚绿色身。四臂、一面、三眼、伸右腿,皆无着衣,依次乘金翅鸟、狮、虎、水牛之座。庄严五契印、持骷髅花环,大威德獠牙、卷舌、怒发上冲、作大吼。手执剑、三股叉、嘎布拉、卡丈尕,抱本光之方便。佛母白世尊:世尊,诸大勇者智慧母支分如何。世尊告佛母:诸大勇者智慧母支分如同其色,而如汝一面。
步骤2:对所述二值图像进行局部基线检测,生成局部基线信息集合。
由于乌金体藏文古籍木刻版文本行基线并非像印刷体文本行一样有明显而且容易获取的基线,藏文古籍木刻版面的文字行有扭曲和倾斜等各种现象,虽然没有一行的整体基线,但可以检测局部基线,在此基础上进一步检测相邻行文字的粘连情况。
图2为本发明提供的局部基线检测流程图。如图2所示,本发明步骤2局部基线检测方法具体包括:
步骤2.1:对所述二值图像进行水平投影,统计各个Y纬度方向上前景色像素点个数之和,生成水平投影集合。
本发明中,纵向Y纬度方向是指图像垂直方向,横向X纬度方向是指图像水平方向。分别统计相同纵向Y纬度方向上前景色像素点个数之和,即对图像进行水平投影,生成水平投影集合,投影直方图如图5中左侧直方图所示。该水平投影集合的长度为图像的高度,水平投影集合中的每个位置记录该水平方向所存在的前景色像素点个数和。
步骤2.2:采用霍夫直线检测方法查找所述二值图像中的直线段,生成各个Y纬度方向上的直线段长度集合。
使用霍夫直线检测对图像中直线段进行查找,可选择直线段的角度和长度,分别统计相同纵向Y纬度方向上直线段的长度和,生成直线段长度集合。本发明依据图像总高度生成直线段长度集合,如果在某个水平方向没有直线段,则直线段长度集合中的对应值为0;否则则为该水平方向直线段长度的总和。在此处获取的直线段长度集合是为了进行进一步的基线位置定位工作。
步骤2.3:根据所述水平投影集合、所述水平投影集合的中位数、所述直线段长度集合以及所述直线段长度集合的中位数确定可能存在基线信息的基线位置,生成第一基线信息集合。
获取所述水平投影集合的中位数,判断水平投影集合中的值是否大于水平投影集合的中位数。如果大于水平投影集合的中位数,则记录为可能存在基线信息;如果小于水平投影集合的中位数,则不存在基线信息。获取所述直线段长度集合的中位数,判断直线段长度集合中的值是否大于直线段长度集合中位数。如果大于直线段长度中位数则记录为可能存在基线信息,如果小于直线段长度中位数则不存在基线信息。由此得到第一基线信息集合。使用Y纬度投影中位数及检测直线中位数过滤后基线所在位置如图6所示。
步骤2.4:对所述二值图像进行连通域检测,生成各个Y纬度方向上的连通域集合。
对图像进行连通域检测,一个所述连通域为所述二值图像中一个连通的字符笔划,生成各个Y纬度方向上的连通域集合。
步骤2.5:根据所述连通域集合统计各个Y纬度方向上连通域最小外接矩形上边界的个数,生成外接矩形个数集合。
进一步统计相同纵向Y纬度方向上连通域最小外接矩形上边界的个数,生成外接矩形个数集合。连通域最小外接矩形是可以将连通域包围的最小垂直矩形。
步骤2.6:根据所述连通域集合计算平均文字高度。
计算连通域最小外接矩形高度大小,设置高度阈值为所有连通域的高度除以所有连通域的个数,统计连通域高度大于高度阈值的连通域总个数和连通域总高度,使用连通域总高度除于连通域总个数得到平均文字高度。连通域检测结果如图5中矩形框所示。在此处得到平均文字高度的作用是为了进一步估计文本行高度信息。
步骤2.7:根据所述外接矩形个数集合和所述平均文字高度过滤所述第一基线信息集合中的基线位置,生成第二基线信息集合。
判断第一基线信息集合中每个Y纬度方向上的连通域外接矩形个数是否为1,如果为1,再次判断该连通域外接矩形区域上方平均文字高度1/2处或该连通域外接矩形区域下方平均文字高度1/2处是否存在基线信息,如果满足任一条件,则将此处信息从第一基线信息集合中删除,从而得到第二基线信息集合。所述基线信息集合中依照Y纬度坐标值从小到大,依次存储每条基线位置的Y纬度坐标。使用连通域个数及平均行高信息过滤后获得基线所在位置,如图7所示。
步骤2.8:根据所述平均文字高度对所述第二基线信息集合中的基线位置进行分组,确定文本行所在位置信息。
判断所述第二基线信息集合中的每个数据与其右侧相邻数据之间的差值大小,如果差值大于1/3平均文字高度,则计算该数据与其右侧相邻数据的平均值作为分组线。该图像文字区域起始位置到第一条分组线之间形成第一组文本行,最后一条分组线到图像文字区域结束位置形成最后一组文本行。其余的每一条分组线与其下一条分组线结合,形成文本行。图像文字区域起始位置即水平投影集合中第一个非零值所在Y纬度坐标,图像文字区域结束位置即水平投影集合中最后一个非零值所在Y纬度坐标。
经过以上处理形成的文本行可能存在错分情况,应该予以纠正。如果一个文本行高度小于4/5的平均文字高度,则该文本存在错分情况。若存在错分情况的组为第一组,则将该组与其下一组进行合并;若存在错分情况的组为最后一组,则将该组与其上一组进行合并;其他情况,则将计算存在错分情况的组与相邻上、下两组的组间距离,将该组合并给其相邻上、下两组中组间距离较小的组。如果文本行高度大于2.5倍平均文字高度,则将该文本行平均拆分为N个文本行,其中N =(文本行高度/平均文字高度),若N为非整数,则向下取整。最终确定的文本行所在位置信息如图8所示。
步骤2.9:根据所述文本行所在位置信息确定各条局部基线,生成局部基线信息集合。
依据图像X纬度对图像平均切分为M块,分别对M块进行Y纬度水平投影。依据文本行所在位置信息,在每块图像中,寻找Y纬度投影值最大的值所在位置作为每块图像的基线位置,即局部基线信息。实验证明:M=8时结果最优。因此本发明实施例将图像沿X纬度分为8块后,生成局部基线信息集合。所述局部基线信息的存储形式与基线信息集合中基线位置的存储形式相同,即所述局部基线信息集合中依照Y纬度坐标值从小到大,依次存储每条局部基线的Y纬度坐标。
步骤2.10:使用局部基线信息计算各个文本行平均基线距离,并根据各个文本行平均基线距离检测局部基线是否存在错误,从而对局部基线信息进行修正。
使用Y纬度投影值最大的值所在位置作为每块图像的基线位置,可能由于二值化、图像存在噪点等原因,导致获取的极少部分局部基线存在误差,应该予修正。在执行修正过程时,依次对第一条文本行到倒数第二条文本行执行以下步骤:
步骤2.10.1:计算当前文本行与其下方文本行局部基线距离差的和,并使用基线距离差的和除以M得到当前文本行基线位置距离下方文本行基线位置的平均距离,记作文本行平均基线距离。
步骤2.10.2:依次计算当前文本行与其下方文本行局部基线距离差,若局部基线距离差小于0.85倍文本行平均基线距离或者大于1.15倍文本行平均基线距离,则判断所述局部基线为错误局部基线信息,记录当前文本行以及下方本行中所述局部基线位于图像分块后的分块位置。
步骤2.10.3:寻找同一文本行局部基线中距离错误局部基线分块关系中最近的正确局部基线,并将错误局部基线所在位置修正为正确局部基线所在位置,完成局部基线修正工作。
本发明实施例将图像沿X纬度分为8块,计算局部基线并进行修正后得到的局部基线信息如图9中所示。
步骤3:根据所述局部基线信息集合对所述二值图像中的粘连区域进行检测、切分,生成粘连区域切分后图像。
图3为本发明提供的粘连区域检测、切分流程图。参见图3,所述步骤3具体包括:
步骤3.1:根据所述连通域集合和所述局部基线信息集合确定粘连区域。具体包括:
步骤3.1.1:判断所述二值图像中是否存在经过上、下两条局部基线的连通域,如果存在则该连通域为第一类粘连区域。检测到的第一类粘连区域如图10所示。计算并取出所述粘连区域的最小外接矩形,对该矩形内部再进行连通域检测。如果该矩形内存在其它连通域,则判断该外接矩形内部每个连通域的高度和宽度是否等于最小外接矩形的高度和宽度这一条件,如果不满足该条件,则记录为不相关区域并删除此区域。去除非粘连区域后的第一类粘连区域结果如图11所示。
步骤3.1.2:判断所述二值图像中是否存在连通域最下方高度距离其下方局部基线Y纬度距离小于10的连通域。若存在,计算并取出该连通域的最小外接矩形,对该矩形内部再进行连通域检测。如果该矩形内存在其它连通域,则判断该外接矩形内部每个连通域高度和宽度是否等于最小外接矩形的高度和宽度这一条件,如果不满足该条件,则记录为不相关区域并删除此区域。使用标准相关匹配法对所述连通域与模板图像集合进行模板匹配,模板匹配将返回匹配程度以及匹配结果所在位置。如果模板匹配结果返回的匹配程度大于0.5且匹配结果所在位置的最下方高度到所述连通域最下方的距离小于3,则该连通域为第二类粘连区域。所使用到的模板图像集合中的部分图像如图12所示,去除非粘连区域后的第二类粘连区域结果如图13所示。
经步骤3.1.1与步骤3.1.2处理后分别得到的第一类粘连区域与第二类粘连区域皆为存在粘连现象的连通域,由此第一类粘连区域与第二类粘连区域都是步骤3.2需处理的粘连区域。
步骤3.2:对所述粘连区域进行中轴化处理,生成中轴化粘连区域。
首先对粘连区域进行中轴化处理,中轴化将会对笔画信息细化为线条,生成中轴化粘连区域。中轴化粘连区域结果如图14所示。
步骤3.3:根据所述局部基线信息集合和所述平均文字高度确定所述中轴化粘连区域中的粘连点。
第一类粘连区域至少经过上、下两条局部基线,而且粘连位置出现在下方基线上方文字笔画与其上面的文字笔画中,因此第一类粘连区域的粘连位置的范围处于上方基线下方1/2平均文字高度至下方基线上1/5平均文字高度之间。第二类粘连区域的粘连位置范围处于匹配结果最上方高度上方1/5平均文字高度至最上方高度下方1/5平均文字高度之间。
计算粘连位置范围内中轴上所有点的8邻域内中轴上点的个数,若个数大于2,则为粘连点。
当只有一个粘连点时,则该点为实际粘连点,执行步骤3.4。当存在多个粘连点时,则需要寻找最佳粘连点。首先判断粘连点是否在同一个点的八邻域内,若在,取八邻域内左上方的点作为粘连点,并从中轴化粘连区域中删除所述八邻域内的其他粘连点;若处理后仅存在一个粘连点,则该粘连点为最佳粘连点,否则对删除八邻域内重复粘连点后的结果进行去毛刺处理。去毛刺处理的作用是为了去除由于中轴化算法产生的伪分支。由于伪分支的产生会产生伪粘连点,故该步骤的目的是为了删除伪粘连点,从而精确定位最佳粘连点位置。
使用SWT(Stroke Width Transform,笔画宽度变换)算法计算粘连位置范围的笔画宽度,将小于笔画宽度的中轴化线条予以删除,之后执行步骤3.4。该步骤的目的是为了删除一些因为中轴化算法导致的伪分支,删除这些伪分支后可以删除伪粘连点,从而精确定位最佳粘连点位置。计算此时粘连点个数,若只有一个粘连点,则为最佳粘连点;否则对粘连位置的范围进行水平投影并将水平投影结果中最小值所在Y纬度坐标记为水平投影最佳切分位置,选取在Y纬度方向距离水平投影最佳切分位置最近的粘连点作为最佳粘连点。粘连位置去毛刺效果如图16所示,寻找到的最佳粘连点如图17所示。
步骤3.4:采用道格拉斯-普克算法对所述粘连区域进行非平滑点检测,得到非平滑点的X纬度坐标和Y纬度坐标依次存入候选切割列表。
步骤3.2首先对粘连区域进行中轴化处理,中轴化将会对笔画信息细化为线条,然后对最小外接矩形内部图像进行轮廓检测,将轮廓检测的结果使用道格拉斯-普克算法进行非平滑点检测,得到非平滑点X纬度坐标和Y纬度坐标。寻找非平滑点Y纬度坐标最小的点作为起始点,并按照图像轮廓的顺时针次序,依次将非平滑点X纬度坐标和Y纬度坐标存入候选切割列表。中轴化粘连区域结果如图14所示,道格拉斯-普克算法结果如图15所示。
步骤3.5:根据所述粘连点从所述候选切割列表中寻找到最佳切分点。
在所述候选切割列表中顺序取出位于粘连位置范围中的点,形成新的候选切割列表,然后再寻找新的候选切割列表中Y纬度坐标最大的点,并利用该点将候选切割列表分为两部分。在进行候选切割列表存储时步骤为:寻找非平滑点Y纬度坐标最小的点,作为起始点,并按照图像轮廓的顺时针次序,依次将非平滑点X纬度坐标和Y纬度坐标存入候选切割列表。所以使用Y纬度最大的点则将该文字从新的候选切割列表第一个点到Y轴坐标最大的点分为一部分,从Y轴坐标最大的点到新的候选切割列表最后的一个点分为另一部分。分别在两部分候选切割列表中寻找与所述粘连点欧式距离最近的点,并作为最佳切分点(或称为最佳切割点)。
步骤3.6:连接所述最佳切分点生成分割线。
连接两个最佳切割点生成分割线,采用所述分割线将粘连笔画的粘连点切开,进而完成切分。寻找到的最佳切分点如图18所示,连接最佳切分点作为分割线如图19所示。
步骤3.7:采用所述分割线对所述粘连区域进行切分,生成粘连区域切分后图像。
步骤3.7 结束后,则将文本行间的完全粘连区域进行了切分,切分后不存在文本行粘连的情况,完成粘连切分后,进行连通域所属文本行的分配。
步骤4:对所述粘连区域切分后图像进行连通域所属行的分配,生成文本行分配结果。
图4为本发明提供的连通域所属行分配流程图。参见图4,所述步骤4具体包括:
步骤4.1:遍历所述连通域集合中的所有连通域,将经过局部基线的连通域直接分配给所述局部基线所在的文本行。
由于所述粘连切分完成后,连通域信息发生了改变,故对所述粘连区域切分后的图像重新进行连通域检测,生成新的连通域集合。遍历所有连通域,将经过局部基线的连通域直接分配给局部基线所在的文本行,完成初次分配。并计算初次分配后,已分配连通域中上边界与局部基线位置的最大距离,作为基线与外接矩形的最大距离。
步骤4.2:根据所述连通域与所述局部基线信息集合中的第一条局部基线的位置关系分配第一个文本行的连通域。
如果连通域位于第一条局部基线之上,则将该连通域分配给第一个文本行。
步骤4.3:根据所述连通域与所述局部基线信息集合中的最后一条局部基线的位置关系分配最后一个文本行的连通域。
如果连通域位于最后一条局部基线之下,则将该连通域分配给最后一个文本行。
步骤4.4:根据所述连通域的重心坐标与其相邻局部基线之间的距离,将所述连通域分配至相邻文本行,生成文本行分配结果。具体包括:
步骤4.4.1:计算连通域重心坐标到其上方局部基线与下方局部基线的距离,如果重心坐标到上方局部基线距离小于重心坐标到下方局部基线的距离,则将连通域分配给上方文本行,完成该连通域的分配。反之,则执行步骤4.4.2。
步骤4.4.2:如果连通域重心坐标到上方局部基线距离大于重心坐标到下方局部基线的距离,且连通域重心坐标到下方局部基线的距离小于基线与外接矩形最大距离,则计算该连通域的最小外接矩形长度是否大于该连通域的最小外接矩形宽度的3倍,若大于,则将连通域分配给上方文本行,否则将该连通域分配给下方文本行,完成该连通域的分配。
步骤4.4.3:如果连通域重心坐标到上方局部基线距离大于重心坐标到下方局部基线的距离,且连通域重心坐标到下方局部基线的距离大于基线与外接矩形最大距离,则对该连通域进行霍夫圆检测,霍夫圆检测的最大半径则为连通域宽度、最小半径则为连通域宽度的1/2。如果检测结果显示存在圆形,则将该连通域分配给下方文本行,完成该连通域的分配。如果检测结果显示不存在圆形,则比较该连通域到上方文字区域的距离以及该连通域到下方文字区域的距离,若该连通域到上方文字区域较近,则将该连通域分配给上方文行;否则将该连通域分配给下方文本行,完成该连通域的分配。
在步骤4.4结束后,完成了整个图像的连通域分配,将图像中所有连通域都依据分配规则进行了文本行划分,只有当划分完成后才可以对文本行进行切分,是进行后续文本行分割的必要前提。
步骤5:根据所述文本行分配结果对所述粘连区域切分后图像进行文本行的分割,生成行切分后的图像。具体包括:
步骤5.1:根据所述文本行分配结果生成文本行图像蒙版。
根据所述文本行分配结果中每行文本的分配结果,计算每个文本行中连通域最上方高度与最下方高度之差作为文本行高度,从而生成宽度为输入图像宽度、高度为文本行高度的图像作为文本行图像蒙版。
在步骤5.1中得到了文本行蒙版信息,之后仅需要将文本行分配结果中属于某个文本行的连通域与文本行蒙版进行运算即可。
步骤5.2:将所述文本行分配结果中每个文本行内的连通域与所述文本行图像蒙版进行与运算,生成文本行切割结果。
步骤5.2.1:根据每行文本的分配结果,取出文本行连通域信息,并对属于该行的任一连通域的最小外接矩形内部进行连通域检测。如果该矩形内存在多个连通域,判断该连通域内部每个连通域高度和宽度是否等于该连通域高度和宽度这一条件,将不满足该条件的连通域从最小外接矩形内部删除,从而得到连通域的最小外接矩形,该矩形中不包含非该连通域的其他内容,这样在对图像进行连通域与文本行蒙版图像进行“与”运算时才能减少最小外接矩形中其他文字区域的部分内容,从而更准确的将所述连通域取出。
步骤5.2.2:计算取出连通域所在图像Y纬度坐标与所在文本行连通域最上方高度之差,作为连通域应处于文本行Y纬度所在坐标,X纬度坐标保持不变。
由于在进行文本行生成时,仅生成了该行文本行的高度,而对于在原始图像中,属于该行的所有连通域的Y纬度坐标与生成的文本行坐标会产生偏差,所以进行了步骤5.2.2,在该步骤中进行了Y纬度的偏移量计算。该步骤的存在可以直接为后文“将该连通域信息与文本行图像蒙版进行“与”运算”找到正确的坐标信息。
步骤5.2.3:将该连通域信息复制到文本行图像蒙版中,即将该连通域与文本行图像蒙版中该连通域所在位置进行“与”运算,即可获得文本行切割结果。文本行切割结果如图20所示。
步骤5.3:将所述文本行切割结果以图像的形式输出,生成行切分后的图像。
本发明通过步骤5.1生成文本行图像蒙版,并通过步骤5.2将连通域信息与文本行蒙版进行“与”运算,从而得到文本行图像。所以,当完成每行分割后,文本行切割结果将以图像的形式输出,且每个文本行对应一个文本行图像。图20中所示的是对整个图像进行行切分后的图像,而实际切割结果是每个文本行的图像。
对于文本行分割问题,专利一种藏文古籍文档的行切分方法及系统(专利号:201711206538.8)中仅解决了非粘连的藏文古籍文档图像行切分问题,没有对粘连切分进行研究,且使用轮廓跟踪方法进行文本行切分工作,理论上该方法更加耗时,从专利发明人的论文(Zhou, Fengming & Wang, Weilan & Lin, Qiang. (2018). A novel textsegmentation method for Tibetan historical document based on contour curvetracking. International Journal of Pattern Recognition and ArtificialIntelligence. 32. 10.1142/S0218001418540253.)得知其正确分割率为83.27%,而本发明所提出的粘连文本行切分方法正确分割率为96.52%,极大提高了乌金体藏文古籍文档图像粘连文本行的分割正确率。
对于文档图像粘连的切分问题,目前现有方法中使用较多的为投影法,但对于投影法无法准确找到最佳切分点,而且该方法容易受到非粘连区域的影响。而使用神经网络的方法进行切分,需要大量的标记数据,且神经网络模型难以训练。本发明针对藏文古籍文档图像字丁不等高、不同于印刷体藏文的文本行之间存在水平投影空隙所提出的粘连文本行切分方法,适用于任何方式的文本行粘连情况,且不需要大量标记数据即可完成行切分工作,能够大大提高藏文古籍文本行的切分效率。
作为另一种具体实施方式,所述步骤2中文本行局部基线获取可以也由以下方案完成:
(1)在局部基线获取时,可以先将图像在X纬度进行分块,之后获取单独块内基线,从而获取局部基线。
(2)在获取局部基线信息时,可以通过神经网络等方式进行基线信息查找。
(3)在获取局部基线信息时,可以通过传统的其他方法进行获取。
所述步骤3中粘连区域切分也由以下方案完成:
(1)可以通过骨架化或者细化代替中轴化的方法进行粘连点选取。
(2)可以使用其他方法获取候选切割点。
(3)如果无法找到粘连点,则可以通过骨架化结果/中轴化结果,对图像进行从内部到外部投影,从而寻找最小投影值进行切分。
所述步骤5中文本行分割也由以下方案完成:
(1)如果一个连通域的外界框内存在多个连通域,可以通过面积大小、起始坐标位置等方法删除多余连通域,再进一步对框内的连通域进行处理。
(2) 如果一个连通域的外界框内存在多个连通域,可以通过使用图像学操作,首先填充最大连通域,之后与原图做“或”运算等方法删除多余连通域,再进一步对框内的连通域进行处理。
(3)可以通过生成与文本行相同大小的模版图像,然后根据连通域的X纬度与Y纬度坐标直接进行矩阵复制运算从而可得到文本行分割图像。
基于本发明提供的一种乌金体藏文古籍文档图像的粘连文本行切分方法,本发明还提供一种乌金体藏文古籍文档图像的粘连文本行切分系统,所述系统包括:
二值图像获取模块,用于获取乌金体藏文古籍文档版面处理后的二值图像;
局部基线检测模块,用于对所述二值图像进行局部基线检测,生成局部基线信息集合;
粘连区域检测切分模块,用于根据所述局部基线信息集合对所述二值图像中的粘连区域进行检测、切分,生成粘连区域切分后图像;
连通域所属行分配模块,用于对所述粘连区域切分后图像进行连通域所属行的分配,生成文本行分配结果;
文本行分割模块,用于根据所述文本行分配结果对所述粘连区域切分后图像进行文本行的分割,生成行切分后的图像。
其中,所述局部基线检测模块具体包括:
水平投影单元,用于对所述二值图像进行水平投影,统计各个Y纬度方向上前景色像素点个数之和,生成水平投影集合;
霍夫直线检测单元,用于采用霍夫直线检测方法查找所述二值图像中的直线段,生成各个Y纬度方向上的直线段长度集合;
第一基线信息集合确定单元,用于根据所述水平投影集合、所述水平投影集合的中位数、所述直线段长度集合以及所述直线段长度集合的中位数确定可能存在基线信息的基线位置,生成第一基线信息集合;
连通域检测单元,用于对所述二值图像进行连通域检测,生成各个Y纬度方向上的连通域集合;
外接矩形个数统计单元,用于根据所述连通域集合统计各个Y纬度方向上连通域最小外接矩形上边界的个数,生成外接矩形个数集合;
平均文字高度计算单元,用于根据所述连通域集合计算平均文字高度;
基线位置过滤单元,用于根据所述外接矩形个数集合和所述平均文字高度过滤所述第一基线信息集合中的基线位置,生成第二基线信息集合;
基线位置分组单元,用于根据所述平均文字高度对所述第二基线信息集合中的基线位置进行分组,确定文本行所在位置信息;
局部基线确定单元,用于根据所述文本行所在位置信息确定各条局部基线,生成局部基线信息集合。
所述粘连区域检测切分模块具体包括:
粘连区域确定单元,用于根据所述连通域集合和所述局部基线信息集合确定粘连区域;
中轴化处理单元,用于对所述粘连区域进行中轴化处理,生成中轴化粘连区域;
粘连点确定单元,用于根据所述局部基线信息集合和所述平均文字高度确定所述中轴化粘连区域中的粘连点;
非平滑点检测单元,用于采用道格拉斯-普克算法对所述粘连区域进行非平滑点检测,得到非平滑点的X纬度坐标和Y纬度坐标依次存入候选切割列表;
最佳切分点确定单元,用于根据所述粘连点从所述候选切割列表中寻找到最佳切分点;
分割线生成单元,用于连接所述最佳切分点生成分割线;
粘连区域切分单元,用于采用所述分割线对所述粘连区域进行切分,生成粘连区域切分后图像。
所述连通域所属行分配模块具体包括:
第一连通域所属行分配单元,用于遍历所述连通域集合中的所有连通域,将经过局部基线的连通域直接分配给所述局部基线所在的文本行;
第二连通域所属行分配单元,用于根据所述连通域与所述局部基线信息集合中的第一条局部基线的位置关系分配第一个文本行的连通域;
第三连通域所属行分配单元,用于根据所述连通域与所述局部基线信息集合中的最后一条局部基线的位置关系分配最后一个文本行的连通域;
第四连通域所属行分配单元,用于根据所述连通域的重心坐标与其相邻局部基线之间的距离,将所述连通域分配至相邻文本行,生成文本行分配结果。
所述文本行分割模块具体包括:
文本行图像蒙版生成单元,用于根据所述文本行分配结果生成文本行图像蒙版;
与运算单元,用于将所述文本行分配结果中每个文本行内的连通域与所述文本行图像蒙版进行与运算,生成文本行切割结果;
文本行切分结果输出单元,用于将所述文本行切割结果以图像的形式输出,生成行切分后的图像。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种乌金体藏文古籍文档图像的粘连文本行切分方法,其特征在于,所述方法包括:
获取乌金体藏文古籍文档版面处理后的二值图像;
对所述二值图像进行局部基线检测,生成局部基线信息集合;
所述对所述二值图像进行局部基线检测,生成局部基线信息集合,具体包括:
对所述二值图像进行水平投影,统计各个Y纬度方向上前景色像素点个数之和,生成水平投影集合;
采用霍夫直线检测方法查找所述二值图像中的直线段,生成各个Y纬度方向上的直线段长度集合;
根据所述水平投影集合、所述水平投影集合的中位数、所述直线段长度集合以及所述直线段长度集合的中位数确定可能存在基线信息的基线位置,生成第一基线信息集合;
对所述二值图像进行连通域检测,生成各个Y纬度方向上的连通域集合;
根据所述连通域集合统计各个Y纬度方向上连通域最小外接矩形上边界的个数,生成外接矩形个数集合;
根据所述连通域集合计算平均文字高度;
根据所述外接矩形个数集合和所述平均文字高度过滤所述第一基线信息集合中的基线位置,生成第二基线信息集合;
根据所述平均文字高度对所述第二基线信息集合中的基线位置进行分组,确定文本行所在位置信息;
根据所述文本行所在位置信息确定各条局部基线,生成局部基线信息集合;
根据所述局部基线信息集合对所述二值图像中的粘连区域进行检测、切分,生成粘连区域切分后图像;
对所述粘连区域切分后图像进行连通域所属行的分配,生成文本行分配结果;
根据所述文本行分配结果对所述粘连区域切分后图像进行文本行的分割,生成行切分后的图像。
2.根据权利要求1所述的粘连文本行切分方法,其特征在于,所述根据所述局部基线信息集合对所述二值图像中的粘连区域进行检测、切分,生成粘连区域切分后图像,具体包括:
根据所述连通域集合和所述局部基线信息集合确定粘连区域;
对所述粘连区域进行中轴化处理,生成中轴化粘连区域;
根据所述局部基线信息集合和所述平均文字高度确定所述中轴化粘连区域中的粘连点;
采用道格拉斯-普克算法对所述粘连区域进行非平滑点检测,得到非平滑点的X纬度坐标和Y纬度坐标依次存入候选切割列表;
根据所述粘连点从所述候选切割列表中寻找到最佳切分点;
连接所述最佳切分点生成分割线;
采用所述分割线对所述粘连区域进行切分,生成粘连区域切分后图像。
3.根据权利要求2所述的粘连文本行切分方法,其特征在于,所述对所述粘连区域切分后图像进行连通域所属行的分配,生成文本行分配结果,具体包括:
遍历所述连通域集合中的所有连通域,将经过局部基线的连通域直接分配给所述局部基线所在的文本行;
根据所述连通域与所述局部基线信息集合中的第一条局部基线的位置关系分配第一个文本行的连通域;
根据所述连通域与所述局部基线信息集合中的最后一条局部基线的位置关系分配最后一个文本行的连通域;
根据所述连通域的重心坐标与其相邻局部基线之间的距离,将所述连通域分配至相邻文本行,生成文本行分配结果。
4.根据权利要求3所述的粘连文本行切分方法,其特征在于,所述根据所述文本行分配结果对所述粘连区域切分后图像进行文本行的分割,生成行切分后的图像,具体包括:
根据所述文本行分配结果生成文本行图像蒙版;
将所述文本行分配结果中每个文本行内的连通域与所述文本行图像蒙版进行与运算,生成文本行切割结果;
将所述文本行切割结果以图像的形式输出,生成行切分后的图像。
5.一种乌金体藏文古籍文档图像的粘连文本行切分系统,其特征在于,所述系统包括:
二值图像获取模块,用于获取乌金体藏文古籍文档版面处理后的二值图像;
局部基线检测模块,用于对所述二值图像进行局部基线检测,生成局部基线信息集合;
所述局部基线检测模块具体包括:
水平投影单元,用于对所述二值图像进行水平投影,统计各个Y纬度方向上前景色像素点个数之和,生成水平投影集合;
霍夫直线检测单元,用于采用霍夫直线检测方法查找所述二值图像中的直线段,生成各个Y纬度方向上的直线段长度集合;
第一基线信息集合确定单元,用于根据所述水平投影集合、所述水平投影集合的中位数、所述直线段长度集合以及所述直线段长度集合的中位数确定可能存在基线信息的基线位置,生成第一基线信息集合;
连通域检测单元,用于对所述二值图像进行连通域检测,生成各个Y纬度方向上的连通域集合;
外接矩形个数统计单元,用于根据所述连通域集合统计各个Y纬度方向上连通域最小外接矩形上边界的个数,生成外接矩形个数集合;
平均文字高度计算单元,用于根据所述连通域集合计算平均文字高度;
基线位置过滤单元,用于根据所述外接矩形个数集合和所述平均文字高度过滤所述第一基线信息集合中的基线位置,生成第二基线信息集合;
基线位置分组单元,用于根据所述平均文字高度对所述第二基线信息集合中的基线位置进行分组,确定文本行所在位置信息;
局部基线确定单元,用于根据所述文本行所在位置信息确定各条局部基线,生成局部基线信息集合;
粘连区域检测切分模块,用于根据所述局部基线信息集合对所述二值图像中的粘连区域进行检测、切分,生成粘连区域切分后图像;
连通域所属行分配模块,用于对所述粘连区域切分后图像进行连通域所属行的分配,生成文本行分配结果;
文本行分割模块,用于根据所述文本行分配结果对所述粘连区域切分后图像进行文本行的分割,生成行切分后的图像。
6.根据权利要求5所述的粘连文本行切分系统,其特征在于,所述粘连区域检测切分模块具体包括:
粘连区域确定单元,用于根据所述连通域集合和所述局部基线信息集合确定粘连区域;
中轴化处理单元,用于对所述粘连区域进行中轴化处理,生成中轴化粘连区域;
粘连点确定单元,用于根据所述局部基线信息集合和所述平均文字高度确定所述中轴化粘连区域中的粘连点;
非平滑点检测单元,用于采用道格拉斯-普克算法对所述粘连区域进行非平滑点检测,得到非平滑点的X纬度坐标和Y纬度坐标依次存入候选切割列表;
最佳切分点确定单元,用于根据所述粘连点从所述候选切割列表中寻找到最佳切分点;
分割线生成单元,用于连接所述最佳切分点生成分割线;
粘连区域切分单元,用于采用所述分割线对所述粘连区域进行切分,生成粘连区域切分后图像。
7.根据权利要求6所述的粘连文本行切分系统,其特征在于,所述连通域所属行分配模块具体包括:
第一连通域所属行分配单元,用于遍历所述连通域集合中的所有连通域,将经过局部基线的连通域直接分配给所述局部基线所在的文本行;
第二连通域所属行分配单元,用于根据所述连通域与所述局部基线信息集合中的第一条局部基线的位置关系分配第一个文本行的连通域;
第三连通域所属行分配单元,用于根据所述连通域与所述局部基线信息集合中的最后一条局部基线的位置关系分配最后一个文本行的连通域;
第四连通域所属行分配单元,用于根据所述连通域的重心坐标与其相邻局部基线之间的距离,将所述连通域分配至相邻文本行,生成文本行分配结果。
8.根据权利要求7所述的粘连文本行切分系统,其特征在于,所述文本行分割模块具体包括:
文本行图像蒙版生成单元,用于根据所述文本行分配结果生成文本行图像蒙版;
与运算单元,用于将所述文本行分配结果中每个文本行内的连通域与所述文本行图像蒙版进行与运算,生成文本行切割结果;
文本行切分结果输出单元,用于将所述文本行切割结果以图像的形式输出,生成行切分后的图像。
CN202010447300.XA 2020-05-25 2020-05-25 乌金体藏文古籍文档图像的粘连文本行切分方法及系统 Active CN111626302B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010447300.XA CN111626302B (zh) 2020-05-25 2020-05-25 乌金体藏文古籍文档图像的粘连文本行切分方法及系统
US17/167,684 US11488402B2 (en) 2020-05-25 2021-02-04 Method and system for segmenting touching text lines in image of uchen-script Tibetan historical document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010447300.XA CN111626302B (zh) 2020-05-25 2020-05-25 乌金体藏文古籍文档图像的粘连文本行切分方法及系统

Publications (2)

Publication Number Publication Date
CN111626302A CN111626302A (zh) 2020-09-04
CN111626302B true CN111626302B (zh) 2022-07-29

Family

ID=72259084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010447300.XA Active CN111626302B (zh) 2020-05-25 2020-05-25 乌金体藏文古籍文档图像的粘连文本行切分方法及系统

Country Status (2)

Country Link
US (1) US11488402B2 (zh)
CN (1) CN111626302B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561928B (zh) * 2020-12-10 2024-03-08 西藏大学 一种藏文古籍的版面分析方法及系统
CN112613512B (zh) * 2020-12-29 2022-08-12 西北民族大学 基于结构属性的乌金体藏文古籍字符切分方法及系统
CN115393861B (zh) * 2022-10-31 2023-01-31 蓝舰信息科技南京有限公司 一种手写体文本精准分割方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8830241B1 (en) * 2009-11-30 2014-09-09 Amazon Technologies, Inc. Image conversion of text-based images

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3422541B2 (ja) * 1992-12-17 2003-06-30 ゼロックス・コーポレーション キーワードのモデル化方法及び非キーワードhmmの提供方法
CN1332348C (zh) * 2005-09-23 2007-08-15 清华大学 印刷体阿拉伯字符集文本切分方法
US8571270B2 (en) * 2010-05-10 2013-10-29 Microsoft Corporation Segmentation of a word bitmap into individual characters or glyphs during an OCR process
US9224207B2 (en) * 2012-09-17 2015-12-29 Raytheon Bbn Technologies Corp. Segmentation co-clustering
US9367766B2 (en) * 2014-07-22 2016-06-14 Adobe Systems Incorporated Text line detection in images
CN106295631A (zh) * 2016-07-27 2017-01-04 新疆大学 一种图像维吾尔文单词识别方法及装置
CN107067005A (zh) 2017-04-10 2017-08-18 深圳爱拼信息科技有限公司 一种中英混合ocr字符切割的方法及装置
CN107944451B (zh) * 2017-11-27 2020-04-24 西北民族大学 一种藏文古籍文档的行切分方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8830241B1 (en) * 2009-11-30 2014-09-09 Amazon Technologies, Inc. Image conversion of text-based images

Also Published As

Publication number Publication date
US11488402B2 (en) 2022-11-01
US20210365708A1 (en) 2021-11-25
CN111626302A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN111626302B (zh) 乌金体藏文古籍文档图像的粘连文本行切分方法及系统
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
JP2951814B2 (ja) 画像抽出方式
US8306325B2 (en) Text character identification system and method thereof
JPH01292486A (ja) 文字認識装置及び方法
US7711189B2 (en) Layout analysis program, layout analysis apparatus and layout analysis method
LeBourgeois Robust multifont OCR system from gray level images
CN102663378B (zh) 连笔手写字符的识别方法
CN110659644B (zh) 书法单字的笔画自动提取方法
CN106875546A (zh) 一种增值税发票的识别方法
CN104112128A (zh) 应用于票据影像字符识别的数字图像处理系统及方法
KR19990072314A (ko) 컬러화상처리장치및패턴추출장치
JP2005523530A (ja) 取り込み画像データから文字列を識別して抜出するシステムおよび方法
CN109241973B (zh) 一种纹理背景下的字符全自动软分割方法
CN109034019B (zh) 一种基于行分割线的黄色双行车牌字符分割方法
CN116071763B (zh) 基于文字识别的教辅图书智能校编系统
CN107944451B (zh) 一种藏文古籍文档的行切分方法及系统
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN109409211B (zh) 汉字骨架笔段的处理方法、处理装置及存储介质
CN106909869A (zh) 一种矩阵式二维码的采样网格划分方法及装置
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
JP4275866B2 (ja) カラー画像から文字列パターンを抽出する装置および方法
Suwa Segmentation of connected handwritten numerals by graph representation
CN109325483B (zh) 内部短笔段的处理方法和装置
JP4492258B2 (ja) 文字・図形の認識方法および検査方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant