CN110516673B - 基于连通分量和回归式字切分的彝文古籍字符检测方法 - Google Patents

基于连通分量和回归式字切分的彝文古籍字符检测方法 Download PDF

Info

Publication number
CN110516673B
CN110516673B CN201910815873.0A CN201910815873A CN110516673B CN 110516673 B CN110516673 B CN 110516673B CN 201910815873 A CN201910815873 A CN 201910815873A CN 110516673 B CN110516673 B CN 110516673B
Authority
CN
China
Prior art keywords
image
nationality
segmentation
character
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910815873.0A
Other languages
English (en)
Other versions
CN110516673A (zh
Inventor
韩旭
陈善雄
林小渝
邱小刚
李然康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University
Original Assignee
Southwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University filed Critical Southwest University
Priority to CN201910815873.0A priority Critical patent/CN110516673B/zh
Publication of CN110516673A publication Critical patent/CN110516673A/zh
Application granted granted Critical
Publication of CN110516673B publication Critical patent/CN110516673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/293Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

本发明提供一种基于连通分量和回归式字切分的彝文古籍字符检测方法,所述方法包括如下步骤:S1、用非局部均值滤波算法和二值化算法对古籍扫描图像进行预处理,使图像中的像素值只有0和255两个值;S2、采用基于连通分量的方法对图像非文本区域和未去除的噪点进行过滤,得到文本区域;S3、采用基于连通分量和回归式字切分投影的方法对图像中的单个字符进行检测。本发明能够对古籍中文本和非文本区域进行了有效的分离,并在单字检测实验中取得了较高的准确率和召回率,能有效地解决古籍文献字符识别中的字符分割及检测问题。

Description

基于连通分量和回归式字切分的彝文古籍字符检测方法
技术领域
本发明主要涉及古籍彝文字符检测识别相关技术领域,具体是基于连通分量和回归式字切分的彝文古籍字符检测方法。
背景技术
在中国众多少数民族中,彝族是一个有着2000多年历史优秀民族,在长期的发展中形成了自己独特的文化,据统计,彝文的使用人数有100万以上,由于地域差异,各个地区的彝文也有着明显的差异,因此彝文字符数量众多,仅在滇川黔桂彝文字集中收录的彝文字符就多达八万余个。彝文作为一种重要的少数民族文字一直沿用至今,并在历史上留下了许多珍贵的典籍。彝文古籍正是记录彝族几千年发展的重要载体,卷帙浩繁的彝文古籍,在国内各大图书馆和研究、翻译机构都有大量收藏。在国外,英国、日本、法国和瑞士的一些机构也有不少彝文藏书。散存在民间的彝文经典,更是数以万计。这些彝文文献涉及宗教、历史、哲学、文学、语言文字、医药、天文、地理和农技等各个方面。目前彝文古籍大量散落民间,数量在十万卷以上。
长期以来,由于保护观念淡薄,彝文古籍大多数损坏严重,急需进行数字化保护与利用。因此,如何将彝文古籍中的古彝文字符进行定位和分割,从古籍中获取更多关于彝族历史和文化的信息,是古彝文数字化研究的重点。进行彝文数字化首先面临的问题就是将古籍扫描成为计算机可读取的文件格式,实现彝文的信息处理和分析。而作为彝文古籍的载体石刻、崖画、木牍和纸书由于年代久远,往往模糊不清,或者残缺不全,这给古彝文字符的检测带来了极大的挑战。
目前,对于复杂场景下的中英文文字符检测已经有了较多的研究,然而,这些研究大多采用基于深度学习的方法对字符进行检测和识别,这些方法并不完全适用于具有复杂噪声的彝文古籍。因为首先,中国很少有人能认识并书写彝文,字符的标注工作非常困难,其次,和手写体汉字的检测相比,从复杂噪声背景下的彝文古籍中对古彝文文本进行检测将面临图像模糊、污染严重、书写格式凌乱等诸多问题。因此,对于彝文古籍字符的检测,需要采用一种更高效的方法。近几年,也有很多关于少数民族语言文字的检测和识别的研究,但大多仅停留在研究规范的印刷体字符的检测与识别,这主要是由于手写体相较印刷体而言,书写风格较为随意,而且采样和标注工作耗时耗力,再加上一些古籍图片由于破损和严重的噪声,给采样工作带来了很大的困难。
发明内容
为解决目前技术的不足,本发明结合现有技术,从实际应用出发,提供一种基于连通分量和回归式字切分的彝文古籍字符检测方法,相比于传统的检测方法可以取得较高的准确率和召回率,能够提高古彝文识别的精准程度。
本发明的技术方案如下:
基于连通分量和回归式字切分的彝文古籍字符检测方法,所述方法包括如下步骤:
S1、用非局部均值滤波算法和二值化算法对古籍扫描图像进行预处理,使图像中的像素值只有0和255两个值;
S2、采用基于连通分量的方法对图像非文本区域和未去除的噪点进行过滤,得到文本区域;
S3、采用基于连通分量和回归式字切分投影的方法对图像中的单个字符进行检测。
进一步的,步骤S2具体包括如下步骤:
S21、去除图像中小的噪点;
S22、去除图像中的分割线、标点符号和图画装饰;
S23、将非文本区域连通域进行过滤。
进一步的,步骤S21中,将面积小于20像素的连通域标记为小的噪点;连通域面积的计算方式为该连通域最小外接矩内像素点的个数,具体为令x,y分别表示图像的横纵坐标,设函数f(x,y)表示在二值图像中的像素点是否为图像的前景像素:
Figure BDA0002186340670000031
然后,利用以下公式将像素点累加:
Figure BDA0002186340670000032
公式(2)中,
Figure BDA0002186340670000033
分别表示连通区域最小外接矩的宽度和高度。
进一步的,步骤S22中,基于定义的非文本区域实现分割线、标点符号和图画装饰进行去除,其中,将满足以下特征的连通区域定义为非文本区域:
Figure BDA0002186340670000034
Figure BDA0002186340670000035
公式(3)、(4)中,w,h分别表示二值图像的宽度和高度,
Figure BDA0002186340670000036
分别表示连通区域最小外接矩的宽度和高度。
进一步的,步骤S3具体包括如下步骤:
S31、采取形态学腐蚀操作对图像中的文本区域进行处理,减少字符笔画的粘连程度;
S32、采用基于连通分量的方法对文本区域进行检测,实现文本区域的初步筛选;
S33、采用基于回归式自切分的图像投影法进行二次切分实现粘粘字符的分割。
进一步的,步骤S31中,采用形态学腐蚀操作对图像中的文本区域进行处理时,采用1x5的矩形结构对图像进行卷积操作,将B对A的腐蚀记为AΘB,定义为:
Figure BDA0002186340670000041
式(5)AΘB表示集合B的平移是A的子集的元素。
进一步的,步骤S32中,首先将满足以下特征的连通区域定义为文本区域:
Figure BDA0002186340670000042
公式(6)中,w,h分别表示图像的宽度和高度,
Figure BDA0002186340670000043
分别表示连通区域最小外接矩的宽度和高度;
采用如下公式对文本区域进行筛选:
Figure BDA0002186340670000044
公式(7)中,Den表示矩形框内黑色像素所占密度,N代表矩形框内黑色像素的总个数,
Figure BDA0002186340670000045
分别代表连通域最小外接矩的高度和宽度。
进一步的,在进行连通区域标记时,对连通区域合并,将被包含的连通区域去除,具体方法为:设连通域1的参数为bottom1、top1、left1、right1,连通域2的参数为bottom2、top2、left2、right2,其中,top和bottom分别表示连通域最小外接矩在y轴方向上的最小值和最大值,left和right分别表示连通域最小外接矩在x轴方向上的最小值和最大值,连通域1包含连通域2根据下式(8)进行判定:
Figure BDA0002186340670000051
进一步的,步骤S33中,所述的投影法为在图像的某个方向上进行像素值的累加,具体的是,设函数f(x,y)表示二值图像中像素(x,y)是否为前景像素,f(x,y)表达式为:
Figure BDA0002186340670000052
然后,按照如下公式对像素点累加:
Figure BDA0002186340670000053
式中,px和py分别表示沿x轴和y轴方向前景像素的累加值。
进一步的,步骤S33中,设L(x,y)为某一连通区域图像的点阵,其中,x,y分别表示连通域最小外接矩内的横纵坐标,WM为文字最大宽度,其中w为整个图像的宽度,回归范围为d,设第j个字符的起始位置为jA,采用回归式自切分方法实现列切分的具体流程如下:
S311、在jA≤x≤jA+WM之间计算第一个
Figure BDA0002186340670000054
的点,设为jB,切出jA到jB之间的图像,其中
Figure BDA0002186340670000055
表示连通域最小外接矩的高度;
S312、若jB-jA<δ,则认为是干扰噪声,忽略不计,否则转S314,其中δ为定常数;
S313、在jA+WM-d≤x≤jA+WM范围内求
Figure BDA0002186340670000061
的最小值jB
S314、从jB做一条垂线作为文字的分割线,第j个字的宽度为jB-jA
S315、从jB开始计算
Figure BDA0002186340670000062
当值不为0且jA>jB时,jA即为第j+1个元素的左边界,然后重复执行以上的步骤。
本发明的有益效果:
本发明能够对古籍中文本和非文本区域进行了有效的分离,并在单字检测实验中取得了较高的准确率和召回率,能有效地解决古籍文献字符识别中的字符分割及检测问题。
附图说明
图1为本发明的总体流程图;
图2为本发明图像预处理前后对比图;
图3为本发明非文本过滤前后对比图一;
图4为本发明非文本过滤前后对比图二;
图5为本发明腐蚀效果图;
图6为本发明最大宽度回归式切分法示意图;
图7为本发明两矩形框重合时,m的计算方式示意图。
具体实施方式
结合附图和具体实施例,对本发明作进一步说明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所限定的范围。
如图1所示,本发明中,基于连通分量和回归式字切分的彝文古籍字符检测方法其实现步骤主要如下:
图像预处理:
由于彝文古籍大都历史悠久,受到各种环境的影响,存在泛黄、褶皱、污迹等情况,图像滤波可以在保留图像特征细节的情况下对目标图像的噪声进行抑制,为后续的二值化处理奠定基础。同时也是古籍文献重新焕发活力的重要措施,有利于古籍文献的保存、传播。
基于对大量彝文古籍图片进行去噪测试并分析,综合去噪能力与效率,本发明采用非局部均值滤波对原始图像进行处理。非局部均值滤波考虑到了图像的自相似性,它将相似像素定义为具有相同邻域模式的像素,利用像素周围固定大小的窗口内的信息表示该像素的特征,比利用单个像素本身的信息得到的相似性信息更加可靠。
为了进一步去除图像中的污迹,凸显文本区域的轮廓,需要对古籍图像进行二值化处理。图2为彝文图像处理前后对比图(其中a为处理前图像,b为处理后图像)。经图像二值化处理以后,图像中的像素值只有0和255两个值。
基于连通分量的非文本过滤:
经过预处理之后,图像中仍然有很多非文本区域(彝文古籍中的分割线、标点符号、图画装饰等),因此,要想进一步对彝文字符进行定位和分割,还需进一步针对这些非文本区域进行过滤。本发明用基于连通分量的方法对复杂噪声背景下的彝文古籍扫描图像中的非文本区域进行了有效的提取和消除,具体步骤如下(为了分析文本区域和非文本区域的连通分量特征,本发明从32张具有代表性的古籍图像中选择了672个单字符文本区域和258个非文本区域,对它们的连通分量特征进行分析,这些特征包括:连通区域的面积,连通区域最小外接矩形的高度,宽度和高宽比,连通区域内黑色像素的密度):
Step1、去除图像中细小的噪点,由于彝文古籍中字符均是软笔手写体,所以会在书写过程中会在字符的边缘带来一些细小的毛刺,因此,首先要对这些细小的噪点进行去除,经分析可知,大多数非文本区域的面积小于20,因此在本发明中将面积小于20像素的连通域标记为小的噪点。其中,连通域面积的计算方式即该连通域最小外接矩内像素点的个数,令x,y分别表示图像的横纵坐标,函数f(x,y)表示在二值图像中的像素点(x,y)是否为图像的前景像素:
Figure BDA0002186340670000081
若f(x,y)=0,那么则如公式(2)将像素点累加。
Figure BDA0002186340670000082
Step2、去除图像中的较大的分割线、标点符号和图画装饰,经分析可知,大部分文本区域最小外接矩的高度小于h/20且宽度小于w/20,同时,大多数非文本区域最小外接矩的长宽比小于0.1,因此本发明将满足以下特征的连通区域定义为非文本区域。
Figure BDA0002186340670000083
Figure BDA0002186340670000084
其中,w,h分别表示二值图像的宽度和高度,
Figure BDA0002186340670000085
分别表示连通区域最小外接矩的宽度和高度。
Step3、将之前标记的非文本区域连通域进行过滤。
采用本发明的上述非文本过滤方法,其输入为古籍二值图像,输出为非文本过滤后的结果。测试结果表明,用该方法可以去除大多数古籍图片中的噪声和非文本区域,如图3和图4所示(其中a为处理前图像,b为处理后图像),可以看到本发明采用的基于连通分量的方法对非文本区的分离具有较好的效果。
古彝文单字符定位检测:
经过前述的处理,能有效地去除古籍图像中的大部分噪声,实现了文本区域和非文本区域的分离。在此基础上,本发明进一步对古彝文单字符的定位检测进行了研究,由于彝文古籍的书写版面较为复杂和凌乱,仅在垂直方向具有相对整齐的排列,因此,仅用单一的文本检测方法无法达到较好的检测精度。本发明提出了一种基于连通分量和回归式字切分结合的图像投影结合的方法对古籍图像中的单字进行检测和定位,具体的实现步骤如下:
Step1、由于用基于连通分量的方法对字符进行检测时,会将书写结构为左右结构或上下结构的字符进行过切分,所以在检测之前,要采取形态学腐蚀操作对图像中的文本区域进行处理,使字符笔画进行较小程度的粘连。本发明中将B对A的腐蚀记为AΘB,定义为:
Figure BDA0002186340670000091
上述表达式的含义的是集合B的平移是A的子集的元素就是AΘB,腐蚀效果如图5所示(图中a为集合A,b为结构元素B,c为AΘB)。
由于一般处理的彝文古籍图片分辨率较低,所以本发明采用较小的形态学结构对图像进行卷积操作,本发明选取的是1x5的矩形结构。
Step2、用基于连通分量的方法对文本区域进行检测,经分析可知,图像中的文本区域具有以下特征:
Figure BDA0002186340670000101
其中,w,h分别表示图像的宽度和高度,
Figure BDA0002186340670000102
分别表示连通区域最小外接矩的宽度和高度。除此之外,还有些非文本区域的连通域和文本区域的基本特征相似,仅凭以上特征无法区分,但是非文本区域内黑色像素的密度要比文本区域低得多,由于绝大多数文本区域的像素密度大于0.3,因此可以根据公式(7)对文本区域进行筛选。
Figure BDA0002186340670000103
式中,Den表示矩形框内黑色像素所占密度,N代表矩形框内黑色像素的总个数,
Figure BDA0002186340670000104
分别代表连通域最小外接矩的高度和宽度,在实验筛选过程中,密度大于0.3的区域被认定为文本区域。
经多次测试表明,在进行连通域标记的过程中有些大的矩形框会包含小的矩形框,因此要对连通域进行合并,将小的矩形框去除。设连通域1的参数为bottom1、top1、left1、right1,连通域2的参数为bottom2、top2、left2、right2,其中,top和bottom分别表示连通域最小外接矩在y轴方向上的最小值和最大值,left和right分别表示连通域最小外接矩在x轴方向上的最小值和最大值,那么连通域1包含连通域2可以根据式(8)进行判定:
Figure BDA0002186340670000105
通过以上规则,对文本区域进行初步的筛选,但是由于之前的腐蚀操作会导致一些书写距离较近或原本就粘连在一起的字符被认定为单字符,所以接下来要对这些连通域进行二次切分。
Step3、用基于回归式字切分的图像投影法进行二次切分,投影法就是在图像的某个方向上进行像素值的累加,例如,含有字符的图像在水平方向和垂直方向上的投影分别为px和py,设函数f(x,y)表示二值图像中像素(x,y)是否为前景像素,如下:
Figure BDA0002186340670000111
如果f(x,y)=0,那么就按照公式(10)对将像素点累加.
Figure BDA0002186340670000112
px和py分别表示沿x轴和y轴方向前景像素的累加值,本发明提出的方法是对之前未充分切分的连通域进行二次切分,对于是否需要对某一连通区域进行二次切分而言,本发明规定字符的最大字宽和最大字高分别为w/20和h/20,其中w和h分别表示整个图像的宽度和高度,若图像中存在某一连通域的宽或高度大于该阈值,则需对该连通域进行二次切分。进而只需通过判断连通域的宽高大小即可以确定是对该连通域进行水平投影还是垂直投影,若连通域高度大于宽度,则对该连通域内进行水平投影,反之,则对该连通域内进行垂直投影。就垂直投影举例,若垂直方向上前景像素值累加为0时,即可作为一个字符的结束或开始,求得该列所在直线的水平坐标值,即可将该直线作为一个字符的分割线,同理可进行水平投影。
由于古籍图像中的字符多为手写体,因此难免会有一些相邻字符存在笔画粘连的情况,在这种情况下,用传统的投影法不能够完全将粘连字符进行切分,本发明采用了回归式字切分的方法对粘连字符进行分割,下面将以列切分为例,介绍最大宽度回归式字切分算法流程。
设L(x,y)为某一连通区域图像的点阵,其中,x,y分别表示连通域最小外接矩内的横纵坐标,WM为文字最大宽度,在本实验中,WM的值取w/20,其中w表示整个图像的宽度,回归范围用d表示(在本发明的具体实验中,d的值取w/60),设第j个字符的起始位置为jA,如图6所示。
回归式字切分方法的流程描述如下:
Step3.1、在jA≤x≤jA+WM之间计算第一个
Figure BDA0002186340670000121
的点(
Figure BDA0002186340670000122
表示连通域最小外接矩的高度).设为jB,切出jA到jB之间的图像。
Step3.2、若jB-jA<δ(δ为定常数,在本发明的具体实验中,δ取最小字宽w/50),则认为是干扰噪声,忽略不计,否则转step3.4。
Step3.3、在jA+WM-d≤x≤jA+WM范围内求
Figure BDA0002186340670000123
的最小值jB
Step3.4、从jB做一条垂线作为文字的分割线,第j个字的宽度为jB-jA
Step3.5、从jB开始计算
Figure BDA0002186340670000124
当值不为0(设为jA)且jA>jB时,jA即为第j+1个元素的左边界,然后重复执行以上的步骤。
实验结果和分析
在本发明中,针对所提出的检测方法进行了实验分析,本发明从大量的扫描图片中,选取了最具古彝文书写风格的47张背景复杂、噪声较大、最具代表性的图片,采用ICDAR2005年鲁棒阅读测评定义的准确率和召回率来评测本发明区域检测的性能。本发明实验环境为:Windows操作系统(Windows10企业版),Intel(R)Core(TM)i7-7700处理器,3.60GHZ主频,8GB内存,NVIDA GeForce GT710显卡,Pycharm1.4编辑器,PythonOpencv3.4.1处理模块。
准确率定义为准确检索到的文本框的数量与所有检测到文本框数量的比值,召回率定义为准确检索到的文本框的数量与需要被准确检索的文本框数量的比值。假定准确检索到的文本框的数量为m,所有检测到文本框的数量为ma,需要被准确检索的数量为mb,那么准确率pre和召回率rec可用以下公式表示:
Figure BDA0002186340670000131
然而,现实中检测出的文本框和标准的文本框并不一定完全重合,ICDAR2005鲁棒测评小组用一个匹配值来评估定位的准确性,匹配值m按照如下方式定义:
如图7所示,根据ICDAR2005规定的标准,R1表示标准的文本框,R2表示参赛者所得到的文本框,则匹配值m的表达式如公式(12)所示,其中aR表示矩形框R的面积。
Figure BDA0002186340670000132
实验证明,本发明提出的方法能够较好的将文本区域和复杂背景进行分离,并在单字符检测方面取得了较高的准确率和召回率,通过检测结果可以发现,本发明提出的方法综合了基于连通分量的方法和基于回归式字切分投影方法的优点,能对字符区域重叠和笔画粘连的问题进行有效的解决,可将污染严重、噪声较大的古籍图片中的大多数字符进行较准确的检测。
本发明的测试结果如表1所示,分别将本发明的方法同单纯采用基于连通分量的方法,单纯采用传统的投影法,和基于连通分量结合传统的投影法的方法做了对比实验。
表1本发明方法和其他传统检测方法在总体性能上的对比
Figure BDA0002186340670000133
Figure BDA0002186340670000141
通过对比四种不同检测方法的检测结果数据,可以发现,基于传统投影法的检测时间较少,但是准确率和召回率较低,主要是由于彝文古籍书写版面杂乱,有较多字符区域重叠的现象,而基于连通域的检测方法能够较好的处理字符区域重叠的问题,但是对于粘连字符,还是不能取得较好的检测效果,在对两种传统的方法做了结合以后,准确率和召回率得到了一定的提升,而用本发明提出的方法,可以较好地处理字符区域重叠和字符粘连的情况,准确率和召回率取得最好的效果。

Claims (7)

1.基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,所述方法包括如下步骤:
S1、用非局部均值滤波算法和二值化算法对古籍扫描图像进行预处理,使图像中的像素值只有0和255两个值;
S2、采用基于连通分量的方法对图像非文本区域和未去除的噪点进行过滤,得到文本区域;
S3、采用基于连通分量和回归式字切分投影的方法对图像中的单个字符进行检测;
步骤S3具体包括如下步骤:
S31、采取形态学腐蚀操作对图像中的文本区域进行处理,减少字符笔画的粘连程度;
S32、采用基于连通分量的方法对文本区域进行检测,实现文本区域的初步筛选;
S33、采用基于回归式自切分的图像投影法进行二次切分实现粘贴字符的分割;
步骤S32中,首先将满足以下特征的连通区域定义为文本区域:
Figure FDA0003969247810000011
公式(6)中,w,h分别表示图像的宽度和高度,
Figure FDA0003969247810000012
分别表示连通区域最小外接矩的宽度和高度;采用如下公式对文本区域进行筛选:
Figure FDA0003969247810000013
公式(7)中,Den表示矩形框内黑色像素所占密度,N代表矩形框内黑色像素的总个数,
Figure FDA0003969247810000021
分别代表连通域最小外接矩的高度和宽度;
步骤S33中,设L(X,Y)为某一连通区域图像的点阵,其中,X,Y分别表示连通域最小外接矩内的横纵坐标,WM为文字最大宽度,其中w为整个图像的宽度,回归范围为d,设第j个字符的起始位置为jA,采用回归式自切分方法实现列切分的具体流程如下:
S311、在jA≤x≤jA+WM之间计算第一个
Figure FDA0003969247810000022
的点,设为jB,切出jA到jB之间的图像,其中
Figure FDA0003969247810000023
表示连通域最小外接矩的高度;
S312、若jB-jA<δ,则认为是干扰噪声,忽略不计,否则转S314,其中δ为定常数;
S313、在jA+WM-d≤x≤jA+WM 范围内求
Figure FDA0003969247810000024
的最小值jB
S314、从jB做一条垂线作为文字的分割线,第j个字的宽度为jB-jA
S315、从jB开始计算
Figure FDA0003969247810000025
当值不为0且jA>jB时,jA即为第j+1个元素的左边界,然后重复执行以上的步骤。
2.根据权利要求1所述的基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,步骤S2具体包括如下步骤:
S21、去除图像中小的噪点;
S22、去除图像中的分割线、标点符号和图画装饰;
S23、将非文本区域连通域进行过滤。
3.根据权利要求2所述的基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,步骤S21中,将面积小于20像素的连通域标记为小的噪点;连通域面积的计算方式为该连通域最小外接矩内像素点的个数,具体为令x,y分别表示图像的横纵坐标,设函数f(x,y)表示在二值图像中的像素点是否为图像的前景像素:
Figure FDA0003969247810000031
然后,利用以下公式将像素点累加:
Figure FDA0003969247810000032
公式(2)中,
Figure FDA0003969247810000033
分别表示连通区域最小外接矩的宽度和高度。
4.根据权利要求2所述的基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,步骤S22中,基于定义的非文本区域实现分割线、标点符号和图画装饰进行去除,其中,将满足以下特征的连通区域定义为非文本区域:
Figure FDA0003969247810000034
Figure FDA0003969247810000035
公式(3)、(4)中,w,h分别表示二值图像的宽度和高度,
Figure FDA0003969247810000036
分别表示连通区域最小外接矩的宽度和高度。
5.根据权利要求1所述的基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,步骤S31中,采用形态学腐蚀操作对图像中的文本区域进行处理时,采用1x5的矩形结构对图像进行卷积操作,将B对A的腐蚀记为AΘB,定义为:
Figure FDA0003969247810000037
式(5)AΘB表示集合B的平移是A的子集的元素。
6.根据权利要求5所述的基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,在进行连通区域标记时,对连通区域合并,将被包含的连通区域去除,具体方法为:设连通域1的参数为bottom1、top1、left1、right1,连通域2的参数为bottom2、top2、left2、right2,其中,top和bottom分别表示连通域最小外接矩在y轴方向上的最小值和最大值,left和right分别表示连通域最小外接矩在x轴方向上的最小值和最大值,连通域1包含连通域2根据下式(8)进行判定:
Figure FDA0003969247810000041
7.根据权利要求1所述的基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,步骤S33中,所述的投影法为在图像的某个方向上进行像素值的累加,具体的是,设函数f(i,j)表示二值图像中像素(i,j)是否为前景像素,f(i,j)表达式为:
Figure FDA0003969247810000042
然后,按照如下公式对像素点累加:
Figure FDA0003969247810000043
式中,pi和pj分别表示沿i轴和j轴方向前景像素的累加值。
CN201910815873.0A 2019-08-30 2019-08-30 基于连通分量和回归式字切分的彝文古籍字符检测方法 Active CN110516673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910815873.0A CN110516673B (zh) 2019-08-30 2019-08-30 基于连通分量和回归式字切分的彝文古籍字符检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910815873.0A CN110516673B (zh) 2019-08-30 2019-08-30 基于连通分量和回归式字切分的彝文古籍字符检测方法

Publications (2)

Publication Number Publication Date
CN110516673A CN110516673A (zh) 2019-11-29
CN110516673B true CN110516673B (zh) 2023-02-03

Family

ID=68629778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910815873.0A Active CN110516673B (zh) 2019-08-30 2019-08-30 基于连通分量和回归式字切分的彝文古籍字符检测方法

Country Status (1)

Country Link
CN (1) CN110516673B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832497B (zh) * 2020-07-17 2022-06-28 西南大学 一种基于几何特征的文本检测后处理方法
CN112561928B (zh) * 2020-12-10 2024-03-08 西藏大学 一种藏文古籍的版面分析方法及系统
CN113158808B (zh) * 2021-03-24 2023-04-07 华南理工大学 中文古籍字符识别、组段与版面重建方法、介质和设备
CN113610068B (zh) * 2021-10-11 2022-07-08 江西风向标教育科技有限公司 基于试卷图像的试题拆解方法、系统、存储介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563380A (zh) * 2017-09-08 2018-01-09 上海理工大学 一种基于mser和swt相结合的车辆车牌检测识别方法
CN108132918A (zh) * 2016-11-30 2018-06-08 北京京东尚科信息技术有限公司 一种输出报表的方法及系统
CN108537146A (zh) * 2018-03-22 2018-09-14 五邑大学 一种印刷体与手写体混合文本行提取系统
CN109284012A (zh) * 2018-09-12 2019-01-29 西南大学 一种古彝文语言输入控制系统及方法、信息数据处理终端
CN109409378A (zh) * 2018-10-17 2019-03-01 北京信息科技大学 一种纳西东巴经书的数字化处理方法
CN109657673A (zh) * 2017-10-11 2019-04-19 阿里巴巴集团控股有限公司 图像识别方法和终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6517666B2 (ja) * 2015-11-02 2019-05-22 株式会社東芝 物品管理装置、その方法、及びそのプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132918A (zh) * 2016-11-30 2018-06-08 北京京东尚科信息技术有限公司 一种输出报表的方法及系统
CN107563380A (zh) * 2017-09-08 2018-01-09 上海理工大学 一种基于mser和swt相结合的车辆车牌检测识别方法
CN109657673A (zh) * 2017-10-11 2019-04-19 阿里巴巴集团控股有限公司 图像识别方法和终端
CN108537146A (zh) * 2018-03-22 2018-09-14 五邑大学 一种印刷体与手写体混合文本行提取系统
CN109284012A (zh) * 2018-09-12 2019-01-29 西南大学 一种古彝文语言输入控制系统及方法、信息数据处理终端
CN109409378A (zh) * 2018-10-17 2019-03-01 北京信息科技大学 一种纳西东巴经书的数字化处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
车牌照定位及字符分割的研究;谷立冬;《中国优秀博硕士学位论文全文数据库(硕士)》;20180715(第07期);第I138-1328页 *

Also Published As

Publication number Publication date
CN110516673A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN110516673B (zh) 基于连通分量和回归式字切分的彝文古籍字符检测方法
CN102332096B (zh) 一种视频字幕文本提取和识别的方法
Kasar et al. Learning to detect tables in scanned document images using line information
Namboodiri et al. Document structure and layout analysis
Lee et al. Binary segmentation algorithm for English cursive handwriting recognition
CN105760901B (zh) 一种多语种倾斜文档图像的自动语言判别方法
CN113158808A (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
Yadav et al. Text extraction in document images: highlight on using corner points
Ramappa et al. Skew detection, correction and segmentation of handwritten Kannada document
Ayesh et al. A robust line segmentation algorithm for Arabic printed text with diacritics
Mechi et al. A two-step framework for text line segmentation in historical Arabic and Latin document images
Kaundilya et al. Automated text extraction from images using OCR system
Fateh et al. Persian printed text line detection based on font size
Shafait et al. A simple and effective approach for border noise removal from document images
Giri Text information extraction and analysis from images using digital image processing techniques
Karanje et al. Survey on text detection, segmentation and recognition from a natural scene images
Khan et al. A holistic approach to Urdu language word recognition using deep neural networks
Lue et al. A novel character segmentation method for text images captured by cameras
Kumar et al. Online handwritten character recognition for Telugu language using support vector machines
Kaur et al. Page segmentation in OCR system-a review
Nguyen et al. Enhanced character segmentation for format-free Japanese text recognition
Jia et al. Grayscale-projection based optimal character segmentation for camera-captured faint text recognition
Höhn Detecting arbitrarily oriented text labels in early maps
Basu et al. Segmentation of offline handwritten Bengali script
Sun et al. Camera based degraded text recognition using grayscale feature

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant