CN110516673B

CN110516673B - 基于连通分量和回归式字切分的彝文古籍字符检测方法

Info

Publication number: CN110516673B
Application number: CN201910815873.0A
Authority: CN
Inventors: 韩旭; 陈善雄; 林小渝; 邱小刚; 李然康
Original assignee: Southwest University
Current assignee: Southwest University
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2023-02-03
Anticipated expiration: 2039-08-30
Also published as: CN110516673A

Abstract

本发明提供一种基于连通分量和回归式字切分的彝文古籍字符检测方法，所述方法包括如下步骤：S1、用非局部均值滤波算法和二值化算法对古籍扫描图像进行预处理，使图像中的像素值只有0和255两个值；S2、采用基于连通分量的方法对图像非文本区域和未去除的噪点进行过滤，得到文本区域；S3、采用基于连通分量和回归式字切分投影的方法对图像中的单个字符进行检测。本发明能够对古籍中文本和非文本区域进行了有效的分离，并在单字检测实验中取得了较高的准确率和召回率，能有效地解决古籍文献字符识别中的字符分割及检测问题。

Description

基于连通分量和回归式字切分的彝文古籍字符检测方法

技术领域

本发明主要涉及古籍彝文字符检测识别相关技术领域，具体是基于连通分量和回归式字切分的彝文古籍字符检测方法。

背景技术

在中国众多少数民族中，彝族是一个有着2000多年历史优秀民族，在长期的发展中形成了自己独特的文化，据统计，彝文的使用人数有100万以上，由于地域差异，各个地区的彝文也有着明显的差异，因此彝文字符数量众多，仅在滇川黔桂彝文字集中收录的彝文字符就多达八万余个。彝文作为一种重要的少数民族文字一直沿用至今，并在历史上留下了许多珍贵的典籍。彝文古籍正是记录彝族几千年发展的重要载体，卷帙浩繁的彝文古籍，在国内各大图书馆和研究、翻译机构都有大量收藏。在国外，英国、日本、法国和瑞士的一些机构也有不少彝文藏书。散存在民间的彝文经典，更是数以万计。这些彝文文献涉及宗教、历史、哲学、文学、语言文字、医药、天文、地理和农技等各个方面。目前彝文古籍大量散落民间，数量在十万卷以上。

长期以来，由于保护观念淡薄，彝文古籍大多数损坏严重，急需进行数字化保护与利用。因此，如何将彝文古籍中的古彝文字符进行定位和分割，从古籍中获取更多关于彝族历史和文化的信息，是古彝文数字化研究的重点。进行彝文数字化首先面临的问题就是将古籍扫描成为计算机可读取的文件格式，实现彝文的信息处理和分析。而作为彝文古籍的载体石刻、崖画、木牍和纸书由于年代久远，往往模糊不清，或者残缺不全，这给古彝文字符的检测带来了极大的挑战。

目前，对于复杂场景下的中英文文字符检测已经有了较多的研究，然而，这些研究大多采用基于深度学习的方法对字符进行检测和识别，这些方法并不完全适用于具有复杂噪声的彝文古籍。因为首先，中国很少有人能认识并书写彝文，字符的标注工作非常困难，其次，和手写体汉字的检测相比，从复杂噪声背景下的彝文古籍中对古彝文文本进行检测将面临图像模糊、污染严重、书写格式凌乱等诸多问题。因此，对于彝文古籍字符的检测，需要采用一种更高效的方法。近几年，也有很多关于少数民族语言文字的检测和识别的研究，但大多仅停留在研究规范的印刷体字符的检测与识别，这主要是由于手写体相较印刷体而言，书写风格较为随意，而且采样和标注工作耗时耗力，再加上一些古籍图片由于破损和严重的噪声，给采样工作带来了很大的困难。

发明内容

为解决目前技术的不足，本发明结合现有技术，从实际应用出发，提供一种基于连通分量和回归式字切分的彝文古籍字符检测方法，相比于传统的检测方法可以取得较高的准确率和召回率，能够提高古彝文识别的精准程度。

本发明的技术方案如下：

基于连通分量和回归式字切分的彝文古籍字符检测方法，所述方法包括如下步骤：

S1、用非局部均值滤波算法和二值化算法对古籍扫描图像进行预处理，使图像中的像素值只有0和255两个值；

S2、采用基于连通分量的方法对图像非文本区域和未去除的噪点进行过滤，得到文本区域；

S3、采用基于连通分量和回归式字切分投影的方法对图像中的单个字符进行检测。

进一步的，步骤S2具体包括如下步骤：

S21、去除图像中小的噪点；

S22、去除图像中的分割线、标点符号和图画装饰；

S23、将非文本区域连通域进行过滤。

进一步的，步骤S21中，将面积小于20像素的连通域标记为小的噪点；连通域面积的计算方式为该连通域最小外接矩内像素点的个数，具体为令x,y分别表示图像的横纵坐标，设函数f(x,y)表示在二值图像中的像素点是否为图像的前景像素：

然后，利用以下公式将像素点累加：

公式(2)中，

分别表示连通区域最小外接矩的宽度和高度。

进一步的，步骤S22中，基于定义的非文本区域实现分割线、标点符号和图画装饰进行去除，其中，将满足以下特征的连通区域定义为非文本区域：

公式(3)、(4)中，w，h分别表示二值图像的宽度和高度，

分别表示连通区域最小外接矩的宽度和高度。

进一步的，步骤S3具体包括如下步骤：

S31、采取形态学腐蚀操作对图像中的文本区域进行处理，减少字符笔画的粘连程度；

S32、采用基于连通分量的方法对文本区域进行检测，实现文本区域的初步筛选；

S33、采用基于回归式自切分的图像投影法进行二次切分实现粘粘字符的分割。

进一步的，步骤S31中，采用形态学腐蚀操作对图像中的文本区域进行处理时，采用1x5的矩形结构对图像进行卷积操作，将B对A的腐蚀记为AΘB，定义为：

式(5)AΘB表示集合B的平移是A的子集的元素。

进一步的，步骤S32中，首先将满足以下特征的连通区域定义为文本区域：

公式(6)中，w，h分别表示图像的宽度和高度，

分别表示连通区域最小外接矩的宽度和高度；

采用如下公式对文本区域进行筛选：

公式(7)中，Den表示矩形框内黑色像素所占密度，N代表矩形框内黑色像素的总个数，

分别代表连通域最小外接矩的高度和宽度。

进一步的，在进行连通区域标记时，对连通区域合并，将被包含的连通区域去除，具体方法为：设连通域1的参数为bottom1、top1、left1、right1，连通域2的参数为bottom2、top2、left2、right2，其中，top和bottom分别表示连通域最小外接矩在y轴方向上的最小值和最大值，left和right分别表示连通域最小外接矩在x轴方向上的最小值和最大值，连通域1包含连通域2根据下式(8)进行判定：

进一步的，步骤S33中，所述的投影法为在图像的某个方向上进行像素值的累加，具体的是，设函数f(x,y)表示二值图像中像素(x,y)是否为前景像素，f(x,y)表达式为：

然后，按照如下公式对像素点累加：

式中，p_x和p_y分别表示沿x轴和y轴方向前景像素的累加值。

进一步的，步骤S33中，设L(x,y)为某一连通区域图像的点阵，其中，x,y分别表示连通域最小外接矩内的横纵坐标，W_M为文字最大宽度，其中w为整个图像的宽度，回归范围为d，设第j个字符的起始位置为j_A，采用回归式自切分方法实现列切分的具体流程如下：

S311、在j_A≤x≤j_A+W_M之间计算第一个

的点，设为j_B，切出j_A到j_B之间的图像，其中

表示连通域最小外接矩的高度；

S312、若j_B-j_A<δ，则认为是干扰噪声，忽略不计，否则转S314，其中δ为定常数；

S313、在j_A+W_M-d≤x≤j_A+W_M范围内求

的最小值j_B；

S314、从j_B做一条垂线作为文字的分割线，第j个字的宽度为j_B-j_A；

S315、从j_B开始计算

当值不为0且j_A>j_B时，j_A即为第j+1个元素的左边界，然后重复执行以上的步骤。

本发明的有益效果：

本发明能够对古籍中文本和非文本区域进行了有效的分离，并在单字检测实验中取得了较高的准确率和召回率，能有效地解决古籍文献字符识别中的字符分割及检测问题。

附图说明

图1为本发明的总体流程图；

图2为本发明图像预处理前后对比图；

图3为本发明非文本过滤前后对比图一；

图4为本发明非文本过滤前后对比图二；

图5为本发明腐蚀效果图；

图6为本发明最大宽度回归式切分法示意图；

图7为本发明两矩形框重合时，m的计算方式示意图。

具体实施方式

结合附图和具体实施例，对本发明作进一步说明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所限定的范围。

如图1所示，本发明中，基于连通分量和回归式字切分的彝文古籍字符检测方法其实现步骤主要如下：

图像预处理：

由于彝文古籍大都历史悠久，受到各种环境的影响，存在泛黄、褶皱、污迹等情况，图像滤波可以在保留图像特征细节的情况下对目标图像的噪声进行抑制，为后续的二值化处理奠定基础。同时也是古籍文献重新焕发活力的重要措施，有利于古籍文献的保存、传播。

基于对大量彝文古籍图片进行去噪测试并分析，综合去噪能力与效率，本发明采用非局部均值滤波对原始图像进行处理。非局部均值滤波考虑到了图像的自相似性，它将相似像素定义为具有相同邻域模式的像素，利用像素周围固定大小的窗口内的信息表示该像素的特征，比利用单个像素本身的信息得到的相似性信息更加可靠。

为了进一步去除图像中的污迹，凸显文本区域的轮廓，需要对古籍图像进行二值化处理。图2为彝文图像处理前后对比图(其中a为处理前图像，b为处理后图像)。经图像二值化处理以后，图像中的像素值只有0和255两个值。

基于连通分量的非文本过滤：

经过预处理之后，图像中仍然有很多非文本区域(彝文古籍中的分割线、标点符号、图画装饰等)，因此，要想进一步对彝文字符进行定位和分割，还需进一步针对这些非文本区域进行过滤。本发明用基于连通分量的方法对复杂噪声背景下的彝文古籍扫描图像中的非文本区域进行了有效的提取和消除，具体步骤如下(为了分析文本区域和非文本区域的连通分量特征，本发明从32张具有代表性的古籍图像中选择了672个单字符文本区域和258个非文本区域，对它们的连通分量特征进行分析，这些特征包括：连通区域的面积，连通区域最小外接矩形的高度，宽度和高宽比，连通区域内黑色像素的密度)：

Step1、去除图像中细小的噪点，由于彝文古籍中字符均是软笔手写体，所以会在书写过程中会在字符的边缘带来一些细小的毛刺，因此，首先要对这些细小的噪点进行去除，经分析可知，大多数非文本区域的面积小于20，因此在本发明中将面积小于20像素的连通域标记为小的噪点。其中，连通域面积的计算方式即该连通域最小外接矩内像素点的个数，令x,y分别表示图像的横纵坐标，函数f(x,y)表示在二值图像中的像素点(x,y)是否为图像的前景像素：

若f(x，y)＝0，那么则如公式(2)将像素点累加。

Step2、去除图像中的较大的分割线、标点符号和图画装饰，经分析可知，大部分文本区域最小外接矩的高度小于h/20且宽度小于w/20，同时，大多数非文本区域最小外接矩的长宽比小于0.1，因此本发明将满足以下特征的连通区域定义为非文本区域。

其中，w，h分别表示二值图像的宽度和高度，

分别表示连通区域最小外接矩的宽度和高度。

Step3、将之前标记的非文本区域连通域进行过滤。

采用本发明的上述非文本过滤方法，其输入为古籍二值图像，输出为非文本过滤后的结果。测试结果表明，用该方法可以去除大多数古籍图片中的噪声和非文本区域，如图3和图4所示(其中a为处理前图像，b为处理后图像)，可以看到本发明采用的基于连通分量的方法对非文本区的分离具有较好的效果。

古彝文单字符定位检测：

经过前述的处理，能有效地去除古籍图像中的大部分噪声，实现了文本区域和非文本区域的分离。在此基础上，本发明进一步对古彝文单字符的定位检测进行了研究，由于彝文古籍的书写版面较为复杂和凌乱，仅在垂直方向具有相对整齐的排列，因此，仅用单一的文本检测方法无法达到较好的检测精度。本发明提出了一种基于连通分量和回归式字切分结合的图像投影结合的方法对古籍图像中的单字进行检测和定位，具体的实现步骤如下:

Step1、由于用基于连通分量的方法对字符进行检测时，会将书写结构为左右结构或上下结构的字符进行过切分，所以在检测之前，要采取形态学腐蚀操作对图像中的文本区域进行处理，使字符笔画进行较小程度的粘连。本发明中将B对A的腐蚀记为AΘB，定义为:

上述表达式的含义的是集合B的平移是A的子集的元素就是AΘB，腐蚀效果如图5所示(图中a为集合A，b为结构元素B，c为AΘB)。

由于一般处理的彝文古籍图片分辨率较低，所以本发明采用较小的形态学结构对图像进行卷积操作，本发明选取的是1x5的矩形结构。

Step2、用基于连通分量的方法对文本区域进行检测，经分析可知，图像中的文本区域具有以下特征:

其中，w，h分别表示图像的宽度和高度，

分别表示连通区域最小外接矩的宽度和高度。除此之外，还有些非文本区域的连通域和文本区域的基本特征相似，仅凭以上特征无法区分，但是非文本区域内黑色像素的密度要比文本区域低得多，由于绝大多数文本区域的像素密度大于0.3，因此可以根据公式(7)对文本区域进行筛选。

式中，Den表示矩形框内黑色像素所占密度，N代表矩形框内黑色像素的总个数，

分别代表连通域最小外接矩的高度和宽度，在实验筛选过程中，密度大于0.3的区域被认定为文本区域。

经多次测试表明，在进行连通域标记的过程中有些大的矩形框会包含小的矩形框，因此要对连通域进行合并，将小的矩形框去除。设连通域1的参数为bottom1、top1、left1、right1，连通域2的参数为bottom2、top2、left2、right2，其中，top和bottom分别表示连通域最小外接矩在y轴方向上的最小值和最大值，left和right分别表示连通域最小外接矩在x轴方向上的最小值和最大值，那么连通域1包含连通域2可以根据式(8)进行判定:

通过以上规则，对文本区域进行初步的筛选，但是由于之前的腐蚀操作会导致一些书写距离较近或原本就粘连在一起的字符被认定为单字符，所以接下来要对这些连通域进行二次切分。

Step3、用基于回归式字切分的图像投影法进行二次切分，投影法就是在图像的某个方向上进行像素值的累加，例如，含有字符的图像在水平方向和垂直方向上的投影分别为p_x和p_y，设函数f(x，y)表示二值图像中像素(x，y)是否为前景像素，如下:

如果f(x，y)＝0，那么就按照公式(10)对将像素点累加.

p_x和p_y分别表示沿x轴和y轴方向前景像素的累加值，本发明提出的方法是对之前未充分切分的连通域进行二次切分，对于是否需要对某一连通区域进行二次切分而言，本发明规定字符的最大字宽和最大字高分别为w/20和h/20，其中w和h分别表示整个图像的宽度和高度，若图像中存在某一连通域的宽或高度大于该阈值，则需对该连通域进行二次切分。进而只需通过判断连通域的宽高大小即可以确定是对该连通域进行水平投影还是垂直投影，若连通域高度大于宽度，则对该连通域内进行水平投影，反之，则对该连通域内进行垂直投影。就垂直投影举例，若垂直方向上前景像素值累加为0时，即可作为一个字符的结束或开始，求得该列所在直线的水平坐标值，即可将该直线作为一个字符的分割线，同理可进行水平投影。

由于古籍图像中的字符多为手写体，因此难免会有一些相邻字符存在笔画粘连的情况，在这种情况下，用传统的投影法不能够完全将粘连字符进行切分，本发明采用了回归式字切分的方法对粘连字符进行分割，下面将以列切分为例，介绍最大宽度回归式字切分算法流程。

设L(x，y)为某一连通区域图像的点阵，其中，x,y分别表示连通域最小外接矩内的横纵坐标，W_M为文字最大宽度，在本实验中，W_M的值取w/20，其中w表示整个图像的宽度，回归范围用d表示(在本发明的具体实验中，d的值取w/60)，设第j个字符的起始位置为j_A，如图6所示。

回归式字切分方法的流程描述如下:

Step3.1、在j_A≤x≤j_A+W_M之间计算第一个

的点(

表示连通域最小外接矩的高度).设为j_B，切出j_A到j_B之间的图像。

Step3.2、若j_B-j_A<δ(δ为定常数，在本发明的具体实验中，δ取最小字宽w/50)，则认为是干扰噪声，忽略不计，否则转step3.4。

Step3.3、在j_A+W_M-d≤x≤j_A+W_M范围内求

的最小值j_B。

Step3.4、从j_B做一条垂线作为文字的分割线，第j个字的宽度为j_B-j_A。

Step3.5、从j_B开始计算

当值不为0(设为j_A)且j_A>j_B时，j_A即为第j+1个元素的左边界，然后重复执行以上的步骤。

实验结果和分析

在本发明中，针对所提出的检测方法进行了实验分析，本发明从大量的扫描图片中，选取了最具古彝文书写风格的47张背景复杂、噪声较大、最具代表性的图片，采用ICDAR2005年鲁棒阅读测评定义的准确率和召回率来评测本发明区域检测的性能。本发明实验环境为:Windows操作系统(Windows10企业版)，Intel(R)Core(TM)i7-7700处理器，3.60GHZ主频，8GB内存，NVIDA GeForce GT710显卡，Pycharm1.4编辑器，PythonOpencv3.4.1处理模块。

准确率定义为准确检索到的文本框的数量与所有检测到文本框数量的比值，召回率定义为准确检索到的文本框的数量与需要被准确检索的文本框数量的比值。假定准确检索到的文本框的数量为m，所有检测到文本框的数量为m_a，需要被准确检索的数量为m_b，那么准确率pre和召回率rec可用以下公式表示：

然而，现实中检测出的文本框和标准的文本框并不一定完全重合，ICDAR2005鲁棒测评小组用一个匹配值来评估定位的准确性，匹配值m按照如下方式定义：

如图7所示，根据ICDAR2005规定的标准，R₁表示标准的文本框，R₂表示参赛者所得到的文本框，则匹配值m的表达式如公式(12)所示，其中a_R表示矩形框R的面积。

实验证明，本发明提出的方法能够较好的将文本区域和复杂背景进行分离，并在单字符检测方面取得了较高的准确率和召回率，通过检测结果可以发现，本发明提出的方法综合了基于连通分量的方法和基于回归式字切分投影方法的优点，能对字符区域重叠和笔画粘连的问题进行有效的解决，可将污染严重、噪声较大的古籍图片中的大多数字符进行较准确的检测。

本发明的测试结果如表1所示，分别将本发明的方法同单纯采用基于连通分量的方法，单纯采用传统的投影法，和基于连通分量结合传统的投影法的方法做了对比实验。

表1本发明方法和其他传统检测方法在总体性能上的对比

通过对比四种不同检测方法的检测结果数据，可以发现，基于传统投影法的检测时间较少，但是准确率和召回率较低，主要是由于彝文古籍书写版面杂乱，有较多字符区域重叠的现象，而基于连通域的检测方法能够较好的处理字符区域重叠的问题，但是对于粘连字符，还是不能取得较好的检测效果，在对两种传统的方法做了结合以后，准确率和召回率得到了一定的提升，而用本发明提出的方法，可以较好地处理字符区域重叠和字符粘连的情况，准确率和召回率取得最好的效果。

Claims

1.基于连通分量和回归式字切分的彝文古籍字符检测方法，其特征在于，所述方法包括如下步骤：

S3、采用基于连通分量和回归式字切分投影的方法对图像中的单个字符进行检测；

步骤S3具体包括如下步骤：

S33、采用基于回归式自切分的图像投影法进行二次切分实现粘贴字符的分割；

步骤S32中，首先将满足以下特征的连通区域定义为文本区域：

公式(6)中，w，h分别表示图像的宽度和高度，

分别表示连通区域最小外接矩的宽度和高度；采用如下公式对文本区域进行筛选：

分别代表连通域最小外接矩的高度和宽度；

步骤S33中，设L(X,Y)为某一连通区域图像的点阵，其中，X,Y分别表示连通域最小外接矩内的横纵坐标，W_M为文字最大宽度，其中w为整个图像的宽度，回归范围为d，设第j个字符的起始位置为j_A，采用回归式自切分方法实现列切分的具体流程如下：

S311、在j_A≤x≤j_A+W_M之间计算第一个

的点，设为j_B，切出j_A到j_B之间的图像，其中

表示连通域最小外接矩的高度；

S312、若j_B-j_A＜δ，则认为是干扰噪声，忽略不计，否则转S314，其中δ为定常数；

S313、在j_A+W_M-d≤x≤j_A+W_M范围内求

的最小值j_B；

S315、从j_B开始计算

2.根据权利要求1所述的基于连通分量和回归式字切分的彝文古籍字符检测方法，其特征在于，步骤S2具体包括如下步骤：

S21、去除图像中小的噪点；

S22、去除图像中的分割线、标点符号和图画装饰；

S23、将非文本区域连通域进行过滤。

3.根据权利要求2所述的基于连通分量和回归式字切分的彝文古籍字符检测方法，其特征在于，步骤S21中，将面积小于20像素的连通域标记为小的噪点；连通域面积的计算方式为该连通域最小外接矩内像素点的个数，具体为令x,y分别表示图像的横纵坐标，设函数f(x,y)表示在二值图像中的像素点是否为图像的前景像素：

然后，利用以下公式将像素点累加：

公式(2)中，

分别表示连通区域最小外接矩的宽度和高度。

4.根据权利要求2所述的基于连通分量和回归式字切分的彝文古籍字符检测方法，其特征在于，步骤S22中，基于定义的非文本区域实现分割线、标点符号和图画装饰进行去除，其中，将满足以下特征的连通区域定义为非文本区域：

公式(3)、(4)中，w，h分别表示二值图像的宽度和高度，

分别表示连通区域最小外接矩的宽度和高度。

5.根据权利要求1所述的基于连通分量和回归式字切分的彝文古籍字符检测方法，其特征在于，步骤S31中，采用形态学腐蚀操作对图像中的文本区域进行处理时，采用1x5的矩形结构对图像进行卷积操作，将B对A的腐蚀记为AΘB，定义为:

式(5)AΘB表示集合B的平移是A的子集的元素。

6.根据权利要求5所述的基于连通分量和回归式字切分的彝文古籍字符检测方法，其特征在于，在进行连通区域标记时，对连通区域合并，将被包含的连通区域去除，具体方法为：设连通域1的参数为bottom1、top1、left1、right1，连通域2的参数为bottom2、top2、left2、right2，其中，top和bottom分别表示连通域最小外接矩在y轴方向上的最小值和最大值，left和right分别表示连通域最小外接矩在x轴方向上的最小值和最大值，连通域1包含连通域2根据下式(8)进行判定：

7.根据权利要求1所述的基于连通分量和回归式字切分的彝文古籍字符检测方法，其特征在于，步骤S33中，所述的投影法为在图像的某个方向上进行像素值的累加，具体的是，设函数f(i，j)表示二值图像中像素(i，j)是否为前景像素，f(i，j)表达式为：

然后，按照如下公式对像素点累加：

式中，p_i和p_j分别表示沿i轴和j轴方向前景像素的累加值。