CN107730511B

CN107730511B - 一种基于基线估计的藏文历史文献文本行切分方法

Info

Publication number: CN107730511B
Application number: CN201710849135.9A
Authority: CN
Inventors: 段立娟; 李颜兴
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2020-10-27
Anticipated expiration: 2037-09-20
Also published as: CN107730511A

Abstract

本发明涉及一种对藏文历史文献文本行切分的方法。通过提取藏文历史文献的左侧部分图像，去除藏文元音音节点和某些突出的笔画，获取藏文文本行基线的起始位置信息以及文本行数；根据基线的起始位置，自左向右建立基线，在基线建立的过程中需要根据周围点的像素值动态调整基线；利用估计好的基线，采用连通区域分析法，从两基线之间确定粘连区域的位置并进行切分，最终分离出文本行。本发明提出的一种基于基线估计的藏文历史文献文本行切分方法更加适用于藏文历史文献文本行的切分，比传统的基于投影切分的技术切分精确度高。比起只使用基于投影切分的方式，本发明方法的切分出来的文本行正确率更高。

Description

一种基于基线估计的藏文历史文献文本行切分方法

技术领域

本发明涉及图像处理方法，特别是涉及藏文文本图像文本行分割方法。

背景技术

文字是人类发展的重要载体，是信息传递的主要媒介之一，也是人们记录历史的重要方式之一。藏文是我国第一个具有国际标准的民族文字，也是世界上最古老的文字之一。藏文历史文献保存了藏族文化思想的精髓，是全人类文化思想的宝贵财富。为了能够保护这一古老而又珍贵的历史文化遗产，并方便人们可以按照文字内容进行查阅，将藏文古籍图像转换为文本的方式存储是保护藏文历史文献的一个重要的方法。

一般来说，古籍图像转化成为计算机可读的文本需要经历4个阶段：文字区域的检测，文本行切分，字符切分和文字识别。本发明是针对藏文历史文献转化为文本时文本行切分阶段提出的。比起传统的基于投影的切分方法，使用动态追踪基线的方式更能有效的规避藏文历史文献文档中出现的行与行之间出现的粘连以及文本行的弯曲的现象。

传统的方式一般是通过统计纵向前景像素点的值来确定文本行的起始以及结束的位置。该方法在处理藏文历史文献中有2点不足：(1)只能估计文档中文本行的大体位置，无法处理藏文历史文献当中大量存在的弯曲的文本行。(2)对于藏文历史文献中的粘连部分，传统基于投影的分割方法并不能准确的定位和切分。

发明内容

针对上述传统的处理藏文历史文献方法的不足，本发明提出了一种基于基线估计的藏文历史文献文本行切分方法。该方法在处理藏文历史文献的过程中，使用了动态追踪的方式来拟合文献图像的文本基线的走向。根据基线和连通区域分析的方式定位粘连区域在图像中的位置，并使用基于距离变换(Distance Transform)的方法来确定行切分位置。

实现本发明的方法的主要思路是：提取藏文历史文献的左侧部分图像，去除藏文元音音节点和某些突出的笔画，获取藏文文本行基线的起始位置信息以及文本行数；根据基线的起始位置，自左向右建立基线，在基线建立的过程中需要根据周围点的像素值动态调整基线；利用估计好的基线，采用连通区域分析法，从两基线之间确定粘连区域的位置并进行切分。

一种基于基线估计的藏文历史文献文本行切分方法，包括如下步骤：

(1)提取左侧部分图像

从输入的藏文历史文献图像中提取左侧1/4部分图像，用以分析并提取文本行的基线位置及行数，并将该图像命名为图像A。

(2)去除藏文元音音节点和某些突出的笔画

通过滑动窗口，将原始图像切分成N*M大小的图像块，手动选取其中80个顶部包含基线的图像块作为匹配模板，并使用主成分分析(PCA)方法提取特征。使用同样大小的滑动窗口对图像A进行模板匹配(Template Matching)，若窗口中的图像和匹配模板中的某个图像相似度大于一定阈值，则保留窗口中的图像。否则，将其替换成为背景色。将经过模板匹配的图像命名为图像B。

(3)获取藏文文本行基线的起始位置信息以及文本行数

计算图像B中水平投影，并得到其中的连续的包含前景像素点的个数不为0的区域。分别计算每个区域的前景点个数的最大值M_i。将图像B中各连续区域内小于前景点个数M_i/2的行内的像素替换为背景色得到图像C。对图像C进行闭运算(Closing)得到图像D。同样，获取图像D中的包含前景像素点的连续不为0的投影区域，投影区域的个数即为文本换行的个数，每个投影区域的上边界即为建立基线的起始位置。

(4)建立基线

从基线起始位置开始到图像右侧边界结束，自左向右每隔N个像素点，选取一个像素点作为追踪点，并根据追踪点的附近的像素点的像素值决定是否向上，向下调整追踪点的位置。最后，基线由每行的追踪点自左向右连接得出。

(5)确定粘连区域的位置

首先，基于步骤(4)中建立的基线，将原始图像切分成文本行条。然后根据一定的步长将文本行条切分成图像块，保证每个图像块位于上下两条基线之间。分析图像块中的前景连通单元：如果图像块中存在高度接近于该图像块高度的连通单元则说明该块中含有粘连区域。否则认为和下基线相连的连通单元为下一行，认为其余的连通单元为本行。

(6)切分粘连区域

将步骤(5)中得到的粘连图像块进行距离变换(Distance transform)，然后对其进行水平投影。根据投影找到其极小值对应的行，按照该行将粘连区域切分成两部分：上方部分为本行内容，下方部分(包含极小值行)为下一行内容。

1、一种基于基线估计的藏文历史文献文本行切分方法，其特征在于：

步骤1，提取输入图像的左侧部分图像；

从输入的藏文历史文献图像中提取左侧1/4部分图像，用以分析并提取文本行的基线位置及行数，并将该图像命名为图像A；

步骤2，去除藏文元音音节点和某些突出的笔画；

通过大小N*M滑动窗口将输入图像切分图像块，其中宽度N为图像中藏文字丁的宽度，长M为宽度N的2倍；从图像块中选取至少80个顶部含有基线的图像块作为模板，使用主成分分析法获取其13维特征；以同样大小的滑动窗口对图像A进行模板匹配，保留图像A中和任意模板相似度大于0.9的图像块，否则将其设置为背景色；得到图像B；

步骤3，获取藏文文本行基线的起始位置信息以及文本行数；

二值化原始图像，令前景点像素值为1，背景点像素值为0，水平投影图像B，并获得其中连续的投影值不为0的区域，分别计算每个区域的最大投影值M_i；将各区域与中投影值小于M_i/2的行内像素替换成背景色，得到图像C；对图像C进行闭运算得到图像D，获取图像D的水平投影中的连续不为0的投影区域，投影区域的个数即为文本换行的个数，每个投影区域的上边界即为建立基线的起始位置；

步骤4，建立基线；

从基线起始位置开始到图像末尾结束，自左向右每隔5个像素点，选取一个像素点作为追踪点；选择上一个追踪点右方水平第5个像素点及该点上下各两个点为下一个追踪点的候选点，分别将水平点命名为P,上方两个点U1、U2，下方两个点D1、D2；根据以下规则从上至下依次判断计算出下一个追踪点：

1).若P、U1、U2、D1、D2的像素值相同，选取P为下一个追踪点；

2).否则，若P为背景点，且D1或D2为前景点，选取D1为下一个追踪点；

3).否则，若P为前景点，且U1或U2为背景点，选取U1为下一个追踪点；

4).其他，选取P为下一个追踪点；

基线由追踪点自左向右相连得出；

步骤5，确定粘连区域的位置；

基于步骤4中建立的基线，将原始图像切分成多个文本行条；然后，每隔90～120像素，将文本行条切分成图像块，保证每个图像块位于上下两条基线之间；分析图像块中的连通区域的高度，若图像块中存在大于其高度的9/10的连通区域，则认为该图像块为粘连图像块，需要进一步处理；否则将和下基线相连的连通区域标记为下一行，其余的标记为本行；

步骤6，切分粘连区域；

将步骤5中得到的粘连块进行距离变换处理，并对处理后的图像进行水平投影；从投影中找到最小值对应的行作为切分行所在的位置，将切分行下方的前景区域标记为下一行，其余区域标记为本行。

与传统的基于投影切分的技术相比，本发明具有以下明显的优势和有益效果：

(1)本发明提出的一种基于基线估计的藏文历史文献文本行切分方法更加适用于藏文历史文献文本行的切分，比传统的基于投影切分的技术切分精确度高。

(2)比起只使用基于投影切分的方式，本发明方法的切分出来的文本行，在切分精确度提高时分离出正确的文本行的个数更多。实验表明，当切分精确度为0.90时，运用本方法分离出的文本行正确率为97.40％，比起传统的基于投影切分的方法提高了29.57％

附图说明

图1为本发明所提出的基于基线估计的藏文历史文献文本行切分方法的流程图；

图2为本发明选取匹配模板的示意图

图3为本发明获取基线位置和行数的步骤及中间结果样例图

图4为本发明基线估计的示意图

图5为本发明输入的原始图像样例图

图6为本发明输出的切分后的效果图

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

本发明所涉及方法的流程图如图1所示，包括以下步骤：

步骤1，提取输入图像的左侧部分图像。

步骤2，去除藏文元音音节点和某些突出的笔画。

通过大小N*M滑动窗口将输入图像切分图像块，其中宽度N为图像中藏文字丁的宽度，长M为宽度N的2倍。如图2所示，从图像块中选取80个顶部含有基线的图像块作为模板，使用主成分分析(PCA)法获取其13维特征。以同样大小的滑动窗口对图像A进行模板匹配，保留图像A相似度大于0.9的图像块，否则将其设置为背景色。得到图像B。

步骤3，获取藏文文本行基线的起始位置信息以及文本行数。

二值化原始图像，令前景点像素值为1，背景点像素值为0，水平投影图像B，并获得其中连续的投影值不为0的区域，分别计算每个区域的最大投影值M_i。将各区域与中投影值小于M_i/2的行内像素替换成背景色，得到图像C。对图像C进行闭运算(Closing)得到图像D，获取图像D的水平投影中的连续不为0的投影区域，投影区域的个数即为文本换行的个数，每个投影区域的上边界即为建立基线的起始位置。步骤3及步骤2处理过程示意图如图3所示。

步骤4，建立基线。

从基线起始位置开始到图像末尾结束，自左向右每隔5个像素点，选取一个像素点作为追踪点。下一个追踪点的位置由上一个追踪点得出：选择上一个追踪点右方水平第5个像素点及该点上下各两个点为下一个追踪点的候选点，分别将水平点命名为P,上方两个点U1、U2，下方两个点D1、D2。根据以下规则计算出下一个追踪点：

1.若P、U1、U2、D1、D2的像素值相同，选取P为下一个追踪点，如图4(a)。

2.否则，若P为背景点，且D1或D2为前景点，选取D1为下一个追踪点，图4(b)。

3.否则，若P为前景点，且U1或U2为背景点，选取U1为下一个追踪点，图4(c)。

4.其他，选取P为下一个追踪点。

基线由追踪点自左向右相连得出。

步骤5，确定粘连区域的位置。

基于步骤4中建立的基线，将原始图像切分成多个文本行条。然后，每隔100像素，将文本行条切分成图像块，保证每个图像块位于上下两条基线之间。分析图像块中的连通区域的高度，若图像块中存在大于其高度的9/10的连通区域，则认为该图像块为粘连图像块，需要进一步处理。否则将和下基线相连的连通区域标记为下一行，其余的标记为本行。

步骤6，切分粘连区域。

将步骤5中得到的粘连块进行距离变换处理，并对处理后的图像进行水平投影。从投影中找到最小值对应的行作为切分行所在的位置，将切分行下方的前景区域标记为下一行，其余区域标记为本行。

为了验证本发明的有效性，以及与传统的基于投影切分的技术相比切分效果的优劣，进行了一组对比实验，用以下的方式评估切分效果：令I为图像中的所有的前景像素点，G_j为真值包含的前景像素点，R_i为实验结果所包含的前景像素点。使用公式(1)定义两个文本行的匹配度MatchScore，当匹配度大于0.90时认为正确分离出一文本行。分离的正确率定义为正确分离的行数除以应分离出的行数。若匹配度提升，则分离的正确率会下降。

本发明方法和基于投影的切分方法的正确率比较结果如表1所示。

表1本发明方法与基于投影的切分方法的比较结果

由表1可以看出，运用本发明的方法在对藏文历史文献分割过程中，当匹配度为0.90时，本方法分类正确率为97.40％，比基于投影的切分方法提高了29.57％；当匹配度为0.95时，运用本发明方法分类正确率为71.82％，比基于投影切分方法提高了54.29％。

Claims

1.一种基于基线估计的藏文历史文献文本行切分方法，其特征在于：

步骤1，提取输入图像的左侧部分图像；

从输入的藏文历史文献图像中提取左侧1/4部分图像，用以分析并提取文本行的基线位置及行数，并将提取左侧1/4部分图像命名为图像A；

步骤2，去除藏文元音音节点和突出的笔画；

步骤3，获取藏文文本行基线的起始位置信息以及文本行数；

二值化原始图像，令前景点像素值为1，背景点像素值为0，水平投影图像B，并获得其中连续的投影值不为0的区域，分别计算每个区域的最大投影值Mi；将各区域与中投影值小于Mi/2的行内像素替换成背景色，得到图像C；对图像C进行闭运算得到图像D，获取图像D的水平投影中的连续不为0的投影区域，投影区域的个数即为文本换行的个数，每个投影区域的上边界即为建立基线的起始位置；

步骤4，建立基线；

从基线起始位置开始到图像末尾结束，自左向右每隔5个像素点，选取一个像素点作为追踪点；选择上一个追踪点右方水平第5个像素点及上一个追踪点右方水平第5个像素点的上下各两个点为下一个追踪点的候选点，分别将水平点命名为P,上方两个点U1、U2，下方两个点D1、D2；根据以下规则从上至下依次判断计算出下一个追踪点：

1）. 若P、U1、U2、D1、D2的像素值相同，选取P为下一个追踪点；

2）. 否则，若P为背景点，且D1或D2为前景点，选取D1为下一个追踪点；

3）. 否则，若P为前景点，且U1或U2为背景点，选取U1为下一个追踪点；

4）. 其他，选取P为下一个追踪点；

基线由追踪点自左向右相连得出；

步骤5，确定粘连区域的位置；

基于步骤4中建立的基线，将原始图像切分成多个文本行条；然后，每隔90~120像素，将文本行条切分成图像块，保证每个图像块位于上下两条基线之间；分析图像块中的连通区域的高度，若图像块中存在大于其高度的9/10的连通区域，则认为该图像块为粘连图像块，需要进一步处理；否则将和下基线相连的连通区域标记为下一行，其余的标记为本行；

步骤6，切分粘连区域；