CN107862310B

CN107862310B - 一种基于块投影的藏文历史文献文本区域提取方法

Info

Publication number: CN107862310B
Application number: CN201710836675.3A
Authority: CN
Inventors: 段立娟; 张西群
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-09-17
Filing date: 2017-09-17
Publication date: 2021-10-26
Anticipated expiration: 2037-09-17
Also published as: CN107862310A

Abstract

本发明涉及一种基于块投影的藏文历史文献文本区域提取方法。将采集的藏文历史文献图像预处理；将图像平分为N*N的图像块，利用连通区域的分类信息和角点密度信息对图像块进行过滤；通过分析过滤后的图像块的投影可以定位到文本区域的近似边界位置；通过文本区域的近似边界位置搜索文本区域的边缘；通过文本区域边缘矫正策略矫正文本区域边缘，得到较完整、规则的文本区域。本发明利用块投影，可以准确的定位出文本区域的位置、增强不同文本区域之间的间隔；本发明实现了藏文历史文献的文本区域提取，方法简单、高效、易于实现。实验表明，在较大的文本区域和较小的文本区域的像素精度阈值分别设为95％和90％的情况下，准确率为75.50％，召回率为98.11％，F值为85.33％。

Description

一种基于块投影的藏文历史文献文本区域提取方法

技术领域

本发明涉及文档分析研究中的文本提取方法，特别是涉及藏文历史文献的文本区域提取方法。

背景技术

近年来，随着人们对传统历史文化的保护和传承越来越重视，研究人员对历史文献数字化的兴趣也越来越高涨。

藏族是一个拥有丰富传统文化的民族，是中华灿烂文明不可或缺的重要组成部分。藏文历史文献是藏族传统文化宝库中一颗璀璨的明珠，其作为承载藏族古老文明的载体，受到了历史学家、语言学家、佛学家、文献学家的广泛关注。一直以来，中央政府非常重视藏文历史文献及文物的保护及发掘，先后多次进行了藏族文物历史文献的收集和保护工作；但是，藏文历史文献的研究和发展现状仍然不容乐观。现在对藏文历史文献的保护主要停留在存放保护阶段，大部分的藏文历史文献被保存在博物馆、庙宇或研究院的库房中，只有部分根据需要，以人工输入、扫描、拍照等电子化手段进行保存，以供研究。这种方式存在耗费大量人力物力、传输流通不便、不能对藏文历史文献内容充分挖掘和利用等问题。历史文献的研究与保护也存在着矛盾，在研究藏文历史文献的过程中，无法避免对历史文献的触摸以及翻动，这些正常的行为对有着几百年甚至上千年历史的文献来说，可能是致命的。而采用数字化的方法对藏文历史文献图像进行自动的版面分析和文本区域提取，将文献内容转化为数字化的文本存储，可以大大提高对藏文历史文献的利用效率；可以大批量的远距离在线浏览和传输，实现资源的共享；能够在妥善保存原件的基础上，实现对藏文历史文献的充分研究和传承。因此，采用数字化技术对现有的藏文历史文献中的文本部分进行自动识别并转化为数字形式存储，对藏族历史文化的研究、保护和传承具有非常重要的意义。

文本提取是历史文献数字化过程中重要的基础步骤。文本提取在文献分析和识别领域也是一个长期存在的问题，在过去的几十年中，国内外的研究者针对印刷或手写的历史文献提出了许多不同的文本提取方法，文本提取方法多依赖于所处理文献的版面特点，通常针对不同的文献版面布局使用特定的算法。此外，现有的文本提取方法主要用来处理一些主流语言(如：中文，英文，法语等)的历史文献，很少有针对少数民族语言历史文献特点的文本提取方法提出。由于藏文文字的特点，藏文历史文献中相邻行之间以及文字和边框之间通常会有粘连的情况发生；由于历史悠久藏文历史文献版面结构也较为复杂，文献中的边框、线段通常会弯曲、倾斜、断裂；所以和其他历史文献相比对藏文历史文献进行文本区域提取是一项复杂的任务。

发明内容

针对藏文文字和藏文历史文献版面的特点，本发明提出一种基于块投影的藏文历史文献文本区域提取方法。该方法利用连通区域信息和角点信息，先将平分的图像块进行过滤；然后通过分析过滤后的图像块的投影，定位出文本区域的近似位置；再通过搜索策略得到文本区域的边缘；最后，矫正文本区域的边缘部分来消除粘连带来的影响，从而得到了较完整、规则的文本区域。

实现本发明方法的主要思路是：将采集的藏文历史文献图像预处理；将图像平分为N*N的图像块，利用连通区域的分类信息和角点密度信息对图像块进行过滤；通过分析过滤后的图像块的投影可以定位到文本区域的近似边界位置；通过文本区域的近似边界位置搜索文本区域的边缘；通过文本区域边缘矫正策略矫正文本区域边缘，得到较完整、规则的文本区域。

一种基于块投影的藏文历史文献文本区域提取方法，包括如下步骤：

(1)采集数据

通过扫描设备或拍照设备对藏文历史文献进行扫描或拍照，获得藏文历史文献的图像。

(2)数据预处理

步骤2.1，光照均衡；

将采集到的藏文历史文献的图像进行Gamma矫正，消除在获取图片的过程中产生的光照不均衡的影响；

步骤2.2，倾斜矫正；

将步骤2.1得到的藏文历史文献图像进行灰度化处理；然后再利用基于Hough变换的倾斜矫正方法将图像进行倾斜矫正；

步骤2.3，二值化；

利用Otsu算法，将步骤2.2得到的图像进行二值化，得到藏文历史文献的二值化图像；

(3)块投影

对二图像中的连通区域进行分类和角点检测，然后利用连通区域的分类信息和角点信息对均分为N*N的图像块进行过滤，计算过滤后图像块的垂直和水平投影。

(4)文本区域边缘提取

通过分析过滤后图像块投影可以定位文本区域的近似边界位置，根据边界位置搜索文本区域的边缘像素点，并存储。

(5)文本区域边缘矫正

利用文本区域边缘矫正策略，将文本区域的边缘进行矫正，消除粘连、边缘断裂等造成的边界不规则，从而提取出比较完整、规则的文本区域。

(6)方法性能评价

利用文本提取领域常用的正确率、召回率和F值，从像素级来评价该方法的性能。

与现有技术相比，本发明具有以下明显的优势和有益效果：

(1)本发明利用连通区域信息和角点信息结合进行过滤图像块，不但可以准确的定位出文本区域的位置、增强不同文本区域之间的间隔，而且在这个过程中连通区域信息和角点信息可以相互利用来消除对方错误信息对结果的影响。

(2)本发明利用块投影的方法，对藏文历史文献的文本区域进行粗定位，结合文本区域边缘提取和矫正策略，提取出较为完整、规则的文本区域。

(3)本发明将重新组合的图像处理方法和不同的策略结合，实现了藏文历史文献的文本区域提取，方法简单、高效、易于实现。实验表明，运用本发明方法进行藏文历史文献的文本提取，在较大的文本区域和较小的文本区域的像素精度阈值分别设为95％和90％的情况下，准确率为75.50％，召回率为98.11％，F值为85.33％。

附图说明

图1为本发明所涉及方法的框架图；

图2为本发明所涉及的藏文历史文献的样例图像；

图3为本发明所涉及的光照均衡后的文献图像；

图4为本发明所涉及的二值化后的藏文历史文献图像；

图5为本发明所涉及的连通区域分类后的结果；

图6为本发明所涉及的角点检测的结果；

图7为本发明所涉及的图像块过滤的结果；

图8为本发明所涉及的图像块的水平投影；

图9为本发明所涉及的图像块的垂直投影；

图10为本发明所涉及的文本区域边缘提取结果；

图11为本发明所涉及的文本区域边缘矫正后的最终文本区域提取结果；

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

本发明所涉及方法的框架图如图1所示，包括以下步骤：

步骤1，采集数据。

将本发明所述方法应用到由青海民族大学提供的藏文历史文献《班禅大师作品全集》上，数据集共360张。藏文历史文献数据的样例如图2所示。

步骤2，图像预处理。

步骤2.1，图像光照均衡。

将采集到的藏文历史文献图像表示为OImg(原图大小不统一，大部分在3000*500左右)；将OImg进行Gamma矫正来均衡图像光照，用γ表示进行Gamma矫正时所采用的Gamma参数，图3为光照均衡后的文献图像，γ取值为0.4。

步骤2.2，倾斜矫正。

将步骤2.1得到的图像先进行灰度化，然后利用基于Hough变换的倾斜矫正算法对图像进行倾斜矫正。

步骤2.3，二值化。

利用Otsu算法将步骤2.2得到的图像进行二值化，图4为二值化后的文献图像。

步骤3，块投影。

步骤3.1，连通区域分类。

利用八邻域种子填充算法将二值化后图像中的连通区域检测出来，然后利用面积阈值和连通区域的长宽比或宽长比阈值对连通区域分为三类(文本，边框，线段)。分类规则如下：

设图像面积为S；面积阈值为a；长宽比或宽长比的阈值为r；

规则一：如果连通区域的面积大于a*S，此连通区域被分类为边框；

规则二：如果连通区域的长宽比或宽长比小于r，此连通区域被分类为线段；

规则三：如果连通区域不满足以上两个规则，则此连通区域被分类为文本；

每个连通区域逐条匹配上述规则，匹配成功某条规则以后就结束，图5为本发明所涉及的连通区域分类后的结果，a取值为0.25，r的取值为0.05；灰度值最高的部分为文本，灰度值最低的部分为线段，灰度值介于前两者中间的部分为边框。

步骤3.2，角点检测。

将二值化图像均分为N*N的图像块，利用Harris算法检测二值化图像中的角点，并记录每个图像块中角点的个数。图6为角点检测的结果，N的取值为25，对比检测结果和原图可知，文本部分的角点密度较大，边框部分的角点密度较稀疏。

步骤3.3，图像块过滤。

利用连通区域的分类信息和角点密度信息过滤图像块。过滤规则如下：

设所有图像块中的最大的角点个数为MN，角点过滤阈值为bf；

规则一：如果图像块中的角点个数小于bf*MN，将图像块从保存列表中删除；

规则二：如果图像块不满足规则一，且图像块中包含大于等于两个非文本类的连通区域，或者图像块是孤立的，或者图像块在图像的边缘且只包含非文本类连通区域；将图像块从保存列表中删除；

规则三：如果图像块不满足规则一、二，且图像块中包含文本类和非文本类连通区域，则调整图像块，只保存包含文本类的部分；

所有图像块逐条匹配以上规则，进行图像块的过滤，图7为本发明所涉及的图像块过滤的结果，bf取值为0.25。

步骤3.4，图像块投影。

利用过滤后的图像块，计算图像块的水平和垂直投影；图8和图9分别为图像块的水平投影和垂直投影。

步骤4，文本区域边缘提取。

过滤后的图像块不但可以定位出近似的文本区域的位置，而且可以突出不同文本区域之间的间隔。通过分析块投影，可以得到文本区域边缘的近似位置。分析策略如下：

策略一：搜索图像块水平投影，找到水平投影两端的第一个投影值从零到非零变化的点，分别表示为hb，he；把hb，he作为当前文档图像文本区域的近似水平起始位置和水平结束位置；

策略二：搜索图像块垂直投影，找到垂直投影的一对投影值从零到非零和从非零到零的变化点，分别表示为vb，ve；把vb，ve作为当前文档图像的一个文本区域的近似垂直起始位置和垂直结束位置。利用文本区域的近似水平、垂直起始和结束位置，由内向外搜索文本区域的四个边的所有从文本类或背景像素变化为边框像素的第一个像素点，记录下来这些点，作为该文本区域的近似边缘。如果搜索过程中，没有搜索到像素点，则认为此处为断裂部分，其边缘像素点的纵或横坐标用其相邻的点的纵坐标或横坐标填充。该文本区域的近似边缘搜索完毕后，则从ve开始继续搜索图像块的垂直投影，寻找下一个文本区域，直到搜索完图像块垂直投影。

通过策略一和策略二对块投影的分析，文本区域的边缘被提取了出来，图10为提取出的文本区域的边缘，文本区域的边缘用低灰度值标示。由于粘连、断裂边框的存在以及搜索边缘时使用的是文本区域的近似起始和结束位置，所示现在提取出的文本区域是不完整、不规则的，从图10中也可以看出。

步骤5，文本区域边缘矫正。

为了得到比较规则、完整的文本区域边缘，还需要对步骤4中得到的文本区域的近似边缘进行矫正。矫正步骤如下：

以文本区域的上边缘为例，说明矫正步骤。

步骤一：计算文本区域上边缘点的纵坐标的平均值，表示为avo；

步骤二：从左至右搜索上边缘的点，如果某个点的纵坐标与其前面的边缘点的纵坐标的差大于bt，且此点的纵坐标大于avo，则此点的纵坐标用其前面的边缘点的纵坐标代替；

对其他边缘也按上述步骤做相应的矫正操作，然后根据矫正后的边缘把缺失的点根据步骤4相似的搜索方式补全。图11为文本区域边缘矫正后的最终文本区域提取结果，bt设为3。

步骤6，方法性能评价。

为了验证本发明的有效性，采用文本提取领域通用的准确率，召回率和F值从像素级来评价标准本发明的性能。准确率(Precision)，召回率(Recall)，F值(F-Measure)的计算公式如下所示：

公式(1)，(2)中的参数如下所示；公式(3)中β设为1，表示Precision，Recall在F-Measure的计算中具有同样重要的影响力。

●TP：准确提取的文本区域的个数

●FP：误检测为文本区域的个数

●FN：没有检测出的文本区域的个数

判断是否准确的提取了文本区域，用像素精度(设为PA)是否大于像素精度阈值(较大的文本区域和较小的文本区域的阈值分别设为BB和BS)来判断。PA的计算公式如下所示：

其中N_t为提取出的文本区域和相应的Ground Truth交集的像素点个数，N_nt为提取的文本区域的和相应的Ground Truth不在它们交集中的像素点个数。

为了更好的评价本发明，将BB和BS限定在[0.85，0.98]范围内，每次固定一个值，另一个值以步长为0.01变化，得到评价结果如下表所示。

表1部分实验结果

由表1可以得出，运用本发明方法进行藏文历史文献文本区域提取，BB和BS逐渐增大时，准确率受影响较大，尤其当BS增大时对准确率的影响较大；但召回率相对比较稳定，当BB和BS都取限定范围内的最大值时，仍能达到96.24％；说明本发明的方法对复杂的藏文历史文献的文本区域提取具较高的召回率。在BB和BS分别为95％和90％时，准确率、召回率、F值分别为75.50％，98.11％，85.33％，证明了本发明方法在比较严格的像素精度阈值的情况下，仍然具有较好的性能。

Claims

1.一种基于块投影的藏文历史文献文本区域提取方法，其特征在于，包括以下步骤：

步骤1，采集数据；

通过扫描设备或拍照设备对藏文历史文献进行扫描或拍照，获得藏文历史文献的图像；

步骤2，数据预处理；

步骤2.1，光照均衡；

步骤2.2，倾斜矫正；

步骤2.3，二值化；

步骤3，块投影；

对二值化图像中的连通区域进行分类；将二值化图像均分为N*N的图像块，利用Harris算法检测二值化图像中的角点，并记录每个图像块中角点的个数；

然后利用连通区域的分类信息和角点信息对均分为N*N的图像块进行过滤，计算过滤后图像块的垂直和水平投影；

步骤4，文本区域边缘提取；

过滤后的图像块不但定位出近似的文本区域的位置，而且突出不同文本区域之间的间隔；通过分析块投影，得到文本区域边缘的近似位置；分析策略如下：

策略二：搜索图像块垂直投影，找到垂直投影的一对投影值从零到非零和从非零到零的变化点，分别表示为vb，ve；把vb，ve作为当前文档图像的一个文本区域的近似垂直起始位置和垂直结束位置；利用文本区域的近似水平、垂直起始和结束位置，由内向外搜索文本区域的四个边的所有从文本类或背景像素变化为边框像素的第一个像素点，记录下来这些点，作为该文本区域的近似边缘；如果搜索过程中，没有搜索到像素点，则认为此处为断裂部分，其边缘像素点的纵或横坐标用其相邻的点的纵坐标或横坐标填充；该文本区域的近似边缘搜索完毕后，则从ve开始继续搜索图像块的垂直投影，寻找下一个文本区域，直到搜索完图像块垂直投影；

通过策略一和策略二对块投影的分析，被提取出了文本区域的边缘；

步骤5，文本区域边缘矫正；

对步骤4中得到的文本区域的近似边缘进行矫正；矫正步骤如下：

以文本区域的上边缘为例，说明矫正步骤；

对其他边缘也按上述步骤做相应的矫正操作，然后根据矫正后的边缘把缺失的点根据步骤4的搜索方式补全。

2.根据权利要求1所述的一种基于块投影的藏文历史文献文本区域提取方法，其特征在于，步骤3所述块投影包括以下步骤：

(1)连通区域分类；

利用八邻域种子填充算法将二值化后图像中的连通区域检测出来，然后利用面积阈值和连通区域的长宽比或宽长比阈值对连通区域分为文本，边框，线段；分类规则如下：

设图像面积为S；面积阈值为a；长宽比或宽长比的阈值为r；

每个连通区域逐条匹配上述规则，匹配成功某条规则以后就结束，完成连通区域分类，a设为0.25，r的取值为0.05；

(2)角点检测；

将二值化图像均分为N*N的图像块，利用Harris算法检测二值化图像中的角点，并记录每个图像块中角点的个数；

(3)图像块过滤；

利用连通区域的分类信息和角点密度信息过滤图像块；过滤规则如下：

设所有图像块中的最大的角点个数为MN，角点过滤阈值为bf；

规则二：如果图像不块满足规则一，且图像块中包含大于等于两个非文本类的连通区域，或者图像块是孤立的，或者图像块在图像的边缘且只包含非文本类连通区域；将图像块从保存列表中删除；

规则三：如果图像块不满足规则一、二，且图像块中包含文本类和非文本类连通区域，则调整图像块大小，只保存包含文本类的部分；

所有图像块逐条匹配以上规则，进行图像块的过滤，bf设为0.25；

(4)图像块投影；

利用过滤后的图像块，计算图像块的水平和垂直投影。