CN112561928A

CN112561928A - 一种藏文古籍的版面分析方法及系统

Info

Publication number: CN112561928A
Application number: CN202011434430.6A
Authority: CN
Inventors: 尼玛扎西; 拥措; 师庆辉; 芦筱菲; 毕琰虹; 洛桑嘎登; 仁增多吉
Original assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd; Tibet University
Current assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd; Tibet University
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-26
Anticipated expiration: 2040-12-10
Also published as: CN112561928B

Abstract

本发明涉及一种藏文古籍的版面分析方法及系统，获取藏文古籍图像，对藏文古籍图像进行二值化处理，获取藏文古籍图像的二值图像，对二值图像进行分离处理，获取文本文档和非文本文档，对文本文档进行区域分割，提取文本区域，获取非本文文档中的图像元素。本发明提供的藏文古籍的版面分析方法能够针对版面结构较复杂的藏文古籍进行可靠分析，并不依赖于具体文档的版面结构，提升处理效果，能够准确分析识别出其中的文本文档和非文本文档，并对文本文档和非文本文档进行可靠处理，而且，本发明提供的藏文古籍的版面分析方法中，降低了计算复杂度，减少了整个过程的计算时间，提高了分析精度和效率。

Description

一种藏文古籍的版面分析方法及系统

技术领域

本发明涉及一种藏文古籍的版面分析方法及系统。

背景技术

藏族文化源远流长，藏文古籍文献数量之巨在我国仅次于汉文文献，是中华文明珍贵的文化宝藏。为了保护和传承优秀中华文化，藏文古籍数字化的需求和必要性越来越凸出，成为了国内外文献数字化领域关注的热点。藏文古籍的版面分析，是藏文古籍数字化过程中重要的一部分，是进行藏文古籍文本行分割、藏文分词、藏文字符识别及将藏文古籍内容翻译成其他语言的基础。

藏文古籍时间跨度长、载体多样、类型丰富，不同类型的文档都有各自独特的版面结构，不同文档之间也会有所差异，例如医药、佛经类型的古籍通常在文字中会出现插图，边缘部分有边框等。历史越悠久的藏文古籍，其退化也越严重，版面不规则现象越普遍，文档中的边框、线段通常会出现弯曲、倾斜、断裂等情况。此外，由于藏文文字的特点，藏文古籍中相邻行之间以及文字和边框之间通常会有粘连的情况，这些特点都增加了对藏文古籍进行版面分析的困难。

现有文档版面分析方法大多比较依赖于具体文档的版面结构，在版面结构较复杂的藏文古籍的版面分析中，现有文档版面分析方法的处理效果还不是很好。

发明内容

为了解决上述技术问题，本发明提供一种藏文古籍的版面分析方法及系统。

一种藏文古籍的版面分析方法，包括：

获取藏文古籍图像；

对所述藏文古籍图像进行二值化处理，获取所述藏文古籍图像的二值图像；

对所述二值图像进行分离处理，获取所述二值图像中的文本文档和非文本文档；

对所述文本文档进行区域分割，提取文本区域；

获取所述非本文文档中的图像元素。

进一步地，所述对所述藏文古籍图像进行二值化处理，获取所述藏文古籍图像的二值图像，包括：

对所述藏文古籍图像进行灰度化处理，得到灰度图像；

对所述灰度图像进行二值化处理，得到所述藏文古籍图像的二值图像。

进一步地，所述对所述灰度图像进行二值化处理，得到所述藏文古籍图像的二值图像，包括：

对所述灰度图像使用Sauvola算法求取每个像素(x,y)的局部阈值，计算公式如下：

其中，T(x,y)为所述局部阈值，m(x,y)和s(x,y)表示像素中心为(x,y)的W×W窗口的局部平均值和标准差，R是标准差的最大值，参数k为预设参数；

像素(x,y)的积分图像I的计算公式为：

其中，g(x,y)为所述灰度图像；

任意W窗口的局部平均值m(x,y)和标准差s(x,y)的计算公式为：

其中，对于a×b的图像，窗口尺寸选为W＝1/2×min(a,b)；

将属于前景的像素赋值为1，背景像素赋值为0，所述藏文古籍图像的二值图像f(x,y)的计算公式为：

进一步地，所述对所述藏文古籍图像进行灰度化处理，得到灰度图像之前，所述藏文古籍的版面分析方法还包括：

对所述藏文古籍图像依次进行Gamma矫正和基于Hough变换的倾斜矫正。

进一步地，所述对所述二值图像进行分离处理，获取所述二值图像中的文本文档和非文本文档，包括：

在所述二值图像中提取和标注连通分量，并判定连通分量为文本元素还是非文本元素；

根据启发式过滤过程去除所述非文本元素；

对经过所述启发式过滤过程得到的二值图像进行迭代过滤；

对迭代过滤之后的二值图像进行区域重塑，获取所述文本文档和非文本文档。

进一步地，所述在所述二值图像中提取和标注连通分量，并判定连通分量为文本元素还是非文本元素，包括：

记CCs为二值图像f的所有连通分量集，CC_i是第i个连通分量，B(CC_i)是CC_i的边界框，左上和右下的坐标分别为与(Xl_i,Yl_i),(Xr_i,Yr_i),H_i和W_i是B(CC_i)的高度和宽度；H_olap(CC_i)和V_olap(CC_i)是分别与CC_i在同一列和同一行的连通分量的集合：

H_olap(CC_i)＝{CC_i∈CCs|max(Xl_i,Xl_j)-min(Xr_i,Xr_j)<0}

V_olap(CC_i)＝{CC_i∈CCs|max(Yl_i,Yl_j)-min(Yr_i,Yr_j)<0}

连通分量的左右近邻判断过程如下：

CC_i的右近邻为CC_j,j≠i满足

CC_j∈V_olap(CC_i)，CC_j不在CC_i内部，Xl_j＞Xr_j，且：

Xl_j-Xr_j＝min{Xl_t-Xr_j＞0|CC_t∈V_olap(CC_i)}

其中，Xl_j-Xr_j为CC_i和CC_j之间的空白格距离；

根据计算得到的空白格距离，结合预设阈值，判定连通分量为文本元素还是非文本元素；

相应地，所述根据启发式过滤过程去除所述非文本元素，包括：

连通分量如果满足以下四个条件中的任意一个，则判断其为非文本元素：

条件一：连通分量中的像素数量小于预设像素个数阈值；

条件二：连通分量内部包含的边界框个数大于预设边界框个数阈值；

条件三：连通分量的密度小于预设密度阈值；

条件四：连通分量的高度和宽度的比例没有处于预设正常比例范围；

设定CCs′表示经过上述四个条件过滤后得到的非文本元素集合，则

其中，

为经过启发式过滤后得到的二值图像；

相应地，所述对经过所述启发式过滤过程得到的二值图像进行迭代过滤，包括：

(1)提取

的同质区域HR^k，其中，

m是同质区域个数；

(2)在所有同质区域HR^k中使用空白格分析来识别非文本分量及其标签，记作

使用标签矩阵移除这些非文本分量从而得到新的二值图像

(3)重复所述步骤(1)和(2)，直到没有任何非文本分量或

此时，所有同质区域HR^k均为文本同质区域HR^k*；

相应地，所述对迭代过滤之后的二值图像进行区域重塑，获取所述文本文档和非文本文档，包括：

根据各同质区域的坐标得到文本文档：

非文本文档的计算公式为：

提取文本文档中所有连通分量的边界框B(CC_i)，令CCs^text表示文本文档中所有连通分量CC_i的集合，

表示文本文档的边界框图像；

令CCs^ntext表示非文本文档中所有连通分量CC_j的集合，

若

则最终输出的文本文档和非文本文档分别为：

进一步地，所述对所述文本文档进行区域分割，提取文本区域，包括：

将文本文档f_text中的文本元素聚集到一起，提取文本外围框，得到

基于

合并文本行获取所有同质区域，根据间距进行段落分割；

将段落分割之后得到的每个同质区域中，高度以及垂直距离均满足近距离要求的文本行进行合并，使用形态闭合平滑的矩形核来提取对应的文本区域。

进一步地，所述获取所述非本文文档中的图像元素，包括：

对所述非文本文档中的每个图像区域进行形态膨胀，获取边界；

根据边界，分离得到所述非本文文档中的图像元素。

进一步地，所述对所述二值图像进行分离处理，获取所述二值图像中的文本文档和非文本文档之后，所述藏文古籍的版面分析方法还包括：

对所述文本文档和非文本文档进行除噪，得到无噪声干扰的文本文档和非文本文档。

一种藏文古籍的版面分析系统，包括：

藏文古籍图像获取模块，用于获取藏文古籍图像；

二值化模块，用于对所述藏文古籍图像进行二值化处理，获取所述藏文古籍图像的二值图像；

图像分离模块，用于对所述二值图像进行分离处理，获取所述二值图像中的文本文档和非文本文档；

文本文档分割模块，用于对所述文本文档进行区域分割，提取文本区域；

图像元素获取模块，用于获取所述非本文文档中的图像元素。

本发明的有益效果为：本发明提供的藏文古籍的版面分析方法中，先对获取到的藏文古籍图像进行二值化处理，然后对二值图像进行分离处理，获取二值图像中的文本文档和非文本文档，分别对文本文档和非文本文档进行处理，其中，对文本文档进行区域分割，提取文本区域，获取非本文文档中的图像元素。本发明提供的藏文古籍的版面分析方法能够针对版面结构较复杂的藏文古籍进行可靠分析，并不依赖于具体文档的版面结构，提升处理效果，能够准确分析识别出其中的文本文档和非文本文档，并对文本文档和非文本文档进行可靠处理，而且，本发明提供的藏文古籍的版面分析方法中，降低了计算复杂度，减少了整个过程的计算时间，提高了分析精度和效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍：

图1是本申请实施例一提供的藏文古籍的版面分析方法的整体流程示意图；

图2是藏文古籍图像的二值图像示意图；

图3是二值图像中的文本文档示意图；

图4是二值图像中的非文本文档示意图；

图5是文本文档的文本外围框示意图；

图6是文本文档的区域分割示意图；

图7是本申请实施例一提供的藏文古籍的版面分析方法的一种具体流程图；

图8是本申请实施例二提供的藏文古籍的版面分析系统的整体结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的藏文古籍的版面分析方法可以应用于智能手机、平板电脑、笔记本电脑、台式电脑、服务器设备等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。即，本申请实施例提供的藏文古籍的版面分析方法对应的客户端的载体可以是上述各个终端设备中的任意一个。

为了说明本申请所述的技术方案，下面通过具体实施方式来进行说明。

参见图1，是本申请实施例一提供的藏文古籍的版面分析方法的一种实现过程的流程图，为了便于说明，仅示出了与本申请实施例相关的部分。

该藏文古籍的版面分析方法包括：

步骤S101：获取藏文古籍图像：

对藏文古籍通过拍照、扫描等方式进行处理，获取藏文古籍图像。

步骤S102：对所述藏文古籍图像进行二值化处理，获取所述藏文古籍图像的二值图像：

本实施例中，为了提升图像处理效率，以及处理可靠性，在二值化之前，需要先对藏文古籍图像进行预处理，过程依次为：

对藏文古籍图像进行Gamma矫正，消除在获取图像过程中因光照不均衡产生的影响。

使用基于Hough变换的倾斜矫正方法对经过Gamma矫正之后的藏文古籍图像进行倾斜矫正；

对经过倾斜矫正之后的藏文古籍图像进行灰度化处理，得到灰度图像g(x,y)。

对灰度图像g(x,y)进行二值化处理，得到藏文古籍图像的二值图像，作为一个具体实施方式，以下给出一种二值化具体过程：

对灰度图像g(x,y)使用Sauvola算法求取每个像素(x,y)的局部阈值，计算公式如下：

其中，T(x,y)为局部阈值，m(x,y)和s(x,y)表示像素中心为(x,y)的W×W窗口的局部平均值和标准差，R是标准差的最大值，参数k为预设参数，取值范围为[0.2，0.5]。

为了减少Sauvola算法的计算时间，使用积分图像来计算局部均值m(x,y)和方差s(x,y)。

对像素(x,y)，其积分图像的值是该像素上侧和左侧的像素总和，像素(x,y)的积分图像I的计算公式为：

则，任意W窗口的局部平均值m(x,y)和标准差s(x,y)的计算公式为：

其中，对于a×b的图像，窗口尺寸选为W＝1/2×min(a,b)。

将属于前景的像素赋值为1，背景像素赋值为0，藏文古籍图像的二值图像f(x,y)的计算公式为：

藏文古籍图像的二值图像如图2所示。

步骤S103：对所述二值图像进行分离处理，获取所述二值图像中的文本文档和非文本文档：

作为一个具体实施方式，以下给出一种实现过程：

步骤S1031：在所述二值图像中提取和标注连通分量，并判定连通分量为文本元素还是非文本元素：

在二值图像中提取和标注连通分量，即提取所有连通且具有相同值的像素，将其分为单独的部分。

H_olap(CC_i)＝{CC_i∈CCs|max(Xl_i,Xl_j)-min(Xr_i,Xr_j)<0}

V_olap(CC_i)＝{CC_i∈CCs|max(Yl_i,Yl_j)-min(Yr_i,Yr_j)<0}

为每个连通分量CC_i找到左近邻和右近邻，连通分量的左右近邻判断过程如下：

CC_i的右近邻为CC_j,j≠i，即CC_i称作CC_j的左近邻，满足

CC_j∈V_olap(CC_i)，CC_j不在CC_i内部，Xl_j＞Xr_j，且：

Xl_j-Xr_j＝min{Xl_t-Xr_j＞0|CC_t∈V_olap(CC_i)}

其中，Xl_j-Xr_j为CC_i和CC_j之间的空白格距离。

根据计算得到的空白格距离，结合预设阈值，判定连通分量为文本元素还是非文本元素。

步骤S1032：根据启发式过滤过程去除所述非文本元素：

连通分量CC_i如果满足以下四个条件中的任意一个，则判断其为非文本元素：

条件一：连通分量CC_i中的像素数量小于预设像素个数阈值，即连通分量CC_i的面积太小，预设像素个数阈值由实际需要进行设置，比如6个像素。那么，定义C_size(CC_i)是CC_i中像素的数量，即该条件一可表示为：C_size(CC_i)<6。

条件二：连通分量CC_i内部包含的边界框B(CC_i)个数大于预设边界框个数阈值，即包含的边界框B(CC_i)个数太多，预设边界框个数阈值由实际需要进行设置，比如3。本实施例中，定义Ins(CC_i)为B(CC_j)的数量，i≠j，位于B(CC_i)内部的B(CC_j)满足：(Xl_i<Xl_j)∧(Yl_i<Yl_j)∧(Xr_i＞Xr_j)∧(Yr_i＞Yr_j)，即该条件二可表示为：Ins(CC_i)＞3。

条件三：连通分量CC_i的密度小于预设密度阈值，即连通分量CC_i的密度太低，预设密度阈值由实际需要进行设置，比如5％。连通分量CC_i的密度太低时，有可能为斜线或噪声(正常密度应大于20％)。定义B_size(CC_i)是B(CC_i)的大小，B_size(CC_i)＝W_i×H_i，C_dens(CC_i)为C_size(CC_i)和B_size(CC_i)的比值：

那么，该条件三可表示为：C_dens(CC_i)<5％。

条件四：连通分量CC_i的高度和宽度的比例没有处于预设正常比例范围，即连通分量CC_i的高度和宽度的比例太高或太低，即正常情况下，连通分量CC_i的高度和宽度的比例不应太高或太低。定义A_HW(CC_i)是CC_i宽度和高度的比，A_HW∈(0,1]：

那么，该条件四可表示为：A_HW(CC_i)<6％。

其中，

为经过启发式过滤后得到的二值图像。

步骤S1033：对经过所述启发式过滤过程得到的二值图像进行迭代过滤：

经过启发式过滤之后的二值图像中去除了部分非文本元素，然而可能仍然存在与文本元素没有太大区别的非文本元素，执行递归过滤(即执行迭代过滤)，使用基于统计的方法来识别这部分非文本元素。作为一个具体实施方式，以下给出一种实现过程：

(1)提取

的同质区域HR^k，其中，

m是同质区域个数。通过垂直投影获取垂直同质区域，然后对每个垂直区域进行水平分割得到同质区域HR^k。

使用标签矩阵移除这些非文本分量从而得到新的二值图像

(3)重复步骤(1)和(2)，直到没有任何非文本分量或

此时，所有同质区域HR^k均为文本同质区域HR^k*；

步骤S1034：对迭代过滤之后的二值图像进行区域重塑，获取所述文本文档和非文本文档：

对迭代过滤之后的二值图像进行区域重塑，得到文本文档

和非文本文档(f中去除

)，然后，获取最终的文本文档与非文本文档。具体如下：

若在同质区域中不再含有非文本分量或满足

表明HR^k中仅包含文本元素，根据各同质区域的坐标得到文本文档：

非文本文档的计算公式为：

表示文本文档的边界框图像；

令CCs^ntext表示非文本文档中所有连通分量CC_j的集合，

若

则最终输出的文本文档和非文本文档分别为：

文本文档示意图如图3所示，非文本文档示意图如图4所示。

结合使用启发式过滤和递归过滤，能够减少整个过程的计算时间，提高版面分析精度。

步骤S104：对所述文本文档进行区域分割，提取文本区域：

作为一个具体实施方式，以下给出该步骤的一种实现过程：

将文本文档f_text中的文本元素聚集到一起，提取文本外围框(text lines，TL)，得到

计算过程如下：

对

将CC_i和CC_j进行连接若满足下述条件：

这里，参数θ的选取与语言有关(此处非拉丁语言，θ＝1.3)。

文本文档的文本外围框示意图如图5所示。

然后，基于

合并文本行获取所有同质区域，根据间距进行段落分割。在每个同质区域中，文本框一般是竖直的，可利用第一行的左间距和最后一行的右间距将文本分割为段落。连续扫描三行间距来得到分割位置(段落分割过程仅适用于文本行数超过三行且宽度足够的区域)。

最后，将段落分割之后得到的每个同质区域中，高度以及垂直距离均满足近距离要求(即高度以及垂直距离相近)的文本行进行合并，使用形态闭合平滑的矩形核来提取对应的文本区域。而且，根据每个区域的大小或位置，可以进一步将其划分子类，如段落、页码区域等。

文本文档的区域分割示意图如图6所示。

步骤S105：获取所述非本文文档中的图像元素：

该步骤是对获取的非文本文档的进一步操作，先对非文本文档中的每个图像区域进行形态膨胀，获取边界，然后，根据边界，分离得到非本文文档中的图像元素。

本实施例中，为了得到无噪声干扰的文本文档和非文本文档，提升版面分析可靠性和准确性，在步骤S105之后，该藏文古籍的版面分析方法还包括：

对步骤S104和步骤S105得到的文本文档和非文本文档进行除噪，得到无噪声干扰的文本文档和非文本文档。其中，进行噪声检测时，在每个线条、图像区域的边界，存在的较小尺寸的直线，判断为噪声(由扫描过程带入)。

如图7所示，为本申请提供的藏文古籍的版面分析方法一种具体的实现过程，其中，对获取的藏文古籍图像进行光照均衡、倾斜校正、二值化等预处理，获取文档图像的二值图像；对二值图像进行连通分量分析，结合空白格距离和预设阈值判定文本元素与非文本元素；通过启发式过滤和递归过滤，去除非文本元素；提取文本文档和非文本文档中所有连通分量的边界框，获取文本文档和非文本文档；对于文本文档，进一步进行段落分割以及细化子分类；对于非文本文档，通过形态膨胀分离获取图像元素；通过噪声检测，获取最终文本区域与非文本区域(图像)分离的文档版面分析结果。

对应于上文中的藏文古籍的版面分析方法实施例中所述的藏文古籍的版面分析方法，图8示出了本申请实施例二提供的藏文古籍的版面分析系统的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图8，藏文古籍的版面分析系统200包括：

藏文古籍图像获取模块201，用于获取藏文古籍图像；

二值化模块202，用于对所述藏文古籍图像进行二值化处理，获取所述藏文古籍图像的二值图像；

图像分离模块203，用于对所述二值图像进行分离处理，获取所述二值图像中的文本文档和非文本文档；

文本文档分割模块204，用于对所述文本文档进行区域分割，提取文本区域；

图像元素获取模块205，用于获取所述非本文文档中的图像元素。

需要说明的是，上述装置/模块之间的信息交互、执行过程等内容，由于与本申请藏文古籍的版面分析方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见藏文古籍的版面分析方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将所述藏文古籍的版面分析系统200的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述中各功能模块的具体工作过程，可以参考前述藏文古籍的版面分析方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种藏文古籍的版面分析方法，其特征在于，包括：

获取藏文古籍图像；

对所述文本文档进行区域分割，提取文本区域；

获取所述非本文文档中的图像元素。

2.根据权利要求1所述的藏文古籍的版面分析方法，其特征在于，所述对所述藏文古籍图像进行二值化处理，获取所述藏文古籍图像的二值图像，包括：

对所述藏文古籍图像进行灰度化处理，得到灰度图像；

3.根据权利要求2所述的藏文古籍的版面分析方法，其特征在于，所述对所述灰度图像进行二值化处理，得到所述藏文古籍图像的二值图像，包括：

对所述灰度图像使用Sauvola算法求取每个像素(x，y)的局部阈值，计算公式如下：

其中，T(x，y)为所述局部阈值，m(x，y)和s(x，y)表示像素中心为(x，y)的W×W窗口的局部平均值和标准差，R是标准差的最大值，参数k为预设参数；

像素(x，y)的积分图像I的计算公式为：

其中，g(x，y)为所述灰度图像；

任意W窗口的局部平均值m(x，y)和标准差s(x，y)的计算公式为：

其中，对于a×b的图像，窗口尺寸选为W＝1/2×min(a，b)；

将属于前景的像素赋值为1，背景像素赋值为0，所述藏文古籍图像的二值图像f(x，y)的计算公式为：

4.根据权利要求2所述的藏文古籍的版面分析方法，其特征在于，所述对所述藏文古籍图像进行灰度化处理，得到灰度图像之前，所述藏文古籍的版面分析方法还包括：

5.根据权利要求1所述的藏文古籍的版面分析方法，其特征在于，所述对所述二值图像进行分离处理，获取所述二值图像中的文本文档和非文本文档，包括：

根据启发式过滤过程去除所述非文本元素；

对经过所述启发式过滤过程得到的二值图像进行迭代过滤；

6.根据权利要求5所述的藏文古籍的版面分析方法，其特征在于，所述在所述二值图像中提取和标注连通分量，并判定连通分量为文本元素还是非文本元素，包括：

记CCs为二值图像f的所有连通分量集，CC_i是第i个连通分量，B(CC_i)是CC_i的边界框，左上和右下的坐标分别为与(Xl_i，Yl_i)，(Xr_i，Yr_i)，H_i和W_i是B(CC_i)的高度和宽度；H_olap(CC_i)和V_olap(CC_i)是分别与CC_i在同一列和同一行的连通分量的集合：

H_olap(CC_i)＝{CC_i∈CCs|max(Xl_i，Xl_j)-min(Xr_i，Xr_j)＜0}

V_olap(CC_i)＝{CC_i∈CCs|max(Yl_i，Yl_j)-min(Yr_i，Yr_j)＜0}

连通分量的左右近邻判断过程如下：

CC_i的右近邻为CC_j，j≠i满足