CN112561928A - 一种藏文古籍的版面分析方法及系统 - Google Patents

一种藏文古籍的版面分析方法及系统 Download PDF

Info

Publication number
CN112561928A
CN112561928A CN202011434430.6A CN202011434430A CN112561928A CN 112561928 A CN112561928 A CN 112561928A CN 202011434430 A CN202011434430 A CN 202011434430A CN 112561928 A CN112561928 A CN 112561928A
Authority
CN
China
Prior art keywords
text
image
ancient
text document
tibetan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011434430.6A
Other languages
English (en)
Other versions
CN112561928B (zh
Inventor
尼玛扎西
拥措
师庆辉
芦筱菲
毕琰虹
洛桑嘎登
仁增多吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Tibet University
Original Assignee
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Tibet University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongfang Knowledge Network Digital Publishing Technology Co ltd, Tibet University filed Critical Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority to CN202011434430.6A priority Critical patent/CN112561928B/zh
Publication of CN112561928A publication Critical patent/CN112561928A/zh
Application granted granted Critical
Publication of CN112561928B publication Critical patent/CN112561928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)

Abstract

本发明涉及一种藏文古籍的版面分析方法及系统,获取藏文古籍图像,对藏文古籍图像进行二值化处理,获取藏文古籍图像的二值图像,对二值图像进行分离处理,获取文本文档和非文本文档,对文本文档进行区域分割,提取文本区域,获取非本文文档中的图像元素。本发明提供的藏文古籍的版面分析方法能够针对版面结构较复杂的藏文古籍进行可靠分析,并不依赖于具体文档的版面结构,提升处理效果,能够准确分析识别出其中的文本文档和非文本文档,并对文本文档和非文本文档进行可靠处理,而且,本发明提供的藏文古籍的版面分析方法中,降低了计算复杂度,减少了整个过程的计算时间,提高了分析精度和效率。

Description

一种藏文古籍的版面分析方法及系统
技术领域
本发明涉及一种藏文古籍的版面分析方法及系统。
背景技术
藏族文化源远流长,藏文古籍文献数量之巨在我国仅次于汉文文献,是中华文明珍贵的文化宝藏。为了保护和传承优秀中华文化,藏文古籍数字化的需求和必要性越来越凸出,成为了国内外文献数字化领域关注的热点。藏文古籍的版面分析,是藏文古籍数字化过程中重要的一部分,是进行藏文古籍文本行分割、藏文分词、藏文字符识别及将藏文古籍内容翻译成其他语言的基础。
藏文古籍时间跨度长、载体多样、类型丰富,不同类型的文档都有各自独特的版面结构,不同文档之间也会有所差异,例如医药、佛经类型的古籍通常在文字中会出现插图,边缘部分有边框等。历史越悠久的藏文古籍,其退化也越严重,版面不规则现象越普遍,文档中的边框、线段通常会出现弯曲、倾斜、断裂等情况。此外,由于藏文文字的特点,藏文古籍中相邻行之间以及文字和边框之间通常会有粘连的情况,这些特点都增加了对藏文古籍进行版面分析的困难。
现有文档版面分析方法大多比较依赖于具体文档的版面结构,在版面结构较复杂的藏文古籍的版面分析中,现有文档版面分析方法的处理效果还不是很好。
发明内容
为了解决上述技术问题,本发明提供一种藏文古籍的版面分析方法及系统。
一种藏文古籍的版面分析方法,包括:
获取藏文古籍图像;
对所述藏文古籍图像进行二值化处理,获取所述藏文古籍图像的二值图像;
对所述二值图像进行分离处理,获取所述二值图像中的文本文档和非文本文档;
对所述文本文档进行区域分割,提取文本区域;
获取所述非本文文档中的图像元素。
进一步地,所述对所述藏文古籍图像进行二值化处理,获取所述藏文古籍图像的二值图像,包括:
对所述藏文古籍图像进行灰度化处理,得到灰度图像;
对所述灰度图像进行二值化处理,得到所述藏文古籍图像的二值图像。
进一步地,所述对所述灰度图像进行二值化处理,得到所述藏文古籍图像的二值图像,包括:
对所述灰度图像使用Sauvola算法求取每个像素(x,y)的局部阈值,计算公式如下:
Figure BDA0002827715500000021
其中,T(x,y)为所述局部阈值,m(x,y)和s(x,y)表示像素中心为(x,y)的W×W窗口的局部平均值和标准差,R是标准差的最大值,参数k为预设参数;
像素(x,y)的积分图像I的计算公式为:
Figure BDA0002827715500000022
其中,g(x,y)为所述灰度图像;
任意W窗口的局部平均值m(x,y)和标准差s(x,y)的计算公式为:
Figure BDA0002827715500000023
Figure BDA0002827715500000031
Figure BDA0002827715500000032
Figure BDA0002827715500000033
其中,对于a×b的图像,窗口尺寸选为W=1/2×min(a,b);
将属于前景的像素赋值为1,背景像素赋值为0,所述藏文古籍图像的二值图像f(x,y)的计算公式为:
Figure BDA0002827715500000034
进一步地,所述对所述藏文古籍图像进行灰度化处理,得到灰度图像之前,所述藏文古籍的版面分析方法还包括:
对所述藏文古籍图像依次进行Gamma矫正和基于Hough变换的倾斜矫正。
进一步地,所述对所述二值图像进行分离处理,获取所述二值图像中的文本文档和非文本文档,包括:
在所述二值图像中提取和标注连通分量,并判定连通分量为文本元素还是非文本元素;
根据启发式过滤过程去除所述非文本元素;
对经过所述启发式过滤过程得到的二值图像进行迭代过滤;
对迭代过滤之后的二值图像进行区域重塑,获取所述文本文档和非文本文档。
进一步地,所述在所述二值图像中提取和标注连通分量,并判定连通分量为文本元素还是非文本元素,包括:
记CCs为二值图像f的所有连通分量集,CCi是第i个连通分量,B(CCi)是CCi的边界框,左上和右下的坐标分别为与(Xli,Yli),(Xri,Yri),Hi和Wi是B(CCi)的高度和宽度;Holap(CCi)和Volap(CCi)是分别与CCi在同一列和同一行的连通分量的集合:
Holap(CCi)={CCi∈CCs|max(Xli,Xlj)-min(Xri,Xrj)<0}
Volap(CCi)={CCi∈CCs|max(Yli,Ylj)-min(Yri,Yrj)<0}
连通分量的左右近邻判断过程如下:
CCi的右近邻为CCj,j≠i满足
Figure BDA0002827715500000041
CCj∈Volap(CCi),CCj不在CCi内部,Xlj>Xrj,且:
Xlj-Xrj=min{Xlt-Xrj>0|CCt∈Volap(CCi)}
其中,Xlj-Xrj为CCi和CCj之间的空白格距离;
根据计算得到的空白格距离,结合预设阈值,判定连通分量为文本元素还是非文本元素;
相应地,所述根据启发式过滤过程去除所述非文本元素,包括:
连通分量如果满足以下四个条件中的任意一个,则判断其为非文本元素:
条件一:连通分量中的像素数量小于预设像素个数阈值;
条件二:连通分量内部包含的边界框个数大于预设边界框个数阈值;
条件三:连通分量的密度小于预设密度阈值;
条件四:连通分量的高度和宽度的比例没有处于预设正常比例范围;
设定CCs′表示经过上述四个条件过滤后得到的非文本元素集合,则
Figure BDA0002827715500000042
Figure BDA0002827715500000043
其中,
Figure BDA0002827715500000044
为经过启发式过滤后得到的二值图像;
相应地,所述对经过所述启发式过滤过程得到的二值图像进行迭代过滤,包括:
(1)提取
Figure BDA0002827715500000045
的同质区域HRk,其中,
Figure BDA0002827715500000046
m是同质区域个数;
(2)在所有同质区域HRk中使用空白格分析来识别非文本分量及其标签,记作
Figure BDA0002827715500000051
使用标签矩阵移除这些非文本分量从而得到新的二值图像
Figure BDA0002827715500000052
(3)重复所述步骤(1)和(2),直到没有任何非文本分量或
Figure BDA0002827715500000053
此时,所有同质区域HRk均为文本同质区域HRk*
相应地,所述对迭代过滤之后的二值图像进行区域重塑,获取所述文本文档和非文本文档,包括:
根据各同质区域的坐标得到文本文档:
Figure BDA0002827715500000054
非文本文档的计算公式为:
Figure BDA0002827715500000055
提取文本文档中所有连通分量的边界框B(CCi),令CCstext表示文本文档中所有连通分量CCi的集合,
Figure BDA00028277155000000513
表示文本文档的边界框图像;
Figure BDA0002827715500000056
令CCsntext表示非文本文档中所有连通分量CCj的集合,
Figure BDA0002827715500000057
Figure BDA0002827715500000058
则最终输出的文本文档和非文本文档分别为:
Figure BDA0002827715500000059
Figure BDA00028277155000000510
进一步地,所述对所述文本文档进行区域分割,提取文本区域,包括:
将文本文档ftext中的文本元素聚集到一起,提取文本外围框,得到
Figure BDA00028277155000000511
基于
Figure BDA00028277155000000512
合并文本行获取所有同质区域,根据间距进行段落分割;
将段落分割之后得到的每个同质区域中,高度以及垂直距离均满足近距离要求的文本行进行合并,使用形态闭合平滑的矩形核来提取对应的文本区域。
进一步地,所述获取所述非本文文档中的图像元素,包括:
对所述非文本文档中的每个图像区域进行形态膨胀,获取边界;
根据边界,分离得到所述非本文文档中的图像元素。
进一步地,所述对所述二值图像进行分离处理,获取所述二值图像中的文本文档和非文本文档之后,所述藏文古籍的版面分析方法还包括:
对所述文本文档和非文本文档进行除噪,得到无噪声干扰的文本文档和非文本文档。
一种藏文古籍的版面分析系统,包括:
藏文古籍图像获取模块,用于获取藏文古籍图像;
二值化模块,用于对所述藏文古籍图像进行二值化处理,获取所述藏文古籍图像的二值图像;
图像分离模块,用于对所述二值图像进行分离处理,获取所述二值图像中的文本文档和非文本文档;
文本文档分割模块,用于对所述文本文档进行区域分割,提取文本区域;
图像元素获取模块,用于获取所述非本文文档中的图像元素。
本发明的有益效果为:本发明提供的藏文古籍的版面分析方法中,先对获取到的藏文古籍图像进行二值化处理,然后对二值图像进行分离处理,获取二值图像中的文本文档和非文本文档,分别对文本文档和非文本文档进行处理,其中,对文本文档进行区域分割,提取文本区域,获取非本文文档中的图像元素。本发明提供的藏文古籍的版面分析方法能够针对版面结构较复杂的藏文古籍进行可靠分析,并不依赖于具体文档的版面结构,提升处理效果,能够准确分析识别出其中的文本文档和非文本文档,并对文本文档和非文本文档进行可靠处理,而且,本发明提供的藏文古籍的版面分析方法中,降低了计算复杂度,减少了整个过程的计算时间,提高了分析精度和效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍:
图1是本申请实施例一提供的藏文古籍的版面分析方法的整体流程示意图;
图2是藏文古籍图像的二值图像示意图;
图3是二值图像中的文本文档示意图;
图4是二值图像中的非文本文档示意图;
图5是文本文档的文本外围框示意图;
图6是文本文档的区域分割示意图;
图7是本申请实施例一提供的藏文古籍的版面分析方法的一种具体流程图;
图8是本申请实施例二提供的藏文古籍的版面分析系统的整体结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例提供的藏文古籍的版面分析方法可以应用于智能手机、平板电脑、笔记本电脑、台式电脑、服务器设备等终端设备上,本申请实施例对终端设备的具体类型不作任何限制。即,本申请实施例提供的藏文古籍的版面分析方法对应的客户端的载体可以是上述各个终端设备中的任意一个。
为了说明本申请所述的技术方案,下面通过具体实施方式来进行说明。
参见图1,是本申请实施例一提供的藏文古籍的版面分析方法的一种实现过程的流程图,为了便于说明,仅示出了与本申请实施例相关的部分。
该藏文古籍的版面分析方法包括:
步骤S101:获取藏文古籍图像:
对藏文古籍通过拍照、扫描等方式进行处理,获取藏文古籍图像。
步骤S102:对所述藏文古籍图像进行二值化处理,获取所述藏文古籍图像的二值图像:
本实施例中,为了提升图像处理效率,以及处理可靠性,在二值化之前,需要先对藏文古籍图像进行预处理,过程依次为:
对藏文古籍图像进行Gamma矫正,消除在获取图像过程中因光照不均衡产生的影响。
使用基于Hough变换的倾斜矫正方法对经过Gamma矫正之后的藏文古籍图像进行倾斜矫正;
对经过倾斜矫正之后的藏文古籍图像进行灰度化处理,得到灰度图像g(x,y)。
对灰度图像g(x,y)进行二值化处理,得到藏文古籍图像的二值图像,作为一个具体实施方式,以下给出一种二值化具体过程:
对灰度图像g(x,y)使用Sauvola算法求取每个像素(x,y)的局部阈值,计算公式如下:
Figure BDA0002827715500000091
其中,T(x,y)为局部阈值,m(x,y)和s(x,y)表示像素中心为(x,y)的W×W窗口的局部平均值和标准差,R是标准差的最大值,参数k为预设参数,取值范围为[0.2,0.5]。
为了减少Sauvola算法的计算时间,使用积分图像来计算局部均值m(x,y)和方差s(x,y)。
对像素(x,y),其积分图像的值是该像素上侧和左侧的像素总和,像素(x,y)的积分图像I的计算公式为:
Figure BDA0002827715500000092
则,任意W窗口的局部平均值m(x,y)和标准差s(x,y)的计算公式为:
Figure BDA0002827715500000093
Figure BDA0002827715500000101
Figure BDA0002827715500000102
Figure BDA0002827715500000103
其中,对于a×b的图像,窗口尺寸选为W=1/2×min(a,b)。
将属于前景的像素赋值为1,背景像素赋值为0,藏文古籍图像的二值图像f(x,y)的计算公式为:
Figure BDA0002827715500000104
藏文古籍图像的二值图像如图2所示。
步骤S103:对所述二值图像进行分离处理,获取所述二值图像中的文本文档和非文本文档:
作为一个具体实施方式,以下给出一种实现过程:
步骤S1031:在所述二值图像中提取和标注连通分量,并判定连通分量为文本元素还是非文本元素:
在二值图像中提取和标注连通分量,即提取所有连通且具有相同值的像素,将其分为单独的部分。
记CCs为二值图像f的所有连通分量集,CCi是第i个连通分量,B(CCi)是CCi的边界框,左上和右下的坐标分别为与(Xli,Yli),(Xri,Yri),Hi和Wi是B(CCi)的高度和宽度;Holap(CCi)和Volap(CCi)是分别与CCi在同一列和同一行的连通分量的集合:
Holap(CCi)={CCi∈CCs|max(Xli,Xlj)-min(Xri,Xrj)<0}
Volap(CCi)={CCi∈CCs|max(Yli,Ylj)-min(Yri,Yrj)<0}
为每个连通分量CCi找到左近邻和右近邻,连通分量的左右近邻判断过程如下:
CCi的右近邻为CCj,j≠i,即CCi称作CCj的左近邻,满足
Figure BDA0002827715500000111
Figure BDA0002827715500000112
CCj∈Volap(CCi),CCj不在CCi内部,Xlj>Xrj,且:
Xlj-Xrj=min{Xlt-Xrj>0|CCt∈Volap(CCi)}
其中,Xlj-Xrj为CCi和CCj之间的空白格距离。
根据计算得到的空白格距离,结合预设阈值,判定连通分量为文本元素还是非文本元素。
步骤S1032:根据启发式过滤过程去除所述非文本元素:
连通分量CCi如果满足以下四个条件中的任意一个,则判断其为非文本元素:
条件一:连通分量CCi中的像素数量小于预设像素个数阈值,即连通分量CCi的面积太小,预设像素个数阈值由实际需要进行设置,比如6个像素。那么,定义Csize(CCi)是CCi中像素的数量,即该条件一可表示为:Csize(CCi)<6。
条件二:连通分量CCi内部包含的边界框B(CCi)个数大于预设边界框个数阈值,即包含的边界框B(CCi)个数太多,预设边界框个数阈值由实际需要进行设置,比如3。本实施例中,定义Ins(CCi)为B(CCj)的数量,i≠j,位于B(CCi)内部的B(CCj)满足:(Xli<Xlj)∧(Yli<Ylj)∧(Xri>Xrj)∧(Yri>Yrj),即该条件二可表示为:Ins(CCi)>3。
条件三:连通分量CCi的密度小于预设密度阈值,即连通分量CCi的密度太低,预设密度阈值由实际需要进行设置,比如5%。连通分量CCi的密度太低时,有可能为斜线或噪声(正常密度应大于20%)。定义Bsize(CCi)是B(CCi)的大小,Bsize(CCi)=Wi×Hi,Cdens(CCi)为Csize(CCi)和Bsize(CCi)的比值:
Figure BDA0002827715500000113
那么,该条件三可表示为:Cdens(CCi)<5%。
条件四:连通分量CCi的高度和宽度的比例没有处于预设正常比例范围,即连通分量CCi的高度和宽度的比例太高或太低,即正常情况下,连通分量CCi的高度和宽度的比例不应太高或太低。定义AHW(CCi)是CCi宽度和高度的比,AHW∈(0,1]:
Figure BDA0002827715500000121
那么,该条件四可表示为:AHW(CCi)<6%。
设定CCs′表示经过上述四个条件过滤后得到的非文本元素集合,则
Figure BDA0002827715500000129
Figure BDA0002827715500000122
其中,
Figure BDA0002827715500000123
为经过启发式过滤后得到的二值图像。
步骤S1033:对经过所述启发式过滤过程得到的二值图像进行迭代过滤:
经过启发式过滤之后的二值图像中去除了部分非文本元素,然而可能仍然存在与文本元素没有太大区别的非文本元素,执行递归过滤(即执行迭代过滤),使用基于统计的方法来识别这部分非文本元素。作为一个具体实施方式,以下给出一种实现过程:
(1)提取
Figure BDA0002827715500000124
的同质区域HRk,其中,
Figure BDA0002827715500000125
m是同质区域个数。通过垂直投影获取垂直同质区域,然后对每个垂直区域进行水平分割得到同质区域HRk
(2)在所有同质区域HRk中使用空白格分析来识别非文本分量及其标签,记作
Figure BDA0002827715500000126
使用标签矩阵移除这些非文本分量从而得到新的二值图像
Figure BDA0002827715500000127
(3)重复步骤(1)和(2),直到没有任何非文本分量或
Figure BDA0002827715500000128
此时,所有同质区域HRk均为文本同质区域HRk*
步骤S1034:对迭代过滤之后的二值图像进行区域重塑,获取所述文本文档和非文本文档:
对迭代过滤之后的二值图像进行区域重塑,得到文本文档
Figure BDA0002827715500000131
和非文本文档(f中去除
Figure BDA0002827715500000132
),然后,获取最终的文本文档与非文本文档。具体如下:
若在同质区域中不再含有非文本分量或满足
Figure BDA0002827715500000133
表明HRk中仅包含文本元素,根据各同质区域的坐标得到文本文档:
Figure BDA0002827715500000134
非文本文档的计算公式为:
Figure BDA0002827715500000135
提取文本文档中所有连通分量的边界框B(CCi),令CCstext表示文本文档中所有连通分量CCi的集合,
Figure BDA0002827715500000136
表示文本文档的边界框图像;
Figure BDA0002827715500000137
令CCsntext表示非文本文档中所有连通分量CCj的集合,
Figure BDA0002827715500000138
Figure BDA0002827715500000139
则最终输出的文本文档和非文本文档分别为:
Figure BDA00028277155000001310
Figure BDA00028277155000001311
文本文档示意图如图3所示,非文本文档示意图如图4所示。
结合使用启发式过滤和递归过滤,能够减少整个过程的计算时间,提高版面分析精度。
步骤S104:对所述文本文档进行区域分割,提取文本区域:
作为一个具体实施方式,以下给出该步骤的一种实现过程:
将文本文档ftext中的文本元素聚集到一起,提取文本外围框(text lines,TL),得到
Figure BDA00028277155000001312
计算过程如下:
Figure BDA00028277155000001313
将CCi和CCj进行连接若满足下述条件:
Figure BDA0002827715500000141
这里,参数θ的选取与语言有关(此处非拉丁语言,θ=1.3)。
文本文档的文本外围框示意图如图5所示。
然后,基于
Figure BDA0002827715500000142
合并文本行获取所有同质区域,根据间距进行段落分割。在每个同质区域中,文本框一般是竖直的,可利用第一行的左间距和最后一行的右间距将文本分割为段落。连续扫描三行间距来得到分割位置(段落分割过程仅适用于文本行数超过三行且宽度足够的区域)。
最后,将段落分割之后得到的每个同质区域中,高度以及垂直距离均满足近距离要求(即高度以及垂直距离相近)的文本行进行合并,使用形态闭合平滑的矩形核来提取对应的文本区域。而且,根据每个区域的大小或位置,可以进一步将其划分子类,如段落、页码区域等。
文本文档的区域分割示意图如图6所示。
步骤S105:获取所述非本文文档中的图像元素:
该步骤是对获取的非文本文档的进一步操作,先对非文本文档中的每个图像区域进行形态膨胀,获取边界,然后,根据边界,分离得到非本文文档中的图像元素。
本实施例中,为了得到无噪声干扰的文本文档和非文本文档,提升版面分析可靠性和准确性,在步骤S105之后,该藏文古籍的版面分析方法还包括:
对步骤S104和步骤S105得到的文本文档和非文本文档进行除噪,得到无噪声干扰的文本文档和非文本文档。其中,进行噪声检测时,在每个线条、图像区域的边界,存在的较小尺寸的直线,判断为噪声(由扫描过程带入)。
如图7所示,为本申请提供的藏文古籍的版面分析方法一种具体的实现过程,其中,对获取的藏文古籍图像进行光照均衡、倾斜校正、二值化等预处理,获取文档图像的二值图像;对二值图像进行连通分量分析,结合空白格距离和预设阈值判定文本元素与非文本元素;通过启发式过滤和递归过滤,去除非文本元素;提取文本文档和非文本文档中所有连通分量的边界框,获取文本文档和非文本文档;对于文本文档,进一步进行段落分割以及细化子分类;对于非文本文档,通过形态膨胀分离获取图像元素;通过噪声检测,获取最终文本区域与非文本区域(图像)分离的文档版面分析结果。
对应于上文中的藏文古籍的版面分析方法实施例中所述的藏文古籍的版面分析方法,图8示出了本申请实施例二提供的藏文古籍的版面分析系统的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图8,藏文古籍的版面分析系统200包括:
藏文古籍图像获取模块201,用于获取藏文古籍图像;
二值化模块202,用于对所述藏文古籍图像进行二值化处理,获取所述藏文古籍图像的二值图像;
图像分离模块203,用于对所述二值图像进行分离处理,获取所述二值图像中的文本文档和非文本文档;
文本文档分割模块204,用于对所述文本文档进行区域分割,提取文本区域;
图像元素获取模块205,用于获取所述非本文文档中的图像元素。
需要说明的是,上述装置/模块之间的信息交互、执行过程等内容,由于与本申请藏文古籍的版面分析方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见藏文古籍的版面分析方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将所述藏文古籍的版面分析系统200的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述中各功能模块的具体工作过程,可以参考前述藏文古籍的版面分析方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种藏文古籍的版面分析方法,其特征在于,包括:
获取藏文古籍图像;
对所述藏文古籍图像进行二值化处理,获取所述藏文古籍图像的二值图像;
对所述二值图像进行分离处理,获取所述二值图像中的文本文档和非文本文档;
对所述文本文档进行区域分割,提取文本区域;
获取所述非本文文档中的图像元素。
2.根据权利要求1所述的藏文古籍的版面分析方法,其特征在于,所述对所述藏文古籍图像进行二值化处理,获取所述藏文古籍图像的二值图像,包括:
对所述藏文古籍图像进行灰度化处理,得到灰度图像;
对所述灰度图像进行二值化处理,得到所述藏文古籍图像的二值图像。
3.根据权利要求2所述的藏文古籍的版面分析方法,其特征在于,所述对所述灰度图像进行二值化处理,得到所述藏文古籍图像的二值图像,包括:
对所述灰度图像使用Sauvola算法求取每个像素(x,y)的局部阈值,计算公式如下:
Figure FDA0002827715490000011
其中,T(x,y)为所述局部阈值,m(x,y)和s(x,y)表示像素中心为(x,y)的W×W窗口的局部平均值和标准差,R是标准差的最大值,参数k为预设参数;
像素(x,y)的积分图像I的计算公式为:
Figure FDA0002827715490000012
其中,g(x,y)为所述灰度图像;
任意W窗口的局部平均值m(x,y)和标准差s(x,y)的计算公式为:
Figure FDA0002827715490000021
Figure FDA0002827715490000022
Figure FDA0002827715490000023
Figure FDA0002827715490000024
其中,对于a×b的图像,窗口尺寸选为W=1/2×min(a,b);
将属于前景的像素赋值为1,背景像素赋值为0,所述藏文古籍图像的二值图像f(x,y)的计算公式为:
Figure FDA0002827715490000025
4.根据权利要求2所述的藏文古籍的版面分析方法,其特征在于,所述对所述藏文古籍图像进行灰度化处理,得到灰度图像之前,所述藏文古籍的版面分析方法还包括:
对所述藏文古籍图像依次进行Gamma矫正和基于Hough变换的倾斜矫正。
5.根据权利要求1所述的藏文古籍的版面分析方法,其特征在于,所述对所述二值图像进行分离处理,获取所述二值图像中的文本文档和非文本文档,包括:
在所述二值图像中提取和标注连通分量,并判定连通分量为文本元素还是非文本元素;
根据启发式过滤过程去除所述非文本元素;
对经过所述启发式过滤过程得到的二值图像进行迭代过滤;
对迭代过滤之后的二值图像进行区域重塑,获取所述文本文档和非文本文档。
6.根据权利要求5所述的藏文古籍的版面分析方法,其特征在于,所述在所述二值图像中提取和标注连通分量,并判定连通分量为文本元素还是非文本元素,包括:
记CCs为二值图像f的所有连通分量集,CCi是第i个连通分量,B(CCi)是CCi的边界框,左上和右下的坐标分别为与(Xli,Yli),(Xri,Yri),Hi和Wi是B(CCi)的高度和宽度;Holap(CCi)和Volap(CCi)是分别与CCi在同一列和同一行的连通分量的集合:
Holap(CCi)={CCi∈CCs|max(Xli,Xlj)-min(Xri,Xrj)<0}
Volap(CCi)={CCi∈CCs|max(Yli,Ylj)-min(Yri,Yrj)<0}
连通分量的左右近邻判断过程如下:
CCi的右近邻为CCj,j≠i满足
Figure FDA0002827715490000031
CCj∈Volap(CCi),CCj不在CCi内部,Xlj>Xrj,且:
Xlj-Xrj=min{Xlt-Xrj>0|CCt∈Volap(CCi)}
其中,Xlj-Xrj为CCi和CCj之间的空白格距离;
根据计算得到的空白格距离,结合预设阈值,判定连通分量为文本元素还是非文本元素;
相应地,所述根据启发式过滤过程去除所述非文本元素,包括:
连通分量如果满足以下四个条件中的任意一个,则判断其为非文本元素:
条件一:连通分量中的像素数量小于预设像素个数阈值;
条件二:连通分量内部包含的边界框个数大于预设边界框个数阈值;
条件三:连通分量的密度小于预设密度阈值;
条件四:连通分量的高度和宽度的比例没有处于预设正常比例范围;
设定CCs′表示经过上述四个条件过滤后得到的非文本元素集合,则
Figure FDA0002827715490000032
Figure FDA0002827715490000041
且CCs=CCs\CCs′
其中,
Figure FDA0002827715490000042
为经过启发式过滤后得到的二值图像;
相应地,所述对经过所述启发式过滤过程得到的二值图像进行迭代过滤,包括:
(1)提取
Figure FDA0002827715490000043
的同质区域HRk,其中,
Figure FDA0002827715490000044
m是同质区域个数;
(2)在所有同质区域HRk中使用空白格分析来识别非文本分量及其标签,记作
Figure FDA0002827715490000045
使用标签矩阵移除这些非文本分量从而得到新的二值图像
Figure FDA0002827715490000046
(3)重复所述步骤(1)和(2),直到没有任何非文本分量或
Figure FDA0002827715490000047
此时,所有同质区域HRk均为文本同质区域HRk*
相应地,所述对迭代过滤之后的二值图像进行区域重塑,获取所述文本文档和非文本文档,包括:
根据各同质区域的坐标得到文本文档:
Figure FDA0002827715490000048
非文本文档的计算公式为:
Figure FDA0002827715490000049
提取文本文档中所有连通分量的边界框B(CCi),令CCstext表示文本文档中所有连通分量CCi的集合,
Figure FDA00028277154900000410
表示文本文档的边界框图像;
Figure FDA00028277154900000411
令CCsntext表示非文本文档中所有连通分量CCj的集合,
Figure FDA00028277154900000412
Figure FDA00028277154900000413
则最终输出的文本文档和非文本文档分别为:
Figure FDA00028277154900000414
Figure FDA0002827715490000051
7.根据权利要求1所述的藏文古籍的版面分析方法,其特征在于,所述对所述文本文档进行区域分割,提取文本区域,包括:
将文本文档ftext中的文本元素聚集到一起,提取文本外围框,得到
Figure FDA0002827715490000052
基于
Figure FDA0002827715490000053
合并文本行获取所有同质区域,根据间距进行段落分割;
将段落分割之后得到的每个同质区域中,高度以及垂直距离均满足近距离要求的文本行进行合并,使用形态闭合平滑的矩形核来提取对应的文本区域。
8.根据权利要求1所述的藏文古籍的版面分析方法,其特征在于,所述获取所述非本文文档中的图像元素,包括:
对所述非文本文档中的每个图像区域进行形态膨胀,获取边界;
根据边界,分离得到所述非本文文档中的图像元素。
9.根据权利要求1所述的藏文古籍的版面分析方法,其特征在于,所述对所述二值图像进行分离处理,获取所述二值图像中的文本文档和非文本文档之后,所述藏文古籍的版面分析方法还包括:
对所述文本文档和非文本文档进行除噪,得到无噪声干扰的文本文档和非文本文档。
10.一种藏文古籍的版面分析系统,其特征在于,包括:
藏文古籍图像获取模块,用于获取藏文古籍图像;
二值化模块,用于对所述藏文古籍图像进行二值化处理,获取所述藏文古籍图像的二值图像;
图像分离模块,用于对所述二值图像进行分离处理,获取所述二值图像中的文本文档和非文本文档;
文本文档分割模块,用于对所述文本文档进行区域分割,提取文本区域;
图像元素获取模块,用于获取所述非本文文档中的图像元素。
CN202011434430.6A 2020-12-10 2020-12-10 一种藏文古籍的版面分析方法及系统 Active CN112561928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011434430.6A CN112561928B (zh) 2020-12-10 2020-12-10 一种藏文古籍的版面分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011434430.6A CN112561928B (zh) 2020-12-10 2020-12-10 一种藏文古籍的版面分析方法及系统

Publications (2)

Publication Number Publication Date
CN112561928A true CN112561928A (zh) 2021-03-26
CN112561928B CN112561928B (zh) 2024-03-08

Family

ID=75060217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011434430.6A Active CN112561928B (zh) 2020-12-10 2020-12-10 一种藏文古籍的版面分析方法及系统

Country Status (1)

Country Link
CN (1) CN112561928B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516041A (zh) * 2021-05-14 2021-10-19 西北民族大学 一种藏文古籍文档图像版面分割、识别方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101585842B1 (ko) * 2015-10-05 2016-01-15 주식회사 시큐브 세그먼트 블록 기반 수기서명 인증 시스템 및 방법
CN106156006A (zh) * 2016-07-05 2016-11-23 尼玛扎西 藏文字成分分析方法、藏文排序方法以及对应装置
CN106295648A (zh) * 2016-07-29 2017-01-04 湖北工业大学 一种基于多光谱成像技术的低质量文档图像二值化方法
JP2017228297A (ja) * 2016-06-23 2017-12-28 キヤノン株式会社 テキスト検出方法および装置
CN109190632A (zh) * 2018-08-23 2019-01-11 甘肃政法学院 一种古籍文档图像的二值化方法
US20190163971A1 (en) * 2017-11-30 2019-05-30 Konica Minolta Laboratory U.S.A., Inc. Text line segmentation method
CN110032938A (zh) * 2019-03-12 2019-07-19 北京汉王数字科技有限公司 一种藏文识别方法、装置及电子设备
CN110516673A (zh) * 2019-08-30 2019-11-29 西南大学 基于连通分量和回归式字切分的彝文古籍字符检测方法
CN110533047A (zh) * 2019-08-30 2019-12-03 西南大学 一种针对古籍图片的去噪和二值化方法
CN111626302A (zh) * 2020-05-25 2020-09-04 西北民族大学 乌金体藏文古籍文档图像的粘连文本行切分方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101585842B1 (ko) * 2015-10-05 2016-01-15 주식회사 시큐브 세그먼트 블록 기반 수기서명 인증 시스템 및 방법
JP2017228297A (ja) * 2016-06-23 2017-12-28 キヤノン株式会社 テキスト検出方法および装置
CN106156006A (zh) * 2016-07-05 2016-11-23 尼玛扎西 藏文字成分分析方法、藏文排序方法以及对应装置
CN106295648A (zh) * 2016-07-29 2017-01-04 湖北工业大学 一种基于多光谱成像技术的低质量文档图像二值化方法
US20190163971A1 (en) * 2017-11-30 2019-05-30 Konica Minolta Laboratory U.S.A., Inc. Text line segmentation method
CN109190632A (zh) * 2018-08-23 2019-01-11 甘肃政法学院 一种古籍文档图像的二值化方法
CN110032938A (zh) * 2019-03-12 2019-07-19 北京汉王数字科技有限公司 一种藏文识别方法、装置及电子设备
CN110516673A (zh) * 2019-08-30 2019-11-29 西南大学 基于连通分量和回归式字切分的彝文古籍字符检测方法
CN110533047A (zh) * 2019-08-30 2019-12-03 西南大学 一种针对古籍图片的去噪和二值化方法
CN111626302A (zh) * 2020-05-25 2020-09-04 西北民族大学 乌金体藏文古籍文档图像的粘连文本行切分方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
冯炎;: "基于背景估计和对比度补偿的退化古籍图像二值化算法", 科学技术与工程, no. 34 *
熊炜;贾锈闳;金靖熠;王娟;刘敏;曾春艳;: "基于MD-LinkNet的低质量文档图像二值化算法", 光电子・激光, no. 12 *
王梦锦;拥措;李善琛;: "藏文古籍文本检测研究现状", 电脑知识与技术, no. 10 *
高飞;沈淑涛;: "藏文古籍图像信息自适应补偿二值化算法研究", 电子制作, no. 20 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516041A (zh) * 2021-05-14 2021-10-19 西北民族大学 一种藏文古籍文档图像版面分割、识别方法及系统

Also Published As

Publication number Publication date
CN112561928B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
US20240119219A1 (en) Determining functional and descriptive elements of application images for intelligent screen automation
JP5492205B2 (ja) 印刷媒体ページの記事へのセグメント化
US10643094B2 (en) Method for line and word segmentation for handwritten text images
US9330331B2 (en) Systems and methods for offline character recognition
CN110717497B (zh) 图像相似度匹配方法、装置及计算机可读存储介质
CN113486828A (zh) 图像处理方法、装置、设备和存储介质
Shafii Optical character recognition of printed persian/arabic documents
US8559718B1 (en) Defining a layout of text lines of CJK and non-CJK characters
Chiu et al. Picture detection in document page images
Kaundilya et al. Automated text extraction from images using OCR system
CN114581928A (zh) 一种表格识别方法及系统
CN112561928B (zh) 一种藏文古籍的版面分析方法及系统
CN114495141A (zh) 文档段落位置提取方法、电子设备及存储介质
Epshtein Determining document skew using inter-line spaces
Pan et al. Document layout analysis and reading order determination for a reading robot
Radzid et al. Framework of page segmentation for mushaf Al-Quran based on multiphase level segmentation
Radzid et al. Text line segmentation for mushaf Al-Quran using hybrid projection based neighbouring properties
CN112434700A (zh) 车牌识别方法、装置、设备及存储介质
Das et al. Seam carving, horizontal projection profile and contour tracing for line and word segmentation of language independent handwritten documents
El Makhfi Handwritten text segmentation approach in historical Arabic documents
Choudhary et al. A robust technique for handwritten words segmentation into individual characters
Mehta et al. A survey on the application of image processing techniques on palm leaf manuscripts
CN115731250A (zh) 文本分割方法、装置、设备及存储介质
Tursun et al. A Joint Approach of Harris Corners Detection and Baseline Searching for Localization of Uyghur Text Lines in Image Sequences.
CN112699712A (zh) 文档图像的区域分离方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant