CN108021900A - 版面分栏方法及装置 - Google Patents

版面分栏方法及装置 Download PDF

Info

Publication number
CN108021900A
CN108021900A CN201711365898.2A CN201711365898A CN108021900A CN 108021900 A CN108021900 A CN 108021900A CN 201711365898 A CN201711365898 A CN 201711365898A CN 108021900 A CN108021900 A CN 108021900A
Authority
CN
China
Prior art keywords
subfield
text
column
cost
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711365898.2A
Other languages
English (en)
Other versions
CN108021900B (zh
Inventor
胡雨隆
胡金水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201711365898.2A priority Critical patent/CN108021900B/zh
Publication of CN108021900A publication Critical patent/CN108021900A/zh
Application granted granted Critical
Publication of CN108021900B publication Critical patent/CN108021900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种版面分栏方法及装置,该方法包括:获取待分栏文本图像;沿Y轴扫描整张所述待分栏文本图像,保存X轴上的空白段;分别沿Y轴自上而下和/或自下而上扫描所述空白段,得到第一组分割线和/或第二组分割线;根据所述第一组分割线和/或所述第二组分割线得到基于整体分析的分栏结果。利用本发明,针对复杂手写版面,也能得到理想的分栏效果。

Description

版面分栏方法及装置
技术领域
本发明涉及图像处理领域,具体涉及一种版面分栏方法及装置。
背景技术
随着计算机科学与技术的发展,自动化信息处理能力和水平也得到了显著的提高。文档的电子化应用已遍及人们生活工作中各个方面,对工作方式、生活方式带来了巨大的变革,也深刻影响到了教育领域。文档中版面的分析、分栏是文档电子化过程中必不可少的步骤之一,其分析的准确性直接影响文档电子化的结果,因而一直受到相关技术研究人员的重视。
现有的针对文档版面分栏的主流方法:基于印刷体文档中的栏多是规整矩形考虑,通过在空白区域进行矩阵检测与归纳,找到栏与栏之间的间隔,最终得到分栏结果。
这种版面分栏方法只在排版整齐、棱角分明的文档(以印刷体文档为典型)有效,而对于书写杂乱、存在多栏,且各栏之间分布无规律可循的手写文档,尤其是数理化的解题文档,现有的版面分栏效果则很不理想。
发明内容
本发明实施例提供一种版面分栏方法及装置,以便针对复杂手写版面,也能得到理想的分栏效果。
为此,本发明提供如下技术方案:
本发明实施例提供的版面分栏方法及装置,将整张图像作为分析对象,通过空白段分析找到沿Y轴的栏分割线,将整张图像分割成多栏,即基于整体分析的分栏结果。
进一步地,在基于整体分析的分栏结果基础上,将每个栏作为分析对象,针对每个分析对象,先对其进行文本行切分,然后以文本行为最小单元对文本行进行合并成栏处理,得到最终分栏结果。
进一步地,将整张图像作为分析对象,先对其进行文本行切分,然后以文本行为最小单元对文本行进行合并成栏处理,得到基于文本行合并的分栏结果,最后对基于整体分析的分栏结果和基于文本行合并的分栏结果取并集,得到最终分栏结果。
本发明方案不仅适用于排版整齐、棱角分明文档,而且更适用于版面中存在多栏、且栏分布没有固定规则的复杂手写版面的分栏,比如数学试卷中手写答案,可以得到准确的分栏结果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例版面分栏方法的一种流程图;
图2是本发明实施例中X轴上空白段示意图;
图3是本发明实施例版面分栏方法的另一种流程图;
图4是本发明实施例版面分栏方法的另一种流程图;
图5是本发明实施例版面分栏方法的另一种流程图;
图6是本发明实施例中对文本行进行合并成栏处理的流程图;
图7是本发明实施例版面分栏装置的一种结构示意图;
图8是本发明实施例版面分栏装置的另一种结构示意图;
图9是本发明实施例版面分栏装置的另一种结构示意图;
图10是本发明实施例中分栏处理模块的一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
针对现有的分栏方法针对复杂手写版面无法得到理想的分栏效果的问题,本发明实施例提出一种版面分栏方法及装置,将整张图像作为分析对象,通过空白段分析找到沿Y轴的栏分割线,将整张图像分割成多栏,即基于整体分析的分栏结果。
进一步地,在基于整体分析的分栏结果基础上,将每个栏作为分析对象,针对每个分析对象,以文本行为最小单元对文本行进行合并成栏处理,得到最终分栏结果。
进一步地,将整张图像作为分析对象,以文本行为最小单元对文本行进行合并成栏处理,得到基于文本行合并的分栏结果,然后对基于整体分析的分栏结果和基于文本行合并的分栏结果取并集,得到最终分栏结果。
如图1所示,是本发明实施例版面分栏方法的一种流程图,包括以下步骤:
步骤101,获取待分栏文本图像。
所述待分栏文本图像可以采用扫描仪设备进行扫描,或者采用高拍仪、移动设备等获取。
步骤102,沿Y轴扫描整张所述待分栏文本图像,保存X轴上的空白段。
沿Y轴扫描整张图像,具体地,可以由上往下或者由下往上扫描,在扫描时,得到每个Y轴上的像素点对应X轴方向上的空白段。所述空白段可以定义为在高度为h的矩形内没有像素点的x轴方向段,高度h的取值可根据实际应用情况确定,比如h为10个像素点。X轴上空白段示意图如图2所示。
需要说明的是,所述X轴和Y轴可以看作常规意义上的坐标轴,即水平轴和纵轴,当然,对于文本倾斜的文本,所述X轴和Y轴也可以是文本具有相同倾斜角度的坐标轴。
步骤103,沿Y轴自上而下扫描所述空白段,得到第一组分割线。
具体地,依次将Y轴最上端的各空白段作为起始空白段,向下搜索符合要求的空白段,直至Y=0,根据搜索到的重叠空白段得到对应当前起始空白段的分割线;将对应所有起始空白段的分割线作为第一组分割线。
沿Y轴自上而下的扫描过程如下:
(1)依次将Y轴最上端的各空白段作为起始空白段存入栈中;
(2)取栈顶空白段作为当前待检测空白段;
(3)判断当前待检测空白段的Y值是否为0;
(4)如果是,则根据栈中的空白段得到对应当前起始空白段的分割线;比如,将栈中每个空白段的中心连接,即可形成第一组分割线;
(5)如果不是,则向下检测是否存在未被标记为已访问的空白段为重叠空白段,所述重叠空白段是指在X轴上与当前待检测空白段有重叠的空白段;
(6)如果存在重叠空白段,则将所述重叠空白段存入栈中,然后执行步骤(2);
(7)如果不存在重叠空白段,则将当前待检测空白段标记为已访问空白段,并从栈中弹出;
(8)判断栈中是否还有空白段;如果有,则执行步骤(2);否则确定没有对应当前起始空白段的分割线。
需要说明的是,上述步骤(5)中向下检测不仅要检测与当前待检测空白段具有相同X值(比如以空白段起始位置的X值作为该空白段的X值)的空白段,还要检测与当前待检测空白段具有不同X值的空白段,检测顺序优选为由上往下,由左往右;当然,也可以采用其它顺序,能够得到同样的检测结果。
步骤104,根据所述第一组分割线得到基于整体分析的分栏结果。
将满足要求的空白段集合中每个空白段的中心连接形成分割线。
需要说明的是,在本发明方法另一实施例中,在上述步骤103中,还可以沿Y轴自下而上扫描各空白段,得到第二组分割线。即,依次将Y轴最下端的各空白段作为起始空白段,向上搜索符合要求的空白段,直至Y=图像高度,根据搜索到的重叠空白段得到对应当前起始空白段的分割线;将对应所有起始空白段的分割线作为第二组分割线。
沿Y轴自下而上的扫描过程与上述类似,具体如下:
(1)依次将Y轴最下端的各空白段作为起始空白段存入栈中;
(2)取栈顶空白段作为当前待检测空白段;
(3)判断当前待检测空白段的Y值是否为图像高度;
(4)如果是,则根据栈中的空白段得到对应当前起始空白段的分割线;
(5)如果不是,则向上检测是否存在未被标记为已访问的空白段为重叠空白段,所述重叠空白段是指在X轴上与当前待检测空白段有重叠的空白段;
(6)如果存在重叠空白段,则将所述重叠空白段存入栈中,然后执行步骤(2);
(7)如果不存在重叠空白段,则将当前待检测空白段标记为已访问空白段,并从栈中弹出;
(8)判断栈中是否还有空白段;如果有,则执行步骤(2);否则确定没有对应当前起始空白段的分割线。
如图3所示,是本发明实施例版面分栏方法的另一种流程图,包括以下步骤:
步骤301,获取待分栏文本图像。
步骤302,沿Y轴扫描整张所述待分栏文本图像,保存X轴上的空白段。
步骤303,分别沿Y轴自上而下和自下而上扫描所述空白段,得到第一组分割线和第二组分割线。
步骤304,根据所述第一组分割线和所述第二组分割线得到基于整体分析的分栏结果。
具体地,可以将两组分割线进行合并,考虑到扫描误差的存在,在合并时,可以将两组分割线中间距在一定范围内的不同分割线合并成一条分割线。当然,也可以取两组分割线的并集作为最终分割线对图像进行分栏,得到整体分析的分栏结果。
本发明实施例提供的版面分栏方法,将整张图像作为分析对象,通过空白段分析找到沿Y轴的栏分割线,将整张图像分割成多栏,即基于整体分析的分栏结果。
为了进一步提高分栏的精度,在本发明方法另一实施例中,还可以在基于整体分析的分栏结果基础上,将每个栏作为分析对象,针对每个分析对象,先对其进行文本行切分,然后以文本行为最小单元对文本行进行合并成栏处理,得到最终分栏结果。
如图4所示,是本发明实施例版面分栏方法的另一种流程图,包括以下步骤:
步骤401,获取待分栏文本图像。
步骤402,沿Y轴扫描整张所述待分栏文本图像,保存X轴上的空白段。
步骤403,分别沿Y轴自上而下和自下而上扫描所述空白段,得到第一组分割线和第二组分割线。
步骤404,根据所述第一组分割线和所述第二组分割线得到基于整体分析的分栏结果。
步骤405,依次获取基于整体分析的分栏结果中的每个分栏图像,对所述分栏图像进行文本行切分,得到各文本行。
所述文本行切分可采用现有技术实现,如通过投影统计的方法、连通体聚类的方法等,对此本发明实施例不做限定。
步骤406,对所述文本行进行合并成栏处理,得到最终分栏结果。
具体地,以文本行为最小单元进行合并,通过计算各种合并方案存在的合并代价,最终选取最优的合并方案作为分栏分析结果。所述合并代价包括栏内代价和栏间代价。
对所述文本行进行合并成栏处理的具体过程将在后面详细说明。
需要说明的是,在上述步骤403和步骤404中,是基于两组分割线得到基于整体分析的分栏结果,在实际应用中,也可以基于其中任意一组分割线得到基于整体分析的分栏结果。
为了进一步提高分栏的准确性,在本发明方法另一实施例中,还可以将整张图像作为分析对象,分别采用不同的方法得到分栏结果,具体地,将整张图像作为分析对象,通过空白段分析找到沿Y轴的栏分割线,将整张图像分割成多栏,得到基于整体分析的分栏结果;对整张图像进行文本行切分,以文本行为最小单元对文本行进行合并成栏处理,得到基于文本行合并的分栏结果。最后对基于整体分析的分栏结果和基于文本行合并的分栏结果取并集,得到最终分栏结果。
如图5所示,是本发明实施例版面分栏方法的另一种流程图,包括以下步骤:
步骤501,获取待分栏文本图像。
步骤502,沿Y轴扫描整张所述待分栏文本图像,保存X轴上的空白段。
步骤503,分别沿Y轴自上而下和自下而上扫描所述空白段,得到第一组分割线和第二组分割线。
步骤504,根据所述第一组分割线和所述第二组分割线得到基于整体分析的分栏结果。
步骤505,对所述待分栏文本图像进行文本行切分,得到各文本行。
步骤506,对所述文本行进行合并成栏处理,得到基于文本行合并的分栏结果。
具体地,将各文本行作为独立的文本栏,依次对相邻文本栏进行合并,并计算合并后的分栏代价,得到最小分栏代价;根据所述最小分栏代价得到基于文本行合并的分栏结果。
步骤507,对基于整体分析的分栏结果和基于文本行合并的分栏结果取并集,得到最终分栏结果。
本发明实施例的版面分栏方法,分别基于两种不同的方式得到基于整体分析的分栏结果和基于文本行合并的分栏结果,需要说明的是,在实际应用中,这两种不同方式的分析过程可以同时进行,也可以先后进行,而且先后顺序不受影响,也就是说,可以先进行基于整体分析的分栏处理,也可以先进行基于文本行合并的分栏处理,这两种分栏处理所针对的对象都是整张图像。在得到两种处理结果后,对基于整体分析的分栏结果和基于文本行合并的分栏结果取并集,得到最终分栏结果。
同样,需要说明的是,在上述步骤503和步骤504中,是基于两组分割线得到基于整体分析的分栏结果,在实际应用中,也可以基于其中任意一组分割线得到基于整体分析的分栏结果。此外,步骤505~506与步骤502~504没有明确的先后顺序,即除了上述图5的流程,可以将505~506与502~504顺序对调,对此本案不做限定。
另外,本发明实施例的方法不仅适用于横向书写的待分栏文本图像,通过对待分栏文本图像方向的变换或者对本发明方案中的坐标系及相应参数的变换,同样也适用于纵向书写的待分栏文本图像。
如图6所示,是本发明实施例中对文本行进行合并成栏处理的流程图,包括以下步骤:
步骤601,初始化:将每个文本行作为独立的文本栏,存入到文本栏集合中作为当前分栏结果,并计算当前分栏代价。
假设当前有N个文本栏,存入到文本栏集合A中,则A={A1,A2,…,AN}。
所述分栏代价包括:栏内代价和栏间代价;所述栏内代价是指文本栏内相邻文本行属于同一栏的代价;所述栏间代价是指当前文本栏与其相邻文本栏作为独立栏的代价。
两相邻文本行属于同一栏的代价值可通过预先构建的栏内代价模型model(feature(lk,lk))得到,其中,lk表示第k文本行,lk表示第k文本行的相邻行。所述栏内代价模型可以采用回归模型(如SVM、DNN等)。所述栏内代价模型的输入特征为以下任意一项或多项:两个相邻文本行的间距(比如,两行中各连通体重心连线的最小距离)、X轴重叠比例(即X轴重叠长度/两行X轴总长度),X轴长度比例(即短行的X轴长度/长行的X轴长度);所述栏内代价模型的输出为两个相邻文本行属于同一栏的代价值。
相应地,文本栏Ai的栏内代价值可通过函数f(Ai)计算:
其中,K为文本栏Ai中文本行的总数。
两相邻文本栏作为独立栏的代价值可通过预先构建的栏间代价模型model(feature(Ai,Aj))得到,其中,文本栏Aj表示文本栏Ai的相邻文本栏。
所述栏间代价模型同样可以采用回归模型(如SVM、DNN等)。所述栏间代价模型的输入特征为以下任意一项或多项:所述预测文本栏与相邻文本栏内像素外接凸包间的最小距离、X轴重叠比例(即X轴重叠长度/两行X轴总长度)、Y轴重叠比例(即Y轴重叠长度/两行Y轴总长度)、X轴长度比例(即短行的X轴长度/长行的X轴长度)、Y轴长度比例(即短行的Y轴长度/长行的Y轴长度);所述栏间代价模型的输出为两相邻栏作为独立栏的代价值。
相应地,文本栏Ai的栏间代价值可通过函数g(Ai)计算:
其中,Mi为文本栏Ai的相邻文本栏的总数,Aj表示文本栏Ai的相邻文本栏。
在基于上述公式(1)和(2)得到当前分栏结果中各文本栏的栏内代价和栏间代价后,可以基于这些文本栏的两个代价值得到当前分栏代价,比如可以将这些栏内代价和栏间代价进行加权,得到当前分栏代价;进一步地,为了避免分栏结果的过于精细或过于粗糙,还可以将当前文本栏的数量考虑到计算当前分栏代价的公式中,比如当前分栏代价的计算可以采用如下公式:
其中,α和β分别为栏内代价权值和栏间代价权值,N为当前文本栏的数量。λ为栏数的惩罚因子。α、β和λ值都可根据实际应用情况和/或大量实验、经验确定。
需要说明的是,所述相邻文本栏是指设定范围内的所有文本栏。比如,对于文本栏Ai,其相邻文本栏可以定义为以文本栏Ai的中心为原点,中心在半径为R范围内的所有文本栏。当然也可以是其它的设定范围,比如其它形状范围内,对此本发明实施例不做限定。
步骤602,依次选择当前分栏结果中的一个文本栏作为当前文本栏,将当前文本栏与其相邻文本栏合并后的文本栏作为预测文本栏,得到预测分栏结果,计算对应所述预测分栏结果的预测分栏代价,并得到其中的最小预测分栏代价。
也就是说,将选择的当前文本栏与其相邻文本栏合并后的文本栏作为一个新的文本栏,相应地,当前分栏结果也会发生相应的变化,将变化后的分栏结果作为预测分栏结果。需要说明的是,在将选择的当前文本栏与其相邻文本栏合并时,可以是与其部分相邻文本栏进行合并,也可以是与其所有相邻文本栏进行合并。
所述预测分栏代价的计算与前面步骤601中介绍的当前分栏代价的计算相同。假设当前分栏结果中有6个文本栏,则依次以每个文本栏作为当前文本栏,将其与相邻文本栏进行合并,计算对应该合并后的预测分栏代价,从而得到6个预测分栏代价,从中选择最小预测分栏代价。
步骤603,判断所述最小预测分栏代价是否小于当前分栏代价;如果是,则执行步骤604;否则,执行步骤605。
步骤604,更新当前分栏结果为所述最小预测分栏代价对应的预测分栏结果,并更新当前分栏代价为所述最小预测分栏代价,然后执行步骤602。
步骤605,将当前分栏结果作为最终分栏结果。
相应地,本发明实施例还提供一种版面分栏装置,如图7所示,是该装置的一种结构示意图。
图像获取模块701,用于获取待分栏文本图像;
空白段扫描模块702,用于沿Y轴扫描整张所述待分栏文本图像,保存X轴上的空白段;所述空白段为高度大于设定值的矩形内沿X轴方向没有像素点的区域段;
分割线扫描模块703,用于分别沿Y轴自上而下和/或自下而上扫描所述空白段,得到第一组分割线和/或第二组分割线;
第一分栏输出模块704,用于根据所述第一组分割线和/或所述第二组分割线得到基于整体分析的分栏结果。
上述图像获取模块701具体可以是扫描仪高拍仪、移动设备等。上述空白段扫描模块702在扫描所述待分栏文本图像时,可以由上往下或者由下往上扫描,得到每个Y轴上的像素点对应X轴方向上的空白段,所述空白段为高度大于设定值的矩形内沿X轴方向没有像素点的区域段。上述分割线扫描模块703对空白段的具体扫描过程可参见前面本发明方法实施例中的描述,在此不再赘述。
需要说明的是,如果分割线扫描模块703扫描空白段得到两组分割线,则所述第一分栏输出模块704具体可以将所述第一组分割线和所述第二组分割线进行合并,得到基于整体分析的分栏结果。
本发明实施例提供的版面分栏装置,将整张图像作为分析对象,通过空白段分析找到沿Y轴的栏分割线,将整张图像分割成多栏,即基于整体分析的分栏结果。
为了进一步提高分栏的精度,在本发明方法另一实施例中,还可以在基于整体分析的分栏结果基础上,将每个栏作为分析对象,针对每个分析对象,先对其进行文本行切分,然后以文本行为最小单元对文本行进行合并成栏处理,得到最终分栏结果。
如图8所示,是本发明实施例版面分栏装置的另一种结构示意图。
与图7所示实施例不同的是,在该实施例中,所述装置还包括:第一切分模块801和分栏处理模块802,其中:
所述第一切分模块801用于依次获取所述第一分栏输出模块704得到的基于整体分析的分栏结果中的每个分栏图像,对所述分栏图像进行文本行切分,得到各文本行;
所述分栏处理模块802用于对所述文本行进行合并成栏处理,得到最终分栏结果。
本发明实施例提供的版面分栏装置,首先将整张图像作为分析对象,通过空白段分析找到沿Y轴的栏分割线,将整张图像分割成多栏,然后在基于整体分析的分栏结果基础上,将每个栏作为分析对象,针对每个分析对象,先对其进行文本行切分,然后以文本行为最小单元对文本行进行合并成栏处理,得到最终分栏结果,进一步提高了分栏的精度。
如图9所示,是本发明实施例版面分栏装置的另一种结构示意图。
与图7所示实施例不同的是,在该实施例中,所述装置还包括:第二切分模块901、分栏处理模块902、第二分栏输出模块903,其中:
所述第二切分模块901用于对所述图像获取模块701待分栏文本图像进行文本行切分,得到各文本行;
分栏处理模块902用于对所述文本行进行合并成栏处理,得到基于文本行合并的分栏结果;
第二分栏输出模块903用于对所述第一分栏输出模块704得到的基于整体分析的分栏结果和所述分栏处理模块902得到的基于文本行合并的分栏结果取并集,得到最终分栏结果。
本发明实施例提供的版面分栏装置,将整张图像作为分析对象,分别采用不同的方法得到分栏结果,具体地,将整张图像作为分析对象,通过空白段分析找到沿Y轴的栏分割线,将整张图像分割成多栏,得到基于整体分析的分栏结果;对整张图像进行文本行切分,以文本行为最小单元对文本行进行合并成栏处理,得到基于文本行合并的分栏结果。最后对基于整体分析的分栏结果和基于文本行合并的分栏结果取并集,得到最终分栏结果。
上述图8中的分栏处理模块802和图9中的分栏处理模块902具体可以将各文本行作为独立的文本栏,依次对相邻文本栏进行合并,并计算合并后的分栏代价,得到最小分栏代价;根据所述最小分栏代价确定最终分栏结果。
图8中的分栏处理模块802和图9中的分栏处理模块902的一种具体结构如图10所示,包括以下各单元:
初始化单元11,用于将每个文本行作为独立的文本栏,存入到文本栏集合中作为当前分栏结果,并计算当前分栏代价;
预测单元12,用于依次选择当前分栏结果中的一个文本栏作为当前文本栏,将当前文本栏与其相邻文本栏合并后的文本栏作为预测文本栏,得到预测分栏结果,计算对应所述预测分栏结果的预测分栏代价,并得到其中的最小预测分栏代价;
判断单元13,用于判断所述最小预测分栏代价是否小于当前分栏代价;
更新单元14,用于在所述判断单元13判断所述最小预测分栏代价小于当前分栏代价后,更新当前分栏结果为所述最小预测分栏代价对应的预测分栏结果,并更新当前分栏代价为所述最小预测分栏代价,然后触发所述计算单元进行下一轮计算;
分栏结果输出单元15,用于在所述判断单元13判断所述最小预测分栏代价大于或等于当前分栏代价后,将当前分栏结果作为基于文本行合并的分栏结果。
上述预测单元12包括以下各子单元:
栏内代价计算子单元,用于计算所述预测文本栏的栏内代价,具体地,基于预先构建的栏内代价模型分别计算所述预测文本栏内每两个相邻文本行属于同一栏的代价值;所述栏内代价模型的输入为以下任意一项或多项:两个相邻文本行的间距、X轴重叠比例、X轴长度比例;所述栏内代价模型的输出为两个相邻文本行属于同一栏的代价值;将得到的所有代价值取平均值,将该平均值作为所述预测文本栏的栏内代价;
栏间代价计算子单元,用于计算所述预测文本栏与其相邻文本栏的栏间代价,具体地,基于预先构建的栏间代价模型计算所述预测文本栏与各相邻文本栏属于同一栏的代价值;所述栏间代价模型的输入为以下任意一项或多项:两文本栏内像素外接凸包间的最小距离、X轴重叠比例、Y轴重叠比例、X轴长度比例、Y轴长度比例;所述栏间代价模型的输出为两文本栏作为独立栏的代价值;将得到的所有代价值取平均值,将该平均值作为所述预测文本栏与其相邻文本栏的栏间代价;
预测分栏代价计算子单元,用于根据所述栏内代价和所述栏间代价得到预测分栏代价。
本发明实施例提供的版面分栏方法及装置,不仅适用于排版整齐、棱角分明文档,而且更适用于版面中存在多栏、且栏分布没有固定规则的复杂手写版面的分栏,比如数学试卷中手写答案,可以得到准确的分栏结果。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及装置;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种版面分栏方法,其特征在于,所述方法包括:
获取待分栏文本图像;
沿Y轴扫描整张所述待分栏文本图像,保存X轴上的空白段;
分别沿Y轴自上而下和/或自下而上扫描所述空白段,得到第一组分割线和/或第二组分割线;
根据所述第一组分割线和/或所述第二组分割线得到基于整体分析的分栏结果。
2.根据权利要求1所述的方法,其特征在于,所述空白段为高度大于设定值的矩形内沿X轴方向没有像素点的区域段。
3.根据权利要求1所述的方法,其特征在于,所述沿Y轴自上而下扫描所述空白段,得到第一组分割线包括:
依次将Y轴最上端的各空白段作为起始空白段,向下搜索符合要求的空白段,直至Y=0,根据搜索到的重叠空白段得到对应当前起始空白段的分割线;
将对应所有起始空白段的分割线作为第一组分割线。
4.根据权利要求1所述的方法,其特征在于,所述沿Y轴自下而上扫描所述空白段,得到第二组分割线包括:
依次将Y轴最下端的各空白段作为起始空白段,向上搜索符合要求的空白段,直至Y=图像高度,根据搜索到的重叠空白段得到对应当前起始空白段的分割线;
将对应所有起始空白段的分割线作为第二组分割线。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一组分割线和所述第二组分割线得到基于整体分析的分栏结果包括:
将所述第一组分割线和所述第二组分割线进行合并,得到基于整体分析的分栏结果。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
依次获取基于整体分析的分栏结果中的每个分栏图像,对所述分栏图像进行文本行切分,得到各文本行;
对所述文本行进行合并成栏处理,得到最终分栏结果。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述待分栏文本图像进行文本行切分,得到各文本行;
对所述文本行进行合并成栏处理,得到基于文本行合并的分栏结果;
对基于整体分析的分栏结果和基于文本行合并的分栏结果取并集,得到最终分栏结果。
8.根据权利要求6或7所述的方法,其特征在于,所述对所述文本行进行合并成栏处理,得到最终分栏结果包括:
将各文本行作为独立的文本栏,依次对相邻文本栏进行合并,并计算合并后的分栏代价,得到最小分栏代价;
根据所述最小分栏代价确定最终分栏结果。
9.根据权利要求8所述的方法,其特征在于,所述分栏代价包括:栏内代价和栏间代价;
计算当前文本栏的栏内代价包括:
基于预先构建的栏内代价模型分别计算当前文本栏内每两个相邻文本行属于同一栏的代价值;所述栏内代价模型的输入为以下任意一项或多项:两个相邻文本行的间距、X轴重叠比例、X轴长度比例;所述栏内代价模型的输出为两个相邻文本行属于同一栏的代价值;
将得到的所有代价值取平均值,将该平均值作为所述当前文本栏的栏内代价;
计算当前文本栏的栏间代价包括:
基于预先构建的栏间代价模型计算当前文本栏与各相邻文本栏不属于同一栏的代价值;所述栏间代价模型的输入为以下任意一项或多项:所述当前文本栏与相邻文本栏内像素外接凸包间的最小距离、X轴重叠比例、Y轴重叠比例、X轴长度比例、Y轴长度比例;所述栏间代价模型的输出为两相邻文本栏作为独立栏的代价值;
将得到的所有代价值取平均值,将该平均值作为所述当前文本栏的栏间代价。
10.一种版面分栏装置,其特征在于,所述装置包括:
图像获取模块,用于获取待分栏文本图像;
空白段扫描模块,用于沿Y轴扫描整张所述待分栏文本图像,保存X轴上的空白段;
分割线扫描模块,用于分别沿Y轴自上而下和/或自下而上扫描所述空白段,得到第一组分割线和/或第二组分割线;
第一分栏输出模块,用于根据所述第一组分割线和/或所述第二组分割线得到基于整体分析的分栏结果。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第一切分模块,用于依次获取所述第一分栏输出模块得到的基于整体分析的分栏结果中的每个分栏图像,对所述分栏图像进行文本行切分,得到各文本行;
分栏处理模块,用于对所述文本行进行合并成栏处理,得到最终分栏结果。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第二切分模块,用于对所述图像获取模块获取的待分栏文本图像进行文本行切分,得到各文本行;
分栏处理模块,用于对所述文本行进行合并成栏处理,得到基于文本行合并的分栏结果;
第二分栏输出模块,用于对所述第一分栏输出模块得到的基于整体分析的分栏结果和所述分栏处理模块得到的基于文本行合并的分栏结果取并集,得到最终分栏结果。
13.根据权利要求11或12所述的装置,其特征在于,
所述分栏处理模块,具体用于将各文本行作为独立的文本栏,依次对相邻文本栏进行合并,并计算合并后的分栏代价,得到最小分栏代价;根据所述最小分栏代价确定最终分栏结果。
CN201711365898.2A 2017-12-18 2017-12-18 版面分栏方法及装置 Active CN108021900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711365898.2A CN108021900B (zh) 2017-12-18 2017-12-18 版面分栏方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711365898.2A CN108021900B (zh) 2017-12-18 2017-12-18 版面分栏方法及装置

Publications (2)

Publication Number Publication Date
CN108021900A true CN108021900A (zh) 2018-05-11
CN108021900B CN108021900B (zh) 2022-05-17

Family

ID=62073882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711365898.2A Active CN108021900B (zh) 2017-12-18 2017-12-18 版面分栏方法及装置

Country Status (1)

Country Link
CN (1) CN108021900B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697414A (zh) * 2018-12-13 2019-04-30 北京金山数字娱乐科技有限公司 一种文本定位方法及装置
CN111160234A (zh) * 2019-12-27 2020-05-15 掌阅科技股份有限公司 表格识别方法、电子设备及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096592A (zh) * 2016-07-22 2016-11-09 浙江大学 一种数字图书的版面分析方法
JP2016191989A (ja) * 2015-03-30 2016-11-10 ブラザー工業株式会社 プログラム及び管理装置
CN107180239A (zh) * 2017-06-09 2017-09-19 科大讯飞股份有限公司 文本行识别方法及系统
CN107301418A (zh) * 2017-06-28 2017-10-27 江南大学 光学字符识别中的版面分析

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016191989A (ja) * 2015-03-30 2016-11-10 ブラザー工業株式会社 プログラム及び管理装置
CN106096592A (zh) * 2016-07-22 2016-11-09 浙江大学 一种数字图书的版面分析方法
CN107180239A (zh) * 2017-06-09 2017-09-19 科大讯飞股份有限公司 文本行识别方法及系统
CN107301418A (zh) * 2017-06-28 2017-10-27 江南大学 光学字符识别中的版面分析

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
杨宁: "基于背景间隔的中文版面分析系统", 《中国优秀博硕士学位论文全文数据库 信息科技辑 2002年第02期》 *
谢凤英等: "基于空白条方向拟合的复杂文本图像倾斜检测", 《计算机应用》 *
陈明等: "复杂中文报纸的版面分析、理解和重构", 《清华大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697414A (zh) * 2018-12-13 2019-04-30 北京金山数字娱乐科技有限公司 一种文本定位方法及装置
CN111160234A (zh) * 2019-12-27 2020-05-15 掌阅科技股份有限公司 表格识别方法、电子设备及计算机存储介质

Also Published As

Publication number Publication date
CN108021900B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN110516208B (zh) 一种针对pdf文档表格提取的系统及方法
US10853565B2 (en) Method and device for positioning table in PDF document
CN106803071B (zh) 一种图像中的物体检测方法及装置
CN109643399B (zh) 多类别分类器的交互式性能可视化
Saabni et al. Language-independent text lines extraction using seam carving
US7899249B2 (en) Media material analysis of continuing article portions
JP5379085B2 (ja) スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム
CN108900546A (zh) 基于lstm的时间序列网络异常检测的方法与装置
CN101425142B (zh) 页面倾斜角度的确定方法和装置
CN101093519A (zh) 用于在ic制造中提高成品率的方法和服务
Younis et al. Detection and annotation of plant organs from digitised herbarium scans using deep learning
CN113158808A (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
CN101901494A (zh) 自动实现地图注记的方法及其系统
CN109635687B (zh) 基于时序点集计算的汉字文本行书写质量自动评价方法和系统
Bienert et al. Automatic extraction and measurement of individual trees from mobile laser scanning point clouds of forests
CN112070079B (zh) 基于特征图重赋权的x光违禁品包裹检测方法及装置
CN114004204A (zh) 基于计算机视觉的表格结构重建与文字提取方法和系统
CN105069774A (zh) 基于多示例学习与图割优化的目标分割方法
CN110449658A (zh) 板材开料方法及装置
CN108021900A (zh) 版面分栏方法及装置
CN112651331A (zh) 文本表格提取方法、系统、计算机设备及存储介质
Ghosh et al. Textual content retrieval from filled-in form images
CN116596921B (zh) 一种焚烧炉渣分选方法及系统
CN109062921A (zh) 一种提取船舶托盘管理信息的方法及系统
CN109145916B (zh) 一种图像文字识别切割方法及一种存储设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant