CN102591845A - 一种重叠文字的处理方法和装置 - Google Patents

一种重叠文字的处理方法和装置 Download PDF

Info

Publication number
CN102591845A
CN102591845A CN2011100055015A CN201110005501A CN102591845A CN 102591845 A CN102591845 A CN 102591845A CN 2011100055015 A CN2011100055015 A CN 2011100055015A CN 201110005501 A CN201110005501 A CN 201110005501A CN 102591845 A CN102591845 A CN 102591845A
Authority
CN
China
Prior art keywords
literal piece
literal
piece
overlapping
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100055015A
Other languages
English (en)
Other versions
CN102591845B (zh
Inventor
徐剑波
董宁
黄文娟
朱兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Founder Apabi Technology Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201110005501.5A priority Critical patent/CN102591845B/zh
Publication of CN102591845A publication Critical patent/CN102591845A/zh
Application granted granted Critical
Publication of CN102591845B publication Critical patent/CN102591845B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Controls And Circuits For Display Device (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种重叠文字的处理方法和装置,涉及计算机领域,该方法包括:根据版面上的文字内容,获取版面上的文字块集合S,所述集合S中包括相应文字块的字符、字号、表征文字块输出顺序的序号以及所述文字块在版面中的坐标;根据所述文字块的字符、字号、序号以及所述文字块在版面中的坐标,两两比较文字块的前后位置关系,将集合S中的文字块按照排版位置进行排序;遍历所述排序后的集合S中的文字块,选出重叠的文字块,并仅保留互相重叠的文字块中的一个。由于通过对所获取的版面上的文字块进行排序,再将重叠的文字块删除,仅保留重叠文字块中的一个,从而便于对重叠文字提取的文字进行辨识和阅读。

Description

一种重叠文字的处理方法和装置
技术领域
本发明涉及计算机领域,尤其涉及一种重叠文字处理方法和装置。
背景技术
在排版中,为了达到较美观的效果,常常会使用到重叠文字,重叠文字是将相同的文字层层堆叠,使文字变化出立体效果等丰富的视觉效果。
在数字出版行业中,在使用排版软件排版完成后,通常需要对文章信息进行重构和标引,即从版面中提取文章的内容信息。当版面上存在重叠文字时,重叠文字会对提取的文章内容信息产生干扰,从而影响对所提取的内容的阅读。
如图1所示,在排版后显示的页面中,天气和weather都是使用重叠文字来实现较佳的视觉效果,但是,由于按顺序从版面中提取的文字内容,则出现了很多重复的文字,如图1所示,所提取出的文字内容为:气气气气气气气气气气气气气气气气气气气气天天天天天天天天天天天天天天天天天天天天rrrrrrrrrrrrrrrrreeeeeeeeeeeeeeeeehhhhhhhhhhhhhhhhhtttttttttttttttttaaaaaaaaaaaaaaaaaeeeeeeeeeeeeeeeeeWWWWWWWWWWWWWWWWW,严重影响了辨识和阅读。
发明内容
本发明实施例提供一种重叠文字的处理方法和装置,以便于对重叠文字提取的文字进行辨识和阅读。
一种重叠文字的处理方法,包括:
根据版面上的文字内容,获取集合S,所述集合S中包括版面上相应文字块的字符、字号、表征文字块输出顺序的序号以及所述文字块在版面中的坐标;
根据所述文字块的字符、字号、序号以及所述文字块在版面中的坐标,两两比较文字块的前后位置关系,将集合S中的文字块按照排版位置进行排序;
遍历所述排序后的集合S中的文字块,选出重叠的文字块,并仅保留互相重叠的文字块中的一个。
一种重叠文字的处理装置,包括:
获取单元,用于获取根据版面上的文字内容,获取集合S,所述集合S中包括版面上相应文字块的字符、字号、表征文字块输出顺序的序号以及所述文字块在版面中的坐标;
排序单元,用于根据所述文字块的字符、字号、序号以及所述文字块在版面中的坐标,两两比较文字块的前后位置关系,将集合S中的文字块按照排版位置进行排序;
处理单元,用于遍历所述排序后的集合S中的文字块,选出重叠的文字块,并仅保留互相重叠的文字块中的一个。
本发明实施例提供一种重叠文字的处理方法和装置,通过对所获取的版面上的文字块进行排序,再将重叠的文字块删除,仅保留重叠文字块中的一个,从而便于对重叠文字提取的文字进行辨识和阅读。
附图说明
图1为现有技术中提取文字内容示意图;
图2为本发明实施例提供的重叠文字的处理方法流程图;
图3为本发明实施例提供的对应步骤S102的文字块排序方法流程图之一;
图4为本发明实施例提供的对应步骤S102的文字块排序方法流程图之二;
图5为本发明实施例提供的对应步骤S102的文字块排序方法流程图之三;
图6为本发明实施例提供的对应步骤S103的重叠文字块删除方法流程图;
图7为本发明实施例提供的重叠文字的处理装置结构示意图;
图8为使用本发明实施例提供的处理方法处理后的文字内容示意图;
图9为本发明实施例中文字块的坐标示意图。
具体实施方式
本发明实施例提供一种重叠文字的处理方法和装置,通过对所获取的版面上的文字块进行排序,再将重叠的文字块删除,仅保留重叠文字块中的一个,从而便于对重叠文字提取的文字进行辨识和阅读。
下面结合附图具体进行说明:
如图2所示,本发明实施例提供的重叠文字的处理方法,包括:
步骤S201、根据版面上的文字内容,获取集合S,集合S中包括版面上相应文字块的字符、字号、表征文字块输出顺序的序号以及文字块在版面中的坐标;
步骤S202、根据文字块的字符、字号、序号以及文字块在版面中的坐标,两两比较文字块的前后位置关系,将集合S中的文字块按照排版位置进行排序;
步骤S203、遍历排序后的集合S中的文字块,选出重叠的文字块,并仅保留互相重叠的文字块中的一个。
由于删除了重叠文字块,只保留了互相重叠的文字块中的一个。所以不会由于提取出多个相同的文字块而影响阅读和理解,从而便于对重叠文字提取的文字进行辨识和阅读。
在步骤S202中,根据文字块的字符、字号、序号以及文字块在版面中的坐标,两两比较文字块的先后位置关系,本发明实施例提供如下几种排序方式:
可以根据两个文字块的水平重叠程度和垂直重叠程度来选择根据左边界和右边界确定这两个文字块的顺序还是根据上边界和下边界确定这两个文字块的顺序。具体的,如图3所示,包括:
步骤S301、根据文字块的字体和坐标信息分别确定第一文字块和第二文字块的下边界、上边界、左边界和右边界;
步骤S302、比较第一文字块和第二文字块在水平方向的重叠程度和在垂直方向的重叠程度,当第一文字块和第二文字块在水平方向的重叠程度大于在垂直方向的重叠程度时,执行步骤S303,当第一文字块和第二文字块在水平方向的重叠程度小于在垂直方向的重叠程度时,执行步骤S304,当第一文字块和第二文字块在水平方向的重叠程度等于在垂直方向的重叠程度时,执行步骤S305;
步骤S303、确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后;
步骤S304、确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后;
步骤S305、确定序号小的文字块在前,序号大的文字块在后。
在确定水平重叠程度和垂直重叠程度时,可以根据水平重叠度和垂直重叠度来确定,其中,水平重叠度为第一文字块和第二文字块的最小左边界与最大右边界之差与最大左边界与最小右边界之差的比例,垂直重叠度为第一文字块和第二文字块的最小下边界与最大上边界之差与最大下边界与最小上边界之差的比例。
为了进一步实现比较准确的排序,在进行排序时还可以引入水平重叠度和垂直重叠度的概念,并根据两个文字块水平重叠情况和垂直重叠情况来选择合适的排序方法进行排序,具体的,如图4所示,包括:
步骤S401、根据文字块的字体和坐标信息分别确定第一文字块和第二文字块的下边界、上边界、左边界和右边界;
步骤S402、确定第一文字块和第二文字块的水平重叠度和垂直重叠度,其中,水平重叠度为第一文字块和第二文字块的最小左边界与最大右边界之差与最大左边界与最小右边界之差的比例,垂直重叠度为第一文字块和第二文字块的最小下边界与最大上边界之差与最大下边界与最小上边界之差的比例;
步骤S403、判断第一文字块和第二文字块的水平重叠度是否小于预先设定的水平重叠阈值,如果是,则执行步骤S404,如果否,则执行步骤S405;
步骤S404、确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后;
步骤S405、判断第一文字块和第二文字块的垂直重叠度是否小于预先设定的垂直重叠阈值,如果是,则执行步骤S406,如果否,则执行步骤S407;
步骤S406、确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后;
步骤S407、比较第一文字块和第二文字块的水平重叠度和垂直重叠度,当第一文字块和第二文字块的水平重叠度大于垂直重叠度时,执行步骤S408,当第一文字块和第二文字块的水平重叠度小于垂直重叠度时,执行步骤S409,当第一文字块和第二文字块的水平重叠度等于垂直重叠度时,执行步骤S410;
步骤S408、确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后;
步骤S409、确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后;
步骤S410、确定序号小的文字块在前,序号大的文字块在后。
当水平重叠度和垂直重叠度都比较大时,也可以根据序号进行排序,从而获得较佳的排序结果,此时,如图5所示,根据文字块的字符、字号、序号以及文字块在版面中的坐标,两两比较文字块的先后位置关系,具体包括:
步骤S501、根据文字块的字体和坐标信息分别确定第一文字块和第二文字块的下边界、上边界、左边界和右边界;
步骤S502、确定所述第一文字块和所述第二文字块的水平重叠度和垂直重叠度,其中,水平重叠度为第一文字块和第二文字块的最小左边界与最大右边界之差与最大左边界与最小右边界之差的比例,垂直重叠度为第一文字块和第二文字块的最小下边界与最大上边界之差与最大下边界与最小上边界之差的比例;
步骤S503、判断第一文字块和第二文字块的水平重叠度是否小于预先设定的水平重叠阈值,如果是,则执行步骤S504,如果否,则执行步骤S505;
步骤S504、确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后;
步骤S505、判断第一文字块和第二文字块的垂直重叠度是否小于预先设定的垂直重叠阈值,如果是,则执行步骤S506,如果否,则执行步骤S507;
步骤S506、确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后;
步骤S507、判断第一文字块和第二文字块的水平重叠度和垂直重叠度是否都大于预先设定的重叠值,如果是,则执行步骤S508,如果否,则执行步骤S509;
步骤S508、确定序号小的文字块在前,序号大的文字块在后;
步骤S509、比较第一文字块和第二文字块的水平重叠度和垂直重叠度,当第一文字块和第二文字块的水平重叠度大于垂直重叠度时,执行步骤S510,当第一文字块和第二文字块的水平重叠度小于垂直重叠度时,执行步骤S511,当第一文字块和第二文字块的水平重叠度等于垂直重叠度时,执行步骤S508;
步骤S510、确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后;
步骤S511、确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后。
当然,本发明实施例并不限于上述三种排序的方式,本领域技术人员还可以在本发明实施例提供的排序方式的基础上进行改动和变形,从而实现对文字块的排序。
在上述三种排序方法中,所涉及到的水平重叠阈值、垂直重叠阈值和重叠值都可以由本领域技术人员根据实际情况进行确定,本发明实施例给出一组参考值,为:水平重叠阈值在第一文字块与第二文字块同行时,设定为-0.08,否则,设定为-0.05;垂直重叠阈值可直接设定为0,重叠值可以设定为0.5。此时,集合S中还包括相应文字块的水平基线,当第一文字块和第二文字块的水平基线之差小于或等于行间距时,确定第一文字块与第二文字块同行,当第一文字块的水平基线大于第二文字块的水平基线时,行间距为第一文字块的字号的0.95倍,否则行间距为第二文字块的字号的0.95倍。
上述参考值本领域技术人员可以根据实际情况进行调整,通常情况下,上述数值±0.2以内,都能够实现较好的排序效果。
在本发明实施例中,上边界、下边界、左边界和右边界都是指版面中各文字块在以排版顺序规定正方向的同一坐标系中,该文字块的上边界、下边界、左边界和右边界对应的坐标值。例如,如图9所示,惯常排版顺序为由左至右,由上至下,那么x轴正方向为右,y轴正方向为下,一个文字块的左边界为该文字块左侧线条对应的x值x1,右边界则为该文字块右侧线条对应的x值x2,同理一个文字块的上边界为该文字块上侧线条对应的y值y1,下边界则为该文字块下侧线条对应的y值y2。
在步骤S203中,遍历排序后的集合S中的文字块,选出重叠的文字块,并仅保留互相重叠的文字块中的一个,具体可以采用如下方式进行,如图6所示,包括:
步骤S601、在确定当前遍历文字块与下一遍历文字块同行,且确定当前遍历文字块与下一遍历文字块重叠时,将当前遍历文字块与下一遍历文字块从集合S移入重叠文字块集合D中,记录当前遍历文字块的位置为当前位置;
步骤S602、在确定后续遍历的文字块与重叠文字块集合D中的任一文字块重叠时,将后续遍历的文字块移入集合D;
步骤S603、遍历结束后,判断集合D是否为空,如果是,执行步骤S605,如果否,执行步骤S604;
步骤S604、取出集合D中任一文字块插入集合S中的当前位置,清空集合D,并执行步骤S601;
步骤S605、结束处理。
同样的,在需要确定当前遍历文字块和下一遍历文字块是否同行时,集合S中还包括相应文字块的水平基线,确定当前遍历文字块与下一遍历文字块同行,具体包括:
在当前遍历文字块和下一遍历文字块的水平基线之差小于或等于行间距时,确定当前遍历文字块和下一遍历文字块同行,其中,当前遍历文字块的水平基线大于下一遍历文字块的水平基线时,行间距为当前遍历文字块的字号的0.95倍,否则,行间距为下一遍历文字块的字号的0.95倍,其中,行间距的系数不仅限于0.95,也可以根据实际情况进行调整,例如,设定在0.7-1.0之间均可。
确定当前遍历文字块与下一遍历文字块重叠,具体包括:
在当前遍历文字块与下一遍历文字块的左边界之差的绝对值、右边界之差的绝对值、上边界之差的绝对值以及下边界之差的绝对值均小于预先设定的重叠文字块阈值时,确定当前遍历文字块与下一遍历文字块重叠。
在本发明实施例中,重叠文字块阈值可以由本领域技术人员根据经验设定,也可以参照如下规则设置:
在当前遍历文字块与下一遍历文字块同行,且当前遍历文字块和下一遍历文字块的最小右边界与最大左边界之差大于当前遍历文字块和下一遍历文字块的平均字号的0.64倍,小于当前遍历文字块和下一遍历文字块的平均字号的1.05倍,以及当前遍历文字块与下一遍历文字块的字符、字体、字号均相同时,确定重叠文字块阈值为0.2;否则,确定重叠文字块阈值为0.1。
确定当前遍历文字块与下一遍历文字块是否同行的方式可以采用与前述实施例中相同的方式,同时,在确定重叠文字块阈值时,具体实施时并不限于上述数值,在实际操作中,使用上述数值±0.2以内的数值,都能够实现较好的判断效果。
本发明实施例还相应提供一种重叠文字的处理装置,如图7所示,包括:
获取单元701,用于获取根据版面上的文字内容,获取集合S,集合S中包括版面上相应文字块的字符、字号、表征文字块输出顺序的序号以及文字块在版面中的坐标;
排序单元702,用于根据文字块的字符、字号、序号以及文字块在版面中的坐标,两两比较文字块的前后位置关系,将集合S中的文字块按照排版位置进行排序;
处理单元703,用于遍历排序后的集合S中的文字块,选出重叠的文字块,并仅保留互相重叠的文字块中的一个。
其中,根据所采用的排序方法,排序单元702具体用于:
根据文字块的字体和坐标信息分别确定第一文字块和第二文字块的下边界、上边界、左边界和右边界;
两两比较文字块的前后位置关系,当第一文字块和第二文字块在水平方向的重叠程度小于在垂直方向的重叠程度时,则确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后;当第一文字块和第二文字块在水平方向的重叠程度大于在垂直方向的重叠程度时,则确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后;当第一文字块和第二文字块在水平方向的重叠程度等于在垂直方向的重叠程度时,则确定序号小的文字块在前,序号大的文字块在后;
将集合S中的文字块按照排版位置进行排序。
或者,排序单元702具体用于:
根据文字块的字体和坐标信息分别确定第一文字块和第二文字块的下边界、上边界、左边界和右边界;
两两比较文字块的前后位置关系,当第一文字块和第二文字块的水平重叠度小于预先设定的水平重叠阈值时,则确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后,其中,水平重叠度为第一文字块和第二文字块的最小左边界与最大右边界之差与最大左边界与最小右边界之差的比例;当第一文字块和第二文字块的垂直重叠度小于预先设定的垂直重叠阈值时,则确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后,其中,垂直重叠度为第一文字块和第二文字块的最小下边界与最大上边界之差与最大下边界与最小上边界之差的比例;当第一文字块和第二文字块的水平重叠度大于或等于预先设定的水平重叠阈值,且第一文字块和第二文字块的垂直重叠度大于或等于预先设定的垂直重叠阈值时,则:当第一文字块和第二文字块的水平重叠度小于垂直重叠度时,确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后;当第一文字块和第二文字块的水平重叠度大于垂直重叠度时,则确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后;
当第一文字块和第二文字块的水平重叠度等于垂直重叠度时,则确定序号小的文字块在前,序号大的文字块在后;
将集合S中的文字块按照排版位置进行排序。
或者,排序单元702具体用于:
根据文字块的字体和坐标信息分别确定第一文字块和第二文字块的下边界、上边界、左边界和右边界;
两两比较文字块的前后位置关系,当第一文字块和第二文字块的水平重叠度小于预先设定的水平重叠阈值时,则确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后,其中,水平重叠度为第一文字块和第二文字块的最小左边界与最大右边界之差与最大左边界与最小右边界之差的比例;当第一文字块和第二文字块的垂直重叠度小于预先设定的垂直重叠阈值时,则确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后,其中,垂直重叠度为第一文字块和第二文字块的最小下边界与最大上边界之差与最大下边界与最小上边界之差的比例;当第一文字块和第二文字块的水平重叠度大于或等于预先设定的水平重叠阈值,且第一文字块和第二文字块的垂直重叠度大于或等于预先设定的垂直重叠阈值时,则:当第一文字块和第二文字块的水平重叠度和垂直重叠度都大于预先设定的重叠值时,确定序号小的文字块在前,序号大的文字块在后;否则:当第一文字块和第二文字块的水平重叠度小于垂直重叠度时,确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后;当第一文字块和第二文字块的水平重叠度大于垂直重叠度时,则确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后;当第一文字块和第二文字块的水平重叠度等于垂直重叠度时,则确定序号小的文字块在前,序号大的文字块在后;
将集合S中的文字块按照排版位置进行排序。
处理单元703具体用于:
在确定当前遍历文字块与下一遍历文字块同行,且确定当前遍历文字块与下一遍历文字块是重叠文字块时,将当前遍历文字块与下一遍历文字块从集合S移入重叠文字块集合D中,记录当前遍历文字块的位置为当前位置;并
在确定后续遍历的文字块与重叠文字块集合D中的任一文字块重叠时,将后续遍历的文字块移入集合D;
遍历结束后,在集合D不为空时,取出集合D中任一文字块插入集合S中的当前位置,清空集合D;
重新进行遍历直至遍历结束后集合D为空集合。
本发明实施例提供一种重叠文字的处理方法和装置,通过对所获取的版面上的文字块进行排序,再将重叠的文字块删除,仅保留重叠文字块中的一个,从而便于对重叠文字提取的文字进行辨识和阅读,如图8所示,处理完毕后的文字内容为:天气Weather,便于辨识和阅读。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (15)

1.一种重叠文字的处理方法,其特征在于,包括:
根据版面上的文字内容,获取集合S,所述集合S中包括版面上相应文字块的字符、字号、表征文字块输出顺序的序号以及所述文字块在版面中的坐标;
根据所述文字块的字符、字号、序号以及所述文字块在版面中的坐标,两两比较文字块的前后位置关系,将集合S中的文字块按照排版位置进行排序;
遍历所述排序后的集合S中的文字块,选出重叠的文字块,并仅保留互相重叠的文字块中的一个。
2.如权利要求1所述的方法,其特征在于,所述根据所述文字块的字符、字号、序号以及所述文字块在版面中的坐标,两两比较文字块的先后位置关系,具体包括:
根据所述文字块的字体和坐标信息分别确定第一文字块和第二文字块的下边界、上边界、左边界和右边界;
当所述第一文字块和第二文字块在水平方向的重叠程度小于在垂直方向的重叠程度时,则确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后;
当所述第一文字块和第二文字块在水平方向的重叠程度大于在垂直方向的重叠程度时,则确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后;
当所述第一文字块和第二文字块在水平方向的重叠程度等于在垂直方向的重叠程度时,则确定序号小的文字块在前,序号大的文字块在后。
3.如权利要求1所述的方法,其特征在于,所述根据所述文字块的字符、字号、序号以及所述文字块在版面中的坐标,两两比较文字块的先后位置关系,具体包括:
根据所述文字块的字体和坐标信息分别确定第一文字块和第二文字块的下边界、上边界、左边界和右边界;
当所述第一文字块和第二文字块的水平重叠度小于预先设定的水平重叠阈值时,则确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后,其中,水平重叠度为第一文字块和第二文字块的最小左边界与最大右边界之差与最大左边界与最小右边界之差的比例;
当所述第一文字块和第二文字块的垂直重叠度小于预先设定的垂直重叠阈值时,则确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后,其中,垂直重叠度为第一文字块和第二文字块的最小下边界与最大上边界之差与最大下边界与最小上边界之差的比例;
当所述第一文字块和第二文字块的水平重叠度大于或等于预先设定的水平重叠阈值,且所述第一文字块和第二文字块的垂直重叠度大于或等于预先设定的垂直重叠阈值时,则:
当所述第一文字块和第二文字块的水平重叠度小于垂直重叠度时,确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后;
当所述第一文字块和第二文字块的水平重叠度大于垂直重叠度时,则确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后;
当所述第一文字块和第二文字块的水平重叠度等于垂直重叠度时,则确定序号小的文字块在前,序号大的文字块在后。
4.如权利要求1所述的方法,其特征在于,所述根据所述文字块的字符、字号、序号以及所述文字块在版面中的坐标,两两比较文字块的先后位置关系,具体包括:
根据所述文字块的字体和坐标信息分别确定第一文字块和第二文字块的下边界、上边界、左边界和右边界;
当所述第一文字块和第二文字块的水平重叠度小于预先设定的水平重叠阈值时,则确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后,其中,水平重叠度为第一文字块和第二文字块的最小左边界与最大右边界之差与最大左边界与最小右边界之差的比例;
当所述第一文字块和第二文字块的垂直重叠度小于预先设定的垂直重叠阈值时,则确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后,其中,垂直重叠度为第一文字块和第二文字块的最小下边界与最大上边界之差与最大下边界与最小上边界之差的比例;
当所述第一文字块和第二文字块的水平重叠度大于或等于预先设定的水平重叠阈值,且所述第一文字块和第二文字块的垂直重叠度大于或等于预先设定的垂直重叠阈值时,则:
当所述第一文字块和第二文字块的水平重叠度和垂直重叠度都大于预先设定的重叠值时,确定序号小的文字块在前,序号大的文字块在后;否则:
当所述第一文字块和第二文字块的水平重叠度小于垂直重叠度时,确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后;
当所述第一文字块和第二文字块的水平重叠度大于垂直重叠度时,则确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后;
当所述第一文字块和第二文字块的水平重叠度等于垂直重叠度时,则确定序号小的文字块在前,序号大的文字块在后。
5.如权利要求3或4所述的方法,其特征在于,所述集合S中还包括相应文字块的水平基线,所述水平重叠阈值在所述第一文字块与第二文字块同行时,设定为-0.08,否则,设定为-0.05,其中,当所述第一文字块和第二文字块的水平基线之差小于或等于行间距时,确定所述第一文字块与第二文字块同行,当所述第一文字块的水平基线大于所述第二文字块的水平基线时,所述行间距为所述第一文字块的字号的0.95倍,否则所述行间距为所述第二文字块的字号的0.95倍。
6.如权利要求3或4所述的方法,其特征在于,所述垂直重叠阈值设定为0。
7.如权利要求1所述的方法,其特征在于,所述遍历所述排序后的集合S中的文字块,选出重叠的文字块,并仅保留互相重叠的文字块中的一个,具体包括:
在确定当前遍历文字块与下一遍历文字块同行,且确定当前遍历文字块与下一遍历文字块重叠时,将所述当前遍历文字块与下一遍历文字块从所述集合S移入重叠文字块集合D中,记录所述当前遍历文字块的位置为当前位置;并
在确定后续遍历的文字块与所述重叠文字块集合D中的任一文字块重叠时,将所述后续遍历的文字块移入集合D;
遍历结束后,在集合D不为空时,取出所述集合D中任一文字块插入所述集合S中的当前位置,清空所述集合D;
重新进行遍历直至遍历结束后所述集合D为空集合。
8.如权利要求7所述的方法,其特征在于,所述集合S中还包括相应文字块的水平基线,所述确定当前遍历文字块与下一遍历文字块同行,具体包括:
当所述当前遍历文字块和下一遍历文字块的水平基线之差小于或等于行间距时,确定所述当前遍历文字块和下一遍历文字块同行,其中,所述当前遍历文字块的水平基线大于所述下一遍历文字块的水平基线时,所述行间距为所述当前遍历文字块的字号的0.95倍,否则,所述行间距为所述下一遍历文字块的字号的0.95倍。
9.如权利要求7所述的方法,其特征在于,所述确定当前遍历文字块与下一遍历文字块重叠,具体包括:
在当前遍历文字块与下一遍历文字块的左边界之差的绝对值、右边界之差的绝对值、上边界之差的绝对值以及下边界之差的绝对值均小于预先设定的重叠文字块阈值时,确定所述当前遍历文字块与下一遍历文字块重叠。
10.如权利要求9所述的方法,其特征在于,所述重叠文字块阈值具体为:
在当前遍历文字块与下一遍历文字块同行,且所述当前遍历文字块和下一遍历文字块的最小右边界与最大左边界之差大于当前遍历文字块和下一遍历文字块的平均字号的0.64倍,小于当前遍历文字块和下一遍历文字块的平均字号的1,05倍,以及所述当前遍历文字块与下一遍历文字块的字符、字体、字号均相同时,确定所述重叠文字块阈值为0.2;
否则,确定所述重叠文字块阈值为0.1。
11.一种重叠文字的处理装置,其特征在于,包括:
获取单元,用于获取根据版面上的文字内容,获取集合S,所述集合S中包括版面上相应文字块的字符、字号、表征文字块输出顺序的序号以及所述文字块在版面中的坐标;
排序单元,用于根据所述文字块的字符、字号、序号以及所述文字块在版面中的坐标,两两比较文字块的前后位置关系,将集合S中的文字块按照排版位置进行排序;
处理单元,用于遍历所述排序后的集合S中的文字块,选出重叠的文字块,并仅保留互相重叠的文字块中的一个。
12.如权利要求11所述的装置,其特征在于,所述排序单元具体用于:
根据所述文字块的字体和坐标信息分别确定第一文字块和第二文字块的下边界、上边界、左边界和右边界;
两两比较文字块的前后位置关系,当所述第一文字块和第二文字块在水平方向的重叠程度小于在垂直方向的重叠程度时,则确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后;当所述第一文字块和第二文字块在水平方向的重叠程度大于在垂直方向的重叠程度时,则确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后;当所述第一文字块和第二文字块在水平方向的重叠程度等于在垂直方向的重叠程度时,则确定序号小的文字块在前,序号大的文字块在后;
将集合S中的文字块按照排版位置进行排序。
13.如权利要求11所述的装置,其特征在于,所述排序单元具体用于:
根据所述文字块的字体和坐标信息分别确定第一文字块和第二文字块的下边界、上边界、左边界和右边界;
两两比较文字块的前后位置关系,当所述第一文字块和第二文字块的水平重叠度小于预先设定的水平重叠阈值时,则确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后,其中,水平重叠度为第一文字块和第二文字块的最小左边界与最大右边界之差与最大左边界与最小右边界之差的比例;当所述第一文字块和第二文字块的垂直重叠度小于预先设定的垂直重叠阈值时,则确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后,其中,垂直重叠度为第一文字块和第二文字块的最小下边界与最大上边界之差与最大下边界与最小上边界之差的比例;当所述第一文字块和第二文字块的水平重叠度大于或等于预先设定的水平重叠阈值,且所述第一文字块和第二文字块的垂直重叠度大于或等于预先设定的垂直重叠阈值时,则:当所述第一文字块和第二文字块的水平重叠度小于垂直重叠度时,确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后;当所述第一文字块和第二文字块的水平重叠度大于垂直重叠度时,则确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后;当所述第一文字块和第二文字块的水平重叠度等于垂直重叠度时,则确定序号小的文字块在前,序号大的文字块在后;
将集合S中的文字块按照排版位置进行排序。
14.如权利要求11所述的装置,其特征在于,所述排序单元具体用于:
根据所述文字块的字体和坐标信息分别确定第一文字块和第二文字块的下边界、上边界、左边界和右边界;
两两比较文字块的前后位置关系,当所述第一文字块和第二文字块的水平重叠度小于预先设定的水平重叠阈值时,则确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后,其中,水平重叠度为第一文字块和第二文字块的最小左边界与最大右边界之差与最大左边界与最小右边界之差的比例;当所述第一文字块和第二文字块的垂直重叠度小于预先设定的垂直重叠阈值时,则确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后,其中,垂直重叠度为第一文字块和第二文字块的最小下边界与最大上边界之差与最大下边界与最小上边界之差的比例;当所述第一文字块和第二文字块的水平重叠度大于或等于预先设定的水平重叠阈值,且所述第一文字块和第二文字块的垂直重叠度大于或等于预先设定的垂直重叠阈值时,则:当所述第一文字块和第二文字块的水平重叠度和垂直重叠度都大于预先设定的重叠值时,确定序号小的文字块在前,序号大的文字块在后;否则:当所述第一文字块和第二文字块的水平重叠度小于垂直重叠度时,确定上边界和下边界之和小的文字块在前,上边界和下边界之和大的文字块在后;当所述第一文字块和第二文字块的水平重叠度大于垂直重叠度时,则确定左边界和右边界之和小的文字块在前,左边界和右边界之和大的文字块在后;当所述第一文字块和第二文字块的水平重叠度等于垂直重叠度时,则确定序号小的文字块在前,序号大的文字块在后;
将集合S中的文字块按照排版位置进行排序。
15.如权利要求11所述的装置,其特征在于,所述处理单元具体用于:
在确定当前遍历文字块与下一遍历文字块同行,且确定当前遍历文字块与下一遍历文字块重叠时,将所述当前遍历文字块与下一遍历文字块从所述集合S移入重叠文字块集合D中,记录所述当前遍历文字块的位置为当前位置;并
在确定后续遍历的文字块与所述重叠文字块集合D中的任一文字块重叠时,将所述后续遍历的文字块移入集合D;
遍历结束后,在集合D不为空时,取出所述集合D中任一文字块插入所述集合S中的当前位置,清空所述集合D;
重新进行遍历直至遍历结束后所述集合D为空集合。
CN201110005501.5A 2011-01-06 2011-01-06 一种重叠文字的处理方法和装置 Expired - Fee Related CN102591845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110005501.5A CN102591845B (zh) 2011-01-06 2011-01-06 一种重叠文字的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110005501.5A CN102591845B (zh) 2011-01-06 2011-01-06 一种重叠文字的处理方法和装置

Publications (2)

Publication Number Publication Date
CN102591845A true CN102591845A (zh) 2012-07-18
CN102591845B CN102591845B (zh) 2014-06-04

Family

ID=46480517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110005501.5A Expired - Fee Related CN102591845B (zh) 2011-01-06 2011-01-06 一种重叠文字的处理方法和装置

Country Status (1)

Country Link
CN (1) CN102591845B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815453A (zh) * 2018-12-25 2019-05-28 东软集团股份有限公司 文档分块方法、装置、存储介质及电子设备
CN109871517A (zh) * 2018-12-25 2019-06-11 东软集团股份有限公司 文字块排序方法、装置、存储介质及电子设备
CN115618847A (zh) * 2022-12-20 2023-01-17 浙江保融科技股份有限公司 一种解析pdf文档的方法、装置和可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206639A (zh) * 2007-12-20 2008-06-25 北大方正集团有限公司 一种基于pdf的复杂版面的标引方法
CN101419717A (zh) * 2008-12-11 2009-04-29 北大方正集团有限公司 一种版式文件图文自动关联的方法及系统
CN101441621A (zh) * 2008-11-26 2009-05-27 北大方正集团有限公司 一种版式文件自动成文的方法及系统
JP2010109561A (ja) * 2008-10-29 2010-05-13 Kyocera Mita Corp 画像処理装置
CN101770446A (zh) * 2008-12-26 2010-07-07 北大方正集团有限公司 一种版式文件中表格识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206639A (zh) * 2007-12-20 2008-06-25 北大方正集团有限公司 一种基于pdf的复杂版面的标引方法
JP2010109561A (ja) * 2008-10-29 2010-05-13 Kyocera Mita Corp 画像処理装置
CN101441621A (zh) * 2008-11-26 2009-05-27 北大方正集团有限公司 一种版式文件自动成文的方法及系统
CN101419717A (zh) * 2008-12-11 2009-04-29 北大方正集团有限公司 一种版式文件图文自动关联的方法及系统
CN101770446A (zh) * 2008-12-26 2010-07-07 北大方正集团有限公司 一种版式文件中表格识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
独角斗士: "如何清除重叠文字", 《中华钢结构论坛》, 9 October 2009 (2009-10-09), pages 1 - 3 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815453A (zh) * 2018-12-25 2019-05-28 东软集团股份有限公司 文档分块方法、装置、存储介质及电子设备
CN109871517A (zh) * 2018-12-25 2019-06-11 东软集团股份有限公司 文字块排序方法、装置、存储介质及电子设备
CN109871517B (zh) * 2018-12-25 2023-04-25 东软集团股份有限公司 文字块排序方法、装置、存储介质及电子设备
CN115618847A (zh) * 2022-12-20 2023-01-17 浙江保融科技股份有限公司 一种解析pdf文档的方法、装置和可读存储介质

Also Published As

Publication number Publication date
CN102591845B (zh) 2014-06-04

Similar Documents

Publication Publication Date Title
CN100426206C (zh) 改善大物体在小显示器上的显示
CN108470021A (zh) Pdf文档中表格的定位方法及装置
CN111368757A (zh) 面向机器学习的柱大样建筑图纸图层分类方法及系统
US7853869B2 (en) Creation of semantic objects for providing logical structure to markup language representations of documents
CN100580671C (zh) 构造布局平衡的带标记映像树的方法和系统
CN106610976B (zh) 一种poi标注方法及装置
WO2010078475A4 (en) Methods and system for document reconstruction
CN101901494B (zh) 自动实现地图注记的方法及其系统
CN103838933A (zh) 一种基于数字化技术的三维模型集成标注方法
CN103793145A (zh) 一种基于AutoCAD的图框参数识别与图纸输出方法
CN105654022A (zh) 一种提取文档结构化信息的方法及装置
CN101027672A (zh) 自动图创建系统
CN113051885B (zh) 基于AutoCAD的设计图纸快速排版方法
CN105912516A (zh) 一种从AutoCAD文件中一键式提取表格数据的方法
EP2110758B1 (en) Searching method based on layout information
CN102456050A (zh) 从网页中抽取数据的方法和装置
CN102591845B (zh) 一种重叠文字的处理方法和装置
CN112668289A (zh) 一种嵌套表格的提取方法及装置、存储介质
CN110688825A (zh) 一种版式文档中的含线表格信息提取方法
CN103500332A (zh) 图片内文字显示方法及装置
CN105139342A (zh) 一种图片缩放的方法和装置
KR20130072122A (ko) 판옵틱 가시화 도큐먼트 내비게이션
CN102136039B (zh) 一种建立地图模型的方法和设备
JP5551986B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN105653549A (zh) 一种提取文档信息的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220623

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140604

CF01 Termination of patent right due to non-payment of annual fee