CN109871517B - 文字块排序方法、装置、存储介质及电子设备 - Google Patents

文字块排序方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN109871517B
CN109871517B CN201811592901.9A CN201811592901A CN109871517B CN 109871517 B CN109871517 B CN 109871517B CN 201811592901 A CN201811592901 A CN 201811592901A CN 109871517 B CN109871517 B CN 109871517B
Authority
CN
China
Prior art keywords
text
text block
block
ordered
vertex
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811592901.9A
Other languages
English (en)
Other versions
CN109871517A (zh
Inventor
韩志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201811592901.9A priority Critical patent/CN109871517B/zh
Publication of CN109871517A publication Critical patent/CN109871517A/zh
Application granted granted Critical
Publication of CN109871517B publication Critical patent/CN109871517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本公开涉及一种文字块排序方法、装置、存储介质及电子设备,所示方法包括:根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,所述邻接关系包括用于表征文字块水平邻接的第一邻接关系和/或表征文字块竖直邻接的第二邻接关系;根据所述文字块间的邻接关系,生成按照同一种邻接关系相邻接的文字块的有序集合;针对具有同一种邻接关系的所述有序集合,根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序。通过本公开的技术方案,整篇文档中的文字块在逻辑上有序。

Description

文字块排序方法、装置、存储介质及电子设备
技术领域
本公开涉及文字比较领域,具体地,涉及一种文字块排序方法、装置、存储介质及电子设备。
背景技术
在文字处理领域,文字比较功能会经常使用到,例如比较两文档之间的差异性。
在对两篇文档的内容进行比较时,通常以行为单位进行比较,但是在两篇文档字号、字体、排版不一致的情况下,同一行显示的文字的数量不一致,以行为单位进行比较无法得到准确的结果。如果以单词(汉语情况下一个汉字为一个单词)为单位进行比较,由于某些文档无法按照阅读习惯找出各单词之间的相对次序,使得该比较方式难以实现。而将文档划分为多个文字块,以文字块为单位进行文字比较,相比于以行或单词为最小单位进行比较,准确度和效率更高,但该方式实现的前提条件是需要找到文字块的排列顺序。
由于文字块的大小不同,有的文字块可能占据文档的几行,无法直接采用传统的排序方法,依次对每行或每列的文字块进行排序。
发明内容
本公开的目的是提供一种文字块排序方法、装置、存储介质及电子设备,用以对文档中的文字块进行排序,以基于文字块的排列顺序进行文字比较,提升文字比较的速度和精度。
为了实现上述目的,本公开实施例第一方面提供一种文字块排序方法,包括:
根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,所述邻接关系包括用于表征文字块水平邻接的第一邻接关系和/或表征文字块竖直邻接的第二邻接关系;
根据所述文字块间的邻接关系,生成按照同一种邻接关系相邻接的文字块的有序集合;
针对具有同一种邻接关系的所述有序集合,根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序。
可选地,所述文字块的位置信息包括所述文字块的顶点坐标信息;
所述根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,包括:
根据各个所述文字块的顶点坐标信息,确定所述文字块间的间距;
针对每一所述文字块,选取第一顶点的纵坐标小于该文字块的第二顶点的纵坐标、第二顶点的纵坐标大于该文字块的第一顶点的纵坐标且与该文字块的间距最小的文字块,作为该文字块的水平邻接文字块,并将该文字块与所述水平邻接文字块建立所述第一邻接关系;和/或,
选取第一顶点的横坐标小于该文字块的第二顶点的横坐标、第二顶点的横坐标大于该文字块的第一顶点的横坐标且与该文字块的间距最小的文字块,作为该文字块的竖直邻接文字块,并将该文字块与所述竖直邻接文字块建立所述第二邻接关系。
可选地,在所述根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序之前,还包括:
判断所述具有同一种邻接关系的所述有序集合中是否存在相同的文字块;
若所述具有同一种邻接关系的所述有序集合中存在相同的文字块,则对有序集合中相同的文字块进行去重处理。
可选地,所述对有序集合中相同的文字块进行去重处理,,包括:
选取存在相同文字块的两个有序集合,确定第一有序集合中位于所述相同文字块两侧的第一有序子集合和第二有序子集合,以及第二集合中位于所述相同文字块两侧的第三有序子集合和第四有序子集合;
以所述第一有序集合为基准,将所述第三有序子集合插入到所述第一有序子集合和所述相同文字块之间,以及将所述第四有序子集合插入到所述第二有序子集合之后,得到新的有序集合。
本公开实施例第二方面提供一种文字块排序装置,包括:
建立模块,用于根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,所述邻接关系包括用于表征文字块处于水平邻接的第一邻接关系和/或表征文字块处于竖直邻接的第二邻接关系;
生成模块,用于根据所述文字块间的邻接关系,生成按照同一种邻接关系相邻接的文字块的有序集合;
排序模块,用于针对具有同一种邻接关系的所述有序集合,根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序。
可选地,所述文字块的位置信息包括所述文字块的顶点坐标信息;
所述建立模块包括:
第一确定子模块,用于根据所述文字块的顶点坐标信息,确定所述文字块间的间距;
第一建立子模块,用于针对每一所述文字块,选取第一顶点的纵坐标小于该文字块的第二顶点的纵坐标、第二顶点的纵坐标大于该文字块的第一顶点的纵坐标且与该文字块的间距最小的文字块,作为该文字块的水平邻接文字块,并将该文字块与所述水平邻接文字块建立所述第一邻接关系;和/或,
第二建立子模块,用于针对每一所述文字块,选取第一顶点的横坐标小于该文字块的第二顶点的横坐标、第二顶点的横坐标大于该文字块的第一顶点的横坐标且与该文字块的间距最小的文字块,作为该文字块的竖直邻接文字块,并将该文字块与所述竖直邻接文字块建立所述第二邻接关系。
可选地,所述装置还包括:
判断模块,用于在根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序之前,判断所述具有同一种邻接关系的所述有序集合中是否存在相同的文字块;
去重处理模块,用于若所述具有同一种邻接关系的所述有序集合中存在相同的文字块,则对有序集合中相同的文字块进行去重处理。
可选地,所述去重处理模块包括:
第二确定子模块,用于选取存在相同文字块的两个有序集合,确定第一有序集合中位于所述相同文字块两侧的第一有序子集合和第二有序子集合,以及第二集合中位于所述相同文字块两侧的第三有序子集合和第四有序子集合;
插入子模块,用于以所述第一有序集合为基准,将所述第三有序子集合插入到所述第一有序子集合和所述相同文字块之间,以及将所述第四有序子集合插入到所述第二有序子集合之后,得到新的有序集合。
本公开实施例第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开实施例第一方面所述方法的步骤。
本公开实施例第四方面提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开实施例第一方面所述方法的步骤。
采用本公开提供的技术方案,至少能够达到如下技术效果:
根据文档中的文字块的位置信息建立文字块间的邻接关系,根据文字块间的邻接关系生成按照同一种邻接关系相邻接的文字块的有序集合,针对具有同一种邻接关系的有序集合,根据有序集合之间的位置先后顺序以及每一有序集合中的文字块的先后顺序,确定每一文字块的排列顺序。这样,整篇文档中的文字块在逻辑上有序。并且,基于两篇待比较的文档中各个文字块的排列顺序,以文字块为单位,将两篇文档中排列顺序相同的文字块组成文字块对进行文字比较,效率比以单词为最小单位进行比较的效率更高。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开实施例提供的一种文字块排序方法的流程图;
图2是本公开实施例提供的一种用于表征文字块间的相对位置的矩阵图;
图3是本公开实施例提供的一种文字块间的邻接关系示意图;
图4是本公开实施例提供的一种文字块的排列顺序的示意图;
图5是本公开实施例提供的另一种文字块的排列顺序的示意图;
图6是本公开实施例提供的一种文字块排序装置的框图;
图7是本公开实施例提供的另一种文字块排序装置的框图;
图8是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
值得说明的是,本公开实施例中的术语“第一”、“第二”等是用于区别类似的对象,不必理解为特定的顺序或先后次序。
此外,在本公开的实施例中,在未作相反说明的情况下,使用的方位词如“上、下、左、右”通常是指以相应附图的图面方向为基准定义的。
本公开实施例提供一种文字块排序方法,如图1所示,该方法包括:
在步骤S11中,根据文档中的文字块的位置信息,建立文字块间的邻接关系。
其中,邻接关系包括用于表征文字块水平邻接的第一邻接关系和/或用于表征文字块竖直邻接的第二邻接关系。
文字块的位置信息可以包括文字块在文档中的页码、中心坐标以及顶点坐标等。中心坐标是指文字块的最小外接矩形的中心点的坐标,顶点坐标是指文字块的最小外接矩形的各个顶点的坐标。
示例地,可以首先按照各个文字块在文档中的页码进行分类,针对位于同一页的文字块,建立这些文字块间的邻接关系。
在步骤S12中,根据文字块间的邻接关系,生成按照同一种邻接关系相邻接的文字块的有序集合。
示例地,对于按照第一邻接关系相邻接的文字块,可以根据其在文档中从左到右的排列顺序,将这些文字块组合成有序集合;对于按照第二邻接关系相邻接的文字块,可以根据其在文档中从上至下的排列顺序,将这些文字块组合成有序集合。
在步骤S13中,针对具有同一种邻接关系的有序集合,根据有序集合之间的位置先后顺序以及每一有序集合中的文字块的先后顺序,确定每一文字块的排列顺序。
在本公开实施例中,有序集合之间的位置先后顺序可以根据各有序集合中的文字块在文档中的位置确定。具体地,对于具有第一邻接关系的有序集合,可以根据各个所述有序集合中的文字块的竖直方向位置确定,例如若有序集合1中的文字块位于文档的上方,而有序集合2中的文字块位于文档的下方,因此,有序集合1的位置位于有序集合2的位置之前,对于具有第二邻接关系的有序集合,可以根据各个所述有序集合中的文字块的水平位置确定,例如若有序集合3中的文字块位于文档的左边,而有序集合4中的文字块位于文档右边,因此,有序集合3的位置位于有序集合4的位置之前。
值得说明的是,上述步骤S13可以仅针对具有第一邻接关系的有序集合,相应地,得到每一文字块的第一种排列顺序;也可以仅针对具有第二邻接关系的有序集合,得到每一文字块的第二种排列顺序;还可以分别针对具有第一邻接关系的有序集合和针对具有第二邻接关系的有序集合,相应地,分别得到每一文字块的第一种排列顺序和第二种排列顺序。
此外,在具体应用于对两篇文档进行文字比较时,两篇文档的文字块均以相同的排列顺序排列,即都以第一种排列顺序或者都以第二种排列顺序排列,这样,就可以按照文字块的排列顺序,将两篇文档中序号相同的文字块组成文字块对进行文字比较。
采用上述文字块排序方法,根据文档中的文字块的位置信息建立文字块间的邻接关系,根据文字块间的邻接关系生成按照同一种邻接关系相邻接的文字块的有序集合,针对具有同一种邻接关系的有序集合,根据有序集合之间的位置先后顺序以及每一有序集合中的文字块的先后顺序,确定每一文字块的排列顺序。这样,整篇文档中的文字块在逻辑上有序。并且,基于两篇待比较的文档中各个文字块的排列顺序,以文字块为单位,将两篇文档中排列顺序相同的文字块组成文字块对进行文字比较,效率比以单词为最小单位进行比较的效率更高。
为了使本领域技术人员更加理解本公开实施例提供的技术方案,下面对上述步骤进行详细说明。
首先说明根据文档中的文字块的位置信息,如何建立文字块间的邻接关系。
可选地,文字块的位置信息包括文字块的顶点坐标信息,例如各个顶点的横坐标和纵坐标。本公开实施例可以针对每一文字块,选取第一顶点的纵坐标小于该文字块的第二顶点的纵坐标、第二顶点的纵坐标大于该文字块的第一顶点的纵坐标且与该文字块的间距最小的文字块,作为该文字块的水平邻接文字块,并将该文字块与所述水平邻接文字块建立所述第一邻接关系;和/或,选取第一顶点的横坐标小于该文字块的第二顶点的横坐标、第二顶点的横坐标大于该文字块的第二顶点的横坐标且与该文字块的间距最小的文字块,作为该文字块的竖直邻接文字块,并将该文字块与所述竖直邻接文字块建立所述第二邻接关系。由此,便建立起各文字块间的邻接关系。
示例地,图2示出了一种文档中的文字块的示意图,该图中的每一矩形框表示一个文字块,其中,文字块的左上角顶点作为文字块的第一顶点(即标号①),而右下角顶点作为文字块的第二顶点(即标号②)。并且,为了便于理解,用无任何规律的文字作为文字块的标识。
以矩阵图中的文字块“水”为例,可得到位于该文字块左侧的文字块中,第二顶点的纵坐标大于该文字块的第一顶点①的纵坐标y的文字块包括“不”、“太”、“历”、“犬”、“区”,这些文字块中第一顶点的纵坐标小于该文字块的第二顶点②的纵坐标y的文字块包括“不”、“太”和“历”,进一步地,这些文字块中与文字块“水”的间距最小的文字块为“厉”,因此可将文字块“厉”作为文字块“水”的水平邻接文字块,并将文字块“水”和“厉”建立第一邻接关系。类似地,将位于文字块“水”右侧的文字块“尤”作为该文字块的水平邻接文字块,并将文字块“水”和“尤”建立第一邻接关系。
在位于文字块“水”上侧的文字块中,可得到第二顶点的横坐标大于该文字块的第一顶点①的横坐标x的文字块包括“夫”、“天”、“无”、“元”、“专”、“五”、“支”,这些文字块中,第一顶点的横坐标小于该文字块的第二顶点②的横坐标x的文字块包括“夫”和“五”,进一步地,这些文字块中与文字块“水”的间距最小的文字块为“五”,因此可将文字块“五”作为文字块“水”的竖直邻接文字块,并将文字块“水”和“五”建立第二邻接关系。类似地,将位于文字块“水”下侧的文字块“匹”作为该文字块的竖直邻接文字块,并将文字块“水”和“匹”建立第二邻接关系。
对图2中的所有文字块执行同样的操作,可得到图3所示的文字块间的邻接关系,其中,虚线连接的两文字块按照第一邻接关系相邻接,实线连接的两文字块按照第二邻接关系相邻接。
下面说明根据文字块间的邻接关系,如何生成按照同一种邻接关系相邻接的文字块的有序集合。
可选地,本公开实施例可以按照预设顺序遍历矩阵图,得到按照第一邻接关系相邻接的文字块的有序集合,和/或按照第二邻接关系相邻接的文字块的有序集合。
例如,以图3所示的文字块间的邻接关系举例,按照从左到右的顺序遍历该图,得到按照第一邻接关系相邻接的文字块的有序集合如表1所示。按照从上到下的顺序遍历该图,得到按照第二邻接关系相邻接的文字块的有序集合如表2所示。其中,粗体的文字块仅表示在该文字块在具有同一种邻接关系的有序集合中重复。
表1
Figure BDA0001920706450000091
Figure BDA0001920706450000101
下面说明针对具有同一种邻接关系的有序集合,根据有序集合之间的位置先后顺序以及每一有序集合中的文字块的先后顺序,如何确定每一文字块的排列顺序。
可选地,本公开实施例可以根据有序集合之间的位置先后顺序,将所述具有同一种邻接关系的所述有序集合组合成一个目标有序集合,并按照每一所述文字块在所述目标有序集合中的先后顺序,确定每一所述文字块的排列顺序。
可选地,本公开实施例也可以将具有同一种邻接关系的每一有序集合作为一个目标有序集合,并针对每一目标有序集合,根据该目标有序集合中的文字块的先后顺序,确定这些文字块的排列顺序。示例地,具体应用于对两篇文档进行文字比较时,例如在比较两文档中的表格时,通常将表格中的文字以多个文字块组成的“行”为单位进行比较,可以采用此种方式。
在本公开的另一个实施例中,考虑到在某些情况下,可能出现一个文字块占据文档的两行甚至多行的情况,因而具有同一种邻接关系的有序集合中会出现相同的文字块,这将会对后续文字块的排序产生影响,因此需要对有序集合中相同的文字块进行去重处理。因此,在根据有序集合之间的位置先后顺序以及每一有序集合中的文字块的先后顺序,确定每一文字块的排列顺序之前,上述方法还包括:针对具有同一种邻接关系的有序集合,首先判断有序集合中是否存在相同的文字块,若有序集合中存在相同的文字块,则对有序集合中相同的文字块进行去重处理。相应地,在去重处理后,可根据处理后得到的有序集合之间的位置先后顺序以及每一有序集合中的文字块的先后顺序,如何确定每一文字块的排列顺序。
对于去重处理,具体地,可以选取存在相同文字块的两个有序集合,确定第一有序集合中位于所述相同文字块两侧的第一有序子集合和第二有序子集合,以及第二有序集合中位于所述相同文字块两侧的第三有序子集合和第四有序子集合。接着,以第一有序集合为基准,将第三有序子集合插入到第一有序子集合和所述相同文字块之间,以及将第四有序子序列插入到第二有序子集合之后,得到新的有序集合。其中,对于相同文字块的两个有序集合,可将位置在前的有序集合作为第一有序集合,而位置在后的有序集合作为第二有序集合。
例如,以表1所示的具有第一邻接关系的有序集合举例,有序集合{云,扎,艺,木,五,支,厅}与{不,太,历,水,尤,友,厅}存在相同的文字块“厅”,因而将有序集合{云,扎,艺,木,五,支,厅}作为第一有序集合,可确定第一有序子集合为{云,扎,艺,木,五,支},第二有序子集合为空集{};将{不,太,历,水,尤,友,厅}作为第二有序集合,可确定第三有序子集合为{不,太,历,水,尤,友},第四有序子集合为空集{}。在进行上述去重处理后,得到新的有序集合{云,扎,艺,木,五,支,不,太,历,水,尤,友,厅},而该新的有序集合与有序集合{犬,区,历,匹,车,巨,火}存在相同的文字块“历”,将这两个有序集合再次执行上述去重处理后,得到新的有序集合{云,扎,艺,木,五,支,不,太,犬,区,历,水,尤,友,厅,匹,车,巨,火},由此,得到如表3所示的具有第一邻接关系的有序集合。同样地,对表2所示的具有第二邻接关系的有序集合中的相同文字块进行去重处理,可得到如表4所示的具有第二邻接关系的有序集合。
表3
Figure BDA0001920706450000121
表4
{丰,云,不,犬}
{王,扎,太,区}
{井,艺,开,木,历}
{夫,天,五,水,尤,匹}
{无,支,友,车}
{元,专,厅,巨,火}
值得说明的是,本公开实施例可以针对根据具有第一邻接关系的有序集合得到的目标有序集合,按照每一文字块在该目标有序集合中的先后顺序对每一文字块进行编号,得到每一文字块的第一种排列顺序。
针对根据具有第二邻接关系的有序序列得到的目标有序集合,按照每一文字块在该目标有序集合中的先后顺序对每一文字块进行编号,得到每一文字块的第二种排列顺序。
例如,以表3所示的具有第一邻接关系的去重处理后的有序集合举例,按照这些有序集合之间的位置先后顺序,将这些有序集合组合,得到目标有序集合{丰,王,井,开,夫,天,无,元,专,云,扎,艺,木,五,支,不,太,犬,区,历,水,尤,友,厅,匹,车,巨,火}。接着,按照各个文字块在该目标有序集合中的先后顺序对各个文字块进行编号,可得到如图4所示的第一种排列顺序。
以表4所示的具有第二邻接关系的去重处理后的有序集合举例,按照这些有序集合之间的位置先后顺序,将这些有序集合组合,得到目标有序集合{丰,云,不,犬,王,扎,太,区,井,艺,开,木,历,夫,天,五,水,尤,匹,无,支,友,车,元,专,厅,巨,火}。接着,按照各个文字块在该目标有序集合中的先后顺序对各个文字块进行编号,可得到如图5所示的第二种排列顺序。
本公开实施例还提供一种文字块排序装置,如图6所示,该装置600包括:
建立模块601,用于根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,所述邻接关系包括用于表征文字块水平邻接的第一邻接关系和/或表征文字块竖直邻接的第二邻接关系;
生成模块602,用于根据所述文字块间的邻接关系,生成按照同一种邻接关系相邻接的文字块的有序集合;
排序模块603,用于针对具有同一种邻接关系的所述有序集合,根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序。
采用上述装置,根据文档中的文字块的位置信息建立文字块间的邻接关系,根据文字块间的邻接关系生成按照同一种邻接关系相邻接的文字块的有序集合,针对具有同一种邻接关系的有序集合,根据有序集合之间的位置先后顺序以及每一有序集合中的文字块的先后顺序,确定每一文字块的排列顺序。这样,整篇文档中的文字块在逻辑上有序。并且,基于两篇待比较的文档中各个文字块的排列顺序,以文字块为单位,将两篇文档中排列顺序相同的文字块组成文字块对进行文字比较,效率比以单词为最小单位进行比较的效率更高。
可选地,如图7所示,所述文字块的位置信息包括所述文字块的顶点坐标信息;
所述建立模块601包括:
第一确定子模块611,用于根据所述文字块的顶点坐标信息,确定所述文字块间的间距;
第一建立子模块612,用于针对每一所述文字块,选取第一顶点的纵坐标小于该文字块的第二顶点的纵坐标、第二顶点的纵坐标大于该文字块的第一顶点的纵坐标且与该文字块的间距最小的文字块,作为该文字块的水平邻接文字块,并将该文字块与所述水平邻接文字块建立所述第一邻接关系;和/或,
第二建立子模块613,用于针对每一所述文字块,选取第一顶点的横坐标小于该文字块的第二顶点的横坐标、第二顶点的横坐标大于该文字块的第一顶点的横坐标且与该文字块的间距最小的文字块,作为该文字块的竖直邻接文字块,并将该文字块与所述竖直邻接文字块建立所述第二邻接关系。
可选地,如图7所示,所述装置600还包括:
判断模块604,用于在根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序之前,判断所述具有同一种邻接关系的所述有序集合中是否存在相同的文字块;
去重处理模块605,用于若所述具有同一种邻接关系的所述有序集合中存在相同的文字块,则对有序集合中相同的文字块进行去重处理。
可选地,如图7所示,所述去重处理模块605包括:
第二确定子模块651,用于选取存在相同文字块的两个有序集合,确定第一有序集合中位于所述相同文字块两侧的第一有序子集合和第二有序子集合,以及第二集合中位于所述相同文字块两侧的第三有序子集合和第四有序子集合;
插入子模块652,用于以所述第一有序集合为基准,将所述第三有序子集合插入到所述第一有序子集合和所述相同文字块之间,以及将所述第四有序子集合插入到所述第二有序子集合之后,得到新的有序集合。
本领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述功能模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法实施例提供的一种文字块排序方法的步骤。
本公开实施例还提供一种电子设备,该电子设备可以被提供作为一种服务器,该电子设备包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述方法实施例提供的一种文字块排序方法的步骤。
图8是该电子设备的一种结构示意图,参照图8,该电子设备800可以包括处理器822,其数量可以为一个或多个,以及存储器832,用于存储可由处理器822执行的计算机程序。存储器832中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器822可以被配置为执行该计算机程序,以执行上述的文字块排序方法。
另外,电子设备800还可以包括电源组件826和通信组件850,该电源组件826可以被配置为执行电子设备800的电源管理,该通信组件850可以被配置为实现电子设备800的通信,例如,有线或无线通信。此外,该电子设备800还可以包括输入/输出(I/O)接口858。电子设备800可以操作基于存储在存储器832的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的文字块排序方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器832,上述程序指令可由电子设备800的处理器822执行以完成上述的文字块排序方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (8)

1.一种文字块排序方法,其特征在于,包括:
根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,所述邻接关系包括:用于表征文字块竖直邻接的第二邻接关系;或者,用于表征文字块水平邻接的第一邻接关系以及所述第二邻接关系;
根据所述文字块间的邻接关系,生成按照同一种邻接关系相邻接的文字块的有序集合;
针对具有同一种邻接关系的所述有序集合,根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序;
所述文字块的位置信息包括所述文字块的顶点坐标信息;
所述根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,包括:
根据各个所述文字块的顶点坐标信息,确定所述文字块间的间距;
针对每一所述文字块,选取第一顶点的纵坐标小于该文字块的第二顶点的纵坐标、第二顶点的纵坐标大于该文字块的第一顶点的纵坐标且与该文字块的间距最小的文字块,作为该文字块的水平邻接文字块,并将该文字块与所述水平邻接文字块建立所述第一邻接关系;选取第一顶点的横坐标小于该文字块的第二顶点的横坐标、第二顶点的横坐标大于该文字块的第一顶点的横坐标且与该文字块的间距最小的文字块,作为该文字块的竖直邻接文字块,并将该文字块与所述竖直邻接文字块建立所述第二邻接关系;
或者,针对每一所述文字块,选取第一顶点的横坐标小于该文字块的第二顶点的横坐标、第二顶点的横坐标大于该文字块的第一顶点的横坐标且与该文字块的间距最小的文字块,作为该文字块的竖直邻接文字块,并将该文字块与所述竖直邻接文字块建立所述第二邻接关系。
2.根据权利要求1所述的方法,其特征在于,在所述根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序之前,还包括:
判断所述具有同一种邻接关系的所述有序集合中是否存在相同的文字块;
若所述具有同一种邻接关系的所述有序集合中存在相同的文字块,则对有序集合中相同的文字块进行去重处理。
3.根据权利要求2所述的方法,其特征在于,所述对有序集合中相同的文字块进行去重处理,包括:
选取存在相同文字块的两个有序集合,确定第一有序集合中位于所述相同文字块两侧的第一有序子集合和第二有序子集合,以及第二集合中位于所述相同文字块两侧的第三有序子集合和第四有序子集合;
以所述第一有序集合为基准,将所述第三有序子集合插入到所述第一有序子集合和所述相同文字块之间,以及将所述第四有序子集合插入到所述第二有序子集合之后,得到新的有序集合。
4.一种文字块排序装置,其特征在于,包括:
建立模块,用于根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,所述邻接关系包括:用于表征文字块竖直邻接的第二邻接关系;或者,用于表征文字块水平邻接的第一邻接关系以及所述第二邻接关系;
生成模块,用于根据所述文字块间的邻接关系,生成按照同一种邻接关系相邻接的文字块的有序集合;
排序模块,用于针对具有同一种邻接关系的所述有序集合,根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序;
所述文字块的位置信息包括所述文字块的顶点坐标信息;
所述建立模块包括:
第一确定子模块,用于根据所述文字块的顶点坐标信息,确定所述文字块间的间距;
第一建立子模块,用于针对每一所述文字块,选取第一顶点的纵坐标小于该文字块的第二顶点的纵坐标、第二顶点的纵坐标大于该文字块的第一顶点的纵坐标且与该文字块的间距最小的文字块,作为该文字块的水平邻接文字块,并将该文字块与所述水平邻接文字块建立所述第一邻接关系;第二建立子模块,用于针对每一所述文字块,选取第一顶点的横坐标小于该文字块的第二顶点的横坐标、第二顶点的横坐标大于该文字块的第一顶点的横坐标且与该文字块的间距最小的文字块,作为该文字块的竖直邻接文字块,并将该文字块与所述竖直邻接文字块建立所述第二邻接关系;
或者,第二建立子模块,用于针对每一所述文字块,选取第一顶点的横坐标小于该文字块的第二顶点的横坐标、第二顶点的横坐标大于该文字块的第一顶点的横坐标且与该文字块的间距最小的文字块,作为该文字块的竖直邻接文字块,并将该文字块与所述竖直邻接文字块建立所述第二邻接关系。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
判断模块,用于在根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序之前,判断所述具有同一种邻接关系的所述有序集合中是否存在相同的文字块;
去重处理模块,用于若所述具有同一种邻接关系的所述有序集合中存在相同的文字块,则对有序集合中相同的文字块进行去重处理。
6.根据权利要求5所述的装置,其特征在于,所述去重处理模块包括:
第二确定子模块,用于选取存在相同文字块的两个有序集合,确定第一有序集合中位于所述相同文字块两侧的第一有序子集合和第二有序子集合,以及第二集合中位于所述相同文字块两侧的第三有序子集合和第四有序子集合;
插入子模块,用于以所述第一有序集合为基准,将所述第三有序子集合插入到所述第一有序子集合和所述相同文字块之间,以及将所述第四有序子集合插入到所述第二有序子集合之后,得到新的有序集合。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至3中任一项所述方法的步骤。
8.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1至3中任一项所述方法的步骤。
CN201811592901.9A 2018-12-25 2018-12-25 文字块排序方法、装置、存储介质及电子设备 Active CN109871517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811592901.9A CN109871517B (zh) 2018-12-25 2018-12-25 文字块排序方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811592901.9A CN109871517B (zh) 2018-12-25 2018-12-25 文字块排序方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN109871517A CN109871517A (zh) 2019-06-11
CN109871517B true CN109871517B (zh) 2023-04-25

Family

ID=66917256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811592901.9A Active CN109871517B (zh) 2018-12-25 2018-12-25 文字块排序方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN109871517B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027304B (zh) * 2019-11-18 2023-04-14 东软集团股份有限公司 文字块排序方法、装置、存储介质及电子设备
CN115618847B (zh) * 2022-12-20 2023-03-14 浙江保融科技股份有限公司 一种解析pdf文档的方法、装置和可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591845A (zh) * 2011-01-06 2012-07-18 北大方正集团有限公司 一种重叠文字的处理方法和装置
CN105653549A (zh) * 2014-11-12 2016-06-08 北大方正集团有限公司 一种提取文档信息的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591845A (zh) * 2011-01-06 2012-07-18 北大方正集团有限公司 一种重叠文字的处理方法和装置
CN105653549A (zh) * 2014-11-12 2016-06-08 北大方正集团有限公司 一种提取文档信息的方法及装置

Also Published As

Publication number Publication date
CN109871517A (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
KR102215766B1 (ko) 합성 화상을 생성하는 방법 및 장치
CN107688789B (zh) 文档图表抽取方法、电子设备及计算机可读存储介质
CN107689070B (zh) 图表数据结构化提取方法、电子设备及计算机可读存储介质
CN109871517B (zh) 文字块排序方法、装置、存储介质及电子设备
CN104978576A (zh) 一种文字识别方法及装置
CN104794116A (zh) 一种页面中元素的布局方法和装置
CN111310426A (zh) 基于ocr的表格版式恢复方法、装置及存储介质
CN106991422A (zh) 字符切割方法、装置及计算机可读存储介质和电子设备
CN111428700B (zh) 表格识别方法、装置、电子设备、存储介质
CN111768405B (zh) 处理标注图像的方法、装置、设备和存储介质
CN104268545A (zh) 一种电子档版式文件中的表格区域识别与内容栅格化方法
US9639970B2 (en) Character recognition system, character recognition program and character recognition method
JP6377743B2 (ja) 中間文字ライブラリを構築する方法及び装置
CN105653549A (zh) 一种提取文档信息的方法及装置
CN110263310B (zh) 数据图生成方法、装置及计算机可读存储介质
CN110321405B (zh) 模型匹配方法、装置、计算机可读存储介质和计算机设备
CN112288759B (zh) 一种边界提取方法、装置、设备及存储介质
CN102567302B (zh) 排版方式识别方法和装置
WO2019041526A1 (zh) 文档图表抽取方法、电子设备及计算机可读存储介质
CN113850265A (zh) Pdf文档的解析方法、装置、电子设备及存储介质
CN110442663B (zh) 栅格数据批量裁剪方法、装置及计算机可读存储介质
CN113343797A (zh) 信息提取方法、装置、终端设备及计算机可读存储介质
CN113838198B (zh) 一种电子地图中文字的自动标注方法、装置及电子设备
CN109815453A (zh) 文档分块方法、装置、存储介质及电子设备
CN113535174B (zh) 一种信息查找方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant