CN109815453A - 文档分块方法、装置、存储介质及电子设备 - Google Patents
文档分块方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN109815453A CN109815453A CN201811594902.7A CN201811594902A CN109815453A CN 109815453 A CN109815453 A CN 109815453A CN 201811594902 A CN201811594902 A CN 201811594902A CN 109815453 A CN109815453 A CN 109815453A
- Authority
- CN
- China
- Prior art keywords
- character block
- block
- neighbouring
- character
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000005192 partition Methods 0.000 title claims abstract description 16
- 238000004590 computer program Methods 0.000 claims description 11
- 230000000903 blocking effect Effects 0.000 claims description 5
- 239000002131 composite material Substances 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 239000000203 mixture Substances 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 9
- 230000006399 behavior Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000855 fermentation Methods 0.000 description 1
- 230000004151 fermentation Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本公开涉及一种文档分块方法、装置、存储介质及电子设备,所述方法包括:对文档进行预分块,并获取各个文字块在所述文档中的位置信息;根据各个所述文字块的位置信息,确定每一所述文字块和邻近该文字块的文字块之间的距离;将相互邻近且距离小于阈值的文字块组合成新的文字块,得到所述文档最终的分块结果。通过本公开的技术方案,能够适应对任何有确定位置信息的文字、图形以及图文混合排版的文档的分块。这样,基于划分后的文字块进行比较,相比于以行为最小单位进行比较的方式,不会受到文档排版等因素的影响,进而精确度更高。并且,相比于以单词为最小单位进行比较的方式,效率更高。
Description
技术领域
本公开涉及文字比较领域,具体地,涉及一种文档分块方法、装置、存储介质及电子设备。
背景技术
在文字处理领域,文档比较功能会经常使用到,例如比较两文档之间的差异性。
在对两篇文档的内容进行比较时,通常以行为单位进行比较,但是在两篇文档字号、字体、排版不一致的情况下,同一行显示的文字的数量不一致,以行为单位进行比较无法得到准确的结果。如果以单词(汉语情况下一个汉字为一个单词)为单位进行比较,由于某些文档无法按照阅读习惯找出各单词之间的相对次序,使得该比较方式难以实现。
发明内容
本公开的主要目的是提供一种文档分块方法、装置、存储介质及电子设备,用以快速准确地对文档进行分块,以基于文字块进行比较,提升比较的速度和精确度。
为了实现上述目的,本公开实施例第一方面提供一种文档分块方法,包括:
对文档进行预分块,并获取各个文字块在所述文档中的位置信息;
根据各个所述文字块的位置信息,确定每一所述文字块和邻近该文字块的文字块之间的距离;
将相互邻近且距离小于阈值的文字块组合成新的文字块,得到所述文档最终的分块结果。
可选地,所述邻近该文字块的文字块包括:与所述文字块水平邻近的文字块和竖直邻近的文字块;
所述确定每一所述文字块和邻近该文字块的文字块之间的距离,包括:
针对每一与所述文字块水平邻近的块和每一与所述文字块竖直邻近的目标文字块,将该目标文字块与所述文字块的邻近边界之间的距离,作为所述文字块与该目标文字块之间的距离。
可选地,所述邻近该文字块的文字块还包括:与所述文字块斜向邻近的文字块;
所述确定每一所述文字块和邻近该文字块的文字块之间的距离,还包括:
针对每一与所述文字块斜向邻近的目标文字块,将该目标文字块与所述文字块的邻近顶点之间的距离,作为所述文字块与该目标文字块之间的距离。
可选地,在得到所述文档的分块结果后,所述方法还包括:
按照预设顺序遍历所述文档中的文字块,根据每一文字块被遍历到的次序,生成文字块序列。
本公开实施例第二方面提供一种文档分块装置,包括:
预分块模块,用于对文档进行预分块,并获取各个文字块在所述文档中的位置信息;
第一确定模块,用于根据各个所述文字块的位置信息,确定每一所述文字块和邻近该文字块的文字块之间的距离;
组合模块,用于将相互邻近且距离小于阈值的文字块组合成新的文字块,得到所述文档最终的分块结果。
可选地,所述邻近该文字块的文字块包括:与所述文字块水平邻近的文字块和竖直邻近的文字块;
所述第一确定模块包括:
第一确定子模块,用于针对每一一与所述文字块水平邻近的和每一与所述文字块竖直邻近的目标文字块,将该目标文字块与所述文字块的邻近边界之间的距离,作为所述文字块与该目标文字块之间的距离。
可选地,所述邻近该文字块的文字块还包括:与所述文字块斜向邻近的文字块;
所述第一确定模块还包括:
第二确定子模块,用于针对每一与所述文字块斜向邻近的目标文字块,将该目标文字块与所述文字块的邻近顶点之间的距离,作为所述文字块与该目标文字块之间的距离。
可选地,所述装置还包括:
生成模块,用于在得到所述文档的分块结果后,按照预设顺序遍历所述文档中的文字块,根据每一文字块被遍历到的次序,生成文字块序列。本公开实施例第三发面提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本公开实施例第一方面所述方法的步骤。
本公开实施例第四方面提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开实施例第一方面所述方法的步骤。
采用本公开提供的技术方案,至少能够达到如下技术效果:
对文档进行预分块,根据各个文字块在文档中的位置信息确定每一文字块和邻近该文字块的文字块之间的距离,根据距离远近将文字块重新组合,该方法能够适应对任何有确定位置信息的文字、图形以及图文混合排版的文档的分块。这样,基于划分后的文字块进行比较,相比于以行为最小单位进行比较的方式,不会受到文档排版等因素的影响,进而精确度更高。并且,相比于以单词为最小单位进行比较的方式,效率更高。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开实施例提供一种文档分块方法的流程图;
图2是本公开实施例提供一种文字块间的邻近关系示意图;
图3是本公开实施例提供一种相互邻近文字块之间的距离的示意图;
图4是本公开实施例提供一种文档预分块结果的示意图;
图5是本公开实施例提供一种文字块间的邻近关系示意图;
图6是本公开实施例提供一种文档最终的分块结果的示意图;
图7是本公开实施例提供另一种文档分块方法的流程图;
图8是本公开实施例提供一种文档分块装置的框图;
图9是本公开实施例提供另一种文档分块装置的框图;
图10是本公开实施例提供一种电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
值得说明的是,本公开实施例中的术语“第一”、“第二”等是用于区别类似的对象,不必理解为特定的顺序或先后次序。
本公开实施例提供一种文档分块方法,如图1所示,该方法包括:
在步骤S11中,对文档进行预分块,并获取各个文字块在文档中的位置信息。
其中,预分块是指根据预先设定的粗放分块策略进行的分块。例如,以单个字符为单位,将相互邻近且距离较小的字符划分为一个文字块,或者将属性(例如字体、颜色、大小、样式、旋转角度等)相同且相互邻近的字符划分为一个文字块,或者以单词(汉语情况下一个字符为一个单词)为单位进行分块,又或者以行或列为单位进行分块,本公开对此不做限定。
预分块得到的每个文字块在文档中都有相应的位置,文字块在文档中的位置信息可以包括文字块在页面中的中心坐标和/或顶点坐标,还可以包括文字块在文档中的页码等。其中,文字块的中心坐标是指文字块的最小外接矩形框的中心点坐标,文字块的顶点坐标是指文字块的最小外接矩形框的各个顶点的坐标。
在步骤S12中,根据各个文字块的位置信息,确定每一文字块和邻近该文字块的文字块之间的距离。
示例地,可以针对同一页码的各个文字块,将每一文字块的中心坐标的预设范围内接触到(即部分或全部坐标处于该范围内)的其他文字块作为该文字块的邻近文字块。或者,根据每一文字块的各个顶点坐标,将每一顶点坐标的预设范围内接触到的其他文字块作为该文字块的邻近文字块。
可选地,所述邻近该文字块的文字块包括与所述文字块水平邻近的文字块和竖直邻近的文字块。
其中,所述文字块的水平邻近文字块的最小外接矩形框的最大纵坐标大于或等于所述文字块的最小外接矩形框的最小纵坐标,并且所述水平邻近文字块的最小外接矩形框的最小纵坐标小于或等于所述文字块的最小外接矩形框的最大纵坐标。同理,所述文字块的竖直邻近文字块的最小外接矩形框的最大横坐标大于或等于所述文字块的最小外接矩形框的最小横坐标,并且所述竖直邻近文字块的最小外接矩形框的最小横坐标小于或等于所述文字块的最小外接矩形框的最大横坐标。
在具体实施时,在确定某一文字块的中心坐标的预设范围和/或各顶点坐标的预设范围内接触到的文字块后,将所述接触到的文字块作为候选文字块,则与该文字块水平邻近的文字块即是指该候选文字块中,最小外接矩形框的最大纵坐标大于或等于所述文字块的最小外接矩形框的最小纵坐标,并且最小外接矩形框的最小纵坐标小于或等于所述文字块的最小外接矩形框的最大纵坐标的候选文字块;与该文字块竖直邻近的文字块即是指该候选文字块中,最小外接矩形框的最大横坐标大于或等于所述文字块的最小外接矩形框的最小横坐标,并且最小外接矩形框的最小横坐标小于或等于所述文字块的最小外接矩形框的最大横坐标的候选文字块。
可选地,所述邻近该文字块的文字块还可以包括与所述文字块斜向邻近的文字块。
与某一文字块斜向邻近的文字块是指除了水平邻近和竖直邻近的文字块以外的,其他该文字块中心坐标的预设范围和/或顶点坐标的预设范围内接触到的文字块。
例如,以图2所示的文档举例,其中,每个细实线框表示一个文字块。对于文字块11,与该文字块11水平邻近的文字块包括位于该文字块11左侧的文字块12和位于该文字块右侧的文字块13;与文字块11竖直邻近的文字块包括位于该文字块11上侧的文字块14和位于该文字块下侧的文字块15;与文字块11斜向邻近的文字块包括位于该文字块11左上方的文字块16、左下方的文字块17、右上方的文字块18和右下方的文字块19。
下面具体说明文字块与相邻文字块之间的距离的确定。
示例地,针对每一与所述文字块水平邻近的和每一与所述文字块竖直邻近的目标文字块,可以将该目标文字块与所述文字块的邻近边界之间的距离作为所述文字块与该目标文字块之间的距离。其中,邻近边界是指两个文字块的最小外接矩形框的相邻的两条边。
而针对每一与所述文字块斜向邻近的目标文字块,则可以将该目标文字块与所述文字块邻近顶点之间的距离,作为所述文字块与该目标文字块之间的距离。其中,邻近顶点是指两个文字块的最小外接矩形框的相邻的两个顶点。
例如,以图3所示的文字块举例,对于文字块E,与该文字块水平邻近的文字块包括文字块D和F,与该文字块竖直邻近的文字块包括文字块B和H,文字块E与文字块B之间的距离为边界ij和边界cd之间的距离,同样地,文字块E与文字块H、D、F之间的距离依次为边界op与边界uv之间的距离、边界io与边界hn之间的距离以及边界jp与边界kq之间的距离。与文字块E斜向邻近的文字块包括文字块A、G、C和I,文字块E与文字块A、G、C和I之间的距离依次为顶点i和顶点b之间的距离、顶点o和顶点t之间的距离、顶点j和顶点e之间的距离以及顶点p和顶点w之间的距离。
值得说明的是,针对每一文字块,邻近该文字块的文字块可以根据实际需要确定。例如,对两篇文档中的表格进行比较,由于表格中的文字通常都是横平竖直排列的,因而针对每一文字块,所述邻近该文字块的文字块包括与所述文字块水平邻近的文字块和竖直邻近的文字块。
在步骤S13中,将相互邻近且距离小于阈值的文字块组合成新的文字块,得到文档最终的分块结果。
例如,以图4示出的文档预分块结果举例,其中,每个细实线框表示一个文字块。该文档中的文字为横平竖直排列的,因而针对每一文字块,若邻近该文字块的文字块包括与该文字块水平邻近的文字块和竖直邻近的文字,得到的与各文字块邻近的文字块如图5所示,其中,实线连接的两个文字块之间为水平邻近或竖直邻近。以文字块1至文字块10为例,这些文字块相互邻接且距离小于阈值,则将文字块1和文字块10组合为一个新的文字块。同样地,对文档中的其他文字块进行组合,可得到如图6所示的该文档最终的分块结果,其中,粗实线框表示组合后形成的新文字块。
值得说明的是,在本公开的实施例中,阈值可以根据实际情况进行设置。可选地,考虑到文档每页的排版不同,使得每页文档中的文字块之间的间距不同,因此可以根据文档的每一页的预分块结果,针对文档的每一页,将该页中各个相互邻近的文字块之间的距离的平均值作为该页的阈值。由此,得到每一页对应的阈值。相应地,可以针对文档的每一页,将该页中相互邻近且距离小于该页对应阈值的文字块组合成新文字块,得到该页最终的分块结果。由此,可得到该文档最终的分块结果。
其次,在具体应用于对两篇文章进行比较时,两篇文档的文字块可以均按照相同的方式划分文字块,也就是说,对两篇文档的预划分方式相同,且对预划分得到的每一文字块,邻近该文字块的文字块都包括与该文字块水平邻近的文字块和竖直邻近的文字块,或者都包括与该文字块水平邻近的文字块、竖直邻近的文字块以及斜向邻近的文字块,相应地,针对每篇文挡,将相互邻近且距离小于阈值的文字块组合成新的文字块。这样,两篇文档中的文字块就能组成文字块对进行比较。
采用上述方法,对文档进行预分块,根据各个文字块在文档中的位置信息确定每一文字块和邻近该文字块的文字块之间的距离,根据距离远近将文字块重新组合,该方法能够适应对任何有确定位置信息的文字、图形以及图文混合排版的文档的分块。这样,基于划分后的文字块进行比较,相比于以行为最小单位进行比较的方式,不会受到文档排版等因素的影响,进而精确度更高。并且,相比于以单词为最小单位进行比较的方式,效率更高。
在本公开的另一个实施例中,如图7所示,上述方法还包括:
在步骤S14中,按照预设顺序遍历所述文档中的文字块,根据每一文字块被遍历到的次序,生成文字块序列。
其中,所述文字块序列用于与另一篇文档的文字块序列,按照顺序成对的进行文字块一致性比较。
值得说明的是,遍历的顺序可以根据实际需求进行设置,例如对于语言类型为中文的文档,遍历顺序可以设置为从左到右、从上至下。
例如,以图6所示的文档最终的分块结果举例,按照从左到右、从上至下的顺序遍历该文档中的文字块,生成文字块序列如下所示:
{排名}
{1 2 3 4 5 6 7 8 9}
{10}
{10}
{校名}
{牛津大学剑桥大学加州理工学院斯坦福大学麻省理工学院哈佛大学普林斯顿大学伦敦帝国学院芝加哥大学瑞士苏黎世理工学院宾夕法尼亚大学}
{FTE学生人数}
{20,409 18,389 2,209 15,845 11,177 20,326 7,955 15,857 13,525}
{19,233}
{20,361}
{学生教员比例11.2 10.9 6.5 7.5 8.7 8.9 8.3 11.4 6.2}
{14.6}
{6.5}
{国际生比例38% 35% 27% 22% 34% 26% 24% 55% 25%}
{38%}
{20%}
{女男比例}
{46:54 45:55 31:69 42:58 37:63 n/a 45:55 37:63 44:56}
{31:69}
{50:50}
{总分}
{94.3 93.2 93.0 93.0 92.5 91.8 91.1 89.2 88.6}
{87.7}
{87.7}
{教学}
{86.7 87.8 90.3 89.1 87.3 84.2 85.7 81.7 85.3}
{76.4}
{83.7}
{科研}
{99.5 97.8 97.5 96.7 91.9 98.4 93.9 88.7 90.1}
{92.0}
{90.1}
{学术引用}
{99.1 97.5 99.5 99.9 100.0 99.7 99.6 96.7 99.4}
{94.3}
{98.5}
{工业营收}
{63.7 51.5 92.6 60.5 88.4 46.4 58.0 71.6 39.8}
{60.3}
{56.9}
{国际交流}
{95.0 93.0 69.7 77.6 87.6 79.7 78.7 96.6 69.6}
{98.1}
{61.3}
值得说明的是,本公开实施例可以分别对文档的每一页执行上述方法步骤,得到每一页的文字块序列。接着,将各页的文字块序列按照页码顺序组合在一起,就得到整篇文档的文字块序列。
采用上述方法步骤,整篇文档中的文字块在逻辑上有序,这样,就可以基于两篇待比较的文档中各个文字块的排列顺序,以文字块为单位,将两篇文档中排序相同的文字块组成文字块对进行文字比较,效率比以单词为最小单位进行比较的效率更高。并且,在将排序相同的文字块组成文字块对后,两篇文档中的文字块也相应对齐,相比于现有技术中以行为最小单位进行文本比较,本公开提供的技术方案不会受到两文本的排版、字体、字号等因素的影响,因而精确度更高。
本公开实施例还提供一种文档分块装置,如图8所示,该装置800包括:
预分块模块801,用于对文档进行预分块,并获取各个文字块在所述文档中的位置信息;
第一确定模块802,用于根据各个所述文字块的位置信息,确定每一所述文字块和邻近该文字块的文字块之间的距离;
组合模块803,用于将相互邻近且距离小于阈值的文字块组合成新的文字块,得到所述文档最终的分块结果。
采用上述装置,对文档进行预分块,根据各个文字块在文档中的位置信息确定每一文字块和邻近该文字块的文字块之间的距离,根据距离远近将文字块重新组合,该方法能够适应对任何有确定位置信息的文字、图形以及图文混合排版的文档的分块。这样,基于划分后的文字块进行比较,相比于以行为最小单位进行比较的方式,不会受到文档排版等因素的影响,进而精确度更高。并且,相比于以单词为最小单位进行比较的方式,效率更高。
可选地,如图9所示,所述邻近该文字块的文字块包括:与所述文字块水平邻近的文字块和竖直邻近的文字块;
所述第一确定模块802包括:
第一确定子模块821,用于针对每一与所述文字块水平邻近的和每一与所述文字块竖直邻近的目标文字块,将该目标文字块与所述文字块的邻近边界之间的距离,作为所述文字块与该目标文字块之间的距离。
可选地,如图9所示,所述邻近该文字块的文字块还包括:与所述文字块斜向邻近的文字块;
所述第一确定模块802还包括:
第二确定子模块822,用于针对每一与所述文字块斜向邻近的目标文字块,将该目标文字块与所述文字块的邻近顶点之间的距离,作为所述文字块与该目标文字块之间的距离。
可选地,如图9所示,所述装置800还包括:
生成模块804,用于在得到所述文档的分块结果后,按照预设顺序遍历所述文档中的文字块,根据每一文字块被遍历到的次序,生成文字块序列。
通过生成模块和第二确定模块,整篇文档中的文字块在逻辑上有序,这样,就可以基于两篇待比较的文档中各个文字块的排列顺序,以文字块为单位,将两篇文档中排序相同的文字块组成文字块对进行文字比较,效率比以单词为最小单位进行比较的效率更高。并且,在将排序相同的文字块组成文字块对后,两篇文档中的文字块也相应对齐,相比于现有技术中以行为最小单位进行文本比较,本公开提供的技术方案不会受到两文本的排版、字体、字号等因素的影响,因而精确度更高。
本领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述功能模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法实施例提供的一种文档分块方法的步骤。
本公开实施例还提供一种电子设备,该电子设备可以被提供作为一种服务器,该电子设备包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述方法实施例提供的一种文档分块方法的步骤。
图10是该电子设备的一种结构示意图,参照图10,该电子设备1000包括处理器1022,其数量可以为一个或多个,以及存储器1032,用于存储可由处理器1022执行的计算机程序。存储器1032中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1022可以被配置为执行该计算机程序,以执行上述的文档分块方法。
另外,电子设备1000还可以包括电源组件1026和通信组件1050,该电源组件1026可以被配置为执行电子设备1000的电源管理,该通信组件1050可以被配置为实现电子设备1000的通信,例如,有线或无线通信。此外,该电子设备1000还可以包括输入/输出(I/O)接口1058。电子设备1000可以操作基于存储在存储器1032的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的文档分块方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1032,上述程序指令可由电子设备1000的处理器1022执行以完成上述的文档分块方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (10)
1.一种文档分块方法,其特征在于,包括:
对文档进行预分块,并获取各个文字块在所述文档中的位置信息;
根据各个所述文字块的位置信息,确定每一所述文字块和邻近该文字块的文字块之间的距离;
将相互邻近且距离小于阈值的文字块组合成新的文字块,得到所述文档最终的分块结果。
2.根据权利要求1所述的方法,其特征在于,所述邻近该文字块的文字块包括与所述文字块水平邻近的文字块和竖直邻近的文字块;
所述确定每一所述文字块和邻近该文字块的文字块之间的距离,包括:
针对每一与所述文字块水平邻近的和每一与所述文字块竖直邻近的目标文字块,将该目标文字块与所述文字块的邻近边界之间的距离,作为所述文字块与该目标文字块之间的距离。
3.根据权利要求2所述的方法,其特征在于,所述邻近该文字块的文字块还包括与所述文字块斜向邻近的文字块;
所述确定每一所述文字块和邻近该文字块的文字块之间的距离,还包括:
针对每一与所述文字块斜向邻近的目标文字块,将该目标文字块与所述文字块的邻近顶点之间的距离,作为所述文字块与该目标文字块之间的距离。
4.根据权利要求1至3中任一项所述的方法,其特征在于,在得到所述文档的分块结果后,所述方法还包括:
按照预设顺序遍历所述文档中的文字块,根据每一文字块被遍历到的次序,生成文字块序列。
5.一种文档分块装置,其特征在于,包括:
预分块模块,用于对文档进行预分块,并获取各个文字块在所述文档中的位置信息;
第一确定模块,用于根据各个所述文字块的位置信息,确定每一所述文字块和邻近该文字块的文字块之间的距离;
组合模块,用于将相互邻近且距离小于阈值的文字块组合成新的文字块,得到所述文档最终的分块结果。
6.根据权利要求5所述的装置,其特征在于,所述邻近该文字块的文字块包括:与所述文字块水平邻近的文字块和竖直邻近的文字块;
所述第一确定模块包括:
第一确定子模块,用于针对每一与所述文字块水平邻近的和每一与所述文字块竖直邻近的目标文字块,将该目标文字块与所述文字块的邻近边界之间的距离,作为所述文字块与该目标文字块之间的距离。
7.根据权利要求6所述的装置,其特征在于,所述邻近该文字块的文字块还包括:与所述文字块斜向邻近的文字块;
所述第一确定模块还包括:
第二确定子模块,用于针对每一与所述文字块斜向邻近的目标文字块,将该目标文字块与所述文字块的邻近顶点之间的距离,作为所述文字块与该目标文字块之间的距离。
8.根据权利要求5至7中任一项所述的装置,其特征在于,所述装置还包括:
生成模块,用于在得到所述文档的分块结果后,按照预设顺序遍历所述文档中的文字块,根据每一文字块被遍历到的次序,生成文字块序列。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至4中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1至4中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811594902.7A CN109815453A (zh) | 2018-12-25 | 2018-12-25 | 文档分块方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811594902.7A CN109815453A (zh) | 2018-12-25 | 2018-12-25 | 文档分块方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109815453A true CN109815453A (zh) | 2019-05-28 |
Family
ID=66602401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811594902.7A Pending CN109815453A (zh) | 2018-12-25 | 2018-12-25 | 文档分块方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815453A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027304A (zh) * | 2019-11-18 | 2020-04-17 | 东软集团股份有限公司 | 文字块排序方法、装置、存储介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101206639A (zh) * | 2007-12-20 | 2008-06-25 | 北大方正集团有限公司 | 一种基于pdf的复杂版面的标引方法 |
CN101876967A (zh) * | 2010-03-25 | 2010-11-03 | 深圳市万兴软件有限公司 | 一种pdf文本段落生成的方法 |
CN102591845A (zh) * | 2011-01-06 | 2012-07-18 | 北大方正集团有限公司 | 一种重叠文字的处理方法和装置 |
CN103870543A (zh) * | 2014-02-25 | 2014-06-18 | 百度在线网络技术(北京)有限公司 | 一种用于文档文件重构的方法及装置 |
CN104536947A (zh) * | 2014-12-10 | 2015-04-22 | 百度在线网络技术(北京)有限公司 | 版式文档的处理方法及装置 |
CN106326854A (zh) * | 2016-08-19 | 2017-01-11 | 掌阅科技股份有限公司 | 一种版式文档段落识别方法 |
CN107622041A (zh) * | 2017-09-18 | 2018-01-23 | 北京神州泰岳软件股份有限公司 | 隐性表格提取方法及装置 |
-
2018
- 2018-12-25 CN CN201811594902.7A patent/CN109815453A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101206639A (zh) * | 2007-12-20 | 2008-06-25 | 北大方正集团有限公司 | 一种基于pdf的复杂版面的标引方法 |
CN101876967A (zh) * | 2010-03-25 | 2010-11-03 | 深圳市万兴软件有限公司 | 一种pdf文本段落生成的方法 |
CN102591845A (zh) * | 2011-01-06 | 2012-07-18 | 北大方正集团有限公司 | 一种重叠文字的处理方法和装置 |
CN103870543A (zh) * | 2014-02-25 | 2014-06-18 | 百度在线网络技术(北京)有限公司 | 一种用于文档文件重构的方法及装置 |
CN104536947A (zh) * | 2014-12-10 | 2015-04-22 | 百度在线网络技术(北京)有限公司 | 版式文档的处理方法及装置 |
CN106326854A (zh) * | 2016-08-19 | 2017-01-11 | 掌阅科技股份有限公司 | 一种版式文档段落识别方法 |
CN107622041A (zh) * | 2017-09-18 | 2018-01-23 | 北京神州泰岳软件股份有限公司 | 隐性表格提取方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027304A (zh) * | 2019-11-18 | 2020-04-17 | 东软集团股份有限公司 | 文字块排序方法、装置、存储介质及电子设备 |
CN111027304B (zh) * | 2019-11-18 | 2023-04-14 | 东软集团股份有限公司 | 文字块排序方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109710590A (zh) | 一种错题本生成方法及装置 | |
KR100194762B1 (ko) | 평면쓸기기법을 이용한 점객체용 명칭배치방법 | |
CN109815932A (zh) | 一种试卷批改方法、装置、电子设备及存储介质 | |
CN109543777A (zh) | 手写汉字书写质量评价方法及系统 | |
Hammond et al. | A sketch recognition system for recognizing free-hand course of action diagrams | |
CN104200240A (zh) | 一种基于内容自适应哈希编码的草图检索方法 | |
CN106156082A (zh) | 一种本体对齐方法及装置 | |
CN104699822A (zh) | 一种地图点要素注记自动配置方法 | |
CN110347994A (zh) | 一种表格处理方法和装置 | |
CN112668289A (zh) | 一种嵌套表格的提取方法及装置、存储介质 | |
CN109815453A (zh) | 文档分块方法、装置、存储介质及电子设备 | |
CN105447907A (zh) | 一种基于立体重构的工程制图作业智能批改方法及系统 | |
CN109871517B (zh) | 文字块排序方法、装置、存储介质及电子设备 | |
CN113378823A (zh) | 一种心理量表试卷生成及其自动化批阅系统 | |
CN111079742A (zh) | 一种扫描试卷中作文区域图像文本块精准定位方法 | |
CN102346915B (zh) | 电压等高曲面图形快速生成方法 | |
Shinkai et al. | A trial of algorithm education emphasizing manual procedures | |
CN210271474U (zh) | 一种机器人综合实训台用轨迹及搬运模块 | |
AU2016380716B2 (en) | Method and apparatus for recognizing slide | |
CN105654534A (zh) | 一种学术海报自动排版生成方法 | |
Gomez et al. | Fearless cards: addressing emotional barriers to computer learning among extremely marginalized populations | |
Tam et al. | Exploring Chinese through learning objects and interactive interface on mobile devices | |
Waugh et al. | GIMMS/An Example of an Operational System for Computer Cartography | |
Slyusarenko | The visions of world-class universities | |
CN113838198B (zh) | 一种电子地图中文字的自动标注方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190528 |