CN114757144A - 图像文档的重建方法、装置、电子设备和存储介质 - Google Patents
图像文档的重建方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114757144A CN114757144A CN202210663855.7A CN202210663855A CN114757144A CN 114757144 A CN114757144 A CN 114757144A CN 202210663855 A CN202210663855 A CN 202210663855A CN 114757144 A CN114757144 A CN 114757144A
- Authority
- CN
- China
- Prior art keywords
- layout structure
- structure element
- target
- image document
- structure elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 239000011159 matrix material Substances 0.000 claims abstract description 172
- 238000004364 calculation method Methods 0.000 claims abstract description 64
- 230000011218 segmentation Effects 0.000 claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 27
- 238000005192 partition Methods 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 16
- 238000012512 characterization method Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000007373 indentation Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 101100391182 Dictyostelium discoideum forI gene Proteins 0.000 description 1
- 108091034117 Oligonucleotide Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Editing Of Facsimile Originals (AREA)
- Document Processing Apparatus (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请实施例提出一种图像文档的重建方法、装置、电子设备和存储介质,涉及图像文档重建领域。通过接收针对目标图像文档的重建指令;根据重建指令对目标图像文档进行版面结构分析,获得目标图像文档的实例分割矩阵;对实例分割矩阵进行坐标投影计算,获得版面结构元素的位置信息,以及版面结构元素与其他版面结构元素之间的位置关系信息;根据版面结构元素的位置信息,以及版面结构元素与其他版面结构元素之间的位置关系信息,输出版面结构元素对应的文本内容,获得重建后的图像文档,从而在保证版面结构元素位置和文本内容输出的精确度的基础上,能够适配所有的复杂图像进行图像文档重建。
Description
技术领域
本申请涉及图像文档重建领域,具体而言,涉及一种发图像文档的重建方法、装置、电子设备和存储介质。
背景技术
目前,可通过对图像进行版面分析,将该图像中所包括的版面结构进行自动解析,并产生包括结构的可编辑文档,从而实现图像文档的重建。
现有技术中,在针对复杂版面的图像进行图像文档重建时,往往需要针对不同的图像采用不同的分析策略从而实现图像转文档的重建,但这种方法仅能针对某些特定的版面的图像,无法精确地适配所有复杂图像。
发明内容
有鉴于此,本申请的目的在于提供一种图像文档的重建方法、装置、电子设备和存储介质,以针对所有复杂图像实现精确的图像文档重建。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请提供一种图像文档的重建方法,所述方法包括:
接收针对目标图像文档的重建指令;所述目标图像文档中包括多个版面结构元素;
根据所述重建指令对所述目标图像文档进行版面结构分析,获得所述目标图像文档的实例分割矩阵;
对所述实例分割矩阵进行坐标投影计算,获得所述版面结构元素的位置信息,以及所述版面结构元素与其他版面结构元素之间的位置关系信息;
根据所述版面结构元素的位置信息,以及所述版面结构元素与其他版面结构元素之间的位置关系信息,输出所述版面结构元素对应的文本内容,获得重建后的图像文档。
在可选的实施方式中,所述根据所述重建指令对所述目标图像文档进行版面结构分析,获得所述目标图像文档的实例分割矩阵,包括:
根据版面分析算法对所述目标图像文档进行分析,获得所述目标图像文档中每个所述版面结构元素的坐标位置;
根据所述目标图像文档的尺寸信息,生成掩码图;所述掩码图与所述目标图像文档具有相同尺寸,且所述掩码图中的每个坐标点均为0;
根据每个所述版面结构元素的坐标位置,将所述掩码图中对应位置上的坐标点置为1,获得所述目标图像文档的实例分割矩阵。
在可选的实施方式中,所述对所述实例分割矩阵进行坐标投影计算,获得所述版面结构元素的位置信息,以及所述版面结构元素与其他版面结构元素之间的位置关系信息,包括:
将所述实例分割矩阵作为目标对象,对所述目标对象进行横坐标投影计算,获得满足第一预设条件的横坐标区间;
对第一目标分块矩阵进行纵坐标投影计算;所述第一目标分块矩阵为根据每一段满足第一预设条件的横坐标区间,在所述实例分割矩阵上确定的分块矩阵;
若获得多段满足第二预设条件的纵坐标区间,则分别根据所述满足第一预设条件的横坐标区间和所述多段满足第二预设条件的纵坐标区间,在所述实例分割矩阵上确定多个第二目标分块矩阵,并将每个所述第二目标分块矩阵作为新的目标对象进行横坐标投影计算,直至仅获得一段满足第二预设条件的纵坐标区间;
若仅获得一段满足第二预设条件的纵坐标区间,则根据所述满足第一预设条件的横坐标区间和所述满足第二预设条件的纵坐标区间,在所述实例分割矩阵上确定第三目标分块矩阵,并计算所述第三目标分块矩阵对应的版面结构元素的位置信息,以及所述第三目标分块矩阵对应的版面结构元素与其他版面结构元素之间的位置关系信息。
在可选的实施方式中,所述对所述目标对象进行横坐标投影计算,获得满足第一预设条件的横坐标区间,包括:
针对所述目标对象进行横坐标投影求和,获得所述目标对象的横坐标投影求和序列;所述横坐标投影求和序列包括多个横坐标投影求和结果,每个所述横坐标投影求和结果对应一个横坐标;
确定所述横坐标投影求和序列上连续大于0的多个横坐标投影求和结果,将根据所述多个横坐标投影求和结果对应的横坐标确定的区间作为满足第一预设条件的横坐标区间。
在可选的实施方式中,所述对第一目标分块矩阵进行纵坐标投影计算,包括:
针对所述第一目标分块矩阵进行纵坐标投影求和,获得所述第一目标分块矩阵的纵坐标投影求和序列;所述纵坐标投影求和序列包括多个纵坐标投影求和结果,每个所述纵坐标投影求和结果对应一个纵坐标;
确定所述纵坐标投影求和序列上连续大于0的多个纵坐标投影求和结果,将根据所述多个纵坐标投影求和结果对应的纵坐标确定的区间,作为满足第二预设条件的纵坐标区间。
在可选的实施方式中,在所述对所述实例分割矩阵进行坐标投影计算,获得所述版面结构元素的位置信息,以及所述版面结构元素与其他版面结构元素之间的位置关系信息的步骤之后,所述方法还包括:
根据每个所述版面结构元素的位置信息,和每个所述版面结构元素与其他版面结构元素之间的位置关系信息,按照从上至下的顺序,将满足上下位置关系的版面结构元素作为第一整体,并为所述第一整体添加上下位置标识;
以及按照从左至右的顺序,将满足左右位置关系的版面结构元素作为第二整体,并为所述第二整体添加左右位置标识;
根据每个所述版面结构元素的位置信息、添加了上下位置标识的第一整体以及添加了左右位置标识的第二整体,获得全部所述版面结构元素的位置关系列表。
在可选的实施方式中,所述根据所述版面结构元素的位置信息,以及所述版面结构元素与其他版面结构元素之间的位置关系信息,输出所述版面结构元素对应的文本内容,包括:
对所述位置关系列表中所包括的版面结构元素进行遍历;
若当前遍历的目标版面结构元素属于所述第一整体,则根据所述目标版面结构元素的位置信息,输出对应的文本内容;
若当前遍历的目标版面结构元素属于所述第二整体,则在所述目标板面结构元素为所述第二整体中的第一个版面结构元素的情况下,在所述目标版面结构元素之前插入分节符,根据所述第二整体中所包含的所有版面结构元素的位置信息,在所述第二整体所对应的位置设置左右分栏,并根据所述目标版面结构元素的位置信息,输出对应的文本内容;
在所述目标版面结构元素为所述第二整体中的最后一个版面结构元素的情况下,根据所述目标版面结构元素的位置信息,输出对应的文本内容,并在所述目标版面结构元素之后插入分节符;
在所述目标版面结构元素为所述第二整体中的其他版面结构元素的情况下,根据所述目标版面结构元素的位置信息,输出对应的文本内容;所述其他版面结构元素为除了第一个版面结构元素和最后一个版面结构元素之外的版面结构元素。
在可选的实施方式中,在所述根据每个所述版面结构元素的位置信息,以及每个所述版面结构元素与其他版面结构元素之间的位置关系信息,输出每个所述版面结构元素对应的文本内容,获得重建后的图像文档的步骤之前,所述方法还包括:
根据所述位置关系列表,针对所述第二整体中所包括的版面结构元素进行遍历;
若所述版面结构元素需要与相邻的版面结构元素进行文本内容拼接,则将需要进行文本内容拼接的版面结构元素所对应的文本内容进行拼接,获得拼接文本内容。
第二方面,本申请提供一种图像文档的重建装置,所述装置包括:
接收模块,用于接收针对目标图像文档的重建指令;所述目标图像文档中包括多个版面结构元素;
分析模块,用于根据所述重建指令对所述目标图像文档进行版面结构分析,获得所述目标图像文档的实例分割矩阵;
投影计算模块,用于对所述实例分割矩阵进行坐标投影计算,获得所述版面结构元素的位置信息,以及所述版面结构元素与其他版面结构元素之间的位置关系信息;
输出模块,用于根据所述版面结构元素的位置信息,以及所述版面结构元素与其他版面结构元素之间的位置关系信息,输出所述版面结构元素对应的文本内容,获得重建后的图像文档。
第三方面,本申请提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现前述实施方式任一项所述的方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施方式中任一项所述的方法。
本申请实施例提供的图像文档的重建方法、装置、电子设备和存储介质,通过对目标图像文档进行版面结构分析,获得目标图像文档的实例分割矩阵,并对该实例分割矩阵进行坐标投影计算,以获得该目标图像文档中版面结构元素的位置信息,以及版面结构元素与其他版面结构元素之间的位置关系信息,因此可在图像文档重建时,在结合了版面结构元素的位置信息和位置关系信息的基础上,输出对应的文本内容,从而在保证版面结构元素位置和文本内容输出的精确度的基础上,能够适配所有的复杂图像进行图像文档重建。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的电子设备的方框示意图;
图2示出了本申请实施例提供的图像文档的重建方法的一种流程示意图;
图3示出了本申请实施例提供的图像文档的重建方法的另一种流程示意图;
图4示出了实例分割矩阵示意图;
图5示出了本申请实施例提供的图像文档的重建方法的另一种流程示意图;
图6示出了本申请实施例提供的图像文档的重建方法的另一种流程示意图;
图7示出了对实例分割矩阵进行横坐标投影求和的示意图;
图8示出了本申请实施例提供的图像文档的重建方法的另一种流程示意图;
图9示出了对第一目标分块矩阵进行纵坐标投影求和的示意图;
图10示出了本申请实施例提供的图像文档的重建方法的另一种流程示意图;
图11示出了本申请实施例提供的图像文档的重建方法的另一种流程示意图;
图12示出了本申请实施例提供的图像文档的重建方法的另一种流程示意图;
图13示出了本申请实施例提供的图像文档的重建装置的功能模块图。
图标:100-电子设备;110-存储器;120-处理器;130-通信模块;200-空白区域;210-版面结构元素区域;300-接收模块;310-分析模块;320-投影计算模块;330-输出模块。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
目前,在针对以图像形式存储的图像文档进行文档还原、文档录入、文档内容提取等操作时,往往需要对该图像文档进行重建,由于对于一个图像文档而言,其版面中包括多个结构元素,例如段落、表格、图片等,因此,在进行图像文档重建时,需要对该图像文档的版面中所包括的段落、表格、图片等栏目的位置和内容进行自动解析,生成带有结构信息的可编辑文档。
图像文档往往包括简单版面图像文档以及复杂版面图像文档,该简单版面图像文档为单栏图像文档,即,在该图像文档的版面中,各个结构元素之间仅存在上下关系,其版面形成单栏结构;而复杂版面图像文档为具有多栏的图像文档,即,在该图像文档的版面中,各个结构元素之间不仅存在上下关系,还存在左右关系,例如双栏图像文档、单双栏混合图像文档等。
现有技术中,往往可以针对具有简单结构的单栏图像文档进行图像文档重建,在进行简单版面分析从而识别各个结构元素的位置后,按照上下顺序输出对应文本内容即可。但由于复杂版面图像文档中各个结构元素之间所存在的复杂关系,因此,该方法显然无法适配复杂版面图像文档,若通过针对单栏图像文档的图像文档重建方法对复杂版面图像文档进行图像文档重建,则无法保证图像文档重建的精确度。
在此基础上,一些现有技术中可通过针对不同的复杂版面图像文档,采用不同的分析策略的方法,从而针对具有一定结构的复杂版面图像文档进行图像文档的重建,例如公开号为CN102317933的专利文献公开了一种用于文档重构的方法和系统,可采用不同的未结构化文档的本原元素来识别未结构化文档的各种几何属性,采用识别出的几何属性和本原元素的其他属性来定义结构性元素,以及定义通过本原元素各结构性元素的阅读流。该方法可以针对不同的实施例采用不同的分析策略,文档重构质量较高,但显然地,该方法需要提前设置策略,针对不同结构的复杂版面图像文档分别进行分析,因此在出现新的实施例的时候,无法精确地识别对应的结构位置以及在其中输出相应的文本内容,存在泛化能力较差的问题。
此外,公开号为CN111523292的专利文献公开了一种用于获取图像信息的方法和装置,可利用深度神经网络对待处理图像进行检测,以得到待处理图像中目标的类别和位置,之后基于得到的位置对应的类别,解析所得到的位置的目标买得到可编辑的解析结果,最后按照各个解析结果在待处理图像中的位置进行文档重建,从而得到可编辑文档。该方案可以基于各个位置对应的类别,准确地解析各个位置的目标,从而实现对图像的全面解析。但该方法中并未关注文本内容之间的关系以及文本内容的输出顺序,因此存在文档重建时文本出错或文本内容衔接不畅等问题,不利于用户的阅读以及后续编辑。
因此,基于以上缺陷,本申请提出一种图像文档的重建方法,以解决以上问题。
请参照图1,是电子设备100的方框示意图。该电子设备可以是能够对图像文档进行处理的设备,例如终端设备,包括PC端、移动终端等。
所述电子设备100包括存储器110、处理器120及通信模块130。所述存储器110、处理器120以及通信模块130各组件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些组件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,存储器110用于存储程序或者数据。所述存储器110可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。
处理器120用于读/写存储器中存储的数据或程序,并执行相应的功能。
通信模块130用于通过所述网络建立所述电子设备100与其它通信终端之间的通信连接,并用于通过所述网络收发数据。
应当理解的是,图1所示的结构仅为电子设备100的结构示意图,所述电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,可实现本申请实施例提供的图像文档的重建方法。
下面以电子设备为执行主体,对本申请实施例提供的图像文档的重建方法进行示例性说明,具体的,请参见图2,为本申请实施例提供的图像文档的重建方法的一种流程示意图,该方法包括:
步骤S20,接收针对目标图像文档的重建指令;
其中,目标图像文档中包括多个版面结构元素;
可选地,该目标图像文档为用户选择的需要进行重建的图像文档;该重建指令用于指示电子设备针对目标图像文档进行重建。
可选地,该版面结构元素可以为设置在目标图像文档中,构成目标文档中栏目的结构元素,例如段落、表格、图片等。
步骤S21,根据重建指令对目标图像文档进行版面结构分析,获得目标图像文档的实例分割矩阵;
可选地,该实例分割矩阵为能够反映目标图像文档中所包含的结构元素的矩阵。
步骤S22,对实例分割矩阵进行坐标投影计算,获得版面结构元素的位置信息,以及版面结构元素与其他版面结构元素之间的位置关系信息;
可选地,该位置信息为版面结构元素在该目标图像文档中所处的位置;对于一个版面结构元素而言,该其他版面结构元素目标图像文档中,除了该版面结构元素之外的其他所有版面结构元素。
可以理解的,该位置关系信息为该版面结构元素与其他所有版面结构元素的位置关系信息,在一个示例中,该位置关系信息可以是上下位置关系或左右位置关系。例如,若一个目标图像文档中包括版面结构元素A、版面结构元素B、版面结构元素C,则对于版面结构元素B而言,该位置关系信息可以是该版面结构元素B相对于版面结构元素A为上下关系,相对于版面结构元素C为左右关系。
步骤S23,根据版面结构元素的位置信息,以及版面结构元素与其他版面结构元素之间的位置关系信息,输出版面结构元素对应的文本内容,获得重建后的图像文档。
可选地,该重建后的图像文档可以是可编辑的图像文档。
在本实施例中,由于仅对版面结构元素进行分析获得其位置,无法实现对版面结构元素中所包含的文本内容的编辑,因此,可在对版面结构元素进行分析,获得版面结构元素的位置信息以及版面结构元素与其他版面结构元素之间的位置关系信息之后,根据版面结构元素的位置信息和版面结构元素与其他版面结构元素之间的位置关系信息,输出版面结构元素对应的文本内容,获得重建后的图像文档。
可选地,可在接收到针对目标图像文档的重建指令后,对该目标图像文档中的文本内容进行解析,获得该目标图像文档的文本内容。
本申请实施例提供的图像文档的重建方法、装置、电子设备和存储介质,通过对目标图像文档进行版面结构分析,获得目标图像文档的实例分割矩阵,并对该实例分割矩阵进行坐标投影计算,以获得该目标图像文档中各个版面结构元素的位置信息,以及版面结构元素与其他版面结构元素之间的位置关系信息,因此可在图像文档重建时,在结合了版面结构元素的位置信息和位置关系信息的基础上,输出对应的文本内容,从而在保证版面结构元素位置和文本内容输出的精确度的基础上,能够适配所有的复杂图像进行图像文档重建。
可选地,可以通过版面分析算法对目标图像文档进行版面结构分析,具体的,在图2的基础上,图3为本申请实施例提供的图像文档的重建方法的另一流程示意图,请参见图3,上述步骤S21还可以通过以下步骤实现:
步骤S21-1,根据版面分析算法对目标图像文档进行分析,获得目标图像文档中每个版面结构元素的坐标位置;
可选地,该版面分析算法可以是目标检测算法,例如YOLO系列,也可以是实例分割方法,例如UNet系列。
可选地,该版面结构元素的坐标位置可以是该版面结构元素的边缘点坐标或特征点的坐标,也可以是该版面结构元素所在的区域内所有点的坐标。
步骤S21-2,根据目标图像文档的尺寸信息,生成掩码图;
其中,掩码图与目标图像文档具有相同尺寸,且掩码图中的每个坐标点均为0;
可选地,该尺寸信息可以包括目标图像文档长度和宽度,可以理解的,生成的掩码图与该目标图像文档具有相同的长度和宽度。
步骤S21-3,根据每个版面结构元素的坐标位置,将掩码图中对应位置上的坐标点置为1,获得目标图像文档的实例分割矩阵。
可选地,若版面结构元素的坐标位置为边缘点坐标或者特征点坐标,则可将该边缘点坐标或特征点坐标所围成的区域内的所有点都置1;若版面结构元素的坐标位置为版面结构元素所在的区域内所有点的坐标,则可将该所有点均置1。
可以理解的,在根据每个版面结构元素的坐标位置,将掩码图中对应位置上的坐标点置为1之后,该实例分割矩阵中为0的地方表征目标图像文档中的空白区域,该实例分割矩阵中为1的地方表征目标图像文档中的版面结构元素所在的区域。
在一个示例中,若在对目标图像文档进行版面结构分析后,获得的实例分割矩阵为实例分割矩阵X,则请参见图4,为实例分割矩阵X的示意图,可以理解的,该实例分割矩阵X中包括目标图像文档中的空白区域200,以及目标图像文档中的多个版面结构元素区域210。
可选地,对于实例分割矩阵而言,其仅能反馈各个结构元素自身的位置信息,而无法表征该图像文档的分栏情况,例如目标图像文档整体呈现多栏还是单栏,目标图像文档中是否存在多栏区域等,因此,为了进一步分析目标图像文档中的版面结构元素,从而实现对图像文档的精确重建,可以通过对实例分割矩阵进行横坐标投影和纵坐标投影的方式,获得各个版面结构元素的位置信息,以及各个版面结构元素与其他版面结构元素之间的位置关系信息。
具体地,在图2的基础上,图5为本申请实施例提供的图像文档的重建方法的另一流程示意图,请参见图5,上述步骤S22还可以通过以下步骤实现:
步骤S22-1,将实例分割矩阵作为目标对象,对目标对象进行横坐标投影计算,获得满足第一预设条件的横坐标区间;
可选地,该目标对象为需要进行横坐标投影计算的矩阵;该第一预设条件可以为提前设置在电子设备中,用于对横坐标投影计算结果进行筛选的条件。
可选地,横坐标投影计算为对横坐标进行投影。
步骤S22-2,对第一目标分块矩阵进行纵坐标投影计算;
其中,第一目标分块矩阵为根据每一段满足第一预设条件的横坐标区间,在实例分割矩阵上确定的分块矩阵;
可选地,由于在对目标对象进行横坐标投影计算后能够获得一段或多段满足第一预设条件的横坐标区间,因此,可根据该横坐标区间在实例分割矩阵中确定一个或多个分块矩阵。
可选地,若确定的分块矩阵为一个,则将该分块矩阵作为第一目标分块矩阵进行纵坐标投影计算;若确定的分块矩阵为多个,则分别将每一个分块矩阵作为第一目标分块矩阵进行纵坐标投影计算。
步骤S22-3,若获得多段满足第二预设条件的纵坐标区间,则分别根据满足第一预设条件的横坐标区间和多段满足第二预设条件的纵坐标区间,在实例分割矩阵上确定多个第二目标分块矩阵,并将每个第二目标分块矩阵作为新的目标对象进行横坐标投影计算,直至仅获得一段满足第二预设条件的纵坐标区间;
可选地,该第二预设条件可以是事先设置在电子设备中,用于对纵坐标投影计算结果进行筛选的条件。
可选地,在对第一目标分块矩阵进行投影计算后,可以获得一段或多段满足第二预设条件的纵坐标区间。
可选地,若获得多段满足第二预设条件的纵坐标区间,则可根据该满足第一预设条件的横坐标区间和每一段满足第二预设条件的纵坐标区间,在该实例分割矩阵上确定第二目标分块矩阵,从而获得多个第二目标分块矩阵。
可选地,可分别将每一个第二目标分块矩阵作为新的目标对象进行横坐标投影计算,获得新的满足第一预设条件的横坐标区间,直到仅获得一段满足第二预设条件的纵坐标区间,则停止针对该分块矩阵的投影计算。
步骤S22-4,若仅获得一段满足第二预设条件的纵坐标区间,则根据满足第一预设条件的横坐标区间和满足第二预设条件的纵坐标区间,在实例分割矩阵上确定第三目标分块矩阵,并计算第三目标分块矩阵对应的版面结构元素的位置信息,以及第三目标分块矩阵对应的版面结构元素与其他版面结构元素之间的位置关系信息。
可选地,该第三目标分块矩阵为无需再针对其进行坐标投影计算的矩阵。可以理解的,若将该第三目标分块矩阵再次进行坐标投影计算,则仅能获得一段满足第一预设条件的横坐标区间和一段满足第二预设条件的纵坐标区间,且该横坐标区间和纵坐标区间构成该第三目标分块矩阵。
可选地,若仅获得一段满足第二预设条件的纵坐标区间,则可根据满足第一预设条件的横坐标区间和满足第二预设条件的纵坐标区间,在实例分割矩阵上确定第三目标分块矩阵,并停止对该分块矩阵的投影计算,直接针对该第三目标分块矩阵确定其位置信息和与其他分块矩阵之间的位置关系信息。
可以理解的,该第三目标分块矩阵与目标图像文档中对应位置的版面结构元素对应,该第三目标分块矩阵的位置信息即为该第三目标分块矩阵对应的版面结构元素的位置信息;该第三目标分块矩阵与其他分块矩阵之间的位置关系信息为该第三目标分块矩阵对应的版面结构元素与其他版面结构元素之间的位置关系信息。
在本实施例中,对目标对象进行横坐标投影计算可以确定目标图像文档的左右分栏情况,对第一目标分块矩阵进行纵坐标投影计算可以确定目标图像文档的上下分栏情况。
在一个示例中,若首先将实例分割矩阵作为目标对象进行横坐标投影计算,得到的满足第一预设条件的横坐标区间为[20,50],则说明该第一目标分块矩阵为在实例分割矩阵中由横坐标20到横坐标50所构成的矩阵。
之后可针对该第一目标分块矩阵进行纵坐标投影,若获得的满足第二预设条件的纵坐标区间为多段,例如[30,60]、[200,500],则可分别根据纵坐标区间[30,60]、[200,500]以及该横坐标区间[20,50],确定两个第二目标分块矩阵,分别为横坐标20到横坐标50,与纵坐标30到纵坐标60构成的第二目标分块矩阵,和横坐标20到横坐标50,与纵坐标200到纵坐标500构成的第二目标分块矩阵。
由于获得了多段满足第二预设条件的纵坐标区间,则需要分别将以上两个第二目标分块矩阵作为新的目标对象进行横坐标投影计算,直到仅获得一段满足第二预设条件的纵坐标区间。
若获得的满足第二预设条件的纵坐标区间为一段,例如[50,150],则确定第三目标分块矩阵为横坐标20到横坐标50,与纵坐标50到纵坐标150构成分块矩阵,并确定该第三目标分块矩阵在实例分割矩阵中的位置信息,以及该第三目标分块矩阵与其他分块矩阵之间的位置关系信息。
可选地,该横坐标投影计算可以是横坐标投影求和计算,具体地,在图5的基础上,图6为本申请实施例提供的图像文档的重建方法的另一流程示意图,请参见图6,上述步骤S22-1中的对所述目标对象进行横坐标投影计算,获得满足第一预设条件的横坐标区间,还可以通过以下步骤实现:
步骤S22-1-1,针对目标对象进行横坐标投影求和,获得目标对象的横坐标投影求和序列;
其中,横坐标投影求和序列包括多个横坐标投影求和结果,每个横坐标投影求和结果对应一个横坐标;
可选地,可通过以下公式对目标对象进行横坐标投影求和:
可以理解的,在目标对象中,每一列对应一个横坐标投影求和结果,即一个横坐标对应一个横坐标投影求和结果。
步骤S22-1-2,确定横坐标投影求和序列上连续大于0的多个横坐标投影求和结果,将根据多个横坐标投影求和结果对应的横坐标确定的区间作为满足第一预设条件的横坐标区间。
可选地,由于实例分割矩阵中,每个版面结构元素对应的位置的点为1,因此,会存在连续大于0的多个横坐标投影求和结果,该连续大于0的多个横坐标投影求和结果,为连续的横坐标对应的横坐标投影求和结果,且该横坐标投影求和结果大于0。
可选地,可将根据该多个横坐标投影求和结果对应的横坐标确定的区间,作为满足第一预设条件的横坐标区间,可以理解的,该第一预设条件为该横坐标区间内的每一个横坐标对应的横坐标投影求和结果都大于0。
在一个示例中,在获得实例分割矩阵X后,可对其进行横坐标投影求和,从而获得满足第一预设条件的横坐标区间,请参见图7,为对实例分割矩阵X进行横坐标投影求和的示意图,可以看出,该实例分割矩阵X在横坐标投影求和后,可以获得一段满足第一预设条件的横坐标区间。
可选地,可以通过以下方式确定满足第一预设条件的横坐标区间:
可选地,该纵坐标投影计算可以是纵坐标投影求和,具体地,在图5的基础上,图8为本申请实施例提供的图像文档的重建方法的另一流程示意图,请参见图8,上述步骤S22-2中的对第一目标分块矩阵进行纵坐标投影计算,还可以通过以下步骤实现:
步骤S22-2-1,针对第一目标分块矩阵进行纵坐标投影求和,获得第一目标分块矩阵的纵坐标投影求和序列;
其中,纵坐标投影求和序列包括多个纵坐标投影求和结果,每个纵坐标投影求和结果对应一个纵坐标;
可选地,可通过以下公式对第一目标分块矩阵进行纵坐标投影求和:
可以理解的,在第一目标分块矩阵中,每一行对应一个纵坐标投影求和结果,即一个纵坐标对应一个纵坐标投影求和结果。
步骤S22-2-2,确定纵坐标投影求和序列上连续大于0的多个纵坐标投影求和结果,将根据多个纵坐标投影求和结果对应的纵坐标确定的区间,作为满足第二预设条件的纵坐标区间。
可选地,由于实例分割矩阵中,每个版面结构元素对应的位置的点为1,因此,会存在连续大于0的多个纵坐标投影求和结果,该连续大于0的多个纵坐标投影求和结果,为连续的纵坐标对应的纵坐标投影求和结果,且该纵坐标投影求和结果大于0。
可选地,可将根据该多个纵坐标投影求和结果对应的纵坐标确定的区间,作为满足第二预设条件的纵坐标区间,可以理解的,该第二预设条件为该纵坐标区间内的每一个纵坐标对应的纵坐标投影求和结果都大于0。
在一个示例中,由于在对实例分割矩阵X进行横坐标投影求和后,获得了一段满足第一预设条件的横坐标区间,因此,可根据该横坐标区间在该实例分割矩阵中确定第一目标分块矩阵,从而对该第一目标分块矩阵进行纵坐标投影求和。请参见图9,为对第一目标分块矩阵进行纵坐标投影求和的示意图。
可选地,可以通过以下方式确定满足第二预设条件的纵坐标区间:
可选地,为了便于根据各个版面结构元素的位置以及其位置信息,输出对应的文本内容,可在获得版面结构元素的信息,以及版面结构元素与其他版面结构元素之间的位置关系信息之后,将其位置信息和位置关系信息整理为位置关系列表,以便根据该位置关系列表输出对应的文本内容。
具体地,在图2的基础上,图10为本申请实施例提供的图像文档的重建方法的另一流程示意图,请参见图10,该方法还包括:
步骤S10,根据每个版面结构元素的位置信息,和每个版面结构元素与其他版面结构元素之间的位置关系信息,按照从上至下的顺序,将满足上下位置关系的版面结构元素作为第一整体,并为第一整体添加上下位置标识;
步骤S11,以及按照从左至右的顺序,将满足左右位置关系的版面结构元素作为第二整体,并为第二整体添加左右位置标识;
可选地,该第一整体中记录有满足上下位置关系的版面结构元素;该第二整体中记录有满足左右位置关系的版面结构元素。
可选地,可以为各个版面结构元素设置标识信息,用于在该第一整体和第二整体中进行记录。
步骤S12,根据每个版面结构元素的位置信息、添加了上下位置标识的第一整体以及添加了左右位置标识的第二整体,获得全部版面结构元素的位置关系列表。
可选地,在整合位置关系列表时,该第一整体中多个存在上下位置关系的版面结构元素之间,可以按照位置信息从上至下依次排列;该第二整体中多个存在左右位置关系的版面结构元素之间,可以按照位置信息从左至右依次排列。
可选地,在根据添加了上下位置标识的第一整体和添加了左右位置标识的第二整体,整合版面结构元素的位置关系列表时,还可以在该位置关系列表中记录各个版面结构元素的位置信息。
在一种可能实现的方式中,可在位置关系列表中,用版面结构元素对应的位置信息表征该版面结构元素。例如,采用[]的方式表征该版面结构元素的位置,其中,为该版面结构元素中横坐标的最小值,为该版面结构元素中横坐标的最大值,为该版面结构元素中纵坐标的最小值,为该版面结构元素中纵坐标的最大值。
可以理解的,在此情况下,在位置关系列表中,添加了上下位置标识的该第一整体中,还包括满足上下位置关系的多个版面结构元素的位置信息;添加了左右位置标识的该第二整体中,还包括满足左右位置关系的多个版面结构元素的位置信息。
在一个示例中,该上下位置标识可以表征为“V”,该左右位置标识可以表征为“H”,因此,若版面结构元素A的位置信息为[58,193,95,104],版面结构元素B的位置信息为[111,491,136,158],版面结构元素C的位置信息为[174,428,180,194],且版面结构元素A与版面结构元素B和C之间为上下位置关系,版面结构元素B和C之间为左右位置关系,则可将版面结构元素B和C作为第二整体添加左右位置标识,将版面结构元素A与包括版面结构元素B和C的第二整体作为第一整体添加上下位置标识,则该位置关系列表可以表征为:
[ [58,193,95,104],
[[111,491,136,158],[174,428,180,194],H],V]
即,[58,193,95,104]与[[111,491,136,158],[174,428,180,194]]为上下位置关系,且[111,491,136,158]与[174,428,180,194]为左右位置关系。
在一个示例中,对于实例分割矩阵X而言,该位置关系列表可以表征为:
[[58,193,95,104],
[111,491,136,158],
[174,428,180,194],
[174,396,199,208],
[92,510,228,313],
[[92,227,318,344],[242,299,333,345], H],
[58,537,366,381],
[58,327,386,401],
[58,474,405,417],
[58,416,422,432],
[58,544,437,549],
[58,263,554,564],
[[58,296,576,720],[[309,411,576,587],[309,544,593,704],[309,397,709,720], V], H],
V]
可以理解的,由于该位置关系列表中为全部版面结构元素添加的标识为上下位置标识“V”,因此该位置关系列表中反映了该目标图像文档中的各个版面结构元素整体呈现上下位置关系。
而[[92,227,318,344],[242,299,333,345], H],则表征了版面结构元素[92,227,318,344]和[242,299,333,345]之间互为左右位置关系。
[[58,296,576,720],[[309,411,576,587],[309,544,593,704],[309,397,709,720], V], H]表征了版面结构元素[58,296,576,720],和[309,411,576,587]、[309,544,593,704]、[309,397,709,720]构成的整体之间呈现左右位置关系,而[309,411,576,587]、[309,544,593,704]、[309,397,709,720]彼此之间构成上下位置关系。
可选地,由于获得了全部版面结构元素的位置关系列表,因此可以基于该位置关系列表,根据版面结构元素的位置信息,以及版面结构元素与其他版面结构元素之间的位置关系信息,输出版面结构元素对应的文本内容。具体的,在图10的基础上,图11为本申请实施例提供的图像文档的重建方法的另一流程示意图,请参见图11,上述步骤S23还可以通过以下方式实现:
步骤S23-1,对位置关系列表中所包括的版面结构元素进行遍历;
步骤S23-2,若当前遍历的目标版面结构元素属于第一整体,则根据目标版面结构元素的位置信息,输出对应的文本内容;
可选地,该目标版面结构元素为当前遍历到的版面结构元素。
可选地,可以按照位置关系列表中的顺序,对所有版面结构元素进行遍历。
可选地,可通过判断该目标版面结构元素所属的整体的位置标识,确定该目标版面结构元素所属的整体是否为第一整体。可以理解的,若当前遍历的目标版面结构元素所属的整体设置有上下位置标识,则确定当前遍历的目标版面结构元素属于第一整体。
在本实施例中,若目标版面结构元素属于第一整体,则可根据该目标版面结构元素的位置信息,从事先解析得到的文本内容中获取该目标版面结构元素对应的文本内容,并在该版面结构元素中输出该文本内容。
步骤S23-3,若当前遍历的目标版面结构元素属于第二整体,则在目标板面结构元素为第二整体中的第一个版面结构元素的情况下,在目标版面结构元素之前插入分节符,根据第二整体中所包含的所有版面结构元素的位置信息,在第二整体所对应的位置设置左右分栏,并根据目标版面结构元素的位置信息,输出对应的文本内容;
可选地,若当前遍历的目标版面结构元素所属的整体设置有左右位置标识,则确定当前遍历的目标版面结构元素属于第二整体。
可选地,可根据第二整体中所包含的所有版面结构元素的位置信息,确定该第二整体中的栏数。
可选地,若目标版面结构元素属于第二整体,且该目标版面结构元素为该第二整体中的第一个版面结构元素,则可在该版面结构元素之前插入分节符,之后根据该第二整体中的栏数为该第二整体设置好左右分栏后,则根据该目标版面结构元素的位置信息,为其输出对应的文本内容。
可选地,可按照等分的方式设置左右分栏。
步骤S23-4,在目标版面结构元素为第二整体中的最后一个版面结构元素的情况下,根据目标版面结构元素的位置信息,输出对应的文本内容,并在目标版面结构元素之后插入分节符;
可选地,若目标版面结构元素为该第二整体中的最后一个版面结构元素,则在根据其位置信息输出对应的文本内容后,可在该目标版面结构元素之后插入分节符,以结束该第二整体的文本内容输出。
步骤S23-5,在目标版面结构元素为第二整体中的其他版面结构元素的情况下,根据目标版面结构元素的位置信息,输出对应的文本内容;
其中,其他版面结构元素为除了第一个版面结构元素和最后一个版面结构元素之外的版面结构元素。
可选地,若目标版面结构元素不是第二整体中的第一个版面结构元素,也不是第二整体中的最后一个版面结构元素,则可直接根据该目标版面结构元素的位置信息,输出对应的文本内容。
在一个示例中,若当前遍历到的目标版面结构元素为版面结构元素A,则可根据该版面结构元素A所属的整体的位置标识,确定该版面结构元素A属于第一整体还是第二整体。
若该版面结构元素A属于第二整体,且该版面结构元素A为该第二整体中的第一个版面结构元素,则可插入分节符,之后根据该版面结构元素A所属的第二整体中所包括的所有版面结构元素的位置信息,确定应当设置的栏数,并根据该栏数为该第二整体设置左右分栏。
则可以理解的,该版面结构元素A、版面结构元素B和版面结构元素C互为左右位置关系,该第二整体中的栏数应当为3,因此,可为其设置左右三栏。
在设置好左右分栏后,可针对该目标版面结构元素,根据其位置信息输出对应的文本内容,之后继续遍历,此时的目标版面结构元素为版面结构元素B,由于该版面结构元素B也属于第二整体,且既不是该第二整体中的第一个版面结构元素,也不是最后一个版面结构元素,因此,可直接根据该版面结构元素B的位置信息输出相应的文本内容,并继续遍历。
接下来遍历到的为版面结构元素C,即版面结构元素C为目标版面结构元素,由于该版面结构元素C也属于第二整体,且为该第二整体中的最后一个版面结构元素,因此,可根据该版面结构元素C的位置信息输出相应的文本内容,并在该版面结构元素C之后插入分节符。
在一个示例中,对于实例分割矩阵X的位置关系列表,从第一个版面结构元素开始遍历,由于前五个版面结构元素均属于第一整体,因此可分别根据这五个版面结构元素的位置信息获取其对应的文本内容,并输出。
当遍历到[92,227,318,344]时,由于其属于第二整体,且为第二整体中的第一个版面结构元素,因此可在其之前插入分节符,根据该版面结构元素的位置信息输出对应的文本内容,之后继续遍历,由于[242,299,333,345]也属于第二整体,且为该第二整体的最后一个版面结构元素,则根据该版面结构元素的位置信息输出对应的文本内容,在该其之后插入分节符,再遍历下一个版面结构元素,即[58,537,366,381]。由于后面六个版面结构元素均属于第一整体,因此可分别针对每个版面结构元素,根据其位置信息输出对应的文本内容。
当遍历到[58,296,576,720]时,由于其属于第二整体,且为第二整体中的第一个版面结构元素,因此可在其之前插入分节符,根据该版面结构元素的位置信息输出对应的文本内容,之后继续遍历。
虽然此时版面结构元素[58,296,576,720],和[309,411,576,587]、[309,544,593,704]、[309,397,709,720]构成的整体之间呈现左右位置关系,但版面结构元素[309,411,576,587]、[309,544,593,704]、[309,397,709,720]实际上属于第一整体,因此分别对[309,411,576,587]、[309,544,593,704]、[309,397,709,720]进行遍历,根据其位置关系输出对应的文本内容,当最后一个版面结构元素遍历完成时,即[309,397,709,720]遍历完成时,第二整体中的最后一个版面结构元素也遍历完成,因此可在其之后插入分节符。由于此时已经遍历完全部的版面结构元素,因此可结束本次遍历。
本申请实施例提供的图像文档的重建方法,可按照从上至下,从左至右的方式将各个版面结构元素的位置信息和位置关系信息整理为位置关系列表,并通过遍历该列表的方式针对每个版面结构元素输出对应的文本内容,因此可以按照用户所习惯的阅读顺序依次输出对应文本内容,尽可能避免文档重建时的文本出错情况,便于用户阅读以及后续编辑。
可选地,对于存在左右位置关系的版面结构元素,其文本内容之间可能存在上下文的衔接问题,即其文本内容实际上属于同一段,但在图像文档重建时并未关注到该文本内容的衔接,导致了段落分离的情况,因此,为了提高用户的阅读体验,以及便于后续的图像文档编辑,可在输出文本内容之前,先判断相互存在左右位置关系的版面结构元素的文本之间是否存在上下文衔接关系。
具体地,在图10的基础上,图12为本申请实施例提供的图像文档的重建方法的另一流程示意图,请参见图12,该方法还包括:
步骤S13,根据位置关系列表,针对第二整体中所包括的版面结构元素进行遍历;
可选地,可基于位置关系列表,根据左右位置标识确定第二整体,之后针对该第二整体中所包括的版面结构元素进行遍历,判断连续的版面结构元素中的文本内容是否需要拼接。
可选地,该连续的版面结构元素指的是位置关系列表中彼此相邻的版面结构元素。
可选地,可通过判断连续的版面结构元素中的文本内容的缩进情况和排版情况,判断连续的版面结构元素的文本是否需要拼接。
在一种可能实现的方式中,该文本内容的缩进情况指的是该版面结构元素的文本内容的首行缩进情况,该排版情况指的是该版面结构元素的文本内容是否到达该版面结构元素的尾部。
可选地,若在位置关系列表中,排列在前的版面结构元素的文本内容到达该版面结构元素的尾部,且排列在后文本内容首行缩进,则说明该连续的版面结构元素中的文本内容需要进行拼接。
可选地,可通过以下方式判断连续的版面结构元素中的文本内容的缩进情况和排版情况:对于一个位置信息为[]的版面结构元素,若其文本内容的第一行的坐标为,其文本内容的最后一行的坐标为,且设一个单字符的宽度为,在此基础上,该单字符的高度也约为。
在此情况下,若第一行文本开始的位置到版面结构元素整体开始位置的距离大于该第一行的单字符宽度,即,则说明该版面结构元素中的文本内容首行缩进,若最后一行文本结束的位置到版面结构元素整体结束的位置的距离小于该最后一行的单字符宽度,即,则说明该版面结构元素中的文本内容到达该版面结构元素的尾部。
步骤S14,若版面结构元素需要与相邻的版面结构元素进行文本内容拼接,则将需要进行文本内容拼接的版面结构元素所对应的文本内容进行拼接,获得拼接文本内容。
可选地,可针对需要进行文本拼接的版面结构元素,根据其位置信息获得对应的文本内容,并将该文本内容进行拼接,获得拼接文本内容。
可选地,可将该拼接文本作为该需要进行文本拼接的版面结构元素对应的文本内容,即,在输出文本内容时,将需要进行文本拼接的版面结构元素作为一个整体,将拼接文本内容进行输出。
在一个示例中,若需要进行拼接的版面结构元素为版面结构元素A和版面结构元素B,则无需分别针对版面结构元素A和版面结构元素B输出文本内容,而是将版面结构元素A和版面结构元素B作为一个整体,将该拼接文本直接输入。
本申请实施例提供的图像文档的重建方法,通过在输出文本内容之前,判断第二整体中的各个版面结构元素是否需要进行文本拼接,从而针对需要进行文本拼接的版面结构元素,将其文本内容进行拼接,获得拼接文本,因此在后续输出文本内容时,可将需要进行文本拼接的版面结构元素作为一个整体,输出该拼接文本内容,从而可以解决图像文档中的左右分栏造成的文本段落分离的问题,避免图像文档重建时出现文本内容衔接不畅的情况,提高用户的阅读体验并便于后续编辑。
为了执行上述实施例及每个可能的方式中的相应步骤,下面给出一种图像文档的重建装置的实现方式。进一步地,请参阅图13,图13为本申请实施例提供的一种图像文档的重建装置的功能模块图。需要说明的是,本实施例所提供的图像文档的重建装置,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。该图像文档的重建装置包括:接收模块300、分析模块310、投影计算模块320、输出模块330。
该接收模块300,用于接收针对目标图像文档的重建指令;目标图像文档中包括多个版面结构元素;
可以理解的,该接收模块300还可以用于执行上述步骤S20;
该分析模块310,用于根据重建指令对目标图像文档进行版面结构分析,获得目标图像文档的实例分割矩阵;
可以理解的,该分析模块310还可以用于执行上述步骤S21;
该投影计算模块320,用于对实例分割矩阵进行坐标投影计算,获得版面结构元素的位置信息,以及版面结构元素与其他版面结构元素之间的位置关系信息;
可以理解的,该投影计算模块320还可以用于执行上述步骤S22;
该输出模块330,用于根据版面结构元素的位置信息,以及版面结构元素与其他版面结构元素之间的位置关系信息,输出版面结构元素对应的文本内容,获得重建后的图像文档。
可以理解的,该输出模块330还可以用于执行上述步骤S23。
可选地,该分析模块310,还用于根据版面分析算法对目标图像文档进行分析,获得目标图像文档中每个版面结构元素的坐标位置;根据目标图像文档的尺寸信息,生成掩码图;掩码图与目标图像文档具有相同尺寸,且掩码图中的每个坐标点均为0;根据每个版面结构元素的坐标位置,将掩码图中对应位置上的坐标点置为1,获得目标图像文档的实例分割矩阵。
可以理解的,该分析模块310还可以用于执行上述步骤S21-1~步骤S21-3。
可选地,该投影计算模块320,还用于将实例分割矩阵作为目标对象,对目标对象进行横坐标投影计算,获得满足第一预设条件的横坐标区间;对第一目标分块矩阵进行纵坐标投影计算;第一目标分块矩阵为根据每一段满足第一预设条件的横坐标区间,在实例分割矩阵上确定的分块矩阵;若获得多段满足第二预设条件的纵坐标区间,则分别根据满足第一预设条件的横坐标区间和多段满足第二预设条件的纵坐标区间,在实例分割矩阵上确定多个第二目标分块矩阵,并将每个第二目标分块矩阵作为新的目标对象进行横坐标投影计算,直至仅获得一段满足第二预设条件的纵坐标区间;若仅获得一段满足第二预设条件的纵坐标区间,则根据满足第一预设条件的横坐标区间和满足第二预设条件的纵坐标区间,在实例分割矩阵上确定第三目标分块矩阵,并计算第三目标分块矩阵对应的版面结构元素的位置信息,以及第三目标分块矩阵对应的版面结构元素与其他版面结构元素之间的位置关系信息。
可以理解的,该投影计算模块320还可以用于执行上述步骤S22-1~步骤S22-4。
可选地,该投影计算模块320,还用于针对目标对象进行横坐标投影求和,获得目标对象的横坐标投影求和序列;横坐标投影求和序列包括多个横坐标投影求和结果,每个横坐标投影求和结果对应一个横坐标;确定横坐标投影求和序列上连续大于0的多个横坐标投影求和结果,将根据多个横坐标投影求和结果对应的横坐标确定的区间作为满足第一预设条件的横坐标区间。
可以理解的,该投影计算模块320还可以用于执行上述步骤S22-1-1~步骤S22-1-2。
可选地,该投影计算模块320,还用于针对第一目标分块矩阵进行纵坐标投影求和,获得第一目标分块矩阵的纵坐标投影求和序列;纵坐标投影求和序列包括多个纵坐标投影求和结果,每个纵坐标投影求和结果对应一个纵坐标;确定纵坐标投影求和序列上连续大于0的多个纵坐标投影求和结果,将根据多个纵坐标投影求和结果对应的纵坐标确定的区间,作为满足第二预设条件的纵坐标区间。
可以理解的,该投影计算模块320还可以用于执行上述步骤S22-2-1~步骤S22-2-2。
可选地,该投影计算模块320,还用于根据每个版面结构元素的位置信息,和每个版面结构元素与其他版面结构元素之间的位置关系信息,按照从上至下的顺序,将满足上下位置关系的版面结构元素作为第一整体,并为第一整体添加上下位置标识;以及按照从左至右的顺序,将满足左右位置关系的版面结构元素作为第二整体,并为第二整体添加左右位置标识;根据每个版面结构元素的位置信息、添加了上下位置标识的第一整体以及添加了左右位置标识的第二整体,获得全部版面结构元素的位置关系列表。
可以理解的,该投影计算模块320还可以用于执行上述步骤S10~步骤S12。
可选地,该输出模块330,还用于对位置关系列表中所包括的版面结构元素进行遍历;若当前遍历的目标版面结构元素属于第一整体,则根据目标版面结构元素的位置信息,输出对应的文本内容;若当前遍历的目标版面结构元素属于第二整体,则在目标板面结构元素为第二整体中的第一个版面结构元素的情况下,在目标版面结构元素之前插入分节符,根据第二整体中所包含的所有版面结构元素的位置信息,在第二整体所对应的位置设置左右分栏,并根据目标版面结构元素的位置信息,输出对应的文本内容;在目标版面结构元素为第二整体中的最后一个版面结构元素的情况下,根据目标版面结构元素的位置信息,输出对应的文本内容,并在目标版面结构元素之后插入分节符;在目标版面结构元素为第二整体中的其他版面结构元素的情况下,根据目标版面结构元素的位置信息,输出对应的文本内容;其他版面结构元素为除了第一个版面结构元素和最后一个版面结构元素之外的版面结构元素。
可以理解的,该输出模块330还可以用于执行上述步骤S23-1~步骤S23-5。
可选地,该输出模块330,还用于根据位置关系列表,针对第二整体中所包括的版面结构元素进行遍历;若版面结构元素需要与相邻的版面结构元素进行文本内容拼接,则将需要进行文本内容拼接的版面结构元素所对应的文本内容进行拼接,获得拼接文本内容。
可以理解的,该输出模块330还可以用于执行上述步骤S13~步骤S14。
本申请实施例提供的图像文档的重建装置,通过接收模块接收针对目标图像文档的重建指令;目标图像文档中包括多个版面结构元素;通过分析模块根据重建指令对目标图像文档进行版面结构分析,获得目标图像文档的实例分割矩阵;通过投影计算模块对实例分割矩阵进行坐标投影计算,获得版面结构元素的位置信息,以及版面结构元素与其他版面结构元素之间的位置关系信息;通过输出模块根据版面结构元素的位置信息,以及版面结构元素与其他版面结构元素之间的位置关系信息,输出版面结构元素对应的文本内容,获得重建后的图像文档。从而在保证版面结构元素位置和文本内容输出的精确度的基础上,能够适配所有的复杂图像进行图像文档重建。
可选地,上述模块可以软件或固件(Firmware)的形式存储于图1所示的存储器中或固化于该电子设备的操作系统(Operating System,OS)中,并可由图1中的处理器执行。同时,执行上述模块所需的数据、程序的代码等可以存储在存储器中。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请每个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是每个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请每个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种图像文档的重建方法,其特征在于,所述方法包括:
接收针对目标图像文档的重建指令;所述目标图像文档中包括多个版面结构元素;
根据所述重建指令对所述目标图像文档进行版面结构分析,获得所述目标图像文档的实例分割矩阵;
对所述实例分割矩阵进行坐标投影计算,获得所述版面结构元素的位置信息,以及所述版面结构元素与其他版面结构元素之间的位置关系信息;
根据所述版面结构元素的位置信息,以及所述版面结构元素与其他版面结构元素之间的位置关系信息,输出所述版面结构元素对应的文本内容,获得重建后的图像文档。
2.根据权利要求1所述的方法,其特征在于,所述根据所述重建指令对所述目标图像文档进行版面结构分析,获得所述目标图像文档的实例分割矩阵,包括:
根据版面分析算法对所述目标图像文档进行分析,获得所述目标图像文档中每个所述版面结构元素的坐标位置;
根据所述目标图像文档的尺寸信息,生成掩码图;所述掩码图与所述目标图像文档具有相同尺寸,且所述掩码图中的每个坐标点均为0;
根据每个所述版面结构元素的坐标位置,将所述掩码图中对应位置上的坐标点置为1,获得所述目标图像文档的实例分割矩阵。
3.根据权利要求1所述的方法,其特征在于,所述对所述实例分割矩阵进行坐标投影计算,获得所述版面结构元素的位置信息,以及所述版面结构元素与其他版面结构元素之间的位置关系信息,包括:
将所述实例分割矩阵作为目标对象,对所述目标对象进行横坐标投影计算,获得满足第一预设条件的横坐标区间;
对第一目标分块矩阵进行纵坐标投影计算;所述第一目标分块矩阵为根据每一段满足第一预设条件的横坐标区间,在所述实例分割矩阵上确定的分块矩阵;
若获得多段满足第二预设条件的纵坐标区间,则分别根据所述满足第一预设条件的横坐标区间和所述多段满足第二预设条件的纵坐标区间,在所述实例分割矩阵上确定多个第二目标分块矩阵,并将每个所述第二目标分块矩阵作为新的目标对象进行横坐标投影计算,直至仅获得一段满足第二预设条件的纵坐标区间;
若仅获得一段满足第二预设条件的纵坐标区间,则根据所述满足第一预设条件的横坐标区间和所述满足第二预设条件的纵坐标区间,在所述实例分割矩阵上确定第三目标分块矩阵,并计算所述第三目标分块矩阵对应的版面结构元素的位置信息,以及所述第三目标分块矩阵对应的版面结构元素与其他版面结构元素之间的位置关系信息。
4.根据权利要求3所述的方法,其特征在于,所述对所述目标对象进行横坐标投影计算,获得满足第一预设条件的横坐标区间,包括:
针对所述目标对象进行横坐标投影求和,获得所述目标对象的横坐标投影求和序列;所述横坐标投影求和序列包括多个横坐标投影求和结果,每个所述横坐标投影求和结果对应一个横坐标;
确定所述横坐标投影求和序列上连续大于0的多个横坐标投影求和结果,将根据所述多个横坐标投影求和结果对应的横坐标确定的区间作为满足第一预设条件的横坐标区间。
5.根据权利要求3所述的方法,其特征在于,所述对第一目标分块矩阵进行纵坐标投影计算,包括:
针对所述第一目标分块矩阵进行纵坐标投影求和,获得所述第一目标分块矩阵的纵坐标投影求和序列;所述纵坐标投影求和序列包括多个纵坐标投影求和结果,每个所述纵坐标投影求和结果对应一个纵坐标;
确定所述纵坐标投影求和序列上连续大于0的多个纵坐标投影求和结果,将根据所述多个纵坐标投影求和结果对应的纵坐标确定的区间,作为满足第二预设条件的纵坐标区间。
6.根据权利要求1所述的方法,其特征在于,在所述对所述实例分割矩阵进行坐标投影计算,获得所述版面结构元素的位置信息,以及所述版面结构元素与其他版面结构元素之间的位置关系信息的步骤之后,所述方法还包括:
根据每个所述版面结构元素的位置信息,和每个所述版面结构元素与其他版面结构元素之间的位置关系信息,按照从上至下的顺序,将满足上下位置关系的版面结构元素作为第一整体,并为所述第一整体添加上下位置标识;
以及按照从左至右的顺序,将满足左右位置关系的版面结构元素作为第二整体,并为所述第二整体添加左右位置标识;
根据每个所述版面结构元素的位置信息、添加了上下位置标识的第一整体以及添加了左右位置标识的第二整体,获得全部所述版面结构元素的位置关系列表。
7.根据权利要求6所述的方法,其特征在于,所述根据所述版面结构元素的位置信息,以及所述版面结构元素与其他版面结构元素之间的位置关系信息,输出所述版面结构元素对应的文本内容,包括:
对所述位置关系列表中所包括的版面结构元素进行遍历;
若当前遍历的目标版面结构元素属于所述第一整体,则根据所述目标版面结构元素的位置信息,输出对应的文本内容;
若当前遍历的目标版面结构元素属于所述第二整体,则在所述目标版面结构元素为所述第二整体中的第一个版面结构元素的情况下,在所述目标版面结构元素之前插入分节符,根据所述第二整体中所包含的所有版面结构元素的位置信息,在所述第二整体所对应的位置设置左右分栏,并根据所述目标版面结构元素的位置信息,输出对应的文本内容;
在所述目标版面结构元素为所述第二整体中的最后一个版面结构元素的情况下,根据所述目标版面结构元素的位置信息,输出对应的文本内容,并在所述目标版面结构元素之后插入分节符;
在所述目标版面结构元素为所述第二整体中的其他版面结构元素的情况下,根据所述目标版面结构元素的位置信息,输出对应的文本内容;所述其他版面结构元素为除了第一个版面结构元素和最后一个版面结构元素之外的版面结构元素。
8.根据权利要求6所述的方法,其特征在于,在所述根据所述版面结构元素的位置信息,以及所述版面结构元素与其他版面结构元素之间的位置关系信息,输出所述版面结构元素对应的文本内容,获得重建后的图像文档的步骤之前,所述方法还包括:
根据所述位置关系列表,针对所述第二整体中所包括的版面结构元素进行遍历;
若所述版面结构元素需要与相邻的版面结构元素进行文本内容拼接,则将需要进行文本内容拼接的版面结构元素所对应的文本内容进行拼接,获得拼接文本内容。
9.一种图像文档的重建装置,其特征在于,所述装置包括:
接收模块,用于接收针对目标图像文档的重建指令;所述目标图像文档中包括多个版面结构元素;
分析模块,用于根据所述重建指令对所述目标图像文档进行版面结构分析,获得所述目标图像文档的实例分割矩阵;
投影计算模块,用于对所述实例分割矩阵进行坐标投影计算,获得所述版面结构元素的位置信息,以及所述版面结构元素与其他版面结构元素之间的位置关系信息;
输出模块,用于根据所述版面结构元素的位置信息,以及所述版面结构元素与其他版面结构元素之间的位置关系信息,输出所述版面结构元素对应的文本内容,获得重建后的图像文档。
10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210663855.7A CN114757144B (zh) | 2022-06-14 | 2022-06-14 | 图像文档的重建方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210663855.7A CN114757144B (zh) | 2022-06-14 | 2022-06-14 | 图像文档的重建方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114757144A true CN114757144A (zh) | 2022-07-15 |
CN114757144B CN114757144B (zh) | 2022-09-06 |
Family
ID=82336985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210663855.7A Active CN114757144B (zh) | 2022-06-14 | 2022-06-14 | 图像文档的重建方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114757144B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933756A (zh) * | 2019-03-22 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 基于ocr的图像转档方法、装置、设备及可读存储介质 |
CN109948510A (zh) * | 2019-03-14 | 2019-06-28 | 北京易道博识科技有限公司 | 一种文档图像实例分割方法及装置 |
CN111832476A (zh) * | 2020-07-13 | 2020-10-27 | 上海肇观电子科技有限公司 | 版面分析方法、阅读辅助设备、电路和介质 |
US20210110194A1 (en) * | 2019-10-14 | 2021-04-15 | Hangzhou Dianzi University | Method for automatic extraction of data from graph |
CN113033541A (zh) * | 2021-04-15 | 2021-06-25 | 北京合众鼎成科技有限公司 | 发行公告版面分析方法 |
CN114005123A (zh) * | 2021-10-11 | 2022-02-01 | 北京大学 | 一种印刷体文本版面数字化重建系统及方法 |
CN114170423A (zh) * | 2022-02-14 | 2022-03-11 | 成都数之联科技股份有限公司 | 一种图像文档版面识别方法、装置及其系统 |
CN114330234A (zh) * | 2021-12-30 | 2022-04-12 | 科大讯飞股份有限公司 | 版面结构分析方法、装置、电子设备和存储介质 |
CN114373185A (zh) * | 2022-01-06 | 2022-04-19 | 中国工商银行股份有限公司 | 票据图像的分类方法及其装置、电子设备及存储介质 |
-
2022
- 2022-06-14 CN CN202210663855.7A patent/CN114757144B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948510A (zh) * | 2019-03-14 | 2019-06-28 | 北京易道博识科技有限公司 | 一种文档图像实例分割方法及装置 |
CN109933756A (zh) * | 2019-03-22 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 基于ocr的图像转档方法、装置、设备及可读存储介质 |
US20210110194A1 (en) * | 2019-10-14 | 2021-04-15 | Hangzhou Dianzi University | Method for automatic extraction of data from graph |
CN111832476A (zh) * | 2020-07-13 | 2020-10-27 | 上海肇观电子科技有限公司 | 版面分析方法、阅读辅助设备、电路和介质 |
CN113033541A (zh) * | 2021-04-15 | 2021-06-25 | 北京合众鼎成科技有限公司 | 发行公告版面分析方法 |
CN114005123A (zh) * | 2021-10-11 | 2022-02-01 | 北京大学 | 一种印刷体文本版面数字化重建系统及方法 |
CN114330234A (zh) * | 2021-12-30 | 2022-04-12 | 科大讯飞股份有限公司 | 版面结构分析方法、装置、电子设备和存储介质 |
CN114373185A (zh) * | 2022-01-06 | 2022-04-19 | 中国工商银行股份有限公司 | 票据图像的分类方法及其装置、电子设备及存储介质 |
CN114170423A (zh) * | 2022-02-14 | 2022-03-11 | 成都数之联科技股份有限公司 | 一种图像文档版面识别方法、装置及其系统 |
Non-Patent Citations (3)
Title |
---|
XINGJIAO WU 等: "Document image layout analysis via explicit edge embedding network", 《INFORMATION SCIENCE》 * |
李峰等: "英文科技文档识别中数学公式定位新方法", 《大连理工大学学报》 * |
王莉丽 等: "基于投影轮廓分析的文本图像版面分割算法研究", 《数字技术与应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114757144B (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446264B (zh) | Pdf文档中的表格矢量解析方法及装置 | |
WO2020192391A1 (zh) | 基于ocr的图像转档方法、装置、设备及可读存储介质 | |
CN109886928B (zh) | 一种目标细胞标记方法、装置、存储介质及终端设备 | |
EP2742442B1 (en) | A method for detecting a copy of a reference video, corresponding apparatus for extracting a spatio-temporal signature from video data and corresponding computer readable storage medium | |
CN111062259A (zh) | 表格识别方法和装置 | |
KR102399508B1 (ko) | 레이아웃 분석 방법, 판독 보조 장치, 회로, 및 매체 | |
US20130104016A1 (en) | Digital comic editor, method and non-transitory computer-readable medium | |
CN113239818B (zh) | 基于分割和图卷积神经网络的表格跨模态信息提取方法 | |
CN113221632A (zh) | 文档图片识别方法、装置以及计算机设备 | |
CN112381087B (zh) | 结合rpa和ai的图像识别方法、装置、计算机设备和介质 | |
JP6353893B2 (ja) | 携帯端末装置のカメラにより撮影される紙面画像から記事をスクラップするための方法、プログラム、及び装置 | |
CN115984859B (zh) | 一种图像文字识别的方法、装置及存储介质 | |
CN112988557A (zh) | 一种搜索框定位方法、数据采集方法、装置及介质 | |
CN110532973B (zh) | 基于特殊锚点的双页文本图像识别及定位分割方法 | |
US8787702B1 (en) | Methods and apparatus for determining and/or modifying image orientation | |
CN111612004A (zh) | 一种基于语义内容的图像裁剪方法及装置 | |
JP2640673B2 (ja) | パターン認識装置 | |
CN110443319B (zh) | 一种轨迹去重方法、装置及存储介质 | |
US8526744B2 (en) | Document processing apparatus and computer readable medium | |
CN114757144B (zh) | 图像文档的重建方法、装置、电子设备和存储介质 | |
CN111133474B (zh) | 图像处理设备、图像处理方法和计算机可读记录介质 | |
CN117671696A (zh) | 一种ocr识别结果的处理方法及装置 | |
CN110135426B (zh) | 样本标注方法及计算机存储介质 | |
CN114937279A (zh) | 基于rpa和ai实现ia的bom识别方法及装置 | |
CN108629786B (zh) | 图像边缘检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |