CN113408251B - 版式文档的处理方法、装置、电子设备及可读存储介质 - Google Patents

版式文档的处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN113408251B
CN113408251B CN202110734221.1A CN202110734221A CN113408251B CN 113408251 B CN113408251 B CN 113408251B CN 202110734221 A CN202110734221 A CN 202110734221A CN 113408251 B CN113408251 B CN 113408251B
Authority
CN
China
Prior art keywords
document
layout
format
image
format document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110734221.1A
Other languages
English (en)
Other versions
CN113408251A (zh
Inventor
蒲世玉
彭艺宇
李晨辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110734221.1A priority Critical patent/CN113408251B/zh
Publication of CN113408251A publication Critical patent/CN113408251A/zh
Application granted granted Critical
Publication of CN113408251B publication Critical patent/CN113408251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开公开了一种版式文档的处理方法、装置、电子设备及可读存储介质,涉及数据处理技术领域和图像处理技术领域,具体涉及大数据技术领域和自然语言处理技术领域等人工智能技术领域。具体实现方案为:获取待处理的版式文档;对所述版式文档进行内容解析,以获得所述版式文档的字符信息;根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档进行布局解析,以获得所述版式文档的文档布局。本公开由于在布局解析时考虑了版式文档的文档图像,使得能够有效地识别版式文档的布局特征,从而高度还原版式文档的文档布局。

Description

版式文档的处理方法、装置、电子设备及可读存储介质
技术领域
本公开涉及数据处理技术领域和图像处理技术领域,具体涉及大数据技术领域和自然语言处理技术领域等人工智能技术领域,尤其涉及一种版式文档的处理方法、装置、电子设备及可读存储介质。
背景技术
版式文档是指符合版式文档格式规范的文档,它采用一种绝对描述方式,在自定义的坐标系中,明确记录了每个页面元素显示的位置、尺寸和样式等。版式文档格式是版面呈现效果固定的电子文档格式,版式文档的呈现与终端无关,在各种终端上阅读、打印或印刷时,其版面的呈现结果都是一致的。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用版式文档,例如,目前的可移植文档格式(Portable DocumentFormat,PDF)文档就是一种比较典型的版式文档。
在对版式文档的处理中,在一些情况下,例如,提取版式文档中特定位置的内容等,文档布局可能会对结果有很大影响。
发明内容
本公开提供了一种版式文档的处理方法、装置、电子设备及可读存储介质。
根据本公开的一方面,提供了一种版式文档的处理方法,包括:
获取待处理的版式文档;
对所述版式文档进行内容解析,以获得所述版式文档的字符信息;
根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档进行布局解析,以获得所述版式文档的文档布局。
根据本公开的另一方面,提供了一种版式文档的处理装置,包括:
文档获取单元,用于获取待处理的版式文档;
内容解析单元,用于对所述版式文档进行内容解析,以获得所述版式文档的字符信息;
布局解析单元,用于根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档进行布局解析,以获得所述版式文档的文档布局。
根据本公开的再一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。
根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。
根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。
由上述技术方案可知,本公开实施例通过获取待处理的版式文档,进而,对所述版式文档进行内容解析,以获得所述版式文档的字符信息,使得能够根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档进行布局解析,以获得所述版式文档的文档布局,由于在布局解析时考虑了版式文档的文档图像,使得能够有效地识别版式文档的布局特征,从而高度还原版式文档的文档布局。
另外,采用本公开所提供的技术方案,能够有效地提高用户的体验。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1A是根据本公开第一实施例的示意图;
图1B为图1A对应的实施例中的布局解析示意图;
图2是根据本公开第二实施例的示意图;
图3是用来实现本公开实施例的版式文档的处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
需要说明的是,本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(TabletComputer)等智能设备;显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用版式文档,例如,目前的可移植文档格式(Portable Document Format,PDF)文档就是一种比较典型的版式文档。
对于这些版式文档,用户不仅需要获取文档中所有的文字信息,还需要获取每个字符的位置信息以及整个页面的段落信息、页面信息等文档布局,让用户可以在此基础上对版式文档的文档内容做进一步的处理,例如,需要提取两个文档中特定位置的内容进行文档比对,或者是在进行文档内容标注以及文档内容抽取时需要对文档标注的信息位置和文档抽取的信息位置进行判断。在进行进一步的处理过程中,文档布局对处理结果有很大影响,例如,段落布局中的“换行”就可能导致错误的处理结果。
因此,为了有效提高版式文档处理的可靠性,亟需对版式文档的文档布局进行精确地解析。
图1A是根据本公开第一实施例的示意图,如图1A所示。
101、获取待处理的版式文档。
102、对所述版式文档进行内容解析,以获得所述版式文档的字符信息。
103、根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档进行布局解析,以获得所述版式文档的文档布局。
至此,针对用户给定的版式文档,可以获得进一步处理该版式文档所必须的文档布局,具有更高的灵活性和可靠性。
需要说明的是,101~103的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,例如,网络侧的文本处理平台中的处理引擎或者分布式系统等,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在本地终端上的本地程序(nativeApp),或者还可以是本地终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
这样,通过获取待处理的版式文档,进而,对所述版式文档进行内容解析,以获得所述版式文档的字符信息,使得能够根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档进行布局解析,以获得所述版式文档的文档布局,由于在布局解析时考虑了版式文档的文档图像,使得能够有效地识别版式文档的布局特征,从而高度还原版式文档的文档布局。
本公开中,待处理的版式文档是指符合版式文档格式规范的任意一个文档,它采用一种绝对描述方式,在自定义的坐标系中,明确记录了每个页面元素显示的位置、尺寸和样式等。
本公开中,在102中,所解析获得的版式文档的字符信息,是指版式文档中所呈现的各字符的字符内容和字符属性,例如,位置、尺寸、样式、颜色等。
通过本实现方式,可以解析出版式文档中的一般字符以及特殊字符,以作为102的处理输入,以供对其进行一般字符的布局解析处理、表格的布局解析处理以及特殊字符的布局解析处理。
可选地,在本实施例的一个可能的实现方式中,在102中,具体可以采用现有的内容解析方法,对所述版式文档进行内容解析,以获得所述版式文档的字符信息。
具体地,具体可以针对不同类型的版式文档,对所述版式文档进行文本解析和/或图像解析,以获得所述版式文档的字符信息。采用适当的解析方法,对版式文档进行内容解析,能够有效提高版式文档的内容解析的可靠性。
通常来说,版式文档可以分为文本类和图片类,即文本类型的版式文档和图片类型的版式文档。文本类型的版式文档主要是将文本信息直接进行编码得到的版式文档,而图片类版式文档则主要是由扫描件、图片等转换成的版式文档。
在一个具体的实现过程中,具体可以对文本类型的版式文档中的文本内容,进行文本解析,以获得所述版式文档的字符信息。
通常,文本类型的版式文档中,主要包含文本对象。比较直观的感受就是,这类版式中的文字可以通过鼠标选定,此类文档属于将文本信息直接进行编码得到的结果,可直接通过逆向解码方法解析出包含的文本信息,例如,对文本类型的PDF文档,可以利用PDFminer解析器,通过逆向解码方法解析出包含的文本信息。
此时,解析出来的文本信息可以为字母、文字等一般字符的字符信息,或者还可以为线、图等特殊字符的字符信息,本实施例对此不进行特别限定。
在另一个具体的实现过程中,具体可以对图片类型的版式文档,进行图片解析,以获得所述版式文档的字符信息。
图片类版式文档主要是由扫描件、图片等转换成的版式文档,该类文档以图片形式展示文本信息,直接对该类版式文档进行文本解析无法获取到其包含的文本信息,只能获取到图片对象,那么,则需要对此类版式文档采用光学字符识别(OpticalCharacterRecognition,OCR)方法,进行图像解析,以解析出图像对象中所包含的文本信息。
此时,解析出来的文本信息可以为字母、文字等一般字符的字符信息,本实施例对此不进行特别限定。
对于采用OCR方法解析出的字符信息,还可以进一步根据字符的位置信息计算得出是否经过旋转,以及旋转的角度,对解析出的字符信息进行位置校正,以使得所得到的解析结果更加的真实可靠。
为了获取到更加的解析效果,对于图片对象的解析之前,还可以进一步对图片对象进行图像增强处理,再进行内容解析。图像增强可以为调整亮度、对比度、灰度处理等,以突出字符部分,便于解析。
在另一个具体的实现过程中,具体可以对文本类型的版式文档中的图片内容,进行图片解析,以获得所述版式文档的字符信息。
文本类型的版式文档中,除了包含文本对象之外,有时也会包括图像对象,那么,在对文本类型的版式文档中的文本内容,采用逆向解码方法进行文本解析出文本内容所包含的字符信息之外,还需要进一步对文本类型的版式文档中的图片内容,采用OCR方法进行图片解析出图像内容所包含的字符信息。
在本实现方式中,对于文本对象的解析,通过现有版式文档的解析技术即可解析出相应的文本信息以及文本信息在页面中的布局信息(例如,位置、尺寸、样式、颜色等);对于图片对象的解析,可通过OCR方法识别出相应的文本信息以及文本信息在页面中的布局信息(例如,位置、尺寸、样式等)。
基于上述对解析方式(解析方式,包括对全为文本对象的解析方式、对全为图片对象的解析方式以及对文本对象和图片对象拆分以分别解析的方式)的确定,通过对文本对象和图片对象的联合解析,即可完成对整个版式文档的内容解析。
在本实现方式中,在解析过程中,可能会出现的重复字符,那么,则可以进一步根据字符信息中的字符位置,再进一步结合字符之间的相似度,进行去重处理,以获得调整之后的版式文档的字符信息。其中,线和图等特殊字符,允许重复,不需要进行去重处理。
可选地,在本实施例的一个可能的实现方式中,在103中,具体可以根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档中字符进行区域划分处理,以获得至少一个区域。进而,则可以在所述至少一个区域中各区域中,利用段落布局的属性信息,对所述版式文档中字符进行调整处理,以获得所述版式文档的段落信息和所述版式文档的页面信息。
其中,所述区域可以为分栏,或者还可以为分块,或者还可以为分栏和分块,本实施例对此不进行特别限定。
这样,通过引入段落布局的属性信息,例如,行首、缩进、行间距等属性,能够精准还原版式文档的文档布局,从而进一步提高版式文档的文档布局获取的可靠性。
在一个具体的实现过程中,本实现方式中,还可以进一步获取所述版式文档的文档图像。
例如,具体可以根据文本类型的版式文档,生成所述版式文档的文档图像。
由于图像是由非扫描形式的版式文档转化生成而来的,所以图像的质量非常高,无需考虑消除噪音、旋转图像等图像校正操作,从而有效提高了文档图像获取的可靠性。那么,则可以直接将文档图像转化成灰度图,再二值化转化成黑白图,以进行后续进行的依据。
或者,再例如,具体可以直接将图片类型的版式文档,作为所述版式文档的文档图像。
由于图像本身就是扫描形式或者图片形式的版式文档,通常质量参差不齐,这就需要考虑消除噪音、旋转图像等图像校正操作,以获得高质量的文档图像,从而有效提高了文档图像获取的可靠性。
在另一个具体的实现过程中,具体可以根据所述版式文档的文档图像,利用图像算法,获得所述版式文档的分区信息,进而,则可以根据所述版式文档的分区信息和所述版式文档的字符信息,对所述版式文档中字符进行区域划分处理,以获得至少一个区域和所述至少一个区域中各区域中字符。
具体地,具体可以直接将文档图像转化成灰度图,再二值化转化成黑白图。其中,文档的背景为黑色,文档的字符为白色。进而,则可以根据预先设置的行间距阈值和/或列间距阈值,利用图像算法,例如,XY Cut算法,获得所述版式文档的分区信息,即分栏的位置范围和/或分块的位置范围。然后,在获得版式文档的分区信息之后,则可以进一步利用所述版式文档的分区信息和所述版式文档的字符信息,对所述版式文档中字符进行区域划分处理,以获得至少一个区域和所述至少一个区域中各区域中字符。各区域中字符的连接顺序是根据所述版式文档的字符信息中的位置,进行排序得到的。
在另一个具体的实现过程中,在本实现方式中,在所述至少一个区域中各区域中,具体可以利用段落布局的属性信息,例如,行首、缩进、行间距等属性,对各区域中字符进行段落重新划分,以获得所述版式文档的段落信息。进而,则可以根据所述版式文档的段落信息,确定版式文档每个页面的特殊字段,例如,页眉字段、页脚字段等。然后,再利用页面的全局信息,判断这些特殊字段的相似性,以获得所述版式文档的页面信息。
例如,可以利用特殊字段之间的相似度,判断特殊字段的相似性,以确定哪些特殊字段是页眉字段,哪些特殊字段是页脚字多等。如果相似度超过预先设置的相似度阈值如0.8,则可以确定该特殊字段的内容相同,为页眉字段或者页脚字段。
或者,再例如,有时候页眉或者页脚就是单纯的数字(如第一页“1”,第二页“2”),这样相似度就不管用了,那么,则可以引入另一种判断机制:基于认知:每一页的页眉或者页脚的文本格式长度应该相同,那么对于一个版式文档而言,页眉或者页脚的长度应该相同或者相似,那么当大部分页面比如50%以上的页面的特殊字段的长度都为X时,即可能该特殊字段都是页眉或者页脚。
在另一个具体的实现过程中,在本实现方式中,还可以进一步根据所述版式文档的文档图像,对所述版式文档中表格进行识别处理,以获得所述版式文档的表格信息。
具体地,具体可以根据所述版式文档的文档图像,利用图像算法,获得所述版式文档中的框线,进而,则可以根据所述版式文档中的框线,获得所述版式文档中表格的表格信息。
这样,通过所述版式文档的文档图像,利用图像算法,能够有效识别出版式文档中表格的表格信息,从而进一步提高了版式文档的文档布局获取的可靠性。
例如,可以根据所述版式文档的文档图像,通过图像算法,获得所述版式文档中所包含的表格中的所有框线,以作为表格线段。然后,再进一步根据表格线段的位置信息,将所有的表格线段连接。
然而,表格形式多样,有大量缺省框线的表格形式,因此也就不存在封闭的外轮廓结构,使用外轮廓检测的方法就无法识别表格。观察大量表格数据后发现,虽然表格为了美观会缺少部分框线,但几乎没有表格会完全没有线条信息而只包含文字,特别是表格区域边界位置基本都会存在线条帮助阅读者区分表格与正文部分。因此,可以轮廓线的方式将边框补齐。
例如,大多数表格的缺省框线大部分是垂直线条,上下表格边界框线通常都会保留,基于这一特点,框线补全任务就转化成表格左右垂直框线的补全,也就是判定不同的横线条是否属于同一个表格。
本实施例中,在进行布局解析处理的过程中,可以通过对经过内容解析处理之后的待处理版式文档进行区域划分处理,通过对该版式文档中一般字符的布局解析处理以及表格的布局解析,将区域划分处理之后的版式文档的各区域中的文档内容进行布局解析处理,从而获得版式文档的段落信息、版式文档的页面信息以及版式文档的表格信息,再进一步将版式文档的段落信息、版式文档的页面信息、版式文档的表格信息、以及特殊字符的字符信息进行混合布局处理,以获得所述版式文档的文档布局,如图1B所示。
本实施例中,可以通过文档属性或者用户传入的类型信息判断文档类型,如果没有,则可以根据文档的后缀判断文档类型。如果文档类型为流式文档,则可以采用现有的流式文档的处理方法,获得该流式文档的文档布局;如果文档类型为版式文档,则可以采用本公开所提供的版式文档的处理方法,获得该版式文档的文档布局。
本实施例中,通过获取待处理的版式文档,进而,对所述版式文档进行内容解析,以获得所述版式文档的字符信息,使得能够根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档进行布局解析,以获得所述版式文档的文档布局,由于在布局解析时考虑了版式文档的文档图像,使得能够有效地识别版式文档的布局特征,从而高度还原版式文档的文档布局。
另外,采用本公开所提供的技术方案,无需人工操作,操作简单,且不容易出错,能够进一步提高版式文档的处理的效率和可靠性。
另外,采用本公开所提供的技术方案,能够有效地提高用户的体验。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本公开所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图2是根据本公开第二实施例的示意图,如图2所示。本实施例的版式文档的处理装置200可以包括文档获取单元201、内容解析单元202和布局解析单元203。其中,文档获取单元201,用于获取待处理的版式文档;内容解析单元202,用于对所述版式文档进行内容解析,以获得所述版式文档的字符信息;布局解析单元203,用于根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档进行布局解析,以获得所述版式文档的文档布局。
至此,针对用户给定的版式文档,可以获得进一步处理该版式文档所必须的文档布局,具有更高的灵活性和可靠性。
需要说明的是,本实施例的版式文档的处理装置的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,例如,网络侧的文本处理平台中的处理引擎或者分布式系统等,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在本地终端上的本地程序(nativeApp),或者还可以是本地终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
可选地,在本实施例的一个可能的实现方式中,所述内容解析单元202,具体可以用于对所述版式文档进行文本解析和/或图像解析,以获得所述版式文档的字符信息。
可选地,在本实施例的一个可能的实现方式中,所述布局解析单元203,具体可以用于根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档中字符进行区域划分处理,以获得至少一个区域;以及
在所述至少一个区域中各区域中,利用段落布局的属性信息,对所述版式文档中字符进行调整处理,以获得所述版式文档的段落信息和所述版式文档的页面信息。
在一个具体的实现过程中,所述布局解析单元203,还可以进一步用于根据文本类型的版式文档,生成所述版式文档的文档图像;或者直接将图片类型的版式文档,作为所述版式文档的文档图像。
在另一个具体的实现过程中,所述布局解析单元203,具体可以用于根据所述版式文档的文档图像,利用图像算法,获得所述版式文档的分区信息;以及根据所述版式文档的分区信息和所述版式文档的字符信息,对所述版式文档中字符进行区域划分处理,以获得至少一个区域和所述至少一个区域中各区域中字符。
在另一个具体的实现过程中,所述布局解析单元203,还可以进一步用于根据所述版式文档的文档图像,对所述版式文档中表格进行识别处理,以获得所述版式文档的表格信息。
具体地,具体可以根据所述版式文档的文档图像,利用图像算法,获得所述版式文档中的框线;以及根据所述版式文档中的框线,获得所述版式文档中表格的表格信息。
本实施例中,通过文档获取单元获取待处理的版式文档,进而,由内容解析单元对所述版式文档进行内容解析,以获得所述版式文档的字符信息,使得布局解析单元能够根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档进行布局解析,以获得所述版式文档的文档布局,由于在布局解析时考虑了版式文档的文档图像,使得能够有效地识别版式文档的布局特征,从而高度还原版式文档的文档布局。
另外,采用本公开所提供的技术方案,无需人工操作,操作简单,且不容易出错,能够进一步提高版式文档的处理的效率和可靠性。
另外,采用本公开所提供的技术方案,能够有效地提高用户的体验。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图3示出了可以用来实施本公开的实施例的示例电子设备300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图3所示,电子设备300包括计算单元301,其可以根据存储在只读存储器(ROM)302中的计算机程序或者从存储单元308加载到随机访问存储器(RAM)303中的计算机程序,来执行各种适当的动作和处理。在RAM 303中,还可存储电子设备300操作所需的各种程序和数据。计算单元301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
电子设备300中的多个部件连接至I/O接口305,包括:输入单元306,例如键盘、鼠标等;输出单元307,例如各种类型的显示器、扬声器等;存储单元308,例如磁盘、光盘等;以及通信单元309,例如网卡、调制解调器、无线通信收发机等。通信单元309允许电子设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法和处理,例如版式文档的处理方法。例如,在一些实施例中,版式文档的处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 302和/或通信单元309而被载入和/或安装到电子设备300上。当计算机程序加载到RAM 303并由计算单元301执行时,可以执行上文描述的版式文档的处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行版式文档的处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程版式文档的处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (8)

1.一种版式文档的处理方法,包括:
获取待处理的版式文档;
对所述版式文档进行内容解析,以获得所述版式文档的字符信息;
根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档进行布局解析,以获得所述版式文档的文档布局;其中,
所述根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档进行布局解析,以获得所述版式文档的文档布局,包括:
根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档中字符进行区域划分处理,以获得至少一个区域;
在所述至少一个区域中各区域中,利用段落布局的属性信息,对所述版式文档中字符进行调整处理,以获得所述版式文档的段落信息和所述版式文档的页面信息;其中,所述根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档中字符进行区域划分处理,以获得至少一个区域之前,还包括:根据文本类型的版式文档,生成所述版式文档的文档图像;或者直接将图片类型的版式文档,作为所述版式文档的文档图像;
所述根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档进行布局解析,以获得所述版式文档的文档布局,还包括:
根据所述版式文档的文档图像,对所述版式文档中表格进行识别处理,以获得所述版式文档的表格信息;其中,所述根据所述版式文档的文档图像,对所述版式文档中表格进行识别处理,以获得所述版式文档的表格信息,包括:根据所述版式文档的文档图像,利用图像算法,获得所述版式文档中的框线;根据所述版式文档中的框线,获得所述版式文档中表格的表格信息。
2.根据权利要求1所述的方法,其中,所述对所述版式文档进行内容解析,以获得所述版式文档的字符信息,包括:
对所述版式文档进行文本解析和/或图像解析,以获得所述版式文档的字符信息。
3.根据权利要求1所述的方法,其中,所述根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档中字符进行区域划分处理,以获得至少一个区域,包括:
根据所述版式文档的文档图像,利用图像算法,获得所述版式文档的分区信息;
根据所述版式文档的分区信息和所述版式文档的字符信息,对所述版式文档中字符进行区域划分处理,以获得至少一个区域和所述至少一个区域中各区域中字符。
4.一种版式文档的处理装置,包括:
文档获取单元,用于获取待处理的版式文档;
内容解析单元,用于对所述版式文档进行内容解析,以获得所述版式文档的字符信息;
布局解析单元,用于根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档进行布局解析,以获得所述版式文档的文档布局;其中,
所述布局解析单元,具体用于
根据所述版式文档的文档图像和所述版式文档的字符信息,对所述版式文档中字符进行区域划分处理,以获得至少一个区域;以及在所述至少一个区域中各区域中,利用段落布局的属性信息,对所述版式文档中字符进行调整处理,以获得所述版式文档的段落信息和所述版式文档的页面信息;其中,所述布局解析单元,还用于根据文本类型的版式文档,生成所述版式文档的文档图像;或者直接将图片类型的版式文档,作为所述版式文档的文档图像;
所述布局解析单元,还用于
根据所述版式文档的文档图像,对所述版式文档中表格进行识别处理,以获得所述版式文档的表格信息;其中,所述布局解析单元,具体用于根据所述版式文档的文档图像,利用图像算法,获得所述版式文档中的框线;以及根据所述版式文档中的框线,获得所述版式文档中表格的表格信息。
5.根据权利要求4所述的装置,其中,所述内容解析单元,具体用于
对所述版式文档进行文本解析和/或图像解析,以获得所述版式文档的字符信息。
6.根据权利要求4所述的装置,其中,所述布局解析单元,具体用于
根据所述版式文档的文档图像,利用图像算法,获得所述版式文档的分区信息;以及
根据所述版式文档的分区信息和所述版式文档的字符信息,对所述版式文档中字符进行区域划分处理,以获得至少一个区域和所述至少一个区域中各区域中字符。
7.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据权利要求1-3中任一项所述的方法。
8.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-3中任一项所述的方法。
CN202110734221.1A 2021-06-30 2021-06-30 版式文档的处理方法、装置、电子设备及可读存储介质 Active CN113408251B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110734221.1A CN113408251B (zh) 2021-06-30 2021-06-30 版式文档的处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110734221.1A CN113408251B (zh) 2021-06-30 2021-06-30 版式文档的处理方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113408251A CN113408251A (zh) 2021-09-17
CN113408251B true CN113408251B (zh) 2023-08-18

Family

ID=77680440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110734221.1A Active CN113408251B (zh) 2021-06-30 2021-06-30 版式文档的处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113408251B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495147B (zh) * 2022-01-25 2023-05-05 北京百度网讯科技有限公司 识别方法、装置、设备以及存储介质
CN115690806B (zh) * 2022-10-11 2023-06-13 杭州瑞成信息技术股份有限公司 一种基于图像数据处理的非结构化文档格式识别方法
CN115328871B (zh) * 2022-10-12 2023-01-03 南通中泓网络科技有限公司 一种基于机器学习模型的版式数据流文件转换的评估方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116270A (ja) * 1996-10-11 1998-05-06 Fuji Xerox Co Ltd 文書処理方法及びその装置
CN101308488A (zh) * 2008-06-05 2008-11-19 北大方正集团有限公司 基于版式文件的文档流式信息处理方法及装置
WO2016008347A1 (zh) * 2014-07-17 2016-01-21 阿里巴巴集团控股有限公司 版式文档的重排方法、系统及电子阅读终端
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN111832403A (zh) * 2020-06-04 2020-10-27 北京百度网讯科技有限公司 文档结构识别方法、文档结构识别的模型训练方法和装置
CN112580308A (zh) * 2020-12-15 2021-03-30 北京百度网讯科技有限公司 文档比对方法、装置、电子设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116270A (ja) * 1996-10-11 1998-05-06 Fuji Xerox Co Ltd 文書処理方法及びその装置
CN101308488A (zh) * 2008-06-05 2008-11-19 北大方正集团有限公司 基于版式文件的文档流式信息处理方法及装置
WO2016008347A1 (zh) * 2014-07-17 2016-01-21 阿里巴巴集团控股有限公司 版式文档的重排方法、系统及电子阅读终端
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN111832403A (zh) * 2020-06-04 2020-10-27 北京百度网讯科技有限公司 文档结构识别方法、文档结构识别的模型训练方法和装置
CN112580308A (zh) * 2020-12-15 2021-03-30 北京百度网讯科技有限公司 文档比对方法、装置、电子设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
UMAIR KHADAM等.Digital Watermarking Technique for Text Document Protection Using Data Mining Analysis.《SPECIAL SECTION ON DATA MINING FOR INTERNET OF THINGS》.2019,64955-64965. *

Also Published As

Publication number Publication date
CN113408251A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN113408251B (zh) 版式文档的处理方法、装置、电子设备及可读存储介质
CN113204615B (zh) 实体抽取方法、装置、设备和存储介质
US20220108556A1 (en) Method of comparing documents, electronic device and readable storage medium
US20210350541A1 (en) Portrait extracting method and apparatus, and storage medium
CN115063875B (zh) 模型训练方法、图像处理方法、装置和电子设备
CN113657395B (zh) 文本识别方法、视觉特征提取模型的训练方法及装置
US11810333B2 (en) Method and apparatus for generating image of webpage content
CN113627439A (zh) 文本结构化处理方法、处理装置、电子设备以及存储介质
CN114218889A (zh) 文档处理及文档模型的训练方法、装置、设备和存储介质
CN113553428B (zh) 文档分类方法、装置及电子设备
CN114724166A (zh) 一种标题抽取模型的生成方法、装置及电子设备
CN115101069A (zh) 语音控制方法、装置、设备、存储介质以及程序产品
CN114359932B (zh) 文本检测方法、文本识别方法及装置
CN113836462A (zh) 页面描述文件的生成方法、装置、设备及存储介质
CN116259064B (zh) 表格结构识别方法、表格结构识别模型的训练方法及装置
CN115376137B (zh) 一种光学字符识别处理、文本识别模型训练方法及装置
CN114998897B (zh) 生成样本图像的方法以及文字识别模型的训练方法
CN116416640A (zh) 文档元素确定的方法、装置、设备以及存储介质
CN114724144A (zh) 文本识别方法、模型的训练方法、装置、设备及介质
CN115082298A (zh) 图像生成方法、装置、电子设备以及存储介质
CN113038184A (zh) 数据处理方法、装置、设备及存储介质
CN113051504B (zh) 文档预览方法、装置、设备、存储介质及程序产品
CN113703890B (zh) 显示控制方法、装置、电子设备和存储介质
CN114998906B (zh) 文本检测方法、模型的训练方法、装置、电子设备及介质
CN115497113B (zh) 信息生成方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant