CN115331247A

CN115331247A - 文档结构识别方法、装置、电子设备及可读存储介质

Info

Publication number: CN115331247A
Application number: CN202211021684.4A
Authority: CN
Inventors: 王春宇; 夏源; 许嘉宇; 代小亚; 黄海峰; 王磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-11-11

Abstract

本公开提供一种文档结构识别方法、装置、电子设备及可读存储介质，涉及智能识别技术，尤其涉及文档结构识别、文字识别领域。具体实现方案包括：获取待识别文档的文档图像。获取文档图像中的文档版面参数。对文档图像进行文本识别，获取文档图像中的文本参数。根据版面参数、文本参数生成待识别文档的文档结构。实现了对非标准文档进行结构化，提供了一种准确、高效的文档结构识别方法。

Description

文档结构识别方法、装置、电子设备及可读存储介质

技术领域

本公开涉及智能识别技术，尤其涉及文档结构识别、文字识别领域。

背景技术

文档结构识别是一种对文献进行结构化解析、识别文献结构层级的方法。可以识别出不同层级的标题、子标题以及正文等。

目前，文档结构识别只能基于标准格式的纯文本文献。对于非标准格式的文献，如纸质文献的扫描件、拍摄的文献图片等，则无法识别。

发明内容

本公开提供了一种文档结构识别方法、装置、电子设备及可读存储介质，能够实现对非标准文档进行结构化，提供了一种准确、高效的文档结构识别方法。

根据本公开的第一方面，提供了一种文档结构识别方法，包括：

获取待识别文档的文档图像。对文档图像进行版面分析，获取文档图像中的文档版面参数。对文档图像进行文本识别，获取文档图像中的文本参数。根据版面参数、文本参数生成待识别文档的文档结构。

根据本公开的第二方面，提供了一种文档结构识别装置，包括：获取模块，用于获取待识别文档的文档图像。分析模块，用于对文档图像进行版面分析，获取文档图像中的文档版面参数。识别模块，用于对文档图像进行文本识别，获取文档图像中的文本参数。生成模块，用于根据版面参数、文本参数生成待识别文档的文档结构。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面提供的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行根据第一方面提供的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现根据第一方面提供的方法。

本公开通过对文档图像进行版面分析和文本识别，获取文档图像的文档版面参数以及文本参数，根据文档版面参数以及文本参数生成待识别文档的文档结构。实现了对非标准文档进行结构化，提供了一种准确、高效的文档结构识别方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供一种文档结构识别方法的流程示意图；

图2为本公开实施例提供的一种文档结构识别方法中S120的流程示意图；

图3为本公开实施例提供的一种文档结构识别方法中的文档图像示意图；

图4为本公开实施例提供的一种文档结构识别方法中S130的流程示意图；

图5为本公开实施例提供的一种文档结构识别方法中S410的流程示意图；

图6为本公开实施例提供的一种文档结构识别方法中多栏文本的示意图；

图7为本公开实施例提供的一种文档结构识别方法中另一种多栏文本的示意图；

图8为本公开实施例提供的一种文档结构识别方法中文本对应的示意图；

图9为本公开实施例提供的一种文档结构识别方法中S140的流程示意图；

图10为本公开实施例提供的文档结构识别装置的组成示意图；

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前，文献电子化的趋势越来越明显，通过文献电子化可以减少纸张浪费，增加文献的保存年限。现有技术一般是对标准格式的文献进行结构化，生成文献的文档树。文档树即为包括文档结构的电子文献。可以通过点击每一层级的标题自动跳转至相应的章节进行阅读。

但是，对于一些领域，如医学等，其许多文献年代久远，电子化时会遇到许多问题。如无法提供标准格式的纯文本文献，只能对现有的纸质文献进行扫描，提供图片格式的文献。

对此，本申请提供了一种文档结构识别方法，包括：获取待识别文档的文档图像。对文档图像进行版面分析，获取文档图像中的文档版面参数。对文档图像进行文本识别，获取文档图像中的文本参数。根据版面参数、文本参数生成待识别文档的文档结构。

由于通过对文档图像进行版面分析和文本识别，获取文档图像的文档版面参数以及文本参数，根据文档版面参数以及文本参数生成待识别文档的文档结构。实现了对非标准文档进行结构化，提供了一种准确、高效的文档结构识别方法。

图1为本公开实施例提供一种文档结构识别方法的流程示意图。该方法可以应用于电子设备，电子设备可以是智能手机、平板电脑、笔记本电脑、台式电脑或者定制终端等。这些设备的操作系统可以是安卓(Android)系统，窗口系统(Windows)，苹果移动操作系统(iOS)，苹果操作系统(Mac OS)或者鸿蒙系统(Harmony OS)、林纳斯系统(Linux)等，本公开对此不作限制。

如图1所示，文档结构识别方法包括：

S110、获取待识别文档的文档图像。

一些实施方式中，待识别的文档可以是各个领域的文献，如医学领域的书籍、论文、会议记录或者指南等文献。其格式可以是便携式文档格式(Portable DocumentFormat，pdf)、word、文本文件(txt)、图片等。

为了便于后续的版面分析和文字识别，可以将待识别的文档进行统一格式转换。

例如，可以调用文档读取工具包对文档进行读取，若返回的内容为非空，这说明该文档为格式文档，将读入的文档的每页转换成为图片。得到待识别文档的文档图像。一个文档转换完成后，得到的文档图像的张数与待转换文档的页数相同。

一些实施方式中，在转换时，还可以预先设置转换得到的图片的缩放系数，如放大一倍。以提升分辨率，保证后续文字识别时更加准确。

S120、获取文档图像中的文档版面参数。

一些实施方式中，文档版面参数可以通过开源的版面分析工具获取，如基于飞桨的文字识别算法(PaddleOCR)。对于不同语言、不同领域的文献，可以通过对PaddleOCR进行训练以得到适应不同语言、不同领域的版面分析工具。

S130、对文档图像进行文本识别，获取文档图像中的文本参数。

一些实施方式中，文本识别也可以通过PaddleOCR实现，例如，可以调用中文版边框检测和文字识别模型，识别页面每行文字的位置坐标以及内容。

S140、根据版面参数、文本参数生成待识别文档的文档结构。

一些实施方式中，版面参数中记录了待识别文档中每一页中每个区域对应的标题，以及标题的级别，文本参数中记录了每个区域中的文字数据。

根据版面参数、文本参数生成待识别文档的文档结构，可以通过生成文档树实现。

本实施例中，通过对文档图像进行版面分析和文本识别，获取文档图像的文档版面参数以及文本参数，根据文档版面参数以及文本参数生成待识别文档的文档结构。实现了对非标准文档进行结构化，提供了一种准确、高效的文档结构识别方法。

图2为本公开实施例提供的一种文档结构识别方法中S120的流程示意图。

一些实施方式中，参考图2，对文档图像进行版面分析，获取文档图像中的文档版面参数，包括：

S210、根据待识别文档的语言类型，确定对应的版面分析工具。

一些实施方式中，参考S120中的示例，PaddleOCR的版面分析工具本身提供的功能可以识别英文文献，因此当待识别文档为英文文档时，可以直接通过PaddleOCR进行版面分析。对于非英文文档。例如待识别文档的语言类型为中文时，需要先基于中文文献构建训练样本，然后通过中文文献训练样本对PaddleOCR进行训练，得到可以识别中文版面的PaddleOCR。

S220、通过对应的版面分析工具，获取文档图像中的文档版面参数。

一些实施方式中，当版面分析工具为识别中文版面的PaddleOCR时，可以将文档图像作为PaddleOCR的输入，通过PaddleOCR对文档图像进行识别，获取文档图像中的文档版面参数。

一些实施方式中，获取文档图像中的文档版面参数包括：获取文档图像中每个区域对应的版面类型以及坐标。

例如，将文档图像作为PaddleOCR的输入，通过PaddleOCR对文档图像进行识别后，PaddleOCR可以识别到文档图像中包括的多个板块。每个板块在文档图像中对应一个区域。可以通过多个坐标依次连接确定一个区域。每个板块对应一个版面类型。图3为本公开实施例提供的一种文档结构识别方法中的文档图像示意图。

一些实施方式中，通过PaddleOCR对文档图像进行识别后，得到的文档版面参数可以参考图3。每个区域通过虚线框表示区域的边界，通过得到虚线框四个顶点的坐标即可确定一个虚线框在版面中的位置。版面类型可以包括标题(Title)、文本(Text)、页眉(Header)、图片(Figure)、表格(Table)、文献引用(Reference)、列表(List)等。

其中，在识别每个版面对应的区域后，输出每个板块在文档图像中的区域坐标。例如，图3中标题版面所在区域为框柱标题版面的虚线框，对应的区域坐标即为依次记录的四个顶点的坐标，如(1，1)、(1，2)、(2，2)，(2，1)。以及对应的文本作为文档版面参数。例如，图片中的标题版面中的文字为“标题”，则可以识别得到文字“标题”。然后，可以将版面类型、文本和坐标一同记录，写入文档版面参数。

作为示例，记录时，可以记录为：版面类型+<文本，位置坐标>。以标题为例，可以记录为：标题+<标题，(1，1)、(1，2)、(2，2)，(2，1)>。

在实施例中，将每个版面类型和对应的文本以及位置坐标进行记录，可以便于后续结构树的生成。

在本公开中，通过根据待识别文档的语言类型获取对应的版面分析工具，可以更加准确地识别每个待识别文档中的版面参数，提高文档结构识别的准确性。

图4为本公开实施例提供的一种文档结构识别方法中S130的流程示意图。

一些实施方式中，参考图4，通过预设的文字识别工具识别所述文档图像中每行文本的位置坐标及内容，包括：

S410、通过预设的文字识别工具识别文档图像中每行文本的位置坐标及内容。

一些实施方式中，预设的文字识别工具也可以是S210中的可以识别中文版面的PaddleOCR。其具体实现方式可以参照S220中的示例，在此不做赘述。

S420、输出每行文本的位置坐标及内容作为文本参数。

一些实施方式中，可以将文档图像输入PaddleOCR文本识别工具。调用中文版边框检测和文字识别模型，识别页面每行文字的位置坐标以及内容。如，可以记录为：<每行文本，位置坐标>。其中，位置坐标和文本识别可以参照S220中的示例，在此亦不做赘述。

本实施例中，对于一些扫描版的文献，待识别文档中的图像可能会出现文本内容在页面中歪曲、倾斜的情况。通过文版边框检测和文字识别模型可对这些情况进行文本边框的矫正和位置复原。减少因为文本块位置扭曲导致的文字识别错误的情况。

图5为本公开实施例提供的一种文档结构识别方法中S410的流程示意图。

一些实施方式中，参考图5，通过预设的文字识别工具识别文档图像中每行文本的位置坐标及内容，包括：

S510、当文档图像中包括多栏文本时，根据文档版面参数获取每一栏的区域坐标。

图6为本公开实施例提供的一种文档结构识别方法中多栏文本的示意图，图7为本公开实施例提供的一种文档结构识别方法中另一种多栏文本的示意图。

一些实施方式中，在识别文档版面参数时，可以通过以下方式确定当前页面是否为多栏。

作为示例，可以根据识别到的文本的位置坐标，确定页面的左右边界，例如，设X坐标的最小值(左边界)为x_min和最大值(有边界)为x_max，从而计算中点坐标x_middle以及文字区域的横向宽度x_depth＝x_max-x_min。

根据通过版面分析工具筛选出文本和标题区域，过滤区域宽度小于x_depth/2的区域，即得到单栏区域。

对于区域宽度大于x_depth/2并且小于等于x_depth的区域，可以确定为横向跨栏的板块(如图7中的第五栏75)。

对于多栏，可以计算每栏的宽度均值x_mean，版面栏数即为x_depth/x_mean。

一些实施方式中，参考图6，图6示出了三栏文本，第一栏61、第二栏62以及第三栏63分别记录了不同的文本内容。在文字识别之前，通过可以通过文档版面参数获取第一栏61、第二栏62以及第三栏63各自的区域坐标。将每一栏作为独立的区域分别进行识别。

另一些实施方式中，参考图7，其中示出了五栏文本，包括第一栏71、第二栏72、第三栏73、第四栏74和第五栏75。还包括了附图栏76。在文字识别之前，通过可以通过文档版面参数获取第一栏71、第二栏72、第三栏73、第四栏74和第五栏75各自的区域坐标。将每一栏作为独立的区域分别进行识别，而附图栏76所在的区域则无需进行文字识别。

S520、根据每一栏的区域坐标识别每一栏的区域内的文本。

一些实施方式中，可以通过PaddleOCR文本识别工具依次识别每一栏中的文本，其方式与S420中类似，在此不做赘述。

S530、将识别得到的每一栏的区域内的文本，根据预设的阅读顺序排列每一栏的区域内的文本。

一些实施方式中，参考图6，对于并列的多栏文本，其阅读顺序为第一栏61、第二栏62、第三栏63，则可以针对该页按照从左往右的顺序将每一栏记录在该页对应的阅读顺序列表中。

另一些实施方式中，参考图7，其中第一栏71为标题栏，文本栏包括第二栏72、第三栏73、第四栏74和第五栏75。文本栏的阅读顺序应该为从上至下，从左至右。即可以按照第二栏72、第三栏73、第四栏74和第五栏75的顺序将每一栏记录在该页对应的阅读顺序列表中。

本实施例中，通过模拟人的阅读顺序将多栏本文按照其在页面中的位置进行排序，转换为单栏的阅读方式，输出得到正确阅读顺序的阅读顺序列表，便于后续对文本进行处理。

一些实施方式中，在确定页面中每个板块的阅读顺序之后，还需要将文本参数中的文字对应到正确的板块中。

图8为本公开实施例提供的一种文档结构识别方法中文本对应的示意图。

一些实施方式中，参考图8，可以通过计算重叠度(Intersection over Union，IoU)的方式，计算文字识别得到的每行文本的区域82和版面分析时每个板块对应区域81的交并比，如果交并比大于预设的阈值，则认为该行文本属于该板块。通过设置预设的阈值，在即使板块边界只框住文本部分内容的情况下，也可以将整行内容对应为该板块的文本，从而避免文字的缺失。

图9为本公开实施例提供的一种文档结构识别方法中S140的流程示意图。

一些实施方式中，参考图9，根据版面参数、文本参数生成待识别文档的文档结构，包括：

S910、根据版面参数，遍历文本参数，检测版面参数中的标题，获取每个标题的特征。

一些实施方式中，可以先需要将板块内，属于同一段落的文本聚合在一起。例如，首先识别每一段的段首、段中、段尾、居中、标题。对板块内的每行进行标记，并判断每个板块第一行是否为段中和段尾，“是”则标记为<段中/段尾，1>，“否”则标记为<段中/段尾，0>；最后一行是否为段首或者标题，“是”则标记为<段首/标题，1>，“否”则标记为<段首/标题，0>。对于板块内，将距离最近的段首和段尾以及中间的内容视为一个段落。

对于不同板块，判断当前板块的最后一行的标签(label)与其相邻的后一板块的第一行的label是否均为1，如果是则属于同一个段落，最后将视为同一段落的所有内容拼接在一起，得到一段聚合的文本。

依次处理每页文档图像，获取待识别文档的中存在的标题、正文(已整合为段落)、表格内容返回，作为构建文档树的基础。

S920、将具有相同特征的标题进行聚合，识别每个特征对应的标题级别。

一些实施方式中，可以先建立标题特征集合包括中英文、各类型数字(如汉字、阿拉伯数字、罗马数字)、全角半角符号的组合。例如1可以包括“(1)”、“(一)”(英文括号)、“(一)”(中文括号)、“一、”、“【1】”、“[1]”等。

然后，根据S910中得到的结果，对其内容进行遍历。将每个层级标题对应的段落内容建立索引。可参考表1：

表1

如表1第二列所示。在为每行文本建立索引的过程中，检测是否为标题，如果是第一次检索到的标题，并且包含特征集合(预先设置)中的某类特征，则保存当前标题对应的特征，并作为一级标题，将所有具有该特征的标题均作为一级标题。如果第二次检索到的新特征标题则作为二级标题，并将该特征保存。以此类推，检测出所有标题。

作为示例，以具有三级标题的文档为例，如表1第三列所示，1、2、3分别代表一级、二级和三级标题，“-”代表段落内容(即文本)。根据表1，将所有相同的标题特征进行聚合，并保存为<索引，内容>，构建如下特征列表：

“1”：<0,“第一章xxx”>；

“2”：<1,“一、xxxx”>、<7,“二、xxxxx”>；

“3”：<2,“(1)xx”>、<5,“(2)xxx”>、<9,“(1)xx”>、<11,“(2)xx”>、等；

“-”：<3,“段落1文本”>、<4,“段落2文本”>、、<6,“段落3文本”>等。

S930、根据每个标题的特征以及每个特征对应的标题级别，构建得到待识别文档对应的文档树。

一些实施方式中，文档树记录了待识别文档的文档结构。可以基于自顶向下的顺序自动构建文档树。

作为示例，可以首先搭建“树型”结构，树中的每个节点包括3个部分的内容(文本内容，节点id，父节点id)，每个节点的id为待识别文档的名称+索引(index)，以确保唯一性，并将待识别文档的名称作为树的根节点。

然后，按顺序遍历一级标题列表，获取相邻的两个元素，记录为索引a和b。根据第一个元素内容创建节点，以根节点为父节点id。

接着，按顺序遍历二级标题元素，如果得到元素的索引在a和b之间，则作为该节点子节点，待识别文档的名称+a作为其父节点id。

最后，按照以上步骤重复进行。即遍历每级特征列表的时候，同时也遍历下一级特征列表，如果下层元素的索引比上一层相邻两个元素索引小，则作为子节点，直到遍历到倒数第二层(由于最后一层保存了文档内容，为叶子节点)。即可构建一棵完整的文档树，文档树的非叶子节点均为文档中不同标题下的文本内容。

在本实施例中，基于以上步骤，可构建一棵完整的文档树，文档树非叶子节点的部分即为待识别文档的文档结构，可用于文档目录的自动生成。

一些实施方式中，在构建文档树的过程中会存在边界判断和一些特殊情况，例如，如果在当前标题的特征中，既存在非标题对应的文本内容，又存在子标题、以及子标题对应的文本内容。则非标题的文本内容就出现在最后一层的元素当中。因此，遍历的时候需要考虑下一层内容和最后一层内容。在查找最后一层元素的时候，需要确定索引在当前节点和离得最近的子节点之间。

再例如，如果在当前层级中，只包含非标题对应的文本内容，则可以直接去叶子节点层查找。

还有一些示例中，对于每层的最后一个元素，如果没有子标题，则直接去叶子节点集合中查找，索引仅大于当前节点的索引。

示例性实施例中，本公开实施例还提供文档结构识别装置，可以用于实现如前述实施例提供的文档结构识别方法。

图10为本公开实施例提供的文档结构识别装置的组成示意图。

如图10所示，该装置可以包括：

获取模块1001，用于获取待识别文档的文档图像；

获取模块1001，还用于获取文档图像中的文档版面参数；

识别模块1002，用于对文档图像进行文本识别，获取文档图像中的文本参数；

生成模块1003，用于根据版面参数、文本参数生成待识别文档的文档结构。

一些实施方式中，获取模块1001，具体用于根据待识别文档的语言类型，确定对应的版面分析工具。通过对应的版面分析工具，获取文档图像中的文档版面参数。

一些实施方式中，获取模块1001，具体用于获取文档图像中每个区域对应的版面类型以及坐标。输出每个版面类型在文档图像中的区域坐标以及对应的文本作为文档版面参数。

一些实施方式中，识别模块1002，具体用于通过预设的文字识别工具识别文档图像中每行文本的位置坐标及内容；输出每行文本的位置坐标及内容作为文本参数。

一些实施方式中，识别模块1002，具体用于当文档图像中包括多栏文本时，根据文档版面参数获取每一栏的区域坐标；根据每一栏的区域坐标识别每一栏的区域内的文本；将识别得到的每一栏的区域内的文本，根据预设的阅读顺序排列每一栏的区域内的文本。

一些实施方式中，生成模块1003，具体用于根据版面参数，遍历文本参数，检测版面参数中的标题，获取每个标题的特征；将具有相同特征的标题进行聚合，识别每个特征对应的标题级别；根据每个标题的特征以及每个特征对应的标题级别，构建得到待识别文档对应的文档树，文档树记录了待识别文档的文档结构。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如以上实施例中提供的方法。

示例性实施例中，可读存储介质可以是存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行根据以上实施例中提供的方法。

示例性实施例中，计算机程序产品包括计算机程序，所述计算机程序在被处理器执行时实现根据以上实施例中提供的方法。

电子设备旨在表示各种形式的数字计算机，诸如，车载电脑、膝上型计算机、平板电脑、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如页面渲染方法。例如，在一些实施例中，页面渲染方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1105。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的页面渲染方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文档结构识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文档结构识别方法，其特征在于，所述方法包括：

获取待识别文档的文档图像；

获取所述文档图像中的文档版面参数；

对所述文档图像进行文本识别，获取所述文档图像中的文本参数；

根据所述版面参数、所述文本参数生成所述待识别文档的文档结构。

2.根据权利要求1所述的方法，其特征在于，所述获取所述文档图像中的文档版面参数，包括：

根据所述待识别文档的语言类型，确定对应的版面分析工具；

通过所述对应的版面分析工具，获取所述文档图像中的文档版面参数。

3.根据权利要求1或2所述的方法，其特征在于，所述获取所述文档图像中的文档版面参数，包括：

获取所述文档图像中每个区域对应的版面类型以及坐标；

输出每个所述版面类型在文档图像中的区域坐标以及对应的文本作为所述文档版面参数。

4.根据权利要求3所述的方法，其特征在于，所述对所述文档图像进行文本识别，获取所述文档图像中的文本参数，包括：

通过预设的文字识别工具识别所述文档图像中每行文本的位置坐标及内容；

输出所述每行文本的位置坐标及内容作为所述文本参数。

5.根据权利要求4所述的方法，其特征在于，所述通过预设的文字识别工具识别所述文档图像中每行文本的位置坐标及内容，包括：

当所述文档图像中包括多栏文本时，根据所述文档版面参数获取每一栏的区域坐标；

根据所述每一栏的区域坐标识别所述每一栏的区域内的文本；

将识别得到的所述每一栏的区域内的文本，根据预设的阅读顺序排列每一栏的区域内的文本。

6.根据权利要求1-5任一项所述的方法，其特征在于，根据所述版面参数、所述文本参数生成所述待识别文档的文档结构，包括：

根据所述版面参数，遍历所述文本参数，检测所述版面参数中的标题，获取每个所述标题的特征；

将具有相同特征的标题进行聚合，识别每个特征对应的标题级别；

根据每个所述标题的特征以及每个所述特征对应的标题级别，构建得到所述待识别文档对应的文档树，所述文档树记录了所述待识别文档的文档结构。

7.一种文档结构识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别文档的文档图像；

获取模块，还用于对获取所述文档图像中的文档版面参数；

识别模块，用于对所述文档图像进行文本识别，获取所述文档图像中的文本参数；

生成模块，用于根据所述版面参数、所述文本参数生成所述待识别文档的文档结构。

8.根据权利要求7所述的装置，其特征在于，所述获取模块，具体用于根据所述待识别文档的语言类型，确定对应的版面分析工具；

9.根据权利要求7或8所述的装置，其特征在于，所述获取模块，具体用于获取所述文档图像中每个区域对应的版面类型以及坐标；

10.根据权利要求9所述的装置，其特征在于，所述识别模块，具体用于通过预设的文字识别工具识别所述文档图像中每行文本的位置坐标及内容；

输出所述每行文本的位置坐标及内容作为所述文本参数。

11.根据权利要求10所述的装置，其特征在于，所述识别模块，具体用于当所述文档图像中包括多栏文本时，根据所述文档版面参数获取每一栏的区域坐标；

12.根据权利要求7-11任一项所述的装置，其特征在于，所述生成模块，具体用于根据所述版面参数，遍历所述文本参数，检测所述版面参数中的标题，获取每个所述标题的特征；

13.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-6任一项所述的方法。

15.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6任一项所述的方法。