CN114238575A

CN114238575A - 文档解析方法、系统、计算机设备及计算机可读存储介质

Info

Publication number: CN114238575A
Application number: CN202111539981.3A
Authority: CN
Inventors: 王超; 李果夫; 张又允; 刘剑
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-25

Abstract

本申请公开了一种文档解析方法，包括：获取待解析文档；将所述待解析文档输入至预设的框选识别模型，以得到所述待解析文档对应的带框选标记信息的标题数据与段落数据；获取预设的标注信息；基于所述预设的标注信息对所述带框选标记信息的标题数据与段落数据进行标注，以得到所述待解析文档对应的带目标标注信息的标题数据以及段落数据；根据所述目标标注信息生成所述待解析文档的文档解析树。本申请提高了文档解析的精确性。

Description

文档解析方法、系统、计算机设备及计算机可读存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种文档解析方法、系统、计算机设备及计算机可读存储介质。

背景技术

文本解析是自然语言处理领域的一个重要研究方向。根据文本的长短，可以分为语句解析和文档解析。现有的解析语料库主要是集中在语句层面，例如宾州树库(PennTreebank)、宾州中文树库、清华中文树库等。但是，发明人发现，这些都没有对文档整体结构进行深入地、精确地分析，不能直观的对文档进行查看。

发明内容

有鉴于此，本发明实施例的目的是提供一种文档解析方法、系统、计算机设备及计算机可读存储介质，用以解决现有技术中文档解析不够全面以及精确的问题。

为实现上述目的，本发明实施例提供了一种文档解析方法，包括：

获取待解析文档；

将所述待解析文档输入至预设的框选识别模型，以得到所述待解析文档对应的带框选标记信息的标题数据与段落数据；

获取预设的标注信息；

基于所述预设的标注信息对所述带框选标记信息的标题数据与段落数据进行标注，以得到所述待解析文档对应的带目标标注信息的标题数据以及段落数据；

根据所述目标标注信息生成所述待解析文档的文档解析树。

进一步地，所述预设的框选识别模型的训练步骤包括：

获取多个样本数据，每个样本数据包括多个样本文档，每个样本文档带有框选标记；

将样本数据输入至深度学习模型中，以通过所述深度学习模型识别出每个样本文档中的标题数据以及段落数据；

将识别出的标题数据以及段落数据进行框选，得到多个预设标记；

计算每个样本文档的框选标记与每个样本文档对应的多个预设标记之间的误差值；

当所述误差值小于预设阈值时，则将所述深度学习模型作为框选识别模型。

进一步地，所述将所述待解析文档输入至预设的框选识别模型，以得到所述待解析文档对应的带框选标记信息的标题数据与段落数据包括：

若所述待解析文档包括有文档目录，基于所述框选识别模型识别并框选出所述文档目录对应的标题数据；

通过所述文档目录定位出对应的段落数据进行框选，以得到所述待解析文档对应的带框选标记信息的标题数据与段落数据。

进一步地，所述预设的标注信息包括编号与父标题。

进一步地，所述根据所述目标标注信息生成所述待解析文档的文档解析树包括：

基于所述编号确定所述文档解析树的层级；

根据所述父标题将带目标标注信息的各个标题数据以及各个段落数据的编号进行关联，得到所述文档解析树的树结构；

将所述目标标注信息填写入所述文档解析树的树结构，以生成所述待解析文档的文档解析树。

进一步地，所述将所述目标标注信息填写入所述文档解析树的树结构，以生成所述待解析文档的文档解析树之后，所述方法还包括：

将所述带目标标注信息的标题数据与段落数据关联至所述文档解析树。

获取所述带目标标注信息的段落数据；

对每个所述带目标标注信息的段落数据进行分词处理，得到每个所述带目标标注信息的段落数据对应的多个段落关键词；

获取每个所述带目标标注信息的段落数据对应的多个段落关键词中出现次数大于预设阈值的目标关键词，得到目标词集；

将每个所述带目标标注信息的段落数据的所述目标词集与所述文档解析树中对应的段落编号进行关联，并将每个所述带目标标注信息的标题数据与所述文档解析树中对应的段落编号进行关联。

为实现上述目的，本发明实施例提供了一种文档解析系统，包括：

第一获取模块，用于获取待解析文档；

识别模块，用于将所述待解析文档输入至预设的框选识别模型，以得到所述待解析文档对应的带框选标记信息的标题数据与段落数据；

第二获取模块，用于获取预设的标注信息；

标注模块，用于基于所述预设的标注信息对所述带框选标记信息的标题数据与段落数据进行标注，以得到所述待解析文档对应的带目标标注信息的标题数据以及段落数据；

生成模块，用于根据所述目标标注信息生成所述待解析文档的文档解析树。

为实现上述目的，本发明实施例提供了一种计算机设备，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述的文档解析方法的步骤。

为实现上述目的，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行上述的文档解析方法的步骤。

本发明实施例提供的文档解析方法、系统、计算机设备及计算机可读存储介质，通过识别模型对文档数据进行识别，以框选出对应的标题数据以及段落数据，再基于预设的标注信息对框选的标题数据以及段落数据进行标注，得到目标标注信息，基于目标标注信息生成待解析文档的文档解析树；本发明对待解析文档的全篇文档数据进行了全面解析，文档解析树将文档的标题与段落之间进行关联，通过目标标注信息可以对文档结构进行了解；且，通过预设的标注信息对标题数据以及段落数据进行标记，再生成文档解析树，提高了文档解析的精确性。

附图说明

图1为本发明文档解析方法实施例一的流程图。

图2为本发明文档解析方法实施例一的文解析树档树的框架图。

图3为本发明文档解析系统实施例二的程序模块示意图。

图4为本发明计算机设备实施例三的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参阅图1，示出了本发明实施例一之文档解析方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。

步骤S100，获取待解析文档。

具体地，所述待解析文档包括标题和段落，标题包括文档标题和段落标题，其中，文档标题即为整篇文档的标题，段落标题是文档中部分内容的标题，文档标题有且只有一个。根据段落标题在文档中不同作用，又可将段落标题分为不同级别，例如：一级段落标题，二级段落标题等。某些文档可能不包括段落标题。标题通常包含一个或者多个段落。段落的表现形式可以是文本、表格、图表中的一种或者多种的组合。其中，文本形式的段落通常是由一个或者多个语句组成。待解析文档的文档格式可以为office、adobe pdf、XML以及其他可以被人工或者计算机语言识别的格式。

步骤S102，将所述待解析文档输入至预设的框选识别模型，以得到所述待解析文档对应的带框选标记信息的标题数据与段落数据。

具体地，通过框选识别模型首先识别出待解析文档的各个文档数据，包括标题数据与段落数据，并将标题数据与段落数据分别进行框选。相应的，通过框选识别模型识别出文档数据后，基于段落格式对文档数据进行框选，将每个段落以及标题框选出。框选识别模型可以为例如深度学习模型、人工智能模型识别等。

在示例性地实施例中，所述预设的框选识别模型的训练步骤包括：

获取多个样本数据，每个样本数据包括多个样本文档，每个样本文档带有框选标记；将样本数据输入至深度学习模型中，以通过所述深度学习模型识别出每个样本文档中的多个标题数据以及段落数据；将识别出的标题数据以及段落数据进行框选，得到多个预设标记；计算每个样本文档的框选标记与每个样本文档对应的多个预设标记之间的误差值；当所述误差值小于预设阈值时，则将所述深度学习模型作为框选识别模型。

具体地，通过深度学习模型识别文档内容中的文字内容，并将每个段落进行框选。深度学习模型可以为光学字符识别技术(Optical Character Recognition)以及边框回归算法(Bounding Box Regression)，通过光学字符识别算法(Optical CharacterRecognition)识别出待解析文档的段落数据与标题数据，通过边框回归算法对段落数据与标题数据进行框选，标题数据也为特殊的段落数据。标题数据为文本数据，段落数据包括文本数据、图片数据以及图表数据等。训练步骤主要是训练边框回归算法，使其可以对段落数据与标题数据进行框选。其中，需要通过光学字符识别算法进行识别的待解析文档的格式为adobe pdf、XML、图片。

步骤S104，获取预设的标注信息。

具体地，所述预设的标注信息包括标题参数信息、标题衍生参数信息、段落参数信息以及段落衍生参数信息。标题参数信息包括：类别：“文档标题”或“段落标题”；编号：段落标题属性，每一个标题在文档中具有唯一的编号，用以标识该标题；标题级别(适用于段落标题)：根据该标题在文档中的位置分为一级、二级、…、N级；父标题(适用于段落标题)：该标题的上一级标题，每一个段落标题有且只有一个父标题；兄弟标题(适用于段落标题)：和该标题有同一父标题的其他标题；子标题：该标题所包含的下一级标题，子标题的数目可以为零、一、二、…、N，但子标题和子段落的数目不可以同时为零；排序(适用于段落标题)：该标题在属于同一个父标题的所有标题中的排序；内容：该标题自身的内容；子段落：该标题直接包含的段落(不包括该标题下的子标题所含段落)，子段落的数目可以为零一、二、…、N个，其中，子标题和子段落的数目不可以同时为零。段落参数信息包括：类别：“段落”；段落编号：每一个段落在文档中具有唯一的编号，用以标识该段落；直接标题：该段落的直接归属的标题，每一个段落有且只有一个直接标题；间接标题：该段落的非直接归属的标题，每一个段落可以有多个间接标题；兄弟段落：和该段落具有同一父标题的其他段落；排序：指该段落在属于同一个父标题的所有段落中的排序；形式：可以为文字、表格、图表中的一种或者组合；内容：段落自身的内容。标题衍生参数信息包括：与某一标题的关系：该标题在和另一个标题的关系中的角色定位，包括父标题，兄弟标题，子标题，其他等；至根节点的路径：指从该节点到根节点的路径(包含该节点和和根节点)。段落衍生参数包括：与某一段落的关系：该标题在和另一个标题的关系中的角色定位，包括兄弟段落，其他等；至根节点的路径：指从该段落到根节点的路径(包含该段落和和根节点)。以及针对不同的应用场景，可以增加适用于该场景的特定参数。例如，标题的标注还可以包括：1)是否包含人物、时间、地点、事件主体等信息；2)标题样式(字号、字体、缩进等)。段落的标注还可以包括：1)文字样式(字号、字体、缩进、行间距等)(适用于文字形式的段落)；2)表格样式(表格标题、行列数、字体等)(适用于表格形式的段落)；3)图表样式(尺寸，位置等)(适用于图表形式的段落)；4)作用：例如，起承转合。

在示例性地实施例中，所述将所述待解析文档输入至预设的框选识别模型，以得到所述待解析文档对应的带框选标记信息的标题数据与段落数据包括：

步骤S120、若所述待解析文档包括有文档目录，基于所述框选识别模型识别并框选出所述文档目录对应的标题数据。步骤S122、通过所述文档目录定位出对应的段落数据进行框选，以得到所述待解析文档对应的带框选标记信息的标题数据与段落数据。可以快速的标注出待解析文档的目标标注信息。作为本实施例的另外一种框选识别方式，当本文档存在文档目录时，基于已有的文档目标将对应的标题数据进行识别与框选，进而将对应的段落数据进行框选，以提高文档框选识别的效率。当得到第一标注信息时，可以基于标题数据的第一标注信息以及文档目标构建标题文档树，再基于段落数据的第二标注信息以及段落数据扩充标题文档树，得到文档解析树，提高了文档解析树的生成效率。

步骤S106，基于所述预设的标注信息对所述带框选标记信息的标题数据与段落数据进行标注，以得到所述待解析文档对应的带目标标注信息的标题数据以及段落数据。

具体地，通过key-value对的形式基于预设的标注信息对带框选标记信息的文档数据进行标记，相应的key值为标注信息，value值为对应的标注值，以形成目标标注信息。对应的目标标号信息与框选标记进行关联，以便于查找。

步骤S108，根据所述目标标注信息生成所述待解析文档的文档解析树。

在示例性地实施例中，所述预设的标注信息包括编号与父标题。

在示例性地实施例中，所述根据所述目标标注信息生成所述待解析文档的文档解析树包括：

步骤S130、基于所述编号确定所述文档解析树的层级。步骤S132、根据所述父标题将带目标标注信息的各个标题数据以及各个段落数据的编号进行关联，得到所述文档解析树的树结构。步骤S134、将所述目标标注信息填写入所述文档解析树的树结构，以生成所述待解析文档的文档解析树。

具体地，获取标注信息中的节点位置数据，根据节点位置数据构建文档树，将标注信息根据节点数据填入文档树中，得到文档解析树。节点位置数据为标题编号数据及段落编号数据，根据编号数据确定该节点在文档树中的层级。如图2文档解析树的框架图所示，例如，编号为标题_00为第一层，编号为XX_01为第二层，以此确定文档树的层级树；进一步，根据父标题编号数据确定各个节点之间的关系，例如，当前层级为编号为XX_02，其父标题为XX_01，将两者进行关联。文档标题为根节点，段落标题和段落为子节点。段落标题有级别之分，每一级段落标题至少包含一个段落子标题或者子段落。段落无级别之分，且均为叶子节点，同时，叶子节点也均为段落。文档解析树的生成，实现了标题标记、段落标记、标题与上下级的关系定位、同级标题的关系定位、标题和段落的关系定位等功能，从而全面呈现了待解析文档架构以及各个部分之间的依存关系，使得后续对待解析文档的结构和内容调整更为方便。此外，标注信息具有可拓展性，可以针对不同的应用场景增加特定参数。

在示例性地实施例中，所述步骤S134之后，所述方法还包括：

具体地，采用批注的方式将识别出的标题数据与文本数据关联至文档解析树上，标题数据与文本数据分别与对应的目标标注信息进行关联，以便用户查阅整篇文档。进一步地，可将批注进行缩小处理，以使文档解析树简洁，用户查看时将批注进行放大处理，便于查看。

在示例性地实施例中，所述步骤S134之后，所述方法还包括：

步骤S140、获取所述带目标标注信息的段落数据。步骤S142、对每个所述带目标标注信息的段落数据进行分词处理，得到每个所述带目标标注信息的段落数据对应的多个段落关键词。步骤S144、获取每个所述段落数据对应的多个段落关键词中出现次数大于预设阈值的目标关键词，得到目标词集。步骤S146、将每个所述带目标标注信息的段落数据的所述目标词集与所述文档解析树中对应的段落编号进行关联，并将每个所述带目标标注信息的标题数据与所述文档解析树中对应的段落编号进行关联。

具体地，为了便于对文档进行了解，当文档篇幅过于冗长时，可以对段落数据进行关键词提取，提取出现次数较多的目标关键词，即出现次数大于预设阈值的目标关键词，以使用户通过目标关键词对该段落数据进行大致阅览。目标词集与文档解析树中对应的段落内容标注进行关联，便于查看。通过对某一行业或领域内的相关文档进行解析可以得到该行业的解析语料库。后续基于语料库可以开展统计分析、人工智能模型开发、文档生成等相关工作。

进一步地，还可以将目标词集中的各个关键词进行组合，得到目标语句，目标语句是对段落数据的精简处理，便于用户查看段落内容。由于标题数据一般篇幅不会过长，因此，可以不对标题数据进行处理，将标题数据与文档解析树中对应的标题内容进行关联。

实施例二

请继续参阅图3，示出了本发明文档解析系统实施例二的程序模块示意图。在本实施例中，文档解析系统20可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述文档解析方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述文档解析系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

第一获取模块200，用于获取待解析文档。

识别模块202，用于将所述待解析文档输入至预设的框选识别模型，以得到所述待解析文档对应的带框选标记信息的标题数据与段落数据。

第二获取模块204，用于获取预设的标注信息。

标注模块206，用于基于所述预设的标注信息对所述带框选标记信息的标题数据与段落数据进行标注，以得到所述待解析文档对应的带目标标注信息的标题数据以及段落数据。

生成模块208，用于根据所述目标标注信息生成所述待解析文档的文档解析树。

在示例性地实施例中，所述生成模块208还用于：

基于所述编号确定所述文档解析树的层级；根据所述父标题将带目标标注信息的各个标题数据以及各个段落数据的编号进行关联，得到所述文档解析树的树结构；将所述目标标注信息填写入所述文档解析树的树结构，以生成所述待解析文档的文档解析树。

具体地，获取标注信息中的节点位置数据，根据节点位置数据构建文档树，将标注信息根据节点数据填入文档树中，得到文档解析树。节点位置数据为标题编号数据及段落编号数据，根据编号数据确定该节点在文档树中的层级。如图所示，例如，编号为标题_00为第一层，编号为XX_01为第二层，以此确定文档树的层级树；进一步，根据父标题编号数据确定各个节点之间的关系，例如，当前层级为编号为XX_02，其父标题为XX_01，将两者进行关联。文档标题为根节点，段落标题和段落为子节点。段落标题有级别之分，每一级段落标题至少包含一个段落子标题或者子段落。段落无级别之分，且均为叶子节点，同时，叶子节点也均为段落。

实施例三

参阅图4，是本发明实施例三之计算机设备的硬件架构示意图。本实施例中，所述计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图4所示，所述计算机设备2至少包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及文档解析系统20。其中：

本实施例中，存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如实施例二的文档解析系统20的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行文档解析系统20，以实现实施例一的文档解析方法。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述服务器2与其他电子装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述服务器2与外部终端相连，在所述服务器2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。需要指出的是，图4仅示出了具有部件20-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的所述文档解析系统20还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器22)所执行，以完成本发明。

例如，图3示出了所述实现文档解析系统20实施例二的程序模块示意图，该实施例中，所述文档解析系统20可以被划分为所述第一获取模块200、所述识别模块202、所述第二获取模块204、所述标注模块206以及所述生成模块208。其中，本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述文档解析系统20在所述计算机设备2中的执行过程。所述程序模块200-208的具体功能在实施例二中已有详细描述，在此不再赘述。

实施例四

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于计算机程序，被处理器执行时实现实施例一的文档解析方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文档解析方法，其特征在于，包括：

获取待解析文档；

获取预设的标注信息；

根据所述目标标注信息生成所述待解析文档的文档解析树。

2.根据权利要求1所述的文档解析方法，其特征在于，所述预设的框选识别模型的训练步骤包括：

3.根据权利要求1所述的文档解析方法，其特征在于，所述将所述待解析文档输入至预设的框选识别模型，以得到所述待解析文档对应的带框选标记信息的标题数据与段落数据包括：

4.根据权利要求1所述的文档解析方法，其特征在于，所述预设的标注信息包括编号与父标题。

5.根据权利要求4所述的文档解析方法，其特征在于，所述根据所述目标标注信息生成所述待解析文档的文档解析树包括：

基于所述编号确定所述文档解析树的层级；

6.根据权利要求5所述的文档解析方法，其特征在于，所述将所述目标标注信息填写入所述文档解析树的树结构，以生成所述待解析文档的文档解析树之后，所述方法还包括：

7.根据权利要求5所述的文档解析方法，其特征在于，所述将所述目标标注信息填写入所述文档解析树的树结构，以生成所述待解析文档的文档解析树之后，所述方法还包括：

获取所述带目标标注信息的段落数据；

8.一种文档解析系统，其特征在于，包括：

第一获取模块，用于获取待解析文档；

第二获取模块，用于获取预设的标注信息；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的文档解析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如权利要求1-7中任一项所述的文档解析方法的步骤。