CN113469067B

CN113469067B - 一种文档解析方法、装置、计算机设备和存储介质

Info

Publication number: CN113469067B
Application number: CN202110758816.0A
Authority: CN
Inventors: 詹明捷; 梁鼎
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2024-04-16
Anticipated expiration: 2041-07-05
Also published as: CN113469067A

Abstract

本公开提供了一种文档解析方法、装置、计算机设备和存储介质，其中，该方法包括：基于获取的待处理文档，确定待处理文档与多个预设模态中每个预设模态对应的初始特征信息；基于初始特征信息，确定待处理文档对应的结构特征信息；对初始特征信息和结构特征信息进行融合，得到目标融合信息；基于目标融合信息，确定待处理文档对应的文档解析结果。本公开实施例通过将初始特征信息和结构特征信息的融合，能够实现在对多个初始特征信息的进一步特征提取的基础上，得到包含文档结构的目标融合信息，并基于目标融合信息，实现了利用包括文档的结构特征的多个模态的特征信息进行文档解析，有效提高了得到的文档解析结果的准确性。

Description

一种文档解析方法、装置、计算机设备和存储介质

技术领域

本公开涉及文档智能技术领域，具体而言，涉及一种文档解析方法、装置、计算机设备和存储介质。

背景技术

文档识别作为一个新的研究领域，要求算法能够对结构化文档(例如发票)进行识别，以提取出结构化文档中的重要信息，例如，发票中的消费金额、消费时间、消费内容等信息。

而现有技术中，存在无法有效地识别出各种各样的结构化文档的文档结构的弊端，从而，导致不能有效地提取出各种结构化文档中重要的信息。

发明内容

本公开实施例至少提供一种文档解析方法、装置、计算机设备和存储介质。

第一方面，本公开实施例提供了一种文档解析方法，包括：

基于获取的待处理文档，确定所述待处理文档与多个预设模态中每个预设模态对应的初始特征信息；

基于所述初始特征信息，确定所述待处理文档对应的结构特征信息；

对所述初始特征信息和所述结构特征信息进行融合，得到目标融合信息；

基于所述目标融合信息，确定所述待处理文档对应的文档解析结果。

基于提取出的待处理文档对应于多个预设模态的初始特征信息，能够获取待处理文档在不同维度上的特征信息，从而，提高了从待处理文档中提取出的信息的多样性和全面性。然后，通过将初始特征信息和结构特征信息的融合，能够实现在对多个初始特征信息的进一步特征提取的基础上，得到包含文档结构的目标融合信息。进而，基于目标融合信息，对待处理文档进行解析，实现了利用包括文档的结构特征的多个维度或多个模态的特征信息进行文档解析，有效提高了得到的文档解析结果的准确性。

在一种可能的实施方式中，所述基于所述目标融合信息，确定所述待处理文档对应的文档解析结果，包括：

对所述目标融合信息进行特征提取，得到与文档解析任务对应的目标特征信息；

基于所述目标特征信息，确定所述待处理文档对应的文档解析结果。

不同的文档解析任务需要利用不同的特征信息才能得到准确的解析结果，基于文档解析任务，对融合特征信息进行特征提取，能够准确地提取出与文档解析任务对应的目标特征信息，进而，能够确定出较为准确的文档解析结果。

在一种可能的实施方式中，所述预设模态包括文本信息模态、文档结构模态和图像信息模态中的至少一项；

所述初始特征信息包括与文本信息模态对应的文本信息、与所述文档结构模态对应的文本检测框信息和与所述图像信息模态对应的图像信息中的至少一项；

所述基于获取的待处理文档，确定所述待处理文档与多个预设模态中每个预设模态对应的初始特征信息，包括：

对所述待处理文档进行识别，得到文本检测框信息；其中，所述文本检测框信息包括至少一个文本检测框对应的信息；

基于所述文本检测框信息，对所述待处理文档进行文字识别，得到所述待处理文档对应的文本信息；

基于所述待处理文档，确定所述待处理文档对应的图像信息。

基于文本检测框信息对应的文本检测框，能够实现文本信息的框选，准确地限定出需要进行文字识别的区域，后续只需要对文本检测框中的文字识别，就可以准确地得到待处理文档对应的文本信息，减少了需要识别的文档面积，有利于提高识别效率。并且通过确定的各个文本检测框的位置坐标等信息，能够较为准确地确定待处理文档对应的文档结构。对待处理文档的图像进行特征提取、子图像提取等操作，能够较为准确地得到待处理文档对应的图像信息。

在一种可能的实施方式中，所述文本检测框对应的信息包括所述文本检测框对应的属性信息。

基于文本检测框对应的属性信息不仅有利于提高文字识别的准确度，并且利用文本检测框的属性信息还能够对识别得到的文本信息进行检测。

在一种可能的实施方式中，所述文本检测框对应的信息包括所述文本检测框的坐标信息；

所述基于所述初始特征信息，确定所述待处理文档对应的结构特征信息，包括：

基于所述至少一个文本检测框中的每个文本检测框的坐标信息，确定所述待处理文档对应的结构特征信息。

坐标信息能够准确反映出每个文本检测框对应在待处理文档中的位置，从而，基于每个文本检测框的位置，能够准确地确定出待处理文档的文档结构信息。

在一种可能的实施方式中，所述对所述初始特征信息和所述结构特征信息进行融合，得到目标融合信息，包括：

对所述初始特征信息进行预处理，得到子词级别的第一特征序列；

对所述结构特征信息进行预处理，得到子词级别的第二特征序列；

对所述第一特征序列和所述第二特征序列进行融合，得到目标融合信息。

子词级别的特征序列，也即为单词(单字)级别的特征序列，通过对初始特征信息和结构特征信息进行预处理，能够实现对初始特征信息和结构特征信息进行更小粒度的划分，得到子词级别的特征序列，进而，基于得到的特征序列，进行特征融合，能够实现子词级别的特征对齐，得到更加准确地目标融合信息。

在一种可能的实施方式中，所述文档解析任务包括以下至少一项：

文档问答任务、文本信息提取任务、文档版面分析任务、文档分类任务。

不同文档解析任务可以适用于不同的场景，上述方法适用于不同场景下的文档解析任务，适用性较高。

在一种可能的实施方式中，所述文档解析方法为利用预先训练好的文档解析网络执行的，所述文档解析网络的训练步骤，包括：

基于网络配置参数，构建待训练的文档解析网络；

将多个训练样本输入待训练的文档解析网络，利用所述待训练的文档解析网络分别对所述多个训练样本进行处理，得到与所述多个训练样本中每个样本对应的预测解析结果；

基于所述预测解析结果和与所述预测解析结果指向的所述训练样本对应的标准解析结果，对所述待训练的文档解析网络进行训练，直到满足训练截止条件，得到训练好的文档解析网络。

基于网络配置参数，能够准确地构建出与当前场景，例如当前的文档解析任务相匹配的文档解析网络；通过对文档解析网络的迭代训练，能够得到解析精度较高的文档解析网络。

在一种可能的实施方式中，所述基于网络配置参数，构建待训练的文档解析网络，包括：

获取文档解析任务对应的配置文件；

对所述配置文件进行解析，得到所述网络配置参数；其中，所述网络配置参数包括所述文档解析网络的规模信息、所述文档解析网络的参数信息、所述文档解析网络的网络结构信息中的至少一项；

基于所述网络配置参数，构建待训练的所述文档解析网络。

基于获取的配置文件，能够准确地得到用于构建文档解析网络的网络配置参数，其中，解析网络的规模信息能够表征文档解析网络的大小，参数信息能够表征构建文档解析网络所使用的网络参数，网络结构信息能够反映文档解析网络对应的内部结构。之后，基于网络配置参数，能够准确地构建出与文档解析任务相匹配的文档解析网络。

在一种可能的实施方式中，所述多个训练样本包括不同语言对应的文档样本。

通过利用不同语言对应的文档样本对待训练的文档解析网络进行训练，能够提高训练好的文档解析网络对各种语言的识别能力和适应能力，从而，可以使得到的训练好的文档解析网络能够对各种语言的待处理文档进行解析，提高了训练好的文档解析网络的普适性。

第二方面，本公开实施例还提供一种文档解析装置，包括：

第一确定模块，用于基于获取的待处理文档，确定所述待处理文档与多个预设模态中每个预设模态对应的初始特征信息；

第二确定模块，用于基于所述初始特征信息，确定所述待处理文档对应的结构特征信息；

融合模块，用于对所述初始特征信息和所述结构特征信息进行融合，得到目标融合信息；

第三确定模块，用于基于所述目标融合信息，确定所述待处理文档对应的文档解析结果。

在一种可能的实施方式中，所述第三确定模块，用于对所述目标融合信息进行特征提取，得到与文档解析任务对应的目标特征信息；

所述第一确定模块，用于对所述待处理文档进行识别，得到文本检测框信息；其中，所述文本检测框信息包括至少一个文本检测框对应的信息；

所述第二确定模块，用于基于所述至少一个文本检测框中的每个文本检测框的坐标信息，确定所述待处理文档对应的结构特征信息。

在一种可能的实施方式中，所述融合模块，用于对所述初始特征信息进行预处理，得到子词级别的第一特征序列；

在一种可能的实施方式中，所述文档解析装置为利用预先训练好的文档解析网络执行的，所述装置还包括训练模块，用于按照以下步骤进行训练：

基于网络配置参数，构建待训练的文档解析网络；

在一种可能的实施方式中，所述训练模块，用于获取文档解析任务对应的配置文件；

基于所述网络配置参数，构建待训练的所述文档解析网络。

第三方面，本公开可选实现方式还提供一种计算机设备，处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开可选实现方式还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

关于上述文档解析装置、计算机设备、及计算机可读存储介质的效果描述参见上述文档解析方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种文档解析方法的流程图；

图2示出了本公开实施例所提供的一种对文档解析网络进行训练的方法的流程图；

图3示出了本公开实施例所提供的一种利用多模态框架构建文档解析网络并进行训练的示意图；

图4示出了本公开实施例所提供的一种确定训练好的文档解析网络的流程示意图；

图5示出了本公开实施例所提供的一种文档解析装置的示意图；

图6示出了本公开实施例所提供的一种计算机设备结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

另外，本公开实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

经研究发现，文档识别作为一个新的研究领域，要求算法能够对结构化文档(例如发票)进行识别，以提取出结构化文档中的重要信息，例如，发票中的消费金额、消费时间、消费内容等信息。

基于上述研究，本公开提供了一种文档解析方法、装置、计算机设备和存储介质，基于提取出的待处理文档对应于多个预设模态的初始特征信息，能够获取待处理文档在不同维度上的特征信息，从而，提高了从待处理文档中提取出的信息的多样性和全面性。然后，通过将初始特征信息和结构特征信息的融合，能够实现在对多个初始特征信息的进一步特征提取的基础上，得到包含文档结构的目标融合信息。进而，基于目标融合信息，对待处理文档进行解析，实现了利用包括文档的结构特征的多个维度或多个模态的特征信息进行文档解析，有效提高了得到的文档解析结果的准确性。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，本公开实施例中所提到的特定名词包括：

MUST：Multimodal framework for image UnderStanding and informationexTraction，图像理解和信息提取的多模态框架，是一套融合视觉、语义等多模态信息从而进行多模态研究以及相关应用的模块化框架，包含了当前多模态学习领域结合视觉以及语义信息的一系列高性能模型，该模型可包括一个或多个神经网络。

OCR：optical character recognition，文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。

NLP：Natural Language Processing，自然语言处理，是研究人与计算机交互的语言问题的技术。

logging模块：logging模块定义的函数和类为应用程序和库的开发提供了一个灵活的事件日志系统。logging模块是Python的一个标准库模块。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种文档解析方法进行详细介绍，本公开实施例所提供的文档解析方法的执行主体一般为具有一定计算能力的计算机设备，在一些可能的实现方式中，该文档解析方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面以执行主体为计算机设备为例对本公开实施例提供的文档解析方法加以说明。

如图1所示，为本公开实施例提供的一种文档解析方法的流程图，可以包括以下步骤：

S101：基于获取的待处理文档，确定待处理文档与多个预设模态中每个预设模态对应的初始特征信息。

这里，待处理文档的表现形式有多种，具体的，可以包括纯文本形式的文档和图像形式的文档，其中，图像形式的文档可以包括电子文档、扫描文档、打印文本、手写文本以及各种图片格式的文档，例如，PNG格式的文档、GIF格式的文档、PCX格式的文档。

并且，待处理文档可以为具有一定的版面的文档，例如，订购单、财报、商务邮件、销售合同、宣传单、发票、简历等等，不同的版面可以构成不同的文档结构。

预设模态对应于不同的识别维度，用于确定待处理文档在不同的识别维度下的特征信息。例如，预设模态可以包括视觉模态，用于确定待处理文档对应的视觉特征信息，或者，预设模态可以包括语义模态，用于确定待处理文档对应的语义特征信息。

本公开实施例所提供给的文档解析方法，用于对图像形式的待处理文档的处理，具体的，如果获取的待处理文档为图像形式的文档，可以直接对该待处理文档进行处理；如果获取的待处理文档非图像形式的文档，需要先将其转化为图像形式的文档，再对其进行处理。例如，如果获取的待处理文档为PDF格式的文本文档，则可以基于该PDF格式的文本文档，生成图像形式的文档，然后对其进行处理。

本步骤中，针对获取的待处理文档，可以先对其进行文档形式的判断，在确定待处理文档为图像形式的文档的情况下，按照多个预设模态，直接对其进行解析，确定待处理文档与多个预设模态中每个预设模态对应的初始特征信息。在确定待处理文档为非图像形式的文档的情况下，可以先对待处理文档进行转换，再对转换得到的文档进行解析，从而，确定待处理文档与多个预设模态中每个预设模态对应的初始特征信息。

另外，本公开实施例所提供的文档解析方法可以利用预先训练好的文档解析网络执行，文档解析网络可以为利用多模态框架得到的。在获取待处理文档或待处理文档对应的图像之后，可以将其输入文档解析网络，利用文档解析网络对其进行解析，确定待处理文档对应于不同预设模态下的初始特征信息。

具体的，文档解析网络中可以包括多模态特征提取层，用于获取待处理文档，并对待处理文档进行特征提取，提取出与每个预设模态对应的初始特征信息。

S102：基于初始特征信息，确定待处理文档对应的结构特征信息。

这里，结构特征信息用于表征待处理文档对应的文档结构。

具体实施时，在得到每个预设模态对应的初始特征信息之后，文档解析网络可以从初始特征信息中筛选出与文档结构相关的预设模态对应的初始特征信息，例如，文本识别框信息，进而，可以利用与文档结构相关的初始特征信息，确定出待处理文档对应的文档结构，也即，确定出待处理文档对应的结构特征信息。

或者，针对文档结构对应的预设模态，文档解析网络在确定与该预设模态对应的初始特征信息之后，可以直接根据该初始特征信息，确定出待处理文档对应的文档结构信息。

其中，结构特征信息可以是文档解析网络中的多模态特征提取层确定的。

S103：对初始特征信息和结构特征信息进行融合，得到目标融合信息。

这里，目标融合信息为初始特征信息对应的更深层次的高维特征。

本步骤中，文档解析网络可以基于结构特征信息对应的文档结构，对初始特征信息和结构特征信息进行融合，得到与文档结构相匹配的目标融合信息。

具体的，文档解析网络中还包括多模态特征融合层，文档解析网络在确定初始特征信息和结构特征信息之后，可以利用多模态特征融合层对多模态特征提取层提取的初始结构特征信息和结构特征信息进行融合，以得到目标融合信息。

例如，以初始特征信息为待处理文档对应的文本信息，文档结构为标题+实质内容为例，文档解析网络可以根据标题+实质内容对应的位置信息和文本信息对应的位置信息，确定属于标题的文本信息和属于实质内容的文本信息。之后，可以对属于标题的文本信息和属于实质内容的文本信息进行信息提取和概括，得到融合后的目标融合信息，例如，得到的目标融合信息可以为A公司和B公司签订的环境保护协议信息。

S104：基于目标融合信息，确定待处理文档对应的文档解析结果。

具体实施时，可以对得到的目标融合信息进行信息抽取，抽取所需要的部分融合信息，之后，可以再对得到的部分融合信息进行处理，得到待处理文档对应的文档解析结果。

例如，对得到的部分融合信息进行信息整合、特征匹配，以得到待处理文档对应的文档解析结果。

这样，基于提取出的待处理文档对应于多个预设模态的初始特征信息，能够获取待处理文档在不同维度上的特征信息，从而，提高了从待处理文档中提取出的信息的多样性和全面性。然后，通过将初始特征信息和结构特征信息的融合，能够实现在对多个初始特征信息的进一步特征提取的基础上，得到包含文档结构的目标融合信息。进而，基于目标融合信息，对待处理文档进行解析，实现了利用包括文档的结构特征的多个维度或多个模态的特征信息进行文档解析，有效提高了得到的文档解析结果的准确性。

在一种实施例中，针对S104，可以按照以下步骤实施：

步骤一、对目标融合信息进行特征提取，得到与文档解析任务对应的目标特征信息。

这里，文档解析任务用于对获取的待处理文档进行解析，不同的文档解析任务需要利用不同的特征信息才能得到准确的解析结果。

其中，文档解析任务可以包括以下至少一种：文档问答任务、文本信息提取任务、文档版面分析任务、文档分类任务。

其中，文档问答任务可以是用于对待处理文档中包括的信息进行提问的任务。以待处理文档为发票为例，文档问答任务可以是对发票中的消费金额、密码、销售方信息等的提问任务，比如，文档问答任务可以为“发票是XX公司的、消费金额为XX的用车发票吗？”。

文本信息提取任务可以用于对待处理文档中的重要信息、关键信息进行提取的任务，例如，提取待处理文档中的账户信息、密码信息等。

文档版面分析任务用于对待处理文档的文档结构、文档形式和文档版面等进行分析的任务。例如，以待处理文档为Word文档为例，基于文档版面分析任务，可以确定该文档的页边距、文件大小、页眉信息、页脚信息、页码信息等文档版面信息。

文档分类任务可以用于待处理文档进行分类的任务，不同的待处理文档可以属于不同的文档种类，同一待处理文档也可以属于多种文档种类。具体的，文档种类可以包括商务合同类文档、出行发票文档、财务报表类文档、宣传文档、简历、商务邮件等等。

具体实施时，不同的文档解析网络可以直接是用于不同类型的文档解析任务的解析网络，例如，文档解析网络可以是文本信息提取任务对应的解析网络，在获取待处理文档之后，可以直接将其输入文档解析网络，文档解析网络可以先确定待处理文档对应的目标融合信息，然后，基于该目标融合信息，可以对目标融合信息进行特征提取，确定与文本信息提取任务对应的目标特征信息，继而，可以利用目标特征信息确定文档解析结果。

或者，文档解析网络可以对应于多种文档解析任务，用户可以在将待处理文档输入文档解析网络的同时，确定解析类型，不同的解析类型对应于不同的文档解析任务。之后，文档解析网络可以先确定待处理文档的目标融合信息，然后可以基于解析类型，确定与该解析类型对应的文档解析任务。进而，可以从目标融合信息中提取出该文档解析任务对应的目标特征信息。

这里，文档解析网络的模型单元还可以包括任务特征提取层，上述从目标融合信息中提取目标特征信息的步骤可以是任务特征提取层执行的。

步骤二、基于目标特征信息，确定待处理文档对应的文档解析结果。

具体实施时，任务特征提取层可以根据确定的目标特征信息，确定待处理文档对应的文档特征信息，并基于该文档特征信息进行解析，确定待处理文档对应的文档解析结果。

在一种实施例中，预设模态包括文本信息模态、文档结构模态和图像信息模态中的至少一项。

其中，文本信息模态为用于提取待处理文档中包括的文本信息的模态，文档结构模态为用于确定待处理文档对应的文档结构的模态，图像信息模态为用于提取待处理文档对应图像的图像信息的模态。

进而，初始特征信息可以包括与文本信息模态对应的文本信息、与文档结构模态对应的文本检测框信息和与图像信息模态对应的图像信息中的至少一项。

其中，文本信息可以包括待处理文档对应的文本的语义信息。文本检测框信息为对待处理文档进行识别后确定的文本检测框对应的信息。其中，文本检测框对应的信息可以包括文本检测框的属性信息，属性信息可以根据文本检测框中的文本信息确定。例如，例如，文本检测框中的文本信息为XX街道XX社区X单元，则可以确定文本信息为地址信息，则文本检测框对应的属性信息可以为地址属性，又例如，文本检测框中的文本信息为李XX，则可以确定文本信息为姓名信息，即李XX为姓名信息，则文本检测框对应的属性信息可以为姓名属性，即李XX所在文本检测框对应的属性信息为姓名属性。

图像信息可以包括待处理文档对应的图像中的文字信息、图画信息、版面信息、子图像信息等。

针对S101，可以分别按照以下步骤分别确定每个预设模态对应的初始特征信息。

针对文档结构模态，可以先对待处理文档进行识别，确定待处理文档对应的文本检测框，然后可以基于每个文本检测框对应的文字信息等，确定待处理文档对应的文本检测框信息。文本检测框信息可以包括文本检测框的位置信息、大小信息等。

针对文本信息模态，可以在确定每个文本检测框之后，对每个文本检测框进行文字识别，例如，使用OCR技术对文本检测框中的文字进行识别，并利用NLP技术对确定的文字进行处理，确定出每个文本检测框对应的文本信息，进而，可以将每个文本检测框对应的文本信息作为待处理文档对应的文本信息。

针对图像信息模态，可以对待处理文档对应的图像进行图像识别，确定图像中的文字信息、图画信息、版面信息、字图像信息等，进而，可以将确定的上述信息作为图像信息模态对应的图像信息。

在一种实施例中，文本检测框对应的信息包括文本检测框的坐标信息。

这里，坐标信息能够表征每个文本检测框对应在待处理文档中的位置。

具体实施时，在确定每个文本检测框对应的坐标信息之后，可以根据每个文本检测框的坐标信息和以及每个文本检测框的检测框大小，确定待处理文档对应的结构特征信息。

在一种实施例中，针对S103，可以按照以下步骤确定目标融合信息：

步骤一、对初始特征信息进行预处理，得到子词级别的第一特征序列。

本步骤中，在获取待处理文档对应的初始特征信息之后，可以先对初始特征信息进行预处理，具体的，即对初始特征信息进行单词(或是单字)级别的特征信息的拆分。进而，可以将拆分得到的单词(或是单字)级别的特征信息组成子词级别的第一特征序列。

这样，可以将初始特征信息处理成文档解析网络能够支持的子词级别的第一特征序列，也即，将初始特征信息处理成单词(或是单字)级别的特征序列。

步骤二、对结构特征信息进行预处理，得到子词级别的第二特征序列。

这里，同样可以对结构特征信息进行单词(或是单字)级别的特征信息的拆分，将拆分得到的单词(或是单字)级别的特征信息组成子词级别的第二特征序列。

步骤三、对第一特征序列和第二特征序列进行融合，得到目标融合信息。

具体实施时，在得到第一特征序列和第二特征序列之后，可以对每个特征序列中的单词(或是单字)级别的特征信息进行关联程度的匹配，将关联程度较高的特征信息融合在一起，进而，可以得到目标融合信息。

或者，在得到第一特征序列和第二特征序列之后，可以对每个特征序列中的单词(或是单字)级别的特征信息进行特征对齐，将可对齐的特征信息进行融合，得到目标融合信息。

另外，由上述各实施例可知，本公开实施例所提供的文档解析方法为利用预先训练好的文档解析网络执行的，所以本公开实施例还包括对文档解析网络进行训练的方法，如图2所示，为本公开实施例所提供的一种对文档解析网络进行训练的方法的流程图，可以包括以下步骤：

S201：基于网络配置参数，构建待训练的文档解析网络。

这里，网络配置参数可以是用户指定的用于构建文档解析网络的参数。

由于本公开实施例所提供的文档解析网络是基于多模态框架构建的，具体的，文中以MUST为例作为多模态框架的一种具体实现来说明。其中，多模态框架可以包括四部分，数据集单元、模型单元、训练单元、预测单元。具体的，构建的文档解析网络也可以包括上述四部分。

其中，模型单元可以读入用户指定的网络配置参数，根据网络配置参数构建待训练的文档解析网络。

如图3所示，为本公开实施例所提供的一种利用多模态框架构建文档解析网络并进行训练的示意图。

具体实施时，可以按照以下步骤构建待训练的文档解析网络：

步骤一、获取文档解析任务对应的配置文件。

这里，配置文件可以为用户确定的用于配置文档解析网络的文件，不同的文档解析网络对应于不同的配置文件，其中，配置文件可以包括网络参数配置信息、网络结构配置信息、网络规模配置信息等。

具体实施时，当用户存在构建用于执行任一文档解析任务对应的文档解析网络的需求的情况下，可以先确定该文档解析网络对应的配置文件，然后可以将该配置文件输入图3所示的模型单元。

步骤二、对配置文件进行解析，得到网络配置参数。

其中，网络配置参数包括文档解析网络的规模信息、文档解析网络的参数信息、文档解析网络的网络结构信息中的至少一项。

具体实施时，可以对获取的配置文件进行解析，根据配置文件中的网络参数配置信息，确定文档解析网络对应的参数信息，例如，确定文档解析网络的超参数、可调参数的初始值等。

根据网络结构配置信息，可以确定文档解析网络的网络结构信息，例如，文档解析网络的网络层数，内部结构，每个网络层之前的连接关系等。根据网络规模配置信息，可以确定文档解析网络对应的网络大小。

步骤三、基于网络配置参数，构建待训练的文档解析网络。

本步骤中，在获取到网络配置参数之后，模型单元可以根据确定的网络配置参数，利用多模态融合方法，构建待训练的文档解析网络。

S202：将多个训练样本输入待训练的文档解析网络，利用待训练的文档解析网络分别对多个训练样本进行处理，得到与多个训练样本中每个样本对应的预测解析结果。

这里，训练样本可以为各种结构化的样本文档对应的图像。

具体实施时，可以将多个训练样本输入待训练的文档解析网络，待训练的文档解析网络对应的数据集单元(参照图3所示的数据集单元)可以针对每个训练样本，确定该训练样本对应的样本数据，其中，样本数据的数据类型可以包括文本信息、文本检测框信息、图像信息、数据标注信息等，其中，数据标注信息可以为文本检测框的属性信息对应的标注信息。

进而，数据集单元可以对获取的样本数据进行预处理，得到子词级别的特征序列。

然后，可以将子词级别的特征序列输入待训练的文档解析网络，利用待训练的文档解析网络分别对多个训练样本对应的子词级别的特征序列进行处理，分别确定出每个训练样本对应的预测文本信息、预测文本检测框信息、预测图像信息，并且其作为每个样本对应的预测解析结果。

S203：基于预测解析结果和与预测解析结果指向的训练样本对应的标准解析结果，对待训练的文档解析网络进行训练，直到满足训练截止条件，得到训练好的文档解析网络。

这里，标准解析结果可以包括每个训练样本对应的标准文本信息、标准文本检测框信息、标准图像信息，为提前对训练样本进行预识别确定的。训练截止条件可以包括迭代次数达到预设阈值、训练得到的文档解析网络的预测精准度达到预设精度等。如图4所示，为本公开实施例所提供的一种确定训练好的文档解析网络的流程示意图。

具体实施时，可以利用每个训练样本对应的标准文本信息、标准文本检测框信息、标准图像信息以及每个训练样本对应的预测文本信息、预测文本检测框信息、预测图像信息，构建解析预测损失，然后基于构建的解析预测损失，对待训练的文档解析网络进行迭代训练，直到满足训练截止条件，将此时训练完成的文档解析网络作为训练好的文档解析网络。其中，每个训练样本对应的标准文本信息、标准文本检测框信息可以分别为如图4所示经过预识别得到的文本信息、文本检测框信息。

并且，标准文本检测框信息可以包括标准文本检测框的属性信息对应的标准标注信息，预测文本检测框信息可以包括预测文本检测框的属性信息对应的预测标注信息，在具体训练时，还可以根据标准标注信息和预测标注信息，构建关于预测文本检测框的属性信息的损失，并将其作为解析预测损失对待训练的文档解析网络进行迭代训练。

另外，用于训练的多个训练样本可以组成用于对待训练的文档解析网络进行训练的训练集数据、验证集数据以及测试集数据。具体的，数据集单元可以读取训练集数据、验证集数据以及测试集数据，然后分别对训练集数据、验证集数据以及测试集数据进行预处理，然后，基于预处理后的训练集数据、验证集数据以及测试集数据，对待训练的文档解析网络进行迭代训练。

在一种实施例中，多个训练样本可以包括不同语言对应的文档样本。

并且，文档解析网络对应的训练单元中可以包括训练优化器、学习率调整器、训练控制器。其中，训练优化器可以用于对待训练的文档解析网络进行梯度回传，以及对待训练的文档解析网络的网络参数进行更新，学习率调整器可以用于对待训练的文档解析网络进行模型梯度更新的步长控制，训练控制器包括多个部分可实现多项功能，比如，包括logging模块，此外，还可以实现诸如对待训练的文档解析网络进行训练参数存储、网络训练的早停(early stopping)控制以及验证集评估频率控制等功能。由于在训练过程中需要阶段性的使用验证集进行验证，因此，验证集评估频率指的是，在训练过程中使用验证集进行验证的频率，也就是用于指示在训练一定轮次后进行一次验证。

此外，文档解析网络对应的预测单元可以用于负责进行文档解析网络的验证集合评估，以及验证文档解析网络的收敛情况，同时还可以负责测试文档解析网络的性能呈现，具体的，可以利用文档解析网络对应的预测单元确定训练样本对应的预测解析结果，然后利用训练单元基于预测解析结果和标准解析结果，对待训练的文档解析网络进行迭代训练，以得到训练好的文档解析网络。并且，预测单元中还可以包括用于对训练单元输出的预测解析结果进行统一格式化处理，以及对预测解析结果进行数据包装的后处理单元。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与文档解析方法对应的文档解析装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述文档解析方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

如图5所示，为本公开实施例提供的一种文档解析装置的示意图，包括：

第一确定模块501，用于基于获取的待处理文档，确定所述待处理文档与多个预设模态中每个预设模态对应的初始特征信息；

第二确定模块502，用于基于所述初始特征信息，确定所述待处理文档对应的结构特征信息；

融合模块503，用于对所述初始特征信息和所述结构特征信息进行融合，得到目标融合信息；

第三确定模块504，用于基于所述目标融合信息，确定所述待处理文档对应的文档解析结果。

在一种可能的实施方式中，所述第三确定模块504，用于对所述目标融合信息进行特征提取，得到与文档解析任务对应的目标特征信息；

所述第一确定模块501，用于对所述待处理文档进行识别，得到文本检测框信息；其中，所述文本检测框信息包括至少一个文本检测框对应的信息；

所述第二确定模块502，用于基于所述至少一个文本检测框中的每个文本检测框的坐标信息，确定所述待处理文档对应的结构特征信息。

在一种可能的实施方式中，所述融合模块503，用于对所述初始特征信息进行预处理，得到子词级别的第一特征序列；

在一种可能的实施方式中，所述文档解析装置为利用预先训练好的文档解析网络执行的，所述装置还包括训练模块505，用于按照以下步骤进行训练：

基于网络配置参数，构建待训练的文档解析网络；

在一种可能的实施方式中，所述训练模块505，用于获取文档解析任务对应的配置文件；

基于所述网络配置参数，构建待训练的所述文档解析网络。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例还提供了一种计算机设备，如图6所示，为本公开实施例提供的一种计算机设备结构示意图，包括：

处理器61和存储器62；所述存储器62存储有处理器61可执行的机器可读指令，处理器61用于执行存储器62中存储的机器可读指令，所述机器可读指令被处理器61执行时，处理器61执行下述步骤：S101：基于获取的待处理文档，确定待处理文档与多个预设模态中每个预设模态对应的初始特征信息；S102：基于初始特征信息，确定待处理文档对应的结构特征信息；S103：对初始特征信息和结构特征信息进行融合，得到目标融合信息以及S104：基于目标融合信息，确定待处理文档对应的文档解析结果。

上述存储器62包括内存621和外部存储器622；这里的内存621也称内存储器，用于暂时存放处理器61中的运算数据，以及与硬盘等外部存储器622交换的数据，处理器61通过内存621与外部存储器622进行数据交

上述指令的具体执行过程可以参考本公开实施例中所述的文档解析方法的步骤，此处不再赘述。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的文档解析方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的文档解析方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的文档解析方法的步骤，具体可参见上述方法实施例，在此不再赘述。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文档解析方法，其特征在于，包括：

基于获取的待处理文档，确定所述待处理文档与多个预设模态中每个预设模态对应的初始特征信息；所述预设模态包括文本信息模态、文档结构模态和图像信息模态；所述初始特征信息包括与文本信息模态对应的文本信息、与所述文档结构模态对应的文本检测框信息和与所述图像信息模态对应的图像信息；所述图像信息至少包括版面信息；所述文本检测框信息包括至少一个文本检测框对应的信息；所述文本检测框对应的信息包括所述文本检测框对应的属性信息；

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标融合信息，确定所述待处理文档对应的文档解析结果，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述基于获取的待处理文档，确定所述待处理文档与多个预设模态中每个预设模态对应的初始特征信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述文本检测框对应的信息包括所述文本检测框的坐标信息；

5.根据权利要求1所述的方法，其特征在于，所述对所述初始特征信息和所述结构特征信息进行融合，得到目标融合信息，包括：

6.根据权利要求2所述的方法，其特征在于，所述文档解析任务包括以下至少一项：

7.根据权利要求1所述的方法，其特征在于，所述文档解析方法为利用预先训练好的文档解析网络执行的，所述文档解析网络的训练步骤，包括：

基于网络配置参数，构建待训练的文档解析网络；

8.根据权利要求7所述的方法，其特征在于，所述基于网络配置参数，构建待训练的文档解析网络，包括：

获取文档解析任务对应的配置文件；

基于所述网络配置参数，构建待训练的所述文档解析网络。

9.根据权利要求7所述的方法，其特征在于，所述多个训练样本包括不同语言对应的文档样本。

10.一种文档解析装置，其特征在于，包括：

第一确定模块，用于基于获取的待处理文档，确定所述待处理文档与多个预设模态中每个预设模态对应的初始特征信息；所述预设模态包括文本信息模态、文档结构模态和图像信息模态；所述初始特征信息包括与文本信息模态对应的文本信息、与所述文档结构模态对应的文本检测框信息和与所述图像信息模态对应的图像信息；所述图像信息至少包括版面信息；所述文本检测框信息包括至少一个文本检测框对应的信息；所述文本检测框对应的信息包括所述文本检测框对应的属性信息；

11.一种计算机设备，其特征在于，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述处理器执行如权利要求1至9任意一项所述的文档解析方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被计算机设备运行时，所述计算机设备执行如权利要求1至9任意一项所述的文档解析方法的步骤。