CN115130435B

CN115130435B - 文档处理方法、装置、电子设备和存储介质

Info

Publication number: CN115130435B
Application number: CN202210745128.5A
Authority: CN
Inventors: 王建华; 冯知凡; 陆超; 柴春光; 杨宝山; 唐碧虹
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2023-08-11
Anticipated expiration: 2042-06-27
Also published as: CN115130435A

Abstract

本公开提供了一种文档处理方法、装置、电子设备和存储介质，涉及人工智能领域，具体涉及知识图谱、自然语言处理和深度学习等技术领域。文档处理方法的具体实现方案为：解析待处理文档，得到待处理文档中内容块的特征信息；特征信息包括内容块在待处理文档中的布局信息和文档内容；根据特征信息对内容块进行调整，得到调整后内容块及针对调整后内容块的逻辑顺序；根据调整后内容块的特征信息和逻辑顺序，确定针对调整后内容块的层级信息；以及根据层级信息和调整后内容块的特征信息对调整后内容块进行语义理解，得到调整后内容块的知识数据。

Description

文档处理方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能领域，具体涉及知识图谱、自然语言处理和深度学习技术领域，尤其涉及一种文档处理方法、装置、电子设备和存储介质。

背景技术

随着计算机技术和网络技术的发展，深度学习技术在众多领域得到了广泛应用。例如，可以采用深度学习技术识别文档，并从文档中提取知识。但文档格式布局多样，文档中知识的提取过程通常无法对文档进行整体理解与组织。

发明内容

本公开旨在提供一种提高鲁棒性和知识抽取准确性的文档处理方法、装置、电子设备和存储介质。

根据本公开的一个方面，提供了一种文档处理方法，包括：解析待处理文档，得到待处理文档中内容块的特征信息；特征信息包括文档块在待处理文档中的布局信息和文档内容；根据特征信息对内容块进行调整，得到调整后内容块及针对调整后内容块的逻辑顺序；根据调整后内容块的特征信息和逻辑顺序，确定针对调整后内容块的层级信息；以及根据层级信息和调整后内容块的特征信息对调整后内容块进行语义理解，得到调整后内容块的知识数据。

根据本公开的另一个方面，提供了一种文档处理装置，包括：文档解析模块，用于解析待处理文档，得到待处理文档中内容块的特征信息；特征信息包括文档块在待处理文档中的布局信息和文档内容；内容块调整模块，用于根据特征信息对内容块进行调整，得到调整后内容块及针对调整后内容块的逻辑顺序；层级确定模块，用于根据调整后内容块的特征信息和逻辑顺序，确定针对调整后内容块的层级信息；以及语义理解模块，用于根据层级信息和调整后内容块的特征信息对调整后内容块进行语义理解，得到调整后内容块的知识数据。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的文档处理方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的文档处理方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现本公开提供的文档处理方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的文档处理方法和装置的应用场景示意图；

图2是根据本公开实施例的文档处理方法的流程示意图；

图3是根据本公开实施例的解析待处理文档的原理示意图；

图4是根据本公开实施例的调整内容块及确定逻辑顺序的原理示意图；

图5是根据本公开实施例的确定调整后内容块的层级信息的原理示意图；

图6是根据本公开实施例的对文档进行语义理解以得到知识数据的原理示意图；

图7是根据本公开实施例的得到的针对待处理文档的表达信息的示意图；

图8是根据本公开实施例的对表达信息进行操作的操作树结构图；

图9是根据本公开实施例的文档处理装置的结构框图；以及

图10是用来实施本公开实施例的文档处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

随着数字化程度逐步提高，生产的文档数据(例如采购单据、商务附件、销售合同、雇佣协议、商业发票、个人简历)等呈指数增长。该些文档数据中蕴含了大量有效的知识数据。

考虑到文档数据的布局复杂多样且包括的数据模态多样，可以针对特定的场景开发文档分析工具，以此降低知识数据抽取的难度，降低耗费的资源。通常文档分析工具的定制化程度高，交付成本高。

基于此，本公开旨在提供一种具有较高鲁棒性且能够提高知识抽取准确性的文档处理方法、装置、电子设备和存储介质。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的文档处理方法和装置的应用场景示意图。

如图1所示，该实施例的应用场景100可以包括电子设备110，该电子设备110可以为具有处理功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。

该电子设备110例如可以对文档120进行处理，以抽取文档120中的知识，得到知识数据130。其中，文档120例如可以为电子文档，该电子文档例如可以包括针对文本所采集的.GIFf或.jpg等格式的图像，也可以为.pdf、.doc、.wps或.txt等格式的文档。文档120可以为通过对纸质文件进行扫描或拍照得到的电子文档，也可以为响应于用户操作生成的电子文档，本公开对此不做限定。

根据本公开的实施例，电子设备110例如可以先采用文档解析工具获取文档120的文本信息，随后对文本信息按照逻辑顺序进行段落组织，并根据组织后的段落来抽取知识。其中，文档解析工具例如可以基于光学字符识别技术(Optical Character Recognition，OCR)等构建得到。例如，该文档解析工具可以根据文档120的格式来确定，例如可以包括PDFParser、Image OCR等，本公开对此不做限定。

根据本公开的实施例，电子设备110例如可以采用深度学习模型来对组织后的段落进行处理，以抽取段落中的知识。其中，深度学习模型例如可以为RNN、图神经网络，或者基于预训练模型(例如，文心模型(Enhanced Representation through KnowledgeIntegration，ERNIE)进行下游任务微调后所得到的模型、)等，本公开对此不做限定。

在一实施例中，该应用场景100还可以包括服务器140，电子设备110可以通过网络与服务器140通信连接。其中，网络例如可以包括有线或无线通信链路等。服务器140例如可以根据公开数据集对用于处理段落的深度学习模型进行训练，并响应于电子设备110的获取请求，将训练得到的满足精度需求的深度学习模型150发送给电子设备110。

在一实施例中，电子设备110可以安装有各种客户端应用，例如即时通信类应用、文档处理类应用、文档编辑类应用等。服务器140例如可以为向电子设备110中安装的客户端应用的运行提供支持的后台管理服务器等，本公开对此不做限定。

在一实施例中，电子设备110也可以将文档120发送给服务器140，由服务器140采用训练得到的满足精度需求的深度学习模型150来对解析文档120得到的组织后的段落进行处理，从而抽取得到文档120的知识数据130。

需要说明的是，本公开提供的文档处理方法可以由电子设备110或者服务器140执行。相应地，本公开提供的文档处理装置可以设置在电子设备110中，或者可以设置在服务器140中。

应该理解，图1中的电子设备110和服务器140的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的电子设备110和服务器140。

以下将结合图2～图8对本公开提供的文档处理方法进行详细描述。

图2是根据本公开实施例的文档处理方法的流程示意图。

如图2所示，该实施例的文档处理方法200可以包括操作S210～操作S240。

在操作S210，解析待处理文档，得到待处理文档中内容块的特征信息。

根据本公开的实施例，特征信息至少包括内容块在待处理文档中的布局信息和内容块的文档内容。其中，内容块可以是通过解析待处理文档得到的。例如，该实施例可以将待处理文档输入文档解析工具，由文档解析工具得到多个文本框、多个文本框在文档中的位置信息及每个文本框中的文档内容。其中，每个文本框所包围区域的文档为一个内容块，可以采用每个文本框在文档中的位置信息来表示内容块在文档中的布局信息。

其中，文档解析工具例如可以为上文描述的PDF Parser、Image OCR等。其中，每个内容块的文档内容可以包括段落文本、表单数据、图表数据等。

在一实施例中，可以采用布局解析器(layout parser)获得待处理文档中的内容块及布局信息，采用OCR识别得到内容块的文档内容。可以理解的是，在得到多个内容块后，该实施例可以根据多个内容块的布局信息，将多个内容块排成内容块序列。例如，若布局信息中包括左右分栏信息，则可以将多个内容块自左至右、自上至下的排列，得到内容块序列。

在操作S220，根据特征信息对内容块进行调整，得到调整后内容块及针对调整后内容块的逻辑顺序。

根据本公开的实施例，例如可以根据内容块的文档内容，确定每个内容块的起始位置的字符之前是否有缩进。若某个内容块没有缩进，则可以将内容块序列中位于该某个内容块之前的内容块与该某个内容块进行合并，实现内容块的调整。或者，可以确定每个内容块的最后位置的字符是否为表示终止的字符(例如句号等)。若某个内容块的最后位置的字符不是表示终止的字符，则可以将内容块序列中位于该某个内容块之后的内容块与该某个内容块进行合并，实现对内容块的调整。或者，可以确定每个内容块是否为完整的语义单元(例如是否为完整的段落、完整的表格等中的一种)，若不是，则需要将属于同一个完整语义单元的多个内容块进行语义合并。

根据本公开的实施例，可以采用序列标注技术，根据内容块的文档内容的嵌入表示对内容块进行标注，标注内容可以包括段落的起始块、段落的终止块、表格的起始块、表格的终止块、图像的起始块、图像的终止块等。随后，该实施例可以将内容块序列中位置最为接近、且分别标注了段落的起始块和段落的终止块的两个内容块及该内容块序列中该两个内容块之间的内容块合并为一个内容块，从而实现对内容块的调整。

例如，序列标注技术例如还可以标注出文档内容为页眉的页眉文本块、文档内容为页脚的页脚文本块等。该实施例可以将页眉文本块、页脚文本块等不包含知识数据的文本块剔除，从而实现对内容块的调整。

在得到调整后内容块后，该实施例可以根据对内容块的调整来调整内容块序列，得到新的内容块序列。可以将该新的内容块序列中内容块的排列顺序作为调整后内容块的逻辑顺序。

在一实施例中，逻辑顺序例如可以是通过对调整后内容块的文档内容进行语义理解，确定的语义顺序。例如，若根据语义理解确定调整后内容块中其中一个内容块的文档内容为另一内容块的文档内容的上文内容，则其中一个内容块的逻辑顺序应位于另一内容块之前。

在操作S230，根据调整后内容块的特征信息和逻辑顺序，确定针对调整后内容块的层级信息。

若调整后内容块由操作S210解析得到的两个内容块合并得到，则该实施例可以将两个内容块的特征信息拼接，从而得到调整后内容块的特征信息。该实施例可以根据调整后内容块的文档内容中的标题，并结合逻辑顺序，来确定层级信息。

例如，若根据逻辑顺序确定排在第一位的内容块中包括一级标题，排在第四位的内容块中包括一级标题，则该实施例可以将排在第一位的内容块作为第一级的第一父节点，将排在第二位的内容块和排在第三位的内容块作为该第一父节点的子节点。同时，将排在第四位的内容块作为第一级的第二父节点。基于类似的原理，可以得到调整后内容块中各内容块彼此之间的父子关系，将得到的节点层级作为针对调整后内容块的层级信息。

在操作S240，根据层级信息和调整后内容块的特征信息对调整后内容块进行语义理解，得到调整后内容块的知识数据。

根据本公开的实施例，在抽取每个调整后内容块的知识数据时，可以先确定层级信息中每个调整后内容块所在节点的父节点，随后根据该父节点表示的调整后内容块的特征信息和该每个调整后内容块的特征信息，来抽取该每个调整后内容块的知识数据。

其中，可以根据抽取的知识数据的类型，选择相应地深度学习模型来对调整后内容块进行语义理解。例如可以采用信息抽取(Information Extraction，IE)模型，根据父节点表示的调整后内容块的特征信息和该每个调整后内容块的特征信息对该每个调整后内容块进行语义理解，从而抽取得到知识数据。该知识数据可以包括调整后内容块中的实体、实体的属性信息、实体之间的关联关系、事件及事件的论元等。其中，信息抽取模型例如可以包括基于转换器的双向编码表达模型(Bidirectional Encoder Representations fromTransformer，BERT)或文心模型等，本公开对此不做限定。

在一实施例中，在对每个调整后内容块进行语义理解时，例如还可以考虑每个调整后内容块所在节点的子节点表示的调整后内容块的特征信息，也可以考虑每个调整后内容块所在节点的同胞节点所表示的调整后内容块的特征信息。其中，同胞节点是指与某个节点位于同一级，且与该某个节点具有相同的父节点的节点。

在一实施例中，还可以针对不同层级节点所表示的调整后内容块的特征信息进行抽取，并根据调整后内容块的文档内容与抽取得到的知识数据的相关性赋予权重。最后，汇集抽取得到的所有知识数据，根据权重和权重阈值对抽取得到的知识数据进行筛选，将筛选得到的知识数据作为待处理文档的知识数据。其中，若调整后内容块的文档内容与抽取到的知识数据的相关性越高，则可以为抽取得到的知识数据赋予较高的权重。

本公开实施例通过考虑内容块的特征信息及该内容块的层级信息，可以在抽取知识数据时对文档进行整体理解，利于提高抽取得到的知识数据的精度。再者，由于层级信息是根据对解析得到的内容块进行调整所得到的调整后内容块及逻辑顺序确定的，可以使得层级信息的确定考虑了解析得到的内容块之间的关联关系，并因此使得本公开实施例的方法可以兼容多种布局的文档，从而可以降低定制化程度，降低知识抽取的成本。

图3是根据本公开实施例的解析待处理文档的原理示意图。

根据本公开的实施例，例如可以采用TextMind平台提供的文档解析器DocumentParser来对待处理文档进行解析。该Document Parser可以根据文档中文字、图片和表格等的空间分布，将文档按照布局分解成不同的部分，从而得到待处理文档中文本块的布局信息。在得到该布局信息后，例如可以基于OCR技术识别得到每个文本块的文档内容。

如图3所示，该实施例300可以将待处理文档310输入至Document Parser 320中，由Document Parser 320处理后得到待处理文档中内容块的布局信息330。例如，待处理文档310可以包括内容块331、内容块332和内容块333。内容块331为文本内容块，内容块332为表格内容块，内容块333为图片内容块。

该实施例通过采用Document Parser来解析待处理文档，可以对复杂布局的文档进行准确解析，利于进一步提高本公开提供的文档处理方法的鲁棒性。

图4是根据本公开实施例的调整内容块及确定逻辑顺序的原理示意图。

根据本公开的实施例，在调整内容块及确定逻辑顺序时，例如还可以考虑内容块的图像信息，以此对内容块进行更为精准的理解，提高调整精度和确定的逻辑顺序的准确性。即，根据内容块的特征信息和内容块的图像信息对内容块进行调整。

其中，内容块的图像信息可以为待处理文档中内容块对应区域的图像。该实施例可以根据内容块的文档内容、内容块的图像和内容块在待处理文档中的布局信息，生成内容块的多模融合特征。例如，该实施例可以对内容块的文档内容进行嵌入表示，得到文本嵌入特征，同时可以对内容块的图像进行嵌入表示，得到图像嵌入特征。随后，拼接文本嵌入特征和图像嵌入特征，得到内容块的融合特征。随后根据融合特征来调整内容块，并确定调整后内容块的逻辑顺序。

例如，可以根据融合特征来确定内容块的标注信息，该标注信息指示内容块针对目标对象的首尾信息。其中，目标对象例如可以包括段落、表格、浮动图片、内容栏等。例如可以采用上文描述的序列标注模型来确定内容块的标注信息。例如，内容块为多个，该实施例可以将多个内容块的融合特征以特征序列的形式输入序列标注模型，由序列标注模型输出标注序列。可以理解的是，针对一个内容块，可以得到多个标注。例如，某个内容块既可以为段落的起始块，也可以为内容栏的起始块。相应地，序列标注模型例如可以采用基于BERT提取特征，基于头实体标注器和多个尾实体标注器来标注目标对象的首尾信息。其中，一个尾实体标注器可以对应一个类别的目标对象。

在得到目标对象的首尾信息后，该实施例可以将目标对象的起始块、目标对象的终止块及根据布局信息确定的位于该起始块和终止块之间的内容块合并，从而实现对内容块的调整。

在一实施例中，可以采用注意力机制来融合文本嵌入特征和图像嵌入特征，以此更好的融合不同模态的特征。

示例性地，如图4所示，该实施例400可以对多个内容块中每个内容块的文档内容进行嵌入表示，得到文本嵌入表示序列410。设定解析得到的内容块为5个，则文本嵌入表示序列410中可以包括文本嵌入表示T1～T5。例如，可以对多个内容块的文档内容进行Word2Vec编码，得到多个文本编码特征，该多个文本编码特征可以构成特征序列。随后，该实施例可以将特征序列输入BERT中，将BERT输出的特征序列作为文本嵌入表示序列410。

同时，该实施例还可以对多个内容块的多个图像信息进行嵌入表示，得到图像嵌入表示序列420。设定解析得到的内容块为5个，则图像嵌入表示序列420中可以包括图像嵌入表示F1～F5。例如，该实施例可以将多个图像信息分别输入到图像特征提取模型，将图像特征提取模型输出的多个特征图所构成的特征图序列作为图像嵌入表示序列420。其中，图像特征提取模型例如可以包括深度卷积神经网络等，例如可以采用Faster-RCNN网络、VGG网络等。

在一实施例中，可以采用多模态预训练模型(例如文心布局(Ernie-Layout)模型)430来对图像嵌入表示和文本嵌入表示进行融合。在得到图像嵌入表示序列420和文本嵌入表示序列410后，该实施例还可以对内容块在待处理文档中的布局信息进行编码，将编码得到的特征融合至文本嵌入表示序列410和图像嵌入表示序列420，从而得到文心布局模型430的输入数据。具体可以对内容块在待处理文档中的左上角的坐标值、右下角的坐标值、内容块的宽度和高度进行编码。例如，对布局信息进行编码可以得到布局嵌入表示序列，该实施例可以将布局嵌入表示序列中的各个布局嵌入表示与至文本嵌入表示序列中的对应文本嵌入表示拼接，得到融合了布局信息的文本嵌入表示序列。类似地，可以得到融合了布局信息的图像嵌入表示序列。将融合了布局信息的文本嵌入表示序列和图像嵌入表示序列输入文心布局模型430中，文心布局模型可以输出融合后的特征序列440，该融合后的特征序列440中的多个特征与多个内容块一一对应。例如，融合后的特征序列440中包括第一融合特征M1～M5。

可以理解的是，输入文心布局模型的文本嵌入表示T1和图像嵌入表示F1可以构成多个内容块中第一个内容块的嵌入特征，文本嵌入表示T2和图像嵌入表示F2可以构成多个内容块中第二个内容块的嵌入特征。若将各文本块的嵌入特征依次排列，可以得到多个嵌入特征构成的特征序列。

可以理解的是，除了采用文心布局模型外，还可以采用文心模型等基于文心模型构建的任意神经网络模型，来得到内容块的第一融合特征，也可以采用通用的视觉-语言预训练模型VL-BERT(Visual-Linguistic BERT)等多模态预训练模型来得到内容块的第一融合特征。通过采用多模态预训练模型，尤其是文心模型，可以实现对视觉和文字形态的语义对应关系的细粒度构建，可以提高得到的融合特征的表达能力，利于提高内容块调整的精度。

在一实施例中，在得到文本块的第一融合特征后，例如可以采用基于Transformer的编码器构建的序列标注模型450来对文本块进行标注。例如，该实施例可以将得到的融合后的特征序列440输入序列标注模型中，由序列标注模型输出标注序列。例如，该序列标注模型输出的标注序列可以由针对目标对象的起始位置的二分类序列461及针对目标对象的终止位置的二分类序列462来表示。例如，若二分类序列461为{1，0，0，1，0}，则可以确定解析得到的五个内容块中，第一个内容块和第四个内容块的标注信息包括指示起始块的标注信息。若二分类序列462为{0，0，1，0，1}，则可以确定第三个内容块和第五个内容块的标注信息包括指示终止块的标注信息。可以理解的是，序列标注模型可以由Transformer的编码器和条件随机场构建得到，本公开对此不做限定。

在得到标注信息后，该实施例400可以将第一个内容块、第二个内容块和第三内容块合并为一个内容块，得到调整后内容块T1_ad 471，将第四个内容块和第五个内容块合并为一个内容块，得到调整后内容块T2_ad 472。相应地，可以确定调整后内容块T1_ad 471的融合特征为将M1、M2和M3依次拼接后所得到的特征481，调整后内容块T2_ad 472的融合特征为将M4和M5拼接后所得到的特征482。

在一实施例中，可以采用注意力机制490来确定调整后内容块的逻辑顺序4100。如此，可以提高得到的逻辑顺序的精度，可以使得逻辑顺序的确定能够充分考虑调整后内容块之间的关联关系，利于对待处理文档进行整体理解。

例如，可以采用训练文心布局模型时的预训练任务来对逻辑顺序进行预测。其中，预训练任务可以包括逻辑顺序预测任务。该逻辑顺序预测任务可以理解为对文档块的符合逻辑的阅读顺序进行预测的任务，也可以称为阅读顺序预测任务(Reading OrderPrediction，ROP)。

具体地，该实施例可以采用注意力机制对多个调整后内容块的融合特征进行处理，从而得到每个调整后内容块与其他调整后内容块的关联关系。例如，该关联关系可以采用每个调整后内容块针对其他调整后内容块的概率表示，该概率表示在逻辑顺序上该每个调整后内容块为其他调整后内容块的下一内容块的概率。随后根据概率来确定多个调整后内容块的逻辑顺序。可以理解的是，上述采用概率表示关联关系的方法及概率表示的含义仅作为示例以利于理解本公开，本公开对此不做限定。

例如，注意力机制例如可以为vanilla self-attention机制。由该注意力机制计算token级别的注意力矩阵，注意力矩阵中第i行第j列元素的取值表示在逻辑顺序上多个调整后内容块中第i个内容块为第j个内容块的下一内容块的概率。

图5是根据本公开实施例的确定调整后内容块的层级信息的原理示意图。

根据本公开的实施例，可以采用图神经网络来预测多个调整后内容块彼此之间的关联关系，并根据该关联关系来确定内容块的层级信息。如此，可以充分考虑调整后内容块之前的关联关系，利于提高确定的层级信息的精度。

例如，如图5所示，该实施例500可以将每个调整后内容块的特征信息的嵌入表示作为初始结构图中一个顶点的属性信息，得到初始结构图中的多个顶点的属性信息，并针对该多个顶点将随机生成初始邻接矩阵。例如，设定调整后内容块为5个，则可以得到五个顶点的属性信息A_1、A_2、A_3、A_4和A_5，生成的初始邻接矩阵520为5行5列的矩阵。随后将该多个顶点的属性信息按多个调整后内容块的逻辑顺序排列，得到属性信息序列510。该属性信息序列510和初始邻接矩阵520可以表示初始结构图。该实施例可以采用图神经网络530(Graph Neural Network，GNN)对该初始结构图进行处理，输出重构的结构图的邻接矩阵540。根据该邻接矩阵540表示的多个调整后内容块彼此之间的关联关系，即可得到多个调整后内容块的层级信息。例如，根据该邻接矩阵540和属性信息序列510可以得到重构后的结构图。可以理解的是，邻接矩阵中的第i行第j列元素的取值例如可以表示多个调整后内容块中第i个调整后内容块与第j个调整后内容块之间的关联关系。

在一实施例中，在生成初始结构图时，还可以考虑内容块的图像信息。以此提高顶点的属性信息的表达能力，利于提高预测得到的邻接矩阵的精度。

例如，该实施例可以针对每个调整后内容块，根据每个调整后内容块的特征信息和该每个调整后内容块的图像信息，来确定该每个调整后内容块的融合特征。随后，采用该融合特征作为初始结构图中顶点的属性信息，结合逻辑顺序和初始邻接矩阵生成初始结构图。通过采用图神经网络对该初始结构图进行处理，可以得到调整后内容块的层级信息。可以理解的是，该每个调整后内容块的融合特征例如可以为上文描述的确定逻辑顺序时所依据的调整后内容块的融合特征。

根据本公开的实施例，在对文档进行语义理解时，例如可以先根据层级信息，确定多个调整后内容块中与每个调整后内容块关联的内容块，作为关联内容块。随后根据关联内容块的特征信息和该每个调整后内容块的特征信息，来确定每个调整后内容块的嵌入特征。最后，采用信息抽取模型对嵌入特征进行处理，得到每个调整后内容块的知识数据。

其中，可以将层级信息中每个调整后内容块所在节点的父节点表示的调整后内容块作为关联的内容块。或者，可以将层级信息中每个调整后内容块所在节点的子节点表示的调整后内容块作为关联的内容块。该实施例可以将关联内容块的文档内容和每个调整后内容块的文档内容根据逻辑顺序排序，得到文档内容序列。将该文档内容序列的嵌入表示融合后得到针对该每个调整后内容块的嵌入特征。

其中，在得到文档内容序列的嵌入特征时，可以先采用Word2Vec对文档内容序列进行编码。随后采用嵌入层对编码得到的特征进行降维，得到文本嵌入表示序列。随后采用Transformer层对降维得到的文本嵌入表示序列进行处理，从而得到针对该每个调整后内容块的嵌入特征。

在一实施例中，在确定针对每个调整后内容块的嵌入特征时，例如还可以考虑图像信息，以此使得嵌入特征能够表征多模态的特征，提高嵌入特征的表达能力。具体地，可以根据该每个调整后内容块的图像信息、关联内容块的图像信息、关联内容块的特征信息和每个调整后内容块的特征信息，来确定每个调整后内容块的嵌入特征。例如，可以先根据关联内容块的布局信息和每个调整后内容块的布局信息，确定待处理文档的图像中关联内容块的图像信息和每个调整后内容块的图像信息。随后，将得到的多个图像信息根据逻辑顺序构成图像信息序列，并将关联内容块的文档内容和每个调整后内容块的文档内容根据逻辑顺序构成文档内容序列。随后，采用上文得到文本嵌入表示序列的类似方式得到文档内容序列的嵌入表示，采用上文得到图像嵌入表示序列的类似方式得到图像信息序列的嵌入表示。将该两部分嵌入表示拼接后经由Transformer层处理，得到针对每个调整后内容块的嵌入特征。

在一实施例中，采用知识增强的方法来得到嵌入特征，以此提高嵌入特征对每个调整后内容块的表达能力。例如，本公开可以预先维护有预定知识图谱，该预定知识图谱例如可以表示多个实体之间的关联关系。该实施例可以根据每个调整后内容块的文档内容，从该预定知识图谱中抽取每个调整后内容块的关联信息。例如，可以对该每个调整后内容块的文档内容进行实体识别，得到多个实体。随后将从预定知识图谱中抽取的与该多个实体关联的实体作为关联信息。在得到关联信息后，可以根据该关联信息、关联内容块的特征信息和每个调整后内容块的特征信息，来确定每个调整后内容块的嵌入特征。例如，可以采用嵌入层对关联信息进行嵌入表示。将关联信息的嵌入表示与由关联内容块的文档内容和每个调整后内容块的文档内容构成的文档内容序列的文档嵌入表示序列拼接后输入Transformer层，经由Transformer层处理后得到针对每个调整后内容块的嵌入特征。

在一实施例中，可以在采用知识增强的方法的同时，考虑图像信息。以此进一步提高嵌入特征的表达能力。以下将结合图6对该实施例进行详细描述。

图6是根据本公开实施例的对文档进行语义理解以得到知识数据的原理示意图。

如图6所示，该实施例600中，针对每个调整后内容块，可以从解析得到的特征信息610中筛选得到关联内容块和该每个调整后内容块的文档内容611，以文档内容序列形式表示。同时，可以从特征信息610中筛选得到关联内容块和该每个调整后内容块的布局信息612，以布局信息序列形式表示。随后，可以根据该布局信息序列中的坐标值定位到待处理文档的图像630中与文档内容611相对应的图像信息631，该图像信息631可以以图像信息序列的形式表示。同时，该实施例还可以根据每个调整后内容块的文档内容查询预定知识图谱620，得到关联信息621。

在得到文档内容611、布局信息612、关联信息621和图像信息631后，该实施例可以采用与各个信息匹配的嵌入层640，对各个信息进行嵌入表示。随后，该实施例可以采用上文得到融合了布局信息的图像嵌入表示序列的类似方式，根据布局信息612的布局嵌入表示序列和图像信息631的图像嵌入表示序列得到第一序列。同时，采用上文得到融合了布局信息的文本嵌入表示序列类似的方式，根据布局信息612的布局嵌入表示序列和文档内容611的文本嵌入表示序列得到第二序列。随后，将该第一序列、第二序列和关联信息621的嵌入表示拼接后输入Transformer层650，由Transformer层650输出针对每个调整后内容块的嵌入特征。

在得到嵌入特征后，可以采用信息抽取模型执行知识数据的抽取任务660。其中，该抽取任务例如可以包括文档理解任务661和知识抽取任务662中的至少之一。其中，文档理解任务661例如可以包括文档分类任务、内容打标签任务、将知识关联的任务和内容的关系识别任务等中的至少之一。其中，知识抽取任务662例如可以包括实体识别任务、关系抽取任务、表格理解任务和键值对抽取任务等中的至少之一。

示例性地，文档分类任务可以对输入的嵌入特征所针对的文档进行分类，例如，若输入的为每个调整后内容块的嵌入特征，则文档分类任务所抽取到的知识为该每个调整后内容块的类别，该类别可以为多个预定类别中的一个。其中，多个预定类别可以为多个情感类别、多个意图类别等，本公开对此不做限定。为了完成文档分类任务，知识抽取模型可以包括由卷积层、池化层和全连接层构成的文本分类网络等，本公开对此不做限定。

示例性地，内容打标签任务例如可以与文档分类任务类似，区别在于，内容打标签任务中为每个内容块的文档内容添加的标签可以为多个，可以将该内容打标签任务理解为多标签分类任务。为了实现该内容打标签任务，知识抽取模型可以由多个分类分支构成，每个分类分支用于预测文档内容具有多个预定标签中一个预定标签的概率。

示例性地，内容关系识别任务和知识关联任务可以为用于预测两个内容块的文本内容之间是否有关联关系。例如，该实施例可以根据针对两个调整后内容块的两个嵌入特征，预测该两个调整后内容块的文档内容是否具有关联关系。例如，为了实现该内容关系识别任务和知识关联任务，知识抽取模型可以由依次连接的第一全连接层、激活层和第二全连接层构成，第一全连接层的输入为两个调整后内容块的嵌入特征。第二全连接层的输出为两个调整后内容块的文档内容之间具有关联关系的概率。

示例性地，实体识别任务用于识别文档内容中的实体，识别得到的实体例如可以为日期、地点、机构名、人名等。例如，为了实现该实体识别任务，知识抽取模型可以包括条件随机场模型等，相应地，抽取得到的知识包文档内容中的多个实体，本公开对此不做限定。

示例性地，表格理解任务例如可以包括根据针对表格内容块的嵌入特征对表格内容块执行的目标检测任务、语义分割任务、序列预测任务及关系重构任务等。为了实现该表格理解任务，知识抽取模型例如可以包括目标检测模型、语义分割模型、序列预测模型和图神经网络模型中至少一个模型的除特征提取网络之后的网络。

示例性地，关系抽取任务例如可以用于抽取识别得到的多个实体彼此之间的关联关系。例如，关系抽取任务可以用于抽取SPO三元组、抽取事件信息、抽取键值关系(实质上为键值对抽取任务)等。相应地，抽取得到的知识数据可以包括多个实体彼此之间的关联关系、每个调整后文本块的文档内容所描述事件的事件信息和/或每个调整后文本块的文档内容中的键值对信息等。其中，键值对信息和事件信息可理解为属性关系的抽取。知识抽取模型例如可以包括由全连接层和softmax层构成的模型等，本公开对此不做限定。

可以理解的是，该实施例中以抽取每个调整后内容块的知识数据为例进行了说明，在抽取知识数据时，例如还可以采用知识抽取模型对将多个调整后内容块的嵌入特征构成的嵌入特征序列进行处理，以抽取整个待处理文档的知识数据。

图7是根据本公开实施例的得到的针对待处理文档的表达信息的示意图。

根据本公开的实施例，在得到待处理文档的知识数据后，该实施例还可以根据知识数据、特征信息和层级信息，确定针对待处理文档的表达信息。例如，可以对抽取得到的知识数据进行组织关联，形成针对待处理文档的通用化的表达。

例如，本公开可以设置多种预定粒度。在确定表达信息时，先确定知识数据所涉及的对象中属于每种预定粒度的对象。其中，多种预定粒度可以包括文档粒度、页粒度、内容块粒度、章粒度、节粒度和知识对象粒度中的任意多种。例如可以结合特征信息中的层级信息和调整后内容块的布局信息来确定每种预定粒度的对象。例如，根据布局信息可以得到文档包括的页面，每个页面包括的内容块。根据层级信息和布局信息可以得到页面中包括的章节信息及章节信息与内容块之间的从属关系。根据知识数据可以得到文档中的每个调整后内容块包括的知识对象。其中，知识对象例如可以包括实体对象、实体之间的SPO关系、事件对象和标签等。

例如，文档表示整个待处理文档层面的对象。页面表示文档中每一个页面层面的对象。内容块表示每一个页面中的完整的语义单元，例如可以为语义段落、表格、图片、页眉、页脚等。章表示文档中的每一个章。节表示文档中每章中包括的小节，该节可以为多级结构。实体对象表示文档中的每一个实体知识对象。实体之间的SPO关系表示文档中的每一个事实知识对象。事件表示文档中的每一类事件知识对象。标签表示文档中的每一个标签，例如可以为实体标签、主题标签等。

在得到每种预定粒度的对象之后，该实施例可以根据针对多种预定粒度的对象、知识数据、特征信息和层级信息，来确定待处理文档的表达信息。

例如，可以根据调整后内容块的特征信息和文档粒度、页面粒度和内容块粒度的对象，构建如图7所示的表达信息700中的待处理文档的页面结构710。该页面结构可以以树结构的形式体现，例如，页面结构710的根结点711指示文档，文档的子结点712指示页面(page)，页面的子结点713指示调整后内容块(block)，且指示调整后内容块的子结点可以为页面结构710的叶子结点。在一实施例中，指示block的子结点例如还可以表示调整后内容块与上文描述的解析待处理文档所得到的内容块之间的关联关系。例如，对于叶子结点指示的block_3，是由两个表格内容块跨页合并形成的；对于叶子结点指示的调整后内容块block_4，是由三个文本内容块跨栏跨页合并形成的。该叶子节点例如还可以指示调整后内容块的类型，例如，可以为段落内容块、图片内容块、表格内容块、文本内容块等，调整后内容块的类型可以是依据上文描述的文档分类任务抽取得到的。

例如，该实施例可以根据章节信息及章节信息与内容块之间的从属关系，构建待处理文档的章节结构，并将该章节结构与内容块进行关联。例如，章节结构也可以以树结构的形式体现。例如，如图7所示，章节结构720可以与待处理文档的页面结构710共享根结点，即章节结构720的根结点711指示文档，文档的子结点722指示章(chapter)，章的子结点723指示节(section)，该指示节的子结点例如可以为章节结构720的叶子结点。如图7所示，该实施例还可以根据调整后内容块与章节之间的关联关系，对章节结构720与页面结构710中的结点建立关联关系。例如，block_1和block_2中的文档内容例如可以为section_1的文档内容，则该实施例可以将指示block_1和block_2的结点与指示section_1的结点连接。例如，block_3中的文档内容例如可以为section_2的文档内容，该实施例可以将指示block_3的结点与指示section_2的结点连接。例如，block_4中的文档内容例如可以为section_3的文档内容，该实施例可以将指示block_4的结点与指示section_3的结点连接。

例如，该实施例可以根据抽取的知识数据中的实体之间的关联关系，构建针对每个调整后内容块的实体关联图。例如，知识数据中针对block_1的文档内容抽取的实体之间的关联关系可以由SPO三元组表示。构建的实体关联图可以如图7中的关联图730。在一实施例中，还可以将构建的针对调整后内容块的实体关联图与页面结构710中指示该调整后内容块的结点连接，以体现出实体关联图与调整后内容块之间的关联关系。例如，实体关联图730是针对block_1构建的，则可以将实体关联图730与指示block_1的结点连接。在一实施例中，还可以将抽取的实体的关注点(例如属性信息、特征和侧面描述信息等中的至少之一)作为附加说明以节点的形式添加到实体关联图730中，该附加说明可以被称为侧面(facet)。例如，可以将指示S_1的实体731与指示实体731的附加说明的节点732连接。

例如，该实施例可以根据知识数据中文档内容的标签，对所有标签进行归类，得到标签的多个级别的类别。并根据该多个级别的类别及标签之间的上下位关系，构建标签的关联关系图740。在该实施例中，还可以根据标签与实体之间的对应关系，将标签的关联关系图740中指示标签的节点与实体关联图中指示实体的节点相连接，以使得表达信息能够表征标签与实体之间的对应关系。

例如，该实施例可以根据知识数据中的键值对信息，构建针对调整后内容块的键值关系图750。其中，键值关系图750中，包括指示键(key)的节点和指示值(value)的节点，且由键值关系的键和值对应的两个节点之间具有连接边。对于键为实体关系图中实体的情况，该实施例还可以将键值关系图750中指示键的节点与实体关系图中指示对应实体的节点连接，以建立键(key)与实体之间的关联关系。该实施例还可以将该键值关系图750与页面结构中指示该键值关系图所针对的调整后内容块的结点连接，以建立键值关系图与内容块之间的关联关系。

例如，该实施例可以根据知识数据中的事件信息，构建针对调整后内容块的文档内容所描述事件的事件信息图760。该事件信息图760中可以包括指示事件名称的节点和指示事件的论元的节点。且指示事件名称的节点与指示论元的节点之间具有连接边。其中，论元例如可以包括事件的动作和事件的参与者等，本公开对此不做限定。对于论元与实体关联图中节点指示的实体为同一实体时，该实施例还可以将事件信息图760中指示论元的节点与实体关联图730中指示对应实体的节点相连接。该实施例还可以将事件信息图760与页面结构710中指示相应内容块的结点连接。其中相应内容块为描述该事件信息图760所针对事件的文档内容的调整后内容块。

本公开实施例通过该表达信息的生成，可以对抽取的知识数据进行组织关联，并针对待处理文档形成通用化的表达。如此，可以提高本公开提供的文档处理方法的鲁棒性、降低定制化程度。

图8是根据本公开实施例的对表达信息进行操作的操作树结构图。

根据本公开的实施例，基于上述实施例提供的表达信息，本公开还可以提供针对表达信息的增、删、改、查的方法，以便对待处理文档的知识数据进行分析和管理，便于对待处理文档的知识数据的调用。

例如，该实施例的文档处理方法例如还可以响应于获取到检索数据，根据该检索数据查询表达信息，得到针对检索数据的反馈数据。以此，可以方便用户对待处理文档的知识进行调用和查询。其中，检索数据例如可以包括以下至少之一：实体名称或者实体ID，也可以包括标签的类别、实体的属性信息、实体名、实体关系的类型名称、页面结构的关系名称、章节名称等。相应地，可以基于表达信息得到与检索数据对应的反馈数据。例如，反馈数据可以包括以下至少之一：内容块的文档内容、与检索数据中包括的实体相关联的实体、与检索数据所涉及的章节具有关联关系的内容块的文档内容、检索数据所涉及的实体所在内容块的文档内容、检索数据所涉及的实体的属性信息等，本公开对此不做限定。

例如，还可以提供遍历文档的表达信息的功能，以向用户提供文档的页面结构、章节结构等。

例如，如图8所示，本公开提供的查询待处理文档的表达信息的操作树800中，指示的查询功能包括遍历功能和检索功能。其中，遍历功能可以以文档/章节/内容块/对象等各种粒度对表达信息进行遍历，将遍历得到的所有信息均作为反馈信息。检索功能可以对各种粒度的对象进行检索，具体可以根据对象的名称、ID、类别、属性等对对象进行检索，将检索得到的信息作为反馈信息。检索功能可以对各种粒度的对象的属性进行检索，以检索得到某个粒度的对象中具有预定属性的对象的信息。检索功能可以对对象或实体之间的各种关系进行检索，各种关系可以包括章节的连接关系、页面与调整后内容块之间的关系、实体之间的关系(例如SPO关系、键值关系、事件论元关系等)。章节的连接关系、页面与调整后内容块之间的关系的检索策略可以包括对表达信息中的各种树结构进行自顶至底的检索和自底至顶的检索。

在一实施例中，可以响应于检测到针对知识数据的修改信息，根据修改信息修改表达信息。例如，若用户对待处理文档进行了修改，则抽取得到的知识数据也会随着待处理文档的修改而发生变化，体现到表达信息上，可以包括针对对象的修改、针对对象的属性的修改和针对关系的修改等。

其中，针对对象的修改例如可以包括对象的增加和删除，对于内容块粒度的对象，还可以包括对对象的文档内容的修改。其中，对象的增加和删除在表达信息上体现为页面结构或章节结构的结点的增加或删除，或者实体关联图、键值关系图、事件信息图或关联关系图中节点的增加或删除等。

其中，针对对象属性的修改可以包括增加或删除对象的属性，以及对修改对象的属性值。对象的属性的增加或删除在表达信息上体现为指示属性信息的节点的增加或删除。对对象的属性值的修改在表达信息上体现为节点指示的属性信息的修改。

其中，针对关系的修改可以包括增加或删除对象的关系，以及修改对象的关系。对象的关系的增加、删除、修改在表达信息上可以体现为结点或节点之间的连接边的增加或删除。

基于本公开提供的文档处理方法，本公开还提供了一种文档处理装置。以下将结合图9对该装置进行详细描述。

图9是根据本公开实施例的文档处理装置的结构框图。

如图9所示，该实施例的文档处理装置900可以包括文档解析模块910、内容块调整模块920、层级确定模块930和语义理解模块940。

文档解析模块910用于解析待处理文档，得到待处理文档中内容块的特征信息；特征信息包括内容块在待处理文档中的布局信息和文档内容。在一实施例中，文档解析模块910可以用于执行上文描述的操作S210，在此不再赘述。

内容块调整模块920用于根据特征信息对内容块进行调整，得到调整后内容块及针对调整后内容块的逻辑顺序。在一实施例中，内容块调整模块920可以用于执行上文描述的操作S220，在此不再赘述。

层级确定模块930用于根据调整后内容块的特征信息和逻辑顺序，确定针对调整后内容块的层级信息。在一实施例中，层级确定模块930可以用于执行上文描述的操作S230，在此不再赘述。

语义理解模块940用于根据层级信息和调整后内容块的特征信息对调整后内容块进行语义理解，得到调整后内容块的知识数据。在一实施例中，语义理解模块940可以用于执行上文描述的操作S240，在此不再赘述。

根据本公开的实施例，内容块为多个，上述内容块调整模块920可以包括第一特征融合子模块、标注子模块、调整子模块和顺序确定子模块。第一特征融合子模块用于根据多个内容块各自的特征信息和多个内容块各自的图像信息，得到多个内容块各自的第一融合特征。标注子模块用于根据第一融合特征确定多个内容块各自的标注信息，标注信息指示内容块针对目标对象的首尾信息。调整子模块用于根据标注信息对多个内容块进行调整，得到多个调整后内容块。顺序确定子模块用于根据多个调整后内容块的融合特征，确定多个调整后内容块的逻辑顺序。

根据本公开的实施例，第一特征融合子模块可以包括嵌入特征生成单元和特征融合单元。嵌入特征生成单元用于针对多个内容块中的每个内容块，根据每个内容块的特征信息和每个内容块的图像信息，生成针对每个内容块的嵌入特征。特征融合单元用于将针对多个内容块的多个嵌入特征构成的特征序列输入多模态预训练模型中，得到多个内容块各自的第一融合特征。

根据本公开的实施例，顺序确定子模块可以包括关系获得单元和顺序确定单元。关系获得单元用于采用注意力机制对多个调整后内容块的融合特征进行处理，得到多个调整后内容块中每个调整后内容块与其他调整后内容块的关联关系。顺序确定单元用于根据关联关系，确定多个调整后内容块的逻辑顺序。

根据本公开的实施例，调整后内容块为多个。上述层级确定模块930可以包括第二特征融合子模块、初始图生成子模块和层级信息获得子模块。第二特征融合子模块用于针对多个调整后内容块中的每个调整后内容块，根据每个调整后内容块的特征信息和每个调整后内容块的图像信息，确定针对每个调整后内容块的第二融合特征。初始图生成子模块用于根据逻辑顺序、第二融合特征和初始邻接矩阵，生成针对多个调整后内容块的初始结构图。层级信息获得子模块用于采用图神经网络对初始结构图进行处理，得到针对调整后内容块的层级信息。

根据本公开的实施例，调整后内容块为多个。上述语义理解模块940可以包括关联块确定子模块和嵌入特征确定子模块。关联块确定子模块用于根据层级信息，确定多个调整后内容块中与每个调整后内容块关联的内容块，作为关联内容块。嵌入特征确定子模块用于采用信息抽取模型对每个调整后内容块的嵌入特征进行处理，得到每个调整后内容块的知识数据。

根据本公开的实施例，语义理解模块940还可以包括关联信息抽取子模块，用于根据每个调整后内容块的文档内容，从预定知识图谱中抽取每个调整后内容块的关联信息。上述嵌入特征确定子模块还可以用于根据关联信息、关联内容块的特征信息和每个调整后内容块的特征信息，确定针对每个调整后内容块的嵌入特征。

根据本公开的实施例，上述嵌入特征确定子模块还可以用于根据每个调整后内容块的图像信息、关联内容块的图像信息、关联内容块的特征信息和每个调整后内容块的特征信息，确定针对每个调整后内容块的嵌入特征。

根据本公开的实施例，上述知识抽取模型用于抽取以下知识数据中的至少之一：每个调整后内容块的类别；文档内容的标签；文档内容中的多个实体；多个实体彼此之间的关联关系；文档内容所描述事件的事件信息；文档内容中的键值对信息。

根据本公开的实施例，上述文档处理装置900还可以包括对象确定模块和表达信息确定模块。对象确定模块用于确定知识数据所涉及的对象中针对多种预定粒度中每种预定粒度的对象。表达信息确定模块用于根据针对多种预定粒度的对象、知识数据、调整后内容块的特征信息和层级信息，确定针对待处理文档的表达信息。其中，表达信息可以包括以下信息中的至少之一：待处理文档的页面结构、针对调整后内容块的实体关联图、针对调整后内容块的键值关系图、针对调整后内容块的文档内容所描述事件的事件信息图、待处理文档的章节结构和文档内容的多个标签彼此之间的关联关系图。

根据本公开的实施例，上述文档处理装置900还可以包括信息查询模块，用于响应于获取到检索数据，根据检索数据查询表达信息，得到针对检索数据的反馈数据。其中，反馈信息包括以下至少之一：内容块的文档内容、与检索数据中的实体关联的实体、与检索数据所涉及的章节具有关联关系的内容块的文档内容、检索数据所涉及的实体所在内容块的文档内容和检索数据所涉及的实体的属性信息。

根据本公开的实施例，上述文档处理装置900还可以包括信息修改模块，用于响应于检测到针对知识数据的修改信息，根据修改信息修改表达信息。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开实施例的文档处理方法的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如文档处理方法。例如，在一些实施例中，文档处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的文档处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文档处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文档处理方法，包括：

解析待处理文档，得到所述待处理文档中内容块的特征信息；所述特征信息包括所述内容块在所述待处理文档中的布局信息和文档内容；

根据所述特征信息对所述内容块进行调整，得到调整后内容块及针对所述调整后内容块的逻辑顺序；

根据所述调整后内容块的特征信息和所述逻辑顺序，确定针对所述调整后内容块的层级信息；以及

根据所述层级信息和所述调整后内容块的特征信息对所述调整后内容块进行语义理解，得到所述待处理文档的知识数据，

其中，根据所述特征信息对所述内容块进行调整包括：根据所述内容块的文档内容，将属于同一个完整语义单元的多个内容块进行合并；完整语义单元包括完整段落和完整表格中的至少一种。

2.根据权利要求1所述的方法，其中，所述内容块为多个；所述根据所述特征信息对所述内容块进行调整，得到调整后内容块及所述调整后内容块的逻辑顺序包括：

根据多个所述内容块各自的特征信息和多个所述内容块各自的图像信息，得到多个所述内容块各自的第一融合特征；

根据所述第一融合特征确定多个所述内容块各自的标注信息，所述标注信息指示内容块针对目标对象的首尾信息；

根据所述标注信息对多个所述内容块进行调整，得到多个所述调整后内容块；以及

根据多个所述调整后内容块的融合特征，确定多个所述调整后内容块的逻辑顺序。

3.根据权利要求2所述的方法，其中，所述根据多个所述内容块各自的所述特征信息和多个所述内容块各自的图像信息，得到多个所述内容块各自的第一融合特征包括：

针对多个所述内容块中的每个内容块，根据每个所述内容块的特征信息和每个所述内容块的图像信息，生成针对每个所述内容块的嵌入特征；以及

将针对多个所述内容块的多个嵌入特征构成的特征序列输入多模态预训练模型，得到多个所述内容块各自的第一融合特征。

4.根据权利要求2所述的方法，其中，所述根据多个所述调整后内容块的融合特征，确定多个所述调整后内容块的逻辑顺序包括：

采用注意力机制对多个所述调整后内容块的融合特征进行处理，得到多个所述调整后内容块中每个调整后内容块与其他调整后内容块的关联关系；以及

根据所述关联关系，确定多个所述调整后内容块的逻辑顺序。

5.根据权利要求1所述的方法，其中，所述调整后内容块为多个；所述根据所述调整后内容块的特征信息和所述逻辑顺序，确定针对所述调整后内容块的层级信息包括：

针对多个所述调整后内容块中的每个调整后内容块，根据所述每个调整后内容块的特征信息和所述每个调整后内容块的图像信息，确定针对所述每个调整后内容块的第二融合特征；

根据所述逻辑顺序、所述第二融合特征和初始邻接矩阵，生成针对多个所述调整后内容块的初始结构图；以及

采用图神经网络对所述初始结构图进行处理，得到针对所述调整后内容块的层级信息。

6.根据权利要求1所述的方法，其中，所述调整后内容块为多个；所述根据所述层级信息和所述调整后内容块的特征信息对所述调整后内容块进行语义理解，得到所述待处理文档的知识数据包括：

根据所述层级信息，确定多个所述调整后内容块中与每个调整后内容块关联的内容块，作为关联内容块；

根据所述关联内容块的特征信息和所述每个调整后内容块的特征信息，确定针对所述每个调整后内容块的嵌入特征；以及

采用信息抽取模型对所述每个调整后内容块的嵌入特征进行处理，得到所述每个调整后内容块的知识数据。

7.根据权利要求6所述的方法，其中，所述根据所述层级信息和所述调整后内容块的特征信息对所述调整后内容块进行语义理解，得到所述调整后内容块的知识数据还包括：

根据所述每个调整后内容块的文档内容，从预定知识图谱中抽取所述每个调整后内容块的关联信息；

其中，所述根据所述关联内容块的特征信息和所述每个调整后内容块的特征信息，确定针对所述每个调整后内容块的嵌入特征包括：根据所述关联信息、所述关联内容块的特征信息和所述每个调整后内容块的特征信息，确定针对所述每个调整后内容块的嵌入特征。

8.根据权利要求6或7所述的方法，其中，所述根据所述关联内容块的特征信息和所述每个调整后内容块的特征信息，确定针对所述每个调整后内容块的嵌入特征包括：

根据所述每个调整后内容块的图像信息、所述关联内容块的图像信息、所述关联内容块的特征信息和每个所述调整后内容块的特征信息，确定针对所述每个调整后内容块的嵌入特征。

9.根据权利要求6所述的方法，其中，所述信息抽取模型用于抽取以下知识数据中的至少之一：所述每个调整后内容块的类别；文档内容的标签；文档内容中的多个实体；所述多个实体彼此之间的关联关系；所述文档内容所描述事件的事件信息；所述文档内容中的键值对信息。

10.根据权利要求1所述的方法，还包括：

确定所述知识数据所涉及的对象中针对多种预定粒度中每种预定粒度的对象；以及

根据针对所述多种预定粒度的对象、所述知识数据、所述调整后内容块的特征信息和所述层级信息，确定针对所述待处理文档的表达信息，

其中，所述表达信息包括以下信息中的至少之一：

所述待处理文档的页面结构；

针对所述调整后内容块的实体关联图；

针对所述调整后内容块的键值关系图；

针对所述调整后内容块的文档内容所描述事件的事件信息图；

所述待处理文档的章节结构；

所述文档内容的多个标签彼此之间的关联关系图。

11.根据权利要求10所述的方法，还包括：

响应于获取到检索数据，根据所述检索数据查询所述表达信息，得到针对所述检索数据的反馈数据，

其中，所述反馈数据包括以下至少之一：

内容块的文档内容；

与所述检索数据中的实体关联的实体；

与所述检索数据所涉及的章节具有关联关系的内容块的文档内容；

所述检索数据所涉及的实体所在内容块的文档内容；

所述检索数据所涉及的实体的属性信息。

12.根据权利要求10所述的方法，还包括：

响应于检测到针对所述知识数据的修改信息，根据所述修改信息修改所述表达信息。

13.一种文档处理装置，包括：

文档解析模块，用于解析待处理文档，得到所述待处理文档中内容块的特征信息；所述特征信息包括所述内容块在所述待处理文档中的布局信息和文档内容；

内容块调整模块，用于根据所述特征信息对所述内容块进行调整，得到调整后内容块及针对所述调整后内容块的逻辑顺序；

层级确定模块，用于根据所述调整后内容块的特征信息和所述逻辑顺序，确定针对所述调整后内容块的层级信息；以及

语义理解模块，用于根据所述层级信息和所述调整后内容块的特征信息对所述调整后内容块进行语义理解，得到所述调整后内容块的知识数据，

其中，所述内容块调整模块用于：根据所述内容块的文档内容，将属于同一个完整语义单元的多个内容块进行合并；完整语义单元包括完整段落和完整表格中的至少一种。

14.根据权利要求13所述的装置，其中，所述内容块为多个；所述内容块调整模块包括：

第一特征融合子模块，用于根据多个所述内容块各自的特征信息和多个所述内容块各自的图像信息，得到多个所述内容块各自的第一融合特征；

标注子模块，用于根据所述第一融合特征确定多个所述内容块各自的标注信息，所述标注信息指示内容块针对目标对象的首尾信息；

调整子模块，用于根据所述标注信息对多个所述内容块进行调整，得到多个所述调整后内容块；以及

顺序确定子模块，用于根据多个所述调整后内容块的融合特征，确定多个所述调整后内容块的逻辑顺序。

15.根据权利要求14所述的装置，其中，所述第一特征融合子模块包括：

嵌入特征生成单元，用于针对多个所述内容块中的每个内容块，根据每个所述内容块的特征信息和每个所述内容块的图像信息，生成针对每个所述内容块的嵌入特征；以及

特征融合单元，用于将针对多个所述内容块的多个嵌入特征构成的特征序列输入多模态预训练模型中，得到多个所述内容块各自的第一融合特征。

16.根据权利要求14所述的装置，其中，所述顺序确定子模块包括：

关系获得单元，用于采用注意力机制对多个所述调整后内容块的融合特征进行处理，得到多个所述调整后内容块中每个调整后内容块与其他调整后内容块的关联关系；以及

顺序确定单元，用于根据所述关联关系，确定多个所述调整后内容块的逻辑顺序。

17.根据权利要求13所述的装置，其中，所述调整后内容块为多个；所述层级确定模块包括：

第二特征融合子模块，用于针对多个所述调整后内容块中的每个调整后内容块，根据所述每个调整后内容块的特征信息和所述每个调整后内容块的图像信息，确定针对所述每个调整后内容块的第二融合特征；

初始图生成子模块，用于根据所述逻辑顺序、所述第二融合特征和初始邻接矩阵，生成针对多个所述调整后内容块的初始结构图；以及

层级信息获得子模块，用于采用图神经网络对所述初始结构图进行处理，得到针对所述调整后内容块的层级信息。

18.根据权利要求13所述的装置，其中，所述调整后内容块为多个；所述语义理解模块包括：

关联块确定子模块，用于根据所述层级信息，确定多个所述调整后内容块中与每个调整后内容块关联的内容块，作为关联内容块；以及

嵌入特征确定子模块，用于采用信息抽取模型对所述每个调整后内容块的嵌入特征进行处理，得到所述每个调整后内容块的知识数据。

19.根据权利要求18所述的装置，其中，所述语义理解模块还包括：

关联信息抽取子模块，用于根据所述每个调整后内容块的文档内容，从预定知识图谱中抽取所述每个调整后内容块的关联信息，

其中，所述嵌入特征确定子模块还用于：根据所述关联信息、所述关联内容块的特征信息和所述每个调整后内容块的特征信息，确定针对所述每个调整后内容块的嵌入特征。

20.根据权利要求18或19所述的装置，其中，所述嵌入特征确定子模块还用于：

21.根据权利要求1 8所述的装置，其中，所述信息抽取模型用于抽取以下知识数据中的至少之一：所述每个调整后内容块的类别；文档内容的标签；文档内容中的多个实体；所述多个实体彼此之间的关联关系；所述文档内容所描述事件的事件信息；所述文档内容中的键值对信息。

22.根据权利要求13所述的装置，还包括：

对象确定模块，用于确定所述知识数据所涉及的对象中针对多种预定粒度中每种预定粒度的对象；以及

表达信息确定模块，用于根据针对所述多种预定粒度的对象、所述知识数据、所述调整后内容块的特征信息和所述层级信息，确定针对所述待处理文档的表达信息，

其中，所述表达信息包括以下信息中的至少之一：

所述待处理文档的页面结构；

针对所述调整后内容块的实体关联图；

针对所述调整后内容块的键值关系图；

所述待处理文档的章节结构；

所述文档内容的多个标签彼此之间的关联关系图。

23.根据权利要求22所述的装置，还包括：

信息查询模块，用于响应于获取到检索数据，根据所述检索数据查询所述表达信息，得到针对所述检索数据的反馈数据，

其中，所述反馈数据包括以下至少之一：

内容块的文档内容；

与所述检索数据中的实体关联的实体；

所述检索数据所涉及的实体所在内容块的文档内容；

所述检索数据所涉及的实体的属性信息。

24.根据权利要求22所述的装置，还包括：

信息修改模块，用于响应于检测到针对所述知识数据的修改信息，根据所述修改信息修改所述表达信息。

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～12中任一项所述的方法。