CN111680490A

CN111680490A - 一种跨模态的文档处理方法、装置及电子设备

Info

Publication number: CN111680490A
Application number: CN202010527162.6A
Authority: CN
Inventors: 刘树衎
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-09-18
Anticipated expiration: 2040-06-10
Also published as: CN111680490B

Abstract

本申请提供一种跨模态的文档处理方法、装置及电子设备。方法包括：获取第一文档的文本模态数据及图像模态数据；基于自然语言处理模型，将文本模态数据转换为字句特征嵌入向量，并根据文本模态数据提取第一文本要素特征；基于计算机视觉算法，通过目标检测算法和光学字符识别算法，定位目标位置并识别第一文档的文本内容，并根据图像模态数据提取第二文本要素特征，并进行要素对齐，以得到第一文档的结构特征；然后结合结构特征及文档的多维特征的嵌入式表示，得到包括表征第一文档的元知识图模型。基于此，将文档的文本内容转换为元知识图模型，有利于电子设备利用元知识图模型更为完整地识别与理解文档内容。

Description

一种跨模态的文档处理方法、装置及电子设备

技术领域

本发明涉及计算机数据处理技术领域，具体而言，涉及一种跨模态的文档处理方法、装置及电子设备。

背景技术

文档通常为人类自然语言加上版式信息形成的文件类型，对文档进行处理可以使得机器能够更好地使用人类数据信息。现有文档处理技术大多仅对文档做光学字符识别(Optical Character Recognition，OCR)处理，在处理中容易丢失文档的版式信息，不利于机器对文档进行全维度的分析理解。现有的自然语言处理主要依赖于语义等要素，无法实现对文档的元数据提取和知识构建，不利于下游任务的处理，例如，不利于知识库的构建或知识网络搭建。

发明内容

本申请提供一种跨模态的文档处理方法、装置及电子设备，有利于电子设备完整识别、理解文档内容。

为了实现上述目的，本申请实施例所提供的技术方案如下所示：

第一方面，本申请实施例提供一种文档处理方法，所述方法包括：

获取第一文档的文本模态数据及图像模态数据；

基于自然语言处理模型，将所述文本模态数据转换为字句特征嵌入向量，并根据所述文本模态数据提取第一文本要素特征；

基于计算机视觉算法，通过目标检测算法和光学字符识别算法，定位目标位置并识别所述第一文档的文本内容，并根据所述图像模态数据提取第二文本要素特征；

对所述第一文本要素特征及所述第二文本要素特征进行要素对齐，以确定所述第一文档的要素特征，并将所述要素特征表示为结构嵌入式矩阵，得到所述第一文档的结构特征；

根据表示模型将所述第一文档的多维特征作嵌入式表示，所述多维特征包括所述结构特征，以及从所述第一文档中提取得到的语义特征、主题特征、事件特征及情感特征中的至少一种；

利用图表示学习模型对所述嵌入式表示进行学习，得到包括表征所述第一文档的元知识图模型。

在上述的实施方式中，通过利用第一文档的文本模态数据及图像模态数据，对文本要素进行联合对齐，再对文档的多维特征进行嵌入式表示并学习，得到包括表征第一文档的元知识图模型。基于此，将文档的文本内容转换为元知识图模型，有利于电子设备利用元知识图模型更为完整地识别与理解文档内容。

结合第一方面，在一些可选的实施方式中，所述自然语言处理模型包括用于提取所述多维特征的语义特征提取模型、关键词提取模型、事件提取模型、情感提取模型中的至少一种，在根据表示模型将所述第一文档的多维特征作嵌入式表示之前，所述方法包括：

通过所述语义特征提取模型提取所述第一文档中的语义特征；

通过所述关键词提取模型提取所述第一文档中的主题特征；

通过所述事件提取模型提取所述第一文档的事件特征；

通过所述情感提取模型提取所述第一文档的情感特征。

在上述的实施方式中，通过自然语言处理模型中的各个模型，能够实现文档的语义特征、主题特征、事件特征及情感特征等多维特征的提取，有利于电子设备完整理解文档内容。

结合第一方面，在一些可选的实施方式中，基于获取的操作指令，通过所述元知识图模型响应所述操作指令，以得到与所述操作指令对应的响应结果。

在上述的实施方式中，电子设备可以基于用户的操作指令，利用元知识图模型对操作指令进行处理，以实现相应的文档处理。元知识图模型能够更完整地表示文档内容，从而有利于提高对文档处理的准确性及效率。

结合第一方面，在一些可选的实施方式中，所述元知识图模型包括利用所述图表示学习模型预先学习第二文档的嵌入式表示得到的表征所述第二文档的图模型，所述操作指令为用于检测所述第一文档的相似度的指令；基于获取的操作指令，通过所述元知识图模型响应所述操作指令，以得到与所述操作指令对应的响应结果，包括：

基于所述操作指令，通过所述元知识图模型确定所述第一文档的嵌入式表示与所述第二文档对应的嵌入式表示的相似度，并将所述相似度作为所述响应结果。

在上述的实施方式中，通过对文档的嵌入式表示之间的相似度进行检测，将文本相似度处理转换为嵌入式表示向量相似度处理，能够充分利用图表示学习模型对非欧空间数据的处理能力，有利于相似度的快速检测，

结合第一方面，在一些可选的实施方式中，所述元知识图模型包括利用所述图表示学习模型预先学习多个文档的嵌入式表示得到的相应图模型，基于获取的操作指令，通过所述元知识图模型响应所述操作指令，以得到与所述操作指令对应的响应结果，还包括：

基于所述操作指令中的搜索信息，通过所述元知识图模型确定所述搜索信息与所述多个文档的关联度，所述搜索信息包括索引关键词、用户的阅读习惯特征中的至少一种；

从所述多个文档中选择与所述搜索信息关联度最大的指定数量的文档为推荐文档，并将所述推荐文档作为所述响应结果。

在上述的实施方式中，利用元知识图模型搜索相应的文档，在元知识图模型能够更完整理解文档内容的基础上，有利于提高搜索得到的推荐文档的准确性及可靠性。

结合第一方面，在一些可选的实施方式中，所述操作指令为用于对第一文档进行分类的指令，基于获取的操作指令，通过所述元知识图模型响应所述操作指令，以得到与所述操作指令对应的响应结果，还包括：

基于所述操作指令及预设分类规则，通过所述元知识图模型确定所述第一文档的类别。

在上述的实施方式中，在元知识图模型能够更完整理解文档内容的基础上，利用元知识图模型对文档进行分类，有利于提高分类的准确性及可靠性。

第二方面，本申请实施例还提供一种文档处理方法，应用于存储有元知识图模型的电子设备，所述元知识图模型为上述的元知识图模型，所述方法包括：

获取用于对文档进行处理的操作指令；

通过所述元知识图模型响应所述操作指令，以得到与所述操作指令对应的响应结果。

第三方面，本申请实施例还提供一种文档处理装置，所述装置包括：

获取单元，用于获取第一文档的文本模态数据及图像模态数据；

第一特征提取单元，用于基于自然语言处理算法，将所述文本模态数据转换为字句特征嵌入向量，并根据所述文本模态数据提取第一文本要素特征；

第二特征提取单元，用于基于计算机视觉算法，通过目标检测算法和光学字符识别算法，定位目标位置并识别所述第一文档的文本内容，并根据所述图像模态数据提取第二文本要素特征；

联合单元，用于对所述第一文本要素特征及所述第二文本要素特征进行要素对齐，以确定所述第一文档的要素特征，并将所述要素特征表示为结构嵌入式矩阵，得到所述第一文档的结构特征；

表示单元，用于根据表示模型将所述第一文档的多维特征作嵌入式表示，所述多维特征包括所述结构特征，以及从所述第一文档中提取得到的语义特征、主题特征、事件特征及情感特征中的至少一种；

学习单元，用于根据图表示学习模型对所述嵌入式表示进行学习，得到包括表征所述第一文档的元知识图模型。

结合第二方面，在一些可选的实施方式中，所述装置还包括第三特征提取单元，所述自然语言处理模型包括用于提取所述多维特征的语义特征提取模型、关键词提取模型、事件提取模型、情感提取模型中的至少一种，在根据表示模型将所述第一文档的多维特征作嵌入式表示之前，所述第三特征提取单元还用于：

通过所述关键词提取模型提取所述第一文档中的主题特征；

通过所述事件提取模型提取所述第一文档的事件特征；

通过所述情感提取模型提取所述第一文档的情感特征。

第三方面，本申请实施例还提供一种电子设备，所述电子设备包括相互耦合的存储器、处理器，所述存储器内存储计算机程序，当所述计算机程序被所述处理器执行时，使得所述电子设备执行上述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的跨模态的文档处理方法的流程示意图之一。

图2为本申请实施例提供的文档的结构嵌入矩阵的逻辑框图。

图3为本申请实施例提供的文档处理的逻辑框图。

图4为本申请实施例提供的跨模态的文档处理方法的流程示意图之二。

图5为本申请实施例提供的跨模态的文档处理装置的功能框图之一。

图6为本申请实施例提供的跨模态的文档处理装置的功能框图之二。

图标：100-文档处理装置；110-获取单元；120-第一特征提取单元；130-第二特征提取单元；140-联合单元；150-表示单元；160-学习单元；200-文档处理装置；210-获取单元；220-响应单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。需要说明的是，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

下面结合附图，对本申请实施例作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，本申请实施例提供的跨模态的文档处理方法可以应用于电子设备，由电子设备执行或实现方法中的各步骤。本申请实施例的跨模态的文档处理方法能够将文档的文本内容转换为元知识图模型，有利于电子设备利用元知识图模型对文档内容进行完整识别与理解。

其中，文档为人类自然语言形成的文本。例如，文档可以是但不限于新闻稿件、论文稿件等文本。电子设备可以是，但不限于，智能手机、个人电脑(Personal Computer，PC)、平板电脑、服务器等。

电子设备可以包括相互耦合的存储模块、处理模块，存储模块内存储计算机程序，当计算机程序被处理模块执行时，使得电子设备可以执行下述的跨模态的文档处理方法中的各步骤。

在本实施例中，电子设备预先安装有自然语言处理模型、表示模型及图表示学习模型。自然语言处理模型包括但不限于语义特征提取模型、关键词提取模型、事件提取模型、结构提取模型、情感提取模型，用于提取文档的多维特征。表示模型可以包括但不限于Word2vec模型、Para2vec模型、BERT(Bidirectional Encoder Representations fromTransformers，Transformer的双向编码器表示)模型等，可以用于通过Word2vec模型、Para2vec模型、BERT模型等自然语言预处理模型将文本降维表示为矩阵或者张量，以实现文本的嵌入式表示。其中，Transformer为一种NLP(Natural Language Processing，自然语言处理)模型。

在本实施例中，电子设备可以将文档的嵌入式表示结果(通常为矩阵或张量)，存入图数据库(例如Neo4J，但不限于Neo4J)，或用网络表示学习实现文档的图表示。基于此，可以将嵌入式表示结果(矩阵或者张量)存入网络中的一个节点，存入后还可以利用该节点的矩阵特征为下游任务做输入。图表示学习模型可以是但不限于图卷积网络(GraphConvolution Networks，GCN)，用于学习图表示或嵌入式表示，以实现图特征学习、网络表示学习等。

在本实施例中，文档处理方法可以包括步骤S310至步骤S330，如下：

步骤S310，获取第一文档的文本模态数据及图像模态数据；

请参照图2，在提取文档的结构特征的过程中，可以将文档内容转换为两种模态数据。一种为文档的文本模态数据，另一种为图像模态数据。图像模态数据可理解为将文档转换为图像格式，例如，通过扫描仪、数码相机，将纸质文档转换为图像类的模态数据(或者，直接将Word文件转换为PDF文件)，即为文档的图像模态数据。另外，电子设备可以通过利用OCR(Optical Character Recognition，光学字符识别)，将文档转换为文本模态数据。

步骤S320，基于自然语言处理模型，将所述文本模态数据转换为字句特征嵌入向量，并根据所述文本模态数据提取第一文本要素特征。

在得到文本模态数据后，自然语言处理模型可以利用BERT或Word2vec或者CNN(Convolutional Neural Networks，卷积神经网络)等预处理模型，将原始文本表征为利于计算机模型处理的结果。

可理解地，假设文档的要素最小语义单元为句子，利用标注数据，可以使用但不限于BiLSTM(Bidirectional Long Short-Term Memory，长短期记忆网络)+CRF(ConditionalRandom Field，条件随机场)，对文档结构及要素标签进行学习，将文本模态数据转换为字句特征嵌入向量。

字句特征向量包括但不限于词语特征嵌入向量、符号特征嵌入向量、语法特征嵌入向量等语言特征嵌入向量。

通过上述的步骤S320，便可以从文本模态数据，提取得到文档的要素特征。

可理解地，第一文本要素特征为基于文本模态数据提取得到的文本要素特征。第二文本要素特征为基于图像模态数据提取得到的文本要素特征。文本要素特征包括但不限于公文的各级标题、发文字号、密级、紧急程度、签发人、发文机关等。其中，文档的预处理为本领域技术人员所熟知，这里不再赘述。

步骤S330，基于计算机视觉算法，通过目标检测算法和光学字符识别算法，定位目标位置并识别所述第一文档的文本内容，并根据所述图像模态数据提取第二文本要素特征；

在本实施例中，计算机视觉算法可以包括目标检测算法及光学字符识别算法。计算机视觉算法还可以包括但不限于CNN算法、R-CNN(Region-Convolutional NeuralNetworks，区域卷积神经网络)算法、VSE(Visual-Semantic Embeddings，视觉-语义对齐嵌入)算法、DeViSE(Deep Visual-Semantic Embedding，深度视觉-语义对齐嵌入)算法等。例如，通过CNN算法可以将图像模态数据转换为视觉特征嵌入向量。然后，基于图像模态数据，从文档中提取文档的文本要素特征，如公文的各级标题、发文字号、密级等要素特征。

可理解地，“目标”即为图像模态数据中的文字。“定位目标位置”即为确定在图像模态数据中文字的位置。在得到图像模态数据后，可以利用CNN目标检测框架训练、识别和定位文档的要素特征的位置坐标，提取句子要素标签，从而提取得到文档的第二文本要素特征，比如，公文的各级标题、发文字号、密级、紧急程度、签发人、发文机关等文本要素。

步骤S340，对所述第一文本要素特征及所述第二文本要素特征进行要素对齐，以确定所述第一文档的要素特征，并将所述要素特征表示为结构嵌入式矩阵，得到所述第一文档的结构特征。

在本实施例中，第一文本要素特征可理解为语言特征嵌入向量，第二文本要素特征可理解为视觉特征嵌入向量。在得到视觉特征嵌入向量及语言特征嵌入向量后，通过将嵌入向量进行联合，对要素特征进行对齐，便可以得到结构嵌入矩阵。文档的要素特征可以包括文档的结构特征及其他特征(比如公文的各级标题、发文字号等文本要素)。

要素对齐可理解为：句子实例对齐及标签对齐。句子实例对齐：位置坐标切割图像，在对应图像区域内应用Tesseract-OCR识别引擎进行内容识别，最后度量OCR结果与文本内容的Lenvenshtein距离，取满足阈值条件的文本内容为识别结果。阈值条件可以根据实际情况进行设置，这里不做具体限定。

标签对齐：文本模态数据转换为语言特征嵌入向量，并得到格式要素类别，记为第i类，用向量1表示，其中y_i等于1，其余为0。同时，从文档的视觉特征角度分析，将图像模态的文档数据转换为视觉特征嵌入向量，进行分类，判别为第j类，即输出向量1，其中y_j等于1，其余为0。用n维向量Y_i和Y_j来分别表示文本模态数据和图像模态数据的分类结果。

当Y_i＝Y_j时，表示文档的图像和文本标签对齐，分类类别一致；当Y_i≠Y_j时，通常而言，文档的视觉特征对于识别特殊位置(比如，标题位置、章节位置)的版头版记等更为准确，文档的文本特征(语义特征)在正文判别上更为准确，因此当Y_i判别为正文并与Y_j不一致时，优先选择Y_i作为类别；当Y_j判别为版头版记等特殊位置的类别并与Y_i不一致时，优先选择Y_j作为类别。基于此，便可以实现要素对齐。

在本实施例中，结构提取模型利用文本(语言)和图像(视觉)双模态特征进行联合表示学习，实现文档结构特征嵌入式表示，有利于准确完整地提取到文档的结构特征。文本模态数据和图像模态数据的相互监督学习，使得模型具备一定的语义推理能力，有利于降低结构提取模型所依赖的样本规模。

步骤S350，根据表示模型将所述第一文档的多维特征作嵌入式表示，所述多维特征包括所述结构特征，以及从所述第一文档中提取得到的语义特征、主题特征、事件特征及情感特征中的至少一种。

在本实施例中，表示模型可以包括但不限于Word2vec模型、Para2vec模型、BERT模型等。嵌入式表示可理解为通过Word2vec模型，或者Para2vec模型，或者BERT模型等自然语言预处理模型，将文本降维表示为矩阵或者张量。

请参照图3，电子设备可以通过表示模型，将得到的多维特征转换为文档的嵌入式表示。文档的嵌入式表示包括但不限于文档的特征矩阵、文档向量等。

一个文档经过嵌入式表示后可以转换为图表示。其中，一个文档的特征图中可以包括一个或多个用于描述多维特征的特征节点。在得到文档的图表示后，可以利用图神经网络学习图表示，以得到可以表示文档内容的元知识图模型。图神经网络可以为图表示学习模型，比如可以是但不限于GCN算法，用于对图表示进行学习。

可理解地，电子设备基于表示模型，可以将语义特征、主题特征、事件特征、结构特征、情感特征转换为对应的嵌入式表示或图表示。比如，电子设备可以将主题特征、事件特征、结构特征、情感特征转换为对应的特征图(或称为图数据)，该转换过程为本领域技术人员所熟知，这里不再赘述。

其中，Neo4j为一个高性能的NOSQL(Not Only SQL，非关系型数据库)，可以将结构化数据存储在网络上而不是表中。Neo4j也可以作为一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，该引擎将结构化数据存储在网络上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。

在步骤S350之前，方法还可以包括通过自然语言处理模型，提取文档的多维特征的步骤。自然语言处理模型包括用于提取所述多维特征的语义特征提取模型、关键词提取模型、事件提取模型、情感提取模型中的至少一种。例如，在步骤S350之前，方法还可以包括：

通过所述关键词提取模型提取所述第一文档中的主题特征；

通过所述事件提取模型提取所述第一文档的事件特征；

通过所述情感提取模型提取所述第一文档的情感特征。

请结合参照图2和图3，可理解地，文档的多维特征可以用文档嵌入式矩阵表示。语义特征提取模型可以提取文档的语义，包括字、词、句及语法等，然后将语义表示为语义嵌入式矩阵，以得到语义特征。关键词提取模型可以提取文档的关键词，并将关键词表示为关键词嵌入矩阵，以得到文档的主题特征。关键词提取模型可以为通过关键词提取算法、词嵌入式表示算法组合得到的模型。其中，关键词提取算法包括但不限于TextRank算法、TF-IDF(Term Frequency–Inverse Document Frequency,基于词频(Term Frequency)和逆文本频率指数(Inverse Document Frequency)的信息检索与数据挖掘的加权算法)和LDA(LatentDirichlet Allocation，隐狄利克雷分配模型，一种文档主题生成模型)算法等，用于从文档中提取关键词。词嵌入式表示算法包括而不限于N-Gram算法、Skip-Gram算法和CBOW(Continuous Bag of Words,连续词袋模型)算法等，用于将关键词表示为关键词嵌入矩阵。当然，关键词提取模型还可以用于基于文档中的关键词实现自动摘要生成，然后将生成的摘要表示为摘要嵌入矩阵。摘要嵌入矩阵及关键词嵌入矩阵可以作为文档的主题特征。

事件提取模型提取事件所采用的算法包括但不限于NN+CRF(NeuralNetwork，神经网络+Conditional Random Field，条件随机场)算法。事件提取模型可以提取文档中的各类事件。例如，事件提取模型可以基于NN+CRF算法，通过时间表达式识别、事件触发词识别、事件论元识别(命名实体识别)、事件分类和事件关系识别，从文档的文本中提取相应的事件。在提取得到事件后，通过句子的嵌入式表示，将文档所含事件表示为事件嵌入矩阵，以作为事件特征。

情感提取模型提取文档情感所采用的算法包括但不限于SVM(Support VectorMachine，支持向量机)算法、RNN(Recurrent Neural Network，循环神经网络)算法。情感提取模型可以通过对文档进行情感分析，通过情感分类、情感抽取，得到文档的情感，然后将情感表示为情感嵌入矩阵，以作为情感特征。

可理解地，自然语言处理模型提取的特征越多，越有利于电子设备完整理解文档内容。在电子设备理解文档内容后，便有利于电子设备根据实际需求进行文档的相似度识别、文档分类、文档归类等操作。

步骤S360，利用图表示学习模型对所述嵌入式表示进行学习，得到包括表征所述第一文档的元知识图模型。

在得到文档的嵌入式表示后，电子设备可以将嵌入式表示转换为文档的图表示，然后利用图表示学习模型对嵌入式表示进行学习，或者直接对嵌入式表示进行学习，以得到元知识图模型。图表示学习模型还可以学习其他文档的图表示或嵌入式表示。其中，图表示学习模型可以通过对图表示进行学习，得到能够对文档进行处理的能力的元知识图模型。例如，元知识图模型可以计算当前文档与已经学习的其他文档之间的相似度，可以基于设定的分类规则对文档进行分类等。基于此，电子设备可以将文档的文本数据处理转换为图像数据处理，能够更充分地利用图表示学习模型对非欧空间数据的处理能力。

在本实施例中，通过利用第一文档的文本模态数据及图像模态数据，对文本要素进行联合对齐，再对文档的多维特征进行嵌入式表示并学习，得到包括表征第一文档的元知识图模型。基于此，将文档的文本内容转换为元知识图模型，有利于电子设备利用元知识图模型更为完整地识别与理解文档内容。另外，在电子设备能够识别和理解文档的基础上，可以将文档降维，有利于将文档变为图模型嵌入大型知识库或者知识网络，为下游任务提供输入。下游任务可以是但不限于对文档进行相似度识别、文档分类等任务。

在得到元知识图模型后，方法还可以包括对元知识图模型进行应用的下游任务。例如，方法还可以包括：基于获取的操作指令，通过所述元知识图模型响应所述操作指令，以得到与所述操作指令对应的响应结果。

其中，操作指令可以根据实际情况进行确定。例如，操作指令可以为用于检测所述第一文档的相似度的指令，或者，操作指令可以为用于对文档进行分类的指令，或者，操作指令可以为用于搜索文档的操作指令。

作为一种可选的实施方式，所述元知识图模型包括利用所述图表示学习模型预先学习第二文档的嵌入式表示得到的表征所述第二文档的图模型，所述操作指令为用于检测所述第一文档的相似度的指令；基于获取的操作指令，通过所述元知识图模型响应所述操作指令，以得到与所述操作指令对应的响应结果，包括：

可理解地，第二文档可理解为不同于第一文档的文档。第二文档可以为一类文档或多类文档，可以作为图表示学习模型预先学习的嵌入式表示对应的历史文档。在图表示学习模型预先学习了第二文档的图表示之后，在对第一文档进行处理时，可以直接基于第一文档的嵌入式表示进行相似度处理，将第一文档的嵌入式表示与第二文档的嵌入式表示之间的相似度，作为第一文档与第二文档之间的相似度。其中，嵌入式表示可以被转换为文档的图表示，基于此，电子设备可以将文本数据处理转换为图像数据处理，有利于提高相似度分析的准确性及效率。

例如，电子设备为服务器时，操作指令可以为与服务器通信连接的用户终端发送的指令。比如，用户需要分析第一文档与服务器中的第二文档的相似度时，用户可以通过用户终端将第一文档发送至服务器，服务器在接收到用户终端发送的用于相似度分析的操作指令后，服务器可以将第一文档转换为第一文档的嵌入式表示，然后利用图表示学习模型对嵌入式表示进行学习。图表示学习模型基于预先学习的第二文档的嵌入式表示，便可以通过嵌入式表示相似度的分析处理，得到与第一文档之间的相似度。当嵌入式表示为图表示时，电子设备分析两个图表示的相似度的方式可理解为比对两个图像的相似度，图像相似度比对的方式为本领域技术人员所熟知，这里不再赘述。

基于上述实施方式，在图表示学习模型学习了相应文档的嵌入式表示后，元知识图模型能够更为完整地表示文档的内容，因此，在作相似度分析时，能够更准确可靠地得到文档之间的相似度。

当然，在其他实施方式中，电子设备也可以作为用户终端，例如个人电脑。电子设备作为个人电脑时，操作指令可以为用户操作鼠标、键盘等输入的用于比对文档相似度的指令。

作为一种可选的实施方式，所述元知识图模型包括利用所述图表示学习模型预先学习多个文档的嵌入式表示得到的相应图模型，基于获取的操作指令，通过所述元知识图模型响应所述操作指令，以得到与所述操作指令对应的响应结果，还包括：

在本实施例中，图表示学习模型在学习多个文档的嵌入式表示后，可以得到文档的嵌入式表示的数据库。当用户需要进行有目的的搜索时，用户可以基于实际需求输入相应的关键词，以作为搜索信息。电子设备在接收到搜索信息后，利用元知识图模型，便可以计算搜索信息与各个文档的关联度。在元知识图模型能够更完整地表示文档内容的基础上，电子设备便能更准确地通过原知识图模型确定搜索信息与各文档之间的关联度。然后，为用户确定关联度最大的指定数量的文档以作为推荐文档。该推荐文档即为用户基于搜索信息得到的搜索结果。

其中，指定数量可以根据实际情况进行设置，可以为一个或多个。例如，指定数量可以为5个、10个等数量。

作为一种可选的实施方式，所述操作指令为用于对第一文档进行分类的指令，基于获取的操作指令，通过所述元知识图模型响应所述操作指令，以得到与所述操作指令对应的响应结果，还包括：

在本实施例中，预设分类规则可以根据实际情况进行确定。例如，用户可以以类似于图书的分类规则，对文档进行分类。例如，划分为人文类、自然类等。当然，文档的类型还可以细分为其他类型，比如，还可以包括历史类、军事类等，这里不再赘述。其中，同一个文档可以具有一个或多个分类标签，例如，一个文档可以同时被归类为历史类、军事类。

可理解地，在元知识图模型能够更完整表示文档内容的基础上，利用元知识图模型对文档进行分类，有利于提高分类的准确性及可靠性。

在本实施例中，当文档为国家公文类的文档时，通过上述的文档处理方法，可以将国家公文全部做图表示，并嵌入图模型，以得到公文的元知识图模型。在得到公文的元知识图模型后，便可以利用元知识图模型实现检索、智能问答及下游基于嵌入式向量的自然语言任务(比如相似度识别)。基于此，有利于提高对公文处理的准确性及可靠性。

基于上述设计，本发明结合文本和文本视觉图像双模态处理文档，综合利用两个模态实现特征提取，基于文本预训练的文档要素实体提取和基于跨模态联合学习的元知识提取，能够实现元数据提取和知识构建，有利于知识库的构建或知识网络搭建，为下游任务提供一种表示学习的方式。

本发明实施例提供的方法的有益效果可以包括：通过双模态相结合的方式提取文档的元数据，有利于电子设备完整识别、理解文档内容，从而有利于提高对文档的处理效果，实现基于文档的元知识构建及知识网络搭建，为下游任务提供一种表示学习的方式。例如构建的元知识网络有利于提高对文档相似度识别的可靠性、有利于提高智能问答的准确性等。

请参照图4，本申请还提供另一种跨模态的文档处理方法，应用于存储有元知识图模型的电子设备，该元知识图模型可以为通过如图1所示的跨模态的文档处理方法得到的元知识图模型。方法可以包括步骤S410及步骤S420，如下：

步骤S410，获取用于对文档进行处理的操作指令；

步骤S420，通过所述元知识图模型响应所述操作指令，以得到与所述操作指令对应的响应结果。

可理解地，操作指令可以根据实际情况进行确定，可以是但不限于用于文档相似度确定的指令、用于搜索文档的指令、用于文档分类的指令等。

例如，当电子设备为服务器时，该服务器可以通过网络与用户终端建立通信连接。用户可以通过用户终端向服务器上传需要进行识别处理的文档。识别处理即为对文档进行相似度确定、文档分类等操作。服务器在接收到用户终端发送的操作指令后，便可以根据操作指令的内容，执行相应的操作，并得到响应结果。

可理解地，步骤S420的详细内容可以参见上述的“基于获取的操作指令，通过所述元知识图模型响应所述操作指令，以得到与所述操作指令对应的响应结果”这一步骤所包括的内容。基于此，电子设备可以快速准确地对文档执行相似度识别、文档搜索、文档归类等操作。

请参照图5，本申请实施例还提供一种跨模态的文档处理装置100，可以应用于上述的电子设备中，用于执行或实现方法中的各步骤。文档处理装置100包括至少一个可以软件或固件(Firmware)的形式存储于存储模块中或固化在电子设备操作系统(OperatingSystem，OS)中的软件功能模块。例如，文档处理装置100可以包括获取单元110、第一特征提取单元120、第二特征提取单元130、联合单元140、表示单元150及学习单元160。

获取单元110，用于获取第一文档的文本模态数据及图像模态数据。

第一特征提取单元120，用于基于自然语言处理算法，将所述文本模态数据转换为字句特征嵌入向量，并根据所述文本模态数据提取第一文本要素特征。

第二特征提取单元130，用于基于计算机视觉算法，通过目标检测算法和光学字符识别算法，定位目标位置并识别所述第一文档的文本内容，并根据所述图像模态数据提取第二文本要素特征。

联合单元140，用于对所述第一文本要素特征及所述第二文本要素特征进行要素对齐，以确定所述第一文档的要素特征，并将所述要素特征表示为结构嵌入式矩阵，得到所述第一文档的结构特征。

表示单元150，用于根据表示模型将所述第一文档的多维特征作嵌入式表示，所述多维特征包括所述结构特征，以及从所述第一文档中提取得到的语义特征、主题特征、事件特征及情感特征中的至少一种。

学习单元160，用于根据图表示学习模型对所述嵌入式表示进行学习，得到包括表征所述第一文档的元知识图模型。

可选地，文档处理装置100还可以包括第三特征提取单元，所述自然语言处理模型包括用于提取所述多维特征的语义特征提取模型、关键词提取模型、事件提取模型、情感提取模型中的至少一种，在根据表示模型将所述第一文档的多维特征作嵌入式表示之前，所述第三特征提取单元还用于：

通过所述关键词提取模型提取所述第一文档中的主题特征；

通过所述事件提取模型提取所述第一文档的事件特征；

通过所述情感提取模型提取所述第一文档的情感特征。

文档处理装置100还可以包括响应单元，基于获取的操作指令，通过所述元知识图模型响应所述操作指令，以得到与所述操作指令对应的响应结果。

可选地，所述元知识图模型包括利用所述图表示学习模型预先学习第二文档的嵌入式表示得到的表征所述第二文档的图模型，所述操作指令为用于检测所述第一文档的相似度的指令，响应单元还可以用于：基于所述操作指令，通过所述元知识图模型确定所述第一文档的嵌入式表示与所述第二文档对应的嵌入式表示的相似度，并将所述相似度作为所述响应结果。

可选地，元知识图模型包括利用所述图表示学习模型预先学习多个文档的嵌入式表示得到的相应图模型，响应单元还可以用于：基于所述操作指令中的搜索信息，通过所述元知识图模型确定所述搜索信息与所述多个文档的关联度，所述搜索信息包括索引关键词、用户的阅读习惯特征中的至少一种；从所述多个文档中选择与所述搜索信息关联度最大的指定数量的文档为推荐文档，并将所述推荐文档作为所述响应结果。

可选地，操作指令为用于对第一文档进行分类的指令，响应单元还可以用于：基于所述操作指令及预设分类规则，通过所述元知识图模型确定所述第一文档的类别。

请参照图6，在本实施例中，电子设备中可以预先存储有元知识图模型。跨模态的文档处理装置200可以用于执行或实现如图4所示的文档处理方法中的各步骤。文档处理装置200可以包括获取单元210及响应单元220。

获取单元210，获取用于对文档进行处理的操作指令；

响应单元220，通过所述元知识图模型响应所述操作指令，以得到与所述操作指令对应的响应结果。

可理解地，响应单元220还可以用于执行前述文档处理装置100中的响应单元可以执行的各步骤，这里不再赘述。

在本实施例中，电子设备还可以包括其他模块。例如，电子设备还可以包括通信模块，用于与其他设备建立通信连接。处理模块、存储模块以及跨模态的文档处理装置100、文档处理装置200各个元件之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

处理模块可以是一种集成电路芯片，具有信号的处理能力。上述处理模块可以是通用处理器。例如，该处理器可以是中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。

存储模块可以是，但不限于，随机存取存储器，只读存储器，可编程只读存储器，可擦除可编程只读存储器，电可擦除可编程只读存储器等。在本实施例中，存储模块可以用于存储自然语言处理模型、表示模型、图表示学习模型。当然，存储模块还可以用于存储程序，处理模块在接收到执行指令后，执行该程序。

需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备的具体工作过程，可以参考前述方法中的各步骤对应过程，在此不再过多赘述。

本申请实施例还提供一种计算机可读存储介质。可读存储介质中存储有计算机程序，当计算机程序在计算机上运行时，使得计算机执行如图1或图4所示的文档处理方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现，基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

综上所述，本申请提供一种跨模态的文档处理方法、装置及电子设备。方法包括：获取第一文档的文本模态数据及图像模态数据；基于自然语言处理模型，将文本模态数据转换为字句特征嵌入向量，并根据文本模态数据提取第一文本要素特征；基于计算机视觉算法，通过目标检测算法和光学字符识别算法，定位目标位置并识别第一文档的文本内容，并根据图像模态数据提取第二文本要素特征；对第一文本要素特征及第二文本要素特征进行要素对齐，以确定第一文档的要素特征，并将要素特征表示为结构嵌入式矩阵，得到第一文档的结构特征；根据表示模型将第一文档的多维特征作嵌入式表示，多维特征包括结构特征，以及从第一文档中提取得到的语义特征、主题特征、事件特征及情感特征中的至少一种；利用图表示学习模型对嵌入式表示进行学习，得到包括表征第一文档的元知识图模型。在本方案中，通过利用第一文档的文本模态数据及图像模态数据，对文本要素进行联合对齐，再对文档的多维特征进行嵌入式表示并学习，得到包括表征第一文档的元知识图模型。基于此，将文档的文本内容转换为元知识图模型，有利于电子设备利用元知识图模型更为完整地识别与理解文档内容。

在本申请所提供的实施例中，应该理解到，所揭露的装置、系统和方法，也可以通过其它的方式实现。以上所描述的装置、系统和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种跨模态的文档处理方法，其特征在于，所述方法包括：

获取第一文档的文本模态数据及图像模态数据；

2.根据权利要求1所述的方法，其特征在于，所述自然语言处理模型包括用于提取所述多维特征的语义特征提取模型、关键词提取模型、事件提取模型、情感提取模型中的至少一种，在根据表示模型将所述第一文档的多维特征作嵌入式表示之前，所述方法包括：

通过所述关键词提取模型提取所述第一文档中的主题特征；

通过所述事件提取模型提取所述第一文档的事件特征；

通过所述情感提取模型提取所述第一文档的情感特征。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于获取的操作指令，通过所述元知识图模型响应所述操作指令，以得到与所述操作指令对应的响应结果。

4.根据权利要求3所述的方法，其特征在于，所述元知识图模型包括利用所述图表示学习模型预先学习第二文档的嵌入式表示得到的表征所述第二文档的图模型，所述操作指令为用于检测所述第一文档的相似度的指令；基于获取的操作指令，通过所述元知识图模型响应所述操作指令，以得到与所述操作指令对应的响应结果，包括：

5.根据权利要求3所述的方法，其特征在于，所述元知识图模型包括利用所述图表示学习模型预先学习多个文档的嵌入式表示得到的相应图模型，基于获取的操作指令，通过所述元知识图模型响应所述操作指令，以得到与所述操作指令对应的响应结果，还包括：

6.根据权利要求3所述的方法，其特征在于，所述操作指令为用于对第一文档进行分类的指令，基于获取的操作指令，通过所述元知识图模型响应所述操作指令，以得到与所述操作指令对应的响应结果，还包括：

7.一种跨模态的文档处理方法，其特征在于，应用于存储有元知识图模型的电子设备，所述元知识图模型为如权利要求1或2所述的元知识图模型，所述方法包括：

获取用于对文档进行处理的操作指令；

8.一种跨模态的文档处理装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括第三特征提取单元，所述自然语言处理模型包括用于提取所述多维特征的语义特征提取模型、关键词提取模型、事件提取模型、情感提取模型中的至少一种，在根据表示模型将所述第一文档的多维特征作嵌入式表示之前，所述第三特征提取单元还用于：

通过所述关键词提取模型提取所述第一文档中的主题特征；

通过所述事件提取模型提取所述第一文档的事件特征；

通过所述情感提取模型提取所述第一文档的情感特征。

10.一种电子设备，其特征在于，所述电子设备包括相互耦合的存储器、处理器，所述存储器内存储计算机程序，当所述计算机程序被所述处理器执行时，使得所述电子设备执行如权利要求1-6中任一项所述的方法，或执行如权利要求7所述的方法。