CN116796288A

CN116796288A - 一种面向工业文档的多模态信息提炼方法和系统

Info

Publication number: CN116796288A
Application number: CN202310755089.1A
Authority: CN
Inventors: 胡建洋; 高永彬; 吴晨谋; 方志军; 熊玉洁; 胡建鹏; 李媛媛
Original assignee: Shanghai University of Engineering Science
Current assignee: Shanghai University of Engineering Science
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-09-22

Abstract

本发明提供一种面向工业文档的多模态信息提炼方法和系统；所述方法包括以下步骤：从工业文档中获取半结构化的第一文本信息和非结构化的第二文本信息；基于第一文本信息提取文本特征；基于第二文本信息提取图像特征；根据文本特征和图像特征获取多模态融合特征；基于多模态融合特征对工业文档进行整体观点提炼；本发明通过融合文本特征和图像特征，能够实现对工业文档的整体观点进行提炼，提高了观点提炼的准确率；整个过程中不需要额外的人工操作，降低了人工成本，提高了生产效率；此外，本发明提供的面向工业文档的多模态信息提炼方法，具有一定的迁移性，可以适用于不同垂直领域的工业文档，以解决工业文档抽取问题。

Description

一种面向工业文档的多模态信息提炼方法和系统

技术领域

本发明涉及信息处理领域，尤其涉及工业文档的处理技术，特别是一种面向工业文档的多模态信息提炼方法和系统。

背景技术

工业文档是工业在生产设计、加工制造等活动中形成并归档的文件材料，蕴含着大量与生产、经营有关的知识。

现阶段企业对于工业文档主要采用人工查阅的方式寻找有用的信息以便于生产经营，但是工业文档数据量大，结构复杂，人工查阅的方式效率低下。现有的文档抽取技术或是缺乏对文本、图片的语义理解，难以处理图片中含有关键信息，或是没有考虑文本和图片有交互的情况；同时，现有技术如果想在特定工业文档中得到较好的结果，或是需要针对该特定工业文档中进行统计或模型训练，或是需要人工针对指定文档库设计分词、数据清洗等预处理工作，不同的语料库间很难进行模型迁移，泛化性较差。

如何高效准确对多模态工业文档数据进行提炼，是建设多模态工业知识库过程中亟待解决的关键问题。

发明内容

本发明的目的在于提供一种面向工业文档的多模态信息提炼方法和系统，用于解决上述背景技术中提到的问题。

第一方面，本发明提供一种面向工业文档的多模态信息提炼方法，包括以下步骤：从工业文档中获取半结构化的第一文本信息和非结构化的第二文本信息；基于所述第一文本信息提取文本特征；基于所述第二文本信息提取图像特征；根据所述文本特征和所述图像特征获取多模态融合特征；基于所述多模态融合特征对所述工业文档进行整体观点提炼。

本发明中，通过融合文本特征和图像特征，能够实现有效地对工业文档的整体观点进行提炼，提高了观点提炼的准确率；在该工业文档的信息化过程中不需要额外的人工操作，降低了人工成本，提高了生产效率；此外，本发明提供的面向工业文档的多模态信息提炼方法，具有一定的迁移性，可以适用于不同垂直领域的工业文档，以解决工业文档抽取问题。

于第一方面的一实现方式中，所述从工业文档中获取半结构化的第一文本信息和非结构化的第二文本信息包括：分析所述工业文档，以将所述工业文档划分为结构化信息、半结构化信息和非结构化信息三个部分；对所述半结构化信息和所述非结构化信息分别进行筛选，获取所述第一文本信息和所述第二文本信息。

于第一方面的一实现方式中，所述从工业文档中获取半结构化的第一文本信息和非结构化的第二文本信息还包括：基于工业知识图谱和工业概念库对所述结构化信息进行抽取。

于第一方面的一实现方式中，所述基于所述第一文本信息提取文本特征包括：采用基于工业概念库的实体增强算法对所述第一文本信息进行实体关系抽取，以获取所述文本特征。

于第一方面的一实现方式中，所述基于所述第二文本信息提取图像特征包括：基于图像编码器和预训练语言模型提取所述第二文本信息中的细粒度语义信息；输出与所述细粒度语义信息相关的所述图像特征。

于第一方面的一实现方式中，所述根据所述文本特征和所述图像特征获取多模态融合特征包括：将所述文本特征和所述图像特征映射到同一语义空间，获取图像语义向量组和文本语义向量组；计算所述图像语义向量组与所述文本语义向量组之间的语义相似度；根据所述语义相似度进行所述文本特征和所述图像特征之间的特征融合，获取所述多模态融合特征。

于第一方面的一实现方式中，所述基于所述多模态融合特征对所述工业文档进行整体观点提炼包括：根据所述多模态融合特征获取观点片段，以基于所述观点片段实现对所述工业文档的整体观点提炼。

第二方面，本发明提供一种面向工业文档的多模态信息提炼系统，包括：第一获取模块，用于从工业文档中获取半结构化的第一文本信息和非结构化的第二文本信息；第一提取模块，用于基于所述第一文本信息提取文本特征；第二提取模块，用于基于所述第二文本信息提取图像特征；第二获取模块，用于根据所述文本特征和所述图像特征获取多模态融合特征；观点提炼模块，用于基于所述多模态融合特征对所述工业文档进行整体观点提炼。

第三方面，本发明提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的面向工业文档的多模态信息提炼方法。

第四方面，本发明提供一种电子设备，包括：处理器及存储器；所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行上述的面向工业文档的多模态信息提炼方法。

如上所述，本发明所述的面向工业文档的多模态信息提炼方法、系统、介质及电子设备，具有以下有益效果：

与现有技术相比，本发明从文档类型的高效处理，潜在规则的深度挖掘，关键信息的高度凝练等角度出发，开发了一套面向工业文档的多模态信息提炼方法，提高了观点提炼的准确率。

附图说明

图1显示为本发明的面向工业文档的多模态信息提炼系统于一实施例中的结构示意图。

图2显示为本发明的工业文档解析子系统于一实施例中的工作原理图。

图3显示为本发明的半结构化数据抽取子系统于一实施例中的工作原理图。

图4显示为本发明的基于工业概念库的实体增强算法于一实施例中的工作原理图。

图5显示为本发明的非结构化数据抽取子系统于一实施例中的工作原理图。

图6显示为本发明的多模态特征融合子系统于一实施例中的工作原理图。

图7显示为本发明的文档观点提炼子系统于一实施例中的工作原理图。

图8显示为本发明的面向工业文档的多模态信息提炼方法于一实施例中的流程图。

图9显示为本发明的从工业文档中获取半结构化的第一文本信息和非结构化的第二文本信息于一实施例中的流程图。

图10显示为本发明的基于第二文本信息提取图像特征于一实施例中的流程图。

图11显示为本发明的根据文本特征和图像特征获取多模态融合特征于一实施例中的流程图。

图12显示为本发明的面向工业文档的多模态信息提炼系统于另一实施例中的结构示意图。

具体实施方式

以下通过特定的具体实施例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

参阅图1至图12。本发明以下实施例提供了面向工业文档的多模态信息提炼方法、系统、介质及电子设备，与现有技术相比，本发明从文档类型的高效处理，潜在规则的深度挖掘，关键信息的高度凝练等角度出发，开发了一套面向工业文档的多模态信息提炼方法，提高了观点提炼的准确率。

下面通过具体实施例来解释说明本发明的面向工业文档的多模态信息提炼方法。

现有技术中，对于工业文档整体观点提炼任务，其核心挑战在于如何利用多模态数据间的交互作用信息，以提升抽取的准确率。

模态数据间的交互作用指的是不同模态之间的有意义联系，它是多模态数据互为补充的重要途径，多模态融合的工业文档观点提炼需要找到正确融合各模态信息的有效方式，捕捉不同模态间的语义信息，以最大化融合各模态信息以及各模态间的交互信息。

针对以上问题，于一实施例中，本发明提供了一种面向工业文档的多模态信息提炼系统，利用上述的面向工业文档的多模态信息提炼方法；具体地，首先，依据工业文档结构、内容等角度，对输入文档进行初步的解析与分类；其次，针对文档内半结构化信息，使用I-BERT模型抽取工程相关的实体与关系，针对文档内非结构化信息(主要为图像)，基于CLIP模型与GPT2模型提炼非结构化内容中的关键词；然后，针对文档内结构化信息中提取的特征向量与非结构化信息中提取的特征向量，将其映射到同一语义空间中，消除特征维度上存在的差异性，实现多模态特征融合；最后，基于工业文档文本数据的文档名称、多模态融合特征等多个因素，实现对文档整体观点提炼。本方法无需人工分词，减少人工工作量，在不同工业文档具备很好的迁移性，以解决工业文档抽取问题。

如图1所示，本发明的面向工业文档的多模态信息提炼系统，包括：

1)工业文档解析子系统11，该工业文档解析子系统会对输入的工业文档进行快速分析，将文档中信息内容根据结构化、半结构化与非结构化进行分类，对结构化信息进行抽取，对半结构化、非结构化信息进行筛选。

对工业文档进行初步解析与分类的具体实现方式如图2所示，具体描述如下：

工业文档解析子系统由内容分类与内容筛选模块构成。该系统可以在实际工业生产中的应用场景包括但不限于：快速有效地处理海量文档、提高文档信息的处理效率和精度、缩短文档处理时间和降低人力成本等。

步骤(1.1)、内容分类模块。针对文档解码后的内容，分析整个文档的格式、字号、标识符等方面，将文档划分为结构化、半结构化和非结构化三个部分，以便进一步进行信息的处理和分析。

步骤(1.2)、内容筛选模块。基于大规模数据的预训练神经网络模型和工业级知识图谱、概念库，对结构化、半结构化和非结构化信息进行筛选。

对于结构化信息，该系统采用了文本相似度匹配算法，并以工程概念树作为匹配模板，从文档结构化内容中捕获文件名、标题、目录关系树、标题关系树、编码格式(包括保密等级)等显性的特征，便于后续进一步优化和提升文档信息的处理效率和精度。

对于半结构化信息，系统采用内容相关性分析算法来提取文档内与工业强相关的文本内容和表格等信息，从而进一步完善文档信息的处理和分析。

对于非结构化信息(图像)，系统使用工业图像数据微调后的ResNet模型对图像进行筛选。具体来说，选择ResNet-50图像分类模型作为基础模型，根据工业领域数据进行微调，基于设定的工业图像种类，对原模型的结构与参数进行更新，使模型更贴合当前数据分布。微调过程中，采用动态剪枝的方法进行微调训练，并使用5折交叉验证的方式对模型进行测试，全方面地确保模型的泛化性能。最后，使用微调后的ResNet模型对图像筛选，仅保留强相关的实景图、流程图和设计图等信息，从而提高文档信息处理的准确度和效率。

2)半结构化数据抽取子系统12，针对文档内半结构化的文本信息，子系统使用BERT作为基模型，根据工业概念库优化了实体关系抽取模型，提取文本内容中与工程强相关的实体与关系三元组以及文本特征。

针对文档内半结构化文本信息，基于BERT模型抽取工程相关实体与关系的具体实现方式如图3所示，具体描述如下：

步骤(2.1)、工业概念库的定义。工业概念库是一种对工业领域相关知识和数据进行系统组织和表达的信息结构，它由实体类别、实体属性和实体关系三个基本要素构成。实体类别是工业领域中具有相同特征或功能的对象的类别，如产品、设备、材料、工艺等。实体属性是用来描述实体类别的特征或状态的信息，如名称、型号、规格、参数等。实体关系是指不同实体类别之间的联系或依赖，如属于、组成、生产、消耗等。工业概念库的构建需要参考专家经验、工业流程图和产品概念树等资料，通过多次迭代和调整，优化和完善信息结构，使其能够有效地支持工业设计、工程、管理等各个环节的决策和创新。

步骤(2.2)、基于工业概念库的实体增强算法。其次，本系统采用基于工业概念库的实体增强算法进行实体关系抽取，采用先抽取实体后抽取关系的实体关系抽取模式，实体抽取模型的输入为：

X＝(x₁,x₂,...,x_n)；

其中，x_i代表半结构化文本中的第i个句子。

在实体抽取的过程中使用工业特化BERT基模型(I-BERT)，将文档中的字符编码成token。给定半结构化文本X，其编码嵌入表示F_t公式如下：

F_t＝bert_industry(X)；

为了解决嵌套实体的问题，采用基于跨度的实体抽取模式，提取所有可能的跨度排列S，通过SoftMax对每个跨度进行实体类型判断。给定跨度s_i∈S，跨度表示h_e(s_i)定义为：

其中，x_start(i)为跨度s_i开始字符的嵌入，x_end(i)表示跨度s_i结束字符的嵌入，为跨度宽度特征的嵌入表示。

为了提升实体抽取的准确率，本系统提出基于概念库的实体增强算法如图4所示，在跨度定义上，根据工业概念库、常识库、实体长度分布统计、工业领域专家经验等实现实体跨度的自适应。通过文本相似度匹配算法计算当前跨度与工业概念库中相关概念之间的相似度，进一步完善实体抽取，提升实体抽取的准确率。

在关系分类时，在输入层引入实体的类别信息，将实体边界和类型作为标识符加入到实体Span前后，然后作为关系模型的输入，引入格式如下：

<S:Pn>和</S:Pn>：代表实体类型为Product的头实体，<S>是头实体跨度的第一个token，</S>是最后一个token。

<O:Pn>和</O:Pn>：代表实体类型为Product的尾实体，<O>是尾实体跨度的第一个token，</O>是最后一个token。

关系模型的输入表示如下：

rel_input＝...＜S:e_i＞,x_start(i),...,x_end(i),＜/S:e_i＞，

...＜O:e_i＞,x_start(i),...,x_end(i),＜/O:e_i＞，....

在关系抽取时使用I-BERT将带有实体类型的rel_input编码成token，对每个实体对中第一个token的编码进行拼接，然后进行SoftMax分类，为了学习实体和关系的不同上下文表示，实体模型和关系模型采取的两个独立的预训练模型进行编码(不共享参数)。

步骤(2.3)、实体与关系的损失函数。基于工业特化BERT基模型抽取工程相关实体与关系的损失函数如下：

L＝αL_e+βL_r；

其中，表示训练集中s_i的真实实体类型，/>表示训练数据中的跨度对s_i，s_j的真实关系类型，L是整个模型的损失，L_e代表实体分类的损失，L_r代表关系分类的损失，α、β分别为实体分类损失和关系分类损失的权重系数，通过专业领域先验经验知识及后续智能学习获取。

3)非结构化数据抽取子系统13，针对文档内实景图，子系统基于CLIP模型与GPT2模型提取图像中的细粒度语义信息，输出相关的关键词与图像特征。

针对文档内非结构化信息，子系统基于CLIP模型与GPT2模型抽取不同粒度的语义信息来提炼关键词的实现方式如图5所示，对于文档内的流程图、设计图，本系统将其作为文档信息结构树中的属性，对于实景图，非结构化数据抽取子系统基于CLIP模型与GPT2模型提炼其中的关键词，其步骤如下：

步骤(3.1)、图像编码器。采用CLIP视觉编码器，这是一种基于Transformer结构的先进的图像编码器，它能够通过大规模的图像-文本对数据集进行自监督学习，从而提取图像中与语言相关的视觉图像表征视觉图像特征是指能够反映图像内容、风格、情感等方面信息的一些属性，如颜色、形状、纹理、边缘等，具体公式如下：

式中，gⁱ代表图像i。

步骤(3.2)、特征映射网络。使用多层感知机作为CLIP与GPT2模型之间的桥梁，将经过CLIP模型获取到的图像视觉特征输入MLP映射网络(多层全连接层)，映射成视觉前缀提示向量p，映射网络的公式如下：

式中，p代表图像向量经过MLP映射网络后的嵌入向量，每个向量的维数与文本嵌入相同。

步骤(3.3)、文本解码器。将步骤(3.2)生成的视觉前缀提示向量p当作生成图像描述的前缀，采用GPT2模型生成图像所描述的关键词。

在训练阶段，本系统为了模型的轻量化，只训练中间的特征映射网络，保持CLIP以及GPT2模型原始的参数。在预测阶段，本系统使用CLIP编码器和映射网络提取输入图像的视觉前缀，基于视觉前缀使用文本解码器生成以视觉前缀为条件的关键词，并根据语言模型输出逐一预测下一个token。

4)多模态特征融合子系统14，将半结构化信息提取的文本特征与非结构化信息中提取的图像特征映射到同一语义空间，根据语义相似度生成特征掩码，将两种模态特征进行融合，为观点提炼子系统提供支持。

针对文档内结构化信息中提取的特征向量与非结构化信息中提取的特征向量，实现多模态数据融合。考虑到直接将图像表征映射到文本表征空间会丢失大量的纹理信息和几何信息，本发明摒弃了使用图像表征增强文本表征的多模态融合方法。根据同一目标物体所提取不同形式表征的语义信息是相同的假设，本发明使用语义空间作为映射平面，同时将文本表征和图像表征映射到相同的语义空间，进行不同模态特征的融合，具体实现方式如图6所示。具体描述如下：

步骤(4.1)、多模态表征对齐映射。本发明采用无监督学习的自组织映射算法，对步骤3)中CLIP模型所提取的图像表征通过竞争性学习进行聚类，得到图像语义向量组具体而言，自组织网络以高斯分布初始化映射中节点的权值向量，对于某个图像特征/>首先根据欧式距离函数计算实值向量/>和该映射节点的权值向量之间的相似度，将距离最小的节点归为最佳匹配单元，其会随着迭代次数和距离而降低。对于权值W_v(s)的更新公式为：

式中，s表示步长，u表示最佳匹配单元，a(s)表示学习系数，Θ(u,v,s)表示神经元u和v在步长为s下的邻近函数。训练后，将图像表征中相似的元素视为同一语义信息的表示，将实值向量的图像特征转化为多个相似语义信息的图像语义向量组与此类似，对步骤2)中Bert模型提取的文本特征/>采用同一算法，将其投影到与的语义空间中，组成文本语义向量组/>

步骤(4.2)、多模态表征对齐融合。为了融合相似语义不同模态的特征，本发明首先计算两种模态的特征向量组中的余弦距离，寻找相似度相似的模态特征。具体而言，对于文本语义向量组中任意一个特征向量k_i，计算与图像语义向量组中每一个特征向量之间的余弦距离，将余弦距离最小的特征向量[k_i,r_j]视视为近似语义，并进行融合为m_n＝[k_i,r_j]，得到最终的多模态融合特征组M＝{m₁,m₂,m₃…m_n}，其公式表示如下：

式中，Sim(*)为相似度度量公式,对于任意一个k_i与r_j，当两者的相似度为所有向量组合中最高时，则进行特征融合。

5)文档观点提炼子系统15，基于工业文档数据的文档名称、文档中的多模特特征等多个因素，实现对文档整体观点提炼。

基于多模态融合特征、工业文档文本数据等多个因素，实现对文档整体观点提炼，具体实现方式如图7所示，具体描述如下：

步骤(5.1)、观点片段筛选模块。本发明采用分类任务的方法实现此模块，为所有(句子、文档)对构建分类器。具体来说，给定文档某一章节z的多模态融合特征M或文本特征F_t，将其输入到Sigmoid分类器中进行计算，以确定是否含有对文档的观点。

其中，m为多模态融合特征，F_t为文本特征，k为句子包含对文档观点的概率。

本发明设置τ为观点容忍度，将k≤τ的句子视为可能代表文档观点的内容，将所有连续的观点句串联起来形成观点片段。

步骤(5.2)、面向文档的观点抽取模块。本发明采用跨度排序的方法实现此模块，给定观点片段u，直接列举出文档名称n中所有跨度，选择与观点片段相关的最佳跨度作为观点片段u的目标论点。具体而言，取文档名称/大章节标题/小章节标题n中的跨度a，将观点片段u与跨度a共同作为模型的输入，输入到观点目标抽取BERT(bert_concept)中编码，通过Sigmoid分类器得到跨度a作为观点片段u的得分，将得分最高的跨度作为观点片段u的目标论点。

通过步骤5)及以上描述，实现文档整体观点提炼。给定工业文档，通过工业文档解析子系统，对输入文档进行快速分析，将文档中的内容根据结构化、半结构化与非结构化进行分类。对于文档内的结构化信息，捕获文档中的文件名、标题、目录关系树、标题关系树、编码格式(包括保密等级)等显性的特征。对于文档内的半结构化内容，保留强相关文本段落和表格等信息，通过半结构化数据抽取子系统抽取半结构化内容中与工业强相关的实体与关系。对于文档内的非结构化内容，保留强相关的实景图、流程图和设计图等信息，通过非结构化数据抽取子系统生成对应的图像描述。基于文档结构化信息中提取的特征向量与非结构化信息中提取的特征向量，实现多模态数据融合。基于多模态融合特征、工业文档文本数据等多个因素，实现对文档整体观点提炼，通过提炼到的文档观点结合其他子系统的输出，最终得到文档结构树，为后续下游应用(文档检索、图谱构建)提供支撑。

于上述实施例中，本发明旨在提供一种面向工业文档的多模态信息提炼系统。该系统利用半结构化数据抽取子系统来提取与工业相关的实体与关系，并使用非结构化抽取子系统提取图像中的关键信息。通过融合文本特征和图像特征，该系统能够有效地对文档整体观点进行提炼。此方法在文档信息化过程中不需要额外的人工操作，降低了人工成本，提高了生产效率。此外，该系统具有一定的迁移性，可以适用于不同垂直领域的工业文档，以解决工业文档抽取问题。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行详细描述。

如图8所示，于一实施例中，本发明的面向工业文档的多模态信息提炼方法，包括以下步骤：

步骤S1、从工业文档中获取半结构化的第一文本信息和非结构化的第二文本信息。

具体地，依据工业文档结构、内容等角度，对输入文档进行快速分析，对结构化信息进行信息抽取，对半结构化与非结构化信息进行筛选。

于一实施例中，针对文档解码后的信息，首先，依据格式、属性和标识符等信息将整个文档划分为结构化、半结构化与非结构化三部分内容。

其次，基于工业知识图谱与工业概念库对结构化信息进行抽取，基于相关性分析对半结构化信息进行筛选，基于预训练卷积神经网络模型对非结构化信息进行筛选。对于结构化信息，采用了相似度匹配算法，并以工程概念树作为匹配模板，从文档结构化内容中捕获文件名、标题、目录关系树、标题关系树、编码格式(包括保密等级)等显性的特征。对于半结构化信息，采用内容相关性分析算法提取文档内与工业强相关的文本内容和表格等信息。对于非结构化信息(图像)，使用工业图像数据微调后的ResNet模型对图像进行分类，保留强相关的实景图、流程图和设计图等信息。

如图9所示，于一实施例中，所述从工业文档中获取半结构化的第一文本信息和非结构化的第二文本信息包括：

步骤S11、分析所述工业文档，以将所述工业文档划分为结构化信息、半结构化信息和非结构化信息三个部分。

步骤S12、对所述半结构化信息和所述非结构化信息分别进行筛选，获取所述第一文本信息和所述第二文本信息。

于一实施例中，所述从工业文档中获取半结构化的第一文本信息和非结构化的第二文本信息还包括：

步骤S13、基于工业知识图谱和工业概念库对所述结构化信息进行抽取。

步骤S2、基于所述第一文本信息提取文本特征。

具体地，对文档内半结构化的文本信息，子系统使用BERT作为基模型，根据工业概念库优化基模型，提取文本中与工程强相关的三元组以及文本特征。

于一实施例中，首先，基于专家经验、工业流程图和产品概念树定义实体类别、实体属性以及实体之间的关系。在定义时进行多次迭代和调整，并根据实际情况进行优化和完善。

其次，采用基于概念库的实体增强算法进行实体关系抽取，在实体抽取的过程中引入工业特化BERT基模型(I-BERT)将文本信息编码成token，在训练中使用工业文本数据对常规的预训练BERT模型进行微调，使基模型在预测时更贴合工业文本的数据分布，为了解决嵌套实体的问题，采用基于跨度的实体关系抽取模式，提取所有可能的片段排列，通过SoftMax对每一个Span进行实体类型判断。在跨度定义上，根据工业概念库、常识库、实体长度分布统计、工业领域专家经验等实现实体跨度的自适应。

在实体的抽取阶段，通过文本相似度匹配算法计算当前跨度与工业概念库中相关概念之间的相似度，进一步完善实体抽取，提升实体抽取的准确率，在关系分类时，在输入层引入实体的类别信息，即将实体边界和类型作为标识符加入到实体Span前后，然后作为关系模型的输入，使用I-BERT将输入编码成token，对每个实体对中第一个token的编码进行拼接，使用SoftMax进行分类，为了学习实体和关系的不同上下文表示，实体模型和关系模型采取的两个独立的预训练模型进行编码(不共享参数)。

于一实施例中，所述基于所述第一文本信息提取文本特征包括：采用基于工业概念库的实体增强算法对所述第一文本信息进行实体关系抽取，以获取所述文本特征。

步骤S3、基于所述第二文本信息提取图像特征。

具体地，针对文档内非结构化信息如实景图、流程图，子系统基于CLIP模型与GPT2模型提取非结构化信息中的细粒度语义信息，输出相关的关键词与图像特征。

于一实施例中，首先采用CLIP模型提取输入图像的深层表征信息，并进一步进行编码，得到图像表征向量；其次采用映射网络将图像表征向量映射到文本特征空间中，通过对齐图像表征向量与文本表征向量的分布，将图像表征向量转化为视觉前缀提示向量；最后采用GPT2模型，根据视觉前缀提示向量，生成描述该图像的关键词。

如图10所示，于一实施例中，所述基于所述第二文本信息提取图像特征包括：

步骤S31、基于图像编码器和预训练语言模型提取所述第二文本信息中的细粒度语义信息。

步骤S32、输出与所述细粒度语义信息相关的所述图像特征。

步骤S4、根据所述文本特征和所述图像特征获取多模态融合特征。

具体地，针对文档内结构化信息中提取的特征向量与非结构化信息中提取的特征向量，将其映射到同一语义语义空间，消除特征维度上存在的差异性，实现多模态特征融合。

于一实施例中，基于同一目标物体所提取不同形式表征的语义信息是相同的假设，本发明使用语义空间作为映射平面，同时将文本表征和图像表征映射到相同的语义空间，进行不同模态特征的融合，采用无监督学习的自组织映射算法，对非结构化数据抽取子系统中所提取的图像表征通过竞争性学习进行聚类，得到图像语义向量组/>与此类似，对半结构化数据抽取子系统中I-BERT模型提取的文本特征/>采用同一算法，将其投影到与的语义空间中，组成文本语义向量组/>

为了融合相似语义不同模态的特征，本发明首先计算两种模态的特征向量组中的余弦距离，寻找相似度相似的模态特征。具体而言，对于文本语义向量组中任意一个特征向量k_i，计算与图像语义向量组中每一个特征向量之间的余弦距离，将余弦距离最小的特征向量[k_i,r_j]视为近似语义，并进行融合为m_n＝[k_i,r_j]，得到最终的多模态融合特征组M。

需要说明的是，针对文本特征与图像特征，本发明根据语义相关性，将两者映射到同一语义空间中，以消除异构多源数据带来的特征差异，将不同模态特征融合，为文档提炼子系统提供支持。

如图11所示，于一实施例中，所述根据所述文本特征和所述图像特征获取多模态融合特征包括：

步骤S41、将所述文本特征和所述图像特征映射到同一语义空间，获取图像语义向量组和文本语义向量组。

步骤S42、计算所述图像语义向量组与所述文本语义向量组之间的语义相似度。

步骤S43、根据所述语义相似度进行所述文本特征和所述图像特征之间的特征融合，获取所述多模态融合特征。

步骤S5、基于所述多模态融合特征对所述工业文档进行整体观点提炼。

具体地，结合工业文档中以抽取的结构化数据与子系统提取的多模态特征提炼文档的整体观点，本系统最后将得到信息统一整合，根据提取内容的贡献程度，生成文档的内容上下位关系树，为后续下游应用(文档检索、图谱构建)提供支撑。

将文档名、步骤S4中的多模态融合特征作为输入，输入到文档识别观点片段模块中，通过多模态融合特征，识别出与文档整体观点有关的句子。在识别观点片段的目标观点模块中，使用观点片段目标观点抽取的数据微调BERT得到bert_concept模型，完成对输入的编码，通过分类器得出(观点段，论点)对，其中观点段为文档中的一个句子或多个连续句子，论点为文档名的子序列。

于一实施例中，所述基于所述多模态融合特征对所述工业文档进行整体观点提炼包括：根据所述多模态融合特征获取观点片段，以基于所述观点片段实现对所述工业文档的整体观点提炼。

本发明所提供的一种面向工业文档的多模态信息提炼方法，接收工业文档，对文档进行快速分析，将文档中的内容根据结构化、半结构化与非结构化进行分类。对于文档内的半结构化内容，保留强相关文本段落和表格等信息，通过半结构化数据抽取子系统抽取半结构化内容中与工业强相关的实体与关系。对于文档内的非结构化内容，保留强相关的实景图、流程图和设计图等信息，通过非结构化数据抽取子系统生成对应的图像描述。基于文档结构化信息中提取的特征向量与非结构化信息中提取的特征向量，实现多模态数据融合。基于多模态融合特征、工业文档文本数据等多个因素，实现对文档整体观点提炼，提高观点提炼的准确率。

需要说明的是，本发明所述的面向工业文档的多模态信息提炼方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

如图12所示，于一实施例中，本发明的面向工业文档的多模态信息提炼系统，包括：

第一获取模块121，用于从工业文档中获取半结构化的第一文本信息和非结构化的第二文本信息。

第一提取模块122，用于基于所述第一文本信息提取文本特征。

第二提取模块123，用于基于所述第二文本信息提取图像特征。

第二获取模块124，用于根据所述文本特征和所述图像特征获取多模态融合特征。

观点提炼模块125，用于基于所述多模态融合特征对所述工业文档进行整体观点提炼。

需要说明的是，所述第一获取模块121、所述第一提取模块122、所述第二提取模块123、所述第二获取模块124及所述观点提炼模块125的结构及原理与上述面向工业文档的多模态信息提炼方法中的步骤(步骤S1～S5)一一对应，故在此不再赘述。

需要说明的是，应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述系统的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述系统的存储器中，由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个数字信号处理器(Digital Signal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(System-On-a-Chip，简称SOC)的形式实现。

需要说明的是，本发明的面向工业文档的多模态信息提炼系统可以实现本发明的面向工业文档的多模态信息提炼方法，但本发明的面向工业文档的多模态信息提炼方法的实现装置包括但不限于本实施例列举的面向工业文档的多模态信息提炼系统的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

本发明的存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述的面向工业文档的多模态信息提炼方法。所述存储介质包括：只读存储器(Read-OnlyMemory，ROM)、随机访问存储器(Random Access Memory，RAM)、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

可以采用一个或多个存储介质的任意组合。存储介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、RAM、ROM、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。

本发明的电子设备包括处理器及存储器。

所述存储器用于存储计算机程序；优选地，所述存储器包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器与所述存储器相连，用于执行所述存储器存储的计算机程序，以使所述电子设备执行上述的面向工业文档的多模态信息提炼方法。

优选地，所述处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，本发明的面向工业文档的多模态信息提炼方法、系统、介质及电子设备，从文档类型的高效处理，潜在规则的深度挖掘，关键信息的高度凝练等角度出发，开发了一套面向工业文档的多模态信息提炼方法，提高了观点提炼的准确率；所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种面向工业文档的多模态信息提炼方法，其特征在于，包括以下步骤：

从工业文档中获取半结构化的第一文本信息和非结构化的第二文本信息；

基于所述第一文本信息提取文本特征；

基于所述第二文本信息提取图像特征；

根据所述文本特征和所述图像特征获取多模态融合特征；

基于所述多模态融合特征对所述工业文档进行整体观点提炼。

2.根据权利要求1所述的面向工业文档的多模态信息提炼方法，其特征在于，所述从工业文档中获取半结构化的第一文本信息和非结构化的第二文本信息包括：

分析所述工业文档，以将所述工业文档划分为结构化信息、半结构化信息和非结构化信息三个部分；

对所述半结构化信息和所述非结构化信息分别进行筛选，获取所述第一文本信息和所述第二文本信息。

3.根据权利要求2所述的面向工业文档的多模态信息提炼方法，其特征在于，所述从工业文档中获取半结构化的第一文本信息和非结构化的第二文本信息还包括：

基于工业知识图谱和工业概念库对所述结构化信息进行抽取。

4.根据权利要求1所述的面向工业文档的多模态信息提炼方法，其特征在于，所述基于第一文本信息提取文本特征包括：采用基于工业概念库的实体增强算法对所述第一文本信息进行实体关系抽取，以获取所述文本特征。

5.根据权利要求1所述的面向工业文档的多模态信息提炼方法，其特征在于，所述基于第二文本信息提取图像特征包括：

基于图像编码器和预训练语言模型提取所述第二文本信息中的细粒度语义信息；

输出与所述细粒度语义信息相关的所述图像特征。

6.根据权利要求1所述的面向工业文档的多模态信息提炼方法，其特征在于，所述根据文本特征和所述图像特征获取多模态融合特征包括：

将所述文本特征和所述图像特征映射到同一语义空间，获取图像语义向量组和文本语义向量组；

计算所述图像语义向量组与所述文本语义向量组之间的语义相似度；

根据所述语义相似度进行所述文本特征和所述图像特征之间的特征融合，获取所述多模态融合特征。

7.根据权利要求1所述的面向工业文档的多模态信息提炼方法，其特征在于，所述基于多模态融合特征对所述工业文档进行整体观点提炼包括：根据所述多模态融合特征获取观点片段，以基于所述观点片段实现对所述工业文档的整体观点提炼。

8.一种面向工业文档的多模态信息提炼系统，其特征在于，包括：

第一获取模块，用于从工业文档中获取半结构化的第一文本信息和非结构化的第二文本信息；

第一提取模块，用于基于所述第一文本信息提取文本特征；

第二提取模块，用于基于所述第二文本信息提取图像特征；

第二获取模块，用于根据所述文本特征和所述图像特征获取多模态融合特征；

观点提炼模块，用于基于所述多模态融合特征对所述工业文档进行整体观点提炼。

9.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的面向工业文档的多模态信息提炼方法。

10.一种电子设备，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行权利要求1至7中任一项所述的面向工业文档的多模态信息提炼方法。