CN116737897A

CN116737897A - 一种基于多模态的智慧楼宇知识抽取模型和方法

Info

Publication number: CN116737897A
Application number: CN202310682968.6A
Authority: CN
Inventors: 吴晓华; 赵翊含; 朱芩叶
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-09-12

Abstract

本发明提供了一种基于多模态的智慧楼宇知识抽取模型和方法，属于自然语言处理技术领域，以解决现有技术的信息抽取面临数据质量、规模和任务复杂性的限制的问题，其包括：门控模块、数据生成模块、数据分流模块和模态信息抽取模块，门控模块主要负责编码原始输入数据，并决定后续数据处理模块；数据生成模块主要负责对单视觉模态数据生成相应的文本描述；数据分流模块主要负责根据视觉‑文本多模态数据间的匹配程度来为多模态数据选择不同的信息抽取模型；模态信息抽取模块主要负责抽取输入信息中的知识。本发明实现了一个灵活、准确而全面的智慧楼宇信息抽取模型，各功能模块相互独立，能够实现较高的性能，可以实现不同类型输入的信息抽取。

Description

一种基于多模态的智慧楼宇知识抽取模型和方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于多模态的智慧楼宇知识抽取模型和方法。

背景技术

信息抽取是一种从非结构化数据中提取有价值的信息并整合成结构化知识的技术，它能够自动地挖掘文本中的实体、关系和事件等信息，对于处理海量的非结构化文本数据具有重要意义，广泛地应用于知识图谱构建、智能问答系统、舆情分析等领域。信息抽取对自然语言处理、机器学习、知识表示和推理等多种技术进行了整合和创新，使其更加符合知识抽取任务的准确性和可扩展性要求。其主要实现方法包括基于规则的方法、基于统计的方法以及基于深度学习的方法，目前对于信息抽取技术的研究主要集中于深度学习方法，如循环神经网络、长短时记忆网络、卷积神经网络和Transformer等。另外，囿于文本数据信息的有限，以图片作为信息抽取辅助提示的多模态信息联合抽取技术也为信息抽取任务带来巨大提升。

这些方法各有其优点，但也面临数据质量、规模和任务复杂性的限制，如多模态信息联合抽取的质量与训练数据质量息息相关，在视觉模态信息与文本模态信息高度匹配的情况下，性能明显优于单模态信息抽取，但在跨模态信息吻合程度不高的情况下会造成性能的下降。。

发明内容

针对现有技术中的上述不足，本发明提供了一种基于多模态的智慧楼宇知识抽取模型和方法。

为了达到上述发明目的，本发明采用的技术方案为：

一种基于多模态的智慧楼宇知识抽取模型，包括门控模块、数据生成模块、数据分流模块以及模态信息抽取模块；所述门控模块用于对原始输入数据进行处理，得到数据嵌入向量表示并进行编码，根据原始输入数据的不同类型选择将数据输入数据生成模块、数据分流模块或模态信息抽取模块；所述数据生成模块用于执行数据生成，对门控模块编码后的单视觉模态数据执行文本生成任务，得到图文对数据并输入到模态信息抽取模块；所述数据分流模块用于数据质量筛选，对门控模块编码后的视觉-文本多模态数据进行数据质量区分，选择将其输入模态信息抽取模块的单模态信息抽取模块或多模态信息抽取模块；所述模态信息抽取模块用于执行信息抽取，对门控模块编码后的单文本模态数据进行信息抽取，对经过门控模块和数据生成模块的单视觉模态数据进行信息抽取，对经过门控模块和数据分流模块的视觉-文本多模态数据进行信息抽取。

该技术方案中，本发明所设计的系统层次结构分明，各功能模块相互独立，能够实现较高的性能，可以实现不同类型输入的信息抽取，有效解决了传统多模态信息抽取方法受噪声数据影响较大的问题，有利于更高效准确和灵活地完成信息抽取任务，为用户提供更好的使用体验。

优选的，所述数据分流模块和数据生成模块还用于知识抽取模型训练；

所述数据生成模块用于训练阶段接收经过数据分流模块后淘汰的视觉模态数据，得到图文对数据，选择评估结果质量较好的数据组成新训练集用以训练知识抽取模型。

一种基于多模态的智慧楼宇知识抽取方法，包括：

通过门控模块对原始输入数据进行处理，得到数据嵌入向量表示并进行编码，根据原始输入数据的不同类型选择将数据输入数据生成模块、数据分流模块或模态信息抽取模块；

通过数据生成模块进行执行数据生成，对门控模块编码后的单视觉模态数据执行文本生成任务，得到图文对数据并输入到模态信息抽取模块；

通过数据分流模块对数据质量筛选，对门控模块编码后的视觉-文本多模态数据进行数据质量区分，选择将其输入模态信息抽取模块的单模态信息抽取模块或多模态信息抽取模块；

通过模态信息抽取模块进行执行信息抽取，对门控模块编码后的单文本模态数据进行信息抽取，对经过门控模块和数据生成模块的单视觉模态数据进行信息抽取，对经过门控模块和数据分流模块的视觉-文本多模态数据进行信息抽取。

进一步的，所述门控模块具体采用如下方式对原始输入数据进行处理：

A1、对原始输入数据得到嵌入向量表示并进行编码；

A2、根据输入数据特征，利用门控网络将数据送入数据生成模块、数据分流模块或模态信息抽取模块。

所述数据生成模块具体采用如下方式执行数据生成：

B1、在模型的训练阶段，使用一个基于图像的文本transformer解码器作为数据生成器，并对解码器参数进行初始化；

B2、在模型的训练阶段，执行文本生成任务，生成图文对数据；

B3、在模型使用阶段，针对输入的单视觉模态数据执行文本生成任务，生成图文对数据。

所述数据分流模块采用如下方式执行数据分类：

C1、将门控模块输出的视觉-文本多模态数据编码信息输入分类器层，分析两向量之间的相似度特征，输出视觉-文本多模态数据适合于多模态信息联合抽取的概率；

C2、根据输出的概率值，将视觉-文本多模态送入对应的信息抽取模块。

所述模态信息抽取模块采用如下方式执行信息抽取：

D1、使用单模态模型进行信息抽取；

D2、使用多模态模型进行信息抽取。

该技术方案中，通过设置门控模块，实现了对单模态原始数据和多模态原始数据的集成处理，模型通过门控网络学习输入数据和处理模块之间的映射关系。当输入原始数据为单视觉模态数据时，数据将在编码后送入已训练完毕的数据生成模块，得到反应图片内容的文本信息组成跨模态信息执行多模态信息联合抽取；当输入原始数据为单文本模态数据时，数据将在编码后送入单模态信息抽取模块执行信息抽取；当输入数据为视觉-文本多模态数据时，数据将通过数据分流模块对数据质量进行区分，选择使用单模态抽取模型或是多模态抽取模型实现信息抽取。为更好地训练知识抽取模型且尽可能减少人工成本，构造了两类智慧楼宇数据集：第一类数据集使用人工标注的较少量数据构成，用作预训练；第二类数据集包括通过爬虫获得的海量楼宇相关数据。在训练的第一阶段，使用人工构造的数据集对模型整体进行训练。在训练的第二阶段，使用数据分流模块对第二类数据集进行筛选，选择质量较好的数据加入多模态知识抽取模块训练集，同时，数据生成模块接收数据分流模块淘汰的视觉模态信息，生成新的多模态数据，选择质量较好的数据也加入训练集，使用最终构造出的训练集对多模态知识抽取模型进行训练；通过数据分流模块对多模态数据集中噪声数据进行相应的处理。根据视觉模态数据和文本模态数据的关联性，筛选出适合使用多模态模型进行信息抽取的数据。由于多模态信息抽取在数据不匹配的情况下对模型性能有损耗，通过数据分流模块区分数据质量，能有效避免噪声数据的干扰；在数据分流模块对数据进行筛选后，并未将不适合多模态信息抽取的数据全部抛弃，而是将其文本信息保留，执行单模态信息抽取，由于单模态信息抽取任务发展已经较成熟，因此多模态噪声数据集在单模态模型中也能取得很好的效果且不会因为视觉模态信息对任务造成干扰，能够取得更好的性能。本发明提供了在智慧楼宇领域进行多模态信息抽取的模型范式，可以根据信息抽取子任务的不同，替换不同的信息抽取模型，能较好地迁移到不同的信息抽取任务中。

进一步的，所述A1中得到数据嵌入向量表示的方法为：

A101、对于视觉模态信息，将视觉模态数据分割为多个patch，假设原始输入图片大小为H*W*C，每个patch大小为P*P,则分块数目N计算如下：

图片patch序列得到的一维向量大小为P*P*C，总体输入变化为N×(P²*c)，将各向量进行线性变换，使其映射到高维空间中，经transformer编码器获得patch embedding；

A102、对于文本模态信息，将文本输入embedding层，使用word2vec方法以及position embedding得到包含位置信息的词嵌入向量表示；

A103、将输入向量输入到transformer编码器进行编码；

A104、将编码后的模态信息输入到门控网络。

该技术方案中，需要说明的是，计算机程序并不擅长处理原始的图片数据和文本数据，需要将原始数据转化为一系列编码。对于视觉模态信息，采用patch embedding方法，对原始数据进行分块，即将图片展平成多个patch组成的序列，输入至transformer模型的编码器。使用patch embedding方法有助于降低计算复杂度，提高模型的训练速度，同时映射到高维空间的向量有利于增强模型表达能力，捕捉到更复杂的视觉模态特征，且能很好的与transformer结构结合。对于文本模态信息，则采用经典的word2vec方法，通过给定上下文来预测单词，计算效率高。

进一步的，所述门控模块执行选择数据后续处理模块的方法为：

A201、将信息抽取任务分解为数据生成、数据筛选、模态信息抽取子任务，在每个子任务上训练expert model，根据要预测的输入来学习使用哪个expert model；

A202、当输入信息为单视觉模态数据时，将数据送入数据生成模块；

A203、当输入信息为单文本模态数据时，将数据送入模态信息抽取模块；

A204、当输入信息为视觉-文本模态数据时，将数据送入数据分流模块。

该技术方案中，需要说明的是，在实际应用中，问答系统可能接收到不同模态的信息，如单视觉模态信息、单文本模态信息、视觉-文本模态信息等，系统需要根据不同的输入选择合适的信息抽取模型完成任务。本模型采用门控网络思想，根据输入特征得到选择不同模型的权重，选择权重值最高的模型来处理数据，从而使得模型更加灵活，能够更好地满足应用需求。

进一步的，所述数据生成模块执行模型参数初始化的方法为：

B101、利用人工标注的COCO数据集对生成模块进行训练；

B102、使用一个基于图像的文本transformer解码器作为数据生成器；

B103、使用特殊标记[MASK]将token_n之后的信息进行遮掩；

B104、将编码数据送入交叉注意力层，使模型学习到训练数据中跨模态融合信息；

B105、使用语言建模损失language modeling loss(LM)作为训练目标，以自回归方式最大化文本生成的可能性，目标函数如下所示：

其中k为窗口大小，以BLEU为评估指标进行训练，对于每个n-gram，计算生成文本中与参考文本匹配的n-gram数量占生成文本中所有n-gram数量的比例；

B106、数据生成模块所使用的解码器模型与模态信息抽取模块的文本编码模型在交叉注意力机制层共享参数。

该技术方案中，需要说明的是，本发明提供了多模态文本生成的方法，根据视觉模态信息，生成对应的文本。该方法采用了自回归策略，将后文遮掩，利用当前时间步之前的输出(即前文)的依存关系对当前输出进行预测，在生成式任务上表现得更直接也更有效。通过文本生成任务，将视觉模态信息文本化，以此来获得单视觉模态输入提供的信息量。

进一步的，所述数据生成模块中数据生成模块执行训练阶段图文模态数据生成方法为：

B201、在训练阶段，数据生成模块接收来自数据分流模块输出的视觉模态信息和来自门控模块的视觉模态数据；

B202、对单独提取出的视觉模态信息执行文本生成任务，生成新的跨模态信息数据；

B203、将生成数据送入数据分流模块。

该技术方案中，需要说明的是，本发明提供了有效利用数据的训练方法，可以有效利用噪声数据中的可用信息。用于多模态信息抽取的高质量数据集较少，而在网站自动爬取构建的数据集数据量大，却质量不佳，为多模态信息抽取任务带来挑战，通过将自动爬取构建的训练数据集在基于初次训练(使用干净数据集训练)的模型之上进行生成和过滤，形成新的多模态训练数据集，为模型提供更多质量较好的训练数据，有利于模型质量的提升。

进一步的，所述数据生成模块执行使用阶段数据生成的方法为：

B301、数据生成模块接收来自门控模块的视觉模态编码信息；

B302、将视觉编码信息输入解码器；

B303、解码器输出生成的文本模态信息，与视觉模态信息送入模态交互模块。

所述数据分流模块在将基线模型输出的向量输入分类器层，分析两向量之间的相似度特征，输出该图文模态数据适合于多模态信息联合抽取的概率的过程为：

C101、为使分类任务训练更有效，采用hard negative采样策略，采样与正样本最接近的负样本，并维护一个大小为M的负样本队列；

C102、对视觉模态编码信息和文本模态编码信息进行对比学习，学习如下相似函数:

其中，g_v和g_t是将模态信息的联合表示嵌入映射成为规范化的低纬度表示的线性变换，g′_v(v′_cls)和g′_t(t′_cls)为来自动量编码器的特征表示，进一步根据相似性定义出图-文/文-图相关性，计算公式如下：

其中，τ是温度系数为可训练的超参数，N为训练样本批次大小；

C103、将经过对比学习的视觉模态数据与文本模态编码数据送入带有softmax的全连接层进行分类，以判断图像文本对是否匹配；

C104、训练阶段以ITM任务为目标进行训练，ITM损失函数如下

其中，y_itm是一个二维的独热向量表示,表示真实相似度，正样本概率为1，负样本概率为0，H(·)表示交叉熵函数；

C105、输出视觉模态数据与文本模态数据相匹配的概率p。

该技术方案中，需要说明的是，本发明提供了多模态信息对齐融合的方法，该方法在将多模态信息输入跨模态编码器中进行跨模态交互前通过对比学习策略先对不同模态的信息进行对齐，使得图片-文本对正样本的相似度尽可能高。并使用hard negative采样策略对数据分流模块进行训练，根据对比学习对数据对的打分，选择对于某个文本模态数据打分很高但是属于负样本的视觉模态数据以及对于莫格视觉模态数据打分很高但是属于负样本的文本模态数据，从而期望能够提升模型对难负样本的区分能力。通过该方法一方面使多模态编码器更容易执行跨模态学习，另一方面通过采样策略，能更好地挖掘数据信息。

进一步的，所述数据分流模块在将向量数据送入信息抽取模块的过程为：

C201、以视觉文本模态信息匹配的概率作为执行多模态信息联合抽取的标准，认为匹配概率大于不匹配概率时，数据在多模态信息联合抽取模型下表现情况更好，反之，则在单模态信息抽取模型下表现更好；

C202、在训练阶段，每份数据以概率p和1-p选择执行多模态信息联合抽取和单模态信息抽取；

C203、在训练阶段，选择执行单模态信息抽取的图文数据对将进行拆分，图片模态数据馈送至数据生成模块，生成新的图文模态数据对，文本模态数据直接馈送至模态信息抽取模块执行信息抽取；

C204、在使用阶段，在概率输出之上采取了一种采样策略，具体来讲，将输出概率p>0.5的数据分类标签标为“1”，其余数据标签标为“0”，标签为“1”的数据选择执行多模态信息联合抽取，标签为“0”的数据选择执行单模态信息抽取；

C205、在使用阶段，选择执行单模态信息抽取的图文数据对舍弃图片模态数据，仅将文本模态信息送入模态信息抽取模块执行单模态信息抽取；

C206、选择执行多模态信息联合抽取的图文数据，将馈送至模态信息抽取模块首先执行图文信息交互；

该技术方案中，需要说明的是，本发明提供了数据分类训练策略。数据分流模块本质上执行的是一个二分类任务，相较于输出“1”和“0”的硬标签，在训练阶段，采用更为平滑的softmax输出含有更多的信息，有利于增强模型的泛化能力。

进一步的，所述模态信息抽取模块计算在进行单模态信息抽取的方法为(以执行命名实体识别任务为例)：

D101、将文本编码信息送入双向LSTM层，获取上下文信息，将信息馈送至隐藏层；

D102、将隐藏层输出信息输入CRF层，输出文本标注序列；

该技术方案中，需要说明的是，本发明提供了一种文本命名实体识别模型，在门控模块中已经经过编码的文本信息通过LSTM+CRF学习上下文知识，进一步加强对文本语义信息的提取，并得到文本标注序列。

进一步的，所述模态信息抽取模块在执行多模态信息抽取的方法为(以执行命名实体识别任务为例)：

D201、将文本模态编码信息送入双向LSTM层和隐藏层；

D202、将视觉模态信息与文本编码信息在隐藏层的输出一起送入交叉注意力层；

D203、将跨模态融合信息输入CRF层，输出序列标注，使用softmax结合交叉熵损失作为训练目标进行训练，交叉熵损失公式如下：

其中，M为实体标签数量，y_ij为标签，若样本i的真实标签与j一致1，否则取0，q_ij为观测样本i属于类别j的概率。

附图说明

图1为本发明基于多模态的智慧楼宇知识抽取模型；

图2为本发明门控模块数据处理流程图；

图3为本发明整体运行流程图；

图4为本实施例中模型训练流程图；

图5为本实施例中用户输入多模态数据时模型处理流程图；

图6为本实施例中用户输入单视觉模态数据时模型处理流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1

如图1所示，本发明提供了一种基于多模态的智慧楼宇知识抽取模型。模型包括：门控模块、数据生成模块、数据分流模块和模态信息抽取模块。门控模块，用于对原始输入数据进行处理，得到模态数据的嵌入表示并进行编码，同时根据外界输入的不同类型数据选择后续输入模块；数据生成模块，用于对单图片输入生成相应文本并为模型训练生成更多训练数据；数据分流模块，用于对生成模块生成的数据与爬虫获得的数据进行筛选，以判断输入数据更适合使用单模态还是多模态模型进行抽取；所述模态信息抽取模块用于执行信息抽取，对门控模块编码后的单文本模态数据进行信息抽取，对经过门控模块和数据生成模块的单视觉模态数据进行信息抽取，对经过门控模块和数据分流模块的视觉-文本多模态数据进行信息抽取。

实施例2

如图2所示，本发明提供了一种基于多模态的智慧楼宇知识抽取方法，包括：门控模块、数据生成模块、数据分流模块和模态信息抽取模块；

所述门控阶段包括以下步骤：

A1、处理原始输入数据得到嵌入向量表示并编码，其具体步骤为：

A101、智慧楼宇知识抽取模型接收与智慧楼宇相关的视觉模态信息(如楼宇摄像头图片)以及与智慧楼宇相关的文本模态信息(如“单元门摄像头损坏悬空”)；

A102、对于输入模型的智慧楼宇视觉模态信息，将图片分割为多个patch，假设原始输入图片大小为H*W*C，每个patch大小为P*P,则分块数目N计算如下：

图片patch序列得到的一维向量大小为P*P*C，总体输入变化为N×(P²*C)，将各向量进行线性变换，使其映射到高维空间中，经transformer编码器获得patch embedding，记为V；

A103、对于文本模态信息，将文本输入embedding层，使用word2vec方法以及position embedding得到包含位置信息的词嵌入向量表示，将该词向量表示通过transformer编码器进行编码，输出记为T；

A104、将编码后的模态信息输入至门控网络。

A2、根据输入数据特征，利用门控网络将数据送入不同的后续模块，其具体步骤为：

A201、将智慧楼宇知识抽取任务根据输入信息的不同，分解为文本数据生成、模态数据筛选、模态信息抽取三个子任务，三个子任务对应于模型的三个模块；

A202、门控网络使用多层感知机网络MLP学习从输入到输出的映射关系，由多个全连接层与一个softmax层组成，输出在接收到模态编码信息后，应将该输入信息送入后续模块的概率p_ci，ci(i＝1～3)分别对应生成模块、分流模块与单模态信息抽取模块；

A203、比较输出概率，若max(p_c1,p_c2,p_c3)＝p_c1，模型判定输入信息为单视觉模态信息，即未附带文字说明的图片输入，则该数据将被送至数据生成模块，如图5表示，若max(p_c1,p_c2,p_c3)＝p_c2，模型判定输入信息为多模态信息，即图片-文本对，则该数据将被送至数据分流模块，如图4表示，若max(p_c1,p_c2,p_c3)＝p_c3，模型判定输入信息为单文本模态信息，即仅输入文本，则该数据将被送至模态信息抽取模块下的单模态信息抽取模块，如图6表示；

所述数据生成模块包括以下步骤：

B1、在模型的训练阶段，对解码器参数进行第一阶段训练，如图3表示，其实现方法如下：

B101、利用人工标注的少样本数据集对生成模块进行初步训练；

B102、使用transformer解码器作为数据生成器；

B103、使用特殊标记[MASK]将token_n之后的信息进行遮掩，解码器根据输入的图像特征逐个生成描述中的词语，将真实描述的前k个单词作为当前时间步的输入；

B104、使用语言建模损失language modeling loss(LM)作为训练目标，以自回归方式最大化文本生成的可能性，目标函数如下所示；

其中k为窗口大小；

B105、使用BELU作为初步训练评估指标，计算生成文本中与参考文本匹配的n-gram数量(n＝1～4)占生成文本中所有n-gram数量的比例获得各n-gram精度，进行加权求和；

B2、在模型的训练第二阶段，执行文本生成下游任务，生成图文对数据，如图3表示：

B201、初步训练过后的数据生成模块接收来自数据分流模块输出的视觉模态信息以及来自门控模块输入的视觉模态信息；

B202、对智慧楼宇视觉模态信息执行图像描述生成任务，生成的图片描述作为文本模态数据与原输入组成新的跨模态信息数据；

B203、使用自动评估指标BELU与SPICE进行评估，并辅以人工评估，将质量较好的生成数据作为新训练集存储，用于模型其他模块的训练。

B3、在模型使用阶段，针对输入的单图片模态数据执行文本生成，如图6表示，其实现方法如下：

B301、接收门控网络编码输出的智慧楼宇视觉模态信息；

B302、将视觉编码信息输入解码器；

所述数据分流模块包括以下步骤：

C1、将门控模块输出的编码信息输入分类器层，分析两向量之间的相似度特征，输出该图文模态数据适合于多模态信息联合抽取的概率，其实现方法如下：

C104、训练阶段以ITM任务为目标进行训练，ITM损失函数如下

C105、输出视觉模态数据与文本模态数据相匹配的概率p。

C2、根据输出的概率值，将模态数据送入对应的信息抽取模块，其实现方法如下：

C201、以视觉文本模态信息匹配的概率作为执行多模态信息联合抽取的标准，认为匹配概率大于0.5时，数据在多模态信息联合抽取模型下表现情况更好，反之，则在单模态信息抽取模型下表现更好；

C203、在训练阶段，选择执行单模态信息抽取的图文数据对将进行拆分，图片模态数据馈送至数据生成模块，生成新的图文模态数据对作为训练数据，文本模态数据直接馈送至模态信息抽取模块，作为单模态信息抽取模块的训练数据；

C204、在使用阶段，模型在概率输出之上采取了一种采样策略，具体来讲，将输出概率p>0.5的数据分类标签标为“1”，其余数据标签标为“0”，标签为“1”的数据选择执行多模态信息联合抽取，标签为“0”的数据选择执行单模态信息抽取；

C205、在使用阶段，选择执行单模态信息抽取的智慧楼宇图文数据对被认为是不匹配的数据对，即该数据中图片信息对文本知识抽取存在干扰作用，舍弃图片模态数据，仅将文本模态信息送入模态信息抽取模块执行单模态信息抽取；选择执行多模态信息抽取的智慧楼宇图文数据对则全部保留，将编码信息送入模态融合层后进行信息抽取。

所述模态信息抽取模块包括以下步骤：

D1、使用单模态模型进行信息抽取，其实现方法如下：

D102、将隐藏层输出信息输入CRF层，输出文本标注序列。

D2、使用多模态模型进行信息抽取，其实现方法如下：

D201、将文本模态编码信息送入双向LSTM层和隐藏层；

在本实施例中，如图2所示，包括门控模块、数据生成模块、数据分流模块和信息抽取模块。输入数据首先通过门控模块选择对应的处理模块，单视觉模态数据进入数据生成模块，多模态数据进入数据分流模块，完成相应阶段任务后进入信息抽取阶段，单文本模态数据则直接进入模态信息抽取模块。

在本实施例中，用户输入多模态数据，其模型运行具体过程如图4所示。多模态数据经过门控模块，不同模态数据分别进行嵌入向量表示和编码，被送入数据分流模块，数据分流模块依据数据质量对输入模型的数据进行分类，分为适合多模态信息抽取的数据与不适合多模态信息抽取的数据，分别将两类数据送至信息抽取模块执行多模态信息抽取与单模态信息抽取。

在本实施例中，用户输入单视觉模态数据，其模型运行具体过程如图5所示。单视觉模态信息数据经过门控模块进行patch embedding，提取视觉特征信息，被送入数据生成模块，数据生成模块依据该视觉信息生成描述性文本，与视觉模态信息组成多模态信息对，输入至信息抽取模块执行多模态信息抽取任务。

在本实施例中，用户输入单文本模态数据，其模型运行具体过程如图6所示。只输入文本模态信息，则将该数据经过编码器编码后由门控模块直接送至模态信息抽取模块执行信息抽取。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明仅就多模态信息抽取在智慧楼宇领域中的使用方法进行了阐述，但应注意本发明所设计的多模态信息抽取模型不仅局限于智慧楼宇领域中，其可以作为一个通用的知识抽取模型应用于诸如涉及金融、医疗、教育等领域中，可以将用于训练的数据集替换为对应领域的数据集，使用人工标注的少样本数据集和爬虫构建的海量数据集，然后通过本发明所设计的多模态知识抽取模型来构建一个领域知识抽取模型。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于多模态的智慧楼宇知识抽取模型，其特征在于，包括门控模块、数据生成模块、数据分流模块以及模态信息抽取模块；

所述门控模块用于对原始输入数据进行处理，得到数据嵌入向量表示并进行编码，根据原始输入数据的不同类型选择将数据输入数据生成模块、数据分流模块或模态信息抽取模块；

所述数据生成模块用于执行数据生成，对门控模块编码后的单视觉模态数据执行文本生成任务，得到图文对数据并输入到模态信息抽取模块；

所述数据分流模块用于数据质量筛选，对门控模块编码后的视觉-文本多模态数据进行数据质量区分，选择将其输入模态信息抽取模块的单模态信息抽取模块或多模态信息抽取模块；

所述模态信息抽取模块用于执行信息抽取，对门控模块编码后的单文本模态数据进行信息抽取，对经过门控模块和数据生成模块的单视觉模态数据进行信息抽取，对经过门控模块和数据分流模块的视觉-文本多模态数据进行信息抽取。

2.根据权利要求1所述的一种基于多模态的智慧楼宇知识抽取模型，其特征在于，所述数据分流模块和数据生成模块还用于知识抽取模型训练；

3.一种基于多模态的智慧楼宇知识抽取方法，采用权利要求1-2任一所述的基于多模态的智慧楼宇知识抽取模型，其特征在于，包括：

4.根据权利要求3所述的一种基于多模态的智慧楼宇知识抽取方法，其特征在于，所述通过门控模块对原始输入数据进行处理，具体包括以下步骤：

A1、对原始输入数据处理得到嵌入向量表示并进行编码，具体如下：

对于视觉模态信息，将视觉模态数据分割为多个patch，假设原始输入图片大小为H*W*C，每个patch大小为P*P,则分块数目N计算如下：

图片patch序列得到的一维向量大小为P*P*C，总体输入变化为N×(P²*c)，将各向量进行线性变换，使其映射到高维空间中，经transformer编码器获得patch embedding,记为V，将编码后的模态信息输入到门控网络；

对于文本模态信息，将文本输入embedding层，使用word2vec方法以及positionembedding得到包含位置信息的词嵌入向量表示；将输入向量输入到transformer编码器进行编码，记为T；

将编码后的模态信息输入到门控网络；

A2、根据输入数据特征，利用门控网络将数据送入数据生成模块、数据分流模块或模态信息抽取模块，具体如下：

将信息抽取任务分解为数据生成、数据筛选、模态信息抽取子任务，在每个子任务上训练expert model，根据要预测的输入来学习使用哪个expert，并组合预测结果；

当输入信息为单视觉模态数据时，将数据送入数据生成模块；

当输入信息为单文本模态数据时，将数据送入模态信息抽取模块；

当输入信息为视觉-文本多模态数据时，将数据送入数据分流模块。

5.根据权利要求3所述的一种基于多模态的智慧楼宇知识抽取方法，其特征在于，所述数据生成模块具体采用如下方法执行数据生成：

在模型的训练阶段，使用一个基于图像的文本transformer解码器作为数据生成器，并对解码器参数进行初始化；

在模型的训练阶段，针对输入的单视觉模态数据执行文本生成任务，生成图文对数据；

在模型使用阶段，针对输入的单视觉模态数据执行文本生成任务，生成图文对数据。

6.根据权利要求3所述的一种基于多模态的智慧楼宇知识抽取方法，其特征在于，所述对解码器参数初始化的方法为：

B101、利用人工标注的智慧楼宇数据集对生成模块进行训练；

B103、使用特殊标记[MASK]将token_n之后的信息进行遮掩；

B105、使用语言建模损失作为训练目标，以自回归方式最大化文本生成的可能性，目标函数如下所示：

其中token为字级别的单位，k为窗口大小，n表示该token为第n个token，θ为待学习的超参数；

7.根据权利要求3所述的一种基于多模态的智慧楼宇知识抽取方法，其特征在于，所述在模型的训练阶段，针对输入的单视觉模态数据执行文本生成任务，生成图文对数据，具体为：

B201、在训练阶段，数据生成模块接收来自数据分流模块输出的视觉模态信息；

B203、将质量较好的生成数据作为新的训练集数据进行存储。

8.根据权利要求3所述的一种基于多模态的智慧楼宇知识抽取方法，其特征在于，所述在模型使用阶段，针对输入的单视觉模态数据执行文本生成任务，生成图文对数据，具体为：

B301、数据生成模块接收来自门控模块的视觉模态编码信息；

B302、将视觉编码信息输入解码器；

9.根据权利要求3所述的一种基于多模态的智慧楼宇知识抽取方法，其特征在于，所述通过数据分流模块对数据质量筛选，对门控模块编码后的视觉-文本多模态数据进行数据质量区分，选择将其输入模态信息抽取模块的单模态信息抽取模块或多模态信息抽取模块的具体步骤如下:

C1、将门控模块输出的视觉-文本多模态数据编码信息输入分类器层，分析两向量之间的相似度特征，输出视觉-文本多模态数据适合于多模态信息联合抽取的概率，具体为：

其中，g_v和g_t是将模态信息的联合表示嵌入映射成为规范化的低纬度表示的线性变换，g′_v(v′_ls)和g′_t(t′_cls)为来自动量编码器的特征表示，进一步根据相似性定义出图-文/文-图相关性，计算公式如下：

C104、训练阶段以ITM任务为目标进行训练，ITM损失函数如下

其中，y_itm是一个二维的独热向量表示,表示真实相似度，正样本概率为1，负样本概率为0，H()表示交叉熵函数；

C105、输出视觉模态数据与文本模态数据相匹配的概率p；

C2、根据输出的概率值，将视觉-文本多模态数据送入模态信息抽取模块中对应的单模态信息抽取模块或多模态信息抽取模块，具体为：

C206、选择执行多模态信息联合抽取的图文数据，将馈送至模态信息抽取模块首先执行图文信息交互。

10.根据权利要求3所述的一种基于多模态的智慧楼宇知识抽取方法，其特征在于，所述模态信息抽取模块采用如下方法执行信息抽取：

D1、使用单模态模型进行信息抽取；

D102、将隐藏层输出信息输入CRF层，输出文本标注序列；

D2、使用多模态模型进行信息抽取；

D201、将文本模态编码信息送入双向LSTM层和隐藏层；

其中，M为实体标签数量，y_ij为标签，若样本i的真实标签与j一致则为1，否则取0，q_ij为观测样本i属于类别j的概率。