CN117611845B

CN117611845B - 多模态数据的关联识别方法、装置、设备及存储介质

Info

Publication number: CN117611845B
Application number: CN202410097011.XA
Authority: CN
Inventors: 李泉; 初宇飞; 肖红梅
Original assignee: Inspur Communication Information System Co Ltd
Current assignee: Inspur Communication Information System Co Ltd
Priority date: 2024-01-24
Filing date: 2024-01-24
Publication date: 2024-04-26
Anticipated expiration: 2044-01-24
Also published as: CN117611845A

Abstract

本发明提供一种多模态数据的关联识别方法、装置、设备及存储介质，涉及电数字数据处理技术领域，方法包括：获取待识别多模态数据；将待识别多模态数据输入至意图识别模型，获得意图识别模型输出的待识别多模态数据对应的意图识别结果；将待识别多模态数据和意图识别结果输入至语义空间模型，获得语义空间模型输出的待识别多模态数据的融合特征向量；将融合特征向量输入至多模态信息关联模型，获得多模态信息关联模型输出的待识别多模态数据的关联识别结果。通过上述方式，不仅拓宽了多模态数据关联识别的范围，还实现了特征的准确提取，保证关联识别结果的准确性，实现多模态数据关联的准确识别。

Description

多模态数据的关联识别方法、装置、设备及存储介质

技术领域

本发明涉及电数字数据处理技术领域，尤其涉及一种多模态数据的关联识别方法、装置、设备及存储介质。

背景技术

多模态数据指的是不同来源或不同模态的数据，例如文本、图像、音频、视频等。不同模态的数据可能存在关联，研究和应用多模态数据的关联关系对认知科学、人工智能和人机交互等领域具有重要意义。因此，如何对多模态数据进行自动化分析与关联，成为了一个热门的研究课题。

目前，已有通过人工智能模型对文本和图像进行关联识别的方案，以及通过人工智能模型对文本和视频进行关联识别的方案。

但是，现有的技术方案仅能实现文本与其他模态数据的关联识别，应用范围有限；另外，由于多模态数据存在异构性，导致模型提取到的特征存在较大局限性，进而影响模型输出的关联识别结果的准确性。因此，现有的技术方案不仅应用范围有限，还难以实现多模态数据关联的准确识别。

发明内容

本发明提供一种多模态数据的关联识别方法、装置、设备及存储介质，用以解决现有技术应用范围有限，难以实现多模态数据关联的准确识别的缺陷。

本发明提供一种多模态数据的关联识别方法，包括：获取待识别多模态数据；待识别多模态数据包括待识别文本、待识别图像、待识别音频、待识别视频中的至少两种；将待识别多模态数据输入至意图识别模型，获得意图识别模型输出的待识别多模态数据对应的意图识别结果；意图识别模型是基于样本多模态数据和样本多模态数据对应的意图识别结果标签训练得到的；将待识别多模态数据和意图识别结果输入至语义空间模型，获得语义空间模型输出的待识别多模态数据的融合特征向量；语义空间模型是基于样本多模态数据、样本多模态数据对应的意图识别结果标签和样本多模态数据对应的融合特征向量训练得到的；将融合特征向量输入至多模态信息关联模型，获得多模态信息关联模型输出的待识别多模态数据的关联识别结果；多模态信息关联模型是基于样本多模态数据对应的融合特征向量和样本多模态数据对应的关联识别结果标签训练得到的。

根据本发明提供的一种多模态数据的关联识别方法，语义空间模型包括第一神经网络组、第二神经网络组和第三神经网络组；将待识别多模态数据和意图识别结果输入至语义空间模型，获得语义空间模型输出的待识别多模态数据的融合特征向量，包括：将待识别多模态数据和意图识别结果输入至语义空间模型的第一神经网络组，获得第一神经网络组输出的待识别多模态数据对应的多模态特征向量；将多模态特征向量输入至语义空间模型的第二神经网络组，获得第二神经网络组输出的待识别多模态数据的相似性度量结果和相关性度量结果；将多模态特征向量、相似性度量结果和相关性度量结果输入至语义空间模型的第三神经网络组，获得第三神经网络组输出的待识别多模态数据的融合特征向量。

根据本发明提供的一种多模态数据的关联识别方法，将待识别多模态数据和意图识别结果输入至语义空间模型，获得语义空间模型输出的待识别多模态数据的融合特征向量之前，还包括：获取样本多模态数据、样本多模态数据对应的意图识别结果标签和样本多模态数据对应的融合特征向量；样本多模态数据包括样本文本、样本图像、样本音频、样本视频；基于样本多模态数据、样本多模态数据对应的意图识别结果标签和样本多模态数据对应的融合特征向量，对第一初始模型进行无监督学习训练，得到语义空间模型。

根据本发明提供的一种多模态数据的关联识别方法，意图识别模型包括特征提取网络和分类网络；将待识别多模态数据输入至意图识别模型，获得意图识别模型输出的待识别多模态数据对应的意图识别结果，包括：将待识别多模态数据输入至意图识别模型的特征提取网络，获得特征提取网络输出的待识别多模态数据对应的意图特征向量；将意图特征向量输入至意图识别模型的分类网络，获得分类网络输出的待识别多模态数据对应的意图识别结果。

根据本发明提供的一种多模态数据的关联识别方法，将待识别多模态数据输入至意图识别模型，获得意图识别模型输出的待识别多模态数据对应的意图识别结果之前，还包括：获取样本多模态数据和样本多模态数据对应的意图识别结果标签；样本多模态数据包括样本文本、样本图像、样本音频、样本视频；基于样本多模态数据和样本多模态数据对应的意图识别结果标签，对第二初始模型进行训练，得到意图识别模型。

根据本发明提供的一种多模态数据的关联识别方法，获取待识别多模态数据，包括：获取原始多模态数据；原始多模态数据包括原始文本、原始图像、原始音频、原始视频中的至少两种；对原始多模态数据进行数据清洗处理，获得第一中间数据；对第一中间数据进行特征提取处理，获得第二中间数据；对第二中间数据进行降噪处理，获得待识别多模态数据。

根据本发明提供的一种多模态数据的关联识别方法，将融合特征向量输入至多模态信息关联模型，获得多模态信息关联模型输出的待识别多模态数据的关联识别结果之后，还包括：响应于用户的检索指令，对目标多模态数据进行检索，获取目标多模态数据的关联识别结果；输出并展示目标多模态数据的关联识别结果。

本发明还提供一种多模态数据的关联识别装置，包括：获取模块，用于获取待识别多模态数据；待识别多模态数据包括待识别文本、待识别图像、待识别音频、待识别视频中的至少两种；意图识别模块，用于将待识别多模态数据输入至意图识别模型，获得意图识别模型输出的待识别多模态数据对应的意图识别结果；意图识别模型是基于样本多模态数据和样本多模态数据对应的意图识别结果标签训练得到的；特征提取模块，用于将待识别多模态数据和意图识别结果输入至语义空间模型，获得语义空间模型输出的待识别多模态数据的融合特征向量；语义空间模型是基于样本多模态数据、样本多模态数据对应的意图识别结果标签和样本多模态数据对应的融合特征向量训练得到的；关联识别模块，用于将融合特征向量输入至多模态信息关联模型，获得多模态信息关联模型输出的待识别多模态数据的关联识别结果；多模态信息关联模型是基于样本多模态数据对应的融合特征向量和样本多模态数据对应的关联识别结果标签训练得到的。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述多模态数据的关联识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述多模态数据的关联识别方法。

本发明提供的一种多模态数据的关联识别方法、装置、设备及存储介质，待识别多模态数据包括待识别文本、待识别图像、待识别音频、待识别视频中的至少两种，拓宽了多模态数据关联识别的范围；在获取待识别多模态数据之后，先通过意图识别模型对待识别多模态数据进行意图识别，获得意图识别结果，再将待识别多模态数据和意图识别结果输入至语义空间模型，获得待识别多模态数据的融合特征向量，最后将融合特征向量输入至多模态信息关联模型，获得待识别多模态数据的关联识别结果，由于意图识别结果可反映不同模态数据的意图关联，因此将意图识别结果和多模态数据共同作为语义空间模型的输入，可为语义空间模型提供更丰富的关联信息，使得语义空间模型生成的融合特征向量包含更丰富的特征信息，实现特征的准确提取，进而可保证后续多模态信息关联模型输出的关联识别结果的准确性，实现多模态数据关联的准确识别。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的多模态数据的关联识别方法的流程示意图之一；

图2是本发明提供的多模态数据的关联识别方法的流程示意图之二；

图3是本发明提供的多模态数据的关联识别装置的结构示意图之一；

图4是本发明提供的多模态数据的关联识别装置的结构示意图之二；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1是本发明提供的多模态数据的关联识别方法的流程示意图之一。在本实施例中，多模态数据的关联识别方法具体包括步骤S110至步骤S140，各步骤具体如下：

S110：获取待识别多模态数据。

待识别多模态数据包括待识别文本、待识别图像、待识别音频、待识别视频中的至少两种。

具体地，获取待识别文本、待识别图像、待识别音频、待识别视频中的至少两种，作为后续模型的输入。

可选地，每一种模态数据的获取数量可以根据实际需要确定。

例如，可以同时获取多个待识别音频和多个待识别图像，也可以获取一个待识别文本、一个待识别音频、多个待识别视频和多个待识别图像。

S120：将待识别多模态数据输入至意图识别模型，获得意图识别模型输出的待识别多模态数据对应的意图识别结果。

意图识别模型是基于样本多模态数据和样本多模态数据对应的意图识别结果标签训练得到的。

具体地，将待识别多模态数据输入至意图识别模型，意图识别模型可从待识别多模态数据中提取不同模态数据的意图信息，识别不同模态数据之间的意图关联，生成并输出待识别多模态数据对应的意图识别结果，作为后续模型的输入，为后续模型提供更丰富的参考信息。

例如，飞行器的音频信息可反映飞行器组件的工作状态，从飞行器组件的工作状态可推测飞行器的飞行姿态意图；飞行器的视频信息可反映飞行器的航线变换意图。获取某飞行器的待识别音频和待识别视频，将待识别音频和待识别视频输入至意图识别模型，意图识别模型可分别从待识别音频和待识别视频中提取该飞行器的飞行姿态意图信息和航线变换意图信息，生成并输出待识别音频对应的意图识别结果和待识别视频的意图识别结果。

S130：将待识别多模态数据和意图识别结果输入至语义空间模型，获得语义空间模型输出的待识别多模态数据的融合特征向量。

语义空间模型是基于样本多模态数据、样本多模态数据对应的意图识别结果标签和样本多模态数据对应的融合特征向量训练得到的。

由于多模态数据存在异构性，导致不同模态数据具有不同的特征度量属性和标准化表示，因此需要对多模态数据进行统一的特征处理，以便于进行后续的关联识别。

具体地，将待识别多模态数据和意图识别结果输入至语义空间模型，由语义空间模型进行统一的特征处理，生成并输出每一模态数据对应的融合特征向量。

融合特征向量可反映该模态数据与其他数据的关联程度。

例如，将待识别文本A和待识别文本A对应的意图识别结果、待识别文本B和待识别文本B对应的意图识别结果、待识别图像C和待识别图像C对应的意图识别结果输入至语义空间模型，语义空间模型可分别输出的待识别文本A对应的融合特征向量A1、待识别文本B对应的融合特征向量B1和待识别图像C对应的融合特征向量C1。

其中，融合特征向量A1可反映待识别文本A与待识别文本B、待识别图像C的关联程度；融合特征向量B1可反映待识别文本B与待识别文本A、待识别图像C的关联程度；融合特征向量C1可反映待识别图像C与待识别文本A、待识别文本B的关联程度。

S140：将融合特征向量输入至多模态信息关联模型，获得多模态信息关联模型输出的待识别多模态数据的关联识别结果。

多模态信息关联模型是基于样本多模态数据对应的融合特征向量和样本多模态数据对应的关联识别结果标签训练得到的。

具体地，将融合特征向量输入至多模态信息关联模型，多模态信息关联模型根据融合特征向量包含的不同模态数据之间的关联程度信息，生成并输出待识别多模态数据的关联识别结果。

优选地，关联识别结果包括关联度评分。

待识别多模态数据之间可能存在关联，也可能不存在关联，即使部分待识别多模态数据之间存在关联，其关联程度也可能不一样，因此，可根据关联度评分判断不同模态数据之间的关联性。

优选地，多模态信息关联模型可基于无监督学习的方式训练得到，以实现多模态数据的无监督关联。

本实施例提供的一种多模态数据的关联识别方法，待识别多模态数据包括待识别文本、待识别图像、待识别音频、待识别视频中的至少两种，拓宽了多模态数据关联识别的范围；在获取待识别多模态数据之后，先通过意图识别模型对待识别多模态数据进行意图识别，获得意图识别结果，再将待识别多模态数据和意图识别结果输入至语义空间模型，获得待识别多模态数据的融合特征向量，最后将融合特征向量输入至多模态信息关联模型，获得待识别多模态数据的关联识别结果，由于意图识别结果可反映不同模态数据的意图关联，因此将意图识别结果和多模态数据共同作为语义空间模型的输入，可为语义空间模型提供更丰富的关联信息，使得语义空间模型生成的融合特征向量包含更丰富的特征信息，实现特征的准确提取，进而可保证后续多模态信息关联模型输出的关联识别结果的准确性，实现多模态数据关联的准确识别。

在一些实施例中，语义空间模型包括第一神经网络组、第二神经网络组和第三神经网络组。

将待识别多模态数据和意图识别结果输入至语义空间模型，获得语义空间模型输出的待识别多模态数据的融合特征向量，包括：将待识别多模态数据和意图识别结果输入至语义空间模型的第一神经网络组，获得第一神经网络组输出的待识别多模态数据对应的多模态特征向量；将多模态特征向量输入至语义空间模型的第二神经网络组，获得第二神经网络组输出的待识别多模态数据的相似性度量结果和相关性度量结果；将多模态特征向量、相似性度量结果和相关性度量结果输入至语义空间模型的第三神经网络组，获得第三神经网络组输出的待识别多模态数据的融合特征向量。

具体地，将待识别多模态数据和意图识别结果输入至语义空间模型的第一神经网络组，第一神经网络组可根据待识别多模态数据和待识别多模态数据对应的意图识别结果进行特征提取处理和特征向量化处理，从而将不同模态的数据映射到相同的多模态语义空间，使得不同模态的数据具有统一的特征表达形式，生成待识别多模态数据对应的多模态特征向量，实现多模态数据的特征表示。

其中，多模态特征向量是高维向量。

具体地，第一神经网络组可为每一种模态数据生成对应的特征向量。

进一步地，将每一种模态数据对应的特征向量，即多模态特征向量，输入至语义空间模型的第二神经网络组，第二神经网络组可根据不同模态数据对应的特征向量进行相似性度量计算和相关性度量计算，生成待识别多模态数据的相似性度量结果和相关性度量结果。

具体地，第二神经网络组可实现不同特征向量之间的对齐映射，针对任意两个特征向量，第二神经网络组可计算两个特征向量之间的余弦相似性和/或欧几里得距离，由于特征向量之间的余弦相似性和欧几里得距离可以反映特征向量的相似性，因此可进一步根据两个特征向量之间的余弦相似性和/或欧几里得距离生成相似性度量结果。

一般地，两个特征向量越相似，则说明两个特征向量的关联越大。

具体地，在获得相似性度量结果之后，第二神经网络组可对相似性度量结果进行学习和计算，生成相关性度量结果。

优选地，在生成相似性度量结果和相关性度量结果的过程中，需要综合考虑不同模态数据对应的特征向量的维度差异、均衡性和有效性等因素，提高生成的相似性度量结果和相关性度量结果的准确性。

进一步地，将多模态特征向量、相似性度量结果和相关性度量结果输入至语义空间模型的第三神经网络组，第三神经网络组可根据多模态特征向量、相似性度量结果和相关性度量结果确定不同模态数据对应的特征向量的参考权重，以便于进行特征选择和特征归一化处理，生成待识别多模态数据的融合特征向量，实现多模态数据的特征融合处理，以便于进行后续的关联识别，确保后续关联识别结果的准确性和可解释性。

本实施例提供的一种多模态数据的关联识别方法，语义空间模型包括第一神经网络组、第二神经网络组和第三神经网络组，通过第一神经网络组实现多模态数据的特征表示，通过第二神经网络组实现多模态数据的相似性度量和相关性度量，通过第三神经网络组实现多模态数据的特征融合处理，生成待识别多模态数据的融合特征向量，使得不同模态的数据具有统一的特征表达形式，以便于进行后续的关联识别，确保后续关联识别结果的准确性和可解释性。

在一些实施例中，将待识别多模态数据和意图识别结果输入至语义空间模型，获得语义空间模型输出的待识别多模态数据的融合特征向量之前，还包括：获取样本多模态数据、样本多模态数据对应的意图识别结果标签和样本多模态数据对应的融合特征向量；样本多模态数据包括样本文本、样本图像、样本音频、样本视频；基于样本多模态数据、样本多模态数据对应的意图识别结果标签和样本多模态数据对应的融合特征向量，对第一初始模型进行无监督学习训练，得到语义空间模型。

无监督学习是机器学习中的一种训练方式或学习方式，其优势在于仅需要少量的标注数据即可实现模型的训练，从而摆脱了模型对大量标注数据的依赖，降低模型训练的成本。

具体地，基于样本多模态数据、样本多模态数据对应的意图识别结果标签和样本多模态数据对应的融合特征向量，对第一初始模型进行无监督学习训练，使得第一初始模型可从少量的标注数据中自动学习和训练，生成跨模态的语义空间模型。

优选地，第一初始模型是基于潜类别分析算法（Latent Class Analysis，LCA）/主题分析法（Thematic Analysis）/聚类分析法构建的。

本实施例提供的一种多模态数据的关联识别方法，采用无监督学习的方式训练得到跨模态的语义空间模型，可摆脱模型对大量标注数据的依赖，降低模型训练的成本，生成的模型精度高，有利于提高后续多模态数据关联识别的精度和可靠性，进而可为用户提供更全面、更准确的数据自动化关联分析服务。

在一些实施例中，意图识别模型包括特征提取网络和分类网络。

将待识别多模态数据输入至意图识别模型，获得意图识别模型输出的待识别多模态数据对应的意图识别结果，包括：将待识别多模态数据输入至意图识别模型的特征提取网络，获得特征提取网络输出的待识别多模态数据对应的意图特征向量；将意图特征向量输入至意图识别模型的分类网络，获得分类网络输出的待识别多模态数据对应的意图识别结果。

意图识别模型采用基于意图的识别策略准则，从多模态数据中提取不同模态数据的意图信息，生成意图识别结果，为后续模型提供更丰富的参考信息，辅助后续多模态数据的关联识别。

具体地，将待识别多模态数据输入至意图识别模型的特征提取网络，特征提取网络可从待识别多模态数据中提取有效特征，生成待识别多模态数据对应的意图特征向量。

具体地，针对待识别文本，意图识别模型可提取文本特征，生成待识别文本对应的文本意图特征向量；针对待识别图像，意图识别模型可提取图像特征，生成待识别图像对应的图像意图特征向量；针对待识别音频，意图识别模型可提取音频特征，生成待识别音频对应的音频意图特征向量；针对待识别视频，意图识别模型可提取视频特征，生成待识别视频对应的视频意图特征向量。

进一步地，将意图特征向量输入至意图识别模型的分类网络，分类网络可对意图特征向量进行分类识别，生成待识别多模态数据对应的意图识别结果。

本实施例提供的一种多模态数据的关联识别方法，意图识别模型包括特征提取网络和分类网络，通过特征提取网络实现多模态数据的意图特征提取，通过分类网络实现多模态数据的意图分类识别，生成待识别多模态数据对应的意图识别结果，为后续模型提供更丰富的参考信息，可辅助后续多模态数据的关联识别。

在一些实施例中，将待识别多模态数据输入至意图识别模型，获得意图识别模型输出的待识别多模态数据对应的意图识别结果之前，还包括：获取样本多模态数据和样本多模态数据对应的意图识别结果标签；样本多模态数据包括样本文本、样本图像、样本音频、样本视频；基于样本多模态数据和样本多模态数据对应的意图识别结果标签，对第二初始模型进行训练，得到意图识别模型。

优选地，第二初始模型是基于支持向量机算法/贝叶斯算法/人工神经网络算法构建的。

在一些实施例中，获取待识别多模态数据，包括：获取原始多模态数据；原始多模态数据包括原始文本、原始图像、原始音频、原始视频中的至少两种；对原始多模态数据进行数据清洗处理，获得第一中间数据；对第一中间数据进行特征提取处理，获得第二中间数据；对第二中间数据进行降噪处理，获得待识别多模态数据。

具体地，获取原始文本、原始图像、原始音频、原始视频中的至少两种。

其中，若获取的待识别多模态数据中包含原始音频或原始视频，则需要对原始音频或原始视频进行解码、切分等处理，降低数据的处理量。

进一步地，对原始多模态数据进行数据清洗处理，去除原始多模态数据中的异常数据或重复数据，降低后续模型的数据处理量，获得第一中间数据。

进一步地，对第一中间数据进行特征提取处理，保留有价值的关键信息，获得第二中间数据。

进一步地，对第二中间数据进行降噪处理，去除第二中间数据的冗余信息和噪声，获得待识别多模态数据。

本实施例提供的一种多模态数据的关联识别方法，获取原始多模态数据之后，对原始多模态数据进行数据清洗、特征提取、降噪等数据预处理，去除了原始多模态数据中的冗余信息和无关噪声，生成待识别多模态数据，可提高待识别多模态数据的质量和可靠性，降低后续模型的数据处理量，有利于提高模型的处理效率。

在一些实施例中，将融合特征向量输入至多模态信息关联模型，获得多模态信息关联模型输出的待识别多模态数据的关联识别结果之后，还包括：响应于用户的检索指令，对目标多模态数据进行检索，获取目标多模态数据的关联识别结果；输出并展示目标多模态数据的关联识别结果。

具体地，在获得待识别多模态数据的关联识别结果之后，基于关联识别结果建立关键词索引。

例如，针对待识别文本、待识别图像、待识别音频和待识别视频，假设待识别文本包含关于猫的描述，待识别音频为猫的叫声，待识别图像为狗的图像，待识别视频为狗的活动视频，则待识别多模态数据之间的关联识别结果为待识别文本和待识别音频之间存在关联，待识别图像和待识别视频之间存在关联。此时，基于关联识别结果可分别建立索引关键词“猫”和“狗”；其中，索引关键词“猫”可对应待识别文本和待识别音频，索引关键词“狗”可对应待识别图像和待识别视频。

可以理解地，用户可能仅需要获取特定信息的关联关系。因此，可根据用户输入的索引关键词，生成对应的检索指令，以查询和检索用户所需获取的特定信息的关联关系。

进一步地，响应于用户的检索指令，根据检索指令携带的索引关键词信息，对目标多模态数据进行检索，获取目标多模态数据的关联识别结果，并将目标多模态数据的关联识别结果以可视化的形式呈现给用户，使用户可以更好地理解多模态数据之间的联系和结构，提高用户体验。

本实施例提供的一种多模态数据的关联识别方法，在获得待识别多模态数据的关联识别结果之后，基于关联识别结果建立关键词索引，便于根据用户的检索指令进行查询和检索，帮助用户获取特定信息的关联识别结果，并将目标多模态数据的关联识别结果以可视化的形式呈现给用户，使用户可以更好地理解多模态数据之间的联系和结构，提高用户体验；同时，通过建立关键词索引，可提高数据查询的效率，具有较高的实用性和市场价值。

本发明还提供多模态数据的关联识别方法的一个具体的实例。请参阅图2，图2是本发明提供的多模态数据的关联识别方法的流程示意图之二。

如图2所示，在获取原始多模态数据之后，对原始多模态数据进行数据预处理，获得待识别多模态数据。

进一步地，将待识别多模态数据输入至意图识别模型，进行多模态数据的意图识别，获得意图识别模型输出的待识别多模态数据对应的意图识别结果。

进一步地，将待识别多模态数据和意图识别结果输入至语义空间模型，进行多模态数据的特征提取和特征融合，获得语义空间模型输出的待识别多模态数据的融合特征向量。

进一步地，将融合特征向量输入至多模态信息关联模型，进行多模态数据的关联识别，获得多模态信息关联模型输出的待识别多模态数据的关联识别结果。

进一步地，在获得待识别多模态数据的关联识别结果之后，基于关联识别结果建立关键词索引；响应于用户的检索指令，对目标多模态数据进行检索，获取目标多模态数据的关联识别结果，输出并展示目标多模态数据的关联识别结果。

本发明还提供了一种多模态数据的关联识别装置。请参阅图3，图3是本发明提供的多模态数据的关联识别装置的结构示意图之一，在本实施例中，多模态数据的关联识别装置包括获取模块310、意图识别模块320、特征提取模块330和关联识别模块340。

获取模块310，用于获取待识别多模态数据。

意图识别模块320，用于将待识别多模态数据输入至意图识别模型，获得意图识别模型输出的待识别多模态数据对应的意图识别结果。

特征提取模块330，用于将待识别多模态数据和意图识别结果输入至语义空间模型，获得语义空间模型输出的待识别多模态数据的融合特征向量。

关联识别模块340，用于将融合特征向量输入至多模态信息关联模型，获得多模态信息关联模型输出的待识别多模态数据的关联识别结果。

特征提取模块330，用于将待识别多模态数据和意图识别结果输入至语义空间模型的第一神经网络组，获得第一神经网络组输出的待识别多模态数据对应的多模态特征向量；将多模态特征向量输入至语义空间模型的第二神经网络组，获得第二神经网络组输出的待识别多模态数据的相似性度量结果和相关性度量结果；将多模态特征向量、相似性度量结果和相关性度量结果输入至语义空间模型的第三神经网络组，获得第三神经网络组输出的待识别多模态数据的融合特征向量。

意图识别模块320，用于将待识别多模态数据输入至意图识别模型的特征提取网络，获得特征提取网络输出的待识别多模态数据对应的意图特征向量；将意图特征向量输入至意图识别模型的分类网络，获得分类网络输出的待识别多模态数据对应的意图识别结果。

在一些实施例中，获取模块310，用于获取原始多模态数据；原始多模态数据包括原始文本、原始图像、原始音频、原始视频中的至少两种；对原始多模态数据进行数据清洗处理，获得第一中间数据；对第一中间数据进行特征提取处理，获得第二中间数据；对第二中间数据进行降噪处理，获得待识别多模态数据。

在一些实施例中，多模态数据的关联识别装置还包括可视化模块。

可视化模块，用于响应于用户的检索指令，对目标多模态数据进行检索，获取目标多模态数据的关联识别结果；输出并展示目标多模态数据的关联识别结果。

本发明还提供多模态数据的关联识别装置的一个具体的实例。请参阅图4，图4是本发明提供的多模态数据的关联识别装置的结构示意图之二。

如图4所示，多模态数据的关联识别装置包括数据预处理模块、意图识别模块、多模态信息网络模块、数据检索与可视化呈现模块。

数据预处理模块，用于获取原始多模态数据，并对原始多模态数据进行数据预处理，获得待识别多模态数据。

意图识别模块，用于将待识别多模态数据输入至意图识别模型，进行多模态数据的意图识别，获得意图识别模型输出的待识别多模态数据对应的意图识别结果。

多模态信息网络模块，用于将待识别多模态数据和意图识别结果输入至语义空间模型，进行多模态数据的特征提取和特征融合，获得语义空间模型输出的待识别多模态数据的融合特征向量；将融合特征向量输入至多模态信息关联模型，进行多模态数据的关联识别，获得多模态信息关联模型输出的待识别多模态数据的关联识别结果。

数据检索与可视化呈现模块，提供图形化界面和交互式操作界面，用于在获得待识别多模态数据的关联识别结果之后，基于关联识别结果建立关键词索引；响应于用户的检索指令，对目标多模态数据进行检索，获取目标多模态数据的关联识别结果，输出并展示目标多模态数据的关联识别结果。

本发明还提供一种电子设备，图5是本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(CommunicationsInterface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行多模态数据的关联识别方法。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的多模态数据的关联识别方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多模态数据的关联识别方法，其特征在于，包括：

获取待识别多模态数据；所述待识别多模态数据包括待识别文本、待识别图像、待识别音频、待识别视频中的至少两种；

将所述待识别多模态数据输入至意图识别模型，获得所述意图识别模型输出的所述待识别多模态数据对应的意图识别结果；所述意图识别模型是基于样本多模态数据和所述样本多模态数据对应的意图识别结果标签训练得到的；

将所述待识别多模态数据和所述意图识别结果输入至语义空间模型，获得所述语义空间模型输出的所述待识别多模态数据的融合特征向量；所述语义空间模型是基于样本多模态数据、所述样本多模态数据对应的意图识别结果标签和所述样本多模态数据对应的融合特征向量训练得到的；

将所述融合特征向量输入至多模态信息关联模型，获得所述多模态信息关联模型输出的待识别多模态数据的关联识别结果；所述多模态信息关联模型是基于样本多模态数据对应的融合特征向量和样本多模态数据对应的关联识别结果标签训练得到的；

所述语义空间模型包括第一神经网络组、第二神经网络组和第三神经网络组；

所述将所述待识别多模态数据和所述意图识别结果输入至语义空间模型，获得所述语义空间模型输出的所述待识别多模态数据的融合特征向量，包括：

将所述待识别多模态数据和所述意图识别结果输入至语义空间模型的第一神经网络组，获得所述第一神经网络组输出的所述待识别多模态数据对应的多模态特征向量；

将所述多模态特征向量输入至语义空间模型的第二神经网络组，获得所述第二神经网络组输出的所述待识别多模态数据的相似性度量结果和相关性度量结果；

将所述多模态特征向量、所述相似性度量结果和所述相关性度量结果输入至语义空间模型的第三神经网络组，获得所述第三神经网络组输出的所述待识别多模态数据的融合特征向量；

所述将所述待识别多模态数据和所述意图识别结果输入至语义空间模型，获得所述语义空间模型输出的所述待识别多模态数据的融合特征向量之前，还包括：

获取样本多模态数据、所述样本多模态数据对应的意图识别结果标签和所述样本多模态数据对应的融合特征向量；所述样本多模态数据包括样本文本、样本图像、样本音频、样本视频；

基于样本多模态数据、所述样本多模态数据对应的意图识别结果标签和所述样本多模态数据对应的融合特征向量，对第一初始模型进行无监督学习训练，得到所述语义空间模型；

所述意图识别模型包括特征提取网络和分类网络；

所述将所述待识别多模态数据输入至意图识别模型，获得所述意图识别模型输出的所述待识别多模态数据对应的意图识别结果，包括：

将所述待识别多模态数据输入至意图识别模型的特征提取网络，获得所述特征提取网络输出的所述待识别多模态数据对应的意图特征向量；

将所述意图特征向量输入至意图识别模型的分类网络，获得所述分类网络输出的所述待识别多模态数据对应的意图识别结果。

2.根据权利要求1所述的多模态数据的关联识别方法，其特征在于，所述将所述待识别多模态数据输入至意图识别模型，获得所述意图识别模型输出的所述待识别多模态数据对应的意图识别结果之前，还包括：

获取样本多模态数据和所述样本多模态数据对应的意图识别结果标签；所述样本多模态数据包括样本文本、样本图像、样本音频、样本视频；

基于样本多模态数据和所述样本多模态数据对应的意图识别结果标签，对第二初始模型进行训练，得到所述意图识别模型。

3.根据权利要求1所述的多模态数据的关联识别方法，其特征在于，所述获取待识别多模态数据，包括：

获取原始多模态数据；所述原始多模态数据包括原始文本、原始图像、原始音频、原始视频中的至少两种；

对所述原始多模态数据进行数据清洗处理，获得第一中间数据；

对所述第一中间数据进行特征提取处理，获得第二中间数据；

对所述第二中间数据进行降噪处理，获得待识别多模态数据。

4.根据权利要求1所述的多模态数据的关联识别方法，其特征在于，所述将所述融合特征向量输入至多模态信息关联模型，获得所述多模态信息关联模型输出的待识别多模态数据的关联识别结果之后，还包括：

响应于用户的检索指令，对目标多模态数据进行检索，获取目标多模态数据的关联识别结果；

输出并展示所述目标多模态数据的关联识别结果。

5.一种多模态数据的关联识别装置，其特征在于，包括：

获取模块，用于获取待识别多模态数据；所述待识别多模态数据包括待识别文本、待识别图像、待识别音频、待识别视频中的至少两种；

意图识别模块，用于将所述待识别多模态数据输入至意图识别模型，获得所述意图识别模型输出的所述待识别多模态数据对应的意图识别结果；所述意图识别模型是基于样本多模态数据和所述样本多模态数据对应的意图识别结果标签训练得到的；

特征提取模块，用于将所述待识别多模态数据和所述意图识别结果输入至语义空间模型，获得所述语义空间模型输出的所述待识别多模态数据的融合特征向量；所述语义空间模型是基于样本多模态数据、所述样本多模态数据对应的意图识别结果标签和所述样本多模态数据对应的融合特征向量训练得到的；

关联识别模块，用于将所述融合特征向量输入至多模态信息关联模型，获得所述多模态信息关联模型输出的待识别多模态数据的关联识别结果；所述多模态信息关联模型是基于样本多模态数据对应的融合特征向量和样本多模态数据对应的关联识别结果标签训练得到的；

所述特征提取模块，用于将所述待识别多模态数据和所述意图识别结果输入至语义空间模型的第一神经网络组，获得所述第一神经网络组输出的所述待识别多模态数据对应的多模态特征向量；将所述多模态特征向量输入至语义空间模型的第二神经网络组，获得所述第二神经网络组输出的所述待识别多模态数据的相似性度量结果和相关性度量结果；将所述多模态特征向量、所述相似性度量结果和所述相关性度量结果输入至语义空间模型的第三神经网络组，获得所述第三神经网络组输出的所述待识别多模态数据的融合特征向量；

获取样本多模态数据、所述样本多模态数据对应的意图识别结果标签和所述样本多模态数据对应的融合特征向量；所述样本多模态数据包括样本文本、样本图像、样本音频、样本视频；基于样本多模态数据、所述样本多模态数据对应的意图识别结果标签和所述样本多模态数据对应的融合特征向量，对第一初始模型进行无监督学习训练，得到所述语义空间模型；

所述意图识别模型包括特征提取网络和分类网络；

所述意图识别模块，用于将所述待识别多模态数据输入至意图识别模型的特征提取网络，获得所述特征提取网络输出的所述待识别多模态数据对应的意图特征向量；将所述意图特征向量输入至意图识别模型的分类网络，获得所述分类网络输出的所述待识别多模态数据对应的意图识别结果。

6.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述多模态数据的关联识别方法。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述多模态数据的关联识别方法。