CN117150031A

CN117150031A - 一种面向多模态数据的处理方法及系统

Info

Publication number: CN117150031A
Application number: CN202310907856.6A
Authority: CN
Inventors: 赵维纳; 李琳; 马龙龙; 安波
Original assignee: Qinghai Normal University
Current assignee: Qinghai Normal University
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-12-01

Abstract

本发明公开了一种面向多模态数据的处理方法及系统，基于知识迁移的多模态知识抽取方法，采用知识迁移的思想，基于文本模态抽取的结果并融合图像和视频模态来共同完成实体和关系的抽取。基于统一语义表示的跨模态知识融合方法，通过统一语义表示学习方法将各个模态的知识元素映射到潜在的语义子空间，然后通过跨模态知识链接方法，将多模态知识链接到多模态知识图谱中。基于多模态知识图谱的分析与推理方法，以多模态知识为驱动对多模态数据进行深层语义分析与理解。

Description

一种面向多模态数据的处理方法及系统

技术领域

本发明涉及数据处理领域，尤其是一种面向多模态数据的分析、推理方法及系统。

背景技术

面向多模态数据的分析与推理是融合自然语言处理和计算机视觉的交叉任务，是计算机科学的热点问题，也是人工智能中一个具有广阔前景的研究方向。从处理流程看，首先需要从多模态数据的各个模态中抽取知识元素，然后再进行跨模态的知识融合，进而构建多模态知识图谱，最后基于多模态知识图谱进行推理、解释等任务。因而，多模态数据的知识抽取、跨模态的知识融合和多模态内容的分析与推理是其中的关键技术。

面向多模态数据的分析与推理的关键技术包括：多模态数据的知识抽取、跨模态的知识融合和多模态内容的分析与推理。

针对多模态的知识抽取，其目标是从多模态数据中抽取实体和关系等知识元素。多模态实体识别通常利用相似文本和视觉集合来自动抽取视觉概念；另一种方法则基于分类图像来自动建立视觉实体的框架，根据文本和视觉的聚类结果来确定最终的视觉概念。多模态关系抽取一般通过计算实体的文本和图像特征的统计关系进行抽取，进一步验证频度差异和概念标签的分布来计算类别关系。目前多模态知识抽取研究还处在起步阶段，由于多模态数据中不同模态之间存在关联性，如何充分利用单个模态知识抽取的方法，多个模态来协同抽取知识是需要解决的关键问题。

针对跨模态的知识融合，首先将不同模态抽取的知识映射到统一的语义表示空间，然后通过跨模态的知识链接将多模态的知识集成到多模态知识图谱。统一的语义表示学习将不同模态抽取的知识映射到统一的语义空间，获得在该空间的特征表示；通常利用多模态深度神经网络来建模不同模态数据特征的概率分布模型，通过一个联合神经网络层来学习得到统一特征表示。跨模态的知识链接的目的是将多模态抽取的知识与多模态知识图谱中对应的实体进行链接，目前方法主要是借鉴文本模态的知识链接方法。

基于构建的多模态知识图谱，多模态分析与推理的关键任务包括多模态关联理解与挖掘和多模态知识演化与推理。多模态关联理解与挖掘方法主要利用表示学习、度量学习和矩阵分解来构建多模态数据的相关学习，通常只能捕获多模态数据对象之间的一阶相关性。现有知识演化与推理以文本为主，通过谓词、命题和规则等方法在充分定义前提下进行推理。

发明内容

为了解决现有技术中的上述问题，本发明提供了一种面向多模态数据的分析、推理方法及系统。

该面向多模态数据的处理方法，包括以下步骤：

S10.针对输入的多模态数据，采用知识迁移的思想，基于文本模态抽取结果并融合图像模态来共同完成实体和关系的抽取；

S20.将各个模态的知识元素映射到潜在的语义子空间，将多模态知识链接到多模态知识图谱中；

S30.以多模态知识为驱动，对多模态数据进行深层语义分析与理解。

在一些实施例中，步骤S10包括以下流程：

S11针对输入的多模态数据，分别对文本、图像和视频模态进行候选实体和关系的抽取；针对文本模态拟基于深度学习进行实体和关系的联合抽取；针对图像和视频模态拟基于目标检测的方法进行实体检测，并从空间关系和语义关系两个层面抽取关系；

S12.通过融合文本实体和图像视频模态目标，从外部资源检索并获取更多的文本模态数据；

S13.基于相关文本模态数据知识抽取的结果以及单模态的实体识别和关系抽取结果，利用基于知识迁移的思想，将文本模态联合图像视频模态来共同完成多模态数据的知识抽取。

在一些实施例中，步骤S20包括以下流程：

S21.从多模态数据中提取语义单元，然后在语义单元关联超图统一建模所有模态的知识元素，同时学习多模态统一表示空间的映射矩阵；

S22.采用深度融合图像和文本语义信息的跨模态知识链接方法，在文本模态的知识链接方法中，深度融合图像模态的知识元素信息，进行跨模态的知识信息的链接，最终将知识链接到多模态知识图谱中。

在一些实施例中，步骤S30包括以下流程：

S31.采用基于高阶相关性的多模态关联理解与挖掘方法，通过自学习的方法捕获多模态数据中各个模态之间的高阶相关性，进一步实现多模态内容的关联分析与理解；

S32.采用基于知识引导的多模态数据的知识演化与推理方法，首先构建知识引导的多模态知识学习方法，联合知识获取和挖掘方法来分析知识演化的过程；然后提出基于知识演化的推理框架，拟采用多模态深度学习和多实例学习的方法。

所述面向多模态数据的处理系统，包括：多模态知识抽取单元、跨模态知识融合单元、知识图谱的分析与推理单元；

所述多模态知识抽取单元采用知识迁移的思想，基于文本模态抽取结果并融合图像模态来共同完成实体和关系的抽取；

所述跨模态知识融合单元将各个模态的知识元素映射到潜在的语义子空间，将多模态知识链接到多模态知识图谱中；

所述知识图谱的分析与推理单元，以多模态知识为驱动，对多模态数据进行深层语义分析与理解。

在一些实施例中，所述多模态知识抽取单元包括单模态知识抽取模块、多模态检索模块、知识抽取及验证模块；

所述单模态知识抽取模块针对输入的多模态数据，分别对文本、图像和视频模态进行候选实体和关系的抽取；其中文本模态拟基于深度学习进行实体和关系的联合抽取；图像和视频模态拟基于目标检测的方法进行实体检测，并从空间关系和语义关系两个层面抽取关；

所述多模态检索模块通过融合文本模块实体和图像视频模态目标的检索方法，从外部资源获取更多的文本模态数据；

所述知识抽取及验证模块基于相关文本模态数据知识抽取的结果以及单模态的实体识别和关系抽取结果，利用基于知识迁移的思想，文本模态联合图像视频模态来共同完成多模态数据的知识抽取。

在一些实施例中，所述模态知识融合单元包括语义表示学习模块和实体链接模块；

所述语义表示学习模块针对输入的文本、图像和视频模态的知识元素，首先利用细粒度的关联信息，从多模态数据中提取语义单元，然后在语义单元关联超图统一建模所有模态的知识元素，同时学习多模态统一表示空间的映射矩阵；

所述实体链接模块采用深度融合图像和文本语义信息的跨模态知识链接方法，在文本模态的知识链接方法中，深度融合图像模态的知识元素信息，进行跨模态的知识信息的链接，最终将知识链接到多模态知识图谱中。

在一些实施例中，所述知识图谱的分析与推理单元包括多模态关联理解与挖掘模块和多模态知识演化与推理模块；

所述多模态关联理解与挖掘模块采用基于高阶相关性的多模态关联理解与挖掘方法，通过自学习的方法捕获多模态数据中各个模态之间的高阶相关性，进一步实现多模态内容的关联分析与理解；

所述多模态知识演化与推理模块采用基于知识引导的多模态数据的知识演化与推理方法，首先构建知识引导的多模态知识学习方法，联合知识获取和挖掘方法来分析知识演化的过程；然后提出基于知识演化的推理框架，拟采用多模态深度学习和多实例学习的方法。

本发明具有以下有益效果：

1.提出基于知识迁移的多模态知识抽取方法，该方法能够在复杂多样的互联网多模态数据中抽取实体和关系；同时，基于知识迁移的思想，文本模态联合其它模态共同完成多模态数据的知识抽取。

2.提出基于统一语义表示学习的跨模态知识融合方法，解决不同模态之间知识表示的语义鸿沟问题；并采用深度融合图像和文本语义信息的跨模态知识链接方法，构建多模态知识图谱。

3.提出基于高阶相关性的多模态关联理解与挖掘方法，通过学习的方法捕获多模态数据中各个模态之间的高阶相关性，实现多模态内容的语义关联分析与理解。

4.提出基于知识引导的多模态数据的知识演化与推理方法，通过构建知识引导的多模态知识学习方法，联合知识获取和挖掘方法来分析知识演化的过程。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种面向多模态数据的处理方法的流程图；

图2是一种面向多模态数据的处理系统的结构示意图；

图3是基于知识迁移的多模态知识抽取流程示意图；

图4是基于统一语义表示的跨模态知识融合流程示意图

图中100、面向多模态数据的处理系统；110、多模态知识抽取单元；111、单模态知识抽取模块；112、多模态检索模块；113、知识抽取及验证模块；120、跨模态知识融合单元；121、语义表示学习模块；122、实体链接模块；130、知识图谱的分析与推理单元；131、多模态关联理解与挖掘模块；132、多模态知识演化与推理模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本实用新型一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

参考附图1所示，面向多模态数据的处理方法，包括以下步骤：

S10.基于知识迁移的多模态知识抽取方法，采用知识迁移的思想，基于文本模态抽取的结果并融合图像模态来共同完成实体和关系的抽取；

S20.基于统一语义表示的跨模态知识融合方法，通过统一语义表示学习方法将各个模态的知识元素映射到潜在的语义子空间，然后通过跨模态知识链接方法，将多模态知识链接到多模态知识图谱中；

S30.基于多模态知识图谱的分析与推理方法，以多模态知识为驱动，对多模态数据进行深层语义分析与理解。

参考附图2所示，所述面向多模态数据的处理系统100，包括：多模态知识抽取单元110、跨模态知识融合单元120、知识图谱的分析与推理单元130。

所述多模态知识抽取单元110采用知识迁移的思想，基于文本模态抽取结果并融合图像模态来共同完成实体和关系的抽取；所述多模态知识抽取单元110包括单模态知识抽取模块111、多模态检索模块112、知识抽取及验证模块113。

所述跨模态知识融合单元120将各个模态的知识元素映射到潜在的语义子空间，将多模态知识链接到多模态知识图谱中；所述模态知识融合单元包括语义表示学习模块121和实体链接模块122。

所述知识图谱的分析与推理单元130，以多模态知识为驱动，对多模态数据进行深层语义分析与理解。所述知识图谱的分析与推理单元130包括多模态关联理解与挖掘模块131和多模态知识演化与推理模块132。

本面向多模态数据的处理系统100具体处理处理流程如下：

参考附图3所示，首先，所述单模态知识抽取模块111针对输入的多模态数据，分别对文本、图像和视频模态进行候选实体和关系的抽取；其中文本模态拟基于深度学习进行实体和关系的联合抽取；图像和视频模态拟基于目标检测的方法进行实体检测，并从空间关系和语义关系两个层面抽取关。

所述多模态检索模块112通过融合文本模块实体和图像视频模态目标的检索方法，从外部资源获取更多的文本模态数据。

所述知识抽取及验证模块113基于相关文本模态数据知识抽取的结果以及单模态的实体识别和关系抽取结果，利用基于知识迁移的思想，文本模态联合图像视频模态来共同完成多模态数据的知识抽取。

其次，参考附图4所示，所述语义表示学习模块121针对输入的文本、图像和视频模态的知识元素，首先利用细粒度的关联信息，从多模态数据中提取语义单元，然后在语义单元关联超图统一建模所有模态的知识元素，同时学习多模态统一表示空间的映射矩阵；

所述实体链接模块122采用深度融合图像和文本语义信息的跨模态知识链接方法，在文本模态的知识链接方法中，深度融合图像模态的知识元素信息，进行跨模态的知识信息的链接，最终将知识链接到多模态知识图谱中。

最后，所述多模态关联理解与挖掘模块131采用基于高阶相关性的多模态关联理解与挖掘方法，通过自学习的方法捕获多模态数据中各个模态之间的高阶相关性，进一步实现多模态内容的关联分析与理解；

所述多模态知识演化与推理模块132采用基于知识引导的多模态数据的知识演化与推理方法，首先构建知识引导的多模态知识学习方法，联合知识获取和挖掘方法来分析知识演化的过程；然后提出基于知识演化的推理框架，拟采用多模态深度学习和多实例学习的方法。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种面向多模态数据的处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向多模态数据的处理方法，其特征在于，步骤S10包括以下流程：

3.根据权利要求1所述的面向多模态数据的处理方法，其特征在于，步骤S20包括以下流程：

4.根据权利要求1所述的面向多模态数据的处理方法，其特征在于，步骤S30包括以下流程：

5.一种面向多模态数据的处理系统，其特征在于，包括：多模态知识抽取单元、跨模态知识融合单元、知识图谱的分析与推理单元；

6.根据权利要求5所述的面向多模态数据的处理系统，其特征在于，所述多模态知识抽取单元包括单模态知识抽取模块、多模态检索模块、知识抽取及验证模块；

7.根据权利要求5所述的面向多模态数据的处理系统，其特征在于，所述模态知识融合单元包括语义表示学习模块和实体链接模块；

8.根据权利要求5所述的面向多模态数据的处理系统，其特征在于，所述知识图谱的分析与推理单元包括多模态关联理解与挖掘模块和多模态知识演化与推理模块；