CN118153692A

CN118153692A - 基于语义的跨模态知识联想方法、装置、设备及存储介质

Info

Publication number: CN118153692A
Application number: CN202410580190.2A
Authority: CN
Inventors: 何兆铭; 毕海; 张赫铭; 汪伟; 柯链宝
Original assignee: Ji Hua Laboratory
Current assignee: Ji Hua Laboratory
Priority date: 2024-05-11
Filing date: 2024-05-11
Publication date: 2024-06-07

Abstract

本发明涉及多模态数据应用技术领域，公开了一种基于语义的跨模态知识联想方法、装置、设备及存储介质。该方法包括：获取跨模态知识及其对应的语言描述作为语义跨模态数据集；构建跨模态知识联想模型，跨模态知识联想模型包括语义mask子模型和融合变换因子生成子模型，语义mask子模型用于对语义跨模态数据集进行遮罩处理生成与语言描述最相关的部分数据，融合变换因子生成子模型用于对语义跨模态数据集进行处理生成变换因子；将语义跨模态数据集输入经过训练的跨模态知识联想模型中，输出符合语言描述的跨模态知识联想。本发明方法能够实现将最符合模型当前任务的跨模态知识联想用于下游任务，大幅提升深度学习模型面对跨模态任务的泛化能力。

Description

基于语义的跨模态知识联想方法、装置、设备及存储介质

技术领域

本发明涉及多模态数据应用技术领域，尤其涉及一种基于语义的跨模态知识联想方法、装置、设备及存储介质。

背景技术

在深度学习的发展中，多模态模型是联系理论模型和实际应用的重要途径。在诸如虚拟现实、自动驾驶、新材料研发、医疗诊断等多个领域中，需要模型能够理解场景中的多种模态的数据，并通过语言或图像的方式与使用者进行交互。因此，多模态AI成为推动深度学习技术与各行业深度应用的核心技术手段之一。

目前在进行跨模态知识理解时，通常使用双流模型将文本模态数据与其他模态数据进行对齐。在使用时，其他模态输入将被训练好的双流模型进行模态转换，成为语言模型能够理解的输入。在此基础上，用户可以向下游语言模型输入文本指令完成跨模态数据的相关任务。但是通常双流模型只能对单个其他模态数据进行转化，无法充分利用数据库中和跨模态任务相关的多个样本数据，导致对数据库利用率不足，从而在解决跨模态下游任务时导致模型整体的泛化能力较低。

因此，现有技术还有待于改进和发展。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种基于语义的跨模态知识联想方法、装置、设备及存储介质，旨在解决现有技术无法充分利用数据库中和跨模态任务相关的多个样本数据，导致在解决跨模态下游任务时模型整体的泛化能力较低的问题。

本发明第一方面提供了一种基于语义的跨模态知识联想方法，包括：获取跨模态知识及其对应的语言描述作为语义跨模态数据集；构建跨模态知识联想模型，所述跨模态知识联想模型包括语义mask子模型和融合变换因子生成子模型，所述语义mask子模型用于对所述语义跨模态数据集进行遮罩处理生成与语言描述最相关的部分数据，所述融合变换因子生成子模型用于对所述语义跨模态数据集进行处理生成变换因子；将所述跨模态知识及其对应的语言描述输入经过训练的跨模态知识联想模型中，输出符合语言描述的跨模态知识联想。

可选的，在本发明第一方面的第一种实现方式中，所述语义mask子模型的表达式为：，其中，I _k表示第k个跨模态知识，k为正整数，P表示对应的语言描述，f为遮罩生成模型，生成第k个跨模态知识的遮罩/>；所述语义mask子模型用于对所述语义跨模态数据集进行遮罩处理生成与语言描述最相关的部分数据，其表达式为：/>，/>表示遮罩处理，/>表示第k个跨模态知识经过遮罩处理后得到的与语言描述最相关的部分数据。

可选的，在本发明第一方面的第二种实现方式中，所述语义mask子模型包括语言编码模块、模态特征提取模块、注意力模块以及输出模块。

可选的，在本发明第一方面的第三种实现方式中，所述跨模态知识联想模型在训练时包括语义mask子模型的训练，所述语义mask子模型的训练包括以下步骤：获取语义跨模态数据集样本，其中每个样本包括跨模态知识和对应的语言描述标签，所述语义跨模态数据集样本不包含额外的语义分割标签；

将语言描述标签和跨模态知识分别通过语言编码模块和模态特征提取模块进行特征提取，分别得到语言向量和模态特征；

将所述模态特征进行随机分割后和所述语言向量一起输入注意力模块，通过注意力模型学习到的权重选择语言描述标签和跨模态知识最相似的部分数据作为mask。

可选的，在本发明第一方面的第四种实现方式中，所述跨模态知识联想模型在训练时包括语义mask子模型的训练，所述语义mask子模型的训练包括以下步骤：获取语义跨模态数据集样本，其中每个样本包括跨模态知识和对应的语言描述标签；若所述语义跨模态数据集样本中还包括额外的语义分割标签，则直接用所述语义分割标签对所述跨模态知识联想模型进行有监督训练。

可选的，在本发明第一方面的第五种实现方式中，所述跨模态知识联想模型在训练时包括融合变换因子生成子模型的训练，所述融合变换因子生成子模型的训练包括步骤：随机从语义跨模态数据集样本中取一个样本，称为目标跨模态知识联想输入，其包括语言描述标签和跨模态知识；将样本中的语言描述标签拆分为关键词集合{K _i}，K _i表示第i个关键词，i为正整数，使用训练后的语义mask子模型为每个关键词生成所述目标跨模态知识联想输入的遮罩合集{M _i}，使用遮罩将所述目标跨模态知识联想输入进行分割获得分割合集{U _i}，生成随机变换因子集合{A _i}对分割合集{U _i}中每个元素进行随机缩放、平移、旋转和强度变换得到变换后的合集{T _i}；构建深度学习模型以语言输入、变换后的合集中的元素T _i、变换前的合集中的元素子集U* _i作为输入，生成变换因子输出A’_i，所述元素子集U* _i是从{U _i}中抽取的元素构成子集{u* _i}并进行合并得到；对每个元素T _i预测，得到变换因子合集{A’ _i}，通过所述变换因子合集{A’ _i}对{T _i}进行融合，得到跨模态联想输出，通过目标跨模态知识联想输入和跨模态联想输出间的差异计算融合变换因子生成子模型参数的损失，从而使用优化器对融合变换因子生成子模型进行训练。

可选的，在本发明第一方面的第六种实现方式中，所述跨模态知识为图像数据、产品结构数据、时间序列片段数据中的一种。

本发明第二方面提供了一种基于语义的跨模态知识联想装置，包括：获取模块，用于获取跨模态知识及其对应的语言描述作为语义跨模态数据集；模型构建模块，用于构建跨模态知识联想模型，所述跨模态知识联想模型包括语义mask子模型和融合变换因子生成子模型，所述语义mask子模型用于对所述语义跨模态数据集进行遮罩处理生成与语言描述最相关的部分数据，所述融合变换因子生成子模型用于对所述语义跨模态数据集进行处理生成变换因子；输出模块，用于将所述跨模态知识及其对应的语言描述输入经过训练的跨模态知识联想模型中，输出符合语言描述的跨模态知识联想。

本发明第三方面提供了一种基于语义的跨模态知识联想设备，包括：存储器和至少一个处理器，所述存储器中存储有计算机可读指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述计算机可读指令，以使得所述基于语义的跨模态知识联想设备执行如上所述基于语义的跨模态知识联想方法的各个步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可读指令，当其在计算机上运行时，使得计算机执行如上所述基于语义的跨模态知识联想方法的各个步骤。

有益效果：本发明提供了一种基于语义的跨模态知识联想方法，解决了现有深度学习模型很难利用跨模态知识的问题，并为基于语义进行跨模态信息获取提供了更高的自由度。本方法首先利用语言信息获取跨模态知识，通过设计语义mask子模型和融合变换因子生成子模型并结合语言信息生成跨模态知识联想，其中，语义mask子模型用于对获取的跨模态知识进行预处理，融合变换因子生成子模型用于生成跨模态知识的变换因子，利用变换因子将跨模态知识进行迭代组合生成跨模态知识联想。最终，将最符合模型当前任务的跨模态知识联想用于下游任务，大幅提升深度学习模型面对跨模态任务的泛化能力。此外，本方法提供了一种通过跨模态数据的语言描述标签对跨模态知识进行处理，获得用于跨模态知识联想模型的训练数据，并利用其对跨模态知识联想模型进行有效训练的方法，最终实现得到可高效用于下游任务的基于语义的跨模态知识联想模型。

附图说明

图1为本发明实施例提供的基于语义的跨模态知识联想方法的流程图；

图2为本发明实施例提供的跨模态知识联想模型结构图；

图3为本发明实施例提供的跨模态知识联想与下游任务组建方式流程图；

图4为本发明实施例提供的没有语义分割标签时的语义mask子模型训练方法流程图；

图5为本发明实施例提供的融合变换因子生成子模型训练方法流程图；

图6为本发明实施例提供的基于语义的跨模态知识联想装置的结构示意图；

图7为本发明实施例提供的基于语义的跨模态知识联想设备的结构示意图。

具体实施方式

本发明实施例提供了一种基于语义的跨模态知识联想方法、装置、设备及存储介质，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有技术再将其它模态数据向文本模态数据对齐时，一次只能对单个其他模态数据进行转化，不能考虑多个与下游任务相关的样本，对数据库利用率不足；且现有技术对模态转换可解释性不强，训练好的双流模型是直接将其它模态数据转换为语言模型的输入，很难和下游任务相匹配。

基于此，本发明提供了一种基于语义的跨模态知识联想方法，如图1所示，其包括步骤：

S10、获取跨模态知识及其对应的语言描述作为语义跨模态数据集；

具体来讲，跨模态知识是一个涉及多种不同类型信息模态或感官通道的概念，在人工智能和机器学习领域，跨模态知识通常指的是系统能够整合并处理的来自不同模态的数据，作为举例，所述跨模态知识为图像数据、产品结构数据、时间序列片段数据中的一种，但不限于此。

在本实施例中，可以基于用户语言输入获取跨模态知识，该步骤基于搜索数据库或者用户提供内容，然后基于用户的语言文本输入获取多个所需模态的知识作为联想的基础，该步骤的意义是模仿人类在面对新问题时总会基于历史积累的相关模态数据和当前语言模板输入最相关的知识。

S20、构建跨模态知识联想模型，所述跨模态知识联想模型包括语义mask子模型和融合变换因子生成子模型，所述语义mask子模型用于对所述语义跨模态数据集进行遮罩处理生成与语言描述最相关的部分数据，所述融合变换因子生成子模型用于对所述语义跨模态数据集进行处理生成变换因子；

具体来讲，如图2所示，本实施例中跨模态知识联想模型包括语义mask子模型和融合变换因子生成子模型，分别用于生成每个待处理的跨模态知识的遮罩和变换因子，所述跨模态知识联想模型还包括融合模块，所述融合模块用于通过变换因子将跨模态知识进行迭代组合生成跨模态知识联想。其中，所述语义mask子模型可用如下公式进行描述：，其中，I _k表示第k个跨模态知识，k为正整数，P表示对应的语言描述，f为遮罩生成模型，生成第k个跨模态知识的遮罩/>；所述语义mask子模型用于对所述语义跨模态数据集进行遮罩处理生成与语言描述最相关的部分数据，其表达式为：/>，/>表示遮罩处理，/>表示第k个跨模态知识经过遮罩处理后得到的与语言描述最相关的部分数据。如图2所示，该步骤主要基于语言描述为每个第一步获取的所需跨模态知识生成语义遮罩，使用该遮罩对每个所需跨模态知识进行预处理，用于获取与语言描述最相关的部分数据。

进一步地，如图2所示，所述融合变换因子生成子模型用于对所述语义跨模态数据集进行处理生成变换因子，在语言输入和第k个跨模态知识的共同作用下分析第k-1步中跨模态知识联想C _k-1，生成变换因子A _k，使用变换因子A _k将U _k与C _k-1进行合并形成新的跨模态知识联想C _k。变换因子由多个标量a或者变化矩阵组成，用于完成对U _k的缩放、平移、旋转和强度变换等一系与联想知识C _k-1相关的变换参数使其在形态、位置和强度进行匹配，最终通过变换因子对U _k进行变换，再将变换后结果叠加到C _k-1上形成新的跨模态知识联想C _k。

具体来讲，如图2所示，初始化跨模态知识联想，并基于遮罩预处理后的跨模态知识、语言输入对初始化后的跨模态知识联想进行迭代。初始化跨模态知识联想作为迭代的起始状态，例如可以使用全零矩阵作为跨模态知识联想的初始值，也可以根据实际情况进行初始化。在初始化后，使用跨模态知识联想模型将初始化跨模态知识联想和每个第二步遮罩处理后的跨模态知识、用户语言输入相互作用，按合理顺序依次迭代（这个顺序可以是第一步搜索结果的顺序也可以是根据实际情况设置的顺序），最终获得最终跨模态知识联想。

S30、将所述跨模态知识及其对应的语言描述输入经过训练的跨模态知识联想模型中，输出符合语言描述的跨模态知识联想。

本实施例充分利用数据库中和下游任务相关的数据，同时基于这些数据、语言描述以及跨模态知识联想模型生成了最匹配当前问题的跨模态知识联想，将迭代后的符合语言描述的跨模态知识联想作为下游任务模型的输入，从而可大幅提升总体模型对下游任务的泛化能力。如图3所示，具体与下游任务结合的方式是将跨模态知识联想通过模态特征提取模型和线性变换模型处理后与下游任务连接。使用这种方式进行下游任务训练时，需要对连接跨模态知识联想的模态特征提取模型和线性变换模型与下游任务模型一起同时进行训练，而不是仅仅只训练下游任务模型；最终通过与其他下游任务输入共同获得下游任务输出，用这种方式组建一种新的跨模态知识联想结果和下游任务模型结合的跨模态问题解决方法。

在一些实施方式中，所述跨模态知识联想模型在训练时包括语义mask子模型的训练和融合变换因子生成子模型的训练，本发明提供的训练方法仅需一个数据集即可完成两个模型的训练。语义跨模态数据集样本由联想知识所在的模态及其语言文本描述组成。每个样本由跨模态知识和对应的语言描述标签组成，语言描述标签可以有多个，但是均为对跨模态知识（即联想知识所在的模态数据）的正确描述。语言描述标签的长度不受限制，可以包含多个关键词，语义跨模态数据集样本中的标签除了语言描述标签还可以包含额外的语义分割标签，这个不是必须的。

在本实施例中，所述语义mask子模型包括语言编码模块、模态特征提取模块、注意力模块以及输出模块，所述语义mask子模型在训练后可实现对语言输入的关键词生成遮罩。本步骤的目的在于训练语义mask子模型找出跨模态知识中和语义输入最相关的部分数据，并生成遮罩；生成的遮罩可以将跨模态知识中和语义输入不相关的部分进行遮盖。

在本实施例中，所述语义mask子模型的训练方法根据数据集情况可以分为两种，第一种是语义跨模态数据集样本中不包含额外的语义分割标签时，如图4所示，将语义跨模态数据集样本中的跨模态知识和对应的语言描述标签分别通过模态特征提取模块和语言编码模块进行特征提取，分别得到模态特征F’和语言向量F；将所述模态特征进行随机分割后和所述语言向量一起输入注意力模块，通过注意力模型学习到的权重选择语言描述标签和跨模态知识最相似的部分数据作为mask（遮罩）。

本实施例训练方法通过在特征空间拉近标签对应数据的距离，在特征空间疏远标签不对应数据的距离。利用这种方法训练语义mask子模型，在训练结束后通过设置注意力模型中语言编码输入和分割后的模态特征间权重的阈值，对联想知识所在的模态特征进行分割。具体来讲，语言向量F是语言输入的每个词通过编码得到的集合{f _i}，每个词对应一个f _i；模型训练后可以得到集合{f _i}与分割后的模态特征集合{f’ _j}间的相关系数集合{a _ij}。通过设置阈值t，集合{f’ _j ，a _ij >t}对应的就是语义关联的模态特征分割结果。从{f’ _j ， a _ij >t}反推模态特征提取模型编码前的区域可以对其他模态知识I进行分割。

第二种语义mask子模型的训练方法是语义跨模态数据集样本包含额外的语义分割标签的，此时则则直接用所述语义分割标签对所述跨模态知识联想模型进行有监督训练，从而训练得到语义mask子模型。

在一些实施方式中，在完成语义mask子模型训练的基础上，冻结训练好的语义mask子模型，构建图5所示的流程图对融合变换因子生成子模型进行训练。具体来讲，随机从语义跨模态数据集样本中取一个样本，称为目标跨模态知识联想输入，其包括语言描述标签和跨模态知识。

如图5所示，将这个样本中的语言描述标签拆分为关键词集合{K _i}，K _i表示第i个关键词，i为正整数，使用上一步获得的语义mask子模型为每个关键词生成这个样本的目标跨模态知识联想输入的遮罩合集{M _i}（注:此处是每次给语义mask子模型输入一个（关键词-跨模态知识样本）对，所以有多少关键词就会有多少遮罩），使用遮罩将目标跨模态知识联想输入进行分割获得分割合集{U _i}。生成随机变换因子集合{A _i}对分割合集{U _i}中每个元素进行随机缩放、平移、旋转和强度变换得到变换后的合集{T _i}。构建深度学习模型以语言输入、变换后的合集中的元素T_i、变换前的合集中的元素子集U* _i作为输入，生成变换因子输出A’_i，所述元素子集U* _i是从{U _i}中抽取的元素构成子集{u* _i}并进行合并得到。此处和图2中的融合变换因子生成子模型对应起来看，图5中融合变换因子生成子模型语言输入P和图2中融合变换因子生成子模型语言输入P相同，图5中融合变换因子生成子模型跨模态知识u _i输入对应图2中融合变换因子生成子模型的跨模态知识联想C _k-1输入，图5中融合变换因子生成子模型跨模态知识T _i输入对应图2中融合变换因子生成子模型的跨模态知识U _k输入。

最终对每个元素T _i预测，得到变换因子合集{A’ _i}，通过所述变换因子合集{A’ _i}对{T _i}进行融合，得到跨模态联想输出，通过目标跨模态知识联想输入和跨模态联想输出间的差异计算融合变换因子生成子模型参数的损失，从而使用优化器对融合变换因子生成子模型进行训练。

本发明提供的基于语义的跨模态知识联想方法，解决了现有深度学习模型很难利用跨模态知识的问题，并为基于语义进行跨模态信息获取提供了更高的自由度。

下面通过具体实施例对本发明基于语义的跨模态知识联想方法作进一步的解释说明：

实施例1

基于语义的时间序列合成系统

任务：基于用户提供的几段时间序列片段以及用户对合成后效果的描述，使用生成模型生成一个符合用户描述的时间序列片段；

实施方法：

第一步：先构建时间序列片段和时间序列片段的语言描述数据集，使用该数据集利用本发明上述方法进行模型训练获得时间序列语义Mask模型和融合变换因子生成模型；

第二步：使用本发明中的模型构建方法，利用语义Mask模型通过用户语义对从数据库搜索得到的时间序列片段以及用户提供的时间序列片段从时间维度和每一个时间点中的空间维度进行分割，获得与用户想要合成目标最匹配的素材；

利用融合变换因子生成模型可以生成融合因子将这些素材进行剪切、拼接和重叠，获得时间序列模态联想知识；

第三步：微调下游时间序列生成模型，将融合后的时间序列模态联想知识作为下游时间序列生成模型的参考知识，最终生成用户想要的时间序列片段。

实施例2

基于语义的图像合成系统

任务：基于用户提供的几个图像以及用户对合成后效果的描述使用生成模型生成一个符合用户描述的图像；

实施方法：

第一步：先构建图像和图像的语言描述数据集，使用该数据集利用本发明中的方法进行模型训练获得图像语义Mask模型和融合变换因子生成模型。

第二步：使用本发明中的模型构建方法，利用语义Mask模型通过用户语义对从数据库搜索得到的图像以及用户提供的图像中的像素进行分割，获得和用户想要合成目标最匹配的像素素材。

利用融合变换因子生成模型可以生成融合因子将这些像素素材进行融合，通过缩放、平移、旋转和强度变换，获得图像模态联想知识。

第三步：微调下游图像生成模型，将融合后的图像模态联想知识作为下游图像生成模型的参考知识，最终生成用户想要的图像。

实施例3

基于语义的结构合成系统

任务：基于用户提供的几个结构以及用户对合成后效果的描述使用生成模型生成一个符合用户描述的结构；

第一步：先构建结构和结构的语言描述数据集，使用该数据集利用本发明中的方法进行模型训练获得结构语义Mask模型和融合变换因子生成模型。

第二步：使用本发明中的模型构建方法，利用语义Mask模型通过用户语义对从数据库搜索得到的结构以及用户提供的结构中的子结构进行分割，获得和用户想要合成目标最匹配的自结构素材。

利用融合变换因子生成模型可以生成与子结构匹配的融合因子将这些子结构进行融合，获得结构模态联想知识。一般和结构相关的融合因子为连接位置、连接方式、布尔和倍增等融合因子。

第三步：微调下游结构生成优化模型，将融合后的结构模态联想知识作为下游结构生成优化模型的参考知识，最终生成用户想要的结构。

上面对本发明实施例中基于语义的跨模态知识联想方法进行了描述，下面对本发明实施例中基于语义的跨模态知识联想装置进行描述，请参阅图6，本发明实施例中基于语义的跨模态知识联想装置一个实施例包括：

获取模块10，用于获取跨模态知识及其对应的语言描述作为语义跨模态数据集；

模型构建模块20，用于构建跨模态知识联想模型，所述跨模态知识联想模型包括语义mask子模型和融合变换因子生成子模型，所述语义mask子模型用于对所述语义跨模态数据集进行遮罩处理生成与语言描述最相关的部分数据，所述融合变换因子生成子模型用于对所述语义跨模态数据集进行处理生成变换因子；

输出模块30，用于将所述跨模态知识及其对应的语言描述输入经过训练的跨模态知识联想模型中，输出符合语言描述的跨模态知识联想。

图6从模块化功能实体的角度对本发明实施例中的基于语义的跨模态知识联想装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于语义的跨模态知识联想设备进行详细描述。

图7是本发明实施例提供的一种基于语义的跨模态知识联想设备的结构示意图，该基于语义的跨模态知识联想设备100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）11（例如，一个或一个以上处理器）和存储器12，一个或一个以上存储应用程序133或数据132的存储介质13（例如一个或一个以上海量存储设备）。其中，存储器12和存储介质13可以是短暂存储或持久存储。存储在存储介质13的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对基于语义的跨模态知识联想设备100中的一系列指令操作。更进一步地，处理器11可以设置为与存储介质13通信，在基于语义的跨模态知识联想设备100上执行存储介质13中的一系列指令操作。

基于语义的跨模态知识联想设备100还可以包括一个或一个以上电源14，一个或一个以上有线或无线网络接口15，一个或一个以上输入输出接口16，和/或，一个或一个以上操作系统131，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图7示出的设备结构并不构成对基于语义的跨模态知识联想设备100的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行基于语义的跨模态知识联想方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于语义的跨模态知识联想方法，其特征在于，包括步骤：

获取跨模态知识及其对应的语言描述作为语义跨模态数据集；

构建跨模态知识联想模型，所述跨模态知识联想模型包括语义mask子模型和融合变换因子生成子模型，所述语义mask子模型用于对所述语义跨模态数据集进行遮罩处理生成与语言描述最相关的部分数据，所述融合变换因子生成子模型用于对所述语义跨模态数据集进行处理生成变换因子；

将所述跨模态知识及其对应的语言描述输入经过训练的跨模态知识联想模型中，输出符合语言描述的跨模态知识联想。

2.根据权利要求1所述的基于语义的跨模态知识联想方法，其特征在于，所述语义mask子模型的表达式为：，其中，I _k表示第k个跨模态知识，k为正整数，P表示对应的语言描述，f为遮罩生成模型，生成第k个跨模态知识的遮罩/>；所述语义mask子模型用于对所述语义跨模态数据集进行遮罩处理生成与语言描述最相关的部分数据，其表达式为：/>，/>表示遮罩处理，/>表示第k个跨模态知识经过遮罩处理后得到的与语言描述最相关的部分数据。

3.根据权利要求1所述的基于语义的跨模态知识联想方法，其特征在于，所述语义mask子模型包括语言编码模块、模态特征提取模块、注意力模块以及输出模块。

4.根据权利要求3所述的基于语义的跨模态知识联想方法，其特征在于，所述跨模态知识联想模型在训练时包括语义mask子模型的训练，所述语义mask子模型的训练包括以下步骤：

获取语义跨模态数据集样本，其中每个样本包括跨模态知识和对应的语言描述标签，所述语义跨模态数据集样本不包含额外的语义分割标签；

5.根据权利要求3所述的基于语义的跨模态知识联想方法，其特征在于，所述跨模态知识联想模型在训练时包括语义mask子模型的训练，所述语义mask子模型的训练包括以下步骤：

获取语义跨模态数据集样本，其中每个样本包括跨模态知识和对应的语言描述标签；

若所述语义跨模态数据集样本中还包括额外的语义分割标签，则直接用所述语义分割标签对所述跨模态知识联想模型进行有监督训练。

6.根据权利要求4或5所述的基于语义的跨模态知识联想方法，其特征在于，所述跨模态知识联想模型在训练时包括融合变换因子生成子模型的训练，所述融合变换因子生成子模型的训练包括步骤：

随机从语义跨模态数据集样本中取一个样本，称为目标跨模态知识联想输入，其包括语言描述标签和跨模态知识；

将样本中的语言描述标签拆分为关键词集合{K _i}，K _i表示第i个关键词，i为正整数，使用训练后的语义mask子模型为每个关键词生成所述目标跨模态知识联想输入的遮罩合集{M _i}，使用遮罩将所述目标跨模态知识联想输入进行分割获得分割合集{U _i}，生成随机变换因子集合{A _i}对分割合集{U _i}中每个元素进行随机缩放、平移、旋转和强度变换得到变换后的合集{T _i}；

构建深度学习模型以语言输入、变换后的合集中的元素T _i、变换前的合集中的元素子集U* _i作为输入，生成变换因子输出A’_i，所述元素子集U* _i是从{U _i}中抽取的元素构成子集{u* _i}并进行合并得到；

对每个元素T _i预测，得到变换因子合集{A’ _i}，通过所述变换因子合集{A’ _i}对{T _i}进行融合，得到跨模态联想输出，通过目标跨模态知识联想输入和跨模态联想输出间的差异计算融合变换因子生成子模型参数的损失，从而使用优化器对融合变换因子生成子模型进行训练。

7.根据权利要求1-5任一所述的基于语义的跨模态知识联想方法，其特征在于，所述跨模态知识为图像数据、产品结构数据、时间序列片段数据中的一种。

8.一种基于语义的跨模态知识联想装置，其特征在于，包括：

获取模块，用于获取跨模态知识及其对应的语言描述作为语义跨模态数据集；

模型构建模块，用于构建跨模态知识联想模型，所述跨模态知识联想模型包括语义mask子模型和融合变换因子生成子模型，所述语义mask子模型用于对所述语义跨模态数据集进行遮罩处理生成与语言描述最相关的部分数据，所述融合变换因子生成子模型用于对所述语义跨模态数据集进行处理生成变换因子；

输出模块，用于将所述跨模态知识及其对应的语言描述输入经过训练的跨模态知识联想模型中，输出符合语言描述的跨模态知识联想。

9.一种基于语义的跨模态知识联想设备，其特征在于，包括存储器和至少一个处理器，所述存储器中存储有计算机可读指令；

所述至少一个处理器调用所述存储器中的所述计算机可读指令，以执行如权利要求1-7中任一项所述基于语义的跨模态知识联想方法的各个步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如权利要求1-7中任一项所述基于语义的跨模态知识联想方法的各个步骤。