CN117875407A

CN117875407A - 一种多模态持续学习方法、装置、设备及存储介质

Info

Publication number: CN117875407A
Application number: CN202410269003.9A
Authority: CN
Inventors: 戴健; 陈晶晶; 胡鹏; 任珍文; 孙元; 祝本明
Original assignee: China South Industries Group Automation Research Institute
Current assignee: China South Industries Group Automation Research Institute
Priority date: 2024-03-11
Filing date: 2024-03-11
Publication date: 2024-04-12
Anticipated expiration: 2044-03-11

Abstract

本发明公开了一种多模态持续学习方法、装置、设备及存储介质，该方法将不同传感器采集的模态特定的数据通过注意力机制进行融合，将融合的数据转换为环境状态，并通过两个网络：奖励网络与策略网络，指导机器人在当前环境做出合理的行为，从而提高了机器人的感知能力。同时该方法引入了基于原型的持续学习的思想，在减少灾难性遗忘的同时，提高机器人学习新任务的能力。另外，该方法应用前景非常广阔，具有明显的跨领域价值。

Description

一种多模态持续学习方法、装置、设备及存储介质

技术领域

本发明涉及机器学习技术领域，特别是涉及一种多模态持续学习方法、装置、设备及存储介质。

背景技术

随着机器人技术的进步和发展，机器人在军事、工业、家庭生活等各领域得到广泛应用和推广，为人类学习、工作和生活发挥了重要作用。特别是在涉爆排爆领域、核、生、化等危险环境下的应急处置，采用机器代人执行各种应急危险处置等任务成为关键，可大幅降低人员伤亡风险和经济损失，因此，近些年，国内外相继研制发展了系列应急处置机器人和特种装备。人类在灵活运动、灵巧作业方面的综合能力超越其他所有动物，因此有越来越多的研究倾向于开发仿人双臂机器人以适应在复杂多变的场景中作业的需求。

随着自动化和机器人技术的快速发展，灵巧操作已成为机器人技术发展的关键方向之一。例如，机器人被用于医疗设施，帮助运送必需的物品给病人或是辅助医生完成手术。然而，许多更复杂的行为机器人却无法精准执行，例如它们难以轻松握持具有动态质心的容易变形的物体（例如，血袋或输液袋）。人类通常以多模态的方式感知世界，利用视觉、触觉、声音从不同的维度来理解周围的环境。这些感官结合在一起，达到协同效应，使得人类能完成诸多需要精密操作的任务。

但现有技术中的机器人通常仅依赖于单一的感知能力，而没有采用多模态数据融合，这限制了它们在复杂和多变环境中执行高精度任务的能力。与人类使用不同模态的数据感知世界的能力相比，这一单一视觉感知策略明显缺乏灵活性和鲁棒性。多模态数据不仅可以增加信息的丰富性，还能提供更准确的环境感知和对象识别，从而使机器人能够更有效地适应和响应未知和动态的环境。

发明内容

鉴于上述问题，本发明提供用于克服上述问题或者至少部分地解决上述问题的一种多模态持续学习方法、装置、设备及存储介质。

本发明提供了如下方案：

一种多模态持续学习方法，包括：

获取不同模态的感知数据，分别对不同模态的所述感知数据进行特征提取获得每种模态感知数据对应的特征向量；

将每种模态感知数据对应的所述特征向量分别输入基于注意力的多模态融合模型，以便所述基于注意力的多模态融合模型输出每种模态感知数据对应的输出特征，所述基于注意力的多模态融合模型用于利用注意力机制学习不同特征间的复杂相互作用和依赖关系；

将所有模态感知数据对应的所述输出特征进行融合操作获得融合特征；

将所述融合特征转换为对应的环境状态；

利用策略网络结合所述环境状态选择适合当前环境状态下执行本次任务时对应的最佳目标操作；并利用奖励网络评估机器人执行所述目标操作后的行为或动作是否正确；

其中，所述策略网络与所述奖励网络整体的优化函数由下式表示：

式中：为策略表示机器人从融合数据中确定如何移动机械手或执行其他操作，为奖励用于反映操作的质量和准确性，/>是折现因子，在0和1之间，/>为时间表示在整个交互过程中的时刻。

优选地：所述基于注意力的多模态融合模型由下式表示：

式中，为归一化指数函数，/>分别是查询 query 、键 key，/>是键的维度，/>是模态i对应的特征向量，/>是注意力权重矩阵。

优选地：所述融合操作由下式表示：

式中：是融合后的特征表示，/>是单个模态对应的输出特征，/>是加权系数，/>是融合操作。

优选地：所述不同模态的感知数据至少包括视觉数据、声音数据以及触觉数据。

优选地：采用基于卷积神经网络的提取模型提取获得所述视觉数据的特征向量；采用基于递归神经网络的提取模型提取获得所述声音数据的特征向量，所述声音数据的特征向量包括时序声音特征；采用基于全连接层的提取模型提取获得所述触觉数据的特征向量。

优选地：采用零次转换模型对所述不同模态的感知数据进行处理后将数据存储于同一个原型内存中；

执行本次任务完成后，将本次任务的数据原型添加到所述原型内存中，并更新所述原型内存中的数据同时保留原先任务的原型代表性。

优选地：在持续学习过程中将所述原型内存中的数据迁移至目标域，迁移过程由下式表示：

式中，是源域与目标域对齐损失，/>是针对机器人目标任务的损失，/>和/>是权重参数。

一种多模态持续学习装置，包括：

特征向量获取单元，用于获取不同模态的感知数据，分别对不同模态的所述感知数据进行特征提取获得每种模态感知数据对应的特征向量；

输出特征获取单元，用于将每种模态感知数据对应的所述特征向量分别输入基于注意力的多模态融合模型，以便所述基于注意力的多模态融合模型输出每种模态感知数据对应的输出特征，所述基于注意力的多模态融合模型用于利用注意力机制学习不同特征间的复杂相互作用和依赖关系；

特征融合单元，用于将所有模态感知数据对应的所述输出特征进行融合操作获得融合特征；

融合特征转换单元，用于将所述融合特征转换为对应的环境状态；

目标操作确定及评估单元，用于利用策略网络结合所述环境状态选择适合当前环境状态下执行本次任务时对应的最佳的目标操作；并利用奖励网络评估机器人执行所述目标操作后的行为或动作是否正确；

式中：为策略用于表示机器人从融合数据中确定如何移动机械手或执行其他操作，/>为奖励用于反映操作的质量和准确性，/>是折现因子，/>为时间用于表示在整个交互过程中的时刻。

一种多模态持续学习设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述的多模态持续学习方法。

一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述的多模态持续学习方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本申请实施例提供的一种多模态持续学习方法、装置、设备及存储介质，将不同传感器采集的模态特定的数据通过注意力机制进行融合，将融合的数据转换为环境状态，并通过两个网络：奖励网络与策略网络，指导机器人在当前环境做出合理的行为，从而提高了机器人的感知能力。同时该方法引入了基于原型的持续学习的思想，在减少灾难性遗忘的同时，提高机器人学习新任务的能力。另外，该方法应用前景非常广阔，具有明显的跨领域价值。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种多模态持续学习方法的流程图；

图2是本发明实施例提供的多模态持续学习方法框架图；

图3是本发明实施例提供的一种多模态持续学习装置的示意图；

图4是本发明实施例提供的一种多模态持续学习设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，为本发明实施例提供的一种多模态持续学习方法，如图1所示，该方法可以包括：

S101:获取不同模态的感知数据，分别对不同模态的所述感知数据进行特征提取获得每种模态感知数据对应的特征向量；具体的，所述不同模态的感知数据至少包括视觉数据、声音数据以及触觉数据。为了保证特征向量提取的准确性以及完整性，本申请实施例可以提供采用基于卷积神经网络的提取模型提取获得所述视觉数据的特征向量；采用基于递归神经网络的提取模型提取获得所述声音数据的特征向量，所述声音数据的特征向量包括时序声音特征；采用基于全连接层的提取模型提取获得所述触觉数据的特征向量。

S102:将每种模态感知数据对应的所述特征向量分别输入基于注意力的多模态融合模型，以便所述基于注意力的多模态融合模型输出每种模态感知数据对应的输出特征，所述基于注意力的多模态融合模型用于利用注意力机制学习不同特征间的复杂相互作用和依赖关系；具体的，所述基于注意力的多模态融合模型由下式表示：

S103:将所有模态感知数据对应的所述输出特征进行融合操作获得融合特征；具体的，所述融合操作由下式表示：

S104:将所述融合特征转换为对应的环境状态；

S105:利用策略网络结合所述环境状态选择适合当前环境状态下执行本次任务时对应的最佳目标操作；并利用奖励网络评估机器人执行所述目标操作后的行为或动作是否正确；

式中：为策略用于表示机器人从融合数据中确定如何移动机械手或执行其他操作，/>为奖励用于反映操作的质量和准确性，/>是折现因子，在0和1之间，/>为时间用于表示在整个交互过程中的时刻。

进一步的，传统的多模态模型主要应用于批量学习，然而这会导致灾难性遗忘问题，即新学到的知识覆盖旧的知识，导致在学习新技能的同时丢失旧技能。为了解决灾难性遗忘问题，本申请实施例还可以提供采用零次转换模型对所述不同模态的感知数据进行处理后将数据存储于同一个原型内存中；

进一步的，在持续学习过程中将所述原型内存中的数据迁移至目标域，迁移过程由下式表示：

式中，是源域与目标域对齐损失，/>是针对机器人目标任务的损失，/>和/>是权重参数。其中目标任务指的是特别指定的某一任务。

本申请实施例提供的多模态持续学习方法，该方法可以捕捉复杂多变环境中关键的多模态感知数据特征，以指导模型更准确地感知环境；构建基于深度学习的强化学习算法，提升具身智能灵巧操作的准确性。提供基于原型记忆库的持续学习方法，使得具身智能在执行复杂多变的任务时减少计算资源和存储资源的开销，提高具身智能的环境适应能力和跨任务学习能力，增强其泛化性。

下面对本申请实施例提供的多模态持续学习方法进行详细介绍。

该方法在使用时，可以为机器人配备多个不同的传感器，如视觉传感器、压力传感器（获取触觉数据）、声音传感器等，以收集不同模态的数据，使得机器人模拟类的感知系统，以增强其在实际环境中的适应性和功能性。如图2所示。

为了充分利用不同模态的数据，以提高机器人感知能力，本申请实施例采用数据融合技术。本申请实施例首先对来自不同模态的数据进行特征提取。

具体来说，针对视觉数据，如图像，本申请实施例基于卷积神经网络设计一个模型以提取其对应的视觉特征，这个模型将通过多层卷积、池化和全连接层捕获图像中的局部和全局信息，以更好地理解图像的结构和内容。

与此同时，本申请实施例基于递归神经网络（RNN）设计一个模型提取时序声音特征，通过捕获声音信号的时序变化，这一模型能够揭示声音中的周期性和变化趋势，从而识别出声音的关键属性。

此外，本申请实施例提供一个基于全连接层的模型处理触觉特征，通过捕获触觉传感器数据的复杂模式，这个模型将有助于理解触觉信号的强度、质感等关键特性。针对这些处理好的数据特征，本申请实施例设计一个基于注意力的多模态融合模型。这个模型的核心思想是利用注意力机制学习不同特征间的复杂相互作用和依赖关系。针对模态的数据，本申请实施例使用如下的公式获取其对应的高层特征：

其中，分别是查询 (query) 、键 (key)它们是从输入特征派生的，并且/>是键的维度。/>是模态i对应的特征向量。/>是注意力权重矩阵。通过这样的注意力机制，模型可以专注于对特定任务最相关的特征，同时忽略不相关的特征。

然后本申请实施例通过一系列的融合操作，例如拼接、加法、平均和加权投票，将所有经过注意力机制处理的特征进行融合。这一步可以通过以下形式表示：

其中是融合后的特征表示，/>是单个模态对应的输出特征，/>是加权系数，/>是融合操作。

最后本申请实施例基于强化学习设计一个算法，寻找实现精确灵巧操作的策略。首先将融合的特征转换为对应的环境状态，然后设计了两个网络：策略网络和奖励网络，策略网络用于选择最适合当前环境状态下对应的操作，奖励网络用于评估机器人的特定行为或动作是否正确或有助于实现目标。整个模型对应的优化函数如下所示：

其中为策略，表示机器人从融合数据中确定如何移动机械手或执行其他操作，它由策略网络所确定。/>为奖励用于反映操作的质量和准确性，由奖励网络确定。/>是折现因子，在0和1之间。它决定了未来奖励的相对价值。/>为时间步，表示在整个交互过程中的特定时刻。

基于持续学习的多模态数据驱动方法。

传统的多模态模型主要应用于批量学习，然而这会导致灾难性遗忘问题，即新学到的知识覆盖旧的知识，导致在学习新技能的同时丢失旧技能。为了解决灾难性遗忘问题，本申请实施例采用基于回放的持续学习方法。

首先存储已学习任务的部分多模态表征。学习新任务时，将会回放这些多模态数据，以此来利用过去的经验减弱灾难性遗忘。

具体来说，通过一种基于原型记忆库的方法实现这一目标。原型是一个任务的数据在潜在分布空间的质心，更合理的原型能更好地表示当前任务，因此只需要存储原型即可较好地保留任务的经验。

由于不同任务的数据具有较大的语义差距，本申请实施例先构建一个零次转换模型，使得这些数据能存在同一个原型内存中，然后在完成特定任务的训练后，将该任务的数据原型添加到原型内存中。并更新原型内存中的数据同时保留原先任务的原型代表性。这样不仅可以保留源任务域的经验，并将其迁移到目标域，还能让原型在持续学习的过程中在潜在空间不断演化。

通过这种适应性调整，模型可以在任何时间点进行有效的学习和预测，确保学习过程中的稳定性和连续性。这一过程的损失函数形式如下：

其中，是源域与目标域对齐损失，用于测量前一个任务和当前任务原型之间的相似性，并确保原型在持续学习过程中在潜在空间的演化，/>是针对机器人特定任务的损失。/>和/>是权重参数。

总之，本申请提供的多模态持续学习方法，将不同传感器采集的模态特定的数据通过注意力机制进行融合，将融合的数据转换为环境状态，并通过两个网络：奖励网络与策略网络，指导机器人在当前环境做出合理的行为，从而提高了机器人的感知能力。同时该方法引入了基于原型的持续学习的思想，在减少灾难性遗忘的同时，提高机器人学习新任务的能力。另外，该方法应用前景非常广阔，具有明显的跨领域价值。在医疗领域，它可以用于手术辅助，使机器人更准确地导航和执行复杂手术。在工业生产中，通过精细的感知分析，可以实现更精确的装配和质量控制。此外，它还可用于紧急搜索和救援，通过对复杂环境的深入理解，提高救援效率和安全性。在智能家居服务领域，该技术也将展示对家庭环境智能理解和互动的巨大潜力。

参见图3，本申请实施例还可以提供一种多模态持续学习装置，如图3所示，该装置可以包括：

特征向量获取单元301，用于获取不同模态的感知数据，分别对不同模态的所述感知数据进行特征提取获得每种模态感知数据对应的特征向量；

输出特征获取单元302，用于将每种模态感知数据对应的所述特征向量分别输入基于注意力的多模态融合模型，以便所述基于注意力的多模态融合模型输出每种模态感知数据对应的输出特征，所述基于注意力的多模态融合模型用于利用注意力机制学习不同特征间的复杂相互作用和依赖关系；

特征融合单元303，用于将所有模态感知数据对应的所述输出特征进行融合操作获得融合特征；

融合特征转换单元304，用于将所述融合特征转换为对应的环境状态；

目标操作确定及评估单元305，用于利用策略网络结合所述环境状态选择适合当前环境状态下执行本次任务时对应的最佳的目标操作；并利用奖励网络评估机器人执行所述目标操作后的行为或动作是否正确；

式中：为策略，表示机器人从融合数据中确定如何移动机械手或执行其他操作，为奖励用于反映操作的质量和准确性，/>是折现因子，在0和1之间，/>为时间表示在整个交互过程中的时刻。

本申请实施例还可以提供一种多模态持续学习设备，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行上述的多模态持续学习方法的步骤。

如图4所示，本申请实施例提供的一种多模态持续学习设备，可以包括：处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。

在本申请实施例中，处理器10可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。

处理器10可以调用存储器11中存储的程序，具体的，处理器10可以执行多模态持续学习方法的实施例中的操作。

存储器11中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令，在本申请实施例中，存储器11中至少存储有用于实现以下功能的程序：

将所述融合特征转换为对应的环境状态；

在一种可能的实现方式中，存储器11可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及至少一个功能(比如文件创建功能、数据读写功能)所需的应用程序等；存储数据区可存储使用过程中所创建的数据，如初始化数据等。

此外，存储器11可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

通信接口12可以为通信模块的接口，用于与其他设备或者系统连接。

当然，需要说明的是，图4所示的结构并不构成对本申请实施例中多模态持续学习设备的限定，在实际应用中多模态持续学习设备可以包括比图4所示的更多或更少的部件，或者组合某些部件。

本申请实施例还可以提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述的多模态持续学习方法的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加上必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种多模态持续学习方法，其特征在于，包括：

将所述融合特征转换为对应的环境状态；

式中：为策略用于表示机器人从融合数据中确定如何移动机械手或执行其他操作，为奖励用于反映操作的质量和准确性，/>是折现因子，/>为时间用于表示在整个交互过程中的时刻。

2.根据权利要求1所述的多模态持续学习方法，其特征在于，所述基于注意力的多模态融合模型由下式表示：

3.根据权利要求1所述的多模态持续学习方法，其特征在于，所述融合操作由下式表示：

4.根据权利要求1所述的多模态持续学习方法，其特征在于，所述不同模态的感知数据至少包括视觉数据、声音数据以及触觉数据。

5.根据权利要求4所述的多模态持续学习方法，其特征在于，采用基于卷积神经网络的提取模型提取获得所述视觉数据的特征向量；采用基于递归神经网络的提取模型提取获得所述声音数据的特征向量，所述声音数据的特征向量包括时序声音特征；采用基于全连接层的提取模型提取获得所述触觉数据的特征向量。

6.根据权利要求1所述的多模态持续学习方法，其特征在于，采用零次转换模型对所述不同模态的感知数据进行处理后将数据存储于同一个原型内存中；

7.根据权利要求6所述的多模态持续学习方法，其特征在于，在持续学习过程中将所述原型内存中的数据迁移至目标域，迁移过程由下式表示：

8.一种多模态持续学习装置，其特征在于，包括：

9.一种多模态持续学习设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的多模态持续学习方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-7任一项所述的多模态持续学习方法。