CN117875407A - 一种多模态持续学习方法、装置、设备及存储介质 - Google Patents
一种多模态持续学习方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117875407A CN117875407A CN202410269003.9A CN202410269003A CN117875407A CN 117875407 A CN117875407 A CN 117875407A CN 202410269003 A CN202410269003 A CN 202410269003A CN 117875407 A CN117875407 A CN 117875407A
- Authority
- CN
- China
- Prior art keywords
- data
- modal
- fusion
- continuous learning
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 230000008447 perception Effects 0.000 claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 230000006399 behavior Effects 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims description 62
- 239000013598 vector Substances 0.000 claims description 40
- 238000000605 extraction Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 20
- 230000003993 interaction Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 11
- 230000000007 visual effect Effects 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 238000013508 migration Methods 0.000 claims description 3
- 230000005012 migration Effects 0.000 claims description 3
- 230000001953 sensory effect Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 206010027175 memory impairment Diseases 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000001802 infusion Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Landscapes
- Manipulator (AREA)
Abstract
本发明公开了一种多模态持续学习方法、装置、设备及存储介质,该方法将不同传感器采集的模态特定的数据通过注意力机制进行融合,将融合的数据转换为环境状态,并通过两个网络:奖励网络与策略网络,指导机器人在当前环境做出合理的行为,从而提高了机器人的感知能力。同时该方法引入了基于原型的持续学习的思想,在减少灾难性遗忘的同时,提高机器人学习新任务的能力。另外,该方法应用前景非常广阔,具有明显的跨领域价值。
Description
技术领域
本发明涉及机器学习技术领域,特别是涉及一种多模态持续学习方法、装置、设备及存储介质。
背景技术
随着机器人技术的进步和发展,机器人在军事、工业、家庭生活等各领域得到广泛应用和推广,为人类学习、工作和生活发挥了重要作用。特别是在涉爆排爆领域、核、生、化等危险环境下的应急处置,采用机器代人执行各种应急危险处置等任务成为关键,可大幅降低人员伤亡风险和经济损失,因此,近些年,国内外相继研制发展了系列应急处置机器人和特种装备。人类在灵活运动、灵巧作业方面的综合能力超越其他所有动物,因此有越来越多的研究倾向于开发仿人双臂机器人以适应在复杂多变的场景中作业的需求。
随着自动化和机器人技术的快速发展,灵巧操作已成为机器人技术发展的关键方向之一。例如,机器人被用于医疗设施,帮助运送必需的物品给病人或是辅助医生完成手术。然而,许多更复杂的行为机器人却无法精准执行,例如它们难以轻松握持具有动态质心的容易变形的物体(例如,血袋或输液袋)。人类通常以多模态的方式感知世界,利用视觉、触觉、声音从不同的维度来理解周围的环境。这些感官结合在一起,达到协同效应,使得人类能完成诸多需要精密操作的任务。
但现有技术中的机器人通常仅依赖于单一的感知能力,而没有采用多模态数据融合,这限制了它们在复杂和多变环境中执行高精度任务的能力。与人类使用不同模态的数据感知世界的能力相比,这一单一视觉感知策略明显缺乏灵活性和鲁棒性。多模态数据不仅可以增加信息的丰富性,还能提供更准确的环境感知和对象识别,从而使机器人能够更有效地适应和响应未知和动态的环境。
发明内容
鉴于上述问题,本发明提供用于克服上述问题或者至少部分地解决上述问题的一种多模态持续学习方法、装置、设备及存储介质。
本发明提供了如下方案:
一种多模态持续学习方法,包括:
获取不同模态的感知数据,分别对不同模态的所述感知数据进行特征提取获得每种模态感知数据对应的特征向量;
将每种模态感知数据对应的所述特征向量分别输入基于注意力的多模态融合模型,以便所述基于注意力的多模态融合模型输出每种模态感知数据对应的输出特征,所述基于注意力的多模态融合模型用于利用注意力机制学习不同特征间的复杂相互作用和依赖关系;
将所有模态感知数据对应的所述输出特征进行融合操作获得融合特征;
将所述融合特征转换为对应的环境状态;
利用策略网络结合所述环境状态选择适合当前环境状态下执行本次任务时对应的最佳目标操作;并利用奖励网络评估机器人执行所述目标操作后的行为或动作是否正确;
其中,所述策略网络与所述奖励网络整体的优化函数由下式表示:
式中:为策略表示机器人从融合数据中确定如何移动机械手或执行其他操作,为奖励用于反映操作的质量和准确性,/>是折现因子,在0和1之间,/>为时间表示在整个交互过程中的时刻。
优选地:所述基于注意力的多模态融合模型由下式表示:
式中, 为归一化指数函数,/>分别是查询 query 、键 key,/>是键的维度,/>是模态i对应的特征向量,/>是注意力权重矩阵。
优选地:所述融合操作由下式表示:
式中:是融合后的特征表示,/>是单个模态对应的输出特征,/>是加权系数,/>是融合操作。
优选地:所述不同模态的感知数据至少包括视觉数据、声音数据以及触觉数据。
优选地:采用基于卷积神经网络的提取模型提取获得所述视觉数据的特征向量;采用基于递归神经网络的提取模型提取获得所述声音数据的特征向量,所述声音数据的特征向量包括时序声音特征;采用基于全连接层的提取模型提取获得所述触觉数据的特征向量。
优选地:采用零次转换模型对所述不同模态的感知数据进行处理后将数据存储于同一个原型内存中;
执行本次任务完成后,将本次任务的数据原型添加到所述原型内存中,并更新所述原型内存中的数据同时保留原先任务的原型代表性。
优选地:在持续学习过程中将所述原型内存中的数据迁移至目标域,迁移过程由下式表示:
式中, 是源域与目标域对齐损失,/>是针对机器人目标任务的损失,/>和/>是权重参数。
一种多模态持续学习装置,包括:
特征向量获取单元,用于获取不同模态的感知数据,分别对不同模态的所述感知数据进行特征提取获得每种模态感知数据对应的特征向量;
输出特征获取单元,用于将每种模态感知数据对应的所述特征向量分别输入基于注意力的多模态融合模型,以便所述基于注意力的多模态融合模型输出每种模态感知数据对应的输出特征,所述基于注意力的多模态融合模型用于利用注意力机制学习不同特征间的复杂相互作用和依赖关系;
特征融合单元,用于将所有模态感知数据对应的所述输出特征进行融合操作获得融合特征;
融合特征转换单元,用于将所述融合特征转换为对应的环境状态;
目标操作确定及评估单元,用于利用策略网络结合所述环境状态选择适合当前环境状态下执行本次任务时对应的最佳的目标操作;并利用奖励网络评估机器人执行所述目标操作后的行为或动作是否正确;
其中,所述策略网络与所述奖励网络整体的优化函数由下式表示:
式中:为策略用于表示机器人从融合数据中确定如何移动机械手或执行其他操作,/>为奖励用于反映操作的质量和准确性,/>是折现因子,/>为时间用于表示在整个交互过程中的时刻。
一种多模态持续学习设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述的多模态持续学习方法。
一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述的多模态持续学习方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本申请实施例提供的一种多模态持续学习方法、装置、设备及存储介质,将不同传感器采集的模态特定的数据通过注意力机制进行融合,将融合的数据转换为环境状态,并通过两个网络:奖励网络与策略网络,指导机器人在当前环境做出合理的行为,从而提高了机器人的感知能力。同时该方法引入了基于原型的持续学习的思想,在减少灾难性遗忘的同时,提高机器人学习新任务的能力。另外,该方法应用前景非常广阔,具有明显的跨领域价值。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种多模态持续学习方法的流程图;
图2是本发明实施例提供的多模态持续学习方法框架图;
图3是本发明实施例提供的一种多模态持续学习装置的示意图;
图4是本发明实施例提供的一种多模态持续学习设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,为本发明实施例提供的一种多模态持续学习方法,如图1所示,该方法可以包括:
S101:获取不同模态的感知数据,分别对不同模态的所述感知数据进行特征提取获得每种模态感知数据对应的特征向量;具体的,所述不同模态的感知数据至少包括视觉数据、声音数据以及触觉数据。为了保证特征向量提取的准确性以及完整性,本申请实施例可以提供采用基于卷积神经网络的提取模型提取获得所述视觉数据的特征向量;采用基于递归神经网络的提取模型提取获得所述声音数据的特征向量,所述声音数据的特征向量包括时序声音特征;采用基于全连接层的提取模型提取获得所述触觉数据的特征向量。
S102:将每种模态感知数据对应的所述特征向量分别输入基于注意力的多模态融合模型,以便所述基于注意力的多模态融合模型输出每种模态感知数据对应的输出特征,所述基于注意力的多模态融合模型用于利用注意力机制学习不同特征间的复杂相互作用和依赖关系;具体的,所述基于注意力的多模态融合模型由下式表示:
式中, 为归一化指数函数,/>分别是查询 query 、键 key,/>是键的维度,/>是模态i对应的特征向量,/>是注意力权重矩阵。
S103:将所有模态感知数据对应的所述输出特征进行融合操作获得融合特征;具体的,所述融合操作由下式表示:
式中:是融合后的特征表示,/>是单个模态对应的输出特征,/>是加权系数,/>是融合操作。
S104:将所述融合特征转换为对应的环境状态;
S105:利用策略网络结合所述环境状态选择适合当前环境状态下执行本次任务时对应的最佳目标操作;并利用奖励网络评估机器人执行所述目标操作后的行为或动作是否正确;
其中,所述策略网络与所述奖励网络整体的优化函数由下式表示:
式中:为策略用于表示机器人从融合数据中确定如何移动机械手或执行其他操作,/>为奖励用于反映操作的质量和准确性,/>是折现因子,在0和1之间,/>为时间用于表示在整个交互过程中的时刻。
进一步的,传统的多模态模型主要应用于批量学习,然而这会导致灾难性遗忘问题,即新学到的知识覆盖旧的知识,导致在学习新技能的同时丢失旧技能。 为了解决灾难性遗忘问题,本申请实施例还可以提供采用零次转换模型对所述不同模态的感知数据进行处理后将数据存储于同一个原型内存中;
执行本次任务完成后,将本次任务的数据原型添加到所述原型内存中,并更新所述原型内存中的数据同时保留原先任务的原型代表性。
进一步的,在持续学习过程中将所述原型内存中的数据迁移至目标域,迁移过程由下式表示:
式中, 是源域与目标域对齐损失,/>是针对机器人目标任务的损失,/>和/>是权重参数。其中目标任务指的是特别指定的某一任务。
本申请实施例提供的多模态持续学习方法,该方法可以捕捉复杂多变环境中关键的多模态感知数据特征,以指导模型更准确地感知环境;构建基于深度学习的强化学习算法,提升具身智能灵巧操作的准确性。提供基于原型记忆库的持续学习方法,使得具身智能在执行复杂多变的任务时减少计算资源和存储资源的开销,提高具身智能的环境适应能力和跨任务学习能力,增强其泛化性。
下面对本申请实施例提供的多模态持续学习方法进行详细介绍。
该方法在使用时,可以为机器人配备多个不同的传感器,如视觉传感器、压力传感器(获取触觉数据)、声音传感器等,以收集不同模态的数据,使得机器人模拟类的感知系统,以增强其在实际环境中的适应性和功能性。如图2所示。
为了充分利用不同模态的数据,以提高机器人感知能力,本申请实施例采用数据融合技术。本申请实施例首先对来自不同模态的数据进行特征提取。
具体来说,针对视觉数据,如图像,本申请实施例基于卷积神经网络设计一个模型以提取其对应的视觉特征,这个模型将通过多层卷积、池化和全连接层捕获图像中的局部和全局信息,以更好地理解图像的结构和内容。
与此同时,本申请实施例基于递归神经网络(RNN)设计一个模型提取时序声音特征,通过捕获声音信号的时序变化,这一模型能够揭示声音中的周期性和变化趋势,从而识别出声音的关键属性。
此外,本申请实施例提供一个基于全连接层的模型处理触觉特征,通过捕获触觉传感器数据的复杂模式,这个模型将有助于理解触觉信号的强度、质感等关键特性。针对这些处理好的数据特征,本申请实施例设计一个基于注意力的多模态融合模型。这个模型的核心思想是利用注意力机制学习不同特征间的复杂相互作用和依赖关系。针对模态的数据,本申请实施例使用如下的公式获取其对应的高层特征:
其中, 分别是查询 (query) 、键 (key)它们是从输入特征派生的,并且/>是键的维度。/>是模态i对应的特征向量。/>是注意力权重矩阵。通过这样的注意力机制,模型可以专注于对特定任务最相关的特征,同时忽略不相关的特征。
然后本申请实施例通过一系列的融合操作,例如拼接、加法、平均和加权投票,将所有经过注意力机制处理的特征进行融合。这一步可以通过以下形式表示:
其中是融合后的特征表示,/>是单个模态对应的输出特征,/>是加权系数,/>是融合操作。
最后本申请实施例基于强化学习设计一个算法,寻找实现精确灵巧操作的策略。首先将融合的特征转换为对应的环境状态,然后设计了两个网络:策略网络和奖励网络,策略网络用于选择最适合当前环境状态下对应的操作,奖励网络用于评估机器人的特定行为或动作是否正确或有助于实现目标。整个模型对应的优化函数如下所示:
其中为策略,表示机器人从融合数据中确定如何移动机械手或执行其他操作,它由策略网络所确定。/>为奖励用于反映操作的质量和准确性,由奖励网络确定。/>是折现因子,在0和1之间。它决定了未来奖励的相对价值。/>为时间步,表示在整个交互过程中的特定时刻。
基于持续学习的多模态数据驱动方法。
传统的多模态模型主要应用于批量学习,然而这会导致灾难性遗忘问题,即新学到的知识覆盖旧的知识,导致在学习新技能的同时丢失旧技能。 为了解决灾难性遗忘问题,本申请实施例采用基于回放的持续学习方法。
首先存储已学习任务的部分多模态表征。学习新任务时,将会回放这些多模态数据,以此来利用过去的经验减弱灾难性遗忘。
具体来说,通过一种基于原型记忆库的方法实现这一目标。原型是一个任务的数据在潜在分布空间的质心,更合理的原型能更好地表示当前任务,因此只需要存储原型即可较好地保留任务的经验。
由于不同任务的数据具有较大的语义差距,本申请实施例先构建一个零次转换模型,使得这些数据能存在同一个原型内存中,然后在完成特定任务的训练后,将该任务的数据原型添加到原型内存中。并更新原型内存中的数据同时保留原先任务的原型代表性。这样不仅可以保留源任务域的经验,并将其迁移到目标域,还能让原型在持续学习的过程中在潜在空间不断演化。
通过这种适应性调整,模型可以在任何时间点进行有效的学习和预测,确保学习过程中的稳定性和连续性。这一过程的损失函数形式如下:
其中, 是源域与目标域对齐损失,用于测量前一个任务和当前任务原型之间的相似性,并确保原型在持续学习过程中在潜在空间的演化,/>是针对机器人特定任务的损失。/>和/>是权重参数。
总之,本申请提供的多模态持续学习方法,将不同传感器采集的模态特定的数据通过注意力机制进行融合,将融合的数据转换为环境状态,并通过两个网络:奖励网络与策略网络,指导机器人在当前环境做出合理的行为,从而提高了机器人的感知能力。同时该方法引入了基于原型的持续学习的思想,在减少灾难性遗忘的同时,提高机器人学习新任务的能力。另外,该方法应用前景非常广阔,具有明显的跨领域价值。在医疗领域,它可以用于手术辅助,使机器人更准确地导航和执行复杂手术。在工业生产中,通过精细的感知分析,可以实现更精确的装配和质量控制。此外,它还可用于紧急搜索和救援,通过对复杂环境的深入理解,提高救援效率和安全性。在智能家居服务领域,该技术也将展示对家庭环境智能理解和互动的巨大潜力。
参见图3,本申请实施例还可以提供一种多模态持续学习装置,如图3所示,该装置可以包括:
特征向量获取单元301,用于获取不同模态的感知数据,分别对不同模态的所述感知数据进行特征提取获得每种模态感知数据对应的特征向量;
输出特征获取单元302,用于将每种模态感知数据对应的所述特征向量分别输入基于注意力的多模态融合模型,以便所述基于注意力的多模态融合模型输出每种模态感知数据对应的输出特征,所述基于注意力的多模态融合模型用于利用注意力机制学习不同特征间的复杂相互作用和依赖关系;
特征融合单元303,用于将所有模态感知数据对应的所述输出特征进行融合操作获得融合特征;
融合特征转换单元304,用于将所述融合特征转换为对应的环境状态;
目标操作确定及评估单元305,用于利用策略网络结合所述环境状态选择适合当前环境状态下执行本次任务时对应的最佳的目标操作;并利用奖励网络评估机器人执行所述目标操作后的行为或动作是否正确;
其中,所述策略网络与所述奖励网络整体的优化函数由下式表示:
式中:为策略,表示机器人从融合数据中确定如何移动机械手或执行其他操作,为奖励用于反映操作的质量和准确性,/>是折现因子,在0和1之间,/>为时间表示在整个交互过程中的时刻。
本申请实施例还可以提供一种多模态持续学习设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述的多模态持续学习方法的步骤。
如图4所示,本申请实施例提供的一种多模态持续学习设备,可以包括:处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。
在本申请实施例中,处理器10可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
处理器10可以调用存储器11中存储的程序,具体的,处理器10可以执行多模态持续学习方法的实施例中的操作。
存储器11中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本申请实施例中,存储器11中至少存储有用于实现以下功能的程序:
获取不同模态的感知数据,分别对不同模态的所述感知数据进行特征提取获得每种模态感知数据对应的特征向量;
将每种模态感知数据对应的所述特征向量分别输入基于注意力的多模态融合模型,以便所述基于注意力的多模态融合模型输出每种模态感知数据对应的输出特征,所述基于注意力的多模态融合模型用于利用注意力机制学习不同特征间的复杂相互作用和依赖关系;
将所有模态感知数据对应的所述输出特征进行融合操作获得融合特征;
将所述融合特征转换为对应的环境状态;
利用策略网络结合所述环境状态选择适合当前环境状态下执行本次任务时对应的最佳目标操作;并利用奖励网络评估机器人执行所述目标操作后的行为或动作是否正确;
其中,所述策略网络与所述奖励网络整体的优化函数由下式表示:
式中:为策略,表示机器人从融合数据中确定如何移动机械手或执行其他操作,为奖励用于反映操作的质量和准确性,/>是折现因子,在0和1之间,/>为时间表示在整个交互过程中的时刻。
在一种可能的实现方式中,存储器11可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及至少一个功能(比如文件创建功能、数据读写功能)所需的应用程序等;存储数据区可存储使用过程中所创建的数据,如初始化数据等。
此外,存储器11可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
通信接口12可以为通信模块的接口,用于与其他设备或者系统连接。
当然,需要说明的是,图4所示的结构并不构成对本申请实施例中多模态持续学习设备的限定,在实际应用中多模态持续学习设备可以包括比图4所示的更多或更少的部件,或者组合某些部件。
本申请实施例还可以提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述的多模态持续学习方法的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加上必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种多模态持续学习方法,其特征在于,包括:
获取不同模态的感知数据,分别对不同模态的所述感知数据进行特征提取获得每种模态感知数据对应的特征向量;
将每种模态感知数据对应的所述特征向量分别输入基于注意力的多模态融合模型,以便所述基于注意力的多模态融合模型输出每种模态感知数据对应的输出特征,所述基于注意力的多模态融合模型用于利用注意力机制学习不同特征间的复杂相互作用和依赖关系;
将所有模态感知数据对应的所述输出特征进行融合操作获得融合特征;
将所述融合特征转换为对应的环境状态;
利用策略网络结合所述环境状态选择适合当前环境状态下执行本次任务时对应的最佳目标操作;并利用奖励网络评估机器人执行所述目标操作后的行为或动作是否正确;
其中,所述策略网络与所述奖励网络整体的优化函数由下式表示:
式中:为策略用于表示机器人从融合数据中确定如何移动机械手或执行其他操作,为奖励用于反映操作的质量和准确性,/>是折现因子,/>为时间用于表示在整个交互过程中的时刻。
2.根据权利要求1所述的多模态持续学习方法,其特征在于,所述基于注意力的多模态融合模型由下式表示:
式中, 为归一化指数函数,/>分别是查询 query 、键 key,/>是键的维度,/>是模态i对应的特征向量,/>是注意力权重矩阵。
3.根据权利要求1所述的多模态持续学习方法,其特征在于,所述融合操作由下式表示:
式中:是融合后的特征表示,/>是单个模态对应的输出特征,/>是加权系数,/>是融合操作。
4.根据权利要求1所述的多模态持续学习方法,其特征在于,所述不同模态的感知数据至少包括视觉数据、声音数据以及触觉数据。
5.根据权利要求4所述的多模态持续学习方法,其特征在于,采用基于卷积神经网络的提取模型提取获得所述视觉数据的特征向量;采用基于递归神经网络的提取模型提取获得所述声音数据的特征向量,所述声音数据的特征向量包括时序声音特征;采用基于全连接层的提取模型提取获得所述触觉数据的特征向量。
6.根据权利要求1所述的多模态持续学习方法,其特征在于,采用零次转换模型对所述不同模态的感知数据进行处理后将数据存储于同一个原型内存中;
执行本次任务完成后,将本次任务的数据原型添加到所述原型内存中,并更新所述原型内存中的数据同时保留原先任务的原型代表性。
7.根据权利要求6所述的多模态持续学习方法,其特征在于,在持续学习过程中将所述原型内存中的数据迁移至目标域,迁移过程由下式表示:
式中, 是源域与目标域对齐损失,/>是针对机器人目标任务的损失,/>和/>是权重参数。
8.一种多模态持续学习装置,其特征在于,包括:
特征向量获取单元,用于获取不同模态的感知数据,分别对不同模态的所述感知数据进行特征提取获得每种模态感知数据对应的特征向量;
输出特征获取单元,用于将每种模态感知数据对应的所述特征向量分别输入基于注意力的多模态融合模型,以便所述基于注意力的多模态融合模型输出每种模态感知数据对应的输出特征,所述基于注意力的多模态融合模型用于利用注意力机制学习不同特征间的复杂相互作用和依赖关系;
特征融合单元,用于将所有模态感知数据对应的所述输出特征进行融合操作获得融合特征;
融合特征转换单元,用于将所述融合特征转换为对应的环境状态;
目标操作确定及评估单元,用于利用策略网络结合所述环境状态选择适合当前环境状态下执行本次任务时对应的最佳的目标操作;并利用奖励网络评估机器人执行所述目标操作后的行为或动作是否正确;
其中,所述策略网络与所述奖励网络整体的优化函数由下式表示:
式中:为策略用于表示机器人从融合数据中确定如何移动机械手或执行其他操作,为奖励用于反映操作的质量和准确性,/>是折现因子,/>为时间用于表示在整个交互过程中的时刻。
9.一种多模态持续学习设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的多模态持续学习方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-7任一项所述的多模态持续学习方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410269003.9A CN117875407B (zh) | 2024-03-11 | 一种多模态持续学习方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410269003.9A CN117875407B (zh) | 2024-03-11 | 一种多模态持续学习方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117875407A true CN117875407A (zh) | 2024-04-12 |
CN117875407B CN117875407B (zh) | 2024-06-04 |
Family
ID=
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101646926B1 (ko) * | 2015-04-16 | 2016-08-09 | 서울대학교산학협력단 | 멀티 모달리티 데이터 복원을 위한 심층 개념망 구축 방법 및 그 시스템 |
US20170355080A1 (en) * | 2016-06-10 | 2017-12-14 | The Boeing Company | Remotely controlling robotic platforms based on multi-modal sensory data |
US20190232488A1 (en) * | 2016-09-15 | 2019-08-01 | Google Llc | Deep reinforcement learning for robotic manipulation |
CN111444954A (zh) * | 2020-03-24 | 2020-07-24 | 广东省智能制造研究所 | 一种基于多模态感知与学习的机器人自主装配方法 |
CN114332466A (zh) * | 2022-03-11 | 2022-04-12 | 中国科学技术大学 | 图像语义分割网络持续学习方法、系统、设备及存储介质 |
CN114860893A (zh) * | 2022-07-06 | 2022-08-05 | 中国人民解放军国防科技大学 | 基于多模态数据融合与强化学习的智能决策方法及装置 |
CN114973402A (zh) * | 2022-04-29 | 2022-08-30 | 中山大学·深圳 | 一种基于模态对齐的动作提示的视觉语言导航系统及方法 |
US20220396289A1 (en) * | 2021-06-15 | 2022-12-15 | Nvidia Corporation | Neural network path planning |
CN115617036A (zh) * | 2022-09-13 | 2023-01-17 | 中国电子科技集团公司电子科学研究院 | 一种多模态信息融合的机器人运动规划方法及设备 |
CN115665878A (zh) * | 2022-10-18 | 2023-01-31 | 中国空间技术研究院 | 一种基于强化学习的多智能体的空口频谱效率提升方法 |
US20230080545A1 (en) * | 2021-05-11 | 2023-03-16 | Strong Force Vcn Portfolio 2019, Llc | Distributed Additive Manufacturing Platform for Value Chain Networks |
US20230229960A1 (en) * | 2022-01-19 | 2023-07-20 | Microsoft Technology Licensing, Llc | Systems and methods for facilitating integrative, extensible, composable, and interpretable deep learning |
CN116524261A (zh) * | 2023-04-26 | 2023-08-01 | 清华大学 | 一种基于多模态小样本持续学习的图像分类方法及产品 |
CN116679711A (zh) * | 2023-06-16 | 2023-09-01 | 浙江润琛科技有限公司 | 一种基于有模型与无模型强化学习的机器人避障方法 |
WO2023196435A1 (en) * | 2022-04-05 | 2023-10-12 | Pasteur Labs, Inc. | Autonomous, world-building, lifelong learning agents and computing engines for general-purpose intelligence |
CN117009545A (zh) * | 2023-06-27 | 2023-11-07 | 浙江大学 | 一种持续多模态知识图谱的构建方法 |
CN117359643A (zh) * | 2023-11-28 | 2024-01-09 | 新余学院 | 一种多模态元学习机器人自我定位系统及其方法 |
US20240028036A1 (en) * | 2023-03-09 | 2024-01-25 | Dalian University Of Technology | Robot dynamic obstacle avoidance method based on multimodal spiking neural network |
WO2024037664A1 (zh) * | 2022-10-20 | 2024-02-22 | 西北工业大学 | 一种基于动态自适应推理的指称目标检测定位方法 |
CN117591870A (zh) * | 2023-10-13 | 2024-02-23 | 深圳职业技术大学 | 一种基于深度强化学习的情感感知智能教学方法及系统 |
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101646926B1 (ko) * | 2015-04-16 | 2016-08-09 | 서울대학교산학협력단 | 멀티 모달리티 데이터 복원을 위한 심층 개념망 구축 방법 및 그 시스템 |
US20170355080A1 (en) * | 2016-06-10 | 2017-12-14 | The Boeing Company | Remotely controlling robotic platforms based on multi-modal sensory data |
US20190232488A1 (en) * | 2016-09-15 | 2019-08-01 | Google Llc | Deep reinforcement learning for robotic manipulation |
CN111444954A (zh) * | 2020-03-24 | 2020-07-24 | 广东省智能制造研究所 | 一种基于多模态感知与学习的机器人自主装配方法 |
US20230080545A1 (en) * | 2021-05-11 | 2023-03-16 | Strong Force Vcn Portfolio 2019, Llc | Distributed Additive Manufacturing Platform for Value Chain Networks |
US20220396289A1 (en) * | 2021-06-15 | 2022-12-15 | Nvidia Corporation | Neural network path planning |
US20230229960A1 (en) * | 2022-01-19 | 2023-07-20 | Microsoft Technology Licensing, Llc | Systems and methods for facilitating integrative, extensible, composable, and interpretable deep learning |
CN114332466A (zh) * | 2022-03-11 | 2022-04-12 | 中国科学技术大学 | 图像语义分割网络持续学习方法、系统、设备及存储介质 |
WO2023196435A1 (en) * | 2022-04-05 | 2023-10-12 | Pasteur Labs, Inc. | Autonomous, world-building, lifelong learning agents and computing engines for general-purpose intelligence |
CN114973402A (zh) * | 2022-04-29 | 2022-08-30 | 中山大学·深圳 | 一种基于模态对齐的动作提示的视觉语言导航系统及方法 |
CN114860893A (zh) * | 2022-07-06 | 2022-08-05 | 中国人民解放军国防科技大学 | 基于多模态数据融合与强化学习的智能决策方法及装置 |
CN115617036A (zh) * | 2022-09-13 | 2023-01-17 | 中国电子科技集团公司电子科学研究院 | 一种多模态信息融合的机器人运动规划方法及设备 |
CN115665878A (zh) * | 2022-10-18 | 2023-01-31 | 中国空间技术研究院 | 一种基于强化学习的多智能体的空口频谱效率提升方法 |
WO2024037664A1 (zh) * | 2022-10-20 | 2024-02-22 | 西北工业大学 | 一种基于动态自适应推理的指称目标检测定位方法 |
US20240028036A1 (en) * | 2023-03-09 | 2024-01-25 | Dalian University Of Technology | Robot dynamic obstacle avoidance method based on multimodal spiking neural network |
CN116524261A (zh) * | 2023-04-26 | 2023-08-01 | 清华大学 | 一种基于多模态小样本持续学习的图像分类方法及产品 |
CN116679711A (zh) * | 2023-06-16 | 2023-09-01 | 浙江润琛科技有限公司 | 一种基于有模型与无模型强化学习的机器人避障方法 |
CN117009545A (zh) * | 2023-06-27 | 2023-11-07 | 浙江大学 | 一种持续多模态知识图谱的构建方法 |
CN117591870A (zh) * | 2023-10-13 | 2024-02-23 | 深圳职业技术大学 | 一种基于深度强化学习的情感感知智能教学方法及系统 |
CN117359643A (zh) * | 2023-11-28 | 2024-01-09 | 新余学院 | 一种多模态元学习机器人自我定位系统及其方法 |
Non-Patent Citations (12)
Title |
---|
GUNSHI GUPTA等: "La-MAML: Look-ahead Meta Learning for Continual Learning", MACHINE LEARNING, 12 November 2020 (2020-11-12), pages 1 - 6 * |
JAMES HARRISON等: "Continuous Meta-Learning without Tasks", MACHINE LEARNING, 21 October 2020 (2020-10-21), pages 1 - 24 * |
M. FAHES DENG: "PØDA: Prompt-driven Zero-shot Domain Adaptation", IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), 15 January 2024 (2024-01-15), pages 18577 - 18587 * |
S. GAI 等: "Multi-Modal Meta Continual Learning", 2021 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS, 20 September 2021 (2021-09-20), pages 1 - 8 * |
TIANTIAN ZHANG等: "Replay-enhanced Continual Reinforcement Learning", MACHINE LEARNING, 20 November 2023 (2023-11-20), pages 1 - 21 * |
Y. SUN 等: "Relaxed Energy Preserving Hashing for Image Retrieval", IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, 25 January 2024 (2024-01-25), pages 1 - 13 * |
孙怡峰 等: "基于大模型的态势认知智能体", 基于大模型的态势认知智能体, vol. 46, no. 2, 18 December 2023 (2023-12-18), pages 1 - 7 * |
廖宁 等: "视觉提示学习综述", 计算机学报 网络首发, 18 January 2024 (2024-01-18), pages 1 - 32 * |
张超 等: "基于强化学习的动态物流中转对接点方法研究", 计算机与数字工程, vol. 52, no. 1, 23 January 2024 (2024-01-23), pages 60 - 67 * |
晋嘉利 等: "应用动态Token的融合特征的持续图像字幕生成", 计算机工程与应用 网络首发, 5 January 2024 (2024-01-05), pages 1 - 20 * |
李文斌 等: "持续学习的研究进展与趋势", 计算机研究与发展 网络首发, 13 October 2023 (2023-10-13), pages 1 - 19 * |
陈奕宇 等: "元强化学习研究综述", 软件学报 网络首发, 24 November 2023 (2023-11-24), pages 1618 - 1650 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Levine et al. | Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection | |
Cui et al. | Toward next-generation learned robot manipulation | |
Zech et al. | Computational models of affordance in robotics: a taxonomy and systematic classification | |
Ficuciello et al. | Vision-based grasp learning of an anthropomorphic hand-arm system in a synergy-based control framework | |
Wang et al. | Perspectives on the field of cognitive informatics and its future development | |
Faria et al. | Extracting data from human manipulation of objects towards improving autonomous robotic grasping | |
KR100638324B1 (ko) | 로봇에 지능 지수를 부여하는 방법 | |
Liu et al. | Human motion sensing and recognition | |
Zhao et al. | Chat with the environment: Interactive multimodal perception using large language models | |
CN113673244B (zh) | 医疗文本处理方法、装置、计算机设备和存储介质 | |
Thalmann et al. | Nadine: A social robot that can localize objects and grasp them in a human way | |
Seker et al. | Deep effect trajectory prediction in robot manipulation | |
Vaka et al. | PEMAR: A pervasive middleware for activity recognition with smart phones | |
Liu et al. | Embodied tactile perception and learning | |
Ye et al. | Efficient robotic object search via hiem: Hierarchical policy learning with intrinsic-extrinsic modeling | |
Hu et al. | Language models, agent models, and world models: The law for machine reasoning and planning | |
Bhargava | Intelligent agents and autonomous robots | |
CN117875407B (zh) | 一种多模态持续学习方法、装置、设备及存储介质 | |
Arkin et al. | Real-time human-robot communication for manipulation tasks in partially observed environments | |
CN117875407A (zh) | 一种多模态持续学习方法、装置、设备及存储介质 | |
CN113822439A (zh) | 任务预测方法、装置、设备及存储介质 | |
Feng et al. | Robot intelligent communication based on deep learning and TRIZ ergonomics for personalized healthcare | |
Bodhe et al. | Outdoor activity classification using smartphone based inertial sensor measurements | |
Tzafestas et al. | Human-robot social interaction | |
Li et al. | Interactive control algorithm for shoulder-amputated prosthesis and object based on reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |