CN116276956A - 定制化药物制备的机器人操作技能模仿学习方法及装置 - Google Patents

定制化药物制备的机器人操作技能模仿学习方法及装置 Download PDF

Info

Publication number
CN116276956A
CN116276956A CN202211530693.6A CN202211530693A CN116276956A CN 116276956 A CN116276956 A CN 116276956A CN 202211530693 A CN202211530693 A CN 202211530693A CN 116276956 A CN116276956 A CN 116276956A
Authority
CN
China
Prior art keywords
robot
video
pharmaceutical
information
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211530693.6A
Other languages
English (en)
Other versions
CN116276956B (zh
Inventor
刘志杰
贺威
侯静怡
于欣波
刘冀川
钟宋义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202211530693.6A priority Critical patent/CN116276956B/zh
Publication of CN116276956A publication Critical patent/CN116276956A/zh
Application granted granted Critical
Publication of CN116276956B publication Critical patent/CN116276956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种定制化药物制备的机器人操作技能模仿学习方法及装置,涉及医疗器械类机器人技术领域。包括获取视觉信息,将视觉信息作为基础识别对象;获取人类专家演示视频,将人类专家演示视频作为制药机器人的模仿对象;基于识别对象和模仿对象,进行制药机器人的视频位置以及运动状态的迁移学习;提取制药机器人的状态信息的特征和运动信息的特征;基于制药机器人的状态信息的特征和运动信息的特征,采用参数化策略网络近似策略函数,利用策略迭代算法训练网络,构建定制化药物制备的决策学习模块。本发明利用观测对比方法即可实现制药机器人制药技能的模仿,整体设计流畅、耗费成本大大降低,制药任务可增加、应用场景可拓展,具有较大的经济效益。

Description

定制化药物制备的机器人操作技能模仿学习方法及装置
技术领域
本发明涉及医疗器械机器人技术领域,特别是指一种定制化药物制备的机器人操作技能模仿学习方法及装置。
背景技术
药物生产行业作为国民经济和社会福利事业的一部分,众多研发人员在近些年来投入了大量的资源,期望节约制药过程的生产成本,大大提升制药能力服务于社会,可谓是备受关注。目前针对药物制备机器人的提升主要包括:优化其视觉处理系统,使得机器人能够准确捕获到药物的反应状态、反应釜的状况;利用强化学习的方法训练制药机器人关于制备某种药物的行动策略,但每一种药物的制备都需要投入大量的训练成本;细化制药参数,增加多种控制量,企图多层面控制制备过程,这同样加大了制备成本。因此,出于降低成本、实现快速智能、准确控制制药机器人的考虑,制药机器人的决策优化成为亟待解决的问题,
发明内容
针对现有技术中,Transformer模型过于关注化学分子序列的全局特征,易产生化学分子的局部特征提取不充分的问题,本发明提出了一种定制化药物制备的机器人操作技能模仿学习方法及装置。
为解决上述技术问题,本发明提供如下技术方案:
一方面,提供了一种定制化药物制备的机器人操作技能模仿学习方法,该方法应用于电子设备,包括以下步骤:
一种定制化药物制备的机器人操作技能模仿学习方法,其特征在于,包括以下步骤:
S1:获取视觉信息,将视觉信息作为基础识别对象;获取人类专家演示视频,将人类专家演示视频作为制药机器人的模仿对象;基于识别对象和模仿对象,进行制药机器人的视频位置以及运动状态的迁移学习;
S2:提取制药机器人的状态信息的特征和运动信息的特征;
S3:基于制药机器人的状态信息的特征和运动信息的特征,采用参数化策略网络近似策略函数,利用策略迭代算法训练网络,构建定制化药物制备的决策学习模块;
S4:基于决策学习模块,制药机器人操作完成预设制药任务,完成定制化药物制备的机器人操作技能模仿学习。
可选地,S1中,获取视觉信息,将视觉信息作为基础识别对象;获取人类专家演示视频,将人类专家演示视频作为制药机器人的模仿对象;基于识别对象和模仿对象,进行制药机器人的视频位置以及运动状态的迁移学习,包括:
S11:获取视觉信息,将视觉信息作为基础识别对象;获取人类专家演示视频,将人类专家演示视频作为制药机器人的模仿对象;
S12:将人类专家演示视频提供的信息转化到机器人域,利用基于MUNIT的关键点检测操作实现演示视频到机器人位置状态的迁移学习;将人类专家演示视频的图像数据分解为内容编码和样式编码,从目标域的样式空间中进行随机样式编码采样;
S13:将内容编码与随机样式编码进行重新组合,通过基于MUNIT的关键点检测操作进行视频信息到机器人状态的重构;
S14:对人类专家演示视频以及机器人视频进行预处理,将预处理后的视频分段归类,进行制药机器人的运动状态的迁移学习。
可选地,步骤S1中,根据下述公式(1)-(9)定义基于MUNIT的关键点检测操作中的损失函数:
演示视频域的对抗损失
Figure BDA0003975601880000021
和机器人域的对抗损失/>
Figure BDA0003975601880000022
如下式(1)、(2)所示:
Figure BDA0003975601880000023
Figure BDA0003975601880000024
演示视频域的图像重构损失
Figure BDA0003975601880000025
和机器人域的图像重构损失/>
Figure BDA0003975601880000026
如下式所示:
Figure BDA0003975601880000027
Figure BDA0003975601880000031
演示视频域的内容重构损失
Figure BDA0003975601880000032
和机器人域的内容重构损失/>
Figure BDA0003975601880000033
如下式所示:
Figure BDA0003975601880000034
Figure BDA0003975601880000035
演示视频域的样式重构损失
Figure BDA0003975601880000036
和机器人域的样式重构损失/>
Figure BDA0003975601880000037
如下式所示:
Figure BDA0003975601880000038
Figure BDA0003975601880000039
因此,训练MUNIT的总损失
Figure BDA00039756018800000310
如下式所示:
Figure BDA00039756018800000311
其中,λimage、λcontent、λstyle用于控制各自损失函数的相对重要性。
可选地,步骤S14中,对人类专家演示视频以及机器人视频进行预处理,将预处理后的视频分段归类,进行制药机器人的运动状态的迁移学习,包括:
对演示和机器人视频分别做时序分割与识别处理,用MMD损失函数将演示和机器人视频映射到同一特征空间,通过对输入的视频帧做分段归类处理实现演示视频到机器人视频的运动状态迁移。
可选地,步骤S2中,提取制药机器人的状态信息的特征和运动信息的特征,包括:
利用关键点位置计算机器人的速度以及速度方向,获取机器人运动状态的反馈信息,与视频帧中相对应的演示运动状态相比较,反馈差异信息,根据差异信息进行模型收敛,同步制药机器人的运动信息。
可选地,步骤S3中,基于制药机器人的状态信息的特征和运动信息的特征,采用参数化策略网络近似策略函数,利用策略迭代算法训练网络,构建定制化药物制备的决策学习模块,包括:
通过最小化当前观测的制药机器人关键点表示与人类专家演示视频的关键点轨迹之间的距离,并最小化当前人类专家演示视频与制药机器人当前操作步骤类别的交叉熵;当网络训练到人类专家演示视频与制药机器人之间的差异不影响制药机器人行动时,则视为制药机器人学习到了演示的制药技能。
一方面,提供了一种定制化药物制备的机器人操作技能模仿学习装置,该装置应用于电子设备,该装置包括:
状态学习模块,用于获取视觉信息,将视觉信息作为基础识别对象;获取人类专家演示视频,将人类专家演示视频作为制药机器人的模仿对象;基于识别对象和模仿对象,进行制药机器人的视频位置以及运动状态的迁移学习;
特征提取模块,用于提取制药机器人的状态信息的特征和运动信息的特征;
决策学习模块,用于基于制药机器人的状态信息的特征和运动信息的特征,采用参数化策略网络近似策略函数,利用策略迭代算法训练网络,构建定制化药物制备的决策学习模块;
任务执行模块,用于基于决策学习模块,制药机器人操作完成预设制药任务,完成定制化药物制备的机器人操作技能模仿学习。
可选地,状态学习模块,用于获取视觉信息,将视觉信息作为基础识别对象;获取人类专家演示视频,将人类专家演示视频作为制药机器人的模仿对象;
将人类专家演示视频提供的信息转化到机器人域,利用基于MUNIT的关键点检测操作实现演示视频到机器人位置状态的迁移学习;将人类专家演示视频的图像数据分解为内容编码和样式编码,从目标域的样式空间中进行随机样式编码采样;
将内容编码与随机样式编码进行重新组合,通过基于MUNIT的关键点检测操作进行视频信息到机器人状态的重构;
对人类专家演示视频以及机器人视频进行预处理,将预处理后的视频分段归类,进行制药机器人的运动状态的迁移学习。
可选地,根据下述公式(1)-(9)定义基于MUNIT的关键点检测操作中的损失函数:
演示视频域的对抗损失
Figure BDA0003975601880000041
和机器人域的对抗损失/>
Figure BDA0003975601880000042
如下式(1)、(2)所示:
Figure BDA0003975601880000043
Figure BDA0003975601880000044
演示视频域的图像重构损失
Figure BDA0003975601880000045
和机器人域的图像重构损失/>
Figure BDA0003975601880000046
如下式所示:
Figure BDA0003975601880000051
Figure BDA0003975601880000052
演示视频域的内容重构损失
Figure BDA0003975601880000053
和机器人域的内容重构损失/>
Figure BDA0003975601880000054
如下式所示:
Figure BDA0003975601880000055
Figure BDA0003975601880000056
演示视频域的样式重构损失
Figure BDA0003975601880000057
和机器人域的样式重构损失/>
Figure BDA0003975601880000058
如下式所示:
Figure BDA0003975601880000059
Figure BDA00039756018800000510
因此,训练MUNIT的总损失
Figure BDA00039756018800000511
如下式所示:
Figure BDA00039756018800000512
其中,λimage、λcontent、λstyle用于控制各自损失函数的相对重要性。
可选地,状态学习模块,用于对演示和机器人视频分别做时序分割与识别处理,用MMD损失函数将演示和机器人视频映射到同一特征空间,通过对输入的视频帧做分段归类处理实现演示视频到机器人视频的运动状态迁移。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述一种定制化药物制备的机器人操作技能模仿学习方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述一种定制化药物制备的机器人操作技能模仿学习方法。
本发明实施例的上述技术方案至少具有如下有益效果:
上述方案中,针对药物制备行业成本耗费巨大的问题,本方法中演示视频的构造简单成本低,方便任务切换,利用MUNIT和关键点检测技术对演示视频预处理,即完成初始视频到制药机器人状态和动作的迁移学习,随着制药机器人实时观测信息的相似处理,利用观测对比方法即可实现制药机器人制药技能的模仿,整体设计流畅、耗费成本大大降低,制药任务可增加、应用场景可拓展,具有较大的经济效益。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种定制化药物制备的机器人操作技能模仿学习方法的流程图;
图2是本发明实施例提供的一种定制化药物制备的机器人操作技能模仿学习方法的流程图;
图3是本发明实施例提供的基于MUNIT的关键点检测实现位置信息域的迁移流程图;
图4是本发明实施例提供的制药机器人速度信息、速度方向求取图;
图5是本发明实施例提供的观测状态与策略模块交互关系图;
图6是本发明实施例提供的一种定制化药物制备的机器人操作技能模仿学习装置框图;
图7是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供了一种定制化药物制备的机器人操作技能模仿学习方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图1所示的结合多尺度卷积与自注意力编码的定制化药物制备的机器人操作技能模仿学习方法流程图,该方法的处理流程可以包括如下的步骤:
S101:获取视觉信息,将视觉信息作为基础识别对象;获取人类专家演示视频,将人类专家演示视频作为制药机器人的模仿对象;基于识别对象和模仿对象,进行制药机器人的视频位置以及运动状态的迁移学习;
S102:提取制药机器人的状态信息的特征和运动信息的特征;
S103:基于制药机器人的状态信息的特征和运动信息的特征,采用参数化策略网络近似策略函数,利用策略迭代算法训练网络,构建定制化药物制备的决策学习模块;
S104:基于决策学习模块,制药机器人操作完成预设制药任务,完成定制化药物制备的机器人操作技能模仿学习。
可选地,S101中,获取视觉信息,将视觉信息作为基础识别对象;获取人类专家演示视频,将人类专家演示视频作为制药机器人的模仿对象;基于识别对象和模仿对象,进行制药机器人的视频位置以及运动状态的迁移学习,包括:
S111:获取视觉信息,将视觉信息作为基础识别对象;获取人类专家演示视频,将人类专家演示视频作为制药机器人的模仿对象;
S112:将人类专家演示视频提供的信息转化到机器人域,利用基于MUNIT的关键点检测操作实现演示视频到机器人位置状态的迁移学习;将人类专家演示视频的图像数据分解为内容编码和样式编码,从目标域的样式空间中进行随机样式编码采样;
S113:将内容编码与随机样式编码进行重新组合,通过基于MUNIT的关键点检测操作进行视频信息到机器人状态的重构;
S114:对人类专家演示视频以及机器人视频进行预处理,将预处理后的视频分段归类,进行制药机器人的运动状态的迁移学习。
可选地,步骤S101中,根据下述公式(1)-(9)定义基于MUNIT的关键点检测操作中的损失函数:
演示视频域的对抗损失
Figure BDA0003975601880000071
和机器人域的对抗损失/>
Figure BDA0003975601880000072
如下式(1)、(2)所示:
Figure BDA0003975601880000073
Figure BDA0003975601880000074
演示视频域的图像重构损失
Figure BDA0003975601880000081
和机器人域的图像重构损失/>
Figure BDA0003975601880000082
如下式所示:
Figure BDA0003975601880000083
Figure BDA0003975601880000084
演示视频域的内容重构损失
Figure BDA0003975601880000085
和机器人域的内容重构损失/>
Figure BDA0003975601880000086
如下式所示:
Figure BDA0003975601880000087
Figure BDA0003975601880000088
演示视频域的样式重构损失
Figure BDA0003975601880000089
和机器人域的样式重构损失/>
Figure BDA00039756018800000810
如下式所示:
Figure BDA00039756018800000811
Figure BDA00039756018800000812
因此,训练MUNIT的总损失
Figure BDA00039756018800000813
如下式所示:
Figure BDA00039756018800000814
其中,λimage、λcontent、λstyle用于控制各自损失函数的相对重要性。
可选地,步骤S114中,对人类专家演示视频以及机器人视频进行预处理,将预处理后的视频分段归类,进行制药机器人的运动状态的迁移学习,包括:
对演示和机器人视频分别做时序分割与识别处理,用MMD损失函数将演示和机器人视频映射到同一特征空间,通过对输入的视频帧做分段归类处理实现演示视频到机器人视频的运动状态迁移。
可选地,步骤S102中,提取制药机器人的状态信息的特征和运动信息的特征,包括:
利用关键点位置计算机器人的速度以及速度方向,获取机器人运动状态的反馈信息,与视频帧中相对应的演示运动状态相比较,反馈差异信息,根据差异信息进行模型收敛,同步制药机器人的运动信息。
可选地,步骤S103中,基于制药机器人的状态信息的特征和运动信息的特征,采用参数化策略网络近似策略函数,利用策略迭代算法训练网络,构建定制化药物制备的决策学习模块,包括:
通过最小化当前观测的制药机器人关键点表示与人类专家演示视频的关键点轨迹之间的距离,并最小化当前人类专家演示视频与制药机器人当前操作步骤类别的交叉熵;当网络训练到人类专家演示视频与制药机器人之间的差异不影响制药机器人行动时,则视为制药机器人学习到了演示的制药技能。
本发明实施例中,针对药物制备行业成本耗费巨大的问题,本方法中演示视频的构造简单成本低,方便任务切换,利用MUNIT和关键点检测技术对演示视频预处理,即完成初始视频到制药机器人状态和动作的迁移学习,随着制药机器人实时观测信息的相似处理,利用观测对比方法即可实现制药机器人制药技能的模仿,整体设计流畅、耗费成本大大降低,制药任务可增加、应用场景可拓展,具有较大的经济效益。
本发明实施例提供了一种定制化药物制备的机器人操作技能模仿学习方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图2所示的结合多尺度卷积与自注意力编码的定制化药物制备的机器人操作技能模仿学习方法流程图,该方法的处理流程可以包括如下的步骤:
S201:获取视觉信息,将视觉信息作为基础识别对象;获取人类专家演示视频,将人类专家演示视频作为制药机器人的模仿对象;
S202:将人类专家演示视频提供的信息转化到机器人域,利用基于MUNIT的关键点检测操作实现演示视频到机器人位置状态的迁移学习;将人类专家演示视频的图像数据分解为内容编码和样式编码,从目标域的样式空间中进行随机样式编码采样;
S203:将内容编码与随机样式编码进行重新组合,通过基于MUNIT的关键点检测操作进行视频信息到机器人状态的重构;
S204:对人类专家演示视频以及机器人视频进行预处理,将预处理后的视频分段归类,进行制药机器人的运动状态的迁移学习。
本发明实施例中,本发明首先需要利用基于MUNIT(Multimodal UnsupervisedImage-to-image Translation,多模态无监督图像到图像的转换)的关键点检测操作和基于MMD(Maximum Mean Discrepancy,最大均值差异)迁移学习的视频时序分割算法实现演示视频到机器人状态的迁移学习,作为后续的数据处理对象,实现制药机器人位置和运动状态的双向模仿。
本申请中使用的多模态无监督图像到图像的转换:用于实现图像域的转换,用来重构图像;最大均值差异,是一种核学习方法,度量在再生希尔伯特空间中两个分布的距离,本发明中用于视频时序分割中的迁移学习
一种可行的实施方式中,利用基于MUNIT的关键点检测操作实现演示视频到机器人位置状态的迁移学习:将待模仿视频域信息转化到机器人域,克服形态学不匹配的问题,其信息处理概念图如图3所示,图3中x表示演示视频内的图像信息,y表示机器人的图像信息,
Figure BDA0003975601880000101
表示演示视频的内容编码器,/>
Figure BDA0003975601880000102
表示机器人的样式编码器,GY表示图像重构操作,v表示重构后的图像信息,Φ表示特征编码器,Ψ表示关键点检测器,R表示细化网络,/>
Figure BDA0003975601880000103
表示最终的图像信息。
给定输入长度为N的演示视频
Figure BDA0003975601880000104
当前时间t的观测状态Ot,首先利用MUNIT方法将演示视频Vx中的每一帧/>
Figure BDA0003975601880000105
都转换为机器人域信息/>
Figure BDA0003975601880000106
而后利用关键点检测器Ψ对其进行关键点提取操作,生成/>
Figure BDA0003975601880000107
;同时对观测状态Ot采取关键点提取操作,生成zt,进而通过计算/>
Figure BDA0003975601880000108
和zt之间的距离来实现状态的对比学习,这种距离计算定义为d。
一种可行的实施方式中,根据下述公式(1)-(9)定义基于MUNIT的关键点检测操作中的损失函数:
演示视频域的对抗损失
Figure BDA0003975601880000109
和机器人域的对抗损失/>
Figure BDA00039756018800001010
如下式(1)、(2)所示:
Figure BDA00039756018800001011
Figure BDA00039756018800001012
演示视频域的图像重构损失
Figure BDA00039756018800001013
和机器人域的图像重构损失/>
Figure BDA00039756018800001014
如下式所示:
Figure BDA00039756018800001015
Figure BDA00039756018800001016
演示视频域的内容重构损失
Figure BDA00039756018800001017
和机器人域的内容重构损失/>
Figure BDA00039756018800001018
如下式所示:
Figure BDA00039756018800001019
Figure BDA00039756018800001020
演示视频域的样式重构损失
Figure BDA00039756018800001021
和机器人域的样式重构损失/>
Figure BDA00039756018800001022
如下式所示:
Figure BDA00039756018800001023
Figure BDA0003975601880000111
因此,训练MUNIT的总损失
Figure BDA0003975601880000112
如下式所示:
Figure BDA0003975601880000113
其中,λimage、λcontent、λstyle用于控制各自损失函数的相对重要性。
而后对MUNIT处理后的视频帧进行关键点检测操作。给定两个视频帧x和y,首先利用特征编码器提取特征映射得到Φ(x)和Φ(y),并使用关键点检测器Ψ为这两个视频帧检测K个二维关键点得到ψ(x)和ψ(y),通过抑制ψ(x)、Ψ(y)中每个关键点中有关x的特征映射,并合并Ψ(y)中每个关键点中有关y的特征映射,合成特征映射图
Figure BDA0003975601880000114
如下式所示:
Figure BDA0003975601880000115
则这一部分的训练损失
Figure BDA0003975601880000116
如下式所示:
Figure BDA0003975601880000117
通过上述的MUNIT和关键点检测操作即完成了演示视频到机器人状态的迁移学习,以便机器人能够从演示视频中低成本的学习状态,所涉及损失函数用于模型训练,指导特征提取网络与关键点提取网络的训练向正确的方向进行,以保证状态转换的准确率。
一种可行的实施方式中,对演示和机器人视频分别做时序分割与识别处理,用MMD损失函数将演示和机器人视频映射到同一特征空间,通过对输入的视频帧做分段归类处理实现演示视频到机器人视频的运动状态迁移。
利用基于MMD的视频时序分割算法实现演示视频——机器人视频在线时序分割的迁移学习。首先使用时间卷积网络分别提取演示视频和机器人视频的帧级特征,实现两种视频的迁移学习,最小化两种视频帧级表示的MMD距离,使得两种表示处于同一特征空间;进而将视频帧级特征输入改进的GRU(Gate Recurrent Unit,门控循环单元)网络中,进行视频当前药物制备步骤的分类。通过GRU网络解决循环神经网络因长期依赖带来的梯度消失和梯度爆炸问题,且结构简单,训练样本少
该网络将GRU改进为计算当前帧特征与前t帧的历史特征之间的距离来对GRU中的更新门进行取值,即当前帧与前k帧的历史特征距离越大,历史信息的权重越低,使得模型对当前帧的分类主要取决于当前制药步骤,而非考虑历史的多个类别的制药步骤。为保证上述功能模块的可行性,改进GRU网络的目标除了对药物制备步骤分类外,还要引入距离损失函数使得不同步骤的帧级特征距离尽量大。
S205:提取制药机器人的状态信息的特征和运动信息的特征;
一种可行的实施方式中,利用关键点位置计算机器人的速度以及速度方向,获取机器人运动状态的反馈信息,与视频帧中相对应的演示运动状态相比较,反馈差异信息,根据差异信息进行模型收敛,同步制药机器人的运动信息。
一种可行的实施方式中,本发明完成制药机器人对演示视频制药流程的模仿过程中,需要获取机器人的位置和运动状态信息。为了提升制药机器人的模仿效果,本发明同时追踪制药机器人位置状态和制药运动状态。因此,针对制药机器人的位置和运动状态各自采取操作。
首先,对于制药机器人的位置状态信息,由机器人目标方向观测,获取图像数据,即一系列二维坐标
Figure BDA0003975601880000121
其中,/>
Figure BDA0003975601880000122
表示观测到的制药机器人二维坐标信息,lor2or3表示三维空间中观测方向,u和w分别代表坐标轴,t表示观测时刻,T表示观测到的时间序列长度。pr由观测状态/>
Figure BDA0003975601880000123
中获取,表示制药机器人操作部位某一时刻在观测平面的位置信息;
如图4所示:速度信息νr由相邻观测状态求得,即下式所示:
Figure BDA0003975601880000131
指示制药机器人在特定时间间隔内向某一方向移动的距离;
速度方向θr亦是由相邻观测状态求得,即下式所示:
Figure BDA0003975601880000132
指示制药机器人每一时刻移动方向。以上状态的确定使得制药机器人每一时刻都存在其模仿的具体对象,在相当程度上保证了制药机器人模仿的成功性,各个状态相互衔接,构成了药物制备的离散序列。
其次,对于制药机器人的运动状态信息,这一部分的观测信息输入为视频序列,因此需完成实时视频分割与制备步骤的识别。首先将演示视频输入步骤一中的基于MMD的视频时序分割模型中对模型进行微调,基于步骤一中的状态转换校准观测视频,再将观测视频输入模型进行药物制备步骤的实时分割与识别。最终,将识别出的观测视频的制药步骤连接得到药物制备运动状态语义级别的离散序列
S206:基于制药机器人的状态信息的特征和运动信息的特征,采用参数化策略网络近似策略函数,利用策略迭代算法训练网络,构建定制化药物制备的决策学习模块。
S207:基于决策学习模块,制药机器人操作完成预设制药任务,完成定制化药物制备的机器人操作技能模仿学习。
一种可行的实施方式中,通过最小化当前观测的制药机器人关键点表示与人类专家演示视频的关键点轨迹之间的距离,并最小化当前人类专家演示视频与制药机器人当前操作步骤类别的交叉熵;当网络训练到人类专家演示视频与制药机器人之间的差异不影响制药机器人行动时,则视为制药机器人学习到了演示的制药技能。
本实施例中,交叉熵用于度量两个概率分布间的差异性信息。本发明中用于设计奖励函数。
一种可行的实施方式中,本发明需要构建定制化药物制备的决策学习模块,即制药机器人需要策略模块来模仿人的指令,指挥制药机器人与环境交互,完成药物制备。
该策略函数采用参数化策略网络来替代,为拟合参数,观测状态与策略模块存在如图5所示关系,在图5中,其中,At表示时刻t策略给出的行动指令,表示采集药物、加注药物、温度调节等运动状态。在训练策略模块时,将策略学习阶段与基于关键点表示的学习阶段解耦,目标是尽量缩小机器人关键点轨迹与转换后演示视频轨迹之间的距离。
定义奖励函数rt如下式所示:
Figure BDA0003975601880000141
其中,
Figure BDA0003975601880000147
为超参数,用于平衡r1(t)和r2(t)的比例,并有下式:
Figure BDA0003975601880000142
Figure BDA0003975601880000143
Figure BDA0003975601880000144
其中,
Figure BDA0003975601880000145
表示当前观测的关键点表示zt与演示视频的关键点集合/>
Figure BDA0003975601880000146
中最相近的一项,r1(t)表示最小化二者之间的距离,r2(t)是r1(t)的一阶差分方程,q1表示演示视频操作类别的分布,q2表示制药机器人操作类别的分布。
那么对于策略网络,基于上述设计的奖励函数,利用强化学习训练网络即可得到结果πρ,在t=k时刻,经过决策πρ(At|pr,νr,θr,t=k)做出下一刻的动作指令,可用于指导制药机器人在制药车间内完成流水线作业。
当网络训练到二者之间的差异不影响制药机器人行动时,此时便得到了所演示的制药技能,可定制化的含义是制药机器人在模仿一系列操作技能后,能够根据不同的输入做出快速反应。
本发明实施例中,整个设计过程分为:第一步完成演示视频——机器人视频位置和运动状态的迁移学习,对视频进行预处理。首先是演示视频图像域转换即重构操作,而后是利用基于MMD的视频时序分割算法实现演示视频运动状态识别与分类操作,简化后续处理对象;第二步完成模仿学习中制药机器人状态和运动信息的特征提取。需要将观测的制药机器人位置和运动状态信息与演示专家匹配,保证制药机器人在执行相应行动时各个时刻对应正确的状态,对制药机器人的实时状态精准把控;第三步设计定制化制药决策学习模块,模型利用步骤一、步骤二处理好的信息进行决策训练,缩小模仿者与被模仿者位置和运动状态之间的差异值,直至制药机器人能够精准复现演示专家的每一步任务,实现制药机器人自主控制。
面向定制化药物制备的机器人操作技能模仿学习方法,首先实现演示视频到制药机器人位置和运动状态的迁移学习,其演示视频极容易获得、处理简易,利用图像之间的域转换、关键点检测进一步提取视频的关键信息,将图像的高维信息简化为几种状态信息及特定运动类别;在对实时观测的制药机器人状态进行相似操作后,利用LbW(Learning bywatching,通过观察学习(与示范学习相比,其信息输入源于视觉)模仿方法模仿追踪,使得制药机器人学得示专家的制药技能,并由此训练好策略网络作为智能控制的关键。此方法突出了演示视频的随意性,学习过程的可迁移性,决策训练的重要性与创新性,应对场景可拓展,药物制备种类可延伸,在药物制备行业具备极好的理论价值和应用前景。
针对药物制备行业成本耗费巨大的问题,本方法中演示视频的构造简单成本低,方便任务切换,利用MUNIT和关键点检测技术对演示视频预处理,即完成初始视频到制药机器人状态和动作的迁移学习,随着制药机器人实时观测信息的相似处理,利用观测对比方法即可实现制药机器人制药技能的模仿,整体设计流畅、耗费成本大大降低,制药任务可增加、应用场景可拓展,具有较大的经济效益。
实现演示视频——制药机器人状态和动作的迁移学习的方法还有CycleGAN、DualGAN等,这些方法通过对抗训练提升生成器性能,保留原始图像特征,实现图像类状态迁移,然而这些转换模型只是捕获了图像的宏观特征,忽略了下游任务中至关重要的显著特征的细节,这里的显著特征是区分大类中不同数据细节的具有强判别力的信息,并且,该特征编码器对转换后的图像编码时,获取的状态表示一般会导致性能次优;实现视频时序分割算法和运动类别识别的方法还有聚类分析方法、基于模板匹配的方法、基于机器学习的方法处理复杂动作等,这些方法通常难以全面考虑到时域信息,且针对训练的时耗较久,不利于扩展。
和上述方法相比,本发明采用基于MUNIT的关键点检测方法,克服了人-机器形态学不匹配的问题,捕捉到的关键点形成了包含语义信息的结构化表示,可直接用于计算奖励和策略学习;利用基于MMD的视频时序分割算法通过最小化两种视频帧级表示的MMD距离,使得两种表示处于同一特征空间,进而将视频帧级特征输入改进的GRU网络中,进行视频当前药物制备步骤的分类,在人机交互的增量式视频中表现的实时性十分优秀,具有良好的可拓展性,从而降低制备成本。因此本发明具有不可替代的作用,理论价值和应用价值显著。
图6是根据一示例性实施例示出的一种定制化药物制备的机器人操作技能模仿学习装置框图。参照图6,该装置300包括:
状态学习模块310,用于获取视觉信息,将视觉信息作为基础识别对象;获取人类专家演示视频,将人类专家演示视频作为制药机器人的模仿对象;基于识别对象和模仿对象,进行制药机器人的视频位置以及运动状态的迁移学习;
特征提取模块320,用于提取制药机器人的状态信息的特征和运动信息的特征;
决策学习模块330,用于基于制药机器人的状态信息的特征和运动信息的特征,采用参数化策略网络近似策略函数,利用策略迭代算法训练网络,构建定制化药物制备的决策学习模块;
任务执行模块340,用于基于决策学习模块,制药机器人操作完成预设制药任务,完成定制化药物制备的机器人操作技能模仿学习。
可选地,状态学习模块310,用于获取视觉信息,将视觉信息作为基础识别对象;获取人类专家演示视频,将人类专家演示视频作为制药机器人的模仿对象;
将人类专家演示视频提供的信息转化到机器人域,利用基于MUNIT的关键点检测操作实现演示视频到机器人位置状态的迁移学习;将人类专家演示视频的图像数据分解为内容编码和样式编码,从目标域的样式空间中进行随机样式编码采样;
将内容编码与随机样式编码进行重新组合,通过基于MUNIT的关键点检测操作进行视频信息到机器人状态的重构;
对人类专家演示视频以及机器人视频进行预处理,将预处理后的视频分段归类,进行制药机器人的运动状态的迁移学习。
可选地,根据下述公式(1)-(9)定义基于MUNIT的关键点检测操作中的损失函数:
演示视频域的对抗损失
Figure BDA0003975601880000171
和机器人域的对抗损失/>
Figure BDA0003975601880000172
如下式(1)、(2)所示:
Figure BDA0003975601880000173
Figure BDA0003975601880000174
演示视频域的图像重构损失
Figure BDA0003975601880000175
和机器人域的图像重构损失/>
Figure BDA0003975601880000176
如下式所示:
Figure BDA0003975601880000177
Figure BDA0003975601880000178
演示视频域的内容重构损失
Figure BDA0003975601880000179
和机器人域的内容重构损失/>
Figure BDA00039756018800001710
如下式所示:
Figure BDA00039756018800001711
Figure BDA00039756018800001712
演示视频域的样式重构损失
Figure BDA00039756018800001713
和机器人域的样式重构损失/>
Figure BDA00039756018800001714
如下式所示:
Figure BDA00039756018800001715
Figure BDA00039756018800001716
因此,训练MUNIT的总损失
Figure BDA00039756018800001717
如下式所示:
Figure BDA00039756018800001718
其中,λimage、λcontent、λstyle用于控制各自损失函数的相对重要性。
可选地,状态学习模块310,用于对演示和机器人视频分别做时序分割与识别处理,用MMD损失函数将演示和机器人视频映射到同一特征空间,通过对输入的视频帧做分段归类处理实现演示视频到机器人视频的运动状态迁移。
可选地,特征提取模块320,用于利用关键点位置计算机器人的速度以及速度方向,获取机器人运动状态的反馈信息,与视频帧中相对应的演示运动状态相比较,反馈差异信息,根据差异信息进行模型收敛,同步制药机器人的运动信息。
可选地,决策学习模块330,用于通过最小化当前观测的制药机器人关键点表示与人类专家演示视频的关键点轨迹之间的距离,并最小化当前人类专家演示视频与制药机器人当前操作步骤类别的交叉熵;当网络训练到人类专家演示视频与制药机器人之间的差异不影响制药机器人行动时,则视为制药机器人学习到了演示的制药技能。
本发明实施例中,针对药物制备行业成本耗费巨大的问题,本方法中演示视频的构造简单成本低,方便任务切换,利用MUNIT和关键点检测技术对演示视频预处理,即完成初始视频到制药机器人状态和动作的迁移学习,随着制药机器人实时观测信息的相似处理,利用观测对比方法即可实现制药机器人制药技能的模仿,整体设计流畅、耗费成本大大降低,制药任务可增加、应用场景可拓展,具有较大的经济效益。
图7是本发明实施例提供的一种电子设备400的结构示意图,该电子设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)401和一个或一个以上的存储器402,其中,所述存储器402中存储有至少一条指令,所述至少一条指令由所述处理器401加载并执行以实现下述定制化药物制备的机器人操作技能模仿学习方法的步骤:
S1:获取视觉信息,将所述视觉信息作为基础识别对象;获取人类专家演示视频,将所述人类专家演示视频作为制药机器人的模仿对象;基于所述识别对象和所述模仿对象,进行所述制药机器人的视频位置以及运动状态的迁移学习;
S2:提取所述制药机器人的状态信息的特征和运动信息的特征;
S3:基于所述制药机器人的状态信息的特征和运动信息的特征,采用参数化策略网络近似策略函数,利用策略迭代算法训练网络,构建定制化药物制备的决策学习模块;
S4:基于所述决策学习模块,制药机器人操作完成预设制药任务,完成定制化药物制备的机器人操作技能模仿学习。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述定制化药物制备的机器人操作技能模仿学习方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种定制化药物制备的机器人操作技能模仿学习方法,其特征在于,包括以下步骤:
S1:获取视觉信息,将所述视觉信息作为基础识别对象;获取人类专家演示视频,将所述人类专家演示视频作为制药机器人的模仿对象;基于所述识别对象和所述模仿对象,进行所述制药机器人的视频位置以及运动状态的迁移学习;
S2:提取所述制药机器人的状态信息的特征和运动信息的特征;
S3:基于所述制药机器人的状态信息的特征和运动信息的特征,采用参数化策略网络近似策略函数,利用策略迭代算法训练网络,构建定制化药物制备的决策学习模块;
S4:基于所述决策学习模块,制药机器人操作完成预设制药任务,完成定制化药物制备的机器人操作技能模仿学习。
2.根据权利要求1所述的方法,其特征在于,所述S1中,获取视觉信息,将所述视觉信息作为基础识别对象;获取人类专家演示视频,将所述人类专家演示视频作为制药机器人的模仿对象;基于所述识别对象和所述模仿对象,进行所述制药机器人的视频位置以及运动状态的迁移学习,包括:
S11:获取视觉信息,将所述视觉信息作为基础识别对象;获取人类专家演示视频,将所述人类专家演示视频作为制药机器人的模仿对象;
S12:将所述人类专家演示视频提供的信息转化到机器人域,利用基于MUNIT的关键点检测操作实现演示视频到机器人位置状态的迁移学习;将所述人类专家演示视频的图像数据分解为内容编码和样式编码,从目标域的样式空间中进行随机样式编码采样;
S13:将所述内容编码与所述随机样式编码进行重新组合,通过基于MUNIT的关键点检测操作进行视频信息到机器人状态的重构;
S14:对所述人类专家演示视频以及机器人视频进行预处理,将预处理后的视频分段归类,进行所述制药机器人的运动状态的迁移学习。
3.根据权利要求2所述的方法,其特征在于,所述步骤S1中,根据下述公式(1)-(9)定义基于MUNIT的关键点检测操作中的损失函数:
演示视频域的对抗损失
Figure FDA0003975601870000021
和机器人域的对抗损失/>
Figure FDA0003975601870000022
如下式(1)、(2)所示:
Figure FDA0003975601870000023
Figure FDA0003975601870000024
演示视频域的图像重构损失
Figure FDA0003975601870000025
和机器人域的图像重构损失/>
Figure FDA0003975601870000026
如下式所示:
Figure FDA0003975601870000027
Figure FDA0003975601870000028
演示视频域的内容重构损失
Figure FDA0003975601870000029
和机器人域的内容重构损失/>
Figure FDA00039756018700000210
如下式所示:
Figure FDA00039756018700000211
Figure FDA00039756018700000212
演示视频域的样式重构损失
Figure FDA00039756018700000213
和机器人域的样式重构损失/>
Figure FDA00039756018700000214
如下式所示:
Figure FDA00039756018700000215
Figure FDA00039756018700000216
因此,训练MUNIT的总损失
Figure FDA00039756018700000217
如下式所示:
Figure FDA00039756018700000218
其中,λimage、λcontent、λstyle是超参数,用于协调上述三种损失函数在训练过程中的占比,以合理的损失度量促进网络收敛。
4.根据权利要求2所述的方法,其特征在于,所述步骤S14中,对所述人类专家演示视频以及机器人视频进行预处理,将预处理后的视频分段归类,进行所述制药机器人的运动状态的迁移学习,包括:
对演示和机器人视频分别做时序分割与识别处理,用MMD损失函数将演示和机器人视频映射到同一特征空间,通过对输入的视频帧做分段归类处理实现演示视频到机器人视频的运动状态迁移。
5.根据权利要求4所述的方法,其特征在于,所述步骤S2中,提取所述制药机器人的状态信息的特征和运动信息的特征,包括:
利用关键点位置计算机器人的速度以及速度方向,获取机器人运动状态的反馈信息,与视频帧中相对应的演示运动状态相比较,反馈差异信息,根据所述差异信息进行模型收敛,同步制药机器人的运动信息。
6.根据权利要求1所述的方法,其特征在于,所述步骤S3中,基于所述制药机器人的状态信息的特征和运动信息的特征,采用参数化策略网络近似策略函数,利用策略迭代算法训练网络,构建定制化药物制备的决策学习模块,包括:
通过最小化当前观测的制药机器人关键点表示与人类专家演示视频的关键点轨迹之间的距离,并最小化当前人类专家演示视频与制药机器人当前操作步骤类别的交叉熵;当网络训练到人类专家演示视频与制药机器人之间的差异不影响制药机器人行动时,则视为制药机器人学习到了演示的制药技能。
7.一种定制化药物制备的机器人操作技能模仿学习装置,其特征在于,所述装置适用于上述权利要求1-6中任意一项的方法,装置包括:
状态学习模块,用于获取视觉信息,将所述视觉信息作为基础识别对象;获取人类专家演示视频,将所述人类专家演示视频作为制药机器人的模仿对象;基于所述识别对象和所述模仿对象,进行所述制药机器人的视频位置以及运动状态的迁移学习;
特征提取模块,用于提取所述制药机器人的状态信息的特征和运动信息的特征;
决策学习模块,用于基于所述制药机器人的状态信息的特征和运动信息的特征,采用参数化策略网络近似策略函数,利用策略迭代算法训练网络,构建定制化药物制备的决策学习模块;
任务执行模块,用于基于所述决策学习模块,制药机器人操作完成预设制药任务,完成定制化药物制备的机器人操作技能模仿学习。
8.根据权利要求7所述的装置,其特征在于,所述状态学习模块,用于获取视觉信息,将所述视觉信息作为基础识别对象;获取人类专家演示视频,将所述人类专家演示视频作为制药机器人的模仿对象;
将所述人类专家演示视频提供的信息转化到机器人域,利用基于MUNIT的关键点检测操作实现演示视频到机器人位置状态的迁移学习;将所述人类专家演示视频的图像数据分解为内容编码和样式编码,从目标域的样式空间中进行随机样式编码采样;
将所述内容编码与所述随机样式编码进行重新组合,通过基于MUNIT的关键点检测操作进行视频信息到机器人状态的重构;
对所述人类专家演示视频以及机器人视频进行预处理,将预处理后的视频分段归类,进行所述制药机器人的运动状态的迁移学习。
9.根据权利要求8所述的方法,其特征在于,根据下述公式(1)-(9)定义基于MUNIT的关键点检测操作中的损失函数:
演示视频域的对抗损失
Figure FDA0003975601870000041
和机器人域的对抗损失/>
Figure FDA0003975601870000042
如下式(1)、(2)所示:
Figure FDA0003975601870000043
Figure FDA0003975601870000044
演示视频域的图像重构损失
Figure FDA0003975601870000045
和机器人域的图像重构损失/>
Figure FDA0003975601870000046
如下式所示:
Figure FDA0003975601870000047
Figure FDA0003975601870000048
演示视频域的内容重构损失
Figure FDA0003975601870000049
和机器人域的内容重构损失/>
Figure FDA00039756018700000410
如下式所示:
Figure FDA00039756018700000411
Figure FDA00039756018700000412
演示视频域的样式重构损失
Figure FDA00039756018700000413
和机器人域的样式重构损失/>
Figure FDA00039756018700000414
如下式所示:
Figure FDA00039756018700000415
Figure FDA00039756018700000416
因此,训练MUNIT的总损失
Figure FDA00039756018700000417
如下式所示:
Figure FDA00039756018700000418
其中,λimage、λcontent、λstyle用于控制各自损失函数的相对重要性。
10.根据权利要求8所述的方法,其特征在于,所述状态学习模块,用于对演示和机器人视频分别做时序分割与识别处理,用MMD损失函数将演示和机器人视频映射到同一特征空间,通过对输入的视频帧做分段归类处理实现演示视频到机器人视频的运动状态迁移。
CN202211530693.6A 2022-12-01 2022-12-01 定制化药物制备的机器人操作技能模仿学习方法及装置 Active CN116276956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211530693.6A CN116276956B (zh) 2022-12-01 2022-12-01 定制化药物制备的机器人操作技能模仿学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211530693.6A CN116276956B (zh) 2022-12-01 2022-12-01 定制化药物制备的机器人操作技能模仿学习方法及装置

Publications (2)

Publication Number Publication Date
CN116276956A true CN116276956A (zh) 2023-06-23
CN116276956B CN116276956B (zh) 2023-12-08

Family

ID=86811904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211530693.6A Active CN116276956B (zh) 2022-12-01 2022-12-01 定制化药物制备的机器人操作技能模仿学习方法及装置

Country Status (1)

Country Link
CN (1) CN116276956B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111165176A (zh) * 2020-03-20 2020-05-19 青岛农业大学 一种茶叶人工智能采摘机器人
CN111890357A (zh) * 2020-07-01 2020-11-06 广州中国科学院先进技术研究所 一种基于动作演示示教的智能机器人抓取方法
CN113927593A (zh) * 2021-09-22 2022-01-14 北京航空航天大学 基于任务分解的机械臂操作技能学习方法
CN114290339A (zh) * 2022-03-09 2022-04-08 南京大学 基于强化学习和残差建模的机器人现实迁移系统和方法
CN114586040A (zh) * 2019-10-15 2022-06-03 尤帕斯公司 使用机器学习自动激活和配置机器人流程自动化工作流
CN115205903A (zh) * 2022-07-27 2022-10-18 华中农业大学 一种基于身份迁移生成对抗网络的行人重识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114586040A (zh) * 2019-10-15 2022-06-03 尤帕斯公司 使用机器学习自动激活和配置机器人流程自动化工作流
CN111165176A (zh) * 2020-03-20 2020-05-19 青岛农业大学 一种茶叶人工智能采摘机器人
CN111890357A (zh) * 2020-07-01 2020-11-06 广州中国科学院先进技术研究所 一种基于动作演示示教的智能机器人抓取方法
CN113927593A (zh) * 2021-09-22 2022-01-14 北京航空航天大学 基于任务分解的机械臂操作技能学习方法
CN114290339A (zh) * 2022-03-09 2022-04-08 南京大学 基于强化学习和残差建模的机器人现实迁移系统和方法
CN115205903A (zh) * 2022-07-27 2022-10-18 华中农业大学 一种基于身份迁移生成对抗网络的行人重识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王皓;高阳;陈兴国;: "强化学习中的迁移:方法和进展", 电子学报, no. 1, pages 39 - 43 *
黄忠;任福继;胡敏;: "基于RBF神经网络的人形机器人在线面部表情模仿", 机器人, no. 02, pages 225 - 232 *

Also Published As

Publication number Publication date
CN116276956B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN111126272B (zh) 姿态获取方法、关键点坐标定位模型的训练方法和装置
CN109919031B (zh) 一种基于深度神经网络的人体行为识别方法
CN100573548C (zh) 跟踪双手运动的方法和设备
CN109800689A (zh) 一种基于时空特征融合学习的目标跟踪方法
CN111222486B (zh) 手部姿态识别模型的训练方法、装置、设备及存储介质
CN112331273B (zh) 一种基于多维度信息的药物小分子-蛋白靶点反应预测方法
Avola et al. Deep temporal analysis for non-acted body affect recognition
CN111028319B (zh) 一种基于面部运动单元的三维非真实感表情生成方法
Suzuki et al. Enhancement of gross-motor action recognition for children by CNN with OpenPose
CN109508686B (zh) 一种基于层次化特征子空间学习的人体行为识别方法
CN115731441A (zh) 基于数据跨模态迁移学习的目标检测和姿态估计方法
CN111429481B (zh) 一种基于自适应表达的目标追踪方法、装置及终端
CN114170353B (zh) 一种基于神经网络的多条件控制的舞蹈生成方法及系统
Wu et al. An unsupervised real-time framework of human pose tracking from range image sequences
Kalash et al. Relative saliency and ranking: Models, metrics, data and benchmarks
CN116276956B (zh) 定制化药物制备的机器人操作技能模仿学习方法及装置
CN116363757A (zh) 一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法
CN110659576A (zh) 一种基于联合判断与生成学习的行人搜索方法及装置
CN113298136B (zh) 一种基于alpha散度的孪生网络跟踪方法
CN115482557A (zh) 人体图像生成方法、系统、设备及存储介质
Cai et al. An Automatic Music-Driven Folk Dance Movements Generation Method Based on Sequence-To-Sequence Network
Shi et al. Deep metric learning for human action recognition with slowfast networks
Jin Dance-specific action recognition method based on double-stream cnn in complex environment
Jayanthi et al. Reviving Cultural Heritage: Advancements in Pose Recognition and 3D Model Reconstruction for Indian Classical Dance Using AI and Augmented Reality Technologies
Alaghband Analysis of Sign Language Facial Expressions and Deaf Students' Retention Using Machine Learning and Agent-based Modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant