CN115422838A

CN115422838A - 手术机器人的自主学习方法、装置、设备和介质

Info

Publication number: CN115422838A
Application number: CN202211063606.0A
Authority: CN
Inventors: 吴丹; 李智超; 任昊; 张继文
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-12-02

Abstract

本申请涉及手术机器人技术领域，特别涉及一种手术机器人的自主学习方法、装置、设备和介质，其中，方法包括：获取目标个体的感知数据，并输入至预先训练的手术机器人智能体，得到针对目标个体的决策数据，判断决策数据是否满足当前手术条件，若决策数据满足当前执行手术条件，则控制手术机器人按照决策数据执行手术操作，否则基于预设调整策略调整决策数据，直至满足当前执行手术条件的最佳决策参数，并控制手术机器人按照最佳决策数据执行手术操作。由此，解决了相关技术中的手术机器人的自主性不足，从而导致手术持续时间长、耗费大量精力、人机协同的智能化程度低等问题。

Description

手术机器人的自主学习方法、装置、设备和介质

技术领域

本发明涉及手术机器人技术领域，特别涉及一种手术机器人的自主学习方法、装置、设备和介质。

背景技术

伴随医工交叉、机器人科学与技术等前沿学科的不断进步，各类手术机器人得以蓬勃发展，其功能日益完善，目前已覆盖临床所需的大部分应用场景，例如腹腔镜手术机器人、关节置换机器人、颌面修复手术机器人、口腔外科手术机器人等。同时，人工智能、虚拟现实、增强现实等现代信息化技术在不断赋能各种手术机器人，使得这些手术机器人可以更好地辅助医生完成手术任务。可预见地，未来的行业态势会越发向着数字化和智能化精准医疗方向发展。手术机器人的发展需要机器人、智能感知、智能规划和人机协同的共同作用来驱动。

相关技术中，手术机器人的智能化以及人机协同程度并不完善，感知层的智能化和人机协同程度明显高于决策层，即整体表现为重感知轻决策。在手术机器人技术领域，当前已然产生了较多成像、定位、视觉跟踪等方面的智能方法，可以准确地为医生提供患者病灶位置和实时手术器械位置等手术所需的关键信息，使得手术过程中对环境和手术状态的感知不再完全依赖于施术者的临床经验。例如申请号CN202010507014.8采用可以用于采血或输液机器人的一种基于超声图像的穿刺针针尖与血管壁深度定位方法；此外，申请号CN202011320460.4采用的一种基于深度学习的手术器械夹持力感知方法，可以仅通过手术机器人系统的电机电流、驱动电机角位置和驱动电机角速度来感知加持力而不需要外加专门的力传感器；申请号CN202110922513.8采用的一种用于腹腔镜微创手术的器械视觉跟踪方法，利用深度学习实现了无需进行术前标记的腹腔镜手术器械的自动化检测与跟踪；申请号CN201810038700.8采用的基于增强现实的人机协作机器人种牙方法及人机协作机器人种牙系统，可以让佩戴AR(Augmented Reality，增强现实)眼镜的医生在重建出的虚拟场景中观察患者情况，并制定和模拟种牙方案，以及在实际种牙过程中适时介入手术。

上述实施例说明针对手术机器人的智能化和人机协同已经产生了一些成果，但目前大多局限于对外界环境的感知和交互。然而，为了更好地与医生协作完成手术，充分发挥医生和机器人两者的优势，还需要机器人能够对医生的状态和意识产生感知，具备一定自主能力，并进一步形成协作。当前对医生状态和意识感知能力的缺乏或不足，使得当前手术机器人存在以下的局限：

首先，为施术者和手术场景做出的贡献程度明显有待提高。在一些持续时间较长、或需施术者重复高强度作业的术式中，如果手术机器人可以在一定程度上依据施术者的专家意识和策略去执行手术中的先决部分，则可以大大缩短手术的持续时间，并且为施术者节省精力使其可以专注于手术中其它难点，患者和医生都将从中受益。上述先决部分包括但不限于神经外科手术中的开颅过程、关节置换手术中的锯骨过程等。目前，在手术机器人领域还比较罕见从专家数据学习专家规划及决策的专利文献，而在其它的技术领域已有相应研究，例如，申请号CN202010050934.1采用的基于专家系统与深度逆向强化学习的电网紧急控制方法。

其次，人机协同过程中的智能化程度不高，机器人更偏其机器属性，极大地限制了手术机器人的推广和实际使用。手术机器人被期望能够在和医生的协作中识别医生意识，适应医生的操作习惯，以达到顺畅的配合。然而目前，具备路径规划能力的手术机器人在进行手术规划时通常缺乏与医生之间的交互和协调，医生往往只能以第三人称视角对其结果进行监测。例如，申请号CN202010678117.0采用的眼科手术机器人具有精准病灶定位和导航的能力，并且其多机械臂系统可以操持不同手术器械进行复杂手术，但因为缺乏与医生的交互，使得医生在对其路径规划结果不认可或认为需要进行微调时均只能选择紧急关闭该手术机器人；类似的，申请号CN2020107678888.7采用的一种基于深度学习的血管介入机器人自动手术方法虽然让机器人学习了医生的操作，但仍未涉及医生和智能手术机器人之间的灵活交互，使得该方法的实际效果高度依赖于医生难以直接干预的所训练模型的泛化能力；最近，申请号CN202111373894.5采用的基于状态捕捉的口腔种植机器人控制系统及其操作方法使得机器人控制与医生状态达到了协同，建立了专家库数据供机器人进行强化学习，但其强化学习的奖励获取过程较为迟滞，需要等待整个种植过程结束且比较种植精度后才能得到一个稀疏奖励，而稀疏奖励并不利于机械臂这类复杂控制对象进行强化学习训练。另外，该方法每次执行时需要先就患者状态、种植方案等信息在专家库中进行相似度比较和搜索，只有专家库中存在相似案例时机器人学习到的技能才起到主要效果(机器人产生的运动参数权重高，医生规划的运动参数权重低)，否则每次使用系统均以医生的实际操作为主(医生规划的运动参数权重高，机器人产生的运动参数权重低)，即不论种植机器人学习的程度如何，医生都需要进行一次完整的手术操作，进而使得种植机器人强化学习的意义不明显。

此外，出于法律和伦理等原因的约束，各种手术机器人涉及的临床场景中，均应该保证医生享有所有决策环节的最终决定权，即医生对手术过程的绝对控制。

发明内容

本申请提供一种手术机器人的自主学习方法、装置、设备和介质，以解决相关技术中的手术机器人的自主性不足，从而导致手术持续时间长、耗费大量精力、人机协同的智能化程度低的问题。

本申请第一方面实施例提供一种手术机器人的自主学习方法，包括以下步骤：

获取目标个体的感知数据，并将所述感知数据输入至预先训练的手术机器人智能体，得到所述针对所述目标个体的决策数据，其中，所述手术机器人智能体由虚拟医生模型训练第一目标神经网络得到；

判断所述决策数据是否满足当前手术条件；以及

若所述决策数据满足所述当前执行手术条件，则控制手术机器人按照所述决策数据执行手术操作否则基于预设调整策略调整所述决策数据，直至调整后的决策数据满足所述当前执行手术条件的最佳决策参数，并控制所述手术机器人按照所述最佳决策数据执行手术操作。

根据本申请的一个实施例，在将所述感知数据输入至所述预先训练的手术机器人智能体之前，还包括：

构建初始专家示教数据库，并基于所述初始专家示教数据库中的目标感知数据、目标决策数据和目标分值数据，训练第二目标神经网络，得到所述虚拟医生模型；

将所述目标感知数据输入至第一目标神经网络的卷积神经网络层进行特征提取得到第一特征向量，并基于所述虚拟医生模型和所述第一特征向量训练所述第一目标神经网络的全连接神经网络层，直至达到预设的停止训练条件，得到所述预先训练的手术机器人智能体。

根据本申请的一个实施例，所述基于所述初始专家示教数据库中的目标感知数据、目标决策数据和目标分值数据，训练第二目标神经网络，得到虚拟医生模型，包括：

将所述目标感知数据的输入至所述第二目标神经网络的卷积神经网络层进行特征提取得到第二特征向量；

基于所述第二特征向量、所述目标决策数据和所述目标分值数据训练所述第二目标神经网络的全连接神经网络层，得到所述虚拟医生模型。

根据本申请的一个实施例，所述构建初始专家示教数据库，包括：

获取目标用户的影像数据，将所述影像数据输入至预设的病灶检测模型得到病灶mask，并融合所述病灶mask和所述影像数据得到所述目标感知数据；

基于所述目标感知数据生成所述目标用户的目标决策数据；

根据所述目标感知数据和所述目标决策数据获取所述目标分值数据；

根据所述目标感知数据、所述目标决策数据和所述分值数据构建所述初始专家示教数据库。

根据本申请的一个实施例，在调整所述决策数据至满足所述当前执行手术条件的最佳决策参数之后，还包括：

根据所述最佳决策参数更新所述初始专家示教数据库；

基于更新后的所述初始专家示教数据库中目标感知数据、目标决策数据和目标分值数据，重新训练所述第二目标神经网络，得到新的虚拟医生模型；

通过所述新的虚拟医生模型重新训练所述第一目标神经网络，得到新的手术机器人智能体，以通过所述新的手术机器人智能体为新的目标个体规划新的决策数据。

根据本申请的一个实施例，所述预设停止训练条件为训练轮次高于设定值。

根据本申请实施例的手术机器人的自主学习方法，获取目标个体的感知数据，并输入至预先训练的手术机器人智能体，得到针对目标个体的决策数据，进而判断决策数据是否满足当前手术条件，若决策数据满足当前执行手术条件，则控制手术机器人按照决策数据执行手术操作，否则基于预设调整策略调整决策数据，直至满足当前执行手术条件的最佳决策参数，并控制手术机器人按照最佳决策数据执行手术操作。由此，解决了相关技术中的手术机器人的自主性不足，从而导致手术持续时间长、耗费大量精力、人机协同的智能化程度低等问题，通过专家示教和人机交互的组合方式，保证了医生执行手术的决策权及对机器人规划方案的调整权，并进行实时更新方案数据，进一步强化了手术机器人交互的智能化程度。

本申请第二方面实施例提供一种手术机器人的自主学习装置，包括：

获取模块，用于获取目标个体的感知数据，并将所述感知数据输入至预先训练的手术机器人智能体，得到所述针对所述目标个体的决策数据，其中，所述手术机器人智能体由虚拟医生模型训练第一目标神经网络得到；

判断模块，用于判断所述决策数据是否满足当前手术条件；以及

控制模块，用于若所述决策数据满足所述当前执行手术条件，则控制手术机器人按照所述决策数据执行手术操作否则基于预设调整策略调整所述决策数据，直至调整后的决策数据满足所述当前执行手术条件的最佳决策参数，并控制所述手术机器人按照所述最佳决策数据执行手术操作。

根据本申请的一个实施例，在将所述感知数据输入至所述预先训练的手术机器人智能体之前，所述获取模块，还包括：

构建单元，用于构建初始专家示教数据库，并基于所述初始专家示教数据库中的目标感知数据、目标决策数据和目标分值数据，训练第二目标神经网络，得到所述虚拟医生模型；

获取单元，用于将所述目标感知数据输入至第一目标神经网络的卷积神经网络层进行特征提取得到第一特征向量，并基于所述虚拟医生模型和所述第一特征向量训练所述第一目标神经网络的全连接神经网络层，直至达到预设的停止训练条件，得到所述预先训练的手术机器人智能体。

根据本申请的一个实施例，所述构建单元，具体用于：

基于所述目标感知数据生成所述目标用户的目标决策数据；

根据本申请的一个实施例，在调整所述决策数据至满足所述当前执行手术条件的最佳决策参数之后，所述控制模块，还用于：

根据所述最佳决策参数更新所述初始专家示教数据库；

根据本申请实施例的手术机器人的自主学习装置，获取目标个体的感知数据，并输入至预先训练的手术机器人智能体，得到针对目标个体的决策数据，进而判断决策数据是否满足当前手术条件，若决策数据满足当前执行手术条件，则控制手术机器人按照决策数据执行手术操作，否则基于预设调整策略调整决策数据，直至满足当前执行手术条件的最佳决策参数，并控制手术机器人按照最佳决策数据执行手术操作。由此，解决了相关技术中的手术机器人的自主性不足，从而导致手术持续时间长、耗费大量精力、人机协同的智能化程度低等问题，通过专家示教和人机交互的组合方式，保证了医生执行手术的决策权及对机器人规划方案的调整权，并进行实时更新方案数据，进一步强化了手术机器人交互的智能化程度。

本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的手术机器人的自主学习方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例所述的手术机器人的自主学习方法。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请一个实施例的实现手术机器人自主学习专家手术方案的模块连接示意图；

图2为根据本申请实施例提供的一种手术机器人的自主学习方法的流程图；

图3为根据本申请一个实施例的实现手术机器人自主学习专家手术方案的系统与方法的整体流程示意图；

图4为根据本申请一个实施例的建立专家示教数据库中感知数据的方法示意图；

图5为根据本申请一个实施例的虚拟医生网络框架示意图；

图6为根据本申请一个实施例的手术机器人智能体网络框架示意图；

图7为根据本申请一个实施例的通过训练好的虚拟医生对手术机器人智能体进行强化学习训练的示意图；

图8为根据本申请一个实施例的收集专家示教数据并更新虚拟医生和手术机器人智能体的流程图；

图9为根据本申请实施例的手术机器人的自主学习装置的方框示意图；

图10为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的手术机器人的自主学习方法、装置、设备和介质，针对上述背景技术中提到的手术机器人的自主性不足，从而导致手术持续时间长、耗费大量精力、人机协同的智能化程度低的问题，本申请提供了一种手术机器人的自主学习方法，在该方法中，获取目标个体的感知数据，并输入至预先训练的手术机器人智能体，得到针对目标个体的决策数据，进而判断决策数据是否满足当前手术条件，若决策数据满足当前执行手术条件，则控制手术机器人按照决策数据执行手术操作，否则基于预设调整策略调整决策数据，直至满足当前执行手术条件的最佳决策参数，并控制手术机器人按照最佳决策数据执行手术操作。由此，解决了相关技术中的手术机器人的自主性不足，从而导致手术持续时间长、耗费大量精力、人机协同的智能化程度低等问题，通过专家示教和人机交互的组合方式，保证了医生执行手术的决策权及对机器人规划方案的调整权，并进行实时更新方案数据，进一步强化了手术机器人交互的智能化程度。

具体地，在介绍本申请实施例的实施过程之前，首先介绍一下本申请实施例所涉及的系统模块，本申请实施例可以根据以下软硬件系统搭建和实现，包括手术机器人模块和人机交互模块，如图1所示，手术机器人模块包括协作型机器人1、机器人控制器2、机器人末端执行器3，人机交互模块包括计算机4、输入设备51、输入设备52、输出设备6以及软件系统，软件系统包括虚拟医生和手术机器人智能体，均为深度神经网络。

其中，机器人末端执行器3与协作型机器人1固定连接，协作型机器人1与机器人控制器2连接，计算机4分别与输出设备6、输入设备51以及输入设备52连接，协作型机器人1、机器人控制器2均与外接电源连接。

一般来说，输入设备51为键盘，输入设备52为鼠标，输出设备6为显示器；优选地，机器人末端执行器3可以根据具体手术需求进行更换。

具体而言，图2是本发明一个实施例提供的一种手术机器人的自主学习方法的流程示意图。

如图2所示，该手术机器人的自主学习方法包括以下步骤：

在步骤S201中，获取目标个体的感知数据，并将感知数据输入至预先训练的手术机器人智能体，得到针对目标个体的决策数据，其中，手术机器人智能体由虚拟医生模型训练第一目标神经网络得到。

应当理解的是，本申请实施例将通过由卷积神经网络，即第一目标神经网络里的输入层获取目标个体的感知数据，并将感知数据输入至由虚拟医生模型训练第一目标神经网络得到的手术机器人智能体中，从而使其掌握专家定制手术方案时的专家意识，以产生与专家方案最接近的手术方案。

进一步地，在一些实施例中，在将感知数据输入至预先训练的手术机器人智能体之前，还包括：构建初始专家示教数据库，并基于初始专家示教数据库中的目标感知数据、目标决策数据和目标分值数据，训练第二目标神经网络，得到虚拟医生模型；将目标感知数据输入至第一目标神经网络的卷积神经网络层进行特征提取得到第一特征向量，并基于虚拟医生模型和第一特征向量训练第一目标神经网络的全连接神经网络层，直至达到预设的停止训练条件，得到预先训练的手术机器人智能体。

进一步地，在一些实施例中，构建初始专家示教数据库，包括：获取目标用户的影像数据，将影像数据输入至预设的病灶检测模型得到病灶mask，并融合病灶mask和影像数据得到目标感知数据；基于目标感知数据生成目标用户的目标决策数据；根据目标感知数据和目标决策数据获取目标分值数据；根据目标感知数据、目标决策数据和分值数据构建初始专家示教数据库。

具体地，如图3所示，本申请实施例为实现手术机器人能够自主的从专家经验中学习并获取手术方案规划能力，第一步需建立初始专家示教数据库D₀(I_i,T_i,S_i)，在建立数据库时，需要医生先提供50例(i∈[0,50])以上的示教数据，以用于构建初始的专家示教数据库。其中，每一例示教数据由感知数据I_i、决策数据T_i以及分值数据S_i三部分组成，感知数据I_i是目标个体(即病人)带病灶标注的影像数据，此类数据可以由图4方式进行获取，即通过医生手动对病人影像数据进行标注，或将病人原始的CT(Computed Tomography，电子计算机断层扫描)\MRI(Nuclear Magnetic Resonance Imaging，核磁共振成像)等影像数据输入病灶识别与检测模型得到病灶mask，再经图像融合将原始影像数据与相应mask合并，优选地，可选用nnU-Net作为病灶检测模型；决策数据T_i是指医生根据上述病人影像数据所规划的决策数据(即手术参数)，如手术入路路径、切口位置和形状参数等；分值数据S_i是指在特定感知数据I_i下，决策数据T_i的好坏程度，S_i∈[0,100]。

优选地，本申请实施例在建立专家示教数据库时，对于不同的手术场景，示教数据的具体类型可以有差异。由此，本申请实施例可以将专家提供的示教数据设为正样本，为提高后续模型的泛化能力，但应注意两个要点：首先，是正样本的覆盖范围应该尽可能全面，即感知数据中病灶的位置和大小分布尽可能全面，例如当训练口腔种植机器人时，专家示教数据中需要种牙的位置应该尽可能包含所有可能种牙的位置，并配以相应的专家决策数据，以免机器人被给到与训练数据明显不同的病例时无从下手或产生明显不好的结果；其次，对于每一例正样本数据，手动再产生系列与其有不同相似程度的训练数据，作为负样本来扩充专家示教数据库。

可选地，本申请实施例可以将所有正样本均赋满分100，负样本根据与正样本的差异程度进行区别赋值。例如，对于某一例正样本的种牙示教数据[images,x_e,y_e,z_e]，其中，images表示感知数据I_i，(x_e,y_e,z_e)表示专家规划的种牙点位置，即T_i，由此，可手动产生负样本为[images,x_e+Δx_j,y_e+Δy_j,z_e+Δz_j]，j∈R，R为images对应的负样本数量，即加上一些调整将专家的决策数据进行修改。对于这些负样本，根据与正样本的距离远近程度进行赋值，越接近正样本则赋值越高，反之亦然，赋值规则如下式：

进一步地，在一些实施例中，基于初始专家示教数据库中的目标感知数据、目标决策数据和目标分值数据，训练第二目标神经网络，得到虚拟医生模型，包括：将目标感知数据的输入至第二目标神经网络的卷积神经网络层进行特征提取得到第二特征向量；基于第二特征向量、目标决策数据和目标分值数据训练第二目标神经网络的全连接神经网络层，得到虚拟医生模型。

具体地，如图5所示，本申请实施例需构建一个如图5所示的深度神经网络即第二目标神经网络作为虚拟医生M_V(I_i,T_i,θ)，虚拟医生M_V(I_i,T_i,θ)是体现专家意识的打分器，向其输入配对的感知数据I_i和决策数据T_i，此时，虚拟医生M_V(I_i,T_i,θ)将输出一个具体的分值用以定量评估在特定感知数据I_i情形下，依据学到的专家意识对手术机器人智能体推理产生的规划结果T_i进行好坏程度的评判。

进一步地，虚拟医生M_V(I_i,T_i,θ)是一个深度神经网络，包括卷积神经网络层和全连接神经网络层，θ表示其网络参数，即权重和偏置。卷积神经网络层的输入是病人的感知数据I_i，输出是提取到的特征向量F_i；全连接神经网络层的输入是卷积神经网络层输出的特征向量F_i和专家示教数据中的决策数据T_i，输出为一个具体分值。

举例而言，虚拟医生M_V(I_i,T_i,θ)卷积神经网络层的输入层维度根据感知数据的规模确定，例如，当输入是256*256的单通道影像时，输入层维度设为65536*1，输出层维度可设为256*1；卷积神经网络层先对输入的感知数据L_i进行特征提取并得到特征向量F_i(v₁,v₂,v₃,v₄,…v_n)，n＝256，特征向量F_i和决策数据T_i合并作为全连接神经网络层的输入，全连接层的输出维度为1*1，即一个具体分值S_i。同样以种牙的数据[images,x_e,y_e,z_e]为例，决策数据(x_e,y_e,z_e)维度为3，所以全连接层的输入层维度为259(即256+3)。虚拟医生的本质为多输入单输出的回归模型，其损失函数可用均方误差MSELoss(x_i,y_i)，使用梯度下降法和初始专家示教数据对虚拟医生进行训练，当损失函数值小于设定阈值时终止训练过程。其中，MSELoss和梯度下降方法分别如下式所示：

MSELoss(x_i,y_i)＝(x_i-y_i)²； (2)

其中，x_i、y_i分别为虚拟医生的实际输出值和对应的训练数据中的分值数据S_i，α表示训练时的学习率。

具体地，本申请实施例第三步则需要构建并训练手术机器人智能体M_A(I_i,ф)，手术机器人智能体M_A(I_i,ф)是一个深度神经网络，如图6所示，包括卷积神经网络层和全连接神经网络层，其网络结构不同于虚拟医生，ф是其网络参数，包括权重和偏置。卷积神经网络层的输入是病人的感知数据I_i，输出是提取到的特征向量F_i，F_i接着作为输入向量被全连接神经网络层接收，全连接神经网络层的输出维度由完整确定手术方案所需的参数量决定。同样以上述种牙为例，M_A(I_i,ф)卷积神经网络层的输入层维度为65536*1，其输出维度和全连接网络层的输入维度均为256*1，全连接网络层的输出层为3。需要说明的是，手术机器人智能体可以和虚拟医生共享同一卷积神经网络层。

进一步地，如图7所示，使用上述训练好的虚拟医生M_V(I_i,T_i,θ)作为强化学习中的奖励函数，手术机器人智能体M_A(I_i,ф)作为待训练的智能体，观测空间对应感知数据I_i，动作空间对应决策数据T_i，使用actor-critic框架的强化学习算法，分别将手术机器人智能体M_A(I_i,ф)和虚拟医生M_V(I_i,T_i,θ)视为actor和critic来对手术机器人智能体M_A(I_i,ф)进行训练，使其掌握专家制定手术方案时的专家经验，并能将学到的专家经验用于新的感知情形即手术场景。

进一步地，本申请实施例在强化学习训练过程中，设定有训练终止条件，即当训练过程中的平均奖励水平高于设定值或训练轮次高于设定值时将停止训练并导出手术机器人智能体M_A(I_i,ф)。M_A(I_i,ф)的损失函数为I_A，通过梯度下降方法进行训练，I_A和梯度下降由下面式子定义：

I_A＝-M_v(I_i,M_A(I_i,ф),θ)； (4)

即通过对虚拟医生的输出进行取反来构建训练手术机器人智能体M_A(I_i,ф)的损失函数，同时，需注意此时将手术机器人智能体M_A(I_i,ф)的实际输出作为虚拟医生输入部分的决策数据，β是训练M_A(I_i,ф)时的学习率。

在步骤S102中，判断决策数据是否满足当前手术条件。

具体地，本申请实施例通过上述强化后的虚拟医生对手术机器人智能体进行训练，并将训练好的手术机器人智能体M_A(I_i,ф)可以根据实际输入的感知数据做出手术方案规划，并将规划结果通过人机交互模块的输出设备呈现给医生，医生进一步对手术机器人智能体的规划结果进行评判，以判断是否满足当前手术条件。

在步骤S103中，若决策数据满足当前执行手术条件，则控制手术机器人按照决策数据执行手术操作，否则基于预设调整策略调整决策数据，直至调整后的决策数据满足当前执行手术条件的最佳决策参数，并控制手术机器人按照最佳决策数据执行手术操作。

进一步地，在一些实施例中，在调整决策数据至满足当前执行手术条件的最佳决策参数之后，还包括：根据最佳决策参数更新初始专家示教数据库；基于更新后的初始专家示教数据库中目标感知数据、目标决策数据和目标分值数据，重新训练第二目标神经网络，得到新的虚拟医生模型；通过新的虚拟医生模型重新训练第一目标神经网络，得到新的手术机器人智能体，以通过新的手术机器人智能体为新的目标个体规划新的决策数据。

其中，预设调整策略可以表示为，针对当前病人的感知数据，若手术机器人智能体给出的手术方案不被医生认可，则需要医生进行调整该手术方案，直至该手术方案满足当前手术条件。

具体地，如果在当前病人的感知数据下，手术机器人智能体给出的手术方案被医生认可，即决策数据满足当前手术条件，则医生可通过人机交互模块的输入设备确认，相应手术方案将被发送至机器人控制器，机器人控制器将其转化为控制信号进一步控制协作手术机器人完成手术；否则，医生可以通过输入设备对手术方案规划结果进行手动调节，再进一步确认并发送及执行。

优选地，本申请实施例采用的输入设备可以为鼠标和键盘，输出设备可以为显示器，机器人控制器将手术方案转化为控制信号是指经过机器人运动学、逆运动学运算将手术方案转化为协作型机器人各关节的电机控制信号，使得协作机器人可以按手术方案中的参数完成操作。

进一步地，强化虚拟医生M_V(I_i,T_i,θ)及手术机器人智能体M_A(I_i,ф)：如图8所示，所有被医生调节过再执行的手术方案将被记录为

将会和对应的感知数据I_i配对，并赋值100而保存以扩充专家示教数据库，即

设定每新增到一定量的示教数据时，系统将利用新增示教数据对虚拟医生M_V(I_i,T_i,θ)进行训练，更新其网络参数θ，使其评分能力更接近于提供示教数据的医生。每次更新完虚拟医生M_V(I_i,T_i,θ)后，均继续通过更新后的新的虚拟医生对手术机器人智能体M_A(I_i,ф)进行强化训练以对其进行再次更新，从而得到得到新的手术机器人智能体，以通过新的手术机器人智能体为新的目标个体规划新的决策数据，使其手术方案的规划能力越发接近真实医生。

优选地，在本申请实施例中，首先，由初始专家示教数据库训练得到的虚拟医生M_V(I_i,T_i,θ)充当预训练权重，使得手术机器人智能体M_A(I_i,ф)可以产生较为接近真实情况的手术方案；其次，将扩充的示教数据作为实际训练样本，可以继续训练手术机器人智能体M_A(I_i,ф)并更新其网络参数ф，从而实现在实践中不断提高其手术方案的规划性能。

图9是本申请实施例的手术机器人的自主学习装置的方框示意图。

如图9所示，该手术机器人的自主学习装置10包括：获取模块100、判断模块200和控制模块300。

其中，获取模块100，用于获取目标个体的感知数据，并将感知数据输入至预先训练的手术机器人智能体，得到针对目标个体的决策数据，其中，手术机器人智能体由虚拟医生模型训练第一目标神经网络得到；

判断模块200，用于判断决策数据是否满足当前手术条件；以及

控制模块300，用于若决策数据满足当前执行手术条件，则控制手术机器人按照决策数据执行手术操作，否则基于预设调整策略调整决策数据，直至调整后的决策数据满足当前执行手术条件的最佳决策参数，并控制手术机器人按照最佳决策数据执行手术操作。

进一步地，在一些实施例中，在将感知数据输入至预先训练的手术机器人智能体之前，获取模块，还包括：

构建单元，用于构建初始专家示教数据库，并基于初始专家示教数据库中的目标感知数据、目标决策数据和目标分值数据，训练第二目标神经网络，得到虚拟医生模型；

获取单元，用于将目标感知数据输入至第一目标神经网络的卷积神经网络层进行特征提取得到第一特征向量，并基于虚拟医生模型和第一特征向量训练第一目标神经网络的全连接神经网络层，直至达到预设的停止训练条件，得到预先训练的手术机器人智能体。

进一步地，在一些实施例中，构建单元，具体用于：

将目标感知数据的输入至第二目标神经网络的卷积神经网络层进行特征提取得到第二特征向量；

基于第二特征向量、目标决策数据和目标分值数据训练第二目标神经网络的全连接神经网络层，得到虚拟医生模型。

进一步地，在一些实施例中，构建单元，具体用于：

获取目标用户的影像数据，将影像数据输入至预设的病灶检测模型得到病灶mask，并融合病灶mask和影像数据得到目标感知数据；

基于目标感知数据生成目标用户的目标决策数据；

根据目标感知数据和目标决策数据获取目标分值数据；

根据目标感知数据、目标决策数据和分值数据构建初始专家示教数据库。

进一步地，在一些实施例中，在调整决策数据至满足当前执行手术条件的最佳决策参数之后，控制模块，还用于：

根据最佳决策参数更新初始专家示教数据库；

基于更新后的初始专家示教数据库中目标感知数据、目标决策数据和目标分值数据，重新训练第二目标神经网络，得到新的虚拟医生模型；

通过新的虚拟医生模型重新训练第一目标神经网络，得到新的手术机器人智能体，以通过新的手术机器人智能体为新的目标个体规划新的决策数据。

进一步地，在一些实施例中，预设停止训练条件为训练轮次高于设定值。

图10为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。

处理器1002执行程序时实现上述实施例中提供的手术机器人的自主学习方法。

进一步地，电子设备还包括：

通信接口1003，用于存储器1001和处理器1002之间的通信。

存储器1001，用于存放可在处理器1002上运行的计算机程序。

存储器1001可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器1001、处理器1002和通信接口1003独立实现，则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1001、处理器1002及通信接口1003，集成在一块芯片上实现，则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。

处理器1002可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的手术机器人的自主学习方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种手术机器人的自主学习方法，其特征在于，包括以下步骤：

判断所述决策数据是否满足当前手术条件；以及

若所述决策数据满足所述当前执行手术条件，则控制手术机器人按照所述决策数据执行手术操作，否则基于预设调整策略调整所述决策数据，直至调整后的决策数据满足所述当前执行手术条件的最佳决策参数，并控制所述手术机器人按照所述最佳决策数据执行手术操作。

2.根据权利要求1所述的方法，其特征在于，在将所述感知数据输入至所述预先训练的手术机器人智能体之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述初始专家示教数据库中的目标感知数据、目标决策数据和目标分值数据，训练第二目标神经网络，得到虚拟医生模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述构建初始专家示教数据库，包括：

基于所述目标感知数据生成所述目标用户的目标决策数据；

5.根据权利要求1所述的方法，其特征在于，在调整所述决策数据至满足所述当前执行手术条件的最佳决策参数之后，还包括：

根据所述最佳决策参数更新所述初始专家示教数据库；

6.根据权利要求1所述的方法，其特征在于，所述预设停止训练条件为训练轮次高于设定值。

7.一种手术机器人的自主学习装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，在将所述感知数据输入至所述预先训练的手术机器人智能体之前，所述获取模块，还包括：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-6任一项所述的手术机器人的自主学习方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-6任一项所述的手术机器人的自主学习方法。