CN117379184A

CN117379184A - 基于强化学习的关节手术机器人智能压配控制方法及装置

Info

Publication number: CN117379184A
Application number: CN202311404557.7A
Authority: CN
Inventors: 张逸凌; 刘星宇
Original assignee: Longwood Valley Medtech Co Ltd
Current assignee: Longwood Valley Medtech Co Ltd
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-01-12

Abstract

本申请提供了一种基于强化学习的关节手术机器人智能压配控制方法、装置、设备及计算机可读存储介质。该基于强化学习的关节手术机器人智能压配控制方法，包括：获取初始状态信息；其中，初始状态信息包括髋臼的中心点位置、髋臼的半径、髋臼杯型号、机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置；将初始状态信息输入预设的强化学习网络模型中，输出机械臂的运动轨迹；基于机械臂的运动轨迹，控制机械臂将髋臼杯压配到髋臼中。根据本申请实施例，能够提高髋关节压配精度。

Description

基于强化学习的关节手术机器人智能压配控制方法及装置

技术领域

本申请属于髋关节压配领域，尤其涉及一种基于强化学习的关节手术机器人智能压配控制方法、装置、设备及计算机可读存储介质。

背景技术

随着骨关节手术的普及，对骨关节术前与术中的压配精度的要求越来越高。但是，由于骨关节股骨侧病变的多样性，如骨折、坏死性骨关节病、各类关节炎、骨刺等，造成骨关节的压配的误差存在较大的不确定性。

目前，对于髋关节的压配是通过有经验的医生手动操作完成压配，压配精度差。

因此，如何提高髋关节压配精度是本领域技术人员亟需解决的技术问题。

发明内容

本申请实施例提供一种基于强化学习的关节手术机器人智能压配控制方法、装置、设备及计算机可读存储介质，能够提高髋关节压配精度。

第一方面，本申请实施例提供一种基于强化学习的关节手术机器人智能压配控制方法，包括：

获取初始状态信息；其中，初始状态信息包括髋臼的中心点位置、髋臼的半径、髋臼杯型号、机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置；

将初始状态信息输入预设的强化学习网络模型中，输出机械臂的运动轨迹；

基于机械臂的运动轨迹，控制机械臂将髋臼杯压配到髋臼中。

可选的，强化学习网络模型，包括：

Q估计网络，用于以具有权重的卷积神经网络来评估动作值函数；

Q目标网络，用于计算拟合的目标值。

可选的，Q估计网络，用于以具有权重的卷积神经网络来评估动作值函数，包括：

将记忆库中的当前状态与损失函数得到的梯度作为Q估计网络的输入，Q估计网络通过训练迭代多次来调整Q估计网络的权值；

Q估计网络的输出结果包括第一结果和第二结果；其中，第一结果为评估动作价值的函数值；第二结果为机械臂的运动轨迹。

可选的，Q目标网络，用于计算拟合的目标值，包括：

将下一状态和Q估计网络权值输入Q目标网络，输出拟合的目标值。

可选的，包括：

Q估计网络和Q目标网络均为密集卷积网络，用于缓解梯度消失、促进特征传递、减小计算量和参数量。

可选的，还包括：

分别获取机械臂运动到目标位置的偏差、覆盖率与各个关节移动的平均距离；

基于机械臂运动到目标位置的偏差、覆盖率与各个关节移动的平均距离，确定奖励机制。

可选的，还包括：

将Q目标网络的最大值参数值、奖励值求和，得到Q目标网络的拟合函数值；

计算Q目标网络的拟合函数值、评估动作价值的函数值之间的欧氏距离，得到Q估计网络的损失函数。

第二方面，本申请实施例提供了一种基于强化学习的关节手术机器人智能压配控制装置，装置包括：

信息获取模块，用于获取初始状态信息；其中，初始状态信息包括髋臼的中心点位置、髋臼的半径、髋臼杯型号、机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置；

运动轨迹输出模块，用于将初始状态信息输入预设的强化学习网络模型中，输出机械臂的运动轨迹；

压配控制模块，用于基于机械臂的运动轨迹，控制机械臂将髋臼杯压配到髋臼中。

第三方面，本申请实施例提供了一种电子设备，电子设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如第一方面所示的基于强化学习的关节手术机器人智能压配控制方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如第一方面所示的基于强化学习的关节手术机器人智能压配控制方法。

本申请实施例的基于强化学习的关节手术机器人智能压配控制方法、装置、设备及计算机可读存储介质，能够提高髋关节压配精度。

该基于强化学习的关节手术机器人智能压配控制方法，包括：获取初始状态信息；其中，初始状态信息包括髋臼的中心点位置、髋臼的半径、髋臼杯型号、机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置；将初始状态信息输入预设的强化学习网络模型中，输出机械臂的运动轨迹；基于机械臂的运动轨迹，控制机械臂将髋臼杯压配到髋臼中。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的基于强化学习的关节手术机器人智能压配控制方法的流程示意图；

图2是本申请一个实施例提供的强化学习网络模型的网络结构示意图；

图3是本申请一个实施例提供的密集卷积网络结构示意图；

图4是本申请一个实施例提供的基于强化学习的关节手术机器人智能压配控制装置的结构示意图；

图5是本申请一个实施例提供的电子设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了解决现有技术问题，本申请实施例提供了一种基于强化学习的关节手术机器人智能压配控制方法、装置、设备及计算机可读存储介质。下面首先对本申请实施例所提供的基于强化学习的关节手术机器人智能压配控制方法进行介绍。

图1示出了本申请一个实施例提供的基于强化学习的关节手术机器人智能压配控制方法的流程示意图。如图1所示，该基于强化学习的关节手术机器人智能压配控制方法，包括：

S101、获取初始状态信息；其中，初始状态信息包括髋臼的中心点位置、髋臼的半径、髋臼杯型号、机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置；

S102、将初始状态信息输入预设的强化学习网络模型中，输出机械臂的运动轨迹；

S103、基于机械臂的运动轨迹，控制机械臂将髋臼杯压配到髋臼中。

在一个实施例中，强化学习网络模型，包括：

Q目标网络，用于计算拟合的目标值。

在一个实施例中，Q估计网络，用于以具有权重的卷积神经网络来评估动作值函数，包括：

在一个实施例中，Q目标网络，用于计算拟合的目标值，包括：

具体的，强化学习网络模型的网络结构示意图如图2所示，由于压配过程中最重要的部分为机械臂运动到压配部位(即髋臼窝部分)，本发明主要是基于DQN强化学习的髋关节手术机器人压配过程。

DQN网络包括Q估计网络和Q目标网络两个卷积神经网络，Q估计网络以具有权重θ的卷积神经网络来评估动作值函数Q(s_i,a_i；θ_i)。在DQN训练过程中，将记忆库中的当前状态s_i与损失函数得到的梯度作为Q估计网络的输入，Q估计网络通过训练迭代i次来调整估计网络的权值θ_i。Q估计网络的输出结果有两个，其中一个输入到评估动作价值的函数Q(s_i,a_i；θ_i)，同时另一个结果通过ε-greedy策略将预测的动作传入动作空间(即每个关节的动作向量)，通过动作空间后机械臂进行运动，进而发生环境变化，并将数据(s_i,a_i,r_i,s_i+1)传入到记忆库中。

Q目标网络的输入主要是s_i+1与Q估计网络权值θ_i，输出为拟合的目标值，目标值为动作空间中下一动作的最大值参数由/>奖励值r_i与预估动作价值值Q(s_i,a_i；θ_i)进行损失函数的计算。

使用基于DQN算法对髋关节手术机器人压配过程进行强化学习，形成对压配过程的自主学习。

在一个实施例中，包括：

密集卷积网络的密集连接的方式对Q网络进行优化，保障了特征提取的准确性。

具体的，密集卷积网络结构示意图如图3所示，为了保障Q估计网络与Q目标网络权重参数的直接赋值，Q估计网络与Q目标网络都是密集卷积网络。我们采用4个模块进行组合组成完整的网络结构，在最后的输出层中使用Transition Layers模块，此模块使用一个1*1卷积和一个平均池化层。

一个更激进的密集连接机制被设计用来充分利用特征。简单来说就是每一层的特征都被保存下来，在后面的每次卷积操作中用到。因此，每一层的网络结构都用到了前面的所有信息(包括卷积操作前和卷积操作后的信息)。

在网络结构中，是合并操作。即:在channel维度上连接在一起(这里各个层的特征图大小是相同的)。

该网络主要有Dense Block和Transition Layer两个部分组成。

DenseNet共在三个图像分类数据集(CIFAR，SVHN和lmageNet)上进行测试。对于前两个数据集，其输入图片大小为32×32，所使用的DenseNet在进入第一个DenseBlock之前，首先进行进行一次3x3卷积(stride＝1)，卷积核数为16(对于DenseNet-BC为2k)。

DenseNet共包含三个DenseBlock，各个模块的特征图大小分别为32×32,16×16和8×8，每个DenseBlock里面的层数相同。最后的DenseBlock之后是一个globalAvgPooling层，然后送入一个softmax分类器。注意，在DenseNet中，所有的3x3卷积均采用padding＝1的方式以保证特征图大小维持不变。对于基本的DenseNet，使用如下三种网络配置：{L＝40，k＝12}{L＝100，k＝12}，{L＝40，k＝24}。而对于DenseNet-BC结构，使用如下三种网络配置：{L＝100，k＝12}，{L＝250，k＝24}，{L＝190，k＝40}。这里的L指的是网络总层数(网络深度)一般情况下，我们只把带有训练参数的层算入其中，而像Pooling这样的无参数层不纳入统计中，此外BN层尽管包含参数但是也不单独统计，而是可以计入它所附属的卷积层。对于普通的L＝40，k＝12网络，除去第一个卷积层、2个Transition中卷积层以及最后的Linear层，共剩余36层，均分到三个DenseBlock可知每个DenseBlock包含12层。其它的网络配置同样可以算出各个DenseBlock所含层数。

对于Transition层，它主要是连接两个相邻的DenseBlock，并且降低特征图大小。Transition层包括一个1x1的卷积和2x2的AvgPooling，结构为BN+ReLU+1x1Conv+2x2AvgPooling。另外，Transition层可以起到压缩模型的作用。假定Transition的上接DenseBlock得到的特征图channels数为m，Transition层可以产生θm个特征(通过卷积层)，其中θ∈(0,1]是压缩系数(compression rate)。当θ＝1时，特征个数经过Transition层没有变化，即无压缩，而当压缩系数小于1时，这种结构称为DenseNet-C，文中使用θ＝0.5。对于使用bottleneck层的DenseBlock结构和压缩系数小于1的Transition组合结构称为DenseNet-BC。Transition层，它主要是一个卷积层和一个池化层。

在一个实施例中，还包括：

具体的，奖励(Reward)机制：

本发明奖励机制的设立，奖励机制的制定依靠机械臂运动到目标位置的偏差d、覆盖率co与各个关节移动的平均距离d_j。

具体当前状态的奖励值t_i计算如下：

t_i＝α×d_target+β×co+γ×d_j

其中，α、β、γ分别为偏差、覆盖率与各个关节移动的平均距离的影响因子系数，且三者的关系为：

α+β+γ＝1

各个关节(除末端外共6个关节)移动的平均距离就算如下:

其中，d_m为第m个关节与对应的目标位置的偏差。

奖励机制的具体计算如下所示：

当下一状态的指标大于当前指标值时模型会得到+1.5奖励，“停止”得到负惩罚-0.5，以阻止暂停，当下一状态的指标小于当前指标值时模型会得到-1.0奖励。

对奖励机制部分进行了独特的设置，不仅仅考虑了机械臂运动，还考虑了各个关节移动的平均距离的影响，同时考虑到了医学骨科手术常用的覆盖率，形成了独有的奖励机制。

在一个实施例中，还包括：

具体的，损失函数：

从图2可以看出，整个Q估计网络的权重更新依赖于Q目标网络的最大值参数和奖励值r，我们将这两部分的和称之为Q目标网络的拟合函数值y，具体计算如下所示：

Q估计网络的损失函数是通过Q目标网络的拟合函数值y与Q估计网络输出结果的欧氏距离得到的，具体计算如下：

L(θ_i)＝sqrt((y-Q(s_i,a_i；θ_i))²)

之所以采用欧氏距离计算网络的损失，主要是因为状态值基本为机械臂与骨关节的空间位置，欧氏距离更能体现空间位置变化的基本情况。

图4是本申请一个实施例提供的基于强化学习的关节手术机器人智能压配控制装置的结构示意图，该基于强化学习的关节手术机器人智能压配控制装置，装置包括：

信息获取模块401，用于获取初始状态信息；其中，初始状态信息包括髋臼的中心点位置、髋臼的半径、髋臼杯型号、机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置；

运动轨迹输出模块402，用于将初始状态信息输入预设的强化学习网络模型中，输出机械臂的运动轨迹；

压配控制模块403，用于基于机械臂的运动轨迹，控制机械臂将髋臼杯压配到髋臼中。

图5示出了本申请实施例提供的电子设备的结构示意图。

电子设备可以包括处理器501以及存储有计算机程序指令的存储器502。

具体地，上述处理器501可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器502可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器502可在电子设备的内部或外部。在特定实施例中，存储器502可以是非易失性固态存储器。

在一个实施例中，存储器502可以是只读存储器(Read Only Memory，ROM)。在一个实施例中，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器501通过读取并执行存储器502中存储的计算机程序指令，以实现上述实施例中的任意一种基于强化学习的关节手术机器人智能压配控制方法。

在一个示例中，电子设备还可包括通信接口503和总线510。其中，如图5所示，处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。

通信接口503，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线510包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线510可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的基于强化学习的关节手术机器人智能压配控制方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于强化学习的关节手术机器人智能压配控制方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能模块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种基于强化学习的关节手术机器人智能压配控制方法，其特征在于，包括：

2.根据权利要求1所述的基于强化学习的关节手术机器人智能压配控制方法，其特征在于，强化学习网络模型，包括：

Q目标网络，用于计算拟合的目标值。

3.根据权利要求2所述的基于强化学习的关节手术机器人智能压配控制方法，其特征在于，Q估计网络，用于以具有权重的卷积神经网络来评估动作值函数，包括：

4.根据权利要求3所述的基于强化学习的关节手术机器人智能压配控制方法，其特征在于，Q目标网络，用于计算拟合的目标值，包括：

5.根据权利要求4所述的基于强化学习的关节手术机器人智能压配控制方法，其特征在于，包括：

6.根据权利要求5所述的基于强化学习的关节手术机器人智能压配控制方法，其特征在于，还包括：

7.根据权利要求6所述的基于强化学习的关节手术机器人智能压配控制方法，其特征在于，还包括：

8.一种基于强化学习的关节手术机器人智能压配控制装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，电子设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的基于强化学习的关节手术机器人智能压配控制方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的基于强化学习的关节手术机器人智能压配控制方法。