CN117379184A - 基于强化学习的关节手术机器人智能压配控制方法及装置 - Google Patents

基于强化学习的关节手术机器人智能压配控制方法及装置 Download PDF

Info

Publication number
CN117379184A
CN117379184A CN202311404557.7A CN202311404557A CN117379184A CN 117379184 A CN117379184 A CN 117379184A CN 202311404557 A CN202311404557 A CN 202311404557A CN 117379184 A CN117379184 A CN 117379184A
Authority
CN
China
Prior art keywords
joint
mechanical arm
network
reinforcement learning
press
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311404557.7A
Other languages
English (en)
Inventor
张逸凌
刘星宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Longwood Valley Medtech Co Ltd
Original Assignee
Longwood Valley Medtech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Longwood Valley Medtech Co Ltd filed Critical Longwood Valley Medtech Co Ltd
Priority to CN202311404557.7A priority Critical patent/CN117379184A/zh
Publication of CN117379184A publication Critical patent/CN117379184A/zh
Pending legal-status Critical Current

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B34/00Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
    • A61B34/30Surgical robots
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B34/00Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
    • A61B34/10Computer-aided planning, simulation or modelling of surgical operations
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B34/00Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
    • A61B34/70Manipulators specially adapted for use in surgery
    • A61B34/77Manipulators with motion or force scaling
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B34/00Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
    • A61B34/10Computer-aided planning, simulation or modelling of surgical operations
    • A61B2034/101Computer-aided simulation of surgical operations
    • A61B2034/102Modelling of surgical devices, implants or prosthesis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Health & Medical Sciences (AREA)
  • Surgery (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Robotics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Manipulator (AREA)

Abstract

本申请提供了一种基于强化学习的关节手术机器人智能压配控制方法、装置、设备及计算机可读存储介质。该基于强化学习的关节手术机器人智能压配控制方法,包括:获取初始状态信息;其中,初始状态信息包括髋臼的中心点位置、髋臼的半径、髋臼杯型号、机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置;将初始状态信息输入预设的强化学习网络模型中,输出机械臂的运动轨迹;基于机械臂的运动轨迹,控制机械臂将髋臼杯压配到髋臼中。根据本申请实施例,能够提高髋关节压配精度。

Description

基于强化学习的关节手术机器人智能压配控制方法及装置
技术领域
本申请属于髋关节压配领域,尤其涉及一种基于强化学习的关节手术机器人智能压配控制方法、装置、设备及计算机可读存储介质。
背景技术
随着骨关节手术的普及,对骨关节术前与术中的压配精度的要求越来越高。但是,由于骨关节股骨侧病变的多样性,如骨折、坏死性骨关节病、各类关节炎、骨刺等,造成骨关节的压配的误差存在较大的不确定性。
目前,对于髋关节的压配是通过有经验的医生手动操作完成压配,压配精度差。
因此,如何提高髋关节压配精度是本领域技术人员亟需解决的技术问题。
发明内容
本申请实施例提供一种基于强化学习的关节手术机器人智能压配控制方法、装置、设备及计算机可读存储介质,能够提高髋关节压配精度。
第一方面,本申请实施例提供一种基于强化学习的关节手术机器人智能压配控制方法,包括:
获取初始状态信息;其中,初始状态信息包括髋臼的中心点位置、髋臼的半径、髋臼杯型号、机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置;
将初始状态信息输入预设的强化学习网络模型中,输出机械臂的运动轨迹;
基于机械臂的运动轨迹,控制机械臂将髋臼杯压配到髋臼中。
可选的,强化学习网络模型,包括:
Q估计网络,用于以具有权重的卷积神经网络来评估动作值函数;
Q目标网络,用于计算拟合的目标值。
可选的,Q估计网络,用于以具有权重的卷积神经网络来评估动作值函数,包括:
将记忆库中的当前状态与损失函数得到的梯度作为Q估计网络的输入,Q估计网络通过训练迭代多次来调整Q估计网络的权值;
Q估计网络的输出结果包括第一结果和第二结果;其中,第一结果为评估动作价值的函数值;第二结果为机械臂的运动轨迹。
可选的,Q目标网络,用于计算拟合的目标值,包括:
将下一状态和Q估计网络权值输入Q目标网络,输出拟合的目标值。
可选的,包括:
Q估计网络和Q目标网络均为密集卷积网络,用于缓解梯度消失、促进特征传递、减小计算量和参数量。
可选的,还包括:
分别获取机械臂运动到目标位置的偏差、覆盖率与各个关节移动的平均距离;
基于机械臂运动到目标位置的偏差、覆盖率与各个关节移动的平均距离,确定奖励机制。
可选的,还包括:
将Q目标网络的最大值参数值、奖励值求和,得到Q目标网络的拟合函数值;
计算Q目标网络的拟合函数值、评估动作价值的函数值之间的欧氏距离,得到Q估计网络的损失函数。
第二方面,本申请实施例提供了一种基于强化学习的关节手术机器人智能压配控制装置,装置包括:
信息获取模块,用于获取初始状态信息;其中,初始状态信息包括髋臼的中心点位置、髋臼的半径、髋臼杯型号、机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置;
运动轨迹输出模块,用于将初始状态信息输入预设的强化学习网络模型中,输出机械臂的运动轨迹;
压配控制模块,用于基于机械臂的运动轨迹,控制机械臂将髋臼杯压配到髋臼中。
第三方面,本申请实施例提供了一种电子设备,电子设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如第一方面所示的基于强化学习的关节手术机器人智能压配控制方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如第一方面所示的基于强化学习的关节手术机器人智能压配控制方法。
本申请实施例的基于强化学习的关节手术机器人智能压配控制方法、装置、设备及计算机可读存储介质,能够提高髋关节压配精度。
该基于强化学习的关节手术机器人智能压配控制方法,包括:获取初始状态信息;其中,初始状态信息包括髋臼的中心点位置、髋臼的半径、髋臼杯型号、机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置;将初始状态信息输入预设的强化学习网络模型中,输出机械臂的运动轨迹;基于机械臂的运动轨迹,控制机械臂将髋臼杯压配到髋臼中。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的基于强化学习的关节手术机器人智能压配控制方法的流程示意图;
图2是本申请一个实施例提供的强化学习网络模型的网络结构示意图;
图3是本申请一个实施例提供的密集卷积网络结构示意图;
图4是本申请一个实施例提供的基于强化学习的关节手术机器人智能压配控制装置的结构示意图;
图5是本申请一个实施例提供的电子设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
目前,对于髋关节的压配是通过有经验的医生手动操作完成压配,压配精度差。
为了解决现有技术问题,本申请实施例提供了一种基于强化学习的关节手术机器人智能压配控制方法、装置、设备及计算机可读存储介质。下面首先对本申请实施例所提供的基于强化学习的关节手术机器人智能压配控制方法进行介绍。
图1示出了本申请一个实施例提供的基于强化学习的关节手术机器人智能压配控制方法的流程示意图。如图1所示,该基于强化学习的关节手术机器人智能压配控制方法,包括:
S101、获取初始状态信息;其中,初始状态信息包括髋臼的中心点位置、髋臼的半径、髋臼杯型号、机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置;
S102、将初始状态信息输入预设的强化学习网络模型中,输出机械臂的运动轨迹;
S103、基于机械臂的运动轨迹,控制机械臂将髋臼杯压配到髋臼中。
在一个实施例中,强化学习网络模型,包括:
Q估计网络,用于以具有权重的卷积神经网络来评估动作值函数;
Q目标网络,用于计算拟合的目标值。
在一个实施例中,Q估计网络,用于以具有权重的卷积神经网络来评估动作值函数,包括:
将记忆库中的当前状态与损失函数得到的梯度作为Q估计网络的输入,Q估计网络通过训练迭代多次来调整Q估计网络的权值;
Q估计网络的输出结果包括第一结果和第二结果;其中,第一结果为评估动作价值的函数值;第二结果为机械臂的运动轨迹。
在一个实施例中,Q目标网络,用于计算拟合的目标值,包括:
将下一状态和Q估计网络权值输入Q目标网络,输出拟合的目标值。
具体的,强化学习网络模型的网络结构示意图如图2所示,由于压配过程中最重要的部分为机械臂运动到压配部位(即髋臼窝部分),本发明主要是基于DQN强化学习的髋关节手术机器人压配过程。
DQN网络包括Q估计网络和Q目标网络两个卷积神经网络,Q估计网络以具有权重θ的卷积神经网络来评估动作值函数Q(si,ai;θi)。在DQN训练过程中,将记忆库中的当前状态si与损失函数得到的梯度作为Q估计网络的输入,Q估计网络通过训练迭代i次来调整估计网络的权值θi。Q估计网络的输出结果有两个,其中一个输入到评估动作价值的函数Q(si,ai;θi),同时另一个结果通过ε-greedy策略将预测的动作传入动作空间(即每个关节的动作向量),通过动作空间后机械臂进行运动,进而发生环境变化,并将数据(si,ai,ri,si+1)传入到记忆库中。
Q目标网络的输入主要是si+1与Q估计网络权值θi,输出为拟合的目标值,目标值为动作空间中下一动作的最大值参数由/>奖励值ri与预估动作价值值Q(si,ai;θi)进行损失函数的计算。
使用基于DQN算法对髋关节手术机器人压配过程进行强化学习,形成对压配过程的自主学习。
在一个实施例中,包括:
Q估计网络和Q目标网络均为密集卷积网络,用于缓解梯度消失、促进特征传递、减小计算量和参数量。
密集卷积网络的密集连接的方式对Q网络进行优化,保障了特征提取的准确性。
具体的,密集卷积网络结构示意图如图3所示,为了保障Q估计网络与Q目标网络权重参数的直接赋值,Q估计网络与Q目标网络都是密集卷积网络。我们采用4个模块进行组合组成完整的网络结构,在最后的输出层中使用Transition Layers模块,此模块使用一个1*1卷积和一个平均池化层。
一个更激进的密集连接机制被设计用来充分利用特征。简单来说就是每一层的特征都被保存下来,在后面的每次卷积操作中用到。因此,每一层的网络结构都用到了前面的所有信息(包括卷积操作前和卷积操作后的信息)。
在网络结构中,是合并操作。即:在channel维度上连接在一起(这里各个层的特征图大小是相同的)。
该网络主要有Dense Block和Transition Layer两个部分组成。
DenseNet共在三个图像分类数据集(CIFAR,SVHN和lmageNet)上进行测试。对于前两个数据集,其输入图片大小为32×32,所使用的DenseNet在进入第一个DenseBlock之前,首先进行进行一次3x3卷积(stride=1),卷积核数为16(对于DenseNet-BC为2k)。
DenseNet共包含三个DenseBlock,各个模块的特征图大小分别为32×32,16×16和8×8,每个DenseBlock里面的层数相同。最后的DenseBlock之后是一个globalAvgPooling层,然后送入一个softmax分类器。注意,在DenseNet中,所有的3x3卷积均采用padding=1的方式以保证特征图大小维持不变。对于基本的DenseNet,使用如下三种网络配置:{L=40,k=12}{L=100,k=12},{L=40,k=24}。而对于DenseNet-BC结构,使用如下三种网络配置:{L=100,k=12},{L=250,k=24},{L=190,k=40}。这里的L指的是网络总层数(网络深度)一般情况下,我们只把带有训练参数的层算入其中,而像Pooling这样的无参数层不纳入统计中,此外BN层尽管包含参数但是也不单独统计,而是可以计入它所附属的卷积层。对于普通的L=40,k=12网络,除去第一个卷积层、2个Transition中卷积层以及最后的Linear层,共剩余36层,均分到三个DenseBlock可知每个DenseBlock包含12层。其它的网络配置同样可以算出各个DenseBlock所含层数。
对于Transition层,它主要是连接两个相邻的DenseBlock,并且降低特征图大小。Transition层包括一个1x1的卷积和2x2的AvgPooling,结构为BN+ReLU+1x1Conv+2x2AvgPooling。另外,Transition层可以起到压缩模型的作用。假定Transition的上接DenseBlock得到的特征图channels数为m,Transition层可以产生θm个特征(通过卷积层),其中θ∈(0,1]是压缩系数(compression rate)。当θ=1时,特征个数经过Transition层没有变化,即无压缩,而当压缩系数小于1时,这种结构称为DenseNet-C,文中使用θ=0.5。对于使用bottleneck层的DenseBlock结构和压缩系数小于1的Transition组合结构称为DenseNet-BC。Transition层,它主要是一个卷积层和一个池化层。
在一个实施例中,还包括:
分别获取机械臂运动到目标位置的偏差、覆盖率与各个关节移动的平均距离;
基于机械臂运动到目标位置的偏差、覆盖率与各个关节移动的平均距离,确定奖励机制。
具体的,奖励(Reward)机制:
本发明奖励机制的设立,奖励机制的制定依靠机械臂运动到目标位置的偏差d、覆盖率co与各个关节移动的平均距离dj
具体当前状态的奖励值ti计算如下:
ti=α×dtarget+β×co+γ×dj
其中,α、β、γ分别为偏差、覆盖率与各个关节移动的平均距离的影响因子系数,且三者的关系为:
α+β+γ=1
各个关节(除末端外共6个关节)移动的平均距离就算如下:
其中,dm为第m个关节与对应的目标位置的偏差。
奖励机制的具体计算如下所示:
当下一状态的指标大于当前指标值时模型会得到+1.5奖励,“停止”得到负惩罚-0.5,以阻止暂停,当下一状态的指标小于当前指标值时模型会得到-1.0奖励。
对奖励机制部分进行了独特的设置,不仅仅考虑了机械臂运动,还考虑了各个关节移动的平均距离的影响,同时考虑到了医学骨科手术常用的覆盖率,形成了独有的奖励机制。
在一个实施例中,还包括:
将Q目标网络的最大值参数值、奖励值求和,得到Q目标网络的拟合函数值;
计算Q目标网络的拟合函数值、评估动作价值的函数值之间的欧氏距离,得到Q估计网络的损失函数。
具体的,损失函数:
从图2可以看出,整个Q估计网络的权重更新依赖于Q目标网络的最大值参数和奖励值r,我们将这两部分的和称之为Q目标网络的拟合函数值y,具体计算如下所示:
Q估计网络的损失函数是通过Q目标网络的拟合函数值y与Q估计网络输出结果的欧氏距离得到的,具体计算如下:
L(θi)=sqrt((y-Q(si,ai;θi))2)
之所以采用欧氏距离计算网络的损失,主要是因为状态值基本为机械臂与骨关节的空间位置,欧氏距离更能体现空间位置变化的基本情况。
图4是本申请一个实施例提供的基于强化学习的关节手术机器人智能压配控制装置的结构示意图,该基于强化学习的关节手术机器人智能压配控制装置,装置包括:
信息获取模块401,用于获取初始状态信息;其中,初始状态信息包括髋臼的中心点位置、髋臼的半径、髋臼杯型号、机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置;
运动轨迹输出模块402,用于将初始状态信息输入预设的强化学习网络模型中,输出机械臂的运动轨迹;
压配控制模块403,用于基于机械臂的运动轨迹,控制机械臂将髋臼杯压配到髋臼中。
图5示出了本申请实施例提供的电子设备的结构示意图。
电子设备可以包括处理器501以及存储有计算机程序指令的存储器502。
具体地,上述处理器501可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器502可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器502可在电子设备的内部或外部。在特定实施例中,存储器502可以是非易失性固态存储器。
在一个实施例中,存储器502可以是只读存储器(Read Only Memory,ROM)。在一个实施例中,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器501通过读取并执行存储器502中存储的计算机程序指令,以实现上述实施例中的任意一种基于强化学习的关节手术机器人智能压配控制方法。
在一个示例中,电子设备还可包括通信接口503和总线510。其中,如图5所示,处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。
通信接口503,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线510包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线510可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的基于强化学习的关节手术机器人智能压配控制方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于强化学习的关节手术机器人智能压配控制方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能模块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种基于强化学习的关节手术机器人智能压配控制方法,其特征在于,包括:
获取初始状态信息;其中,初始状态信息包括髋臼的中心点位置、髋臼的半径、髋臼杯型号、机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置;
将初始状态信息输入预设的强化学习网络模型中,输出机械臂的运动轨迹;
基于机械臂的运动轨迹,控制机械臂将髋臼杯压配到髋臼中。
2.根据权利要求1所述的基于强化学习的关节手术机器人智能压配控制方法,其特征在于,强化学习网络模型,包括:
Q估计网络,用于以具有权重的卷积神经网络来评估动作值函数;
Q目标网络,用于计算拟合的目标值。
3.根据权利要求2所述的基于强化学习的关节手术机器人智能压配控制方法,其特征在于,Q估计网络,用于以具有权重的卷积神经网络来评估动作值函数,包括:
将记忆库中的当前状态与损失函数得到的梯度作为Q估计网络的输入,Q估计网络通过训练迭代多次来调整Q估计网络的权值;
Q估计网络的输出结果包括第一结果和第二结果;其中,第一结果为评估动作价值的函数值;第二结果为机械臂的运动轨迹。
4.根据权利要求3所述的基于强化学习的关节手术机器人智能压配控制方法,其特征在于,Q目标网络,用于计算拟合的目标值,包括:
将下一状态和Q估计网络权值输入Q目标网络,输出拟合的目标值。
5.根据权利要求4所述的基于强化学习的关节手术机器人智能压配控制方法,其特征在于,包括:
Q估计网络和Q目标网络均为密集卷积网络,用于缓解梯度消失、促进特征传递、减小计算量和参数量。
6.根据权利要求5所述的基于强化学习的关节手术机器人智能压配控制方法,其特征在于,还包括:
分别获取机械臂运动到目标位置的偏差、覆盖率与各个关节移动的平均距离;
基于机械臂运动到目标位置的偏差、覆盖率与各个关节移动的平均距离,确定奖励机制。
7.根据权利要求6所述的基于强化学习的关节手术机器人智能压配控制方法,其特征在于,还包括:
将Q目标网络的最大值参数值、奖励值求和,得到Q目标网络的拟合函数值;
计算Q目标网络的拟合函数值、评估动作价值的函数值之间的欧氏距离,得到Q估计网络的损失函数。
8.一种基于强化学习的关节手术机器人智能压配控制装置,其特征在于,所述装置包括:
信息获取模块,用于获取初始状态信息;其中,初始状态信息包括髋臼的中心点位置、髋臼的半径、髋臼杯型号、机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置;
运动轨迹输出模块,用于将初始状态信息输入预设的强化学习网络模型中,输出机械臂的运动轨迹;
压配控制模块,用于基于机械臂的运动轨迹,控制机械臂将髋臼杯压配到髋臼中。
9.一种电子设备,其特征在于,电子设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的基于强化学习的关节手术机器人智能压配控制方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的基于强化学习的关节手术机器人智能压配控制方法。
CN202311404557.7A 2023-10-26 2023-10-26 基于强化学习的关节手术机器人智能压配控制方法及装置 Pending CN117379184A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311404557.7A CN117379184A (zh) 2023-10-26 2023-10-26 基于强化学习的关节手术机器人智能压配控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311404557.7A CN117379184A (zh) 2023-10-26 2023-10-26 基于强化学习的关节手术机器人智能压配控制方法及装置

Publications (1)

Publication Number Publication Date
CN117379184A true CN117379184A (zh) 2024-01-12

Family

ID=89438800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311404557.7A Pending CN117379184A (zh) 2023-10-26 2023-10-26 基于强化学习的关节手术机器人智能压配控制方法及装置

Country Status (1)

Country Link
CN (1) CN117379184A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111844034A (zh) * 2020-07-17 2020-10-30 北京控制工程研究所 基于深度强化学习的端到端在轨自主加注控制系统及方法
CN112641510A (zh) * 2020-12-18 2021-04-13 北京长木谷医疗科技有限公司 关节置换手术机器人导航定位系统及方法
CN113400307A (zh) * 2021-06-16 2021-09-17 清华大学 一种空间机器人机械臂的控制方法
CN113749769A (zh) * 2020-06-03 2021-12-07 格罗伯斯医疗有限公司 外科手术引导系统
CN116942310A (zh) * 2023-06-29 2023-10-27 北京长木谷医疗科技股份有限公司 基于强化学习的智能骨科手术机器人系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113749769A (zh) * 2020-06-03 2021-12-07 格罗伯斯医疗有限公司 外科手术引导系统
CN111844034A (zh) * 2020-07-17 2020-10-30 北京控制工程研究所 基于深度强化学习的端到端在轨自主加注控制系统及方法
CN112641510A (zh) * 2020-12-18 2021-04-13 北京长木谷医疗科技有限公司 关节置换手术机器人导航定位系统及方法
CN113400307A (zh) * 2021-06-16 2021-09-17 清华大学 一种空间机器人机械臂的控制方法
CN116942310A (zh) * 2023-06-29 2023-10-27 北京长木谷医疗科技股份有限公司 基于强化学习的智能骨科手术机器人系统

Similar Documents

Publication Publication Date Title
CN110059605A (zh) 一种神经网络训练方法、计算设备及存储介质
CN116747026B (zh) 基于深度强化学习的机器人智能截骨方法、装置及设备
CN116747016A (zh) 智能手术机器人导航定位系统及方法
CN110463376B (zh) 一种插机方法及插机设备
CN101533528A (zh) 基于模块分段线性模型的光学运动捕捉数据处理方法
CN109512509B (zh) 一种机器人的柔顺控制方法、装置及设备
CN117379184A (zh) 基于强化学习的关节手术机器人智能压配控制方法及装置
CN116300909A (zh) 一种基于信息预处理和强化学习的机器人避障导航方法
CN104866821B (zh) 基于机器学习的视频物体跟踪方法
CN116597002B (zh) 基于深度强化学习的股骨柄自动放置方法、装置及设备
CN116650110B (zh) 基于深度强化学习的膝关节假体自动放置方法及装置
CN116898574B (zh) 人工智能膝关节韧带重建术的术前规划方法、系统及设备
CN116942310B (zh) 基于强化学习的智能骨科手术机器人系统
CN117350992A (zh) 基于自导向注意机制多任务分割网络金属植入物识别方法
CN116309636A (zh) 基于多任务神经网络模型的膝关节分割方法、装置及设备
CN116889471B (zh) 导航手术机械臂最佳关节角度选解方法、装置及设备
CN116392260A (zh) 血管介入手术的控制装置及方法
CN117159144B (zh) 膝关节韧带重建手术机器人导航定位系统及方法
Luo et al. Monocular endoscope 6-DoF tracking with constrained evolutionary stochastic filtering
CN110633599B (zh) 处理人体图像的方法、装置、设备和计算机存储介质
CN113628254A (zh) 基于移动平台的目标轨迹确定方法及相关设备
CN113724304A (zh) 一种基于深度学习的食管区域图像自动配准方法及系统
CN117679160B (zh) 创伤骨折复位方法、装置、设备及可读存储介质
CN117860382B (zh) 基于lstm的导航手术机械臂视觉伺服位姿预测pd控制方法
CN117204910B (zh) 基于深度学习的膝关节位置实时追踪的自动截骨方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination