CN116942313A

CN116942313A - 基于强化学习的手术机器人配准方法、装置及电子设备

Info

Publication number: CN116942313A
Application number: CN202310656212.4A
Authority: CN
Inventors: 张逸凌; 刘星宇
Original assignee: Longwood Valley Medtech Co Ltd
Current assignee: Longwood Valley Medtech Co Ltd
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-10-27
Anticipated expiration: 2043-06-05
Also published as: CN116942313B

Abstract

本发明提供一种基于强化学习的手术机器人配准方法、装置及电子设备，方法包括：基于术前配准点云与第一术中配准点云，得到第一特征图；基于第一特征图、旋转策略与平移策略，得到旋转偏差值与平移偏差值；基于旋转偏差值与平移偏差值，计算当前期望值；基于术前配准点云与第一术中配准点云对应的第一配准矩阵、旋转偏差值与平移偏差值，确定第二配准矩阵，并基于第二配准矩阵与第一术中配准点云，得到第二术中配准点云；基于第二术中配准点云与术前配准点云，确定当前奖励值；在当前期望值基于当前奖励值的反馈达到最大值时，确定对应的配准矩阵为目标配准矩阵。该方法提高了目标配准矩阵的准确性，进而提高术前配准点与术中配准点之间的配准度。

Description

基于强化学习的手术机器人配准方法、装置及电子设备

技术领域

本发明涉及医疗领域，尤其涉及一种基于强化学习的手术机器人配准方法、装置及电子设备。

背景技术

由于应用机器人进行骨关节手术的普及，对骨关节术前与术中的配准精度的要求越来越高。但是，由于骨关节股骨侧病变的多样性，如骨折、坏死性骨关节病、各类关节炎、骨刺等，造成骨关节的配准的误差存在较大的不确定性。同时，因为骨关节配准过程中配准点的个数较少，因此配准难度较常用的点云配准更高。

因此，需要提出一种新的配准方法，以解决上述问题。

发明内容

本发明提供一种基于强化学习的手术机器人配准方法、装置及电子设备，用以解决上述问题。

本发明的第一方面，提供了一种基于强化学习的手术机器人配准方法，包括：

基于术前配准点云与第一术中配准点云，得到第一特征图；

基于所述第一特征图、旋转策略与平移策略，得到旋转偏差值与平移偏差值；

基于所述旋转偏差值与所述平移偏差值，计算当前期望值；

基于所述术前配准点云与所述第一术中配准点云对应的第一配准矩阵、所述旋转偏差值与所述平移偏差值，确定第二配准矩阵，并基于所述第二配准矩阵与所述第一术中配准点云，得到第二术中配准点云；

基于所述第二术中配准点云与所述术前配准点云，确定当前奖励值；

在当前期望值基于当前奖励值的反馈达到最大值时，确定对应的配准矩阵为目标配准矩阵，所述目标配准矩阵用于对术前配准点云与术中配准点云进行配准。

可选的，所述基于术前配准点云与第一术中配准点云，得到第一特征图，包括：

获取术前配准点云与第一术中配准点云；

对所述术前配准点云与所述第一术中配准点云分别进行编码操作，并对编码后的术前配准点云与编码后的第一术中配准点云分别进行特征提取，得到对应的第二特征图和第三特征图；

对所述第二特征图和所述第三特征图进行特征融合操作，得到第四特征图；

基于所述第二特征图、所述第三特征图和所述第四特征图，得到所述第一特征图。

可选的，所述基于所述第二特征图、所述第三特征图和所述第四特征图，得到所述第一特征图，包括：

对所述第四特征图进行LN操作与GELU操作，得到第五特征图；

将所述第二特征图与所述第五特征图进行相加操作，得到第六特征图；

将所述第三特征图与所述第五特征图进行相加操作，得到第七特征图；

对所述第六特征图与所述第七特征图分别进行下采样操作，得到第八特征图和第九特征图；

将所述第八特征图和所述第九特征图进行相加操作，得到所述第一特征图。

可选的，所述基于所述术前配准点云与所述第一术中配准点云对应的第一配准矩阵、所述旋转偏差值与所述平移偏差值，确定第二配准矩阵，包括：

将所述第一配准矩阵、所述旋转偏差值与所述平移偏差值进行点乘操作，得到第二配准矩阵。

可选的，所述基于所述第二术中配准点云与所述术前配准点，确定当前奖励值，包括：

计算第二术中配准点云与所述术前配准点云对应配准点之间的陆地移动距离EMD；

在所述EMD减小时，则确定所述当前奖励值为正向奖励；在所述EMD增大时，则确定所述当前奖励值为第一负向奖励；在所述EMD未发生变化时，则确定所述当前奖励值为第二负向奖励，所述第二负向奖励小于所述第一负向奖励。

可选的，所述陆地移动距离EMD的计算方式如下：

其中，S₁表示术前配准点云，S₂表示第一术中配准点云，G_K+1表示第二配准矩阵。

可选的，所述基于所述旋转偏差值与所述平移偏差值，计算当前期望值，包括：

将所述旋转偏差值与所述平移偏差值进行相加操作，得到当前期望值。

本发明的第二方面，提供了一种基于强化学习的手术机器人配准装置，包括：

获取模块，用于基于术前配准点云与第一术中配准点云，得到第一特征图；

计算模块，用于基于所述第一特征图、旋转策略与平移策略，得到旋转偏差值与平移偏差值；

计算模块，还用于基于所述旋转偏差值与所述平移偏差值，计算当前期望值；

确定模块，用于基于所述术前配准点云与所述第一术中配准点云对应的第一配准矩阵、所述旋转偏差值与所述平移偏差值，确定第二配准矩阵，并基于所述第二配准矩阵与所述第一术中配准点云，得到第二术中配准点云；

确定模块，还用于基于所述第二术中配准点云与所述术前配准点云，确定当前奖励值；

处理模块，用于在当前期望值基于当前奖励值的反馈达到最大值时，确定对应的配准矩阵为目标配准矩阵，所述目标配准矩阵用于对术前配准点云与术中配准点云进行配准。

本发明的第三方面，提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的基于强化学习的手术机器人配准方法。

本发明的第四方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于强化学习的手术机器人配准方法。

本发明的上述技术方案至少具有如下有益效果：

本发明提供的基于强化学习的手术机器人配准方法，通过确定出的当前奖励值对当前期望值的反馈调整，可以使当前期望值不断进行优化，不断提高当前期望值的准确性。在当前期望值基于当前奖励值的调整，所达到的数值达到最大值时，说明当前期望值达到最优。此时确定出当前期望值对应的配准矩阵作为目标配准矩阵，能够提高目标配准矩阵的准确性，进而提高术前配准点与术中配准点之间的配准度，减小配准误差，降低了配准点较少所带来的困难，进而有效降低术中风险。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于强化学习的手术机器人配准方法的流程示意图；

图2为本发明提供的一种深度学习模型的结构示意图；

图3为本发明提供的一种特征融合模块的结构示意图；

图4为本发明提供的一种MLPs特征提取模块的结构示意图；

图5为本发明提供的一种基于强化学习的手术机器人配准装置的模块示意图；

图6为本发明提供的一种电子设备的机构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

参阅图1，为本发明提供的一种基于强化学习的手术机器人配准方法的流程示意图，包括以下步骤：

S11：基于术前配准点云与第一术中配准点云，得到第一特征图。

需要说明的是，术前配准点云与第一术中配准点云中分别有多个配准点。可选地，术前配准点云中的配准点可以有30个、32个、35个。第一术中配准点云中的配准点也可以有30个、32个、35个。

S12：基于所述第一特征图、旋转策略与平移策略，得到旋转偏差值与平移偏差值。

可选地，旋转策略用Rotation Policy表示，平移策略用Translation Policy表示。旋转偏差值可以用ΔR_k表示，平移偏差值可以用ΔT_k表示。本方法的策略优化部分采用旋转与平移分开优化的方法，这样做的优点是旋转与平移之间的误差将没有直接相关性，有利于控制配准的误差。当前，此部分优化策略使用近似策略(PPO)优化算法。

S13：基于所述旋转偏差值与所述平移偏差值，计算当前期望值。

可选地，当前期望值可以用v(S_k)表示。

S14：基于所述术前配准点云与所述第一术中配准点云对应的第一配准矩阵、所述旋转偏差值与所述平移偏差值，确定第二配准矩阵，并基于所述第二配准矩阵与所述第一术中配准点云，得到第二术中配准点云。

可选地，第一配准矩阵可以用G_k(R_k,T_k)表示，第二配准矩阵可以用G_k+1(R_k+1,T_k+1)表示。

S15：基于所述第二术中配准点云与所述术前配准点云，确定当前奖励值。

S16：在当前期望值基于当前奖励值的反馈达到最大值时，确定对应的配准矩阵为目标配准矩阵，所述目标配准矩阵用于对术前配准点云与术中配准点云进行配准。

接下来参见图2和图3，为本发明提供的一种深度学习模型的结构示意图以及特征融合模块的结构示意图。示例的，所述基于术前配准点云与第一术中配准点云，得到第一特征图state k，包括：

获取术前配准点云与第一术中配准点云；

可选地，术前配准点也可以称之为术前点x，第一术中配准点也可以称之为术中点y。在对术前点x和术中点y进行编码操作之后，分别得到Source k和Target k，然后基于MLPs分别对Source k和Target k进行特征提取操作，得到第二特征图TF1和第三特征图SF1。通过对第二特征图TF1和第三特征图SF1进行特征融合Concat操作，能够使得到的第四特征图STF保留更多的特征，使其更加准确。

可选的，参见图4，为本发明提供的一种MLPs特征提取模块的结构示意图，为了提取更加丰富的点云特征，并没有使用简单的MLP进行特征提取，而是使用MLP按顺序对每个点云进行特征编码，随后进行组合形成特征矩阵。随后，对特征矩阵进行最大池化操作，随后进行总体的MLP操作，最后进行L2归一化。术中点与术前点经过MLPs模块后分别得到第三特征图SF1和第二特征图TF1特征图。

示例的，所述基于所述第二特征图、所述第三特征图和所述第四特征图，得到所述第一特征图，包括：

对所述第四特征图STF进行LN操作与GELU操作，得到第五特征图STF2；

将所述第二特征图TF1与所述第五特征图STF2进行相加操作，得到第六特征图TF1’；

将所述第三特征图与所述第五特征图进行相加操作，得到第七特征图SF1’；

对所述第六特征图TF1’与所述第七特征图SF1’分别进行下采样操作，得到第八特征图TF2和第九特征图SF2；

将所述第八特征图TF2和所述第九特征图SF2进行相加操作，得到所述第一特征图state k。

示例的，所述基于所述术前配准点云与所述第一术中配准点云对应的第一配准矩阵、所述旋转偏差值与所述平移偏差值，确定第二配准矩阵，包括：

将所述第一配准矩阵G_k(R_k,T_k)、所述旋转偏差值ΔR_k与所述平移偏差值ΔT_k进行点乘操作，得到第二配准矩阵G_k+1(R_k+1,T_k+1)。

通过平移偏差值和旋转偏差值对第一配准矩阵进行调整，可以使得到的第二配准矩阵相比于第一配准很更加准确。

在得到第二配准矩阵之后，可以得到术中点y变换后的空间位置y’，根据空间位置y’与术前点x的距离差得到G_k(R_k,T_k)到G_k+1(Rk₊₁,T_k+1)的奖励值。提取y’与术前点x的特征值，再次进行循环计算，直到得到最大的奖励值。

根据Reward(奖励机制)对下一动作进行奖励或惩罚，根据奖励或是惩罚将调整旋转平移矩阵，进而影响ΔR_k与ΔT_k的变化，从而影响模型的期望值v(S_k)。

示例的，所述基于所述第二术中配准点云与所述术前配准点，确定当前奖励值，包括：

需要说明的是，本方法中的奖励机制主要是计算术中点与术前点的陆地移动距离(EMD)，其中EMD中的映射关系就是配准矩阵G_K+1。

可选的，奖励策略用r_k表示，当EMD变小后模型会得到σ⁺奖励，“停止”得到负惩罚σ⁰以阻止暂停，发散将得到σ^-惩罚。我们选择σ^->σ⁺来阻止发散和收敛交替的步骤。即上文所提到的在所述EMD减小时，则确定所述当前奖励值为正向奖励；在所述EMD增大时，则确定所述当前奖励值为第一负向奖励；在所述EMD未发生变化时，则确定所述当前奖励值为第二负向奖励，所述第二负向奖励小于所述第一负向奖励。

示例的，所述陆地移动距离EMD的计算方式如下：

第二配准矩阵G_k+1(R_k+1,T_k+1)的计算方式如下：

需要说明的是，在模型第一次训练过程中，R_k与T_k为随机数。

示例的，所述基于所述旋转偏差值与所述平移偏差值，计算当前期望值，包括：

基于与上述方法相同的技术构思，本发明的另一实施例提供了一种基于强化学习的手术机器人配准装置，该基于强化学习的手术机器人配准装置所起的作用与上述基于强化学习的手术机器人配准方法所起的作用相同，在此不再进行赘述。

参见图5，为本发明提供的一种基于强化学习的手术机器人配准装置的模块示意图，该基于强化学习的手术机器人配准装置，包括：

获取模块51，用于基于术前配准点云与第一术中配准点云，得到第一特征图；

计算模块52，用于基于所述第一特征图、旋转策略与平移策略，得到旋转偏差值与平移偏差值；

计算模块52，还用于基于所述旋转偏差值与所述平移偏差值，计算当前期望值；

确定模块53，用于基于所述术前配准点云与所述第一术中配准点云对应的第一配准矩阵、所述旋转偏差值与所述平移偏差值，确定第二配准矩阵，并基于所述第二配准矩阵与所述第一术中配准点云，得到第二术中配准点云；

确定模块53，还用于基于所述第二术中配准点云与所述术前配准点云，确定当前奖励值；

处理模块54，用于在当前期望值基于当前奖励值的反馈达到最大值时，确定对应的配准矩阵为目标配准矩阵，所述目标配准矩阵用于对术前配准点云与术中配准点云进行配准。

获取术前配准点云与第一术中配准点云；

对所述第四特征图进行LN操作与GELU操作，得到第五特征图；

可选的，所述陆地移动距离EMD的计算方式如下：

接下来参见图6，为本发明提供的一种电子设备的结构示意图。该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行上述各方法所提供的基于强化学习的手术机器人配准方法。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明的又一实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如上所述的基于强化学习的手术机器人配准方法。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

注意，除非另有直接说明，否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此，除非另有明确说明，否则所公开的每一个特征仅是一组等效或类似特征的一个示例。在使用到的情况下，进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头，该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims

1.一种基于强化学习的手术机器人配准方法，其特征在于，包括：

基于术前配准点云与第一术中配准点云，得到第一特征图；

基于所述旋转偏差值与所述平移偏差值，计算当前期望值；

2.根据权利要求1所述的基于强化学习的手术机器人配准方法，其特征在于，所述基于术前配准点云与第一术中配准点云，得到第一特征图，包括：

获取术前配准点云与第一术中配准点云；

3.根据权利要求2所述的基于强化学习的手术机器人配准方法，其特征在于，所述基于所述第二特征图、所述第三特征图和所述第四特征图，得到所述第一特征图，包括：

对所述第四特征图进行LN操作与GELU操作，得到第五特征图；

4.根据权利要求1所述的基于强化学习的手术机器人配准方法，其特征在于，所述基于所述术前配准点云与所述第一术中配准点云对应的第一配准矩阵、所述旋转偏差值与所述平移偏差值，确定第二配准矩阵，包括：

5.根据权利要求1所述的基于强化学习的手术机器人配准方法，其特征在于，所述基于所述第二术中配准点云与所述术前配准点，确定当前奖励值，包括：

6.根据权利要求5所述的基于强化学习的手术机器人配准方法，其特征在于，所述陆地移动距离EMD的计算方式如下：

7.根据权利要求1所述基于强化学习的手术机器人配准方法，其特征在于，所述基于所述旋转偏差值与所述平移偏差值，计算当前期望值，包括：

8.一种基于强化学习的手术机器人配准装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的基于强化学习的手术机器人配准方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于强化学习的手术机器人配准方法。