CN116650110B

CN116650110B - 基于深度强化学习的膝关节假体自动放置方法及装置

Info

Publication number: CN116650110B
Application number: CN202310692674.1A
Authority: CN
Inventors: 张逸凌; 刘星宇
Original assignee: Longwood Valley Medtech Co Ltd
Current assignee: Longwood Valley Medtech Co Ltd
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2024-05-07
Anticipated expiration: 2043-06-12
Also published as: CN116650110A

Abstract

本申请提供了一种基于深度强化学习的膝关节假体自动放置方法、装置、设备及计算机可读存储介质。该基于深度强化学习的膝关节假体自动放置方法，包括：获取膝关节图像和膝关节关键点数据；将膝关节图像输入图像分割网络模型，得到膝关节骨骼数据；将膝关节骨骼数据和膝关节关键点数据，输入预设的深度强化学习网络模型中，输出膝关节假体位置和膝关节假体型号，以自动放置膝关节假体；其中，深度强化学习网络模型是基于样本的膝关节骨骼数据和状态信息经过模型训练得到的。根据本申请实施例，能够提高膝关节假体放置的效率和准确率。

Description

基于深度强化学习的膝关节假体自动放置方法及装置

技术领域

本申请属于深度学习智能识别技术领域，尤其涉及一种基于深度强化学习的膝关节假体自动放置方法、装置、设备及计算机可读存储介质。

背景技术

目前，膝关节假体放置是靠医生依据经验进行放置，导致膝关节假体放置的效率和准确率较低。

因此，如何提高膝关节假体放置的效率和准确率是本领域技术人员亟需解决的技术问题。

发明内容

本申请实施例提供一种基于深度强化学习的膝关节假体自动放置方法、装置、设备及计算机可读存储介质，能够提高膝关节假体放置的效率和准确率。

第一方面，本申请实施例提供一种基于深度强化学习的膝关节假体自动放置方法，包括：

获取膝关节图像和膝关节关键点数据；

将膝关节图像输入图像分割网络模型，得到膝关节骨骼数据；

将膝关节骨骼数据和膝关节关键点数据，输入预设的深度强化学习网络模型中，输出膝关节假体位置和膝关节假体型号，以自动放置膝关节假体；其中，深度强化学习网络模型是基于样本的膝关节骨骼数据和状态信息经过模型训练得到的。

可选的，状态信息包括膝关节假体每一次移动位置后的空间坐标、膝关节假体数据、膝关节假体型号、膝关节截骨面数据、膝关节关键点数据。

可选的，在模型训练过程中，设置训练的batch_size为32；

设置初始化学习率为1e-4，附加学习率衰减策略，每迭代5000次，学习率衰减为上一次学习率的0.9；

设置优化器为Adam优化器；

设置损失函数为DICE loss；

设置每迭代1000次，对训练集和验证集做一次验证，通过早停法来判断网络训练停止时间，并得到深度强化学习网络模型。

可选的，还包括：

计算当前状态的估计值；

基于估计值和预设的目标值，计算损失值；

基于损失值更新网络参数。

可选的，深度强化学习网络模型是基于样本的膝关节骨骼数据和状态信息经过模型训练得到的，包括：

对样本的膝关节骨骼数据进行特征提取操作，得到第一特征数据；

对样本的状态信息进行特征提取操作，得到第二特征数据；

将第一特征数据和第二特征数据进行特征融合，得到第三特征数据；

将第三特征数据依次经过两层全连接层，得到第四特征数据；

将第三特征数据和第四特征数据进行特征融合，得到第五特征数据；

将第五特征数据连接两个全连接层，分别输出膝关节假体位置和膝关节假体型号，得到深度强化学习网络模型。

可选的，还包括：

判断膝关节假体移动是有效移动还是无效移动；

若膝关节假体移动是有效移动，则依据奖励机制给正奖励；

若膝关节假体移动是无效移动，则依据奖励机制给负奖励。

可选的，奖励机制如下：

第二方面，本申请实施例提供了一种基于深度强化学习的膝关节假体自动放置装置，装置包括：

数据获取模块，用于获取膝关节图像和膝关节关键点数据；

图像分割模块，用于将膝关节图像输入图像分割网络模型，得到膝关节骨骼数据；

假体放置模块，用于将膝关节骨骼数据和膝关节关键点数据，输入预设的深度强化学习网络模型中，输出膝关节假体位置和膝关节假体型号，以自动放置膝关节假体；其中，深度强化学习网络模型是基于样本的膝关节骨骼数据和状态信息经过模型训练得到的。

第三方面，本申请实施例提供了一种电子设备，电子设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如第一方面的基于深度强化学习的膝关节假体自动放置方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如第一方面的基于深度强化学习的膝关节假体自动放置方法。

本申请实施例的基于深度强化学习的膝关节假体自动放置方法、装置、设备及计算机可读存储介质，能够提高膝关节假体放置的效率和准确率。

该基于深度强化学习的膝关节假体自动放置方法，包括：获取膝关节图像和膝关节关键点数据；将膝关节图像输入图像分割网络模型，得到膝关节骨骼数据；将膝关节骨骼数据和膝关节关键点数据，输入预设的深度强化学习网络模型中，输出膝关节假体位置和膝关节假体型号，以自动放置膝关节假体；其中，深度强化学习网络模型是基于样本的膝关节骨骼数据和状态信息经过模型训练得到的。

可见，该方法将膝关节骨骼数据和膝关节关键点数据，输入预设的深度强化学习网络模型中，深度强化学习网络模型是基于样本的膝关节骨骼数据和状态信息经过模型训练得到的，输出膝关节假体位置和膝关节假体型号，以自动放置膝关节假体，能够提高膝关节假体放置的效率和准确率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的基于深度强化学习的膝关节假体自动放置方法的流程示意图；

图2是本申请一个实施例提供的基于深度强化学习的膝关节假体自动放置方法的流程示意图；

图3是本申请一个实施例提供的强化学习网络框架示意图；

图4是本申请一个实施例提供的深度强化学习网络结构示意图；

图5是本申请一个实施例提供的膝关节假体最终位置放置示意图；

图6是本申请一个实施例提供的基于深度强化学习的膝关节假体自动放置装置的结构示意图；

图7是本申请一个实施例提供的电子设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了解决现有技术问题，本申请实施例提供了一种基于深度强化学习的膝关节假体自动放置方法、装置、设备及计算机可读存储介质。下面首先对本申请实施例所提供的基于深度强化学习的膝关节假体自动放置方法进行介绍。

图1示出了本申请一个实施例提供的基于深度强化学习的膝关节假体自动放置方法的流程示意图。如图1所示，该基于深度强化学习的膝关节假体自动放置方法，包括：

S101、获取膝关节图像和膝关节关键点数据；

S102、将膝关节图像输入图像分割网络模型，得到膝关节骨骼数据；

S103、将膝关节骨骼数据和膝关节关键点数据，输入预设的深度强化学习网络模型中，输出膝关节假体位置和膝关节假体型号，以自动放置膝关节假体；其中，深度强化学习网络模型是基于样本的膝关节骨骼数据和状态信息经过模型训练得到的。

图2是本申请一个实施例提供的基于深度强化学习的膝关节假体自动放置方法的流程示意图。

在一个实施例中，状态信息包括膝关节假体每一次移动位置后的空间坐标、膝关节假体数据、膝关节假体型号、膝关节截骨面数据、膝关节关键点数据。

具体的，数据采集包括：

获取膝关节CT数据，通过图像分割网络得到膝关节各个骨骼数据，图像分割网络可以为2D神经网络或3D神经网络。

强化学习神经网络输入数据：

1)膝关节假体每一次移动位置后的空间坐标。

2)膝关节假体数据。

3)膝关节假体型号。

4)膝关节骨骼数据。

5)膝关节截骨面数据。

6)膝关节关键点坐标。

在一个实施例中，在模型训练过程中，设置训练的batch_size为32；

设置优化器为Adam优化器；

设置损失函数为DICE loss；

在一个实施例中，还包括：

计算当前状态的估计值；

基于估计值和预设的目标值，计算损失值；

基于损失值更新网络参数。

具体的，深度强化学习网络流程：

深度强化学习网络，当强化学习场景中的动作和状态空间维度很大时，一般的学习很难完成这样复杂的任务。因此，本算法包含两个神经网络，即估计值网络和目标值网络。强化学习的目标是保证估计值网络输出的估计值和目标值网络输出的目标值越相近越好，该过程可以通过损失函数表示为：

Loss＝(Q_目标值-Q(s_t，a_t，θ))²

其中，其中s表示状态信息，a表示动作信息，γ∈[0,1]表示折扣因子，Q(s_t，a_t，θ)是当前状态的估计值。

图3是本申请一个实施例提供的强化学习网络框架示意图，估计值网络的参数更新需要通过求损失函数的梯度得到，而目标值网络则通过每N步复制一次估计值网络的参数进行更新。为了避免强化学习的状态之间存在相关性，采用记忆单元来存放状态。在训练时，从中随机取一些样本来训练，这样可以打破样本之间的相关性，从而提高学习效率。神经网络的两个输入局部观测值和目标位置，局部观测值是膝关节假体每一次移动的空间位置，目标位置是最终膝关节假体的位置。

在一个实施例中，深度强化学习网络模型是基于样本的膝关节骨骼数据和状态信息经过模型训练得到的，包括：

对样本的状态信息进行特征提取操作，得到第二特征数据；

具体的，搭建深度强化学习神经网络结构如图4所示，收集当前的6个状态参数，经过强化学习神经网络，输出膝关节假体位置和型号信息这个决策。该网络学习膝关节假体放置的过程和假体型号大小，也就是膝关节假体每一次移动过程中的空间位置以及最终位置，和假体最后型号大小。

输入图像为膝关节骨骼数据，输入状态信息为膝关节假体每一次移动位置后的空间坐标、膝关节假体数据、膝关节假体型号、膝关节截骨面数据、膝关节关键点坐标。

输入图像和输入状态信息经过特征提取后，通过两个全连接层输入到LSTM单元中。该过程由两个全连接层构成，第一个全连接网络包含1024个神经元，其激活函数采用线性整流函数ReLU，sξ表示机械臂与环境交互的状态信息，第一层全连接的输出可以表示为：

其中，W1是第一层网络的权重，b1是其偏差。第二个全连接层的输入是第一个全连接层的输出，第二层全连接层由512个神经元构成，采用ReLU函数，这一层的输出表示：

其中，W2和b2分别为第二个全连接层网络的权重和偏差。利用softmax函数输出向量为：

其中，W3和b3分别是输出层的权重和偏差，softmax是归一化指数函数。输出用于训练每一次膝关节假体移动位置和型号信息。之后输入到LSTM网络中，通过对这些状态信息学习，并分别连接一个全连接层输出膝关节假体位置信息和膝关节假体型号信息。

在一个实施例中，还包括：

判断膝关节假体移动是有效移动还是无效移动；

若膝关节假体移动是有效移动，则依据奖励机制给正奖励；

若膝关节假体移动是无效移动，则依据奖励机制给负奖励。

膝关节假体移动规则：上下左右，旋转或者不动。

存在无效移动，规定只在有效移动中采取行动(给无效移动一个负奖励，效果更好)。鼓励探索，可以静止不动(当静止不动时给一个负奖励，效果更好)。

当膝关节假体接近截骨面时，给与正奖励。

在一个实施例中，奖励机制如下：

在一个实施例中，膝关节假体最终位置放置示意图如图5所示。

图6是本申请一个实施例提供的基于深度强化学习的膝关节假体自动放置装置的结构示意图，一种基于深度强化学习的膝关节假体自动放置装置，装置包括：

数据获取模块601，用于获取膝关节图像和膝关节关键点数据；

图像分割模块602，用于将膝关节图像输入图像分割网络模型，得到膝关节骨骼数据；

假体放置模块603，用于将膝关节骨骼数据和膝关节关键点数据，输入预设的深度强化学习网络模型中，输出膝关节假体位置和膝关节假体型号，以自动放置膝关节假体；其中，深度强化学习网络模型是基于样本的膝关节骨骼数据和状态信息经过模型训练得到的。

图7示出了本申请实施例提供的电子设备的结构示意图。

电子设备可以包括处理器701以及存储有计算机程序指令的存储器702。

具体地，上述处理器701可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器702可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器702可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器702可在电子设备的内部或外部。在特定实施例中，存储器702可以是非易失性固态存储器。

在一个实施例中，存储器702可以是只读存储器(Read Only Memory，ROM)。在一个实施例中，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器701通过读取并执行存储器702中存储的计算机程序指令，以实现上述实施例中的任意一种基于深度强化学习的膝关节假体自动放置方法。

在一个示例中，电子设备还可包括通信接口703和总线。其中，如图7所示，处理器701、存储器702、通信接口703通过总线连接并完成相互间的通信。

通信接口703，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的基于深度强化学习的膝关节假体自动放置方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于深度强化学习的膝关节假体自动放置方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能模块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种基于深度强化学习的膝关节假体自动放置装置，其特征在于，装置包括：

数据获取模块，用于获取膝关节图像和膝关节关键点数据；

假体放置模块，用于将膝关节骨骼数据和膝关节关键点数据，输入预设的深度强化学习网络模型中，输出膝关节假体位置和膝关节假体型号，以自动放置膝关节假体；其中，深度强化学习网络模型是基于样本的膝关节骨骼数据和状态信息经过模型训练得到的；

状态信息包括膝关节假体每一次移动位置后的空间坐标、膝关节假体数据、膝关节假体型号、膝关节截骨面数据、膝关节关键点数据；

在模型训练过程中，设置训练的batch_size为32；

设置优化器为Adam优化器；

设置损失函数为DICE loss；

设置每迭代1000次，对训练集和验证集做一次验证，通过早停法来判断网络训练停止时间，并得到深度强化学习网络模型；

所述的基于深度强化学习的膝关节假体自动放置装置，执行基于深度强化学习的膝关节假体自动放置方法，该方法还包括：

计算当前状态的估计值；

基于估计值和预设的目标值，计算损失值；

基于损失值更新网络参数；

其中，深度强化学习网络流程：

深度强化学习网络，当强化学习场景中的动作和状态空间维度很大时，一般的学习很难完成这样复杂的任务；因此，本算法包含两个神经网络，即估计值网络和目标值网络；强化学习的目标是保证估计值网络输出的估计值和目标值网络输出的目标值越相近越好，该过程通过损失函数表示为：

其中， s 表示状态信息，a 表示动作信息，γ ∈[0,1]表示折扣因子，是当前状态的估计值；

估计值网络的参数更新需要通过求损失函数的梯度得到，而目标值网络则通过每N步复制一次估计值网络的参数进行更新；为了避免强化学习的状态之间存在相关性，采用记忆单元来存放状态；在训练时，从中随机取一些样本来训练，这样打破样本之间的相关性，从而提高学习效率；神经网络的两个输入局部观测值和目标位置，局部观测值是膝关节假体每一次移动的空间位置，目标位置是最终膝关节假体的位置；

深度强化学习网络模型是基于样本的膝关节骨骼数据和状态信息经过模型训练得到的，包括：

对样本的状态信息进行特征提取操作，得到第二特征数据；

将第五特征数据连接两个全连接层，分别输出膝关节假体位置和膝关节假体型号，得到深度强化学习网络模型；

其中，深度强化学习神经网络结构，收集当前的6个状态参数，经过强化学习神经网络，输出膝关节假体位置和型号信息这个决策；该网络学习膝关节假体放置的过程和假体型号大小，也就是膝关节假体每一次移动过程中的空间位置以及最终位置，和假体最后型号大小；

输入图像为膝关节骨骼数据，输入状态信息为膝关节假体每一次移动位置后的空间坐标、膝关节假体数据、膝关节假体型号、膝关节截骨面数据、膝关节关键点坐标；

输入图像和输入状态信息经过特征提取后，通过两个全连接层输入到LSTM单元中；该过程由两个全连接层构成，第一个全连接网络包含1024个神经元，其激活函数采用线性整流函数 ReLU，表示机械臂与环境交互的状态信息，第一层全连接的输出可以表示为：

其中，W1 是第一层网络的权重，b1 是其偏差；第二个全连接层的输入是第一个全连接层的输出，第二层全连接层由512 个神经元构成，采用ReLU 函数，这一层的输出表示：

.

其中，W2 和b2 分别为第二个全连接层网络的权重和偏差；利用softmax 函数输出向量为：

其中，W3 和b3 分别是输出层的权重和偏差，softmax 是归一化指数函数；输出用于训练每一次膝关节假体移动位置和型号信息；之后输入到LSTM 网络中，通过对这些状态信息学习，并分别连接一个全连接层输出膝关节假体位置信息和膝关节假体型号信息；

所述的基于深度强化学习的膝关节假体自动放置装置，还用于：

判断膝关节假体移动是有效移动还是无效移动；

若膝关节假体移动是有效移动，则依据奖励机制给正奖励；

若膝关节假体移动是无效移动，则依据奖励机制给负奖励；

奖励机制如下：

。