CN116898583B - 基于深度学习的骨科手术机器人智能磨锉控制方法及装置 - Google Patents
基于深度学习的骨科手术机器人智能磨锉控制方法及装置 Download PDFInfo
- Publication number
- CN116898583B CN116898583B CN202310744382.8A CN202310744382A CN116898583B CN 116898583 B CN116898583 B CN 116898583B CN 202310744382 A CN202310744382 A CN 202310744382A CN 116898583 B CN116898583 B CN 116898583B
- Authority
- CN
- China
- Prior art keywords
- network
- parameter information
- module
- mechanical arm
- online
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013135 deep learning Methods 0.000 title claims abstract description 36
- 230000000399 orthopedic effect Effects 0.000 title claims abstract description 36
- 230000002787 reinforcement Effects 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000033001 locomotion Effects 0.000 claims abstract description 19
- 230000005012 migration Effects 0.000 claims description 30
- 238000013508 migration Methods 0.000 claims description 30
- 210000000588 acetabulum Anatomy 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 19
- 238000001356 surgical procedure Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 210000000988 bone and bone Anatomy 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000034656 Contusions Diseases 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000009519 contusion Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B34/00—Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
- A61B34/10—Computer-aided planning, simulation or modelling of surgical operations
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B34/00—Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
- A61B34/30—Surgical robots
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B34/00—Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
- A61B34/70—Manipulators specially adapted for use in surgery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B34/00—Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
- A61B34/10—Computer-aided planning, simulation or modelling of surgical operations
- A61B2034/101—Computer-aided simulation of surgical operations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Animal Behavior & Ethology (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Heart & Thoracic Surgery (AREA)
- Veterinary Medicine (AREA)
- Robotics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Manipulator (AREA)
Abstract
本发明提供一种基于深度学习的骨科手术机器人智能磨锉控制方法及装置,方法包括:采集用于强化学习网络模型训练的多个参数信息,多个参数信息包括骨科手术机器人的机械臂的参数信息、髋臼参数信息以及髋臼杯参数信息;基于多个参数信息,对强化学习网络模型进行迭代训练,得到训练好的强化学习网络模型;将目标参数信息输入至训练好的强化学习网络模型中,控制骨科手术机器人的机械臂的智能运动,以实现磨锉操作。上述方法,通过训练好的深度学习网络模型,对目标参数进行处理,进而控制机械臂智能移动,以实现磨锉操作。如此,机械臂能够实现自主移动,并自主实现磨锉操作,从而减少操作人员由于操作不当带来的磨锉误差,提高磨锉精度。
Description
技术领域
本发明涉及医疗领域,尤其涉及一种基于深度学习的骨科手术机器人智能磨锉控制方法及装置。
背景技术
由于应用机器人进行骨关节手术的普及,对骨关节术前与术中的磨挫精度的要求越来越高。目前,手术机器人主要是靠人为操作,可能会产生操作不当,影响磨锉精度的情况。
因此,需要提出一种新的方式,以提高磨锉精度。
发明内容
本发明提供一种基于深度学习的骨科手术机器人智能磨锉控制方法及装置,用以解决上述问题。
本发明的第一方面,提供一种基于深度学习的骨科手术机器人智能磨锉控制方法,包括:
采集用于强化学习网络模型训练的多个参数信息,所述多个参数信息包括骨科手术机器人的机械臂的参数信息、髋臼参数信息以及髋臼杯参数信息;
基于所述多个参数信息,对强化学习网络模型进行迭代训练,得到训练好的强化学习网络模型;
将目标参数信息输入至训练好的强化学习网络模型中,控制骨科手术机器人的机械臂的智能运动,以实现磨锉操作。
可选的,所述骨科手术机器人的机械臂的参数信息包括:机械臂各个关节的初始放置位置、机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置;
所述髋臼参数信息,包括:髋臼的中心点位置以及髋臼的半径;
所述髋臼杯参数信息,包括:髋臼杯型号、髋臼杯的前倾角、髋臼杯的外展角、髋臼杯到髋臼上部的平均距离、髋臼杯到髋臼内部的平均距离以及髋臼杯到髋臼前壁的平均距离。
可选的,所述强化学习网络模型,包括:
第一分支结构和第二分支结构;
所述第一分支结构包括Actor优化器、Online策略网络与Target策略网络,所述Online策略网络分别与所述Actor优化器及所述Target策略网络连接;
所述Actor优化器输入Online策略网络计算得到的梯度,并对Online策略网络进行网络参数的更新,更新的Online策略网络使用Soft update参数更新算法对Target策略网络进行训练,输出当前状态si、当前动作ai、当前奖励值ri与下一状态si+1,并将数据存储到记忆库中;
所述第二分支结构包括Critic优化器、迁移Online Q网络与Target Q网络,所述迁移Online Q网络分别与所述Critic优化器、所述Target Q网络及所述Online策略网络连接;
所述Critic优化器用于输入迁移Online Q网络计算得到的梯度,并对迁移OnlineQ网络进行网络参数的更新,更新的迁移Online Q网络使用Soft update参数更新算法对Target Q网络进行训练。
可选的,所述记忆库中的数据进行了N次采样操作,N次采样后的数据分别输入至Target策略网络和Target Q网络中。
可选的,还包括:
所述Online策略网络的动作策略,在加入噪声扰动之后,输入至环境中,并接收反馈的机械臂的当前的状态、机械臂的当前奖励值与机械臂的下一状态。
可选的,所述迁移Online Q网络包括依次连接的第一模块、RELU模块以及FC模块;
其中,所述第一模块包括第一支路和第二支路,所述第一支路包括依次连接的3*3conv模块、BN模块、RELU模块、3*3conv模块、BN模块,第二支路包括1*1conv模块,第一支路处理所得的结果与第二支路处理所得的结果相加后输入至所述RELU模块。
可选的,当前奖励值对应的奖励机制基于如下方式计算得到:
ti表示当前状态的状态值,当下一状态的指标ti+1大于当前指标值ti时,强化学习网络模型会得到-σ-奖励,当下一状态的指标ti+1等于当前指标值ti时,强化学习网络模型会得到-σ0奖励,当下一状态的指标小于当前指标值时,强化学习网络模型会得到+σ+奖励。
本发明的第二方面,提供一种基于深度学习的骨科手术机器人智能控制装置,包括:
采集模块,用于采集用于强化学习网络模型训练的多个参数信息,所述多个参数信息包括骨科手术机器人的机械臂的参数信息、髋臼参数信息以及髋臼杯参数信息;
训练模块,用于基于所述多个参数信息,对强化学习网络模型进行迭代训练,得到训练好的强化学习网络模型;
控制模块,用于将目标参数信息输入至训练好的强化学习网络模型中,控制骨科手术机器人的机械臂的智能运动。
本发明的第三方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的基于深度学习的骨科手术机器人智能磨锉控制方法。
本发明的第四方面,提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于深度学习的骨科手术机器人智能磨锉控制方法。
本发明的上述技术方案至少具有如下有益效果:
本发明提供的基于深度学习的骨科手术机器人智能磨锉控制方法,通过采集的多个参数信息对深度学习网络模型进行训练,进而得到训练好的深度学习网络模型。基于训练好的深度学习网络模型,对目标参数进行处理,进而控制机械臂智能移动,以实现磨锉操作。如此,机械臂能够实现自主移动,并自主实现磨锉操作,从而减少操作人员由于操作不当带来的磨锉误差,提高磨锉精度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于深度学习的骨科手术机器人智能磨锉控制方法的流程示意图;
图2为本发明提供的一种深度学习网络模型的结构示意图;
图3为本发明提供的一种迁移Online Q网络的结构示意图;
图4为发明提供的一种基于深度学习的骨科手术机器人智能磨锉控制装置的模块示意图;
图5为本发明提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含,“包含A、B或C”是指包含A、B、C三者之一,“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。
应当理解,在本发明中,“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”,表示B与A相关联,根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。A与B的匹配,是A与B的相似度大于或等于预设的阈值。
取决于语境,如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
参阅图1,为本发明提供的一种基于深度学习的骨科手术机器人智能磨锉控制方法的流程示意图,包括以下步骤:
S11:采集用于强化学习网络模型训练的多个参数信息,所述多个参数信息包括骨科手术机器人的机械臂的参数信息、髋臼参数信息以及髋臼杯参数信息。
需要说明的是,本发明采用的深度学习网络模型例如可以是基于Actor-Critic的深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)网络模型。
S12:基于所述多个参数信息,对强化学习网络模型进行迭代训练,得到训练好的强化学习网络模型。
需要说明的是,将多个参数信息,按照预设比例分为训练集、测试集、验证集,基于训练集对所述强化学习网络模型进行训练,基于测试集对所述强化学习网络模型进行测试,基于验证集对所述强化学习网络模型的准确性进行验证。在确定该深度学习网络模型的准确性达到预设要求时,确定此时的深度学习网络模型为训练好的强化学习网络模型。
S13:将目标参数信息输入至训练好的强化学习网络模型中,控制骨科手术机器人的机械臂的智能运动,以实现磨锉操作。
需要说明的是,目标参数信息包括多个参数信息,例如骨科手术机器人的机械臂的参数信息、髋臼参数信息以及髋臼杯参数信息。可选地,该目标参数信息可以通过术前规划的方式得到。
本发明提供的基于深度学习的骨科手术机器人智能磨锉控制方法,通过采集的多个参数信息对深度学习网络模型进行训练,进而得到训练好的深度学习网络模型。基于训练好的深度学习网络模型,对目标参数进行处理,进而控制机械臂智能移动,以实现磨锉操作。如此,机械臂能够实现自主移动,并自主实现磨锉操作,从而减少操作人员由于操作不当带来的磨锉误差,提高磨锉精度。
具体的,所述骨科手术机器人的机械臂的参数信息包括:机械臂各个关节的初始放置位置、机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置;
所述髋臼参数信息,包括:髋臼的中心点位置以及髋臼的半径;
所述髋臼杯参数信息,包括:髋臼杯型号、髋臼杯的前倾角、髋臼杯的外展角、髋臼杯到髋臼上部的平均距离、髋臼杯到髋臼内部的平均距离以及髋臼杯到髋臼前壁的平均距离。
接下来,参见图2,为本发明提供的一种深度学习网络模型的结构示意图。示例的,所述强化学习网络模型,包括:
第一分支结构和第二分支结构;
所述第一分支结构包括Actor优化器、Online策略网络与Target策略网络,所述Online策略网络分别与所述Actor优化器及所述Target策略网络连接;
所述Actor优化器输入Online策略网络计算得到的梯度,并对Online策略网络进行网络参数的更新。更新的Online策略网络使用Soft update参数更新算法对Target策略网络进行训练,输出当前状态si、当前动作ai、当前奖励值ri与下一状态si+1,并将数据存储到记忆库中。
所述第二分支结构包括Critic优化器、迁移Online Q网络与Target Q网络,所述迁移Online Q网络分别与所述Critic优化器、所述Target Q网络及所述Online策略网络连接;
所述Critic优化器用于输入迁移Online Q网络计算得到的梯度,并对迁移OnlineQ网络进行网络参数的更新,更新的迁移Online Q网络使用Soft update参数更新算法对Target Q网络进行训练。
需要说明的是,Online策略网络将动作策略输入到迁移Online Q网络中,完成动作到状态的转换,同时迁移Online Q网络会将计算的梯度值反馈到Online策略网络,已更新Online策略网络的网络参数。
进一步的,所述记忆库中的数据进行了N次采样操作,N次采样后的数据分别输入至Target策略网络和Target Q网络中。
需要说明的是,记忆库中设置有初始值,基于该初始值,可以实现对第一分支结构和第二分支结构中数据的更新。
每次完成数据更新之后,更新的数据均会在记忆库中进行保存。在进行N次采样操作之后,完成采样操作。需要说明的是,每完成一次采样操作之后,所得到的本次采样数据以及本次采样数据之前的数据均会分别输入至Target策略网络和Target Q网络中,以实现对Target策略网络和Target Q网络的训练操作。
由于Target Q网络中输入了N次采样后的数据,因此,Target Q网络能够在完成网络训练后输出Q网络估计值输入到迁移Online Q网络中。
进一步的,该方法还包括:
所述Online策略网络的动作策略,在加入噪声扰动之后,输入至环境中,并接收反馈的机械臂的当前的状态、机械臂的当前奖励值与机械臂的下一状态。
需要说明的是,通过加入噪声扰动,能够提高网络的鲁棒性。
接下来,参见图3,为本发明提供的一种迁移Online Q网络的结构示意图。示例的,所述迁移Online Q网络包括依次连接的第一模块、RELU模块以及FC模块;
其中,所述第一模块包括第一支路和第二支路,所述第一支路包括依次连接的3*3conv模块、BN模块、RELU模块、3*3conv模块、BN模块,第二支路包括1*1conv模块,第一支路处理所得的结果与第二支路处理所得的结果相加后输入至所述RELU模块。
需要说明的是,传统Online Q网络使用的仅仅为FC层,并不能保障特征提取的准确性。本发明采用迁移网络的思想对Online Q网络做网络参数的初始化,同时,使用卷积网络+FC+残差的方式进行特征提取,保障了特征的准确性。
示例的,当前奖励值对应的奖励机制基于如下方式计算得到:
ti表示当前状态的状态值,当下一状态的指标ti+1大于当前指标值ti时,强化学习网络模型会得到-σ-奖励,当下一状态的指标ti+1等于当前指标值ti时,强化学习网络模型会得到-σ0奖励,当下一状态的指标小于当前指标值时,强化学习网络模型会得到+σ+奖励。
可选的,ti的计算方式如下:
ti=α×d+β×Ra_A+γ×Ab_A,α、β、γ分别为偏差、前倾角与外展角的影响因子系数,且α+β+γ=1。
d表示机械臂运动到目标位置的偏差,Ra_A表示前倾角,Ab_A表示外展角。
基于与上述基于深度学习的骨科手术机器人智能控制方法相同的技术构思,本发明的另一实施例提供了一种基于深度学习的骨科手术机器人智能控制装置,该基于深度学习的骨科手术机器人智能控制装置与上述基于深度学习的骨科手术机器人智能控制方法所起的作用相似,在此不再进行赘述。
参加图4,为本发明提供的一种基于深度学习的骨科手术机器人智能控制装置的模块示意图,所述基于深度学习的骨科手术机器人智能控制装置,包括:
采集模块41,用于采集用于强化学习网络模型训练的多个参数信息,所述多个参数信息包括骨科手术机器人的机械臂的参数信息、髋臼参数信息以及髋臼杯参数信息;
训练模块42,用于基于所述多个参数信息,对强化学习网络模型进行迭代训练,得到训练好的强化学习网络模型;
控制模块43,用于将目标参数信息输入至训练好的强化学习网络模型中,控制骨科手术机器人的机械臂的智能运动。
可选的,所述骨科手术机器人的机械臂的参数信息包括:机械臂各个关节的初始放置位置、机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置;
所述髋臼参数信息,包括:髋臼的中心点位置以及髋臼的半径;
所述髋臼杯参数信息,包括:髋臼杯型号、髋臼杯的前倾角、髋臼杯的外展角、髋臼杯到髋臼上部的平均距离、髋臼杯到髋臼内部的平均距离以及髋臼杯到髋臼前壁的平均距离。
可选的,所述强化学习网络模型,包括:
第一分支结构和第二分支结构;
所述第一分支结构包括Actor优化器、Online策略网络与Target策略网络,所述Online策略网络分别与所述Actor优化器及所述Target策略网络连接;
所述Actor优化器输入Online策略网络计算得到的梯度,并对Online策略网络进行网络参数的更新,更新的Online策略网络使用Soft update参数更新算法对Target策略网络进行训练,输出当前状态si、当前动作ai、当前奖励值ri与下一状态si+1,并将数据存储到记忆库中;
所述第二分支结构包括Critic优化器、迁移Online Q网络与Target Q网络,所述迁移Online Q网络分别与所述Critic优化器、所述Target Q网络及所述Online策略网络连接;
所述Critic优化器用于输入迁移Online Q网络计算得到的梯度,并对迁移OnlineQ网络进行网络参数的更新,更新的迁移Online Q网络使用Soft update参数更新算法对Target Q网络进行训练。
可选的,所述记忆库中的数据进行了N次采样操作,N次采样后的数据分别输入至Target策略网络和Target Q网络中。
可选的,还包括:
所述Online策略网络的动作策略,在加入噪声扰动之后,输入至环境中,并接收反馈的机械臂的当前的状态、机械臂的当前奖励值与机械臂的下一状态。
可选的,所述迁移Online Q网络包括依次连接的第一模块、RELU模块以及FC模块;
其中,所述第一模块包括第一支路和第二支路,所述第一支路包括依次连接的3*3conv模块、BN模块、RELU模块、3*3conv模块、BN模块,第二支路包括1*1conv模块,第一支路处理所得的结果与第二支路处理所得的结果相加后输入至所述RELU模块。
可选的,当前奖励值对应的奖励机制基于如下方式计算得到:
ti表示当前状态的状态值,当下一状态的指标ti+1大于当前指标值ti时,强化学习网络模型会得到-σ-奖励,当下一状态的指标ti+1等于当前指标值ti时,强化学习网络模型会得到-σ0奖励,当下一状态的指标小于当前指标值时,强化学习网络模型会得到+σ+奖励。
接下来参见图5,为本发明提供的一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行上述各方法所提供的基于深度学习的骨科手术机器人智能磨锉控制方法。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明的另一实施例,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如上所述的基于深度学习的骨科手术机器人智能磨锉控制方法。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
注意,除非另有直接说明,否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此,除非另有明确说明,否则所公开的每一个特征仅是一组等效或类似特征的一个示例。在使用到的情况下,进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头,该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。
本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。
Claims (3)
1.一种基于深度学习的骨科手术机器人智能控制装置,其特征在于,包括:
采集模块,用于采集用于强化学习网络模型训练的多个参数信息,所述多个参数信息包括骨科手术机器人的机械臂的参数信息、髋臼参数信息以及髋臼杯参数信息;
训练模块,用于基于所述多个参数信息,对强化学习网络模型进行迭代训练,得到训练好的强化学习网络模型;
控制模块,用于将目标参数信息输入至训练好的强化学习网络模型中,控制骨科手术机器人的机械臂的智能运动;
所述骨科手术机器人的机械臂的参数信息包括:机械臂各个关节的初始放置位置、机械臂各个关节的可达运动范围、机械臂各个关节运动过程中的位置和速度、机械臂各个关节最终到达的目标位置;
所述髋臼参数信息,包括:髋臼的中心点位置以及髋臼的半径;
所述髋臼杯参数信息,包括:髋臼杯型号、髋臼杯的前倾角、髋臼杯的外展角、髋臼杯到髋臼上部的平均距离、髋臼杯到髋臼内部的平均距离以及髋臼杯到髋臼前壁的平均距离;
所述强化学习网络模型,包括:
第一分支结构和第二分支结构;
所述第一分支结构包括Actor优化器、Online策略网络与Target策略网络,所述Online策略网络分别与所述Actor优化器及所述Target策略网络连接;
所述Actor优化器输入Online策略网络计算得到的梯度,并对Online策略网络进行网络参数的更新,更新的Online策略网络使用Soft update参数更新算法对Target策略网络进行训练,输出当前状态si、当前动作ai、当前奖励值ri与下一状态si+1,并将数据存储到记忆库中;
所述第二分支结构包括Critic优化器、迁移Online Q网络与Target Q网络,所述迁移Online Q网络分别与所述Critic优化器、所述Target Q网络及所述Online策略网络连接;
所述Critic优化器用于输入迁移Online Q网络计算得到的梯度,并对迁移Online Q网络进行网络参数的更新,更新的迁移Online Q网络使用Soft update参数更新算法对Target Q网络进行训练;
所述记忆库中的数据进行了N次采样操作,N次采样后的数据分别输入至Target策略网络和Target Q网络中;
所述Online策略网络的动作策略,在加入噪声扰动之后,输入至环境中,并接收反馈的机械臂的当前的状态、机械臂的当前奖励值与机械臂的下一状态;
所述迁移Online Q网络包括依次连接的第一模块、RELU模块以及FC模块;
其中,所述第一模块包括第一支路和第二支路,所述第一支路包括依次连接的3*3conv模块、BN模块、RELU模块、3*3conv模块、BN模块,第二支路包括1*1conv模块,第一支路处理所得的结果与第二支路处理所得的结果相加后输入至所述RELU模块;
当前奖励值对应的奖励机制基于如下方式计算得到:
ti表示当前状态的状态值,当下一状态的指标ti+1大于当前指标值ti时,强化学习网络模型会得到-σ-奖励,当下一状态的指标ti+1等于当前指标值ti时,强化学习网络模型会得到-σ0奖励,当下一状态的指标小于当前指标值时,强化学习网络模型会得到+σ+奖励;
ti的计算方式如下:
ti=α×d+β×Ra_A+γ×Ab_A,α、β、γ分别为偏差、前倾角与外展角的影响因子系数,且α+β+γ=1;
d表示机械臂运动到目标位置的偏差,Ra_A表示前倾角,Ab_A表示外展角。
2.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1对应的基于深度学习的骨科手术机器人智能磨锉控制方法。
3.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1对应的基于深度学习的骨科手术机器人智能磨锉控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310744382.8A CN116898583B (zh) | 2023-06-21 | 2023-06-21 | 基于深度学习的骨科手术机器人智能磨锉控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310744382.8A CN116898583B (zh) | 2023-06-21 | 2023-06-21 | 基于深度学习的骨科手术机器人智能磨锉控制方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116898583A CN116898583A (zh) | 2023-10-20 |
CN116898583B true CN116898583B (zh) | 2024-04-26 |
Family
ID=88359246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310744382.8A Active CN116898583B (zh) | 2023-06-21 | 2023-06-21 | 基于深度学习的骨科手术机器人智能磨锉控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116898583B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110861084A (zh) * | 2019-11-18 | 2020-03-06 | 东南大学 | 一种基于深度强化学习的四足机器人跌倒自复位控制方法 |
CN112494282A (zh) * | 2020-12-01 | 2021-03-16 | 天津理工大学 | 一种基于深度强化学习的外骨骼主助力参数的优化方法 |
CN113962927A (zh) * | 2021-09-01 | 2022-01-21 | 北京长木谷医疗科技有限公司 | 基于强化学习的髋臼杯位置调整方法、装置及存储介质 |
CN114648492A (zh) * | 2022-02-24 | 2022-06-21 | 中国人民解放军总医院第四医学中心 | 基于深度学习的全髋关节术后偏心距的计算方法及系统 |
CN114748168A (zh) * | 2022-04-27 | 2022-07-15 | 汕头大学 | 一种全髋关节置换手术机器人系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220375620A1 (en) * | 2021-05-21 | 2022-11-24 | Cilag Gmbh International | Surgical Simulation System With Coordinated Imagining |
-
2023
- 2023-06-21 CN CN202310744382.8A patent/CN116898583B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110861084A (zh) * | 2019-11-18 | 2020-03-06 | 东南大学 | 一种基于深度强化学习的四足机器人跌倒自复位控制方法 |
CN112494282A (zh) * | 2020-12-01 | 2021-03-16 | 天津理工大学 | 一种基于深度强化学习的外骨骼主助力参数的优化方法 |
CN113962927A (zh) * | 2021-09-01 | 2022-01-21 | 北京长木谷医疗科技有限公司 | 基于强化学习的髋臼杯位置调整方法、装置及存储介质 |
CN114648492A (zh) * | 2022-02-24 | 2022-06-21 | 中国人民解放军总医院第四医学中心 | 基于深度学习的全髋关节术后偏心距的计算方法及系统 |
CN114748168A (zh) * | 2022-04-27 | 2022-07-15 | 汕头大学 | 一种全髋关节置换手术机器人系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116898583A (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11886988B2 (en) | Method for adaptive exploration to accelerate deep reinforcement learning | |
JP6889495B2 (ja) | 放射線療法のためのフルエンスマップ生成方法 | |
US9694496B2 (en) | Providing personalized patient care based on electronic health record associated with a user | |
US20180032863A1 (en) | Training a policy neural network and a value neural network | |
US20180032864A1 (en) | Selecting actions to be performed by a reinforcement learning agent using tree search | |
JP6915909B2 (ja) | 機器移動の制御方法、制御装置、記憶媒体及び電子機器 | |
CN107622493A (zh) | 用于分割医学图像中的对象的方法和数据处理单元 | |
CN112101547B (zh) | 一种对网络模型的剪枝方法、装置、电子设备及存储介质 | |
Park et al. | Deep ART neural model for biologically inspired episodic memory and its application to task performance of robots | |
CN116650110B (zh) | 基于深度强化学习的膝关节假体自动放置方法及装置 | |
CN116898583B (zh) | 基于深度学习的骨科手术机器人智能磨锉控制方法及装置 | |
CN113689938B (zh) | 医学影像的勾画方法、装置、存储介质及处理器 | |
KR20220035058A (ko) | 의료 도구 제어 장치의 동작 결정 모델을 트레이닝시키는 방법 및 장치 | |
WO2024120504A1 (zh) | 一种数据处理方法及相关设备 | |
CN113965313A (zh) | 基于同态加密的模型训练方法、装置、设备以及存储介质 | |
CN111968112B (zh) | Ct三维定位图像的获取方法、装置和计算机设备 | |
JP2022531982A (ja) | 特徴ベクトル実現可能性推定 | |
CN115553925A (zh) | 内窥镜操控模型训练方法及装置、设备、存储介质 | |
CN115721422A (zh) | 介入手术的操作方法、装置、设备和存储介质 | |
CN115147357A (zh) | 血管介入导丝的自动导航方法、装置、设备及介质 | |
CN110450164A (zh) | 机器人控制方法、装置、机器人及存储介质 | |
CN113868671B (zh) | 数据处理方法、神经网络模型的后门防御方法及装置 | |
De Momi et al. | Autonomous robotic surgery makes light work of anastomosis | |
Danielson | Computational decision analysis. | |
US11524401B1 (en) | Learning skills from video demonstrations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |