CN117058267B

CN117058267B - 基于强化学习的自主超声扫描系统、方法、存储器和设备

Info

Publication number: CN117058267B
Application number: CN202311317313.5A
Authority: CN
Inventors: 孙振国; 贾宁; 李蒙; 罗莎祁; 孙宇
Original assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2024-02-06
Anticipated expiration: 2043-10-12
Also published as: CN117058267A

Abstract

本发明公开了基于强化学习的自主超声扫描系统、方法、存储器和设备，属于智能医疗检查技术领域。系统包括超声扫描模拟模块，用于模拟超声探头、超声扫描目标以及与超声探头连接的机械臂，还用于模拟机械臂在控制策略下自动移动，以模拟超声探头与超声扫描目标进行交互并产生超声图像；强化学习决策模块，用于进行强化学习以得到所述超声扫描模拟模块中机械臂自动移动的控制策略。实现了在虚拟仿真环境中生成大量的训练数据；强化学习算法训练过程全在仿真环境中完成，提高了数据采集以及模型训练的效率；强化学习训练获得的机械臂控制策略可迁移到实际应用中，解决了当前心脏超声扫描全靠人工操作的问题，降低了对人员专业技能的要求。

Description

基于强化学习的自主超声扫描系统、方法、存储器和设备

技术领域

本发明涉及智能医疗检查技术领域，尤其涉及一种基于强化学习的自主超声扫描系统、方法、存储器和设备。

背景技术

超声检查是一种常见的医疗检查方法，通过使用超声波技术来生成人体内部组织的实时图像。它在医疗领域中具有广泛的应用和重要的意义，如下所述：

1.无创性和非放射性：超声检查是一种非侵入性的检查方法，不需要切开皮肤或使用放射线，相对于其他成像技术（如X射线和CT扫描）来说更加安全。

2. 实时成像：超声检查能够实时生成图像，医生可以在检查过程中立即观察到人体组织的结构和运动。这使得超声检查非常适用于指导诊断和操作过程。

3. 多种应用领域：超声检查广泛应用于多个医疗领域，包括妇产科、心脏病学、消化系统、肾脏、肝脏、甲状腺、血管等。它可以帮助医生检测病变、观察器官功能、评估损伤程度以及手术操作。

4. 无辐射影响：相比辐射性成像技术，如X射线和CT扫描，超声检查对患者和医务人员没有辐射影响。这对于特定人群，如孕妇和儿童，以及需要进行多次检查的患者，是一个重要的优势。

5. 低成本和广泛可及性：超声设备相对较便宜，并且在医疗机构中普遍可用。这使得超声检查在医疗资源有限的地区和发展中国家中具有重要的意义，可以提供及时的医疗服务。

总体而言，超声检查在医疗领域中具有重要的意义。它提供了一种安全、实时和无创的成像方法，可以帮助医生进行诊断、监测治疗进展，并且在临床决策和手术操作中起到关键作用。

然而，由于超声医师的技术水平参差不齐，以及医疗资源的不均衡分布，传统的超声检查对于医生的经验和水平依赖较大，导致一些高难度的超声检查，例如心脏超声，医生非常短缺。为了解决这些问题，结合机械臂和人工智能来实现自动超声检查显得尤为重要。

在当前的技术发展中，业界尚且没有利用强化学习进行心脏超声自主检查的先例。其他人体位置的自主超声检查，如脊柱、肝脏等，强化学习相关的研究也是一个相对较新的课题，但总体上已经取得了一些进展。以下是部分相关现有技术以及它们存在的问题：

在题目为“Autonomous Navigation of an Ultrasound Probe TowardsStandard Scan Planes with Deep Reinforcement Learning”的论文（K. Li et al.,IEEE International Conference on Robotics and Automation,May 2021, doi:10.1109/ icra48506.2021.9561295）中，作者提出了一个基于DQN算法的深度强化学习框架，基于实时的脊柱位置的超声图像通过探头的六维姿态控制机械臂的位置以实现对脊柱位置超声图像的自动化扫描。在这个研究中，动作空间采用离散的固定步长的探头移动和转动信号，观察空间定义为通过三维重建技术得到的当前位置的超声图像，奖励函数基于图像质量进行评价。通过该论文提出的方法可以实现脊柱等位置的自动化超声扫描，但该方案将机械臂的运动离散为固定步长的离散动作，所以在远端（远离目标位置）时扫描效率较低，同时该方案不能适用于心脏等具有动态信息的器官的扫描过程。

在题目为“Autonomic Robotic Ultrasound Imaging System Based onReinforcement Learning,”的论文（G. Ning, X. Zhang, and H. Liao, IEEETransactions on Biomedical Engineering, vol. 68, no. 9, pp. 2787–2797, 2021,doi: 10.1109/tbme.2021.3054413）中，作者基于强化学习算法提出了一个超声自动扫描系统的框架，与前一篇论文研究的区别是在该研究中，进一步结合一个外部相机提供的图像信息以及机械臂末端的力传感器信息作为训练一个特性提取神经网络的基础。然后利用该神经网络模拟超声模拟采集系统，也就是说，该神经网络中集成了超声影像信息，利用该神经网络可以只需要外部相机提供的图像信息便可进行训练。该论文研究的方案同样不能适应于心脏等动态脏器的自动扫描，同时该方案采用的利用神经网络近似模拟超声图像信息的方案只适用于结构较为简单的脏器扫描，对于心脏超声的建模，该方案很难适用。

总体来说，相对于这些论文的研究，心脏超声由于心脏跳动带来的动态特性，其技术实现相对更复杂。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下技术方案。

本发明第一方面提供了一种基于强化学习的自主超声扫描系统，包括：

超声扫描模拟模块，用于模拟超声探头、超声扫描目标以及与超声探头连接的机械臂，还用于模拟机械臂在控制策略下自动移动，以模拟超声探头与超声扫描目标进行交互并产生超声图像；

强化学习决策模块，用于进行强化学习以得到所述超声扫描模拟模块中机械臂自动移动的控制策略；在强化学习中，将所述超声扫描模拟模块产生的超声图像作为环境输入状态，将所述超声扫描模拟模块中的机械臂向目标位置的移动作为动作输出，将所述超声扫描模拟模块产生的超声图像的质量评分作为奖励。

优选地，所述超声扫描目标包括具有跳动特性的心脏以及具有非跳动性的器官。

优选地，所述超声扫描模拟模块包括超声图像产生模拟模块以及机械臂移动模拟模块，所述超声图像产生模拟模块包括超声探头模型和超声扫描目标模型，用于实现超声探头模型与超声扫描目标模型进行交互并产生超声图像；所述机械臂移动模拟模块包括机械臂模型，用于实现机械臂在控制策略下自动移动。

优选地，所述超声图像产生模拟模块是基于Unity游戏引擎搭建的，搭建的内容包括：超声探头模型与超声扫描目标模型的导入、包含超声探头模型与超声扫描目标模型的场景的构建、超声探头模型的位置和姿态的控制、超声探头模型与超声扫描目标模型的交互、模拟超声切面的获取、超声扫描目标模型的跳动以及各模型的参数设置。

优选地，所述机械臂移动模拟模块是利用Mujoco搭建的，搭建的内容包括：机械臂模型的导入、病人模型和病床模型的导入、控制策略对机械臂模型末端位置的控制、对病床模型高度的调整、病人模型姿态的调整以及机械臂模型在移动过程中对病人模型的表面追踪。

优选地，在所述强化学习决策模块中，按照如下方式设置奖励函数：基于当前超声图像与目标超声图像之间的相对距离进行设置，或基于当前超声图像与目标超声图像的相似度作为奖励信号进行设置；其中，所述目标超声图像按照如下方法获取：首先根据超声图像相似性的指标确定目标超声图像的特征，然后根据目标超声图像的特征选取目标超声图像。

优选地，在所述强化学习决策模块中，选择基于策略梯度的强化学习模型，该模型采用基于CNN的神经网络作为图像特征提取网络，采用MLP结构组成策略网络。

本发明第二方面提供了一种基于强化学习的自主超声扫描方法，包括：获取待超声扫描目标的结构，以及待使用的超声探头和机械臂的结构；

根据待超声扫描目标的结构，以及待使用的超声探头和机械臂的结构，搭建如第一方面所述的基于强化学习的自主超声扫描系统，得到待使用的机械臂的控制策略；

将控制策略用于待使用的机械臂以控制其自动移动完成自主超声扫描。

本发明还提供了一种存储器，存储有多条指令，所述指令用于实现如第二方面所述的基于强化学习的自主超声扫描方法。

本发明还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如第二方面所述的基于强化学习的自主超声扫描方法。

本发明的有益效果是：本发明提供的基于强化学习的自主超声扫描系统、方法、存储器和电子设备，通过搭建超声扫描模拟模块，实现对超声探头、超声扫描目标、机械臂的模拟，以及对机械臂在控制策略下自动移动，以使超声探头与超声扫描目标进行交互并产生超声图像的模拟，实现了对真实场景下的超声扫描过程的高度模拟，在虚拟仿真环境中可生成大量的强化学习训练数据，降低了对实际扫描数据的依赖；另外，强化学习算法可以学习复杂的控制策略，使机械臂能够自动移动，完成超声扫描和图像生成采集及路径规划等扫描相关任务；而且本发明中，强化学习算法训练过程全在仿真环境中完成，避免可能的安全隐患，同时大大提高了数据采集以及模型的训练效率；由于本系统是模拟真实场景的扫描环境和扫描过程，因此强化学习训练获得的机械臂控制策略可迁移到实际应用中，部署时无须对策略进行大幅调整。所以，本发明提供的技术方案解决了当前心脏超声扫描全靠人工操作的问题，实现了自动扫描过程。可广泛应用于心脏超声的医学检查中，大大简化操作流程，降低要求的专业技能。也可推广到其他医学图像的采集中，实现医学影像的自动化获取。

附图说明

图1为本发明所述基于强化学习的自主超声扫描系统的功能结构示意图；

图2为本发明所述基于强化学习的自主超声扫描方法的流程示意图。

具体实施方式

为了更好地理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细地说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

实施例一

如图1所示，本发明实施例提供了一种基于强化学习的自主超声扫描系统，包括：超声扫描模拟模块101，用于模拟超声探头、超声扫描目标以及与超声探头连接的机械臂，还用于模拟机械臂在控制策略下自动移动，以模拟超声探头与超声扫描目标进行交互并产生超声图像；强化学习决策模块102，用于进行强化学习以得到所述超声扫描模拟模块中机械臂自动移动的控制策略；在强化学习中，将所述超声扫描模拟模块产生的超声图像作为环境输入状态，将所述超声扫描模拟模块中的机械臂向目标位置的移动作为动作输出，将所述超声扫描模拟模块产生的超声图像的质量评分作为奖励。

其中，所述超声扫描目标包括具有跳动特性的心脏以及具有非跳动性的器官。非跳动性的器官比如脊柱、肝脏等。心脏由于具有跳动特性，所以现有的一些自动扫描方法都无法完成心脏的自主超声检查。本发明可以实现心脏的自主超声检查。而且，采用本发明的技术方案，可以实现高精度的超声自主扫描过程：相对于现有的人工扫查过程，本发明通过结合强化学习算法，能够实现对机械臂末端探头的精确位置控制和恒定的力度控制，从而确保了超声波探头以恒定的力度接触人体，并在需要扫描的区域内精确地移动。这将极大地提高超声图像的质量和稳定性，也降低了对操作员技术水平的要求；还能够降低对临床超声数据的依赖：应用深度学习方法或者监督学习方法需要利用大量的临床数据用于训练策略模型，但临床数据的获取是一个相对复杂及困难的过程。采用强化学习方法可以降低对于数据的依赖，在较少数据样本的情况下便可以实现对于模型策略的训练；此外还提升了检查的效率：由于本发明可以实现心脏超声自动扫描，可以更快地、更有效地对目标区域进行扫描，从而大大提高了超声检查的效率。同时，由于降低了对操作员技术水平的要求，也可以降低培训成本，进一步提高检查的效率。

在本发明的一个实施例中，所述超声扫描模拟模块包括超声图像产生模拟模块以及机械臂移动模拟模块，所述超声图像产生模拟模块包括超声探头模型和超声扫描目标模型，用于实现超声探头模型与超声扫描目标模型进行交互并产生超声图像；所述机械臂移动模拟模块包括机械臂模型，用于实现机械臂在控制策略下自动移动。

其中，所述超声图像产生模拟模块是基于Unity游戏引擎搭建的，搭建的内容包括：超声探头模型与超声扫描目标模型的导入、包含超声探头模型与超声扫描目标模型的场景的构建、超声探头模型的位置和姿态的控制、超声探头模型与超声扫描目标模型的交互、模拟超声切面的获取、超声扫描目标模型的跳动以及各模型的参数设置。具体的，可以采用如下步骤进行实施：

1.Unity场景搭建：创建Unity项目并导入超声扫描目标（比如心脏）和超声探头的三维模型，并设置超声探头和心脏的相对位置关系；然后创建包含心脏和超声探头的场景，设置摄像机等。

2.心脏跳动的模拟：创建一个脚本来模拟心脏的跳动，根据脚本设置心脏跳动频率等。

3.超声探头位置和姿态控制：使用Unity中的脚本编写控制逻辑，创建一个脚本接收位置信号的输入，实现对超声探头的位置定位。创建数据传递接口，用于从Mujoco模型（机械臂移动模拟模块中的模型）输入和调整超声探头的位置信号。

4.超声探头与心脏的交互：使用Unity的Physics.Raycast方法，使超声探头能够发射射线来模拟超声波。设置交互规则：当超声探头的射线与心脏模型相交时，获取交点的信息，例如交点的位置、法线等，用于后续的超声切面获取。

5.超声图像的获取：使用超声探头与心脏模型超声波（射线）的相交点的位置和法线计算切面的位置和朝向，同时利用脚本参数控制超声切面扇形的半径和角度等，以模拟获取的超声切面的深度及宽度；使用Unity中的着色器和材质，将超声切面以透明或特殊效果渲染出来，同时利用人工智能技术将获得的切面转换成相对真实的超声图像；创建数据传递接口，用于向Mujoco仿真环境（机械臂移动模拟模块）输出获取的超声图像。

在本发明实施例中，所述机械臂移动模拟模块是利用Mujoco搭建的，搭建的内容包括：机械臂模型的导入、病人模型和病床模型的导入、控制策略对机械臂模型末端位置的控制、对病床模型高度的调整、病人模型姿态的调整以及机械臂模型在移动过程中对病人模型的表面追踪。

其中， Mujoco是一个跨平台的机器人建模软件，是目前机器人强化学习中最流行的仿真器。

本发明中，为实现机械臂自动移动扫描采集超声图像的过程，利用Mujoco搭建Franka Panda机械臂模型以及病床（病人）模型，进而实现机械臂与病人胸腔表面的交互以获取超声图像。具体地，可以采用如下步骤进行实施：

1.Fanka Panda机械臂仿真

模型导入：Mujoco中导入Fanka Panda机械臂模型。

机械臂控制：利用机械臂控制算法对机械臂末端位置进行控制，以保证机械臂可以到达期望位置。

2.病人/病床仿真

模型导入：Mujoco中导入病人/病床模型。

模型位置调整：根据需求利用脚本对病床高度，病人姿态进行调整。

3.机械臂与病人胸腔表面的交互

表面追踪：利用表面追踪算法使得机械臂始终以目标压力对病人胸腔表面进行追踪，使得机械臂在移动过程中不会脱离病人胸腔表面。

在本发明的另一个实施例中，在所述强化学习决策模块中，按照如下方式设置奖励函数：基于当前超声图像与目标超声图像之间的相对距离进行设置，或基于当前超声图像与目标超声图像的相似度作为奖励信号进行设置；其中，所述目标超声图像按照如下方法获取：首先根据超声图像相似性的指标确定目标超声图像的特征，然后根据目标超声图像的特征选取目标超声图像。

另外，在所述强化学习决策模块中，可以采用如下步骤进行实施：

1.确定观察空间和动作空间

观察空间：根据机械臂需要完成的任务，观察空间设置为超声图像。

动作空间：动作空间是期望机械臂达到的目标位置。

2.选择强化学习算法

根据观察空间以及动作空间特性，选择基于策略梯度的强化学习算法，如Proximal Policy Optimization (PPO)、Trust Region Policy Optimization (TRPO)或Soft Actor-Critic (SAC)等。

3.实现强化学习算法训练过程

框架定义：定义网络结构、损失函数和优化算法等。

训练过程定义：设计数据采样和训练循环，通过与强化学习环境交互，收集经验数据并更新策略网络。

进行训练和调参：进行多轮的强化学习训练，不断优化机械臂的控制策略；对于奖励函数和超参数进行调参，以提高训练效率和性能。

4.定义神经网络结构

特征提取：基于观察空间为超声图像的事实，选择适合处理图像的神经网络架构，本专利采用基于CNN（Convolutional Neural Network，卷积神经网络）的神经网络作为图像特征提取器。

策略网络：策略网络连接了特征提取层以及动作空间，本专利采用MLP（Multilayer Perceptron，多层感知器）结构组成策略网络。

实施例二

如图2所示，本发明实施例提供了一种基于强化学习的自主超声扫描方法，包括：S201，获取待超声扫描目标的结构，以及待使用的超声探头和机械臂的结构；S202，根据待超声扫描目标的结构，以及待使用的超声探头和机械臂的结构，搭建如实施例一所述的基于强化学习的自主超声扫描系统，得到待使用的机械臂的控制策略；S203，将控制策略用于待使用的机械臂以控制其自动移动完成自主超声扫描。

其中，基于强化学习的自主超声扫描系统的相关内容可参见实施例一的描述，在此不再赘述。

本发明还提供了一种存储器，存储有多条指令，所述指令用于实现如实施例二所述的基于强化学习的自主超声扫描方法。

本发明还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如实施例二所述的基于强化学习的自主超声扫描方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于强化学习的自主超声扫描系统，其特征在于，包括：

强化学习决策模块，用于进行强化学习以得到所述超声扫描模拟模块中机械臂自动移动的控制策略；在强化学习中，将所述超声扫描模拟模块产生的超声图像作为环境输入状态，将所述超声扫描模拟模块中的机械臂向目标位置的移动作为动作输出，将所述超声扫描模拟模块产生的超声图像的质量评分作为奖励；

所述超声扫描目标包括具有跳动特性的心脏；

所述超声扫描模拟模块包括超声图像产生模拟模块以及机械臂移动模拟模块；所述超声图像产生模拟模块包括超声探头模型和超声扫描目标模型，用于实现超声探头模型与超声扫描目标模型进行交互并产生超声图像；所述机械臂移动模拟模块包括机械臂模型，用于实现机械臂在控制策略下自动移动；

所述超声图像产生模拟模块是基于Unity游戏引擎搭建的，搭建的内容包括：超声探头模型与超声扫描目标模型的导入、包含超声探头模型与超声扫描目标模型的场景的构建、超声探头模型的位置和姿态的控制、超声探头模型与超声扫描目标模型的交互、模拟超声切面的获取、超声扫描目标模型的跳动以及各模型的参数设置；

所述机械臂移动模拟模块是利用机器人建模软件Mujoco搭建的，搭建的内容包括：机械臂模型的导入、病人模型和病床模型的导入、控制策略对机械臂模型末端位置的控制、对病床模型高度的调整、病人模型姿态的调整以及机械臂模型在移动过程中对病人模型的表面追踪。

2.如权利要求1所述的基于强化学习的自主超声扫描系统，其特征在于，在所述强化学习决策模块中，按照如下方式设置奖励函数：基于当前超声图像与目标超声图像之间的相对距离进行设置，或基于当前超声图像与目标超声图像的相似度作为奖励信号进行设置；其中，所述目标超声图像按照如下方法获取：首先根据超声图像相似性的指标确定目标超声图像的特征，然后根据目标超声图像的特征选取目标超声图像。

3.如权利要求1所述的基于强化学习的自主超声扫描系统，其特征在于，在所述强化学习决策模块中，选择基于策略梯度的强化学习模型，该模型采用基于CNN的神经网络作为图像特征提取网络，采用多层感知器MLP结构组成策略网络。

4.一种基于强化学习的自主超声扫描方法，其特征在于，包括：

获取待超声扫描目标的结构，以及待使用的超声探头和机械臂的结构；

根据待超声扫描目标的结构，以及待使用的超声探头和机械臂的结构，搭建如权利要求1-3任一项所述的基于强化学习的自主超声扫描系统，得到待使用的机械臂的控制策略；

5.一种存储器，其特征在于，存储有多条指令，所述指令用于实现如权利要求4所述的基于强化学习的自主超声扫描方法。

6.一种电子设备，其特征在于，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如权利要求4所述的基于强化学习的自主超声扫描方法。