CN113470792A

CN113470792A - 用于基于患者的医学图像生成报告的系统、方法和介质

Info

Publication number: CN113470792A
Application number: CN202110618479.5A
Authority: CN
Inventors: 高峰; 白军杰; 陈翰博; 孙善辉; 尹游兵; 特铮; 宋麒
Original assignee: Keya Medical Technology Co Ltd
Current assignee: Keya Medical Technology Co Ltd
Priority date: 2017-11-06
Filing date: 2018-11-05
Publication date: 2021-10-01
Also published as: US11574112B2; CN109887577B; CN109887577A; US20190139218A1; US10803581B2; US20200410678A1

Abstract

本公开涉及用于基于患者的医学图像生成报告的系统、方法和介质。示例性系统包括配置为接收由图像采集装置获取的医学图像的通信接口。所述系统还包括至少一个处理器。所述至少一个处理器配置为接收用户对至少一个视图中的至少一幅医学图像的选择。所述至少一个处理器还配置为基于包括串联连接的卷积神经网络和递归神经网络的学习网络自动生成描述所选择的医学图像的关键词。所述至少一个处理器还配置为接收在所生成的关键词中的关键词选择并基于所述关键词选择生成报告。所述系统另外包括被配置为显示所选择的医学图像和所述报告的显示器。

Description

用于基于患者的医学图像生成报告的系统、方法和介质

本申请是申请号为201811308886.0、申请日为2018年11月5日、发明名称为“用于基于患者的医学图像生成报告的系统、方法和介质”的中国发明专利申请的分案申请。

相关申请的交叉引用

原案基于并要求2017年11月6日提交的美国临时申请No.62/582,092的优先权的利益，并且其是2018年10月8日提交的美国申请No.16/154,681的部分继续申请，这两个申请均以引用的方式整体并入本文。

技术领域

本公开涉及诊断报告系统，更具体地，涉及诊断报告系统，该诊断报告系统基于用户对医学图像的关注的视图和/或区域的选择来生成医学诊断报告，生成描述医学图像的关键词，并根据用户对关键词的选择来创建诊断报告。

背景技术

放射科医生解读医学图像，以观察异常并对疾病进行诊断。撰写诊断报告也是放射科医师/临床医生日常工作的一部分。例如，医学诊断报告描述和总结了医学图像(例如X射线图像、计算机断层扫描(CT)图像、磁共振成像(MRI)图像、超声图像等)中的重要发现。患者的医学诊断报告通常被认为是患者的医学概况的非常重要的组成部分。然而，目前可用于生成医学诊断报告的过程是低效的。

具体地，当前可用于生成医学诊断报告的过程是耗时的，这主要是由于两个原因。首先，当前可用的过程需要在能够记录任何发现之前仔细地人工肉眼检查患者的一个或数幅医学图像。与稀疏分布的病变相比，医学图像可能非常大，因此搜索可疑区域可能花费大量时间。其次，发现和初步结论可能需要被手动构建成报告，该报告只能由经授权的医学专业人员(如放射科医生或临床医生)书写或录音(口述)。

本公开的实施例通过提供能够自动分析医学图像、检测可疑区域并生成诊断报告的诊断报告系统来解决上述问题。

发明内容

本公开的实施例提供一种用于基于患者的医学图像生成报告的系统。所述系统包括配置为接收由图像采集装置获取的医学图像的通信接口。所述系统还包括至少一个处理器。所述至少一个处理器配置为接收用户对至少一个视图中的至少一幅医学图像的选择。所述至少一个处理器还配置为基于包括串联连接的卷积神经网络和递归神经网络的学习网络自动生成描述所选择的医学图像的关键词。所述至少一个处理器还配置为接收在所生成的关键词中的关键词选择并基于所述关键词选择生成报告。所述系统另外包括被配置为显示所选择的医学图像和所述报告的显示器。

本公开的实施例还提供一种用于基于患者的医学图像生成报告的方法。所述方法包括由通信接口接收由图像采集装置获取的医学图像。所述方法还包括接收用户对至少一个视图中的至少一幅医学图像的选择。所述方法还包括由至少一个处理器基于学习网络自动生成描述所选择的医学图像的关键词，所述学习网络包括串联连接的卷积神经网络和递归神经网络。所述方法还包括接收在所生成的关键词中的关键词选择，由所述至少一个处理器基于所述关键词选择生成所述报告，并且在显示器上显示所选择的医学图像和所述报告。

本公开的实施例还提供一种非暂时性计算机可读介质，其具有存储在其上的指令，所述指令在由至少一个处理器运行时，使得所述至少一个处理器执行用于基于患者的医学图像生成报告的方法。所述方法包括接收由图像采集装置获取的医学图像。所述方法还包括接收用户对至少一个视图中的至少一幅医学图像的选择。所述方法还包括基于学习网络自动生成描述所选择的医学图像的关键词，所述学习网络包括串联连接的卷积神经网络和递归神经网络。所述方法还包括接收对所生成的关键词中的关键词选择，基于所述关键词选择生成所述报告，并且在显示器上显示所选择的医学图像和所述报告。

应当理解，前面的一般性描述和下面的详细描述都只是示例性和说明性的，并不是对要求保护的本发明的限制。

附图说明

图1示出了根据本公开的实施例的示例性诊断报告生成系统的框图。

图2A-图2D示出了根据本公开的实施例的图1的诊断报告生成系统的示例性用户界面。

图3示出了根据本公开的实施例的用于生成诊断报告的示例性方法的流程图。

图4示出了根据本公开的实施例的示例性深度学习诊断报告生成过程的数据流程图。

具体实施方式

现在将详细参考示例性实施例，其示例在附图中示出。只要有可能，在整个附图中将使用相同的附图标记来表示相同或相似的部件。

本公开的实施例提供医学图像的自动分析和医学诊断报告的自动生成。具体地，根据本公开的实施例构成的系统可以自动分析医学图像，检测可疑区域，并生成诊断报告。在一些实施例中，可以通过基于深度学习的图像处理和自然语言处理的后端处理来支持该系统。在一些实施例中，使用该系统的医学专业人员(例如，放射科医师、临床医生或医生)可以编辑/修正算法生成的诊断报告，并且可以通过交互式用户界面添加新的发现。放射科医师/临床医生可以例如通过交互式用户界面手动录入或口述编辑/修正。例如，医生可以通过从生成的报告中选择至少一个医学关键词在生成的报告中过滤期望的句子。在一些实施例中，除了提供基于全部图像的诊断报告之外，根据本公开的实施例配置的系统还可以支持更精细尺度的描述的生成。例如，用户可以在至少一幅医学图像中选择至少一个关注区域，并且系统可以根据所选择的关注区域自动生成诊断描述。预期的是，本公开中所公开的系统和方法可以显著减少医学专业人员需要花费在每个患者身上的时间量，并且能够帮助提高疾病诊断的效率。

在一些实施例中，根据本公开的实施例配置的系统可以支持针对全部图像(或同一患者的多幅图像)和/或特定的关注区域两者的医学报告的自动或半自动生成。所述报告可包括临床观察的描述。所述报告还可以包括与观察相关的图像。

在一些实施例中，根据本公开的实施例配置的系统可以生成并显示临床观察的描述的关键词。所述系统可以提供允许用户通过选择关键词来选择要报告的内容的界面。

在一些实施例中，可以基于用户选择观看的图像来交互地生成描述和关键词。例如，如果用户选择平铺所有图像以供查看，则系统可以生成对图像的整体印象的描述。另一方面，如果用户选择观看三维(3D)图像的切片，则系统可以生成该特定切片的描述。如果用户选择放大并查看图像切片的放大部分，则系统可以相应地生成放大部分的描述。

在一些实施例中，可以通过结合系统可用的标注信息来交互地生成描述和关键词。例如，用户可以在图像上标注，并且系统可以在生成描述和关键词时包括标注信息。

在一些实施例中，可以通过结合系统可用的语音信息来交互地生成描述和关键词。例如，用户可以选择记录(例如，描述图像或图像的一部分的)语音，并且系统可以在生成描述和关键词时包括语音信息。

在一些实施例中，根据本公开的实施例配置的系统可以自动检测所记录的语音是否是完整描述(例如，不仅仅是一组关键词)。如果确定语音是完整描述，则系统可以将语音转换为文本(例如，利用至少一种语音识别技术)并将转换后的文本添加到报告中。

在一些实施例中，可以通过结合系统可用的文本信息来交互地生成描述和关键词。例如，用户可以录入关键词或句子作为文本信息，并且系统可以在生成描述和关键词时包括所述文本信息。

在一些实施例中，根据本公开的实施例配置的系统可以由端(例如，医学图像)到端(例如，诊断报告)的深度学习模型后台处理来支持。所述端到端的深度学习模型后台处理可以被配置为结合图像处理卷积神经网络(CNN)、自然语言处理递归神经网络(RNN)和注意力处理。

在一些实施例中，根据本公开的实施例配置的系统可以允许用户在其向报告添加描述时将相关图像添加到所述系统。

在一些实施例中，，根据本公开的实施例配置的交互系统与传统图像的检查/诊断报告撰写过程中涉及的相比，可以显著减少放射科医师/临床医生的时间量和工作量。

图1示出了根据本公开的实施例的示例性诊断报告生成系统100的框图。根据本公开，诊断报告生成系统100可以被配置为基于由图像采集装置101获取的医学图像102生成诊断报告。与本公开一致地，诊断报告生成系统100可以从图像采集装置101接收医学图像102。或者，医学图像102可以存储在图像数据库(未示出)中，并且诊断报告生成系统100可以从所述图像数据库接收医学图像102。在一些实施例中，医学图像102可以是二维(2D)或三维(3D)图像。3D图像可包含数个2D图像切片。在一些实施例中，医学图像102可以包含处于平铺视图下的图像或各种剖视图，例如矢状、冠状和横断视图。

在一些实施例中，图像采集装置101可使用任何合适的成像模态获取医学图像102，包括例如功能性MRI(例如，fMRI，DCE-MRI和扩散MRI)、锥形束CT(CBCT)、螺旋CT、正电子发射断层扫描(PET)、单光子发射计算机断层扫描(SPECT)、X射线、光学断层扫描、荧光成像、超声成像和放射治疗射野成像等。

例如，图像采集装置101可以是MRI扫描仪。MRI扫描仪包括围绕具有磁场的患者管道的磁体。将患者放置在可以移动到患者管道中的衬垫台上。MRI扫描仪还包括在数个方向(例如，x、y和z方向)上的梯度线圈，以在由所述磁体产生的均匀磁场之上产生空间变化的磁场。MRI扫描仪使用的均匀磁场通常在0.2T-7T之间，例如约1.5T或3T。MRI扫描仪还包括射频(RF)线圈以激发患者体内的组织和收发器，以接收组织在回到平衡状态的同时所产生的电磁信号。

作为另一个例子，图像采集装置101可以是CT扫描仪。CT扫描仪包括对身体组织发射X射线的X射线源和接收被身体组织衰减后的残余X射线的接收器。CT扫描仪还包括旋转机构，以在不同视角拍摄X射线图像。这种旋转机构可以是旋转患者的旋转台，或者是围绕患者旋转X射线源和接收器的旋转结构。在不同角度的X射线图像然后由计算机系统处理以构建二维(2D)截面图像或三维(3D)体积图像。

在一些实施例中，如图1所示，诊断报告生成系统100可以包括通信接口110、处理器120、显示器130、输入/输出(I/O)接口140、存储装置150和存储器160。在一些实施例中，诊断报告生成系统100可以具有单个装置中的不同模块，例如集成电路(IC)芯片(实现为专用集成电路(ASIC)或现场可编程门阵列(FPGA))，或具有专用功能的分立装置。在一些实施例中，诊断报告生成系统100的至少一个组件可以被分配在云计算环境中，或者可以替代地或另外地分配在单个位置(例如在放射科医师办公室内或附近的计算机中)或分布式位置。诊断报告生成系统100的组件可以在集成装置中，或者分布在不同装置之间而通过网络(未示出)或至少一个直接通信链路彼此通信。

通信接口110可以经由通信电缆、无线局域网(WLAN)、广域网(WAN)、无线网络(诸如经由无线电波、蜂窝或电信网络、和/或本地或短程无线网络(例如，蓝牙^TM))或其他通信方法向外部系统或装置(例如图像采集装置101)发送数据和从外部系统或装置接收数据。在一些实施例中，通信接口110可以包括集成服务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器或调制解调器，以提供数据通信连接。作为另一个例子，通信接口110可以包括局域网(LAN)卡(例如，以太网适配器)，以提供到兼容LAN的数据通信连接。无线链路也可以由通信接口110实现。在这样的实现中，通信接口110可以经由网络或直接通信链路来发送和接收电信号、电磁信号和/或光学信号，其承载表示各种类型的信息的模拟/数字数据流。

与一些实施例一致地，通信接口110可以接收由图像采集系统101获取的医学图像102。通信接口110还可以将接收的医学图像102提供给存储装置150和/或存储器160以用于存储或提供给处理器120以进行处理。

处理器120可包括任何适当类型的通用或专用微处理器、数字信号处理器或微控制器。处理器120可以被配置为专用于诊断报告生成的独立处理器模块。或者，处理器120可以被配置为共享处理器模块，用于执行与诊断报告生成无关的其他功能。

如图1所示，处理器120可以包括数个模块(也称为单元)，例如图像处理单元122、深度学习诊断报告单元124等。这些模块(以及任何相应的子模块或子单元)可以是处理器120的硬件单元(例如，集成电路的部分)，其被设计用于与其他组件一起使用；或者软件单元，其由处理器120通过执行至少一部分程序来实现。所述程序可以存储在计算机可读介质(例如，存储装置150、存储器160或外部存储单元)上，并且当由处理器120执行时，它可以执行至少一个功能或操作。虽然图1示出了在一个处理器120内的单元122和124两者，但是可以预期这些单元可以分布在彼此接近或远离的多个处理器之中。

图像处理单元122可以被配置为处理通过通信接口110接收的医学图像102。在一些实施例中，图像处理单元122可以对医学图像102执行预处理，例如滤波以减少图像伪像或噪声，以及平衡图像质量，例如，通过调整图像的曝光参数来增加对比度。在一些实施例中，预处理还可以包括医学图像102的尺寸调整或标准化。这种预处理可以在医学图像102显示在用户界面(例如，在显示器130上)之前调节医学图像102。在一些实施例中，图像处理单元122还可以执行计算机辅助诊断功能，例如识别与可能疾病相关的明显(conspicuous)结构。

深度学习诊断报告单元124可以被配置为执行报告生成算法以基于图像处理单元122的输出生成诊断报告。在一些实施例中，诊断报告可以包括各种患者、检查和诊断信息。在一些实施例中，诊断报告可以由深度学习生成单元124自动或半自动生成。在一些实施例中，深度学习生成单元124可以通过使用稍后将更详细描述的I/O接口140与来自用户105(例如，放射科医师)的输入交互地生成诊断报告。

在一些实施例中，深度学习诊断报告单元124可以使用至少一个深度学习方法来生成报告的诊断内容。深度学习生成单元124可以从医学图像102推断报告的文本信息。

在一些实施例中，深度学习诊断报告单元124可以应用端到端学习网络来从医学图像102推断文本信息。端到端学习网络可以包括两个部分：从医学图像102提取图像特征的第一部分，以及使用图像特征确定诊断描述和关键词的第二部分。在一些实施例中，端到端学习网络的第一部分可以包括卷积神经网络(CNN)。在一些实施例中，端到端学习网络的第二部分可以包括递归神经网络(RNN)。RNN可以基于图像特征生成至少一幅医学图像的自然语言描述。在一些实施例中，RNN还可以从自然语言描述中确定关键词，并将关键词提供给用户以供选择。可以基于用户选择的关键词来生成报告中包括的文本。

在一些实施例中，端到端的学习网络可以包括CNN和RNN之间的注意力层，其为图像的不同区域中的图像特征分配权重。分配的权重可以取决于各种因素而不同。可以联合训练CNN、RNN以及注意力层以增强端到端学习网络的性能。例如，联合损失函数可用于考虑CNN、RNN和注意力层的组合性能。

在一些实施例中，深度学习诊断报告单元124还可以在生成报告时分析包含在患者信息中的元数据。元数据可以通过患者登记来记录或者通过医学图像102生成。例如，元数据可以包括患者的年龄和性别、患者病史和家族病史等。例如，可以训练端到端学习网络以根据患者信息解读医学图像102。例如，与年长患者的图像相反，可以针对儿科患者的图像提取不同的图像特征。在另一个例子中，肺癌的诊断可以基于患者的吸烟史而改变。

在一些实施例中，深度学习诊断报告单元124可以建模和构建诊断报告。该报告可以包括文本信息，该文本信息指示检测到的对象的类型(例如，颅内出血)，以及检测到的对象的位置(例如，左额叶)，等等。在一些实施例中，所述文本信息可以进一步指示定量分析的结果，例如直径、体积和密度分布等。例如，报告可以指示对象的大小和形状(例如，2.6×2.3cm球形)。该报告还可以包括深度学习诊断报告单元124被配置为从医学图像102推断的其他发现，例如是否可以观察到任何骨折，或者检测到的对象可能是良性的还是恶性的。在一些实施例中，报告可以包括2D/3D图像的屏幕截图。

处理器120可以在显示器130上呈现用户界面的可视化。显示器130可以包括液晶显示器(LCD)、发光二极管显示器(LED)、等离子显示器或任何其他类型的显示器，并且提供在显示器上呈现的图形用户界面(GUI)，用于用户输入和数据描述。显示器130可以包括许多不同类型的材料，例如塑料或玻璃，并且可以是触敏的以接收来自用户的命令。例如，显示器可以包括基本上刚性的触敏材料，例如Gorilla玻璃^TM，或基本上易弯的触敏材料，例如Willow玻璃^TM。

用户界面可以示出诸如医学图像102和由深度学习生成单元124生成的诊断报告之类的数据。在一些实施例中，医学图像102和诊断报告可以并排显示。例如，图2A-2D示出了图1中所示的根据本公开实施例的诊断报告生成系统100的示例性用户界面200。在示例性用户界面200中，图像213显示在右手侧，诊断报告231显示在左手侧。如图2A-2D所示，用户界面200还可包括任务栏201、视图选择栏210、图像编辑工具栏211、用户输入区域220和报告编辑工具栏230。然而，可以预期视图的相对位置和配置仅是示例性的，并且可以在其他实施例中重新布置。

在一些实施例中，诊断报告生成系统100可以在显示器130上显示的用户界面中提供交互式工具，以允许用户105(例如，放射科医师/临床医生)编辑医学图像和/或诊断报告。回到图1，在一些实施例中，用户105可以经由I/O接口140提供用户交互106。I/O接口140可以是输入/输出设备，其被配置为接收用户输入或向用户提供系统输出。例如，I/O接口140可以包括键盘、鼠标、点击按钮、拨号盘、触控笔、触摸屏、麦克风、打印机、虚拟现实(VR)眼镜/控制器或任何其组合。

如图2A-2D所示，图像213可以以不同视图显示。图像213可以是医学图像102的子集。对于3D图像，视图可以包括但不限于平铺视图、轴状视图、冠状视图、矢状视图、3D视图或多个视图的组合(例如，包括轴状/冠状/矢状视图的三视图)。在一些实施例中，用户105可以例如通过点击相应按钮从视图选择栏210中选择期望的图像视图。例如，图2A-2C中的用户界面200示出了当在视图选择栏210中选择“查看全部”按钮时的所有图像213，并且图2D中的用户界面200仅显示轴状图像213，这是因为在视图选择栏210中选择了“轴状”按钮。对于不同类型的视图，用户105可以使用I/O接口140采用不同的交互式视图操作，例如鼠标点击、键盘操作以及触摸屏轻击等。这些操作可以包括但不限于放大操作、缩小操作、移位操作、旋转操作、平移操作、倾斜操作和图像调整操作(例如图像对比度调整操作)。

用户105可以通过用户输入区域220与报告生成处理交互。例如，可以从处于所选视图中的图像213的自然语言描述中选择关键词。这些描述的关键词可以在关键词显示区域223中示出。在一些实施例中，可以根据某些规则(例如，重要性、频率)对关键词进行排序。在一些实施例中，如果空间有限，则可以仅显示顶部的关键词(例如，在重要性、出现频率等方面)。用户105可以通过点击关键词显示区域223内的关键词将相应的自然语言描述添加到诊断报告231。用户105还可以通过点击“全部添加”按钮224来选择将所有自动生成的描述添加到报告中。在一些实施例中，如图2A-2C所示，生成的诊断报告231可以包括各种文本界面232，每个文本界面232包括示出自动生成的描述的消息框233。

在一些实施例中，用户界面200可以提供包括例如绘图工具的图像编辑工具栏211，以允许用户交互地标注图像213。例如，如图2B所示，用户105可以从图像编辑工具栏211中选择绘图工具并在至少一个图像213上应用该工具。标注选项可以包括但不限于绘制圆形、绘制正方形、绘制线条、绘制曲线、绘制标尺、放置针点以及绘制蒙版。在一些实施例中，标注可指示图像213中的关注区域(ROI)。基于标注和正在观看的图像，处理器120可自动调整并生成新描述和对应关键词。例如，当用户105在图像213中的ROI周围绘制圆圈时，如图2B所示，可以用与所选择的ROI相关联的关键词来更新关键词显示区域223。在一些实施例中，还可以相应地调整关键词的顺序。例如，因为所选择的ROI对应于主要包含软组织的鼻区域，所以关键词“鼻”和“软组织”可以首先列在关键词显示区域223中。

在一些实施例中，用户105可以通过点击说话按钮221使用语音输入以生成描述。在点击说话按钮221之后，语音内容可以由I/O接口140(例如，麦克风)接收。基于语音内容和所观看的图像，处理器120可以自动调整和生成新描述和相应的关键词。也可以相应地调整关键词的顺序。在一些实施例中，处理器120还可以检测语音内容是否是所观看图像的完整描述。如果语音内容是图像的完整描述，则可以自动转录语音内容的文本并将其作为描述的一部分添加到报告中。

在一些实施例中，用户105可以在消息框222中录入文本。输入的文本可以是关键词、短语或句子。例如，用户105可以在消息框222中输入“脑部”，如图2C所示。基于输入的文本和所查看的图像，处理器120可以自动调整并生成新描述和相应的关键词。也可以相应地调整关键词的顺序。例如，如图2C所示，因为输入了“脑部”，与图2A中的那些关键词相比，与脑部相关联的关键词，例如“左额叶”、“灰质”、“白质”等等排序更高。

在一些实施例中，如图2A-2C所示，用户105可以通过编辑消息框233来编辑诊断报告231。例如，用户可以通过例如使用键盘或触摸屏删除、添加或修改描述来编辑消息框233中的“整体印象”的描述。用户105还可以使用报告编辑工具栏230来编辑消息框233的内容。在一些实施例中，诊断报告231还可以包括图像视图。例如，如图2D所示，可以将当前视图(例如，轴状视图)的屏幕截图234添加到诊断报告231中。在一些实施例中，可以通过开关212打开或关闭该特征。如图2D所示，还可以添加另一个消息框233以显示屏幕截图234中所示的对应切片的自动生成的印象。在一些实施例中，对于所观察的相同图像或相同图像集，描述和屏幕截图可以分组为块，用户可以在必要时删除该块。

返回图1，存储装置150和存储器160可以包括任何适当类型的大容量存储器，其被提供以存储处理器120可能需要以操作的任何类型的信息。存储装置150和/或存储器160可以是易失性或非易失性的、磁性的、基于半导体的、基于磁带的、光学的、可移动的、不可移动的或其他类型的存储装置或有形(即，非暂时性)计算机可读介质，包括但不限于ROM、闪存、动态RAM和静态RAM。存储装置150和/或存储器160可以被配置为存储可以由处理器120执行以执行本文公开的功能的至少一个计算机程序。例如，存储装置150和/或存储器160可以被配置为存储可以由处理器120执行以用于图像处理和诊断报告生成的程序。

存储装置150和/或存储器160还可以被配置为存储由处理器120使用的信息和数据。例如，存储装置150和/或存储器160可以被配置为存储由图像采集系统101获取的医学图像102、通过I/O接口140接收的患者信息和用户输入数据，例如语音内容。存储装置150和/或存储器160还可以存储由图像处理单元122生成的图像处理结果，以及在图像处理期间创建的中间数据。存储装置150和/或存储器160还可以存储由深度学习诊断报告单元124生成的诊断报告的各个部分，诸如图像、表格和文本等。各种类型的数据可以永久地存储、或定期移除、或者在处理每帧数据后立即丢弃。

图3示出了根据本公开的实施例的用于生成诊断报告的示例性方法300的流程图。例如，方法300可以由图1中所示的诊断报告生成系统100实现。然而，方法300不限于该示例性实施例。方法300可以包括如下所述的步骤S302-S322。应了解，一些步骤可以是可选的以执行本文提供的公开内容。此外，一些步骤可以同时执行，或者以与图3中所示不同的顺序执行。

在步骤S302中，诊断报告生成系统100可以例如从图像采集装置101或医学图像数据库接收与患者相关联的至少一个幅医学图像102。医学图像102可以是2D或3D图像。医学图像102可以从任何成像模态生成，例如功能性MRI(例如，fMRI、DCE-MRI和扩散MRI)、锥形束CT(CBCT)、螺旋CT、正电子发射断层扫描(PET)、单光子发射计算体层摄影术(SPECT)、X射线、光学断层摄影术、荧光成像、超声成像和放射治疗射野成像等，或其组合。在一些实施例中，可以使用造影剂生成医学图像102以增强图像对比度。在一些实施例中，诊断报告生成系统100可以预处理医学图像102。在一些实施例中，预处理可以包括调整大小、标准化、滤波、对比度平衡等。

在步骤S304中，诊断报告生成系统100可以接收用户对视图中的至少一个图像213的选择。例如，视图可以包括但不限于平铺视图、轴状视图、冠状视图、矢状视图、3D视图或多个视图的组合(例如，三视图)。在一些实施例中，用户105可以例如通过点击相应的按钮从如图2A-2D中所示的视图选择栏210中选择期望的图像视图。

在步骤S306中，诊断报告生成系统100可以从所选择的图像213中提取图像特征。在一些实施例中，在步骤S306中实现CNN以提取图像特征。在步骤S308中，诊断报告生成系统100可以确定注意力权重。在一些实施例中，注意力权重可以被实现为数值，所述数值用于量化图像的每个图像特征对于所生成报告中输出特定词的决定的贡献。例如，较高值的注意力权重指示相应的图像特征更重要。在步骤S310中，可以利用相应的注意力权重对提取的图像特征进行加权。加权图像特征可以反映各自的重要级别。

在步骤S312中，诊断报告生成系统100可以基于加权图像特征(即加权后的图像特征)生成所选图像213的自然语言描述。在一些实施例中，可以实现RNN以生成自然语言描述。在步骤S314中，诊断报告生成系统100还可以从自然语言描述中选择关键词，并将关键词提供给用户以供选择。例如，关键词可以在图2A-图2D的关键词显示区域223中显示给用户。在一些实施例中，可以基于关键词与所选图像的相关性对关键词进行排序，并根据它们各自的排名进行显示。如果RNN返回长的关键词列表，则可以显示排序列表中的前N个关键词。

在步骤S316中，诊断报告生成系统100可以接收用户交互。在一些实施例中，可以通过I/O接口140提供用户交互。作为一个示例，用户105可以选择ROI或以其他方式标注当前查看的图像213。例如，用户105可以从图像编辑工具栏211中选择绘图工具并在至少一个图像213上应用该工具以绘制ROI，如图2B所示。作为另一示例，用户105可以通过点击说话按钮221来选择使用语音输入来生成描述，并且向麦克风说话以提供语音内容。作为另一示例，用户105可使用键盘或触摸屏录入词、短语或句子。例如，用户105可以在消息框222中输入“脑部”，如图2C所示。

在步骤S318中，诊断报告生成系统100可以基于用户交互来调整自然语言描述和关键词。例如，诊断报告生成系统100可以通过基于所选择的ROI、从用户的语音输入转录的语音内容、或由用户录入的文本输入执行步骤S306-S314来更新描述和关键词。在一些实施例中，还可以相应地调整关键词的顺序。

在步骤S320中，诊断报告生成系统100可以接收用户对关键词的选择。例如，用户105可以点击关键词显示区域223中显示的关键词以选择他/她想要包括在诊断报告231中的至少一个关键词。在步骤S322中，诊断报告生成系统100可以基于选定的关键词生成诊断报告。在一些实施例中，可以基于用户选择的关键词生成与报告中包括的用户选择的关键词对应的自然语言描述。例如，如图2A所示，用户105可以选择关键词“颅内出血”、“无颅骨骨折”、“左额叶”和“2.6×2.3”。于是，对应于这些关键词的描述可以被添加到诊断报告231的消息框233中，即“能够观察到颅内出血”对应于关键词“颅内出血”，“在左额叶中存在由低密度带包围的2.6×2.3cm球形高密度区域”对应于关键词“左额叶”和“2.6×2.3”，以及“骨结构完好且未能观察到明显的颅骨骨折”对应于关键词“无颅骨骨折”。生成的报告，例如诊断报告231，可以被显示在显示器130上的用户界面200中。

图4示出了根据本公开的实施例的示例性端到端诊断报告生成模型400。例如，端到端诊断报告生成模型400可以由图1中的诊断报告生成设备100的深度学习诊断报告单元124使用。在一些实施例中，可以实现模型400以执行图3中的方法300的步骤S306-S312。如下所述，模型400可以包括学习网络和层402-428。然而，应当理解，模型400不限于图4中所示的示例性实施例。

在一些实施例中，端到端诊断报告生成模型400可以将至少一个预处理图像(例如，医学图像402)与输入图像的注意力权重一起作为输入并输出医学图像的描述(例如，基于文本的描述)。在一些实施例中，医学图像402可以是由用户选择的图像视图或图像的ROI。在一些实施例中，当输入包括多幅图像时，可以将所有图像作为整体(联合地)输入到模型400中并同时处理。

如图4所示，在一些实施例中，端到端诊断报告生成模型400可以包括用于从医学图像402提取CNN特征406的CNN模块404、用于对报告建模的RNN模块412以及作为CNN特征406与生成的报告之间的连接的注意力层408的组合。在一些实施例中，CNN模块404被配置为从医学图像402提取图像特征。例如，CNN模块404可以包括VGG16/19CNN网络、稠密连接卷积神经网络(Densenet CNN网络)或其他类型的合适CNN网络。

在一些实施例中，注意力层408可以由权重矩阵构造，权重矩阵为医学图像402的不同区域中的图像特征分配不同的权重。CNN特征406可以利用注意力层408生成的注意力权重进行加权并成为加权特征410。加权特征410强调图像中的某些区域以引导报告中的词(例如，序列中的后续词)的生成。在一些实施例中，注意力层408可以采用CNN特征406、由RNN模块412在先前迭代中生成的隐藏状态矢量414(以及必要时的附加词特征428)作为输入。

在一些实施例中，附加词特征428可用于基于由用户选择/添加的关键词424(例如，使用图2A-2D中的用户交互区域220)来引导所生成的报告。用户可以从系统100自动生成的关键词中选择至少一个关键词，或者添加其他关键词。在一些实施例中，附加词特征428可以由要求处理层426基于用户选择/添加的关键词424生成。在一些实施例中，要求处理层426可以由多层RNN实现，例如，长短期记忆(LSTM)或门控循环单元(GRU)。在一些实施例中，附加词特征428可以嵌入关键词要求，并且可以用作对注意力层408、RNN模块412和输出层416的输入，以引导词生成过程来匹配要求。

在一些实施例中，RNN模块412可以使用加权特征410、在先前迭代中生成的词的词嵌入418作为输入，并生成隐藏状态矢量414。在一些实施例中，如有必要，RNN模块412可以另外采用附加的词特征428作为输入。在一些实施例中，RNN模块412可以通过递归地重复长短期记忆(LSTM)或门控递归单元(GRU)来构造。

在一些实施例中，输出层416可以基于隐藏状态矢量414在每个时间点从词汇表中选择词。在一些实施例中，输出层416可以被构造为全连接层。可以从词汇表连续生成/采样词，直到采样到对报告的结束进行编码的停止标记。在一些实施例中，可以使用输出层416生成的词420以通过嵌入层422来创建词嵌入418。

在一些实施例中，可以使用由放射科医师/临床医生提供的样本医学图像及其对应的诊断报告(例如，基于文本的描述)(用作地面真值)来训练端到端诊断报告生成模型400。对于不具有自然词边界的语言，例如基于字符的语言(例如，中文和日语)，可以先对报告进行词分割，然后将分割后的词馈送到网络中以进行训练。

在一些实施例中，可以使用损失函数来端对端地训练模型，该损失函数组合了对来自CNN模块404和RNN模块412的错误的评估。在一些实施例中，损失函数可以由等式(1)定义：

loss_total＝λ_CNNl_CNN+λ_RNNl_RNN (1)

其中l_CNN是CNN部分中医学图像相关任务的合适损失(例如，对于分类任务的交叉熵损失和对于回归任务的均方根误差)，l_CNN是RNN部分中词正确性的合适损失(典型地，交叉熵损失)，λ_CNN和λ_RNN是控制CNN和RNN损失在总损失中的贡献的正则化参数，以平衡CNN损失和RNN损失的不同大小。在一些实施例中，可以应用梯度下降方法来优化损失函数以确定模型参数的最佳值集。

本公开的另一方案涉及一种存储指令的非暂时性计算机可读介质，所述指令在被执行时使至少一个处理器执行如上所述的方法。计算机可读介质可以包括易失性或非易失性的、磁性的、基于半导体的、基于磁带的、光学的、可移动的、不可移动的或其他类型的计算机可读介质或计算机可读存储装置。例如，如所公开的，计算机可读介质可以是其上存储有计算机指令的存储装置或存储器模块。在一些实施例中，计算机可读介质可以是其上存储有计算机指令的盘或闪存驱动器。

对于本领域技术人员显而易见的是，可以对所公开的系统和相关方法进行各种修改和变化。其他实施例对于本领域技术人员来说，通过考虑说明书和所公开的系统和相关方法的实践是显而易见的。

旨在将说明书和示例仅视为示例性的，真实范围由所附权利要求及其等同物指示。

Claims

1.一种用于基于患者的医学图像生成报告的系统，其包括至少一个处理器，其配置为：

获取医学图像；

基于包括串联连接的卷积神经网络和递归神经网络的学习网络自动生成描述所述医学图像的关键词；

接收用户对所述医学图像的标注；

基于所述标注自动调整并生成更新的描述和对应的关键词；以及

基于更新的描述和对应的所述关键词，生成所述报告以供显示器显示。

2.根据权利要求1所述的系统，其中，所述标注用于指示所述医学图像中的ROI。

3.根据权利要求1或2所述的系统，其中，所述标注包括绘制圆形、绘制正方形、绘制线条、绘制曲线、绘制标尺、放置针点以及绘制蒙版中的至少一项。

4.根据权利要求1或2所述的系统，其中，所述至少一个处理器还被配置为使用所述卷积神经网络从所述医学图像中提取图像特征。

5.根据权利要求4所述的系统，其中，所述至少一个处理器还被配置为使用所述递归神经网络基于所述图像特征生成所述医学图像的自然语言描述。

6.根据权利要求5所述的系统，其中，所述关键词选自所述医学图像的所述自然语言描述。

7.根据权利要求1或2所述的系统，其中，所述至少一个处理器还被配置为通过优化所述卷积神经网络和所述递归神经网络的联合损失函数来训练所述学习网络。

8.根据权利要求4所述的系统，其中，所述至少一个处理器还被配置为：

确定指示从所述医学图像提取的各个图像特征对每个生成的关键词的贡献的注意力权重；和

对所提取的图像特征用相应的注意力权重进行加权。

9.根据权利要求1或2所述的系统，其中，所述至少一个处理器还被配置为：

接收与生成所述关键词相关联的要求；和

将所述要求输入到所述递归神经网络。

10.根据权利要求1或2所述的系统，还包括：麦克风，其被配置为接收语音输入，其中，所述至少一个处理器还被配置为基于所述语音输入的内容来调整所生成的关键词。

11.根据权利要求1或2所述的系统，其中，所述至少一个处理器还被配置为在所述显示器上示出绘图工具，所述绘图工具被配置为接收标注。

12.根据权利要求1或2所述的系统，其中，所述至少一个处理器还被配置为：

接收文本输入；和

基于所述文本输入调整所生成的关键词。

13.一种用于基于患者的医学图像生成报告的方法，所述方法包括：

获取医学图像；

基于学习网络自动生成描述所述医学图像的关键词，所述学习网络包括串联连接的卷积神经网络和递归神经网络；

接收用户对所述医学图像的标注；

14.根据权利要求13所述的方法，其中，所述标注用于指示所述医学图像中的ROI。

15.根据权利要求13或14所述的方法，其中，所述标注包括绘制圆形、绘制正方形、绘制线条、绘制曲线、绘制标尺、放置针点以及绘制蒙版中的至少一项。

16.根据权利要求13或14所述的方法，其中自动生成关键词还包括：

使用所述卷积神经网络从所述医学图像中提取图像特征；

使用所述递归神经网络基于所述图像特征生成所述医学图像的自然语言描述；以及

从所述自然语言描述中选择所述关键词。

17.根据权利要求13或14所述的方法，还包括通过优化所述卷积神经网络和所述递归神经网络的联合损失函数来训练所述学习网络。

18.根据权利要求16所述的方法，还包括：

对提取的图像特征用相应的注意力权重进行加权。

19.根据权利要求13或14所述的方法，还包括：

接收与生成所述关键词相关联的要求；和

将所述要求输入到所述递归神经网络。

20.根据权利要求13或14所述的方法，还包括：

接收用户输入，所述用户输入包括语音输入、标注或文本输入中的至少一个；和

根据所述用户输入调整所生成的关键词。

21.一种非暂时性计算机可读介质，其上存储有计算机程序，所述计算机程序在由至少一个处理器运行时执行用于基于患者的医学图像生成报告的方法，所述方法包括：

获取医学图像；

接收用户对所述医学图像的标注；

基于更新的描述对应的所述关键词，生成所述报告以供显示器显示。

22.根据权利要求21所述的非暂时性计算机可读介质，其中所述标注用于指示所述医学图像中的ROI；

所述标注包括绘制圆形、绘制正方形、绘制线条、绘制曲线、绘制标尺、放置针点以及绘制蒙版中的至少一项。