CN116432000A - 基于放射学报告的机器学习 - Google Patents

基于放射学报告的机器学习 Download PDF

Info

Publication number
CN116432000A
CN116432000A CN202310028871.3A CN202310028871A CN116432000A CN 116432000 A CN116432000 A CN 116432000A CN 202310028871 A CN202310028871 A CN 202310028871A CN 116432000 A CN116432000 A CN 116432000A
Authority
CN
China
Prior art keywords
validated
diagnosis
machine learning
trained
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310028871.3A
Other languages
English (en)
Inventor
A·彻库里
E·艾本伯格
E·吉布森
B·杰奥尔杰斯库
G·索扎
M·舒林
D·科马尼丘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Healthineers AG
Original Assignee
Siemens Healthineers AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Healthineers AG filed Critical Siemens Healthineers AG
Publication of CN116432000A publication Critical patent/CN116432000A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Radiology & Medical Imaging (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

本公开实施例涉及基于放射学报告的机器学习。公开了确定经训练的机器学习算法的性能的技术。经训练的ML算法可以被配置为处理医学成像数据,从而基于医学成像数据来生成对患者的至少一个诊断的预测。将患者的至少一个诊断的预测与患者的至少一个诊断的已验证标签进行比较,从而基于比较来确定经训练的ML算法的性能。通过解析患者的已验证的放射学报告来获得患者的至少一个诊断的已验证标签并且医学成像数据与已验证的放射学报告相关联。如果经训练的ML算法的性能低于预定义阈值,则可以基于已验证标签来触发经训练的ML算法的参数的更新。

Description

基于放射学报告的机器学习
技术领域
本公开的各种示例涉及促进对经训练的机器学习算法的性能的评估。本公开的各种示例具体涉及基于对从已验证的放射学报告中解析的至少一个诊断的已验证标签与由经训练的机器学习算法生成的至少一个诊断的预测的比较来确定经训练的机器学习算法的性能。
背景技术
人工智能(AI)算法(诸如,机器学习(ML)算法)在医疗保健领域内的使用越来越受到关注,并且这些算法正在将它们建入临床常规中。在放射领域中使用这些算法的无数好处是无可争辩的。ML算法可以被用来例如基于医学成像数据来预测诊断。由此,可以帮助医生。
根据参考技术,ML算法的训练基于使用大量带注释的数据集,旨在生成稳健并且可泛化的ML算法,诸如深度神经网络(DNN)。
ML算法的传统训练无法虑及临床领域的巨大异质性(“heterogeneity”),例如输入数据、扫描协议、扫描仪类型、人口统计等方面的变化。因此,一旦被部署,经训练的ML算法可能会生成错误或不准确的结果。
目前,此类错误或不准确的结果由临床专家(诸如,医生或放射技术人员)手动标识,这是非常耗时的。此外,由专家提供的单一案例反馈(例如,正确或错误的算法结果)与相当大的实现和使用努力以及偏差相耦合,例如,仅纠正假阴性,但不纠正假阳性。
因此,需要对经训练的ML算法的性能进行评估的先进技术。具体地,需要先进技术来确定处理医学成像数据的经训练的ML算法的性能。
发明内容
独立权利要求的特征满足了这种需要。从属权利要求的特征定义了实施例。
在下文中,将描述确定经训练的ML算法的性能的技术。基于从已验证的放射学报告中解析的至少一个诊断的已验证标签与由经训练的ML算法生成的至少一个诊断的预测的比较,来确定经训练的ML算法的性能。可以基于从已验证的放射学报告中解析的至少一个诊断的已验证标签来执行经训练的ML算法的更新或重新训练。
提供了一种计算机实现的方法。该方法包括获得患者的已验证的放射学报告和与已验证的放射学报告相关联的患者的医学成像数据。该方法还包括解析已验证的放射学报告,以获得至少一个诊断的已验证标签。该方法还包括由经训练的机器学习算法在计算设备处基于医学成像数据生成至少一个诊断的预测。该方法附加地包括基于至少一个诊断的已验证标签与至少一个诊断的预测的比较来确定经训练的机器学习算法的性能。
计算机程序或计算机程序产品或计算机可读存储介质包括程序代码。程序代码可以由至少一个处理器加载并且执行。在加载并且执行程序代码时,至少一个处理器执行方法。该方法包括获得患者的已验证的放射学报告和与已验证的放射学报告相关联的患者的医学成像数据。该方法还包括解析已验证的放射学报告以获得至少一个诊断的已验证标签。该方法还包括由经训练的机器学习算法在计算设备处基于医学成像数据生成至少一个诊断的预测。该方法附加地包括基于至少一个诊断的已验证标签与至少一个诊断的预测的比较来确定经训练的机器学习算法的性能。
设备包括至少一个处理器和至少一个存储器。至少一个处理器被配置为从至少一个存储器加载程序代码并且执行程序代码。在执行程序代码时,至少一个处理器执行方法。该方法包括获得患者的已验证的放射学报告和与已验证的放射学报告相关联的患者的医学成像数据。该方法还包括解析已验证的放射学报告以获得至少一个诊断的已验证标签。该方法还包括由经训练的机器学习算法在计算设备处基于医学成像数据生成至少一个诊断的预测。该方法附加地包括基于至少一个诊断的已验证标签与至少一个诊断的预测的比较来确定经训练的机器学习算法的性能。
该设备可以通过使用包括在数据处理单元中的处理器来执行实现该方法的计算机程序来实现。数据处理单元可以例如包括工作站、服务器、基于云的解决方案或嵌入式设备,例如其可以被集成到医疗成像设备中。
另外,本发明涉及包括指令的计算机程序,当处理器执行该程序时,使处理器执行本发明的方法。
另外,本发明涉及在其上存储有根据本发明的计算机程序的计算机可读存储介质。
特别地,结合根据本发明的计算机实现的方法所描述的特征和优点也可以被设计为根据本发明的设备或根据本发明的计算机程序的对应子单元。反过来,结合根据本发明的设备或根据本发明的计算机程序所描述的特征和优点也可以被设计为根据本发明的方法的对应方法步骤。
应当理解,上面提及的特征和下面将要解释的那些特征不仅可以被用于所指出的各个组合中,而且可以用于其他组合或单独使用而不脱离本发明的范围。
附图说明
图1示意性地图示了关于根据各种示例的系统的细节。
图2是根据各种示例的方法的流程图。
图3是根据各种示例的设备的框图。
具体实施方式
本公开的一些示例通常提供多个电路或其他电气设备。对电路和其他电气设备以及由每个设备提供的功能性的所有引用并不旨在限于仅涵盖本文所图示和描述的内容。虽然可以将特定标签指派给所公开的各种电路或其他电气设备,但是此类标签并不旨在限制电路和其他电气设备的操作范围。这样的电路和其他电气设备可以基于期望的特定类型的电气实现而以任何方式相互组合和/或分离。应当认识到,本文所公开的任何电路或其他电气设备可以包括任何数目的微控制器、图形处理器单元(GPU)、集成电路、存储器设备(例如,FLASH、随机存取存储器(RAM)、只读存储器(ROM)、电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或其其他合适的变体)以及相互协作以执行本文所公开的(多个)操作的软件。此外,电气设备中的任何一个或多个电气设备可以被配置为执行体现在非暂态计算机可读介质中的程序代码,该程序代码被编程为执行如所公开的任何数目的功能。
下面将结合附图详细描述本发明的实施例。应当理解,以下对实施例的描述不具有限制意义。本发明的范围不旨在受以下描述的实施例或附图的限制,这些内容仅被视为说明性的。
附图应被视为示意性表示,并且附图中所图示的元素不一定按比例示出。相反,各种元素被表示为使得它们的功能和一般目的对于本领域技术人员而言变得清楚。附图中所示或本文所述的功能块、设备、组件或其他物理或功能单元之间的任何连接或耦合也可以通过间接连接或耦合来实现。组件之间的耦合也可以通过无线连接来建立。功能块可以以硬件、固件、软件或其组合来实现。
本文所公开的各种技术一般涉及促进评估/确定经训练的ML算法的性能。经训练的ML算法可以被配置为处理医学成像数据,从而基于医学成像数据来生成患者的至少一个诊断的预测。将患者的至少一个诊断的预测与患者的至少一个诊断的已验证标签进行比较,从而基于比较来确定经训练的ML算法的性能。通过解析患者的已验证的放射学报告来获得患者的至少一个诊断的已验证标签并且医学成像数据与已验证的放射学报告相关联。
例如,经训练的ML算法可以被配置为处理医学成像数据,例如描绘患者的解剖学目标区域,例如心脏、肝脏、大脑等。在其他示例中,其他类型的成像数据可以处理,例如投影成像数据,例如用于安全扫描仪或材料检查。
根据本公开,可以处理各种种类和类型的医学成像数据。作为一般规则,经训练的ML算法可能会处理2D图像或在K空间中获得的原始数据。经训练的ML算法可以处理3D深度数据,例如点云或深度图。可以处理例如从计算机断层扫描或磁共振成像中获得的体素数据结构。ML算法可以处理时变数据,其中一维存储不同时间点处的图像或体积表示。
在下文中,将在被配置用于处理医学成像数据的经训练的ML算法的上下文中描述各种示例。然而,类似的技术可以很容易地被应用于成像数据的其他种类和类型的语义上下文。
作为一般规则,各种种类和类型的医学成像数据可以经受本文描述的技术。举数个示例,可以使用磁共振成像(MRI)成像数据,例如K空间中的原始数据或预重建图像。另一示例将涉及计算机断层扫描(CT)成像数据,例如投影视图或预重建图像。又一示例将涉及正电子发射断层扫描(PET)成像数据。其他示例包括超声图像或上面概述的医学成像数据中的至少两个的组合。
作为一般规则,各种种类和类型的ML算法都可以从本文所描述的技术中受益。例如,可以使用深度神经网络,例如具有在输入数据和内核之间执行卷积的一个或多个卷积层的卷积神经网络。也可以使用支持向量机,仅举数个示例。可以使用U-net架构,例如,参见Ronneberger,O.、Fischer,P.和Brox,T.(2015年10月。U-net):Convolutional networksfor biomedical image segmentation(用于生物医学图像分割的卷积网络)。在International Conference on Medical image computing and computer-assistedintervention(医学图像计算和计算机辅助干预的国际会议)上(第234-241页)。斯普林格,查姆。
在本文所描述的示例中,ML算法可以被配置为在处理医学成像数据时执行各种任务。ML算法还可以实现下文介绍的此类任务的组合。例如,ML算法可以被配置为执行疾病的诊断,诸如神经/精神疾病、癌症、肝炎等。此外,ML算法可以被配置为执行医学成像数据的分割。例如,可以分割预定义的解剖特征。在另外的示例中,ML算法可以被配置为执行对象检测。例如,可以围绕在医学图像数据中检测到的预定义对象来绘制边界框。预定义对象可以是预定义解剖特征,例如某些器官或血管、肿瘤部位等。也可以检测异常。从上文可以了解,特定类型的ML算法与本文所描述的技术的功能不是密切相关的。相反,各种种类和类型的ML算法可以受益于本文所描述的技术,即,可以准确地评估这种经训练的ML算法的性能,从而可以准确地重新训练/更新。
各种技术基于这样的结果,即可以通过比较由经训练的ML算法生成的预测诊断与从已验证的放射学报告中解析的已验证诊断来自动评估经训练的ML算法(诸如,上述任何一种算法)的性能。
放射学报告(诸如,由放射科医师制作)旨在促进放射科医师与转诊医师之间的沟通。它是患者的永久健康记录的部分,并且在临床背景下解读调查。尽管到目前为止,放射学报告的结构可能还没有普遍接受的规则,但是可以认为,报告的简洁、一致的顺序既可以减少报告之间的差异,也可以让熟悉格式的转诊人更容易理解信息。例如,如表1中所示,放射学报告可能广泛包括与以下类别相关联的信息:临床转诊、技术、结果、结论和建议。因此,可以根据不同的类别而将放射学报告划分成多个部分。在实践中,可能存在在一个或多个特定医院/机构中可能是一致的特定结构化放射学报告。例如,可能有适用于特定国家、州或同一所大学的医学中心的结构化放射学报告。
Figure BDA0004045846470000061
Figure BDA0004045846470000071
Figure BDA0004045846470000081
表1:放射学报告的示例类别/部分
一般而言,在放射科医师制作放射学报告之后,放射学报告可由至少一名临床转诊人检查、修改和签署,从而生成已验证的放射学报告。已验证的放射学报告可以被存储在数据库中,诸如图片存档和通信系统(PACS)。
根据本公开,(已验证的)放射学报告可以是自由文本报告或结构化报告,例如,跨特定医院或机构一致的结构化报告。传统的放射学报告以自由文本形式来存储,即自由文本报告,因此信息被困在报告的语言中,如果不阅读/分析整个文本就很难找到具体细节。另一方面,在结构化报告中,信息被标准化并且以清晰、有组织的格式来呈现,从而跟踪每个结果的属性(大小、位置等)并且提示放射科医生完成所有所需字段。结构化报告是省时的,并且可以支持用于研究和决策支持的自动分析。结构化报告还可以促进通过自动或半自动方法检索数据,以进行比较、审计和研究。此外,结构化报告可以以带有章节标题的模块化格式被结构化和/或被显示,以模板或清单的形式包含一致的观察顺序,并且使用标准化的语言和词典。在其他示例中,还可以将附加信息集成到结构化报告中,诸如临床数据、技术参数、测量值、注释和关键(相关)图像以及指示与放射学报告相关联的医学成像数据的存储位置的标识符,从而有可能减少歧义并且增加对结果的置信度。
根据本公开,可以应用各种性能测量或性能度量来评估经训练的ML算法的性能。性能测量可以包括准确度、灵敏度和/或特异性。准确度在0至1(相当于0至100%)范围内估计所有分类中的正确分类。灵敏度解释了有多少患有某种疾病的患者已被正确标识出患有这种疾病(真阳性率),范围为0至1(0至100%)。与敏感性相反,特异性确定在0-1(0-100%)的范围内,有多少没有某种疾病的患者被正确标识为没有这种疾病(真阴性率)。因此,准确度、灵敏度和特异性的值越高,指示可以提供更准确结果的良好训练的ML算法。
如上所述,通过比较从已验证的放射学报告中解析的至少一个诊断的已验证标签与由经训练的ML算法生成的至少一个诊断的预测,可以自动并且精确地评估经训练的ML算法的性能,即,不需要涉及临床专家的努力。
图1示意性地图示了关于根据各种示例的系统1000的细节。系统1000可以包括分别位于四个医院或机构内的四个本地网络1010、1030、1040和1050,以及一个(n个)外部/共享网络1020,诸如互联网或云,四个本地网络1010、1030、1040和1050可以通过该网络彼此通信。图1只是一个可能示例的说明;通常,本地网络的数目可以是任意正整数,例如1、2、3等。外部/共享网络1020是可选的。
四个本地网络1010、1030、1040和1050中的每个本地网络都可以共享相同或相似的架构并且具有相同或相似的网络元素或设备。例如,本地网络1010可以包括至少一个医学成像设备1002a至1002e、包括PACS 1006的至少一个本地数据储存库1003、可连接到外部/共享网络1020的至少一个计算设备1004。计算设备1004可以充当网关节点以连接到本地网络1010的外部,例如连接到可以经由外部/共享网络1020连接的任何网络节点。例如,计算设备1004可以经由外部/共享网络1020连接到相应的本地网络1030、1040和1050的相应的计算设备1034、1044和1054。类似地,相应的计算设备1034、1044和1054还可以充当相应的本地网络1030、1040和1050的相应的网关节点。本地网络1010还包括至少一个用户终端1005a至1005c,这通常是可选的。在本地网络1010内,至少一个医疗设备1002a至1002e中的每个疗设备分别可经由物理电缆或者经由无线通信连接到至少一个本地数据存储库1003和至少一个计算设备1004;至少一个用户终端1005a至1005c中的每个用户终端可以经由物理电缆或者经由无线通信连接到至少一个计算设备1004。
根据各种示例,医学成像设备1002a至1002e包括以下一项或多项:X射线扫描仪、计算机断层扫描仪、磁共振成像扫描仪、正电子发射断层扫描仪、超声扫描仪等。可以由放射科医师使用医学成像设备1002a至1002e中的至少一个医学成像设备针对患者的至少一个解剖区域执行患者的医学成像检查。医学成像数据是通过医学成像检查获得的,并且可以根据标准进行编码,诸如医学数字成像和通信(DICOM)标准。可以使用诸如JPEG或TIFF的其他标准。(编码的)医学成像数据可以被传输到至少一个本地数据储存库1003和/或至少一个计算设备1004。(编码的)医学成像数据可以被存储在至少一个本地数据储存库1003中并且/或在至少一个计算设备1004中。
根据本公开,放射学报告可以由放射科医师(和/或其他医疗从业者)在患者的医学成像检查(诸如,超声检查或血管造影检查)期间产生。附加地或备选地,放射学报告可以由放射科医师(和/或其他医学从业者)在医学成像检查之后通过回顾/研究在医学成像检查期间获取的医学成像数据来产生。例如,放射科医师可以经由至少一个用户终端1005a至1005c中的一个用户终端从至少一个本地数据库1003或至少一个计算设备1004获取医学成像数据,并且编制放射学报告。在产生/编译放射学报告之后,放射学报告也可以被存储在至少一个本地数据储存库1003中和/或至少一个计算设备1004中。然后,已验证的放射学报告可以由放射学报告的转诊人产生并且存储在至少一个本地数据储存库1003中和/或至少一个计算设备1004中。例如,为了获得已验证的放射学报告,当转诊人同意放射学报告时,转诊人可以简单地在放射学报告中添加签名,或者当转诊人发现放射学报告中有一些错误时,可以修改放射学报告,然后在修改后的放射学报告上签名。
根据各种示例,上面概述的经训练的ML算法可以由至少一个计算设备1004或由嵌入或连接到相应医疗设备1002a至1002e的相应计算设备执行。当产生新的放射学报告时,管理经训练的ML算法的相应设备可以例如从计算设备1004或本地数据储存库1003接收触发或通知。备选地或附加地,管理经训练的ML算法的相应设备可以不时主动检查是否有新的放射学报告可用。然后,经训练的ML算法获得与放射学报告相关联的医学成像数据,并且处理医学成像数据以生成对至少一个诊断的预测,诸如对肿瘤大小的预测或对主动脉的直径的预测。在通过经训练的ML算法处理医学成像数据之前、之后或同时,计算设备1004解析已验证的放射学报告以获得至少一个诊断的已验证标签,例如已验证的肿瘤大小或已验证的主动脉直径。因此,可以通过比较至少一个诊断的预测与至少一个诊断的已验证标签来确定/评估经训练的ML算法的性能。
根据本公开,当经训练的ML算法的性能例如准确度、灵敏度和/或特异性低于预定义阈值时,使用监督学习、半监督学习、非监督学习,或强化学习,基于从已验证的放射学报告中解析的至少一个诊断的已验证标签和/或医学成像数据,例如肿瘤的大小、肿瘤的存在、主动脉的直径,可以重新训练经训练的ML算法。即,在经训练的ML算法的重新训练期间,医学成像数据可以被用作经训练的ML算法的输入,并且从已验证的放射学报告中解析的至少一个诊断的已验证标签可以被用作基本事实或参考。附加地或备选地,如果相同的经训练的ML算法,即具有相同架构的ML算法分别由四个本地网络1010、1030、1040和4050中的相应节点(诸如,计算设备1004、1034、1044和1054)执行,则联邦(“federate”)学习或分布式学习可以被利用来重新训练ML算法。
可选地,系统1000可以包括中央计算设备1060,其至少可以被相应的本地网络1010、1030、1040和1050的相应的计算设备1004、1034、1044和1054访问。在一些示例中,每对计算设备1004、1034、1044和1054可能无法直接连接,但是可以经由中央计算设备1060来交换数据/信息,从而确保在相应的本地网络1010、1030、1040和1050中生成/存储的数据的安全性可以得到改进——例如通过在中央计算设备1060处实现访问控制技术。此外,中央计算设备1060可以促进分别由四个本地网络1010中的相应节点执行的ML算法的集中式联邦学习、1030、1040和4050。
根据本公开,提供了一种用于确定经训练的ML算法的性能的方法。该方法可以由计算设备1004、1034、1044和1054中的任何一个计算设备基于相应的已验证的放射学报告和与相应的已验证的放射学报告相关联的相应的医学成像数据来独立地执行,相应的已验证的放射学报告和相应的医学成像数据两者都是在相应的医院或机构中产生的。该方法通过对从已验证的放射学报告中解析的至少一个诊断的已验证标签与基于与已验证的放射学报告相关联的医学成像数据由经训练的机器学习算法生成的至少一个诊断的预测执行比较来确定经训练的ML算法的性能。关于这种方法的细节将结合图2进行解释。
图2是根据各种示例的方法2000的流程图。方法2000涉及确定/评估经训练的ML算法的性能。
经训练的ML算法被配置为处理医学成像数据,从而基于医学成像数据来生成对患者的至少一个诊断的预测。将患者的至少一个诊断的预测与患者的至少一个诊断的已验证标签进行比较,从而基于比较来确定经训练的ML算法的性能。通过解析患者的已验证的放射学报告来获得患者的至少一个诊断的已验证标签并且医学成像数据与已验证的放射学报告相关联。
方法2000可以由至少一个处理器在加载程序代码时执行。例如,方法2000可以在从相应的存储器加载程序代码时由计算设备1004、1034、1044和1054中的任何计算设备的处理器来执行。
可选框用虚线标记。
在框2010处,获得患者的已验证的放射学报告和与已验证的放射学报告相关联的患者的医学成像数据。框2010可以包括向医学成像设备1002a至1002e发送控制指令以获取医学成像数据,然后临床专业人员可以产生已验证的放射学报告,解读由医学成像数据所揭示的调查。框2010可以包括从计算设备(诸如,计算设备1004、1034、1044和1054中的任何计算设备)的存储器加载已验证的放射学报告和医学成像数据。框2010可以包括从数据存储库中取回已验证的放射学报告和医学成像数据,诸如,本地网络1010中的数据存储库1003,或其他本地网络1030、1040和1050中的类似数据存储库。
可以使用医学成像设备1002a至1002e的多种配置或使用多个成像设备来获取医学成像数据。例如,可以选择用于获取医学成像数据的不同参数,例如曝光时间、MRI扫描协议、CT对比度等。
在框2020处,解析已验证的放射学报告以获得患者的至少一个诊断的已验证标签。可以利用各种解析或句法解析方法来解析已验证的放射学报告以获得患者的至少一个诊断的已验证标签,诸如选区解析技术或依赖性解析方法。选区解析技术可以包括Cocke–Kasami–Younger算法(CKY)、基于转变的解析算法和序列到序列解析算法。依赖性解析方法可以包括基于转变的、基于语法的和基于图的算法。备选地或可选地,也可以使用其他解析方法,诸如基于(深度)神经网络和基于转换器的文本挖掘算法。
可以基于已验证的放射学报告的类型来选择解析或句法解析方法。例如,已验证的放射学报告可以包括结构化报告,并且已验证的放射学报告的解析可以包括例如根据预定义的格式提取至少一个诊断的已验证标签。另一方面,已验证的放射学报告可以包括自由文本报告,并且已验证的放射学报告的解析可以包括将至少一个语言不可知和上下文感知的文本挖掘方法应用于已验证的放射学报告。可选地或备选地,已验证的放射学报告的解析可以包括将至少一个语言特定的文本挖掘方法应用于已验证的放射学报告。例如,解析方法可以分析已验证的放射学报告的“结果”和/或“结论”部分以获得至少一个诊断的已验证标签。至少一个诊断可以包括以下至少一项:至少一个异常、至少一个异常的解剖部位、至少一个异常的大小、至少一个异常的名称。
在可选框2090处,经训练的ML算法基于至少一个诊断的已验证标签从多个经训练的ML算法中选择。例如,可以存在存储在图1的计算设备1004中的多个经训练的ML算法的程序代码,并且多个经训练的ML算法中的每个算法可以执行与其他经训练的ML算法不同的功能性。可以存在表示每个诊断与多个经训练的ML算法中的每个算法之间的关系的映射。例如,存在四种经训练的ML算法,用于分别确定哪条冠状动脉发生动脉粥样硬化,斑块在哪里导致动脉粥样硬化,斑块的大小,斑块所在的冠状动脉截面的直径。如果至少一个诊断的已验证标签指示“右冠状动脉”或“左冠状动脉”,则选择用于确定哪条冠状动脉患有动脉粥样硬化的经训练的ML算法。
在框2030处,基于医学成像数据,通过经训练的ML算法并且在计算设备(例如,计算设备1004、1034、1044和1054中的任何计算设备)处生成至少一个诊断的预测。可以在框2090处选择经训练的ML算法。经训练的ML算法可以是由计算设备执行的唯一ML算法,例如,直接连接到医学成像设备1002a至1002e的专用计算设备。经训练的ML算法可以在某个时间点处取一部分医学成像数据作为输入。
在框2040处,基于至少一个诊断的已验证标签与至少一个诊断的预测的比较来确定经训练的ML算法的性能。性能可以由报告的至少一个诊断的已验证标签与报告的至少一个诊断的预测之间的偏差来指示。例如,经训练的ML算法被用来确定斑块所在的冠状动脉截面的直径,并且直径的已验证标签和直径的预测分别为29mm和27mm。因此,经训练的ML算法的性能为2mm。与1mm相比,2mm指示性能较低,即偏差越大,性能越低。
根据各种示例,框2010、2020、2030和2040可以基于多个已验证的放射学报告来迭代地/重复地执行。即,可以基于多个已验证的放射学报告来生成相同的经训练的ML算法的性能的多个实例,从而可以基于经训练的ML算法的性能的多个实例以统计的方式来确定相同的经训练的ML算法的性能。例如,准确度、灵敏度和/或特异性可以基于经训练的ML算法的性能的多个实例来确定。因此,方法2000可以可选地或附加地包括获得另一患者的另一已验证的放射学报告和与另一已验证的放射学报告相关联的另一患者的另一医学成像数据;解析另一已验证的放射学报告以获得至少一个诊断的另一已验证标签;由经训练的机器学习算法在计算设备1004、1034、1044、1054处基于该另一医学成像数据生成至少一个诊断的另一预测,并且经训练的机器学习算法的性能的确定还基于至少一个诊断的另一已验证标签与至少一个诊断的另一预测的另一比较。
优选地,可以通过对已验证的放射学报告中的对应项目进行颜色编码、将报告标记为被用于机器学习或显示跨多个放射学报告中的已标识偏差的列表来向用户视觉地突出偏差。
根据本公开内容,经训练的ML算法的较差性能可能是由医学成像数据的巨大异质性引起的,例如由扫描协议、扫描仪类型、人口统计等引起的变化。如此,经训练的ML可能需要大量的重新训练工作,以虑及在开发过程中未被包括在训练池中的条件和参数。
可选地,在框2050处,将经训练的ML算法的性能与预定义阈值进行比较以确定经训练的ML算法的性能是否低于预定义阈值。不同的诊断具有不同的预定义阈值。如果经训练的ML算法的性能低于预定义阈值,则在框2060处,基于已验证标签来触发经训练的ML算法的参数的更新。可以使用监督学习、半监督学习、非监督学习或强化学习来更新经训练的ML算法的参数。如果经训练的ML算法的性能等于或高于预定义阈值,则可以执行框2010。
对参数的更新的这种触发可以包括执行训练过程。对参数的更新的这种触发还可以包括请求另一远程设备执行训练过程。有时,因为训练过程在计算上很昂贵,所以可以在例如云服务器上实现训练。下面将更详细地解释不同的场景。
根据各种示例,例如使用重新训练技术,经训练的ML算法的更新可以在通常基于来自医院或机构的有限反馈的医院或机构的小增量开发中完成。经训练的ML算法的重新训练是一个敏感问题,它可能会改善算法对某些数据集的性能,例如在特定医院或机构中获取的医学成像数据,但是它可能不代表该领域中可用的整体数据,即,ML算法可能会过拟合。为了解决过拟合问题,可以共享在不同医院/机构中获取的医学成像数据,但是医学成像数据通常非常大,并且因此医学成像数据共享非常耗时。此外,出于隐私原因,特定国家/地区的法规可能会禁止共享医学成像数据。
可选地,在医院或机构内对经训练的ML算法进行本地重新训练之后,如果相同的ML算法也在其他医院或机构中使用,例如,由计算设备1004、1034、1044和1054中的至少两个计算设备执行,则联邦学习可以被应用来对经训练的ML算法进行重新训练,以减轻过拟合,减少与医学成像数据共享相关联的开销,并且保护隐私。此外,通过共享在大型医院或大学医疗中心修改/定制的经训练的ML算法的参数,联邦学习还可以改善在为少数患者提供医疗服务的小型诊所或医院中运行的经训练的ML算法的性能。关于使用联邦学习更新经训练的ML算法参数的详细信息将结合以下两个可选示例进行解释。
示例1:
在框2071处,将经训练的机器学习算法的已更新的参数提供给中央计算设备,例如图1的中央计算设备1060。
在框2072处,在提供已更新的参数后,从中央计算设备接收经训练的ML算法的更新。由中央计算设备基于经训练的ML算法的已更新的参数和经训练的ML算法的参数的至少一个附加更新、使用安全聚合和/或联邦平均来执行经训练的ML算法的更新。参数的至少一个附加更新可以由中央计算设备从运行经训练的ML算法的一个或多个附加计算设备(例如,计算设备1034、1044和1054)接收。
示例2:
在框2081处,在计算设备(例如,图1的1004)处从运行经训练的ML算法一个或多个附加计算设备(例如图1的计算设备1034、1044和1054)接收经训练的ML算法的参数的至少一个附加更新。
在框2082处,基于已更新的参数和参数的至少一个附加更新,使用安全聚合和/或联邦平均,由计算设备(例如,图1的1004)确定经训练的ML算法的更新。
根据各种示例,可以通过解析已验证的放射学报告来获得与已验证的放射学报告相关联的患者的医学成像数据。例如,已验证的放射学报告可以包括指示与放射学报告相关联的医学成像数据的存储位置的标识符,并且可以使用该标识符来获得医学成像数据。
根据本公开,框2020可以在框2030之前、之后或与框2030并行执行。
一旦经训练的ML算法的更新被确定,经训练的ML算法的更新版本可以改善经训练的ML算法的性能,从而促进经训练的ML算法在临床实践中的利用。方法2000利用已验证的放射学报告来提取至少一个诊断的已验证标签,以用于确定经训练的ML算法的性能,并且可选地用于重新训练经训练的ML算法,从而可以消除对繁琐地传送、交流和注释医学成像数据的需要。此外,通过解析已验证的放射学报告来获得已验证标签和使用联邦学习进行重新训练的组合可以促进连续增量算法更新。方法2000可以自动考虑临床环境中的算法部署的所有异构方面,从而使用代表部署这些算法的异构临床环境的医学成像数据来系统地改进经训练的ML算法。
图3是根据各种示例的设备9000的框图。设备9000可以包括至少一个处理器9020、至少一个存储器9030和至少一个输入/输出接口9010。至少一个处理器9020被配置为从至少一个存储器9030加载程序代码并且执行程序代码。在执行程序代码时,至少一个处理器9020执行方法2000。
附加地或备选地,装置9000可以被嵌入在图1的任何医学成像设备1002a至1002e,因此医学成像设备也可以被配置为执行方法2000。
总而言之,已经描述了促进自动确定经训练的ML算法的性能并且从而在性能差时重新训练经训练的ML算法的技术。已验证的放射学报告被利用来提取至少一个诊断的已验证标签,以用于确定经训练的ML算法的性能,并且可选地用于重新训练经训练的ML算法,从而可以消除对繁琐地传送、交流和注释医学成像数据的需要。此外,通过解析已验证的放射学报告获得已验证标签和使用联邦学习进行重新训练的组合可以促进连续增量算法更新。此类技术可以自动考虑临床环境中的算法部署的所有异构方面,从而使用代表部署这些算法的异构临床环境的医学成像数据来系统地改进经训练的ML算法。
尽管已针对某些优选实施例示出和描述了本发明,但是本领域的其他技术人员在阅读和理解说明书后将想到等同物和修改。本发明包括所有这些等同物和修改,并且仅受所附权利要求的范围限制。

Claims (16)

1.一种计算机实现的方法(2000),所述方法(2000)包括:
-获得(2010)患者的已验证的放射学报告和与所述已验证的放射学报告相关联的所述患者的医学成像数据;
-解析(2020)所述已验证的放射学报告,以获得至少一个诊断的已验证标签;
-由经训练的机器学习算法在计算设备(1004、1034、1044、1054)处基于所述医学成像数据生成(2030)所述至少一个诊断的预测;以及
-基于所述至少一个诊断的所述已验证标签与所述至少一个诊断的所述预测的比较,来确定(2040)所述经训练的机器学习算法的性能。
2.根据权利要求1所述的计算机实现的方法(2000),所述方法(2000)还包括:
-当所述经训练的机器学习算法的所述性能低于预定义阈值时,基于所述已验证标签来触发(2060)对所述经训练的机器学习算法的参数的更新。
3.根据权利要求2所述的计算机实现的方法(2000),所述方法(2000)还包括:
-向中央计算设备(1060)提供(2071)所述经训练的机器学习算法的已更新的参数;以及
-在提供所述已更新的参数后,从所述中央计算设备(1060)接收(2072)所述经训练的机器学习算法的更新。
4.权利要求3的计算机实现的方法(2000),
其中由所述中央计算设备(1060)基于所述经训练的机器学习算法的所述已更新的参数和所述经训练的机器学习算法的所述参数的至少一个附加更新,使用安全聚合和/或联邦平均来执行所述经训练的机器学习算法的所述更新,由所述中央计算设备(1060)从运行所述经训练的机器学习算法的一个或多个附加计算设备(1004、1034、1044、1054)接收所述参数的所述至少一个附加更新。
5.根据权利要求2所述的计算机实现的方法(2000),所述方法(2000)还包括:
-在所述计算设备(1004、1034、1044、1054)处并且从运行所述经训练的机器学习算法的一个或多个附加计算设备(1004、1034、1044、1054)接收(2081)所述经训练的机器学习算法的所述参数的至少一个附加更新;以及
-基于所述已更新的参数和所述参数的所述至少一个附加更新,使用安全聚合和/或联邦平均来确定(2082)所述经训练的机器学习算法的更新。
6.根据前述权利要求中任一项所述的计算机实现的方法(2000),所述方法(2000)还包括:
-基于至少一个诊断的所述已验证标签从多个经训练的机器学习算法中选择(2090)所述经训练的机器学习算法。
7.根据前述权利要求中任一项所述的计算机实现的方法(2000),
其中所述已验证的放射学报告包括结构化报告,并且所述已验证的放射学报告的所述解析包括提取至少一个诊断的所述已验证标签。
8.根据权利要求1至6中任一项所述的计算机实现的方法(2000),
其中所述已验证的放射学报告包括自由文本报告并且所述已验证的放射学报告的所述解析包括:
对所述已验证的放射学报告应用至少一个语言不可知和上下文感知的文本挖掘方法;或者
对所述已验证的放射学报告应用至少一个语言特定的文本挖掘方法。
9.根据前述权利要求中任一项所述的计算机实现的方法(2000),
其中所述性能由所述报告的所述至少一个诊断的所述已验证标签与所述报告的所述至少一个诊断的所述预测之间的偏差来指示。
10.根据前述权利要求中任一项所述的计算机实现的方法(2000),
其中所述至少一个诊断包括以下至少一项:至少一个异常的解剖部位、所述至少一个异常的大小、所述至少一个异常的名称。
11.根据前述权利要求中任一项所述的计算机实现的方法(2000),所述方法(2000)还包括:
-获得另一患者的另一已验证的放射学报告和与所述另一已验证的放射学报告相关联的所述另一患者的另一医学成像数据;
-解析所述另一已验证的放射学报告以获得所述至少一个诊断的另一已验证标签;
-由所述经训练的机器学习算法在所述计算设备(1004、1034、1044、1054)处基于所述另一医学成像数据生成所述至少一个诊断的另一预测;
其中确定所述经训练的机器学习算法的所述性能还基于所述至少一个诊断的所述另一已验证标签与所述至少一个诊断的所述另一预测的另一比较。
12.一种设备(9000),所述设备(9000)包括至少一个处理器(9020)并且所述至少一个处理器(9020)被配置为:
-获得(2010)患者的已验证的放射学报告和与所述已验证的放射学报告相关联的所述患者的医学成像数据;
-解析(2020)所述已验证的放射学报告以获得至少一个诊断的已验证标签;
-基于所述医学成像数据由经训练的机器学习算法并且在计算设备处生成(2030)所述至少一个诊断的预测;以及
-基于所述至少一个诊断的所述已验证标签与所述至少一个诊断的所述预测的比较,来确定(2040)所述经训练的机器学习算法的性能。
13.根据权利要求12所述的设备(9000),所述设备还被配置为,执行根据权利要求1至11中任一项所述的方法。
14.一种医学成像设备(1002a至1002e),所述医学成像设备(1002a至1002e)包括如权利要求12或13所述的设备。
15.一种包括指令的计算机程序,当所述计算机程序由处理器(9020)执行时,使所述处理器(9020)执行如权利要求1至11中的一个的计算机实现的方法。
16.一种计算机可读存储介质,在其上存储有如权利要求15所述的计算机程序。
CN202310028871.3A 2022-01-11 2023-01-09 基于放射学报告的机器学习 Pending CN116432000A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP22151001.9A EP4210070A1 (en) 2022-01-11 2022-01-11 Machine learning based on radiology report
EP22151001.9 2022-01-11

Publications (1)

Publication Number Publication Date
CN116432000A true CN116432000A (zh) 2023-07-14

Family

ID=79316568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310028871.3A Pending CN116432000A (zh) 2022-01-11 2023-01-09 基于放射学报告的机器学习

Country Status (3)

Country Link
US (1) US20230238094A1 (zh)
EP (1) EP4210070A1 (zh)
CN (1) CN116432000A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117153343B (zh) * 2023-08-16 2024-04-05 丽水瑞联医疗科技有限公司 一种胎盘多尺度分析系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210398650A1 (en) * 2020-06-23 2021-12-23 Virtual Radiologic Corporation Medical imaging characteristic detection, workflows, and ai model management

Also Published As

Publication number Publication date
EP4210070A1 (en) 2023-07-12
US20230238094A1 (en) 2023-07-27

Similar Documents

Publication Publication Date Title
CN111727478A (zh) 使用深度卷积网络从医学文本中自动提取结构化标签并将其用于训练计算机视觉模型
US11341632B2 (en) Method for obtaining at least one feature of interest
US20140003697A1 (en) Method and system for intelligent linking of medical data
US11398304B2 (en) Imaging and reporting combination in medical imaging
CN106796621B (zh) 图像报告注释识别
US20220068449A1 (en) Integrated diagnostics systems and methods
US20150036948A1 (en) Interactive optimization of scan databases for statistical testing
US20220366151A1 (en) Document creation support apparatus, method, and program
US10957038B2 (en) Machine learning to determine clinical change from prior images
CN116432000A (zh) 基于放射学报告的机器学习
CN111226287B (zh) 用于分析医学成像数据集的方法、系统、程序产品和介质
US20180068436A1 (en) Multiple algorithm lesion segmentation
Kim et al. An open medical platform to share source code and various pre-trained weights for models to use in deep learning research
US11923069B2 (en) Medical document creation support apparatus, method and program, learned model, and learning apparatus, method and program
Baumgärtner et al. Metadata-independent classification of MRI sequences using convolutional neural networks: Successful application to prostate MRI
WO2023219836A1 (en) Method for automating radiology workflow
US20220301673A1 (en) Systems and methods for structured report regeneration
CN115482936A (zh) 用于评估医学图像数据的方法和设备
Krishnaswamy et al. Enrichment of the NLST and NSCLC-Radiomics computed tomography collections with AI-derived annotations
CN114999613A (zh) 用于提供与医学图像相关联的至少一个元数据属性的方法
US11869654B2 (en) Processing medical images
EP4216229A1 (en) Subscription and retrieval of medical imaging data
US20240185990A1 (en) System and Method for Processing Medical Image Data
US20240087697A1 (en) Methods and systems for providing a template data structure for a medical report
US20240071604A1 (en) Artificial intelligence supported reading by redacting of a normal area in a medical image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination