CN117633209A - 用于患者信息概要的方法和系统 - Google Patents
用于患者信息概要的方法和系统 Download PDFInfo
- Publication number
- CN117633209A CN117633209A CN202311045701.2A CN202311045701A CN117633209A CN 117633209 A CN117633209 A CN 117633209A CN 202311045701 A CN202311045701 A CN 202311045701A CN 117633209 A CN117633209 A CN 117633209A
- Authority
- CN
- China
- Prior art keywords
- entity
- entity recognition
- patient
- text data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 143
- 230000004931 aggregating effect Effects 0.000 claims abstract description 14
- 230000014509 gene expression Effects 0.000 claims description 77
- 230000015654 memory Effects 0.000 claims description 19
- 230000008685 targeting Effects 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 206010028980 Neoplasm Diseases 0.000 description 143
- 201000011510 cancer Diseases 0.000 description 113
- 210000003484 anatomy Anatomy 0.000 description 42
- 238000012549 training Methods 0.000 description 29
- 239000013598 vector Substances 0.000 description 29
- 238000011282 treatment Methods 0.000 description 26
- 201000010099 disease Diseases 0.000 description 25
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 25
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 22
- 201000005202 lung cancer Diseases 0.000 description 22
- 208000020816 lung neoplasm Diseases 0.000 description 22
- 238000004891 communication Methods 0.000 description 20
- 239000003550 marker Substances 0.000 description 15
- 206010012601 diabetes mellitus Diseases 0.000 description 13
- 239000007787 solid Substances 0.000 description 11
- 201000001441 melanoma Diseases 0.000 description 10
- 230000003902 lesion Effects 0.000 description 9
- 238000003745 diagnosis Methods 0.000 description 8
- 208000000453 Skin Neoplasms Diseases 0.000 description 7
- 230000002776 aggregation Effects 0.000 description 7
- 238000004220 aggregation Methods 0.000 description 7
- 210000004072 lung Anatomy 0.000 description 7
- 238000007670 refining Methods 0.000 description 7
- 238000012552 review Methods 0.000 description 7
- 201000000849 skin cancer Diseases 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 4
- 210000002216 heart Anatomy 0.000 description 4
- 230000007170 pathology Effects 0.000 description 4
- 208000003174 Brain Neoplasms Diseases 0.000 description 3
- 208000017667 Chronic Disease Diseases 0.000 description 3
- 108091005515 EGF module-containing mucin-like hormone receptors Proteins 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000002079 electron magnetic resonance spectroscopy Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 210000000709 aorta Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000002055 immunohistochemical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010009944 Colon cancer Diseases 0.000 description 1
- 241000711573 Coronaviridae Species 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000007815 allergy Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000009534 blood test Methods 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 238000009535 clinical urine test Methods 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002073 fluorescence micrograph Methods 0.000 description 1
- 210000001652 frontal lobe Anatomy 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000006454 hepatitis Diseases 0.000 description 1
- 231100000283 hepatitis Toxicity 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
提供了用于生成和显示从存储在患者的电子医疗记录(EMR)中的一个或多个医疗报告中提取的患者信息的概要的各种方法和系统。在一个示例中,一种方法包括接收患者的文本数据(402);将文本数据作为输入录入到多个实体识别模型中(406),多个实体识别模型中的每个实体识别模型被训练以标记文本数据中的相应实体的实例;聚集由每个实体识别模型输出的标记的文本数据(408);基于聚集的标记的文本数据生成文本数据的概要(416);以及显示(418)和/或保存(420)概要和/或聚集的标记的文本数据。
Description
技术领域
本文公开的主题的实施方案涉及患者信息,并且更具体地涉及自动鉴定和概述相关患者信息。
背景技术
患者医疗记录的数字收集、处理、存储和检索可以包括大量数据的集合。在一些示例中,数据可以包括在对患者的调查期间生成的许多医疗程序和记录,包括各种检查,诸如血液测试、尿液测试、病理结果、基于图像的扫描等。在慢性疾病的情况下,受试者的医学状况的诊断以及随后的治疗的持续时间可以随着时间推移从几天到几个月或甚至几年,该慢性疾病可以是花费多于一年来治愈的疾病。在诊断和治疗慢性疾病的过程中,患者可能经历许多不同的治疗和程序,和/或可能移动到不同的医院和/或地理位置。
医生越来越依赖于电子医疗记录(EMR)系统来在诊断、治疗和监测患者状况期间查阅患者的历史健康记录。对于患有慢性疾病的患者,经常有数百或甚至数千个由多次就诊产生的EMR。从这种患者的过去的EMR中分选和提取信息是一个缓慢且低效的过程,增加了丢失具有相关数据的记录的可能性,这些记录可能分散在大量的信息较少的定期就诊记录中。
发明内容
在一个实施方案中,一种方法包括接收患者的文本数据;将该文本数据作为输入录入到多个实体识别模型中,该多个实体识别模型中的每个实体识别模型被训练以标记该文本数据中的相应实体的实例;聚集由每个实体识别模型输出的该标记的文本数据;基于该聚集的标记的文本数据生成该文本数据的概要;以及显示和/或保存该概要和/或该聚集的标记的文本数据。
应当理解,提供上面的简要描述来以简化的形式介绍在具体实施方式中进一步描述的精选概念。这并不意味着识别所要求保护的主题的关键或必要特征,该主题的范围由具体实施方式后的权利要求书唯一地限定。此外,所要求保护的主题不限于解决上文或本公开的任何部分中提到的任何缺点的实施方式。
附图说明
通过参考附图阅读以下对非限制性实施方案的描述将更好地理解本发明,其中以下:
图1图示了根据本公开的一个方面的用于向用户概述和显示患者的临床信息的系统;
图2A示出了示意性地图示根据本公开的实施方案的用于训练多个模型以识别文本数据中的实体的训练系统的框图;
图2B示出了示意性地图示根据本公开的实施方案的当使用多个训练模型生成患者信息概要时的数据流的框图;
图3示出了根据本公开的实施方案的用于训练多个模型以识别文本数据中的实体的示例性方法的流程图;
图4示出了图示根据本公开的实施方案的用于使用多个训练模型生成患者信息概要的高水平方法的流程图;
图5示出了图示根据本公开的实施方案的用于基于多个实体识别模型的输出来标记文本数据中的实体的示例性方法的流程图;
图6示出了图示根据本公开的实施方案的用于基于多个实体识别模型的输出的相对权重来向实体的实例分配标记的示例性方法的流程图;
图7示出了图示根据本公开的实施方案的用于解决多个实体识别模型的输出中的实体标记冲突的示例性方法的流程图;
图8A是根据本公开的实施方案的用于概述患者的临床信息的系统的示例输出的第一摘录;
图8B是根据本公开的实施方案的图8A的示例输出的示例显示;
图9A是根据本公开的实施方案的用于概述患者的临床信息的系统的示例输出的第二摘录;
图9B是根据本公开的实施方案的图9A的示例输出的示例显示;
图10是根据本公开的实施方案的用于概述和显示患者的临床信息的系统的示例输出的第三摘录;并且
图11是根据本公开的实施方案的数据库表的示意图。
具体实施方式
以下描述涉及通过在患者的电子医疗记录(EMR)的数字化医疗报告中检测对医生而言重要的感兴趣的实体并且生成与感兴趣的实体有关的患者信息的概要来概述EMR内的信息的方法和系统的各种实施方案。根据实施方式,概要可以以各种方式格式化,并且可以定制。通过生成患者概要,可以减少护理者审阅包括在EMR中的医疗报告所花费的时间量,从而使护理者有时间来解决其他任务。另外,可以增加在护理者审阅医疗报告所花费的有限时间期间使护理者可获得的相关患者信息的量,从而导致改善的患者结果。
感兴趣的实体(在本文中也被称为实体)可以是与在EMR中包括的医疗报告中发现的文本表达(例如,词或词的组合)相关联的分类、归类或标记。例如,“疾病”可以是感兴趣的第一实体,其中第一实体识别模型可以被训练以标记医疗报告中涉及疾病(例如,癌症、肝炎、冠状病毒等)的词语或多词语文本表达的实例。“解剖结构”可以是第二感兴趣的实体,其中第二实体识别模型可以被训练以标记医疗报告中涉及患者的解剖结构的部分(例如,心脏、肺、脑等)的词语或多词语文本表达的实例。例如,各种感兴趣的实体可以由一名医生、一组医生、医学协会、医院管理员或其他健康护理专业人员定义。在一些实施方案中,感兴趣的实体可以利用类别和子类别以分层方式组织。例如,“疾病”可以是第一感兴趣的实体,该第一感兴趣的实体可以包括类别“癌症”作为第二感兴趣的实体;类别“癌症”可以包括子类别“肺癌”作为第三感兴趣的实体;等等。感兴趣的实体可以是预定义的,和/或可以被周期性地添加或改变。例如,可以添加实体的新类别或子类别。
可以使用多个实体识别模型并聚集来自多个实体识别模型的结果来检测包括在EMR中的医疗报告中的感兴趣的实体。由于标记数据的缺乏和标记实体的偏度(skewness),用单个数据语料库训练的单一模型可能表现不佳。因此,本文公开的方法涉及一套模型,该套模型可以根据标记数据的数量和实体的类别来开发,并且基于EMR的特定场景/特定数据集来选择用于生成EMR的概要的合适模型列表。所提出的方法中的各个步骤可以包括鉴定/收集一个或多个标记/注释的数据集;鉴定医生和/或其他临床医生感兴趣的实体;训练专用于单个实体或多个实体的每个实体识别模型;选择适于在针对特定场景或数据集类型的推断期间使用的一组训练模型;从所选的训练模型组中预测感兴趣的实体;聚集来自多个模型的输出并解决任何标记冲突;以及使用从域知识导出的模型性能/规则的先前信息来细化输出。
示例患者信息系统在图1中示出,其可以包括用于生成患者信息概要的多个实体识别模型。如图2A所示,可以基于相应的多个定义的实体,在相应的多个标记的数据集上训练多个实体识别模型。可以通过遵循图3的方法的一个或多个步骤来训练实体识别模型。在推断阶段期间,多个实体识别模型可以标记医疗报告中的实体,其中如参考图2B的图所描述的,根据图4中示出的高水平方法,可聚集并细化实体识别模型的输出以生成患者概要。如图8A和图8B所示,患者概要可以包括取自医疗报告的标记的文本的摘录。标记冲突可能在医疗报告中的文本表达被两个或更多个不同的实体识别模型不同地标记的情况下发生,这可以通过遵循图5的方法的一个或多个步骤来解决。解决冲突可包括向两个或更多个不同实体识别模型的输出分配相对权重,如参考图6中所示的方法所描述的。为了解决标记冲突,通过遵循图7中所示的方法的一个或多个步骤,可以将两个或更多个不同实体识别模型的输出与被训练来标记医疗报告中的多个实体的多实体识别模型的输出进行比较。如图9A和图9B所示,在聚合之前,多实体识别模型可以输出用于词语或文本表达的多候选标记以及概率向量,该概率向量包括指示每个候选标记是实体的实例的正确鉴定的相对概率的概率值。图10中示出了聚集之后的患者概要的示例摘录。在一些实施方案中,可以通过提取实体/关系并且将它们存储在一个或多个数据库表中来更有效地或更快地生成患者概要,在该一个或多个数据库表中可以快速地搜索和检索它们,诸如图11中所示的数据库表。
现在将参考附图以示例的方式描述本公开的实施方案,其中图1示意性地示出可以在诸如医院的医疗设施中实施的示例患者信息系统100。患者信息系统100可以包括患者概要系统102。概要系统102可以包括资源(例如,存储器130、处理器132),该资源可以被分派以生成和存储针对从针对多个患者中的每一个患者的一个或多个EMR提取的一个或多个医疗报告的患者概要。例如,如图1所示,概要106和任选地医疗报告108存储在第一患者(患者1)的概要系统102上;多个附加概要和医疗报告可以存储在概要系统102上和/或由概要系统生成,各自对应于相应的患者(患者2至患者N)。
每个概要106可以包括与包括在给定医疗报告中的实体相关联的有关/相关患者信息的文本和/或图形表示。包括在概要106中的实体相关信息可以包括与疾病、组织、解剖结构、问题、测试、治疗相关的信息和/或包括在医疗报告中并且被鉴定为感兴趣的其他信息。
经由概要106呈现的患者信息可以存储在与概要系统102通信的不同医疗数据库或存储系统中。例如,如图所示,概要系统102可以与影像归档和通信系统(PACS)110、放射信息系统(RIS)112、EMR数据库114、病理数据库116和基因组数据库118通信。PACS110可存储医学图像和相关联的报告(例如,临床医生发现),诸如超声图像、MRI图像等。PACS 110可存储图像并根据DICOM格式进行通信。RIS112可以存储放射学图像和相关联的报告,诸如CT图像、X射线图像等。EMR数据库114存储多个患者的电子医疗记录。EMR数据库114可以是存储在大容量存储设备中的数据库,该大容量存储设备被配置为与安全信道(例如,HTTPS和TLS)通信,并且以加密形式存储数据。此外,EMR数据库被配置为控制对患者电子医疗记录的访问,使得仅经授权的健康护理提供者可编辑和访问电子医疗记录。用于患者的EMR可以包括患者人口统计信息、家族病史、既往病史、生活方式信息、预先存在的医学状况、当前药物治疗、过敏、手术史、过去的医疗筛查和程序、过去的住院治疗和就诊等。病理数据库116可以存储病理图像和相关报告,其可以包括组织的可见光或荧光图像,诸如免疫组织化学(IHC)图像。基因组数据库118可以存储(例如,肿瘤的)患者基因型和/或其他测试的生物标志物。
当被请求时,概要106可以被显示在一个或多个显示设备上,诸如护理提供者设备134,并且在一些示例中多于一个的护理提供者设备可以被通信地耦接到概要系统102。每个护理提供者设备可包括处理器、存储器、通信模块、用户输入设备、显示器(例如,屏幕或监视器)和/或其他子系统,并且可呈台式计算设备、膝上型计算设备、平板电脑、智能电话或其他设备的形式。每个护理提供者设备可适于发送和接收加密数据,并且显示医疗信息(包括合适格式诸如医学数字成像和通信(DICOM)或其他标准的医学图像)。护理提供者设备可以位于医疗设施的本地(诸如在患者的房间或临床医生的办公室中)和/或远离医疗设施(诸如护理提供者的移动设备)。
当经由护理提供者设备的显示器查看概要106时,护理提供者可录入输入(例如,经由用户输入设备,该用户输入设备可包括键盘、鼠标、麦克风、触摸屏、触笔或其他设备),该输入可由护理提供者设备处理并发送到概要系统102。用户输入可以触发由概要106概述的医疗报告的显示、触发到先前或未来概要的进展、触发对概要的配置的更新或其他动作。
为了生成概要106,概要系统102可以包括一个或多个实体识别模型126。每个实体识别模型126可以是被训练以识别例如从EMR接收的患者的医疗报告内的一个或多个实体的机器学习模型,诸如神经网络。例如,第一实体识别模型可以被训练以识别在EMR中提到的治疗的每个实例;第二实体识别模型可以被训练以识别EMR中提到的疾病的每个实例;第三实体识别模型可以被训练以识别受试者的解剖结构的一部分的每个实例;等等。
为了生成概要,可以将医疗报告作为输入录入到每个实体识别模型126中。每个实体识别模型126然后可以标记医疗报告中的一个或多个实体的实例。在各种实施方案中,实体识别模型126还可以针对每个标记的实体输出实体被正确地和/或准确地标记的概率。例如,第一实体识别模型可以被训练以识别疾病的类型。第一实体识别模型可以将第一文本表达“癌症”标记为实体“疾病”,其中第一文本表达“癌症”是疾病的第一概率为95%。第一实体识别模型可以将第二文本表达“肿瘤”标记为实体“疾病”,其中第二文本表达“肿瘤”是疾病的第二概率为70%。第一实体识别模型可以将第三文本表达“病变”标记为实体“疾病”,其中第三文本表达“病变”是疾病的第三概率为40%,等等。单独地,第二实体识别模型可以被训练以识别患者的解剖部分。第二实体识别模型可以将第一文本表达“肺”标记为实体“解剖结构”,其中第一文本表达“肺”是患者的解剖结构的一部分的第一概率为95%。第二实体识别模型可以将第二文本表达“心脏”标记为实体“解剖结构”,其中第二文本表达“心脏”是患者的解剖结构的一部分的第二概率为95%。第二实体识别模型可以将第三文本表达“主动脉”标记为实体“解剖结构”,其中第三文本表达“主动脉”是患者的解剖结构的一部分的第三概率为70%,等等。
可聚集来自每个实体识别模型的输出,并且在一些示例中,聚集的输出可以通过应用一个或多个域专用规则来细化,如将在下面更详细解释的。聚集的(以及任选地细化的)输出可以作为概要被保存和/或显示。
概要系统102包括通信模块128、存储器130和处理器132以存储和生成概要以及发送和接收通信、图形用户接口、医疗数据和其他信息。
通信模块128有利于电子数据在一个或多个系统内和/或之间的传输。经由通信模块128进行的通信可使用一个或多个协议来实现。在一些示例中,经由通信模块128进行的通信根据一个或多个标准(例如,医学数字成像和通信(DICOM)、卫生信息交换标准(HL7)、ANSI X12N等)发生。通信模块128可为有线接口(例如,数据总线、通用串行总线(USB)连接等)和/或无线接口(例如,射频、红外、近场通信(NFC)等)。例如,通信模块128可经由有线局域网(LAN)、无线LAN、广域网(WAN)等使用任何过去、目前或未来通信协议(例如,蓝牙TM、USB2.0、USB 3.0等)来通信。
存储器130为一个或多个数据存储结构,诸如光学存储器设备、磁存储器设备或固态存储器设备,其用于存储处理器132所执行的程序和例程以实施本文所公开的各种功能。存储器130可包括任何期望类型的易失性和/或非易失性存储器,诸如例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、闪存存储器、只读存储器(ROM)等。处理器132可为例如任何合适的处理器、处理单元或微处理器。处理器132可为多处理器系统,因此可包括彼此相同或类似并且经由互连总线通信地耦接的一个或多个附加处理器。
如本文所用,术语“传感器”、“系统”、“单元”或“模块”可包括操作以执行一个或多个功能的硬件和/或软件系统。例如,传感器、模块、单元或系统可包括计算机处理器、控制器或基于存储在有形和非暂态计算机可读存储介质(诸如计算机存储器)上的指令来执行操作的其他基于逻辑的设备。另选地,传感器、模块、单元或系统可包括基于设备的硬连线逻辑来执行操作的硬连线设备。附图中示出的各种模块或单元可表示基于软件或硬连线指令操作的硬件、指示硬件执行操作的软件、或它们的组合。
“系统”、“单元”、“传感器”或“模块”可包括或表示执行本文描述的一个或多个操作的硬件和相关联的指令(例如,存储在有形和非暂态计算机可读存储介质上(诸如计算机硬盘驱动器、ROM、RAM等)的软件)。硬件可包括电子电路,其包括和/或连接到一个或多个基于逻辑的设备,诸如微处理器、处理器、控制器等。这些设备可以是被适当编程或指示以根据上文所述的指令来执行本文所述的操作的现成设备。附加地或另选地,这些设备中的一个或多个设备可以与逻辑电路硬连线以执行这些操作。
本文所述设备中的一个或多个可通过云或其他计算机网络来实现。例如,虽然概要系统102在图1中被示出为构成单个实体,但应当理解,概要系统102可跨多个设备分布,诸如跨多个服务器分布。此外,虽然图1的元件被示为容纳在单个医疗设施处,但是应当理解,本文描述的任何部件(例如,EMR数据库、RIS、PACS等)可以位于现场外或远离概要系统102。此外,由概要系统102用于概要生成和下面描述的其他任务的纵向数据可以来自医疗设施内的系统或者通过电子手段(例如,通过网络)从其他咨询机构获得。
虽然未在图1中明确示出,但本文所述的附加设备(例如护理提供者设备134)可同样包括与上述通信模块128、存储器130和处理器132类似的用户输入设备、存储器、处理器和通信模块/接口,因此通信模块128、存储器130和处理器132的描述同样适用于本文所述的其他设备。作为一个示例,护理提供者设备(例如,护理提供者设备134)可将用户接口模板存储在存储器中,该用户接口模板包括存储在概要系统102上或通过概要系统102发送的相关信息的占位符。例如,护理提供者设备134可存储患者时间表的用户接口模板,护理提供者设备134的用户可使用期望患者信息的占位符来配置该用户接口模板。当概要显示在护理提供者设备上时,可从概要系统102检索相关患者信息并将其插入这些占位符中。用户输入设备可包括键盘、鼠标、触摸屏、麦克风或其他合适的设备。
图2A是示意性地示出示例性模型训练系统200的框图,该模型训练系统用于训练多个实体识别模型以各自识别文本数据中(诸如患者的医疗报告中)的相应实体。例如,医疗报告可以是从患者的EMR(例如,从图1的EMR数据库114)检索的多个医疗报告或患者数据文件中的一个医疗报告或患者数据文件。实体识别模型221可以是图1的实体识别模型126的非限制性示例。如关于图3至图9更详细描述的,可以基于多个实体识别模型221的聚集输出来生成文本数据的概要。该概要可以指示由多个实体识别模型识别的相应实体中的哪些实体存在于文本数据中、可以多久找到一次相应实体以及与相应实体相关联的其他患者数据。
模型训练系统200包括多个定义的实体201、多个标记的数据集211和多个实体识别模型221,其中相应的多个实体中的每个实体具有相同大小。换句话说,模型训练系统200可以包括数量N个定义的实体201、N个标记的数据集211和N个实体识别模型221。模型训练系统200另外包括数据集策展块210和模型训练块220,其可以表示患者概要系统(例如,患者概要系统102)的代码的模块或部分和/或包括执行代码的部分和从患者概要系统的人类用户接收输入的处理阶段。
多个实体识别模型221包括第一模型222、第二模型224、第三模型226等,直到实体识别模型221的总数N。类似地,多个标记的数据集211包括第一数据集212、第二数据集214、第三数据集216等,直到标记的数据集211的总数N,并且多个定义实体201包括第一实体202、第二实体204、第三实体206等,直到定义实体201的总数N。
在各种实施方案中,实体识别模型221中的每个实体识别模型可在模型训练块220处用单独的不同标记的数据集211来训练,其中每个实体识别模型221被训练以鉴定单独的不同标记的数据集211中的不同定义的实体201。例如,可创建数据集212以训练模型222来鉴定或识别数据集212中的实体202的实例;可创建数据集214以训练模型224来鉴定或识别数据集214中的实体204的实例;可创建数据集216以训练模型226来鉴定或识别数据集216中的实体206的实例,等等。
在各种实施方案中,实体识别模型221中的每个实体识别模型可以被训练以针对被标记为实体的每个文本表达另外地输出该文本表达是该实体的实例的概率(例如,置信度值)。例如,模型222可以被训练以鉴定数据集212中的“癌症”的实例。第一文本表达“肿瘤”可以以95%的概率被标记为“癌症”的实例。第二文本表达“病变”可以以60%的概率被标记为“癌症”的实例。如下面更详细描述的,概率可以被诸如患者概要系统102的患者概要系统用于解决不同实体识别模型221之间的标记冲突。
在训练之后,在推断阶段期间,实体识别模型221中的每个实体识别模型可以接收新的文本数据作为输入(例如,从患者的医疗报告提取的),并且可以输出标记的文本数据,其中标记的文本数据是所定义的实体201中的一个实体的实例被标记的新的文本数据。换句话说,模型222可以接收患者的医疗报告作为输入,并且可以输出具有实体202的标记的实例和相关联的概率的医疗报告;模型224可以接收相同的医疗报告作为输入,并且可以输出具有实体204的标记的实例和相关联的概率的医疗报告;模型226可以接收相同的医疗报告作为输入,并且可以输出具有实体206的标记的实例和相关联的概率的医疗报告;等等。下面参考图2B更详细地描述推断阶段。
例如,患者可能正在接受针对癌症的治疗,并且医疗报告可以在各种情况下并且以各种方式涉及患者的癌症。例如,医疗报告可以多次包括词语“癌症”;它还可以包括诸如“肿瘤”、“黑素瘤”、“病变”等词语和/或其他类似词语。实体202可以是“癌症”,其中诸如“肿瘤”、“黑素瘤”和“病变”等词语与实体202相关联并且包括在该实体中。模型222可以被训练以鉴定文本数据中的实体202(例如,癌症的实例和癌症相关表达)。为了训练模型222,可以在数据集策展块210处创建数据集212,其中数据集212包括标记为“癌症”的词语的各种实例,诸如“癌症”、“肿瘤”、“黑素瘤”、“病变”等。模型222可以在数据集212上训练,并且可以不在诸如数据集214或数据集216等其他数据集上训练。稍后,在推断阶段期间,医疗报告可以作为输入录入到模型222中,并且模型222可以输出医疗报告的第一版本,其中诸如“癌症”、“肿瘤”、“黑素瘤”、“病变”等的词语标记为实体“癌症”。
在各种实施方案中,可使用标识语言来标记词语或文本表达。具体地,为了标记词语,模型222可以紧接在该词语之前插入第一标识标签,并且可以紧接在该词语之后插入第二标识标签。例如,模型222可以接收词语“肿瘤”作为输入,并输出诸如“<癌症>肿瘤</癌症>”等文本,以将肿瘤标记为被识别为属于实体“癌症”。在其他实施方案中,可以使用不同类型的标识语言或不同类型的鉴定符来标记与所定义的实体相关联的词语或文本表达。通过用标识语言或不同的鉴定符标记实体,可以通过患者概要系统鉴定词语或文本表达。如下面更详细描述的,将相关文本表达标记为实体可以允许患者概要系统生成包括与例如患者的主要状况(例如,癌症)相关的数据的患者概要。患者概要系统可以对标记的词语或文本表达执行各种操作以生成患者概要。例如,患者概要系统可以对实体的实例的数量进行计数,并且将实体的实例的数量包括在患者概要中。患者概要系统还可以包括一个或多个标记的医疗报告的摘录,其中该摘录包括一个或多个实体的实例。在图8A和图8B中示出了标记的医疗报告的摘录的示例。
类似于模型222,模型224可以被训练以鉴定文本数据中的实体204(例如,与实体202不同的实体),并且模型226可以被训练以鉴定实体206(例如,与实体202和实体204不同的实体)。例如,实体204可以是“解剖结构”,并且实体206可以是“治疗”。为了训练模型224,可以在数据集策展块210创建数据集214,其中数据集214包括标记为“解剖结构”的词语的各种实例,诸如“心脏”、“肺”、“大脑”等。为了训练模型226,可以在数据集策展块210处创建数据集216,其中数据集216包括标记为“治疗”的词语的各种实例,诸如“化学疗法”、“手术”等。模型224可以在数据集214上被训练,并且可以不在诸如数据集212或数据集216等其他数据集上被训练。模型226可以在数据集216上被训练,并且可以不在诸如数据集212或数据集214等其他数据集上被训练。
在其他实施方案中,实体识别模型221中的一个或多个实体识别模型可以被训练以鉴定和标记多于一个实体201的实例。例如,模型222可以被训练以鉴定和标记实体202和实体204的实例,但不鉴定和标记实体206或其他实体的实例。模型224可以被训练以鉴定和标记实体204和206的实例,但不鉴定和标记实体202;模型206可以被训练以鉴定和标记实体202、实体204和实体206的实例,等等。实体识别模型221中的一些实体识别模型可以被训练以鉴定和标记多个定义的实体201的实例,并且其他实体识别模型221可以被训练以鉴定和标记一个实体的实例。
在一些实施方案中,被训练以鉴定和标记多个实体201的实体识别模型221可以使用标记的数据集211来训练,该标记的数据集被策展以训练模型来鉴定和标记单个实体。例如,如果模型222被训练以鉴定和标记实体202和实体204,则模型222可使用数据集212和214来训练,或者数据集212和214可以被聚集或合并以形成可用于训练模型222的新数据集。在模型222被训练以鉴定和标记实体202和实体204的其他实施方案中,模型222可以使用不同于和/或不包括来自数据集212和214的文本数据的新数据集来训练。
图2B示出了示意性地图示当使用图2A的经训练的实体识别模型221从医疗报告生成患者信息概要时的数据流的框图250。框图250包括医疗报告252,其可以通过患者概要系统254(例如,患者概要系统102)处理以生成患者概要262。患者概要系统254可以包括模型输出聚集块256、输出细化块258和概要生成块260,其可以表示患者概要系统254的代码的模块或部分和/或包括执行代码的部分和从患者概要系统254的人类用户接收输入的处理阶段。
患者概要系统254可以将医疗报告252作为输入录入到一个或多个实体识别模型221(例如,模型222、模型224、模型226等)中。一个或多个实体识别模型221中的每个实体识别模型可以输出医疗报告252的版本,该版本具有在其上训练对应实体识别模型的实体的标记的实例。一个或多个实体识别模型221的输出然后可以在模型输出聚集块256处聚集。输出的聚集可以通过遵循关于图5描述的程序的一个或多个步骤来执行。模型输出聚集块256的输出可以是医疗报告252的标记的版本,其中标记多个实体的实例。多个实体的每个实例可以对应于一个或多个实体识别模型221中的每个实体识别模型的相应实体。例如,一个或多个实体识别模型221可以包括模型222、模型224和模型226,并且医疗报告252的标记的版本可以包括标记为实体202、实体204和实体206的文本表达。
聚集实体识别模型221的输出可包括解决不同实体识别模型之间的任何标记冲突。在一些情况下,医疗报告252中的词语可以由多于一个模型不同地标记。例如,模型222可以被训练以标记疾病的实例,并且模型224可以被训练以标记患者的解剖部分的实例,如在上述示例中。医疗报告252可以包括表达“肺癌”。表达“肺癌”中的词语“肺”可以被模型222标记为疾病,并且可以被模型224标记为解剖结构。在模型222和模型224的输出的聚集期间,表达“肺癌”中的词语“肺”可以被解析为疾病或患者的解剖部分。换句话说,单个实体标记可以与多个标记相关联,其中每个实体标记是具有最高准确概率的模型输出。解决实体标记之间的冲突可涉及确定不同模型输出的相对权重,如下面参考图6所描述的。在其他实施方案中,多个实体标记可与单个词语或文本表达相关联。
在已经聚集实体识别模型221的输出之后,其中标记多个实体的实例的医疗报告252的标记的版本可以由输出细化块258进一步细化。细化医疗报告252的聚集的、标记的版本可以包括基于基于背景的临床知识和/或自然语言处理(NLP)来调整或改变一个或多个实体标记,如下面参考图7更详细描述的。
在细化医疗报告252的聚集的、标记的版本之后,可以由患者概要系统254的概要生成块260生成患者概要260。下面参考图4描述患者概要260的生成。
现在参考图3,示出了示例性方法300,该示例性方法用于训练多个实体识别模型来识别文本数据中的预定义实体,作为患者概要系统的一部分。方法300和本文包括的其他方法中描述的实体识别模型可以是图1的实体识别模型126和图2A和图2B的实体识别模型221的非限制性示例。因此,可以分别参考图1、图2A和图2B的患者概要系统102、模型训练系统200和/或框图250来描述方法300和本文包括的其他方法。在各种实施方案中,方法300和本文包括的其他方法可以由患者概要系统102的处理器132进行。
方法300开始于302,其中方法300包括选择可以围绕其生成各种患者概要的一组期望实体(例如,定义的实体201)。期望实体可以是一组类别或类型,通常在患者的医疗记录中找到的词语或文本表达可以被分类到该类别或类型中,该类别或类型可以表示审阅患者的EMR的护理者或健康护理专业人员感兴趣的区域。例如,期望实体可以包括诸如疾病、解剖结构、问题、测试、组织、治疗、诊断等概念。在一些实施方案中,期望实体可以以分级的方式构造,其中期望实体中的实体可以包括一个或多个类别。例如,实体“癌症”可以包括不同类型的癌症的类别,诸如肺癌、皮肤癌、结肠癌等。此外,类别可另外包括一个或多个水平的子类别。在一些实施方案中,该组期望实体可以是大的和/或全面的,其中患者概要系统可以生成可以概述宽范围的患者数据的患者概要。在其他实施方案中,该组期望实体可以更小,并且患者概要系统可以生成更小的和/或聚焦于特定类型的患者数据或状况的患者概要。例如,在一个实施方案中,患者概要系统可以生成关于单个医学状况(诸如糖尿病)的患者概要,并且可以显示与糖尿病相关联的患者的概要数据,诸如血糖水平、胆固醇水平等。
在304,方法300包括:对于该组期望实体的每个实体,创建包括输入数据集和标记的数据集的数据集对,该数据集对将被用作基础事实数据来训练实体识别模型以识别和标记对应实体。换句话说,可以在两个数据集上训练实体识别模型:没有任何实体标记的输入数据集,以及包括与输入数据集相同的文本数据的对应基础事实数据集,其中已标记对应实体的实例。
在各种实施方案中,每对数据集可以是不同的。例如,每对的每个标记的数据集可以使用不同的过程来创建。每个标记的数据集可以由不同的人类专家以不同的方式进行策展,以实现不同的期望的靶标特性。每对数据集可以存储在不同的位置。例如,第一对数据集可以存储在第一数据库中;第二对数据集可以存储在第二数据库中;并且第三对数据集可以存储在第三数据库中,其中第一数据库、第二数据库和第三数据库中的每个数据库可以在患者概要系统的内部或外部,或者存储在患者概要系统的存储器(例如,存储器130)中的不同位置中。
在306,创建数据集对包括从各种来源选择相关文本数据。各种来源可包括例如从一组患者的EMR提取的匿名化的历史患者报告或记录,其中报告或记录包括实体的各种实例。例如,实体可以是“癌症”,并且记录可以选自患有癌症的患者,其中记录包括描述癌症的多个不同术语。除了一个或多个不同医学状况之外,可以从患有癌症的患者中选择记录,以训练对应实体识别模型将描述癌症的多个不同术语识别为癌症,并且不将描述癌症的多个不同术语识别为不同医学状况,并且不将描述不同医学状况的各种术语识别为癌症。在其他实施方案中,各种来源可以包括但不限于公开可用的数据集、来自医院的匿名化医疗报告、合成生成的数据集等等。
在308,创建数据集对包括组合和策展所选的相关文本数据以实现实体的实例的靶标频率,其中实例具有靶标长度并且实现靶标邻接。在各种实施方案中,对所选的相关文本的策展可以至少部分地由人类专家执行,包括医生和/或构建模型领域的工程师。可以选择期望的靶标特性以提高或最大化训练相应实体识别模型的效率。期望的靶标特性可以包括实体的实例的频率。例如,对于实体“癌症”,可以对文本数据进行策展,使得在第一靶标数值范围内包括词语“癌症”的多个实例。可以对文本数据进行策展,使得在其他靶标数值范围内包括像“肿瘤”、“病变”等的词语的多个实例,该其他靶标数值范围可以与第一靶标范围相同或与第一靶标范围不同。可以针对涉及癌症的词语或文本表达的实例的邻接来对文本数据进行策展。例如,可以编辑文本数据,使得涉及癌症的词语或文本表达的实例以平衡且均匀的方式分布在整个文本数据中,而不是以实例集中在文本数据的部分中的方式分布。例如,可以分析实例的长度(例如,比单个词语长的文本表达的长度)以确保实例具有便于高效地训练实体识别模型的长度。应当理解,本文提供的示例是为了说明的目的,并且在不脱离本公开的范围的情况下,可以使用更大或更小数量的不同类型的策展来对文本数据进行策展。
期望的靶标特性对于不同的标记的数据集和/或不同的实体可以是不同的。相关文本数据对于一些实体来说可能是丰富的,而对于其他实体来说可能是更加缺乏的。例如,实体“解剖结构”的文本数据可以在大量医疗报告中容易地找到;实体“癌症”的文本数据可以在较少数量的医疗报告中找到;实体“组织”的文本数据可以在甚至更小数量的医疗报告中找到;等等。结果,标记的数据集可以具有不同的大小。作为数据集大小不同的结果,相应实体识别模型可能无法同样好地训练或执行。例如,在第一对大数据集上训练的第一模型可以实现对第一医疗报告的第一性能,并且在第二对较小数据集上训练的第二模型可以实现对第二医疗报告的第二性能,其中第二性能低于第一性能。第一医疗报告可以与第二医疗报告相同,或者第一医疗报告可以与第二医疗报告不同。
在310,创建数据集对包括标记组合的和策展的文本数据以生成标记的数据集。标记组合的和策展的文本数据可以包括各种手动和/或自动步骤。例如,一个或多个人类专家可以编译在策展的文本数据中找到的待标记的词语或文本表达的实例的列表。可以编写计算机程序以将标识语言插入到策展的文本数据中以标记的实例列表中的每个实例。在一些实施方案中,患者概要系统的计算机应用程序可以被配置为将实例列表作为输入,并且自动生成标记。
应当理解,虽然步骤306、步骤308和步骤310描述了为单个实体创建各自的标记的数据集,但是可以通过遵循类似的程序来创建一个或多个标记的数据集以用于训练多实体识别模型。类似的程序可以包括从各种来源中选择包括多个实体的实例的相关文本数据;将如上所述的文本数据与多个实体的靶标频率、长度和邻接进行组合和策展;以及标记文本数据的实例以形成包括多于一个实体的标记的实例的标记的数据集。
在312,方法300包括在每一对数据集上训练实体识别模型。在各种实施方案中,实体识别模型可以被提供有输入数据集和基础事实数据集(例如,标记的数据集)作为输入。实体识别模型可以基于实体识别模型的一组参数输出输入数据集的标记的版本。可以通过应用梯度下降算法并且通过网络反向传播实体识别模型的输出与基础事实数据集之间的差(例如,误差)以最小化该差来调整该组参数。
如上所述,输出可以是输入数据集的标记的版本,其中每个标记包括准确地鉴定实体的实例的模型的概率值。在多实体识别模型的情况下,输出可以是输入数据集的标记的版本,其中每个标记包括概率向量,该概率向量包括多个概率值(例如,多实体识别模型在其上被训练的每个实体一个概率值)。
当多实体识别模型鉴定模型已在其上训练的多个实体中的实体的实例时,多实体识别模型可输出该实例的概率向量,其中概率向量包括每个实体是分配给该实例的最准确实体的概率。换句话说,每个概率可以是实例可以被分类到其中的每个可能实体中的多实体识别模型的置信水平。概率向量可包括对应于模型已在其上训练的实体的数量的多个概率值。
例如,如果多实体识别模型被训练为识别文本数据中的五个实体的实例,则多实体识别模型可以针对被识别为五个实体中的至少一个实体的实例的每个词语或表达输出包括五个概率值的概率向量。概率向量的第一概率值可以指示该词语或表达是五个实体中的第一实体的实例的概率;概率向量的第二概率值可以指示该词语或表达是五个实体中的第二实体的实例的概率;概率向量的第三概率值可以指示该词语或表达是五个实体中的第三实体的实例的概率;概率向量的第四概率值可以指示该词语或表达是五个实体中的第四实体的实例的概率;并且概率向量的第五概率值可以指示该词语或表达是五个实体中的第五实体的实例的概率。
另外,在稍后的推断阶段期间,患者概要系统可以确定五个概率值中的最高概率值,并且向该词语或表达分配标记,将该词语或表达分类为具有最高概率值的实体的实例。例如,可以训练多实体识别模型以鉴定两个不同的实体,即实体“疾病”和实体“解剖结构”。医疗报告中的表达“肺癌”可以被多实体识别模型鉴定为实体“疾病”和实体“解剖结构”中的任一者或两者的实例。实体识别模型可以输出概率向量,该概率向量包括“肺癌”被准确地标记为“疾病”的第一概率为80%以及“肺癌”被准确地标记为“解剖结构”的第二概率为20%。作为第一概率(80%)大于第二概率(20%)的结果,医疗报告中的“肺癌”可以被标记为实体“疾病”的实例,并且可以不被标记为实体“解剖结构”的实例。下面参考图9A描述与实体相关联的概率向量的示例。
应当理解,在一些示例中,训练可以经由患者概要系统外部的系统发生,并且经训练的模型然后可以被存储在患者概要系统中。
在314,方法300包括存储经训练的模型以供部署(例如,在存储器130中),并且方法300结束。
现在参考图4,示出了示例性方法400,该示例性方法用于在诸如患者概要系统102的患者概要系统中使用多个经训练的实体识别模型来生成患者的医疗报告的患者信息概要。
方法400开始于402,其中方法400包括接收医疗报告。在各种示例中,可以从患者的EMR(例如,EMR数据库114)检索医疗报告。例如,诸如患者的医生的护理者可以从EMR检索医疗报告,并且将医疗报告输入到患者概要系统中,该患者概要系统可以在患者概要系统的显示设备(例如,护理提供者设备134)上输出患者信息概要。
在404,方法400包括选择待由多个经训练的实体识别模型标记的一个或多个期望实体。该一个或多个期望实体可以与护理者感兴趣的患者的状况相关。例如,患者可能患有癌症,并且护理者可能希望审阅与癌症有关的医疗报告的信息,诸如诊断、治疗、历史数据等。患者可另外患有其他状况。如果其他状况是护理者感兴趣的,则与其他状况相关的实体可以被包括在所选的一个或多个期望实体中。例如,如果患者患有糖尿病和癌症,并且护理者对关于糖尿病和癌症两者的患者信息感兴趣,则待由经训练的实体识别模型标记的一个或多个期望实体可以包括第一实体癌症和第二实体糖尿病。如果护理者对患者的其他状况不感兴趣,则一个或多个期望实体可以包括第一实体癌症,并且可以不包括第二实体糖尿病和/或与其他状况相关的其他实体。
在406,方法400包括将医疗报告输入到对应于一个或多个期望实体的一个或多个实体识别模型中。例如,可以将医疗报告输入到对应于实体癌症的第一实体识别模型中。第一实体识别模型可以输出医疗端口的第一版本,其中用实体癌症标记癌症表达的实例。还可以将医疗报告输入到对应于实体糖尿病的第二实体识别模型中,并且第二实体识别模型可以输出医疗报告的第二版本,其中用实体糖尿病标记糖尿病表达的实例。以这种方式,可以采用多个实体识别模型来标记医疗报告中的各种实体,其中多个实体识别模型中的每个实体识别模型输出医疗报告的不同标记的版本。
另外地或另选地,如上所述,医疗报告可以作为输入被录入到对应于一个或多个期望实体中的多个的一个或多个多实体识别模型中。例如,可以将医疗报告录入到第一多实体识别模型中,该第一多实体识别模型被训练以标记粗体癌症表达和糖尿病表达的实例(例如,在包括癌症表达和糖尿病表达两者的标记的实例的标记的数据集上训练)。第一多实体识别模型可以输出医疗报告的第三版本,其中癌症表达和糖尿病表达两者的实例分别用实体癌症和糖尿病标记。如果附加多实体识别模型可用于附加实体,则可以将医疗报告录入到附加多实体识别模型中。
在408,方法400包括聚集标记的模型输出并解决任何实体冲突。聚集标记的模型输出可以包括合并医疗报告的多个版本,其中在每个版本中,一个或多个实体的实例被如此标记。当合并多个版本时,一个或多个标记的词语或文本表达可以被不同的实体识别模型不同地标记。在一些场景中,用于训练实体识别模型的实体可以是互斥的,其中多个标记可以不用于单个实体。在其他场景中,用于训练实体识别模型的实体可能不是互斥的,并且多个标记可用于单个实体。例如,第一实体识别模型可以被训练以标记实体“程序”的实例,并且第二实体识别模型可以被训练以标记实体“治疗”的实例,其中词语“手术”的实例可以被标记为由第一实体识别模型进行的程序以及由第二实体识别模型进行的治疗。作为另一个示例,实体“癌症”可以包括子类“肺癌”。表达“肺中肿瘤”可以被标记为“癌症”和“肺癌”,或者可以被标记为“癌症”和“解剖结构”。
当文本表达被标记为两个或更多个互斥实体时,标记冲突可能发生。当标记冲突发生时,可通过选择最准确的实体标记来解决该冲突。下面参考图5更详细地描述解决标记冲突。
在410,方法400包括细化所聚集的模型输出(例如,在冲突已被解决之后)。细化所聚集的模型输出可包括使用附加内部或外部资源来确定一个或多个实体是否被适当地标记。例如,当医疗报告的标记的、合并的版本中的词语将被更适当地标记为不同的第二实体时,该词语可以被标记为第一实体。如果该词语将被更适当地标记为不同的第二实体,则该词语的标记可以从第一实体改变为第二实体。
在412,细化聚集的模型输出包括基于来自一个或多个域专用工具的基于临床背景的知识来调整或改变聚集的标记的模型输出的一个或多个标记。一个或多个域专用工具可以包括例如统一医疗语言系统、医疗主题词表、一个或多个医疗词典、数据库、概念集或其他类似资源。该一个或多个域专用工具可以包括公共或私有在线资源,和/或在患者概要系统内部或经由患者概要系统连接到的一个或多个医院或健康护理网络可用于患者概要系统的资源。在各种实施方案中,可在域专用工具中查询在聚集的标记的模型输出中标记的词语或多词语表达以确定是否可存在更准确的标记。如果存在更准确的标记,则可以改变该标记。
作为一个示例,词语“黑素瘤”可以被标记为聚集的标记的模型输出中的第一实体“癌症”。“黑素瘤”可以在在线医学词典中查找。可以提取在线医疗词典中的术语“黑素瘤”的鉴定符(例如,字母数字代码)。可以在一个或多个附加在线资源上执行对鉴定符的搜索,这可以返回黑素瘤的一组可能的同义词。可以审阅该组可能的同义词以确定一个或多个同义词是否也可以是由患者概要系统定义的实体(例如,定义的实体201)。同义词之一可以是第二实体“皮肤癌”,其可以是实体“癌症”的子类别。可以将第二实体“皮肤癌”与第一实体“癌症”进行比较以确定词语“黑素瘤”的最准确分类。第二实体“皮肤癌”可以被确定为“黑素瘤”的更准确分类。例如,在一个实施方案中,作为“皮肤癌”是实体“癌症”的子类别的结果,“皮肤癌”可以被自动地确定为更准确的分类(例如,其中更具体的术语被认为是比不太具体的术语更准确的分类)。在其他实施方案中,可以使用不同的程序来评估实体标记的准确度。作为被确定为更准确的结果,在聚集的模型输出(例如,医疗报告的标记的版本)中,第一实体标记“癌症”可以被第二实体标记“皮肤癌”替换。
作为另一个示例,表达“肺癌”可以被实体识别模型标记为实体“疾病”,并且被另一个实体识别模型标记为“癌症诊断”。医学词典中用于“癌症诊断”的实体可以包括被称为“疾病”的父概念。作为将一个实体类型鉴定为与另一个实体类型相比较的父概念的结果,实体“癌症诊断”可以被确定为“肺癌”比“疾病”更细粒度的分类,由此标记“疾病”可以由标记“癌症诊断”替换。
在414,在一些实施方案中,细化聚集的模型输出可包括基于基于语法的规则来调整或改变聚集的标记的模型输出的一个或多个标记。可以对聚集的模型输出的句子执行自然语言处理(NLP),其中可以分析与标记的实体相邻、靠近或围绕的单词,以确定该实体是否被准确标记。例如,标记的词语的形容词可以指示实体标记是不正确的。
在416,方法400包括从由模型输出的聚集的标记的文本数据生成医疗报告的标记的版本的概要,其中该概要概述与一个或多个期望实体相关的患者信息。为了生成概要,患者概要系统可以提取期望实体的实例(其可以由如上所述的标记鉴定),并且基于实体生成文本内容以显示给护理者。文本内容可以包括例如医疗报告中所包括的实体和实例的数量和类型、医疗报告的标记的文本的摘录和/或与所提取的实体有关的附加的患者数据。
在各种实施方案中,除了生成文本内容之外,期望实体的所提取的实例可以被组装成数据结构,其中该数据结构对于患者概要系统而言可以比标记的文本内容更快且更有效地搜索。所提取的实例可以在生成标记的文本内容之前被组装到数据结构中,并且该数据结构可用于生成文本内容,或者所提取的实例可以在生成标记的文本内容期间或之后被组装到数据结构中。例如,护理者可以将一组期望实体录入到患者概要系统中,并且患者概要系统可以将期望实体中的每个实体录入到相应实体识别模型中。相应实体识别模型的输出可以如上所述被聚集和细化,以生成标记的文本内容。标记的文本内容中的期望实体的实例可以被组装到数据结构中。患者概要系统可以例如经由存储的配置或用户的偏好来选择患者概要的期望格式。患者概要系统可以在数据结构中搜索期望实体的实例,并且可以至少部分地基于从数据结构检索的数据根据期望格式生成患者概要。因为可以比标记的文本内容更快速且更有效地搜索数据结构,所以可以提高生成患者概要的速度。例如,期望的格式可以包括期望实体的主要实体的实例的列表,并且可以比从标记的文本内容搜索和检索实例更快速地从数据结构搜索和检索主要实体的实例。
在一些实施方案中,数据结构可以是分层数据结构,其中期望实体的所提取的实例可以以分层方式组织。在其他实施方案中,数据结构可以不同方式配置,例如以便于根据本领域已知的一个或多个搜索算法进行高效搜索。在各种示例中,数据结构可以是关系数据库。
简要地参考图11,示出了关系数据库(例如,如上所述的数据结构)的示例性数据库表1100,其中数据库表1100包括三列和三行。数据库表1100的第一列1102包括被选择以在文本内容中标记的多个期望实体;第二列1104包括第一列1102的期望实体中的每个实体的多个实例;并且第三列1106包括第二列1104中所包括的多个实例。数据库表1100的第一行1108包括列1102、列1104和列1106的列标题;数据库表1100的第二行1110包括实体“癌症”的数据;并且数据库表1100的第三行1112包括实体“解剖结构”的数据。使用数据库表1100,患者概要系统可以比通过文本内容的自动解析更快速且更有效地检索关于文本内容中的实体的信息。例如,患者概要系统的用户可能希望在文本内容中看到实体“癌症”的所有实例的列表。患者概要系统可以从关系数据库请求在文本内容中找到的实体“癌症”的实例的列表,对于该列表,实例的数量大于0。可以查询数据库表1100中的实体“癌症”,并且基于行1110中所包括的信息,可以检索指示在文本内容中找到词语“癌症”的五个实例以及词语“肿瘤”的三个实例的数据。患者概要系统可以显示针对用户的患者概要中的数据。
返回到方法400,概要的格式和内容可随不同实施方案而变化。概要的格式和内容可以例如由一个或多个护理提供者或由医院的一个或多个管理员或由不同的医疗专业人员来配置。在一些实施方案中,格式和/或内容可针对特定的护理提供者定制。例如,第一护理提供者可能希望在第一概要中看到第一组患者数据,并且第二护理提供者可能希望在不同的第二概要中看到不同的第二组患者数据。另选地,第一护理提供者和第二护理提供者可能希望看到相同的患者数据,但是第一护理提供者可能希望以第一方式格式化患者数据,并且第二护理提供者可能希望以第二方式格式化患者数据。例如,第一护理提供者可以优选突出显示的第一组实体,并且第二护理提供者可以优选突出显示的第二组实体。
概要可以包括在标记的医疗报告中标记的一个或多个实体的列表。例如,护理提供者可以经由患者概要系统的用户接口(UI)(例如,护理提供者设备134的UI)来选择以查看基于实体“癌症”和“治疗”的患者数据的概要。所生成的概要可以包括所选的实体“癌症”和“治疗”的列表。在一些实施方案中,概要可以包括在标记的医疗报告中识别和标记的实体的数量的计数。例如,医疗报告可以包括实体“癌症”(例如,癌症、肿瘤、病变等)的10个标记的实例和实体“治疗”的四个实例。该概要可包括指示检测到10个标记的癌症实例和四个治疗的实例的陈述。概要可以包括在标记的医疗报告中鉴定的标记为“癌症”和“治疗”的词语或表达的列表。概要的内容可以被组织并显示为项目符号列表,或者概要的内容可以可预先配置的句子或段落来表达。
在各种实施方案中,概要可以包括来自标记的医疗报告的摘录。摘录可以包括单个句子、句子的部分、句子的组或标记的医疗报告的整个段落。在一个实施方案中,摘录可以包括标记的医疗报告中的所有文本。可以在显示设备上显示摘录,其中指示了一些或全部标记。例如,可以在实体的标记的实例旁边显示实体的名称。可以突出显示实体的名称和/或标记的实例。例如,实体名称和标记的实例中的任一者或两者可以被包括在粗体文本中或斜体中或不同的格式中。可以例如以相同或不同的颜色突出显示实体名称和标记的实例中的任一者或两者。例如,可以以第一颜色突出显示第一实体名称,并且可以以第二颜色突出显示第二实体名称。
在418,方法400包括在患者概要系统的显示设备(例如,护理提供者设备134)上显示由模型输出的概要和/或聚集的标记的文本数据。在420,方法400包括将由模型输出的概要和/或聚集的标记的文本数据存储在患者概要系统中(例如,存储在概要106中)。在各种实施方案中,摘要和聚集的标记的文本数据中的任一者或两者可由各种下游应用程序使用。方法400结束。
简要参考图8A,模型输出示例800示出了实体识别模型的输出的示例性摘录802。实体识别模型可以是图2A和图2B的模型222的非限制性版本,其中实体识别模型可以被训练以鉴定实体“癌症”的实例。例如,可以在图2A的数据集212上训练实体识别模型。
在所描绘的实施方案中,摘录802包括词语“肿瘤”,其已经被实体识别模型标记为实体“癌症”的实例。具体地,实体识别模型已经插入标识标签<癌症>和</癌症>以将词语“肿瘤”鉴定为癌症。如上所述,词语“肿瘤”被准确地鉴定为“癌症”的概率也包括在内。当生成患者概要时,患者概要系统的模块可以搜索标识标签。当遇到标识标签时,模块的可执行代码可以用图形标记替换标记的实体,如图8B所示。
在图8B中,根据一个实施方案,概要显示示例850示出了从图8A的模型输出示例800的示例性摘录802生成的示例性显示摘录852,其中显示摘录852被显示在由患者概要系统(例如,患者概要系统102)生成的患者概要内。患者概要系统的可执行代码可以检测图8A的摘录802中的标识标签,并且在标识标签的位置处插入图形标记。图形标记可以包括格式化和/或突出显示,诸如例如彩色/阴影背景、粗体文本、彩色文本或其他视觉特征以指示相关实体。在一些实施方案中,可以基于由实体识别模型分配的概率值来定制格式化和/或突出显示。
另外,格式化和/或突出显示可以专用于实体。例如,第一实体识别模型可以包括用于鉴定第一实体的第一格式化和/或突出显示;第二实体识别模型可以包括用于鉴定第二实体的第二格式化和/或突出显示;等等。以这种方式,当聚集多个实体识别模型的输出时,可以以不同的方式指示由相应实体识别模型识别的每个实体。下面参考图10描述了具有聚集的模型输出的患者概要的摘录的示例。
类似于图8A,图9A包括模型输出示例900,其示出多实体识别模型的输出的第一示例性摘录902和第二示例性摘录904,其中模型输出包括概率向量,该概率向量包括多实体识别模型在其上被训练的每个实体的概率值。在两个实体上训练多实体识别模型:“癌症”和“解剖结构”。例如,可以在包括标记的癌症实体和标记的解剖部分的数据集上训练多实体识别模型。
如图8A所示,摘录902包括词语“肿瘤”,其已经被实体识别模型标记为实体“癌症”的实例。具体地,实体识别模型已经插入标识标签<癌症>和</癌症>以将词语“肿瘤”鉴定为癌症。还包括词语“肿瘤”的概率向量,其中概率向量依次包括与实体“癌症”和“解剖结构”相关的三个概率值以及“肿瘤”未被鉴定为“癌症”或“解剖结构”的概率。80%的第一概率值指示“肿瘤”被鉴定为“癌症”的概率。10%的第二概率值指示“肿瘤”被鉴定为“解剖结构”的概率。10%的第三概率指示“肿瘤”被鉴定为“外部”(例如,非癌症和非解剖结构实体)的概率。作为“肿瘤”被鉴定为“癌症”的概率大于“肿瘤”被鉴定为“解剖结构”(或“外部”)的概率的结果,标识标签<癌症>和</癌症>被选择以将“肿瘤”标记为“癌症”。
类似地,表达“额叶”已被标记为实体“解剖结构”的实例,这是被分配比“癌症”和“外部”更大的概率(例如,80%对10%对10%)的结果。
在第二摘录904中,根据模型输出,作为包括词语“大脑”的结果,表达“脑瘤”具有60%的概率是“癌症”的实例,30%的概率是“解剖结构”的实例,以及10%的机率是“外部”。作为“脑瘤”是“癌症”的实例比是“解剖结构”的实例具有更高概率的结果,多实体识别模型包括用于“癌症”的标识标签,而概率向量包括“解剖结构”也是一种可能性的信息。
在图9B中,根据一个实施方案,概要显示示例950示出了从图9A的模型输出示例900的示例性摘录902和904生成的第一示例性显示摘录952和第二示例性显示摘录954,其中显示摘录952和954被显示在由患者概要系统(例如,患者概要系统102)生成的患者概要内。
示例性显示摘录952可以在屏幕上显示给护理者(例如,在护理提供者设备134上)。当生成患者概要时,患者概要系统的模块可以搜索用于“癌症”和“解剖结构”的标识标签。当遇到标识标签时,模块的可执行代码可以用相应的图形标记来替换相应的标记实体。如参考图8B所描述的,图形标记可以包括格式化和/或突出显示,诸如例如彩色/阴影背景、粗体文本、彩色文本或其他视觉特征,以指示相关实体。格式化和/或突出显示可基于由实体识别模型分配的概率值来定制。
在第二摘录954中,由于概率之间的差(例如,来自图9A的60%、30%、10%)低于阈值差,对于词语“脑瘤”,可以包括“癌症”和“解剖结构”的标记。另外,“癌症”和“解剖结构”的标记可以基于概率的差在视觉上彼此区分。例如,标记“癌症”可以以第一格式(例如,以白色)显示,并且标记“解剖结构”可以以第二格式(例如,以更暗的阴影)显示。以这种方式,模型输出的不确定性可以被传达给护理者。应当理解,在其他实施方案中,可以使用不同类型的标记技术和/或不同类型的格式化和/或突出显示。
图10示出了基于多个实体识别模型的输出生成的标记的医疗报告的第三示例性摘录1000,其中第三示例性摘录被显示在诸如图1的患者概要系统102的患者概要系统的显示器上。在摘录1000中,各种文本表达被标记为由多个实体识别模型鉴定的实体的实例。文本表达的标记可以根据文本表达的标记的实体而不同。例如,可以以第一颜色、阴影或格式化来标记第一实体的实例;可以以第二颜色、阴影或格式化来标记第二实体的实例;等等。以这种方式,查看第三示例性摘录1000(例如,在患者概要中)的护理者可以快速地扫描一个或多个期望实体。
例如,第一实体“癌症”可以以第一颜色显示,使得对第一实体“癌症”感兴趣的护理者可以快速地扫描摘录1000以寻找第一颜色的标记。第二实体“基因_或_基因_产物”可以以第二颜色显示,该第二颜色可以不同于第一颜色。第三实体“多组织结构”可以以第三颜色显示,该第三颜色可以不同于第一颜色和第二颜色。
返回到图4,概要还可以包括患者的附加数据。例如,对于检测到的每个治疗实体,患者概要可以包括在医疗报告中包括的治疗信息。描述治疗的句子可以基于句子的具体内容来鉴定,并且句子可以被包括在患者概要中。例如,患者概要系统可以扫描标记的医疗报告以寻找靠近治疗的标记的实例的句子,该句子包括可以提取并显示在概要中的治疗的开始和/或结束日期和/或时间。
在一些实施方案中,附加数据可以不被包括在医疗报告中,并且可以从不同的来源(诸如患者的EMR)提取。例如,患者概要系统可以确定医疗报告中的患者的姓名和/或鉴定符。患者概要系统可以在EMR数据库(例如,EMR数据库114)中进行姓名和/或鉴定符的搜索。患者概要系统可以访问患者的EMR,并且从EMR检索患者数据。患者数据可以包括例如入院数据、历史患者数据、管理数据(诸如患者的位置数据)和/或患者的任何其他信息。患者数据可以与实体信息一起显示在概要中。应当理解,本文提供的示例是出于说明性目的,并且在不脱离本公开的范围的情况下,各种不同类型和/或量的信息可以以各种不同的格式被包括在患者概要中。
现在参考图5,示出了示例性方法500,该示例性方法用于聚集多个经训练的实体识别模型的标记的模型输出,其中聚集标记的模型输出包括解决实体冲突。实体识别模型可以是患者概要系统(诸如图1的患者概要系统102)内的图2A和图2B的实体识别模型221的非限制性示例。多个经训练的实体识别模型的标记的模型输出可以作为将患者的医疗报告输入到多个经训练的实体识别模型中的结果而生成。
方法500开始于502,其中方法500包括从多个经训练的实体识别模型中的每个实体识别模型接收包括标记的实体的标记的医疗报告。在各种实施方案中,可以通过遵循参考图4描述的程序来生成标记的医疗报告。
在504,方法500包括继续浏览标记的医疗报告并且逐一审阅实体的每个标记的实例,以确定是否已经将多于一个实体标记分配给标记的实例。例如,第一实体标记可以由多个实体识别模型中的第一实体识别模型分配给标记的实例,并且第二实体标记可以由多个实体识别模型中的第二实体识别模型分配给标记的实例。
在506,方法500包括确定实体的实例是否被两个或更多个实体识别模型标记为多于一个不同的实体。当通过两个或更多个实体识别模型向实例分配不同标记时,实例可以被标记为多于一个不同实体,并且不同标记是互斥的(例如,不是类别和适当子类别)。如果在506,确定该实例被两个或更多个实体识别模型标记为多于一个不同实体,则方法500进行到508。
在508,方法500包括向两个或更多个实体识别模型的输出分配相对权重,并且基于相对权重选择不同标记中最准确的实体标记。下面参考图6更详细地描述选择不同标记中最准确的实体标记。
另选地,如果在506,确定该实例没有被两个或更多个实体识别模型标记为多于一个不同实体,则方法500进行到510。在510,方法500包括接受由多实体识别模型分配的标记,并且方法500结束。
现在参考图6,示出了示例性方法600,该示例性方法用于在诸如患者概要系统102的患者概要系统内,基于接收医疗报告作为输入的多个实体识别模型的输出的相对权重,将标记分配给医疗报告中的实体的实例。
方法600开始于602,其中方法600包括基于由每个实体识别模型输出的概率值或矢量来向多个实体识别模型的输出分配初始权重。对于在单个实体上训练的实体识别模型,概率值是实体识别模型的输出正确地鉴定实例的概率。对于在多个实体上训练的多实体识别模型,概率向量包括作为多个实体中的每个实体的实例的标记的表达的相对概率。
作为第一示例,医疗报告可以包括表达“肺癌”。被训练以鉴定实体“癌症”的实例的第一实体识别模型可以以第一概率将表达“肺癌”标记为“癌症”。被训练以鉴定实体“解剖结构”的实例的第二实体识别模型可以以第二概率将表达“肺癌”标记为“解剖结构”。为了解决关于标记“肺癌”的第一实体识别模型和第二实体识别模型的输出之间的冲突,可以基于概率分配两个模型输出的相对权重。如果第一概率高于第二概率,则第一实体识别模型的输出可以被加权为高于第二实体识别模型的输出。如果第一概率低于第二概率,则第一实体识别模型的输出可以被加权为低于第二实体识别模型的输出。例如,第一概率可以是66.6%并且第二概率可以是33.3%,由此如果我们不考虑任何其他加权准则(包括但不限于样本大小、模型性能等),则第一实体识别模型的输出可以比第二实体识别模型的输出多2倍地加权。
应当理解,在一些实施方案和/或场景中,与实体相关联的概率分数可以不加起来达100%,因为分数可以由使用不同训练数据集训练的两个不同模型生成。在一些实施方案中,不同模型概率的相对权重可以基于用于训练模型的训练数据的相对数量和质量,和/或两个不同模型的相对性能。
作为第二示例,被训练以鉴定实体“癌症”的实例的第一实体识别模型可以以第一概率将表达“肺癌”标记为“癌症”。被训练以鉴定实体“癌症”的实例和实体“解剖结构”的实例的第三多实体识别模型可以以分别包括80%(针对解剖结构)和10%(针对癌症)的值的概率向量将表达“肺癌”标记为“解剖结构”。如上所述,可以将10%的附加概率分数分配给第三实体“外部”,这意味着不是癌症或解剖结构。作为第三多实体识别模型输出表达“肺癌”是“解剖结构”的实例的概率高于表达“癌症”的实例的概率的结果,第三多实体识别模型可以将“肺癌”标记为“解剖结构”。为了解决关于标记“肺癌”的第一实体识别模型和第三实体识别模型的输出之间的冲突,可以基于概率分配两个模型输出的相对权重。可以将第一概率与概率向量的最高概率值(例如,80%)进行比较。如果第一概率高于概率向量的最高概率值,则第一实体识别模型的输出可以被加权为高于第三实体识别模型的输出。如果第一概率低于概率向量的最高概率值,则第一实体识别模型的输出可以被加权为低于第三实体识别模型的输出。
在604,方法600包括基于用于训练每个实体识别模型的标记的数据集的相对大小来调整初始权重。由第一实体识别模型输出的第一概率可以高于由第二实体识别模型输出的第二概率。然而,第一概率的准确度可以部分地取决于用于训练第一实体识别模型的第一标记的数据集(例如,数据集212)的大小(例如,数据的数量),并且第二概率的准确度可以部分地取决于用于训练第二实体识别模型的第二标记的数据集(例如,数据集214)的大小。第二标记的数据集的大小可以大于第一数据集的大小。例如,在第二标记的数据集中标记的第二实体(例如,实体204)可以比在第一标记的数据集中标记的第一实体(例如,实体204)更常见地在医疗记录中找到,由此可用于生成第二数据集的文本数据的量可以大于可用于生成第一数据集的文本数据的量。
作为第二数据集大于第一数据集的结果,第二概率可以比第一概率更准确。因此,基于第一概率和第二概率分配的初始权重可以被调整以考虑第一标记的数据集和第二标记的数据集的大小之间的差。如果第一标记的数据集小于第二标记的数据集,则可以减小第一实体识别模型的权重和/或可以增大第二实体识别模型的权重。如果第二标记的数据集小于第一标记的数据集,则可以减小第二实体识别模型的权重和/或可以增大第一实体识别模型的权重。例如,第一模型的加权概率可以是a*概率1,并且第二模型的加权概率可以是b*概率2,其中a和b可以基于与相关数据集的大小有关的准则来选择。
在606,方法600包括基于用于训练每个实体任务模型的标记的数据集与医疗报告的相似性来调整权重。由第一实体识别模型输出的第一概率可以高于由第二实体识别模型输出的第二概率。然而,第一概率的准确度可以部分地取决于用于训练第一实体识别模型的第一标记的数据集与医疗报告的相似性,并且第二概率的准确度可以部分地取决于用于训练第二实体识别模型的第二标记的数据集与医疗报告的相似性。第二标记的数据集可以比第一标记的数据集更类似于医疗报告,由此第二概率的准确度可以大于第一概率的准确度。因此,基于第一概率和第二概率分配的初始权重可以被调整以考虑第一标记的数据集和第二标记的数据集之间的相似性差。如果用于生成第一标记的数据集的文本数据比用于生成第二标记的数据集的文本数据更类似于医疗报告,则可以增大第一实体识别模型的权重和/或可以减小第二实体识别模型的权重。如果用于生成第一标记的数据集的文本数据比用于生成第二标记的数据集的文本数据更不类似于医疗报告,则可以减小第一实体识别模型的权重和/或可以增大第二实体识别模型的权重。例如,第一模型的加权概率可以是a*概率1,并且第二模型的加权概率可以是b*概率2,其中a和b可以基于医疗报告与第一模型和第二模型的训练数据的相似性来选择。
在608,方法600包括基于模型融合分析来调整权重,其中将一个或多个实体识别模型的输出与在一个或多个实体识别模型的实体上训练的参考多实体识别模型的输出进行比较。下面参考图7更详细地描述基于模型融合分析来调整权重。
在610,方法600包括分配与已被分配最高权重的模型输出相关联的标记,并且方法600结束。
图7示出了用于基于模型融合分析来解决患者概要系统(例如,患者概要系统102)内的多个实体识别模型的输出中的实体标记冲突的示例性方法700。在模型融合分析中,将输出与多实体识别模型的参考输出进行比较以确定一致程度。可以基于每个实体识别模型与参考输出的一致程度来调整多个实体识别模型的输出的相对权重。多个实体识别模型的相对权重可用于确定作为实体的实例的文本表达在作为输入录入到多个实体识别模型中的每个实体识别模型的医疗报告中的最准确分类。在各种实施方案中,方法700可以作为上文参考图6描述的方法600的一部分来执行。
方法700开始于702,其中方法700包括接收由接收相同医疗报告作为输入的两个或更多个实体识别模型不同地标记的表达。可以训练两个或更多个实体识别模型中的每个实体识别模型以鉴定医疗报告中的不同实体的实例。例如,可以训练两个或更多个实体识别模型中的第一实体识别模型以鉴定医疗报告中的“癌症”的实例,并且可以训练两个或更多个实体识别模型中的第二实体识别模型以鉴定医疗报告中的“治疗”的实例。表达“肿瘤去除”可以被第一实体识别模型分类为“癌症”的实例,并且被第二实体识别模型分类为“治疗”的实例,从而在医疗报告中产生标记冲突。
在704,方法700包括将医疗报告录入到训练的多实体识别模型中以生成医疗报告的标记的版本,其中标记的版本包括在其上已经训练了两个或更多个实体识别模型的实体的标记的实例。例如,如果上述示例中的第一实体识别模型被训练以鉴定医疗报告中的“癌症”的实例,并且第二实体识别模型被训练以鉴定医疗报告中的“治疗”的实例,则医疗报告可以被输入到被训练以鉴定“癌症”和“治疗”两者的实例的多实体识别模型中。
应当理解,在一些场景中,被训练以识别两个或更多个实体的多实体识别模型可以比被训练以识别单个实体的实体识别模型将医疗报告的文本表达更可靠或准确地鉴定为实体的实例。第二实体可以在多实体识别模型的训练期间为第一实体提供增加其输出的准确度的背景。例如,第一实体和第二实体可以在医疗报告的同一句子中共同找到,由此多实体识别模型可以考虑第二实体与第一实体的邻接以增加输出准确度。
在706,方法700包括从多实体识别模型的输出中提取所接收的文本表达的概率向量。如以上参考图6所描述的,多实体识别模型可输出每个标记的文本表达的概率向量。概率向量包括各种概率值,其中每个概率值表示由在其上训练了多实体识别模型的实体之一正确鉴定文本表达的概率。例如,如果训练多实体识别模型以鉴定两个实体的实例,则可以由多实体识别模型将概率向量分配给两个实体中的任一个实体的每个所鉴定的实例,其中概率向量包括指示文本表达是两个实体中的第一实体的实例的概率的第一概率值,以及指示文本表达是两个实体中的第二实体的实例的概率的第二概率值。
在708,方法700包括将文本表达标记为在概率向量中具有最高概率的实体的实例。最高概率可以被称为参考概率。
在710,方法700包括确定分配给实例的标记是否匹配由两个或更多个实体识别模型分配的一个或多个标记(例如,两个或更多个实体识别模型中的任一个实体识别模型的输出是否匹配多实体识别模型的输出)。如果在710,确定所分配的实体标记与由两个或更多个实体识别模型分配的一个或多个标记不匹配,则方法700进行到716。在716,方法700包括不调整分配给两个或更多个实体识别模型的权重,并且方法700结束。
另选地,如果在710,确定由多实体识别模型分配给实例的标记与由两个或更多个实体识别模型分配的一个或多个标记匹配,则方法700进行到712。在712,方法700包括将参考概率(例如,与由多实体识别模型分配的实体标记相关联的概率)与和由两个或更多个实体识别模型分配的一个或多个匹配标记相关联的概率进行比较。与一个或多个匹配标记相关联的概率可由相应实体识别模型输出,如上文参考图6所描述。
在714,方法700包括确定与一个或多个匹配标记相关联的每个概率与参考概率之间的差是否落入阈值差内。在一些实施方案中,阈值差可以是固定数,诸如0.2(例如,20%)。在其他实施方案中,阈值差可以不是固定的,并且可以基于各种因素来计算。
如果在714,确定该差在阈值差内,则方法700进行到718。在718,方法700包括增加匹配标记的权重。换句话说,如果实体识别模型的输出与参考多实体识别模型的输出在阈值差内匹配,则增大实体识别模型的输出的权重。
另选地,如果在714,确定该差不在阈值差内,则方法700进行到716。在716,方法700包括不增大匹配标记的权重,其中可以不调整匹配标记的权重,并且方法700结束。
例如,在一个实施方案中,阈值差可以是0.2。如果参考概率是0.8,并且与由实体识别模型输出的匹配标记相关联的概率是0.65,则差(例如,0.8-0.65=0.15)在0.2的阈值差内,由此答案为是并且方法700进行到718。如果与由实体识别模型输出的匹配标记相关联的概率是0.55,则差(例如,0.8-0.55=0.25)不在0.2的阈值差内,由此答案为否,并且方法700进行到716。
因此,提供了用于基于数字化医疗报告内的感兴趣的实体的鉴定来概述例如患者的EMR的数字化医疗报告中的患者信息的患者概要系统。感兴趣的实体可以通过多个实体识别模型来鉴定和标记,每个实体识别模型可以被训练以鉴定单个实体。每个实体识别模型的输出可以被聚集以生成医疗报告的标记的版本。患者概要系统然后可以从医疗报告中提取感兴趣的实体的实例,并且生成可以为护理者格式化和/或定制的概要。这种提取可以通过处理器的更有效的处理来实现,因为报告的标记的版本可以更容易地被组装到分层数据结构中以用于更快且更有效的搜索,从而鉴定医疗报告的相关部分。护理者可以指定他们感兴趣的一个或多个实体,并且患者概要系统可以生成专用于那些实体的概要。概要可以包括例如医疗报告的标记的摘录和/或与实体相关的患者信息。通过查看概要而不是审阅医疗报告,护理者可以节省时间,从而允许护理者更快速地找到信息。通过在寻求患者信息时不必审阅EMR中的多个医疗报告,可以增加护理者的效率和护理者必须处理其他任务的时间量。此外,可以使用不同颜色、阴影、突出显示、格式化或其他特征的标记来格式化标记的摘录,使得护理者可以快速地扫描感兴趣的实体,从而节省护理者的附加时间。
通过使用单独的实体识别模型来鉴定每个感兴趣的实体,然后聚集多个实体识别模型的输出,可以增加整体实体鉴定的准确度。例如,可以在不同的标记的数据集上训练每个实体识别模型,该不同的标记的数据集被策展以最大化实体识别模型相对于相应实体的性能。另外,在一些实施方案中,实体识别模型中的一个或多个可以是被训练以鉴定多于一个实体的多实体识别模型。通过将在单个实体上训练的实体识别模型的输出的输出与多实体识别模型的输出进行比较,可以增加实体标记的准确度。例如,在文本表达被两个不同的实体识别模型识别为两个不同实体的场景中,被训练以识别这两个实体的多实体识别模型可用于确定最准确的实体分类。
使用单独训练的实体识别模型来鉴定医疗报告中感兴趣的实体来生成医疗报告的患者概要的技术效果在于,可以减少护理者审阅患者数据所花费的时间量。
本发明还提供对一种方法的支持,该方法包括:接收患者的文本数据,将该文本数据作为输入录入到多个实体识别模型中,该多个实体识别模型中的每个实体识别模型被训练以标记该文本数据中的相应实体的实例;聚集由每个实体识别模型输出的该标记的文本数据;基于该聚集的标记的文本数据生成该文本数据的概要;以及显示和/或保存该概要和/或该聚集的标记的文本数据。在该方法的第一示例中,实体识别模型是神经网络模型。在该方法的第二示例中,该方法任选地包括第一示例,多个实体识别模型中的每个实体识别模型在相应的标记的数据集上被训练,该相应的标记的数据集包括该相应实体的多个标记的实例。在该方法的第三示例中,该方法任选地包括第一示例和第二示例中的一者或两者,每个相应的标记的数据集包括具有靶向频率、靶向长度和靶向邻接程度的实体的实例。在该方法的第四示例中,该方法任选地包括第一示例至第三示例中的一者或多者或每者,实体识别模型对于在文本数据中被标记为实体的每个文本表达输出该文本表达是该相应实体的实例的概率。在该方法的第五示例中,该方法任选地包括第一至第四示例中的一者或多者或每者,聚集由每个实体识别模型输出的该标记的文本数据进一步包括:对于由至少两个实体识别模型标记为实体的该标记的文本数据中的每个文本表达,基于至少两个实体识别模型的输出的相对权重来选择最准确的实体标记。在该方法的第六示例中,该方法任选地包括第一至第五示例中的一者或多者或每者,基于由该至少两个实体识别模型的该相应实体识别模型输出的该概率来分配该权重。在该方法的第七示例中,该方法任选地包括第一至第六示例中的一者或多者或每者,分配该权重进一步包括:将该文本数据作为输入录入到多实体识别模型中,该多实体识别模型被训练以标记该文本数据中的多个实体的实例,对于该标记的文本数据中由该至少两个实体识别模型标记的每个实体:将由该多实体识别模型标记的该实体的参考标记与由该至少两个实体识别模型标记的该实体的标记进行比较,响应于由该至少两个实体识别模型中的实体识别模型生成的该实体的标记在阈值差内匹配该参考标记,增大该实体识别模型的权重。在该方法的第八示例中,该方法任选地包括第一至第七示例中的一者或多者或每者,基于该文本数据与用于训练该实体识别模型的标记的数据集的相对相似性来调整实体识别模型的输出的权重。在该方法的第九示例中,该方法任选地包括第一至第八示例中的一者或多者或每者,基于用于训练该实体识别模型的标记的数据集的大小来调整实体识别模型的输出的权重。在该方法的第十示例中,该方法任选地包括第一至第九示例中的一者或多者或每者,该方法进一步包括:在生成该概要之前,基于从一个或多个域专用工具获得的基于临床背景的知识来调整或改变该聚集的标记的文本数据的标记。在该方法的第十一示例中,该方法任选地包括第一至第十示例中的一者或多者或每者,该方法进一步包括:在生成该概要之前,基于应用一个或多个基于语法的规则来调整或改变该聚集的标记的文本数据的标记。在该方法的第十二示例中,该方法任选地包括第一至第十一示例中的一者或多者或每者,该概要包括以下中的至少一者:在该文本数据中识别出的每个实体的预测数量、在该文本数据中识别出的该实体的示例、与在该文本数据中识别出的该实体相关联的患者数据,以及标记的文本数据。在该方法的第十三示例中,该方法任选地包括第一至第十二示例中的一者或多者或每者,该文本数据是存储在该患者的电子医疗记录(EMR)中的患者的医疗报告。
本发明还提供对系统的支持,该系统包括:一个或多个处理器,该一个或多个处理器将可执行指令存储在非暂态存储器中,该可执行指令在被执行时使该一个或多个处理器:从电子医疗记录(EMR)数据库接收患者的医疗报告;将该医疗报告作为输入录入到多个实体识别模型中,该多个实体识别模型中的每个实体识别模型被训练以识别该医疗报告中的相应实体的实例;解决由不同实体识别模型不同地鉴定的实体之间的冲突;生成患者概要,该患者概要包括关于在该医疗报告中鉴定的所解决的实体的实例的信息,并且在该系统的显示设备上显示该概要和/或将该概要保存在该非暂态存储器中。在系统的第一示例中,解决由不同实体识别模型不同地鉴定的实体之间的冲突进一步包括通过以下中的至少一者来选择冲突的所鉴定的实体的所鉴定的实体:比较该冲突的所鉴定的实体是准确的概率,该概率由相应实体识别模型输出;比较该冲突的所鉴定的实体是准确的该概率与所鉴定的实体是准确的参考概率,该参考概率由被训练以鉴定该医疗报告中的多个实体的多实体识别模型分配;比较该医疗报告与用于训练该相应实体识别模型的相应的标记的数据集的相似性;以及比较该相应的标记的数据集的相对大小。在该系统的第二示例中,该系统任选地包括第一示例,在生成该概要之前,通过以下各项中的一项来进一步细化所解决的实体:使用域专用工具来基于基于临床背景的知识将第一所鉴定的实体改变为第二所鉴定的实体,以及使用自然语言处理(NLP)以基于基于语法的规则将该第一所鉴定的实体改变为该第二所鉴定的实体。在系统的第三示例中,该系统任选地包括第一和第二示例中的一者或两者,该概要包括以下中的至少一者:在该医疗报告中鉴定的每个实体的数量、在该医疗报告中鉴定的一个或多个实体的列表、与在该医疗报告中鉴定的一个或多个实体相关的患者数据,以及包括在该文本中鉴定的标记的实体的该医疗报告的文本。
本公开还提供对方法的支持,该方法包括:在不同数据集上训练多个实体识别模型中的每个实体识别模型,其中每个不同数据集包括预定义实体的多个实例,并且该多个实例中的每个实例被标记为该预定义实体的实例。在该方法的第一示例中,多个实例以靶标频率、靶标长度和目靶标邻接出现在该数据集中。
如本文所用,以单数形式列举并且以单词“一个”或“一种”开头的元件或步骤应当被理解为不排除多个所述元件或步骤,除非明确说明此类排除。此外,对本发明的“一个实施方案”的引用不旨在被解释为排除也包含所引用特征的附加实施方案的存在。此外,除非明确地相反说明,否则“包含”、“包括”或“具有”具有特定特性的元件或多个元件的实施方案可包括不具有该特性的附加此类元件。术语“包括”和“在...中”用作相应的术语“包含”和“其中”的简明语言等同形式。此外,术语“第一”、“第二”和“第三”等仅用作标记,而不旨在对其对象施加数字要求或特定位置次序。
该书面描述使用示例来公开本发明,包括最佳模式,并且还使相关领域中的普通技术人员能够实践本发明,包括制造和使用任何设备或系统以及执行任何包含的方法。本发明可取得专利权的范围由权利要求书限定,并且可包括本领域普通技术人员想到的其他示例。如果此类其他示例具有与权利要求书的字面语言没有区别的结构元素,或者如果它们包括与权利要求书的字面语言具有微小差别的等效结构元素,则此类其他示例旨在落入权利要求书的范围内。
Claims (15)
1.一种方法,所述方法包括:
接收患者的文本数据;
将所述文本数据作为输入录入到多个实体识别模型中,所述多个实体识别模型中的每个实体识别模型被训练以标记所述文本数据中的相应实体的实例;
聚集由每个实体识别模型输出的所述标记的文本数据;
基于所述聚集的标记的文本数据生成所述文本数据的概要;以及
显示和/或保存所述概要和/或所述聚集的标记的文本数据。
2.根据权利要求1所述的方法,其中所述实体识别模型是机器学习(ML)模型。
3.根据权利要求1所述的方法,其中所述多个实体识别模型中的每个实体识别模型在相应的标记的数据集上被训练,所述相应的标记的数据集包括所述相应实体的多个标记的实例。
4.根据权利要求3所述的方法,其中每个相应的标记的数据集包括具有靶向频率、靶向长度和靶向邻接程度的实体的实例。
5.根据权利要求1所述的方法,其中实体识别模型对于在所述文本数据中被标记为实体的每个文本表达输出所述文本表达是所述相应实体的实例的概率。
6.根据权利要求5所述的方法,其中聚集由每个实体识别模型输出的所述标记的文本数据进一步包括:对于由至少两个实体识别模型标记为实体的所述标记的文本数据中的每个文本表达,基于所述至少两个实体识别模型的输出的相对权重来选择最准确的实体标记。
7.根据权利要求6所述的方法,其中基于由所述至少两个实体识别模型的所述相应实体识别模型输出的所述概率来分配所述权重。
8.根据权利要求7所述的方法,其中分配所述权重进一步包括:
将所述文本数据作为输入录入到多实体识别模型中,所述多实体识别模型被训练以标记所述文本数据中的多个实体的实例;
对于由至少两个实体识别模型标记的所述标记的文本数据中的每个实体:
将由所述多实体识别模型标记的所述实体的参考标记与由所述至少两个实体识别模型标记的所述实体的标记进行比较;
响应于由所述至少两个实体识别模型中的实体识别模型生成的所述实体的标记在阈值差内与所述参考标记匹配,增大所述实体识别模型的权重。
9.根据权利要求7所述的方法,其中基于所述文本数据与用于训练所述实体识别模型的标记的数据集的相对相似性来调整实体识别模型的输出的权重。
10.根据权利要求7所述的方法,其中基于用于训练所述实体识别模型的标记的数据集的数据的数量或质量来调整实体识别模型的输出的权重。
11.根据权利要求1所述的方法,进一步包括在生成所述概要之前,基于从一个或多个域专用工具获得的基于临床背景的知识来调整或改变所述聚集的标记的文本数据的标记。
12.根据权利要求1所述的方法,进一步包括在生成所述概要之前,基于应用一个或多个基于语法的规则来调整或改变所述聚集的标记的文本数据的标记。
13.根据权利要求1所述的方法,其中所述概要包括以下中的至少一者:
在所述文本数据中识别的每个实体的预测数量;
在所述文本数据中识别的所述实体的示例;
与在所述文本数据中识别的实体相关联的患者数据;和
标记的文本数据。
14.根据权利要求1所述的方法,其中所述文本数据是存储在所述患者的电子医疗记录(EMR)中的所述患者的医疗报告。
15.一种系统,所述系统包括:
一个或多个处理器,所述一个或多个处理器将可执行指令存储在非暂态存储器中,所述可执行指令在被执行时使所述一个或多个处理器:
从电子医疗记录(EMR)数据库接收患者的医疗报告;
将所述医疗报告作为输入录入到多个实体识别模型中,所述多个实体识别模型中的每个实体识别模型被训练以鉴定所述医疗报告中的相应实体的实例;
解决由不同实体识别模型不同地鉴定的实体之间的冲突;
生成患者概要,所述患者概要包括关于在所述医疗报告中鉴定的所解决的实体的所述实例的信息;以及
在所述系统的显示设备上显示所述概要和/或将所述概要保存在所述非暂态存储器中。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/929,217 | 2022-09-01 | ||
US17/929,217 US20240079102A1 (en) | 2022-09-01 | 2022-09-01 | Methods and systems for patient information summaries |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117633209A true CN117633209A (zh) | 2024-03-01 |
Family
ID=90025913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311045701.2A Pending CN117633209A (zh) | 2022-09-01 | 2023-08-18 | 用于患者信息概要的方法和系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240079102A1 (zh) |
CN (1) | CN117633209A (zh) |
-
2022
- 2022-09-01 US US17/929,217 patent/US20240079102A1/en active Pending
-
2023
- 2023-08-18 CN CN202311045701.2A patent/CN117633209A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240079102A1 (en) | 2024-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220044812A1 (en) | Automated generation of structured patient data record | |
US10929420B2 (en) | Structured report data from a medical text report | |
JP5952835B2 (ja) | 撮像プロトコルの更新及び/又はリコメンダ | |
JP6749835B2 (ja) | コンテキスト依存医学データ入力システム | |
US11651252B2 (en) | Prognostic score based on health information | |
US10628476B2 (en) | Information processing apparatus, information processing method, information processing system, and storage medium | |
US11464455B2 (en) | Method and apparatus of context-based patient similarity | |
US20220301670A1 (en) | Automated information extraction and enrichment in pathology report using natural language processing | |
WO2018191471A1 (en) | Systems and methods for model-assisted cohort selection | |
JP2015524107A (ja) | 患者情報を臨床基準にマッチングするシステム及び方法 | |
US12100517B2 (en) | Generalized biomarker model | |
RU2697764C1 (ru) | Итерационное построение разделов истории болезни | |
US20230048252A1 (en) | Methods and systems for treatment guideline display | |
JP2017509077A (ja) | 書かれた勧告に基づいて医療のフォローアップ予約をスケジューリングするためのシステム及び方法 | |
US20180032676A1 (en) | Method and system for context-sensitive assessment of clinical findings | |
US11908586B2 (en) | Systems and methods for extracting dates associated with a patient condition | |
Zhang et al. | Comparison of chest radiograph captions based on natural language processing vs completed by radiologists | |
JP7473314B2 (ja) | 医療情報管理装置及び医療レポートのメタデータ付加方法 | |
US20220284999A1 (en) | Machine learning model for extracting diagnoses, treatments, and key dates | |
US20240079102A1 (en) | Methods and systems for patient information summaries | |
US20240177814A1 (en) | Test result processing and standardization across medical testing laboratories | |
US20240355436A1 (en) | Machine learning model for extracting diagnoses, treatments, and key dates |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |