CN108292306A - 电子临床自由文本的阅读者驱动的释义 - Google Patents

电子临床自由文本的阅读者驱动的释义 Download PDF

Info

Publication number
CN108292306A
CN108292306A CN201680069114.9A CN201680069114A CN108292306A CN 108292306 A CN108292306 A CN 108292306A CN 201680069114 A CN201680069114 A CN 201680069114A CN 108292306 A CN108292306 A CN 108292306A
Authority
CN
China
Prior art keywords
paraphrase
sentence
machine translation
translation model
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680069114.9A
Other languages
English (en)
Inventor
O·F·法里
S·S·A·哈桑
柳俊毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN108292306A publication Critical patent/CN108292306A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Abstract

一种用于理解临床文档中的自由文本的系统(100),包括信息提取引擎(124)和释义单元(140)。所述信息提取引擎(124)响应于输入而从临床文档(112)提取所选择的语句(118)。所述释义单元(140)使用利用短语语句对齐对(212)训练的统计机器翻译模型(142)来对所提取的语句进行释义,并且输出构造的经释义的语句(320、330、410、420、430)。

Description

电子临床自由文本的阅读者驱动的释义
技术领域
以下总体涉及患者对健康记录的访问和自然语言处理,并特别适用于对电子地访问临床报告的患者审阅。
背景技术
患者正在越来越多地直接访问电子临床报告,这些报告通常由医疗保健专业人员关于患者为另一医疗保健专业人员生成。临床报告(例如,实验室结果、诊断成像结果、身体检查等)通常包括自由文本。自由文本包括医学术语、缩写和行话,这些可能对患者而言不知所云或难以理解。自由文本是语句形式的非结构化文本。这种访问部分地可能由希望了解并参与他们的医疗保健决策的患者驱动。访问部分地由维护单独的医疗记录的多个医疗保健提供者的使用和需要了解来自不同提供者或来源的健康信息的整体视图而驱动。
为了理解临床文件中的自由文本,患者通常使用互联网搜索引擎来查找医学术语。搜索结果包括定义和大量文档,这些文档不考虑临床报告中的医学术语的上下文。阐明自由文本的一些方法包括识别医学术语并将术语映射到本体的自然语言处理技术。将术语映射到本体可以使术语标准化,但是没有语句上下方,并且命名仍然基于医疗保健专业人员而不是患者的理解。
发明内容
本文描述的各方面解决了上述问题和其他问题。
以下描述了用于将从临床文档中的自由文本选择的语句显示为经释义的语句的方法和系统。利用短语语句对齐对来训练统计机器翻译模型以对患者临床文档中指示的语句进行释义。短语语句对齐对可以包括文本蕴涵。根据临床报告的注释语料库构建短语语句对齐对。释义可以包括表情符号。释义可以包括读者反馈,其进一步或替代地对语句进行释义。释义可以包括统计机器翻译模型的扩展,其基于映射的本体概念和/或同义词释义遇到的新术语。
在一个方面中,一种用于理解临床文档中的自由文本的系统,包括信息提取引擎和释义单元。信息提取引擎响应于输入而从临床文档提取所选择的语句。释义单元使用利用短语语句对齐对训练的统计机器翻译模型来对所提取的语句进行释义,并且输出构造的经释义的语句。
在另一方面中,一种理解临床文档中的自由文本的方法,包括:响应于输入,从临床文档中提取所选择的语句。使用利用短语语句对齐对训练的统计机器翻译模型来对所提取的语句进行释义,其输出经释义的语句。
在另一方面中,一种用于理解临床文档中的自由文本的系统,包括信息提取引擎和释义单元。所述信息提取引擎响应于输入而从临床文档中提取所选择的语句。所述释义单元使用利用从按包括诊断、检查和处置的元组聚类的临床报告的注释语料库获得的短语语句对齐对而训练的统计机器翻译模型来对所提取的语句进行释义,并将释义语句显示在显示设备上。
附图说明
本发明可以采取各种部件和部件布置以及各种步骤和步骤安排的形式。附图仅用于说明优选实施例的目的,并且不应被解释为对本发明的限制。
图1示意性地示出电子临床自由文本系统的阅读者驱动的释义的实施例。
图2示意性地示出了阅读者驱动的释义算法的实施例。
图3示出了所选择的语句的示例性释义。
图4示出了另一所选择的语句的示例性释义。
具体实施方式
首先参考图1,示意性地示出了电子临床自由文本系统100的阅读者驱动的释义的实施例。计算设备10(例如,智能电话、膝上型计算机、台式计算机、平板计算机、身体佩戴设备等)被配置为访问具有自由文本的临床文档112。访问可以是本地或远程的。例如,可以从计算设备110的本地存储器中取回临床文档112或者使用诸如互联网的网络114通过网络门户、云存储等取回临床文档112。
临床文档112被显示在计算设备110的显示设备116上。用输入设备120(例如,触摸屏、麦克风、鼠标、键盘等)来选择语句118。例如,图1中示出的是帮助框122,其在光标悬停在语句118中的术语上或语句118上时出现。输入(例如触摸屏上的轻敲或鼠标点击)选择语句118。在另一例子中,“什么是Goldenhar综合征?”的语音输入可以选择具有术语“Goldenhar综合征”的第一语句。
信息提取引擎124接收输入,并从自由文本文档中提取所选择的语句118。输入可以是所显示的临床文档112中的物理位置或处所和/或在所显示的临床文档112中使用的术语或短语。提取可以包括将文档的格式(例如,图像表示)转换为字符表示。提取包括将字符分词(tokenize)为词语和语句边界检测。提取包括短语的识别,例如名词短语或谓语短语。信息提取引擎124使用自然语言处理(NLP)技术来处理具有自由文本的临床文档112,以识别所选择的语句内的语句和短语。这种技术的例子可以在2015年3月9日提交的、申请号为62/130,141的、标题为“Algorithmic Design for Semantic Search and Extraction ofActive Diagnoses from Clinical Documents”的申请中找到。
在一个实施例中,系统100包括语义关系单元130,其可以将所提取的语句118中的术语(例如,词语和/或短语)映射到医学本体132和/或医学词典。例如,使用系统化医学命名法—临床术语(SNOMED CT)和/或统一术语被映射到目标概念,例如的概念ID。其他映射可以包括ICD-10、Galen等。映射可以包括识别否定的概念,或基于语句上下文来消除首字母缩略词和/或缩写词的歧义。在一个实施例中,语句上下文可以包括文档上下文和/或文档的一部分的上下文,例如标题信息。这种技术的例子可以在标题为“Algorithmic Design for SemanticSearch and Extraction of Active Diagnoses from Clinical Documents”的申请中找到。
释义单元140使用经训练的统计机器翻译模型142对所提取的语句118进行释义。经释义的语句可以代替在所显示的所选择的语句118中的所选择语句118,或者可以单独提供,例如弹出框、泡泡、屏幕、音频输出等。使用根据临床报告的注释语料库构建的短语语句对齐对来训练经训练的统计机器翻译模型142。短语是被翻译为语句对齐的短语。经训练的统计机器翻译模型142可以包括推理规则和/或模板,例如,混合机器翻译模型。经训练的统计机器翻译模型142可以包括用协作知识库144(例如Freebase、维基百科等)进行训练。经训练的统计机器翻译模型142可以包括用英语词汇数据库146(例如WordNet)进行训练。例如,来自WordNet定义的描述和词义(即,词语注释)可以用于训练。在一个实施例中,训练可以包括表情符号字典148。翻译可以包括词语/短语的替换。翻译可以包括语句重组。翻译可以包括压缩,例如,更少的词语和/或简化,例如更少的不同词语。在一个实施例中,翻译可以包括文本蕴涵,其中替换文本基于假设(例如单向翻译)来推导原始语句的含义。
在一些情况下,用协作知识库144、英语词汇数据库146和/或表情符号字典148的训练将经释义的语句的命名面向患者的命名。在一些情况下,使用文本蕴涵的训练来将释义语句的命名面向患者的命名。在一些情况下,用语义关系单元130使用映射概念允许扩展经训练的统计机器翻译模型142,以将使用医学词典134和/或医学本体132映射的新遇到术语的翻译扩展到基于映射目标概念的训练范围内的短语。例如,第一术语被映射到概念A,并且第一术语(例如名词短语)用于训练统计机器翻译模型142。统计机器翻译模型142遇到第二术语是新的术语。第二术语由语义关系单元130映射到概念A,并且统计机器翻译模型142基于映射到概念A和/或继而到第一术语来翻译具有第二术语的语句。
信息提取引擎124、语义关系单元130和释义单元140包括一个或多个配置的处理器150(例如微处理器、中央处理单元、数字处理器等),其被配置为执行存储于计算机可读存储介质中的至少一个计算机可读指令,该计算机可读存储介质排除了瞬态介质并且包括物理存储器和/或其他非瞬态介质。处理器150还可以执行由载波、信号或其他瞬态介质携带的一个或多个计算机可读指令。处理器150可以包括本地存储器和/或分布式存储器。处理器150可以包括用于有线和/或无线通信的硬件/软件。例如,这些线表示可以是有线或无线的各种部件之间的通信路径。处理器150可以包括计算设备110,例如台式计算机、服务器、膝上型计算机、移动设备、身体佩戴设备、分布式设备、组合等。
参考图2,示意性地示出了阅读者驱动的释义算法的实施例。在200处,将聚类算法应用于临床报告集合202,按(诊断,检查,处置)的元组创建聚类临床报告204的语料库。临床报告集合202包括自由文本语句。例如,临床报告集合202可以从电子医疗记录(EMR)、部门临床报告等中获得,其中移除了个人识别信息。聚类算法可以包括将报告的格式(例如,图像表示)转换为字符表示。聚类算法可以包括单词的分词。聚类算法可以包括将术语映射到本体132和/或词典134,以获得诊断、检查和治疗的一致元组。例如,(具有急性呼吸窘迫综合征(ARDS)、胸部X射线和机械通气的)所有临床报告属于同一聚类。胸部X射线检查可以包括语义等同项,例如胸部计算机断层扫描(CT)、胸部CT等。每个聚类代表大的可比较的语料库,其中短语和语句的含义可能相似。
在210处,注释经聚类的临床报告204的语料库,其识别短语语句对齐对212。该识别可以使用本领域已知的短语对齐模型或使用临床领域专家手动地进行。在一个实施例中,识别出的短语语句对齐对212可以包括基于本体132和/或词典134的到目标概念的映射。
在220处,使用短语语句对齐对212来训练统计机器翻译模型142。在一些情况下,短语语句对齐对212包括训练中的语句的上下文,例如,语句中使用的词语之间的关系。训练可以包括其他语料库,例如来自本体132、词典134、协作知识库144、英语词汇数据库146和/或表情符号字典148的描述和示例。训练可以包括自展(bootstrapping),它在初始训练期间平衡推理规则和/或模板的权重。推理规则以释义引导概率替换文本。模板可以用来引导推理规则的不同集合。例如,可以使用模板将推理规则引导至具有不同特征或偏好的读者,例如在训练期间使用表情符号或对多个语料库中的一个进行加权。
在225处,响应于输入,从所显示的临床文档(112)的自由文本中选择并提取语句(118)。输入可以包括指示语句(118)或语句(118)中的词语的空间位置。输入可以包括语句(118)中的词语或术语。
在230处,经训练的统计机器翻译模型142对所提取的语句118进行释义。输出(例如显示)经释义的语句。经释义的语句可以显示为所选择的语句的叠加(例如,替换所述语句);或单独地显示,例如单独的框、泡泡显示、音频输出等。释义可以包括翻译,例如双向的。释义可以包括文本蕴涵,例如单向的。在一些情况下,文本蕴涵可以解决冗余问题并确保简洁准确。文本蕴涵包括创建所选语句/部分释义的语句的向量空间表示,并识别一对语句或连接从句中的语句是否具有任何方向的文本蕴涵。释义可以包括表情符号。释义可以包括语句重组,例如,词语的不同排序、名词或谓词的不同排序等。释义可以包括压缩/简化,例如,更少的词语。释义可以包括不同的词语和/或短语,例如,同义词、基于原始词语的同义词、基于目标概念的语义等同词语或视觉表示、蕴涵、组合等。
释义可以包括重新释义232。例如,所提取的语句被释义。另一输入(例如,另一屏幕轻敲或鼠标点击)指示该释义仍然不可理解,并且统计机器翻译模型142用第二释义语句替换第一释义语句。输入可以包括用户特定的偏好,例如使用表情符号或其他模板作为模型的额外输入来选择下一释义。
在240处,统计机器翻译模型142可以接收反馈。反馈可以包括接受或未接受释义。反馈可以包括来自多个计算设备110的反馈。反馈可以包括释义的评级,例如,诸如星星数量的可读指示符。统计机器翻译模型142可以使用反馈来根据接受的和/或未接受的释义来统计地适应释义,例如调整权重和/或调整推理规则。
以上可以通过编码或嵌入在计算机可读存储介质上的计算机可读指令来实现,所述指令在由计算机(一个或多个)处理器执行时使(一个或多个)处理器执行所描述的动作。另外或替代地,计算机可读指令中的至少一个由信号、载波或其他瞬态介质携带。
参考图3,示出了所提取的语句300的示例性释义。所提取的语句“动脉粥样硬化斑块可能与急性和慢性疾病相关联”包括短语“动脉粥样硬化斑块”和短语“急性和慢性疾病”。
上下文中的短语可能蕴涵假设语句310“急性心肌梗塞(AMI)通常由引起血栓形成、冠状动脉完全闭塞和心肌细胞坏死的破裂的动脉粥样硬化斑块引起”。概念“急性和慢性疾病”在该假设中表示为AMI、血栓形成和斑块的上下文中心肌细胞的坏死。动脉粥样硬化斑块在急性和慢性疾病的上下文中以动脉粥样硬化斑块破裂、冠状动脉完全闭塞表示。该语句是重组的。该语句包括首先与动脉粥样硬化斑块、其次是动脉粥样硬化斑块破裂相关的AMI的急性疾病,以及包括血栓形成、冠状动脉完全闭塞和心肌细胞坏死的慢性疾病。
在320中将假设语句310释义为“心脏病发作通常发生在当血管壁内的胆固醇和纤维组织的异常收集断裂时,开始血凝块的形成,心脏中血管的完全阻塞和心脏肌细胞的过早死亡”。该释义用针对用于训练统计机器翻译模型142的协作知识库144和/或英语词汇数据库146的命名中的短语替换基于医学的短语。例如,将“破裂”替换为同义词“断裂”。将“动脉粥样硬化斑块”替换为“血管壁内胆固醇和纤维组织的异常聚集”。将“触发”替换为“开始”以及将“血栓形成”替换为“血块”。“冠状动脉全闭塞”替换为“完全堵塞心脏中的血管”。“心肌细胞坏死”替换为“心肌细胞过早死亡”。
所提取的语句300替代地使用表情释义330来解释。表情符号释义的语句330是“通常在时发生,开始完全和过早”。表情符号包括短语的图形表示。例如,“心脏病发作”被表示为
参考图4,示出了另一所提取的语句400的示例性释义。所提取的语句400是“现病史:这是具有Goldenhar综合征并且具有到位的胃造口术管和到位的J管的10周大女婴”。释义语句410在上下文中替换短语“Goldenhar综合征”、“到位的胃造口术管”和“到位的J管”。释义语句410是“现病史:这是由于在出生前或出生时的罕见结构缺陷而(一个或两个)耳朵、鼻子、软腭、(一个或两个)嘴唇和下颚发育不完全的10周大女婴,通过胃的人造外部开口放置管用于营养支持,并且通过手术插入管通过腹部进入小肠的第二部分以进行营养补充”。
在释义语句420中,使用文本蕴涵来减少语句长度。“(一个或两个)耳朵、鼻子、软腭、(一个或两个)嘴唇和下颚”被蕴涵到“在面部”。这种短语翻译是单向的。“通过胃的人造外部开口放置管用于营养支持,并且通过手术插入管通过腹部进入小肠的第二部分以进行营养补充”被蕴涵到“通过手术插入通过到胃的人工外部开口和小肠的第二部分的两个管进行营养支持”。第二蕴涵包括识别连接从句。在释义语句430中,表情符号用于表示短语,例如,一个或多个词语。
已经参考优选的实施例描述了本发明。他人在阅读和理解前面的详细描述时,可能想到修改和变更。目的是,将本发明构造为包括所有这些修改和变更,只要它们落入所附权利要求或其等价方案的范围内即可。

Claims (20)

1.一种用于理解临床文档中的自由文本的系统(100),包括:
信息提取引擎(124),其被配置为响应于输入而从临床文档(112)提取所选择的语句(118);以及
释义单元(140),其被配置为使用利用短语语句对齐对(212)训练的统计机器翻译模型(142)来对所提取的语句进行释义,并且输出构造的经释义的语句(320、330、410、420、430)。
2.根据权利要求1所述的系统(100),其中,释义包括文本蕴涵,其中,所提取的语句的含义被蕴涵在使用不同词语的经释义的语句之内。
3.根据权利要求1和2中的任一项所述的系统(100),其中,所述短语语句对齐对是根据具有自由文本语句(202)的临床文档的语料库构建的。
4.根据权利要求3所述的系统(100),其中,所述临床文档的语料库包括临床文档的注释语料库(204),所述注释语料库具有按包括诊断、检查和处置的元组进行聚类的自由文本。
5.根据权利要求1-4中的任一项所述的系统(100),其中,所述统计机器翻译模型用协作知识库(144)、英语词汇数据库(146)或表情符号字典(148)中的至少一个进行训练。
6.根据权利要求1-5中的任一项所述的系统(100),其中,所述释义单元(140)还被配置为:
响应于第二输入,使用统计机器翻译模型来对所提取的语句进行重新释义,所述统计机器翻译模型使用替代的翻译。
7.根据权利要求1-6中的任一项所述的系统(100),其中,所述释义单元(140)还被配置为:
接收对接受所述释义的反馈,并且修改由所述统计机器翻译模型所使用的推理规则或权重中的至少一个。
8.根据权利要求1-7中的任一项所述的系统(100),其中,所述经释义的语句在以下中的至少一个中与所提取的语句不同:语句重组、压缩或简化。
9.根据权利要求1-8中的任一项所述的系统(100),其中,所述经释义的语句包括表情符号。
10.根据权利要求1-9中的任一项所述的系统(100),还包括:
语义关系单元(130),其被配置为基于医学本体(132)或医学词典(134)中的至少一个来将所提取的语句中的术语映射到目标概念;
其中,所述释义单元响应于在所提取的语句中遇到新术语而使用所映射的目标概念来释义所述新术语。
11.一种理解临床文档中的自由文本的方法,包括:
响应于输入,从临床文档(112)中提取(225)所选择的语句(118);并且
使用利用短语语句对齐对(212)训练的统计机器翻译模型(142)来对所提取的语句进行释义(230),其输出经释义的语句(320、330、410、420、430)。
12.根据权利要求11所述的方法,其中,释义包括:
在单向翻译中将所选择的语句的含义文本地蕴涵在所述经释义的语句之内。
13.根据权利要求11和12中的任一项所述的方法,还包括:
按包括诊断、检查和处置的元组将聚类算法应用(200)到具有由自由文本语句(202)的临床文档的语料库;
注释(210)临床文档的经聚类的语料库(204)以获得短语语句对齐对;并且
使用所述短语语句对齐对来训练(220)所述统计机器翻译模型。
14.根据权利要求13所述的方法,其中,训练包括利用协作知识库(144)、英语词汇数据库(146)或表情符号字典(148)中的至少一个进行训练。
15.根据权利要求11-14中的任一项所述的方法,还包括:
响应于第二输入,使用统计机器翻译模型来对所提取的语句进行重新释义(232)。
16.根据权利要求11-15中的任一项所述的方法,还包括:
接收对接受所述释义的反馈,并修改所述统计机器翻译模型所使用的推理规则或权重中的至少一个。
17.根据权利要求11-16中的任一项所述的方法,其中,所述释义语句在以下中的至少一个中与所提取的语句不同:语句重组、压缩或简化。
18.根据权利要求11-17中的任一项所述的方法,其中,释义包括:
基于医学本体(132)或医学词典(134)中的至少一个来将所提取的语句中的术语映射到目标概念;并且
响应于在所提取的语句中遇到新术语而使用所映射的目标概念来对所述新术语进行释义。
19.根据权利要求13-18中的任一项所述的方法,其中,用于训练所述统计机器翻译模型的所述短语语句对齐对包括将短语映射到医学本体(132)或医学词典(134)中的至少一个的目标概念。
20.一种用于理解临床文档中的自由文本的系统(100),包括:
信息提取引擎(124),其响应于输入被配置为从临床文档(112)中提取所选择的语句(118);以及
释义单元(140),其被配置为使用利用从按包括诊断、检查和处置的元组聚类的临床报告的注释语料库获得的短语语句对齐对(212)训练的统计机器翻译模型(142)来对所提取的语句进行释义,并将经释义的语句显示在显示设备(116)上。
CN201680069114.9A 2015-11-25 2016-11-21 电子临床自由文本的阅读者驱动的释义 Pending CN108292306A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562259946P 2015-11-25 2015-11-25
US62/259,946 2015-11-25
PCT/EP2016/078240 WO2017089252A1 (en) 2015-11-25 2016-11-21 Reader-driven paraphrasing of electronic clinical free text

Publications (1)

Publication Number Publication Date
CN108292306A true CN108292306A (zh) 2018-07-17

Family

ID=57614322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680069114.9A Pending CN108292306A (zh) 2015-11-25 2016-11-21 电子临床自由文本的阅读者驱动的释义

Country Status (5)

Country Link
US (1) US20180373700A1 (zh)
EP (1) EP3380950A1 (zh)
CN (1) CN108292306A (zh)
RU (1) RU2018122648A (zh)
WO (1) WO2017089252A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10607152B2 (en) 2015-05-26 2020-03-31 Textio, Inc. Using machine learning to predict outcomes for documents
US10572596B2 (en) 2017-11-14 2020-02-25 International Business Machines Corporation Real-time on-demand auction based content clarification
CN108763197B (zh) * 2018-05-10 2021-11-09 上海依智医疗技术有限公司 一种医疗术语库的形成方法和装置
US11194974B2 (en) * 2018-08-09 2021-12-07 Nec Corporation Teaching syntax by adversarial distraction
US11182540B2 (en) * 2019-04-23 2021-11-23 Textio, Inc. Passively suggesting text in an electronic document
CN112052334B (zh) * 2020-09-02 2024-04-05 广州极天信息技术股份有限公司 一种文本释义方法、装置及存储介质
US11586821B2 (en) * 2020-11-25 2023-02-21 Iqvia Inc. Classification code parser
CN113593661A (zh) * 2021-07-07 2021-11-02 青岛国新健康产业科技有限公司 临床术语标准化方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146958A (ja) * 1995-11-27 1997-06-06 Toshiba Corp 語彙対応辞書作成装置および語彙対応辞書作成方法
CN1617134A (zh) * 2003-11-12 2005-05-18 微软公司 使用机器翻译技术处理释义的系统
CN103548023A (zh) * 2011-05-27 2014-01-29 国际商业机器公司 基于本体的自动自助式用户支持
CN103970732A (zh) * 2014-05-22 2014-08-06 北京百度网讯科技有限公司 新词译文的挖掘方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6327566B1 (en) * 1999-06-16 2001-12-04 International Business Machines Corporation Method and apparatus for correcting misinterpreted voice commands in a speech recognition system
US7584092B2 (en) * 2004-11-15 2009-09-01 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US20080228769A1 (en) * 2007-03-15 2008-09-18 Siemens Medical Solutions Usa, Inc. Medical Entity Extraction From Patient Data
US20160043979A1 (en) * 2014-08-05 2016-02-11 FaceToFace Biometrics, Inc. Automatic biographical summary compilation and speaker recognition based messaging system
KR102033435B1 (ko) * 2014-11-19 2019-11-11 한국전자통신연구원 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146958A (ja) * 1995-11-27 1997-06-06 Toshiba Corp 語彙対応辞書作成装置および語彙対応辞書作成方法
CN1617134A (zh) * 2003-11-12 2005-05-18 微软公司 使用机器翻译技术处理释义的系统
CN103548023A (zh) * 2011-05-27 2014-01-29 国际商业机器公司 基于本体的自动自助式用户支持
CN103970732A (zh) * 2014-05-22 2014-08-06 北京百度网讯科技有限公司 新词译文的挖掘方法和装置

Also Published As

Publication number Publication date
US20180373700A1 (en) 2018-12-27
EP3380950A1 (en) 2018-10-03
WO2017089252A1 (en) 2017-06-01
RU2018122648A (ru) 2019-12-25

Similar Documents

Publication Publication Date Title
CN108292306A (zh) 电子临床自由文本的阅读者驱动的释义
US11694297B2 (en) Determining appropriate medical image processing pipeline based on machine learning
US10706545B2 (en) Systems and methods for analysis of anatomical images
US10929420B2 (en) Structured report data from a medical text report
US10910100B2 (en) System and method for generating descriptions of abnormalities in medical images
CN110033859B (zh) 评估患者的医学检查结果的方法、系统、程序和存储介质
EP3567525A1 (en) Systems and methods for analysis of anatomical images each captured at a unique orientation
EP2561458B1 (en) Report viewer using radiological descriptors
CN111316281A (zh) 基于机器学习的自然语言情境中数值数据的语义分类
US11468989B2 (en) Machine-aided dialog system and medical condition inquiry apparatus and method
CN108133756A (zh) 医疗数据搜索方法及装置、存储介质、电子设备
Becker et al. Extraction of UMLS® concepts using Apache cTAKES™ for German language
EP4170670A1 (en) Medical data processing method and system
Datta et al. Rad-spatialnet: a frame-based resource for fine-grained spatial relations in radiology reports
Hinz et al. A natural language processing algorithm to define a venous thromboembolism phenotype
Verma et al. Developing and validating natural language processing algorithms for radiology reports compared to ICD-10 codes for identifying venous thromboembolism in hospitalized medical patients
JP2017525043A (ja) 次の検査に対する理由を予測することにより、価値を増加させ、フォローアップ放射線検査レートを減らすこと
Lau et al. Extraction and analysis of clinically important follow-up recommendations in a large radiology dataset
CN114064818A (zh) 医疗实体关系的确定方法、训练方法、装置、设备及介质
US20220108070A1 (en) Extracting Fine Grain Labels from Medical Imaging Reports
US20240006039A1 (en) Medical structured reporting workflow assisted by natural language processing techniques
BR112020023361A2 (pt) método e sistema
Jebadas et al. Histogram distance metric learning to diagnose breast cancer using semantic analysis and natural language interpretation methods
Nabożny et al. Active annotation in evaluating the credibility of Web-based medical information: Guidelines for creating training data sets for machine learning
Cereceda-Monteoliva et al. New Technologies and New Challenges: What Effect Will ChatGPT Have on Plastic Surgery Research?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180717