CN107644011A - 用于细粒度医疗实体提取的系统和方法 - Google Patents
用于细粒度医疗实体提取的系统和方法 Download PDFInfo
- Publication number
- CN107644011A CN107644011A CN201710097365.4A CN201710097365A CN107644011A CN 107644011 A CN107644011 A CN 107644011A CN 201710097365 A CN201710097365 A CN 201710097365A CN 107644011 A CN107644011 A CN 107644011A
- Authority
- CN
- China
- Prior art keywords
- medical
- bodies
- medical bodies
- dictionary
- parsing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title abstract description 6
- 238000000034 method Methods 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 23
- 239000003607 modifier Substances 0.000 claims description 22
- 230000004048 modification Effects 0.000 claims description 9
- 238000012986 modification Methods 0.000 claims description 9
- 239000012634 fragment Substances 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 241001269238 Data Species 0.000 claims 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims 1
- 208000024891 symptom Diseases 0.000 abstract description 19
- 230000002123 temporal effect Effects 0.000 abstract description 5
- 201000010099 disease Diseases 0.000 abstract description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 4
- 230000000007 visual effect Effects 0.000 abstract 1
- 230000036962 time dependent Effects 0.000 description 14
- 238000003860 storage Methods 0.000 description 10
- 206010019233 Headaches Diseases 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 231100000869 headache Toxicity 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000036760 body temperature Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 206010028916 Neologism Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000001093 holography Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/20—ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Machine Translation (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请公开一种用于细粒度医疗实体提取的系统和方法,其提供改进的与医疗有关的信息的自动提取。在实施例中,可以提取细粒度的与医疗有关的数据,诸如医疗实体,包括症状、疾病、维度和时间信息。在实施例中,通过从输入语句提取精细水平的与医疗有关的信息并且生成该信息的视觉显示,医疗专业人员能够容易地看见提供医疗实体和相关联的维度信息以及演变历史的有关医疗信息。
Description
技术领域
本公开内容一般涉及收集细粒度医疗实体,并且具体地涉及用于提取细粒度医疗实体来进行自动化医疗咨询的系统和方法。
背景技术
随着医疗保健行业持续寻求削减成本降低浪费以及提高效率,人工任务的自动化可以是改善性能的策略的重要部分。诸如IBM的Watson计算机系统的自动化医疗咨询系统,正在彻底改革传统医疗保健。Watson的自然语言、假设生成以及基于证据的学习能力允许其用作医疗专业人员使用的临床决策支持系统。自动化医疗咨询系统可以被实现用于具有有限医疗资源的农村地区的增强的医疗保健,用于早期检测和/或重大疾病防预。
自动医疗咨询系统成功实现的一个关键方面是准确且全面地获取患者的提供信息。不像标准的医疗记录,患者的输入可以是嘈杂的语音消息或非标准、非书面的自由文本。一些传统的实体提取工具仅集中在解析纯实体上,因此可能忽视关于症状演变或症状维度(诸如频率、强度等)的信息。
因此,需要用于自动地识别和提取细粒度医疗实体(包括症状维度信息和时间信息)来进行自动化医疗咨询的系统和方法。
发明内容
本发明在第一方面提供一种用于从输入语句中提取医疗实体的计算机实现的方法,所述方法包括:基于所述输入语句中的一个或多个时间线索,将所述输入语句分割成一个或多个时间片段;对于来自所述一个或多个时间片段的时间片段:使用基于规则的模型和包括与医疗有关的术语或短语的集合的医疗实体词典来解析所述时间片段,以获得第一解析医疗实体集合;使用解析模型来解析所述时间片段,所述解析模型接收所述时间片段作为输入并且在所述时间片段中输出第二解析医疗实体集合;基于所述第一解析医疗实体集合和所述第二解析医疗实体集合来输出最终医疗实体集合。
本发明在第二方面提供一种用于创建从输入语句中提取医疗实体的系统的方法,所述方法包括:接收医疗实体词典,所述医疗实体词典包括与医疗有关的术语或短语的集合和医疗论坛数据;使用所述医疗论坛数据中的至少一部分和所述医疗实体词典中的至少一部分来形成训练数据集合的样本集合,对于每个样本,所述医疗实体词典包括来自所述医疗论坛数据的医疗语句和所述医疗语句中的相对应的医疗实体;使用所述训练数据集合中的至少一部分来训练解析模型以识别输入语句中的医疗实体;以及使用所述医疗实体词典中的术语和短语中的至少一部分来形成基于规则的模型以识别输入语句中的医疗实体。
本发明在第三方面提供一种用于医疗实体识别的系统,包括:一个或多个处理器;医疗实体词典,可通过所述一个或多个处理器中的至少一个通信地访问,所述医疗实体词典包括与医疗有关的术语或短语的集合;包括一个或多个指令序列的暂时性计算机可读介质或介质,所述指令序列在由所述一个或多个处理器中的至少一个处理器执行时,使得执行以下步骤:基于所述输入语句中的一个或多个时间线索,将所述输入语句分割成一个或多个时间片段;对于来自所述一个或多个时间片段的时间片段:使用基于规则的模型和所述医疗实体词典来获得第一解析医疗实体集合;使用解析模型来解析所述时间片段,所述解析模型接收所述时间片段作为输入并且在所述时间片段中输出第二解析医疗实体集合;基于所述第一解析医疗实体集合和所述第二解析医疗实体集合来输出最终医疗实体集合。
附图说明
将参考本发明的实施例,其示例将以附图来说明。这些附图旨在说明而不是限制性的。虽然本发明一般在这些实施例的上下文中描述,但是应当理解的是,其并非旨在将本发明的范围限制为这些特定实施例。附图中的项目不是按比例的。
图1示出了根据本公开内容的实施例的医疗实体解析系统的系统架构;
图2示出了根据本公开内容的实施例的医疗实体词典扩充的一般流程图;
图3示出了根据本公开内容的实施例的医疗实体识别和分类的流程图。
图4示出了根据本公开内容的实施例的基于机器学习的解析器训练的示例性流程图;
图5示出了根据本公开内容的实施例的在线医疗实体解析的示例性流程图;
图6示出了根据本公开内容的实施例的针对解析的医疗实体的维度搜索的示例性流程图;
图7示出了根据本公开内容的实施例的用于生成时间依赖的实体图的示例性流程图;
图8示出了根据本公开内容的实施例的示例性时间依赖的实体图;
图9描绘了根据本公开内容的实施例的计算设备/信息处置系统的简化框图。
具体实施方式
在下文描述中,出于解释的目的,阐述了具体细节以便理解本发明。但是,本领域的技术人员将理解的是,在没有这些具体细节的情况下,也可以实施本发明。此外,本领域技术人员将认识到的是,下文描述的本发明的实施例可以以诸如过程、装置、系统、设备或方法的多种方式实现在非暂时性计算机可读介质上。
图中示出的组件或模块示例地说明本发明的示例性实施例,并且意在避免本发明含混晦涩。还应当理解的是,遍及本论述,组件可以被描述为单独的功能单元,其可以包括子单元,但是本领域技术人员还将认识到的是,各个组件或其部分可以被划分成单独的组件或者可以被集成在一起,包括被集成在单个系统或组件内。应当注意的是,本文论述的功能或操作可以被实现为组件/模块。组件可以用软件、硬件或其组合实现。
此外,附图内的组件或系统之间的连接非旨在受限于直接连接。此外,这些组件之间的数据可以被修改、重新格式化或其它方式被中间组件改变。此外,可以使用额外的或更少的连接。应当注意的是,术语“耦合”、“连接”或“通信地耦合”应当被理解为包括直接连接、通过一个或多个中间设备的间接连接以及无线连接。
在说明书中对“一个实施例”、“优选实施例”“一实施例”或“实施例”的引用意指集合实施例描述的特定特征、结构、特性或功能被包括在本发明的至少一个实施例中并且可以在一个以上的实施例中。此外,上述短语在说明书各个地方的出现不必都指代相同的一个实施例或多个实施例。
某些术语在说明书各处的使用是为了说明而不应当被解释为进行限制。服务、功能或资源不受限于单个服务、功能或资源;这些术语的使用可以指代有关服务、功能或资源(其可以被分布或聚集)的分组。
术语“包括”、“包含”、“由……组成”、“由……构成”应当被理解为是开放术语并且跟在后面的任何列表是示例并且非意指受限于所列出的项目。本文使用的任何标题仅是出于组织的目的并且不应当用于限制本描述或权利要求书的范围。本专利文件中提及的每个引用的全部内容通过引用的方式并入本文。
此外,本领域技术人员将认识到:(1)可以选择地执行某些步骤;(2)步骤可以不受限于本文阐述的特定次序;(3)可以以不同的次序来执行某些步骤;以及(4)可以并发地完成某些步骤。
总体概述
本公开内容的各个实施例涉及用于收集包括症状维度和时间信息的细粒度医疗实体来进行自动化医疗咨询的系统和方法。在实施例中,为了解析医疗实体和维度信息以及演进历史,通过借助大型在线医疗论坛数据来扩充实体词典并且识别症状维度。在实施例中,充实的词典和论坛数据用于生成训练数据,该训练数据用于训练接收输入语句并输出与医疗有关的实体的解析器模型。短语“输入语句”应当被理解为覆盖语句、问题、一个或多个句子、一个或多个问题、一个或多个短语、或其任何组合。在实施例中,时间依赖的图被构建为以易于理解的方式来对实体的时间信息和实体维度进行编码。
根据实施例,一个或多个标准的医疗实体词典(诸如在MedMD或MedTerms中使用的词典)可以用作医疗实体提取的开始。额外的资源可以用于扩充/充实医疗实体词典以包括更多具有形容词/副词的非书面实体。额外的资源可以是在线医疗论坛消息或帖子,其可以包括结构化或非结构化文本。如本文论述的,经充实/扩展的医疗实体词典可以用于帮助提取细粒度医疗实体来进行更好的诊断。
在实施例中,使用从经充实/扩充的医疗实体词典和医疗论坛数据两者收集的训练数据来实现基于机器学习的解析器训练。在线医疗论坛数据可以具有与文本相关联的医疗实体标签。此外,在实施例中,充实的医疗词典可以用于经由关键字匹配来为没有相关联的标签的实体标记医疗论坛数据的部分。各种现有技术指导的学习算法(诸如深度神经网络、条件随机域)可以用于解析训练。在训练之后,经训练的解析模型可以随后被部署用于实体解析以从句子的输入提取解析的实体。
在实施例中,基于规则的方法、经训练的解析模型或两者可以用于解析输入语句。与经训练的解析模型相比,基于规则的方法能够具有用于解析如医疗实体的术语的更好的精度。在另一方面,经训练的解析模型可以提供比基于规则的方法的更宽的覆盖。在实施例中,可以针对改善的解析性能来组合使用两种方法。
在实施例中,可以针对描述修饰符(例如,形容词/副词修饰符)来搜索每个经解析的实体(其可以是例如症状或维度)。如果修饰符存在,则修饰可以被映射到可测量水平。例如,可以针对可应用的维度信息(其可以是症状的频率、强度和持续时间)来检查症状实体。例如,频率维度“有时”可以被映射到严重度1,“经常”可以被映射到严重度2,以及“总是”可以被映射到严重度3。在实施例中,当形容词/副词修饰出现在症状的中间时,经扩充的医疗词典可以覆盖修饰映射。
在实施例中,可以生成时间依赖的实体图。在实施例中,时间依赖的实体图是针对输入语句的时间片段的有向图,其中每个节点表示医疗实体/维度并且每个边缘解释现有关系。对于用户的描述中的每个时间片段,可以存在这样的图。时间依赖的实体图为医疗从业者提供生动的时间说明。
这里已经一般地描述了本发明的某些特征和优势;然而,鉴于附图、说明书和其权利要求书,本文介绍的额外特征、优势和实施例对于本领域技术人员将能够理解。因此,应当理解的是,本发明的范围不受公开本概括的特定实施例限制。
系统架构和工作流的实施例
图1描绘了根据本公开内容的实施例的医疗实体解析系统100的系统架构。在实施例中,多个数据源110用于解析模型训练120以获得解析模型140和充实的医疗实体词典150。随后,在在线处理130中使用解析模型140和充实的医疗实体词典150来根据用户输入生成经解析的医疗实体和可应用的时间依赖的实体图。
在实施例中,医疗实体解析系统被构建为支持用于收集医疗实体的方法。经解析的实体可以包括书面术语和非书面术语两者。非书面术语是无法在普通医疗知识数据库(例如,WebMD)中找到的实体。这种非书面术语通常来自没有医疗知识的患者/用户。经解析的实体(例如,症状)是针对用于描述症状的维度开发的。对于经解析的实体,可以推导出时间次序并且可以为图形描述分配一个或多个时间帧。在这种系统中,可以以有意义和紧凑的方式(诸如图形图)来组织所有经发现的知识。
在实施例中,数据源110包括医疗实体词典(初始或现有的强化或扩充的医疗实体词典)112、额外的医疗数据源114、以及形容词/副词术语的集合116。额外的医疗数据源114可以是在线医疗论坛数据,诸如来自论坛用户的帖子、语句、消息。例如,在“百度知道”提问/回答平台,每天贴出了大约1000万个医疗问题。这些问题可能包含医疗实体词典112(其可以从诸如WebMD或WedTerms等来源获得的)没有完全覆盖的大量医疗实体信息。形容词/副词术语的集合116可以包括通常用于描述医疗实体(例如,频率、强度、持续时间等)的形容词/副词术语。在一些语言(诸如中文)中,形容词/副词术语在描述医疗实体时通常可以一起使用,并且有许多不同的方式描述诸如症状的医疗实体。如果解析系统能够快速和准确地识别那些描述变型并且将其关联到一个实体中,对于自动医疗诊断来说将更高效。在实施例中,形容词/副词术语还可以包括水平指示符以定量地描述医疗实体。
在实施例中,数据源110用于解析模型训练120以获得解析模型和充实的医疗实体词典。在解析模型训练期间,首先将医疗实体词典扩充为具有针对医疗实体的维度信息的充实的医疗实体词典。
在训练之后,解析模型和充实的医疗实体词典可以用于根据输入语句来生成经解析的医疗实体。在实施例中,在解析过程期间,用户的查询131被分割成多个时间片段132,随后使用基于规则的模型配合经训练的解析模型来提取时间片段132,以获得经解析的实体133。在实施例中,可以针对维度信息来检查134每个经解析的实体。在实施例中,可以根据结果生成134一个或多个时间依赖的实体图。时间依赖的实体图是有向图,其中每个节点表示医疗实体/维度,边缘解释现有关系。在实施例中,对于用户的描述中的每个时间片段,可以生成这样的图。最后,所生成的时间依赖的实体图和其它相关联的信息经由输出接口被输出135给用户。时间依赖的实体图为医疗从业者提供了生动的时间说明。
图2示出了根据本公开内容的实施例的医疗实体词典扩充的一般流程图。在步骤205中,医疗实体词典被接收。医疗实体词典可以是可用的标准词典,诸如WebMD或MedTerm等。在步骤210中,描述性形容词和/或副词术语的集合被接收。描述性术语的集合还可用作形容词/副词词典。形容词/副词术语通常用于描述医疗实体,尤其在一些语言中,诸如中文,其中修饰符出现在实体的中间。基于形容词和/或副词术语以及来自医疗实体词典的医疗实体术语的组合,有许多不同的方式来描述医疗实体(例如,症状、疾病等)。在步骤215中,生成多个与医疗实体有关的多个合成实体候选。例如,形容词/副词术语可以与医疗实体组合以形成额外的合成医疗实体(例如,症状、疾病等)候选。在步骤220中,医疗论坛数据用于验证合成医疗实体候选的出现频率。可以从大型医疗论坛(诸如“百度知道”)离线收集医疗论坛数据。在步骤225中,数据中出现频率高于门限值的合成医疗实体候选可以与可应用的维度信息一起被保存在充实的医疗实体词典中。在实施例中,可以定期地(例如,诸如每周、每月或每两个月等)或在其它时间更新充实的医疗实体词典.
图3描绘了根据本公开内容的实施例的、具有有效实体识别和分类的医疗实体词典扩充的流程图300。医疗词典310可以用于识别医疗论坛数据中出现的所有初始医疗实体。来自医疗论坛数据305的句子被分割成输入词/短语片段315。可以从一个或多个在线帖子或论坛收集医疗论坛数据305。句子可以包括或不包括初始医疗实体。在步骤320中,训练数据(例如,来自医疗论坛数据305的不同数据批次)可以用于词/短语表示模型训练或向量表示模型训练。例如,word2vec可以用于使用所输入的训练数据来生成词/短语表示。在步骤325中,可以在训练数据中识别有效实体。在一些实施例中,可以通过词匹配来识别医疗实体词(正面样本)。在一些实施例中,也可以通过地面实况或常识来识别非医疗实体词(反面样本),诸如名称和地址。该数据集合可以用于训练指导的学习算法以预测新词是否是有效医疗实体。在实施例中,来自医疗论坛数据的样本训练数据可以与医疗实体词典310以及其它识别的实体配对以产生用于新实体的一个或多个分类器的指导学习的地面实况数据。因此,在步骤330中,在实施例中,可以通过使用经训练的分类器模块来训练分类器以找到新实体,基于当前的医疗实体从在线医疗论坛数据识别新医疗实体。在实施例中,一些人员审计可以用于验证新实体的分类。在步骤335中,使用新识别的医疗实体来扩充医疗实体词典。在实施例中,经扩充的医疗实体词典随后可以用于替代医疗实体词典310,并且可以重复该过程,直到到达停止条件为止。在实施例中,停止条件可以是达到了迭代次数或没发现新实体的条件,以及其它可能的停止条件。因此,流程图300提供用于识别医疗实体的迭代机器学习方法。
图4示出了根据本公开内容的实施例的基于机器学习的解析器训练的示例性流程图。在步骤405中接收充实的医疗实体词典和医疗论坛数据。在实施例中,用于解析器训练的医疗论坛数据与用于扩充医疗实体词典的论坛数据可能不相同。在实施例中,可以从医疗论坛中贴出的在线帖子、消息、语句等中选择医疗论坛数据。在步骤410中,训练数据集合是基于在线医疗论坛数据和充实的医疗实体词典形成的。在实施例中,训练数据包括用户的语句或查询,其具有语句或查询中被识别以形成地面实况数据的相应的医疗实体。在实施例中,医疗实体是与语句查询文本相关联的现有医疗实体标签。对于没有相关联的标签的那些语句或查询,充实的医疗实体词典可以用于使用关键字匹配来在那些语句中标记医疗实体。在步骤415中,使用一个或多个指导的学习算法(诸如深度神经网络、条件随机域等)来训练解析器模型。在步骤420中,在训练之后输出经训练的解析器模型。在一些实施例中,为了模型精炼和效率提高,可以使用多个批次的在线医疗论坛数据对解析器模型进行多轮训练。
图5示出了根据本公开内容的实施例的在线医疗实体解析的示例性流程图。在步骤510中,接收用户的医疗查询输入。可以使用基于规则的方法将查询分割为多个时间片段,基于规则的方法识别查询中与时间有关的表达或问题。在实施例中,使用基于规则的模型515和经训练的解析模型520来对片段进行检查以识别实体。在实施例中,基于规则的模型515可以使用充实的医疗实体词典505进行关键字匹配来检查句子片段并且获得片段中的第一医疗实体集合。在实施例中,经训练的解析模型520用于解析句子片段和获得第二医疗实体集合。在实施例中,随后从第一医疗实体集合和第二医疗实体集合获得最终解析实体集合525。在实施例中,最终解析实体集合525是第一医疗实体集合和第二医疗实体集合的组合。在实施例中,该组合可以是第一医疗实体集合和第二医疗实体集合的联合(union)减去第一医疗实体集合和第二医疗实体集合内的任何重复实体。与经训练的解析模型相比,基于规则的方法可以具有更好的精确度以保证如真实医疗实体的解析术语。在另一方面,经训练的解析模型可以比基于规则的模型提供更宽的覆盖。这两个模型可以组合用于优化的解析性能或可以单独地使用。
图6示出了根据本公开内容的实施例的针对经解析的医疗实体的维度搜索的示例性流程图600。在步骤610中,针对维度信息来验证每个经解析的实体,例如,其是否被描述性形容词和/或副词修饰。例如,维度可以指代症状实体的频率、强度或持续时间。在步骤620中,对于具有维度的实体,维度信息(或修饰符)可以被映射到可测量水平。例如,对于修饰头痛实体的频率维度,被描述为“有时”发生的头痛,可以向头痛实体分配水平1,当使用修饰符“经常”时,可以分配水平2,以及如果使用的修饰符是“一直”,则可以分配水平3。
在实施例中,当描述性形容词/副词出现在经解析的实体的中间时,经扩充的医疗词典可以用于覆盖维度标识。在实施例中,相对于形容词/副词术语集合的毗邻关键字匹配和常规表达匹配还可以用于识别维度修饰符。
图7示出了根据本公开内容的实施例的用于生成时间依赖的实体图的示例性流程图700。在步骤710中,对于用户的语句中的每个时间片段,可以生成有向图。有向图是包括一个或多个节点以及一个或多个边缘的图,其中,每个节点表示医疗实体/维度,并且边缘解释现有关系。对于具有多个时间线的描述,可以生成多个图。例如,对于“三天前,我头痛的厉害。今天我的头痛缓解,但是我的体温是103F”的描述,可以生成两个图以便分别对应于时间片段“三天前”和“今天”。
图8示出了与示例性用户输入“三天前,我头痛的厉害。今天我的头痛缓解,但是我的体温是103F”相对应的示例性生成的时间依赖的实体图800。图8(a)是与针对用户的输入的第一时间线相关联的第一时间依赖的实体图。实体图包括实体(或症状)图标810、其针对定量描述的可应用水平指示符820以及时间线笔记830。水平指示符820可以用颜色编码以便标识不同的水平。图8(b)是与针对用户的输入的第二时间线相关联的第二时间依赖的实体图。除了现有实体810之外,图8(b)的实体图还包括额外的实体(或症状)图标812和其针对定量描述的可应用水平指示符822以及时间线笔记832。此外,水平指示符820还可以被更新以反映与实体810相关联的水平的任何变化。在一些实施例中,对于所有已包括的实体,颜色编码(或其它水平指示方案)方法可以是相同的。例如,对于更严重的水平,红色可以用于实体810和820两者。时间依赖的实体图为医疗从业者提供生动的时间说明。虽然在图8中示出了示例性实体图,但是要理解的是,也可以实现用于呈现针对实体的时间信息的其它方式。这样的变型也可以在本发明的范围内。例如,水平指示符可以与实体(或症状)图标集成在一起,其中针对维度信息具有不同的图标颜色。
在实施例中,本专利文档的方面可以涉及或实现在信息处置系统/计算系统上。为了本公开内容的目的,计算系统可以包括可操作用于计算、运算、确定、分类、处理、发送、接收、取回、产生、路由、切换、存储、显示、传送、表明、检测、记录、重新产生、处置或利用任意形式的信息、智能或用于商业、科学、控制或其它目的的数据的任何工具或工具的聚集。例如,计算系统可以是个人计算机(例如,膝上型计算机)、平板计算机、平板手机、个人数字助理(PDA)、智能电话、智能手表、智能包、服务器(例如,刀片服务器或机架服务器)、网络存储设备、或任何其它适当的设备并且大小、形状、性能、功能和价格可以变化。计算系统可以包括随机存取存储器(RAM)、一个或多个处理资源(诸如中央处理单元(CPU))或硬件或软件控制逻辑、ROM、和/或其它类型的存储器。计算系统的额外组件可以包括一个或多个磁盘驱动、用于与外部设备进行通信的一个或多个网络端口以及各种输入输出(I/O)设备,诸如键盘、鼠标、触摸屏和/或视频显示器。计算系统还可以包括可操作用于在各个硬件组件之间发送通信。
图9示出了根据本发明的实施例的计算系统900的框图。将要理解的是,针对系统900示出的功能可操作用于支持计算系统的各个实施例—尽管应当理解的是,计算系统可以以不同的方式被配置并且包括不同的组件。如图9所示,系统900包括提供计算资源和控制计算机的一个或多个中央处理单元(CPU)901。CPU 901可以利用微处理器等来实现,并且还可以包括一个或多个图形处理单元(CPU)917和/或用于数学计算的浮点型协处理器。系统900还可以包括系统存储器902,其可以是以随机存取存储器(RAM)、只读存储器(ROM)或两者的形式。
还可以提供多个控制器和外围设备,如图9所示。输入控制器903表示与各个输入设备的接口904,诸如键盘、鼠标或手写笔。还可以有扫描仪控制器905,其与扫描仪906进行通信。系统900还可以包括用于与一个或多个存储设备908接口的存储控制器907,存储设备908中的每一个可以包括用于记录用于操作系统、效用和应用的指令的程序的存储介质,诸如磁带或磁盘、或光学介质,这可以包括实现本发明的各个方面的程序的实施例。存储设备908还可以用于存储处理的数据或要根据本发明进行处理的数据。系统900还可以包括用于提供与显示设备911接口的显示控制器909,显示设备911可以是阴极射线管(CRT)、薄膜晶体管(TFT)显示器或其它类型的显示器。计算系统900还可以包括用于与打印机913进行通信的打印机控制器912。通信控制器914可以与一个或多个通信设备915接口,这使系统900能够通过包括互联网、以太网云、基于以太网的光纤信道(FCoE)/数据中心桥(DCB)云、局域网(LAN)、广域网(WAN)、存储域网(SAN)的多种网络中的任何网络或者包括红外信号的任何适当的电磁载波信号连接到远程设备。
在所示出的系统中,所有主要组件可以连接到总线916,其可以表示一个以上的物理总线。然而,各个系统组件可以在或可以不在彼此的物理接近域中。例如,可以将输入数据和/或输出数据从一个物理位置远程地发送到另一个物理位置。另外,可以通过网络从远程位置(例如,服务器)接入实现本发明的各个方面的程序。这样的数据和/或程序可以通过多种机器可读介质中的任何一种来传送,机器可读介质包括但不限于:磁介质,诸如硬盘、软盘和磁带;光介质,诸如CD-ROM和全息设备;磁光介质;和专门配置为存储或存储并执行程序代码的硬件设备,诸如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备、以及ROM和RAM设备。
应当理解的是,各个系统组件可以在或不在彼此的物理接近域中。另外,可以通过网络从远程位置(例如,服务器)接入实现本发明的各个方面的程序。这样的数据和/或程序可以通过多种机器可读介质中的任何一种来传送,机器可读介质包括但不限于:磁介质,诸如硬盘、软盘和磁带;光介质,诸如CD-ROM和全息设备;磁光介质;和专门配置为存储或存储并执行程序代码的硬件设备,诸如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备、以及ROM和RAM设备。
可以在具有一个或多个非暂时性计算机可读介质上利用针对一个或多个处理器或处理单元的指令来编程本发明的实施例,以使得步骤被执行。应当注意的是,一个或多个非暂时性计算机可读介质应当包括易失性和非易失性存储器。应当注意的是,替代的实现方式是可能的,包括硬件实现方式或软件/硬件实现方式。硬件实现的功能可以使用ASIC、可编程阵列、数字信号处理电路等来实现。因此,任何权利要求中的“单元”术语旨在覆盖软件和硬件实现方式两者。类似地,如本文所使用的,术语“计算机可读介质或介质”包括具有体现在其上的指令的程序的软件和/或硬件、或其组合。记住了这些替代的实现方式,要理解的是,附图和所附描述提供本领域技术人员编写程序代码(即,软件)和/或制造电路(即,硬件)所要求的功能信息以执行所要求的处理。
应当注意的是,本发明的实施例还可以涉及具有非暂时性、有形计算机可读介质的计算机产品,非暂时性、有形计算机可读介质其上具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是出于本发明的目的专门设计和构建的那些介质和计算机代码,或者它们可以是对于相关领域技术人员已知或可用的类型。有形计算机可读介质的示例包括但不限于:磁介质,诸如硬盘、软盘和磁带;光介质,诸如CD-ROM和全息设备;磁光介质;和专门配置为存储或存储并执行程序代码的硬件设备,诸如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备、以及ROM和RAM设备。计算机代码的示例包括机器代码,诸如有编译器产生的,以及由计算机使用解释器执行的包含较高级代码的文件。本发明的实施例可以全部或部分地作为可以在处理设备所执行的程序模块中的机器可执行指令来实现。程序模块的示例包括库、程序、里程、对象、组件和数据结构。在分布式计算环境中,程序模块可以物理地位于是本地、远程或两者的设置中。
本领域技术人员将认识到,计算系统或编程语言对于本发明的实施并非关键。本领域技术人员将认识到,上文描述的多个元素可以被物理地和/或功能地分离成子模块或组合在一起。
本科领技术人员将认识到的是,先前示例和实施例是示例性的并且不限制本发明的范围。期望的是,在阅读本说明书和学习附图之后对于本领域技术人员显而易见的所有排列、增强、等效物、组合和其改进都被包括在本发明的精神和范围内。
应当注意的是,可以以不同的方式组织所附权利要求的元素,包括具有多个从属关系、配置和组合。例如,在实施例中,各个权利要求的主题可以与其它权利要求组合。
Claims (20)
1.一种用于从输入语句中提取医疗实体的计算机实现的方法,所述方法包括:
基于所述输入语句中的一个或多个时间线索,将所述输入语句分割成一个或多个时间片段;
对于来自所述一个或多个时间片段的时间片段:
使用基于规则的模型和包括与医疗有关的术语或短语的集合的医疗实体词典来解析所述时间片段,以获得第一解析医疗实体集合;
使用解析模型来解析所述时间片段,所述解析模型接收所述时间片段作为输入并且在所述时间片段中输出第二解析医疗实体集合;
基于所述第一解析医疗实体集合和所述第二解析医疗实体集合来输出最终医疗实体集合。
2.根据权利要求1所述的计算机实现的方法,其中,所述最终医疗实体集合是所述第一解析医疗实体集合和所述第二解析医疗实体集合的组合。
3.根据权利要求2所述的计算机实现的方法,其中,所述第一解析医疗实体集合和所述第二解析医疗实体集合的所述组合是所述第一解析医疗实体集合和所述第二解析医疗实体集合的联合减去所述第一解析医疗实体集合和所述第二解析医疗实体集合之间重复的任何实体。
4.根据权利要求1所述的计算机实现的方法,其中,所述基于规则的模型使用所述医疗实体词典来进行关键字匹配以识别所述时间片段中的医疗实体。
5.根据权利要求4所述的计算机实现的方法,其中,所述医疗实体词典是通过执行包括以下的步骤来获得的充实的医疗实体词典:
通过将来自初始医疗实体词典的术语或短语的集合中的每个术语或短语与来自修饰符集合的每个修饰符组合,来生成候选合成医疗实体集合;
使用医疗数据来确定每个候选合成医疗实体的出现频率;以及
将出现频率超过门限值的每个候选合成医疗实体添加到所述医疗实体词典。
6.根据权利要求5所述的计算机实现的方法,其中,所述解析模型是利用使用所述充实的医疗实体词典和医疗论坛数据形成的训练数据来训练的。
7.根据权利要求1所述的计算机实现的方法,还包括:
对于所述最终解析医疗实体集合内的每个医疗实体,确定所述医疗实体是否被描述性修饰符所修饰;以及
响应于存在描述性修饰符,将所述描述性修饰符映射到一个或多个水平。
8.根据权利要求7所述的计算机实现的方法,还包括:生成针对每个时间片段的有向图,其中,来自所述时间片段的所述最终解析医疗实体集合的每个解析医疗实体是表示所述医疗实体或维度的节点,每个边缘表示由所述边缘连接的节点之间的关系。
9.根据权利要求8所述的计算机实现的方法,其中,所述表示维度的节点被编码来标识相关联的解析医疗实体的定量描述的可测量水平。
10.一种用于创建从输入语句中提取医疗实体的系统的方法,所述方法包括:
接收医疗实体词典,所述医疗实体词典包括与医疗有关的术语或短语的集合和医疗论坛数据;
使用所述医疗论坛数据中的至少一部分和所述医疗实体词典中的至少一部分来形成训练数据集合的样本集合,对于每个样本,所述医疗实体词典包括来自所述医疗论坛数据的医疗语句和所述医疗语句中的相对应的医疗实体;
使用所述训练数据集合中的至少一部分来训练解析模型以识别输入语句中的医疗实体;以及
使用所述医疗实体词典中的术语和短语中的至少一部分来形成基于规则的模型以识别输入语句中的医疗实体。
11.根据权利要求10所述的方法,其中,所述医疗实体词典是使用修饰符集合从初始医疗实体词典扩充的充实的医疗实体词典,所述修饰符集合包括一个或多个形容词、一个或多个副词、或其组合。
12.根据权利要求11所述的方法,其中,所述充实的医疗实体词典是通过执行包括以下的步骤来获得的:
通过将来自初始医疗实体词典的术语或短语的集合中的每个术语或短语与来自修饰符集合的每个修饰符组合,来生成候选合成医疗实体集合;
使用医疗数据来确定每个候选合成医疗实体的出现频率;以及
将出现频率超过门限值的每个候选合成医疗实体添加到所述医疗实体词典。
13.根据权利要求10所述的方法,其中,样本中的所述医疗实体是由与所述样本相关联的现有医疗实体标签标识的。
14.根据权利要求10所述的方法,还包括使用与时间有关的关键字和相关联的规则来形成将输入句子分割成一个或多个时间片段的时间片段器。
15.根据权利要求10所述的方法,还包括:对于由所述解析模型或所述基于规则的模型在所述输入语句中识别的医疗实体,形成实体维度搜索器,所述维度搜索器确定所述医疗实体是否被描述性修饰符修饰,以及响应于存在描述性修饰符,将所述描述性修饰符映射到一个或多个水平。
16.根据权利要求15所述的方法,其中,为所述描述性修饰符中的至少一部分分配水平。
17.根据权利要求15所述的方法,还包括生成画图模块,其中,所述画图模块对于所述输入语句的时间片段,通过创建针对每个医疗实体的节点和通过创建具有关系的节点之间的边缘来生成针对所述时间片段的有向图,所述每个医疗实体通过所述解析模型或所述基于规则的模型在所述时间片段中被识别。
18.一种用于医疗实体识别的系统,包括:
一个或多个处理器;
医疗实体词典,可通过所述一个或多个处理器中的至少一个通信地访问,所述医疗实体词典包括与医疗有关的术语或短语的集合;
包括一个或多个指令序列的暂时性计算机可读介质或介质,所述指令序列在由所述一个或多个处理器中的至少一个处理器执行时,使得执行以下步骤:
基于所述输入语句中的一个或多个时间线索,将所述输入语句分割成一个或多个时间片段;
对于来自所述一个或多个时间片段的时间片段:
使用基于规则的模型和所述医疗实体词典来获得第一解析医疗实体集合;
使用解析模型来解析所述时间片段,所述解析模型接收所述时间片段作为输入并且在所述时间片段中输出第二解析医疗实体集合;
基于所述第一解析医疗实体集合和所述第二解析医疗实体集合来输出最终医疗实体集合。
19.根据权利要求18所述的系统,其中,所述医疗实体词典是通过执行包括以下的步骤来获得的充实的医疗实体词典:
通过将来自初始医疗实体词典的术语或短语的集合中的每个术语或短语与来自修饰符集合的每个修饰符组合,来生成候选合成医疗实体集合;
使用医疗数据来确定每个候选合成医疗实体的出现频率;以及
将出现频率超过门限值的每个候选合成医疗实体添加到所述医疗实体词典。
20.根据权利要求18所述的系统,其中,所述暂时性计算机可读介质或介质还包括一个或多个指令序列,所述指令序列在由所述一个或多个处理器中的至少一个处理器执行时,使得执行以下步骤:
对于所述最终解析医疗实体集合内的每个医疗实体,确定所述医疗实体是否被描述性修饰符所修饰;以及
响应于存在描述性修饰符,将所述描述性修饰符映射到一个或多个水平。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/215,393 | 2016-07-20 | ||
US15/215,393 US20180025121A1 (en) | 2016-07-20 | 2016-07-20 | Systems and methods for finer-grained medical entity extraction |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107644011A true CN107644011A (zh) | 2018-01-30 |
CN107644011B CN107644011B (zh) | 2023-11-07 |
Family
ID=60988745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710097365.4A Active CN107644011B (zh) | 2016-07-20 | 2017-02-22 | 用于细粒度医疗实体提取的系统和方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20180025121A1 (zh) |
CN (1) | CN107644011B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112424873A (zh) * | 2018-07-18 | 2021-02-26 | 国际商业机器公司 | 模拟患者以开发基于人工智能的医学方案 |
CN114297207A (zh) * | 2021-12-07 | 2022-04-08 | 腾讯数码(天津)有限公司 | 实体库更新方法、装置、计算机设备和存储介质 |
CN116028648A (zh) * | 2023-02-15 | 2023-04-28 | 熙牛医疗科技(浙江)有限公司 | 一种细粒度各场景通用的医疗文本结构化信息抽取方法 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10861604B2 (en) | 2016-05-05 | 2020-12-08 | Advinow, Inc. | Systems and methods for automated medical diagnostics |
US10699077B2 (en) * | 2017-01-13 | 2020-06-30 | Oath Inc. | Scalable multilingual named-entity recognition |
US11164679B2 (en) | 2017-06-20 | 2021-11-02 | Advinow, Inc. | Systems and methods for intelligent patient interface exam station |
US20190279767A1 (en) * | 2018-03-06 | 2019-09-12 | James Stewart Bates | Systems and methods for creating an expert-trained data model |
US11348688B2 (en) | 2018-03-06 | 2022-05-31 | Advinow, Inc. | Systems and methods for audio medical instrument patient measurements |
US10939806B2 (en) | 2018-03-06 | 2021-03-09 | Advinow, Inc. | Systems and methods for optical medical instrument patient measurements |
US10891352B1 (en) * | 2018-03-21 | 2021-01-12 | Optum, Inc. | Code vector embeddings for similarity metrics |
EP3564964A1 (en) * | 2018-05-04 | 2019-11-06 | Avaintec Oy | Method for utilising natural language processing technology in decision-making support of abnormal state of object |
US10978189B2 (en) | 2018-07-19 | 2021-04-13 | Optum, Inc. | Digital representations of past, current, and future health using vectors |
WO2020061562A1 (en) * | 2018-09-21 | 2020-03-26 | Alexander Davis | A data processing system for detecting health risks and causing treatment responsive to the detection |
CN113963804A (zh) * | 2018-11-09 | 2022-01-21 | 天津新开心生活科技有限公司 | 医学数据关系挖掘方法及装置 |
US11210346B2 (en) | 2019-04-04 | 2021-12-28 | Iqvia Inc. | Predictive system for generating clinical queries |
CA3061432A1 (en) * | 2019-04-25 | 2019-07-18 | Alibaba Group Holding Limited | Identifying entities in electronic medical records |
US11373037B2 (en) | 2019-10-01 | 2022-06-28 | International Business Machines Corporation | Inferring relation types between temporal elements and entity elements |
CN111898382A (zh) * | 2020-06-30 | 2020-11-06 | 北京搜狗科技发展有限公司 | 一种命名实体识别方法、装置和用于命名实体识别的装置 |
CN116737924B (zh) * | 2023-04-27 | 2024-06-25 | 百洋智能科技集团股份有限公司 | 一种医疗文本数据处理方法及装置 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5528516A (en) * | 1994-05-25 | 1996-06-18 | System Management Arts, Inc. | Apparatus and method for event correlation and problem reporting |
US20030233251A1 (en) * | 2002-03-05 | 2003-12-18 | Haskell Robert Emmons | Dynamic dictionary and term repository system |
KR20050039067A (ko) * | 2003-10-23 | 2005-04-29 | 한국전자통신연구원 | 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적개체명을 인식하는 장치 및 그 방법 |
JP2006040246A (ja) * | 2004-06-23 | 2006-02-09 | Japan Pharmaceutical Information Center | 添付文書適応症コード変換方法 |
US20080021288A1 (en) * | 2006-07-24 | 2008-01-24 | Brad Bowman | Method and system for generating personalized health information with accommodation for consumer health terminology |
US20080091631A1 (en) * | 2006-10-11 | 2008-04-17 | Henry Joseph Legere | Method and Apparatus for an Algorithmic Approach to Patient-Driven Computer-Assisted Diagnosis |
US20080228769A1 (en) * | 2007-03-15 | 2008-09-18 | Siemens Medical Solutions Usa, Inc. | Medical Entity Extraction From Patient Data |
JP2010055146A (ja) * | 2008-08-26 | 2010-03-11 | Gifu Univ | 医療用語翻訳表示システム |
US20130066903A1 (en) * | 2011-09-12 | 2013-03-14 | Siemens Corporatoin | System for Linking Medical Terms for a Medical Knowledge Base |
JP2013174995A (ja) * | 2012-02-24 | 2013-09-05 | Nippon Hoso Kyokai <Nhk> | 基本語彙抽出装置、及びプログラム |
CN104156415A (zh) * | 2014-07-31 | 2014-11-19 | 沈阳锐易特软件技术有限公司 | 解决医疗数据标准编码对照问题的映射处理系统及方法 |
WO2014197669A1 (en) * | 2013-06-05 | 2014-12-11 | Nuance Communications, Inc. | Methods and apparatus for providing guidance to medical professionals |
CN104750819A (zh) * | 2015-03-31 | 2015-07-01 | 大连理工大学 | 一种基于词分组排序算法的生物医学文献检索方法及系统 |
CN105069036A (zh) * | 2015-07-22 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 一种信息推荐方法及装置 |
CN105095665A (zh) * | 2015-08-13 | 2015-11-25 | 易保互联医疗信息科技(北京)有限公司 | 一种中文疾病诊断信息的自然语言处理方法及系统 |
CN105184053A (zh) * | 2015-08-13 | 2015-12-23 | 易保互联医疗信息科技(北京)有限公司 | 一种中文医疗服务项目信息的自动编码方法及系统 |
US20150379241A1 (en) * | 2014-06-27 | 2015-12-31 | Passport Health Communications, Inc. | Automatic medical coding system and method |
CN105389304A (zh) * | 2015-10-27 | 2016-03-09 | 小米科技有限责任公司 | 事件提取方法及装置 |
CN105404632A (zh) * | 2014-09-15 | 2016-03-16 | 深港产学研基地 | 基于深度神经网络对生物医学文本序列化标注的系统和方法 |
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8793199B2 (en) * | 2012-02-29 | 2014-07-29 | International Business Machines Corporation | Extraction of information from clinical reports |
-
2016
- 2016-07-20 US US15/215,393 patent/US20180025121A1/en not_active Abandoned
-
2017
- 2017-02-22 CN CN201710097365.4A patent/CN107644011B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5528516A (en) * | 1994-05-25 | 1996-06-18 | System Management Arts, Inc. | Apparatus and method for event correlation and problem reporting |
US20030233251A1 (en) * | 2002-03-05 | 2003-12-18 | Haskell Robert Emmons | Dynamic dictionary and term repository system |
KR20050039067A (ko) * | 2003-10-23 | 2005-04-29 | 한국전자통신연구원 | 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적개체명을 인식하는 장치 및 그 방법 |
JP2006040246A (ja) * | 2004-06-23 | 2006-02-09 | Japan Pharmaceutical Information Center | 添付文書適応症コード変換方法 |
US20080021288A1 (en) * | 2006-07-24 | 2008-01-24 | Brad Bowman | Method and system for generating personalized health information with accommodation for consumer health terminology |
US20080091631A1 (en) * | 2006-10-11 | 2008-04-17 | Henry Joseph Legere | Method and Apparatus for an Algorithmic Approach to Patient-Driven Computer-Assisted Diagnosis |
US20080228769A1 (en) * | 2007-03-15 | 2008-09-18 | Siemens Medical Solutions Usa, Inc. | Medical Entity Extraction From Patient Data |
JP2010055146A (ja) * | 2008-08-26 | 2010-03-11 | Gifu Univ | 医療用語翻訳表示システム |
US20130066903A1 (en) * | 2011-09-12 | 2013-03-14 | Siemens Corporatoin | System for Linking Medical Terms for a Medical Knowledge Base |
JP2013174995A (ja) * | 2012-02-24 | 2013-09-05 | Nippon Hoso Kyokai <Nhk> | 基本語彙抽出装置、及びプログラム |
WO2014197669A1 (en) * | 2013-06-05 | 2014-12-11 | Nuance Communications, Inc. | Methods and apparatus for providing guidance to medical professionals |
US20150379241A1 (en) * | 2014-06-27 | 2015-12-31 | Passport Health Communications, Inc. | Automatic medical coding system and method |
CN104156415A (zh) * | 2014-07-31 | 2014-11-19 | 沈阳锐易特软件技术有限公司 | 解决医疗数据标准编码对照问题的映射处理系统及方法 |
CN105404632A (zh) * | 2014-09-15 | 2016-03-16 | 深港产学研基地 | 基于深度神经网络对生物医学文本序列化标注的系统和方法 |
CN104750819A (zh) * | 2015-03-31 | 2015-07-01 | 大连理工大学 | 一种基于词分组排序算法的生物医学文献检索方法及系统 |
CN105069036A (zh) * | 2015-07-22 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 一种信息推荐方法及装置 |
CN105095665A (zh) * | 2015-08-13 | 2015-11-25 | 易保互联医疗信息科技(北京)有限公司 | 一种中文疾病诊断信息的自然语言处理方法及系统 |
CN105184053A (zh) * | 2015-08-13 | 2015-12-23 | 易保互联医疗信息科技(北京)有限公司 | 一种中文医疗服务项目信息的自动编码方法及系统 |
CN105389304A (zh) * | 2015-10-27 | 2016-03-09 | 小米科技有限责任公司 | 事件提取方法及装置 |
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
Non-Patent Citations (2)
Title |
---|
徐天明;樊银亭;马翠霞;滕东兴;: "面向电子病历中文医学信息的可视组织方法", 计算机系统应用, no. 11 * |
殷蜀梅;: "基于Medline的医学数据挖掘系统研究", 现代图书情报技术, no. 04 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112424873A (zh) * | 2018-07-18 | 2021-02-26 | 国际商业机器公司 | 模拟患者以开发基于人工智能的医学方案 |
CN114297207A (zh) * | 2021-12-07 | 2022-04-08 | 腾讯数码(天津)有限公司 | 实体库更新方法、装置、计算机设备和存储介质 |
CN116028648A (zh) * | 2023-02-15 | 2023-04-28 | 熙牛医疗科技(浙江)有限公司 | 一种细粒度各场景通用的医疗文本结构化信息抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107644011B (zh) | 2023-11-07 |
US20180025121A1 (en) | 2018-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107644011A (zh) | 用于细粒度医疗实体提取的系统和方法 | |
WO2021082953A1 (zh) | 机器阅读理解方法、设备、存储介质及装置 | |
CN112015859B (zh) | 文本的知识层次抽取方法及装置、计算机设备及可读介质 | |
CN111046679A (zh) | 翻译模型的质量信息获取方法、装置及计算机设备 | |
CN111552766B (zh) | 使用机器学习来表征在引用图形上应用的参考关系 | |
CN111553159B (zh) | 一种问句生成方法及系统 | |
CN110609910B (zh) | 医学知识图谱构建方法及装置、存储介质和电子设备 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN107644051A (zh) | 用于同类实体分组的系统和方法 | |
CN111651569B (zh) | 一种电力领域的知识库问答方法及系统 | |
CN112749277A (zh) | 医学数据的处理方法、装置及存储介质 | |
Zhang et al. | Coral: Code representation learning with weakly-supervised transformers for analyzing data analysis | |
CN117709435A (zh) | 大语言模型的训练方法、代码生成方法、设备及存储介质 | |
CN112668281B (zh) | 基于模板的语料自动化扩充方法、装置、设备及介质 | |
Aksoy et al. | Radiology report generation using transformers conditioned with non-imaging data | |
Bai et al. | Gated character-aware convolutional neural network for effective automated essay scoring | |
Khan et al. | Non Functional Requirements Identification and Classification Using Transfer Learning Model | |
CN117672440A (zh) | 基于神经网络的电子病历文本信息抽取方法及系统 | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
Butcher | Contract Information Extraction Using Machine Learning | |
Markus et al. | Leveraging Researcher Domain Expertise to Annotate Concepts Within Imbalanced Data | |
Pinto et al. | Intelligent and fuzzy systems applied to language & knowledge engineering | |
EP4369246A1 (en) | Translation review suitability assessment | |
US20240281608A1 (en) | Multi-task self-training for character gender identification | |
Yang et al. | Automatic annotation method of VR speech corpus based on artificial intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |