CN112270965A - 医学文本表型信息的语义结构化处理方法 - Google Patents

医学文本表型信息的语义结构化处理方法 Download PDF

Info

Publication number
CN112270965A
CN112270965A CN202011277020.5A CN202011277020A CN112270965A CN 112270965 A CN112270965 A CN 112270965A CN 202011277020 A CN202011277020 A CN 202011277020A CN 112270965 A CN112270965 A CN 112270965A
Authority
CN
China
Prior art keywords
phenotype
attributes
semantic structural
medical text
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011277020.5A
Other languages
English (en)
Other versions
CN112270965B (zh
Inventor
蒋太交
邓立宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Institute Of Systems Medicine
Original Assignee
Suzhou Institute Of Systems Medicine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Institute Of Systems Medicine filed Critical Suzhou Institute Of Systems Medicine
Priority to CN202011277020.5A priority Critical patent/CN112270965B/zh
Publication of CN112270965A publication Critical patent/CN112270965A/zh
Application granted granted Critical
Publication of CN112270965B publication Critical patent/CN112270965B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种医学文本表型信息的语义结构化处理方法,通过构建表型语义结构单元、对表型语义结构单元的自动识别及对表型语义结构单元的交互校对得到更精细、更准确的疾病‑表型知识库。本发明突出效果为:能够对医学文本中的表型知识从语义层面进行更精确、更深入的结构化表征,对语义层面的细粒度表征更深入。本发明将能极大的促进我国医疗信息化和智能化事业的发展。

Description

医学文本表型信息的语义结构化处理方法
技术领域
本发明属于数据处理技术领域,尤其涉及一种医学文本表型信息的语义结构化处理方法。
背景技术
健康医疗大数据是我国重要的基础性战略资源,临床指南、电子病历等医学文本大数据是健康医疗大数据的重要组成部分。医学文本大数据中蕴含了丰富的诊疗信息,若能对这些信息加以有效利用,将极大的推动我国医疗信息化和智能化的发展。然而,医学文本大数据往往是以自由文本的形式存在,结构化和标准化程度低,这已经成为制约我国健康医疗大数据应用发展的瓶颈。突破这一瓶颈的关键就在于发展医学文本的结构化方法,将医学文本转化为计算机可理解的标准化、结构化的形式,从而系统提升现有医学文本大数据资源的价值。
现有的医学文本结构化方法主要是将医学文本表征为一系列的医学术语或医学概念的形式。具体而言,给定一篇流行性感冒的临床指南或电子病历,计算机将基于一套医学词典或医学本体扫描医学文本中的疾病、症状、药物等术语,最终将医学文本存储为术语表征的形式,实现医学文本的结构化处理。在结构化的疾病知识库中,我们看到流行性感冒的症状由“高热”、“头痛”、“乏力”等术语组成。这些术语还可通过医学本体获得唯一的概念编码,以规范同一医学概念在不同医学文本中的不同表达(如“头痛”和“头疼”),从而在医学文本结构化的基础上进一步实现标准化。
医学文本的结构化本质上是对医学文本的重表征。理想情况下,医学文本的重表征应尽可能地重构出原始描述的完整语义,换言之,应可能地不丢失原始描述所表达的重要信息。然而,现有的基于医学术语的医学文本结构化方法却存在着无法重构原始描述完整语义的问题。其原因主要是传统方法仅仅关注了医学术语本身,而忽略了医学术语蕴含在上下文中的属性。例如,以在“患者突然出现剧烈右下部腹痛”的临床描述中,传统医学文本结构化方法仅能识别出“腹痛”,但显然原始描述并不仅仅只传递了“腹痛”这一信息,它还描述了“腹痛”的缓急程度(“突然出现”)、严重程度(“剧烈”)和相对位置(“右下腹”)。这些重要的细节信息对于疾病的鉴别诊断有巨大的价值,但却在结构化的过程中丢失了。在现有的医学文本结构化表征方法之下,医学知识的表达是非常不完整、不精确和粗粒度的,这将会为后续发展基于知识库的智能诊疗系统带来很大的问题。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的在于提供一种医学文本表型信息的语义结构化处理方法。
本发明的目的,将通过以下技术方案得以实现:
医学文本表型信息的语义结构化处理方法,包括如下步骤:
S1、构建表型语义结构单元;所述表型语义包括表型概念及其关联属性集合;
S11、建立标准化属性及其取值集合库;
S12、基于S11中建立的标准化属性及其取值集合库,获取疾病临床指南中存在的表型概念和属性术语,并将与表型概念共同出现在一个句子中的属性设置为表型的潜在关联属性;
S13、对潜在关联属性进行判别,确认关联的真实性,构建初始版本的表型语义结构单元;
S2、表型语义结构单元的自动识别;
S21、先进行表型概念识别;
S22、根据表型概念的上下文预测其关联属性,
S23、填充预定义的表型语义结构单元的属性槽。
优选地,所述处理方法还包括,
S3、表型语义结构单元的交互校对
S31、使用BRAT文本标注工具可视化展示表型语义结构单元的自动识别结果;
S32、若识别结果有误,进行人工修改标注核实。
优选地,所述S1中表型语义结构单元包括12种属性,且根据不同属性刻画表型特征分为三类:
第一类,刻画表型存在情况细节特征的属性:包括表型的存在情况、人群频率、发病年龄、发病性别和重症轻症;
第二类,刻画表型具体表现细节特征的属性:包括表型的缓急程度、严重程度、颜色外观和感觉性质;
第三类,刻画表型位置分布细节特征的属性:包括表型的分布特征、偏侧性和四分区。
优选地,所述S21表型概念的识别包括如下步骤:
S211、建立不同属性标准取值的触发词数据库,所述触发词包括词语形式和数字形式的提示词;
S212、对句子中属性触发词进行识别,所述属性触发词是指表型语义结构单元中某一属性标准取值在医学文本中的提示词;
S213、分析判断表型概念是否位于触发词的作用范围内,若表型概念位于触发词范围内,则找到该触发词对应的属性槽,并更改该属性槽的取值为该触发词对应的标准取值;若表型概念在触发词范围外,则维持该属性槽的取值为默认值;除存在情况属性的默认取值为“存在”外,其余11个属性的默认取值为“None”。
优选地,所述S1还包括表型语义结构单元调整优化步骤,
S14、通过对医学文档的迭代标注,检验表型语义结构单元对医学文本中表型知识的表达力,以对表型语义结构单元进行调整和优化。
优选地,所述S211中包括56种不同属性标准取值的触发词。
优选地,所述S21中表型概念的识别基于词典扫描医学文本中字符串的方法进行表型概念的识别;对于英文医学文本,使用MetaMap工具,自动识别医学文本中的表型概念;对于中文医学文本,使用结巴分词工具,通过将人类表型本体中文版配置为自定义词典,实现中文医学文本中表型概念的抽提。
优选地,所述S11中标准化属性包括从国内外的医学本体和临床信息标准中搜集的342个属性。
优选地,所述S14中医学文档包括临床指南、疾病百科。
本发明突出效果为:能够对医学文本中的表型知识进行更精确的结构化表征。对语义层面的细粒度表征更深入,通过12种属性记录表型不同侧面的细节特征,进而能得到更精细、更准确的疾病-表型知识库。本发明将能极大的促进我国医疗信息化和智能化事业的发展。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1是本发明表型语义结构单元的构建的结构示意图。
图2是使用本发明的表型语义结构单元表征表型知识的示例图。
图3是表型语义结构单元的自动识别算法原理图。
具体实施方式
本发明揭示了一种医学文本表型信息的语义结构化处理方法。其主要实现的是医学文本中表型信息的精准表征。在医学上,表型的概念涵盖了疾病、体征、症状、实验室检查结果和影像学检查结果等。
本发明的技术方案包含三个步骤,分别是a)表型语义结构单元的构建;b)表型语义结构单元的自动识别;c)表型语义结构单元的交互校对。通过这三个步骤,本发明能将一篇医学文本转化为以表型语义结构单元为基础的结构化表征,详细阐述如下:
a)表型语义结构单元的构建
参考“实体-属性-取值”模型,对表型概念的关联属性及属性的取值集合进行构建,以捕捉蕴含在表型概念上下文中的描述信息,从而通过属性的设置来刻画表型不同侧面的特征,例如表型的缓急程度、严重程度等等。所述表型语义结构单元是表型概念及其关联属性的集合。
使用一种基于统计的方法建模表型概念的关联属性,如图1所示。具体而言,首先系统地从国内外的医学本体和临床信息标准中搜集了342个属性,建立标准化的属性及其取值集合库;随后,基于人类表型本体和标准属性库,使用基于字符串的方法注释了200份疾病临床指南,获取其中存在的表型概念和属性术语,并将那些与表型概念共同出现在一个句子中的属性设置为表型的潜在关联属性;最后,对计算机找到的潜在关联属性进行人工判别,确认关联的真实性,构建初始版本的表型语义结构单元,并通过对医学文档的迭代标注,检验表型语义结构单元对医学文本中表型知识的表达力,以便对表型语义结构单元进行调整和优化。所述医学文档包括临床指南、疾病百科。
本发明中构建的表型语义结构单元包含12种属性。根据不同属性所刻画的表型特征,这12种属性可分为三类,分别是:
1、刻画表型存在情况细节特征的属性:这一类别的属性包括表型的存在情况、人群频率、发病年龄、发病性别和重症轻症。
2、刻画表型具体表现细节特征的属性:这一类别的属性包括表型的缓急程度、严重程度、颜色外观和感觉性质。
3、刻画表型位置分布细节特征的属性:这一类别的属性包括表型的分布特征、偏侧性和四分区。
以上12种表型关联属性的定义、来源和取值集合见表1。
表1.表型语义结构体中属性的定义、来源和取值集合。
Figure BDA0002779408610000061
Figure BDA0002779408610000071
在构建和定义好表型语义结构单元后,最终,医学文本结构化的任务就是以表型语义结构单元的模式对医学文本中的表型信息进行表征。例如,临床描述“患者突然出现剧烈右下部腹痛”,它的语义结构单元表征形式将是表型概念“腹痛”,加上“缓急程度:急性”,“严重程度:重度”和“四分区:右下”这三个属性的组合,结合图2所示。由此可知,相对于现有技术中单纯的基于表型术语的表征,表型语义结构单元的结构化形式对表型知识的刻画更为精细。
b)表型语义结构单元的自动识别
由于增加了对表型属性的考虑,所以表型语义结构单元的标注会比基于表型术语的标注更为复杂,更耗费时间。为了有效地减少标注表型语义结构单元的工作量,本发明对表型语义结构单元提出了识别算法。该识别算法包含两个部分,分别是表型概念的识别和属性槽的填充。
基于词典扫描医学文本中字符串的方法对表型概念进行识别。对于英文医学文本,使用MetaMap工具,自动地识别医学文本中的表型概念。对于中文医学文本,使用结巴分词工具,通过将人类表型本体中文版配置为自定义词典,实现中文医学文本中表型概念的抽提。
在识别得到一个表型概念后,根据表型概念的上下文预测其关联属性,填充预定义的表型语义结构单元的12个属性槽。本发明的算法基于属性触发词和触发范围规则,结合图3所示。属性触发词是指表型语义结构单元中某一属性标准取值在医学文本中的提示词。例如,“严重程度”属性的一个标准取值是“轻度”,但在医学文本中,“轻度”的表达存在着多种形式。在英文文本中,它可能以“mild”,“slight”等形式出现;在中文文本中,它可能以“轻微”、“不明显”等形式出现。
具体的,首先建立不同属性标准取值的触发词数据库。所述触发词的来源主要来自两方面:一是来自于现有医学文本中提供的同义词;二是来自于文本标注过程中的积累。本发明中建立了56个不同属性标准取值的触发词。其中包括词语形式的触发词和数字形式的触发信号。
例如,对于表型出现的人群频率,在医学文本中常有百分之多少的患者可能出现某种症状的描述,则需要将百分比的具体数值转换为人群频率属性的标准取值。通过使用正则表达式“\d+(\.\d+)?%”识别医学文本中的百分比信号,并根据人类表型本体对人群频率的定义:将出现在80%以上人群的出现频率属性设置为常见;30%~80%设置为偶见;5%~30%设置为少见;5%以下设置为罕见。另外,“发热”这一术语在医学文本中常同样具有数值型的体温描述,以反映发热的严重程度。使用正则表达式“\d+(\.\d*)?(\s)?℃”识别体温,根据医学教科书的定义对不同的体温赋予“发热”不同的严重程度属性:其中37.5℃~38℃的发热标识为“轻度”;38.1~39℃的发热标识为“中度”;39.1℃以上的发热标识为“重度”。
在基于字符串扫描和正则表达式完成对句子中属性触发词的识别后,进一步分析表型概念是否位于触发词的作用范围内。不同属性的触发词具有不同的作用范围,若表型概念位于触发词范围内,则需要更改相应属性槽的取值。
具体地,在表型语义结构单元的12个属性中,存在情况、人群频率、发病年龄、发病性别、重症轻症这5个属性的触发词,其作用范围是在整个句子层面;其余属性的触发词,其作用范围限定在逗号分隔的子句层面。
例如,对于临床描述“在重症患者中,患者可能会出现腹痛、腹泻和乏力症状”,“重症”这一“重症轻症”属性的触发词,以及“可能”这一“存在情况”属性的触发词,对其后的“腹痛”、“腹泻”和“乏力”等表型都有作用。而对于临床描述,“患者通常出现一侧头痛,伴或不伴耳鸣”,“一侧”这一“偏侧性”属性的触发词,只对“头痛”这一表型发生作用。在算法实现上,首先将一个表型概念的12个属性都设置为默认值,其中“存在情况”属性的默认值是“存在”,其它属性的默认值是“None”;然后从左向右扫描表型概念所在上下文中的触发词;若表型概念在触发词的作用范围内,则找到该触发词对应的属性槽,并更改该属性槽的取值为该触发词对应的标准取值。
c)表型语义结构单元的交互校对
表型语义结构单元的自动识别算法不可能完全正确,所以需要进行人工校正。具体的,通过使用BRAT文本标注工具可视化展示表型语义结构单元的自动识别结果,专家通过标注工具对不正确的识别结果(表型概念识别不正确或属性槽填充不正确)进行人工校正。对于同一份医学文档,会有两名不同的专家进行校正。对于不一致的情况,组织专家进行讨论,并达成一致的标注,以最终生成高质量的、精标注的医学文本。
实际应用时,当完成临床指南的标注后,将标注文件从平台导出,完成相应感染疾病临床指南的细粒度语义结构化。每一份感染性疾病都将对应一份结构化文件。在结构化的文本中,不仅包含了表型概念的标注,还包含了表型概念属性的标注。
本发明尚有多种实施方式,凡采用等同变换或者等效变换而形成的所有技术方案,均落在本发明的保护范围之内。

Claims (9)

1.医学文本表型信息的语义结构化处理方法,其特征在于:包括如下步骤:
S1、构建表型语义结构单元;所述表型语义包括表型概念及其关联属性集合;
S11、建立标准化属性及其取值集合库;
S12、基于S11中建立的标准化属性及其取值集合库,获取疾病临床指南中存在的表型概念和属性术语,并将与表型概念共同出现在一个句子中的属性设置为表型的潜在关联属性;
S13、对潜在关联属性进行判别,确认关联的真实性,构建初始版本的表型语义结构单元;
S2、表型语义结构单元的自动识别;
S21、先进行表型概念识别;
S22、根据表型概念的上下文预测其关联属性,
S23、填充预定义的表型语义结构单元的属性槽。
2.根据权利要求1所述的医学文本表型信息的语义结构化处理方法,其特征在于:所述处理方法还包括,
S3、表型语义结构单元的交互校对
S31、使用BRAT文本标注工具可视化展示表型语义结构单元的自动识别结果;
S32、若识别结果有误,进行人工修改标注核实。
3.根据权利要求1所述的医学文本表型信息的语义结构化处理方法,其特征在于:所述S1中表型语义结构单元包括12种属性,且根据不同属性刻画表型特征分为三类:
第一类,刻画表型存在情况细节特征的属性:包括表型的存在情况、人群频率、发病年龄、发病性别和重症轻症;
第二类,刻画表型具体表现细节特征的属性:包括表型的缓急程度、严重程度、颜色外观和感觉性质;
第三类,刻画表型位置分布细节特征的属性:包括表型的分布特征、偏侧性和四分区。
4.根据权利要求1所述的医学文本表型信息的语义结构化处理方法,其特征在于:所述S21表型概念的识别包括如下步骤:
S211、建立不同属性标准取值的触发词数据库,所述触发词包括词语形式和数字形式的提示词;
S212、对句子中属性触发词进行识别,所述属性触发词是指表型语义结构单元中某一属性标准取值在医学文本中的提示词;
S213、分析判断表型概念是否位于触发词的作用范围内,若表型概念位于触发词范围内,则找到该触发词对应的属性槽,并更改该属性槽的取值为该触发词对应的标准取值;若表型概念在触发词范围外,则维持该属性槽的取值为默认值;除存在情况属性的默认取值为“存在”外,其余11个属性的默认取值为“None”。
5.根据权利要求1所述的医学文本表型信息的语义结构化处理方法,其特征在于:所述S1还包括表型语义结构单元调整优化步骤,
S14、通过对医学文档的迭代标注,检验表型语义结构单元对医学文本中表型知识的表达力,以对表型语义结构单元进行调整和优化。
6.根据权利要求4所述的医学文本表型信息的语义结构化处理方法,其特征在于:所述S211中包括56种不同属性标准取值的触发词。
7.根据权利要求1所述的医学文本表型信息的语义结构化处理方法,其特征在于:所述S21中表型概念的识别基于词典扫描医学文本中字符串的方法进行表型概念的识别;对于英文医学文本,使用MetaMap工具,自动识别医学文本中的表型概念;对于中文医学文本,使用结巴分词工具,通过将人类表型本体中文版配置为自定义词典,实现中文医学文本中表型概念的抽提。
8.根据权利要求1所述的医学文本表型信息的语义结构化处理方法,其特征在于:所述S11中标准化属性包括从国内外的医学本体和临床信息标准中搜集的342个属性。
9.根据权利要求5所述的医学文本表型信息的语义结构化处理方法,其特征在于:所述S14中医学文档包括临床指南、疾病百科。
CN202011277020.5A 2020-11-16 2020-11-16 医学文本表型信息的语义结构化处理方法 Active CN112270965B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011277020.5A CN112270965B (zh) 2020-11-16 2020-11-16 医学文本表型信息的语义结构化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011277020.5A CN112270965B (zh) 2020-11-16 2020-11-16 医学文本表型信息的语义结构化处理方法

Publications (2)

Publication Number Publication Date
CN112270965A true CN112270965A (zh) 2021-01-26
CN112270965B CN112270965B (zh) 2024-07-09

Family

ID=74340623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011277020.5A Active CN112270965B (zh) 2020-11-16 2020-11-16 医学文本表型信息的语义结构化处理方法

Country Status (1)

Country Link
CN (1) CN112270965B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488180A (zh) * 2021-07-28 2021-10-08 中国医学科学院医学信息研究所 一种临床指南知识建模方法及系统
CN114818720A (zh) * 2022-06-23 2022-07-29 北京惠每云科技有限公司 一种专病数据集构建方法、装置、电子设备及存储介质
CN116246701A (zh) * 2023-02-13 2023-06-09 广州金域医学检验中心有限公司 基于表型术语和变异基因的数据分析装置、介质和设备
CN117973393A (zh) * 2024-03-28 2024-05-03 苏州系统医学研究所 面向医学文本中关键医学信息的精准语义比对方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480131A (zh) * 2017-07-25 2017-12-15 李姣 中文电子病历症状语义提取方法及其系统
US10146751B1 (en) * 2014-12-31 2018-12-04 Guangsheng Zhang Methods for information extraction, search, and structured representation of text data
CN109545373A (zh) * 2018-11-08 2019-03-29 新博卓畅技术(北京)有限公司 一种人体疾病症状特征自动抽取方法、系统及设备
US20190114304A1 (en) * 2016-05-27 2019-04-18 Koninklijke Philips N.V. Systems and methods for modeling free-text clinical documents into a hierarchical graph-like data structure based on semantic relationships among clinical concepts present in the documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10146751B1 (en) * 2014-12-31 2018-12-04 Guangsheng Zhang Methods for information extraction, search, and structured representation of text data
US20190114304A1 (en) * 2016-05-27 2019-04-18 Koninklijke Philips N.V. Systems and methods for modeling free-text clinical documents into a hierarchical graph-like data structure based on semantic relationships among clinical concepts present in the documents
CN107480131A (zh) * 2017-07-25 2017-12-15 李姣 中文电子病历症状语义提取方法及其系统
CN109545373A (zh) * 2018-11-08 2019-03-29 新博卓畅技术(北京)有限公司 一种人体疾病症状特征自动抽取方法、系统及设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488180A (zh) * 2021-07-28 2021-10-08 中国医学科学院医学信息研究所 一种临床指南知识建模方法及系统
CN113488180B (zh) * 2021-07-28 2023-07-18 中国医学科学院医学信息研究所 一种临床指南知识建模方法及系统
CN114818720A (zh) * 2022-06-23 2022-07-29 北京惠每云科技有限公司 一种专病数据集构建方法、装置、电子设备及存储介质
CN116246701A (zh) * 2023-02-13 2023-06-09 广州金域医学检验中心有限公司 基于表型术语和变异基因的数据分析装置、介质和设备
CN116246701B (zh) * 2023-02-13 2024-03-22 广州金域医学检验中心有限公司 基于表型术语和变异基因的数据分析装置、介质和设备
CN117973393A (zh) * 2024-03-28 2024-05-03 苏州系统医学研究所 面向医学文本中关键医学信息的精准语义比对方法及系统
CN117973393B (zh) * 2024-03-28 2024-06-07 苏州系统医学研究所 面向医学文本中关键医学信息的精准语义比对方法及系统

Also Published As

Publication number Publication date
CN112270965B (zh) 2024-07-09

Similar Documents

Publication Publication Date Title
CN112270965A (zh) 医学文本表型信息的语义结构化处理方法
Pezoulas et al. Medical data quality assessment: On the development of an automated framework for medical data curation
US10818397B2 (en) Clinical content analytics engine
Hegazi et al. Preprocessing Arabic text on social media
CN107562732B (zh) 电子病历的处理方法及系统
CN112597774B (zh) 中文医疗命名实体识别方法、系统、存储介质和设备
US10977444B2 (en) Method and system for identifying key terms in digital document
Benton et al. Identifying potential adverse effects using the web: A new approach to medical hypothesis generation
Pruss et al. Zika discourse in the Americas: A multilingual topic analysis of Twitter
Dai et al. Recognition and Evaluation of Clinical Section Headings in Clinical Documents Using Token‐Based Formulation with Conditional Random Fields
CN112241457A (zh) 一种融合扩展特征的事理知识图谱事件检测方法
CN109815341B (zh) 一种文本抽取模型训练方法、文本抽取方法及装置
Hammami et al. Automated classification of cancer morphology from Italian pathology reports using Natural Language Processing techniques: A rule-based approach
CN111460173B (zh) 一种甲状腺癌的疾病本体模型的构建方法
Marciniak et al. Terminology extraction from medical texts in Polish
Koza et al. Automatic detection of negated findings in radiological reports for Spanish Language: Methodology Based on Lexicon-Grammatical Information Processing
CN112149411A (zh) 一种抗生素临床使用领域本体构建方法
CN111177309A (zh) 病历数据的处理方法及装置
Friedman Semantic text parsing for patient records
CN113111660A (zh) 数据处理方法、装置、设备和存储介质
JP2017167738A (ja) 診断処理装置、診断処理システム、サーバ、端末装置、診断処理方法及びプログラム
Dontje et al. Mapping evidence-based guidelines to standardized nursing terminologies
Nair et al. Automated clinical concept-value pair extraction from discharge summary of pituitary adenoma patients
CN102184170A (zh) 一种语素级临床汉语言解析的方法
Aggarwal et al. HEDEA: a Python tool for extracting and analysing semi-structured information from medical records

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant