CN112270965A - 医学文本表型信息的语义结构化处理方法 - Google Patents
医学文本表型信息的语义结构化处理方法 Download PDFInfo
- Publication number
- CN112270965A CN112270965A CN202011277020.5A CN202011277020A CN112270965A CN 112270965 A CN112270965 A CN 112270965A CN 202011277020 A CN202011277020 A CN 202011277020A CN 112270965 A CN112270965 A CN 112270965A
- Authority
- CN
- China
- Prior art keywords
- phenotype
- attributes
- semantic structural
- medical text
- medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 201000010099 disease Diseases 0.000 claims abstract description 13
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 13
- 230000009471 action Effects 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 230000001915 proofreading effect Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000001953 sensory effect Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 238000011161 development Methods 0.000 abstract description 5
- 206010063385 Intellectualisation Diseases 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 208000004998 Abdominal Pain Diseases 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 7
- 206010019233 Headaches Diseases 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 5
- 231100000869 headache Toxicity 0.000 description 5
- 208000024891 symptom Diseases 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 4
- 206010037660 Pyrexia Diseases 0.000 description 3
- 230000036760 body temperature Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 208000035473 Communicable disease Diseases 0.000 description 2
- 206010012735 Diarrhoea Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000020169 heat generation Effects 0.000 description 2
- 206010022000 influenza Diseases 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010000084 Abdominal pain lower Diseases 0.000 description 1
- 208000009205 Tinnitus Diseases 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003748 differential diagnosis Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 208000021760 high fever Diseases 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 231100000886 tinnitus Toxicity 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种医学文本表型信息的语义结构化处理方法,通过构建表型语义结构单元、对表型语义结构单元的自动识别及对表型语义结构单元的交互校对得到更精细、更准确的疾病‑表型知识库。本发明突出效果为:能够对医学文本中的表型知识从语义层面进行更精确、更深入的结构化表征,对语义层面的细粒度表征更深入。本发明将能极大的促进我国医疗信息化和智能化事业的发展。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种医学文本表型信息的语义结构化处理方法。
背景技术
健康医疗大数据是我国重要的基础性战略资源,临床指南、电子病历等医学文本大数据是健康医疗大数据的重要组成部分。医学文本大数据中蕴含了丰富的诊疗信息,若能对这些信息加以有效利用,将极大的推动我国医疗信息化和智能化的发展。然而,医学文本大数据往往是以自由文本的形式存在,结构化和标准化程度低,这已经成为制约我国健康医疗大数据应用发展的瓶颈。突破这一瓶颈的关键就在于发展医学文本的结构化方法,将医学文本转化为计算机可理解的标准化、结构化的形式,从而系统提升现有医学文本大数据资源的价值。
现有的医学文本结构化方法主要是将医学文本表征为一系列的医学术语或医学概念的形式。具体而言,给定一篇流行性感冒的临床指南或电子病历,计算机将基于一套医学词典或医学本体扫描医学文本中的疾病、症状、药物等术语,最终将医学文本存储为术语表征的形式,实现医学文本的结构化处理。在结构化的疾病知识库中,我们看到流行性感冒的症状由“高热”、“头痛”、“乏力”等术语组成。这些术语还可通过医学本体获得唯一的概念编码,以规范同一医学概念在不同医学文本中的不同表达(如“头痛”和“头疼”),从而在医学文本结构化的基础上进一步实现标准化。
医学文本的结构化本质上是对医学文本的重表征。理想情况下,医学文本的重表征应尽可能地重构出原始描述的完整语义,换言之,应可能地不丢失原始描述所表达的重要信息。然而,现有的基于医学术语的医学文本结构化方法却存在着无法重构原始描述完整语义的问题。其原因主要是传统方法仅仅关注了医学术语本身,而忽略了医学术语蕴含在上下文中的属性。例如,以在“患者突然出现剧烈右下部腹痛”的临床描述中,传统医学文本结构化方法仅能识别出“腹痛”,但显然原始描述并不仅仅只传递了“腹痛”这一信息,它还描述了“腹痛”的缓急程度(“突然出现”)、严重程度(“剧烈”)和相对位置(“右下腹”)。这些重要的细节信息对于疾病的鉴别诊断有巨大的价值,但却在结构化的过程中丢失了。在现有的医学文本结构化表征方法之下,医学知识的表达是非常不完整、不精确和粗粒度的,这将会为后续发展基于知识库的智能诊疗系统带来很大的问题。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的在于提供一种医学文本表型信息的语义结构化处理方法。
本发明的目的,将通过以下技术方案得以实现:
医学文本表型信息的语义结构化处理方法,包括如下步骤:
S1、构建表型语义结构单元;所述表型语义包括表型概念及其关联属性集合;
S11、建立标准化属性及其取值集合库;
S12、基于S11中建立的标准化属性及其取值集合库,获取疾病临床指南中存在的表型概念和属性术语,并将与表型概念共同出现在一个句子中的属性设置为表型的潜在关联属性;
S13、对潜在关联属性进行判别,确认关联的真实性,构建初始版本的表型语义结构单元;
S2、表型语义结构单元的自动识别;
S21、先进行表型概念识别;
S22、根据表型概念的上下文预测其关联属性,
S23、填充预定义的表型语义结构单元的属性槽。
优选地,所述处理方法还包括,
S3、表型语义结构单元的交互校对
S31、使用BRAT文本标注工具可视化展示表型语义结构单元的自动识别结果;
S32、若识别结果有误,进行人工修改标注核实。
优选地,所述S1中表型语义结构单元包括12种属性,且根据不同属性刻画表型特征分为三类:
第一类,刻画表型存在情况细节特征的属性:包括表型的存在情况、人群频率、发病年龄、发病性别和重症轻症;
第二类,刻画表型具体表现细节特征的属性:包括表型的缓急程度、严重程度、颜色外观和感觉性质;
第三类,刻画表型位置分布细节特征的属性:包括表型的分布特征、偏侧性和四分区。
优选地,所述S21表型概念的识别包括如下步骤:
S211、建立不同属性标准取值的触发词数据库,所述触发词包括词语形式和数字形式的提示词;
S212、对句子中属性触发词进行识别,所述属性触发词是指表型语义结构单元中某一属性标准取值在医学文本中的提示词;
S213、分析判断表型概念是否位于触发词的作用范围内,若表型概念位于触发词范围内,则找到该触发词对应的属性槽,并更改该属性槽的取值为该触发词对应的标准取值;若表型概念在触发词范围外,则维持该属性槽的取值为默认值;除存在情况属性的默认取值为“存在”外,其余11个属性的默认取值为“None”。
优选地,所述S1还包括表型语义结构单元调整优化步骤,
S14、通过对医学文档的迭代标注,检验表型语义结构单元对医学文本中表型知识的表达力,以对表型语义结构单元进行调整和优化。
优选地,所述S211中包括56种不同属性标准取值的触发词。
优选地,所述S21中表型概念的识别基于词典扫描医学文本中字符串的方法进行表型概念的识别;对于英文医学文本,使用MetaMap工具,自动识别医学文本中的表型概念;对于中文医学文本,使用结巴分词工具,通过将人类表型本体中文版配置为自定义词典,实现中文医学文本中表型概念的抽提。
优选地,所述S11中标准化属性包括从国内外的医学本体和临床信息标准中搜集的342个属性。
优选地,所述S14中医学文档包括临床指南、疾病百科。
本发明突出效果为:能够对医学文本中的表型知识进行更精确的结构化表征。对语义层面的细粒度表征更深入,通过12种属性记录表型不同侧面的细节特征,进而能得到更精细、更准确的疾病-表型知识库。本发明将能极大的促进我国医疗信息化和智能化事业的发展。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1是本发明表型语义结构单元的构建的结构示意图。
图2是使用本发明的表型语义结构单元表征表型知识的示例图。
图3是表型语义结构单元的自动识别算法原理图。
具体实施方式
本发明揭示了一种医学文本表型信息的语义结构化处理方法。其主要实现的是医学文本中表型信息的精准表征。在医学上,表型的概念涵盖了疾病、体征、症状、实验室检查结果和影像学检查结果等。
本发明的技术方案包含三个步骤,分别是a)表型语义结构单元的构建;b)表型语义结构单元的自动识别;c)表型语义结构单元的交互校对。通过这三个步骤,本发明能将一篇医学文本转化为以表型语义结构单元为基础的结构化表征,详细阐述如下:
a)表型语义结构单元的构建
参考“实体-属性-取值”模型,对表型概念的关联属性及属性的取值集合进行构建,以捕捉蕴含在表型概念上下文中的描述信息,从而通过属性的设置来刻画表型不同侧面的特征,例如表型的缓急程度、严重程度等等。所述表型语义结构单元是表型概念及其关联属性的集合。
使用一种基于统计的方法建模表型概念的关联属性,如图1所示。具体而言,首先系统地从国内外的医学本体和临床信息标准中搜集了342个属性,建立标准化的属性及其取值集合库;随后,基于人类表型本体和标准属性库,使用基于字符串的方法注释了200份疾病临床指南,获取其中存在的表型概念和属性术语,并将那些与表型概念共同出现在一个句子中的属性设置为表型的潜在关联属性;最后,对计算机找到的潜在关联属性进行人工判别,确认关联的真实性,构建初始版本的表型语义结构单元,并通过对医学文档的迭代标注,检验表型语义结构单元对医学文本中表型知识的表达力,以便对表型语义结构单元进行调整和优化。所述医学文档包括临床指南、疾病百科。
本发明中构建的表型语义结构单元包含12种属性。根据不同属性所刻画的表型特征,这12种属性可分为三类,分别是:
1、刻画表型存在情况细节特征的属性:这一类别的属性包括表型的存在情况、人群频率、发病年龄、发病性别和重症轻症。
2、刻画表型具体表现细节特征的属性:这一类别的属性包括表型的缓急程度、严重程度、颜色外观和感觉性质。
3、刻画表型位置分布细节特征的属性:这一类别的属性包括表型的分布特征、偏侧性和四分区。
以上12种表型关联属性的定义、来源和取值集合见表1。
表1.表型语义结构体中属性的定义、来源和取值集合。
在构建和定义好表型语义结构单元后,最终,医学文本结构化的任务就是以表型语义结构单元的模式对医学文本中的表型信息进行表征。例如,临床描述“患者突然出现剧烈右下部腹痛”,它的语义结构单元表征形式将是表型概念“腹痛”,加上“缓急程度:急性”,“严重程度:重度”和“四分区:右下”这三个属性的组合,结合图2所示。由此可知,相对于现有技术中单纯的基于表型术语的表征,表型语义结构单元的结构化形式对表型知识的刻画更为精细。
b)表型语义结构单元的自动识别
由于增加了对表型属性的考虑,所以表型语义结构单元的标注会比基于表型术语的标注更为复杂,更耗费时间。为了有效地减少标注表型语义结构单元的工作量,本发明对表型语义结构单元提出了识别算法。该识别算法包含两个部分,分别是表型概念的识别和属性槽的填充。
基于词典扫描医学文本中字符串的方法对表型概念进行识别。对于英文医学文本,使用MetaMap工具,自动地识别医学文本中的表型概念。对于中文医学文本,使用结巴分词工具,通过将人类表型本体中文版配置为自定义词典,实现中文医学文本中表型概念的抽提。
在识别得到一个表型概念后,根据表型概念的上下文预测其关联属性,填充预定义的表型语义结构单元的12个属性槽。本发明的算法基于属性触发词和触发范围规则,结合图3所示。属性触发词是指表型语义结构单元中某一属性标准取值在医学文本中的提示词。例如,“严重程度”属性的一个标准取值是“轻度”,但在医学文本中,“轻度”的表达存在着多种形式。在英文文本中,它可能以“mild”,“slight”等形式出现;在中文文本中,它可能以“轻微”、“不明显”等形式出现。
具体的,首先建立不同属性标准取值的触发词数据库。所述触发词的来源主要来自两方面:一是来自于现有医学文本中提供的同义词;二是来自于文本标注过程中的积累。本发明中建立了56个不同属性标准取值的触发词。其中包括词语形式的触发词和数字形式的触发信号。
例如,对于表型出现的人群频率,在医学文本中常有百分之多少的患者可能出现某种症状的描述,则需要将百分比的具体数值转换为人群频率属性的标准取值。通过使用正则表达式“\d+(\.\d+)?%”识别医学文本中的百分比信号,并根据人类表型本体对人群频率的定义:将出现在80%以上人群的出现频率属性设置为常见;30%~80%设置为偶见;5%~30%设置为少见;5%以下设置为罕见。另外,“发热”这一术语在医学文本中常同样具有数值型的体温描述,以反映发热的严重程度。使用正则表达式“\d+(\.\d*)?(\s)?℃”识别体温,根据医学教科书的定义对不同的体温赋予“发热”不同的严重程度属性:其中37.5℃~38℃的发热标识为“轻度”;38.1~39℃的发热标识为“中度”;39.1℃以上的发热标识为“重度”。
在基于字符串扫描和正则表达式完成对句子中属性触发词的识别后,进一步分析表型概念是否位于触发词的作用范围内。不同属性的触发词具有不同的作用范围,若表型概念位于触发词范围内,则需要更改相应属性槽的取值。
具体地,在表型语义结构单元的12个属性中,存在情况、人群频率、发病年龄、发病性别、重症轻症这5个属性的触发词,其作用范围是在整个句子层面;其余属性的触发词,其作用范围限定在逗号分隔的子句层面。
例如,对于临床描述“在重症患者中,患者可能会出现腹痛、腹泻和乏力症状”,“重症”这一“重症轻症”属性的触发词,以及“可能”这一“存在情况”属性的触发词,对其后的“腹痛”、“腹泻”和“乏力”等表型都有作用。而对于临床描述,“患者通常出现一侧头痛,伴或不伴耳鸣”,“一侧”这一“偏侧性”属性的触发词,只对“头痛”这一表型发生作用。在算法实现上,首先将一个表型概念的12个属性都设置为默认值,其中“存在情况”属性的默认值是“存在”,其它属性的默认值是“None”;然后从左向右扫描表型概念所在上下文中的触发词;若表型概念在触发词的作用范围内,则找到该触发词对应的属性槽,并更改该属性槽的取值为该触发词对应的标准取值。
c)表型语义结构单元的交互校对
表型语义结构单元的自动识别算法不可能完全正确,所以需要进行人工校正。具体的,通过使用BRAT文本标注工具可视化展示表型语义结构单元的自动识别结果,专家通过标注工具对不正确的识别结果(表型概念识别不正确或属性槽填充不正确)进行人工校正。对于同一份医学文档,会有两名不同的专家进行校正。对于不一致的情况,组织专家进行讨论,并达成一致的标注,以最终生成高质量的、精标注的医学文本。
实际应用时,当完成临床指南的标注后,将标注文件从平台导出,完成相应感染疾病临床指南的细粒度语义结构化。每一份感染性疾病都将对应一份结构化文件。在结构化的文本中,不仅包含了表型概念的标注,还包含了表型概念属性的标注。
本发明尚有多种实施方式,凡采用等同变换或者等效变换而形成的所有技术方案,均落在本发明的保护范围之内。
Claims (9)
1.医学文本表型信息的语义结构化处理方法,其特征在于:包括如下步骤:
S1、构建表型语义结构单元;所述表型语义包括表型概念及其关联属性集合;
S11、建立标准化属性及其取值集合库;
S12、基于S11中建立的标准化属性及其取值集合库,获取疾病临床指南中存在的表型概念和属性术语,并将与表型概念共同出现在一个句子中的属性设置为表型的潜在关联属性;
S13、对潜在关联属性进行判别,确认关联的真实性,构建初始版本的表型语义结构单元;
S2、表型语义结构单元的自动识别;
S21、先进行表型概念识别;
S22、根据表型概念的上下文预测其关联属性,
S23、填充预定义的表型语义结构单元的属性槽。
2.根据权利要求1所述的医学文本表型信息的语义结构化处理方法,其特征在于:所述处理方法还包括,
S3、表型语义结构单元的交互校对
S31、使用BRAT文本标注工具可视化展示表型语义结构单元的自动识别结果;
S32、若识别结果有误,进行人工修改标注核实。
3.根据权利要求1所述的医学文本表型信息的语义结构化处理方法,其特征在于:所述S1中表型语义结构单元包括12种属性,且根据不同属性刻画表型特征分为三类:
第一类,刻画表型存在情况细节特征的属性:包括表型的存在情况、人群频率、发病年龄、发病性别和重症轻症;
第二类,刻画表型具体表现细节特征的属性:包括表型的缓急程度、严重程度、颜色外观和感觉性质;
第三类,刻画表型位置分布细节特征的属性:包括表型的分布特征、偏侧性和四分区。
4.根据权利要求1所述的医学文本表型信息的语义结构化处理方法,其特征在于:所述S21表型概念的识别包括如下步骤:
S211、建立不同属性标准取值的触发词数据库,所述触发词包括词语形式和数字形式的提示词;
S212、对句子中属性触发词进行识别,所述属性触发词是指表型语义结构单元中某一属性标准取值在医学文本中的提示词;
S213、分析判断表型概念是否位于触发词的作用范围内,若表型概念位于触发词范围内,则找到该触发词对应的属性槽,并更改该属性槽的取值为该触发词对应的标准取值;若表型概念在触发词范围外,则维持该属性槽的取值为默认值;除存在情况属性的默认取值为“存在”外,其余11个属性的默认取值为“None”。
5.根据权利要求1所述的医学文本表型信息的语义结构化处理方法,其特征在于:所述S1还包括表型语义结构单元调整优化步骤,
S14、通过对医学文档的迭代标注,检验表型语义结构单元对医学文本中表型知识的表达力,以对表型语义结构单元进行调整和优化。
6.根据权利要求4所述的医学文本表型信息的语义结构化处理方法,其特征在于:所述S211中包括56种不同属性标准取值的触发词。
7.根据权利要求1所述的医学文本表型信息的语义结构化处理方法,其特征在于:所述S21中表型概念的识别基于词典扫描医学文本中字符串的方法进行表型概念的识别;对于英文医学文本,使用MetaMap工具,自动识别医学文本中的表型概念;对于中文医学文本,使用结巴分词工具,通过将人类表型本体中文版配置为自定义词典,实现中文医学文本中表型概念的抽提。
8.根据权利要求1所述的医学文本表型信息的语义结构化处理方法,其特征在于:所述S11中标准化属性包括从国内外的医学本体和临床信息标准中搜集的342个属性。
9.根据权利要求5所述的医学文本表型信息的语义结构化处理方法,其特征在于:所述S14中医学文档包括临床指南、疾病百科。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011277020.5A CN112270965B (zh) | 2020-11-16 | 2020-11-16 | 医学文本表型信息的语义结构化处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011277020.5A CN112270965B (zh) | 2020-11-16 | 2020-11-16 | 医学文本表型信息的语义结构化处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112270965A true CN112270965A (zh) | 2021-01-26 |
CN112270965B CN112270965B (zh) | 2024-07-09 |
Family
ID=74340623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011277020.5A Active CN112270965B (zh) | 2020-11-16 | 2020-11-16 | 医学文本表型信息的语义结构化处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270965B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113488180A (zh) * | 2021-07-28 | 2021-10-08 | 中国医学科学院医学信息研究所 | 一种临床指南知识建模方法及系统 |
CN114818720A (zh) * | 2022-06-23 | 2022-07-29 | 北京惠每云科技有限公司 | 一种专病数据集构建方法、装置、电子设备及存储介质 |
CN116246701A (zh) * | 2023-02-13 | 2023-06-09 | 广州金域医学检验中心有限公司 | 基于表型术语和变异基因的数据分析装置、介质和设备 |
CN117973393A (zh) * | 2024-03-28 | 2024-05-03 | 苏州系统医学研究所 | 面向医学文本中关键医学信息的精准语义比对方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480131A (zh) * | 2017-07-25 | 2017-12-15 | 李姣 | 中文电子病历症状语义提取方法及其系统 |
US10146751B1 (en) * | 2014-12-31 | 2018-12-04 | Guangsheng Zhang | Methods for information extraction, search, and structured representation of text data |
CN109545373A (zh) * | 2018-11-08 | 2019-03-29 | 新博卓畅技术(北京)有限公司 | 一种人体疾病症状特征自动抽取方法、系统及设备 |
US20190114304A1 (en) * | 2016-05-27 | 2019-04-18 | Koninklijke Philips N.V. | Systems and methods for modeling free-text clinical documents into a hierarchical graph-like data structure based on semantic relationships among clinical concepts present in the documents |
-
2020
- 2020-11-16 CN CN202011277020.5A patent/CN112270965B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10146751B1 (en) * | 2014-12-31 | 2018-12-04 | Guangsheng Zhang | Methods for information extraction, search, and structured representation of text data |
US20190114304A1 (en) * | 2016-05-27 | 2019-04-18 | Koninklijke Philips N.V. | Systems and methods for modeling free-text clinical documents into a hierarchical graph-like data structure based on semantic relationships among clinical concepts present in the documents |
CN107480131A (zh) * | 2017-07-25 | 2017-12-15 | 李姣 | 中文电子病历症状语义提取方法及其系统 |
CN109545373A (zh) * | 2018-11-08 | 2019-03-29 | 新博卓畅技术(北京)有限公司 | 一种人体疾病症状特征自动抽取方法、系统及设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113488180A (zh) * | 2021-07-28 | 2021-10-08 | 中国医学科学院医学信息研究所 | 一种临床指南知识建模方法及系统 |
CN113488180B (zh) * | 2021-07-28 | 2023-07-18 | 中国医学科学院医学信息研究所 | 一种临床指南知识建模方法及系统 |
CN114818720A (zh) * | 2022-06-23 | 2022-07-29 | 北京惠每云科技有限公司 | 一种专病数据集构建方法、装置、电子设备及存储介质 |
CN116246701A (zh) * | 2023-02-13 | 2023-06-09 | 广州金域医学检验中心有限公司 | 基于表型术语和变异基因的数据分析装置、介质和设备 |
CN116246701B (zh) * | 2023-02-13 | 2024-03-22 | 广州金域医学检验中心有限公司 | 基于表型术语和变异基因的数据分析装置、介质和设备 |
CN117973393A (zh) * | 2024-03-28 | 2024-05-03 | 苏州系统医学研究所 | 面向医学文本中关键医学信息的精准语义比对方法及系统 |
CN117973393B (zh) * | 2024-03-28 | 2024-06-07 | 苏州系统医学研究所 | 面向医学文本中关键医学信息的精准语义比对方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112270965B (zh) | 2024-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270965A (zh) | 医学文本表型信息的语义结构化处理方法 | |
Pezoulas et al. | Medical data quality assessment: On the development of an automated framework for medical data curation | |
US10818397B2 (en) | Clinical content analytics engine | |
Hegazi et al. | Preprocessing Arabic text on social media | |
CN107562732B (zh) | 电子病历的处理方法及系统 | |
CN112597774B (zh) | 中文医疗命名实体识别方法、系统、存储介质和设备 | |
US10977444B2 (en) | Method and system for identifying key terms in digital document | |
Benton et al. | Identifying potential adverse effects using the web: A new approach to medical hypothesis generation | |
Pruss et al. | Zika discourse in the Americas: A multilingual topic analysis of Twitter | |
Dai et al. | Recognition and Evaluation of Clinical Section Headings in Clinical Documents Using Token‐Based Formulation with Conditional Random Fields | |
CN112241457A (zh) | 一种融合扩展特征的事理知识图谱事件检测方法 | |
CN109815341B (zh) | 一种文本抽取模型训练方法、文本抽取方法及装置 | |
Hammami et al. | Automated classification of cancer morphology from Italian pathology reports using Natural Language Processing techniques: A rule-based approach | |
CN111460173B (zh) | 一种甲状腺癌的疾病本体模型的构建方法 | |
Marciniak et al. | Terminology extraction from medical texts in Polish | |
Koza et al. | Automatic detection of negated findings in radiological reports for Spanish Language: Methodology Based on Lexicon-Grammatical Information Processing | |
CN112149411A (zh) | 一种抗生素临床使用领域本体构建方法 | |
CN111177309A (zh) | 病历数据的处理方法及装置 | |
Friedman | Semantic text parsing for patient records | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
JP2017167738A (ja) | 診断処理装置、診断処理システム、サーバ、端末装置、診断処理方法及びプログラム | |
Dontje et al. | Mapping evidence-based guidelines to standardized nursing terminologies | |
Nair et al. | Automated clinical concept-value pair extraction from discharge summary of pituitary adenoma patients | |
CN102184170A (zh) | 一种语素级临床汉语言解析的方法 | |
Aggarwal et al. | HEDEA: a Python tool for extracting and analysing semi-structured information from medical records |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |