CN112163407A - 一种基于语义依存关系的医疗文本标注方法 - Google Patents

一种基于语义依存关系的医疗文本标注方法 Download PDF

Info

Publication number
CN112163407A
CN112163407A CN202011175306.2A CN202011175306A CN112163407A CN 112163407 A CN112163407 A CN 112163407A CN 202011175306 A CN202011175306 A CN 202011175306A CN 112163407 A CN112163407 A CN 112163407A
Authority
CN
China
Prior art keywords
semantic
graph
dependencies
dependency
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011175306.2A
Other languages
English (en)
Inventor
曾健骏
阮彤
叶琪
翟洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Original Assignee
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology filed Critical East China University of Science and Technology
Priority to CN202011175306.2A priority Critical patent/CN112163407A/zh
Publication of CN112163407A publication Critical patent/CN112163407A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明提供了一种基于语义依存关系的医疗文本标注方法,包括以下步骤:分析医疗文本中的语义依存类型,得到三类语义依存类型:基于主体的语义依存、基于关系或动作的语义依存和基于修饰的语义依存;分析医疗文本中的语义特点,得到三类语义特点:语义嵌套关系、语义远程依赖和语义并列关系;根据医疗文本中的语义依存类型和语义特点,结合标注需求,制定五类模板语义图:身体结构实体语义图、关系描述语义图、属性描述语义图、手术操作语义图和影像诊断语义图;进行文本标注。

Description

一种基于语义依存关系的医疗文本标注方法
技术领域
本申请涉及自然语言处理和医疗大数据领域,尤其涉及一种基于语义依存关系的医疗文本标注方法。
背景技术
医疗机构在治疗的过程中,产生了大量医疗文本,医疗文本蕴含丰富的医疗信息。研究医疗文本的语义描述,对包括医疗辅助决策,治疗效果预测,病人生存率预测等后续下游任务,具有重要意义。
语义依存分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。语义依存分析目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息。
常见的医疗文本标注方法包括命名实体标注,事件标注。命名实体标注不包括实体间关系,事件描述实体的简单关系,两者都无法覆盖医疗文本中复杂语义关系。本专利提出一种基于语义依存关系的医疗文本标注方法,能够有效标注医疗文本中复杂的语义信息,对提升下游任务的性能具有重要意义。
发明内容
为了提升下游任务的性能,更好地描述医疗实体的语义依存关系,本专利申请一种基于语义依存关系的医疗文本标注方法,包含以下步骤:
步骤一:分析医疗文本中的语义依存类型,得到三类语义依存类型:基于主体的语义依存、基于关系或动作的语义依存和基于修饰的语义依存;
基于主体的语义依存,其包含以下实体或关系:一个客观存在实体作为核心主体词、一个属性名称和一个属性值,存在隐式提示属性名称的情况;
基于关系或动作的语义依存,其包含以下实体或关系:一个关系词,其作用于一个或多个客观存在实体,存在隐式提示施事实体的情况;
基于修饰的语义依存,其包含以下实体或关系:客观存在实体作为核心主体词,其他实体修饰作为修饰词该主体;
步骤二:分析医疗文本中的语义特点,得到三类语义特点:语义嵌套关系、语义远程依赖和语义并列关系;
语义嵌套存在于以下情况:基于主体的语义依存和基于关系或动作的语义依存中的客观存在实体是基于修饰的语义依存。
语义远程依赖存在于以下情况:基于修饰的语义依存中,修饰词与主体词间隔其他语义词。
语义并列存在于以下情况:多个基于主体的语义依存中,共用一个主体;基于关系或动作的语义依存中,共用一个动作;基于修饰的语义依存,共用一个修饰词。
步骤三:根据医疗文本中的语义依存类型和语义特点,结合标注需求,制定五类模板语义图:身体结构实体语义图、关系描述语义图、属性描述语义图、手术操作语义图和影像诊断语义图;
身体结构实体语义图基于修饰的语义依存,具有语义远程依赖,语义并列的特点,用于描述医学部位实体名称,由修饰词和身体结构核组成,允许跨文本标注的身体结构语义实体;
关系描述语义图基于关系或动作的语义依存,具有语义并列,语义嵌套的特点,用于描述两个医学实体的关系,由一个否定词、一个程度词、一个身体结构实体作为关系施加主体、一个关系词、一个关联身体结构实体作为关系受施主体组成;
属性描述语义图,基于主体的语义依存,具有语义并列,语义嵌套的特点,用于描述医学部位的属性,由一个否定词、一个程度词、一个身体结构作为主体、一个属性名称、一个属性值组成;
手术操作语义图是一类特殊关系描述语义图,用于描述手术操作,由一个否定词、一个程度词、多个操作路径、多个所用器械、多个所用药品、一个身体结构实体作为操作受施主体组成;
影像诊断语义图是一类特殊属性描述语义图,用于描述影像诊断,由一个诊断或疾病、一个否定词、一个程度词、一个趋势词、一个可能性词、一个相较的前时间点词、一个检查部位方法和视图词组成。
步骤四:进行文本标注。
上述技术方案中的语义依存关系的医疗文本标注方法,首先分析医疗文本中的语义依存类型和语义特点,然后分析医疗文本中的语义特点,根据医疗文本中的语义依存类型和语义特点,结合标注需求,制定五类模板语义图,最后进行标注。不同于常见的命名实体标注和事件标注,本发明利用医疗文本的语义特点和语义依存类型进行标注,从而更多地覆盖医疗文本中复杂语义关系,对提升下游任务的性能具有重要意义。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图和本说明书获得其他的附图。
图1为本申请的一种基于语义依存关系的医疗文本标注方法;
图2为关系描述类型语义图;
具体实施方式
下面对本发明做进一步说明。
步骤一:分析医疗文本中的语义依存类型,得到三类语义依存类型:基于主体的语义依存、基于关系或动作的语义依存和基于修饰的语义依存;
基于主体的语义依存,其包含以下实体或关系:一个客观存在实体作为核心主体词、一个属性名称和一个属性值。例如“右下肺叶肿块,约3*2cm大小”中,“右下肺叶肿块”是核心主体词,“3*2cm”是属性值,“大小”是属性名称。此外存在隐式提示属性名称的情况,如“大便黑”中,“大便”是为核心主体词,“黑”是属性值,隐式提示属性名称为“颜色”。
基于关系或动作的语义依存,其包含以下实体或关系:一个关系词或动作词作用于一个或多个客观存在实体。“肿块累及脏层胸膜。”中,“肿块”是施事主体,“累及”是关系词,“脏层胸膜”是受施主体词。此外存在隐式提示施事实体的情况,例如“于右胸第4肋腋前线作小切口”中,“右胸第4肋腋前线”是受施主体词,作小切口是动作词,隐式提示施事实体是“医生”。
基于修饰的语义依存,其包含以下实体或关系:客观存在实体作为核心主体词,其他实体修饰作为修饰词该主体。例如“进胸后探及右下肺叶肿块”中,“右下肺叶”是修饰词,“肿块”是核心主体词。
步骤二:分析医疗文本中的语义特点,得到三类语义特点:语义嵌套关系、语义远程依赖和语义并列关系。
语义嵌套存在于以下情况:基于主体的语义依存和基于关系或动作的语义依存中的客观存在实体允许存在基于修饰的语义依存。“右下肺叶肿块,约3*2cm大小”是一个基于主体的语义依存。例如“右下肺叶肿块”作为核心主体词中存在基于修饰的语义依存,“右下肺叶”是修饰词,“肿块”是核心主体词。
语义远程依赖存在于以下情况:基于修饰的语义依存允许修饰词与主体词间隔其他语义词。例如“分别于右胸第4肋腋前线,第7腋中线作小切口”中,“第7腋中线”是核心主体词,“右胸”是修饰词,中间间隔“第4肋腋前线”。
语义并列存在于以下情况:多个基于主体的语义依存或基于关系或动作的语义依存共用一个主体,如“肿块位于右肺上叶尖段,直径约1.0cm,质地硬”中,两个基于主体的语义依存和一个基于关系的语义依存共用一个主体“肿块”;基于修饰的语义依存共用一个修饰词,例如“分别于右胸第4肋腋前线,第7腋中线作小切口”中,两个基于修饰的语义依存共用修饰词“右胸”。
步骤三:面向标注需求,根据语义类型和语义特点,制定模板语义图;模板语义图包括五类:身体结构实体语义图、关系描述语义图、属性描述语义图、手术操作语义图和影像诊断语义图;针对常见的语义类型,在模板语义图中制定标签槽,标签槽隐式表示中心实体和该实体的关系。
身体结构实体语义图由修饰词和身体结构核组成,允许跨文本标注的身体结构语义实体。例如“右下肺叶肿块”中,“右下肺叶”是修饰词,“肿块”是核心主体词;
关系描述语义图由一个否定词、一个程度词、一个身体结构实体作为关系施加主体、一个关系词、一个关联身体结构实体作为关系受施主体组成。例如“肿块累及脏层胸膜。”中,“肿块”是施事主体,“累及”是关系词,“脏层胸膜”是受施主体词,否定词和程度词为空;
属性描述语义图由一个否定词、一个程度词、一个身体结构作为主体、一个属性名称、一个属性值组成。例如“右下肺叶肿块,约3*2cm大小”中,“右下肺叶肿块”是核心主体词,“3*2cm”是属性值,“大小”是属性名称,否定词和程度词为空;
手术操作语义图一类特殊关系描述语义图,用于描述手术操作,由一个否定词、一个程度词、多个操作路径、多个所用器械、多个所用药品、多个受施身体结构实体作为操作受施主体。例如“以EC60切割缝合器切断上叶尖段肺静脉”中,“EC60切割缝合器”是所用器械,“上叶尖段肺静脉”是受施身体结构实体;
影像诊断语义图是一类特殊属性描述语义图,用于描述影像诊断,由一个诊断或疾病、一个否定词、一个程度词、一个趋势词、一个可能性词、一个相较的前时间点词、一个检查部位方法和视图词组成。例如“较05.11.29老片病灶明显好转”中,“05.11.29”是相较的前时间点,“病灶”是疾病,“明显”是程度词,“趋势”是好转。
步骤四:进行文本标注。

Claims (4)

1.一种基于语义依存关系的医疗文本标注方法,其特征在于,包括以下步骤:
步骤一:分析医疗文本中的语义依存类型,得到三类语义依存类型:基于主体的语义依存、基于关系或动作的语义依存和基于修饰的语义依存;
步骤二:分析医疗文本中的语义特点,得到三类语义特点:语义嵌套关系、语义远程依赖和语义并列关系;
步骤三:根据医疗文本中的语义依存类型和语义特点,结合标注需求,制定五类模板语义图:身体结构实体语义图、关系描述语义图、属性描述语义图、手术操作语义图和影像诊断语义图;
步骤四:进行文本标注,得到标注后的医疗语料。
2.根据权力要求1所述的语义依存关系的医疗文本标注方法,其特征在于,步骤一,分析医疗文本中的语义依存类型,得到三类语义依存类型:基于主体的语义依存、基于关系或动作的语义依存和基于修饰的语义依存,其特征还包括:
主体语义依存,其特征为包含以下实体或关系:一个客观存在实体作为核心主体词、一个属性名称和一个属性值;
关系或动作语义依存,其特征为包含以下实体或关系:一个关系词,其作用于一个或多个客观存在实体;
修饰语义依存,其特征为:包含以下实体或关系:客观存在实体作为核心主体词,其他实体修饰作为修饰词该主体;基于修饰的语义依存,共用一个修饰词。
3.根据权力要求1所述的语义依存关系的医疗文本标注方法,其特征在于,步骤二,分析医疗文本中的语义特点,得到三类语义特点:语义嵌套关系、语义远程依赖和语义并列关系,其特征包括:
语义嵌套,其特征为基于主体的语义依存和基于关系或动作的语义依存中的客观存在实体中,允许存在基于修饰的语义依存。
语义远程依赖,其特征为基于修饰的语义依存中,允许修饰词与主体词间隔其他语义词。
语义并列,其特征为多个基于主体的语义依存中,共用一个主体;基于关系或动作的语义依存中,共用一个动作。
4.根据权力要求1所述的语义依存关系的医疗文本标注方法,其特征在于,步骤三,根据医疗文本中的语义依存类型和语义特点,结合标注需求,制定五类模板语义图:身体结构实体语义图、关系描述语义图、属性描述语义图、手术操作语义图和影像诊断语义图,其特征包括:
身体结构实体语义图基于修饰的语义依存,具有语义远程依赖,语义并列的特点,用于描述医学部位实体名称;
关系描述语义图基于关系或动作的语义依存,具有语义并列,语义嵌套的特点,用于描述两个医学实体的关系;
属性描述语义图基于主体的语义依存,具有语义并列,语义嵌套的特点,用于描述医学部位的属性;
手术操作语义图是一类特殊关系描述语义图,用于描述手术操作;
影像诊断语义图是一类特殊属性描述语义图,用于描述影像诊断。
CN202011175306.2A 2020-10-29 2020-10-29 一种基于语义依存关系的医疗文本标注方法 Pending CN112163407A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011175306.2A CN112163407A (zh) 2020-10-29 2020-10-29 一种基于语义依存关系的医疗文本标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011175306.2A CN112163407A (zh) 2020-10-29 2020-10-29 一种基于语义依存关系的医疗文本标注方法

Publications (1)

Publication Number Publication Date
CN112163407A true CN112163407A (zh) 2021-01-01

Family

ID=73865072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011175306.2A Pending CN112163407A (zh) 2020-10-29 2020-10-29 一种基于语义依存关系的医疗文本标注方法

Country Status (1)

Country Link
CN (1) CN112163407A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007065029A (ja) * 2005-08-29 2007-03-15 Nippon Hoso Kyokai <Nhk> 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム
CN106991015A (zh) * 2017-03-17 2017-07-28 浙江大学 一种基于消息语义标注的医疗信息系统集成监控方法
CN107610740A (zh) * 2017-07-27 2018-01-19 康美健康云服务有限公司 用于医疗的语义分析方法、电子设备、存储介质以及系统
CN108491472A (zh) * 2018-03-07 2018-09-04 新博卓畅技术(北京)有限公司 一种基于crf++分词构建医疗特征库的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007065029A (ja) * 2005-08-29 2007-03-15 Nippon Hoso Kyokai <Nhk> 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム
CN106991015A (zh) * 2017-03-17 2017-07-28 浙江大学 一种基于消息语义标注的医疗信息系统集成监控方法
CN107610740A (zh) * 2017-07-27 2018-01-19 康美健康云服务有限公司 用于医疗的语义分析方法、电子设备、存储介质以及系统
CN108491472A (zh) * 2018-03-07 2018-09-04 新博卓畅技术(北京)有限公司 一种基于crf++分词构建医疗特征库的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周晓进等: "面向中文电子病历的多粒度医疗实体识别", 计算机科学, vol. 48, no. 4, pages 237 - 242 *

Similar Documents

Publication Publication Date Title
JP7008772B2 (ja) 電子診療レコードからの医学的状態および事実の自動的特定および抽出
Bustos et al. Padchest: A large chest x-ray image dataset with multi-label annotated reports
US8498870B2 (en) Medical ontology based data and voice command processing system
CN110277149A (zh) 电子病历的处理方法、装置及设备
US20090299977A1 (en) Method for Automatic Labeling of Unstructured Data Fragments From Electronic Medical Records
Nikolov et al. Data-driven summarization of scientific articles
CN109920540A (zh) 辅助诊疗决策系统的构建方法、装置及计算机设备
JP7464800B2 (ja) 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム
EP3100190A1 (en) A context sensitive medical data entry system
Rector Description logics in medical informatics
Kirchhoff et al. Unsupervised resolution of acronyms and abbreviations in nursing notes using document-level context models
Abbas et al. Clinical concept extraction with lexical semantics to support automatic annotation
Lamba et al. Predictive analytics and machine learning for medical informatics: A survey of tasks and techniques
Bachleitner et al. Autologous unilateral breast reconstruction with venous supercharged IMAP-flaps: a step by step guide of the split breast technique
CN112163407A (zh) 一种基于语义依存关系的医疗文本标注方法
Fisher et al. Why is inflectional morphology difficult to borrow?—Distributing and lexicalizing plural allomorphy in Pennsylvania Dutch
van Mens et al. Clarifying diagnoses to laymen by employing the SNOMED CT hierarchy
Jebadas et al. Histogram distance metric learning to diagnose breast cancer using semantic analysis and natural language interpretation methods
Clarkson et al. Variation in the representation of human anatomy within digital resources: Implications for data integration
Ceusters et al. Syntactic-semantic tagging of medical texts: The Multi-TALE Project
Lin et al. A top-down binary hierarchical topic model for biomedical literature
Li et al. A medical specialty outpatient clinics recommendation system based on text mining
Kocijan et al. Detecting Latin-based medical terminology in Croatian texts
EP4270402A1 (en) Genogram creation and diagnosis
CN103530513A (zh) 一种实现电子病历快速录入的输入系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination