CN112270965A

CN112270965A - 医学文本表型信息的语义结构化处理方法

Info

Publication number: CN112270965A
Application number: CN202011277020.5A
Authority: CN
Inventors: 蒋太交; 邓立宗
Original assignee: Suzhou Institute Of Systems Medicine
Current assignee: Suzhou Institute Of Systems Medicine
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-01-26
Anticipated expiration: 2040-11-16
Also published as: CN112270965B

Abstract

本发明公开了一种医学文本表型信息的语义结构化处理方法，通过构建表型语义结构单元、对表型语义结构单元的自动识别及对表型语义结构单元的交互校对得到更精细、更准确的疾病‑表型知识库。本发明突出效果为：能够对医学文本中的表型知识从语义层面进行更精确、更深入的结构化表征，对语义层面的细粒度表征更深入。本发明将能极大的促进我国医疗信息化和智能化事业的发展。

Description

医学文本表型信息的语义结构化处理方法

技术领域

本发明属于数据处理技术领域，尤其涉及一种医学文本表型信息的语义结构化处理方法。

背景技术

健康医疗大数据是我国重要的基础性战略资源，临床指南、电子病历等医学文本大数据是健康医疗大数据的重要组成部分。医学文本大数据中蕴含了丰富的诊疗信息，若能对这些信息加以有效利用，将极大的推动我国医疗信息化和智能化的发展。然而，医学文本大数据往往是以自由文本的形式存在，结构化和标准化程度低，这已经成为制约我国健康医疗大数据应用发展的瓶颈。突破这一瓶颈的关键就在于发展医学文本的结构化方法，将医学文本转化为计算机可理解的标准化、结构化的形式，从而系统提升现有医学文本大数据资源的价值。

现有的医学文本结构化方法主要是将医学文本表征为一系列的医学术语或医学概念的形式。具体而言，给定一篇流行性感冒的临床指南或电子病历，计算机将基于一套医学词典或医学本体扫描医学文本中的疾病、症状、药物等术语，最终将医学文本存储为术语表征的形式，实现医学文本的结构化处理。在结构化的疾病知识库中，我们看到流行性感冒的症状由“高热”、“头痛”、“乏力”等术语组成。这些术语还可通过医学本体获得唯一的概念编码，以规范同一医学概念在不同医学文本中的不同表达(如“头痛”和“头疼”)，从而在医学文本结构化的基础上进一步实现标准化。

医学文本的结构化本质上是对医学文本的重表征。理想情况下，医学文本的重表征应尽可能地重构出原始描述的完整语义，换言之，应可能地不丢失原始描述所表达的重要信息。然而，现有的基于医学术语的医学文本结构化方法却存在着无法重构原始描述完整语义的问题。其原因主要是传统方法仅仅关注了医学术语本身，而忽略了医学术语蕴含在上下文中的属性。例如，以在“患者突然出现剧烈右下部腹痛”的临床描述中，传统医学文本结构化方法仅能识别出“腹痛”，但显然原始描述并不仅仅只传递了“腹痛”这一信息，它还描述了“腹痛”的缓急程度(“突然出现”)、严重程度(“剧烈”)和相对位置(“右下腹”)。这些重要的细节信息对于疾病的鉴别诊断有巨大的价值，但却在结构化的过程中丢失了。在现有的医学文本结构化表征方法之下，医学知识的表达是非常不完整、不精确和粗粒度的，这将会为后续发展基于知识库的智能诊疗系统带来很大的问题。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的在于提供一种医学文本表型信息的语义结构化处理方法。

本发明的目的，将通过以下技术方案得以实现：

医学文本表型信息的语义结构化处理方法，包括如下步骤：

S1、构建表型语义结构单元；所述表型语义包括表型概念及其关联属性集合；

S11、建立标准化属性及其取值集合库；

S12、基于S11中建立的标准化属性及其取值集合库，获取疾病临床指南中存在的表型概念和属性术语，并将与表型概念共同出现在一个句子中的属性设置为表型的潜在关联属性；

S13、对潜在关联属性进行判别，确认关联的真实性，构建初始版本的表型语义结构单元；

S2、表型语义结构单元的自动识别；

S21、先进行表型概念识别；

S22、根据表型概念的上下文预测其关联属性，

S23、填充预定义的表型语义结构单元的属性槽。

优选地，所述处理方法还包括，

S3、表型语义结构单元的交互校对

S31、使用BRAT文本标注工具可视化展示表型语义结构单元的自动识别结果；

S32、若识别结果有误，进行人工修改标注核实。

优选地，所述S1中表型语义结构单元包括12种属性，且根据不同属性刻画表型特征分为三类：

第一类，刻画表型存在情况细节特征的属性：包括表型的存在情况、人群频率、发病年龄、发病性别和重症轻症；

第二类，刻画表型具体表现细节特征的属性：包括表型的缓急程度、严重程度、颜色外观和感觉性质；

第三类，刻画表型位置分布细节特征的属性：包括表型的分布特征、偏侧性和四分区。

优选地，所述S21表型概念的识别包括如下步骤：

S211、建立不同属性标准取值的触发词数据库，所述触发词包括词语形式和数字形式的提示词；

S212、对句子中属性触发词进行识别，所述属性触发词是指表型语义结构单元中某一属性标准取值在医学文本中的提示词；

S213、分析判断表型概念是否位于触发词的作用范围内，若表型概念位于触发词范围内，则找到该触发词对应的属性槽，并更改该属性槽的取值为该触发词对应的标准取值；若表型概念在触发词范围外，则维持该属性槽的取值为默认值；除存在情况属性的默认取值为“存在”外，其余11个属性的默认取值为“None”。

优选地，所述S1还包括表型语义结构单元调整优化步骤，

S14、通过对医学文档的迭代标注，检验表型语义结构单元对医学文本中表型知识的表达力，以对表型语义结构单元进行调整和优化。

优选地，所述S211中包括56种不同属性标准取值的触发词。

优选地，所述S21中表型概念的识别基于词典扫描医学文本中字符串的方法进行表型概念的识别；对于英文医学文本，使用MetaMap工具，自动识别医学文本中的表型概念；对于中文医学文本，使用结巴分词工具，通过将人类表型本体中文版配置为自定义词典，实现中文医学文本中表型概念的抽提。

优选地，所述S11中标准化属性包括从国内外的医学本体和临床信息标准中搜集的342个属性。

优选地，所述S14中医学文档包括临床指南、疾病百科。

本发明突出效果为：能够对医学文本中的表型知识进行更精确的结构化表征。对语义层面的细粒度表征更深入，通过12种属性记录表型不同侧面的细节特征，进而能得到更精细、更准确的疾病-表型知识库。本发明将能极大的促进我国医疗信息化和智能化事业的发展。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1是本发明表型语义结构单元的构建的结构示意图。

图2是使用本发明的表型语义结构单元表征表型知识的示例图。

图3是表型语义结构单元的自动识别算法原理图。

具体实施方式

本发明揭示了一种医学文本表型信息的语义结构化处理方法。其主要实现的是医学文本中表型信息的精准表征。在医学上，表型的概念涵盖了疾病、体征、症状、实验室检查结果和影像学检查结果等。

本发明的技术方案包含三个步骤，分别是a)表型语义结构单元的构建；b)表型语义结构单元的自动识别；c)表型语义结构单元的交互校对。通过这三个步骤，本发明能将一篇医学文本转化为以表型语义结构单元为基础的结构化表征，详细阐述如下：

a)表型语义结构单元的构建

参考“实体-属性-取值”模型，对表型概念的关联属性及属性的取值集合进行构建，以捕捉蕴含在表型概念上下文中的描述信息，从而通过属性的设置来刻画表型不同侧面的特征，例如表型的缓急程度、严重程度等等。所述表型语义结构单元是表型概念及其关联属性的集合。

使用一种基于统计的方法建模表型概念的关联属性，如图1所示。具体而言，首先系统地从国内外的医学本体和临床信息标准中搜集了342个属性，建立标准化的属性及其取值集合库；随后，基于人类表型本体和标准属性库，使用基于字符串的方法注释了200份疾病临床指南，获取其中存在的表型概念和属性术语，并将那些与表型概念共同出现在一个句子中的属性设置为表型的潜在关联属性；最后，对计算机找到的潜在关联属性进行人工判别，确认关联的真实性，构建初始版本的表型语义结构单元，并通过对医学文档的迭代标注，检验表型语义结构单元对医学文本中表型知识的表达力，以便对表型语义结构单元进行调整和优化。所述医学文档包括临床指南、疾病百科。

本发明中构建的表型语义结构单元包含12种属性。根据不同属性所刻画的表型特征，这12种属性可分为三类，分别是：

1、刻画表型存在情况细节特征的属性：这一类别的属性包括表型的存在情况、人群频率、发病年龄、发病性别和重症轻症。

2、刻画表型具体表现细节特征的属性：这一类别的属性包括表型的缓急程度、严重程度、颜色外观和感觉性质。

3、刻画表型位置分布细节特征的属性：这一类别的属性包括表型的分布特征、偏侧性和四分区。

以上12种表型关联属性的定义、来源和取值集合见表1。

表1.表型语义结构体中属性的定义、来源和取值集合。

在构建和定义好表型语义结构单元后，最终，医学文本结构化的任务就是以表型语义结构单元的模式对医学文本中的表型信息进行表征。例如，临床描述“患者突然出现剧烈右下部腹痛”，它的语义结构单元表征形式将是表型概念“腹痛”，加上“缓急程度：急性”，“严重程度：重度”和“四分区：右下”这三个属性的组合，结合图2所示。由此可知，相对于现有技术中单纯的基于表型术语的表征，表型语义结构单元的结构化形式对表型知识的刻画更为精细。

b)表型语义结构单元的自动识别

由于增加了对表型属性的考虑，所以表型语义结构单元的标注会比基于表型术语的标注更为复杂，更耗费时间。为了有效地减少标注表型语义结构单元的工作量，本发明对表型语义结构单元提出了识别算法。该识别算法包含两个部分，分别是表型概念的识别和属性槽的填充。

基于词典扫描医学文本中字符串的方法对表型概念进行识别。对于英文医学文本，使用MetaMap工具，自动地识别医学文本中的表型概念。对于中文医学文本，使用结巴分词工具，通过将人类表型本体中文版配置为自定义词典，实现中文医学文本中表型概念的抽提。

在识别得到一个表型概念后，根据表型概念的上下文预测其关联属性，填充预定义的表型语义结构单元的12个属性槽。本发明的算法基于属性触发词和触发范围规则，结合图3所示。属性触发词是指表型语义结构单元中某一属性标准取值在医学文本中的提示词。例如，“严重程度”属性的一个标准取值是“轻度”，但在医学文本中，“轻度”的表达存在着多种形式。在英文文本中，它可能以“mild”，“slight”等形式出现；在中文文本中，它可能以“轻微”、“不明显”等形式出现。

具体的，首先建立不同属性标准取值的触发词数据库。所述触发词的来源主要来自两方面：一是来自于现有医学文本中提供的同义词；二是来自于文本标注过程中的积累。本发明中建立了56个不同属性标准取值的触发词。其中包括词语形式的触发词和数字形式的触发信号。

例如，对于表型出现的人群频率，在医学文本中常有百分之多少的患者可能出现某种症状的描述，则需要将百分比的具体数值转换为人群频率属性的标准取值。通过使用正则表达式“\d+(\.\d+)？％”识别医学文本中的百分比信号，并根据人类表型本体对人群频率的定义：将出现在80％以上人群的出现频率属性设置为常见；30％～80％设置为偶见；5％～30％设置为少见；5％以下设置为罕见。另外，“发热”这一术语在医学文本中常同样具有数值型的体温描述，以反映发热的严重程度。使用正则表达式“\d+(\.\d*)？(\s)？℃”识别体温，根据医学教科书的定义对不同的体温赋予“发热”不同的严重程度属性：其中37.5℃～38℃的发热标识为“轻度”；38.1～39℃的发热标识为“中度”；39.1℃以上的发热标识为“重度”。

在基于字符串扫描和正则表达式完成对句子中属性触发词的识别后，进一步分析表型概念是否位于触发词的作用范围内。不同属性的触发词具有不同的作用范围，若表型概念位于触发词范围内，则需要更改相应属性槽的取值。

具体地，在表型语义结构单元的12个属性中，存在情况、人群频率、发病年龄、发病性别、重症轻症这5个属性的触发词，其作用范围是在整个句子层面；其余属性的触发词，其作用范围限定在逗号分隔的子句层面。

例如，对于临床描述“在重症患者中，患者可能会出现腹痛、腹泻和乏力症状”，“重症”这一“重症轻症”属性的触发词，以及“可能”这一“存在情况”属性的触发词，对其后的“腹痛”、“腹泻”和“乏力”等表型都有作用。而对于临床描述，“患者通常出现一侧头痛，伴或不伴耳鸣”，“一侧”这一“偏侧性”属性的触发词，只对“头痛”这一表型发生作用。在算法实现上，首先将一个表型概念的12个属性都设置为默认值，其中“存在情况”属性的默认值是“存在”，其它属性的默认值是“None”；然后从左向右扫描表型概念所在上下文中的触发词；若表型概念在触发词的作用范围内，则找到该触发词对应的属性槽，并更改该属性槽的取值为该触发词对应的标准取值。

c)表型语义结构单元的交互校对

表型语义结构单元的自动识别算法不可能完全正确，所以需要进行人工校正。具体的，通过使用BRAT文本标注工具可视化展示表型语义结构单元的自动识别结果，专家通过标注工具对不正确的识别结果(表型概念识别不正确或属性槽填充不正确)进行人工校正。对于同一份医学文档，会有两名不同的专家进行校正。对于不一致的情况，组织专家进行讨论，并达成一致的标注，以最终生成高质量的、精标注的医学文本。

实际应用时，当完成临床指南的标注后，将标注文件从平台导出，完成相应感染疾病临床指南的细粒度语义结构化。每一份感染性疾病都将对应一份结构化文件。在结构化的文本中，不仅包含了表型概念的标注，还包含了表型概念属性的标注。

本发明尚有多种实施方式，凡采用等同变换或者等效变换而形成的所有技术方案，均落在本发明的保护范围之内。

Claims

1.医学文本表型信息的语义结构化处理方法，其特征在于：包括如下步骤：

S11、建立标准化属性及其取值集合库；

S2、表型语义结构单元的自动识别；

S21、先进行表型概念识别；

S22、根据表型概念的上下文预测其关联属性，

S23、填充预定义的表型语义结构单元的属性槽。

2.根据权利要求1所述的医学文本表型信息的语义结构化处理方法，其特征在于：所述处理方法还包括，

S3、表型语义结构单元的交互校对

S32、若识别结果有误，进行人工修改标注核实。

3.根据权利要求1所述的医学文本表型信息的语义结构化处理方法，其特征在于：所述S1中表型语义结构单元包括12种属性，且根据不同属性刻画表型特征分为三类：

4.根据权利要求1所述的医学文本表型信息的语义结构化处理方法，其特征在于：所述S21表型概念的识别包括如下步骤：

5.根据权利要求1所述的医学文本表型信息的语义结构化处理方法，其特征在于：所述S1还包括表型语义结构单元调整优化步骤，

6.根据权利要求4所述的医学文本表型信息的语义结构化处理方法，其特征在于：所述S211中包括56种不同属性标准取值的触发词。

7.根据权利要求1所述的医学文本表型信息的语义结构化处理方法，其特征在于：所述S21中表型概念的识别基于词典扫描医学文本中字符串的方法进行表型概念的识别；对于英文医学文本，使用MetaMap工具，自动识别医学文本中的表型概念；对于中文医学文本，使用结巴分词工具，通过将人类表型本体中文版配置为自定义词典，实现中文医学文本中表型概念的抽提。

8.根据权利要求1所述的医学文本表型信息的语义结构化处理方法，其特征在于：所述S11中标准化属性包括从国内外的医学本体和临床信息标准中搜集的342个属性。

9.根据权利要求5所述的医学文本表型信息的语义结构化处理方法，其特征在于：所述S14中医学文档包括临床指南、疾病百科。