CN110263336A

CN110263336A - 一种构建乳腺超声领域本体的方法

Info

Publication number: CN110263336A
Application number: CN201910506556.0A
Authority: CN
Inventors: 陈德华; 刘淑君; 乐嘉锦; 张敬谊; 王晔; 张鑫金
Original assignee: WANDA INFORMATION CO Ltd; Donghua University
Current assignee: WANDA INFORMATION CO Ltd; Donghua University
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2019-09-20
Anticipated expiration: 2039-06-12
Also published as: CN110263336B

Abstract

本发明涉及一种构建乳腺超声领域本体的方法，包括以下步骤：对乳腺超声文本数据进行预处理；对预处理后的乳腺超声文本数据中的句子进行实体词的识别，并根据实体关系抽取算法获取实体关系三元组；将得到的实体关系三元组添加到乳腺超声领域本体的基础框架对应的节点下得到乳腺超声领域本体。本发明能够有效提高乳腺超声报告中的结构化水平。

Description

一种构建乳腺超声领域本体的方法

技术领域

本发明涉及医学领域本体构建技术领域，特别是涉及一种构建乳腺超声领域本体的方法。

背景技术

随着经济的发展、科技的进步，人们在不断追求物质生活水平提升的同时，因生活压力、工作忙碌等多种因素带来的健康问题也日益显著。对于女性而言，绝经期延后、晚生育、焦虑、不良情绪、高热量及高脂肪饮食等不健康的生活方式、外源性雌激素摄入增多(某些药物、保健品)等生活环境因素，使得乳腺疾病的发病率逐年上升，如乳腺增生、乳腺炎症、乳腺良性肿瘤、乳腺恶性肿瘤等疾病。其中，乳腺癌是全球女性最常见的癌症之一，占所有女性癌症的16％。每年全球新发乳腺癌的病例达到167.1万，死亡率高达52.2万，大多数乳腺癌死亡病例(69％)发生在发展中国家。

近年来，随着人工智能的兴起，深度学习已成为研究热点，许多学者和研究人员将深度学习的方法应用于非结构化医疗文本上，以构建疾病分类模型和预测模型。随着学者对结构化领域的不断深入研究，他们发现本体(Ontology)作为信息传播和交换的载体，能够清晰地表示概念语义和它们之间的关系，从而使本体驱动系统从非结构化文本中抽取出与模型匹配的数据，最终以本体的形式输出。本体驱动的信息抽取作为一大研究热点，逐渐受到越来越多的关注。

领域本体的构建是本体驱动信息抽取的核心，领域本体的好坏直接影响信息抽取和结构化结果的质量。医学领域本体描述了医学领域中的概念和关系，便于计算机理解语义信息，促进医学知识共享。目前，国内外研究人员对医学领域本体的构建进行了深入研究和实践，研究成果越来越丰富。在医学领域本体构建的研究上，国外的工作主要集中在术语制定和英文本体构建。美国国立医学图书馆研发了医学一体化语言系统(Unified MedicalLanguage System,UMLS)，该系统是医学领域最著名的概念语义模型之一，包含了不同领域的各种命名法和本体论的概要。美国病理学家学会创建了医学系统术语(SystematizedNomenclature ofMedicine-Clinical Terms)，该综合性临床术语集覆盖了有关临床医学的重要信息，包括疾病、临床表现、治疗等。国内对医学领域本体构建的研究工作，大多是借鉴国外已有的本体构建思想和理论，对中文医疗开展相关的研究。张巍和张绚等人提出了基于本体和案例推理的高血压诊疗系统模型，以辅助诊断和治疗高血压疾病。杨青等人采用斯坦福七步法构建了高血压本体并应用于智能检索。牟冬梅和范轶等人构建了心电图领域本体，用于对心脏病的诊断。刘智锋等人以国内糖尿病领域相关临床指南和领域专家知识为依据，抽取概念以及概念之间的关系，借鉴七步法和骨架法，构建了糖尿病领域本体库。浙江大学陈云志以肝炎疾病作为主要研究领域，探讨本体的构建方法和流程，利用本体构建工具实现肝炎本体构建。

发明内容

本发明所要解决的技术问题是提供一种构建乳腺超声领域本体的方法，有效提高乳腺超声报告中的结构化水平。

本发明解决其技术问题所采用的技术方案是：提供一种构建乳腺超声领域本体的方法，包括以下步骤：

(1)对乳腺超声文本数据进行预处理；

(2)对预处理后的乳腺超声文本数据中的句子进行实体词的识别，并根据实体关系抽取算法获取实体关系三元组；

(3)将得到的实体关系三元组添加到乳腺超声领域本体的基础框架对应的节点下得到乳腺超声领域本体。

所述步骤(1)包括以下子步骤：

(11)构建乳腺医学自定义词典，并使用该自定义词典对超声文本数据进行中文分词；

(12)针对乳腺超声文本数据中的同义词，采用Word2Vec模型，使用词向量表征词特征，构建同义词表，用出现频率最高的词替换超声文本数据中的其它同义词；

(13)根据乳腺病理学和解剖学的先验知识，获取乳腺超声领域本体的基础框架，对乳腺超声文本数据进行切分处理，并以切分后的文本描述块做为下一阶段的处理单位。

所述步骤(2)包括以下子步骤：

(21)通过深度学习和统计机器学习的方法，将条件随机场模型和双向长短记忆循环神经网络结合，抽取出预处理后的乳腺超声文本数据中的实体；

(22)通过定义组织实体与指标实体、指标实体与指标值实体之间的关系类型，设计关系抽取算法，根据规则得到实体关系三元组。

所述步骤(21)中的实体包括组织实体、指标实体和指标值实体。

所述步骤(21)中采用BIO经典标注法对训练集按字标注，使用Bi-LSTM-CRF模型进行训练，对预处理后的乳腺超声文本数据中的实体词进行识别。

所述步骤(22)中的规则如下：

(a)如果短句中存在组织实体E1和指标实体E2，则组织实体E1和指标实体E2形成实体关系三元组G(E1,E2,attributeOf)，其中，attributeOf表示指标关系；

(b)如果短句中存在指标实体E1和指标值实体E2，则指标实体E1和指标值实体E2形成实体关系三元组G(E1,E2,valueOf)，其中，valueOf表示指标值关系；

(c)如果该短句不存在组织实体，则选取上一短句中的组织实体作为该短句的组织实体；

(d)如果该短句不存在指标实体，则选取上一短句中的指标实体作为该短句的指标实体。

所述步骤(3)中将得到的实体关系三元组添加到乳腺超声领域本体的基础框架对应的节点下时，先添加含有指标关系的实体信息，再添加含有指标值关系的实体信息。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明构建了乳腺医学自定义词典，使得超声文本中的专业术语、指标词语和指标值词语能够被正确识别，有效提高了分词的准确率；对同义词做替换处理，减少了文本描述的冗余，降低了结构化的难度和词向量训练产生的噪音数据；采用XML表示乳腺超声领域本体，其层次结构可以清晰地表示乳腺各组织、领域本体树各节点之间的包含关系，通过对XML节点标签添加额外的属性、属性值等方式，可以详细地表示领域本体节点信息。

附图说明

图1为本发明的流程图；

图2为本发明中乳腺超声报告切分流程图；

图3为本发明中实体识别标注示例图；

图4为本发明中实体识别结果示例图；

图5为本发明中添加含有attribute关系的实体信息示意图；

图6为本发明中添加含有valueOf关系的实体信息示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种构建乳腺超声领域本体的方法，如图1所示，包括以下步骤：对乳腺超声文本数据进行预处理；对预处理后的乳腺超声文本数据中的句子进行实体词的识别，并根据实体关系抽取算法获取实体关系三元组；将得到的实体关系三元组添加到乳腺超声领域本体的基础框架对应的节点下得到乳腺超声领域本体。具体步骤如下：

步骤1对乳腺超声报告进行预处理，包括以下步骤：

步骤1.1在乳腺医学专家们的帮助下，构建乳腺医学自定义词典，使用该自定义词典对超声文本进行中文分词。

本实施方式采用综合多源乳腺医学数据信息，在乳腺医学专家们的帮助下，构建了乳腺超声自定义词典，自定义词典中，添加了“三维超声”、“三维彩色及能量多普勒超声”等乳腺医学专业术语，使得分词工具对乳腺超声文本做分词时，能够识别这些专业术语。

步骤1.2针对乳腺超声文本中的同义词现象，采用Word2Vec模型，使用词向量表征词特征，构建同义词表，用出现频率最高的词替换超声文本中的其它同义词。

Word2Vec是将词表征为实数值向量的一种算法模型，依据文本的词特征构建词向量，可以把对文本的处理转化为K维向量空间中的向量运算，用向量空间中向量的相似度表示文本词语的相似度。K维空间中的词向量距离越近，代表着其对应的词与词的语义相似度越高，词向量的距离可以用向量之间的余弦值表示，以此比较两个词之间的相似度。过多次实验和人工判别，最终将余弦相似度阈值设置为0.68，将两个词向量之间余弦值大于0.68的词语，归为同一类，以出现频率最高的词作为该类别的类名，构建同义词表，用类名替换文本中同类别的其它同义词。

步骤1.3根据乳腺病理学和解剖学的先验知识，获取乳腺超声领域本体的基础框架，对乳腺超声文本进行切分处理，并以切分后的文本描述块做为下一阶段的处理单位。

依据图2乳腺超声报告切分流程，可以对乳腺超声报告进行切分处理，得到各文本描述块。

例如报告“乳腺：腺体回声增多，回声分布不均匀，腺体表面光整，腺管局部扩张，CDFI：未见明显异常血流信号。左侧乳腺可见一低回声，位于近乳头约4点钟方向，大小约4.1×3.1mm，水平位生长，呈椭圆形，边界清晰，边缘界限清楚，分布尚均，未见明显钙化灶，后方回声无明显改变，CDFI示内未见明显血流信号。三维超声未显示团块边缘呈毛刺状或向周边不规则突起，未显示腺体和库氏韧带有异常聚集征象。双侧腋窝未见明显异常肿大淋巴结。”，按照本实施方式的方法和文本切分流程图，已做同义词替换出来的各文本描述块如表1所示：

表1乳腺超声文本切分示例(已做同义词替换处理)

步骤2实体识别和实体关系抽取，包括以下步骤：

步骤2.1通过深度学习和统计机器学习等方法，将条件随机场模型和双向长短记忆循环神经网络结合，抽取出上一文本描述块中的实体；

实体标注的格式为：{实体开始字符B-X 实体中间字符I-X 其它实体O...}，其中，“X”表示3种实体类别，“O”表示其它实体，实体词的第一个字符用“B”表示，实体词的中间字符用“I”表示。以“腺体回声增多，回声分布不均匀”为例，对其标注如图3所示。其中，实体包括组织实体ORG、指标实体ATT和指标值实体VAL。

本实施方式中采用BIO经典标注法对训练集按字标注，使用Bi-LSTM-CRF模型进行训练，经模型训练后，可以得到超声文本中组织、指标和指标值类实体词。“腺体背景”描述块“腺体回声增多，回声分布不均匀，腺体表面光整，腺管局部扩张，CDFI：未见明显异常血流信号。”为例，实体识别结果如图4所示。

步骤2.2通过定义组织实体与指标实体、指标实体与指标值实体之间的关系类型，设计关系抽取算法，根据规则得到实体关系三元组。具体规则如下：

根据上述规则和相关分析，可以得到实体关系三元组抽取算法如下：

对超声报告中的每个文本描述块执行上述算法，得到与文本描述块对应的实体关系三元组集合。以“腺体回声增多，回声分布不均匀，腺体表面光整，腺管局部扩张，CDFI：未见明显异常血流信号。”为例，其实体关系三元组集合如下表2所示。

表2实体关系三元组示例

序号	实体关系三元组
		1	(腺体，回声，attributeOf)
2	(回声，增多，valueOf)
		3	(腺体，回声分布，attributeOf)
4	(回声分布，不均匀，valueOf)
		5	(腺体，表面，attributeOf)
6	(表面，光整，valueOf)
		7	(腺管，扩张，attributeOf)
8	(扩张，局部，valueOf)
		9	(CDFI，血流信号，attributeOf)
10	(血流信号，未见明显异常，valueOf)

步骤3扩展乳腺超声领域本体基础框架

根据步骤2得到乳腺超声报告各文本描述块的实体关系三元组，按顺序添加至基础框架对应的节点下，以丰富和扩充领域本体的基础框架。其中，所述顺序是指先添加含有指标关系attributeOf的实体信息，再添加含有指标值关系valueOf的实体信息。

根据上述规则和相关分析，可以得到扩展领域本体基础框架的算法如下：

对超声报告中的每个文本描述块执行上述算法，得到乳腺超声领域本体。下面通过例子来说明扩展领域本体基础框架的过程。以上述报告为例，表2为该文本描述块对应的实体关系三元组集合，该集合包含attributeOf和valueOf两类实体关系。首先，将含有attributeOf类型的实体信息添加“左侧乳腺”-“腺体背景”节点下，添加含有attributeOf关系的实体信息如图5所示。

含有attributeOf关系的实体信息添加后，“左侧乳腺”-“腺体背景”节点下出现对应的指标节点。在此基础上，添加含有valueOf关系的实体信息，添加含有valueOf关系的实体信息如图6所示。

至此，“左侧乳腺”-“腺体背景”描述块的实体关系三元组信息，已添加至领域本体基础框架“左侧乳腺”-“腺体背景”节点下。接着，以同样的流程添加其它描述块的实体关系三元组信息，当超声报告的所有描述块均执行完后，便可得到乳腺超声领域本体。

不难发现，本发明构建了乳腺医学自定义词典，使得超声文本中的专业术语、指标词语和指标值词语能够被正确识别，有效提高了分词的准确率；对同义词做替换处理，减少了文本描述的冗余，降低了结构化的难度和词向量训练产生的噪音数据；采用XML表示乳腺超声领域本体，其层次结构可以清晰地表示乳腺各组织、领域本体树各节点之间的包含关系，通过对XML节点标签添加额外的属性、属性值等方式，可以详细地表示领域本体节点信息。

Claims

1.一种构建乳腺超声领域本体的方法，其特征在于，包括以下步骤：

(1)对乳腺超声文本数据进行预处理；

2.根据权利要求1所述的构建乳腺超声领域本体的方法，其特征在于，所述步骤(1)包括以下子步骤：

3.根据权利要求1所述的构建乳腺超声领域本体的方法，其特征在于，所述步骤(2)包括以下子步骤：

4.根据权利要求3所述的构建乳腺超声领域本体的方法，其特征在于，所述步骤(21)中的实体包括组织实体、指标实体和指标值实体。

5.根据权利要求3所述的构建乳腺超声领域本体的方法，其特征在于，所述步骤(21)中采用BIO经典标注法对训练集按字标注，使用Bi-LSTM-CRF模型进行训练，对预处理后的乳腺超声文本数据中的实体词进行识别。

6.根据权利要求3所述的构建乳腺超声领域本体的方法，其特征在于，所述步骤(22)中的规则如下：

7.根据权利要求1所述的构建乳腺超声领域本体的方法，其特征在于，所述步骤(3)中将得到的实体关系三元组添加到乳腺超声领域本体的基础框架对应的节点下时，先添加含有指标关系的实体信息，再添加含有指标值关系的实体信息。