CN112149411A

CN112149411A - 一种抗生素临床使用领域本体构建方法

Info

Publication number: CN112149411A
Application number: CN202010999447.XA
Authority: CN
Inventors: 杨长春; 葛天一; 王晖
Original assignee: Changzhou University; CERNET Corp
Current assignee: Changzhou University; CERNET Corp
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2020-12-29
Anticipated expiration: 2040-09-22
Also published as: CN112149411B

Abstract

本发明涉及一种抗生素临床使用领域本体构建方法，包括以下步骤：步骤1、构建领域雏形本体，收集领域相关文本；步骤2、对领域文本进行预处理；步骤3、列举抗生素名称、使用剂量、过敏反应作为重要术语，通过拼音来识别文本中与列举术语等义的音译词，采用等义词聚类方法获取实例；步骤4、利用神经网络模型抽取实例关系；步骤5、根据已构建的雏形本体，结合新获得的实例与实例关系，构建完整的抗生素临床使用领域本体。本发明以汉语拼音为基础，分辨同音等义实体集，有效解决抗生素临床使用领域中的识别问题，提高了实体识别准确率；使用基于神经网络的方法进行抗生素临床使用领域中实体关系的抽取，提高了大规模实体关系抽取的效率。

Description

一种抗生素临床使用领域本体构建方法

技术领域

本发明涉及医药技术领域，尤其是一种抗生素临床使用领域本体构建方法。

背景技术

据世界卫生组织统计，抗生素使用不当是引起医疗事故致死事件的第二大原因。为了应对这个严重的问题，国内医生开具抗生素时依赖于抗生素使用指南。不幸的是，由于患者可能拥有特殊体质与疾病，以及服用其他与抗生素冲突的药物，使用抗生素会给该类患者带来毒性与过敏反应。由于病患个人病史等不包含于指南的信息仍然会导致严重的医疗事故，因此医生在临床用药过程中需要更可靠的帮助。目前，基于医药领域本体的临床决策支持系统，可以在医生的临床用药过程中提供药物推荐与用药解释服务，此类系统的可靠性依赖于系统中医药领域本体的质量。

抗生素临床使用领域本体需要包含病患信息、药品信息、用药知识。患者的疾病史、药物过敏史与药物使用史广泛的包含于个人电子病历，同时大量的医学文献与专利也记载了抗生素与其他药物的相互作用，这些信息源蕴含的大量的领域知识，可以满足抗生素临床使用领域本体的构建。

现有技术中，一般采用深度神经网络识别文本中的领域概念,使用聚类算法对本体概念进行层级划分,从而高效地构建领域本体。

也有提出一种基于马尔科夫聚类算法的领域本体构建方法，在概念、实例抽取的过程中取得了较好的词义消歧效果。

同时，发明专利(CN201810120429.2)从电子病历、生物医学文献、生物医药专利和网络论坛数据等数据源中抽取医学领域本体，首先列举疾病、症状、科室、药物、检测和基因等一系列生物医学概念，并通过神经网络模型提取概念间的关系，构建生物医学领域本体。

发明专利(CN201710250985.7)针对现有医学领域本体缺乏人体基因学信息的问题，列举基因学知识术语，明确基因学领域重要概念、实例，通过中间扩展法构建人体基因学领域本体。

发明专利(CN106933983A)从中医药文献中提取出知识元，构建中医药知识图谱，在此基础上生成由知识元构成的有向加权网络，结合深度学习技术，利用各知识元的距离信息，提高了对常用中药语义检索的效果。

综上所述，目前医药领域的本体构建方法存在下列问题：(1)医药领域(包括抗生素)有大量的音译词，因此一个抗生素临床使用领域实例可能有不同的表达方法。在基于文本的医药领域本体构建工作中，通过传统的术语列举方法无法很好地解决此问题；(2)传统的医药领域本体构建工作中，通常靠专家手动标注或者依靠语言模板来进行实例之间的关系抽取。专家手动标注虽然准度较高，但花费的时间成本较大；人工设计的语言模板也无法考虑到所有情况。因而，医药领域本体构建工作中大规模的实体关系抽取仍然未能得到有效解决。

发明内容

本发明要解决的技术问题是：为了克服现有技术中之不足，本发明提供一种抗生素临床使用领域本体构建方法，其基于中文拼音序列识别以及神经网络模型，可以从使用指南、电子病历、医学文献等非结构化文本中获取知识，从而构建抗生素临床使用领域本体。

本发明解决其技术问题所采用的技术方案是：一种抗生素临床使用领域本体构建方法，具有以下步骤：

步骤1、结合先验知识，明确待构建抗生素临床使用领域本体需要包含的基础概念，使用基本概念构建雏形本体，并收集领域内相关文本；

步骤2、使用自然语言处理NLP工具对相关文本进行预处理；

步骤3、首先采用基于中文拼音的等义音译词识别方法发现文本中的等义音译词集合，接着对每个等义词集合根据统计特征选出代表词；

步骤4、抽取两个实例之间的关系；

步骤5、将步骤3、4中抽取出来的实例以及实例之间的关系进行整合，先将实例分配到雏形本体中各自所属的本体类别；再在实例间使用之前抽取的实例关系进行关系扩展，形成最终的抗生素临床使用领域本体。

所述的步骤1中，根据先验知识，总结出抗生素临床使用领域基础概念为：抗生素、患处、致病微生物、并发症、毒性反应、过敏反应、病患曾用药、病患其他疾病，使用上述基础概念构建抗生素临床使用领域雏形本体。

所述步骤2中，预处理部分根据句子分隔符“.”、“；”、“！”来分割中文文本，在获得单个完整的句子后，使用分词工具对这些句子进行分词、去除停止词及词性标注工作。

所述步骤3中，具体包括以下分步骤：

步骤3.1、首先使用基于拼音序列识别的方法，判断两个词是否为等义音译词；

步骤3.2、相同含义的音译词通过等义识别后，将其分到相应的等义音译词集合，应用统计特征，在等义音译词集合中选出在文本中出现频率最高的音译代表词，将该词作为实例在领域本体中的名称。

所述步骤4中，具体包括以下分步骤：

步骤4.1、首先找到收集的文本中所有包含这两个实例的句子,为每个目标实例对构建对应的句子集合，将句中词语的向量化表示与句中目标实例对的距离进行拼接，获取得到该句子的局部特征；

步骤4.2、将句子的局部特征输入BiLSTM模型；

步骤4.3、将BiLSTM模型输出进行最大池化操作，得到句子的整体特征；

步骤4.4、将句子整体特征输入softmax分类器进行关系分类，得到句中两个目标实例之间的关系，最后通过统计的方法，获得目标实例对的最终关系。

本发明的有益效果是：本发明以汉语拼音为基础，分辨同音等义实体集，有效解决抗生素临床使用领域中音译等义实体的识别问题，提高了实体识别的准确率；同时，本发明使用了基于神经网络的方法进行抗生素临床使用领域中实体关系的抽取，非常经济地提高了大规模实体关系抽取的效率。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明的流程框图。

图2是本发明所述雏形本体的概念图。

图3是本发明中实例抽取的流程图。

图4是本发明计算两个拼音序列编辑距离计算的伪代码。

图5是本发明中实例关系抽取部分的流程图。

图6是本发明中BilSTM的结构图。

图7是青霉素与头孢西丁实例图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1所示，一种抗生素临床使用领域本体构建方法，具有以下步骤：

S1:明确待构建抗生素临床使用领域本体需要包含的基础概念，使用基本概念构建雏形本体，并收集领域内相关文本。

由于领域本体是用于描述某领域中概念和概念之间的关系，所以要构建领域本体首先需要明确待构建本体中涉及的领域基础概念，为此根据先验知识，总结得到抗生素临床使用领域基础概念为：抗生素、患处、致病微生物、并发症、毒性反应、过敏反应、病患曾用药、病患其他疾病等，使用这些基本概念构建构建雏形本体。

如图2所示，抗生素临床使用领域相关文本中蕴含的知识可以满足领域本体构建的需求，本发明所收集的相关文本为抗生素临床使用指南、个人电子病历、医学文献与专利。

S2:使用自然语言处理NLP工具对相关文本进行预处理；使用Jieba解析输入文本中的每个句子，根据句子分隔符“.”、“；”、“！”等来分割中文文本，在获得单个完整的句子后，使用分词工具对这些句子进行分词、去除停止词、词性标注等工作(操作如下)；

S3:首先采用基于中文拼音的等义音译词识别方法发现文本中的等义音译词集合，接着对每个等义词集合根据统计特征选出代表词。

实例抽取步骤分为等义音译词识别与实例命名两部分，如图3所示，抗生素临床使用领域存在大量的音译词，一个实例可能存在多个音译，即不同的音译词可能存在等义关系。该步骤使用了基于中文拼音的等义音译词识别方法，应用汉语特有的拼音序列，实现了抗生素临床使用领域等义音译词的识别。将识别的等义音译词划分到相应的等义音译词集合，应用统计特征。在等义音译词集合中选出在文本中出现频率最高的音译代表词，将该词作为实例在领域本体中的名称，具体又细分为以下分步骤：

S3.1：本发明结合领域专家指导，列举出较重要的领域术语(如抗生素名称、细菌名称、具体症状名称、病患家族遗传病名称以及某些抗生素产生过敏反应的发生机制等等)，构建领域术语集。由于医药领域包含大量音译词(如盘尼西林有配尼西林等音译)，不同的文本对同一实例的音译可能有所不同，然而传统的列举方法无法列举出所有的音译词。因此文本中不直接包括在术语集中的词语需要经过进一步判定是否为词集中术语的等义音译词；拼音是汉语独有的特征，拼音可以消除音译带来的差异。本发明获取文本中词汇的拼音信息，忽略四声的变化，接着采用编辑距离计算方法计算两个拼音序列之间的编辑距离值，进而判断词语是否与术语集中术语为等义词。具体说，在获取两个术语a、b的拼音序列后A、B后，使用公式(1)计算a、b之间的相似性，其中EditDist(A,B)为两拼音序列的编辑距离，MaxLength(A,B)为两拼音序列长度的最大值。如果计算结果大于设定阈值，则判定两词为等义词。图4为计算两个拼音序列编辑距离计算的伪代码；

S3.2：实例是构建领域本体的基础，表示同一意义的音译词通过等义识别后，将其划分到相应等义音译词集合。每一个集合中的词都为一个实例的不同音译，因此使用基于统计的方法，选出一个实例在文本中出现频率最高的音译，作为该实例在领域本体中的名称(示例如下)；

等义音译词集合(实例的音译)	领域本体中的实例名称
		阿米卡星、安卡星、安乐卡星	阿米卡星
阿莫西林、安莫西林、安默西林	阿莫西林
		盘尼西林、配尼西林、peillin G	盘尼西林

S4:抽取两个实例之间的关系：是指抽取领域本体实例之间的关系。本发明中的实例关系定义为：病变部位、治疗、致病因素、拥有治疗药物、产生毒性反应、产生过敏反应、拥有并发症基其他。通过输入包含目标实例对的句子局部特征，使用BiLSTM模型对输入信息进行分析，获取句子整体特征，再将其导入分类器中进行分类处理，输出分类结果，通过基于统计的方法，完成实例关系的抽取。该部分的技术框架如图5所示，具体实施时包含以下分步骤：

S4.1：使用基于word2vec的方法训练分词后的词语集，得到各词语的向量化表示。要抽取两个实例的关系，需要先找到收集的文本中所有包含目标实例对的句子，接着将句中词语与句中目标实例对的距离与本身的词向量进行拼接，完成句子的向量化,得到句子的局部特征；如例句“青霉素与头孢西丁存在交叉过敏反应”，可以得到以下句子局部特征，该句中，“青霉素”与“头孢西丁”为目标实例对；

S4.2：LSTM模型可以批量处理向量化的文本信息，一个BiLSTM由前后双向的LSTM构成，弥补了前向LSTM无法编码从后到前的信息的缺点，因此其可以较为充分地获取句子中的上下文信息；句子局部特征作为输入，最终输出是将前向与后向LSTM得到的特征值拼接而成。本发明的BiLSTM模型见图6，其中{x₁.x₂,...,x_n}为输入的句子局部特征；

S4.3：将BiLSTM模型的输出进行最大池化操作，得到句子的整体特征；

S4.4：将句子整体特征输入softmax分类器进行关系分类，得到句中两个目标实例之间的关系。由于可能有多个包含目标实例对的句子，因此需要对所有包含目标实例对的句子输出的关系分类结果进行统计，使用频率最高的结果作为目标实例对的最终关系；

S4.5：本文采用随机梯度下降算法来最小化负对数似然函数，目标函数计算如式(2)，其中β为模型中的训练参数，D为测试中样本实例对数量，“Ri＝ri”为样本中第i对实例对的关系为ri，词向量的维度设定为100，神经网络的隐藏层节点数目为280，引入了dropout策略，使用L2正则化方法进行参数的约束，学习率设定为0.001；

S5：此步骤主要功能是将步骤S3、S4中抽取出来的实例以及实例之间的关系进行整合，并将实例分配到各自所属的本体类别。接着，在实例间使用之前抽取的实例关系进行关系扩展，形成最终的抗生素临床使用领域本体。如图7为为雏形本体的抗生素概念添加抽取到的青霉素与头孢西丁实例，并在两个实例间添加“产生交叉过敏”关系。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种抗生素临床使用领域本体构建方法，其特征是：具有以下步骤：

步骤2、使用自然语言处理NLP工具对相关文本进行预处理；

步骤4、抽取两个实例之间的关系；

2.如权利要求1所述的抗生素临床使用领域本体构建方法，其特征是：所述的步骤1中，根据先验知识，总结出抗生素临床使用领域基础概念为：抗生素、患处、致病微生物、并发症、毒性反应、过敏反应、病患曾用药、病患其他疾病，使用上述基础概念构建抗生素临床使用领域雏形本体。

3.如权利要求1所述的抗生素临床使用领域本体构建方法，其特征是：所述步骤2中，预处理部分根据句子分隔符“.”、“；”、“！”来分割中文文本，在获得单个完整的句子后，使用分词工具对这些句子进行分词、去除停止词及词性标注工作。

4.如权利要求1所述的抗生素临床使用领域本体构建方法，其特征是：所述步骤3中，具体包括以下分步骤：

5.如权利要求1所述的抗生素临床使用领域本体构建方法，其特征是：所述步骤4中，具体包括以下分步骤：

步骤4.2、将句子的局部特征输入BiLSTM模型；