CN110580339B

CN110580339B - 一种医疗术语知识库完善的方法和装置

Info

Publication number: CN110580339B
Application number: CN201910775383.2A
Authority: CN
Inventors: 叶琪; 张佳影; 何萍; 阮彤; 张知行; 张欢欢; 马致远
Original assignee: SHANGHAI SHENKANG HOSPITAL DEVELOPMENT CENTER; East China University of Science and Technology
Current assignee: SHANGHAI SHENKANG HOSPITAL DEVELOPMENT CENTER; East China University of Science and Technology
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2023-04-07
Anticipated expiration: 2039-08-21
Also published as: CN110580339A

Abstract

本发明属于计算机应用领域，公开了一种医疗术语知识库完善的方法。所述方法包括：从医疗术语集合中提取任意一个术语作为候选术语，然后从医疗术语知识库中任意提取一个术语构成术语对集；抽取所述术语对集中的任意一个术语对，计算术语对的相关性；将术语对集中所有术语对的相关性排序，按相关性排序的结果将术语对作为同义词融合进入所述医疗术语知识库。实验表明，采用本发明实施例，可以准确地进行术语对齐，有效地完善知识库。

Description

一种医疗术语知识库完善的方法和装置

技术领域

本发明属于医疗信息处理领域，更为具体地，尤其涉及一种医疗术语知识库完善的方法。

背景技术

目前，临床术语知识库被广泛应用于临床领域。然而，临床术语库无法一次构建完成，需要不断地完善。主要包括两方面的原因：术语重命名和添加同义词。一方面由于标准术语名称不是永久性的，会随着时间的推移被更准确的名称所代替。例如，在静脉全血样本中，临床指标“血色素”曾经是中文中“血红蛋白”(血红蛋白，HGB)的传统名称。另一方面，由于不同地区的各家医院，都有相同术语的不同名称，并且不可能同时将所有同义词合并到一个KB中。例如，从不同医院收集的静脉血清标本中，临床指标“泌乳素”(催乳素，PRL)可能有多个同义名，例如“催乳素”(lactogen)，“垂体泌乳素”(垂体催乳素)，“泌乳素测定”等。图1给出医疗术语知识库完善的实例。

目前，医疗术语知识库的完善主要是利用基于嵌入(embedding)的方法进行实体对齐，例如朱等人在2017年IJCAI(International Joint Conference on ArtificialIntelligence)国际会议的论文“Iterative entity alignment via joint knowledgeembeddings”中提出的一种迭代和参数共享方法，利用TransE和PTransE对异构知识库的实体和关系进行编码，以获得知识嵌入，并将这些嵌入连接到一个统一的语义空间。张等人在2019年IJCAI(International Joint Conference on Artificial Intelligence)国际会议的论文“Multi-view knowledge graph embedding for entity alignment”给出了一种多视图嵌入方法，该方法的视图包括名称视图，关系视图和属性视图，通过Skip-gram、TransE和卷积神经网络学习它们的嵌入，然后再进行实体对齐。但这些方法主要存在两方面的不足：(1)现有方法是针对不同知识库的融合，无法将一组术语与知识库进行对齐；(2)现有方法中语义信息不足。

发明内容

有鉴于此，本发明公开了一种医疗术语知识库完善的方法和装置。其具体方案如下：

首先，从术语集合S中提取任意一个术语作为候选术语，然后从医疗术语知识库KB中任意提取一个术语，将所述候选术语与医疗术语库中提取的每个术语构成术语对集，所述医疗术语知识库由医疗领域中标准的术语、术语的同义词关系、上下位词关系构成；接着，抽取所述术语对集中的任意一个术语对，计算所述术语对的相关性；最后，将所述术语对集中所有术语对的相关性排序，按相关性排序的结果将术语对作为同义词融合进入所述医疗术语知识库。

在其中的一实施例，计算所述术语对的相关性的过程包括：将术语对输入到BERT模型计算得到所述语义相关性表示和训练后的BERT模型，所述语义相关性表示是融合语义信息的知识表示；将所述术语对中的两个术语分别输入到所述训练后的BERT模型得到两个术语的初始表示，然后将两个术语的初始表示再分别输入GCN模型获得两个术语的结构信息的表示，再把两个术语的结构表示点积得到最终的术语对的结构相关性表示，所述结构相关性表示是融合结构信息的知识表示；将所述语义相关性表示和所述结构相关性表示融合得到术语对的术语相关性。

其中，将所述术语对输入到BERT模型计算得到所述语义相关性表示，所述语义相关性表示是融合语义信息的知识表示，包括：

将术语对中的医疗术语知识库KB的实体e_i和候选术语s_j输入被合并为序列{[CLS]x[SEP]y[SEP]}，其中x＝s_j，y＝e_i，其中，序列中每一个字符的特征向量都由它所对应的字向量、分割向量和位置向量累加求和得到；

将所述序列送入BERT模型进行训练，BERT模型由多个双向Transformer的编码器构成，并根据第l层的输出来计算第l+1层，公式如下：

其中，MhAtt(·)为多头自注意力机制，LayerNorm(·)为层标准化方法，[x]₊表示选择0和x中的最大值；

损失函数为：

其中，y_se为e_i和s_j是否为同义词的真实标签，

为预测标签；

最后取出符号[CLS]的特征向量作为所述语义相关性表示。

进一步，两个术语的初始表示再分别输入GCN模型获得两个术语的结构信息的表示，包括：

计算节点特征向量H，其中H⁽⁰⁾由所述训练后的BERT模型，然后将输入序列转换为{[CLS]x[SEP][SEP]}，并使x＝s_j，x＝e_i，然后取出符号[CLS]的向量表示分别得到了e_i和s_j初始化节点特征向量；

计算邻接矩阵A，其中所述医疗术语知识库KB的邻接矩阵为：如果e_i到e_j之间存在边，A_ij就置为1，术语集S的邻接矩阵为一个全零矩阵，表示候选术语之间没有边；

通过GCN分别得到e_i和s_j两个术语的结构信息的表示，其中，GCN包含l层，每一层需要2个输入，分别是所述节点特征矩阵H和所述邻接矩阵A，隐层计算方式如下：

其中，σ(·)为非线性激活函数；

为对角矩阵，

A为n×n的邻接矩阵，I为单位矩阵；W^(l)为第l层的权重矩阵；

损失函数采用最大间隔损失，公式为：

其中，P⁺为预对齐的同义词术语对集合，P^-为非同义词术语对集合；D(e_i，s_j)＝||e_i-s_j||_n，表示距离函数为n阶矩；γ被设置为正例距离和负例距离之间间隔大小的超参数。

进一步，将所述语义相关性表示和所述结构相关性表示融合得到术语对的术语相关性，包括：

采用全连接模型融合所述语义相关性表示X_se和所述结构相关性X_st，公式如下：

H⁽⁰⁾＝[X_se；X_st]

H^(f)＝sigmoid(W^(f-1)H^(f-1)+b^(f-1))

其中，H⁽⁰⁾为模型的输入，H^(f)为模型的输出；

损失函数是二元交叉熵，公式如下：

其中，y_in为e_i和s_j是否为同义词的真实标签，

为预测标签。

本发明还公开了一种医疗术语知识库库完善的装置，包括：

输入模块，用于从至少包含医疗术语的术语集合中提取任意一个术语作为候选术语，然后从医疗术语知识库中任意提取一个术语，将所述候选术语与医疗术语库中提取的每个术语构成术语对集，所述医疗术语知识库由医疗领域中标准的术语、术语的同义词关系、上下位词关系构成；

计算模块，用于计算输入模块中得到术语对集中的所述术语对的相关性；

融合模块，用于将计算模块得到的所有术语对的相关性排序，按相关性排序的结果将术语对作为同义词融合进入所述医疗术语知识库。

其中，计算模块包括：

语义相关性表示计算模块，用于将所述术语对输入到BERT模型计算得到所述语义相关性表示和训练后的BERT模型，所述语义相关性表示是融合语义信息的知识表示；

结构相关性表示计算模块，将所述术语对中的两个术语分别输入到所述训练后的BERT模型得到两个术语的初始表示，然后将两个术语的初始表示再分别输入GCN模型获得两个术语的结构信息的表示，再把两个术语的结构表示点积得到最终的术语对的结构相关性表示，所述结构相关性表示是融合结构信息的知识表示；

术语相关性融合模块，用于将语义相关性表示计算模块输出的所述语义相关性表示结果与结构相关性表示计算模块输出的所述结构相关性表示进行融合，得到术语对的术语相关性。

从以上技术方案可以看出，本申请实施例具有以下优点：(1)能满足一组术语与知识库进行对齐的需求；(2)使用预先训练的语言模型同时热启动知识库嵌入、并增强语义信息，使得对齐结果更准确。实验表明，本发明公开的方法实体对齐的准确性更高，完善知识库效果更优。

附图说明

读者在参照附图阅读了本发明的具体实施方式以后，将会更清楚地了解本发明的各个方面。其中，

图1示出依据本发明的医疗术语完善的实例；

图2示出依据本发明的一实施方式，基于医疗术语知识库完善的方法的流程图；

图3示出依据本发明的另一实施方式，基于医疗术语知识库完善的方法的示意图；

图4示出依据本发明的另一实施方式，BERT模型的示意图；

图5示出依据本发明的另一实施方式，GCN模型的示意图。

具体实施方式

参照图2，图2为本申请实施提供的一种医疗术语知识库完善的方法的流程图，在该实施方式中，包括以下步骤：

步骤S1，从术语集合S中提取任意一个术语作为候选术语，然后从医疗术语知识库KB中任意提取一个术语，将所述候选术语与医疗术语库中提取的每个术语构成术语对集，所述医疗术语知识库由医疗领域中标准的术语、术语的同义词关系、上下位词关系构成；

步骤S2，抽取所述术语对集中的任意一个术语对，计算所述术语对的相关性；

步骤S3，将所述术语对集中所有术语对的相关性排序，按相关性排序的结果将术语对作为同义词融合进入所述医疗术语知识库。

参照图3，图3为本申请实施提供的一种医疗术语知识库完善的方法的示意图。在该实施方式中，计算所述术语对的相关性的过程包括：

将术语对输入到BERT模型计算得到所述语义相关性表示和训练后的BERT模型，所述语义相关性表示是融合语义信息的知识表示；

将所述术语对中的两个术语分别输入到所述训练后的BERT模型得到两个术语的初始表示，然后将两个术语的初始表示再分别输入GCN模型获得两个术语的结构信息的表示，再把两个术语的结构表示点积得到最终的术语对的结构相关性表示，所述结构相关性表示是融合结构信息的知识表示；

将所述语义相关性表示和所述结构相关性表示融合得到术语对的术语相关性。

为了充分利用无监督预训练和有监督训练数据，从而更好地丰富训练内容，本发明提供另一实施例。参照图4，在该实施方式中，将所述术语对输入到BERT模型计算得到所述语义相关性表示，所述语义相关性表示是融合语义信息的知识表示，包括：

损失函数为：

其中，y_se为e_i和s_j是否为同义词的真实标签，

为预测标签；

最后取出符号[CLS]的特征向量作为所述语义相关性表示。

参照图5，在该实施方式中，两个术语的初始表示再分别输入GCN模型获得两个术语的结构信息的表示，包括：

其中，σ(·)为非线性激活函数；

为对角矩阵，

A为n×n的邻接矩阵，I为单位矩阵；W^(l)为第l层的权重矩阵；

损失函数采用最大间隔损失，公式为：

H⁽⁰⁾＝[X_se；X_st]

H^(f)＝sigmoid(W^(f-1)H^(f-1)+b^(f-1))

其中，H⁽⁰⁾为模型的输入，H^(f)为模型的输出；

损失函数是二元交叉熵，公式如下：

其中，y_in为e_i和s_j是否为同义词的真实标签，

为预测标签。

此外，本发明还公开了一种医疗术语知识库库完善的装置，包括：

其中，计算模块包括：

本发明的实验结果如表1所示，结果显示本发明的实施例具有更高的Hits@1、Hits@5、Hits@10值。

表1

方法	Hits@1	Hits@5	Hits@10
				基本方法	20.10	50.92	63.96
本发明的方法	59.58	84.01	87.63

本发明实施例实验结果如表2所示，本发明中的技术特征是不可或缺的，缺少BERT、缺少GCN、没有BERT情况下随机生成GCN表示、忽略fine-tuning过程时，Hits@1、Hits@5、Hits@10值均低于本发明的方法。

表2

组件	Hits@1	Hits@5	Hits@10
				本发明的方法	59.58	84.01	87.63
无BERT	40.24	68.11	72.85
				无GCN	52.88	81.60	86.69
无BERT初始化，随机GCN	49.04	81.69	86.78
				无fine-tuning过程	56.41	83.11	87.32

本发明的领域中的普通技术人员能够理解，在不偏离本发明的精神和范围的情况下，还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

Claims

1.一种医疗术语知识库完善的方法，其特征在于，所述方法包括：

从至少包含医疗术语的术语集合S中提取任意一个术语作为候选术语，然后从医疗术语知识库KB中任意提取一个术语，将所述候选术语与医疗术语库中提取的每个术语构成术语对集，所述医疗术语知识库由医疗领域中标准的术语、术语的同义词关系、上下位词关系构成；

抽取所述术语对集中的任意一个术语对，计算所述术语对的相关性；

将所述术语对集中所有术语对的相关性排序，按相关性排序的结果将术语对作为同义词融合进入所述医疗术语知识库；

其中，计算所述术语对的相关性的过程包括：

将所述术语对输入到BERT模型计算得到语义相关性表示和训练后的BERT模型，所述语义相关性表示是融合语义信息的知识表示；

2.根据权利要求1所述的方法，其特征在于，将所述术语对输入到BERT模型计算得到所述语义相关性表示，所述语义相关性表示是融合语义信息的知识表示，包括：

其中，MhAtt(·)为多头自注意力机制，LayerNorm(·)为层标准化方法，[x]+表示选择0和x中的最大值；

损失函数为：

其中，y_se为e_i和s_j是否为同义词的真实标签，为预测标签；

最后取出符号[CLS]的特征向量作为所述语义相关性表示。

3.根据权利要求1所述的方法，其特征在于，两个术语的初始表示再分别输入GCN模型获得两个术语的结构信息的表示，包括：

计算节点特征向量H，其中H(0)由所述训练后的BERT模型，然后将输入序列转换为{[CLS]x[SEP][SEP]}，并使x＝s_j，x＝e_i，然后取出符号[CLS]的向量表示分别得到了e_i和s_j初始化节点特征向量；

通过GCN分别得到e_i和s_j两个术语的结构信息的表示，其中，GCN包含l层，每一层需要2个输入，分别是所述节点特征向量H和所述邻接矩阵A，隐层计算方式如下：

其中，σ(·)为非线性激活函数；为对角矩阵，A为n×n的邻接矩阵，I为单位矩阵；W^(l)为第l层的权重矩阵；

损失函数采用最大间隔损失，公式为：

其中，P⁺为预对齐的同义词术语对集合，P^-为非同义词术语对集合；D(e_i，s_j)＝||e_i-s_j||n，表示距离函数为n阶矩；γ被设置为正例距离和负例距离之间间隔大小的超参数。

4.根据权利要求1所述的方法，其特征在于，将所述语义相关性表示和所述结构相关性表示融合得到术语对的术语相关性，包括：

采用全连接模型融合所述语义相关性表示X_se和所述结构相关性表示X_st，公式如下：

H⁽⁰⁾＝[X_se；X_st]

H^(f)＝sigmoid(W^(f-1)H^(f-1)+b^(f-1))

其中，H⁽⁰⁾为模型的输入，H^(f)为模型的输出σ(·)为非线性激活函数，W^(l)表示第l层的权重矩阵；

损失函数是二元交叉熵，公式如下：

其中，y_in为e_i和s_j是否为同义词的真实标签，为预测标签。

5.一种医疗术语知识库完善的装置，其特征在于，所述装置包括：

融合模块，用于将计算模块得到的所有术语对的相关性排序，按相关性排序的结果将术语对作为同义词融合进入所述医疗术语知识库；

所述计算模块包括：