CN113111180A

CN113111180A - 基于深度预训练神经网络的中文医疗同义词聚类方法

Info

Publication number: CN113111180A
Application number: CN202110301422.2A
Authority: CN
Inventors: 王贵宣; 曾令泽; 王翔; 谢钟乐; 姚畅
Original assignee: Hangzhou Qijing Technology Co ltd
Current assignee: Hangzhou Qijing Technology Co ltd
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-07-13
Anticipated expiration: 2041-03-22
Also published as: CN113111180B

Abstract

本发明公开了一种基于深度预训练神经网络的中文医疗同义词聚类方法。1)将公开的中文医疗数据集中的同义词进行分类后构建得到同义词簇集C；2)基于步骤1)构建的同义词簇集C生成模型训练数据集：3)构建set‑instance神经网络模型；4)训练set‑instance神经网络模型；5)使用训练好的神经网络模型对候选词集进行聚类，生成候选同义词簇集。6)使用训练好的神经网络模型对候选同义词簇集进行合并，生成最终的同义词簇集。本发明将先验知识通过预训练模型的形式引入到set‑instance神经网络模型中，解决了词汇缺乏上下文语境的问题；此外，本发明可以利用训练好的神经网络模型对候选词进行聚类操作。

Description

基于深度预训练神经网络的中文医疗同义词聚类方法

技术领域

本发明属于医疗自然语言处理技术领域，具体是指一种基于深度预训练神经网络的中文医疗同义词聚类方法。

背景技术

随着深度学习的发展，各种神经网络被广泛用于解决自然语言处理(NLP)任务，如CNNs、RNNs、GNNs和attention机制。这些神经模型的优点之一是能够缓解特征工程问题。尽管上述各类型的神经网络在自然语言处理(NLP)任务中取得了成功，但与计算机视觉(CV)领域相比，其性能的改善并不那么显著。主要原因是目前大多数有监督的自然语言处理(NLP)任务的数据集都相当小。深度神经网络参数较多，在实际应用中，神经网络模型在这些小的数据集上进行训练会出现过拟合现象，不能很好地泛化。因此，许多NLP任务的早期神经模型相对较浅，通常只有1～3个神经网络层。

近年来，大量的研究表明，在大型语料库上，预训练模型(PTMs)可以学习通用语言表示，这有利于下游的自然语言处理任务，并避免了从零训练新模型。随着计算能力的发展，深度模型(如Transformer)的融合，以及训练技能的不断提高，PTMs的架构已经由浅向深发展。第一代PTMs旨在学习良好的词嵌入，由于下游任务不再需要这些模型，因此它们的计算效率通常非常低，如Skip-Gram和GloVe。这些预先训练的词嵌入方法虽然能够捕获词语的语义，但与语境无关，不能捕获语境中的多义消歧、句法结构、语义角色等高级概念。第二代PTMs集中学习语境词嵌入，如ELMo、OpenAI GPT和BERT等。这些预训练的深度预训练神经网络可以捕获通用语言表示，并将捕获的特征作为先验知识带入到下游任务。

鉴于深度预训练模型优异的效果与性能，我们将其引入到中文医疗同义词挖掘任务中。如果我们想使用深度预训练模型来处理中文医疗同义词挖掘任务，我们必须找到一种契合任务特点的输入和输出方式，并且找到一种使用深度学习模型作为特征提取器的聚类算法。

发明内容

为了解决背景技术中的问题，本发明提供了一种基于深度预训练神经网络的中文医疗同义词聚类方法。本发明的目的在于利用深度预训练神经网络所包含的先验知识训练set-instance神经网络模型，以此来解决中文医疗同义词挖掘任务中缺少上下文信息的问题；同时利用训练好的set-instance神经网络模型对候选词表进行聚类操作。

本发明采用的技术方案如下，具体包括以下步骤：

1)将公开的中文医疗数据集中的同义词进行人工分类后组成多个同义词簇，将所有同义词簇组合后构建得到同义词簇集T；

所述同义词簇为同义词的集合，如(感冒，流感，流行性感冒)构成一个同义词簇；所述同义词簇集为同义词簇的集合；

2)基于步骤1)构建的同义词簇集T生成模型训练数据集；

3)基于预训练模型BERT构建set-instance神经网络模型结构，set-instance神经网络模型结构包括依次连接的输入层、BERT层和输出层；

4)训练set-instance神经网络模型；

5)使用步骤4)训练好的set-instance神经网络模型对候选同义词集中的每个词语进行聚类，生成候选同义词簇集；

6)使用步骤4)训练好的set-instance神经网络模型对步骤5)生成的候选同义词簇集进行合并，生成最终的候选同义词簇集。

所述步骤2)具体包括以下步骤：

遍历同义词簇集T中的每个同义词簇T_i，对每个同义词簇T_i执行下述步骤2.1)～步骤2.3)得到对应的正样本和负样本，所有同义词簇T_i对应的正样本和负样本组成模型训练数据集；

其中，T＝{T₁,T₂,…,T_i},1≤i≤Size(T)；

2.1)对于当前同义词簇T_i，生成对应的第一子集T_{i_sub}和第二子集T_left；

其中，

T_left＝T_i-T_{i_sub}；

2.2)从第二子集T_left中随机选择一个词语i_pos组成正样本(T_{i_sub},i_pos,1)；

其中，i_pos∈T_left；

2.3)对于每个正样本生成K个不同的负样本(T_{i_sub},i_neg,0)；

其中，i_neg∈T-T_i，i_neg为集合T-T_i中的一个词语。

3、根据权利要求1所述的一种基于深度预训练神经网络的中文医疗同义词聚类方法，其特征在于，所述步骤3)具体为

3.1)输入层采用BERT形式的输入：

其中TOKEN的输入为：[cls]候选词[sep]同义词簇[sep]，同义词簇中的不同词语使用“|”进行分隔；

其中，[cls]为BERT模型的特殊token，一般用于分类任务；[sep]为BERT模型的特殊token，一般用于分割句子；

SEGMENT的输入为：候选词对应编码为0，同义词簇对应编码为1；

POSITION的输入为：将候选词和同义词簇中的每个词语分别按阿拉伯数字顺序进行位置编码，每个词语的起始编码为0，符号[cls]、[sep]、“|”对应编码为0；如：“流感”的位置编码：“流”为“0”，“感”为“1”；

3.2)BERT层通过加载Google发布的BERT-Base-Chinese预训练参数，完成参数初始化；

3.3)输出层由两个全连接层和激活函数层组成，两个全连接层的权重系数(Weight)和偏置值(bias)从0～1中随机选出，两个全连接层中的激活函数选取Relu函数，最后一层全连接层的结果通过采用Sigmoid函数激活后得到输出值输出；(0～1)指0～1中的任意浮点数；

训练时将模型训练数据集中的正样本和负样本作为模型的输入。

所述步骤4)具体为：采用步骤2)的模型训练数据集对步骤3)构建的set-instance神经网络模型进行训练，选取二分类交叉熵函数作为最终损失函数，采用误差反向传播对set-instance神经网络模型的权值和偏置进行调整；根据训练过程中模型分类准确率选取神经网络模型参数，将分类准确率最大时对应的一组参数作为set-instance神经网络模型参数。

所述步骤(5)具体为：遍历候选同义词集V中的每个词语v_k，并对词语v_k执行下述步骤5.1)～5.3)，从而完成候选同义词的聚类，得到候选同义词簇集C；

其中，v_i∈V，1≤k≤Size(V)；C＝{C₁,C₂,C₃,…,C_m}，m为候选同义词簇的个数；

5.1)当前词语v_k分别与候选同义词簇集C中每个同义词簇C_i组成模型输入数据(C_i,v_k)，其中：步骤3.1)TOKEN输入中的候选词对应于词语v_k，TOKEN输入中的同义词簇对应于同义词簇C_i；

其中，C_i∈C,1≤i≤m；

5.2)将所有输入数据(C_i,v_k)输入set-instance神经网络模型中，计算每个输入数据(C_i,v_k)对应的概率p，概率p为当前词语v_k归属同义词簇C_i的概率值；

并在计算得到的所有概率p中选取最大概率p_max输出；

5.3)给定阈值θ：

若p_max≥θ，则将当前词语v_k加入到最大概率p_max对应的同义词簇C_i；

若p_max<θ，则将当前词语v_k构成一个新的同义词簇C_j，并将C_j加入到候选同义词簇集C。

所述步骤5.1)中初始的候选同义词簇集C为指定的集合或空集，指定的集合为根据业务需求设定的集合，如(感冒，流感，流行性感冒)和(蓝鼓膜，蓝鼓膜综合征)组成的初始候选同义词簇集；

初始的候选同义词簇集C为空集时，且当前词语v_k为第一个候选词v₁时，不执行步骤5.1)～5.3)，候选词v₁作为候选同义词簇C₁，并加入候选同义词簇集C中；从第二个候选词v₂开始执行步骤5.1)～5.3)。

所述步骤(6)具体为：对步骤(5)生成的候选同义词簇集C中的候选同义词簇C_i执行下述步骤6.1)～6.4)，从而完成候选同义词簇的合并；

6.1)取候选同义词簇集C中的第一个候选同义词簇C₁，将候选同义词簇C₁分别与每个候选同义词簇C_j组成输入数据(C₁,C_j)；

其中，候选同义词簇C_j为在候选同义词簇集C中除候选同义词簇C₁之外的其余候选同义词簇，C₁，C_j∈C,j≠1；步骤3.1)TOKEN输入中的候选词对应于候选同义词簇C_j，TOKEN输入中的同义词簇对应于同义词簇C₁；

6.2)将所有输入数据(C₁,C_j)输入到set-instance神经网络模型中，计算每个输入数据(C₁,C_j)对应的概率p_j，概率p_j为当前两个候选同义词簇合并为一个同义词簇的概率值；

6.3)给定阈值θ，在所有输入数据(C₁,C_j)中，将p_j>θ时对应的所有候选同义词簇C_j组成候选同义词簇集O；

其中，

p_j>θ表示当前两个候选同义词簇C₁,C_j可以合并为一个同义词簇；

将C₁和O中的所有同义词簇取并集组成新的同义词簇R_i，将R_i加入新的候选同义词簇集R，并将C₁以及O中的所有同义词簇从候选同义词簇集C中删除；

其中，R初始化为空集；

6.4)若C为空集，完成候选同义词簇合并，输出候选同义词簇集R；否则返回步骤6.1)。

本发明的有益效果：

本发明一方面使用深度预训练神经网络所包含的先验知识训练set-instance神经网络模型，以此来解决中文医疗同义词挖掘任务中缺少上下文信息的问题。另一方面，本发明创造了一种聚类算法，该算法利用训练好的set-instance神经网络模型对候选词表进行聚类操作；且在真实数据集上取得了优秀的效果。

附图说明

图1为本发明的流程图；

图2为本发明的set-instance神经网络模型的基本结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

如图1所示，本发明的一种基于深度预训练神经网络的中文医疗同义词聚类方法，包括如下步骤：

步骤1)：将中文医疗数据集CSKB中的同义词进行人工分类后构建得到同义词簇集T；

步骤2)：基于步骤1)构建的同义词簇集T生成模型训练数据集：遍历同义词簇集T中的每个同义词簇T_i，对每个同义词簇T_i执行下述步骤2.1)～步骤2.3)得到对应的正样本和负样本，所有同义词簇T_i对应的正样本和负样本组成模型训练数据集；其中，T＝{T₁,T₂,…,T_i},1≤i≤Size(T)；

如图1中的“Synonym Set”所示，(感冒，流感，流行性感冒)，(蓝鼓膜，蓝鼓膜综合征)、(先天性神经不全，神经发育不全)分别属于同一个同义词簇；

其中，

T_left＝T_i-T_{i_sub}；

2.2)从第二子集T_left中随机选择一个词语i_pos组成正样本(T_{i_sub},i_pos,1)；其中，i_pos∈T_left；

如图1中的“Sample”所示，正样本为{(感冒，流感)，流行性感冒，1}；

2.3)对于每个正样本生成K个不同的负样本(T_{i_sub},i_neg,0)；其中，i_neg∈T-T_i，i_neg为集合T-T_i中的一个词语。

如图1中的“Sample”所示，负样本为{(感冒，流感)，老年心肌病，0}、{(感冒)，蓝鼓膜综合征，0}。

步骤3)：构建如图2所述的set-instance神经网络模型；

基于语言模型BERT构建set-instance神经网络模型结构：set-instance神经网络模型结构包括依次连接的输入层、BERT层和输出层；

3.1)输入层采用BERT形式的输入：

其中TOKEN的输入为：[cls]候选词[sep]同义词簇[sep]，同义词簇中的不同词语使用“|”进行分隔；如图2所示，候选词为“流行性感冒”，同义词簇为“流感，感冒”，流感和感冒通过“|”进行分隔；

SEGMENT的输入为：候选词对应编码为0，同义词簇对应编码为1，符号[cls]、第一个[sep]对应编码为0，第二个[sep]对应的编码为1；

POSITION的输入为：将候选词和同义词簇中的每个词语分别按阿拉伯数字顺序进行位置编码，每个词语的起始编码为0，符号[cls]、[sep]对应编码为0；

如：“流感”的位置编码为“流”：“0”，“感”：“1”；

“流行性感冒”的位置编码为“流”：“0”；“行”：“1”；“性”：“2”；“感”：“3”；“冒”：“4”；

3.3)输出层中，全连接层中的权重系数(weights)和偏置值(bias)从0～1中随机选出，全连接层间的激活函数选取Relu函数；全连接层最后使用Sigmoid函数输出最终结果，(0～1)指0～1中的任意浮点数；

步骤4)：训练set-instance神经网络模型，根据分类准确率的大小选取参数，最终确定一组令分类准确率最大的一组参数。

本发明的分类模型可以判断一个新的候选词是否属于某个同义词簇。在set-instance神经网络模型中，我们引入深度预训练模型BERT作为分类模型的一部分，并在同义词分类任务中进行微调；最后，BERT层会根据候选词和同义词簇动态生成一个带有先验知识的向量。

采用步骤2)的模型训练数据集对步骤3)构建的set-instance神经网络模型进行训练，选取均二分类交叉熵函数作为最终损失函数，采用误差反向传播对神经网络模型的权值和偏置进行调整。

步骤5)：如图1中的“Synonym Sets Discovery Process”所示，使用训练好的set-instance神经网络模型对候选词集进行聚类。

所述步骤(5)具体为：遍历候选词集V中的每个词语v_k，并对词语v_k执行下述步骤5.1)～5.3)，从而完成候选词集的聚类；其中，v_i∈V,1≤k≤Size(V)；

5.1)当前词语v_k分别与候选同义词簇集C中每个同义词簇C_i组成模型输入数据(C_i,v_k)；其中：v_k相当于步骤3.1)中的“候选词”，C_i相当于步骤3.1)中的同义词簇；

其中，C_i∈C,1≤i≤Size(C)；

5.2)将所有输入数据(C_i,v_k)输入set-instance神经网络模型中，计算每个输入数据(C_i,v_k)对应的概率p，概率p为当前单词v_k归属同义词簇C_i的概率值；

并在计算得到的所有概率p中选取最大概率p_max输出；

其中，C_i∈C,1≤i≤Size(C)；

5.3)给定阈值θ：

如图1中的“Cluster Initialization”中所示，(颅内神经瘤，颅神经瘤)、(脑神经瘤，脑神经肿瘤)分别属于不同的候选同义词簇。

步骤6)：如图1中的“Set Generation Algorithm”所示，使用训练好的set-instance神经网络模型对候选的同义词簇集进行合并。

所述步骤(6)具体为：

6.2)将所有输入数据(C₁,C_j)输入到set-instance神经网络模型中，计算每个输入数据(C₁,C_j)对应的概率p_ij，概率p_ij为当前两个候选同义词簇合并为一个同义词簇的概率值；

其中，

其中，R初始化为空集；

如图1中的“Set Generation Algorithm”所示，将候选同义词簇(颅内神经瘤，颅神经瘤)、(脑神经瘤，脑神经肿瘤)合并成为一个新的同义词簇(颅内神经瘤，颅神经瘤，脑神经瘤，脑神经肿瘤)。

该方法在整理之后的医疗同义词簇集上的效果如下：

聚类方法	ARI	NMI	FMI
				Kmeans	0.4722	0.8116	0.4864
DBSCAN	0.4470	0.8394	0.4728
				set-instance	0.7176	0.9125	0.7293

注：

(1)Kmeans和DBSCAN是常用的聚类算法模型，set-instance是本发明的模型；

(2)ARI：Adjusted Rand index，ARI∈[-1,1]，值越大聚类效果越好；

(3)NMI：Normalized Mutual Information，NMI∈[0,1]，值越大聚类效果越好；

(4)FMI：Fowlkes and Mallows Index，FMI∈[0,1]，值越大聚类效果越好；

(5)相较于Kmeans，本发明相同的数据集上的聚类指标ARI、NMI、FMI分别提高了24.54％、10.09％、24.29％；

(6)相较于DBSCAN，本发明相同的数据集上的聚类指标ARI、NMI、FMI分别提高了27.06％、7.31％、25.65％。

Claims

1.一种基于深度预训练神经网络的中文医疗同义词聚类方法，包括如下步骤：

1)将公开的中文医疗数据集中的同义词进行分类后组成多个同义词簇，将所有同义词簇组合后构建得到同义词簇集T；

2)基于步骤1)构建的同义词簇集T生成模型训练数据集；

4)训练set-instance神经网络模型；

2.根据权利要求1所述的一种基于深度预训练神经网络的中文医疗同义词聚类方法，其特征在于，

所述步骤2)具体包括以下步骤：

其中，T＝{T₁，T₂，…，T_i}，1≤i≤Size(T)；

其中，

T_left＝T_i-T_{i_sub}；

2.2)从第二子集T_left中随机选择一个词语i_pos组成正样本(T_{i_sub}，i_pos，1)；

其中，i_pos∈T_left；

2.3)对于每个正样本生成K个不同的负样本(T_{i_sub}，i_neg，0)；

其中，i_neg∈T-T_i，i_neg为集合T-T_i中的一个词语。

3.根据权利要求1所述的一种基于深度预训练神经网络的中文医疗同义词聚类方法，其特征在于，所述步骤3)具体为

3.1)输入层采用BERT形式的输入：

POSITION的输入为：将候选词和同义词簇中的每个词语分别按阿拉伯数字顺序进行位置编码，每个词语的起始编码为0；

3.3)输出层由两个全连接层和激活函数层组成，两个全连接层的权重系数和偏置值从0～1中随机选出，两个全连接层中的激活函数选取Relu函数，最后一层全连接层的结果通过采用Sigmoid函数激活后得到输出值输出。

4.根据权利要求1所述的一种基于深度预训练神经网络的中文医疗同义词聚类方法，其特征在于，所述步骤4)具体为：采用步骤2)的模型训练数据集对步骤3)构建的set-instance神经网络模型进行训练，选取二分类交叉熵函数作为最终损失函数，采用误差反向传播对set-instance神经网络模型的权值和偏置进行调整；根据训练过程中模型分类准确率选取神经网络模型参数，将分类准确率最大时对应的一组参数作为set-instance神经网络模型参数。

5.根据权利要求3所述的一种基于深度预训练神经网络的中文医疗同义词聚类方法，其特征在于，所述步骤(5)具体为：遍历候选同义词集V中的每个词语v_k，并对词语v_k执行下述步骤5.1)～5.3)，从而完成候选同义词的聚类，得到候选同义词簇集C；

其中，v_i∈V，1≤k≤Size(V)；C＝{C₁，C₂，C₃，...，C_m}，m为候选同义词簇的个数；

5.1)当前词语v_k分别与候选同义词簇集C中每个同义词簇C_i组成模型输入数据(C_i，v_k)，其中：步骤3.1)TOKEN输入中的候选词对应于词语v_k，TOKEN输入中的同义词簇对应于同义词簇C_i；

其中，C_i∈C，1≤i≤m；

5.2)将所有输入数据(C_i，v_k)输入set-instance神经网络模型中，计算每个输入数据(C_i，v_k)对应的概率p，概率p为当前词语v_k归属同义词簇C_i的概率值；

并在计算得到的所有概率p中选取最大概率p_max输出；

5.3)给定阈值θ：

若p_max＜θ，则将当前词语v_k构成一个新的同义词簇C_j，并将C_j加入到候选同义词簇集C。

6.根据权利要求5所述的一种基于深度预训练神经网络的中文医疗同义词聚类方法，其特征在于，所述步骤5.1)中初始的候选同义词簇集C为空集，当前词语v_k为第一个候选词v₁时，不执行步骤5.1)～5.3)，候选词v₁作为候选同义词簇C₁，并加入候选同义词簇集C中；从第二个候选词v₂开始执行步骤5.1)～5.3)。

7.根据权利要求3所述的一种基于深度预训练神经网络的中文医疗同义词聚类方法，其特征在于，所述步骤(6)具体为：对步骤(5)生成的候选同义词簇集C中的候选同义词簇C_i执行下述步骤6.1)～6.4)，从而完成候选同义词簇的合并；

6.1)取候选同义词簇集C中的第一个候选同义词簇C₁，将候选同义词簇C₁分别与每个候选同义词簇C_j组成输入数据(C₁，C_j)；

其中，候选同义词簇C_j为在候选同义词簇集C中除候选同义词簇C₁之外的其余候选同义词簇，C₁，C_j∈C，j≠1；步骤3.1)TOKEN输入中的候选词对应于候选同义词簇C_j，TOKEN输入中的同义词簇对应于同义词簇C₁；

6.2)将所有输入数据(C₁，C_j)输入到set-instance神经网络模型中，计算每个输入数据(C₁，C_j)对应的概率p_j，概率p_j为当前两个候选同义词簇合并为一个同义词簇的概率值；

6.3)给定阈值θ，在所有输入数据(C₁，C_j)中，将p_j＞θ时对应的所有候选同义词簇C_j组成候选同义词簇集O；

其中，

p_j＞θ表示当前两个候选同义词簇C₁，C_j可以合并为一个同义词簇；

其中，R初始化为空集；