CN113901207B

CN113901207B - 一种基于数据增强和半监督学习的药物不良反应检测方法

Info

Publication number: CN113901207B
Application number: CN202111078627.5A
Authority: CN
Inventors: 严馨; 佘朝阳; 邓忠莹; 王红斌; 陈玮
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2024-04-26
Anticipated expiration: 2041-09-15
Also published as: CN113901207A

Abstract

本发明涉及一种基于数据增强和半监督学习的药物不良反应检测方法，属于自然语言处理领域。本发明首先收集中文医疗社交媒体的语料，构建数据集；使用回译对未标注数据进行多次增强，对增强样本和原始样本进行标签预测生成人工标签；建立基于Mixup的药物不良反应检测模型，利用标注数据、未标注数据和增强数据对所述模型进行训练，获得训练好的药物不良反应检测模型，实现药物不良反应的检测任务。本发明减轻了标注数据不足带来的影响，并且提高了药物不良反应检测的准确性。

Description

一种基于数据增强和半监督学习的药物不良反应检测方法

技术领域

本发明涉及一种基于数据增强和半监督学习的药物不良反应检测方法，属于自然语言处理领域。

背景技术

药物不良反应检测，通常被看作是涉及ADR的文本二分类问题，即辨别文本是否包含有ADR。早期，大多数研究基于词典识别文本中的ADR，但这类方法无法识别词典中未包含的非常规ADR词汇。有些研究者发现，利用统计机器学习方法通过抽取特征，能够有效提高准确性。随着深度学习的不断发展和广泛应用，基于深度学习方法的ADR检测模型大量涌现。尽管深度学习模型往往表现很好，但通常是基于大量标注数据的监督学习。当只有少量有限的标注数据时，就会出现过拟合现象，严重影响预测的准确性。

发明内容

本发明提供了一种基于数据增强和半监督学习的药物不良反应检测方法，可解决只有少量的药物反应标注数据不足时出现的过拟合现象及其导致的预测准确性不高的问题。

本发明的技术方案是：一种基于数据增强和半监督学习的药物不良反应检测方法，首先收集中文医疗社交媒体的语料，构建数据集；使用回译对未标注数据进行多次增强，对增强样本和原始样本进行标签预测生成人工标签；建立基于Mixup的药物不良反应检测模型，利用标注数据、未标注数据和增强数据对所述模型进行训练，获得训练好的药物不良反应检测模型，实现药物不良反应的检测任务。

所述方法的具体步骤如下：

Step1、首先收集中文医疗社交媒体的语料，构建数据集：

Step1.1、收集中文医疗社交媒体内容，将包含药物的病情描述作为本发明的原始语料，对文本进行预处理；

Step1.2、从所述的原始语料中随机选择部分数据进行人工标注，设定分类标签y∈{0,1}，其中“0”表示不含有药物不良反应，“1”表示含有药物不良反应，得到标注数据集为第i个标注样本的文本内容，/>为第i个标注样本的标签，n是标注样本的数量；

Step1.3、从所述的原始语料中获取未标注数据集为第i个未标注样本，m是未标注样本的数量；

Step2、使用回译对未标注数据进行多次增强，得到增强数据，对增强样本和原始样本进行标签预测生成人工标签：

Step2.1、对于未标注数据集X_u中的每一个样本通过回译生成K个增强数据，k＝[1,K]，K表示中间语言的种类，中间语言选择英语、法语、德语等常见语种；

Step2.2、对于一个未标注数据样本和它的K个增强数据/>分别通过文本分类模型得到其预测结果/>和/>

Step2.3、将原始样本和增强样本的预测结果进行加权平均：使用锐化函数：/> 定义/>即对未标注数据，其所有的增强样本与原始样本共享相同的标签；

Step3、建立基于Mixup的药物不良反应检测模型，利用标注数据、未标注数据和增强数据对所述模型进行训练，获得训练好的药物不良反应检测模型：

Step3.1、输入文本经过编码层得到文本的向量表示：

将标注数据集X_l、未标注数据集和增强数据集/>合并成一个大型的数据集X＝X_l∪X_u∪X_a；

数据集中的每一个文本经过词嵌入编码后得到词序列的低维向量表示E＝[e₁,e₂,…,e_n]，e_i∈R^d表示第i个词的词向量，d表示词向量的维度；

词向量表示经过BiLSTM层，计算词语在上下文中的向量表示：将正向和逆向的LSTM输出/> 和e_i拼接作为第i个词在序列中的隐藏状态表示：/>拼接h_i序列可得到词序列的隐藏状态表示：H＝[h₁；h₂；…；h_n]；

自注意力层的注意力权重矩阵由两层感知器网络计算得到：A＝softmax(W_s2tanh(W_s1H^T))，W_s1和W_s2分别是注意力层的权重矩阵，d_a、r是超参数，d_a表示注意力层隐藏状态的维度，r是注意力机制的个数，文本表示矩阵由词序列的隐藏状态表示和注意力权重矩阵相乘得到：Z＝AH，文本的向量表示z由矩阵Z中的r个向量拼接得到；

Step3.2、Mixup层进行插值操作：

先随机选取一个样本，然后将同批次的样本随机打乱后抽取另一个样本；

由λ～Beta(α,α)，λ＝max(λ,1-λ)得到混合因子λ，将随机选择的两个样本(z_i,y_i)和(z_j,y_j)进行插值：

Step3.3、混合样本通过分类层获得预测值：

混合样本通过一个全连接层和softmax激活函数，得到样本包含药物不良反应的预测概率：其中W和b分别是权重矩阵和偏置；

Step3.4、将预测结果和混合标签进行一致性正则化，使用二者的KL散度作为损失：

为了使模型对未标注数据预测出置信度更高的标签，使用未标注数据的预测结果的最小熵作为损失式中γ表示边界超参数；

结合两种损失，计算总损失：L＝L_Mixup+γ_mL_m，使用Adam优化算法训练模型最小化损失，得到训练的模型。

Step4、利用训练好的模型进行药物不良反应的检测，待检测的样本通过模型获得分类标签，将分类标签为不含有药物不良反应的数据丢弃。

本发明的有益效果是：在有限的标注数据和大量未标注数据的情况下，本发明方法能够缓解标注数据不足带来的影响，充分利用未标注数据，有效提升了ADR检测模型的性能。在标注数据量较少时，模型的提升效果尤其突出。同时未标注数据量的增加，模型性能也会得到一定程度的提升。

附图说明

图1为本发明的框架图；

图2为本发明的模型结构图；

图3为本发明实施例中一份诊疗记录示意图。

具体实施方式

实施例1：如图1-图3所示，一种基于数据增强和半监督学习的药物不良反应检测方法，所述方法包括如下步骤：

Step1、首先收集中文医疗社交媒体的语料，构建数据集：

Step1.1、收集好大夫网站中文医疗社交媒体内容，将包含药物的病情描述作为本发明的原始语料，对文本进行预处理；

Step3、如图2所示，建立基于Mixup的药物不良反应检测模型，利用标注数据、未标注数据和增强数据对所述模型进行训练，获得训练好的药物不良反应检测模型：

Step3.1、输入文本经过编码层得到文本的向量表示：

词向量表示经过BiLSTM层，计算词语在上下文中的向量表示：将正向和逆向的LSTM输出/>和e_i拼接作为第i个词在序列中的隐藏状态表示：/>拼接h_i序列可得到词序列的隐藏状态表示：H＝[h₁；h₂；…；h_n]；

Step3.2、Mixup层进行插值操作：

Step3.3、混合样本通过分类层获得预测值：

目前，在中文医疗社交媒体，没有公开可用的数据集来进行药物不良反应检测。本发明从好大夫网站收集用户的诊疗记录。如图3所示，每个诊疗记录包含患者的信息、病情描述、医生诊疗建议等内容。本发明，选取80余种常用药作为研究内容。本发明获取了网站2011年以后包含相关药物的诊疗记录，选择记录中的病情描述内容作为本发明的原始语料；

本发明共获得42800个文本，每个文本都提及了一种或者多种药物。通过对文本进行预处理，删除URL、英文字母以及各类标点符号等。原始语料来源于中文社交媒体，首先需要对其进行分词。对于医疗数据，传统的jieba分词效果并不理想，因此使用北京大学开源分词工具pkuseg进行分词，调用其自带的medicine模型，将大部分的医药专业词汇分词出来。

为了得到标签数据，本发明从数据集中选取4000条数据让具有药学专业背景的学生进行人工标注。最终得到包含ADR的数据有1621条，不包含ADR的有2379条。从中随机选择2800条作为训练集，1200条作为测试集。

对比实验：

ADR检测模型的对比实验：

本发明选择了几种基于深度学习的ADR检测模型，进行对比实验。选取2800条标签数据训练模型。使用精确率(P)、召回率(R)和F1值作为评价指标。实验结果如表1所示。

(1)CNN：采用不同尺度的卷积神经网络构建文本分类器。设置滤波器宽度为(2,3,4,5)，每个滤波器的大小为25。

(2)CNN+Att：在CNN网络最上层加入注意力机制。

(3)BiLSTM+Att：采用BiLSTM作为编码器，加入注意力机制。

(4)BiLSTM+Att+S-Mixup：在模型(3)的编码层之上加Mixup层。对标签数据进行文本增强，即有监督的Mixup(Supervised Mixup,S-Mixup)。

表1 ADR检测模型的对比实验结果

	P/％	R/％	F1/％
				CNN	66.5	64.8	63.1
CNN+Att	67.0	66.9	67.4
				BiLSTM+Att	69.3	68.2	69.5
BiLSTM+Att+S-Mixup	73.7	72.3	73.3

由表1可以看出，BiLSTM+Att+S-Mixup模型的精确率、召回率和F1值均远优于其他模型。CNN只能获取局部特征，而BiLSTM能够获取上下文信息，并引入注意力机制获取文本的重要特征。神经网络的训练往往需要大量的标注数据，当标签数据有限时，效果往往不太理想。BiLSTM+Att+S-Mixup模型加入Mixup，通过对标签数据进行文本增强，在一定程度上增加了样本数量，从而使模型的性能得到提升，此对比实验主要为说明数据增强的优势，本发明恰好是数据增强和半监督结合的。

半监督模型的对比实验：

接下来本发明选取了几种半监督模型进行对比实验，从训练集中选取不同数量的标签数据和5000条无标签数据。使用准确率(Acc)作为评价指标，实验结果如表2所示。

(1)BiLSTM+Att+S-Mixup：仅使用标签数据。

(2)Pseudo-Label：先使用标签数据训练模型，无标签数据经过分类模型后得到的预测值作为伪标签，将带有伪标签的数据和标签数据一起训练模型。

(3)Π-Model：对于同一数据的输入，使用不同的正则化进行两次预测，通过减小两次预测的差异，提升模型在不同扰动下的一致性。

(4)Mean Teachers：使用时序组合模型，对模型参数进行EMA平均，将平均模型作为teacher预测人工标签，由当前模型(看作student)预测。

(5)BiLSTM+Att+SS-Mixup：即本发明模型。先对无标签数据进行多次增强，将预测值加权平均作为低熵标签，由原始样本和增强样本共享。使用标签数据、无标签数据和增强数据一起对模型进行训练，即半监督的Mixup(Semi-supervised Mixup,SS-Mixup)。

表2半监督模型的对比实验结果(Acc/％)

标注数据量	800	1500	2800
				BiLSTM+Att+S-Mixup	60.3	69.2	75.2
Pseudo-Label	64.2	70.5	75.5
				Π-Model	66.8	71.7	75.8
Mean Teachers	68.1	72.7	76.0
				BiLSTM+Att+SS-Mixup	72.6	75.5	76.6

通过表2可知，与传统的半监督模型相比，本发明模型在不同标签数据量的情况下，准确率都是最高的。当标签数据的数量较少时，效果尤其突出。随着标签数据的增加，本发明模型带来的额外提升效果会逐渐降低。从表中还可以看出，当标签数据量为1500条时，采用本发明模型，与BiLSTM+Att+S-Mixup模型在2800条标签数据时的表现相近。即通过本发明对无标签数据的半监督学习，相当于免费获得了近一倍的额外标签数据。说明本发明模型有效利用了无标签数据的信息，缓解了标签数据量不足的影响。同时本发明模型对于无标签数据，有着较好的标签预测能力。

不同无标签数据量的对比实验：

为了进一步对比无标签数据量对本发明模型的影响，从训练集中挑选了800条标签数据和不同数量的无标签数据。实验结果如表3所示。

表3不同无标签数据量的对比实验结果(Acc/％)

未标注数据量	0	2000	4000	6000	8000
						BiLSTM+Att+SS-Mixup	60.3	67.3	71.8	73.5	74.7

从表3可知，当标签数据量一定时，无标签数据的数量越多，本发明模型的预测结果越准确。验证了本发明方法能够有效利用无标签数据的信息，从而帮助模型在原本的性能基础上得到进一步的提升。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于数据增强和半监督学习的药物不良反应检测方法，其特征在于：所述方法包括：

Step1、首先收集中文医疗社交媒体的语料，构建数据集；

Step2、使用回译对未标注数据进行多次增强，得到增强数据，对增强样本和原始样本进行标签预测生成人工标签；

Step3、建立基于Mixup的药物不良反应检测模型，利用标注数据、未标注数据和增强数据对所述模型进行训练，获得训练好的药物不良反应检测模型；

Step4、利用训练好的模型进行药物不良反应的检测；

所述Step2的具体步骤如下：

Step2.1、对于未标注数据集X_u中的每一个样本通过回译生成K个增强数据，K表示中间语言的种类；

Step2.3、将原始样本和增强样本的预测结果进行加权平均：使用锐化函数：/> 定义即对未标注数据，其所有的增强样本与原始样本共享相同的标签；

所述Step3的具体步骤如下：

Step3.1、输入文本经过编码层得到文本的向量表示：

将标注数据集X_l、未标注数据集和增强数据集/> 合并成一个大型的数据集X＝X_l∪X_u∪X_a；

Step3.2、Mixup层进行插值操作：

Step3.3、混合样本通过分类层获得预测值：

2.根据权利要求1所述的基于数据增强和半监督学习的药物不良反应检测方法，其特征在于，所述Step1的具体步骤如下：

Step1.1、收集中文医疗社交媒体内容，将包含药物的病情描述作为原始语料，对文本进行预处理；

Step1.3、从所述的原始语料中获取未标注数据集为第i个未标注样本，m是未标注样本的数量。

3.根据权利要求1所述的基于数据增强和半监督学习的药物不良反应检测方法，其特征在于，所述Step4中，利用训练好的药物不良反应检测模型进行药物不良反应的检测，待检测的样本通过模型获得分类标签，将分类标签为不含有药物不良反应的数据丢弃。