CN113901207B - 一种基于数据增强和半监督学习的药物不良反应检测方法 - Google Patents
一种基于数据增强和半监督学习的药物不良反应检测方法 Download PDFInfo
- Publication number
- CN113901207B CN113901207B CN202111078627.5A CN202111078627A CN113901207B CN 113901207 B CN113901207 B CN 113901207B CN 202111078627 A CN202111078627 A CN 202111078627A CN 113901207 B CN113901207 B CN 113901207B
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- model
- text
- unlabeled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 208000030453 Drug-Related Side Effects and Adverse reaction Diseases 0.000 title claims description 18
- 206010061623 Adverse drug reaction Diseases 0.000 title claims description 17
- 229940079593 drug Drugs 0.000 claims abstract description 31
- 239000003814 drug Substances 0.000 claims abstract description 31
- 206010067484 Adverse reaction Diseases 0.000 claims abstract description 21
- 230000006838 adverse reaction Effects 0.000 claims abstract description 21
- 238000002372 labelling Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000013519 translation Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 206010067482 No adverse event Diseases 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 230000000052 comparative effect Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于数据增强和半监督学习的药物不良反应检测方法,属于自然语言处理领域。本发明首先收集中文医疗社交媒体的语料,构建数据集;使用回译对未标注数据进行多次增强,对增强样本和原始样本进行标签预测生成人工标签;建立基于Mixup的药物不良反应检测模型,利用标注数据、未标注数据和增强数据对所述模型进行训练,获得训练好的药物不良反应检测模型,实现药物不良反应的检测任务。本发明减轻了标注数据不足带来的影响,并且提高了药物不良反应检测的准确性。
Description
技术领域
本发明涉及一种基于数据增强和半监督学习的药物不良反应检测方法,属于自然语言处理领域。
背景技术
药物不良反应检测,通常被看作是涉及ADR的文本二分类问题,即辨别文本是否包含有ADR。早期,大多数研究基于词典识别文本中的ADR,但这类方法无法识别词典中未包含的非常规ADR词汇。有些研究者发现,利用统计机器学习方法通过抽取特征,能够有效提高准确性。随着深度学习的不断发展和广泛应用,基于深度学习方法的ADR检测模型大量涌现。尽管深度学习模型往往表现很好,但通常是基于大量标注数据的监督学习。当只有少量有限的标注数据时,就会出现过拟合现象,严重影响预测的准确性。
发明内容
本发明提供了一种基于数据增强和半监督学习的药物不良反应检测方法,可解决只有少量的药物反应标注数据不足时出现的过拟合现象及其导致的预测准确性不高的问题。
本发明的技术方案是:一种基于数据增强和半监督学习的药物不良反应检测方法,首先收集中文医疗社交媒体的语料,构建数据集;使用回译对未标注数据进行多次增强,对增强样本和原始样本进行标签预测生成人工标签;建立基于Mixup的药物不良反应检测模型,利用标注数据、未标注数据和增强数据对所述模型进行训练,获得训练好的药物不良反应检测模型,实现药物不良反应的检测任务。
所述方法的具体步骤如下:
Step1、首先收集中文医疗社交媒体的语料,构建数据集:
Step1.1、收集中文医疗社交媒体内容,将包含药物的病情描述作为本发明的原始语料,对文本进行预处理;
Step1.2、从所述的原始语料中随机选择部分数据进行人工标注,设定分类标签y∈{0,1},其中“0”表示不含有药物不良反应,“1”表示含有药物不良反应,得到标注数据集为第i个标注样本的文本内容,/>为第i个标注样本的标签,n是标注样本的数量;
Step1.3、从所述的原始语料中获取未标注数据集为第i个未标注样本,m是未标注样本的数量;
Step2、使用回译对未标注数据进行多次增强,得到增强数据,对增强样本和原始样本进行标签预测生成人工标签:
Step2.1、对于未标注数据集Xu中的每一个样本通过回译生成K个增强数据,k=[1,K],K表示中间语言的种类,中间语言选择英语、法语、德语等常见语种;
Step2.2、对于一个未标注数据样本和它的K个增强数据/>分别通过文本分类模型得到其预测结果/>和/>
Step2.3、将原始样本和增强样本的预测结果进行加权平均:使用锐化函数:/> 定义/>即对未标注数据,其所有的增强样本与原始样本共享相同的标签;
Step3、建立基于Mixup的药物不良反应检测模型,利用标注数据、未标注数据和增强数据对所述模型进行训练,获得训练好的药物不良反应检测模型:
Step3.1、输入文本经过编码层得到文本的向量表示:
将标注数据集Xl、未标注数据集和增强数据集/>合并成一个大型的数据集X=Xl∪Xu∪Xa;
数据集中的每一个文本经过词嵌入编码后得到词序列的低维向量表示E=[e1,e2,…,en],ei∈Rd表示第i个词的词向量,d表示词向量的维度;
词向量表示经过BiLSTM层,计算词语在上下文中的向量表示: 将正向和逆向的LSTM输出/> 和ei拼接作为第i个词在序列中的隐藏状态表示:/>拼接hi序列可得到词序列的隐藏状态表示:H=[h1;h2;…;hn];
自注意力层的注意力权重矩阵由两层感知器网络计算得到:A=softmax(Ws2tanh(Ws1HT)),Ws1和Ws2分别是注意力层的权重矩阵,da、r是超参数,da表示注意力层隐藏状态的维度,r是注意力机制的个数,文本表示矩阵由词序列的隐藏状态表示和注意力权重矩阵相乘得到:Z=AH,文本的向量表示z由矩阵Z中的r个向量拼接得到;
Step3.2、Mixup层进行插值操作:
先随机选取一个样本,然后将同批次的样本随机打乱后抽取另一个样本;
由λ~Beta(α,α),λ=max(λ,1-λ)得到混合因子λ,将随机选择的两个样本(zi,yi)和(zj,yj)进行插值:
Step3.3、混合样本通过分类层获得预测值:
混合样本通过一个全连接层和softmax激活函数,得到样本包含药物不良反应的预测概率:其中W和b分别是权重矩阵和偏置;
Step3.4、将预测结果和混合标签进行一致性正则化,使用二者的KL散度作为损失:
为了使模型对未标注数据预测出置信度更高的标签,使用未标注数据的预测结果的最小熵作为损失式中γ表示边界超参数;
结合两种损失,计算总损失:L=LMixup+γmLm,使用Adam优化算法训练模型最小化损失,得到训练的模型。
Step4、利用训练好的模型进行药物不良反应的检测,待检测的样本通过模型获得分类标签,将分类标签为不含有药物不良反应的数据丢弃。
本发明的有益效果是:在有限的标注数据和大量未标注数据的情况下,本发明方法能够缓解标注数据不足带来的影响,充分利用未标注数据,有效提升了ADR检测模型的性能。在标注数据量较少时,模型的提升效果尤其突出。同时未标注数据量的增加,模型性能也会得到一定程度的提升。
附图说明
图1为本发明的框架图;
图2为本发明的模型结构图;
图3为本发明实施例中一份诊疗记录示意图。
具体实施方式
实施例1:如图1-图3所示,一种基于数据增强和半监督学习的药物不良反应检测方法,所述方法包括如下步骤:
Step1、首先收集中文医疗社交媒体的语料,构建数据集:
Step1.1、收集好大夫网站中文医疗社交媒体内容,将包含药物的病情描述作为本发明的原始语料,对文本进行预处理;
Step1.2、从所述的原始语料中随机选择部分数据进行人工标注,设定分类标签y∈{0,1},其中“0”表示不含有药物不良反应,“1”表示含有药物不良反应,得到标注数据集为第i个标注样本的文本内容,/>为第i个标注样本的标签,n是标注样本的数量;
Step1.3、从所述的原始语料中获取未标注数据集为第i个未标注样本,m是未标注样本的数量;
Step2、使用回译对未标注数据进行多次增强,得到增强数据,对增强样本和原始样本进行标签预测生成人工标签:
Step2.1、对于未标注数据集Xu中的每一个样本通过回译生成K个增强数据,k=[1,K],K表示中间语言的种类,中间语言选择英语、法语、德语等常见语种;
Step2.2、对于一个未标注数据样本和它的K个增强数据/>分别通过文本分类模型得到其预测结果/>和/>
Step2.3、将原始样本和增强样本的预测结果进行加权平均:使用锐化函数:/> 定义/>即对未标注数据,其所有的增强样本与原始样本共享相同的标签;
Step3、如图2所示,建立基于Mixup的药物不良反应检测模型,利用标注数据、未标注数据和增强数据对所述模型进行训练,获得训练好的药物不良反应检测模型:
Step3.1、输入文本经过编码层得到文本的向量表示:
将标注数据集Xl、未标注数据集和增强数据集/>合并成一个大型的数据集X=Xl∪Xu∪Xa;
数据集中的每一个文本经过词嵌入编码后得到词序列的低维向量表示E=[e1,e2,…,en],ei∈Rd表示第i个词的词向量,d表示词向量的维度;
词向量表示经过BiLSTM层,计算词语在上下文中的向量表示: 将正向和逆向的LSTM输出/>和ei拼接作为第i个词在序列中的隐藏状态表示:/>拼接hi序列可得到词序列的隐藏状态表示:H=[h1;h2;…;hn];
自注意力层的注意力权重矩阵由两层感知器网络计算得到:A=softmax(Ws2tanh(Ws1HT)),Ws1和Ws2分别是注意力层的权重矩阵,da、r是超参数,da表示注意力层隐藏状态的维度,r是注意力机制的个数,文本表示矩阵由词序列的隐藏状态表示和注意力权重矩阵相乘得到:Z=AH,文本的向量表示z由矩阵Z中的r个向量拼接得到;
Step3.2、Mixup层进行插值操作:
先随机选取一个样本,然后将同批次的样本随机打乱后抽取另一个样本;
由λ~Beta(α,α),λ=max(λ,1-λ)得到混合因子λ,将随机选择的两个样本(zi,yi)和(zj,yj)进行插值:
Step3.3、混合样本通过分类层获得预测值:
混合样本通过一个全连接层和softmax激活函数,得到样本包含药物不良反应的预测概率:其中W和b分别是权重矩阵和偏置;
Step3.4、将预测结果和混合标签进行一致性正则化,使用二者的KL散度作为损失:
为了使模型对未标注数据预测出置信度更高的标签,使用未标注数据的预测结果的最小熵作为损失式中γ表示边界超参数;
结合两种损失,计算总损失:L=LMixup+γmLm,使用Adam优化算法训练模型最小化损失,得到训练的模型。
Step4、利用训练好的模型进行药物不良反应的检测,待检测的样本通过模型获得分类标签,将分类标签为不含有药物不良反应的数据丢弃。
目前,在中文医疗社交媒体,没有公开可用的数据集来进行药物不良反应检测。本发明从好大夫网站收集用户的诊疗记录。如图3所示,每个诊疗记录包含患者的信息、病情描述、医生诊疗建议等内容。本发明,选取80余种常用药作为研究内容。本发明获取了网站2011年以后包含相关药物的诊疗记录,选择记录中的病情描述内容作为本发明的原始语料;
本发明共获得42800个文本,每个文本都提及了一种或者多种药物。通过对文本进行预处理,删除URL、英文字母以及各类标点符号等。原始语料来源于中文社交媒体,首先需要对其进行分词。对于医疗数据,传统的jieba分词效果并不理想,因此使用北京大学开源分词工具pkuseg进行分词,调用其自带的medicine模型,将大部分的医药专业词汇分词出来。
为了得到标签数据,本发明从数据集中选取4000条数据让具有药学专业背景的学生进行人工标注。最终得到包含ADR的数据有1621条,不包含ADR的有2379条。从中随机选择2800条作为训练集,1200条作为测试集。
对比实验:
ADR检测模型的对比实验:
本发明选择了几种基于深度学习的ADR检测模型,进行对比实验。选取2800条标签数据训练模型。使用精确率(P)、召回率(R)和F1值作为评价指标。实验结果如表1所示。
(1)CNN:采用不同尺度的卷积神经网络构建文本分类器。设置滤波器宽度为(2,3,4,5),每个滤波器的大小为25。
(2)CNN+Att:在CNN网络最上层加入注意力机制。
(3)BiLSTM+Att:采用BiLSTM作为编码器,加入注意力机制。
(4)BiLSTM+Att+S-Mixup:在模型(3)的编码层之上加Mixup层。对标签数据进行文本增强,即有监督的Mixup(Supervised Mixup,S-Mixup)。
表1 ADR检测模型的对比实验结果
P/% | R/% | F1/% | |
CNN | 66.5 | 64.8 | 63.1 |
CNN+Att | 67.0 | 66.9 | 67.4 |
BiLSTM+Att | 69.3 | 68.2 | 69.5 |
BiLSTM+Att+S-Mixup | 73.7 | 72.3 | 73.3 |
由表1可以看出,BiLSTM+Att+S-Mixup模型的精确率、召回率和F1值均远优于其他模型。CNN只能获取局部特征,而BiLSTM能够获取上下文信息,并引入注意力机制获取文本的重要特征。神经网络的训练往往需要大量的标注数据,当标签数据有限时,效果往往不太理想。BiLSTM+Att+S-Mixup模型加入Mixup,通过对标签数据进行文本增强,在一定程度上增加了样本数量,从而使模型的性能得到提升,此对比实验主要为说明数据增强的优势,本发明恰好是数据增强和半监督结合的。
半监督模型的对比实验:
接下来本发明选取了几种半监督模型进行对比实验,从训练集中选取不同数量的标签数据和5000条无标签数据。使用准确率(Acc)作为评价指标,实验结果如表2所示。
(1)BiLSTM+Att+S-Mixup:仅使用标签数据。
(2)Pseudo-Label:先使用标签数据训练模型,无标签数据经过分类模型后得到的预测值作为伪标签,将带有伪标签的数据和标签数据一起训练模型。
(3)Π-Model:对于同一数据的输入,使用不同的正则化进行两次预测,通过减小两次预测的差异,提升模型在不同扰动下的一致性。
(4)Mean Teachers:使用时序组合模型,对模型参数进行EMA平均,将平均模型作为teacher预测人工标签,由当前模型(看作student)预测。
(5)BiLSTM+Att+SS-Mixup:即本发明模型。先对无标签数据进行多次增强,将预测值加权平均作为低熵标签,由原始样本和增强样本共享。使用标签数据、无标签数据和增强数据一起对模型进行训练,即半监督的Mixup(Semi-supervised Mixup,SS-Mixup)。
表2半监督模型的对比实验结果(Acc/%)
标注数据量 | 800 | 1500 | 2800 |
BiLSTM+Att+S-Mixup | 60.3 | 69.2 | 75.2 |
Pseudo-Label | 64.2 | 70.5 | 75.5 |
Π-Model | 66.8 | 71.7 | 75.8 |
Mean Teachers | 68.1 | 72.7 | 76.0 |
BiLSTM+Att+SS-Mixup | 72.6 | 75.5 | 76.6 |
通过表2可知,与传统的半监督模型相比,本发明模型在不同标签数据量的情况下,准确率都是最高的。当标签数据的数量较少时,效果尤其突出。随着标签数据的增加,本发明模型带来的额外提升效果会逐渐降低。从表中还可以看出,当标签数据量为1500条时,采用本发明模型,与BiLSTM+Att+S-Mixup模型在2800条标签数据时的表现相近。即通过本发明对无标签数据的半监督学习,相当于免费获得了近一倍的额外标签数据。说明本发明模型有效利用了无标签数据的信息,缓解了标签数据量不足的影响。同时本发明模型对于无标签数据,有着较好的标签预测能力。
不同无标签数据量的对比实验:
为了进一步对比无标签数据量对本发明模型的影响,从训练集中挑选了800条标签数据和不同数量的无标签数据。实验结果如表3所示。
表3不同无标签数据量的对比实验结果(Acc/%)
未标注数据量 | 0 | 2000 | 4000 | 6000 | 8000 |
BiLSTM+Att+SS-Mixup | 60.3 | 67.3 | 71.8 | 73.5 | 74.7 |
从表3可知,当标签数据量一定时,无标签数据的数量越多,本发明模型的预测结果越准确。验证了本发明方法能够有效利用无标签数据的信息,从而帮助模型在原本的性能基础上得到进一步的提升。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.一种基于数据增强和半监督学习的药物不良反应检测方法,其特征在于:所述方法包括:
Step1、首先收集中文医疗社交媒体的语料,构建数据集;
Step2、使用回译对未标注数据进行多次增强,得到增强数据,对增强样本和原始样本进行标签预测生成人工标签;
Step3、建立基于Mixup的药物不良反应检测模型,利用标注数据、未标注数据和增强数据对所述模型进行训练,获得训练好的药物不良反应检测模型;
Step4、利用训练好的模型进行药物不良反应的检测;
所述Step2的具体步骤如下:
Step2.1、对于未标注数据集Xu中的每一个样本通过回译生成K个增强数据,K表示中间语言的种类;
Step2.2、对于一个未标注数据样本和它的K个增强数据/>分别通过文本分类模型得到其预测结果/>和/>
Step2.3、将原始样本和增强样本的预测结果进行加权平均: 使用锐化函数:/> 定义即对未标注数据,其所有的增强样本与原始样本共享相同的标签;
所述Step3的具体步骤如下:
Step3.1、输入文本经过编码层得到文本的向量表示:
将标注数据集Xl、未标注数据集和增强数据集/> 合并成一个大型的数据集X=Xl∪Xu∪Xa;
数据集中的每一个文本经过词嵌入编码后得到词序列的低维向量表示E=[e1,e2,…,en],ei∈Rd表示第i个词的词向量,d表示词向量的维度;
词向量表示经过BiLSTM层,计算词语在上下文中的向量表示: 将正向和逆向的LSTM输出/>和ei拼接作为第i个词在序列中的隐藏状态表示:/>拼接hi序列可得到词序列的隐藏状态表示:H=[h1;h2;…;hn];
自注意力层的注意力权重矩阵由两层感知器网络计算得到:A=softmax(Ws2tanh(Ws1HT)),Ws1和Ws2分别是注意力层的权重矩阵,da、r是超参数,da表示注意力层隐藏状态的维度,r是注意力机制的个数,文本表示矩阵由词序列的隐藏状态表示和注意力权重矩阵相乘得到:Z=AH,文本的向量表示z由矩阵Z中的r个向量拼接得到;
Step3.2、Mixup层进行插值操作:
先随机选取一个样本,然后将同批次的样本随机打乱后抽取另一个样本;
由λ~Beta(α,α),λ=max(λ,1-λ)得到混合因子λ,将随机选择的两个样本(zi,yi)和(zj,yj)进行插值:
Step3.3、混合样本通过分类层获得预测值:
混合样本通过一个全连接层和softmax激活函数,得到样本包含药物不良反应的预测概率:其中W和b分别是权重矩阵和偏置;
Step3.4、将预测结果和混合标签进行一致性正则化,使用二者的KL散度作为损失:
为了使模型对未标注数据预测出置信度更高的标签,使用未标注数据的预测结果的最小熵作为损失式中γ表示边界超参数;
结合两种损失,计算总损失:L=LMixup+γmLm,使用Adam优化算法训练模型最小化损失,得到训练的模型。
2.根据权利要求1所述的基于数据增强和半监督学习的药物不良反应检测方法,其特征在于,所述Step1的具体步骤如下:
Step1.1、收集中文医疗社交媒体内容,将包含药物的病情描述作为原始语料,对文本进行预处理;
Step1.2、从所述的原始语料中随机选择部分数据进行人工标注,设定分类标签y∈{0,1},其中“0”表示不含有药物不良反应,“1”表示含有药物不良反应,得到标注数据集 为第i个标注样本的文本内容,/>为第i个标注样本的标签,n是标注样本的数量;
Step1.3、从所述的原始语料中获取未标注数据集 为第i个未标注样本,m是未标注样本的数量。
3.根据权利要求1所述的基于数据增强和半监督学习的药物不良反应检测方法,其特征在于,所述Step4中,利用训练好的药物不良反应检测模型进行药物不良反应的检测,待检测的样本通过模型获得分类标签,将分类标签为不含有药物不良反应的数据丢弃。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111078627.5A CN113901207B (zh) | 2021-09-15 | 2021-09-15 | 一种基于数据增强和半监督学习的药物不良反应检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111078627.5A CN113901207B (zh) | 2021-09-15 | 2021-09-15 | 一种基于数据增强和半监督学习的药物不良反应检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113901207A CN113901207A (zh) | 2022-01-07 |
CN113901207B true CN113901207B (zh) | 2024-04-26 |
Family
ID=79028486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111078627.5A Active CN113901207B (zh) | 2021-09-15 | 2021-09-15 | 一种基于数据增强和半监督学习的药物不良反应检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901207B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114925773A (zh) * | 2022-05-30 | 2022-08-19 | 阿里巴巴(中国)有限公司 | 模型训练方法、装置、电子设备以及存储介质 |
CN115455177B (zh) * | 2022-08-02 | 2023-07-21 | 淮阴工学院 | 基于混合样本空间的不平衡化工文本数据增强方法及装置 |
CN116610770B (zh) * | 2023-04-26 | 2024-02-27 | 火眼金睛数据服务(雄安)有限公司 | 一种基于大数据的司法领域类案推送方法 |
CN116313153B (zh) * | 2023-05-12 | 2023-08-01 | 北京大学 | 一种结合非临床数据的药物不良反应预测方法和系统 |
CN117558464B (zh) * | 2024-01-12 | 2024-04-26 | 四川大学华西医院 | 老年患者adr预测模型构建方法、预测系统和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377755A (zh) * | 2019-07-03 | 2019-10-25 | 江苏省人民医院(南京医科大学第一附属医院) | 基于药品说明书的合理用药知识图谱构建方法 |
CN111061847A (zh) * | 2019-11-22 | 2020-04-24 | 中国南方电网有限责任公司 | 对话生成及语料扩充方法、装置、计算机设备和存储介质 |
CN111950264A (zh) * | 2020-08-05 | 2020-11-17 | 广东工业大学 | 文本数据增强方法及知识元抽取方法 |
CN112712118A (zh) * | 2020-12-29 | 2021-04-27 | 银江股份有限公司 | 一种面向医疗文本数据的过滤方法及系统 |
CN113254599A (zh) * | 2021-06-28 | 2021-08-13 | 浙江大学 | 一种基于半监督学习的多标签微博文本分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11755915B2 (en) * | 2018-06-13 | 2023-09-12 | Zignal Labs, Inc. | System and method for quality assurance of media analysis |
-
2021
- 2021-09-15 CN CN202111078627.5A patent/CN113901207B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377755A (zh) * | 2019-07-03 | 2019-10-25 | 江苏省人民医院(南京医科大学第一附属医院) | 基于药品说明书的合理用药知识图谱构建方法 |
CN111061847A (zh) * | 2019-11-22 | 2020-04-24 | 中国南方电网有限责任公司 | 对话生成及语料扩充方法、装置、计算机设备和存储介质 |
CN111950264A (zh) * | 2020-08-05 | 2020-11-17 | 广东工业大学 | 文本数据增强方法及知识元抽取方法 |
CN112712118A (zh) * | 2020-12-29 | 2021-04-27 | 银江股份有限公司 | 一种面向医疗文本数据的过滤方法及系统 |
CN113254599A (zh) * | 2021-06-28 | 2021-08-13 | 浙江大学 | 一种基于半监督学习的多标签微博文本分类方法 |
Non-Patent Citations (3)
Title |
---|
semi-supervised and task-driven data augmentation;Krishna等;IPMI 2019 information processing in medical imaging;20190522;29-41 * |
基于数据增强和半监督学习的药物不良反应检测;佘朝阳等;计算机工程;20211015;1-10 * |
改进biLSTM网络的短文本分类方法;李文慧;张英俊;潘理虎;;计算机工程与设计;20200316;第41卷(第03期);880-886 * |
Also Published As
Publication number | Publication date |
---|---|
CN113901207A (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113901207B (zh) | 一种基于数据增强和半监督学习的药物不良反应检测方法 | |
CN111540468B (zh) | 一种诊断原因可视化的icd自动编码方法与系统 | |
Yin et al. | Chinese clinical named entity recognition with radical-level feature and self-attention mechanism | |
CN110705293A (zh) | 基于预训练语言模型的电子病历文本命名实体识别方法 | |
Wang et al. | Cross-modal prototype driven network for radiology report generation | |
Chan et al. | Reproducible extraction of cross-lingual topics (rectr) | |
Eyuboglu et al. | Multi-task weak supervision enables anatomically-resolved abnormality detection in whole-body FDG-PET/CT | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN113343703B (zh) | 医学实体的分类提取方法、装置、电子设备及存储介质 | |
Peng et al. | BG-SAC: Entity relationship classification model based on Self-Attention supported Capsule Networks | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
Diao et al. | Multi-granularity bidirectional attention stream machine comprehension method for emotion cause extraction | |
CN113312907B (zh) | 基于混合神经网络的远程监督关系抽取方法及装置 | |
Orosoo et al. | Performance analysis of a novel hybrid deep learning approach in classification of quality-related English text | |
Wu et al. | AGNet: Automatic generation network for skin imaging reports | |
CN116108840A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
Chen et al. | Learning the chinese sentence representation with LSTM autoencoder | |
CN112765353B (zh) | 一种基于科研文本的生物医学学科分类方法及装置 | |
CN111767402B (zh) | 一种基于对抗学习的限定域事件检测方法 | |
CN114444467A (zh) | 一种中医文献内容分析方法和装置 | |
Zhong et al. | Improving Chinese medical named entity recognition using glyph and lexicon | |
Souri et al. | Neural network dealing with Arabic language | |
CN116597437B (zh) | 融合双层注意力网络的端到端老挝车牌照识别方法及装置 | |
CN111581469B (zh) | 基于多子空间表示的偏多标记学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |