CN116072306A - 基于BioBERT与改进Focal loss的药物互作信息提取方法 - Google Patents

基于BioBERT与改进Focal loss的药物互作信息提取方法 Download PDF

Info

Publication number
CN116072306A
CN116072306A CN202310082731.4A CN202310082731A CN116072306A CN 116072306 A CN116072306 A CN 116072306A CN 202310082731 A CN202310082731 A CN 202310082731A CN 116072306 A CN116072306 A CN 116072306A
Authority
CN
China
Prior art keywords
biobert
sentence
entity
layer
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310082731.4A
Other languages
English (en)
Inventor
韩惠蕊
李晋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan Medical College
Original Assignee
Hainan Medical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan Medical College filed Critical Hainan Medical College
Priority to CN202310082731.4A priority Critical patent/CN116072306A/zh
Publication of CN116072306A publication Critical patent/CN116072306A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Toxicology (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及信息提取技术领域,且公开了基于BioBERT与改进Focal loss的药物互作信息提取方法,该方法使用生物医学语料库预训练的BioBERT模型对文本序列进行预处理,该模型遵循基于R‑BERT的结构,对于有两个标记药物实体e1和e2的句子,通过BioBERT层的标记嵌入、段嵌入和位置嵌入得到语义向量。本发明将生物医学语料库(BioBERT)上预训练的双向编码器表示应用于生物医学文献中的DDI提取。BioBERT得到代表句子中实体的语义向量后,将句子中两个实体的嵌入平均为两个向量,连接第一个token,并通过激活操作通过全连接层。此外,本发明探索了一种改进的focal loss损失函数来处理不平衡数据。在DDIExtraction 2013上进行训练后得出,本发明的性能f值达到了80.45%,与传统交叉熵损失函数的BioBERT方法相比,取得了显著的改进。

Description

基于BioBERT与改进Focal loss的药物互作信息提取方法
技术领域
本发明涉及信息提取技术领域,具体为基于BioBERT与改进Focal loss的药物互作信息提取方法。
背景技术
药物-药物相互作用(DDIs)已成为临床治疗中一个重要的现象,它主要是由多种药物联合导致的。在许多情况下,药物不良反应(ADR)是药物互作可能导致的后果,它会导致更加未知的副作用产生。然而,在临床试验中,对某些药物的所有组合进行检测是非常困难的,人们往往不知道某些药物的组合所存在的风险。近几十年来,生物医学文献呈指数增长,隐藏了大量有价值的DDIs信息。因此,从生物医学文献中提取DDIs一直是识别和分类药效的任务,受到生物医学界的广泛关注。
在过去的十年中,许多传统的机器学习方法被应用于DDIs的提取,如基于特征的、基于核的方法,以及基于规则的方法。由于深度学习已经成为机器学习的主要方法,DDIs提取任务的神经网络模型也被提出。这些方法根据神经网络的结构可分为两类,即基于CNN的方法和基于RNN的方法。基于CNN的方法由卷积层、池化层和全连接层组成,并用于预测;基于RNN的方法由输入层、自连接的隐藏层和输出层组成,并用于预测。在提出DDIExtraction 2013任务后,许多不同的方法被提出来。例如,Liu等人首次提出了一种基于CNN的DDIs Extraction任务方法,该方法获得了69.75%的F1值。Zhang等建立了基于提取某些特征相互作用和药物相似度度量的CNN-DDI体系结构,F1分值为74.96%。对于基于RNN的方法,Huang等将SVM和Long-Short-Term Memory(LSTM)结合为两阶段识别和分类方法,得到了69.0%的F1值。Ramakanth等人将基于字符的RNN用于DDI提取,在基于规则的过滤负实例的情况下,得到了72.13%的F1得分。Zhang等人提出了一种基于层次递归神经网络的最短依赖路径和句子序列的集成方法,该方法对DDIs进行提取获得了72.90%的F1值。Sun等人提出了具有focal loss的混合卷积神经网络,得到的F1值为75.48%的模型性能。尽管这些方法对DDIs提取任务做出了很大贡献,但大量的特征和参数会占用大量的计算资源,在实践中不能很好地推广。
最近,基于注意力机制的方法被应用到DDIs的关系提取中,目的是学习文本中良好的embedding。Yi等人引入了具有多重注意层模型的双向递归神经网络用于DDIs分类,并得到了72.20%的F-score。Zheng等结合注意机制和长短期记忆(LSTM)提取DDIs效果良好,F1得分为77.30%。Zhou等提出了一种基于注意的双向长短期记忆(BiLSTM)网络,结合位置感知注意权重进行DDI提取,其F1得分为72.99%。
随着transformer模型在自然语言处理(NLP)的发展中越来越受到重视,预训练语言模型已成为自然语言处理方法的核心,并在DDI提取的发展中发挥着重要作用,如transformer的双向编码器表示(BERT)。BERT模型利用了transformer编码器的结构,通过对大量文本数据进行预训练,实现了通用文本嵌入,已成为一种非常典型的预训练模型,并已应用于关系抽取的任务中。BioBERT是一种基于大规模生物医学语料库进行预训练的生物医学语言表示模型。Peng等人首先在PubMed摘要和MIMIC-III上预训练BERT模型,它在DDIs提取上给出了79.9%的F1值。Li等人提出了一种图卷积网络和BioBERT模型来获取句法信息,该模型在DDIs提取任务上的F1值为76.64%。由上述可知,经过预训练的语言模型在DDIExtraction 2013上比之前的神经网络研究表现得更好。因此,使用BioBERT预训练模型能提高DDIs提取的性能。
由于DDIs提取任务中负样本的比例较大,使得实例较少的DDIs类型难以分类。许多研究首先利用过滤策略过滤掉负样本,缓解不平衡问题,但极端不平衡仍然存在,导致很多错误分类。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了基于BioBERT与改进Focal loss的药物互作信息提取方法,解决了上述背景技术中所存在的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:基于BioBERT与改进Focal loss的药物互作信息提取方法,该方法使用生物医学语料库预训练的BioBERT模型对文本序列进行预处理,该模型遵循基于R-BERT的结构,对于有两个标记药物实体e1和e2的句子,通过BioBERT层的标记嵌入、段嵌入和位置嵌入得到语义向量;对于来自隐藏层的第一个token向量(即“[CLS]”),应用具有激活函数的全连接层;对于句子中的实体,计算每个实体向量的平均值来表示该实体,然后通过具有激活函数的全连接层;最后将向量的三个部分(e1、e2和token)连接起来,将一个全连接层和一个改进的focal loss损失函数的softmax应用到最终输出中,得到DDIs分类的概率,以确定它们属于哪一类;具体包括以下步骤:
S1、预处理:对于一个给定的句子,句子中所有可能的药物实体组合都是由原始数据生成的,实例被定义为一个含有药物对的句子(即两个不同的药物实体),因此,包含一个以上药物对的句子(即两个以上不同的药物实体)被划分为几个实例,实例的数量等于句子中药物对的数量,为了标记药物对,在第一个第二个药物实体的开始插入特殊标记“<e1>”和“<e2>”分别在每个实体的末尾插入“</e1>”和“</e2>”此外,符号“[CLS]”和“[SEP]”被添加到每句话的开头和结尾,例如,一个带有实体标记的句子将是:“[CLS]Given the CNSeffects of<e1>paliperidone</e1>should be used with caution in combinationwith other<e2>centrally acting drugs</e2>[SEP]”;
S2、模型训练
Embedding层:对于目标实体e1和e2的句子,其从BioBERT输出的最终隐藏状态定义为H∈Rn*d,n为BioBERT标记化过程后句子的token数,d为BioBERT的隐藏状态大小;实体e1的BioBERT的隐藏输出将是向量Hi到Hj,i是实体e1的开始令牌的位置,j是实体e1的结束token位置;同样的,表示向量Hk到Hm是实体e2的BioBERT的最终隐藏状态输出,其中k和m是实体e2的开始和结束标记的位置;每个实体的向量表示是通过平均运算得到的;然后创建一个包含dropout层和一个具有激活操作(即tanh)的致密层的全连接层来计算两个向量;最后,H'1∈Rd*1和H'2∈Rd*1是实体e1和e2的最终输出,其数学表达式如下:
Figure BDA0004068010930000041
Figure BDA0004068010930000042
(1)、(2)式中W1=W2,b1=b2,因为它们共享相同的参数;对于句子的第一个标记(即“[CLS]”),采用全连通层和激活运算,得到H'0∈R1*d,其数学表达式如下:
H'0=W0(tanh(H0))+b0 (3)
其中,W0、W1、W2的维数是相同的,即W0∈Rd*d、W1∈Rd*d、W2∈Rd*d,式中b0、b1、b2均为偏置向量;
连接隐藏层:将H'0、H'1、H'2作为h”∈R1*3d,将h”输入到softmax层中得到预测输出,该过程可表示为:
h”=concat(H'0,H'1,H'2) (4)
p=softmax(h”) (5)
其中,p是最终分类概率的输出;
改进的focal loss损失函数:在训练迭代中,通常使用交叉熵作为损失函数,交叉熵的数学表达式为:
Figure BDA0004068010930000051
式中,y是实例的真实值,pi是预测概率,C是DDI类型的数量;显然,预测概率越接近于真实概率越好;
用pt表示yi=1时对应的概率pi,计算损失的交叉熵函数可写为:
LossCE'=-log(pt) (7)
DDI Extraction 2013的数据是相当不平衡的,这使得模型很难进行分类,特别是对于实例较少的类型,负实例(“None”)的数量远远大于其他实例的数量,在损失中所占比列最大,这对梯度密度的影响很大;然而,DDI提取任务主要是识别量中药物实体之间的相互作用,因此需要调整每种类型的权重,以减少噪声负实例的影响;
解决不平衡问题的focal loss损失函数如下式所示:
L=-α(1-pt)γlog(pt) (8)
其中,γ(γ>0)是focal loss损失函数的调制因子,(1-pt)γ是调整项;对于pt接近于1的易分类实例,其对应的调制项(1-pt)γ接近于0;当一个pt接近0的难分类实例,其对应的调制项(1-pt)γ接近1;与交叉熵损失相比,难分类实例的focal loss损失是稳定的,而易分类实例的focal loss损失是减小的;总的来说,focal loss损失函数增加了难分类实例的权重,使得损失函数向难分类的实例倾斜;有助于提高难以分类的准确率;
式(8)中的α是对应类别(α∈[0,1])的权重因子;每个类别都对应于它唯一的α;对于i类,αi可通过以下公式计算:
Figure BDA0004068010930000061
其中l是类别的数量,Counti是i类的实例数量;
为避免过拟合,结合focal loss损失和交叉熵损失函数,提出了一种改进的多分类focal loss函数,采用改进的损失函数如下:
L'i=-(1-e)αi(1-pt)γlog(pt)-elog(pt) (10)
其中超参数e可用于调整focal loss损失函数和交叉熵损失函数的权重;不同类别的损失e相同,则最终损失为各类损失之和,如式(11):
Figure BDA0004068010930000062
(三)有益效果
本发明提供了基于BioBERT与改进Focal loss的药物互作信息提取方法,具备以下有益效果:
本发明将生物医学语料库(BioBERT)上预训练的双向编码器表示应用于生物医学文献中的DDI提取。BioBERT得到代表句子中实体的语义向量后,将句子中两个实体的嵌入平均为两个向量,连接第一个token,并通过激活操作通过全连接层。此外,本发明探索了一种改进的focal loss损失函数来处理不平衡数据。在DDIExtraction 2013上进行训练后得出,本发明的性能f值达到了80.45%,与传统交叉熵损失函数的BioBERT方法相比,取得了显著的改进。
附图说明
图1为DDI信息提取模型示意图;
图2为分类混淆矩阵和比例变化图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:基于BioBERT与改进Focal loss的药物互作信息提取方法,如图1所示,该方法使用生物医学语料库预训练的BioBERT模型对文本序列进行预处理,对于有两个标记药物实体e1和e2的句子,通过BioBERT层的标记嵌入、段嵌入和位置嵌入得到语义向量;对于来自隐藏层的第一个token向量(即“[CLS]”),应用具有激活函数的全连接层;对于句子中的实体,计算每个实体向量的平均值来表示该实体,然后通过具有激活函数的全连接层;最后将向量的三个部分(e1、e2和token)连接起来,将一个全连接层和一个改进的focal loss损失函数的softmax应用到最终输出中,得到DDIs分类的概率,以确定它们属于哪一类;具体包括以下步骤:
S1、预处理:对于一个给定的句子,句子中所有可能的药物实体组合都是由原始数据生成的,实例被定义为一个含有药物对的句子(即两个不同的药物实体),因此,包含一个以上药物对的句子(即两个以上不同的药物实体)被划分为几个实例,实例的数量等于句子中药物对的数量,为了标记药物对,在第一个第二个药物实体的开始插入特殊标记“<e1>”和“<e2>”分别在每个实体的末尾插入“</e1>”和“</e2>”此外,符号“[CLS]”和“[SEP]”被添加到每句话的开头和结尾;
S2、模型训练
Embedding层:对于目标实体e1和e2的句子,其从BioBERT输出的最终隐藏状态定义为H∈Rn*d,n为BioBERT标记化过程后句子的token数,d为BioBERT的隐藏状态大小;实体e1的BioBERT的隐藏输出将是向量Hi到Hj,i是实体e1的开始令牌的位置,j是实体e1的结束token位置;同样的,表示向量Hk到Hm是实体e2的BioBERT的最终隐藏状态输出,其中k和m是实体e2的开始和结束标记的位置;每个实体的向量表示是通过平均运算得到的;然后创建一个包含dropout层和一个具有激活操作(即tanh)的致密层的全连接层来计算两个向量;最后,H'1∈Rd*1和H'2∈Rd*1是实体e1和e2的最终输出,其数学表达式如下:
Figure BDA0004068010930000081
Figure BDA0004068010930000082
(1)、(2)式中W1=W2,b1=b2,因为它们共享相同的参数;对于句子的第一个标记(即“[CLS]”),采用全连通层和激活运算,得到H'0∈R1*d,其数学表达式如下:
H'0=W0(tanh(H0))+b0 (3)
其中,W0、W1、W2的维数是相同的,即W0∈Rd*d、W1∈Rd*d、W2∈Rd*d,式中b0、b1、b2均为偏置向量;
连接隐藏层:将H'0、H'1、H'2作为h”∈R1*3d,将h”输入到softmax层中得到预测输出,该过程可表示为:
h”=concat(H'0,H'1,H'2) (4)
p=softmax(h”) (5)
其中,p是最终分类概率的输出;
改进的focal loss损失函数:在训练迭代中,通常使用交叉熵作为损失函数,交叉熵的数学表达式为:
Figure BDA0004068010930000091
式中,y是实例的真实值,pi是预测概率,C是DDI类型的数量;显然,预测概率越接近于真实概率越好;
用pt表示yi=1时碎银的概率pi,计算损失的交叉熵函数可写为:
LossCE'=-log(pt) (7)
如表1所示,DDI Extraction 2013的数据是相当不平衡的,这使得模型很难进行分类,特别是对于实例较少的类型,负实例(“None”)的数量远远大于其他实例的数量,在损失中所占比列最大,这对梯度密度的影响很大;然而,DDI提取任务主要是识别量中药物实体之间的相互作用,因此需要调整每种类型的权重,以减少噪声负实例的影响;
解决不平衡问题的focal loss损失函数如下式所示:
L=-α(1-pt)γlog(pt) (8)
其中,γ(γ>0)是focal loss损失函数的调制因子,(1-pt)γ是调整项;对于pt接近于1的易分类实例,其对应的调制项(1-pt)γ接近于0;当一个pt接近0的难分类实例,其对应的调制项(1-pt)γ接近1;与交叉熵损失相比,难分类实例的focal loss损失是稳定的,而易分类实例的focal loss损失是减小的;总的来说,focal loss损失函数增加了难分类实例的权重,使得损失函数向难分类的实例倾斜;有助于提高难以分类的准确率;
式(8)中的α是对应类别(α∈[0,1])的权重因子;每个类别都对应于它唯一的α;对于i类,αi可通过以下公式计算:
Figure BDA0004068010930000101
其中l是类别的数量,Counti是i类的实例数量;
为避免过拟合,结合focal loss损失和交叉熵损失函数,提出了一种改进的多分类focal loss函数,采用改进的损失函数如下:
L'i=-(1-e)αi(1-pt)γlog(pt)-elog(pt) (10)
其中超参数e可用于调整focal loss损失函数和交叉熵损失函数的权重;不同类别的损失e相同,则最终损失为各类损失之和,如式(11):
Figure BDA0004068010930000102
S3、实验
数据集:DDI Extraction 2013语料库作为DDI提取任务的基准数据集,在给定的句子中使用药理学物质(药物命名实体)和两种候选药物之间的相互作用进行注释。该语料库由233句来自MedLine摘要和792篇来自DrugBank数据库的文本组成。在这个语料库中有五种DDI类型:Advice,Mechanism,Effect,Int,以及False/None。其定义如下:
Advice:当给出关于两种药物同时使用的建议或建议时,使用此类型。(例如:“Itis recommended not to exceed a single 5mg dose of Vardenafil in a 24-hourperiod when used in combination with erythromycin”)。
Mechanism:当句子中含有两种药物的药代动力学机制时,用这种类型进行注释。(例如:“Extended release tablets:administration of nifedipine with digoxinincreased digoxin levels in 9of 12normal volunteers.”)。
Effect:当句子中包含药效机理时,就指定这种类型。(例如:“Corticotropin mayaccentuate the electrolyte loss associated with diuretic therapy.”)。
Int:当句子状态不为出现在文本中的DDI提供任何特定信息时,就会识别这种类型。(例如:“Possible drug interactions of HUMORSOL with succinylcholine or withother anticholinesterase agents.”)。
False/None:这用于说明联合用药没有相互作用。(例如:“The concomitantadministration of Exjade and aluminum-containing antacid preparations has notbeen formally studied.”)。
本发明首先采用一种过滤否定实例的策略,过滤句子中两种药物相同的实例,包括相同的坐标结构、相同的名称(如缩写)和药物对中另一种药物的特殊情况。经过筛选,训练集由DrugBank和MedLine的714篇摘要中的6976句组成,测试集由191篇摘要中的1299句组成。此外,随机选取20%的训练集(DDI对)作为验证集,寻找并优化合适的超参数。最后,训练集和测试集分别有22236和5716对DDI,验证集有5558对DDI。数据集的统计情况如表1所示。
表1Statistics of datasets
Figure BDA0004068010930000111
Figure BDA0004068010930000121
实验设置:在实验中,本发明使用了Tensorflow的Keras库。通过加载BERT模型,利用Keras-BERT库实现DDI提取模型。使用Python3.7进行代码编写。运行中的服务器配置为8核Intel CPU、NVIDIA RTX3090GPU和768GB存储量。模型参数由BioBERT(PubMed和PubMedCentral)的预训练权值初始化,超参数设置如表2所示。因子e和γ是改进的focal loss损失的超参数。
表2超参数的设置
超参数 Value
Batch_size 8
Train_epochs 10
Learning rate 0.001
Decay 0.1
Dropout_rate 0.1
Hidden_size 768
e 0.1
γ 2
用微平均F1值来评价模型的性能。其定义如下:
Figure BDA0004068010930000122
Figure BDA0004068010930000123
Figure BDA0004068010930000124
其中
Figure BDA0004068010930000125
分别表示真阳性实例、假阳性实例和假阴性实例的数量。
结果与分析
与其他方法的性能比较:将本发明的性能与在DDI Extraction 2013上实现的其他一些已经发表的深度学习模型进行了比较。如表3所示,计算Precision,Recall和F-score来评估本发明的性能。改进focal loss的BioBERT模型的Precision、Recall和F-score分别为80.4%、80.49%和80.45%,且F-score显著优于基于CNN、RNN和BioBERT的方法。此外,与传统的交叉熵损失相比,BioBERT的性能得到了提高。
表3与现有的神经网络模型比较结果
Figure BDA0004068010930000131
为了进一步研究了模型的表现性能,模型的分类混淆矩阵如下图所示。从图2所示的分类混淆矩阵的比例变化可以看出,与传统交叉熵损失的基础BioBERT相比,本发明几乎提高了所有类型的性能。特别是“mechanism”类型的分类提高了3.89%。四种类型的比例变化表明,改进的focal loss损失降低了对“none”类型的注意,且对训练样本较多的类型更有效。
不同输入向量对BioBERT性能的影响:作为通过生物医学语料库预训练的模型,BioBERT在两个生物医学领域语料库上进行了预训练:PubMed摘要和PMC全文文章。为了展示不同预训练模型对本发明的影响,测试了原始的BERT和现有的BioBERT。从表4的结果可以看出,BioBERT模型比原始BERT模型获得了更好的性能,并且BioBERT使用的训练语料库越多,BioBERT模型的性能越好。
表4The effect of different pre-trained model on the performance ofour method
Figure BDA0004068010930000141
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (1)

1.基于BioBERT与改进Focal loss的药物互作信息提取方法,其特征在于,该方法使用生物医学语料库预训练的BioBERT模型对文本序列进行预处理,对于有两个标记药物实体e1和e2的句子,通过BioBERT层的标记嵌入、段嵌入和位置嵌入得到语义向量;对于来自隐藏层的第一个token向量(即“[CLS]”),应用具有激活函数的全连接层;对于句子中的实体,计算每个实体向量的平均值来表示该实体,然后通过具有激活函数的全连接层;最后将向量的三个部分(e1、e2和token)连接起来,将一个全连接层和一个改进的focal loss损失函数的softmax应用到最终输出中,得到DDIs分类的概率,以确定它们属于哪一类;具体包括以下步骤:
S1、预处理:对于一个给定的句子,句子中所有可能的药物实体组合都是由原始数据生成的,实例被定义为一个含有药物对的句子(即两个不同的药物实体),因此,包含一个以上药物对的句子(即两个以上不同的药物实体)被划分为几个实例,实例的数量等于句子中药物对的数量,为了标记药物对,在第一个第二个药物实体的开始插入特殊标记“<e1>”和“<e2>”分别在每个实体的末尾插入“</e1>”和“</e2>”此外,符号“[CLS]”和“[SEP]”被添加到每句话的开头和结尾;
S2、模型训练
Embedding层:对于目标实体e1和e2的句子,其从BioBERT输出的最终隐藏状态定义为H∈Rn*d,n为BioBERT标记化过程后句子的token数,d为BioBERT的隐藏状态大小;实体e1的BioBERT的隐藏输出将是向量Hi到Hj,i是实体e1的开始令牌的位置,j是实体e1的结束token位置;同样的,表示向量Hk到Hm是实体e2的BioBERT的最终隐藏状态输出,其中k和m是实体e2的开始和结束标记的位置;每个实体的向量表示是通过平均运算得到的;然后创建一个包含dropout层和一个具有激活操作(即tanh)的致密层的全连接层来计算两个向量;最后,H′1∈Rd*1和H′2∈Rd*1是实体e1和e2的最终输出,其数学表达式如下:
Figure FDA0004068010920000021
Figure FDA0004068010920000022
(1)、(2)式中W1=W2,b1=b2,因为它们共享相同的参数;对于句子的第一个标记(即“[CLS]”),采用全连通层和激活运算,得到H′0∈R1*d,其数学表达式如下:
H′0=W0(tanh(H0))+b0 (3)
其中,W0、W1、W2的维数是相同的,即W0∈Rd*d、W1∈Rd*d、W2∈Rd*d,式中b0、b1、b2均为偏置向量;
连接隐藏层:将H′0、H′1、H′2作为h″∈R1*3d,将h″输入到softmax层中得到预测输出,该过程可表示为:
h″=concat(H′0,H′1,H′2) (4)
p=softmax(h″) (5)
其中,p是最终分类概率的输出;
改进的focal loss损失函数:在训练迭代中,通常使用交叉熵作为损失函数,交叉熵的数学表达式为:
Figure FDA0004068010920000023
式中,y是实例的真实值,pi是预测概率,C是DDI类型的数量;显然,预测概率越接近于真实概率越好;
用pt表示yi=1时对应的概率pi,计算损失的交叉熵函数可写为:
LossCE′=-log(pt) (7)
DDI Extraction 2013的数据是相当不平衡的,这使得模型很难进行分类,特别是对于实例较少的类型,负实例(“None”)的数量远远大于其他实例的数量,在损失中所占比列最大,这对梯度密度的影响很大;然而,DDI提取任务主要是识别量中药物实体之间的相互作用,因此需要调整每种类型的权重,以减少噪声负实例的影响;
解决不平衡问题的focal loss损失函数如下式所示:
L=-α(1-pt)γlog(pt) (8)
其中,γ(γ>0)是focal loss损失函数的调制因子,(1-pt)γ是调整项;对于pt接近于1的易分类实例,其对应的调制项(1-pt)γ接近于0;当一个pt接近0的难分类实例,其对应的调制项(1-pt)γ接近1;与交叉熵损失相比,难分类实例的focal loss损失是稳定的,而易分类实例的focal loss损失是减小的总的来说,focal loss损失函数增加了难分类实例的权重,使得损失函数向难分类的实例倾斜;有助于提高难以分类的准确率;
式(8)中的α是对应类别(α∈[0,1])的权重因子;每个类别都对应于它唯一的α;对于i类,αi可通过以下公式计算:
Figure FDA0004068010920000031
其中1是类别的数量,Counti是i类的实例数量;
为避免过拟合,结合focal loss损失和交叉熵损失函数,提出了一种改进的多分类focal loss函数,采用改进的损失函数如下:
L′i=-(1-e)αi(1-pt)γlog(pt)-elog(pt) (10)
其中超参数e可用于调整focal loss损失函数和交叉熵损失函数的权重;不同类别的损失e相同,则最终损失为各类损失之和,如式(11):
Figure FDA0004068010920000041
CN202310082731.4A 2023-02-01 2023-02-01 基于BioBERT与改进Focal loss的药物互作信息提取方法 Pending CN116072306A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310082731.4A CN116072306A (zh) 2023-02-01 2023-02-01 基于BioBERT与改进Focal loss的药物互作信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310082731.4A CN116072306A (zh) 2023-02-01 2023-02-01 基于BioBERT与改进Focal loss的药物互作信息提取方法

Publications (1)

Publication Number Publication Date
CN116072306A true CN116072306A (zh) 2023-05-05

Family

ID=86169503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310082731.4A Pending CN116072306A (zh) 2023-02-01 2023-02-01 基于BioBERT与改进Focal loss的药物互作信息提取方法

Country Status (1)

Country Link
CN (1) CN116072306A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117807956A (zh) * 2023-12-29 2024-04-02 兰州理工大学 一种基于临床文本树结构的icd自动编码方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117807956A (zh) * 2023-12-29 2024-04-02 兰州理工大学 一种基于临床文本树结构的icd自动编码方法

Similar Documents

Publication Publication Date Title
Terechshenko et al. A comparison of methods in political science text classification: Transfer learning language models for politics
Singh et al. AlexNet architecture based convolutional neural network for toxic comments classification
Hossain et al. Bengali text document categorization based on very deep convolution neural network
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN113593661B (zh) 临床术语标准化方法、装置、电子设备及存储介质
Alvarez-Gonzalez et al. Uncovering the limits of text-based emotion detection
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN116072306A (zh) 基于BioBERT与改进Focal loss的药物互作信息提取方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
Parvin et al. Multi-class textual emotion categorization using ensemble of convolutional and recurrent neural network
Perera et al. Personality Classification of text through Machine learning and Deep learning: A Review (2023)
CN114757183A (zh) 一种基于对比对齐网络的跨领域情感分类方法
Bhuyan et al. Textual entailment as an evaluation metric for abstractive text summarization
Zhu et al. SCGRU: A general approach for identifying multiple classes of self-admitted technical debt with text generation oversampling
Zhao et al. Topic identification of text‐based expert stock comments using multi‐level information fusion
Wei et al. A multichannel biomedical named entity recognition model based on multitask learning and contextualized word representations
Zhou et al. Dut-nlp at mediqa 2019: an adversarial multi-task network to jointly model recognizing question entailment and question answering
Erkantarci et al. An empirical study of sentiment analysis utilizing machine learning and deep learning algorithms
Hao et al. Joint representations of texts and labels with compositional loss for short text classification
Putra et al. Textual Entailment Technique for the Bahasa Using BiLSTM
Li et al. Improving Medical Q&A Matching by Augmenting Dual‐Channel Attention with Global Similarity
Al Mahmud et al. A New Approach to Analysis of Public Sentiment on Padma Bridge in Bangla Text
He et al. A customized attention-based long short-term memory network for distant supervised relation extraction
Jia et al. An improved unified domain adversarial category-wise alignment network for unsupervised cross-domain sentiment classification
Singh et al. mBERT-GRU multilingual deep learning framework for hate speech detection in social media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination