CN114328923A - 一种基于多任务双边分支网络的引文意图分类方法 - Google Patents

一种基于多任务双边分支网络的引文意图分类方法 Download PDF

Info

Publication number
CN114328923A
CN114328923A CN202111638197.8A CN202111638197A CN114328923A CN 114328923 A CN114328923 A CN 114328923A CN 202111638197 A CN202111638197 A CN 202111638197A CN 114328923 A CN114328923 A CN 114328923A
Authority
CN
China
Prior art keywords
data set
text
vector
layer
quotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111638197.8A
Other languages
English (en)
Inventor
周仁杰
胡天祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202111638197.8A priority Critical patent/CN114328923A/zh
Publication of CN114328923A publication Critical patent/CN114328923A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于多任务双边分支网络的引文意图分类方法,为了缓解数据集不平衡问题对模型性能造成影响,采用双边分支网络作为基础网络结构。在训练过程中先获得原始数据集,还利用过采样技术生成反转数据集以及构建辅助数据集。为了能够引入辅助数据集的信息采用了多任务学习方法。在构建模型时采用SciBert模型作为嵌入层来提取输入的引文文本的特征向量,此外还利用注意力机制来构建注意力层,用于提高模型对引文文本中重要单词的注意力,降低对其他单词的关注度。最后模型通过一个自适应参数α在训练过程中转移模型的注意力。本发明提高了引文意图分类的准确性,从而可以更准确地预测引文的意图类别。

Description

一种基于多任务双边分支网络的引文意图分类方法
技术领域
本发明涉及一种引文意图分类的方法,更具体地说,涉及一种面对引文意图数据集类别不平衡的分类方法。
背景技术
近些年来,许多学术领域的年论文发表一直在逐年的递增。比如计算机领域中的深度学习领域的顶会,几乎每一年的论文接收量都会超过上一年。无论是从事多年的研究人员还是刚开始研究人员都需要通过阅读论文来跟踪自己的研究领域的发展。而面对如此海量的论文,研究人员需要花大量的时间去筛选和阅读。传统的引文分析,基于纯粹的引文被引用的频率,来判断一篇文献的质量。而引文被引用的意图是不同的,有的引文作为研究背景而被引用,而有的引文则作为方法而被引用。因此了解引文被引用的意图,能够更好的帮助研究人员筛选论文以及分析科学工作。
现有的方法都是通过引文句子,引文标题,被引文标题等内容来构造不同的特征信息,然后结合不同的分类器来实现引文意图分类。由于构造特征信息的方式不同,有许多分类方法被提出,有的通过人工手动设置的规则来提取特征信息,有的利用深度学习方法来生成特征信息。这些现有引文意图分类方法默认引文数据集中的不同意图类别是均衡的。但在本发明的数据集中存在明显的数据不平问题。
而在现实场景下,数据集类别不平衡是一种常见的问题。类别不平衡问题往往会导致模型在样本数少的类别上的性能很差。本发明的引文意图类别共分为6种,其中大多数引文文本属于同一个类别,剩余的引文文本则属于剩下的5种。模型容易将其他类别的样本预测为样本数多的那个类别。故而本发明利用双边分支网络来提高模型在数据不平衡问题下的性能,还引入了多任务学习方法来构建基于多任务双边分支网络的引文意图分类模型。
发明内容
本发明的一个目的是针对现有技术的不足,提供一种基于多任务双边分支网络的引文意图分类方法,采用双边分支网络作为模型的基础,同时利用多任务学习方法来构建模型。
本发明所采用的方法如下:
步骤1:获取带有意图分类标签的引文文本数据,作为原数据集Do
步骤2:利用过采样方法对Do的训练集进行采样生成反转数据集Dr
步骤3:获取分类标签是科学文献的章节名的引文文本数据,构建辅助数据集Da
步骤4:搭建基于多任务双边分支网络模型,利用原数据集的训练集、反转数据集、辅助数据集进行训练。
步骤5:利用训练好的基于多任务双边分支网络模型,进行验证、测试。
步骤6:利用测试后的基于多任务双边分支网络模型实现对引文文本的引文意图分类。
本发明的另一个目的是提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述的方法。
本发明提供的技术方案包含以下有益效果:
本发明通过采用多任务学习的方式,引入外部信息,对模型能够学习到的特征进行扩充,提高了模型的泛化能力;此外,本发明采用双边分支网络来提高模型在样本数少的类别上的分类性能,缓解了数据不平衡问题对模型性能的影响。
本发明采用SciBert模型作为双边分支网络中的共享部分,是因为其是在大量的科学文献上训练得到的模型,拥有了更加合适的先验知识;此外采用注意力机制能够使得模型将注意力放在能够有助于表达句子意思的单词上,同时降低了其他单词对模型提取语义的影响。
附图说明
图1为本发明所涉及的流程图;
图2为模型结构图;
具体实施方式
下面结合附图,对本发明的具体实施方案作进一步详细描述。其具体流程描述如图1所示,其中:
步骤1:获取带有意图分类标签的引文文本数据,作为原数据集Do;将整个原始数据集按一定比例划分成原始数据集的训练集、验证集、测试集。例如将Do中60%的数据作为其训练集,然后将15%的数据作为验证集,最后再将剩余的25%的数据作为测试集。
所述意图是指当前文本被引用的目的。例如引文意图可分为6种:背景,对比,扩展,将来,动机,使用。
步骤2:利用过采样方法对Do的训练集进行采样生成反转数据集Dr
具体操作如下:
2-1根据公式(1)计算原数据集的训练集中每个类别的比率
Figure BDA0003442737270000021
Figure BDA0003442737270000022
其中
Figure BDA0003442737270000031
表示第cm个类别的样本数;Nmax表示样本数最多的类别对应样本数;
2-2利用每个类别的比率
Figure BDA0003442737270000032
计算每个类别采样概率
Figure BDA0003442737270000033
Figure BDA0003442737270000034
其中nc表示意图的类别数。
2-3迭代采样:
2-3-1初始化利用库函数随机得到一个值num,num的取值范围为[0,1);同时初始化变量sum为0;
2-3-2对原数据集的训练集中每个类别依次遍历
(1)对于遍历到的类别,利用当前类别的采样概率
Figure BDA0003442737270000035
更新sum的值,即
Figure BDA0003442737270000036
Figure BDA0003442737270000037
(2)判断是否满足随机数num≤sum,若是则从当前类别中随机挑选一个引文文本数据加入到反转数据集中,若否则不操作;
(3)对下一个类别进行遍历,重复步骤(1)-(2),直至完成所有类别遍历;
2-3-3判断反转数据集中元素个数与原数据集的训练集是否相同,若是则结束,若否则返回至步骤2-3-1。
例如所构建的反转数据集的引文文本数为2400。则需要进行2400次的迭代循环。
假设原始数据集中的训练集共有6个类别,且6个类别的采样概率
Figure BDA0003442737270000038
分别为类别0=0.45,类别1=0.14,类别2=0.15,类别3=0.13,类别4=0.1,类别5=0.03;对原数据集的训练集中每个类别依次从类别0开始遍历;
例如第一次迭代随机生成的num=0.4,初始化sum=0,遍历到类别0时,先更新sum=0+0.45,然后判断num<sum满足,则从类别0中随机选择一个引文文本加入到反转数据集中,并且跳出此次的类别遍历。
进入第二次迭代随机生成的num=0.5,且重新初始化sum=0,遍历到类别0时,先更新sum=0+0.45。然后判断num<sum不满足,则继续遍历下一个类别。遍历到类别1时,先更新sum=0.45+0.14。然后判断num<sum满足,则从类别1中随机选择一个引文文本加入到反转数据集中,并跳出此次类别遍历。
步骤3:获取分类标签是科学文献的章节名的引文文本数据,构建辅助数据集Da。所述辅助数据集Da内引文文本数据与原数据集中的引文文本数据不重复。
例如分类标签是科学文献的章节名的引文文本数据共有12000条,则先将其进行随机打乱,然后再取打乱后的引文文本数据前一部分的引文文本,该部分数据的数据数与原始数据集的训练集样本数一致。
步骤4:搭建基于多任务双边分支网络模型,利用原数据集的训练集、反转数据集、辅助数据集进行训练。
所述基于多任务双边分支网络模型包括输入层、嵌入层、注意力层、辅助任务模块、主任务模块、输出层;
所述输入层用于接收原数据集的训练集、反转数据集、辅助数据集中的文本数据,再对文本数据进行预处理操作;
所述的对文本数据进行预处理操作具体是:由于原始数据集的训练集和反转数据集中的文本数据包含#AUTHOR_TAG标记,将每个引文文本中的该标记都删除;采用分词工具将整个引文文本划分成一个个的单词,同时剔除一些标点符号以及一些停用词。
例如输入的引文文本数据为:In addition,MoCo(#AUTHOR_TAG)showed thatdifferentiating the model for anchors and positive/negative samples iseffective.
经过预处理操作后变为划分好的单词序列:
X=[in,addition,moco,showed,that,differentiating,model,for,anchors,and,positive,negative,samples,is,effective]
所述嵌入层采用SciBert模型,用于将文本数据转化成向量矩阵Ha、Ho、Hr
采用SciBert模型是因为其含有科学文献领域的先验知识。利用SciBert模型将输入的每个单词xi,i∈[1,…n]转换成其对应的表示向量hi:
hi=SciBert(xi) 公式(3)
i是单词在预处理后一条引文文本中的序号,n是预处理后一条引文文本的真实单词数。然后再将每个单词的表示向量组成引文文本的向量矩阵H:
H=[h1,…,hn,…,hL] 公式(4)
Figure BDA0003442737270000041
是引文文本的向量矩阵。d是每个单词的表示向量的长度,L是一组数据中最长的引文文本的单词数。当n<L时,hn+1,…,hL都为0向量。
例如对预处理得到的单词序列X进行编码得到表示矩阵H:
H=SciBert(X)
生成的H为768×15,其中768为每个单词的表示向量长度,15为单词序列X的单词数。
所述注意力层包括第一文本注意力模块、第二文本注意力模块;所述第一文本注意力模块接收嵌入层输出的Ha、Ho,对输入的向量矩阵Ha、Ho中的每个单词表示向量hi先计算对应的权重βi,然后在利用得到的权重βi对输入的向量矩阵Ha、Ho加权求和获得最终的引文文本的表示向量sa、so;所述第二文本注意力模块接收嵌入层输出的Hr,对输入的向量矩阵Hr中的每个单词表示向量hi先计算对应的权重βi,然后在利用得到的权重βi对输入的向量矩阵Hr加权求和获得最终的引文文本的表示向量sr
第一文本注意力模块、第二文本注意力模块均利用深度学习框架Pytorch的线性函数,激活函数tanh以及Softmax函数来实现;
每个输入的向量矩阵H的中的单词表示向量hi都会经过线性函数,激活函数tanh以及Softmax函数来计算权重βi
(1)获得隐藏状态ui
ui=tanh(Wwhi+bw) 公式(5)
其中Ww、bw分别表示注意力权重矩阵和注意力偏移向量,i是在输入层预处理后单词在引文文本中的序号。
(2)利用Softmax函数对引文文本中每个单词的隐藏状态进行归一化得到权重βi
Figure BDA0003442737270000051
其中
Figure BDA0003442737270000052
是将ui进行转置的操作,i是在输入层预处理后单词在引文文本中的序号,exp(.)表示以自然常数e为底的指数函数;uw是随机初始化的向量。
例如
Figure BDA0003442737270000053
其中β中的0.01,0.02,0.009,…,0.005,0.02分别为每个单词向量权重值。
再利用得到的每个单词的权重βi加权求和得到引文文本的表示向量s:
s=∑iβihi 公式(7)
所述辅助任务模块包括线性层、Softmax函数层;
(1)线性层将注意力层输出的高纬度的引文文本表示向量sa转化为与辅助数据集中的类别数相同的维度的输出向量Za
Figure BDA0003442737270000054
Za=Wasa+ba 公式(8)
其中sa表示引文文本的表示向量,Wa表示权重矩阵,ba表示偏移向量,na表示辅助数据集中的类别数。
(2)Softmax函数层对输出向量Za进行归一化处理,计算预测结果中各个类别的概率分布
Figure BDA0003442737270000061
Figure BDA0003442737270000062
其中ca∈[0,…,na],ca表示当前类别属于辅助数据集中的第ca个类别。
例如
Figure BDA0003442737270000063
如上pa的概率分布中索引为0的概率值最大,因此模型该引文文本数据预测为类别0。
所述主任务模块包括连接层、线性层、Softmax函数层;
(1)连接层对第一文本注意力模块输出的so和第二文本注意力模块输出的sr进行加权拼接得拼接向量sm:
sm=[αso,(1-α)sr] 公式(10)
其中α为一个自适应的参数,其计算公式如下:
Figure BDA0003442737270000064
其中Ttotal为模型训练所需的总的迭代次数,T为模型当前所在的第T次迭代。
例如总的迭代次数Ttotal=150,当前为第31次迭代,则
Figure BDA0003442737270000065
(2)将得到的拼接向量sm输入到线性层中得到输出向量Zm
Figure BDA0003442737270000066
Zm=Wmsm+bm 公式(12)
其中Wm表示主任务权重矩阵,bm表示主任务偏移向量,nc表示原始数据集中的类别数。
(3)Softmax函数层对输出向量Zm进行归一化处理,计算预测结果中各个类别的概率分布
Figure BDA0003442737270000067
Figure BDA0003442737270000068
其中cm∈[0,…,nc],cm表示当前类别属于原始数据集中的第cm个类别。
例如
Figure BDA0003442737270000071
如上pm的概率分布中索引为3的概率值最大,因此模型该引文文本数据预测为类别3。
所述输出层接收辅助任务模块和主任务模块的输出;
输出层计算模型的总损失,用于反向传播来更新模型的参数。计算模型的损失是用的交叉熵损失函数,其公式为:
Figure BDA0003442737270000072
公式中E代表样本数,e代表第e个样本,n代表类别数,c代表第c个类别,yc代表该样本真实的类别。zc代表样本预测为类别c的概率。
分别计算原始数据集的训练集,辅助数据集和反转数据集的输入的损失的
Figure BDA0003442737270000073
Figure BDA0003442737270000074
其中yo,ya,yr分别为原始数据集的训练集,辅助数据集和反转数据集的每个输入引文文本的对应标签值。
最后的总损失
Figure BDA0003442737270000075
计算如下:
Figure BDA0003442737270000076
其中α为连接层中自适应参数,λ为模型超参数。
步骤5:利用训练好的基于多任务双边分支网络模型,进行验证、测试。
在模型迭代训练过程中,将验证集中的每条引文文本同时作为输入层的xo和xr输入到迭代训练好的模型进行预测。(1)先定义变量val_f1同时将变量best_val_f1初始化为0。(2)然后将模型对验证集中的所有引文文本预测结果与其对应的真实标签利用macro-F1计算得到一个值。并将该值赋值给变量val_f1。(3)判断val_f1>best_val_f1是否成立。若成立则保存此次迭代训练得到的模型参数。并用val_f1的值来更新best_val_f1的值。若不成立则继续重复(2)(3)过程。
利用验证后的基于多任务双边分支网络模型对测试集进行测试利用评价标准marco-F1来评判其真实的测试结果;其中将测试集中的每条引文文本同时作为输入层的xo和xr
步骤6:利用测试后的基于多任务双边分支网络模型实现对引文文本的引文意图分类。
本发明结合公开的引文意图数据集(ACT)进行引文意图分类分析:
表1引文意图数据集数据量情况
Intent Categories #of instances
BACKGROUND 1648
COMPARES_CONTRASTS 368
EXTENSION 171
FUTURE 62
MOTIVATION 276
USES 475
从上表中可以看到属于BACKGROUND类别的样本数远多于FUTURE类别。
表2本发明在引文意图数据集上预测实验结果
Model Public Private
TextCNN 0.16538 0.14954
BiLSTM+Attention 0.21719 0.19254
RCNN 0.24926 0.19830
UFMG 0.19944 0.21516
SciCite 0.24926 0.22334
MTBBN 0.25452 0.25972
该任务是公开在Kaggle网站上的,竞赛的排名是按照Private的得分来进行排名的。其中Public得分是由测试集中的大约50%左右的数据计算所得,而剩余的数据则用来计算Private的得分。
上述引文意图预测实验结果表中,TextCNN,RCNN与BiLSTM+Attention为经典的文本分类模型,UFMG则是与本发明在同一个数据集上目前性能最好的模型,SciCite则是在其他相同研究数据集上表现最好的模型。MTBBN即为本发明中的基于于多任务双边分支网络模型。实验采用macro-F1作为引文意图分类性能评价指标。
F1-score是统计学中用来衡量二分类模型精度的一种指标,用于测量不均衡数据的精度,它同时兼顾了分类模型的精确率和召回率。而在多分类问题中F1-score有两种变体分别为micro-F1和macro-F1。然而micro-F1容易受到数据不平衡问题的影响,因此采用macro-F1作为本发明中的分类性能评价指标,它受数据不平衡问题的影响小。
F1-score评价指标公式如下:
Figure BDA0003442737270000091
其中,precision以及recall分别表示分类精确率和召回率。精确率是计算预测为正样本中,真实为正样本的比例,而召回率则是计算被预测为正样本在实际正样本中的比例,从上式可以看出F1-score是结合评价分类器精确率及召回率的评价指标。
由于F1-score适用二分类问题,实验中引文意图为多分类问题故采用macro-F1作为评价指标,macro-F1统计各个类别的TP,FP,TN,.FN,分别计算各自的precision和recall,得到每个类别的F1值,然后取平均值得到macro-F1,即:
Figure BDA0003442737270000092
其中,F1-score1,F1-score2,…,F1-scoren分别代表第0,1,…n-1类的F1-score,n为类别数量。

Claims (10)

1.一种基于多任务双边分支网络的引文意图分类方法,其特征在于包括以下步骤:
步骤1:获取带有意图分类标签的引文文本数据,作为原数据集Do;同时将整个原始数据集划分成原始数据集的训练集、验证集、测试集;
步骤2:利用过采样方法对Do的训练集进行采样生成反转数据集Dr
步骤3:获取分类标签是科学文献的章节名的引文文本数据,构建辅助数据集Da
步骤4:搭建基于多任务双边分支网络模型,利用原数据集的训练集、反转数据集、辅助数据集进行训练;
所述基于多任务双边分支网络模型包括输入层、嵌入层、注意力层、辅助任务模块、主任务模块、输出层;
所述输入层用于接收原数据集的训练集、反转数据集、辅助数据集中的文本数据,再对文本数据进行预处理操作;
所述嵌入层采用SciBert模型,用于将文本数据转化成向量矩阵Ha、Ho、Hr
所述注意力层包括第一文本注意力模块、第二文本注意力模块;
所述辅助任务模块包括线性层、Softmax函数层;
所述主任务模块包括连接层、线性层、Softmax函数层;
所述输出层接收辅助任务模块和主任务模块的输出;
步骤5:利用训练好的基于多任务双边分支网络模型,进行验证、测试;
步骤6:利用测试后的基于多任务双边分支网络模型实现对引文文本的引文意图分类。
2.根据权利要求1所述的一种基于多任务双边分支网络的引文意图分类方法,其特征在于步骤2具体是:
2-1根据公式(1)计算原数据集的训练集中每个类别的比率
Figure FDA0003442737260000011
Figure FDA0003442737260000012
其中
Figure FDA0003442737260000013
表示第cm个类别的样本数;Nmax表示样本数最多的类别对应样本数;
2-2利用每个类别的比率
Figure FDA0003442737260000014
计算每个类别采样概率
Figure FDA0003442737260000015
Figure FDA0003442737260000021
其中nc表示意图的类别数;
2-3迭代采样:
2-3-1初始化利用库函数随机得到一个值num,num的取值范围为[0,1);同时初始化变量sum为0;
2-3-2对原数据集的训练集中每个类别依次遍历
(1)对于遍历到的类别,利用当前类别的采样概率
Figure FDA0003442737260000022
更新sum的值,即
Figure FDA0003442737260000023
(2)判断是否满足随机数num≤sum,若是则从当前类别中随机挑选一个引文文本数据加入到反转数据集中,若否则不操作;
(3)对下一个类别进行遍历,重复步骤(1)-(2),直至完成所有类别遍历;
2-3-3判断反转数据集中元素个数与原数据集的训练集是否相同,若是则结束,若否则返回至步骤2-3-1。
3.根据权利要求2所述的一种基于多任务双边分支网络的引文意图分类方法,其特征在于所述基于多任务双边分支网络模型中输入层所述的对文本数据进行预处理操作具体是:若原始数据集的训练集和反转数据集中的文本数据包含#AUTHOR_TAG标记,则将每个引文文本中的该标记都删除;然后采用分词工具将整个引文文本划分成一个个的单词,同时剔除标点符号以及停用词。
4.根据权利要求1所述的一种基于多任务双边分支网络的引文意图分类方法,其特征在于SciBert模型将输入层输入的原始数据集、反转数据集、辅助数据集中引文文本数据对应的单词进行向量化处理,然后得到原始数据集、反转数据集、辅助数据集中引文文本对应的向量矩阵;具体是:
将每个单词xi,i∈[1,…n]转换成其对应的表示向量hi:
hi=SciBert(xi) 公式(3)
其中i是单词在引文文本中的序号,n是引文文本的单词总数;
然后将每个单词的表示向量组成引文文本的向量矩阵H:
H=[h1,…,hn,…,hL] 公式(4)
其中
Figure FDA0003442737260000024
是引文文本的向量矩阵;d是每个单词的表示向量的长度,L是引文文本的最长单词数。
5.根据权利要求4所述的一种基于多任务双边分支网络的引文意图分类方法,其特征在于所述第一文本注意力模块接收嵌入层输出的Ha、Ho,对矩阵Ha、Ho中的每个单词表示向量hi先计算对应的权重βi,然后再利用权重βi对矩阵Ha、Ho加权求和获得原始数据集、反转数据集中引文文本的表示向量sa、so;其中Ha、Ho分别表示原始数据集、反转数据集中引文文本对应的向量矩阵;
所述第二文本注意力模块接收嵌入层输出的Hr,对矩阵Hr中的每个单词表示向量hi先计算对应的权重βi,然后再利用权重βi对矩阵Hr加权求和获得辅助数据集中引文文本的表示向量sr;其中Hr表示辅助数据集中引文文本对应的向量矩阵。
6.根据权利要求5所述的一种基于多任务双边分支网络的引文意图分类方法,其特征在于所述辅助任务模块中线性层将注意力层输出的原始数据集中引文文本表示向量sa转化为与辅助数据集中的类别数相同维度的输出向量Za
Figure FDA0003442737260000034
Za=Wasa+ba 公式(5)
其中sa表示原始数据集中引文文本的表示向量,Wa表示辅助任务的权重矩阵,ba表示辅助任务的偏移向量,na表示辅助数据集中的类别数;
所述辅助任务模块中Softmax函数层对输出向量Za进行归一化处理,计算预测结果中各类别的概率分布
Figure FDA0003442737260000031
Figure FDA0003442737260000032
其中ca∈[0,…,na]。
7.根据权利要求6所述的一种基于多任务双边分支网络的引文意图分类方法,其特征在于所述主任务模块中连接层对第一文本注意力模块输出的so和第二文本注意力模块输出的sr进行加权拼接得拼接向量sm:
sm=[αso,(1-α)sr] 公式(7)
其中α表示自适应参数,其计算公式如下:
Figure FDA0003442737260000033
其中Ttotal为模型训练的总迭代次数,T为当前迭代次数;
线性层用于接收拼接向量sm,然后输出向量Zm
Figure FDA0003442737260000035
Zm=Wmsm+bm 公式(9)
其中Wm表示主任务权重矩阵,bm表示主任务偏移向量,nc表示原始数据集中的类别数;
所述Softmax函数层对线性层输出向量Zm进行归一化处理,计算预测结果中各类别的概率分布
Figure FDA0003442737260000041
Figure FDA0003442737260000042
其中cm∈[0,…,nc]。
8.根据权利要求7所述的一种基于多任务双边分支网络的引文意图分类方法,其特征在于模型的损失采用交叉熵损失函数,其公式为:
Figure FDA0003442737260000043
其中E代表样本数,e代表第e个样本,n代表类别数,c代表第c个类别,yc代表该样本真实的类别,zc代表样本预测为类别c的概率;
分别计算原始数据集的训练集,辅助数据集和反转数据集的输入的损失的
Figure FDA0003442737260000044
Figure FDA0003442737260000045
其中yo,ya,yr分别为原始数据集的训练集,辅助数据集和反转数据集的每个输入引文文本的对应标签值;
最后的总损失
Figure FDA0003442737260000046
计算如下:
Figure FDA0003442737260000047
其中λ为模型超参数。
9.根据权利要求8所述的一种基于多任务双边分支网络的引文意图分类方法,其特征在于第一文本注意力模块、第二文本注意力模块均利用深度学习框架Pytorch的线性函数,激活函数tanh以及Softmax函数来实现;
每个输入的向量矩阵H中的单词表示向量hi经过线性函数,激活函数tanh以及Softmax函数来计算权重βi
(1)获得隐藏状态ui
ui=tanh(Wwhi+bw) 公式(14)
其中Ww、bw分别表示注意力权重矩阵和注意力偏移向量;
(2)利用Softmax函数对引文文本中每个单词的隐藏状态进行归一化得到权重βi
Figure FDA0003442737260000051
其中
Figure FDA0003442737260000052
是将ui进行转置的操作,exp(.)表示以自然常数e为底的指数函数;uw是随机初始化的向量;
再利用得到的每个单词的权重βi加权求和得到引文文本的表示向量s:
s=∑iβihi 公式(16)。
10.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-9中任一项所述的方法。
CN202111638197.8A 2021-12-29 2021-12-29 一种基于多任务双边分支网络的引文意图分类方法 Pending CN114328923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111638197.8A CN114328923A (zh) 2021-12-29 2021-12-29 一种基于多任务双边分支网络的引文意图分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111638197.8A CN114328923A (zh) 2021-12-29 2021-12-29 一种基于多任务双边分支网络的引文意图分类方法

Publications (1)

Publication Number Publication Date
CN114328923A true CN114328923A (zh) 2022-04-12

Family

ID=81016865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111638197.8A Pending CN114328923A (zh) 2021-12-29 2021-12-29 一种基于多任务双边分支网络的引文意图分类方法

Country Status (1)

Country Link
CN (1) CN114328923A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117421671A (zh) * 2023-12-18 2024-01-19 南开大学 面向引文网络的频率自适应静态异质图节点分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117421671A (zh) * 2023-12-18 2024-01-19 南开大学 面向引文网络的频率自适应静态异质图节点分类方法
CN117421671B (zh) * 2023-12-18 2024-03-05 南开大学 面向引文网络的频率自适应静态异质图节点分类方法

Similar Documents

Publication Publication Date Title
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
CN112906397B (zh) 一种短文本实体消歧方法
CN111599409B (zh) 基于MapReduce并行的circRNA识别方法
CN110569505A (zh) 一种文本输入方法及装置
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN113987174A (zh) 分类标签的核心语句提取方法、系统、设备及存储介质
CN115168580A (zh) 一种基于关键词提取与注意力机制的文本分类方法
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN114722835A (zh) 基于lda和bert融合改进模型的文本情感识别方法
CN114547230A (zh) 一种智能行政执法案例信息抽取和案由认定方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN111930936A (zh) 一种平台留言文本挖掘方法及系统
CN113806543B (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
CN114328923A (zh) 一种基于多任务双边分支网络的引文意图分类方法
CN116432125B (zh) 基于哈希算法的代码分类方法
CN112989803A (zh) 一种基于主题向量学习的实体链接模型
CN116956940A (zh) 一种基于多向式遍历与提示学习的文本事件抽取方法
CN116227486A (zh) 一种基于检索和对比学习的情感分析方法
CN112884019B (zh) 一种基于融合门循环网络模型的图像转语言方法
CN110766073B (zh) 一种强化主题注意力机制的移动应用分类方法
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination