CN114328923A

CN114328923A - 一种基于多任务双边分支网络的引文意图分类方法

Info

Publication number: CN114328923A
Application number: CN202111638197.8A
Authority: CN
Inventors: 周仁杰; 胡天祥
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-12

Abstract

本发明公开一种基于多任务双边分支网络的引文意图分类方法，为了缓解数据集不平衡问题对模型性能造成影响，采用双边分支网络作为基础网络结构。在训练过程中先获得原始数据集，还利用过采样技术生成反转数据集以及构建辅助数据集。为了能够引入辅助数据集的信息采用了多任务学习方法。在构建模型时采用SciBert模型作为嵌入层来提取输入的引文文本的特征向量，此外还利用注意力机制来构建注意力层，用于提高模型对引文文本中重要单词的注意力，降低对其他单词的关注度。最后模型通过一个自适应参数α在训练过程中转移模型的注意力。本发明提高了引文意图分类的准确性，从而可以更准确地预测引文的意图类别。

Description

一种基于多任务双边分支网络的引文意图分类方法

技术领域

本发明涉及一种引文意图分类的方法，更具体地说，涉及一种面对引文意图数据集类别不平衡的分类方法。

背景技术

近些年来，许多学术领域的年论文发表一直在逐年的递增。比如计算机领域中的深度学习领域的顶会，几乎每一年的论文接收量都会超过上一年。无论是从事多年的研究人员还是刚开始研究人员都需要通过阅读论文来跟踪自己的研究领域的发展。而面对如此海量的论文，研究人员需要花大量的时间去筛选和阅读。传统的引文分析，基于纯粹的引文被引用的频率，来判断一篇文献的质量。而引文被引用的意图是不同的，有的引文作为研究背景而被引用，而有的引文则作为方法而被引用。因此了解引文被引用的意图，能够更好的帮助研究人员筛选论文以及分析科学工作。

现有的方法都是通过引文句子，引文标题，被引文标题等内容来构造不同的特征信息，然后结合不同的分类器来实现引文意图分类。由于构造特征信息的方式不同，有许多分类方法被提出，有的通过人工手动设置的规则来提取特征信息，有的利用深度学习方法来生成特征信息。这些现有引文意图分类方法默认引文数据集中的不同意图类别是均衡的。但在本发明的数据集中存在明显的数据不平问题。

而在现实场景下，数据集类别不平衡是一种常见的问题。类别不平衡问题往往会导致模型在样本数少的类别上的性能很差。本发明的引文意图类别共分为6种，其中大多数引文文本属于同一个类别，剩余的引文文本则属于剩下的5种。模型容易将其他类别的样本预测为样本数多的那个类别。故而本发明利用双边分支网络来提高模型在数据不平衡问题下的性能，还引入了多任务学习方法来构建基于多任务双边分支网络的引文意图分类模型。

发明内容

本发明的一个目的是针对现有技术的不足，提供一种基于多任务双边分支网络的引文意图分类方法，采用双边分支网络作为模型的基础，同时利用多任务学习方法来构建模型。

本发明所采用的方法如下：

步骤1：获取带有意图分类标签的引文文本数据，作为原数据集D_o。

步骤2：利用过采样方法对D_o的训练集进行采样生成反转数据集D_r。

步骤3：获取分类标签是科学文献的章节名的引文文本数据，构建辅助数据集D_a。

步骤4：搭建基于多任务双边分支网络模型，利用原数据集的训练集、反转数据集、辅助数据集进行训练。

步骤5：利用训练好的基于多任务双边分支网络模型，进行验证、测试。

步骤6：利用测试后的基于多任务双边分支网络模型实现对引文文本的引文意图分类。

本发明的另一个目的是提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述的方法。

本发明提供的技术方案包含以下有益效果：

本发明通过采用多任务学习的方式，引入外部信息，对模型能够学习到的特征进行扩充，提高了模型的泛化能力；此外，本发明采用双边分支网络来提高模型在样本数少的类别上的分类性能，缓解了数据不平衡问题对模型性能的影响。

本发明采用SciBert模型作为双边分支网络中的共享部分，是因为其是在大量的科学文献上训练得到的模型，拥有了更加合适的先验知识；此外采用注意力机制能够使得模型将注意力放在能够有助于表达句子意思的单词上，同时降低了其他单词对模型提取语义的影响。

附图说明

图1为本发明所涉及的流程图；

图2为模型结构图；

具体实施方式

下面结合附图，对本发明的具体实施方案作进一步详细描述。其具体流程描述如图1所示，其中：

步骤1：获取带有意图分类标签的引文文本数据，作为原数据集D_o；将整个原始数据集按一定比例划分成原始数据集的训练集、验证集、测试集。例如将D_o中60％的数据作为其训练集，然后将15％的数据作为验证集，最后再将剩余的25％的数据作为测试集。

所述意图是指当前文本被引用的目的。例如引文意图可分为6种：背景，对比，扩展，将来，动机，使用。

具体操作如下：

2-1根据公式(1)计算原数据集的训练集中每个类别的比率

其中

表示第c_m个类别的样本数；N_max表示样本数最多的类别对应样本数；

2-2利用每个类别的比率

计算每个类别采样概率

其中n_c表示意图的类别数。

2-3迭代采样：

2-3-1初始化利用库函数随机得到一个值num，num的取值范围为[0,1)；同时初始化变量sum为0；

2-3-2对原数据集的训练集中每个类别依次遍历

(1)对于遍历到的类别，利用当前类别的采样概率

更新sum的值，即

(2)判断是否满足随机数num≤sum，若是则从当前类别中随机挑选一个引文文本数据加入到反转数据集中，若否则不操作；

(3)对下一个类别进行遍历，重复步骤(1)-(2)，直至完成所有类别遍历；

2-3-3判断反转数据集中元素个数与原数据集的训练集是否相同，若是则结束，若否则返回至步骤2-3-1。

例如所构建的反转数据集的引文文本数为2400。则需要进行2400次的迭代循环。

假设原始数据集中的训练集共有6个类别，且6个类别的采样概率

分别为类别0＝0.45，类别1＝0.14，类别2＝0.15，类别3＝0.13，类别4＝0.1，类别5＝0.03；对原数据集的训练集中每个类别依次从类别0开始遍历；

例如第一次迭代随机生成的num＝0.4，初始化sum＝0，遍历到类别0时，先更新sum＝0+0.45，然后判断num<sum满足，则从类别0中随机选择一个引文文本加入到反转数据集中，并且跳出此次的类别遍历。

进入第二次迭代随机生成的num＝0.5，且重新初始化sum＝0，遍历到类别0时，先更新sum＝0+0.45。然后判断num<sum不满足，则继续遍历下一个类别。遍历到类别1时，先更新sum＝0.45+0.14。然后判断num<sum满足，则从类别1中随机选择一个引文文本加入到反转数据集中，并跳出此次类别遍历。

步骤3：获取分类标签是科学文献的章节名的引文文本数据，构建辅助数据集D_a。所述辅助数据集D_a内引文文本数据与原数据集中的引文文本数据不重复。

例如分类标签是科学文献的章节名的引文文本数据共有12000条，则先将其进行随机打乱，然后再取打乱后的引文文本数据前一部分的引文文本，该部分数据的数据数与原始数据集的训练集样本数一致。

所述基于多任务双边分支网络模型包括输入层、嵌入层、注意力层、辅助任务模块、主任务模块、输出层；

所述输入层用于接收原数据集的训练集、反转数据集、辅助数据集中的文本数据，再对文本数据进行预处理操作；

所述的对文本数据进行预处理操作具体是：由于原始数据集的训练集和反转数据集中的文本数据包含#AUTHOR_TAG标记，将每个引文文本中的该标记都删除；采用分词工具将整个引文文本划分成一个个的单词，同时剔除一些标点符号以及一些停用词。

例如输入的引文文本数据为：In addition,MoCo(#AUTHOR_TAG)showed thatdifferentiating the model for anchors and positive/negative samples iseffective.

经过预处理操作后变为划分好的单词序列:

X＝[in，addition，moco，showed，that，differentiating，model，for，anchors，and，positive，negative，samples，is，effective]

所述嵌入层采用SciBert模型，用于将文本数据转化成向量矩阵H_a、H_o、H_r；

采用SciBert模型是因为其含有科学文献领域的先验知识。利用SciBert模型将输入的每个单词x_i，i∈[1,…n]转换成其对应的表示向量h_i:

h_i＝SciBert(x_i) 公式(3)

i是单词在预处理后一条引文文本中的序号，n是预处理后一条引文文本的真实单词数。然后再将每个单词的表示向量组成引文文本的向量矩阵H:

H＝[h₁,…,h_n,…,h_L] 公式(4)

是引文文本的向量矩阵。d是每个单词的表示向量的长度，L是一组数据中最长的引文文本的单词数。当n<L时，h_n+1,…,h_L都为0向量。

例如对预处理得到的单词序列X进行编码得到表示矩阵H:

H＝SciBert(X)

生成的H为768×15，其中768为每个单词的表示向量长度，15为单词序列X的单词数。

所述注意力层包括第一文本注意力模块、第二文本注意力模块；所述第一文本注意力模块接收嵌入层输出的H_a、H_o，对输入的向量矩阵H_a、H_o中的每个单词表示向量h_i先计算对应的权重β_i，然后在利用得到的权重β_i对输入的向量矩阵H_a、H_o加权求和获得最终的引文文本的表示向量s_a、s_o；所述第二文本注意力模块接收嵌入层输出的H_r，对输入的向量矩阵H_r中的每个单词表示向量h_i先计算对应的权重β_i，然后在利用得到的权重β_i对输入的向量矩阵H_r加权求和获得最终的引文文本的表示向量s_r；

第一文本注意力模块、第二文本注意力模块均利用深度学习框架Pytorch的线性函数，激活函数tanh以及Softmax函数来实现；

每个输入的向量矩阵H的中的单词表示向量h_i都会经过线性函数，激活函数tanh以及Softmax函数来计算权重β_i：

(1)获得隐藏状态u_i：

u_i＝tanh(W_wh_i+b_w) 公式(5)

其中W_w、b_w分别表示注意力权重矩阵和注意力偏移向量,i是在输入层预处理后单词在引文文本中的序号。

(2)利用Softmax函数对引文文本中每个单词的隐藏状态进行归一化得到权重β_i：

其中

是将u_i进行转置的操作，i是在输入层预处理后单词在引文文本中的序号，exp(.)表示以自然常数e为底的指数函数；u_w是随机初始化的向量。

例如

其中β中的0.01，0.02，0.009，…，0.005，0.02分别为每个单词向量权重值。

再利用得到的每个单词的权重β_i加权求和得到引文文本的表示向量s:

s＝∑_iβ_ih_i 公式(7)

所述辅助任务模块包括线性层、Softmax函数层；

(1)线性层将注意力层输出的高纬度的引文文本表示向量s_a转化为与辅助数据集中的类别数相同的维度的输出向量Z_a，

Z_a＝W_as_a+b_a 公式(8)

其中s_a表示引文文本的表示向量，W_a表示权重矩阵，b_a表示偏移向量，n_a表示辅助数据集中的类别数。

(2)Softmax函数层对输出向量Z_a进行归一化处理，计算预测结果中各个类别的概率分布

其中c_a∈[0,…,n_a]，c_a表示当前类别属于辅助数据集中的第c_a个类别。

例如

如上p_a的概率分布中索引为0的概率值最大，因此模型该引文文本数据预测为类别0。

所述主任务模块包括连接层、线性层、Softmax函数层；

(1)连接层对第一文本注意力模块输出的s_o和第二文本注意力模块输出的s_r进行加权拼接得拼接向量s_m:

s_m＝[αs_o,(1-α)s_r] 公式(10)

其中α为一个自适应的参数，其计算公式如下：

其中T_total为模型训练所需的总的迭代次数，T为模型当前所在的第T次迭代。

例如总的迭代次数T_total＝150，当前为第31次迭代,则

(2)将得到的拼接向量s_m输入到线性层中得到输出向量Z_m，

Z_m＝W_ms_m+b_m 公式(12)

其中W_m表示主任务权重矩阵，b_m表示主任务偏移向量，n_c表示原始数据集中的类别数。

(3)Softmax函数层对输出向量Z_m进行归一化处理，计算预测结果中各个类别的概率分布

其中c_m∈[0,…,n_c]，c_m表示当前类别属于原始数据集中的第c_m个类别。

例如

如上p_m的概率分布中索引为3的概率值最大，因此模型该引文文本数据预测为类别3。

所述输出层接收辅助任务模块和主任务模块的输出；

输出层计算模型的总损失，用于反向传播来更新模型的参数。计算模型的损失是用的交叉熵损失函数，其公式为：

公式中E代表样本数，e代表第e个样本，n代表类别数，c代表第c个类别，y_c代表该样本真实的类别。z_c代表样本预测为类别c的概率。

分别计算原始数据集的训练集，辅助数据集和反转数据集的输入的损失的

其中y_o,y_a,y_r分别为原始数据集的训练集，辅助数据集和反转数据集的每个输入引文文本的对应标签值。

最后的总损失

计算如下：

其中α为连接层中自适应参数，λ为模型超参数。

在模型迭代训练过程中，将验证集中的每条引文文本同时作为输入层的x_o和x_r输入到迭代训练好的模型进行预测。(1)先定义变量val_f1同时将变量best_val_f1初始化为0。(2)然后将模型对验证集中的所有引文文本预测结果与其对应的真实标签利用macro-F1计算得到一个值。并将该值赋值给变量val_f1。(3)判断val_f1>best_val_f1是否成立。若成立则保存此次迭代训练得到的模型参数。并用val_f1的值来更新best_val_f1的值。若不成立则继续重复(2)(3)过程。

利用验证后的基于多任务双边分支网络模型对测试集进行测试利用评价标准marco-F1来评判其真实的测试结果；其中将测试集中的每条引文文本同时作为输入层的x_o和x_r。

本发明结合公开的引文意图数据集(ACT)进行引文意图分类分析：

表1引文意图数据集数据量情况

Intent Categories	#of instances
		BACKGROUND	1648
COMPARES_CONTRASTS	368
		EXTENSION	171
FUTURE	62
		MOTIVATION	276
USES	475

从上表中可以看到属于BACKGROUND类别的样本数远多于FUTURE类别。

表2本发明在引文意图数据集上预测实验结果

Model	Public	Private
			TextCNN	0.16538	0.14954
BiLSTM+Attention	0.21719	0.19254
			RCNN	0.24926	0.19830
UFMG	0.19944	0.21516
			SciCite	0.24926	0.22334
MTBBN	0.25452	0.25972

该任务是公开在Kaggle网站上的，竞赛的排名是按照Private的得分来进行排名的。其中Public得分是由测试集中的大约50％左右的数据计算所得，而剩余的数据则用来计算Private的得分。

上述引文意图预测实验结果表中，TextCNN，RCNN与BiLSTM+Attention为经典的文本分类模型，UFMG则是与本发明在同一个数据集上目前性能最好的模型，SciCite则是在其他相同研究数据集上表现最好的模型。MTBBN即为本发明中的基于于多任务双边分支网络模型。实验采用macro-F1作为引文意图分类性能评价指标。

F1-score是统计学中用来衡量二分类模型精度的一种指标，用于测量不均衡数据的精度，它同时兼顾了分类模型的精确率和召回率。而在多分类问题中F1-score有两种变体分别为micro-F1和macro-F1。然而micro-F1容易受到数据不平衡问题的影响，因此采用macro-F1作为本发明中的分类性能评价指标，它受数据不平衡问题的影响小。

F1-score评价指标公式如下：

其中，precision以及recall分别表示分类精确率和召回率。精确率是计算预测为正样本中，真实为正样本的比例，而召回率则是计算被预测为正样本在实际正样本中的比例，从上式可以看出F1-score是结合评价分类器精确率及召回率的评价指标。

由于F1-score适用二分类问题，实验中引文意图为多分类问题故采用macro-F1作为评价指标，macro-F1统计各个类别的TP，FP，TN，.FN，分别计算各自的precision和recall，得到每个类别的F1值，然后取平均值得到macro-F1，即：

其中，F1-score₁,F1-score₂,…,F1-score_n分别代表第0,1,…n-1类的F1-score，n为类别数量。

Claims

1.一种基于多任务双边分支网络的引文意图分类方法，其特征在于包括以下步骤：

步骤1：获取带有意图分类标签的引文文本数据，作为原数据集D_o；同时将整个原始数据集划分成原始数据集的训练集、验证集、测试集；

步骤2：利用过采样方法对D_o的训练集进行采样生成反转数据集D_r；

步骤3：获取分类标签是科学文献的章节名的引文文本数据，构建辅助数据集D_a；

步骤4：搭建基于多任务双边分支网络模型，利用原数据集的训练集、反转数据集、辅助数据集进行训练；

所述注意力层包括第一文本注意力模块、第二文本注意力模块；

所述辅助任务模块包括线性层、Softmax函数层；

所述主任务模块包括连接层、线性层、Softmax函数层；

所述输出层接收辅助任务模块和主任务模块的输出；

步骤5：利用训练好的基于多任务双边分支网络模型，进行验证、测试；

2.根据权利要求1所述的一种基于多任务双边分支网络的引文意图分类方法，其特征在于步骤2具体是：

2-1根据公式(1)计算原数据集的训练集中每个类别的比率

其中

2-2利用每个类别的比率

计算每个类别采样概率

其中n_c表示意图的类别数；

2-3迭代采样：

2-3-2对原数据集的训练集中每个类别依次遍历

(1)对于遍历到的类别，利用当前类别的采样概率

更新sum的值，即

3.根据权利要求2所述的一种基于多任务双边分支网络的引文意图分类方法，其特征在于所述基于多任务双边分支网络模型中输入层所述的对文本数据进行预处理操作具体是：若原始数据集的训练集和反转数据集中的文本数据包含#AUTHOR_TAG标记，则将每个引文文本中的该标记都删除；然后采用分词工具将整个引文文本划分成一个个的单词，同时剔除标点符号以及停用词。

4.根据权利要求1所述的一种基于多任务双边分支网络的引文意图分类方法，其特征在于SciBert模型将输入层输入的原始数据集、反转数据集、辅助数据集中引文文本数据对应的单词进行向量化处理，然后得到原始数据集、反转数据集、辅助数据集中引文文本对应的向量矩阵；具体是：

将每个单词x_i，i∈[1,…n]转换成其对应的表示向量h_i:

h_i＝SciBert(x_i) 公式(3)

其中i是单词在引文文本中的序号，n是引文文本的单词总数；

然后将每个单词的表示向量组成引文文本的向量矩阵H:

H＝[h₁,…,h_n,…,h_L] 公式(4)

其中

是引文文本的向量矩阵；d是每个单词的表示向量的长度，L是引文文本的最长单词数。

5.根据权利要求4所述的一种基于多任务双边分支网络的引文意图分类方法，其特征在于所述第一文本注意力模块接收嵌入层输出的H_a、H_o，对矩阵H_a、H_o中的每个单词表示向量h_i先计算对应的权重β_i，然后再利用权重β_i对矩阵H_a、H_o加权求和获得原始数据集、反转数据集中引文文本的表示向量s_a、s_o；其中H_a、H_o分别表示原始数据集、反转数据集中引文文本对应的向量矩阵；

所述第二文本注意力模块接收嵌入层输出的H_r，对矩阵H_r中的每个单词表示向量h_i先计算对应的权重β_i，然后再利用权重β_i对矩阵H_r加权求和获得辅助数据集中引文文本的表示向量s_r；其中H_r表示辅助数据集中引文文本对应的向量矩阵。

6.根据权利要求5所述的一种基于多任务双边分支网络的引文意图分类方法，其特征在于所述辅助任务模块中线性层将注意力层输出的原始数据集中引文文本表示向量s_a转化为与辅助数据集中的类别数相同维度的输出向量Z_a，