CN110134789A

CN110134789A - 一种引入多路选择融合机制的多标签长文本分类方法

Info

Publication number: CN110134789A
Application number: CN201910410661.4A
Authority: CN
Inventors: 屈鸿; 秦展展; 侯帅; 黄鹂; 张晓敏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-08-16
Anticipated expiration: 2039-05-17
Also published as: CN110134789B

Abstract

本发明提供一种引入多路选择融合机制的多标签长文本分类方法，涉及基于序列到序列架构的多标签长文本分类技术领域。本发明提升基于序列到序列架构完成多标签长文本分类的效果，基于某机器学习挑战赛发布的数据，将标题数据和描述数据拼接得到长文本数据，对于没有描述的数据，复制一份问题当做描述，然后对数据进行去低频词的预处理，得到更为有效的数据，得到的数据采用加入多路选择融合机制的转换器模型对输入的长文本生成标签序列，在解码时有效去除冗余信息。在测试数据下，该模型生成的标签序列比未加入多路选择融合的模型在召回率百分之0.5；精准率和F1值提升了1个百分点的效果。

Description

一种引入多路选择融合机制的多标签长文本分类方法

技术领域

本发明涉及基于序列到序列架构的多标签长文本分类技术领域，具体涉及一种引入多路选择融合机制的多标签长文本分类方法。

背景技术

在研究基于序列到序列架构的多标签长文本分类过程中。注意力机制，深度学习中的注意力机制是仿照人的视觉关注机制，根据需要每次将注意力放到输入序列的某一部分，而不是一次关注到全部。注意力机制在自然语言处理领域有着广泛应用。注意力机制分为硬注意力和软注意力，软注意力机制会对序列的每个部分都分配一个注意力权重。计算注意力权重要先计算对序列每个部分的配分，然后对配分进行归一化即可得到注意力权重α_i。

其中，s(x_i,q)为配分函数，计算q对x_i的注意力配分，N为输入序列长度。对于分配函数的不同，将影响生成的标签序列的精确率、召回率和F1等值。

发明内容

针对现有技术中所存在的不足，本发明提供了引入多路选择融合机制的多标签长文本分类方法，解决了生成的标签序列的模型在精确率、召回率和F1等值优化的问题。

为实现上述目的，本发明采用了如下的技术方案：

一种引入多路选择融合机制的多标签长文本分类方法，包括以下步骤：

S1.采集数据

将训练数据集，将训练数据集中的标题数据和描述数据拼接得到长文本数据，对于没有描述数据的训练数据，复制一份标题数据当做标题数据对应的描述数据；然后将长文本数据按照比例划分训练集、验证集和测试集，划分训练集、验证集和测试集相应的比例为预设值；

S2.数据预处理

将训练集的长文本数据进行去低频词后建立编码器所需的词表，建立解码器所需的类别标签的词表，将标签序列前面加上序列起始符号得到解码器的输入，将标签序列后面加上序列结束符号得到解码器的输出，将长文本和对应的两个标签序列根据各自的词表分别映射为序号形式得到模型的输入和标签；

S3.模型训练

S3-1.输入和标签输入转换器模型，转换器模型包括编码器端和解码器端，解码器端在解码的每一步开始前的待解码的数据，通过点积、加性注意力和乘性注意力三种配分函数并行的选取编码序列中和当前解码状态最相关的一半序列，当一半数字出现余数时采用向上取整得到，其余序列加上负无穷，使得softmax后该位置的注意力权重为0，实现只对选择的相关度高的部分序列分配注意力权重，将注意力权重和编码序列进行加权求和后得到三个向量h₁、h₂、h₃；

S3-2.将三个向量h₁、h₂、h₃通过两个融和门r₁和r₂，将向量进行融合，得到最终用于解码的向量；融合的公式为：

c＝(1-r₂)*((1-r₁)*h₁+r₁*h₂)+r₂*h₃

r₁＝σ(W₁h₁+U₁h₂)；r₂＝σ(W₂c₂+U₂h₃)；

其中，W₁、U₁、W₂、U₂为随机初始化的参数；

S3-3.将解码的向量通过公式(1)得到模型预测的类别标签序列；

m为解码器堆栈总层数

其中，l为当前解码器堆栈层数，c_l为当前解码器堆栈的输出，W_d为随机初始化的向量，p(u)表示模型预测的各个类别标签的概率分布；

S3-4.将模型预测的类别标签序列和转换器模型计算出的真实的类别标签序列进行计算交叉熵损失L_ml，然后通过反向传播算法计算损失对参数的偏导数得到参数的更新量后更新模型参数，直至交叉熵损失L_ml的变化范围幅值小于或等于0.2时，模型收敛，此时的对应的模型参数为最终训练模型。

最终训练模型将长文本生成类别标签序列。

相比于现有技术，本发明具有如下有益效果：

1.针对长文本分类中存在信息冗余的问题，首次将多路选择融合机制引入基于序列到序列架构的多标签文本分类模型，在解码时只关注和当前状态相关度大的部分序列信息。

2、基于转换器模型完成长文本输入到类别标签序列的生成，借助转换器模型强大的特征抽取能力以及高效的运行效率，与基线模型相比，耗费更短的训练、预测时间取得更好的效果。

3.本发明提升基于序列到序列架构完成多标签长文本分类的效果，本文基于某机器学习挑战赛发布的数据，将标题数据和描述数据拼接得到长文本数据，对于没有描述的数据，复制一份问题当做描述，然后对数据进行去低频词的预处理，得到更为有效的数据，得到的数据采用加入多路选择融合机制的转换器模型对输入的长文本生成标签序列，在解码时有效去除冗余信息。在测试数据下，该模型生成的标签序列比未加入多路选择融合的模型在精确率、召回率和F1等值提升了效果。

附图说明

图1为本发明应用的转换器模型结构示意图；

图2为本发明提出的多路选择融合机制中选择的过程示意图；

图3为本发明的引入多路选择融合机制的长文本分类模型与基线模型损失变化曲线；

图4为本发明的引入多路选择融合机制的长文本分类模型与基线模型F1值变化曲线。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

如图1-4所示：

对某机器学习挑战赛发布的300万的训练数据集，将标题数据和描述数据拼接得到长文本数据，对于没有描述的数据，复制一份问题当做描述。然后对300万的数据切分出20万当验证集，20万当测试集，其余260万当训练集。

将数据进行去低频词后建立编码器所需的词表，建立解码器所需的类别标签的词表，将标签序列前面加上序列起始符号得到解码器的输入，将标签序列后面加上序列结束符号得到解码器的输出，如对输入长文本x₁、x₂...x_n，标签为l₁、l₂、...、l_n'，序列的起始符号为<s>，序列的结束符号为</s>，则解码器端的输入为<s>、l₁、l₂、...、l_n'，解码器端的输出为l₁、l₂、...、l_n'、</s>。将长文本和对应的两个标签序列根据各自的词表分别映射为序号形式得到模型的输入和标签；

将处理好的输入数据分别输入到模型的编码器端和解码器端，转换器模型采用A.Vaswani,N.Shazeer,N.Parmar,et al.Attention Is All You Need[C].NIPS 30,LongBeach,California,2017,5998–6008公开的模型，如图1所示。在解码的每一步，根据当前的解码状态通过点积、加性注意力和乘性注意力三种函数分选别取编码序列中和当前解码状态最相关的一半序列，其余序列加上负无穷，使得softmax后该位置的注意力权重为0，实现只对选择的相关度高的部分序列分配注意力权重；

点积、加性注意力和乘性注意力三种函数如下：

(1)点积：

s(x_i,q)＝x_i ^Tq

点积值越大，两个向量间的夹角越小，两个向量越相似。点积没有引入额外需要学习的参数，只有原始两个向量的矩阵操作，运算速度快。

(2)加性注意力：

s(x_i,q)＝v^T tanh(Wx_i+Uq)

加性注意力是2015年Bahdanau等人将注意力机制引入机器翻译任务时提出的，在后续各种自然语言处理应用中广泛使用。从公式可以看出，加性注意力相当于用一个单层的前馈网络来计算注意力的配分。加性注意力需要学习的额外参数有3个，计算量和存储较前两种方式较大，但实验表明加性注意力机制往往能取得更优的效果，加性注意力也成为多数自然语言处理任务中优先使用的计算注意力配分的函数。

(3)乘性注意力：

s(x_i,q)＝x_i ^TWq

除了直接使用点积外，还可以通过引入一个矩阵来学习两个向量之间的相似度配分。只有一个需要学习的额外参数，所占存储量少，且均为矩阵操作，运算速度快。

注意力机制中配分函数也是在度量两个向量之间的相关度，通过配分函数计算得到的分数越大，通过softmax函数归一化后计算得到的概率值也就越大，即分配的注意力权重越大。

部分选择过程示意如图2所示。将注意力权重和编码序列进行加权求和后得到三个向量h₁、h₂、h₃，然后通过两个融和门r₁、r₂将向量进行融合，得到最终用于解码的向量

c＝(1-r₂)*((1-r₁)*h₁+r₁*h₂)+r₂*h₃，

r₁＝σ(W₁h₁+U₁h₂)；r₂＝σ(W₂c₂+U₂h₃)；

其中，W₁、U₁、W₂、U₂为随机初始化的参数；

由公式

m为解码器堆栈层数

得到模型预测的类别标签序列后，和真实的类别标签序列计算交叉熵损失

其中，l为当前解码器堆栈层数，c_l为当前解码器堆栈的输出，W_d为随机初始化的向量，p(u)表示模型预测的各个类别标签的概率分布；然后通过反向传播算法更新模型参数，直至损失的变化范围在0.2左右，模型收敛；此时的对应的模型参数为最终训练模型。训练模型反向传播算法具体参考的文件为：LeCun et al.Gradient-Based Learning Appliedto Document Recognition 1998。

将训练好的模型运用于测试集，检测基于训练集得出的模型对长文本生成类别标，签序列的精确率、召回率和F1等值，图3和图4展示了本模型和基线模型在训练过程中损失和F1值的变化曲线。

表1为本发明的引入多路选择融合机制的长文本分类模型与基线模型收敛后精确率、召回率、F1值及训练时间。

表1

模型	精确率	召回率	F1	训练时间
					rnn	32.0435	43.9025	37.0471	9h
transformer	32.7638	43.0883	37.2234	3.16h
					ours	33.2270	44.5339	38.0584	3.5h

召回率提升了百分之0.5；精确率和F1值提升了1个百分点的效果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种引入多路选择融合机制的多标签长文本分类方法，其特征在于，包括以下步骤：

S1.采集数据

将训练数据集，将训练数据集中的标题数据和描述数据拼接得到长文本数据，然后将长文本数据按照比例划分训练集、验证集和测试集；

S2.数据预处理

S3.模型训练

S3-1.将输入和标签输入转换器模型，转换器模型包括编码器端和解码器端，解码器端在解码的每一步开始前的待解码的数据，通过点积、加性注意力和乘性注意力三种配分函数并行的选取编码序列中和当前解码状态最相关的一半序列，将注意力权重和编码序列进行加权求和后得到三个向量h₁、h₂、h₃；

c＝(1-r₂)*((1-r₁)*h₁+r₁*h₂)+r₂*h₃

r₁＝σ(W₁h₁+U₁h₂)；r₂＝σ(W₂c₂+U₂h₃)；

其中，W₁、U₁、W₂、U₂为随机初始化的参数；

m为解码器堆栈总层数

其中，l为当前解码器堆栈层数，c_l为第l层解码器堆栈的输出，W_d为随机初始化的向量，p(u)表示模型预测的各个类别标签的概率分布；

2.如权利要求1所述的一种引入多路选择融合机制的多标签长文本分类方法，其特征在于，数据选择的过程为，选取待解码的数据和当前解码状态最相关的一半序列，当一半数字出现余数时采用向上取整得到，其余序列加上负无穷，剩余序列加上负无穷，其余序列加上负无穷，使得softmax后该位置的注意力权重为0，实现只对选择的相关度高的部分序列分配注意力权重。

3.如权利要求1所述的一种引入多路选择融合机制的多标签长文本分类方法，其特征在于，运用最终训练模型将长文本生成类别标签序列。