CN114328927A

CN114328927A - 基于标签感知的门控循环采集方法

Info

Publication number: CN114328927A
Application number: CN202111655179.0A
Authority: CN
Inventors: 包先雨; 李俊杰; 吴绍精; 郑文丽; 明胜蓝; 王歆
Original assignee: Shenzhen University; Shenzhen Academy of Inspection and Quarantine; Shenzhen Customs Information Center
Current assignee: Shenzhen University; Shenzhen Academy of Inspection and Quarantine; Shenzhen Customs Information Center
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-12
Also published as: WO2023124110A1

Abstract

本发明公开了一种基于标签感知的门控循环采集方法，包括如下步骤：S1、混合注意力层：混合注意层计算前一时间步分类预测向量与当前时间步文本词嵌入之间的注意权重；S2、文本特征提取层：使用卷积神经网络来提取文本特征；S3、循环采集层：门控循环单元根据前一时间步的分类结果和当前时间步的文本特征进行分类预测。本发明的分类结果具有更高的F₁值(F₁score)和更低的汉明损失(Hamming‑loss)。这说明模型的多次重读机制能够提升多标签分类的性能。本发明针对现有多标签分类算法的不足，将多标签分类任务建模为一个循环决策过程，考虑到了标签间的相关性，提升了模型的分类性能。

Description

基于标签感知的门控循环采集方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于标签感知的门控循环采集方法。

背景技术

多标签分类是自然语言处理的一个重要研究方向。对于多标签分类问题来说，给定一个文档，可能有一个或多个标签与之匹配，并且标签之间存在相关性，因此比单标签分类任务更具挑战性。多标签分类可以用于情感分析、信息检索、推荐系统等实际场景。

多标签分类任务主要有两种解决方法：问题转化和算法适应。问题转化方法将多标签分类问题转化为一组单标签分类问题，然后采用单标签分类算法进行处理。最具代表性的问题转化方法有二元关联算法(BinaryRelevance)、标签幂集算法(LabelPowerset)、分类器链算法(ClassifierChains)等。二元关联算法为每个标签单独训练分类器，因此无法利用标签间的关联性。标签幂集算法将多标签分类问题转化为多类别分类问题，将训练集中每个唯一的标签集视为一个类。在测试时，给定一个新样本，模型预测出样本最可能对应的类别，这个类别表示原始数据集中的一组类别。分类器链算法由单标签二进制分类器组成，每个分类器处理的特征由链中所有描述性特征和前一个分类器的预测组成的增强特征。算法适应方法则是对算法进行更新以适应多标签分类任务。如排序支持向量机算法(Rank-SVM)对支持向量机进行了优化，多标签k近邻算法(ML-kNN)使用k近邻的方法处理多标签分类问题。

近年来，一些深度学习的模型被用于多标签分类，并获得显著成效。深层卷积神经网络(VDCNN)使用大量的卷积层提取更丰富的文本信息以提升多标签分类性能。CNN-RNN算法使用卷积神经网络捕获文本特征，然后使用递归神经网络对标签的高阶相关性进行建模。

以上是多标签分类的一些相关工作，通过问题转化、算法适应和神经网络来解决多标签分类问题，但是这些方法没有考虑到标签和文本之间的语义信息。现有技术缺点：现有的统计学习多标签分类算法如二元关联算法、标签幂集算法、分类器链算法等只考虑了标签之间的一阶或二阶相关性，或在考虑高阶相关性时计算困难。现有的深度学习模型如深层卷积神经网络和CNN-RNN模型没有考虑到标签和文本之间的语义信息。为此，我们提出一种基于标签感知的门控循环采集方法，以解决上述背景技术中提到的问题。

发明内容

本发明的目的在于提供一种基于标签感知的门控循环采集方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于标签感知的门控循环采集方法，包括如下步骤：

S1、混合注意力层：混合注意层计算前一时间步分类预测向量与当前时间步文本词嵌入之间的注意权重；

S2、文本特征提取层：使用卷积神经网络来提取文本特征；

S3、循环采集层：门控循环单元根据前一时间步的分类结果和当前时间步的文本特征进行分类预测。

所述混合注意力层：一个包含m个词的文本序列标记为(w₁,w₂,…,w_m)，每个单词将被映射到随机初始化的词嵌入矩阵，定义

是句子中的第i个词对应的k维词向量，一个包含m个词的句子表示为：

其中

表示串联运算符，标签分类向量初始化为

其中L是标签的个数，模型在第n次循环采集后输出的预测向量为

其元素范围在-1到1之间；

模型在每次循环采集之后，会产生不同的分类结果，根据上一时间步t-1的分类结果，动态调整在当前时间步t采集时需要关注的文本内容；

使用t-1时间步的预测标签向量

和文本词嵌入x_1:m求出t时间步q^t和k^t的值：

k^t＝W_Kx_1:m；

其中

然后对q^t和k^t进行点积缩放注意计算如下：

求出的α^t是原始的点积缩放注意力权重，在初始采集时，

初始化为全零向量，得到的α¹会使得文本词嵌入缩小为原来数值的

m是文本序列的单词个数，将加权后的词嵌入放大m倍，得到t时间步的加权文本词嵌入e^t：e^t＝m·α^t·x_1:m。

所述文本特征提取层：使用卷积神经网络对加权后的文本词嵌入进行文本特征提取；省略当前时间步t上标，

表示时间步t时的加权文本词嵌入，是加权文本列向量的串联；卷积核其中一个维度应该等于词嵌入的维度k，另一个维度为卷积核的窗口大小h；

将e_i:i+h-1表示为h个相邻的词向量，卷积核对e_i:i+h-1进行卷积提取到特征o_j,i：

o_j＝max{o_j,1,o_j,2,…,o_j,m-h+1}；

其中卷积核

偏置项

对第j个卷积核运算得到的值进行最大池化，得到第j个卷积核对应的句子特征o_j，将J个不同窗口大小的卷积核提取到的特征进行拼接，得到文本的特征向量o。

所述循环采集层：在时间步t，循环采集层会得到不同于时间步t-1的文本特征向量o^t，因为特征提取层的输入是动态调整的；一部分标签会在采集初期被预测，而另一部分标签需要采集多次才能被预测；需要保留那些依据当前信息已经足够进行分类的标签预测结果，剩下的部分标签还需要随后多次采集所提供的信息；

门控循环单元，即GRU最初是用于机器翻译领域，它通过重置门，即resetgate和更新门，即updategate缓解在循环神经网络中因句子过长而导致的梯度消失问题；重置门决定如何将t时间步的新的句子信息与上一时间步t-1的隐藏层信息结合起来，更新门决定更新或保留哪些隐藏信息；

在每一次循环采集之后如何更新

或保留

标签分类的结果，其中

将文本特征向量o^t和上一时间步的分类预测

输入门控循环单元，得到当前时间步的分类预测

计算步骤如下：

其中更新门Γ_u和重置门Γ_r中的数值非常接近0和1，以更新门Γ_u中的一个数值为例，对于其对应的一个标签元素来说，当Γ_u接近0时代表在当前时间步t时这个标签的分类结果沿用上一时间步t-1的分类结果，而当Γ_u接近1时，表示这个标签的分类结果需要被更新。

与现有技术相比，本发明的有益效果是：本发明提供的一种基于标签感知的门控循环采集方法，本发明的分类结果具有更高的F₁值(F₁score)和更低的汉明损失(Hamming-loss)。这说明模型的多次重读机制能够提升多标签分类的性能。本发明针对现有多标签分类算法的不足，将多标签分类任务建模为一个循环决策过程，考虑到了标签间的相关性，提升了模型的分类性能。

附图说明

图1为本发明一种基于标签感知的门控循环采集方法的流程示意图；

图2为本发明标签感知注意力的示意图；

图3为本发明文本特征提取层的示意图；

图4为本发明更新门计算图；

图5为本发明

计算图；

图6为本发明

计算图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明目的：针对现有多标签分类算法的不足，本发明提出了基于标签感知的门控循环采集的概念和算法，将多标签分类任务建模为一个循环决策过程，考虑到了标签间的相关性，提升了模型的分类性能。

本发明要解决的技术问题：在自然语言处理领域，多标签分类是给一个文本文档分配一个或多个标签。本发明是对现有的多标签分类问题和方法的拓展，在现有的研究基础上提出循环采集的概念并提供了门控循环采集算法。本发明所要解决的技术问题是挖掘出标签和文本之间的语义信息，和标签之间的高阶相关性。本发明所解决的最终目标是给定一段文本，输出与之相关的一个或多个标签。

本发明专利提出了门控循环采集的概念并提供了多标签分类的算法，将多标签文本分类建模为一个反复采集的决策过程，并根据每个时间步的决策动态调整单词嵌入权重。我们的工作受到了人类认知过程的启发：在人做采集理解题的时候，很难通过一次采集回答所有的问题，有一些题目需要通过带着重点读原文，在循环采集的过程中提高解答的准确性。

实现这个框架，需要解决两个问题：如何根据每次采集后的预测结果动态调整下一时间步的文本内容，以及如何对多次采集产生的预测标签进行建模。

每一个时间步都需要生成一个预测结果，如果下一个时间步采集的文本内容和当前时间步采集的文本内容一致，那么循环采集的思想就失去了意义。因此模型需要根据当前时间步产生的预测结果，动态调整下一个时间步的采集内容。我们引入了注意力机制，用当前时间步的预测向量和文本词嵌入计算出注意力权重，求得的注意力权重可以用来调整下一时间步的词嵌入。

神经科学的实验发现，自上而下的调节是选择性注意力的基本机制。大脑高阶皮层区域可以通过反馈链接影响低阶皮层区域的信息处理。根据该理论，如果将做出分类决策的神经网络模块类比为高阶皮层，将处理词嵌入的模块类比为低阶皮层，然后利用前一时间步的分类结果获得下一时间步的词嵌入注意力权重，这种方法利用了自上而下的信号。

本发明提供了如图1-6的一种基于标签感知的门控循环采集方法，本发明的算法模型可以分为三个部分：混合注意力层、文本特征提取层和重读层(即循环采集层)。

一种基于标签感知的门控循环采集方法，包括如下步骤：

S2、文本特征提取层：使用卷积神经网络来提取文本特征；

(一)混合注意力层：

一个包含m个词的文本序列标记为(w₁,w₂,…,w_m)，每个单词将被映射到随机初始化的词嵌入矩阵。我们定义

其中

表示串联运算符，标签分类向量初始化为

其中L是标签的个数,模型在第n次循环采集后输出的预测向量为

其元素范围在-1到1之间。模型在每次循环采集之后，会产生不同的分类结果，我们根据上一时间步t-1的分类结果，动态调整在当前时间步t采集时需要关注的文本内容。

如图2所示，我们使用t-1时间步的预测标签向量

和文本词嵌入x_1:m求出t时间步q^t和k^t的值：

k^t＝W_Kx_1:m；

其中

然后对q^t和k^t进行点积缩放注意计算如下：

求出的α^t是原始的点积缩放注意力权重。但是在我们的模型中，这种权重会使词嵌入数值变小。

具体来说，在初始采集时，

m是文本序列的单词个数。因此我们将加权后的词嵌入放大m倍，得到t时间步的加权文本词嵌入e^t：e^t＝m·α^t·x_1:m。

(二)文本特征提取层：

我们使用卷积神经网络对加权后的文本词嵌入进行文本特征提取。为了简化，我们在这个部分省略当前时间步t上标，

表示时间步t时的加权文本词嵌入，是加权文本列向量的串联。因为是对文本进行卷积操作，所以卷积核其中一个维度应该等于词嵌入的维度k，另一个维度为卷积核的窗口大小h。将e_i:i+h-1表示为h个相邻的词向量，卷积核对e_i:i+h-1进行卷积提取到特征o_j,i：

o_j＝max{o_j,1,o_j,2,…,o_j,m-h+1}；

其中卷积核

偏置项

对第j个卷积核运算得到的值进行最大池化，得到第j个卷积核对应的句子特征o_j。将J个不同窗口大小的卷积核提取到的特征进行拼接，得到文本的特征向量o。如图3所示。

(三)循环采集层：

在时间步t，循环采集层会得到不同于时间步t-1的文本特征向量o^t，因为特征提取层的输入是动态调整的。一部分标签会在采集初期被预测，而另一部分标签需要采集多次才能被预测。我们需要保留那些依据当前信息已经足够进行分类的标签预测结果，剩下的部分标签还需要随后多次采集所提供的信息。

门控循环单元(GRU)最初是用于机器翻译领域，它通过重置门(resetgate)和更新门(updategate)缓解在循环神经网络中因句子过长而导致的梯度消失问题。重置门决定如何将t时间步的新的句子信息与上一时间步t-1的隐藏层信息结合起来，更新门决定更新或保留哪些隐藏信息。

门控循环单元对于句子隐藏信息的更新保留机制能够适用于我们的问题，这个问题就是在每一次循环采集之后如何更新

或保留

标签分类的结果，其中

计算过程如图5所示。我们将文本特征向量o^t和上一时间步的分类预测

输入门控循环单元，得到当前时间步的分类预测

计算步骤如下：

其中更新门Γ_u和重置门Γ_r中的数值非常接近0和1，其计算过程如图4所示。以更新门Γ_u中的一个数值为例，对于其对应的一个标签元素来说，当Γ_u接近0时代表在当前时间步t时这个标签的分类结果沿用上一时间步t-1的分类结果，而当Γ_u接近1时，表示这个标签的分类结果需要被更新。计算过程如图6所示。

(四)损失函数：

当一个文本被循环采集n次之后，得到模型最终的分类预测向量

其元素值域在-1到1之间。元素值接近1代表文本中存在这个标签，而接近-1则不存在。样本真实标签向量为y，其元素值为0或1。我们使用缩放权重w_s对预测分类向量进行加权变换，使其元素值域在送入sigmoid函数σ之前进行缩放。我们使用二进制交叉熵损失函数来计算样本损失值：

其中L代表标签个数。y_i和

分别是代表一条文本样本的第i个真实标签和第i个预测标签。

本发明方法在两个公开数据集：RCV1-V2和AAPD上进行了反复测试。两个数据集分别包含804,414和55,840条数据，分别涉及103和54个类别。通过对不同的重读次数n进行测试，在不同大小的数据集进行测试，本发明专利所提供的方法在一定的重读次数范围内，在分类性能上具有显著优势。

综上所述，与现有技术相比，本发明的分类结果具有更高的F₁值(F₁score)和更低的汉明损失(Hamming-loss)。这说明模型的多次重读机制能够提升多标签分类的性能。本发明针对现有多标签分类算法的不足，将多标签分类任务建模为一个循环决策过程，考虑到了标签间的相关性，提升了模型的分类性能。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于标签感知的门控循环采集方法，其特征在于：包括如下步骤：

S2、文本特征提取层：使用卷积神经网络来提取文本特征；

2.根据权利要求1所述的一种基于标签感知的门控循环采集方法，其特征在于：所述混合注意力层：一个包含m个词的文本序列标记为(w₁,w₂,…,w_m)，每个单词将被映射到随机初始化的词嵌入矩阵，定义

其中

表示串联运算符，标签分类向量初始化为

其元素范围在-1到1之间；

使用t-1时间步的预测标签向量

和文本词嵌入x_1:m求出t时间步q^t和k^t的值：

k^t＝W_Kx_1:m；

其中

然后对q^t和k^t进行点积缩放注意计算如下：

求出的α^t是原始的点积缩放注意力权重，在初始采集时，

3.根据权利要求1所述的一种基于标签感知的门控循环采集方法，其特征在于：所述文本特征提取层：使用卷积神经网络对加权后的文本词嵌入进行文本特征提取；省略当前时间步t上标，

o_j＝max{o_j,1,o_j,2,…,o_j,m-h+1}；

其中卷积核

偏置项

4.根据权利要求1所述的一种基于标签感知的门控循环采集方法，其特征在于：所述循环采集层：在时间步t，循环采集层会得到不同于时间步t-1的文本特征向量o^t，因为特征提取层的输入是动态调整的；一部分标签会在采集初期被预测，而另一部分标签需要采集多次才能被预测；需要保留那些依据当前信息已经足够进行分类的标签预测结果，剩下的部分标签还需要随后多次采集所提供的信息；

在每一次循环采集之后如何更新

或保留

标签分类的结果，其中

将文本特征向量o^t和上一时间步的分类预测

输入门控循环单元，得到当前时间步的分类预测

计算步骤如下：