CN111666406B

CN111666406B - 基于自注意力的单词和标签联合的短文本分类预测方法

Info

Publication number: CN111666406B
Application number: CN202010286184.8A
Authority: CN
Inventors: 王嫄; 周宇博; 徐涛; 刘玉桥; 赵婷婷; 梁琨; 杨巨成
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2023-03-31
Anticipated expiration: 2040-04-13
Also published as: CN111666406A

Abstract

本发明涉及一种基于自注意力的单词和标签联合的短文本分类预测方法，其技术特点是：构造短文本序列的向量表示的矩阵，得出经由文本自注意力转换后的文本表示矩阵；构造标签序列的向量表示矩阵，得出短文本与标签交互注意力转换后的交互文本表示矩阵；得到文本语义表示向量z；最后z经过全连接层预测分类结果与短文本实际标签y进行比较计算出预测误差，通过不断迭代得到最优参数。本发明考虑单词和标签之间的相互影响，引入自注意力机制，利用数据集本身的类别标签信息，将标签和短文本的单词向量映射到同一空间，从而实现更好的交互功能，其充分提取到上下文信息，增加可解释性，提高了分类结果的准确度及分类任务的泛化能力。

Description

基于自注意力的单词和标签联合的短文本分类预测方法

技术领域

本发明属于自然语言处理技术领域，尤其是一种基于自注意力的单词和标签联合的短文本分类预测方法。

背景技术

当前，作为互联网上一种流行的社交通讯方式，每天都会产生大量的文本，例如推文、搜索查询、问题、图像标签、广告关键字及标题等。需要考虑到挖掘短文本本身信息又具有一定的挑战性，与段落和文档不同，比如短文本并不总遵循自然语言的语法、短文本缺少一定的上下文语境并且短文本本身是十分模糊的存在多义词和拼写错误，如何对这些大量的模糊短文本进行有效的分类已经引起业界和学术界内的极大兴趣。

为了解决短文本本身信息量不足的问题，一些流行的方法是通过从外部知识库、词性标注以及依赖分析等多个方面来进行创造有效的特征，这种方法容易理解，但是通过机器难以收集有用的的特征来消除歧义，其次还存在数据稀疏的问题，因此，该方法泛化性比较差。近些年词向量技术在当今自然语言处理应用比较成熟，能够很好地捕捉到文本序列的语义关系，随着深度学习的盛行，许多研究者将深度学习应用于文本分类，其中深度学习在文本分类上的成功就很大程度上取决于词向量的有效性，很多研究都是对词向量序列进行简单的平均加权或者进行池化聚合，有着参数少训练快的特性，在很多文本分类任务上也取得了不错的效果。但是这种方法不会明确考虑文本序列内的空间信息及单词的顺序信息，对一些具体任务的比如情绪识别等这些需要考虑到一定的顺序信息的分类任务的泛化效果不佳。

发明内容

本发明的目的在于克服现有技术的不足，提出一种设计合理、能够有效提高提高分类结果的准确度及分类任务泛化能力的基于自注意力的单词和标签联合的短文本分类预测方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于自注意力的单词和标签联合的短文本分类预测方法，包括以下步骤：

步骤1：构造单词到向量的映射表E^D；

步骤2：基于映射表E^D，将单条短文本V和所有的标签D分别映射为短文本向量表示矩阵X和标签向量表示矩阵Y；

步骤3：基于短文本向量表示矩阵X，通过自注意力机制，得到经由文本自注意力转换后的文本表示矩阵X^A；

步骤4：基于短文本向量表示矩阵X和标签向量表示矩阵Y，通过交互注意力机制，得到经由短文本与标签交互注意力转换后的交互文本表示矩阵X^B；

步骤5：融合加权步骤3和步骤4中的文本表示矩阵X^A和交互文本表示矩阵X^B，得到文本语义表示向量z；

步骤6：根据文本语义表示向量z，经过全连接层预测分类结果与短文本实际标签y进行比较计算出预测误差，并通过不断迭代得到最优参数；

步骤7：对于新的短文本V′，顺序执行步骤2至步骤6得到计算分类结果，此时预测出来的结果即为最终的结果。

进一步，所述步骤1的具体实现方法为：采用预先训练好的glove词向量，通过预训练的词向量将每个单词映射为对应的向量表示，得到单词到向量的映射表E^D，D代表的是向量维度大小。

进一步，所述步骤2的具体实现方法为：根据映射表E^D，将单条短文本V＝{v₁,v₂...v_I}映射为向量表示矩阵X∈R^IxD，其中，v₁...v_I代表单词序列，I代表短文本单词数目，将所有类别的标签D＝{d₁,d₂...d_C}分别映射为向量表示矩矩阵Y∈R^CxD，其中，d₁...d_C代表标签序列，C代表标签类别的数目，这里的第i个标签d_i取自数据集中用于描述第i个标签类别的词组，其中，i＝1,2..C。

进一步，所述标签d_i由1-2个单词构成。

进一步，所述步骤3的具体实现方法为：短文本向量表示矩阵X通过自注意力机制分别产生相应的查询Q₁、键K₁和值V₁，所述查询Q₁、键K₁和值V₁与短文本向量表示矩阵X一样，根据查询Q₁、键K₁之间的匹配程度计算得到的权重系数，再通过权重系数对值V₁相乘并进行加权求和得到文本表示矩阵X^A∈R^IxD。

进一步，所述步骤4的具体实现方法为：标签向量表示矩阵Y产生相应的键K₂和值V₂，所述键K₂和值V₂与标签向量表示矩阵Y一样，根据查询Q₁、键K₂之间的匹配程度计算得到的权重系数，再通过权重系数对值V₂相乘并进行加权求和得到经由短文本与标签交互注意力转换后的交互文本表示矩阵X^B∈R^IxD。

进一步，所述步骤5的具体实现方法为：融合加权步骤3和步骤4中的文本表示矩阵X^A和交互文本表示矩阵X^B后，再通过平均池化操作直接得到文本语义表示向量z，向量z和输入向量维度保持一致。

进一步，所述步骤6的具体实现方法为：通过文本语义表示向量z，经过全连接层预测分类结果与短文本实际标签y进行比较计算出预测误差，通过最小化交叉熵损失函数，不断迭代得到最优参数。

进一步，所述短文本实际标签y是数据集中用来进行测试的标签类别，具体任务分为单标签任务和多标签任务。

本发明的优点和积极效果是：

1、本发明利用数据集本身的类别标签信息，将标签和短文本的单词向量映射到同一空间，从而实现更好的交互功能，并且，为了避免只考虑词向量的简单加权聚合不能很好捕捉全局上下文信息的情况，利用自注意力机制分配给不同单词不同的权重系数，从一定程度上筛选出对分类结果有贡献的信息筛除对分类结果无效的信息，考虑到了文本序列的全局性并从一定程度上达到消除噪音的效果，提高了分类结果的准确度及分类任务的泛化能力。

2、本发明在利用自注意力机制的基础上分为2条路线，第一条路线是单独短文本序列通过自注意力机制加权得出，第二条路线是将文本和标签通过自注意力机制形成联合加权表示，然后将2条路线进行融合得到文本表示向量，这里的文本表示向量既在一定程度上利用到了标签信息加强了本身短文本的信息表示又充分考虑到全局上下文的特征和单词的顺序信息，增加可解释性，对分类结果的提升有着很大的影响。

附图说明

图1是本发明的整体处理流程图；

图2是本发明多模型融合策略图。

具体实施方式

以下结合附图对本发明做进一步详述。

本发明的设计思想是：首先利用预训练词向量技术将短文本序列和标签序列映射到低维向量空间，这样单词之前能够产生一定的交互性并且拥有一定的语义信息；随后通过自注意力机制再对每个位置的信息进行不同的权重组合，使得能够筛选出对分类结果有贡献的内容，筛除了没有贡献的内容信息，一定程度上排除了噪声点；再利用深度学习流行的池化聚合技术合成一个向量，向量经过全连接层预测分类结果与短文本实际标签进行比较计算误差，迭代更新参数直至收敛，固定参数；最后对给定新短文本测试序列进行预测。

基于上述设计思想，本发明提出的基于自注意力的单词和标签联合的短文本分类预测方法，如图1所示，包括以下步骤：

步骤1、构造单词到向量的映射表E^D。

在本步骤中，本发明采用预先训练好的glove词向量，通过预训练的词向量将每个单词映射为对应的向量表示，其中D代表的是向量维度大小，本发明D取300。

步骤2、根据基于步骤1得到的映射表E^D，将单条短文本V和所有的标签D分别映射为短文本向量表示矩阵X和标签向量表示矩阵Y。

在本步骤中，使用映射表E^D，将单条短文本V＝{v₁,v₂...v_I}映射为向量表示矩阵X∈R^IxD，其中v₁...v_I代表单词序列，I代表单词数目，将所有类别的标签D＝{d₁,d₂...d_C}分别映射为向量表示矩矩阵Y∈R^CxD。其中d₁...d_C代表标签序列，C代表标签类别的数目，这里的第i个标签d_i取自数据集中用于描述第i个标签类别的词组，一般由1-2个单词构成，i＝1,2..C。如果是一个单词直接取该单词的向量，如果是2个单词进行相加求平均得到标签对应的向量。

步骤3、基于步骤2中的短文本向量表示矩阵X，通过所设计的自注意力机制，得到经由文本自注意力转换后的文本表示矩阵X^A。

本步骤的具体实现方法为：短文本向量表示矩阵X通过自注意力机制分别产生相应的查询Q₁、键K₁和值V₁。Q₁、K₁、V₁维度和X一样。根据查询Q₁、键K₁之间的匹配程度计算得到的权重系数，再通过权重系数对值V₁相乘并机型加权求和得到文本表示矩阵X^A∈R^IxD。

本步骤的具体实现公式如下所示：

在原来求权重基础上除以/>

进行缩放，对权重系数分布做了一定的优化。

这里引入多头机制，从不同的方面提取特征：

X^A＝Concat(head₁,...,head_h)W^o，其中h表示所使用的的头数，本发明中h＝6，W^o表示参数矩阵为了使得拼接后的结果和输入自注意力机制之前的结果保持一致。head可以表示为head_i＝Attention(Q₁W_i ^Q1,K₁W_i ^K1,V₁W_i ^V1)，其中

W_i ^o∈R^mxD都是模型的参数矩阵，d_k＝d_v＝D/h＝50,m＝hd_v＝300。

步骤4、基于步骤2中的短文本向量表示矩阵X和标签向量表示矩阵Y，通过交互注意力机制，得到经由短文本与标签交互注意力转换后的交互文本表示矩阵X^B。

本步骤的具体实现方法为：与前述方法相同，Y产生相应的键K₂和值V₂，K₂、V₂维度和Y一样，通过所设计的交互注意力机制，此处根据查询Q₁、键K₂之间的匹配程度计算得到的权重系数，再通过权重系数对值V₂相乘并加权求和得到经由文本与标签交互注意力转换后的交互文本表示矩阵X^B∈R^IxD。

本步骤的实现公式如下所示：

这里引入多头机制，从不同的方面提取特征：

X^B＝Concat(head₁′,...,head_h′)W′^o，其中h表示所使用的的头数，本发明中h＝6，W^o表示参数矩阵为了使得拼接后的结果和输入自注意力机制之前的结果保持一致。head可以表示为head_i′＝Attention(Q₁W_i′^Q1,K₂W_i ^K2,V₂W_i ^V2)，其中

W_i′^o∈R^m′xD都是模型的参数矩阵，其中d_k′＝d_v′＝D/h＝50,m′＝hd_v′＝300。

步骤5、融合加权步骤3和步骤4中的文本表示矩阵X^A和X^B，得到文本语义表示向量z。

本步骤的具体实现方法为：融合加权步骤3和步骤4中的文本表示矩阵X^A和X^B后，再通过平均池化操作直接得到文本语义表示向量z。其中，z也是一个D维的向量和输入向量维度保持一致，其计算公式为：

这里采用的是将矩阵X^A和X^B平均加权后进行平均池化操作。

步骤6、通过文本语义表示向量z经过全连接层预测分类结果与短文本实际标签y进行比较计算出预测误差，通过不断迭代得到最优参数。

本步骤的具体实现方法为：通过z经过全链接层预测分类结果与短文本实际标签y进行比较计算出预测误差，这里的y是数据集中用来进行测试的标签类别，具体任务时候分为单标签任务和多标签任务，通过最小化交叉熵损失函数，不断迭代得到最优参数。单标签问题是每个短文本只能属于特定的某一个标签，多标签问题是每个问题可以同时属于多个标签类别不做限制。具体分析如下：

单标签预测：最小化交叉熵损失函数表示为：

这里N代表短文本总数，最终交叉熵损失函数取N个文本交叉熵损失函数的平均值，其中y_n表示用于预测第n个文本的标签，一共有C种类别，z_n表示第n个文本的语义表示向量，假设z′_n＝W₂z_n+b₂，其中W₂∈R^CxD，b₂∈R^C，/>

则f₂(z_n)＝SoftMax(z′_n)，其中损失函数表达式中CE(.,.)表示两个概率向量之间的交叉损失。

多标签预测的最小化交叉损失熵函数表示为，

这里交叉熵损失函数表现为对N个文本，C个类中对每个文本的每个类的损失函数求均值，其中

此处的z′_nc可以表示为单标签中z′_n的第c行的元素。通过不断迭代，调出最优参数。

步骤7、对于新的短文本V′，不再更新模型中的全部参数，顺序执行步骤2至步骤6得到计算分类结果。

本步骤的具体实现方法为：在以上包括自注意力以及最小化交叉熵损失函数的参数完全固定之后，对于新的短文本V′，不再更新模型中所有的参数，将新的短文本V′顺序执行步骤2至步骤6，此时预测出来的结果即为最终的结果。

本发明的上述方法可以通过图2所示的算法流程在计算机上实现。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于自注意力的单词和标签联合的短文本分类预测方法，其特征在于包括以下步骤：

步骤1：构造单词到向量的映射表E^D；

2.根据权利要求1所述基于自注意力的单词和标签联合的短文本分类预测方法，其特征在于：所述步骤1的具体实现方法为：采用预先训练好的glove词向量，通过预训练的词向量将每个单词映射为对应的向量表示，得到单词到向量的映射表E^D，D代表的是向量维度大小。

3.根据权利要求1所述基于自注意力的单词和标签联合的短文本分类预测方法，其特征在于：所述步骤2的具体实现方法为：根据映射表E^D，将单条短文本V＝{v₁,v₂...v_I}映射为向量表示矩阵X∈R^IxD，其中，v₁...v_I代表单词序列，I代表短文本单词数目，将所有类别的标签D＝{d₁,d₂...d_C}分别映射为向量表示矩矩阵Y∈R^CxD，其中，d₁...d_C代表标签序列，C代表标签类别的数目，这里的第i个标签d_i取自数据集中用于描述第i个标签类别的词组，其中，i＝1,2..C。

4.根据权利要求3所述基于自注意力的单词和标签联合的短文本分类预测方法，其特征在于：所述标签d_i由1-2个单词构成。

5.根据权利要求1所述基于自注意力的单词和标签联合的短文本分类预测方法，其特征在于：所述步骤3的具体实现方法为：短文本向量表示矩阵X通过自注意力机制分别产生相应的查询Q₁、键K₁和值V₁，所述查询Q₁、键K₁和值V₁与短文本向量表示矩阵X一样，根据查询Q₁、键K₁之间的匹配程度计算得到的权重系数，再通过权重系数对值V₁相乘并进行加权求和得到文本表示矩阵X^A∈R^IxD。

6.根据权利要求1所述基于自注意力的单词和标签联合的短文本分类预测方法，其特征在于：所述步骤4的具体实现方法为：标签向量表示矩阵Y产生相应的键K₂和值V₂，所述键K₂和值V₂与标签向量表示矩阵Y一样，根据查询Q₁、键K₂之间的匹配程度计算得到的权重系数，再通过权重系数对值V₂相乘并进行加权求和得到经由短文本与标签交互注意力转换后的交互文本表示矩阵X^B∈R^IxD。

7.根据权利要求1所述基于自注意力的单词和标签联合的短文本分类预测方法，其特征在于：所述步骤5的具体实现方法为：融合加权步骤3和步骤4中的文本表示矩阵X^A和交互文本表示矩阵X^B后，再通过平均池化操作直接得到文本语义表示向量z，向量z和输入向量维度保持一致。

8.根据权利要求1所述基于自注意力的单词和标签联合的短文本分类预测方法，其特征在于：所述步骤6的具体实现方法为：通过文本语义表示向量z，经过全连接层预测分类结果与短文本实际标签y进行比较计算出预测误差，通过最小化交叉熵损失函数，不断迭代得到最优参数。

9.根据权利要求8所述基于自注意力的单词和标签联合的短文本分类预测方法，其特征在于：所述短文本实际标签y是数据集中用来进行测试的标签类别，具体任务分为单标签任务和多标签任务。