CN114969343B

CN114969343B - 结合相对位置信息的弱监督文本分类方法

Info

Publication number: CN114969343B
Application number: CN202210639693.3A
Authority: CN
Inventors: 甘玲; 易爱军; 刘菊; 胡柳慧
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2024-04-19
Anticipated expiration: 2042-06-07
Also published as: CN114969343A

Abstract

本发明涉及一种结合相对位置信息的弱监督文本分类方法，属于自然语言处理领域，包括以下步骤：S1：输入初始化种子词，以及与初始化种子词同类的为标记文档；S2：生成伪标签；S3：基于生成的伪标签训练Transformer文本分类器；S4：通过文本分类器为未标记的文本分配标签；S5：通过比较排序方法，更新每一个类别的种子词，返回步骤S2进行迭代训练。本发明提升了模型的学习能力，提高了分类的准确率。

Description

结合相对位置信息的弱监督文本分类方法

技术领域

本发明属于自然语言处理领域，涉及一种结合相对位置信息的弱监督文本分类方法。

背景技术

文本分类是自然语言处理(NLP)中最基本的任务之一。在现实世界中，标记大量文本非常耗时，特别是在一些特定的领域。近年来，弱监督文本分类受到了广泛的关注，因为它可以大大减少标注海量数据的工作量。在现有的方法中，主流方法是种子词驱动，典型的种子驱动方法遵循一个迭代框架——用户只需为每个类提供一些种子词，使用此类相关的种子词为未标记文本生成伪标签、构建文本分类器、更新种子词。

文本分类的关键在于挖掘文本上下文信息得到准确的语义表示，选择适当的分类器捕获有效的全局信息有助于提高分准确率。目前深度学习主流的神经网络模型包括卷积神经网络长短时记忆神经网以及两者的各种变体。CNN通过滑动窗口提取到局部短语特征，然后用最大池化选择最显著的特征，这会过滤掉许多底层信息。LSTM通过引入记忆单元来记住任意时间间隔的值，并通过三个门来控制输入输出和遗忘，旨在更好的捕捉长期依赖关系。Yang等人提出的分层注意力网络模型有两个显著的特征，1)是一个分层的结构来反应文档的层次结构。2)在单词和句子级别应用了两个级别的注意力机制，使其能够在构建文档表示时以不同的方式关注重要和不重要的内容。

现有技术中存在以下不足：(1)传统分类器捕捉句子中单词之间关系的计算成本也会随着句子长度的增加而增加。并行效率低，模型运行速度慢。忽视了对文本全局信息的考虑，不能有效地表示词与词之间的关联性，因此不能很好地捕捉篇章的全局上下文信息。(2)绝对位置信息对句子方向性、相对位置差异性表示不足。

发明内容

有鉴于此，本发明的目的在于提供一种结合相对位置信息的弱监督文本分类方法，运用Transformer模型通过多头自注意力机制可以在并行计算的同时捕获长距离依赖关系，充分学习到输入文本的全局语义信息，解决一般深度神经网络模型无法充分捕获语义信息的问题；另一方面，本发明引用相对位置编码信息，弥补绝对位置信息对句子方向性、相对位置差异性表示不足的问题。

为达到上述目的，本发明提供如下技术方案：

一种结合相对位置信息的弱监督文本分类方法，包括以下步骤：

S1：输入初始化种子词，以及与初始化种子词同类的为标记文档；

S2：生成伪标签；

S3：基于生成的伪标签训练Transformer文本分类器；

S4：通过文本分类器为未标记的文本分配标签；

S5：通过比较排序方法，更新每一个类别的种子词，返回步骤S2进行迭代训练。

进一步，步骤S1中，输入数据包含两部分：

1)一组用户提供的C类初始化种子词S＝{S₁,S₂,…S_C},其中表示i类的k_i个种子词；

2)一组属于C类的n个未标记文档U＝{U₁,U₂,…,U_n}。

进一步，步骤S2中，采用基于统计的方法，为每个文档分配的伪标签为种子词频率最大所在的标签；

文档d被分配到的伪标签l(d)的计算公式如下所示：

其中表示上下文文档d中单词w的术语频率，S_C表示类别C的种子词集合。

进一步，步骤S3中，使用Transformer的Enconder作为文本分类器；

Transformer模型中位置编码计算公式如下：

其中，pos是指当前词在句子中的位置，i是指向量中每个值的索引，d_model是指词向量的维度，在偶数位置使用正弦编码，在奇数位置使用余弦编码；将位置向量与词向量相加得到融合词向量；

Transformer模型中多头自注意力机制计算公式如下：

MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_h)W^O (6)

其中，W^O∈R^{dmodel×dmodel}，i＝1,2,…,h,Q、K、V分别代表查询矩阵、键矩阵和值矩阵，Q、K、V的值同等于融合词向量矩阵；/>和/>分别表示对Q、K、V进行线性变换的矩阵，将d_model维的词向量映射到dk维空间；h代表头的数量，每个头能捕获文本序列中一个子空间信息，执行h次自注意力机制然后进行拼接，通过线性变换矩阵W^O得到最终的多头自注意力值。

进一步，在所述Transformer模型中引入相对位置编码，并且在每一层transformer的self-attention中都加入相对位置信息。

进一步，步骤S4中，对于给定的类别C_j和单词w，根据以下三个指标来衡量其重要性：

(1)标签指示：使用P(C_j|w)作为标签指示性度量：

其中，指预测为C_j类的文档总数，/>w指包含单词w的文档；

(2)频率：应用tanh函数对属于标签l的所有文档中种子词s的平均频率进行缩放，得到频率分数：

表示被预测为C_j类的文档中单词w的频率；

(3)逆文档频率IDF：

其中n为语料库D中的文档数量，f_D,w表示单词w的文档频率；

最后使用几何平均数将所述的三个指标结合起来，得出C_j类单词w的聚合分数：

R(C_j,w)＝(LI×F×IDF(w)^M) (10)

基于所述聚合分数，添加分数靠前的单词以扩展C_j类的种子词集合。

本发明的有益效果在于：在使用分类器对文本进行分类阶段，本发明在传统的神经网络不能有效地表示词与词之间的关联性且不能很好地捕获篇章的全局上下文信息基础上，采用Transformer作为文本分类器，利用Transformer的多头注意力机制，它使得注意力层获得了多种的子空间特征表示，提升了模型的学习能力。在采用Transformer作为分类器后，因为输入序列是无序的，为了能够获取文本中词与词之间的位置顺序关系，引入相对位置编码，来获取位置信息，以提高分类的准确率。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述一种结合相对位置信息的弱监督文本分类方法结构框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1，本发明提出一种结合相对位置信息的弱监督文本分类方法，是一个不断迭代的过程，首先，基于未标记的文档生成伪标签，并基于这些伪标签训练一个分类器来分类所有未标记的文档。其次，通过比较排序方法，更新每一个类别的种子词。

使用Transformer的Enconder作为文本分类器，Transformer运用多头注意力机制将模型分为多个头，形成多个子空间，可以让模型去关注不同方面的信息，最后再将各个方面的信息综合起来。多头的注意力机制有助于网络捕捉到更丰富的特征信息。本发明用生成的伪标签在未标记语料库上训练Transformer模型。

引入相对位置编码，并且在每一层transformer的self-attention中都加入这种相对位置信息，可以使得模型在学习的过程中持续考虑位置关系的影响，并且针对不同的输入序列可以泛化出对于其中包含的不同位置信息的捕捉，使得transformer能够更好的建模语句中包含的语义信息。

本发明的具体实施步骤如下：

步骤一：输入数据包含两部分：1)一组用户提供的C类初始化种子词S＝{S₁,S₂,…S_C},其中表示i类的k_i个种子词，2)一组属于C类的n个未标记文档U＝{U₁,U₂,…,U_n}。本文的目标是建立一个文本分类器，并为未标记的文本分配标签。

步骤二：本发明采用了一种基于统计的简单而有效的方法，每个文档分配的标签为种子词频率最大所在的标签。表示上下文文档d中单词w的术语频率，S_C表示类别C的种子词集合，文档d被分配到标签l(d)的计算公式如下所示：

步骤三：基于生成的伪标签训练文本分类器，本发明中使用Transformer作为文本分类器。Transformer模型中位置编码计算公式如下：

其中，pos是指当前词在句子中的位置，i是指向量中每个值的索引，d_model是指词向量的维度，在偶数位置使用正弦编码，在奇数位置使用余弦编码。将位置向量与词向量相加得到融合词向量，丰富了文本词向量的表示。

Transformer模型中多头自注意力机制计算公式如下：

MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_h)W^O (6)

其中，W^O∈R^{dmodel×dmodel}，i＝1,2,…,h,Q、K、V分别代表查询矩阵、键矩阵和值矩阵，Q、K、V的值同等于融合词向量矩阵。/>和/>分别表示对Q、K、V进行线性变换的矩阵，将d_model维的词向量映射到dk维空间。h代表头的数量，每个头能捕获文本序列中一个子空间信息，执行h次自注意力机制然后进行拼接，通过线性变换矩阵W^O得到最终的多头自注意力值。

步骤四：种子词扩展

标签l的理想种子词s是一个不寻常的词，仅出现在属于标签l的文档中，出现频率很高。因此，对于给定的类别C_j和单词w，本发明根据以下三个方面来衡量其重要性。

(1)标签指示

由于伪标签的生成遵循文档中种子词的存在，理想情况下，在观察到单词w即P(C_j|w)的存在后，属于C_j类的文档的后验概率应该非常接近100％。因此，使用P(C_j|w)作为标签指示性度量：

其中，指预测为C_j类的文档总数，/>w指包含单词w的文档，所有这些计数均基于输入未标记文档的预测结果。

(2)频率

理想情况下，标签l的种子词s是以高频率出现在属于标签l的文档中。为了计算频率分数，首先计算属于标签l的所有文档中种子词s的平均频率。由于平均频率是无界的，所以应用tanh函数对其进行缩放，得到频率分数。

与公式(7)中定义的w不同，/>表示被预测为C_j类的文档中单词w的频率。

(3)逆文档频率

文档中有高度指示性和频繁的词应该是不寻常的。为了考虑这一点，使用逆文档频率(IDF)。设n为语料库D中的文档数量，f_D,w表示单词w的文档频率，单词w的IDF计算如下：

最后使用几何平均数将这三个指标结合起来，得出C_j类单词w的分数。

R(C_j,w)＝(LI×F×IDF(w)^M) (10)

基于这一聚合分数，添加分数靠前的单词以扩展C_j类的种子词集合。

本实施例在实验中使用了两个新闻数据集，NYT的数据集包含The New YorkTimes撰写和发表的新闻文章。这些文章分为5个粗粒度类和25个细粒度类。20News数据集是新闻组文档的集合，广泛划分为6个粗粒度类和20个细粒度类。

表1

评价指标为：宏平均Macro-F1、微平均Micro-F1

硬件环境：Tesla V100-SXM2-32GB；

软件环境：Ubuntu16.04,Python 3.7,Keras 2.0.8,Cuda10.1；

实验设置：限制词表个数是20000个在所有数据集上使用Skip-Gram模型在相应的语料库上训练200维的词向量。预处理过滤掉文本中的停用词和标点符号，将分类器训练和种子词扩展之间的迭代次数T设置为6。具体实验参数如表2所示：

表2

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种结合相对位置信息的弱监督文本分类方法，其特征在于：包括以下步骤：

S2：生成伪标签；

S3：基于生成的伪标签训练Transformer文本分类器；

S4：通过文本分类器为未标记的文本分配标签；

S5：通过比较排序方法，更新每一个类别的种子词，返回步骤S2进行迭代训练；

步骤S3中，使用Transformer的Enconder作为文本分类器；

Transformer模型中位置编码计算公式如下：

Transformer模型中多头自注意力机制计算公式如下：

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

MultiHead(Q，K，V)＝Concat(head₁，head₂，...，head_h)W^O

其中，W_i ^Q、W_i ^K、W_i ^V∈R^dmodel×dk，W^O∈R^{dmodel×dmodel}，i＝1，2，...，h，Q、K、V分别代表查询矩阵、键矩阵和值矩阵，Q、K、V的值同等于融合词向量矩阵；W_i ^Q、W_i ^K和W_i ^V分别表示对Q、K、V进行线性变换的矩阵，将d_model维的词向量映射到dk维空间；h代表头的数量，每个头能捕获文本序列中一个子空间信息，执行h次自注意力机制然后进行拼接，通过线性变换矩阵W^O得到最终的多头自注意力值；

在所述Transformer模型中引入相对位置编码，并且在每一层transformer的self-attention中都加入相对位置信息。

2.根据权利要求1所述的结合相对位置信息的弱监督文本分类方法，其特征在于：步骤S1中，输入数据包含两部分：

1)一组用户提供的C类初始化种子词S＝{S₁，S₂，...S_C}，其中表示i类的k_i个种子词；

2)一组属于C类的n个未标记文档U＝{U₁，U₂，...，U_n}。

3.根据权利要求1所述的结合相对位置信息的弱监督文本分类方法，其特征在于：步骤S2中，采用基于统计的方法，为每个文档分配的伪标签为种子词频率最大所在的标签；

文档d被分配到的伪标签l(d)的计算公式如下所示：

其中表示上下文文档d中单词/>的术语频率，S_C表示类别C的种子词集合。

4.根据权利要求1所述的结合相对位置信息的弱监督文本分类方法，其特征在于：步骤S4中，对于给定的类别C_j和单词w，根据以下三个指标来衡量其重要性：

(1)标签指示：使用P(C_j|w)作为标签指示性度量：

其中，指预测为C_j类的文档总数，/>指包含单词w的文档；

表示被预测为C_j类的文档中单词w的频率；

(3)逆文档频率IDF：

其中n为语料库D中的文档数量，f_D，w表示单词w的文档频率；

R(C_j，w)＝(LI×F×IDF(w)^M)