CN111460142B

CN111460142B - 一种基于自注意力卷积神经网络的短文本分类方法及系统

Info

Publication number: CN111460142B
Application number: CN202010150086.1A
Authority: CN
Inventors: 周国强; 管兵
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2022-09-23
Anticipated expiration: 2040-03-06
Also published as: CN111460142A

Abstract

本发明公开了一种基于自注意力卷积神经网络的短文本分类方法和系统，该方法包括：首先对短文本数据集进行预处理，得到词的初始特征向量，组成的短文本矩阵输入到Word2vec模型中，从而得到词向量；接着将输入短文本矩阵至Self‑attention层，对每个标记Token的上下文信息进行编码，经过卷积层、池化层后抽取短文本的高级语义特征向量，并输入至Softmax分类器进行文本分类识别；所述系统包括文本预处理模块、Word2vec预训练模块、Self‑attention模块、卷积池化模块、分类器模块。本发明在短文本特征学习模型中融合了自注意力机制，可以有效地突出上下文关键词的作用，使得模型的性能得到了很大的提高，且能够降低计算的误差，提高文本数据分类的准确率。

Description

一种基于自注意力卷积神经网络的短文本分类方法及系统

技术领域

本发明涉及数据处理与人工智能领域，特别涉及一种基于自注意力卷积神经网络的短文本分类方法及系统。

背景技术

语言是人类区别其他动物的本质特性。在所有生物中，只有人类才具有语言能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式，人类的绝大部分知识也是以语言文字的形式记载和流传下来的。因而，它也是人工智能的一个重要，甚至核心部分。目前在关于卷积神经网络对短文本分类的过程中，由于卷积神经网络是基于N-Gram模式，且分类的性能完全取决于窗口的大小，造成分类过程中不能完全捕获上下文信息，导致语义信息的丢失，且容易出现误差，不利于短文本的快速且准确分类。

发明内容

发明目的：本发明为克服卷积神经网络无法捕获长期上下文信息的缺陷，提出了一种融合自注意力机制的短文本分类方法，解决了目前卷积神经网络在短文本分类中无法获取非连续词之间的相关性的问题。本发明的另一目的是提供基于上述方法的短文本分类系统。

技术方案：本发明所述的基于自注意力卷积神经网络的短文本分类方法，包括以下步骤：

(1)对短文本数据集进行预处理，得到标记Token，并将其One-hot编码作为词的初始特征向量；

(2)将词的初始特征向量组成的短文本矩阵输入到Word2vec模型中，对每个标记Token进行训练，得到词向量；

(3)将短文本矩阵作为Self-attention层的输入，通过Self-attention层对每个标记Token的上下文信息进行编码，经过卷积层、池化层后抽取短文本的高级语义特征向量；

(4)将高级语义特征向量作为Softmax分类器的输入进行文本分类识别。

进一步地，所述步骤(1)中，所述预处理包括：对短文本数据集中的短文本进行分词和去停用词，将得到的每个标记Token的One-hot编码作为词的初始特征向量。

进一步地，所述步骤(3)包括：

(31)对词与词之间的相关性进行量化，计算公式为：

其中，x_i和x_j分别表示第i个词和第j个词的词向量；d_i,j＝|i-j|+1，表示词向量x_i和词向量x_j的相对位置距离；W_a和

分别表示Self-attention层的训练权重矩阵和参数向量；

(32)通过Softmax对上述score(x_i,x_j)的值进行归一化，公式为：

a_i,j＝softmax(score(x_i,x_j))

(33)获取每个标记Token的上下文信息的词向量，公式为：

c_i＝∑a_i,j·x_j

其中，c_i表示词向量x_i包含上下文信息的词向量。

优选地，步骤(3)中，所述池化层选择静态划分Chunk-Max Pooling，以尽可能提取更高效的特征。

进一步地，所述词与词之间的相关性score(x_i,x_j)随着d_i,j的增大而减少，且保证d_i,j不为0。

本发明所述的基于自注意力卷积神经网络的短文本分类系统，包括：

文本预处理模块，用于对短文本数据集进行预处理；

Word2vec预训练模块，用于获取词的初始特征向量组成的短文本矩阵，对每个标记Token进行训练，得到词向量；

Self-attention模块，用于获取短文本矩阵，对标记Token的上下文信息进行编码，得到词与词之间的相关性；

卷积池化模块，用于根据词向量表示抽取短文本的高级语义特征向量；

分类器模块，用于根据短文本的高级语义特征对文本数据进行分类。

有益效果：与现有技术相比，本发明通过Self-attention机制计算词与词之间的相关性，对词的上下文进行有效地编码，尽量保留了词的高级语义特性，可准确的确定短文本数据的类别，不仅能降低计算的误差，同时提高文本数据分类的准确率。

附图说明

图1是本发明的方法流程图；

图2是实施例结果图。

具体实施方式

下面通过实施例并结合附图对本发明作详细说明。如图1所示，本实施例描述的基于自注意力卷积神经网络的短文本分类方法，包括以下步骤：

1、对短文本数据集进行预处理，包括：借助jieba分词工具对去停用词后的短文本进行分词，并将每个标记Token的One-hot编码作为词的初始特征向量；

2、将词的初始特征向量组成的短文本矩阵输入到Word2vec模型中，对每个标记Token进行训练，得到词向量；

3、采用Word2vec模型对短文本进行词向量训练，每个单词采用步骤2得到的词向量表示并作为神经网络的输入来提取短文本的特征值；

4、通过Self-attention层对每个词的上下文信息进行编码，再经过卷积层，池化层后抽取文本的高级语义特征。具体算法流程如下：

(1)对词x_i和词x_j的相关性进行量化，公式为：

其中，x_i和x_j分别表示第i个词和第j个词的词向量，d_i,j＝|i-j|+1，表示词x_i和词x_j的相对位置距离，数字1是防止分母为零的情况；x_i和x_j分别表示词i和词j的Word2vec向量。

引进衰减因子d_i,j作为分数函数输出的一种惩罚，减少了噪声信息对句子长度增长的影响。

(2)通过softmax对上述score的值进行归一化，公式为：

a_i,j＝softmax(score(x_i,x_j))

(3)获取上下文向量c_i，公式为：

c_i＝∑a_i,j·x_j

其中，c_i表示词x_i包含上下文信息的词向量。

Chunk-Max Pooling作为池化层，以尽可能的提取更高效的特征。

例如：“The animal didn’t cross the street because it was too tired.”这句话中的it指的是什么？它指的是animal还是street？对于人来说，这其实是一个简单的问题，但是对于一个算法来说，处理这个问题其实并不容易。Self-attention的出现就是为了解决这个问题。当模型处理单词的时候，Self-attention层可以通过当前单词查看输入序列中的其它单词，以此来寻找编码这个单词更好的线索。通过该步骤，可以得到如图2所示的词相关性的最后结果。从图中可以发现，在编码单词it的时候，注意力集中在animal(0.58)上了，这部分的注意力会通过权重传递的方式影响it的编码。

5、将上述文本的特征向量作为Softmax分类器的输入进行分类识别。

基于上述方法所形成的短文本分类系统，包括：

文本预处理模块，用于对短文本数据集进行预处理；

Claims

1.一种基于自注意力卷积神经网络的短文本分类方法，其特征在于，包括以下步骤：

(4)将高级语义特征向量作为Softmax分类器的输入进行文本分类识别，

所述步骤(3)中通过Self-attention层对每个标记Token的上下文信息进行编码，经过卷积层、池化层后抽取短文本的高级语义特征向量的具体算法包括：

(31)对词与词之间的相关性进行量化，计算公式为：

其中，x_i和x_j分别表示第i个词和第j个词的词向量；d_i，j＝|i-j|+1，表示词向量x_i和词向量x_j的相对位置距离；W_a和

分别表示Self-attention层的训练权重矩阵和参数向量；

(32)通过Softmax对上述score(x_i，x_j)的值进行归一化，公式为：

a_i，j＝softmax(score(x_i，x_j))

(33)获取每个标记Token的上下文信息的词向量，公式为：

c_i＝∑a_i，j·x_j

其中，c_i表示词向量x_i包含上下文信息的词向量。

2.根据权利要求1所述的基于自注意力卷积神经网络的短文本分类方法，其特征在于，所述步骤(1)中，所述预处理包括：对短文本数据集中的短文本进行分词和去停用词，将得到的每个标记Token的One-hot编码作为词的初始特征向量。

3.根据权利要求1所述的基于自注意力卷积神经网络的短文本分类方法，其特征在于，步骤(3)中，所述池化层选择静态划分Chunk-Max Pooling。

4.根据权利要求1所述的基于自注意力卷积神经网络的短文本分类方法，其特征在于，所述词与词之间的相关性score(x_i，x_j)随着d_i，j的增大而减少，且保证d_i,j不为0。

5.一种基于自注意力卷积神经网络的短文本分类系统，其特征在于，该系统包括：

文本预处理模块，用于对短文本数据集进行预处理；

通过Self-attention模块对每个标记Token的上下文信息进行编码，经过卷积池化模块抽取短文本的高级语义特征向量的具体算法包括：

(31)对词与词之间的相关性进行量化，计算公式为：

分别表示Self-attention层的训练权重矩阵和参数向量；

(32)通过Softmax对上述score(x_i，x_j)的值进行归一化，公式为：

a_i，j＝softmax(score(x_i，x_j))

(33)获取每个标记Token的上下文信息的词向量，公式为：

c_i＝∑a_i，j·x_j

其中，c_i表示词向量x_i包含上下文信息的词向量；