CN111368087B

CN111368087B - 基于多输入注意力网络的中文文本分类方法

Info

Publication number: CN111368087B
Application number: CN202010208894.9A
Authority: CN
Inventors: 仇俊豪; 施荣华; 张帆
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2022-07-15
Anticipated expiration: 2040-03-23
Also published as: CN111368087A

Abstract

本发明公开了一种基于多输入注意力网络的中文文本分类方法，包括获取中文文本数据；建立对应的语言模型；建立拼音编码器和文本编码器；将拼音编码器和文本编码器结合得到初步的新型多输入注意力网络模型并优化得到最终的新型多输入注意力网络模型；采用最终的新型多输入注意力网络模型对输入的中文文本进行分类得到最终的分类结果。本发明提供的这种基于多输入注意力网络的中文文本分类方法，采用新型的多输入注意力网络结构，来实现对自然语言的中文文本的分类，因此本发明方法的可靠性高、分类准确率高且相对简单。

Description

基于多输入注意力网络的中文文本分类方法

技术领域

本发明属于自然语言数据处理领域，具体涉及一种基于多输入注意力网络的中文文本分类方法。

背景技术

现如今人工智能在各个领域都有了广泛地应用，尤其是在自然语言处理领域，人工智能系统在文本分类、文本生成、机器翻译、机器阅读等方向都取得了显著的成果。在自然语言处理领域，人工智能也有极大地发展，其快速准确的摘要、分类、翻译与生成是人类无法匹及的。使用人工智能的自然语言处理系统，过往需要几天甚至几周的语言信息处理时间可以被大大缩短。这样有利于快速的处理各种语言信息，节约人力资源，降低相关成本，提高相关应用的效率和精度。

文本分类是自然语言处理领域的一个分支。具体来说，文本分类是指根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文本自动确定一个或几个类别的过程，包含了情感分析、主题分类等多个子领域。文本分类在众多领域中均有应用,常见的应用包括:邮件分类、网页分类、文本索引、自动文摘、信息检索、信息推送、数字图书馆以及学习系统等。

近年来，深度学习在文本分类中得到了广泛的应用。与传统的基于人工特征的方法相比，深度学习方法是通过多种神经网络结构从文本中学习特征。其中递归神经网络(RNN)以及其变体和卷积神经网络(CNN)结构被广泛用于提取文本特征。此外，由于其提取关键特征的能力，注意力机制在文本分类领域越来越受研究者的青睐。最近几年，RNN和CNN结合注意力机制的模型日益增多，甚至单独使用注意力机制提取特征的模型开始兴起。这些方法在许多领域取得了相当突出的成果，并且在实际生产中也得到了一定应用。

虽然深度学习的文本分类有很多优点，但是它依然存在大量的问题与可优化之处，尤其是中文文本分类。原因主要如下:(1)作为中文自然语言处理的一项重要任务，中文文本分类近年来在许多领域得到了广泛的应用。但是，与英文文本分类相比，相关的研究还比较少，尤其是中文文本的表示和编码方法。而这与中文文本分类模型的结果密切相关。(2)语言特征利用不全面。语言主要通过语音和形态两方面来传递信息。人类在学习语言的过程中不可避免地构建了形态和语音之间的映射。在日常语言运用中，形态和语音在传递信息方面相辅相成，引发了错别字、多音字、谐音等一系列广泛存在的语言现象，如长(长大、长度)、酱紫(这样子)、蓝瘦(难受)。过去非语音处理方面用于训练的大部分是基于形态这一方面的部分信息，语音方面的信息特征很少利用，这是自然语言处理的一个明显的可优化之处。(3)结果没有可解释性。这不仅是人工智能在自然语言处理方面的缺陷，也困扰着整个人工智能学界，由于语言的特殊性和广泛性，这个问题被尤为突出。于是，如何利用语言学知识拓展可利用的语言资源，同时提高相对应模型的解释性，不仅对文本分类、自然语言处理有很大的意义，更是对整个人工智能学界的一次意义长远的探索。目前看来，现有相关研究还不尽如人意。

发明内容

本发明的目的在于提供一种可靠性高、分类准确率高且相对简单的基于多输入注意力网络的中文文本分类方法。

本发明提供的这种基于多输入注意力网络的中文文本分类方法，包括如下步骤：

S1.获取中文文本数据；

S2.根据步骤S1获取的中文文本数据，建立对应的语言模型；

S3.建立拼音编码器；

S4.建立文本编码器；

S5.将步骤S3得到的拼音编码器和步骤S4得到的文本编码器进行结合，从而得到初步的新型多输入注意力网络模型；

S6.对步骤S5得到的初步的新型多输入注意力网络模型的模型参数进行优化，从而得到最终的新型多输入注意力网络模型；

S7.采用步骤S6得到的最终的新型多输入注意力网络模型，对输入的中文文本进行分类，从而得到最终的分类结果。

步骤S2所述的根据步骤S1获取的中文文本数据，建立对应的语言模型，具体为采用如下步骤建立语言模型：

A.将获取的中文文本数据进行分词，并去除停用词；

B.将步骤A得到的中文本文转换为对应的拼音文本；

C.将步骤A得到的中文文本和步骤B得到的拼音文本分别进行统计，得到中文文本统计数据和拼音文本统计数据；

D.对步骤C得到的中文文本统计数据和拼音文本统计数据进行训练，从而得到基于词向量的矩阵数据。

步骤S3所述的建立拼音编码器，具体为采用如下步骤建立拼音编码器：

a.设定拼音编码器的输入包括标点符号和数字的拼音字符；拼音编码器的嵌入层采用均值为X1、标准差为X2的高斯分布进行随机初始化；

b.嵌入层后连接一个一维可分离卷积层和一维最大池化层，用于初步提取拼音数据的空间特征；

c.将步骤b得到的空间特征输入注意力模块；所述注意力模块为采用可分离卷积神经网络算法构建的非线性的多头自注意力结构；

d.将步骤c得到的输出信号在输入提取模块；所述提取模块首先采用最大池化的下采样操作减少步骤c得到的特征映射，然后再采用两层可分离卷积层进行空间信息的进一步提取，从而得到拼音编码器的输出数据.

步骤c所述的注意力模块，具体为定义Q、K、V分别为由查询、键和值组成的矩阵；Q、K、V均为l*d的矩阵，其中l是输入长度，d是输入通道的数目；而且

Q_s＝[Q₁,...,Q_n],where Q_i＝SeparableConv1D(Q)

K_s＝[K₁,...,K_n],where K_i＝SeparableConv1D(K)

V_s＝[V₁,...,V_n],where V_i＝SeparableConv1D(V)

其中n为头的个数；SeparableConv1D为一维可分离卷积函数，Q_i∈R^l×dk且为Q_s的第i个矩阵，K_i∈R^l×dk且为K_s的第i个矩阵，V_i∈R^l×dk且为V_s的第i个矩阵；d_k为Q_i、K_i和V_i的通道数且

对于每一个头

其中softmax为softmax函数，

为K_i的转置，所有的头连接起来，然后由一个可分离卷积层处理，从而得到该可分离卷积层的输出为p＝SeparableConv1D(h₁,...,h_n)。

步骤S4所述的建立文本编码器，具体为采用如下步骤建立文本编码器：

(1)将全部文本通过嵌入层转换为低维向量；

(2)嵌入层的输出端依次连接高斯噪声层、dropout层和批量标准化层；

(3)再使用一个可分离卷积层进一步提取特征。

步骤S5所述的将步骤S3得到的拼音编码器和步骤S4得到的文本编码器进行结合，从而得到初步的新型多输入注意力网络模型，具体为采用如下步骤进行结合：

1)将文本编码器和拼音编码器的输出直接连接；

2)反复使用3次Extractor结构，从而提取长期依赖关系和全局特征；所述的Extractor结构包括步骤c所述的注意力模块和步骤d所述的提取模块；

3)采用点积注意力机制，以自注意力机制权重来衡量步骤2)的输出；

4)采用1个或3个全连接层和一个softmax层构成分类器，从而得到初步的新型多输入注意力网络模型。

步骤S6所述的对步骤S5得到的初步的新型多输入注意力网络模型的模型参数进行优化，从而得到最终的新型多输入注意力网络模型，具体为将步骤S2得到的数据按照设定的比例划分为训练集、验证集和测试集；采用训练集对初步的新型多输入注意力网络模型进行训练，根据验证集调整模型超参数，并采用测试集测试不同的超参数效果，筛选出最佳超参数，从而得到最终的新型多输入注意力网络模型。

本发明提供的这种基于多输入注意力网络的中文文本分类方法，采用新型的多输入注意力网络结构，来实现对自然语言的中文文本的分类，因此本发明方法的可靠性高、分类准确率高且相对简单。

附图说明

图1为本发明方法的方法流程示意图。

具体实施方式

如图1所示为本发明方法的方法流程示意图：本发明提供的这种基于多输入注意力网络的中文文本分类方法，包括如下步骤：

S1.获取中文文本数据；

S2.根据步骤S1获取的中文文本数据，建立对应的语言模型；具体为采用如下步骤建立语言模型：

A.将获取的中文文本数据进行分词，并去除停用词；

B.将步骤A得到的中文本文转换为对应的拼音文本；

D.对步骤C得到的中文文本统计数据和拼音文本统计数据进行训练，从而得到基于词向量的矩阵数据；

在具体实施时，分词、去停用词使用python上的开源工具包pypinyin进行实现；拼音转换使用python上的开源工具包jieba进行实现；训练词向量方法采用开源词向量工具SGNS vectors进行实现；

此外，根据中文文本统计数据和拼音文本统计数据，取涵盖90％文本词数长度的词数和文本个数为文本输入层维度，取涵盖90％拼音字符长度的字符数和拼音文本个数为拼音输入层维度；取词向量模型的维数为嵌入层参数；

S3.建立拼音编码器；具体为采用如下步骤建立拼音编码器：

a.设定拼音编码器的输入包括标点符号和数字的拼音字符；拼音编码器的嵌入层采用均值为X1(优选为0)、标准差为X2(优选为0.05)的高斯分布进行随机初始化；

c.将步骤b得到的空间特征输入注意力模块；所述注意力模块为采用可分离的CNN算法构建的非线性的多头自注意力结构；

注意力模块通过赋予自身权重来初步提取特征；通常，注意力机制被用来利用查询和键来为相应的值分配不同的权重；注意力机制的最终输出是加权值之和；当查询、键和值相同时，自注意力机制可以利用其特性为自己分配权重；它可以看作是特征提取的一种结构；此外，与传统的注意力机制不同，在多头注意力机制中存在多个注意力函数而不是单一的注意力函数；更具体地说，查询、键和值会多次线性转换为小维度；每个变换的注意力函数结果称为头部；多头注意力机制允许多注意力函数更精确地将查询、键和值映射到输出；因此，一些包括自注意力机制和多头注意力机制的注意力网络可以在许多NLP任务中得到很好的结果，特别是Transformer；

在本发明的注意力模块中，采用了一种非线性的多头自注意力结构来增强模型的表示能力；用可分离的CNN代替原来的多头注意力机制的线性操作；与全连接层等线性操作相比，CNN更能捕捉局部和位置不变性特征；此外，CNN具有并行处理友好、参数少、可分离等特点，计算速度快；这些属性是中文文本表示和分类所必需的；

因此，注意力模块具体为：定义Q、K、V分别为由查询、键和值组成的矩阵；Q、K、V均为l*d的矩阵，其中l是输入长度，d是输入通道的数目；而且

Q_s＝[Q₁,...,Q_n],where Q_i＝SeparableConv1D(Q)

K_s＝[K₁,...,K_n],where K_i＝SeparableConv1D(K)

V_s＝[V₁,...,V_n],where V_i＝SeparableConv1D(V)

对于每一个头

其中softmax为softmax函数，

为K_i的转置，所有的头连接起来，然后由一个可分离卷积层处理，从而得到该可分离卷积层的输出为p＝SeparableConv1D(h₁,...,h_n)；

d.将步骤c得到的输出信号再送入提取模块；所述提取模块首先采用最大池化的下采样操作减少步骤c得到的特征映射，然后再采用两层可分离卷积层进行空间信息的进一步提取，从而得到拼音编码器的输出数据；

与文字嵌入相比，拼音文字嵌入不存在文字边界问题；然而，拼音字符嵌入比单词嵌入需要更长的长度；因此，拼音编码器的特征图可能太大而无法有效地处理；为了解决这一问题，采用了特征映射过滤的方法，从而设计了提取块；首先，使用最大池化的下采样操作来主要减少注意力模块输出的特征映射；为了进一步提取相关的空间信息，引入更多的非线性变换，在最大池层之后使用了两层可分离卷积层；通过此模块后，特征图将会大幅变窄；

所述的注意力模块和提取模块构成一个新型注意力结构Extractor：

S4.建立文本编码器；

与其他方法相比，本发明的文本编码器显得比较简单，但由于组合部分比其他混合编码方法更深入、更复杂，因此得到了较好的效果；不需要复杂的、计算量大的文本编码器；此外，利用大型训练数据集得到的预训练模型，可以看为一个初步的文本编码器，这是设计一个简单的浅层文本编码器的另一个原因；

在具体实施时，采用如下步骤建立文本编码器：

(1)将全部文本通过嵌入层转换为低维向量；

(3)再使用一个可分离卷积层进一步提取特征；

多输入模型的关键在于输入的融合；传统的级联等融合方式过于简单，无法充分发挥多输入模型的优势；多媒体领域的融合方式通常利用注意力机制或其他复杂的结构，但多媒体编码器相对复杂，计算量大；考虑到编码器由文本和拼音字符组成，而不是标准的多媒体，选择相对简单的编码器和更复杂的组合方式，以避免冗余和过多的参数；

因此，在具体实施时，采用如下步骤进行结合：

1)将文本编码器和拼音编码器的输出直接连接；

4)采用1个或3个全连接层和一个softmax层构成分类器，从而得到初步的新型多输入注意力网络模型；

S6.对步骤S5得到的初步的新型多输入注意力网络模型的模型参数进行优化，从而得到最终的新型多输入注意力网络模型；具体为将步骤S2得到的数据按照设定的比例划分为训练集、验证集和测试集；采用训练集对初步的新型多输入注意力网络模型进行训练，根据验证集调整模型超参数，并采用测试集测试不同的超参数效果，筛选出最佳超参数，从而得到最终的新型多输入注意力网络模型；

在具体实施时，随机划分数据集使用python开源软件包scikit-learn进行实现；整个新型多输入注意力网络使用python上的深度学习开源工具包Keras构建；对应sigmoid分类，损失函数使用二元交叉熵binary_crossentropy；对应softtmax分类，损失函数使用多元交叉熵crossentropy；优化器使用Adam，初始学习率设置为0.001，前两个批次文本嵌入层设为不可训练，之后文本嵌入层将改为参数可训练

S7.采用步骤S6得到的最终的新型多输入注意力网络模型，对输入的中文文本进行分类，从而得到最终的分类结果；在具体实施时，如果是多标签分类，将所获取的输出值中所有大于0.5的类别作为预测类别。如果没有大于0.5的类别存在或者不是多标签分类，则选取最大值所在的类作为预测类别。

以下以一个大型公开数据集为例说明，该数据集来自Xiang Zhang and YannLeCun.2017.Which encoding is the best for text classification in chinese,english,japanese and korean？arXiv preprint arXiv:1708.02657.文中的JD.B，是以京东购物网站上面的评论作为文本，评价的正负性为标签的二分类数据集。该数据集训练集有4，000，000条，测试集360，000条，足以代表本发明的应用效果。

首先按照步骤S2处理该数据集，获得文本词向量的矩阵、拼音数据、文本和拼音的统计数据。这里拼音输入层维度取312，文本输入层维度取60。

然后按照步骤S3建立拼音编码器，其中拼音嵌入层高斯分布均值为0，标准差为0.05。

接着按照步骤S4建立文本编码器，其中嵌入层维度同词向量维度为300。

之后按照步骤S5得到初步的新型多输入注意力网络模型，按照步骤S6随机从训练集中挑选10000条数据作为验证集用于训练。训练一共20个批次，对应softtmax分类，损失函数使用多元交叉熵crossentropy；优化器使用Adam，初始学习率设置为0.001，前两个批次文本嵌入层设为不可训练，之后文本嵌入层将改为参数可训练。

最后按照步骤S7对测试集的中文文本进行分类，从而得到最终的分类结果，选取最大值所在的类作为预测类别。最终在测试集360，000条评论上，本发明模型的分类结果达到了91.90％的正确率。

Claims

1.一种基于多输入注意力网络的中文文本分类方法，包括如下步骤：

S1.获取中文文本数据；

A.将获取的中文文本数据进行分词，并去除停用词；

B.将步骤A得到的中文本文转换为对应的拼音文本；

S3.建立拼音编码器；具体为采用如下步骤建立拼音编码器：

c.将步骤b得到的空间特征输入注意力模块；所述注意力模块为采用可分离的CNN算法构建的非线性的多头自注意力结构；注意力模块具体为定义Q、K、V分别为由查询、键和值组成的矩阵；Q、K、V均为l*d的矩阵，其中l是输入长度，d是输入通道的数目；而且

Q_s＝[Q₁,...,Q_n],where Q_i＝SeparableConv1D(Q)

K_s＝[K₁,...,K_n],where K_i＝SeparableConv1D(K)

V_s＝[V₁,...,V_n],where V_i＝SeparableConv1D(V)

对于每一个头

其中softmax为softmax函数，

d.将步骤c得到的输出信号在输入提取模块；所述提取模块首先采用最大池化的下采样操作减少步骤c得到的特征映射，然后再采用两层可分离卷积层进行空间信息的进一步提取，从而得到拼音编码器的输出数据；

S4.建立文本编码器；具体为采用如下步骤建立文本编码器：

(1)将全部文本通过嵌入层转换为低维向量；

(3)再使用一个可分离卷积层进一步提取特征；

S5.将步骤S3得到的拼音编码器和步骤S4得到的文本编码器进行结合，从而得到初步的新型多输入注意力网络模型；具体为采用如下步骤进行结合：

1)将文本编码器和拼音编码器的输出直接连接；