CN114357165A

CN114357165A - 一种基于深度学习网络的短文本分类方法

Info

Publication number: CN114357165A
Application number: CN202111655718.0A
Authority: CN
Inventors: 吴健; 朱小龙; 周从华
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-15

Abstract

本发明涉及基于深度学习网络的短文本分类方法，属于自然语言处理技术领域。包括以下步骤：将短文本数据集进行数据清洗，得到质量更高的短文本数据集；将短文本数据集进行处理，得到短文本词汇表、关键词词汇表、标签词汇表；利用CBOW神经网络训练得到文本词向量，再将标签替换短文本中的关键词，训练得到标签词向量；将短文本输入卷积神经网络和长短期记忆神经网络进行特征提取，将提取的特征与标签词向量求和构成的查询向量进行注意力机制得分计算；将新的特征向量输入全连接层进行输出后，输入最终的损失函数层进行预测分类。本发明解决了短文本特征不足而无法准确分类的问题，提高了短文本分类的准确性。

Description

一种基于深度学习网络的短文本分类方法

技术领域

本发明涉及一种基于深度学习网络的短文本分类方法，属于自然语言处理技术领域。

背景技术

随着网络的快速发展及其在生活中的广泛应用导致了短文本数据的激增。将短文本根据应用场景进行分类，在很多应用程序中具有重要意义。例如邮件系统中的垃圾邮件过滤、外卖系统中的情感分析、社交软件的个性化推荐等等。因此，在人工智能领域下的自然语言处理领域，短文本分类已成为学术界和工业界的一个研究热点。

与普通文本相比，短文本通常由几个或十几个词语组成，且数据规模庞大，因此短文本具有稀疏性、大规模性、即时性，导致传统的方法难以处理短文本分类。其主要原因在于短文本的字数有限，难以提取足够的特征。因此需要设计一种良好的短文本分类方法，来解决上述问题。

现有技术中，针对短文本分类问题，主要方法有基于机器学习与基于深度学习两类。基于传统机器学习的方法主要依靠词频、词语共现、共享文档等来定义文档相似度，但短文本由于数据稀疏难以达到预期准确率。基于深度学习的方法，能够从文本中提取较为丰富的特征。但是现有方法忽略了类别本身的特征，仅从短文本本身提取特征，导致文本特征不够丰富。

发明内容

针对上述问题，本发明提出了一种基于深度学习网络的短文本分类方法，在长短期神经网络和卷积神经网络的的基础上，引入融合标签向量的注意力机制，并设计了新的损失函数来适应双模型，能够从短文本中提取更为丰富的特征。

为了实现上述发明目的，本发明提出一种基于深度学习网络的短文本分类方法，包括以下步骤：

S1：将短文本数据集进行数据清洗，得到数据清洗后的短文本数据集。原始数据集的格式为S(s,t)|t∈[1,k]，其中s代表短文本，t为对应的类别标签(数据集S中用阿拉伯数字代替文本表示类别标签，数字标签与文本标签一一对应，文本标签为短文本的类别文字表示)，k与文本类别总数相等；

S2：将短文本数据集进行整理和切词，得到短文本词汇表、关键词词汇表、标签词汇表；

S3：将短文本数据集输入CBOW神经网络训练得到文本词向量，再用文本标签替换短文本中的关键词，训练得到标签词向量；

S4：将短文本数据集输入卷积神经网络和长短期记忆神经网络进行特征提取，将提取的特征与标签词向量求和得到查询向量，对查询向量进行注意力机制得分计算，得到卷积网络与长短期记忆网络输出的特征向量；

S5：将新的特征向量输入全连接层进行输出后，输入最终的损失函数层进行预测分类。本发明解决了短文本特征不足而无法准确分类的问题，提高了短文本分类的准确性。

进一步地，上述S1中的数据清洗具体包括两个步骤：

S11：将短文本数据集中的无效数据进行剔除，包括短文本与其类别标签不相符，短文本标签缺失，无效的短文本；

S12：将短文本数据集中的重复数据及相似数据进行剔除，得到短文本数据集S’。

进一步地，上述S2中短文本，构建短文本词汇表具体包括以下步骤：

S21：构建短文本词汇表：将数据清洗后的短文本数据集S’进行整理，利用结巴分词将其进行单词切分，加入短文本词汇表Wt；

S22：构建标签词汇表：将短文本的所有问句类型文本标签加入标签词汇表Wl；

S23：构建关键词词汇表：将能够代表问句类型的一些关键词，主要是一些名词，加入关键词词汇表Wk；

进一步地，上述S3词向量表的构建具体包括以下步骤：

S31：将数据清洗后的短文本数据集S’输入CBOW神经网络得到短文本词汇表Wt的词向量表Vt；

S32：将数据清洗后的短文本数据集S’按百分之X的比例随机抽取，输入CBOW神经网络，并将输入短文本中的关键词用相应的分类标签替换，得到标签词汇表Wl的词向量表Vl；

进一步地，上述S4短文本特征的提取具体包括以下步骤：

S41:从短文本数据集S’中按顺序逐条取出短文本数据s进行分词，得到ρ'＝{W₁,...,W_n}，其中W_i为切分后的单词，n为一条短文本s的单词个数；

S42：将ρ'中的单词W_i作为键，在短文本词汇表中进行查询，得到ρ'的词向量表示ρ”＝{w₁,...,w_n}；

S43：将ρ”同时输入长短期记忆神经网络和卷积神经网络进行特征抽取，分别得到中间特征向量：

f_left,f_right＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o)；

c_left,c_mid,c_right＝max_pull(σ(X*W(i,j)))；

其中，f_left,f_right分别是长短期记忆神经网络正向和反向提取的中间特征向量，σ为激活函数，W_xo、W_ho、W_co分别为当前隐藏层、输出门、输入门的权重矩阵，x_t、h_t-1、c_t-1分别为当前隐藏层、输出门、输入门矩阵，b_o是偏置参数权重矩阵；

其中c_left,c_mid,c_right分别为卷积神经网络提取的三个特征，max_pull为池化函数，σ为激活函数，X为权重矩阵，W(i,j)为第i行j列窗口的得分矩阵；

S44：然后，将步骤S43得到的中间特征向量分别与注意力查询向量q进行向量乘计算，得到步骤S43每一个中间特征向量的得分α_i:

q＝avge(x)|weight(x)；

α_i＝softmax(s(X_i,q))；

s(x_i,q)＝V^Ttanh(WX_i+Uq)；

其中q为注意力机制的查询向量，X为S3步骤S32得到的向量，arge为取平均值计算，weight为带权重计算；

其中α_i为第i个向量与与q计算的得分，s(X_i,q)为矩阵计算，softmax为激活函数；

其中V、W、U为权重矩阵，tanh为激活函数；

S45：最后，将步骤S44得到的得分α_i与步骤S43的特征向量进行矩阵乘法计算并求平均值，得到最终的长短期记忆网络与卷积网络输出的特征向量r，c:

r＝(α₁f_left+α₂f_right)/2；

c＝(α₁c_left+α₂c_mid+α₃c_right)/3；

可选的，所述S5的具体为：网络参数修正：

S51：将步骤S45得到的特征向量r、c输入全连接层进行计算，输出得分最高的为分类结果，然后进行损失函数Loss的计算，修正模型参数：

其中st为特征向量r输出的分类结果，st’为特征向量c输出的分类结果。

本发明具有以下有益效果：

相比于传统的短文本分类对稀疏的短文本有着更佳的适应性，并且基于深度学习的短文本分类方法能够提取更丰富的隐藏特征，提高短文本分类的准确率。

附图说明

图1为本发明采用的技术方案流程图。

具体实施方式

为使本发明的技术方案更加清晰明确，下面结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明公开了一种基于深度学习网络的短文本分类方法，其具体步骤如下:

S1：将短文本数据集进行数据清洗，得到数据清洗后的短文本数据集；

作为本发明的优选实施例，本发明中的数据来源于开源数据集THUCNews，总共十个种类，每个分类选取了一万条数据。

S12：将短文本数据集中的重复数据及相似数据进行剔除。

S2：将短文本数据集进行处理，得到短文本词汇表、关键词词汇表、标签词汇表；

作为本发明的优选实施例，得到短文本词汇表包括以下步骤：

S21：构建短文本词汇表：将数据清洗后的短文本数据集进行整理，利用结巴分词将其进行单词切分，加入短文本词汇表Wt；

S22：构建标签词汇表：将短文本的所有问句类型标签加标签入词汇表Wl；

S3：利用CBOW神经网络训练得到文本词向量，再将标签替换短文本中的关键词，训练得到标签词向量；

作为本发明的优选实施例，得到词向量表包括以下步骤：

S31：将数据清洗后的短文本数据集输入CBOW神经网络得到词汇表Wt的词向量表Vt；

S32：将数据清洗后的短文本数据集S’按百分之X的比例随机抽取得到子数据集S”，将S”中短文本s的关键词用标签词汇表Wl的文本标签替换，输入CBOW神经网络，训练得到标签词汇表Wl的词向量表Vl；

S4：将短文本输入卷积神经网络和长短期记忆神经网络进行特征提取，将提取的特征与标签词向量求和构成的查询向量进行注意力机制得分计算；

作为本发明的优选实施例，提取中间特征包括以下步骤：

S41：从短文本数据集S’中按顺序逐条取出短文本数据s进行分词，得到ρ'＝{W₁,...,W_n}，其中W_i为切分后的单词，n为一条短文本s的单词个数；

f_left,f_right＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o)；

c_left,c_mid,c_right＝max_pull(σ(X*W(i,j)))；

S44：将步骤S43得到的中间特征向量分别与注意力查询向量q进行向量乘计算，得到步骤S43每一个中间特征向量的得分α_i:

q＝avge(x)|weight(x)；

α_i＝softmax(s(X_i,q))；

s(x_i,q)＝V^Ttanh(WX_i+Uq)；

其中V、W、U为权重矩阵，tanh为激活函数；

S45：将步骤S44得到的得分α_i与步骤S43的中间特征向量进行矩阵乘法计算并求平均值，得到最终的长短期记忆网络与卷积网络输出的特征向量r，c:

r＝(α₁f_left+α₂f_right)/2；

c＝(α₁c_left+α₂c_mid+α₃c_right)/3；

作为本发明的优选实施例，修正模型参数包括以下步骤：

在实施例中，本发明所提出的基于深度学习网络的短文本分类方法，相比于传统的短文本分类对稀疏的短文本有着更佳的适应性，并且基于深度学习的短文本分类方法能够提取更丰富的隐藏特征，提高短文本分类的准确率。

以上所述，仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims

1.一种基于深度学习网络的短文本分类方法，其特征在于，包括以下步骤：

S1：将短文本数据集进行数据清洗，得到处理后的短文本数据集；原始数据集的格式为S(s,t)|t∈[1,k]，其中s代表短文本，t为对应的类别标签，k与文本类别总数相等；

S5：将步骤S4得到的特征向量输入全连接层进行输出后，输入最终的损失函数层进行预测分类。

2.根据权利要求1所述的一种基于深度学习网络的短文本分类方法，其特征在于，步骤S1中的数据清洗的具体步骤包括：

3.根据权利要求1所述的一种基于深度学习网络的短文本分类方法，其特征在于，步骤S2的具体步骤如下：

S21：构建短文本词汇表：将数据清洗后的短文本数据集S’进行整理，利用结巴分词进行单词切分，加入短文本词汇表Wt；

S22：构建标签词汇表：手动将短文本的所有问句类型文本标签加入标签词汇表Wl；

S23：构建关键词词汇表：将能够代表问句类型的一些关键词，加入关键词词汇表Wk。

4.根据权利要求1所述的一种基于深度学习网络的短文本分类方法，其特征在于，步骤S3的具体步骤如下：

S32：将数据清洗后的短文本数据集S’按百分之X的比例随机抽取得到子数据集S”，将S”中短文本s的关键词用标签词汇表Wl的文本标签替换，输入CBOW神经网络，训练得到标签词汇表Wl的词向量表Vl。

5.根据权利要求1所述的一种基于深度学习网络的短文本分类方法，其特征在于，步骤S4的具体步骤如下：

f_left,f_right＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o)；

c_left,c_mid,c_right＝max_pull(σ(X*W(i,j)))；

其中，f_left,f_right分别是长短期记忆神经网络正向和反向提取的特征向量，σ为激活函数，W_xo、W_ho、W_co分别为当前隐藏层、输出门、输入门的权重矩阵，x_t、h_t-1、c_t-1分别为当前隐藏层、输出门、输入门矩阵，b_o是偏置参数权重矩阵；

S44：将步骤S43得到的长短期记忆神经网络与卷积神经网络输出的特征向量分别与注意力查询向量q进行向量乘计算，得到步骤S 43每一个中间特征向量的得分α_i:

q＝avge(x)|weight(x)；

α_i＝softmax(s(X_i,q))；

s(x_i,q)＝V^Ttanh(WX_i+Uq)；

其中q为注意力机制的查询向量，X为Vl步骤V32得到的向量，arge为取平均值计算，weight为带权重计算；

其中V、W、U为权重矩阵，tanh为激活函数；

r＝(α₁f_left+α₂f_right)/2；

c＝(α₁c_left+α₂c_mid+α₃c_right)/3。

6.根据权利要求1所述的一种基于深度学习网络的短文本分类方法，其特征在于，步骤S5的具体步骤如下：

S51、将步骤S45得到的特征向量输入全连接层进行计算，输出得分最高的为分类结果，然后进行损失函数Loss的计算，修正模型参数：