CN107832458B

CN107832458B - 一种字符级的基于嵌套深度网络的文本分类方法

Info

Publication number: CN107832458B
Application number: CN201711205146.XA
Authority: CN
Inventors: 郑子彬; 李晓杰; 吴向军
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2021-08-10
Anticipated expiration: 2037-11-27
Also published as: CN107832458A

Abstract

本发明涉及一种字符级的基于嵌套深度网络的文本分类方法，包括以下步骤：S1、构造字符向量矩阵表；S2、短文本预处理；S3、改进Resnet提取高维序列特征；S4、LSTM网络分类。本发明基于字符级的文本转换能有效的对所有的文本进行转换，相对于传统的向量空间模型，维度下降明显，而且对于所有的文本都能有效的转换，不会忽略低频词；另外，改进Resnet能够自学习特征提取方法，相对于传统的TF‑IDF公式，互信息量，信息增益，χ2统计量等方法，其提取的特征更加有效，更加抽象；最后，LSTM网络分类能够考虑词与词之间的顺序关系，从而能够更加准确地进行文本分类。

Description

一种字符级的基于嵌套深度网络的文本分类方法

技术领域

本发明涉及文本分类的技术领域，尤其涉及到一种字符级的基于嵌套深度网络的文本分类方法。

背景技术

随着网络技术的不断发展，互联网每天都会产生海量的非结构化的文本数据，为了获取这些海量数据中有用的价值，我们需要对这些文本进行分门别类。

早期的文本分类主要通过手工定义一些规则来对文本进行分类，这种方法费时费力，且必须对某一领域有足够的了解，才能写出合适的规则。随着网上在线文本的大量涌现和机器学习的兴起，大规模的文本(包括网页)分类和检索重新引起研究者的兴趣。文本分类系统首先通过在预先分类好的文本集上训练，建立一个判别规则或分类器，从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结果，并且它的学习不需要专家干预，能适用于任何领域的学习，使得它成为目前文本分类的主流方法。

计算机并不具有人类的智慧，不能读懂文字，所以必须把文本转化成计算机能够理解的形式，即进行文本表示，所以传统的文本分类方法首先对文本进行预处理，获得一些用于训练的特征。目前文本表示模型主要是向量空间模型(VSM)。向量空间模型的基本思想是把文档简化为特征项的权重为分量的向量表示：(w1,w2,…,wn)，其中wi为第i个特征项的权重，一般选取词作为特征项，权重用词频表示.词频分为绝对词频和相对词频.绝对词频，即用词在文本中出现的频率表示文本；相对词频，即为归一化的词频，其计算方法主要运用TF-IDF公式，互信息量，信息增益，χ2统计量等。由于文本数据的半结构化甚至于无结构化的特点，当用特征向量对文档进行表示的时候，特征向量通常会达到几万维甚至于几十万维.寻求一种有效的特征降维方法，降低特征空间的维数，提高分类的效率和精度，成为文本自动分类中至关重要的问题.降维技术总的可以分为两类：特征选择和特征抽取。在抽取完特征后，一般来说文本的特征都是很多的，这就需要对特征进行选择，选取最有用的特征，去除无用的特征。在获得最后的特征后，就可以使用分类器对特征进行训练，常用的分类算法有Rocchio算法、朴素贝叶斯分类算法、K-近邻算法、决策树算法、神经网络算法和支持向量机算法。

从上面可以看到，文本特征的选择在文本分类中占据着很重要的一部分，而传统做法主要问题的文本表示是高维度高稀疏的，特征表达能力很弱，而且传统的文本分类方法没有考虑到词与词之间的关系以及对低频词不友好。

因此，如何大大降低特征空间的的维度，准确提取出有效特征，能考虑词与词之间的顺序关系，提高文本分类的准确性成为相关领域人员亟待解决的问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种大大降低特征空间的的维度、准确提取出有效特征、能考虑词与词之间的顺序关系、提高文本分类的准确性的字符级的基于嵌套深度网络的文本分类方法。

为实现上述目的，本发明所提供的技术方案为：包括以下步骤：

S1、构造字符向量矩阵表：

假设C为文本中所用的字符集，构造一个字符向量矩阵Q∈R^|C|×|C|，记录下每一个字符对应的行编号；

S2、短文本预处理：将短文本转化成一个字符向量矩阵表Q，分为两步：

S21、矩阵转换：

根据短文本T中的字符以及字符向量矩阵表Q，输出文本向量空间I∈R^l×|C|，l为文本T的总字符数；

S22、矩阵裁剪填充：

对文本向量空间I进行裁剪填充，以适应嵌套深度网络的输入；

S3、改进Re snet提取高维序列特征，具体步骤为：

S31、Re snet特征提取：

残差网络Re snet采用50层的版本，去除其上层的全链接层和分类层，最后输出Resnet网络的中间特征；

S32、最大值池化：

在得到N个特征图后，对每个特征图的行向量进行最大值池化，只保留响应最大的特征值；

S33、特征重序列化：

对特征图进行重新序列化，以保持其时序性，适应LSTM的运算，最终输出多个序列化的特征图；

S4、LSTM网络分类：

LSTM(Long Short-Term Memory)长短期记忆网络是一种循环神经网路，即一个序列当前的输出与前面的输出也有关；在改进Resnet中得到高维序列特征后，通过LSTM网络获得最后的输出，最终将输出输入到Softmax中进行分类。

与现有技术相比，本方案原理和优点如下：

1.基于字符级的文本转换能有效的对所有的文本进行转换，相对于传统的向量空间模型，维度下降明显，而且对于所有的文本都能有效的转换，不会忽略低频词。

2.改进Re snet能够自学习特征提取方法，相对于传统的TF-IDF公式，互信息量，信息增益，χ2统计量等方法，其提取的特征更加有效，更加抽象。

3.LSTM网络分类能够考虑词与词之间的顺序关系，从而能够更加准确地进行文本分类。

附图说明

图1为本发明一种字符级的基于嵌套深度网络的文本分类方法的流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

参见附图1所示，本实施例所述的一种字符级的基于嵌套深度网络的文本分类方法，包括以下步骤：

S1、构造字符向量矩阵表：

假设C为文本中所用的字符集(以英文为例则为英文字母以及各种特殊符号，以中文为例则为笔画以及各种特殊符号)，构造一个字符向量矩阵Q∈R^|C|×|C|，记录下每一个字符对应的行编号；矩阵Q采用one-hot编码，对角线元素均设为1，其余为0。矩阵Q的每一个行向量代表一个字符，记录下每一个字符对应的行编号。

S2、短文本预处理，将短文本转化成一个字符向量矩阵，分为两步：

S21、矩阵转换；

以中文为例，假设字k的笔画序列为

l_k为字k的总笔画数，则根据笔画序列和字符向量矩阵表构造字符向量

以此类推，对于短文本T，短文本预处理最终输出文本向量空间I∈R^l×|C|，l为文本T的总笔画数。

S22、矩阵裁剪填充；

文本向量空间I用于后续的嵌套深度网络处理，深度网络的输入为定长的R×|C|的矩阵，当文本向量空间I的行数小于R时，则对矩阵I缺失的部分进行补零，当文本向量空间I的行数大于R时，则对矩阵I多余的部分进行裁剪。

S3、改进Re snet提取高维序列特征；

改进Re snet提取的高维序列特征用于LSTM网络中进行分类，具体步骤如下：

S31、Re snet特征提取；

Re snet采用50层的版本，但是去除其上层的全链接层和分类层，最后输出Resnet网络的中间特征。通过Re snet，文本向量空间I转化成N个特征图M_n∈R^H×G；

S32、最大值池化(Max pooling)；

在得到N个特征图M后，对每个特征图的行向量进行最大值池化，只保留响应最大的特征值；通过最大值池化Max pooling后，特征图M_n转换为M_n'∈R^H×1。

S33、特征重序列化；

在获得N个特征图M'后，对特征图M'进行重新序列化，以保持其时序性，适应LSTM的运算；设最大值池化Max pooling输出3个特征图M₁'(m₁₁,m₁₂,m₁₃)^T，M₂'(m₂₁,m₂₂,m₂₃)^T,M₃'(m₃₁,m₃₂,m₃₃)^T，对3个特征图的行向量进行重新组合，输出3个重新序列化的特征图M_S₁'(m₁₁,m₂₁,m₃₁)^T,M_S₂'(m₁₂,m₂₂,m₃₂)^T,M_S₃'(m₁₃,m₂₃,m₃₃)^T；

S4、LSTM网络分类；

LSTM网络由多个单元Cell组成，单元Cell_t负责t时刻的序列数据，这里即为特征图M_S_t；每个单元Cell的输入为上一个单元的输出以及当前单元的序列数据，具体计算步骤如下：

S41、门gate计算；

每个Cell有三个门gate(输入门input gate、遗忘门forget gate、输出门outputgate)，计算如下：

i_t＝g(W_×iM_S_t+W_hih_t-1+b_i)；

f_t＝g(W_×fM_S_t+W_hfh_t-1+b_f)；

o_t＝g(W_×oM_S_t+W_hoh_t-1+b_o)；

其中，h_t-1为上一个单元的输出，当t-1不存在时，h_t-1初始化0，W为各个门gate的权重向量，b为各个gate的偏移量，g为元素级的sigmoid函数；

S42、输入变换；

除了三个门gate之外，每个Cell均拥有一个状态c，需要通过计算将输入转换成对应Cell的状态量，具体计算如下：

c_in_t＝tanh(W_×cM_S_t+W_hch_t-1+b_{o_in})

其中，W为当前Cell的状态计算的权重向量，b为当前Cell的状态计算的偏移量，tanh为元素级的tanh函数；

S43、状态更新；

在计算完所有的gate变量和当前输入的状态量后，对当前Cell状态进行更新以及计算当前Cell的输出，具体计算如下：

c_t＝f_t*c_t-1+i_t*c_in_t；

h_t＝o_t*tanh(c_t)；

其中，c_t为当前Cell的状态量，h_t为当前Cell的输出；

S44、分类。在经过了所有Cell单元的计算之后，将最后的Cell的输出h_t输入到Soft max函数中，得到最后的分类结果。

上述LSTM网络的训练以Soft max函数为指导，通过采用最小化交叉熵代价函数获取当前网络相对于训练集的误差，对于训练样本T⁽ⁱ⁾，其标签y⁽ⁱ⁾∈{1,2,…,k},k为所有的标签的数量以及其估计概率为

其代价函数为：

其中，1{condition}为二类函数，当condition为真时，其为1，否则为0；

取得误差后，采用随机梯度下降SDG将误差反向传播以更新网络中的参数，最终得到最优化的网络。

本实施例基于字符级的文本转换能有效的对所有的文本进行转换，相对于传统的向量空间模型，维度下降明显，而且对于所有的文本都能有效的转换，不会忽略低频词。另外，改进Resnet能够自学习特征提取方法，相对于传统的TF-IDF公式，互信息量，信息增益，χ2统计量等方法，其提取的特征更加有效，更加抽象。最后，LSTM网络分类能够考虑词与词之间的顺序关系，从而能够更加准确地进行文本分类。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种字符级的基于嵌套深度网络的文本分类方法，其特征在于：包括以下步骤：

S1、构造字符向量矩阵表：

S2、短文本预处理；

S3、改进Resnet提取高维序列特征；

S4、LSTM网络分类；

所述步骤S2短文本预处理分为两步，具体步骤如下：

S21、矩阵转换：

S22、矩阵裁剪填充：

所述步骤S3改进Resnet提取高维序列特征的具体步骤如下：

S31、Resnet特征提取：

Resnet采用50层的版本，去除其上层的全链接层和分类层，最后输出Resnet网络的中间特征；

S32、最大值池化：

S33、特征重序列化：

对特征图进行重新序列化，以保持其时序性，适应LSTM的运算，最终输出多个序列化的特征图。

2.根据权利要求1所述的一种字符级的基于嵌套深度网络的文本分类方法，其特征在于：所述步骤S4LSTM网络分类的具体计算步骤如下：

S41、门gate计算；

每个Cell有三个门gate：输入门inputgate、遗忘门forgetgate、输出门outputgate，计算如下：

i_t＝g(W_×iM_S_t+W_hih_t-1+b_i)；

f_t＝g(W_×fM_S_t+W_hfh_t-1+b_f)；

o_t＝g(W_×oM_S_t+W_hoh_t-1+b_o)；

S42、输入变换；

c_in_t＝tanh(W_×cM_S_t+W_hch_t-1+b_{o_in})

S43、状态更新；

c_t＝f_t*c_t-1+i_t*c_in_t；

h_t＝o_t*tanh(c_t)；

其中，c_t为当前Cell的状态量，h_t为当前Cell的输出；

S44、分类；在经过了所有Cell单元的计算之后，将最后的Cell的输出h_t输入到Softmax函数中，得到最后的分类结果。

3.根据权利要求2所述的一种字符级的基于嵌套深度网络的文本分类方法，其特征在于：步骤S4所述LSTM网络的训练以Softmax函数为指导，通过采用最小化交叉熵代价函数获取当前网络相对于训练集的误差，对于训练样本T⁽ⁱ⁾，其标签y⁽ⁱ⁾∈{1,2,…,k},k为所有的标签的数量以及其估计概率为

其代价函数为：