CN110097096B

CN110097096B - 一种基于tf-idf矩阵和胶囊网络的文本分类方法

Info

Publication number: CN110097096B
Application number: CN201910303094.2A
Authority: CN
Inventors: 喻梅; 胡悦; 刘志强; 于健; 赵满坤; 于瑞国; 王建荣; 张功
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2023-04-25
Anticipated expiration: 2039-04-16
Also published as: CN110097096A

Abstract

本发明公开了一种基于TF‑IDF矩阵和胶囊网络的文本分类方法，包括：对分词处理后的文本数据采用TF‑IDF矩阵进行分析，获得满足预设条件的全局阈值α，对每个文本数据进行个性化分析，以获得每个文本数据对应的阈值t_j及其所构成的集合S_α；比较全局阈值α和个性分析文本获得的阈值α_i，以此获得每个文本数据对应的最终阈值β_i及其所构成的集合S_β，并根据最终获得的集合S_β，处理文本数据集、进行词频分析，同时根据词汇在字典中出现的顺序为其进行标号，从而实现文本向量嵌入；通过doc2vec算法，使用文本矩阵对嵌入的文本向量进行表达，并作为基于胶囊网络的文本分类的输入，训练胶囊网络文本分类模型。本发明能够有效去除文本数据中对文本分类影响低的一些词汇，减少文本特征。

Description

一种基于TF-IDF矩阵和胶囊网络的文本分类方法

技术领域

本发明涉及自然语言处理和信息检索领域，尤其涉及一种基于TF-IDF(词频-逆文本频率指数)矩阵和胶囊网络的文本分类方法。

背景技术

文本分类过程首先需要对数据进行文本预处理和文本特征处理，获得文本的特征向量，为分类过程的后续操作奠定基础。传统的机器学习方法在进行特征处理的过程中需要人工指定特征的具体形式从而对原始数据进行表示。

传统文本分类方法文本特征维度较高，数据较稀疏，表征能力较弱。现有文本分类方法如KNN(K-最近邻)算法，其主要靠周围有限的邻近的样本，但其输出的可解释性不强，计算量大，当样本不平衡时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。

发明内容

本发明提供了一种基于TF-IDF矩阵和胶囊网络的文本分类方法，本发明能够有效去除文本数据中对文本分类影响低的一些词汇，减少文本特征，降低文本词嵌入的向量维度，增加文本分类器效率，同时能够有效减少卷积神经网络中的反向传播过程可能为文本分类器模型带来的一些弊端，详见下文描述：

一种基于TF-IDF矩阵和胶囊网络的文本分类方法，所述方法包括以下步骤：

对分词处理后的文本数据采用TF-IDF矩阵进行分析，获得满足预设条件的全局阈值α，对每个文本数据进行个性化分析，以获得每个文本数据对应的阈值t_j及其所构成的集合S_α；

比较全局阈值α和个性分析文本获得的阈值α_i，以此获得每个文本数据对应的最终阈值β_i及其所构成的集合S_β，并根据最终获得的集合S_β，处理文本数据集、进行词频分析，同时根据词汇在字典中出现的顺序为其进行标号，从而实现文本向量嵌入；

通过doc2vec算法，使用文本矩阵对嵌入的文本向量进行表达，并作为基于胶囊网络的文本分类的输入，训练胶囊网络文本分类模型。

其中，所述预设条件具体为：

α＝min(S)

其中，m_i,j表示TF-IDF矩阵M中第i行第j列的元素，|{m_i,j:m_i,j≤α}|表示矩阵M中不大于全局阈值α的元素数量，|{m_i,j:m_i,j≥0}|则为所有非0元素的数量，a、b均为预设参数；D为原文本数据集；D_i为文本数据集中的文本。

进一步地，所述比较全聚阈值α和个性分析文本获得的阈值α_i，获得每个文本数据对应的最终阈值β_i具体为：

S_β＝{β_i|i∈|D|}。

进一步地，所述根据最终获得的集合S_β，处理文本数据集具体为：

获取文本D_i在集合S_β中对应的阈值β_i，在TF-IDF矩阵中根据阈值β_i找到所有小于阈值β_i的词，作为当前处理文本的弱相关词，记录下弱相关词的序列集合；

在文本D_i中删除属于这个序列集合的全部单词，获得D_i处理后的文本D’。

其中，所述使用文本矩阵对嵌入的文本向量进行表达，并作为基于胶囊网络的文本分类的输入，训练胶囊网络文本分类模型具体为：

利用卷积层对文本向量进行局部特征提取；

对文本特征矩阵进行特征重构，将其映射到更高维度的空间中；

利用胶囊层进行分类，胶囊层的输入神经元向量通过加权、耦合、挤压、动态路由在输入胶囊到输出胶囊之间流动；

对输出的神经元向量进行数值映射，使用边缘损失函数对分类模型的损失进行评估。

进一步地，所述数值映射具体为：对输出的神经元向量进行平方求和操作。

本发明提供的技术方案的有益效果是：

1、本发明分析文本数据在文本分类过程中的作用频率，通过TF-IDF算法构建出TF-IDF矩阵，综合分析文本数据的词频特征，通过算法找出文本的全局阈值和局部阈值，然后对比全局阈值和局部阈值，获得最终阈值；

2、本发明以最终阈值为界限，去除文本数据中对文本分类影响低的一些词汇，减少文本特征，从而减少文本词嵌入的向量大小从而降低文本数据的存储空间；

3、本发明通过胶囊网络中动态路由的过程，减少了卷积神经网络中数据在反向传播过程中可能给文本分类器模型带来的一些弊端，提高文本分类的效率。

附图说明

图1为一种基于TF-IDF矩阵和胶囊网络的文本分类方法的流程图；

图2为文本局部阈值图。

其中，(a)为训练集中分类为积极的部分文本数据的阈值；(b)为训练集中分类为消极的部分文本数据的阈值图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

深度学习在特征处理方面比较简便，深度学习是利用神经网络技术自动提取数据中的特征，这个过程被称作特征学习。在普通的机器学习过程中，如果想要对数据进行良好的表示，研究人员需要学习大量的先验知识，在这一方面，深度学习过程中的特征学习能够较好地避免这个缺陷。

文本中的信息通过特征学习过程使用文本特征矩阵来表示，文本特征矩阵的大小往往取决于文本中词特征的数量，如果文本特征矩阵过大，文本分类器的效率会在一定程度上降低。与此同时，文本数据往往包括很多对分类结果影响很小的词特征，这些特征的去除不会对分类器效果产生较大的影响，却会在一定程度上减少文本的特征矩阵的大小，可以在降低数据的存储空间的同时提高文本分类器的效果。

胶囊网络(Capsule Neural Network,CapsNet)是一种神经网络架构，用胶囊神经元构成的胶囊网络层结构代替传统神经网络的部分隐含层，并通过动态路由的方式去训练这种全新的神经网络。由于胶囊网络具有特殊的网络结构特点，所以胶囊网络相比与传统的卷积神经网络具有更良好的学习能力。胶囊网络通过在网络训练过程中使用动态路由的过程替代传统神经网络中的反向传播过程，避免反向传播过程中出现的一些局部最优化情况，影响分类的效果，并且从某种程度上来说胶囊网络具有一定的解释性。胶囊网络可能对深度学习带来深远的影响。目前，胶囊网络已经达到对MNIST数据集判定的较高精度。这在图像分割和目标检测领域是非常有前景的，并且其激活向量的可解释性也比较好。

实施例1

为实现上述目的，本发明实施例提出一种基于TF-IDF矩阵和胶囊网络的文本分类方法，参见图1，该方法包括以下步骤：

101：对输入的文本数据进行分词处理；

102：采用TF-IDF矩阵的弱相关词汇去除算法对文本数据进行停用词去除，删除文本数据集D中的部分单词，获得处理后的特征更加明显的文本数据集D’，作为分类器的输入；

103：通过doc2vec算法处理获得文本向量嵌入；

104：将得到的文本向量嵌入作为基于胶囊网络的文本分类的输入，训练胶囊网络文本分类模型。

在一个实施例中，步骤101对文本数据进行了分词处理，具体步骤如下：

对于文本数据，在进行文本分词时，直接使用空格进行相隔，构建出文本数据集对应的字典Dic，对文本中出现的词汇进行不重复统计，字典内包括在文本数据中出现的Dic_n个不同的词汇。

在一个实施例中，采用步骤102对文本数据进行停用词去除，具体步骤如下：

综合分析TF-IDF矩阵M，获得满足条件的全局阈值α，之后对每个文本进行个性化分析，获得每个文本对应的阈值t_j，及其所构成的集合S_α，比较综合分析TF-IDF矩阵M获得的阈值α和个性分析文本获得的α_i，获得每个文本对应的最终阈值β_i，及所构成的集合S_β，根据最终获得的集合S_β，处理文本数据集，最终获得文本集D’。

在一个实施例中，步骤103进行文本向量嵌入，具体步骤如下：

在文本向量嵌入过程中，主要使用基于词频的词典进行文本特征表示，对处理后的文本数据进行文本向量嵌入，将文本进行词频分析，按照词频由高到低构建词频词典，根据词汇在字典中出现的顺序为其进行标号，从而实现文本向量的嵌入，之后使用doc2vec算法对文本向量嵌入过程中获得的文本向量进行文本嵌入，使用文本矩阵对文本特征进行具体地表达。

其中，doc2vec是一种文本向量嵌入方法，作为词向量嵌入方法的一种改进，doc2vec的文本向量嵌入将引入的文本序号作为模型的训练特征之一，通过与文本向量维度空间相同的数字向量进行表示。

在一个实施例中，步骤104对预处理后得到的文本向量嵌入作为胶囊网络的文本分类的输入，训练文本分类模型，具体步骤如下：

文本分类的胶囊网络结构模型包括六个主要组成部分：文本向量嵌入、文本向量的矩阵转换、利用卷积层进行局部特征提取、特征重构、利用胶囊层进行分类、类别映射。

在步骤103进行的文本向量嵌入的基础上，利用卷积层对文本特征矩阵进行局部特征提取，再对神经元矩阵进行特征重构，将二维的文本特征矩阵映射到三维张量中。在利用胶囊层进行分类的过程中，胶囊层的输入神经元向量通过加权、耦合、挤压、动态路由等结构在输入胶囊到输出胶囊之间的流动。在类别映射的过程中，将胶囊层输出的胶囊神经元向量进行数值映射，即对神经元向量进行平方求和的操作，使用边缘损失函数对分类模型的损失进行评估。

在一个实施例中，还包括对基于TF-IDF矩阵的弱相关词汇去除算法和基于胶囊网络的文本分类算法进行实验，具体步骤如下：

对实验的精确率和召回率进行计算从而实现对模型效果的评估，为更好地平衡这两个指标，引入F1值作为验证实验的指标之一，对算法的效果进行评估及验证。

综上所述，本发明实施例能够有效去除文本数据中对文本分类影响低的一些词汇，减少文本特征，降低文本词嵌入的向量维度，增加文本分类器效率，同时能够有效减少卷积神经网络中的反向传播过程可能为文本分类器模型带来的一些弊端。

实施例2

下面结合具体的计算公式、实例对实施例1中的方案进行可行性验证，详见下文描述：

201：在对文本进行分类前，首先要进行文本数据的分词处理，使用空格进行相隔，构建文本数据集对应字典Dic，对文本中出现的词汇进行不重复统计，所构建的字典内包括在文本数据中出现的Dic_n个不同的词汇；

202：将分词后得到的数据采用基于TF-IDF矩阵的弱相关词汇去除算法进行停用词去除，以减少文本数据的存储空间和提高算法的运行效率，综合分析TF-IDF矩阵M，获得满足条件的全局阈值α；

其中，将TF-IDF矩阵M的全部数值进行排序，获得满足条件的阈值α，α需要满足的条件的数学表达方式如公式(1)和公式(2)所示。通过公式(1)求出满足条件的阈值的集合S，该集合中的数值元素表示满足TF-IDF矩阵M中不大于此值的元素数量与TF-IDF矩阵M中所有非0元素数量的比值在指定范围之间，本发明实施例中指定此范围为[0.2,0.3]。全局阈值α为集合S中所有元素的最小值。

α＝min(S) (2)

公式(1)中的m_i,j表示TF-IDF矩阵M中第i行第j列的元素，|{m_i,j:m_i,j≤α}|表示TF-IDF矩阵M中不大于α的元素所构成的集合的元素的数量，即矩阵M中不大于全局阈值α的元素的数量，|{m_i,j:m_i,j≥0}|则为TF-IDF矩阵M中所有非0元素的数量，a＝0.2，b＝0.4。

203：个性化分析每个文本，获得每个文本对应的阈值α_i，及其所构成的集合S_α；

其中，对每一个文本单独地进行数字特征分析，对每一个文本Di进行类似于步骤202中的分析，获取其特定阈值α_i，所有的文本的阈值构成的集合为S_α，文本的局部阈值的集合的计算方式如公式(3)所示。

S_α＝{α_i|i∈|D|} (3)

204：比较综合分析TF-IDF矩阵M获得的阈值α和个性分析文本获得的α_i，获得每个文本对应的最终阈值β_i，及其所构成的集合S_β；

其中，β_i为TF-IDF矩阵M每一行对应的最终阈值，即文本数据集中文本的最终阈值，该阈值对文本分析起到十分重要的作用。通过比较文本D_i的阈值α_i和α两个值，得到二者中的较小值，即为文本D_i的阈值β_i，表示方式如公式(4)所示。所有的文本的最终阈值构成的集合为S_β，表示方式如公式(5)所示。

S_β＝{β_i|i∈|D|} (5)

205：根据最终获得的阈值集合S_β，处理文本数据集；

其中，依次处理文本数据集D中的文本D_i。获得文本D_i在集合S_β中对应的阈值β_i，在TF-IDF矩阵M中根据阈值β_i找到所有小于阈值β_i的词，这些词被视作当前处理的文本的弱相关词，记录下这些词的序列集合。在文本D_i中删除所有属于这个序列集合中的全部单词，获得D_i处理后的文本D’。反复进行上述操作，直至处理完文本数据集D中的所有数据，最终获得的文本集为D’。

206：将获得的文本集D’作为分类器的输入，对文本进行词频分析，按照词频由高到低构建词频词典，根据词汇在字典中出现的顺序为其进行标号，从而实现文本向量的嵌入；

207：仅通过词汇在词频字典中出现的次序进行词向量表示和文本向量嵌入显然无法良好地对文本的特征进行表示，所以使用doc2vec算法对文本向量嵌入过程中获得的文本向量进行文本嵌入，使用文本矩阵来对文本特征进行具体地表达，便于胶囊网络对文本的分类。

其中，文本矩阵中的每一个横向向量表示一个单词，经过上下文综合分析后而获得。

208：采用卷积层进行局部特征提取，利用卷积层对文本特征矩阵进行局部特征提取；

209：对神经元矩阵进行特征重构，将文本特征矩阵映射到更高维度的空间中；

其中，本发明实施例将二维的文本特征矩阵映射到三维张量中，导致该层的神经元输出为一个特定长度的向量，而传统的卷积操作的输出为一个标量。这个特定长度的向量包括文本特征矩阵中多个局部特征信息，在一定程度上可以对文本的特定属性进行表示。

210：利用胶囊层进行分类，胶囊层的输入神经元向量通过加权、耦合、挤压、动态路由等结构在输入胶囊到输出胶囊之间流动；

其中，在利用胶囊层进行分类的过程中没有对胶囊神经元进行激活，输出胶囊神经元通过向量将信息进行类别映射，与此同时，将输出向量传入全连接层进行表征和重构。

211：进行类别映射，将胶囊层输出的胶囊神经元向量进行数值映射，即对神经元向量进行平方求和操作，其数学表示如公式(6)所示。

式中，j<m,m为胶囊层输出层中含有的胶囊神经元的数量，v_outj为输出胶囊神经元。

212：类别映射的过程中，使用的边缘损失函数对分类模型的损失进行评估，该边缘损失函数常见于支持向量机算法的相关应用中，其表达方式如公式(7)所示。

在公式(7)中，上限为0.1，下限为0.9。T表示实际分类类别的指示参数，在多分类任务中，若对应类别存在，则其对应的参数T为1，否则，参数T为0。在本发明中，因为本文处理的数据集中仅包含两个类别的数据，积极类别和消极类别。所以，参数T仅可取两个数值。当文本实际类别为积极时，其对应的参数T为1；当文本实际类别为消极时，其对应的参数T为0。max为取某个特定范围的最大值的函数。

213：通过对精确率、召回率和F1值的计算，可以对本方法的效果进行评价和验证。

实施例3

下面结合具体的实例、数据对实施例1和2中的方案进行可行性验证，详见下文描述：

在基于TF-IDF矩阵的弱相关词汇去除算法的实验中，计算出每条文本的最终阈值，通过最终阈值确定每条文本的弱相关词汇集合，将该条文本数据中所有出现在该文本的弱相关词汇集合中的词汇进行删除，保留处理后的文本数据，最后对所有处理后的文本数据进行整合生成新的文本数据集。

实验根据算法计算出来的最终阈值对文本数据集中满足条件的全部弱相关词汇进行词汇删除操作。通过实验效果可以看出，原文本需要删除的词汇基本集中在代词、介词和关联词的范围里，基于TF-IDF矩阵的弱相关词汇去除算法具有一定的语言学意义。

在基于胶囊网络的文本分类的实验中，进行四组对比试验，利用卷积核大小为9的两层卷积层对文本特征矩阵进行局部特征提取，第一层的卷积层步长为1，第二层卷积层的步长为2，经过两层卷积层处理后输出矩阵的大小为192*256。在进行特征重构的过程中，将文本特征矩阵由二维特征空间映射到三维特征空间中，输入神经元张量的大小为192*256，输出神经元张量大小为192*32*8。在分类的过程中，实验使用胶囊层进行分类将通过特征重构获得的6144个文本的属性特征映射到含有16维的特征向量中进行特征提取。

本发明实施例使用精确率(P)、召回率(R)和F1值三个评价指标对基于TF-IDF矩阵的弱相关词汇去除算法和基于胶囊网络的文本分类算法模型的分类效果进行评估，精确率计算的主要目的是评估模型预测结果中全部预测为正类的数据中预测正确的概率，而召回率计算的主要目的是评估模型预测结果中全部实际为正类的数据中被正确预测的数据所占概率，F1值可以对实验结果进行综合展示。精确率(P)的计算公式如公式(1)所示，召回率(R)的计算公式如公式(2)所示，F1值的计算公式如公式(3)所示。

公式(8)中数据值TP表示通过分类模型预测后的结果正确且结果为正类的数量，即预测类别和实际类别都为正类的数量；数值FP表示通过分类模型预测后的结果错误且分类结果预测为正类的数量，即预测类别为正类和实际类别为负类的数量。公式(9)中TP表示通过分类模型预测后的结果正确且结果为正类的数量，即预测类别和实际类别都为正类的数量；数值FN表示通过分类模型预测后的结果错误且预测结果为负类的数量，即预测类别为负类和实际类别为正类的数量。公式(10)中数值P为精确率值，数值R为召回率值。精确率、召回率和F1值均为值越大效果越好。

实验结果表明，文本的局部阈值分布在0.018和0.14之间的数值区间内，主要分布范围为0.04和0.06之间的数值区间内。通过对不同数值范围内的局部阈值对应的文本进行数据抽取可以看出，局部阈值比较高的文本数据所包含的文本词汇量比较小，而局部阈值比较低的文本数据所包含的文本词汇量比较大，如图2所示。

四组对比实验的实验效果如表1所示，第一组实验为使用卷积神经网络处理在原始IMDB数据集上进行分类实验、第二组实验为使用基于胶囊网络的文本分类算法在原始IMDB数据集上进行分类实验、第三组实验为使用卷积神经网络结合基于TF-IDF矩阵的弱相关词汇去除算法(TF-IDF-C)进行分类实验，第四组实验为使用基于胶囊网络的文本分类算法模型结合基于TF-IDF矩阵的弱相关词汇去除算法(TF-IDF-C)进行分类实验。由实验结果可以看出，使用基于胶囊网络的文本分类算法模型结合基于TF-IDF矩阵的弱相关词汇去除算法的实验效果的精确率和F1值最高，相比于使用卷积神经网络处理在原始IMDB数据集上进行分类的实验效果分别高出3％和7％，说明经过基于TF-IDF矩阵的弱相关词汇去除算法模型的有效性好。

在图2中，(a)表示的是训练集中分类为积极的部分文本数据的阈值图，(b)表示的是训练集中分类为消极的部分文本数据的阈值图。可以看出文本的局部阈值分布在0.018和0.14之间的数值区间内，主要分布范围为0.04和0.06之间的数值区间内。通过对不同数值范围内的局部阈值对应的文本进行数据抽取可以看出，局部阈值比较高的文本数据所包含的文本词汇量比较小，而局部阈值比较低的文本数据所包含的文本词汇量比较大。

表1为实验评价指标表

在表1中，比较四组不同实验的精确率、召回率和F1值可以得知，基于基于TF-IDF矩阵和胶囊网络的文本分类算法的精确率和F1值最高。由表1可知，CapsNet+TF-IDF-C算法更胜一筹。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于TF-IDF矩阵和胶囊网络的文本分类方法，其特征在于，所述方法包括以下步骤：

对分词处理后的文本数据采用TF-IDF矩阵进行分析，获得满足预设条件的全局阈值α，对每个文本数据进行个性化分析，以获得每个文本数据对应的阈值α_i及其所构成的集合S_α；

通过doc2vec算法，使用文本矩阵对嵌入的文本向量进行表达，并作为基于胶囊网络的文本分类的输入，训练胶囊网络文本分类模型；

所述预设条件具体为：

α＝min(S)

其中，m_i，j表示TF-IDF矩阵M中第i行第j列的元素，|{m_i，j：m_i，j≤α}|表示矩阵M中不大于全局阈值α的元素数量，|{m_i，j：m_i，j≥0}|则为所有非0元素的数量，a、b均为预设参数；D为原文本数据集；D_i为文本数据集中的文本；

所述比较全局阈值α和个性分析文本获得的阈值α_i，获得每个文本数据对应的最终阈值β_i具体为：

S_β＝{β_i|i∈|D|}

所述根据最终获得的集合S_β，处理文本数据集具体为：

获取文本D_i在集合S_β中对应的阈值β_i，在TF-IDF矩阵中根据阈值β_i找到所有小于阈值β_i的词，作为当前待处理文本的弱相关词，记录下弱相关词的序列集合；

2.根据权利要求1所述的一种基于TF-IDF矩阵和胶囊网络的文本分类方法，其特征在于，所述使用文本矩阵对嵌入的文本向量进行表达，并作为基于胶囊网络的文本分类的输入，训练胶囊网络文本分类模型具体为：

利用卷积层对文本向量进行局部特征提取；

3.根据权利要求2所述的一种基于TF-IDF矩阵和胶囊网络的文本分类方法，其特征在于，所述数值映射具体为：对输出的神经元向量进行平方求和操作。