CN110097096B - 一种基于tf-idf矩阵和胶囊网络的文本分类方法 - Google Patents

一种基于tf-idf矩阵和胶囊网络的文本分类方法 Download PDF

Info

Publication number
CN110097096B
CN110097096B CN201910303094.2A CN201910303094A CN110097096B CN 110097096 B CN110097096 B CN 110097096B CN 201910303094 A CN201910303094 A CN 201910303094A CN 110097096 B CN110097096 B CN 110097096B
Authority
CN
China
Prior art keywords
text
matrix
threshold
text data
alpha
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910303094.2A
Other languages
English (en)
Other versions
CN110097096A (zh
Inventor
喻梅
胡悦
刘志强
于健
赵满坤
于瑞国
王建荣
张功
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910303094.2A priority Critical patent/CN110097096B/zh
Publication of CN110097096A publication Critical patent/CN110097096A/zh
Application granted granted Critical
Publication of CN110097096B publication Critical patent/CN110097096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于TF‑IDF矩阵和胶囊网络的文本分类方法,包括:对分词处理后的文本数据采用TF‑IDF矩阵进行分析,获得满足预设条件的全局阈值α,对每个文本数据进行个性化分析,以获得每个文本数据对应的阈值tj及其所构成的集合Sα;比较全局阈值α和个性分析文本获得的阈值αi,以此获得每个文本数据对应的最终阈值βi及其所构成的集合Sβ,并根据最终获得的集合Sβ,处理文本数据集、进行词频分析,同时根据词汇在字典中出现的顺序为其进行标号,从而实现文本向量嵌入;通过doc2vec算法,使用文本矩阵对嵌入的文本向量进行表达,并作为基于胶囊网络的文本分类的输入,训练胶囊网络文本分类模型。本发明能够有效去除文本数据中对文本分类影响低的一些词汇,减少文本特征。

Description

一种基于TF-IDF矩阵和胶囊网络的文本分类方法
技术领域
本发明涉及自然语言处理和信息检索领域,尤其涉及一种基于TF-IDF(词频-逆文本频率指数)矩阵和胶囊网络的文本分类方法。
背景技术
文本分类过程首先需要对数据进行文本预处理和文本特征处理,获得文本的特征向量,为分类过程的后续操作奠定基础。传统的机器学习方法在进行特征处理的过程中需要人工指定特征的具体形式从而对原始数据进行表示。
传统文本分类方法文本特征维度较高,数据较稀疏,表征能力较弱。现有文本分类方法如KNN(K-最近邻)算法,其主要靠周围有限的邻近的样本,但其输出的可解释性不强,计算量大,当样本不平衡时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。
发明内容
本发明提供了一种基于TF-IDF矩阵和胶囊网络的文本分类方法,本发明能够有效去除文本数据中对文本分类影响低的一些词汇,减少文本特征,降低文本词嵌入的向量维度,增加文本分类器效率,同时能够有效减少卷积神经网络中的反向传播过程可能为文本分类器模型带来的一些弊端,详见下文描述:
一种基于TF-IDF矩阵和胶囊网络的文本分类方法,所述方法包括以下步骤:
对分词处理后的文本数据采用TF-IDF矩阵进行分析,获得满足预设条件的全局阈值α,对每个文本数据进行个性化分析,以获得每个文本数据对应的阈值tj及其所构成的集合Sα
比较全局阈值α和个性分析文本获得的阈值αi,以此获得每个文本数据对应的最终阈值βi及其所构成的集合Sβ,并根据最终获得的集合Sβ,处理文本数据集、进行词频分析,同时根据词汇在字典中出现的顺序为其进行标号,从而实现文本向量嵌入;
通过doc2vec算法,使用文本矩阵对嵌入的文本向量进行表达,并作为基于胶囊网络的文本分类的输入,训练胶囊网络文本分类模型。
其中,所述预设条件具体为:
Figure BDA0002028904460000021
α=min(S)
其中,mi,j表示TF-IDF矩阵M中第i行第j列的元素,|{mi,j:mi,j≤α}|表示矩阵M中不大于全局阈值α的元素数量,|{mi,j:mi,j≥0}|则为所有非0元素的数量,a、b均为预设参数;D为原文本数据集;Di为文本数据集中的文本。
进一步地,所述比较全聚阈值α和个性分析文本获得的阈值αi,获得每个文本数据对应的最终阈值βi具体为:
Figure BDA0002028904460000022
Sβ={βi|i∈|D|}。
进一步地,所述根据最终获得的集合Sβ,处理文本数据集具体为:
获取文本Di在集合Sβ中对应的阈值βi,在TF-IDF矩阵中根据阈值βi找到所有小于阈值βi的词,作为当前处理文本的弱相关词,记录下弱相关词的序列集合;
在文本Di中删除属于这个序列集合的全部单词,获得Di处理后的文本D’。
其中,所述使用文本矩阵对嵌入的文本向量进行表达,并作为基于胶囊网络的文本分类的输入,训练胶囊网络文本分类模型具体为:
利用卷积层对文本向量进行局部特征提取;
对文本特征矩阵进行特征重构,将其映射到更高维度的空间中;
利用胶囊层进行分类,胶囊层的输入神经元向量通过加权、耦合、挤压、动态路由在输入胶囊到输出胶囊之间流动;
对输出的神经元向量进行数值映射,使用边缘损失函数对分类模型的损失进行评估。
进一步地,所述数值映射具体为:对输出的神经元向量进行平方求和操作。
本发明提供的技术方案的有益效果是:
1、本发明分析文本数据在文本分类过程中的作用频率,通过TF-IDF算法构建出TF-IDF矩阵,综合分析文本数据的词频特征,通过算法找出文本的全局阈值和局部阈值,然后对比全局阈值和局部阈值,获得最终阈值;
2、本发明以最终阈值为界限,去除文本数据中对文本分类影响低的一些词汇,减少文本特征,从而减少文本词嵌入的向量大小从而降低文本数据的存储空间;
3、本发明通过胶囊网络中动态路由的过程,减少了卷积神经网络中数据在反向传播过程中可能给文本分类器模型带来的一些弊端,提高文本分类的效率。
附图说明
图1为一种基于TF-IDF矩阵和胶囊网络的文本分类方法的流程图;
图2为文本局部阈值图。
其中,(a)为训练集中分类为积极的部分文本数据的阈值;(b)为训练集中分类为消极的部分文本数据的阈值图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
深度学习在特征处理方面比较简便,深度学习是利用神经网络技术自动提取数据中的特征,这个过程被称作特征学习。在普通的机器学习过程中,如果想要对数据进行良好的表示,研究人员需要学习大量的先验知识,在这一方面,深度学习过程中的特征学习能够较好地避免这个缺陷。
文本中的信息通过特征学习过程使用文本特征矩阵来表示,文本特征矩阵的大小往往取决于文本中词特征的数量,如果文本特征矩阵过大,文本分类器的效率会在一定程度上降低。与此同时,文本数据往往包括很多对分类结果影响很小的词特征,这些特征的去除不会对分类器效果产生较大的影响,却会在一定程度上减少文本的特征矩阵的大小,可以在降低数据的存储空间的同时提高文本分类器的效果。
胶囊网络(Capsule Neural Network,CapsNet)是一种神经网络架构,用胶囊神经元构成的胶囊网络层结构代替传统神经网络的部分隐含层,并通过动态路由的方式去训练这种全新的神经网络。由于胶囊网络具有特殊的网络结构特点,所以胶囊网络相比与传统的卷积神经网络具有更良好的学习能力。胶囊网络通过在网络训练过程中使用动态路由的过程替代传统神经网络中的反向传播过程,避免反向传播过程中出现的一些局部最优化情况,影响分类的效果,并且从某种程度上来说胶囊网络具有一定的解释性。胶囊网络可能对深度学习带来深远的影响。目前,胶囊网络已经达到对MNIST数据集判定的较高精度。这在图像分割和目标检测领域是非常有前景的,并且其激活向量的可解释性也比较好。
实施例1
为实现上述目的,本发明实施例提出一种基于TF-IDF矩阵和胶囊网络的文本分类方法,参见图1,该方法包括以下步骤:
101:对输入的文本数据进行分词处理;
102:采用TF-IDF矩阵的弱相关词汇去除算法对文本数据进行停用词去除,删除文本数据集D中的部分单词,获得处理后的特征更加明显的文本数据集D’,作为分类器的输入;
103:通过doc2vec算法处理获得文本向量嵌入;
104:将得到的文本向量嵌入作为基于胶囊网络的文本分类的输入,训练胶囊网络文本分类模型。
在一个实施例中,步骤101对文本数据进行了分词处理,具体步骤如下:
对于文本数据,在进行文本分词时,直接使用空格进行相隔,构建出文本数据集对应的字典Dic,对文本中出现的词汇进行不重复统计,字典内包括在文本数据中出现的Dic_n个不同的词汇。
在一个实施例中,采用步骤102对文本数据进行停用词去除,具体步骤如下:
综合分析TF-IDF矩阵M,获得满足条件的全局阈值α,之后对每个文本进行个性化分析,获得每个文本对应的阈值tj,及其所构成的集合Sα,比较综合分析TF-IDF矩阵M获得的阈值α和个性分析文本获得的αi,获得每个文本对应的最终阈值βi,及所构成的集合Sβ,根据最终获得的集合Sβ,处理文本数据集,最终获得文本集D’。
在一个实施例中,步骤103进行文本向量嵌入,具体步骤如下:
在文本向量嵌入过程中,主要使用基于词频的词典进行文本特征表示,对处理后的文本数据进行文本向量嵌入,将文本进行词频分析,按照词频由高到低构建词频词典,根据词汇在字典中出现的顺序为其进行标号,从而实现文本向量的嵌入,之后使用doc2vec算法对文本向量嵌入过程中获得的文本向量进行文本嵌入,使用文本矩阵对文本特征进行具体地表达。
其中,doc2vec是一种文本向量嵌入方法,作为词向量嵌入方法的一种改进,doc2vec的文本向量嵌入将引入的文本序号作为模型的训练特征之一,通过与文本向量维度空间相同的数字向量进行表示。
在一个实施例中,步骤104对预处理后得到的文本向量嵌入作为胶囊网络的文本分类的输入,训练文本分类模型,具体步骤如下:
文本分类的胶囊网络结构模型包括六个主要组成部分:文本向量嵌入、文本向量的矩阵转换、利用卷积层进行局部特征提取、特征重构、利用胶囊层进行分类、类别映射。
在步骤103进行的文本向量嵌入的基础上,利用卷积层对文本特征矩阵进行局部特征提取,再对神经元矩阵进行特征重构,将二维的文本特征矩阵映射到三维张量中。在利用胶囊层进行分类的过程中,胶囊层的输入神经元向量通过加权、耦合、挤压、动态路由等结构在输入胶囊到输出胶囊之间的流动。在类别映射的过程中,将胶囊层输出的胶囊神经元向量进行数值映射,即对神经元向量进行平方求和的操作,使用边缘损失函数对分类模型的损失进行评估。
在一个实施例中,还包括对基于TF-IDF矩阵的弱相关词汇去除算法和基于胶囊网络的文本分类算法进行实验,具体步骤如下:
对实验的精确率和召回率进行计算从而实现对模型效果的评估,为更好地平衡这两个指标,引入F1值作为验证实验的指标之一,对算法的效果进行评估及验证。
综上所述,本发明实施例能够有效去除文本数据中对文本分类影响低的一些词汇,减少文本特征,降低文本词嵌入的向量维度,增加文本分类器效率,同时能够有效减少卷积神经网络中的反向传播过程可能为文本分类器模型带来的一些弊端。
实施例2
下面结合具体的计算公式、实例对实施例1中的方案进行可行性验证,详见下文描述:
201:在对文本进行分类前,首先要进行文本数据的分词处理,使用空格进行相隔,构建文本数据集对应字典Dic,对文本中出现的词汇进行不重复统计,所构建的字典内包括在文本数据中出现的Dic_n个不同的词汇;
202:将分词后得到的数据采用基于TF-IDF矩阵的弱相关词汇去除算法进行停用词去除,以减少文本数据的存储空间和提高算法的运行效率,综合分析TF-IDF矩阵M,获得满足条件的全局阈值α;
其中,将TF-IDF矩阵M的全部数值进行排序,获得满足条件的阈值α,α需要满足的条件的数学表达方式如公式(1)和公式(2)所示。通过公式(1)求出满足条件的阈值的集合S,该集合中的数值元素表示满足TF-IDF矩阵M中不大于此值的元素数量与TF-IDF矩阵M中所有非0元素数量的比值在指定范围之间,本发明实施例中指定此范围为[0.2,0.3]。全局阈值α为集合S中所有元素的最小值。
Figure BDA0002028904460000061
α=min(S)   (2)
公式(1)中的mi,j表示TF-IDF矩阵M中第i行第j列的元素,|{mi,j:mi,j≤α}|表示TF-IDF矩阵M中不大于α的元素所构成的集合的元素的数量,即矩阵M中不大于全局阈值α的元素的数量,|{mi,j:mi,j≥0}|则为TF-IDF矩阵M中所有非0元素的数量,a=0.2,b=0.4。
203:个性化分析每个文本,获得每个文本对应的阈值αi,及其所构成的集合Sα
其中,对每一个文本单独地进行数字特征分析,对每一个文本Di进行类似于步骤202中的分析,获取其特定阈值αi,所有的文本的阈值构成的集合为Sα,文本的局部阈值的集合的计算方式如公式(3)所示。
Sα={αi|i∈|D|}   (3)
204:比较综合分析TF-IDF矩阵M获得的阈值α和个性分析文本获得的αi,获得每个文本对应的最终阈值βi,及其所构成的集合Sβ
其中,βi为TF-IDF矩阵M每一行对应的最终阈值,即文本数据集中文本的最终阈值,该阈值对文本分析起到十分重要的作用。通过比较文本Di的阈值αi和α两个值,得到二者中的较小值,即为文本Di的阈值βi,表示方式如公式(4)所示。所有的文本的最终阈值构成的集合为Sβ,表示方式如公式(5)所示。
Figure BDA0002028904460000062
Sβ={βi|i∈|D|}   (5)
205:根据最终获得的阈值集合Sβ,处理文本数据集;
其中,依次处理文本数据集D中的文本Di。获得文本Di在集合Sβ中对应的阈值βi,在TF-IDF矩阵M中根据阈值βi找到所有小于阈值βi的词,这些词被视作当前处理的文本的弱相关词,记录下这些词的序列集合。在文本Di中删除所有属于这个序列集合中的全部单词,获得Di处理后的文本D’。反复进行上述操作,直至处理完文本数据集D中的所有数据,最终获得的文本集为D’。
206:将获得的文本集D’作为分类器的输入,对文本进行词频分析,按照词频由高到低构建词频词典,根据词汇在字典中出现的顺序为其进行标号,从而实现文本向量的嵌入;
207:仅通过词汇在词频字典中出现的次序进行词向量表示和文本向量嵌入显然无法良好地对文本的特征进行表示,所以使用doc2vec算法对文本向量嵌入过程中获得的文本向量进行文本嵌入,使用文本矩阵来对文本特征进行具体地表达,便于胶囊网络对文本的分类。
其中,文本矩阵中的每一个横向向量表示一个单词,经过上下文综合分析后而获得。
208:采用卷积层进行局部特征提取,利用卷积层对文本特征矩阵进行局部特征提取;
209:对神经元矩阵进行特征重构,将文本特征矩阵映射到更高维度的空间中;
其中,本发明实施例将二维的文本特征矩阵映射到三维张量中,导致该层的神经元输出为一个特定长度的向量,而传统的卷积操作的输出为一个标量。这个特定长度的向量包括文本特征矩阵中多个局部特征信息,在一定程度上可以对文本的特定属性进行表示。
210:利用胶囊层进行分类,胶囊层的输入神经元向量通过加权、耦合、挤压、动态路由等结构在输入胶囊到输出胶囊之间流动;
其中,在利用胶囊层进行分类的过程中没有对胶囊神经元进行激活,输出胶囊神经元通过向量将信息进行类别映射,与此同时,将输出向量传入全连接层进行表征和重构。
211:进行类别映射,将胶囊层输出的胶囊神经元向量进行数值映射,即对神经元向量进行平方求和操作,其数学表示如公式(6)所示。
Figure BDA0002028904460000071
式中,j<m,m为胶囊层输出层中含有的胶囊神经元的数量,v_outj为输出胶囊神经元。
212:类别映射的过程中,使用的边缘损失函数对分类模型的损失进行评估,该边缘损失函数常见于支持向量机算法的相关应用中,其表达方式如公式(7)所示。
Figure BDA0002028904460000072
在公式(7)中,上限为0.1,下限为0.9。T表示实际分类类别的指示参数,在多分类任务中,若对应类别存在,则其对应的参数T为1,否则,参数T为0。在本发明中,因为本文处理的数据集中仅包含两个类别的数据,积极类别和消极类别。所以,参数T仅可取两个数值。当文本实际类别为积极时,其对应的参数T为1;当文本实际类别为消极时,其对应的参数T为0。max为取某个特定范围的最大值的函数。
213:通过对精确率、召回率和F1值的计算,可以对本方法的效果进行评价和验证。
综上所述,本发明实施例能够有效去除文本数据中对文本分类影响低的一些词汇,减少文本特征,降低文本词嵌入的向量维度,增加文本分类器效率,同时能够有效减少卷积神经网络中的反向传播过程可能为文本分类器模型带来的一些弊端。
实施例3
下面结合具体的实例、数据对实施例1和2中的方案进行可行性验证,详见下文描述:
在基于TF-IDF矩阵的弱相关词汇去除算法的实验中,计算出每条文本的最终阈值,通过最终阈值确定每条文本的弱相关词汇集合,将该条文本数据中所有出现在该文本的弱相关词汇集合中的词汇进行删除,保留处理后的文本数据,最后对所有处理后的文本数据进行整合生成新的文本数据集。
实验根据算法计算出来的最终阈值对文本数据集中满足条件的全部弱相关词汇进行词汇删除操作。通过实验效果可以看出,原文本需要删除的词汇基本集中在代词、介词和关联词的范围里,基于TF-IDF矩阵的弱相关词汇去除算法具有一定的语言学意义。
在基于胶囊网络的文本分类的实验中,进行四组对比试验,利用卷积核大小为9的两层卷积层对文本特征矩阵进行局部特征提取,第一层的卷积层步长为1,第二层卷积层的步长为2,经过两层卷积层处理后输出矩阵的大小为192*256。在进行特征重构的过程中,将文本特征矩阵由二维特征空间映射到三维特征空间中,输入神经元张量的大小为192*256,输出神经元张量大小为192*32*8。在分类的过程中,实验使用胶囊层进行分类将通过特征重构获得的6144个文本的属性特征映射到含有16维的特征向量中进行特征提取。
本发明实施例使用精确率(P)、召回率(R)和F1值三个评价指标对基于TF-IDF矩阵的弱相关词汇去除算法和基于胶囊网络的文本分类算法模型的分类效果进行评估,精确率计算的主要目的是评估模型预测结果中全部预测为正类的数据中预测正确的概率,而召回率计算的主要目的是评估模型预测结果中全部实际为正类的数据中被正确预测的数据所占概率,F1值可以对实验结果进行综合展示。精确率(P)的计算公式如公式(1)所示,召回率(R)的计算公式如公式(2)所示,F1值的计算公式如公式(3)所示。
Figure BDA0002028904460000081
Figure BDA0002028904460000082
Figure BDA0002028904460000083
公式(8)中数据值TP表示通过分类模型预测后的结果正确且结果为正类的数量,即预测类别和实际类别都为正类的数量;数值FP表示通过分类模型预测后的结果错误且分类结果预测为正类的数量,即预测类别为正类和实际类别为负类的数量。公式(9)中TP表示通过分类模型预测后的结果正确且结果为正类的数量,即预测类别和实际类别都为正类的数量;数值FN表示通过分类模型预测后的结果错误且预测结果为负类的数量,即预测类别为负类和实际类别为正类的数量。公式(10)中数值P为精确率值,数值R为召回率值。精确率、召回率和F1值均为值越大效果越好。
实验结果表明,文本的局部阈值分布在0.018和0.14之间的数值区间内,主要分布范围为0.04和0.06之间的数值区间内。通过对不同数值范围内的局部阈值对应的文本进行数据抽取可以看出,局部阈值比较高的文本数据所包含的文本词汇量比较小,而局部阈值比较低的文本数据所包含的文本词汇量比较大,如图2所示。
四组对比实验的实验效果如表1所示,第一组实验为使用卷积神经网络处理在原始IMDB数据集上进行分类实验、第二组实验为使用基于胶囊网络的文本分类算法在原始IMDB数据集上进行分类实验、第三组实验为使用卷积神经网络结合基于TF-IDF矩阵的弱相关词汇去除算法(TF-IDF-C)进行分类实验,第四组实验为使用基于胶囊网络的文本分类算法模型结合基于TF-IDF矩阵的弱相关词汇去除算法(TF-IDF-C)进行分类实验。由实验结果可以看出,使用基于胶囊网络的文本分类算法模型结合基于TF-IDF矩阵的弱相关词汇去除算法的实验效果的精确率和F1值最高,相比于使用卷积神经网络处理在原始IMDB数据集上进行分类的实验效果分别高出3%和7%,说明经过基于TF-IDF矩阵的弱相关词汇去除算法模型的有效性好。
在图2中,(a)表示的是训练集中分类为积极的部分文本数据的阈值图,(b)表示的是训练集中分类为消极的部分文本数据的阈值图。可以看出文本的局部阈值分布在0.018和0.14之间的数值区间内,主要分布范围为0.04和0.06之间的数值区间内。通过对不同数值范围内的局部阈值对应的文本进行数据抽取可以看出,局部阈值比较高的文本数据所包含的文本词汇量比较小,而局部阈值比较低的文本数据所包含的文本词汇量比较大。
表1为实验评价指标表
Figure BDA0002028904460000091
在表1中,比较四组不同实验的精确率、召回率和F1值可以得知,基于基于TF-IDF矩阵和胶囊网络的文本分类算法的精确率和F1值最高。由表1可知,CapsNet+TF-IDF-C算法更胜一筹。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于TF-IDF矩阵和胶囊网络的文本分类方法,其特征在于,所述方法包括以下步骤:
对分词处理后的文本数据采用TF-IDF矩阵进行分析,获得满足预设条件的全局阈值α,对每个文本数据进行个性化分析,以获得每个文本数据对应的阈值αi及其所构成的集合Sα
比较全局阈值α和个性分析文本获得的阈值αi,以此获得每个文本数据对应的最终阈值βi及其所构成的集合Sβ,并根据最终获得的集合Sβ,处理文本数据集、进行词频分析,同时根据词汇在字典中出现的顺序为其进行标号,从而实现文本向量嵌入;
通过doc2vec算法,使用文本矩阵对嵌入的文本向量进行表达,并作为基于胶囊网络的文本分类的输入,训练胶囊网络文本分类模型;
所述预设条件具体为:
α=min(S)
其中,mi,j表示TF-IDF矩阵M中第i行第j列的元素,|{mi,j:mi,j≤α}|表示矩阵M中不大于全局阈值α的元素数量,|{mi,j:mi,j≥0}|则为所有非0元素的数量,a、b均为预设参数;D为原文本数据集;Di为文本数据集中的文本;
所述比较全局阈值α和个性分析文本获得的阈值αi,获得每个文本数据对应的最终阈值βi具体为:
Sβ={βi|i∈|D|}
所述根据最终获得的集合Sβ,处理文本数据集具体为:
获取文本Di在集合Sβ中对应的阈值βi,在TF-IDF矩阵中根据阈值βi找到所有小于阈值βi的词,作为当前待处理文本的弱相关词,记录下弱相关词的序列集合;
在文本Di中删除属于这个序列集合的全部单词,获得Di处理后的文本D’。
2.根据权利要求1所述的一种基于TF-IDF矩阵和胶囊网络的文本分类方法,其特征在于,所述使用文本矩阵对嵌入的文本向量进行表达,并作为基于胶囊网络的文本分类的输入,训练胶囊网络文本分类模型具体为:
利用卷积层对文本向量进行局部特征提取;
对文本特征矩阵进行特征重构,将其映射到更高维度的空间中;
利用胶囊层进行分类,胶囊层的输入神经元向量通过加权、耦合、挤压、动态路由在输入胶囊到输出胶囊之间流动;
对输出的神经元向量进行数值映射,使用边缘损失函数对分类模型的损失进行评估。
3.根据权利要求2所述的一种基于TF-IDF矩阵和胶囊网络的文本分类方法,其特征在于,所述数值映射具体为:对输出的神经元向量进行平方求和操作。
CN201910303094.2A 2019-04-16 2019-04-16 一种基于tf-idf矩阵和胶囊网络的文本分类方法 Active CN110097096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910303094.2A CN110097096B (zh) 2019-04-16 2019-04-16 一种基于tf-idf矩阵和胶囊网络的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910303094.2A CN110097096B (zh) 2019-04-16 2019-04-16 一种基于tf-idf矩阵和胶囊网络的文本分类方法

Publications (2)

Publication Number Publication Date
CN110097096A CN110097096A (zh) 2019-08-06
CN110097096B true CN110097096B (zh) 2023-04-25

Family

ID=67445002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910303094.2A Active CN110097096B (zh) 2019-04-16 2019-04-16 一种基于tf-idf矩阵和胶囊网络的文本分类方法

Country Status (1)

Country Link
CN (1) CN110097096B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119449B (zh) * 2019-05-14 2020-12-25 湖南大学 一种基于序列增强胶囊网络的刑事案件罪名预测方法
CN110647919A (zh) * 2019-08-27 2020-01-03 华东师范大学 一种基于k-均值聚类和胶囊网络的文本聚类方法及系统
CN110781345B (zh) * 2019-10-31 2022-12-27 北京达佳互联信息技术有限公司 视频描述生成模型的获取方法、视频描述生成方法及装置
CN111062385A (zh) * 2019-11-18 2020-04-24 上海眼控科技股份有限公司 一种用于图像文本信息检测的网络模型构建方法与系统
CN111930938A (zh) * 2020-07-06 2020-11-13 武汉卓尔数字传媒科技有限公司 文本分类方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484343A (zh) * 2014-11-26 2015-04-01 无锡清华信息科学与技术国家实验室物联网技术中心 一种对微博进行主题发现与追踪的方法
CN106528642A (zh) * 2016-10-13 2017-03-22 广东广业开元科技有限公司 一种基于tf‑idf特征提取的短文本分类方法
CN106610949A (zh) * 2016-09-29 2017-05-03 四川用联信息技术有限公司 一种基于语义分析的文本特征提取方法
CN107229731A (zh) * 2017-06-08 2017-10-03 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN107766576A (zh) * 2017-11-15 2018-03-06 北京航空航天大学 一种微博用户兴趣特征的提取方法
CN108170681A (zh) * 2018-01-15 2018-06-15 中南大学 文本情感分析方法、系统及计算机可读存储介质
CN108763402A (zh) * 2018-05-22 2018-11-06 广西师范大学 基于依存关系、词性和语义词典的类中心向量文本分类法
CN109241283A (zh) * 2018-08-08 2019-01-18 广东工业大学 一种基于多角度胶囊网络的文本分类方法
CN109271514A (zh) * 2018-09-14 2019-01-25 华南师范大学 短文本分类模型的生成方法、分类方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9042640B2 (en) * 2012-01-13 2015-05-26 Xerox Corporation Methods and system for analyzing and rating images for personalization

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484343A (zh) * 2014-11-26 2015-04-01 无锡清华信息科学与技术国家实验室物联网技术中心 一种对微博进行主题发现与追踪的方法
CN106610949A (zh) * 2016-09-29 2017-05-03 四川用联信息技术有限公司 一种基于语义分析的文本特征提取方法
CN106528642A (zh) * 2016-10-13 2017-03-22 广东广业开元科技有限公司 一种基于tf‑idf特征提取的短文本分类方法
CN107229731A (zh) * 2017-06-08 2017-10-03 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN107766576A (zh) * 2017-11-15 2018-03-06 北京航空航天大学 一种微博用户兴趣特征的提取方法
CN108170681A (zh) * 2018-01-15 2018-06-15 中南大学 文本情感分析方法、系统及计算机可读存储介质
CN108763402A (zh) * 2018-05-22 2018-11-06 广西师范大学 基于依存关系、词性和语义词典的类中心向量文本分类法
CN109241283A (zh) * 2018-08-08 2019-01-18 广东工业大学 一种基于多角度胶囊网络的文本分类方法
CN109271514A (zh) * 2018-09-14 2019-01-25 华南师范大学 短文本分类模型的生成方法、分类方法、装置及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A FKSVM Model Based on Fisher Criterion for Text Classification;Lu Jiang等;《2017 10th International Symposium on Computational Intelligence and Design (ISCID)》;20171010;全文 *
Fast and Accurate Annotation of Short Texts with Wikipedia Pages;Paolo Ferragina等;《IEEE Software》;20111006;全文 *
Text Classification Method Based on Convolution Neural Network;Lin Li等;《2017 3rd IEEE International Conference on Computer and Communications》;20171231;全文 *
基于改进BP神经网络的学术活动文本分类;田欢等;《北京信息科技大学学报》;20181031;全文 *

Also Published As

Publication number Publication date
CN110097096A (zh) 2019-08-06

Similar Documents

Publication Publication Date Title
CN110097096B (zh) 一种基于tf-idf矩阵和胶囊网络的文本分类方法
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN110188047B (zh) 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
EP3657354A1 (en) Supervised features for text classification
CN110321805B (zh) 一种基于时序关系推理的动态表情识别方法
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN112231477A (zh) 一种基于改进胶囊网络的文本分类方法
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN111782804A (zh) 基于TextCNN同分布文本数据选择方法、系统及存储介质
CN110889505A (zh) 一种图文序列匹配的跨媒体综合推理方法和系统
CN113378563B (zh) 一种基于遗传变异和半监督的案件特征提取方法及装置
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN116384388B (zh) 反向识别ai智能写作的方法、装置、设备和介质
CN116257601A (zh) 一种基于深度学习的违法词库构建方法及系统
CN113190681B (zh) 一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法
CN110717015B (zh) 一种基于神经网络的多义词识别方法
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型
CN113821571A (zh) 基于bert和改进pcnn的食品安全关系抽取方法
CN113297376A (zh) 基于元学习的法律案件风险点识别方法及系统
CN112270185A (zh) 一种基于主题模型的文本表示方法
CN113157913A (zh) 一种基于社会新闻数据集的伦理行为判别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant