CN110543563A - 一种层次型文本分类方法及系统 - Google Patents
一种层次型文本分类方法及系统 Download PDFInfo
- Publication number
- CN110543563A CN110543563A CN201910767580.XA CN201910767580A CN110543563A CN 110543563 A CN110543563 A CN 110543563A CN 201910767580 A CN201910767580 A CN 201910767580A CN 110543563 A CN110543563 A CN 110543563A
- Authority
- CN
- China
- Prior art keywords
- text
- class label
- probability
- class
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 69
- 239000011159 matrix material Substances 0.000 claims abstract description 60
- 238000012937 correction Methods 0.000 claims abstract description 8
- 238000013145 classification model Methods 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 208000028017 Psychotic disease Diseases 0.000 description 2
- 208000029560 autism spectrum disease Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 201000000980 schizophrenia Diseases 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种层次型文本分类方法及系统,方法包括步骤:根据文本类标签的树型层次结构,给文本类标签层次树中的类标签节点编号;在每个非叶节点上训练分类器,分类器输出初步预测类标签概率向量,向量元素代表该文本被分为每一个类标签的概率;然后利用文本类标签之间的联系,训练调整概率矩阵,调整概率矩阵中元素是类标签被调整为各个类标签的概率;通过训练得到的调整概率矩阵对文本类标签进行全局统筹修正,构建全局层次型文本分类模型。本发明打通了类标签层与层之间的联系,可以使文本类别预测错误率在每一层都有所减少,提高层次型文本分类的准确率。
Description
技术领域
本发明涉及计算机自然语言处理与文本分类研究领域,特别涉及一种层次型文本分类方法及系统。
背景技术
随着互联网技术的飞速发展,每天都有数以亿计的文本数据产生。如何管理这些文本数据已经变成了一个非常棘手的问题,文本分类就是解决这一问题最好的方式之一。文本分类方法的研究由来已久,对于类标签数目比较少、每个文本有一个类标签的情况,都取得了不错的效果。但是随着文本数目的增多,文本的类标签数目也在飞速的增长,并且每个文本可能同时被分为不同粒度的类别。在这种情况下直接分类算法就很难满足用户的需求。在文本数据量不断增大以及类标签数目越来越多的情况下,分层分类相对于直接分类可以更准确地对文本进行分类。
层次型文本分类方法根据文本类标签本身具有的层次结构构建分类模型。随着文本数目的增多,文本的类标签数目也在飞速的增长,并且每个文本可能同时被分为不同粒度级别的类别。文本类标签的层次结构可以分为两类:树型结构和图型结构。树型结构综合考虑数据类标签之间的联系,依据类标签内部的联系建立树层次结构,树中的每一节点(除了根节点)仅有一个父节点,根节点无父节点。文本类标签的层次型结构示例如图1所示,除了根节点(Root),其它各层上的节点均为类标签。目前,层次型文本分类方法已经被运用于很多领域,例如,新闻分类,学术论文分类等。全局层次型文本分类模型可以快速准确地对文本进行分类,具有很好的产业前景。
近年来在层次型文本分类方面已经有很多研究。Zhang L等人在文献《Hierarchical multi-label classification using fully associative ensemblelearning》、《Fully associative ensemble learning for hierarchical multi-labelclassification》中提出通过嵌入类层次结构中的结构信息,提高了层次型分类问题的性能。Khan和Baig在文献《Ant colony optimization based hierarchical multi-labelclassification algorithm》中提出了一种基于蚁群优化的层次型分类算法。Salakhutdino等人在文献《Learning with hierarchical-deep models》中提出了一种用集成学习的方法对图像进行全局的层次分类。Kowsari等人在文献《Hdltex:Hierarchicaldeep learning for text classification》中提出了一种分层深度学习文本分类的框架,对类标签具有层次结构的文本进行分层分类。还有许多研究中利用了分层分类的思想,但分层分类过程没有考虑类标签本身的层次关系。
但是,层次型文本分类目前存在下述缺陷:
(1)现有技术存在分类错误叠加问题,即如果文本在上一层次分类错误,就不能在下一层被分为正确的类别。
(2)在类标签树型结构中,各层节点类标签可能不仅仅与父亲节点有关系,还可能与兄弟节点有关,现有技术没有打通各层次类标签节点之间的联系,导致最终各层次的分类准确率不高。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种层次型文本分类方法及系统,其可解决层次型文本分类问题中存在的错误叠加问题,根据文本类标签的树型结构,在分类模型构建中充分考虑节点与兄弟节点和父节点的联系,以及上下层之间分类结果的影响,得到准确率更高的分类结果。
本发明一方面,提供一种层次型文本分类方法,包括步骤:
根据文本类标签的树型层次结构,给文本类标签层次树中的类标签节点编号;在每个非叶节点上训练分类器,分类器输出初步预测类标签概率向量,向量元素代表该文本被分为每一个类标签的概率;然后利用文本类标签之间的联系,训练调整概率矩阵,调整概率矩阵中元素是类标签被调整为各个类标签的概率;通过训练得到的调整概率矩阵对文本类标签进行全局统筹修正,构建全局层次型文本分类模型。本发明打通了类标签层与层之间的联系,可以使文本类别预测错误率在每一层都有所减少,提高层次型文本分类的准确率。
具体的,所述层次型文本分类方法,包括步骤:
(1)训练阶段:针对训练集文本,对每一文本进行预处理,对预处理后的文本向量化,即将文本中的单词表示为向量形式,每个文本对应得到一词向量,所有训练集文本汇总得到文本向量集;
根据文本类标签的树型层次结构,给文本类标签层次树中的类标签节点编号;将文本向量集及其对应到各层类别的文本子集作为训练集,采用神经网络分别针对根节点以及根节点下面的非叶节点构建分类器,根节点对应的分类器类标签为根节点下一层(即第一层)中的孩子节点类标签,第k层节点对应的分类器类标签为第k+1层中的孩子节点类标签;分类器输出初步预测类标签概率向量,向量元素代表该文本被分为每一个类标签的概率;
利用文本真实类标签概率向量和所述初步预测类标签概率向量训练调整概率矩阵,所述调整概率矩阵中元素是类标签被调整为各个类标签的概率;
(2)分类阶段:针对待分类文本,对文本进行预处理,将预处理后的文本向量化,然后输入到上述训练好的分类器中,得到初步预测类标签概率向量;将初步预测类标签概率向量利用训练好的调整概率矩阵,按照公式(1)调整计算待分类文本为各个类标签的概率,最后根据概率确定待分类文本的类标签。
优选的,步骤(1)中,对每一文本进行预处理,预处理包括:针对中文文本的分词,去除标点符号,针对英文单词将大写字母转成小写,以及去停用词和低频率词。
优选的,步骤(1)中,采用word2vec训练词向量的软件工具,将文本中的单词表示为向量形式。
优选的,步骤(1)中,给文本类标签层次树中的类标签节点编号,根节点编号为0,其他节点编号为1,2,....l,其中,l是类标签的总数目。
优选的,步骤(1)中,采用卷积神经网络(CNN)分别针对根节点以及根节点下面的非叶节点构建分类器,分类器输出初步预测类标签向量为[f1,f2,...fl],其中fi表示训练文本为编号i节点所对应的类标签的概率。
优选的,利用文本真实类标签概率向量和初步预测类标签概率向量,采用神经网络的方法训练调整概率矩阵W,W为一个l×l的二维矩阵,l是文本类标签层次树中类标签总数目,wi,j代表编号i类标签被调整为编号j类标签的概率(1≤i≤l,1≤j≤l),神经网络的结构如下:
输入层:初步预测类标签概率向量元素f1,f2,...fl;
隐藏层:包含的单元数为l,隐含节点用z1,z2,...zl表示;
输入层节点与隐含层节点之间的参数wi,j即为调整概率矩阵W中的元素;
f1,f2,...fl经过调整概率矩阵调整得到z1,z2,...zl节点的输出值,接着通过softmax层把z1,z2,...zl节点的输出值转换为[0,1]区间的值,即最终输出层的预测值F1,F2,...,Fl;
采用梯度下降法用训练集中文本的真实类标签y1,y2,...,yl去学习调整概率矩阵W;
输出层的预测值Fi按照公式(1)计算:
其中:Relu为激活函数,如公式(2)所示:
softmax函数计算方法如公式(3)所示:
在公式(1)和(3)中:1≤i≤l,1≤j≤l。
本发明的另一方面,提供一种层次型文本分类系统,包括:
文本获取模块,用于获取训练集文本,以及待分类文本;
文本预处理模块,用于对获取的每一文本进行预处理;
文本向量化模块,用于对预处理后的文本向量化,将文本中的单词均表示为向量形式;
各层次分类器训练模块,获得的分类器用于初步预测文本类标签概率向量,向量元素代表该文本被分为每一个类标签的概率;所述各层次分类器训练是根据文本类标签的树型层次结构,给文本类标签层次树中的类标签节点编号;将训练文本向量集及其对应到各层类别的文本子集作为输入,采用神经网络分别针对根节点以及根节点下面的非叶节点构建分类器,根节点对应的分类器类标签为根节点下一层中的孩子节点类标签,第k层节点对应的分类器类标签为第k+1层中的孩子节点类标签;
调整概率矩阵训练模块,获得的调整概率矩阵用于对各层分类器预测的文本类标签进行全局统筹修正;所述调整概率矩阵训练是利用训练文本真实类标签概率向量和各层分类器预测的类标签概率向量,采用神经网络训练,获得调整概率矩阵,调整概率矩阵中元素是类标签被调整为各个类标签的概率;
分类模块,用于输出待分类文本为各个类标签的概率;所述分类模块将待分类文本向量元素输入到上述训练好的分类器中,得到初步预测类标签概率向量;将初步预测类标签概率向量,利用训练好的调整概率矩阵,调整计算待分类文本为各个类标签的概率,最后根据概率确定待分类文本的类标签。
与现有技术相比,本发明具有以下优点和技术效果:
(1)本发明对层次型文本分类模型中的类标签统一编号,引入了“调整概率矩阵”的概念,不仅考虑了不同层次之间的联系,还考虑了同一层次之间类标签之间的联系。
(2)本发明通过神经网络模型训练得到调整概率矩阵,利用它从全局的角度去调整各层次文本分类类别,使得上一层分类错误可以在下一层分类中纠正,使文本类别预测错误数目在每一层都有所减少,提高了层次型文本分类的准确率。
附图说明
图1是文本类标签层次型结构示例图。
图2是本实施例层次型文本分类方法的训练阶段流程图。
图3是本实施例层次型文本分类方法的分类阶段流程图。
图4是本实施例基于编号的类标签层次关系示意图。
图5是本实施例训练调整概率矩阵的神经网络结构图。
图6是采用本实施例方法在数据集WOS-46985建立的类标签层次关系示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
本实施例一种层次型文本分类方法,主要是根据图1所示的层次型结构,在每个非叶节点上训练分类器,然后利用文本类标签之间的联系,引进类标签之间的“调整概率矩阵”的概念,通过训练得到的调整概率矩阵对文本类标签进行全局统筹修正,构建全局层次型文本分类模型,从而得到更为准确的文本类标签。图2示出了本实施例层次型文本分类方法的训练阶段的流程,图3示出了本实施例层次型文本分类方法实际进行分类阶段的流程,下面结合附图,对上述两个阶段进行具体说明。
本实施例训练阶段主要包括获取训练集文本,对文本进行预处理,对文本进行向量化处理,构建各层次分类器,训练调整概率矩阵模型等几个步骤,具体的:
S1-1:获取训练集文本,给文本类标签层次树中的类标签节点编号,得到如图4所示的类标签层次关系。
本实施例中下载一个文本数据集WOS-46985(http://archive.ics.uci.edu/index.php),该数据集共包含141个类标签(编号为1~141),它们之间的层次关系为图6所示的树型结构,其中0表示为根节点,1-141表示层次性结构中各个节点类标签编号。
S1-2:针对上述文本数据集,对数据集中的每一文本进行数据预处理,这里所述的预处理包括但不限于:针对中文文本进行分词,去除标点符号,针对英文单词将大写字母转成小写,以及去停用词和低频率词。
S1-3:对预处理后的文本进行向量化表示,这里可采用谷歌公司提供的word2vec训练词向量的软件工具把每个单词转化为向量的形式,例如单词"evidence"被表示成一个300维的向量:[-2.71484375e-01,-9.96093750e-02,...,1.81640625e-01,-8.78906250e-02]。
S1-4:构建各层次分类器。
依据文本数据集WOS-46985中文本类标签本身具有的层次结构,训练非叶节点分类器模型,得到模型参数。利用TensorFlow系统实现编程,采用的卷积神经网络模型包含两层隐含层100个GRU神经元。将预处理后得到的文本向量集及其对应到各层类别的文本子集作为训练集,采用卷积神经网络分别针对根节点以及根节点下面的非叶节点构建分类器。根节点对应的分类器类标签为根节点下一层(即第一层)中的孩子节点类标签;第k层节点对应的分类器类标签为第k+1层中的孩子节点类标签。针对每一个训练文本会输出一个初步预测类标签概率向量[f1,f2,...fl],其中fi表示训练文本为编号i节点所对应的类标签的概率。如:[9.771689176559448242e-01,1.535164937376976013e-02,...,6.782025564461946487e-03],向量的维度为141,各向量元素分别代表该文本被分为每一个类标签的概率。
S1-5:训练调整概率矩阵。
本实施例采用神经网络的方法学习训练调整概率矩阵W,调整概率矩阵W为一个l×l的二维矩阵,其中,l是文本类标签层次树中类标签总数目,本实施例中为141,其中元素wi,j代表编号i类标签被调整为编号j类标签的概率。训练调整概率矩阵的神经网络结构如图5所示。
输入层:f1,f2,...fl为各层次分类器输出的初步预测类标签概率。
隐藏层:包含的单元数为l,隐含节点用z1,z2,...zl表示。
输入层节点与隐含层节点之间的参数wi,j(1≤i,j≤l)即为调整概率矩阵W中的元素。
f1,f2,...fl经过调整概率矩阵调整得到z1,z2,...zl节点的输出值,接着通过softmax层把z1,z2,...zl节点的输出值转换为[0,1]区间的值,即最终输出层的预测值F1,F2,...,Fl。采用梯度下降法用训练集中文本的真实类标签y1,y2,...,yl去学习“调整概率矩阵”W。
具体地,输出层的预测值Fi(1≤i≤l)按照公式(1)计算。
其中:Relu为激活函数,如公式(2)所示:
softmax函数计算方法如公式(3)所示:
在公式(1)和(3)中:1≤i,j≤l。
本实施例中,把步骤S1-4各层次分类器输出的初步预测类标签概率向量元素作为输入,以训练文本真实类标签向量(141维的向量)元素去训练调整概率矩阵W。例如:一个训练文本的真实类标签向量为[1,0,...,1,...,0,0],其中1表示该文本在如图6所示的对应节点的类标签为真。W是由如图5所示的神经网络训练得到的。该神经网络的设置:batchsize=128﹑学习率=0.001,最终得到的W为一个141×141的矩阵,具体形式如下所示:
得到上述调整概率矩阵后,即可在实际分类时对文本类标签进行全局统筹修正,进而提高分类的准确率。
本实施例分类阶段主要包括获取待分类文本,对文本进行预处理,对文本进行向量化处理,根据各层次分类器得到初步预测类标签概率向量,再利用调整概率矩阵得到最终的类标签,具体的:
S2-1:输入一个待分类的文本,例如:
There is increasing evidence to suggest both a symptomatic overlapand a clinically significant degree of co occurrence between Autism SpectrumDisorders and psychotic disorders such as schizophrenia but the nature ofsuch relationships remain unclear。
S2-2:对文本进行数据清洗,得到如下文本T:
increasing evidence suggest symptomatic overlap clinicallysignificant degree occurrence autism spectrum disorders psychotic disordersschizophrenia nature relationships remain unclear。
S2-3:对文本T中的所有单词进行向量化表示,如:单词"spectrum"被表示成一个300维的向量:[-0.06640625,-0.04077148,...,0.10253906]。
S2-4:利用步骤S1-4训练得到的各层次分类器,对文本T预测得到一个141维的类标签概率向量[f1,f2,...f141]:[6.559147499501705170e-03,1.102640554308891296e-01,...,1.918673515319824219e-02]。
S2-5:把步骤S2-4得到的预测结果通过上述已训练得到的调整概率矩阵W调整,按照公式(1)计算得到类标签概率向量[F1,F2,...,F141]:[1.865362150965665933e-06,3.758124709129333496e-01,...,1.551124034449458122e-03],根据该结果将各层类标签概率的最大值设为1﹑其他概率值设为0,最终得到的141维类标签向量:[0,0,0,0,0,1,0,...,1,...,0,0],其中:1表示步骤S2-1输入的待分类文本在图6所示的对应节点的类标签为真,类标签向量中只有第6位和126位数值为1,也就表示步骤S2-1输入的待分类文本的类型为图6中编号6节点和编号126节点所对应的类标签。
实施例2
本实施例提供一种层次型文本分类系统,包括:
文本获取模块,用于获取训练集文本,以及待分类文本;
文本预处理模块,用于对获取的每一文本进行预处理;
文本向量化模块,用于对预处理后的文本向量化,将文本中的单词均表示为向量形式;
各层次分类器训练模块,获得的分类器用于初步预测文本类标签概率向量,向量元素代表该文本被分为每一个类标签的概率;所述各层次分类器的构建方法是:根据文本类标签的树型层次结构,给文本类标签层次树中的类标签节点编号;将训练文本向量集及其对应到各层类别的文本子集作为输入,采用神经网络分别针对根节点以及根节点下面的非叶节点构建分类器,根节点对应的分类器类标签为根节点下一层中的孩子节点类标签,第k层节点对应的分类器类标签为第k+1层中的孩子节点类标签;
调整概率矩阵训练模块,获得的调整概率矩阵用于对各层分类器预测的文本类标签进行全局统筹修正;所述调整概率矩阵训练是利用训练文本真实类标签概率向量和各层分类器预测的类标签概率向量,采用神经网络训练,获得调整概率矩阵,调整概率矩阵中元素是类标签被调整为各个类标签的概率;
分类模块,用于输出待分类文本为各个类标签的概率;所述分类模块将待分类文本向量输入到上述训练好的分类器中,得到初步预测类标签概率向量;将初步预测类标签概率向量利用训练好的调整概率矩阵,调整计算待分类文本为各个类标签的概率,最后根据概率确定待分类文本的类标签。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的模块集合成一个模块,例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种层次型文本分类方法,其特征在于,包括步骤:
根据文本类标签的树型层次结构,给文本类标签层次树中的类标签节点编号;在每个非叶节点上训练分类器,分类器输出初步预测类标签概率向量,向量元素代表该文本被分为每一个类标签的概率;然后利用文本类标签之间的联系,训练调整概率矩阵,调整概率矩阵中元素是类标签被调整为各个类标签的概率;通过训练得到的调整概率矩阵对文本类标签进行全局统筹修正,构建全局层次型文本分类模型。
2.根据权利要求1所述的层次型文本分类方法,其特征在于,包括步骤:
(1)训练阶段:针对训练集文本,对每一文本进行预处理,对预处理后的文本向量化,即将文本中的单词表示为向量形式,每个文本对应得到一词向量,所有训练集文本汇总得到文本向量集;
根据文本类标签的树型层次结构,给文本类标签层次树中的类标签节点编号;将文本向量集及其对应到各层类别的文本子集作为训练集,采用神经网络分别针对根节点以及根节点下面的非叶节点构建分类器,根节点对应的分类器类标签为根节点下一层中的孩子节点类标签,第k层节点对应的分类器类标签为第k+1层中的孩子节点类标签;分类器输出初步预测类标签概率向量,向量元素代表该文本被分为每一个类标签的概率;
利用文本真实类标签概率向量和所述初步预测类标签概率向量训练调整概率矩阵,所述调整概率矩阵中元素是类标签被调整为各个类标签的概率;
(2)分类阶段:针对待分类文本,对文本进行预处理,将预处理后的文本向量化,然后输入到上述训练好的分类器中,得到初步预测类标签概率向量;将初步预测类标签概率向量利用训练好的调整概率矩阵,调整计算待分类文本为各个类标签的概率,最后根据概率确定待分类文本的类标签。
3.根据权利要求2所述的层次型文本分类方法,其特征在于,步骤(1)中,对每一文本进行预处理,预处理包括:针对中文文本的分词,去除标点符号,针对英文单词将大写字母转成小写,以及去停用词和低频率词。
4.根据权利要求2所述的层次型文本分类方法,其特征在于,步骤(1)中,采用word2vec训练词向量的软件工具,将文本中的单词表示为向量形式。
5.根据权利要求2所述的层次型文本分类方法,其特征在于,步骤(1)中,给文本类标签层次树中的类标签节点编号,根节点编号为0,其他节点编号为1,2,....l,其中,l是类标签的总数目。
6.根据权利要求2所述的层次型文本分类方法,其特征在于,步骤(1)中,采用卷积神经网络分别针对根节点以及根节点下面的非叶节点构建分类器,分类器输出初步预测类标签向量为[f1,f2,...fl],其中fi表示训练文本为编号i节点所对应的类标签的概率。
7.根据权利要求2所述的层次型文本分类方法,其特征在于,利用文本真实类标签概率向量和初步预测类标签概率向量,采用神经网络的方法训练调整概率矩阵W,W为一个l×l的二维矩阵,l是文本类标签层次树中类标签总数目,wi,j代表编号i类标签被调整为编号j类标签的概率,神经网络的结构如下:
输入层:初步预测类标签概率向量元素f1,f2,...fl;
隐藏层:包含的单元数为l,隐含节点用z1,z2,...zl表示;
输入层节点与隐含层节点之间的参数wi,j即为调整概率矩阵W中的元素;
f1,f2,...fl经过调整概率矩阵调整得到z1,z2,...zl节点的输出值,接着通过softmax层把z1,z2,...zl节点的输出值转换为[0,1]区间的值,即最终输出层的预测值F1,F2,...,Fl;
采用梯度下降法用训练集中文本的真实类标签y1,y2,...,yl去学习调整概率矩阵W;
输出层的预测值Fi按照公式(1)计算:
其中:Relu为激活函数,如公式(2)所示:
softmax函数计算方法如公式(3)所示:
在公式(1)和(3)中:1≤i≤l,1≤j≤l。
8.一种层次型文本分类系统,其特征在于,包括:
文本获取模块,用于获取训练集文本,以及待分类文本;
文本预处理模块,用于对获取的每一文本进行预处理;
文本向量化模块,用于对预处理后的文本向量化,将文本中的单词均表示为向量形式;
各层次分类器训练模块,获得的分类器用于初步预测文本类标签概率向量,向量元素代表该文本被分为每一个类标签的概率;所述各层次分类器训练是根据文本类标签的树型层次结构,给文本类标签层次树中的类标签节点编号;将训练文本向量集及其对应到各层类别的文本子集作为输入,采用神经网络分别针对根节点以及根节点下面的非叶节点构建分类器,根节点对应的分类器类标签为根节点下一层中的孩子节点类标签,第k层节点对应的分类器类标签为第k+1层中的孩子节点类标签;
调整概率矩阵训练模块,获得的调整概率矩阵用于对各层分类器预测的文本类标签进行全局统筹修正;所述调整概率矩阵训练是利用训练文本真实类标签概率向量和各层分类器预测的类标签概率向量,采用神经网络训练,获得调整概率矩阵,调整概率矩阵中元素是类标签被调整为各个类标签的概率;
分类模块,用于输出待分类文本为各个类标签的概率;所述分类模块将待分类文本向量元素输入到上述训练好的分类器中,得到初步预测类标签概率向量;将初步预测类标签概率向量,利用训练好的调整概率矩阵,调整计算待分类文本为各个类标签的概率,最后根据概率确定待分类文本的类标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910767580.XA CN110543563B (zh) | 2019-08-20 | 2019-08-20 | 一种层次型文本分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910767580.XA CN110543563B (zh) | 2019-08-20 | 2019-08-20 | 一种层次型文本分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110543563A true CN110543563A (zh) | 2019-12-06 |
CN110543563B CN110543563B (zh) | 2022-03-08 |
Family
ID=68711708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910767580.XA Expired - Fee Related CN110543563B (zh) | 2019-08-20 | 2019-08-20 | 一种层次型文本分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110543563B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112015898A (zh) * | 2020-08-28 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 基于标签树的模型训练、文本标签确定方法及装置 |
CN112052356A (zh) * | 2020-08-14 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 多媒体分类方法、装置和计算机可读存储介质 |
CN112182214A (zh) * | 2020-09-27 | 2021-01-05 | 中国建设银行股份有限公司 | 一种数据分类方法、装置、设备及介质 |
CN112328798A (zh) * | 2020-11-27 | 2021-02-05 | 中国银联股份有限公司 | 文本分类方法以及装置 |
CN112541055A (zh) * | 2020-12-17 | 2021-03-23 | 中国银联股份有限公司 | 一种确定文本标签的方法及装置 |
CN113592031A (zh) * | 2021-08-17 | 2021-11-02 | 全球能源互联网研究院有限公司 | 一种图像分类系统、违章工具识别方法及装置 |
WO2022105123A1 (zh) * | 2020-11-19 | 2022-05-27 | 平安科技(深圳)有限公司 | 文本分类的方法、话题生成的方法、装置、设备及介质 |
CN116304845A (zh) * | 2023-05-23 | 2023-06-23 | 云筑信息科技(成都)有限公司 | 一种建筑物料的层次分类识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108564166A (zh) * | 2018-03-22 | 2018-09-21 | 南京大学 | 基于带对称跨层连接的卷积神经网络半监督特征学习方法 |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN109446331A (zh) * | 2018-12-07 | 2019-03-08 | 华中科技大学 | 一种文本情绪分类模型建立方法及文本情绪分类方法 |
CN109446414A (zh) * | 2018-09-28 | 2019-03-08 | 武汉大学 | 一种基于神经网络分类的软件信息站点快速标签推荐方法 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
-
2019
- 2019-08-20 CN CN201910767580.XA patent/CN110543563B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108564166A (zh) * | 2018-03-22 | 2018-09-21 | 南京大学 | 基于带对称跨层连接的卷积神经网络半监督特征学习方法 |
CN109446414A (zh) * | 2018-09-28 | 2019-03-08 | 武汉大学 | 一种基于神经网络分类的软件信息站点快速标签推荐方法 |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN109446331A (zh) * | 2018-12-07 | 2019-03-08 | 华中科技大学 | 一种文本情绪分类模型建立方法及文本情绪分类方法 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
Non-Patent Citations (4)
Title |
---|
张国豪 刘波: ""采用CNN和Bidirectional GRU的时间序列分类研究"", 《计算机科学与探索》 * |
张敬谊 等: ""基于词向量特征的文本分类模型研究"", 《信息技术与标准化》 * |
王兴: ""基于深度学习的语义关系分类研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
石正新: ""网络新闻热点话题检测分析与趋势研究"", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052356A (zh) * | 2020-08-14 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 多媒体分类方法、装置和计算机可读存储介质 |
CN112052356B (zh) * | 2020-08-14 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 多媒体分类方法、装置和计算机可读存储介质 |
CN112015898A (zh) * | 2020-08-28 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 基于标签树的模型训练、文本标签确定方法及装置 |
CN112015898B (zh) * | 2020-08-28 | 2023-11-21 | 支付宝(杭州)信息技术有限公司 | 基于标签树的模型训练、文本标签确定方法及装置 |
CN112182214A (zh) * | 2020-09-27 | 2021-01-05 | 中国建设银行股份有限公司 | 一种数据分类方法、装置、设备及介质 |
CN112182214B (zh) * | 2020-09-27 | 2024-03-19 | 中国建设银行股份有限公司 | 一种数据分类方法、装置、设备及介质 |
WO2022105123A1 (zh) * | 2020-11-19 | 2022-05-27 | 平安科技(深圳)有限公司 | 文本分类的方法、话题生成的方法、装置、设备及介质 |
CN112328798A (zh) * | 2020-11-27 | 2021-02-05 | 中国银联股份有限公司 | 文本分类方法以及装置 |
CN112541055A (zh) * | 2020-12-17 | 2021-03-23 | 中国银联股份有限公司 | 一种确定文本标签的方法及装置 |
CN113592031A (zh) * | 2021-08-17 | 2021-11-02 | 全球能源互联网研究院有限公司 | 一种图像分类系统、违章工具识别方法及装置 |
CN113592031B (zh) * | 2021-08-17 | 2023-11-28 | 全球能源互联网研究院有限公司 | 一种图像分类系统、违章工具识别方法及装置 |
CN116304845A (zh) * | 2023-05-23 | 2023-06-23 | 云筑信息科技(成都)有限公司 | 一种建筑物料的层次分类识别方法 |
CN116304845B (zh) * | 2023-05-23 | 2023-08-18 | 云筑信息科技(成都)有限公司 | 一种建筑物料的层次分类识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110543563B (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110543563B (zh) | 一种层次型文本分类方法及系统 | |
US9990687B1 (en) | Systems and methods for fast and repeatable embedding of high-dimensional data objects using deep learning with power efficient GPU and FPGA-based processing platforms | |
Lu et al. | DeepXDE: A deep learning library for solving differential equations | |
CN109002845B (zh) | 基于深度卷积神经网络的细粒度图像分类方法 | |
CN111753081B (zh) | 基于深度skip-gram网络的文本分类的系统和方法 | |
CN103838836B (zh) | 基于判别式多模态深度置信网多模态数据融合方法和系统 | |
CN109948149B (zh) | 一种文本分类方法及装置 | |
Yan et al. | Unsupervised and semi‐supervised learning: The next frontier in machine learning for plant systems biology | |
CN107220506A (zh) | 基于深度卷积神经网络的乳腺癌风险评估分析系统 | |
CN109492099A (zh) | 一种基于领域对抗自适应的跨领域文本情感分类方法 | |
CN107220180B (zh) | 一种基于神经网络语言模型的代码分类方法 | |
CN105701507A (zh) | 基于动态随机池化卷积神经网络的图像分类方法 | |
CN110633467B (zh) | 一种基于改进特征融合的语义关系抽取方法 | |
CN104881685B (zh) | 基于捷径深度神经网络的视频分类方法 | |
CN112256867B (zh) | 文本分类模型的训练方法、系统及相关设备 | |
CN102929894A (zh) | 一种文本在线聚类可视化方法 | |
Ma et al. | Multi-feature fusion deep networks | |
CN110909125B (zh) | 推文级社会媒体谣言检测方法 | |
CN107832458A (zh) | 一种字符级的基于嵌套深度网络的文本分类方法 | |
CN115661550B (zh) | 基于生成对抗网络的图数据类别不平衡分类方法及装置 | |
Wu et al. | Optimized deep learning framework for water distribution data-driven modeling | |
CN116643989A (zh) | 一种采用图结构进行深层语义理解的缺陷预测方法 | |
CN111400494A (zh) | 一种基于GCN-Attention的情感分析方法 | |
WO2020064182A1 (en) | Recurrent neural networks and state machines | |
Qi et al. | Patent analytic citation-based vsm: Challenges and applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220308 |