CN107451278A - 基于多隐层极限学习机的中文文本分类方法 - Google Patents
基于多隐层极限学习机的中文文本分类方法 Download PDFInfo
- Publication number
- CN107451278A CN107451278A CN201710665695.9A CN201710665695A CN107451278A CN 107451278 A CN107451278 A CN 107451278A CN 201710665695 A CN201710665695 A CN 201710665695A CN 107451278 A CN107451278 A CN 107451278A
- Authority
- CN
- China
- Prior art keywords
- text
- extreme learning
- hidden layer
- layer
- learning machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于多隐层极限学习机的中文文本分类方法,将正则化极限学习机模型应用到中文文本分类问题中,使用多隐层极限学习机模型对文本进行分类。使用复旦大学中文语料库作为文本分类的训练集和测试集;对文本数据进行预处理等操作,包括:统一编码方式、切词和去除停用词、符号、数字等;使用空间向量模型对文本进行表示,将数据集转换成文本矩阵;使用多隐层极限学习机对文本进行分类,其中包括文本降维、特征映射和文本分类。文本降维:将高维文本数据转换成可以进行计算的低维文本数据。使用多隐层极限学习机的多隐层结果对文本的特征进行映射,进行高层特征表示。使用多隐层极限学习机中的正则化极限学习机对文本进行分类。
Description
技术领域
本发明是属于自然语言处理领域,是通过多隐层极限学习机模型对中文文本数据进行分类的方法。
背景技术
随着现代科学技术的发展,人类知识的增长速度逐年加快,信息倍增的周期也越来越短,人类在近几十年生产的信息已经超过了过去几千年的信息总和。面对如此巨大的信息量,如何快速、准确、全面地定位到人们所需要的信息成为了一个新的挑战。在此之前,人们釆用人工的方法对文本进行分类,即安排专业人员根据内容把文本划分到一个或若干个类别中,这种人工方式的文本分类方法比较准确,但是耗费大量的人力和物力,而且时间成本很大。因此,迫切地需要提高海量信息的自动组织和管理能力,能够快速、准确、全面地找到所需要的信息。自动文本分类方法作为处理和组织大量的文本数据的关键技术,能将大量的文本自动分类,可以在较大程度上解决信息杂乱的问题,方便用户准确地定位需要的信息。
目前将文本自动分类的方法主要分为两种:第一种是采用知识工程的文本分类方法,第二种是基于统计和机器学习的文本分类方法。采用知识工程的文本分类方法,即利用专家制定的规则进行分类。它通过专家手工编写分类规则,然后通过对分类规则的组合形成分类系统。这种分类方法不仅需要大量的人力和物力而且制定的规则只适用于具体的问题。其中最著名的是卡内基集团为路透社开放的Construe系统,这个系统能够自动地对路透社成千上万篇文章进行自动分类。基于统计和机器学习的方法,它是依据统计学的知识和定律,建立相对应的数据模型对文本进行分类。它在实践的过程中取得了很好的效果,并逐渐取代知识工程的文本分类方法。目前大量的基于统计和机器学习的文本分类方法应用到了文本分类中,例如:支持向量机模型(SupportVector Machine,VSM)、朴素贝叶斯模型(Naive Bayes,NB)、K近邻模型(K-NearestNeigh,KNN)、正则化极限学习机模型(RegularExtreme Learning Machine,RELM)和深度信念网模型(Deep BeliefNetwork,DBN)等。
目前,基于统计和机器学习的方法在文本分类问题中有着广泛的应用并且取得不错的效果,但是其中也存在着一些缺陷。例如:支持向量机模型在文本分类的过程中需要学习大量的参数。而且支持向量机起源于二分类问题,将其扩展到文本分类的多分类问题中,分类的时间就是大大的增加。朴素贝叶斯模型在文本分类的过程中对特征的选择十分敏感,非常依赖特征选择的好坏。K近邻模型在选择阈值参数时非常地困难,阈值参数的选择对分类结果影响非常明显。正则化极限学习机模型是一种单隐藏层前馈神经网络,具有学习速度快、泛化能力好的优点。但是当文本的维数过高时,文本分类的性能会受到影响。以上的几种分类模型都属于传统机器学习模型,都属于浅层机器学习模型。对高维文本数据进行表示时会受到限制,会出现语义缺失等问题,从而会影响文本分类的性能。深度信念网模型属于深层机器学习模型,它通过对文本数据的高层特征表示,可以对文本数据能够进行更加本质的刻画。但是在其学习的过程中需要学习大量参数,具有训练速度慢的缺点,而且在分类过程中容易出现过拟合的现象。本发明采用的是使用多隐层极限(Multi-LayerExtreme Learning Machine,ML-ELM)学习机模型作为分类器对文本进行分类,克服了浅层学习模型中对文本数据表示能力不足的限制,并且相对于深度信念模型具有学习速度快的优点。
发明内容
针对正则化极限学习机模型对中文文本数据表示能力不足的问题,本发明提出了一种将多隐层极限学习机模型应用到中文文本分类问题的方法。本发明充分利用了多隐层极限学习机模型的优势,通过多隐层极限学习机多隐层的结构对文本数据进行高层特征表示,提高中文文本分类的准确率。并且通过多隐层极限学习机中极限学习机自编码器(Extreme Learning MachineAuto-Encoder,ELM-AE)对高维数据进行降维,来解决高维中文文本数据的分类问题。
本发明提出了一种多隐层极限学习机的文本分类方法。用的技术方案为基于多隐层极限学习机的中文文本分类方法,该方法首先对语料库进行预处理。然后选用中文语料库中的词作为文本特征,进行文本特征单元的构造。选用空间向量模型(Vector SpaceModel,VSM)作为文本的表示模型,使用TF-IDF计算特征权值,并进行特征选择。接下来使用多隐层极限学习机模型对文本进行分类,分类包括极限学习机自编码器对文本进行降维、多隐层结构对文本进行映射和对文本进行分类。
基于多隐层极限学习机的文本分类方法包括以下步骤:
步骤一:数据预处理
选用中文语料库作为数据集,在进行文本分类之前,需要对中文语料库数据集的文本进行一系列预处理操作。首先为了正常显示以及进行后续处理,需要将不同编码方式的中文文本的编码方式统一为utf-8格式;然后使用jieba分词工具对中文文本进行分词,将句子分割成单独的词;在中文文本中存在着许多没有具体含义的停用词进行去除,并且去除中文的符号和英文的字符。
步骤二:中文文本表示
中文文本数据经过预处理后会将文本变成单独的词,因此选用词作为中文文本的基本特征,进行中文文本特征单元的构造。然后选用空间向量模型即词袋模型作为文本的表示模型,使用TF-IDF作为空间向量模型中的权重。
步骤三:ML-ELM文本分类
多隐层极限学习机文本分类可以分成三个小步骤完成,包括文本进行文本降维、特征映射和文本分类。
文本降维:因为文本数据的维数较高,所以经常需要降维处理。多隐层极限学习机通过减少多隐层极限学习机中第一个极限学习机自编码器隐藏层节点的个数,通过压缩表达的方式对文本数据进行表示,以达到降维的目的。
特征映射:然后使用多隐层极限学习机的多隐层结构对文本进行高层特征表示,提取出更高层次特征,对文本进行更好表示。
文本分类:文本数据在经过降维和特征表示之后,将使用正则化极限学习机的方法对文本进行分类,分类的结果则是文本的类别。
与现有技术相比,本发明具有以下明显的优势和有益效果:
(1)本发明通过多隐层极限学习机模型对中文文本进行分类,相比于正则化极限学习机模型,可以对文本进行高层特征表示,提高中文文本分类的准确率。
(2)本发明可以使用多隐层极限学习机中的极限学习机自编码器对文本数据进行降维,相比于其他的分类模型,多隐层极限学习机模型不仅适用于低维文本数据,对高维文本数据同样适用。
(3)本发明与其他的深层机器学习模型相比,具有更快的学习速度和泛化能力。
附图说明
图1文本分类流程图。
图2多隐层极限学习机示意图。
图3极限学习机自编码器示意图。
图4为本发明方法的实施流程图。
具体实施方式
下面通过复旦大学中文语料库数据以及附图1-4来阐述本发明的具体实施方式和详细步骤:
步骤一:数据预处理
复旦大学中文语料库数据集分由训练样本和测试样本两部分组成。训练样本:9805篇,测试样本:9833篇,分类结果为20个不同的文本类别。在进行处理之前需要将语料库中的所有文本的格式都转换成utf-8的格式。在转换格式之后,首先使用jieba分词工具下的全模式分词方式对训练样本和测试样本进行切词的处理,将文章的句子切分成一个个的短语和词。然后需要使用正则表达式对文本数据进行“去噪”处理,包括去除文本中的标点符号、数字字符和英文字符等。因为在中文文本中含有许多没有具体含义的停用词,所以使用中文文本的停用词库,将训练样本和测试样本中的停用词进行处理。文本在经过以上的处理后,选取5000个最常用的词作为表示训练样本和测试样本的文本特征。
步骤二:文本表示
在经过数据预处理后的中文文本数据都是由词构成的,所以使用词作为中文文本的基本特征。选择使用向量空间模型(Vector Space Model,VSM)对本文进行表示,空间向量模型也被称作词袋模型(Bag ofWords,BOW),是一种最常用的文本表示模型。在这一模型中,一篇文档将被表示为一个特征向量,向量的维数代表了特征的个数,也就是词的个数。对词袋模型进行如下数学描述:N个样本{xi,yi},i=1……N,其中xi、yi分别代表了第i个输入文档和输出类别。对第i篇文档xi={t1,w1;t2,w2;…;tk,wk;},tk代表某一特征项(词),wk代表对应特征的权重,k代表特征词的个数。第i篇文档用特征空间中的一个向量(w1,w2,…wk)来进行表示。将很多篇文档将组成一个二维矩阵,二维矩阵的维数分别代表了数据集中文档的数量和文档特征的数量。空间向量模型的权重wk将使用TF-IDF来进行表示,用来表示不同文本之间的语义性差异。TF-IDF是由项频TF与逆文档频率IDF两部分组成。项频TF是使用特征词在文本中出现次数除以文本的总词数,假设num(tk)为特征项tk在文档xi中出现的次数,count(xi)是文档xi中的总词数,tk的项频表示为:逆文档频率定义如下,N是训练集中文档的个数,df(tk)是训练集中包含特征项tk的文档数,tk的逆文档频率指数表示为:将项频与逆文档频率指数结合在一起,得到了以下公式:tfidf(tk,xi)=tf(tk,xi)×idf(tk)。通过TF-IDF表达不同文本的特征,从而区分不同文本之间语义性的差异。
步骤三:ML-ELM文本分类
在经过上一步的文本表示之后,需要用多隐层极限学习机对中文文本进行分类。多隐层极限学习机模型如图2所示,多隐层极限学习机模型由多个极限学习机自编码器堆叠而成,是一个具有多个隐藏层的神经网络。极限学习机自编码器的模型如图3所示,极限学习机自编码器的模型是单隐层前馈神经网络,输入层和输出层节点个数相同。根据隐藏层节点个数m和输入层、输出层节点个数n之间的关系,极限学习机自编码器分为三种不同的表达方式。压缩表达的方式m<n:表示将特征从高维空间转换到低维空间。稀疏表达的方式m>n:表示将特征从低维空间转换到高维空间。等维表达的方式m=n:表示不改变特征空间的维度,只提炼出更高效的特征表示。为了解决高维文本数据维数过高的问题,将通过极限学习机自编码器压缩表达的方式将高维文本数据转换为低维文本数据。因此减少多隐层极限学习机中第一个极限学习机自编码器隐藏层节点的个数,使多隐层极限学习机中的极限学习机自编码器能够用奇异值的方式对特征进行表达,来达到降维目的。
根据深度学习的思想,多隐层的神经网络将会提取出更高层次的特征,对数据能够进行更加本质的刻画。多隐层极限学习机为了解决正则化极限学习机表达能力受限的问题。将中文文本数据进行降维处理之后,将逐层增加多隐层极限学习机隐藏层节点的个数,增加模型的表示能力。多隐层极限学习机每一层的权值都通过极限学习机自编码器得到的,通过计算得到的权值并赋值给多隐层极限学习机中的每一层。其中多隐层极限学习机模型中各隐藏层之间的关系表示为:Hj+1=g((βj+1)THj),Hj为多隐层极限学习机第j个隐藏层,βj+1为第j和j+1个隐藏层之间的权值矩阵,g(x)为激活函数。多隐层极限学习机最后一层隐藏层的权值将通过正则化极限学习机的方法直接进行计算。
模型训练过程中的具体执行过程:输入为训练样本{xi,yi},i=1……N,xi∈R,yi∈R,其中xi为第i个中文文本数据,yi为对应第i个文本的类别。输出为各隐藏层节点的输出矩阵β。首先需要设置多隐层极限学习机模型的网络结构,包括隐藏层层数j=1……K、每一个隐藏层节点个数L和激活函数g(x),第一个隐藏层节点个数L1需要小于输入层节点个数n,也就是小于文本数据中特征词的个数。并且设置每一个极限学习机自编码的网络结构,保证神经网络的输入和输出相等。设置极限学习机自编码器隐藏层节点参数:权值a∈R,阈值b∈R,满足条正交件aTa=I,bTb=1。然后根据公式h=g(a*X+b)计算第一个极限自编码器隐藏层的输出矩阵H={h1,h2,…,hi}T。因为多隐层极限学习机中的第一个极限学习机自编码器需要对数据进行降维,所以使用压缩表达方式取得隐藏层和输出层之间的权值矩阵(C为正则化系数,X=[x1,x2,…,xN]T)。极限学习机自编码器通过奇异值分解的方式对特征进行压缩表示,经过奇异值分解后得到其中ui是HHT的特征向量,d是H的奇异值。H是被X投射的特征空间,极限学习机自编码器的输出权值β会通过奇异值去表达输入数据的特征,使其通过无监督学习的方式对特征进行选择。虽然特征空间在经过投射后维数会减少,但是也能对原有的信息进行表达,从而达到降维效果。
同时根据公式H1=g((β1)TX)计算多隐层极限学习机第一层的输出矩阵H1,作为下一个ELM-AE的输入。接下来将通过多隐层的结构对文本数据进行表示。当2≤j≤K-1(j:隐藏层层数)时循环执行以下的步骤来计算第j层隐层输出矩阵βj。根据公式h=g(a*Hn-1+b)计算得到当前极限学习机自编码器隐藏层的输出矩阵H,然后根据公式计算得到输出权值β。最后根据公式Hj+1=g((βj+1)THj)计算第j+1层输出矩阵,并作为第j+1个极限学习机自编码器的输入。
中文文本数据在进过降维和文本高维映射之后,将使用正则化极限学习机的方式直接求取多隐层极限学习机的最后一个隐藏层和输出层之间的矩阵。根据公式取得矩阵β;
步骤三总结的方法如下:
输入:训练样本{xi,yi},i=1……N,xi∈R,yi∈R
输出:各隐藏层节点的输出矩阵β
1)设置ML-ELM的网络结构,包括每层隐藏层层数j=1……K、每一个隐藏层节点个数L和激活函数g(x),其中第一个隐藏层节点个数L1小于输入层节点个数n。
2)设置ELM-AE的网络结构,保证输入和输出相等。并随机设置其隐藏层节点参数:权值a∈R,阈值b∈R,aTa=I,bTb=1。
3)根据公式h=g(a1*X+b1)计算第一个ELM-AE隐藏层的输出矩阵H={h1,h2,…,hi}T。
4)根据公式计算得到第一个ELM-AE输出权值β1。
5)根据公式H1=g((β1)TX)计算ML-ELM第一层的输出矩阵H1,作为下一个ELM-AE的输入。
6)当2≤j≤K-1时循环执行以下7)8)9)三步计算第j层隐层输出矩阵βj。
7)根据公式h=g(a*Hn-1+b)计算ELM-AE隐藏层的输出矩阵H。
8)根据公式计算得到ELM-AE输出权值β。
9)根据公式Hj+1=g((βj+1)THj)计算ML-ELM的输出矩阵,作为下一个ELM-AE的输入。
10)当j=K时,根据公式β=H+Y计算输出层和最后一个隐藏层之间的权值矩阵β,其中H+为H的广义逆矩阵。
实验
在复旦大学中文语料库数据集上进行测试,与支持向量机、朴素贝叶斯、K近邻、正则化极限学习机和深度信念网等算法网进行比较。语料库数据集中的训练集和测试集的类别情况如下表所示:
实验中,选择每种算法最优的参数进行实验,进行十次实验,取其平均值,得到实验结果如下表所示
从实验结果可以看出,使用多隐层极限学习机模型对中文文本进行分类取得了不错的效果,在测试集上的准确率仅次于深度信念网模型,但是其训练的时间要明显低于深度信念网。多隐层极限学习机模型在增加隐藏层节点的层数之后,准确率要明显高于单隐层的正则化极限学习机。可以看出多隐层极限学习机在进行中文文本分类时,是一种比较均衡的分类器模型,它不仅在训练时间上花费较少,而且分类的效果也很好。因此多隐层极限学习机模型可以广泛的应用到中文文本分类中。
Claims (3)
1.基于多隐层极限学习机的中文文本分类方法,其特征在于:该方法包括以下步骤:
步骤一:数据预处理
选用中文语料库作为数据集,在进行文本分类之前,需要对中文语料库数据集的文本进行一系列预处理操作;首先为了正常显示以及进行后续处理,需要将不同编码方式的中文文本的编码方式统一为utf-8格式;然后使用jieba分词工具对中文文本进行分词,将句子分割成单独的词;在中文文本中存在着许多没有具体含义的停用词进行去除,并且去除中文的符号和英文的字符;
步骤二:中文文本表示
中文文本数据经过预处理后会将文本变成单独的词,因此选用词作为中文文本的基本特征,进行中文文本特征单元的构造;然后选用空间向量模型即词袋模型作为文本的表示模型,使用TF-IDF作为空间向量模型中的权重;
步骤三:ML-ELM文本分类
多隐层极限学习机文本分类可以分成三个小步骤完成,包括文本进行文本降维、特征映射和文本分类;
文本降维:因为文本数据的维数较高,所以经常需要降维处理;多隐层极限学习机通过减少多隐层极限学习机中第一个极限学习机自编码器隐藏层节点的个数,通过压缩表达的方式对文本数据进行表示,以达到降维的目的;
特征映射:然后使用多隐层极限学习机的多隐层结构对文本进行高层特征表示,提取出更高层次特征,对文本进行更好表示;
文本分类:文本数据在经过降维和特征表示之后,将使用正则化极限学习机的方法对文本进行分类,分类的结果则是文本的类别。
2.根据权利要求1所述的基于多隐层极限学习机的中文文本分类方法,其特征在于:步骤一:数据预处理
复旦大学中文语料库数据集分由训练样本和测试样本两部分组成;训练样本:9805篇,测试样本:9833篇,分类结果为20个不同的文本类别;在进行处理之前需要将语料库中的所有文本的格式都转换成utf-8的格式;在转换格式之后,首先使用jieba分词工具下的全模式分词方式对训练样本和测试样本进行切词的处理,将文章的句子切分成一个个的短语和词;然后需要使用正则表达式对文本数据进行“去噪”处理,包括去除文本中的标点符号、数字字符和英文字符等;因为在中文文本中含有许多没有具体含义的停用词,所以使用中文文本的停用词库,将训练样本和测试样本中的停用词进行处理;文本在经过以上的处理后,选取5000个最常用的词作为表示训练样本和测试样本的文本特征;
步骤二:文本表示
在经过数据预处理后的中文文本数据都是由词构成的,所以使用词作为中文文本的基本特征;选择使用向量空间模型对本文进行表示,空间向量模型也被称作词袋模型,是一种最常用的文本表示模型;在这一模型中,一篇文档将被表示为一个特征向量,向量的维数代表了特征的个数,也就是词的个数;对词袋模型进行如下数学描述:N个样本{xi,yi},i=1……N,其中xi、yi分别代表了第i个输入文档和输出类别;对第i篇文档xi={t1,w1;t2,w2;…;tk,wk;},tk代表某一特征项或词,wk代表对应特征的权重,k代表特征词的个数;第i篇文档用特征空间中的一个向量(w1,w2,…wk)来进行表示;将很多篇文档将组成一个二维矩阵,二维矩阵的维数分别代表了数据集中文档的数量和文档特征的数量;空间向量模型的权重wk将使用TF-IDF来进行表示,用来表示不同文本之间的语义性差异;TF-IDF是由项频TF与逆文档频率IDF两部分组成;项频TF是使用特征词在文本中出现次数除以文本的总词数,假设num(tk)为特征项tk在文档xi中出现的次数,count(xi)是文档xi中的总词数,tk的项频表示为:逆文档频率定义如下,N是训练集中文档的个数,df(tk)是训练集中包含特征项tk的文档数,tk的逆文档频率指数表示为:将项频与逆文档频率指数结合在一起,得到了以下公式:tfidf(tk,xi)=tf(tk,xi)×idf(tk);通过TF-IDF表达不同文本的特征,从而区分不同文本之间语义性的差异;
步骤三:ML-ELM文本分类
在经过上一步的文本表示之后,需要用多隐层极限学习机对中文文本进行分类;多隐层极限学习机模型由多个极限学习机自编码器堆叠而成,是一个具有多个隐藏层的神经网络;极限学习机自编码器的模型是单隐层前馈神经网络,输入层和输出层节点个数相同;根据隐藏层节点个数m和输入层、输出层节点个数n之间的关系,极限学习机自编码器分为三种不同的表达方式;压缩表达的方式m<n:表示将特征从高维空间转换到低维空间;稀疏表达的方式m>n:表示将特征从低维空间转换到高维空间;等维表达的方式m=n:表示不改变特征空间的维度,只提炼出更高效的特征表示;为了解决高维文本数据维数过高的问题,将通过极限学习机自编码器压缩表达的方式将高维文本数据转换为低维文本数据;因此减少多隐层极限学习机中第一个极限学习机自编码器隐藏层节点的个数,使多隐层极限学习机中的极限学习机自编码器能够用奇异值的方式对特征进行表达,来达到降维目的;
根据深度学习的思想,多隐层的神经网络将会提取出更高层次的特征,对数据能够进行更加本质的刻画;多隐层极限学习机为了解决正则化极限学习机表达能力受限的问题;将中文文本数据进行降维处理之后,将逐层增加多隐层极限学习机隐藏层节点的个数,增加模型的表示能力;多隐层极限学习机每一层的权值都通过极限学习机自编码器得到的,通过计算得到的权值并赋值给多隐层极限学习机中的每一层;其中多隐层极限学习机模型中各隐藏层之间的关系表示为:Hj+1=g((βj+1)THj),Hj为多隐层极限学习机第j个隐藏层,βj+1为第j和j+1个隐藏层之间的权值矩阵,g(x)为激活函数;多隐层极限学习机最后一层隐藏层的权值将通过正则化极限学习机的方法直接进行计算;
模型训练过程中的具体执行过程:输入为训练样本{xi,yi},i=1……N,xi∈R,yi∈R,其中xi为第i个中文文本数据,yi为对应第i个文本的类别;输出为各隐藏层节点的输出矩阵β;首先需要设置多隐层极限学习机模型的网络结构,包括隐藏层层数j=1……K、每一个隐藏层节点个数L和激活函数g(x),第一个隐藏层节点个数L1需要小于输入层节点个数n,也就是小于文本数据中特征词的个数;并且设置每一个极限学习机自编码的网络结构,保证神经网络的输入和输出相等;设置极限学习机自编码器隐藏层节点参数:权值a∈R,阈值b∈R,满足条正交件aTa=I,bTb=1;然后根据公式h=g(a*X+b)计算第一个极限自编码器隐藏层的输出矩阵H={h1,h2,…,hi}T;因为多隐层极限学习机中的第一个极限学习机自编码器需要对数据进行降维,所以使用压缩表达方式取得隐藏层和输出层之间的权值矩阵(C为正则化系数,X=[x1,x2,…,xN]T);极限学习机自编码器通过奇异值分解的方式对特征进行压缩表示,经过奇异值分解后得到其中ui是HHT的特征向量,d是H的奇异值;H是被X投射的特征空间,极限学习机自编码器的输出权值β会通过奇异值去表达输入数据的特征,使其通过无监督学习的方式对特征进行选择;虽然特征空间在经过投射后维数会减少,但是也能对原有的信息进行表达,从而达到降维效果;
同时根据公式H1=g((β1)TX)计算多隐层极限学习机第一层的输出矩阵H1,作为下一个ELM-AE的输入;接下来将通过多隐层的结构对文本数据进行表示;当2≤j≤K-1(j:隐藏层层数)时循环执行以下的步骤来计算第j层隐层输出矩阵βj;根据公式h=g(a*Hn-1+b)计算得到当前极限学习机自编码器隐藏层的输出矩阵H,然后根据公式计算得到输出权值β;最后根据公式Hj+1=g((βj+1)THj)计算第j+1层输出矩阵,并作为第j+1个极限学习机自编码器的输入;
中文文本数据在进过降维和文本高维映射之后,将使用正则化极限学习机的方式直接求取多隐层极限学习机的最后一个隐藏层和输出层之间的矩阵;根据公式取得矩阵β。
3.根据权利要求2所述的基于多隐层极限学习机的中文文本分类方法,其特征在于:步骤三总结的方法如下:
输入:训练样本{xi,yi},i=1……N,xi∈R,yi∈R
输出:各隐藏层节点的输出矩阵β
1)设置ML-ELM的网络结构,包括每层隐藏层层数j=1……K、每一个隐藏层节点个数L和激活函数g(x),其中第一个隐藏层节点个数L1小于输入层节点个数n;
2)设置ELM-AE的网络结构,保证输入和输出相等;并随机设置其隐藏层节点参数:权值a∈R,阈值b∈R,aTa=I,bTb=1;
3)根据公式h=g(α1*X+b1)计算第一个ELM-AE隐藏层的输出矩阵H={h1,h2,…,hi}T;
4)根据公式计算得到第一个ELM-AE输出权值β1;
5)根据公式H1=g((β1)TX)计算ML-ELM第一层的输出矩阵H1,作为下一个ELM-AE的输入;
6)当2≤j≤K-1时循环执行以下7)8)9)三步计算第j层隐层输出矩阵βj;
7)根据公式h=g(a*Hn-1+b)计算ELM-AE隐藏层的输出矩阵H;
8)根据公式计算得到ELM-AE输出权值β;
9)根据公式Hj+1=g((βj+1)THj)计算ML-ELM的输出矩阵,作为下一个ELM-AE的输入;
10)当j=K时,根据公式β=H+Y计算输出层和最后一个隐藏层之间的权值矩阵β,其中H+为H的广义逆矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710665695.9A CN107451278A (zh) | 2017-08-07 | 2017-08-07 | 基于多隐层极限学习机的中文文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710665695.9A CN107451278A (zh) | 2017-08-07 | 2017-08-07 | 基于多隐层极限学习机的中文文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107451278A true CN107451278A (zh) | 2017-12-08 |
Family
ID=60490065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710665695.9A Pending CN107451278A (zh) | 2017-08-07 | 2017-08-07 | 基于多隐层极限学习机的中文文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107451278A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628971A (zh) * | 2018-04-24 | 2018-10-09 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
CN108766424A (zh) * | 2018-05-28 | 2018-11-06 | 深圳市天乔科技有限公司 | 智能家居智能语音学习控制方法 |
CN108804591A (zh) * | 2018-05-28 | 2018-11-13 | 杭州依图医疗技术有限公司 | 一种病历文本的文本分类方法及装置 |
CN108875933A (zh) * | 2018-05-08 | 2018-11-23 | 中国地质大学(武汉) | 一种无监督稀疏参数学习的超限学习机分类方法及系统 |
CN109118763A (zh) * | 2018-08-28 | 2019-01-01 | 南京大学 | 基于腐蚀去噪深度信念网络的车流量预测方法 |
CN109325875A (zh) * | 2018-08-31 | 2019-02-12 | 合肥工业大学 | 基于在线社交用户隐特征的隐式群体发现方法 |
CN109582963A (zh) * | 2018-11-29 | 2019-04-05 | 福建南威软件有限公司 | 一种基于极限学习机的档案自动分类方法 |
CN109858509A (zh) * | 2018-11-05 | 2019-06-07 | 杭州电子科技大学 | 基于多层随机神经网络单分类器异常检测方法 |
CN110084291A (zh) * | 2019-04-12 | 2019-08-02 | 湖北工业大学 | 一种基于大数据极限学习的学生行为分析方法及装置 |
CN110633516A (zh) * | 2019-08-30 | 2019-12-31 | 电子科技大学 | 一种电子器件性能退化趋势的预测方法 |
CN111341437A (zh) * | 2020-02-21 | 2020-06-26 | 山东大学齐鲁医院 | 基于舌图像的消化道疾病判断辅助系统 |
CN111753891A (zh) * | 2020-06-11 | 2020-10-09 | 燕山大学 | 一种无监督特征学习的滚动轴承故障诊断方法 |
CN112364927A (zh) * | 2020-11-17 | 2021-02-12 | 哈尔滨市科佳通用机电股份有限公司 | 基于滤波器组的异物检测方法 |
CN112836051A (zh) * | 2021-02-19 | 2021-05-25 | 太极计算机股份有限公司 | 一种在线自学习的法院电子卷宗文本分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005056876A (ja) * | 2003-08-01 | 2005-03-03 | Fujitsu Ltd | イオン注入の不純物濃度分布用パラメータにおける多階層構造のデータベース及びそれのデータ抽出プログラム |
CN102819772A (zh) * | 2012-08-29 | 2012-12-12 | 广东电网公司 | 电力配网建设物资需求预测方法及装置 |
CN105184368A (zh) * | 2015-09-07 | 2015-12-23 | 中国科学院深圳先进技术研究院 | 一种分布式极限学习机优化集成框架方法系统及方法 |
CN106055673A (zh) * | 2016-06-06 | 2016-10-26 | 中国人民解放军国防科学技术大学 | 一种基于文本特征嵌入的中文短文本情感分类方法 |
-
2017
- 2017-08-07 CN CN201710665695.9A patent/CN107451278A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005056876A (ja) * | 2003-08-01 | 2005-03-03 | Fujitsu Ltd | イオン注入の不純物濃度分布用パラメータにおける多階層構造のデータベース及びそれのデータ抽出プログラム |
CN102819772A (zh) * | 2012-08-29 | 2012-12-12 | 广东电网公司 | 电力配网建设物资需求预测方法及装置 |
CN105184368A (zh) * | 2015-09-07 | 2015-12-23 | 中国科学院深圳先进技术研究院 | 一种分布式极限学习机优化集成框架方法系统及方法 |
CN106055673A (zh) * | 2016-06-06 | 2016-10-26 | 中国人民解放军国防科学技术大学 | 一种基于文本特征嵌入的中文短文本情感分类方法 |
Non-Patent Citations (3)
Title |
---|
刘璟忠: "基于奇异值分解极限学习机的维修等级决策", 《中南大学学报(自然科学版)》 * |
陈先福 等: "基于极限学习机的网页分类应用", 《计算机工程与应用》 * |
马萌萌: "基于深度学习的极限学习机算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628971B (zh) * | 2018-04-24 | 2021-11-12 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
CN108628971A (zh) * | 2018-04-24 | 2018-10-09 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
CN108875933A (zh) * | 2018-05-08 | 2018-11-23 | 中国地质大学(武汉) | 一种无监督稀疏参数学习的超限学习机分类方法及系统 |
CN108766424A (zh) * | 2018-05-28 | 2018-11-06 | 深圳市天乔科技有限公司 | 智能家居智能语音学习控制方法 |
CN108804591A (zh) * | 2018-05-28 | 2018-11-13 | 杭州依图医疗技术有限公司 | 一种病历文本的文本分类方法及装置 |
CN109118763B (zh) * | 2018-08-28 | 2021-05-18 | 南京大学 | 基于腐蚀去噪深度信念网络的车流量预测方法 |
CN109118763A (zh) * | 2018-08-28 | 2019-01-01 | 南京大学 | 基于腐蚀去噪深度信念网络的车流量预测方法 |
CN109325875B (zh) * | 2018-08-31 | 2021-08-10 | 合肥工业大学 | 基于在线社交用户隐特征的隐式群体发现方法 |
CN109325875A (zh) * | 2018-08-31 | 2019-02-12 | 合肥工业大学 | 基于在线社交用户隐特征的隐式群体发现方法 |
CN109858509A (zh) * | 2018-11-05 | 2019-06-07 | 杭州电子科技大学 | 基于多层随机神经网络单分类器异常检测方法 |
CN109582963A (zh) * | 2018-11-29 | 2019-04-05 | 福建南威软件有限公司 | 一种基于极限学习机的档案自动分类方法 |
CN110084291A (zh) * | 2019-04-12 | 2019-08-02 | 湖北工业大学 | 一种基于大数据极限学习的学生行为分析方法及装置 |
CN110633516A (zh) * | 2019-08-30 | 2019-12-31 | 电子科技大学 | 一种电子器件性能退化趋势的预测方法 |
CN110633516B (zh) * | 2019-08-30 | 2022-06-14 | 电子科技大学 | 一种电子器件性能退化趋势的预测方法 |
CN111341437A (zh) * | 2020-02-21 | 2020-06-26 | 山东大学齐鲁医院 | 基于舌图像的消化道疾病判断辅助系统 |
CN111341437B (zh) * | 2020-02-21 | 2022-02-11 | 山东大学齐鲁医院 | 基于舌图像的消化道疾病判断辅助系统 |
CN111753891A (zh) * | 2020-06-11 | 2020-10-09 | 燕山大学 | 一种无监督特征学习的滚动轴承故障诊断方法 |
CN111753891B (zh) * | 2020-06-11 | 2023-04-07 | 燕山大学 | 一种无监督特征学习的滚动轴承故障诊断方法 |
CN112364927A (zh) * | 2020-11-17 | 2021-02-12 | 哈尔滨市科佳通用机电股份有限公司 | 基于滤波器组的异物检测方法 |
CN112836051A (zh) * | 2021-02-19 | 2021-05-25 | 太极计算机股份有限公司 | 一种在线自学习的法院电子卷宗文本分类方法 |
CN112836051B (zh) * | 2021-02-19 | 2024-03-26 | 太极计算机股份有限公司 | 一种在线自学习的法院电子卷宗文本分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107451278A (zh) | 基于多隐层极限学习机的中文文本分类方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN109271522B (zh) | 基于深度混合模型迁移学习的评论情感分类方法及系统 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
CN104750844B (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
CN109933670B (zh) | 一种基于组合矩阵计算语义距离的文本分类方法 | |
CN104951548B (zh) | 一种负面舆情指数的计算方法及系统 | |
CN109189925A (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN109558487A (zh) | 基于层次性多注意力网络的文档分类方法 | |
CN107038480A (zh) | 一种基于卷积神经网络的文本情感分类方法 | |
CN110532554A (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN110765260A (zh) | 一种基于卷积神经网络与联合注意力机制的信息推荐方法 | |
CN111966917A (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN107330446A (zh) | 一种面向图像分类的深度卷积神经网络的优化方法 | |
CN107665248A (zh) | 基于深度学习混合模型的文本分类方法和装置 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN110825850B (zh) | 一种自然语言主题分类方法及装置 | |
CN109582794A (zh) | 基于深度学习的长文分类方法 | |
CN111680225B (zh) | 基于机器学习的微信金融消息分析方法及系统 | |
CN109815400A (zh) | 基于长文本的人物兴趣提取方法 | |
CN111078833A (zh) | 一种基于神经网络的文本分类方法 | |
CN113516198B (zh) | 一种基于记忆网络和图神经网络的文化资源文本分类方法 | |
CN112231477A (zh) | 一种基于改进胶囊网络的文本分类方法 | |
CN106570170A (zh) | 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171208 |