CN108536838A - 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法 - Google Patents
基于Spark的极大无关多元逻辑回归模型对文本情感分类方法 Download PDFInfo
- Publication number
- CN108536838A CN108536838A CN201810330888.3A CN201810330888A CN108536838A CN 108536838 A CN108536838 A CN 108536838A CN 201810330888 A CN201810330888 A CN 201810330888A CN 108536838 A CN108536838 A CN 108536838A
- Authority
- CN
- China
- Prior art keywords
- logistic regression
- multiple logistic
- text
- irrelevant
- regression model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007477 logistic regression Methods 0.000 title claims abstract description 162
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000008451 emotion Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 abstract 2
- 238000013480 data collection Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 72
- 238000004422 calculation algorithm Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012562 intraclass correlation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于Spark的极大无关多元逻辑回归模型对文本情感分类方法,包括:将训练样本数据集存储于HDFS中;Spark平台从HDFS中读取数据生成RDD;Spark平台将数据的预处理任务分为多个任务组,对每个任务组中存储有读取数据的RDD进行预处理,将预处理的结果存入HDFS中;训练极大无关多元逻辑回归模型,经过求解得到极大无关多元逻辑回归分类器;将分类器输出到HDFS中;从HDFS中读取经过预处理的待预测文本的数据和训练得到的分类器;获取待预测文本的情感分类。本发明在Spark计算框架下并行方法求解,模型训练更加快速,更适合大数据场景下的文本情感分类;降低了传统多元逻辑回归模型的复杂度,具有更强的泛化能力;能够对待预测样本数据进行精确情感分类。
Description
技术领域
本发明涉及机器学习领域,尤其涉及一种基于Spark的极大无关多元逻辑回归模型对文本情感分类方法。
背景技术
分类作为机器学习、数据挖掘的关键部分,在图像识别、药物开发、语音识别、手写辨识等方面有着广泛的应用。它是基于已知训练集识别一个新的实例属于哪个类别的有监督的学习问题。在分类算法中,非线性分类能力以及能否扩展到多分类至关重要。
ApacheSpark作为一种当今最流行的分布式计算框架之一,它是基于内存计算和并行计算的,非常适合大数据挖掘和机器学习。在速度方面,它是基于内存计算的,而Hadoop将中间计算结果写到HDFS文件系统,每次读写操作都要读写HDFS文件系统,所以Spark比Hadoop要快上100倍;而访问磁盘的速度比Hadoop快10倍。所以Spark更适合运行更复杂的算法,例如:迭代计算、图计算等。
逻辑回归(LR)是分类的重要方法之一。标准逻辑回归使用Logistical损失,通过输入变量的系数加权线性组合来分类。逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,提升了与分类最相关的数据点的权重,相较于支持向量机,自某一给定的类上,标准逻辑回归能给出相应的类分布估计,并且在模型训练时间上也占很大优势。逻辑回归相对来说模型更简单、好理解,针对大规模线性分类时实现起来比较方便。此外,标准逻辑回归比支持向量机更容易扩展到多类分类。一些针对逻辑回归的改进算法例如:稀疏逻辑回归、加权逻辑回归等都在相应领域取得较好的效果。
然而逻辑回归只能用于二分类问题,不能直接应用于多类别(类别k>2)分类问题。为了用逻辑回归解决多分类问题,通常有两类逻辑回归扩展方式,一类是建立k个独立的二元分类器,每个分类器将一类样本标记为正样本,将所有其他类别的样本标记为负样本。针对给定测试样本,每个分类器都可以得到该测试样本属于这一类的概率,因此可以通过取最大类别概率来进行多分类。另外一类则被称作多元逻辑回归(Multinomial LogisticRegression,MLR),它是逻辑回归模型在多分类问题上的推广。具体选取哪种方法处理多分类问题通常取决于待分类类别之间是否互斥。对于多分类问题来说,类别之间通常是互斥的。因此,使用多元逻辑回归相较于逻辑回归通常能得到更好的结果。同时,多元逻辑回归只需要训练一次即可,因此它也具有较快的运行速度。
在计算机信息处理领域,文本数据集通常含有较多的共同信息,这些共同信息大大增加了识别的复杂度与识别误差,多元逻辑回归虽然训练多组参数用以针对每个类别计算出相应的概率,然而并没有考虑各组参数之间是否相关的问题。因此一种基于极大无关的多元逻辑回归文本情感分类方法的实现具有一定的现实意义。
发明内容
为了解决上述技术问题,本发明提出了一种基于Spark的极大无关多元逻辑回归模型对文本情感分类的方法,所述方法包括:
将训练样本数据集中的每个样本逐行存储于HDFS分布式文件系统中;
Spark平台从HDFS分布式文件系统中读取数据,生成具有多个分区的弹性分布式数据集RDD,并将读取的数据存储在所述弹性分布式数据集RDD中;
Spark平台将数据的预处理任务分为多个任务组,然后对每个任务组中存储有读取数据的RDD进行预处理,将预处理的结果存入HDFS分布式文件系统中;
利用经过预处理变换的RDD训练极大无关多元逻辑回归模型,在多元逻辑回归模型的代价函数基础上,通过引入相关参数惩罚项,得到极大无关多元逻辑回归模型的代价函数;采用梯度下降法并行求解极大无关多元逻辑回归模型的代价函数的导函数,得到极大无关多元逻辑回归分类器。
保存所述极大无关多元逻辑回归分类器,将所述极大无关多元逻辑回归分类器输出到HDFS分布式文件系统中;
将待预测文本数据集按照每个样本逐行存储于HDFS分布式文件系统中;待预测文本数据集经过与训练样本数据集相同的RDD预处理后,输出到HDFS分布式文件系统中;
从HDFS分布式文件系统中读取经过预处理的待预测文本的数据和训练得到的极大无关多元逻辑回归分类器;
利用所述极大无关多元逻辑回归分类器对待预测文本进行情感分类,获取所述待预测文本的情感分类;
在工作节点将待预测文本的情感分类结果输出到HDFS分布式文件系统中。
进一步地,所述在多元逻辑回归模型的代价函数基础上,通过引入相关参数惩罚项,得到极大无关多元逻辑回归模型的代价函数,包括:
获取多元逻辑回归模型的代价函数;
获取不相关约束项;
将不相关约束项引入多元逻辑回归模型的代价函数,得到极大无关多元逻辑回归的代价函数;
进一步地,所述获取多元逻辑回归模型的代价函数;
所述多元逻辑回归模型为:
其中
所述多元逻辑回归模型参数θ的负对数似然函数为:
所述负对数似然函数即多元f逻辑回归模型的代价函数。其中,m为独立的样本的数目。
进一步地,所述获取不相关约束项;
所述不相关约束项为:
所述不相关约束项即相关参数惩罚项;其中,θi和θj为任意两组不同的参数;
进一步地,所述将不相关约束项引入多元逻辑回归模型的代价函数,得到极大无关多元逻辑回归的代价函数。
所述极大无关多元逻辑回归模型的代价函数为:
进一步地,采用梯度下降法并行求解极大无关多元逻辑回归模型的代价函数的导函数,包括:
引入梯度分量的均值将极大无关多元逻辑回归的导函数中梯度分量dθi的计算分发到不同的计算节点上,进行并行计算;
对每个节点计算得到的梯度分量dθi取平均,并将更新后的θ值分发到不同的计算节点上,迭代进行并行计算;
当模型参数收敛到一定程度,停止迭代计算。此时得到的θ即为最终的模型参数。
所述极大无关多元逻辑回归的导函数为:
进一步地,利用所述已经训练好的多元极大无关逻辑回归模型进行文本分类,包括:
从HDFS分布式文件系统中加载待预测文本数据集和极大无关多元逻辑回归分类器;
将待预测文本数据集输入到极大无关多元逻辑回归分类器中,得到待预测文本的分类结果。
进一步地,所述极大无关多元逻辑回归分类器为:
其中
其中,θ为各计算节点并行优化后得到的模型参数,x为待预测文本数据。对于每一条样本,输入极大无关多元逻辑回归分类器可得到所属各个情感类别的概率,选取最大的概率对应的情感类别为该样本所属情感类别。
本发明提供的一种基于Spark的极大无关多元逻辑回归模型对文本情感分类方法,具有的技术效果为:
本发明对于每一条样本,输入极大无关多元逻辑回归分类器可得到所属各个情感类别的概率,选取最大的概率对应的情感类别为该样本所属情感类别。
本发明在传统的多元逻辑回归模型的基础上通过引入相关参数惩罚项(不相关约束项),获取极大无关多元逻辑回归模型的代价函数;采用梯度下降法并行求解所述极大无关多元逻辑回归模型的代价函数的导函数,得到所述极大无关多元逻辑回归分类器。通过添加不相关约束项使得针对冗余数据具有较高的鲁棒性;降低了传统的多元逻辑回归模型的复杂度,得到的新的分类器(极大无关多元逻辑回归分类器)具有更强的泛化能力;进而能够对获取的目标文本数据中文本条目进行精确分类。
本发明在Spark计算框架下使用随机梯度下降(SGD)并行方法求解,使得模型训练更加快速,更适合大数据场景下的文本情感分类;并且通过添加不相关约束项使得针对冗余数据具有较高的鲁棒性;降低了传统的多元逻辑回归模型的复杂度,具有更强的泛化能力;能够对待预测样本数据进行精确情感分类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的一种基于Spark的极大无关多元逻辑回归的文本情感分类方法的流程图;
图2是本发明实施例提供的一种基于Spark的极大无关多元逻辑回归的文本情感分类方法的数据流图;
图3是本发明实施例提供的根据极大无关多元逻辑回归模型代价函数获取最终模型参数的方法流程图;
图4是本发明实施例中提供的MNIST数据集MLR与UMLR参数范数大小示意图;
图5是本发明实施例中提供的COIL20数据集MLR与UMLR参数范数大小示意图;
图6是本发明实施例中提供的ORL数据集MLR与UMLR参数范数大小示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要给与说明的是,现有技术中存在的逻辑回归(LR)算法以及约束多元逻辑回归(RMLR)算法,在分类应用中存在一些缺点和不足,进而提出了改进的算法极大无关多元逻辑回归算法。
逻辑回归(LR)算法:
对于逻辑回归,其假设有数据集D={xi,yi},i=1,…,N,xi∈RD,yi∈{0,1},输入向量为x=(x(1),…,x(D)),类标签y为二值函数:y为0或1。逻辑回归(LR)为基于如下的概率模型:
其中,称为Logistic函数或者Sigmoid函数。
对于二分类问题,假定y的取值为0或1,y=1出现的概率服从伯努利分布,则有:
p(y=1|x;θ)=hθ(x)
p(y=0|x;θ)=1-hθ(x)
如上两式可以合并为:
p(yx;θ)=hθ(x)y(1-hθ(x))t-y (2)
其中y∈{0,1}。假定m个样本是独立的,则可以写出参数θ的似然函数:
则对数似然函数可以表达为:
通过最大化l(θ)可以得到最优的θ。通常令得到l(θ)对应的损失函数,通过最小化损失函数求解最优的θ。然而逻辑回归只能处理二分类问题,并不能直接应用到多分类问题上。
约束多元逻辑回归(RMLR)算法:
对于传统的逻辑回归不能处理多分类的问题,多元逻辑回归(MLR)通过修改逻辑回归的代价函数,以适应多分类问题。
假设有数据集D={xi,yi},i=1,…,N,xi∈RD,yi∈{0,…,K}(K>2),输入向量为x=(x(1),…,x(D)),多元逻辑回归(MLR)为基于如下的概率模型:
其中
代价函数为:
然而多元逻辑回归有一个不寻常的特点,它有一个“冗余”的参数集。假设我们从参数向量θj中减去了向量ψ,这时,每一个θj都变成了θj-ψ(j=1,…,k)。此时假设函数变成了以下的式子:
这表明从θj中减去ψ完全不影响假设函数的预测结果,也就是说在上述的多元逻辑回归模型中存在冗余的参数。
对于多元逻辑回归模型过度参数化问题,约束多元逻辑回归(RMLR)算法通过添加一个权重衰减项来修改代价函数,这个衰减项会惩罚过大的参数值,使代价函数变成严格的凸函数,这样就可以保证得到唯一的解。其代价函数为:
此时的Hessian矩阵变为可逆矩阵,并且因为代价函数是凸函数,利用优化算法可以保证收敛到全局最优解。虽然约束多元逻辑回归(RMLR)算法在一定程度上缓和了过拟合问题,然而针对拥有冗余信息的数据集,约束多元逻辑回归(RMLR)算法表现较差。
根据上述的分析,进而提出了极大无关多元逻辑回归模型:具体地,本实施例提供了一种基于极大无关多元逻辑回归的文本情感分类方法,如图1-2所示,所述方法包括:
S101.将训练样本数据集中的每个样本逐行存储于HDFS分布式文件系统中;
对于分布式机器学习领域,不论是模型的训练还是预测,使用的数据集都还海量的,单机根本无法存储;需要使用分布式文件系统支持。
所以,对应地本实施例采用了HDFS分布式文件系统;在步骤S101中,所述HDFS分布式文件系统(Hadoop Distributed File System)为Hadoop下的一个子项目,是目前使用极为广泛的分布式文件系统。它属于一种能够提供一个高容错、且能部署在廉价硬件的分布式系统;它能支持高吞吐量,适合大规模数据集应用。
S102.Spark平台从HDFS分布式文件系统中读取数据,生成具有多个分区的弹性分布式数据集RDD,并将读取的数据存储在所述弹性分布式数据集RDD中;
其中,RDD(Resilient Distributed Dataset)是Spark中一个容错的、并行的数据结构,可以根据用户的要求将数据存储到磁盘和内存中,并且能根据用户的设定设置分区数量。并且,RDD还提供了一组丰富的操作来操作数据。
S103.Spark平台将数据的预处理任务分为多个任务组,然后对每个任务组中存储有读取数据的RDD进行预处理,将预处理的结果存入HDFS分布式文件系统中;
S104.利用经过预处理变换的RDD训练极大无关多元逻辑回归模型,在多元逻辑回归模型的代价函数基础上,通过引入相关参数惩罚项,得到极大无关多元逻辑回归模型的代价函数;采用梯度下降法并行求解极大无关多元逻辑回归模型的代价函数的导函数,得到极大无关多元逻辑回归分类器。
其中,数据预处理在RDD中进行,预处理后的数据被称为经过预处理变换的RDD。
S105.保存所述极大无关多元逻辑回归分类器,将所述极大无关多元逻辑回归分类器输出到HDFS分布式文件系统中;
S106.将待预测样本数据集按照每个样本逐行存储于HDFS文件系统中;待预测样本数据集经过与训练样本数据集相同的RDD预处理后,将预处理的结果存入HDFS文件系统中。
S107.从HDFS分布式文件系统中读取经过预处理的待预测文本的数据和训练得到的极大无关多元逻辑回归分类器;
其中,在大数据算法中,经常要训练一个模型,训练后的模型为称为分类器。我们会把这个分类器持久化的保存下来(相当于把这个类写成文件),交付给其他团队直接使用(从文件中读出来在还原为原来的类),而不必在使用的时候现场训练;所以,在步骤S107中包括读取训练得到的极大无关多元逻辑回归分类器。
S108.利用所述极大无关多元逻辑回归分类器对待预测文本进行情感分类,获取所述待预测文本的情感分类;
S109.工作节点将待预测文本的情感分类结果输出到HDFS分布式文件系统中。
其中,在步骤S103和步骤S106中,对RDD进行预处理方法,包括:
获取待处理文本评论语句中的间隔字符,并采用空字符串替换所述间隔符号;
获取评论语句中的特殊字符串、数字等,并采用空字符串替换所述特殊字符串、数字等;
获取评论语句中表达模糊语气的词语,将表达模糊表达词语转化为绝对表达词语,进而使模糊的语气表达转化为绝对表达;
添加自定义字典,将待处理文本评论语句中的频率较高的名词添加到自定义字典中;
对上述处理过的评论语句中的词语进行分词,并过滤评论语句中的停用词;
将已经完成分词的评论语句中的词语进行向量转化,进而生成词向量。
具体地,对待处理文本进行预处理的方法包括:
利用函数re.compile('#([^>]*)#')匹配评论中以“#”开头和结尾的评论,并采用空字符串替换;其中re是python的正则表达式模块,可以直接调用其中的函数来实现字符串的正则匹配。
利用函数re.compile(u'[^\u4e00-\u9fa5|a-zA-Z]+')匹配评论中特殊字符串、数字等,并采用空字符串替换;
利用函数flashtext.KeywordProcessor对评论文本进行替换。将模糊的语气表达转化为绝对表达。例如将“不怎么样”替换为“不好”,“不是特别”替换为“不”;
添加自定义字典,针对文本数据集中频率较高的名词,添加新名词到字典中,增强分词准确性;其中,根据特定的场景加入特定的名词到自定义字典中去,更高效很准确地完成分词工作。
利用函数jieba.cut()对评论进行分词,并过滤评论中的停用词;其中停用词是对文本分类目标帮助不大的字或词,比如‘的’、‘在’、‘啊’等;不同场景具有不同的停用词表,根据相应的停用词表删除文本中的停用词。
利用函数gensim.models.Word2Vec()将已经完成分词的评论数据集转化为word2vec模型,产生词向量。
进一步地,所述在多元逻辑回归模型的代价函数基础上,通过引入相关参数惩罚项,得到极大无关多元逻辑回归模型的代价函数,包括:
获取多元逻辑回归模型的代价函数;
获取不相关约束项;
将不相关约束项引入多元逻辑回归模型的代价函数,得到极大无关多元逻辑回归的代价函数;
进一步地,所述获取多元逻辑回归模型的代价函数;
所述多元逻辑回归模型为:
其中
所述多元逻辑回归模型参数θ的负对数似然函数为:
所述负对数似然函数即多元逻辑回归模型的代价函数。其中,m为独立的样本的数目。
详细地,所述获取不相关约束项;
所述不相关约束项为:
所述不相关约束项即相关参数惩罚项;其中,θi和θj为任意两组不同的参数;
进一步地,所述将不相关约束项引入多元逻辑回归模型的代价函数,得到极大无关多元逻辑回归的代价函数。
所述极大无关多元逻辑回归模型的代价函数为:
进一步地,步骤S104中,如图3所示,包括:
S1041.引入梯度分量的均值将极大无关多元逻辑回归的导函数中梯度分量dθi的计算分发到不同的计算节点上,进行并行计算;
S1042.对每个节点计算得到的梯度分量dθi取平均,并将更新后的θ值分发到不同的计算节点上,迭代进行并行计算;
S1043.当模型参数收敛到一定程度,停止迭代计算;此时得到的θ即为最终的模型参数。
进一步地,所述极大无关多元逻辑回归的导函数为:
其中,在计算机信息处理领域,数据集通常含有较多的共同信息,这些共同信息大大增加了识别的复杂度与识别误差,多元逻辑回归虽然训练k组参数用以针对每个类别计算出相应的概率,然而并没有考虑k组参数之间是否相关的问题,如果参数(θ1,θ2,…,θk)是代价函数的极小值点,则任一参数θi都可被其它θj(j≠i)线性表示,即
θi=λ0+∑j≠iλjθj (9)
这说明不同类别之间的参数具有相关性。正则
虽然对每组参数的组内元素进行约束,但仍未考虑不同类别参数相关的问题,导致针对有较多冗余信息的数据集分类效果较差。对于任意两组不同的参数θi和θj,根据基本不等式:
其中,当且仅当θi=θj时取得最大值。
若θi与θj相关,即θi=λ0+λjθj,则值较大,因此我们添加了不相关约束项:
此约束项会对相关的参数进行惩罚,用来保证尽量保留更多不相关、有判别的特征。又因为
从而可得其代价函数为:
为了使用优化算法,求得J(θ)的导数如下:
根据以上推导,通过梯度下降算法及其改进算法可以快速求得不相关参数θ。
针对上述的内容,则算法步骤:
输入:训练集D={(x1,y1),(x2,y2),…,(xm,ym)};
过程:
Initializeλ,η,Θ
Whilestoppingcriterionarenotsatisfieddo:
Forj=1,2,…,k:
Θ=L-BFGS(Loss,dΘ)
输出:回归系数Θ
进一步地,对所述极大无关多元逻辑回归算法进行收敛性分析:
根据极大无关多元逻辑回归的损失函数:
可以得到:
因为J(θ)的二阶导数恒大于0,所以J(θ)为严格的凸函数。
其中,根据在线学习框架分析算法以及关于Adam算法的收敛性分析可证算法收敛。
进一步地,对本发明提出的极大无关多元逻辑回归(UMLR)算法进行评估。实验结果主要集中在以下两个问题:分类精度、执行速度。用于比较的数据分类算法包括权重衰减多元逻辑回归、支持向量机和参数无关多元逻辑回归。实验分别采用了不同相关度的人工数据集以及MNIST、COIL20、GT与ORL等4个真实数据集,验证方式为十折交叉验证。
(1)归一化
假设Φ(x)min和Φ(x)max分别为数据集中的最大值和最小值。对于一个实例,归一化算法如下:
通过归一化的方式,将有量纲的表达式转化为无量纲的表达式,解决了数据贡献不均衡的问题。
(2)人工数据集上的实验结果
为了验证算法对线性相关数据集的有效性,我们按如下方式生成人工数据集:类内相关度大于0.9,类间相似度分别取值0.5、0.6、0.7、0.8、0.9.
样本大小和数据维度的选择为(m,n)=(5000,1000),共计5个类别,每个类别1000条样本。
以下为针对不同相关度的数据,极大无关多元逻辑回归算法与约束多元逻辑回归算法识别率的比较。
表1.MLR、UMLR不同相关性数据集的识别率
(3)MNIST和COIL20数据集上的实验结果
MNIST数据集被广泛地用在模式识别领域。它包含10个类别,这十个类别对应手写数字0-9,每个类别有5000多张图片。COIL20数据集拥有20个不同的类别,每个类别有72张图片。
表2.SVM、MLR、UMLR针对MINIST、COIL20数据集的识别率
上述表格展示了三种不同的算法针对两种数据集的准确度。如图4所示为MNIST数据集MLR与UMLR参数范数大小示意图;如图5所示为COIL20数据集MLR与UMLR参数范数大小示意图。其中,图4和图5中的左侧对应的是相应数据集下的UMLR参数范数大小柱状图,图4和图5的右侧对应的相应数据集下的MLR参数范数大小柱状图。
(4)GT和ORL数据集上的实验结果
GT数据集共50个类别,每个类别包含15张图片。ORL数据集共20个类别,每个类别包含10张图片。
表3.SVM、MLR、UMLR针对GT、ORL数据集的识别率
如图6所示为ORL数据集MLR与UMLR参数范数大小示意图;其中,图6的左侧对应的是相应数据集下的UMLR参数范数大小柱状图,图6的右侧对应的相应数据集下的MLR参数范数大小柱状图。
(5)实验结果分析
实验结果表明极大无关多元逻辑回归相较约束多元逻辑回归算法以及支持向量机算法有着更高的分类精度。特别对于类间相关性较高的数据集效果明显,说明其对冗余数据有着较高的鲁棒性。其收敛参数相较于较约束多元逻辑回归的收敛参数小,这通常意味着其拥有更强的泛化能力。
根据上述的实验结果分析可见,分类作为模式识别、数据挖掘的重要分支,有着越来越广泛的应用领域,所以,其逐渐成为公安刑侦破案、电子支付、医疗等系统的核心和关键技术。
本发明提出的一种极大无关多元逻辑回归模型;该方法基于多元逻辑回归的基本模型,构建了一种新型分类器。实验结果表明其在分类精度、分类鲁棒性上比传统分类算法有优势。并且其训练得到的模型比支持向量机、朴素贝叶斯等方法具有更强的解释性。
综上所述,本发明提供的一种基于极大无关多元逻辑回归的文本情感分类方法,具有的技术效果为:
本发明在传统的多元逻辑回归模型的基础上通过引入相关参数惩罚项(不相关约束项),获取极大无关多元逻辑回归模型的代价函数;根据求解所述极大无关多元逻辑回归模型的代价函数的导函数,得到所述极大无关多元逻辑回归模型。通过添加不相关约束项使得针对冗余数据具有较高的鲁棒性;降低了传统的多元逻辑回归模型的复杂度,得到的新的分类模型(极大无关多元逻辑回归模型)具有更强的泛化能力;进而能够对获取的目标文本数据中文本条目进行精确分类。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.基于Spark的极大无关多元逻辑回归模型对文本情感分类方法,其特征在于,所述方法包括:
将训练样本数据集中的每个样本逐行存储于HDFS分布式文件系统中;
Spark平台从HDFS分布式文件系统中读取数据,生成具有多个分区的弹性分布式数据集RDD,并将读取的数据存储在所述弹性分布式数据集RDD中;
Spark平台将数据的预处理任务分为多个任务组,然后对每个任务组中存储有读取数据的RDD进行预处理,将预处理的结果存入HDFS分布式文件系统中;
利用经过预处理变换的RDD训练极大无关多元逻辑回归模型,在多元逻辑回归模型的代价函数基础上,通过引入相关参数惩罚项,得到极大无关多元逻辑回归模型的代价函数;采用梯度下降法并行求解极大无关多元逻辑回归模型的代价函数的导函数,得到极大无关多元逻辑回归分类器;
保存所述极大无关多元逻辑回归分类器,将所述极大无关多元逻辑回归分类器输出到HDFS分布式文件系统中;
将待预测文本数据集按照每个样本逐行存储于HDFS分布式文件系统中;待预测文本数据集经过与训练样本数据集相同的RDD预处理后,输出到HDFS分布式文件系统中;
从HDFS分布式文件系统中读取经过预处理的待预测文本的数据和训练得到的极大无关多元逻辑回归分类器;
利用所述极大无关多元逻辑回归分类器对待预测文本进行情感分类,获取所述待预测文本的情感分类;
在工作节点将待预测文本的情感分类结果输出到HDFS分布式文件系统中。
2.根据权利要求1所述的方法,其特征在于,所述在多元逻辑回归模型的代价函数基础上,通过引入相关参数惩罚项,得到极大无关多元逻辑回归模型的代价函数,包括:
获取多元逻辑回归模型的代价函数;
获取不相关约束项;
将不相关约束项引入多元逻辑回归模型的代价函数,得到极大无关多元逻辑回归的代价函数。
3.根据权利要求2所述的方法,其特征在于,所述多元逻辑回归模型为:
其中
所述多元逻辑回归模型参数θ的负对数似然函数为:
所述负对数似然函数即多元逻辑回归模型的代价函数;其中,m为独立的样本的数目。
4.根据权利要求3所述的方法,其特征在于,所述不相关约束项为:
所述不相关约束项即相关参数惩罚项;其中,θi和θj为任意两组不同的参数;
所述极大无关多元逻辑回归模型的代价函数为:
5.根据权利要求4所述方法,其特征在于,所述采用梯度下降法并行求解极大无关多元逻辑回归模型的代价函数的导函数,包括:
引入梯度分量的均值将极大无关多元逻辑回归的导函数中梯度分量dθi的计算分发到不同的计算节点上,进行并行计算;
对每个节点计算得到的梯度分量dθi取平均,并将更新后的模型参数θ值分发到不同的计算节点上,迭代进行并行计算;
当模型参数收敛到一定程度,停止迭代计算;此时得到的模型参数θ即为最终的模型参数;
所述极大无关多元逻辑回归的导函数为:
6.根据权利要求1或5所述的方法,其特征在于,所述利用所述极大无关多元逻辑回归分类器对待预测文本进行情感分类,获取所述待预测文本的情感分类;包括:
从HDFS分布式文件系统中加载待预测文本数据集和极大无关多元逻辑回归分类器;
将待预测文本数据集输入到极大无关多元逻辑回归分类器中,得到待预测文本的分类结果。
7.根据权利要求6所述的方法,其特征在于,
所述极大无关多元逻辑回归分类器为:
其中
其中,θ为各计算节点并行优化后得到的模型参数,x为待预测文本数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810330888.3A CN108536838B (zh) | 2018-04-13 | 2018-04-13 | 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810330888.3A CN108536838B (zh) | 2018-04-13 | 2018-04-13 | 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108536838A true CN108536838A (zh) | 2018-09-14 |
CN108536838B CN108536838B (zh) | 2021-10-19 |
Family
ID=63480308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810330888.3A Active CN108536838B (zh) | 2018-04-13 | 2018-04-13 | 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108536838B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739844A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 基于衰减权重的数据分类方法 |
CN109857832A (zh) * | 2019-01-03 | 2019-06-07 | 中国银行股份有限公司 | 一种支付数据的预处理方法和装置 |
CN110322967A (zh) * | 2019-07-03 | 2019-10-11 | 重庆邮电大学 | 人工授精成功率的影响因素计算方法、系统及计算机设备 |
CN113836297A (zh) * | 2021-07-23 | 2021-12-24 | 北京三快在线科技有限公司 | 文本情感分析模型的训练方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729459A (zh) * | 2014-01-10 | 2014-04-16 | 北京邮电大学 | 一种构建情感分类模型的方法 |
CN105389583A (zh) * | 2014-09-05 | 2016-03-09 | 华为技术有限公司 | 图像分类器的生成方法、图像分类方法和装置 |
CN105701223A (zh) * | 2016-01-15 | 2016-06-22 | 中国人民解放军国防科学技术大学 | 基于Spark Streaming的财经信息情感趋势分析方法 |
CN106055673A (zh) * | 2016-06-06 | 2016-10-26 | 中国人民解放军国防科学技术大学 | 一种基于文本特征嵌入的中文短文本情感分类方法 |
CN106202181A (zh) * | 2016-06-27 | 2016-12-07 | 苏州大学 | 一种情感分类方法、装置及系统 |
US9652405B1 (en) * | 2015-06-30 | 2017-05-16 | EMC IP Holding Company LLC | Persistence of page access heuristics in a memory centric architecture |
CN106777006A (zh) * | 2016-12-07 | 2017-05-31 | 重庆邮电大学 | 一种基于Spark下并行超网络的分类算法 |
US20170168814A1 (en) * | 2015-12-15 | 2017-06-15 | Impetus Technologies, Inc. | System and Method for Registration of a Custom Component in a Distributed Computing Pipeline |
CN107341270A (zh) * | 2017-07-28 | 2017-11-10 | 东北大学 | 面向社交平台的用户情感影响力分析方法 |
-
2018
- 2018-04-13 CN CN201810330888.3A patent/CN108536838B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729459A (zh) * | 2014-01-10 | 2014-04-16 | 北京邮电大学 | 一种构建情感分类模型的方法 |
CN105389583A (zh) * | 2014-09-05 | 2016-03-09 | 华为技术有限公司 | 图像分类器的生成方法、图像分类方法和装置 |
US9652405B1 (en) * | 2015-06-30 | 2017-05-16 | EMC IP Holding Company LLC | Persistence of page access heuristics in a memory centric architecture |
US20170168814A1 (en) * | 2015-12-15 | 2017-06-15 | Impetus Technologies, Inc. | System and Method for Registration of a Custom Component in a Distributed Computing Pipeline |
CN105701223A (zh) * | 2016-01-15 | 2016-06-22 | 中国人民解放军国防科学技术大学 | 基于Spark Streaming的财经信息情感趋势分析方法 |
CN106055673A (zh) * | 2016-06-06 | 2016-10-26 | 中国人民解放军国防科学技术大学 | 一种基于文本特征嵌入的中文短文本情感分类方法 |
CN106202181A (zh) * | 2016-06-27 | 2016-12-07 | 苏州大学 | 一种情感分类方法、装置及系统 |
CN106777006A (zh) * | 2016-12-07 | 2017-05-31 | 重庆邮电大学 | 一种基于Spark下并行超网络的分类算法 |
CN107341270A (zh) * | 2017-07-28 | 2017-11-10 | 东北大学 | 面向社交平台的用户情感影响力分析方法 |
Non-Patent Citations (2)
Title |
---|
NILESH M. SHELKE等: "Class sequential rules for emotion extraction from text", 《2017 INTERNATIONAL CONFERENCE ON I-SMAC (IOT IN SOCIAL, MOBILE, ANALYTICS AND CLOUD) (I-SMAC)》 * |
刘斌等: "并行机器学习算法基础体系前沿进展综述", 《计算机工程与应用》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739844A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 基于衰减权重的数据分类方法 |
CN109739844B (zh) * | 2018-12-26 | 2023-03-24 | 西安电子科技大学 | 基于衰减权重的数据分类方法 |
CN109857832A (zh) * | 2019-01-03 | 2019-06-07 | 中国银行股份有限公司 | 一种支付数据的预处理方法和装置 |
CN110322967A (zh) * | 2019-07-03 | 2019-10-11 | 重庆邮电大学 | 人工授精成功率的影响因素计算方法、系统及计算机设备 |
CN113836297A (zh) * | 2021-07-23 | 2021-12-24 | 北京三快在线科技有限公司 | 文本情感分析模型的训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108536838B (zh) | 2021-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cerda et al. | Encoding high-cardinality string categorical variables | |
Poria et al. | Convolutional MKL based multimodal emotion recognition and sentiment analysis | |
RU2678716C1 (ru) | Использование автоэнкодеров для обучения классификаторов текстов на естественном языке | |
CN108536838B (zh) | 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法 | |
WO2020211720A1 (zh) | 数据处理方法和代词消解神经网络训练方法 | |
US20230101817A1 (en) | Systems and methods for machine learning-based data extraction | |
WO2022035942A1 (en) | Systems and methods for machine learning-based document classification | |
Rathpisey et al. | Handling imbalance issue in hate speech classification using sampling-based methods | |
CN112528653B (zh) | 短文本实体识别方法和系统 | |
CN108595568B (zh) | 一种基于极大无关多元逻辑回归的文本情感分类方法 | |
Grzegorczyk | Vector representations of text data in deep learning | |
Glauner | Comparison of training methods for deep neural networks | |
Cao et al. | Stacked residual recurrent neural network with word weight for text classification | |
Wan et al. | Cost-sensitive label propagation for semi-supervised face recognition | |
Naqvi et al. | Roman Urdu news headline classification empowered with machine learning | |
CN117591547B (zh) | 数据库的查询方法、装置、终端设备以及存储介质 | |
Winter et al. | Incremental training for face recognition | |
Marconi et al. | Hyperbolic manifold regression | |
US11699044B1 (en) | Apparatus and methods for generating and transmitting simulated communication | |
Berrimi et al. | A Comparative Study of Effective Approaches for Arabic Text Classification | |
CN110705274A (zh) | 基于实时学习的融合型词义嵌入方法 | |
Ashraf et al. | Adaptive Feature Selection and Image Classification Using Manifold Learning Techniques | |
Kumar et al. | Self-attention enhanced recurrent neural networks for sentence classification | |
Taha et al. | Text Classification: A Review, Empirical, and Experimental Evaluation | |
Rosvall | Comparison of sequence classification techniques with BERT for named entity recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |