CN103473380B - 一种计算机文本情感分类方法 - Google Patents

一种计算机文本情感分类方法 Download PDF

Info

Publication number
CN103473380B
CN103473380B CN201310462797.2A CN201310462797A CN103473380B CN 103473380 B CN103473380 B CN 103473380B CN 201310462797 A CN201310462797 A CN 201310462797A CN 103473380 B CN103473380 B CN 103473380B
Authority
CN
China
Prior art keywords
text
feature
subgraph
represent
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310462797.2A
Other languages
English (en)
Other versions
CN103473380A (zh
Inventor
戴新宇
付强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201310462797.2A priority Critical patent/CN103473380B/zh
Publication of CN103473380A publication Critical patent/CN103473380A/zh
Application granted granted Critical
Publication of CN103473380B publication Critical patent/CN103473380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种计算机文本情感分类方法,包括以下步骤:使用两种方法表示文本:使用词袋的方法把文本表示为一个由一组特征组成的特征向量;使用图的方法把整个特征空间表示为一个有向无环图,图上的每一个节点为一个特征;用L1-正则化逻辑回归作为特征选择工具进行特征空间降维。用降维后的特征向量和特征空间中的子图作为输入,利用图稀疏化逻辑回归分类器模型为文本分类。本发明对现有的基于词袋的文本表示方法进行改善和提高,能够避免词袋方法导致的文本结构信息丢失的问题。特征空间上建立的有向无环图可以很好地表示出文本的结构信息。同时,L1-正则化逻辑回归可以很好地选出关键特征,提高学习效率。

Description

一种计算机文本情感分类方法
技术领域
本发明涉及一种计算机文本数据处理领域,特别是一种计算机文本情感分类方法。
背景技术
随着当今世界信息量的急剧增加,以及计算机网络技术迅速普及和发展,虚拟生活越来越成为人们必不可少的东西。人们在网络中发表大量的观点,评论。在信息量爆炸的网络大数据时代,对数据的计算机分类多种多样,不同的分类有不同的作用。情感分类能够快速的把握人们对一类舆情的导向。因此如何对计算机文本进行情感分类成为重要的技术问题。比如,人们对某一个电影的影评,对某一部手机的评价等。能够自动的预测人们发表的评论的情感,可以帮助预测人们对某件事物的看法,进而有利于进一步改进产品等。用计算机自动的为这些评论进行情感分类,成为了当下非常热门的研究课题。文本的情感分类就是根据文本的内容,利用计算机给一个文本安排一个情感(正情感和负情感)。对于一个文本的情感分类任务,首先把每一个文本都映射到一个高维欧几里得空间,然后使用特征选择方法或特征抽取方法选出一部分对分类有用的特征。利用机器学习里的分类器,从大量的训练数据中学习出分类器模型,最后用这个分类器模型对未知情感的文本进行分类。近年来,随着机器学习技术的发展,文本情感分类方法取得了一系列重要的进展。而在文本的表示步骤中,基于词袋的文本表示方法因为其简单,高效的性质而得到了广泛的应用。但是这种表示方法忽略了文本的结构信息,无法表示出文本中词与词之间的内在结构关系。比如下面这个例子,他们是来自真实的用户评论数据库中,是用户对同一款数码相机的评价,并且这四个文本表达了同一个意思“在取景窗中可以看到镜头”:
文本1:lensvisibleinopticalviewfinder.
文本2:lensisvisibleintheviewfinder.
文本3:lensbarrelintheviewfinder.
文本4:thelensbarreldoesobstructpartofthelowerleftcornerinthelensviewfinder.
通过这四个文本我们可以发现,如果一个句子中有lens和viewfinder这两个词同时出现在一起,这个评论就很有可能是一个负面评论。但是基于词袋的文本表示方法独立的看待每一个特征,并不能表示出这两个词同时出现在一起这个信息。而基于图的文本表示方法可以克服这个问题,构建三阶的有向图就可以把边lens→viewfinder这个重要信息建立出来。这样,这个有向边就会帮助学习器找出这个隐含的规律,从而提高文本情感分类的精度。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种计算机文本情感分类方法。
为了解决上述技术问题,本发明公开了一种文本情感分类方法,包括以下步骤:
步骤一,使用词袋方法处理计算机文本:使用词袋方法把计算机文本表示为一个由一组特征组成的特征向量,每个计算机文本包括一个类标;
步骤二,使用图的方法处理计算机文本:使用有向无环图的方法把根据特征向量得到的整个特征空间表示为一个子图G,图上的每一个节点为一个特征;
步骤三,使用L1-正则化逻辑回归作为特征选择工具进行特征空间降维;
步骤四,利用图稀疏化逻辑回归分类器模型为文本分类。
本权利步骤一包括以下步骤:
对于计算机文本集合Doc中的文本d=c1,c2,…cj…,ck,其中cj为文本d中的第j个词(英文文本中的单词,中文文本需要经过分词得到每一个词),j=1,2,…k,k表示文本d的总词数,用词袋的方法把文本d的表示为一个由一组特征组成的特征向量,表示为:(α1,α2,…,αkk),其中,kk表示文本d去掉停用词后的总词数,特征向量中的每一维表示一个特征s,一个特征s对应一个词α。
本权利步骤一包括以下步骤:
根据词频逆向文件频率(tf·idf)的计算公式计算特征向量中第i个特征si在第j个文本中的权重wij
w ij = n i , j Σ t n t , j × log | D | | { j : s i ∈ d j } | ,
其中ni,j是文本集合Doc中第j个文本dj的特征si在文本dj中出现的次数,|D|表示文本集合Doc中文本的总个数,nt,j是文本集合Doc中第j个文本dj中第t个特征在第j个文本出现的次数,t的取值为1~kk;
根据一个文本的所有特征的权重,把一个文本dj表示成如下向量形式xj
xj=(w1,j,w2,j,...,wm,j),
m表示文本集合Doc中所有文本的特征总数之和。
本权利步骤二包括以下步骤:
根据文本集合Doc中所有文本,抽取全部非重复特征,做为特征空间;
根据每一个文本的词序结构(也就是指词于词之间的顺序),以特征空间中每一个特征为节点,建立一个有向无环图dG。方法如下:首先把训练集中的所有文本按顺序(随机顺序或者人为设定顺序)组合成一个大文本Da。然后去掉Da中的标点符号和停用词得到新的文本Sa。根据这个文本Sa在特征空间上面建立图dG。建立的过程根据所选阶数的不同而不同。n阶的有向无环图建立过程如下:遍历Sa中的词,把当前遍历的词和该词后的第n个词之间建立一条有向边。当前词指向它后面的词。建立完成图后,检查建立的图,如果发现有环出现,采用随机去掉环中某一条边的方法,直到整个图变成无环图。最后得到dG。假设训练集有四篇文本为:Jimlikethismovie.(吉姆喜欢这个电影);Ilikemovie.(我喜欢这个电影),Jimlikethismovie.(吉姆喜欢这个电影),Itisbasedonabadthing.(它基于一个糟糕的事情)。首先,把这四个文本组成一个文本:Jimlikethismovie.Ilikemovie.Jimlikethismovie.Itisbasedonabadthing。然后去掉停用词,标点符号,得到处理过后的文本:df=JimlikemovielikemovieJimlikemoviebasedbadthing。建立特征空间:Jim,like,movie,based,bad,thing。通过df的结构信息在特征空间上建立一个有向无环图。建立的过程根据所选阶数的不同而不同。n阶的有向无环图建立过程如下:遍历df中的词,把当前遍历的词和该词后的第n个词之间建立一条有向边。当前词指向它后面的词。比如一阶有向无环图建立如下:Jim→like,like→movie,movie→like,movie→Jim,movie→based,based→bad,bad→thing。在整个建立的图中,如果发现有环出现,采用随机去掉环中某一条边的方法,直到整个图变成无环图。二阶有向无环图建立如下:Jim→movie,like→like,movie→movie,like→Jim,movie→like,like→based,movie→bad,based→thing。建立完成图后,检查建立的图,如果发现有环出现,采用随机去掉环中某一条边的方法,直到整个图变成无环图。
本权利步骤二包括以下步骤:
有向无环图中每一条边的代价ce采用下面的计算公式进行计算:
p e neg = count e neg + 1 count e neg + count e pos + 2
p e pos = count e pos + 1 count e neg + count e pos + 2
c e = - ( p e neg log p e neg + p e pos log p e pos ) ,
其中是边e在文本集合Doc中的负类中出现的次数,是边e在文本集合Doc中的正类中出现的次数。表示边e在文本集合Doc中的负类中出现的概率,表示边e在文本集合Doc中的正类中出现的概率。其中正,负类的划分是根据文本集合Doc中每一个文本带有的类标记来划分的。
本权利步骤三包括以下步骤:
根据L1-正则化逻辑回归分类器的目标函数计算学习的参数β:
min β | | β | | 1 + Co Σ j = 1 | D | log ( 1 + e - y j β T x j ) ,
其中学习参数β∈Rm,Rm表示m维实数空间,|D|是文本集合Doc中文本的总数,取值为正整数,Co是调节惩罚项和损失函数之间关系的常数,取值为正实数,yj是文本dj的类标,xj是文本dj的向量形式;
根据计算机文本得到分类器模型yyβTx,x为计算机文本的向量形式。
本权利步骤三包括以下步骤:
学习参数向量β中,它为维度为m的向量,每一个维度对应于特征空间中的一个特征,根据向量β中非零的维度,选择出对应的特征空间中的特征,把未被选中的特征从特征空间中去掉,同时,在每一个文本的向量形式中,去掉未被选中的特征;
假设被选中的特征共有ms个,去掉未被选中的特征后,将向量形式xj变为x'j
x'j=(w′1,j,w′2,j,…,w′ms,j),
w′i,j表示原来的向量形式中对应的一个维度的值,
对于特征空间上建立的有向无环图,同样根据向量β中非零的维度去掉有向无环图dG中未被选中的特征和相关的边,得到子图G。
本权利步骤四包括以下步骤:
根据图稀疏化逻辑回归分类器的目标函数:
上面的函数训练方法采用Mairal,J.,Yu,B.:SupervisedFeatureSelectioninGraphswithPathCodingPenaltiesandNetworkFlows.arXiv:1204.4539v1.(2012)中的方法。其中ν∈Rms是分类器学习的参数,Rms表示ms维实数空间,λ是调节惩罚项和损失函数之间关系的常数,取值为正实数,表示子图G中的所有路径组成的集合;子图G是从上面的图dG中选取的一个子图。
参数的计算公式如下:
表示要找到一个G中的子图,使得子图中的路径包含Supp(ν)中的点,并且子图的所有路径的代价的和最小。其中,的一个子集;并且遍历的所有子集
Supp(ν)={ii;νii≠0},
表示学习参数ν按照给出的组集合π计算的非零的组的序号。ii表示分类器学习参数ν的维度序号,ηg的计算公式如下:
η g = c su 1 + Σ ig = 1 pa - 1 c u ig u ig + 1 + c u pa t ,
表示这条路径中所有边的代价的和。其中,对于子图G中的一条路径g=(u1,…,uig...,upa),uig表示子图G中路径g上的任意一个节点,ig表示该节点的序号,upa表示路径g上的最后一个节点,s和t是子图G之外的两个虚拟的固定节点,两个固定节点与子图G中所有节点都有有向边相连,方向是点s指向子图G中任意一节点,子图G中任意一节点指向节点t,表示节点s指向路径g的第一个节点u1的边的代价,表示子图G中一条边的代价,表示路径g的最后一个点upa指向节点t的边的代价;
根据计算机文本训练样例得到分类器模型y=νTx′,x′为计算机文本的向量形式。
本权利步骤四包括以下步骤:
对于一个输入文本d,根据步骤一转化为向量形式x′后,根据分类器模型y=νTx′判断文本的类别;
如果y>0,则为正类;
如果y<0,则为负类。
根据最终得到的分类器模型,可以为新的未知文本进行情感分类。
有益效果:本发明避免了词袋的表示方法所带来的对文本情感分类性能的影响。通过使用基于图的文本表示方法,可以保留了丢失的关键结构信息。同时,L1-正则化逻辑回归可以很好的选出关键特征,提高学习效率。图稀疏化逻辑回归分类器可以很好的根据建立的有向无环图选择出有用的特征,提高文本情感分类的精度的同时,还加强了分类模型的可解释性。
本发明对现有的基于词袋表示方法的文本情感分类方法进行改善和提高,能够避免结构信息丢失对分类精度产生的不良影响。文本的结构信息对于情感分类是十分重要的,用户评论的情感是通过很多词之间的组合来表现出来的,这种组合的结构才是判断情感的关键。同时L1-正则化逻辑回归分类器可以很好地选择出关键特征,提高学习效率,图稀疏化逻辑回归分类器可以很好的根据建立的有向无环图选择出有用的特征,提高文本情感分类的精度的同时,还加强了分类模型的可解释性。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的流程图。
图2是本发明的文本图表示示例。
图3是实施例1中的图表示。
具体实施方式
本发明提出了一种基于图表示和图稀疏化逻辑回归的文本情感分类方法。可以避免文本结构信息丢失产生的对情感分类精度的影响。现有的技术中,文本情感分类通常使用词袋表示方法对文本进行预处理。
本发明的计算机文本情感分类方法,包括以下步骤。
步骤一,使用词袋方法处理计算机文本:使用词袋方法把计算机文本表示为一个由一组特征组成的特征向量,每个计算机文本包括一个类标;
步骤二,使用图的方法处理计算机文本:使用有向无环图的方法把根据特征向量得到的整个特征空间表示为一个子图G,图上的每一个节点为一个特征;
步骤三,使用L1-正则化逻辑回归作为特征选择工具进行特征空间降维;
步骤四,利用图稀疏化逻辑回归分类器模型为文本分类。
步骤一包括以下步骤:
对于计算机文本集合Doc中的文本d=c1,c2,…cj…,ck,其中cj为文本d中的第j个词(英文文本中的单词,中文文本需要经过分词得到每一个词),j=1,2,…k,k表示文本d的总词数,用词袋的方法把文本d的表示为一个由一组特征组成的特征向量,表示为:(α1,α2,…,αkk)其中,kk表示文本d去掉停用词后的总词数,特征向量中的每一维表示一个特征s,一个特征s对应一个词α。
本权利步骤一包括以下步骤:
根据词频逆向文件频率(tf·idf)的计算公式计算特征向量中第i个特征si在第j个文本中的权重wij
w ij = n i , j &Sigma; t n t , j &times; log | D | | { j : s i &Element; d j } | ,
其中ni,j是文本集合Doc中第j个文本dj的特征si在文本dj中出现的次数,|D|表示文本集合Doc中文本的总个数,nt,j是文本集合Doc中第j个文本dj中第t个特征在第j个文本出现的次数,t的取值为1~kk;
根据一个文本的所有特征的权重,把一个文本dj表示成如下向量形式xj
xj=(w1,j,w2,j,...,wm,j),
m表示文本集合Doc中所有文本的特征总数之和。
步骤二包括以下步骤:
根据文本集合Doc中所有文本,抽取全部非重复特征,做为特征空间;
根据每一个文本的词序结构(也就是指词于词之间的顺序),以特征空间中每一个特征为节点,建立一个有向无环图dG。方法如下:首先把训练集中的所有文本按顺序(随机顺序或者人为设定顺序)组合成一个大文本Da。然后去掉Da中的标点符号和停用词得到新的文本Sa。根据这个文本Sa在特征空间上面建立图dG。建立的过程根据所选阶数的不同而不同。n阶的有向无环图建立过程如下:遍历Sa中的词,把当前遍历的词和该词后的第n个词之间建立一条有向边。当前词指向它后面的词。建立完成图后,检查建立的图,如果发现有环出现,采用随机去掉环中某一条边的方法,直到整个图变成无环图。最后得到dG。如图2所示(由于本例子以英文为实例,因此不可避免的在附图中出现英文单词),假设训练集有四篇文本为:Jimlikethismovie.(吉姆喜欢这个电影);Ilikemovie.(我喜欢这个电影),Jimlikethismovie.(吉姆喜欢这个电影),Itisbasedonabadthing.(它基于一个糟糕的事情)。首先,把这四个文本组成一个文本:Jimlikethismovie.Ilikemovie.Jimlikethismovie.Itisbasedonabadthing。然后去掉停用词,标点符号,得到处理过后的文本:df=JimlikemovielikemovieJimlikemoviebasedbadthing。建立特征空间:Jim,like,movie,based,bad,thing。通过df的结构信息在特征空间上建立一个有向无环图。建立的过程根据所选阶数的不同而不同。n阶的有向无环图建立过程如下:遍历df中的词,把当前遍历的词和该词后的第n个词之间建立一条有向边。当前词指向它后面的词。比如一阶有向无环图建立如下:Jim→like,like→movie,movie→like,movie→Jim,movie→based,based→bad,bad→thing。在整个建立的图中,如果发现有环出现,采用随机去掉环中某一条边的方法,直到整个图变成无环图。二阶有向无环图建立如下:Jim→movie,like→like,movie→movie,like→Jim,movie→like,like→based,movie→bad,based→thing。建立完成图后,检查建立的图,如果发现有环出现,采用随机去掉环中某一条边的方法,直到整个图变成无环图。
步骤二包括以下步骤:
有向无环图中每一条边的代价ce采用下面的计算公式进行计算:
p e neg = count e neg + 1 count e neg + count e pos + 2
p e pos = count e pos + 1 count e neg + count e pos + 2
c e = - ( p e neg log p e neg + p e pos log p e pos ) ,
其中是边e在文本集合Doc中的负类中出现的次数,是边e在文本集合Doc中的正类中出现的次数。表示边e在文本集合Doc中的负类中出现的概率,表示边e在文本集合Doc中的正类中出现的概率。其中正,负类的划分是根据文本集合Doc中每一个文本带有的类标记来划分的。
步骤三包括以下步骤:
根据L1-正则化逻辑回归分类器的目标函数计算学习的参数β:
min &beta; | | &beta; | | 1 + Co &Sigma; j = 1 | D | log ( 1 + e - y j &beta; T x j ) ,
其中学习参数β∈Rm,Rm表示m维实数空间,|D|是文本集合Doc中文本的总数,取值为正整数,Co是调节惩罚项和损失函数之间关系的常数,取值为正实数,yj是文本dj的类标,xj是文本dj的向量形式;
根据计算机文本得到分类器模型yyβTx,x为计算机文本的向量形式。
步骤三包括以下步骤:
学习参数向量β中,它为维度为m的向量,每一个维度对应于特征空间中的一个特征,根据向量β中非零的维度,选择出对应的特征空间中的特征,把未被选中的特征从特征空间中去掉,同时,在每一个文本的向量形式中,去掉未被选中的特征;
假设被选中的特征共有ms个,去掉未被选中的特征后,将向量形式xj变为x'j
x'j=(w′1,j,w′2,j,…,w′ms,j),
w′i,j表示原来的向量形式中对应的一个维度的值,
对于特征空间上建立的有向无环图,同样根据向量β中非零的维度去掉有向无环图dG中未被选中的特征和相关的边,得到子图G。
步骤四包括以下步骤:
根据图稀疏化逻辑回归分类器的目标函数:
上面的函数训练方法采用Mairal,J.,Yu,B.:SupervisedFeatureSelectioninGraphswithPathCodingPenaltiesandNetworkFlows.arXiv:1204.4539v1.(2012)中的方法。其中ν∈Rms是分类器学习的参数,Rms表示ms维实数空间,λ是调节惩罚项和损失函数之间关系的常数,取值为正实数,表示子图G中的所有路径组成的集合;子图G是从上面的图dG中选取的一个子图。
参数的计算公式如下:
表示要找到一个G中的子图,使得子图中的路径包含Supp(ν)中的点,并且子图的所有路径的代价的和最小。其中,的一个子集;并且遍历的所有子集;
Supp(ν)={ii;νii≠0},
表示学习参数ν按照给出的组集合π计算的非零的组的序号。ii表示分类器学习参数ν的维度序号,ηg的计算公式如下:
&eta; g = c su 1 + &Sigma; ig = 1 pa - 1 c u ig u ig + 1 + c u pa t ,
表示这条路径中所有边的代价的和。其中,对于子图G中的一条路径g=(u1,…,uig...,upa),uig表示子图G中路径g上的任意一个节点,ig表示该节点的序号,upa表示路径g上的最后一个节点,s和t是子图G之外的两个虚拟的固定节点,两个固定节点与子图G中所有节点都有有向边相连,方向是点s指向子图G中任意一节点,子图G中任意一节点指向节点t,表示节点s指向路径g的第一个节点u1的边的代价,表示子图G中一条边的代价,表示路径g的最后一个点upa指向节点t的边的代价;
根据计算机文本训练样例得到分类器模型y=νTx′,x′为计算机文本的向量形式。
步骤四包括以下步骤:
对于一个输入文本d,根据步骤一转化为向量形式x′后,根据分类器模型y=νTx′判断文本的类别;
如果y>0,则为正类;
如果y<0,则为负类。
实施例1
如图3所示(由于本实施例以英文为实例,因此不可避免的在附图中出现英文单词),假设一个情感分类问题,要分类的文本是:
A、正情感类:“Jimlikethismovie.”(吉姆喜欢这个电影),记为d1
B、负情感类:“Itisbasedonabadmovie.”(它是基于一个糟糕的电影),记为d2
首先去掉停用词,把这两个文本表示成表1的形式:
表1
类别 文本表示
正情感类 d1=(Jim,like,movie)
负情感类 d2=(based,bad,movie)
使用tf·idf作为特征的权重。特征的tf·idf定义如下:
n i , j &Sigma; t n t , j &times; log | D | | { j : s i &Element; d j } | ,
这里ni,j是第i个特征si在第j个文本dj中出现的次数。|D|表示文本的总个数,本实施例为3。最后,把一个文本dj表示成如下形式:
xj=(w1,j,w2,j,...,wm,j),
其中wi,j表示第i个特征在第j个文本中的权重值。m表示所有文本的特征总数。对应上面的两个文本,提取出来的所有的特征是:Jim,like,movie,based,bad。m为5,其中重复特征movie只计算为1。
最后表示成表2的形式:
表2
类别 文本向量表示
正情感类 x1=(0.23,0.23,0,0,0)
负情感类 x2=(0,0,0,0.23,0.23)
表2中每一个权重是根据词频逆向文件频率的方法计算而来的。比如对于x1向量的第一维,对应特征‘Jim’,权重是0.23。它是根据下面的式子计算而来的
1 3 &times; log 2 1 = 0.23
这里ni,j是1,因为它在文本d1里面出现了1次,同理可得∑tnt,j是3,|D|因为训练数据集总共有2个文本,所以是2,|{j:si∈dj}|是1,因为共有1个文本含有该特征‘Jim’。其他的权重依此类推来计算,最后可得到表2中的结果。
下面是在特征空间(Jim,like,movie,based,bad)上建立一个有向无环图。根据步骤二,需要把原来的两个文本变为一个大文本Jimlikethismovie.Itisbasedonabadmovie.。进而去掉停用词,标点符号后,变为Jimlikemoviebasedbadmovie。这两以构建一阶有向无环图为例来构图。图中的边为:Jim→like,like→movie,movie→based,based→bad,bad→movie。这两出现了一个环,按照随机去掉环上的边的方法,假设去掉边bad→movie。那么,这个有向无环图就变成Jim→like,like→movie,movie→based,based→bad。图上的每一条边的代价如表3所示:
表3
Jim→like like→movie movie→based based→bad
代价 0.64 0.64 0.69 0.64
每条边的代价是根据步骤二中,计算边的代价公式来计算的。比如Jim→like这条边,
p e neg = 0 + 1 0 + 1 + 2 = 1 3 , p e pos = 1 + 1 0 + 1 + 2 = 2 3
这是因为Jim→like这条边在正情感类中出现了1次,在负情感类中出现0次。然后根据下面式子计算出代价为0.64:
c = - ( 1 3 log 1 3 + 2 3 log 2 3 ) = 0.64
把每一个文本都转化为高维欧几里德空间中的一个向量后。根据L1-正则化逻辑回归分类器的目标函数:
, min &beta; | | &beta; | | 1 + Co &Sigma; j = 1 | D | log ( 1 + e - y j &beta; T x j ) ,
其中学习参数β∈Rm,Rm表示m维实数空间,|D|是文本集合Doc中文本的总数,取值为正整数,Co是调节惩罚项和损失函数之间关系的常数,取值为正实数。在训练数据集上训练得到分类器模型y=βTx。根据β的非零维度来进行特征选择。本例中β的维度是5,假设β的第三维是0(对应于特征movie),其余维度非零,那么根据步骤三,应该删掉文本的向量表示中对应的第三维。删除后的文本向量表示如表4所示:
表4
类别 文本向量表示
正情感类 x1=(0.23,0.23,0,0)
负情感类 x2=(0,0,0.23,0.23)
同时,建立的有向无环图也要删除对应的特征节点和相连的边,从而上面表4中的一阶有向无环图变如表5所示
表5
Jim→like based→bad
代价 0.64 0.64
进行了特征选择后,根据图稀疏化逻辑回归分类器的目标函数:
其中ν∈Rms是分类器学习的参数,Rms表示ms维实数空间,λ是调节惩罚项和损失函数之间关系的常数,取值为正实数,表示子图G中的所有路径组成的集合;子图G是从上面的图dG中选取的一个子图。
参数的计算公式如下:
表示要找到一个G中的子图,使得子图中的路径包含Supp(ν)中的点,并且子图的所有路径的代价的和最小。其中,的一个子集;并且遍历的所有子集
Supp(ν)={ii;νii≠0},
表示学习参数ν按照给出的组集合π计算的非零的组的序号。ii表示分类器学习参数ν的维度序号,ηg的计算公式如下:
&eta; g = c su 1 + &Sigma; ig = 1 pa - 1 c u ig u ig + 1 + c u pa t ,
表示这条路径中所有边的代价的和。其中,对于子图G中的一条路径g=(u1,…,uig...,upa),uig表示子图G中路径g上的任意一个节点,ig表示该节点的序号,upa表示路径g上的最后一个节点,s和t是子图G之外的两个虚拟的固定节点,两个固定节点与子图G中所有节点都有有向边相连,方向是点s指向子图G中任意一节点,子图G中任意一节点指向节点t,表示节点s指向路径g的第一个节点u1的边的代价,表示子图G中一条边的代价,表示路径g的最后一个点upa指向节点t的边的代价;
根据计算机文本训练样例得到分类器模型y=νTx′,x′为计算机文本的向量形式。假设训练得到的学习参数ν=(1,0,0,-1):
步骤四包括以下步骤:
对于一个输入文本d,假设新的文本是:Thismovieisbad(这部电影很糟糕)。根据步骤一转化为向量形式x′=(0,0,0,0.35)后,根据分类器模型y=νTx′判断文本的类别;
如果y>0,则为正类;
如果y<0,则为负类。
这里y=νTx′=-0.35<0,表示新文本为负类。
实施例2
本发明所用的算法全部由python语言编写实现。实验采用的机型为:IntelXeonX7550处理器,主频为2.00GHZ,内存为32G。本发明使用的liblinear和SPAMS工具包是目前通用的一个开源分类器训练包。
更具体地说,如图3所示,本发明运行如下:
1.使用词袋方法处理文本:使用词袋的方法把文本表示为一个由一组特征组成的特征向量;
2.使用图的方法处理文本:使用图的方法把整个特征空间表示为一个子图G,图上的每一个节点为一个特征。同时使用一阶,二阶,三阶图;
3.使用L1-正则化逻辑回归(L1-LR)作为特征选择工具进行特征空间降维;
4.利用图稀疏化逻辑回归分类器模型为文本分类。
实验数据准备如下:选取SentencePolarityDatasetV1.0和PolarityDatasetV2.0两个情感分类语料库作为训练数据集。SentencePolarityDatasetV1.0语料库包含5331个正情感类文本和5331个负情感类文本。每一个文本属于短文本,文本的内容是对电影的评价。PolarityDatasetV2.0语料库包含1000个正情感类文本和1000个负情感类文本。每一个文本属于长文本,文本的内容是对电影的评价。
表6中的数据表示分类精度,其数值越大越好。可以看出本发明在这两个数据集上的分类性能都是很好的。
表6实验结果:
数据集 Sentence Polarity Dataset V1.0 Polarity Dataset V2.011 -->
分类精度 81.9 92.3
本发明提供了一种基于图表示和图稀疏化逻辑回归的文本情感分类方法的思路,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (5)

1.一种计算机文本情感分类方法,其特征在于,包括以下步骤:
步骤一,使用词袋方法处理计算机文本:使用词袋方法把计算机文本表示为一个由一组特征组成的特征向量,每个计算机文本包括一个类标;
步骤二,使用图的方法处理计算机文本:使用有向无环图的方法把根据特征向量得到的整个特征空间表示为一个子图G,图上的每一个节点为一个特征;
步骤三,使用L1-正则化逻辑回归作为特征选择工具进行特征空间降维;
步骤四,利用图稀疏化逻辑回归分类器模型为文本分类;
步骤三包括以下步骤:
根据L1-正则化逻辑回归分类器的目标函数计算学习的参数β:
其中是|D|是文本集合Doc中文本的总数,取值为正整数,Co是调节惩罚项和损失函数之间关系的常数,取值为正实数,yj是文本dj的类标,xj是文本dj的向量形式;
根据计算机文本得到分类器模型y=βTx,x为计算机文本的向量形式;
学习参数向量β中,它为维度为m的向量,每一个维度对应于特征空间中的一个特征,根据向量β中非零的维度,选择出对应的特征空间中的特征,把未被选中的特征从特征空间中去掉,同时,在每一个文本的向量形式中,去掉未被选中的特征;
假设被选中的特征共有ms个,去掉未被选中的特征后,将向量形式xj变为x'j
x'j=(w′1,j,w′2,j,…,w′ms,j),
w′i,j表示原来的向量形式中对应的一个维度的值,
对于特征空间上建立的有向无环图,同样根据向量β中非零的维度去掉有向无环图dG中未被选中的特征和相关的边,得到子图G;
步骤四包括以下步骤:
根据图稀疏化逻辑回归分类器的目标函数:
其中ν∈Rms是分类器学习的参数,Rms表示ms维实数空间,λ是调节惩罚项和损失函数之间关系的常数,取值为正实数,表示子图G中的所有路径组成的集合;
参数的计算公式如下:
其中,的一个子集;并且遍历的所有子集;
Supp(ν)={ii;νii≠0},
ii表示分类器学习参数ν的维度序号,ηg的计算公式如下:
其中,对于子图G中的一条路径g=(u1,...,uig...,upa),uig表示子图G中路径g上的任意一个节点,ig表示该节点的序号,upa表示路径g上的最后一个节点,s和t是子图G之外的两个虚拟的固定节点,两个固定节点与子图G中所有节点都有有向边相连,方向是点s指向子图G中任意一节点,子图G中任意一节点指向节点t,表示节点s指向路径g的第一个节点u1的边的代价,表示子图G中一条边的代价,表示路径g的最后一个点upa指向节点t的边的代价;
根据计算机文本训练样例得到分类器模型y=νTx′,x′为计算机文本的向量形式。
2.根据权利要求1中所述的方法,其特征在于,步骤一包括以下步骤:
对于计算机文本集合Doc中的文本d=c1,c2,…cj…,ck,其中cj为文本d中的第j个词,j=1,2,…k,k表示文本d的总词数,用词袋的方法把文本d的表示为一个由一组特征组成的特征向量,表示为:(α12,…,αkk),其中,kk表示文本d去掉停用词后的总词数,特征向量中的每一维表示一个特征s,一个特征s对应一个词α。
3.根据权利要求2所述的方法,其特征在于,步骤一包括以下步骤:
根据词频逆向文件频率的计算公式计算特征向量中第i个特征si在第j个文本中的权重wij
其中ni,j是文本集合Doc中第j个文本dj的特征si在文本dj中出现的次数,|D|表示文本集合Doc中文本的总个数,nt,j是文本集合Doc中第j个文本dj中第t个特征在第j个文本出现的次数,t的取值为1~kk;
根据一个文本的所有特征的权重,把一个文本dj表示成如下向量形式xj
xj=(w1,j,w2,j,…,wm,j),
m表示文本集合Doc中所有文本的特征总数之和。
4.根据权利要求1中所述方法,其特征在于,步骤二包括以下步骤:
根据文本集合Doc中所有文本,抽取全部非重复特征,做为特征空间;
根据每一个文本的词序结构,以特征空间中每一个特征为节点,建立一个有向无环图dG。
5.根据权利要求4中所述方法,其特征在于,步骤二包括以下步骤:
有向无环图中每一条边的代价ce采用下面的计算公式进行计算:
其中是边e在文本集合Doc中的负类中出现的次数,是边e在文本集合Doc中的正类中出现的次数;表示边e在文本集合Doc中的负类中出现的概率,表示边e在文本集合Doc中的正类中出现的概率;
向量中,它为维度为6、根据权利要求1中所述的方法,其特征在于,步骤四包括以下步骤:
对于一个输入文本d,根据步骤一转化为向量形式x′后,根据分类器模型y=νTx′判断文本的类别;
如果y>0,则为正类;
如果y<0,则为负类。
CN201310462797.2A 2013-09-30 2013-09-30 一种计算机文本情感分类方法 Active CN103473380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310462797.2A CN103473380B (zh) 2013-09-30 2013-09-30 一种计算机文本情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310462797.2A CN103473380B (zh) 2013-09-30 2013-09-30 一种计算机文本情感分类方法

Publications (2)

Publication Number Publication Date
CN103473380A CN103473380A (zh) 2013-12-25
CN103473380B true CN103473380B (zh) 2016-04-13

Family

ID=49798228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310462797.2A Active CN103473380B (zh) 2013-09-30 2013-09-30 一种计算机文本情感分类方法

Country Status (1)

Country Link
CN (1) CN103473380B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729459A (zh) * 2014-01-10 2014-04-16 北京邮电大学 一种构建情感分类模型的方法
CN106294506B (zh) * 2015-06-10 2020-04-24 华中师范大学 领域自适应的观点数据分类方法及装置
CN105930368B (zh) * 2016-04-13 2019-07-30 深圳大学 一种情感分类方法及系统
CN107247728B (zh) * 2017-05-02 2021-04-27 北京星选科技有限公司 文本处理方法、装置及计算机存储介质
CN108984071B (zh) * 2017-06-01 2022-09-30 腾讯科技(深圳)有限公司 文本重组方法、装置、终端设备及计算机可读存储介质
CN107526785B (zh) * 2017-07-31 2020-07-17 广州市香港科大霍英东研究院 文本分类方法及装置
CN108595568B (zh) * 2018-04-13 2022-05-17 重庆邮电大学 一种基于极大无关多元逻辑回归的文本情感分类方法
CN110427548B (zh) * 2019-03-05 2021-06-29 北京京东尚科信息技术有限公司 信息推送方法、信息推送装置及计算机可读存储介质
CN110442683A (zh) * 2019-08-13 2019-11-12 北京明略软件系统有限公司 文本信息的处理方法及装置、存储介质、电子装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164483A (ja) * 2005-12-14 2007-06-28 Hiroki Kajima 広告文生成装置
CN102812475A (zh) * 2009-12-24 2012-12-05 梅塔瓦纳股份有限公司 确定在文档中所表达的情绪的系统和方法
CN102929861A (zh) * 2012-10-22 2013-02-13 杭州东信北邮信息技术有限公司 一种文本情感指数计算方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164483A (ja) * 2005-12-14 2007-06-28 Hiroki Kajima 広告文生成装置
CN102812475A (zh) * 2009-12-24 2012-12-05 梅塔瓦纳股份有限公司 确定在文档中所表达的情绪的系统和方法
CN102929861A (zh) * 2012-10-22 2013-02-13 杭州东信北邮信息技术有限公司 一种文本情感指数计算方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"中文文本情感分析综述";魏韡等;《计算机应用》;20111231;3321-3323 *

Also Published As

Publication number Publication date
CN103473380A (zh) 2013-12-25

Similar Documents

Publication Publication Date Title
CN103473380B (zh) 一种计算机文本情感分类方法
Mukherjee et al. Effect of negation in sentences on sentiment analysis and polarity detection
Li et al. A co-attention neural network model for emotion cause analysis with emotional context awareness
CN106055538B (zh) 主题模型和语义分析相结合的文本标签自动抽取方法
CN104951548B (zh) 一种负面舆情指数的计算方法及系统
CN104102626B (zh) 一种用于短文本语义相似度计算的方法
CN103049435B (zh) 文本细粒度情感分析方法及装置
Ortega et al. SSA-UO: unsupervised Twitter sentiment analysis
Tulkens et al. Evaluating unsupervised Dutch word embeddings as a linguistic resource
El-Halees Mining opinions in user-generated contents to improve course evaluation
CN101520802A (zh) 一种问答对的质量评价方法和系统
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN110598219A (zh) 一种面向豆瓣网电影评论的情感分析方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
Sadr et al. Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms
Kathuria et al. Real time sentiment analysis on twitter data using deep learning (Keras)
Kurniawan et al. Indonesian twitter sentiment analysis using Word2Vec
Sonawane et al. TCSD: term co-occurrence based sarcasm detection from twitter trends
Lim et al. Text sentiment analysis on twitter to identify positive or negative context in addressing inept regulations on social media platform
Rajendran et al. Is something better than nothing? automatically predicting stance-based arguments using deep learning and small labelled dataset
CN106126606A (zh) 一种短文本新词发现方法
Bloom et al. Automated learning of appraisal extraction patterns
Alam et al. Bangla news trend observation using LDA based topic modeling
Li et al. Confidence estimation and reputation analysis in aspect extraction
Ismail et al. Using custom fuzzy thesaurus to incorporate semantic and reduce data sparsity for twitter sentiment analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant