CN103473380A - 一种计算机文本情感分类方法 - Google Patents

一种计算机文本情感分类方法 Download PDF

Info

Publication number
CN103473380A
CN103473380A CN2013104627972A CN201310462797A CN103473380A CN 103473380 A CN103473380 A CN 103473380A CN 2013104627972 A CN2013104627972 A CN 2013104627972A CN 201310462797 A CN201310462797 A CN 201310462797A CN 103473380 A CN103473380 A CN 103473380A
Authority
CN
China
Prior art keywords
text
feature
subgraph
node
doc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013104627972A
Other languages
English (en)
Other versions
CN103473380B (zh
Inventor
戴新宇
付强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201310462797.2A priority Critical patent/CN103473380B/zh
Publication of CN103473380A publication Critical patent/CN103473380A/zh
Application granted granted Critical
Publication of CN103473380B publication Critical patent/CN103473380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提出了一种计算机文本情感分类方法,包括以下步骤:使用两种方法表示文本:使用词袋的方法把文本表示为一个由一组特征组成的特征向量;使用图的方法把整个特征空间表示为一个有向无环图,图上的每一个节点为一个特征;用L1-正则化逻辑回归作为特征选择工具进行特征空间降维。用降维后的特征向量和特征空间中的子图作为输入,利用图稀疏化逻辑回归分类器模型为文本分类。本发明对现有的基于词袋的文本表示方法进行改善和提高,能够避免词袋方法导致的文本结构信息丢失的问题。特征空间上建立的有向无环图可以很好地表示出文本的结构信息。同时,L1-正则化逻辑回归可以很好地选出关键特征,提高学习效率。

Description

一种计算机文本情感分类方法
技术领域
本发明涉及一种计算机文本数据处理领域,特别是一种计算机文本情感分类方法。
背景技术
随着当今世界信息量的急剧增加,以及计算机网络技术迅速普及和发展,虚拟生活越来越成为人们必不可少的东西。人们在网络中发表大量的观点,评论。在信息量爆炸的网络大数据时代,对数据的计算机分类多种多样,不同的分类有不同的作用。情感分类能够快速的把握人们对一类舆情的导向。因此如何对计算机文本进行情感分类成为重要的技术问题。比如,人们对某一个电影的影评,对某一部手机的评价等。能够自动的预测人们发表的评论的情感,可以帮助预测人们对某件事物的看法,进而有利于进一步改进产品等。用计算机自动的为这些评论进行情感分类,成为了当下非常热门的研究课题。文本的情感分类就是根据文本的内容,利用计算机给一个文本安排一个情感(正情感和负情感)。对于一个文本的情感分类任务,首先把每一个文本都映射到一个高维欧几里得空间,然后使用特征选择方法或特征抽取方法选出一部分对分类有用的特征。利用机器学习里的分类器,从大量的训练数据中学习出分类器模型,最后用这个分类器模型对未知情感的文本进行分类。近年来,随着机器学习技术的发展,文本情感分类方法取得了一系列重要的进展。而在文本的表示步骤中,基于词袋的文本表示方法因为其简单,高效的性质而得到了广泛的应用。但是这种表示方法忽略了文本的结构信息,无法表示出文本中词与词之间的内在结构关系。比如下面这个例子,他们是来自真实的用户评论数据库中,是用户对同一款数码相机的评价,并且这四个文本表达了同一个意思“在取景窗中可以看到镜头”:
文本1:lens visible in optical viewfinder.
文本2:lens is visible in the viewfinder.
文本3:lens barrel in the viewfinder.
文本4:the lens barrel does obstruct part of the lower left corner in the lens viewfinder.
通过这四个文本我们可以发现,如果一个句子中有lens和viewfinder这两个词同时出现在一起,这个评论就很有可能是一个负面评论。但是基于词袋的文本表示方法独立的看待每一个特征,并不能表示出这两个词同时出现在一起这个信息。而基于图的文本表示方法可以克服这个问题,构建三阶的有向图就可以把边lens→viewfinder这个重要信息建立出来。这样,这个有向边就会帮助学习器找出这个隐含的规律,从而提高文本情感分类的精度。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种计算机文本情感分类方法。
为了解决上述技术问题,本发明公开了一种文本情感分类方法,包括以下步骤:
步骤一,使用词袋方法处理计算机文本:使用词袋方法把计算机文本表示为一个由一组特征组成的特征向量,每个计算机文本包括一个类标;
步骤二,使用图的方法处理计算机文本:使用有向无环图的方法把根据特征向量得到的整个特征空间表示为一个子图G,图上的每一个节点为一个特征;
步骤三,使用L1-正则化逻辑回归作为特征选择工具进行特征空间降维;
步骤四,利用图稀疏化逻辑回归分类器模型为文本分类。
本权利步骤一包括以下步骤:
对于计算机文本集合Doc中的文本d=c1,c2,…cj…,ck,其中cj为文本d中的第j个词(英文文本中的单词,中文文本需要经过分词得到每一个词),j=1,2,…k,k表示文本d的总词数,用词袋的方法把文本d的表示为一个由一组特征组成的特征向量,表示为:(α1,α2,…,αkk),其中,kk表示文本d去掉停用词后的总词数,特征向量中的每一维表示一个特征s,一个特征s对应一个词α。
本权利步骤一包括以下步骤:
根据词频逆向文件频率(tf·idf)的计算公式计算特征向量中第i个特征si在第j个文本中的权重wij
w ij = n i , j Σ t n t , j × log | D | | { j : s i ∈ d j } | ,
其中ni,j是文本集合Doc中第j个文本dj的特征si在文本dj中出现的次数,|D|表示文本集合Doc中文本的总个数,nt,j是文本集合Doc中第j个文本dj中第t个特征在第j个文本出现的次数,t的取值为1~kk;
根据一个文本的所有特征的权重,把一个文本dj表示成如下向量形式xj
xj=(w1,j,w2,j,...,wm,j),
m表示文本集合Doc中所有文本的特征总数之和。
本权利步骤二包括以下步骤:
根据文本集合Doc中所有文本,抽取全部非重复特征,做为特征空间;
根据每一个文本的词序结构(也就是指词于词之间的顺序),以特征空间中每一个特征为节点,建立一个有向无环图dG。方法如下:首先把训练集中的所有文本按顺序(随机顺序或者人为设定顺序)组合成一个大文本Da。然后去掉Da中的标点符号和停用词得到新的文本Sa。根据这个文本Sa在特征空间上面建立图dG。建立的过程根据所选阶数的不同而不同。n阶的有向无环图建立过程如下:遍历Sa中的词,把当前遍历的词和该词后的第n个词之间建立一条有向边。当前词指向它后面的词。建立完成图后,检查建立的图,如果发现有环出现,采用随机去掉环中某一条边的方法,直到整个图变成无环图。最后得到dG。假设训练集有四篇文本为:Jim like this movie.(吉姆喜欢这个电影);I like movie.(我喜欢这个电影),Jim like this movie.(吉姆喜欢这个电影),It is based on a bad thing.(它基于一个糟糕的事情)。首先,把这四个文本组成一个文本:Jim like this movie.I like movie.Jim like this movie.It is based on a bad thing。然后去掉停用词,标点符号,得到处理过后的文本:df=Jim like movie like movie Jim likemovie based bad thing。建立特征空间:Jim,like,movie,based,bad,thing。通过df的结构信息在特征空间上建立一个有向无环图。建立的过程根据所选阶数的不同而不同。n阶的有向无环图建立过程如下:遍历df中的词,把当前遍历的词和该词后的第n个词之间建立一条有向边。当前词指向它后面的词。比如一阶有向无环图建立如下:Jim→like,like→movie,movie→like,movie→Jim,movie→based,based→bad,bad→thing。在整个建立的图中,如果发现有环出现,采用随机去掉环中某一条边的方法,直到整个图变成无环图。二阶有向无环图建立如下:Jim→movie,like→like,movie→movie,like→Jim,movie→like,like→based,movie→bad,based→thing。建立完成图后,检查建立的图,如果发现有环出现,采用随机去掉环中某一条边的方法,直到整个图变成无环图。
本权利步骤二包括以下步骤:
有向无环图中每一条边的代价ce采用下面的计算公式进行计算:
p e neg = count e neg + 1 count e neg + count e pos + 2
p e pos = count e pos + 1 count e neg + count e pos + 2
c e = - ( p e neg log p e neg + p e pos log p e pos ) ,
其中
Figure BDA0000391377130000044
是边e在文本集合Doc中的负类中出现的次数,
Figure BDA0000391377130000045
是边e在文本集合Doc中的正类中出现的次数。
Figure BDA0000391377130000046
表示边e在文本集合Doc中的负类中出现的概率,
Figure BDA0000391377130000047
表示边e在文本集合Doc中的正类中出现的概率。其中正,负类的划分是根据文本集合Doc中每一个文本带有的类标记来划分的。
本权利步骤三包括以下步骤:
根据L1-正则化逻辑回归分类器的目标函数计算学习的参数β:
min β | | β | | 1 + Co Σ j = 1 | D | log ( 1 + e - y j β T x j ) ,
其中学习参数β∈Rm,Rm表示m维实数空间,|D|是文本集合Doc中文本的总数,取值为正整数,Co是调节惩罚项和损失函数之间关系的常数,取值为正实数,yj是文本dj的类标,xj是文本dj的向量形式;
根据计算机文本得到分类器模型yyβTx,x为计算机文本的向量形式。
本权利步骤三包括以下步骤:
学习参数向量β中,它为维度为m的向量,每一个维度对应于特征空间中的一个特征,根据向量β中非零的维度,选择出对应的特征空间中的特征,把未被选中的特征从特征空间中去掉,同时,在每一个文本的向量形式中,去掉未被选中的特征;
假设被选中的特征共有ms个,去掉未被选中的特征后,将向量形式xj变为x'j
x'j=(w′1,j,w′2,j,…,w′ms,j),
w′i,j表示原来的向量形式中对应的一个维度的值,
对于特征空间上建立的有向无环图,同样根据向量β中非零的维度去掉有向无环图dG中未被选中的特征和相关的边,得到子图G。
本权利步骤四包括以下步骤:
根据图稀疏化逻辑回归分类器的目标函数:
Figure BDA0000391377130000051
上面的函数训练方法采用Mairal,J.,Yu,B.:Supervised Feature Selection in Graphswith Path Coding Penalties and Network Flows.arXiv:1204.4539v1.(2012)中的方法。其中ν∈Rms是分类器学习的参数,Rms表示ms维实数空间,λ是调节惩罚项和损失函数之间关系的常数,取值为正实数,表示子图G中的所有路径组成的集合;子图G是从上面的图dG中选取的一个子图。
参数
Figure BDA0000391377130000055
的计算公式如下:
Figure BDA0000391377130000052
表示要找到一个G中的子图,使得子图中的路径包含Supp(ν)中的点,并且子图的所有路径的代价的和最小。其中,
Figure BDA0000391377130000056
Figure BDA0000391377130000057
的一个子集;并且遍历的所有子集
Supp(ν)={ii;νii≠0},
表示学习参数ν按照给出的组集合π计算的非零的组的序号。ii表示分类器学习参数ν的维度序号,ηg的计算公式如下:
η g = c su 1 + Σ ig = 1 pa - 1 c u ig u ig + 1 + c u pa t ,
表示这条路径中所有边的代价的和。其中,对于子图G中的一条路径g=(u1,…,uig...,upa),uig表示子图G中路径g上的任意一个节点,ig表示该节点的序号,upa表示路径g上的最后一个节点,s和t是子图G之外的两个虚拟的固定节点,两个固定节点与子图G中所有节点都有有向边相连,方向是点s指向子图G中任意一节点,子图G中任意一节点指向节点t,
Figure BDA0000391377130000061
表示节点s指向路径g的第一个节点u1的边的代价,
Figure BDA0000391377130000062
表示子图G中一条边的代价,
Figure BDA0000391377130000063
表示路径g的最后一个点upa指向节点t的边的代价;
根据计算机文本训练样例得到分类器模型y=νTx′,x′为计算机文本的向量形式。
本权利步骤四包括以下步骤:
对于一个输入文本d,根据步骤一转化为向量形式x′后,根据分类器模型y=νTx′判断文本的类别;
如果y>0,则为正类;
如果y<0,则为负类。
根据最终得到的分类器模型,可以为新的未知文本进行情感分类。
有益效果:本发明避免了词袋的表示方法所带来的对文本情感分类性能的影响。通过使用基于图的文本表示方法,可以保留了丢失的关键结构信息。同时,L1-正则化逻辑回归可以很好的选出关键特征,提高学习效率。图稀疏化逻辑回归分类器可以很好的根据建立的有向无环图选择出有用的特征,提高文本情感分类的精度的同时,还加强了分类模型的可解释性。
本发明对现有的基于词袋表示方法的文本情感分类方法进行改善和提高,能够避免结构信息丢失对分类精度产生的不良影响。文本的结构信息对于情感分类是十分重要的,用户评论的情感是通过很多词之间的组合来表现出来的,这种组合的结构才是判断情感的关键。同时L1-正则化逻辑回归分类器可以很好地选择出关键特征,提高学习效率,图稀疏化逻辑回归分类器可以很好的根据建立的有向无环图选择出有用的特征,提高文本情感分类的精度的同时,还加强了分类模型的可解释性。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的流程图。
图2是本发明的文本图表示示例。
图3是实施例1中的图表示。
具体实施方式
本发明提出了一种基于图表示和图稀疏化逻辑回归的文本情感分类方法。可以避免文本结构信息丢失产生的对情感分类精度的影响。现有的技术中,文本情感分类通常使用词袋表示方法对文本进行预处理。
本发明的计算机文本情感分类方法,包括以下步骤。
步骤一,使用词袋方法处理计算机文本:使用词袋方法把计算机文本表示为一个由一组特征组成的特征向量,每个计算机文本包括一个类标;
步骤二,使用图的方法处理计算机文本:使用有向无环图的方法把根据特征向量得到的整个特征空间表示为一个子图G,图上的每一个节点为一个特征;
步骤三,使用L1-正则化逻辑回归作为特征选择工具进行特征空间降维;
步骤四,利用图稀疏化逻辑回归分类器模型为文本分类。
步骤一包括以下步骤:
对于计算机文本集合Doc中的文本d=c1,c2,…cj…,ck,其中cj为文本d中的第j个词(英文文本中的单词,中文文本需要经过分词得到每一个词),j=1,2,…k,k表示文本d的总词数,用词袋的方法把文本d的表示为一个由一组特征组成的特征向量,表示为:(α1,α2,…,αkk)其中,kk表示文本d去掉停用词后的总词数,特征向量中的每一维表示一个特征s,一个特征s对应一个词α。
本权利步骤一包括以下步骤:
根据词频逆向文件频率(tf·idf)的计算公式计算特征向量中第i个特征si在第j个文本中的权重wij
w ij = n i , j &Sigma; t n t , j &times; log | D | | { j : s i &Element; d j } | ,
其中ni,j是文本集合Doc中第j个文本dj的特征si在文本dj中出现的次数,|D|表示文本集合Doc中文本的总个数,nt,j是文本集合Doc中第j个文本dj中第t个特征在第j个文本出现的次数,t的取值为1~kk;
根据一个文本的所有特征的权重,把一个文本dj表示成如下向量形式xj
xj=(w1,j,w2,j,...,wm,j),
m表示文本集合Doc中所有文本的特征总数之和。
步骤二包括以下步骤:
根据文本集合Doc中所有文本,抽取全部非重复特征,做为特征空间;
根据每一个文本的词序结构(也就是指词于词之间的顺序),以特征空间中每一个特征为节点,建立一个有向无环图dG。方法如下:首先把训练集中的所有文本按顺序(随机顺序或者人为设定顺序)组合成一个大文本Da。然后去掉Da中的标点符号和停用词得到新的文本Sa。根据这个文本Sa在特征空间上面建立图dG。建立的过程根据所选阶数的不同而不同。n阶的有向无环图建立过程如下:遍历Sa中的词,把当前遍历的词和该词后的第n个词之间建立一条有向边。当前词指向它后面的词。建立完成图后,检查建立的图,如果发现有环出现,采用随机去掉环中某一条边的方法,直到整个图变成无环图。最后得到dG。如图2所示(由于本例子以英文为实例,因此不可避免的在附图中出现英文单词),假设训练集有四篇文本为:Jim like this movie.(吉姆喜欢这个电影);I like movie.(我喜欢这个电影),Jim like this movie.(吉姆喜欢这个电影),It is based on a bad thing.(它基于一个糟糕的事情)。首先,把这四个文本组成一个文本:Jim like this movie.I like movie.Jim like this movie.It is based on a bad thing。然后去掉停用词,标点符号,得到处理过后的文本:df=Jim like movie like movie Jim likemovie based bad thing。建立特征空间:Jim,like,movie,based,bad,thing。通过df的结构信息在特征空间上建立一个有向无环图。建立的过程根据所选阶数的不同而不同。n阶的有向无环图建立过程如下:遍历df中的词,把当前遍历的词和该词后的第n个词之间建立一条有向边。当前词指向它后面的词。比如一阶有向无环图建立如下:Jim→like,like→movie,movie→like,movie→Jim,movie→based,based→bad,bad→thing。在整个建立的图中,如果发现有环出现,采用随机去掉环中某一条边的方法,直到整个图变成无环图。二阶有向无环图建立如下:Jim→movie,like→like,movie→movie,like→Jim,movie→like,like→based,movie→bad,based→thing。建立完成图后,检查建立的图,如果发现有环出现,采用随机去掉环中某一条边的方法,直到整个图变成无环图。
步骤二包括以下步骤:
有向无环图中每一条边的代价ce采用下面的计算公式进行计算:
p e neg = count e neg + 1 count e neg + count e pos + 2
p e pos = count e pos + 1 count e neg + count e pos + 2
c e = - ( p e neg log p e neg + p e pos log p e pos ) ,
其中
Figure BDA0000391377130000094
是边e在文本集合Doc中的负类中出现的次数,
Figure BDA0000391377130000095
是边e在文本集合Doc中的正类中出现的次数。
Figure BDA0000391377130000096
表示边e在文本集合Doc中的负类中出现的概率,表示边e在文本集合Doc中的正类中出现的概率。其中正,负类的划分是根据文本集合Doc中每一个文本带有的类标记来划分的。
步骤三包括以下步骤:
根据L1-正则化逻辑回归分类器的目标函数计算学习的参数β:
min &beta; | | &beta; | | 1 + Co &Sigma; j = 1 | D | log ( 1 + e - y j &beta; T x j ) ,
其中学习参数β∈Rm,Rm表示m维实数空间,|D|是文本集合Doc中文本的总数,取值为正整数,Co是调节惩罚项和损失函数之间关系的常数,取值为正实数,yj是文本dj的类标,xj是文本dj的向量形式;
根据计算机文本得到分类器模型yyβTx,x为计算机文本的向量形式。
步骤三包括以下步骤:
学习参数向量β中,它为维度为m的向量,每一个维度对应于特征空间中的一个特征,根据向量β中非零的维度,选择出对应的特征空间中的特征,把未被选中的特征从特征空间中去掉,同时,在每一个文本的向量形式中,去掉未被选中的特征;
假设被选中的特征共有ms个,去掉未被选中的特征后,将向量形式xj变为x'j
x'j=(w′1,j,w′2,j,…,w′ms,j),
w′i,j表示原来的向量形式中对应的一个维度的值,
对于特征空间上建立的有向无环图,同样根据向量β中非零的维度去掉有向无环图dG中未被选中的特征和相关的边,得到子图G。
步骤四包括以下步骤:
根据图稀疏化逻辑回归分类器的目标函数:
Figure BDA0000391377130000101
上面的函数训练方法采用Mairal,J.,Yu,B.:Supervised Feature Selection in Graphswith Path Coding Penalties and Network Flows.arXiv:1204.4539v1.(2012)中的方法。其中ν∈Rms是分类器学习的参数,Rms表示ms维实数空间,λ是调节惩罚项和损失函数之间关系的常数,取值为正实数,
Figure BDA0000391377130000104
表示子图G中的所有路径组成的集合;子图G是从上面的图dG中选取的一个子图。
参数
Figure BDA0000391377130000105
的计算公式如下:
Figure BDA0000391377130000102
表示要找到一个G中的子图,使得子图中的路径包含Supp(ν)中的点,并且子图的所有路径的代价的和最小。其中,
Figure BDA0000391377130000108
的一个子集;并且遍历
Figure BDA0000391377130000106
的所有子集;
Supp(ν)={ii;νii≠0},
表示学习参数ν按照给出的组集合π计算的非零的组的序号。ii表示分类器学习参数ν的维度序号,ηg的计算公式如下:
&eta; g = c su 1 + &Sigma; ig = 1 pa - 1 c u ig u ig + 1 + c u pa t ,
表示这条路径中所有边的代价的和。其中,对于子图G中的一条路径g=(u1,…,uig...,upa),uig表示子图G中路径g上的任意一个节点,ig表示该节点的序号,upa表示路径g上的最后一个节点,s和t是子图G之外的两个虚拟的固定节点,两个固定节点与子图G中所有节点都有有向边相连,方向是点s指向子图G中任意一节点,子图G中任意一节点指向节点t,
Figure BDA0000391377130000111
表示节点s指向路径g的第一个节点u1的边的代价,
Figure BDA0000391377130000112
表示子图G中一条边的代价,
Figure BDA0000391377130000113
表示路径g的最后一个点upa指向节点t的边的代价;
根据计算机文本训练样例得到分类器模型y=νTx′,x′为计算机文本的向量形式。
步骤四包括以下步骤:
对于一个输入文本d,根据步骤一转化为向量形式x′后,根据分类器模型y=νTx′判断文本的类别;
如果y>0,则为正类;
如果y<0,则为负类。
实施例1
如图3所示(由于本实施例以英文为实例,因此不可避免的在附图中出现英文单词),假设一个情感分类问题,要分类的文本是:
A、正情感类:“Jim like this movie.”(吉姆喜欢这个电影),记为d1
B、负情感类:“It is based on a badmovie.”(它是基于一个糟糕的电影),记为d2
首先去掉停用词,把这两个文本表示成表1的形式:
表1
类别 文本表示
正情感类 d1=(Jim,like,movie)
负情感类 d2=(based,bad,movie)
使用tf·idf作为特征的权重。特征的tf·idf定义如下:
n i , j &Sigma; t n t , j &times; log | D | | { j : s i &Element; d j } | ,
这里ni,j是第i个特征si在第j个文本dj中出现的次数。|D|表示文本的总个数,本实施例为3。最后,把一个文本dj表示成如下形式:
xj=(w1,j,w2,j,...,wm,j),
其中wi,j表示第i个特征在第j个文本中的权重值。m表示所有文本的特征总数。对应上面的两个文本,提取出来的所有的特征是:Jim,like,movie,based,bad。m为5,其中重复特征movie只计算为1。
最后表示成表2的形式:
表2
类别 文本向量表示
正情感类 x1=(0.23,0.23,0,0,0)
负情感类 x2=(0,0,0,0.23,0.23)
表2中每一个权重是根据词频逆向文件频率的方法计算而来的。比如对于x1向量的第一维,对应特征‘Jim’,权重是0.23。它是根据下面的式子计算而来的
1 3 &times; log 2 1 = 0.23
这里ni,j是1,因为它在文本d1里面出现了1次,同理可得∑tnt,j是3,|D|因为训练数据集总共有2个文本,所以是2,|{j:si∈dj}|是1,因为共有1个文本含有该特征‘Jim’。其他的权重依此类推来计算,最后可得到表2中的结果。
下面是在特征空间(Jim,like,movie,based,bad)上建立一个有向无环图。根据步骤二,需要把原来的两个文本变为一个大文本Jim like this movie.It is based on abadmovie.。进而去掉停用词,标点符号后,变为Jim like moviebasedbadmovie。这两以构建一阶有向无环图为例来构图。图中的边为:Jim→like,like→movie,movie→based,based→bad,bad→movie。这两出现了一个环,按照随机去掉环上的边的方法,假设去掉边bad→movie。那么,这个有向无环图就变成Jim→like,like→movie,movie→based,based→bad。图上的每一条边的代价如表3所示:
表3
Jim→like like→movie movie→based based→bad
代价 0.64 0.64 0.69 0.64
每条边的代价是根据步骤二中,计算边的代价公式来计算的。比如Jim→like这条边,
p e neg = 0 + 1 0 + 1 + 2 = 1 3 , p e pos = 1 + 1 0 + 1 + 2 = 2 3
这是因为Jim→like这条边在正情感类中出现了1次,在负情感类中出现0次。然后根据下面式子计算出代价为0.64:
c = - ( 1 3 log 1 3 + 2 3 log 2 3 ) = 0.64
把每一个文本都转化为高维欧几里德空间中的一个向量后。根据L1-正则化逻辑回归分类器的目标函数:
, min &beta; | | &beta; | | 1 + Co &Sigma; j = 1 | D | log ( 1 + e - y j &beta; T x j ) ,
其中学习参数β∈Rm,Rm表示m维实数空间,|D|是文本集合Doc中文本的总数,取值为正整数,Co是调节惩罚项和损失函数之间关系的常数,取值为正实数。在训练数据集上训练得到分类器模型y=βTx。根据β的非零维度来进行特征选择。本例中β的维度是5,假设β的第三维是0(对应于特征movie),其余维度非零,那么根据步骤三,应该删掉文本的向量表示中对应的第三维。删除后的文本向量表示如表4所示:
表4
类别 文本向量表示
正情感类 x1=(0.23,0.23,0,0)
负情感类 x2=(0,0,0.23,0.23)
同时,建立的有向无环图也要删除对应的特征节点和相连的边,从而上面表4中的一阶有向无环图变如表5所示
表5
Jim→like based→bad
代价 0.64 0.64
进行了特征选择后,根据图稀疏化逻辑回归分类器的目标函数:
Figure BDA0000391377130000141
其中ν∈Rms是分类器学习的参数,Rms表示ms维实数空间,λ是调节惩罚项和损失函数之间关系的常数,取值为正实数,
Figure BDA0000391377130000147
表示子图G中的所有路径组成的集合;子图G是从上面的图dG中选取的一个子图。
参数的计算公式如下:
Figure BDA0000391377130000142
表示要找到一个G中的子图,使得子图中的路径包含Supp(ν)中的点,并且子图的所有路径的代价的和最小。其中,
Figure BDA00003913771300001410
的一个子集;并且遍历
Figure BDA00003913771300001411
的所有子集
Supp(ν)={ii;νii≠0},
表示学习参数ν按照给出的组集合π计算的非零的组的序号。ii表示分类器学习参数ν的维度序号,ηg的计算公式如下:
&eta; g = c su 1 + &Sigma; ig = 1 pa - 1 c u ig u ig + 1 + c u pa t ,
表示这条路径中所有边的代价的和。其中,对于子图G中的一条路径g=(u1,…,uig...,upa),uig表示子图G中路径g上的任意一个节点,ig表示该节点的序号,upa表示路径g上的最后一个节点,s和t是子图G之外的两个虚拟的固定节点,两个固定节点与子图G中所有节点都有有向边相连,方向是点s指向子图G中任意一节点,子图G中任意一节点指向节点t,表示节点s指向路径g的第一个节点u1的边的代价,
Figure BDA0000391377130000145
表示子图G中一条边的代价,
Figure BDA0000391377130000146
表示路径g的最后一个点upa指向节点t的边的代价;
根据计算机文本训练样例得到分类器模型y=νTx′,x′为计算机文本的向量形式。假设训练得到的学习参数ν=(1,0,0,-1):
步骤四包括以下步骤:
对于一个输入文本d,假设新的文本是:This movie is bad(这部电影很糟糕)。根据步骤一转化为向量形式x′=(0,0,0,0.35)后,根据分类器模型y=νTx′判断文本的类别;
如果y>0,则为正类;
如果y<0,则为负类。
这里y=νTx′=-0.35<0,表示新文本为负类。
实施例2
本发明所用的算法全部由python语言编写实现。实验采用的机型为:Intel XeonX7550处理器,主频为2.00G HZ,内存为32G。本发明使用的liblinear和SPAMS工具包是目前通用的一个开源分类器训练包。
更具体地说,如图3所示,本发明运行如下:
1.使用词袋方法处理文本:使用词袋的方法把文本表示为一个由一组特征组成的特征向量;
2.使用图的方法处理文本:使用图的方法把整个特征空间表示为一个子图G,图上的每一个节点为一个特征。同时使用一阶,二阶,三阶图;
3.使用L1-正则化逻辑回归(L1-LR)作为特征选择工具进行特征空间降维;
4.利用图稀疏化逻辑回归分类器模型为文本分类。
实验数据准备如下:选取Sentence Polarity Dataset V1.0和Polarity Dataset V2.0两个情感分类语料库作为训练数据集。Sentence Polarity Dataset V1.0语料库包含5331个正情感类文本和5331个负情感类文本。每一个文本属于短文本,文本的内容是对电影的评价。Polarity Dataset V2.0语料库包含1000个正情感类文本和1000个负情感类文本。每一个文本属于长文本,文本的内容是对电影的评价。
表6中的数据表示分类精度,其数值越大越好。可以看出本发明在这两个数据集上的分类性能都是很好的。
表6实验结果:
数据集 Sentence Polarity Dataset V1.0 Polarity Dataset V2.0
分类精度 81.9 92.3
本发明提供了一种基于图表示和图稀疏化逻辑回归的文本情感分类方法的思路,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (9)

1.一种计算机文本情感分类方法,其特征在于,包括以下步骤:
步骤一,使用词袋方法处理计算机文本:使用词袋方法把计算机文本表示为一个由一组特征组成的特征向量,每个计算机文本包括一个类标;
步骤二,使用图的方法处理计算机文本:使用有向无环图的方法把根据特征向量得到的整个特征空间表示为一个子图G,图上的每一个节点为一个特征;
步骤三,使用L1-正则化逻辑回归作为特征选择工具进行特征空间降维;
步骤四,利用图稀疏化逻辑回归分类器模型为文本分类。
2.根据权利要求1中所述的方法,其特征在于,步骤一包括以下步骤:
对于计算机文本集合Doc中的文本d=c1,c2,…cj…,ck,其中cj为文本d中的第j个词,j=1,2,…k,k表示文本d的总词数,用词袋的方法把文本d的表示为一个由一组特征组成的特征向量,表示为:(α12,…,αkk),其中,kk表示文本d去掉停用词后的总词数,特征向量中的每一维表示一个特征s,一个特征s对应一个词α。
3.根据权利要求2所述的方法,其特征在于,步骤一包括以下步骤:
根据词频逆向文件频率的计算公式计算特征向量中第i个特征si在第j个文本中的权重wij
w ij = n i , j &Sigma; t n t , j &times; log | D | | { j : s i &Element; d j } | ,
其中ni,j是文本集合Doc中第j个文本dj的特征si在文本dj中出现的次数,|D|表示文本集合Doc中文本的总个数,nt,j是文本集合Doc中第j个文本dj中第t个特征在第j个文本出现的次数,t的取值为1~kk;
根据一个文本的所有特征的权重,把一个文本dj表示成如下向量形式xj
xj=(w1,j,w2,j,...,wm,j),
m表示文本集合Doc中所有文本的特征总数之和。
4.根据权利要求1中所述方法,其特征在于,步骤二包括以下步骤:
根据文本集合Doc中所有文本,抽取全部非重复特征,做为特征空间;
根据每一个文本的词序结构,以特征空间中每一个特征为节点,建立一个有向无环图dG。
5.根据权利要求4中所述方法,其特征在于,步骤二包括以下步骤:
有向无环图中每一条边的代价ce采用下面的计算公式进行计算:
p e neg = count e neg + 1 count e neg + count e pos + 2
p e pos = count e pos + 1 count e neg + count e pos + 2
c e = - ( p e neg log p e neg + p e pos log p e pos ) ,
其中
Figure FDA0000391377120000024
是边e在文本集合Doc中的负类中出现的次数,
Figure FDA0000391377120000025
是边e在文本集合Doc中的正类中出现的次数。
Figure FDA0000391377120000026
表示边e在文本集合Doc中的负类中出现的概率,
Figure FDA0000391377120000027
表示边e在文本集合Doc中的正类中出现的概率。
6.根据权利要求1中所述方法,其特征在于,步骤三包括以下步骤:
根据L1-正则化逻辑回归分类器的目标函数计算学习的参数β:
min &beta; | | &beta; | | 1 + Co &Sigma; j = 1 | D | log ( 1 + e - y j &beta; T x j ) ,
其中是|D|是文本集合Doc中文本的总数,取值为正整数,Co是调节惩罚项和损失函数之间关系的常数,取值为正实数,yj是文本dj的类标,xj是文本dj的向量形式;
根据计算机文本得到分类器模型y=βTx,x为计算机文本的向量形式。
7.根据权利要求6中所述的方法,其特征在于,步骤三包括以下步骤:
学习参数向量β中,它为维度为m的向量,每一个维度对应于特征空间中的一个特征,根据向量β中非零的维度,选择出对应的特征空间中的特征,把未被选中的特征从特征空间中去掉,同时,在每一个文本的向量形式中,去掉未被选中的特征;
假设被选中的特征共有ms个,去掉未被选中的特征后,将向量形式xj变为x'j
X′j=(w′1,j,w′2,j,...w′ms,j),
w′i,j表示原来的向量形式中对应的一个维度的值,
对于特征空间上建立的有向无环图,同样根据向量β中非零的维度去掉有向无环图dG中未被选中的特征和相关的边,得到子图G。
8.根据权利要求7中所述的方法,其特征在于,步骤四包括以下步骤:
根据图稀疏化逻辑回归分类器的目标函数:
Figure FDA0000391377120000031
其中ν∈Rms是分类器学习的参数,Rms表示ms维实数空间,λ是调节惩罚项和损失函数之间关系的常数,取值为正实数,
Figure FDA0000391377120000037
表示子图G中的所有路径组成的集合;
参数
Figure FDA0000391377120000038
的计算公式如下:
Figure FDA0000391377120000032
其中,
Figure FDA0000391377120000039
Figure FDA00003913771200000310
的一个子集;并且遍历的所有子集;
Supp(ν)={ii;νii≠0},
ii表示分类器学习参数ν的维度序号,ηg的计算公式如下:
&eta; g = c su 1 + &Sigma; ig = 1 pa - 1 c u ig u ig + 1 + c u pa t ,
其中,对于子图G中的一条路径g=(u1,…,uig...,upa),uig表示子图G中路径g上的任意一个节点,ig表示该节点的序号,upa表示路径g上的最后一个节点,s和t是子图G之外的两个虚拟的固定节点,两个固定节点与子图G中所有节点都有有向边相连,方向是点s指向子图G中任意一节点,子图G中任意一节点指向节点t,
Figure FDA0000391377120000034
表示节点s指向路径g的第一个节点u1的边的代价,
Figure FDA0000391377120000035
表示子图G中一条边的代价,
Figure FDA0000391377120000036
表示路径g的最后一个点upa指向节点t的边的代价;
根据计算机文本训练样例得到分类器模型y=νTx′,x′为计算机文本的向量形式。
9.根据权利要求8中所述的方法,其特征在于,步骤四包括以下步骤:
对于一个输入文本d,根据步骤一转化为向量形式x′后,根据分类器模型y=νTx′判断文本的类别;
如果y>0,则为正类;
如果y<0,则为负类。
CN201310462797.2A 2013-09-30 2013-09-30 一种计算机文本情感分类方法 Active CN103473380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310462797.2A CN103473380B (zh) 2013-09-30 2013-09-30 一种计算机文本情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310462797.2A CN103473380B (zh) 2013-09-30 2013-09-30 一种计算机文本情感分类方法

Publications (2)

Publication Number Publication Date
CN103473380A true CN103473380A (zh) 2013-12-25
CN103473380B CN103473380B (zh) 2016-04-13

Family

ID=49798228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310462797.2A Active CN103473380B (zh) 2013-09-30 2013-09-30 一种计算机文本情感分类方法

Country Status (1)

Country Link
CN (1) CN103473380B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729459A (zh) * 2014-01-10 2014-04-16 北京邮电大学 一种构建情感分类模型的方法
CN105930368A (zh) * 2016-04-13 2016-09-07 深圳大学 一种情感分类方法及系统
CN106294506A (zh) * 2015-06-10 2017-01-04 华中师范大学 领域自适应的观点数据分类方法及装置
CN107247728A (zh) * 2017-05-02 2017-10-13 北京小度信息科技有限公司 文本处理方法、装置及计算机存储介质
CN107526785A (zh) * 2017-07-31 2017-12-29 广州市香港科大霍英东研究院 文本分类方法及装置
CN108595568A (zh) * 2018-04-13 2018-09-28 重庆邮电大学 一种基于极大无关多元逻辑回归的文本情感分类方法
WO2018219261A1 (zh) * 2017-06-01 2018-12-06 腾讯科技(深圳)有限公司 文本重组方法、装置、终端设备及计算机可读存储介质
CN110427548A (zh) * 2019-03-05 2019-11-08 北京京东尚科信息技术有限公司 信息推送方法、信息推送装置及计算机可读存储介质
CN110442683A (zh) * 2019-08-13 2019-11-12 北京明略软件系统有限公司 文本信息的处理方法及装置、存储介质、电子装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164483A (ja) * 2005-12-14 2007-06-28 Hiroki Kajima 広告文生成装置
CN102812475A (zh) * 2009-12-24 2012-12-05 梅塔瓦纳股份有限公司 确定在文档中所表达的情绪的系统和方法
CN102929861A (zh) * 2012-10-22 2013-02-13 杭州东信北邮信息技术有限公司 一种文本情感指数计算方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164483A (ja) * 2005-12-14 2007-06-28 Hiroki Kajima 広告文生成装置
CN102812475A (zh) * 2009-12-24 2012-12-05 梅塔瓦纳股份有限公司 确定在文档中所表达的情绪的系统和方法
CN102929861A (zh) * 2012-10-22 2013-02-13 杭州东信北邮信息技术有限公司 一种文本情感指数计算方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
魏韡等: ""中文文本情感分析综述"", 《计算机应用》, 31 December 2011 (2011-12-31), pages 3321 - 3323 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729459A (zh) * 2014-01-10 2014-04-16 北京邮电大学 一种构建情感分类模型的方法
CN106294506B (zh) * 2015-06-10 2020-04-24 华中师范大学 领域自适应的观点数据分类方法及装置
CN106294506A (zh) * 2015-06-10 2017-01-04 华中师范大学 领域自适应的观点数据分类方法及装置
CN105930368A (zh) * 2016-04-13 2016-09-07 深圳大学 一种情感分类方法及系统
CN105930368B (zh) * 2016-04-13 2019-07-30 深圳大学 一种情感分类方法及系统
CN107247728A (zh) * 2017-05-02 2017-10-13 北京小度信息科技有限公司 文本处理方法、装置及计算机存储介质
CN107247728B (zh) * 2017-05-02 2021-04-27 北京星选科技有限公司 文本处理方法、装置及计算机存储介质
CN108984071B (zh) * 2017-06-01 2022-09-30 腾讯科技(深圳)有限公司 文本重组方法、装置、终端设备及计算机可读存储介质
WO2018219261A1 (zh) * 2017-06-01 2018-12-06 腾讯科技(深圳)有限公司 文本重组方法、装置、终端设备及计算机可读存储介质
CN108984071A (zh) * 2017-06-01 2018-12-11 腾讯科技(深圳)有限公司 文本重组方法、装置、终端设备及计算机可读存储介质
CN107526785A (zh) * 2017-07-31 2017-12-29 广州市香港科大霍英东研究院 文本分类方法及装置
CN107526785B (zh) * 2017-07-31 2020-07-17 广州市香港科大霍英东研究院 文本分类方法及装置
CN108595568B (zh) * 2018-04-13 2022-05-17 重庆邮电大学 一种基于极大无关多元逻辑回归的文本情感分类方法
CN108595568A (zh) * 2018-04-13 2018-09-28 重庆邮电大学 一种基于极大无关多元逻辑回归的文本情感分类方法
CN110427548A (zh) * 2019-03-05 2019-11-08 北京京东尚科信息技术有限公司 信息推送方法、信息推送装置及计算机可读存储介质
CN110427548B (zh) * 2019-03-05 2021-06-29 北京京东尚科信息技术有限公司 信息推送方法、信息推送装置及计算机可读存储介质
CN110442683A (zh) * 2019-08-13 2019-11-12 北京明略软件系统有限公司 文本信息的处理方法及装置、存储介质、电子装置

Also Published As

Publication number Publication date
CN103473380B (zh) 2016-04-13

Similar Documents

Publication Publication Date Title
CN103473380B (zh) 一种计算机文本情感分类方法
Thavareesan et al. Sentiment analysis in Tamil texts: A study on machine learning techniques and feature representation
Li et al. Imbalanced text sentiment classification using universal and domain-specific knowledge
Jain et al. Application of machine learning techniques to sentiment analysis
CN107229610B (zh) 一种情感数据的分析方法及装置
Mukherjee et al. Effect of negation in sentences on sentiment analysis and polarity detection
CN104102626B (zh) 一种用于短文本语义相似度计算的方法
CN103631961B (zh) 一种情感词与评价对象的关系识别方法
CN104991891B (zh) 一种短文本特征提取方法
CN109558487A (zh) 基于层次性多注意力网络的文档分类方法
Yogatama et al. Linguistic structured sparsity in text categorization
El-Halees Mining opinions in user-generated contents to improve course evaluation
Banik et al. Evaluation of naïve bayes and support vector machines on bangla textual movie reviews
Negi et al. A study of suggestions in opinionated texts and their automatic detection
Valakunde et al. Multi-aspect and multi-class based document sentiment analysis of educational data catering accreditation process
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN105740236A (zh) 结合写作特征和序列特征的中文情感新词识别方法和系统
CN109815400A (zh) 基于长文本的人物兴趣提取方法
Gaikwad et al. Multiclass mood classification on Twitter using lexicon dictionary and machine learning algorithms
CN103092966A (zh) 一种挖掘词汇的方法及装置
Kathuria et al. Real time sentiment analysis on twitter data using deep learning (Keras)
Sadr et al. Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms
Resyanto et al. Choosing the most optimum text preprocessing method for sentiment analysis: Case: iPhone Tweets
Stemle et al. Using language learner data for metaphor detection
Bölücü et al. Hate Speech and Offensive Content Identification with Graph Convolutional Networks.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant