CN104462487A - 一种融合多信息源的个性化在线新闻评论情绪预测方法 - Google Patents
一种融合多信息源的个性化在线新闻评论情绪预测方法 Download PDFInfo
- Publication number
- CN104462487A CN104462487A CN201410798427.0A CN201410798427A CN104462487A CN 104462487 A CN104462487 A CN 104462487A CN 201410798427 A CN201410798427 A CN 201410798427A CN 104462487 A CN104462487 A CN 104462487A
- Authority
- CN
- China
- Prior art keywords
- comment
- mood
- news
- centerdot
- definition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种融合多信息源的个性化在线新闻评论情绪预测方法。本发明的方法是在基于单一信息源的在线新闻评论情绪预测的基础上提出了一种融合多信息源的在线新闻评论情绪预测方法。单一的信息源从用户评论,新闻文本和用户情绪投票这三个方面分别对在线新闻评论情绪进行预测,本发明通过结合多种异构信息源,极大地提高了预测的准确性。本发明提出的方法显著地优于其他在线新闻评论情绪预测的替代方法,并且在处理大量差异较大的评论集合时更具优势。本发明可用于用户情感分析和舆情监督。
Description
技术领域
本发明属于web信息检索与挖掘领域,具体涉及异构新闻内容,评论内容,用户情感等多种信息源,对在线新闻评论情绪进行预测的方法。
背景技术
在线新闻服务作为主要的网络信息载体,已经成为人们生活中不可或缺的新闻信息来源。在线新闻逐渐取代了报纸、广播、电视新闻等传统的新闻接收方式,以及时、全面、便捷的特点深受广大网民的喜爱。越来越多的人养成了每天在网络上浏览新闻的习惯,从在线新闻中实时了解新闻讯息,同时针对新闻事件或其他用户的观点,发表自己的评论,抒发自己的主观情感。
情感预测(sentiment prediction)是情感分析研究中最重要的子任务之一,是指对给定文本所蕴含的情感进行预测。情感预测问题通常采用分类的方法来解决,即给定一个带有情感的文本,假设它蕴含的整体情感是唯一的一种,将该文本的整体情感划分到某一种情感类别中,达到预测该文本情感的目的。利用分类方法解决的情感预测问题,又被称为情感分类(sentiment classification)。情感分类与文本分类(text classification)都是基于文本内容的分类问题,但文本分类的目标是识别文本的主题(topic),而情感分类是判别文本所蕴含的情感信息。
情感分析方面的研究工作现在主要是基于情感类别标注数据的监督学习方法。基于情感类别标注训练数据集,构建高性能情感分类器,来分析文本的情感类别。Pang等最早提出利用监督学习方法来解决文本情感分类问题,其策略是选用多种特征选择方法,利用朴素贝叶斯(Bayes)、最大熵(maximum entropy)和支持向量机(support vector machine,SVM)等模型对电影评论中所蕴含的情感进行极性划分。Mullen和Collier基于短语语义倾向信息、形容词、文本主题知识等多种信息源,利用支持向量机模型对电影评论进行情感分类。Pang等将文本的主观/客观分类问题转换为求解句子连接图的最小分割问题,构建了一个基于最小分割的分类器对文本进行分类。Gamon利用对数似然比进行特征选择,使用支持向量机模型对顾客反馈数据进行情感分析。在中文文本情感分析方面,Tan针对文档级别提出了一种基于经验学习的方法,利用四种特征选取方法和五种机器学习方法对中文文档进行情感分类,测试和比较各方法的性能。
上述工作是对新闻文章的情绪进行分类和预测,一般来说,新闻文章所含有的情绪更多地属于新闻撰写者,并不能代表所有用户阅读新闻之后的情绪。本发明则是针对在线新闻的用户评论,研究用户在阅读新闻之后的观点和情绪。
同时,在新闻评论情绪预测问题中,单一的信息源不能反映所有用户的情感,不同的信息源可从不同的角度解读新闻评论中的用户情绪,且对于不同的评论,不同信息源的情绪预测指示性和可靠性不同。对于不同的评论,某些信息源可能比其他的信息源更值得信赖且更具有指示性,不同的信息源应该有不同的权重,以反映它们对不同评论的重要程度。如何结合多种异构信息源进行在线新闻评论情绪预测,如何为不同的评论分配相应的异构信息源结合权重,从而提高情绪预测的准确性,是一个重要的研究问题。
发明内容
针对目前绝大部分情感分析是针对新闻文章而进行分类和预测的,本发明融合了新闻的评论,新闻本身和用户情绪投票三种方法对用户的情感进行预测,同时通过分配恰当的权重,使情绪预测的结果更准确。
本发明提出了一种融合多信息源的个性化在线新闻评论情绪预测方法,结合了多种异构信息源,采用再分类的方法,解决用户新闻评论的情绪预测问题。
该方法可自动地根据评论的特征来识别评论的不同潜在类别,为每一个类别的评论建立二层逻辑斯谛回归模型预测评论的情绪。根据评论的类型特征不同,不同类的评论将采取不同的异构信息源结合权重。
本发明提出的一种融合多信息源的个性化在线新闻评论情绪预测方法的主要步骤如下:
第1、基于单一信息源的在线新闻评论情绪预测
第1.1、基于评论内容的情绪预测
定义1:输入文本的特征向量的定义
①.所有文档的标引词组成的空间为特征空间Ω={t1,t2,…,tn},ti,i=1,2,…,n,为在所有文档中互异的标引词,包括字、单词或词组,n为特征的个数;
②.一个文档d可以在特征空间Ω上用标引词组成的向量来表示,即输入文本的特征向量d={tx1,tx2,…,txn},txi表示文档d中第i个标引词ti的权重;
③.本发明使用的是将标引词在文档中出现的次数作为特征权重;
定义2:评论文档的形式化定义
给定一个用户新闻评论文档集合C,C={c(1),c(2),…,c(N)};
定义3:新闻文档的形式化定义
存在一个与评论文档集合C对应的在线新闻文档集合D,D={d(1),d(2),…,d(M)};
定义4:情绪类别的形式化定义
用户在阅读新闻d(j)∈D后对其中的新闻事件发表了自己的评论c(i)∈C,同时抒发了某种情绪,即本文研究所关注的新闻评论中的用户情绪;
给定一个预定义的情绪类别标签(class label)集合E,E={e1,e2,…,eK},ek代表新闻评论中可能表达情绪的类别标签,集合E即是该情绪分类问题的输出空间;
定义5:评论特征向量的表示
选取新闻评论c(i)∈C的一些特征构成特征向量来表示该评论, 表示评论c(i)的第j个特征;
所有特征向量存在的空间构成了该情绪分类问题的特征空间,同时也是该情绪分类问题的输入空间;
定义6:评论标注向量的表示
每个评论c(i)∈C对应一个标注向量y(i)表示评论c(i)表达的情绪,如果评论c(i)标注的情绪是ek类,则
定义7:训练集的形式化定义
整个训练集可以表示为T={(x(1),y(1)),(x(2),y(2)),…(x(N),y(N))};在输入空间和输出空间上分别定义随机变量X和Y,所有的输入评论特征向量与输出情绪类别标签均看成是随机变量X和Y的取值;
定义8:基于评论内容的逻辑斯谛回归模型的定义
给定一个评论c及其特征向量x,根据多元逻辑斯谛回归模型,它被分到情绪ek类的条件概率分布为由特征线性函数表示的软最大函数,
其中,x={x1,x2,…,xn,1}∈Rn+1,ωk={ωk1,ωk2,…,ωkn,bk}∈Rn+1为对于情绪ek的权值向量参数;
定义9:基于评论内容的逻辑斯谛回归模型优化目标函数定义
经验风险是关于训练数据集的平均损失,按照经验风险最小化求最优模型,即求解最优化问题:
该模型在定义8的基础上使用了负的极小化对数似然函数,其中N表示文档类型的数目,K表示情绪类别的个数,λ≥0是系数,用以权衡经验风险和正则化项;
第1.2、基于用户情绪投票的情绪预测
对于一个新闻d,用户在阅读该新闻后可对其中的新闻事件发表评论以抒发情绪,也可使用网站提供的用户情绪投票功能,在给定的候选情绪类别标签集合E={e1,e2,…,e K}中选择与自己想要表达的情绪相同或相近的情绪类别标签;
定义10:用户投票的形式化定义
将新闻的用户情绪投票信息作为针对该新闻发表的所有评论的元数据(meta data),即,每个评论c含有与其对应新闻相同的用户情绪投票信息,用ρ={ρ1,ρ2,…ρk}表示,ρk是用户对情绪ek的投票数目;
定义11:评论表达情绪条件概率的定义
假设新闻评论中情绪的分布与用户情绪投票中各情绪的分布相同,给定一个评论c,可用情绪ek所得票数占总票数的比例,作为该评论c表达情绪ek的条件概率,即
第1.3、基于新闻内容的情绪预测
定义12:标引词的形式化定义
选取新闻文本内容和评论文本内容的标引词,Ω={t1,t2,…,tm},ti,i=1,2,…,m,为在所有新闻文档和评论文档中互异的标引词;每个标引词在文档中的权重构成该文档的特征向量,特征向量存在的空间构成了该分类问题的特征空间,也是该分类问题的输入空间;
定义13:新闻特征向量的表示
计算新闻d(i)∈D中标引词的权重,用标引词权重构成的特征向量表示该新闻的文本内容,则新闻d(i)表示为 表示新闻d(i)的第j个特征,即标引词tj,j=1,2,…,m,在新闻d(i)的权重;
定义14:新闻标注向量的表示
每个新闻d(i)∈D含有的用户情绪投票信息,用表示,其中是用户对情绪ek,k=1,2,…,K,的投票数目;
对新闻的用户情绪投票统计信息进行归一化处理,得到每个情绪ek所得票数占总票数的比例,即
将作为其对应新闻d(i)所表达情绪的概率分布,即新闻d(i)的情绪标注向量;
定义15:训练集的形式化定义
Θ和μ是定义在输入空间和输出空间上的随机变量;整个评论训练数据集表示为T={(θ(1),μ(1)),(θ(2),μ(2)),…,(θ(M),μ(M))},由P(Θ,μ)独立同分布产生;
定义16:基于新闻内容的逻辑斯谛回归模型的定义
给定一个新闻d(i)及其特征向量θ(i),根据多元逻辑斯谛回归模型,该新闻被分到情绪ek类的条件概率分布为由特征线性函数表示的软最大函数,即
其中,υk={υk1,υk2,…,υkm,bk}∈Rm+1为对于情绪ek的权值向量参数;
定义17:基于新闻内容的逻辑斯谛回归模型优化目标函数的定义
与以评论内容作为信息源的逻辑斯谛回归模型类似,基于新闻内容的优化目标函数采用结构风险最小策略选取最优模型,即选取经验风险与正则化项之和最小的模型;
设:整个训练数据集T的似然是每个实例似然的乘积
整个训练数据集的对数似然函数为
经验风险是关于训练数据集的平均损失,按照经验风险最小化求最优模型,即求解最优化问题:
其中,λ≥0是系数,用以权衡经验风险和正则化项;
第2、融合多信息源的个性化在线新闻评论情绪预测
第2.1、问题的形式化定义
定义18:特征向量的表示
对于评论c(i)∈C,将其由多种单一信息源情绪预测方法输出的对于每个情绪类别ek∈E(k=1,2,…,K)的条件概率分布与常量1一起作为该评论的特征ψ(i),n为特征的个数,为情绪类别个数K的整倍数,即n=βK,β∈N,β即异构信息源种类的个数;所有特征向量存在的空间构成该分类问题的特征空间,也是输入空间;
采用以评论内容作为信息源的基于逻辑斯谛回归模型的情绪预测方法S_CC、以新闻内容作为信息源的情绪预测方法S_CN以及以用户情绪投票作为信息源的情绪预测方法S_UEV这三种异构信息源的输出结果进行情绪预测,则特征向量ψ(i)为
其中,分别是方法S_CC、S_CN、S_UEV输出的对于情绪类别ek∈E的条件概率分布k=1,2,…,K;
定义19:标注向量的表示
每个评论c(i)∈C对应一个标注向量y(i)来表示评论c(i)表达的情绪, )如果评论c(i)标注的情绪是ek类,则
定义20:训练集的形式化定义
于是整个训练集可以表示为T={(ψ(1),y(1)),(ψ(2),y(2)),…(ψ(N),y(N))};在输入空间和输出空间上分别定义随机变量X和Y,所有的输入评论与输出情绪类别分别看成是随机变量X和Y的取值;
第2.2、基于潜在评论类别的个性化情绪预测方法
定义21:基于潜在评论类别的再分类方法的定义
其中,Z为潜在评论类别的个数,f(i)是评论c(i)的用于选择评论潜在类别的特征向量,αz是潜在类别z的权重参数;这就是结合多种异构信息源基于潜在类别再分类方法的形式化表述;
定义22:潜在类别个数定义
本发明选择Akaike信息量准则(Akaike Information Criteria,AIC)作为模型选择准则来获取最优的潜在类别个数
其中Z是潜在类别的个数,K是情绪类别的个数,n是异构信息源特征向量的维数,m是用于选择评论潜在类别的特征向量的维数,Z×K×n即所有参数ω的个数,Z×m是所有参数α的个数。
本发明的优点和积极效果:
本发明对在线新闻评论及跨领域在线新闻评论的情绪预测问题进行了系统和深入的研究。归纳起来,本发明主要的优点和积极效果包括:
第一,提出了基于单一信息源的情绪预测系列方法。包括以评论文本内容作为信息源、分别基于逻辑斯谛回归模型和朴素贝叶斯模型两种概率模型的新闻评论情绪预测方法S_CC和S_CC_NB,以新闻文本内容作为信息源的基于逻辑斯谛回归模型的新闻评论情绪预测方法S_CN和以用户情绪投票信息作为信息源的基于统计方法的新闻评论情绪预测方法S_UEV。
第二,提出了一种融合多信息源的个性化在线新闻评论情绪预测方法。基于评论潜在类别的再分类方法LMC可自动识别用户评论的潜在类别,为每个类别的评论学习最优的多种异构信息源合并策略,在处理大量差异较大的评论集合时更具优势。
了解新闻评论中的用户情感,掌握网民态度和情绪变化,可辅助在线新闻服务商理解用户的偏好,为用户提供更好的个性化服务;同时,有助于政府进行民意问询和公共管理决策,有效实现舆情分析和监控。因此,自动判别用户在新闻评论中所表达的情感,尤其是具体情绪,具有重要的理论意义和实用价值。
附图说明
图1是整个发明的流程示意图。
图2是评论内容和新闻内容的范例。
图3是评论内容和新闻内容分词后的结果。
图4是查找情感词汇表后的结果(基于评论内容的)。
图5是查找情感词汇表后的结果(基于新闻内容的)。
图6是评论的标注结果。
图7是用户的投票。
图8是新闻内容的用户投票比例。
图9是基于潜在评论类别的再分类方法。
图10是新浪新闻社会数据集的评论标注情绪类别的统计信息。
具体实施方式
本发明属于情感分析问题,提出了一种融合多信息源的个性化在线新闻评论情绪预测方法,方法整体流程如图1所示。
本发明以新浪数据集作为示例,包括2011年1月至2011年6月部分新浪新闻社会频道(Society Channel)点击量较多的热点新闻,和它们的热点评论以及用户情绪投票信息,图10为数据集的统计信息。
对于数据集中的每一条评论,请专家标注情绪类别标签。文本特征采用新闻评论文本内容中情绪词汇的词频。首先使用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)提供的中文分词功能,对新闻和评论的文本内容进行分词,再使用NTU情感分析词典和Hownet情感词典抽取表达情绪的词汇,最后统计情绪词汇的出现次数,即为词频,用词频构成每一条评论或者新闻的特征向量。
本发明以评论内容(见图2)的情感为预测目标,之后其它的附图对该方法的核心内容加以解释。
第1、基于单一信息源的在线新闻评论情绪预测
第1.1、基于评论内容的情绪预测
对于图2所示的评论内容:“祝周昌奎一家幸福平安,要照顾好二个家庭父母,你的选择是对的!”进行分词,如图3:“祝、周昌奎、幸福、平安、要、照顾、好、二个、家庭、父母、你、选择、对”。查找情感词汇表后的结果为幸福和平安各出现一次,如图4所示,所以最后的评论特征向量x为{1,0,1,0,0……0}。所有这样的特征向量存在的空间构成了该情绪分类问题的输入空间。
接下来将评论的特征向量和标注向量带入模型的损失函数
按照梯度下降法的流程或BFGS拟牛顿法流程即可求得模型中参数的最优解ω*。具体算法如下:
算法1:求正则化逻辑斯谛模型最优系数的交叉验证算法
输入:用户评论文档集合C,C对应的评论训练数据集T,系数变化值ρ,系数可取的最小值λmin和最大值λmax,交叉验证折数S
输出:使正则化逻辑斯谛模型损失最小的系数λ*
①./*不同λ取值时模型误差的集合*/
②.取初始值λ=λmin;
③.将训练数据集分成S个子集,置子集标识变量t=1;
④.将第t个子集Tt作为测试集,其余S-1份子集作为训练集;
⑤.用BFGS拟牛顿法在S-1份子集组成的训练集上解目标函数为
的最优化问题,求得参数的估计值
⑥.取第t个子集Tt中的每一个评论c(i),根据其特征向量计算
确定评论c(i)的情绪类别
计算评论c(i)的损失
则整个子集Tt的测试误差和为
⑦.累积当系数是λ时训练数据集的测试误差,
Error[(λ-λmin)/ρ+1]=Error[(λ-λmin)/ρ+1]+errt;
⑧.则t<S,则t=t+1,转向步骤④;
⑨.若λ<λmax,则λ=λ+ρ,转向步骤③;
⑩.确定使训练集上测试误差最小的系数
在最后得到λ*的最优值,然后使用以评论内容作为信息源的情绪预测方法(S_CC方法),其具体流程如下:
算法2:以评论内容作为信息源的情绪预测方法(S_CC方法)
输入:用户评论文档集合C,C对应的评论训练数据T,测试评论c,c的特征向量x
输出:评论c的情绪类别y
①.用算法1在训练数据集中学习出最优的系数
②.用BFGS拟牛顿法解目标函数为
的最优化问题,求得参数的估计值
③.对于给定的测试评论c,根据其特征向量x={x1,x2,…,xK},计算
最后得到的情绪概率分别为{41.0%,23.7%,0.1%,0.9%,0.6%,0%,32.6%,1.1%};④.确定评论c的情绪类别
最后选择上一步中概率最大的情绪感动,41%,预测最后的情绪为感动。
第1.2、基于用户情绪投票的情绪预测
对于一个新闻d,用户在阅读该新闻后可对其中的新闻事件发表评论以抒发情绪,同时也会使用网站提供的用户情绪投票功能,如图7,{35,3,0,9,6,1,20,11}为一用户的投票数目,带入模型中
具体数据见图8,算法如下:
算法3:以用户情绪投票信息作为信息源的情绪预测方法(S_UEV方法)
输入:测试评论c,用户对集合E中情绪的投票信息ρ
输出:评论c的情绪类别y
①.对于给定的测试评论c,根据其用户情绪投票信息ρ=(ρ1,ρ2,…,ρK),计算
根据图8,用户情绪为感动的概率为其它的情绪概率计算类似;
②.确定评论c的情绪类别
最后选择上一步中概率最大的情绪感动,41.2%,预测最后的情绪为感动。
第1.3、基于新闻内容的情绪预测
分词后的新闻内容和评论内容的结果如图3所示,最后的标引词的结果如图5所示。最后的评论特征向量为{1,0,1,0,1,1……0},如图5所示。所有这样的特征向量存在的空间构成了该情绪分类问题的输入空间。如图8所示,最后的新闻标注向量为{41.0%,23.7%,0.1%,0.9%,0.6%,0%,32.6%,1.1%}。所有这样的特征向量存在的空间构成了该情绪分类问题的输出空间。
接下来将评论的特征向量和标注向量带入模型的损失函数
按照梯度下降法的流程或BFGS拟牛顿法流程即可求得模型中参数的最优解ω*。具体算法如下:
算法4:以新闻内容作为信息源的新闻评论情绪预测方法(S_CN方法)
输入:新闻文档集合D,D对应的新闻训练数据集T,测试评论c及其特征向量x
输出:评论c的情绪类别y
①.用交叉验证的方法在新闻训练数据集中学习出最优的系数
②.用BFGS拟牛顿法解目标函数为
的最优化问题,求得参数的估计值
③.对于给定的测试评论c,根据其特征向量x={x1,x2,…,xm},计算
最后得到的情绪概率分别为{41.0%,23.7%,0.1%,0.9%,0.6%,0%,32.6%,1.1%};
④.确定评论c的情绪类别
最后选择上一步中概率最大的情绪感动,41%,预测最后的情绪为感动。
第2、融合多信息源的个性化在线新闻评论情绪预测
在经过基于单一信息源的在线新闻评论情绪预测之后,采用以评论内容作为信息源的基于逻辑斯谛回归模型的情绪预测方法S_CC、以新闻内容作为信息源的情绪预测方法S_CN以及以用户情绪投票作为信息源的情绪预测方法S_UEV,这三种异构信息源的输出结果进行情绪预测,则特征向量ψ(i)为
例如:以评论内容作为信息源的基于逻辑斯谛回归模型的情绪预测方法S_CC的输出是{41.0%,23.7%,0.1%,0.9%,0.6%,0%,32.6%,1.1%};
以新闻内容作为信息源的情绪预测方法S_CN的输出是{11.0%,33.7%,0.1%,1.9%,0.6%,0.1%,32.3%,1.3%};
以用户情绪投票作为信息源的情绪预测方法S_UEV的输出是{1.0%,53.7%,0.6%,1.4%,0%,0%,33.2%,1.1%};
那么最后的输入的特征向量应该是:{41.0%,23.7%,0.1%,0.9%,0.6%,0%,32.6%,1.1%,11.0%,33.7%,0.1%,1.9%,0.6%,0.1%,32.3%,1.3%,1.0%,53.7%,0.6%,1.4%,0%,0%,33.2%,1.1%,1}。
所有这样的特征向量存在的空间构成了该情绪分类问题的输入空间。
接下来将评论的特征向量和标注向量带入模型的损失函数然后按照梯度下降法的流程或BFGS拟牛顿法流程即可求得模型中参数的最优解。具体算法如下:
算法5(基于潜在类别再分类模型参数估计的EM算法)
输入:用户评论文档集合C,C对应的评论观测变量数据T,计算精度ε
输出:模型参数ω*和α*
①.选择参数的初值ω(0)和α(0),置s=0,开始迭代;
②.E步:记ω(s)和α(s)为第s次迭代参数ω和α的估计值,在第s+1次迭代的E步,计算在给定观测数据((ψ(s),f(s)),y(s))和当前的参数估计ω(s)和α(s)下隐变量z的条件概率分布,
并得到将要极大化的对数似然函数的下界L(ω(s),α(s)),
当||L(ω(s),α(s))-L(ω(s-1),α(s-1))||<ε(s>1)时,停止迭代;
③.M步:极小化负的对数似然函数
分别对参数ω和α进行极小化优化,目标函数为
梯度函数分别为
这里,Ikj为指示函数,即当k=j时,Ikj为1,否则Ikj为0;Izj为指示函数,即当z=j时,Izj为1,否则Izj为0;
用BFGS算法拟牛顿法求得第s+1次迭代的参数ω和α的估计值ω(s+1)和α(s+1),置s=s+1,转E步;
④.令ω*=ω(s),α*=α(s);
最后得到ω*,α*的最优值,然后使用结合异构信息源的基于潜在类别的再分类情绪预测方法(Latent Meta Classification,LMC),其具体流程如下:
算法6:结合异构信息源的基于潜在类别的再分类情绪预测方法(LMC方法)
输入:用户评论文档集合C,C对应的训练数据集合T,潜在类别个数Z,测试评论c,c的异构信息源特征向量ψ和用于选择评论潜在类别的特征向量f
输出:评论c的情绪类别y
①.用算法5求得参数的估计值和
其中为Z×K×n的三维矩阵,代表文本特征的权重,α为Z×m的二维矩阵,代表潜在变量的权重,因为维数太高,就不在这里举例说明。
②.对于给定的测试评论c,根据其特征向量ψ={ψ1,ψ2,…,ψn,1}和f={f1,f2,…,fm,1},计算
对于如图2的新闻,新闻评论和图7的情感投票带入到以上公式中后,计算每类情感相应的概率P(ek|ψ,f)={27.1%,13.4%,20.8%,8.1%,12.6%,14.5%,2%,1.5%}
③.确定评论c的情绪类别
此步骤即比较得到的P(ek|ψ,f)k=1,2,...,K的大小,取值比较大的那个情况下的情感倾向性为评论的情绪类别,根据第二步中,故预测该评论的情绪类别为感动,和专家标注的情感一致,从中可以看到本发明算法的准确性。
Claims (1)
1.一种融合多信息源的个性化在线新闻评论情绪预测方法,包括如下步骤:
第1、基于单一信息源的在线新闻评论情绪预测
第1.1、基于评论内容的情绪预测
定义1:输入文本的特征向量的定义
①.所有文档的标引词组成的空间为特征空间Ω={t1,t2,…,tn},ti,i=1,2,…,n,为在所有文档中互异的标引词,包括字、单词或词组,n为特征的个数;
②.一个文档d在特征空间Ω上用标引词组成的向量来表示,即输入文本的特征向量d={tx1,tx2,…,txn},txi表示文档d中第i个标引词ti的权重;
③.本发明是将标引词在文档中出现的次数作为特征权重;
定义2:评论文档的形式化定义
给定一个用户新闻评论文档集合C,C={c(1),c(2),…,c(N)};
定义3:新闻文档的形式化定义
存在一个与评论文档集合C对应的在线新闻文档集合D,D={d(1),d(2),…,d(M)};
定义4:情绪类别的形式化定义
用户在阅读新闻d(j)∈D后对其中的新闻事件发表了自己的评论c(i)∈C,同时抒发了某种情绪,即本文研究所关注的新闻评论中的用户情绪;
给定一个预定义的情绪类别标签(class label)集合E,E={e1,e2,…,eK},ek代表新闻评论中可能表达情绪的类别标签,集合E即是该情绪分类问题的输出空间;
定义5:评论特征向量的表示
选取新闻评论c(i)∈C的一些特征构成特征向量来表示该评论, 表示评论c(i)的第j个特征;
所有特征向量存在的空间构成了该情绪分类问题的特征空间,同时也是该情绪分类问题的输入空间;
定义6:评论标注向量的表示
每个评论c(i)∈C对应一个标注向量y(i)表示评论c(i)表达的情绪,如果评论c(i)标注的情绪是ek类,则
定义7:训练集的形式化定义
整个训练集表示为T={(x(1),y(1)),(x(2),y(2)),…(x(N),y(N))};在输入空间和输出空间上分别定义随机变量X和Y,所有的输入评论特征向量与输出情绪类别标签均看成是随机变量X和Y的取值;
定义8:基于评论内容的逻辑斯谛回归模型的定义
给定一个评论c及其特征向量x,根据多元逻辑斯谛回归模型,它被分到情绪ek类的条件概率分布为由特征线性函数表示的软最大函数,
其中,x={x1,x2,…,xn,1}∈Rn+1,ωk={ωk1,ωk2,…,ωkn,bk}∈Rn+1为对于情绪ek的权值向量参数;
定义9:基于评论内容的逻辑斯谛回归模型优化目标函数定义
经验风险是训练数据集的平均损失,按照经验风险最小化求最优模型,即求解最优化问题:
该模型在定义8的基础上使用了负的极小化对数似然函数,其中N表示文档类型的数目,K表示情绪类别的个数,λ≥0是系数,用以权衡经验风险和正则化项;
第1.2、基于用户情绪投票的情绪预测
对于一个新闻d,用户在阅读该新闻后可对其中的新闻事件发表评论以抒发情绪,也可使用网站提供的用户情绪投票功能,在给定的候选情绪类别标签集合E={e1,e2,…,eK}中选择与自己想要表达的情绪相同或相近的情绪类别标签;
定义10:用户投票的形式化定义
将新闻的用户情绪投票信息作为针对该新闻发表的所有评论的元数据(meta data),即每个评论c含有与其对应新闻相同的用户情绪投票信息,用ρ={ρ1,ρ2,…ρK}表示,ρk是用户对情绪ek的投票数目;
定义11:评论表达情绪条件概率的定义
假设新闻评论中情绪的分布与用户情绪投票中各情绪的分布相同,给定一个评论c,可用情绪ek所得票数占总票数的比例,作为该评论c表达情绪ek的条件概率,即
第1.3、基于新闻内容的情绪预测
定义12:标引词的形式化定义
选取新闻文本内容和评论文本内容的标引词,Ω={t1,t2,…,tm},ti,i=1,2,…,m,为在所有新闻文档和评论文档中互异的标引词;每个标引词在文档中的权重构成该文档的特征向量,特征向量存在的空间构成了该分类问题的特征空间,也是该分类问题的输入空间;
定义13:新闻特征向量的表示
计算新闻d(i)∈D中标引词的权重,用标引词权重构成的特征向量表示该新闻的文本内容,则新闻d(i)表示为表示新闻d(i)的第j个特征,即标引词tj,j=1,2,…,m,在新闻d(i)的权重;
定义14:新闻标注向量的表示
每个新闻d(i)∈D含有的用户情绪投票信息,用表示,其中是用户对情绪ek,k=1,2,…,K,的投票数目;
对新闻的用户情绪投票统计信息进行归一化处理,得到每个情绪ek所得票数占总票数的比例,即
将作为其对应新闻d(i)所表达情绪的概率分布,即新闻d(i)的情绪标注向量;
定义15:训练集的形式化定义
Θ和μ是定义在输入空间和输出空间上的随机变量;整个评论训练数据集表示为T={(θ(1),μ(1)),(θ(2),μ(2)),…,(θ(M),μ(M))},由P(Θ,μ)独立同分布产生;
定义16:基于新闻内容的逻辑斯谛回归模型的定义
给定一个新闻d(i)及其特征向量θ(i),根据多元逻辑斯谛回归模型,该新闻被分到情绪ek类的条件概率分布为由特征线性函数表示的软最大函数,即
其中,υk={υk1,υk2,…,υkm,bk}∈Rm+1为对于情绪ek的权值向量参数;
定义17:基于新闻内容的逻辑斯谛回归模型优化目标函数的定义
与以评论内容作为信息源的逻辑斯谛回归模型类似,基于新闻内容的优化目标函数采用结构风险最小策略选取最优模型,即选取经验风险与正则化项之和最小的模型;
设:整个训练数据集T的似然是每个实例似然的乘积
整个训练数据集的对数似然函数为
经验风险是关于训练数据集的平均损失,按照经验风险最小化求最优模型,即求解最优化问题:
其中,λ≥0是系数,用以权衡经验风险和正则化项;
第2、融合多信息源的个性化在线新闻评论情绪预测
第2.1、问题的形式化定义
定义18:特征向量的表示
对于评论c(i)∈C,将其由多种单一信息源情绪预测方法输出的对于每个情绪类别ek∈E(k=1,2,…,K)的条件概率分布与常量1一起作为该评论的特征ψ(i),n为特征的个数,为情绪类别个数K的整倍数,即n=βK,β∈N,β即异构信息源种类的个数;所有特征向量存在的空间构成该分类问题的特征空间,也是输入空间;
采用以评论内容作为信息源基于逻辑斯谛回归模型的情绪预测方法S_CC、以新闻内容作为信息源的情绪预测方法S_CN以及以用户情绪投票作为信息源的情绪预测方法S_UEV这三种异构信息源的输出结果进行情绪预测,则特征向量ψ(i)为
其中,分别是方法S_CC、S_CN、S_UEV输出的对于情绪类别ek∈E的条件概率分布k=1,2,…,K;
定义19:标注向量的表示
每个评论c(i)∈C对应一个标注向量y(i)来表示评论c(i)表达的情绪,如果评论c(i)标注的情绪是ek类,则
定义20:训练集的形式化定义
于是整个训练集表示为T={(ψ(1),y(1)),(ψ(2),y(2)),…,(ψ(N),y(N))};在输入空间和输出空间上分别定义随机变量X和Y,所有的输入评论与输出情绪类别分别看成是随机变量X和Y的取值;
第2.2、基于潜在评论类别的个性化情绪预测方法
定义21:基于潜在评论类别的再分类方法的定义
其中,Z为潜在评论类别的个数,f(i)是评论c(i)的用于选择评论潜在类别的特征向量,az是潜在类别z的权重参数;这就是结合多种异构信息源基于潜在类别再分类方法的形式化表述;
定义22:潜在类别个数定义
本发明选择Akaike信息量准则(Akaike Information Criteria,AIC)作为模型选择准则来获取最优的潜在类别个数
其中,Z是潜在类别的个数,K是情绪类别的个数,n是异构信息源特征向量的维数,m是用于选择评论潜在类别的特征向量的维数,Z×K×n即所有参数ω的个数,Z×m是所有参数α的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410798427.0A CN104462487A (zh) | 2014-12-19 | 2014-12-19 | 一种融合多信息源的个性化在线新闻评论情绪预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410798427.0A CN104462487A (zh) | 2014-12-19 | 2014-12-19 | 一种融合多信息源的个性化在线新闻评论情绪预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104462487A true CN104462487A (zh) | 2015-03-25 |
Family
ID=52908522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410798427.0A Pending CN104462487A (zh) | 2014-12-19 | 2014-12-19 | 一种融合多信息源的个性化在线新闻评论情绪预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462487A (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205043A (zh) * | 2015-08-26 | 2015-12-30 | 苏州大学张家港工业技术研究院 | 一种新闻读者情绪的分类方法与系统 |
CN105701229A (zh) * | 2016-01-19 | 2016-06-22 | 杭州电子科技大学 | 基于评论情感分析和协同过滤的评分预测方法 |
CN106446250A (zh) * | 2016-10-14 | 2017-02-22 | 张成良 | 一种基于云计算的个性化在线新闻评论情绪预测系统 |
CN106446043A (zh) * | 2016-08-31 | 2017-02-22 | 广东华邦云计算股份有限公司 | 一种获取用户心情数据的方法和装置 |
CN106874275A (zh) * | 2015-12-10 | 2017-06-20 | 北京新媒传信科技有限公司 | 构建情感词典的方法及装置 |
CN107222328A (zh) * | 2017-03-23 | 2017-09-29 | 广州华多网络科技有限公司 | 预测饱和拐点的方法及装置 |
CN107784363A (zh) * | 2016-08-31 | 2018-03-09 | 华为技术有限公司 | 数据处理方法、装置及系统 |
CN108304459A (zh) * | 2017-12-22 | 2018-07-20 | 北京达佳互联信息技术有限公司 | 多媒体文件的预测方法和装置 |
CN108549633A (zh) * | 2018-04-04 | 2018-09-18 | 郑州大学 | 基于概率推理与情感认知的文本细粒度情感生成方法 |
CN109168051A (zh) * | 2018-09-11 | 2019-01-08 | 天津理工大学 | 一种基于蓝光存储的网络直播平台监管取证系统 |
CN109190105A (zh) * | 2018-06-28 | 2019-01-11 | 中译语通科技股份有限公司 | 一种企业舆情宏观情感分析方法 |
CN109284376A (zh) * | 2018-09-10 | 2019-01-29 | 成都信息工程大学 | 基于领域自适应的跨领域新闻数据情感分析方法 |
CN109977393A (zh) * | 2017-12-28 | 2019-07-05 | 中国科学院计算技术研究所 | 一种基于内容争议性的流行新闻预测方法和系统 |
CN110275965A (zh) * | 2019-06-27 | 2019-09-24 | 卓尔智联(武汉)研究院有限公司 | 假新闻检测方法、电子装置及计算机可读存储介质 |
CN110362744A (zh) * | 2019-06-26 | 2019-10-22 | 联通沃悦读科技文化有限公司 | 阅读推荐方法及系统、终端设备、计算机设备及介质 |
CN110825876A (zh) * | 2019-11-07 | 2020-02-21 | 上海德拓信息技术股份有限公司 | 电影评论观点情感倾向性分析方法 |
CN111259223A (zh) * | 2020-02-17 | 2020-06-09 | 北京国新汇金股份有限公司 | 基于情感分析模型的新闻推荐和文本分类方法 |
CN112069316A (zh) * | 2020-09-03 | 2020-12-11 | 常州微亿智造科技有限公司 | 情绪识别方法和装置 |
CN113744445A (zh) * | 2021-09-06 | 2021-12-03 | 北京雷石天地电子技术有限公司 | 一种比赛投票方法、装置、计算机设备和存储介质 |
CN114237460A (zh) * | 2021-10-14 | 2022-03-25 | 北京淘友天下科技发展有限公司 | 标签显示方法、装置、终端、存储介质及计算机程序产品 |
CN114564675A (zh) * | 2022-04-28 | 2022-05-31 | 深圳格隆汇信息科技有限公司 | 一种信息推荐方法、装置及存储介质 |
CN116069832A (zh) * | 2023-04-07 | 2023-05-05 | 微网优联科技(成都)有限公司 | 数据挖掘方法、装置及电子设备 |
CN117787223A (zh) * | 2023-12-27 | 2024-03-29 | 大脑工场文化产业发展有限公司 | 一种商家信息自动化发布方法及系统 |
CN117787223B (zh) * | 2023-12-27 | 2024-05-24 | 大脑工场文化产业发展有限公司 | 一种商家信息自动化发布方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101593204A (zh) * | 2009-06-05 | 2009-12-02 | 北京大学 | 一种基于新闻评论网页的情感倾向性分析系统 |
US20120143683A1 (en) * | 2010-12-06 | 2012-06-07 | Fantab Corporation | Real-Time Sentiment Index |
-
2014
- 2014-12-19 CN CN201410798427.0A patent/CN104462487A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101593204A (zh) * | 2009-06-05 | 2009-12-02 | 北京大学 | 一种基于新闻评论网页的情感倾向性分析系统 |
US20120143683A1 (en) * | 2010-12-06 | 2012-06-07 | Fantab Corporation | Real-Time Sentiment Index |
Non-Patent Citations (1)
Title |
---|
张莹: "在线新闻评论的情感分析研究", 《中国博士学位论文全文数据库(电子期刊)》 * |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205043A (zh) * | 2015-08-26 | 2015-12-30 | 苏州大学张家港工业技术研究院 | 一种新闻读者情绪的分类方法与系统 |
CN106874275A (zh) * | 2015-12-10 | 2017-06-20 | 北京新媒传信科技有限公司 | 构建情感词典的方法及装置 |
CN106874275B (zh) * | 2015-12-10 | 2020-02-07 | 北京新媒传信科技有限公司 | 构建情感词典的方法及装置 |
CN105701229B (zh) * | 2016-01-19 | 2019-03-08 | 杭州电子科技大学 | 基于评论情感分析和协同过滤的评分预测方法 |
CN105701229A (zh) * | 2016-01-19 | 2016-06-22 | 杭州电子科技大学 | 基于评论情感分析和协同过滤的评分预测方法 |
CN106446043A (zh) * | 2016-08-31 | 2017-02-22 | 广东华邦云计算股份有限公司 | 一种获取用户心情数据的方法和装置 |
CN107784363A (zh) * | 2016-08-31 | 2018-03-09 | 华为技术有限公司 | 数据处理方法、装置及系统 |
CN107784363B (zh) * | 2016-08-31 | 2021-02-09 | 华为技术有限公司 | 数据处理方法、装置及系统 |
CN106446250A (zh) * | 2016-10-14 | 2017-02-22 | 张成良 | 一种基于云计算的个性化在线新闻评论情绪预测系统 |
CN107222328A (zh) * | 2017-03-23 | 2017-09-29 | 广州华多网络科技有限公司 | 预测饱和拐点的方法及装置 |
CN108304459A (zh) * | 2017-12-22 | 2018-07-20 | 北京达佳互联信息技术有限公司 | 多媒体文件的预测方法和装置 |
CN109977393A (zh) * | 2017-12-28 | 2019-07-05 | 中国科学院计算技术研究所 | 一种基于内容争议性的流行新闻预测方法和系统 |
CN108549633A (zh) * | 2018-04-04 | 2018-09-18 | 郑州大学 | 基于概率推理与情感认知的文本细粒度情感生成方法 |
CN109190105A (zh) * | 2018-06-28 | 2019-01-11 | 中译语通科技股份有限公司 | 一种企业舆情宏观情感分析方法 |
CN109284376A (zh) * | 2018-09-10 | 2019-01-29 | 成都信息工程大学 | 基于领域自适应的跨领域新闻数据情感分析方法 |
CN109168051A (zh) * | 2018-09-11 | 2019-01-08 | 天津理工大学 | 一种基于蓝光存储的网络直播平台监管取证系统 |
CN109168051B (zh) * | 2018-09-11 | 2021-02-09 | 天津理工大学 | 一种基于蓝光存储的网络直播平台监管取证系统 |
CN110362744A (zh) * | 2019-06-26 | 2019-10-22 | 联通沃悦读科技文化有限公司 | 阅读推荐方法及系统、终端设备、计算机设备及介质 |
CN110362744B (zh) * | 2019-06-26 | 2023-10-24 | 联通沃悦读科技文化有限公司 | 阅读推荐方法及系统、终端设备、计算机设备及介质 |
CN110275965A (zh) * | 2019-06-27 | 2019-09-24 | 卓尔智联(武汉)研究院有限公司 | 假新闻检测方法、电子装置及计算机可读存储介质 |
CN110825876B (zh) * | 2019-11-07 | 2022-07-15 | 上海德拓信息技术股份有限公司 | 电影评论观点情感倾向性分析方法 |
CN110825876A (zh) * | 2019-11-07 | 2020-02-21 | 上海德拓信息技术股份有限公司 | 电影评论观点情感倾向性分析方法 |
CN111259223A (zh) * | 2020-02-17 | 2020-06-09 | 北京国新汇金股份有限公司 | 基于情感分析模型的新闻推荐和文本分类方法 |
CN112069316A (zh) * | 2020-09-03 | 2020-12-11 | 常州微亿智造科技有限公司 | 情绪识别方法和装置 |
CN112069316B (zh) * | 2020-09-03 | 2021-08-24 | 常州微亿智造科技有限公司 | 情绪识别方法和装置 |
CN113744445A (zh) * | 2021-09-06 | 2021-12-03 | 北京雷石天地电子技术有限公司 | 一种比赛投票方法、装置、计算机设备和存储介质 |
CN113744445B (zh) * | 2021-09-06 | 2024-01-05 | 北京雷石天地电子技术有限公司 | 一种比赛投票方法、装置、计算机设备和存储介质 |
CN114237460A (zh) * | 2021-10-14 | 2022-03-25 | 北京淘友天下科技发展有限公司 | 标签显示方法、装置、终端、存储介质及计算机程序产品 |
CN114237460B (zh) * | 2021-10-14 | 2024-01-30 | 北京淘友天下科技发展有限公司 | 标签显示方法、装置、终端、存储介质及计算机程序产品 |
CN114564675A (zh) * | 2022-04-28 | 2022-05-31 | 深圳格隆汇信息科技有限公司 | 一种信息推荐方法、装置及存储介质 |
CN116069832A (zh) * | 2023-04-07 | 2023-05-05 | 微网优联科技(成都)有限公司 | 数据挖掘方法、装置及电子设备 |
CN116069832B (zh) * | 2023-04-07 | 2023-06-06 | 微网优联科技(成都)有限公司 | 数据挖掘方法、装置及电子设备 |
CN117787223A (zh) * | 2023-12-27 | 2024-03-29 | 大脑工场文化产业发展有限公司 | 一种商家信息自动化发布方法及系统 |
CN117787223B (zh) * | 2023-12-27 | 2024-05-24 | 大脑工场文化产业发展有限公司 | 一种商家信息自动化发布方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462487A (zh) | 一种融合多信息源的个性化在线新闻评论情绪预测方法 | |
Saberi et al. | Sentiment analysis or opinion mining: A review | |
Shivaprasad et al. | Sentiment analysis of product reviews: A review | |
Gautam et al. | Sentiment analysis of twitter data using machine learning approaches and semantic analysis | |
Liang et al. | Two-stage three-way enhanced technique for ensemble learning in inclusive policy text classification | |
Su et al. | Chinese sentiment classification using a neural network tool—Word2vec | |
Sohrabi et al. | An efficient preprocessing method for supervised sentiment analysis by converting sentences to numerical vectors: a twitter case study | |
Qi et al. | Sentiment analysis using Twitter data: a comparative application of lexicon-and machine-learning-based approach | |
Xu et al. | Detecting bursts in sentiment-aware topics from social media | |
Sadhasivam et al. | Sentiment analysis of Amazon products using ensemble machine learning algorithm | |
Golam Mostafa et al. | Investigation of different machine learning algorithms to determine human sentiment using Twitter data | |
Khanvilkar et al. | Sentiment analysis for product recommendation using random forest | |
Guiñazú et al. | Employing online social networks in precision-medicine approach using information fusion predictive model to improve substance use surveillance: A lesson from Twitter and marijuana consumption | |
Dholpuria et al. | A Sentiment analysis approach through deep learning for a movie review | |
Wijayanti et al. | Ensemble approach for sentiment polarity analysis in user-generated Indonesian text | |
Wahid et al. | Topic2features: a novel framework to classify noisy and sparse textual data using LDA topic distributions | |
Al Mostakim et al. | Bangla content categorization using text based supervised learning methods | |
Başarslan et al. | Sentiment analysis with ensemble and machine learning methods in multi-domain datasets | |
Kaur et al. | Analysis of tweets with emoticons for sentiment detection using classification techniques | |
Jayasudha et al. | A survey on sentimental analysis of student reviews using natural language processing (NLP) and text mining | |
Mahadevan et al. | Review rating prediction using combined latent topics and associated sentiments: an empirical review | |
Bonny et al. | Deep learning approach for sentimental analysis of hotel review on bengali text | |
Al Qadi et al. | A scalable shallow learning approach for tagging arabic news articles | |
Dubey et al. | Sentiment analysis of keenly intellective smart phone product review utilizing SVM classification technique | |
Lisjana et al. | Classifying complaint reports using rnn and handling imbalanced dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150325 |