CN104516873A - 建立情感模型的方法和装置 - Google Patents

建立情感模型的方法和装置 Download PDF

Info

Publication number
CN104516873A
CN104516873A CN201410770796.9A CN201410770796A CN104516873A CN 104516873 A CN104516873 A CN 104516873A CN 201410770796 A CN201410770796 A CN 201410770796A CN 104516873 A CN104516873 A CN 104516873A
Authority
CN
China
Prior art keywords
training text
text
tuple
theme
arbitrary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410770796.9A
Other languages
English (en)
Inventor
于魁飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhigu Ruituo Technology Services Co Ltd
Original Assignee
Beijing Zhigu Ruituo Technology Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhigu Ruituo Technology Services Co Ltd filed Critical Beijing Zhigu Ruituo Technology Services Co Ltd
Priority to CN201410770796.9A priority Critical patent/CN104516873A/zh
Publication of CN104516873A publication Critical patent/CN104516873A/zh
Pending legal-status Critical Current

Links

Abstract

本申请的实施例公开了一种建立情感模型的方法,包括:确定至少一训练文本;对所述至少一训练文本进行预处理,确定每一个训练文本的文字向量和每一个训练文本的情感向量;根据每一个训练文本的所述文字向量、每一个训练文本的所述情感向量以及每一个训练文本的发布时间,确定用户情感随时间演变的模型。本申请还公开了一种建立情感模型的装置。采用本申请实施例所述的建立情感模型的方法和装置,可以对用户的情感随时间的演变进行预测,弥补了现有技术的缺陷。

Description

建立情感模型的方法和装置
技术领域
本申请涉及数据挖掘技术领域,尤其涉及一种建立情感模型的方法和装置。
背景技术
近年来,随着互联网相关技术的不断发展,各种在线社交应用平台逐渐成为当前网络活动的主流。基于这些平台,用户可以通过发布博客、照片、信息甚至状态更新来增强他们在现实世界中的存在感,且有机会和世界另一边的陌生人交流,这样就形成了相对于现实社交圈而言的虚拟社交圈。如今越来越多的网站开始提供功能以帮助用户分享他们的心情感想。例如,不少门户网站开始允许用户分享他们关于某个新闻的心情。通过分析用户对某个新闻的情感倾向,可以知道用户看什么新闻会高兴,看什么新闻会愤怒,看什么新闻会沮丧等等。
而且用户对某个具体的新闻的情感并非一成不变的,例如,在某事件发生初期,部分用户对其的情感倾向仅仅是“好奇”,然而随着事件的发酵,更多人被牵连,进而使得这部分用户的情感倾向可能由“好奇”转变为“愤怒”。
目前要了解用户在阅读过文本后产生什么样的情感倾向,多采用统计的方式来实现。然而,现有的统计方式有一定的滞后性,针对某个具体的新闻,用户的情感倾向随时间的演变,现有技术无法进行预测。
发明内容
本申请的目的是:提供一种建立情感模型的方法和装置。
根据本申请至少一个实施例的一个方面,提供了一种建立情感模型的方法,包括:
确定至少一训练文本;
对所述至少一训练文本进行预处理,确定每一个训练文本的文字向量和每一个训练文本的情感向量;
根据每一个训练文本的所述文字向量、每一个训练文本的所述情感向量以及每一个训练文本的发布时间,确定用户情感随时间演变的模型。
根据本申请至少一个实施例的另一个方面,提供一种建立情感模型的装置,包括:
确定模块,用于确定至少一训练文本;
预处理模块,用于对所述至少一训练文本进行预处理,确定每一个训练文本的文字向量和每一个训练文本的情感向量;
建模模块,用于根据每一个训练文本的所述文字向量、每一个训练文本的所述情感向量以及每一个训练文本的发布时间,确定用户情感随时间演变的模型。
本申请实施例所述的建立情感模型的方法和装置,可以对用户的情感随时间的演变进行预测,弥补了现有技术的缺陷。
附图说明
图1是本申请的一个实施例提供的建立情感模型的方法流程示意图;
图2是本申请的一个实施例中用户反馈情感倾向的交互界面示意图;
图3a是本申请的另一个实施例提供的建立情感模型的方法流程示意图;
图3b是本申请的另一个实施例提供的建立情感模型的方法流程示意图;
图4是本申请一个实施例提供的预测用户情感倾向的方法流程示意图;
图5是本申请一个实施例提供的监控舆情的方法流程示意图;
图6是本申请一个实施例提供的基于用户情感倾向提供服务的方法流程示意图;
图7是本申请一个实施例提供的建立情感模型的装置结构示意图;
图8是本申请另一个实施例提供的建立情感模型的装置结构示意图;
图9是本申请另一个实施例提供的建立情感模型的装置结构示意图;
图10是本申请另一个实施例提供的建立情感模型的装置结构示意图;
图11是本申请一个实施例提供的第一输出子模块744或第二输出子模块748结构示意图;
图12是本申请一个实施例提供的预测用户情感倾向的设备结构示意图;
图13是本申请另一个实施例提供的预测用户情感倾向的设备结构示意图;
图14是本申请另一个实施例提供的预测用户情感倾向的设备结构示意图;
图15是本申请另一个实施例提供的预测用户情感倾向的设备结构示意图;
图16是本申请一个实施例提供的监控舆情的设备结构示意图;
图17是本申请另一个实施例提供的监控舆情的设备结构示意图;
图18是本申请另一个实施例提供的监控舆情的设备结构示意图;
图19是本申请另一个实施例提供的监控舆情的设备结构示意图;
图20是本申请另一个实施例提供的监控舆情的设备结构示意图;
图21是本申请一个实施例提供的基于用户情感倾向提供服务的设备结构示意图;
图22是本申请另一个实施例提供的基于用户情感倾向提供服务的设备结构示意图;
图23是本申请另一个实施例提供的基于用户情感倾向提供服务的设备结构示意图;
图24是本申请另一个实施例提供的基于用户情感倾向提供服务的设备结构示意图;
图25是本申请另一个实施例提供的基于用户情感倾向提供服务的设备结构示意图。
具体实施方式
下面结合附图和实施例,对本申请的具体实施方式作进一步详细说明。以下实施例用于说明本申请,但不用来限制本申请的范围。
本领域技术人员理解,在本申请的实施例中,下述各步骤的序号的大小并不意味着执行顺序的先后,各步骤的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
另外,本申请中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
图1是本申请一个实施例所述的建立情感模型的方法,参见图1,所述方法包括:
S100:确定至少一训练文本;
S120:对所述至少一训练文本进行预处理,确定每一个训练文本的文字向量和每一个训练文本的情感向量;
S140:根据每一个训练文本的所述文字向量、每一个训练文本的所述情感向量以及每一个训练文本的发布时间,确定用户情感随时间演变的模型。
可选的,在本申请的一个可选实施例中,上述S100中确定至少一训练文本,可以包括:从互联网上获取一段时间内发布的内容,作为训练文本。当然,也可以是用其他的方式获取训练文本,例如,用户手动导入至少一文本作为训练文本,本申请的实施例对此不作限定。上述内容可以包括:新闻、社交网络发言(博客或者微博等等)或者网络论坛的帖子等等。
获得训练文本后,就可以进行预处理,确定每一个训练文本的文字向量和每一个训练文本的情感向量(S120)。
可选的,上述文字向量可以为每一个训练文本的有效单词。例如,每一个训练文本的文字向量可以表示为:
d={w1,w2,w3,w1,w4,w5,w5,w2…}。
可选的,上述情感向量可以为用户预先阅读了每一个训练文本后产生的至少一种情感倾向。例如,每一个训练文本的情感向量可以表示为:
其中,n1、n2、n3、n4…可以表示产生该情感倾向的数量,示例性的,上述某一种情感倾向的数量,可以是产生该情感倾向的统计数量,或者,还可以是该情感倾向产生的归一化数量,例如,该归一化数量可以是该情感倾向产生的统计数量占所有情感倾向统计数量的比例。
对于文本向量来说,通常情况下,一个文本中,去除掉一些无意义的单词(例如,“的”“了”之类的单词)之后,剩下的就是有效单词了。
而对于情感向量来说,用户在阅读训练文本之后,可以通过如图2所示的交互界面选择最能代表自己情感倾向的选项,因此就可以根据用户反馈的数据进行统计,得到每一个训练文本的情感向量。又或者,用户阅读训练文本后,可以通过文字等形式发表自己的评论,对用户的评论进行分类,就可以得到每一个训练文本的情感向量。
在本申请一个可选实施例中,在确定了每一个训练文本的文字向量和每一个训练文本的情感向量后,将每一个训练文本的文字向量中的每一个有效单词和每一个训练文本的训练文本的情感向量以及发布时间绑定,得到训练文本的一个元组:如果训练文本d有Nd个单词,那么训练文本d的元组也有Nd个。在一个训练文本的所有元组中,情感向量和发布时间t都是相同的。上述发布时间可以具体到“小时”或者“日”,当然也可以粒度大一些,例如,具体到“月”或者具体到“年”等等,本申请的实施例对此不作具体限定。
在本申请的另一个可选实施例中,可以按照发布时间对训练文本进行划分,归属于同一个时间段内的训练文本,发布时间可以认为是相同的。针对归属于同一个时间段内的训练文本单独建立子模型,则本申请所述的用户情感对时间演变的模型就可以包括多个不同时间段的子模型。在每一个子模型中,由于训练文本的发布时间是相同的,因此,得到的元组可以只包括有效单词和情感向量,即:
在本申请的实施例中,假设文本是由各类主题组成的,此处的“主题”表示一个概念、一个方面,形象来说,主题可以认为是一个桶,里面装了出现概率较高的元组,这些元组与这个主题有很强的相关性。通过“主题”这个中介,就可以将文本与元组联系起来。
因此,在本申请的实施例中,某一个文本产生某一元组的概率都可以通过“文本以一定的概率选择了某个主题,这个主题以一定的概率产生了某一元组”这样一个过程得到的。即:
P(元组|文本)=Σ主题P(元组|主题)×P(主题|文本)
对每一个训练文本进行统计,确定某个训练文本中某一个元组出现的次数,就可以得到基于训练文本的P(元组|训练文本)。然后通过一算法,得到P(元组|主题)和P(主题|训练文本)。根据训练得到的P(元组|主题)和P(主题|训练文本),就可以确定任一文本产生任一元组的近似后验分布P(元组|文本)。
在一个可选实施例中,如图3a所示,上述S140中根据每一个训练文本的所述文字向量、每一个训练文本的所述情感向量以及每一个训练文本的发布时间,确定用户情感随时间演变的模型,可以包括:
S141:将第i个训练文本的文字向量中的每一个有效单词和第i个训练文本的情感向量以及第i个训练文本的发布时间绑定,得到第i个训练文本的多个元组;
S142:对第i个训练文本进行统计,确定所述第i个训练文本中出现元组r的概率P(元组r|训练文本i);
S143:根据所述P(元组r|训练文本i),通过一算法,确定所述第i个训练文本选择主题k的概率P(主题k|训练文本i)以及所述主题k产生元组r的概率P(元组r|主题k);
S144:用于根据所述P(主题k|训练文本i)和所述P(元组r|主题k),确定任一文本产生任一元组的近似后验分布P(元组|文本)。
在另一个可选实施例中,如图3b所示,上述S140中根据每一个训练文本的所述文字向量、每一个训练文本的所述情感向量以及每一个训练文本的发布时间,确定用户情感随时间演变的模型,可以包括:
S145:将每一个训练文本的文字向量中的每一个有效单词和每一个训练文本的情感向量绑定,得到每一个训练文本的多个元组;
S146:对至少一时间段发布的训练文本进行统计,确定所述至少一时间段内发布的第i个训练文本中出现元组r的概率P(元组r|训练文本i);
S147:根据所述P(元组r|训练文本i),通过一算法,确定所述第i个训练文本选择主题k的概率P(主题k|训练文本i)以及所述主题k产生元组r的概率P(元组r|主题k);
S148:根据所述P(主题k|训练文本i)和所述P(元组r|主题k),确定至少一时间段内任一文本产生任一元组的近似后验分布P(元组|文本)。
可选的,上述算法,可以是基于采样的算法,或者也可以是变分EM(Expectation-maximization,期望最大化)算法。基于采样的算法通过收集后验分布的样本,以样本的分布求得后验分布的近似,常见的基于采样的算法例如基于吉布斯采样(Gibbs Sampling)的算法。而变分EM算法则是先假定一族在隐藏结构之上的参数化的分布,再通过变分思想迭代更新寻找与后验分布最接近的分布。下面以基于吉布斯采样的算法为例,介绍本申请实施例中确定模型的两种过程。
(1)假设一训练文本集D,有m个训练文本d1,d2,d3……dm,发布时间分别为:t1,t2,t3……tm,n个主题Z1,Z2,Z3……Zn。
将训练文本集中的每一个训练文本都转化成元组的形式:
初始时:以均等的概率或者随机为每一个训练文本的每一个元组赋予一个主题,示例性的,如表1所示:
表1
依据初始的主题赋予情况,为第i个训练文本di中的元组计算主题概率,即:排除该元组的主题赋值,根据其他所有元组(包括第i个训练文本的其他元组以及其他训练文本的所有元组)的主题赋值,估计文本di中元组被赋予主题Zk的概率
得到该元组属于各个主题的概率后,根据这些概率再次为该元组赋予一个主题。
然后用同样的方法更新下一个元组的主题,直到发现每个训练文本下的主题分布P(主题|训练文本)和每个主题下的元组的分布P(元组|主题)收敛,算法停止。示例性的,算法停止后,主题赋予的情况如表2所示:
表2
然后就可以根据最新的主题赋予的情况,进行数量的统计,确定任一文本产生任一元组的近似后验分布P(元组|文本),例如,可以统计:
任一文本出现任一主题的概率P(主题|文本);
任一主题使用任一有效单词的概率P(有效单词|主题);
任一主题产生任一情感倾向的概率P(情感倾向|主题);以及
任一主题产生于任一个时间的概率P(时间|主题)。
上述概率分布,就可以认为是本申请实施例中所述的用户情感随时间演变的模型的输出。
(2)假设多个训练文本子集Dt1,Dt2,Dt3……Dtm,每个训练文本子集包括至少一训练文本,每个训练文本子集发布时间分别为:t1,t2,t3……tm,训练文本子集D1中有n1个主题,训练文本子集D2中有n2个主题,训练文本子集D3中有n3个主题……。其中,每个训练文本子集对应的主题可以是不同的,主题的数量也可以是不同的。
由于根据每一个训练文本子集建立模型的过程是相同的,因此,下面就只针对一个训练文本子集进行详细介绍。
将某个训练文本子集中的每一个训练文本都转化成元组的形式:
与上一过程类似的,初始时随机为每一个训练文本的每一个元组赋予一个主题;依据初始的主题赋予情况,为某一个训练文本di中的某一元组计算主题概率;得到该元组属于各个主题的概率后,根据这个概率分布再次为该元组赋予一个主题。然后用同样的方法更新下一个元组的主题,直到发现每个训练文本下的主题分布P(主题|文本)和每个主题下的元组的分布P(元组|主题)收敛,算法停止。
然后就可以根据最新的主题赋予的情况,进行数量的统计,确定至少一时间段内任一文本产生任一元组的近似后验分布P(元组|文本),例如,可以统计:
任一文本出现任一主题的概率P(主题|文本);
任一主题使用任一有效单词的概率P(有效单词|主题);以及
任一主题产生任一情感倾向的概率P(情感倾向|主题)。
由于训练文本子集是按照时间来划分的,因此,当针对每一个训练文本子集都建立起子模型后,就可以得到用户情感随时间演化的模型了。
因此,在本申请一个可选实施例中,上述S144或S148中确定任一文本产生任一元组的近似后验分布P(元组|文本),可以包括:
A:确定任一文本出现任一主题的概率;
B:确定任一主题使用任一有效单词的概率;
C:确定任一主题产生任一情感倾向的概率;以及
D:确定任一主题产生于任一时间的概率。
采用本申请实施例所述的建立情感模型的方法,可以对用户的情感随时间的演变进行预测,弥补了现有技术的缺陷。
进一步的,根据本申请实施例所建立起的情感模型,还可以有更多的实际应用。
场景一
在本场景中,有一篇或多篇的文本待评估,需要预测如果该待评估的文本发布了,将令读者产生什么样的情感倾向。
如图4所示,本申请的一个实施例提供一种预测用户情感倾向的方法,参见图4,所述方法包括:
S400:确定至少一待评估文本;
S420:根据一用户情感随时间演变的模型,确定所述至少一待评估文本中的任一文本令用户产生至少一情感倾向的概率。
采用本申请所述的预测用户情感倾向的方法,可以对未发表文本可能引起的用户情倾向进行预测,弥补了现有技术的缺陷。
可选的,S420中的所述用户情感随时间演变的模型,可以是通过本申请前述过程(1)描述的方法建立起来的用户情感随时间演变的模型。用于模型建立的训练文本可以是预先搜集得到的。
确定一篇或者多篇待评估文本后,就可以对所述一个或多个待评估文本进行预处理,将所述一个或多个待评估文本分解成前述的元组的形式,输入所述用户情感随时间演变的模型,进而根据模型输出的结果,得到待评估文本中的任一个文本d’令用户产生某情感倾向e的概率,即:P(e|d’)。
示例性的,
P ( e | d ′ ) = Σ k = 1 N topic [ P ( e | Z k ) × P ( Z k | d ′ ) ] ——公式1
其中,Ntopic表示主题的总的数量,P(Zk|d′)表示待评估文本d’出现主题Zk的概率,p(e|Zk)表示主题Zk令用户产生情绪倾向e的概率。
根据本申请前述实施例所述的建立情感模型的方法中所描述的用户情感随时间演变的模型,上述可以由模型的输出结果提供。因此,公式1中的未知变量为P(Zk|d′)。
根据贝叶斯公式:
P ( Z k | d ′ ) = P ( d ′ | Z k ) × P ( Z ) k P ( d ′ ) ∝ P ( d ′ | Z k ) × P ( Z k ) ——公式2
其中,符号∝表示“正比于”,P(Zk)为主题Zk的先验概率,该先验概率可以是前人的经验值,也可以是根据模型建立过程中的训练文本得到:其中,Nd表示训练文本的数量。因此,公式2中的未知变量为P(d′|Zk)。
假设是根据上述过程(1)建立的模型,则由于该评估文本d’可以转化成至少一元组的形式,其中,w′∈d′,因此:
——公式3
其中,符号∈表示“归属于”,表示待评估文本d’可能令用户产生的情感倾向组成的情感向量,t’表示待评估文本的预计发布时间,w’表示待评估文本的有效单词。
至此,公式3中的所有变量都可以由模型的输出结果提供。结合模型的输出结果,以及上述公式1、2、3,就可以得到P(e|d’),也就得到了待评估文本d’令用户产生某种情感倾向e的概率。
场景二
在本场景中,可以搜集过去一段时间内发布的文本,从中分析出用户情感倾向的异常之处,并追踪该异常情感倾向产生的时间。
如图5所示,在本申请的另一个实施例中,提供一种监控舆情的方法,参见图5,所述方法可以包括:
S500:确定待评估文本,其中,所述待评估文本至少包括在第一时间段内发布的第一文本集和在第二时间段内发布的第二文本集;
S520:根据一用户情感随时间演变的模型,至少确定所述第一文本集在所述第一时间段令用户产生每一种情感倾向的概率分布,以及所述第二文本集在所述第二时间段令用户产生每一种情感倾向的概率分布;
S540:至少根据所述第一文本集在所述第一时间段令用户产生每一种情感倾向的概率分布,以及所述第二文本集在所述第二时间段令用户产生每一种情感倾向的概率分布,确定至少一异常情感倾向;
S560:确定所述至少一异常情感倾向中的每一种异常情感倾向产生于任一时间的概率。
采用本申请所述的监控舆情的方法,可以对海量舆情进行深度的挖掘和分析,确定用户的情感倾向随时间的演变,弥补了现有技术的缺陷。
可选的,所述S520中用户情感随时间演变的模型,可以是通过上述过程(2)描述的方法建立起来的用户情感随时间演变的模型。
在本场景中,首先要划分待评估文本的时间段,然后,根据时间段,对待评估文本进行预处理,将每一个待评估文本的文字向量中的每一个有效单词和待评估文本的情感向量绑定,得到待评估文本的元组,输入与待评估文本自身的发布时间对应的子模型中。
根据不同时间段的子模型,就可以确定出不同时间段发布的待评估文本在该时间段内令用户产生某种情感倾向e的概率:
P ( e | D t 1 ) ∝ Π d ′ ∈ D t 1 P ( e | d ′ )
P ( e | D t 2 ) ∝ Π d ′ ∈ D t 2 P ( e | d ′ )
P ( e | D t 3 ) ∝ Π d ′ ∈ D t 3 P ( e | d ′ )
……
然后,就可以根据P(e|Dt1)、P(e|Dt2)、P(e|Dt3)……确定该情感倾向e的波动情况。例如,可以计算出t1时间段内发布的文本令用户产生每一种情感倾向的概率分布:P(e1|Dt1),P(e2|Dt1),P(e3|Dt1),P(e4|Dt1),P(e5|Dt1),……,以及t2时间段内发布的文本令用户产生每一种情感倾向的概率分布:P(e1|Dt2),P(e2|Dt2),P(e3|Dt2),P(e4|Dt2),P(e5|Dt2),……,然后计算这两个概率分布的距离,例如,余弦距离或者非对称距离,从而根据上述概率分布的距离确定出时间段t1和时间段t2这连个时间段内,每一种情感倾向的波动情况。
如果某种情感倾向的波动情况超过了阈值,就可以认为该情感倾向为异常情感倾向。
要确定某种异常情感倾ei向产生于某个时间的概率,也就是确定P(t|ei):
P ( t | e ) = Σ k = 1 N topic [ P ( t | Z k ) × P ( Z k | e ) ] ∝ Σ k = 1 N topic [ P ( t | Z k ) × P ( e | Z k ) × P ( Z k ) ]
其中,Ntopic表示主题的总的数量。
场景三
在本场景中,可以搜集用户阅读过的文本,从中分析出用户阅读过的文本,在情感分类上的概率分布,并基于此为用户提供服务。
如图6所示,在本申请的另一个实施例中,提供一种基于用户情感倾向提供服务的方法,参见图6,所述方法可以包括:
S600:确定待评估文本,其中,所述待评估文本是一用户阅读过的至少一文本;
S620:根据一用户情感随时间演变的模型,确定所述待评估文本令所述用户产生每一种情感倾向的概率分布;
S640:根据所述待评估文本令所述用户产生每一种情感倾向的概率分布,为所述用户提供服务。
采用本申请所述的基于用户情感倾向提供服务的方法,可以对用户情倾向进行深度分析,并据此提供有针对性的服务,弥补了现有技术的缺陷。
可选的,所述S620中用户情感随时间演变的模型,可以是通过上述过程(1)描述的方法建立起来的用户情感随时间演变的模型,或者也可以是通过上述过程(2)描述的方法建立起来的用户情感随时间演变的模型。
在本场景中,首先对每一个待评估文本进行处理,得到每一个待评估文本的元组,输入所述模型,最后得到P(e|d’)。得到P(e|d’)的过程,上述场景一或场景二中均有详细描述,此处不再赘述。
根据每一个待评估文本令用户产生每一种情感倾向的概率,就可以得到用户所有待评估文本令用户产生每一种情感倾向的概率分布后,可选的,基于所述概率分布,可以为所述用户提供的服务可以包括以下服务中的至少一种:
A.为所述用户推送至少一内容,或请求网络侧为所述用户推送至少一内容,其中,所述至少一内容令所述用户产生每一种情感倾向的概率分布与上述S620中得到的所述待评估文本令所述用户产生每一种情感倾向的概率分布相匹配。示例性的,上述推送给用户的至少一内容可以包括:至少一新闻;或者至少一网络论坛发帖;或者至少一社交网络发言。当然,还可以是其他形式的内容,本发明的实施例对此不做限定。
B.为所述用户推荐好友,或请求网络侧为所述用户推荐好友,其中,所述好友阅读过的文本令所述好友产生每一种情感倾向的概率分布与上述S620中得到的所述待评估文本令所述用户产生每一种情感倾向的概率分布相匹配。
本申请还提供了一种建立情感模型的装置,参见图7,所述建立情感模型的装置可以包括:
确定模块700,用于确定至少一训练文本;
预处理模块720,用于对所述至少一训练文本进行预处理,确定每一个训练文本的文字向量和每一个训练文本的情感向量;
建模模块740,用于根据每一个训练文本的所述文字向量、每一个训练文本的所述情感向量以及每一个训练文本的发布时间,确定用户情感随时间演变的模型。
可选的,如图8所示,所述预处理模块720可以包括:
文字向量预处理子模块721,用于对每一个训练文本的无意义单词进行过滤,确定每一个训练文本的有效单词;
情感向量预处理子模块722,用于获取用户阅读每一个训练文本后产生的至少一情感倾向,并统计所述至少一情感倾向中每种情感倾向产生的数量。
可选的,如图9所示,所述建模模块740可以包括:
第一元组确定子模块741,用于将第i个训练文本的文字向量中的每一个有效单词和第i个训练文本的情感向量以及第i个训练文本的发布时间绑定,得到第i个训练文本的元组;
第一统计子模块742,用于对第i个训练文本进行统计,确定所述第i个训练文本中出现元组r的概率P(元组r|训练文本i);
第一训练子模块743,用于根据所述P(元组r|训练文本i),通过一算法,确定第i个训练文本选择主题k的概率P(主题k|训练文本i)以及所述主题k产生元组r的概率P(元组r|主题k);
第一输出子模块744,用于根据所述P(主题k|训练文本i)和所述P(元组r|主题k),确定任一文本产生任一元组的近似后验分布P(元组|文本)。
可选的,如图10所示,所述建模模块740可以包括:
第二元组确定子模块745,用于将每一个训练文本的文字向量中的每一个有效单词和训每一个练文本的情感向量绑定,得到每一个训练文本的元组;
第二统计子模块746,用于对至少一时间段发布的训练文本进行统计,确定所述至少一时间段内发布的第i个训练文本中出现元组r的概率P(元组r|训练文本i);
第二训练子模块747,用于根据所述P(元组r|训练文本i),通过一算法,确定所述第i个训练文本选择主题k的概率P(主题k|训练文本i)以及所述主题k产生元组r的概率P(元组r|主题k);
第二输出子模块748,用于根据所述P(主题k|训练文本i)和所述P(元组r|主题k),确定至少一时间段内任一文本产生任一元组的近似后验分布P(元组|文本)。
可选的,如图11所示,所述第一输出子模块744或者所述第二输出子模块748,可以包括:
第一输出单元749-1,用于确定任一文本出现任一主题的概率;
第二输出单元749-2,用于确定任一主题使用任一有效单词的概率;
第三输出单元749-3,用于确定任一主题产生任一情感倾向的概率;以及
第四输出单元749-4,用于确定任一主题产生于任一时间的概率。
采用本申请实施例所述的建立情感模型的装置,可以对用户的情感随时间的演变进行预测,弥补了现有技术的缺陷。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的建立情感模型的装置的具体工作过程,可以参考本申请前述建立情感模型的方法实施例的对应过程描述,在此不再赘述。
本申请还提供了一种预测用户情感倾向的设备,如图12所示,所述预测用户情感倾向的设备可以包括:
一评估文本确定装置1200,用于确定至少一待评估文本;
一预测装置1220,用于根据一用户情感随时间演变的模型,确定所述至少一待评估文本中的任一文本令用户产生至少一情感倾向的概率。
可选的,如图13所示,所述预测装置1220可以包括:
处理模块1221,用于对所述至少一待评估文本进行预处理,确定每一个待评估文本的文字向量和每一个待评估文本的情感向量;
元组确定模块1222,用于将每一个待评估文本的文字向量中的每一个有效单词和每一个待评估文本的情感向量以及每一个待评估文本的发布时间绑定,得到每一个待评估文本的元组;
输入模块1223,用于将所述每一个待评估文本的元组输入所述用户情感随时间演变的模型,根据所述用户情感随时间演变的模型的输出结果,确定所述至少一待评估文本中的任一文本令用户产生至少一情感倾向的概率。
可选的,如图14所示,所述预测用户情感倾向的设备还可以包括:
一建立情感模型的装置1240,用于建立所述用户情感随时间演变的模型。
可选的,如图15所示,所述建立情感模型的装置1240可以包括:
确定模块1241,用于确定至少一训练文本;
预处理模块1242,用于对所述至少一训练文本进行预处理,确定每一个训练文本的文字向量和每一个训练文本的情感向量;
建模模块1243,用于根据每一个训练文本的所述文字向量、每一个训练文本的所述情感向量以及每一个训练文本的发布时间,确定用户情感随时间演变的模型。
可选的,所述预处理模块1242可以是如图8所示实施例中的预处理模块720,此处不再赘述。
可选的,所述建模模块1243可以是如图9所示实施例中的建模模块740,此处不再赘述。
采用本申请所述的预测用户情感倾向的设备,可以对未发表文本可能引起的用户情感倾向进行预测,弥补了现有技术的缺陷。
本申请还提供了一种监控舆情的设备,如图16所示,所述监控舆情的设备可以包括:
一评估文本确定装置1600,用于确定待评估文本,其中,所述待评估文本至少包括在第一时间段内发布的第一文本集和在第二时间段内发布的第二文本集;
一情感概率分布确定装置1620,用于根据一用户情感随时间演变的模型,至少确定所述第一文本集在所述第一时间段令用户产生每一种情感倾向的概率分布,以及所述第二文本集在所述第二时间段令用户产生每一种情感倾向的概率分布;
一异常情感确定装置1640,用于至少根据所述第一文本集在所述第一时间段令用户产生每一种情感倾向的概率分布,以及所述第二文本集在所述第二时间段令用户产生每一种情感倾向的概率分布,确定至少一异常情感倾向;
一时间概率分布确定装置1660,用于确定所述至少一异常情感倾向中的每一种异常情感倾向产生于任一时间的概率。
可选的,如图17所示,所述情感概率分布确定装置1620,可以包括:
处理模块1621,用于对所述待评估文本进行预处理,确定每一个待评估文本的文字向量和每一个待评估文本的情感向量;
元组确定模块1622,用于将每一个待评估文本的文字向量中的每一个有效单词和每一个待评估文本的情感向量绑定,得到每一个待评估文本的元组;
输入模块1623,用于将每一个待评估文本的元组输入所述用户情感随时间演变的模型中与所述每一个待评估文本的发布时间对应的子模型,根据所述用户情感随时间演变的模型的输出结果,至少确定所述第一文本集中在所述第一时间段令用户产生每一种情感倾向的概率分布,以及所述第二文本集在所述第二时间段令用户产生每一种情感倾向的概率分布。
可选的,如图18所示,所述异常情感确定装置1640,可以包括:
情感倾向波动确定模块1641,用于至少确定第一时间段内发布的文本令用户产生每一种情感倾向的概率分布与第二时间段内发布的文本令用户产生每一种情感倾向的概率分布的距离;
异常情感确定模块1642,用于根据所述第一时间段内发布的文本令用户产生每一种情感倾向的概率分布与第二时间段内发布的文本令用户产生每一种情感倾向的概率分布的距离,确定至少一异常情感倾向。
可选的,如图19所示,所述监控舆情的设备还可以包括:
一建立情感模型的装置1680,用于建立所述用户情感随时间演变的模型。
可选的,如图20所示,所述建立情感模型的装置1680可以包括:
确定模块1681,用于确定至少一训练文本;
预处理模块1682,用于对所述至少一训练文本进行预处理,确定每一个训练文本的文字向量和每一个训练文本的情感向量;
建模模块1683,用于根据每一个训练文本的所述文字向量、每一个训练文本的所述情感向量以及每一个训练文本的发布时间,确定用户情感随时间演变的模型。
可选的,所述预处理模块1682可以是如图8所示实施例中的预处理模块720,此处不再赘述。
可选的,所述建模模块1683可以是如图10所示实施例中的建模模块740,此处不再赘述。
采用本申请所述的监控舆情的设备,可以对海量舆情进行深度的挖掘和分析,确定用户的情感倾向随时间的演变,弥补了现有技术的缺陷。
本申请的一个实施例还提供了一种基于用户情感倾向提供服务的设备,参见图21,所述基于用户情感倾向提供服务的设备可以包括:
一评估文本确定装置2100,用于确定待评估文本,其中,所述待评估文本是一用户阅读过的至少一文本;
一情感概率分布确定装置2120,用于根据一用户情感随时间演变的模型,确定所述待评估文本令所述用户产生每一种情感倾向的概率分布;
一服务提供装置2140,用于根据所述待评估文本令所述用户产生每一种情感倾向的概率分布,为所述用户提供服务。
可选的,如图22所示,所述情感概率分布确定装置2120,可以包括:
第一处理模块2121,用于对所述待评估文本进行预处理,确定每一个待评估文本的文字向量和每一个待评估文本的情感向量;
第一元组确定模块2122,用于将每一个待评估文本的文字向量中的每一个有效单词和每一个待评估文本的情感向量以及每一个待评估文本的发布时间绑定,得到每一个待评估文本的元组;
第一输入模块2123,用于将每一个待评估文本的元组输入所述用户情感随时间演变的模型,根据所述用户情感随时间演变的模型的输出结果,确定所述待评估文本令用户产生每一种情感倾向的概率分布。
可选的,如图23所示,所述情感概率分布确定装置2120,可以包括:
第二处理模块2124,用于对所述待评估文本进行预处理,确定每一个待评估文本的文字向量和每一个待评估文本的情感向量;
第二元组确定模块2125,用于将每一个待评估文本的文字向量中的每一个有效单词和每一个待评估文本的情感向量绑定,得到每一个待评估文本的元组;
第二输入模块2126,用于将每一个待评估文本的元组输入所述用户情感随时间演变的模型中与每一个待评估文本的发布时间对应的子模型,根据所述用户情感随时间演变的模型的输出结果,确定所述待评估文本令用户产生每一种情感倾向的概率分布。
可选的,如图24所示,所述服务提供装置2140,可以包括:
第一服务提供模块2141,用于为所述用户推送至少一内容,或请求网络侧为所述用户推送至少一内容,其中,所述至少一内容令所述用户产生每一种情感倾向的概率分布与所述待评估文本令所述用户产生每一种情感倾向的概率分布相匹配;和/或
第二服务提供模块2142,用于为所述用户推荐好友,或请求网络侧为所述用户推荐好友,其中,所述好友阅读过的文本令所述好友产生每一种情感倾向的概率分布与所述待评估文本令所述用户产生每一种情感倾向的概率分布相匹配。
可选的,如图25所示,所述基于用户情感倾向提供服务的设备还可以包括:
一建立情感模型的装置2160,用于建立所述用户情感随时间演变的模型。
可选的,所述建立情感模型的装置2160可以是如图7至图11中任一附图所示实施例中描述的建立情感模型的装置,此处不再赘述。
采用本申请所述的基于用户情感倾向提供服务的设备,可以对用户情倾向进行深度分析,并据此提供有针对性的服务,弥补了现有技术的缺陷。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,控制器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施方式仅用于说明本申请,而并非对本申请的限制,有关技术领域的普通技术人员,在不脱离本申请的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请的范畴,本申请的专利保护范围应由权利要求限定。

Claims (10)

1.一种建立情感模型的方法,其特征在于,包括:
确定至少一训练文本;
对所述至少一训练文本进行预处理,确定每一个训练文本的文字向量和每一个训练文本的情感向量;
根据每一个训练文本的所述文字向量、每一个训练文本的所述情感向量以及每一个训练文本的发布时间,确定用户情感随时间演变的模型。
2.如权利要求1所述的方法,其特征在于,所述对所述至少一训练文本进行预处理,确定每一个训练文本的文字向量和每一个训练文本的情感向量,包括:
对每一个训练文本中的无意义单词进行过滤,确定每一个训练文本的有效单词;
获取用户阅读每一个训练文本后产生的至少一情感倾向,并统计所述至少一情感倾向中每种情感倾向产生的数量。
3.如权利要求2所述的方法,其特征在于,所述根据每一个训练文本的所述文字向量、每一个训练文本的所述情感向量以及每一个训练文本的发布时间,确定用户情感随时间演变的模型,包括:
将第i个训练文本的文字向量中的每一个有效单词和第i个训练文本的情感向量以及第i个训练文本的发布时间绑定,得到第i个训练文本的多个元组;
对第i个训练文本进行统计,确定所述第i个训练文本中出现元组r的概率P(元组r|训练文本i);
根据所述P(元组r|训练文本i),通过一算法,确定所述第i个训练文本选择主题k的概率P(主题k|训练文本i)以及所述主题k产生元组r的概率P(元组r|主题k);
用于根据所述P(主题k|训练文本i)和所述P(元组r|主题k),确定任一文本产生任一元组的近似后验分布P(元组|文本)。
4.如权利要求2所述的方法,其特征在于,所述根据每一个训练文本的所述文字向量、每一个训练文本的所述情感向量以及每一个训练文本的发布时间,确定用户情感随时间演变的模型,包括:
将每一个训练文本的文字向量中的每一个有效单词和每一个训练文本的情感向量绑定,得到每一个训练文本的多个元组;
对至少一时间段发布的训练文本进行统计,确定所述至少一时间段内发布的第i个训练文本中出现元组r的概率P(元组r|训练文本i);
根据所述P(元组r|训练文本i),通过一算法,确定所述第i个训练文本选择主题k的概率P(主题k|训练文本i)以及所述主题k产生元组r的概率P(元组r|主题k);
根据所述P(主题k|训练文本i)和所述P(元组r|主题k),确定至少一时间段内任一文本产生任一元组的近似后验分布P(元组|文本)。
5.如权利要求3或4所述的方法,所述确定任一文本产生任一元组的近似后验分布P(元组|文本),包括:
确定任一个文本出现任一主题的概率;
确定任一主题使用任一有效单词的概率;
确定任一主题产生任一情感倾向的概率;以及
确定任一主题产生于任一时间的概率。
6.一种建立情感模型的装置,其特征在于,所述建立情感模型的装置包括:
确定模块,用于确定至少一训练文本;
预处理模块,用于对所述至少一训练文本进行预处理,确定每一个训练文本的文字向量和每一个训练文本的情感向量;
建模模块,用于根据每一个训练文本的所述文字向量、每一个训练文本的所述情感向量以及每一个训练文本的发布时间,确定用户情感随时间演变的模型。
7.如权利要求6所述的装置,其特征在于,所述预处理模块包括:
文字向量预处理子模块,用于对每一个训练文本中的无意义单词进行过滤,确定每一个训练文本的有效单词;
情感向量预处理子模块,用于获取用户阅读每一个训练文本后产生的至少一情感倾向,并统计所述至少一情感倾向中每种情感倾向产生的数量。
8.如权利要求7所述的装置,其特征在于,所述建模模块包括:
第一元组确定子模块,用于将第i个训练文本的文字向量中的每一个有效单词和第i个训练文本的情感向量以及第i个训练文本的发布时间绑定,得到第i个训练文本的元组;
第一统计子模块,用于对第i个训练文本进行统计,确定所述第i个训练文本中出现元组r的概率P(元组r|训练文本i);
第一训练子模块,用于根据所述P(元组r|训练文本i),通过一算法,确定所述第i个训练文本选择主题k的概率P(主题k|训练文本i)以及所述主题k产生元组r的概率P(元组r|主题k);
第一输出子模块,用于根据所述P(主题k|训练文本i)和所述P(元组r|主题k),确定任一文本产生任一元组的近似后验分布P(元组|文本)。
9.如权利要求7所述的装置,其特征在于,所述建模模块包括:
第二元组确定子模块,用于将每一个训练文本的文字向量中的每一个有效单词和每一个训练文本的情感向量绑定,得到每一个训练文本的元组;
第二统计子模块,用于对至少一时间段发布的训练文本进行统计,确定所述至少一时间段内发布的第i个训练文本中出现元组r的概率P(元组r|训练文本i);
第二训练子模块,用于根据所述P(元组r|训练文本i),通过一算法,确定所述第i个训练文本选择主题k的概率P(主题k|训练文本i)以及所述主题k产生元组r的概率P(元组r|主题k);
第二输出子模块,用于根据所述P(主题k|训练文本i)和所述P(元组r|主题k),确定在至少一时间段内任一文本产生任一元组的近似后验分布P(元组|文本)。
10.如权利要求8或9所述的装置,其特征在于,所述第一输出子模块或者所述第二输出子模块,包括:
第一输出单元,用于确定任一个文本出现任一主题的概率;
第二输出单元,用于确定任一主题使用任一有效单词的概率;
第三输出单元,用于确定任一主题产生任一情感倾向的概率;以及
第四输出单元,用于确定任一主题产生于任一时间的概率。
CN201410770796.9A 2014-12-12 2014-12-12 建立情感模型的方法和装置 Pending CN104516873A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410770796.9A CN104516873A (zh) 2014-12-12 2014-12-12 建立情感模型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410770796.9A CN104516873A (zh) 2014-12-12 2014-12-12 建立情感模型的方法和装置

Publications (1)

Publication Number Publication Date
CN104516873A true CN104516873A (zh) 2015-04-15

Family

ID=52792198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410770796.9A Pending CN104516873A (zh) 2014-12-12 2014-12-12 建立情感模型的方法和装置

Country Status (1)

Country Link
CN (1) CN104516873A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107870896A (zh) * 2016-09-23 2018-04-03 苏宁云商集团股份有限公司 一种对话分析方法及装置
CN108197667A (zh) * 2018-01-30 2018-06-22 安徽斛兵信息科技有限公司 基于对话的个人异常情绪检测方法及装置
CN108197274A (zh) * 2018-01-08 2018-06-22 合肥工业大学 基于对话的异常个性检测方法及装置
JP2022026278A (ja) * 2020-07-30 2022-02-10 クロスリバ株式会社 文章解析装置、方法、及び、プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103707A (zh) * 2009-12-16 2011-06-22 群联电子股份有限公司 情感引擎、情感引擎系统及电子装置的控制方法
CN103559176A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博情感演化分析方法及系统
CN103559233A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博中网络新词抽取方法和微博情感分析方法及系统
CN104102627A (zh) * 2014-07-11 2014-10-15 合肥工业大学 一种多模态的非接触情感分析记录系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103707A (zh) * 2009-12-16 2011-06-22 群联电子股份有限公司 情感引擎、情感引擎系统及电子装置的控制方法
CN103559176A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博情感演化分析方法及系统
CN103559233A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博中网络新词抽取方法和微博情感分析方法及系统
CN104102627A (zh) * 2014-07-11 2014-10-15 合肥工业大学 一种多模态的非接触情感分析记录系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
项珑: "基于特征提取和主题模型的文本分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107870896A (zh) * 2016-09-23 2018-04-03 苏宁云商集团股份有限公司 一种对话分析方法及装置
CN107870896B (zh) * 2016-09-23 2021-06-25 深圳市云网万店电子商务有限公司 一种对话分析方法及装置
CN108197274A (zh) * 2018-01-08 2018-06-22 合肥工业大学 基于对话的异常个性检测方法及装置
CN108197274B (zh) * 2018-01-08 2020-10-09 合肥工业大学 基于对话的异常个性检测方法及装置
CN108197667A (zh) * 2018-01-30 2018-06-22 安徽斛兵信息科技有限公司 基于对话的个人异常情绪检测方法及装置
JP2022026278A (ja) * 2020-07-30 2022-02-10 クロスリバ株式会社 文章解析装置、方法、及び、プログラム

Similar Documents

Publication Publication Date Title
CN105005918B (zh) 一种基于用户行为数据和潜在用户影响力分析的在线广告推送评估方法
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
Boltužić et al. Fill the gap! analyzing implicit premises between claims from online debates
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
Shi et al. Sentiment analysis of Chinese microblogging based on sentiment ontology: a case study of ‘7.23 Wenzhou Train Collision’
CN110781668B (zh) 文本信息的类型识别方法及装置
CN108885623A (zh) 基于知识图谱的语意分析系统及方法
CN103399891A (zh) 网络内容自动推荐方法、装置和系统
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
CN103870001A (zh) 一种生成输入法候选项的方法及电子装置
CN105205043A (zh) 一种新闻读者情绪的分类方法与系统
CN104731958A (zh) 一种面向用户需求倾向的云制造服务推荐方法
CN113515634B (zh) 基于分层异质图神经网络的社交媒体谣言检测方法及系统
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
Finlay Age and gender in Reddit commenting and success
CN104516873A (zh) 建立情感模型的方法和装置
CN105308591A (zh) 来自社交交互的关系强度的动态性
Lu et al. A novel few-shot learning based multi-modality fusion model for COVID-19 rumor detection from online social media
CN114742071A (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN114138968A (zh) 一种网络热点的挖掘方法、装置、设备及存储介质
Al Marouf et al. Looking behind the mask: A framework for detecting character assassination via troll comments on social media using psycholinguistic tools
CN104503959A (zh) 预测用户情感倾向的方法和设备
Zhao et al. User-sentiment topic model: refining user's topics with sentiment information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150415