CN109344331A - 一种基于在线社会网络的用户情感分析方法 - Google Patents
一种基于在线社会网络的用户情感分析方法 Download PDFInfo
- Publication number
- CN109344331A CN109344331A CN201811254958.8A CN201811254958A CN109344331A CN 109344331 A CN109344331 A CN 109344331A CN 201811254958 A CN201811254958 A CN 201811254958A CN 109344331 A CN109344331 A CN 109344331A
- Authority
- CN
- China
- Prior art keywords
- emotion
- word
- user
- extreme value
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明提出一种基于在线社会网络的用户情感分析方法,与很多已研究出来的基于用户体征数据的情绪分析方法不同,本方法从在线社会网络的角度着手,通过对用户的日常行为进行分析,找出用户的兴趣点所在,使用SVM分类器对此类数据进行情感识别。本方法是一种启发策略性方法,通过本方法可以从用户日常使用社交网络出发,对用户情绪进行判断。
Description
技术领域
本发明涉及情感认知计算领域,具体涉及一种基于在线社会网络的用户情感分析的方法。
背景技术
随着现在科学技术的不断发展,人们对于生活品质的要求不断提高。作为人类交互的常用媒介,计算机在人们的日常生活中的作用日益提高,起到了不可或缺的作用。在如今产品的功能性计完全满足人们的日常需求时,如何提升用户的使用体验成为了衡量一个产品成功与否的关键。
用户体验指用户在使用产品时的感受,这是一种主观的情绪。一个优秀的产品被用户使用时,会让用户有着诸如轻松、愉快等正面情绪。增强计算机的智能化程度有利于提高用户的使用体验。这就需要计算机可以像人类一样思考,体会人类的情感,在人类的日常使用中,学习用户的使用习惯。
随着网络的发展,在线社会网络吸引了越来越多的用户投身进来。较之传统的社会网络,在线社会网络有着网络的优势,使得人们之间的联系不在受到距离的限制,扩大了人们的社会活动范围。同时可以将人们的活动可以被记录下来,通过对这些行为的收集和分析,可以判断出用户当时的情绪。这对于提升用户的使用体验是很有帮助的。
发明内容
本发明提出一种基于在线社会网络的用户情感分析方法,从在线社会网络的角度着手,通过对用户的日常行为进行分析,找出用户的兴趣点所在,使用SVM分类器对此类数据进行情感识别。
一种基于在线社会网络的用户情感分析方法,包括如下步骤:
步骤一:通过网络爬虫、分析数据包、采集日志文件以及通过调用服务商提供的API接口来开发在线社会网络的应用的方式来收集其中的用户数据来获取用户的信息;
步骤二:对于采集到的用户数据进行处理,通过TF-IDF的技术筛选出领域高频词并自动训练出相应的领域分类器,对于数据的处理包括以下几部分:
首先去除在线社会网络中无效转发的操作,从而去除数据中的无效信息;
然后选出部分领域作为标注训练集,从在线社会网络中若干个热门搜索主题作为领域,将收集的用户信息进行划分;
最后利用领域中的种子词对收集到的用户数据进行分类,采用 Java开源包FundanNLP作为文本的分类工具进行划分;
步骤三:提取用户数据中的有效特征,采用通过设置Window特征以及Word2vec特征的方式来进行特征提取:
(3-1)当用户的文本信息中存在多个评论对象时,通过设置多个window特征,将用于情感倾向性判别的特征限定在一定的范围之内;
(3-2)Word2vec将文本中的词转化成向量的形式表示,以此来反映文本的语法规则以及语义特性;通过将文本转化成空间向量,由空间向量的相似度,来表示文本语义上的相似度;通过将不同领域的微博数据作为Word2vec的输入进行向量化,然后将得到的向量采用 K-means算法进行聚类,最终将其分为若干类,得到词与类别的映射关系;
步骤四:当抽取完特征值后采用支持向量机(SVM)作为情感判别方式对用户情绪进行分析;基于SVM的情感极性分类任务分为以下三个部分:
(4-1)情感词典的构建:对于情感的分析需要识别情感词的特征值,为此可利用基准情感词,通过大量的语料集对未知情感词采用 PMI算法进行情感极性分类扩展情感词典采用人工选取的方式选择情感语义非常明显的基准情感词,并利用如下公式设定阈值进行计算归类;
其中m、n是正向和负向基准情感词的个数,p(w)是待识别情感词出现的概率,p(w,xi)是待识别情感词和正向基准情感词共同出现的概率,p(w,yi)是待识别情感词和负向基准情感词共同出现的概率;
(4-2)情感特征的选择:情感分析特征的选取结合构建的情感词典利用卡方法统计量选择与情感特征相关的词语,计算公式如下:
其中x2(w,s)表示s情感类别中词w的卡方计量,N表示情感训练数据集的规模,p(s,w)表示在情感类别s中包含词w的文档规模, 表示排除情感类别s,其他情感类别包含词w的文档规模,表示在情感类别s中不包含词w的文档规模,表示在情感类别s中,不包含词w也不在该类别中的文档规模;
(4-3)情感极性分类:将基于用户的情感分类分为几种情况;
步骤五:在完成了用户的情感判别之后,对判断结果进行输出。
进一步地,所述步骤四的(4-3)情感极性分类中,具体的基于用户的情感分类分为以下几种情况:
(4-3-1)若出现了包含情感的词语,则从情感极性表中找出对应的极值,为正向情感词时去正极值,为负向情感词时取负极值对于情感极性不明确的,则取其所有情感极值的期望值;
(4-3-2)出现否定词时,则表示用户的情感与之后出现的情感词表的的情感相反对情感极值取反并减少情感词对应的情感数目增量,增加反向的情感数目增量;
(4-3-3)若出现反问副词,模型视它的出现是为了加强负向的情感极值,对于这样的情况,提高负向情感极值;
(4-3-4)若出现程度副词时,表示它的出现是为了加强或者减少情感极值对于程度词修饰情感词的情况,视程度词级别增强或减弱情感极值。
根据如上情况,计算出单据情感极值的公式为:
其中,f(p)是正向情感倾向值,设置f(p)=1,f(n)是正向情感倾向值,设置f(n)=-1,α是正向影响因子,β是负向影响因子,设置取值范围[0,2],两者的值再由试验统计分析得出,np、nn分别为正向和负向情感词的个数,E(wi)、E(wj)分别是正向和负向情感词极值的期望,计算公式为:
其中,m为情感词的极值个数,wk为情感词的极值,pk为其出现的概率。
本发明达到的有益效果为:
(1)本发明基于在线社会网络,以用户的日常使用行为判断出使用者的情感极性,具有较为准确的情感识别效果;
(2)采用支持向量机构建情感极性的分类器,其分类的查全率和准确率几乎超过现有的所有方法,具有很好的泛化能力;
(3)当获得了数据的特征集合后,只需对其进行人工标注情感极性即可,操作简单,易于实现。
附图说明
图1为本发明所述方法的工作流程图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
一种基于在线社会网络的用户情感分析方法,包括如下步骤:
步骤一:通过网络爬虫、分析数据包、采集日志文件以及通过调用服务商提供的API接口来开发在线社会网络的应用的方式来收集其中的用户数据来获取用户的信息。
步骤二:对于采集到的用户数据进行处理,通过TF-IDF的技术筛选出领域高频词并自动训练出相应的领域分类器,对于数据的处理包括以下几部分。
首先去除在线社会网络中无效转发的操作,从而去除数据中的无效信息;然后选出部分领域作为标注训练集,从在线社会网络中若干个热门搜索主题作为领域,将收集的用户信息进行划分;最后利用领域中的种子词对收集到的用户数据进行分类,采用Java开源包 FundanNLP作为文本的分类工具进行划分。
步骤三:提取用户数据中的有效特征,采用通过设置Window特征以及Word2vec特征的方式来进行特征提取:
(3-1)当用户的文本信息中存在多个评论对象时,通过设置多个window特征,将用于情感倾向性判别的特征限定在一定的范围之内。
(3-2)Word2vec将文本中的词转化成向量的形式表示,以此来反映文本的语法规则以及语义特性;通过将文本转化成空间向量,由空间向量的相似度,来表示文本语义上的相似度;通过将不同领域的微博数据作为Word2vec的输入进行向量化,然后将得到的向量采用K-means算法进行聚类,最终将其分为若干类,得到词与类别的映射关系。
步骤四:当抽取完特征值后采用支持向量机(SVM)作为情感判别方式对用户情绪进行分析;基于SVM的情感极性分类任务分为以下三个部分:
(4-1)情感词典的构建:对于情感的分析需要识别情感词的特征值,为此可利用基准情感词,通过大量的语料集对未知情感词采用 PMI算法进行情感极性分类扩展情感词典采用人工选取的方式选择情感语义非常明显的基准情感词,并利用如下公式设定阈值进行计算归类;
其中m、n是正向和负向基准情感词的个数,p(w)是待识别情感词出现的概率,p(w,xi)是待识别情感词和正向基准情感词共同出现的概率,p(w,yi)是待识别情感词和负向基准情感词共同出现的概率。
(4-2)情感特征的选择:情感分析特征的选取结合构建的情感词典利用卡方法统计量选择与情感特征相关的词语,计算公式如下:
其中x2(w,s)表示s情感类别中词w的卡方计量,N表示情感训练数据集的规模,p(s,w)表示在情感类别s中包含词w的文档规模,表示排除情感类别s,其他情感类别包含词w的文档规模,表示在情感类别s中不包含词w的文档规模,表示在情感类别s中,不包含词w也不在该类别中的文档规模。
(4-3)情感极性分类:将基于用户的情感分类分为几种情况:
(4-3-1)若出现了包含情感的词语,则从情感极性表中找出对应的极值,为正向情感词时去正极值,为负向情感词时取负极值对于情感极性不明确的,则取其所有情感极值的期望值。
(4-3-2)出现否定词时,则表示用户的情感与之后出现的情感词表的的情感相反对情感极值取反并减少情感词对应的情感数目增量,增加反向的情感数目增量。
(4-3-3)若出现反问副词,模型视它的出现是为了加强负向的情感极值,对于这样的情况,提高负向情感极值。
(4-3-4)若出现程度副词时,表示它的出现是为了加强或者减少情感极值对于程度词修饰情感词的情况,视程度词级别增强或减弱情感极值。
根据如上情况,计算出单据情感极值的公式为:
其中,f(p)是正向情感倾向值,设置f(p)=1,f(n)是正向情感倾向值,设置f(n)=-1,α是正向影响因子,β是负向影响因子,设置取值范围[0,2],两者的值再由试验统计分析得出,np、nn分别为正向和负向情感词的个数,E(wi)、E(wj)分别是正向和负向情感词极值的期望,计算公式为:
其中,m为情感词的极值个数,wk为情感词的极值,pk为其出现的概率。
步骤五:在完成了用户的情感判别之后,对判断结果进行输出。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。
Claims (2)
1.一种基于在线社会网络的用户情感分析方法,其特征在于:包括如下步骤:
步骤一:通过网络爬虫、分析数据包、采集日志文件以及通过调用服务商提供的API接口来开发在线社会网络的应用的方式来收集其中的用户数据来获取用户的信息;
步骤二:对于采集到的用户数据进行处理,通过TF-IDF的技术筛选出领域高频词并自动训练出相应的领域分类器,对于数据的处理包括以下几部分:
首先去除在线社会网络中无效转发的操作,从而去除数据中的无效信息;
然后选出部分领域作为标注训练集,从在线社会网络中若干个热门搜索主题作为领域,将收集的用户信息进行划分;
最后利用领域中的种子词对收集到的用户数据进行分类,采用Java开源包FundanNLP作为文本的分类工具进行划分;
步骤三:提取用户数据中的有效特征,采用通过设置Window特征以及Word2vec特征的方式来进行特征提取:
(3-1)当用户的文本信息中存在多个评论对象时,通过设置多个window特征,将用于情感倾向性判别的特征限定在一定的范围之内;
(3-2)Word2vec将文本中的词转化成向量的形式表示,以此来反映文本的语法规则以及语义特性;通过将文本转化成空间向量,由空间向量的相似度,来表示文本语义上的相似度;通过将不同领域的微博数据作为Word2vec的输入进行向量化,然后将得到的向量采用K-means算法进行聚类,最终将其分为若干类,得到词与类别的映射关系;
步骤四:当抽取完特征值后采用支持向量机(SVM)作为情感判别方式对用户情绪进行分析;基于SVM的情感极性分类任务分为以下三个部分:
(4-1)情感词典的构建:对于情感的分析需要识别情感词的特征值,为此可利用基准情感词,通过大量的语料集对未知情感词采用PMI算法进行情感极性分类扩展情感词典采用人工选取的方式选择情感语义非常明显的基准情感词,并利用如下公式设定阈值进行计算归类;
其中m、n是正向和负向基准情感词的个数,p(w)是待识别情感词出现的概率,p(w,xi)是待识别情感词和正向基准情感词共同出现的概率,p(w,yi)是待识别情感词和负向基准情感词共同出现的概率;
(4-2)情感特征的选择:情感分析特征的选取结合构建的情感词典利用卡方法统计量选择与情感特征相关的词语,计算公式如下:
其中x2(w,s)表示s情感类别中词w的卡方计量,N表示情感训练数据集的规模,p(s,w)表示在情感类别s中包含词w的文档规模,表示排除情感类别s,其他情感类别包含词w的文档规模,表示在情感类别s中不包含词w的文档规模,表示在情感类别s中,不包含词w也不在该类别中的文档规模;
(4-3)情感极性分类:将基于用户的情感分类分为几种情况;
步骤五:在完成了用户的情感判别之后,对判断结果进行输出。
2.根据权利要求1所述的一种基于在线社会网络的用户情感分析方法,其特征在于:所述步骤四的(4-3)情感极性分类中,具体的基于用户的情感分类分为以下几种情况:
(4-3-1)若出现了包含情感的词语,则从情感极性表中找出对应的极值,为正向情感词时去正极值,为负向情感词时取负极值对于情感极性不明确的,则取其所有情感极值的期望值;
(4-3-2)出现否定词时,则表示用户的情感与之后出现的情感词表的的情感相反对情感极值取反并减少情感词对应的情感数目增量,增加反向的情感数目增量;
(4-3-3)若出现反问副词,模型视它的出现是为了加强负向的情感极值,对于这样的情况,提高负向情感极值;
(4-3-4)若出现程度副词时,表示它的出现是为了加强或者减少情感极值对于程度词修饰情感词的情况,视程度词级别增强或减弱情感极值。
根据如上情况,计算出单据情感极值的公式为:
其中,f(p)是正向情感倾向值,设置f(p)=1,f(n)是正向情感倾向值,设置f(n)=-1,α是正向影响因子,β是负向影响因子,设置取值范围[0,2],两者的值再由试验统计分析得出,np、nn分别为正向和负向情感词的个数,E(wi)、E(wj)分别是正向和负向情感词极值的期望,计算公式为:
其中,m为情感词的极值个数,wk为情感词的极值,pk为其出现的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811254958.8A CN109344331A (zh) | 2018-10-26 | 2018-10-26 | 一种基于在线社会网络的用户情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811254958.8A CN109344331A (zh) | 2018-10-26 | 2018-10-26 | 一种基于在线社会网络的用户情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109344331A true CN109344331A (zh) | 2019-02-15 |
Family
ID=65312378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811254958.8A Pending CN109344331A (zh) | 2018-10-26 | 2018-10-26 | 一种基于在线社会网络的用户情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344331A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377726A (zh) * | 2019-06-05 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种人工智能实现自然语言文本情绪识别方法与装置 |
CN111611455A (zh) * | 2020-05-22 | 2020-09-01 | 安徽理工大学 | 一种微博热点话题下基于用户情感行为特征的用户群体划分方法 |
CN112214575A (zh) * | 2020-08-18 | 2021-01-12 | 浙江工商大学 | 面向不同社交媒体平台用户活动领域类别划分方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN104331506A (zh) * | 2014-11-20 | 2015-02-04 | 北京理工大学 | 一种面向双语微博文本的多类情感分析方法与系统 |
CN105893582A (zh) * | 2016-04-01 | 2016-08-24 | 深圳市未来媒体技术研究院 | 一种社交网络用户情绪判别方法 |
CN106202584A (zh) * | 2016-09-20 | 2016-12-07 | 北京工业大学 | 一种基于标准词典和语义规则的微博情感分析方法 |
CN106610955A (zh) * | 2016-12-13 | 2017-05-03 | 成都数联铭品科技有限公司 | 基于词典的多维度情感分析方法 |
CN107688630A (zh) * | 2017-08-21 | 2018-02-13 | 北京工业大学 | 一种基于语义的弱监督微博多情感词典扩充方法 |
CN107918487A (zh) * | 2017-10-20 | 2018-04-17 | 南京邮电大学 | 一种基于皮肤电信号识别中文情感词的方法 |
-
2018
- 2018-10-26 CN CN201811254958.8A patent/CN109344331A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN104331506A (zh) * | 2014-11-20 | 2015-02-04 | 北京理工大学 | 一种面向双语微博文本的多类情感分析方法与系统 |
CN105893582A (zh) * | 2016-04-01 | 2016-08-24 | 深圳市未来媒体技术研究院 | 一种社交网络用户情绪判别方法 |
CN106202584A (zh) * | 2016-09-20 | 2016-12-07 | 北京工业大学 | 一种基于标准词典和语义规则的微博情感分析方法 |
CN106610955A (zh) * | 2016-12-13 | 2017-05-03 | 成都数联铭品科技有限公司 | 基于词典的多维度情感分析方法 |
CN107688630A (zh) * | 2017-08-21 | 2018-02-13 | 北京工业大学 | 一种基于语义的弱监督微博多情感词典扩充方法 |
CN107918487A (zh) * | 2017-10-20 | 2018-04-17 | 南京邮电大学 | 一种基于皮肤电信号识别中文情感词的方法 |
Non-Patent Citations (6)
Title |
---|
HAOMIN ZHANG等: "The Study and Implementation of Chinese Words Segmentation and Chinese Language Emotion Analysis System", 《2012 4TH INTERNATIONAL CONFERENCE ON INTELLIGENT HUMAN-MACHINE SYSTEMS AND CYBERNETICS》 * |
SEUNG HO LEE等: "Partial Matching of Facial Expression Sequence Using Over-Complete Transition Dictionary for Emotion Recognition", 《IEEE TRANSACTIONS ON AFFECTIVE COMPUTING》 * |
周咏梅等: "面向文本情感分析的中文情感词典构建方法", 《山东大学学报(工学版)》 * |
李新盼: "基于微博的网络舆情分析系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
桂斌等: "基于微博表情符号的情感词典构建研究", 《北京理工大学学报》 * |
陈培文等: "采用SVM 方法的文本情感极性分类研究", 《广东工业大学学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377726A (zh) * | 2019-06-05 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种人工智能实现自然语言文本情绪识别方法与装置 |
CN110377726B (zh) * | 2019-06-05 | 2020-08-25 | 光控特斯联(上海)信息科技有限公司 | 一种人工智能实现自然语言文本情绪识别方法与装置 |
CN111611455A (zh) * | 2020-05-22 | 2020-09-01 | 安徽理工大学 | 一种微博热点话题下基于用户情感行为特征的用户群体划分方法 |
CN112214575A (zh) * | 2020-08-18 | 2021-01-12 | 浙江工商大学 | 面向不同社交媒体平台用户活动领域类别划分方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10678816B2 (en) | Single-entity-single-relation question answering systems, and methods | |
Zimbra et al. | Brand-related Twitter sentiment analysis using feature engineering and the dynamic architecture for artificial neural networks | |
Rao | Contextual sentiment topic model for adaptive social emotion classification | |
CN105808526B (zh) | 商品短文本核心词提取方法和装置 | |
CN109960799B (zh) | 一种面向短文本的优化分类方法 | |
Seroussi et al. | Authorship attribution with latent Dirichlet allocation | |
CN103207913B (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN107608999A (zh) | 一种适用于自动问答系统的问句分类方法 | |
CN106776713A (zh) | 一种基于词向量语义分析的海量短文本聚类方法 | |
Wang et al. | Ptr: Phrase-based topical ranking for automatic keyphrase extraction in scientific publications | |
CN104331506A (zh) | 一种面向双语微博文本的多类情感分析方法与系统 | |
CN107992542A (zh) | 一种基于主题模型的相似文章推荐方法 | |
CN107145560B (zh) | 一种文本分类方法及装置 | |
CN103116637A (zh) | 一种面向中文Web评论的文本情感分类方法 | |
CN106599054A (zh) | 一种题目分类及推送的方法及系统 | |
CN110209818B (zh) | 一种面向语义敏感词句的分析方法 | |
CN109271634A (zh) | 一种基于用户情感倾向感知的微博文本情感极性分析方法 | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN108763348A (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
CN109344331A (zh) | 一种基于在线社会网络的用户情感分析方法 | |
CN105868347A (zh) | 一种基于多步聚类的重名消歧方法 | |
CN111221968A (zh) | 基于学科树聚类的作者消歧方法及装置 | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
CN104794209B (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
Smirnova | A model for expert finding in social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190215 |