CN112000804B - 一种微博热点话题用户群情感倾向性分析方法 - Google Patents

一种微博热点话题用户群情感倾向性分析方法 Download PDF

Info

Publication number
CN112000804B
CN112000804B CN202010833858.1A CN202010833858A CN112000804B CN 112000804 B CN112000804 B CN 112000804B CN 202010833858 A CN202010833858 A CN 202010833858A CN 112000804 B CN112000804 B CN 112000804B
Authority
CN
China
Prior art keywords
emotion
emotional
words
microblog
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010833858.1A
Other languages
English (en)
Other versions
CN112000804A (zh
Inventor
朱奥强
张顺香
朱广丽
孟楠
徐新燕
张延�
朱海洋
许汗清
张梦瑶
张标
尹畅
余宏斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Science and Technology
Original Assignee
Anhui University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Science and Technology filed Critical Anhui University of Science and Technology
Priority to CN202010833858.1A priority Critical patent/CN112000804B/zh
Publication of CN112000804A publication Critical patent/CN112000804A/zh
Application granted granted Critical
Publication of CN112000804B publication Critical patent/CN112000804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公布一种微博热点话题用户群情感倾向性分析方法,属于情感分析领域,其中,方法的实现包括数据预处理、关键词提取、为微博词集构建、初始情感词集构建、情感强度确定、四元组词典构建、用户情感倾向计算和用户群情感倾向性分析。该方法首先结合微博文本信息和基础词典利用TF‑IDF和K‑means++聚类选择出特定话题下覆盖度广、代表性强的情感倾向明显的情感词,在指定微博文本中计算选定情感词的情感强度,再构建可整合多来源情感词的词典;再利用改进后的情感词典对微博用户文本情感分析,得到用户群的情感倾向。利用本发明的方案能够很好解决特定话题的专有词在通用词典识别不准确,判断结果与实际情况不相符的情况,有很强的实际应用价值和现实意义。

Description

一种微博热点话题用户群情感倾向性分析方法
技术领域
本发明涉及情感分析领域,具体是一种微博热点话题用户群情感倾向性分析方法。
背景技术
在以微博为代表的虚拟社交平台上,对于某一热点话题人们可以自由地以文本、图片和视频等形式发布个人内容,进行信息交流和意见表达。微博因其分享便捷、传播迅速、用户众多的特点,成为人们传递观点和获取信息最为热门的社交平台之一,微博热点话题更是网民关注的焦点。随着时间的推移,热点话题下不断的有新用户加入,新用户对话题的认知很大程度上受到当前用户群情感倾向的影响。因此了解用户群的情感倾向,将有助于获取大众对于有关政策的意见、相关产品的满意程度和各种社会事件的看法等等。
然而,微博热点话题不仅语义丰富而且复杂多变,在不同的微博热点题中,同样的情感词具有的情感强度又不尽相同,并且会出现一些特定话题下具有很强情感强度的网络新词或热点话题下的具有情感的话题特征词,这使得对微博热点话题的情感分析变得相对困难。
发明内容
针对现有技术的以上缺陷或改进需求,本发明的目的是提供一种微博热点话题用户群情感倾向性分析方法;该方法将基础情感词典与微博热点文本信息相结合,构造特定热点话题下的专属情感词典来对用户群情感倾向性分,提高了在复杂多变的微博预料中用户情感倾向性分析的准确性。
本发明实现发明目的采用如下技术方案:
一种微博热点话题用户群情感倾向性分析方法,具体包括以下步骤:
对爬取的微博信息进行预处理,得到纯文本语料进行存储;结合基础情感词典筛选出常用情感词,构建初始情感词集;利用TF-IDF和聚类算法选择出特定话题下覆盖度广、代表性强的情感倾向明显的情感词,构建情感词元素集;利用情感词情感强度确定方法,在特定微博热点话题下计算选定情感词的情感强度,从而构建四元组情感词典;利用构建的四元组词典对微博用户文本情感分析,得到用户的情感倾向;最后对每个用户的情感倾向进行整合,得到用户群的情感倾向性。考虑到现有情感词典收入的情感词都已固定,但在实际情感分析中,会经常出现一些网络新词或在特定微博热点话题下具有某种情感强度很大的情感词,然而传统词典因为时间等因素没有录入,比如微博评论中经常出现“都是拍脑门拍出来的”、“奥里给”等常见的评论文本,如果将这些词语放入通用情感词典中,则会显示出该词语无极性,而这显然与实际情况不符。
词典情感极性和强度都已经固定,在具体微博话题情感分析中往往依据话题的不同会出现新情感词或者普通情感词情感极性强度不同的情况。
作为优选,所述的预处理方法有如下步骤:
去噪:去除微博中无用的符号和链接如@、#、#+文字+#和//等无用的符号;
分词:使用中科院分词工具ICTCLAS对微博文本进行分词及词性标注;
情感极性标注:常用情感词的极性Pi与情感词典中的极性一致,如发生同一情感词不同情感词典中的标注不一致的情形,使用多人投票方式修正,网络情感新词与表情符号由于数量有限,其极性均采用多人投票方式确定。
作为优选,结合基础情感词典筛选出常用情感词,构建初始情感词集包括:
结合基础情感词典筛选出常用情感词,构建初始情感词集;
手工统计词语i在微博语料中的词频,词语i来自大连理工大学提供的中文情感词汇本体库。
作为优选,所述TF-IDF算法计算公式如下:
TF-IDF=TF×IDF
其中,TF和IDF分别是词频和逆文档词频,TF和IDF的计算公式如下:
Figure GDA0003679875270000031
其中,Wi表示第i个词汇,Qj表示第j篇文本,nij表示为第i个词汇在第j篇文本中出现的次数,nj表示为第j篇文本词汇的总和,m为语料库的文档总数,mi为语料库中包含词语Wi的文档数量。
作为优选,所述聚类算法是改进后的K-means++算法,采用点互信息来计算词语间的语义距离d,K-mean,对初始化质心进行了优化,克服了K-means算法聚类时收敛慢的缺点,其中两个词语的语义距离d(wi)计算公式如下:
Figure GDA0003679875270000032
其中P(wi,uj)表示词wi和词uj同时出现在一个微博热点话题的概率,P(uj)表示词uj单独出现的概率,P(wj)表示词wi单独出现的概率,符号lb表示以2为底的对数,表达从信息到概率的量化转换的意思。
作为优选,所述情感词的情感强度计算如下:
将情感元素集中的情感词,利用下式算出情感词W*的情感强度:
I(W*)=r(W*|S_-)-r(W*|S_+)
其中S_-和S_+分别表示在微博文本信息集U中的正情感词和负情感词集合,r(W*|S_+)表示W*的正向情感权重,r(W*|S_-)表示W*的负向情感权重,情感权重通过下式计算:
Figure GDA0003679875270000041
其中S*表示S_+或者S_-,α、β∈[0,1]是组合调整参数,根据一定比例用来调剂和P(w^*)对数值的大小防止某一值过大或过小,计算结果中小数被忽视的现象。Ci是W*的第i个字,W*中共有k个字,和P(w^*)则通过下式计算:
Figure GDA0003679875270000042
其中Freq(S*,Ci)表示属于S*的词的组成字Ci在微博文本信息中U出现的频率,Freq(S*)表示属于S*的所有组成字在微博文本信息U中出现的频率之和,δ为一个较小的数值,具体的,δ可以为一个小于预定阈值的数值;
Figure GDA0003679875270000043
其中Freq(W^*)表示W^*在U中出现的频率,|U|表示U中词的个数,表示所有的词Wi在U中出现的频率之和。
作为优选,所述四元组情感词典包括:将情感元素集中的每个词确定情感强度并进行情感极性标注,将词与其情感极性、情感强度和权重作为四元组加入情感词典E,得到E为:
E=<(W1,P1,I1,P1I1),(W2,P2,I2,P2I2),…,(Wi,Pi,Ii,PiIi),…,(Wn,Pn,In,PnIn)>
作为优选,所述利用四元组词典对微博用户文本情感分析,得到用户的情感倾向过程包括:
对用户的微博信息情感词进行情感分数的赋值,情感词情感权重反映了情感词在文本中的重要程度,而情感强度的绝对值就等于情感权重的值,为了计算方便,以情感强度作为情感分数对微博用户的文本情感词赋值,情感分数的正负表示了情感的正负倾向,情感分数的绝对值表示了情感的强度;
最后对句中的情感词进行情感值的加权,得到了句子的情感倾向分数;如果分数大于0,则表示句子的情感倾向为正,绝对值越大,则表明正倾向越强,如果分数小于0,则表示句子的情感倾向为负,且情感强度随着绝对值的越大越强;微博用户情感分数计算如下:
Figure GDA0003679875270000051
其中表示用户j的情感分数,D恒等于-1,f表示一句话中否定词的个数,m表示用户j的文本信息中情感词的个数,Ii(Wi)表示用户第i个情感词的情感强度。
作为优选,所述用户群情感倾向性分析包括:将每个用户的情感分数进行情感值的加权,得到了用户群的情感倾向分数;如数大于0,则表示用户群的情感倾向为正,绝对值越大,则表明正倾向越强;如果分数小于0,则表示句子的情感倾向为负,且情感强度随着绝对值的越大越强,具体计算如下:
Figure GDA0003679875270000052
其中,Sen(group)是用户群的情感倾向性结果。
附图说明
图1是本发明的微博热点话题用户群情感倾向性分析总体框架图;
图2是本发明的选取情感元素集基本流程图。
具体实施方式
以下通过具体实施例对本发明做进一步解释说明。
本发明的一种微博热点话题用户群情感倾向性分析方法,具体步骤如下:
对爬取的微博信息进行预处理,得到纯文本语料进行存储;结合基础情感词典筛选出常用情感词,构建初始情感词集;利用TF-IDF和K-means++聚类选择出特定话题下覆盖度广、代表性强的情感倾向明显的情感词,构建情感词元素集;利用情感词情感强度确定方法,在特定微博热点话题下计算选定情感词的情感强度,从而构建四元组情感词典;利用构建的四元组词典对微博用户文本情感分析,得到用户的情感倾向;最后对每个用户的情感倾向进行整合,得到用户群的情感倾向性。
如图1所示,本发明的一种微博热点话题用户群情感倾向性分析方法,总体分为两大个部分:选取情感词和用户群情感倾向分析。
具体的选取情感词的方法如图2所示:先利用网络爬虫软件,从微博中爬取某一热点话题下,用户的半结构化信息,通过去除微博中无用的符号和链接如@、#、#+文字+#和//等无用的符号,在使用中科院分词工具ICTCLAS对微博文本进行分词及词性标注等预处理。手工统计词语i在语料中的词频,再结合基础词典考虑情感词在语料库中的覆盖程度和情感极性的强弱,当一个词语在语料库中频繁出现且具有较强的情感极性时就将它纳入初始情感元素集。考虑到现有情感词典收入的情感词都已固定,但在实际情感分析中,会经常出现一些网络新词或在特定微博热点话题下具有某种情感强度很大的情感词,然而传统词典因时间等因素没有录入,比如微博评论中经常出现“都是拍脑门拍出来的”、“奥里给”等常见的评论文本,如果将这些词语放入通用情感词典中,则会显示出该词语无极性,而这显然与实际情况不符。因此通过TF-IDF选出微博热点话题下,具有情感极性却没有在传统词典中录入的情感词加入初始化情感元素集。最后通过K-means++聚类对初始情感词元素集进行筛选,得到所需的情感词;
其中TF-IDF算法计算公式如下:
TF-IDF=TF×IDF
其中,TF和IDF分别是词频和逆文档词频,TF和IDF的计算公式如下:
Figure GDA0003679875270000071
其中,Wi表示第i个词汇,Qj表示第j篇文本,nij表示为第i个词汇在第j篇文本中出现的次数,nj表示为第j篇文本词汇的总和,m为语料库的文档总数,mi为语料库中包含词语Wi的文档数量。
具体用户情感倾向性分析为:考虑到现有的词典情感极性和强度都已经固定,在具体微博话题情感分析中往往依据话题的不同会出现新情感词或者普通情感词情感极性强度不同的情况。本文词典以微博文本为依托,重新确定微博话题下特征词的情感强度和极性,构建了微博热点话题的专属四元组词典E;
四元组词典E,由情感词Wi、情感强度I、极性Pi和权重PiIi确定,具体表示为:
E=<(W1,P1,I1,P1I1),(W2,P2,I2,P2I2),…,(Wi,Pi,Ii,PiIi),…,(Wn,Pn,In,PnIn)>
其中情感强度的确定方式如下:首先获取大规模社交网络文本集U,计算情感词中每个字在该集合中的分布,然后根据情感字的分布计算候选情感词的情感权重,超过阈值的为情感词,最后计算出常用情感词情感强度值,然后按照其值的大小进行排序,情感隶属度值越大的候选词,其情感倾向性程度也就越高,具有越高的情感强度。这样,选取情感隶属度在一定范围内的候选词作为情感新词即可确定,以其相对应的情感隶属度的绝对值作为情感强度值,极性符号作为正向或负向情感的标识,并将其填入四元组其词典。
其中情感强度的计算,考虑每个候选词都有正情感权重r(W*|S_+)和负情感权重r(W*|S_-),这样其情感隶属度I可表示为两种情感倾向性的综合,具体表示如下:
Figure GDA0003679875270000081
其中S_-和S_+分别表示在微博文本信息集U中的正情感词和负情感词集合。
利用四元组词典对用户的微博信息情感词进行情感分数的赋值,情感词情感权重反映了情感词在文本中的重要程度,而情感强度的绝对值就等于情感权重的值,为了计算方便,以情感强度作为情感分数对微博用户的文本情感词赋值,情感分数的正负表示了情感的正负倾向,情感分数的绝对值表示了情感的强度;最后对句中的情感词进行情感值的加权,得到了句子的情感倾向分数。微博用户情感分数计算如下:
Figure GDA0003679875270000082
其中表示用户j的情感分数,D恒等于-1,f表示一句话中否定词的个数,m表示用户j的文本信息中情感词的个数,Ii(Wi)表示用户第i个情感词的情感强度。
将每个用户的情感分数进行情感值的加权,得到了用户群的情感倾向分数;如果分数小于0,则表示句子的情感倾向为负,且情感强度随着绝对值的越大越强,具体计算如下:
Figure GDA0003679875270000091
其中,Sen(group)是用户群的情感倾向性结果。
以上所述仅是对本发明的较佳实施方式而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施方式所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (6)

1.一种微博热点话题用户群情感倾向性分析方法,其特征在于:对爬取的微博信息进行预处理,得到纯文本语料进行存储;结合基础情感词典筛选出常用情感词,构建初始情感词集;利用TF-IDF和聚类算法选择出特定话题下覆盖度广、代表性强的情感倾向明显的情感词,构建情感词元素集;利用情感词情感强度确定方法,在特定微博热点话题下计算选定情感词的情感强度,从而构建四元组情感词典;利用构建的四元组词典对微博用户文本进行情感分析,得到用户的情感倾向;最后对每个用户的情感倾向进行整合,得到用户群的情感倾向性;
所述四元组情感词典包括:将情感元素集中的每个词Wi确定情感强度Ii并进行情感极性标注Pi,将词Wi与其情感极性Pi、情感强度Ii和权重PiIi为四元组加入情感词典E,得到E为:E=<(W1,P1,I1,P1I1),(W2,P2,I2,P2I2),…,(Wi,Pi,Ii,PiIi),…,(Wn,Pn,In,PnIn)>;
所述利用构建的四元组词典对微博用户文本进行情感分析,得到用户的情感倾向,具体包括:
对用户的微博信息情感词进行情感分数的赋值,情感词情感权重反映了情感词在文本中的重要程度,而情感强度的绝对值就等于情感权重的值,为了计算方便,以情感强度作为情感分数对微博用户的文本情感词赋值,情感分数的正负表示了情感的正负倾向,情感分数的绝对值表示了情感的强度;
最后对句中的情感词进行情感值的加权,得到了句子的情感倾向分数;如果分数大于0,则表示句子的情感倾向为正,绝对值越大,则表明正倾向越强,如果分数小于0,则表示句子的情感倾向为负,且情感强度随着绝对值的越大越强;微博用户情感分数计算如下:
Figure FDA0003679875260000011
其中Sen(personj)表示用户j的情感分数,D恒等于-1,f表示一句话中否定词的个数,m表示用户j的文本信息中情感词的个数,Ii(Wi)表示用户第i个情感词的情感强度;
所述用户群情感倾向性分析包括:将每个用户的情感分数进行情感值的加权,得到了用户群的情感倾向分数;如数大于0,则表示用户群的情感倾向为正,绝对值越大,则表明正倾向越强;如果分数小于0,则表示句子的情感倾向为负,且情感强度随着绝对值的越大越强,具体计算如下:
Figure FDA0003679875260000021
其中,Sen(group)是用户群的情感倾向性结果。
2.根据权利要求1所述的一种微博热点话题用户群情感倾向性分析方法,其特征在于:所述的预处理方法有如下步骤:
去噪:去除微博中无用的符号和链接,所述无用的符号包括@、#、#+文字+#和//;
分词:使用中科院分词工具ICTCLAS对微博文本进行分词及词性标注;
情感极性标注:常用情感词的极性Pi与情感词典中的极性一致,如发生同一情感词不同情感词典中的标注不一致的情形,使用多人投票方式修正,网络情感新词与表情符号由于数量有限,其极性均采用多人投票方式确定。
3.根据权利要求1所述的一种微博热点话题用户群情感倾向性分析方法,其特征在于:结合基础情感词典筛选出常用情感词,构建初始情感词集包括:
结合基础情感词典筛选出常用情感词,构建初始情感词集;
手工统计词语i在微博语料中的词频,词语i来自大连理工大学提供的中文情感词汇本体库。
4.根据权利要求1所述的一种微博热点话题用户群情感倾向性分析方法,其特征在于:所述TF-IDF算法计算公式如下:
TF-IDF=TF×IDF
其中,TF和IDF分别是词频和逆文档词频,TF和IDF的计算公式如下:
Figure FDA0003679875260000022
其中,Wi表示第i个词汇,Qj表示第j篇文本,nij表示为第i个词汇在第j篇文本中出现的次数,nj表示为第j篇文本词汇的总和,m为语料库的文档总数,mi为语料库中包含词语Wi的文档数量。
5.根据权利要求1所述的一种微博热点话题用户群情感倾向性分析方法,其特征在于:所述聚类算法是改进后的K-means++算法,所述改进后的K-means++算法采用点互信息来计算词语间的语义距离d,其中两个词语的语义距离d(wi)计算公式如下:
Figure FDA0003679875260000031
其中P(wi,uj)表示词wi和词uj同时出现在一个微博热点话题的概率,P(uj)表示词uj单独出现的概率,P(wi)表示词wi单独出现的概率;符号lb表示以2为底的对数。
6.根据权利要求1所述的一种微博热点话题用户群情感倾向性分析方法,其特征在于:所述情感词的情感强度计算如下:
将情感元素集中的情感词,利用下式算出情感词W*的情感强度:
I(W*)=r(W*|S_-)-r(W*|S_+)
其中S_-和S_+分别表示在微博文本信息集U中的正情感词和负情感词集合,r(W*|S_+)表示W*的正向情感权重,r(W*|S_-)表示W*的负向情感权重,情感权重通过下式计算:
Figure FDA0003679875260000032
其中S*表示S_+或者S_-,α、β∈[0,1]是组合调整参数,根据一定比例用来调剂P(Ci|S*)和P(w^*)对数值的大小防止某一值过大或过小,计算结果中小数被忽视的现象;Ci是W*的第i个字,W*中共有k个字,P(Ci|S*)和P(w^*)则通过下式计算:
Figure FDA0003679875260000041
其中Freq(S*,Ci)表示属于S*的词的组成字Ci在微博文本信息中U出现的频率,Freq(S*)表示属于S*的所有组成字在微博文本信息U中出现的频率之和,δ为一个小于预定阈值的数值;
Figure FDA0003679875260000042
其中Freq(W^*)表示W^*在U中出现的频率,|U|表示U中词的个数,
Figure FDA0003679875260000043
表示所有的词Wi在U中出现的频率之和。
CN202010833858.1A 2020-08-18 2020-08-18 一种微博热点话题用户群情感倾向性分析方法 Active CN112000804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010833858.1A CN112000804B (zh) 2020-08-18 2020-08-18 一种微博热点话题用户群情感倾向性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010833858.1A CN112000804B (zh) 2020-08-18 2020-08-18 一种微博热点话题用户群情感倾向性分析方法

Publications (2)

Publication Number Publication Date
CN112000804A CN112000804A (zh) 2020-11-27
CN112000804B true CN112000804B (zh) 2022-08-02

Family

ID=73472741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010833858.1A Active CN112000804B (zh) 2020-08-18 2020-08-18 一种微博热点话题用户群情感倾向性分析方法

Country Status (1)

Country Link
CN (1) CN112000804B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612895B (zh) * 2020-12-29 2021-12-07 中科院计算技术研究所大数据研究院 一种主体话题态度指数的计算方法
CN115858787B (zh) * 2022-12-12 2023-08-01 交通运输部公路科学研究所 一种基于公路运输中问题诉求信息的热点提取和挖掘方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202584A (zh) * 2016-09-20 2016-12-07 北京工业大学 一种基于标准词典和语义规则的微博情感分析方法
CN109376239A (zh) * 2018-09-29 2019-02-22 山西大学 一种用于中文微博情感分类的特定情感词典的生成方法
CN110598219A (zh) * 2019-10-23 2019-12-20 安徽理工大学 一种面向豆瓣网电影评论的情感分析方法
CN110633367A (zh) * 2019-09-12 2019-12-31 河南工业大学 一种基于情感词典与微博文本数据的七情感分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725495B2 (en) * 2011-04-08 2014-05-13 Xerox Corporation Systems, methods and devices for generating an adjective sentiment dictionary for social media sentiment analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202584A (zh) * 2016-09-20 2016-12-07 北京工业大学 一种基于标准词典和语义规则的微博情感分析方法
CN109376239A (zh) * 2018-09-29 2019-02-22 山西大学 一种用于中文微博情感分类的特定情感词典的生成方法
CN110633367A (zh) * 2019-09-12 2019-12-31 河南工业大学 一种基于情感词典与微博文本数据的七情感分类方法
CN110598219A (zh) * 2019-10-23 2019-12-20 安徽理工大学 一种面向豆瓣网电影评论的情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于词间距和点互信息的影评情感词库构建";王侨云 等;《阜阳师范学院学报(自然科学版)》;20190611;第40-46页 *

Also Published As

Publication number Publication date
CN112000804A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
Fu et al. Lexicon-enhanced LSTM with attention for general sentiment analysis
Zhang et al. Sentiment analysis of Chinese micro-blog text based on extended sentiment dictionary
CN106919673B (zh) 基于深度学习的文本情绪分析系统
Al-Ayyoub et al. Lexicon-based sentiment analysis of Arabic tweets
CN109508414B (zh) 一种同义词挖掘方法及装置
Kaur et al. A survey on sentiment analysis and opinion mining techniques
CN111143549A (zh) 一种基于主题的舆情情感演化的方法
Froud et al. Arabic text summarization based on latent semantic analysis to enhance arabic documents clustering
CN107180025B (zh) 一种新词的识别方法及装置
Tariq et al. A context-driven extractive framework for generating realistic image descriptions
CN102929861B (zh) 一种文本情感指数计算方法和系统
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN103049435A (zh) 文本细粒度情感分析方法及装置
CN112749341B (zh) 重点舆情推荐方法、可读存储介质及数据处理装置
CN111626050B (zh) 基于表情词典与情感常识的微博情感分析方法
CN112000804B (zh) 一种微博热点话题用户群情感倾向性分析方法
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
Lin et al. A simple but effective method for Indonesian automatic text summarisation
Chen et al. Sentiment classification of tourism based on rules and LDA topic model
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
Jia et al. A Chinese unknown word recognition method for micro-blog short text based on improved FP-growth
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
Palmer et al. Induction of a sentiment dictionary for financial analyst communication: a data-driven approach balancing machine learning and human intuition
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant