CN112115712B - 基于话题的群体情感分析方法 - Google Patents
基于话题的群体情感分析方法 Download PDFInfo
- Publication number
- CN112115712B CN112115712B CN202010935001.0A CN202010935001A CN112115712B CN 112115712 B CN112115712 B CN 112115712B CN 202010935001 A CN202010935001 A CN 202010935001A CN 112115712 B CN112115712 B CN 112115712B
- Authority
- CN
- China
- Prior art keywords
- user
- emotion
- topic
- viewpoint
- representative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 89
- 238000004458 analytical method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000012098 association analyses Methods 0.000 claims abstract description 6
- 238000003062 neural network model Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 18
- 230000007935 neutral effect Effects 0.000 claims description 10
- 238000002474 experimental method Methods 0.000 claims description 9
- 238000010219 correlation analysis Methods 0.000 claims description 4
- 230000002996 emotional effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 28
- 238000000605 extraction Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于话题的群体情感分析方法,包括:对待处理话题的评论文本进行预处理、聚类和摘要生成,得到待处理话题的多个代表性观点;对多个代表性观点中每个观点对应的用户信息进行特征提取,得到每个观点对应的用户的属性特征和兴趣特征;采用LSTM神经网络模型对各个代表性观点对应用户的情感倾向进行预测,得到预测的各个代表性观点对应用户的情感倾向;根据得到每个观点对应的用户的属性特征、兴趣特征以及预测的各个代表性观点对应用户的情感倾向,采用梯度下降树算法和关联性分析得到用户特征与情感之间的关联关系。本方法可以实现对群体情感倾向更有效地预测,改善文本情感分析或用户画像的单一结果解释性较差的问题。
Description
技术领域
本发明涉及观点抽取、倾向性分析及用户画像技术领域,尤其涉及一种基于话题的群体情感分析方法。
背景技术
传统的信息抽取(IE)技术和信息检索(IR)技术研究的重点是客观表达的事实信息。为从海量数据中发现有效、新颖、有用、可理解的模式,我们需要极性倾向分析和观点抽取技术,对于观点抽取技术,即使是英文语种,大多采用的也是统计学方法。统计学方法虽然对结构简单的句子可以取得较好的结果,但是,对于结构较复杂的语句,难以达到理想的效果。
倾向性分析又称意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。互联网上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。
用户特征建模的核心工作就是给用户打标签,标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、兴趣等。这些标签集合就能抽象出一个用户的信息全貌,每个用户都有自己的标签集合,每个标签分别描述了该用户的一个维度,各个维度之间相互联系,共同构成对用户的一个整体描述。
机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实和实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效地提高学习效率。
近年来,机器学习算法在各领域都得到了广泛的应用,将不同的机器学习算法结合起来是一个重要的研究方向。当前研究者关于观点抽取的工作主要关注主题抽取、语义极性倾向和极性强度三个方面,但是在具体的观点抽取方面没有取得很好的效果;目前用户特征建模的应用主要是个性化推荐(电商、资讯类产品)、风控、预测等方面,很少应用到情感分析领域;另外,舆情事件相关话题的用户特征与情感关联性分析在社交网络研究中还较少,之前研究者大多是对文本情感分析或者关于用户特征建模的单一研究,结果也没有较好的解释性。
因此,开发一种以舆情事件为背景的基于话题的群体情感分析方法有重要的现实意义。
发明内容
本发明提供了一种基于话题的群体情感分析方法,以实现以舆情事件为背景的群体情感预测。
为了实现上述目的,本发明采取了如下技术方案。
本实施例提供了一种基于话题的群体情感分析方法,其特征在于,包括:
S1对待处理话题的评论文本进行预处理、聚类和摘要生成,得到待处理话题的多个代表性观点;
S2对所述多个代表性观点中每个观点对应的用户信息进行特征提取,得到每个观点对应的用户的属性特征和兴趣特征;
S3采用LSTM神经网络模型对各个代表性观点对应用户的情感倾向进行预测,得到预测的各个代表性观点对应用户的情感倾向;
S4根据得到每个观点对应的用户的属性特征、兴趣特征以及预测的各个代表性观点对应用户的情感倾向,采用梯度下降树算法和关联性分析得到用户特征与情感之间的关联关系。
优选地,对待处理话题的评论文本进行预处理、聚类和摘要生成,得到待处理话题的多个代表性观点,包括:将对待处理话题的评论文本进行分词、去除特殊符号、简繁转换的预处理;把预处理后的文本输入到AP(Affinity Propagation Clustering,亲和力传播聚类)算法中,聚成若干类;选取类内用户数大于一定个数的类,用TextRank算法对选取的类进行摘要生成;得到待处理话题的多个代表性观点。
优选地,对所述多个代表性观点中每个观点对应的用户信息进行特征提取,得到每个观点对应的用户的属性特征和兴趣特征,包括:根据数据库中的用户信息对群体中的每个用户进行属性特征和兴趣特征的提取。
优选地,采用LSTM神经网络模型对各个代表性观点对应用户的情感倾向进行预测,得到预测的各个代表性观点对应用户的情感倾向,包括:
对待处理话题的评论文本进行打标签,将打好标签的文本分为训练集和测试集,通过训练集对LSTM(Long Short-Term Memory,长短时记忆)网络模型训练;采用训练好的LSTM网络模型对各个代表性观点对应用户的情感倾向进行预测,得到预测的各个代表性观点对应用户的情感倾向。
优选地,根据得到每个观点对应的用户的属性特征、兴趣特征以及预测的各个代表性观点对应用户的情感倾向,采用梯度下降树算法和关联性分析得到用户特征与情感之间的关联关系,包括:
根据得到每个观点对应的用户群的情感倾向特征和预测的各个代表性观点对应用户的情感倾向输入到梯度下降树算法中,训练分类器,将用户特征与用户情感倾向进行关联,采用spearman系数进行特征关联性分析,并结合显著性检验的结果,进而得到最终的关联关系。
优选地,方法还包括:采用测试集对训练好的LSTM网络模型进行测试。
优选地,测试集和训练集的比为4:1。
优选地,标签包括正向、负向和中立三种,中立包括情感倾向不明确或者确实中立,正向是针对实验中的舆情事件相关话题的支持,负向是针对实验中的舆情事件相关话题的反对。
优选地,属性特征和兴趣特征分别包括如下表1和2所示的特征:
表1
编号 | 属性特征 |
1 | Id用户ID |
2 | Location位置 |
3 | Protected是否受保护 |
4 | Friends_count好友数 |
5 | Followers_count粉丝数 |
6 | List_count所属公开组个数 |
7 | Created_at创建时间 |
8 | Favorites_count获得点赞数 |
9 | Time_zone时区 |
10 | Htc_offset时差 |
11 | Language语言 |
12 | Geo_enabled是否允许标识位置 |
13 | Verified是否认证 |
14 | Statuses_count总发文数 |
15 | Db_statuses_count数据库内发文数 |
16 | Max_retweet最大转发数 |
17 | Min_retweet最小转发数 |
18 | Max_favorite最大点赞数 |
19 | Min_favorite最小点赞数 |
20 | Max_length推文最大长度 |
21 | Min_length推文最小长度 |
22 | Zero_retweet零转发比例 |
23 | Zero_favorite零点赞比例 |
24 | Activity活跃度 |
表2
编号 | 兴趣特征 |
1 | 媒体 |
2 | 教育 |
3 | 娱乐 |
4 | 社交平台 |
5 | 食物 |
6 | 情绪 |
7 | 经济 |
优选地,方法还包括:获取待处理话题的评论文本,具体包括:
爬取实际的舆情事件在社交平台上的用户评论及用户个人历史发文数据作为实验数据集;
统计该舆情事件相关的话题标签,选取评论数据及参与用户数均达到一定数量的话题标签,将每个话题标签作为一个话题,根据用户在社交平台上发文时附带的话题标签确定用户参与的话题,一个话题标签下的所有评论数据构成一个话题的实验数据集,即待处理话题的评论文本。
由上述本发明的基于话题的群体情感分析方法提供的技术方案可以看出,本发明以舆情事件为背景,结合对用户特征的刻画,实现了对群体情感倾向更有效地预测,有效地改善了文本情感分析或者关于用户画像的单一研究结果解释性较差的问题。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于话题的群体情感分析方法的流程示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤和/或操作,但是并不排除存在或添加一个或多个其他特征、整数、步骤和/或操作的组。应该理解,这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且并不构成对本发明实施例的限定。
实施例
图1为本发明实施例提供的一种基于话题的群体情感分析方法的流程示意图,参照图1,该方法包括:
S1对待处理话题的评论文本进行预处理、聚类和摘要生成,得到待处理话题的多个代表性观点。
具体包括:将对待处理话题的评论文本进行分词、去除特殊符号、简繁转换的预处理;把预处理后的文本输入到AP(Affinity Propagation Clustering,亲和力传播聚类)算法中,聚成若干类。在聚类初始时刻每条文本都可当作一个观点,根据文本之间的相似度不同,文本最终可聚成若干类。
选取类内用户数大于一定个数的类,用TextRank算法对选取的类进行摘要生成;得到待处理话题的多个代表性观点。同一类中都是相似度较高的观点,优选地,选取类内用户数大于20的类。
S2对多个代表性观点中每个观点对应的用户信息进行特征提取,得到每个观点对应的用户的属性特征和兴趣特征。
根据数据库中的用户信息对用户群体中的每个用户进行属性特征和兴趣特征提取。属性特征和兴趣特征分别包括如下表1和2所示的特征:
表1
表2
编号 | 兴趣特征 |
1 | 媒体 |
2 | 教育 |
3 | 娱乐 |
4 | 社交平台 |
5 | 食物 |
6 | 情绪 |
7 | 经济 |
S3采用LSTM神经网络模型对各个代表性观点对应用户的情感倾向进行预测,得到预测的各个代表性观点对应用户的情感倾向。
对待处理话题的评论文本进行打标签,将打好标签的文本分为训练集和测试集,通过训练集对LSTM(Long Short-Term Memory,长短时记忆)网络模型训练;采用训练好的LSTM网络模型对各个代表性观点对应用户的情感倾向进行预测,得到预测的各个代表性观点对应用户的情感倾向。示意性地,还可以选取部分待处理话题的评论文本进行打标签。
标签包括正向、负向和中立三种,中立包括情感倾向不明确或者确实中立,正向是针对实验中的舆情事件相关话题的支持是针对实验中的舆情事件相关话题的反对。
该方法还包括:采用测试集对训练好的LSTM网络模型进行测试。本实施例中采用测试集对训练好的LSTM网络模型进行测试的准确率为86%。其中,测试集和训练集的比为4:1。
S4根据得到每个观点对应的用户的属性特征、兴趣特征以及预测的各个代表性观点对应用户的情感倾向,采用梯度下降树算法和关联性分析得到用户特征与情感之间的关联关系。
通过梯度下降树算法可以实现根据用户特征预测用户情感倾向,通过特征与情感的关联性分析可以进一步明确在用户情感分类中哪些特征是更加显著的及相关关系(正相关或负相关)。
根据得到每个观点对应的用户群的情感倾向特征和预测的各个代表性观点对应用户的情感倾向输入到梯度下降树算法中,训练分类器,将用户特征与用户情感倾向进行关联,能够根据用户特征预测用户情感倾向。采用spearman系数进行特征关联性分析,通过spearman系数分析某一特征在用户情感分类中是正向作用还是负向作用,spearman系数为负数则为负相关,反之为正相关,并结合显著性检验的结果,得到用户情感分类中的显著特征,便于分析持有某种情感的群体具有的群体特征。用户特征对于情感分类任务在显著性检验中的概率P。P是反映某一事件发生的可能性大小。在统计学中根据显著性检验得到的P值,一般以P<0.05为有统计学差异,P<0.01为有显著统计学差异,P<0.001为有极其显著统计学差异。其含义是样本间的差异由抽样误差所致的概率小于0.05、0.01、0.001。
需要说明的是,该方法还包括:获取待处理话题的评论文本,具体包括:
爬取实际的舆情事件在社交平台上的用户评论及用户个人历史发文数据作为实验数据集;
统计该舆情事件相关的话题标签,选取评论数据及参与用户数均达到一定数量的话题标签,将每个话题标签作为一个话题,根据用户在社交平台上发文时附带的话题标签确定用户参与的话题,一个话题标签下的所有评论数据构成一个话题的实验数据集,即待处理话题的评论文本。
以下为采用本实施例方法的具体算例,具体内容包括:
1)以#hashtag1作为指定话题,则先对关于该话题的用户评论进行文本聚类,聚类得到100个群体观点,选取类内用户数大于20的类作为代表性观点,共取到了10个类,即该话题的10个代表性观点。
2)统计这10个代表性观点中的用户,共4000个社交网络用户。对这4000个用户进行特征提取,包括如表1和表2所述的属性特征24维和兴趣特征20维。
3)从话题的评论文本中随机选取5000条做标签标定,标签是正向、中立或者负向。以80%的数据作训练集,即4000条,剩下的20%作测试集,即1000条。用训练集训练LSTM模型,用测试集对训练好的模型进行测试,得到改模型的最终准确率为86%。通过训练好的LSTM模型对文本的情感倾向预测,用户在该话题下的所有评论文本的情感倾向即代表用户个人的情感倾向。
4)将用户的属性特征、兴趣特征、情感特征输入到梯度下降树算法中,可以实现根据用户特征预测用户情感倾向。为了进一步发现单个特征与情感的关联关系,通过spearman系数并结合显著性检验分析进行特征关联性分析,spearman系数为负数则为负相关,反之为正相关。
下表3为采用本实施例方法得到的结果,如下表3所示,除零转发比例外,粉丝数、好友数、获赞数、总推文数、数据库内推文数和最大转发数的几个特征spearman系数都为负数,说明零转发比例与情感特征成正相关,即零转发比例越大,用户情感越正向,其他几个表中的特征与情感成负相关。表3中的P值即用户特征对于情感分类任务在显著性检验中的概率。表3中的特征都是小于0.001的,说明粉丝数、好友数、获赞数、总推文数、数据库内推文数和最大转发数的特征对于情感分类是极为显著的特征。根据上述研究可以得到该话题中10个代表性观点中的4000个用户的特征与情感倾向的关联关系:粉丝数、好友数、获赞数、总推文数、数据库内推文数和最大转发数更多的用户对该话题更容易持反对意见,用户评论的零转发比例更大的用户更容易持支持意见。
表3
特征 | Spearman系数 | P值 |
粉丝数 | -0.2974 | 2.5777e-58 |
好友数 | -0.2472 | 2.8630e-40 |
获赞数 | -0.2893 | 4.0151e-55 |
总推文数 | -0.3034 | 1.0264e-60 |
数据库内推文数 | -0.3686 | 7.2970e-91 |
最大转发数 | -0.4478 | 3.1991e-138 |
零转发比例 | 0.2580 | 7.6506e-44 |
本发明实施例的基于话题的群体情感分析方法对社交网络用户提取了更全面更细粒度的特征,并首次应用属性特征及兴趣特征进行情感的预测及关联性分析,应用到真实的舆情事件分析和预测中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (7)
1.一种基于话题的群体情感分析方法,其特征在于,包括:
S1对待处理话题的评论文本进行预处理、聚类和摘要生成,得到待处理话题的多个代表性观点;具体包括:
将对待处理话题的评论文本进行分词、去除特殊符号、简繁转换的预处理;把预处理后的文本输入到亲和力传播聚类算法中,聚成若干类;选取类内用户数大于一定个数的类,用TextRank算法对选取的类进行摘要生成;得到待处理话题的多个代表性观点;
S2对所述多个代表性观点中每个观点对应的用户信息进行特征提取,得到每个观点对应的用户的属性特征和兴趣特征;
S3采用LSTM神经网络模型对各个代表性观点对应用户的情感倾向进行预测,得到预测的各个代表性观点对应用户的情感倾向;
S4根据得到每个观点对应的用户的属性特征、兴趣特征以及预测的各个代表性观点对应用户的情感倾向,采用梯度下降树算法和关联性分析得到用户特征与情感之间的关联关系;具体包括:
根据得到每个观点对应的用户群的情感倾向特征和预测的各个代表性观点对应用户的情感倾向输入到梯度下降树算法中,训练分类器,将用户特征与用户情感倾向进行关联,采用spearman系数进行特征关联性分析,并结合显著性检验的结果,进而得到最终的关联关系。
2.根据权利要求1所述的方法,其特征在于,所述的对所述多个代表性观点中每个观点对应的用户信息进行特征提取,得到每个观点对应的用户的属性特征和兴趣特征,包括:根据数据库中的用户信息对群体中的每个用户进行属性特征和兴趣特征的提取。
3.根据权利要求1所述的方法,其特征在于,所述的采用LSTM神经网络模型对各个代表性观点对应用户的情感倾向进行预测,得到预测的各个代表性观点对应用户的情感倾向,包括:
对待处理话题的评论文本进行打标签,将打好标签的文本分为训练集和测试集,通过训练集对LSTM网络模型训练;采用训练好的LSTM网络模型对各个代表性观点对应用户的情感倾向进行预测,得到预测的各个代表性观点对应用户的情感倾向。
4.根据权利要求3所述的方法,其特征在于,所述的方法还包括:采用测试集对训练好的LSTM网络模型进行测试。
5.根据权利要求4所述的方法,其特征在于,所述的测试集和训练集的比为4:1。
6.根据权利要求4所述的方法,其特征在于,所述的标签包括正向、负向和中立三种,中立包括情感倾向不明确或者确实中立,正向是针对实验中的舆情事件相关话题的支持,负向是针对实验中的舆情事件相关话题的反对。
7.根据权利要求1所述的方法,其特征在于,所述的方法还包括:获取待处理话题的评论文本,具体包括:
爬取实际的舆情事件在社交平台上的用户评论及用户个人历史发文数据作为实验数据集;
统计该舆情事件相关的话题标签,选取评论数据及参与用户数均达到一定数量的话题标签,将每个话题标签作为一个话题,根据用户在社交平台上发文时附带的话题标签确定用户参与的话题,一个话题标签下的所有评论数据构成一个话题的实验数据集,即待处理话题的评论文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010935001.0A CN112115712B (zh) | 2020-09-08 | 2020-09-08 | 基于话题的群体情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010935001.0A CN112115712B (zh) | 2020-09-08 | 2020-09-08 | 基于话题的群体情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115712A CN112115712A (zh) | 2020-12-22 |
CN112115712B true CN112115712B (zh) | 2024-02-02 |
Family
ID=73803397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010935001.0A Active CN112115712B (zh) | 2020-09-08 | 2020-09-08 | 基于话题的群体情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115712B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220825B (zh) * | 2021-03-23 | 2022-06-28 | 上海交通大学 | 面向个人推文的话题情感倾向性预测模型的建模方法及系统 |
CN113220964B (zh) * | 2021-04-01 | 2024-03-22 | 国家计算机网络与信息安全管理中心 | 一种基于网信领域短文本的观点挖掘方法 |
CN115859773A (zh) * | 2022-11-07 | 2023-03-28 | 中电科大数据研究院有限公司 | 一种基于群体情绪预测模型的预警方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183717A (zh) * | 2015-09-23 | 2015-12-23 | 东南大学 | 一种基于随机森林和用户关系的osn用户情感分析方法 |
CN107808008A (zh) * | 2017-11-17 | 2018-03-16 | 合肥工业大学 | 一种考虑用户特征信息的主题‑情感联合建模方法 |
CN108959243A (zh) * | 2018-05-17 | 2018-12-07 | 中国电子科技集团公司第二十八研究所 | 一种面向用户角色的通用舆论信息情感识别方法 |
CN109684646A (zh) * | 2019-01-15 | 2019-04-26 | 江苏大学 | 一种基于话题影响力的微博话题情感分析方法 |
CN110516067A (zh) * | 2019-08-23 | 2019-11-29 | 北京工商大学 | 基于话题检测的舆情监控方法、系统及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140250032A1 (en) * | 2013-03-01 | 2014-09-04 | Xerox Corporation | Methods, systems and processor-readable media for simultaneous sentiment analysis and topic classification with multiple labels |
-
2020
- 2020-09-08 CN CN202010935001.0A patent/CN112115712B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183717A (zh) * | 2015-09-23 | 2015-12-23 | 东南大学 | 一种基于随机森林和用户关系的osn用户情感分析方法 |
CN107808008A (zh) * | 2017-11-17 | 2018-03-16 | 合肥工业大学 | 一种考虑用户特征信息的主题‑情感联合建模方法 |
CN108959243A (zh) * | 2018-05-17 | 2018-12-07 | 中国电子科技集团公司第二十八研究所 | 一种面向用户角色的通用舆论信息情感识别方法 |
CN109684646A (zh) * | 2019-01-15 | 2019-04-26 | 江苏大学 | 一种基于话题影响力的微博话题情感分析方法 |
CN110516067A (zh) * | 2019-08-23 | 2019-11-29 | 北京工商大学 | 基于话题检测的舆情监控方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112115712A (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Sentiment analysis of danmaku videos based on naïve bayes and sentiment dictionary | |
Rao | Contextual sentiment topic model for adaptive social emotion classification | |
CN110297988B (zh) | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 | |
Gokulakrishnan et al. | Opinion mining and sentiment analysis on a twitter data stream | |
CN109829166B (zh) | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 | |
CN112115712B (zh) | 基于话题的群体情感分析方法 | |
Chatzakou et al. | Detecting variation of emotions in online activities | |
Wiegmann et al. | Celebrity profiling | |
Whitney et al. | Don’t want to get caught? don’t say it: The use of emojis in online human sex trafficking ads | |
Liu et al. | Learning to predict population-level label distributions | |
Corallo et al. | Sentiment analysis for government: An optimized approach | |
Qin et al. | Automatic article commenting: the task and dataset | |
Priya | Emoji based sentiment analysis using KNN | |
Basile et al. | Upv-symanto at erisk 2021: Mental health author profiling for early risk prediction on the internet | |
Uddin et al. | Depression analysis of bangla social media data using gated recurrent neural network | |
Joshi et al. | Modeling and detecting change in user behavior through his social media posting using cluster analysis | |
Oyewola et al. | Optimizing sentiment analysis of Nigerian 2023 presidential election using two-stage residual long short term memory | |
Nguyen et al. | Analyzing customer experience in hotel services using topic modeling | |
Rabani et al. | Multi-Class Suicide Risk Prediction on Twitter Using Machine Learning Techniques | |
Marerngsit et al. | A two-stage text-to-emotion depressive disorder screening assistance based on contents from online community | |
CN109254993B (zh) | 一种基于文本的性格数据分析方法及系统 | |
Gurin | Methods for Automatic Sentiment Detection | |
CN115146031A (zh) | 一种基于深度学习和辅助特征的短文本立场检测方法 | |
Liu et al. | Oasis: Online analytic system for incivility detection and sentiment classification | |
Demillo et al. | Philippine national elections 2022: Voter preferences and topics of discussion on twitter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |