CN109740059B - 一种热门话题舆情分析方法 - Google Patents

一种热门话题舆情分析方法 Download PDF

Info

Publication number
CN109740059B
CN109740059B CN201811650317.4A CN201811650317A CN109740059B CN 109740059 B CN109740059 B CN 109740059B CN 201811650317 A CN201811650317 A CN 201811650317A CN 109740059 B CN109740059 B CN 109740059B
Authority
CN
China
Prior art keywords
data
data network
vertex
hotspot
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811650317.4A
Other languages
English (en)
Other versions
CN109740059A (zh
Inventor
徐承迪
汪大伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING PEOPLE ONLINE NETWORK Co.,Ltd.
Original Assignee
Beijing People Online Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing People Online Network Co ltd filed Critical Beijing People Online Network Co ltd
Priority to CN201811650317.4A priority Critical patent/CN109740059B/zh
Publication of CN109740059A publication Critical patent/CN109740059A/zh
Application granted granted Critical
Publication of CN109740059B publication Critical patent/CN109740059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种热门话题舆情分析方法,包括获取数据集合;按照一类数据的发布时间进行数据分组,得到分组数据集;对每个分组数据集进行预处理,得到所述分组数据集对应的数据网络集合;对于每个分组数据集,计算其对应的话题向量集;基于所述话题向量集得到所述分组数据集中的热点数据网络集合;对所述热点数据网络集合进行舆情分析。本发明通过对于热门话题进行提取,并对其进行舆情分析,能够从大数据处理和统计的角度全面掌握各种话题动态,为相关的数据处理提供依据。

Description

一种热门话题舆情分析方法
技术领域
本发明涉及计算机领域,尤其涉及一种热门话题舆情分析方法。
背景技术
在数据分析领域,经常需要对数据进行分析。在常见互动性网站中,比如知乎,百度贴吧存在大量的用户互评类数据,这类数据能够反应用户的个人偏好,也能够用于研究时事热点和社会现象,存在较多的社会信息,能够被广泛的应用于广告目标用户研究,热点问题研究,舆情监督等各个领域。但是现有技术中缺乏对于这类数据的数据处理方法,也难以从这类数据中提取出有效的数据源和舆情分析结果以用作后续的数据分析之用。
发明内容
为了解决上述技术问题,本发明提出了一种热门话题舆情分析方法。本发明具体是以如下技术方案实现的:
一种热门话题舆情分析方法,包括:
获取数据集合,所述数据集合包括一类数据和二类数据;所述一类数据为直接发布的数据,所述二类数据为针对一类数据的评论数据;
按照一类数据的发布时间进行数据分组,得到分组数据集,所述分组数据集中包括一类数据和与所述一类数据相关的二类数据;
对每个分组数据集进行预处理,得到所述分组数据集对应的数据网络集合;
对于每个分组数据集,计算其对应的话题向量集;
基于所述话题向量集得到所述分组数据集中的热点数据网络集合;
对所述热点数据网络集合进行舆情分析。
进一步地,所述基于所述话题向量集得到所述分组数据集中的热点数据网络集合包括:
获取每个数据网络的热度属性;
根据所述热度属性提取疑似热点数据网络;
获取疑似热点数据网络的相关度矩阵;
获取所述相关度矩阵中数值大于预设相关度阈值的元素;
若所述元素总数大于预设的热度阈值,则所述疑似热点数据网络被判定为热点数据网络,构成热点数据网络集合。
进一步地,所述对所述热点数据网络集合进行舆情分析包括:
对热点数据网络集合中的各个顶点进行观点分析,得到所述顶点的观点倾向值;
根据各个顶点的观点分析结果得到所述热点数据网络集合的舆情分析结果。
进一步地,根据各个顶点的观点分析结果得到所述热点数据网络集合的舆情分析结果包括:
统计观点倾向值大于0的正向倾向顶点的数量、观点倾向值小于0的负向倾向顶点数量和观点倾向值为0的中立评价倾向顶点数量。
进一步地,还包括顶点观点分析方法:
根据预设的感情词语表提取所述顶点对应的一类数据中的第一目标感情词语;
获取第一目标感情词语对应的权重;
取全部第一目标感情词语对应的权重的总和值作为第一观点倾向值分量;
获取与所述一类数据相关的二类数据,并提取所述二类数据中的第二目标感情词语;
获取第二目标感情词语对应的权重的总和值以及发布二类数据的用户的总数;
将所述总和值与所述总数的比值作为第二观点倾向值分量;
取第一观点倾向值分量和第二观点倾向值分量的总和得到观点倾向值。
本发明通过合理的数据处理步骤得到了热点数据网络集合,而热点数据网络集合的获取是研究热门话题的合理数据源,其具备广阔的应用空间。进一步地,本发明还从热点数据网络集合中得到了舆情分析结果,所述舆情分析结果可以便于掌握舆论动态,迎合大众好恶。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的一种热门话题舆情分析方法流程图;
图2是本发明实施例提供的基于所述话题向量集得到所述分组数据集中的热点数据网络集合的方法流程图;
图3是本发明实施例提供的对所述热点数据网络集合进行舆情分析方法流程图;
图4是本发明实施例提供的顶点观点分析的方法流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供一种热门话题舆情分析方法。所述方法如图1所示,包括:
S101.获取数据集合,所述数据集合包括一类数据和二类数据。
所述数据包括一类数据和二类数据,所述一类数据为直接发布的数据,所述二类数据为针对一类数据的评论数据。
S102.按照一类数据的发布时间进行数据分组,得到分组数据集,所述分组数据集中包括一类数据和与所述一类数据相关的二类数据。
具体地,数据分组的时间维度可以根据具体需求进行设置,比如同一天、同一个星期、同一个月等等。
S103.对每个分组数据集进行预处理,得到所述分组数据集对应的数据网络集合。
所述数据网络集合以有向图di={V,E}的形式记录,其中V为顶点,对应用户标识,E为有向边,代表一个用户标识发布的二类数据对另一个用户标识发布的一类数据的评论关系,每个顶点均包括用户标识、标题和内容三部分数据。
举例而言,若用户spark发布了一个一类数据,用户tony,samby和dazzi对其进行了评论,则得到了包括四个顶点,三条有向边的数据网络,有向边为从tony指向spark,samby指向spark和dazzi指向spark的三条边。有向边的方向由发布二类数据的用户指向所述二类数据对应的一类数据的用户。
具体地,数据网络中可以包括多个发布一类数据的用户和多个发布二类数据的用户,而发布一类数据的用户也可以同时作为发布二类数据的用户,本发明实施例并不限定数据网络的具体生成方法。
S104.对于每个分组数据集,计算其对应的话题向量集。
具体地,所述话题向量集可以被标识为{topici},其中topici={(ti1,pi1)……(tin,pin)},其中为tij话题topici中可能出现的关键词,Pij为所述关键词在该话题中出现的概率。事实上数据网络中的各个顶点的标题和内容都可以看做是一系列关键词的概率分布,因此,通过对于各个顶点的标题进行分析结合先验知识即可得到与顶点相关的话题,由此得到数据网络对应的话题向量集,对于每个分组数据集中的各个数据网络对应的话题向量集取并集,得到每个分组数据集对应的话题向量集。而对于得到话题向量集的具体方法本发明实施例并不做出具体限定,可以参考现有技术。
S105.基于所述话题向量集得到所述分组数据集中的热点数据网络集合。
具体地,热点数据网络集合对应了在某个时间段内的热门话题,热点数据网络集合的获取是研究热门话题的合理数据源,基于这一数据源可以进行数据分析、话题热度分析、与话题相关的行业热度分析,相关广告目标群体的定位等多种后续操作,因此,热点数据网络集合的获取具备较大的实际价值。
S106.对所述热点数据网络集合进行舆情分析。
本发明实施例通过对于热门话题进行提取,并对其进行舆情分析,能够从大数据处理和统计的角度全面掌握各种话题动态,为相关的数据处理提供依据。
进一步地,如图2所示,所述基于所述话题向量集得到所述分组数据集中的热点数据网络集合包括:
S1051.获取每个数据网络的热度属性。
具体地,所述热度属性可以根据实际情况进行获取,比如,本发明实施例中使用的热度属性为数据网络顶点数重要度、数据网络参与重要度和数据网络的阅读重要度。
具体地,所述数据网络顶点重要度为所述数据网络顶点的个数与所述数据网络所在分组数据集对应的时间段内的活跃用户总数的比值。所述活跃用户可以根据用户上线浏览数据的次数定义。
所述数据网络参与重要度为所述数据网络顶点个数与所述数据网络中各个数据被浏览的总数的比值。
所述数据网络的阅读重要度为所述数据网络中各个数据被浏览的总数与所述数据网络所在分组数据集对应的时间段内的活跃用户总数的比值。
S1052.根据所述热度属性提取疑似热点数据网络。
具体地,只有当数据网络顶点数重要度大于预设第一阈值,并且数据网络参与重要度大于预设第二阈值和数据网络的阅读重要度大于预设第三阈值的数据网络,才是疑似热点数据网络。
具体地,本发明实施例中第一阈值为0.1,第二阈值为0.15,第三阈值为0.3。
S1053.获取疑似热点数据网络的相关度矩阵。
具体地,某个顶点与某个话题向量的相关度的获取方法包括:
基于公式
Figure GDA0001971897550000061
计算某个顶点与某个话题向量的相关度,其中Vi为该顶点的标题,key为同时隶属于所述话题向量和所述标题的关键词,所述P(key)为所述关键词在所述话题向量中的概率。
进一步地,在得到某个顶点与某个话题向量的相关度的基础上,可以得到该顶点所述话题向量集中各个话题的相关度,从而得到顶点相关度向量,所述相关度向量表示所述顶点与各个话题的相关度。
以某个顶点的顶点相关度向量为列,得到疑似热点数据网络对应的相关度矩阵。
S1054.获取所述相关度矩阵中数值大于预设相关度阈值的元素。
S1055.若所述元素总数大于预设的热度阈值,则所述疑似热点数据网络被判定为热点数据网络,构成热点数据网络集合。
进一步地,所述对所述热点数据网络集合进行舆情分析如图3所示,包括:
S1061.对热点数据网络集合中的各个顶点进行观点分析,得到所述顶点的观点倾向值。
本发明实施例中观点倾向值为一个代数值,所述代数值为正,则代表所述顶点具备正向评价倾向,所述代数式为负,则代表所述顶点具备负向评价倾向,所述代数值为0,则代表所述顶点具备中立评价倾向。
S1062.根据各个顶点的观点分析结果得到所述热点数据网络集合的舆情分析结果。
具体地,统计观点倾向值大于0的正向倾向顶点的数量、观点倾向值小于0的负向倾向顶点数量和观点倾向值为0的中立评价倾向顶点数量。
具体地,本发明实施例进一步提供了顶点观点分析的方法,如图4所示,包括:
S1.根据预设的感情词语表提取所述顶点对应的一类数据中的第一目标感情词语。
具体地,所述感情词语表可以预先根据大数据统计结果进行设置,所述感情词语表记录了感情词语以及感情词语对应的权重,所述感情词语包括肯定词语、否定词语和中立词语,其中中立词语的权重为0,肯定词语的权重为正数,否定词语的权重为负数。
比如否定词语“白痴”对应权重-0.9,否定词语“小傻瓜”对应权重-0.6。权重绝对值越大,则否定词语的否定语气越激烈。比如肯定词语“绝对正确”对应权重0.8,肯定词语“应该对”对应权重0.6。权重越重,则肯定词语的肯定语气越激烈。
S2.获取第一目标感情词语对应的权重。
S3.取全部第一目标感情词语对应的权重的总和值作为第一观点倾向值分量。
S4.获取与所述一类数据相关的二类数据,并提取所述二类数据中的第二目标感情词语。
S5.获取第二目标感情词语对应的权重的总和值以及发布二类数据的用户的总数。
S6.将所述总和值与所述总数的比值作为第二观点倾向值分量;
S7.取第一观点倾向值分量和第二观点倾向值分量的总和得到观点倾向值。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种热门话题舆情分析方法,其特征在于,包括:
获取数据集合,所述数据集合包括一类数据和二类数据;所述一类数据为直接发布的数据,所述二类数据为针对一类数据的评论数据;
按照一类数据的发布时间进行数据分组,得到分组数据集,所述分组数据集中包括一类数据和与所述一类数据相关的二类数据;
对每个分组数据集进行预处理,得到所述分组数据集对应的数据网络集合;所述数据网络集合以有向图
Figure 893612DEST_PATH_IMAGE001
的形式记录,其中
Figure 702430DEST_PATH_IMAGE002
为顶点,对应用户标识,
Figure 216588DEST_PATH_IMAGE003
为有向边,代表一个用户标识发布的二类数据对另一个用户标识发布的一类数据的评论关系,每个顶点均包括用户标识、标题和内容三部分数据;
对于每个分组数据集,计算其对应的话题向量集;所述话题向量集被标识为
Figure 798748DEST_PATH_IMAGE004
,其中
Figure 550804DEST_PATH_IMAGE005
,其中
Figure 796102DEST_PATH_IMAGE006
为话题
Figure 819DEST_PATH_IMAGE007
中可能出现的关键词,
Figure 183407DEST_PATH_IMAGE008
为所述关键词在该话题中出现的概率,其中
Figure 789969DEST_PATH_IMAGE009
;通过对于各个顶点的标题进行分析得到与顶点相关的话题,由此得到数据网络对应的话题向量集,对于每个分组数据集中的各个数据网络对应的话题向量集取并集,得到每个分组数据集对应的话题向量集;
基于所述话题向量集得到所述分组数据集中的热点数据网络集合;
对所述热点数据网络集合进行舆情分析;
所述基于所述话题向量集得到所述分组数据集中的热点数据网络集合包括:
获取每个数据网络的热度属性;所述热度属性为数据网络顶点数重要度、数据网络参与重要度和数据网络的阅读重要度;所述数据网络顶点重要度为所述数据网络顶点的个数与所述数据网络所在分组数据集对应的时间段内的活跃用户总数的比值;所述数据网络参与重要度为所述数据网络顶点个数与所述数据网络中各个数据被浏览的总数的比值;所述数据网络的阅读重要度为所述数据网络中各个数据被浏览的总数与所述数据网络所在分组数据集对应的时间段内的活跃用户总数的比值;
根据所述热度属性提取疑似热点数据网络;只有当数据网络顶点数重要度大于预设第一阈值,并且数据网络参与重要度大于预设第二阈值和数据网络的阅读重要度大于预设第三阈值的数据网络,才是疑似热点数据网络;
获取疑似热点数据网络的相关度矩阵;其中,某个顶点与某个话题向量的相关度的获取方法包括:基于公式
Figure 206169DEST_PATH_IMAGE010
计算某个顶点与某个话题向量的相关度,其中
Figure 898182DEST_PATH_IMAGE011
为该顶点的标题,key为同时隶属于所述话题向量和所述标题的关键词,所述
Figure 369614DEST_PATH_IMAGE012
为所述关键词在所述话题向量中的概率;在得到某个顶点与某个话题向量的相关度的基础上,得到该顶点所述话题向量集中各个话题的相关度,得到顶点相关度向量,所述相关度向量表示所述顶点与各个话题的相关度;以某个顶点的顶点相关度向量为列,得到疑似热点数据网络对应的相关度矩阵;
获取所述相关度矩阵中数值大于预设相关度阈值的元素;
若所述元素总数大于预设的热度阈值,则所述疑似热点数据网络被判定为热点数据网络,构成热点数据网络集合。
2.根据权利要求1所述的方法,其特征在于,所述对所述热点数据网络集合进行舆情分析包括:
对热点数据网络集合中的各个顶点进行观点分析,得到所述顶点的观点倾向值;
根据各个顶点的观点分析结果得到所述热点数据网络集合的舆情分析结果。
3.根据权利要求2所述的方法,其特征在于,根据各个顶点的观点分析结果得到所述热点数据网络集合的舆情分析结果包括:
统计观点倾向值大于0的正向倾向顶点的数量、观点倾向值小于0的负向倾向顶点数量和观点倾向值为0的中立评价倾向顶点数量。
4.根据权利要求3所述的方法,其特征在于,还包括顶点观点分析方法:
根据预设的感情词语表提取所述顶点对应的一类数据中的第一目标感情词语;
获取第一目标感情词语对应的权重;
取全部第一目标感情词语对应的权重的总和值作为第一观点倾向值分量;
获取与所述一类数据相关的二类数据,并提取所述二类数据中的第二目标感情词语;
获取第二目标感情词语对应的权重的总和值以及发布二类数据的用户的总数;
将所述总和值与所述总数的比值作为第二观点倾向值分量;
取第一观点倾向值分量和第二观点倾向值分量的总和得到观点倾向值。
CN201811650317.4A 2018-12-31 2018-12-31 一种热门话题舆情分析方法 Active CN109740059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811650317.4A CN109740059B (zh) 2018-12-31 2018-12-31 一种热门话题舆情分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811650317.4A CN109740059B (zh) 2018-12-31 2018-12-31 一种热门话题舆情分析方法

Publications (2)

Publication Number Publication Date
CN109740059A CN109740059A (zh) 2019-05-10
CN109740059B true CN109740059B (zh) 2020-12-04

Family

ID=66362954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811650317.4A Active CN109740059B (zh) 2018-12-31 2018-12-31 一种热门话题舆情分析方法

Country Status (1)

Country Link
CN (1) CN109740059B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990571B (zh) * 2019-12-02 2024-04-02 北京秒针人工智能科技有限公司 一种讨论占比的获取方法、装置、存储介质及电子设备
CN114187126B (zh) * 2021-11-08 2022-08-19 杭州萝卜智能技术有限公司 一种基于数据分析的网络舆情管控系统
CN115795175B (zh) * 2023-02-15 2023-04-25 铭台(北京)科技有限公司 基于数据分析的多维度热点提取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793489B (zh) * 2014-01-16 2017-01-18 西北工业大学 一种在线社交网络中社群话题的发现方法
US20150295875A1 (en) * 2014-04-09 2015-10-15 Antoine El Daher Automatic Group And Hotspot Creation For Websites
CN104516962A (zh) * 2014-12-18 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种微博舆情监控方法及监控系统

Also Published As

Publication number Publication date
CN109740059A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN109740059B (zh) 一种热门话题舆情分析方法
CN102760172B (zh) 一种网络搜索方法及网络搜索系统
Abel et al. Analyzing the blogosphere for predicting the success of music and movie products
WO2014056397A1 (zh) 兴趣标签推荐方法、系统及计算机可读介质
Rangaswamy et al. Metadata extraction and classification of YouTube videos using sentiment analysis
US20160012454A1 (en) Database systems for measuring impact on the internet
Hasan et al. TwitterNews: Real time event detection from the Twitter data stream
Sang et al. Robust movie character identification and the sensitivity analysis
CN109033286B (zh) 数据统计方法和装置
Palod et al. Misleading metadata detection on YouTube
Hu et al. Predicting key events in the popularity evolution of online information
Qiu et al. Incorporate the syntactic knowledge in opinion mining in user-generated content
Craw et al. Music recommenders: user evaluation without real users?
Guo et al. An opinion feature extraction approach based on a multidimensional sentence analysis model
CN107807964B (zh) 数字内容排序方法、装置和计算机可读存储介质
Kutuzov et al. Cross-Lingual Trends Detection for Named Entities in News Texts with Dynamic Neural Embedding Models.
Lee et al. Event evolution tracking from streaming social posts
KR20130082879A (ko) 소셜네트워크서비스 게시글의 메타정보에 기반한 음악매칭을 통한 통합적 음악 서비스 제공 방법
CN109739988B (zh) 一种行业热度获取方法
Gautrais et al. Topic signatures in political campaign speeches
Wang Analysis of sentiment and personalised recommendation in musical performance
CN109684480B (zh) 一种基于行业的聚类方法
Zhao et al. Sub-document timestamping of web documents
AT&T
CN109739848B (zh) 一种数据提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Xu Chengdi

Inventor after: Wang Dawei

Inventor before: Xu Chengdi

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201110

Address after: 100733 324, building 10, 2 Jintai West Road, Chaoyang District, Beijing

Applicant after: BEIJING PEOPLE ONLINE NETWORK Co.,Ltd.

Address before: 476, 4 floor, building A, 3 building, No. 301 foreshore Road, Changhe Road, Binjiang District, Zhejiang, Hangzhou, China 310052

Applicant before: HANGZHOU YITU NETWORK TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant