CN111414550A - 基于灰色关联分析的网络舆情热度值定量识别方法 - Google Patents

基于灰色关联分析的网络舆情热度值定量识别方法 Download PDF

Info

Publication number
CN111414550A
CN111414550A CN201911083331.5A CN201911083331A CN111414550A CN 111414550 A CN111414550 A CN 111414550A CN 201911083331 A CN201911083331 A CN 201911083331A CN 111414550 A CN111414550 A CN 111414550A
Authority
CN
China
Prior art keywords
public opinion
sequence
event
comparison
heat value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911083331.5A
Other languages
English (en)
Inventor
陶磊
屈立笳
彭光辉
苟溟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Goldtel Industry Group Co ltd
Original Assignee
Chengdu Goldtel Industry Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Goldtel Industry Group Co ltd filed Critical Chengdu Goldtel Industry Group Co ltd
Priority to CN201911083331.5A priority Critical patent/CN111414550A/zh
Publication of CN111414550A publication Critical patent/CN111414550A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了基于灰色关联分析的网络舆情热度值定量识别方法,通过设定网络舆情热点事件评价指标体系,结合灰色关联分析方法,对网络舆情热点事件的热度值进行定量分析,并获得事件持续时间段内网络舆情热点事件的热度值排序,方便用户根据热度值把握事件热点,并优化应对策略,且能根据热度值验证网络舆情热点事件评价指标体系设定是否合理,从而为多指标体系下的热点事件研究和分析提供更优的网络舆情热点事件定量评价指标体系,实现最优的热点数据获取和多个相关事件的热度值识别。

Description

基于灰色关联分析的网络舆情热度值定量识别方法
技术领域
本发明涉及网络舆情热点识别技术领域,尤其涉及基于灰色关联分析的网络舆情热度值 定量识别方法。
背景技术
网络舆情热点的研究目前主要集中在两个方向:一是研究网络舆情热点的形成条件、演 化规律,并构建热度评价指标体系,提出应对策略等;二是基于某种算法或者模型,实现对 网络舆情热点的抓取和分析,并逐渐向着计算机自动发现与预测的方向发展;但是,第一个 方向目前需要大量的数据做支撑,且需要复杂的人工分析,而第二个方向对网络舆情热点的 分析研究缺乏热度评价指标体系,往往根据算法或模型从大量数据中寻找符合热点事件必要 支撑数据,而各算法或模型在对热点进行抓取和分析时存在的误差较大,不能对各算法或模 型的正确性进行验证。
发明内容
本发明的目的在于,针对上述问题,提出基于灰色关联分析的网络舆情热度值定量识别 方法,通过建立网络舆情热度评判指标体系,利用灰色关联分析来获得某时间段内集中出现 的网络舆情热点事件的热度值排序,以供用户把握主次,根据热度值分级应对。
基于灰色关联分析的网络舆情热度值定量识别方法,包括以下步骤:
S1:建立多个相关事件的网络舆情热度评判指标;
S2:对多个相关事件的评判指标进行全网采集,得到比较数列原始数据;
S3:根据比较数列原始数据确定参考数列原始数据;
S4:对比较数列和参考数列原始数据进行无量纲化处理;
S5:计算比较数列与参考数列的灰色关联系数;
S6:根据灰色关联系数计算关联度;
S7:对关联度排序得到关联序,并以关联序表征相关事件网络舆情热度值排序。
优选的,所述网络舆情热度评判指标为包括搜索指数、舆情关注度、网民相关言论数量、 网络媒体图文报道数量以及事件平均持续时间的定量指标。
优选的,所述搜索指数为被搜索引擎检索的关键词在事件平均持续时间内的网络曝光率 及用户关注度;所述事件平均持续时间为相关事件从开始引发网络舆情到基本平息所持续的 时间。
优选的,所述网民相关言论数量为知名社交平台上网民对相关事件发表的言论数量;所 述网络媒体图文报道数量为各媒体平台上网络媒体对相关事件发表的原创或转载的新闻报道 数量。
优选的,所述舆情关注度以相关事件主题下相关网页的数量表示。
优选的,比较数列和参考数列分别指影响系统行为的因素组成的若干组数据序列和反映 系统行为特征的数据序列;所述数据序列中影响系统行为的因素包括根据网络舆情热度评判 指标进行全网采集得到的原始指标数据,所述原始指标数据组成比较数列原始数据,所述参 考数列原始数据由比较数列原始数据中每组数据序列的最大值组成。
优选的,所述步骤S4中采用极值法、标准化、均值化或初值化方法对对参考数列和比较 数列的原始数据进行无量纲化处理。
优选的,所述灰色关联系数为比较数列与参考数列的关联程度值。
优选的,所述关联度为用来衡量比较数列与参考数列之间的关联程度的关联系数的平均 值。
优选的,所述关联序为各子比较数列对同一参考数列的关联度的大小顺序排列,并作为 各事件网络舆情热度值排序。
本发明的有益效果:本方法能够准确获得某时间段内集中出现的网络舆情热点事件的热 度值识别和排序,可基于热度评价指标体系实现对网络舆情热点的抓取和分析,方便用户根 据热度值把握事件热点,并优化应对策略。
可根据热度值排序验证网络舆情热点事件评价指标体系的设定是否合理,验证关联序与 热点事件舆情热度数据是否相符合,从而为热点事件的研究和分析提供更优的网络舆情热点 事件定量评价指标体系和计算模型,实现最优的热点数据获取和多个相关事件的热度值定量 识别。
附图说明
图1是本发明流程图;
图2本发明比较数列的原始数据图;
图3是本发明比较数列原始数据无量纲化处理后的无量纲系数图;
图4是本发明各事件的关联度和关联序即各事件热度值和热度排序图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具 体实施方式。
本实施例中,基于灰色关联分析的网络舆情热度值定量识别方法,如图1所示首先对多 个事件建立一致的网络舆情热度评判指标,在构建网络舆情热度评判指标体系时主要考虑以 下3个方面的问题:
(1)该指标要能全面客观反映热点事件舆情变化的真实情况,因此尽量使用定量指标, 避免定性指标;
(2)定量指标要方便获取数据,以保证舆情热度分析的时效性和准确性;
(3)指标体系要具有普适性。
基于以上3点问题,本实施例采用搜索指数、舆情关注度、网民相关言论数量、网络媒 体图文报道数量、事件平均持续时间共计5个指标来评判网络舆情热度。
搜索指数指被搜索引擎检索的关键词在特定的时间段内的网络曝光率及用户关注度,此 处特定的时间段指事件平均持续时间;搜索指数是一个实时的动态指标,一定程度上反映了 关键词所代表事件的网络舆论热度变化趋势,本实施例中可由用户指定至少搜索引擎提供的 网络舆情热点事件在对应时间段内最高指数来近似替代搜索指数值。
舆情关注度一般用某相关事件主题下相关网页的数量来表示,包含该主题内容的网页越 多,则舆情关注度越大,该热点事件的舆情热度就越高。
网络舆情热点形成后会在网上引发激烈讨论,网民通过发表各种意见和评论的方式参与 进来,这些相关事件的相关言论数量越多,表明网络舆情热度值越高,该指标的数据依据为 各知名社交平台的原始数据。
热点舆情事件发生后网络媒体会发表大量原创或转载的新闻报道,因而可以在一定程度 上反映网络舆情热度,网络媒体图文报道数量主要依据系统采集的各媒体平台对相关事件新 闻报道的数据。
任何事件引发的网络舆情都有一定的生命周期,事件平均持续时间即指相关事件从开始 引发网络舆情到基本平息所持续的时间。
本实施例以上述5种网络舆情热度评判指标作为事件热度值定量识别的数据支持,在此 基础上结合灰色关联分析方法实现对网络舆情事件的热度分析和研究,并通过网络舆情事件 关联度的排序验证相关事件的网络舆情热度评判指标选取是否合理,验证灰色关联分析方法 得出的关联序与热点事件舆情热度数据是否相符合。
其中,灰色关联分析方法是指对一个系统发展变化态势进行定量描述和比较的方法;其 基本思想是通过比较参考数列和若干个比较数列之间几何形状相似程度来判断其联系是否紧 密;灰色关联分析法是一种多因素统计分析方法,它的优点在于少量的样本容量就可以满足 需求,对无规律的数据同样适用,不会出现量化结果与定性分析结果不相符的情况,这样很 大程度上减少了由于信息不对称带来的损失。
本实施例选取以下3件网络舆情热点事件作为研究对象并以此做进一步说明:
表1 2016年7月下旬网络舆情热点事件
序号 内容
1 全国多地出现暴雨洪涝灾害
2 八达岭野生动物园老虎咬人致一死一伤
3 私家车可合法转为网约车从事专车运营
比较数列是指影响系统行为的因素组成的若干组数据序列;按照网络舆情热点事件对相 应指标数据进行全网采集,得到比较数列每一列中对应该事件的原始数据,依次采集多个事 件的指标数据,得到多个相关事件的原始数据,即如图2所示的比较数列的原始数据;参考 数列是指反映系统行为特征的数据序列,选取比较数据原始数据中每一列的最大值作为参考 数列原始数据。
对比较数列和参考数列的原始数据做无量纲化处理,数据的无量纲化处理是指通过某种 计算方法将有量纲的数值的绝对值转变成无量纲的相对值,主要解决数据的可比性问题以及 简化计算;常见的无量纲化处理方法主要有极值法、标准化、均值化以及初值化方法,本实 施例采用初值化法对原始数据进行处理。
具体的,如图3所示将参考数列中对应比较数列的每一列最大值的原始数据作为基准量, 设定其为1,从而将比较数列中每列原始数据化为与该列最大原始数据相比后的无量纲系数。
灰色关联系数为比较数列与参考数列在各个时刻的关联程度值。
根据灰色关联系数计算关联度,关联度实际上就是各个时刻(曲线中各点)的关联系数 的平均值,用来衡量比较数列与参考数列之间的关联程度。
将各子比较序列对同一参考序列的关联度按大小顺序排列起来,便可得到关联序,关联 序反映了对于参考序列来说各个比较序列的“优劣”关系,在本实施例中,由于各个指标反 映的是热度值,因而可以把关联序近似看作是各事件网络舆情热度值排序。
如图4所示可以清楚地看到各个目标事件的热度值以及它们之间的热度大小关系,即事 件3>事件1>事件2。
根据上述目标事件热度值以及其热度大小关系,可以进一步进行验证,热度值大的事件, 其网络舆情热度评判指标的原始数据也应更大,更进一步,单一指标数据大时热度值不一定 大。
在另一个实施例中,所述网络舆情热度评判指标包括的定量指标越多,其热度值更接近 事件热度的真实情况。
本方案通过设定网络舆情热点事件评价指标体系,结合灰色关联分析方法,对网络舆情 热点事件的热度值进行定量分析,并获得事件持续时间段内网络舆情热点事件的热度值排序, 方便用户根据热度值把握事件热点,并优化应对策略,且能根据热度值验证网络舆情热点事 件评价指标体系设定是否合理,从而为多指标体系下的热点事件研究和分析提供更优的网络 舆情热点事件定量评价指标体系。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应 该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原 理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进 都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书界定。

Claims (10)

1.基于灰色关联分析的网络舆情热度值定量识别方法,其特征在于,包括以下步骤:
S1:建立多个相关事件的网络舆情热度评判指标;
S2:对多个相关事件的评判指标进行全网采集,得到比较数列原始数据;
S3:根据比较数列原始数据确定参考数列原始数据;
S4:对比较数列和参考数列原始数据进行无量纲化处理;
S5:计算比较数列与参考数列的灰色关联系数;
S6:根据灰色关联系数计算关联度;
S7:对关联度排序得到关联序,并以关联序表征相关事件网络舆情热度值排序。
2.根据权利要求1所述的基于灰色关联分析的网络舆情热度值定量识别方法,其特征在于,所述网络舆情热度评判指标为包括搜索指数、舆情关注度、网民相关言论数量、网络媒体图文报道数量以及事件平均持续时间的定量指标。
3.根据权利要求2所述的基于灰色关联分析的网络舆情热度值定量识别方法,其特征在于,所述搜索指数为被搜索引擎检索的关键词在事件平均持续时间内的网络曝光率及用户关注度;所述事件平均持续时间为相关事件从开始引发网络舆情到基本平息所持续的时间。
4.根据权利要求2所述的基于灰色关联分析的网络舆情热度值定量识别方法,其特征在于,所述网民相关言论数量为知名社交平台上网民对相关事件发表的言论数量;所述网络媒体图文报道数量为各媒体平台上网络媒体对相关事件发表的原创或转载的新闻报道数量。
5.根据权利要求2所述的基于灰色关联分析的网络舆情热度值定量识别方法,其特征在于,所述舆情关注度以相关事件主题下相关网页的数量表示。
6.根据权利要求1所述的基于灰色关联分析的网络舆情热度值定量识别方法,其特征在于,比较数列和参考数列分别指影响系统行为的因素组成的若干组数据序列和反映系统行为特征的数据序列;所述数据序列中影响系统行为的因素包括根据网络舆情热度评判指标进行全网采集得到的原始指标数据,所述原始指标数据组成比较数列原始数据,所述参考数列原始数据由比较数列原始数据中每组数据序列的最大值组成。
7.根据权利要求1所述的基于灰色关联分析的网络舆情热度值定量识别方法,其特征在于,所述步骤S4中采用极值法、标准化、均值化或初值化方法对参考数列和比较数列的原始数据进行无量纲化处理。
8.根据权利要求1所述的基于灰色关联分析的网络舆情热度值定量识别方法,其特征在于,所述灰色关联系数为比较数列与参考数列的关联程度值。
9.根据权利要求1所述的基于灰色关联分析的网络舆情热度值定量识别方法,其特征在于,所述关联度为用来衡量比较数列与参考数列之间的关联程度的关联系数的平均值。
10.根据权利要求1所述的基于灰色关联分析的网络舆情热度值定量识别方法,其特征在于,所述关联序为各子比较数列对同一参考数列的关联度的大小顺序排列,并作为各事件网络舆情热度值排序。
CN201911083331.5A 2019-11-07 2019-11-07 基于灰色关联分析的网络舆情热度值定量识别方法 Pending CN111414550A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911083331.5A CN111414550A (zh) 2019-11-07 2019-11-07 基于灰色关联分析的网络舆情热度值定量识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911083331.5A CN111414550A (zh) 2019-11-07 2019-11-07 基于灰色关联分析的网络舆情热度值定量识别方法

Publications (1)

Publication Number Publication Date
CN111414550A true CN111414550A (zh) 2020-07-14

Family

ID=71492671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911083331.5A Pending CN111414550A (zh) 2019-11-07 2019-11-07 基于灰色关联分析的网络舆情热度值定量识别方法

Country Status (1)

Country Link
CN (1) CN111414550A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853261A (zh) * 2009-11-23 2010-10-06 电子科技大学 一种基于社会网络的网络舆情行为分析方法
CN106548284A (zh) * 2016-10-27 2017-03-29 国家电网公司华中分部 一种面向运行调控的自适应模块化电网安全预警评价方法
CN107454105A (zh) * 2017-09-15 2017-12-08 北京理工大学 一种基于ahp与灰色关联的多维网络安全评估方法
CN107463686A (zh) * 2017-08-10 2017-12-12 深圳市腾讯计算机系统有限公司 一种计算网络舆情热度的方法及装置
CN108023781A (zh) * 2017-12-26 2018-05-11 上海仪电物联技术股份有限公司 一种对ip网络变更的风险进行分析的方法
CN108733791A (zh) * 2018-05-11 2018-11-02 北京科技大学 网络事件检测方法
CN109446329A (zh) * 2018-11-08 2019-03-08 大连瀚闻资讯有限公司 一种舆情分析的热点识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853261A (zh) * 2009-11-23 2010-10-06 电子科技大学 一种基于社会网络的网络舆情行为分析方法
CN106548284A (zh) * 2016-10-27 2017-03-29 国家电网公司华中分部 一种面向运行调控的自适应模块化电网安全预警评价方法
CN107463686A (zh) * 2017-08-10 2017-12-12 深圳市腾讯计算机系统有限公司 一种计算网络舆情热度的方法及装置
CN107454105A (zh) * 2017-09-15 2017-12-08 北京理工大学 一种基于ahp与灰色关联的多维网络安全评估方法
CN108023781A (zh) * 2017-12-26 2018-05-11 上海仪电物联技术股份有限公司 一种对ip网络变更的风险进行分析的方法
CN108733791A (zh) * 2018-05-11 2018-11-02 北京科技大学 网络事件检测方法
CN109446329A (zh) * 2018-11-08 2019-03-08 大连瀚闻资讯有限公司 一种舆情分析的热点识别方法

Similar Documents

Publication Publication Date Title
CN110321466B (zh) 一种基于语义分析的证券资讯查重方法及系统
JPWO2008087728A1 (ja) キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法
CN110287440B (zh) 搜索引擎优化方法、装置、计算机设备及计算机可读存储介质
Sakai et al. Ranking Retrieval Systems without Relevance Assessments: Revisited.
Rula et al. Capturing the age of linked open data: Towards a dataset-independent framework
CN117725437B (zh) 一种基于机器学习的数据精准匹配分析方法
CN111400428A (zh) 一种知识图谱体系搭建方法
CN107977452A (zh) 一种基于大数据的信息检索系统及方法
CN107688647A (zh) 一种基于协同过滤的学习复习题库推荐方法
CN117197613B (zh) 一种训练图像质量预测模型、图像质量预测的方法及装置
CN112989161A (zh) 新闻舆情监控方法、装置、电子设备及存储介质
CN105701501A (zh) 一种商标图像识别方法
CN111414550A (zh) 基于灰色关联分析的网络舆情热度值定量识别方法
CN112348281A (zh) 电力数据的处理方法和装置
CN111027771A (zh) 景区客流量预估方法、系统、装置及可存储介质
CN116127194A (zh) 一种企业推荐方法
CN114443930A (zh) 一种新闻舆情智能监测分析方法、系统及计算机存储介质
CN114429820A (zh) 一种用于医院康复科的智能康复评定系统及评定方法
KR20210111620A (ko) 전문가 평가를 활용한 생물학적 시스템 정보 저장 및 정확성 보정 장치 및 방법
CN113590673A (zh) 基于区块链深度学习的数据热度统计方法
CN117331908B (zh) 一种实时数据库在线扩容方法及系统装置
CN117789713B (zh) 一种基于语音识别的健康素养调查质量控制方法及系统
CN110727763B (zh) 一种社交媒体传播中的特殊族群识别方法
Billotte A pipeline for assessing the quality of images and metadata from crowd-sourced databases
Huiskes Aspect-based relevance learning for image retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200714

RJ01 Rejection of invention patent application after publication