CN111191096B - 全网爱国舆情事件识别及流行度跟踪方法 - Google Patents

全网爱国舆情事件识别及流行度跟踪方法 Download PDF

Info

Publication number
CN111191096B
CN111191096B CN201911238228.3A CN201911238228A CN111191096B CN 111191096 B CN111191096 B CN 111191096B CN 201911238228 A CN201911238228 A CN 201911238228A CN 111191096 B CN111191096 B CN 111191096B
Authority
CN
China
Prior art keywords
popularity
topic
network
event
patriotic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911238228.3A
Other languages
English (en)
Other versions
CN111191096A (zh
Inventor
蓝汉林
陈中天
陈汉聪
王文欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201911238228.3A priority Critical patent/CN111191096B/zh
Publication of CN111191096A publication Critical patent/CN111191096A/zh
Application granted granted Critical
Publication of CN111191096B publication Critical patent/CN111191096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种全网爱国舆情事件识别及流行度跟踪方法,首先使用网络爬虫系统爬取全网热门新闻网站和社交媒体,通过BERT模型判断话题是否与爱国主义相关,并判断发文者对国家的态度,分别计算话题在不同网站和平台的流行度,然后将相同话题的内容聚合在一起,得出此话题在全网的流行度,如果事件流行度超过阈值或者暴增,系统通过LOF算法来识别突发热点事件,并对事件持续跟踪;最后,通过收集事件相关的网络活动,在事件平息之后给出相应的事件报告。本发明可以有效识别和跟踪网络上有关爱国主义的舆情。

Description

全网爱国舆情事件识别及流行度跟踪方法
技术领域
本发明属于计算机技术和舆情监测领域,涉及一种基于集成方法的舆情事件识别和跟踪系统,尤其是爱国舆情事件识别及流行度跟踪方法。
背景技术
随着互联网和智能终端设备的发展,“两微一端”被广泛使用,自媒体的时代到来了,每个个体都可以成为报道着和传话人,信息的数量以前所未有的速度膨胀着,政府机关越来越难通过网络去真正了了解公众的感受和想法。因此,设计一套系统收集和跟踪公众在一些爱国舆情事件中的态度是十分重要的。
发明内容
为了可以有效识别和跟踪网络上有关爱国主义的舆情,本发明提供了一种全网爱国舆情事件识别及流行度跟踪方法。
为了解决上述技术问题,本发明提供如下的技术方案:
一种全网爱国舆情事件识别及流行度跟踪方法,包括以下步骤:
步骤1,建立全网数据采集系统,使用网络爬虫获取热门新闻网站和社交媒体内容,过程如下:
1.1使用基于Hadoop的分布式网络爬虫系统,分布于不同服务器上的分系统分别爬取不同的网站最后将数据聚合在一起;
1.2爬取过程中,将目标网站分为两大类:新闻网站和社交网络,新闻网站包括人民网、新浪新闻、新华网、凤凰资讯、腾讯新闻、网易新闻、搜狐新闻和今日头条;对新闻媒体爬取的内容有:发文时间、标题、发文内容、浏览量、评论数和评论内容;社交媒体包括新浪微博、豆瓣、知乎、微信公众号、百度贴吧、哔哩哔哩、抖音和快手;对社交网络爬取内容有:发布时间、发布内容、点赞数、评论数、评论内容、用户信息、用户之间的社交关系网络;
1.3建立基于Hadoop和MySQL关系数据库,将以上数据结构化并存入数据库;
步骤2,针对在步骤1中获取的文本内容,使用预先训练的BERT模型,将文本进行分类并判断是否和爱国主义相关,并将其中和爱国主义相关的内容按话题分类存储;将话题中的文本内容通过BERT模型判断作者对国家的态度或情感,是正面、中立还是负面的,并汇总形成统计报告;
步骤3,计算特定事件相关话题的流行度,过程如下:
3.1在步骤2中,所有相关的爱国主义话题被统计储存在一起,每个话题在不一样的网站或平台的流行度不同,其中第i个网站中某个话题的流行度计算公式如下:
Figure BDA0002305464280000021
其中pi(t)表示在t时刻时这一话题的流行度,ci(t)表示在t时刻时出现的这一话题相关网络行为,包括发文、评论、点赞、转发等等,Aci(t)表示在t时刻这个网站日常平均网络行为;
3.2在所有网站或平台的流行度被计算以后,将流行度加总在一起就可以得到这一事件相关话题的全网流行度,计算公式为
Figure BDA0002305464280000022
其中P(t)表示这一话题的全网流行度,n表示统计的网站或者平台的数量;
步骤4,突发热点事件识别,过程如下:
4.1基于时间的突发事件识别:在一般情况下,特定时间内网络行为数量应是随着在线用户数量而平缓变化的,如果突然出现活动增加或者模式变化,则可判定为突发的热点事件,使用基于局部离群因子的异常检测算法(Local outlier factor,LOF)方法来检测相关微博数在时间序列上的突然增长,并向用户发出通知,其中LOF是一种计算数据集中的每个点的个离群因子,通过判断LOF是否接近于1来判定是否为离群因子,公式如下:
Figure BDA0002305464280000023
其中LOFk(p)表示p点的局部离群因子,k是可设计的参数,Nk(p)表示点p的第 k距离邻域,|Nk(p)|表示p的第k邻域点的个数,lrdk(o)表示o点的局部可达密度, lrdk(p)表示p点的局部可达密度;
4.2基于地域的突发热点识别:同一时间点在不同地域话题的演变规律可能会有较大的不同,有些事件是区域性而不是全国性的,通过比较一个地区与其相邻地区的话题流行度区别来识别突发热点事件的起源及影响范围;
步骤5,当检测到与爱国主义相关的突发热点事件,系统会一直持续收集网络上的各种网络行为,记录从话题的爆发然后达到顶峰最后衰退的整个过程,并统计过程中的各种数据,包括参与互动的用户数量,用户的年龄段、用户的地域分布、用户对国家的支持度,最终形成最后的事件报告。
本发明提出的方法专注于和爱国主义相关的舆情事件,在收集舆情的同时也会通过算法判断参与者的情感偏向,最终通过统计来确定事件中持正面、中立和负面情绪的公众的分布,帮助政府机关了解舆情事件导向。
本发明的技术构思为:针对网络上存在的爱国主义舆情事件,设计方法和系统收集网络行为,通过BERT模型判断话题是否与爱国主义相关,并判断发文者对国家的态度。将不同网站和平台的相同话题聚合在一起,计算流行度并进行跟踪。
本发明的有益效果为:通过系统识别和跟踪网络上流行的爱国舆情事件,最终形成事件报告,有助于政府理解公众对国家的态度,也有助于民族自信心的建立。
附图说明
图1为本发明的系统流程图;
图2为本发明BERT话题判断和情感分析模块原理示意图;
图3为本发明LOF方法原理示意图;
图4为本发明流行度跟踪示意图。
具体实施方式
为了便于普通技术人员理解和实施本发明,下面将结合附图对本发明做进一步说明。
参照图1~图4,一种全网爱国舆情事件识别及流行度跟踪方法,所述方法包括以下步骤:
步骤1,建立全网数据采集系统,使用网络爬虫获取热门新闻网站和社交媒体内容,过程如下:
1.1使用基于Hadoop的分布式网络爬虫系统,分布于不同服务器上的分系统分别爬取不同的网站最后将数据聚合在一起;
1.2爬取过程中,将目标网站分为两大类:新闻网站和社交网络,新闻网站包括人民网、新浪新闻、新华网、凤凰资讯、腾讯新闻、网易新闻、搜狐新闻和今日头条;对新闻媒体爬取的内容有:发文时间、标题、发文内容、浏览量、评论数和评论内容;社交媒体包括新浪微博、豆瓣、知乎、微信公众号、百度贴吧、哔哩哔哩、抖音和快手;对社交网络爬取内容有:发布时间、发布内容、点赞数、评论数、评论内容、用户信息、用户之间的社交关系网络;
1.3建立基于Hadoop和MySQL关系数据库,将以上数据结构化并存入数据库;
步骤2,针对在步骤1中获取的文本内容,参照图2,使用预先训练的BERT 模型,将文本进行分类并判断是否和爱国主义相关,并将其中和爱国主义相关的内容按话题分类存储;将话题中的文本内容通过BERT模型判断作者对国家的态度或情感,是正面、中立还是负面的,并汇总形成统计报告;
步骤3,计算特定事件相关话题的流行度,过程如下:
3.1在步骤2中,所有相关的爱国主义话题被统计储存在一起,每个话题在不一样的网站或平台的流行度不同,其中第i个网站中某个话题的流行度计算公式如下:
Figure BDA0002305464280000041
其中pi(t)表示在t时刻时这一话题的流行度,ci(t)表示在t时刻时出现的这一话题相关网络行为,包括发文、评论、点赞、转发等等,Aci(t)表示在t时刻这个网站日常平均网络行为;
3.2在所有网站或平台的流行度被计算以后,将流行度加总在一起就可以得到这一事件相关话题的全网流行度,计算公式为
Figure BDA0002305464280000042
其中P(t)表示这一话题的全网流行度,n表示统计的网站或者平台的数量;
步骤4,突发热点事件识别,具体过程如下:
4.1基于时间的突发事件识别:在一般情况下,特定时间内网络行为数量应是随着在线用户数量而平缓变化的,如果突然出现活动增加或者模式变化,则可判定为突发的热点事件,使用基于局部离群因子的异常检测算法(Local outlier factor,LOF)方法来检测相关微博数在时间序列上的突然增长,并向用户发出通知,其中LOF是一种计算数据集中的每个点的个离群因子,通过判断LOF是否接近于1来判定是否为离群因子,公式如下:
Figure BDA0002305464280000051
其中LOFk(p)表示p点的局部离群因子,k是可设计的参数,Nk(p)表示点p的第 k距离邻域,|Nk(p)|表示p的第k邻域点的个数,lrdk(o)表示o点的局部可达密度, lrdk(p)表示p点的局部可达密度,其原理如图3所示,集合C1的点,整体间距、密度和分散情况较为均匀一致,可认为是同一簇;同理集合C2的点可认为是另一簇,而点o1和o2相对孤立,可以判定为异常点或离散点;
4.2基于地域的突发热点识别:同一时间点在不同地域话题的演变规律可能会有较大的不同,有些事件是区域性而不是全国性的,通过比较一个地区与其相邻地区的话题流行度区别来识别突发热点事件的起源及影响范围;
步骤5,当检测到与爱国主义相关的突发热点事件,系统会一直持续收集网络上的各种网络行为,如图4所示,记录从话题的爆发然后达到顶峰最后衰退的整个过程,并统计过程中的各种数据,包括参与互动的用户数量,用户的年龄段、用户的地域分布、用户对国家的支持度等等,最终形成最后的事件报告。
以上阐述的实施例仅仅为本发明的一部分实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所施行的其他实施例,均在本发明的保护范围之内。同时本发明不只是限于上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及范围的前提下对其可作种种变形加以实施。

Claims (1)

1.一种全网爱国舆情事件识别及流行度跟踪方法,其特征在于,所述方法包括以下步骤:
步骤1,建立全网数据采集系统,使用网络爬虫获取热门新闻网站和社交媒体内容,过程如下:
1.1使用基于Hadoop的分布式网络爬虫系统,分布于不同服务器上的分系统分别爬取不同的网站,最后将数据聚合在一起;
1.2爬取过程中,将目标网站分为两大类:新闻网站和社交网络,对新闻媒体爬取的内容有:发文时间、标题、发文内容、浏览量、评论数和评论内容;对社交网络爬取内容有:发布时间、发布内容、点赞数、评论数、评论内容、用户信息、用户之间的社交关系网络;
1.3建立基于Hadoop和MySQL的关系数据库,将以上数据结构化并存入数据库;
步骤2,针对在步骤1中获取的文本内容,使用预先训练的BERT模型,将文本进行分类并判断是否和爱国主义相关,并将其中和爱国主义相关的内容按话题分类存储;将话题中的文本内容通过BERT模型判断作者对国家的态度或情感,是正面、中立还是负面的,并汇总形成统计报告;
步骤3,计算特定事件相关话题的流行度,过程如下:
3.1在步骤2中,所有相关的爱国主义话题被统计储存在一起,每个话题在不一样的网站或平台的流行度不同,其中第i个网站中某个话题的流行度计算公式如下:
Figure FDA0002956266040000011
其中pi(t)表示在t时刻时这一话题的流行度,ci(t)表示在t时刻时出现的这一话题相关网络行为,包括发文、评论、点赞和转发,Aci(t)表示在t时刻这个网站日常平均网络行为;
3.2在所有网站或平台的流行度被计算以后,将流行度加总在一起就可以得到这一事件相关话题的全网流行度,计算公式为
Figure FDA0002956266040000021
其中P(t)表示这一话题的全网流行度,n表示统计的网站或者平台的数量;
步骤4,突发热点事件识别,过程如下:
4.1基于时间的突发事件识别:在一般情况下,特定时间内网络行为数量应是随着在线用户数量而平缓变化的,如果突然出现活动增加或者模式变化,则可判定为突发的热点事件,使用基于局部离群因子的异常检测算法(Local outlier factor,LOF)方法来检测相关微博数在时间序列上的突然增长,并向用户发出通知,其中LOF是数据集中每个点的离群因子,通过判断LOF是否接近于1来判定这个点是否为离群,公式如下:
Figure FDA0002956266040000022
其中LOFk(p)表示p点的局部离群因子,k是可设计的参数,Nk(p)表示点p的第k距离邻域,|Nk(p)|表示p的第k邻域点的个数,lrdk(o)表示o点的局部可达密度,lrdk(p)表示p点的局部可达密度;
4.2基于地域的突发热点识别:同一时间点在不同地域话题的演变规律可能会有较大的不同,有些事件是区域性而不是全国性的,因此通过比较一个地区与其相邻地区的话题流行度区别来识别突发热点事件的起源及影响范围;
步骤5,当检测到与爱国主义相关的突发热点事件,会一直持续收集网络上的各种网络行为,记录从话题的爆发然后达到顶峰最后衰退的整个过程,并统计过程中的各种数据,包括参与互动的用户数量,用户的年龄段、用户的地域分布、用户对国家的支持度,最终形成最后的事件报告。
CN201911238228.3A 2019-12-06 2019-12-06 全网爱国舆情事件识别及流行度跟踪方法 Active CN111191096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911238228.3A CN111191096B (zh) 2019-12-06 2019-12-06 全网爱国舆情事件识别及流行度跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911238228.3A CN111191096B (zh) 2019-12-06 2019-12-06 全网爱国舆情事件识别及流行度跟踪方法

Publications (2)

Publication Number Publication Date
CN111191096A CN111191096A (zh) 2020-05-22
CN111191096B true CN111191096B (zh) 2021-08-03

Family

ID=70705796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911238228.3A Active CN111191096B (zh) 2019-12-06 2019-12-06 全网爱国舆情事件识别及流行度跟踪方法

Country Status (1)

Country Link
CN (1) CN111191096B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113495959B (zh) * 2021-05-20 2022-09-09 山东大学 一种基于文本数据的金融舆情识别方法及系统
CN113836267A (zh) * 2021-09-24 2021-12-24 国家市场监督管理总局信息中心 一种突发事件检测方法及装置
CN114036221A (zh) * 2021-09-24 2022-02-11 国务院国有资产监督管理委员会研究中心 一种专题事件分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2952215A1 (fr) * 2009-10-29 2011-05-06 Saooti Procede de selection d'un candidat parmi un ensemble de candidats.
CN103279479A (zh) * 2013-04-19 2013-09-04 中国科学院计算技术研究所 一种面向微博客平台文本流的突发话题检测方法及系统
CN107463686A (zh) * 2017-08-10 2017-12-12 深圳市腾讯计算机系统有限公司 一种计算网络舆情热度的方法及装置
CN109492776A (zh) * 2018-11-21 2019-03-19 哈尔滨工程大学 基于主动学习的微博流行度预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2952215A1 (fr) * 2009-10-29 2011-05-06 Saooti Procede de selection d'un candidat parmi un ensemble de candidats.
CN103279479A (zh) * 2013-04-19 2013-09-04 中国科学院计算技术研究所 一种面向微博客平台文本流的突发话题检测方法及系统
CN107463686A (zh) * 2017-08-10 2017-12-12 深圳市腾讯计算机系统有限公司 一种计算网络舆情热度的方法及装置
CN109492776A (zh) * 2018-11-21 2019-03-19 哈尔滨工程大学 基于主动学习的微博流行度预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
社交网络热点话题传播分析和预测;黄建一;《中国博士学位论文全文数据库 信息科技辑》;20190715;全文 *
突发事件网络舆情应对与大学生理性爱国意识引导实践策略;齐东伟;《河南教育(高教)》;20140430;全文 *

Also Published As

Publication number Publication date
CN111191096A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN111191096B (zh) 全网爱国舆情事件识别及流行度跟踪方法
Morstatter et al. A new approach to bot detection: striking the balance between precision and recall
US10109023B2 (en) Social media events detection and verification
CN111178586B (zh) 网络爱国舆情事件跟踪、预测和疏导方法
CN103116605B (zh) 一种基于监测子网的微博热点事件实时检测方法及系统
US9967321B2 (en) Meme discovery system
WO2008148819A2 (en) Method and apparatus for the monitoring of relationships between two parties
CN103795612A (zh) 即时通讯中的垃圾和违法信息检测方法
Xu et al. MNRD: A merged neural model for rumor detection in social media
Ramalingaiah et al. Twitter bot detection using supervised machine learning
Liu et al. SDHM: A hybrid model for spammer detection in Weibo
Shi et al. Rumor detection of COVID-19 pandemic on online social networks
Liang et al. Automatic rumors identification on Sina Weibo
Lee et al. Cyberbullying Detection on Social Network Services.
CN112632218A (zh) 一种用于企业危机公关的网络舆情监测方法
Hafzullah et al. Confidence index analysis of Twitter users timeline
CN111382345B (zh) 话题筛选和发布的方法、装置和服务器
CN113157993A (zh) 一种基于时序图极化分析的网络水军行为预警模型
CN111666268A (zh) 一种微博大数据舆情分析方法
Verasakulvong et al. Online emerging topic detection on Twitter using random forest with stock indicator features
Bhuvaneswari et al. Identifying event bursts using log-normal distribution of tweet arrival rate in twitter stream
Udge et al. Statistical Analysis for Twitter Spam Detection
CN110083701A (zh) 一种基于平均影响力的网络空间群体性事件预警系统
Bernados et al. Analysis of the impact of social networking sites using web content mining and induction method
CN117635190B (zh) 一种日志数据分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant