CN112765442A - 基于新闻大数据的网络情绪波动指数监测分析方法及系统 - Google Patents

基于新闻大数据的网络情绪波动指数监测分析方法及系统 Download PDF

Info

Publication number
CN112765442A
CN112765442A CN201810662593.6A CN201810662593A CN112765442A CN 112765442 A CN112765442 A CN 112765442A CN 201810662593 A CN201810662593 A CN 201810662593A CN 112765442 A CN112765442 A CN 112765442A
Authority
CN
China
Prior art keywords
data
social
network
news
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810662593.6A
Other languages
English (en)
Inventor
郑晴晓
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Global Tone Communication Technology Co ltd
Original Assignee
Global Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Global Tone Communication Technology Co ltd filed Critical Global Tone Communication Technology Co ltd
Priority to CN201810662593.6A priority Critical patent/CN112765442A/zh
Priority to PCT/CN2018/113857 priority patent/WO2020000847A1/zh
Publication of CN112765442A publication Critical patent/CN112765442A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于大数据监测分析技术领域,公开了一种基于新闻大数据的网络情绪波动指数监测分析方法及系统,采用风险放大理论与网络情绪波动心理传播,对数据库中的数据,按照网络情绪波动指数划分维度及指标进行实时统计,得出指标的具体数值;利用神经网络模型搭建网络情绪波动指数的计算模型,输入语料,通过机器学习、匹配各维度权重并将指标综合计算,确定网络情绪波动指数。本发明基于大数据监测技术,在采集数据后,将库内数据进行进一步处理,依据社会及心理学理论基础,将社会的网络波动情绪这一概念量化,使网络情绪波动指数成为可测量的评价社会网络情绪波动程度的示数,能更简单便捷的显示出社会心理状态,指导各方面决策。

Description

基于新闻大数据的网络情绪波动指数监测分析方法及系统
技术领域
本发明属于大数据监测分析及情绪测算技术领域,尤其涉及一种基于新闻大数据的网络情绪波动指数监测分析方法及系统。
背景技术
社会网络情绪波动是指因未能预料到的某事而产生的大范围恐惧和焦虑,例如因“AA”引起的公共安全网络情绪波动,因“BB”引起的公共卫生网络情绪波动等,这些事件通过各类媒体对全球公众产生了不同程度的影响,公众的网络情绪波动程度也随时间等因素的变化而变化。著名的芝加哥期权交易所波动率指数(VIX-Chicago Board OptionsExchange Volatility Index)及中国波指(iVIX)与GRPI同被称为“网络情绪波动指数”,而它们与GPRI全球网络情绪波动指数最大的不同之处在于——VIX及iVIX的编制采用S&P500等不同指数的近月及邻月认购/认沽期权价格计算得出,是基于期权的隐含波动率进行编制。不同的是,GRPI在测量网络情绪波动的时候能基本独立于S&P500等指数,GRPI拥有完全分离的数据仓库,它利用全球新闻大数据并通过复杂算法运算得出,GRPI运算效率极大取决于大数据的规模及结构化。
GRPI全球网络情绪波动指数(Global Risk Perception Index)是用以衡量历史及时下全球媒体及网民对事件的综合网络情绪波动波动程度的指数标准,它使用媒体报道数据及网民社交活动轨迹数据综合计算得出。社会网络情绪波动是指因未能预料到的某事而产生的大范围恐惧和焦虑,网络情绪波动是通过互联网传播、公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,网络情绪波动主要通过网络新闻及社交媒体体现并加以强化。
随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。人们习惯于利用互联网来接收和发布信息。国内、国际大事件一旦发生,马上形成网上舆论。人们通过网络表达观点、传播思想,有时会形成巨大的社会力量。网络媒体时效快、互动性强等特点,社会事件在网络情绪波动中集中体现。近年来,随着大数据技术的发展,产生了一些基于大数据的网络情绪波动监测分析方法及系统。例如,现有的基于大数据的网络情绪波动分析方法基于Hadoop分布式计算平台,对网络数据进行数据采集,而后进行数据预处理,及热点事件抽取,网络情绪波动分析推演等。其中,Hadoop是一个开源分布式计算平台,其核心包括HDFS(Hadoop Distributed Files System,Hadoop分布式文件系统)。HDFS的高容错性、高伸缩性等特点允许用户将Hadoop部署在低廉的硬件上,搭建分布式集群,构成分布式系统。HBase(Hadoop DataBase,Hadoop数据库)是建立在分布式文件系统HDFS之上的提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,主要用来存储非结构化和半结构化的松散数据。现有的基于大数据的互联网网络情绪波动监测分析系统通过网络信息整理模块获取网络信息收集的网络信息,并对网络信息进行关键词提取。通过网站信用评估模块对网络信息来源的网站实时评估,网络情绪波动倾向分析模块在计算情感倾向时参考类信权值。基于网络获取网络情绪波动信息,根据关键词对获取的信息进行归类处理,并根据情感倾向对网络情绪波动进行整体判断。
目前国内外有许多针对新闻或社交媒体平台的监测系统,但监测结果停留在简单热点新闻/话题呈现,热度趋势预测等方面,能提供的信息比较浅显表面,如果需要做出决策,仍需进一步对信息进行大量人工的分析处理。对社会特殊事件引发的网络波动情绪监测,主要集中在公共安全领域的对于突发事件引起的人群网络波动情绪监测,包括对监控画面的图像处理分析和对网络情绪波动情境下人群行为的模拟。对社会特殊事件引发的网络情绪波动程度的监测是从微观上对网络情绪波动人群的监测,主要用于解决突发事件形成等事故后果扩大的问题,无法宏观观察事件对全社会的影响,在影响力较大的事件上无法适用。此外,目前全球监测系统指标不够全面、计算精度低。
发明内容
针对现有技术存在的问题,本发明提供了一种基于新闻大数据的网络情绪波动指数监测分析方法及系统,旨在解决目前的方法对社会特殊事件引发的网络波动情绪的监测是从微观上对网络情绪波动人群的监测结果主要用于解决突发事件形成等事故后果扩大,无法宏观观察事件对全社会的影响,在影响力较大的事件上无法适用以及目前全球监测系统指标不够全面、计算精度低的问题。
本发明是这样实现的,一种基于新闻大数据的关于网络情绪波动的监测分析方法,对数据库中的数据,按照网络情绪波动指数划分维度及指标进行实时统计,得出指标的具体数值;利用神经网络模型搭建网络情绪波动指数的计算模型,输入语料,通过机器学习、匹配各维度权重并将指标综合计算,确定网络情绪波动指数。
进一步,所述基于新闻大数据的关于网络情绪波动的监测分析方法具体包括:
步骤一,建立海量数据库:包括:
a)采集:应用现有技术对新闻媒体、社交媒体进行采集。社交媒体主要基于Python编程语言通过微博或Facebook开放的数据接口进行全量采集,通过消息列队的方式直接存储到数据中心;新闻媒体的采集要通过对境内、境外的新闻网页,通过调度器、采集器、任务管理器、文本解析、存储、数据治理等,对给定的新闻数据源进行广度遍历,找出进一步采集的列表页,调度器通过任务管理器将列表页发送给各个采集器,采集器通过对列表页进行爬取,得到文章的html网页。
b)处理:通过数据中心的数据治理算法,对数据进行结构化处理得到结构化数据;
c)存储:最后,将结构后处理的数据存储到Nosql数据库中,最后将数据库中的数据通过消息队列导入到数据治理模块;数据治理模块通过治理算法对数据打上响应的标签,应用主流情感算法对每篇文章进行情感计算得到情感标签。例如:新闻媒体类标签有标题、摘要、正文、关键词、时间、情感;社交媒体有账号名称、发布内容、转发内容、评论内容、点赞数、粉丝等、发布时间、情感等。治理后的数据根据进一步需求,可进行数据调用、挖掘、机器学习。
d)利用大数据采集相关的所有媒体信息,形成数据库。采集所有包含监测关键词在内的新闻及社交媒体数据,数据采集标签包含数据内容、发布媒体或社交网络发布账号、发布时间、地域属性,并放入数据库;设该数据库集合为,按时间顺序排列,其中新闻媒体信息为 N{n1,n2,n3......nn},社交媒体信息为S{s1,s2,s3......sm},得到一个为W{N,S}的数据合集。
步骤二,按照网络情绪波动指数划分维度及指标进行实时统计,得出各指标具体数值;
步骤三,利用神经网络模型搭建网络情绪波动指数的计算模型,输入既有语料,依靠机器学习对网络情绪波动指数模型进行反复、多次训练。具体包括:
A.基于神经网络的机器学习模型搭建:利用神经网络模型搭建网络情绪波动指数的计算模型前,需对数据进行归一化处理;根据归一化后的特征,使用多层全连接神经网络结构训练模型。根据归一化后的特征,使用多层全连接神经网络结构训练模型;其中LayerL1为输入层,代表各特征所对应的值;Layer L2为隐藏层,计算隐藏特征;Layer L3为输出层,输出最终结果;
B.人工标注一批可用于机器学习的语料:将不低于10000篇语料放入基于神经网络的机器学习模型中进行机器学习及训练,让每组a1~h4数据计算结果等于每组GPRI对应结果,进而达到“机器对指标计算结果”通过模型后,所得结果能无限趋近于“专家组评分结果”的目的。基于训练好的模型,对于当前时刻的所有新闻和社交媒体文本,网络情绪波动指数计算模型利用特征抽取方法进行相应特征抽取;将抽取的特征输入多层全连接神经网络结构训练模型的输入层,经过前向传播算法得到结果,并作为下一层模型的输入;经过三层模型的计算,得到最终的网络情绪波动值。
本发明的另一目的在于提供一种利用所述基于新闻大数据的关于网络情绪波动的监测分析方法的安全监测系统。
本发明的另一目的在于提供一种利用所述基于新闻大数据的关于网络情绪波动的监测分析方法的安全分析系统。
本发明的另一目的在于提供一种利用所述基于新闻大数据的关于网络情绪波动的监测分析方法的安全预警系统。
本发明的优点及积极效果为:
(1)本发明综合新闻媒体及社交媒体的监测方法,在统计、分析舆论声量、情感、及热点的基础上,增加基于文本的语义分析及特征提取,丰富了舆论监测的维度,能够对事件做更准确的跟踪及监测,解决了目前监测系统指标不够全面的问题。并且,模型训练好之后,在实际应用中本发明的模型参数及权重的运算时间与目前的监测系统时间相当,降低模型实际应用时的复杂度。本发明从网络网络情绪波动监测中分析公众的网络情绪,辅助各类决策。对于企业而言,相关领域的网络情绪波动指标是市场变化的重要指针,是投资开发的重要评判标准,如果不对社会网络情绪波动加以重视,可能影响企业生死存亡。
(2)本发明采用爬虫技术及其他数据来源,覆盖网络及其他类型数据,通过计算机技术对数据进行自动采集、智能解析、全能结构化及海量存储,解决了信息源的海量覆盖及分析案例的积累。本发明为提高监测结果的准确性,不断更新储备数据和算法学习迭代基础;监测过程以用户输入的关键词为核心,统计舆论传播中的时间、内容、数量、身份等各个维度,对舆论的传播特征全面分析,对网络情绪波动在舆论传播中的多因素作用及共同作用综合分析,监测结果更为准确。
(3)本发明通过语义分析技术,对实时及历史数据进行与数据库的比对,对于舆论的更多细节予以覆盖,更为全面的分析舆论中用户的内容倾向,对于监测网络波动情绪更好的掌握;通过大数据技术采集和分析海量数据,扩大了分析的样本数据及案例,充分利用历史积累的大量案例,从风险的社会放大理论出发,将网络情绪波动划分为多个指标的统计模型,再由神经网络学习生成网络情绪波动指数计算模型,更为科学合理,统计指标及计算模型不断得到改善,并达到一定准确度。
(4)本发明在大数据网络监测技术的基础上(基于Hadoop分布式计算平台,对网络数据进行数据采集,而后进行数据预处理的“采集及预处理系统”),添加一个统计模块和计算模块,通过预先设定的监测指标、标准化统计模型及神经网络的智能化算法模型,监测一个特定事件发生及发展场景中,民众在网络网络情绪波动中表现出的对事件的网络情绪。
(5)本发明集合自动采集、特征提取,确定某一事件的多个维度、多个监测指标,通过对一定时间范围内获取的新闻、社交媒体文本信息统计分析,得到某个特定事件的实时网络情绪波动指数。通过本发明提供的数据服务,政府、企业及相关组织可以在第一时间掌握该事件的网络情绪波动指数变化,当网络情绪波动数值超过一定范围时,能够及时做出合理应对。
(6)本发明在大数据监测系统的基础上,通过大数据实时采集技术、大数据数据库技术、大数据处理及统计技术、神经网络算法,从宏观角度监测事件引发的事件。本发明克服了现有在大数据监测系统数据呈现后,人工方法梳理、辨别、分析效率低下,准确度严重依赖知识经验的弊端;,通过大数据及语义分析技术,使用神经网络算法实现,大大提升对于社会事件的识别准确性、判别效率及其适用场景。
附图说明
图1是本发明实施提供的基于新闻大数据的网络情绪波动指数监测分析方法流程图。
图2是本发明实施提供的根据归一化后的特征,使用多层全连接神经网络结构训练模型图;
图中:Layer L1为输入层,代表各特征所对应的值;Layer L2为隐藏层,计算隐藏特征; Layer L3为输出层。
图3是本发明实施提供的使用多层全连接神经网络结构训练模型中输出最终结果前向传播算法图。
图4是本发明实施提供的全球网络情绪波动指数计算中运行过程示意图。
图5是本发明实施提供的基于新闻大数据的网络情绪波动指数监测分析系统示意图。
图中:1、数据库形成模块;2、网络情绪波动指数指标数值获取模块;3、网络情绪波动指数获取模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明在统计、分析全球声量、情感、内容的基础上,增加了基于文本的语义分析及特征提取,对新闻报道主题及篇幅、社交评论内、新闻及社交情感、地域特点、传播时长及路径、股市股指等,丰富了大数据监测的维度,对全球网络整体、特定事件或指定时间范围内的网络情绪波动程度做敏感而准确的跟踪及监测,解决了目前全球监测系统指标不够全面、计算精度不高的问题。模型训练好之后,在实际应用中本发明中的模型参数及权重的运算时间与目前的监测系统时间相当,降低模型实际应用时的复杂度。
本发明通过网络等信息渠道进行数据采集,建立起相应的数据库。数据库的搭建方法为:通过语言学专家建立词库:①对包含“牢骚言论”等表示不理性行为词进行多语种词库搭建。②对包含“恶性侵犯事件”等表示不理性行为的词进行多语种词库搭建。③对如“无能为力”“改变不了”“能做什么”等表达无助感的词汇进行多语种词库搭建。④对如“怎么会”“不理解”“不懂”“不科学”等表达不理解的词汇进行多语种词库搭建。⑤对如“担心”“烦”“焦虑”等表示忧虑性的词汇进行多语种词库搭建等。
本发明在大数据监测的基础上,将网络情绪波动的概念量化为网络情绪波动指数,依据社会风险放大理论,将网络波动情绪的测量划分为多个维度和指标的数据统计模型。并利用神经网络模型搭建网络情绪波动指数的计算模型,输入既有语料,依靠机器学习形成完整的算法。本发明实施例提供的网络情绪波动指数算法,基于大数据监测技术,在采集数据后,将库内数据进行进一步处理,依据社会及心理学理论基础,将社会的网络波动情绪这一概念量化,使网络情绪波动指数成为可测量的评价社会网络情绪波动程度的示数。能更简单便捷的显示出社会心理状态,指导各方面决策。
下面结合附图对本发明提供的监测分析方法作详细的描述。
如图1所示,本发明实施例提供的基于新闻大数据的网络情绪波动指数监测分析方法包括以下步骤:
S101:建立海量数据库。
S102:依据风险放大理论与网络情绪波动心理的传播理论,对数据库中的数据,按照网络情绪波动指数划分多个维度及多个指标进行实时统计,得出各指标具体数值。
S103:利用神经网络模型搭建网络情绪波动指数的计算模型,输入既有语料,依靠机器学习对网络情绪波动指数模型进行反复、多次训练,进而能够匹配各项指标权重。
S104:每次计算目标对象的网络情绪波动指数时,将针对目标的各指标基于海量数据进行多个指标的数据统计,将统计结果放入训练好的网络情绪波动模型进行计算,最终输出网络情绪波动指数。
在步骤S101中,形成数据库的方法主要包括以下步骤:
第一步,采集:应用现有技术对新闻媒体、社交媒体进行采集。社交媒体主要基于Python 编程语言通过微博或Facebook开放的数据接口进行全量采集,通过消息列队的方式直接存储到数据中心。新闻媒体的采集主要通过对境内、境外的新闻网页,通过调度器、采集器、任务管理器、文本解析、存储、数据治理等,对给定的新闻数据源进行广度遍历,找出可进一步采集的列表页,调度器通过任务管理器将列表页发送给各个采集器,采集器通过对列表页进行爬取,得到文章的html网页。
第二步,处理:通过数据中心的数据治理算法,对数据进行结构化处理得到结构化数据。如:文本解析模块对html网页进行文本解析,提取其中的文章标题,文章发布时间和文章正文等内容,同时去除文章中的乱码。
第三步,存储:将结构后处理的数据存储到Nosql数据库中,将数据库中的数据通过消息队列导入到数据治理模块,数据治理模块通过治理算法对数据打上响应的标签,应用主流情感算法对每篇文章进行情感计算得到情感标签。例如:新闻媒体类标签有标题、摘要、正文、关键词、时间、情感。社交媒体有账号名称、发布内容、转发内容、评论内容、点赞数、粉丝等、发布时间、情感等。治理后的数据根据进一步需求,可进行数据调用、挖掘、机器学习。
第四步,利用大数据采集相关的所有媒体信息,形成数据库。采集所有包含监测关键词在内的新闻及社交媒体数据,数据采集标签包含数据内容、发布媒体或社交网络发布账号、发布时间、地域属性,并放入数据库。设该数据库集合为,按时间顺序排列,其中新闻媒体信息为N{n1,n2,n3......nn},社交媒体信息为S{s1,s2,s3......sm},得到一个为W{N,S}的数据合集。
在步骤S102中,网络情绪波动指数划分的八个维度分别为:危害度、关注度、集中度、主观度、失控度、陌生度、激惹度、信任度。八个维度各具体计算方法如下:
(1)危害度
事件带来的直接伤害,包括受影响的人数,伤亡的人数,受影响地域的大小,受影响时间的长短,以及造成的直接经济损失和后果。
(1.1)波及人数a1
a1=argmax(TFa1)。
在N中抓取关键词“a1人受影响”,在N中将出现≥0个a1取值,用TFa1表示各a1取值分别对应出现的频率,则a1=argmax(TFa1)表示,a1取值出现频率最高的值。
(1.2)伤亡人数a2,a3
重伤人数a2=argmax(TFa2)。
死亡人数a3=argmax(TFa3)。
同理,在N中抓取关键词“a2人受重伤”,TFa2表示各a2出现的频率,a2=argmax(TFa2) 表示a2取值出现频率最高的值。在采集到的所有新闻报道中抓取关键词“a3人死亡”, TFa3表示各a出现的频率,a3=argmax(TFa3)表示a3取值出现频率最高的值。
(1.3)危害地域大小a4
当监测区域仅限某某国内时,
危害地域大小:
Figure RE-GDA0002999448480000081
其中,Z=“镇/县/乡/区”,S=“市”,Sh=“省”,G=“国”。
在集合N中,通过命名实体识别技术,识别集合N中涉地域信息的数据后,统计出“镇/ 县/乡/区”、“市”、“省”、“国”四者出现的频数。“镇/县/乡/区”频数最多时a4=1,“市”出现最多时a4=2,“省”出现最多时a4=3,“国”出现最多时a4=4。
当监测区域为全球时:
统计{W}中的IP出现区域,以国家为单位。如{W}中IP地址出现在1个国家,则计为f(1),出现在2个国家,则计为f(2),以此类推。以x表示出现的国家数,现计:
(1.4)危害地域大小:
Figure RE-GDA0002999448480000082
危害时长a5
a5=argmax(TFa5)。
在{N}中抓取关键词“预计a5可恢复”,取频率最高a5对应数值。
直接经济损失a6
a6=argmax(TFa6)。
在{N}中抓取关键词“损失a6元”,取频率最高a6对应数值。
直接社会后果a7
Figure RE-GDA0002999448480000091
其中,不理性行为词汇词库K为阐述事件在舆论阶段的词库集合,
Figure RE-GDA0002999448480000092
不理性行为词汇词库F为阐述事件上升为行动阶段的词库集合,
Figure RE-GDA0002999448480000093
(2)关注度
关注度为计算事件所带来的新闻媒体关注程度。
(2.1)相关新闻报道篇数b1为新闻媒体中,出现设定关键词的篇数。已知N{n1,n2,n3......nn},b1是对N进行计数,则有:
b1=n。
(2.2)相关社交讨论篇数b2为社交媒体中,出现设定关键词的篇数。已知S{s1,s2,s3......sm},b2是对S进行计数,则有:
b2=m。
(2.3)相关新闻的报道类型:
每篇报道字数均值:
Figure RE-GDA0002999448480000094
其中,n=相关新闻总报道篇数(b1)。Zi=第i篇报道字数。
(2.4)新闻报道时长b4
Figure RE-GDA0002999448480000095
TNn=当前新闻报道的时间,TN1=第一篇相关新闻报道时间。
(2.5)社交讨论时长b5
Figure RE-GDA0002999448480000096
TSm=当前相关社交媒体的时间。TSl=第一篇相关社交媒体的时间。
(3)集中度
事件的突发程度,表现在报道量陡增还是缓慢增长。该指标采用半衰期概念统计,即从开始有报道到目前所有报道总量的一半所用的时长。
(3.1)新闻集中度c1
Figure RE-GDA0002999448480000101
从开始有新闻报道到目前所有新闻总量的一半所用的时长。
(3.2)社交集中度c2
Figure RE-GDA0002999448480000102
从开始有社交讨论到目前所有社交讨论总量的一半所用的时长。
(4)主观度
社交媒体S{s1,s2,s3......sm}中个人对于事件的主观态度。
(4.1)相关社交评论的情感d1为出现关键词的社交媒体内容的情感均值:
E∈(1,5)。
Figure RE-GDA0002999448480000103
设集合S中每篇的情感分别为E={E1,E2,E3......Em},i∈[1,m],E∈(1,5),为1-5的每个情感值规定词表,其中r为每档E值对应频次(篇数),m为社交媒体总篇数。
(4.2)社交媒体负面词占比d2
Figure RE-GDA0002999448480000104
其中Zneg=负面词字数总量,Z=总报道字数。
(4.3)社交讨论中重要城市用户的发言篇数占总社交媒体发言篇数的比例值d3
Figure RE-GDA0002999448480000105
Figure RE-GDA0002999448480000106
Tag={纽约,华盛顿,硅谷,伦敦,巴黎,东京,北京,上海,深圳......}。
(5)失控度
社交媒体S{s1,s2,s3......sm}中个人对于自己能否控制或影响事件发展趋势的判断。
(5.1)社交媒体相关发言中不确定性、无助感词汇占比e:
Figure RE-GDA0002999448480000111
dic3=UC={无能为力,改变不了,能做什么,......}。
PUC>2表示“出现了集合UC中的任意词汇两次以上”的篇数,m表示社交媒体总篇数。
(6)陌生度
社交媒体S{s1,s2,s3......sm}中个人对事件的理解程度,即事件是新发生的还是已出现过的,能否用已知的科学原理解释。
(6.1)表未知含义词汇占比f1
Figure RE-GDA0002999448480000112
UK={″前所未有″,″首次出现″,......}。
PUK>2表示“出现了集合UK中的任意词汇两次以上”的篇数,m表示社交媒体总篇数。
(6.2)表不理解含义词汇占比f2
Figure RE-GDA0002999448480000113
DU={″怎么会″″不理解″″不懂″″不科学″,......}。
PDU>2表示“出现了集合DU中的任意词汇两次以上”的篇数,m表示社交媒体总篇数。
(7)激惹度
社交媒体S{s1,s2,s3......sm}中网民对于事件的忧虑程度及忧虑反映程度。
(7.1)忧虑性词汇占比g1
Figure RE-GDA0002999448480000114
AM={“担心”,“烦”,“息虑”,......}
PAM>2表示“出现了集合AN中的任意词汇两次以上”的篇数,m表示社交媒体总篇数。
(7.2)责备性词汇占比g2
Figure RE-GDA0002999448480000121
3L={“都怪”,“负责”,“承担责任”,“甩锅”,......}
PaL>2表示“出现了集合BL中的任意词汇两次以上”的篇数,m表示社交媒体总篇数
(7.3)不理性词汇占比g3
Figure RE-GDA0002999448480000122
PR={“抗议”“反对”“拒绝”,......}
PPR>2表示“出现了集合PR中的任意词汇两次以上”的篇数,m表示社交媒体总篇数。
(8)信任度
表示社交媒体S{s1,s2,s3......sm}中公众对于专家的信任程度。
(8.1)官方发言数量h1
A={A1,A2,......,A2}
G={“政府”,“协会”,“组织”,......}
Figure RE-GDA0002999448480000123
Figure RE-GDA0002999448480000124
其中,A=S集合中所有的账户名。
G=表示官方身份的词库。
(8.2)官方发言评论中反对含义词汇占比h2
B={B1,B2,......,B2}
Y={“反对”“不信”“麻烦解释”“请解释”,......}
Figure RE-GDA0002999448480000125
Figure RE-GDA0002999448480000126
B=所有账户名含有官方身份词汇的社交内容。
Y=所有“反对”含义词汇的数据库。
(8.3)专家的发言数量h3
A={A1,A2,......,A2}
X={“专家”,“老师”,“学者”,......}
Figure RE-GDA0002999448480000131
Figure RE-GDA0002999448480000132
其中,A=所有社交账号名的数据库。
X=所有表示学者身份词汇的数据库。
(8.4)专家发言的评论中反对含义词汇占比h4
c={c1,c2,......,c2}
Y={“反对”“不信”“麻烦解释”“请解释”,......}
Figure RE-GDA0002999448480000133
Figure RE-GDA0002999448480000134
C=所有账户名含有学者身份词汇的社交内容。
Y=所有“反对”含义词汇的数据库。
在步骤S103中,利用神经网络模型搭建网络情绪波动指数的计算模型,输入既有语料,依靠机器学习对网络情绪波动指数模型进行反复、多次训练,具体包括:
(1)基于神经网络的机器学习模型搭建:
(1.1)利用神经网络模型搭建网络情绪波动指数的计算模型前,对数据进行归一化处理。归一化处理公式进行计算获得:
Figure RE-GDA0002999448480000135
其中x为当前样本的数值,xmean代表当前特征的平均值,xmax代表当前样本中最大值,xmin代表当前样本最小值。
(1.2)根据已经归一化后的特征,使用多层全连接神经网络结构来训练模型。其模型结构如下图2。其中Layer L1为输入层,在本发明中代表各特征所对应的值。Layer L2为隐藏层,计算隐藏特征。Layer L3为输出层,输出最终结果。
(1.3)多层全连接神经网络结构训练模型的训练阶段采用前向传播算法和反向传播算法:
第一,前向传播算法计算公式:
z(l)=W(l-1)x(l-1)+b(l-1)
a(l)=f(z(l))。
hw,b(x)=a(L-1)
其中:
Figure RE-GDA0002999448480000141
1为第1层,L为最后一层,x(1)为输入的特征,W,b分别为权重和偏置,hW,b(x)为输出。
第二,反向传播算法计算公式:
多层全连接神经网络结构训练模型根据目标函数使用反向传播算法优化目标函数,得到最优的模型:
Figure RE-GDA0002999448480000142
然后根据反向传播算法更新参数得到最优的模型:
Figure RE-GDA0002999448480000143
Figure RE-GDA0002999448480000144
更新参数:
Figure RE-GDA0002999448480000145
Figure RE-GDA0002999448480000146
其斗
Figure RE-GDA0002999448480000147
为第i个节点第1层对应权重,
Figure RE-GDA0002999448480000148
J为对J函数中的权重W求偏导,m表示样本个数,b为偏置数值,λ为正则项参数,取0.1,对于当前时刻的所有新闻和社交媒体文本,网络情绪波动预测利用特征抽取方法进行相应特征抽取。将抽取的特征输入多层全连接神经网络结构训练模型的输入层,经过前向传播算法得到结果,并作为下一层模型的输入。经过三层模型的计算,得到最终的网络情绪波动值。
(2)人工标注一批可用于机器学习的语料。
(2.1)基于神经网络模型的机器学习是通过语料库进行训练出来的,语料规模越大,训练的模型准确度越高。
语料包含下列领域(共计23个),各领域设定不同事件主题,搜索文本。
Figure RE-GDA0002999448480000151
如,针对“时政”主题,检索出“某某事件、2017年6月~8月、某国媒体”发布的新闻稿件 X篇。将X篇稿件按照步骤②进行统计,得到关于“某某事件、2017年6月~8月、某国媒体”的多个指标的数值。专家组对每组事件的网络情绪波动情感进行统一标准的人工打分,同时给出打分依据。
Figure RE-GDA0002999448480000152
Figure RE-GDA0002999448480000161
根据以上类似操作,标注后语料用于基于机器学习的情感分析模型训练,标注语料中类别的分布应尽量均匀,适合分类器的训练且标注语料中的大部分文章要具有极性。由于语料资源大多来自于互联网,其编码、格式、内容往往会存在某些不规范现象,比如:标点符号的滥用,多个空格,错别字等。因此,在标注之前需要对这些不规范格式进行改正,统一采用UTF-8编码。
(2.2)模型训练:将不低于10000篇语料放入基于神经网络的机器学习模型中进行机器学习及训练,让每组a1~h4数据计算结果等于每组GPRI对应结果,进而达到“机器对多个指标计算结果”通过模型后,所得结果能无限趋近于“专家组评分结果”的目的。
(2.3)网络情绪波动预测:基于训练好的模型,对于当前时刻的所有新闻和社交媒体文本,网络情绪波动指数计算模型利用特征抽取方法进行相应特征抽取。将抽取的特征输入多层全连接神经网络结构训练模型的输入层,经过前向传播算法得到结果,并作为下一层模型的输入。经过三层模型的计算,得到最终的网络情绪波动值。
为了进一步证明本发明提供的监测方法的可行性和科学性,下面结合附图对本发明的理论依据和设计原理做进一步的描述。
如图2所示,本发明实施提供的根据归一化后的特征,使用多层全连接神经网络结构训练模型图。
如图3所示,本发明实施提供的使用多层全连接神经网络结构训练模型中输出最终结果前向传播算法图。
(1)理论与算法原理
简言之,GRPI的算法定义指标建立在新闻传播学原理、心理学社会风险及网络情绪波动等原理的基础上,通过选取对网络情绪波动具有强烈影响性的维度及衡量标准进行一系列因素前测及权重分析,然后在指标转换成数学模型的过程中通过大规模的机器学习制定不断贴合于目标的各指标权重,最后在基于全球新闻大数据的数据挖掘与数据分析综合计算的条件下计算GRPI指数,即应用现有的基于神经网络的机器算法,该机器学习方法如图设定3级, Layer L1对应多个指标,Layer L2为一个隐含层,Layer3 Hw,b(X)对应指标输出的结果。在机器训练时,设定训练规模10000组,人工给10000组Layer L1输入数值,并匹配10000 个对应的Layer3输出数值,然后通过机器在Layer2网络隐含层进行学习,匹配各系数权重并最终输出结果。
(2)因素与指标
GRPI指数主要考虑的因素有:全球时段间新闻声量及新闻总声量、全球时段间社交声量及社交总声量、全球新闻声量增长率及社交声量增长率、强烈或一般正负面新闻及社交增长率、衡量事件发生的直接物理性影响的触发因素及关键词(如死伤程度、影响时长、经济损失、辐射地域范围等)、新闻媒体报道当中对事件或主体的关注程度、社交网络平台中对事件或主体的话题爆发集中程度、衰退周期,还有一系列媒体及社交网络行为所表现出来的个体、群体态度,例如主体对事态发展控制能力、激惹及忧虑程度等,是对多个指标的概括性表述。
如图4所示,运行过程具体包括:在分析某个目标事件或主体的网络情绪波动指数时,后台会首先检索出N篇与该事件或主体相关的文章,然后会根据事件的属性选择临近维度并运算。在对未来网络情绪波动指数趋势预测中,后台基于回归或分类等统计机器学习方法,对各因素的历史数据进行统计,然后将数据用机器学习模型进行计算,实现对网络情绪波动趋势指标的计算。
S201:输入主题/事件主体/目标区域/目标时间等,设为语料1。
S202:后台检索出关于语料1的X篇新闻文章、社交内容。(新闻媒体信息为N{n1,n2,n3......nn},社交媒体信息为S{s1,s2,s3......sm},则可得到一个为W{N,S});
S203:系统对语料1的多个指标内容进行数据统计,得到数据组C1;
S204:人工对语料1的网络情绪波动指数进行打分,得分E2;
S205:进行第二次流程S201,选定语料2,重复流程S201~S204,得到C2、E2;
S206:流程重复流程S205,得到C3、E3。C4、E4……,Cn、En.(n越大越好);
S207:将C1~Cn……E1~En进基于神经网络的机器学习的模型训练。使得每组C的计算结果等于E,进而达到每组新的C通过模型后,所得结果无限趋近于E的目的;
S208:学习结束后模型可以使用。输入主题/事件主体/目标区域/目标时间等,如,输入“无人驾驶”,设定指数监测时间段为2018年1月,区域范围为任一国;
S209:后台检索关于“无人驾驶”的W篇新闻文章、社交内容;
S210:系统对关于“无人驾驶”主题在该区域及时间范围内的数据进行提取及统计,得到数据组;
S211:统计结果输入机器,机器对关于此“无人驾驶”的主题进行网络情绪波动指数的计算。
S212:机器输出关于“无人驾驶”的网络情绪波动值。
如图5,本发明实施例提供的基于新闻大数据的网络情绪波动指数监测分析系统,包括:
数据库形成模块1,利用大数据采集相关的所有媒体信息,形成数据库。
网络情绪波动指数指标数值获取模块2,将数据库中的数据,按照网络情绪波动指数划分的多个维度及多个指标进行实时统计,得出各指标具体数值。
网络情绪波动指数获取模块3,利用神经网络模型和机器学习算法,匹配各维度权重形成完整模型,计算网络情绪波动指数时,从数据库调取并统计指标计算所需数据,将各维度统计结果放入模型,最终输出网络情绪波动指数。
以下通过具体的应用实例,进一步证明本发明提供的监测方法的可行性和结果的可靠性,具备很强的理论和实践价值。
本发明依托全球200多个国家、60多个语种的新闻媒体和社交平台的大数据资源,结合了网络情绪波动与社会风险认知模型,将理论模型应用到算法层面,能对可定制主题的各类事件进行网络情绪波动指数的计算与发展状态的监测。
本发明建立在成熟的社会网络情绪波动与风险认知理论基础之上,网络情绪波动指数的计算指标参考了国内外顶尖学者关于社会网络情绪波动与网络监测测量的研究成果。在算法更新上,一方面国内外学界顶级专家学者会定期针对指标的测量进行讨论和测试,提出修改意见。另一方面,通过后台技术手段,本发明结合大量与网络情绪波动相关的权威数据进行自动比对及机器学习,以验证并更新算法权重。
本发明采用自定义的可视化应用方式,可以进行宏观监测,在5大风险领域(环境、经济、社会、地域政治与技术)及30个网络情绪波动主题内系统实现实时语义检索及计算。如在经济领域中,主要监测“能源价格震荡”、“资产泡沫”、“通货紧缩”、“财务危机”等。技术领域主要监测“网络攻击”、“数据欺诈或盗窃”等主题风险标签。
例如在国家安全层面,某一事件所引起网络情绪波动指数变化是一个案例。由比特币引发的安全问题。本质上看,比特币的狂飙与骤降,是担忧、恐惧和贪婪集中宣泄的结果。
在行业层面,网络情绪波动监测平台能显示市场预期变化,例如香港和西安分别的房地产行业价格与网络情绪波动指数。
实施例1:企业发展的网络情绪波动指数监测
企业发展状况与网络情绪波动指数有很大关系。图为乐视的网络情绪波动指数与用户数量。2016年8月某某公司爆发资金链危机,2017年1月“融创中国”150亿元入股,2017年7 月某某全面退出,某某公司企业价值危机大爆发——拖欠员工薪水、财报大幅亏损等,导致多个基金将某某公司估值下调,某某公司企业网络情绪波动指数大幅波动。
例如,7月5日,某某公司将持有股权质押给某某公司,企业换帅导致了网络情绪波动指数的大幅震荡。此时,某某公司用户人数不断减少,这一定程度上反应了用户对某某公司企业的失信。从某某公司月度覆盖人数可以看出,2017年用户整体下降,7月用户数环比减少32%,用户重度流失,此时的网络情绪波动指数显示出超大幅度动荡。
实施例2:突发事件网络情绪波动指数监测:
由于GRPI的算法几乎融合了新闻大数据的绝大部分标签,所以它同时可以被拆分使用。如:GRPI背后的实体命名及语义识别技术可帮助人们快速获取或比对所有历史数据中每场地震中的波及范围、死伤程度(1级-10级),分析民众网络情绪波动与移民等社会现象、比特币涨跌等经济现象之间的关系等。
实施例3:股市网络情绪波动指数监测:
GRPI指数作为民众情感波动率监测及预测的指标,对股票市场具有一定的指导作用。数据结果表明,二者存在一定的负相关关系。即某上市公司GRPI指数在高位时,其股价往往处于下降态势,而股票指数走强时,GRPI指数大都低位下探。GRPI指数的极值状态尤其值得关注,当GRPI处于高位极值时,往往预示着有大事正在酝酿或正在发生,例如上图为对GRPI的全球监测,GRPI指数仅有的两次突破80事件均出现在2008年,时值全球金融危机的爆发。
在上述实施例中,本发明提供的方法和系统可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线 (DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (17)

1.一种基于大数据的网络情绪波动指数监测分析方法,所述方法采用风险放大理论与网络情绪波动心理传播理论,其特征在于:
步骤一:将采集的媒体数据形成为数据库;
步骤二:将数据库中的数据按照网络情绪波动指数划分为八个维度和27个指标进行实时统计,得出各指标的具体数值;
步骤三:利用神经网络模型搭建网络情绪波动指数的计算模型,输入语料,通过机器学习、匹配各维度权重并将所述指标综合计算,得到网络情绪波动指数。
2.如权利要求1所述的方法,其特征在于,步骤一具体包括:
a)采集:对新闻媒体、社交媒体进行采集;基于Python编程语言通过社交媒体开放的数据接口进行全量采集,通过消息列队的方式直接存储到数据中心;新闻媒体的采集通过对新闻网页,通过调度器、采集器、任务管理器、文本解析、存储、数据治理,对给定的新闻数据源进行广度遍历,找出进一步采集的列表页,调度器通过任务管理器将列表页发送给各个采集器,采集器通过对列表页进行爬取,得到文章的html网页;
b)处理:通过数据中心的数据治理算法,对数据进行结构化处理得到结构化数据;
c)存储:将结构化处理的数据存储到Nosql数据库中,将数据库中的数据通过消息队列导入到数据治理模块;数据治理模块通过治理算法对数据打上相应的标签,应用情感算法对每篇文章进行情感计算得到情感标签;
d)利用大数据采集相关的所有媒体信息,形成数据库;采集所有包含监测关键词在内的新闻及社交媒体数据,数据采集标签包含数据内容、发布媒体或社交网络发布账号、发布时间、地域属性,并放入数据库;设数据库集合为W,按时间顺序排列,其中新闻媒体信息为N{n1,n2,n3......nn},社交媒体信息为S{s1,s2,s3......sm},得到一个为W{N,S}的数据合集。
3.如权利要求1所述的方法,其特征在于,步骤三具体包括:
A.基于神经网络的机器学习模型搭建:利用神经网络模型搭建网络情绪波动指数的计算模型前,对数据进行归一化处理;根据归一化后的特征,使用多层全连接神经网络结构训练模型;其中Layer L1为输入层,代表各指标特征所对应的值;Layer L2为隐藏层,计算隐藏特征;Layer L3为输出层,输出最终结果;
B.人工标注一批可用于机器学习的语料:将大于或等于10000篇语料放入基于神经网络的机器学习模型中进行机器学习及训练;
基于训练好的模型,对于当前时刻的所有新闻和社交媒体文本,网络情绪波动指数计算模型利用特征抽取方法进行相应特征抽取;将抽取的特征输入多层全连接神经网络结构训练模型的输入层,经过前向传播算法得到结果,并作为下一层模型的输入;经过三层模型的计算,得到最终的网络波动情绪值。
4.如权利要求1或2或3所述的方法,其特征在于,所述八个维度分别为:危害度、关注度、集中度、主观度、失控度、陌生度、激惹度、信任度;
其中:危害度包括的指标为:波及人数a1、重伤人数a2、死亡人数a3、危害地域大小a4、危害时长a5、直接经济损失a6以及直接社会后果a7;关注度包括的指标为:相关新闻报道篇数b1、相关社交讨论篇数b2、报道字数均值b3、新闻报道时长b4、以及社交讨论时长b5
集中度包括的指标为:新闻集中度c1,和社交集中度c2
主观度包括的指标为:相关社交评论情感d1、社交媒体负面词占比d2、以及社交讨论中重要城市用户的发言篇数占总社交媒体发言篇数的比例值d3
失控度包括的指标为:社交媒体相关发言中不确定、无助感词汇占比e;
陌生度包括的指标为:表未知含义词汇占比f1,和表不理解含义词汇占比f2
激惹度包括的指标为:忧虑性词汇占比g1、责备性词汇占比g2、以及不理性词汇占比g3
信任度包括的指标为:官方发言数量h1、官方发言评论中反对含义词汇占比h2、专家发言数量h3、以及专家发言的评论中反对含义词汇占比h4
5.如权利要求4所述的方法,其特征在于,所述危害度包括的指标的计算方法为:
1)波及人数a1=argmax(TFa1)
TFa1表示各a1取值分别对应出现的频率,a1=argmax(TFa1)表示a1取值出现频率最高的值;
2)重伤人数a2=argmax(TFa2)
TFa2表示各a2出现的频率,a2=argmax(TFa2)表示a2取值出现频率最高的值;
3)死亡人数a3=argmax(TFa3)
TFa3表示各a3出现的频率,a3=argmax(TFa3)表示a3取值出现频率最高的值;
4)危害地域大小a4
当监测区域为任一国家时
危害地域大小:
Figure RE-FDA0002999448470000021
其中,Z=“镇/县/乡/区”,S=“市”,Sh=“省”,G=“国”;
当监测区域为全球时,
统计W中的IP出现区域,以国家为单位;统计W中IP地址出现在1个国家,计为f(1),出现在2个国家,计为f(2);x表示出现的国家数:
危害地域大小:
Figure RE-FDA0002999448470000031
5)危害时长a5=argmax(TFa5)
在N中抓取关键词“预计a5可恢复”,取频率最高的a5对应数值;
6)直接经济损失a6=argmax(TFa6)
在N中抓取关键词“损失a6元”,取频率最高a6对应数值;
7)直接社会后果a7
Figure RE-FDA0002999448470000032
其中,不理性行为词汇词库K为阐述事件在舆论阶段的词库集合:
Figure RE-FDA0002999448470000033
反抗性行为词汇词库F为阐述事件上升为行动阶段的词库集合:
Figure RE-FDA0002999448470000034
6.如权利要求4所述的方法,其特征在于,所述关注度包括的指标的计算方法为:
相关新闻总报道篇数b1为新闻媒体中,出现设定关键词的篇数;
已知N{n1,n2......nn},b1对N进行计数,有:
b1=n;
相关社交讨论篇数b2为社交媒体中,出现设定关键词的篇数;
已知S{s1,s2......sm},b2是对S进行计数,则有:
b2=m;
相关新闻的报道类型b3:每篇报道字数均值:
Figure RE-FDA0002999448470000041
其中,n=相关新闻总报道篇数b1;Zi=第i篇报道字数;
新闻报道时长b4
Figure RE-FDA0002999448470000042
Figure RE-FDA0002999448470000043
社交讨论时长b5
Figure RE-FDA0002999448470000044
Figure RE-FDA0002999448470000045
7.如权利要求4所述的方法,其特征在于,所述集中度包括的指标的计算方法为:
新闻集中度c1
Figure RE-FDA0002999448470000046
Figure RE-FDA0002999448470000047
表示从开始有新闻报道的时间,
Figure RE-FDA0002999448470000048
表示到目前所有新闻报道总量的一半所用的时长;
社交集中度c2
Figure RE-FDA0002999448470000049
Figure RE-FDA00029994484700000410
表示从开始有社交讨论的时间,
Figure RE-FDA00029994484700000411
表示到目前所有社交讨论总量的一半所用的时长。
8.如权利要求4所述的方法,其特征在于,所述主观度包括的指标的计算方法为:
主观度表示社交媒体S{s1,s2......sm}中个人对于事件的主观态度;
相关社交评论的情感d1为出现关键词的社交媒体内容的情感均值:
E∈(1,5);
Figure RE-FDA00029994484700000412
设集合S中每篇的情感分别为E={E1,E2......Em},E∈(1,5)为1-5的每个情感值规定词表,其中r为每档E值对应篇数,m为社交媒体总篇数;
社交媒体负面词占比d2
Figure RE-FDA00029994484700000413
其中
Zneg=负面词字数总量,Z=总报道字数;
社交讨论中重要城市用户的发言篇数占总社交媒体发言篇数的比例值d3
Figure RE-FDA0002999448470000051
Figure RE-FDA0002999448470000052
Tag={纽约,华盛顿,硅谷,伦敦,巴黎,东京,上海,北京,深圳}。
9.如权利要求4所述的方法,其特征在于,所述失控度包括的指标的计算方法为:
失控度表示社交媒体S{s1,s2......sm}中个人对于自己能否控制或影响事件发展趋势的判断;
社交媒体相关发言中不确定性或无助感词汇占比e:
Figure RE-FDA0002999448470000053
dic3=UC={无能为力,改变不了,能做什么};
PUC>2表示“出现了集合UC中的任意词汇两次以上”的篇数,m表示社交媒体总篇数。
10.如权利要求4所述的方法,其特征在于,所述陌生度包括的指标的计算方法为:
陌生度表示社交媒体S{s1,s2......sm}中个人对事件的理解程度;
表未知含义词汇占比f1
Figure RE-FDA0002999448470000054
UK={前所未有,首次出现};
PUK>2表示“出现了集合UK中的任意词汇两次以上”的篇数,m表示社交媒体总篇数;
表不理解含义词汇占比f2
Figure RE-FDA0002999448470000055
DU={怎么会,不理解,不懂,不科学};
PDU>2表示“出现了集合DU中的任意词汇两次以上”的篇数,m表示社交媒体总篇数。
11.如权利要求4所述的方法,其特征在于,所述激惹度包括的指标的计算方法为:
激惹度表示社交媒体S{s1,s2......sm}中网民对于事件的忧虑程度及忧虑反应程度;
表忧虑性词汇占比g1
Figure RE-FDA0002999448470000061
AN={担心,烦,焦虑};
PAN>2表示“出现了集合AN中的任意词汇两次以上”的篇数,m表示社交媒体总篇数;
责备性词汇占比g2
Figure RE-FDA0002999448470000062
BL={都怪,负责,承担责任,甩锅};
PBL>2表示“出现了集合BL中的任意词汇两次以上”的篇数,m表示社交媒体总篇数
不理性词汇占比g3
Figure RE-FDA0002999448470000063
PR={抗议,反对,拒绝};
PPR>2表示“出现了集合PR中的任意词汇两次以上”的篇数,m表示社交媒体总篇数。
12.如权利要求4所述的方法,其特征在于,所述信任度包括的指标的计算方法为:
信任度表示社交媒体S{s1,s2......sm}中公众对于政府与专家的信任程度;
官方发言数量h1
A={A1,A2......,Au};
G={政府,协会,组织};
Figure RE-FDA0002999448470000064
Figure RE-FDA0002999448470000065
其中,A=S集合中所有的账户名;
G表示官方身份的词库;
官方发言评论中反对含义词汇占比h2
B={B1,B2......,Bv};
Y={反对,不信,麻烦解释,请解释};
Figure RE-FDA0002999448470000066
Figure RE-FDA0002999448470000067
其中,B=所有账户名含有官方身份词汇的社交内容
Y=所有“反对”含义词汇的数据库
专家的发言数量h3
A={A1,A2......,Au};
X={专家,老师,学者};
Figure RE-FDA0002999448470000071
Figure RE-FDA0002999448470000072
其中,A=所有社交账号名的数据库;
X=所有表示学者身份词汇的数据库;
专家发言的评论中反对含义词汇占比h4
C={C1,C2......,Cq};
Y={反对,不信,麻烦解释,请解释};
Figure RE-FDA0002999448470000073
Figure RE-FDA0002999448470000074
其中,C=所有账户名含有学者身份词汇的社交内容;
Y=所有“反对”含义词汇的数据库。
13.如权利要求3-12中任一项所述的方法,其特征在于,利用神经网络模型搭建网络情绪波动指数的计算模型前,对数据进行归一化处理:
Figure RE-FDA0002999448470000075
其中x为当前样本的数值,xmean代表当前特征的平均值,xmax代表当前样本中最大值,xmin代表当前样本最小值;
根据归一化后的特征,使用多层全连接神经网络结构训练模型,其中,Layer L1为输入层,代表各特征所对应的值;Layer L2为隐藏层,计算隐藏特征;Layer L3为输出层,输出最终结果;
多层全连接神经网络结构训练模型的训练阶段包括:前向传播算法和反向传播算法:
前向传播算法计算公式:
z(l)=W(l-1)x(l-1)+b(l-1)
a(l)=f(z(l));
hW,b(x)=a(L-1)
其中:
Figure RE-FDA0002999448470000081
l为第l层,L为最后一层,x(l)为输入的特征,W,b分别为权重和偏置,hW,b(x)为输出;
反向传播算法计算公式:
多层全连接神经网络结构训练模型根据目标函数使用反向传播算法优化目标函数,得到最优的模型:
Figure RE-FDA0002999448470000082
然后根据反向传播算法更新参数得到最优的模型:
Figure RE-FDA0002999448470000083
Figure RE-FDA0002999448470000084
更新参数:
Figure RE-FDA0002999448470000085
Figure RE-FDA0002999448470000086
其中Wi (l)为第i个节点第l层对应权重,
Figure RE-FDA0002999448470000087
为对J函数中的权重W求偏导,m表示样本个数,b为偏置数值,λ为正则项参数,取λ=0.1;
网络情绪波动预测利用特征抽取方法进行相应特征抽取;将抽取的特征输入多层全连接神经网络结构训练模型的输入层,经过前向传播算法得到结果,并作为下一层模型的输入;经过三层模型的计算,得到最终的网络波动情绪值。
14.一种能够实现权利要求1-3中任一项所述的监测分析方法的基于大数据的网络情绪波动指数监测分析系统,其特征在于,所述系统包括:
数据库形成模块,利用大数据采集相关的所有媒体信息,形成数据库;
网络情绪波动指数指标数值获取模块,将数据库中的数据,按照网络情绪波动指数划分为八个维度及27个指标进行实时统计,得出各指标具体数值;
网络情绪波动指数获取模块,利用神经网络模型和机器学习算法,匹配各维度权重形成完整模型,计算网络情绪波动指数时,从数据库调取并统计指标计算所需数据,将各维度统计结果放入模型,最终输出网络情绪波动指数。
15.一种能够实现如权利要求1-13中任一项所述方法的的安全监测系统。
16.一种能够实现如权利要求1-13中任一项所述方法的安全分析系统。
17.一种能够实现如权利要求1-13中任一项所述方法的安全预警系统。
CN201810662593.6A 2018-06-25 2018-06-25 基于新闻大数据的网络情绪波动指数监测分析方法及系统 Pending CN112765442A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810662593.6A CN112765442A (zh) 2018-06-25 2018-06-25 基于新闻大数据的网络情绪波动指数监测分析方法及系统
PCT/CN2018/113857 WO2020000847A1 (zh) 2018-06-25 2018-11-03 一种基于新闻大数据的恐慌指数监测分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810662593.6A CN112765442A (zh) 2018-06-25 2018-06-25 基于新闻大数据的网络情绪波动指数监测分析方法及系统

Publications (1)

Publication Number Publication Date
CN112765442A true CN112765442A (zh) 2021-05-07

Family

ID=68985480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810662593.6A Pending CN112765442A (zh) 2018-06-25 2018-06-25 基于新闻大数据的网络情绪波动指数监测分析方法及系统

Country Status (2)

Country Link
CN (1) CN112765442A (zh)
WO (1) WO2020000847A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117670413A (zh) * 2023-12-13 2024-03-08 中教畅享科技股份有限公司 一种基于市场人群行为的市场预测方法
CN118114664A (zh) * 2024-04-25 2024-05-31 一网互通(北京)科技有限公司 社交媒体混合平台的数据处理方法、装置及电子设备

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859074B (zh) * 2020-07-29 2023-12-29 东北大学 基于深度学习的网络舆情信息源影响力评估方法及系统
CN113537206B (zh) * 2020-07-31 2023-11-10 腾讯科技(深圳)有限公司 推送数据检测方法、装置、计算机设备和存储介质
CN112084324B (zh) * 2020-08-11 2024-06-04 同济大学 基于bert和dnn模型的交通社交媒体数据处理方法
CN112418269B (zh) * 2020-10-23 2024-04-16 西安电子科技大学 社交媒体网络事件传播关键时间预测方法、系统、介质
CN112434933A (zh) * 2020-11-20 2021-03-02 温州大学瓯江学院 一种公众社交平台的媒体影响力定量评估方法
CN112559845A (zh) * 2020-12-23 2021-03-26 北京清博大数据科技有限公司 一种非典型性媒体账号的身份与动机识别方法及系统
CN113420946B (zh) * 2021-01-20 2024-02-09 广州麦媒信息科技有限公司 一种新闻媒体的评价方法
CN113128207B (zh) * 2021-05-10 2024-03-29 安徽博约信息科技股份有限公司 基于大数据的新闻话语权评估及预测方法
CN113569188B (zh) * 2021-06-03 2024-04-09 大连交通大学 基于di-scir的双层耦合社交网络舆情传播模型构建方法
CN113222471B (zh) * 2021-06-04 2023-06-06 西安交通大学 一种基于新媒体数据的资产风控方法及设备
CN113807645A (zh) * 2021-07-26 2021-12-17 北京清博智能科技有限公司 一种基于开源情报的产业链风险推演方法
CN113779195B (zh) * 2021-08-31 2023-12-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 热点事件状态评估方法
CN113946680B (zh) * 2021-10-20 2024-04-16 河南师范大学 一种基于图嵌入及信息流分析的线上网络谣言鉴别方法
CN115827949A (zh) * 2022-11-07 2023-03-21 中电科大数据研究院有限公司 一种社交网络关键节点挖掘的方法、装置及存储介质
CN117131161A (zh) * 2023-10-24 2023-11-28 北京社会管理职业学院(民政部培训中心) 一种电动轮椅用户需求提取方法、系统及电子设备
CN118171920A (zh) * 2024-05-15 2024-06-11 山东浪潮智慧建筑科技有限公司 基于llm模型的园区安全应急响应方法、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120296845A1 (en) * 2009-12-01 2012-11-22 Andrews Sarah L Methods and systems for generating composite index using social media sourced data and sentiment analysis
CN104951548A (zh) * 2015-06-24 2015-09-30 烟台中科网络技术研究所 一种负面舆情指数的计算方法及系统
CN105068991A (zh) * 2015-07-30 2015-11-18 成都鼎智汇科技有限公司 一种基于大数据的舆情发现方法
CN105740228A (zh) * 2016-01-25 2016-07-06 云南大学 一种互联网舆情分析方法
CN106227885A (zh) * 2016-08-08 2016-12-14 星河互联集团有限公司 一种大数据的处理方法、装置及终端
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN107357860A (zh) * 2017-06-30 2017-11-17 中山大学 一种基于新闻数据的个股情绪汇聚方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408343A (zh) * 2016-09-23 2017-02-15 广州李子网络科技有限公司 一种基于bp神经网络的用户行为分析与预测的建模方法及其装置
CN107592306A (zh) * 2017-09-08 2018-01-16 四川省绵阳太古软件有限公司 基于物联网环境大数据的信息安全监测管理方法及系统
CN108108454A (zh) * 2017-12-28 2018-06-01 中译语通科技(青岛)有限公司 一种基于多语种舆情分析的旅游大数据系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120296845A1 (en) * 2009-12-01 2012-11-22 Andrews Sarah L Methods and systems for generating composite index using social media sourced data and sentiment analysis
CN104951548A (zh) * 2015-06-24 2015-09-30 烟台中科网络技术研究所 一种负面舆情指数的计算方法及系统
CN105068991A (zh) * 2015-07-30 2015-11-18 成都鼎智汇科技有限公司 一种基于大数据的舆情发现方法
CN105740228A (zh) * 2016-01-25 2016-07-06 云南大学 一种互联网舆情分析方法
CN106227885A (zh) * 2016-08-08 2016-12-14 星河互联集团有限公司 一种大数据的处理方法、装置及终端
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN107357860A (zh) * 2017-06-30 2017-11-17 中山大学 一种基于新闻数据的个股情绪汇聚方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117670413A (zh) * 2023-12-13 2024-03-08 中教畅享科技股份有限公司 一种基于市场人群行为的市场预测方法
CN118114664A (zh) * 2024-04-25 2024-05-31 一网互通(北京)科技有限公司 社交媒体混合平台的数据处理方法、装置及电子设备

Also Published As

Publication number Publication date
WO2020000847A1 (zh) 2020-01-02

Similar Documents

Publication Publication Date Title
CN112765442A (zh) 基于新闻大数据的网络情绪波动指数监测分析方法及系统
Desai et al. Techniques for sentiment analysis of Twitter data: A comprehensive survey
Gautam et al. Multimodal analysis of disaster tweets
Sharma et al. Nlp and machine learning techniques for detecting insulting comments on social networking platforms
CN111914087A (zh) 一种舆情分析方法
Sciandra COVID-19 outbreak through Tweeters’ words: Monitoring Italian social media communication about COVID-19 with text mining and word embeddings
Zhuang et al. Analysis of public opinion evolution of COVID-19 based on LDA-ARMA hybrid model
Ning et al. Calling for response: automatically distinguishing situation-aware tweets during crises
Xiao et al. Context-aware multi-view attention networks for emotion cause extraction
Garg et al. A literature review on sentiment analysis techniques involving social media platforms
Teh et al. Profanity and hate speech detection
Xu et al. Efficient sensitive information classification and topic tracking based on tibetan Web pages
Patil et al. Live twitter sentiment analysis using streamlit framework
TW201640383A (zh) 網路事件自動蒐集分析方法及系統
US20220261732A1 (en) Framework for early warning of domain-specific events
Smadi et al. A supervised machine learning approach for events extraction out of arabic tweets
Sakiyama et al. Twitter breaking news detector in the 2018 Brazilian presidential election using word embeddings and convolutional neural networks
Archana et al. Explicit sarcasm handling in emotion level computation of tweets-A big data approach
Janchevski et al. Andrejjan at semeval-2019 task 7: A fusion approach for exploring the key factors pertaining to rumour analysis
Fahim et al. Identifying social media content supporting proud boys
Wang et al. Research on the effect of government media and users’ emotional experience based on LSTM deep neural network
CN113672818B (zh) 一种获取社交媒体用户画像的方法及系统
Ullah et al. Unveiling the Power of Deep Learning: A Comparative Study of LSTM, BERT, and GRU for Disaster Tweet Classification
Yu et al. Hot event detection for social media based on keyword semantic information
Nandurkar et al. Sentiment Analysis Towards Russia-Ukrainian Conflict: Analysis of Comments on Reddit

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination