CN107644269B - 一种支持风险评估的电力舆情预测方法及装置 - Google Patents

一种支持风险评估的电力舆情预测方法及装置 Download PDF

Info

Publication number
CN107644269B
CN107644269B CN201710813863.4A CN201710813863A CN107644269B CN 107644269 B CN107644269 B CN 107644269B CN 201710813863 A CN201710813863 A CN 201710813863A CN 107644269 B CN107644269 B CN 107644269B
Authority
CN
China
Prior art keywords
public opinion
risk assessment
hidden layer
webpage
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710813863.4A
Other languages
English (en)
Other versions
CN107644269A (zh
Inventor
王志伟
易文韬
刘健民
金霞
徐迎辉
万英
汪雯卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Power Supply Branch Of State Grid Jiangxi Electric Power Co
Original Assignee
Nanchang Power Supply Branch Of State Grid Jiangxi Electric Power Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Power Supply Branch Of State Grid Jiangxi Electric Power Co filed Critical Nanchang Power Supply Branch Of State Grid Jiangxi Electric Power Co
Priority to CN201710813863.4A priority Critical patent/CN107644269B/zh
Publication of CN107644269A publication Critical patent/CN107644269A/zh
Application granted granted Critical
Publication of CN107644269B publication Critical patent/CN107644269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种支持风险评估的电力舆情预测方法及装置,包括:接收待抓取网站的统一资源定位符URL、网站名称和搜索关键词,对搜索关键词进行扩展与更新;进行抓取网页并从所抓取网页中提取网页内容,提取网页链接和链接锚文本;基于信息素的网页链接选取方法对网页链接的优先权进行排队,依据优先权队列,选取下一个网页链接进行访问;直至得到所有待分析网页的网页内容;依据字典词库和词组进行网页内容分词处理,提取关键词,对网页间相同关键词进行去重,并根据网页间关键词的重复度提供相应关键词热度值;基于优化的BP神经网络算法构建电力服务舆情风险评估模型,实现舆情风险评估;将结果推送给客户端,完成电力信息舆情监测。

Description

一种支持风险评估的电力舆情预测方法及装置
技术领域
本发明涉及智能用电技术领域,特别是涉及一种支持风险评估的电力舆情预测方法及装置。
背景技术
随着新电改全面提速、售电侧逐步放开,电网企业在管理、同行竞争以及处理外界事务等事件中受到社会民众和媒体的广泛关注。尤其当前电网企业处于智能电网快速发展期,企业发展方式和经营管理方式正处于转型期,转型举措具有“敏感性”,极易被媒体或公众聚焦成为攻击热点。此外,电网企业舆情风险覆盖范围广,如供用电监察、工业服务、商业服务、居民服务、故障响应、企业内部稳定等,而电力用户与电网企业相互沟通少,相对而言绝大多数正面新闻被关注较少,而稍有负面新闻的舆论跟风,极易造成误解,如:第三方施工或人为偷盗损坏输电线路导致停电事故;屡遭居民抵制建设输电线路走廊和变电站;职工子女就业、体制改革的遗留问题等,都易引起社会各界及公众的关注和炒作等。
截至2015年12月,中国网民规模达6.88亿,互联网普及率达到50.3%,半数中国人已接入互联网,中国网站总数为423万个,网页数量突破2000亿,互联网塑造了全新的社会生活形态,并为电力企业对电力舆情的监测与掌控提供了信息通道,网络舆情可以有效、直接反映出社会舆情,同时对于部分突发事件、公众所持有态度及发表言论可在一定时间内对社会稳定造成严重影响,针对网络舆情事件的特殊易爆性、关联复杂性、群体扩散性和演变不确定性,传统舆情预测偏离往往导致舆情管理干预困难,且数据显示单一,难以实现舆情状态的有效洞察,因此亟需采用有效数据分析处理技术,针对舆情实施严格监控,从而有效控制与引导电力企业相关事态的良性发展,做到未雨绸缪,将隐患控制在萌芽状态。
发明内容
为了解决现有技术的不足,本发明提供了一种支持风险评估的电力舆情预测方法,通过一种舆情等级分类的数据预测模型,满足电力舆情实时动态监测及预警推送的业务需求;
一种支持风险评估的电力舆情预测方法,步骤如下:
步骤(1):接收待抓取网站的统一资源定位符URL、网站名称和搜索关键词,对搜索关键词进行扩展与更新;
步骤(2):根据网站的统一资源定位符URL、网站名称和扩展与更新后的搜索关键词,进行抓取网页并从所抓取网页中提取网页内容,然后再从所抓取网页中提取网页链接和链接锚文本;基于信息素的网页链接选取方法对网页链接的优先权进行排队,依据优先权队列,选取下一个网页链接进行访问;直至得到所有待分析网页的网页内容;
步骤(3):根据网页内容,依据字典词库和词组进行网页内容分词处理,提取关键词,对网页间相同关键词进行去重,并根据网页间关键词的重复度提供相应关键词热度值;
步骤(4):根据关键词和相应关键词热度值,基于优化的BP神经网络算法构建电力服务舆情风险评估模型,实现舆情风险评估;
步骤(5):基于历史舆情数据设定舆情等级阈值,并根据舆情等级及趋势推荐舆情控制决策;
步骤(6):将舆情风险评估结果和舆情控制决策推送给客户端,完成电力信息舆情监测。
所述步骤(1)将搜索关键词实时更新到舆情数据库和数据仓库中;通过数据仓库中的同义词、相近词和相关词对搜索关键词进行扩展与更新;
所述步骤(1)还根据关键词,对舆情数据库中进行感兴趣区域锁定,同时将舆情数据库感兴趣区域的舆情数据通过浏览器进行展示。
所述步骤(2)中基于信息素的网页链接选取方法对网页链接的优先权进行排队:
步骤(21):在爬取链接每选择一个相关链接r加入到第d次爬取优先权队列时,便更新与当前队列相关的信息素值,对网页爬取所搜索过的链接上信息素浓度进行一次局部更新,以减小相同主题链接对网页爬取的吸引力,信息素的互斥κr,d更新公式如下:
κr,d←(1-ρ)·κr,d+ρ·κ0
其中,ρ为局部信息素挥发率,0<ρ≤1,(1-ρ)·κr,d代表原有局部信息素的互斥的挥发量,κ0为初始局部信息素;
所述步骤(21)目的为增加爬取其他相关网页信息的可能性,避免爬取信息陷入局部相关。
步骤(22):在优先权队列完成一次爬取执行后,对本组信息素进行吸引更新,信息素的吸引τr,d更新公式如下:
τr,d=(1-ξ)·κr,d+ξ·Δτr,d
Figure BDA0001404622000000021
其中,ξ为全局信息素挥发率,(1-ξ)·κr,d代表原有信息素的挥发量,Δτr,d为信息素的吸引增量,Q为调整参数,fr,d为本次网页爬取获取的主题平均相关度,fd-1为前d-1次网页爬取获取的历史主题平均相关度,主题相关度由获取网页的HTMT正文内容,当前页面和当前整体主题的相关度sim(αii′)计算如下:
Figure BDA0001404622000000031
其中,αi是当前整体关键词,αi′是当前页面关键词,若αi与αi′无匹配项,则αi′取值记为0,m为关键词总个数;
所述步骤(22)的目的为:为引导爬取链接面向全局最优相关的方向搜索。
步骤(23):爬取链接r进入第d次爬取优先权队列,优先执行权重pr,d(t)为:
pr,d(t)=(τr,d(t))vr,d(t))z
式中,v和z为调整参数,通过对优先执行权重的排序,确定优先权队列的网页爬取执行顺序;步骤(24):根据生成的优先权队列,选择下一个抓取网页URL。
所述步骤(3)关键词热度值与关键词在文档中的出现次数正相关,而与整个搜索中出现关键词的网页个数负相关,计算数值如下:
Figure BDA0001404622000000032
其中,βi为关键词αi对应的关键词热度值,
Figure BDA0001404622000000033
表示关键词αi在本次搜索文档中出现频率,M表示搜索网页总的文档的个数,
Figure BDA0001404622000000034
表示包含关键词αi文档的个数,i的取值范围是1,2,…,m,m为关键词总个数。
所述步骤(4)中基于优化的BP神经网络算法构建电力服务舆情风险评估模型,步骤:
步骤(41):使用舆情数据库内舆情风险发生情况80%的历史数据作为训练样本集(xk,yk),k∈(1,2,…,K);
步骤(42):获取特征关键词αi和相应特征关键词热度值βi,计算获取话题x的特征属性ai=αi·βi,定义话题x={a1,a2,…,am}为一个待分类项,i∈(1,2,…,m);
步骤(43):定义单隐层误差逆传播神经网络,即单隐层BP神经网络,初始化电力服务舆情风险评估模型内BP神经网络隐层节点数:
Figure BDA0001404622000000041
其中,s为隐层节点数,n+1为输出节点数;
步骤(44):确定舆情风险评估级别集合C={0,1,2,…n},舆情风险严重程度与C取值成正比,在(0,1)范围内随机初始化单隐层BP神经网络内所有连接权和阈值;
步骤(45):将训练样本集数据传输至输入神经元,基于梯度下降策略,以目标的负梯度方向对参数进行调整,数据计算流程:
当前参数的样本输出值:
Figure BDA0001404622000000042
均方误差Ek
Figure BDA0001404622000000043
输出层神经元的梯度项gj
Figure BDA0001404622000000044
隐层神经元的梯度项eh
Figure BDA0001404622000000045
更新权值:
whj←whj+Δwhj=whj+ηgish
vih←vih+Δvih=vih+Δηehxi
更新阈值:
θj←θj+Δθj=θj-ηgj
γh←γh+Δγh=γh-ηeh
式中,
Figure BDA0001404622000000051
为训练样本(xk,yk)的第j个输出层神经元的实际输出值,η为学习率,调整参数共计(m+n+2)s+n个,包含输入层到隐层的m×s个权值vih,隐层到输出层的s×(n+1)个权值whj,s个隐层神经元阈值γh,n个输出层神经元阈值θj,h∈(1,2,…s),j∈(0,1,2,…n);
若累积误差
Figure BDA0001404622000000052
ε为期望累积误差,则停止迭代循环过程,否则重复执行步骤(45),直至满足迭代停止条件,并将步骤(45)满足迭代停止条件所构建的优化的BP神经网络数据传输至数据库保存,执行步骤(46),初始化
Figure BDA0001404622000000053
步骤(46):初始化E0=0,判断误差降值ΔE是否满足停止迭代条件,
Figure BDA0001404622000000057
Figure BDA0001404622000000059
若连续累计三次
Figure BDA0001404622000000058
数值趋近,则停止迭代,执行步骤(49),若否,则执行步骤(47);
步骤(47):以互信息计算隐含层神经元h与输出层神经元间的连接强度m(h,y),
Figure BDA0001404622000000054
规则化连接强度:
Figure BDA0001404622000000055
若m(h,y)<ι,ι趋近于0,则消融该隐层神经元,ι为设定经验值;
其中,p(h,j)是隐层神经元h和输出层神经元j的联合概率密度,p(h)和p(j)分别是隐层神经元h和输出层神经元j的分别超过阈值的概率密度;
步骤(48):以活跃度函数Ah(x)判定隐含层神经元的活跃度,
Figure BDA0001404622000000056
当隐层神经元(称为第h个神经元)的活跃度Ah(x)大于活跃度阈值A0=max{1/s,10ε}时,活跃神经元h与输出神经元断开连接,对其进行分裂,共计分裂隐层神经元数h′个,则更新隐层神经元数目h←h+h′,返回步骤(45);
步骤(49):将测试样本集投入数据库存储的神经网络数据,根据测试样本集的实际舆情风险发生情况,计算舆情风险预测准确率与召回率,选取训练样本集误差最低且测试样本集同比最低的BP神经网络数据作为电力服务舆情风险评估模型,输出电力服务舆情风险评估模型。
所述步骤(4)舆情风险评估结果被传输至舆情数据库,舆情数据库存储舆情风险评估结果作为电力服务舆情风险评估模型的优化反馈信息。
所述步骤(5)将舆情事件分为4类,高舆情高代价、高舆情低代价、低舆情高代价和低舆情低代价,对高舆情低代价和低舆情低代价进行新闻溯源追踪,并对舆情剧减当天的热点丢失原因进行推荐,将舆情控制决策被传输至舆情数据库,舆情数据库存储舆情控制决策作为电力服务舆情风险评估模型的优化反馈信息。
所述步骤(6)将舆情风险评估结果和舆情控制决策以网页界面、手机APP、微信、短信、邮箱方式推送给客户端,完成电力信息舆情监测,其中,网页界面提供柱状图、K线图、雷达图、地图、和弦图、力导向布局图多种可视化展示方式。
为了解决现有技术的不足,本发明还提供了另一种支持风险评估的电力舆情预测装置,其具有提高舆情风险评估的准确性和覆盖性的效果;
一种支持风险评估的电力舆情预测装置,包括:存储器、处理器以及存储在存储器上并在处理器上执行的计算机指令,所述计算机指令在处理器上运行时完成以下步骤:
步骤(1):接收待抓取网站的统一资源定位符URL、网站名称和搜索关键词,对搜索关键词进行扩展与更新;
步骤(2):根据网站的统一资源定位符URL、网站名称和扩展与更新后的搜索关键词,进行抓取网页并从所抓取网页中提取网页内容,然后再从所抓取网页中提取网页链接和链接锚文本;基于信息素的网页链接选取方法对网页链接的优先权进行排队,依据优先权队列,选取下一个网页链接进行访问;直至得到所有待分析网页的网页内容;
步骤(3):根据网页内容,依据字典词库和词组进行网页内容分词处理,提取关键词,对网页间相同关键词进行去重,并根据网页间关键词的重复度提供相应关键词热度值;
步骤(4):根据关键词和相应关键词热度值,基于优化的BP神经网络算法构建电力服务舆情风险评估模型,实现舆情风险评估;
步骤(5):基于历史舆情数据设定舆情等级阈值,并根据舆情等级及趋势推荐舆情控制决策;
步骤(6):将舆情风险评估结果和舆情控制决策推送给客户端,完成电力信息舆情监测。
为了解决现有技术的不足,本发明还提供了一种计算机可读存储介质,其具有提高舆情风险评估的准确性和覆盖性的效果;
一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时完成以下步骤:
步骤(1):接收待抓取网站的统一资源定位符URL、网站名称和搜索关键词,对搜索关键词进行扩展与更新;
步骤(2):根据网站的统一资源定位符URL、网站名称和扩展与更新后的搜索关键词,进行抓取网页并从所抓取网页中提取网页内容,然后再从所抓取网页中提取网页链接和链接锚文本;基于信息素的网页链接选取方法对网页链接的优先权进行排队,依据优先权队列,选取下一个网页链接进行访问;直至得到所有待分析网页的网页内容;
步骤(3):根据网页内容,依据字典词库和词组进行网页内容分词处理,提取关键词,对网页间相同关键词进行去重,并根据网页间关键词的重复度提供相应关键词热度值;
步骤(4):根据关键词和相应关键词热度值,基于优化的BP神经网络算法构建电力服务舆情风险评估模型,实现舆情风险评估;
步骤(5):基于历史舆情数据设定舆情等级阈值,并根据舆情等级及趋势推荐舆情控制决策;
步骤(6):将舆情风险评估结果和舆情控制决策推送给客户端,完成电力信息舆情监测。
与现有技术相比,本发明的有益效果是:
1、通过对相关网站信息的抓取与电网95598客服数据的集成与处理,通过在系统可视化模块部署展现载体、展现组件和展现框架运行引擎,依靠展现框架运行引擎对展现区域进行划分与组合,组合各类展现组件形成综合画面提供给展现载体,提供统一、集中、互动的数据可视化服务,各类数据的可视化展示提高洞察电力舆情趋势的能力,辅助制定电力舆情应对策略。
2、为规避传统网络爬虫技术限于局部搜索信息,满足网页信息爬取的全面最优需求,采用一种信息素的链接选取方法对爬取链接的优先权进行排队,基于历史爬取信息确定爬取链接的互斥信息素与吸引信息素,从而确定优先权队列爬取链接的先后顺序,从而即保障网页信息的全面爬取需求,又避免主题漂移的可能,提高网页爬取信息资源的效率。
3、针对网络舆情事件往往具有特殊易爆性、前兆信息缺乏、关联复杂性、群体扩散性和演变不确定性的特点,故采取基于优化的BP神经网络算法构建电力服务舆情风险评估模型,并对其算法进行优化,利用二次迭代更新隐层神经元,满足基于特征的自动提取并更新求解规则的需求,通过自学习能力和概括能力适应由于新增数据积累发生的舆情危机偏离,提高舆情风险评估的准确性和覆盖性。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为一种支持风险评估的电力舆情预测装置图;
图2为基于信息素的链接选取方法对链接的优先权进行排队的流程图;
图3为电力服务舆情风险评估模型流程图;
图4为一种支持风险评估的电力舆情预测方法流程图;
图5为特征关键词和相应关键词热度值一周内的变化趋势图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明实施例提供一种支持风险评估的电力舆情预测方法及装置。针对网络舆情事件的特殊易爆性、前兆信息缺乏、关联复杂性、群体扩散性和演变不确定性的特点,基于可视化展示、网页信息排队抓取和电力服务舆情风险评估模型,实现一种支持风险评估的电力舆情预测方法及装置,针对电力舆情实施严格监控,满足及时对电力舆情事态发展进行有效预测和辅助决策的业务需求。基于可视化展示、网页信息排队抓取和电力服务舆情风险评估模型,实时完成面向电力信息的舆情监测。
如图1所示,本发明提供的第一个实施例,一种支持风险评估的电力舆情预测装置,包括:
网站可视化配置模块,分别与舆情数据库模块和舆情抓取模块相连,所述网站可视化配置模块上部署用户信息输入定义模块、关键词更新模块和可视化展示模块,网站可视化配置模块以可视化展示模块提供用户信息输入界面,用户信息输入定义模块完成初始信息抓取内容的设置,输入信息传输至舆情数据库模块,接收舆情数据库模块的反馈信息,传输至舆情抓取模块,可视化展示模块基于用户信息输入,调取舆情数据库模块提供的存储数据与处理信息,为用户提供直观可视化数据展示内容;
舆情数据库模块,分别与网站可视化配置模块、舆情预测模块和舆情辅助决策模块相连,所述舆情数据库模块上部署舆情数据库与数据仓库,舆情数据库模块接收网站可视化配置模块、舆情预测模块和舆情辅助决策模块提供的数据,实现舆情监测系统整体数据的存储,并将数据反馈给网站可视化配置模块、舆情预测模块和舆情辅助决策模块;
舆情抓取模块,分别与网站可视化配置模块和舆情信息处理模块相连,所述舆情抓取模块上部署范围模块、链接评价模块和边界模块,舆情抓取模块接收网站可视化配置模块的传输信息,以基于信息素的链接选取方法对传输信息相关链接的优先权进行排队(如图2所示),按照优先权队列抓取网页并提取网页内容,网页内容传输至舆情信息处理模块;
舆情信息处理模块,分别与舆情抓取模块、舆情预测模块和舆情辅助决策模块相连,所述舆情信息处理模块上部署特征提取模块和热度评估模块,舆情信息处理模块接收舆情抓取模块提供的网页内容,进行分析处理获取特征关键词和对应关键词热度值,处理结果传输至舆情预测模块和舆情辅助决策模块;
舆情预测模块,分别与舆情信息处理模块、舆情辅助决策模块和舆情信息推送模块相连,所述舆情预测模块上部署电力服务舆情风险评估模型(如图3所示),舆情预测模块接收舆情信息处理模块特征关键词和相应关键词热度值,基于电力服务舆情风险评估模型实现舆情风险评估,评估结果传输至舆情辅助决策模块和舆情信息推送模块;
舆情辅助决策模块,分别与舆情信息处理模块、舆情预测模块、舆情数据库模块和舆情信息推送模块相连,舆情辅助决策模块基于舆情数据库模块提供的历史舆情数据设定舆情等级阈值,并根据舆情预测模块传输的舆情风险评估及历史数据推荐舆情控制决策,舆情控制决策传输至舆情数据库模块和舆情信息推送模块;
舆情信息推送模块,分别与舆情预测模块和舆情辅助决策模块相连,舆情信息推送模块接收舆情预测模块和舆情辅助决策模块提供的舆情信息,以网页界面、手机APP、微信、短信、邮箱等多种方式推送给相关责任部门。
所述用户信息输入定义模块,实现在配置界面中进行抓取的关键词和抓取后的推送设置,也可对抓取时间频率进行配置;
所述可视化展示模块,部署展现载体、展现组件和展现框架运行引擎;
所述展现载体,最终显示所有展现内容的窗口,直接面向用户,实现人机交互;
所述展现框架运行引擎,提供框架配置管理工具,提供常用图表,支持任意维度的堆积和多图表混合展现,从而可定义完成区域划分和信息展示;
所述展现组件基于用户输入信息,包含网站URL、网站名称和搜索关键词,依靠展现框架运行引擎对展现区域进行划分与组合,组合各类展现组件形成综合画面提供给展现载体;
所述关键词更新模块分别与用户信息输入定义模块、可视化展示模块、舆情数据库模块和舆情抓取模块相连,首先,关键词更新模块接收可视化展示模块的提供输入的初始数据,随后关键词更新模块将初始数据传输至舆情数据库模块,实现关键词的更新与扩展,舆情数据库模块将更新数据返回关键词更新模块,关键词更新模块将初始数据和更新数据传输至舆情抓取模块,从而实现关键词的双向传输;
所述舆情数据库,提供基础数据的存储功能;所述数据仓库针对数据处理分析和支持目的不同而创建的单分类数据库,可根据关键词实现同义词、近似词和相关词的匹配;
所述范围模块,控制抓取相关页面链接和链接锚文本的URL入队过程;
所述链接评价模块为URL处理器,其工作结果链接优先权队列反馈给边界模块;
所述边界模块对选定的URL收集情况进行监测,进而选择下一个URL,排除已处理URL;
所述特征提取模块依据字典词库和词组合统计结合进行网页内容分词处理,提取特征关键词;
所述热度评估模块对网页间相同关键词进行去重,并根据网页间重复度提供相应关键词热度值;
所述电力服务舆情风险评估模型,基于优化BP神经网络算法构建,以舆情信息处理模块提供的关键词和相应关键词热度值作为输入,实现舆情风险评估。
下面结合附图和实施例对本发明进行进一步详细说明:
实验数据以2016年08月01日到2017年07月31日期间,国网某电力公司电力舆情监测数据样本集3451例,具体样例部分以2017年02月11日某区停电事件的电力舆情监测数据样本为例进行说明。
参考图4,是本发明在一种支持风险评估的电力舆情预测方法流程图,步骤包括如下:
A.通过内嵌浏览器的UI界面,输入待抓取信息,包括网站的统一资源定位符URL,网站名称包含百度贴吧、百度搜索、360搜索、新浪微博、某区贴吧、今日头条等,关键词包括某区、停电、元宵节等,并在配置界面设定抓取时间频率为5min/次,搜索关键词进入关键词更新模块并传输至舆情数据库模块;
B.搜索关键词进入舆情数据库模块的舆情数据库内,进行感兴趣区域锁定于停电事件数据仓库,随后基于同义词、相近词和相关词对搜索关键词进行扩展与更新,并将扩展与更新后的搜索关键词传输至网站可视化配置模块的关键词更新模块,关键词更新模块将扩展与更新后的搜索关键词、网站URL和网站名称传输至舆情抓取模块,关键词扩展与更新内容如下表所示:
表1关键词扩展与更新内容
关键词 关键词扩展与更新
某区 **小区、**花园、**街道、**街道办事处、**广场(某区)、**路等。
停电 停止供电、停水、蜡烛、停电线路、电力事故等。
元宵节 灯节、上元节、元宵、正月十五、灯展、元宵晚会、元宵佳节、汤圆、闹花灯等。
C.舆情抓取模块根据网站URL、网站名称和扩展与更新后的搜索关键词,对相关网友进行抓取并提取网页内容,并把所提取到的相关页面链接和链接锚文本等多类信息输入至链接评价模块中,链接评价模块基于信息素的链接选取方法对链接优先权进行排队,依据优先权队列,选取下一个链接进行访问,舆情抓取模块获取的网页内容推送至舆情信息处理模块,至2017-02-11至2017-02-17共计抓取某区停电事件相关网页共计2956例,对部分基于信息素的链接选取方法进行优先权排队抓取的信息资源示例如下:
表2部分信息资源爬取示例
序号 新闻标题 新闻来源 新闻抓取时间
1 元宵节夜晚多个小区停电供电公司抢修恢复供电 新华网 2017-02-12 07:56:00
2 **市*区元宵节突然停电网友直播黑暗中过节 今日头条 2017-02-12 08:01:00
3 线路停电多点干活确保元宵节安全用电 北极星电力新闻网 2017-02-12 08:01:00
4 九成因灾停电元宵节恢复供电 CNKI学问 2017-02-12 08:01:00
5 元宵节停电,晚上怎么过… 百度贴吧 2017-02-12 08:06:00
D.舆情信息处理模块根据获取的网页内容,特征提取模块依据字典词库和词组合统计结合进行网页内容分词处理,提取特征关键词,随后特征关键词进入热度评估模块,对网页间相同关键词进行去重,并根据网页间重复度提供相应关键词热度值,如图5所示,为特征关键词和相应关键词热度值一周内的变化趋势,此外,基于2017-02-12日某区停电事件共计获取的特征关键词691项,部分特征关键词如下表所示,特征关键词和关键词热度值进入舆情预测模块;
表3部分特征关键词示例
Figure BDA0001404622000000121
E.舆情预测模块根据获取的特征关键词和关键词热度值,基于优化的BP神经网络算法构建电力服务舆情风险评估模型,实现舆情风险评估,以国网某电力公司电力舆情监测数据样本集2761例为训练样本集,696例为测试样本集,以特征关键词和相应关键词热度值比例乘积为输入神经元数值,训练样本集所构建的电力服务舆情风险评估模型包含输入层神经元共计18791个,输出神经元共计25个,隐层神经元初始364个,学习率η=0.1,最终隐层神经元稳定为184个,输出神经元代表的25类输出结果,按如下5类等级进行归类划分,同等级预警归类能力由高到低:
表4电力服务舆情风险等级5类划分
Figure BDA0001404622000000122
以696例测试样本集数据投入基于训练样本集构建的电力服务舆情风险评估模型,获取舆情风险评估测试结果如下所示:
表5舆情风险评估测试结果
预警正确率/% 92.52%
预警覆盖率/% 96.41%
训练耗时/s 19824
测试耗时/s 12
评估结果分别传输至舆情辅助决策模块、舆情数据库模块和舆情信息推送模块;
F.舆情辅助决策模块,基于历史舆情数据设定舆情等级阈值,并根据舆情等级及趋势推荐舆情控制决策,将舆情事件分为4类,即高舆情高代价、高舆情低代价、低舆情高代价、低舆情低代价,对高舆情低代价和低舆情低代价进行新闻溯源追踪,并对舆情剧减日的热点丢失原因进行推荐,主要包含正话题的置顶、加精、高亮等处理手段,负面话题的话题位置沉底、推迟发布、移位,话题对象处理包含禁止回复、自动回复、删除话题等,以及政府辟谣,舆情控制决策传输至舆情数据库模块和舆情信息推送模块;
G.舆情信息推送模块,将舆情风险评估和舆情控制决策以网页界面、手机APP、微信、短信、邮箱等多种方式推送给相关责任部门,完成电力信息舆情监测,其中,网页界面基于网站可视化配置模块部署的可视化展示模块,提供柱状图、折线图、K线图、散点图、雷达图、饼图、地图、和弦图、力导向布局图等多种数据可视化页面。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种支持风险评估的电力舆情预测方法,其特征是,步骤如下:
步骤(1):接收待抓取网站的统一资源定位符URL、网站名称和搜索关键词,对搜索关键词进行扩展与更新;
步骤(2):根据网站的统一资源定位符URL、网站名称和扩展与更新后的搜索关键词,进行抓取网页并从所抓取网页中提取网页内容,然后再从所抓取网页中提取网页链接和链接锚文本;基于信息素的网页链接选取方法对网页链接的优先权进行排队,依据优先权队列,选取下一个网页链接进行访问;直至得到所有待分析网页的网页内容;
步骤(3):根据网页内容,依据字典词库和词组进行网页内容分词处理,提取关键词,对网页间相同关键词进行去重,并根据网页间关键词的重复度提供相应关键词热度值;
步骤(4):根据关键词和相应关键词热度值,基于优化的BP神经网络算法构建电力服务舆情风险评估模型,实现舆情风险评估;
步骤(5):基于历史舆情数据设定舆情等级阈值,并根据舆情等级及趋势推荐舆情控制决策;
步骤(6):将舆情风险评估结果和舆情控制决策推送给客户端,完成电力信息舆情监测;
所述步骤(2)中基于信息素的网页链接选取方法对网页链接的优先权进行排队:
步骤(21):在爬取链接每选择一个相关链接r加入到第d次爬取优先权队列时,便更新与当前队列相关的信息素值,对网页爬取所搜索过的链接上信息素浓度进行一次局部更新,以减小相同主题链接对网页爬取的吸引力,信息素的互斥κr,d更新公式如下:
κr,d←(1-ρ)·κr,d+ρ·κ0
其中,ρ为局部信息素挥发率,0<ρ≤1,(1-ρ)·κr,d代表原有局部信息素的互斥的挥发量,κ0为初始局部信息素;
步骤(22):在优先权队列完成一次爬取执行后,对本组信息素进行吸引更新,信息素的吸引τr,d更新公式如下:
τr,d=(1-ξ)·κr,d+ξ·Δτr,d
Figure FDA0002421569520000011
其中,ξ为全局信息素挥发率,(1-ξ)·κr,d代表原有信息素的挥发量,Δτr,d为信息素的吸引增量,Q为调整参数,fr,d为本次网页爬取获取的主题平均相关度,fd-1为前d-1次网页爬取获取的历史主题平均相关度,主题相关度由获取网页的HTML正文内容,当前页面和当前整体主题的相关度sim(αi,α′i)计算如下:
Figure FDA0002421569520000021
其中,αi是当前整体关键词,αi′是当前页面关键词,若αi与αi′无匹配项,则αi′取值记为0,m为关键词总个数;
步骤(23):爬取链接r进入第d次爬取优先权队列,优先执行权重pr,d(t)为:
pr,d(t)=(τr,d(t))vr,d(t))z
式中,v和z为调整参数,通过对优先执行权重的排序,确定优先权队列的网页爬取执行顺序;步骤(24):根据生成的优先权队列,选择下一个抓取网页URL;
所述步骤(4)中基于优化的BP神经网络算法构建电力服务舆情风险评估模型,包括步骤:
步骤(41):使用舆情数据库内舆情风险发生情况80%的历史数据作为训练样本集(xk,yk),k∈(1,2,…,K);
步骤(42):获取特征关键词αi和相应特征关键词热度值βi,计算获取话题x的特征属性ai=αi·βi,定义话题x={a1,a2,…,am}为一个待分类项,i∈(1,2,…,m);
步骤(43):定义单隐层误差逆传播神经网络,即单隐层BP神经网络,初始化电力服务舆情风险评估模型内BP神经网络隐层节点数:
Figure FDA0002421569520000022
其中,s为隐层节点数,n+1为输出节点数;
步骤(44):确定舆情风险评估级别集合C={0,1,2,…n},舆情风险严重程度与C取值成正比,在(0,1)范围内随机初始化单隐层BP神经网络内所有连接权和阈值;
步骤(45):将训练样本集数据传输至输入神经元,基于梯度下降策略,以目标的负梯度方向对参数进行调整,数据计算流程:
当前参数的样本输出值:
Figure FDA0002421569520000031
均方误差Ek
Figure FDA0002421569520000032
输出层神经元的梯度项gj
Figure FDA0002421569520000033
隐层神经元的梯度项eh
Figure FDA0002421569520000034
更新权值:
whj←whj+Δwhj=whj+ηgish
vih←vih+Δvih=vih+Δηehxi
更新阈值:
θj←θj+Δθj=θj-ηgj
γh←γh+Δγh=γh-ηeh
式中,
Figure FDA0002421569520000035
为训练样本(xk,yk)的第j个输出层神经元的实际输出值,η为学习率,调整参数共计(m+n+2)s+n个,包含输入层到隐层的m×s个权值vih,隐层到输出层的s×(n+1)个权值whj,s个隐层神经元阈值γh,n个输出层神经元阈值θj,h∈(1,2,…s),j∈(0,1,2,…n);
若累积误差
Figure FDA0002421569520000036
ε为期望累积误差,则停止迭代循环过程,否则重复执行步骤(45),直至满足迭代停止条件,并将步骤(45)满足迭代停止条件所构建的优化的BP神经网络数据传输至数据库保存,执行步骤(46),初始化
Figure FDA0002421569520000037
步骤(46):初始化E0=0,判断误差降值ΔE是否满足停止迭代条件,
Figure FDA0002421569520000038
Figure FDA0002421569520000041
若连续累计三次
Figure FDA0002421569520000045
数值趋近,则停止迭代,执行步骤(49),若否,则执行步骤(47);
步骤(47):以互信息计算隐含层神经元h与输出层神经元间的连接强度m(h,y),
Figure FDA0002421569520000042
规则化连接强度:
Figure FDA0002421569520000043
若m(h,y)<ι,ι趋近于0,则消融该隐层神经元,ι为设定经验值;
其中,p(h,j)是隐层神经元h和输出层神经元j的联合概率密度,p(h)和p(j)分别是隐层神经元h和输出层神经元j的分别超过阈值的概率密度;
步骤(48):以活跃度函数Ah(x)判定隐含层神经元的活跃度,
Figure FDA0002421569520000044
当隐层神经元,即第h个神经元的活跃度Ah(x)大于活跃度阈值A0=max{1/s,10ε}时,活跃神经元h与输出神经元断开连接,对其进行分裂,共计分裂隐层神经元数h′个,则更新隐层神经元数目h←h+h′,返回步骤(45);
步骤(49):将测试样本集投入数据库存储的神经网络数据,根据测试样本集的实际舆情风险发生情况,计算舆情风险预测准确率与召回率,选取训练样本集误差最低且测试样本集同比最低的BP神经网络数据作为电力服务舆情风险评估模型,输出电力服务舆情风险评估模型。
2.如权利要求1所述的一种支持风险评估的电力舆情预测方法,其特征是,所述步骤(1)将搜索关键词实时更新到舆情数据库和数据仓库中;通过数据仓库中的同义词、相近词和相关词对搜索关键词进行扩展与更新。
3.如权利要求1所述的一种支持风险评估的电力舆情预测方法,其特征是,所述步骤(1)还根据关键词,对舆情数据库中进行感兴趣区域锁定,同时将舆情数据库感兴趣区域的舆情数据通过浏览器进行展示。
4.如权利要求1所述的一种支持风险评估的电力舆情预测方法,其特征是,
所述步骤(3)关键词热度值与关键词在文档中的出现次数正相关,而与整个搜索中出现关键词的网页个数负相关,计算数值如下:
Figure FDA0002421569520000051
其中,βi为关键词αi对应的关键词热度值,
Figure FDA0002421569520000052
表示关键词αi在本次搜索文档中出现频率,M表示搜索网页总的文档的个数,
Figure FDA0002421569520000053
表示包含关键词αi文档的个数,i的取值范围是1,2,…,m,m为关键词总个数。
5.如权利要求1所述的一种支持风险评估的电力舆情预测方法,其特征是,所述步骤(4)舆情风险评估结果被传输至舆情数据库,舆情数据库存储舆情风险评估结果作为电力服务舆情风险评估模型的优化反馈信息。
6.如权利要求1所述的一种支持风险评估的电力舆情预测方法,其特征是,所述步骤(5)将舆情事件分为4类,高舆情高代价、高舆情低代价、低舆情高代价和低舆情低代价,对高舆情低代价和低舆情低代价进行新闻溯源追踪,并对舆情剧减当天的热点丢失原因进行推荐,将舆情控制决策传输至舆情数据库,舆情数据库存储舆情控制决策作为电力服务舆情风险评估模型的优化反馈信息。
7.一种支持风险评估的电力舆情预测装置,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上执行的计算机指令,所述计算机指令在处理器上运行时完成以下步骤:
步骤(1):接收待抓取网站的统一资源定位符URL、网站名称和搜索关键词,对搜索关键词进行扩展与更新;
步骤(2):根据网站的统一资源定位符URL、网站名称和扩展与更新后的搜索关键词,进行抓取网页并从所抓取网页中提取网页内容,然后再从所抓取网页中提取网页链接和链接锚文本;基于信息素的网页链接选取方法对网页链接的优先权进行排队,依据优先权队列,选取下一个网页链接进行访问;直至得到所有待分析网页的网页内容;
步骤(3):根据网页内容,依据字典词库和词组进行网页内容分词处理,提取关键词,对网页间相同关键词进行去重,并根据网页间关键词的重复度提供相应关键词热度值;
步骤(4):根据关键词和相应关键词热度值,基于优化的BP神经网络算法构建电力服务舆情风险评估模型,实现舆情风险评估;
步骤(5):基于历史舆情数据设定舆情等级阈值,并根据舆情等级及趋势推荐舆情控制决策;
步骤(6):将舆情风险评估结果和舆情控制决策推送给客户端,完成电力信息舆情监测;
所述步骤(2)中基于信息素的网页链接选取方法对网页链接的优先权进行排队:
步骤(21):在爬取链接每选择一个相关链接r加入到第d次爬取优先权队列时,便更新与当前队列相关的信息素值,对网页爬取所搜索过的链接上信息素浓度进行一次局部更新,以减小相同主题链接对网页爬取的吸引力,信息素的互斥κr,d更新公式如下:
κr,d←(1-ρ)·κr,d+ρ·κ0
其中,ρ为局部信息素挥发率,0<ρ≤1,(1-ρ)·κr,d代表原有局部信息素的互斥的挥发量,κ0为初始局部信息素;
步骤(22):在优先权队列完成一次爬取执行后,对本组信息素进行吸引更新,信息素的吸引τr,d更新公式如下:
τr,d=(1-ξ)·κr,d+ξ·Δτr,d
Figure FDA0002421569520000061
其中,ξ为全局信息素挥发率,(1-ξ)·κr,d代表原有信息素的挥发量,Δτr,d为信息素的吸引增量,Q为调整参数,fr,d为本次网页爬取获取的主题平均相关度,fd-1为前d-1次网页爬取获取的历史主题平均相关度,主题相关度由获取网页的HTML正文内容,当前页面和当前整体主题的相关度sim(αii′)计算如下:
Figure FDA0002421569520000062
其中,αi是当前整体关键词,αi′是当前页面关键词,若αi与αi′无匹配项,则αi′取值记为0,m为关键词总个数;
步骤(23):爬取链接r进入第d次爬取优先权队列,优先执行权重pr,d(t)为:
pr,d(t)=(τr,d(t))vr,d(t))z
式中,v和z为调整参数,通过对优先执行权重的排序,确定优先权队列的网页爬取执行顺序;步骤(24):根据生成的优先权队列,选择下一个抓取网页URL;
所述步骤(4)中基于优化的BP神经网络算法构建电力服务舆情风险评估模型,包括步骤:
步骤(41):使用舆情数据库内舆情风险发生情况80%的历史数据作为训练样本集(xk,yk),k∈(1,2,…,K);
步骤(42):获取特征关键词αi和相应特征关键词热度值βi,计算获取话题x的特征属性ai=αi·βi,定义话题x={a1,a2,…,am}为一个待分类项,i∈(1,2,…,m);
步骤(43):定义单隐层误差逆传播神经网络,即单隐层BP神经网络,初始化电力服务舆情风险评估模型内BP神经网络隐层节点数:
Figure FDA0002421569520000071
其中,s为隐层节点数,n+1为输出节点数;
步骤(44):确定舆情风险评估级别集合C={0,1,2,…n},舆情风险严重程度与C取值成正比,在(0,1)范围内随机初始化单隐层BP神经网络内所有连接权和阈值;
步骤(45):将训练样本集数据传输至输入神经元,基于梯度下降策略,以目标的负梯度方向对参数进行调整,数据计算流程:
当前参数的样本输出值:
Figure FDA0002421569520000072
均方误差Ek
Figure FDA0002421569520000073
输出层神经元的梯度项gj
Figure FDA0002421569520000074
隐层神经元的梯度项eh
Figure FDA0002421569520000081
更新权值:
whj←whj+Δwhj=whj+ηgish
vih←vih+Δvih=vih+Δηehxi
更新阈值:
θj←θj+Δθj=θj-ηgj
γh←γh+Δγh=γh-ηeh
式中,
Figure FDA0002421569520000085
为训练样本(xk,yk)的第j个输出层神经元的实际输出值,η为学习率,调整参数共计(m+n+2)s+n个,包含输入层到隐层的m×s个权值vih,隐层到输出层的s×(n+1)个权值whj,s个隐层神经元阈值γh,n个输出层神经元阈值θj,h∈(1,2,…s),j∈(0,1,2,…n);
若累积误差
Figure FDA0002421569520000082
ε为期望累积误差,则停止迭代循环过程,否则重复执行步骤(45),直至满足迭代停止条件,并将步骤(45)满足迭代停止条件所构建的优化的BP神经网络数据传输至数据库保存,执行步骤(46),初始化
Figure FDA0002421569520000086
步骤(46):初始化E0=0,判断误差降值ΔE是否满足停止迭代条件,
Figure FDA0002421569520000087
Figure FDA0002421569520000088
若连续累计三次
Figure FDA0002421569520000089
数值趋近,则停止迭代,执行步骤(49),若否,则执行步骤(47);
步骤(47):以互信息计算隐含层神经元h与输出层神经元间的连接强度m(h,y),
Figure FDA0002421569520000083
规则化连接强度:
Figure FDA0002421569520000084
若m(h,y)<ι,ι趋近于0,则消融该隐层神经元,ι为设定经验值;
其中,p(h,j)是隐层神经元h和输出层神经元j的联合概率密度,p(h)和p(j)分别是隐层神经元h和输出层神经元j的分别超过阈值的概率密度;
步骤(48):以活跃度函数Ah(x)判定隐含层神经元的活跃度,
Figure FDA0002421569520000091
当隐层神经元,即第h个神经元的活跃度Ah(x)大于活跃度阈值A0=max{1/s,10ε}时,活跃神经元h与输出神经元断开连接,对其进行分裂,共计分裂隐层神经元数h′个,则更新隐层神经元数目h←h+h′,返回步骤(45);
步骤(49):将测试样本集投入数据库存储的神经网络数据,根据测试样本集的实际舆情风险发生情况,计算舆情风险预测准确率与召回率,选取训练样本集误差最低且测试样本集同比最低的BP神经网络数据作为电力服务舆情风险评估模型,输出电力服务舆情风险评估模型。
8.一种计算机可读存储介质,其上存储有计算机指令,其特征是,所述计算机指令被处理器执行时完成以下步骤:
步骤(1):接收待抓取网站的统一资源定位符URL、网站名称和搜索关键词,对搜索关键词进行扩展与更新;
步骤(2):根据网站的统一资源定位符URL、网站名称和扩展与更新后的搜索关键词,进行抓取网页并从所抓取网页中提取网页内容,然后再从所抓取网页中提取网页链接和链接锚文本;基于信息素的网页链接选取方法对网页链接的优先权进行排队,依据优先权队列,选取下一个网页链接进行访问;直至得到所有待分析网页的网页内容;
步骤(3):根据网页内容,依据字典词库和词组进行网页内容分词处理,提取关键词,对网页间相同关键词进行去重,并根据网页间关键词的重复度提供相应关键词热度值;
步骤(4):根据关键词和相应关键词热度值,基于优化的BP神经网络算法构建电力服务舆情风险评估模型,实现舆情风险评估;
步骤(5):基于历史舆情数据设定舆情等级阈值,并根据舆情等级及趋势推荐舆情控制决策;
步骤(6):将舆情风险评估结果和舆情控制决策推送给客户端,完成电力信息舆情监测;
所述步骤(2)中基于信息素的网页链接选取方法对网页链接的优先权进行排队:
步骤(21):在爬取链接每选择一个相关链接r加入到第d次爬取优先权队列时,便更新与当前队列相关的信息素值,对网页爬取所搜索过的链接上信息素浓度进行一次局部更新,以减小相同主题链接对网页爬取的吸引力,信息素的互斥κr,d更新公式如下:
κr,d←(1-ρ)·κr,d+ρ·κ0
其中,ρ为局部信息素挥发率,0<ρ≤1,(1-ρ)·κr,d代表原有局部信息素的互斥的挥发量,κ0为初始局部信息素;
步骤(22):在优先权队列完成一次爬取执行后,对本组信息素进行吸引更新,信息素的吸引τr,d更新公式如下:
τr,d=(1-ξ)·κr,d+ξ·Δτr,d
Figure FDA0002421569520000101
其中,ξ为全局信息素挥发率,(1-ξ)·κr,d代表原有信息素的挥发量,Δτr,d为信息素的吸引增量,Q为调整参数,fr,d为本次网页爬取获取的主题平均相关度,fd-1为前d-1次网页爬取获取的历史主题平均相关度,主题相关度由获取网页的HTML正文内容,当前页面和当前整体主题的相关度sim(αii′)计算如下:
Figure FDA0002421569520000102
其中,αi是当前整体关键词,αi′是当前页面关键词,若αi与αi′无匹配项,则αi′取值记为0,m为关键词总个数;
步骤(23):爬取链接r进入第d次爬取优先权队列,优先执行权重pr,d(t)为:
pr,d(t)=(τr,d(t))vr,d(t))z
式中,v和z为调整参数,通过对优先执行权重的排序,确定优先权队列的网页爬取执行顺序;步骤(24):根据生成的优先权队列,选择下一个抓取网页URL;
所述步骤(4)中基于优化的BP神经网络算法构建电力服务舆情风险评估模型,包括步骤:
步骤(41):使用舆情数据库内舆情风险发生情况80%的历史数据作为训练样本集(xk,yk),k∈(1,2,…,K);
步骤(42):获取特征关键词αi和相应特征关键词热度值βi,计算获取话题x的特征属性ai=αi·βi,定义话题x={a1,a2,…,am}为一个待分类项,i∈(1,2,…,m);
步骤(43):定义单隐层误差逆传播神经网络,即单隐层BP神经网络,初始化电力服务舆情风险评估模型内BP神经网络隐层节点数:
Figure FDA0002421569520000111
其中,s为隐层节点数,n+1为输出节点数;
步骤(44):确定舆情风险评估级别集合C={0,1,2,…n},舆情风险严重程度与C取值成正比,在(0,1)范围内随机初始化单隐层BP神经网络内所有连接权和阈值;
步骤(45):将训练样本集数据传输至输入神经元,基于梯度下降策略,以目标的负梯度方向对参数进行调整,数据计算流程:
当前参数的样本输出值:
Figure FDA0002421569520000112
均方误差Ek
Figure FDA0002421569520000113
输出层神经元的梯度项gj
Figure FDA0002421569520000114
隐层神经元的梯度项eh
Figure FDA0002421569520000115
更新权值:
whj←whj+Δwhj=whj+ηgish
vih←vih+Δvih=vih+Δηehxi
更新阈值:
θj←θj+Δθj=θj-ηgj
γh←γh+Δγh=γh-ηeh
式中,
Figure FDA0002421569520000124
为训练样本(xk,yk)的第j个输出层神经元的实际输出值,η为学习率,调整参数共计(m+n+2)s+n个,包含输入层到隐层的m×s个权值vih,隐层到输出层的s×(n+1)个权值whj,s个隐层神经元阈值γh,n个输出层神经元阈值θj,h∈(1,2,…s),j∈(0,1,2,…n);
若累积误差
Figure FDA0002421569520000121
ε为期望累积误差,则停止迭代循环过程,否则重复执行步骤(45),直至满足迭代停止条件,并将步骤(45)满足迭代停止条件所构建的优化的BP神经网络数据传输至数据库保存,执行步骤(46),初始化
Figure FDA0002421569520000125
步骤(46):初始化E0=0,判断误差降值ΔE是否满足停止迭代条件,
Figure FDA0002421569520000126
Figure FDA0002421569520000127
若连续累计三次
Figure FDA0002421569520000128
数值趋近,则停止迭代,执行步骤(49),若否,则执行步骤(47);
步骤(47):以互信息计算隐含层神经元h与输出层神经元间的连接强度m(h,y),
Figure FDA0002421569520000122
规则化连接强度:
Figure FDA0002421569520000123
若m(h,y)<ι,ι趋近于0,则消融该隐层神经元,ι为设定经验值;
其中,p(h,j)是隐层神经元h和输出层神经元j的联合概率密度,p(h)和p(j)分别是隐层神经元h和输出层神经元j的分别超过阈值的概率密度;
步骤(48):以活跃度函数Ah(x)判定隐含层神经元的活跃度,
Figure FDA0002421569520000131
当隐层神经元,即第h个神经元的活跃度Ah(x)大于活跃度阈值A0=max{1/s,10ε}时,活跃神经元h与输出神经元断开连接,对其进行分裂,共计分裂隐层神经元数h′个,则更新隐层神经元数目h←h+h′,返回步骤(45);
步骤(49):将测试样本集投入数据库存储的神经网络数据,根据测试样本集的实际舆情风险发生情况,计算舆情风险预测准确率与召回率,选取训练样本集误差最低且测试样本集同比最低的BP神经网络数据作为电力服务舆情风险评估模型,输出电力服务舆情风险评估模型。
CN201710813863.4A 2017-09-11 2017-09-11 一种支持风险评估的电力舆情预测方法及装置 Active CN107644269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710813863.4A CN107644269B (zh) 2017-09-11 2017-09-11 一种支持风险评估的电力舆情预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710813863.4A CN107644269B (zh) 2017-09-11 2017-09-11 一种支持风险评估的电力舆情预测方法及装置

Publications (2)

Publication Number Publication Date
CN107644269A CN107644269A (zh) 2018-01-30
CN107644269B true CN107644269B (zh) 2020-05-22

Family

ID=61110409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710813863.4A Active CN107644269B (zh) 2017-09-11 2017-09-11 一种支持风险评估的电力舆情预测方法及装置

Country Status (1)

Country Link
CN (1) CN107644269B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110121053B (zh) * 2018-02-07 2021-07-20 中国石油化工股份有限公司 一种钻井现场风险分级预警的视频监控方法
CN108647791B (zh) * 2018-03-30 2020-12-29 中国标准化研究院 一种多源汽车安全信息的处理方法、装置及系统
CN109325161A (zh) * 2018-09-11 2019-02-12 五八有限公司 舆情数据抓取方法、装置、设备及存储介质
CN109657914A (zh) * 2018-11-19 2019-04-19 平安科技(深圳)有限公司 信息推送方法、装置、计算机设备及存储介质
CN109614534B (zh) * 2018-11-29 2021-08-17 武汉大学 一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法
CN109766715B (zh) * 2018-12-24 2023-07-25 贵州航天计量测试技术研究所 一种面向大数据环境隐私信息防泄露自动识别方法及系统
CN111401671B (zh) * 2019-01-02 2023-11-21 中国移动通信有限公司研究院 一种精准营销中衍生特征计算方法、装置和可读存储介质
CN110008394B (zh) * 2019-01-22 2023-10-27 创新先进技术有限公司 一种舆情信息的识别方法、装置及设备
CN110175733B (zh) * 2019-04-01 2023-07-11 创新先进技术有限公司 一种舆论信息处理方法和服务器
JP2020181387A (ja) * 2019-04-25 2020-11-05 シャープ株式会社 文書要約装置、文書要約システム、文書要約方法及びプログラム
CN112132368A (zh) * 2019-06-06 2020-12-25 阿里巴巴集团控股有限公司 信息处理方法以及装置、计算设备、存储介质
CN110795664A (zh) * 2019-10-12 2020-02-14 广州番禺职业技术学院 一种高校舆情监控招生决策方法、装置、设备及存储介质
CN111460252B (zh) * 2020-03-16 2023-07-28 青岛智汇文创科技有限公司 一种基于网络舆情分析的自动化搜索引擎方法及系统
CN111489095B (zh) * 2020-04-15 2023-07-25 腾讯科技(深圳)有限公司 一种风险用户管理方法、装置、计算机设备和存储介质
CN111614663B (zh) * 2020-05-20 2022-04-08 杭州蚂蚁聚慧网络技术有限公司 一种业务风险确定方法、装置及电子设备
CN111859074B (zh) * 2020-07-29 2023-12-29 东北大学 基于深度学习的网络舆情信息源影响力评估方法及系统
CN113051395A (zh) * 2020-09-15 2021-06-29 卢霞浩 基于云计算和大数据的关键词聚类方法及系统
CN113762343B (zh) * 2021-08-04 2024-03-15 德邦证券股份有限公司 处理舆情信息和训练分类模型的方法、装置以及存储介质
CN113836410B (zh) * 2021-09-22 2024-03-15 中国第一汽车股份有限公司 车辆声品质评估方法、装置、评估设备及存储介质
CN114757790B (zh) * 2022-04-06 2022-10-11 山东新潮信息技术有限公司 一种利用神经网络对多源情报风险评估的方法
CN116013027A (zh) * 2022-08-05 2023-04-25 航天神舟智慧系统技术有限公司 一种群体性事件预警方法与系统
CN115187148B (zh) * 2022-09-13 2022-12-20 深圳市城市公共安全技术研究院有限公司 突发事件态势研判方法、系统、装置及可读存储介质
CN115953021B (zh) * 2022-12-06 2023-08-04 国网浙江浙电招标咨询有限公司 一种基于机器学习的供应商风险分析方法及装置
CN116128546A (zh) * 2023-01-06 2023-05-16 河北科迪新能源科技有限公司 一种电力行业对外服务窗口的ai舆情监测系统和方法
CN117354065A (zh) * 2023-12-05 2024-01-05 国网四川省电力公司电力科学研究院 一种基于大数据的工控网络威胁情报分析方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
CN102298622A (zh) * 2011-08-11 2011-12-28 中国科学院自动化研究所 基于锚文本的聚焦网络爬虫搜索方法及其系统
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统
KR101518376B1 (ko) * 2014-04-30 2015-05-08 영남대학교 산학협력단 여론결과 예측을 위한 데이터 도출방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
CN102298622A (zh) * 2011-08-11 2011-12-28 中国科学院自动化研究所 基于锚文本的聚焦网络爬虫搜索方法及其系统
KR101518376B1 (ko) * 2014-04-30 2015-05-08 영남대학교 산학협력단 여론결과 예측을 위한 데이터 도출방법
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于BP神经网络的企业网络舆情危机预警研究;谷宝华;《辽宁工业大学学报(社会科学版)》;20160229;第18卷(第1期);第25-29页 *

Also Published As

Publication number Publication date
CN107644269A (zh) 2018-01-30

Similar Documents

Publication Publication Date Title
CN107644269B (zh) 一种支持风险评估的电力舆情预测方法及装置
Deng et al. A new crowdsourcing model to assess disaster using microblog data in typhoon Haiyan
US11019107B1 (en) Systems and methods for identifying violation conditions from electronic communications
Laylavi et al. Event relatedness assessment of Twitter messages for emergency response
CN104820629B (zh) 一种智能的舆情突发事件应急处理系统及方法
Zheng et al. Data mining meets the needs of disaster information management
Thorleuchter et al. Analyzing existing customers’ websites to improve the customer acquisition process as well as the profitability prediction in B-to-B marketing
Du et al. Twitter vs news: Concern analysis of the 2018 california wildfire event
CN110866126A (zh) 一种高校网络舆情风险评估方法
CN108021582B (zh) 互联网舆情监控方法及装置
KR102458510B1 (ko) 실시간 보완 가능한 마케팅 시스템
Kalapanidas et al. Short-term air quality prediction using a case-based classifier
CN111723256A (zh) 一种基于信息资源库的政务用户画像构建方法及其系统
Yeh et al. Recommendation based on latent topics and social network analysis
Rudra et al. Summarizing situational and topical information during crises
Mochida et al. Naming scheme using NLP machine learning method for network weather monitoring system based on ICN
Yenkar et al. A novel ensemble approach based on MCC and MCDM methods for prioritizing tweets mentioning urban issues in smart city
Yan et al. Analysis of research papers on E-commerce (2000–2013): based on a text mining approach
Wang et al. Expert finding in CQA based on topic professional level model
CN106777124B (zh) 语义认知方法、装置及系统
Medjdoub et al. Impact of household transitions on domestic energy consumption and its applicability to urban energy planning
Ishida Estimation of user location and local topics based on geo-tagged text data on social media
Brown et al. ILAS: Intrinsic landscape assessment system for landscape design and planning in the national capital region
Nguyen et al. Pagerank-based approach on ranking social events: a case study with flickr
Oikawa et al. AI Training for Thunderstorm Training: Better Situational Awareness for Disaster Tweets Using Context and Emotions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant