CN107644269A - 一种支持风险评估的电力舆情预测方法及装置 - Google Patents
一种支持风险评估的电力舆情预测方法及装置 Download PDFInfo
- Publication number
- CN107644269A CN107644269A CN201710813863.4A CN201710813863A CN107644269A CN 107644269 A CN107644269 A CN 107644269A CN 201710813863 A CN201710813863 A CN 201710813863A CN 107644269 A CN107644269 A CN 107644269A
- Authority
- CN
- China
- Prior art keywords
- mrow
- public sentiment
- msub
- web page
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种支持风险评估的电力舆情预测方法及装置,包括:接收待抓取网站的统一资源定位符URL、网站名称和搜索关键词,对搜索关键词进行扩展与更新;进行抓取网页并从所抓取网页中提取网页内容,提取网页链接和链接锚文本;基于信息素的网页链接选取方法对网页链接的优先权进行排队,依据优先权队列,选取下一个网页链接进行访问;直至得到所有待分析网页的网页内容;依据字典词库和词组进行网页内容分词处理,提取关键词,对网页间相同关键词进行去重,并根据网页间关键词的重复度提供相应关键词热度值;基于优化的BP神经网络算法构建电力服务舆情风险评估模型,实现舆情风险评估;将结果推送给客户端,完成电力信息舆情监测。
Description
技术领域
本发明涉及智能用电技术领域,特别是涉及一种支持风险评估的电力舆情预测方法及装置。
背景技术
随着新电改全面提速、售电侧逐步放开,电网企业在管理、同行竞争以及处理外界事务等事件中受到社会民众和媒体的广泛关注。尤其当前电网企业处于智能电网快速发展期,企业发展方式和经营管理方式正处于转型期,转型举措具有“敏感性”,极易被媒体或公众聚焦成为攻击热点。此外,电网企业舆情风险覆盖范围广,如供用电监察、工业服务、商业服务、居民服务、故障响应、企业内部稳定等,而电力用户与电网企业相互沟通少,相对而言绝大多数正面新闻被关注较少,而稍有负面新闻的舆论跟风,极易造成误解,如:第三方施工或人为偷盗损坏输电线路导致停电事故;屡遭居民抵制建设输电线路走廊和变电站;职工子女就业、体制改革的遗留问题等,都易引起社会各界及公众的关注和炒作等。
截至2015年12月,中国网民规模达6.88亿,互联网普及率达到50.3%,半数中国人已接入互联网,中国网站总数为423万个,网页数量突破2000亿,互联网塑造了全新的社会生活形态,并为电力企业对电力舆情的监测与掌控提供了信息通道,网络舆情可以有效、直接反映出社会舆情,同时对于部分突发事件、公众所持有态度及发表言论可在一定时间内对社会稳定造成严重影响,针对网络舆情事件的特殊易爆性、关联复杂性、群体扩散性和演变不确定性,传统舆情预测偏离往往导致舆情管理干预困难,且数据显示单一,难以实现舆情状态的有效洞察,因此亟需采用有效数据分析处理技术,针对舆情实施严格监控,从而有效控制与引导电力企业相关事态的良性发展,做到未雨绸缪,将隐患控制在萌芽状态。
发明内容
为了解决现有技术的不足,本发明提供了一种支持风险评估的电力舆情预测方法,通过一种舆情等级分类的数据预测模型,满足电力舆情实时动态监测及预警推送的业务需求;
一种支持风险评估的电力舆情预测方法,步骤如下:
步骤(1):接收待抓取网站的统一资源定位符URL、网站名称和搜索关键词,对搜索关键词进行扩展与更新;
步骤(2):根据网站的统一资源定位符URL、网站名称和扩展与更新后的搜索关键词,进行抓取网页并从所抓取网页中提取网页内容,然后再从所抓取网页中提取网页链接和链接锚文本;基于信息素的网页链接选取方法对网页链接的优先权进行排队,依据优先权队列,选取下一个网页链接进行访问;直至得到所有待分析网页的网页内容;
步骤(3):根据网页内容,依据字典词库和词组进行网页内容分词处理,提取关键词,对网页间相同关键词进行去重,并根据网页间关键词的重复度提供相应关键词热度值;
步骤(4):根据关键词和相应关键词热度值,基于优化的BP神经网络算法构建电力服务舆情风险评估模型,实现舆情风险评估;
步骤(5):基于历史舆情数据设定舆情等级阈值,并根据舆情等级及趋势推荐舆情控制决策;
步骤(6):将舆情风险评估结果和舆情控制决策推送给客户端,完成电力信息舆情监测。
所述步骤(1)将搜索关键词实时更新到舆情数据库和数据仓库中;通过数据仓库中的同义词、相近词和相关词对搜索关键词进行扩展与更新;
所述步骤(1)还根据关键词,对舆情数据库中进行感兴趣区域锁定,同时将舆情数据库感兴趣区域的舆情数据通过浏览器进行展示。
所述步骤(2)中基于信息素的网页链接选取方法对网页链接的优先权进行排队:
步骤(21):在爬取链接每选择一个相关链接r加入到第d次爬取优先权队列时,便更新与当前队列相关的信息素值,对网页爬取所搜索过的链接上信息素浓度进行一次局部更新,以减小相同主题链接对网页爬取的吸引力,信息素的互斥κr,d更新公式如下:
κr,d←(1-ρ)·κr,d+ρ·κ0
其中,ρ为局部信息素挥发率,0<ρ≤1,(1-ρ)·κr,d代表原有局部信息素的互斥的挥发量,κ0为初始局部信息素;
所述步骤(21)目的为增加爬取其他相关网页信息的可能性,避免爬取信息陷入局部相关。
步骤(22):在优先权队列完成一次爬取执行后,对本组信息素进行吸引更新,信息素的吸引τr,d更新公式如下:
τr,d=(1-ξ)·κr,d+ξ·Δτr,d
其中,ξ为全局信息素挥发率,(1-ξ)·κr,d代表原有信息素的挥发量,Δτr,d为信息素的吸引增量,Q为调整参数,fr,d为本次网页爬取获取的主题平均相关度,fd-1为前d-1次网页爬取获取的历史主题平均相关度,主题相关度由获取网页的HTMT正文内容,当前页面和当前整体主题的相关度sim(αi,αi′)计算如下:
其中,αi是当前整体关键词,αi′是当前页面关键词,若αi与αi′无匹配项,则αi′取值记为0,m为关键词总个数;
所述步骤(22)的目的为:为引导爬取链接面向全局最优相关的方向搜索。
步骤(23):爬取链接r进入第d次爬取优先权队列,优先执行权重pr,d(t)为:
pr,d(t)=(τr,d(t))v(κr,d(t))z
式中,v和z为调整参数,通过对优先执行权重的排序,确定优先权队列的网页爬取执行顺序;步骤(24):根据生成的优先权队列,选择下一个抓取网页URL。
所述步骤(3)关键词热度值与关键词在文档中的出现次数正相关,而与整个搜索中出现关键词的网页个数负相关,计算数值如下:
其中,βi为关键词αi对应的关键词热度值,表示关键词αi在本次搜索文档中出现频率,M表示搜索网页总的文档的个数,表示包含关键词αi文档的个数,i的取值范围是1,2,…,m,m为关键词总个数。
所述步骤(4)中基于优化的BP神经网络算法构建电力服务舆情风险评估模型,步骤:
步骤(41):使用舆情数据库内舆情风险发生情况80%的历史数据作为训练样本集(xk,yk),k∈(1,2,…,K);
步骤(42):获取特征关键词αi和相应特征关键词热度值βi,计算获取话题x的特征属性ai=αi·βi,定义话题x={a1,a2,…,am}为一个待分类项,i∈(1,2,…,m);
步骤(43):定义单隐层误差逆传播神经网络,即单隐层BP神经网络,初始化电力服务舆情风险评估模型内BP神经网络隐层节点数:
其中,s为隐层节点数,n+1为输出节点数;
步骤(44):确定舆情风险评估级别集合C={0,1,2,…n},舆情风险严重程度与C取值成正比,在(0,1)范围内随机初始化单隐层BP神经网络内所有连接权和阈值;
步骤(45):将训练样本集数据传输至输入神经元,基于梯度下降策略,以目标的负梯度方向对参数进行调整,数据计算流程:
当前参数的样本输出值:
均方误差Ek:
输出层神经元的梯度项gj:
隐层神经元的梯度项eh:
更新权值:
whj←whj+Δwhj=whj+ηgish
vih←vih+Δvih=vih+Δηehxi
更新阈值:
θj←θj+Δθj=θj-ηgj
γh←γh+Δγh=γh-ηeh
式中,为训练样本(xk,yk)的第j个输出层神经元的实际输出值,η为学习率,调整参数共计(m+n+2)s+n个,包含输入层到隐层的m×s个权值vih,隐层到输出层的s×(n+1)个权值whj,s个隐层神经元阈值γh,n个输出层神经元阈值θj,h∈(1,2,…s),j∈(0,1,2,…n);
若累积误差ε为期望累积误差,则停止迭代循环过程,否则重复执行步骤(45),直至满足迭代停止条件,并将步骤(45)满足迭代停止条件所构建的优化的BP神经网络数据传输至数据库保存,执行步骤(46),初始化
步骤(46):初始化E0=0,判断误差降值ΔE是否满足停止迭代条件, 若连续累计三次数值趋近,则停止迭代,执行步骤(49),若否,则执行步骤(47);
步骤(47):以互信息计算隐含层神经元h与输出层神经元间的连接强度m(h,y),
规则化连接强度:
若m(h,y)<ι,ι趋近于0,则消融该隐层神经元,ι为设定经验值;
其中,p(h,j)是隐层神经元h和输出层神经元j的联合概率密度,p(h)和p(j)分别是隐层神经元h和输出层神经元j的分别超过阈值的概率密度;
步骤(48):以活跃度函数Ah(x)判定隐含层神经元的活跃度,
当隐层神经元(称为第h个神经元)的活跃度Ah(x)大于活跃度阈值A0=max{1/s,10ε}时,活跃神经元h与输出神经元断开连接,对其进行分裂,共计分裂隐层神经元数h′个,则更新隐层神经元数目h←h+h′,返回步骤(45);
步骤(49):将测试样本集投入数据库存储的神经网络数据,根据测试样本集的实际舆情风险发生情况,计算舆情风险预测准确率与召回率,选取训练样本集误差最低且测试样本集同比最低的BP神经网络数据作为电力服务舆情风险评估模型,输出电力服务舆情风险评估模型。
所述步骤(4)舆情风险评估结果被传输至舆情数据库,舆情数据库存储舆情风险评估结果作为电力服务舆情风险评估模型的优化反馈信息。
所述步骤(5)将舆情事件分为4类,高舆情高代价、高舆情低代价、低舆情高代价和低舆情低代价,对高舆情低代价和低舆情低代价进行新闻溯源追踪,并对舆情剧减当天的热点丢失原因进行推荐,将舆情控制决策被传输至舆情数据库,舆情数据库存储舆情控制决策作为电力服务舆情风险评估模型的优化反馈信息。
所述步骤(6)将舆情风险评估结果和舆情控制决策以网页界面、手机APP、微信、短信、邮箱方式推送给客户端,完成电力信息舆情监测,其中,网页界面提供柱状图、K线图、雷达图、地图、和弦图、力导向布局图多种可视化展示方式。
为了解决现有技术的不足,本发明还提供了另一种支持风险评估的电力舆情预测装置,其具有提高舆情风险评估的准确性和覆盖性的效果;
一种支持风险评估的电力舆情预测装置,包括:存储器、处理器以及存储在存储器上并在处理器上执行的计算机指令,所述计算机指令在处理器上运行时完成以下步骤:
步骤(1):接收待抓取网站的统一资源定位符URL、网站名称和搜索关键词,对搜索关键词进行扩展与更新;
步骤(2):根据网站的统一资源定位符URL、网站名称和扩展与更新后的搜索关键词,进行抓取网页并从所抓取网页中提取网页内容,然后再从所抓取网页中提取网页链接和链接锚文本;基于信息素的网页链接选取方法对网页链接的优先权进行排队,依据优先权队列,选取下一个网页链接进行访问;直至得到所有待分析网页的网页内容;
步骤(3):根据网页内容,依据字典词库和词组进行网页内容分词处理,提取关键词,对网页间相同关键词进行去重,并根据网页间关键词的重复度提供相应关键词热度值;
步骤(4):根据关键词和相应关键词热度值,基于优化的BP神经网络算法构建电力服务舆情风险评估模型,实现舆情风险评估;
步骤(5):基于历史舆情数据设定舆情等级阈值,并根据舆情等级及趋势推荐舆情控制决策;
步骤(6):将舆情风险评估结果和舆情控制决策推送给客户端,完成电力信息舆情监测。
为了解决现有技术的不足,本发明还提供了一种计算机可读存储介质,其具有提高舆情风险评估的准确性和覆盖性的效果;
一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时完成以下步骤:
步骤(1):接收待抓取网站的统一资源定位符URL、网站名称和搜索关键词,对搜索关键词进行扩展与更新;
步骤(2):根据网站的统一资源定位符URL、网站名称和扩展与更新后的搜索关键词,进行抓取网页并从所抓取网页中提取网页内容,然后再从所抓取网页中提取网页链接和链接锚文本;基于信息素的网页链接选取方法对网页链接的优先权进行排队,依据优先权队列,选取下一个网页链接进行访问;直至得到所有待分析网页的网页内容;
步骤(3):根据网页内容,依据字典词库和词组进行网页内容分词处理,提取关键词,对网页间相同关键词进行去重,并根据网页间关键词的重复度提供相应关键词热度值;
步骤(4):根据关键词和相应关键词热度值,基于优化的BP神经网络算法构建电力服务舆情风险评估模型,实现舆情风险评估;
步骤(5):基于历史舆情数据设定舆情等级阈值,并根据舆情等级及趋势推荐舆情控制决策;
步骤(6):将舆情风险评估结果和舆情控制决策推送给客户端,完成电力信息舆情监测。
与现有技术相比,本发明的有益效果是:
1、通过对相关网站信息的抓取与电网95598客服数据的集成与处理,通过在系统可视化模块部署展现载体、展现组件和展现框架运行引擎,依靠展现框架运行引擎对展现区域进行划分与组合,组合各类展现组件形成综合画面提供给展现载体,提供统一、集中、互动的数据可视化服务,各类数据的可视化展示提高洞察电力舆情趋势的能力,辅助制定电力舆情应对策略。
2、为规避传统网络爬虫技术限于局部搜索信息,满足网页信息爬取的全面最优需求,采用一种信息素的链接选取方法对爬取链接的优先权进行排队,基于历史爬取信息确定爬取链接的互斥信息素与吸引信息素,从而确定优先权队列爬取链接的先后顺序,从而即保障网页信息的全面爬取需求,又避免主题漂移的可能,提高网页爬取信息资源的效率。
3、针对网络舆情事件往往具有特殊易爆性、前兆信息缺乏、关联复杂性、群体扩散性和演变不确定性的特点,故采取基于优化的BP神经网络算法构建电力服务舆情风险评估模型,并对其算法进行优化,利用二次迭代更新隐层神经元,满足基于特征的自动提取并更新求解规则的需求,通过自学习能力和概括能力适应由于新增数据积累发生的舆情危机偏离,提高舆情风险评估的准确性和覆盖性。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为一种支持风险评估的电力舆情预测装置图;
图2为基于信息素的链接选取方法对链接的优先权进行排队的流程图;
图3为电力服务舆情风险评估模型流程图;
图4为一种支持风险评估的电力舆情预测方法流程图;
图5为特征关键词和相应关键词热度值一周内的变化趋势图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明实施例提供一种支持风险评估的电力舆情预测方法及装置。针对网络舆情事件的特殊易爆性、前兆信息缺乏、关联复杂性、群体扩散性和演变不确定性的特点,基于可视化展示、网页信息排队抓取和电力服务舆情风险评估模型,实现一种支持风险评估的电力舆情预测方法及装置,针对电力舆情实施严格监控,满足及时对电力舆情事态发展进行有效预测和辅助决策的业务需求。基于可视化展示、网页信息排队抓取和电力服务舆情风险评估模型,实时完成面向电力信息的舆情监测。
如图1所示,本发明提供的第一个实施例,一种支持风险评估的电力舆情预测装置,包括:
网站可视化配置模块,分别与舆情数据库模块和舆情抓取模块相连,所述网站可视化配置模块上部署用户信息输入定义模块、关键词更新模块和可视化展示模块,网站可视化配置模块以可视化展示模块提供用户信息输入界面,用户信息输入定义模块完成初始信息抓取内容的设置,输入信息传输至舆情数据库模块,接收舆情数据库模块的反馈信息,传输至舆情抓取模块,可视化展示模块基于用户信息输入,调取舆情数据库模块提供的存储数据与处理信息,为用户提供直观可视化数据展示内容;
舆情数据库模块,分别与网站可视化配置模块、舆情预测模块和舆情辅助决策模块相连,所述舆情数据库模块上部署舆情数据库与数据仓库,舆情数据库模块接收网站可视化配置模块、舆情预测模块和舆情辅助决策模块提供的数据,实现舆情监测系统整体数据的存储,并将数据反馈给网站可视化配置模块、舆情预测模块和舆情辅助决策模块;
舆情抓取模块,分别与网站可视化配置模块和舆情信息处理模块相连,所述舆情抓取模块上部署范围模块、链接评价模块和边界模块,舆情抓取模块接收网站可视化配置模块的传输信息,以基于信息素的链接选取方法对传输信息相关链接的优先权进行排队(如图2所示),按照优先权队列抓取网页并提取网页内容,网页内容传输至舆情信息处理模块;
舆情信息处理模块,分别与舆情抓取模块、舆情预测模块和舆情辅助决策模块相连,所述舆情信息处理模块上部署特征提取模块和热度评估模块,舆情信息处理模块接收舆情抓取模块提供的网页内容,进行分析处理获取特征关键词和对应关键词热度值,处理结果传输至舆情预测模块和舆情辅助决策模块;
舆情预测模块,分别与舆情信息处理模块、舆情辅助决策模块和舆情信息推送模块相连,所述舆情预测模块上部署电力服务舆情风险评估模型(如图3所示),舆情预测模块接收舆情信息处理模块特征关键词和相应关键词热度值,基于电力服务舆情风险评估模型实现舆情风险评估,评估结果传输至舆情辅助决策模块和舆情信息推送模块;
舆情辅助决策模块,分别与舆情信息处理模块、舆情预测模块、舆情数据库模块和舆情信息推送模块相连,舆情辅助决策模块基于舆情数据库模块提供的历史舆情数据设定舆情等级阈值,并根据舆情预测模块传输的舆情风险评估及历史数据推荐舆情控制决策,舆情控制决策传输至舆情数据库模块和舆情信息推送模块;
舆情信息推送模块,分别与舆情预测模块和舆情辅助决策模块相连,舆情信息推送模块接收舆情预测模块和舆情辅助决策模块提供的舆情信息,以网页界面、手机APP、微信、短信、邮箱等多种方式推送给相关责任部门。
所述用户信息输入定义模块,实现在配置界面中进行抓取的关键词和抓取后的推送设置,也可对抓取时间频率进行配置;
所述可视化展示模块,部署展现载体、展现组件和展现框架运行引擎;
所述展现载体,最终显示所有展现内容的窗口,直接面向用户,实现人机交互;
所述展现框架运行引擎,提供框架配置管理工具,提供常用图表,支持任意维度的堆积和多图表混合展现,从而可定义完成区域划分和信息展示;
所述展现组件基于用户输入信息,包含网站URL、网站名称和搜索关键词,依靠展现框架运行引擎对展现区域进行划分与组合,组合各类展现组件形成综合画面提供给展现载体;
所述关键词更新模块分别与用户信息输入定义模块、可视化展示模块、舆情数据库模块和舆情抓取模块相连,首先,关键词更新模块接收可视化展示模块的提供输入的初始数据,随后关键词更新模块将初始数据传输至舆情数据库模块,实现关键词的更新与扩展,舆情数据库模块将更新数据返回关键词更新模块,关键词更新模块将初始数据和更新数据传输至舆情抓取模块,从而实现关键词的双向传输;
所述舆情数据库,提供基础数据的存储功能;所述数据仓库针对数据处理分析和支持目的不同而创建的单分类数据库,可根据关键词实现同义词、近似词和相关词的匹配;
所述范围模块,控制抓取相关页面链接和链接锚文本的URL入队过程;
所述链接评价模块为URL处理器,其工作结果链接优先权队列反馈给边界模块;
所述边界模块对选定的URL收集情况进行监测,进而选择下一个URL,排除已处理URL;
所述特征提取模块依据字典词库和词组合统计结合进行网页内容分词处理,提取特征关键词;
所述热度评估模块对网页间相同关键词进行去重,并根据网页间重复度提供相应关键词热度值;
所述电力服务舆情风险评估模型,基于优化BP神经网络算法构建,以舆情信息处理模块提供的关键词和相应关键词热度值作为输入,实现舆情风险评估。
下面结合附图和实施例对本发明进行进一步详细说明:
实验数据以2016年08月01日到2017年07月31日期间,国网某电力公司电力舆情监测数据样本集3451例,具体样例部分以2017年02月11日某区停电事件的电力舆情监测数据样本为例进行说明。
参考图4,是本发明在一种支持风险评估的电力舆情预测方法流程图,步骤包括如下:
A.通过内嵌浏览器的UI界面,输入待抓取信息,包括网站的统一资源定位符URL,网站名称包含百度贴吧、百度搜索、360搜索、新浪微博、某区贴吧、今日头条等,关键词包括某区、停电、元宵节等,并在配置界面设定抓取时间频率为5min/次,搜索关键词进入关键词更新模块并传输至舆情数据库模块;
B.搜索关键词进入舆情数据库模块的舆情数据库内,进行感兴趣区域锁定于停电事件数据仓库,随后基于同义词、相近词和相关词对搜索关键词进行扩展与更新,并将扩展与更新后的搜索关键词传输至网站可视化配置模块的关键词更新模块,关键词更新模块将扩展与更新后的搜索关键词、网站URL和网站名称传输至舆情抓取模块,关键词扩展与更新内容如下表所示:
表1关键词扩展与更新内容
关键词 | 关键词扩展与更新 |
某区 | **小区、**花园、**街道、**街道办事处、**广场(某区)、**路等。 |
停电 | 停止供电、停水、蜡烛、停电线路、电力事故等。 |
元宵节 | 灯节、上元节、元宵、正月十五、灯展、元宵晚会、元宵佳节、汤圆、闹花灯等。 |
C.舆情抓取模块根据网站URL、网站名称和扩展与更新后的搜索关键词,对相关网友进行抓取并提取网页内容,并把所提取到的相关页面链接和链接锚文本等多类信息输入至链接评价模块中,链接评价模块基于信息素的链接选取方法对链接优先权进行排队,依据优先权队列,选取下一个链接进行访问,舆情抓取模块获取的网页内容推送至舆情信息处理模块,至2017-02-11至2017-02-17共计抓取某区停电事件相关网页共计2956例,对部分基于信息素的链接选取方法进行优先权排队抓取的信息资源示例如下:
表2部分信息资源爬取示例
序号 | 新闻标题 | 新闻来源 | 新闻抓取时间 |
1 | 元宵节夜晚多个小区停电供电公司抢修恢复供电 | 新华网 | 2017-02-12 07:56:00 |
2 | **市*区元宵节突然停电网友直播黑暗中过节 | 今日头条 | 2017-02-12 08:01:00 |
3 | 线路停电多点干活确保元宵节安全用电 | 北极星电力新闻网 | 2017-02-12 08:01:00 |
4 | 九成因灾停电元宵节恢复供电 | CNKI学问 | 2017-02-12 08:01:00 |
5 | 元宵节停电,晚上怎么过… | 百度贴吧 | 2017-02-12 08:06:00 |
D.舆情信息处理模块根据获取的网页内容,特征提取模块依据字典词库和词组合统计结合进行网页内容分词处理,提取特征关键词,随后特征关键词进入热度评估模块,对网页间相同关键词进行去重,并根据网页间重复度提供相应关键词热度值,如图5所示,为特征关键词和相应关键词热度值一周内的变化趋势,此外,基于2017-02-12日某区停电事件共计获取的特征关键词691项,部分特征关键词如下表所示,特征关键词和关键词热度值进入舆情预测模块;
表3部分特征关键词示例
E.舆情预测模块根据获取的特征关键词和关键词热度值,基于优化的BP神经网络算法构建电力服务舆情风险评估模型,实现舆情风险评估,以国网某电力公司电力舆情监测数据样本集2761例为训练样本集,696例为测试样本集,以特征关键词和相应关键词热度值比例乘积为输入神经元数值,训练样本集所构建的电力服务舆情风险评估模型包含输入层神经元共计18791个,输出神经元共计25个,隐层神经元初始364个,学习率η=0.1,最终隐层神经元稳定为184个,输出神经元代表的25类输出结果,按如下5类等级进行归类划分,同等级预警归类能力由高到低:
表4电力服务舆情风险等级5类划分
以696例测试样本集数据投入基于训练样本集构建的电力服务舆情风险评估模型,获取舆情风险评估测试结果如下所示:
表5舆情风险评估测试结果
预警正确率/% | 92.52% |
预警覆盖率/% | 96.41% |
训练耗时/s | 19824 |
测试耗时/s | 12 |
评估结果分别传输至舆情辅助决策模块、舆情数据库模块和舆情信息推送模块;
F.舆情辅助决策模块,基于历史舆情数据设定舆情等级阈值,并根据舆情等级及趋势推荐舆情控制决策,将舆情事件分为4类,即高舆情高代价、高舆情低代价、低舆情高代价、低舆情低代价,对高舆情低代价和低舆情低代价进行新闻溯源追踪,并对舆情剧减日的热点丢失原因进行推荐,主要包含正话题的置顶、加精、高亮等处理手段,负面话题的话题位置沉底、推迟发布、移位,话题对象处理包含禁止回复、自动回复、删除话题等,以及政府辟谣,舆情控制决策传输至舆情数据库模块和舆情信息推送模块;
G.舆情信息推送模块,将舆情风险评估和舆情控制决策以网页界面、手机APP、微信、短信、邮箱等多种方式推送给相关责任部门,完成电力信息舆情监测,其中,网页界面基于网站可视化配置模块部署的可视化展示模块,提供柱状图、折线图、K线图、散点图、雷达图、饼图、地图、和弦图、力导向布局图等多种数据可视化页面。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种支持风险评估的电力舆情预测方法,其特征是,步骤如下:
步骤(1):接收待抓取网站的统一资源定位符URL、网站名称和搜索关键词,对搜索关键词进行扩展与更新;
步骤(2):根据网站的统一资源定位符URL、网站名称和扩展与更新后的搜索关键词,进行抓取网页并从所抓取网页中提取网页内容,然后再从所抓取网页中提取网页链接和链接锚文本;基于信息素的网页链接选取方法对网页链接的优先权进行排队,依据优先权队列,选取下一个网页链接进行访问;直至得到所有待分析网页的网页内容;
步骤(3):根据网页内容,依据字典词库和词组进行网页内容分词处理,提取关键词,对网页间相同关键词进行去重,并根据网页间关键词的重复度提供相应关键词热度值;
步骤(4):根据关键词和相应关键词热度值,基于优化的BP神经网络算法构建电力服务舆情风险评估模型,实现舆情风险评估;
步骤(5):基于历史舆情数据设定舆情等级阈值,并根据舆情等级及趋势推荐舆情控制决策;
步骤(6):将舆情风险评估结果和舆情控制决策推送给客户端,完成电力信息舆情监测。
2.如权利要求1所述的一种支持风险评估的电力舆情预测方法,其特征是,所述步骤(1)将搜索关键词实时更新到舆情数据库和数据仓库中;通过数据仓库中的同义词、相近词和相关词对搜索关键词进行扩展与更新。
3.如权利要求1所述的一种支持风险评估的电力舆情预测方法,其特征是,所述步骤(1)还根据关键词,对舆情数据库中进行感兴趣区域锁定,同时将舆情数据库感兴趣区域的舆情数据通过浏览器进行展示。
4.如权利要求1所述的一种支持风险评估的电力舆情预测方法,其特征是,所述步骤(2)中基于信息素的网页链接选取方法对网页链接的优先权进行排队:
步骤(21):在爬取链接每选择一个相关链接r加入到第d次爬取优先权队列时,便更新与当前队列相关的信息素值,对网页爬取所搜索过的链接上信息素浓度进行一次局部更新,以减小相同主题链接对网页爬取的吸引力,信息素的互斥κr,d更新公式如下:
κr,d←(1-ρ)·κr,d+ρ·κ0
其中,ρ为局部信息素挥发率,0<ρ≤1,(1-ρ)·κr,d代表原有局部信息素的互斥的挥发量,κ0为初始局部信息素;
步骤(22):在优先权队列完成一次爬取执行后,对本组信息素进行吸引更新,信息素的吸引τr,d更新公式如下:
τr,d=(1-ξ)·κr,d+ξ·Δτr,d
<mrow>
<msub>
<mi>&Delta;&tau;</mi>
<mrow>
<mi>r</mi>
<mo>,</mo>
<mi>d</mi>
</mrow>
</msub>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mfrac>
<mi>Q</mi>
<msub>
<mi>f</mi>
<mrow>
<mi>r</mi>
<mo>,</mo>
<mi>d</mi>
</mrow>
</msub>
</mfrac>
<mo>,</mo>
<msub>
<mi>f</mi>
<mrow>
<mi>r</mi>
<mo>,</mo>
<mi>d</mi>
</mrow>
</msub>
<mo>></mo>
<msub>
<mi>f</mi>
<mrow>
<mi>d</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
<msub>
<mi>f</mi>
<mrow>
<mi>r</mi>
<mo>,</mo>
<mi>d</mi>
</mrow>
</msub>
<mo>&le;</mo>
<msub>
<mi>f</mi>
<mrow>
<mi>d</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
其中,ξ为全局信息素挥发率,(1-ξ)·κr,d代表原有信息素的挥发量,Δτr,d为信息素的吸引增量,Q为调整参数,fr,d为本次网页爬取获取的主题平均相关度,fd-1为前d-1次网页爬取获取的历史主题平均相关度,主题相关度由获取网页的HTMT正文内容,当前页面和当前整体主题的相关度sim(αi,αi′)计算如下:
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>&alpha;</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msup>
<msub>
<mi>&alpha;</mi>
<mi>i</mi>
</msub>
<mo>&prime;</mo>
</msup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<mrow>
<mo>(</mo>
<msub>
<mi>&alpha;</mi>
<mi>i</mi>
</msub>
<mo>&CenterDot;</mo>
<msup>
<msub>
<mi>&alpha;</mi>
<mi>i</mi>
</msub>
<mo>&prime;</mo>
</msup>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msqrt>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<msubsup>
<mi>&alpha;</mi>
<mi>i</mi>
<mn>2</mn>
</msubsup>
</mrow>
</msqrt>
<msqrt>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<msubsup>
<mi>&alpha;</mi>
<mi>i</mi>
<mrow>
<mo>&prime;</mo>
<mn>2</mn>
</mrow>
</msubsup>
</mrow>
</msqrt>
</mrow>
</mfrac>
</mrow>
其中,αi是当前整体关键词,αi′是当前页面关键词,若αi与αi′无匹配项,则αi′取值记为0,m为关键词总个数;
步骤(23):爬取链接r进入第d次爬取优先权队列,优先执行权重pr,d(t)为:
pr,d(t)=(τr,d(t))v(κr,d(t))z
式中,v和z为调整参数,通过对优先执行权重的排序,确定优先权队列的网页爬取执行顺序;步骤(24):根据生成的优先权队列,选择下一个抓取网页URL。
5.如权利要求1所述的一种支持风险评估的电力舆情预测方法,其特征是,
所述步骤(3)关键词热度值与关键词在文档中的出现次数正相关,而与整个搜索中出现关键词的网页个数负相关,计算数值如下:
<mrow>
<msub>
<mi>&beta;</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<msubsup>
<mi>&beta;</mi>
<mi>i</mi>
<mrow>
<mi>a</mi>
<mi>l</mi>
<mi>l</mi>
</mrow>
</msubsup>
<mo>&times;</mo>
<mi>log</mi>
<mfrac>
<mi>M</mi>
<msubsup>
<mi>&beta;</mi>
<mi>i</mi>
<mi>M</mi>
</msubsup>
</mfrac>
</mrow>
其中,βi为关键词αi对应的关键词热度值,表示关键词αi在本次搜索文档中出现频率,M表示搜索网页总的文档的个数,表示包含关键词αi文档的个数,i的取值范围是1,2,…,m,m为关键词总个数。
6.如权利要求1所述的一种支持风险评估的电力舆情预测方法,其特征是,所述步骤(4)中基于优化的BP神经网络算法构建电力服务舆情风险评估模型,步骤:
步骤(41):使用舆情数据库内舆情风险发生情况80%的历史数据作为训练样本集(xk,yk),k∈(1,2,…,K);
步骤(42):获取特征关键词αi和相应特征关键词热度值βi,计算获取话题x的特征属性ai=αi·βi,定义话题x={a1,a2,…,am}为一个待分类项,i∈(1,2,…,m);
步骤(43):定义单隐层误差逆传播神经网络,即单隐层BP神经网络,初始化电力服务舆情风险评估模型内BP神经网络隐层节点数:
<mrow>
<mi>s</mi>
<mo>=</mo>
<mn>1</mn>
<mo>+</mo>
<msqrt>
<mrow>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>+</mo>
<mn>1</mn>
<mo>+</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
</msqrt>
</mrow>
其中,s为隐层节点数,n+1为输出节点数;
步骤(44):确定舆情风险评估级别集合C={0,1,2,…n},舆情风险严重程度与C取值成正比,在(0,1)范围内随机初始化单隐层BP神经网络内所有连接权和阈值;
步骤(45):将训练样本集数据传输至输入神经元,基于梯度下降策略,以目标的负梯度方向对参数进行调整,数据计算流程:
当前参数的样本输出值:
<mrow>
<msubsup>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>j</mi>
<mi>k</mi>
</msubsup>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mn>1</mn>
<mo>+</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mrow>
<mo>(</mo>
<msub>
<mi>&phi;</mi>
<mi>j</mi>
</msub>
<mo>-</mo>
<msub>
<mi>&theta;</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</msup>
</mrow>
</mfrac>
</mrow>
均方误差Ek:
<mrow>
<msub>
<mi>E</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mi>n</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>j</mi>
<mi>k</mi>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>y</mi>
<mi>j</mi>
<mi>k</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
输出层神经元的梯度项gj:
<mrow>
<msub>
<mi>g</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<msubsup>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>j</mi>
<mi>k</mi>
</msubsup>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<msubsup>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>j</mi>
<mi>k</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<msubsup>
<mi>y</mi>
<mi>j</mi>
<mi>k</mi>
</msubsup>
<mo>-</mo>
<msubsup>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>j</mi>
<mi>k</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
隐层神经元的梯度项eh:
<mrow>
<msub>
<mi>e</mi>
<mi>h</mi>
</msub>
<mo>=</mo>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mi>n</mi>
</munderover>
<mfrac>
<mrow>
<mo>&part;</mo>
<msub>
<mi>E</mi>
<mi>k</mi>
</msub>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mi>&phi;</mi>
<mi>j</mi>
</msub>
</mrow>
</mfrac>
<mo>&CenterDot;</mo>
<mfrac>
<mrow>
<mo>&part;</mo>
<msub>
<mi>&phi;</mi>
<mi>j</mi>
</msub>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mi>s</mi>
<mi>h</mi>
</msub>
</mrow>
</mfrac>
<msup>
<mi>f</mi>
<mo>&prime;</mo>
</msup>
<mrow>
<mo>(</mo>
<msub>
<mi>&zeta;</mi>
<mi>h</mi>
</msub>
<mo>-</mo>
<msub>
<mi>&gamma;</mi>
<mi>h</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
更新权值:
whj←whj+Δwhj=whj+ηgish
vih←vih+Δvih=vih+Δηehxi
更新阈值:
θj←θj+Δθj=θj-ηgj
γh←γh+Δγh=γh-ηeh
式中,为训练样本(xk,yk)的第j个输出层神经元的实际输出值,η为学习率,调整参数共计(m+n+2)s+n个,包含输入层到隐层的m×s个权值vih,隐层到输出层的s×(n+1)个权值whj,s个隐层神经元阈值γh,n个输出层神经元阈值θj,h∈(1,2,…s),j∈(0,1,2,…n);
若累积误差ε为期望累积误差,则停止迭代循环过程,否则重复执行步骤(45),直至满足迭代停止条件,并将步骤(45)满足迭代停止条件所构建的优化的BP神经网络数据传输至数据库保存,执行步骤(46),初始化
步骤(46):初始化E0=0,判断误差降值ΔE是否满足停止迭代条件, 若连续累计三次数值趋近,则停止迭代,执行步骤(49),若否,则执行步骤(47);
步骤(47):以互信息计算隐含层神经元h与输出层神经元间的连接强度m(h,y),
<mrow>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>h</mi>
<mo>,</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mi>n</mi>
</munderover>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>h</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<msub>
<mi>log</mi>
<mn>2</mn>
</msub>
<mfrac>
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>h</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>h</mi>
<mo>)</mo>
</mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
规则化连接强度:
<mrow>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>h</mi>
<mo>,</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>&LeftArrow;</mo>
<mfrac>
<mrow>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>h</mi>
<mo>,</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>h</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>s</mi>
</munderover>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>h</mi>
<mo>,</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
若m(h,y)<ι,ι趋近于0,则消融该隐层神经元,ι为设定经验值;
其中,p(h,j)是隐层神经元h和输出层神经元j的联合概率密度,p(h)和p(j)分别是隐层神经元h和输出层神经元j的分别超过阈值的概率密度;
步骤(48):以活跃度函数Ah(x)判定隐含层神经元的活跃度,
<mrow>
<msub>
<mi>A</mi>
<mi>h</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>w</mi>
<mrow>
<mi>h</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>&CenterDot;</mo>
<msub>
<mi>s</mi>
<mi>h</mi>
</msub>
</mrow>
<mrow>
<mo>(</mo>
<mo>|</mo>
<mo>|</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>w</mi>
<mrow>
<mi>h</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>&CenterDot;</mo>
<msub>
<mi>s</mi>
<mi>h</mi>
</msub>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>&phi;</mi>
<mi>j</mi>
</msub>
<mo>/</mo>
<mi>s</mi>
<mo>|</mo>
<mo>|</mo>
<mo>+</mo>
<mi>&tau;</mi>
<mo>)</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>&phi;</mi>
<mi>j</mi>
</msub>
</mrow>
</mfrac>
</mrow>
当隐层神经元(称为第h个神经元)的活跃度Ah(x)大于活跃度阈值A0=max{1/s,10ε}时,活跃神经元h与输出神经元断开连接,对其进行分裂,共计分裂隐层神经元数h′个,则更新隐层神经元数目h←h+h′,返回步骤(45);
步骤(49):将测试样本集投入数据库存储的神经网络数据,根据测试样本集的实际舆情风险发生情况,计算舆情风险预测准确率与召回率,选取训练样本集误差最低且测试样本集同比最低的BP神经网络数据作为电力服务舆情风险评估模型,输出电力服务舆情风险评估模型。
7.如权利要求1所述的一种支持风险评估的电力舆情预测方法,其特征是,所述步骤(4)舆情风险评估结果被传输至舆情数据库,舆情数据库存储舆情风险评估结果作为电力服务舆情风险评估模型的优化反馈信息。
8.如权利要求1所述的一种支持风险评估的电力舆情预测方法,其特征是,所述步骤(5)将舆情事件分为4类,高舆情高代价、高舆情低代价、低舆情高代价和低舆情低代价,对高舆情低代价和低舆情低代价进行新闻溯源追踪,并对舆情剧减当天的热点丢失原因进行推荐,将舆情控制决策被传输至舆情数据库,舆情数据库存储舆情控制决策作为电力服务舆情风险评估模型的优化反馈信息。
9.一种支持风险评估的电力舆情预测装置,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上执行的计算机指令,所述计算机指令在处理器上运行时完成以下步骤:
步骤(1):接收待抓取网站的统一资源定位符URL、网站名称和搜索关键词,对搜索关键词进行扩展与更新;
步骤(2):根据网站的统一资源定位符URL、网站名称和扩展与更新后的搜索关键词,进行抓取网页并从所抓取网页中提取网页内容,然后再从所抓取网页中提取网页链接和链接锚文本;基于信息素的网页链接选取方法对网页链接的优先权进行排队,依据优先权队列,选取下一个网页链接进行访问;直至得到所有待分析网页的网页内容;
步骤(3):根据网页内容,依据字典词库和词组进行网页内容分词处理,提取关键词,对网页间相同关键词进行去重,并根据网页间关键词的重复度提供相应关键词热度值;
步骤(4):根据关键词和相应关键词热度值,基于优化的BP神经网络算法构建电力服务舆情风险评估模型,实现舆情风险评估;
步骤(5):基于历史舆情数据设定舆情等级阈值,并根据舆情等级及趋势推荐舆情控制决策;
步骤(6):将舆情风险评估结果和舆情控制决策推送给客户端,完成电力信息舆情监测。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征是,所述计算机指令被处理器执行时完成以下步骤:
步骤(1):接收待抓取网站的统一资源定位符URL、网站名称和搜索关键词,对搜索关键词进行扩展与更新;
步骤(2):根据网站的统一资源定位符URL、网站名称和扩展与更新后的搜索关键词,进行抓取网页并从所抓取网页中提取网页内容,然后再从所抓取网页中提取网页链接和链接锚文本;基于信息素的网页链接选取方法对网页链接的优先权进行排队,依据优先权队列,选取下一个网页链接进行访问;直至得到所有待分析网页的网页内容;
步骤(3):根据网页内容,依据字典词库和词组进行网页内容分词处理,提取关键词,对网页间相同关键词进行去重,并根据网页间关键词的重复度提供相应关键词热度值;
步骤(4):根据关键词和相应关键词热度值,基于优化的BP神经网络算法构建电力服务舆情风险评估模型,实现舆情风险评估;
步骤(5):基于历史舆情数据设定舆情等级阈值,并根据舆情等级及趋势推荐舆情控制决策;
步骤(6):将舆情风险评估结果和舆情控制决策推送给客户端,完成电力信息舆情监测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710813863.4A CN107644269B (zh) | 2017-09-11 | 2017-09-11 | 一种支持风险评估的电力舆情预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710813863.4A CN107644269B (zh) | 2017-09-11 | 2017-09-11 | 一种支持风险评估的电力舆情预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107644269A true CN107644269A (zh) | 2018-01-30 |
CN107644269B CN107644269B (zh) | 2020-05-22 |
Family
ID=61110409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710813863.4A Active CN107644269B (zh) | 2017-09-11 | 2017-09-11 | 一种支持风险评估的电力舆情预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107644269B (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647791A (zh) * | 2018-03-30 | 2018-10-12 | 中国标准化研究院 | 一种多源汽车安全信息的处理方法、装置及系统 |
CN109325161A (zh) * | 2018-09-11 | 2019-02-12 | 五八有限公司 | 舆情数据抓取方法、装置、设备及存储介质 |
CN109614534A (zh) * | 2018-11-29 | 2019-04-12 | 武汉大学 | 一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法 |
CN109657914A (zh) * | 2018-11-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 信息推送方法、装置、计算机设备及存储介质 |
CN109766715A (zh) * | 2018-12-24 | 2019-05-17 | 贵州航天计量测试技术研究所 | 一种面向大数据环境隐私信息防泄露自动识别方法及系统 |
CN110008394A (zh) * | 2019-01-22 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种舆情信息的识别方法、装置及设备 |
CN110121053A (zh) * | 2018-02-07 | 2019-08-13 | 中国石油化工股份有限公司 | 一种钻井现场风险分级预警的视频监控方法 |
CN110175733A (zh) * | 2019-04-01 | 2019-08-27 | 阿里巴巴集团控股有限公司 | 一种舆论信息处理方法和服务器 |
CN110795664A (zh) * | 2019-10-12 | 2020-02-14 | 广州番禺职业技术学院 | 一种高校舆情监控招生决策方法、装置、设备及存储介质 |
CN111401671A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 一种精准营销中衍生特征计算方法、装置和可读存储介质 |
CN111460252A (zh) * | 2020-03-16 | 2020-07-28 | 青岛智汇文创科技有限公司 | 一种基于网络舆情分析的自动化搜索引擎方法及系统 |
CN111489095A (zh) * | 2020-04-15 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 一种风险用户管理方法、装置、计算机设备和存储介质 |
CN111614663A (zh) * | 2020-05-20 | 2020-09-01 | 支付宝(杭州)信息技术有限公司 | 一种业务风险确定方法、装置及电子设备 |
CN111859074A (zh) * | 2020-07-29 | 2020-10-30 | 东北大学 | 基于深度学习的网络舆情信息源影响力评估方法及系统 |
CN111858910A (zh) * | 2019-04-25 | 2020-10-30 | 夏普株式会社 | 文档概述装置、文档概述系统、文档概述方法及存储介质 |
CN112132368A (zh) * | 2019-06-06 | 2020-12-25 | 阿里巴巴集团控股有限公司 | 信息处理方法以及装置、计算设备、存储介质 |
CN112187890A (zh) * | 2020-09-15 | 2021-01-05 | 卢霞浩 | 基于云计算和大数据的信息分发方法及区块链金融云中心 |
CN113762343A (zh) * | 2021-08-04 | 2021-12-07 | 德邦证券股份有限公司 | 处理舆情信息和训练分类模型的方法、装置以及存储介质 |
CN113822055A (zh) * | 2020-06-18 | 2021-12-21 | 中国石油化工股份有限公司 | 变更风险关键词的推荐模型建立及推荐的方法与系统 |
CN113836410A (zh) * | 2021-09-22 | 2021-12-24 | 中国第一汽车股份有限公司 | 车辆声品质评估方法、装置、评估设备及存储介质 |
CN114065619A (zh) * | 2021-11-11 | 2022-02-18 | 北京石油化工学院 | 加油站危险预警方法及装置 |
CN114757790A (zh) * | 2022-04-06 | 2022-07-15 | 山东新潮信息技术有限公司 | 一种利用神经网络对多源情报风险评估的方法 |
CN115187148A (zh) * | 2022-09-13 | 2022-10-14 | 深圳市城市公共安全技术研究院有限公司 | 突发事件态势研判方法、系统、装置及可读存储介质 |
CN115953021A (zh) * | 2022-12-06 | 2023-04-11 | 国网浙江浙电招标咨询有限公司 | 一种基于机器学习的供应商风险分析方法及装置 |
CN116013027A (zh) * | 2022-08-05 | 2023-04-25 | 航天神舟智慧系统技术有限公司 | 一种群体性事件预警方法与系统 |
CN116128546A (zh) * | 2023-01-06 | 2023-05-16 | 河北科迪新能源科技有限公司 | 一种电力行业对外服务窗口的ai舆情监测系统和方法 |
CN117354065A (zh) * | 2023-12-05 | 2024-01-05 | 国网四川省电力公司电力科学研究院 | 一种基于大数据的工控网络威胁情报分析方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
CN102298622A (zh) * | 2011-08-11 | 2011-12-28 | 中国科学院自动化研究所 | 基于锚文本的聚焦网络爬虫搜索方法及其系统 |
CN104504150A (zh) * | 2015-01-09 | 2015-04-08 | 成都布林特信息技术有限公司 | 新闻舆情监测系统 |
KR101518376B1 (ko) * | 2014-04-30 | 2015-05-08 | 영남대학교 산학협력단 | 여론결과 예측을 위한 데이터 도출방법 |
-
2017
- 2017-09-11 CN CN201710813863.4A patent/CN107644269B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
CN102298622A (zh) * | 2011-08-11 | 2011-12-28 | 中国科学院自动化研究所 | 基于锚文本的聚焦网络爬虫搜索方法及其系统 |
KR101518376B1 (ko) * | 2014-04-30 | 2015-05-08 | 영남대학교 산학협력단 | 여론결과 예측을 위한 데이터 도출방법 |
CN104504150A (zh) * | 2015-01-09 | 2015-04-08 | 成都布林特信息技术有限公司 | 新闻舆情监测系统 |
Non-Patent Citations (1)
Title |
---|
谷宝华: "基于BP神经网络的企业网络舆情危机预警研究", 《辽宁工业大学学报(社会科学版)》 * |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110121053A (zh) * | 2018-02-07 | 2019-08-13 | 中国石油化工股份有限公司 | 一种钻井现场风险分级预警的视频监控方法 |
CN110121053B (zh) * | 2018-02-07 | 2021-07-20 | 中国石油化工股份有限公司 | 一种钻井现场风险分级预警的视频监控方法 |
CN108647791A (zh) * | 2018-03-30 | 2018-10-12 | 中国标准化研究院 | 一种多源汽车安全信息的处理方法、装置及系统 |
CN109325161A (zh) * | 2018-09-11 | 2019-02-12 | 五八有限公司 | 舆情数据抓取方法、装置、设备及存储介质 |
CN109657914A (zh) * | 2018-11-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 信息推送方法、装置、计算机设备及存储介质 |
CN109614534A (zh) * | 2018-11-29 | 2019-04-12 | 武汉大学 | 一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法 |
CN109614534B (zh) * | 2018-11-29 | 2021-08-17 | 武汉大学 | 一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法 |
CN109766715A (zh) * | 2018-12-24 | 2019-05-17 | 贵州航天计量测试技术研究所 | 一种面向大数据环境隐私信息防泄露自动识别方法及系统 |
CN111401671B (zh) * | 2019-01-02 | 2023-11-21 | 中国移动通信有限公司研究院 | 一种精准营销中衍生特征计算方法、装置和可读存储介质 |
CN111401671A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 一种精准营销中衍生特征计算方法、装置和可读存储介质 |
CN110008394B (zh) * | 2019-01-22 | 2023-10-27 | 创新先进技术有限公司 | 一种舆情信息的识别方法、装置及设备 |
CN110008394A (zh) * | 2019-01-22 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种舆情信息的识别方法、装置及设备 |
CN110175733A (zh) * | 2019-04-01 | 2019-08-27 | 阿里巴巴集团控股有限公司 | 一种舆论信息处理方法和服务器 |
CN110175733B (zh) * | 2019-04-01 | 2023-07-11 | 创新先进技术有限公司 | 一种舆论信息处理方法和服务器 |
CN111858910A (zh) * | 2019-04-25 | 2020-10-30 | 夏普株式会社 | 文档概述装置、文档概述系统、文档概述方法及存储介质 |
CN112132368A (zh) * | 2019-06-06 | 2020-12-25 | 阿里巴巴集团控股有限公司 | 信息处理方法以及装置、计算设备、存储介质 |
CN110795664A (zh) * | 2019-10-12 | 2020-02-14 | 广州番禺职业技术学院 | 一种高校舆情监控招生决策方法、装置、设备及存储介质 |
CN111460252A (zh) * | 2020-03-16 | 2020-07-28 | 青岛智汇文创科技有限公司 | 一种基于网络舆情分析的自动化搜索引擎方法及系统 |
CN111460252B (zh) * | 2020-03-16 | 2023-07-28 | 青岛智汇文创科技有限公司 | 一种基于网络舆情分析的自动化搜索引擎方法及系统 |
CN111489095B (zh) * | 2020-04-15 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 一种风险用户管理方法、装置、计算机设备和存储介质 |
CN111489095A (zh) * | 2020-04-15 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 一种风险用户管理方法、装置、计算机设备和存储介质 |
CN111614663A (zh) * | 2020-05-20 | 2020-09-01 | 支付宝(杭州)信息技术有限公司 | 一种业务风险确定方法、装置及电子设备 |
CN113822055A (zh) * | 2020-06-18 | 2021-12-21 | 中国石油化工股份有限公司 | 变更风险关键词的推荐模型建立及推荐的方法与系统 |
CN111859074B (zh) * | 2020-07-29 | 2023-12-29 | 东北大学 | 基于深度学习的网络舆情信息源影响力评估方法及系统 |
CN111859074A (zh) * | 2020-07-29 | 2020-10-30 | 东北大学 | 基于深度学习的网络舆情信息源影响力评估方法及系统 |
CN112187890B (zh) * | 2020-09-15 | 2021-05-07 | 北京联银通科技有限公司 | 基于云计算和大数据的信息分发方法及区块链金融云中心 |
CN112187890A (zh) * | 2020-09-15 | 2021-01-05 | 卢霞浩 | 基于云计算和大数据的信息分发方法及区块链金融云中心 |
CN113762343B (zh) * | 2021-08-04 | 2024-03-15 | 德邦证券股份有限公司 | 处理舆情信息和训练分类模型的方法、装置以及存储介质 |
CN113762343A (zh) * | 2021-08-04 | 2021-12-07 | 德邦证券股份有限公司 | 处理舆情信息和训练分类模型的方法、装置以及存储介质 |
CN113836410B (zh) * | 2021-09-22 | 2024-03-15 | 中国第一汽车股份有限公司 | 车辆声品质评估方法、装置、评估设备及存储介质 |
CN113836410A (zh) * | 2021-09-22 | 2021-12-24 | 中国第一汽车股份有限公司 | 车辆声品质评估方法、装置、评估设备及存储介质 |
CN114065619A (zh) * | 2021-11-11 | 2022-02-18 | 北京石油化工学院 | 加油站危险预警方法及装置 |
CN114757790A (zh) * | 2022-04-06 | 2022-07-15 | 山东新潮信息技术有限公司 | 一种利用神经网络对多源情报风险评估的方法 |
CN116013027A (zh) * | 2022-08-05 | 2023-04-25 | 航天神舟智慧系统技术有限公司 | 一种群体性事件预警方法与系统 |
CN115187148B (zh) * | 2022-09-13 | 2022-12-20 | 深圳市城市公共安全技术研究院有限公司 | 突发事件态势研判方法、系统、装置及可读存储介质 |
CN115187148A (zh) * | 2022-09-13 | 2022-10-14 | 深圳市城市公共安全技术研究院有限公司 | 突发事件态势研判方法、系统、装置及可读存储介质 |
CN115953021B (zh) * | 2022-12-06 | 2023-08-04 | 国网浙江浙电招标咨询有限公司 | 一种基于机器学习的供应商风险分析方法及装置 |
CN115953021A (zh) * | 2022-12-06 | 2023-04-11 | 国网浙江浙电招标咨询有限公司 | 一种基于机器学习的供应商风险分析方法及装置 |
CN116128546A (zh) * | 2023-01-06 | 2023-05-16 | 河北科迪新能源科技有限公司 | 一种电力行业对外服务窗口的ai舆情监测系统和方法 |
CN117354065A (zh) * | 2023-12-05 | 2024-01-05 | 国网四川省电力公司电力科学研究院 | 一种基于大数据的工控网络威胁情报分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107644269B (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107644269A (zh) | 一种支持风险评估的电力舆情预测方法及装置 | |
CN105117422B (zh) | 智能社交网络推荐系统 | |
Sánchez-Lozano et al. | Evaluation of suitable locations for the installation of solar thermoelectric power plants | |
Huang et al. | Performance assessment for municipal solid waste collection in Taiwan | |
CN104346425B (zh) | 一种层次化的互联网舆情指标体系的方法及系统 | |
CN103064945B (zh) | 基于本体的情境搜索方法 | |
Arabsheibani et al. | Land suitability assessment for locating industrial parks: a hybrid multi criteria decision‐making approach using Geographical Information System | |
Duffield et al. | Effects of wildfire on national park visitation and the regional economy: A natural experiment in the Northern Rockies | |
Tabaraee et al. | Evaluation of power plants to prioritise the investment projects using fuzzy PROMETHEE method | |
Froese et al. | Lessons learned from designing visualization dashboards | |
CN105184326A (zh) | 基于图数据的主动学习多标签社交网络数据分析方法 | |
Hsueh et al. | Integrating the AHP and TOPSIS decision processes for evaluating the optimal collection strategy in reverse logistic for the TPI | |
Łaska | Wind energy and multi-criteria analysis in making decisions on the location of wind farms | |
Gao et al. | An agent-based simulation system for evaluating gridding urban management strategies | |
CN117217872A (zh) | 一种基于游客画像智能生成景区游玩方案的方法 | |
Utama et al. | Worth eat: An intelligent application for restaurant recommendation based on customer preference (Case study: Five types of restaurant in Tangerang Selatan region, Indonesia) | |
Bueno et al. | Application of an opinion consensus aggregation model based on OWA operators to the recommendation of tourist sites | |
He et al. | Design and implementation of a unified MOOC recommendation system for social work major: Experiences and lessons | |
Karimi et al. | Evaluating optimal sites for combined-cycle power plants using GIS: comparison of two aggregation methods in Iran | |
CN111353085A (zh) | 一种基于特征模型的云挖掘分析网络舆情方法 | |
Yan et al. | Analysis of research papers on E-commerce (2000–2013): based on a text mining approach | |
Liao et al. | CBR respond and preparedness system development for environmental emergency | |
Gorricha et al. | A framework for exploratory analysis of extreme weather events using geostatistical procedures and 3D self-organizing maps | |
Karaşan et al. | Wind farm location determination by using a two-phased fuzzy decision-making methodology based on fused data with a real case application | |
Lande et al. | Data Science in Open-Access Research on-Line Resources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |