CN104820629A - 一种智能的舆情突发事件应急处理系统及方法 - Google Patents
一种智能的舆情突发事件应急处理系统及方法 Download PDFInfo
- Publication number
- CN104820629A CN104820629A CN201510243751.0A CN201510243751A CN104820629A CN 104820629 A CN104820629 A CN 104820629A CN 201510243751 A CN201510243751 A CN 201510243751A CN 104820629 A CN104820629 A CN 104820629A
- Authority
- CN
- China
- Prior art keywords
- text
- emergency
- public opinion
- web
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012545 processing Methods 0.000 title claims abstract description 25
- 238000005516 engineering process Methods 0.000 claims abstract description 15
- 238000003672 processing method Methods 0.000 claims abstract description 7
- 238000003058 natural language processing Methods 0.000 claims abstract description 6
- 230000002265 prevention Effects 0.000 claims description 29
- 238000004458 analytical method Methods 0.000 claims description 23
- 238000011156 evaluation Methods 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000007621 cluster analysis Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 4
- 238000011158 quantitative evaluation Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 abstract description 6
- 238000012544 monitoring process Methods 0.000 abstract description 4
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004883 computer application Methods 0.000 description 2
- 238000010924 continuous production Methods 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种智能的舆情突发事件应急处理系统及方法。涉及将自然语言处理技术、本体理论和语义关联技术应用于互联网舆情突发事件的智能识别和防控预案的自动生成。它基于计算机信息处理方法实现对应急防控预案的格式化转化,实现舆情突发事件情景与预案之间的语义匹配,实现对各种互联网舆情突发事件的准确识别和辅助决策。本发明可以对互联网舆情进行实时监控,辅助互联网舆情防控决策,提高处置舆情突发事件的防控响应速度。
Description
技术领域
本发明属于计算机应用领域,涉及将自然语言处理技术、本体理论和语义关联技术应用于互联网舆情突发事件的智能识别和防控方案的自动生成。它基于计算机信息处理方法实现对应急防控预案的格式化转化,实现舆情突发事件情景与预案之间的语义匹配,实现对各种互联网舆情突发事件的准确识别和辅助决策。
背景技术
随着互联网技术的不断发展,互联网已成为一种被广泛使用的大众媒介,其触角几乎伸向社会的各个领域,并逐渐成为公众舆论的一个新的重要媒介。网络舆情是公众在互联网上公开表达的对某种社会现象或社会问题的具有一定影响力和倾向性的共同意见,网络舆情对政治生活秩序和社会稳定的影响与日俱增,一些网络舆情突发事件不能及时妥善处理,极有可能诱发民众的不良情绪及不良行为的发生,进而对社会稳定形成严重威胁。迫切需要一种技术手段能够实现对网络舆情信息的自动监控,能够对舆情突发事件的处置提供决策支持。
发明内容
本发明就是针对上述需求,提出了一种计算机应用系统―舆情突发事件应急处理系统,它能够对互联网舆情进行实时监控,能够辅助决策者根据舆情突发事件的实际情况有针对性地形成相适合的防控方案,加快对网络舆情突发事件的处置响应速度。
本发明所要解决的技术问题由以下技术方案实现:
一种智能的舆情突发事件应急处理系统,其特征在于:该系统包括互联网信息采集与解析模块、互联网信息分析模块、网络文本类别判断与聚类分析模块、应急处理方案生成模块和应急处理效果评估模块;所述互联网信息采集与解析模块用于从互联网上采集信息,抽取出网页中自然语言文字以及网页的元数据信息,并保存到数据库中;所述互联网信息分析模块用于对采集来的信息中的自然语言文字进行特征抽取,形成文本特征;所述网络文本类别判断与聚类分析模块用于对网络文本的类别进行判断,对累积网络文本进行聚类分析;所述应急处理方案生成模块用于根据舆情事件的具体情况自动生成相应的处理预案,决策人员可以基于处理预案制定执行方案;所述应急处理效果评估模块用于对执行方案的执行效果进行评估。
一种智能的舆情突发事件应急处理系统及方法,其特征在于该方法包括以下步骤:
①互联网信息采集与解析:由连接互联网的计算机从互联网论坛、博客、新闻网站上采集论坛帖子、博客内容和网站新闻网页等网络数据,然后,利用计算机采用基于规则的信息抽取技术自动地对网络数据进行解析,从其中抽取两类信息:自然语言文字信息和网页的元数据信息;自然语言文字信息包括新闻标题、新闻正文、论坛帖子标题、帖子内容等信息;网页的元数据信息包括发表时间、作者、发帖者、帖子回复量、帖子阅读量、出现的网站名称、网站URL等信息,解析出来的信息保存到数据库中,信息采集与解析是一个持续的过程,形成对互联网站的自动连续监控;
②互联网信息分析:首先利用自然语言处理技术的中文分词方法对网络文本的标题和正文内容分别进行分词,并对分词结果中每个词项的词性进行标注,之后舍弃掉除名词、动词、形容词之外的词项,然后利用文本多精度表示方法抽取网络文本的单个词项特征和词项关联特征,再根据分词结果中的词性标注情况识别出网络文本中的地理位置特征和人物特征,地理位置特征是网络文本中出现的地理位置名称、人物特征是网络文本中出现的人物名称;
③将步骤②处理后的网络文本中的词项与计算机数据库中设定的舆情类别的词项特征进行比对匹配,并根据匹配结果将网络文本按照计算机数据库中设定的舆情类别进行归类处理;将不能归类的网络文本进行聚类分析,把内容相近的网络文本聚成簇,若簇内网络文本数量超出设定阈值,则对簇内网络文本进行舆情类别的词项特征抽处理,并将抽取的舆情类别的词项特征补充到计算机数据库中;对于完成归类的网络文本转入步骤④;其中,匹配内容包括单个词项特征、词项关联特征、地理位置特征和人物特征;
④如果在指定时间段内,属于某一类别的网络文本的数量或者出现该类别网络文本的网站数量超过指定的阈值,则启动应急预案;
完成智能舆情突发事件的应急处理。
其中,在步骤④之后还包括应急处理效果评估步骤:首先按照评估指标采集指标数据,然后将指标数据输入评估公式得出量化评估结果。
其中,在步骤③中根据匹配结果将网络文本按照计算机数据库中设定的舆情类别进行归类处理具体为:网络文本类别判断的方法是将网络文本的词项与每个舆情类别的词项特征进行比对匹配,分别在单个词特征、词关联特征、地理位置特征和人物特征四个方面进行匹配运算,根据匹配情况得到网络文本与各个舆情类别的相似度值,将文本归属为相似度值最高的舆情类别。
其中,步骤③中对簇内网络文本进行舆情类别的词项特征抽处理,具体为:假设簇T包含的网络文本有T={t1,t2,…tn},利用文本多精度表示方法抽取出每个文本ti的单个词项特征和词项关联特征,再采用统计方法计算出T中所有文本的所有单个词项特征和词项关联特征的统计分布规律,选择在T中一半以上网络文本中出现过的词汇作为舆情类别词项特征,并计算出其在T内的平均发生频率作为舆情类别特征词项的频率;其中,1≤i≤n。
其中,步骤④中应急预案的生成方法为:基于互联网舆情事件情景本体知识库模型和网络舆情防控措施预案本体知识库,利用语义匹配技术根据舆情事件情景的具体情况,从防控措施预案库中自动匹配出最适合的应急处理预案。
与现有的技术相比,本发明具有以下的优点和有益效果:
1、本发明不仅能够对网络舆情进行自动监控,还能够针对突发舆情事件给出防控措施方案。
2、本发明的舆情类型识别计算机数据库具有可扩展性,通过文本聚类分析不断补充新型舆情类型特征到数据库中,使系统能够识别新增类型的舆情事件。
附图说明
图1系统模块组成图
图2舆情分类体系模型图
图3舆情分类体系概念属性模型图
图4舆情分类体系示意图
图5类别特征产生过程工作原理图
图6语义匹配原理图
图7基于网络文本聚类的知识扩展图
图8舆情事件情景本体知识库图
图9舆情防控措施预案本体知识库图
图10网络舆情防控知识语义模型图
图11基于语义的匹配方法图
图12应急处理效果评估指标体系图
具体实施方式
下面将结合附图和具体实施例对本发明做进一步说明。但本发明的实施方式不限于此。
本实施例提供一种智能的舆情突发事件应急处理系统,该系统包括互联网信息采集与解析模块,互联网信息分析模块,网络文本类别判断与聚类分析模块,应急处理方案生成模块,应急处理效果评估模块,如附图1所示;所述互联网信息采集与解析模块用于从互联网上采集信息,抽取出网页中自然语言文字以及网页的元数据信息,并保存到数据库中;所述互联网信息分析模块用于对采集来的信息中的自然语言文字进行特征抽取,形成文本特征;所述网络文本类别判断与聚类分析模块用于对网络文本的类别进行判断,对累积网络文本进行聚类分析;所述应急处理方案生成模块用于根据舆情事件的具体情况自动生成相应的处理预案,决策人员可以基于处理预案制定执行方案;所述应急处理效果评估模块用于对执行方案的执行效果进行评估。
本实施例还提供一种智能的舆情突发事件应急处理系统的工作方法,该方法包括以下步骤:
①互联网信息采集与解析:由连接互联网的计算机从互联网论坛、博客、新闻网站上采集论坛帖子、博客内容和网站新闻网页等网络数据,然后,利用计算机采用基于规则的信息抽取技术自动地对网络数据进行解析,从其中抽取两类信息:自然语言文字信息和网页的元数据信息。自然语言文字信息包括新闻标题、新闻正文、论坛帖子标题、帖子内容、作者、发帖者等信息;网页的元数据信息包括发表时间、帖子回复量、帖子阅读量、出现的网站名称、网站URL等,解析出来的关键信息保存到数据库中,信息采集与解析是一个持续的过程,形成对互联网站的自动连续监控。
②互联网信息分析:首先利用自然语言处理技术的中文分词方法对网络文本的标题和正文内容进行分词和词性标注处理,标注出每个词项的词性,舍弃掉文本中除名词、动词、形容词之外的词汇。然后利用已获得国家发明专利授权的“一种用于文本检索系统的文本多精度表示方法”所述方法抽取网络文本的单个词特征和词关联特征。另外,根据分词结果中的词性标注情况识别出文本中的地理位置特征和人物特征,地理位置特征是网络文本中出现的地理位置名称、人物特征是网络文本中出现的人物名称,如附图5中的网络文本语义特征抽取功能单元所示。总的来说网络文本的特征是一组词汇,配有其发生频率。
③网络文本类别判断与聚类分析:其目的是基于网络文本的内容采用文本分类技术判断网络文本的所属类别。所属类别是基于本体论事先建立起来的一个舆情分类体系模型中的一种,舆情分类体系模型如附图2所示,它是一个层次化模型,第一层是大类,第二层是小类,每个小类都由概念属性来定义,如附图3所示,有两个概念属性:类别语义特征和防控策略。类别语义特征包括:
单个词特征:类别语义特征抽取模块抽取出的网络文本的单个词特征;
词关联特征:类别语义特征抽取模块抽取出的网络文本的多词关联特征;
地理位置特征:类别语义特征抽取模块抽取出的网络文本中的地理位置名称;
人物特征:类别语义特征抽取模块抽取出的网络文本中的人物名称;
实例:该类型网络舆情的一个实例文本;
类别判断准则。判断一批某类舆情相关的文本累积是否真的是一次舆情事件。例如,IF出现舆情文本的网站数量大于n THEN是一次舆情事件;IF舆情文本的回帖数量大于n THEN是一次舆情事件。
防控策略包括防控原则和防控方法,防控原则是针对某类舆情事件开展防御和控制的基本原则;防控方法是针对某类舆情采取的具体防控措施。
图4是一个实际舆情分类体系的示意图。
每一个类别都有其类别特征,为每个类别产生类别特征的方法如附图5所示:首先采集各个类别的若干网络文本作为训练样本,利用自然语言处理技术的中文分词方法对所有训练样本进行分词和词性标注处理,标注出每个词项的词性,舍弃掉文本中除名词、动词、形容词之外的词汇;由网络文本语义特征抽取功能单元抽取每个文本的单个词特征、词关联特征、地理位置特征和人物特征,再由类别语义特征抽取功能单元抽取类别语义特征;具体方法是:利用计算机采用统计算法计算出每个文本的各个特征在每个类别内以及训练样本全集的统计分布规律,选择在一半以上类别样本文档中出现过且不是训练样本全集内所有样本所共有的词汇作为类别特征词,并计算出其类别内平均发生频率作为类别特征词的频率。总的来说类别特征是一组代表类别特征的词汇,配有其平均发生频率。
网络文本类别判断的方法是将网络文本的特征词项与每一个类别特征词项进行比对匹配,如附图6所示,分别在单个词特征、词关联特征、地理位置特征和人物特征四个方面进行匹配运算,并按照下面的公式计算相似度值,将文本归属为相似度值最高的类别。
其中,
d表示待分类文档;
C表示类别;
coord(d,C)表示待识别文本d中包含类别C的类别特征词项的数量;
frequency表示特征词项t在类别特征中的词频;
weight(t):表示特征词项t的权重;
frequency和weight值可以从建模过程中创建的类别特征词项表中获得,类别特征词项表如表1所示。
表1 类别特征词项表
类别 | 特征词 | 词频 | 权重 |
varchar | varchar | float | float |
numofClasses:表示共有几个类别;
ClassFreq(t):表示特征项项t同时是几个类别的特征词项。
如附图7所示,网络文本经过预处理功能单元处理后,获得文本分词结果并去除停用词,再通过语义特征抽取模块得到其语义特征,利用网络文本类别判断功能单元判读其是否为已知的n种网络舆情的一种,若是则将其归类,否则,将其转给网络文本聚类分析功能单元进行分析,看其中是否有热点话题,对采集来到每一个网络文本都进行类别判断,符合分类条件的网络文本被赋以相应的类别标签。如果在指定时间段内,属于某一类别的网络文本的数量、出现该类别网络文本的网站数量超过指定的阈值,则向系统操作人员发出告警,进而由应急处理方案生成模块给出应急处理方案。
在上述网络文本类别判断过程中,会出现一些不属于现有舆情分类体系模型中的任何一类的文本,随着时间的推移,未知类型文本会不断累积,对累积的未知类型文本进行聚类分析,把内容相近的网络文本聚成簇,若簇内网络文本数量超出一定阈值,则将其作为热点话题提交人工判读,如果确定其为新的舆情类别,则对其进行舆情类别语义特征抽处理,并将抽取的类别语义特征补充到知识库中,具体过程如附图7所示;上述过程保证了本系统的知识库的可扩展性,使得系统在补充知识后能够识别互联网上的新型舆情。
④应急处理方案生成:是在舆情类型识别的基础上,针对识别出的舆情类型提供应急处置预案,其特征是,利用本体论技术构建层次化的互联网舆情事件情景本体知识库模型和网络舆情防控措施预案本体知识库模型。前者对舆情事件进行定性和定量的描述,如附图8所示;后者将自然语言文字方式存在的舆情应急防控规章制度、处理规范、应对措施进行数字化,如附图9所示。这样做的目的是将非格式化的信息转变为计算机可理解的格式化信息。有了上述两个知识库模型的支撑,就可以基于计算机利用语义匹配技术自动地实现舆情事件的自动识别,相应防范措施、处理方案的快速自动推理,处理预案的实时辅助生成。情景本体知识库包括舆情、时间、网站、参与者、受众、潜在危害等知识概念。
在互联网信息分析和网络文本类别判断步骤中识别出来的舆情事件的信息会被抽取出来存储到舆情事件情景本体知识库中;舆情类别信息由网络文本类别判断步骤给出,具体采用的是文本分类技术;舆情内容、时间发生时间、时间持续时间、网站名称、网站数量、参与者用户名由互联网信息分析步骤给出的,采用的是基于规则的信息抽取技术;其它信息如舆情等级、参与者IP地址等信息则根据先验知识进行填写。
舆情防控措施预案本体知识库包括编制依据、适用范围、资源、防控措施四个方面,其内容根据具体的法律法规内容进行填写。
基于互联网舆情事件情景本体知识库和网络舆情防控措施预案本体知识库共同构成了网络舆情防控知识语义模型,基于此模型,利用语义匹配技术生成应急预案,如附图10所示。应急预案是指导处置各种舆情突发事件的方案和方法,而每个舆情事件的具体条件、状况和参数各不相同,决策者需要根据具体情况从防控预案中选定适当的防控处置措施、方法和实施步骤作为应急预案,并调配相应的组织机构和部门执行应急预案。为此,将事件情景的“舆情类别”、“舆情内容”、“舆情等级”分别与预案本体的“适用事件类型”、“适用事件内容”、“适用事件等级”相匹配,如附图11所示,从而发现与舆情事件相适合的应对预案,如表2和表3所示。
表2 基于语义匹配生成的预案示例
表3 预案示例说明
应对预案只是一个指导性的方案,需要再根据舆情的具体情况,例如,时间、网站、参与者、受众、潜在危害等情况生成一个具体的执行方案。
⑤应急处理效果评估:应急处理效果评估是基于评估指标体系和评估计算公式完成的,评估指标体系包含了需要评估的事项,评估计算公式计算出量化评估结果;评估指标体系如附图12所示,每个指标的详细描述如表4所示。
表4 应急处理效果评估指标体系
舆情强度指标旨在衡量舆情在范围和形式上的情况。①舆情范围指的是舆情的广度,由网站覆盖度、地区覆盖度、网站数量三个指标来衡量。网站覆盖度指的是包含舆情文本的网站占样本网站的比重;样本网站是经过精心选取的,能在一定程度上代表整个网络状态和水平的网站集合;由于各网站的规模级别不同,要对其进行加权处理,出现舆情文本的样本网站越多,说明舆情的范围越广,当实施防控措施后,如果包含舆情文本的网站数量出现减少的趋势说明防控措施发挥了作用。地区覆盖度指的是包含舆情文本的网站的地理分布情况,出现舆情文本的网站分布越广,说明舆情的影响范围越广。网站数量指的是包含舆情文本的网站的总数量,数量越多,说明舆情的影响范围越广。②舆情形式指的是舆情传播的媒介渠道种类、所用网络文本的长短、网络文本的媒体种类。媒介渠道种类可以是BBS、微博、博客、交友平台、电子邮件等,所用的渠道越多,则传播能力越强。所用网络文本的长度越长,则传播能力越强。媒体种类可以是文本、音频、视频,所用媒体种类越多则舆情影响越强。
受众关注度指标旨在反映网络舆情对受众的影响力,通过受众情况、受众响应、受众态度等指标来衡量。①受众情况指的是受舆情影响的受众数量和受众范围,受众数量通过网络文本浏览者IP数量来测量,受众范围通过网络文本浏览者IP的分布地域广度来测量。②受众响应指的是浏览者对网络文本的关注程度,通过阅读量、转发量、回帖量、活跃度来衡量。阅读量通过网络文本的点击数量来测量,转发量通过网络文本在全互联网范围内不同网站的出现次数来测量,回帖量通过网络文本回复数量来测量,活跃度通过单位时间内对网络文本的回复数量来测量③受众态度指的是浏览者对网络文本所表达的观点的认同度,通过正面态度回帖数量、中性态度回帖数量、负面态度回帖数量来衡量。
该指标体系的各级指标的权重通过层次分析法计算得出,每一项指标均可量化计算得出,指标的量化计算方法分为三种:指数计算、频率/密度计算和权重系数确定。
(1)指数计算
指标体系中有定量指标和定性指标。定量指标包括阅读量、转发量、回帖量等指标;定性指标包括视听化程度。为具有可比性,将定性指标与定量指标按归一化处理,这里采用指数计算方法,具体采用Sigmoid函数进行计算,其中x表示阅读量、转发量、回帖量等。以受众响应为例,设对于网络文本i,网络文本的点击数量为x1i,网络文本在全互联网范围内不同网站的出现次数为x2i,网络文本回复数量为x3i,单位时间内对网络文本的回复数量为x4i。设阅读量、转发量、回帖量、活跃度的权重是g1、g2、g3、g4,则网络文本对受众响应的影响力P1为:
P1=f(x1i)×g1+f(x2i)×g2+f(x3i)×g3+f(x4i)×g4
(2)频率计算
活跃度是根据网民对网络文本的回复频率来衡量,以天、星期、月为统计时间单位。
(3)权重系数确定
根据专家经验利用层次分析法确定各种属性因素的权重系数。其主要特征是把复杂的问题分解为若干个组成因素,将这些因素按从属关系分为层次结构;专家评比时只需对各因素进行两两比较,确定同一层次中诸因素的相对重要性,然后综合专家的判断决定各因素相对重要的顺序。用这种方法来决定各因素的加权系数比在很多因素中凭经验同时定出加权系数更科学一些,因为人们只作两两比较时容易得出比较准确的判断。但在使用这些方法时,为了保证效果,每一层次所包含的因素一般超过10个。进行两两对比时按9分制进行,1代表相当,3是稍好,5是明显地好,7是十分好,9是极好。如介于上述二者之间则用2、4、6或8分表示。根据两两对比打分结果构成评分矩阵,通过求矩阵的最大特征根和特征向量即可计算出各因素相对于上一层目标的重要性或评价权重。如果要求计算各参数对再上一层目标的重要性顺序或影响程度大小,可以将底层的各参数的权重逐一乘上与其有关的上一层因素的权重,然后相加,这样各参数对再上一层的优劣顺序或加权系数就计算出来了。
量化评估结果的计算公式为,
其中,Ai代表一级指标,舆情强度和受众关注度的分值,ωi代表各自的权重。
每一个一级指标则是由其下属的二级指标决定的,计算公式为其中,是第i个一级指标的第j项,其权重为ωj。类似地,每一个二级指标由其下属的三级指标决定。
Claims (6)
1.一种智能的舆情突发事件应急处理系统,其特征在于:该系统包括互联网信息采集与解析模块、互联网信息分析模块、网络文本类别判断与聚类分析模块、应急处理方案生成模块和应急处理效果评估模块;所述互联网信息采集与解析模块用于从互联网上采集信息,抽取出网页中自然语言文字以及网页的元数据信息,并保存到数据库中;所述互联网信息分析模块用于对采集来的信息中的自然语言文字进行特征抽取,形成文本特征;所述网络文本类别判断与聚类分析模块用于对网络文本的类别进行判断,对累积网络文本进行聚类分析;所述应急处理方案生成模块用于根据舆情事件的具体情况自动生成相应的处理预案,决策人员可以基于处理预案制定执行方案;所述应急处理效果评估模块用于对执行方案的执行效果进行评估。
2.一种智能的舆情突发事件应急处理方法,其特征在于包括以下步骤:
①互联网信息采集与解析:由连接互联网的计算机从互联网上采集网络文本;然后,计算机采用基于规则的信息抽取技术自动地对网络文本进行解析,从其中抽取两类信息:自然语言文字信息和网页的元数据信息;
②互联网信息分析:首先利用自然语言处理技术的中文分词方法对网络文本的标题和正文内容分别进行分词,并对分词结果中每个词项的词性进行标注,之后舍弃掉除名词、动词、形容词之外的词项,然后利用文本多精度表示方法抽取网络文本的单个词项特征和词项关联特征,再根据分词结果中的词性标注情况识别出网络文本中的地理位置特征和人物特征;
③将步骤②处理后的网络文本中的词项与计算机数据库中设定的舆情类别的词项特征进行比对匹配,并根据匹配结果将网络文本按照计算机数据库中设定的舆情类别进行归类处理;将不能归类的网络文本进行聚类分析,把内容相近的网络文本聚成簇,若簇内网络文本数量超出设定阈值,则对簇内网络文本进行舆情类别的词项特征抽处理,并将抽取的舆情类别的词项特征补充到计算机数据库中;对于完成归类的网络文本转入步骤④;其中,匹配内容包括单个词项特征、词项关联特征、地理位置特征和人物特征;
④如果在指定时间段内,属于某一类别的网络文本的数量或者出现该类别网络文本的网站数量超过指定的阈值,则启动应急预案;
完成智能舆情突发事件的应急处理。
3.根据权利要求2所述的一种智能的舆情突发事件应急处理方法,其特征在于:在步骤④之后还包括应急处理效果评估步骤:首先按照评估指标采集指标数据,然后将指标数据输入评估公式得出量化评估结果。
4.根据权利要求2所述的一种智能的舆情突发事件应急处理方法,其特征在于:在步骤③中根据匹配结果将网络文本按照计算机数据库中设定的舆情类别进行归类处理具体为:网络文本类别判断的方法是将网络文本的词项与每个舆情类别的词项特征进行比对匹配,分别在单个词特征、词关联特征、地理位置特征和人物特征四个方面进行匹配运算,根据匹配情况得到网络文本与各个舆情类别的相似度值,将文本归属为相似度值最高的舆情类别。
5.根据权利要求2所述的一种智能的舆情突发事件应急处理方法,其特征在于:步骤③中对簇内网络文本进行舆情类别的词项特征抽处理,具体为:假设簇T包含的网络文本有T={t1,t2,…tn},利用文本多精度表示方法抽取出每个文本ti的单个词项特征和词项关联特征,再采用统计方法计算出T中所有文本的所有单个词项特征和词项关联特征的统计分布规律,选择在T中一半以上网络文本中出现过的词汇作为舆情类别词项特征,并计算出其在T内的平均发生频率作为舆情类别特征词项的频率;其中,1≤i≤n。
6.根据权利要求2所述的一种智能的舆情突发事件应急处理方法,其特征在于:步骤④中应急预案的生成方法为:基于互联网舆情事件情景本体知识库模型和网络舆情防控措施预案本体知识库,利用语义匹配技术根据舆情事件情景的具体情况,从防控措施预案库中自动匹配出最适合的应急处理预案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510243751.0A CN104820629B (zh) | 2015-05-14 | 2015-05-14 | 一种智能的舆情突发事件应急处理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510243751.0A CN104820629B (zh) | 2015-05-14 | 2015-05-14 | 一种智能的舆情突发事件应急处理系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104820629A true CN104820629A (zh) | 2015-08-05 |
CN104820629B CN104820629B (zh) | 2018-01-30 |
Family
ID=53730930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510243751.0A Active CN104820629B (zh) | 2015-05-14 | 2015-05-14 | 一种智能的舆情突发事件应急处理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104820629B (zh) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956740A (zh) * | 2016-04-19 | 2016-09-21 | 北京深度时代科技有限公司 | 一种基于文本逻辑特征的语义风险计算方法 |
CN106202561A (zh) * | 2016-07-29 | 2016-12-07 | 北京联创众升科技有限公司 | 基于文本大数据的数字化应急管理案例库构建方法及装置 |
CN106294619A (zh) * | 2016-08-01 | 2017-01-04 | 上海交通大学 | 舆情智能监管方法 |
CN107193796A (zh) * | 2016-03-14 | 2017-09-22 | 北大方正集团有限公司 | 一种舆情事件检测方法及装置 |
CN107239452A (zh) * | 2016-03-28 | 2017-10-10 | 腾讯科技(深圳)有限公司 | 一种策略调整的方法及装置 |
CN107274324A (zh) * | 2017-06-06 | 2017-10-20 | 张黎明 | 一种基于云服务进行突发事件风险评估的方法 |
CN107491438A (zh) * | 2017-08-25 | 2017-12-19 | 前海梧桐(深圳)数据有限公司 | 基于自然语言的企业决策要素提取方法及其系统 |
CN107590196A (zh) * | 2017-08-15 | 2018-01-16 | 中国农业大学 | 一种社交网络中地震应急信息筛选评价方法及系统 |
CN107622354A (zh) * | 2017-09-29 | 2018-01-23 | 中国科学技术大学 | 一种基于区间二元语义的突发事件应急能力评估方法 |
CN107741929A (zh) * | 2017-10-18 | 2018-02-27 | 网智天元科技集团股份有限公司 | 舆情分析方法及装置 |
CN108108902A (zh) * | 2017-12-26 | 2018-06-01 | 阿里巴巴集团控股有限公司 | 一种风险事件告警方法和装置 |
CN108255832A (zh) * | 2016-12-28 | 2018-07-06 | 航天信息股份有限公司 | 舆情处理系统及方法 |
CN109615266A (zh) * | 2018-12-26 | 2019-04-12 | 贵州电网有限责任公司 | 基于数据挖掘的电网异常信息的文本分析决策方法 |
CN110046220A (zh) * | 2018-12-13 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 舆情信息处理方法、装置、设备及计算机可读存储介质 |
CN110096406A (zh) * | 2018-01-31 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 一种故障事件发现方法和服务器 |
CN110609969A (zh) * | 2019-08-08 | 2019-12-24 | 阿里巴巴集团控股有限公司 | 信息处理方法和装置 |
CN110852090A (zh) * | 2019-11-07 | 2020-02-28 | 中科天玑数据科技股份有限公司 | 一种用于舆情爬取的机构特征词汇扩展系统和方法 |
CN110868383A (zh) * | 2018-12-24 | 2020-03-06 | 北京安天网络安全技术有限公司 | 一种网站风险评估方法、装置、电子设备及存储介质 |
CN111223026A (zh) * | 2020-01-03 | 2020-06-02 | 武汉理工大学 | 垃圾危机转化智能管理方法 |
CN111428146A (zh) * | 2020-03-24 | 2020-07-17 | 上海智臻智能网络科技股份有限公司 | 网络信息处理方法及系统、设备、存储介质 |
CN111898385A (zh) * | 2020-07-17 | 2020-11-06 | 中国农业大学 | 一种地震灾害评估方法及系统 |
CN112069381A (zh) * | 2020-09-27 | 2020-12-11 | 中国科学院深圳先进技术研究院 | 一种基于自然语言处理技术的监控管理方法及系统 |
CN112905745A (zh) * | 2021-03-05 | 2021-06-04 | 广州虎牙科技有限公司 | 信息处理方法、装置、电子设备和计算机可读存储介质 |
WO2021136453A1 (zh) * | 2019-12-31 | 2021-07-08 | 清华大学 | 应急预案辅助信息获取方法、装置及设备 |
CN113433994A (zh) * | 2021-07-20 | 2021-09-24 | 青岛一云数联科技有限公司 | 一种感知和监控能源事件的系统及方法 |
CN113468320A (zh) * | 2021-07-22 | 2021-10-01 | 中国地震台网中心 | 地震应急信息快速可视化方法及系统 |
CN113626722A (zh) * | 2020-05-08 | 2021-11-09 | 国家广播电视总局广播电视科学研究院 | 舆论引导方法、装置、设备及计算机可读存储介质 |
CN114417021A (zh) * | 2022-01-24 | 2022-04-29 | 中国电子科技集团公司第五十四研究所 | 一种基于时、空、义多约束融合的语义信息精准分发方法 |
CN114444514A (zh) * | 2022-02-08 | 2022-05-06 | 北京百度网讯科技有限公司 | 语义匹配模型训练、语义匹配方法及相关装置 |
CN114528396A (zh) * | 2021-12-29 | 2022-05-24 | 北京辰安科技股份有限公司 | 突发事件的监测方法、装置、电子设备及存储介质 |
CN117076752A (zh) * | 2023-03-21 | 2023-11-17 | 南京时刻智能科技有限公司 | 基于大数据的数据信息采集分析方法 |
CN117891997A (zh) * | 2023-12-29 | 2024-04-16 | 浙江翎鹿数智科技有限公司 | 一种舆情管理和跨部门联合处置方法与系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101436194A (zh) * | 2008-11-04 | 2009-05-20 | 中国电子科技集团公司第五十四研究所 | 一种基于数据挖掘技术的文本多精度表示方法 |
CN101819573A (zh) * | 2009-09-15 | 2010-09-01 | 电子科技大学 | 一种自适应的网络舆情识别方法 |
CN102509164A (zh) * | 2011-11-24 | 2012-06-20 | 广州市地下铁道总公司 | 一种数字应急预案自动生成方法 |
CN103150335A (zh) * | 2013-01-25 | 2013-06-12 | 河南理工大学 | 一种基于联合聚类的煤矿舆情监测系统 |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN104573016A (zh) * | 2015-01-12 | 2015-04-29 | 武汉泰迪智慧科技有限公司 | 一种基于行业的垂直舆情分析系统及方法 |
-
2015
- 2015-05-14 CN CN201510243751.0A patent/CN104820629B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101436194A (zh) * | 2008-11-04 | 2009-05-20 | 中国电子科技集团公司第五十四研究所 | 一种基于数据挖掘技术的文本多精度表示方法 |
CN101819573A (zh) * | 2009-09-15 | 2010-09-01 | 电子科技大学 | 一种自适应的网络舆情识别方法 |
CN102509164A (zh) * | 2011-11-24 | 2012-06-20 | 广州市地下铁道总公司 | 一种数字应急预案自动生成方法 |
CN103150335A (zh) * | 2013-01-25 | 2013-06-12 | 河南理工大学 | 一种基于联合聚类的煤矿舆情监测系统 |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN104573016A (zh) * | 2015-01-12 | 2015-04-29 | 武汉泰迪智慧科技有限公司 | 一种基于行业的垂直舆情分析系统及方法 |
Non-Patent Citations (1)
Title |
---|
马力: "基于Web2.0的政府网络舆情信息管理模型研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193796A (zh) * | 2016-03-14 | 2017-09-22 | 北大方正集团有限公司 | 一种舆情事件检测方法及装置 |
CN107193796B (zh) * | 2016-03-14 | 2021-12-24 | 北大方正集团有限公司 | 一种舆情事件检测方法及装置 |
CN107239452A (zh) * | 2016-03-28 | 2017-10-10 | 腾讯科技(深圳)有限公司 | 一种策略调整的方法及装置 |
CN105956740A (zh) * | 2016-04-19 | 2016-09-21 | 北京深度时代科技有限公司 | 一种基于文本逻辑特征的语义风险计算方法 |
CN105956740B (zh) * | 2016-04-19 | 2019-12-31 | 北京深度时代科技有限公司 | 一种基于文本逻辑特征的语义风险计算方法 |
CN106202561B (zh) * | 2016-07-29 | 2019-10-01 | 北京联创众升科技有限公司 | 基于文本大数据的数字化应急管理案例库构建方法及装置 |
CN106202561A (zh) * | 2016-07-29 | 2016-12-07 | 北京联创众升科技有限公司 | 基于文本大数据的数字化应急管理案例库构建方法及装置 |
CN106294619A (zh) * | 2016-08-01 | 2017-01-04 | 上海交通大学 | 舆情智能监管方法 |
CN108255832A (zh) * | 2016-12-28 | 2018-07-06 | 航天信息股份有限公司 | 舆情处理系统及方法 |
CN107274324A (zh) * | 2017-06-06 | 2017-10-20 | 张黎明 | 一种基于云服务进行突发事件风险评估的方法 |
CN107590196A (zh) * | 2017-08-15 | 2018-01-16 | 中国农业大学 | 一种社交网络中地震应急信息筛选评价方法及系统 |
CN107491438A (zh) * | 2017-08-25 | 2017-12-19 | 前海梧桐(深圳)数据有限公司 | 基于自然语言的企业决策要素提取方法及其系统 |
CN107622354B (zh) * | 2017-09-29 | 2020-06-26 | 中国科学技术大学 | 一种基于区间二元语义的突发事件应急能力评估方法 |
CN107622354A (zh) * | 2017-09-29 | 2018-01-23 | 中国科学技术大学 | 一种基于区间二元语义的突发事件应急能力评估方法 |
CN107741929A (zh) * | 2017-10-18 | 2018-02-27 | 网智天元科技集团股份有限公司 | 舆情分析方法及装置 |
CN108108902B (zh) * | 2017-12-26 | 2021-06-29 | 创新先进技术有限公司 | 一种风险事件告警方法和装置 |
CN108108902A (zh) * | 2017-12-26 | 2018-06-01 | 阿里巴巴集团控股有限公司 | 一种风险事件告警方法和装置 |
CN110096406A (zh) * | 2018-01-31 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 一种故障事件发现方法和服务器 |
CN110046220A (zh) * | 2018-12-13 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 舆情信息处理方法、装置、设备及计算机可读存储介质 |
CN110868383A (zh) * | 2018-12-24 | 2020-03-06 | 北京安天网络安全技术有限公司 | 一种网站风险评估方法、装置、电子设备及存储介质 |
CN109615266B (zh) * | 2018-12-26 | 2022-11-04 | 贵州电网有限责任公司 | 基于数据挖掘的电网异常信息的文本分析决策方法 |
CN109615266A (zh) * | 2018-12-26 | 2019-04-12 | 贵州电网有限责任公司 | 基于数据挖掘的电网异常信息的文本分析决策方法 |
CN110609969A (zh) * | 2019-08-08 | 2019-12-24 | 阿里巴巴集团控股有限公司 | 信息处理方法和装置 |
CN110852090A (zh) * | 2019-11-07 | 2020-02-28 | 中科天玑数据科技股份有限公司 | 一种用于舆情爬取的机构特征词汇扩展系统和方法 |
CN110852090B (zh) * | 2019-11-07 | 2024-03-19 | 中科天玑数据科技股份有限公司 | 一种用于舆情爬取的机构特征词汇扩展系统和方法 |
WO2021136453A1 (zh) * | 2019-12-31 | 2021-07-08 | 清华大学 | 应急预案辅助信息获取方法、装置及设备 |
CN111223026A (zh) * | 2020-01-03 | 2020-06-02 | 武汉理工大学 | 垃圾危机转化智能管理方法 |
CN111223026B (zh) * | 2020-01-03 | 2024-03-01 | 武汉理工大学 | 垃圾危机转化智能管理方法 |
CN111428146A (zh) * | 2020-03-24 | 2020-07-17 | 上海智臻智能网络科技股份有限公司 | 网络信息处理方法及系统、设备、存储介质 |
CN113626722A (zh) * | 2020-05-08 | 2021-11-09 | 国家广播电视总局广播电视科学研究院 | 舆论引导方法、装置、设备及计算机可读存储介质 |
CN111898385B (zh) * | 2020-07-17 | 2023-08-04 | 中国农业大学 | 一种地震灾害评估方法及系统 |
CN111898385A (zh) * | 2020-07-17 | 2020-11-06 | 中国农业大学 | 一种地震灾害评估方法及系统 |
CN112069381A (zh) * | 2020-09-27 | 2020-12-11 | 中国科学院深圳先进技术研究院 | 一种基于自然语言处理技术的监控管理方法及系统 |
CN112905745A (zh) * | 2021-03-05 | 2021-06-04 | 广州虎牙科技有限公司 | 信息处理方法、装置、电子设备和计算机可读存储介质 |
CN113433994A (zh) * | 2021-07-20 | 2021-09-24 | 青岛一云数联科技有限公司 | 一种感知和监控能源事件的系统及方法 |
CN113468320A (zh) * | 2021-07-22 | 2021-10-01 | 中国地震台网中心 | 地震应急信息快速可视化方法及系统 |
CN114528396A (zh) * | 2021-12-29 | 2022-05-24 | 北京辰安科技股份有限公司 | 突发事件的监测方法、装置、电子设备及存储介质 |
CN114417021A (zh) * | 2022-01-24 | 2022-04-29 | 中国电子科技集团公司第五十四研究所 | 一种基于时、空、义多约束融合的语义信息精准分发方法 |
CN114417021B (zh) * | 2022-01-24 | 2023-08-25 | 中国电子科技集团公司第五十四研究所 | 一种基于时、空、义多约束融合的语义信息精准分发方法 |
CN114444514B (zh) * | 2022-02-08 | 2023-01-24 | 北京百度网讯科技有限公司 | 语义匹配模型训练、语义匹配方法及相关装置 |
CN114444514A (zh) * | 2022-02-08 | 2022-05-06 | 北京百度网讯科技有限公司 | 语义匹配模型训练、语义匹配方法及相关装置 |
CN117076752A (zh) * | 2023-03-21 | 2023-11-17 | 南京时刻智能科技有限公司 | 基于大数据的数据信息采集分析方法 |
CN117891997A (zh) * | 2023-12-29 | 2024-04-16 | 浙江翎鹿数智科技有限公司 | 一种舆情管理和跨部门联合处置方法与系统 |
CN117891997B (zh) * | 2023-12-29 | 2024-09-13 | 浙江翎鹿数智科技有限公司 | 一种舆情管理和跨部门联合处置方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104820629B (zh) | 2018-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104820629B (zh) | 一种智能的舆情突发事件应急处理系统及方法 | |
CN110008311B (zh) | 一种基于语义分析的产品信息安全风险监测方法 | |
CN112581006B (zh) | 筛选舆情信息及监测企业主体风险等级的舆情系统及方法 | |
CN110334178B (zh) | 数据检索方法、装置、设备及可读存储介质 | |
CN109829166B (zh) | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 | |
CN110909164A (zh) | 一种基于卷积神经网络的文本增强语义分类方法及系统 | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
Liu et al. | Monitoring COVID-19 pandemic through the lens of social media using natural language processing and machine learning | |
CN112650848A (zh) | 基于文本语义相关乘客评价的城铁舆情信息分析方法 | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
CN104102721A (zh) | 信息推荐方法和装置 | |
CN103399891A (zh) | 网络内容自动推荐方法、装置和系统 | |
CN110019733A (zh) | 一种面向社区的智能问答方法及装置 | |
Arendt et al. | Content analysis of mediated associations: An automated text-analytic approach | |
CN112115712B (zh) | 基于话题的群体情感分析方法 | |
CN108681977B (zh) | 一种律师信息处理方法和系统 | |
CN112836109A (zh) | 一种遗产旅游地推荐方法及系统 | |
Van Atteveldt et al. | Studying political decision making with automatic text analysis | |
CN115310722A (zh) | 一种基于数据统计的农产品价格预测方法 | |
CN115329085A (zh) | 一种社交机器人分类方法及系统 | |
CN113782123A (zh) | 一种基于网络数据的在线医疗患者满意度测量方法 | |
CN113672818B (zh) | 一种获取社交媒体用户画像的方法及系统 | |
CN117828076A (zh) | 一种基于传播链路的舆情分级预警方法及系统 | |
CN112434126B (zh) | 一种信息处理方法、装置、设备和存储介质 | |
CN109254993B (zh) | 一种基于文本的性格数据分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |