CN104820629A - 一种智能的舆情突发事件应急处理系统及方法 - Google Patents

一种智能的舆情突发事件应急处理系统及方法 Download PDF

Info

Publication number
CN104820629A
CN104820629A CN201510243751.0A CN201510243751A CN104820629A CN 104820629 A CN104820629 A CN 104820629A CN 201510243751 A CN201510243751 A CN 201510243751A CN 104820629 A CN104820629 A CN 104820629A
Authority
CN
China
Prior art keywords
public sentiment
text
classification
network text
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510243751.0A
Other languages
English (en)
Other versions
CN104820629B (zh
Inventor
陈勇
陈金勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 54 Research Institute
Original Assignee
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 54 Research Institute filed Critical CETC 54 Research Institute
Priority to CN201510243751.0A priority Critical patent/CN104820629B/zh
Publication of CN104820629A publication Critical patent/CN104820629A/zh
Application granted granted Critical
Publication of CN104820629B publication Critical patent/CN104820629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种智能的舆情突发事件应急处理系统及方法。涉及将自然语言处理技术、本体理论和语义关联技术应用于互联网舆情突发事件的智能识别和防控预案的自动生成。它基于计算机信息处理方法实现对应急防控预案的格式化转化,实现舆情突发事件情景与预案之间的语义匹配,实现对各种互联网舆情突发事件的准确识别和辅助决策。本发明可以对互联网舆情进行实时监控,辅助互联网舆情防控决策,提高处置舆情突发事件的防控响应速度。

Description

一种智能的舆情突发事件应急处理系统及方法
技术领域
[0001] 本发明属于计算机应用领域,涉及将自然语言处理技术、本体理论和语义关联技 术应用于互联网舆情突发事件的智能识别和防控方案的自动生成。它基于计算机信息处理 方法实现对应急防控预案的格式化转化,实现舆情突发事件情景与预案之间的语义匹配, 实现对各种互联网舆情突发事件的准确识别和辅助决策。
背景技术
[0002] 随着互联网技术的不断发展,互联网已成为一种被广泛使用的大众媒介,其触角 几乎伸向社会的各个领域,并逐渐成为公众舆论的一个新的重要媒介。网络舆情是公众在 互联网上公开表达的对某种社会现象或社会问题的具有一定影响力和倾向性的共同意见, 网络舆情对政治生活秩序和社会稳定的影响与日俱增,一些网络舆情突发事件不能及时 妥善处理,极有可能诱发民众的不良情绪及不良行为的发生,进而对社会稳定形成严重威 胁。迫切需要一种技术手段能够实现对网络舆情信息的自动监控,能够对舆情突发事件的 处置提供决策支持。
发明内容
[0003] 本发明就是针对上述需求,提出了一种计算机应用系统一舆情突发事件应急处理 系统,它能够对互联网舆情进行实时监控,能够辅助决策者根据舆情突发事件的实际情况 有针对性地形成相适合的防控方案,加快对网络舆情突发事件的处置响应速度。
[0004] 本发明所要解决的技术问题由以下技术方案实现:
[0005] -种智能的舆情突发事件应急处理系统,其特征在于:该系统包括互联网信息采 集与解析模块、互联网信息分析模块、网络文本类别判断与聚类分析模块、应急处理方案生 成模块和应急处理效果评估模块;所述互联网信息采集与解析模块用于从互联网上采集信 息,抽取出网页中自然语言文字以及网页的元数据信息,并保存到数据库中;所述互联网信 息分析模块用于对采集来的信息中的自然语言文字进行特征抽取,形成文本特征;所述网 络文本类别判断与聚类分析模块用于对网络文本的类别进行判断,对累积网络文本进行聚 类分析;所述应急处理方案生成模块用于根据舆情事件的具体情况自动生成相应的处理预 案,决策人员可以基于处理预案制定执行方案;所述应急处理效果评估模块用于对执行方 案的执行效果进行评估。
[0006] -种智能的舆情突发事件应急处理系统及方法,其特征在于该方法包括以下步 骤:
[0007] ①互联网信息采集与解析:由连接互联网的计算机从互联网论坛、博客、新闻网站 上采集论坛帖子、博客内容和网站新闻网页等网络数据,然后,利用计算机采用基于规则的 信息抽取技术自动地对网络数据进行解析,从其中抽取两类信息:自然语言文字信息和网 页的元数据信息;自然语言文字信息包括新闻标题、新闻正文、论坛帖子标题、帖子内容等 信息;网页的元数据信息包括发表时间、作者、发帖者、帖子回复量、帖子阅读量、出现的网 站名称、网站URL等信息,解析出来的信息保存到数据库中,信息采集与解析是一个持续的 过程,形成对互联网站的自动连续监控;
[0008] ②互联网信息分析:首先利用自然语言处理技术的中文分词方法对网络文本的标 题和正文内容分别进行分词,并对分词结果中每个词项的词性进行标注,之后舍弃掉除名 词、动词、形容词之外的词项,然后利用文本多精度表示方法抽取网络文本的单个词项特征 和词项关联特征,再根据分词结果中的词性标注情况识别出网络文本中的地理位置特征和 人物特征,地理位置特征是网络文本中出现的地理位置名称、人物特征是网络文本中出现 的人物名称;
[0009] ③将步骤②处理后的网络文本中的词项与计算机数据库中设定的舆情类别的词 项特征进行比对匹配,并根据匹配结果将网络文本按照计算机数据库中设定的舆情类别进 行归类处理;将不能归类的网络文本进行聚类分析,把内容相近的网络文本聚成簇,若簇内 网络文本数量超出设定阈值,则对簇内网络文本进行舆情类别的词项特征抽处理,并将抽 取的舆情类别的词项特征补充到计算机数据库中;对于完成归类的网络文本转入步骤④; 其中,匹配内容包括单个词项特征、词项关联特征、地理位置特征和人物特征;
[0010] ④如果在指定时间段内,属于某一类别的网络文本的数量或者出现该类别网络文 本的网站数量超过指定的阈值,则启动应急预案;
[0011] 完成智能舆情突发事件的应急处理。
[0012] 其中,在步骤④之后还包括应急处理效果评估步骤:首先按照评估指标采集指标 数据,然后将指标数据输入评估公式得出量化评估结果。
[0013] 其中,在步骤③中根据匹配结果将网络文本按照计算机数据库中设定的舆情类别 进行归类处理具体为:网络文本类别判断的方法是将网络文本的词项与每个舆情类别的词 项特征进行比对匹配,分别在单个词特征、词关联特征、地理位置特征和人物特征四个方面 进行匹配运算,根据匹配情况得到网络文本与各个舆情类别的相似度值,将文本归属为相 似度值最高的舆情类别。
[0014] 其中,步骤③中对簇内网络文本进行舆情类别的词项特征抽处理,具体为:假设 簇T包含的网络文本有T= {tub,…tn},利用文本多精度表示方法抽取出每个文本心的 单个词项特征和词项关联特征,再采用统计方法计算出T中所有文本的所有单个词项特征 和词项关联特征的统计分布规律,选择在T中一半以上网络文本中出现过的词汇作为舆情 类别词项特征,并计算出其在T内的平均发生频率作为舆情类别特征词项的频率;其中, 1 < i < n〇
[0015] 其中,步骤④中应急预案的生成方法为:基于互联网舆情事件情景本体知识库模 型和网络舆情防控措施预案本体知识库,利用语义匹配技术根据舆情事件情景的具体情 况,从防控措施预案库中自动匹配出最适合的应急处理预案。
[0016] 与现有的技术相比,本发明具有以下的优点和有益效果:
[0017] 1、本发明不仅能够对网络舆情进行自动监控,还能够针对突发舆情事件给出防控 措施方案。
[0018] 2、本发明的舆情类型识别计算机数据库具有可扩展性,通过文本聚类分析不断补 充新型舆情类型特征到数据库中,使系统能够识别新增类型的舆情事件。
附图说明
[0019] 图1系统模块组成图
[0020] 图2舆情分类体系模型图
[0021]图3舆情分类体系概念属性模型图
[0022] 图4舆情分类体系示意图
[0023] 图5类别特征产生过程工作原理图
[0024] 图6语义匹配原理图
[0025] 图7基于网络文本聚类的知识扩展图
[0026] 图8舆情事件情景本体知识库图
[0027] 图9舆情防控措施预案本体知识库图
[0028] 图10网络舆情防控知识语义模型图
[0029] 图11基于语义的匹配方法图
[0030] 图12应急处理效果评估指标体系图
具体实施方式
[0031] 下面将结合附图和具体实施例对本发明做进一步说明。但本发明的实施方式不限 于此。
[0032] 本实施例提供一种智能的舆情突发事件应急处理系统,该系统包括互联网信息采 集与解析模块,互联网信息分析模块,网络文本类别判断与聚类分析模块,应急处理方案生 成模块,应急处理效果评估模块,如附图1所示;所述互联网信息采集与解析模块用于从互 联网上采集信息,抽取出网页中自然语言文字以及网页的元数据信息,并保存到数据库中; 所述互联网信息分析模块用于对采集来的信息中的自然语言文字进行特征抽取,形成文本 特征;所述网络文本类别判断与聚类分析模块用于对网络文本的类别进行判断,对累积网 络文本进行聚类分析;所述应急处理方案生成模块用于根据舆情事件的具体情况自动生成 相应的处理预案,决策人员可以基于处理预案制定执行方案;所述应急处理效果评估模块 用于对执行方案的执行效果进行评估。
[0033] 本实施例还提供一种智能的舆情突发事件应急处理系统的工作方法,该方法包括 以下步骤:
[0034] ①互联网信息采集与解析:由连接互联网的计算机从互联网论坛、博客、新闻网站 上采集论坛帖子、博客内容和网站新闻网页等网络数据,然后,利用计算机采用基于规则的 信息抽取技术自动地对网络数据进行解析,从其中抽取两类信息:自然语言文字信息和网 页的元数据信息。自然语言文字信息包括新闻标题、新闻正文、论坛帖子标题、帖子内容、作 者、发帖者等信息;网页的元数据信息包括发表时间、帖子回复量、帖子阅读量、出现的网站 名称、网站URL等,解析出来的关键信息保存到数据库中,信息采集与解析是一个持续的过 程,形成对互联网站的自动连续监控。
[0035] ②互联网信息分析:首先利用自然语言处理技术的中文分词方法对网络文本的标 题和正文内容进行分词和词性标注处理,标注出每个词项的词性,舍弃掉文本中除名词、动 词、形容词之外的词汇。然后利用已获得国家发明专利授权的"一种用于文本检索系统的文 本多精度表示方法"所述方法抽取网络文本的单个词特征和词关联特征。另外,根据分词结 果中的词性标注情况识别出文本中的地理位置特征和人物特征,地理位置特征是网络文本 中出现的地理位置名称、人物特征是网络文本中出现的人物名称,如附图5中的网络文本 语义特征抽取功能单元所示。总的来说网络文本的特征是一组词汇,配有其发生频率。
[0036] ③网络文本类别判断与聚类分析:其目的是基于网络文本的内容采用文本分类技 术判断网络文本的所属类别。所属类别是基于本体论事先建立起来的一个舆情分类体系模 型中的一种,舆情分类体系模型如附图2所示,它是一个层次化模型,第一层是大类,第二 层是小类,每个小类都由概念属性来定义,如附图3所示,有两个概念属性:类别语义特征 和防控策略。类别语义特征包括:
[0037] 单个词特征:类别语义特征抽取模块抽取出的网络文本的单个词特征;
[0038] 词关联特征:类别语义特征抽取模块抽取出的网络文本的多词关联特征;
[0039] 地理位置特征:类别语义特征抽取模块抽取出的网络文本中的地理位置名称;
[0040] 人物特征:类别语义特征抽取模块抽取出的网络文本中的人物名称;
[0041] 实例:该类型网络舆情的一个实例文本;
[0042] 类别判断准则。判断一批某类舆情相关的文本累积是否真的是一次舆情事件。例 如,IF出现舆情文本的网站数量大于nTHEN是一次舆情事件;IF舆情文本的回帖数量大于 nTHEN是一次舆情事件。
[0043] 防控策略包括防控原则和防控方法,防控原则是针对某类舆情事件开展防御和控 制的基本原则;防控方法是针对某类舆情采取的具体防控措施。
[0044] 图4是一个实际舆情分类体系的示意图。
[0045] 每一个类别都有其类别特征,为每个类别产生类别特征的方法如附图5所示:首 先采集各个类别的若干网络文本作为训练样本,利用自然语言处理技术的中文分词方法对 所有训练样本进行分词和词性标注处理,标注出每个词项的词性,舍弃掉文本中除名词、动 词、形容词之外的词汇;由网络文本语义特征抽取功能单元抽取每个文本的单个词特征、词 关联特征、地理位置特征和人物特征,再由类别语义特征抽取功能单元抽取类别语义特征; 具体方法是:利用计算机采用统计算法计算出每个文本的各个特征在每个类别内以及训练 样本全集的统计分布规律,选择在一半以上类别样本文档中出现过且不是训练样本全集内 所有样本所共有的词汇作为类别特征词,并计算出其类别内平均发生频率作为类别特征词 的频率。总的来说类别特征是一组代表类别特征的词汇,配有其平均发生频率。
[0046] 网络文本类别判断的方法是将网络文本的特征词项与每一个类别特征词项进行 比对匹配,如附图6所示,分别在单个词特征、词关联特征、地理位置特征和人物特征四个 方面进行匹配运算,并按照下面的公式计算相似度值,将文本归属为相似度值最高的类别。
[0047]
Figure CN104820629AD00071
[0048] 其中,
[0049] d表示待分类文档;
[0050] C表示类别;
[0051] coord(d,C)表示待识别文本d中包含类别C的类别特征词项的数量;
[0052]
Figure CN104820629AD00072
g示特征词项t在类别特征中的词频;
[0053] weight(t):表示特征词项t的权重;
[0054] frequency和weight值可以从建模过程中创建的类别特征词项表中获得,类别特 征词项表如表1所示。
[0055] 表1类别特征词项表
[0056]
Figure CN104820629AD00081
[0057]
Figure CN104820629AD00082
[0058] numofClasses:表示共有几个类别;
[0059] ClassFreq(t):表示特征项项t同时是几个类别的特征词项。
[0060] 如附图7所示,网络文本经过预处理功能单元处理后,获得文本分词结果并去除 停用词,再通过语义特征抽取模块得到其语义特征,利用网络文本类别判断功能单元判读 其是否为已知的n种网络舆情的一种,若是则将其归类,否则,将其转给网络文本聚类分析 功能单元进行分析,看其中是否有热点话题,对采集来到每一个网络文本都进行类别判 断,符合分类条件的网络文本被赋以相应的类别标签。如果在指定时间段内,属于某一类别 的网络文本的数量、出现该类别网络文本的网站数量超过指定的阈值,则向系统操作人员 发出告警,进而由应急处理方案生成模块给出应急处理方案。
[0061] 在上述网络文本类别判断过程中,会出现一些不属于现有舆情分类体系模型中的 任何一类的文本,随着时间的推移,未知类型文本会不断累积,对累积的未知类型文本进行 聚类分析,把内容相近的网络文本聚成簇,若簇内网络文本数量超出一定阈值,则将其作 为热点话题提交人工判读,如果确定其为新的舆情类别,则对其进行舆情类别语义特征抽 处理,并将抽取的类别语义特征补充到知识库中,具体过程如附图7所示;上述过程保证了 本系统的知识库的可扩展性,使得系统在补充知识后能够识别互联网上的新型舆情。
[0062] ④应急处理方案生成:是在舆情类型识别的基础上,针对识别出的舆情类型提供 应急处置预案,其特征是,利用本体论技术构建层次化的互联网舆情事件情景本体知识库 模型和网络舆情防控措施预案本体知识库模型。前者对舆情事件进行定性和定量的描述, 如附图8所示;后者将自然语言文字方式存在的舆情应急防控规章制度、处理规范、应对措 施进行数字化,如附图9所示。这样做的目的是将非格式化的信息转变为计算机可理解的 格式化信息。有了上述两个知识库模型的支撑,就可以基于计算机利用语义匹配技术自动 地实现舆情事件的自动识别,相应防范措施、处理方案的快速自动推理,处理预案的实时辅 助生成。情景本体知识库包括舆情、时间、网站、参与者、受众、潜在危害等知识概念。
[0063] 在互联网信息分析和网络文本类别判断步骤中识别出来的舆情事件的信息会被 抽取出来存储到舆情事件情景本体知识库中;舆情类别信息由网络文本类别判断步骤给 出,具体采用的是文本分类技术;舆情内容、时间发生时间、时间持续时间、网站名称、网站 数量、参与者用户名由互联网信息分析步骤给出的,采用的是基于规则的信息抽取技术;其 它信息如舆情等级、参与者IP地址等信息则根据先验知识进行填写。
[0064] 舆情防控措施预案本体知识库包括编制依据、适用范围、资源、防控措施四个方 面,其内容根据具体的法律法规内容进行填写。
[0065] 基于互联网舆情事件情景本体知识库和网络舆情防控措施预案本体知识库共同 构成了网络舆情防控知识语义模型,基于此模型,利用语义匹配技术生成应急预案,如附图 10所示。应急预案是指导处置各种舆情突发事件的方案和方法,而每个舆情事件的具体条 件、状况和参数各不相同,决策者需要根据具体情况从防控预案中选定适当的防控处置措 施、方法和实施步骤作为应急预案,并调配相应的组织机构和部门执行应急预案。为此,将 事件情景的"舆情类别"、"舆情内容"、"舆情等级"分别与预案本体的"适用事件类型"、"适 用事件内容"、"适用事件等级"相匹配,如附图11所示,从而发现与舆情事件相适合的应对 预案,如表2和表3所示。
[0066] 表2基于语义匹配生成的预案示例
[0067]
Figure CN104820629AD00091
[0068] 表3预案示例说明
[0069]
Figure CN104820629AD00092
[0070]
Figure CN104820629AD00101
[0071] 应对预案只是一个指导性的方案,需要再根据舆情的具体情况,例如,时间、网站、 参与者、受众、潜在危害等情况生成一个具体的执行方案。
[0072] ⑤应急处理效果评估:应急处理效果评估是基于评估指标体系和评估计算公式完 成的,评估指标体系包含了需要评估的事项,评估计算公式计算出量化评估结果;评估指标 体系如附图12所示,每个指标的详细描述如表4所示。
[0073] 表4应急处理效果评估指标体系
[0074]
Figure CN104820629AD00111
[0075]
Figure CN104820629AD00121
[0076] 舆情强度指标旨在衡量舆情在范围和形式上的情况。①舆情范围指的是舆情的广 度,由网站覆盖度、地区覆盖度、网站数量三个指标来衡量。网站覆盖度指的是包含舆情文 本的网站占样本网站的比重;样本网站是经过精心选取的,能在一定程度上代表整个网络 状态和水平的网站集合;由于各网站的规模级别不同,要对其进行加权处理,出现舆情文本 的样本网站越多,说明舆情的范围越广,当实施防控措施后,如果包含舆情文本的网站数量 出现减少的趋势说明防控措施发挥了作用。地区覆盖度指的是包含舆情文本的网站的地理 分布情况,出现舆情文本的网站分布越广,说明舆情的影响范围越广。网站数量指的是包含 舆情文本的网站的总数量,数量越多,说明舆情的影响范围越广。②舆情形式指的是舆情传 播的媒介渠道种类、所用网络文本的长短、网络文本的媒体种类。媒介渠道种类可以是BBS、 微博、博客、交友平台、电子邮件等,所用的渠道越多,则传播能力越强。所用网络文本的长 度越长,则传播能力越强。媒体种类可以是文本、音频、视频,所用媒体种类越多则舆情影响 越强。
[0077] 受众关注度指标旨在反映网络舆情对受众的影响力,通过受众情况、受众响应、受 众态度等指标来衡量。①受众情况指的是受舆情影响的受众数量和受众范围,受众数量通 过网络文本浏览者IP数量来测量,受众范围通过网络文本浏览者IP的分布地域广度来测 量。②受众响应指的是浏览者对网络文本的关注程度,通过阅读量、转发量、回帖量、活跃度 来衡量。阅读量通过网络文本的点击数量来测量,转发量通过网络文本在全互联网范围内 不同网站的出现次数来测量,回帖量通过网络文本回复数量来测量,活跃度通过单位时间 内对网络文本的回复数量来测量③受众态度指的是浏览者对网络文本所表达的观点的认 同度,通过正面态度回帖数量、中性态度回帖数量、负面态度回帖数量来衡量。
[0078] 该指标体系的各级指标的权重通过层次分析法计算得出,每一项指标均可量化计 算得出,指标的量化计算方法分为三种:指数计算、频率/密度计算和权重系数确定。
[0079] (1)指数计算
[0080] 指标体系中有定量指标和定性指标。定量指标包括阅读量、转发量、回帖量等指 标;定性指标包括视听化程度。为具有可比性,将定性指标与定量指标按归一化处理,这里 采用指数计算方法,具体采用Sigmoid函
Figure CN104820629AD00131
进行计算,其中x表示阅读量、转 发量、回帖量等。以受众响应为例,设对于网络文本i,网络文本的点击数量为xn,网络文本 在全互联网范围内不同网站的出现次数为x2i,网络文本回复数量为x3i,单位时间内对网络 文本的回复数量为x4i。设阅读量、转发量、回帖量、活跃度的权重是gl、g2、g3、g4,则网络 文本对受众响应的影响力PI为:
[0081] PI=f(xn)Xgj+f(x2i)Xg2+f(x3i)Xg3+f(x4i)Xg4
[0082] (2)频率计算
[0083] 活跃度是根据网民对网络文本的回复频率来衡量,以天、星期、月为统计时间单 位。
[0084] (3)权重系数确定
[0085] 根据专家经验利用层次分析法确定各种属性因素的权重系数。其主要特征是把复 杂的问题分解为若干个组成因素,将这些因素按从属关系分为层次结构;专家评比时只需 对各因素进行两两比较,确定同一层次中诸因素的相对重要性,然后综合专家的判断决定 各因素相对重要的顺序。用这种方法来决定各因素的加权系数比在很多因素中凭经验同时 定出加权系数更科学一些,因为人们只作两两比较时容易得出比较准确的判断。但在使用 这些方法时,为了保证效果,每一层次所包含的因素一般超过10个。进行两两对比时按9 分制进行,1代表相当,3是稍好,5是明显地好,7是十分好,9是极好。如介于上述二者之间 则用2、4、6或8分表示。根据两两对比打分结果构成评分矩阵,通过求矩阵的最大特征根 和特征向量即可计算出各因素相对于上一层目标的重要性或评价权重。如果要求计算各参 数对再上一层目标的重要性顺序或影响程度大小,可以将底层的各参数的权重逐一乘上与 其有关的上一层因素的权重,然后相加,这样各参数对再上一层的优劣顺序或加权系数就 计算出来了。
[0086] 量化评估结果的计算公式为,
[0087]
Figure CN104820629AD00132
[0088] 其中,化代表一级指标,舆情强度和受众关注度的分值,《 ,代表各自的权重。
[0089] 每一个一级指标则是由其下属的二级指标决定的,计算公式为
Figure CN104820629AD00133
1其 中,< 是第i个一级指标的第j项,其权重为类似地,每一个二级指标由其下属的三 级指标决定。

Claims (6)

1. 一种智能的舆情突发事件应急处理系统,其特征在于:该系统包括互联网信息采集 与解析模块、互联网信息分析模块、网络文本类别判断与聚类分析模块、应急处理方案生成 模块和应急处理效果评估模块;所述互联网信息采集与解析模块用于从互联网上采集信 息,抽取出网页中自然语言文字以及网页的元数据信息,并保存到数据库中;所述互联网信 息分析模块用于对采集来的信息中的自然语言文字进行特征抽取,形成文本特征;所述网 络文本类别判断与聚类分析模块用于对网络文本的类别进行判断,对累积网络文本进行聚 类分析;所述应急处理方案生成模块用于根据舆情事件的具体情况自动生成相应的处理预 案,决策人员可以基于处理预案制定执行方案;所述应急处理效果评估模块用于对执行方 案的执行效果进行评估。
2. -种智能的舆情突发事件应急处理方法,其特征在于包括以下步骤: ① 互联网信息采集与解析:由连接互联网的计算机从互联网上采集网络文本;然后, 计算机采用基于规则的信息抽取技术自动地对网络文本进行解析,从其中抽取两类信息: 自然语言文字信息和网页的元数据信息; ② 互联网信息分析:首先利用自然语言处理技术的中文分词方法对网络文本的标题和 正文内容分别进行分词,并对分词结果中每个词项的词性进行标注,之后舍弃掉除名词、动 词、形容词之外的词项,然后利用文本多精度表示方法抽取网络文本的单个词项特征和词 项关联特征,再根据分词结果中的词性标注情况识别出网络文本中的地理位置特征和人物 特征; ③ 将步骤②处理后的网络文本中的词项与计算机数据库中设定的舆情类别的词项特 征进行比对匹配,并根据匹配结果将网络文本按照计算机数据库中设定的舆情类别进行归 类处理;将不能归类的网络文本进行聚类分析,把内容相近的网络文本聚成簇,若簇内网 络文本数量超出设定阈值,则对簇内网络文本进行舆情类别的词项特征抽处理,并将抽取 的舆情类别的词项特征补充到计算机数据库中;对于完成归类的网络文本转入步骤④;其 中,匹配内容包括单个词项特征、词项关联特征、地理位置特征和人物特征; ④ 如果在指定时间段内,属于某一类别的网络文本的数量或者出现该类别网络文本的 网站数量超过指定的阈值,则启动应急预案; 完成智能舆情突发事件的应急处理。
3. 根据权利要求2所述的一种智能的舆情突发事件应急处理方法,其特征在于:在步 骤④之后还包括应急处理效果评估步骤:首先按照评估指标采集指标数据,然后将指标数 据输入评估公式得出量化评估结果。
4. 根据权利要求2所述的一种智能的舆情突发事件应急处理方法,其特征在于:在步 骤③中根据匹配结果将网络文本按照计算机数据库中设定的舆情类别进行归类处理具体 为:网络文本类别判断的方法是将网络文本的词项与每个舆情类别的词项特征进行比对匹 配,分别在单个词特征、词关联特征、地理位置特征和人物特征四个方面进行匹配运算,根 据匹配情况得到网络文本与各个舆情类别的相似度值,将文本归属为相似度值最高的舆情 类别。
5. 根据权利要求2所述的一种智能的舆情突发事件应急处理方法,其特征在于:步骤 ③中对簇内网络文本进行舆情类别的词项特征抽处理,具体为:假设簇T包含的网络文本 有T=It1,t2,…tn},利用文本多精度表示方法抽取出每个文本&的单个词项特征和词项 关联特征,再采用统计方法计算出T中所有文本的所有单个词项特征和词项关联特征的统 计分布规律,选择在T中一半以上网络文本中出现过的词汇作为舆情类别词项特征,并计 算出其在T内的平均发生频率作为舆情类别特征词项的频率;其中,I<i<n。
6.根据权利要求2所述的一种智能的舆情突发事件应急处理方法,其特征在于:步骤 ④中应急预案的生成方法为:基于互联网舆情事件情景本体知识库模型和网络舆情防控措 施预案本体知识库,利用语义匹配技术根据舆情事件情景的具体情况,从防控措施预案库 中自动匹配出最适合的应急处理预案。
CN201510243751.0A 2015-05-14 2015-05-14 一种智能的舆情突发事件应急处理系统及方法 Active CN104820629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510243751.0A CN104820629B (zh) 2015-05-14 2015-05-14 一种智能的舆情突发事件应急处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510243751.0A CN104820629B (zh) 2015-05-14 2015-05-14 一种智能的舆情突发事件应急处理系统及方法

Publications (2)

Publication Number Publication Date
CN104820629A true CN104820629A (zh) 2015-08-05
CN104820629B CN104820629B (zh) 2018-01-30

Family

ID=53730930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510243751.0A Active CN104820629B (zh) 2015-05-14 2015-05-14 一种智能的舆情突发事件应急处理系统及方法

Country Status (1)

Country Link
CN (1) CN104820629B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956740A (zh) * 2016-04-19 2016-09-21 北京深度时代科技有限公司 一种基于文本逻辑特征的语义风险计算方法
CN106202561A (zh) * 2016-07-29 2016-12-07 北京联创众升科技有限公司 基于文本大数据的数字化应急管理案例库构建方法及装置
CN106294619A (zh) * 2016-08-01 2017-01-04 上海交通大学 舆情智能监管方法
CN107193796A (zh) * 2016-03-14 2017-09-22 北大方正集团有限公司 一种舆情事件检测方法及装置
CN107239452A (zh) * 2016-03-28 2017-10-10 腾讯科技(深圳)有限公司 一种策略调整的方法及装置
CN107274324A (zh) * 2017-06-06 2017-10-20 张黎明 一种基于云服务进行突发事件风险评估的方法
CN107491438A (zh) * 2017-08-25 2017-12-19 前海梧桐(深圳)数据有限公司 基于自然语言的企业决策要素提取方法及其系统
CN107590196A (zh) * 2017-08-15 2018-01-16 中国农业大学 一种社交网络中地震应急信息筛选评价方法及系统
CN107622354A (zh) * 2017-09-29 2018-01-23 中国科学技术大学 一种基于区间二元语义的突发事件应急能力评估方法
CN107741929A (zh) * 2017-10-18 2018-02-27 网智天元科技集团股份有限公司 舆情分析方法及装置
CN108108902A (zh) * 2017-12-26 2018-06-01 阿里巴巴集团控股有限公司 一种风险事件告警方法和装置
CN108255832A (zh) * 2016-12-28 2018-07-06 航天信息股份有限公司 舆情处理系统及方法
CN110868383A (zh) * 2018-12-24 2020-03-06 北京安天网络安全技术有限公司 一种网站风险评估方法、装置、电子设备及存储介质
CN112069381A (zh) * 2020-09-27 2020-12-11 中国科学院深圳先进技术研究院 一种基于自然语言处理技术的监控管理方法及系统
WO2021136453A1 (zh) * 2019-12-31 2021-07-08 清华大学 应急预案辅助信息获取方法、装置及设备
CN113433994A (zh) * 2021-07-20 2021-09-24 青岛一云数联科技有限公司 一种感知和监控能源事件的系统及方法
CN113468320A (zh) * 2021-07-22 2021-10-01 中国地震台网中心 地震应急信息快速可视化方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101436194A (zh) * 2008-11-04 2009-05-20 中国电子科技集团公司第五十四研究所 一种基于数据挖掘技术的文本多精度表示方法
CN101819573A (zh) * 2009-09-15 2010-09-01 电子科技大学 一种自适应的网络舆情识别方法
CN102509164A (zh) * 2011-11-24 2012-06-20 广州市地下铁道总公司 一种数字应急预案自动生成方法
CN103150335A (zh) * 2013-01-25 2013-06-12 河南理工大学 一种基于联合聚类的煤矿舆情监测系统
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN104573016A (zh) * 2015-01-12 2015-04-29 武汉泰迪智慧科技有限公司 一种基于行业的垂直舆情分析系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101436194A (zh) * 2008-11-04 2009-05-20 中国电子科技集团公司第五十四研究所 一种基于数据挖掘技术的文本多精度表示方法
CN101819573A (zh) * 2009-09-15 2010-09-01 电子科技大学 一种自适应的网络舆情识别方法
CN102509164A (zh) * 2011-11-24 2012-06-20 广州市地下铁道总公司 一种数字应急预案自动生成方法
CN103150335A (zh) * 2013-01-25 2013-06-12 河南理工大学 一种基于联合聚类的煤矿舆情监测系统
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN104573016A (zh) * 2015-01-12 2015-04-29 武汉泰迪智慧科技有限公司 一种基于行业的垂直舆情分析系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马力: "基于Web2.0的政府网络舆情信息管理模型研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193796A (zh) * 2016-03-14 2017-09-22 北大方正集团有限公司 一种舆情事件检测方法及装置
CN107193796B (zh) * 2016-03-14 2021-12-24 北大方正集团有限公司 一种舆情事件检测方法及装置
CN107239452A (zh) * 2016-03-28 2017-10-10 腾讯科技(深圳)有限公司 一种策略调整的方法及装置
CN105956740A (zh) * 2016-04-19 2016-09-21 北京深度时代科技有限公司 一种基于文本逻辑特征的语义风险计算方法
CN105956740B (zh) * 2016-04-19 2019-12-31 北京深度时代科技有限公司 一种基于文本逻辑特征的语义风险计算方法
CN106202561B (zh) * 2016-07-29 2019-10-01 北京联创众升科技有限公司 基于文本大数据的数字化应急管理案例库构建方法及装置
CN106202561A (zh) * 2016-07-29 2016-12-07 北京联创众升科技有限公司 基于文本大数据的数字化应急管理案例库构建方法及装置
CN106294619A (zh) * 2016-08-01 2017-01-04 上海交通大学 舆情智能监管方法
CN108255832A (zh) * 2016-12-28 2018-07-06 航天信息股份有限公司 舆情处理系统及方法
CN107274324A (zh) * 2017-06-06 2017-10-20 张黎明 一种基于云服务进行突发事件风险评估的方法
CN107590196A (zh) * 2017-08-15 2018-01-16 中国农业大学 一种社交网络中地震应急信息筛选评价方法及系统
CN107491438A (zh) * 2017-08-25 2017-12-19 前海梧桐(深圳)数据有限公司 基于自然语言的企业决策要素提取方法及其系统
CN107622354B (zh) * 2017-09-29 2020-06-26 中国科学技术大学 一种基于区间二元语义的突发事件应急能力评估方法
CN107622354A (zh) * 2017-09-29 2018-01-23 中国科学技术大学 一种基于区间二元语义的突发事件应急能力评估方法
CN107741929A (zh) * 2017-10-18 2018-02-27 网智天元科技集团股份有限公司 舆情分析方法及装置
CN108108902A (zh) * 2017-12-26 2018-06-01 阿里巴巴集团控股有限公司 一种风险事件告警方法和装置
CN108108902B (zh) * 2017-12-26 2021-06-29 创新先进技术有限公司 一种风险事件告警方法和装置
CN110868383A (zh) * 2018-12-24 2020-03-06 北京安天网络安全技术有限公司 一种网站风险评估方法、装置、电子设备及存储介质
WO2021136453A1 (zh) * 2019-12-31 2021-07-08 清华大学 应急预案辅助信息获取方法、装置及设备
CN112069381A (zh) * 2020-09-27 2020-12-11 中国科学院深圳先进技术研究院 一种基于自然语言处理技术的监控管理方法及系统
CN113433994A (zh) * 2021-07-20 2021-09-24 青岛一云数联科技有限公司 一种感知和监控能源事件的系统及方法
CN113468320A (zh) * 2021-07-22 2021-10-01 中国地震台网中心 地震应急信息快速可视化方法及系统

Also Published As

Publication number Publication date
CN104820629B (zh) 2018-01-30

Similar Documents

Publication Publication Date Title
CN104820629A (zh) 一种智能的舆情突发事件应急处理系统及方法
CN107515873B (zh) 一种垃圾信息识别方法及设备
Rubin et al. Veracity roadmap: Is big data objective, truthful and credible?
Jiang et al. Public-opinion sentiment analysis for large hydro projects
CN106991085B (zh) 一种实体的简称生成方法及装置
CN106611375A (zh) 一种基于文本分析的信用风险评估方法及装置
CN102591854B (zh) 针对文本特征的广告过滤系统及其过滤方法
CN103399891A (zh) 网络内容自动推荐方法、装置和系统
CN103793503A (zh) 一种基于web文本的观点挖掘与分类的方法
CN106598944A (zh) 一种民航安保舆情情感分析方法
Kaschesky et al. Opinion mining in social media: modeling, simulating, and visualizing political opinion formation in the web
CN108052505A (zh) 文本情感分析方法及装置、存储介质、终端
Nagar et al. Using text and data mining techniques to extract stock market sentiment from live news streams
CN111914087A (zh) 一种舆情分析方法
Samonte et al. Sentence-level sarcasm detection in English and Filipino tweets
CN104794209A (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
CN111079029A (zh) 敏感账号的检测方法、存储介质和计算机设备
Wegrzyn-Wolska et al. Tweets mining for French presidential election
Samonte Polarity analysis of editorial articles towards fake news detection
CN110955776A (zh) 一种政务文本分类模型的构建方法
CN112419029B (zh) 类金融机构风险监控方法、风险模拟系统及存储介质
TW201640383A (zh) 網路事件自動蒐集分析方法及系統
CN110674840B (zh) 一种多方证据关联模型构建方法和证据链提取方法及装置
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN111767404A (zh) 一种事件挖掘方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant