CN106202561B - 基于文本大数据的数字化应急管理案例库构建方法及装置 - Google Patents
基于文本大数据的数字化应急管理案例库构建方法及装置 Download PDFInfo
- Publication number
- CN106202561B CN106202561B CN201610615416.3A CN201610615416A CN106202561B CN 106202561 B CN106202561 B CN 106202561B CN 201610615416 A CN201610615416 A CN 201610615416A CN 106202561 B CN106202561 B CN 106202561B
- Authority
- CN
- China
- Prior art keywords
- data
- emergency event
- text
- event
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于文本大数据处理的数字化应急管理案例库构建方法及装置,其中方法包括:定期采集数据,对采集到的数据进行预处理,得到中文文本分词结果;基于中文文本分词结果,根据设定的突发事件领域关键词词表,通过数据清洗,实现突发事件相关数据的识别,并进行分类,得到突发事件分类结果;基于突发事件分类结果,进行专题事件的识别与跟踪;利用信息抽取方法,对突发事件识别与跟踪的专题数据进行结构化信息描述,得到针对各类突发事件案例库。本发明能对突发事件相关的数据进行自动采集,自动实现突发事件的二级分类;能自动进行专题事件识别与跟踪,及通过案例表示对指定突发事件相关数据进行分析与信息提取,形成突发事件案例表示。
Description
技术领域
本发明涉及计算机技术应用领域,尤其涉及基于文本大数据的数字化应急管理案例库构建方法及装置。
背景技术
突发事件的应对过程可以分为预防与应急准备、监测与预警、应急处置与救援和事后恢复与重建四个阶段。但是由于突发事件的爆发性强且复杂易变等特点,很难做到有效全面的预防与预警,所以只有在应急处置与救援过程中及时做出有效的应急响应决策,才能控制事件的发展局势。考虑到应急预案的针对性和操作性有限,可以对历史的突发事件进行整理形成典型的案例,进而应急人员可以借鉴典型案例进行决策的辅助支持。
然而,在案例的整理和应用过程中,也遇到的一些系列问题,例如数据的全面性和真实性以及分析的准确性和智能性有待于进一步提高;文本化的突发事件案例没有统一的编制标准,案例的检索与匹配准确度不高。为此迫切需要一种技术手段能够有效解决上述问题,通过结构化数字化的突发事件案例表示,能够实现案例的精确检索与匹配,能够为突发事件的应对过程提供决策支持。
发明内容
鉴于上述的分析,本发明旨在提供一种基于文本大数据处理的数字化应急管理案例库构建方法,用以解决现有文本化突发事件案例应用局限性的问题。
本发明的目的主要是通过以下技术方案实现的:
本发明提供了一种基于文本大数据处理的数字化应急管理案例库构建方法,包括:
定期采集数据,并对采集到的数据进行预处理,得到中文文本分词结果;
基于所述中文文本分词结果,根据预先设定的突发事件领域关键词词表,识别突发事件相关数据并进行分类,得到突发事件分类结果;
基于所述突发事件分类结果,进行专题事件的识别与跟踪;
利用信息抽取方法,对突发事件识别与跟踪的专题数据进行结构化信息描述,得到针对各类突发事件的案例库。
进一步地,所述采集数据的步骤具体包括:
基于开源爬虫框架WebMagic,通过互联网采集数据并进行解析,并从中抽取网络数据的关键信息进行保存,所述关键信息至少包括标题、正文、发布时间、来源网站名称、URL地址中的一个或多个。
进一步地,所述预处理的步骤具体包括:
利用Word分词开源组件中的WordSegmenter方法对数据的标题和正文进行中文文本分词,并移除停用词,得到数据标题的中文分词结果和数据正文的中文分词结果;
利用Word分词开源组件中的PartOfSpeechTagging方法对数据标题的中文分词结果和数据正文的中文分词结果进行词性标注,得到数据标题和正文的词性标注结果,同时,根据词性标注的结果,得到数据标题和正文中命名实体的识别结果。
进一步地,所述数据清洗的步骤具体包括:
构建原始的突发事件领域关键词词表;
基于已构建的突发事件领域关键词词表,按照是否与突发事件相关,对采集到的数据进行筛选,如果词表中的某一个或几个关键词在数据的标题或正文中出现,则将该数据标记为与突发事件相关的数据并保存,否则为突发事件非相关数据。
进一步地,还包括:
针对得到的突发事件相关数据,首先通过局部敏感哈希算法得到突发事件相关数据的哈希签名,然后分析所述突发事件相关数据与已存在突发事件相关数据的哈希签名中取值不同的数量,得到两个数据之间的海明距离;
如果所述海明距离小于预定值,则认为该数据为相似数据。
进一步的,基于Mallet机器学习软件包中的朴素贝叶斯文本分类算法,构建二级分类器,对突发事件数据进行分类,具体规则为:
将突发事件的类型进行编码,表示为Cmn的形式,其中m对应于突发事件类型的一级类别,n对应于突发事件的二级类别。
进一步地,所述专题事件的识别与跟踪的步骤具体包括:
针对待分析数据以及数据预处理得到的分词和词性标注结果,提取标题和正文中的名词和动词以及实体信息,作为数据的文本特征,计算得到每个特征词的TFIDF权值;同时,按照各词项的属性,为标题、正文、实体信息设置不同的加权因子,形成加权的特征权值;
基于所述特征权值,计算待分析数据与已识别专题事件的相似度;
如果相似度超过系统设置的突发事件识别阈值,则将该数据添加到对应的专题事件中,否则将该数据定义为新的专题事件。
进一步地,利用信息抽取方法,采用基于框架的知识表示方法,从基本信息、事件背景、事件属性、事件过程和反应评价五个方面对专题事件进行描述。
本发明还提供了一种基于文本大数据处理的数字化应急管理案例库构建装置,包括:
数据采集模块,用于定期采集数据并发送给数据预处理模块;
数据预处理模块,用于对采集到的数据进行预处理,得到中文文本分词结果;
数据清洗模块,用于基于所述中文文本分词结果,根据预先设定的突发事件领域关键词词表,识别突发事件相关数据;
分类模块,用于对识别出的突发事件相关数据进行分类,得到突发事件分类结果;
识别跟踪模块,用于基于所述突发事件分类结果,进行专题事件的识别与跟踪;
案例表示模块,用于利用信息抽取方法,对突发事件识别与跟踪的专题数据进行结构化信息描述,得到针对各类突发事件的案例库。
进一步地,所述数据采集模块具体用于,基于开源爬虫框架WebMagic,通过互联网采集数据并进行解析,并从中抽取网络数据的关键信息进行保存,所述关键信息至少包括标题、正文、发布时间、来源网站名称、URL地址中的一个或多个。
进一步地,所述预处理模块具体用于,利用Word分词开源组件中的WordSegmenter方法对数据的标题和正文进行中文文本分词,并移除停用词,得到数据标题的中文分词结果和数据正文的中文分词结果;以及,利用Word分词开源组件中的PartOfSpeechTagging方法对数据标题的中文分词结果和数据正文的中文分词结果进行词性标注,得到数据标题和正文的词性标注结果,同时,根据词性标注的结果,得到数据标题和正文中命名实体的识别结果。
进一步地,所述数据清洗模块具体用于,构建原始的突发事件领域关键词词表;基于已构建的突发事件领域关键词词表,按照是否与突发事件相关,对采集到的数据进行筛选,如果词表中的某一个或几个关键词在数据的标题或正文中出现,则将该数据标记为与突发事件相关的数据并保存,否则为突发事件非相关数据。
进一步地,所述数据清洗模块还用于,针对得到的突发事件相关数据,首先通过局部敏感哈希算法得到突发事件相关数据的哈希签名,然后分析所述突发事件相关数据与已存在突发事件相关数据的哈希签名中取值不同的数量,得到两个数据之间的海明距离;如果所述海明距离小于预定值,则认为该数据为相似数据。
进一步地,所述分类模块具体用于,基于Mallet机器学习软件包中的朴素贝叶斯文本分类算法,构建二级分类器,对突发事件数据进行分类,具体规则为:
将突发事件的类型进行编码,表示为Cmn的形式,其中m对应于突发事件类型的一级类别,n对应于突发事件的二级类别。
进一步地,所述识别跟踪模块具体用于,针对待分析数据以及数据预处理得到的分词和词性标注结果,提取标题和正文中的名词和动词以及实体信息,作为数据的文本特征,计算得到每个特征词的TFIDF权值;同时,按照各词项的属性,为标题、正文、实体信息设置不同的加权因子,形成加权的特征权值;基于所述特征权值,计算待分析数据与已识别专题事件的相似度;如果相似度超过系统设置的突发事件识别阈值,则将该数据添加到对应的专题事件中,否则将该数据定义为新的专题事件。
本发明有益效果如下:
本发明不仅能够对突发事件相关的数据进行自动采集,还能够自动实现突发事件的二级分类,便于数据的管理与分析研究。基于数据分类结果,本发明通过数据挖掘聚类方法能够自动进行专题事件识别与跟踪,便于突发事件的研究与统计分析。基于突发事件识别与跟踪结果,本发明通过案例表示对指定突发事件的相关数据进行分析与信息提取,形成数字化的突发事件案例表示,便于案例分析与辅助决策。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例所述方法的流程示意图;
图2为数据采集流程示意图;
图3为数据清洗流程示意图;
图4突发事件识别与跟踪流程示意图;
图5为本发明实施例所述装置的结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。
首先,结合附图1到4对本发明实施例所述方法进行详细说明。
步骤101:定期采集数据
数据的来源包括了互联网数据、业务系统数据和人工整理数据。对于业务系统数据和人工整理数据,则通过格式转换,进行统一的数据规范元数据处理,存储到数据库系统中。其中,业务系统数据主要指的是与突发事件有关的第三方系统收集存储的数据,人工整理数据主要指的是人工整理的电子文档或纸质资料。
数据采集流程如图2所示,通过数据抓取技术,系统自动采集互联网数据并保存,具体规则为:基于开源爬虫框架WebMagic,通过计算机连接互联网,从新闻网站、论坛、微博、微信公众号等来源采集数据并进行解析,并从中抽取网络数据的标题、正文、发布时间、来源网站名称、URL地址(统一资源定位符)等关键信息保存在数据库中。
步骤102:数据预处理
基于自然语言理解的中文文本分词技术,利用Word分词开源组件对步骤101采集到的数据标题和正文进行中文分词处理,同时进行各分词词项的词性标注,并识别出文本中出现的人名、地名和机构名等命名实体信息,具体规则为:
1)利用Word分词开源组件中的WordSegmenter方法对数据的标题和正文进行中文文本分词,并移除停用词,得到数据标题的中文分词结果和数据正文的中文分词结果,其中基于Word分词开源组件提供的功能,停用词词库和用户词库可根据需要进行自定义配置。
2)利用Word分词开源组件中的PartOfSpeechTagging方法对数据标题的中文分词结果和数据正文的中文分词结果进行词性标注,得到数据标题和正文的词性标注结果,同时,根据词性标注的结果,得到数据标题和正文中人名、地名、机构名等命名实体的识别结果。
步骤103:数据清洗
利用步骤102数据预处理得到的中文文本分词结果,按照系统预先设定的突发事件领域关键词词表,对数据库中数据进行过滤筛选,识别出突发事件相关数据。其具体流程如图3所示。
首先,构建原始的突发事件领域关键词词表,具体规则为:按照国家规定的突发事件事件类型分类标准,每个类型都包含了三级子类,并对每个子类进行了详细的描述,根据该描述内容,可以提取出每个子类所对应的类型关键词,作为突发事件领域的关键词,同时,根据专家经验进行部分关键词的补充完善。此外,在实施过程中,根据系统的准确性以及突发事件数据的积累,可不断优化突发事件领域关键词词表。
然后,基于已构建的突发事件领域关键词词表,按照是否与突发事件相关,对采集到的数据进行筛选,具体规则为:针对突发事件领域的关键词词表,如果词表中的某一个或几个关键词在数据的标题或正文中出现,则将该数据标记为与突发事件相关的数据并保存,否则为突发事件非相关数据。定期对相关数据和非相关数据的划分结果进行监督和错误数据修正,并利用错误数据的修正记录对突发事件关键词词表进行完善。
另外,在存储过程中为避免数据冗余对系统性能产生影响,针对数据筛选的结果,采用局部敏感哈希和汉明距离方法进行重复数据清洗,具体规则为:针对数据清洗得到的突发事件相关数据及其相应的预处理结果,首先通过局部敏感哈希算法得到数据的哈希签名,然后分析待研究数据与已存在数据的哈希签名中取值不同的数量,得到两个数据之间的海明距离。如果海明距离小于系统预设值,则认为将数据为相似数据,系统只显示发布时间最早的数据。根据经验,该系统预设值通常设置为3。
步骤104:突发事件数据分类
针对步骤103数据清洗得到的突发事件相关数据,参照国家规定的突发事件事件类型的分类标准,对突发事件相关数据进行分类。
具体来说就是,基于Mallet机器学习软件包中的朴素贝叶斯文本分类算法,构建二级分类器,对突发事件数据进行分类,具体规则为:
a)训练集的构建。按照国家规定的突发事件事件类型的分类标准,为充分利用数据并避免训练集的重复构建,优先构建二级分类器的训练集,针对每一个二级分类构建一个突发事件训练集;然后,按照二级分类与一级分类的对应关系,将二级分类训练集进行整理形成一级分类的训练集。
b)分类器的训练。在训练过程中,按照由下往上的顺序,优先实现二级分类器的训练,并对训练集进行优化;然后,对一级分类器进行训练及训练集的优化。
c)分类器的应用。在应用过程中,对于待分类的数据,则是按照由上往下的顺序,首先实现突发事件数据的一级分类,然后再进行二级分类。
为方便突发事件类别表示与后期研究,将突发事件的类型进行编码,表示为Cmn的形式,其中m对应于突发事件类型的一级类别,n对应于突发事件的二级类别。
为保证系统的稳定性和适应性,人工对机器学习的错误数据进行修订,并基于系统中已存在的历史数据,定期对训练集及分类器进行优化测试和完善。
步骤105:突发事件识别与跟踪
针对步骤104得到的突发事件数据分类结果,从突发事件专题事件的角度出发,对数据进行整理,实施流程如图4所示。其中,突发事件专题事件库的起始状态为空,为此,先将相应类型的数据分类结果中的第一条数据标记为突发事件,实现事件库的初始化,然后再利用数据挖掘聚类算法实现突发事件的识别与跟踪。
利用数据挖掘聚类算法实现突发事件识别与跟踪,具体规则为:
1)特征提取及权值。针对已分类数据Dj,结合该数据在步骤102数据预处理中得到的分词和词性标注结果,分别提取标题和正文中的名词和动词以及地名、人名、机构名等实体信息,作为数据的文本特征,并计算不同特征词Wk的TFIDF权值ωk(Dj)。同时,根据各特征词项的位置,为标题和正文设置不同的位置加权因子α1,根据词性标注,为地名、人名、机构名设置不同的词性加权因子α2,最终形成加权的TFIDF权值ω′k(Dj):
ω′k(Dj)=α1×α2×ωk(Dj)
其中,nj,k表示特征词Wk在数据Dj中出现的次数。∑knj,k是数据Dj中所有字词出现的次数之和。|D|为数据总量,|{i:Wk∈Di}|为包含特征词Wk的数据数量。
其中,根据经验,按照标题和正文,位置加权因子α1的取值分别为0.8和0.2,根据地名、人名、机构名以及其他词性,词性加权因子α2的取值分别为0.6、0.1、0.2和0.1。
2)相似度的计算。基于已分类数据Dj的特征词及对应权值,计算数据Dj与对应突发事件类型Cmn中的已识别专题事件Ei的余弦相似度Vde。
其中,ω′k(Dj)为数据Dj的第k个特征的权值,ω′k(Ei)为事件Ei中所有数据的第k个特征的平均权值,l表示聚类特征的个数。
3)相似度的判别。如果Vde的大小超过系统设置的阈值θde,则将该数据Dj添加到专题事件Ei中,否则,将该数据Dj定义为新的专题事件Ek。根据经验,阈值θde的大小设置为0.8。
步骤106:突发事件案例表示
通过步骤105将数据按照不同的专题事件进行了整理。每一件专题事件对应一个数据集合,信息离散分布在各数据中,进而导致这些数据难以直接应用于突发事件案例研究与决策支持,为此需要对这些数据进行再次整理与信息提取,参照表1所示的要素实现突发事件案例表示。
表1突发事件案例表示要素
通过上述过程得到了各突发事件案例表示,利用该案例集合,基于数据库索引技术,可以实现案例检索,得到满足检索需求的突发事件案例,有助于案例分析对比与辅助参考,便于制定有效的应急措施,进而可以减少突发事件带来的损失。其中,可设置的待检索信息包括了地点、事件类型、时间以及其他的检索关键字等。
接下来结合附图5对本发明实施例所述装置进行详细说明。
如图5所示,图5为本发明实施例所述装置的结构示意图,具体可以包括:数据采集模块、数据预处理模块、数据清洗模块、分类模块、识别跟踪模块以及案例表示模块,其中,
数据采集模块,用于定期采集数据并发送给数据预处理模块;
具体的说就是,数据采集模块基于开源爬虫框架WebMagic,通过互联网采集数据并进行解析,并从中抽取网络数据的关键信息进行保存,所述关键信息至少包括标题、正文、发布时间、来源网站名称、URL地址中的一个或多个。
数据预处理模块,用于对采集到的数据进行预处理,得到中文文本分词结果;
具体的说就是,数据预处理模块利用Word分词开源组件中的WordSegmenter方法对数据的标题和正文进行中文文本分词,并移除停用词,得到数据标题的中文分词结果和数据正文的中文分词结果;以及,利用Word分词开源组件中的PartOfSpeechTagging方法对数据标题的中文分词结果和数据正文的中文分词结果进行词性标注,得到数据标题和正文的词性标注结果,同时,根据词性标注的结果,得到数据标题和正文中命名实体的识别结果。
数据清洗模块,用于基于所述中文文本分词结果,根据预先设定的突发事件领域关键词词表,识别突发事件相关数据;
具体的说就是,数据清洗模块构建原始的突发事件领域关键词词表;基于已构建的突发事件领域关键词词表,按照是否与突发事件相关,对采集到的数据进行筛选,如果词表中的某一个或几个关键词在数据的标题或正文中出现,则将该数据标记为与突发事件相关的数据并保存,否则为突发事件非相关数据。
作为本发明的优选实施例,数据清洗模块还针对得到的突发事件相关数据,通过局部敏感哈希算法得到突发事件相关数据的哈希签名,然后分析所述突发事件相关数据与已存在突发事件相关数据的哈希签名中取值不同的数量,得到两个数据之间的海明距离;如果所述海明距离小于预定值,则认为该数据为相似数据。
分类模块,用于对识别出的突发事件相关数据进行分类,得到突发事件分类结果;
具体的说就是,分类模块基于Mallet机器学习软件包中的朴素贝叶斯文本分类算法,构建二级分类器,对突发事件数据进行分类,具体规则为:
将突发事件的类型进行编码,表示为Cmn的形式,其中m对应于突发事件类型的一级类别,n对应于突发事件的二级类别。
识别跟踪模块,用于基于所述突发事件分类结果,进行专题事件的识别与跟踪;
具体的说就是,所述识别跟踪模块针对待分析数据以及数据预处理得到的分词和词性标注结果,提取标题和正文中的名词和动词以及实体信息,作为数据的文本特征,计算得到每个特征词的TFIDF权值;同时,按照各词项的属性,为标题、正文、实体信息设置不同的加权因子,形成加权的特征权值;基于所述特征权值,计算待分析数据与已识别专题事件的相似度;如果相似度超过系统设置的突发事件识别阈值,则将该数据添加到对应的专题事件中,否则将该数据定义为新的专题事件。
案例表示模块,用于利用信息抽取方法,对突发事件识别与跟踪的专题数据进行结构化信息描述,得到针对各类突发事件的案例库。
对于本发明实施例所述装置的具体实现过程,由于上述方法中已有详细说明,故此处不再赘述。
综上所述,本发明实施例提供了一种基于文本大数据处理的数字化应急管理案例库构建方法,该方法通过信息自动采集,保证网络实时数据的获取,并通过数据清洗,确保突发事件相关数据识别的及时性和准确性,避免了非相关数据带来的信息干扰和处理压力。通过专题事件的数据整理及突发事件案例表示,形成了特定突发事件数据信息的结构化数字化存储,从而能够进行高效精准的应急管理案例的检索,方便进行决策支持应用的研究与开发。系统将信息采集与突发事件案例表示过程中的相关模块组合在一起,便于系统自动信息处理的管理。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于文本大数据处理的数字化应急管理案例库构建方法,其特征在于,包括:
定期采集数据,并对采集到的数据进行预处理,得到中文文本分词结果;所述数据的来源包括互联网数据、业务系统数据和人工整理数据;业务系统数据,指的是与突发事件有关的第三方系统收集存储的数据;人工整理数据,指的是人工整理的电子文档或纸质资料;
基于所述中文文本分词结果,根据预先设定的突发事件领域关键词词表进行数据清洗,识别突发事件相关数据并进行分类,得到突发事件分类结果;
基于所述突发事件分类结果,进行专题事件的识别与跟踪;
利用信息抽取方法,采用基于框架的知识表示方法,对突发事件识别与跟踪的专题数据进行结构化信息描述,从基本信息、事件背景、事件属性、事件过程和反应评价五个方面对专题事件进行描述,得到针对各类突发事件的案例库;
上述数据清洗以识别突发事件相关数据的步骤具体包括:
构建原始的突发事件领域关键词词表;
基于已构建的突发事件领域关键词词表,按照是否与突发事件相关,对采集到的数据进行筛选,如果词表中的某一个或几个关键词在数据的标题或正文中出现,则将该数据标记为与突发事件相关的数据并保存,否则为突发事件非相关数据;
定期对相关数据和非相关数据的划分结果进行监督和错误数据修正,并利用错误数据的修正记录对突发事件关键词词表进行完善;
上述基于所述突发事件分类结果,进行专题事件的识别与跟踪的步骤具体包括:
针对已分类数据Dj以及数据预处理得到的分词和词性标注结果,提取标题和正文中的名词和动词以及实体信息,作为数据的文本特征,计算得到每个特征词的词频-逆文档频率,即TFIDF权值ωk(Dj)
式中,nj,k表示特征词Wk在已分类数据Dj中出现的次数,∑knj,k是已分类数据Dj中所有字词出现的次数之和,|D|为已分类数据总量,|{i:Wk∈Di}|为包含特征词Wk的数据数量;
按照各特征词项的属性,为标题和正文设置不同的位置加权因子α1,根据词性标注,为地名、人名、机构名设置不同的词性加权因子α2,最终形成加权的TFIDF权值ω′k(Dj)
ω′k(Dj)=α1×α2×ωk(Dj)
基于已分类数据Dj的特征词及对应权值,计算已分类数据Dj与对应突发事件类型Cmn中的已识别专题事件Ei的余弦相似度Vde
式中,ω′k(Dj)为数据Dj的第k个特征的权值,ω′k(Ei)为事件Ei中所有数据的第k个特征的平均权值,l表示聚类特征的个数;
如果所述余弦相似度超过系统设置的突发事件识别阈值,则将该数据添加到对应的专题事件中,否则将该数据定义为新的专题事件。
2.根据权利要求1所述的方法,其特征在于,所述采集数据的步骤具体包括:
基于开源爬虫框架WebMagic,通过互联网采集数据并进行解析,并从中抽取网络数据的关键信息进行保存,所述关键信息至少包括标题、正文、发布时间、来源网站名称、URL地址中的一个或多个。
3.根据权利要求1所述的方法,其特征在于,所述预处理的步骤具体包括:
利用Word分词开源组件中的WordSegmenter方法对数据的标题和正文进行中文文本分词,并移除停用词,得到数据标题的中文分词结果和数据正文的中文分词结果;
利用Word分词开源组件中的PartOfSpeechTagging方法对数据标题的中文分词结果和数据正文的中文分词结果进行词性标注,得到数据标题和正文的词性标注结果,同时,根据词性标注的结果,得到数据标题和正文中命名实体的识别结果。
4.根据权利要求1所述的方法,其特征在于,还包括:
针对得到的突发事件相关数据,首先通过局部敏感哈希算法得到突发事件相关数据的哈希签名,然后分析所述突发事件相关数据与已存在突发事件相关数据的哈希签名中取值不同的数量,得到两个数据之间的海明距离;
如果所述海明距离小于预定值,则认为该数据为相似数据; 如果所述海明距离大于预定值,则认为该数据为不相似数据。
5.根据权利要求1所述的方法,其特征在于,
基于Mallet机器学习软件包中的朴素贝叶斯文本分类算法,构建二级分类器,对突发事件数据进行分类,具体规则为:
将突发事件的类型进行编码,表示为Cmn的形式,其中m对应于突发事件类型的一级类别,n对应于突发事件的二级类别。
6.一种基于文本大数据处理的数字化应急管理案例库构建装置,其特征在于,包括:
数据采集模块,用于定期采集数据并发送给数据预处理模块;所述数据的来源包括互联网数据、业务系统数据和人工整理数据;业务系统数据,指的是与突发事件有关的第三方系统收集存储的数据;人工整理数据,指的是人工整理的电子文档或纸质资料;
数据预处理模块,用于对采集到的数据进行预处理,得到中文文本分词结果;
数据清洗模块,用于基于所述中文文本分词结果,根据预先设定的突发事件领域关键词词表,识别突发事件相关数据;所述数据清洗模块具体用于:构建原始的突发事件领域关键词词表;基于已构建的突发事件领域关键词词表,按照是否与突发事件相关,对采集到的数据进行筛选,如果词表中的某一个或几个关键词在数据的标题或正文中出现,则将该数据标记为与突发事件相关的数据并保存,否则为突发事件非相关数据;定期对相关数据和非相关数据的划分结果进行监督和错误数据修正,并利用错误数据的修正记录对突发事件关键词词表进行完善;
分类模块,用于对识别出的突发事件相关数据进行分类,得到突发事件分类结果;
识别跟踪模块,用于基于所述突发事件分类结果,进行专题事件的识别与跟踪;所述基于所述突发事件分类结果进行专题事件的识别与跟踪,执行如下步骤:
针对已分类数据Dj以及数据预处理得到的分词和词性标注结果,提取标题和正文中的名词和动词以及实体信息,作为数据的文本特征,计算得到每个特征词的词频-逆文档频率,即TFIDF权值ωk(Dj)
式中,nj,k表示特征词Wk在已分类数据Dj中出现的次数,∑knj,k是已分类数据Dj中所有字词出现的次数之和,|D|为已分类数据总量,|{i:Wk∈Di}|为包含特征词Wk的数据数量;
按照各特征词项的属性,为标题和正文设置不同的位置加权因子α1,根据词性标注,为地名、人名、机构名设置不同的词性加权因子α2,最终形成加权的TFIDF权值ω′k(Dj)
ω′k(Dj)=α1×α2×ωk(Dj)
基于已分类数据Dj的特征词及对应权值,计算已分类数据Dj与对应突发事件类型Cmn中的已识别专题事件Ei的余弦相似度Vde
式中,ω′k(Dj)为数据Dj的第k个特征的权值,ω′k(Ei)为事件Ei中所有数据的第k个特征的平均权值,l表示聚类特征的个数;
如果所述余弦相似度超过系统设置的突发事件识别阈值,则将该数据添加到对应的专题事件中,否则将该数据定义为新的专题事件;
案例表示模块,用于利用信息抽取方法,采用基于框架的知识表示方法,对突发事件识别与跟踪的专题数据进行结构化信息描述,从基本信息、事件背景、事件属性、事件过程和反应评价五个方面对专题事件进行描述,得到针对各类突发事件的案例库。
7.根据权利要求6所述的装置,其特征在于,所述数据采集模块具体用于,基于开源爬虫框架WebMagic,通过互联网采集数据并进行解析,并从中抽取网络数据的关键信息进行保存,所述关键信息至少包括标题、正文、发布时间、来源网站名称、URL地址中的一个或多个。
8.根据权利要求6所述的装置,其特征在于,所述预处理模块具体用于,利用Word分词开源组件中的WordSegmenter方法对数据的标题和正文进行中文文本分词,并移除停用词,得到数据标题的中文分词结果和数据正文的中文分词结果;以及,利用Word分词开源组件中的PartOfSpeechTagging方法对数据标题的中文分词结果和数据正文的中文分词结果进行词性标注,得到数据标题和正文的词性标注结果,同时,根据词性标注的结果,得到数据标题和正文中命名实体的识别结果。
9.根据权利要求6所述的装置,其特征在于,所述数据清洗模块还用于,针对得到的突发事件相关数据,首先通过局部敏感哈希算法得到突发事件相关数据的哈希签名,然后分析所述突发事件相关数据与已存在突发事件相关数据的哈希签名中取值不同的数量,得到两个数据之间的海明距离;如果所述海明距离小于预定值,则认为该数据为相似数据。
10.根据权利要求6所述的装置,其特征在于,所述分类模块具体用于,基于Mallet机器学习软件包中的朴素贝叶斯文本分类算法,构建二级分类器,对突发事件数据进行分类,具体规则为:
将突发事件的类型进行编码,表示为Cmn的形式,其中m对应于突发事件类型的一级类别,n对应于突发事件的二级类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610615416.3A CN106202561B (zh) | 2016-07-29 | 2016-07-29 | 基于文本大数据的数字化应急管理案例库构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610615416.3A CN106202561B (zh) | 2016-07-29 | 2016-07-29 | 基于文本大数据的数字化应急管理案例库构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106202561A CN106202561A (zh) | 2016-12-07 |
CN106202561B true CN106202561B (zh) | 2019-10-01 |
Family
ID=57497561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610615416.3A Active CN106202561B (zh) | 2016-07-29 | 2016-07-29 | 基于文本大数据的数字化应急管理案例库构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202561B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255802B (zh) * | 2016-12-29 | 2021-08-24 | 北京国双科技有限公司 | 通用文本解析架构及基于所述架构解析文本的方法和装置 |
CN108829656B (zh) * | 2017-05-03 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 网络信息的数据处理方法及数据处理装置 |
CN107977670A (zh) * | 2017-10-09 | 2018-05-01 | 中国电子科技集团公司第二十八研究所 | 决策树和贝叶斯算法的突发事件分类分级方法、装置及系统 |
CN107977399B (zh) * | 2017-10-09 | 2021-11-30 | 北京知道未来信息技术有限公司 | 一种基于机器学习的英文邮件签名提取方法及系统 |
CN107844609A (zh) * | 2017-12-14 | 2018-03-27 | 武汉理工大学 | 一种基于文体和词表的突发事件信息抽取方法及系统 |
CN108345586B (zh) * | 2018-02-09 | 2021-04-02 | 重庆电信系统集成有限公司 | 一种文本去重方法及系统 |
CN108665141B (zh) * | 2018-04-03 | 2022-03-22 | 山东科技大学 | 一种从突发事件预案中自动抽取应急响应流程模型的方法 |
CN108737423B (zh) * | 2018-05-24 | 2020-07-14 | 国家计算机网络与信息安全管理中心 | 基于网页关键内容相似性分析的钓鱼网站发现方法及系统 |
CN108846117A (zh) * | 2018-06-26 | 2018-11-20 | 北京金堤科技有限公司 | 商业快讯的去重筛选方法及装置 |
CN109522404A (zh) * | 2018-08-30 | 2019-03-26 | 电子科技大学 | 一种基于nlp的专利自动识别分类的方法 |
CN109359829A (zh) * | 2018-09-26 | 2019-02-19 | 全球能源互联网研究院有限公司 | 基于历史大数据的电力突发事件辅助决策方法及系统 |
CN111078867A (zh) * | 2018-10-19 | 2020-04-28 | 北京国双科技有限公司 | 一种文本分类方法及装置 |
CN109492100B (zh) * | 2018-10-31 | 2021-07-30 | 武汉雨滴科技有限公司 | 一种非结构信息处理与资源管理系统 |
CN109598664A (zh) * | 2018-11-21 | 2019-04-09 | 北京域天科技有限公司 | 一种应急处置支持系统 |
CN109597926A (zh) * | 2018-12-03 | 2019-04-09 | 山东建筑大学 | 一种基于社交媒体突发事件的信息获取方法及系统 |
CN110502553A (zh) * | 2019-08-22 | 2019-11-26 | 武汉东湖大数据交易中心股份有限公司 | 一种基于大数据的辅助决策方法 |
CN111026885B (zh) * | 2019-12-23 | 2023-09-01 | 公安部第三研究所 | 一种基于文本语料的涉恐事件实体属性抽取系统及方法 |
CN111324657B (zh) * | 2020-02-12 | 2023-09-08 | 奥格科技股份有限公司 | 应急预案内容优化方法和计算机设备 |
CN112016936A (zh) * | 2020-08-13 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 一种欺诈案例的串并方法、装置及设备 |
CN112069814A (zh) * | 2020-09-01 | 2020-12-11 | 应急管理部沈阳消防研究所 | 一种基于深度学习的消防预案分类方法 |
CN112613317B (zh) * | 2020-12-30 | 2023-12-08 | 中国农业银行股份有限公司 | 一种文本数据清洗方法及装置 |
CN113379185A (zh) * | 2021-04-28 | 2021-09-10 | 广东广宇科技发展有限公司 | 工程事件真实性判断方法、系统及存储介质 |
CN113254640A (zh) * | 2021-05-27 | 2021-08-13 | 北京宝兰德软件股份有限公司 | 一种工单数据的处理方法、装置、电子设备及存储介质 |
CN114357130A (zh) * | 2021-12-08 | 2022-04-15 | 中核武汉核电运行技术股份有限公司 | 一种基于机器学习的核电厂低级别事件自动趋势分析方法 |
CN115080752B (zh) * | 2022-08-18 | 2022-12-02 | 湖南大学 | 基于特征领域知识自动获取的数值特征发现方法及系统 |
CN116578673B (zh) * | 2023-07-03 | 2024-02-09 | 北京凌霄文苑教育科技有限公司 | 数字经济领域基于语言逻辑学的文本特征检索方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663122A (zh) * | 2012-04-20 | 2012-09-12 | 北京邮电大学 | 基于突发事件本体的语义查询扩展算法 |
CN103246728A (zh) * | 2013-05-10 | 2013-08-14 | 北京大学 | 一种基于文档词汇特征变化的突发事件检测方法 |
CN104573006A (zh) * | 2015-01-08 | 2015-04-29 | 南通大学 | 一种公共卫生突发事件领域知识库的构建方法 |
CN104820629A (zh) * | 2015-05-14 | 2015-08-05 | 中国电子科技集团公司第五十四研究所 | 一种智能的舆情突发事件应急处理系统及方法 |
-
2016
- 2016-07-29 CN CN201610615416.3A patent/CN106202561B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663122A (zh) * | 2012-04-20 | 2012-09-12 | 北京邮电大学 | 基于突发事件本体的语义查询扩展算法 |
CN103246728A (zh) * | 2013-05-10 | 2013-08-14 | 北京大学 | 一种基于文档词汇特征变化的突发事件检测方法 |
CN104573006A (zh) * | 2015-01-08 | 2015-04-29 | 南通大学 | 一种公共卫生突发事件领域知识库的构建方法 |
CN104820629A (zh) * | 2015-05-14 | 2015-08-05 | 中国电子科技集团公司第五十四研究所 | 一种智能的舆情突发事件应急处理系统及方法 |
Non-Patent Citations (3)
Title |
---|
基于情景划分的突发事件应急响应策略库构建方法;陈祖琴等;《国防情报工作》;20141031;第58卷(第19期);104-110 * |
基于案例推理的突发环境事件应急管理案例库构建技术研究;张茉莉等;《环境工程技术学报》;20150930;第5卷(第5期);386-392 * |
突发事件案例表示方法;黄超等;《清华大学学报(自然科学版)》;20140228;第54卷(第12期);149-152 * |
Also Published As
Publication number | Publication date |
---|---|
CN106202561A (zh) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202561B (zh) | 基于文本大数据的数字化应急管理案例库构建方法及装置 | |
CN111897970B (zh) | 基于知识图谱的文本比对方法、装置、设备及存储介质 | |
TWI438637B (zh) | 用於擷取及管理社群智慧資訊的系統及方法 | |
EP2041669B1 (en) | Text categorization using external knowledge | |
Liang et al. | Decision tree for dynamic and uncertain data streams | |
CN102184262A (zh) | 基于web的文本分类挖掘系统及方法 | |
KR20150049541A (ko) | 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법 | |
CN105335352A (zh) | 基于微博情感的实体识别方法 | |
CN109657058A (zh) | 一种公告信息的抽取方法 | |
CN110263169A (zh) | 一种基于卷积神经网络和关键词聚类的热点事件检测方法 | |
Bolaj et al. | Text classification for Marathi documents using supervised learning methods | |
CN115048464A (zh) | 用户操作行为数据的检测方法、装置及电子设备 | |
Loynes et al. | The detection and location estimation of disasters using Twitter and the identification of Non-Governmental Organisations using crowdsourcing | |
CN112328792A (zh) | 一种基于dbscan聚类算法识别信用事件的优化方法 | |
Yang et al. | News topic detection based on capsule semantic graph | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
Seker et al. | Author attribution on streaming data | |
Joshi et al. | Location identification, extraction and disambiguation using machine learning in legal contracts | |
Aliyu et al. | Analysis of cyber bullying on Facebook using text mining | |
CN114238735B (zh) | 一种互联网数据智能采集方法 | |
Kannao et al. | Story segmentation in TV news broadcast | |
Salza et al. | A'Glocal'Approach for Real-time Emergency Event Detection in Twitter. | |
CN109597879A (zh) | 一种基于“引文关系”数据的业务行为关系抽取方法及装置 | |
Vanetik et al. | Real-World Events Discovering with TWIST | |
Kalita et al. | Detection of Natural Calamities from Assamese Posts in Social Media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |