CN113868381A - 一种煤矿瓦斯爆炸事故信息抽取方法及系统 - Google Patents
一种煤矿瓦斯爆炸事故信息抽取方法及系统 Download PDFInfo
- Publication number
- CN113868381A CN113868381A CN202111384622.5A CN202111384622A CN113868381A CN 113868381 A CN113868381 A CN 113868381A CN 202111384622 A CN202111384622 A CN 202111384622A CN 113868381 A CN113868381 A CN 113868381A
- Authority
- CN
- China
- Prior art keywords
- accident
- information
- information extraction
- target event
- coal mine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请属于数据处理技术领域,具体涉及一种煤矿瓦斯爆炸事故信息抽取方法及系统。所述方法包括以下步骤:基于煤矿瓦斯爆炸事故的事故案例报告集合,构建煤矿瓦斯爆炸事故的事故信息的抽取规则库;其中,事故案例报告集合包含多个煤矿瓦斯爆炸事故的事故案例报告,抽取规则库中包含多个不同的事故信息抽取规则,多个不同的事故信息抽取规则分别与多个不同的事故信息相对应;基于抽取规则库中的事故信息抽取规则,根据预先获取的目标事件的事故文本,抽取目标事件的所述事故信息。本申请是借助于规则模式的信息抽取技术,为解决煤矿瓦斯爆炸事故分析效率提供了全新方案,也为预防瓦斯爆炸事故提供了强有力的数据支撑和最准确的切入点。
Description
技术领域
本申请属于数据处理技术领域,具体涉及一种煤矿瓦斯爆炸事故信息抽取方法及系统。
背景技术
研究如何预防瓦斯爆炸事故对煤矿安全生产具有重要的意义,其中,事故案例致因分析是预防瓦斯爆炸事故的基础。目前,案例致因分析多由人工阅读的方式对文本中描述的致因信息进行识别,该方式费时费力,而且获取的结果会受个人心理和主观性多方面的影响。
近年来,自然语言处理技术成为了文本分析的热门。信息抽取是自然语言处理研究领域的重要组成部分,主要研究内容为从文本中提取特定描述信息。利用信息抽取技术获取关键文本信息已在医学、突发事件等多领域得到应用,但在煤矿事故致因分析方面尚无实例研究。
基于机器学习的统计抽取、基于自然语言理解抽取、基于规则模式抽取是从文本中实现信息抽取的三类主要技术方法。然而,基于机器学习的统计抽取方法常用于分类和预测研究,侧重于研究文本关键词的分布,抽取结果准确性有待商榷;基于自然语言理解的信息抽取方法技术复杂,不适合广泛信息的抽取;基于规则模式的信息抽取虽然对抽取文本的领域和格式具有严格的要求,规则库构建困难。
因此,需要提供一种针对上述现有技术不足的改进技术方案。
发明内容
本申请的目的在于提供一种煤矿瓦斯爆炸事故信息抽取方法及系统,以解决或缓解上述现有技术中存在的问题。
为了实现上述目的,本申请提供如下技术方案:
一种煤矿瓦斯爆炸事故信息抽取方法,所述方法包括以下步骤:
步骤S10,基于煤矿瓦斯爆炸事故的事故案例报告集合,构建所述煤矿瓦斯爆炸事故的事故信息的抽取规则库;
其中,所述事故案例报告集合包含多个所述煤矿瓦斯爆炸事故的事故案例报告,所述抽取规则库中包含多个不同的事故信息抽取规则,多个不同的所述事故信息抽取规则分别与多个不同的所述事故信息相对应;
步骤S20,基于所述抽取规则库中的所述事故信息抽取规则,根据预先获取的目标事件的事故文本,抽取所述目标事件的所述事故信息。
如上所述的煤矿瓦斯爆炸事故信息抽取方法,可选地,所述事故信息的抽取规则库包括:事故基本信息抽取规则和事故致因信息抽取规则;
对应的,步骤S10具体为:
基于多个所述煤矿瓦斯爆炸事故的事故案例报告中的第一关键词和第二关键词,分别对应构建所述煤矿爆炸事故的事故基本信息抽取规则和事故致因信息抽取规则;
对应的,步骤S20具体为:
根据预先获取的所述目标事件的事故文本,分别基于所述煤矿爆炸事故的事故基本信息抽取规则和事故致因信息抽取规则,对应抽取所述目标事件的事故基本信息和事故致因信息。
如上所述的煤矿瓦斯爆炸事故信息抽取方法,可选地,所述第一关键词包括:时间关键词、地点关键词、矿井瓦斯等级关键词、伤亡人数关键词;
对应的,步骤S10具体为:
分别基于多个所述煤矿瓦斯爆炸事故的事故案例报告中的所述时间关键词、地点关键词、矿井瓦斯等级关键词、伤亡人数关键词中,分别构建所述煤矿爆炸事故对应的所述事故发生时间信息抽取规则、事故发生地点信息抽取规则、事故矿井瓦斯等级信息抽取规则、事故伤亡人数信息抽取规则;
对应的,步骤S20具体为:
分别基于所述事故发生时间信息抽取规则、所述事故发生地点信息抽取规则、所述事故矿井瓦斯等级信息抽取规则、所述事故伤亡人数信息抽取规则,根据预先获取的所述目标事件的事故文本,分别抽取所述目标事件对应的所述目标事件的事故发生时间信息、事故发生地点信息、事故矿井瓦斯等级信息、事故伤亡人数信息。
如上所述的煤矿瓦斯爆炸事故信息抽取方法,可选地,在步骤S20中,所述分别基于所述事故发生时间信息抽取规则、所述事故发生地点信息抽取规则、所述事故矿井瓦斯等级信息抽取规则、所述事故伤亡人数信息抽取规则,根据预先获取的所述目标事件的事故文本,分别抽取所述目标事件对应的所述目标事件的事故发生时间信息、事故发生地点信息、事故矿井瓦斯等级信息、事故伤亡人数信息,具体为:
分别基于所述事故发生时间信息抽取规则、所述事故发生地点信息抽取规则、所述事故矿井瓦斯等级信息抽取规则、所述事故伤亡人数信息抽取规则,对预先获取的所述目标事件的事故文本进行规则匹配,对应得到所述目标事件的事故发生时间信息、事故发生地点信息、事故矿井瓦斯等级信息、事故伤亡人数信息。
如上所述的煤矿瓦斯爆炸事故信息抽取方法,可选地,所述第二关键词为事故致因关键词;
对应的,步骤S20包括:
基于所述事故致因信息抽取规则,对预先获取的目标事件的事故文本的关键语句进行抽取,得到事故致因关键语句;
对所述事故致因关键语句进行分词处理,并将分词结果与预设的事故致因词典进行匹配,获取所述目标事件的事故致因信息。
如上所述的煤矿瓦斯爆炸事故信息抽取方法,可选地,所述事故致因信息包括不安全行为、不安全物态和安全知识不足,所述事故致因词典包括行为词典、物态词典和安全知识词典,其中,所述行为词典表征引起煤矿爆炸事故的不安全行为,所述物态词典表征引起煤矿爆炸事故的的不安全物态,所述安全知识词典表征预防所述煤矿爆炸事故的安全知识;
对应的,所述对所述事故致因关键语句进行分词处理,并将分词结果与事故致因词典进行匹配,获取所述目标事件的事故致因信息,包括:
对所述事故致因关键语句进行分词处理,将所述分词结果分别与所述行为词典和所述物态词典进行匹配,获取所述目标事件的不安全行为和不安全物态;
将获取的不安全行为和不安全物态分别与所述安全知识词典进行匹配,得到所述目标事件的安全知识不足。
如上所述的煤矿瓦斯爆炸事故信息抽取方法,可选地,在步骤S20中,所述基于所述抽取规则库中的所述事故信息抽取规则,根据预先获取的目标事件的事故文本,抽取所述目标事件的所述事故信息包括:
对预先获取的所述目标事件的事故文本进行段落划分,得到所述目标事件的事故文本的段落划分结果;其中,所述段落划分结果为将所述目标事件的事故文本分为首段段落、矿井概括段落、事故过程段落、事故原因分析段落和责任者的处理建议段落;
根据所述段落划分结果,基于所述抽取规则库中的所述事故信息抽取规则,抽取所述目标事件的事故信息。
如上所述的煤矿瓦斯爆炸事故信息抽取方法,可选地,所述对预先获取的所述目标事件的事故文本进行段落划分,得到所述目标事件的事故文本的段落划分结果,具体为:
对转换为预设文件格式的所述目标事件的事故文本进行段落划分,得到所述目标事件的事故文本的段落划分结果。
如上所述的煤矿瓦斯爆炸事故信息抽取方法,可选地,步骤S20之后,还包括:
步骤S30,利用Pyecharts工具对抽取的所述目标事件的事故信息进行可视化处理,对抽取的所述目标事件的事故信息进行可视化展示。
本申请还提出了一种煤矿瓦斯爆炸事故信息抽取系统,包括:
构建单元,配置为基于煤矿瓦斯爆炸事故的事故案例报告集合,构建所述煤矿瓦斯爆炸事故的事故信息的抽取规则库;
其中,所述事故案例报告集合包含多个所述煤矿瓦斯爆炸事故的事故案例报告,所述抽取规则库中包含多个不同的事故信息抽取规则,多个不同的所述事故信息抽取规则分别与多个不同的所述事故信息相对应;
抽取单元,配置为基于所述抽取规则库中的所述事故信息抽取规则,根据预先获取的目标事件的事故文本,抽取所述目标事件的所述事故信息。
与最接近的现有技术相比,本申请实施例的技术方案具有如下有益效果:
本申请提供的技术方案中,首先基于煤矿瓦斯爆炸事故的事故案例报告集合,构建煤矿瓦斯爆炸事故的事故信息的抽取规则库,其中,事故案例报告集合包含多个煤矿瓦斯爆炸事故的事故案例报告,抽取规则库中包含多个不同的事故信息抽取规则,多个不同的事故信息抽取规则分别与多个不同的事故信息相对应;然后基于抽取规则库中的事故信息抽取规则,根据预先获取的目标事件的事故文本,抽取目标事件的事故信息。如此,便可实现目标煤矿瓦斯爆炸事故的事故信息的自动抽取。可以理解,本申请是借助于规则模式的信息抽取技术,为解决煤矿瓦斯爆炸事故分析效率提供了全新方案,也为预防瓦斯爆炸事故提供了强有力的数据支撑和最准确的切入点。并且,本申请的方法可以有效提升煤矿瓦斯爆炸事故信息的抽取速度和准确率,有效节省了人力资源,促进了煤矿企业的管理优化。
此外,将本申请基于信息抽取技术的事故信息抽取结果与事故案例报告原文及人工分析结果进行对比,对比结果显示:相较于事故案例报告原文,本申请信息抽取整理的事故信息更具有逻辑性;本申请与人工分析结果对比契合度较高,能够覆盖人工分析结果的90%。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。其中:
图1为根据本申请的一些实施例提供的煤矿瓦斯爆炸事故信息抽取方法的步骤流程示意图;
图2为根据本申请的一些实施例提供的抽取信息结构组成示意图;
图3为根据本申请的一些实施例提供的事故案例文本分块处理的展示图;
图4为根据本申请的一些实施例提供的事故发生时间信息和伤亡人数信息抽取展示图;
图5为根据本申请的一些实施例提供的事故致因分析信息抽取中的关键词语句抽取展示图;
图6为根据本申请的一些实施例提供的事故致因信息抽取过程中的关键词语句分词展示图;
图7为根据本申请的另一些实施例提供的煤矿瓦斯爆炸事故信息抽取方法的步骤流程示意图;
图8为根据本申请的一些实施例提供的事故致因信息抽取过程中Python-Pandas工具处理后的抽取结果打印图;
图9为根据本申请的一些实施例提供的事故致因信息抽取过程中Excel文档导出结果图;
图10为根据本申请的一些实施例提供的事故致因信息抽取过程中可视化Html文档导出示意图;
图11为根据本申请的一些实施例提供的事故致因信息的可视化Tree图;
图12为根据本申请的一些实施例提供的煤矿瓦斯爆炸事故信息抽取系统的功能框图;
图13为根据本申请的一些实施例提供的事故致因信息抽取软件的可视化界面示意图。
图中:101-构建单元;102-抽取单元;103-可视化单元。
具体实施方式
下面将对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
下面将结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1为根据本申请的一些实施例提供的煤矿瓦斯爆炸事故信息抽取方法的流程示意图,如图1所示,本申请实施例中,煤矿瓦斯爆炸事故信息抽取方法包括以下步骤:
步骤S10,基于煤矿瓦斯爆炸事故的事故案例报告集合,构建煤矿瓦斯爆炸事故的事故信息的抽取规则库;
其中,事故案例报告集合包含多个事故案例报告,抽取规则库中包含多个不同的事故信息抽取规则,多个不同的事故信息抽取规则分别与多个不同的事故信息相对应;
步骤S20,基于抽取规则库中的事故信息抽取规则,根据预先获取的目标事件的事故文本,抽取目标事件的事故信息。
需要说明的是,目标事件指的是要待抽取事故信息的煤矿瓦斯爆炸事故。
煤矿瓦斯爆炸事故的事故案例报告可通过互联网、案例报告集、研究文献等进行收集,本申请在构建煤矿瓦斯爆炸事故的事故信息的抽取规则库时,将事故案例报告文本的格式统一为Txt格式,这样可方便于抽取规则库的构建。比如,将PDF、Word、Txt等文本格式的事故案例报告统一为Txt格式。
本申请的煤矿瓦斯爆炸事故信息抽取方法,首先基于煤矿瓦斯爆炸事故的事故案例报告集合,构建煤矿瓦斯爆炸事故的事故信息的抽取规则库,其中,事故案例报告集合包含多个煤矿瓦斯爆炸事故的事故案例报告,抽取规则库中包含多个不同的事故信息抽取规则,多个不同的事故信息抽取规则分别与多个不同的事故信息相对应;然后基于抽取规则库中的事故信息抽取规则,根据预先获取的煤矿瓦斯爆炸事故的事故文本,抽取目标事件的事故信息。如此,便可实现目标煤矿瓦斯爆炸事故信息的自动抽取。可以理解,本申请是借助于规则模式的信息抽取技术,为解决煤矿瓦斯爆炸事故分析效率提供了全新方案,也为预防瓦斯爆炸事故提供了强有力的数据支撑和最准确的切入点。并且,本申请的方法可以有效提升煤矿瓦斯爆炸事故信息的抽取速度和准确率,有效节省了人力资源,促进了煤矿企业的管理优化。
此外,将本申请基于信息抽取技术的事故信息抽取结果与事故案例报告原文及人工分析结果进行对比,对比结果显示:相较于事故案例报告原文,本申请信息抽取整理的事故信息更具有逻辑性;本申请与人工分析结果对比契合度较高,能够覆盖人工分析结果的90%。
图2为根据本申请的一些实施例提供的抽取信息结构组成示意图,如图2所示,本申请实施例中,事故信息包括事故基本信息和事故致因信息,其中,事故基本信息包括时间、地点、矿井瓦斯等级和伤亡人数,事故致因分析信息包括不安全行为(如越界开采、超层开采、以掘代采等)、不安全物态(如无瓦斯监控系统、工作面风量不足、瓦斯超限等)和安全知识不足(以掘代采存在的风险、一炮三检的重要性、超层开采的危害等)。
基于此,本申请实施例中,事故信息的抽取规则库包括:事故基本信息抽取规则和事故致因信息抽取规则;
对应的,步骤S10具体为:
基于多个所述煤矿瓦斯爆炸事故的事故案例报告中的第一关键词和第二关键词,分别对应构建所述煤矿爆炸事故的事故基本信息抽取规则和事故致因信息抽取规则;
对应的,步骤S20具体为:
根据预先获取的所述目标事件的事故文本,分别基于所述煤矿爆炸事故的事故基本信息抽取规则和事故致因信息抽取规则,对应抽取所述目标事件的事故基本信息和事故致因信息。
本申请的可选实施例中,步骤S10中,第一关键词包括:时间关键词、地点关键词、矿井瓦斯等级关键词、伤亡人数关键词;
对应的,步骤S10具体为:
分别基于多个所述煤矿瓦斯爆炸事故的事故案例报告中的所述时间关键词、地点关键词、矿井瓦斯等级关键词、伤亡人数关键词,分别构建所述煤矿爆炸事故对应的所述事故发生时间信息抽取规则、事故发生地点信息抽取规则、事故矿井瓦斯等级信息抽取规则、事故伤亡人数信息抽取规则;
对应的,步骤S20具体为:
分别基于所述事故发生时间信息抽取规则、所述事故发生地点信息抽取规则、所述事故矿井瓦斯等级信息抽取规则、所述事故伤亡人数信息抽取规则,根据预先获取的所述目标事件的事故文本,分别抽取所述目标事件对应的所述目标事件的事故发生时间信息、事故发生地点信息、事故矿井瓦斯等级信息、事故伤亡人数信息。
进一步地,在步骤S20中,所述分别基于所述事故发生时间信息抽取规则、所述事故发生地点信息抽取规则、所述事故矿井瓦斯等级信息抽取规则、所述事故伤亡人数信息抽取规则,根据预先获取的所述目标事件的事故文本,分别抽取所述目标事件对应的所述目标事件的事故发生时间信息、事故发生地点信息、事故矿井瓦斯等级信息、事故伤亡人数信息,具体为:
分别基于所述事故发生时间信息抽取规则、所述事故发生地点信息抽取规则、所述事故矿井瓦斯等级信息抽取规则、所述事故伤亡人数信息抽取规则,对预先获取的所述目标事件的事故文本进行规则匹配,对应得到所述目标事件的事故发生时间信息、事故发生地点信息、事故矿井瓦斯等级信息、事故伤亡人数信息。
一篇事故文本通常包括首段段落、矿井概括段落、事故过程段落、事故原因分析段落和责任者的处理建议段落几部分,基于该特点,为了简化目标事件的事故文本,以提升事故信息抽取的效果和效率,本申请可选实施例中,在步骤S20中,所述基于所述抽取规则库中的所述事故信息抽取规则,根据预先获取的目标事件的事故文本,抽取所述目标事件的所述事故信息包括:
对预先获取的所述目标事件的事故文本进行段落划分,得到所述目标事件的事故文本的段落划分结果;其中,所述段落划分结果为将所述目标事件的事故文本分为首段段落、矿井概括段落、事故过程段落、事故原因分析段落和责任者的处理建议段落;
根据所述段落划分结果,基于所述抽取规则库中的所述事故信息抽取规则,抽取所述目标事件的事故信息。
本申请对目标事件的事故文本进行分块处理,有助于降低计算机分析处理时的文本粒度,从而提高抽取效率。
本申请具体实施例中,以XXX煤业公司重大瓦斯爆炸事故案例进行文本分块处理展示,如图3所示。
进一步地,所述对预先获取的所述目标事件的事故文本进行段落划分,得到所述目标事件的事故文本的段落划分结果,具体为:
对转换为预设文件格式的所述目标事件的事故文本进行段落划分,得到所述目标事件的事故文本的段落划分结果。
本申请实施例中,预设文本格式为Txt格式。目标事件的事故文本的来源不同(比如:互联网、案例报告集、研究文献等),因而,目标事件的事故文本的格式多样,包含有PDF、Word、Txt等,将目标事件的事故文本的格式统一为Txt格式,这样可便于后续的事故信息抽取代码编制。
本申请的一具体实施例中,步骤S10中,在对事故发生时间信息抽取规则进行构建时,基于多个煤矿瓦斯爆炸事故的事故案例报告中的时间关键词,构建煤矿爆炸事故的事故发生时间信息抽取规则,具体为:
对应的,步骤S20中,在对目标事件中事故发生时间信息进行抽取时,基于所述事故发生时间信息抽取规则,根据预先获取的目标事件的事故文本,抽取所述目标事件的事故发生时间信息,具体为:
基于所述事故发生时间信息抽取规则,对预先获取的目标事件的事故文本进行识别匹配,若匹配结果不为空,则将该匹配结果作为事故发生时间信息输出,若匹配结果为空,则输出无事故发生时间信息描述。
在本申请实施例中,基于所述事故发生时间信息抽取规则,则执行第一抽取动作,对预先获取的所述目标事件的事故文本中的首段文本进行抽取,若所述第一抽取动作的抽取结果不为空,则输出事故发生第一时间信息;若所述第一抽取动作的抽取结果为空,则基于所述事故发生时间信息抽取规则,执行第二抽取动作,对所述目标事件的事故文本中的事故过程段落进行抽取,若所述第二抽取动作的抽取结果不为空,则输出事故发生第二时间信息。
通过对大量的事故案例报告进行阅读和分析,事故发生时间的描述多出现在案例报告文本的第一自然段(即为首段段落),也即,事故时间发生时间信息多出现在目标事件的事故文本的首段段落。因而,基于事故发生时间信息抽取规则,对目标事件的事故文本的首段进行识别匹配,若匹配结果不为空,则将该匹配结果作为事故发生时间信息输出。
若匹配结果为空,基于事故发生时间信息抽取规则,对目标事件的事故文本的事故过程段落进行识别匹配,若匹配结果不为空,则将该匹配结果作为事故发生时间信息输出,若匹配结果为空,则输出无事故发生时间信息描述。
本申请的一具体实施例中,在对事故发生地点信息抽取规则进行构建时,基于多个所述煤矿瓦斯爆炸事故的事故案例报告中的所述地点关键词,构建所述煤矿爆炸事故的所述事故发生地点信息抽取规则,具体为:
通过对大量的事故案例报告进行阅读和分析,事故地点多出现在“发生”、“造成”、“瓦斯积聚”、“无风”、“风量不足”等关键词附近,基于该地点信息描述特征进行归纳总结,构建事故发生时间信息抽取规则为P2:(<=[;;。])[^;;。]*'+关键词+'.* ( =[;;。])。
在对目标事件中事故发生地点信息进行抽取时,基于所述事故发生地点信息抽取规则,根据预先获取的目标事件的事故文本,抽取所述目标事件的事故发生地点信息。
在本申请实施例中,基于所述事故发生地点信息抽取规则,对预先获取的目标事件的事故文本的关键语句进行抽取,得到事故发生地点关键词语句;对所述事故发生地点关键语句进行分词处理,并将得到的分词结果与煤矿作业点词库进行匹配,获取所述目标事件的事故发生地点信息;其中,煤矿作业点词库表征了煤矿作业点。
由于事故地点关键词多出现在事故文本的首段段落和直接原因分析段落,为了提高事故发生地点信息的抽取效率,本申请优选实施例中,步骤S20中,对目标事件中事故发生地点信息进行抽取时,具体包括以下步骤:
(1)对预先获取的目标事件的事故文本的首段和直接原因分析段落合并,得到合并段落;
(2)基于所述事故发生地点信息抽取规则,对合并段落中的关键语句进行抽取,得到事故发生地点键词语句;
(3)对每个所述地点关键词语句进行分词,并将分词结果与预设的煤矿作业点词库进行匹配,若匹配结果为空,则对其它所述地点关键词语句进行分词并匹配,直至匹配结果不为空,得到所述事故发生地点信息。
具体的,逐一遍历步骤(2)抽取得到的事故发生地点关键语句,对其进行分词处理,并将得到的分词结果与煤矿作业点词库进行匹配,若匹配结果不为空,则终止循环并将匹配的结果作为事故发生地点信息输出,若匹配结果为空,则继续执行循环,直至遍历所有的事故发生地点关键语句为止。
本申请的一具体实施例中,步骤S10中,在对事故矿井瓦斯等级信息抽取规则进行构建时,基于多个所述煤矿瓦斯爆炸事故的事故案例报告中的所述矿井瓦斯等级关键词,构建所述煤矿爆炸事故的所述事故矿井瓦斯等级信息抽取规则,具体包括:
煤矿瓦斯爆炸事故的事故案例报告中矿井瓦斯等级关键词描述主要为“为低瓦斯矿井”、“属低瓦斯矿井”、“鉴定等级为高瓦斯矿井”,根据该描述特征,构建事故矿井瓦斯等级信息抽取规则为P3:(低瓦斯|高瓦斯|煤与瓦斯突出|瓦斯)(=“矿井”)。
对应的,步骤S20中,在对目标事件的事故矿井瓦斯等级信息进行抽取时,基于所述事故矿井瓦斯等级信息抽取规则,根据预先获取的目标事件的事故文本,抽取所述目标事件的事故矿井瓦斯等级信息,具体为:
基于所述事故矿井瓦斯等级信息抽取规则,对预先获取的目标事件的事故文本进行识别匹配,若匹配结果不为空,则将该匹配结果作为事故矿井瓦斯等级信息输出,若匹配结果为空,则输出事故矿井瓦斯等级信息为未鉴定。
由于事故矿井瓦斯等级信息多出现在事故文本的矿井概况段落,为了提高事故矿井瓦斯等级信息的抽取效率,本申请优选实施例中,步骤S20具体包括以下步骤:
(1)对目标事故的事故文本的矿井概况段落中的所有句子,以标点符号为单位,进行分句;
(2)遍历所有分句,检测是否含有“矿井”关键词,若存在,则基于事故矿井瓦斯等级信息抽取规则,对含有“矿井”关键词的语句进行识别匹配,若识别匹配结果不为空,则将该匹配结果作为事故矿井瓦斯等级信息输出;若遍历所有含有“矿井”关键词的分句,匹配结果为空,则输出事故矿井瓦斯等级信息为未鉴定。
本申请的一具体实施例中,步骤S10中,在对事故伤亡人数信息抽取规则进行构建时,基于多个所述煤矿瓦斯爆炸事故的事故案例报告中的所述伤亡人数关键词,构建所述煤矿爆炸事故的所述事故伤亡人数信息抽取规则,具体为:
通过对大量的事故案例报告进行阅读和分析,事故所造成的伤亡人数描述有独有的特征,从描述的组成结构上,有着非常明显的句式,比如“造成……人伤亡”、“致使……人伤亡”,“导致……人失踪”等,在文本记录中均含有关键词“失踪”、“伤亡”、“遇难”,结合该语句描述特征,构建事故伤亡人数信息抽取规则为P4:\d{2,5}(=(人伤亡|人失踪|人遇难));P5:((<=伤亡)\d{2,5}(=人))。
对应的,步骤S20中,在对目标事件中的事故伤亡人数信息进行抽取时,基于所述事故伤亡人数信息抽取规则,根据预先获取的目标事件的事故文本,抽取所述目标事件的事故伤亡人数信息,具体为:
基于所述事故伤亡人数信息抽取规则,对预先获取的目标事件的事故文本进行识别匹配,将识别的数字值作为目标事件的事故伤亡人数信息输出。
由于事故所造成的伤亡人数描述多出现事故文本的首段段落,为了提高事故伤亡人数信息的抽取效率,本申请优选实施例中,步骤S20包括以下步骤:
读取目标事件的事故文本的首段段落,基于事故伤亡人数信息抽取规则,对事故文本的首段段落进行识别匹配,将识别的数字值作为目标事件的事故伤亡人数信息输出。
本申请具体实施例中,以事故发生时间信息和事故伤亡人数信息抽取为例,信息抽取过程如图4所示。
本申请可选实施例中,步骤S10中,第二关键词为事故致因关键词;
对应的,步骤S20包括:
基于所述事故致因信息抽取规则,对预先获取的目标事件的事故文本的关键语句进行抽取,得到事故致因关键语句;
对所述事故致因关键语句进行分词处理,并将分词结果与预设的事故致因词典进行匹配,获取所述目标事件的事故致因信息。
本申请实施例中,事故致因信息包括不安全行为、不安全物态和安全知识不足,事故致因词典包括行为词典、物态词典和安全知识词典,其中,所述行为词典表征引起煤矿爆炸事故的不安全行为,所述物态词典表征引起煤矿爆炸事故的的不安全物态,所述安全知识词典表征预防所述煤矿爆炸事故的安全知识。
进一步地,所述对所述事故致因关键语句进行分词处理,并将分词结果与事故致因词典进行匹配,获取所述目标事件的事故致因信息,包括:
对所述事故致因关键语句进行分词处理,将所述分词结果分别与所述行为词典和所述物态词典进行匹配,获取所述目标事件的不安全行为和不安全物态;
将获取的不安全行为和不安全物态分别与所述安全知识词典进行匹配,得到所述目标事件的安全知识不足。
本申请具体实施例中,通过对大量的事故案例报告进行分析,不同形式的事故致因中常含有固定的词语搭配,比如因违章爆破而导致事故发生,在事故原因描述中会出现“爆破”、“炮”、“违章”等词汇,基于该语句描述特征,构建事故致因信息抽取规则为P6:(<=[;;。])[^;;。]*'+关键词+'.*(=[;;。])。
由于事故致因信息多出现事故文本的事故原因分析段落,为了提高事故致因信息的抽取效率,本申请优选实施例中,步骤S20具体包括以下步骤:
(1)基于事故致因信息抽取规则,对预先获取的目标事件的事故文本中事故原因分析段落的关键语句进行抽取,得到事故致因关键语句;
(2)对所述事故致因关键语句进行分词处理,并将得到的分词结果分别与所述行为词典和所述物态词典进行匹配,凝练语句,获取目标事件的不安全行为和不安全物态;
(3)将获取的不安全行为和不安全物态分别与所述安全知识词典进行匹配,得到目标事件的安全知识不足。
本申请具体实施例中,步骤20具体为:
加载行为词典、物态词典和安全知识词典至程序,对事故原因分析段落的关键语句进行抽取,抽取结果见图5。调用Jieba分词工具,对关键语句进行分词,分词结果见图6,在完成分词工作后通过与第一预设词典进行匹配,获取引起事故致因分析结果。
图7为根据本申请的另一些实施例提供的煤矿瓦斯爆炸事故信息抽取方法的步骤流程示意图,如图7所示,进一步地,本申请可选实施例中,步骤S20之后,还包括:
步骤S30,利用Pyecharts工具对抽取的目标事件的事故信息进行可视化处理,对抽取的目标事件的事故信息进行可视化展示。
本申请实施例中,使用Python-Pandas工具对结果进行封装,形成Excel文件;利用Pyecharts工具对抽取所得的数据进行可视化处理,形成Html文档,将Excel文件和Html文档导出保存,如图8、9、10所示。
使用Google Chrome浏览器打开导出Html文档,可查看事故致因可视化Tree图结果,如图11所示。
图12为根据本申请的一些实施例提供的一种煤矿瓦斯爆炸事故信息抽取系统的功能框图,如图12所示,抽取系统包括构建单元101和抽取单元102,其中,构建单元101,配置为基于煤矿瓦斯爆炸事故的事故案例报告集合,构建所述煤矿瓦斯爆炸事故的事故信息的抽取规则库;其中,所述事故案例报告集合包含多个所述煤矿瓦斯爆炸事故的事故案例报告;所述抽取规则库中包含多个不同的事故信息抽取规则,多个不同的所述事故信息抽取规则分别与多个不同的所述事故信息相对应;抽取单元102,配置为基于所述抽取规则库中的所述信息抽取规则,根据预先获取的目标事件的事故文本,抽取所述目标事件的所述事故信息。
进一步地,本申请抽取系统还包括可视化单元103,可视化单位103配置为利用Pyecharts工具对抽取的所述目标事件的事故信息进行可视化处理,对抽取的所述目标事件的事故信息进行可视化展示。
本申请事故信息抽取系统界面是由PyQt5工具编写生成,该模块是Python和Qt库融合而成工具包,内置丰富的类、函数和方法,兼容Windows、Mac、Unix多个平台。基于PyQt5工具构建事故致因抽取平台可视化界面如图13所示,软件界面包含3个功能选型,分别是:选择文件、分析展示、保存文件,其中文件保存设置Excel和Html两种类型选择使用。
本申请具体实施例中,以某重大瓦斯爆炸事故案例为例,展示瓦斯爆炸事故致因的自动抽取及可视化系统的运用。
(1)点击文件选择,选择要抽取信息的事故文本(即为目标事件的事故文本),实现事故文本的读入和加载。
(2)分析展示,该按钮的作用是激活封装在软件内的信息抽取代码,对读入的事故文本进行信息抽取,并对抽取结果以Html文档和Excel两种方式存储,并调用PyQt5内置浏览器,打开Html文档的展示结果。
(3)点击保存文件,弹出存储路径选择框,可自定义存储位置,将分析所得结果保存至电脑。
本申请实施例提供的煤矿瓦斯爆炸事故信息抽取系统能够实现上述任一实施例的煤矿瓦斯爆炸事故信息抽取方法的流程、步骤,并达到相同的有益效果,在此不再一一赘述。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种煤矿瓦斯爆炸事故信息抽取方法,其特征在于,所述方法包括以下步骤:
步骤S10,基于煤矿瓦斯爆炸事故的事故案例报告集合,构建所述煤矿瓦斯爆炸事故的事故信息的抽取规则库;
其中,所述事故案例报告集合包含多个所述煤矿瓦斯爆炸事故的事故案例报告,所述抽取规则库中包含多个不同的事故信息抽取规则,多个不同的所述事故信息抽取规则分别与多个不同的所述事故信息相对应;
步骤S20,基于所述抽取规则库中的所述事故信息抽取规则,根据预先获取的目标事件的事故文本,抽取所述目标事件的所述事故信息。
2.如权利要求1所述的煤矿瓦斯爆炸事故信息抽取方法,其特征在于,所述事故信息的抽取规则库包括:事故基本信息抽取规则和事故致因信息抽取规则;
对应的,步骤S10具体为:
基于多个所述煤矿瓦斯爆炸事故的事故案例报告中的第一关键词和第二关键词,分别对应构建所述煤矿爆炸事故的事故基本信息抽取规则和事故致因信息抽取规则;
对应的,步骤S20具体为:
根据预先获取的所述目标事件的事故文本,分别基于所述煤矿爆炸事故的事故基本信息抽取规则和事故致因信息抽取规则,对应抽取所述目标事件的事故基本信息和事故致因信息。
3.如权利要求2所述的煤矿瓦斯爆炸事故信息抽取方法,其特征在于,所述第一关键词包括:时间关键词、地点关键词、矿井瓦斯等级关键词、伤亡人数关键词;
对应的,步骤S10具体为:
分别基于多个所述煤矿瓦斯爆炸事故的事故案例报告中的所述时间关键词、地点关键词、矿井瓦斯等级关键词、伤亡人数关键词,分别构建所述煤矿爆炸事故对应的所述事故发生时间信息抽取规则、事故发生地点信息抽取规则、事故矿井瓦斯等级信息抽取规则、事故伤亡人数信息抽取规则;
对应的,步骤S20具体为:
分别基于所述事故发生时间信息抽取规则、所述事故发生地点信息抽取规则、所述事故矿井瓦斯等级信息抽取规则、所述事故伤亡人数信息抽取规则,根据预先获取的所述目标事件的事故文本,分别抽取所述目标事件对应的所述目标事件的事故发生时间信息、事故发生地点信息、事故矿井瓦斯等级信息、事故伤亡人数信息。
4.如权利要求3所述的煤矿瓦斯爆炸事故信息抽取方法,其特征在于,在步骤S20中,所述分别基于所述事故发生时间信息抽取规则、所述事故发生地点信息抽取规则、所述事故矿井瓦斯等级信息抽取规则、所述事故伤亡人数信息抽取规则,根据预先获取的所述目标事件的事故文本,分别抽取所述目标事件对应的所述目标事件的事故发生时间信息、事故发生地点信息、事故矿井瓦斯等级信息、事故伤亡人数信息,具体为:
分别基于所述事故发生时间信息抽取规则、所述事故发生地点信息抽取规则、所述事故矿井瓦斯等级信息抽取规则、所述事故伤亡人数信息抽取规则,对预先获取的所述目标事件的事故文本进行规则匹配,对应得到所述目标事件的事故发生时间信息、事故发生地点信息、事故矿井瓦斯等级信息、事故伤亡人数信息。
5.如权利要求2所述的煤矿瓦斯爆炸事故信息抽取方法,其特征在于,所述第二关键词为事故致因关键词;
对应的,步骤S20包括:
基于所述事故致因信息抽取规则,对预先获取的目标事件的事故文本的关键语句进行抽取,得到事故致因关键语句;
对所述事故致因关键语句进行分词处理,并将分词结果与预设的事故致因词典进行匹配,获取所述目标事件的事故致因信息。
6.如权利要求5所述的煤矿瓦斯爆炸事故信息抽取方法,其特征在于,
所述事故致因信息包括不安全行为、不安全物态和安全知识不足,所述事故致因词典包括行为词典、物态词典和安全知识词典,其中,所述行为词典表征引起煤矿爆炸事故的不安全行为,所述物态词典表征引起煤矿爆炸事故的不安全物态,所述安全知识词典表征预防所述煤矿爆炸事故的安全知识;
对应的,所述对所述事故致因关键语句进行分词处理,并将分词结果与事故致因词典进行匹配,获取所述目标事件的事故致因信息,包括:
对所述事故致因关键语句进行分词处理,将所述分词结果分别与所述行为词典和所述物态词典进行匹配,获取所述目标事件的不安全行为和不安全物态;
将获取的不安全行为和不安全物态分别与所述安全知识词典进行匹配,得到所述目标事件的安全知识不足。
7.如权利要求1所述的煤矿瓦斯爆炸事故信息抽取方法,其特征在于,在步骤S20中,所述基于所述抽取规则库中的所述事故信息抽取规则,根据预先获取的目标事件的事故文本,抽取所述目标事件的所述事故信息包括:
对预先获取的所述目标事件的事故文本进行段落划分,得到所述目标事件的事故文本的段落划分结果;其中,所述段落划分结果为将所述目标事件的事故文本分为首段段落、矿井概括段落、事故过程段落、事故原因分析段落和责任者的处理建议段落;
根据所述段落划分结果,基于所述抽取规则库中的所述事故信息抽取规则,抽取所述目标事件的事故信息。
8.如权利要求7所述的煤矿瓦斯爆炸事故信息抽取方法,其特征在于,所述对预先获取的所述目标事件的事故文本进行段落划分,得到所述目标事件的事故文本的段落划分结果,具体为:
对转换为预设文件格式的所述目标事件的事故文本进行段落划分,得到所述目标事件的事故文本的段落划分结果。
9.如权利要求1-8任一项所述的煤矿瓦斯爆炸事故信息抽取方法,其特征在于,步骤S20之后,还包括:
步骤S30,利用Pyecharts工具对抽取的所述目标事件的事故信息进行可视化处理,对抽取的所述目标事件的事故信息进行可视化展示。
10.一种煤矿瓦斯爆炸事故信息抽取系统,其特征在于,包括:
构建单元,配置为基于煤矿瓦斯爆炸事故的事故案例报告集合,构建所述煤矿瓦斯爆炸事故的事故信息的抽取规则库;
其中,所述事故案例报告集合包含多个所述煤矿瓦斯爆炸事故的事故案例报告,所述抽取规则库中包含多个不同的事故信息抽取规则,多个不同的所述事故信息抽取规则分别与多个不同的所述事故信息相对应;
抽取单元,配置为基于所述抽取规则库中的所述事故信息抽取规则,根据预先获取的目标事件的事故文本,抽取所述目标事件的所述事故信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111384622.5A CN113868381B (zh) | 2021-11-22 | 2021-11-22 | 一种煤矿瓦斯爆炸事故信息抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111384622.5A CN113868381B (zh) | 2021-11-22 | 2021-11-22 | 一种煤矿瓦斯爆炸事故信息抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113868381A true CN113868381A (zh) | 2021-12-31 |
CN113868381B CN113868381B (zh) | 2022-03-22 |
Family
ID=78984987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111384622.5A Active CN113868381B (zh) | 2021-11-22 | 2021-11-22 | 一种煤矿瓦斯爆炸事故信息抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113868381B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115952796A (zh) * | 2023-03-14 | 2023-04-11 | 华北电力科学研究院有限责任公司 | 电力设备故障分析方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140012803A1 (en) * | 2011-03-23 | 2014-01-09 | Nec Corporation | Event analysis apparatus, event analysis method, and computer-readable recording medium |
CN109064368A (zh) * | 2018-07-20 | 2018-12-21 | 中国矿业大学 | 一种基于owl的瓦斯爆炸事故本体构建及推理方法 |
CN112269949A (zh) * | 2020-10-19 | 2021-01-26 | 杭州叙简科技股份有限公司 | 一种基于事故灾害新闻的信息结构化方法 |
CN112364627A (zh) * | 2020-10-23 | 2021-02-12 | 北京建筑大学 | 基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质 |
CN112487293A (zh) * | 2020-11-30 | 2021-03-12 | 增长引擎(北京)信息技术有限公司 | 一种安全事故案例结构化信息抽取方法、装置及介质 |
-
2021
- 2021-11-22 CN CN202111384622.5A patent/CN113868381B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140012803A1 (en) * | 2011-03-23 | 2014-01-09 | Nec Corporation | Event analysis apparatus, event analysis method, and computer-readable recording medium |
CN109064368A (zh) * | 2018-07-20 | 2018-12-21 | 中国矿业大学 | 一种基于owl的瓦斯爆炸事故本体构建及推理方法 |
CN112269949A (zh) * | 2020-10-19 | 2021-01-26 | 杭州叙简科技股份有限公司 | 一种基于事故灾害新闻的信息结构化方法 |
CN112364627A (zh) * | 2020-10-23 | 2021-02-12 | 北京建筑大学 | 基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质 |
CN112487293A (zh) * | 2020-11-30 | 2021-03-12 | 增长引擎(北京)信息技术有限公司 | 一种安全事故案例结构化信息抽取方法、装置及介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115952796A (zh) * | 2023-03-14 | 2023-04-11 | 华北电力科学研究院有限责任公司 | 电力设备故障分析方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113868381B (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107832229B (zh) | 一种基于nlp的系统测试用例自动生成方法 | |
CN109582861B (zh) | 一种数据隐私信息检测系统 | |
CN109933796B (zh) | 一种公告文本关键信息提取方法及设备 | |
CN114168716B (zh) | 基于深度学习的工程造价自动抽取和分析方法及装置 | |
US20110270858A1 (en) | File type recognition analysis method and system | |
CN108170468B (zh) | 一种自动检测注释和代码一致性的方法及其系统 | |
EP3159798B1 (en) | Method and system for determining user interface usage | |
US8914378B2 (en) | Specification document check method, program, and system | |
CN113609838B (zh) | 文档信息抽取及图谱化方法和系统 | |
CN110941953B (zh) | 一种兼顾可解释性的网络虚假评论的自动识别方法及系统 | |
CN105095091B (zh) | 一种基于倒排索引技术的软件缺陷代码文件定位方法 | |
CN103389970A (zh) | 基于实时学习的word辅助编写系统和方法 | |
CN113868381B (zh) | 一种煤矿瓦斯爆炸事故信息抽取方法及系统 | |
Moon et al. | Automatic review of construction specifications using natural language processing | |
CN114579720A (zh) | 一种基于文本挖掘的水电工程进度智能评估方法 | |
Tran et al. | Context-aware detection of sneaky vandalism on wikipedia across multiple languages | |
EP3553696B1 (en) | Generating a structured document based on a machine readable document and artificial intelligence-generated annotations | |
CN113268714B (zh) | 一种开源软件许可证条款自动提取方法 | |
CN115482075A (zh) | 财务数据的异常分析方法、装置、电子设备及存储介质 | |
KR101713612B1 (ko) | 지능형 스토리텔링 지원 시스템 | |
Shao et al. | An improved approach to the recovery of traceability links between requirement documents and source codes based on latent semantic indexing | |
CN112990091A (zh) | 基于目标检测的研报解析方法、装置、设备和存储介质 | |
CN112488593A (zh) | 一种用于招标的辅助评标系统及方法 | |
CN110928985A (zh) | 一种基于深度学习算法自动提取近义词的科技项目查重方法 | |
KR102604582B1 (ko) | 시공재해 db 통합을 위한 핵심어구 추출 및 정확도 평가 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |