CN112364627A - 基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质 - Google Patents
基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质 Download PDFInfo
- Publication number
- CN112364627A CN112364627A CN202011148727.6A CN202011148727A CN112364627A CN 112364627 A CN112364627 A CN 112364627A CN 202011148727 A CN202011148727 A CN 202011148727A CN 112364627 A CN112364627 A CN 112364627A
- Authority
- CN
- China
- Prior art keywords
- accident
- safety production
- text
- keyword
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 210
- 238000004458 analytical method Methods 0.000 title claims abstract description 44
- 238000005065 mining Methods 0.000 title claims abstract description 43
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 63
- 238000012545 processing Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 description 14
- 238000007726 management method Methods 0.000 description 10
- 206010039203 Road traffic accident Diseases 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012800 visualization Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002265 prevention Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Animal Behavior & Ethology (AREA)
- Computer Security & Cryptography (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质。该方法包括:获取安全生产事故文本数据,其中,所述安全生产事故文本数据包括分属于多个事故等级的多个事故文本;采用TF‑IDF方法,从所述安全生产事故文本数据中提取多个关键词,其中,任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比;根据所述多个关键词,确定所述安全生产事故的致因因素。基于该方法和装置,可以实现对于安全生产事故内在特征的有效挖掘,进而提高对于安全生产事故分析的准确性。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质。
背景技术
交通行业是我国经济结构中的先行和基础产业,是制约经济与社会发展的重要因素。尽管北京市交通行业事故起数、死亡失踪人数、重特大事故逐年下降,但交通行业安全生产事故时有发生,安全生产形势仍然十分严峻。然而现阶段通过人工监管的方式,远远不能满足目前巨大体量的交通行业管理需要,应急防控能力亟待增强。
交通行业安全生产事故数据采用文本的形式进行人工记录并存储,有效挖掘并利用对提升安全生产事故的防控治理工作能力具有重大意义。目前,国内学者在交通行业领域内的研究有:李凤伟等学者通过对2003-2010年期间发生的118个地铁安全生产事故进行统计分析,从事故发生时间、所在城市、事故类型、所在区域等方面揭示地铁施工事故规律;林庆丰、邓院昌选取2017年发生的3337起交通事故,分析事故严重程度的影响因素。这些研究仅仅是基于简单的统计分析,没有深入挖掘。近年来随着大数据技术的兴起,利用多种方式处理数据并进行知识挖掘及可视化分析成为研究热点,但目前交通行业内的研究仍然不能有效揭示出安全生产事故的内在特征,进而影响对于安全生产事故的致因因素的分析。
发明内容
本发明实施例的一个目的是解决至少上述问题和/或缺陷,并提供至少后面将说明的优点。
本发明实施例提供了基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质,可以实现对于安全生产事故内在特征的有效挖掘,进而提高对于事故致因因素分析的准确性。
第一方面,提供了一种基于文本挖掘的安全生产事故分析方法,包括:
获取安全生产事故文本数据,其中,所述安全生产事故文本数据包括分属于多个事故等级的多个事故文本;
采用TF-IDF方法,从所述安全生产事故文本数据中提取多个关键词,其中,任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比;
根据所述多个关键词,确定所述安全生产事故的致因因素。
可选地,所述当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率为根据含有当前关键词的并且与当前关键词所在的事故文本属于相同事故等级的事故文本数在含有当前关键词的事故文本总数中的占比计算得出。
可选地,所述任一关键词的权重还与当前关键词在其所在的事故文本中的出现频率成正比,而与当前关键词在所述多个事故文本中的出现频率成反比。
可选地,所述任一关键词的权重通过以下公式计算得出:
Scoreij=tfij×idfij
其中,Scoreij代表第i个事故文本中第j个关键词的权重,tfij代表第j个关键词在第i个事故文本中的出现频率,idfij代表第i个事故文本中第j个关键词的逆向文件频率;
所述当前关键词的逆向文件频率通过以下公式计算得出:
其中,mj代表含有第i个事故文本中第j个关键词的并且与第i个事故文本属于相同事故等级的事故文本的个数,Mj代表含有第i个事故文本中第j个关键词的事故文本的总数,N代表事故文本的总数,a为常数,a>0。
可选地,所述根据所述多个关键词,确定所述安全生产事故的致因因素,包括:
对所述多个关键词进行聚类;
根据所述多个关键词的聚类结果,将所述多个关键词划分至多个致因主题下,其中,所述多个致因主题与安全生产事故的多个致因因素一一对应;
根据各关键词的致因主题,确定含有各关键词的事故文本对应的安全生产事故的致因因素。
可选地,所述根据所述多个关键词,确定所述交通行业安全生产事故的致因因素之后,所述方法还包括:
建立所述多个关键词与多个事故属性类别之间的关联关系;
建立对应有相同关键词的致因主题和事故属性类别之间的关联关系,并利用所对应的相同关键词的个数表示各致因主题与各事故属性类别之间的关联强度。
可选地,所述致因因素包括人为因素、设备因素和/或其他因素。
可选地,所述获取安全生产事故文本数据之后,所述方法还包括:
根据所述安全生产事故文本数据,构建知识图谱,其中,所述知识图谱中的实体类型包括存在伤亡的事故以及根据事故属性确定的其他实体类型。
可选地,所述根据所述安全生产事故文本数据,构建知识图谱之后,所述方法还包括:
根据所述知识图谱,构建存在伤亡的事故与所述知识图谱中其他任一类型的实体之间的关联路径图谱,其中,所述关联路径图谱以存在伤亡的事故全体作为中心,以所述存在伤亡的事故为一级关系,以所述知识图谱中其他任一类型的实体为二级关系,并且通过所述二级关系向外关联无伤亡事故。
可选地,所述安全生产事故文本数据为交通行业安全生产事故文本数据。
第二方面,提供了一种基于文本挖掘的安全生产事故分析装置,包括:
文本数据获取模块,用于获取安全生产事故文本数据,其中,所述安全生产事故文本数据包括分属于多个事故等级的多个事故文本;
关键词提取模块,用于采用TF-IDF方法,从所述安全生产事故文本数据中提取多个关键词,其中,任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比;
致因因素确定模块,用于根据所述多个关键词,确定所述安全生产事故的致因因素。
可选地,所述当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率为根据含有当前关键词的并且与当前关键词所在的事故文本属于相同事故等级的事故文本数在含有当前关键词的事故文本总数中的占比计算得出。
可选地,所述任一关键词的权重还与当前关键词在其所在的事故文本中的出现频率成正比,而与当前关键词在所述多个事故文本中的出现频率成反比。
可选地,所述任一关键词的权重通过以下公式计算得出:
Scoreij=tfij×idfij
其中,Scoreij代表第i个事故文本中第j个关键词的权重,tfij代表第j个关键词在第i个事故文本中的出现频率,idfij代表第i个事故文本中第j个关键词的逆向文件频率;
所述当前关键词的逆向文件频率通过以下公式计算得出:
其中,mj代表含有第i个事故文本中第j个关键词的并且与第i个事故文本属于相同事故等级的事故文本的个数,Mj代表含有第i个事故文本中第j个关键词的事故文本的总数,N代表事故文本的总数,a为常数,a>0。
可选地,所述致因因素确定模块,包括:
聚类单元,用于对所述多个关键词进行聚类;
致因主题划分单元,用于根据所述多个关键词的聚类结果,将所述多个关键词划分至多个致因主题下,其中,所述多个致因主题与安全生产事故的多个致因因素一一对应;
致因因素确定单元,用于根据各关键词的致因主题,确定含有各关键词的事故文本对应的安全生产事故的致因因素。
可选地,所述装置还包括:
关键词关联关系建立单元,用于建立所述多个关键词与多个事故属性类别之间的关联关系;
致因主题关联关系单元,用于建立对应有相同关键词的致因主题和事故属性类别之间的关联关系,并利用所对应的相同关键词的个数表示各致因主题与各事故属性类别之间的关联强度。
可选地,所述致因因素包括人为因素、设备因素和/或其他因素。
可选地,所述装置还包括:
知识图谱构建模块,用于根据所述安全生产事故文本数据,构建知识图谱,其中,所述知识图谱中的实体类型包括存在伤亡的事故以及根据事故属性确定的其他实体类型。
可选地,所述装置还包括:
关联路径图谱构建模块,用于根据所述知识图谱,构建存在伤亡的事故与所述知识图谱中其他任一类型的实体之间的关联路径图谱,其中,所述关联路径图谱以存在伤亡的事故全体作为中心,以所述存在伤亡的事故为一级关系,以所述知识图谱中其他任一类型的实体为二级关系,并且通过所述二级关系向外关联无伤亡事故。
可选地,所述安全生产事故文本数据为交通行业安全生产事故文本数据。
第三方面,提供了一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行以上所述的方法。
第四方面,提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现以上所述的方法。
本发明实施例至少包括以下有益效果:
本发明实施例提供的基于文本挖掘的安全生产事故分析方法和装置,首先获取安全生产事故文本数据,其中,安全生产事故文本数据包括分属于多个事故等级的多个事故文本,之后采用TF-IDF方法,从所述安全生产事故文本数据中提取多个关键词,其中,任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比,最后根据多个关键词,确定安全生产事故的致因因素。基于该方法和装置,采用TF-IDF方法从安全生产事故文本数据中提取关键词,并且提取过程中使关键词的权重与关键词在相等事故等级的事故文本中的出现频率成正比,从而保证所提取的关键词能够反映安全生产事故的事故等级,进而保证所提取的关键词能够更加准确地反映安全生产事故的内在特征。即,基于该方法和装置,可以实现对于安全生产事故内在特征的有效挖掘,进而提高对于安全生产事故分析的准确性。
本发明实施例的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明实施例的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明实施例一提供的基于文本挖掘的安全生产事故分析方法的流程图;
图2为本发明实施例二提供的基于文本挖掘的安全生产事故分析方法的流程图;
图3为本发明实施例三提供的基于文本挖掘的安全生产事故分析方法的流程图;
图4为本发明实施例三提供的交通行业安全生产事故知识图谱示意图;
图5为本发明实施例三提供的以交通行业安全生产事故中事故发生辖区与事故所属领域为分析对象的Gephi可视化分析图;
图6为本发明实施例三提供的以交通行业安全生产事故中事故发生辖区与事故发生时间为分析对象的Gephi可视化分析图;
图7为本发明实施例三提供的交通行业安全生产事故中伤亡事故关联路径图谱;
图8为本发明实施例三提供的交通行业安全生产事故中致因因素信息流匹配图;
图9为本发明一个实施例提供的基于文本挖掘的安全生产事故分析装置的结构示意图;
图10为本发明一个实施例提供的电子设备的结构示意图。
具体实施方式
下面结合附图对本发明实施例做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
实施例一
图1为本发明实施例提供的基于文本挖掘的安全生产事故分析方法的流程图,该方法由具有处理能力的系统、服务器或基于文本挖掘的安全生产事故分析装置执行。如图1所示,所述方法包括:
步骤110,获取安全生产事故文本数据,其中,安全生产事故文本数据包括分属于多个事故等级的多个事故文本。
安全生产事故数据通常为文本格式,利用效率较低。为了提高数据管理及分析效率,需要从文本数据中挖掘有价值的字段,即从文本数据中提取关键词,从而实现对于安全生产事故内在特征的挖掘。
安全生产事故文本数据可以是台账数据,由相关管理部门日常业务记录采集。台账数据内容为事故发生后责任单位第一时间向管理部门上报的文字性描述,内容包括事故发生时间、事故发生位置信息和关键细节,叙述方式较为统一,有利于文本数据的挖掘。
在一些实施例中,在提取关键词之前,需要先对安全生产事故文本数据进行文本处理,即先对安全生产事故文本数据进行分词处理。为得到最优的分词质量,避免识别不到领域专业词汇,可以结合行业相关规范,建立行业安全生产领域用户字典及停用字典,然后利用停用字典去除无意义的词项,并基于用户字典及对数据内容进行切分。基于分词结果,继续对各事故文本进行关键词的提取。
步骤120,采用TF-IDF方法,从所述安全生产事故文本数据中提取多个关键词,其中,任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比。
美国安全工程师Heinrich在通过分析大量安全事故后提出“安全金字塔”理论,即在安全生产事故中存在伤亡、轻伤和无伤害的事故比例为1:29:300。我国根据安全生产事故造成的人员伤亡和经济损失将事故定义为重大事故、较大事故和一般事故,重大事故数量较少但研究价值极大。
Tf-idf(term frequency-inverse document frequency)是目前应用较多的关键词提取算法,算法核心思想是:词语权重与词语在数据集出现频率成反比,与词语在该条数据中出现频率成正比。然而,现有的Tf-idf算法并未考虑安全生产事故中事故等级对于关键词的贡献,因此所提取的关键词不能有效反映安全生产事故的内在特征。本发明实施例在采用TF-IDF方法从安全生产事故文本数据中提取关键词时将关键词在相同事故等级的事故文本中的出现频率(即关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率)作为计算关键词权重的一个重要参数,并且使关键词权重与关键词在相等事故等级的事故文本中的出现频率成正比,从而使得所提取出的关键词能够反映安全生产事故的事故等级,进而保证所提取的关键词能够更加有效地反映安全生产事故的内在特征,并最终有助于准确分析安全生产事故的致因因素。
进一步地,在一些实施例中,为了全面反映关键词的类别区分能力,在将关键词在相同事故等级的事故文本中的出现频率作为计算关键词权重的重要参数之外,同时还考虑当前关键词在其所在的事故文本中的出现频率以及当前关键词在多个事故文本中的出现频率,并且任一关键词的权重与当前关键词在其所在的事故文本中的出现频率成正比,而与当前关键词在多个事故文本中的出现频率成反比。
在一些实施例中,当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率为根据含有当前关键词的并且与当前关键词所在的事故文本属于相同事故等级的事故文本数在含有当前关键词的事故文本总数中的占比计算得出。
更为具体地,在一些实施例中,通过以下公式计算任一关键词的权重:
Scoreij=tfij×idfij (1)
其中,Scoreij代表第i个事故文本中第j个关键词的权重,tfij代表第j个关键词在第i个事故文本中的出现频率,idfij代表第i个事故文本中第j个关键词的逆向文件频率。
当前关键词的逆向文件频率idfij通过以下公式计算得出:
其中,mj代表含有第i个事故文本中第j个关键词的并且与第i个事故文本属于相同事故等级的事故文本的个数,Mj代表含有第i个事故文本中第j个关键词的事故文本的总数,N代表事故文本的总数,a为常数,a>0。
当前关键词在当前事故文本中的出现频率tfij通过以下公式计算
其中,nij代表第j个关键词在第i个事故文本中的出现次数,∑knk,j代表第i个事故文本中第j个关键词在全部的事故文本中出现次数,k代表事故文本的编号。
具体地,依据公式(1)至公式(3)计算出某一个事故文本中各词语的权重,并依据权重排序选取其中权重排序位于前多少名或者权重大于阈值的词语作为关键词,其中,权重排序位于前多少名的具体名次或者权重的阈值可以根据实际需要进行选择,本发明在此不再赘述。
这里,当在相同的事故等级的若干事故文本中有多于一个事故文本都提取出相同的词语时,还可以将从不同事故文本提取的词语权重相加,得到该词语的最终权重值,并利用这个最终权重值确定该词语是否作为关键词。当所获取的安全生产事故文本数据为某一个行业的具体领域(如交通行业下的轨道行业)的数据,则可以实现对于某一个行业下的具体领域的关键词的提取,所提取的关键词则反映了该具体领域中不同事故等级对于安全生产事故的内在特征的影响。另外,也可以针对一个行业的安全生产事故文本数据进行关键词提取,然后针对各关键词所在的事故文本所属的具体领域确定各关键词的具体领域,再在具体领域下关键词的分布情况进行分析。
步骤130,根据多个关键词,确定安全生产事故的致因因素。
在一些实施例中,根据多个关键词,确定安全生产事故的致因因素,包括:对多个关键词进行聚类;根据多个关键词的聚类结果,将多个关键词划分至多个致因主题下,其中,多个致因主题与安全生产事故的多个致因因素一一对应;根据各关键词的致因主题,确定含有各关键词的事故文本对应的安全生产事故的致因因素。
具体地,参考相关文献及专家建议对关键词进行分析聚类,将关键词划分至多个致因主题下,根据各关键词及其所属的致因主题确定含有相应关键词的事故文本对应的安全生产事故的致因因素,并对安全生产事故进行致因总结。在一些示例中,关键词的致因主题可以包括人为因素、设备因素及其他因素。致因主题可以揭示出安全事故生产的主要原因,各致因主题下所包含的关键词可以反映安全生产事故中的关键细节,致因总结则属于结合事故文本对致因主题进行更细致的解读,从而更为准确和全面的揭示安全生产事故的内在特征。上述对关键词的聚类分析可以采用现有的聚类方法,例如k-means算法。本发明实施例对此不做具体限定。
在一些实施例中,还可以建立多个关键词与多个事故属性类别之间的关联关系;建立对应有相同关键词的致因主题和事故属性类别之间的关联关系,并利用所对应的相同关键词的个数表示各致因主题与各事故属性类别之间的关联强度。
其中,事故属性用于描述安全生产事故在某一个维度上的特征,也可以体现为当从某一个维度上对安全生产事故进行分类时安全生产事故所属的类别。事故属性类别即是基于某一事故属性所形成的分类。具体地,事故属性可以是事故发生时间、事故发生位置、事故所属领域、事故类型等。当事故属性为事故发生时间时,事故属性类别可以是1月、2月、···、12月,也可以是第一季度、第二季度、第三季度和第四季度。当事故属性为事故发生位置时,事故属性类别可以是朝阳区、海淀区等,还可以是城六区、外环辖区,可以是北京市、上海市等。当事故属性为事故所属领域时,事故属性类别可以是某一个具体行业下的细分领域,比如交通行业下的轨道行业、路政行业和运输行业。根据对于安全生产事故的分析需要,可以对事故属性进行选择,从而从一个特定的维度对安全生产事故进行具体的分析。
通过对各关键词进行分析,可以确定各关键词所对应的事故属性类别,从而建立起多个关键词与多个事故属性类别之间的关联关系。具体地,可以根据事故所属领域对所提取的关键词进行细分。事故所属领域可以是某一个具体行业下的细分领域,例如当安全生产事故文本数据来自于交通行业时,则事故所属领域可以包括交通行业下的轨道行业、路政行业和运输行业。基于上述细分的过程,可以进一步了解在各细分领域下安全生产事故的发生情况,从而实现对于整个行业中安全生产事故的全面分析。
进一步地,利用多个关键词与多个事故属性类别之间的关联关系以及多个关键词与多个致因主题的关联关系,可以建立起致因主题与事故属性类别之间的关联关系,并且可以通过致因主题与事故属性类别所共同对应的关键词数量表征二者之间的关联强度。
比如,当事故属性为事故所属领域时,各事故所属领域对应有关键词集合,比如轨道行业下对应有10个关键词,其中包括“故障”、“信号”、“车辆”等关键词,各致因主题下也对应有关键词集合,比如在设备因素下对应的关键词有“故障”、“信号”、“车辆”“脚手架”,通过将两个关键词集合进行比较,可以确定事故所属领域和致因主题所共同对应的关键词为“故障”、“信号”、“车辆”,则可以判断轨道行业中安全生产事故的发生有30%属于设备因素。再比如,当事故属性为事故发生位置时,比如依据城六区和外环辖区对关键词进行划分。通过将城六区和外环辖区的关键词集合与设备因素、人为因素和其他因素的关键词集合进行比较,可以确定城六区分别与设备因素、人为因素、其他因素之间所共同对应的关键词,从而可以确定城六区和外环辖区发生的安全生产事故中由各因素导致的事故比例。
进一步地,还可以利用信息流匹配的方法直观地显示致因主题、事故属性类别之间的关联关系和关联强度,同时还可以显示不同的事故属性之间的关联关系和关联强度。
综上所述,本发明实施例提供的基于文本挖掘的安全生产事故分析方法,首先获取安全生产事故文本数据,其中,安全生产事故文本数据包括分属于多个事故等级的多个事故文本,之后采用TF-IDF方法,从所述安全生产事故文本数据中提取多个关键词,其中,任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比,最后根据多个关键词,确定安全生产事故的致因因素。基于该方法,采用TF-IDF方法从安全生产事故文本数据中提取关键词,并且提取过程中使关键词的权重与关键词在相等事故等级的事故文本中的出现频率成正比,从而保证所提取的关键词能够反映安全生产事故的事故等级,进而保证所提取的关键词能够更加准确地反映安全生产事故的内在特征。即,基于该方法,可以实现对于安全生产事故内在特征的有效挖掘,进而提高对于事故分析的准确性。
实施例二
图2为本发明实施例提供的基于文本挖掘的安全生产事故分析方法的流程图,该方法由具有处理能力的系统、服务器或基于文本挖掘的安全生产事故分析装置执行。如图2所示,所述方法包括:
步骤210,获取安全生产事故文本数据,其中,安全生产事故文本数据包括分属于多个事故等级的多个事故文本。
本步骤与实施例一中步骤110的实现过程一致,在此不再赘述。
步骤220,根据安全生产事故文本数据,构建知识图谱,其中,知识图谱中的实体类型包括存在伤亡的事故以及根据事故属性确定的其他实体类型。
知识图谱是语义网络的一种表现形式,知识是以三元组的结构存放,本质是展示实体与实体之间关系的图。在知识图谱中,当两个实体之间存在关系,则这两个实体以及二者之间的关系构成一个三元组(h,r,t),其中,h代表头实体,t代表尾实体,r代表头实体和尾实体之间的关系。知识图谱在知识管理及应用方面具有多方面的优势:(1)语义网络的知识存储模式拓展性强,有利于交通行业知识的持久化存储。(2)将文本类型的非结构化数据,处理成价值密度更高的结构化数据,存储在图数据库中。(3)便于交通行业安全生产突发事件知识的整合与扩展。
安全生产事故的发生虽然具有突发性和不可预测性,但也是由一系列不稳定因素和事件相继作用的结果,事故致因论指出人和物的不稳定的状态是造成事故发生的主要原因,因此可以认为事故的发生与时间、空间具有一定的耦合性。故本发明实施例基于安全生产事故文本数据,使用知识图谱挖掘安全生产事故的时空特征。
在一些实施例中,在构建知识图谱以及提取关键词之前,可以先对安全生产事故文本数据进行文本处理,即先对安全生产事故文本数据进行分词处理。为得到最优的分词质量,避免识别不到领域专业词汇,可以结合行业相关规范,建立行业安全生产领域用户字典及停用字典,然后利用停用字典去除无意义的词项,并基于用户字典及对数据内容进行切分。
进一步地,分词结果需要利用爬虫技术根据城市情况、天气情况进行知识补全,并进行实体识别及关系抽取,提取出事故发生位置、事故类型、事故发生时间、事故所属领域以及存在伤亡的事故等关键知识实体及关系。这里,事故发生位置还可以分别使用不同的实体表示,如,在对交通行业安全生产事故进行分析时,使用事故发生辖区和事故发生街道两个类型的实体来表示事故发生位置。以某交通事故为例,日常业务记录如下:2018年3月18日台账内容,6点08分运通126路(京AK0740)行驶到海淀区成府路与学院路之间路口,由西向北左转弯时,车辆左前部与一由西向东横过马路的环卫工人接触,环卫工人受伤,随后被送往999急救中心救治,此事故由海淀区清河交通队处理,责任待定。针对该事故文本,所识别出的各实体以及各实体类型可以包括:海淀区(事故发生辖区),地面公交(事故类型),成府路/学院路(事故发生街道),事故发生时间(3月18日),1人受伤(存在伤亡的事故),所提取的关系以及关系类型可以包括:事故类型是,发生辖区在,发生道路在,发生日期在等等。
通过对某一行业的安全生产事故进行知识图谱的构建,为后续知识挖掘提供数据基础,也为更多先进的技术应用例如语义搜索、智能问答、专家系统、主动推荐等提供数据服务。
在一些示例中,可以使用Neo4j图数据库对分词结果进行结构化存储,再使用Gephi图谱可视化软件实现知识图谱的构建,通过多元、分时、动态的可视化展示,对安全生产事故文本数据的内在特征进行挖掘。
步骤230,根据知识图谱,构建存在伤亡的事故与知识图谱中其他任一类型的实体之间的关联路径图谱,其中,关联路径图谱以存在伤亡的事故全体作为中心,以存在伤亡的事故为一级关系,以知识图谱中其他任一类型的实体为二级关系,并且通过二级关系向外关联无伤亡事故。
人员伤亡是日常安全生产活动中最需要预防的,为挖掘存在伤亡的事故的空间特征,本发明实施例中基于所构建的知识图谱,进一步构建存在伤亡的事故与知识图谱中其他任一类型的实体之间的关联路径图谱。其中,伤亡事故关联路径图谱是以存在伤亡的事故全体为中心,以存在伤亡的事故个体为一级关系、以其他任一类型的实体为二级关系,并向外关联其它无伤亡事故的关系网络。这里,其他任一类型的实体可以是知识图谱中的事故发生位置、事故类型、事故发生时间或事故所属领域,从而通过关联路径图谱表示存在伤亡的事故与事故发生位置、事故类型、事故发生时间或事故所属领域之间的关系。例如,当构建存在伤亡的事故与事故发生辖区这一类型实体之间的关系路径图谱时,则可以反映出各事故发生辖区与存在伤亡的事故之间的关系,即存在伤亡的事故在各事故发生辖区的分布情况。
步骤240,采用TF-IDF方法,从所述安全生产事故文本数据中提取多个关键词,其中,任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比。
本步骤与实施例一中步骤120的实现过程一致,在此不再赘述。
步骤250,根据多个关键词,确定安全生产事故的致因因素。
本步骤与实施例一中步骤130的实现过程一致,在此不再赘述。
综上所述,本发明实施例提供的基于文本挖掘的安全生产事故分析方法,首先获取安全生产事故文本数据,其中,安全生产事故文本数据包括分属于多个事故等级的多个事故文本,之后根据安全生产事故文本数据,构建知识图谱,其中,知识图谱中的实体包括事故发生位置、事故类型、事故发生时间、事故所属领域和/或存在伤亡的事故,再根据知识图谱,构建存在伤亡的事故与知识图谱中其他任一类型的实体之间的关联路径图谱,其中,关联路径图谱以存在伤亡的事故全体作为中心,以存在伤亡的事故为一级关系,以知识图谱中其他任一类型的实体为二级关系,并且通过二级关系向外关联无伤亡事故,然后采用TF-IDF方法,从所述安全生产事故文本数据中提取多个关键词,其中,任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比,最后根据多个关键词,确定安全生产事故的致因因素。基于该方法,通过构建知识图谱,将安全生产事故中静态的数据关联起来,从而挖掘出安全生产事故文本数据中的知识,深入揭示安全生产事故的内在特征,并采用TF-IDF方法从安全生产事故文本数据中提取关键词,并且提取过程中使关键词的权重与关键词在相等事故等级的事故文本中的出现频率成正比,从而保证所提取的关键词能够反映安全生产事故的事故等级,进而保证所提取的关键词能够更加准确地反映安全生产事故的内在特征。即,基于该方法,可以实现对于安全生产事故内在特征的有效挖掘,进而提高对于事故分析的准确性。
实施例三
以下结合一个具体场景来描述本发明实施例提供的基于文本挖掘的安全生产事故分析方法。
图3为本发明又一个实施例提供的基于文本挖掘的安全生产事故分析方法的流程图。本发明实施例以交通行业安全生产事故文本数据为分析对象,分析方法主要包括文本数据处理、事故特征挖掘、事故致因挖掘、结果分析及建议4个主要步骤。
(1)文本数据处理
本发明实施例选取北京市交通行业安全生产事故台账数据,由相关管理部门日常业务记录采集。台账数据内容为事故发生后责任单位第一时间向管理部门上报的文字性描述,内容包括事故的发生时间、位置信息和关键细节,叙述方式较为统一,有利于文本数据的挖掘,原始数据内容见表1。
表1交通行业安全生产事故原始数据
本发明实施例使用python语言编程实现jieba分词功能,为得到最好的分词质量,避免识别不到领域专业词汇,结合交通行业相关规范,建立交通行业安全生产领域用户字典及停用字典。首先利用停用字典去除无意义的词项,并基于用户字典及对数据内容进行切分,切分结果示例如表2所示。
表2文本数据分词结果
(2)事故特征挖掘
1)知识图谱构建
交通行业安全生产事故的发生虽然具有突发性和不可预测性,但也是由一系列不稳定因素和事件相继作用的结果,可以认为事故的发生与时间、空间具有一定的耦合性。故基于交通行业安全生产事故文本数据,通过Neo4j图数据库结构化存储后,使用Gephi及知识图谱关联路径挖掘事故时空特征。分词结果需要利用爬虫技术根据城市情况、天气情况进行知识补全,并进行实体识别及关系抽取,提取出发生辖区、事件类型、发生时间、发生路段等关键知识实体及关系。以某交通事故为例,日常业务记录如下:2018年3月18日台账内容,6点08分运通126路(京AK0740)行驶到海淀区成府路与学院路之间路口,由西向北左转弯时,车辆左前部与一由西向东横过马路的环卫工人接触,环卫工人受伤,随后被送往999急救中心救治,此事故由海淀区清河交通队处理,责任待定。根据以上数据使用基于用户字典的分词技术识别出实体关系如表3。
表3某事故描述中抽取的实体及关系
使用python中pandas和Py2neo工具包,编程实现自动创建实体节点并进行实体间的关系连接。待数据入库后,Neo4j根据已处理数据自动建立实体并根据数据进行关系连接,初步生成交通行业安全生产事故知识图谱。图4为本发明实施例提供的交通行业安全生产事故知识图谱示意图,图中同类实体表现为同一种颜色及尺寸,文字标注展示实体名与实体间关系。通过交通行业安全生产领域知识图谱的构建,为后续知识挖掘提供数据基础,也为更多先进的技术应用例如语义搜索、智能问答、专家系统、主动推荐等提供数据服务。
2)Gephi可视化分析
研究表明,人脑对于视觉信息处理的速度是书面信息的十倍,将Neo4j数据库按需求引入Gephi软件,可以生成简洁、直观的实体知识图谱。选取事故发生辖区、事故类型、事故发生月份与事故所属领域为分析对象,将数据导入软件生成图谱。图5为本发明实施例提供的以交通行业安全生产事故中事故发生辖区与事故所属领域为分析对象的Gephi可视化分析图。图6为本发明实施例提供的以交通行业安全生产事故中事故发生辖区与事故发生时间为分析对象的Gephi可视化分析图。如图5和图6所示,每一个圆代表一个实体,实体相关事故的数量与圆的半径及文字大小成正比,半径越大相关事故数量越多。图5和图6中可发现,朝阳区及海淀区是北京市交通行业安全生产类突事故发生最频繁的两个行政区,且路政行业和运输行业的事故相较其它类型事故较多。在时间维度上分析,北京市6月、7月、9月安全生产事故数明显偏多,这可能与第三季度恶劣天气较多有关。
3)知识图谱关联路径可视化分析
人员伤亡是交通行业日常安全生产活动中最需要预防的,为挖掘存在伤亡事故的空间特征,利用“MATCH p=(a1:district)-[r2:发生辖区在]-(a2:event)-[r1:存在伤亡]-(a3:SWE)RETURN p”生成伤亡事故与城区关联路径图谱,伤亡事故关联路径图谱是以存在伤亡的事故为中心,以安全事故为一级关系、发生辖区为二级关系,并向外关联其它无伤亡事故的关系网络。图7为本发明实施例提供的交通行业安全生产事故中伤亡事故关联路径图谱。如图7所示,城六区安全事故数量明显高于外环县区,海淀区、朝阳区在安全生产事故基数多的情况下发生了一定数量的伤亡事故,安全形势不容乐观,反观西城区在事故基数较多的情况下并无人员伤亡,在行业管理及事故防控方面应向西城区看齐。相反在外环辖区如房山区、大兴区、怀柔区、平谷区发生安全生产事故较少,但却存在半数以上的伤亡事故。
(3)事故致因挖掘
1)关键词及主题提取
事故关键词数据量大但价值密度低,需要提取出有分析价值的关键词,考虑到一些关键词词频少但价值高的特点,本发明实施例使用改进的Tf-idf算法(所采用的Tf-idf算法与实施例一相同)对事故切分结果进行权重分析,并根据行业类别区分,形成行业事故关键词集,展示权重从大到小的关键词如表4所示。
表4各行业事故文本关键词
参考相关文献及专家建议对事故文本关键词进行分析聚类,将关键词分按致因主题分为:人为因素、设备因素及其他因素,并根据关键词推断进行致因总结,结果如表5。表中致因主题揭示出,车辆设备故障、交通从业人参与人的忽视、恶劣环境及突发情况是北京市交通行业安全事故多发的主要原因,关键词反映事故中的关键细节,致因总结是结合事故文本对致因主题进行更细致的解读。
表5关键词主题分类及总结
2)致因因素信息流匹配
为进一步分析城六区与远郊区县在数量及伤亡率上存在明显差异的特征,以关键词出现次数为主要参考对象,通过信息流匹配的方法寻找事故行业、致因主题和城区之间的关系。图8为本发明实施例提供的交通行业安全生产事故中致因因素信息流匹配图。
综合来看,如图6所示,北京市交通行业安全生产事故在第三季度普遍增多,其中7月、9月事故数量最多,这可能受夏季强降雨影响极端天气偏多,容易引发路面塌陷、道路积水等事故。如图8所示,从地域分布情况来看,城六区的事故数量远多于远郊区县。同时根据图7可知,城六区中,海淀区、朝阳区事故数量最多,远郊区县中怀柔区、平谷区、延庆区事故数量最少,但均存在伤亡情况,这可能与远郊区县工程建设及大货车较多,安全隐患仍然存在。另外根据图4、图5和图8可知,城六区事故多发的原因为轨道交通类事故频发,事故主要集中在早晚高峰时段,其中1号线、4号线、5号线、10号线事故最多,主要原因为客流量巨大,且地铁修建较早,基础设施老化等。结合图4和图8可知,从事故类型情况来看,交通类事故是出现人员伤亡的重点类型,其中人为因素在致因因素中占比最高,如司机违规操作、非机动车及行人不遵守交通规则是出租客运类事故高发原因,公共交通类事故的诱因有交通事故、车辆起火、车辆故障,其中交通事故和车辆起火是发生伤亡情况的主要诱因。根据以上安全生产事故特征,综合行业安全应急管理实际情况,可以提出交通行业相关部门提出相应的工作建议,以此促进相关部门企业深入排查隐患,提高安全生产能力和水平。
综上所述,本发明实施例将文本类型的交通行业安全事故数据,处理成价值密度更高的结构化数据,有助于挖掘交通行业安全生产事故数据中潜在的价值。基于知识图谱的分析方法展示了交通行业安全生产事故各因素间的关系,让静态的数据关联起来,从而挖掘文本数据中的知识,深入的揭示北京市交通行业安全生产现状特征。通过使用顾及事故等级的关键词挖掘方法,可以全面的挖掘各行业事故关键词,结合行业知识对致因因素进行总结,明确各行业及城区安全事故主要致因并提出建议,协助交通行业管理部门制定有针对性的管理措施,提高北京市交通行业安全生产管理水平。
图9为本发明实施例提供的基于文本挖掘的安全生产事故分析装置的结构示意图。图9所示,该基于文本挖掘的安全生产事故分析装置,包括:文本数据获取模块910,用于获取安全生产事故文本数据,其中,安全生产事故文本数据包括分属于多个事故等级的多个事故文本;关键词提取模块920,用于采用TF-IDF方法,从安全生产事故文本数据中提取多个关键词,其中,任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比;致因因素确定模块930,用于根据多个关键词,确定安全生产事故的致因因素。
在一些实施例中,当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率为根据含有当前关键词的并且与当前关键词所在的事故文本属于相同事故等级的事故文本数在含有当前关键词的事故文本总数中的占比计算得出。
在一些实施例中,任一关键词的权重还与当前关键词在其所在的事故文本中的出现频率成正比,而与当前关键词在多个事故文本中的出现频率成反比。
在一些实施例中,任一关键词的权重通过以下公式计算得出:
Scoreij=tfij×idfij
其中,Scoreij代表第i个事故文本中第j个关键词的权重,tfij代表第j个关键词在第i个事故文本中的出现频率,idfij代表第i个事故文本中第j个关键词的逆向文件频率;
当前关键词的逆向文件频率通过以下公式计算得出:
其中,mj代表含有第i个事故文本中第j个关键词的并且与第i个事故文本属于相同事故等级的事故文本的个数,Mj代表含有第i个事故文本中第j个关键词的事故文本的总数,N代表事故文本的总数,a为常数,a>0。
在一些实施例中,致因因素确定模块,包括:聚类单元,用于对多个关键词进行聚类;致因主题划分单元,用于根据多个关键词的聚类结果,将多个关键词划分至多个致因主题下,其中,多个致因主题与安全生产事故的多个致因因素一一对应;致因因素确定单元,用于根据各关键词的致因主题,确定含有各关键词的事故文本对应的安全生产事故的致因因素。
在一些实施例中,装置还包括:关键词关联关系建立单元,用于建立多个关键词与多个事故属性类别之间的关联关系;致因主题关联关系单元,用于建立对应有相同关键词的致因主题和事故属性类别之间的关联关系,并利用所对应的相同关键词的个数表示各致因主题与各事故属性类别之间的关联强度。
在一些实施例中,致因因素包括人为因素、设备因素和/或其他因素。
在一些实施例中,装置还包括:知识图谱构建模块,用于根据安全生产事故文本数据,构建知识图谱,其中,知识图谱中的实体类型包括存在伤亡的事故以及根据事故属性确定的其他实体类型。
在一些实施例中,装置还包括:关联路径图谱构建模块,用于根据知识图谱,构建存在伤亡的事故与知识图谱中其他任一类型的实体之间的关联路径图谱,其中,关联路径图谱以存在伤亡的事故全体作为中心,以存在伤亡的事故为一级关系,以知识图谱中其他任一类型的实体为二级关系,并且通过二级关系向外关联无伤亡事故。
在一些实施例中,安全生产事故文本数据为交通行业安全生产事故文本数据。
图10示出了本发明实施例的电子设备。如图10所示,电子设备1000包括:至少一个处理器1010,以及与所述至少一个处理器1010通信连接的存储器1020,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述的方法。
具体地,上述存储器1020和处理器1010经由总线1030连接在一起,能够为通用的存储器和处理器,这里不做具体限定,当处理器1010运行存储器1020存储的计算机程序时,能够执行本发明实施例中结合图1至图8所描述的各项操作和功能。
本发明实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现所述的方法。具体实现可参见方法实施例,在此不再赘述。
尽管本发明实施例的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明实施例的领域。对于熟悉本领域的人员而言,可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下,本发明实施例并不限于特定的细节和这里示出与描述的图例。
Claims (13)
1.一种基于文本挖掘的安全生产事故分析方法,其特征在于,包括:
获取安全生产事故文本数据,其中,所述安全生产事故文本数据包括分属于多个事故等级的多个事故文本;
采用TF-IDF方法,从所述安全生产事故文本数据中提取多个关键词,其中,任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比;
根据所述多个关键词,确定所述安全生产事故的致因因素。
2.如权利要求1所述的基于文本挖掘的安全生产事故分析方法,其特征在于,所述当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率为根据含有当前关键词的并且与当前关键词所在的事故文本属于相同事故等级的事故文本数在含有当前关键词的事故文本总数中的占比计算得出。
3.如权利要求1所述的基于文本挖掘的安全生产事故分析方法,其特征在于,所述任一关键词的权重还与当前关键词在其所在的事故文本中的出现频率成正比,而与当前关键词在所述多个事故文本中的出现频率成反比。
5.如权利要求1所述的基于文本挖掘的安全生产事故分析方法,其特征在于,所述根据所述多个关键词,确定所述安全生产事故的致因因素,包括:
对所述多个关键词进行聚类;
根据所述多个关键词的聚类结果,将所述多个关键词划分至多个致因主题下,其中,所述多个致因主题与安全生产事故的多个致因因素一一对应;
根据各关键词的致因主题,确定含有各关键词的事故文本对应的安全生产事故的致因因素。
6.如权利要求5所述的基于文本挖掘的安全生产事故分析方法,其特征在于,所述根据所述多个关键词,确定所述交通行业安全生产事故的致因因素之后,所述方法还包括:
建立所述多个关键词与多个事故属性类别之间的关联关系;
建立对应有相同关键词的致因主题和事故属性类别之间的关联关系,并利用所对应的相同关键词的个数表示各致因主题与各事故属性类别之间的关联强度。
7.如权利要求6所述的基于文本挖掘的安全生产事故分析方法,其特征在于,所述致因因素包括人为因素、设备因素和/或其他因素。
8.如权利要求1所述的基于文本挖掘的安全生产事故分析方法,其特征在于,所述获取安全生产事故文本数据之后,所述方法还包括:
根据所述安全生产事故文本数据,构建知识图谱,其中,所述知识图谱中的实体类型包括存在伤亡的事故以及根据事故属性确定的其他实体类型。
9.如权利要求8所述的基于文本挖掘的安全生产事故分析方法,其特征在于,所述根据所述安全生产事故文本数据,构建知识图谱之后,所述方法还包括:
根据所述知识图谱,构建存在伤亡的事故与所述知识图谱中其他任一类型的实体之间的关联路径图谱,其中,所述关联路径图谱以存在伤亡的事故全体作为中心,以所述存在伤亡的事故为一级关系,以所述知识图谱中其他任一类型的实体为二级关系,并且通过所述二级关系向外关联无伤亡事故。
10.如权利要求1所述的基于文本挖掘的安全生产事故分析方法,其特征在于,所述安全生产事故文本数据为交通行业安全生产事故文本数据。
11.一种基于文本挖掘的安全生产事故分析装置,其特征在于,包括:
文本数据获取模块,用于获取安全生产事故文本数据,其中,所述安全生产事故文本数据包括分属于多个事故等级的多个事故文本;
关键词提取模块,用于采用TF-IDF方法,从所述安全生产事故文本数据中提取多个关键词,其中,任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比;
致因因素确定模块,用于根据所述多个关键词,确定所述安全生产事故的致因因素。
12.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-10中任一项所述的方法。
13.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011148727.6A CN112364627B (zh) | 2020-10-23 | 2020-10-23 | 基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011148727.6A CN112364627B (zh) | 2020-10-23 | 2020-10-23 | 基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364627A true CN112364627A (zh) | 2021-02-12 |
CN112364627B CN112364627B (zh) | 2023-07-25 |
Family
ID=74511987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011148727.6A Active CN112364627B (zh) | 2020-10-23 | 2020-10-23 | 基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364627B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113341894A (zh) * | 2021-05-27 | 2021-09-03 | 河钢股份有限公司承德分公司 | 事故规律数据的生成方法、装置和终端设备 |
CN113868381A (zh) * | 2021-11-22 | 2021-12-31 | 中国矿业大学(北京) | 一种煤矿瓦斯爆炸事故信息抽取方法及系统 |
CN114625086A (zh) * | 2022-03-14 | 2022-06-14 | 安徽碳鑫科技有限公司 | 一种用于粉煤气化装置的实时生产指标监管系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291697A (zh) * | 2017-06-29 | 2017-10-24 | 浙江图讯科技股份有限公司 | 一种语义分析方法、电子设备、存储介质及其诊断系统 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN109460472A (zh) * | 2018-11-09 | 2019-03-12 | 北京京东金融科技控股有限公司 | 文本分类方法和装置、及电子设备 |
CN109726246A (zh) * | 2018-12-13 | 2019-05-07 | 贵州电网有限责任公司 | 一种基于数据挖掘和可视化的电网事故关联原因回溯方法 |
CN109800310A (zh) * | 2018-12-03 | 2019-05-24 | 国网浙江省电力有限公司杭州供电公司 | 一种基于结构化表达的电力运维文本分析方法 |
CN110134963A (zh) * | 2019-05-20 | 2019-08-16 | 中南大学 | 一种文本挖掘应用于道路交通事故数据处理的方法 |
US20190349321A1 (en) * | 2018-05-10 | 2019-11-14 | Royal Bank Of Canada | Machine natural language processing for summarization and sentiment analysis |
CN111091311A (zh) * | 2020-03-24 | 2020-05-01 | 浙江图讯科技股份有限公司 | 一种安全生产事故因素分析方法及系统 |
-
2020
- 2020-10-23 CN CN202011148727.6A patent/CN112364627B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291697A (zh) * | 2017-06-29 | 2017-10-24 | 浙江图讯科技股份有限公司 | 一种语义分析方法、电子设备、存储介质及其诊断系统 |
US20190349321A1 (en) * | 2018-05-10 | 2019-11-14 | Royal Bank Of Canada | Machine natural language processing for summarization and sentiment analysis |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN109460472A (zh) * | 2018-11-09 | 2019-03-12 | 北京京东金融科技控股有限公司 | 文本分类方法和装置、及电子设备 |
CN109800310A (zh) * | 2018-12-03 | 2019-05-24 | 国网浙江省电力有限公司杭州供电公司 | 一种基于结构化表达的电力运维文本分析方法 |
CN109726246A (zh) * | 2018-12-13 | 2019-05-07 | 贵州电网有限责任公司 | 一种基于数据挖掘和可视化的电网事故关联原因回溯方法 |
CN110134963A (zh) * | 2019-05-20 | 2019-08-16 | 中南大学 | 一种文本挖掘应用于道路交通事故数据处理的方法 |
CN111091311A (zh) * | 2020-03-24 | 2020-05-01 | 浙江图讯科技股份有限公司 | 一种安全生产事故因素分析方法及系统 |
Non-Patent Citations (2)
Title |
---|
沈亮 等: "基于文本挖掘的石化安全管理及可视化研究", 《化工管理》, pages 127 - 130 * |
许娜 等: "城市轨道交通建设项目安全事故致因挖掘与重要度评估", 《科技进步与对策》, vol. 35, no. 24, pages 134 - 138 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113341894A (zh) * | 2021-05-27 | 2021-09-03 | 河钢股份有限公司承德分公司 | 事故规律数据的生成方法、装置和终端设备 |
CN113868381A (zh) * | 2021-11-22 | 2021-12-31 | 中国矿业大学(北京) | 一种煤矿瓦斯爆炸事故信息抽取方法及系统 |
CN113868381B (zh) * | 2021-11-22 | 2022-03-22 | 中国矿业大学(北京) | 一种煤矿瓦斯爆炸事故信息抽取方法及系统 |
CN114625086A (zh) * | 2022-03-14 | 2022-06-14 | 安徽碳鑫科技有限公司 | 一种用于粉煤气化装置的实时生产指标监管系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112364627B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364627A (zh) | 基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质 | |
CN107704637B (zh) | 一种面向突发事件的知识图谱构建方法 | |
Kumar et al. | Analysing road accident data using association rule mining | |
CN108717786B (zh) | 一种基于普适性元规则的交通事故致因挖掘方法 | |
CN113254594B (zh) | 一种面向智慧电厂的安全知识图谱构建方法及系统 | |
CN107229712A (zh) | 一种面向公共安全事件信息获取的时空聚类方法 | |
CN110533212A (zh) | 基于大数据的城市内涝舆情监测预警方法 | |
CN111179141B (zh) | 一种基于双阶段分类的事故多发路段识别方法 | |
CN109800349A (zh) | 基于用户发布内容量化新闻价值的数据处理方法和装置 | |
CN110188092B (zh) | 一种挖掘人民调解中新型矛盾纠纷的系统及方法 | |
Huang et al. | Quantitative risk assessment of railway intrusions with text mining and fuzzy Rule-Based Bow-Tie model | |
CN113886596A (zh) | 基于城市要素和多灾害融合的韧性城市知识图谱构建方法 | |
CN112948595A (zh) | 城市群运行状态知识图谱构建方法、系统及设备 | |
Rahmadan et al. | Sentiment analysis and topic modelling using the lda method related to the flood disaster in jakarta on twitter | |
CN114003683A (zh) | 基于自然语言处理与关联规则的警情分析方法 | |
CN114510566A (zh) | 基于工单的热词挖掘、分类和分析的方法和系统 | |
CN112052405B (zh) | 一种基于司机经验的寻客区域推荐方法 | |
CN110928922B (zh) | 一种基于大数据挖掘的公共政策分析模型部署方法及其系统 | |
Nayak et al. | Application of text mining in analysing road crashes for road asset management | |
CN115982309A (zh) | 一种基于大数据的轨道交通数据分析方法 | |
CN116013084A (zh) | 交通管控场景确定方法、装置、电子设备及存储介质 | |
Khabiri et al. | Application of data mining algorithm to investigate the effect of intelligent transportation systems on road accidents reduction by decision tree | |
Tian et al. | Design of vehicle defect risk assessment system based on multi-source information fusion | |
Xu et al. | A Weighted Information Fusion Method Based on Sentiment Knowledge for Emergency Decision-Making Considering the Public and Experts | |
Das et al. | Unlocking the narrative: using text mining to reveal the hidden factors behind suicide related traffic crashes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |