CN112364627A

CN112364627A - 基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质

Info

Publication number: CN112364627A
Application number: CN202011148727.6A
Authority: CN
Inventors: 张健钦; 程宇航; 李江川; 张安
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-02-12
Anticipated expiration: 2040-10-23
Also published as: CN112364627B

Abstract

本发明实施例公开了基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质。该方法包括：获取安全生产事故文本数据，其中，所述安全生产事故文本数据包括分属于多个事故等级的多个事故文本；采用TF‑IDF方法，从所述安全生产事故文本数据中提取多个关键词，其中，任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比；根据所述多个关键词，确定所述安全生产事故的致因因素。基于该方法和装置，可以实现对于安全生产事故内在特征的有效挖掘，进而提高对于安全生产事故分析的准确性。

Description

基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质。

背景技术

交通行业是我国经济结构中的先行和基础产业，是制约经济与社会发展的重要因素。尽管北京市交通行业事故起数、死亡失踪人数、重特大事故逐年下降，但交通行业安全生产事故时有发生，安全生产形势仍然十分严峻。然而现阶段通过人工监管的方式，远远不能满足目前巨大体量的交通行业管理需要，应急防控能力亟待增强。

交通行业安全生产事故数据采用文本的形式进行人工记录并存储，有效挖掘并利用对提升安全生产事故的防控治理工作能力具有重大意义。目前，国内学者在交通行业领域内的研究有：李凤伟等学者通过对2003-2010年期间发生的118个地铁安全生产事故进行统计分析，从事故发生时间、所在城市、事故类型、所在区域等方面揭示地铁施工事故规律；林庆丰、邓院昌选取2017年发生的3337起交通事故，分析事故严重程度的影响因素。这些研究仅仅是基于简单的统计分析，没有深入挖掘。近年来随着大数据技术的兴起，利用多种方式处理数据并进行知识挖掘及可视化分析成为研究热点，但目前交通行业内的研究仍然不能有效揭示出安全生产事故的内在特征，进而影响对于安全生产事故的致因因素的分析。

发明内容

本发明实施例的一个目的是解决至少上述问题和/或缺陷，并提供至少后面将说明的优点。

本发明实施例提供了基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质，可以实现对于安全生产事故内在特征的有效挖掘，进而提高对于事故致因因素分析的准确性。

第一方面，提供了一种基于文本挖掘的安全生产事故分析方法，包括：

获取安全生产事故文本数据，其中，所述安全生产事故文本数据包括分属于多个事故等级的多个事故文本；

采用TF-IDF方法，从所述安全生产事故文本数据中提取多个关键词，其中，任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比；

根据所述多个关键词，确定所述安全生产事故的致因因素。

可选地，所述当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率为根据含有当前关键词的并且与当前关键词所在的事故文本属于相同事故等级的事故文本数在含有当前关键词的事故文本总数中的占比计算得出。

可选地，所述任一关键词的权重还与当前关键词在其所在的事故文本中的出现频率成正比，而与当前关键词在所述多个事故文本中的出现频率成反比。

可选地，所述任一关键词的权重通过以下公式计算得出：

Score_ij＝tf_ij×idf_ij

其中，Score_ij代表第i个事故文本中第j个关键词的权重，tf_ij代表第j个关键词在第i个事故文本中的出现频率，idf_ij代表第i个事故文本中第j个关键词的逆向文件频率；

所述当前关键词的逆向文件频率通过以下公式计算得出：

其中，m_j代表含有第i个事故文本中第j个关键词的并且与第i个事故文本属于相同事故等级的事故文本的个数，M_j代表含有第i个事故文本中第j个关键词的事故文本的总数，N代表事故文本的总数，a为常数，a＞0。

可选地，所述根据所述多个关键词，确定所述安全生产事故的致因因素，包括：

对所述多个关键词进行聚类；

根据所述多个关键词的聚类结果，将所述多个关键词划分至多个致因主题下，其中，所述多个致因主题与安全生产事故的多个致因因素一一对应；

根据各关键词的致因主题，确定含有各关键词的事故文本对应的安全生产事故的致因因素。

可选地，所述根据所述多个关键词，确定所述交通行业安全生产事故的致因因素之后，所述方法还包括：

建立所述多个关键词与多个事故属性类别之间的关联关系；

建立对应有相同关键词的致因主题和事故属性类别之间的关联关系，并利用所对应的相同关键词的个数表示各致因主题与各事故属性类别之间的关联强度。

可选地，所述致因因素包括人为因素、设备因素和/或其他因素。

可选地，所述获取安全生产事故文本数据之后，所述方法还包括：

根据所述安全生产事故文本数据，构建知识图谱，其中，所述知识图谱中的实体类型包括存在伤亡的事故以及根据事故属性确定的其他实体类型。

可选地，所述根据所述安全生产事故文本数据，构建知识图谱之后，所述方法还包括：

根据所述知识图谱，构建存在伤亡的事故与所述知识图谱中其他任一类型的实体之间的关联路径图谱，其中，所述关联路径图谱以存在伤亡的事故全体作为中心，以所述存在伤亡的事故为一级关系，以所述知识图谱中其他任一类型的实体为二级关系，并且通过所述二级关系向外关联无伤亡事故。

可选地，所述安全生产事故文本数据为交通行业安全生产事故文本数据。

第二方面，提供了一种基于文本挖掘的安全生产事故分析装置，包括：

文本数据获取模块，用于获取安全生产事故文本数据，其中，所述安全生产事故文本数据包括分属于多个事故等级的多个事故文本；

关键词提取模块，用于采用TF-IDF方法，从所述安全生产事故文本数据中提取多个关键词，其中，任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比；

致因因素确定模块，用于根据所述多个关键词，确定所述安全生产事故的致因因素。

可选地，所述任一关键词的权重通过以下公式计算得出：

Score_ij＝tf_ij×idf_ij

所述当前关键词的逆向文件频率通过以下公式计算得出：

可选地，所述致因因素确定模块，包括：

聚类单元，用于对所述多个关键词进行聚类；

致因主题划分单元，用于根据所述多个关键词的聚类结果，将所述多个关键词划分至多个致因主题下，其中，所述多个致因主题与安全生产事故的多个致因因素一一对应；

致因因素确定单元，用于根据各关键词的致因主题，确定含有各关键词的事故文本对应的安全生产事故的致因因素。

可选地，所述装置还包括：

关键词关联关系建立单元，用于建立所述多个关键词与多个事故属性类别之间的关联关系；

致因主题关联关系单元，用于建立对应有相同关键词的致因主题和事故属性类别之间的关联关系，并利用所对应的相同关键词的个数表示各致因主题与各事故属性类别之间的关联强度。

可选地，所述装置还包括：

知识图谱构建模块，用于根据所述安全生产事故文本数据，构建知识图谱，其中，所述知识图谱中的实体类型包括存在伤亡的事故以及根据事故属性确定的其他实体类型。

可选地，所述装置还包括：

关联路径图谱构建模块，用于根据所述知识图谱，构建存在伤亡的事故与所述知识图谱中其他任一类型的实体之间的关联路径图谱，其中，所述关联路径图谱以存在伤亡的事故全体作为中心，以所述存在伤亡的事故为一级关系，以所述知识图谱中其他任一类型的实体为二级关系，并且通过所述二级关系向外关联无伤亡事故。

第三方面，提供了一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行以上所述的方法。

第四方面，提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时，实现以上所述的方法。

本发明实施例至少包括以下有益效果：

本发明实施例提供的基于文本挖掘的安全生产事故分析方法和装置，首先获取安全生产事故文本数据，其中，安全生产事故文本数据包括分属于多个事故等级的多个事故文本，之后采用TF-IDF方法，从所述安全生产事故文本数据中提取多个关键词，其中，任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比，最后根据多个关键词，确定安全生产事故的致因因素。基于该方法和装置，采用TF-IDF方法从安全生产事故文本数据中提取关键词，并且提取过程中使关键词的权重与关键词在相等事故等级的事故文本中的出现频率成正比，从而保证所提取的关键词能够反映安全生产事故的事故等级，进而保证所提取的关键词能够更加准确地反映安全生产事故的内在特征。即，基于该方法和装置，可以实现对于安全生产事故内在特征的有效挖掘，进而提高对于安全生产事故分析的准确性。

本发明实施例的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明实施例的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明实施例一提供的基于文本挖掘的安全生产事故分析方法的流程图；

图2为本发明实施例二提供的基于文本挖掘的安全生产事故分析方法的流程图；

图3为本发明实施例三提供的基于文本挖掘的安全生产事故分析方法的流程图；

图4为本发明实施例三提供的交通行业安全生产事故知识图谱示意图；

图5为本发明实施例三提供的以交通行业安全生产事故中事故发生辖区与事故所属领域为分析对象的Gephi可视化分析图；

图6为本发明实施例三提供的以交通行业安全生产事故中事故发生辖区与事故发生时间为分析对象的Gephi可视化分析图；

图7为本发明实施例三提供的交通行业安全生产事故中伤亡事故关联路径图谱；

图8为本发明实施例三提供的交通行业安全生产事故中致因因素信息流匹配图；

图9为本发明一个实施例提供的基于文本挖掘的安全生产事故分析装置的结构示意图；

图10为本发明一个实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图对本发明实施例做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

实施例一

图1为本发明实施例提供的基于文本挖掘的安全生产事故分析方法的流程图，该方法由具有处理能力的系统、服务器或基于文本挖掘的安全生产事故分析装置执行。如图1所示，所述方法包括：

步骤110，获取安全生产事故文本数据，其中，安全生产事故文本数据包括分属于多个事故等级的多个事故文本。

安全生产事故数据通常为文本格式，利用效率较低。为了提高数据管理及分析效率，需要从文本数据中挖掘有价值的字段，即从文本数据中提取关键词，从而实现对于安全生产事故内在特征的挖掘。

安全生产事故文本数据可以是台账数据，由相关管理部门日常业务记录采集。台账数据内容为事故发生后责任单位第一时间向管理部门上报的文字性描述，内容包括事故发生时间、事故发生位置信息和关键细节，叙述方式较为统一，有利于文本数据的挖掘。

在一些实施例中，在提取关键词之前，需要先对安全生产事故文本数据进行文本处理，即先对安全生产事故文本数据进行分词处理。为得到最优的分词质量，避免识别不到领域专业词汇，可以结合行业相关规范，建立行业安全生产领域用户字典及停用字典，然后利用停用字典去除无意义的词项，并基于用户字典及对数据内容进行切分。基于分词结果，继续对各事故文本进行关键词的提取。

步骤120，采用TF-IDF方法，从所述安全生产事故文本数据中提取多个关键词，其中，任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比。

美国安全工程师Heinrich在通过分析大量安全事故后提出“安全金字塔”理论，即在安全生产事故中存在伤亡、轻伤和无伤害的事故比例为1:29:300。我国根据安全生产事故造成的人员伤亡和经济损失将事故定义为重大事故、较大事故和一般事故，重大事故数量较少但研究价值极大。

Tf-idf(term frequency-inverse document frequency)是目前应用较多的关键词提取算法，算法核心思想是：词语权重与词语在数据集出现频率成反比，与词语在该条数据中出现频率成正比。然而，现有的Tf-idf算法并未考虑安全生产事故中事故等级对于关键词的贡献，因此所提取的关键词不能有效反映安全生产事故的内在特征。本发明实施例在采用TF-IDF方法从安全生产事故文本数据中提取关键词时将关键词在相同事故等级的事故文本中的出现频率(即关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率)作为计算关键词权重的一个重要参数，并且使关键词权重与关键词在相等事故等级的事故文本中的出现频率成正比，从而使得所提取出的关键词能够反映安全生产事故的事故等级，进而保证所提取的关键词能够更加有效地反映安全生产事故的内在特征，并最终有助于准确分析安全生产事故的致因因素。

进一步地，在一些实施例中，为了全面反映关键词的类别区分能力，在将关键词在相同事故等级的事故文本中的出现频率作为计算关键词权重的重要参数之外，同时还考虑当前关键词在其所在的事故文本中的出现频率以及当前关键词在多个事故文本中的出现频率，并且任一关键词的权重与当前关键词在其所在的事故文本中的出现频率成正比，而与当前关键词在多个事故文本中的出现频率成反比。

在一些实施例中，当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率为根据含有当前关键词的并且与当前关键词所在的事故文本属于相同事故等级的事故文本数在含有当前关键词的事故文本总数中的占比计算得出。

更为具体地，在一些实施例中，通过以下公式计算任一关键词的权重：

Score_ij＝tf_ij×idf_ij (1)

其中，Score_ij代表第i个事故文本中第j个关键词的权重，tf_ij代表第j个关键词在第i个事故文本中的出现频率，idf_ij代表第i个事故文本中第j个关键词的逆向文件频率。

当前关键词的逆向文件频率idf_ij通过以下公式计算得出：

当前关键词在当前事故文本中的出现频率tf_ij通过以下公式计算

其中，n_ij代表第j个关键词在第i个事故文本中的出现次数，∑_kn_k,j代表第i个事故文本中第j个关键词在全部的事故文本中出现次数，k代表事故文本的编号。

具体地，依据公式(1)至公式(3)计算出某一个事故文本中各词语的权重，并依据权重排序选取其中权重排序位于前多少名或者权重大于阈值的词语作为关键词，其中，权重排序位于前多少名的具体名次或者权重的阈值可以根据实际需要进行选择，本发明在此不再赘述。

这里，当在相同的事故等级的若干事故文本中有多于一个事故文本都提取出相同的词语时，还可以将从不同事故文本提取的词语权重相加，得到该词语的最终权重值，并利用这个最终权重值确定该词语是否作为关键词。当所获取的安全生产事故文本数据为某一个行业的具体领域(如交通行业下的轨道行业)的数据，则可以实现对于某一个行业下的具体领域的关键词的提取，所提取的关键词则反映了该具体领域中不同事故等级对于安全生产事故的内在特征的影响。另外，也可以针对一个行业的安全生产事故文本数据进行关键词提取，然后针对各关键词所在的事故文本所属的具体领域确定各关键词的具体领域，再在具体领域下关键词的分布情况进行分析。

步骤130，根据多个关键词，确定安全生产事故的致因因素。

在一些实施例中，根据多个关键词，确定安全生产事故的致因因素，包括：对多个关键词进行聚类；根据多个关键词的聚类结果，将多个关键词划分至多个致因主题下，其中，多个致因主题与安全生产事故的多个致因因素一一对应；根据各关键词的致因主题，确定含有各关键词的事故文本对应的安全生产事故的致因因素。

具体地，参考相关文献及专家建议对关键词进行分析聚类，将关键词划分至多个致因主题下，根据各关键词及其所属的致因主题确定含有相应关键词的事故文本对应的安全生产事故的致因因素，并对安全生产事故进行致因总结。在一些示例中，关键词的致因主题可以包括人为因素、设备因素及其他因素。致因主题可以揭示出安全事故生产的主要原因，各致因主题下所包含的关键词可以反映安全生产事故中的关键细节，致因总结则属于结合事故文本对致因主题进行更细致的解读，从而更为准确和全面的揭示安全生产事故的内在特征。上述对关键词的聚类分析可以采用现有的聚类方法，例如k-means算法。本发明实施例对此不做具体限定。

在一些实施例中，还可以建立多个关键词与多个事故属性类别之间的关联关系；建立对应有相同关键词的致因主题和事故属性类别之间的关联关系，并利用所对应的相同关键词的个数表示各致因主题与各事故属性类别之间的关联强度。

其中，事故属性用于描述安全生产事故在某一个维度上的特征，也可以体现为当从某一个维度上对安全生产事故进行分类时安全生产事故所属的类别。事故属性类别即是基于某一事故属性所形成的分类。具体地，事故属性可以是事故发生时间、事故发生位置、事故所属领域、事故类型等。当事故属性为事故发生时间时，事故属性类别可以是1月、2月、···、12月，也可以是第一季度、第二季度、第三季度和第四季度。当事故属性为事故发生位置时，事故属性类别可以是朝阳区、海淀区等，还可以是城六区、外环辖区，可以是北京市、上海市等。当事故属性为事故所属领域时，事故属性类别可以是某一个具体行业下的细分领域，比如交通行业下的轨道行业、路政行业和运输行业。根据对于安全生产事故的分析需要，可以对事故属性进行选择，从而从一个特定的维度对安全生产事故进行具体的分析。

通过对各关键词进行分析，可以确定各关键词所对应的事故属性类别，从而建立起多个关键词与多个事故属性类别之间的关联关系。具体地，可以根据事故所属领域对所提取的关键词进行细分。事故所属领域可以是某一个具体行业下的细分领域，例如当安全生产事故文本数据来自于交通行业时，则事故所属领域可以包括交通行业下的轨道行业、路政行业和运输行业。基于上述细分的过程，可以进一步了解在各细分领域下安全生产事故的发生情况，从而实现对于整个行业中安全生产事故的全面分析。

进一步地，利用多个关键词与多个事故属性类别之间的关联关系以及多个关键词与多个致因主题的关联关系，可以建立起致因主题与事故属性类别之间的关联关系，并且可以通过致因主题与事故属性类别所共同对应的关键词数量表征二者之间的关联强度。

比如，当事故属性为事故所属领域时，各事故所属领域对应有关键词集合，比如轨道行业下对应有10个关键词，其中包括“故障”、“信号”、“车辆”等关键词，各致因主题下也对应有关键词集合，比如在设备因素下对应的关键词有“故障”、“信号”、“车辆”“脚手架”，通过将两个关键词集合进行比较，可以确定事故所属领域和致因主题所共同对应的关键词为“故障”、“信号”、“车辆”，则可以判断轨道行业中安全生产事故的发生有30％属于设备因素。再比如，当事故属性为事故发生位置时，比如依据城六区和外环辖区对关键词进行划分。通过将城六区和外环辖区的关键词集合与设备因素、人为因素和其他因素的关键词集合进行比较，可以确定城六区分别与设备因素、人为因素、其他因素之间所共同对应的关键词，从而可以确定城六区和外环辖区发生的安全生产事故中由各因素导致的事故比例。

进一步地，还可以利用信息流匹配的方法直观地显示致因主题、事故属性类别之间的关联关系和关联强度，同时还可以显示不同的事故属性之间的关联关系和关联强度。

综上所述，本发明实施例提供的基于文本挖掘的安全生产事故分析方法，首先获取安全生产事故文本数据，其中，安全生产事故文本数据包括分属于多个事故等级的多个事故文本，之后采用TF-IDF方法，从所述安全生产事故文本数据中提取多个关键词，其中，任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比，最后根据多个关键词，确定安全生产事故的致因因素。基于该方法，采用TF-IDF方法从安全生产事故文本数据中提取关键词，并且提取过程中使关键词的权重与关键词在相等事故等级的事故文本中的出现频率成正比，从而保证所提取的关键词能够反映安全生产事故的事故等级，进而保证所提取的关键词能够更加准确地反映安全生产事故的内在特征。即，基于该方法，可以实现对于安全生产事故内在特征的有效挖掘，进而提高对于事故分析的准确性。

实施例二

图2为本发明实施例提供的基于文本挖掘的安全生产事故分析方法的流程图，该方法由具有处理能力的系统、服务器或基于文本挖掘的安全生产事故分析装置执行。如图2所示，所述方法包括：

步骤210，获取安全生产事故文本数据，其中，安全生产事故文本数据包括分属于多个事故等级的多个事故文本。

本步骤与实施例一中步骤110的实现过程一致，在此不再赘述。

步骤220，根据安全生产事故文本数据，构建知识图谱，其中，知识图谱中的实体类型包括存在伤亡的事故以及根据事故属性确定的其他实体类型。

知识图谱是语义网络的一种表现形式，知识是以三元组的结构存放，本质是展示实体与实体之间关系的图。在知识图谱中，当两个实体之间存在关系，则这两个实体以及二者之间的关系构成一个三元组(h,r,t)，其中，h代表头实体，t代表尾实体，r代表头实体和尾实体之间的关系。知识图谱在知识管理及应用方面具有多方面的优势：(1)语义网络的知识存储模式拓展性强，有利于交通行业知识的持久化存储。(2)将文本类型的非结构化数据，处理成价值密度更高的结构化数据，存储在图数据库中。(3)便于交通行业安全生产突发事件知识的整合与扩展。

安全生产事故的发生虽然具有突发性和不可预测性，但也是由一系列不稳定因素和事件相继作用的结果，事故致因论指出人和物的不稳定的状态是造成事故发生的主要原因，因此可以认为事故的发生与时间、空间具有一定的耦合性。故本发明实施例基于安全生产事故文本数据，使用知识图谱挖掘安全生产事故的时空特征。

在一些实施例中，在构建知识图谱以及提取关键词之前，可以先对安全生产事故文本数据进行文本处理，即先对安全生产事故文本数据进行分词处理。为得到最优的分词质量，避免识别不到领域专业词汇，可以结合行业相关规范，建立行业安全生产领域用户字典及停用字典，然后利用停用字典去除无意义的词项，并基于用户字典及对数据内容进行切分。

进一步地，分词结果需要利用爬虫技术根据城市情况、天气情况进行知识补全，并进行实体识别及关系抽取，提取出事故发生位置、事故类型、事故发生时间、事故所属领域以及存在伤亡的事故等关键知识实体及关系。这里，事故发生位置还可以分别使用不同的实体表示，如，在对交通行业安全生产事故进行分析时，使用事故发生辖区和事故发生街道两个类型的实体来表示事故发生位置。以某交通事故为例，日常业务记录如下：2018年3月18日台账内容，6点08分运通126路(京AK0740)行驶到海淀区成府路与学院路之间路口，由西向北左转弯时，车辆左前部与一由西向东横过马路的环卫工人接触，环卫工人受伤，随后被送往999急救中心救治，此事故由海淀区清河交通队处理，责任待定。针对该事故文本，所识别出的各实体以及各实体类型可以包括：海淀区(事故发生辖区)，地面公交(事故类型)，成府路/学院路(事故发生街道)，事故发生时间(3月18日)，1人受伤(存在伤亡的事故)，所提取的关系以及关系类型可以包括：事故类型是，发生辖区在，发生道路在，发生日期在等等。

通过对某一行业的安全生产事故进行知识图谱的构建，为后续知识挖掘提供数据基础，也为更多先进的技术应用例如语义搜索、智能问答、专家系统、主动推荐等提供数据服务。

在一些示例中，可以使用Neo4j图数据库对分词结果进行结构化存储，再使用Gephi图谱可视化软件实现知识图谱的构建，通过多元、分时、动态的可视化展示，对安全生产事故文本数据的内在特征进行挖掘。

步骤230，根据知识图谱，构建存在伤亡的事故与知识图谱中其他任一类型的实体之间的关联路径图谱，其中，关联路径图谱以存在伤亡的事故全体作为中心，以存在伤亡的事故为一级关系，以知识图谱中其他任一类型的实体为二级关系，并且通过二级关系向外关联无伤亡事故。

人员伤亡是日常安全生产活动中最需要预防的，为挖掘存在伤亡的事故的空间特征，本发明实施例中基于所构建的知识图谱，进一步构建存在伤亡的事故与知识图谱中其他任一类型的实体之间的关联路径图谱。其中，伤亡事故关联路径图谱是以存在伤亡的事故全体为中心，以存在伤亡的事故个体为一级关系、以其他任一类型的实体为二级关系，并向外关联其它无伤亡事故的关系网络。这里，其他任一类型的实体可以是知识图谱中的事故发生位置、事故类型、事故发生时间或事故所属领域，从而通过关联路径图谱表示存在伤亡的事故与事故发生位置、事故类型、事故发生时间或事故所属领域之间的关系。例如，当构建存在伤亡的事故与事故发生辖区这一类型实体之间的关系路径图谱时，则可以反映出各事故发生辖区与存在伤亡的事故之间的关系，即存在伤亡的事故在各事故发生辖区的分布情况。

步骤240，采用TF-IDF方法，从所述安全生产事故文本数据中提取多个关键词，其中，任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比。

本步骤与实施例一中步骤120的实现过程一致，在此不再赘述。

步骤250，根据多个关键词，确定安全生产事故的致因因素。

本步骤与实施例一中步骤130的实现过程一致，在此不再赘述。

综上所述，本发明实施例提供的基于文本挖掘的安全生产事故分析方法，首先获取安全生产事故文本数据，其中，安全生产事故文本数据包括分属于多个事故等级的多个事故文本，之后根据安全生产事故文本数据，构建知识图谱，其中，知识图谱中的实体包括事故发生位置、事故类型、事故发生时间、事故所属领域和/或存在伤亡的事故，再根据知识图谱，构建存在伤亡的事故与知识图谱中其他任一类型的实体之间的关联路径图谱，其中，关联路径图谱以存在伤亡的事故全体作为中心，以存在伤亡的事故为一级关系，以知识图谱中其他任一类型的实体为二级关系，并且通过二级关系向外关联无伤亡事故，然后采用TF-IDF方法，从所述安全生产事故文本数据中提取多个关键词，其中，任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比，最后根据多个关键词，确定安全生产事故的致因因素。基于该方法，通过构建知识图谱，将安全生产事故中静态的数据关联起来，从而挖掘出安全生产事故文本数据中的知识，深入揭示安全生产事故的内在特征，并采用TF-IDF方法从安全生产事故文本数据中提取关键词，并且提取过程中使关键词的权重与关键词在相等事故等级的事故文本中的出现频率成正比，从而保证所提取的关键词能够反映安全生产事故的事故等级，进而保证所提取的关键词能够更加准确地反映安全生产事故的内在特征。即，基于该方法，可以实现对于安全生产事故内在特征的有效挖掘，进而提高对于事故分析的准确性。

实施例三

以下结合一个具体场景来描述本发明实施例提供的基于文本挖掘的安全生产事故分析方法。

图3为本发明又一个实施例提供的基于文本挖掘的安全生产事故分析方法的流程图。本发明实施例以交通行业安全生产事故文本数据为分析对象，分析方法主要包括文本数据处理、事故特征挖掘、事故致因挖掘、结果分析及建议4个主要步骤。

(1)文本数据处理

本发明实施例选取北京市交通行业安全生产事故台账数据，由相关管理部门日常业务记录采集。台账数据内容为事故发生后责任单位第一时间向管理部门上报的文字性描述，内容包括事故的发生时间、位置信息和关键细节，叙述方式较为统一，有利于文本数据的挖掘，原始数据内容见表1。

表1交通行业安全生产事故原始数据

本发明实施例使用python语言编程实现jieba分词功能，为得到最好的分词质量，避免识别不到领域专业词汇，结合交通行业相关规范，建立交通行业安全生产领域用户字典及停用字典。首先利用停用字典去除无意义的词项，并基于用户字典及对数据内容进行切分，切分结果示例如表2所示。

表2文本数据分词结果

(2)事故特征挖掘

1)知识图谱构建

交通行业安全生产事故的发生虽然具有突发性和不可预测性，但也是由一系列不稳定因素和事件相继作用的结果，可以认为事故的发生与时间、空间具有一定的耦合性。故基于交通行业安全生产事故文本数据，通过Neo4j图数据库结构化存储后，使用Gephi及知识图谱关联路径挖掘事故时空特征。分词结果需要利用爬虫技术根据城市情况、天气情况进行知识补全，并进行实体识别及关系抽取，提取出发生辖区、事件类型、发生时间、发生路段等关键知识实体及关系。以某交通事故为例，日常业务记录如下：2018年3月18日台账内容，6点08分运通126路(京AK0740)行驶到海淀区成府路与学院路之间路口，由西向北左转弯时，车辆左前部与一由西向东横过马路的环卫工人接触，环卫工人受伤，随后被送往999急救中心救治，此事故由海淀区清河交通队处理,责任待定。根据以上数据使用基于用户字典的分词技术识别出实体关系如表3。

表3某事故描述中抽取的实体及关系

使用python中pandas和Py2neo工具包，编程实现自动创建实体节点并进行实体间的关系连接。待数据入库后，Neo4j根据已处理数据自动建立实体并根据数据进行关系连接，初步生成交通行业安全生产事故知识图谱。图4为本发明实施例提供的交通行业安全生产事故知识图谱示意图，图中同类实体表现为同一种颜色及尺寸，文字标注展示实体名与实体间关系。通过交通行业安全生产领域知识图谱的构建，为后续知识挖掘提供数据基础，也为更多先进的技术应用例如语义搜索、智能问答、专家系统、主动推荐等提供数据服务。

2)Gephi可视化分析

研究表明，人脑对于视觉信息处理的速度是书面信息的十倍，将Neo4j数据库按需求引入Gephi软件，可以生成简洁、直观的实体知识图谱。选取事故发生辖区、事故类型、事故发生月份与事故所属领域为分析对象，将数据导入软件生成图谱。图5为本发明实施例提供的以交通行业安全生产事故中事故发生辖区与事故所属领域为分析对象的Gephi可视化分析图。图6为本发明实施例提供的以交通行业安全生产事故中事故发生辖区与事故发生时间为分析对象的Gephi可视化分析图。如图5和图6所示，每一个圆代表一个实体，实体相关事故的数量与圆的半径及文字大小成正比，半径越大相关事故数量越多。图5和图6中可发现，朝阳区及海淀区是北京市交通行业安全生产类突事故发生最频繁的两个行政区，且路政行业和运输行业的事故相较其它类型事故较多。在时间维度上分析，北京市6月、7月、9月安全生产事故数明显偏多，这可能与第三季度恶劣天气较多有关。

3)知识图谱关联路径可视化分析

人员伤亡是交通行业日常安全生产活动中最需要预防的，为挖掘存在伤亡事故的空间特征，利用“MATCH p＝(a1:district)-[r2:发生辖区在]-(a2:event)-[r1:存在伤亡]-(a3:SWE)RETURN p”生成伤亡事故与城区关联路径图谱，伤亡事故关联路径图谱是以存在伤亡的事故为中心，以安全事故为一级关系、发生辖区为二级关系，并向外关联其它无伤亡事故的关系网络。图7为本发明实施例提供的交通行业安全生产事故中伤亡事故关联路径图谱。如图7所示，城六区安全事故数量明显高于外环县区，海淀区、朝阳区在安全生产事故基数多的情况下发生了一定数量的伤亡事故，安全形势不容乐观，反观西城区在事故基数较多的情况下并无人员伤亡，在行业管理及事故防控方面应向西城区看齐。相反在外环辖区如房山区、大兴区、怀柔区、平谷区发生安全生产事故较少，但却存在半数以上的伤亡事故。

(3)事故致因挖掘

1)关键词及主题提取

事故关键词数据量大但价值密度低，需要提取出有分析价值的关键词，考虑到一些关键词词频少但价值高的特点，本发明实施例使用改进的Tf-idf算法(所采用的Tf-idf算法与实施例一相同)对事故切分结果进行权重分析，并根据行业类别区分，形成行业事故关键词集，展示权重从大到小的关键词如表4所示。

表4各行业事故文本关键词

参考相关文献及专家建议对事故文本关键词进行分析聚类，将关键词分按致因主题分为：人为因素、设备因素及其他因素，并根据关键词推断进行致因总结，结果如表5。表中致因主题揭示出，车辆设备故障、交通从业人参与人的忽视、恶劣环境及突发情况是北京市交通行业安全事故多发的主要原因，关键词反映事故中的关键细节，致因总结是结合事故文本对致因主题进行更细致的解读。

表5关键词主题分类及总结

2)致因因素信息流匹配

为进一步分析城六区与远郊区县在数量及伤亡率上存在明显差异的特征，以关键词出现次数为主要参考对象，通过信息流匹配的方法寻找事故行业、致因主题和城区之间的关系。图8为本发明实施例提供的交通行业安全生产事故中致因因素信息流匹配图。

综合来看，如图6所示，北京市交通行业安全生产事故在第三季度普遍增多，其中7月、9月事故数量最多，这可能受夏季强降雨影响极端天气偏多，容易引发路面塌陷、道路积水等事故。如图8所示，从地域分布情况来看，城六区的事故数量远多于远郊区县。同时根据图7可知，城六区中，海淀区、朝阳区事故数量最多，远郊区县中怀柔区、平谷区、延庆区事故数量最少，但均存在伤亡情况，这可能与远郊区县工程建设及大货车较多，安全隐患仍然存在。另外根据图4、图5和图8可知，城六区事故多发的原因为轨道交通类事故频发，事故主要集中在早晚高峰时段，其中1号线、4号线、5号线、10号线事故最多，主要原因为客流量巨大，且地铁修建较早，基础设施老化等。结合图4和图8可知，从事故类型情况来看，交通类事故是出现人员伤亡的重点类型，其中人为因素在致因因素中占比最高，如司机违规操作、非机动车及行人不遵守交通规则是出租客运类事故高发原因，公共交通类事故的诱因有交通事故、车辆起火、车辆故障，其中交通事故和车辆起火是发生伤亡情况的主要诱因。根据以上安全生产事故特征，综合行业安全应急管理实际情况，可以提出交通行业相关部门提出相应的工作建议，以此促进相关部门企业深入排查隐患，提高安全生产能力和水平。

综上所述，本发明实施例将文本类型的交通行业安全事故数据，处理成价值密度更高的结构化数据，有助于挖掘交通行业安全生产事故数据中潜在的价值。基于知识图谱的分析方法展示了交通行业安全生产事故各因素间的关系，让静态的数据关联起来，从而挖掘文本数据中的知识，深入的揭示北京市交通行业安全生产现状特征。通过使用顾及事故等级的关键词挖掘方法，可以全面的挖掘各行业事故关键词，结合行业知识对致因因素进行总结，明确各行业及城区安全事故主要致因并提出建议，协助交通行业管理部门制定有针对性的管理措施，提高北京市交通行业安全生产管理水平。

图9为本发明实施例提供的基于文本挖掘的安全生产事故分析装置的结构示意图。图9所示，该基于文本挖掘的安全生产事故分析装置，包括：文本数据获取模块910，用于获取安全生产事故文本数据，其中，安全生产事故文本数据包括分属于多个事故等级的多个事故文本；关键词提取模块920，用于采用TF-IDF方法，从安全生产事故文本数据中提取多个关键词，其中，任一关键词的权重与当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率成正比；致因因素确定模块930，用于根据多个关键词，确定安全生产事故的致因因素。

在一些实施例中，任一关键词的权重还与当前关键词在其所在的事故文本中的出现频率成正比，而与当前关键词在多个事故文本中的出现频率成反比。

在一些实施例中，任一关键词的权重通过以下公式计算得出：

Score_ij＝tf_ij×idf_ij

当前关键词的逆向文件频率通过以下公式计算得出：

在一些实施例中，致因因素确定模块，包括：聚类单元，用于对多个关键词进行聚类；致因主题划分单元，用于根据多个关键词的聚类结果，将多个关键词划分至多个致因主题下，其中，多个致因主题与安全生产事故的多个致因因素一一对应；致因因素确定单元，用于根据各关键词的致因主题，确定含有各关键词的事故文本对应的安全生产事故的致因因素。

在一些实施例中，装置还包括：关键词关联关系建立单元，用于建立多个关键词与多个事故属性类别之间的关联关系；致因主题关联关系单元，用于建立对应有相同关键词的致因主题和事故属性类别之间的关联关系，并利用所对应的相同关键词的个数表示各致因主题与各事故属性类别之间的关联强度。

在一些实施例中，致因因素包括人为因素、设备因素和/或其他因素。

在一些实施例中，装置还包括：知识图谱构建模块，用于根据安全生产事故文本数据，构建知识图谱，其中，知识图谱中的实体类型包括存在伤亡的事故以及根据事故属性确定的其他实体类型。

在一些实施例中，装置还包括：关联路径图谱构建模块，用于根据知识图谱，构建存在伤亡的事故与知识图谱中其他任一类型的实体之间的关联路径图谱，其中，关联路径图谱以存在伤亡的事故全体作为中心，以存在伤亡的事故为一级关系，以知识图谱中其他任一类型的实体为二级关系，并且通过二级关系向外关联无伤亡事故。

在一些实施例中，安全生产事故文本数据为交通行业安全生产事故文本数据。

图10示出了本发明实施例的电子设备。如图10所示，电子设备1000包括：至少一个处理器1010，以及与所述至少一个处理器1010通信连接的存储器1020，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述的方法。

具体地，上述存储器1020和处理器1010经由总线1030连接在一起，能够为通用的存储器和处理器，这里不做具体限定，当处理器1010运行存储器1020存储的计算机程序时，能够执行本发明实施例中结合图1至图8所描述的各项操作和功能。

本发明实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时，实现所述的方法。具体实现可参见方法实施例，在此不再赘述。

尽管本发明实施例的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明实施例的领域。对于熟悉本领域的人员而言，可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下，本发明实施例并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于文本挖掘的安全生产事故分析方法，其特征在于，包括：

根据所述多个关键词，确定所述安全生产事故的致因因素。

2.如权利要求1所述的基于文本挖掘的安全生产事故分析方法，其特征在于，所述当前关键词在与其所在的事故文本属于相同事故等级的事故文本中的出现频率为根据含有当前关键词的并且与当前关键词所在的事故文本属于相同事故等级的事故文本数在含有当前关键词的事故文本总数中的占比计算得出。

3.如权利要求1所述的基于文本挖掘的安全生产事故分析方法，其特征在于，所述任一关键词的权重还与当前关键词在其所在的事故文本中的出现频率成正比，而与当前关键词在所述多个事故文本中的出现频率成反比。

4.如权利要求3所述的基于文本挖掘的安全生产事故分析方法，其特征在于，所述任一关键词的权重通过以下公式计算得出：

Score_ij＝tf_ij×idf_ij

所述当前关键词的逆向文件频率通过以下公式计算得出：

5.如权利要求1所述的基于文本挖掘的安全生产事故分析方法，其特征在于，所述根据所述多个关键词，确定所述安全生产事故的致因因素，包括：

对所述多个关键词进行聚类；

6.如权利要求5所述的基于文本挖掘的安全生产事故分析方法，其特征在于，所述根据所述多个关键词，确定所述交通行业安全生产事故的致因因素之后，所述方法还包括：

建立所述多个关键词与多个事故属性类别之间的关联关系；

7.如权利要求6所述的基于文本挖掘的安全生产事故分析方法，其特征在于，所述致因因素包括人为因素、设备因素和/或其他因素。

8.如权利要求1所述的基于文本挖掘的安全生产事故分析方法，其特征在于，所述获取安全生产事故文本数据之后，所述方法还包括：

9.如权利要求8所述的基于文本挖掘的安全生产事故分析方法，其特征在于，所述根据所述安全生产事故文本数据，构建知识图谱之后，所述方法还包括：

10.如权利要求1所述的基于文本挖掘的安全生产事故分析方法，其特征在于，所述安全生产事故文本数据为交通行业安全生产事故文本数据。

11.一种基于文本挖掘的安全生产事故分析装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-10中任一项所述的方法。

13.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现权利要求1-10中任一项所述的方法。