CN108694517A - 一种基于大数据的危化品运输风险因素的统计和分析方法 - Google Patents

一种基于大数据的危化品运输风险因素的统计和分析方法 Download PDF

Info

Publication number
CN108694517A
CN108694517A CN201810596269.9A CN201810596269A CN108694517A CN 108694517 A CN108694517 A CN 108694517A CN 201810596269 A CN201810596269 A CN 201810596269A CN 108694517 A CN108694517 A CN 108694517A
Authority
CN
China
Prior art keywords
risk
data
factor
attribute
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810596269.9A
Other languages
English (en)
Inventor
陈增强
戴波
刘学君
王芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Petrochemical Technology
Original Assignee
Beijing Institute of Petrochemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Petrochemical Technology filed Critical Beijing Institute of Petrochemical Technology
Priority to CN201810596269.9A priority Critical patent/CN108694517A/zh
Publication of CN108694517A publication Critical patent/CN108694517A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于大数据的危化品运输风险因素的统计和分析方法,包括以下步骤:采用半定量的风险评估方法,以经典的风险矩阵法(RMA)为半定量评估工具,通过研究各种不确定性因素发生不同变动幅度的概率分布及其对运输状态的影响,对各项风险指标进行量化评估;风险概率的计算公式可表示为:R=P*S;其中,R为风险指数,P为因素发生的概率,S为因素发生产生的影响指数;R,P,S均为矩阵变量并同时表达多个因素的相关信息。

Description

一种基于大数据的危化品运输风险因素的统计和分析方法
技术领域
本发明涉及一种基于大数据的危化品运输风险因素的统计和分析方法。
背景技术
随着中国经济的迅猛发展,危险化学品已成为国防建设、工农业生产及人民日常生活中不可缺少的重要物资。然而,危险化学品在道路运输过程中,由于设备缺陷、撞击、挤压等原因,盛装易燃、易爆、有毒危险品的容器及相关辅助设施有可能被击穿或破裂、损坏,泄漏出所运的大量易燃、易爆、有毒化学品,进而导致火灾、爆炸、中毒等重大事故发生。尤其在北京币这样的国家中心城币,危险化学品道路运输车辆不可避免地需要通过人口聚集区域,从而对沿途的居民、行人、其他车辆及设施等构成潜在的巨大威胁。为此,对于危化品的运输风险分析与预测,及其安全监控与保障尤为重要。在危化品逐渐向集中式管理趋势发展的今天,物联网和数字城币化建设的迅猛发展已经将危化品的信息化管理体系带入了大数据时代。而面对这些海量的基础采集数据,传统的数据分析工具已经无法满足如此巨大、异构、时变的非结构化数据的分析需求,从而导致了一种“数据爆炸但知识贫乏”的现象。数据挖掘技术恰恰是解决这一难题的最佳方法。大数据时代的到来以及数据挖掘技术的日趋成熟无疑为危化品运输的安全管理走向信息化道路提供了一个强有力的支撑工具。
国际上,分析危险化学品运输风险早已引起实践界和学术界的关注。我国对危险化学品运输风险分析的研究是在20世纪90年代中后期才逐渐出现。经过20多年的研究,国内外在危险化学品运输风险分析方面已取得了很多较好的成果。然而遗憾的是,目前大部分对于危化品风险分析的研究仍然存在一系列问题,主要表现在:
(1)缺乏有效的多维、多源数据表达方法,无法为危化品运输风险分析提供全面的数据支撑;
(2)缺乏基于现代信息技术的风险分析方法,目前的风险分析大多采用大数定理的传统概率统计方法;
(3)缺乏实时性的动态风险预测模型,目前大部分已有研究仍然面向确定性的运输风险进行风险预测,而考虑运输风险的不确定性因素,并通过反馈机制的动态预测方法将使风险分析更加符合实际;
(4)缺乏完善的危化品运输风险预测软件系统,未将空间信息引入到风险分析的各个环节,缺乏危化品风险事故的风险时空分布图的信息化表示。
综合以上分析我们认为,将数据挖掘技术应用于危化品运输的风险分析与预测,并在此基础上从数据表达、理论方法、预测模型以及软件系统开发四个角度,对于影响危化品运输安全管理的各项关键技术进行深入分析将会是一个极具发展潜力的研究方向。
发明内容
本发明设计了一种基于大数据的危化品运输风险因素的统计和分析方法,其解决的技术问题是:(1)现有技术缺乏有效的多维、多源数据表达方法,无法为危化品运输风险分析提供全面的数据支撑;(2)现有技术缺乏基于现代信息技术的风险分析方法,目前的风险分析大多采用大数定理的传统概率统计方法;(3)现有技术缺乏实时性的动态风险预测模型,目前大部分已有研究仍然面向确定性的运输风险进行风险预测,而考虑运输风险的不确定性因素,并通过反馈机制的动态预测方法将使风险分析更加符合实际;(4)现有技术缺乏完善的危化品运输风险预测软件系统,未将空间信息引入到风险分析的各个环节,缺乏危化品风险事故的风险时空分布图的信息化表示。
为了解决上述存在的技术问题,本发明采用了以下方案:
一种基于大数据的危化品运输风险预测预测系统,其特征在于:包括数据表达模块、风险因素统计和分析模块、预测模块以及仿真实验与系统实现模块。
进一步,所述数据表达模块包括数据仓库建模和数据仓库构建;
所述数据仓库建模采用基于BWW本体的建模理论,并对其进行特殊化扩展,在此基础上提出一个具有语义特征的,基于本体的数据仓库概念模型。其中数据仓库建模包括以下两个阶段:a、问题域建模:将用户需求划分为多个主题,每一个主题可以用多个维度进行刻画,每个维度又可以细分为多种类别;b、对象特征建模:以本体理论为基础,进行维度、类别等对象的特性及其之间的关系的描述,解决数据的异构问题;
所述数据仓库构建采用“互斥”策略解决全局数据仓库和它所支持的局部数据仓库之间的数据冗余和重叠问题,即全局数据仓库有一个公共的数据结构,包含和定义全局所有的公有数据:局部数据仓库存储区域内的危化品运输状态数据,发生跨区域业务分析处理时,才启用全局数据仓库,相关数据进入全局的数据仓库;
所述数据涉及到气象数据、人员数据、车辆状态数据、货品介质状态数据和路况信息数据;
所述气象数据包括风速、风向、空气/地面温度、湿度、光照度、光照时数、大气压力、雨量、辐射值;
所述人员数据,包括驾驶员信息、驾驶员身体状况、驾驶工作时间、驾驶路线;
所述车辆状态数据,包括轮温、轮压、速度、纵向加速度、横向加速度、纵向倾角、横向倾角、发动机温度、ABS滑移率、能耗数据;
所述货品介质状态数据,包括危化品车载容器类型、货物重量/体积、装卸流量、阀门开关、液位/时间、危化品温度、泄漏量、烟雾浓度、危化品外部温度;
所述路况信息数据,包括电子地图、遥感影像、高速公路收费数据、重点营运车辆GPS数据、车流量、速度。
进一步,所述数据表达模块还包括基于云计算的大数据存储模型和基于大数据的任务调度模型;
所述基于云计算的大数据存储模型在虚拟机内存基础上,添加一层动态缓存以及共享层,使得被共享缓存的文件能够在缓存之中被长期保留;与此同时,将共享数据在物理机内存缓存共享区的映射地址分配给虚拟机,使其通过这个地址可以对数据进行直接访问,达到数据共享的目的
所述基于大数据的任务调度模型通过与数据存储模型之间的协同操作,进行分布式的任务调度,以保证任务请求能够得到快速响应的前提下,选择网络代价最低的计算资源。
进一步,所述风险因素统计和分析模块包括以下风险因素统计分析:
采用半定量的风险评估方法,以经典的风险矩阵法(RMA)为半定量评估工具,通过研究各种不确定性因素发生不同变动幅度的概率分布及其对运输状态的影响,对各项风险指标进行量化评估;风险概率的计算公式可表示为:
R=P*S' (4-1)
其中,R为风险指数,P为因素发生的概率,S为因素发生产生的影响指数。R,P,S均为矩阵变量并同时表达多个因素的相关信息。
进一步,拟在RMA原有优势的基础上,引入聚类算法对其进行扩展,并通过改进的聚类算法对风险指数进行自动分类,在得到每个因素对应的发生概率和影响指数之后,根据公式(4-1)计算得到各类风险因素对应的风险指数;最后,对风险指数进行聚类,得到危险源类别;
其具体步骤如下:
步骤1:定义每个风险因素的概率P
P={P(i),i=1,2,...,m} (4-2)
其中p(i)表示第i种风险因素F(i)发生的概率。假设某一因素F(i)在T时间内发生的事件数为n(i),T时间内发生的事件总数为n,F(i)概率为p(i),则由贝努力定律可知,对于任意正数ε>o,有;
也就是说,当n很大时,原因F(i)发生的频率n(i)/n收敛于该因素发生的概率p(i);因此,可以将事件发生的频率n(i)/n近似看作事件发生的概率p(i);
步骤2:定义每个因素的概率指数p。设定将概率指数划分为C个类(C=2,3,...m),以C=5为例,将各因素引发事件的概率聚类为不同等级。C的取值需要根据样本数据进行测算;
步骤3:定义每个风险因素引发事件的严重程度s;s表示严重性的集合,s={s(i),i=1,2,...,36},其中、s(i)表示第i个因素F(i)引发的事件的严重程度;
步骤4:定义每个风险因素的严重性指数S。设定将严重度指数划分为C个类(C=2,3,...m),以C=3为例,将各因素的严重性分为3个等级;C的取值,需要根据样本数据进行测算。每个等级的取值范围,利用K-means算法对每个因素的严重度s进行聚类;
步骤5:根据如下公式计算每个因素的风险指数RB(P,s);
RB(P,s)=P*S (4-3)
步骤6:风险评价。根据每个因素的风险指数数值的大小,评价各因素之间的相对风险水平即危险程度,目的是区别它们之间的相对风险水平即危险程度;
步骤7:风险等级识别。采用k-means算法对计算得到的风险指数进行聚类,得到危险源结构图。
进一步,所述风险因素统计和分析模块还包括风险因素关联分析:
步骤1:获取数据,进行数据预处理;
步骤2:采用FCM聚类算法对定量属性进行模糊处理。FCM将定量属性x(i=1,2,...,t)变换为由c个模糊属性表示的xij(i=1,2,...,n;j=1,2,...c)属性集合,求出每组属性的聚类中心,使得非相似性指标的价值函数达到最小;处理后的属性取值为(0,1)间的隶属度,表示每个属性点的属性取值属于某个分组的程度;
步骤3:对定性属性进行归类处理,获取其布尔型属性矩阵。首先选择某定性属性xi(i=1,2,...,t),获取其属性取值个数n,属性取值域为R,R={ri,i=1,2,...,n},将该属性转换为布尔型数据型矩阵;
步骤4:设置最小支持度,计算各属性值的支持度,获取频繁项集;假设数据集合为D,记录数为N,属性集合为A,X是m个属性的集合,且则X={vi1,vi2,...,vim}的支持度为FuzzySupp(X={vi1,vi2,...,vim})。其中,vim表示这m个属性中第j个属性的某一取值;从m=1开始,计算各属性值的支持度,同时去除支持度最小的属性值;
步骤5:设置最小可信度,计算包含风险信息的属性集取值的模糊可信度,
的可信度为:
其中,Y中需要包含风险信息。同时去掉可信度小于min_confident的集合对
步骤6:剪除冗余规则,依据步骤4得到的所有规则中,如果满足(或),只需要保留规则。在实际处理时,如果覆盖属性结合XYZ的规则有多个,只需要保留规则前件数最小,后件数最大的原则。
进一步,所述预测模块中使用组合预测模型:针对危化品运输风险事件的低概率高危害的特征,在风险等级划分与因素关联分析的基础上,为每一种风险因素添加权重,同时充分考虑空间地域特性、运输事故率、暴露人口数、期望损失度量因子,通过集成方法将多个单一定性和定量预测模型进行集成,构建一个危化品运输风险多维因素组合预测模型,从而有效提高预测精度。其最优组合预测模型定义如下:
设{yi},(t=1,2,...,n)表示n个实际观测序列,{fn}表示用第i种预测方法计算得到的预测值拟合序列((i=1,2,...,k;t=1,2,...,n),{wi}表示各种预测方法在组合模型的权重集合(i=1,2,3...,k),表示组合这些模型计算得到的预测值和序列,因此:
进一步,所述预测模块中使用的预测算法:
在所述组合预测模型的基础上,项目拟采用基于离群点识别的数据挖掘算法,对风险事件进行预测评估,其算法的基本步骤如下:
步骤1:离群点问题定义。对危化品运输安全状态各项检测指标定义“正常”数据,与“异常”数据,及其对应的偏离度量值;
步骤2:数据选取与预处理。从原始数据仓库中抽取数据样本,进行消除噪声等数据预处理,同时进行数据降维转换,以减少数据挖掘时要考虑的特征与变量个数;
步骤3:离群点探测。根据离群点问题定义,采用离群点探测的数据挖据算法,获取离群,点数据;
步骤4:结果评估。对数据挖掘结果进行评估,对于不满足要求的数据,返回步骤3,重新探测离群点数据,直到评估结果满足要求。
进一步,所述仿真实验与系统实现模块将采用云计算平台作为系统的底层支撑平台,同时采用存储与计算相分离的系统架构,提高系统的数据处理和分析能力。
进一步,所述仿真实验与系统实现模块包括包括以下四个功能模块:
模块一、基础数据管理;其对于各个信息来源采集的数据和信息进行管理,并对数据进行初步的净化与预处理;
模块二、数据存储与管理模块,将数据按照系统定义数据模型进行整理与存储;
模块三、数据挖掘算法模块,对各项数据挖掘算法的实现,并对数据进行风险评估;
模块四、用户界面模块,根据数据分析的结果,对用户进行实时的反馈,从而达到安全监控与保障的目的。
该基于大数据的危化品运输风险预测预测系统具有以下有益效果:
(1)本发明充分发挥物联网技术、数据挖掘技术、统计管理技术、移动通信技术等学科交叉的优势,深入研究面向危化品运输的数据仓库模型、风险因素分析方法与风险预测机制,力求在区域危化品运输风险分析与预测的关键问题研究中取得突破性的进展。
(2)本发明针对数据仓库概念建模的复杂性和不确定性,提出一种基于本体的、具有语义信息的数据概念模型,在此基础上构建一个分布式、多维危化品运输风险数据仓库,并提出一种内存共享的大数据存储与任务调度方案,对多维、多源的数据进行有效表达和管理,从而为危化品运输风险分析、预测和管理提供有效的数据支持与执行性能保障。
(3)本发明在数据仓库模型基础上,以风险因素与风险事件为研究对象,采用统计学与数据挖掘等相关技术方法,对危化品运输的风险因素及其因素关联进行分析,同时建立检测指标与评价指标体系,从而为危化品道路运输制定科学的安全防范和管理措施提供决策支持。
(4)本发明将在风险因素分析基础上,构建一个危化品
运输风险多维因素组合预测模型,并拟采用基于离群点识别的数据挖掘算法,对风险事件进行预测评估,从而提高决策水平,降低风险事件发生的概率。
(5)本发明为了验证本项目提出的危化品运输风险预测模型,设计并实现一个基于云计算平台的危化品运输风险分析决策支持系统,在完成基础数据管理、事件统计分析、数据挖掘分析,与系统维护等基本功能的同时,考虑将空间信息引入到风险分析的各个环节,以实现危化品风险事故时空分布图的信息化表示,为地区及其跨区域的危化品运输风险预测分析提供更加直观有效的技术支持。
附图说明
图1:本发明中数据仓库架构图;
图2:本发明中基于云计算的大数据存储架构图;
图3:本发明中软件系统功能结构图。
具体实施方式
下面结合图1至图3,对本发明做进一步说明:
如图1所示,
1.本发明研究的思路和方法
(1)数据表达
①数据仓库建模:原始的危化品运输数据具有很强的复杂性,动态性以及异构性,这使得对其进行系统化的数据分析成为一项困难的任务。一方面,危化品运输过程中涉及到天气、人员、车辆、货品介质、路况、时间等多维度信息,这些维度相互间协作共同构成了具体的危化品道路运输情景;另一方面,数据的来源涉及到不同的部门和机构、不同的物理设备、不同的操作系统,且数据本身的组织结构方式也包括结构化、半结构化和非结构化数据。多维度、多源的数据特点对于数据的表示、存储和管理,以及数据的识别、分析和预测提出巨大挑战。
针对以上数据特点,本发明拟采用基于BWW本体的建模理论,并对其进行特殊化扩展,在此基础上提出一个具有语义特征的,基于本体的数据仓库概念模型。其中数据仓库建模包括以下两个阶段:
a、问题域建模:将用户需求划分为多个主题,每一个主题可以用多个维度进行刻画,每个维度又可以细分为多种类别。
b、对象特征建模:以本体理论为基础,进行维度、类别等对象的特性及其之间的关系的描述,解决数据的异构问题。
②数据仓库构建:构建分布式数据仓库的关键是如何将局部数据仓库中的数据映射到全局数据仓库的数据结构中。因此,本发明拟采用“互斥”策略解决全局数据仓库和它所支持的局部数据仓库之间的数据冗余和重叠问题,即全局数据仓库有一个公共的数据结构,包含和定义全局所有的公有数据:局部数据仓库存储本市的危化品运输状态数据,发生跨区域业务分析处理时,才启用全局数据仓库,相关数据进入全局的数据仓库。其中,数据仓库架构图如图1所示。
③基于云计算的大数据存储模型:面对超大规模的海量数据,以及数据的动态性强,I/O吞吐率高等特点,大数据的存储管理面临前所未有的挑战。为此,本发明拟在数据仓库模型基础上提出一种基于云计算的大数据存储策略,以解决大规模数据与有限的内存空间之间的矛盾。与以上传统的文件系统不同,本发明拟设计的文件系统的解决方案是,在虚拟机内存基础上,添加一层动态缓存以及共享层,使得被共享缓存的文件能够在缓存之中被长期保留。与此同时,将共享数据在物理机内存缓存共享区的映射地址分配给虚拟机,使其通过这个地址可以对数据进行直接访问,达到数据共享的目的,数据存储架构如图2所示。
④基于大数据的任务调度模型:
时效性是安全监控系统的重要性能指标。为此,本发明将结合上述大数据存储方案,提出一种有效的任务调度模型,在服务响应时间与网络代价的约束条件之下,通过与数据存储模型之间的协同操作,进行分布式的任务调度,以保证任务请求能够得到快速响应的前提下,选择网络代价最低的计算资源。
(2)理论分析;
a、风险因素统计分析:
依据真实的危化品运输风险事故数据,本发明首先采用统计学相关方法对造成危化品运输风险事故的各项原因进行深入的分析、总结和归纳。在此基础上,针对每类风险因素逐层细化,同时按照风险程度对风险因素进行重要度排序,形成完善的分先因素体系结构。
在上述风险因素体系结构下,本发明拟采用半定量的风险评估方法,以经典的风险矩阵法(RMA)为半定量评估工具,通过研究各种不确定性因素发生不同变动幅度的概率分布及其对运输状态的影响,对各项风险指标进行量化评估。风险概率的计算公式可表示为:
R=P*S' (4-1)
其中,R为风险指数,P为因素发生的概率,S为因素发生产生的影响指数。R,P,S均为矩阵变量并同时表达多个因素的相关信息。
为了解决RMA对于动态变化的数据指数难以驾驭的缺陷,本发明拟在RMA原有优势的基础上,引入聚类算法对其进行扩展,并通过改进的聚类算法对风险指数进行自动分类,在得到每个因素对应的发生概率和影响指数之后,根据公式(4-1)计算得到各类风险因素对应的风险指数。最后,对风险指数进行聚类,得到危险源类别。
其具体步骤如下:
步骤1:定义每个风险因素的概率P
P={P(i),i=1,2,...,m} (4-2)
其中p(i)表示第i种风险因素F(i)发生的概率。假设某一因素F(i)在T时间内发生的事件数为n(i),T时间内发生的事件总数为n,F(i)概率为p(i),则由贝努力定律可知,对于任意正数ε>o,有limn→∞{|n(i)/n-p(i0|<ε}=1。
也就是说,当n很大时,原因F(i)发生的频率n(i)/n收敛于该因素发生的概率p(i)。因此,可以将事件发生的频率n(i)/n近似看作事件发生的概率p(i)。
步骤2:定义每个因素的概率指数p。设定将概率指数划分为C个类(C=2,3,...m),以C=5为例,将各因素引发事件的概率聚类为不同等级。C的取值需要根据样本数据进行测算。
步骤3:定义每个风险因素引发事件的严重程度s。s表示严重性的集合,s={s(i),i=1,2,...,36},其中、s(i)表示第i个因素F(i)引发的事件的严重程度。
步骤4:定义每个风险因素的严重性指数S。设定将严重度指数划分为C个类(C=2,3,...m),以C=3为例,将各因素的严重性分为3个等级。C的取值,需要根据样本数据进行测算。每个等级的取值范围,利用K-means算法对每个因素的严重度s进行聚类。
步骤5:根据如下公式计算每个因素的风险指数RB(P,s)。
RB(P,s)=P*S (4-3)
步骤6:风险评价。根据每个因素的风险指数数值的大小,评价各因素之间的相对风险水平即危险程度,目的是区别它们之间的相对风险水平即危险程度。
步骤7:风险等级识别。采用k-means算法对计算得到的风险指数进行聚类,得到危险源结构图。
b、风险因素关联分析:
本发明中的数据具有离散化程度高的特点,为此以危化品道路运输风险事件的属性为研究对象,拟采用模糊关联规则算法,从历史风险事件的实际数据中挖掘出重点的关联因素,分析事发时间、空间、原因、严重性及其处理措施之间的依存关系。其中,对于定量属性,项目拟采用模糊c-均值算法(FCM)对其划分成若干个模糊集;对于定性属性,将统计其取值种类,同时将其转换为逻辑型取值,从而进行关联规则的挖掘。其具体步骤如下:
步骤1:获取数据,进行数据预处理。
步骤2:采用FCM聚类算法对定量属性进行模糊处理。FCM将定量属性x(i=1,2,...,t)变换为由c个模糊属性表示的xij(i=1,2,...,n;j=1,2,...c)属性集合,求出每组属性的聚类中心,使得非相似性指标的价值函数达到最小。处理后的属性取值为(0,1)间的隶属度,表示每个属性点的属性取值属于某个分组的程度。
步骤3:对定性属性进行归类处理,获取其布尔型属性矩阵。首先选择某定性属性xi(i=1,2,...,t),获取其属性取值个数n,属性取值域为R,R={ri,i=1,2,...,n},将该属性转换为布尔型数据型矩阵。
步骤4:设置最小支持度,计算各属性值的支持度,获取频繁项集。假设数据集合为D,记录数为N,属性集合为A,X是m个属性的集合,且则X={vi1,vi2,...,vim}的支持度为FuzzySupp(X={vi1,vi2,...,vim})。其中,vim表示这m个属性中第j个属性的某一取值。从m=1开始,计算各属性值的支持度,同时去除支持度最小的属性值。
步骤5:设置最小可信度,计算包含风险信息的属性集取值的模糊可信度,
的可信度为:
其中,Y中需要包含风险信息。同时去掉可信度小于min_confident的集合对
步骤6:剪除冗余规则,依据步骤4得到的所有规则中,如果满足(或),只需要保留规则。在实际处理时,如果覆盖属性结合XYZ的规则有多个,只需要保留规则前件数最小,后件数最大的原则。
(3)预测模型
1、组合预测模型:针对危化品运输风险事件的低概率高危害的特征,本发明拟在风险等级划分与因素关联分析的基础上,为每一种风险因素添加权重,同时充分考虑空间地域特性、运输事故率、暴露人口数、期望损失等度量因子,通过集成方法将多个单一定性和定量预测模型进行集成,构建一个危化品运输风险多维因素组合预测模型,从而有效提高预测精度。其最优组合预测模型定义如下:
设{yi},(t=1,2,...,n)表示n个实际观测序列,{fn}表示用第i种预测方法计算得到的预测值拟合序列((i=1,2,...,k;t=1,2,...,n),{wi}表示各种预测方法在组合模型的权重集合(i=1,2,3...,k),表示组合这些模型计算得到的预测值和序列,因此:
预测算法:在以上预测模型的基础上,项目拟采用基于离群点识别的数据挖掘算法,对风险事件进行预测评估,其算法的基本步骤如下:
步骤1:离群点问题定义。对危化品运输安全状态各项检测指标定义“正常”数据,与“异常”数据,及其对应的偏离度量值。
步骤2:数据选取与预处理。从原始数据仓库中抽取数据样本,进行消除噪声等数据预处理,同时进行数据降维转换,以减少数据挖掘时要考虑的特征与变量个数。
步骤3:离群点探测。根据离群点问题定义,采用离群点探测的数据挖据算法,获取离群,点数据。
步骤4:结果评估。对数据挖掘结果进行评估,对于不满足要求的数据,返回步骤3,重新探测离群点数据,直到评估结果满足要求。
(4)仿真实验与系统实现
a、平台环境:超大规模的数据与复杂的数据类型决定了大数据无法用传统的计算模式及数据中心架构来进行存储、处理与分析,它必须依托云计算的分布式处理、分布式数据库、云存储以及虚拟化技术。为此,本发明将设计并实现一个基于云计算平台的危化品运输风险分析决策支持系统,该系统将采用云计算平台作为系统的底层支撑平台,同时采用存储与计算相分离的系统架构,提高系统的数据处理和分析能力。
b、功能模块:系统功能结构图如图2所示,主要包括以下四个功能模块。
模块一:基础数据管理。主要对于各个信息来源采集的数据和信息进行管理,并对数据进行初步的净化与预处理。
模块二:数据存储与管理模块,将数据按照系统定义数据模型进行整理与存储。
模块三:数据挖掘算法模块,对各项数据挖掘算法的实现,并对数据进行风险评估。
模块四:用户界面模块,根据数据分析的结果,对用户进行实时的反馈,从而达到安全监控与保障的目的。
上面结合附图对本发明进行了示例性的描述,显然本发明的实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围内。

Claims (3)

1.一种基于大数据的危化品运输风险因素的统计和分析方法,包括以下步骤:
采用半定量的风险评估方法,以经典的风险矩阵法(RMA)为半定量评估工具,通过研究各种不确定性因素发生不同变动幅度的概率分布及其对运输状态的影响,对各项风险指标进行量化评估;风险概率的计算公式可表示为:
R=P*S (4-1)
其中,R为风险指数,P为因素发生的概率,S为因素发生产生的影响指数;R,P,S均为矩阵变量并同时表达多个因素的相关信息。
2.根据权利要求1所述基于大数据的危化品运输风险因素的统计和分析方法,其特征在于:拟在RMA原有优势的基础上,引入聚类算法对其进行扩展,并通过改进的聚类算法对风险指数进行自动分类,在得到每个因素对应的发生概率和影响指数之后,根据公式(4-1)计算得到各类风险因素对应的风险指数;最后,对风险指数进行聚类,得到危险源类别;
其具体步骤如下:
步骤1:定义每个风险因素的概率P
P={P(i),i=1,2,…,m} (4-2)
其中p(i)表示第i种风险因素F(i)发生的概率;假设某一因素F(i)在T时间内发生的事件数为n(i),T时间内发生的事件总数为n,F(i)概率为p(i),则由贝努力定律可知,对于任意正数ε>o,有limn→∞{|n(i)/n-p(i)|<ε}=1;
也就是说,当n很大时,原因F(i)发生的频率n(i)/n收敛于该因素发生的概率p(i);因此,可以将事件发生的频率n(i)/n近似看作事件发生的概率p(i);
步骤2:定义每个因素的概率指数p;设定将概率指数划分为C个类(C=2,3,...m),以C=5为例,将各因素引发事件的概率聚类为不同等级;C的取值需要根据样本数据进行测算;
步骤3:定义每个风险因素引发事件的严重程度s;s表示严重性的集合,s={s(i),i=1,2,...,36},其中、s(i)表示第i个因素F(i)引发的事件的严重程度;
步骤4:定义每个风险因素的严重性指数S;设定将严重度指数划分为C个类(C=2,3,...m),以C=3为例,将各因素的严重性分为3个等级;C的取值,需要根据样本数据进行测算;每个等级的取值范围,利用K-means算法对每个因素的严重度s进行聚类;
步骤5:根据如下公式计算每个因素的风险指数RB(P,s);
RB(P,s)=P*S (4-3)
步骤6:风险评价;根据每个因素的风险指数数值的大小,评价各因素之间的相对风险水平即危险程度,目的是区别它们之间的相对风险水平即危险程度;
步骤7:风险等级识别;采用k-means算法对计算得到的风险指数进行聚类,得到危险源结构图。
3.根据权利要求1或2所述的基于大数据的危化品运输风险因素的统计和分析方法,其特征在于:所述风险因素统计和分析模块还包括风险因素关联分析:
步骤1:获取数据,进行数据预处理;
步骤2:采用FCM聚类算法对定量属性进行模糊处理;FCM将定量属性x(i=1,2,...,t)变换为由c个模糊属性表示的xij(i=1,2,...,n;j=1,2,...c)属性集合,求出每组属性的聚类中心,使得非相似性指标的价值函数达到最小;处理后的属性取值为(0,1)间的隶属度,表示每个属性点的属性取值属于某个分组的程度。
步骤3:对定性属性进行归类处理,获取其布尔型属性矩阵;首先选择某定性属性xi(i=1,2,...,t),获取其属性取值个数n,属性取值域为R,R={ri,i=1,2,...,n},将该属性转换为布尔型数据型矩阵;
步骤4:设置最小支持度,计算各属性值的支持度,获取频繁项集;假设数据集合为D,记录数为N,属性集合为A,X是m个属性的集合,且则X={vi1,vi2,...,vim}的支持度为FuzzySupp(X={vi1,vi2,...,vim});其中,vim表示这m个属性中第j个属性的某一取值;从m=1开始,计算各属性值的支持度,同时去除支持度最小的属性值;
步骤5:设置最小可信度,计算包含风险信息的属性集取值的模糊可信度,
的可信度为:
其中,Y中需要包含风险信息;同时去掉可信度小于min_confident的集合对
步骤6:剪除冗余规则,依据步骤4得到的所有规则中,如果满足(或),只需要保留规则;在实际处理时,如果覆盖属性结合XYZ的规则有多个,只需要保留规则前件数最小,后件数最大的原则。
CN201810596269.9A 2018-06-11 2018-06-11 一种基于大数据的危化品运输风险因素的统计和分析方法 Pending CN108694517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810596269.9A CN108694517A (zh) 2018-06-11 2018-06-11 一种基于大数据的危化品运输风险因素的统计和分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810596269.9A CN108694517A (zh) 2018-06-11 2018-06-11 一种基于大数据的危化品运输风险因素的统计和分析方法

Publications (1)

Publication Number Publication Date
CN108694517A true CN108694517A (zh) 2018-10-23

Family

ID=63848664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810596269.9A Pending CN108694517A (zh) 2018-06-11 2018-06-11 一种基于大数据的危化品运输风险因素的统计和分析方法

Country Status (1)

Country Link
CN (1) CN108694517A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126881A (zh) * 2020-01-08 2020-05-08 何活恩 一种工程造价风险预测评估方法
CN111144772A (zh) * 2019-12-30 2020-05-12 交通运输部公路科学研究所 一种基于数据挖掘的道路运输安全风险实时评估方法
CN112633652A (zh) * 2020-12-15 2021-04-09 北京交通大学 基于语义风险自适应识别的物流安检方法
CN113051255A (zh) * 2021-02-19 2021-06-29 北京华油信通科技有限公司 一种危险化学品道路运输车辆报警数据处理方法及处理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971288A (zh) * 2014-05-16 2014-08-06 上海建科工程咨询有限公司 一种基于事故案例推理的钢结构施工风险评估方法
US20150020614A1 (en) * 2013-07-16 2015-01-22 Leeo, Inc. Electronic device with environmental monitoring
CN105590167A (zh) * 2015-12-18 2016-05-18 华北电力科学研究院有限责任公司 电场多元运行数据分析方法及装置
CN105678314A (zh) * 2015-10-15 2016-06-15 东南大学 一种基于模糊c聚类的典型需求侧用户筛选方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150020614A1 (en) * 2013-07-16 2015-01-22 Leeo, Inc. Electronic device with environmental monitoring
CN103971288A (zh) * 2014-05-16 2014-08-06 上海建科工程咨询有限公司 一种基于事故案例推理的钢结构施工风险评估方法
CN105678314A (zh) * 2015-10-15 2016-06-15 东南大学 一种基于模糊c聚类的典型需求侧用户筛选方法
CN105590167A (zh) * 2015-12-18 2016-05-18 华北电力科学研究院有限责任公司 电场多元运行数据分析方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贺琳: "基于数据挖掘的道路运行安全风险分析", 《CNKI博士学位论文》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144772A (zh) * 2019-12-30 2020-05-12 交通运输部公路科学研究所 一种基于数据挖掘的道路运输安全风险实时评估方法
CN111144772B (zh) * 2019-12-30 2023-11-21 交通运输部公路科学研究所 一种基于数据挖掘的道路运输安全风险实时评估方法
CN111126881A (zh) * 2020-01-08 2020-05-08 何活恩 一种工程造价风险预测评估方法
CN112633652A (zh) * 2020-12-15 2021-04-09 北京交通大学 基于语义风险自适应识别的物流安检方法
CN112633652B (zh) * 2020-12-15 2023-09-29 北京交通大学 基于语义风险自适应识别的物流安检方法
CN113051255A (zh) * 2021-02-19 2021-06-29 北京华油信通科技有限公司 一种危险化学品道路运输车辆报警数据处理方法及处理系统

Similar Documents

Publication Publication Date Title
CN109002959A (zh) 一种基于大数据的危化品运输风险预测系统
CN108694516A (zh) 一种基于大数据的危化品运输风险预测方法
Ma et al. An analytic framework using deep learning for prediction of traffic accident injury severity based on contributing factors
CN108694517A (zh) 一种基于大数据的危化品运输风险因素的统计和分析方法
CN103971523B (zh) 一种山区道路交通安全动态预警系统
Xi et al. A traffic accident causation analysis method based on AHP-Apriori
Yang et al. A parallel FP-growth mining algorithm with load balancing constraints for traffic crash data
Shang et al. A Hybrid Method for Traffic Incident Duration Prediction Using BOA‐Optimized Random Forest Combined with Neighborhood Components Analysis
Yang et al. Identifying intercity freight trip ends of heavy trucks from GPS data
Zhang et al. Emergency evacuation planning against dike-break flood: a GIS-based DSS for flood detention basin of Jingjiang in central China
Guo et al. Monitoring and simulation of dynamic spatiotemporal land use/cover changes
Yang et al. The fusion model of intelligent transportation systems based on the urban traffic ontology
Sedehzadeh et al. Optimization of a multi-modal tree hub location network with transportation energy consumption: A fuzzy approach
CN107180534A (zh) 支持向量回归机融合的高速公路路段平均速度估计方法
Sbai et al. A real-time decision support system for big data analytic: A case of dynamic vehicle routing problems
Zhao et al. Highway traffic crash risk prediction method considering temporal correlation characteristics
Soleimani et al. Applying machine learning, text mining, and spatial analysis techniques to develop a highway-railroad grade crossing consolidation model
Xu et al. Interpretable bus energy consumption model with minimal input variables considering powertrain types
Zhang et al. A fuzzy weighted c-means classification method for traffic flow state division
Choi et al. The empirical evaluation of models predicting bike sharing demand
CN115879848B (zh) 一种运输车安全监测方法及装置
Saxena et al. A framework for multi-sensor data fusion in the context of IoT smart city parking data
Li et al. Optimization of planning layout of urban building based on improved logit and PSO algorithms
Liu et al. An intelligent urban traffic data fusion analysis method based on improved artificial neural network
Xue et al. Traffic status evolution trend prediction based on congestion propagation effects under rainy weather

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181023