CN107145609A - 基于FP‑Growth算法的隧道交通事故关联规则算法 - Google Patents

基于FP‑Growth算法的隧道交通事故关联规则算法 Download PDF

Info

Publication number
CN107145609A
CN107145609A CN201710443636.7A CN201710443636A CN107145609A CN 107145609 A CN107145609 A CN 107145609A CN 201710443636 A CN201710443636 A CN 201710443636A CN 107145609 A CN107145609 A CN 107145609A
Authority
CN
China
Prior art keywords
affairs
tunnel
item
accident
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710443636.7A
Other languages
English (en)
Inventor
刘云翔
韩贝
徐琛
李晓丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Technology
Original Assignee
Shanghai Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Technology filed Critical Shanghai Institute of Technology
Priority to CN201710443636.7A priority Critical patent/CN107145609A/zh
Publication of CN107145609A publication Critical patent/CN107145609A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于FP‑Growth算法的隧道交通事故关联规则算法,其针对隧道交通事故数据的特点,提出了基于权重改进的FP‑Growth算法,对事务以及项赋予权重,从而能够有效地挖掘出隐藏的,更有意义的关联规则。并且利用改进后的FP‑Growth算法建立关联规则挖掘模型,通过挖掘采集的数据,找出导致隧道交通事故的频繁因素组合,分析结果找出隧道交通事故关联规则。

Description

基于FP-Growth算法的隧道交通事故关联规则算法
技术领域
本发明涉及数据挖掘、关联分析和隧道交通事故领域,特别是涉及一种基于FP-Growth算法的隧道交通事故关联规则算法。
背景技术
现如今,随着我国经济的快速发展,城市的公路隧道建设蓬勃发展,全国公路隧道为14006处,共1268.39万米,公路隧道数量年增长率约为11.5%。随着隧道建设数量的增多,从而引发的交通事故也相应增加。而现在我国对隧道交通事故数据的分析,主要是运用数据统计分析引起隧道交通事故的主要原因。在频繁模式挖掘FP-Growth算法的挖掘过程中,对数据的度量是事先设定好的最小支持度与最小置信度,若最小支持度与直销置信度设置的过高,会使得频率较低的关键因素的丢失,若设置的过低则会挖掘过多无用的关联规则。
发明内容
针对引起交通事故的因素中某些出现频率较低但是至关重要的因素,本发明提出一种基于FP-Growth算法的隧道交通事故关联规则算法,目的是挖掘处更加可靠的关联规则,用以进一步指导交通部门对预防隧道交通事故采取相应的措施。
为实现上述目的,本发明采用的技术方案是:
一种基于FP-Growth算法的隧道交通事故关联规则算法,包括以下步骤:
S1:首次对隧道事故事务数据库D进行扫描;
S2:计算出每个隧道事故事务中各个项以及事务本身的权重,之后根据事务的权重计算出各个项的关键度量,将关键度量作为此项的支持度,根据之前预定好的最小支持度,得到频繁项集之后调整隧道事故事务数据库;
S3:建立标记为“null”的根节点和频繁项目头表;
S4:再次扫描隧道事故事务数据库,其中每个事务的项按频繁项集中的次序处理,根据建立完成的频繁项目头表创建隧道事故频繁模式树FP树;
S5:根据隧道事故FP树产生条件模式基,产生频繁模式项集;
S6:根据产生的频繁模式项集,计算每个项集的关键度量作为支持度,满足最小支持度与置信度的项集就是最后挖掘得到的隧道交通事故关联规则。
步骤S2中:
用I={I1,I2,I3,…,In}表示隧道事故事务数据库D的项集,n表示项的个数;项Ii(i=1,2,3,…,k)在隧道事故事务数据库的权重标记为w(Ii),公式为w(Ii)=m/l,公式中的l为Ii在事务集中出现的次数,m是数据库中事务的个数;事务Tj为事务数据库中的第j条数据,该事务的权重为其本身包含项的权重的平均值,记为wt(Tj),公式为项的关键度量是包含该项的事务权重与隧道事故事务数据可中所有事务权重之比,记为d(s),公式为
步骤S6中:
计算项集的关键度量,比如模式<I1,I2>的关键度量,则是求包含I1和I2项的事务权重与隧道事故事务数据库中所有事务权重之比。最后满足最小支持度与置信度的项集就是最后挖掘得到的关联规则。
与传统的运用数据统计分析相比,本发明的有益效果是:该算法通过权重来定义项在事务中的关键性,从而能够更加有效地挖掘处隐藏的,更加有意义的关联规则,可以指导交通部门对预防隧道交通事故采取相应的措施。
附图说明
图1为本发明一实施例的一种基于FP-Growth算法的隧道交通事故关联规则算法的流程图;
图2为本发明一实施例的频繁项目头表和频繁模式树的结构示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
如图1所示,一种基于FP-Growth算法的隧道交通事故关联规则算法,包括以下步骤:
Step1:首次对隧道事故事务数据库D进行扫描。
Step2:计算出每个隧道事故事务中各个项以及事务本身的权重,之后根据事务的权重计算出各个项的关键度量,将关键度量作为此项的支持度,根据之前预定好的最小支持度,得到频繁项集之后调整隧道事故事务数据库。
Step3:建立标记为“null”的根节点和频繁项目头表,如表1所示。
表1 频繁项目头表
Step4:再次扫描隧道事故事务数据库,其中每个事务的项按频繁项集中的次序处理,根据建立完成的频繁项目头表创建隧道事故频繁模式树FP树,如图2所示。
Step5:根据隧道事故FP树产生条件模式基,产生频繁模式项集。
Step6:根据产生的频繁模式项集,计算每个项集的关键度量作为支持度,满足最小支持度与置信度的项集就是最后挖掘得到的隧道交通事故关联规则。
其中步骤Step2包括:
用I={I1,I2,I3,…,In}表示隧道事故事务数据库D的项集,n表示项的个数;项Ii(i=1,2,3,…,k)在隧道事故事务数据库的权重标记为w(Ii),公式为w(Ii)=m/l,公式中的l为Ii在事务集中出现的次数,m是数据库中事务的个数;事务Tj为事务数据库中的第j条数据,该事务的权重为其本身包含项的权重的平均值,记为wt(Tj),公式为项的关键度量是包含该项的事务权重与隧道事故事务数据可中所有事务权重之比,记为d(s),公式为
权重思想描述:
简单假设频繁1项集为I1、I2、I3、I4、I5,隧道事故事务数据库如表2所示:
表2 隧道事故事务数据表
举例计算I1的关键度量:
1)首先分别计算I1、I2、I3、I4、I5的权重,公式为w(Ii)=m/l,即w(I1)=1.5,w(I2)=1.286,w(I3)=1.5,w(I4)=4.5,w(I5)=4.5。
2)计算事务数据库中各个事务的权重,事务的权重为其本身包含项的权重的平均值,公式为即wt(T1)=2.43,wt(T2)=2.895,wt(T3)=1.393,wt(T4)=2.43,wt(T5)=1.5,wt(T6)=1.393,wt(T7)=1.5,wt(T8)=2.197,wt(T9)=1.429。
3)之后在计算I1的关键度量,I1的关键度量是包含I1项的事务权重与事务数据库中所有事务权重之比,公式为按照上述公式即可计算出I1的关键度量,为d(I1)=0.669。
计算完每个项的关键度量之后,将各项的关键度量作为它的支持度,用来与实现设定好的最小支持度比较,生成频繁项集表。
在Step6中需要计算模式项集的关键度量,比如模式<I1,I2>的关键度量,则是求包含I1与I2项的事务权重与事务数据库中所有事务权重之比。满足最小支持度与置信度的项集就是最后挖掘得到的隧道交通事故关联规则。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (2)

1.基于FP-Growth算法的隧道交通事故关联规则算法,其特征在于,包括以下步骤:
S1:首次对隧道事故事务数据库D进行扫描;
S2:计算出每个隧道事故事务中各个项以及事务本身的权重,之后根据事务的权重计算出各个项的关键度量,将关键度量作为此项的支持度,根据之前预定好的最小支持度,得到频繁项集之后调整隧道事故事务数据库;
S3:建立标记为“null”的根节点和频繁项目头表;
S4:再次扫描隧道事故事务数据库,其中每个事务的项按频繁项集中的次序处理,根据建立完成的频繁项目头表创建隧道事故频繁模式树FP树;
S5:根据隧道事故FP树产生条件模式基,产生频繁模式项集;
S6:根据产生的频繁模式项集,计算每个项集的关键度量作为支持度,满足最小支持度与置信度的项集就是最后挖掘得到的隧道交通事故关联规则。
2.如权利要求1所述的基于FP-Growth算法的隧道交通事故关联规则算法,其特征在于,步骤S2包括:
用I={I1,I2,I3,…,In}表示隧道事故事务数据库D的项集,n表示项的个数;项Ii(i=1,2,3,…,k)在隧道事故事务数据库的权重标记为w(Ii),公式为w(Ii)=m/l,公式中的l为Ii在事务集中出现的次数,m是数据库中事务的个数;事务Tj为事务数据库中的第j条数据,该事务的权重为其本身包含项的权重的平均值,记为wt(Tj),公式为项的关键度量是包含该项的事务权重与隧道事故事务数据可中所有事务权重之比,记为d(s),公式为
CN201710443636.7A 2017-06-13 2017-06-13 基于FP‑Growth算法的隧道交通事故关联规则算法 Pending CN107145609A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710443636.7A CN107145609A (zh) 2017-06-13 2017-06-13 基于FP‑Growth算法的隧道交通事故关联规则算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710443636.7A CN107145609A (zh) 2017-06-13 2017-06-13 基于FP‑Growth算法的隧道交通事故关联规则算法

Publications (1)

Publication Number Publication Date
CN107145609A true CN107145609A (zh) 2017-09-08

Family

ID=59782678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710443636.7A Pending CN107145609A (zh) 2017-06-13 2017-06-13 基于FP‑Growth算法的隧道交通事故关联规则算法

Country Status (1)

Country Link
CN (1) CN107145609A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108900520A (zh) * 2018-07-11 2018-11-27 广州虎牙信息科技有限公司 直播卡顿因素确定方法、装置、服务器及存储介质
CN109344150A (zh) * 2018-08-03 2019-02-15 昆明理工大学 一种基于fp-树的时空数据挖掘分析方法
CN109582714A (zh) * 2018-12-03 2019-04-05 甘肃万维信息技术有限责任公司 一种基于时间衰减关联的政务事项数据处理方法
CN112270470A (zh) * 2020-10-23 2021-01-26 中国科学院电工研究所 一种危险驾驶场景数据分析方法及系统
CN115810272A (zh) * 2023-02-09 2023-03-17 北京华录高诚科技有限公司 一种车辆安全监管方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108900520A (zh) * 2018-07-11 2018-11-27 广州虎牙信息科技有限公司 直播卡顿因素确定方法、装置、服务器及存储介质
CN108900520B (zh) * 2018-07-11 2021-04-20 广州虎牙信息科技有限公司 直播卡顿因素确定方法、装置、服务器及存储介质
CN109344150A (zh) * 2018-08-03 2019-02-15 昆明理工大学 一种基于fp-树的时空数据挖掘分析方法
CN109582714A (zh) * 2018-12-03 2019-04-05 甘肃万维信息技术有限责任公司 一种基于时间衰减关联的政务事项数据处理方法
CN109582714B (zh) * 2018-12-03 2023-07-25 中电万维信息技术有限责任公司 一种基于时间衰减关联的政务事项数据处理方法
CN112270470A (zh) * 2020-10-23 2021-01-26 中国科学院电工研究所 一种危险驾驶场景数据分析方法及系统
CN112270470B (zh) * 2020-10-23 2023-12-05 中国科学院电工研究所 一种危险驾驶场景数据分析方法及系统
CN115810272A (zh) * 2023-02-09 2023-03-17 北京华录高诚科技有限公司 一种车辆安全监管方法及系统

Similar Documents

Publication Publication Date Title
CN107145609A (zh) 基于FP‑Growth算法的隧道交通事故关联规则算法
CN104361036B (zh) 告警事件关联规则挖掘方法
Cao Predicting parameters of a Weibull function for modeling diameter distribution
CN107039995A (zh) 一种考虑电能质量问题的分布式光伏电源接入规划方法
CN114143629B (zh) 一种建筑实时碳排放量监控系统
CN105184394B (zh) 基于配电网cps在线数据挖掘的优化控制方法
CN109409647A (zh) 一种基于随机森林算法的薪资水平影响因素的分析方法
WO2019033820A1 (zh) 一种电力系统静态电压稳定域边界快速搜索的优化模型
Qin et al. Hydrological time series anomaly pattern detection based on isolation forest
CN108011367A (zh) 一种基于深度决策树算法的电力负荷特性挖掘方法
CN101667201A (zh) 基于树合并的Deep Web查询接口集成方法
CN104216874A (zh) 基于相关系数的中文词间加权正负模式挖掘方法及系统
CN104834964A (zh) 一种森林择伐最优造材方法
CN208985211U (zh) 确定风电机组限功率数据的装置
US20230169244A1 (en) Method for evaluating fracture connectivity and optimizing fracture parameters based on complex network theory
CN104112236A (zh) 风电场发电功率的计算方法
CN109301870A (zh) 一种电力电子多馈入电力系统容量优化方法
EP4354369A1 (en) Control method and apparatus for dual carbon, electronic device, storage medium, and program product
Hong et al. The study of improved FP-growth algorithm in MapReduce
CN105976046B (zh) 一种考虑需求侧管理的低碳电网规划方法
CN110069548A (zh) 一种基于循环方式的关联规则合并方法
Li A Data Classification Algorithm of Internet of Things Based on Neural Network.
CN111382763A (zh) 一种光伏集群划分方法及系统
CN108921449A (zh) 一种水稻田的等级评估方法
CN115357572A (zh) 一种数据质量检查规则构建方法、存储介质及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170908

RJ01 Rejection of invention patent application after publication