CN107145609A - 基于FP‑Growth算法的隧道交通事故关联规则算法 - Google Patents
基于FP‑Growth算法的隧道交通事故关联规则算法 Download PDFInfo
- Publication number
- CN107145609A CN107145609A CN201710443636.7A CN201710443636A CN107145609A CN 107145609 A CN107145609 A CN 107145609A CN 201710443636 A CN201710443636 A CN 201710443636A CN 107145609 A CN107145609 A CN 107145609A
- Authority
- CN
- China
- Prior art keywords
- affairs
- tunnel
- item
- accident
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010039203 Road traffic accident Diseases 0.000 title claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 24
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000005065 mining Methods 0.000 abstract description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于FP‑Growth算法的隧道交通事故关联规则算法,其针对隧道交通事故数据的特点,提出了基于权重改进的FP‑Growth算法,对事务以及项赋予权重,从而能够有效地挖掘出隐藏的,更有意义的关联规则。并且利用改进后的FP‑Growth算法建立关联规则挖掘模型,通过挖掘采集的数据,找出导致隧道交通事故的频繁因素组合,分析结果找出隧道交通事故关联规则。
Description
技术领域
本发明涉及数据挖掘、关联分析和隧道交通事故领域,特别是涉及一种基于FP-Growth算法的隧道交通事故关联规则算法。
背景技术
现如今,随着我国经济的快速发展,城市的公路隧道建设蓬勃发展,全国公路隧道为14006处,共1268.39万米,公路隧道数量年增长率约为11.5%。随着隧道建设数量的增多,从而引发的交通事故也相应增加。而现在我国对隧道交通事故数据的分析,主要是运用数据统计分析引起隧道交通事故的主要原因。在频繁模式挖掘FP-Growth算法的挖掘过程中,对数据的度量是事先设定好的最小支持度与最小置信度,若最小支持度与直销置信度设置的过高,会使得频率较低的关键因素的丢失,若设置的过低则会挖掘过多无用的关联规则。
发明内容
针对引起交通事故的因素中某些出现频率较低但是至关重要的因素,本发明提出一种基于FP-Growth算法的隧道交通事故关联规则算法,目的是挖掘处更加可靠的关联规则,用以进一步指导交通部门对预防隧道交通事故采取相应的措施。
为实现上述目的,本发明采用的技术方案是:
一种基于FP-Growth算法的隧道交通事故关联规则算法,包括以下步骤:
S1:首次对隧道事故事务数据库D进行扫描;
S2:计算出每个隧道事故事务中各个项以及事务本身的权重,之后根据事务的权重计算出各个项的关键度量,将关键度量作为此项的支持度,根据之前预定好的最小支持度,得到频繁项集之后调整隧道事故事务数据库;
S3:建立标记为“null”的根节点和频繁项目头表;
S4:再次扫描隧道事故事务数据库,其中每个事务的项按频繁项集中的次序处理,根据建立完成的频繁项目头表创建隧道事故频繁模式树FP树;
S5:根据隧道事故FP树产生条件模式基,产生频繁模式项集;
S6:根据产生的频繁模式项集,计算每个项集的关键度量作为支持度,满足最小支持度与置信度的项集就是最后挖掘得到的隧道交通事故关联规则。
步骤S2中:
用I={I1,I2,I3,…,In}表示隧道事故事务数据库D的项集,n表示项的个数;项Ii(i=1,2,3,…,k)在隧道事故事务数据库的权重标记为w(Ii),公式为w(Ii)=m/l,公式中的l为Ii在事务集中出现的次数,m是数据库中事务的个数;事务Tj为事务数据库中的第j条数据,该事务的权重为其本身包含项的权重的平均值,记为wt(Tj),公式为项的关键度量是包含该项的事务权重与隧道事故事务数据可中所有事务权重之比,记为d(s),公式为
步骤S6中:
计算项集的关键度量,比如模式<I1,I2>的关键度量,则是求包含I1和I2项的事务权重与隧道事故事务数据库中所有事务权重之比。最后满足最小支持度与置信度的项集就是最后挖掘得到的关联规则。
与传统的运用数据统计分析相比,本发明的有益效果是:该算法通过权重来定义项在事务中的关键性,从而能够更加有效地挖掘处隐藏的,更加有意义的关联规则,可以指导交通部门对预防隧道交通事故采取相应的措施。
附图说明
图1为本发明一实施例的一种基于FP-Growth算法的隧道交通事故关联规则算法的流程图;
图2为本发明一实施例的频繁项目头表和频繁模式树的结构示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
如图1所示,一种基于FP-Growth算法的隧道交通事故关联规则算法,包括以下步骤:
Step1:首次对隧道事故事务数据库D进行扫描。
Step2:计算出每个隧道事故事务中各个项以及事务本身的权重,之后根据事务的权重计算出各个项的关键度量,将关键度量作为此项的支持度,根据之前预定好的最小支持度,得到频繁项集之后调整隧道事故事务数据库。
Step3:建立标记为“null”的根节点和频繁项目头表,如表1所示。
表1 频繁项目头表
Step4:再次扫描隧道事故事务数据库,其中每个事务的项按频繁项集中的次序处理,根据建立完成的频繁项目头表创建隧道事故频繁模式树FP树,如图2所示。
Step5:根据隧道事故FP树产生条件模式基,产生频繁模式项集。
Step6:根据产生的频繁模式项集,计算每个项集的关键度量作为支持度,满足最小支持度与置信度的项集就是最后挖掘得到的隧道交通事故关联规则。
其中步骤Step2包括:
用I={I1,I2,I3,…,In}表示隧道事故事务数据库D的项集,n表示项的个数;项Ii(i=1,2,3,…,k)在隧道事故事务数据库的权重标记为w(Ii),公式为w(Ii)=m/l,公式中的l为Ii在事务集中出现的次数,m是数据库中事务的个数;事务Tj为事务数据库中的第j条数据,该事务的权重为其本身包含项的权重的平均值,记为wt(Tj),公式为项的关键度量是包含该项的事务权重与隧道事故事务数据可中所有事务权重之比,记为d(s),公式为
权重思想描述:
简单假设频繁1项集为I1、I2、I3、I4、I5,隧道事故事务数据库如表2所示:
表2 隧道事故事务数据表
举例计算I1的关键度量:
1)首先分别计算I1、I2、I3、I4、I5的权重,公式为w(Ii)=m/l,即w(I1)=1.5,w(I2)=1.286,w(I3)=1.5,w(I4)=4.5,w(I5)=4.5。
2)计算事务数据库中各个事务的权重,事务的权重为其本身包含项的权重的平均值,公式为即wt(T1)=2.43,wt(T2)=2.895,wt(T3)=1.393,wt(T4)=2.43,wt(T5)=1.5,wt(T6)=1.393,wt(T7)=1.5,wt(T8)=2.197,wt(T9)=1.429。
3)之后在计算I1的关键度量,I1的关键度量是包含I1项的事务权重与事务数据库中所有事务权重之比,公式为按照上述公式即可计算出I1的关键度量,为d(I1)=0.669。
计算完每个项的关键度量之后,将各项的关键度量作为它的支持度,用来与实现设定好的最小支持度比较,生成频繁项集表。
在Step6中需要计算模式项集的关键度量,比如模式<I1,I2>的关键度量,则是求包含I1与I2项的事务权重与事务数据库中所有事务权重之比。满足最小支持度与置信度的项集就是最后挖掘得到的隧道交通事故关联规则。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (2)
1.基于FP-Growth算法的隧道交通事故关联规则算法,其特征在于,包括以下步骤:
S1:首次对隧道事故事务数据库D进行扫描;
S2:计算出每个隧道事故事务中各个项以及事务本身的权重,之后根据事务的权重计算出各个项的关键度量,将关键度量作为此项的支持度,根据之前预定好的最小支持度,得到频繁项集之后调整隧道事故事务数据库;
S3:建立标记为“null”的根节点和频繁项目头表;
S4:再次扫描隧道事故事务数据库,其中每个事务的项按频繁项集中的次序处理,根据建立完成的频繁项目头表创建隧道事故频繁模式树FP树;
S5:根据隧道事故FP树产生条件模式基,产生频繁模式项集;
S6:根据产生的频繁模式项集,计算每个项集的关键度量作为支持度,满足最小支持度与置信度的项集就是最后挖掘得到的隧道交通事故关联规则。
2.如权利要求1所述的基于FP-Growth算法的隧道交通事故关联规则算法,其特征在于,步骤S2包括:
用I={I1,I2,I3,…,In}表示隧道事故事务数据库D的项集,n表示项的个数;项Ii(i=1,2,3,…,k)在隧道事故事务数据库的权重标记为w(Ii),公式为w(Ii)=m/l,公式中的l为Ii在事务集中出现的次数,m是数据库中事务的个数;事务Tj为事务数据库中的第j条数据,该事务的权重为其本身包含项的权重的平均值,记为wt(Tj),公式为项的关键度量是包含该项的事务权重与隧道事故事务数据可中所有事务权重之比,记为d(s),公式为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710443636.7A CN107145609A (zh) | 2017-06-13 | 2017-06-13 | 基于FP‑Growth算法的隧道交通事故关联规则算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710443636.7A CN107145609A (zh) | 2017-06-13 | 2017-06-13 | 基于FP‑Growth算法的隧道交通事故关联规则算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107145609A true CN107145609A (zh) | 2017-09-08 |
Family
ID=59782678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710443636.7A Pending CN107145609A (zh) | 2017-06-13 | 2017-06-13 | 基于FP‑Growth算法的隧道交通事故关联规则算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107145609A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108900520A (zh) * | 2018-07-11 | 2018-11-27 | 广州虎牙信息科技有限公司 | 直播卡顿因素确定方法、装置、服务器及存储介质 |
CN109344150A (zh) * | 2018-08-03 | 2019-02-15 | 昆明理工大学 | 一种基于fp-树的时空数据挖掘分析方法 |
CN109582714A (zh) * | 2018-12-03 | 2019-04-05 | 甘肃万维信息技术有限责任公司 | 一种基于时间衰减关联的政务事项数据处理方法 |
CN112270470A (zh) * | 2020-10-23 | 2021-01-26 | 中国科学院电工研究所 | 一种危险驾驶场景数据分析方法及系统 |
CN115810272A (zh) * | 2023-02-09 | 2023-03-17 | 北京华录高诚科技有限公司 | 一种车辆安全监管方法及系统 |
-
2017
- 2017-06-13 CN CN201710443636.7A patent/CN107145609A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108900520A (zh) * | 2018-07-11 | 2018-11-27 | 广州虎牙信息科技有限公司 | 直播卡顿因素确定方法、装置、服务器及存储介质 |
CN108900520B (zh) * | 2018-07-11 | 2021-04-20 | 广州虎牙信息科技有限公司 | 直播卡顿因素确定方法、装置、服务器及存储介质 |
CN109344150A (zh) * | 2018-08-03 | 2019-02-15 | 昆明理工大学 | 一种基于fp-树的时空数据挖掘分析方法 |
CN109582714A (zh) * | 2018-12-03 | 2019-04-05 | 甘肃万维信息技术有限责任公司 | 一种基于时间衰减关联的政务事项数据处理方法 |
CN109582714B (zh) * | 2018-12-03 | 2023-07-25 | 中电万维信息技术有限责任公司 | 一种基于时间衰减关联的政务事项数据处理方法 |
CN112270470A (zh) * | 2020-10-23 | 2021-01-26 | 中国科学院电工研究所 | 一种危险驾驶场景数据分析方法及系统 |
CN112270470B (zh) * | 2020-10-23 | 2023-12-05 | 中国科学院电工研究所 | 一种危险驾驶场景数据分析方法及系统 |
CN115810272A (zh) * | 2023-02-09 | 2023-03-17 | 北京华录高诚科技有限公司 | 一种车辆安全监管方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107145609A (zh) | 基于FP‑Growth算法的隧道交通事故关联规则算法 | |
CN104361036B (zh) | 告警事件关联规则挖掘方法 | |
Cao | Predicting parameters of a Weibull function for modeling diameter distribution | |
CN107871216A (zh) | 一种配电网脆弱节点的识别方法 | |
CN105184394B (zh) | 基于配电网cps在线数据挖掘的优化控制方法 | |
CN114143629B (zh) | 一种建筑实时碳排放量监控系统 | |
CN109409647A (zh) | 一种基于随机森林算法的薪资水平影响因素的分析方法 | |
WO2019033820A1 (zh) | 一种电力系统静态电压稳定域边界快速搜索的优化模型 | |
CN108011367A (zh) | 一种基于深度决策树算法的电力负荷特性挖掘方法 | |
CN104216874A (zh) | 基于相关系数的中文词间加权正负模式挖掘方法及系统 | |
CN104834964A (zh) | 一种森林择伐最优造材方法 | |
CN208985211U (zh) | 确定风电机组限功率数据的装置 | |
US20230169244A1 (en) | Method for evaluating fracture connectivity and optimizing fracture parameters based on complex network theory | |
CN108154185A (zh) | 一种隐私保护的k-means聚类方法 | |
CN104112236A (zh) | 风电场发电功率的计算方法 | |
CN109301870A (zh) | 一种电力电子多馈入电力系统容量优化方法 | |
CN104731887B (zh) | 一种协同过滤中的用户相似度度量方法 | |
CN115357572A (zh) | 一种数据质量检查规则构建方法、存储介质及系统 | |
EP4354369A1 (en) | Control method and apparatus for dual carbon, electronic device, storage medium, and program product | |
Hong et al. | The study of improved FP-growth algorithm in MapReduce | |
CN110048884A (zh) | 抵御随机攻击和蓄意网络攻击的智能配电网通信网络规划方法 | |
CN105976046B (zh) | 一种考虑需求侧管理的低碳电网规划方法 | |
CN110069548A (zh) | 一种基于循环方式的关联规则合并方法 | |
Hu et al. | A new approach for decision tree based on principal component analysis | |
Li | A Data Classification Algorithm of Internet of Things Based on Neural Network. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170908 |
|
RJ01 | Rejection of invention patent application after publication |