CN109086808A - 基于随机森林算法的交通高危人员识别方法 - Google Patents
基于随机森林算法的交通高危人员识别方法 Download PDFInfo
- Publication number
- CN109086808A CN109086808A CN201810782889.1A CN201810782889A CN109086808A CN 109086808 A CN109086808 A CN 109086808A CN 201810782889 A CN201810782889 A CN 201810782889A CN 109086808 A CN109086808 A CN 109086808A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- illegal
- traffic
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 24
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000013480 data collection Methods 0.000 claims abstract description 27
- 230000000694 effects Effects 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 18
- 206010039203 Road traffic accident Diseases 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 9
- 238000007689 inspection Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000007547 defect Effects 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000005194 fractionation Methods 0.000 claims description 2
- 238000012937 correction Methods 0.000 abstract description 2
- 230000001737 promoting effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 4
- 230000002265 prevention Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003455 independent Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000008821 health effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Educational Administration (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于随机森林算法的交通高危人员识别方法,基于原始的交通违法数据与事故数据,构建违法数据集、严重事故数据集、轻微事故数据集,采用随机森林进行高危人员识别模型训练与校正,实现基于交通参与者违法行为特征的安全事故风险的预测,对于提升交通安全治理工作效率、辅助交警日常安全管理工作更具针对性和主动性等方面具有现实意义。
Description
技术领域
本发明涉及一种基于随机森林算法的交通高危人员识别方法。
背景技术
打造安全有序的道路交通运行环境是城市健康可持续发展的重要环节,对保障公众生命健康财产安全具有重要意义。然而随着出行机动化水平的增长,交通安全形势仍然严峻,国家统计局公布的《2016年国民经济和社会发展统计公报》中发布道路交通事故万车死亡人数2.1人。数据调查显示,交通事故发生的主要原因是机动车违法引起,驾驶员驾驶技能参差不齐,违法驾驶现象屡见不鲜,其中尤以严重超载、疲劳驾驶、超速驾驶最为突出。在此方面,交通治理是目前维护交通安全与秩序的主要手段之一,现场执勤、非现场执法、源头管理、法律法规制定等措施多管齐下,虽取得一定的成效,但人力、物力投入较大,主动式的安全预警与防控很难在较大的时空范围内开展。
目前,随着智能交通系统的推广应用,蕴含丰富信息的交通管理数据资源为新型的交通安全防护模式的实施奠定了可靠的基础,结合多样化的数据分析、挖掘、处理手段,探析事故成因的规律,辅助事故的预警与预防。在该领域的研究大多集中于环境、道路基础设施、交通流运行状态等外部因素与交通事故的关联规律分析,例如中国专利CN201710400521.X、CN201580075213.3、CN201611051192.4等或从事故时空分布特征,或从环境、交通管制措施等特征角度出发分析交通事故规律特征。驾驶人本身的行为习惯等内部因素,由于其信息维度广、信息感知手段有限等问题,目前尚缺乏深入的研究和探析,但人为因素对交通事故的影响是交通安全研究不可避免的内容,对交通安全治理具有极大的现实性指导意义。
有研究表明,交通违法与交通事故间存在相关关系;考虑到当前违法数据管理工作逐步完善,能够为事故的特征挖掘提供可靠的数据支撑,综合分析可行性和必要性,本发明以交通参与者的行为特征挖掘为核心,提取事故相关人员的交通违法行为属性,辅助人员安全风险的评价,实现数据驱动的主动交通安全预防。
随机森林是一种有监督学习算法,采用的是随机有放回的选择训练数据然后构造分类器,最后组合学习到的模型来增加整体的效果。该算法灵活且易于使用,即便没有参数调优,也可以在解决分类或回归问题时获得很好的结果。该模型应用广泛,当前还未应用于交通参与者的安全特性挖掘领域。
发明内容
本发明的目的是提供一种基于随机森林算法的交通高危人员识别方法,从存在交通违法记录的交通参与者中识别存在交通事故风险的危险人员,从而实现人员的交通安全风险预测评价,在交通安全治理应用中的源头管理、现场检查等工作中提供辅助决策的科学指标依据,解决如何基于出行者的违法行为特征对其安全事故风险的预测的问题。
本发明从交通违法与交通事故的关联性出发,通过规则判定存在违法记录的交通参与者高危和一般的交通事故风险等级,从违法数据集中抽取训练样本与测试样本,采用随机森林算法进行分类模型的训练与校正,从而识别高危人员,实现基于人员违法行为特征的安全事故风险预测,对于提升交通安全治理工作效率、辅助交警日常安全管理工作更具针对性和主动性等方面具有现实意义。
本发明的技术解决方案是:
一种基于随机森林算法的交通高危人员识别方法,包括以下步骤:
S1、基于原始的交通违法数据与事故数据,构建违法数据集、严重事故数据集、轻微事故数据集;
S2、将违法数据集二分类,即高危人员、一般人员,根据分类规则确定数据标记值label,据此将违法数据集分为高危人员数据子集D、一般人员数据子集N以及待识别子集U;
S3、对违法数据集中的高危人员数据子集以及一般人员数据子集进行抽样,获得训练集与测试集;
S4、采用随机森林算法,以训练集数据训练高危人员识别模型,确定模型参数;其中,模型参数包括分类器个数、最大树深、节点最小分裂值、叶节点最小样本数、最大特征;
S5、以测试集数据进行模型评估,并确定分类概率临界阈值,校正模型,获得最终的高危人员识别模型;
S6、将步骤S2中待识别子集数据输入步骤S5得到的高危人员识别模型,确定对应数据标签,实现高危人员的识别。
进一步地,步骤S3中所述的抽样方法具体为:
S31、对一般人员数据子集进行随机抽样,获得压缩后的一般人员样本N’;
S32、对抽样后的一般人员数据子集的样本数据进行变量处理与筛选;
S33、将高危人员数据子集D与N’的合集G拆分为训练集和测试集;
S34、对训练集进行SMOTE抽样,确定高危人员数据子集以及一般人员数据子集扩样、缩样比例,得到最终的样本数量,处理后获得训练集样本。
进一步地,步骤S32中所述的样本数据变量处理与筛选方法,具体为:
S321、设置因变量target,其数值在高危、一般中择其一,根据样本数据标签确定;违法数据集的数据字段作为自变量;
S322、删除自变量中的常数自变量与方差极小的自变量;其中方差极小的判断条件为:其中freqcutX=xf/xl,xf为变量X频次最大的样本值,xl为变量X频次次大的样本值,Tf为对应阈值,通常取值19;uniquecutX=MX/NX,MX为样本值去重后的样本数量,NX为样本总量,Tu为uniquecut的检验阈值,通常取值为0.1;
S323、删除与其他自变量共线性大于阈值的自变量;其中阈值通常取值0.75;
S324、检查自变量多重共线性,确定数据自变量。
进一步地,步骤S2中所述的基于分类规则赋予对应数据标记值label的方法具体为:
高危人员:一类为存在违法记录且存在负主要责任或全部责任的严重交通事故记录的交通参与者;另一类为存在违法记录,仅存在轻微事故记录,且事故记录不低于2条的交通参与者;
一般人员:存在违法记录但无事故记录的交通参与者;
不满足上述判别条件的数据构成待识别子集。
进一步地,步骤S1中原始的交通违法数据与事故数据包含相关人员证件信息;对违法记录进行汇集、分类处理操作后获得违法数据集;违法数据集为人员的违法记录全样本数据,违法数据集信息包含人员证件号码、违法次数、违法种类、扣分罚款情况、事故相关违法行为发生情况、违法发生时段。
进一步地,步骤S1中事故相关违法行为发生情况通过对应分析方式获得,并提取交通事故影响程度较高的违法类型,作为违法数据集的数据属性。
进一步地,步骤S1中所述违法发生时段是将时间连续型变量转化为离散变量,根据违法时间特征进行分类。
本发明的有益效果是:
一、本发明基于交通违法与交通事故的相关性,提出基于交通违法行为的高危人员识别方法,达到预测机动车、非机动车驾驶人以及行人等交通参与者的交通安全风险的效果。该方法采用实施性较强的人员安全风险标签确定方法,可根据实际应用中的地区交通规范性与安全性程度以及模型所需的灵敏性进行灵活调整。
二、本发明采用随机森林算法对高危人员识别模型进行训练,该方法收敛快、精度高、可解释性强,能够保障该方法的较高的运行效率以及高危识别准确性。
三、本发明在SMOTE抽样前预先进行大样本的压缩,能够进一步解决不均衡数据集影响模型精确度的问题。
四、本发明将基于交通违法类型与事故类型的多维对应分析应用到违法数据的变量处理环节,解决原始的违法数据因违法类型信息增益过小而对模型拟合造成影响,提高模型准确度。
附图说明
图1是本发明实施例基于随机森林算法的交通高危人员识别方法的流程示意图。
图2是实施例中对一般人员数据子集进行抽样的流程示意图。
图3是实施例中样本数据变量处理与筛选方法的流程示意图。
图4是实施例中数据集的说明示意图。
图5是实施例中重要度前20位的属性变量的说明示意图。
图6是实施例绘制的测试集ROC曲线的示意图。
图7是实施例绘制的测试集PR曲线的示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
实施例
基于随机森林算法的交通高危人员识别方法,从交通违法记录提取人员安全行为特征属性并拟合安全风险分类模型,实现基于违法数据的高危人员识别与安全风险预测;如图1,具体的方法流程为:
S1、基于原始的交通违法数据与事故数据,构建违法数据集、严重事故数据集、轻微事故数据集。
实施例中,步骤S1中原始的交通违法数据与事故数据包含相关人员证件信息;对违法记录进行汇集、分类处理操作后获得违法数据集;违法数据集为人员的违法记录全样本数据,违法数据集信息包含人员证件号码、违法次数、违法种类、扣分罚款情况、事故相关违法行为发生情况、违法发生时段。
步骤S1中事故相关违法行为发生情况通过对应分析方式获得,并提取交通事故影响程度较高的违法类型,作为违法数据集的数据属性。
步骤S1中违法发生时段是将时间连续型变量转化为离散变量,根据违法时间特征进行分类。
S2、将违法数据集二分类,即高危人员、一般人员,根据分类规则确定数据标记值label,据此将违法数据集分为高危人员数据子集D、一般人员数据子集N以及待识别子集U.
S2中所述的基于分类规则赋予对应数据标记值label的方法具体为,高危人员的分类规则为:(1)存在违法记录且存在负主要责任或全部责任的严重交通事故记录的交通参与者;(2)存在违法记录,仅存在轻微事故记录,且事故记录不低于2条的交通参与者。一般人员为存在违法记录但无事故记录的交通参与者。不满足上述判别条件的数据构成待识别子集。
S3、对违法数据集中的高危人员数据子集以及一般人员数据子集进行抽样,获得训练集与测试集。
S3中的抽样方法如图2,具体为:
S31、对一般人员数据子集进行随机抽样,获得压缩后的一般人员样本N。采样率一般取2.5%~25%,根据样本量确定。
S32、对抽样后的一般人员数据子集的样本数据进行变量处理与筛选。其中样本数据变量处理与筛选方法,如图3,具体为:
S321、设置因变量target,其数值在高危、一般中择其一,根据样本数据标签确定;违法数据集的数据字段作为自变量。
S322、删除自变量中的常数自变量与方差极小的自变量;其中方差极小的判断条件为:其中freqcutX=xf/xl,xf为变量X频次最大的样本值,xl为变量X频次次大的样本值,Tf为对应阈值,通常取值19;uniquecutX=mX/nX,mX为样本值去重后的样本数量,nX为样本总量,Tu为uniquecut的检验阈值,通常取值为0.1。
S323、删除与其他自变量共线性大于阈值的自变量;其中阈值通常取值0.75。
S324、检查自变量多重共线性,确定数据自变量。
S33、将高危人员人数据子集D与N’的合集G拆分为训练集和测试集;实施例中,训练集与测试集的样本量比例为9:1。
S34、对训练集进行SMOTE抽样,确定高危人员数据子集以及一般人员数据子集扩样、缩样比例,得到最终的样本数量,处理后获得训练集样本。
S4、采用随机森林算法,以训练集数据训练高危人员识别模型,确定模型参数;参数包括分类器个数、最大树深、节点最小分裂值、叶节点最小样本数、最大特征数。在实施例中,运用Python调用Sklearn机器学习库中的RandomForestClassifier函数执行随机森林算法。
S5、以测试集数据进行高危人员识别模型评估,并确定分类概率临界阈值,校正模型,获得最终的交通高危人员识别模型。
S6、将步骤S2中待识别子集数据输入步骤S5得到的高危人员识别模型,确定对应数据标签,实现高危人员的识别。
具体示例
步骤1、通过与数据库对接获取区域内2年的交通违法记录以及事故记录。
本实施例以机动车驾驶人为分析对象。将发生死亡或受伤严重或发生肇事逃逸的交通事故作为严重事故,其他事故作为轻微事故,据此对原始的事故记录进行分类,并将事故类型与驾驶人证件信息作为严重事故数据集与轻微事故数据集的属性特征,获取两数据集样本数据。
进一步地,对违法原始数据进行预处理,对驾驶人的违法信息进行汇集统计,包括累计违法次数、违法种类、累计扣分分值、平均扣分分值(分/次)、单次最大扣分分值、累计罚款金额、平均罚款金额(元/次)。
采用对应分析法对交通事故数据与违法原始数据进行降维处理,根据违法与事故在类型上的相关性对违法种类进行分类,并提取其中相关性最高的五类作为事故风险违法行为字段的数据属性,如表1所示。
表1.事故相关违法类型划分情况
根据实施例所在区域路网的交通流运行以及交通违法事件发生规律特征,将时间进行聚合,并划分分析时段,将连续型变量转化为标称型变量;在另一个实施例中,通过聚类等其他统计方式进行时段划分。
驾驶人特征数据则根据驾驶人证件号码中提取驾驶人年龄、性别、所属省市编码;根据上述各环节提取的信息生成违法数据集,如表2所示。
表2.违法数据集部分数据
步骤2、对违法数据集内全样本I进行高危驾驶人与一般驾驶人二分类。如图4,将存在违法记录且存在负主要责任或全部责任的严重交通事故记录的驾驶人作为高危驾驶人的一种情况,符合条件的数据划为数据集D1;将存在违法记录,仅存在轻微事故记录,且事故记录不低于2条的驾驶人作为高危驾驶人的另一种情况,符合条件的数据划为数据集D2;高危驾驶人数据集D=D1+D2。存在违法记录但无事故记录的驾驶人对应数据合成一般驾驶人数据集N。。
据此对违法数据集中满足规则的数据确定高危或一般的数据标记值label,另外无法适用于此分类规则的数据子集U=I-N-D,则为待识别数据子集。
步骤3、对一般驾驶人数据子集进行抽样,与高危人员数据子集D组合并拆分获得训练集与测试集;具体方法为:
步骤31、对一般驾驶人数据子集进行随机抽样,获得压缩后的一般驾驶人样本N’,采样率一般取2.5%~25%,本实施例中从84383条数据中抽取4000条。
步骤32、对抽样后的一般驾驶人数据子集的样本数据进行变量处理与筛选;具体步骤包括:
S321、设置因变量target,其数值在高危、一般中择其一,根据样本数据标签确定;违法数据集的数据字段作为自变量;将其中的省级编码与市级编码字段设置为哑变量,自变量增为93个;
S322、删除自变量中的常数自变量与方差极小的自变量;其中方差极小的判断条件为:其中freqcutX=xf/xl,xf为变量X频次最大的样本值,xl为变量X频次次大的样本值,Tf为对应阈值,取值19;uniquecutX=mX/nX,mX为样本值去重后的样本数量,nX为样本总量,Tu为uniquecut的检验阈值,取值0.1;在本实施例中,该环节删除了累计违法次数、type2、type3、type5、19:00~22:00几个自变量;
S323、删除与其他自变量共线性大于阈值的自变量;其中阈值通常取值0.75;在本实施例中,该环节删除了累计扣分分值、平均扣分分值、其他违法行为合计三个自变量;
S324、经检查,剩余自变量不存在多重共线性,由此确定数据自变量。
S33、将高危驾驶人数据子集D与N’的合集G拆分为训练集和测试集;通常,训练集与测试集的样本量比例为9:1。
S34、对训练集进行SMOTE抽样,确定高危驾驶人数据子集以及一般驾驶人数据子集所需样本量的比例以及最终的抽样样本数量,并抽样获得训练集样本。实施例中,高危驾驶人数据子集的过采样样本数为原来的2倍,一般驾驶人数据子集欠抽样样本数为高危驾驶人样本数的2倍。
步骤4、运用随机森林算法,对训练集数据采用5折交叉验证方法,进行分类模型的训练。模型参数包括分类器参数包括分类器个数n_estimators_value=200、最大树深max_depth_value=4、节点最小分裂值min_samples_split_value=2、叶节点最小样本数min_samples_leaf_value=2、最大特征数max_features_value=5。根据袋外估计误差的稳定性,确定模型决策树数量ntree为200,内部节点选择属性个数mtry为47,即从93个属性变量中筛选年龄、平均罚款金额、累计罚款金额、性别等47个特征变量,重要度前20位的属性变量,如图5所示。
步骤5、以测试集数据进行模型评估,并确定分类概率临界阈值,校正模型。
具体地,首先,将测试集数据输入步骤4训练的模型,由模型处理获得测试样本target分类类别rfFit_class及其概率rfFit_probs;其次,绘制ROC曲线(图6)、PR曲线(图7),确定精确度与召回率;根据召回率确定分类概率阈值,本实施例中,模型精确度为0.8,召回率为0.379,对应的高危驾驶人与一般驾驶人的判定概率阈值为0.765,即当数据target为高危的概率超过0.765时,将其取值确定为高危。
步骤6、基于上述步骤拟合的高危驾驶人识别模型,将步骤2获得的待识别子集U的数据输入模型,由模型处理target数值,部分判断结果如表3所示。
表3.运用本发明方法的高危驾驶人识别结果
Claims (7)
1.一种基于随机森林算法的交通高危人员识别方法,其特征在于:包括以下步骤,
S1、基于原始的交通违法数据与事故数据,构建违法数据集、严重事故数据集、轻微事故数据集;
S2、将违法数据集二分类,即高危人员、一般人员,根据分类规则确定数据标记值label,据此将违法数据集分为高危人员数据子集D、一般人员数据子集N以及待识别子集U;
S3、对一般人员数据子集进行抽样,与违法数据集组合并拆分,获得训练集与测试集;
S4、采用随机森林算法,以训练集数据训练高危人员识别模型,确定模型参数;其中,模型参数包括分类器个数、最大树深、节点最小分裂值、叶节点最小样本数、最大特征;
S5、以测试集数据进行模型评估,并确定分类概率临界阈值,校正模型,获得最终的高危人员识别模型;
S6、将步骤S2中待识别子集数据输入步骤S5得到的高危人员识别模型,确定对应数据标签,实现高危人员的识别。
2.如权利要求1所述的基于随机森林算法的车辆高危人员识别方法,其特征在于:步骤S3具体步骤为,
S31、对一般人员数据子集进行随机抽样,获得压缩后的一般人员样本N’;
S32、对抽样后的一般人员数据子集的样本数据进行变量处理与筛选;
S33、将高危人员数据子集D与N’的合集G拆分为训练集和测试集;
S34、对训练集进行SMOTE抽样,确定高危人员数据子集以及一般人员数据子集扩样、缩样比例,得到最终的样本数量,处理后获得训练集样本。
3.如权利要求2所述的基于随机森林算法的车辆高危人员识别方法,其特征在于,步骤S32中所述的样本数据变量处理与筛选方法,具体为:
S321、设置因变量target,其数值在高危、一般中择其一,根据样本数据标签确定;违法数据集的数据字段作为自变量;
S322、删除自变量中的常数自变量与方差极小的自变量;其中方差极小的判断条件为:其中freqcutX=xf/xl,xf为变量X频次最大的样本值,xl为变量X频次次大的样本值,Tf为对应阈值;uniquecutX=MX/NX,MX为样本值去重后的样本数量,NX为样本总量,Tu为uniquecut的检验阈值;
S323、删除与其他自变量共线性大于阈值的自变量;
S324、检查自变量多重共线性,确定数据自变量。
4.如权利要求1-3任一项所述的基于随机森林算法的车辆高危人员识别方法,其特征在于,步骤S2中所述的基于分类规则赋予对应数据标记值label的方法具体为:
高危人员:一类为存在违法记录且存在负主要责任或全部责任的严重交通事故记录的交通参与者;另一类为存在违法记录,仅存在轻微事故记录,且事故记录不低于2条的交通参与者;
一般人员:存在违法记录但无事故记录的交通参与者;
不满足上述判别条件的数据构成待识别子集。
5.如权利要求1-3任一项所述的基于随机森林算法的车辆高危人员识别方法,其特征在于:步骤S1中原始的交通违法数据与事故数据包含相关人员证件信息;对违法记录进行汇集、分类处理操作后获得违法数据集;违法数据集为人员的违法记录全样本数据,违法数据集信息包含人员证件号码、违法次数、违法种类、扣分罚款情况、事故相关违法行为发生情况、违法发生时段。
6.如权利要求5所述的基于随机森林算法的车辆高危人员识别方法,其特征在于:步骤S1中事故相关违法行为发生情况通过对应分析方式获得,并提取交通事故影响程度较高的违法类型,作为违法数据集的数据属性。
7.如权利要求5所述的基于随机森林算法的车辆高危人员识别方法,其特征在于:步骤S1中所述违法发生时段是将时间连续型变量转化为离散变量,根据违法时间特征进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810782889.1A CN109086808B (zh) | 2018-07-16 | 2018-07-16 | 基于随机森林算法的交通高危人员识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810782889.1A CN109086808B (zh) | 2018-07-16 | 2018-07-16 | 基于随机森林算法的交通高危人员识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109086808A true CN109086808A (zh) | 2018-12-25 |
CN109086808B CN109086808B (zh) | 2021-09-17 |
Family
ID=64838129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810782889.1A Active CN109086808B (zh) | 2018-07-16 | 2018-07-16 | 基于随机森林算法的交通高危人员识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109086808B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648537A (zh) * | 2019-09-28 | 2020-01-03 | 安徽百诚慧通科技有限公司 | 一种基于海恩法则的交通事故相关性分析方法 |
CN111222784A (zh) * | 2020-01-03 | 2020-06-02 | 重庆特斯联智慧科技股份有限公司 | 一种基于人口大数据的安防监控方法和系统 |
CN113295635A (zh) * | 2021-05-27 | 2021-08-24 | 河北先河环保科技股份有限公司 | 一种基于动态更新数据集的水质污染报警方法 |
CN113392880A (zh) * | 2021-05-27 | 2021-09-14 | 扬州大学 | 一种基于偏差校正随机森林的交通流短时预测方法 |
CN113743392A (zh) * | 2020-05-28 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 识别模型的训练方法、识别方法和装置 |
CN115100855A (zh) * | 2022-06-20 | 2022-09-23 | 公安部交通管理科学研究所 | 一种高速公路隐患车辆预警方法及其系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102005044771A1 (de) * | 2005-09-20 | 2007-03-29 | Robert Bosch Gmbh | Vorrichtung zur Bereitstellung von Informationen über eine Fahrzeugfahrt |
CN104951764A (zh) * | 2015-06-17 | 2015-09-30 | 浙江工业大学 | 基于二次谱聚类和hmm-rf混合模型的高速车辆行为识别方法 |
CN106056162A (zh) * | 2016-06-07 | 2016-10-26 | 浙江大学 | 一种基于gps轨迹和交通违法记录的交通安全信用评分方法 |
CN106448149A (zh) * | 2016-05-16 | 2017-02-22 | 江苏智通交通科技有限公司 | 道路交通事故预警方法 |
CN106897566A (zh) * | 2017-02-28 | 2017-06-27 | 北京积水潭医院 | 一种风险预估模型的构建方法及装置 |
CN107038860A (zh) * | 2016-11-18 | 2017-08-11 | 杭州好好开车科技有限公司 | 一种基于adas技术及回归模型的用户驾驶行为评分方法 |
CN107103101A (zh) * | 2017-06-14 | 2017-08-29 | 刘晓龙 | 一种建立交通意外高危人群信息库的方法及装置 |
-
2018
- 2018-07-16 CN CN201810782889.1A patent/CN109086808B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102005044771A1 (de) * | 2005-09-20 | 2007-03-29 | Robert Bosch Gmbh | Vorrichtung zur Bereitstellung von Informationen über eine Fahrzeugfahrt |
CN104951764A (zh) * | 2015-06-17 | 2015-09-30 | 浙江工业大学 | 基于二次谱聚类和hmm-rf混合模型的高速车辆行为识别方法 |
CN106448149A (zh) * | 2016-05-16 | 2017-02-22 | 江苏智通交通科技有限公司 | 道路交通事故预警方法 |
CN106056162A (zh) * | 2016-06-07 | 2016-10-26 | 浙江大学 | 一种基于gps轨迹和交通违法记录的交通安全信用评分方法 |
CN107038860A (zh) * | 2016-11-18 | 2017-08-11 | 杭州好好开车科技有限公司 | 一种基于adas技术及回归模型的用户驾驶行为评分方法 |
CN106897566A (zh) * | 2017-02-28 | 2017-06-27 | 北京积水潭医院 | 一种风险预估模型的构建方法及装置 |
CN107103101A (zh) * | 2017-06-14 | 2017-08-29 | 刘晓龙 | 一种建立交通意外高危人群信息库的方法及装置 |
Non-Patent Citations (2)
Title |
---|
范菁等: "基于二次谱聚类和HMM-RF混合模型的车辆行为识别方法研究", 《计算机科学》 * |
黄亮等: "基于随机森林的驾驶行为分析", 《无线互联科技》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648537A (zh) * | 2019-09-28 | 2020-01-03 | 安徽百诚慧通科技有限公司 | 一种基于海恩法则的交通事故相关性分析方法 |
CN111222784A (zh) * | 2020-01-03 | 2020-06-02 | 重庆特斯联智慧科技股份有限公司 | 一种基于人口大数据的安防监控方法和系统 |
CN113743392A (zh) * | 2020-05-28 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 识别模型的训练方法、识别方法和装置 |
CN113295635A (zh) * | 2021-05-27 | 2021-08-24 | 河北先河环保科技股份有限公司 | 一种基于动态更新数据集的水质污染报警方法 |
CN113392880A (zh) * | 2021-05-27 | 2021-09-14 | 扬州大学 | 一种基于偏差校正随机森林的交通流短时预测方法 |
CN113392880B (zh) * | 2021-05-27 | 2021-11-23 | 扬州大学 | 一种基于偏差校正随机森林的交通流短时预测方法 |
CN115100855A (zh) * | 2022-06-20 | 2022-09-23 | 公安部交通管理科学研究所 | 一种高速公路隐患车辆预警方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109086808B (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086808A (zh) | 基于随机森林算法的交通高危人员识别方法 | |
CN106383920B (zh) | 一种基于关联规则的重特大交通事故致因识别方法 | |
CN104268599B (zh) | 一种基于车辆轨迹时空特征分析的黑车智能发现方法 | |
CN106448149B (zh) | 道路交通事故预警方法 | |
CN108596409B (zh) | 提升交通危险人员事故风险预测精度的方法 | |
Sun et al. | A comparative study of funnel shape bottlenecks in subway stations | |
CN110188807A (zh) | 基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法 | |
CN109714322A (zh) | 一种检测网络异常流量的方法及其系统 | |
CN107992836A (zh) | 一种矿工不安全行为的识别方法及系统 | |
CN109902560A (zh) | 一种基于深度学习的疲劳驾驶预警方法 | |
CN111462488A (zh) | 一种基于深度卷积神经网络和交叉口行为特征模型的交叉口安全风险评估方法 | |
Das et al. | Investigating the pattern of traffic crashes under rainy weather by association rules in data mining | |
CN107229712A (zh) | 一种面向公共安全事件信息获取的时空聚类方法 | |
CN105070053A (zh) | 一种识别车辆违规运动模式的智能交通监控摄像机 | |
CN104036360A (zh) | 一种基于磁卡考勤行为的用户数据处理系统及处理方法 | |
CN111179141B (zh) | 一种基于双阶段分类的事故多发路段识别方法 | |
CN109191828A (zh) | 基于集成学习的交通参与者事故风险预测方法 | |
CN111914687B (zh) | 一种基于车联网主动识别事故的方法 | |
CN101751438A (zh) | 自适应语义驱动的主题网页过滤系统 | |
CN109887283A (zh) | 一种基于卡口数据的道路拥堵预测方法、系统及装置 | |
CN109101568A (zh) | 基于XgBoost算法的交通高危人员识别方法 | |
CN109376613A (zh) | 基于大数据和深度学习技术的视频智能监控系统 | |
CN112084240B (zh) | 一种群租房智能识别、联动治理方法及系统 | |
CN109598931A (zh) | 基于交通安全风险的群体划分与差异性分析方法及系统 | |
CN108256759A (zh) | 一种恐怖袭击事件风险时空模拟与智能分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 211100 No. 19 Suyuan Avenue, Jiangning Economic and Technological Development Zone, Nanjing City, Jiangsu Province Applicant after: JIANGSU ZHITONG TRAFFIC TECHNOLOGY Co.,Ltd. Address before: 210006, Qinhuai District, Jiangsu, Nanjing should be 388 days street, Chenguang 1865 Technology Creative Industry Park E10 building on the third floor Applicant before: JIANGSU ZHITONG TRAFFIC TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |