CN111814836A - 基于类不平衡算法的车辆行驶行为检测方法及装置 - Google Patents

基于类不平衡算法的车辆行驶行为检测方法及装置 Download PDF

Info

Publication number
CN111814836A
CN111814836A CN202010534909.0A CN202010534909A CN111814836A CN 111814836 A CN111814836 A CN 111814836A CN 202010534909 A CN202010534909 A CN 202010534909A CN 111814836 A CN111814836 A CN 111814836A
Authority
CN
China
Prior art keywords
information
driving behavior
vehicle
algorithm
vehicle driving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010534909.0A
Other languages
English (en)
Other versions
CN111814836B (zh
Inventor
曹菁菁
李周理
黄齐贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202010534909.0A priority Critical patent/CN111814836B/zh
Publication of CN111814836A publication Critical patent/CN111814836A/zh
Application granted granted Critical
Publication of CN111814836B publication Critical patent/CN111814836B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • G07C5/08Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
    • G07C5/0841Registering performance data

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明属于车辆行驶检测技术领域,公开基于类不平衡算法的车辆行驶行为检测方法,包括获取车辆行驶数据信息;对车辆行驶数据信息预处理和特征提取得出样本数据块信息;将样本数据块信息输入采用类不平衡算法训练后的车辆行驶行为识别模型,输出车辆行驶行为信息;发送车辆行驶行为信息至终端;还公开一种装置;使用多数类与少数类比率和固定的阈值进行对比,当比率大于阈值时,就认为当前数据块是类不平衡的,接着就会对当前数据块进行过采样增加少数类样本的个数,从而达到整个数据块的类平衡;进而将传感器获取的数据信息提取后输入至采用类不平衡算法训练后的车辆行驶行为识别模型,准确输出包括车辆异常行驶行为或正常行驶行为信息的一种。

Description

基于类不平衡算法的车辆行驶行为检测方法及装置
技术领域
本发明属于车辆行驶检测技术领域,特别的涉及基于类不平衡算法的车辆行驶行为检测方法及装置。
背景技术
第一辆汽车问世距今已有135年的时间。在这一百多年的历史中,汽车在人类社会的发展中扮演着举足轻重的角色。而随着汽车技术及生产工艺的不断迭代革新,汽车的速度,功率,运力,产量等都得到了长足的发展,与之相对的则是与汽车有关的交通安全问题越来越突出。而在有关交通事故诱发因素的研究中科研人员发现,交通事故的发生常常是由驾驶人员的一系列不当驾驶行为引起的。于是,面向驾驶人员的安全驾驶监测与辅助系统逐渐成为行业研究的热点。
但面向驾驶人员的安全驾驶监测会发现,由于人是高度自由的个体,个人行为的高度自由化与不可预测性会对算法带来负面的影响,降低算法识别准确率;此时,往往需要布置大量的传感器或采用图像处理的方法来提升信息丰富度,以此弥补个人行为高度自由带来的问题;但信息量的增大就意味着算法需要更长的时间来处理输入,与之相对应的,采用此种解决方案的驾驶行为监测系统在实时性上则极可能达不到要求;另一方面,在车辆行驶行为检测的过程中,每个行驶行为类别持续的时间是不同的,对于那些持续时间短的行驶行为类别来说,其所包含的数据样本数量相对较少,而机器学习算法往往对于样本数量比较多的行驶行为类别(即,多数类)具有很好的识别效果而对于这些样本数量较少的行驶行为类别识别效果较差。
发明内容
本发明目的是提供基于类不平衡算法的车辆行驶行为检测方法及装置,用以解决上述提到的面向驾驶人员的安全驾驶监测会发现,由于人是高度自由的个体,个人行为的高度自由化与不可预测性会对算法带来负面的影响,降低算法识别准确率;此时,往往需要布置大量的传感器或采用图像处理的方法来提升信息丰富度,以此弥补个人行为高度自由带来的问题;但信息量的增大就意味着算法需要更长的时间来处理输入,与之相对应的,采用此种解决方案的驾驶行为监测系统在实时性上则极可能达不到要求;另一方面,在车辆行驶行为检测的过程中,每个行驶行为类别持续的时间是不同的,对于那些持续时间短的行驶行为类别来说,其所包含的数据样本数量相对较少,而机器学习算法往往对于样本数量比较多的行驶行为类别(即,多数类)具有很好的识别效果而对于这些样本数量较少的行驶行为类别识别效果较差。
本发明解决其技术问题采用的技术方案是,提出基于类不平衡算法的车辆行驶行为检测方法,包括以下步骤:
获取当前车辆行驶数据信息;
对所述车辆行驶数据信息预处理和特征提取得出样本数据块信息;
将所述样本数据块信息输入采用类不平衡算法训练后的车辆行驶行为识别模型,输出车辆行驶行为信息;
发送所述车辆行驶行为信息至终端。
进一步优选地,所述当前车辆行驶数据信息具体包括当前车辆加速度信息和当前车辆角速度信息。
进一步优选地,所述“对所述车辆行驶数据信息预处理和特征提取得出样本数据块信息”具体还包括:将车辆行驶数据信息存储至预设的数据库;抽取数据库中经预处理和特征提取的样本数据块信息作为训练样本;将训练样本输入待训练的车辆行驶行为识别模型进行训练,得出训练后的车辆行驶行为识别模型。
进一步优选地,所述“将所述样本数据块信息输入采用类不平衡算法训练后的车辆行驶行为识别模型,输出车辆行驶行为信息”具体包括:输入序列化数据块信息;预选基分类器生成算法BaseClassifier;调用BaggingVariation算法在当前数据集上生成子集成基分类器;利用已生成子集成基分类器对当前数据块样本进行预测,结合预测结果计算当前数据块上的类不平衡度;当类不平衡度小于预设阈值时,计算每一个子集成基分类器的误差、归一化误差权重均值和投票权重;根据每个基分类器权重得到最终预测结果。
进一步优选地,所述“车辆行驶行为信息”包括车辆异常行驶行为信息和车辆正常行驶行为信息,其中车辆异常行驶行为信息包括急加速、急刹、急转弯、急换道和跑偏行驶的一种;其中车辆正常行驶行为信息包括平稳加速、平稳减速、换道、转弯、匀速直线、静止和启动的一种。
本发明解决其技术问题采用的另一技术方案是,提出基于类不平衡算法的车辆行驶行为检测装置,包括:
数据获取模块,用于获取当前车辆行驶数据信息;
数据分析模块,用于对所述车辆行驶数据信息预处理和特征提取得出样本数据块信息;
数据处理模块,用于将所述样本数据块信息输入采用类不平衡算法训练后的车辆行驶行为识别模型,输出车辆行驶行为信息;
数据发送模块,用于发送所述车辆行驶行为信息至终端。
进一步优选地,所述当前车辆行驶数据信息具体包括当前车辆加速度信息和当前车辆角速度信息。
进一步优选地,所述“对所述车辆行驶数据信息预处理和特征提取得出样本数据块信息”具体还包括:将车辆行驶数据信息存储至预设的数据库;抽取数据库中经预处理和特征提取的样本数据块信息作为训练样本;将训练样本输入待训练的车辆行驶行为识别模型进行训练,得出训练后的车辆行驶行为识别模型。
进一步优选地,所述“将所述样本数据块信息输入采用类不平衡算法训练后的车辆行驶行为识别模型,输出车辆行驶行为信息”具体包括:输入序列化数据块信息;预选基分类器生成算法BaseClassifier;调用BaggingVariation算法在当前数据集上生成子集成基分类器;利用已生成子集成基分类器对当前数据块样本进行预测,结合预测结果计算当前数据块上的类不平衡度;当类不平衡度小于预设阈值时,计算每一个子集成基分类器的误差、归一化误差权重均值和投票权重;根据每个基分类器权重得到最终预测结果。
进一步优选地,所述“车辆行驶行为信息”包括车辆异常行驶行为信息和车辆正常行驶行为信息,其中车辆异常行驶行为信息包括急加速、急刹、急转弯、急换道和跑偏行驶的一种;其中车辆正常行驶行为信息包括平稳加速、平稳减速、换道、转弯、匀速直线、静止和启动的一种。
本发明的有益效果:
本发明使用多数类与少数类比率和固定的阈值进行对比,当比率大于阈值时,就认为当前数据块是类不平衡的,接着就会对当前数据块进行过采样增加少数类样本的个数,从而达到整个数据块的类平衡;进而将传感器获取的数据信息提取后输入至采用类不平衡算法训练后的车辆行驶行为识别模型,准确输出包括车辆异常行驶行为或正常行驶行为信息的一种。
附图说明
图1为本发明实施例的基于类不平衡算法的车辆行驶行为检测方法的整体流程示意图;
图2为本发明实施例的基于类不平衡算法的车辆行驶行为检测方法的又一流程示意图;
图3为本发明实施例的基于类不平衡算法的车辆行驶行为检测装置的流程示意图;
图4为本发明实施例的基于类不平衡算法的车辆行驶行为检测方法的类不平衡集成算法工作原理图。
具体实施方式
为了更清楚地说明本发明实施例和/或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。另,涉及方位的属于仅表示各部件间的相对位置关系,而不是绝对位置关系。
请参阅图1、图2和图4,本实施例提到的基于类不平衡算法的车辆行驶行为检测方法,其包括以下步骤:
S1获取当前车辆行驶数据信息;
其中,当前车辆行驶数据信息具体包括当前车辆加速度信息和当前车辆角速度信息;
本发明可从移动终端(手机或车载平板)中通过加速度传感器和角速度传感器获取当前当前车辆加速度信息和当前车辆角速度信息。
S2对所述车辆行驶数据信息预处理和特征提取得出样本数据块信息;
其步骤S2还包括将车辆行驶数据信息存储至预设的数据库;抽取数据库中经预处理和特征提取的样本数据块信息作为训练样本;将训练样本输入待训练的车辆行驶行为识别模型进行训练,得出训练后的车辆行驶行为识别模型。
由于类不平衡集成算法本质上又属于有监督学习策略来,因而需要通过大量已知行驶行为类别的数据样本对其进行训练形成最终的分类模型;对获取的当前车辆行驶数据信息经预处理和特征提取后需先抽取部分作为样本输入待训练的车辆行驶行为识别模型进行训练,未抽取的当前车辆行驶数据信息待模型训练完成后再输入训练后的行驶行为识别模型,得出结果。
S3将所述样本数据块信息输入采用类不平衡算法训练后的车辆行驶行为识别模型,输出车辆行驶行为信息;
此处步骤S3具体包括有:S301输入序列化数据块信息;S302预选基分类器生成算法BaseClassifier;S303调用BaggingVariation算法在当前数据集上生成子集成基分类器;S304利用已生成子集成基分类器对当前数据块样本进行预测,结合预测结果计算当前数据块上的类不平衡度;S305当类不平衡度小于预设阈值时,计算每一个子集成基分类器的误差、归一化误差权重均值和投票权重;S306根据每个基分类器权重得到最终预测结果。
本发明所使用的算法框架Learn++.NIE在判别类不平衡问题往往只是使用多数类与少数类比率和固定的阈值进行对比,当比率大于阈值时,就认为当前数据块是类不平衡的,接着就会对当前数据块进行过采样增加少数类样本的个数,从而达到整个数据块的类平衡。
但真实的情况是这个阈值并不能是恒定的。这是因为类不平衡集成算法是以数据块的形式输入数据的,每当有新的数据块输入时,Learn++.NIE就会产生一个新的基分类器,这个“新”的基分类器与之前数据块上产生的“旧”基分类器对于类不平衡问题的鲁棒性存在着一定的差异性,甚至还会存在这样一种可能:仅仅是发生了极微小的多数类与少数类数量上的不平衡就会对“旧”的基分类器的性能产生极大地影响,而“新”的基分类器性能只有在数据发生了极大程度的样本数量不平衡的情况下才会受到影响。
可如图4所示,算法会在每一个数据块上建立一个基分类器,这些历史分类器在形成之后会被储存下来,当新的数据块传入时,包括在当前数据块上产生的新的基分类器在内,所有历史分类器都会对当前数据块进行判别并对其类别进行投票形成最终的结果。图中假设第一个序列化数据块为D1,其中包含C1、C2、C3三个类别的样本,其中C1、C2为多数类,C3为少数类。那么经过数据块D1训练生成的基分类器h1则必然在C1、C2类别样本上识别效果好,在C3类样本上识别效果相对较差。同理,图中第二个序列化数据块D2上训练得到的基分类器h2则对C2、C4类别的样本分类效果好,对C1类别的样本分类效果相对较差。那么当C1、C3为多数类C2为少数类的第t个数据块Dt输入时,h1、h2等旧分类器会与新分类器ht一同对数据块Dt中的样本进行投票分类,而在Learn++.NIE基于阈值的过采样策略下,C2作为少数类会因为人为扩充导致此类样本“质量”下降,此时本来就对少数类C2有较好识别效果的基分类器h1、h2则会因此表现较差,从而导致整个分类器集成的整体性能下降。因此,如果想要精确识别各种类型的车辆行驶行为,算法还需在类不平衡问题上进行研究和优化。
本发明首先提出了“差异性”的概念。以二分类问题为例,假设其类标签的集合为
Figure RE-RE-DEST_PATH_IMAGE002
Figure RE-RE-DEST_PATH_IMAGE004
是一组基分类器集合,其中T是奇数。
Figure RE-RE-DEST_PATH_IMAGE006
表示当输入样本集为X时基分类器
Figure RE-RE-DEST_PATH_IMAGE008
的分类结果,y(X)则表示样本集X的真实标签集,此时定义基分类器
Figure RE-431484DEST_PATH_IMAGE008
的0-1损失函数
Figure RE-RE-DEST_PATH_IMAGE010
如下所示:
Figure RE-RE-DEST_PATH_IMAGE012
那么对于集成分类器
Figure RE-RE-DEST_PATH_IMAGE014
,样本集X的多数投票输出H(X)如下所示:
Figure RE-RE-DEST_PATH_IMAGE016
因为是二分类问题,集成分类器对样本集X的预测结果
Figure RE-RE-DEST_PATH_IMAGE018
,则集成分类器关于样本集X的0-1损失函数
Figure RE-RE-DEST_PATH_IMAGE020
表示如下所示:
Figure RE-RE-DEST_PATH_IMAGE022
同理,定义单个分类器
Figure RE-440635DEST_PATH_IMAGE008
与集成分类器之间的不一致性
Figure RE-RE-DEST_PATH_IMAGE024
如下所示:
Figure RE-RE-DEST_PATH_IMAGE026
接着需要计算集成分类器损失
Figure RE-830159DEST_PATH_IMAGE020
与基分类器平均损失
Figure RE-RE-DEST_PATH_IMAGE028
之间的差值△,如下所示:
Figure RE-RE-DEST_PATH_IMAGE030
Figure RE-RE-DEST_PATH_IMAGE032
Figure RE-RE-DEST_PATH_IMAGE034
Figure RE-RE-DEST_PATH_IMAGE036
因为
Figure RE-RE-DEST_PATH_IMAGE038
,所以可以令
Figure RE-RE-DEST_PATH_IMAGE040
,继续化简:
Figure RE-RE-DEST_PATH_IMAGE042
Figure RE-RE-DEST_PATH_IMAGE044
Figure RE-RE-DEST_PATH_IMAGE046
最终可以得出:
Figure RE-RE-DEST_PATH_IMAGE048
Figure RE-RE-DEST_PATH_IMAGE050
其中上式的
Figure RE-RE-DEST_PATH_IMAGE052
说明与基分类器平均损失
Figure RE-RE-DEST_PATH_IMAGE054
之间的“差异性”可以直接用基分类器与集成分类器之间的不一致性
Figure RE-RE-DEST_PATH_IMAGE056
的均值表示。
为了计算集成分类器在样本集X上的多数投票分类误差
Figure RE-RE-DEST_PATH_IMAGE058
,需对上式的
Figure RE-769909DEST_PATH_IMAGE052
积分,计算公式如下:
Figure RE-RE-DEST_PATH_IMAGE060
Figure RE-RE-DEST_PATH_IMAGE062
在这里,数据的两个子空间的积分是分开的,其中
Figure RE-RE-DEST_PATH_IMAGE064
表示集成分类器的分类结果是正确的,
Figure RE-RE-DEST_PATH_IMAGE066
表示不正确。我们可以得出,多数投票误差与差异性的两个组成部分有直接关系,由基分类器决策
Figure RE-RE-DEST_PATH_IMAGE068
与集成分类器决策H(X)之间的不一致性
Figure RE-RE-DEST_PATH_IMAGE070
来衡量。“好的差异性”度量的是在集成正确的情况下集成分类器和基分类器在样本上的不一致性——由于错误投票的存在,在这些样本上的任何不一致都提升了相对于平均基分类器误差的增益。“坏的差异性”度量的是在集成分类器不正确的情况下集成分类器和基分类器在某个样本上的不一致性——由于正确投票的存在,在这些样本上的任何不一致都会降低相对于单个基分类器误差的增益。
若从“浪费的投票”角度阐述类不平衡集成算法的“差异性”和类别不平衡之间的内在联系,则对于任意一个被正确分类的样本,如果只有极少数的反对票,就意味着有一些票被“浪费”了,因为即使这些票没有做出正确的选择,也不影响该样本被正确分类。如果正好有(T+1)/2个分类器投的是正确类别的票,可认为此集成分类器具有“好的差异性”。相对地,对于任意一个被错误分类的样本,每一个对正确类别的投票也被认为是“浪费”的,因为没有影响最后决策的结果。如果正好有(T-1)/2个分类器投正确类别的票,表明集成分类器具有“坏的差异性”。对于多数类而言,由于样本数量足够多,集成分类器对其分类效果好,每个基分类器往往倾向于做相同的决策,导致许多“浪费的投票”。而对于少数类,每个基分类器都倾向于将少数类样本分成多数类,这意味着集成分类器对样本进行类别决策时,多数类与少数类都会获得差不多的基分类器投票,即较少“浪费的投票。
基于上述分析,本发明将二分类问题中的“差异性”引入车辆行驶行为检测这一多分类问题上并遵循其与“浪费的投票”之间的联系在类不平衡集成算法原有的类不平衡检测机制上引入了“类不平衡度”对其进行优化。
假设观察到在线集成分类器在当前时间序列t输入的数据块为
Figure RE-RE-DEST_PATH_IMAGE072
,其中
Figure RE-RE-DEST_PATH_IMAGE074
表示数据块中的任意一个样本,数据块样本的容量为N。设
Figure RE-RE-DEST_PATH_IMAGE076
表示样本
Figure RE-82817DEST_PATH_IMAGE074
是否被基分类器
Figure RE-RE-DEST_PATH_IMAGE078
,分对时
Figure RE-RE-DEST_PATH_IMAGE080
,否则为0。记
Figure RE-RE-DEST_PATH_IMAGE082
为正确分类样本
Figure RE-685705DEST_PATH_IMAGE074
的基分类器个数,
Figure RE-RE-DEST_PATH_IMAGE084
为至少有半数基分类器分对的样本个数(正确分类的样本个数),而
Figure RE-RE-DEST_PATH_IMAGE086
为不到半数基分类器分对的样本个数(错分类的样本个数),显然
Figure RE-RE-DEST_PATH_IMAGE088
基于此,关于在线集成分类器“好的差异性”
Figure RE-RE-DEST_PATH_IMAGE090
和“坏的差异性”
Figure RE-RE-DEST_PATH_IMAGE092
如下所示:
Figure RE-RE-DEST_PATH_IMAGE094
1-1
Figure RE-RE-DEST_PATH_IMAGE096
1-2
此时,类不平衡度
Figure RE-RE-DEST_PATH_IMAGE098
可定义为:
Figure RE-RE-DEST_PATH_IMAGE100
1-3
其中,
Figure RE-RE-DEST_PATH_IMAGE102
Figure RE-RE-DEST_PATH_IMAGE104
分别表示好的差异性和坏的差异性的权值。
再设置一个阈值
Figure RE-RE-DEST_PATH_IMAGE106
对类不平衡度的检测机制的工作原理及优势进行阐述。假设通过类不平衡度(Class imbalance degree)这一度量算法检测到当前数据块
Figure RE-RE-DEST_PATH_IMAGE108
发生了类不平衡
Figure RE-RE-DEST_PATH_IMAGE110
并基于这一假设对数据块
Figure RE-926692DEST_PATH_IMAGE108
中的少数类进行了过采样得到了数据块 QUOTE
Figure RE-RE-DEST_PATH_IMAGE112
Figure RE-RE-DEST_PATH_IMAGE112A
;然后,在这个数据块上我们引入1-1、1-2、1-3作为新的类不平衡检测机制:因为过采样策略扩充的是少数类,所以集成分类器好的差异性
Figure RE-204220DEST_PATH_IMAGE090
的数值并不会有太大程度的提升。即使发生了
Figure RE-309317DEST_PATH_IMAGE090
的值增幅过大的情况,也不会对类不平衡度
Figure RE-709206DEST_PATH_IMAGE098
造成明显的起伏,因为算法给予
Figure RE-135639DEST_PATH_IMAGE090
的权值
Figure RE-RE-DEST_PATH_IMAGE114
足够小。但算法在少数类的扩充会导致基分类器在少数类上的学习性能变好,这就会造成
Figure RE-RE-DEST_PATH_IMAGE116
的值降低,
Figure RE-RE-DEST_PATH_IMAGE118
的值也会有一定程度的上升,再结合1-2我们会发现坏的差异性
Figure RE-RE-DEST_PATH_IMAGE120
会增加明显。将
Figure RE-653077DEST_PATH_IMAGE090
Figure RE-114145DEST_PATH_IMAGE092
的值代入1-3会有
Figure RE-RE-DEST_PATH_IMAGE122
,即类又恢复了平衡。
基于阈值判断类不平衡的基础上再利用集成分类器的类不平衡度作为另外一个因素来对当前数据块进行类不平衡的判断具有十分明显的优势。当算法的基分类器中出现了对当前数据块某一特定类(同时是当前数据块的少数类)适应性特别好的的分类器时,如果仅仅只是按照阈值法就判断产生了类不平衡进行过采样,那么对于这个基分类器来说包含过采样扩充样本的数据块的质量就降低了,这个基分类器的对当前数据块的识别效果就会变差,当这种基分类器的数量达到一定规模时,势必会对整个集成分类器造成影响。但当我们引入类不平衡度
Figure RE-RE-DEST_PATH_IMAGE124
共同参与判断时,当出现了对少数类适应性特别好的基分类器类型时,在
Figure RE-RE-DEST_PATH_IMAGE126
变化不大的这一事实下,
Figure RE-855574DEST_PATH_IMAGE116
的降低及
Figure RE-300462DEST_PATH_IMAGE118
的增加会使得
Figure RE-480645DEST_PATH_IMAGE098
的值高于阈值,以此来表明当前数据块中各个类别在数量上的不平衡程度并没有真正的影响到集成分类器的性能,所以不用执行过采样。
最终具体算法如下:
输入序列化数据块
Figure RE-RE-DEST_PATH_IMAGE128
,其中
Figure RE-RE-DEST_PATH_IMAGE130
Figure RE-RE-DEST_PATH_IMAGE132
Figure RE-RE-DEST_PATH_IMAGE134
表示当前数据块样本个数,C表示行驶行为类别总数;
预选基分类器生成算法BaseClassifier;
设定好的差异性与坏的差异性权值
Figure RE-RE-DEST_PATH_IMAGE136
Figure RE-RE-DEST_PATH_IMAGE138
、错误权重
Figure RE-RE-DEST_PATH_IMAGE140
Figure RE-RE-DEST_PATH_IMAGE142
)、BaggingVariation算法生成分类器个数F;
调用BaggingVariation算法在当前数据集上生成子集成基分类器
Figure RE-RE-DEST_PATH_IMAGE144
Figure RE-RE-DEST_PATH_IMAGE146
利用所有已生成的子集成基分类器对当前数据块样本进行预测,结合预测结果及以下公式计算当前数据块上的类不平衡度
Figure RE-RE-DEST_PATH_IMAGE148
Figure RE-RE-DEST_PATH_IMAGE150
Figure RE-RE-DEST_PATH_IMAGE152
如果
Figure RE-RE-DEST_PATH_IMAGE154
,重新生成基分类器
Figure RE-RE-DEST_PATH_IMAGE156
;否则进行下一步;
计算每一个子集成基分类器在当前数据块上的误差
Figure RE-RE-DEST_PATH_IMAGE158
Figure RE-RE-DEST_PATH_IMAGE160
如果
Figure RE-RE-DEST_PATH_IMAGE162
,生成一个新的基分类器;如果
Figure RE-RE-DEST_PATH_IMAGE164
,令
Figure RE-RE-DEST_PATH_IMAGE166
Figure RE-684968DEST_PATH_IMAGE158
归一化处理得到
Figure RE-RE-DEST_PATH_IMAGE168
计算每一个子集成基分类器的归一化误差权重均值
Figure RE-RE-DEST_PATH_IMAGE170
Figure RE-RE-DEST_PATH_IMAGE172
Figure RE-RE-DEST_PATH_IMAGE174
其中,a=0.5,b=10,k=1,2,…t;
计算每一个基分类器投票权重
Figure RE-RE-DEST_PATH_IMAGE176
Figure RE-RE-DEST_PATH_IMAGE178
其中,k=1,2,…t;
根据每个基分类器权重得到最终预测结果
Figure RE-RE-DEST_PATH_IMAGE180
Figure RE-RE-DEST_PATH_IMAGE182
S4发送所述车辆行驶行为信息至终端。
其中“车辆行驶行为信息”包括车辆异常行驶行为信息和车辆正常行驶行为信息,其中车辆异常行驶行为信息包括急加速、急刹、急转弯、急换道和跑偏行驶的一种;其中车辆正常行驶行为信息包括平稳加速、平稳减速、换道、转弯、匀速直线、静止和启动的一种。
可如图3所示,本实施例还公开基于类不平衡算法的车辆行驶行为检测装置,其特征在于,包括以下:
数据获取模块,用于获取当前车辆行驶数据信息;
数据分析模块,用于对所述车辆行驶数据信息预处理和特征提取得出样本数据块信息;
数据处理模块,用于将所述样本数据块信息输入采用类不平衡算法训练后的车辆行驶行为识别模型,输出车辆行驶行为信息;
数据发送模块,用于发送所述车辆行驶行为信息至终端。
作为优选的,当前车辆行驶数据信息具体包括当前车辆加速度信息和当前车辆角速度信息。
作为优选的,“对所述车辆行驶数据信息预处理和特征提取得出样本数据块信息”具体还包括:将车辆行驶数据信息存储至预设的数据库;抽取数据库中经预处理和特征提取的样本数据块信息作为训练样本;将训练样本输入待训练的车辆行驶行为识别模型进行训练,得出训练后的车辆行驶行为识别模型。
作为优选的,“将所述样本数据块信息输入采用类不平衡算法训练后的车辆行驶行为识别模型,输出车辆行驶行为信息”具体包括:输入序列化数据块信息;预选基分类器生成算法BaseClassifier;调用BaggingVariation算法在当前数据集上生成子集成基分类器;利用已生成子集成基分类器对当前数据块样本进行预测,结合预测结果计算当前数据块上的类不平衡度;当类不平衡度小于预设阈值时,计算每一个子集成基分类器的误差、归一化误差权重均值和投票权重;根据每个基分类器权重得到最终预测结果。
作为优选的,“车辆行驶行为信息”包括车辆异常行驶行为信息和车辆正常行驶行为信息,其中车辆异常行驶行为信息包括急加速、急刹、急转弯、急换道和跑偏行驶的一种;其中车辆正常行驶行为信息包括平稳加速、平稳减速、换道、转弯、匀速直线、静止和启动的一种。
本实施例还可公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。
本实施例还可一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.基于类不平衡算法的车辆行驶行为检测方法,其特征在于,包括以下步骤:
S1获取当前车辆行驶数据信息;
S2对所述车辆行驶数据信息预处理和特征提取得出样本数据块信息;
S3将所述样本数据块信息输入采用类不平衡算法训练后的车辆行驶行为识别模型,输出车辆行驶行为信息;
S4发送所述车辆行驶行为信息至终端。
2.根据权利要求1所述的基于类不平衡算法的车辆行驶行为检测方法,其特征在于,所述步骤S1中当前车辆行驶数据信息具体包括当前车辆加速度信息和当前车辆角速度信息。
3.根据权利要求1所述的基于类不平衡算法的车辆行驶行为检测方法,其特征在于,所述“S2对所述车辆行驶数据信息预处理和特征提取得出样本数据块信息”具体还包括:将车辆行驶数据信息存储至预设的数据库;抽取数据库中经预处理和特征提取的样本数据块信息作为训练样本;将训练样本输入待训练的车辆行驶行为识别模型进行训练,得出训练后的车辆行驶行为识别模型。
4.根据权利要求1所述的基于类不平衡算法的车辆行驶行为检测方法,其特征在于,所述“S3将所述样本数据块信息输入采用类不平衡算法训练后的车辆行驶行为识别模型,输出车辆行驶行为信息”具体包括:S301输入序列化数据块信息;S302预选基分类器生成算法BaseClassifier;S303调用BaggingVariation算法在当前数据集上生成子集成基分类器;S304利用已生成子集成基分类器对当前数据块样本进行预测,结合预测结果计算当前数据块上的类不平衡度;S305当类不平衡度小于预设阈值时,计算每一个子集成基分类器的误差、归一化误差权重均值和投票权重;S306根据每个基分类器权重得到最终预测结果。
5.根据权利要求4所述的基于类不平衡算法的车辆行驶行为检测方法,其特征在于,所述“车辆行驶行为信息”包括车辆异常行驶行为信息和车辆正常行驶行为信息,其中车辆异常行驶行为信息包括急加速、急刹、急转弯、急换道和跑偏行驶的一种;其中车辆正常行驶行为信息包括平稳加速、平稳减速、换道、转弯、匀速直线、静止和启动的一种。
6.基于类不平衡算法的车辆行驶行为检测装置,其特征在于,包括以下:
数据获取模块,用于获取当前车辆行驶数据信息;
数据分析模块,用于对所述车辆行驶数据信息预处理和特征提取得出样本数据块信息;
数据处理模块,用于将所述样本数据块信息输入采用类不平衡算法训练后的车辆行驶行为识别模型,输出车辆行驶行为信息;
数据发送模块,用于发送所述车辆行驶行为信息至终端。
7.根据权利要求6所述的基于类不平衡算法的车辆行驶行为检测装置,其特征在于,所述当前车辆行驶数据信息具体包括当前车辆加速度信息和当前车辆角速度信息。
8.根据权利要求6所述的基于类不平衡算法的车辆行驶行为检测装置,其特征在于,所述“对所述车辆行驶数据信息预处理和特征提取得出样本数据块信息”具体还包括:将车辆行驶数据信息存储至预设的数据库;抽取数据库中经预处理和特征提取的样本数据块信息作为训练样本;将训练样本输入待训练的车辆行驶行为识别模型进行训练,得出训练后的车辆行驶行为识别模型。
9.根据权利要求6所述的基于类不平衡算法的车辆行驶行为检测装置,其特征在于,所述“将所述样本数据块信息输入采用类不平衡算法训练后的车辆行驶行为识别模型,输出车辆行驶行为信息”具体包括:输入序列化数据块信息;预选基分类器生成算法BaseClassifier;调用BaggingVariation算法在当前数据集上生成子集成基分类器;利用已生成子集成基分类器对当前数据块样本进行预测,结合预测结果计算当前数据块上的类不平衡度;当类不平衡度小于预设阈值时,计算每一个子集成基分类器的误差、归一化误差权重均值和投票权重;根据每个基分类器权重得到最终预测结果。
10.根据权利要求9所述的基于类不平衡算法的车辆行驶行为检测装置,其特征在于,所述“车辆行驶行为信息”包括车辆异常行驶行为信息和车辆正常行驶行为信息,其中车辆异常行驶行为信息包括急加速、急刹、急转弯、急换道和跑偏行驶的一种;其中车辆正常行驶行为信息包括平稳加速、平稳减速、换道、转弯、匀速直线、静止和启动的一种。
CN202010534909.0A 2020-06-12 2020-06-12 基于类不平衡算法的车辆行驶行为检测方法及装置 Active CN111814836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010534909.0A CN111814836B (zh) 2020-06-12 2020-06-12 基于类不平衡算法的车辆行驶行为检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010534909.0A CN111814836B (zh) 2020-06-12 2020-06-12 基于类不平衡算法的车辆行驶行为检测方法及装置

Publications (2)

Publication Number Publication Date
CN111814836A true CN111814836A (zh) 2020-10-23
CN111814836B CN111814836B (zh) 2022-07-19

Family

ID=72846020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010534909.0A Active CN111814836B (zh) 2020-06-12 2020-06-12 基于类不平衡算法的车辆行驶行为检测方法及装置

Country Status (1)

Country Link
CN (1) CN111814836B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116244418A (zh) * 2023-05-11 2023-06-09 腾讯科技(深圳)有限公司 问题解答方法、装置、电子设备及计算机可读存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320966A (zh) * 2015-10-30 2016-02-10 东软集团股份有限公司 一种车辆行驶状态识别方法及装置
CN106845240A (zh) * 2017-03-10 2017-06-13 西京学院 一种基于随机森林的Android恶意软件静态检测方法
CN106919841A (zh) * 2017-03-10 2017-07-04 西京学院 一种高效的基于旋转森林的Android恶意软件检测模型DroidDet
US20180144352A1 (en) * 2016-03-08 2018-05-24 Arizona Board Of Regents On Behalf Of The University Of Arizona Predicting student retention using smartcard transactions
CN108108766A (zh) * 2017-12-28 2018-06-01 东南大学 基于多传感器数据融合的驾驶行为识别方法及系统
CN109558969A (zh) * 2018-11-07 2019-04-02 南京邮电大学 一种基于AdaBoost-SO的VANETs车辆事故风险预测模型
CN109558893A (zh) * 2018-10-31 2019-04-02 华南理工大学 基于重采样池的快速集成污水处理故障诊断方法
CN110363230A (zh) * 2019-06-27 2019-10-22 华南理工大学 基于加权基分类器的stacking集成污水处理故障诊断方法
CN110378196A (zh) * 2019-05-29 2019-10-25 电子科技大学 一种结合激光点云数据的道路视觉检测方法
US10482334B1 (en) * 2018-09-17 2019-11-19 Honda Motor Co., Ltd. Driver behavior recognition
US20200089977A1 (en) * 2018-09-17 2020-03-19 Honda Motor Co., Ltd. Driver behavior recognition and prediction
CN111080442A (zh) * 2019-12-21 2020-04-28 湖南大学 信用评分模型的构建方法、装置、设备及存储介质
CN111144459A (zh) * 2019-12-16 2020-05-12 重庆邮电大学 一种类不平衡的网络流量分类方法、装置及计算机设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320966A (zh) * 2015-10-30 2016-02-10 东软集团股份有限公司 一种车辆行驶状态识别方法及装置
US20180144352A1 (en) * 2016-03-08 2018-05-24 Arizona Board Of Regents On Behalf Of The University Of Arizona Predicting student retention using smartcard transactions
CN106845240A (zh) * 2017-03-10 2017-06-13 西京学院 一种基于随机森林的Android恶意软件静态检测方法
CN106919841A (zh) * 2017-03-10 2017-07-04 西京学院 一种高效的基于旋转森林的Android恶意软件检测模型DroidDet
CN108108766A (zh) * 2017-12-28 2018-06-01 东南大学 基于多传感器数据融合的驾驶行为识别方法及系统
US10482334B1 (en) * 2018-09-17 2019-11-19 Honda Motor Co., Ltd. Driver behavior recognition
US20200089977A1 (en) * 2018-09-17 2020-03-19 Honda Motor Co., Ltd. Driver behavior recognition and prediction
CN109558893A (zh) * 2018-10-31 2019-04-02 华南理工大学 基于重采样池的快速集成污水处理故障诊断方法
CN109558969A (zh) * 2018-11-07 2019-04-02 南京邮电大学 一种基于AdaBoost-SO的VANETs车辆事故风险预测模型
CN110378196A (zh) * 2019-05-29 2019-10-25 电子科技大学 一种结合激光点云数据的道路视觉检测方法
CN110363230A (zh) * 2019-06-27 2019-10-22 华南理工大学 基于加权基分类器的stacking集成污水处理故障诊断方法
CN111144459A (zh) * 2019-12-16 2020-05-12 重庆邮电大学 一种类不平衡的网络流量分类方法、装置及计算机设备
CN111080442A (zh) * 2019-12-21 2020-04-28 湖南大学 信用评分模型的构建方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HONG WANG等: "Large Unbalanced Credit Scoring Using Lasso-Logistic Regression Ensemble", 《PLOS ONE》 *
徐坤等: "基于旋转森林法的滚动轴承故障诊断", 《广西大学学报(自然科学版)》 *
杨欣等: "智能车辆在城区交通场景中的多类障碍物识别", 《重庆大学学报》 *
郭瑞峰等: "基于多信息融合的Mean-Shift跟踪算法", 《传感器与微系统》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116244418A (zh) * 2023-05-11 2023-06-09 腾讯科技(深圳)有限公司 问题解答方法、装置、电子设备及计算机可读存储介质
CN116244418B (zh) * 2023-05-11 2023-09-01 腾讯科技(深圳)有限公司 问题解答方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN111814836B (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
Omerustaoglu et al. Distracted driver detection by combining in-vehicle and image data using deep learning
CN109547254B (zh) 一种入侵检测方法、装置、电子设备及存储介质
CN110111113B (zh) 一种异常交易节点的检测方法及装置
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
Zhang et al. Deep learning based intelligent intrusion detection
CN113922985A (zh) 一种基于集成学习的网络入侵检测方法及系统
CN115811440B (zh) 一种基于网络态势感知的实时流量检测方法
Zhao et al. An abnormal driving behavior recognition algorithm based on the temporal convolutional network and soft thresholding
CN112016756A (zh) 数据预测的方法和装置
CN111563468A (zh) 一种基于神经网络注意力的驾驶员异常行为检测方法
CN111814836B (zh) 基于类不平衡算法的车辆行驶行为检测方法及装置
CN116633601A (zh) 一种基于网络流量态势感知的检测方法
CN110263836B (zh) 一种基于多特征卷积神经网络的不良驾驶状态识别方法
Wang et al. An Empirical Study of Software Metrics Selection Using Support Vector Machine.
CN113870254B (zh) 目标对象的检测方法、装置、电子设备及存储介质
CN111785284A (zh) 基于音素辅助的文本无关声纹识别方法、装置以及设备
CN111814883A (zh) 一种基于异质集成的标签噪声纠正方法
Miao et al. Driver behavior extraction from videos in naturalistic driving datasets with 3D ConvNets
Wang et al. A data-driven estimation of driving style using deep clustering
Aytekin et al. Detection of Driver Dynamics with VGG16 Model
Ma et al. Lane change analysis and prediction using mean impact value method and logistic regression model
Lin Driver Identification with Time and Frequency Features Derived from Vehicular Acceleration Data
Madake et al. Vision-based distracted driver detection using a fusion of SIFT and ORB feature extraction
US20240025418A1 (en) Profile modeling
CN112906779B (zh) 基于样本边界值及集成多样性的数据分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant