发明内容
本发明提供基于人工智能的汽车流量数据分析管理系统,以解决现有的问题。
本发明的基于人工智能的汽车流量数据分析管理系统采用如下技术方案:
本发明提供了基于人工智能的汽车流量数据分析管理系统,所述系统包括:
数据采集模块,采集每个路口的交通流量数据和交通事故数据;
数据转换模块,根据每个路口的交通流量数据和交通事故数据计算每个路口的效率程度和安全程度;根据每个路口的效率程度和安全程度获得数据点集合;
初始参数获取模块,计算数据点集合的整体密集程度,将数据点集合的最大外接正方形划分为局部密集区域和局部稀疏区域,根据数据点集合的整体密集程度获得局部密集区域和局部稀疏区域的调整后初始k距离;
异常点获取模块,根据调整后初始k距离通过LOF算法获得局部密集区域和局部稀疏区域在不同种k距离下的异常点集合,根据异常点集合计算局部密集区域和局部稀疏区域的每种k距离下的所有异常点是真正异常点的可能性,根据可能性获得真正异常点;
措施改进模块,对真正异常点对应的路口采取安全措施。
进一步地,所述计算每个路口的效率程度和安全程度,包括的具体步骤如下:
根据每个路口的速度稳定程度、峰值流量和通过率计算每个路口的效率程度,根据每个路口的违章情况和事故情况计算每个路口的安全程度。
进一步地,所述计算每个路口的效率程度,包括的具体步骤如下:
式中,表示路口的效率程度,/>表示路口的通过车辆数量,Y表示路口的超速阈值,/>表示路口的第p个通过车辆的速度,A表示路口在早晚高峰的平均峰值流量,/>表示路口的等待车辆数量;/>表示路口的所有等待车辆的等待时间的均值,/>表示路口的所有通过车辆的速度的标准差,/>表示路口的速度稳定程度,/>表示路口的通过率。
进一步地,所述计算每个路口的安全程度,包括的具体步骤如下:
式中,表示路口的安全程度,/>表示路口的红灯闯行率,/>表示路口的黄灯闯行率,/>表示路口的超速通过率,/>表示路口发生的事故的次数,/>表示路口发生的所有事故的处理时间的均值,/>表示路口发生的所有事故的处理时间间隔的均值,/>表示以自然常数e为底的指数函数,/>表示路口的违章情况,/>表示路口的事故情况。
进一步地,所述获得数据点集合,包括的具体步骤如下:
获得所有路口的效率程度和安全程度;分别将效率程度和安全程度作为横轴和纵轴,构建直角坐标系,根据每个路口的效率程度和安全程度,获得每个路口在直角坐标系中对应的数据点;将所有路口在直角坐标系中对应的数据点组成的集合记为数据点集合。
进一步地,所述计算数据点集合的整体密集程度,包括的具体步骤如下:
式中,M表示数据点集合的整体密集程度;表示数据点集合中所有数据点的效率程度的标准差;/>表示数据点集合中所有数据点的安全程度的标准差,/>表示以自然常数e为底的指数函数。
进一步地,所述局部密集区域和局部稀疏区域的获取方法如下:
获取数据点集合中所有数据点的最大的横坐标和最大的纵坐标,获取其中的最大值b;将直角坐标系的原点作为最大外接正方形,在直角坐标系的第一象限中获得边长等于b的正方形,作为数据点集合的最大外接正方形;将数据点集合的最大外接正方形划分为预设划分预设数量K×K个小正方形,将每个小正方形作为一个区域;将数据点的数量最多的个区域记为局部密集区域,将相邻的局部密度区域进行合并,后续操作中的局部密度区域均为合并后的局部密度区域,获得若干个局部密度区域,将最大外接正方形中剩余的区域记为一个局部稀疏区域。
进一步地,所述获得局部密集区域和局部稀疏区域的调整后初始k距离,包括的具体步骤如下:
式中,和/>分别表示局部密集区域的调整后初始k距离和局部稀疏区域的调整后初始k距离,/>和/>表示预设初始k距离,M表示数据点集合的整体密集程度,y表示预设密集性阈值,s表示预设密度变化程度,d表示预设增长幅度,/>表示向下取整。
进一步地,所述获得局部密集区域和局部稀疏区域在不同种k距离下的异常点集合,包括的具体步骤如下:
对局部密集区域的调整后初始k距离和局部稀疏区域的调整后初始k距离确定后,分别根据调整后初始k距离和增幅获得局部密集区域的5种k距离和局部稀疏区域的5种k距离,局部密集区域和局部稀疏区域的增幅分别为/>和/>,局部密集区域和局部稀疏区域的第i种k距离分别为/>和/>;
根据局部密集区域的每种k距离通过LOF算法,计算局部密集区域的局部可达密度,获得每个局部密集区域中每个数据点的局部异常因子;将局部异常因子大于1的数据点记为异常点;将每种k距离下所有局部密集区域的所有异常点组成的集合记为局部密集区域的每种k距离下的异常点集合;
同理,获得局部稀疏区域的每种k距离下的异常点集合。
进一步地,所述根据异常点集合计算局部密集区域和局部稀疏区域的每种k距离下的所有异常点是真正异常点的可能性,包括的具体步骤如下:
式中,表示局部密集区域的第i种k距离下的异常点集合中第j个异常点/>是真正异常点的可能性,/>表示异常点/>在局部密集区域的所有种k距离下的异常点集合中为异常点的频数,/>表示异常点/>在局部密集区域的所有种k距离下的异常点集合中为异常点的最大连续次数,/>表示异常点/>在局部密集区域的所有种k距离下的异常点集合中为异常点时的局部异常因子的均值,/>表示异常点/>在局部密集区域的所有种k距离下的异常点集合中为异常点时的异常点集合中异常点的数量的均值;
同理,计算局部密集区域的所有种k距离下的异常点集合中所有异常点是真正异常点的可能性和局部稀疏区域的所有种k距离下的异常点集合中所有异常点是真正异常点的可能性。
本发明的技术方案的有益效果是:针对常规的LOF算法采用固定的k距离,没有考虑局部区域的特点,受到数据集的敏感性以及不同局部区域的密度不均衡性的影响,导致对异常点的检测有误的问题,本发明根据每个路口的效率程度和安全程度,将每个路口转换为数据点,根据数据点集合的整体密集程度,获得局部密集区域和局部稀疏区域的调整后初始k距离,根据调整后初始k距离通过LOF算法获得局部密集区域和局部稀疏区域在不同种k距离下的异常点集合,根据异常点集合计算局部密集区域和局部稀疏区域的每种k距离下的所有异常点是真正异常点的可能性,根据可能性获得真正异常点;对真正异常点对应的路口采取安全措施;结合不同局部区域的密度,对所在路口的汽车流量数据通过改进的LOF算法进行分析,更加准确地检测出汽车流量数据中的异常数据点,对相关路口的交通状况改善采取及时措施,提高交通流动性与车辆行驶的安全性。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于人工智能的汽车流量数据分析管理系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于人工智能的汽车流量数据分析管理系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的基于人工智能的汽车流量数据分析管理系统,该系统包括以下模块:
数据采集模块101,用于采集每个路口的交通流量数据和交通事故数据。
需要说明的是,通过对包括车流量、车速、交通拥堵情况等数据进行分析、调查和评估,确定路口交通发生异常的性质和原因,进而根据调查结果,采取适当的措施进行修复或改进,加强排除事故风险或安全隐患较高的路口的安全措施。
具体的,通过安装在路口的摄像头、各类感应器、雷达或者激光测距仪,采集每个路口的交通流量数据,交通流量数据包括:路口的通过车辆数量、路口的等待车辆数量/>、路口的所有等待车辆的等待时间、路口的所有通过车辆的速度v以及路口的平均峰值流量A,其中,路口的汽车流量峰值是指的是早晚高峰的汽车流量数据,将路口平均每小时的通过车辆的数量作为路口的平均峰值流量,早高峰为早上七点至九点,晚高峰为下午六点至八点,路口在早晚高峰期间;感应器包括地磁感应器、红外感应器等。
进一步,根据交管局的交管记录,获得每个路口的交通事故数据,交通事故数据包括违规数据和事故数据,其中,违规数据包括:路口的超速阈值Y、路口的红灯闯行率、路口的黄灯闯行率/>、路口的超速通过率/>,事故数据包括:路口发生的事故的次数/>、路口发生的所有事故的处理时间和路口发生的所有事故的处理时间间隔。
数据转换模块102,用于根据每个路口的速度稳定程度、峰值流量和通过率计算每个路口的效率程度,根据每个路口的违章情况和事故情况计算每个路口的安全程度,根据每个路口的效率程度和安全程度,获得数据点集合。
需要说明的是,分别对每个路口的交通流量数据和交通事故数据进行分析:根据路口的交通流量数据获得所有通行车辆的速度稳定程度、路口的平均峰值流量和路口的通过率,根据所有通行车辆的速度稳定程度、路口的平均峰值流量和路口的通过率计算表征路口的通行效率的效率程度;根据违规数据和事故数据计算表征路口安全性的安全程度。
1、根据每个路口的速度稳定程度、峰值流量和通过率计算每个路口的效率程度。
需要说明的是,如果在流量峰值很大的情况下保持高通行率,说明路口的效率程度较高。
具体的,对于任意一个路口,根据速度稳定程度、峰值流量和通过率计算该路口的效率程度,具体计算公式为:
式中,表示路口的效率程度,/>表示路口的通过车辆数量,Y表示路口的超速阈值,/>表示路口的第p个通过车辆的速度,A表示路口在早晚高峰的平均峰值流量,/>表示路口的等待车辆数量;/>表示路口的所有等待车辆的等待时间的均值,/>表示路口的所有通过车辆的速度的标准差。
通过路口的车辆速度越快,且在超速阈值范围之内,速度越稳定,该路口的效率程度就越高,对应公式中的部分,其中,/>的表达形式为阶跃函数,当/>为负数时,/>等于0,即当通过车速的车速超过路口的超速阈值时,通过车速的车速视为/>;/>表示路口的通过率,该值越大,则路口的效率程度/>越大;路口在早晚高峰的平均峰值流量A越大,路口的所有等待车辆的平均等待时间/>越小,路口的所有通过车辆的速度越稳定,即/>越小,路口的效率程度/>越大;
2、根据每个路口的违章情况和事故情况计算每个路口的安全程度。
具体的,对于任意一个路口,根据违章情况和事故情况计算该路口的安全程度,具体计算公式为:
式中,表示路口的安全程度,/>表示路口的红灯闯行率,/>表示路口的黄灯闯行率,/>表示路口的超速通过率,/>表示路口发生的事故的次数,/>表示路口发生的所有事故的处理时间的均值,/>表示路口发生的所有事故的处理时间间隔的均值,/>表示以自然常数e为底的指数函数。
交通灯闯行率和超速通过率/>越高,路口越不安全,则路口的安全程度/>越小;路口发生的事故的次数/>越多,路口发生的所有事故的平均处理时间/>越长,路口发生的所有事故的平均处理时间间隔/>越短,则说明事故越频繁且事故程度越大,路口越不安全,则路口的安全程度/>越小。
3、根据每个路口的效率程度和安全程度,获得数据点集合。
具体的,获得所有路口的效率程度和安全程度;分别将效率程度和安全程度作为横轴和纵轴,构建直角坐标系,根据每个路口的效率程度和安全程度,获得每个路口在直角坐标系中对应的数据点;将所有路口在直角坐标系中对应的数据点组成的集合记为数据点集合。
初始参数获取模块103,用于计算数据点集合的整体密集程度,将数据点集合的最大外接正方形划分为局部密集区域和局部稀疏区域,根据数据点集合的整体密集程度,获得局部密集区域和局部稀疏区域的调整后初始k距离。
1、计算数据点集合的整体密集程度。
需要说明的是,一个数据点的局部可达密度等于该数据点的第k距离邻域内所有数据点到该数据点的平均第k可达距离的倒数,表征了该数据点的密度情况,数据点的局部可达密度越大,数据点与周围数据点的密集度越高,反之,数据点的局部可达密度越小,则说明该数据点越可能为离群异常点。在固定的k距离下,第k距离邻域内包含的数据点的数量越多,此时如果第k距离邻域内点的平均可达距离值越小,该数据点的局部可达密度就越大,对应的局部离群因子结果的计算也不同。所以可达密度的计算受到k距离设置的影响,传统的LOF算法采用固定的k距离大小,本实施例考虑使用自适应大小的k距离。
进一步需要说明的是,通过对数据点集合内所有数据点的分布稳定程度,可以得到数据点集合分布是否密集,进而对所有数据点所构成的区域区分出密集区域和稀疏区域,然后对密集区域和稀疏区域选择不同大小的k距离值进行局部可达密度的计算。
具体的,计算数据点集合的整体密集程度,具体计算公式为:
式中,M表示数据点集合的整体密集程度;表示数据点集合中所有数据点的效率程度的标准差;/>表示数据点集合中所有数据点的安全程度的标准差,/>表示以自然常数e为底的指数函数。
数据点集合中所有数据点的效率程度的标准差和所有数据点的安全程度的标准差越小,则所有数据点在直角坐标系中的分就越密集,数据点集合的整体密集程度M越大。
预设一个密集性阈值y,其中本实施例以y=0.5为例进行叙述,本实施例不进行具体限定,其中y可根据具体实施情况而定。
进一步,根据数据点集合的整体密集程度判断数据点集合的密集性,当数据点集合的整体密集程度M大于预设密集性阈值y时,判断数据点集合的密集性为密集,否则数据点集合的密集性为稀疏。
2、将数据点集合的最大外接正方形划分为局部密集区域和局部稀疏区域。
需要说明的是,数据点集合的密集性为密集时,局部密集区域的k距离选择越大,局部稀疏区域的k距离选择越小;数据点集合的整体密集程度越大,则初始的k距离选择越大,每次k距离增大时的增大幅度也较大,数据点集合的整体密集程度越小,则初始的k距离选择越小,每次k距离值增大时的增大幅度也较小。
进一步需要说明的是,对于局部密集区域,较大的k距离可以更好地捕捉到区域内的密集结构,选择较大的k距离可以在局部密集区域中更全面地捕捉数据分布情况,减少噪声干扰,提高异常点检测的准确性和鲁棒性。对于局部稀疏区域,由于这些区域中的数据点较少,较小的k距离值可以更敏感地检测密度差异,以识别离群点或异常点。
预设一个划分数量K×K,其中本实施例以K×K=4×4为例进行叙述,本实施例不进行具体限定,其中K×K可根据具体实施情况而定。
具体的,获取数据点集合中所有数据点的最大的横坐标和最大的纵坐标,获取其中的最大值b;将直角坐标系的原点作为最大外接正方形,在直角坐标系的第一象限中获得边长等于b的正方形,作为数据点集合的最大外接正方形,参阅图2,其示出了数据点集合的最大外接正方形示意图。将数据点集合的最大外接正方形划分为预设划分数量K×K个小正方形,将每个小正方形作为一个区域;将数据点的数量最多的个区域记为局部密集区域,将相邻的局部密度区域进行合并,后续操作中的局部密度区域均为合并后的局部密度区域,获得若干个局部密度区域,将最大外接正方形中剩余的区域记为一个局部稀疏区域。
3、根据数据点集合的整体密集程度,获得局部密集区域和局部稀疏区域的调整后初始k距离。
需要说明的是,上述步骤将所有数据点所在的区域划分为局部密集区域和局部稀疏区域。对于局部密集区域,考虑采用较大的k距离计算局部可达密度,而对于局部稀疏区域,考虑采用较小的k距离计算局部可达密度,且局部密集区域和局部稀疏区域的k距离值会受到整体密度的影响,整体密度越大,局部密集区域的初始k距离越大且每次k距离增长的幅度越大,局部稀疏区域的初始k距离越小且每次k距离增长的幅度也小。因此需要对于不同区域的初始k距离的选择以及k距离的变化过程进行描述。
预设两个初始k距离和/>,其中本实施例以/>、/>为例进行叙述,本实施例不进行具体限定,其中/>和/>可根据具体实施情况而定;预设一个密度变化程度s,其中本实施例以/>=0.1为例进行叙述,本实施例不进行具体限定,其中s可根据具体实施情况而定;预设一个增长幅度d,其中本实施例以d=100为例进行叙述,本实施例不进行具体限定,其中d可根据具体实施情况而定。
具体的,根据初始k距离和数据点集合的整体密集程度,获得局部密集区域的调整后初始k距离和局部稀疏区域的调整后初始k距离,具体计算公式为:
式中,和/>分别表示局部密集区域的调整后初始k距离和局部稀疏区域的调整后初始k距离,/>和/>表示预设初始k距离,M表示数据点集合的整体密集程度,y表示预设密集性阈值,s表示预设密度变化程度,d表示预设增长幅度,/>表示向下取整。
对于局部密集区域和局部稀疏区域,调整后初始k距离随着数据点集合的整体密度程度递增,整体密度程度每次递增一个密度变化程度s时,调整后初始k距离就递增一个增长幅度d。
异常点获取模块104,用于根据调整后初始k距离获得局部密集区域和局部稀疏区域的不同种k距离下以及对应的异常点集合,计算局部密集区域和局部稀疏区域的每种k距离下的所有异常点是真正异常点的可能性,根据可能性获得真正异常点。
需要说明的是,选取不同的k距离会得到不同的异常点集合,每个异常点集合中所包含的异常点可能是不同的,因此,还需要对是否为真正异常点进行分析,量化异常点是真正存在异常的可能性,通过对不同异常点的集合中的异常点进行是否为真正异常点的可能性判断。
1、根据调整后初始k距离获得局部密集区域和局部稀疏区域的不同种k距离下以及对应的异常点集合。
具体的,局部密集区域的调整后初始k距离和局部稀疏区域的调整后初始k距离/>确定后,分别根据调整后初始k距离和增幅获得局部密集区域的5种k距离和局部稀疏区域的5种k距离,局部密集区域和局部稀疏区域的增幅分别为/>和/>,局部密集区域和局部稀疏区域的第i种k距离分别为/>和/>。
进一步,根据局部密集区域的每种k距离通过LOF算法,计算局部密集区域的局部可达密度,进一步获得每个局部密集区域中每个数据点的局部异常因子;将局部异常因子大于的数据点记为异常点;将每种k距离下所有局部密集区域的所有异常点组成的集合记为局部密集区域的每种k距离下的异常点集合;同理,获得局部稀疏区域的每种k距离下的异常点集合。
LOF算法为现有技术,局部可达密度和局部异常因子的计算均为LOF算法中的特征,此处不再进行赘述。
需要说明的是,每个数据点选择不同的距离值得到对应/>距离值的局部异常因子结果值,因此每种k距离会筛选出不同的数据点作为异常点。
2、计算局部密集区域和局部稀疏区域的每种k距离下的所有异常点是真正异常点的可能性。
具体的,计算局部密集区域的每种k距离下的异常点集合中每个异常点是真正异常点的可能性,具体计算公式为:
式中,表示局部密集区域的第i种k距离下的异常点集合中第j个异常点/>是真正异常点的可能性,/>表示异常点/>在局部密集区域的所有种k距离下的异常点集合中为异常点的频数,/>表示异常点/>在局部密集区域的所有种k距离下的异常点集合中为异常点的最大连续次数,最大连续次数是异常点/>在局部密集区域的所有种k距离下的异常点集合中为异常点时,k距离的连续次数的最大值,例如,异常点/>在第1种k距离、第2种k距离、第3种k距离和第5种k距离,则异常点/>在局部密集区域的所有种k距离下的异常点集合中为异常点的最大连续次数为3,异常点/>在第1种k距离、第2种k距离、第4种k距离和第5种k距离,则异常点/>在局部密集区域的所有种k距离下的异常点集合中为异常点的最大连续次数为2;/>表示异常点/>在局部密集区域的所有种k距离下的异常点集合中为异常点时的局部异常因子的均值,/>表示异常点/>在局部密集区域的所有种k距离下的异常点集合中为异常点时的异常点集合中异常点的数量的均值。
不同种k距离下的异常点集合中,作为交集的异常点是真正异常点的可能性很大,因此,越大,则异常点/>是真正异常点的可能性越大;/>用于表征k距离值变换后不同异常点集合的连续性,也就是说每次k距离变化后,如果本次异常点集合中的某一个异常点在之后的变换后的异常点集合中连续出现,则异常点/>是真正异常点的可能性越大;如果异常点/>所在的异常点集合中异常点的数量越少,则异常点/>是真正异常点的可能性越大,同时,异常点/>在所有集合中是稀有的且在较小的集合中占据相对较大的比例,意味着该异常点的与众不同,即/>越小,则异常点/>是真正异常点的可能性越大;异常点集合内异常点的局部异常因子的大小也是不同的,虽然异常点可能来自不同的区域,是通过不同的k距离得到的,但是既然会被判定为异常点,那么该异常点在其对应k距离下进行局部异常因子计算时,相较于对应区域内其他异常点的局部异常因子一定是较大的,因此,/>越大,则异常点/>是真正异常点的可能性越大。
同理,计算局部密集区域的所有种k距离下的异常点集合中所有异常点是真正异常点的可能性和局部稀疏区域的所有种k距离下的异常点集合中所有异常点是真正异常点的可能性。
3、根据可能性获得真正异常点。
获得所有异常点是真正异常点的可能性的四分位数,由于可能性越大的异常点越可能是真正异常点,因此,将可能性在75%分位数到最大值之间的异常点记为真正异常点。
四分位数是在统计中常用的分位数,将数据集分为四个等分,分别是最小值到25%分位数、25%分位数到中位数、中位数到75%分位数、75%分位数到最大值;四分位数为现有技术,此处不再进行赘述。
措施改进模块105,用于对真正异常点对应的路口采取安全措施。
具体的,真正异常点对应的路口为具有较高的事故风险或安全隐患的路口,在这种情况下,可以考虑加强路口的相关安全措施,因此,对于真正异常点对应的路口进行进一步的调查和评估,确定这些路口常发生交通事故的原因,根据调查结果,采取适当的措施进行修复或改进。
本发明的系统包括数据采集模块、数据转换模块、初始参数获取模块、异常点获取模块和措施改进模块。针对常规的LOF算法采用固定的k距离,没有考虑局部区域的特点,受到数据集的敏感性以及不同局部区域的密度不均衡性的影响,导致对异常点的检测有误的问题,本发明根据每个路口的效率程度和安全程度,将每个路口转换为数据点,根据数据点集合的整体密集程度,获得局部密集区域和局部稀疏区域的调整后初始k距离,根据调整后初始k距离通过LOF算法获得局部密集区域和局部稀疏区域在不同种k距离下的异常点集合,根据异常点集合计算局部密集区域和局部稀疏区域的每种k距离下的所有异常点是真正异常点的可能性,根据可能性获得真正异常点;对真正异常点对应的路口采取安全措施;结合不同局部区域的密度,对所在路口的汽车流量数据通过改进的LOF算法进行分析,更加准确地检测出汽车流量数据中的异常数据点,对相关路口的交通状况改善采取及时措施,提高交通流动性与车辆行驶的安全性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。