发明内容
为了克服现有技术的上述缺点,本发明提供了一种基于GPS定位的交通方式组合出行的计算机识别方法,通过运用GPS移动定位技术采集出行者多种出行方式组合的出行点时空轨迹、瞬时速度以及经纬度等数据信息,通过GPS与GIS技术相结合,采用BP神经网络等数据挖掘方法,对多种出行方式组合进行模式识别,并提取出出行者的出行时间点、出行方式变化时间点,变换点的地理位置等信息,研发一套完整的适用于我国大城市多种交通方式组合出行的识别采集方法。
本发明解决其技术问题所采用的技术方案是:一种基于GPS定位的交通方式组合出行的计算机识别方法,包括以下步骤:
第一步、用作训练交通方式识别神经网络的基础数据的采集:
利用GPS手持定位仪进行基础数据的采集并同步编制真实出行记录,形成包含不同交通方式组合出行特征数据库并进行保存;所述基础数据包括:单次出行全过程实时的出行速度、航段长度、出行时间、出行路径上各点的经纬度、路径沿线的所有公交站点的经纬度;
第二步、被调查居民出行行为数据的采集:利用GPS手持定位仪自动采集被调查居民的出行行为数据,形成数据库并进行保存;所述被调查居民的出行行为数据包括被调查居民全天出行过程的实时出行速度、航段长度、出行时间、出行路径上各点的经纬度,该部分数据作为交通方式识别神经网络的待识别数据;
第三步、数据预处理:
1)异常数据的处理:将基础数据中数值大于每条道路设计限速的异常数据降低为设计限速;
2)神经网络训练数据预处理:通过设置不同单位时间对第一步采集的基础数据进行多次试验,取神经网络获得最佳训练效果下的数据预处理步长为最佳处理单位t,分别计算第一步和第二步采集的数据在最佳处理单位t内的平均速度、总位移、速度方差、最大速度,并保存计算结果;
3)交通方式的数据化转换:定义步行用数字1表示,自行车用数字2表示,公交车用数字3表示,小汽车用数字4表示,并将第一步采集的基础数据各时刻对应的真实出行交通方式作为神经网络训练的输出属性数据;
第四步、神经网络训练:首先运用MATLAB BP神经网络工具箱进行网络的创建和设置;网络创建好后导入训练输入、输出数据进行神经网络训练,训练达到要求后程序自动停止,然后保存训练结果文件,训练工作完毕;所述训练输入、输出数据为来自于经过第一步采集并经过第三步预处理的基础数据;
第五步、神经网络预测:调用保存的训练结果文件,输入来自于经过第二步采集并经过第三步预处理的被调查居民出行行为数据,由神经网络进行模式的自动识别,对交通方式进行预测,保存预测结果;
第六步、对预测结果进行平滑处理:
1)化整处理:将小于1.5的数据转化为1,将1.5-2.5转化为2,将2.5-3.5转化为3,将大于3.5的数据转化为4;
2)异常点修正:根据出行时间先后,连续取n个模式识别结果点为一个处理单位,将第一个处理单位中出现次数最高的模式作为第一个点的交通方式,将第二个处理单位中出现次数最高的模式作为第二个点的交通方式,以此类推,处理得到全部出行时间的交通方式;
3)模式过渡段修正:根据实际交通方式过渡段的速度变化特征以及多组数据试验结果,将模式过渡段中不合理的交通方式统一修正成速度较高一端的交通方式;
第七步、对步行和自行车进行分段模式结果输出:先识别出关键点,根据关键点将出行过程分成不同交通方式出行的出行时间段,再将模式识别结果为1的分段输出为步行方式,将模式识别结果为2的分段输出为自行车方式,同时记录各关键点的时间信息,所述关键点为交通方式发生变化的点;
第八步、对公交车和小汽车进行分段模式结果输出:
在前面步骤基础上识别出关键点时间位置,从第一步采集的数据中导入关键点的经纬度,同时导入出行路径沿线所有公交站点的经纬度,计算关键点与每一公交站点的距离,判断这些距离中是否存在小于等于匹配半径R的距离:如果存在,则该关键点为公交站点;继续判断为关键点的公交站占出行路径沿线所有公交站点的比例是否大于等于匹配百分比P:如是则为公交车,否则为小汽车;
重新识别关键点,记录并保存关键点信息,然后根据这些点将出行过程分成不同交通方式出行的出行时间段,再将模式识别结果为3的分段输出为公交车方式,将模式识别结果为4的分段输出为小汽车方式,同时根据关键点的信息输出交通方式变化的时间点、地理位置等信息;
第九步、综合统计上述识别的各步行、自行车、公交车、小汽车时间段,按出行时间先后重新整合输出出行全过程的交通方式转变情况及各交通方式间转变的时间点、地理位置信息。
与现有技术相比,本发明的积极效果是:本发明针对我国目前居民出行方式调查方法复杂,调查数据失真,调查费用高昂等问题,提出一种基于GPS定位的多模式交通方式组合判定方法,运用GPS定位技术收集居民出行时空数据,挖掘分析出行行为特征,能够获得相对于传统调查更为客观、精细的数据,并且能够具备较好的实时动态性,在数据精度和准确度方面相对于传统方式也有明显的提高,具有极大的潜力弥补、改善传统人工问卷调查方式的缺陷,将成为未来交通居民出行调查十分重要的技术手段,有着广阔的行业应用前景。
具体实施方式
一种基于GPS定位的交通方式组合出行的计算机识别方法,包括如下步骤:
第一步、用作训练交通方式识别神经网络的基础数据的采集:
利用GPS手持定位仪进行基础数据的采集并同步编制真实出行记录,形成包含不同交通方式组合出行特征数据库并进行保存。所述基础数据包括:单次出行全过程实时的出行速度、航段长度、出行时间、出行路径上各点的经纬度、路径沿线的所有公交站点的经纬度。
GPS手持定位仪每隔一秒记录一组出行特征数据。
采用GPS手持定位仪有利于准确地把握住个体在出行全过程中每一时刻的出行数据。在数据采集过程中,实验者携带GPS手持定位仪模仿现实生活中的出行模式(包括步行、自行车、小汽车、公交车等模式中的一种或多种)。例如居民上班出行:出行者常常步行到公交车站,换乘公交车到达目的地站点,下车后继续步行到达工作场所;又如短途的出行,出行者常常步行至自行车存放点,骑行一段距离后存放自行车,继续步行至目的地。在数据采集过程中,应尽可能地还原居民出行真实的场景,可在被调查城市的典型路段(市区干线、市区-郊区干线)进行多种模式组合模拟出行试验,如步行-自行车-步行,步行-公交车-步行、步行-小汽车-步行等。为保证所采集的数据更接近被调查城市居民的真实出行情况,每种组合出行的试验次数至少为30次,其中以50次为宜。
由于出行路径沿线的所有公交站点的经纬度对公交模式的识别影响较大,所以应尽量减小测量误差,为此,在采集出行路径沿线的所有公交站点的经纬度时,数据采集时间至少为一分钟。
第二步、被调查居民出行行为数据的采集:利用GPS手持定位仪自动采集被调查居民的出行行为数据,形成数据库并进行保存。所述被调查居民的出行行为数据包括被调查居民全天出行过程的实时出行速度、航段长度、出行时间、出行路径上各点的经纬度,该部分数据作为交通方式识别神经网络的待识别数据。
第一步采集的数据与第二步采集的待识别数据的差异如下:
第一步采集的数据中包括每种交通方式的出行数据,这些数据用于创建并训练得到用于交通方式自动识别的神经网络,针对任一城市的这个神经网络一经训练好以后就可以被长期使用。若该城市的交通规划部门要对当地居民的出行方式进行调查时,只需要采集第二步中的待识别数据,输入到利用第一步采集的数据创建好的神经网络就可以进行方式预测,而不再需要重新按第一步的方式采集数据创建神经网络。
第一步中还需要记录真实的出行方式信息(即,各时刻的交通方式),因为神经网络训练的时候要有输入和输出两部分数据,其中最佳预处理单位下的平均速度、总位移、速度方差、最大速度是输入数据,而与各个时刻的输入数据配对的真实记录的交通方式为输出数据,这样神经网络训练后就能找到不同交通方式输入数据与输出方式间的关系;利用该输入输出关系,就能够识别出第二步采集的数据作为输入数据所对应的输出交通方式,完成神经网络的预测。
本发明之所以要采集并记录出行路径上各点的经纬度而不直接采集和记录交通方式转换点(即关键点)的经纬度的原因是:出行路径上各点的经纬度也是GPS手持定位仪实时采集数据中的一项,第二步采集的待识别数据就包含该信息,但由于第二步中待识别数据是不知道交通方式转换点在哪个具体位置,也不知道整个过程中包含了哪几种交通方式,所以无法直接提取到关键点的经纬度,更不能直接记录关键点信息;且由于第二步采集的数据是由被调查居民携带GPS手持定位仪收集得到的,被调查居民只是随身带着仪器,不做任何处理,因此只有通过后面过程识别出关键点时间位置后,才能从GPS手持定位仪收集的各点经纬度中提取出关键点的经纬度。
第三步、数据预处理:
1)异常数据的处理:将基础数据中数值大于每条道路设计限速的异常数据降低为设计限速;
2)神经网络训练数据预处理:通过设置不同单位时间对第一步采集的基础数据进行多次试验,取神经网络获得最佳训练效果下的数据预处理步长为最佳处理单位t。分别计算第一步和第二步采集的数据在最佳处理单位t内的平均速度、总位移、速度方差、最大速度,并保存计算结果;
3)交通方式的数据化转换:定义步行用数字1表示,自行车用数字2表示,公交车用数字3表示,小汽车用数字4表示,并将第一步采集的基础数据各时刻对应的真实出行交通方式(来自于第一步编制的真实出行记录)作为神经网络训练的输出属性数据;
出行路径沿线的所有公交站点的经纬度的处理:
对在任一公交站点采集到的大于一分钟的经纬度分别做平均计算,取其平均值作为该公交站点的经纬度。该步骤减小了GPS记录误差对公交站点经纬度造成的影响,使本发明的判定方法更准确。
第四步、神经网络训练:首先运用MATLAB BP神经网络工具箱进行网络的创建和设置;网络创建好后导入训练输入、输出数据进行神经网络训练,训练达到要求后程序自动停止,然后保存训练结果文件,训练工作完毕;所述训练输入、输出数据为来自于经过第一步采集并经过第三步预处理的基础数据;
第五步、神经网络预测:调用保存的训练结果文件,输入来自于经过第二步采集并经过第三步预处理的被调查居民出行行为数据,由神经网络进行模式的自动识别,对交通方式进行预测,保存预测结果。
第六步、对预测结果进行平滑处理:
1)化整处理:由于经过神经网络预测得到的数据中包含小数数据,而我们定义的交通方式都是整数数据(如步行为1,自行车为2,公交车为3,小汽车为4),所以我们需要先将小数进行化整处理,具体的化整方法是将小于1.5的数据转化为1,将1.5-2.5转化为2,将2.5-3.5转化为3,将大于3.5的数据转化为4;以此类推,当增加新的交通方式,比如地铁5时,则将3.5-4.5转化为4,大于4.5的数据转化为5。
2)异常点修正:对于化整处理的结果,大部分数据都能够转变到其真实的目标方式,但少数边缘数据比如1.4、2.6等,可能真实情况都是自行车,但我们将其错误地转化为步行和公交车,因此,需要对这类数据进行修正。具体的修正方法为:根据出行时间先后,连续取n个模式识别结果点为一个处理单位,将第一个处理单位(即第1至n个点)中出现次数最高的模式作为第一个点的交通方式,将第二个处理单位(即第2至n+1个点)中出现次数最高的模式作为第二个点的交通方式,以此类推,处理得到全部出行时间的交通方式。
3)模式过渡段修正:经过化整处理和异常点修正后,系统能够消除交通方式频繁突变的现象,各交通方式都会运行相对较长的一段时间后才发生变化。但是此时的数据仍然存在一些问题,在交通方式过渡段,如从步行到小汽车的转变,速度逐步增大,神经网络很容易将其中速度高于步行低于小汽车的时间段识别成自行车方式,因此需要将这类错误模式进行修正,具体的修正方法是:根据实际交通方式过渡段的速度变化特征以及多组数据试验结果,我们这里将此类不合理的交通方式统一修正成速度较高一端的交通方式。
4)不合理模式修正:经过上述处理后,系统能够得到一个波动次数有限的模式识别结果,但是这样的数据还是存在着一定的错误数据,比如:某阶段进行了1分钟以下的公交车乘坐时间,或者自行车出行时间少于1分钟。这些出行段的模式识别结果显然是有悖居民日常出行习惯的。当打车时间少于5分钟,人们宁愿会选择骑车或步行。所以我们这里也需要调整修改这类数据。这里采用的方法是查阅相关文献,结合实际出行习惯以及红绿灯时间,归纳各种交通方式一般的最短出行时间和距离,通过设定最短时间阀值进行修正。
第七步、对步行和自行车进行分段模式结果输出:
由于步行、自行车两种方式相互之间的出行特征差异较大,而且它们与公交车和小汽车的出行特征差异更大,所以经过第二至五步的处理后,系统能够准确地识别出步行和自行车两种方式。此时,我们还需要进行的一项工作就是分段模式结果输出,具体方法是:先识别出关键点,根据关键点将出行过程分成不同交通方式出行的出行时间段,再将模式识别结果为1的分段输出为步行方式,将模式识别结果为2的分段输出为自行车方式,同时记录各关键点的时间信息,所述关键点为交通方式发生变化的点;
第八步、对公交车和小汽车进行分段模式结果输出:
由于公交车和小汽车出行特征非常相近,例如小汽车和公交车的出行平均速度、最大速度,单位时间位移等都很接近,而且公交车和小汽车在出行时经常会出现跟驰排队等现象,这也进一步增加了两种方式的区分难度,对于这两种方式,模式识别系统变得相对复杂,因此,在进行了自行车和步行的识别后再判别公交车和小汽车时,可以有效排除步行和自行车的干扰。
根据前面关键点的定义我们可以发现,出行者在关键点发生了交通方式的变化,那么这就意味了车辆在关键点发生了停车的现象。从第一步采集的基础数据中导入关键点的经纬度,同时导入出行路径沿线所有公交站点的经纬度,计算关键点与每一公交站点的距离,判断这些距离中是否存在小于等于匹配半径R的距离:如果存在,则该关键点为公交站点;继续判断关键点为公交站点的比例是否大于等于匹配百分比P:如是则为公交车,否则为小汽车。这里区别公交车和小汽车的一个主要思想为:公交车辆会在出行路径沿线的所有公交站点发生逐个停靠的现象,停靠的站点比例会大于某个匹配百分比,但是小汽车则不可能发生逐个停靠现象,依据公交车与小汽车这一不同出行特征,我们就能够准确地识别出公交车和小汽车两种方式。
根据上述步骤,我们就能够准确地判断出公交车和小汽车两种方式,接下来我们还需要进行的一项工作就任然是分段进行模式结果输出,具体方法是:重新识别关键点信息,记录并保存关键点信息,然后根据这些点将出行过程分成不同交通方式出行的出行时间段,再将模式识别结果为3的分段输出为公交车方式,将模式识别结果为4的分段输出为小汽车方式,同时根据关键点的信息输出交通方式变化的时间点、地理位置等信息。
第九步、综合统计上述识别的各步行、自行车、公交车、小汽车时间段,按出行时间先后重新整合输出出行全过程的交通方式转变情况及各交通方式间转变的时间点、地理位置信息。
以下,本发明将进一步地讨论匹配半径R与匹配百分比P的确定:
由于出行者的出行位移、GPS仪器的定位误差以及数据收集的延迟等现象都会造成关键点和公交站点的匹配距离,因此,上面所述的匹配距离R以及匹配百分比P的设置都会影响到最后的公交车模式识别结果,为此,我们为了尽量提高模式识别正确率,同时减小交通方式转变时间点的误差,我们进行了不同匹配半径R下的模式识别试验,以下是我们在不同匹配半径R下的模式识别准确率统计结果:
表1是不同R值与P值组合下的小汽车模式识别正确率统计表,表2是不同R值与P值组合下的公交车模式识别正确率统计表,经过观察,我们可以发现随着匹配距离R的增大,小汽车的模式识别正确率逐渐降低,这说明了当R增大时,有部分小汽车出行的试验被识别成了公交车模式出行,相反,当匹配距离增大时公交车的模式识别准确率则不断增大,这与事实逻辑相吻合。同时可以看出,随着百分比的增加,公交车的匹配条件变苛刻,识别的正确率明显下降,小汽车则有所增加。经过综合考虑公交车和小汽车两种方式的识别正确率,我们最终取匹配半径R为60米,匹配百分比P则为70%。