CN106407277A

CN106407277A - 一种基于车联网数据对车主驻留点聚类后的属性分析方法

Info

Publication number: CN106407277A
Application number: CN201610740061.0A
Authority: CN
Inventors: 侯志伟; 耿文童; 李旭
Original assignee: Beijing Interconnected Science And Technology Ltd Of Car Net
Current assignee: Beijing Interconnected Science And Technology Ltd Of Car Net
Priority date: 2016-08-26
Filing date: 2016-08-26
Publication date: 2017-02-15
Anticipated expiration: 2036-08-26
Also published as: CN106407277B

Abstract

一种基于车联网数据对车主驻留点聚类后的属性分析方法，所述方法首先通过对车主驻留点信息进行采集并聚类，再结合聚类后聚点的时间属性及通过逆地理编码得到的聚点空间属性进行分析，并对该点进行判断，最后获得车主驻留点的属性，本发明可以将车主的行程数据进行空间维度的处理，通过对驻留点的聚类编号简化了车主行程数据的空间信息，同时对聚类后点的时空属性进行分析，为进一步对车主行为习惯的分析提供夯实的数据基础。

Description

一种基于车联网数据对车主驻留点聚类后的属性分析方法

技术领域

本发明属于车联网技术领域，具体涉及一种基于车联网数据对车主驻留点聚类后的属性分析方法。

背景技术

随着移动互联网和物联网技术的发展，越来越多的车辆通过前装或后装的方式加入了车联网的阵营，并产生了大量的基于车辆位置的数据，然而这些数据的价值还有待进行更多维度、更深层次的挖掘。相关领域，国内外对于车联网数据的使用主要集中在使用车联网数据对不良驾驶行为的识别和预警，以及驾驶行为的经济性研究，而在基于车联网时空数据对车主行为进行深度挖掘的工作才刚刚起步。相关方面如中国发明专利申请201410157418.3公开的“一种时空轨迹的模式挖掘方法”，是通过Apriori算法对结构化的时空数据进行频繁项的挖掘，但不能直接适用于车联网非结构化并且存在大量噪声的数据。又如201210074506.8公开的“基于手机定位数据的居民出行特征参数的获取方法”，是通过手机定位数据匹配到交通小区，这种方法对地图信息的依赖性强，且需要完备的交通小区信息。并且在该专利中也给出了判断居住地和工作地的简单方法。

但是，上述专利并没有对车主的行程数据进行空间维度的处理，因此需要通过一种方法去为车主行为习惯的分析提供夯实的数据基础。

发明内容

为了解决上述，本发明提供一种基于车联网数据对车主驻留点聚类后的属性分析方法，所述方法首先通过对车主驻留点信息进行采集并聚类，再结合聚类后聚点的时间属性及通过逆地理编码得到的聚点空间属性进行分析，并对该点进行判断，最后获得车主驻留点的属性；

进一步地，所述分析方法包括：

S1：驻留点信息采集；

S2：对S1采集的信息进行数据清洗；

S3：对S2清洗过的数据进行描述性分析；

S4：对S3分析过后的数据通过R语言的geo包里的geodist函数进行计算；

S5：对S4计算后的数据进行行程起点和终点聚类及编号；

S6：对S4中的点及相应编号进行调整；

S7：调整完编号后对数据进行时间属性分析，获得时空属性统计表；

S8：根据S7中时空属性统计表判断车主驻留点的属性；

进一步地，所述S1信息采集方法为通过OBD采集经度、维度、速度、采集时间、行程开始时间和结束时间数据并发往服务器；

进一步地，所述S2数据清洗包括：

S21:基于OBD采集数据时的工作状态所生成的位掩码，位掩码表示记录中所有字段的有效性，“1”标志为有效，“0”标志为无效；

S22:查找并分析其余的异常数据,对异常数据出现的规律性进行分析，清除数据或者修改异常数据；

进一步地，所述S3中描述性分析具体为对数据进行描述性统计工作，所述描述性统计工作包括记录行程统计表和车主统计表，所述行程统计表和车主统计表的统计指标包括：行程起点、终点坐标、行程开始时间、结束时间、行程持续时间、行程结束停车时间；

进一步地，所述S5具体包括：

S51：计算一个观察时间窗口内所有行程起点、终点的任意两点的平面距离矩阵；

S52：计算每个点N米范围内点的个数；

S53:找到范围内包含点数最多的点的集合，并通过计算得到该区域内的点的中心，并给予编号P1、P2、P3...；

S54:将所有距离该区域中心点N米范围内的所有点视为该区域内的点，记录相同的编号；

S55:在将所有高频聚点都编号之后，开始对其余点编号，遵循以下原则：

1)若任意两点的平面距离小于N米，则该两点编号一致；

2)在此循环中，编号一旦存在，无法更改；

进一步地，所述S6中调整方法包括：

方法一：计算两个点分别到和对方编号一样的所有点的平均距离；

方法二：详细考察首尾编号差的平面距离的数值分布，设定一个临界阈值S，当首尾距离大于此临界阈值S时，则认为是由于GPS数据偏差造成的位置偏差，不对编号进行调整，若首尾距离小于临界阈值S，且首尾编号不一致时，需要对其中一个的编号进行调整，将小于某个临界阈值S的点编号为前一行程的终点编号；

进一步地，所述S7中时间属性分析具体为；

进一步地，S71：对分析点的所有GPS点的中心进行逆地理编码得到的实际地址、地址属性、附近POI点数量；其中，POI信息主要表征区域的地域属性，由其中所含的不同类别设施的数量表示；

S72：使用由地图商(例如高德、OpenStreetMap等)所提供地图的API接口进行逆地理编码，并按返回所需求的数据格式；

S73：独从时间和空间两个维度分别模糊判断车主驻留点属性进行判断，由于地理信息的复杂性，优先考虑时间上的各项指标值对该驻留点的属性进行判断；

构建驻留点的属性统计表如下，允许表中数据为空：

S74：对各项属性设定阈值，从而判断驻留点的属性；由包含时空属性的统计表进行组合筛选，按下表给出几种筛选判断；

S75：通过机器学习的方法，训练分类器，训练分类器首先对数据进行采集，得到一定量的车主驻留点属性标签，再使用C4.5或者BP神经网络，训练学习精确的分类器；

进一步地，所述S75中训练分类器方法中BP网络神经方法如下：

S751：将试验人员在一定时间的数据按照聚点算法进行聚点，并统计其特征量，并由试验人员自行确认所有聚点的属性，将以上数据作为输入训练神经网络；

S752：:对非数值的数据进行量化，在对地理属性进行量化时，将所有返回地址属性进行编号量化，聚点附近POI统计的量化简单实用其POI统计中占比最多属性的编号；

S753：将试验人员提交的所有聚点属性分类并编号:，神经网络方法如下：

a)构建输入向量和输出值。输入向量为驻留点属性特征判断表中的十一项指标量化后的数值，输出值为聚点属性对应的编号；

b)将数据输入已经构建好的神经网络中，网络结构11×10×1的网络拓扑结构，神经元函数为Sigmoid特征函数；

c)使用采集处理后的数据分为两部分，训练数据和检验数据，将训练数据作为输入训练神经网络，取学习率η＝0.3，误差标准ε＝0.005，得到训练好的神经网络；

d)选择检验数据作为输入，判断神经网络预测模型得到的结果的准确性；

本发明的有益效果如下：可以将车主的行程数据进行空间维度的处理，通过对驻留点的聚类编号简化了车主行程数据的空间信息，同时对聚类后点的时空属性进行分析，为进一步对车主行为习惯的分析提供夯实的数据基础。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合具体实施例，对本发明进行进一步详细描述。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

下面结合具体实施例对本发明作进一步说明，但不作为对本发明的限定。下面为本发明的举出最佳实施例：

一种基于车联网数据对车主驻留点聚类后的属性分析方法，所述方法首先通过对车主驻留点信息进行采集并聚类，再结合聚类后聚点的时间属性及通过逆地理编码得到的聚点空间属性进行分析，并对该点进行判断，最后获得车主驻留点的属性，所述分析方法包括：

S1：驻留点信息采集；

S2：对S1采集的信息进行数据清洗；

S3：对S2清洗过的数据进行描述性分析；

S5：对S4计算后的数据进行行程起点和终点聚类及编号；

S6：对S4中的点及相应编号进行调整；

S8：根据S7中时空属性统计表判断车主驻留点的属性。

所述S1信息采集方法为通过OBD采集经度、维度、速度、采集时间、行程开始时间和结束时间数据并发往服务器，所述S2数据清洗包括：

S22:查找并分析其余的异常数据,对异常数据出现的规律性进行分析，清除数据或者修改异常数据。

所述S3中描述性分析具体为对数据进行描述性统计工作，所述描述性统计工作包括记录行程统计表和车主统计表，所述行程统计表和车主统计表的统计指标包括：行程起点、终点坐标、行程开始时间、结束时间、行程持续时间、行程结束停车时间。

所述S5具体包括：

S52：计算每个点N米范围内点的个数；

1)若任意两点的平面距离小于N米，则该两点编号一致；

2)在此循环中，编号一旦存在，无法更改。

所述S6中调整方法包括：

方法二：详细考察首尾编号差的平面距离的数值分布，设定一个临界阈值S，当首尾距离大于此临界阈值S时，则认为是由于GPS数据偏差造成的位置偏差，不对编号进行调整，若首尾距离小于临界阈值S，且首尾编号不一致时，需要对其中一个的编号进行调整，将小于某个临界阈值S的点编号为前一行程的终点编号。

所述S7中时间属性分析具体为：

S71：对分析点的所有GPS点的中心进行逆地理编码得到的实际地址、地址属性、附近POI点数量；其中，POI信息主要表征区域的地域属性，由其中所含的不同类别设施的数量表示；

S72：使用由地图商(例如高德、OpenStreetMap等)的API接口进行逆地理编码，并按返回所需求的数据格式；

构建驻留点的属性统计表如下，允许表中数据为空：

S75：通过机器学习的方法，训练分类器，训练分类器首先对数据进行采集，得到一定量的车主驻留点属性标签，再使用C4.5或者BP神经网络，训练学习精确的分类器。

所述S75中训练分类器方法中BP网络神经方法如下：

d)选择检验数据作为输入，判断神经网络预测模型得到的结果的准确性。

所述分析方法包括以下步骤：

1)OBD数据采集

2)数据描述性统计模块

OBD采集的数据内容主要有：经度、维度、速度和采集时间，同时，可以从上传的点火包和熄火包中获得行程开始时间和结束时间。将OBD采集到的数据发往服务器，并对这些数据进行清洗以及描述性的统计。

需要特别强调的是，在进行车主驻留点的聚类方法及属性分析前应当对车主身份及其他敏感信息(如vin码、设备ID等)进行哈希加密，防止对车主产生不良影响。

另外，在整个数据处理过程中，要尽量保证数据安全。

数据清洗的主要工作有：

基于OBD采集数据时的工作状态所生成的位掩码(FieldMask)，位掩码表示记录中所有字段的有效性。“1”标志为有效，“0”标志为无效；

其次，查找并分析其余的异常数据，例如终端失灵导致的异常数据，对该数据出现的规律性进行分析，提出合理的清除数据或者修改异常数据的措施，例如卡曼滤波、滑动均值滤波的方法；

最后，对数据进行描述性统计工作，主要包括对行程的统计表和对车主的统计表。针对于本专利的统计表统计指标主要包括：行程起点、终点坐标、行程开始时间、结束时间、行程持续时间、行程结束停车时间。

表1行程特征统计表

表2用户行程特征汇总表

另外要注意的是在整个计算过程中的距离使用的为平面距离，需要将数据点的经维度之间的距离使用合适的方法进行处理计算。本专利在计算中使用的R语言的geo包里的geodist()函数进行计算。

3)车主行程起点、终点聚类及编号

由于GPS的定位点本身具有一定的定位误差，同时很多车主在到达目的地之后车辆的停放位置也并不固定，所以一般来说会在车主的驻留点附近形成聚集区域。这些区域我们称为车主驻留点的聚点，这些聚点是我们挖掘车主行为习惯的重要依据。因此若能将属于这些聚点的定位点编号，将会极大方便我们对车主行为的研究。

首先，计算一个观察时间窗口内所有行程起点、终点的任意两点的平面距离矩阵，并计算每个点N米范围内点的个数。找到点数最多的点的集合，并通过计算得到该区域内的点的中心，并给予编号P1、P2、P3……。将所有距离该区域中心点N米范围内的所有点视为该区域内的点，给予相同的编号。

在实际操作中，为避免频数相当的聚点(例如家和公司)相互之间造成干扰，可以对行程时间进行合理的筛选，例如只选取每天上午的行程起点，或者每天晚上行程的终点。在将所有高频聚点都编号之后，开始对其余点编号，主要遵循以下原则：

1.若任意两点的平面距离小于N米，则他们的编号一致；

2.在此循环中，编号一旦存在，则不会更改。

在完成上述步骤后，所有聚点都有了编号。但由于车在空间上的连续性，理论上相邻行程的首尾编号应一致，但由于GPS硬件启动需要一定时间，并且获取的GPS数据也存在一定偏差，并且GPS在启动时会有一定的延迟。，因此，并不是所有行程首尾两个点的编号在N米内编号一致，因此需要对上一轮编号进行调整。

详细考察首尾编号差的平面距离的数值分布，设定一个临界阈值S，当首尾距离大于此临界阈值S时，则认为是由于GPS数据偏差造成的位置偏差，不对编号进行调整，若首尾距离小于临界阈值S，且首尾编号不一致时，需要对其中一个的编号进行调整。

可以采用以下两种方法调整编号：

1.计算两个点分别到和对方编号一样的所有点的平均距离；

2.由于一般来说，停车点的GPS精度相对较高，可直接将小于某个临界阈值S的点编号为前一行程的终点编号。

第一种方法得到的结果相对精确，但计算复杂；第二种方法计算简单，更加依靠硬件所测数据的准确性。这样编号完成后，除去因为硬件故障及信号遮挡造成的行程中断之外，车主的整体行程是连续的。

4)得到时空属性统计表

在确定编号之后，我们可以通过对时间属性进行分析，判断车主的空间分布点的属性。包含且不仅限于以下几类统计项：；

同时，对该点的所有GPS点的中心进行逆地理编码得到的实际地址、地址属性、附近POI点数量。其中，POI信息主要表征区域的地域属性，由其中所含的不同类别设施的数量表示，如2#1:22表示在此区域中含有类别为2#1的设施22个，2#1表示一级类别为2，二级类别为1，例如休闲娱乐#剧院，购物#家电数码，运动健身#其他等等。使用OpenStreetMap(OSM)地图的API接口进行逆地理编码，并按返回所需求的数据格式。

5)根据时空属性判断车主驻留点的属性

首先，单独从时间和空间两个维度分别可以模糊判断车主驻留点属性进行判断，并且由于地理信息的复杂性，会优先考虑时间上的各项指标值对该驻留点的属性进行判断。构建驻留点的属性统计表如下，特别地，允许表中数据为空。

表3驻留点属性统计表

可以依靠生活经验对各项属性设定合理的阈值，从而判断驻留点的属性。由包含时空属性的统计表进行组合筛选，下表给出几种筛选判断条件，具体阈值的设定应考虑实际需求酌情调整。

表4驻留点属性特征判断表

但这种方法存在很多问题：

1.由于判断方式依靠生活经验，所以精确度较低；

2.当时间属性和空间属性对于某一驻留点的属性判断不一样时，只能依靠时间或者空间其中之一进行判断；

3.由穷举得到的驻留点属性标签相对较少，不能完备的覆盖所有点。

所以为了进行更精确的计算，可以通过机器学习的方法，训练更加精确的分类器。但训练分类器首先要对数据进行采集，需要得到一定量的车主驻留点属性标签，从而使用C4.5或者BP神经网络，训练学习精确的分类器。

以BP神经网络为例，首先需要将试验人员在一定时间的数据按照聚点算法进行聚点，并统计其特征量，并由试验人员自行确认所有聚点的属性，将以上数据作为输入训练神经网络。特别注意的是，需要对非数值的数据进行合理的量化。在对地理属性进行量化时，可以将所有返回地址属性进行编号量化，聚点附近POI统计的量化可以简单实用其POI统计中占比最多属性的编号，将试验人员提交的所有聚点属性分类并编号。神经网络方法如下：

若要将模型用于实际的生产中时，要考虑模型的不断学习优化过程，以达到更加准确的识别效果。

以上所述的实施例，只是本发明较优选的具体实施方式的一种，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种基于车联网数据对车主驻留点聚类后的属性分析方法，其特征在于，所述方法首先通过对车主驻留点信息进行采集并聚类，再结合聚类后聚点的时间属性及通过逆地理编码得到的聚点空间属性进行分析，并对该点进行判断，最后获得车主驻留点的属性。

2.根据权利要求1所述的分析方法，其特征在于，所述分析方法包括：

S1：驻留点信息采集；

S2：对S1采集的信息进行数据清洗；

S3：对S2清洗过的数据进行描述性分析；

S5：对S4计算后的数据进行行程起点和终点聚类及编号；

S6：对S4中的点及相应编号进行调整；

S8：根据S7中时空属性统计表判断车主驻留点的属性。

3.根据权利要求2所述的分析方法，其特征在于，所述S1信息采集方法为通过OBD采集经度、维度、速度、采集时间、行程开始时间和结束时间数据并发往服务器。

4.根据权利要求2所述的分析方法，其特征在于，所述S2数据清洗包括：

S21：基于OBD采集数据时的工作状态所生成的位掩码，位掩码表示记录中所有字段的有效性，″1″标志为有效，″0″标志为无效；

S22：查找并分析其余的异常数据，对异常数据出现的规律性进行分析，清除数据或者修改异常数据。

5.根据权利要求2所述的分析方法，其特征在于，所述S3中描述性分析具体为对数据进行描述性统计工作，所述描述性统计工作包括记录行程统计表和车主统计表，所述行程统计表和车主统计表的统计指标包括：行程起点、终点坐标、行程开始时间、结束时间、行程持续时间、行程结束停车时间。

6.根据权利要求2所述的分析方法，其特征在于，所述S5具体包括：

S52：计算每个点N米范围内点的个数；

S53：找到范围内包含点数最多的点的集合，并通过计算得到该区域内的点的中心，并给予编号P1、P2、P3...；

S54：将所有距离该区域中心点N米范围内的所有点视为该区域内的点，记录相同的编号；

S55：在将所有高频聚点都编号之后，开始对其余点编号，遵循以下原则：

1)若任意两点的平面距离小于N米，则该两点编号一致；

2)在此循环中，编号一旦存在，无法更改。

7.根据权利要求2所述的分析方法，其特征在于，所述S6中调整方法包括：

8.根据权利要求2所述的分析方法，其特征在于，所述S7中时间属性分析具体为：

S72：使用由地图商所提供地图的API接口进行逆地理编码，并按返回所需求的数据格式；

构建驻留点的属性统计表如下，允许表中数据为空：

9.根据权利要求8所述的分析方法，其特征在于，所述S75中训练分类器方法中BP网络神经方法如下：

S752：：对非数值的数据进行量化，在对地理属性进行量化时，将所有返回地址属性进行编号量化，聚点附近POI统计的量化简单实用其POI统计中占比最多属性的编号；

S753：将试验人员提交的所有聚点属性分类并编号：，神经网络方法如下：