CN106909612B

CN106909612B - 一种跟随行为数据的处理方法和装置

Info

Publication number: CN106909612B
Application number: CN201710020974.XA
Authority: CN
Inventors: 刘清炼; 黄群
Original assignee: Zhejiang Uniview Technologies Co Ltd
Current assignee: Xi'an Yu Vision Mdt Infotech Ltd
Priority date: 2017-01-11
Filing date: 2017-01-11
Publication date: 2020-12-29
Anticipated expiration: 2037-01-11
Also published as: CN106909612A

Abstract

本申请实施例公开了一种跟随行为数据的处理方法和装置，该方法将原始数据分区中的数据根据数据自身所对应的时间信息进行重新排序，平均划分为多个更新数据分区，并将更新数据分区以及存在跨数据分区被跟随可能性的数据发送给相应的执行单元，以使执行单元根据对应的位置信息，进行数据分区内部和跨数据分区的跟随行为分析处理，从而，通过数据自身的时间和位置信息，在不同类型数据间进行跟随行为分析，并且通过均衡各执行单元间的数据处理量，在海量数据情况下实现高效的通用跟随行为分析处理。

Description

一种跟随行为数据的处理方法和装置

技术领域

本申请涉及数据分析领域，特别涉及一种跟随行为数据的处理方法和装置。

背景技术

随着科学技术水平发展，各类数据包括过车，MAC，RFID，旅馆，网吧等呈现爆炸式的增长。在如此海量数据情况下，原有的业务模型及算法已经越来越不能满足客户对业务种类和实时性的要求了。如，当前最多的跟随分析算法只是跟车行为分析，但是随着可以收集的数据种类(比如手机，旅馆，网吧等)越来越多，客户的需求不断的增加与变化(如车与MAC跟随分析，车与RFID的跟随分析等)，而原有跟车算法已经不能适用多种类型的数据分析，为减少后续的开发和维护工作量，必须设计一个通用的业务模型和算法。

现有技术采用的是跟车关联性算法，经过相同卡口的过车存在空间跟随行为，该算法依据卡口编码进行重分区后，在空间上存在跟随行为的数据会分布在同一个partition中，后续计算只需要比较跟随时间即可。

申请人在实现本申请的过程中发现，上述现有的处理方案至少存在如下的问题：

该算法虽然在计算执行前就将数据根据卡口编码重分区，减少后续计算维度和代码复杂度，但是该算法存在以下三个缺点：

1、基于卡口编码作为空间跟随行为的依据只能处理同类数据(如车跟车，MAC跟MAC)，但是不能处理不同类型的数据(如车跟MAC)。

2、现实是有些卡口数据量非常大，有些卡口数据量非常小，以卡口编码重分区后导致数据分布不均匀，后续Task数据量小的执行很快，数据量大的执行很慢。而执行慢的Task影响了算法整体的并发执行。

3、对于移动采集设备采集到的数据使用采集设备编码进行跟随分析判断是不正确的，因为采集设备是移动，其采到的数据所在的地球坐标其实是不一样的。

发明内容

本申请实施例提供一种跟随行为数据的处理方法和装置，以实现通过数据自身的时间和位置信息，在不同类型数据间进行跟随行为分析，并且通过均衡各执行单元间的数据处理量，在海量数据情况下实现高效的通用跟随行为分析处理。

为了达到上述技术目的，本申请提供了一种跟随行为数据的处理方法，应用于包括多个执行单元的跟随行为分析装置中，所述方法具体包括：

所述跟随行为分析装置获取多个原始数据分区的数据，其中，各所述数据中分别携带相对应的时间信息和位置信息；

所述跟随行为分析装置根据所述时间信息，将获取到的所有数据进行排序，并将排序后的所有数据平均划分为多个更新数据分区；

所述跟随行为分析装置识别各所述更新数据分区中存在跨数据分区被跟随可能性的数据，并将所识别到的数据生成扩展数据集合；

所述跟随行为分析装置将各所述更新数据分区分别分配给各执行单元进行处理，并将所述扩展数据集合广播给各所述执行单元，以使相应的执行单元根据所述位置信息，分别对所分配的更新数据分区中的数据，以及过滤所述扩展数据集合得到的关联数据，进行数据分区内部和跨数据分区的跟随行为分析处理。

优选的，

所述时间信息包括所述数据的起始时间和结束时间；

所述位置信息包括所述数据所对应的经度信息和纬度信息。

优选的，所述跟随行为分析装置根据所述时间信息，将获取到的所有数据进行排序，并将排序后的所有数据平均划分为多个更新数据分区，具体包括：

所述跟随行为分析装置根据各所述数据所对应的起始时间的先后顺序，对获取到的所有数据进行排序；

所述跟随行为分析装置根据处理资源配置情况，将排序后的所有数据划分为相应数量的更新数据分区，各所述更新数据分区中所包含的数据数量相一致。

优选的，所述跟随行为分析装置识别各所述更新数据分区中存在跨数据分区被跟随可能性的数据，并将所识别到的数据生成扩展数据集合，具体包括：

所述跟随行为分析装置分别识别各所述更新数据分区中所包括的起始时间位于本数据分区尾部的跟随时间区间范围内的数据，以及结束时间大于本数据分区中最大的起始时间的数据；

所述跟随行为分析装置将所识别到的数据确定为各所述更新数据分区中存在跨数据分区被跟随可能性的数据，生成扩展数据集合。

优选的，所述相应的执行单元根据所述位置信息，分别对所分配的更新数据分区中的数据，以及过滤所述扩展数据集合得到的关联数据，进行数据分区内部和跨数据分区的跟随行为分析处理，具体包括：

各所述执行单元分别根据自身所处理的数据分区所对应的起始时间范围确定自身的扩展时间范围；

各所述执行单元分别在接收到的所述扩展数据集合中获取起始时间和/或结束时间在自身的扩展时间范围内，且不属于自身所处理的数据分区的数据，作为关联数据；

各所述执行单元分别在自身所分配的更新数据分区中的数据和所过滤得到的关联数据中，确定起始时间和结束时间之间的差值小于跟随时间区间值，并且位置信息相匹配的两个数据之间存在跟随行为。

另一方面，本申请实施例还提出了一种跟随行为分析装置，包括多个执行单元，具体包括：

获取模块，用于获取多个原始数据分区的数据，其中，各所述数据中分别携带相对应的时间信息和位置信息；

更新模块，用于根据所述时间信息，将所述获取模块所获取到的所有数据进行排序，并将排序后的所有数据平均划分为多个更新数据分区；

生成模块，用于识别各所述更新模块所划分的更新数据分区中存在跨数据分区被跟随可能性的数据，并将所识别到的数据生成扩展数据集合；

发送模块，用于将各所述更新数据分区分别分配给各所述执行单元进行处理，并将所述生成模块所生成的扩展数据集合广播给各所述执行单元；

所述执行单元，用于根据所述位置信息，分别对所述发送模块所分配的更新数据分区中的数据，以及过滤所述扩展数据集合得到的关联数据，进行数据分区内部和跨数据分区的跟随行为分析处理。

优选的，

所述时间信息包括所述数据的起始时间和结束时间；

所述位置信息包括所述数据所对应的经度信息和纬度信息。

优选的，所述更新模块，具体用于：

根据各所述数据所对应的起始时间的先后顺序，对获取到的所有数据进行排序；

根据处理资源配置情况，将排序后的所有数据划分为相应数量的更新数据分区，各所述更新数据分区中所包含的数据数量相一致。

优选的，所述生成模块，具体包括：

分别识别各所述更新数据分区中所包括的起始时间位于本数据分区尾部的跟随时间区间范围内的数据，以及结束时间大于本数据分区中最大的起始时间的数据；

将所识别到的数据确定为各所述更新数据分区中存在跨数据分区被跟随可能性的数据，生成扩展数据集合。

优选的，所述执行模块，具体用于：

根据自身所处理的数据分区所对应的起始时间范围确定自身的扩展时间范围；

在接收到的所述扩展数据集合中获取起始时间和/或结束时间在自身的扩展时间范围内，且不属于自身所处理的数据分区的数据，作为关联数据；

在自身所分配的更新数据分区中的数据和所过滤得到的关联数据中，确定起始时间和结束时间之间的差值小于跟随时间区间值，并且位置信息相匹配的两个数据之间存在跟随行为。

与现有技术相比，本申请实施例所提出的技术方案的有益技术效果包括：

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提出的一种跟随行为数据的处理方法的流程示意图；

图2为本申请实施例所提出的一种具体应用场景下的跟随行为数据的处理方法的流程示意图；

图3A至3F为本申请实施例所提出的存在时间跟随行为的数据的具体示例示意图；

图4A和4B为本申请实施例所提出的不存在时间跟随行为的数据的具体示例示意图；

图5A为本申请实施例所提出的存在空间跟随行为的数据的具体示例示意图；

图5B为本申请实施例所提出的通过改进算法处理的存在空间跟随行为的数据的具体示例示意图；

图6为本申请实施例所提出的各task处理时间示意图；

图7为本申请实施例所提出的一种更新数据分区的示意图；

图8为本申请实施例所提出的数据分布的示意图；

图9为本申请实施例所提出的一种具体场景下执行单元的数据处理示意图；

图10为本申请实施例所提出的广播数据进行过滤筛选后数据分布示意图；

图11为本申请实施例所提出的一种跟随行为分析装置的结构示意图。

具体实施方式

正如本申请背景技术所陈述的，现有的跟随处理方案中无法打破数据类别的界限，而且移动采集数据的情况下，跟随数据的参考位置发生了变化，影响了跟随分析的准确性，而且，数据分区划分的数据量不均衡，处理进程差距大，影响了整体处理效率。

本申请的发明人希望通过本申请所提供的方法，可以通过数据自身的时间和位置信息，在不同类型数据间进行跟随行为分析，并且通过均衡各执行单元间的数据处理量，在海量数据情况下实现高效的通用跟随行为分析处理。

如图1所示，为本申请实施例所提出的一种跟随行为数据的处理方法的流程示意图，该方法具体包括：

步骤S101、所述跟随行为分析装置获取多个原始数据分区的数据。

其中，各所述数据中分别携带相对应的时间信息和位置信息。

在具体的应用场景中，所述时间信息包括所述数据的起始时间和结束时间，所述位置信息包括所述数据所对应的经度信息和纬度信息。

上述的时间信息给出了数据在时间维度的坐标，可以作为后续跟随分析的第一维度，进行跟随数据的初步筛选，而位置信息则体现了数据的空间坐标，作为第二维度，对跟随数据进行跟随校验，避免因为数据的移动采集而导致的参考位置变化对跟随分析的影响。

步骤S102、所述跟随行为分析装置根据所述时间信息，将获取到的所有数据进行排序，并将排序后的所有数据平均划分为多个更新数据分区。

在具体的应用场景中，本步骤的处理过程包括：

根据各所述数据所对应的起始时间的先后顺序，对获取到的所有数据进行排序。

通过以上两个步骤的处理，首先可以打破原有数据分区中因为数据采集点的数据量差异而导致的数据分区分配数据量的不均衡，再者，如步骤S101中的说明，通过时间信息进行排序的方式，已经对数据进行了初步筛选，按照先后关系的数据重排将可能存在跟随关系的数据尽可能地放在同一个或者相邻的数据分区中，为后续的跟随分析奠定了基础，提供了便利。

步骤S103、所述跟随行为分析装置识别各所述更新数据分区中存在跨数据分区被跟随可能性的数据，并将所识别到的数据生成扩展数据集合。

本步骤的处理过程包括：

需要说明的是，上述处理过程所识别出的存在跨数据分区被跟随可能性的数据，主要是为了避免步骤S102中划分数据分区过程中，将真实存在跟随关系的数据因为每个分区中所包含的数据量限制，而被划分到其他数据分区，从而导致在执行单个数据分区的跟随分析过程中产生数据遗漏的问题。

步骤S104、所述跟随行为分析装置将各所述更新数据分区分别分配给各执行单元进行处理，并将所述扩展数据集合广播给各所述执行单元，以使相应的执行单元根据所述位置信息，分别对所分配的更新数据分区中的数据，以及过滤所述扩展数据集合得到的关联数据，进行数据分区内部和跨数据分区的跟随行为分析处理。

在具体的应用场景中，上述的执行单元的处理过程具体说明如下：

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

如前所示，本申请实施例所提出的技术方案是为了实现不同类型数据间跟随行为分析和海量数据情况下高效的通用处理方案。该处理方案的核心思想是忽略数据原始类型，将数据定义为被跟随数据和跟随数据两种类型，基于原始数据的两个通用属性(时间和经纬度信息)进行跟随行为分析，实现数据处理的通用性，并采用Spark并行计算框架，将海量数据均匀的分布在多个Partition(数据分区)中并行计算，实现海量数据计算的高效性。

如图2所示，为本申请实施例所提出的一种具体应用场景下的跟随行为数据的处理方法的流程示意图，该方法具体包括：

首先，多个数据采集点进行数据采集，并对数据标注时间信息和位置信息。

原始数据存储格式是原始数据经采集后保存在HDFS文件系统parquet文件中。

为实现该算法的通用性，即支持任意两种相同类型或不同类型数据间的跟随行为分析，原始数据除包含自己的独有数据(比如车可以采集到车身颜色，车的品牌等数据，而手机可能没有这些数据)外，还保存了本申请实施例后续处理过程所依赖的通用属性数据：

(code，entryTime，exitTime，longitude，latitude，devCode)；

其中：

code：表示数据自身的编码，比如车牌，MAC地址等；

entryTime：表示在一个采集点第一次被采集到数据的时间；

exitTime：表示在一个采集点最后一次被采集到数据的时间；

longitude：表示采集当前数据的位置所对应的经度；

latitude：表示采集当前数据的位置所对应的纬度；

devCode：采集设备编码，采集设备编码只是为了给用户展示该条数据所属的采集点。

依据上述的数据信息，本申请实施例后续处理方案中对跟随行为的判断标准为：两条相同类型或不同类型数据在时间和空间两个维度上同时满足跟随行为则认为两条数据存在跟随行为。具体说明如下：

(一)时间维度上的跟随行为。

数据Data₁时间范围是[entryTime₁，exitTime₁]，数据Data₂时间范围是[entryTime₂，exitTime₂]，如果两条数据在预设的跟随时长T范围内存在时间重叠，即[entryTime₁，exitTime₁]和[entryTime₂，exitTime₂]存在重叠区域，则Data₁和Data₂存在时间跟随行为。

如图3A至3F所示，为本申请实施例所提出的存在时间跟随行为的数据的具体示例示意图。

相反，如图4A和4B所示，为本申请实施例所提出的不存在时间跟随行为的数据的具体示例示意图。

(二)空间维度上的跟随行为。

以数据Data₁的经纬度(longitude₁，latitude₁)为圆心，以预设的跟随距离R为半径形成一个圆，如果数据Data₂的经纬度(longitude₂，latitude₂)在圆内，则Data₁和Data₂存在空间跟随行为。

如图5A所示，为本申请实施例所提出的存在空间跟随行为的数据的具体示例示意图。

以圆形区域来计算两条数据在空间上是否存在跟随行为，现有技术是根据Data₁的经纬度和半径计算出一组geohash编码，然后根据Data₂的经纬度计算出一个geohash，如果Data₁的一组geohash编码中包含Data₂的geohash编码，则Data₁和Data₂存在空间跟随行为。

但是根据经纬度计算geohash，然后判断是否包含导致计算较复杂，影响计算效率，如图5B所示，在具体的应用场景中，可以直接根据([longitude_min，longitude_max]，[latitude_min，latitude_max])和R计算一个矩形区域，如果Data₂在该矩形区域内即longitude_min≤longitude₂≤longitude_max且latitude_min≤latitude₂≤latitude_max，则Data₁和Data₂存在空间跟随行为。虽然该策略降低了结果一定的准确性，但是提高了运行效率。

明确了上述的跟随判定规则后，需要进行本申请实施例所提出的技术方案的关键，重新进行数据分区的划分，在具体的应用场景中，可以通过自定义分区器来实现。

自定义分区器的目的是将可能存在跟随行为的数据分布在同一个分区，此处可能存在跟随行为的数据是指在时间和空间其中一个维度上可能存在跟随行为的数据。经过自定义分区器重新分区后，每个Task只需要计算分配给自己的partition中的数据即可。

如图2所示合，并后的RDD1中partition数据是散乱无序的，而最后Task是以partition为单位进行数据运算的，即一个Task只能处理分配给它的partition，并不能访问其他Task中的数据。这引入两个问题：

1.存在跟随行为的两条数据分布在不同的partition内无法得到跟随结果。

2.Task并行处理每个partition的数据，当数据分布不均匀时性能由数据量比较大的Task决定。如图6所示，为本申请实施例所提出的各task处理时间示意图，系统的总体性能被Task2拖累。

为使可能存在跟随行为的数据尽可能的分布在同一个partition内，分区器的依据可以选择时间和空间两个维度中的其中一个，该算法选择时间(entryTime，exitTime)中的entryTime作为分区器重分区的依据，分区后的数据分布如图7所示，为本申请实施例所提出的一种更新数据分区的示意图。

但是原始数据包含entryTime和exitTime，时间维度的跟随行为如前所述是两条数据[entryTime-T，exitTime+T]与[entryTime，exitTime]存在重叠，所以就会出现如图8所示的数据分布。

其中：

颜色1部分表示每个分区尾部跟随时长T范围内的数据，即entryTime_max-T≤entryTime≤entryTime_max的数据。

颜色2部分表示exitTime大于等于本分区最大的entryTime的数据，即entryTime_min≤entryTime≤entryTime_max且exitTime≥entryTime_max。

这两部分的数据在时间上可能和其他partition中的数据存在跟随行为，为使非本partition的Task能够访问该部分数据，方案中采用广播形式将这部分数据收集后，以链表List的形式共享给所有的Executor以使所有的Task都能够访问。

经自定义的分区器重新分区和数据广播后，每个Task处理的数据分布如图9所示。

但是广播数据中并不是所有的数据在时间维度上与本partition的数据存在跟随行为，只有[entryTime，exitTime]与本partition的存在重叠的部分才有可能存在跟随行为。以此对广播数据进行过滤筛选后数据分布如图10所示，是基本均匀的，Task运行时间相差较小，提高了整体计算的并发度。

在完成数据筛选后，根据初始设定的筛选条件(查询开始时间T1，结束时间T2，被跟随数据类型，跟随数据类型，跟随时长T，跟随距离R等)，经过筛选后的数据进行跟随行为分析，如果在时间和空间两个维度同时满足跟随行为的，则输出以下两个处理结果。

结果一：RDD[Row(trackedData，trackData，times)]，RDD中每一个元素就代表在T1和T2时间段，跟随时长T，跟随距离D的条件下，分析出times次跟随行为。

结果二：RDD[Row(trackedDataInfo，trackDataInfo)]，RDD中每一个元素就代表存在跟随行为的两条数据的明细，包括具体的编码，时间，经纬度，采集设备编码等。

为更清楚地说明本申请前述实施例提供的方案，基于与上述方法同样的发明构思，本申请实施例还提出了一种跟随行为分析装置，其结构示意图如图11所示，包括多个执行单元115，具体包括：

获取模块111，用于获取多个原始数据分区的数据，其中，各所述数据中分别携带相对应的时间信息和位置信息；

更新模块112，用于根据所述时间信息，将所述获取模块111所获取到的所有数据进行排序，并将排序后的所有数据平均划分为多个更新数据分区；

生成模块113，用于识别各所述更新模块112所划分的更新数据分区中存在跨数据分区被跟随可能性的数据，并将所识别到的数据生成扩展数据集合；

发送模块114，用于将各所述更新数据分区分别分配给各所述执行单元115进行处理，并将所述生成模块113所生成的扩展数据集合广播给各所述执行单元115；

所述执行单元115，用于根据所述位置信息，分别对所述发送模块114所分配的更新数据分区中的数据，以及过滤所述扩展数据集合得到的关联数据，进行数据分区内部和跨数据分区的跟随行为分析处理。

优选的，

所述时间信息包括所述数据的起始时间和结束时间；

所述位置信息包括所述数据所对应的经度信息和纬度信息。

优选的，所述更新模块112，具体用于：

优选的，所述生成模块113，具体包括：

优选的，所述执行模块，具体用于：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或网络侧设备等)执行本发明实施例各个实施场景所述的方法。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本发明实施例所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明实施例序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本发明实施例的几个具体实施场景，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明实施例的业务限制范围。

Claims

1.一种跟随行为数据的处理方法，其特征在于，应用于包括多个执行单元的跟随行为分析装置中，所述方法具体包括：

2.如权利要求1所述的方法，其特征在于，所述时间信息包括所述数据的起始时间和结束时间；

所述位置信息包括所述数据所对应的经度信息和纬度信息。

3.如权利要求2所述的方法，其特征在于，所述跟随行为分析装置根据所述时间信息，将获取到的所有数据进行排序，并将排序后的所有数据平均划分为多个更新数据分区，具体包括：

4.如权利要求3所述的方法，其特征在于，所述跟随行为分析装置识别各所述更新数据分区中存在跨数据分区被跟随可能性的数据，并将所识别到的数据生成扩展数据集合，具体包括：

5.如权利要求4所述的方法，其特征在于，所述相应的执行单元根据所述位置信息，分别对所分配的更新数据分区中的数据，以及过滤所述扩展数据集合得到的关联数据，进行数据分区内部和跨数据分区的跟随行为分析处理，具体包括：

6.一种跟随行为分析装置，包括多个执行单元，其特征在于，具体包括：

7.如权利要求6所述的装置，其特征在于，所述时间信息包括所述数据的起始时间和结束时间；

所述位置信息包括所述数据所对应的经度信息和纬度信息。

8.如权利要求7所述的装置，其特征在于，所述更新模块，具体用于：

9.如权利要求8所述的装置，其特征在于，所述生成模块，具体包括：

10.如权利要求9所述的装置，其特征在于，所述执行单元，具体用于：