CN113807179A

CN113807179A - 同行行为判断方法及系统

Info

Publication number: CN113807179A
Application number: CN202110934096.9A
Authority: CN
Inventors: 植挺生; 陈建生; 邓超河; 吴玉书; 刘勇; 冼永乐
Original assignee: Guangdong Guangyu Technology Development Co Ltd
Current assignee: Guangdong Guangyu Technology Development Co Ltd
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-12-17
Anticipated expiration: 2041-08-13
Also published as: CN113807179B

Abstract

本发明公开了同行行为判断方法及系统，通过分别对各个卡口的监测数据按时间进行排序，再分别对排序完的各个卡口的监测数据进行切片，再分别将各个卡口的监测数据切片后的分片进行自关联，得到各个卡口的对应的各个切片内部的关联对象之间的关联信息，再根据各个卡口的对应的各个切片内部的关联对象之间的关联信息判断待监测区域内的监测对象存在同行行为，相比现有技术，本发明通过对各个卡口的监测数据按时间排序、切片，再对各个切片中的行为数据进行自关联，能减少各个卡口的监测数据中明显不相关的行为数据之间的关联查询，能大大提高同行行为判断的效率。

Description

同行行为判断方法及系统

技术领域

本发明涉及同行行为追踪技术领域，尤其涉及用于监测行人、车辆以及其他行动物体或生物的同行行为判断方法及系统。

背景技术

现有的同行判断方法在进行卡口数据的关联时，一般需要穷尽搜索各个不同的数据之间的相互关联性来判断同行行为是否发生，这种穷尽搜索的方式需要占用大量的计算机资源，且需要大量的搜索时间实现，进而导致现有的同行判断方法存在计算机资源消耗大、判断慢的问题。

发明内容

本发明提供了同行行为判断方法及系统，用于解决同行判断方法计算机资源消耗大、判断慢的技术问题。

为解决上述技术问题，本发明提出的技术方案为：

一种同行行为判断方法，包括以下步骤：

获取待监测区域的监测数据集D＝{D₁,D₂,...,D_n}，其中，D_i为待监测区域中第i个卡口的监测数据，i＝1，2，...，n，n为卡口总数，所述监测数据D_i包括在第i个卡口上监测到的各个监测对象的行为数据；所述行为数据包括卡口编号、监测对象的编号以及监测对象经过所述卡口的时间；

对于所述监测数据集中的任一监测数据D_i，均执行以下步骤：

按监测对象经过所述第i个卡口时间顺序对所述监测数据D_i中的各个行为数据进行排序；

按预设的第一时间尺度从所述监测数据D_i的第一端部开始对排序完的监测数据D_i进行切片，得到所述监测数据D_i的第一分片集

其中，

为所述第一分片集中第h序位的第一分片，h＝1，2，...,k，k为第一分片集

分片总数；

按预设的第二时间尺度从所述第一端部开始对所述监测数据集D_i进行切片，得到所述监测数据D_i的第二分片集

为所述第二分片集中第j序位第二分片，j＝1，2，...，m，m为第二分片集

分片总数；其中，第一时间尺度与第二时间尺度之间的差值大于或等于预设的关联查询阈值，且第一时间尺度与第二时间尺度均大于2倍关联查询阈值；

将所述监测数据D_i中每个第一分片

中的行为数据分别与其对应时段的第二分片

中的行为数据进行关联查询，得到所述监测数据D_i对应的第i个卡口中监测对象的关联信息；所述关联查询的关联规则为：对于同一卡口的任意两条行为数据，若两个行为数据各自记载的监测对象经过所述卡口时间的差值小于或等于所述关联查询阈值，则判断两个行为数据各自记载的监测对象在所述卡口存在相互关联；

根据各个卡口中监测对象的关联信息确定待监测区域中的监测对象是否有同行行为发生。

优选的，按监测对象经过所述第i个卡口时间顺序对所述监测数据D_i中的各个行为数据进行升序排列；将所述监测数据D_i中每个第一分片

中的行为数据分别与其对应时段的第二分片

中的行为数据进行关联查询，具体包括一下步骤：

对于每个第一分片

的每个行为数据

均执行以下步骤：

将所述行为数据

依次与所述第二分片

中的，时间顺序在所述行为数据

后的行为数据

按时间差从近到远进行关联查询；当依次关联查询到所述第二分片中存在行为数据

与所述

不存在相互关联时，结束第一分片

与其对应的第二分片

的关联查询。

优选的，所述同行行为判断方法基于分布式并行处理方式实现。

优选的，按监测对象经过所述第i个卡口时间顺序对所述监测数据D_i中的各个行为数据进行排序前，包括以下步骤：

将获取得到的原始监测数据集存于分布式源数据库中；

按时间顺序从分布式源数据库中依次抽取行为数据，缓存到Spark缓存中进行清洗、去重处理。

优选的，按监测对象经过所述第i个卡口时间顺序对所述监测数据D_i中的各个行为数据进行排序，具体包括以下步骤：

将清洗、去重完的原始监测数据集写入HBase，由HBase对清洗、去重后的原始监测数据集中的行为数据排序，并形成以卡口编号、监测对象的编号以及监测对象经过所述卡口的时间为主键字段的HBase数据表；其中，HBase数据表的排序规则为同一卡口编号的行为数据分为一类，并排在一起，且同一类别内行为数据按监测对象经过所述卡口的时间升序进行排序。

优选的，将所述监测数据D_i中每个第一分片

中的行为数据分别与其对应时段的第二分片

中的行为数据进行关联查询前，还包括以下步骤：

对所述HBase数据表的行为数据按卡口编号进行切片，得到各个卡口对应的监测数据分片D₁,D₂,...,D_n；

对于每个卡口对应的监测数据分片D_i，均执行以下步骤：

对所述监测数据分片D_i按预设的第一时间尺度从所述监测数据分片D_i的时间始端开始对从所述监测数据分片D_i进行切片，得到所述监测数据D_i的第一分片集

对所述监测数据分片按预设的第二时间尺度从所述监测数据分片D_i的时间始端开始对从所述监测数据分片D_i进行切片，得到所述监测数据D_i的第二分片集

将预设的各个卡口对应的监测数据分片分发至不同的分布式并行处理单元中，由不同的分布式并行处理单元对其接收到的监测数据分片进行关联查询。

优选的，所述任意一个分布式并行处理单元对接收到的监测数据分片进行关联查询，包括以下步骤：

所述分布式并行处理单元按序抽取其接收到的监测数据分片中的各个第一分片及其对应的第二分片存入自己的ListBuffer中，由自己的ListBuffer按序对各个第一分片及其对应的第二分片中的行为数据进行关联查询，得到其接收到的监测数据分片中监测对象的关联信息。

优选的，根据各个卡口中监测对象的关联信息确定待监测区域中的监测对象是否有同行行为发生，包括以下步骤：

对于任意两个不同编号的监测对象，根据二者在各个卡口的关联信息计算二者的同行时间，判断二者的同行时间是否大于预设的阈值、且存在相互关联的卡口个数是否大于预设阈值，若二者的同行时间大于预设的阈值、且存在相互关联的卡口个数大于预设阈值，则判断二值存在同行行为。

将各个分布式并行处理单元得到的各个监测数据分片中监测对象的关联信息聚合写入Map集合，所述Map集合以存在相互关联的监测对象的编号为Key，以相互关联时的卡口编号及监测对象经过所述编号卡口的时间为Value；

对所述Map集合中的关联信息进行GroupByKey操作，得到相互关联的监测对象共同经过的关联卡口个数及经过关联卡口的时间；

根据相互关联的监测对象经过关联卡口的时间计算相互关联的监测对象的同行时间，判断相互关联的监测对象的同行时间是否大于预设的阈值，且存在相互关联的卡口个数是否大于预设阈值，若相互关联的监测对象的同行时间大于预设的阈值，且存在相互关联的卡口个数大于预设阈值，则判断相互关联的监测对象存在同行行为。

一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。

本发明具有以下有益效果：

1、本发明中的同行行为判断方法及系统，通过获取待监测区域的监测数据集，分别对各个卡口的监测数据按时间进行排序，然后分别对排序完的各个卡口的监测数据进行切片，再分别将各个卡口的监测数据切片后的分片进行自关联，得到各个卡口的对应的各个切片内部的关联对象之间的关联信息，再根据各个卡口的对应的各个切片内部的关联对象之间的关联信息判断待监测区域内的监测对象存在同行行为，相比现有技术，本发明通过对各个卡口的监测数据按时间排序、切片，再对各个切片中的行为数据进行自关联，能减少各个卡口的监测数据中明显不相关的行为数据之间的关联查询，能大大提高同行行为判断的效率。

2、在优选方案中，本发明根据卡口和时间对卡口数据进行切片处理，利用的Spark的分布式并行处理能力，充分利用HBase的排序功能实现了数据的快速关联，由传统的Reduce端连接转变为Map端连接(省却了Shuffle阶段以及Reduce阶段以及由此带来的数据倾斜问题)，实现卡口数据的快速高效的处理。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例中的同行行为判断方法的流程图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

在本实施例中相关术语解释，Hadoop--一种分布式系统基础架构，HDFS--HadoopDistributed File System，HBase--一个分布式的NOSQL数据库，Spark--一个分布式的大数据处理引擎，MapReduce编程模型--一个分布式的大数据计算模型，总共包括三个阶段，分别为Map阶段、Shuffle阶段和Reduce阶段，其中Shuffle和Reduce是可选的，两者同时出现。

实施例一：

本实施中公开了一种同行行为判断方法，包括以下步骤：

获取待监测区域的监测数据集D＝{D₁,D₂,...,D_n}，其中，D_i为待监测区域中第i个卡口的监测数据，i＝1,2,...,n，n为卡口总数，所述监测数据D_i包括在第i个卡口上监测到的各个监测对象的行为数据；所述行为数据包括卡口编号、监测对象的编号以及监测对象经过所述卡口的时间；

其中，

为所述第一分片集中第h序位的第一分片，h＝1,2,...,k，k为第一分片集

分片总数；

为所述第二分片集中第j序位第二分片，j＝1,2,...,m，m为第二分片集

将所述监测数据D_i中每个第一分片

中的行为数据分别与其对应时段的第二分片

此外，在本实施例中，还公开了一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。

本发明中的同行行为判断方法及系统，通过获取待监测区域的监测数据集，分别对各个卡口的监测数据按时间进行排序，然后分别对排序完的各个卡口的监测数据进行切片，再分别将各个卡口的监测数据切片后的分片进行自关联，得到各个卡口的对应的各个切片内部的关联对象之间的关联信息，再根据各个卡口的对应的各个切片内部的关联对象之间的关联信息判断待监测区域内的监测对象存在同行行为，相比现有技术，本发明通过对各个卡口的监测数据按时间排序、切片，再对各个切片中的行为数据进行自关联，能减少各个卡口的监测数据中明显不相关的行为数据之间的关联查询，能大大提高同行行为判断的效率。

实施例二：

如图1所示，在本实施例中，公开一种基于分布式处理的同行行为判断方法，应用与监测同行车辆领域中，通过Spark程序抽取原始卡口数据，然后对数据进行清洗以及去重，接着把数据写入HBase(按卡口id、车辆经过日期时间以及车牌号码做主键进行存储)，同时利用HBase的存储功能实现数据的永久存储，利用HDFS的文件备份功能实现了数据的备份，并根据卡口和时间对卡口数据进行切片处理，利用的Spark的分布式并行处理能力，充分利用HBase的排序功能实现了数据的快速关联，由传统的Reduce端连接转变为Map端连接(省却了Shuffle阶段以及Reduce阶段以及由此带来的数据倾斜问题)，实现卡口数据的快速高效的处理。

其中，本实施例中的同行行为判断方法包括以下步骤：

1、将获取得到的原始监测数据集存于分布式源数据库中，其中，所述原始监测数据集中包括在各个卡口上监测到的各个车辆的行为数据，所述车辆的行为数据包括车牌号以及经过卡口的编号以及经过时间；

2、按时间顺序从分布式源数据库中依次抽取行为数据，缓存到Spark缓存中进行清洗、去重处理。

3、将清洗、去重完的原始监测数据集写入HBase，由HBase对清洗、去重后的原始监测数据集中的行为数据排序，并形成以卡口编号、车牌号以及车辆经过所述卡口的时间为主键字段的HBase数据表；其中，HBase数据表的排序规则为同一卡口编号的行为数据分为一类，并排在一起，且同一类别内行为数据按车辆经过所述卡口的时间升序进行排序。由于HBase本身会对行键进行排序，排序规则为从左到右进行字典升序排序，这所以后续ListBuffer中的数据是按车辆经过时间和车牌号码升序排列的。

4、对所述HBase数据表的行为数据按卡口编号进行切片，得到各个卡口对应的监测数据分片D₁,D₂,...,D_n；

对于每个卡口对应的监测数据分片D_i，均执行以下步骤：

其中，在本实施例中，第一时间尺度设为1h，关联查询阈值为30s，第二时间尺度为1h30s；

设某一监测数据分片D_i监控了第i卡口24h的车辆行为数据；

则需将获取得到的24h的车辆行为数据先按经过的时间进行升序排列；

如省略卡口编号以及车牌号等信息，升序排列举例如下：

车1：0时1分2秒；车2：0时1分30秒；车3：0时59分37秒；车4：：1时0分01秒；

先按1h的时间尺度从当日0点开始将所述监测数据切分成24片；分别得到0-1h的第一分片，1-2h的第一分片，...，23-24h的第一分片；

再按1h30s的时间尺度从当日0点开始将所述监测数据切分成0-1h30s的第二分片，1h30s-2h60s的第二分片...；

5、将预设的各个卡口对应的监测数据分片分发至不同的分布式并行处理单元中，由不同的分布式并行处理单元对其接收到的监测数据分片进行关联查询。

其中，所述任意一个分布式并行处理单元对接收到的监测数据分片进行关联查询，包括以下步骤：

其中，上述步骤具体为：

对于每个第一分片

的每个行为数据

均执行以下步骤：

将所述行为数据

依次与所述第二分片

中的，时间顺序在所述行为数据

后的行为数据

与所述

不存在相互关联时，结束第一分片

与其对应的第二分片

的关联查询。在本实施例中，每一个第一分片均只与其对应的第二分片进行关联查询，并不与其他第二分片进行关联查询。

接上例子：则第一分片上的车辆行为数据为：

车1：0时1分2秒；车2：0时1分30秒；车3：0时59分37秒；

第二分片上的车辆行为数据为：

查询顺序具体为：

将第一分片上的车1与第二分片上的车2先进行关联查询，看是否满足相关关联，若满足，再将第一分片上的车1与第二分片上的车3进行关联查询，若不满足，则结束第一分片上的车1的关联查询；

再将第一分片上的车2与第二分片上的车3先进行关联查询，看是否满足相关关联，若满足，再将第一分片上的车2与第二分片上的车4进行关联查询；若不满足，则结束第一分片上的车2的关联查询；

依次类推，直至所述第一分片上的车辆均查询完。

6、将各个分布式并行处理单元得到的各个监测数据分片中监测对象的关联信息聚合写入Map集合，所述Map集合以存在相互关联的监测对象的编号为Key，以相互关联时的卡口编号及监测对象经过所述编号卡口的时间为Value；

由于本发明卡口数据的存储容量只受分布式存储的容量限制，相比传统的非分布式处理的同行判断方法，大大提高存储容量，此外，本发明采用中的HBase采用了Snappy压缩技术，能进一步减少数据存储空间，且卡口的监测数据存储于分布式存储上，进行的副本的备份，即使数据节点出现问题，也不会丢失数据，再者，通过Spark进行分布式的数据处理，利用集群中的多台服务器同时进行数据处理，使卡口数据处理变得更快更轻松，分布式的存储与处理的可伸缩性也使系统的计算资源的利用更加合理。

综上所述，本发明中的变压器油纸界面性能改性的方法及纳米改性变压器油纸，通过加入纳米粒子抑制油纸界面处空间电荷的积聚现象，缓解变压器油和油浸纸板之间的介电常数差异，进而改变放电在界面处的传播特性，提高变压器油纸界面闪络性能，从而解决现有的变压器油纸复合介质绝缘性能不高的技术问题。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。