CN113807179A - 同行行为判断方法及系统 - Google Patents

同行行为判断方法及系统 Download PDF

Info

Publication number
CN113807179A
CN113807179A CN202110934096.9A CN202110934096A CN113807179A CN 113807179 A CN113807179 A CN 113807179A CN 202110934096 A CN202110934096 A CN 202110934096A CN 113807179 A CN113807179 A CN 113807179A
Authority
CN
China
Prior art keywords
monitoring
data
behavior
monitoring data
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110934096.9A
Other languages
English (en)
Other versions
CN113807179B (zh
Inventor
植挺生
陈建生
邓超河
吴玉书
刘勇
冼永乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Guangyu Technology Development Co Ltd
Original Assignee
Guangdong Guangyu Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Guangyu Technology Development Co Ltd filed Critical Guangdong Guangyu Technology Development Co Ltd
Priority to CN202110934096.9A priority Critical patent/CN113807179B/zh
Publication of CN113807179A publication Critical patent/CN113807179A/zh
Application granted granted Critical
Publication of CN113807179B publication Critical patent/CN113807179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了同行行为判断方法及系统,通过分别对各个卡口的监测数据按时间进行排序,再分别对排序完的各个卡口的监测数据进行切片,再分别将各个卡口的监测数据切片后的分片进行自关联,得到各个卡口的对应的各个切片内部的关联对象之间的关联信息,再根据各个卡口的对应的各个切片内部的关联对象之间的关联信息判断待监测区域内的监测对象存在同行行为,相比现有技术,本发明通过对各个卡口的监测数据按时间排序、切片,再对各个切片中的行为数据进行自关联,能减少各个卡口的监测数据中明显不相关的行为数据之间的关联查询,能大大提高同行行为判断的效率。

Description

同行行为判断方法及系统
技术领域
本发明涉及同行行为追踪技术领域,尤其涉及用于监测行人、车辆以及其他行动物体或生物的同行行为判断方法及系统。
背景技术
现有的同行判断方法在进行卡口数据的关联时,一般需要穷尽搜索各个不同的数据之间的相互关联性来判断同行行为是否发生,这种穷尽搜索的方式需要占用大量的计算机资源,且需要大量的搜索时间实现,进而导致现有的同行判断方法存在计算机资源消耗大、判断慢的问题。
发明内容
本发明提供了同行行为判断方法及系统,用于解决同行判断方法计算机资源消耗大、判断慢的技术问题。
为解决上述技术问题,本发明提出的技术方案为:
一种同行行为判断方法,包括以下步骤:
获取待监测区域的监测数据集D={D1,D2,...,Dn},其中,Di为待监测区域中第i个卡口的监测数据,i=1,2,...,n,n为卡口总数,所述监测数据Di包括在第i个卡口上监测到的各个监测对象的行为数据;所述行为数据包括卡口编号、监测对象的编号以及监测对象经过所述卡口的时间;
对于所述监测数据集中的任一监测数据Di,均执行以下步骤:
按监测对象经过所述第i个卡口时间顺序对所述监测数据Di中的各个行为数据进行排序;
按预设的第一时间尺度从所述监测数据Di的第一端部开始对排序完的监测数据Di进行切片,得到所述监测数据Di的第一分片集
Figure BDA0003211456990000011
其中,
Figure BDA0003211456990000012
为所述第一分片集中第h序位的第一分片,h=1,2,...,k,k为第一分片集
Figure BDA0003211456990000013
分片总数;
按预设的第二时间尺度从所述第一端部开始对所述监测数据集Di进行切片,得到所述监测数据Di的第二分片集
Figure BDA0003211456990000014
Figure BDA0003211456990000015
为所述第二分片集中第j序位第二分片,j=1,2,...,m,m为第二分片集
Figure BDA0003211456990000016
分片总数;其中,第一时间尺度与第二时间尺度之间的差值大于或等于预设的关联查询阈值,且第一时间尺度与第二时间尺度均大于2倍关联查询阈值;
将所述监测数据Di中每个第一分片
Figure BDA0003211456990000017
中的行为数据分别与其对应时段的第二分片
Figure BDA0003211456990000021
中的行为数据进行关联查询,得到所述监测数据Di对应的第i个卡口中监测对象的关联信息;所述关联查询的关联规则为:对于同一卡口的任意两条行为数据,若两个行为数据各自记载的监测对象经过所述卡口时间的差值小于或等于所述关联查询阈值,则判断两个行为数据各自记载的监测对象在所述卡口存在相互关联;
根据各个卡口中监测对象的关联信息确定待监测区域中的监测对象是否有同行行为发生。
优选的,按监测对象经过所述第i个卡口时间顺序对所述监测数据Di中的各个行为数据进行升序排列;将所述监测数据Di中每个第一分片
Figure BDA0003211456990000022
中的行为数据分别与其对应时段的第二分片
Figure BDA0003211456990000023
中的行为数据进行关联查询,具体包括一下步骤:
对于每个第一分片
Figure BDA0003211456990000024
的每个行为数据
Figure BDA0003211456990000025
均执行以下步骤:
将所述行为数据
Figure BDA0003211456990000026
依次与所述第二分片
Figure BDA0003211456990000027
中的,时间顺序在所述行为数据
Figure BDA0003211456990000028
后的行为数据
Figure BDA0003211456990000029
按时间差从近到远进行关联查询;当依次关联查询到所述第二分片中存在行为数据
Figure BDA00032114569900000210
与所述
Figure BDA00032114569900000211
不存在相互关联时,结束第一分片
Figure BDA00032114569900000212
与其对应的第二分片
Figure BDA00032114569900000213
的关联查询。
优选的,所述同行行为判断方法基于分布式并行处理方式实现。
优选的,按监测对象经过所述第i个卡口时间顺序对所述监测数据Di中的各个行为数据进行排序前,包括以下步骤:
将获取得到的原始监测数据集存于分布式源数据库中;
按时间顺序从分布式源数据库中依次抽取行为数据,缓存到Spark缓存中进行清洗、去重处理。
优选的,按监测对象经过所述第i个卡口时间顺序对所述监测数据Di中的各个行为数据进行排序,具体包括以下步骤:
将清洗、去重完的原始监测数据集写入HBase,由HBase对清洗、去重后的原始监测数据集中的行为数据排序,并形成以卡口编号、监测对象的编号以及监测对象经过所述卡口的时间为主键字段的HBase数据表;其中,HBase数据表的排序规则为同一卡口编号的行为数据分为一类,并排在一起,且同一类别内行为数据按监测对象经过所述卡口的时间升序进行排序。
优选的,将所述监测数据Di中每个第一分片
Figure BDA00032114569900000214
中的行为数据分别与其对应时段的第二分片
Figure BDA00032114569900000215
中的行为数据进行关联查询前,还包括以下步骤:
对所述HBase数据表的行为数据按卡口编号进行切片,得到各个卡口对应的监测数据分片D1,D2,...,Dn
对于每个卡口对应的监测数据分片Di,均执行以下步骤:
对所述监测数据分片Di按预设的第一时间尺度从所述监测数据分片Di的时间始端开始对从所述监测数据分片Di进行切片,得到所述监测数据Di的第一分片集
Figure BDA0003211456990000031
对所述监测数据分片按预设的第二时间尺度从所述监测数据分片Di的时间始端开始对从所述监测数据分片Di进行切片,得到所述监测数据Di的第二分片集
Figure BDA0003211456990000032
将预设的各个卡口对应的监测数据分片分发至不同的分布式并行处理单元中,由不同的分布式并行处理单元对其接收到的监测数据分片进行关联查询。
优选的,所述任意一个分布式并行处理单元对接收到的监测数据分片进行关联查询,包括以下步骤:
所述分布式并行处理单元按序抽取其接收到的监测数据分片中的各个第一分片及其对应的第二分片存入自己的ListBuffer中,由自己的ListBuffer按序对各个第一分片及其对应的第二分片中的行为数据进行关联查询,得到其接收到的监测数据分片中监测对象的关联信息。
优选的,根据各个卡口中监测对象的关联信息确定待监测区域中的监测对象是否有同行行为发生,包括以下步骤:
对于任意两个不同编号的监测对象,根据二者在各个卡口的关联信息计算二者的同行时间,判断二者的同行时间是否大于预设的阈值、且存在相互关联的卡口个数是否大于预设阈值,若二者的同行时间大于预设的阈值、且存在相互关联的卡口个数大于预设阈值,则判断二值存在同行行为。
优选的,根据各个卡口中监测对象的关联信息确定待监测区域中的监测对象是否有同行行为发生,包括以下步骤:
将各个分布式并行处理单元得到的各个监测数据分片中监测对象的关联信息聚合写入Map集合,所述Map集合以存在相互关联的监测对象的编号为Key,以相互关联时的卡口编号及监测对象经过所述编号卡口的时间为Value;
对所述Map集合中的关联信息进行GroupByKey操作,得到相互关联的监测对象共同经过的关联卡口个数及经过关联卡口的时间;
根据相互关联的监测对象经过关联卡口的时间计算相互关联的监测对象的同行时间,判断相互关联的监测对象的同行时间是否大于预设的阈值,且存在相互关联的卡口个数是否大于预设阈值,若相互关联的监测对象的同行时间大于预设的阈值,且存在相互关联的卡口个数大于预设阈值,则判断相互关联的监测对象存在同行行为。
一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。
本发明具有以下有益效果:
1、本发明中的同行行为判断方法及系统,通过获取待监测区域的监测数据集,分别对各个卡口的监测数据按时间进行排序,然后分别对排序完的各个卡口的监测数据进行切片,再分别将各个卡口的监测数据切片后的分片进行自关联,得到各个卡口的对应的各个切片内部的关联对象之间的关联信息,再根据各个卡口的对应的各个切片内部的关联对象之间的关联信息判断待监测区域内的监测对象存在同行行为,相比现有技术,本发明通过对各个卡口的监测数据按时间排序、切片,再对各个切片中的行为数据进行自关联,能减少各个卡口的监测数据中明显不相关的行为数据之间的关联查询,能大大提高同行行为判断的效率。
2、在优选方案中,本发明根据卡口和时间对卡口数据进行切片处理,利用的Spark的分布式并行处理能力,充分利用HBase的排序功能实现了数据的快速关联,由传统的Reduce端连接转变为Map端连接(省却了Shuffle阶段以及Reduce阶段以及由此带来的数据倾斜问题),实现卡口数据的快速高效的处理。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例中的同行行为判断方法的流程图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
在本实施例中相关术语解释,Hadoop--一种分布式系统基础架构,HDFS--HadoopDistributed File System,HBase--一个分布式的NOSQL数据库,Spark--一个分布式的大数据处理引擎,MapReduce编程模型--一个分布式的大数据计算模型,总共包括三个阶段,分别为Map阶段、Shuffle阶段和Reduce阶段,其中Shuffle和Reduce是可选的,两者同时出现。
实施例一:
本实施中公开了一种同行行为判断方法,包括以下步骤:
获取待监测区域的监测数据集D={D1,D2,...,Dn},其中,Di为待监测区域中第i个卡口的监测数据,i=1,2,...,n,n为卡口总数,所述监测数据Di包括在第i个卡口上监测到的各个监测对象的行为数据;所述行为数据包括卡口编号、监测对象的编号以及监测对象经过所述卡口的时间;
对于所述监测数据集中的任一监测数据Di,均执行以下步骤:
按监测对象经过所述第i个卡口时间顺序对所述监测数据Di中的各个行为数据进行排序;
按预设的第一时间尺度从所述监测数据Di的第一端部开始对排序完的监测数据Di进行切片,得到所述监测数据Di的第一分片集
Figure BDA0003211456990000051
其中,
Figure BDA0003211456990000052
为所述第一分片集中第h序位的第一分片,h=1,2,...,k,k为第一分片集
Figure BDA0003211456990000053
分片总数;
按预设的第二时间尺度从所述第一端部开始对所述监测数据集Di进行切片,得到所述监测数据Di的第二分片集
Figure BDA0003211456990000054
Figure BDA0003211456990000055
为所述第二分片集中第j序位第二分片,j=1,2,...,m,m为第二分片集
Figure BDA0003211456990000056
分片总数;其中,第一时间尺度与第二时间尺度之间的差值大于或等于预设的关联查询阈值,且第一时间尺度与第二时间尺度均大于2倍关联查询阈值;
将所述监测数据Di中每个第一分片
Figure BDA0003211456990000057
中的行为数据分别与其对应时段的第二分片
Figure BDA0003211456990000058
中的行为数据进行关联查询,得到所述监测数据Di对应的第i个卡口中监测对象的关联信息;所述关联查询的关联规则为:对于同一卡口的任意两条行为数据,若两个行为数据各自记载的监测对象经过所述卡口时间的差值小于或等于所述关联查询阈值,则判断两个行为数据各自记载的监测对象在所述卡口存在相互关联;
根据各个卡口中监测对象的关联信息确定待监测区域中的监测对象是否有同行行为发生。
此外,在本实施例中,还公开了一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。
本发明中的同行行为判断方法及系统,通过获取待监测区域的监测数据集,分别对各个卡口的监测数据按时间进行排序,然后分别对排序完的各个卡口的监测数据进行切片,再分别将各个卡口的监测数据切片后的分片进行自关联,得到各个卡口的对应的各个切片内部的关联对象之间的关联信息,再根据各个卡口的对应的各个切片内部的关联对象之间的关联信息判断待监测区域内的监测对象存在同行行为,相比现有技术,本发明通过对各个卡口的监测数据按时间排序、切片,再对各个切片中的行为数据进行自关联,能减少各个卡口的监测数据中明显不相关的行为数据之间的关联查询,能大大提高同行行为判断的效率。
实施例二:
如图1所示,在本实施例中,公开一种基于分布式处理的同行行为判断方法,应用与监测同行车辆领域中,通过Spark程序抽取原始卡口数据,然后对数据进行清洗以及去重,接着把数据写入HBase(按卡口id、车辆经过日期时间以及车牌号码做主键进行存储),同时利用HBase的存储功能实现数据的永久存储,利用HDFS的文件备份功能实现了数据的备份,并根据卡口和时间对卡口数据进行切片处理,利用的Spark的分布式并行处理能力,充分利用HBase的排序功能实现了数据的快速关联,由传统的Reduce端连接转变为Map端连接(省却了Shuffle阶段以及Reduce阶段以及由此带来的数据倾斜问题),实现卡口数据的快速高效的处理。
其中,本实施例中的同行行为判断方法包括以下步骤:
1、将获取得到的原始监测数据集存于分布式源数据库中,其中,所述原始监测数据集中包括在各个卡口上监测到的各个车辆的行为数据,所述车辆的行为数据包括车牌号以及经过卡口的编号以及经过时间;
2、按时间顺序从分布式源数据库中依次抽取行为数据,缓存到Spark缓存中进行清洗、去重处理。
3、将清洗、去重完的原始监测数据集写入HBase,由HBase对清洗、去重后的原始监测数据集中的行为数据排序,并形成以卡口编号、车牌号以及车辆经过所述卡口的时间为主键字段的HBase数据表;其中,HBase数据表的排序规则为同一卡口编号的行为数据分为一类,并排在一起,且同一类别内行为数据按车辆经过所述卡口的时间升序进行排序。由于HBase本身会对行键进行排序,排序规则为从左到右进行字典升序排序,这所以后续ListBuffer中的数据是按车辆经过时间和车牌号码升序排列的。
4、对所述HBase数据表的行为数据按卡口编号进行切片,得到各个卡口对应的监测数据分片D1,D2,...,Dn
对于每个卡口对应的监测数据分片Di,均执行以下步骤:
对所述监测数据分片Di按预设的第一时间尺度从所述监测数据分片Di的时间始端开始对从所述监测数据分片Di进行切片,得到所述监测数据Di的第一分片集
Figure BDA0003211456990000071
对所述监测数据分片按预设的第二时间尺度从所述监测数据分片Di的时间始端开始对从所述监测数据分片Di进行切片,得到所述监测数据Di的第二分片集
Figure BDA0003211456990000072
其中,在本实施例中,第一时间尺度设为1h,关联查询阈值为30s,第二时间尺度为1h30s;
设某一监测数据分片Di监控了第i卡口24h的车辆行为数据;
则需将获取得到的24h的车辆行为数据先按经过的时间进行升序排列;
如省略卡口编号以及车牌号等信息,升序排列举例如下:
车1:0时1分2秒;车2:0时1分30秒;车3:0时59分37秒;车4::1时0分01秒;
先按1h的时间尺度从当日0点开始将所述监测数据切分成24片;分别得到0-1h的第一分片,1-2h的第一分片,...,23-24h的第一分片;
再按1h30s的时间尺度从当日0点开始将所述监测数据切分成0-1h30s的第二分片,1h30s-2h60s的第二分片...;
5、将预设的各个卡口对应的监测数据分片分发至不同的分布式并行处理单元中,由不同的分布式并行处理单元对其接收到的监测数据分片进行关联查询。
其中,所述任意一个分布式并行处理单元对接收到的监测数据分片进行关联查询,包括以下步骤:
所述分布式并行处理单元按序抽取其接收到的监测数据分片中的各个第一分片及其对应的第二分片存入自己的ListBuffer中,由自己的ListBuffer按序对各个第一分片及其对应的第二分片中的行为数据进行关联查询,得到其接收到的监测数据分片中监测对象的关联信息。
其中,上述步骤具体为:
对于每个第一分片
Figure BDA0003211456990000073
的每个行为数据
Figure BDA0003211456990000074
均执行以下步骤:
将所述行为数据
Figure BDA0003211456990000075
依次与所述第二分片
Figure BDA0003211456990000076
中的,时间顺序在所述行为数据
Figure BDA0003211456990000077
后的行为数据
Figure BDA0003211456990000078
按时间差从近到远进行关联查询;当依次关联查询到所述第二分片中存在行为数据
Figure BDA0003211456990000079
与所述
Figure BDA00032114569900000710
不存在相互关联时,结束第一分片
Figure BDA00032114569900000711
与其对应的第二分片
Figure BDA00032114569900000712
的关联查询。在本实施例中,每一个第一分片均只与其对应的第二分片进行关联查询,并不与其他第二分片进行关联查询。
接上例子:则第一分片上的车辆行为数据为:
车1:0时1分2秒;车2:0时1分30秒;车3:0时59分37秒;
第二分片上的车辆行为数据为:
车1:0时1分2秒;车2:0时1分30秒;车3:0时59分37秒;车4::1时0分01秒;
查询顺序具体为:
将第一分片上的车1与第二分片上的车2先进行关联查询,看是否满足相关关联,若满足,再将第一分片上的车1与第二分片上的车3进行关联查询,若不满足,则结束第一分片上的车1的关联查询;
再将第一分片上的车2与第二分片上的车3先进行关联查询,看是否满足相关关联,若满足,再将第一分片上的车2与第二分片上的车4进行关联查询;若不满足,则结束第一分片上的车2的关联查询;
依次类推,直至所述第一分片上的车辆均查询完。
6、将各个分布式并行处理单元得到的各个监测数据分片中监测对象的关联信息聚合写入Map集合,所述Map集合以存在相互关联的监测对象的编号为Key,以相互关联时的卡口编号及监测对象经过所述编号卡口的时间为Value;
对所述Map集合中的关联信息进行GroupByKey操作,得到相互关联的监测对象共同经过的关联卡口个数及经过关联卡口的时间;
根据相互关联的监测对象经过关联卡口的时间计算相互关联的监测对象的同行时间,判断相互关联的监测对象的同行时间是否大于预设的阈值,且存在相互关联的卡口个数是否大于预设阈值,若相互关联的监测对象的同行时间大于预设的阈值,且存在相互关联的卡口个数大于预设阈值,则判断相互关联的监测对象存在同行行为。
由于本发明卡口数据的存储容量只受分布式存储的容量限制,相比传统的非分布式处理的同行判断方法,大大提高存储容量,此外,本发明采用中的HBase采用了Snappy压缩技术,能进一步减少数据存储空间,且卡口的监测数据存储于分布式存储上,进行的副本的备份,即使数据节点出现问题,也不会丢失数据,再者,通过Spark进行分布式的数据处理,利用集群中的多台服务器同时进行数据处理,使卡口数据处理变得更快更轻松,分布式的存储与处理的可伸缩性也使系统的计算资源的利用更加合理。
综上所述,本发明中的变压器油纸界面性能改性的方法及纳米改性变压器油纸,通过加入纳米粒子抑制油纸界面处空间电荷的积聚现象,缓解变压器油和油浸纸板之间的介电常数差异,进而改变放电在界面处的传播特性,提高变压器油纸界面闪络性能,从而解决现有的变压器油纸复合介质绝缘性能不高的技术问题。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种同行行为判断方法,其特征在于,包括以下步骤:
获取待监测区域的监测数据集D={D1,D2,...,Dn},其中,Di为待监测区域中第i个卡口的监测数据,i=1,2,...,n,n为卡口总数,所述监测数据Di包括在第i个卡口上监测到的各个监测对象的行为数据;所述行为数据包括卡口编号、监测对象的编号以及监测对象经过所述卡口的时间;
对于所述监测数据集中的任一监测数据Di,均执行以下步骤:
按监测对象经过所述第i个卡口时间顺序对所述监测数据Di中的各个行为数据进行排序;
按预设的第一时间尺度从所述监测数据Di的第一端部开始对排序完的监测数据Di进行切片,得到所述监测数据Di的第一分片集
Figure FDA0003211456980000011
其中,
Figure FDA0003211456980000012
为所述第一分片集中第h序位的第一分片,h=1,2,...,k,k为第一分片集
Figure FDA0003211456980000013
分片总数;
按预设的第二时间尺度从所述第一端部开始对所述监测数据集Di进行切片,得到所述监测数据Di的第二分片集
Figure FDA0003211456980000014
Figure FDA0003211456980000015
为所述第二分片集中第j序位第二分片,j=1,2,...,m,m为第二分片集
Figure FDA0003211456980000016
分片总数;其中,第一时间尺度与第二时间尺度之间的差值大于或等于预设的关联查询阈值,且第一时间尺度与第二时间尺度均大于2倍关联查询阈值;
将所述监测数据Di中每个第一分片
Figure FDA0003211456980000017
中的行为数据分别与其对应时段的第二分片
Figure FDA0003211456980000018
中的行为数据进行关联查询,得到所述监测数据Di对应的第i个卡口中监测对象的关联信息;所述关联查询的关联规则为:对于同一卡口的任意两条行为数据,若两个行为数据各自记载的监测对象经过所述卡口时间的差值小于或等于所述关联查询阈值,则判断两个行为数据各自记载的监测对象在所述卡口存在相互关联;
根据各个卡口中监测对象的关联信息确定待监测区域中的监测对象是否有同行行为发生。
2.根据权利要求1所述的同行行为判断方法,其特征在于,按监测对象经过所述第i个卡口时间顺序对所述监测数据Di中的各个行为数据进行升序排列;将所述监测数据Di中每个第一分片
Figure FDA0003211456980000019
中的行为数据分别与其对应时段的第二分片
Figure FDA00032114569800000110
中的行为数据进行关联查询,具体包括一下步骤:
对于每个第一分片
Figure FDA00032114569800000111
的每个行为数据
Figure FDA00032114569800000112
均执行以下步骤:
将所述行为数据
Figure FDA00032114569800000113
依次与所述第二分片
Figure FDA00032114569800000114
中的,时间顺序在所述行为数据
Figure FDA00032114569800000115
后的行为数据
Figure FDA00032114569800000116
按时间差从近到远进行关联查询;当依次关联查询到所述第二分片中存在行为数据
Figure FDA00032114569800000117
与所述
Figure FDA00032114569800000118
不存在相互关联时,结束第一分片
Figure FDA00032114569800000119
与其对应的第二分片
Figure FDA0003211456980000021
的关联查询。
3.根据权利要求1所述的同行行为判断方法,其特征在于,所述同行行为判断方法基于分布式并行处理方式实现。
4.根据权利要求3所述的同行行为判断方法,其特征在于,按监测对象经过所述第i个卡口时间顺序对所述监测数据Di中的各个行为数据进行排序前,包括以下步骤:
将获取得到的原始监测数据集存于分布式源数据库中;
按时间顺序从分布式源数据库中依次抽取行为数据,缓存到Spark缓存中进行清洗、去重处理。
5.根据权利要求4所述的同行行为判断方法,其特征在于,按监测对象经过所述第i个卡口时间顺序对所述监测数据Di中的各个行为数据进行排序,具体包括以下步骤:
将清洗、去重完的原始监测数据集写入HBase,由HBase对清洗、去重后的原始监测数据集中的行为数据排序,并形成以卡口编号、监测对象的编号以及监测对象经过所述卡口的时间为主键字段的HBase数据表;其中,HBase数据表的排序规则为同一卡口编号的行为数据分为一类,并排在一起,且同一类别内行为数据按监测对象经过所述卡口的时间升序进行排序。
6.根据权利要求5所述的同行行为判断方法,其特征在于,将所述监测数据Di中每个第一分片
Figure FDA0003211456980000022
中的行为数据分别与其对应时段的第二分片
Figure FDA0003211456980000023
中的行为数据进行关联查询前,还包括以下步骤:
对所述HBase数据表的行为数据按卡口编号进行切片,得到各个卡口对应的监测数据分片D1,D2,...,Dn
对于每个卡口对应的监测数据分片Di,均执行以下步骤:
对所述监测数据分片Di按预设的第一时间尺度从所述监测数据分片Di的时间始端开始对从所述监测数据分片Di进行切片,得到所述监测数据Di的第一分片集
Figure FDA0003211456980000024
对所述监测数据分片按预设的第二时间尺度从所述监测数据分片Di的时间始端开始对从所述监测数据分片Di进行切片,得到所述监测数据Di的第二分片集
Figure FDA0003211456980000031
将预设的各个卡口对应的监测数据分片分发至不同的分布式并行处理单元中,由不同的分布式并行处理单元对其接收到的监测数据分片进行关联查询。
7.根据权利要求6所述的同行行为判断方法,其特征在于,所述任意一个分布式并行处理单元对接收到的监测数据分片进行关联查询,包括以下步骤:
所述分布式并行处理单元按序抽取其接收到的监测数据分片中的各个第一分片及其对应的第二分片存入自己的ListBuffer中,由自己的ListBuffer按序对各个第一分片及其对应的第二分片中的行为数据进行关联查询,得到其接收到的监测数据分片中监测对象的关联信息。
8.根据权利要求1所述的同行行为判断方法,其特征在于,根据各个卡口中监测对象的关联信息确定待监测区域中的监测对象是否有同行行为发生,包括以下步骤:
对于任意两个不同编号的监测对象,根据二者在各个卡口的关联信息计算二者的同行时间,判断二者的同行时间是否大于预设的阈值、且存在相互关联的卡口个数是否大于预设阈值,若二者的同行时间大于预设的阈值、且存在相互关联的卡口个数大于预设阈值,则判断二值存在同行行为。
9.根据权利要求7所述的同行行为判断方法,其特征在于,根据各个卡口中监测对象的关联信息确定待监测区域中的监测对象是否有同行行为发生,包括以下步骤:
将各个分布式并行处理单元得到的各个监测数据分片中监测对象的关联信息聚合写入Map集合,所述Map集合以存在相互关联的监测对象的编号为Key,以相互关联时的卡口编号及监测对象经过所述编号卡口的时间为Value;
对所述Map集合中的关联信息进行GroupByKey操作,得到相互关联的监测对象共同经过的关联卡口个数及经过关联卡口的时间;
根据相互关联的监测对象经过关联卡口的时间计算相互关联的监测对象的同行时间,判断相互关联的监测对象的同行时间是否大于预设的阈值,且存在相互关联的卡口个数是否大于预设阈值,若相互关联的监测对象的同行时间大于预设的阈值,且存在相互关联的卡口个数大于预设阈值,则判断相互关联的监测对象存在同行行为。
10.一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至9任一所述方法的步骤。
CN202110934096.9A 2021-08-13 2021-08-13 同行行为判断方法及系统 Active CN113807179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110934096.9A CN113807179B (zh) 2021-08-13 2021-08-13 同行行为判断方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110934096.9A CN113807179B (zh) 2021-08-13 2021-08-13 同行行为判断方法及系统

Publications (2)

Publication Number Publication Date
CN113807179A true CN113807179A (zh) 2021-12-17
CN113807179B CN113807179B (zh) 2024-04-02

Family

ID=78943063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110934096.9A Active CN113807179B (zh) 2021-08-13 2021-08-13 同行行为判断方法及系统

Country Status (1)

Country Link
CN (1) CN113807179B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102685221A (zh) * 2012-04-29 2012-09-19 华北电力大学(保定) 一种状态监测数据的分布式存储与并行挖掘方法
CN108090153A (zh) * 2017-12-11 2018-05-29 深圳云天励飞技术有限公司 一种搜索方法、装置、电子设备及存储介质
WO2018103245A1 (zh) * 2016-12-08 2018-06-14 武汉斗鱼网络科技有限公司 一种界面卡顿监测方法、装置及可读取存储介质
CN108564788A (zh) * 2018-06-07 2018-09-21 重庆邮电大学 一种基于流式大数据的同行车辆发现方法
CN109241052A (zh) * 2018-07-26 2019-01-18 山东大学 一种基于关联数据的存储方法、装置、介质及设备
CN111241122A (zh) * 2020-01-07 2020-06-05 广州虎牙科技有限公司 任务监测方法、装置、电子设备和可读存储介质
CN112182121A (zh) * 2020-10-27 2021-01-05 南威软件股份有限公司 一种涉车关系发现方法、装置、设备和介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102685221A (zh) * 2012-04-29 2012-09-19 华北电力大学(保定) 一种状态监测数据的分布式存储与并行挖掘方法
WO2018103245A1 (zh) * 2016-12-08 2018-06-14 武汉斗鱼网络科技有限公司 一种界面卡顿监测方法、装置及可读取存储介质
CN108090153A (zh) * 2017-12-11 2018-05-29 深圳云天励飞技术有限公司 一种搜索方法、装置、电子设备及存储介质
CN108564788A (zh) * 2018-06-07 2018-09-21 重庆邮电大学 一种基于流式大数据的同行车辆发现方法
CN109241052A (zh) * 2018-07-26 2019-01-18 山东大学 一种基于关联数据的存储方法、装置、介质及设备
CN111241122A (zh) * 2020-01-07 2020-06-05 广州虎牙科技有限公司 任务监测方法、装置、电子设备和可读存储介质
CN112182121A (zh) * 2020-10-27 2021-01-05 南威软件股份有限公司 一种涉车关系发现方法、装置、设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐爱萍;王波;张煦;: "基于HBASE的时空大数据关联查询优化", 计算机应用与软件, no. 06, 15 June 2017 (2017-06-15) *

Also Published As

Publication number Publication date
CN113807179B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN106534344B (zh) 一种云平台视频处理系统及其应用方法
CN109213738B (zh) 一种云存储文件级重复数据删除检索系统及方法
CN104067239A (zh) 用于数据组块去复制的系统和方法
CN106528717A (zh) 数据处理方法和系统
CN104978151A (zh) 基于应用感知的重复数据删除存储系统中的数据重构方法
CN105511812A (zh) 一种存储系统大数据优化方法及装置
CN110032558B (zh) 一种数据同步方法、装置、系统及存储介质
CN102799647A (zh) 网页去重方法和设备
CN109271545B (zh) 一种特征检索方法及装置、存储介质和计算机设备
CN106874399B (zh) 一种联网备份系统及备份方法
WO2021012162A1 (zh) 存储系统数据压缩的方法、装置、设备及可读存储介质
CN106990914B (zh) 数据删除方法及装置
CN109992469B (zh) 一种合并日志的方法及装置
CN111428140B (zh) 高并发数据检索方法、装置、设备及存储介质
CN107085615B (zh) 文本消重系统、方法、服务器及计算机存储介质
Chen et al. Compoundeyes: Near-duplicate detection in large scale online video systems in the cloud
CN104035822A (zh) 一种低开销的高效内存去冗余方法及系统
Yadamjav et al. Querying recurrent convoys over trajectory data
CN114244536A (zh) 一种区块链的业务处理方法、装置、设备及存储介质
CN104156420B (zh) 事务日志的管理方法和装置
CN111444036B (zh) 数据关联性感知的纠删码内存替换方法、设备及内存系统
CN113807179A (zh) 同行行为判断方法及系统
US11789639B1 (en) Method and apparatus for screening TB-scale incremental data
CN111061428B (zh) 一种数据压缩的方法及装置
CN112328587A (zh) ElasticSearch的数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant