CN113807179A - 同行行为判断方法及系统 - Google Patents
同行行为判断方法及系统 Download PDFInfo
- Publication number
- CN113807179A CN113807179A CN202110934096.9A CN202110934096A CN113807179A CN 113807179 A CN113807179 A CN 113807179A CN 202110934096 A CN202110934096 A CN 202110934096A CN 113807179 A CN113807179 A CN 113807179A
- Authority
- CN
- China
- Prior art keywords
- monitoring
- data
- behavior
- monitoring data
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012544 monitoring process Methods 0.000 claims abstract description 227
- 230000006399 behavior Effects 0.000 claims abstract description 116
- 239000012634 fragment Substances 0.000 claims description 57
- 230000000875 corresponding effect Effects 0.000 claims description 35
- 230000002596 correlated effect Effects 0.000 claims description 27
- 230000001174 ascending effect Effects 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 9
- 230000003542 behavioural effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 239000000123 paper Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000002105 nanoparticle Substances 0.000 description 1
- 239000011087 paperboard Substances 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Debugging And Monitoring (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了同行行为判断方法及系统,通过分别对各个卡口的监测数据按时间进行排序,再分别对排序完的各个卡口的监测数据进行切片,再分别将各个卡口的监测数据切片后的分片进行自关联,得到各个卡口的对应的各个切片内部的关联对象之间的关联信息,再根据各个卡口的对应的各个切片内部的关联对象之间的关联信息判断待监测区域内的监测对象存在同行行为,相比现有技术,本发明通过对各个卡口的监测数据按时间排序、切片,再对各个切片中的行为数据进行自关联,能减少各个卡口的监测数据中明显不相关的行为数据之间的关联查询,能大大提高同行行为判断的效率。
Description
技术领域
本发明涉及同行行为追踪技术领域,尤其涉及用于监测行人、车辆以及其他行动物体或生物的同行行为判断方法及系统。
背景技术
现有的同行判断方法在进行卡口数据的关联时,一般需要穷尽搜索各个不同的数据之间的相互关联性来判断同行行为是否发生,这种穷尽搜索的方式需要占用大量的计算机资源,且需要大量的搜索时间实现,进而导致现有的同行判断方法存在计算机资源消耗大、判断慢的问题。
发明内容
本发明提供了同行行为判断方法及系统,用于解决同行判断方法计算机资源消耗大、判断慢的技术问题。
为解决上述技术问题,本发明提出的技术方案为:
一种同行行为判断方法,包括以下步骤:
获取待监测区域的监测数据集D={D1,D2,...,Dn},其中,Di为待监测区域中第i个卡口的监测数据,i=1,2,...,n,n为卡口总数,所述监测数据Di包括在第i个卡口上监测到的各个监测对象的行为数据;所述行为数据包括卡口编号、监测对象的编号以及监测对象经过所述卡口的时间;
对于所述监测数据集中的任一监测数据Di,均执行以下步骤:
按监测对象经过所述第i个卡口时间顺序对所述监测数据Di中的各个行为数据进行排序;
按预设的第一时间尺度从所述监测数据Di的第一端部开始对排序完的监测数据Di进行切片,得到所述监测数据Di的第一分片集其中,为所述第一分片集中第h序位的第一分片,h=1,2,...,k,k为第一分片集分片总数;
按预设的第二时间尺度从所述第一端部开始对所述监测数据集Di进行切片,得到所述监测数据Di的第二分片集 为所述第二分片集中第j序位第二分片,j=1,2,...,m,m为第二分片集分片总数;其中,第一时间尺度与第二时间尺度之间的差值大于或等于预设的关联查询阈值,且第一时间尺度与第二时间尺度均大于2倍关联查询阈值;
将所述监测数据Di中每个第一分片中的行为数据分别与其对应时段的第二分片中的行为数据进行关联查询,得到所述监测数据Di对应的第i个卡口中监测对象的关联信息;所述关联查询的关联规则为:对于同一卡口的任意两条行为数据,若两个行为数据各自记载的监测对象经过所述卡口时间的差值小于或等于所述关联查询阈值,则判断两个行为数据各自记载的监测对象在所述卡口存在相互关联;
根据各个卡口中监测对象的关联信息确定待监测区域中的监测对象是否有同行行为发生。
优选的,按监测对象经过所述第i个卡口时间顺序对所述监测数据Di中的各个行为数据进行升序排列;将所述监测数据Di中每个第一分片中的行为数据分别与其对应时段的第二分片中的行为数据进行关联查询,具体包括一下步骤:
将所述行为数据依次与所述第二分片中的,时间顺序在所述行为数据后的行为数据按时间差从近到远进行关联查询;当依次关联查询到所述第二分片中存在行为数据与所述不存在相互关联时,结束第一分片与其对应的第二分片的关联查询。
优选的,所述同行行为判断方法基于分布式并行处理方式实现。
优选的,按监测对象经过所述第i个卡口时间顺序对所述监测数据Di中的各个行为数据进行排序前,包括以下步骤:
将获取得到的原始监测数据集存于分布式源数据库中;
按时间顺序从分布式源数据库中依次抽取行为数据,缓存到Spark缓存中进行清洗、去重处理。
优选的,按监测对象经过所述第i个卡口时间顺序对所述监测数据Di中的各个行为数据进行排序,具体包括以下步骤:
将清洗、去重完的原始监测数据集写入HBase,由HBase对清洗、去重后的原始监测数据集中的行为数据排序,并形成以卡口编号、监测对象的编号以及监测对象经过所述卡口的时间为主键字段的HBase数据表;其中,HBase数据表的排序规则为同一卡口编号的行为数据分为一类,并排在一起,且同一类别内行为数据按监测对象经过所述卡口的时间升序进行排序。
对所述HBase数据表的行为数据按卡口编号进行切片,得到各个卡口对应的监测数据分片D1,D2,...,Dn;
对于每个卡口对应的监测数据分片Di,均执行以下步骤:
将预设的各个卡口对应的监测数据分片分发至不同的分布式并行处理单元中,由不同的分布式并行处理单元对其接收到的监测数据分片进行关联查询。
优选的,所述任意一个分布式并行处理单元对接收到的监测数据分片进行关联查询,包括以下步骤:
所述分布式并行处理单元按序抽取其接收到的监测数据分片中的各个第一分片及其对应的第二分片存入自己的ListBuffer中,由自己的ListBuffer按序对各个第一分片及其对应的第二分片中的行为数据进行关联查询,得到其接收到的监测数据分片中监测对象的关联信息。
优选的,根据各个卡口中监测对象的关联信息确定待监测区域中的监测对象是否有同行行为发生,包括以下步骤:
对于任意两个不同编号的监测对象,根据二者在各个卡口的关联信息计算二者的同行时间,判断二者的同行时间是否大于预设的阈值、且存在相互关联的卡口个数是否大于预设阈值,若二者的同行时间大于预设的阈值、且存在相互关联的卡口个数大于预设阈值,则判断二值存在同行行为。
优选的,根据各个卡口中监测对象的关联信息确定待监测区域中的监测对象是否有同行行为发生,包括以下步骤:
将各个分布式并行处理单元得到的各个监测数据分片中监测对象的关联信息聚合写入Map集合,所述Map集合以存在相互关联的监测对象的编号为Key,以相互关联时的卡口编号及监测对象经过所述编号卡口的时间为Value;
对所述Map集合中的关联信息进行GroupByKey操作,得到相互关联的监测对象共同经过的关联卡口个数及经过关联卡口的时间;
根据相互关联的监测对象经过关联卡口的时间计算相互关联的监测对象的同行时间,判断相互关联的监测对象的同行时间是否大于预设的阈值,且存在相互关联的卡口个数是否大于预设阈值,若相互关联的监测对象的同行时间大于预设的阈值,且存在相互关联的卡口个数大于预设阈值,则判断相互关联的监测对象存在同行行为。
一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。
本发明具有以下有益效果:
1、本发明中的同行行为判断方法及系统,通过获取待监测区域的监测数据集,分别对各个卡口的监测数据按时间进行排序,然后分别对排序完的各个卡口的监测数据进行切片,再分别将各个卡口的监测数据切片后的分片进行自关联,得到各个卡口的对应的各个切片内部的关联对象之间的关联信息,再根据各个卡口的对应的各个切片内部的关联对象之间的关联信息判断待监测区域内的监测对象存在同行行为,相比现有技术,本发明通过对各个卡口的监测数据按时间排序、切片,再对各个切片中的行为数据进行自关联,能减少各个卡口的监测数据中明显不相关的行为数据之间的关联查询,能大大提高同行行为判断的效率。
2、在优选方案中,本发明根据卡口和时间对卡口数据进行切片处理,利用的Spark的分布式并行处理能力,充分利用HBase的排序功能实现了数据的快速关联,由传统的Reduce端连接转变为Map端连接(省却了Shuffle阶段以及Reduce阶段以及由此带来的数据倾斜问题),实现卡口数据的快速高效的处理。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例中的同行行为判断方法的流程图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
在本实施例中相关术语解释,Hadoop--一种分布式系统基础架构,HDFS--HadoopDistributed File System,HBase--一个分布式的NOSQL数据库,Spark--一个分布式的大数据处理引擎,MapReduce编程模型--一个分布式的大数据计算模型,总共包括三个阶段,分别为Map阶段、Shuffle阶段和Reduce阶段,其中Shuffle和Reduce是可选的,两者同时出现。
实施例一:
本实施中公开了一种同行行为判断方法,包括以下步骤:
获取待监测区域的监测数据集D={D1,D2,...,Dn},其中,Di为待监测区域中第i个卡口的监测数据,i=1,2,...,n,n为卡口总数,所述监测数据Di包括在第i个卡口上监测到的各个监测对象的行为数据;所述行为数据包括卡口编号、监测对象的编号以及监测对象经过所述卡口的时间;
对于所述监测数据集中的任一监测数据Di,均执行以下步骤:
按监测对象经过所述第i个卡口时间顺序对所述监测数据Di中的各个行为数据进行排序;
按预设的第一时间尺度从所述监测数据Di的第一端部开始对排序完的监测数据Di进行切片,得到所述监测数据Di的第一分片集其中,为所述第一分片集中第h序位的第一分片,h=1,2,...,k,k为第一分片集分片总数;
按预设的第二时间尺度从所述第一端部开始对所述监测数据集Di进行切片,得到所述监测数据Di的第二分片集 为所述第二分片集中第j序位第二分片,j=1,2,...,m,m为第二分片集分片总数;其中,第一时间尺度与第二时间尺度之间的差值大于或等于预设的关联查询阈值,且第一时间尺度与第二时间尺度均大于2倍关联查询阈值;
将所述监测数据Di中每个第一分片中的行为数据分别与其对应时段的第二分片中的行为数据进行关联查询,得到所述监测数据Di对应的第i个卡口中监测对象的关联信息;所述关联查询的关联规则为:对于同一卡口的任意两条行为数据,若两个行为数据各自记载的监测对象经过所述卡口时间的差值小于或等于所述关联查询阈值,则判断两个行为数据各自记载的监测对象在所述卡口存在相互关联;
根据各个卡口中监测对象的关联信息确定待监测区域中的监测对象是否有同行行为发生。
此外,在本实施例中,还公开了一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。
本发明中的同行行为判断方法及系统,通过获取待监测区域的监测数据集,分别对各个卡口的监测数据按时间进行排序,然后分别对排序完的各个卡口的监测数据进行切片,再分别将各个卡口的监测数据切片后的分片进行自关联,得到各个卡口的对应的各个切片内部的关联对象之间的关联信息,再根据各个卡口的对应的各个切片内部的关联对象之间的关联信息判断待监测区域内的监测对象存在同行行为,相比现有技术,本发明通过对各个卡口的监测数据按时间排序、切片,再对各个切片中的行为数据进行自关联,能减少各个卡口的监测数据中明显不相关的行为数据之间的关联查询,能大大提高同行行为判断的效率。
实施例二:
如图1所示,在本实施例中,公开一种基于分布式处理的同行行为判断方法,应用与监测同行车辆领域中,通过Spark程序抽取原始卡口数据,然后对数据进行清洗以及去重,接着把数据写入HBase(按卡口id、车辆经过日期时间以及车牌号码做主键进行存储),同时利用HBase的存储功能实现数据的永久存储,利用HDFS的文件备份功能实现了数据的备份,并根据卡口和时间对卡口数据进行切片处理,利用的Spark的分布式并行处理能力,充分利用HBase的排序功能实现了数据的快速关联,由传统的Reduce端连接转变为Map端连接(省却了Shuffle阶段以及Reduce阶段以及由此带来的数据倾斜问题),实现卡口数据的快速高效的处理。
其中,本实施例中的同行行为判断方法包括以下步骤:
1、将获取得到的原始监测数据集存于分布式源数据库中,其中,所述原始监测数据集中包括在各个卡口上监测到的各个车辆的行为数据,所述车辆的行为数据包括车牌号以及经过卡口的编号以及经过时间;
2、按时间顺序从分布式源数据库中依次抽取行为数据,缓存到Spark缓存中进行清洗、去重处理。
3、将清洗、去重完的原始监测数据集写入HBase,由HBase对清洗、去重后的原始监测数据集中的行为数据排序,并形成以卡口编号、车牌号以及车辆经过所述卡口的时间为主键字段的HBase数据表;其中,HBase数据表的排序规则为同一卡口编号的行为数据分为一类,并排在一起,且同一类别内行为数据按车辆经过所述卡口的时间升序进行排序。由于HBase本身会对行键进行排序,排序规则为从左到右进行字典升序排序,这所以后续ListBuffer中的数据是按车辆经过时间和车牌号码升序排列的。
4、对所述HBase数据表的行为数据按卡口编号进行切片,得到各个卡口对应的监测数据分片D1,D2,...,Dn;
对于每个卡口对应的监测数据分片Di,均执行以下步骤:
其中,在本实施例中,第一时间尺度设为1h,关联查询阈值为30s,第二时间尺度为1h30s;
设某一监测数据分片Di监控了第i卡口24h的车辆行为数据;
则需将获取得到的24h的车辆行为数据先按经过的时间进行升序排列;
如省略卡口编号以及车牌号等信息,升序排列举例如下:
车1:0时1分2秒;车2:0时1分30秒;车3:0时59分37秒;车4::1时0分01秒;
先按1h的时间尺度从当日0点开始将所述监测数据切分成24片;分别得到0-1h的第一分片,1-2h的第一分片,...,23-24h的第一分片;
再按1h30s的时间尺度从当日0点开始将所述监测数据切分成0-1h30s的第二分片,1h30s-2h60s的第二分片...;
5、将预设的各个卡口对应的监测数据分片分发至不同的分布式并行处理单元中,由不同的分布式并行处理单元对其接收到的监测数据分片进行关联查询。
其中,所述任意一个分布式并行处理单元对接收到的监测数据分片进行关联查询,包括以下步骤:
所述分布式并行处理单元按序抽取其接收到的监测数据分片中的各个第一分片及其对应的第二分片存入自己的ListBuffer中,由自己的ListBuffer按序对各个第一分片及其对应的第二分片中的行为数据进行关联查询,得到其接收到的监测数据分片中监测对象的关联信息。
其中,上述步骤具体为:
将所述行为数据依次与所述第二分片中的,时间顺序在所述行为数据后的行为数据按时间差从近到远进行关联查询;当依次关联查询到所述第二分片中存在行为数据与所述不存在相互关联时,结束第一分片与其对应的第二分片的关联查询。在本实施例中,每一个第一分片均只与其对应的第二分片进行关联查询,并不与其他第二分片进行关联查询。
接上例子:则第一分片上的车辆行为数据为:
车1:0时1分2秒;车2:0时1分30秒;车3:0时59分37秒;
第二分片上的车辆行为数据为:
车1:0时1分2秒;车2:0时1分30秒;车3:0时59分37秒;车4::1时0分01秒;
查询顺序具体为:
将第一分片上的车1与第二分片上的车2先进行关联查询,看是否满足相关关联,若满足,再将第一分片上的车1与第二分片上的车3进行关联查询,若不满足,则结束第一分片上的车1的关联查询;
再将第一分片上的车2与第二分片上的车3先进行关联查询,看是否满足相关关联,若满足,再将第一分片上的车2与第二分片上的车4进行关联查询;若不满足,则结束第一分片上的车2的关联查询;
依次类推,直至所述第一分片上的车辆均查询完。
6、将各个分布式并行处理单元得到的各个监测数据分片中监测对象的关联信息聚合写入Map集合,所述Map集合以存在相互关联的监测对象的编号为Key,以相互关联时的卡口编号及监测对象经过所述编号卡口的时间为Value;
对所述Map集合中的关联信息进行GroupByKey操作,得到相互关联的监测对象共同经过的关联卡口个数及经过关联卡口的时间;
根据相互关联的监测对象经过关联卡口的时间计算相互关联的监测对象的同行时间,判断相互关联的监测对象的同行时间是否大于预设的阈值,且存在相互关联的卡口个数是否大于预设阈值,若相互关联的监测对象的同行时间大于预设的阈值,且存在相互关联的卡口个数大于预设阈值,则判断相互关联的监测对象存在同行行为。
由于本发明卡口数据的存储容量只受分布式存储的容量限制,相比传统的非分布式处理的同行判断方法,大大提高存储容量,此外,本发明采用中的HBase采用了Snappy压缩技术,能进一步减少数据存储空间,且卡口的监测数据存储于分布式存储上,进行的副本的备份,即使数据节点出现问题,也不会丢失数据,再者,通过Spark进行分布式的数据处理,利用集群中的多台服务器同时进行数据处理,使卡口数据处理变得更快更轻松,分布式的存储与处理的可伸缩性也使系统的计算资源的利用更加合理。
综上所述,本发明中的变压器油纸界面性能改性的方法及纳米改性变压器油纸,通过加入纳米粒子抑制油纸界面处空间电荷的积聚现象,缓解变压器油和油浸纸板之间的介电常数差异,进而改变放电在界面处的传播特性,提高变压器油纸界面闪络性能,从而解决现有的变压器油纸复合介质绝缘性能不高的技术问题。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种同行行为判断方法,其特征在于,包括以下步骤:
获取待监测区域的监测数据集D={D1,D2,...,Dn},其中,Di为待监测区域中第i个卡口的监测数据,i=1,2,...,n,n为卡口总数,所述监测数据Di包括在第i个卡口上监测到的各个监测对象的行为数据;所述行为数据包括卡口编号、监测对象的编号以及监测对象经过所述卡口的时间;
对于所述监测数据集中的任一监测数据Di,均执行以下步骤:
按监测对象经过所述第i个卡口时间顺序对所述监测数据Di中的各个行为数据进行排序;
按预设的第一时间尺度从所述监测数据Di的第一端部开始对排序完的监测数据Di进行切片,得到所述监测数据Di的第一分片集其中,为所述第一分片集中第h序位的第一分片,h=1,2,...,k,k为第一分片集分片总数;
按预设的第二时间尺度从所述第一端部开始对所述监测数据集Di进行切片,得到所述监测数据Di的第二分片集 为所述第二分片集中第j序位第二分片,j=1,2,...,m,m为第二分片集分片总数;其中,第一时间尺度与第二时间尺度之间的差值大于或等于预设的关联查询阈值,且第一时间尺度与第二时间尺度均大于2倍关联查询阈值;
将所述监测数据Di中每个第一分片中的行为数据分别与其对应时段的第二分片中的行为数据进行关联查询,得到所述监测数据Di对应的第i个卡口中监测对象的关联信息;所述关联查询的关联规则为:对于同一卡口的任意两条行为数据,若两个行为数据各自记载的监测对象经过所述卡口时间的差值小于或等于所述关联查询阈值,则判断两个行为数据各自记载的监测对象在所述卡口存在相互关联;
根据各个卡口中监测对象的关联信息确定待监测区域中的监测对象是否有同行行为发生。
3.根据权利要求1所述的同行行为判断方法,其特征在于,所述同行行为判断方法基于分布式并行处理方式实现。
4.根据权利要求3所述的同行行为判断方法,其特征在于,按监测对象经过所述第i个卡口时间顺序对所述监测数据Di中的各个行为数据进行排序前,包括以下步骤:
将获取得到的原始监测数据集存于分布式源数据库中;
按时间顺序从分布式源数据库中依次抽取行为数据,缓存到Spark缓存中进行清洗、去重处理。
5.根据权利要求4所述的同行行为判断方法,其特征在于,按监测对象经过所述第i个卡口时间顺序对所述监测数据Di中的各个行为数据进行排序,具体包括以下步骤:
将清洗、去重完的原始监测数据集写入HBase,由HBase对清洗、去重后的原始监测数据集中的行为数据排序,并形成以卡口编号、监测对象的编号以及监测对象经过所述卡口的时间为主键字段的HBase数据表;其中,HBase数据表的排序规则为同一卡口编号的行为数据分为一类,并排在一起,且同一类别内行为数据按监测对象经过所述卡口的时间升序进行排序。
对所述HBase数据表的行为数据按卡口编号进行切片,得到各个卡口对应的监测数据分片D1,D2,...,Dn;
对于每个卡口对应的监测数据分片Di,均执行以下步骤:
将预设的各个卡口对应的监测数据分片分发至不同的分布式并行处理单元中,由不同的分布式并行处理单元对其接收到的监测数据分片进行关联查询。
7.根据权利要求6所述的同行行为判断方法,其特征在于,所述任意一个分布式并行处理单元对接收到的监测数据分片进行关联查询,包括以下步骤:
所述分布式并行处理单元按序抽取其接收到的监测数据分片中的各个第一分片及其对应的第二分片存入自己的ListBuffer中,由自己的ListBuffer按序对各个第一分片及其对应的第二分片中的行为数据进行关联查询,得到其接收到的监测数据分片中监测对象的关联信息。
8.根据权利要求1所述的同行行为判断方法,其特征在于,根据各个卡口中监测对象的关联信息确定待监测区域中的监测对象是否有同行行为发生,包括以下步骤:
对于任意两个不同编号的监测对象,根据二者在各个卡口的关联信息计算二者的同行时间,判断二者的同行时间是否大于预设的阈值、且存在相互关联的卡口个数是否大于预设阈值,若二者的同行时间大于预设的阈值、且存在相互关联的卡口个数大于预设阈值,则判断二值存在同行行为。
9.根据权利要求7所述的同行行为判断方法,其特征在于,根据各个卡口中监测对象的关联信息确定待监测区域中的监测对象是否有同行行为发生,包括以下步骤:
将各个分布式并行处理单元得到的各个监测数据分片中监测对象的关联信息聚合写入Map集合,所述Map集合以存在相互关联的监测对象的编号为Key,以相互关联时的卡口编号及监测对象经过所述编号卡口的时间为Value;
对所述Map集合中的关联信息进行GroupByKey操作,得到相互关联的监测对象共同经过的关联卡口个数及经过关联卡口的时间;
根据相互关联的监测对象经过关联卡口的时间计算相互关联的监测对象的同行时间,判断相互关联的监测对象的同行时间是否大于预设的阈值,且存在相互关联的卡口个数是否大于预设阈值,若相互关联的监测对象的同行时间大于预设的阈值,且存在相互关联的卡口个数大于预设阈值,则判断相互关联的监测对象存在同行行为。
10.一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至9任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110934096.9A CN113807179B (zh) | 2021-08-13 | 2021-08-13 | 同行行为判断方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110934096.9A CN113807179B (zh) | 2021-08-13 | 2021-08-13 | 同行行为判断方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113807179A true CN113807179A (zh) | 2021-12-17 |
CN113807179B CN113807179B (zh) | 2024-04-02 |
Family
ID=78943063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110934096.9A Active CN113807179B (zh) | 2021-08-13 | 2021-08-13 | 同行行为判断方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113807179B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102685221A (zh) * | 2012-04-29 | 2012-09-19 | 华北电力大学(保定) | 一种状态监测数据的分布式存储与并行挖掘方法 |
CN108090153A (zh) * | 2017-12-11 | 2018-05-29 | 深圳云天励飞技术有限公司 | 一种搜索方法、装置、电子设备及存储介质 |
WO2018103245A1 (zh) * | 2016-12-08 | 2018-06-14 | 武汉斗鱼网络科技有限公司 | 一种界面卡顿监测方法、装置及可读取存储介质 |
CN108564788A (zh) * | 2018-06-07 | 2018-09-21 | 重庆邮电大学 | 一种基于流式大数据的同行车辆发现方法 |
CN109241052A (zh) * | 2018-07-26 | 2019-01-18 | 山东大学 | 一种基于关联数据的存储方法、装置、介质及设备 |
CN111241122A (zh) * | 2020-01-07 | 2020-06-05 | 广州虎牙科技有限公司 | 任务监测方法、装置、电子设备和可读存储介质 |
CN112182121A (zh) * | 2020-10-27 | 2021-01-05 | 南威软件股份有限公司 | 一种涉车关系发现方法、装置、设备和介质 |
-
2021
- 2021-08-13 CN CN202110934096.9A patent/CN113807179B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102685221A (zh) * | 2012-04-29 | 2012-09-19 | 华北电力大学(保定) | 一种状态监测数据的分布式存储与并行挖掘方法 |
WO2018103245A1 (zh) * | 2016-12-08 | 2018-06-14 | 武汉斗鱼网络科技有限公司 | 一种界面卡顿监测方法、装置及可读取存储介质 |
CN108090153A (zh) * | 2017-12-11 | 2018-05-29 | 深圳云天励飞技术有限公司 | 一种搜索方法、装置、电子设备及存储介质 |
CN108564788A (zh) * | 2018-06-07 | 2018-09-21 | 重庆邮电大学 | 一种基于流式大数据的同行车辆发现方法 |
CN109241052A (zh) * | 2018-07-26 | 2019-01-18 | 山东大学 | 一种基于关联数据的存储方法、装置、介质及设备 |
CN111241122A (zh) * | 2020-01-07 | 2020-06-05 | 广州虎牙科技有限公司 | 任务监测方法、装置、电子设备和可读存储介质 |
CN112182121A (zh) * | 2020-10-27 | 2021-01-05 | 南威软件股份有限公司 | 一种涉车关系发现方法、装置、设备和介质 |
Non-Patent Citations (1)
Title |
---|
徐爱萍;王波;张煦;: "基于HBASE的时空大数据关联查询优化", 计算机应用与软件, no. 06, 15 June 2017 (2017-06-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN113807179B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106534344B (zh) | 一种云平台视频处理系统及其应用方法 | |
CN109213738B (zh) | 一种云存储文件级重复数据删除检索系统及方法 | |
CN104067239A (zh) | 用于数据组块去复制的系统和方法 | |
CN106528717A (zh) | 数据处理方法和系统 | |
CN104978151A (zh) | 基于应用感知的重复数据删除存储系统中的数据重构方法 | |
CN105511812A (zh) | 一种存储系统大数据优化方法及装置 | |
CN110032558B (zh) | 一种数据同步方法、装置、系统及存储介质 | |
CN102799647A (zh) | 网页去重方法和设备 | |
CN109271545B (zh) | 一种特征检索方法及装置、存储介质和计算机设备 | |
CN106874399B (zh) | 一种联网备份系统及备份方法 | |
WO2021012162A1 (zh) | 存储系统数据压缩的方法、装置、设备及可读存储介质 | |
CN106990914B (zh) | 数据删除方法及装置 | |
CN109992469B (zh) | 一种合并日志的方法及装置 | |
CN111428140B (zh) | 高并发数据检索方法、装置、设备及存储介质 | |
CN107085615B (zh) | 文本消重系统、方法、服务器及计算机存储介质 | |
Chen et al. | Compoundeyes: Near-duplicate detection in large scale online video systems in the cloud | |
CN104035822A (zh) | 一种低开销的高效内存去冗余方法及系统 | |
Yadamjav et al. | Querying recurrent convoys over trajectory data | |
CN114244536A (zh) | 一种区块链的业务处理方法、装置、设备及存储介质 | |
CN104156420B (zh) | 事务日志的管理方法和装置 | |
CN111444036B (zh) | 数据关联性感知的纠删码内存替换方法、设备及内存系统 | |
CN113807179A (zh) | 同行行为判断方法及系统 | |
US11789639B1 (en) | Method and apparatus for screening TB-scale incremental data | |
CN111061428B (zh) | 一种数据压缩的方法及装置 | |
CN112328587A (zh) | ElasticSearch的数据处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |