CN107590250A - 一种时空轨迹生成方法及装置 - Google Patents

一种时空轨迹生成方法及装置 Download PDF

Info

Publication number
CN107590250A
CN107590250A CN201710842329.6A CN201710842329A CN107590250A CN 107590250 A CN107590250 A CN 107590250A CN 201710842329 A CN201710842329 A CN 201710842329A CN 107590250 A CN107590250 A CN 107590250A
Authority
CN
China
Prior art keywords
space
data
time
measurement systems
typing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710842329.6A
Other languages
English (en)
Inventor
史超
林国强
顾鹏
周彦凡
王曦
邝杰
余恩明
陈建平
卢天雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU HUIZHI COMMUNICATION TECHNOLOGY CO LTD
Original Assignee
GUANGZHOU HUIZHI COMMUNICATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU HUIZHI COMMUNICATION TECHNOLOGY CO LTD filed Critical GUANGZHOU HUIZHI COMMUNICATION TECHNOLOGY CO LTD
Priority to CN201710842329.6A priority Critical patent/CN107590250A/zh
Publication of CN107590250A publication Critical patent/CN107590250A/zh
Pending legal-status Critical Current

Links

Abstract

本申请公开了一种时空轨迹生成方法,包括:获取数据采集对象的原始数据;根据原始数据生成时空轨迹数据;将时空轨迹数据录入至HBase分布式数据库集群中;根据用户输入的查询条件,分区并发对时空轨迹数据进行碰撞分析和/或伴随分析,生成目标时空轨迹。本申请利用HBase分布式数据库技术,可以对海量数据分区并发进行分析以生成时空轨迹,进而有效地提高时空轨迹的生成速度和精度。本申请还公开了一种时空轨迹生成装置,同样具有上述有益效果。

Description

一种时空轨迹生成方法及装置
技术领域
本申请涉及数据挖掘领域,特别涉及一种时空轨迹生成方法及装置。
背景技术
随着社会的快速发展,数据挖掘已经在安防、市场分析等方面发挥着巨大作用;而时空轨迹的挖掘作为其中一个重要的分支有着举足轻重的地位。
时空轨迹是移动对象的位置和时间的记录序列。通过对各种时空轨迹数据进行分析,可以得到时空轨迹数据中的相似特征和异常特征,进而有助于用户从中发现有意义的信息。例如,通过对乘客的时空轨迹进行分析可以为交通管理提供合理策略、通过对出入犯罪活动地点附近的人群进行时空轨迹分析可以帮助公安刑警进行嫌疑人侦查等。
现有技术在对数据采集对象进行时空轨迹分析时,其处理过程一般为:首先从互联网、各大运营商等处获取数据采集对象的原始数据,然后对原始数据进行清洗和过滤等预处理过程,并保存到Oracle数据库中,以便结合地理位置信息生成用户想要的目标对象的时空轨迹。由于现有技术是采用传统的Oracle数据库技术来生成时空轨迹,所以处理速度和能力十分有限,并因此无法对海量数据进行很好地处理,导致精度较低。在当今信息爆炸时代,由于互联网和移动设备的盛行,数据量越来越大,因此,对于海量数据而言,传统的时空轨迹生成方法的速度和精度显然达不到时代要求,有待得到提高。
发明内容
本申请的目的在于提供一种时空轨迹生成方法及装置,以便有效地提高时空轨迹的生成速度和精度,提高用户体验。
为解决上述技术问题,本申请提供一种时空轨迹生成方法,包括:
获取数据采集对象的原始数据;
根据所述原始数据生成时空轨迹数据;
将所述时空轨迹数据录入至HBase分布式数据库集群中;
根据用户输入的查询条件,分区并发对所述时空轨迹数据进行碰撞分析和/或伴随分析,生成目标时空轨迹。
可选地,所述时空轨迹数据包括标签数据和时空数据;
所述根据所述原始数据生成时空轨迹数据包括:
根据所述原始数据中的属性信息,生成所述标签数据;
根据所述原始数据中的时空信息,采用GeoHash算法生成GeoHash数据;根据所述GeoHash数据和时间粒度,生成所述时空数据;
所述将所述时空轨迹数据录入至HBase分布式数据库集群中包括:
将所述标签数据录入至所述HBase分布式数据库集群中的标签库;
将所述时空数据录入至所述HBase分布式数据库集群中的时空库。
可选地,所述根据所述原始数据中的时空信息,采用GeoHash算法生成GeoHash数据包括:
根据所述原始数据的时空信息,采用6级编码的GeoHash算法生成6位的GeoHash数据。
可选地,所述时间粒度为1小时或者10分钟。
可选地,在所述根据所述GeoHash数据和时间粒度,生成所述时空数据之后、所述将所述时空数据录入至所述HBase分布式数据库集群中的时空库之前还包括:
将所述时空数据录入kafka数据缓冲平台中;
所述将所述时空数据录入至所述HBase分布式数据库集群中的时空库包括:
将从所述kafka数据缓冲平台中取出的所述时空数据录入至所述HBase分布式数据库集群中的时空库。
可选地,所述将所述标签数据录入至所述HBase分布式数据库集群中的标签库包括:
将所述标签数据复制到HDFS中;运行MapReduce任务,将所述HDFS中的标签数据录入至所述HBase分布式数据库集群中的标签库;
所述将所述时空数据录入至所述HBase分布式数据库集群中的时空库包括:
利用Snappy压缩工具包将所述时空数据进行压缩;将压缩后的时空数据录入至所述HBase分布式数据库集群中的时空库。
可选地,在所述将所述HDFS中的标签数据录入至所述HBase分布式数据库集群中的标签库之后还包括:
采用Bitmap技术建立标签库索引表;以便利用所述标签库索引表,分区并发对所述标签数据进行碰撞分析和/或伴随分析;
在所述将压缩后的时空数据录入至所述HBase分布式数据库集群中的时空库之后还包括:
采用Bitmap技术建立时空库索引表;以便利用所述时空库索引表,分区并发对所述时空数据进行碰撞分析和/或伴随分析。
本申请还提供了一种时空轨迹生成装置,包括:
获取模块:用于获取数据采集对象的原始数据;
生成模块:用于根据所述原始数据生成时空轨迹数据;
录入模块:用于将所述时空轨迹数据录入至HBase分布式数据库集群中;
查询模块:用于根据用户输入的查询条件,分区并发对所述时空轨迹数据进行碰撞分析和/或伴随分析,生成目标时空轨迹。
可选地,所述时空轨迹数据包括标签数据和时空数据;
所述生成模块具体用于:
根据所述原始数据中的属性信息,生成所述标签数据;
根据所述原始数据中的时空信息,采用GeoHash算法生成GeoHash数据;根据所述GeoHash数据和时间粒度,生成所述时空数据;
所述录入模块具体用于:
将所述标签数据录入至所述HBase分布式数据库集群中的标签库;
将所述时空数据录入至所述HBase分布式数据库集群中的时空库。
可选地,所述录入模块还用于:
在所述将所述标签数据录入至所述HBase分布式数据库集群中的标签库中之后,采用Bitmap技术建立标签库索引表;以便查询模块利用所述标签库索引表,分区并发对所述标签数据进行碰撞分析和/或伴随分析;
在所述将所述时空数据录入至所述HBase分布式数据库集群中的时空库中之后,采用Bitmap技术建立时空库索引表;以便查询模块利用所述时空库索引表,分区并发对所述时空数据进行碰撞分析和/或伴随分析。
本申请所提供的时空轨迹生成方法包括:获取数据采集对象的原始数据;根据原始数据生成时空轨迹数据;将时空轨迹数据录入至HBase分布式数据库集群中;根据用户输入的查询条件,分区并发对时空轨迹数据进行碰撞分析和/或伴随分析,生成目标时空轨迹。
可见,相比于现有技术,本申请所提供的时空轨迹生成方法中,通过运用HBase分布式数据库技术,对时空轨迹数据的碰撞分析和/或伴随分析可以分区并发进行,以便快速生成目标时空轨迹;同时,处理能力的提高使得可以对海量数据进行处理,保证了处理结果的精度。由此可见,本申请所提供的时空轨迹生成方法可以极大地提高时空轨迹的生成速度和精度。本申请所提供的时空轨迹生成装置可以实现上述时空轨迹生成方法,同样具有上述有益效果。
附图说明
为了更清楚地说明现有技术和本申请实施例中的技术方案,下面将对现有技术和本申请实施例描述中需要使用的附图作简要的介绍。当然,下面有关本申请实施例的附图描述的仅仅是本申请中的一部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图,所获得的其他附图也属于本申请的保护范围。
图1为本申请实施例所提供的一种时空轨迹生成方法的流程图;
图2为本申请实施例所提供的一种时空轨迹生成装置的结构框图。
具体实施方式
本申请的核心在于提供一种时空轨迹生成方法及装置,以便有效地提高时空轨迹的生成速度和精度,提高用户体验。
为了对本申请实施例中的技术方案进行更加清楚、完整地描述,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行介绍。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种时空轨迹生成方法的流程图,主要包括以下步骤:
步骤1:获取数据采集对象的原始数据。
在当今信息爆炸时代,互联网、通信运营商是主要的数据源。从这些数据源中可以获取到数据采集对象的原始数据。所说的原始数据可以包括多种数据,例如数据采集对象在道路监控摄像头中的视频数据、通话数据等等,只要其中包含有数据采集对象的位置和时间信息即可,本申请实施例对此并不进行限定。
步骤2:根据原始数据生成时空轨迹数据。
原始数据往往需要进一步提取才能得到与时空轨迹相关的信息,并且,原始数据中一般都存在有许多干扰信息或者无用信息,因此,当获取到原始数据之后需要进一步生成时空轨迹数据,以便在后续步骤中根据时空轨迹数据来生成时空轨迹。
步骤3:将时空轨迹数据录入至HBase分布式数据库集群中。
HBase分布式数据库是一种高可靠、高性能、面向列并且可伸缩的分布式数据库,可采用Hadoop分布式系统基础架构,搭建起大规模结构化存储集群,以便存储海量数据。由于HBase是面向列的并且是进行分布式存储的,可以进行分区并发数据处理,因而可以大大提高数据处理速度,使得原本几十分钟甚至几个小时的运算时间缩短至几秒钟。
需要说明的是,HBase作为一种开源数据库,其具体存储时空轨迹数据的方式和结构可由本领域技术人员自行选择并实现,本申请实施例对此并不进行限定。
步骤4:根据用户输入的查询条件,分区并发对时空轨迹数据进行碰撞分析和/或伴随分析,生成目标时空轨迹。
碰撞分析和伴随分析是时空轨迹数据挖掘过程中的常用技术手段。通过分区并发对时空轨迹数据进行碰撞分析和/或伴随分析,可以生成用户想要查询的目标对象的目标时空轨迹,以便用户从中获取有用信息加以利用。
可见,本申请实施例所提供的时空轨迹生成方法中,通过运用HBase分布式数据库技术,使得可以对海量时空轨迹数据的碰撞分析或者伴随分析分区并发进行,以便快速生成目标时空轨迹,同时,海量的数据保证了数据处理的精度。由此可见,本申请所提供的时空轨迹生成方法可以极大地提高时空轨迹的生成速度和精度。
本申请所提供的时空轨迹生成方法,在上述实施例的基础上:
作为一种优选实施例,时空轨迹数据包括标签数据和时空数据;
根据原始数据生成时空轨迹数据包括:
根据原始数据中的属性信息,生成标签数据;
根据原始数据中的时空信息,采用GeoHash算法生成GeoHash数据;根据GeoHash数据和时间粒度,生成时空数据;
将时空轨迹数据录入至HBase分布式数据库集群中包括:
将标签数据录入至HBase分布式数据库集群中的标签库;
将时空数据录入至HBase分布式数据库集群中的时空库。
具体地,可以对原始数据进行属性区分,得到两维的时空轨迹数据。所说的两维的时空轨迹数据包括标签数据和时空数据。标签数据表征的是属性信息,例如区域A为某个五星级酒店、某人为中年男子等;时空数据表征的时空信息,例如某人在某个时间节点出现在了某个区域。传统的Oracle数据库中的时空轨迹数据是简单的一维数据,所以在生成目标时空轨迹时往往需要多重运算,极其耗费时间;而本申请实施例将原始数据重构成两维的时空轨迹数据,有利于碰撞分析/伴随分析的进行,提高时空轨迹生成速度。
在标签数据具体生成过程中,可以首先依据原始数据中的属性信息生成kv格式的多行数据,然后将kv格式的数据合并生成kv,v,v,v格式的标签数据。
表1
MinCaptureTime 标签最早捕获时间
MaxCaptureTime 标签最晚捕获时间
Counts 捕获次数
TimeFrame 时效性
TagSource 标签来源
TagType 标签类别
TagValue 标签值
TagConfidenceLevel 标签置信度
标签数据本身具有TimeFrame(时效性)、TagConfidenceLevel(置信度)和TagType(标签类别)等多条属性。时效性是指标签数据生效的时间范围,例如,1月1日至1月31日这一期间可记为T1,2月1日至2月28日这一期间可记为T2,依次类推;置信度是指经过该标签数据得到的结果的可信度,一般可保留至小数后两位,范围为0.00~0.99;标签类别指的是标签数据的类别,例如,具体可将标签数据分为事实标签、基础模型标签和高级模型标签,其中,事实标签指的是从原始数据抽取的未经过统计分析的标签数据,基础模型标签指的是经过统计分析与具体业务无关的标签数据,高级模型标签指的是经过统计、碰撞和深度挖掘等分析并与具体业务相关联的标签数据。除此之外,标签数据还有一些其他属性,如表1所示。
根据表1所示的各项属性,标签数据具体可以采用如下所示的元结构,以string的形式进行存储:
MinCaptureTime_MaxCaptureTime_Counts_TimeFrame_TagSource_TagType_TagValue_TagConfidenceLevel。
当然,本领域技术人员还可以设计并采用其他元结构的标签数据,本申请实施例对此并不进行限定。
另一方面,在生成时空数据时,依据的是原始数据中的时空信息。生成时空数据时具体所利用的技术是GeoHash技术。GeoHash是一种将表征位置信息的经度和纬度转化成字符串的算法,可以将地图分为许多网格,每个网格用一个字符串即GeoHash数据表示,字符串越长,网格就越小,数据就越精确。一般在生成时空数据时,首先会对原始数据进行修复和过滤等预处理,然后再利用GeoHash算法生成GeoHash数据,最后再结合时间粒度生成时空数据。时间粒度是处理时空轨迹数据的时间单位,GeoHash技术解决了数据中空间信息的转化,再结合时间粒度,融入时间信息,即可生成时空数据。
时空数据本身具有Time(时间)和Space(空间)属性,因此其可以具体可以采用如下所示的元结构,以string的形式进行存储:
Time_Space;
例如,采用10分钟时间粒度的时空数据“201707301440_wm73kg”表示其描述对象于2017年7月30日14点40分至50分期间在区域wm73kg出现过;采用1小时时间粒度的时空数据“2017070211_wsfr1e”表示其描述对象于2017年7月2日11点至12点期间在区域wsfr1e出现过。
当然,本领域技术人员还可以设计并采用其他元结构的时空数据,本申请实施例对此并不进行限定。
生成标签数据和时空数据之后,可以将两者分别录入并以相应的结构储存在标签库和时空库中。其中,由于同一数据采集对象会有不同的标签数据,因此,在HBase分布式数据库的标签库中,可以将同一数据采集对象不同的标签数据存储在同一行的不同列中,则标签库的存储结构如表2所示:
表2
另一方面,类似地,在HBase分布式数据库的时空库中,同样可以将同一数据采集对象不同的时空数据存储在同一行的不同列中,则时空库的存储结构如表3所示:
表3
其中,IdentificationCode是标签/时空数据所描述的对象的标识,具体可以为该描述对象的手机号码、编码或者身份证号码等,并且,在标签/时空数据的存储结构中还可以设置一列IdentificationType信息用以说明该标识的标识类型,本领域技术人员可以自行选择并设置,本申请实施例对此并不进行限定。
作为一种优选实施例,根据原始数据中的时空信息,采用GeoHash算法生成GeoHash数据包括:
根据原始数据的时空信息,采用6级编码的GeoHash算法生成6位的GeoHash数据。
具体地,在将位置表示成网格编码的GeoHash数据时,如果网格太大,则位置信息不精确,如果网格太小,则会造成数据量和冗余信息剧增,因此,优选地,可以采用6级编码的GeoHash算法生成6位的GeoHash数据。
作为一种优选实施例,时间粒度为1小时或者10分钟。
具体地,时间粒度过大会造成信息不精确,过小会使得数据量和冗余信息剧增,因此可以将时间粒度设为1小时或者10分钟,在一些对时间要求很精确的应用中,可以设为10分钟,而对于一些相对要求宽松的应用中,可以设为1小时。
作为一种优选实施例,在根据GeoHash数据和时间粒度,生成时空数据之后、将时空数据录入至HBase分布式数据库集群中的时空库之前还包括:
将时空数据录入kafka数据缓冲平台中;
将时空数据录入至HBase分布式数据库集群中的时空库包括:
将从kafka数据缓冲平台中取出的时空数据录入至HBase分布式数据库集群中的时空库。
具体地,kafka数据缓冲平台是一个高吞吐量的分布式发布订阅消息系统,它可以处理系统中的所有动作流数据。将时空数据放在kafka数据缓存平台,在异常情况发生时可以补录数据,进而增强系统可用性和数据安全性。
作为一种优选实施例,将标签数据录入至HBase分布式数据库集群中的标签库包括:
将标签数据复制到HDFS中;运行MapReduce任务,将HDFS中的标签数据录入至HBase分布式数据库集群中的标签库;
将时空数据录入至HBase分布式数据库集群中的时空库包括:
利用Snappy压缩工具包将时空数据进行压缩;将压缩后的时空数据录入至HBase分布式数据库集群中的时空库。
具体地,HDFS是Hadoop分布式系统基础框架的分布式文件系统。将标签数据汇总至HDFS可以便于标签数据的录入。MapReduce是Hadoop分布式系统基础框架中的运算框架,将一个运算分成许多子运算并发布到集群中执行,执行结果进行归集,然后再对结果集进行二次预算,极大提高运算的效率,适用于对海量数据做分析。通过运行MapReduce任务,可以将HDFS中的标签数据录入至HBase分布式数据库集群中的标签库。
另一方面,将时空数据录入到时空之前,需要将其压缩成适应的格式。这里可以采用性能较好的Snappy压缩工具包进行压缩,当然也可以采用其他压缩手段,本申请实施例对此并不进行限定。
作为一种优选实施例,在将HDFS中的标签数据录入至HBase分布式数据库集群中的标签库之后还包括:
采用Bitmap技术建立标签库索引表;以便利用标签库索引表,分区并发对标签数据进行碰撞分析和/或伴随分析;
在将压缩后的时空数据录入至HBase分布式数据库集群中的时空库之后还包括:
采用Bitmap技术建立时空库索引表;以便利用时空库索引表,分区并发对时空数据进行碰撞分析和/或伴随分析。
具体地,Bitmap即位图算法,它可以实现使用一个bit来表示某个元素对应的值。由于Bitmap采用bit为单位来存储数据,因此可以大大节省存储空间。在将标签/时空数据录入到标签/时空库中之后,为了便于在碰撞/伴随分析时快速查找到相应的标签/时空数据,可以采用Bitmap技术建立标签/时空库索引表,加速查询过程。所说的标签库索引表和时空库索引表分别如表4和表5所示。
表4
标签数据1_1 IdentificationCode1
标签数据1_2 IdentificationCode1
表5
时空数据1_1 IdentificationCode1
时空数据1_2 IdentificationCode1
下面对本申请实施例所提供的时空轨迹生成装置进行介绍。
请参阅图2,图2为本申请所提供的一种时空轨迹生成装置的结构框图;包括获取模块1、生成模块2、录入模块3和查询模块4。
获取模块1主要用于获取数据采集对象的原始数据;
生成模块2主要用于根据原始数据生成时空轨迹数据;
录入模块3主要用于将时空轨迹数据录入至HBase分布式数据库集群中;
查询模块4主要用于根据用户输入的查询条件,分区并发对时空轨迹数据进行碰撞分析和/或伴随分析,生成目标时空轨迹。
可见,本申请所提供的时空轨迹生成装置,通过录入模块3将时空轨迹数据录入至HBase分布式数据库集群中,并由查询模块4对HBase分布式数据库集群中的时空轨迹数据进行分区并发分析处理,因此可以极大地提高对海量数据的处理能力,因此可以有效提高时空轨迹的生成速度和精度。
本申请所提供的时空轨迹生成装置,在上述实施例的基础上:
作为一种优选实施例,时空轨迹数据包括标签数据和时空数据;
生成模块2具体用于:
根据原始数据中的属性信息,生成标签数据;
根据原始数据中的时空信息,采用GeoHash算法生成GeoHash数据;根据GeoHash数据和时间粒度,生成时空数据;
录入模块3具体用于:
将标签数据录入至HBase分布式数据库集群中的标签库;
将时空数据录入至HBase分布式数据库集群中的时空库。
作为一种优选实施例,录入模块3还用于:
在将标签数据录入至HBase分布式数据库集群中的标签库中之后,采用Bitmap技术建立标签库索引表;以便查询模块4利用标签库索引表,分区并发对标签数据进行碰撞分析和/或伴随分析;
在将时空数据录入至HBase分布式数据库集群中的时空库中之后,采用Bitmap技术建立时空库索引表;以便查询模块4利用时空库索引表,分区并发对时空数据进行碰撞分析和/或伴随分析
本申请所提供的时空轨迹生成装置的具体实施方式与上文所描述的时空轨迹生成方法可相互对应参照,这里就不再赘述。
本申请中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
以上对本申请所提供的技术方案进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种时空轨迹生成方法,其特征在于,包括:
获取数据采集对象的原始数据;
根据所述原始数据生成时空轨迹数据;
将所述时空轨迹数据录入至HBase分布式数据库集群中;
根据用户输入的查询条件,分区并发对所述时空轨迹数据进行碰撞分析和/或伴随分析,生成目标时空轨迹。
2.根据权利要求1所述的时空轨迹生成方法,其特征在于,所述时空轨迹数据包括标签数据和时空数据;
所述根据所述原始数据生成时空轨迹数据包括:
根据所述原始数据中的属性信息,生成所述标签数据;
根据所述原始数据中的时空信息,采用GeoHash算法生成GeoHash数据;根据所述GeoHash数据和时间粒度,生成所述时空数据;
所述将所述时空轨迹数据录入至HBase分布式数据库集群中包括:
将所述标签数据录入至所述HBase分布式数据库集群中的标签库;
将所述时空数据录入至所述HBase分布式数据库集群中的时空库。
3.根据权利要求2所述的时空轨迹生成方法,其特征在于,所述根据所述原始数据中的时空信息,采用GeoHash算法生成GeoHash数据包括:
根据所述原始数据的时空信息,采用6级编码的GeoHash算法生成6位的GeoHash数据。
4.根据权利要求2所述的时空轨迹生成方法,其特征在于,所述时间粒度为1小时或者10分钟。
5.根据权利要求2所述的时空轨迹生成方法,其特征在于,在所述根据所述GeoHash数据和时间粒度,生成所述时空数据之后、所述将所述时空数据录入至所述HBase分布式数据库集群中的时空库之前还包括:
将所述时空数据录入kafka数据缓冲平台中;
所述将所述时空数据录入至所述HBase分布式数据库集群中的时空库包括:
将从所述kafka数据缓冲平台中取出的所述时空数据录入至所述HBase分布式数据库集群中的时空库。
6.根据权利要求2至5任一项所述的时空轨迹生成方法,其特征在于,所述将所述标签数据录入至所述HBase分布式数据库集群中的标签库包括:
将所述标签数据复制到HDFS中;运行MapReduce任务,将所述HDFS中的标签数据录入至所述HBase分布式数据库集群中的标签库;
所述将所述时空数据录入至所述HBase分布式数据库集群中的时空库包括:
利用Snappy压缩工具包将所述时空数据进行压缩;将压缩后的时空数据录入至所述HBase分布式数据库集群中的时空库。
7.根据权利要求6所述的时空轨迹生成方法,其特征在于,在所述将所述HDFS中的标签数据录入至所述HBase分布式数据库集群中的标签库之后还包括:
采用Bitmap技术建立标签库索引表;以便利用所述标签库索引表,分区并发对所述标签数据进行碰撞分析和/或伴随分析;
在所述将压缩后的时空数据录入至所述HBase分布式数据库集群中的时空库之后还包括:
采用Bitmap技术建立时空库索引表;以便利用所述时空库索引表,分区并发对所述时空数据进行碰撞分析和/或伴随分析。
8.一种时空轨迹生成装置,其特征在于,包括:
获取模块:用于获取数据采集对象的原始数据;
生成模块:用于根据所述原始数据生成时空轨迹数据;
录入模块:用于将所述时空轨迹数据录入至HBase分布式数据库集群中;
查询模块:用于根据用户输入的查询条件,分区并发对所述时空轨迹数据进行碰撞分析和/或伴随分析,生成目标时空轨迹。
9.根据权利要求8所述的时空轨迹生成装置,其特征在于,所述时空轨迹数据包括标签数据和时空数据;
所述生成模块具体用于:
根据所述原始数据中的属性信息,生成所述标签数据;
根据所述原始数据中的时空信息,采用GeoHash算法生成GeoHash数据;根据所述GeoHash数据和时间粒度,生成所述时空数据;
所述录入模块具体用于:
将所述标签数据录入至所述HBase分布式数据库集群中的标签库;
将所述时空数据录入至所述HBase分布式数据库集群中的时空库。
10.根据权利要求8或者9所述的时空轨迹生成装置,其特征在于,所述录入模块还用于:
在所述将所述标签数据录入至所述HBase分布式数据库集群中的标签库中之后,采用Bitmap技术建立标签库索引表;以便查询模块利用所述标签库索引表,分区并发对所述标签数据进行碰撞分析和/或伴随分析;
在所述将所述时空数据录入至所述HBase分布式数据库集群中的时空库中之后,采用Bitmap技术建立时空库索引表;以便查询模块利用所述时空库索引表,分区并发对所述时空数据进行碰撞分析和/或伴随分析。
CN201710842329.6A 2017-09-18 2017-09-18 一种时空轨迹生成方法及装置 Pending CN107590250A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710842329.6A CN107590250A (zh) 2017-09-18 2017-09-18 一种时空轨迹生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710842329.6A CN107590250A (zh) 2017-09-18 2017-09-18 一种时空轨迹生成方法及装置

Publications (1)

Publication Number Publication Date
CN107590250A true CN107590250A (zh) 2018-01-16

Family

ID=61048505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710842329.6A Pending CN107590250A (zh) 2017-09-18 2017-09-18 一种时空轨迹生成方法及装置

Country Status (1)

Country Link
CN (1) CN107590250A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520079A (zh) * 2018-04-24 2018-09-11 珠海市新德汇信息技术有限公司 一种Migo搜索引擎
CN108710637A (zh) * 2018-04-11 2018-10-26 上海交通大学 基于时空关系的出租车异常轨迹实时检测方法
CN109543312A (zh) * 2018-11-27 2019-03-29 珠海市新德汇信息技术有限公司 一种时空侦查分析方法及系统
CN109800279A (zh) * 2019-01-11 2019-05-24 武汉虹旭信息技术有限责任公司 一种基于时空轨迹快速碰撞的算法
CN109918395A (zh) * 2019-02-19 2019-06-21 北京明略软件系统有限公司 一种群体挖掘方法及装置
CN110659294A (zh) * 2019-09-25 2020-01-07 北京明略软件系统有限公司 时空数据即席查询方法、系统、电子设备和存储介质
CN110727756A (zh) * 2019-10-18 2020-01-24 北京明略软件系统有限公司 时空轨迹数据的管理方法和装置
CN110737786A (zh) * 2019-10-09 2020-01-31 北京明略软件系统有限公司 一种数据比对碰撞方法和装置
CN110874362A (zh) * 2019-10-29 2020-03-10 青岛海信网络科技股份有限公司 一种数据关联分析方法及装置
CN111090816A (zh) * 2019-11-29 2020-05-01 北京明略软件系统有限公司 时空轨迹数据的管理方法和装置
CN111143497A (zh) * 2019-12-23 2020-05-12 北京明略软件系统有限公司 一种轨迹数据处理方法、装置和电子设备
CN111177195A (zh) * 2019-12-18 2020-05-19 北京明略软件系统有限公司 一种数据比对碰撞方法和装置
CN111294742A (zh) * 2020-02-10 2020-06-16 邑客得(上海)信息技术有限公司 基于信令cdr数据识别伴随手机号码的方法与系统
CN111666358A (zh) * 2019-03-05 2020-09-15 上海光启智城网络科技有限公司 一种轨迹碰撞方法及系统
CN112000736A (zh) * 2020-08-14 2020-11-27 济南浪潮数据技术有限公司 时空轨迹伴随分析方法、系统及电子设备和存储介质
CN112100525A (zh) * 2020-11-02 2020-12-18 中国人民解放军国防科技大学 多源异构航天信息资源存储方法、检索方法和装置
CN112100308A (zh) * 2020-11-02 2020-12-18 中科星图股份有限公司 一种北斗时空轨迹的相似性查询方法
CN112383875A (zh) * 2020-06-28 2021-02-19 中国信息通信研究院 一种数据处理方法及电子设备
CN113704342A (zh) * 2021-07-30 2021-11-26 济南浪潮数据技术有限公司 一种轨迹伴随分析的方法、系统、设备和存储介质
CN113727330A (zh) * 2020-05-21 2021-11-30 大唐移动通信设备有限公司 一种基于td-lte移动通信系统的用户信息处理方法和装置
CN114969567A (zh) * 2022-08-02 2022-08-30 武汉大学 一种高性能时空轨迹关联分析方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680127A (zh) * 2013-08-29 2014-03-26 中国科学院地理科学与资源研究所 一种利用低采样率浮动车数据计算信号灯控制道路交叉口延误的方法
CN105825671A (zh) * 2016-03-21 2016-08-03 武汉烽火众智数字技术有限责任公司 一种基于大数据车辆全轨迹碰撞的伴随车分析方法及系统
CN106649656A (zh) * 2016-12-13 2017-05-10 中国科学院软件研究所 一种面向数据库的时空轨迹大数据存储方法
CN106792523A (zh) * 2016-12-10 2017-05-31 武汉白虹软件科技有限公司 一种基于大规模WiFi活动轨迹的异常行为检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680127A (zh) * 2013-08-29 2014-03-26 中国科学院地理科学与资源研究所 一种利用低采样率浮动车数据计算信号灯控制道路交叉口延误的方法
CN105825671A (zh) * 2016-03-21 2016-08-03 武汉烽火众智数字技术有限责任公司 一种基于大数据车辆全轨迹碰撞的伴随车分析方法及系统
CN106792523A (zh) * 2016-12-10 2017-05-31 武汉白虹软件科技有限公司 一种基于大规模WiFi活动轨迹的异常行为检测方法
CN106649656A (zh) * 2016-12-13 2017-05-10 中国科学院软件研究所 一种面向数据库的时空轨迹大数据存储方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710637A (zh) * 2018-04-11 2018-10-26 上海交通大学 基于时空关系的出租车异常轨迹实时检测方法
CN108520079A (zh) * 2018-04-24 2018-09-11 珠海市新德汇信息技术有限公司 一种Migo搜索引擎
CN108520079B (zh) * 2018-04-24 2021-10-26 珠海市新德汇信息技术有限公司 一种Migo搜索引擎
CN109543312A (zh) * 2018-11-27 2019-03-29 珠海市新德汇信息技术有限公司 一种时空侦查分析方法及系统
CN109800279A (zh) * 2019-01-11 2019-05-24 武汉虹旭信息技术有限责任公司 一种基于时空轨迹快速碰撞的算法
CN109918395A (zh) * 2019-02-19 2019-06-21 北京明略软件系统有限公司 一种群体挖掘方法及装置
CN111666358A (zh) * 2019-03-05 2020-09-15 上海光启智城网络科技有限公司 一种轨迹碰撞方法及系统
CN110659294A (zh) * 2019-09-25 2020-01-07 北京明略软件系统有限公司 时空数据即席查询方法、系统、电子设备和存储介质
CN110659294B (zh) * 2019-09-25 2022-05-17 北京明略软件系统有限公司 时空数据即席查询方法、系统、电子设备和存储介质
CN110737786A (zh) * 2019-10-09 2020-01-31 北京明略软件系统有限公司 一种数据比对碰撞方法和装置
CN110727756A (zh) * 2019-10-18 2020-01-24 北京明略软件系统有限公司 时空轨迹数据的管理方法和装置
CN110874362A (zh) * 2019-10-29 2020-03-10 青岛海信网络科技股份有限公司 一种数据关联分析方法及装置
CN111090816A (zh) * 2019-11-29 2020-05-01 北京明略软件系统有限公司 时空轨迹数据的管理方法和装置
CN111177195A (zh) * 2019-12-18 2020-05-19 北京明略软件系统有限公司 一种数据比对碰撞方法和装置
CN111143497A (zh) * 2019-12-23 2020-05-12 北京明略软件系统有限公司 一种轨迹数据处理方法、装置和电子设备
CN111294742A (zh) * 2020-02-10 2020-06-16 邑客得(上海)信息技术有限公司 基于信令cdr数据识别伴随手机号码的方法与系统
CN111294742B (zh) * 2020-02-10 2020-11-10 邑客得(上海)信息技术有限公司 基于信令cdr数据识别伴随手机号码的方法与系统
CN113727330A (zh) * 2020-05-21 2021-11-30 大唐移动通信设备有限公司 一种基于td-lte移动通信系统的用户信息处理方法和装置
CN112383875A (zh) * 2020-06-28 2021-02-19 中国信息通信研究院 一种数据处理方法及电子设备
CN112383875B (zh) * 2020-06-28 2021-07-30 中国信息通信研究院 一种数据处理方法及电子设备
CN112000736A (zh) * 2020-08-14 2020-11-27 济南浪潮数据技术有限公司 时空轨迹伴随分析方法、系统及电子设备和存储介质
CN112000736B (zh) * 2020-08-14 2023-03-24 济南浪潮数据技术有限公司 时空轨迹伴随分析方法、系统及电子设备和存储介质
CN112100525A (zh) * 2020-11-02 2020-12-18 中国人民解放军国防科技大学 多源异构航天信息资源存储方法、检索方法和装置
CN112100308A (zh) * 2020-11-02 2020-12-18 中科星图股份有限公司 一种北斗时空轨迹的相似性查询方法
CN113704342A (zh) * 2021-07-30 2021-11-26 济南浪潮数据技术有限公司 一种轨迹伴随分析的方法、系统、设备和存储介质
CN114969567A (zh) * 2022-08-02 2022-08-30 武汉大学 一种高性能时空轨迹关联分析方法、装置及设备
CN114969567B (zh) * 2022-08-02 2022-11-15 武汉大学 一种高性能时空轨迹关联分析方法、装置及设备

Similar Documents

Publication Publication Date Title
CN107590250A (zh) 一种时空轨迹生成方法及装置
CN107229708B (zh) 一种个性化出行服务大数据应用系统及方法
Wang et al. Fast large-scale trajectory clustering
CN106649656B (zh) 一种面向数据库的时空轨迹大数据存储方法
US9361343B2 (en) Method for parallel mining of temporal relations in large event file
CN103838867A (zh) 日志处理方法和装置
US10002142B2 (en) Method and apparatus for generating schema of non-relational database
CN104035954A (zh) 一种基于Hadoop的套牌车识别方法
Bordogna et al. Clustering geo-tagged tweets for advanced big data analytics
CN106534784A (zh) 一种用于视频分析数据结果集的采集分析存储统计系统
Moharm et al. Big data in ITS: Concept, case studies, opportunities, and challenges
CN106294805A (zh) 数据处理方法及装置
CN110895548B (zh) 用于处理信息的方法和装置
CN112363996B (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
Gaurav et al. An outline on big data and big data analytics
CN115203354B (zh) 一种车码轨迹预关联方法、装置、计算机设备及存储介质
CN111026940A (zh) 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备
Taşyürek A novel approach to improve the performance of the database storing big data with time information
CN113706207A (zh) 基于语义解析的订单成交率分析方法、装置、设备及介质
CN106557564A (zh) 一种对象数据分析方法及装置
CN104572648B (zh) 一种基于高性能计算的存储统计系统及方法
CN105930462A (zh) 基于云计算平台的海量数据处理方法
CN111737490A (zh) 基于银行渠道的知识图谱本体模型生成方法及装置
CN112347314A (zh) 一种基于图数据库的数据资源管理系统
Yan et al. Cloud city traffic state assessment system using a novel architecture of big data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180116

RJ01 Rejection of invention patent application after publication