CN115190431A - 时空数据分析方法、装置、可读存储介质和设备 - Google Patents
时空数据分析方法、装置、可读存储介质和设备 Download PDFInfo
- Publication number
- CN115190431A CN115190431A CN202210811335.6A CN202210811335A CN115190431A CN 115190431 A CN115190431 A CN 115190431A CN 202210811335 A CN202210811335 A CN 202210811335A CN 115190431 A CN115190431 A CN 115190431A
- Authority
- CN
- China
- Prior art keywords
- time
- base station
- data
- space
- analyzed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/20—Services signaling; Auxiliary data signalling, i.e. transmitting data via a non-traffic channel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W88/00—Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
- H04W88/08—Access point devices
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Computing Systems (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种时空数据分析方法、装置、可读存储介质和设备,属于移动通信领域。本发明进行时空数据分析时,获取分布式数据库存储的待分析用户的前一日的全量时空轨迹数据,并根据出现的基站编号、附着在当前基站的起始时间和当前基站下停留时长进行分块处理,按照三种时长跨度维度持久化存储到分布式列式数据库中的基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表中,记录所有基站停留时长满足整小时、整十分钟、整分钟时长跨度的用户号码集合数据,有效降低了计算复杂度,极大地提高了与目标号码发生交集行为的号码的计算效率,大大的减少了计算时长。
Description
技术领域
本发明涉及移动通信领域,特别是指一种时空数据分析方法、装置、可读存储介质和设备。
背景技术
目前使用的时空数据分析方法一般为:对时空轨迹数据的经纬度位置信息进行geohash转码,并按分钟将每个号码的轨迹数据存储在分布式数据库Hive中,然后提取目标号码的轨迹点geohash信息作为基准数据,按天提取全量geohash转码后时空轨迹数据并根据geohash编码字符串长度是否一致判断是否与目标号码发生交集行为,按照此计算逻辑,计算14 天与目标号码发生时空交集的号码。
在上述时空数据分析过程中,计算复杂度高,需要占用非常大的计算资源和算力,且计算效率非常低,计算单个号码的时空数据模型往往需要小时级的计算时长,因此极大程度降低了效率。
发明内容
为解决现有技术的缺陷,本发明提供一种时空数据分析方法、装置、可读存储介质和设备,有效降低了计算复杂度,极大地提高了与目标号码发生交集行为的号码的计算效率,大大的减少了计算时长。
本发明提供技术方案如下:
第一方面,本发明提供一种时空数据分析方法,所述方法包括:
实时获取原始移动信令数据,并根据所述原始移动信令数据生成待分析用户的时空轨迹数据;
将待分析用户的时空轨迹数据持久化存储到分布式数据库中,其中,存储过程中根据时空轨迹数据的出现时间按天和小时进行分区存储;
将待分析用户的时空轨迹数据持久化存储到分布式列式数据库中,其中,存储过程中将待分析用户的号码作为行键,将待分析用户的每条时空轨迹数据作为列值,生成时空轨迹聚合数据;
获取分布式数据库存储的待分析用户的前一日的全量时空轨迹数据,并根据出现的基站编号、附着在当前基站的起始时间和当前基站下停留时长进行分块处理,按照当前基站下停留时长跨度是否满足停留超过整小时、整十分钟、整分钟的优先顺序将待分析用户的一条时空轨迹数据切分成三个时间维度的若干条时空轨迹数据;
将所述若干条时空轨迹数据按照切分的时长跨度维度持久化存储到分布式列式数据库中的基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表中;
其中,所述基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表均将基站编号和时间分块起始时间作为行键,将在当前时间戳下出现在当前基站的待分析用户的号码集合作为列值,形成基站聚合快照数据,所述基站聚合快照数据表示所有基站停留时长满足整小时、整十分钟、整分钟时长跨度的待分析用户的号码的集合数据;
查询目标对象号码近14日的时空轨迹数据;
将目标对象号码近14日的时空轨迹数据按照时间顺序排序,并将相邻时空轨迹数据中基站所在geohash空间网格的时空轨迹数据合并,并过滤掉在同一个geohash空间网格内停留时长不超过10分钟的时空轨迹数据,得到预处理后目标对象号码近14日的时空轨迹数据;
根据预处理后目标对象号码近14日的时空轨迹数据,获取目标对象每条时空轨迹数据所在geohash空间网格下的所有基站组成的基站集合,并对当前时空轨迹数据的起止时间进行时间跨度切分;基于所述基站聚合快照数据,面向所述基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表查询所述基站集合在起止时间范围内不同分段时间下的待分析用户的号码,得到与目标对象号码在同一时空停留的待分析用户的号码;
将与目标对象号码在同一时空停留的待分析用户的号码计算共同停留时长,找出每个geohash空间网格共同停留时长超过10分钟,所有 geohash空间网格累计共同停留时长超过30小时的待分析用户的号码作为与目标号码发生交集行为的号码。
进一步的,所述实时获取原始移动信令数据,并根据所述原始移动信令数据生成待分析用户的时空轨迹数据,包括:
实时获取所述原始移动信令数据;
对所述原始移动信令数据基于待分析用户的号码、基站编号和时间戳进行对比,记录待分析用户在不同时间、不同基站的变化信息,生成待分析用户的时空轨迹数据;
其中,所述待分析用户的时空轨迹数据包括待分析用户的号码、基站编号、附着在当前基站的起始时间、当前基站下停留时长、下一基站编号和当前基站归属地行政区划代码。
进一步的,所述分布式数据库为Hive数据库,所述分布式列式数据库为HBase数据库。
进一步的,所述查询目标对象号码近14日的时空轨迹数据,包括:
对目标对象号码根据Hbase时空轨迹聚合数据库查询近14日的时空轨迹数据;
过滤掉基站编号为空、附着基站时间为空或基站下停留时长为空的无效时空轨迹数据。
第二方面,本发明提供一种时空数据分析装置,所述装置包括:
轨迹生成模块,用于实时获取原始移动信令数据,并根据所述原始移动信令数据生成待分析用户的时空轨迹数据;
数据存储模块,用于将待分析用户的时空轨迹数据持久化存储到分布式数据库中,其中,存储过程中根据时空轨迹数据的出现时间按天和小时进行分区存储;
轨迹聚合模块,用于将待分析用户的时空轨迹数据持久化存储到分布式列式数据库中,其中,存储过程中将待分析用户的号码作为行键,将待分析用户的每条时空轨迹数据作为列值,生成时空轨迹聚合数据;
轨迹切分模块,用于获取分布式数据库存储的待分析用户的前一日的全量时空轨迹数据,并根据出现的基站编号、附着在当前基站的起始时间和当前基站下停留时长进行分块处理,按照当前基站下停留时长跨度是否满足停留超过整小时、整十分钟、整分钟的优先顺序将待分析用户的一条时空轨迹数据切分成三个时间维度的若干条时空轨迹数据;
基站聚合模块,用于将所述若干条时空轨迹数据按照切分的时长跨度维度持久化存储到分布式列式数据库中的基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表中;
其中,所述基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表均将基站编号和时间分块起始时间作为行键,将在当前时间戳下出现在当前基站的待分析用户的号码集合作为列值,形成基站聚合快照数据,所述基站聚合快照数据表示所有基站停留时长满足整小时、整十分钟、整分钟时长跨度的待分析用户的号码的集合数据;
轨迹查询模块,用于查询目标对象号码近14日的时空轨迹数据;
轨迹处理模块,用于将目标对象号码近14日的时空轨迹数据按照时间顺序排序,并将相邻时空轨迹数据中基站所在geohash空间网格的时空轨迹数据合并,并过滤掉在同一个geohash空间网格内停留时长不超过10 分钟的时空轨迹数据,得到预处理后目标对象号码近14日的时空轨迹数据;
时空数据分析模块,用于根据预处理后目标对象号码近14日的时空轨迹数据,获取目标对象每条时空轨迹数据所在geohash空间网格下的所有基站组成的基站集合,并对当前时空轨迹数据的起止时间进行时间跨度切分;基于所述基站聚合快照数据,面向所述基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表查询所述基站集合在起止时间范围内不同分段时间下的待分析用户的号码,得到与目标对象号码在同一时空停留的待分析用户的号码;
号码确定模块,用于将与目标对象号码在同一时空停留的待分析用户的号码计算共同停留时长,找出每个geohash空间网格共同停留时长超过 10分钟,所有geohash空间网格累计共同停留时长超过30小时的待分析用户的号码作为与目标号码发生交集行为的号码。
进一步的,所述轨迹生成模块包括:
移动信令数据获取单元,用于实时获取所述原始移动信令数据;
时空轨迹数据生成单元,用于对所述原始移动信令数据基于待分析用户的号码、基站编号和时间戳进行对比,记录待分析用户在不同时间、不同基站的变化信息,生成待分析用户的时空轨迹数据;
其中,所述待分析用户的时空轨迹数据包括待分析用户的号码、基站编号、附着在当前基站的起始时间、当前基站下停留时长、下一基站编号和当前基站归属地行政区划代码。
进一步的,所述分布式数据库为Hive数据库,所述分布式列式数据库为HBase数据库。
进一步的,轨迹查询模块包括:
轨迹查询单元,用于对目标对象号码根据Hbase时空轨迹聚合数据库查询近14日的时空轨迹数据;
轨迹滤掉单元,用于过滤掉基站编号为空、附着基站时间为空或基站下停留时长为空的无效时空轨迹数据。
第三方面,本发明提供一种用于时空数据分析的计算机可读存储介质,包括用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括第一方面所述的时空数据分析方法的步骤。
第四方面,本发明提供一种用于时空数据分析的设备,包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现第一方面所述的时空数据分析方法的步骤。
本发明具有以下有益效果:
本发明进行时空数据分析时,获取分布式数据库存储的待分析用户的前一日的全量时空轨迹数据,并根据出现的基站编号、附着在当前基站的起始时间和当前基站下停留时长进行分块处理,按照三种时长跨度维度持久化存储到分布式列式数据库中的基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表中,记录所有基站停留时长满足整小时、整十分钟、整分钟时长跨度的用户号码集合数据,有效降低了计算复杂度,极大地提高了与目标号码发生交集行为的号码的计算效率,大大的减少了计算时长。
附图说明
图1为本发明的时空数据分析方法的流程图;
图2为本发明的时空数据分析装置的示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
本发明实施例提供一种时空数据分析方法,如图1所示,该方法包括:
S1:实时获取原始移动信令数据,并根据原始移动信令数据生成待分析用户的时空轨迹数据。
移动信令数据一般指手机移动信令数据,通常根据事件的类型分为主动信令和被动信令。主动信令如接听或拨打电话、接收或发出文本消息、关机或开机等将触发主动信令。而被动信令主要由固定周期性的手机用户位置更新、用户运动到一组新的蜂窝站、不同的移动通信技术(2G~5G) 间切换的位置区更新等被动事件引起。一条移动信令数据一般包括脱敏后的用户ID(手机号)、信令数据发生时间戳以及基站位置等信息,基站位置信息可将信令数据与其所属的行政区划及基站经纬度位置信息对应。
同一用户的移动信令数据在不同时间内可能会附着在不同的基站上,按照时间顺序将同一用户的移动信令数据中出现的基站串联起来,即可近似的表示为用户的活动轨迹。时空轨迹数据的具体获取方式可以为:
对原始移动信令数据基于待分析用户的号码(即手机号码)、基站编号(即基站唯一标识)和时间戳进行对比,记录待分析用户在不同时间、不同基站的变化信息,生成待分析用户的时空轨迹数据。
其中,待分析用户的时空轨迹数据包括待分析用户的号码、基站编号、附着在当前基站的起始时间、当前基站下停留时长、下一基站编号和当前基站归属地行政区划代码等。
本发明获取用户(用户包括待分析用户和目标对象)的各种数据时,均得到了授权,避免侵犯用户隐私。
S2:将待分析用户的时空轨迹数据持久化存储到Hive等分布式数据库中,其中,存储过程中根据时空轨迹数据的出现时间按天和小时进行分区存储。
S3:将待分析用户的时空轨迹数据持久化存储到HBase等分布式列式数据库中,其中,存储过程中将待分析用户的号码作为行键(rowkey),将待分析用户的每条时空轨迹数据作为列值(value),生成时空轨迹聚合数据,并提供单用户历史轨迹查询接口服务。
S4:获取分布式数据库Hive存储的待分析用户的前一日的全量时空轨迹数据,并根据出现的基站编号、附着在当前基站的起始时间和当前基站下停留时长进行分块处理,按照当前基站下停留时长跨度是否满足停留超过整小时、整十分钟、整分钟的优先顺序将待分析用户的一条时空轨迹数据切分成三个时间维度的若干条时空轨迹数据。
S5:将若干条时空轨迹数据按照切分的时长跨度维度持久化存储到分布式列式数据库HBase中的基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表中;
其中,基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表均将基站编号和时间分块起始时间(uli:starttime)作为行键 (rowkey),将在当前时间戳下出现在当前基站的待分析用户的号码集合作为列值(value),形成基站聚合快照数据,基站聚合快照数据表示所有基站停留时长满足整小时、整十分钟、整分钟时长跨度的待分析用户的号码的集合数据。
本步骤通过基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表记录所有基站停留时长满足整小时、整十分钟、整分钟时长跨度的用户号码集合数据,极大地提高了后续的计算效率,大大的减少了计算时长。
S6:查询目标对象号码近14日的时空轨迹数据。
本步骤的一个具体实现方式为:对目标对象号码根据Hbase时空轨迹聚合数据库查询近14日的时空轨迹数据;并过滤掉基站编号为空、附着基站时间为空或基站下停留时长为空的无效时空轨迹数据。
S7:将目标对象号码近14日的时空轨迹数据按照时间顺序排序,并将相邻时空轨迹数据中基站所在geohash空间网格的时空轨迹数据合并,并过滤掉在同一个geohash空间网格内停留时长不超过10分钟的时空轨迹数据,得到预处理后目标对象号码近14日的时空轨迹数据。
GeoHash是空间索引的一种方式,其基本原理是将地球理解为一个二维平面,通过把二维的空间经纬度数据编码为一个字符串,可以把平面递归分解成更小的子块(即空间网格),每个空间网格在一定经纬度范围内拥有相同的编码。本发明的geohash空间网格定义为800米*800米。
S8:根据预处理后目标对象号码近14日的时空轨迹数据,获取目标对象每条时空轨迹数据所在geohash空间网格下的所有基站组成的基站集合,并对当前时空轨迹数据的起止时间进行时间跨度切分;基于基站聚合快照数据,面向基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表查询基站集合在起止时间范围内不同分段时间下的待分析用户的号码,得到与目标对象号码在同一时空停留的待分析用户的号码。
S9:将与目标对象号码在同一时空停留的待分析用户的号码计算共同停留时长,找出每个geohash空间网格共同停留时长超过10分钟,所有 geohash空间网格累计共同停留时长超过30小时的待分析用户的号码作为与目标号码发生交集行为的号码。
单目标的发生交集行为的号码定义:与目标对象手机号码在同一时空网格(范围是800米*800米)共同停留超过10分钟,且最近14天任一方号码累计停留时长超过30小时以上,查出的号码为发生交集行为的号码。
本发明进行时空数据分析时,获取分布式数据库存储的待分析用户的前一日的全量时空轨迹数据,并根据出现的基站编号、附着在当前基站的起始时间和当前基站下停留时长进行分块处理,按照三种时长跨度维度持久化存储到分布式列式数据库中的基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表中,记录所有基站停留时长满足整小时、整十分钟、整分钟时长跨度的用户号码集合数据,有效降低了计算复杂度,极大地提高了与目标号码发生交集行为的号码的计算效率,大大的减少了计算时长。
实施例2:
本发明实施例提供一种时空数据分析装置,如图2所示,该装置包括:
轨迹生成模块1,用于实时获取原始移动信令数据,并根据原始移动信令数据生成待分析用户的时空轨迹数据。
数据存储模块2,用于将待分析用户的时空轨迹数据持久化存储到分布式数据库中,其中,存储过程中根据时空轨迹数据的出现时间按天和小时进行分区存储。
轨迹聚合模块3,用于将待分析用户的时空轨迹数据持久化存储到分布式列式数据库中,其中,存储过程中将待分析用户的号码作为行键,将待分析用户的每条时空轨迹数据作为列值,生成时空轨迹聚合数据。
轨迹切分模块4,用于获取分布式数据库存储的待分析用户的前一日的全量时空轨迹数据,并根据出现的基站编号、附着在当前基站的起始时间和当前基站下停留时长进行分块处理,按照当前基站下停留时长跨度是否满足停留超过整小时、整十分钟、整分钟的优先顺序将待分析用户的一条时空轨迹数据切分成三个时间维度的若干条时空轨迹数据。
基站聚合模块5,用于将若干条时空轨迹数据按照切分的时长跨度维度持久化存储到分布式列式数据库中的基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表中。
其中,基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表均将基站编号和时间分块起始时间作为行键,将在当前时间戳下出现在当前基站的待分析用户的号码集合作为列值,形成基站聚合快照数据,基站聚合快照数据表示所有基站停留时长满足整小时、整十分钟、整分钟时长跨度的待分析用户的号码的集合数据;
轨迹查询模块6,用于查询目标对象号码近14日的时空轨迹数据。
轨迹处理模块7,用于将目标对象号码近14日的时空轨迹数据按照时间顺序排序,并将相邻时空轨迹数据中基站所在geohash空间网格的时空轨迹数据合并,并过滤掉在同一个geohash空间网格内停留时长不超过10 分钟的时空轨迹数据,得到预处理后目标对象号码近14日的时空轨迹数据。
时空数据分析模块8,用于根据预处理后目标对象号码近14日的时空轨迹数据,获取目标对象每条时空轨迹数据所在geohash空间网格下的所有基站组成的基站集合,并对当前时空轨迹数据的起止时间进行时间跨度切分;基于基站聚合快照数据,面向基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表查询基站集合在起止时间范围内不同分段时间下的待分析用户的号码,得到与目标对象号码在同一时空停留的待分析用户的号码。
号码确定模块9,用于将与目标对象号码在同一时空停留的待分析用户的号码计算共同停留时长,找出每个geohash空间网格共同停留时长超过10分钟,所有geohash空间网格累计共同停留时长超过30小时的待分析用户的号码作为与目标号码发生交集行为的号码。
本发明进行时空数据分析时,获取分布式数据库存储的待分析用户的前一日的全量时空轨迹数据,并根据出现的基站编号、附着在当前基站的起始时间和当前基站下停留时长进行分块处理,按照三种时长跨度维度持久化存储到分布式列式数据库中的基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表中,记录所有基站停留时长满足整小时、整十分钟、整分钟时长跨度的用户号码集合数据,有效降低了计算复杂度,极大地提高了与目标号码发生交集行为的号码的计算效率,大大的减少了计算时长。
前述的轨迹生成模块包括:
移动信令数据获取单元,用于实时获取原始移动信令数据。
时空轨迹数据生成单元,用于对原始移动信令数据基于待分析用户的号码、基站编号和时间戳进行对比,记录待分析用户在不同时间、不同基站的变化信息,生成待分析用户的时空轨迹数据。
其中,待分析用户的时空轨迹数据包括待分析用户的号码、基站编号、附着在当前基站的起始时间、当前基站下停留时长、下一基站编号和当前基站归属地行政区划代码。
具体的,分布式数据库可以为Hive数据库,分布式列式数据库可以为HBase数据库。
前述的轨迹查询模块包括:
轨迹查询单元,用于对目标对象号码根据Hbase时空轨迹聚合数据库查询近14日的时空轨迹数据。
轨迹滤掉单元,用于过滤掉基站编号为空、附着基站时间为空或基站下停留时长为空的无效时空轨迹数据。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例1相同,为简要描述,该装置实施例部分未提及之处,可参考前述方法实施例1中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的装置和单元的具体工作过程,均可以参考上述方法实施例1中的对应过程,在此不再赘述。
实施例3:
本发明提供的上述实施例1所述的方法可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本说明书实施例1所描述方案的效果。因此,本发明还提供用于时空数据分析的计算机可读存储介质,包括用于存储处理器可执行指令的存储器,指令被处理器执行时实现包括实施例1的时空数据分析方法的步骤。
本发明进行时空数据分析时,获取分布式数据库存储的待分析用户的前一日的全量时空轨迹数据,并根据出现的基站编号、附着在当前基站的起始时间和当前基站下停留时长进行分块处理,按照三种时长跨度维度持久化存储到分布式列式数据库中的基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表中,记录所有基站停留时长满足整小时、整十分钟、整分钟时长跨度的用户号码集合数据,有效降低了计算复杂度,极大地提高了与目标号码发生交集行为的号码的计算效率,大大的减少了计算时长。
所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM 等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
上述所述的存储介质根据方法实施例1的描述还可以包括其他的实施方式,本实施例的实现原理及产生的技术效果和前述方法实施例1相同,具体可以参照相关方法实施例1的描述,在此不作一一赘述。
实施例4:
本发明还提供一种用于时空数据分析的设备,所述的设备可以为单独的计算机,也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例装置的实际操作装置等。所述时空数据分析的设备可以包括至少一个处理器以及存储计算机可执行指令的存储器,处理器执行所述指令时实现上述任意一个或者多个实施例1中所述时空数据分析方法的步骤。
本发明进行时空数据分析时,获取分布式数据库存储的待分析用户的前一日的全量时空轨迹数据,并根据出现的基站编号、附着在当前基站的起始时间和当前基站下停留时长进行分块处理,按照三种时长跨度维度持久化存储到分布式列式数据库中的基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表中,记录所有基站停留时长满足整小时、整十分钟、整分钟时长跨度的用户号码集合数据,有效降低了计算复杂度,极大地提高了与目标号码发生交集行为的号码的计算效率,大大的减少了计算时长。
上述所述的设备根据方法实施例1的描述还可以包括其他的实施方式,本实施例的实现原理及产生的技术效果和前述方法实施例1相同,具体可以参照相关方法实施例1的描述,在此不作一一赘述。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种时空数据分析方法,其特征在于,所述方法包括:
实时获取原始移动信令数据,并根据所述原始移动信令数据生成待分析用户的时空轨迹数据;
将待分析用户的时空轨迹数据持久化存储到分布式数据库中,其中,存储过程中根据时空轨迹数据的出现时间按天和小时进行分区存储;
将待分析用户的时空轨迹数据持久化存储到分布式列式数据库中,其中,存储过程中将待分析用户的号码作为行键,将待分析用户的每条时空轨迹数据作为列值,生成时空轨迹聚合数据;
获取分布式数据库存储的待分析用户的前一日的全量时空轨迹数据,并根据出现的基站编号、附着在当前基站的起始时间和当前基站下停留时长进行分块处理,按照当前基站下停留时长跨度是否满足停留超过整小时、整十分钟、整分钟的优先顺序将待分析用户的一条时空轨迹数据切分成三个时间维度的若干条时空轨迹数据;
将所述若干条时空轨迹数据按照切分的时长跨度维度持久化存储到分布式列式数据库中的基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表中;
其中,所述基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表均将基站编号和时间分块起始时间作为行键,将在当前时间戳下出现在当前基站的待分析用户的号码集合作为列值,形成基站聚合快照数据,所述基站聚合快照数据表示所有基站停留时长满足整小时、整十分钟、整分钟时长跨度的待分析用户的号码的集合数据;
查询目标对象号码近14日的时空轨迹数据;
将目标对象号码近14日的时空轨迹数据按照时间顺序排序,并将相邻时空轨迹数据中基站所在geohash空间网格的时空轨迹数据合并,并过滤掉在同一个geohash空间网格内停留时长不超过10分钟的时空轨迹数据,得到预处理后目标对象号码近14日的时空轨迹数据;
根据预处理后目标对象号码近14日的时空轨迹数据,获取目标对象每条时空轨迹数据所在geohash空间网格下的所有基站组成的基站集合,并对当前时空轨迹数据的起止时间进行时间跨度切分;基于所述基站聚合快照数据,面向所述基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表查询所述基站集合在起止时间范围内不同分段时间下的待分析用户的号码,得到与目标对象号码在同一时空停留的待分析用户的号码;
将与目标对象号码在同一时空停留的待分析用户的号码计算共同停留时长,找出每个geohash空间网格共同停留时长超过10分钟,所有geohash空间网格累计共同停留时长超过30小时的待分析用户的号码作为与目标号码发生交集行为的号码。
2.根据权利要求1所述的时空数据分析方法,其特征在于,所述实时获取原始移动信令数据,并根据所述原始移动信令数据生成待分析用户的时空轨迹数据,包括:
实时获取所述原始移动信令数据;
对所述原始移动信令数据基于待分析用户的号码、基站编号和时间戳进行对比,记录待分析用户在不同时间、不同基站的变化信息,生成待分析用户的时空轨迹数据;
其中,所述待分析用户的时空轨迹数据包括待分析用户的号码、基站编号、附着在当前基站的起始时间、当前基站下停留时长、下一基站编号和当前基站归属地行政区划代码。
3.根据权利要求2所述的时空数据分析方法,其特征在于,所述分布式数据库为Hive数据库,所述分布式列式数据库为HBase数据库。
4.根据权利要求1-3任一所述的时空数据分析方法,其特征在于,所述查询目标对象号码近14日的时空轨迹数据,包括:
对目标对象号码根据Hbase时空轨迹聚合数据库查询近14日的时空轨迹数据;
过滤掉基站编号为空、附着基站时间为空或基站下停留时长为空的无效时空轨迹数据。
5.一种时空数据分析装置,其特征在于,所述装置包括:
轨迹生成模块,用于实时获取原始移动信令数据,并根据所述原始移动信令数据生成待分析用户的时空轨迹数据;
数据存储模块,用于将待分析用户的时空轨迹数据持久化存储到分布式数据库中,其中,存储过程中根据时空轨迹数据的出现时间按天和小时进行分区存储;
轨迹聚合模块,用于将待分析用户的时空轨迹数据持久化存储到分布式列式数据库中,其中,存储过程中将待分析用户的号码作为行键,将待分析用户的每条时空轨迹数据作为列值,生成时空轨迹聚合数据;
轨迹切分模块,用于获取分布式数据库存储的待分析用户的前一日的全量时空轨迹数据,并根据出现的基站编号、附着在当前基站的起始时间和当前基站下停留时长进行分块处理,按照当前基站下停留时长跨度是否满足停留超过整小时、整十分钟、整分钟的优先顺序将待分析用户的一条时空轨迹数据切分成三个时间维度的若干条时空轨迹数据;
基站聚合模块,用于将所述若干条时空轨迹数据按照切分的时长跨度维度持久化存储到分布式列式数据库中的基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表中;
其中,所述基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表均将基站编号和时间分块起始时间作为行键,将在当前时间戳下出现在当前基站的待分析用户的号码集合作为列值,形成基站聚合快照数据,所述基站聚合快照数据表示所有基站停留时长满足整小时、整十分钟、整分钟时长跨度的待分析用户的号码的集合数据;
轨迹查询模块,用于查询目标对象号码近14日的时空轨迹数据;
轨迹处理模块,用于将目标对象号码近14日的时空轨迹数据按照时间顺序排序,并将相邻时空轨迹数据中基站所在geohash空间网格的时空轨迹数据合并,并过滤掉在同一个geohash空间网格内停留时长不超过10分钟的时空轨迹数据,得到预处理后目标对象号码近14日的时空轨迹数据;
时空数据分析模块,用于根据预处理后目标对象号码近14日的时空轨迹数据,获取目标对象每条时空轨迹数据所在geohash空间网格下的所有基站组成的基站集合,并对当前时空轨迹数据的起止时间进行时间跨度切分;基于所述基站聚合快照数据,面向所述基站整时聚合号码表、基站整十分钟聚合号码表和基站整分钟聚合号码表查询所述基站集合在起止时间范围内不同分段时间下的待分析用户的号码,得到与目标对象号码在同一时空停留的待分析用户的号码;
号码确定模块,用于将与目标对象号码在同一时空停留的待分析用户的号码计算共同停留时长,找出每个geohash空间网格共同停留时长超过10分钟,所有geohash空间网格累计共同停留时长超过30小时的待分析用户的号码作为与目标号码发生交集行为的号码。
6.根据权利要求5所述的时空数据分析装置,其特征在于,所述轨迹生成模块包括:
移动信令数据获取单元,用于实时获取所述原始移动信令数据;
时空轨迹数据生成单元,用于对所述原始移动信令数据基于待分析用户的号码、基站编号和时间戳进行对比,记录待分析用户在不同时间、不同基站的变化信息,生成待分析用户的时空轨迹数据;
其中,所述待分析用户的时空轨迹数据包括待分析用户的号码、基站编号、附着在当前基站的起始时间、当前基站下停留时长、下一基站编号和当前基站归属地行政区划代码。
7.根据权利要求6所述的时空数据分析装置,其特征在于,所述分布式数据库为Hive数据库,所述分布式列式数据库为HBase数据库。
8.根据权利要求5-7任一所述的时空数据分析装置,其特征在于,轨迹查询模块包括:
轨迹查询单元,用于对目标对象号码根据Hbase时空轨迹聚合数据库查询近14日的时空轨迹数据;
轨迹滤掉单元,用于过滤掉基站编号为空、附着基站时间为空或基站下停留时长为空的无效时空轨迹数据。
9.一种用于时空数据分析的计算机可读存储介质,其特征在于,包括用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括权利要求1-4任一所述的时空数据分析方法的步骤。
10.一种用于时空数据分析的设备,其特征在于,包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现权利要求1-4中任意一项所述的时空数据分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210811335.6A CN115190431A (zh) | 2022-07-11 | 2022-07-11 | 时空数据分析方法、装置、可读存储介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210811335.6A CN115190431A (zh) | 2022-07-11 | 2022-07-11 | 时空数据分析方法、装置、可读存储介质和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115190431A true CN115190431A (zh) | 2022-10-14 |
Family
ID=83517026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210811335.6A Pending CN115190431A (zh) | 2022-07-11 | 2022-07-11 | 时空数据分析方法、装置、可读存储介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115190431A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115495678A (zh) * | 2022-11-21 | 2022-12-20 | 中南大学 | 一种基于稀疏蜂窝信令数据的共乘匹配方法、系统及设备 |
-
2022
- 2022-07-11 CN CN202210811335.6A patent/CN115190431A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115495678A (zh) * | 2022-11-21 | 2022-12-20 | 中南大学 | 一种基于稀疏蜂窝信令数据的共乘匹配方法、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108053080B (zh) | 区域用户数量统计值预测方法、装置、设备及介质 | |
CN111209261B (zh) | 基于信令大数据的用户出行轨迹提取方法和系统 | |
EP3132592B1 (en) | Method and system for identifying significant locations through data obtainable from a telecommunication network | |
CN103052022B (zh) | 基于移动行为的用户稳定点发现方法和系统 | |
CN101442762B (zh) | 网络性能分析以及网络故障定位方法和装置 | |
CN111464950B (zh) | 一种使用手机信令数据提取出行停驻点的方法 | |
CN107590250A (zh) | 一种时空轨迹生成方法及装置 | |
CN106570184A (zh) | 从手机信令数据提取游憩‑居住联系数据集的方法 | |
US8838134B2 (en) | Method and computer programs for the construction of communting matrices using call detail records and a use for providing user's mobility information | |
CN109885636B (zh) | 一种用户画像方法和服务器 | |
CN115190431A (zh) | 时空数据分析方法、装置、可读存储介质和设备 | |
CN113704342A (zh) | 一种轨迹伴随分析的方法、系统、设备和存储介质 | |
CN113992340B (zh) | 用户异常行为识别方法、装置、设备和存储介质 | |
CN112954626A (zh) | 手机信令数据分析方法、装置、电子设备及存储介质 | |
CN110933662A (zh) | 一种基于数据挖掘的时空伴随关系分析方法和系统 | |
CN114297323B (zh) | 一种一机多号识别方法、装置及其存储介质 | |
CN113868465B (zh) | 一种基于二维时间格网的可定位视频检索方法 | |
CN115905435A (zh) | 一种基于时空聚合中间态的信令数据分析方法及装置 | |
CN114339967A (zh) | 基站业务量的预测方法及装置 | |
CN112653995B (zh) | 一种用户身份识别方法、装置和计算机可读存储介质 | |
Lin et al. | TelTrans: Applying Multi-Type Telecom Data to Transportation Evaluation and Prediction via Multifaceted Graph Modeling | |
CN117811843B (zh) | 基于大数据分析和自主学习的网络入侵检测方法及系统 | |
CN117062009B (zh) | 一种伴随轨迹的判别方法、装置、设备以及存储介质 | |
CN108495268B (zh) | 一种敏感区域的安防方法及平台 | |
CN113810992B (zh) | 数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |