CN112040413B - 用户轨迹计算方法、装置及电子设备 - Google Patents
用户轨迹计算方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112040413B CN112040413B CN202010782471.8A CN202010782471A CN112040413B CN 112040413 B CN112040413 B CN 112040413B CN 202010782471 A CN202010782471 A CN 202010782471A CN 112040413 B CN112040413 B CN 112040413B
- Authority
- CN
- China
- Prior art keywords
- track
- time window
- terminal
- signaling data
- signaling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/20—Services signaling; Auxiliary data signalling, i.e. transmitting data via a non-traffic channel
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Remote Sensing (AREA)
- Telephonic Communication Services (AREA)
Abstract
公开一种用户轨迹计算方法、装置、电子设备及机器可读存储介质。在本申请中,获取目标用户在指定时间范围内的历史轨迹;确定在所述指定时间范围内与所述历史轨迹相关的轨迹集合;构建相似轨迹计算任务,并将所述相似轨迹计算任务基于预设分配策略部署至若干所述大数据计算节点,以由若干所述大数据计算节点并行计算并从所述轨迹集合中确定出与所述历史轨迹相似的其它用户轨迹。一方面,减少大数据系统的数据计算量并提高了相似信令轨迹计算效率。另一方面,可以方便依托大数据计算节点资源的水平扩展从而实现大数据系统数据计算能力的快速提升。
Description
技术领域
本申请一个或多个实施例涉及计算机应用技术领域,尤其涉及用户轨迹计算方法、装置、电子设备及机器可读存储介质。
背景技术
通信运营商拥有海量的用户,每个用户每天在使用移动终端的过程中,频繁地通过信令数据与运营商的基站进行交互,产生了更加海量的信令数据。通常,在一个城市的运营商拥有的用户数量可以达到数百万乃至千万级,则每日产生的信令数据可以达到数十亿级别。这些信令数据可以有助于运营商对用户进行更为深入的分析,形成一些信令轨迹数据,为政府公共安全部门等机构提供一些有价值的数据支撑。然而由于信令数据的数据量过于庞大,缺乏有效的处理机制,无法实现用户信令轨迹的价值最大化。
发明内容
本申请提供一种用户轨迹计算方法,应用于大数据系统,所述大数据系统包括若干大数据计算节点,所述方法包括:
获取目标用户在指定时间范围内的历史轨迹;其中,所述历史轨迹为基于所述目标用户携带的终端上报的信令数据生成的信令轨迹;
确定在所述指定时间范围内与所述历史轨迹相关的轨迹集合;其中,所述轨迹集合包括除所述目标用户外的其它用户对应生成的若干信令轨迹;
构建相似轨迹计算任务,并将所述相似轨迹计算任务基于预设分配策略部署至若干所述大数据计算节点,以由若干所述大数据计算节点并行计算并从所述轨迹集合中确定出与所述历史轨迹相似的其它用户轨迹。
可选的,在获取目标用户在指定时间范围内的历史轨迹之前,还包括:
获取所述终端上报的信令数据;其中,所述信令数据至少包括终端标识信息、上报时刻信息、终端位置信息;所述终端标识信息用于唯一标识所述终端,所述终端位置信息表征所述终端所在的地理位置信息,所述上报时刻信息表征所述终端上报所述终端位置信息时对应的时刻;
基于预设的时间窗对获取到的所述终端上报的信令数据进行对齐映射,并基于时间窗对齐映射后的所述信令数据进行合并,生成与所述目标用户对应的信令轨迹。
可选的,所述时间窗为预设时间周期被分割为若干长度相同且被顺序编号的时间段;
所述基于预设的时间窗对获取到的所述终端上报的信令数据进行对齐映射,并基于时间窗对齐映射后的所述信令数据进行合并,生成与所述目标用户对应的信令轨迹,包括:
基于信令数据中的终端标识信息,将获取到的所述终端上报的信令数据进行设备分组,得到设备分组后的信令数据;
基于信令数据中的上报时刻信息,将设备分组后的信令数据基于时间窗进行对齐映射,得到时间窗对齐映射后的信令数据;
从所述时间窗对齐映射后的信令数据中,筛选出与所述目标用户对应的终端标识信息对应的时间窗对齐映射后的所有信令数据,并将该所有信令数据中每个信令数据的终端位置信息按时间窗编号顺序串接,合并生成与所述目标用户对应的信令轨迹。
可选的,当同一时间窗对应存在同一终端标识信息的多个信令数据时,还包括:
计算该多个信令数据中的终端位置信息对应的中心点位置信息,并将该中心点位置信息作为该同一终端标识信息的多个信令数据对应在该同一时间窗的终端位置信息。
可选的,所述大数据计算节点被预先分配了对应的计算节点标识;
所述构建相似轨迹计算任务,并将所述相似轨迹计算任务基于预设分配策略部署至若干所述大数据计算节点,以由若干所述大数据计算节点并行计算并从所述轨迹集合中确定出与所述历史轨迹相似的其它用户轨迹,包括:
将所述轨迹集合划分为与若干所述计算节点标识分别对应若干轨迹子集合;
构建相似轨迹计算任务,并将所述相似轨迹计算任务部署至与每个所述轨迹子集合对应的计算节点标识的大数据计算节点,并由每个所述大数据计算节点并行计算并从对应的轨迹子集合中确定出与所述历史轨迹相似的其它用户轨迹;
将每个所述大数据计算节点确定出的与所述历史轨迹相似的其它用户轨迹进行合并排序,输出与所述历史轨迹相似的其它用户轨迹。
可选的,所述由每个所述大数据计算节点并行计算并从对应的轨迹子集合中确定出与所述历史轨迹相似的其它用户轨迹,包括:
将所述历史轨迹分别与所述轨迹子集合的每个轨迹进行相似轨迹计算,从对应的轨迹子集合中确定出与所述历史轨迹相似的其它用户轨迹。
可选的,所述历史轨迹包括了与所述目标用户在所述指定时间范围内的若干时间窗对应终端位置信息的第一位置序列,所述轨迹子集合中的每个轨迹包括了与其它用户在所述指定时间范围内的若干时间窗对应的终端位置信息的第二位置序列;
所述将所述历史轨迹分别与所述轨迹子集合的每个轨迹进行相似轨迹计算,从对应的轨迹子集合中确定出与所述历史轨迹相似的其它用户轨迹,包括:
基于所述指定时间范围内的时间窗编号,将所述第一位置序列与第二位置序列分别展开,并基于相同时间窗编号对展开后的所述第一位置序列与所述第二位置序列进行时间窗对齐;
针对时间窗对齐后的所述第一位置序列和所述第二位置序列,计算同一时间窗内的所述第一位置序列中的终端位置信息与所述第二位置序列中的终端位置信息的距离差值是否小于预设距离阈值;
当计算得到的小于预设距离阈值的时间窗个数达到预设个数阈值或者达到预设百分比,则确定将时间窗个数达到预设个数阈值或者达到预设百分比的第二位置序列对应的其它用户轨迹,确定为与所述历史轨迹相似的用户轨迹。
可选的,当所述第一位置序列或所述第二位置序列展开后的目标时间窗对应的终端位置信息不存在时,还包括:
将与所述目标时间窗的时间窗编号前后相邻的时间窗所分别对应的终端位置信息进行线性拟合,将拟合得到的终端位置信息确定为与所述目标时间窗对应的终端位置信息。
本申请还提供一种用户轨迹计算装置,应用于大数据系统,所述大数据系统包括若干大数据计算节点,所述装置包括:
获取模块,获取目标用户在指定时间范围内的历史轨迹;其中,所述历史轨迹为基于所述目标用户携带的终端上报的信令数据生成的信令轨迹;
确定模块,确定在所述指定时间范围内与所述历史轨迹相关的轨迹集合;其中,所述轨迹集合包括除所述目标用户外的其它用户对应生成的若干信令轨迹;
计算模块,构建相似轨迹计算任务,并将所述相似轨迹计算任务基于预设分配策略部署至若干所述大数据计算节点,以由若干所述大数据计算节点并行计算并从所述轨迹集合中确定出与所述历史轨迹相似的其它用户轨迹。
可选的,在获取目标用户在指定时间范围内的历史轨迹之前,还包括:
所述获取模块,获取所述终端上报的信令数据;其中,所述信令数据至少包括终端标识信息、上报时刻信息、终端位置信息;所述终端标识信息用于唯一标识所述终端,所述终端位置信息表征所述终端所在的地理位置信息,所述上报时刻信息表征所述终端上报所述终端位置信息时对应的时刻;
生成模块,基于预设的时间窗对获取到的所述终端上报的信令数据进行对齐映射,并基于时间窗对齐映射后的所述信令数据进行合并,生成与所述目标用户对应的信令轨迹。
可选的,所述时间窗为预设时间周期被分割为若干长度相同且被顺序编号的时间段;
所述生成模块进一步:
基于信令数据中的终端标识信息,将获取到的所述终端上报的信令数据进行设备分组,得到设备分组后的信令数据;
基于信令数据中的上报时刻信息,将设备分组后的信令数据基于时间窗进行对齐映射,得到时间窗对齐映射后的信令数据;
从所述时间窗对齐映射后的信令数据中,筛选出与所述目标用户对应的终端标识信息对应的时间窗对齐映射后的所有信令数据,并将该所有信令数据中每个信令数据的终端位置信息按时间窗编号顺序串接,合并生成与所述目标用户对应的信令轨迹。
可选的,当同一时间窗对应存在同一终端标识信息的多个信令数据时,所述生成模块进一步:
计算该多个信令数据中的终端位置信息对应的中心点位置信息,并将该中心点位置信息作为该同一终端标识信息的多个信令数据对应在该同一时间窗的终端位置信息。
可选的,所述大数据计算节点被预先分配了对应的计算节点标识;
所述计算模块包括:
划分子模块,将所述轨迹集合划分为与若干所述计算节点标识分别对应若干轨迹子集合;
查找子模块,构建相似轨迹计算任务,并将所述相似轨迹计算任务部署至与每个所述轨迹子集合对应的计算节点标识的大数据计算节点,并由每个所述大数据计算节点并行计算并从对应的轨迹子集合中确定出与所述历史轨迹相似的其它用户轨迹;
输出子模块,将每个所述大数据计算节点确定出的与所述历史轨迹相似的其它用户轨迹进行合并排序,输出与所述历史轨迹相似的其它用户轨迹。
可选的,所述查找子模块:
将所述历史轨迹分别与所述轨迹子集合的每个轨迹进行相似轨迹计算,从对应的轨迹子集合中确定出与所述历史轨迹相似的其它用户轨迹。
可选的,所述历史轨迹包括了与所述目标用户在所述指定时间范围内的若干时间窗对应终端位置信息的第一位置序列,所述轨迹子集合中的每个轨迹包括了与其它用户在所述指定时间范围内的若干时间窗对应的终端位置信息的第二位置序列;
所述查找子模块进一步:
基于所述指定时间范围内的时间窗编号,将所述第一位置序列与第二位置序列分别展开,并基于相同时间窗编号对展开后的所述第一位置序列与所述第二位置序列进行时间窗对齐;
针对时间窗对齐后的所述第一位置序列和所述第二位置序列,计算同一时间窗内的所述第一位置序列中的终端位置信息与所述第二位置序列中的终端位置信息的距离差值是否小于预设距离阈值;
当计算得到的小于预设距离阈值的时间窗个数达到预设个数阈值或者达到预设百分比,则确定将时间窗个数达到预设个数阈值或者达到预设百分比的第二位置序列对应的其它用户轨迹,确定为与所述历史轨迹相似的用户轨迹。
可选的,当所述第一位置序列或所述第二位置序列展开后的目标时间窗对应的终端位置信息不存在时,所述查找子模块进一步:
将与所述目标时间窗的时间窗编号前后相邻的时间窗所分别对应的终端位置信息进行线性拟合,将拟合得到的终端位置信息确定为与所述目标时间窗对应的终端位置信息。
本申请还提供一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行上述的方法。
本申请还提供一种机器可读存储介质,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,执行上述的方法。
通过以上实施例,基于获取目标用户在指定时间范围内的历史轨迹,并确定在所述指定时间范围内与所述历史轨迹相关的轨迹集合,以及构建相似轨迹计算任务,并将所述相似轨迹计算任务基于预设分配策略部署至若干所述大数据计算节点,以由若干所述大数据计算节点并行计算并从所述轨迹集合中确定出与所述历史轨迹相似的其它用户轨迹。一方面,通过预设的时间窗将用户的信令轨迹进行合并,并在计算用户轨迹的相似轨迹时,将信令轨迹通过预设的时间窗进行展开和拟合,减少大数据系统的数据计算量并提高了相似信令轨迹计算效率。另一方面,通过将相似信令轨迹计算任务分布式部署至大数据系统中的各计算节点进行并行执行,可以方便依托大数据计算节点资源的水平扩展从而实现大数据系统数据计算能力的快速提升。
附图说明
图1是一示例性实施例提供的一种用户轨迹计算方法的流程图;
图2是一示例性实施例提供的一种电子设备的硬件结构图;
图3是一示例性实施例提供的一种用户轨迹计算装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为了使本技术领域的人员更好地理解本说明书实施例中的技术方案,下面先对本说明书实施例涉及的用户轨迹计算的相关技术,进行简要说明。
通常,在一些场景中,由于海量的用户基数以及终端上报信令数据的频率较高,导致大数据系统在进行用户相似轨迹的数据计算过程中,需要计算处理的信令数据过于庞大而致使大数据系统的数据计算量增加,导致用户相似轨迹计算的时间过长。
基于此,本申请旨在提出一种,基于预设时间窗对信令轨迹进行合并、展开及拟合的加速计算方法,使得在可接受的时间范围内完成用户相似轨迹计算的技术方案。
在实现时,大数据系统包括若干大数据计算节点,大数据系统获取目标用户在指定时间范围内的历史轨迹;其中,所述历史轨迹为基于所述目标用户携带的终端上报的信令数据生成的信令轨迹。
进一步地,大数据系统确定在所述指定时间范围内与所述历史轨迹相关的轨迹集合;其中,所述轨迹集合包括除所述目标用户外的其它用户对应生成的若干信令轨迹。
进一步地,大数据系统构建相似轨迹计算任务,并将所述相似轨迹计算任务基于预设分配策略部署至若干所述大数据计算节点,以由若干所述大数据计算节点并行计算并从所述轨迹集合中确定出与所述历史轨迹相似的其它用户轨迹。
在以上方案中,基于获取目标用户在指定时间范围内的历史轨迹,并确定在所述指定时间范围内与所述历史轨迹相关的轨迹集合,以及构建相似轨迹计算任务,并将所述相似轨迹计算任务基于预设分配策略部署至若干所述大数据计算节点,以由若干所述大数据计算节点并行计算并从所述轨迹集合中确定出与所述历史轨迹相似的其它用户轨迹。一方面,通过预设的时间窗将用户的信令轨迹进行合并,并在计算用户轨迹的相似轨迹时,将信令轨迹通过预设的时间窗进行展开和拟合,减少大数据系统的数据计算量并提高了相似信令轨迹计算效率。另一方面,通过将相似信令轨迹计算任务分布式部署至大数据系统中的各计算节点进行并行执行,可以方便依托大数据计算节点资源的水平扩展从而实现大数据系统数据计算能力的快速提升。
下面通过具体实施例并结合具体的应用场景对本申请进行描述。
请参见图1,图1是本申请一实施例提供的一种用户轨迹计算方法的流程图,上述方法应用于大数据系统,上述大数据系统包括若干大数据计算节点,上述方法执行以下步骤:
步骤102、获取目标用户在指定时间范围内的历史轨迹;其中,上述历史轨迹为基于上述目标用户携带的终端上报的信令数据生成的信令轨迹。
步骤104、确定在上述指定时间范围内与上述历史轨迹相关的轨迹集合;其中,上述轨迹集合包括除上述目标用户外的其它用户对应生成的若干信令轨迹。
步骤106、构建相似轨迹计算任务,并将上述相似轨迹计算任务基于预设分配策略部署至若干上述大数据计算节点,以由若干上述大数据计算节点并行计算并从上述轨迹集合中确定出与上述历史轨迹相似的其它用户轨迹。
在本说明书中,上述大数据系统,是指基于任何大数据计算框架进行分布式数据的机器集群。
例如,在实际应用中,上述大数据系统可以是基于Hadoop MapReduce离线计算框架的机器集群,可以是基于Apache Spark近实时计算框架的机器集群,还可以是基于Apache Kafka Streams在线实时计算框架的机器集群、还可以是基于HPC高性能计算框架的机器集群。
在本说明书中,上述大数据系统包括用于进行数据计算处理的若干大数据计算节点和用于进行集群管理的管理节点;其中,各个上述大数据计算节点被预先分配了对应的计算节点标识,该若干大数据计算节点分别可以向该管理节点注册,该管理节点可以对该若干大数据计算节点进行数据计算任务的分配部署以及调度。
需要说明的是,上述大数据系统可以部署在IaaS(Infrastructure as aService)架构的公有云或私有云中,大数据计算节点资源可以在公有云或私有云进行动态增加或减少,也即,通过动态大数据计算节点资源的水平扩展,可以实现大数据系统数据计算能力的快速提升。
在本说明书中,上述终端,可以包括基于任何有线或无线的通信方式接入至任何运营商数据系统的任何形式的终端。
例如,在实际应用中,上述终端具体可以是通过基于2G/3G/4G/5G及Wifi的无线通信方式,或者通过有线网络通信方式接入至移动/联通/电信及其它第三方运营商数据系统的手机、平台、便携机等。
在本说明书中,上述信令数据,是指上述终端与接入的运营商数据系统进行通信过程中发送的信令数据;
其中,上述信令数据至少包括终端标识信息、上报时刻信息、终端位置信息;上述终端标识信息用于唯一标识上述终端,上述终端位置信息表征上述终端所在的地理位置信息,上述上报时刻信息表征上述终端上报上述终端位置信息时对应的时刻。
例如,在实际应用中,上述终端标识信息具体可以为上述终端的SN序列号、MAC地址信息、手机号中的任一或组合。上述终端位置信息具体可以为表征上述终端所在的地理位置信息的经纬度信息。上述上报时刻信息具体可以为表征上述终端上报上述终端位置信息时对应的时刻,该时刻具体可以是包括年月日时分秒的时刻,也可以是将从1970年1月1日开始经过的秒数存储为一个32位/64位整数的“Unix时间纪元”的时刻,上报时刻信息的具体时刻表达方式,在本说明中不作具体限定。
需要说明的是,基于终端的终端标识信息,可以唯一确定携带该终端的用户。
在本说明书中,上述终端可以按照预设时间定时上报的上述信令数据到上述终端接入的运营商数据系统,上述终端接入的运营商数据系统可以保存并记录若干上述终端分别上报的信令数据。
例如,终端可以按照预设30秒时间,定时上报的信令数据到该终端接入的运营商数据系统,该终端接入的运营商数据系统可以保存并记录上百万个终端分别上报的数十亿级别的信令数据。
在本说明书中,上述时间窗为预设时间周期被分割为若干长度相同且被顺序编号的时间段。
例如,以预设时间周期为天为示例,可以将一天分割成长度相同的若干个时间窗,比如:以时间窗为5分钟的时间段,可以将一天分割成为288个长度为5分钟的时间窗,该288个时间窗按时间顺序对应可以被依次编号为0、1、2、...、287。
需要说明的是,上述时间窗的长度在本说明书不作具体限定。
在示出的一种实施方式中,上述大数据系统可以从对接运营商数据系统,获取上述终端上报的上述信令数据。
接着以上示例继续举例,上述大数据系统可以从对接运营商数据系统获取上百万个终端分别上报的数十亿条的上述信令数据。
在本说明书中,进一步地,上述大数据系统可以基于预设的上述时间窗对获取到的上述终端上报的信令数据进行对齐映射,并基于时间窗对齐映射后的上述信令数据进行合并,生成与上述目标用户对应的信令轨迹。
在示出的一种实施方式中,在基于预设的上述时间窗对获取到的上述终端上报的信令数据进行对齐映射,并基于时间窗对齐映射后的上述信令数据进行合并,生成与上述目标用户对应的信令轨迹的过程中,上述大数据系统可以基于上述信令数据中的终端标识信息,将获取到的上述终端上报的信令数据进行设备分组,得到设备分组后的信令数据。
接着以上示例继续举例,上述大数据系统可以基于上述信令数据中的终端标识信息,将获取到的上百万个终端分别上报的数十亿条的上述信令数据进行按照终端标识信息进行设备分组,得到设备分组后的信令数据,也即,得到按照终端标识信息进行设备分组分别得到上百万个终端分别对应的信令数据。
在本说明书中,在得到设备分组后的信令数据后,上述大数据系统可以基于上述信令数据中的上报时刻信息,将设备分组后的信令数据基于上述时间窗进行对齐映射,得到时间窗对齐映射后的信令数据。
以上述时间窗为5分钟为例,在得到设备分组后的上百万个终端分别对应的信令数据后,上述大数据系统可以基于上述信令数据中的上报时刻信息,将设备分组后的上百万个终端分别对应的信令数据,基于上述时间窗进行对齐映射,得到时间窗对齐映射后的信令数据。比如,针对一个终端对应的信令数据,如果某条信令数据中的上报时刻信息位于时间窗编号为0的时间窗的时间段内(00时:00分:00秒-00时:05分:00秒),则该条信令数据对应得到时间窗对齐映射后的信令数据为时间窗编号为0的信令数据。以此类推,如果某条信令数据中的上报时刻信息位于时间窗编号为287的时间窗的时间段内(23时:55分:00秒-00时:00分:00秒),该条信令数据对应得到时间窗对齐映射后的信令数据为时间窗编号为287的信令数据。类似地,针对设备分组后的上百万个终端分别对应的信令数据,进行类似处理,这里不再赘述。
需要说明的是,以上描述仅以一天内的时间窗及其时间窗编号的进行示例,在实际应用中,为了区别多天分别对应的时间窗其时间窗编号,可以先对信令数据按日期先进行按天筛选,再对筛选后的一天内的信令数据按时间窗进行对齐映射。
在本说明书中,在得到时间窗对齐映射后的信令数据后,上述大数据系统可以从上述时间窗对齐映射后的信令数据中,筛选出与上述目标用户对应的终端标识信息对应的时间窗对齐映射后的所有信令数据,并将该所有信令数据中每个信令数据的终端位置信息按时间窗编号顺序串接,合并生成与上述目标用户对应的信令轨迹。
接着以上示例继续举例,在得到上百万个终端分别对应的时间窗对齐映射后的信令数据后,上述大数据系统可以从该上百万个终端分别对应的时间窗对齐映射后的信令数据中,筛选出与上述目标用户对应的终端标识信息对应的时间窗对齐映射后的所有信令数据(比如:该所有信令数据可以包括上述目标用户对应的终端标识信息对应的多天的时间窗对齐映射后的信令数据),并将该所有信令数据中每个信令数据的终端位置信息按时间窗编号顺序串接(比如:将上述目标用户对应的终端标识信息在多天内的终端位置信息顺序串接;其中,每天内的的终端位置信息按照对应时间窗的时间窗编号顺序串接),合并生成与上述目标用户对应的信令轨迹。
需要说明的是,在将每天内的的终端位置信息按照对应时间窗的时间窗编号进行顺序串接方式,具体可以:时间窗编号+对应终端位置信息。比如:可以将一天内288个的时间窗(5分钟长度)的时间窗编号及对应终端位置信息,按时间窗编号从小到大顺序串接在一起,合并上述目标用户对应的一天的信令轨迹。
当然,在实际应用中,一天内288个的时间窗中可能仅在部分时间窗编号对应的时间窗存在对应上报的终端位置信息,比如:(时间窗编号1:存在对应上报的的终端位置信息1)、(时间窗编号127:存在对应上报的终端位置信息127)、(时间窗编号287:存在对应上报的的终端位置信息287),则可以将该3个存在对应上报的终端位置信息,按时间窗编号1、27、287从小到大顺序串接在一起,合并上述目标用户对应的一天的信令轨迹。
在示出的一种实施方式中,在合并生成与上述目标用户在某一天内对应的信令轨迹的过程中,当同一时间窗对应存在同一终端标识信息的多个信令数据时,上述大数据系统可以计算该多个信令数据中的终端位置信息对应的中心点位置信息,并将该中心点位置信息作为该同一终端标识信息的多个信令数据对应在该同一时间窗的终端位置信息。
例如,在合并生成与上述目标用户在某一天内对应的信令轨迹的过程中,当时间窗编号为0对应的时间窗对应存在同一终端标识信息的2个信令数据时,上述大数据系统可以计算该2个信令数据中的终端位置信息对应的中心点位置信息(比如:通过计算该2个信令数据终端位置信息中经纬度的平均值,得到该2个信令数据中的终端位置信息对应的中心点位置信息),并将该中心点位置信息作为该同一终端标识信息的多个信令数据对应在时间窗编号为0对应的时间窗的终端位置信息。
当然,在实际应用中,当同一时间窗对应存在同一终端标识信息的多个信令数据时,除了将计算多个终端位置信息的中心点位置信息作为该同一终端标识信息的多个信令数据对应在该同一时间窗的终端位置信息外,还可以取该多个终端位置信息的众数(比如:同一个时间窗内的多个相同的终端位置信息),将该众数终端位置信息作为该同一终端标识信息的多个信令数据对应在该同一时间窗的终端位置信息。另外,还可以将计算多个终端位置信息进行聚类,并取数目最多的聚类中的多个终端位置信息的中心点位置信息作为该同一终端标识信息的多个信令数据对应在该同一时间窗的终端位置信息。
需要说明的是,与生成上述目标用户对应的信令轨迹的过程类似,可以生成与其它用户对应的信令轨迹,通过将信令轨迹中的同一时间窗内的同一终端标识信息的多个信令数据进行合并,减少大数据系统的数据计算量并提高了大数据计算节点执行相似轨迹计算任务的计算效率。
在本说明书中,在合并生成与多个用户对应终端分别对应的信令轨迹后,上述大数据系统可以获取上述目标用户在指定时间范围内的历史轨迹;其中,上述历史轨迹为基于所述目标用户携带的终端上报的信令数据生成的信令轨迹。
例如,在合并生成上百万个用户对应上百万个终端分别对应的信令轨迹后,上述大数据系统可以获取目标用户A携带的终端对应的终端标识在指定时间范围(比如:上述指定时间范围可以包括最近一个月或者指定起止日期)内的历史轨迹。
需要说明的是,上述指定时间范围的具体格式在本说明书中不作具体限定。
在本说明书中,进一步地,上述大数据系统确定在上述指定时间范围内与上述历史轨迹相关的轨迹集合;其中,上述轨迹集合包括除上述目标用户外的其它用户对应生成的若干信令轨迹。
以上述指定时间范围为最近一个月,上述大数据系统确定在最近一个月与目标用户A的历史轨迹相关的100个其它用户分别对应的100终端信令轨迹,作为与该历史轨迹相关的轨迹集合。
需要说明的是,在确定在上述指定时间范围内与上述历史轨迹相关的轨迹集合过程中,上述大数据系统可以将在上述指定时间范围内在上述历史轨迹的预设区域范围(比如:3千米内,或者属于同一社区、街道、城区、市、交通枢纽)存在交集的其它用户终端的信令轨迹,作为作为与该历史轨迹相关的信令轨迹。
在本说明书中,在确定出上述指定时间范围内与上述历史轨迹相关的轨迹集合后,上述大数据系统可以构建构建相似轨迹计算任务,并将上述相似轨迹计算任务基于预设分配策略部署至若干上述大数据计算节点,以由若干上述大数据计算节点并行计算并从上述轨迹集合中确定出与上述历史轨迹相似的其它用户轨迹。
在示出的一种实施方式中,上述大数据系统可以将上述轨迹集合划分为与若干上述计算节点标识分别对应若干轨迹子集合。
例如,以上述大数据系统包括100个大数据计算节点,每个大数据计算节点被预先分配了对应的计算节点标识为例,与目标用户A的历史轨迹相关的轨迹集合包括10万个其它用户的信令轨迹,上述大数据系统可以将包括10万个其它用户的信令轨迹的轨迹集合划分为与100个大数据计算节点分别对应若干轨迹子集合,比如:计算节点标识1的大数据计算节点对应的轨迹子集合包括第1万个其它用户的信令轨迹,计算节点标识2的大数据计算节点对应的轨迹子集合包括第2万个其它用户的信令轨迹,依次类推。
需要说明的是,在将上述轨迹集合划分为与若干上述计算节点标识分别对应若干轨迹子集合的过程中,可以基于不同分配策略,比如:根据大数据计算节点的计算能力、当前负载、业务负载时间中的任一或组合,为大数据计算节点分配匹配的轨迹子集合。
在本说明书中,进一步地,上述大数据系统构建相似轨迹计算任务,并将上述相似轨迹计算任务部署至与每个上述轨迹子集合对应的计算节点标识的大数据计算节点,并由每个上述大数据计算节点并行计算并从对应的轨迹子集合中确定出与上述历史轨迹相似的其它用户轨迹。
在示出的一种实施方式中,在由每个上述大数据计算节点并行计算并从对应的轨迹子集合中确定出与上述历史轨迹相似的其它用户轨迹的过程中,每个上述大数据计算节点将上述历史轨迹分别与上述轨迹子集合的每个轨迹进行相似轨迹计算,从对应的轨迹子集合中确定出与上述历史轨迹相似的其它用户轨迹。
例如,100个大数据计算节点分别执行并行计算,从分别对应的轨迹子集合的每个轨迹进行相似轨迹计算,从对应的轨迹子集合中确定出与上述历史轨迹相似的其它用户轨迹。
在本说明书中,上述历史轨迹包括了与上述目标用户在上述指定时间范围内的若干时间窗对应终端位置信息的第一位置序列,上述轨迹子集合中的每个轨迹包括了与其它用户在上述指定时间范围内的若干时间窗对应的终端位置信息的第二位置序列。
例如,目标用户A的历史轨迹包括了与目标用户A在最近30天内对应终端位置信息的第一位置序列,该第一位置序列包括最近30天的所有终端位置信息;其中,每天的终端位置信息都基于上述时间窗进行时间窗对齐映射。类似地,轨迹子集合包括了与目标用户A的历史轨迹相关的其它用户的1千万个信令轨迹(1千万个第二位置序列),每个轨迹包括了其它用户在最近30天内的的所有终端位置信息;每天的终端位置信息都基于上述时间窗进行时间窗对齐映射。关于每天的终端位置信息都基于上述时间窗进行时间窗对齐映射的过程,具体请参见前文描述,这里不再赘述。
在示出的一种实施方式中,在将上述历史轨迹分别与上述轨迹子集合的每个轨迹进行相似轨迹计算,从对应的轨迹子集合中确定出与上述历史轨迹相似的其它用户轨迹的过程中,各个上述大数据计算节点基于上述指定时间范围内的时间窗编号,将上述第一位置序列与上述二位置序列分别展开,并基于相同时间窗编号对展开后的上述第一位置序列与上述第二位置序列进行时间窗对齐。
接着以上示例继续举例,各个上述大数据计算节点基于最近30天内中各天的时间窗编号,将上述第一位置序列与上述二位置序列分别展开,并相同各天内的基于相同时间窗编号对展开后的上述第一位置序列与上述第二位置序列进行时间窗对齐。比如:基于在最近1天内的时间窗编号为0至287的288个时间窗(将一天按5分钟划分进行编号的时间窗),将用户A的第一位置序列与其它用户B的第二位置序列的终端位置信息在该288个时间窗中分别展开并按照时间窗对齐,具体请参见如下表1所示:
表1
在示出的一种实施方式中,在将上述第一位置序列和上述第二位置序列分别展开的过程中,如果上述第一位置序列或上述第二位置序列展开后的目标时间窗对应的终端位置信息不存在时,各个上述大数据计算节点将与上述目标时间窗的时间窗编号前后相邻的时间窗所分别对应的终端位置信息进行线性拟合,将拟合得到的终端位置信息确定为与上述目标时间窗对应的终端位置信息。
接着以上示例继续举例,请参见表1,当用户A的第一位置序列或其它用户B的第二位置序列展开后的目标时间窗(比如:该目标时间窗表1中的时间窗编号为1的时间窗)对应的PA2或PB2不存在时(比如:终端重启/关机/卡死、信号不好等情况下导致对应时间窗的终端位置信息为空),大数据计算节点可以将该目标时间窗的时间窗编号前后相邻的时间窗(时间窗编号为0、2的时间窗)所分别对应的终端位置信息进行线性拟合(PA1和PA3可以线性拟合得到PA2′,PB1和PB3可以线性拟合得到PB2′),将拟合得到的PA2′和PB2′,分别确定为用户A的第一位置序列和其它用户B与该目标时间窗对应的终端位置信息。
在本说明书中,在将基于相同时间窗编号对展开后的上述第一位置序列与上述第二位置序列进行时间窗对齐后,针对时间窗对齐后的上述第一位置序列和上述第二位置序列,各个上述大数据计算节点可以计算同一时间窗内的上述第一位置序列中的终端位置信息与上述第二位置序列中的终端位置信息的距离差值是否小于预设距离阈值;当计算得到的小于预设距离阈值的时间窗个数达到预设个数阈值或者达到预设百分比,则确定将时间窗个数达到预设个数阈值或者达到预设百分比的第二位置序列对应的其它用户轨迹,确定为与上述历史轨迹相似的用户轨迹。
接着以上示例继续举例,请参见表1,针对时间窗编号为0至287的288个时间窗,大数据计算节点可以分别计算同一时间窗内的用户A的第一位置序列中的终端位置信息与其它用户B的第二位置序列中的终端位置信息的距离差值是否小于预设距离阈值(比如:小于500米);
当计算得到的小于预设距离阈值(比如:小于500米)的时间窗个数达到预设个数阈值(比如:时间窗个数达到10个)或者达到预设百分比(比如:时间窗占比达到10%),则确定将时间窗个数达到预设个数阈值或者达到预设百分比的其它用户B的第二位置序列对应的其它用户轨迹,确定为与用户A的历史轨迹相似的用户轨迹。
在本说明书中,类似地,每个上述大数据计算节点针对被部署的相似轨迹计算任务,进行并行计算并从对应的轨迹子集合中确定出与上述历史轨迹相似的所有其它用户轨迹。
在本说明书中,进一步地,上述大数据系统将每个上述大数据计算节点确定出的与上述历史轨迹相似的其它用户轨迹进行合并排序,输出与上述历史轨迹相似的其它用户轨迹。
例如,在传染病患者疑似接触者筛查场景中,上述大数据系统将每个上述大数据计算节点确定出的与传染病患者的历史轨迹相似的接触者轨迹进行合并排序,输出与传染病患者的历史轨迹相似的接触者。
当然在实际应用中,上述大数据系统可以将输出与上述历史轨迹相似的其它用户轨迹基于信令轨迹相似的程度进行优选级排序输出。
在以上技术方案中,基于获取目标用户在指定时间范围内的历史轨迹,并确定在所述指定时间范围内与所述历史轨迹相关的轨迹集合,以及构建相似轨迹计算任务,并将所述相似轨迹计算任务基于预设分配策略部署至若干所述大数据计算节点,以由若干所述大数据计算节点并行计算并从所述轨迹集合中确定出与所述历史轨迹相似的其它用户轨迹。一方面,通过预设的时间窗将用户的信令轨迹进行合并,并在计算用户轨迹的相似轨迹时,将信令轨迹通过预设的时间窗进行展开和拟合,减少大数据系统的数据计算量并提高了相似信令轨迹计算效率。另一方面,通过将相似信令轨迹计算任务分布式部署至大数据系统中的各计算节点进行并行执行,可以方便依托大数据计算节点资源的水平扩展从而实现大数据系统数据计算能力的快速提升。
与上述方法实施例相对应,本申请还提供了用户轨迹计算装置的实施例。
与上述方法实施例相对应,本说明书还提供了一种用户轨迹计算装置的实施例。本说明书的用户轨迹计算装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图2所示,为本说明书的用户轨迹计算装置所在电子设备的一种硬件结构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。
图3是本说明书一示例性实施例示出的一种用户轨迹计算装置的框图。
请参见图3,所述用户轨迹计算装置30可以应用于如前图2所示的电子设备,大数据系统包括若干大数据计算节点,所述大数据系统包括若干大数据计算节点,所述装置包括:
获取模块301,获取目标用户在指定时间范围内的历史轨迹;其中,所述历史轨迹为基于所述目标用户携带的终端上报的信令数据生成的信令轨迹;
确定模块302,确定在所述指定时间范围内与所述历史轨迹相关的轨迹集合;其中,所述轨迹集合包括除所述目标用户外的其它用户对应生成的若干信令轨迹;
计算模块303,构建相似轨迹计算任务,并将所述相似轨迹计算任务基于预设分配策略部署至若干所述大数据计算节点,以由若干所述大数据计算节点并行计算并从所述轨迹集合中确定出与所述历史轨迹相似的其它用户轨迹。
在本实施例中,在获取目标用户在指定时间范围内的历史轨迹之前,还包括:
所述获取模块301,获取所述终端上报的信令数据;其中,所述信令数据至少包括终端标识信息、上报时刻信息、终端位置信息;所述终端标识信息用于唯一标识所述终端,所述终端位置信息表征所述终端所在的地理位置信息,所述上报时刻信息表征所述终端上报所述终端位置信息时对应的时刻;
生成模块305(图3中未示出),基于预设的时间窗对获取到的所述终端上报的信令数据进行对齐映射,并基于时间窗对齐映射后的所述信令数据进行合并,生成与所述目标用户对应的信令轨迹。
在本实施例中,所述时间窗为预设时间周期被分割为若干长度相同且被顺序编号的时间段;
所述生成模块305进一步:
基于信令数据中的终端标识信息,将获取到的所述终端上报的信令数据进行设备分组,得到设备分组后的信令数据;
基于信令数据中的上报时刻信息,将设备分组后的信令数据基于时间窗进行对齐映射,得到时间窗对齐映射后的信令数据;
从所述时间窗对齐映射后的信令数据中,筛选出与所述目标用户对应的终端标识信息对应的时间窗对齐映射后的所有信令数据,并将该所有信令数据中每个信令数据的终端位置信息按时间窗编号顺序串接,合并生成与所述目标用户对应的信令轨迹。
在本实施例中,当同一时间窗对应存在同一终端标识信息的多个信令数据时,所述生成模块305进一步:
计算该多个信令数据中的终端位置信息对应的中心点位置信息,并将该中心点位置信息作为该同一终端标识信息的多个信令数据对应在该同一时间窗的终端位置信息。
在本实施例中,所述大数据计算节点被预先分配了对应的计算节点标识;
所述计算模块303包括:
划分子模块3031(图3中未示出),将所述轨迹集合划分为与若干所述计算节点标识分别对应若干轨迹子集合;
查找子模块3032(图3中未示出),构建相似轨迹计算任务,并将所述相似轨迹计算任务部署至与每个所述轨迹子集合对应的计算节点标识的大数据计算节点,并由每个所述大数据计算节点并行计算并从对应的轨迹子集合中确定出与所述历史轨迹相似的其它用户轨迹;
输出子模块3033(图3中未示出),将每个所述大数据计算节点确定出的与所述历史轨迹相似的其它用户轨迹进行合并排序,输出与所述历史轨迹相似的其它用户轨迹。
在本实施例中,所述查找子模块3032:
将所述历史轨迹分别与所述轨迹子集合的每个轨迹进行相似轨迹计算,从对应的轨迹子集合中确定出与所述历史轨迹相似的其它用户轨迹。
在本实施例中,所述历史轨迹包括了与所述目标用户在所述指定时间范围内的若干时间窗对应终端位置信息的第一位置序列,所述轨迹子集合中的每个轨迹包括了与其它用户在所述指定时间范围内的若干时间窗对应的终端位置信息的第二位置序列;
所述查找子模块3032进一步:
基于所述指定时间范围内的时间窗编号,将所述第一位置序列与第二位置序列分别展开,并基于相同时间窗编号对展开后的所述第一位置序列与所述第二位置序列进行时间窗对齐;
针对时间窗对齐后的所述第一位置序列和所述第二位置序列,计算同一时间窗内的所述第一位置序列中的终端位置信息与所述第二位置序列中的终端位置信息的距离差值是否小于预设距离阈值;
当计算得到的小于预设距离阈值的时间窗个数达到预设个数阈值或者达到预设百分比,则确定将时间窗个数达到预设个数阈值或者达到预设百分比的第二位置序列对应的其它用户轨迹,确定为与所述历史轨迹相似的用户轨迹。
在本实施例中,当所述第一位置序列或所述第二位置序列展开后的目标时间窗对应的终端位置信息不存在时,所述查找子模块3032进一步:
将与所述目标时间窗的时间窗编号前后相邻的时间窗所分别对应的终端位置信息进行线性拟合,将拟合得到的终端位置信息确定为与所述目标时间窗对应的终端位置信息。
上述实施例阐明的装置、装置、模块或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
Claims (10)
1.一种用户轨迹计算方法,应用于大数据系统,所述大数据系统包括若干大数据计算节点,所述方法包括:
获取目标用户在指定时间范围内的历史轨迹;所述历史轨迹为基于预设的时间窗对所述目标用户携带的终端上报的信令数据进行对齐映射,并基于时间窗对齐映射后的信令数据进行合并,而生成的与所述目标用户对应的信令轨迹;所述信令数据至少包括上报时刻信息、终端标识信息、终端位置信息;所述时间窗对齐映射后的信令数据,为基于所述信令数据所包括的上报时刻信息将所述信令数据基于时间窗进行对齐映射而得到的;其中,当同一时间窗内存在包括与所述目标用户对应的终端标识信息的多个信令数据时,该多个信令数据对应在该同一时间窗的终端位置信息,为该多个信令数据所包括的终端位置信息对应的中心点位置信息;
确定在所述指定时间范围内与所述历史轨迹相关的轨迹集合;其中,所述轨迹集合包括除所述目标用户外的其它用户对应生成的若干信令轨迹;
构建相似轨迹计算任务,并将所述相似轨迹计算任务基于预设分配策略部署至若干所述大数据计算节点,以由若干所述大数据计算节点并行计算并从所述轨迹集合中确定出与所述历史轨迹相似的其它用户轨迹。
2.根据权利要求1所述的方法,在获取目标用户在指定时间范围内的历史轨迹之前,还包括:
获取所述终端上报的信令数据;其中,所述终端标识信息用于唯一标识所述终端,所述终端位置信息表征所述终端所在的地理位置信息,所述上报时刻信息表征所述终端上报所述终端位置信息时对应的时刻;
基于预设的时间窗对获取到的所述终端上报的信令数据进行对齐映射,并基于时间窗对齐映射后的所述信令数据进行合并,生成与所述目标用户对应的信令轨迹。
3.根据权利要求2所述的方法,所述时间窗为预设时间周期被分割为若干长度相同且被顺序编号的时间段;
所述基于预设的时间窗对获取到的所述终端上报的信令数据进行对齐映射,并基于时间窗对齐映射后的所述信令数据进行合并,生成与所述目标用户对应的信令轨迹,包括:
基于信令数据中的终端标识信息,将获取到的所述终端上报的信令数据进行设备分组,得到设备分组后的信令数据;
基于信令数据中的上报时刻信息,将设备分组后的信令数据基于时间窗进行对齐映射,得到时间窗对齐映射后的信令数据;
从所述时间窗对齐映射后的信令数据中,筛选出与所述目标用户对应的终端标识信息对应的时间窗对齐映射后的所有信令数据,并将该所有信令数据中每个信令数据的终端位置信息按时间窗编号顺序串接,合并生成与所述目标用户对应的信令轨迹。
4.根据权利要求1所述的方法,所述大数据计算节点被预先分配了对应的计算节点标识;
所述构建相似轨迹计算任务,并将所述相似轨迹计算任务基于预设分配策略部署至若干所述大数据计算节点,以由若干所述大数据计算节点并行计算并从所述轨迹集合中确定出与所述历史轨迹相似的其它用户轨迹,包括:
将所述轨迹集合划分为与若干所述计算节点标识分别对应若干轨迹子集合;
构建相似轨迹计算任务,并将所述相似轨迹计算任务部署至与每个所述轨迹子集合对应的计算节点标识的大数据计算节点,并由每个所述大数据计算节点并行计算并从对应的轨迹子集合中确定出与所述历史轨迹相似的其它用户轨迹;
将每个所述大数据计算节点确定出的与所述历史轨迹相似的其它用户轨迹进行合并排序,输出与所述历史轨迹相似的其它用户轨迹。
5.根据权利要求4所述的方法,所述由每个所述大数据计算节点并行计算并从对应的轨迹子集合中确定出与所述历史轨迹相似的其它用户轨迹,包括:
将所述历史轨迹分别与所述轨迹子集合的每个轨迹进行相似轨迹计算,从对应的轨迹子集合中确定出与所述历史轨迹相似的其它用户轨迹。
6.根据权利要求5所述的方法,所述历史轨迹包括了与所述目标用户在所述指定时间范围内的若干时间窗对应终端位置信息的第一位置序列,所述轨迹子集合中的每个轨迹包括了与其它用户在所述指定时间范围内的若干时间窗对应的终端位置信息的第二位置序列;
所述将所述历史轨迹分别与所述轨迹子集合的每个轨迹进行相似轨迹计算,从对应的轨迹子集合中确定出与所述历史轨迹相似的其它用户轨迹,包括:
基于所述指定时间范围内的时间窗编号,将所述第一位置序列与第二位置序列分别展开,并基于相同时间窗编号对展开后的所述第一位置序列与所述第二位置序列进行时间窗对齐;
针对时间窗对齐后的所述第一位置序列和所述第二位置序列,计算同一时间窗内的所述第一位置序列中的终端位置信息与所述第二位置序列中的终端位置信息的距离差值是否小于预设距离阈值;
当计算得到的小于预设距离阈值的时间窗个数达到预设个数阈值或者达到预设百分比,则确定将时间窗个数达到预设个数阈值或者达到预设百分比的第二位置序列对应的其它用户轨迹,确定为与所述历史轨迹相似的用户轨迹。
7.根据权利要求6所述的方法,当所述第一位置序列或所述第二位置序列展开后的目标时间窗对应的终端位置信息不存在时,还包括:
将与所述目标时间窗的时间窗编号前后相邻的时间窗所分别对应的终端位置信息进行线性拟合,将拟合得到的终端位置信息确定为与所述目标时间窗对应的终端位置信息。
8.一种用户轨迹计算装置,应用于大数据系统,所述大数据系统包括若干大数据计算节点,所述装置包括:
获取模块,获取目标用户在指定时间范围内的历史轨迹;所述历史轨迹为基于预设的时间窗对所述目标用户携带的终端上报的信令数据进行对齐映射,并基于时间窗对齐映射后的信令数据进行合并,而生成的与所述目标用户对应的信令轨迹;所述信令数据至少包括上报时刻信息、终端标识信息、终端位置信息;所述时间窗对齐映射后的信令数据,为基于所述信令数据所包括的上报时刻信息将所述信令数据基于时间窗进行对齐映射而得到的;其中,当同一时间窗内存在包括与所述目标用户对应的终端标识信息的多个信令数据时,该多个信令数据对应在该同一时间窗的终端位置信息,为该多个信令数据所包括的终端位置信息对应的中心点位置信息;
确定模块,确定在所述指定时间范围内与所述历史轨迹相关的轨迹集合;其中,所述轨迹集合包括除所述目标用户外的其它用户对应生成的若干信令轨迹;
计算模块,构建相似轨迹计算任务,并将所述相似轨迹计算任务基于预设分配策略部署至若干所述大数据计算节点,以由若干所述大数据计算节点并行计算并从所述轨迹集合中确定出与所述历史轨迹相似的其它用户轨迹。
9.一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行如权利要求1至7任一项所述的方法。
10.一种机器可读存储介质,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010782471.8A CN112040413B (zh) | 2020-08-06 | 2020-08-06 | 用户轨迹计算方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010782471.8A CN112040413B (zh) | 2020-08-06 | 2020-08-06 | 用户轨迹计算方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112040413A CN112040413A (zh) | 2020-12-04 |
CN112040413B true CN112040413B (zh) | 2023-06-20 |
Family
ID=73582522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010782471.8A Active CN112040413B (zh) | 2020-08-06 | 2020-08-06 | 用户轨迹计算方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112040413B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115131393B (zh) * | 2021-08-16 | 2024-04-23 | 北京百度网讯科技有限公司 | 轨迹预测方法、碰撞检测方法、装置、电子设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110944296A (zh) * | 2019-11-27 | 2020-03-31 | 智慧足迹数据科技有限公司 | 运动轨迹的伴随确定方法、装置和服务器 |
CN111158900A (zh) * | 2019-12-09 | 2020-05-15 | 中国船舶重工集团公司第七一六研究所 | 轻量化分布式并行计算系统及方法 |
CN111343581A (zh) * | 2018-12-18 | 2020-06-26 | 北京融信数联科技有限公司 | 一种基于距离的一人多号移动用户识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10263899B2 (en) * | 2012-04-10 | 2019-04-16 | Seven Networks, Llc | Enhanced customer service for mobile carriers using real-time and historical mobile application and traffic or optimization data associated with mobile devices in a mobile network |
CN104778245B (zh) * | 2015-04-09 | 2018-11-27 | 北方工业大学 | 基于海量车牌识别数据的相似轨迹挖掘方法及装置 |
FR3042089B1 (fr) * | 2015-10-02 | 2017-11-24 | Intersec | Dispositif de communication ameliore |
CN110572813A (zh) * | 2018-05-19 | 2019-12-13 | 北京融信数联科技有限公司 | 一种基于移动大数据的手机用户行为相似度分析方法 |
-
2020
- 2020-08-06 CN CN202010782471.8A patent/CN112040413B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111343581A (zh) * | 2018-12-18 | 2020-06-26 | 北京融信数联科技有限公司 | 一种基于距离的一人多号移动用户识别方法 |
CN110944296A (zh) * | 2019-11-27 | 2020-03-31 | 智慧足迹数据科技有限公司 | 运动轨迹的伴随确定方法、装置和服务器 |
CN111158900A (zh) * | 2019-12-09 | 2020-05-15 | 中国船舶重工集团公司第七一六研究所 | 轻量化分布式并行计算系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112040413A (zh) | 2020-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6655533B2 (ja) | ネットワークアドレスへの属性の関連付け | |
US9179435B2 (en) | Filtering and clustering crowd-sourced data for determining beacon positions | |
EP3163466B1 (en) | Trajectory data inquiry method and apparatus | |
CN111148018B (zh) | 基于通信数据识别定位区域价值的方法和装置 | |
CN105989087B (zh) | 一种确定热点区域的方法和装置 | |
Shang et al. | Finding traffic-aware fastest paths in spatial networks | |
CN106055630A (zh) | 日志存储的方法及装置 | |
CN112040413B (zh) | 用户轨迹计算方法、装置及电子设备 | |
CN111311193B (zh) | 公共服务资源的配置方法和装置 | |
US10959041B1 (en) | Traffic analysis of mobile phones partitioned by geohash | |
CN109145225B (zh) | 一种数据处理方法及装置 | |
CN113268550A (zh) | 自治域系统的排行方法、系统、电子设备和存储介质 | |
CN112162912A (zh) | 一种云资源监控方法及系统 | |
CN114782219A (zh) | 一种人员流动数据分析方法及装置 | |
CN107798450B (zh) | 业务分配方法和装置 | |
CN112235714B (zh) | 基于人工智能的poi定位方法、装置、计算机设备及介质 | |
CN109428774B (zh) | 一种dpi设备的数据处理方法及相关的dpi设备 | |
CN112040414B (zh) | 相似轨迹计算方法、装置及电子设备 | |
CN115129751A (zh) | 一种数据查询方法、装置、电子设备及存储介质 | |
CN113157695B (zh) | 数据处理方法、装置、可读介质及电子设备 | |
CN115098799A (zh) | 轨迹相似度确定、风险评估、风险溯源方法及装置 | |
CN111797181B (zh) | 用户职住地的定位方法、装置、控制设备及存储介质 | |
CN109769202B (zh) | 流量数据的定位方法及装置、存储介质、服务器 | |
CN110471926B (zh) | 一种档案建立方法及装置 | |
CN113535730A (zh) | 搜索引擎的索引更新方法及系统、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |