CN111148045A - 用户行为周期提取方法及设备 - Google Patents

用户行为周期提取方法及设备 Download PDF

Info

Publication number
CN111148045A
CN111148045A CN201911400190.5A CN201911400190A CN111148045A CN 111148045 A CN111148045 A CN 111148045A CN 201911400190 A CN201911400190 A CN 201911400190A CN 111148045 A CN111148045 A CN 111148045A
Authority
CN
China
Prior art keywords
user
period
time
track
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911400190.5A
Other languages
English (en)
Other versions
CN111148045B (zh
Inventor
张丝雨
崔凌逍
张嘉帅
陈博
张倬荣
孙雅琳
尹杰
赵越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Unicom Big Data Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Unicom Big Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, Unicom Big Data Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201911400190.5A priority Critical patent/CN111148045B/zh
Publication of CN111148045A publication Critical patent/CN111148045A/zh
Application granted granted Critical
Publication of CN111148045B publication Critical patent/CN111148045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种用户行为周期提取方法及设备,该方法包括获取表征用户移动轨迹的时间序列数据;针对第一区域编码对应的预设周期集合中每个预设周期,将时间序列数据进行切分,得到各分段数据,并确定该预设周期的概率,得到各预设周期的概率;根据各预设周期及其概率,生成周期概率曲线,并获取满足预设条件的各波峰对应的周期,并组合为第一集合;根据所述第一集合中各周期之间的整数倍关系,确定用户移动轨迹中第一区域编码对应的行为周期,以根据该行为周期对用户进行业务推送。本发明实施例能够针对时间不连续即不完整的用户行为轨迹进行周期提取,并能够去除扰动噪声,从而得到更加准确合理的用户行为周期。

Description

用户行为周期提取方法及设备
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种用户行为周期提取方法及设备。
背景技术
基于手机信令的技术可以追踪用户的移动轨迹,挖掘用户的移动轨迹数据中的用户行为周期是大数据时代的研究热点之一,通过对用户行为周期的分析,在微观上可以理解用户的生活习惯和工作稳定情况,在宏观上可以挖掘区域的人口流动规律,基于此可以向用户进行合适的业务推荐。
在现有技术中,可以通过对用户行经的经纬度地点进行区域化分块;对各区域进行以时间序列为轴的用户二值化处理;利用离散傅里叶变换的方法得到用户基于地域的行为周期,还可以通过获取用户行为的时间间隔序列;寻找所述时间间隔序列中相邻元素的波动满足预定条件的周期时间间隔子序列;计算所有所述周期时间间隔子序列的分值;根据所述分值对用户进行分级评价。
然而,上述用户行为周期提取方案是在用户移动轨迹数据较完整的情况处理嘈杂扰动值,实际情况中基于基站的用户移动轨迹数据经常存在丢失的情况,并不适用于现有方法,且当数据值缺失较多时,处理扰动噪声值会更加困难。
发明内容
本发明实施例提供一种用户行为周期提取方法及设备,以提高提取用户行为周期的准确性。
第一方面,本发明实施例提供一种用户行为周期提取方法,包括:
获取表征用户移动轨迹的时间序列数据;所述时间序列数据的每个元素的取值是根据用户在该元素对应时间点所处区域的区域编码确定的;所述用户移动轨迹包括第一区域,所述第一区域的区域编码为第一区域编码;
针对所述第一区域编码对应的预设周期集合中每个预设周期,将所述时间序列数据进行切分,得到该预设周期对应的各分段数据,并根据该各分段数据,确定该预设周期的概率,得到所述第一区域编码对应的所述预设周期集合中各预设周期的概率;
根据所述第一区域编码对应的所述预设周期集合中各预设周期及其概率,生成周期概率曲线,并获取该周期概率曲线中满足预设条件的各波峰对应的周期,并将该各波峰对应的周期组合为第一集合;
根据所述第一集合中各周期之间的整数倍关系,确定用户移动轨迹中第一区域编码对应的行为周期,以根据该行为周期对用户进行业务推送。
在一种可能的设计中,所述获取表征用户移动轨迹的时间序列数据,包括:
获取用户的移动轨迹数据;所述移动轨迹数据包括时间信息和区域信息;所述时间信息包括起始时间点和终止时间点之间的多个时间点;所述区域信息包括第一区域对应的第一区域编码;
根据所述移动轨迹数据的时间信息和所述区域信息,生成第一数组,作为所述时间序列数据;所述第一数组包括所述起始时间点至所述终止时间点之间的所有时间点对应的元素,其中,所述第一数组中对应于所述多个时间点且对应于所述第一区域编码的元素的取值设为第一标记值,对应于所述多个时间点且对应于其余区域编码的元素的取值设为第二标记值,剩余元素的取值设为第三标记值;
所述根据该各分段数据,确定该预设周期的概率,包括:
根据所述时间序列数据中的第一标记值和第二标记值的数量,确定该预设周期的概率。
在一种可能的设计中,所述时间点包括日期和时刻;所述根据所述移动轨迹数据的时间信息和所述区域信息,生成第一数组,包括:
对所述移动轨迹数据进行处理得到第一矩阵;所述第一矩阵为M*N矩阵,M为所述日期中最大值与最小值之间的差值加一,N为时刻范围;所述第一矩阵中对应于所述多个时间点元素的取值设为第一标记值,剩余元素的取值设为第三标记值;
从所述移动轨迹数据中筛选出具有第一区域编码的第一子数据;
根据所述第一子数据,将所述第一矩阵中对应于所述第一子数据中各时间点的各元素的取值更新为第二标记值,得到第二矩阵;
将所述第二矩阵进行一维化,得到所述第一数组。
在一种可能的设计中,所述获取用户的移动轨迹数据,包括:
获取表征用户移动轨迹的X条第一轨迹记录;每条第一轨迹记录的时间信息包括该第一轨迹记录对应的起止时刻和日期;X为正整数;
针对每条第一轨迹记录,根据所述第一轨迹记录的起止时刻,将所述起止时刻之间的各时刻进行补全,得到X条第二轨迹记录;
根据所述X条第二轨迹记录分别对应的日期,将属于同一日期的各第二轨迹记录进行合并得到对应于该日期的第三轨迹记录,将得到的各第三轨迹记录作为所述移动轨迹数据。
在一种可能的设计中,满足预设条件的各波峰为对应概率大于等于预设阈值的各波峰。
在一种可能的设计中,根据所述第一集合中各周期之间的倍数关系,确定用户移动轨迹中第一区域编码对应的周期,包括:
查找所述第一集合中存在整数倍关系的预设周期个数最多的预设周期,并将该预设周期作为用户移动轨迹中第一区域编码对应的行为周期,并将所述存在整数倍关系的预设周期个数作为该行为周期的置信度。
在一种可能的设计中,所述第一区域编码为geohash编码。
第二方面,本发明实施例提供一种用户行为周期提取设备,包括:
获取模块,用于获取表征用户移动轨迹的时间序列数据;所述时间序列数据的每个元素的取值是根据用户在该元素对应时间点所处区域的区域编码确定的;所述用户移动轨迹包括第一区域,所述第一区域的区域编码为第一区域编码;
概率确定模块,用于针对所述第一区域编码对应的预设周期集合中每个预设周期,将所述时间序列数据进行切分,得到该预设周期对应的各分段数据,并根据该各分段数据,确定该预设周期的概率,得到所述第一区域编码对应的所述预设周期集合中各预设周期的概率;
周期筛选模块,用于根据所述第一区域编码对应的所述预设周期集合中各预设周期及其概率,生成周期概率曲线,并获取该周期概率曲线中满足预设条件的各波峰对应的周期,并将该各波峰对应的周期组合为第一集合;
处理模块,用于根据所述第一集合中各周期之间的整数倍关系,确定用户移动轨迹中第一区域编码对应的行为周期,以根据该行为周期对用户进行业务推送。
第三方面,本发明实施例提供一种用户行为周期提取设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的方法。
本实施例提供的用户行为周期提取方法及设备,该方法通过获取表征用户移动轨迹的时间序列数据,并根据该数据计算得到多个预设周期对应概率,由此基于该多个预设周期及其对应概率进行周期概率曲线的绘制,在对曲线中各个波峰进行筛选后,得到满足预设条件的周期组成的第一集合,进而根据该第一集合中各周期之间的整数倍关系,选取最终的行为周期,本实施例提供的方法能够针对时间不连续即不完整的用户行为轨迹进行周期提取,并能够去除扰动噪声,从而得到更加准确合理的用户行为周期,以在微观上可以理解用户的生活习惯和工作稳定情况,宏观上可以挖掘区域的人口流动规律,进而基于此向用户推荐合适的业务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的用户行为周期提取系统的架构示意图;
图2为本发明又一实施例提供的用户行为周期提取方法的流程示意图;
图3为本发明又一实施例提供的用户行为周期提取方法的流程示意图;
图4为本发明又一实施例提供的用户行为周期提取设备的结构示意图;
图5为本发明又一实施例提供的用户行为周期提取设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例提供的用户行为周期提取系统的架构示意图。如图1所示,该系统包括基站101、服务器102、终端设备103和移动终端104。基站101与移动终端104通过无线网络进行信令数据的交互;基站101可以通过无线网络或者互联网将该信令数据发送至服务器102进行存储;终端设备103可以通过互联网从服务器102获取该信令数据,并对该信令数据进行处理,提取出用户的行为周期。
在具体实现过程中,用户通过移动终端104与基站101之间交互的信令数据有可能在时间上并不连续,也即不完整,例如用户在1月1日8点到1月3日9点之间在城市A活动且移动终端104与基站101之间有信令数据的交互,而在1月3日10点到1月4日8点移动终端104因为关机或者机器故障并未与基站101之间进行信令数据的交互。则信令数据出现了间断。
现有的用户行为周期提取方案中,可以通过对用户行经的经纬度地点进行区域化分块;对各区域进行以时间序列为轴的用户二值化处理;利用离散傅里叶变换的方法得到用户基于地域的行为周期,还可以通过获取用户行为的时间间隔序列;寻找所述时间间隔序列中相邻元素的波动满足预定条件的周期时间间隔子序列;计算所有所述周期时间间隔子序列的分值;根据所述分值对用户进行分级评价。然而,上述用户行为周期提取方案是在用户移动轨迹数据较完整的情况处理嘈杂扰动值,实际情况中基于基站的用户移动轨迹数据经常存在丢失的情况,并不适用于现有方法,且当数据值缺失较多时,处理扰动噪声值会更加困难。基于此,本实施例提供一种用户行为周期提取方法,以提高周期提取的准确性。
在本实施例中,通过获取表征用户移动轨迹的时间序列数据,并根据该数据计算得到多个预设周期对应概率,由此基于该多个预设周期及其对应概率进行周期概率曲线的绘制,在对曲线中各个波峰进行筛选后,得到满足预设条件的周期组成的第一集合,进而根据该第一集合中各周期之间的整数倍关系,选取最终的行为周期,本实施例提供的方法能够针对时间不连续即不完整的用户行为轨迹进行周期提取,并能够去除扰动噪声,从而得到更加准确合理的用户行为周期,以在微观上可以理解用户的生活习惯和工作稳定情况,宏观上可以挖掘区域的人口流动规律,进而基于此向用户推荐合适的业务。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本发明又一实施例提供的用户行为周期提取方法的流程示意图。
如图2所示,该方法包括:
201、获取表征用户移动轨迹的时间序列数据;所述时间序列数据的每个元素的取值是根据用户在该元素对应时间点所处区域的区域编码确定的;所述用户移动轨迹包括第一区域,所述第一区域的区域编码为第一区域编码。
本实施例的执行主体可以为图1中的终端设备或服务器。
本实施例中,用户移动轨迹是指由用户在某段时间内的位置信息组成的轨迹。例如用户在1月1日9点至11点位于某商场,11点至12点没有相关的位置信息的记录,12点至13点位于某餐厅,13点至17点位于某商场,17点至18点位于学校。其中商场、餐厅可以理解为不同的区域,假设商场为第一区域,那么其被配置有第一区域编码g1,假设餐厅为第二区域,那么其被配置有第二区域编码g2,假设学校为第三区域,那么其被配置有第三区域编码g3,某日某时刻为时间点。也就是说如果以小时作为最小单位定义时间点,那么从1月1日9点至18点,得到的该用户的时间序列数据可以为g1(1月1日9点)、g1(1月1日10点)、-1(1月1日11点)g2(1月1日12点)、g1(1月1日13点)、g1(1月1日14点)、g1(1月1日15点)、g1(1月1日16点)、g3(1月1日17点)。可以理解,在1月1日11点的时候由于没有相关的位置记录,那么可以用标记-1来填充,当然也可以采用其他标记。并且为便于计算机识别计算,区域编码也可以采用自然数来表示,例如第一区域编码g1可以标记为1,第二区域编码g2可以标记为2、第二区域编码g2可以标记为3。得到(1、1、-1、2、1、1、1、1、3),可选地,如果后续计算中仅需对第一区域相关的元素进行行为周期的确定,那么可以将除第一区域编码以外的其余所有区域编码均标记为0,得到(1、1、-1、0、1、1、1、1、0)以便于去除冗余信息简化计算。
可选地,表征用户移动轨迹的时间序列数据可以根据从基站获取的信令数据生成。
具体的,首先将大量的信令数据按照不同用户进行划分,根据每个用户的信令数据提取该用户的行为周期,以第一用户为例,提取出第一用户的信令数据,并从该信令数据中提取用户的移动轨迹对应的经纬度(例如北纬30度,动静114度)和日期时刻(例如1月1日9点),为了简化计算,可以将获取到的各经纬度进行区域划分,可选地,可以利用geohash算法计算各区域的区域编码。进行该初步处理后,得到了包括日期时刻和区域编码的初始数据。
从该初始数据得到所述时间序列的方式有多种,一种方式是可以将获取到的每一条轨迹信息(某时刻所处位置)一一进行排序处理,得到所述时间序列。另一种方式,可以采用矩阵的形式进行数据处理,以简化计算,具体过程可以参考图3所示的实施例,此处不再赘述。
202、针对所述第一区域编码对应的预设周期集合中每个预设周期,将所述时间序列数据进行切分,得到该预设周期对应的各分段数据,并根据该各分段数据,确定该预设周期的概率,得到所述第一区域编码对应的所述预设周期集合中各预设周期的概率。
本实施例中,所述预设周期集合中各预设周期是根据具体的分析需求来定的,例如,若侧重分析用户的工作地点,工作周期,那么可以以8小时为最小的预设周期,其余的预设周期可以设置为8a小时,a为大于1的正整数。可选地,该预设周期集合可以包括8小时、16小时、24小时、48小时等周期。
在具体实现过程中,假设仅对第一区域进行用户行为周期的确定,在时间序列数据中,对应于第一区域的时间点的元素被标记为1,对应于其余区域的时间点的元素被标记为0。设定一个预设周期集合Period1={T0,...,Tn}。对于Period1中任一预设周期Tm,设Period2={0,1,...,Tm},将序列
Figure BDA0002347304390000081
进行切分,切分的每段跨越的时长为Tm(最后一段不够时采取舍弃)。
Figure BDA0002347304390000082
为每段中第i个位置为1(对应该时间点的区域为第一区域)的元素个数和,
Figure BDA0002347304390000083
为每段第i个位置为0(对应该时间点的区域为除第一区域之外的其他区域)的元素个数和,
Figure BDA0002347304390000084
为切分的段数,则设
Figure BDA0002347304390000085
Figure BDA0002347304390000086
则Tm对于时间序列数据作为周期的概率为:
Figure BDA0002347304390000087
其中,
Period3={i∈Period2:ci>0} (2)
Figure BDA0002347304390000088
最终输出用户在第一区域中的概率-周期关系序列为:
Figure BDA0002347304390000089
203、根据所述第一区域编码对应的所述预设周期集合中各预设周期及其概率,生成周期概率曲线,并获取该周期概率曲线中满足预设条件的各波峰对应的周期,并将该各波峰对应的周期组合为第一集合。
可以理解,理论上得到步骤202的概率-周期关系序列后,将关系转换为周期概率曲线,捕捉波峰对应的周期组成第一集合Period4,但是由于真实数据缺失值较多,扰动值较多,为使计算结果准确,需先进行波峰筛选,可仅将满足预设条件的波峰对应的周期提取放入第一集合Period4。可选地,可以将波峰对应的概率高于预设阈值α时,才将该波峰对应的周期加入序列Period4。
204、根据所述第一集合中各周期之间的整数倍关系,确定用户移动轨迹中第一区域编码对应的行为周期,以根据该行为周期对用户进行业务推送。
本实施例中,若Tm是用户在第一区域的行为周期,则该行为周期的倍数Tm*n,n∈N+依然是用户在第一区域的行为周期。基于此可以对Period4中的各周期进行处理得到最终的针对第一区域的行为周期。
具体的,可以先将Period4中的各周期按照升序排列,设周期列表Period5为空,从小到大遍历Period4中的每一个元素t,该元素置信度初始值SCt=0,计算Period4中比t大的元素f是否能整除t,若能整除则将该元素t加入Period5中,并将SCt加一,当遍历结束后,取Period5中SC值最大的元素作为用户在第一区域的行为周期,并输出其对应置信度SC。
本方案中可以通过时间序列数据计算用户在其他区域的行为周期。还可以依据上述方法计算其他用户在其活动区域的行为周期。得到对特定群体的行为周期分析结果。此处不再赘述。
本实施例提供的用户行为周期提取方法,通过获取表征用户移动轨迹的时间序列数据,并根据该数据计算得到多个预设周期对应概率,由此基于该多个预设周期及其对应概率进行周期概率曲线的绘制,在对曲线中各个波峰进行筛选后,得到满足预设条件的周期组成的第一集合,进而根据该第一集合中各周期之间的整数倍关系,选取最终的行为周期,本实施例提供的方法能够针对时间不连续即不完整的用户行为轨迹进行周期提取,并能够去除扰动噪声,从而得到更加准确合理的用户行为周期,以在微观上可以理解用户的生活习惯和工作稳定情况,宏观上可以挖掘区域的人口流动规律,进而基于此向用户推荐合适的业务。
图3为本发明又一实施例提供的用户行为周期提取方法的流程示意图。如图3所示,在上述实施例的基础上,本实施例对步骤201的实现过程进行了详细说明,步骤201可以包括包括:
301、获取用户的移动轨迹数据;所述移动轨迹数据包括时间信息和区域信息;所述时间信息包括起始时间点和终止时间点之间的多个时间点;所述区域信息包括第一区域对应的第一区域编码。
可选地,所述获取用户的移动轨迹数据,包括:
3011、获取表征用户移动轨迹的X条第一轨迹记录;每条第一轨迹记录的时间信息包括该第一轨迹记录对应的起止时刻和日期;X为正整数。
3012、针对每条第一轨迹记录,根据所述第一轨迹记录的起止时刻,将所述起止时刻之间的各时刻进行补全,得到X条第二轨迹记录。
3013、根据所述X条第二轨迹记录分别对应的日期,将属于同一日期的各第二轨迹记录进行合并得到对应于该日期的第三轨迹记录,将得到的各第三轨迹记录作为所述移动轨迹数据。
在具体的过程中,由于第一轨迹记录是时间跨度格式,故首先进行时间补全操作,生成该日期的时间序列,即第二轨迹记录,即对每条第一轨迹记录生成从
Figure BDA0002347304390000101
Figure BDA0002347304390000102
的等差数列,差值为1,例如
Figure BDA0002347304390000103
为9点,
Figure BDA0002347304390000104
为12点,则可以补全为9点、10点、11点、12点。当
Figure BDA0002347304390000105
时,记为
Figure BDA0002347304390000106
Figure BDA0002347304390000107
时,记为
Figure BDA0002347304390000108
例如
Figure BDA0002347304390000109
为9点,
Figure BDA00023473043900001010
为9点,则补全为9点,也就是说将起止时间段转换为该时间段内的各时间点。
进行时间补全后,还需要对相同日期的第一轨迹记录进行合并,例如1月1日对应了多段第一轨迹记录,那么将该多段第一轨迹记录的时间点进行汇总后得到一条记录。因此在按照日期进行汇总去重后,处理后得到m条第二轨迹记录,记为
Figure BDA00023473043900001011
其中,m为用户被记录的天数,也即起始日期与终止日期之间的差值;
由于日期的记录也存在缺失,故对缺失的日期按照时间序列进行填充,该填充日期的轨迹记录设置为空,设在日期概念上p为dm与d0上相差天数。设本步骤的操作为函数f1(x),则最终输出数据记为
Figure BDA00023473043900001012
Seq3即为第三轨迹记录。
302、根据所述移动轨迹数据的时间信息和所述区域信息,生成第一数组,作为所述时间序列数据;所述第一数组包括所述起始时间点至所述终止时间点之间的所有时间点对应的元素,其中,所述第一数组中对应于所述多个时间点且对应于所述第一区域编码的元素的取值设为第一标记值,对应于所述多个时间点且对应于其余区域编码的元素的取值设为第二标记值,剩余元素的取值设为第三标记值。
相应的,步骤202中所述根据该各分段数据,确定该预设周期的概率,包括:根据所述时间序列数据中的第一标记值和第二标记值的数量,确定该预设周期的概率。
可选地,所述时间点包括日期和时刻;所述根据所述移动轨迹数据的时间信息和所述区域信息,生成第一数组,包括:
3021、对所述移动轨迹数据进行处理得到第一矩阵;所述第一矩阵为M*N矩阵,M为所述日期中最大值与最小值之间的差值加一,N为时刻范围;所述第一矩阵中对应于所述多个时间点元素的取值设为第一标记值,剩余元素的取值设为第三标记值;
可选地,为记录全面和连续,可以以一整天为时刻范围,N可以为24。
3022、从所述移动轨迹数据中筛选出具有第一区域编码的第一子数据;
3023、根据所述第一子数据,将所述第一矩阵中对应于所述第一子数据中各时间点的各元素的取值更新为第二标记值,得到第二矩阵;
3024、将所述第二矩阵进行一维化,得到所述第一数组。
在具体实现过程中,首先可以生成用户是否缺失移动轨迹的序列记录,初始化记录为
Figure BDA0002347304390000111
该记录为M*24的矩阵,M=p+1。
将seq3中对应日期di记录到的小时数序列
Figure BDA0002347304390000112
填充到seq4第i行,
Figure BDA0002347304390000113
对应列改为0,其中0代表用户在该时间段有被记录到,-1表示用户在该时间段数据缺失,设本步骤的改值操作函数为f2(x),即为seq5=f2(seq4)。
为了剔除活动不频繁的区域,可以对seq1中geohash编码进行计数降序排列,取前q个地域编码组成集合gsq。设任意地域编码gp∈gsq,选择seq1中g=gp的记录,生成基于单个地域编码的运动轨迹数据,即
Figure BDA0002347304390000114
Figure BDA0002347304390000115
其中x表示seq1中的记录,x_g表示该条记录的geohash编码,以此循环生成用户ui的q个基于地域编码的运动轨迹数据集合trail1,记为:
Figure BDA0002347304390000116
针对trail1中的每个元素集合,分别进行第二步骤中的第一步来补全时间与日期数据,记输出的数据集合为trail2:
Figure BDA0002347304390000117
针对任一地域编码gp,初始化seq7=seq5
Figure BDA0002347304390000121
中对应日期di记录到的小时数序列
Figure BDA0002347304390000122
填充到seq7第i行,
Figure BDA0002347304390000123
对应列改为1,其中1表示用户在该地域该时间段出现,0表示用户在该地域该时间段未出现,-1表示该用户在该时间段数据缺失,设该改值操作函数为f3(x),将trail2中每个元素集合依次进行f3(x)操作,则输出为:
Figure BDA0002347304390000124
即生成用户基于区域的轨迹序列化记录。
如果仅针对用户在第一区域的行为周期进行运算,那么可以从trail3中提取相应的seq7序列作为第二矩阵。并将该第二矩阵进行一维化,即将第二矩阵的各行按照第一行、第二行、第三行的顺序进行拼接,直至将最后一行的数据拼接进去,得到一维化后的第二矩阵,即第一数组。
本实施例提供的用户行为周期提取方法,通过采用数组的形式,为数组中有第一区域移动轨迹记录的时间点、有其余区域移动轨迹记录的时间点和没有移动轨迹记录的时间点进行了不同的标记,将移动轨迹数据中的时间点、区域编码均进行按照时间顺序的完全呈现。为后续步骤中预设周期概率的计算及最终周期的确定提供了准确的数据基础,且便于简化运算,节约计算资源。
图4为本发明又一实施例提供的用户行为周期提取设备的结构示意图。如图4所示,该用户行为周期提取设备40包括:获取模块401、概率确定模块402、周期筛选模块403以及处理模块404。
获取模块401,用于获取表征用户移动轨迹的时间序列数据;所述时间序列数据的每个元素的取值是根据用户在该元素对应时间点所处区域的区域编码确定的;所述用户移动轨迹包括第一区域,所述第一区域的区域编码为第一区域编码;
概率确定模块402,用于针对所述第一区域编码对应的预设周期集合中每个预设周期,将所述时间序列数据进行切分,得到该预设周期对应的各分段数据,并根据该各分段数据,确定该预设周期的概率,得到所述第一区域编码对应的所述预设周期集合中各预设周期的概率;
周期筛选模块403,用于根据所述第一区域编码对应的所述预设周期集合中各预设周期及其概率,生成周期概率曲线,并获取该周期概率曲线中满足预设条件的各波峰对应的周期,并将该各波峰对应的周期组合为第一集合;
处理模块404,用于根据所述第一集合中各周期之间的整数倍关系,确定用户移动轨迹中第一区域编码对应的行为周期,以根据该行为周期对用户进行业务推送。
本发明实施例提供的用户行为周期提取设备,通过获取表征用户移动轨迹的时间序列数据,并根据该数据计算得到多个预设周期对应概率,由此基于该多个预设周期及其对应概率进行周期概率曲线的绘制,在对曲线中各个波峰进行筛选后,得到满足预设条件的周期组成的第一集合,进而根据该第一集合中各周期之间的整数倍关系,选取最终的行为周期,本实施例提供的提取设备能够针对时间不连续即不完整的用户行为轨迹进行周期提取,并能够去除扰动噪声,从而得到更加准确合理的用户行为周期,以在微观上可以理解用户的生活习惯和工作稳定情况,宏观上可以挖掘区域的人口流动规律,进而基于此向用户推荐合适的业务。
可选地,所述获取模块401具体用于:
获取用户的移动轨迹数据;所述移动轨迹数据包括时间信息和区域信息;所述时间信息包括起始时间点和终止时间点之间的多个时间点;所述区域信息包括第一区域对应的第一区域编码;
根据所述移动轨迹数据的时间信息和所述区域信息,生成第一数组,作为所述时间序列数据;所述第一数组包括所述起始时间点至所述终止时间点之间的所有时间点对应的元素,其中,所述第一数组中对应于所述多个时间点且对应于所述第一区域编码的元素的取值设为第一标记值,对应于所述多个时间点且对应于其余区域编码的元素的取值设为第二标记值,剩余元素的取值设为第三标记值;
所述概率确定模块402具体用于:
根据所述时间序列数据中的第一标记值和第二标记值的数量,确定该预设周期的概率。
可选地,所述获取模块401具体用于:
对所述移动轨迹数据进行处理得到第一矩阵;所述第一矩阵为M*N矩阵,M为所述日期中最大值与最小值之间的差值加一,N为时刻范围;所述第一矩阵中对应于所述多个时间点元素的取值设为第一标记值,剩余元素的取值设为第三标记值;
从所述移动轨迹数据中筛选出具有第一区域编码的第一子数据;
根据所述第一子数据,将所述第一矩阵中对应于所述第一子数据中各时间点的各元素的取值更新为第二标记值,得到第二矩阵;
将所述第二矩阵进行一维化,得到所述第一数组。
可选地,所述获取模块401具体用于:
获取表征用户移动轨迹的X条第一轨迹记录;每条第一轨迹记录的时间信息包括该第一轨迹记录对应的起止时刻和日期;X为正整数;
针对每条第一轨迹记录,根据所述第一轨迹记录的起止时刻,将所述起止时刻之间的各时刻进行补全,得到X条第二轨迹记录;
根据所述X条第二轨迹记录分别对应的日期,将属于同一日期的各第二轨迹记录进行合并得到对应于该日期的第三轨迹记录,将得到的各第三轨迹记录作为所述移动轨迹数据。
可选地,满足预设条件的各波峰为对应概率大于等于预设阈值的各波峰。
可选地,所述处理模块404具体用于
查找所述第一集合中存在整数倍关系的预设周期个数最多的预设周期,并将该预设周期作为用户移动轨迹中第一区域编码对应的行为周期,并将所述存在整数倍关系的预设周期个数作为该行为周期的置信度。
可选地,所述第一区域编码为geohash编码。
本发明实施例提供的用户行为周期提取设备,可用于执行上述的方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
图5为本发明又一实施例提供的用户行为周期提取设备的硬件结构示意图。如图5所示,本实施例提供的用户行为周期提取设备50包括:至少一个处理器501和存储器502。该用户行为周期提取设备50还包括通信部件503。其中,处理器501、存储器502以及通信部件503通过总线504连接。
在具体实现过程中,至少一个处理器501执行所述存储器502存储的计算机执行指令,使得至少一个处理器501执行如上用户行为周期提取设备50所执行的用户行为周期提取方法。
当本实施例的周期提取步骤执行时,该通信部件503可以将获取到的时间序列数据发送给服务器。
处理器501的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图5所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上用户行为周期提取设备执行的用户行为周期提取方法。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上用户行为周期提取设备执行的用户行为周期提取方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种用户行为周期提取方法,其特征在于,包括:
获取表征用户移动轨迹的时间序列数据;所述时间序列数据的每个元素的取值是根据用户在该元素对应时间点所处区域的区域编码确定的;所述用户移动轨迹包括第一区域,所述第一区域的区域编码为第一区域编码;
针对所述第一区域编码对应的预设周期集合中每个预设周期,将所述时间序列数据进行切分,得到该预设周期对应的各分段数据,并根据该各分段数据,确定该预设周期的概率,得到所述第一区域编码对应的所述预设周期集合中各预设周期的概率;
根据所述第一区域编码对应的所述预设周期集合中各预设周期及其概率,生成周期概率曲线,并获取该周期概率曲线中满足预设条件的各波峰对应的周期,并将该各波峰对应的周期组合为第一集合;
根据所述第一集合中各周期之间的整数倍关系,确定用户移动轨迹中第一区域编码对应的行为周期,以根据该行为周期对用户进行业务推送。
2.根据权利要求1所述的方法,其特征在于,所述获取表征用户移动轨迹的时间序列数据,包括:
获取用户的移动轨迹数据;所述移动轨迹数据包括时间信息和区域信息;所述时间信息包括起始时间点和终止时间点之间的多个时间点;所述区域信息包括第一区域对应的第一区域编码;
根据所述移动轨迹数据的时间信息和所述区域信息,生成第一数组,作为所述时间序列数据;所述第一数组包括所述起始时间点至所述终止时间点之间的所有时间点对应的元素,其中,所述第一数组中对应于所述多个时间点且对应于所述第一区域编码的元素的取值设为第一标记值,对应于所述多个时间点且对应于其余区域编码的元素的取值设为第二标记值,剩余元素的取值设为第三标记值;
所述根据该各分段数据,确定该预设周期的概率,包括:
根据所述时间序列数据中的第一标记值和第二标记值的数量,确定该预设周期的概率。
3.根据权利要求2所述的方法,其特征在于,所述时间点包括日期和时刻;所述根据所述移动轨迹数据的时间信息和所述区域信息,生成第一数组,包括:
对所述移动轨迹数据进行处理得到第一矩阵;所述第一矩阵为M*N矩阵,M为所述日期中最大值与最小值之间的差值加一,N为时刻范围;所述第一矩阵中对应于所述多个时间点元素的取值设为第一标记值,剩余元素的取值设为第三标记值;
从所述移动轨迹数据中筛选出具有第一区域编码的第一子数据;
根据所述第一子数据,将所述第一矩阵中对应于所述第一子数据中各时间点的各元素的取值更新为第二标记值,得到第二矩阵;
将所述第二矩阵进行一维化,得到所述第一数组。
4.根据权利要求2所述的方法,其特征在于,所述获取用户的移动轨迹数据,包括:
获取表征用户移动轨迹的X条第一轨迹记录;每条第一轨迹记录的时间信息包括该第一轨迹记录对应的起止时刻和日期;X为正整数;
针对每条第一轨迹记录,根据所述第一轨迹记录的起止时刻,将所述起止时刻之间的各时刻进行补全,得到X条第二轨迹记录;
根据所述X条第二轨迹记录分别对应的日期,将属于同一日期的各第二轨迹记录进行合并得到对应于该日期的第三轨迹记录,将得到的各第三轨迹记录作为所述移动轨迹数据。
5.根据权利要求1所述的方法,其特征在于,满足预设条件的各波峰为对应概率大于等于预设阈值的各波峰。
6.根据权利要求1所述的方法,其特征在于,根据所述第一集合中各周期之间的倍数关系,确定用户移动轨迹中第一区域编码对应的周期,包括:
查找所述第一集合中存在整数倍关系的预设周期个数最多的预设周期,并将该预设周期作为用户移动轨迹中第一区域编码对应的行为周期,并将所述存在整数倍关系的预设周期个数作为该行为周期的置信度。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述第一区域编码为geohash编码。
8.一种用户行为周期提取设备,其特征在于,包括:
获取模块,用于获取表征用户移动轨迹的时间序列数据;所述时间序列数据的每个元素的取值是根据用户在该元素对应时间点所处区域的区域编码确定的;所述用户移动轨迹包括第一区域,所述第一区域的区域编码为第一区域编码;
概率确定模块,用于针对所述第一区域编码对应的预设周期集合中每个预设周期,将所述时间序列数据进行切分,得到该预设周期对应的各分段数据,并根据该各分段数据,确定该预设周期的概率,得到所述第一区域编码对应的所述预设周期集合中各预设周期的概率;
周期筛选模块,用于根据所述第一区域编码对应的所述预设周期集合中各预设周期及其概率,生成周期概率曲线,并获取该周期概率曲线中满足预设条件的各波峰对应的周期,并将该各波峰对应的周期组合为第一集合;
处理模块,用于根据所述第一集合中各周期之间的整数倍关系,确定用户移动轨迹中第一区域编码对应的行为周期,以根据该行为周期对用户进行业务推送。
9.一种用户行为周期提取设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至7任一项所述的用户行为周期提取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至7任一项所述的用户行为周期提取方法。
CN201911400190.5A 2019-12-30 2019-12-30 用户行为周期提取方法及设备 Active CN111148045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911400190.5A CN111148045B (zh) 2019-12-30 2019-12-30 用户行为周期提取方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911400190.5A CN111148045B (zh) 2019-12-30 2019-12-30 用户行为周期提取方法及设备

Publications (2)

Publication Number Publication Date
CN111148045A true CN111148045A (zh) 2020-05-12
CN111148045B CN111148045B (zh) 2022-02-11

Family

ID=70522108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911400190.5A Active CN111148045B (zh) 2019-12-30 2019-12-30 用户行为周期提取方法及设备

Country Status (1)

Country Link
CN (1) CN111148045B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592308A (zh) * 2021-08-02 2021-11-02 浙江大学 一种基于常态模型的监测数据告警阈值提取方法
CN114440920A (zh) * 2022-01-27 2022-05-06 电信科学技术第十研究所有限公司 基于电子地图的轨迹流动显示方法及装置
CN114579554A (zh) * 2022-03-08 2022-06-03 京东科技信息技术有限公司 运维时间序列数据处理方法及装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080097950A1 (en) * 2006-10-18 2008-04-24 Hideki Kobayashi Behavior prediction apparatus and method
CN104331404A (zh) * 2013-07-22 2015-02-04 中国科学院深圳先进技术研究院 一种基于用户手机上网数据的用户行为预测方法和装置
CN107316200A (zh) * 2016-04-26 2017-11-03 阿里巴巴集团控股有限公司 一种分析用户行为周期的方法和装置
CN108399496A (zh) * 2018-02-09 2018-08-14 中国人民解放军海军航空大学 基于概率的机群作战序贯活动的打击周期评估方法
CN110263840A (zh) * 2019-06-13 2019-09-20 东软集团股份有限公司 一种线路分析方法、装置及程序产品、存储介质
CN110309434A (zh) * 2018-10-10 2019-10-08 腾讯大地通途(北京)科技有限公司 一种轨迹数据处理方法、装置以及相关设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080097950A1 (en) * 2006-10-18 2008-04-24 Hideki Kobayashi Behavior prediction apparatus and method
CN104331404A (zh) * 2013-07-22 2015-02-04 中国科学院深圳先进技术研究院 一种基于用户手机上网数据的用户行为预测方法和装置
CN107316200A (zh) * 2016-04-26 2017-11-03 阿里巴巴集团控股有限公司 一种分析用户行为周期的方法和装置
CN108399496A (zh) * 2018-02-09 2018-08-14 中国人民解放军海军航空大学 基于概率的机群作战序贯活动的打击周期评估方法
CN110309434A (zh) * 2018-10-10 2019-10-08 腾讯大地通途(北京)科技有限公司 一种轨迹数据处理方法、装置以及相关设备
CN110263840A (zh) * 2019-06-13 2019-09-20 东软集团股份有限公司 一种线路分析方法、装置及程序产品、存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592308A (zh) * 2021-08-02 2021-11-02 浙江大学 一种基于常态模型的监测数据告警阈值提取方法
CN113592308B (zh) * 2021-08-02 2022-07-12 浙江大学 一种基于常态模型的监测数据告警阈值提取方法
CN114440920A (zh) * 2022-01-27 2022-05-06 电信科学技术第十研究所有限公司 基于电子地图的轨迹流动显示方法及装置
CN114579554A (zh) * 2022-03-08 2022-06-03 京东科技信息技术有限公司 运维时间序列数据处理方法及装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN111148045B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN111148045B (zh) 用户行为周期提取方法及设备
US10281284B2 (en) Hybrid road network and grid based spatial-temporal indexing under missing road links
CN111212383B (zh) 区域常住人口数量的确定方法、装置、服务器和介质
CN112069276B (zh) 地址编码方法、装置、计算机设备及计算机可读存储介质
CN113065474B (zh) 行为识别方法、装置及计算机设备
CN109541730A (zh) 一种大气污染物浓度预测的方法及设备
CN110807068A (zh) 换设备用户的识别方法、装置、计算机设备和存储介质
CN106301979B (zh) 检测异常渠道的方法和系统
CN115424053A (zh) 小样本图像识别方法、装置、设备及存储介质
CN113570635A (zh) 目标运动轨迹还原方法、装置、电子设备、存储介质
CN113704373B (zh) 基于移动轨迹数据的用户识别方法、装置及存储介质
CN114580554A (zh) 基于轨迹特征挖掘的船舶伴随模式检测方法、系统和介质
CN111198972B (zh) 用户职住地识别方法、装置、控制设备及存储介质
CN112687079A (zh) 灾害预警方法、装置、设备及存储介质
CN111190896B (zh) 数据处理方法、装置、存储介质和计算机设备
CN110046632B (zh) 模型训练方法和装置
CN116227573A (zh) 分割模型训练方法、图像分割方法、装置及相关介质
CN114394099A (zh) 车辆行驶异常识别方法、装置、计算机设备及存储介质
CN114399314A (zh) 一种用户检测方法、装置、设备及介质
CN110475198B (zh) 一种城市道路用户轨迹纠偏处理方法及装置
CN113010788A (zh) 信息推送方法及装置、电子设备、计算机可读存储介质
CN108629610B (zh) 推广信息曝光量的确定方法和装置
CN112836827A (zh) 模型训练方法、装置以及计算机设备
CN117596551B (zh) 一种基于手机信令数据的绿道网用户行为还原方法及装置
US11631047B2 (en) System and method of geocoding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant