轨迹特征的提取方法、装置、存储介质及终端
技术领域
本发明实施例涉及数据分析技术领域,尤其涉及轨迹特征的提取方法、装置、存储介质及终端。
背景技术
随着移动互联网的快速发展,基于用户位置的服务越来越多,如基于位置的个性化推荐服务或者基于位置信息的风控反欺诈服务。但是目前基于用户行为轨迹的服务比较少,目前除了地图、导航及打车等应用程序之外,其他应用程序获取的用户行为轨迹数据相对比较稀疏离散,非结构化,难以完美形成类似地图、导航及打车等应用程序构建的连续不中断的轨迹路线图,因此,针对稀疏离散的用户行为数据,难以提取用户的行为轨迹特征,进而会影响这一重要特征的业务应用。
发明内容
本发明实施例提供一种轨迹特征的提取方法、装置、存储介质及终端,以将离散非结构化的用户位置数据转化为结构化、标准化的用户行为轨迹特征。
第一方面,本发明实施例提供了一种轨迹特征的提取方法,该方法包括:
获取至少两个时间区间内的用户位置数据;
针对各个时间区间,根据所述时间区间内的用户位置数据确定所述时间区间内的位置中心点及位置中心点密度;
将各个时间区间内的位置中心点构造的轨迹点向量和各个时间区间内的位置中心点密度构造的轨迹密度向量作为用户轨迹特征。
第二方面,本发明实施例还提供了一种轨迹特征的提取装置,该装置包括:
用户位置数据获取模块,用于获取至少两个时间区间内的用户位置数据;
位置中心点及密度确定模块,用于针对各个时间区间,根据所述时间区间内的用户位置数据确定所述时间区间内的位置中心点及位置中心点密度;
用户轨迹特征提取模块,用于将各个时间区间内的位置中心点构造的轨迹点向量和各个时间区间内的位置中心点密度构造的轨迹密度向量作为用户轨迹特征。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的轨迹特征的提取方法。
第四方面,本发明实施例提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例提供的轨迹特征的提取方法。
本发明实施例中提供的轨迹特征的提取方法,获取至少两个时间区间内的用户位置数据,并针对各个时间区间,根据时间区间内的用户位置数据确定时间区间内的位置中心点及位置中心点密度,最后将各个时间区间内的位置中心点构造的轨迹点向量和各个时间区间内的位置中心点密度构造的轨迹密度向量作为用户轨迹特征。通过采用上述技术手段,能够将离散非结构化的用户位置数据转化为结构化、标准化的用户行为轨迹特征,从而准确地刻画出用户的日常行为轨迹,有利于后续轨迹数据的深度挖掘及应用。
附图说明
图1为本发明实施例提供的一种轨迹特征的提取方法的流程示意图;
图2为本发明实施例提供的基于各个时间区间内的位置中心点构造的用户轨迹示意图;
图3为本发明实施例提供的另一种轨迹特征的提取方法的流程示意图;
图4为本发明实施例提供的一种轨迹特征的提取装置的结构框图;
图5为本发明实施例提供的一种终端的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明实施例提供的一种轨迹特征的提取方法的流程示意图,该方法可以由轨迹特征的提取装置执行,其中该装置可由软件和/或硬件实现,一般可集成在终端设备中。如图1所示,该方法包括:
步骤101、获取至少两个时间区间内的用户位置数据。
示例性的,终端可以包括但不限于智能手机、平板电脑、笔记本电脑、掌上电脑等终端设备。其中,该终端的操作系统可以包括但不限于Android操作系统、IOS操作系统、Windows Phone8操作系统等。
在本发明实施例中,获取至少两个时间区间内的用户位置数据,其中,至少两个时间区间可以连续,也可以不连续,还可以部分连续。例如,获取8-12点,12-16点,16-20点这三个连续的时间区间内的用户位置数据;又如,获取8-12点,13-17点,18-22点这三个不连续的时间区间内的用户位置数据;再如,获取8-11点,13-16点,16-19点,20-23点这四个时间区间内的用户位置数据。另外,至少两个时间区间中的每个时间区间的长度可以相同,也可以不同,本发明实施例对此也不做限定。
示例性的,可以将用户使用的移动终端(如手机)中的定位模块获取的位置信息作为用户位置数据。其中,可对获取至少两个时间区间内大量的原始用户位置数据进行预处理,删除其中非有效的位置数据,如去除属性缺失的位置数据。
可选的,获取至少两个时间区间内的用户位置数据,包括:获取预设时间段内的用户位置数据集;获取按照预设时间划分规则确定的至少两个时间区间;从所述用户位置数据集中提取各个时间区间内的用户位置数据。
示例性的,获取预设时间段内的用户位置数据集,其中,用户位置数据集可以理解为大量的用户位置数据构成的集合,例如,收集用户在当前时间往前追溯60天内的用户位置数据。其中,本发明实施例可以根据需要对预设时间段进行调整,如预设时间段可以是1个月、3个月或6个月等等。获取按照预设时间划分规则确定的至少两个时间区间,例如,将每天24小时按小时划分为若干个时间区间,具体的,可以将一天的时间划分为0-4点,4-8点,8-12点,12-16点,16-20点,20-24点6个这样的时间区间。需要说明的是,本发明实施例对预设时间划分规则不做限定,可以将一天的时间按3小时或6小时一个时间区间长度进行划分。另外,由于0-5点这段时间通常为也用户休息的时间,用户的位置数据的数据量较少或几乎为零,因此,可以只对5-24点这段时间进行时间区间的划分。最后,在预设时间段内的用户位置数据集中,提取各个时间区间内的用户位置数据,也即将预设时间段内的用户位置数据划分到各个时间区间内,以此作为时间区间内对应的用户位置数据。
步骤302、针对各个时间区间,根据所述时间区间内的用户位置数据确定所述时间区间内的位置中心点及位置中心点密度。
可选的,根据所述时间区间内的用户位置数据确定所述时间区间内的位置中心点,包括:基于预先设定的聚类算法对所述时间区间内的用户位置数据进行聚类,根据聚类结果确定聚类中心点;将所述聚类中心点作为所述时间区间内的位置中心点。这样设置的好处在于,可以准确、快速地确定出各个时间区间内用户位置数据的位置中心点。
示例性的,分别对各个时间区间内的用户位置数据进行聚类分析,根据分析结果确定聚类中心点,并将聚类中心点作为时间区间内的位置中心点。可以理解的是,可以针对每个时间区间内的位置数据获取对应的位置中心点,因此,时间区间的数量与位置中心点的数量相同。需要说明的是,本发明是实施例对预先设定的聚类算法不做限定,可以是基于位置的聚类算法,如Kmeans,Kmedians,还可以是层次聚类算法,如agglomerative,还可以是基于模型的聚类,如GMM或基于神经网络的算法。
可选的,根据所述时间区间内的用户位置数据确定所述时间区间内的位置中心点密度,包括:针对各个位置中心点,从所述位置中心点对应的时间区间内的用户位置数据中确定与所述位置中心点的距离小于预设距离阈值的目标位置数据;根据所述目标位置数据以及所述时间区间内的用户位置数据计算位置中心点密度。
示例性的,在分别确定了各个时间区间内的位置中心点之后,针对各个位置中心点,从位置中心点对应的时间区间内的用户位置数据中确定与位置中心点的距离小于预设距离阈值的用户位置数据,将与位置中心点的距离小于预设距离阈值的用户位置数据作为目标位置数据。需要说明的是,本发明实施例对预设距离阈值的大小不做限定,例如,预设距离阈值可设定为1km。然后,针对各个时间区间,分别根据各个时间区间内的目标位置数据以及用户位置数据计算位置中心点密度。可选的,根据所述目标位置数据以及所述时间区间内的用户位置数据计算位置中心点密度,包括:确定目标位置数据出现的第一频次以及所述时间区间内的用户位置数据出现的第二频次;计算所述第一频次与第二频次的比值,并将所述比值作为位置中心点密度。示例性的,针对各个时间区间,确定时间区间内目标位置数据出现的第一频次,其中,第一频次可以理解为目标位置数据的数量和,并统计时间区间内所有用户位置数据出现的第二频次,其中,第二频次可以理解为时间区间内所有用户位置数据的数量总和。计算第一频次与第二频次的比值,并将该比值作为对应时间区间内的位置中心点密度。
步骤103、将各个时间区间内的位置中心点构造的轨迹点向量和各个时间区间内的位置中心点密度构造的轨迹密度向量作为用户轨迹特征。
示例性的,获取的至少两个时间区间内的用户位置数据为0-4点,4-8点,8-12点,12-16点,16-20点,20-24点这6个时间区间内的用户位置数据,对这6个时间区间进行编号,分别为1,2,3,4,5及6,且获取用户位置数据为用户a的位置数据。通过上述步骤102确定的各个时间区间的位置中心点及位置中心点密度如下表所示:
根据上表可知,各个时间区间的位置中心点分别为wwgqfcng0gbk,wwgqfcnfc1e5,wwgqfcng0p8f,wwgqfcng0su6,wwgqfcng42gb及wwgqfcng0xjq,则构造的轨迹点向量为[wwgqfcng0gbk,wwgqfcnfc1e5,wwgqfcng0p8f,wwgqfcng0su6,wwgqfcng42gb,wwgqfcng0xjq],其中,各个时间区间内的位置中心点反映了用户在各个不同时间段内最可能出现的位置。通过上述步骤102确定的各个时间区间内的位置中心点密度分别为0.83,0.59,0.64,0.78,0.92及0.85,则构造的轨迹密度向量为[0.83,0.59,0.64,0.78,0.92,0.85],其中,各个时间区间内的位置中心点密度反映了用户在各个时间段内出现在对应位置中心点的概率。
图2为本发明实施例提供的基于各个时间区间内的位置中心点构造的用户轨迹示意图。
本发明实施例中提供的轨迹特征的提取方法,获取至少两个时间区间内的用户位置数据,并针对各个时间区间,根据时间区间内的用户位置数据确定时间区间内的位置中心点及位置中心点密度,最后将各个时间区间内的位置中心点构造的轨迹点向量和各个时间区间内的位置中心点密度构造的轨迹密度向量作为用户轨迹特征。通过采用上述技术手段,能够将离散非结构化的用户位置数据转化为结构化、标准化的用户行为轨迹特征,从而准确地刻画出用户的日常行为轨迹,有利于后续轨迹数据的深度挖掘及应用。
图3为本发明实施例提供的另一种轨迹特征的提取方法的流程示意图,如图3所示,该方法包括如下步骤:
步骤301、获取预设时间段内的用户位置数据集。
步骤302、获取按照预设时间划分规则确定的至少两个时间区间。
其中,至少两个时间区间连续。
步骤303、从用户位置数据集中提取各个时间区间内的用户位置数据。
步骤304、针对各个时间区间,基于预先设定的聚类算法对时间区间内的用户位置数据进行聚类,根据聚类结果确定聚类中心点,并将聚类中心点作为时间区间内的位置中心点。
步骤305、针对各个位置中心点,从位置中心点对应的时间区间内的用户位置数据中确定与位置中心点的距离小于预设距离阈值的目标位置数据。
步骤306、确定目标位置数据出现的第一频次以及时间区间内的用户位置数据出现的第二频次。
步骤307、计算第一频次与第二频次的比值,并将比值作为位置中心点密度。
步骤308、将各个时间区间内的位置中心点构造的轨迹点向量和各个时间区间内的位置中心点密度构造的轨迹密度向量作为用户轨迹特征。
本发明实施例提供的轨迹特征的提取方法,能够将离散非结构化的用户位置数据转化为结构化、标准化的用户行为轨迹特征,从而准确地刻画出用户的日常行为轨迹,有利于后续用户位置信息的定量计算与应用,如用户轨迹相似度计算,用户轨迹异常判断,用户是否处于度假旅行中等深度用户画像标签的挖掘。
图4为本发明实施例提供的一种轨迹特征的提取装置的结构框图,该装置可由软件和/或硬件实现,一般集成在终端中,可通过执行轨迹特征的提取方法来进行轨迹特征的提取。如图4所示,该装置包括:
用户位置数据获取模块401,用于获取至少两个时间区间内的用户位置数据;
位置中心点及密度确定模块402,用于针对各个时间区间,根据所述时间区间内的用户位置数据确定所述时间区间内的位置中心点及位置中心点密度;
用户轨迹特征提取模块403,用于将各个时间区间内的位置中心点构造的轨迹点向量和各个时间区间内的位置中心点密度构造的轨迹密度向量作为用户轨迹特征。
本发明实施例中提供的轨迹特征的提取装置,获取至少两个时间区间内的用户位置数据,并针对各个时间区间,根据时间区间内的用户位置数据确定时间区间内的位置中心点及位置中心点密度,最后将各个时间区间内的位置中心点构造的轨迹点向量和各个时间区间内的位置中心点密度构造的轨迹密度向量作为用户轨迹特征。通过采用上述技术手段,能够将离散非结构化的用户位置数据转化为结构化、标准化的用户行为轨迹特征,从而准确地刻画出用户的日常行为轨迹,有利于后续轨迹数据的深度挖掘及应用。
可选的,所述用户位置数据获取模块,用于:
获取预设时间段内的用户位置数据集;
获取按照预设时间划分规则确定的至少两个时间区间;
从所述用户位置数据集中提取各个时间区间内的用户位置数据。
可选的,所述位置中心点及密度确定模块,用于:
基于预先设定的聚类算法对所述时间区间内的用户位置数据进行聚类,根据聚类结果确定聚类中心点;
将所述聚类中心点作为所述时间区间内的位置中心点。
可选的,所述位置中心点及密度确定模块,包括:
目标位置数据确定单元,用于针对各个位置中心点,从所述位置中心点对应的时间区间内的用户位置数据中确定与所述位置中心点的距离小于预设距离阈值的目标位置数据;
中心点密度计算单元,用于根据所述目标位置数据以及所述时间区间内的用户位置数据计算位置中心点密度。
可选的,所述中心点密度计算单元,用于:
确定目标位置数据出现的第一频次以及所述时间区间内的用户位置数据出现的第二频次;
计算所述第一频次与第二频次的比值,并将所述比值作为位置中心点密度。
可选的,所述至少两个时间区间连续。
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行轨迹特征的提取方法,该方法包括:
获取至少两个时间区间内的用户位置数据;
针对各个时间区间,根据所述时间区间内的用户位置数据确定所述时间区间内的位置中心点及位置中心点密度;
将各个时间区间内的位置中心点构造的轨迹点向量和各个时间区间内的位置中心点密度构造的轨迹密度向量作为用户轨迹特征。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的轨迹特征的提取操作,还可以执行本发明任意实施例所提供的轨迹特征的提取方法中的相关操作。
本发明实施例提供了一种终端,该终端中可集成本发明实施例提供的轨迹特征的提取装置。图5为本发明实施例提供的一种终端的结构框图。终端500可以包括:存储器501,处理器502及存储在存储器501上并可在处理器运行的计算机程序,所述处理器502执行所述计算机程序时实现如本发明实施例所述的轨迹特征的提取方法。
本发明实施例中提供的终端,获取至少两个时间区间内的用户位置数据,并针对各个时间区间,根据时间区间内的用户位置数据确定时间区间内的位置中心点及位置中心点密度,最后将各个时间区间内的位置中心点构造的轨迹点向量和各个时间区间内的位置中心点密度构造的轨迹密度向量作为用户轨迹特征。通过采用上述技术手段,能够将离散非结构化的用户位置数据转化为结构化、标准化的用户行为轨迹特征,从而准确地刻画出用户的日常行为轨迹,有利于后续轨迹数据的深度挖掘及应用。
上述实施例中提供的轨迹特征的提取装置、存储介质及终端可执行本发明任意实施例所提供的轨迹特征的提取方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的轨迹特征的提取方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。