CN111695046A - 基于时空移动数据表征学习的用户画像推断方法及装置 - Google Patents

基于时空移动数据表征学习的用户画像推断方法及装置 Download PDF

Info

Publication number
CN111695046A
CN111695046A CN202010328213.2A CN202010328213A CN111695046A CN 111695046 A CN111695046 A CN 111695046A CN 202010328213 A CN202010328213 A CN 202010328213A CN 111695046 A CN111695046 A CN 111695046A
Authority
CN
China
Prior art keywords
user
users
vector
objective function
place
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010328213.2A
Other languages
English (en)
Other versions
CN111695046B (zh
Inventor
徐丰力
李勇
金德鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qingpeng Intelligent Technology Co ltd
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010328213.2A priority Critical patent/CN111695046B/zh
Publication of CN111695046A publication Critical patent/CN111695046A/zh
Application granted granted Critical
Publication of CN111695046B publication Critical patent/CN111695046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于时空移动数据表征学习的用户画像推断方法及装置,该方法包括:获取多个用户和用户访问的地点数据,以用户与用户的边长权重表示用户时空模式的相似度,地点与地点的边长权重表示地点功能上的相似度,用户与地点的边长权重表示用户访问地点的频率,得到保留语义的移动网络;获取使预设的目标函数最小时的用户表示向量,输入预设的机器学习分类模型,获取用户画像的推断结果;其中,所述目标函数根据上述三类边长权重,以及用户表示向量和地点表示向量构建得到。该方法无需人为进行大量的特征生成与特征筛选,训练模型的效率较高,有效节约人力成本,且能够有效保障模型性能,进而实现了基于移动数据准确的用户属性推断。

Description

基于时空移动数据表征学习的用户画像推断方法及装置
技术领域
本发明涉及用户画像推断领域,尤其涉及一种基于时空移动数据表征学习的用户画像推断方法及装置。
背景技术
用户属性推断(User Demographic Inference)是指基于用户特征数据对用户某一个或几个特定的人口属性(如年龄、性别、教育水平等)进行推断的任务。随着智能移动设备的广泛普及,时空移动数据成为了最为广泛采集的用户特征,其在用户属性推断任务上具有巨大潜力。基于时空移动信息的用户推断的典型应用场景在个性化应用开发中,可以帮助应用开发者针对其用户群体提供更好的个性化服务和设计,如电商平台的个性化商品推荐、出行导航服务的个性化路线推荐等。而在现有的实际生产应用中,用户的时空移动数据存在非结构化、个体差异大等特点,难以直接应用于用户属性推断。
目前使用机器学习算法来完成基于时空移动信息的用户属性推断任务主要将其作为时间序列聚类问题进行分析。常用的方法有分段-分组轨迹聚类算法(Partition-and-Group)和基于时空模式的聚类算法等。然而此类方法只能识别在时空上距离较近的用户(如经常碰面的邻居),无法识别出时空上相距较远但是有相同属性的用户群体(如在不同学校上班的教师),从而其无法实现准确的用户属性推断。同时,在GBDT、XgBoost此类成熟的机器学习算法中,时空移动数据由于其非结构化的特点无法直接作为模型输入,需要人为进行大量的特征生成与特征筛选,训练模型的效率低下、人力成本高昂,且无法有效保障模型性能。
发明内容
为了解决上述问题,本发明实施例提供一种基于时空移动数据表征学习的用户画像推断方法及装置。
第一方面,本发明实施例提供一种基于时空移动数据表征学习的用户画像推断方法,包括:获取多个用户和用户访问的地点数据,以用户与用户的边长权重表示用户时空模式的相似度,地点与地点的边长权重表示地点功能上的相似度,用户与地点的边长权重表示用户访问地点的频率,得到保留语义的移动网络;获取使预设的目标函数最小时的用户表示向量,输入预设的机器学习分类模型,获取用户画像的推断结果;其中,所述目标函数根据上述三类边长权重,以及用户表示向量和地点表示向量构建得到,所述目标函数值为根据表示向量得到的相似度和边长权重的近似程度,所述预设的机器学习分类模型根据带有确定用户类别标签的样本用户表示向量训练后得到。
进一步地,所述获取使预设的目标函数最小时的用户表示向量之前,还包括:根据用户与用户表示向量间相似度,和用户与用户间的归一化边长权重,构建用户-用户边目标函数;根据地点与地点表示向量间相似度,和地点与地点间的归一化边长权重,构建地点-地点边目标函数;根据用户在地点上的相似度,和用户与地点间的归一化边长权重,构建用户-地点边目标函数;根据用户-用户边目标函数、地点-地点边目标函数和用户-地点边目标函数加权求和,得到所述预设的目标函数。
进一步地,所述根据用户与用户表示向量间相似度,和用户与用户间的归一化边长权重,构建用户-用户边目标函数,包括:
Figure BDA0002463983540000021
其中,Ouu为用户-用户边目标函数;W(ui,uj)为用户-用户边的权值;
Figure BDA0002463983540000022
Figure BDA0002463983540000023
为用户表示向量间相似度分布;
Figure BDA0002463983540000024
分别为用户ui和用户uj的表示向量;U为所有用户节点,EUU为用户-用户边集合。
进一步地,根据地点与地点表示向量间相似度,和地点与地点间的归一化边长权重,构建地点-地点边目标函数,包括:
Figure BDA0002463983540000025
其中,Oll为地点-地点边目标函数;W(li,lj)为地点-地点边的权值;
Figure BDA0002463983540000031
Figure BDA0002463983540000032
为地点表示向量间相似度分布;
Figure BDA0002463983540000033
分别为地点li和地点lj的表示向量;L为所有地点节点;ELL为地点-地点边的集合。
进一步地,所述根据用户在地点上的相似度,和用户与地点间的归一化边长权重,构建用户-地点边目标函数,包括:
Figure BDA0002463983540000034
其中,Oul为用户-地点边目标函数;
Figure BDA0002463983540000035
Figure BDA0002463983540000036
Figure BDA0002463983540000037
为表示向量
Figure BDA0002463983540000038
的辅助向量,用于梯度下降算法的更新过程;lk表示所有与ui连接的地点节点,l*表示任一与ui连接的地点节点;d(,)表示KL散度;L为所有地点节点,U为所有用户节点;EUL为用户-地点边的集合。
进一步地,所述获取使预设的目标函数最小时的用户表示向量,包括:对于所述移动网络,每次采样两个节点,若两个节点属于一条边则作为正样本,否则作为负样本;根据预设的梯度更新函数对表示向量进行更新,并且当采样边的类型为用户-用户边或地点-地点边时,对应更新连接节点的表示向量和辅助向量;当采样边的类型为用户-地点边时,交叉更新连接节点的表示向量和辅助向量;重复采样和更新过程,直至更新后的目标函数满足预设条件。
进一步地,所述输入预设的机器学习分类模型之前,还包括:采用支持向量机作为用户属性推断的分类器,并采用随机梯度下降的自适应矩估计(简称ADAM)优化器对所述分类器进行优化,得到所述预设的机器学习分类模型。
第二方面,本发明实施例提供一种基于时空移动数据表征学习的用户画像推断装置,包括:移动网络构建模块,用于获取多个用户和用户访问的地点数据,以用户与用户的边长权重表示用户时空模式的相似度,地点与地点的边长权重表示地点功能上的相似度,用户与地点的边长权重表示用户访问地点的频率,得到保留语义的移动网络;表示向量处理模块,用于获取使预设的目标函数最小时的用户表示向量,输入预设的机器学习分类模型,获取用户画像的推断结果;其中,所述目标函数根据上述三类边长权重,以及用户表示向量和地点表示向量构建得到,所述目标函数值为根据表示向量得到的相似度和边长权重的近似程度,所述预设的机器学习分类模型根据带有确定用户类别标签的样本用户表示向量训练后得到。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本发明第一方面基于时空移动数据表征学习的用户画像推断方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明第一方面基于时空移动数据表征学习的用户画像推断方法的步骤。
本发明实施例提供的基于时空移动数据表征学习的用户画像推断方法及装置,通过获取多个用户和用户访问的地点数据,并得到保留语义的移动网络,从而能处理非结构化时空移动数据,可实现移动行为特征自动构建,模型表示能力强且准确率高。获取使预设的目标函数最小时的用户表示向量,输入预设的机器学习分类模型,获取用户画像的推断结果,无需人为进行大量的特征生成与特征筛选,训练模型的效率较高,有效节约人力成本,且能够有效保障模型性能,进而实现了基于移动数据准确的用户属性推断。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于时空移动数据表征学习的用户画像推断方法流程图;
图2为本发明实施例提供的保留语义的移动网络结构图;
图3为本发明实施例提供的基于时空移动数据表征学习的用户画像推断装置结构图;
图4为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的方法存在以下几点局限:(1)基于移动轨迹聚类和成熟机器学习的方法无法解决时空移动数据非结构化的问题,无法识别时空距离较远但是有相似属性的用户群体;(2)基于卷积神经网络和节点嵌入算法等用户属性推断方法依赖于高质量、结构化的用户社交网络、用户商品交互等数据。此类数据在一般应用场景中难以获取,不如时空移动数据普及、易得;(3)基于位置的用户关系识别方法只能推断用户社交关系这一较为简单的单一属性,无法在年龄、性别、收入水平、教育水平等方面应用,其泛化能力较差。
因此,如何设计一种基于表征学习从时空移动数据中自动提取有效特征,并能高效应用于用户属性推断的方法是目前亟待解决的问题。
图1为本发明实施例提供的基于时空移动数据表征学习的用户画像推断方法流程图,如图1所示,本发明实施例提供一种基于时空移动数据表征学习的用户画像推断方法,包括:
101、获取多个用户和用户访问的地点数据,以用户与用户的边长权重表示用户时空模式的相似度,地点与地点的边长权重表示地点功能上的相似度,用户与地点的边长权重表示用户访问地点的频率,得到保留语义的移动网络。
首先,获取的输入数据为用户的移动数据,城市街区划分数据和城市兴趣点(Point-of-Interest,PoI)分布数据。为了介绍的方便,将其具体定义如下。
移动数据:移动记录可以定义为一个三元组(u,l,t),表示了用户u在t时刻访问了l地点。其中t和l分别为离散的时间段(如一个30分钟片段)和空间区域(如一个街区)。移动数据D定义为一组移动记录的集合D={(u,l,t)}N,其中N为移动记录数。
城市街区:城市空间往往被道路、街道分隔为不同的区域,即为城市街区。同一个区域内的功能(如住宅、商业等)一般较为相似。因此,采用城市街区作为移动数据的空间划分方式。
兴趣点(PoI):兴趣点定义为空间上可以区分的、具有特定功能的区域,如住宅、写字楼、商场、学校等。兴趣点在空间上的分布反应了各类城市功能在空间上的分布情况,因此采用这一数据以帮助学习移动行为的语义,如去上学、回家等。
图2为本发明实施例提供的保留语义的移动网络结构图,U1、U2、U3和U4表示用户,l1、l2、l3、l4和l5表示地点。移动数据和城市街区的空间分布如图2的(A)部分所示,举例而言,l3、l1至l2的曲线表示了一个用户分别访问了l1、l2、l3三个城市街区。在这个原始移动数据基础上,旨在将其处理为图2的(B)部分中的保留语义的移动网络。该网络由用户层面和地点层面两个层面组成,其中用户层面中的用户-用户边表示了用户间移动模式的相似度,地点层面中的地点-地点边表示了地点间的功能相似度,而用户-地点边表示了该用户访问该地点的频率。
具体而言,本实施例将保留语义的移动网络定义为G=(L∪U,Eul∪Euu∪Ell),其中U为用户节点的集合,L为地点节点的集合。Eul、Euu、Ell分别为用户-地点边,用户-用户边和地点-地点边的集合,其均为无向有权边,边的权重分别表示为W(ui,lj),W(ui,uj),W(li,lj),其计算方法分别详细阐述如下。
用户-地点边的权值W(ui,lj)用于刻画用户访问地点的频率,其记录了用户的日常移动行为和各地点的关联程度。为了避免受各用户记录数不同的影响,将W(ui,lj)计算为归一化的访问频率,即用户在该地点的访问频次(移动记录数)除以该用户的总移动记录数。
用户-用户边的权值W(ui,uj)用于刻画用户间时空模式的相似度,从而使后文的方法可以根据时空模式的相似度推断用户属性。具体实施过程中,可以采用现有技术的方法,但是一般的时空模式相似度度量往往受时空距离的约束,即时空距离上越相近的用户相似度越高,而较远的用户哪怕有相似的移动模式也难以得到较高的相似度。这种时空距离的约束应当避免,因此本发明实施例提出了一种基于时间分配模式的度量模式。
相应地,以用户与用户的边长权重表示用户时空模式的相似度之前,还包括:将目标时间段划分为互不重合的预设数量时间片的集合,将用户处于同一地点的时间片划分到相同的子集,得到划分方式P,将使得两个用户间的划分方式P完全一致时,需要从时间片集合中删除的时间片个数,作为用户时空模式的相似度。
具体而言,将用户um的移动模式表示为对时间片集合C的一种划分方式Pm,其中时间片C集合为将整个目标时间段切分为若干片段的集合(如30分钟等间隔时间片的集合),划分方式Pm是将时间片集合C分为若干个互不重合的子集的方式。为了使划分方式Pm能准确反应用户的时空移动规律,将用户处于同一地点的时间片分到同一个子集中,使之表示了用户在不同地点片上分配时间的方式。进一步提出了集合划分间的距离度量pd(*,*)以刻画两个用户在移动时空模式上的相似度。时空模式的相似度,即用户um和un间的距离度量pd(Pm,Pn)定义为使得Pm与Pn完全一致时最少需要从C中删除的时间片个数。分析可知,这一距离度量有效摆脱了时空距离的约束,可以刻画用户在时空模式上的相似度。
地点-地点边的权值W(li,li)用于刻画地点间在城市功能上的相似度,其目的是帮助表征学习模型刻画用户移动行为的语义。举例而言,两个在不同学校上学的用户他们频繁访问的地点可能完全不同,但若通过分析访问地点在城市功能上的相似度,则可能发现访问地点均属于教育类的功能,从而推测出两个用户的移动由相似的语义。城市环境下的兴趣点分布有效刻画了城市功能在空间上的分布情况,因此可以基于两个点PoI分布向量的相似度刻画其城市功能的相似度。具体而言,可将该相似度度量设置为地点间PoI分布向量的余弦相似度。
102、获取使预设的目标函数最小时的用户表示向量,输入预设的机器学习分类模型,获取用户画像的推断结果;其中,目标函数根据上述三类边长权重,以及用户表示向量和地点表示向量构建得到,目标函数值为根据表示向量得到的相似度和边长权重的近似程度,预设的机器学习分类模型根据带有确定用户类别标签的样本用户表示向量训练后得到。
上述三种边长权重作为已知量,在确定了上述保留语义的移动网络之后,需要获取的是用户特征的向量表示,即用户表示向量。本发明实施例根据预设的目标函数来获取用户的表示向量,为了充分考虑用户的时空属性,目标函数根据上述三类边长权重,以及用户表示向量和地点表示向量构建。目标函数的值就是根据表示向量确定的相识度,和上述权重的近似程度。当目标函数足够小时,表示向量的相似度,就接近于上述的三类已知权重。从而得到的用户表示向量,充分反映了用户的时空属性。
确定了用户表示向量后,相当于确定了用户具有时空属性的特征向量,通过一个已经训练好的机器学习分类模型,便可得到用户画像的推断结果。需要说明的是,该机器学习分类模型,是根据已知用户类别标签的样本训练后得到的。对于样本的训练过程,也是根据上述方法得到用户表示向量,以用户表示向量作为输入数据,用户类别作为标签,进行训练。
本发明实施例的基于时空移动数据表征学习的用户画像推断方法,通过获取多个用户和用户访问的地点数据,并得到保留语义的移动网络,从而能处理非结构化时空移动数据,可实现移动行为特征自动构建,模型表示能力强且准确率高。获取使预设的目标函数最小时的用户表示向量,输入预设的机器学习分类模型,获取用户画像的推断结果,无需人为进行大量的特征生成与特征筛选,训练模型的效率较高,有效节约人力成本,且能够有效保障模型性能,进而实现了基于移动数据准确的用户属性推断。
基于上述实施例的内容,作为一种可选实施例,获取使预设的目标函数最小时的用户表示向量之前,还包括:根据用户与用户表示向量间相似度,和用户与用户间的归一化边长权重,构建用户-用户边目标函数;根据地点与地点表示向量间相似度,和地点与地点间的归一化边长权重,构建地点-地点边目标函数;根据用户在地点上的相似度,和用户与地点间的归一化边长权重,构建用户-地点边目标函数;根据用户-用户边目标函数、地点-地点边目标函数和用户-地点边目标函数加权求和,得到预设的目标函数。
基于构建的保留语义的移动网络,本发明实施例进一步提出了一个网络表征学习方法,用于学习每个用户在该网络上的表示向量,其旨在将该网络蕴含的信息映射到欧式空间的表示向量上,从而使其能广泛应用于各类机器学习分类模型。在给定用户的表示向量为
Figure BDA0002463983540000091
辅助向量(辅助向量和表示向量获得方式相同)为
Figure BDA0002463983540000092
地点的表示向量为
Figure BDA0002463983540000093
辅助向量为
Figure BDA0002463983540000094
的情况下,分别设计了三个目标函数分别用于刻画用户-用户边、用户-地点边、地点-地点边的信息,其分别具体介绍如下
用户-用户边目标函数Ouu:该目标函数旨在让用户-用户边权重大(即用户间时空移动模式相近)的用户对在映射空间中有相似的表示向量。用户u1和u3间的边权重较大,则该两个用户对应的表示向量应该更为相似。
地点-地点边目标函数Oll:与用户-用户边相同,本目标函数旨在让地点-地点边权重大(即地点间的PoI分布相似)的地点对在映射空间中有相似的表示向量,从而刻画地点在城市功能上的相似程度。地点l1和l4间边的权重较大,则两个地点的表示向量应该更为相似。因此,与用户-用户边相似。
用户-地点边目标函数Oul:本目标函数旨在让有相似地点访问记录的用户有相似的表示向量,即若两个用户节点在地点节点上的权重分布相近则他们应该有更为相似的表示向量。u1和u2访问地点的重合度较高,则他们的表示向量应较为相似。为了实现目标,采用表示向量与辅助向量相互耦合的方式。
综上,将全局的目标函数设计为上述三个目标函数的全权求和,即O=λuuOuuulOulllOll,其中0<λuu,λul,λll<1,且λuuulll=1。
本发明实施例的基于时空移动数据表征学习的用户画像推断方法,根据用户-用户边目标函数、地点-地点边目标函数和用户-地点边目标函数加权求和,得到预设的目标函数,能够全面的确保用户表示向量的时空属性的准确性。
基于上述实施例的内容,作为一种可选实施例,根据用户与用户表示向量间相似度,和用户与用户间的归一化边长权重,构建用户-用户边目标函数,包括:
Figure BDA0002463983540000101
其中,Ouu为用户-用户边目标函数;W(ui,uj)为用户-用户边的权值;
Figure BDA0002463983540000102
Figure BDA0002463983540000103
为用户表示向量间相似度分布;
Figure BDA0002463983540000104
分别为用户ui和用户uj的表示向量;U为所有用户节点,EUU为用户-用户边集合。
基于上述实施例的内容,作为一种可选实施例,根据地点与地点表示向量间相似度,和地点与地点间的归一化边长权重,构建地点-地点边目标函数,包括:
Figure BDA0002463983540000105
其中,Oll为地点-地点边目标函数;W(li,lj)为地点-地点边的权值;
Figure BDA0002463983540000106
Figure BDA0002463983540000107
为地点表示向量间相似度分布;
Figure BDA0002463983540000108
分别为地点li和地点lj的表示向量;L为所有地点节点;ELL为地点-地点边的集合。
基于上述实施例的内容,作为一种可选实施例,根据用户在地点上的相似度,和用户与地点间的归一化边长权重,构建用户-地点边目标函数,包括:
Figure BDA0002463983540000109
其中,Oul为用户-地点边目标函数;
Figure BDA00024639835400001010
Figure BDA00024639835400001011
Figure BDA00024639835400001012
为表示向量
Figure BDA00024639835400001013
的辅助向量,用于梯度下降算法的更新过程;lk表示所有与ui连接的地点节点,l*表示任一与ui连接的地点节点;d(,)表示KL散度;L为所有地点节点,U为所有用户节点;EUL为用户-地点边的集合。
若用户ui与地点lx间的访问频次很高,则目标函数应当分别让
Figure BDA00024639835400001014
Figure BDA00024639835400001015
Figure BDA00024639835400001016
相近。从而共同频繁访问同一个地点lx的用户ui和uj
Figure BDA00024639835400001017
的关联作用下会有相似的表示向量
Figure BDA00024639835400001018
Figure BDA00024639835400001019
与相似的辅助向量
Figure BDA00024639835400001020
Figure BDA00024639835400001021
而被同一群用户频繁访问的地点通过用户的关联作用也会有相似的表示向量和辅助向量。相似的,可采用KL散度d(*,*)的方式刻画用户在位置上的相似度。
基于上述实施例的内容,作为一种可选实施例,获取使预设的目标函数最小时的用户表示向量,包括:对于移动网络,每次采样一条边作为正样本,若干节点作为负样本;根据预设的梯度更新函数对表示向量进行更新,并且当采样边的类型为用户-用户边或地点-地点边时,对应更新连接节点的表示向量和辅助向量;当采样边的类型为用户-地点边时,交叉更新连接节点的表示向量和辅助向量;重复采样和更新过程,直至更新后的目标函数满足预设条件。
基于上述实施例设计的目标函数,本实施例设计了如下网络表征学习算法以及用户属性推断算法。由于目标函数O的计算复杂度较高,本实施例设计了负采样算法用于目标函数的快速优化,其核心思想是每次采样一条边作为正样本以及K个节点对作为负样本用以近似计算O的值,从而更新各节点的表示向量。预设的梯度更新函数,可根据正样本节点的表示向量和负样本的表示向量构建得到,正样本的节点为采样的边所对应的两个节点。不失一般性的,假设采样出的边连接的节点为vj和vj(视边的类型可对应用户节点和地点节点),则对应表示向量的更新梯度可以根据下式计算:
Figure BDA0002463983540000111
其中,E表示期望,vn~Pn(v)表示按照Pn(v)分布取节点vn;σ(x)=1/(1+exp(-x))为sigmoid函数,Pn(v)为负样本节点的采样概率分布,可将其设为节点度数αv的3/4次方(度数为节点所有边的权值之和),即Pn(v)∝αv 3/4。基于上述实施例目标函数的设计,当采样边的类型为用户-用户边和地点-地点边时,对应更新连接节点的表示向量和辅助向量(即vj和vj的表示向量与辅助向量分别对应);当采样边的类型为用户-地点边时,交叉更新连接节点的表示向量和辅助向量(即vi的表示向量对应vj的辅助向量,vj的辅助向量对应vj的表示向量)。辅助向量为表示向量在梯度更新算法中的中间结果,在迭代更新的初期,表示向量和辅助向量可通过随机产生。由于表示向量与辅助向量在本质上是可以互换的,最后可输出两个向量的均值作为每个节点学习出的表示向量。
更新过程可参见现有的机器学习方法。举例如下:
采样边为地点和地点边时,对应更新地点的辅助向量和表示向量:
新地点表示向量=原地点表示向量-预设系数×梯度函数值;
新地点辅助向量=原地点辅助向量-预设系数×梯度函数值。
采样边的类型为用户-地点边时,交叉更新连接节点用户和地点的表示向量和辅助向量时,如:
新地点表示向量=原地点辅助向量-预设系数×梯度函数值;
新地点辅助向量=原地点表示向量-预设系数×梯度函数值;
新用户表示向量=原用户辅助向量-预设系数×梯度函数值;
新用户辅助向量=原用户表示向量-预设系数×梯度函数值。
预设条件可设置为,目标函数在连续若干次迭代中下降幅度小于一个预设阈值。
基于上述实施例的内容,作为一种可选实施例,输入预设的机器学习分类模型之前,还包括:采用支持向量机作为用户属性推断的分类器,并采用随机梯度下降的ADAM优化器对分类器进行优化,得到预设的机器学习分类模型。
在表征学习得到的表示向量后,可以使用任意机器学习分类模型推断用户的属性。不失一般性的,可采用支持向量机(support vector machine,SVM)作为用户属性推断的分类器。此外,可采用随机梯度下降的ADAM优化器优化整个学习模型。
图3为本发明实施例提供的基于时空移动数据表征学习的用户画像推断装置结构图,如图3所示,该基于时空移动数据表征学习的用户画像推断装置包括:移动网络构建模块301和表示向量处理模块302。其中,移动网络构建模块301用于获取多个用户和用户访问的地点数据,以用户与用户的边长权重表示用户时空模式的相似度,地点与地点的边长权重表示地点功能上的相似度,用户与地点的边长权重表示用户访问地点的频率,得到保留语义的移动网络;表示向量处理模块302用于获取使预设的目标函数最小时的用户表示向量,输入预设的机器学习分类模型,获取用户画像的推断结果;其中,目标函数根据上述三类边长权重,以及用户表示向量和地点表示向量构建得到,目标函数值为根据表示向量得到的相似度和边长权重的近似程度,预设的机器学习分类模型根据带有确定用户类别标签的样本用户表示向量训练后得到。
本发明实施例提供的装置实施例是为了实现上述各方法实施例的,具体流程和详细内容请参照上述方法实施例,此处不再赘述。
本发明实施例提供的基于时空移动数据表征学习的用户画像推断装置,通过获取多个用户和用户访问的地点数据,并得到保留语义的移动网络,从而能处理非结构化时空移动数据,可实现移动行为特征自动构建,模型表示能力强且准确率高。获取使预设的目标函数最小时的用户表示向量,输入预设的机器学习分类模型,获取用户画像的推断结果,无需人为进行大量的特征生成与特征筛选,训练模型的效率较高,有效节约人力成本,且能够有效保障模型性能,进而实现了基于移动数据准确的用户属性推断。
图4为本发明实施例提供的一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和总线404,其中,处理器401,通信接口402,存储器403通过总线404完成相互间的通信。通信接口402可以用于电子设备的信息传输。处理器401可以调用存储器403中的逻辑指令,以执行包括如下的方法:获取多个用户和用户访问的地点数据,以用户与用户的边长权重表示用户时空模式的相似度,地点与地点的边长权重表示地点功能上的相似度,用户与地点的边长权重表示用户访问地点的频率,得到保留语义的移动网络;获取使预设的目标函数最小时的用户表示向量,输入预设的机器学习分类模型,获取用户画像的推断结果;其中,目标函数根据上述三类边长权重,以及用户表示向量和地点表示向量构建得到,目标函数值为根据表示向量得到的相似度和边长权重的近似程度,预设的机器学习分类模型根据带有确定用户类别标签的样本用户表示向量训练后得到。
此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:获取多个用户和用户访问的地点数据,以用户与用户的边长权重表示用户时空模式的相似度,地点与地点的边长权重表示地点功能上的相似度,用户与地点的边长权重表示用户访问地点的频率,得到保留语义的移动网络;获取使预设的目标函数最小时的用户表示向量,输入预设的机器学习分类模型,获取用户画像的推断结果;其中,目标函数根据上述三类边长权重,以及用户表示向量和地点表示向量构建得到,目标函数值为根据表示向量得到的相似度和边长权重的近似程度,预设的机器学习分类模型根据带有确定用户类别标签的样本用户表示向量训练后得到。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于时空移动数据表征学习的用户画像推断方法,其特征在于,包括:
获取多个用户和用户访问的地点数据,以用户与用户的边长权重表示用户时空模式的相似度,地点与地点的边长权重表示地点功能上的相似度,用户与地点的边长权重表示用户访问地点的频率,得到保留语义的移动网络;
获取使预设的目标函数最小时的用户表示向量,输入预设的机器学习分类模型,获取用户画像的推断结果;
其中,所述目标函数根据上述三类边长权重,以及用户表示向量和地点表示向量构建得到,所述目标函数值为根据表示向量得到的相似度和边长权重的近似程度,所述预设的机器学习分类模型根据带有确定用户类别标签的样本用户表示向量训练后得到。
2.根据权利要求1所述的基于时空移动数据表征学习的用户画像推断方法,其特征在于,所述获取使预设的目标函数最小时的用户表示向量之前,还包括:
根据用户与用户表示向量间相似度,和用户与用户间的归一化边长权重,构建用户-用户边目标函数;
根据地点与地点表示向量间相似度,和地点与地点间的归一化边长权重,构建地点-地点边目标函数;
根据用户在地点上的相似度,和用户与地点间的归一化边长权重,构建用户-地点边目标函数;
根据用户-用户边目标函数、地点-地点边目标函数和用户-地点边目标函数加权求和,得到所述预设的目标函数。
3.根据权利要求2所述的基于时空移动数据表征学习的用户画像推断方法,其特征在于,所述根据用户与用户表示向量间相似度,和用户与用户间的归一化边长权重,构建用户-用户边目标函数,包括:
Figure FDA0002463983530000011
其中,Ouu为用户-用户边目标函数;W(ui,uj)为用户-用户边的权值;
Figure FDA0002463983530000021
Figure FDA0002463983530000022
为用户表示向量间相似度分布;
Figure FDA0002463983530000023
分别为用户ui和用户uj的表示向量;U为所有用户节点,EUU为用户-用户边集合。
4.根据权利要求2所述的基于时空移动数据表征学习的用户画像推断方法,其特征在于,所述根据地点与地点表示向量间相似度,和地点与地点间的归一化边长权重,构建地点-地点边目标函数,包括:
Figure FDA0002463983530000024
其中,Oll为地点-地点边目标函数;W(li,lj)为地点-地点边的权值;
Figure FDA0002463983530000025
Figure FDA0002463983530000026
为地点表示向量间相似度分布;
Figure FDA0002463983530000027
分别为地点li和地点lj的表示向量;L为所有地点节点;ELL为地点-地点边的集合。
5.根据权利要求2所述的基于时空移动数据表征学习的用户画像推断方法,其特征在于,所述根据用户在地点上的相似度,和用户与地点间的归一化边长权重,构建用户-地点边目标函数,包括:
Figure FDA0002463983530000028
其中,Oul为用户-地点边目标函数;W(ui,lj)为用户与地点边的权值;
Figure FDA0002463983530000029
Figure FDA00024639835300000210
为表示向量
Figure FDA00024639835300000211
的辅助向量,用于梯度下降算法的更新过程;lk表示所有与ui连接的地点节点,l*表示任一与uj连接的地点节点;d(,)表示KL散度;L为所有地点节点,U为所有用户节点;EUL为用户-地点边的集合。
6.根据权利要求1所述的基于时空移动数据表征学习的用户画像推断方法,其特征在于,所述获取使预设的目标函数最小时的用户表示向量,包括:
对于所述移动网络,每次采样一条边作为正样本,若干节点作为负样本;
根据预设的梯度更新函数对表示向量进行更新,并且当采样边的类型为用户-用户边或地点-地点边时,对应更新连接节点的表示向量和辅助向量;当采样边的类型为用户-地点边时,交叉更新连接节点的表示向量和辅助向量;
重复采样和更新过程,直至更新后的目标函数满足预设条件。
7.根据权利要求1所述的基于时空移动数据表征学习的用户画像推断方法,其特征在于,所述输入预设的机器学习分类模型之前,还包括:
采用支持向量机作为用户属性推断的分类器,并采用随机梯度下降的自适应矩估计ADAM优化器对所述分类器进行优化,得到所述预设的机器学习分类模型。
8.一种基于时空移动数据表征学习的用户画像推断装置,其特征在于,包括:
移动网络构建模块,用于获取多个用户和用户访问的地点数据,以用户与用户的边长权重表示用户时空模式的相似度,地点与地点的边长权重表示地点功能上的相似度,用户与地点的边长权重表示用户访问地点的频率,得到保留语义的移动网络;
表示向量处理模块,用于获取使预设的目标函数最小时的用户表示向量,输入预设的机器学习分类模型,获取用户画像的推断结果;
其中,所述目标函数根据上述三类边长权重,以及用户表示向量和地点表示向量构建得到,所述目标函数值为根据表示向量得到的相似度和边长权重的近似程度,所述预设的机器学习分类模型根据带有确定用户类别标签的样本用户表示向量训练后得到。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于时空移动数据表征学习的用户画像推断方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于时空移动数据表征学习的用户画像推断方法的步骤。
CN202010328213.2A 2020-04-23 2020-04-23 基于时空移动数据表征学习的用户画像推断方法及装置 Active CN111695046B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010328213.2A CN111695046B (zh) 2020-04-23 2020-04-23 基于时空移动数据表征学习的用户画像推断方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010328213.2A CN111695046B (zh) 2020-04-23 2020-04-23 基于时空移动数据表征学习的用户画像推断方法及装置

Publications (2)

Publication Number Publication Date
CN111695046A true CN111695046A (zh) 2020-09-22
CN111695046B CN111695046B (zh) 2022-11-08

Family

ID=72476612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010328213.2A Active CN111695046B (zh) 2020-04-23 2020-04-23 基于时空移动数据表征学习的用户画像推断方法及装置

Country Status (1)

Country Link
CN (1) CN111695046B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396102A (zh) * 2020-11-17 2021-02-23 哈尔滨工程大学 基于时空移动特征分布的移动群智感知用户联盟聚类方法
CN112819232A (zh) * 2021-02-04 2021-05-18 北京建筑大学 一种基于打卡数据的人流量特征预测方法及装置
CN112906831A (zh) * 2021-04-21 2021-06-04 电子科技大学 一种结合网络结构与属性特征的通信网用户分类方法
CN116049690A (zh) * 2023-01-28 2023-05-02 北京大数据先进技术研究院 一种移动目标的活动规律确定方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372072A (zh) * 2015-07-20 2017-02-01 北京大学 一种基于位置的移动社会网络用户关系的识别方法
US20190034823A1 (en) * 2017-07-27 2019-01-31 Getgo, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372072A (zh) * 2015-07-20 2017-02-01 北京大学 一种基于位置的移动社会网络用户关系的识别方法
US20190034823A1 (en) * 2017-07-27 2019-01-31 Getgo, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FENGLI XU ET AL.: "Walking Without Friends: Publishing Anonymized Trajectory Dataset Without Leaking Social Relationships", 《IEEE TRANSACTIONS ON NETWORK AND SERVICE MANAGEMENT》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396102A (zh) * 2020-11-17 2021-02-23 哈尔滨工程大学 基于时空移动特征分布的移动群智感知用户联盟聚类方法
CN112396102B (zh) * 2020-11-17 2022-08-02 哈尔滨工程大学 基于时空移动特征分布的移动群智感知用户联盟聚类方法
CN112819232A (zh) * 2021-02-04 2021-05-18 北京建筑大学 一种基于打卡数据的人流量特征预测方法及装置
CN112906831A (zh) * 2021-04-21 2021-06-04 电子科技大学 一种结合网络结构与属性特征的通信网用户分类方法
CN116049690A (zh) * 2023-01-28 2023-05-02 北京大数据先进技术研究院 一种移动目标的活动规律确定方法、装置、设备和介质

Also Published As

Publication number Publication date
CN111695046B (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN111695046B (zh) 基于时空移动数据表征学习的用户画像推断方法及装置
US11238065B1 (en) Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis
Chen et al. Delineating urban functional areas with building-level social media data: A dynamic time warping (DTW) distance based k-medoids method
CN113705772A (zh) 一种模型训练方法、装置、设备及可读存储介质
Lu et al. GLR: A graph-based latent representation model for successive POI recommendation
CN109460520B (zh) 基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法
CN113139140B (zh) 基于时空感知gru并结合用户关系偏好的旅游景点推荐方法
Hu et al. Nonnegative matrix tri-factorization with user similarity for clustering in point-of-interest
CN110008402B (zh) 一种基于社交网络的去中心化矩阵分解的兴趣点推荐方法
Mohammadi et al. Artificial intelligence-based solution to estimate the spatial accuracy of volunteered geographic data
CN112380449B (zh) 信息推荐方法、模型训练方法及相关装置
CN113255798A (zh) 一种分类模型训练方法、装置、设备及介质
CN112131261A (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN112258250A (zh) 基于网络热点的目标用户识别方法、装置和计算机设备
CN112055038B (zh) 生成点击率预估模型的方法及预测点击概率的方法
CN116310318A (zh) 交互式的图像分割方法、装置、计算机设备和存储介质
Yoshida et al. Spatial prediction of apartment rent using regression-based and machine learning-based approaches with a large dataset
CN113590971A (zh) 一种基于类脑时空感知表征的兴趣点推荐方法及系统
Meng et al. POI recommendation for occasional groups Based on hybrid graph neural networks
Zhao et al. Point-of-Interest Recommendation in Location-Based Social Networks
CN116503588A (zh) 一种基于多元关系时空网络的poi推荐方法,装置及设备
CN115631008B (zh) 商品推荐方法、装置、设备及介质
CN111209105A (zh) 扩容处理方法、装置、设备及可读存储介质
CN115510318A (zh) 用户表征模型的训练方法、用户表征方法及装置
KR20230059318A (ko) 유동 인구 분석 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211224

Address after: No. 5013-485 Haidian Street, Haidian District, Beijing

Applicant after: Beijing Qingpeng Intelligent Technology Co.,Ltd.

Address before: Tsinghua University, 30 Shuangqing Road, Haidian District, Beijing 100084

Applicant before: TSINGHUA University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant