CN109635208B - 用户到访推断模型建立方法、装置及存储介质 - Google Patents

用户到访推断模型建立方法、装置及存储介质 Download PDF

Info

Publication number
CN109635208B
CN109635208B CN201811252456.1A CN201811252456A CN109635208B CN 109635208 B CN109635208 B CN 109635208B CN 201811252456 A CN201811252456 A CN 201811252456A CN 109635208 B CN109635208 B CN 109635208B
Authority
CN
China
Prior art keywords
user
visiting
relation
inference model
stop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811252456.1A
Other languages
English (en)
Other versions
CN109635208A (zh
Inventor
李岩岩
胡仁君
段建国
姜爱荣
熊辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811252456.1A priority Critical patent/CN109635208B/zh
Publication of CN109635208A publication Critical patent/CN109635208A/zh
Priority to US16/654,343 priority patent/US20200042902A1/en
Application granted granted Critical
Publication of CN109635208B publication Critical patent/CN109635208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种用户到访推断模型建立方法、装置及存储介质,根据每个用户的定位数据,确定每个用户的停留点集合;停留点集合为停留点的聚类集合;根据所有用户的停留点集合,构建用户的群组关系;根据每个用户的停留点集合,构建每个用户的到访关系;对构建的群组关系和到访关系进行向量表征学习,得到用户到访推断模型。通过上述建立方法得到的用户到访推断模型嵌入了用户群组关系以及用户历史到访关系,与现有技术方案相比,具有较高的预测准确性。

Description

用户到访推断模型建立方法、装置及存储介质
技术领域
本发明实施例涉及信息处理技术领域,尤其涉及一种用户到访推断模型建立方法、装置及存储介质。
背景技术
随着移动互联网和移动智能终端的不断发展,终端用户产生了大量的定位数据,定位数据真实反映了用户在物理时空中的行为特征。基于用户定位数据推断用户到访兴趣点(Point of Interest,POI),赋予了用户定位点更丰富的信息,广泛应用于用户画像、知识图谱、搜索广告等领域。具体来说,如果能够确定或者预测用户到访一个POI,例如商场、景区等,则可以准确命中用户实际需求,从而向用户终端推送信息。
目前到访POI推断主要依据距离最短、贝叶斯、WIFI信号的建模方式展开。其中,距离最短是指将用户定位点与POI坐标的距离关系进行排序,距离最近POI为到访POI;贝叶斯方法考量了更多的特征,常用的有到访时间、POI热度、距离因子等,各特征具有条件独立性;WIFI信号的强度建模使用用户定位时扫描到的WIFI名称与强度特征,输入到分类模型,比如支持向量机SVM,对周边POI进行评分。
上述三种方案是目前工业与学术界进行到访POI的主要方式,综合来看无论基于简单规则还是分类模型,对用户的社会关系与历史出行规律等相关特征并不能方便的表征嵌入,造成特征信息的缺失,导致推断效果不佳。
发明内容
本发明提供的用户到访推断模型建立方法、装置及存储介质,由于模型中嵌入了用户群组关系以及用户历史到访关系,因此具有较高的预测准确性。
本发明的第一方面提供一种用户到访推断模型建立方法,包括:
根据每个用户的定位数据,确定所述每个用户的停留点集合;所述停留点集合为停留点的聚类集合;
根据所有用户的所述停留点集合,构建用户的群组关系;
根据每个用户的停留点集合,构建所述每个用户的到访关系;
对构建的所述群组关系和所述到访关系进行向量表征学习,得到所述用户到访推断模型。
在一种可能的实现方式中,所述定位数据包括用户定位点的位置坐标、到达所述定位点的第一时间、离开所述定位点的第二时间;所述根据每个用户的定位数据,确定所述每个用户的停留点集合,包括:
根据所述定位点的所述第一时间和所述第二时间,确定用户在所述定位点的停留时间;
将所述停留时间大于预设停留时间的定位点作为用户的停留点;
将所述停留点之间的距离小于预设距离的多个所述停留点进行聚类,确定每个用户的停留点集合。
在一种可能的实现方式中,所述根据所有用户的所述停留点集合,构建用户的群组关系,包括:
根据所有用户的所述停留点集合,确定存在群组关系的第一用户集合,所述第一用户集合为同时出现在同一停留点的至少两个用户;
统计在预设时段内所述第一用户集合中的存在群组关系的所述至少两个用户同时出现在同一停留点的第一次数;
根据所述第一用户集合以及所述第一次数,构建用户的群组关系。
在一种可能的实现方式中,所述根据每个用户的停留点集合,构建所述每个用户的到访关系,包括:
根据每个用户的停留点集合以及用户连接局域网的连接信息,确定所述每个用户的到访集合;所述到访集合包括多个到访POI;
统计在预设时段内用户达到所述到访集合中每个到访POI的第二次数;
根据所述到访集合以及所述第二次数,构建所述每个用户的到访关系。
在一种可能的实现方式中,所述对构建的所述群组关系和所述到访关系进行向量表征学习,得到所述用户到访推断模型,包括:
基于GraphEmbeding算法对构建的所述群组关系和所述到访关系进行向量表征学习,得到所述用户到访推断模型。
在一种可能的实现方式中,所述基于GraphEmbeding算法对构建的所述群组关系和所述到访关系进行向量表征学习,得到所述用户到访推断模型,包括:
基于GraphEmbeding算法对构建的所述群组关系进行向量表征学习,得到所述群组关系的第一目标函数;
基于GraphEmbeding算法对构建的所述到访关系进行向量表征学习,得到所述到访关系的第二目标函数;
根据所述第一目标函数和所述第二目标函数,确定所述用户到访推断模型。
在一种可能的实现方式中,所述根据所述第一目标函数和所述第二目标函数,确定所述用户到访推断模型,包括:
根据所述第一目标函数和所述第二目标函数,采用随机梯度下降算法确定所述用户到访推断模型。
本发明的第二方面提供一种用户到访推断模型建立装置,包括:
确定模块,用于根据每个用户的定位数据,确定所述每个用户的停留点集合;所述停留点集合为停留点的聚类集合;
群组关系构建模块,用于根据所有用户的所述停留点集合,构建用户的群组关系;
到访关系构建模块,用于根据每个用户的停留点集合,构建所述每个用户的到访关系;
模型构建模块,用于对构建的所述群组关系和所述到访关系进行向量表征学习,得到所述用户到访推断模型。
本发明的第三方面提供一种用户到访推断模型建立装置,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如本发明第一方面任一项所述的用户到访推断模型建立方法。
本发明的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如本发明第一方面任一项所述的用户到访推断模型建立方法。
本发明实施例提供一种用户到访推断模型建立方法、装置及存储介质,根据每个用户的定位数据,确定每个用户的停留点集合;停留点集合为停留点的聚类集合;根据所有用户的停留点集合,构建用户的群组关系;根据每个用户的停留点集合,构建每个用户的到访关系;对构建的群组关系和到访关系进行向量表征学习,得到用户到访推断模型。通过上述建立方法得到的用户到访推断模型嵌入了用户群组关系以及用户历史到访关系,与现有技术方案相比,具有较高的预测准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明一实施例提供的用户到访推断模型建立方法的流程示意图;
图2为本发明另一实施例提供的用户到访推断模型建立方法的流程示意图;
图3为本发明一实施例提供的用户停留点的分布示意图;
图4为本发明一实施例提供的用户到访推断模型建立装置的结构示意图;
图5为本发明一实施例提供的用户到访推断模型建立装置的硬件结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本发明的说明书和权利要求书中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
本发明的说明书中通篇提到的“一实施例”或“另一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一些实施例中”或“在本实施例中”未必一定指相同的实施例。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例提供的用户到访推断模型建立方法基于用户到访的先验观察,建立用户到访推断模型,具体考虑了如下观察因素:
观察因素1:地理学第一定律,人类行为与所在地区有绝对的影响,此种影响随著距离的加大而递减
观察因素2:空间规律性,空间中同一用户距离近似定位点,倾向参观类似或同一POI。
观察因素3:时间规律性,用户倾向在近似时间访问类似或同一POI。
观察因素4:社会规律性,具有社会关系的人群组,倾向于到达类似或同一POI,例如夫妻一同逛超市。
本实施例提供的用户到访推断模型建立方法包含了上述观察因素的特征,创新性的对有群组关系、历史到访偏好特征进行向量表征,通过表征的算法,将群组关系、历史到访关系的异构数据进行特征编码,用于用户到访模型的建立。较目前实现的方案,由于考虑了群组关系、历史到访偏好特征,因此模型具有较高的预测准确性。
下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明一实施例提供的用户到访推断模型建立方法的流程示意图,该方法可以由任意执行该方法的装置来执行,该装置可以通过软件和/或硬件实现。如图1所示,本实施例提供的用户到访推断模型建立方法包括如下步骤:
S101、根据每个用户的定位数据,确定每个用户的停留点集合;停留点集合为停留点的聚类集合;
本实施例中,每个用户的定位数据是指每个用户在预设时段内的历史定位数据。示例性的,预设时段可以是一年也可以是一个季度,对此本实施例不作具体限定,本领域技术人员可以根据实际需求进行设定。
根据每个用户的历史定位数据,确定每个用户的停留点集合。针对某一用户来说,该用户的历史定位数据包括大量的定位点信息,首先,需要对大量的定位点信息做初步筛选,筛选出该用户的停留点。可以理解的是,不是所有的定位点都为停留点,换句话说,若用户在该定位点的停留时间很短则该定位点并非停留点,若用户在该定位点的停留时间较长则该定位点可以作为该用户的一个停留点。然后,对筛选出的停留点进行聚类,得到用户的停留点集合。
S102、根据所有用户的停留点集合,构建用户的群组关系;
在步骤S101的基础上,获取用户集合中所有用户的停留点集合,根据所有用户的停留点集合,构建用户的群组关系。具体来说,根据所有用户的停留点集合,确定存在群组关系的第一用户集合,该第一用户集合为同时出现在同一停留点的至少两个用户,根据多个第一用户集合构建用户的群组关系。
例如,用户u和用户u′同时在下午14点出现在某超市并在超市停留了半个小时,用户u和用户u′又同时在下午19点出现在某商场并在商场停留了一个小时,则可以确定用户u与用户u′存在群组关系。
S103、根据每个用户的停留点集合,构建每个用户的到访关系;
在步骤S101的基础上,根据每个用户的停留点集合,确定每个用户的到访集合,该到访集合包括多个到访POI。具体来说,根据每个用户的停留点集合以及每个用户连接局域网的连接信息,确定每个用户的到访集合,根据到访集合构建每个用户的到访关系,也就是说,确定用户的真实到访信息。
本实施例中连接局域网,包括但不限于WIFI连接。针对每个用户连接局域网的签到数据、支付数据、消费数据等,可以确定该用户在该停留点的行为数据。
S104、对构建的群组关系和到访关系进行向量表征学习,得到用户到访推断模型。
具体的,本实施例基于GraphEmbeding算法对构建的群组关系和到访关系进行向量表征学习,得到用户到访推断模型。其中,
GraphEmbeding算法为能够保留一阶临近的表征算法,可选的,也可以采用DNGR、GCN、LINE、HOPE等算法对本实施例的群组关系和到访关系进行表征向量学习。
本发明实施例提供的用户到访推断模型建立方法,根据每个用户的定位数据,确定每个用户的停留点集合;停留点集合为停留点的聚类集合;根据所有用户的停留点集合,构建用户的群组关系;根据每个用户的停留点集合,构建每个用户的到访关系;对构建的群组关系和到访关系进行向量表征学习,得到用户到访推断模型。通过上述建立方法得到的用户到访推断模型嵌入了用户群组关系以及用户历史到访关系,与现有技术方案相比,具有较高的预测准确性。
在上述实施例的基础上,本实施例提供的用户到访推断模型建立方法加入了时间维度的次数加权,得到的用户到访推断模型具有更为精准的预测效果。下面结合附图对本实施例的用户到访推断模型建立方法进行详细说明。
图2为本发明另一实施例提供的用户到访推断模型建立方法的流程示意图,图3为本发明一实施例提供的用户停留点的分布示意图。如图2所示,本实施例提供的用户到访推断模型建立方法具体包括以下步骤:
S201、根据每个用户的定位数据,确定每个用户的停留点集合;
在本实施例中,每个用户的定位数据包括用户定位点的位置坐标、到达定位点的第一时间和离开定位点的第二时间。
具体的,针对某一用户来说,根据该用户的定位点的第一时间和第二时间,可以确定该用户在该定位点的停留时间;将停留时间大于预设停留时间的定位点作为用户的停留点;将停留点之间的距离小于预设距离的多个停留点进行聚类,确定该用户的停留点集合。
如图3所示,用户u的定位点包括P1,P2,...,Pend,其中,由于P4以及Pend-4,Pend-3的停留时间小于预设停留时间,因此将P4以及Pend-4,Pend-3筛掉(非停留点);进一步的,由于P1,P2,P3之间的距离小于预设距离,因此将P1,P2,P3聚类为一个停留点,同理Pend-1,Pend聚类为一个停留点。
S202、根据所有用户的停留点集合,确定存在群组关系的第一用户集合,第一用户集合为同时出现在同一停留点的至少两个用户;
需要指出的是,同时出现在同一停留点是指在同一停留点的预设范围内存在时间交集。例如,用户u在下午14点02分进入超市14点30分离开超市,用户u′在下午13点50分进入超市14点30分离开超市,则确定用户u和用户u′到访超市时存在时间交集。
S203、统计在预设时段内第一用户集合中的存在群组关系的至少两个用户同时出现在同一停留点的第一次数;
在确定用户集合中所有用户的群组关系之后,本实施例增加了分时间维度权重w,该权重考虑了群组关系的亲密度,具体通过统计第一用户集合中存在群组关系的至少两个用户在预设时段内同时出现在同一停留点的总次数,以便构建的群组关系更为精准。
例如,预设时段设置为24小时,则将24小时划分为24个时间段,统计在各个时段内至少两个用户同时出现在同一停留点的次数,可用向量w(u,u′)=[n1,n2,...,nT]表示,本实施例的第一次数为该向量中所有次数的总和。上述预设时段仅为示例,本实施例对此不作具体限定。
S204、根据第一用户集合以及第一次数,构建用户的群组关系;
在本实施例中,对第一用户集合进行次数加权,构建用户的群组关系。由于考虑了时间维度上同时出现的总次数,得到的群组关系较上述实施例更精准。
S205、根据每个用户的停留点集合以及用户连接局域网的连接信息,确定每个用户的到访集合;
其中,到访集合包括多个到访POI。
本实施例的S205与上述实施例的S103的实现原理与技术效果相同,具体可参见上述实施例,此处不再赘述。
S206、统计在预设时段内用户达到到访集合中每个到访POI的第二次数;
在一些实施例中,在确定每个用户的到访集合后,还需统计在预设时段内用户到达到访集合中每个到访POI的第二次数,目的在于对用户真实到访的历史数据进行排序,由于不同的到访POI对应的第二次数不同,第二次数越大,该到访POI的权重越大。
例如,预设时段设置为1年,将1年划分为12个月,统计每个月内该用户到访POI的次数,可用向量w(u,p)=[n1,n2,...,nT]表示,其中,p为到访集合中的到访POI,本实施例的第二次数为该向量中所有次数的总和。上述预设时段仅为示例,本实施例对此不作具体限定。
S207、根据到访集合以及第二次数,构建每个用户的到访关系;
在本实施例中,对到访集合进行次数加权,构建每个用户的群组关系,由于考虑了时间维度上到访POI的总次数,得到的每个用户的到访关系较上述实施例更为精准。
S208、对构建的群组关系和到访关系进行向量表征学习,得到用户到访推断模型。
在上述实施例的基础上,本实施例基于GraphEmbeding算法对构建的群组关系进行向量学习,得到群组关系的第一目标函数;基于GraphEmbeding算法对构建的到访关系进行向量学习,得到到访关系的第二目标函数;根据第一目标函数和第二目标函数,确定用户到访推断模型。
具体的,本实施例的第一目标函数表示为:
Figure BDA0001841997300000091
其中,
Figure BDA0001841997300000092
为用户u在t时刻的向量表征,
Figure BDA0001841997300000093
为用户u′在t时刻的向量表征,
Figure BDA0001841997300000094
Figure BDA0001841997300000095
为sigmoid函数,u″为服从离散均匀分布DU的用户,t′为服从离散均匀分布DT的时间,E为数学期望。
具体的,本实施例的第二目标函数表示为:
Figure BDA0001841997300000096
其中,
Figure BDA0001841997300000097
为用户u在t时刻的向量表征,
Figure BDA0001841997300000098
为用户u到访POI的向量表征,
Figure BDA0001841997300000099
Figure BDA00018419973000000910
为sigmoid函数,p′为服从离散均匀分布DP的POI,t′为服从离散均匀分布DT的时间,E为数学期望。
根据第一目标函数和第二目标函数给出总体损失函数,总体损失函数表示为:
Figure BDA0001841997300000101
其中,
Figure BDA0001841997300000102
为用户群组关系的集合,
Figure BDA0001841997300000103
为用户到访关系的集合。
λ用于调节第一目标函数与第二目标函数的比例。
本实施例采用随机梯度下降算法,求取总体损失函数的最优解,使得总体损失函数O最小,此时的总体损失函数可作为最终的用户到访推断模型的数学表达。
基于上述用户到访推断模型,输入用户u的向量表征
Figure BDA0001841997300000104
以及用户u到访POI的向量表征
Figure BDA0001841997300000105
即可得到较为准确的到访概率。
本发明本实施例的用户到访推断模型建立方法,根据每个用户的定位数据,确定每个用户的停留点集合;根据所有用户的停留点集合,确定存在群组关系的第一用户集合,同时统计在预设时段内第一用户集合中的存在群组关系的至少两个用户同时出现在同一停留点的第一次数,根据第一用户集合以及第一次数,构建用户的群组关系;根据每个用户的停留点集合以及用户连接局域网的连接信息,确定每个用户的到访集合,同时统计在预设时段内用户到达到访集合中每个到访POI的第二次数,根据到访集合以及第二次数构建每个用户的到访关系;对构建的群组关系和到访关系进行向量表征学习,得到用户到访推断模型。上述建立方法得到的用户到访推断模型嵌入了用户群组关系以及用户历史到访关系,同时加入了时间维度的次数加权,具有更为精准的预测效果。
图4为本发明一实施例提供的用户到访推断模型建立装置的结构示意图,如图4所示,本实施例提供的用户到访推断模型建立装置40,包括:
确定模块41,用于根据每个用户的定位数据,确定所述每个用户的停留点集合;所述停留点集合为停留点的聚类集合;
群组关系构建模块42,用于根据所有用户的所述停留点集合,构建用户的群组关系;
到访关系构建模块43,用于根据每个用户的停留点集合,构建所述每个用户的到访关系;
模型构建模块44,用于对构建的所述群组关系和所述到访关系进行向量表征学习,得到所述用户到访推断模型。
本发明实施例提供的用户到访推断模型建立装置包括确定模块、群组关系构建模块、到访关系构建模块以及模型构建模块,其中,确定模块,用于根据每个用户的定位数据,确定每个用户的停留点集合;停留点集合为停留点的聚类集合;群组关系构建模块,用于根据所有用户的停留点集合,构建用户的群组关系;到访关系构建模块,用户根据每个用户的停留点集合,构建每个用户的到访关系;模型构建模块,用于对构建的群组关系和到访关系进行向量表征学习,得到用户到访推断模型。本实施例的用户到访推断模型建立装置嵌入了群组关系构建模块以及用户历史到访关系构建模块,构建的用户到访模型具有较高的预测准确性。
在上述实施例的基础上,可选的,所述定位数据包括用户定位点的位置坐标、到达所述定位点的第一时间、离开所述定位点的第二时间;所述确定模块41,具体用于:
根据所述定位点的所述第一时间和所述第二时间,确定用户在所述定位点的停留时间;
将所述停留时间大于预设停留时间的定位点作为用户的停留点;
将所述停留点之间的距离小于预设距离的多个所述停留点进行聚类,确定每个用户的停留点集合。
可选的,所述群组关系构建模块42,具体用于:
根据所有用户的所述停留点集合,确定存在群组关系的第一用户集合,所述第一用户集合为同时出现在同一停留点的至少两个用户;
统计在预设时段内所述第一用户集合中的存在群组关系的所述至少两个用户同时出现在同一停留点的第一次数;
根据所述第一用户集合以及所述第一次数,构建用户的群组关系。
可选的,所述到访关系构建模块43,具体用于:
根据每个用户的停留点集合以及用户连接局域网的连接信息,确定所述每个用户的到访集合;所述到访集合包括多个到访POI;
统计在预设时段内用户达到所述到访集合中每个到访POI的第二次数;
根据所述到访集合以及所述第二次数,构建所述每个用户的到访关系。
可选的,所述模型构建模块44,具体用于:
基于GraphEmbeding算法对构建的所述群组关系和所述到访关系进行向量表征学习,得到所述用户到访推断模型。
可选的,所述模型构建模块44,具体用于:
基于GraphEmbeding算法对构建的所述群组关系进行向量表征学习,得到所述群组关系的第一目标函数;
基于GraphEmbeding算法对构建的所述到访关系进行向量表征学习,得到所述到访关系的第二目标函数;
根据所述第一目标函数和所述第二目标函数,确定所述用户到访推断模型。
可选的,所述模型构建模块44,具体用于:
根据所述第一目标函数和所述第二目标函数,采用随机梯度下降算法确定所述用户到访推断模型。
本实施例提供的用户到访推断模型建立装置,可以执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明实施例还提供一种用户到访推断模型建立装置,参见图5所示,本发明实施例仅以图5为例进行说明,并不表示本发明仅限于此。
图5为本发明一实施例提供的用户到访推断模型建立装置的硬件结构示意图,如图5所示,本实施例提供的用户到访推断模型建立装置50,包括:
存储器51;
处理器52;以及
计算机程序;
其中,计算机程序存储在存储器51中,并被配置为由处理器52执行以实现如前述任一项方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
可选的,存储器51既可以是独立的,也可以跟处理器52集成在一起。
当存储器51是独立于处理器52之外的器件时,用户到访推断模型建立装置50还包括:
总线53,用于连接存储器51和处理器52。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器52执行以实现如上方法实施例中用户到访推断模型建立装置50所执行的各个步骤。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种用户到访推断模型建立方法,其特征在于,包括:
根据每个用户的定位数据,确定所述每个用户的停留点集合;所述停留点集合为停留点的聚类集合;所述聚类集合中包括多个停留时间大于预设停留时间的停留点,且所述停留点之间的距离小于预设距离;
根据所有用户的所述停留点集合,构建用户的群组关系;
根据每个用户的停留点集合,构建所述每个用户的到访关系;
对构建的所述群组关系和所述到访关系进行向量表征学习,得到所述用户到访推断模型;
所述对构建的所述群组关系和所述到访关系进行向量表征学习,得到所述用户到访推断模型,包括:
基于GraphEmbeding算法对构建的所述群组关系进行向量表征学习,得到所述群组关系的第一目标函数;
基于GraphEmbeding算法对构建的所述到访关系进行向量表征学习,得到所述到访关系的第二目标函数;
根据所述第一目标函数和所述第二目标函数,确定所述用户到访推断模型。
2.根据权利要求1所述的方法,其特征在于,所述定位数据包括用户定位点的位置坐标、到达所述定位点的第一时间、离开所述定位点的第二时间;所述根据每个用户的定位数据,确定所述每个用户的停留点集合,包括:
根据所述定位点的所述第一时间和所述第二时间,确定用户在所述定位点的停留时间;
将所述停留时间大于预设停留时间的定位点作为用户的停留点;
将所述停留点之间的距离小于预设距离的多个所述停留点进行聚类,确定每个用户的停留点集合。
3.根据权利要求1所述的方法,其特征在于,所述根据所有用户的所述停留点集合,构建用户的群组关系,包括:
根据所有用户的所述停留点集合,确定存在群组关系的第一用户集合,所述第一用户集合为同时出现在同一停留点的至少两个用户;
统计在预设时段内所述第一用户集合中的存在群组关系的所述至少两个用户同时出现在同一停留点的第一次数;
根据所述第一用户集合以及所述第一次数,构建用户的群组关系。
4.根据权利要求1所述的方法,其特征在于,所述根据每个用户的停留点集合,构建所述每个用户的到访关系,包括:
根据每个用户的停留点集合以及用户连接局域网的连接信息,确定所述每个用户的到访集合;所述到访集合包括多个到访POI;
统计在预设时段内用户达到所述到访集合中每个到访POI的第二次数;
根据所述到访集合以及所述第二次数,构建所述每个用户的到访关系。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一目标函数和所述第二目标函数,确定所述用户到访推断模型,包括:
根据所述第一目标函数和所述第二目标函数,采用随机梯度下降算法确定所述用户到访推断模型。
6.一种用户到访推断模型建立装置,其特征在于,包括:
确定模块,用于根据每个用户的定位数据,确定所述每个用户的停留点集合;所述停留点集合为停留点的聚类集合;所述聚类集合中包括多个停留时间大于预设停留时间的停留点,且所述停留点之间的距离小于预设距离;
群组关系构建模块,用于根据所有用户的所述停留点集合,构建用户的群组关系;
到访关系构建模块,用于根据每个用户的停留点集合,构建所述每个用户的到访关系;
模型构建模块,用于对构建的所述群组关系和所述到访关系进行向量表征学习,得到所述用户到访推断模型;
所述模型构建模块,具体用于基于GraphEmbeding算法对构建的所述群组关系进行向量表征学习,得到所述群组关系的第一目标函数;基于GraphEmbeding算法对构建的所述到访关系进行向量表征学习,得到所述到访关系的第二目标函数;根据所述第一目标函数和所述第二目标函数,确定所述用户到访推断模型。
7.一种用户到访推断模型建立装置,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-5任一项所述的用户到访推断模型建立方法。
8.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-5任一项所述的用户到访推断模型建立方法。
CN201811252456.1A 2018-10-25 2018-10-25 用户到访推断模型建立方法、装置及存储介质 Active CN109635208B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811252456.1A CN109635208B (zh) 2018-10-25 2018-10-25 用户到访推断模型建立方法、装置及存储介质
US16/654,343 US20200042902A1 (en) 2018-10-25 2019-10-16 Method for Building User Visit Inference Model, Apparatus and Storage Medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811252456.1A CN109635208B (zh) 2018-10-25 2018-10-25 用户到访推断模型建立方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN109635208A CN109635208A (zh) 2019-04-16
CN109635208B true CN109635208B (zh) 2020-10-09

Family

ID=66066584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811252456.1A Active CN109635208B (zh) 2018-10-25 2018-10-25 用户到访推断模型建立方法、装置及存储介质

Country Status (2)

Country Link
US (1) US20200042902A1 (zh)
CN (1) CN109635208B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110677815A (zh) 2019-08-07 2020-01-10 北京百度网讯科技有限公司 停留点识别方法、装置、计算机设备及存储介质
CN110647675B (zh) * 2019-08-07 2022-05-27 北京百度网讯科技有限公司 停留点识别及预测模型训练方法、装置及存储介质
CN113497717B (zh) * 2020-03-19 2023-03-31 中国移动通信有限公司研究院 网络流量的预测方法、装置、设备及存储介质
CN111553279B (zh) * 2020-04-28 2023-05-05 北京百度网讯科技有限公司 兴趣点的表征学习、识别方法、装置、设备及存储介质
CN112000893B (zh) * 2020-09-29 2024-04-12 北京百度网讯科技有限公司 常驻区域预测方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006054463A1 (ja) * 2004-11-17 2006-05-26 Pioneer Corporation 地点検索装置及びナビゲーション装置
CN106055607A (zh) * 2016-05-25 2016-10-26 百度在线网络技术(北京)有限公司 用户到访预测模型建立、用户到访预测方法和装置
CN107633100A (zh) * 2017-10-23 2018-01-26 苏州大学 一种基于嵌入模型的兴趣点推荐方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509434B (zh) * 2017-02-23 2020-12-25 中国移动通信有限公司研究院 一种群体用户的挖掘方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006054463A1 (ja) * 2004-11-17 2006-05-26 Pioneer Corporation 地点検索装置及びナビゲーション装置
CN106055607A (zh) * 2016-05-25 2016-10-26 百度在线网络技术(北京)有限公司 用户到访预测模型建立、用户到访预测方法和装置
CN107633100A (zh) * 2017-10-23 2018-01-26 苏州大学 一种基于嵌入模型的兴趣点推荐方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于位置社交网络的用户行为建模与研究;郭昊;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170115;第35-50页 *
基于用户签到行为的兴趣点推荐;任星怡 等;《计算机学报》;20170115;第40卷(第1期);第24-48页 *

Also Published As

Publication number Publication date
US20200042902A1 (en) 2020-02-06
CN109635208A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635208B (zh) 用户到访推断模型建立方法、装置及存储介质
US9183497B2 (en) Performance-efficient system for predicting user activities based on time-related features
CN106055607B (zh) 用户到访预测模型建立、用户到访预测方法和装置
CN109614556B (zh) 访问路径预测、信息推送方法及装置
CN110675177A (zh) 门店选址方法和装置
CN109977322B (zh) 出行方式推荐方法、装置、计算机设备和可读存储介质
KR20190124524A (ko) 관심장소 추천 방법 및 관심장소 추천 시스템
CN108596695B (zh) 实体推送方法及系统
CN110414550B (zh) 人脸识别模型的训练方法、装置、系统和计算机可读介质
CN110334289A (zh) 出行目的地的确定方法和目标用户的确定方法
CN111461812A (zh) 对象推荐方法、装置、电子设备及可读存储介质
CN107807997A (zh) 基于大数据的用户画像构造方法、装置及计算设备
JP6725718B2 (ja) 位置基盤情報探索方法およびコンピュータ装置
CN109903086A (zh) 一种相似人群扩展方法、装置及电子设备
KR101639656B1 (ko) 광고 제공 방법 및 서버 장치
CN112632380A (zh) 兴趣点推荐模型的训练方法和推荐兴趣点的方法
CN113407854A (zh) 一种应用推荐方法、装置、设备及计算机可读存储介质
CN116046008A (zh) 基于态势感知的路线规划方法、系统及效能评估装置
CN115456707A (zh) 提供商品推荐信息的方法、装置及电子设备
CN110895543B (zh) 人口迁徙跟踪展示方法、装置及存储介质
CN114579892A (zh) 一种基于跨城市兴趣点匹配的用户异地访问位置预测方法
CN112115372B (zh) 一种停车场的推荐方法及装置
CN114467106A (zh) 图形学习和自动行为协调平台
CN111259268A (zh) Poi推荐模型的构建方法及系统
CN111126653B (zh) 用户职住地预测方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant