CN115309999B - 兴趣点状态预测方法、装置、电子设备及计算机存储介质 - Google Patents
兴趣点状态预测方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN115309999B CN115309999B CN202211243185.XA CN202211243185A CN115309999B CN 115309999 B CN115309999 B CN 115309999B CN 202211243185 A CN202211243185 A CN 202211243185A CN 115309999 B CN115309999 B CN 115309999B
- Authority
- CN
- China
- Prior art keywords
- predicted
- user
- interest
- interest point
- target associated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开实施例公开了一种兴趣点状态预测方法、装置、电子设备及计算机存储介质,所述方法包括:获取待预测兴趣点的目标关联用户与所述待预测兴趣点的关联数据;基于所述关联数据确定所述待预测兴趣点的待预测特征;所述待预测特征包括基于所述目标关联用户相对于所述待预测兴趣点的距离分布获得的空间距离特征,以及所述目标关联用户针对所述待预测兴趣点所产生行为的时间趋势特征;基于所述待预测特征预测所述待预测兴趣点的当前状态。该技术方案能够基于待预测兴趣点相关的目标关联用户的空间以及时间行为数据,提升待预测兴趣点的状态预测准确率。
Description
技术领域
本公开涉及地理位置服务技术领域,具体涉及一种兴趣点状态预测方法、装置、电子设备及计算机存储介质。
背景技术
随着基于位置的服务(LBS)的发展,越来越多的应用软件集成了与电子地图有关的服务能力。比如,用户可以通过地图导航类应用软件或者网约车应用软件搜索电子地图中的兴趣点(Point of Interest,简称为POI),获得与POI有关的信息或者规划到POI的导航路线,其中,电子地图中的POI表征的是现实世界的住宅小区、商铺、地铁站、公厕等场所。
然而,商铺等实体在现实世界中会随着时间的推移出现关闭以及信息变动等情况,导致电子地图数据中与之相对应的POI过期,过期POI会影响用户对位置服务的使用体验,包括导航、搜索、查询等。过期POI的挖掘需要依赖多源用户行为数据,然而多源用户行为数据容易带来噪音,导致挖掘过期POI的确率较低。因此,需要提出一种解决方案,以便基于与POI关联的多源用户的关联数据,提高过期POI的挖掘准确率。
发明内容
本公开实施例提供一种兴趣点状态预测方法、装置、电子设备及计算机存储介质。
第一方面,本公开实施例中提供了一种兴趣点状态预测方法,其中,包括:
获取待预测兴趣点的目标关联用户与所述待预测兴趣点的关联数据;
基于所述关联数据确定所述待预测兴趣点的待预测特征;所述待预测特征包括基于所述目标关联用户相对于所述待预测兴趣点的距离分布获得的空间距离特征,以及所述目标关联用户针对所述待预测兴趣点所产生行为的时间趋势特征;
基于所述待预测特征预测所述待预测兴趣点的当前状态。
第二方面,本公开实施例中提供了一种兴趣点状态预测的模型训练方法,其中,包括:
获取样本兴趣点的目标关联用户与所述样本兴趣点的关联数据以及所述样本兴趣点的标注状态;
以预设时间段为单位,将所述关联数据中目标关联用户相对于样本兴趣点的距离分布以及目标关联用户针对所述样本兴趣点所产生的行为输入至时空特征提取模型,获得所述预设时间段对应的待预测特征;
将多个预设时间段对应的所述待预测特征分别输入至循环神经网络模型的各个模型单元,获得所述样本兴趣点对应的预测状态;
基于所述预测状态和所述标注状态调整所述时空特征提取模型以及所述循环神经网络模型的模型参数。
第三方面,本公开实施例中提供了一种兴趣点状态预测装置,其中,包括:
第一获取模块,被配置为获取待预测兴趣点的目标关联用户与所述待预测兴趣点的关联数据;
第一确定模块,被配置为基于所述关联数据确定所述待预测兴趣点的待预测特征;所述待预测特征包括基于所述目标关联用户相对于所述待预测兴趣点的距离分布获得的空间距离特征,以及所述目标关联用户针对所述待预测兴趣点所产生行为的时间趋势特征;
预测模块,被配置为基于所述待预测特征预测所述待预测兴趣点的当前状态。
第四方面,本公开实施例中提供了一种兴趣点状态预测的模型训练装置,其中,包括:
第二获取模块,被配置为获取样本兴趣点的目标关联用户与所述样本兴趣点的关联数据以及所述样本兴趣点的标注状态;
第三获取模块,被配置为以预设时间段为单位,将所述关联数据中目标关联用户相对于样本兴趣点的距离分布以及目标关联用户针对所述样本兴趣点所产生的行为输入至时空特征提取模型,获得所述预设时间段对应的待预测特征;
第四获取模块,被配置为将多个预设时间段对应的所述待预测特征分别输入至循环神经网络模型的各个模型单元,获得所述样本兴趣点对应的预测状态;
调整模块,被配置为基于所述预测状态和所述标注状态调整所述时空特征提取模型以及所述循环神经网络模型的模型参数。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,上述装置的结构中包括存储器和处理器,所述存储器用于存储一条或多条支持上述装置执行上述对应方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述装置还可以包括通信接口,用于上述装置与其他设备或通信网络通信。
第三方面,本公开实施例提供了一种电子设备,包括存储器、处理器以及存储在存储器上的计算机程序,其中,所述处理器执行所述计算机程序以实现上述任一方面所述的方法。
第四方面,本公开实施例提供了一种计算机可读存储介质,用于存储上述任一装置所用的计算机指令,该计算机指令被处理器执行时用于实现上述任一方面所述的方法。
第五方面,本公开实施例提供了一种计算机存储介质,其包含计算机指令,该计算机指令被处理器执行时用于实现上述任一方面所述的方法。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开实施例中,在预测兴趣点状态时,可以通过多种途径获取待预测兴趣点相关的用户关联数据,并基于用户关联数据确定目标关联用户以及目标关联用户相对于待预测兴趣点的关联数据。基于该关联数据提取待预测兴趣点的待预测特征,待预测特征包括基于目标关联用户相对于待预测兴趣点的距离得到的空间距离特征,以及目标关联用户针对待预测兴趣点所产生行为的时间趋势特征。进而基于该待预测特征可以预测待预测兴趣点的当前状态。通过上述方法,基于待预测兴趣点相关的目标关联用户的空间以及时间行为数据,提升了待预测兴趣点的状态预测准确率。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。以下是对附图的说明。
图1示出根据本公开一实施方式的兴趣点状态预测方法的流程图。
图2示出根据本公开一实施方式的兴趣点状态预测的模型训练方法的流程图。
图3(a)-图3(b)示出根据本公开一实施方式的已过期兴趣点与关联用户的时空行为特征之间的关系示意图。
图4示出根据本公开一实施方式的兴趣点状态变化的一种建模过程示意图。
图5示出根据本公开一实施方式的兴趣点状态预测装置的结构框图。
图6示出根据本公开一实施方式的兴趣点状态预测的模型训练装置的结构框图。
图7是适于用来实现根据本公开一实施方式的兴趣点状态预测方法和/或兴趣点状态预测的模型训练方法的电子设备的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不排除一个或多个用户行为特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。需要说明的是,本公开仅仅是对技术方案的描述,并不涉及真实实施;如果需要真实实施本公开,则本公开技术方案所用到的用户信息等涉及用户隐私的数据均需在取得用户授权的前提下使用。
下面通过具体实施例详细介绍本公开实施例的细节。
图1示出根据本公开一实施方式的兴趣点状态预测方法的流程图。如图1所示,该兴趣点状态预测方法包括以下步骤:
在步骤S101中,获取待预测兴趣点的目标关联用户与所述待预测兴趣点的关联数据;
在步骤S102中,基于所述关联数据确定所述待预测兴趣点的待预测特征;所述待预测特征包括基于所述目标关联用户相对于所述待预测兴趣点的距离分布获得的空间距离特征,以及所述目标关联用户针对所述待预测兴趣点所产生行为的时间趋势特征;
在步骤S103中,基于所述待预测特征预测所述待预测兴趣点的当前状态。
本实施例中,该兴趣点状态预测方法可以在服务器上执行,待预测兴趣点可以是任意待挖掘其当前状态的兴趣点,比如现实世界中的商店、地铁站、公厕、超市、商场等场所。在一些实施例中,可以周期性的将预定区域内的所有兴趣点作为待预测兴趣点。在另一些实施例中,也可以基于待拆迁等可能引起POI过期的事件,对待拆迁等区域内的兴趣点作为待预测兴趣点。待预测兴趣点的当前状态可以包括但不限于正常状态和异常状态,异常状态可以理解为该待预测兴趣点已过期,比如待预测兴趣点处于关闭、搬迁、拆迁、更名等异常状态。而正常状态则可以理解为该待预测兴趣点正常开门、营业等状态。
待预测兴趣点的目标关联用户可以是与该待预测兴趣点在历史上有关联关系的用户,例如一个商店的目标关联用户可以包括但不限于店主、店员、经常在该商店进行消费的顾客等。待预测兴趣点的目标关联用户可以基于历史数据统计得到。例如,可以基于用户在待预测兴趣点发生的历史行为、对待预测兴趣点具有权限的用户上报的信息等确定待预测兴趣点的目标关联用户。待预测兴趣点的目标关联用户可以通过多种数据源获得。也就是说,本公开实施例中用于预测兴趣点状态的关联数据可以是多源用户数据。
在一些实施例中,目标关联用户与待预测兴趣点的关联数据可以包括但不限于目标关联用户产生的与待预测兴趣点相关的行为数据,并且该行为数据可以具有时间属性。在一些实施例中,该行为数据可以包括但不限于用户的行为类型、行为时间以及与用户行为相关的其他数据等。
为了准确预测待预测兴趣点是否处于异常状态,可以从目标关联用户与待预测兴趣点的关联数据中提取待预测兴趣点的待预测特征。该待预测特征可以包括但不限于空间距离特征和时间趋势特征。空间距离特征可以是基于目标关联用户相对于待预测兴趣点的距离分布提取出的空间距离特征,例如可以基于一个时间段如一个月内目标关联用户与待预测兴趣点的最近距离提取空间距离特征。空间距离特征可以表征用户相对于待预测兴趣点的总体空间分布的远近。
时间趋势特征可以是基于目标关联用户针对待预测兴趣点而产生行为的时间趋势特征,目标关联用户针对待预测兴趣点所产生的行为可以包括但不限于导航至待预测兴趣或者从待预测兴趣点导航去其他目的地、在待预测兴趣点进行支付、连接待预测兴趣点的WiFi、产生目的地或者寄出地为该待预测兴趣点的运单等行为。时间趋势特征可以理解为目标关联用户针对待预测兴趣点所产生的行为随着时间的变化而进行变化的一种趋势性特征。时间趋势特征表征的是用户相对于待预测兴趣点的行为在时间上的频次分布情况。
基于待预测兴趣点的待预测特征可以预测得到待预测兴趣点的当前状态。在一些实施例中,当前状态可以包括但不限于正常状态和异常状态,在异常状态下该待预测兴趣点已过期,也即该待预测兴趣点可能处于关闭、搬迁、拆迁、更名等异常状态。
本公开实施例基于待预测兴趣点的目标关联用户与待预测兴趣点的关联数据提取待预测特征,该待预测特征包括的空间距离特征和时间趋势特征反映了目标关联用户针对待预测兴趣点的用户时空行为。本公开实施例中的目标关联用户与待预测兴趣点的关联数据可以是多源用户行为数据,也即通过多种途径获得的用户行为数据。本公开实施例基于与待预测兴趣点关联的多源用户行为数据,通过建模兴趣点的状态变化趋势,能够提升过期兴趣点的挖掘准确率。
本公开实施例中,在预测兴趣点状态时,可以通过多种途径获取待预测兴趣点相关的用户关联数据,并基于用户关联数据确定目标关联用户以及目标关联用户相对于待预测兴趣点的关联数据。基于该关联数据提取待预测兴趣点的待预测特征,待预测特征包括基于目标关联用户相对于待预测兴趣点的距离得到的空间距离特征,以及目标关联用户针对待预测兴趣点所产生行为的时间趋势特征。进而基于该待预测特征可以预测待预测兴趣点的当前状态。通过上述方法,基于待预测兴趣点相关的目标关联用户的空间以及时间行为数据,提升了待预测兴趣点的状态预测准确率。
在本实施例的一个可选实现方式中,步骤S102,即基于所述关联数据确定所述待预测兴趣点的待预测特征的步骤,进一步包括以下步骤:
基于所述关联数据确定多个所述目标关联用户在预设时间段内与所述待预测兴趣点的最小距离;
将多个所述目标关联用户的所述最小距离按照远近划分距离等级;
对划分得到的所述距离等级进行向量编码,获得各个所述目标关联用户相对于所述待预测兴趣点的用户距离向量;
基于所述用户距离向量确定所述待预测兴趣点的空间距离特征。
该可选的实现方式中,可以在一个预设时间段内统计全部或者部分目标关联用户相对于待预测兴趣点的最小距离,预设时间段例如可以是一个时间周期,比如几天、几周、几个月等,具体时间长度可以基于实际需要而定,在此不做限定。
在统计出全部或者部分目标关联用户在预设时间段内相对于待预测兴趣点的最小距离之后,可以基于预先确定好的规则将全部或者部分目标关联用户对应的该最小距离进行等级划分,例如可以划分成是三级:近距离、中距离和远距离,将最小距离位于近距离对应的距离范围内的目标关联用户划分至近距离对应的距离等级,将最小距离位于中距离或远距离对应的距离范围内的目标关联用户划分至中距离或远距离对应的距离等级。距离等级对应的距离范围可以预先设定,具体基于实际需要而定,在此不做限制。
每个目标关联用户均被划分得到一个对应的距离等级,之后可以通过预先训练得到的空间特征提取模型对该距离等级进行向量编码,得到目标关联用户对应的用户距离向量。需要说明的是,空间特征提取模型可以采用从距离等级映射到向量的任意模型,具体模型结构可以基于实际需要而定,在此不做限制。
在待预测兴趣点对应有多个目标关联用户的情况下,可以将多个目标关联用户对应的用户距离向量进行聚合,获得该待预测兴趣点的空间距离特征。多个目标关联用户对应的用户距离向量进行聚合,可以实现为将多个距离向量进行拼接,得到空间距离特征。
在本实施例的一个可选实现方式中,步骤S102,即基于所述关联数据确定所述待预测兴趣点的待预测特征的步骤,进一步包括以下步骤:
基于所述关联数据统计所述目标关联用户在预设时间段内的用户行为序列;
基于多个所述目标关联用户对应的所述用户行为序列确定所述待预测兴趣点的兴趣点行为序列;
分别针对所述用户行为序列和所述兴趣点行为序列提取特征,得到用户向量特征和兴趣点向量特征;
基于所述用户向量特征和所述兴趣点向量特征确定所述目标关联用户的用户权重;
基于所述目标关联用户的用户权重以及所述用户向量特征得到所述待预测兴趣点的时间趋势特征。
该可选的实现方式中,用户行为序列可以是预设时间段内各个预设时间段中目标关联用户针对待预测兴趣点所产生的用户行为构成的序列,该用户行为可以被量化为数值的形式。例如,目标关联用户的运单行为可以被量化为针对待预测兴趣点的运单数量,用户行为序列可以是在预设时间段内各个时间段针对待预测兴趣点产生的运单数量,再例如目标关联用户的支付行为可以被量化为针对待预测兴趣点的支付次数,用户行为序列可以是在预设时间段内各个时间段针对待预测兴趣点产生的支付次数。可以理解的是,不同用户行为对应不同的用户行为序列,也就是说同一用户可以对应多种不同用户行为的用户行为序列。
在一些实施例中,预设时间段可以理解为周期较长的一段时间,而一个预设时间段又可以被划分为多个时间段,用户行为序列可以是预设时间段内每个时间段对应的用户行为数据的量化值构成的序列。比如预设时间段为一个月,而时间段为天,则该预设时间段内的用户行为序列可以是一个月内用户每天的行为数据的量化值,如针对用户支付行为而言,用户行为序列可以是一个月内当前用户每天的支付次数构成的序列。
兴趣点行为序列可以是多个目标关联用户的用户行为序列的叠加结果。以两个目标关联用户为例,第一目标关联用户的一种用户行为的用户行为序列表示为{a1,a2,a3},第二目标关联用户相同用户行为的用户行为序列表示为{b1,b2,b3},则该用户行为对应的兴趣点行为序列可以表示为{ a1+b1,a2+b2,a3+b3}。
针对不同用户行为均可以获得对应的兴趣点行为序列,例如可以获得支付行为对应的兴趣点行为序列、运单行为对应的兴趣点行为序列等。
在确定了用户行为序列和兴趣点行为序列之后,可以针对用户行为序列和兴趣点行为序列进行特征提取,例如可以通过预先训练的行为向量编码将用户行为序列和兴趣点行为训练映射为一个向量,也即每个用户行为序列被映射为一个用户向量特征,每一个兴趣点行为序列被映射为一个兴趣点向量特征。在一些实施例中,该行为向量编码模型可以是线性变换模型或全连接层模型等。
针对每一类用户行为,基于一个目标关联用户的用户向量特征和兴趣点向量特征之间的关系可以确定该目标关联用户的用户权重。针对该类用户行为,所有目标关联用户的用户权重确定之后,可以基于每个目标关联用户的用户权重、每个目标关联用户的用户向量特征获得待预测兴趣点对应于该类用户行为的时间趋势特征。每一类用户行为均可以获得一种时间趋势特征。在一些实施例中,包括多类用户行为的情况下,可以将多类用户行为对应的时间趋势特征进行聚合比如拼接得到最终的时间趋势特征。
在一些实施例中,可以基于预先训练得到的注意力机制模型确定用户向量特征和兴趣点向量特征之间的关系,进而获得用户权重。可以理解的是,该注意力机制模型可以体现为一个函数的形式,其输入为用户向量特征和兴趣点向量特征,输出为用户权重。在模型训练过程中,可以基于输入的样本数据训练该函数中的参数。
在本实施例的一个可选实现方式中,所述待预测特征还包括在预设时间段内待预测兴趣点维度的用户行为特征。
该可选的实现方式中,还可以基于目标关联用户的关联数据统计待预测兴趣点维度的用户行为数据,并基于该用户行为数据提取出用户行为特征。例如,可以统计在预设时间段内针对该待预测兴趣点的导航总次数、导航天数、搜索总次数等,进而对其进行向量编码得到用户行为特征。在一些实施例中,可以基于预先训练得到的多层感知机模型对统计得到的待预测兴趣点维度的用户行为数据进行向量编码,得到用户行为特征。
在基于待预测特征预测待预测兴趣点的当前状态时,可以将空间距离特征、时间趋势特征和/或用户行为特征进行聚合,比如进行拼接后,得到待预测特征,并将该待预测特征输入至预先训练的预测模型中进行预测,该预测模型输出的结果即为该待预测兴趣点的当前状态。
在本实施例的一个可选实现方式中,步骤S103,即基于所述待预测特征预测所述待预测兴趣点的当前状态的步骤,进一步包括以下步骤:
将同一所述预设时间段对应的所述空间距离特征和时间趋势特征进行拼接得到一个所述预设时间段对应的所述待预测特征;
将多个所述预设时间段对应的所待预测特征构成的序列输入至预先训练的循环神经网络模型,预测得到所述待预测兴趣点的当前状态。
该可选的实现方式中,可以利用循环神经网络模型预测待预测兴趣点的当前状态,例如可以预先训练循环神经网络模型,如训练长短期记忆网络LSTM,将多个预设时间段对应的待预测特征按照时间顺序分别输入至LSTM的各个单元模型中,LSTM前一单元模型的输出为后一单元模型的输入,最后一个单元模型的输出经过个全连接层进行二分类得到待预测兴趣点的当前状态的结果。
在本实施例的一个可选实现方式中,所述方法进一步还包括以下步骤:
获取与所述待预测兴趣点相关联的候选用户;
从所述候选用户中随机抽样预定数量个目标关联用户。
该可选的实现方式中,与待预测兴趣点相关联的候选用户较多,虑到不同待预测兴趣点相关联的候选用户数量不同,因此可以针对待预测兴趣点从候选用户中随机抽样预定数量的用户作为目标关联用户,进而基于目标关联用户的关联数据进行预测。
图2示出根据本公开一实施方式的兴趣点状态预测的模型训练方法的流程图。如图2所示,该兴趣点状态预测的模型训练方法包括以下步骤:
在步骤S201中,获取样本兴趣点的目标关联用户与所述样本兴趣点的关联数据以及所述样本兴趣点的标注状态;
在步骤S202中,以预设时间段为单位,将所述关联数据中目标关联用户相对于样本兴趣点的距离分布以及目标关联用户针对所述样本兴趣点所产生的行为输入至时空特征提取模型,获得所述预设时间段对应的待预测特征;
在步骤S203中,将多个预设时间段对应的所述待预测特征分别输入至循环神经网络模型的各个模型单元,获得所述样本兴趣点对应的预测状态;
在步骤S204中,基于所述预测状态和所述标注状态调整所述时空特征提取模型以及所述循环神经网络模型的模型参数。
本实施例中,该兴趣点状态预测的模型训练方法可以在服务器上执行,样本兴趣点可以是任意待挖掘其标注状态的兴趣点,比如现实世界中的商店、地铁站、公厕、超市、商场等场所。样本兴趣点的标注状态可以包括但不限于正常状态和异常状态,异常状态可以理解为该样本兴趣点已过期,比如样本兴趣点处于关闭、搬迁、拆迁、更名等异常状态。而正常状态则可以理解为该样本兴趣点正常开门、营业等状态。样本兴趣点的标注状态为基于人工或者其他可靠的方式确定的该样本兴趣点的真实状态。
样本兴趣点的目标关联用户可以是与该样本兴趣点在历史上有关联关系的用户,例如一个商店的目标关联用户可以包括但不限于店主、店员、经常在该商店进行消费的顾客等。样本兴趣点的目标关联用户可以基于历史数据统计得到。例如,可以基于用户在样本兴趣点发生的历史行为、对样本兴趣点具有权限的用户上报的信息等确定样本兴趣点的目标关联用户。样本兴趣点的目标关联用户可以通过多种数据源获得。也就是说,本公开实施例中用于预测兴趣点状态的关联数据可以是多源用户数据。
在一些实施例中,目标关联用户与样本兴趣点的关联数据可以包括但不限于目标关联用户产生的与样本兴趣点相关的行为数据,并且该行为数据可以具有时间属性。在一些实施例中,该行为数据可以包括但不限于用户的行为类型、行为时间以及与用户行为相关的其他数据等。
兴趣点是否过期可以体现在两个方面:一是多种用户活动量减少直至消失,即时间上用户活动量下降;二是用户活动的位置不再频繁出现在兴趣点附近,即空间上远离。因此,本公开实施例利用用户时空行为特征训练用于兴趣点状态预测的模型。
为了提升用于兴趣点状态预测的模型的预测准确率,本公开实施例利用时空特征提取模型从目标关联用户与样本兴趣点的关联数据中提取样本兴趣点的待预测特征。该待预测特征可以包括但不限于空间距离特征和时间趋势特征。空间距离特征可以是基于目标关联用户相对于样本兴趣点的距离分布提取出的空间距离特征,例如可以基于一个时间段如一个月内目标关联用户与样本兴趣点的最近距离提取空间距离特征。空间距离特征可以表征用户相对于样本兴趣点的总体空间分布的远近。
时间趋势特征可以是基于目标关联用户针对样本兴趣点而产生行为的时间趋势特征,目标关联用户针对样本兴趣点所产生的行为可以包括但不限于导航至待预测兴趣或者从样本兴趣点导航去其他目的地、在样本兴趣点进行支付、连接样本兴趣点的WiFi、产生目的地或者寄出地为该样本兴趣点的运单等行为。
时间趋势特征可以理解为目标关联用户针对样本兴趣点所产生的行为随着时间的变化而进行变化的一种趋势性特征。时间趋势特征表征的是用户相对于样本兴趣点的行为在时间上的频次分布情况。
时空特征提取模型可以采用任意结构的模型,只要能够从关联数据提取出表征用户相对于样本兴趣点的空间分布的远近的特征以及在时间上的行为频次分布情况的特征即可。需要说明的是,由于利用待预测特征预测样本兴趣点的预测状态,所使用的是循环神经网络模型,所以提取待预测特征时,以预设时间段为单位进行提取,一个预设时间段提取一个待预测特征,多个预设时间段提取多个待预测特征。
每个预设时间段对应的待预测特征按照多个预设时间段之间时间顺序依次输入至循环神经网络模型的各个模型单元中,前一单元模型的输出作为后一单元模型的输入,也即从第二个单元模型开始,其输入包括对应的预设时间段的待预测特征和前一单元模型的输出,最后一个单元模型的输出经过个全连接层进行二分类得到样本兴趣点的预测状态,在模型为训练完成时,该预测状态与标注状态可能不同。
针对每一样本兴趣点提取的待预测特征,可以基于相应的预测状态和标注状态之间的不同反向调整时空特征提取模型和时间训练神经网络模型的模型参数,直至达到模型训练停止条件为止。
本公开实施例基于样本兴趣点的目标关联用户与样本兴趣点的关联数据提取待预测特征,该待预测特征包括的空间距离特征和时间趋势特征反映了目标关联用户针对样本兴趣点的用户时空行为。本公开实施例中的目标关联用户与样本兴趣点的关联数据可以是多源用户行为数据,也即通过多种途径获得的用户行为数据。本公开实施例基于与样本兴趣点关联的多源用户行为数据,通过建模兴趣点的状态变化趋势,能够提升过期兴趣点的挖掘准确率。
本公开实施例中,在训练兴趣点预测状态的模型时,可以获取多个样本兴趣点对应的用户相关数据,并基于用户关联数据确定目标关联用户以及目标关联用户相对于样本兴趣点的关联数据。基于该关联数据提取样本兴趣点的待预测特征,待预测特征包括基于目标关联用户相对于样本兴趣点的距离得到的空间距离特征,以及目标关联用户针对样本兴趣点所产生行为的时间趋势特征。进而基于该待预测特征可以预测样本兴趣点的标注状态。通过上述方法,基于样本兴趣点相关的目标关联用户的空间以及时间行为数据,提升了样本兴趣点的状态预测准确率。
在本实施例的一个可选实现方式中,所述时空特征提取模型包括空间特征提取模型;步骤S202,即将所述关联数据中目标关联用户相对于样本兴趣点的距离分布以及目标关联用户针对所述样本兴趣点所产生的行为输入至时空特征提取模型,获得所述预设时间段对应的待预测特征的步骤,进一步包括以下步骤:
基于所述关联数据确定所述目标关联用户在预设时间段内相对于所述样本兴趣点的最小距离;
将所述目标关联用户的所述最小距离按照远近划分距离等级;
将划分得到的所述距离等级作为所述空间特征提取模型的输入,得到所述目标关联用户相对于所述样本兴趣点的用户距离向量;
基于所述用户距离向量确定所述样本兴趣点的空间距离特征。
该可选的实现方式中,可以在一个预设时间段内统计目标关联用户相对于样本兴趣点的最小距离,预设时间段例如可以是一个时间段,比如几天、几周、几个月等,具体时间长度可以基于实际需要而定,在此不做限定。
在统计出目标关联用户在预设时间段内相对于样本兴趣点的最小距离之后,可以基于预先确定好的规则将该最小距离进行等级划分,例如可以划分成是三级:近距离、中距离和远距离,将最小距离位于近距离对应的距离范围内的目标关联用户划分至近距离对应的距离等级,将最小距离位于中距离或远距离对应的距离范围内的目标关联用户划分至中距离或远距离对应的距离等级。距离等级对应的距离范围可以预先设定,具体基于实际需要而定,在此不做限制。
每个目标关联用户均被划分得到一个对应的距离等级,之后可以通过空间特征提取模型对该距离等级进行向量编码,得到目标关联用户对应的用户距离向量。需要说明的是,空间特征提取模型可以采用从距离等级映射到向量的任意模型,具体模型结构可以基于实际需要而定,在此不做限制。
在样本兴趣点对应有多个目标关联用户的情况下,可以将多个目标关联用户对应的用户距离向量进行聚合,获得该样本兴趣点的空间距离特征。多个目标关联用户对应的用户距离向量进行聚合,可以实现为将多个距离向量进行拼接,得到空间距离特征。
在本实施例的一个可选实现方式中,所述时空特征提取模型包括时间特征提取模型,所述时间特征提取模型包括行为向量编码模型和注意力机制模型;步骤S202,即将所述关联数据中目标关联用户相对于样本兴趣点的距离分布以及目标关联用户针对所述样本兴趣点所产生的行为输入至时空特征提取模型,获得所述预设时间段对应的待预测特征的步骤,进一步包括以下步骤:
基于所述关联数据统计所述目标关联用户在预设时间段内的用户行为序列;
基于多个所述目标关联用户对应的所述用户行为序列确定所述样本兴趣点的兴趣点行为序列;
分别将所述用户行为序列和所述兴趣点行为序列输入至行为向量编码模型,获得用户向量特征和兴趣点向量特征;
将所述用户向量特征和所述兴趣点向量特征输入至所述注意力机制模型,获得所述目标关联用户的用户权重;
基于所述目标关联用户的用户权重以及所述用户向量特征得到所述样本兴趣点的时间趋势特征。
该可选的实现方式中,用户行为序列可以是预设时间段内各个预设时间段中目标关联用户针对样本兴趣点所产生的用户行为构成的序列,该用户行为可以被量化为数值的形式,也即基于目标关联用户的行为获得在各个预设时间段内的用户活动量。例如,目标关联用户的运单行为可以被量化为针对样本兴趣点的运单数量,用户行为序列可以是在预设时间段内各个时间段针对样本兴趣点产生的运单数量,再例如目标关联用户的支付行为可以被量化为针对样本兴趣点的支付次数,用户行为序列可以是在预设时间段内各个时间段针对样本兴趣点产生的支付次数。可以理解的是,不同用户行为对应不同的用户行为序列,也就是说同一用户可以对应多种不同用户行为的用户行为序列。
在一些实施例中,预设时间段可以理解为周期较长的一段时间,而一个预设时间段又可以被划分为多个时间段,用户行为序列可以是预设时间段内每个时间段对应的用户行为数据的量化值构成的序列。比如预设时间段为一个月,而时间段为天,则该预设时间段内的用户行为序列可以是一个月内用户每天的行为数据的量化值,如针对用户支付行为而言,用户行为序列可以是一个月内当前用户每天的支付次数构成的序列。
兴趣点行为序列可以是多个目标关联用户的用户行为序列的叠加结果。以两个目标关联用户为例,第一目标关联用户的一种用户行为的用户行为序列表示为{a1,a2,a3},第二目标关联用户相同用户行为的用户行为序列表示为{b1,b2,b3},则该用户行为对应的兴趣点行为序列可以表示为{ a1+b1,a2+b2,a3+b3}。
针对不同用户行为均可以获得对应的兴趣点行为序列,例如可以获得支付行为对应的兴趣点行为序列、运单行为对应的兴趣点行为序列等。
在确定了用户行为序列和兴趣点行为序列之后,可以利用时间特征提取模型中的向量编码模型对用户行为序列和兴趣点行为序列进行特征提取,例如可以通过行为向量编码模型分别将用户行为序列和兴趣点行为训练映射为一个向量,也即每个用户行为序列被映射为一个用户向量特征,每一个兴趣点行为序列被映射为一个兴趣点向量特征。在一些实施例中,该行为向量编码模型可以是线性变换模型或全连接层模型等。
针对每一类用户行为,基于一个目标关联用户的用户向量特征和兴趣点向量特征之间的关系可以确定该目标关联用户的用户权重。针对该类用户行为,所有目标关联用户的用户权重确定之后,可以基于每个目标关联用户的用户权重、每个目标关联用户的用户向量特征获得样本兴趣点对应于该类用户行为的时间趋势特征。每一类用户行为均可以获得一种时间趋势特征。在一些实施例中,包括多类用户行为的情况下,可以将多类用户行为对应的时间趋势特征进行聚合比如拼接得到最终的时间趋势特征。
需要说明的是,每一个预设时间段为预定长度的时间窗口,该时间窗口内用户行为序列也可以称之为用户活动强度序列表现出一定的趋势,能够帮助捕捉由于兴趣点异常导致的用户行为模式的变化。权重用户的离开会使得兴趣点上总的用户活动强度(也即对用户行为量化后的结果)出现急剧下降的趋势,将导致模型发生误判,因此在模型训练过程中本公开实施例还通过注意力机制自适应地学习不同用户对兴趣点的时间趋势特征的用户权重。权重用户可以理解为针对兴趣点的行为较为频繁的用户。
在一些实施例中,可以基于时间特征提取模型中的注意力机制模型确定用户向量特征和兴趣点向量特征之间的关系,进而获得用户权重。可以理解的是,该注意力机制模型可以体现为一个函数的形式,其输入为用户向量特征和兴趣点向量特征,输出为用户权重。在模型训练过程中,可以基于输入的样本数据训练该函数中的参数。
图3(a)-图3(b)示出根据本公开一实施方式的已过期兴趣点与关联用户的时空行为特征之间的关系示意图。如图3(a)所示,在时间t时兴趣点处于正常状态,而在时间t+1时,兴趣点过期导致关联用户不在该兴趣点附近活跃,表现为空间分布在时间上的变化;如图3(b)所示,时间t由于权重用户离开而导致用户相对于兴趣点的用户行为趋势出现假性下降,甚至消失。因此,本公开实施例为了提升模型预测准确率,提取了空间距离特征和时间趋势特征,并且在时间趋势特征采用注意力机制模型自适应地学习不同用户对时间趋势特征的贡献权重,从而防止权重用户的离开导致模型预测错误。
在本实施例的一个可选实现方式中,所述待预测特征还包括在预设时间段内样本兴趣点维度的用户行为特征;所述时空特征提取模型还包括多层感知机模型;所述方法进一步还包括:
基于所述关联数据获取在预设时间段内所述样本兴趣点维度的用户行为统计数据;
将所述用户行为统计数据输入至所述多层感知机模型,获得所述样本兴趣点维度的用户行为特征。
该可选的实现方式中,还可以基于目标关联用户的关联数据统计样本兴趣点维度的用户行为数据,也即相对于基于目标关联用户维度统计并提取到的空间距离分布数据和时间行为序列数据之外的用户行为统计数据,并基于该用户行为数据提取出用户行为特征。例如,可以统计在预设时间段内针对该样本兴趣点的导航总次数、导航天数、搜索总次数等,进而利用多层感知机模型对其进行向量编码得到用户行为特征。
待预测特征可以是将空间距离特征、时间趋势特征和/或用户行为特征进行聚合,比如进行拼接后得到的征,将该待预测特征输入至循环神经网络模型中进行预测后,可以得到该样本兴趣点的预测状态。
在本实施例的一个可选实现方式中,所述待预测特征包括空间距离特征和时间趋势特征;步骤S203,即将多个预设时间段对应的所述待预测特征分别输入至循环神经网络模型的各个模型单元,获得所述样本兴趣点对应的预测状态的步骤,进一步包括以下步骤:
将同一所述预设时间段对应的所述空间距离特征和时间趋势特征进行拼接得到一个所述预设时间段对应的所述待预测特征;
将多个所述预设时间段对应的所待预测特征构成的序列输入至预先训练的循环神经网络模型,预测得到所述样本兴趣点的预测状态。
该可选的实现方式中,可以利用循环神经网络模型预测样本兴趣点的预测状态,例如可以预先训练循环神经网络模型,如训练长短期记忆网络LSTM,将多个预设时间段对应的待预测特征按照时间顺序分别输入至LSTM的各个单元模型中,LSTM前一单元模型的输出为后一单元模型的输入,最后一个单元模型的输出经过个全连接层进行二分类得到样本兴趣点的标注状态的结果。
在本实施例的一个可选实现方式中,所述方法进一步还包括以下步骤:
获取与所述样本兴趣点相关联的候选用户;
从所述候选用户中随机抽样预定数量个目标关联用户。
该可选的实现方式中,与样本兴趣点相关联的候选用户较多,虑到不同样本兴趣点相关联的候选用户数量不同,因此可以针对样本兴趣点从候选用户中随机抽样预定数量的用户作为目标关联用户,进而基于目标关联用户的关联数据进行预测。
图4示出根据本公开一实施方式的兴趣点状态变化的一种建模过程示意图。如图4所示,从样本兴趣点关联的关联用户中随机抽样得到预定数量个目标关联用户,对该预定数量个目标关联用户在预设时间段内相对于样本兴趣点的最小距离进行距离分级,距离等级利用空间特征提取模型进行向量编码,将距离等级映射至表征该目标关联用户相对于该样本兴趣点的空间距离分布的用户距离向量,全部或部分目标关联用户的用户距离向量聚合例如拼接后得到该样本兴趣点的空间距离特征。
统计目标关联用户在预设时间段内针对该样本兴趣点产生行为的用户行为序列,并将全部或部分的目标关联用户行为序列进行叠加后得到样本兴趣点的兴趣点行为序列;基于每个目标关联用户对应的用户行为序列以及兴趣点行为序列,利用行为向量编码模型对用户行为序列和兴趣点行为序列进行向量编码得到用户向量特征和兴趣点向量特征,并通过注意力机制学习用户向量特征和兴趣点向量特征之间的关系,从而基于该关系确定不同目标关联用户的用户权重,基于用户权重对用户向量特征加权,加权后的各个用户向量特征相加得到样本兴趣点的时间趋势特征。
还可以统计样本兴趣点维度的用户行为统计数据,比如每天针对样本兴趣点的导航次数、支付次数、搜索总天数等,对这些统计数据利用多层感知机模型进行编码得到对应的其他统计特征。
将同一个预设时间段内统计并提起得到的空间距离特征、时间趋势特征和其他统计特征进行拼接后得到该预设时间段对应的待预测特征,这样可以得到多个预设时间段对应的多个待预测特征。
多个预设时间段对应的多个待预测特征按照时间顺序依次输入至LSTM(长短期记忆(Long Short-term Memory)网络模型的各个LSTM单元中,从第二个LSTM单元开始,前一个LSTM单元的输出也输入至后一LSTM单元,最后一个LSTM单元的输出经过一个多层感知机(Multilayer Perceptron,MLP),即全连接神经网络后,得到二分类输出结果,即异常状态或正常状态的预测结果。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图5示出根据本公开一实施方式的兴趣点状态预测装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图5所示,该兴趣点状态预测装置包括:
第一获取模块501,被配置为获取待预测兴趣点的目标关联用户与所述待预测兴趣点的关联数据;
第一确定模块502,被配置为基于所述关联数据确定所述待预测兴趣点的待预测特征;所述待预测特征包括基于所述目标关联用户相对于所述待预测兴趣点的距离分布获得的空间距离特征,以及所述目标关联用户针对所述待预测兴趣点所产生行为的时间趋势特征;
预测模块503,被配置为基于所述待预测特征预测所述待预测兴趣点的当前状态。
本实施例中,该兴趣点状态预测装置可以在服务器上执行,待预测兴趣点可以是任意待挖掘其当前状态的兴趣点,比如现实世界中的商店、地铁站、公厕、超市、商场等场所。在一些实施例中,可以周期性的将预定区域内的所有兴趣点作为待预测兴趣点。在另一些实施例中,也可以基于待拆迁等可能引起POI过期的事件,对待拆迁等区域内的兴趣点作为待预测兴趣点。待预测兴趣点的当前状态可以包括但不限于正常状态和异常状态,异常状态可以理解为该待预测兴趣点已过期,比如待预测兴趣点处于关闭、搬迁、拆迁、更名等异常状态。而正常状态则可以理解为该待预测兴趣点正常开门、营业等状态。
待预测兴趣点的目标关联用户可以是与该待预测兴趣点在历史上有关联关系的用户,例如一个商店的目标关联用户可以包括但不限于店主、店员、经常在该商店进行消费的顾客等。待预测兴趣点的目标关联用户可以基于历史数据统计得到。例如,可以基于用户在待预测兴趣点发生的历史行为、对待预测兴趣点具有权限的用户上报的信息等确定待预测兴趣点的目标关联用户。待预测兴趣点的目标关联用户可以通过多种数据源获得。也就是说,本公开实施例中用于预测兴趣点状态的关联数据可以是多源用户数据。
在一些实施例中,目标关联用户与待预测兴趣点的关联数据可以包括但不限于目标关联用户产生的与待预测兴趣点相关的行为数据,并且该行为数据可以具有时间属性。在一些实施例中,该行为数据可以包括但不限于用户的行为类型、行为时间以及与用户行为相关的其他数据等。
为了准确预测待预测兴趣点是否处于异常状态,可以从目标关联用户与待预测兴趣点的关联数据中提取待预测兴趣点的待预测特征。该待预测特征可以包括但不限于空间距离特征和时间趋势特征。空间距离特征可以是基于目标关联用户相对于待预测兴趣点的距离分布提取出的空间距离特征,例如可以基于一个时间段如一个月内目标关联用户与待预测兴趣点的最近距离提取空间距离特征。空间距离特征可以表征用户相对于待预测兴趣点的总体空间分布的远近。
时间趋势特征可以是基于目标关联用户针对待预测兴趣点而产生行为的时间趋势特征,目标关联用户针对待预测兴趣点所产生的行为可以包括但不限于导航至待预测兴趣或者从待预测兴趣点导航去其他目的地、在待预测兴趣点进行支付、连接待预测兴趣点的WiFi、产生目的地或者寄出地为该待预测兴趣点的运单等行为。时间趋势特征可以理解为目标关联用户针对待预测兴趣点所产生的行为随着时间的变化而进行变化的一种趋势性特征。时间趋势特征表征的是用户相对于待预测兴趣点的行为在时间上的频次分布情况。
基于待预测兴趣点的待预测特征可以预测得到待预测兴趣点的当前状态。在一些实施例中,当前状态可以包括但不限于正常状态和异常状态,在异常状态下该待预测兴趣点已过期,也即该待预测兴趣点可能处于关闭、搬迁、拆迁、更名等异常状态。
本公开实施例基于待预测兴趣点的目标关联用户与待预测兴趣点的关联数据提取待预测特征,该待预测特征包括的空间距离特征和时间趋势特征反映了目标关联用户针对待预测兴趣点的用户时空行为。本公开实施例中的目标关联用户与待预测兴趣点的关联数据可以是多源用户行为数据,也即通过多种途径获得的用户行为数据。本公开实施例基于与待预测兴趣点关联的多源用户行为数据,通过建模兴趣点的状态变化趋势,能够提升过期兴趣点的挖掘准确率。
本公开实施例中,在预测兴趣点状态时,可以通过多种途径获取待预测兴趣点相关的用户关联数据,并基于用户关联数据确定目标关联用户以及目标关联用户相对于待预测兴趣点的关联数据。基于该关联数据提取待预测兴趣点的待预测特征,待预测特征包括基于目标关联用户相对于待预测兴趣点的距离得到的空间距离特征,以及目标关联用户针对待预测兴趣点所产生行为的时间趋势特征。进而基于该待预测特征可以预测待预测兴趣点的当前状态。通过上述装置,基于待预测兴趣点相关的目标关联用户的空间以及时间行为数据,提升了待预测兴趣点的状态预测准确率。
在本实施例的一个可选实现方式中,所述第一确定模块,包括:
第一确定子模块,被配置为基于所述关联数据确定多个所述目标关联用户在预设时间段内与所述待预测兴趣点的最小距离;
第一划分子模块,被配置为将多个所述目标关联用户的所述最小距离按照远近划分距离等级;
第一编码子模块,被配置为对划分得到的所述距离等级进行向量编码,获得各个所述目标关联用户相对于所述待预测兴趣点的用户距离向量;
第二确定子模块,被配置为基于所述用户距离向量确定所述待预测兴趣点的空间距离特征。
该可选的实现方式中,可以在一个预设时间段内统计目标关联用户相对于待预测兴趣点的最小距离,预设时间段例如可以是一个时间周期,比如几天、几周、几个月等,具体时间长度可以基于实际需要而定,在此不做限定。
在统计出目标关联用户在预设时间段内相对于待预测兴趣点的最小距离之后,可以基于预先确定好的规则将该最小距离进行等级划分,例如可以划分成是三级:近距离、中距离和远距离,将最小距离位于近距离对应的距离范围内的目标关联用户划分至近距离对应的距离等级,将最小距离位于中距离或远距离对应的距离范围内的目标关联用户划分至中距离或远距离对应的距离等级。距离等级对应的距离范围可以预先设定,具体基于实际需要而定,在此不做限制。
每个目标关联用户均被划分得到一个对应的距离等级,之后可以通过预先训练得到的空间特征提取模型对该距离等级进行向量编码,得到目标关联用户对应的用户距离向量。需要说明的是,空间特征提取模型可以采用从距离等级映射到向量的任意模型,具体模型结构可以基于实际需要而定,在此不做限制。
在待预测兴趣点对应有多个目标关联用户的情况下,可以将多个目标关联用户对应的用户距离向量进行聚合,获得该待预测兴趣点的空间距离特征。多个目标关联用户对应的用户距离向量进行聚合,可以实现为将多个距离向量进行拼接,得到空间距离特征。
在本实施例的一个可选实现方式中,所述第一确定模块,包括:
第一统计子模块,被配置为基于所述关联数据统计所述目标关联用户在预设时间段内的用户行为序列;
第三确定子模块,被配置为基于多个所述目标关联用户对应的所述用户行为序列确定所述待预测兴趣点的兴趣点行为序列;
第一提取子模块,被配置为分别针对所述用户行为序列和所述兴趣点行为序列提取特征,得到用户向量特征和兴趣点向量特征;
第四确定子模块,被配置为基于所述用户向量特征和所述兴趣点向量特征确定所述目标关联用户的用户权重;
第五确定子模块,被配置为基于所述目标关联用户的用户权重以及所述用户向量特征得到所述待预测兴趣点的时间趋势特征。
该可选的实现方式中,用户行为序列可以是预设时间段内各个预设时间段中目标关联用户针对待预测兴趣点所产生的用户行为构成的序列,该用户行为可以被量化为数值的形式。例如,目标关联用户的运单行为可以被量化为针对待预测兴趣点的运单数量,用户行为序列可以是在预设时间段内各个时间段针对待预测兴趣点产生的运单数量,再例如目标关联用户的支付行为可以被量化为针对待预测兴趣点的支付次数,用户行为序列可以是在预设时间段内各个时间段针对待预测兴趣点产生的支付次数。可以理解的是,不同用户行为对应不同的用户行为序列,也就是说同一用户可以对应多种不同用户行为的用户行为序列。
在一些实施例中,预设时间段可以理解为周期较长的一段时间,而一个预设时间段又可以被划分为多个时间段,用户行为序列可以是预设时间段内每个时间段对应的用户行为数据的量化值构成的序列。比如预设时间段为一个月,而时间段为天,则该预设时间段内的用户行为序列可以是一个月内用户每天的行为数据的量化值,如针对用户支付行为而言,用户行为序列可以是一个月内当前用户每天的支付次数构成的序列。
兴趣点行为序列可以是多个目标关联用户的用户行为序列的叠加结果。以两个目标关联用户为例,第一目标关联用户的一种用户行为的用户行为序列表示为{a1,a2,a3},第二目标关联用户相同用户行为的用户行为序列表示为{b1,b2,b3},则该用户行为对应的兴趣点行为序列可以表示为{ a1+b1,a2+b2,a3+b3}。
针对不同用户行为均可以获得对应的兴趣点行为序列,例如可以获得支付行为对应的兴趣点行为序列、运单行为对应的兴趣点行为序列等。
在确定了用户行为序列和兴趣点行为序列之后,可以针对用户行为序列和兴趣点行为序列进行特征提取,例如可以通过预先训练的行为向量编码将用户行为序列和兴趣点行为训练映射为一个向量,也即每个用户行为序列被映射为一个用户向量特征,每一个兴趣点行为序列被映射为一个兴趣点向量特征。在一些实施例中,该行为向量编码模型可以是线性变换模型或全连接层模型等。
针对每一类用户行为,基于一个目标关联用户的用户向量特征和兴趣点向量特征之间的关系可以确定该目标关联用户的用户权重。针对该类用户行为,所有目标关联用户的用户权重确定之后,可以基于每个目标关联用户的用户权重、每个目标关联用户的用户向量特征获得待预测兴趣点对应于该类用户行为的时间趋势特征。每一类用户行为均可以获得一种时间趋势特征。在一些实施例中,包括多类用户行为的情况下,可以将多类用户行为对应的时间趋势特征进行聚合比如拼接得到最终的时间趋势特征。
在一些实施例中,可以基于预先训练得到的注意力机制模型确定用户向量特征和兴趣点向量特征之间的关系,进而获得用户权重。可以理解的是,该注意力机制模型可以体现为一个函数的形式,其输入为用户向量特征和兴趣点向量特征,输出为用户权重。在模型训练过程中,可以基于输入的样本数据训练该函数中的参数。
在本实施例的一个可选实现方式中,所述待预测特征还包括在预设时间段内待预测兴趣点维度的用户行为特征。
该可选的实现方式中,还可以基于目标关联用户的关联数据统计待预测兴趣点维度的用户行为数据,并基于该用户行为数据提取出用户行为特征。例如,可以统计在预设时间段内针对该待预测兴趣点的导航总次数、导航天数、搜索总次数等,进而对其进行向量编码得到用户行为特征。在一些实施例中,可以基于预先训练得到的多层感知机模型对统计得到的待预测兴趣点维度的用户行为数据进行向量编码,得到用户行为特征。
在基于待预测特征预测待预测兴趣点的当前状态时,可以将空间距离特征、时间趋势特征和/或用户行为特征进行聚合,比如进行拼接后,得到待预测特征,并将该待预测特征输入至预先训练的预测模型中进行预测,该预测模型输出的结果即为该待预测兴趣点的当前状态。
在本实施例的一个可选实现方式中,所述预测模块,包括:
第一拼接子模块,被配置为将同一所述预设时间段对应的所述空间距离特征和时间趋势特征进行拼接得到一个所述预设时间段对应的所述待预测特征;
第一输入子模块,被配置为将多个所述预设时间段对应的所待预测特征构成的序列输入至预先训练的循环神经网络模型,预测得到所述待预测兴趣点的当前状态。
该可选的实现方式中,可以利用循环神经网络模型预测待预测兴趣点的当前状态,例如可以预先训练循环神经网络模型,如训练长短期记忆网络LSTM,将多个预设时间段对应的待预测特征按照时间顺序分别输入至LSTM的各个单元模型中,LSTM前一单元模型的输出为后一单元模型的输入,最后一个单元模型的输出经过个全连接层进行二分类得到待预测兴趣点的当前状态的结果。
在本实施例的一个可选实现方式中,所述装置进一步还包括以下步骤:
获取与所述待预测兴趣点相关联的候选用户;
从所述候选用户中随机抽样预定数量个目标关联用户。
该可选的实现方式中,与待预测兴趣点相关联的候选用户较多,虑到不同待预测兴趣点相关联的候选用户数量不同,因此可以针对待预测兴趣点从候选用户中随机抽样预定数量的用户作为目标关联用户,进而基于目标关联用户的关联数据进行预测。
图6示出根据本公开一实施方式的兴趣点状态预测的模型训练装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图6所示,该兴趣点状态预测的模型训练装置包括:
第二获取模块601,被配置为获取样本兴趣点的目标关联用户与所述样本兴趣点的关联数据以及所述样本兴趣点的标注状态;
第三获取模块602,被配置为以预设时间段为单位,将所述关联数据中目标关联用户相对于样本兴趣点的距离分布以及目标关联用户针对所述样本兴趣点所产生的行为输入至时空特征提取模型,获得所述预设时间段对应的待预测特征;
第四获取模块603,被配置为将多个预设时间段对应的所述待预测特征分别输入至循环神经网络模型的各个模型单元,获得所述样本兴趣点对应的预测状态;
调整模块604,被配置为基于所述预测状态和所述标注状态调整所述时空特征提取模型以及所述循环神经网络模型的模型参数。
本实施例中,该兴趣点状态预测的模型训练装置可以在服务器上执行,样本兴趣点可以是任意待挖掘其标注状态的兴趣点,比如现实世界中的商店、地铁站、公厕、超市、商场等场所。样本兴趣点的标注状态可以包括但不限于正常状态和异常状态,异常状态可以理解为该样本兴趣点已过期,比如样本兴趣点处于关闭、搬迁、拆迁、更名等异常状态。而正常状态则可以理解为该样本兴趣点正常开门、营业等状态。样本兴趣点的标注状态为基于人工或者其他可靠的方式确定的该样本兴趣点的真实状态。
样本兴趣点的目标关联用户可以是与该样本兴趣点在历史上有关联关系的用户,例如一个商店的目标关联用户可以包括但不限于店主、店员、经常在该商店进行消费的顾客等。样本兴趣点的目标关联用户可以基于历史数据统计得到。例如,可以基于用户在样本兴趣点发生的历史行为、对样本兴趣点具有权限的用户上报的信息等确定样本兴趣点的目标关联用户。样本兴趣点的目标关联用户可以通过多种数据源获得。也就是说,本公开实施例中用于预测兴趣点状态的关联数据可以是多源用户数据。
在一些实施例中,目标关联用户与样本兴趣点的关联数据可以包括但不限于目标关联用户产生的与样本兴趣点相关的行为数据,并且该行为数据可以具有时间属性。在一些实施例中,该行为数据可以包括但不限于用户的行为类型、行为时间以及与用户行为相关的其他数据等。
兴趣点是否过期可以体现在两个方面:一是多种用户活动量减少直至消失,即时间上用户活动量下降;二是用户活动的位置不再频繁出现在兴趣点附近,即空间上远离。因此,本公开实施例利用用户时空行为特征训练用于兴趣点状态预测的模型。
为了提升用于兴趣点状态预测的模型的预测准确率,本公开实施例利用时空特征提取模型从目标关联用户与样本兴趣点的关联数据中提取样本兴趣点的待预测特征。该待预测特征可以包括但不限于空间距离特征和时间趋势特征。空间距离特征可以是基于目标关联用户相对于样本兴趣点的距离分布提取出的空间距离特征,例如可以基于一个时间段如一个月内目标关联用户与样本兴趣点的最近距离提取空间距离特征。空间距离特征可以表征用户相对于样本兴趣点的总体空间分布的远近。
时间趋势特征可以是基于目标关联用户针对样本兴趣点而产生行为的时间趋势特征,目标关联用户针对样本兴趣点所产生的行为可以包括但不限于导航至待预测兴趣或者从样本兴趣点导航去其他目的地、在样本兴趣点进行支付、连接样本兴趣点的WiFi、产生目的地或者寄出地为该样本兴趣点的运单等行为。
时间趋势特征可以理解为目标关联用户针对样本兴趣点所产生的行为随着时间的变化而进行变化的一种趋势性特征。时间趋势特征表征的是用户相对于样本兴趣点的行为在时间上的频次分布情况。
时空特征提取模型可以采用任意结构的模型,只要能够从关联数据提取出表征用户相对于样本兴趣点的空间分布的远近的特征以及在时间上的行为频次分布情况的特征即可。需要说明的是,由于利用待预测特征预测样本兴趣点的预测状态,所使用的是循环神经网络模型,所以提取待预测特征时,以预设时间段为单位进行提取,一个预设时间段提取一个待预测特征,多个预设时间段提取多个待预测特征。
每个预设时间段对应的待预测特征按照多个预设时间段之间时间顺序依次输入至循环神经网络模型的各个模型单元中,前一单元模型的输出作为后一单元模型的输入,也即从第二个单元模型开始,其输入包括对应的预设时间段的待预测特征和前一单元模型的输出,最后一个单元模型的输出经过个全连接层进行二分类得到样本兴趣点的预测状态,在模型为训练完成时,该预测状态与标注状态可能不同。
针对每一样本兴趣点提取的待预测特征,可以基于相应的预测状态和标注状态之间的不同反向调整时空特征提取模型和时间训练神经网络模型的模型参数,直至达到模型训练停止条件为止。
本公开实施例基于样本兴趣点的目标关联用户与样本兴趣点的关联数据提取待预测特征,该待预测特征包括的空间距离特征和时间趋势特征反映了目标关联用户针对样本兴趣点的用户时空行为。本公开实施例中的目标关联用户与样本兴趣点的关联数据可以是多源用户行为数据,也即通过多种途径获得的用户行为数据。本公开实施例基于与样本兴趣点关联的多源用户行为数据,通过建模兴趣点的状态变化趋势,能够提升过期兴趣点的挖掘准确率。
本公开实施例中,在训练兴趣点预测状态的模型时,可以获取多个样本兴趣点对应的用户相关数据,并基于用户关联数据确定目标关联用户以及目标关联用户相对于样本兴趣点的关联数据。基于该关联数据提取样本兴趣点的待预测特征,待预测特征包括基于目标关联用户相对于样本兴趣点的距离得到的空间距离特征,以及目标关联用户针对样本兴趣点所产生行为的时间趋势特征。进而基于该待预测特征可以预测样本兴趣点的标注状态。通过上述装置,基于样本兴趣点相关的目标关联用户的空间以及时间行为数据,提升了样本兴趣点的状态预测准确率。
在本实施例的一个可选实现方式中,所述时空特征提取模型包括空间特征提取模型;所述第三获取模块,包括:
第六确定子模块,被配置为基于所述关联数据确定所述目标关联用户在预设时间段内相对于所述样本兴趣点的最小距离;
第二划分子模块,被配置为将所述目标关联用户的所述最小距离按照远近划分距离等级;
第一获取子模块,被配置为将划分得到的所述距离等级作为所述空间特征提取模型的输入,得到所述目标关联用户相对于所述样本兴趣点的用户距离向量;
第七确定子模块,被配置为基于所述用户距离向量确定所述样本兴趣点的空间距离特征。
该可选的实现方式中,可以在一个预设时间段内统计目标关联用户相对于样本兴趣点的最小距离,预设时间段例如可以是一个时间段,比如几天、几周、几个月等,具体时间长度可以基于实际需要而定,在此不做限定。
在统计出目标关联用户在预设时间段内相对于样本兴趣点的最小距离之后,可以基于预先确定好的规则将该最小距离进行等级划分,例如可以划分成是三级:近距离、中距离和远距离,将最小距离位于近距离对应的距离范围内的目标关联用户划分至近距离对应的距离等级,将最小距离位于中距离或远距离对应的距离范围内的目标关联用户划分至中距离或远距离对应的距离等级。距离等级对应的距离范围可以预先设定,具体基于实际需要而定,在此不做限制。
每个目标关联用户均被划分得到一个对应的距离等级,之后可以通过空间特征提取模型对该距离等级进行向量编码,得到目标关联用户对应的用户距离向量。需要说明的是,空间特征提取模型可以采用从距离等级映射到向量的任意模型,具体模型结构可以基于实际需要而定,在此不做限制。
在样本兴趣点对应有多个目标关联用户的情况下,可以将多个目标关联用户对应的用户距离向量进行聚合,获得该样本兴趣点的空间距离特征。多个目标关联用户对应的用户距离向量进行聚合,可以实现为将多个距离向量进行拼接,得到空间距离特征。
在本实施例的一个可选实现方式中,所述时空特征提取模型包括时间特征提取模型,所述时间特征提取模型包括行为向量编码模型和注意力机制模型;所述第三获取模块,包括:
第二统计子模块,被配置为基于所述关联数据统计所述目标关联用户在预设时间段内的用户行为序列;
第八确定子模块,被配置为基于多个所述目标关联用户对应的所述用户行为序列确定所述样本兴趣点的兴趣点行为序列;
第二获取子模块,被配置为分别将所述用户行为序列和所述兴趣点行为序列输入至行为向量编码模型,获得用户向量特征和兴趣点向量特征;
第三获取子模块,被配置为将所述用户向量特征和所述兴趣点向量特征输入至所述注意力机制模型,获得所述目标关联用户的用户权重;
第四获取子模块,被配置为基于所述目标关联用户的用户权重以及所述用户向量特征得到所述样本兴趣点的时间趋势特征。
该可选的实现方式中,用户行为序列可以是预设时间段内各个预设时间段中目标关联用户针对样本兴趣点所产生的用户行为构成的序列,该用户行为可以被量化为数值的形式,也即基于目标关联用户的行为获得在各个预设时间段内的用户活动量。例如,目标关联用户的运单行为可以被量化为针对样本兴趣点的运单数量,用户行为序列可以是在预设时间段内各个时间段针对样本兴趣点产生的运单数量,再例如目标关联用户的支付行为可以被量化为针对样本兴趣点的支付次数,用户行为序列可以是在预设时间段内各个时间段针对样本兴趣点产生的支付次数。可以理解的是,不同用户行为对应不同的用户行为序列,也就是说同一用户可以对应多种不同用户行为的用户行为序列。
在一些实施例中,预设时间段可以理解为周期较长的一段时间,而一个预设时间段又可以被划分为多个时间段,用户行为序列可以是预设时间段内每个时间段对应的用户行为数据的量化值构成的序列。比如预设时间段为一个月,而时间段为天,则该预设时间段内的用户行为序列可以是一个月内用户每天的行为数据的量化值,如针对用户支付行为而言,用户行为序列可以是一个月内当前用户每天的支付次数构成的序列。
兴趣点行为序列可以是多个目标关联用户的用户行为序列的叠加结果。以两个目标关联用户为例,第一目标关联用户的一种用户行为的用户行为序列表示为{a1,a2,a3},第二目标关联用户相同用户行为的用户行为序列表示为{b1,b2,b3},则该用户行为对应的兴趣点行为序列可以表示为{ a1+b1,a2+b2,a3+b3}。
针对不同用户行为均可以获得对应的兴趣点行为序列,例如可以获得支付行为对应的兴趣点行为序列、运单行为对应的兴趣点行为序列等。
在确定了用户行为序列和兴趣点行为序列之后,可以利用时间特征提取模型中的向量编码模型对用户行为序列和兴趣点行为序列进行特征提取,例如可以通过行为向量编码模型分别将用户行为序列和兴趣点行为训练映射为一个向量,也即每个用户行为序列被映射为一个用户向量特征,每一个兴趣点行为序列被映射为一个兴趣点向量特征。在一些实施例中,该行为向量编码模型可以是线性变换模型或全连接层模型等。
针对每一类用户行为,基于一个目标关联用户的用户向量特征和兴趣点向量特征之间的关系可以确定该目标关联用户的用户权重。针对该类用户行为,所有目标关联用户的用户权重确定之后,可以基于每个目标关联用户的用户权重、每个目标关联用户的用户向量特征获得样本兴趣点对应于该类用户行为的时间趋势特征。每一类用户行为均可以获得一种时间趋势特征。在一些实施例中,包括多类用户行为的情况下,可以将多类用户行为对应的时间趋势特征进行聚合比如拼接得到最终的时间趋势特征。
需要说明的是,每一个预设时间段为预定长度的时间窗口,该时间窗口内用户行为序列也可以称之为用户活动强度序列表现出一定的趋势,能够帮助捕捉由于兴趣点异常导致的用户行为模式的变化。权重用户的离开会使得兴趣点上总的用户活动强度(也即对用户行为量化后的结果)出现急剧下降的趋势,将导致模型发生误判,因此在模型训练过程中本公开实施例还通过注意力机制自适应地学习不同用户对兴趣点的时间趋势特征的用户权重。权重用户可以理解为针对兴趣点的行为较为频繁的用户。
在一些实施例中,可以基于时间特征提取模型中的注意力机制模型确定用户向量特征和兴趣点向量特征之间的关系,进而获得用户权重。可以理解的是,该注意力机制模型可以体现为一个函数的形式,其输入为用户向量特征和兴趣点向量特征,输出为用户权重。在模型训练过程中,可以基于输入的样本数据训练该函数中的参数。
在本实施例的一个可选实现方式中,所述待预测特征还包括在预设时间段内样本兴趣点维度的用户行为特征;所述时空特征提取模型还包括多层感知机模型;所述装置进一步还包括:
第五获取模块,被配置为基于所述关联数据获取在预设时间段内所述样本兴趣点维度的用户行为统计数据;
第六获取模块,被配置为将所述用户行为统计数据输入至所述多层感知机模型,获得所述样本兴趣点维度的用户行为特征。
该可选的实现方式中,还可以基于目标关联用户的关联数据统计样本兴趣点维度的用户行为数据,也即相对于基于目标关联用户维度统计并提取到的空间距离分布数据和时间行为序列数据之外的用户行为统计数据,并基于该用户行为数据提取出用户行为特征。例如,可以统计在预设时间段内针对该样本兴趣点的导航总次数、导航天数、搜索总次数等,进而利用多层感知机模型对其进行向量编码得到用户行为特征。
待预测特征可以是将空间距离特征、时间趋势特征和/或用户行为特征进行聚合,比如进行拼接后得到的征,将该待预测特征输入至循环神经网络模型中进行预测后,可以得到该样本兴趣点的预测状态。
在本实施例的一个可选实现方式中,所述待预测特征包括空间距离特征和时间趋势特征;所述第四获取模块,进一步还被实施为:
将同一所述预设时间段对应的所述空间距离特征和时间趋势特征进行拼接得到一个所述预设时间段对应的所述待预测特征;
将多个所述预设时间段对应的所待预测特征构成的序列输入至预先训练的循环神经网络模型,预测得到所述样本兴趣点的预测状态。
该可选的实现方式中,可以利用循环神经网络模型预测样本兴趣点的预测状态,例如可以预先训练循环神经网络模型,如训练长短期记忆网络LSTM,将多个预设时间段对应的待预测特征按照时间顺序分别输入至LSTM的各个单元模型中,LSTM前一单元模型的输出为后一单元模型的输入,最后一个单元模型的输出经过个全连接层进行二分类得到样本兴趣点的标注状态的结果。
在本实施例的一个可选实现方式中,所述装置进一步被实施为:
获取与所述样本兴趣点相关联的候选用户;
从所述候选用户中随机抽样预定数量个目标关联用户。
该可选的实现方式中,与样本兴趣点相关联的候选用户较多,虑到不同样本兴趣点相关联的候选用户数量不同,因此可以针对样本兴趣点从候选用户中随机抽样预定数量的用户作为目标关联用户,进而基于目标关联用户的关联数据进行预测。
图7是适于用来实现根据本公开一实施方式的兴趣点状态预测方法和/或兴趣点状态预测的模型训练方法的电子设备的结构示意图。
如图7所示,电子设备700包括处理单元701,其可实现为CPU、GPU、FPGA、NPU等处理单元。处理单元701可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行本公开上述任一方法的实施方式中的各种处理。在RAM703中,还存储有电子设备700操作所需的各种程序和数据。处理单元701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施方式,上文参考本公开实施方式中的任一方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机存储介质,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行本公开实施方式中任一方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机存储介质的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (11)
1.一种兴趣点状态预测方法,其中,包括:
获取待预测兴趣点的目标关联用户与所述待预测兴趣点的关联数据;
基于所述关联数据确定所述待预测兴趣点的待预测特征;所述待预测特征包括基于所述目标关联用户相对于所述待预测兴趣点的距离分布获得的空间距离特征,以及所述目标关联用户针对所述待预测兴趣点所产生行为的时间趋势特征;
基于所述待预测特征预测所述待预测兴趣点的当前状态;
其中,基于所述关联数据确定所述待预测兴趣点的待预测特征,包括:
基于所述关联数据确定多个所述目标关联用户在预设时间段内与所述待预测兴趣点的最小距离;
将多个所述目标关联用户的所述最小距离按照远近划分距离等级;
对划分得到的所述距离等级进行向量编码,获得各个所述目标关联用户相对于所述待预测兴趣点的用户距离向量;
基于所述用户距离向量确定所述待预测兴趣点的空间距离特征。
2.根据权利要求1所述的方法,其中,基于所述关联数据确定所述待预测兴趣点的待预测特征,包括:
基于所述关联数据统计所述目标关联用户在预设时间段内的用户行为序列;
基于多个所述目标关联用户对应的所述用户行为序列确定所述待预测兴趣点的兴趣点行为序列;
分别针对所述用户行为序列和所述兴趣点行为序列提取特征,得到用户向量特征和兴趣点向量特征;
基于所述用户向量特征和所述兴趣点向量特征确定所述目标关联用户的用户权重;
基于所述目标关联用户的用户权重以及所述用户向量特征得到所述待预测兴趣点的时间趋势特征。
3.根据权利要求1所述的方法,其中,所述待预测特征还包括在预设时间段内待预测兴趣点维度的用户行为特征。
4.根据权利要求1所述的方法,其中,基于所述待预测特征预测所述待预测兴趣点的当前状态,包括:
将同一所述预设时间段对应的所述空间距离特征和时间趋势特征进行拼接得到一个所述预设时间段对应的所述待预测特征;
将多个所述预设时间段对应的所待预测特征构成的序列输入至预先训练的循环神经网络模型,预测得到所述待预测兴趣点的当前状态。
5.一种兴趣点状态预测的模型训练方法,其中,包括:
获取样本兴趣点的目标关联用户与所述样本兴趣点的关联数据以及所述样本兴趣点的标注状态;
以预设时间段为单位,将所述关联数据中目标关联用户相对于样本兴趣点的距离分布以及目标关联用户针对所述样本兴趣点所产生的行为输入至时空特征提取模型,获得所述预设时间段对应的待预测特征;
将多个预设时间段对应的所述待预测特征分别输入至循环神经网络模型的各个模型单元,获得所述样本兴趣点对应的预测状态;
基于所述预测状态和所述标注状态调整所述时空特征提取模型以及所述循环神经网络模型的模型参数;
其中,所述时空特征提取模型包括空间特征提取模型;将所述关联数据中目标关联用户相对于样本兴趣点的距离分布以及目标关联用户针对所述样本兴趣点所产生的行为输入至时空特征提取模型,获得所述预设时间段对应的待预测特征,包括:
基于所述关联数据确定所述目标关联用户在预设时间段内相对于所述样本兴趣点的最小距离;
将所述目标关联用户的所述最小距离按照远近划分距离等级;
将划分得到的所述距离等级作为所述空间特征提取模型的输入,得到所述目标关联用户相对于所述样本兴趣点的用户距离向量;
基于所述用户距离向量确定所述样本兴趣点的空间距离特征。
6.根据权利要求5所述的方法,其中,所述时空特征提取模型包括时间特征提取模型,所述时间特征提取模型包括行为向量编码模型和注意力机制模型;将所述关联数据中目标关联用户相对于样本兴趣点的距离分布以及目标关联用户针对所述样本兴趣点所产生的行为输入至时空特征提取模型,获得所述预设时间段对应的待预测特征,包括:
基于所述关联数据统计所述目标关联用户在预设时间段内的用户行为序列;
基于多个所述目标关联用户对应的所述用户行为序列确定所述样本兴趣点的兴趣点行为序列;
分别将所述用户行为序列和所述兴趣点行为序列输入至行为向量编码模型,获得用户向量特征和兴趣点向量特征;
将所述用户向量特征和所述兴趣点向量特征输入至所述注意力机制模型,获得所述目标关联用户的用户权重;
基于所述目标关联用户的用户权重以及所述用户向量特征得到所述样本兴趣点的时间趋势特征。
7.根据权利要求5所述的方法,其中,所述待预测特征还包括在预设时间段内样本兴趣点维度的用户行为特征;所述时空特征提取模型还包括多层感知机模型;所述方法还包括:
基于所述关联数据获取在预设时间段内所述样本兴趣点维度的用户行为统计数据;
将所述用户行为统计数据输入至所述多层感知机模型,获得所述样本兴趣点维度的用户行为特征。
8.一种兴趣点状态预测装置,其中,包括:
第一获取模块,被配置为获取待预测兴趣点的目标关联用户与所述待预测兴趣点的关联数据;
第一确定模块,被配置为基于所述关联数据确定所述待预测兴趣点的待预测特征;所述待预测特征包括基于所述目标关联用户相对于所述待预测兴趣点的距离分布获得的空间距离特征,以及所述目标关联用户针对所述待预测兴趣点所产生行为的时间趋势特征;
预测模块,被配置为基于所述待预测特征预测所述待预测兴趣点的当前状态;
其中,所述第一确定模块,包括:
第一确定子模块,被配置为基于所述关联数据确定多个所述目标关联用户在预设时间段内与所述待预测兴趣点的最小距离;
第一划分子模块,被配置为将多个所述目标关联用户的所述最小距离按照远近划分距离等级;
第一编码子模块,被配置为对划分得到的所述距离等级进行向量编码,获得各个所述目标关联用户相对于所述待预测兴趣点的用户距离向量;
第二确定子模块,被配置为基于所述用户距离向量确定所述待预测兴趣点的空间距离特征。
9.一种兴趣点状态预测的模型训练装置,其中,包括:
第二获取模块,被配置为获取样本兴趣点的目标关联用户与所述样本兴趣点的关联数据以及所述样本兴趣点的标注状态;
第三获取模块,被配置为以预设时间段为单位,将所述关联数据中目标关联用户相对于样本兴趣点的距离分布以及目标关联用户针对所述样本兴趣点所产生的行为输入至时空特征提取模型,获得所述预设时间段对应的待预测特征;
第四获取模块,被配置为将多个预设时间段对应的所述待预测特征分别输入至循环神经网络模型的各个模型单元,获得所述样本兴趣点对应的预测状态;
调整模块,被配置为基于所述预测状态和所述标注状态调整所述时空特征提取模型以及所述循环神经网络模型的模型参数;
其中,所述时空特征提取模型包括空间特征提取模型;所述第三获取模块,包括:
第六确定子模块,被配置为基于所述关联数据确定所述目标关联用户在预设时间段内相对于所述样本兴趣点的最小距离;
第二划分子模块,被配置为将所述目标关联用户的所述最小距离按照远近划分距离等级;
第一获取子模块,被配置为将划分得到的所述距离等级作为所述空间特征提取模型的输入,得到所述目标关联用户相对于所述样本兴趣点的用户距离向量;
第七确定子模块,被配置为基于所述用户距离向量确定所述样本兴趣点的空间距离特征。
10.一种电子设备,其中,包括存储器、处理器以及存储在存储器上的计算机程序,其中,所述处理器执行所述计算机程序以实现权利要求1-7任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机指令,其中,该计算机指令被处理器执行时实现权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211243185.XA CN115309999B (zh) | 2022-10-11 | 2022-10-11 | 兴趣点状态预测方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211243185.XA CN115309999B (zh) | 2022-10-11 | 2022-10-11 | 兴趣点状态预测方法、装置、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115309999A CN115309999A (zh) | 2022-11-08 |
CN115309999B true CN115309999B (zh) | 2023-01-31 |
Family
ID=83868326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211243185.XA Active CN115309999B (zh) | 2022-10-11 | 2022-10-11 | 兴趣点状态预测方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115309999B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347775B (zh) * | 2019-07-17 | 2022-11-08 | 北京百度网讯科技有限公司 | 兴趣点状态校正方法、装置、设备及计算机可读存储介质 |
CN112559649A (zh) * | 2019-09-25 | 2021-03-26 | 阿里巴巴集团控股有限公司 | 兴趣点状态的识别方法及装置 |
CN111782973A (zh) * | 2020-06-04 | 2020-10-16 | 汉海信息技术(上海)有限公司 | 兴趣点状态预测方法、装置、电子设备及存储介质 |
CN112101682B (zh) * | 2020-09-25 | 2024-04-09 | 北京百度网讯科技有限公司 | 流量模式预测方法、装置、服务器以及可读介质 |
-
2022
- 2022-10-11 CN CN202211243185.XA patent/CN115309999B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115309999A (zh) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | Real-time bus arrival time prediction: case study for Jinan, China | |
Schuessler et al. | Processing raw data from global positioning systems without additional information | |
Dai et al. | Short‐Term Origin‐Destination Based Metro Flow Prediction with Probabilistic Model Selection Approach | |
CN111915104A (zh) | 一种预测出行位置的方法及装置 | |
Yamamoto et al. | Structured random walk parameter for heterogeneity in trip distance on modeling pedestrian route choice behavior at downtown area | |
Li et al. | Urban mobility analytics: A deep spatial–temporal product neural network for traveler attributes inference | |
CN110059849A (zh) | 路径确定方法和装置 | |
Wang et al. | A Network‐Based Model of Passenger Transfer Flow between Bus and Metro: An Application to the Public Transport System of Beijing | |
Saha et al. | Deep learning approach for predictive analytics to support diversion during freeway incidents | |
Hu et al. | Mass Rapid Transit System Passenger Traffic Forecast Using a Re‐Sample Recurrent Neural Network | |
Gutmann et al. | Truck parking occupancy prediction: Xgboost-LSTM model fusion | |
CN115309999B (zh) | 兴趣点状态预测方法、装置、电子设备及计算机存储介质 | |
Nicoletta et al. | Bayesian spatio-temporal modelling and prediction of areal demands for ambulance services | |
CN116562487A (zh) | 顾及路口时空关联与历史出行语义的移动目的地预测方法 | |
Richly et al. | Predicting location probabilities of drivers to improved dispatch decisions of transportation network companies based on trajectory data | |
Syed et al. | Neural network-based metaheuristic parameterization with application to the vehicle matching problem in ride-hailing services | |
Bouillet et al. | Fusing traffic sensor data for real-time road conditions | |
CN112632404A (zh) | 基于多粒度自注意力的下一个兴趣点推荐方法 | |
Atilgan et al. | Traffic characteristics of short and long public holidays: a hybrid holiday-oriented speed prediction approach via feature engineering | |
Ptošek et al. | Floating car data map-matching utilizing the Dijkstra’s algorithm | |
WO2016067460A1 (ja) | 交通行動推定システム、交通シミュレーションシステム、交通行動推定方法 | |
Azad | Smart travel time prediction model for urban traffic using long short-term memory network | |
Rahaman | Context-aware mobility analytics and trip planning | |
Bhandari et al. | Occupancy prediction at transit stops using ANN | |
CN114895982B (zh) | 基于用户信息的应用唤起方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |