CN106055607B

CN106055607B - 用户到访预测模型建立、用户到访预测方法和装置

Info

Publication number: CN106055607B
Application number: CN201610354134.2A
Authority: CN
Inventors: 汪天一; 许梦雯; 武政伟; 程允胜; 吴海山
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-05-25
Filing date: 2016-05-25
Publication date: 2020-05-19
Anticipated expiration: 2036-05-25
Also published as: CN106055607A

Abstract

本发明实施例公开了一种用户到访预测模型建立、用户到访预测方法和装置。用户到访预测模型建立方法包括：根据用户的地图搜索数据，生成备选样本；根据用户的定位轨迹数据，选择满足用户实际到访条件的备选样本作为训练样本；根据训练样本中的抵达方式关联信息，确定与训练样本对应的训练特征；使用与训练样本对应的训练特征对设定单分类训练模型进行训练，并将训练后的单分类训练模型作为用户到访预测模型。本发明的技术方案可以解决现有的计算和推断用户到访POI的方法由于没有考虑使用地图搜索数据而存在的数据量单一，在不同程度上都会存在使用覆盖率差的技术问题，优化了现有的用户到访预测技术，提高了用户到访预测的准确性。

Description

用户到访预测模型建立、用户到访预测方法和装置

技术领域

本发明实施例涉及信息处理技术，尤其涉及一种用户到访预测模型建立、到访预测方法和装置。

背景技术

随着移动互联网和移动智能设备和终端的不断发展，终端用户产生了大量的定位、轨迹等线下数据。线下数据真实反映了用户在物理时空中的行为特征，对线上数据形成了良好补充，完善了用户画像属性的计算，广泛应用于在线信息推送、精准营销等多个具体应用中。特别的，如果能够确定或者预测出用户到访了一个POI(Point Of Interest，兴趣点)，例如酒店、饭店等，则可以完成准确命中用户实际需求的信息推送。

目前计算和推断用户到访POI的方法大致有4种：1)基于已有AOI(Area OfInterest，兴趣范围)的直接检索；2)根据POI关联的Wi-Fi(Wireless-Fidelity，无线保真)信息判断；3)基于定位数据到POI距离的推断；4)基于贝叶斯(Bayes)模型的POI到访推断方法等。

发明人在实现本发明的过程中，发现现有技术的主要缺陷在于：现有技术中的各方案主要依靠了用户的GPS(Global Positioning System，全球定位系统)定位信息，以及兴趣点附近的Wi-Fi信息等，数据源较单一，因此在不同程度上都会存在使用覆盖率差的问题。

发明内容

有鉴于此，本发明实施例提供了一种用户到访预测模型建立、用户到访预测方法和装置，以优化现有的用户到访预测技术，提高用户到访预测的准确性。

第一方面，本发明实施例提供了一种用户到访预测模型建立方法，包括：

根据用户的地图搜索数据，生成备选样本，其中，所述地图搜索数据包括：搜索地点、搜索时间以及抵达方式关联信息，所述备选样本包括：在指定时间区间内，与同一用户的同一搜索地点对应的地图搜索数据；

根据用户的定位轨迹数据，选择满足用户实际到访条件的备选样本作为训练样本；

根据所述训练样本中的所述抵达方式关联信息，确定与所述训练样本对应的训练特征；

使用与所述训练样本对应的训练特征对设定单分类训练模型进行训练，并将训练后的所述单分类训练模型作为用户到访预测模型。

第二方面，本发明实施例还提供了一种用户到访预测方法，包括：

实时获取与目标用户的单次地图搜索对应的地图搜索数据，其中，所述地图搜索数据包括：搜索地点、搜索时间以及抵达方式关联信息；

根据所述搜索时间，选取设定监控时间段，并在所述监控时间段中，获取所述目标用户基于所述搜索地点的地图搜索数据作为预测样本；

根据所述预测样本中的所述抵达方式关联信息，确定与所述预测样本对应的预测特征；

将所述预测特征输入至预先训练的用户到访预测模型中，根据所述用户到访预测模型的输出结果，对所述目标用户是否到访所述搜索地点进行预测；

其中，所述用户到访预测模型由根据用户的地图搜索数据生成的训练样本训练设定单分类训练模型生成，所述训练样本满足用户实际到访条件。

第三方面，本发明实施例提供了一种用户到访预测模型建立装置，包括：

备选样本生成模块，用于根据用户的地图搜索数据，生成备选样本，其中，所述地图搜索数据包括：搜索地点、搜索时间以及抵达方式关联信息，所述备选样本包括：在指定时间区间内，与同一用户的同一搜索地点对应的地图搜索数据；

训练样本选择模块，用于根据用户的定位轨迹数据，选择满足用户实际到访条件的备选样本作为训练样本；

训练特征确定模块，用于根据所述训练样本中的所述抵达方式关联信息，确定与所述训练样本对应的训练特征；

预测模型训练模块，用于使用与所述训练样本对应的训练特征对设定单分类训练模型进行训练，并将训练后的所述单分类训练模型作为用户到访预测模型。

第四方面，本发明实施例还提供了一种用户到访预测装置，包括：

地图搜索数据获取模块，用于实时获取与目标用户的单次地图搜索对应的地图搜索数据，其中，所述地图搜索数据包括：搜索地点、搜索时间以及抵达方式关联信息；

预测样本获取模块，用于根据所述搜索时间，选取设定监控时间段，并在所述监控时间段中，获取所述目标用户基于所述搜索地点的地图搜索数据作为预测样本；

预测特征确定模块，用于根据所述预测样本中的所述抵达方式关联信息，确定与所述预测样本对应的预测特征；

到访预测模块，用于将所述预测特征输入至预先训练的用户到访预测模型中，根据所述用户到访预测模型的输出结果，对所述目标用户是否到访所述搜索地点进行预测；

本发明实施例通过对不同用户的地图搜索数据进行归类、合并，获取满足用户实际到访条件的地图搜索数据作为训练样本对设定单分类模型进行训练，生成对用户实际到访情况进行预测的用户到访预测模型；在实时获取目标用户的地图搜索数据后，根据该地图搜索数据以及所述用户到访预测模型对目标用户对地图搜索数据中的搜索地点的到访情况进行预测的技术手段，可以解决现有的计算和推断用户到访POI的方法由于没有考虑使用地图搜索数据而存在的数据源单一，在不同程度上都会存在使用覆盖率差的技术问题，优化了现有的用户到访预测技术，提高了用户到访预测的准确性。

附图说明

图1a是本发明第一实施例的一种用户到访预测模型建立方法的流程图；

图1b是在不同类型的抵达方式和搜索频次下，统计的用户到访概率分布图；

图2是本发明第二实施例的一种用户到访预测模型建立方法的流程图；

图3a是本发明第三实施例的一种用户到访预测模型建立方法的流程图；

图3b是一种最后一次搜索时间与用户实际到访时间的时延分布图；

图3c是另一种最后一次搜索时间与用户实际到访时间的时延分布图；

图4是本发明第四实施例的一种用户到访预测方法的流程图；

图5是本发明第五实施例的一种用户到访预测方法的流程图；

图6是本发明第六实施例的一种用户到访预测模型建立装置的结构图；

图7是本发明第七实施例的一种用户到访预测装置的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

为了便于后文描述，首先将现有技术的实现原理以及本发明的发明构思进行简单介绍。

1、基于已有AOI的直接检索。本方案的核心思想是根据预先标注的AOI数据，判断定位或轨迹是否落在AOI范围内。如果用户的实时定位数据(x，y)落在AOI的多边形内，则说明用户到访了AOI所对应的POI。

使用AOI相关数据进行检索有显著的覆盖率问题。首先，AOI的位置、形状等数据很难通过计算机自动识别，需要大量人工标注，成本较高；其次，具有显著形状特征的POI较少，一般为学校、医院、工厂或者旅游景点等。公司、饭店等大量POI一般位于建筑物内部，无法进行AOI标注。上述两点限制了AOI的数量和覆盖的POI，因此在进行到访POI推断时覆盖率较低。

2、根据POI关联的Wi-Fi信息判断。本方案的核心思想是许多POI(如酒店、饭店等)设立的无线AP(Access Point，接入点)，包含了AP的硬件地址、SSID(Service SetIdentifier，服务集标识)等信息。当用户连接Wi-Fi时，相应的数据会被记录下来。利用这些用户连接的Wi-Fi信息，以及POI与Wi-Fi信息的映射表，可以推断用户到访的POI信息。

利用与POI关联的Wi-Fi信息进行推断时，要求POI处设无线AP，并且获取到POI与无线AP相关信息如硬件地址、SSID的映射表。一般来说饭店、酒店等公共场合较容易获取上述数据，而住宅、公司等Wi-Fi数据不易获取，且很多POI没有Wi-Fi信息。因此，上述方法实际使用时覆盖率较低。

3、基于定位数据到POI距离的推断。本方案的核心思想是根据用户的定位信息寻找与定位距离最近的POI，或者根据距离计算到访概率。

直接根据定位数据寻找距离最近的POI一般准确率较低，尤其在POI密集的区域。一方面GPS定位本身存在一定的误差，同时在POI密集时某定位1米范围内可能存在多个POI。因此仅仅根据定位数据到POI的距离来预测用户到访POI的方法准确率不高。同时，该方法只利用了定位数据，覆盖率也存在一定缺陷。

4、基于Bayes的POI到访推断方法。本方案的核心思想是采用Bayes模型，分析用户到访POI的频次、时间分布等知识作为先验，再计算用户到访POI的概率。

本方案虽然比单纯基于定位数据到POI距离预测用户到访POI的方法的准确率有较大提升。但是实质还是根据定位数据到POI距离预测用户到访POI，因此覆盖率还存在提升空间。

相区别的，本发明实施例在进行用户到访POI的预测时，使用了上述四种方法均未使用的地图搜索数据。实际上，如果用户在地图中搜索了一个POI，表明了用户对该POI很有兴趣，或者说有很大可能性在接下来的某个时间内要到访该POI，通过提取大量地图搜索数据，并将这些地图搜索数据进行筛选，构造训练样本对预设的单分类模型进行训练，可以最终实现基于用户单次或者连续多次的地图搜索数据，对用户是否到访其所搜索的POI进行预测，这就是本发明的核心发明点。

第一实施例

图1a为本发明第一实施例提供的一种用户到访预测模型建立方法的流程图，本实施例的方法可以由用户到访预测模型建立装置来执行，该装置可通过硬件和/或软件的方式实现，并一般可集成于完成用户到访预测模型建立功能的建模服务器中，与存放地图搜索数据的数据服务器配合使用，其中，建模服务器和数据服务器可以为同一服务器或者属于同一服务器集群，也可以为不同的服务器，本实施例对此并不进行限制。本实施例的方法具体包括：

110、根据用户的地图搜索数据，生成备选样本。

在本实施例中，所述地图搜索数据具体是指用户通过“XX地图”或者“XX导航”等地图类APP(Application，应用程序)查询设定搜索地点所在地图位置或者到达该搜索地点的抵达方式时所生成的搜索数据。在用户的单次地图搜索过程中，APP会自动生成所述地图搜索数据。

其中，所述地图搜索数据具体可以包括：搜索地点、搜索时间以及抵达方式关联信息。

所述搜索地点是指用户在单次地图搜索过程中输入的搜索目的地；所述搜索时间是指用户进行单次地图搜索时的系统时间；所述抵达方式关联信息是指用户在进行所述搜索地点的抵达方式搜索时，输入的与抵达方式相关联的信息。

其中，所述抵达方式关联信息具体可以包括：抵达方式类型，和/或抵达方式切换信息；所述抵达方式类型具体可以包括：步行、公交或者驾车；所述抵达方式切换信息具体可以包括：用户在进行所述搜索地点的抵达方式搜索时，前后两次切换的所述抵达方式类型。

在一个具体例子中，用户在9：30分进行了一次对“凯德Mall”的地图搜索，在搜索过程中，用户首先进行了驾车到达“凯德Mall”的路线搜索，之后切换至公交到达“凯德Mall”的路线搜索。基于用户的上述地图搜索过程，所生成的地图搜索数据具体包括：“搜索地点：凯德Mall；搜索时间：9:30；抵达方式切换信息：驾车—>公交”。

如前所述，本发明的核心发明点为根据地图搜索数据构造训练样本对预设的单分类模型进行训练。因此需要首先对地图搜索数据进行一定的数据预处理，将与同一用户的一次出行规划对应的全部地图搜索数据进行归并，生成备选样本。

其中，所述备选样本具体可以包括：在指定时间区间内，与同一用户的同一搜索地点对应的地图搜索数据。所述指定时间区间可以根据实际情况进行预设，例如，从用户第一次搜索一个搜索地点的搜索时间开始的1天、1.5天或者2天内，本实施例对此并不进行限制。

可选的，在生成所述备选样本之前，可以首先筛选出搜索地点为POI的地图搜索数据，并基于该筛选结果，获取对应的备选样本，以实现对用户到访POI的预测模型的建立。

120、根据用户的定位轨迹数据，选择满足用户实际到访条件的备选样本作为训练样本。

在本实施例中，考虑到为了完成对预设的单分类模型进行训练，所选择的训练样本需要与用户的实际到访行为相对应。

因此，需要获取满足用户实际到访条件的备选样本作为训练样本。其中，可以根据用户实际的定位轨迹数据，以及设定的实际到访确定算法，获取所述训练样本。

130、根据所述训练样本中的所述抵达方式关联信息，确定与所述训练样本对应的训练特征。

在本实施例中，与所述训练样本对应的训练特征可以包括：由所述训练样本中的抵达方式类型的种类所确定的抵达方式搜索类型特征；

可选的，所述抵达方式搜索类型特征可以具体包括由抵达方式类型的种类确定的5个训练特征，即：训练特征1：所述训练样本中是否仅包括步行路线搜索；训练特征2：所述训练样本中是否仅包括公交路线搜索；训练特征3：所述训练样本中是否仅包括驾车路线搜索；训练特征4：所述训练样本中是否仅包括关键词搜索；以及训练特征5：所述训练样本中是否采用多种搜索方式。根据分析确定上述5个训练特征的结果，标注训练样本中与抵达方式搜索类型特征对应的5个训练特征值，例如，如果一个训练样本中仅包括步行路线搜索，则仅包括步行路线搜索这一训练特征对应的特征值为1，其余4个训练特征对应的特征值为0。

在本实施例中，与所述训练样本对应的训练特征还可以包括：由所述训练样本中的不同抵达方式类型的搜索频次所确定的抵达方式搜索频次特征；

可选的，所述抵达方式搜索频次特征可以具体包括由所述训练样本中的不同抵达方式类型的搜索频次所确定的4个训练特征，即：训练特征6：所述训练样本中包括的步行路线搜索次数；训练特征7：所述训练样本中包括的公交路线搜索次数；训练特征8：所述训练样本中包括的开车路线搜索次数；以及训练特征9：所述训练样本中包括的关键词搜索次数。

其中，在图1b中显示了不同类型的抵达方式和搜索频次下，统计的用户到访概率分布图，从图1b中可以明显看出，用户在搜索后是否到访搜索地点与用户搜索的方式，以及搜索的频次密切相关。

进一步的，在本实施例中，与所述训练样本对应的训练特征还可以包括：由所述训练样本中的所述抵达方式切换信息所确定的抵达方式转移特征。

可选的，所述抵达方式转移特征可以具体包括由所述训练样本中的所述抵达方式切换信息所确定的9个训练特征，即：训练特征10：所述训练样本中是否包括关键词搜索切换到公交搜索的抵达方式切换信息；训练特征11：所述训练样本中是否包括关键词搜索切换到驾车搜索的抵达方式切换信息；训练特征12：所述训练样本中是否包括关键词搜索切换到步行搜索的抵达方式切换信息；训练特征13：所述训练样本中是否包括公交搜索切换到驾车搜索的抵达方式切换信息；训练特征14：所述训练样本中是否包括公交搜索切换到步行搜索的抵达方式切换信息；训练特征15：所述训练样本中是否包括驾车搜索切换到步行搜索的抵达方式切换信息；训练特征16：所述训练样本中是否包括驾车搜索切换到公交搜索的抵达方式切换信息；训练特征17：所述训练样本中是否包括步行搜索切换到公交搜索的抵达方式切换信息；训练特征18：所述训练样本中是否包括步行搜索切换到驾车搜索的抵达方式切换信息。

140、使用与所述训练样本对应的训练特征对设定单分类训练模型进行训练，并将训练后的所述单分类训练模型作为用户到访预测模型。

在本实施例中，考虑到最终需要对用户是否到访这一是非行为进行预测，因此，可以选择对单分类模型进行训练以生成最终的用户到访预测模型。

可选的，所述单分类模型可以为单分类SVM(Support Vector Machine，支持向量机)模型，也可以为其他类型的单分类训练模型，本实施例对此并不进行限制。

其中，通过将标注了不同训练特征的训练样本输入至所述单分类训练模型中进行训练，并对该单分类训练模型中的权值进行递归迭代调整，可以最终将所述单分类训练模型训练为所需的用户到访预测模型。

第二实施例

图2是本发明第二实施例的一种用户到访预测模型建立方法的流程图。本实施例以上述实施例为基础进行优化，在本实施例中，将根据用户的定位轨迹数据，选择满足用户实际到访条件的备选样本作为训练样本具体优化为：依次获取一个所述备选样本作为当前处理样本；根据所述当前处理样本中的所述指定时间区间，选取验证时间区间；获取与所述当前处理样本对应的目标用户在所述验证时间区间内的定位轨迹数据；如果获取的所述定位轨迹数据与所述当前处理样本中的所述搜索地点满足设定距离关系条件，则确定所述当前处理样本为训练样本。相应的，本实施例的方法具体包括：

210、根据用户的地图搜索数据，生成备选样本。

220、依次获取一个所述备选样本作为当前处理样本。

230、根据所述当前处理样本中的所述指定时间区间，选取验证时间区间。

在本实施例中，所述指定时间区间可以为从用户第一次搜索一个搜索地点的搜索时间开始的设定时间区间。

其中，可以根据该指定时间区间，或者根据该指定时间区间内包括的最后一次搜索该搜索地点的搜索时间选取验证时间区间。

例如，所述指定时间区间为[2016.5.20，2016.5.22]，因此，可以直接选取验证时间区间为该指定时间区间后的1天或者1.5天作为验证时间区间，例如：[2016.5.22，2016.5.23]，或者[2016.5.22，2016.5.24，12:00]。

240、获取与所述当前处理样本对应的目标用户在所述验证时间区间内的定位轨迹数据。

在本实施例中，为了验证所述目标用户是否到访了当前处理样本中的搜索地点，需要首先获取目标用户在所述验证时间区间内的定位轨迹数据。

其中，为了保证最终确定的训练样本的准确性，需要首先保证获取的定位轨迹数据的准确性。可选的，在获取定位轨迹数据之后，可以首选对定位轨迹数据进行异常点清洗，清洗的原因是：用户的定位轨迹数据中可能存在一些错误的定位点，例如定位点的漂移等。因此，需要将这些异常点去除，以防对之后的处理产生影响。

250、判断获取的所述定位轨迹数据与所述当前处理样本中的所述搜索地点是否满足设定距离关系条件：若是，执行260；否则，直接执行270。

在本实施例中，所述设定距离关系条件具体可以包括：搜索地点与所述定位轨迹数据中最接近该搜索地点的轨迹点之间的距离小于设定阈值，例如：1000米或者1200米等。

260、确定所述当前处理样本为训练样本，执行270。

在本实例中，如果确定目标用户的定位轨迹数据与该搜索地点足够接近，则说明该目标用户到访了该搜索地点，进而可以将当前处理样本作为满足用户实际到访条件的训练样本。

270、判断是否完成对全部备选样本的处理：若是，执行280；否则，返回执行220。

280、根据所述训练样本中的所述抵达方式关联信息，确定与所述训练样本对应的训练特征。

290、使用与所述训练样本对应的训练特征对设定单分类训练模型进行训练，并将训练后的所述单分类训练模型作为用户到访预测模型。

本实施例的技术方案结合了用户的定位轨迹数据，来筛选出备选样本中满足用户实际到访条件的训练样本，进而基于该训练样本完成对用户到访预测模型的训练的，通过将备选样本与用户定位轨迹数据进行的距离匹配的方式，可以简单、准确以及高效的确定出符合条件的训练样本，同时，通过对用户定位轨迹进行异常点清洗的方式，可以大大减少错误定位训练样本的概率，进而可以最终提高用户到访预测模型的预测准确性。

第三实施例

图3a是本发明第三实施例的一种用户到访预测模型建立方法的流程图。本实施例以上述实施例为基础进行优化，在本实施例中，还优选包括：获取所述训练样本中的最后一次搜索时间；计算所述最后一次搜索时间与用户实际到达所述搜索地点的时间之间的差值作为训练目标值；使用所述最后一次搜索时间以及所述训练目标值对设定回归模型进行训练，并将训练后的所述回归模型作为到访时间预测模型。相应的，本实施例的方法具体包括：

310、根据用户的地图搜索数据，生成备选样本。

320、根据用户的定位轨迹数据，选择满足用户实际到访条件的备选样本作为训练样本。

330、根据所述训练样本中的所述抵达方式关联信息，确定与所述训练样本对应的训练特征；

340、使用与所述训练样本对应的训练特征对设定单分类训练模型进行训练，并将训练后的所述单分类训练模型作为用户到访预测模型。

350、获取所述训练样本中的最后一次搜索时间。

在本发明第一实施例以及第二实施例的基础上，可以实现对用户是否到访一个搜索地点进行预测。进一步的，还可以建立到访时间预测模型对用户到访搜索地点的时间进行预测。

发明人通过研究发现：用户实际到访时间与最后一次搜索时间的时间间隔，与用户最后一次搜索时间相关，因此需要将最后一次搜索时间作为训练特征，对到访时间进行预测。

其中，在图3b以及图3c中示出了两种不同最后一次搜索时间下，用户实际到访时间的时延分布图。

其中，在获取所述最后一次搜索时间之后，可以根据实际需求修改所述最后一次搜索时间的精度，例如，精确到时、分或者秒等。

360、计算所述最后一次搜索时间与用户实际到达所述搜索地点的时间之间的差值作为训练目标值。

在本实施例中，所述用户实际到达所述搜索地点的时间通过用户的定位轨迹数据中的定位时间确定。

在一个具体例子中，所述训练样本中对搜索地点的最后一次搜索时间为2016.5.22，18:00，在获取该训练样本确定的目标用户的定位轨迹数据之后，基于该定位轨迹数据确定与用户最接近该搜索地点的定位点对应的定位时间为2016.5.22，21:00，进而可以确定该训练目标值为3小时。

370、使用所述最后一次搜索时间以及所述训练目标值对设定回归模型进行训练，并将训练后的所述回归模型作为到访时间预测模型。

其中，回归模型具体是一种对统计关系进行定量描述的一种数学模型，可以用来对到访时间进行预测。

可选的，所述回归模型可以为回归树(Regression tree)，也可以为其他类型的回归模型，本实施例对此并不进行限制。

本实施例的技术方案根据训练样本中包括的最后一次搜索时间以及用户实际到达所述搜索地点的时间训练生成到访时间预测模型，在建立用户到访预测模型确定用户是否到访搜索地点的同时，还建立了到访时间预测模型对用户的到访时间进行预测，进一步丰富完善了基于用户到访的预测结果。

第四实施例

图4为本发明第四实施例提供的一种用户到访预测方法的流程图，本实施例的方法可以由用户到访预测装置来执行，该装置可通过硬件和/或软件的方式实现，并一般可集成于完成用户到访预测功能的预测服务器中，与用于完成用户到访预测模型建立功能的建模服务器配合使用，其中，预测服务器和建模服务器可以为同一服务器或者属于同一服务器集群，也可以为不同的服务器，本实施例对此并不进行限制。本实施例的方法具体包括：

410、实时获取与目标用户的单次地图搜索对应的地图搜索数据。

在本实施例中，所述单次地图搜索具体是指用户查询设定搜索地点所在地图位置或者到达该搜索地点的抵达方式时所进行的地图搜索。

其中，所述地图搜索数据包括：搜索地点、搜索时间以及抵达方式关联信息。

所述抵达方式关联信息包括：抵达方式类型，和/或抵达方式切换信息；

其中，所述抵达方式类型包括：步行、公交或者驾车；

所述抵达方式切换信息包括：所述目标用户在进行所述搜索地点的抵达方式搜索时，前后两次切换的所述抵达方式类型。

420、根据所述搜索时间，选取设定监控时间段，并在所述监控时间段中，获取所述目标用户基于所述搜索地点的地图搜索数据作为预测样本。

发明人通过研究发现：用户对一个搜索地点进行的地图搜索发生的时间不同，用户实际到访时间与该时间的间隔也有所差异，在一个具体例子中，如果用户在早上对“凯德Mall”进行了地图搜索，则其有很大的可能性会在当天晚上到访该地点，如果用户在晚上对“凯德Mall”，则用户可能会在转天早上到访该地点，也有可能在一个很短的时间间隔内到访该地点。此外，用户如果在工作日或者休息日搜索一个地点，其可能的到访时间也会有所差异。

相应的，在本实施例中，可以以所述搜索时间为起点，选取一个固定的时间间隔作为监控时间段，也可以根据所述搜索时间的特点(典型的，早晨或者晚上，工作日或者休息日等)，选取一个可变的时间间隔作为监控时间段，本实施例对此并不进行限制。

在选取所述监控时间段后，在所述监控时间段中，获取所述目标用户基于所述搜索地点的地图搜索数据作为预测样本。

430、根据所述预测样本中的所述抵达方式关联信息，确定与所述预测样本对应的预测特征。

在本实施例中，与所述预测样本对应的预测特征包括下述至少一项：

由所述预测样本中的抵达方式类型的种类所确定的抵达方式搜索类型特征；

由所述预测样本中的不同抵达方式类型的搜索频次所确定的抵达方式搜索频次特征；以及

由所述预测样本中的所述抵达方式切换信息所确定的抵达方式转移特征。

440、将所述预测特征输入至预先训练的用户到访预测模型中，根据所述用户到访预测模型的输出结果，对所述目标用户是否到访所述搜索地点进行预测。

在本实施例中，所述单分类训练模型优选可以为单分类SVM模型，所述训练样本为与用户实际到访一个搜索地点的行为对应的地图搜索数据。

其中，如果所述用户到访预测模型的输出结果为1，说明基于该预测样本预测出用户即将到访该搜索地点；如果所述用户到访预测模型的输出结果为0，说明基于该预测样本预测出用户不会到访该搜索地点。

本发明实施例在实时获取目标用户的地图搜索数据后，根据该地图搜索数据以及预先训练生成的用户到访预测模型对目标用户对地图搜索数据中的搜索地点的到访情况进行预测，可以解决现有的计算和推断用户到访POI的方法由于没有考虑使用地图搜索数据而存在的数据源单一，在不同程度上都会存在使用覆盖率差的技术问题，优化了现有的用户到访预测技术，提高了用户到访预测的准确性。

更具体的，本发明的技术方案对线下精准推送与营销服务，以及大数据金融征信等均有帮助，具体如下：

(1)线下精准推送与营销：本发明实施例的技术方案可以实现线下精准营销和推广信息的推送服务。根据预测的用户线下到访的POI信息，可以分析出更加准确的用户画像信息，包括用户的消费水平、购物偏好以及饮食偏好等。在此基础上，可以根据用户画像进行精准的信息推送，提高线下零售等行业的到店率，并招揽新客户到访；

(2)大数据金融征信：本发明实施例的技术方案还可以应用到大数据金融征信中。将预测得到的用户的线下到访POI信息作为特征，可以判断用户的消费水平等信息，也可以了解用户线下活动的特征和规律，方便利用大数据模型判断用户的信用等级，是对已有线上数据良好的补充与提高。

第五实施例

图5是本发明第五实施例的一种用户到访预测方法的流程图。本实施例以上述实施例为基础进行优化，在本实施例中，还优选包括：如果预测结果为所述目标用户即将到访所述搜索地点，则获取所述预测样本中的最后一次搜索时间；将所述最后一次搜索时间输入至预先训练的到访时间预测模型中，并根据所述到访时间预测模型的输出结果，对所述目标用户到达所述搜索地点的到访时间进行预测。相应的，本实施例的方法具体包括：

510、实时获取与目标用户的单次地图搜索对应的地图搜索数据。

520、根据所述搜索时间，选取设定监控时间段，并在所述监控时间段中，获取所述目标用户基于所述搜索地点的地图搜索数据作为预测样本。

530、根据所述预测样本中的所述抵达方式关联信息，确定与所述预测样本对应的预测特征。

540、将所述预测特征输入至预先训练的用户到访预测模型中，根据所述用户到访预测模型的输出结果，对所述目标用户是否到访所述搜索地点进行预测。

550、判断预测结果是否为所述目标用户即将到访所述搜索地点：若是，执行560；否则，结束流程。

在本实施例中，在确定用户即将到访搜索地点之后，还可以进一步对用户的到访时间进行预测。

560、获取所述预测样本中的最后一次搜索时间。

570、将所述最后一次搜索时间输入至预先训练的到访时间预测模型中，并根据所述到访时间预测模型的输出结果，对所述目标用户到达所述搜索地点的到访时间进行预测。

其中，所述到访时间预测模型由所述训练样本中的最后一次搜索时间以及用户实际到达所述训练样本中的搜索地点的时间训练设定回归模型生成。

在本实施例中，所述设定回归模型优选可以为回归树。

本实施例的技术方案在根据用户的地图搜索数据确定了用户是否到访搜索地点的同时，还可以对用户的到访时间进行预测，进一步丰富完善了基于用户到访的预测结果。

第六实施例

图6是本发明第六实施例的一种用户到访预测模型建立装置的结构图。如图6所示，所述装置包括：备选样本生成模块61、训练样本选择模块62、训练特征确定模块63以及预测模型训练模块64，其中：

备选样本生成模块61，用于根据用户的地图搜索数据，生成备选样本，其中，所述地图搜索数据包括：搜索地点、搜索时间以及抵达方式关联信息，所述备选样本包括：在指定时间区间内，与同一用户的同一搜索地点对应的地图搜索数据。

训练样本选择模块62，用于根据用户的定位轨迹数据，选择满足用户实际到访条件的备选样本作为训练样本。

训练特征确定模块63，用于根据所述训练样本中的所述抵达方式关联信息，确定与所述训练样本对应的训练特征。

预测模型训练模块64，用于使用与所述训练样本对应的训练特征对设定单分类训练模型进行训练，并将训练后的所述单分类训练模型作为用户到访预测模型。

在上述各实施例的基础上，根据用户的定位轨迹数据，选择满足用户实际到访条件的备选样本作为训练样本可以包括：

依次获取一个所述备选样本作为当前处理样本；

根据所述当前处理样本中的所述指定时间区间，选取验证时间区间；

获取与所述当前处理样本对应的目标用户在所述验证时间区间内的定位轨迹数据；

如果获取的所述定位轨迹数据与所述当前处理样本中的所述搜索地点满足设定距离关系条件，则确定所述当前处理样本为训练样本。

在上述各实施例的基础上，所述抵达方式关联信息可以包括：抵达方式类型，和/或抵达方式切换信息；

其中，所述抵达方式类型可以包括：步行、公交或者驾车；

所述抵达方式切换信息可以包括：用户在进行所述搜索地点的抵达方式搜索时，前后两次切换的所述抵达方式类型。

在上述各实施例的基础上，与所述训练样本对应的训练特征可以包括下述至少一项：

由所述训练样本中的抵达方式类型的种类所确定的抵达方式搜索类型特征；

由所述训练样本中的不同抵达方式类型的搜索频次所确定的抵达方式搜索频次特征；以及

由所述训练样本中的所述抵达方式切换信息所确定的抵达方式转移特征。

在上述各实施例的基础上，还可以包括：

获取所述训练样本中的最后一次搜索时间；

计算所述最后一次搜索时间与用户实际到达所述搜索地点的时间之间的差值作为训练目标值，其中，所述用户实际到达所述搜索地点的时间通过用户的定位轨迹数据中的定位时间确定；

使用所述最后一次搜索时间以及所述训练目标值对设定回归模型进行训练，并将训练后的所述回归模型作为到访时间预测模型。

本发明实施例所提供的用户到访预测模型建立装置可用于执行本发明任意实施例提供的用户到访预测模型建立方法，具备相应的功能模块，实现相同的有益效果。

第七实施例

图7是本发明第七实施例的一种用户到访预测装置的结构图。如图7所示，所述装置包括：地图搜索数据获取模块71、预测样本获取模块72、预测特征确定模块73以及到访预测模块74，其中：

地图搜索数据获取模块71，用于实时获取与目标用户的单次地图搜索对应的地图搜索数据，其中，所述地图搜索数据包括：搜索地点、搜索时间以及抵达方式关联信息。

预测样本获取模块72，用于根据所述搜索时间，选取设定监控时间段，并在所述监控时间段中，获取所述目标用户基于所述搜索地点的地图搜索数据作为预测样本。

预测特征确定模块73，用于根据所述预测样本中的所述抵达方式关联信息，确定与所述预测样本对应的预测特征。

到访预测模块74，用于将所述预测特征输入至预先训练的用户到访预测模型中，根据所述用户到访预测模型的输出结果，对所述目标用户是否到访所述搜索地点进行预测。

本发明实施例在实时获取目标用户的地图搜索数据后，根据该地图搜索数据以及所述用户到访预测模型对目标用户对地图搜索数据中的搜索地点的到访情况进行预测，可以解决现有的计算和推断用户到访POI的方法由于没有考虑使用地图搜索数据而存在的数据源单一，在不同程度上都会存在使用覆盖率差的技术问题，优化了现有的用户到访预测技术，提高了用户到访预测的准确性。

其中，所述抵达方式类型包括：步行、公交或者驾车；

所述抵达方式切换信息可以包括：所述目标用户在进行所述搜索地点的抵达方式搜索时，前后两次切换的所述抵达方式类型。

在上述各实施例的基础上，与所述预测样本对应的预测特征可以包括下述至少一项：

在上述各实施例的基础上，还可以包括，到访时间预测模块，用于：

如果预测结果为所述目标用户即将到访所述搜索地点，则获取所述预测样本中的最后一次搜索时间；

将所述最后一次搜索时间输入至预先训练的到访时间预测模型中，并根据所述到访时间预测模型的输出结果，对所述目标用户到达所述搜索地点的到访时间进行预测；

显然，本领域技术人员应该明白，上述的本发明的各模块或各步骤可以通过如上所述的服务器实施。可选地，本发明实施例可以用计算机装置可执行的程序来实现，从而可以将它们存储在存储装置中由处理器来执行，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等；或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用户到访预测模型建立方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据用户的定位轨迹数据，选择满足用户实际到访条件的备选样本作为训练样本包括：

依次获取一个所述备选样本作为当前处理样本；

3.根据权利要求1所述的方法，其特征在于，所述抵达方式关联信息包括：抵达方式类型，和/或抵达方式切换信息；

其中，所述抵达方式类型包括：步行、公交或者驾车；

所述抵达方式切换信息包括：用户在进行所述搜索地点的抵达方式搜索时，前后两次切换的所述抵达方式类型。

4.根据权利要求3所述的方法，其特征在于，与所述训练样本对应的训练特征包括下述至少一项：

5.根据权利要求1-4任一项所述的方法，其特征在于，还包括：

获取所述训练样本中的最后一次搜索时间；

6.一种用户到访预测方法，其特征在于，包括：

7.根据权利要求6所述的方法，其特征在于，所述抵达方式关联信息包括：抵达方式类型，和/或抵达方式切换信息；

其中，所述抵达方式类型包括：步行、公交或者驾车；

8.根据权利要求7所述的方法，其特征在于，与所述预测样本对应的预测特征包括下述至少一项：

9.根据权利要求6-8任一项所述的方法，其特征在于，还包括：

10.一种用户到访预测模型建立装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述训练样本选择模块，用于：

依次获取一个所述备选样本作为当前处理样本；

12.根据权利要求10所述的装置，其特征在于，所述抵达方式关联信息包括：抵达方式类型，和/或抵达方式切换信息；

其中，所述抵达方式类型包括：步行、公交或者驾车；

13.根据权利要求12所述的装置，其特征在于，与所述训练样本对应的训练特征包括下述至少一项：

14.根据权利要求10-13任一项所述的装置，其特征在于，还包括，到访时间预测模型建立模块，用于：

获取所述训练样本中的最后一次搜索时间；

15.一种用户到访预测装置，其特征在于，包括：

16.根据权利要求15所述的装置，其特征在于，所述抵达方式关联信息包括：抵达方式类型，和/或抵达方式切换信息；

其中，所述抵达方式类型包括：步行、公交或者驾车；

17.根据权利要求16所述的装置，其特征在于，与所述预测样本对应的预测特征包括下述至少一项：

18.根据权利要求15-17任一项所述的装置，其特征在于，还包括，到访时间预测模块，用于：