CN111163423A

CN111163423A - 数据处理方法、装置、设备及存储介质

Info

Publication number: CN111163423A
Application number: CN201911359017.5A
Authority: CN
Inventors: 高华超; 胡博文; 李阳; 刘斌; 王恒玮; 崔玲龙; 陈博; 宋雨伦; 赵越
Original assignee: China United Network Communications Group Co Ltd; Unicom Big Data Co Ltd
Current assignee: China United Network Communications Group Co Ltd; Unicom Big Data Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-15
Anticipated expiration: 2039-12-25
Also published as: CN111163423B

Abstract

本申请公开了一种数据处理方法、装置、设备及存储介质，具体方法的实现方案包括：获取至少一个外来用户中的每一个外来用户在第一区域中的位置数据；根据所述位置数据，确定所述至少一个外来用户中的每一个外来用户在所述第一区域中的移动轨迹；根据所述移动轨迹，确定所述至少一个外来用户中的每一个外来用户的轨迹标签；根据所述至少一个外来用户中的每一个外来用户的轨迹标签，确定随机森林模型。利用外来用户在第一区域中的移动轨迹对应的轨迹标签来确定随机森林图谱，得到的随机森林图谱能够较准确地反映外来用户在第一区域中的出行类型，能够快速、确定外来用户在第一区域中的出行类型。

Description

数据处理方法、装置、设备及存储介质

技术领域

本申请涉及数据处理领域，尤其是一种数据处理方法、装置、设备及存储介质。

背景技术

随着人们生活水平的提高，越来越多的人开始选择外出旅游的消费方式。对于一些行政区市来说，为了充分协调当地的资源利用效率，需要统计当地的游客数量。

相关技术中，可以利用移动通信网络获取进入某一行政区市的外来用户的位置数据，并根据获取的位置数据确定这些外来用户是否为游客用户，具体地，通过人为确定判别规则，并根据判别规则以及移动通信网络获取的外来用户的位置数据来确定相应的外来用户是否为游客用户，例如根据外来用户的出行时间和出行时长确定外来用户是否为游客用户。

然而，人为确定的判别规则并不能真实反映游客用户的出行行为，导致最终的判别结构不够准确。

发明内容

本申请实施例提供一种数据处理方法、装置、设备及存储介质，用于解决现有数据处理方法无法准确判别外来用户的出行类型的问题。

第一方面，本申请提供了一种数据处理方法，包括：

获取至少一个外来用户中的每一个外来用户在第一区域中的位置数据；其中，所述外来用户包括职住地不是所述第一区域且在所述第一区域的停留时长超过第一预设时长的用户；

根据所述位置数据，确定所述至少一个外来用户中的每一个外来用户在所述第一区域中的移动轨迹；

根据所述移动轨迹，确定所述至少一个外来用户中的每一个外来用户的轨迹标签；

根据所述至少一个外来用户中的每一个外来用户的轨迹标签，确定随机森林模型，所述随机森林模型用于根据外来用户的轨迹标签确定外来用户的出行类型。

进一步地，所述位置数据包括若干子位置数据，所述获取至少一个外来用户中的每一个外来用户在第一区域中的位置数据，包括：

每隔预设时间间隔，获取一次所述至少一个外来用户中的每一个外来用户在所述第一区域中的子位置数据，得到每一个外来用户在所述第一区域中的子位置数据集；

根据所述子位置数据集，确定所述至少一个外来用户中的每一个外来用户在第一区域中的位置数据。

进一步地，所述根据所述位置数据，确定所述至少一个外来用户中的每一个外来用户在所述第一区域中的移动轨迹，包括：

根据所述每一个外来用户在所述第一区域中的位置数据，确定所述位置数据中的每个子位置数据在所述第一区域中对应的子位置；

根据所述每一个外来用户的每个子位置数据的获取时间顺序，将所述每一个外来用户的每个子位置数据在所述第一区域中对应的子位置进行关联，得到所述至少一个外来用户中的每一个外来用户在所述第一区域中的移动轨迹。

进一步地，所述外来用户包括旅游用户和商务用户，所述根据所述位置数据，确定所述至少一个外来用户中的每一个外来用户在所述第一区域中的移动轨迹之后，该方法还包括：

根据所述至少一个外来用户中的每一个外来用户在所述第一区域中的移动轨迹，确定所述至少一个外来用户中的旅游用户；

所述根据所述移动轨迹，确定所述至少一个外来用户中的每一个外来用户的轨迹标签，包括：

根据所述至少一个外来用户中的每一个旅游用户的移动轨迹，确定所述至少一个外来用户中的每一个旅游用户的轨迹标签；

所述根据所述至少一个外来用户中的每一个外来用户的轨迹标签，确定随机森林模型，包括：

根据所述至少一个外来用户中的每一个旅游用户的轨迹标签，确定随机森林模型。

进一步地，所述旅游用户包括第一旅游用户和第二旅游用户，所述根据所述至少一个外来用户中的每一个外来用户在所述第一区域中的移动轨迹，确定所述至少一个外来用户中的旅游用户，包括：

根据所述至少一个外来用户中的每一个外来用户在所述第一区域中的移动轨迹，确定所述移动轨迹中经过所述第一区域中至少一个旅游景点的第一移动轨迹，并将所述第一移动轨迹对应的外来用户确定为第一旅游用户；

根据所述第一旅游用户的第一移动轨迹，确定所述至少一个外来用户中的其它外来用户的移动轨迹中与所述第一移动轨迹相似度大于预设值的第二移动轨迹，并将所述第二移动轨迹对应的外来用户确定为第二旅游用户；

根据所述第一旅游用户和第二旅游用户，确定所述至少一个外来用户中的旅游用户。

进一步地，所述根据所述至少一个外来用户中的每一个外来用户的轨迹标签，确定随机森林模型之后，所述方法还包括：

响应于获取的外来用户在第一区域中的位置数据，确定所述外来用户在第一区域中的移动轨迹；

根据所述移动轨迹，确定所述外来用户的轨迹标签；

根据所述随机森林模型，确定所述轨迹标签对应的外来用户是否为旅游用户。

进一步地，所述轨迹标签包括移动总距离、停留点个数、最大停留时间、最小停留时间、平均停留时间、各停留点之间的平均距离和是否经过旅游景点中的至少一种。

第二方面，本申请提供一种数据处理装置，包括：

获取单元，用户获取至少一个外来用户中的每一个外来用户在第一区域中的位置数据；其中，所述外来用户包括职住地不是所述第一区域且在所述第一区域的停留时长超过第一预设时长的用户；

第一处理单元，用于根据所述位置数据，确定所述至少一个外来用户中的每一个外来用户在所述第一区域中的移动轨迹；

第二处理单元，用于根据所述移动轨迹，确定所述至少一个外来用户中的每一个外来用户的轨迹标签；

第三处理单元，用于根据所述至少一个外来用户中的每一个外来用户的轨迹标签，确定随机森林模型，所述随机森林模型用于根据外来用户的轨迹标签确定外来用户的出行类型。

进一步地，所述位置数据包括若干子位置数据，所述获取单元，包括：

第一获取子单元，用于每隔预设时间间隔，获取一次所述至少一个外来用户中的每一个外来用户在所述第一区域中的子位置数据，得到每一个外来用户在所述第一区域中的子位置数据集；

第一处理子单元，用于根据所述子位置数据集，确定所述至少一个外来用户中的每一个外来用户在第一区域中的位置数据。

进一步地，所述第一处理单元，包括：

第二处理子单元，用于根据所述每一个外来用户在所述第一区域中的位置数据，确定所述位置数据中的每个子位置数据在所述第一区域中对应的子位置；

第三处理子单元，用于根据所述每一个外来用户的每个子位置数据的获取时间顺序，将所述每一个外来用户的每个子位置数据在所述第一区域中对应的子位置进行关联，得到所述至少一个外来用户中的每一个外来用户在所述第一区域中的移动轨迹。

进一步地，所述外来用户包括旅游用户和商务用户，该装置还包括：

第四处理单元，用于在所述第一处理单元确定所述至少一个外来用户中的每一个外来用户在所述第一区域中的移动轨迹之后，根据所述至少一个外来用户中的每一个外来用户在所述第一区域中的移动轨迹，确定所述至少一个外来用户中的旅游用户；

所述第二处理单元，包括：

第四处理子单元，用于根据所述至少一个外来用户中的每一个旅游用户的移动轨迹，确定所述至少一个外来用户中的每一个旅游用户的轨迹标签；

所述第三处理单元，包括：

第五处理子单元，用于根据所述至少一个外来用户中的每一个旅游用户的轨迹标签，确定随机森林模型。

进一步地，所述旅游用户包括第一旅游用户和第二旅游用户，所述第四处理单元，包括：

第六处理子单元，用于根据所述至少一个外来用户中的每一个外来用户在所述第一区域中的移动轨迹，确定所述移动轨迹中经过所述第一区域中至少一个旅游景点的第一移动轨迹，并将所述第一移动轨迹对应的外来用户确定为第一旅游用户；

第七处理子单元，用于根据所述第一旅游用户的第一移动轨迹，确定所述至少一个外来用户中的其它外来用户的移动轨迹中与所述第一移动轨迹相似度大于预设值的第二移动轨迹，并将所述第二移动轨迹对应的外来用户确定为第二旅游用户；

第八处理子单元，用于根据所述第一旅游用户和第二旅游用户，确定所述至少一个外来用户中的旅游用户。

进一步地，所述装置还包括：

第五处理单元，用于响应于获取的外来用户在第一区域中的位置数据，确定所述外来用户在第一区域中的移动轨迹；

第六处理单元，用于根据所述移动轨迹，确定所述外来用户的轨迹标签；

第七处理单元，用于根据所述随机森林模型，确定所述轨迹标签对应的外来用户是否为旅游用户。

第三方面，本申请提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面中任一项所述的方法。

第四方面，本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面中任一项所述的方法。

上述申请中的一个实施例具有如下优点或有益效果：上述方法中，获取至少一个外来用户中的每一个外来用户在第一区域中的位置数据，其中，外来用户包括职住地不是第一区域且在第一区域的停留时长超过第一预设时长的用户；根据位置数据，确定至少一个外来用户中的每一个外来用户在第一区域中的移动轨迹；根据移动轨迹，确定至少一个外来用户中的每一个外来用户的轨迹标签；根据至少一个外来用户中的每一个外来用户的轨迹标签，确定随机森林模型，随机森林模型用于根据外来用户的轨迹标签确定外来用户的出行类型。通过利用外来用户在第一区域中的移动轨迹对应的轨迹标签来确定随机森林图谱，使得本实施例得到的随机森林图谱能够较准确地反映外来用户在第一区域中的出行类型；同时，利用本实施例得到的随机森林图谱，能够快速、确定外来用户在第一区域中的出行类型，能够提升外来用户出行类型统计的效率和准确度。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。

图1是本申请实施例提供的一种数据处理方法的流程示意图；

图2是本申请实施例提供的又一种数据处理方法的流程示意图；

图2a是本申请实施例提供的某区域的场景示意图；

图3是本申请实施例提供的一种数据处理装置的结构示意图；

图4是本申请实施例提供的又一种数据处理装置的结构示意图；

图5是本申请实施例提供的一种数据处理设备的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请的应用场景：随着人们生活水平的提高，越来越多的人开始选择外出旅游的消费方式。对于一些行政区市来说，为了充分协调当地的资源利用效率，需要统计当地的游客数量。

本申请提供的数据处理方法、装置、设备及存储介质，旨在解决上述技术问题。

图1为本申请实施例提供的一种数据处理方法的流程示意图，如图1所示，该方法包括：

步骤101、获取至少一个外来用户中的每一个外来用户在第一区域中的位置数据；其中，外来用户包括职住地不是第一区域且在第一区域的停留时长超过第一预设时长的用户。

在本实施例中，具体的，本实施例的执行主体为终端设备或者设置在终端设备上的服务器、或者控制器、或者其他可以执行本实施例的装置或设备，本实施例以执行主体为设置在终端设备上的应用软件为例进行说明。

本实施例的方法可以用于区分第一区域中的外来用户的出行类型，例如，可以用于区分第一区域中的外来用户是否属于旅游用户或者商务用户，其中，旅游用户包括到第一区域游玩的用户，商务用户包括到第一区域出差的用户。

本实施例中所说的用户包括网络用户，例如可以是第一区域中某运营商的通信网络的用户。其中，获取至少一个外来用户中的每一个外来用户在第一区域中的位置数据的方法可以是本领域内的常规方法，例如，可以通过第一区域中的通信网络的基站来获取外来用户在第一区域中的位置数据。对于进入第一区域中的某一用户来说，当其利用通信设备进行网页浏览、收发信息或者通话等业务时，通信设备首先需要与当地运营商的通信网络的基站建立数据连接，因此可以利用与通信设备建立数据连接的基站来确定该用户的位置数据，例如，可以将与通信设备建立数据连接的基站的位置数据确定为该用户的位置数据，或者可以利用基站与通信设备建立数据连接过程中产生的连接数据来确定用户的位置数据。

当利用基站与通信设备建立数据连接过程中产生的连接数据来确定用户的位置时，需要将用户与连接数据一一对应，因此，需要先确定用户对应的用户标识，再根据用户标识确定与用户对应的连接数据；确定用户标识的方法可以本领域内的常规方法，优选情况下，为了使用户标识更加准确地与用户相对应，本实施例将手机号以及与手机号对应的IMEI和IMSI共同确定为用户对应的用户标识。IMEI和IMSI是与用户所使用的终端设备相关的标识，将手机号以及与手机号对应的IMEI和IMSI共同确定为用户对应的用户标识，可以防止将具有多个手机卡的用户识别为一个用户。

第一区域的划分规则可以根据使用需求来进行设定，例如，第一区域可以是某省、某市、某区或者某县等。第一区域的外来用户包括职住地不是第一区域且在第一区域的停留时长超过第一预设时长的用户，其中，第一预设时长可以在较大的范围内变化，示例性地，第一预设时长可以是6小时；对于用户A来说，获取用户A的职住地的方法可以是本领域内的常规方法，优选情况下，本实施例可以采用如下方法来获取用户A的职住地：通过运营商通信网络的基站获取用户A的历史位置数据，若该用户的历史位置数据显示该用户在第二区域的停留时长超过第二预设时长，则将第二区域确定为用户A的职住地，其中，第二预设时长的取值范围可以在较大的范围内变化，例如，第二预设时长的取值范围可以大于等于3个月，示例性地，第二预设时长的取值可以是3个月、6个月或者1年等。

步骤102、根据位置数据，确定至少一个外来用户中的每一个外来用户在第一区域中的移动轨迹。

在本实施例中，具体地，根据每一个外来用户在第一区域中的位置数据，确定每一个外来用户在第一区域中的移动轨迹。当某一外来用户进入第一区域后，随着该外来用户在第一区域的移动，可以获取到该外来用户在第一区域中的多个位置数据，按照获取到这些位置数据的时间顺序，将这些位置数据对应的位置进行关联，即可得到该外来用户在第一区域中的移动轨迹。外来用户在第一区域中的移动轨迹，能够反映外来用户在第一区域中的出行类型，例如，移动轨迹经过至少一个景区并停留的外来用户可以确定为旅游用户。

步骤103、根据移动轨迹，确定至少一个外来用户中的每一个外来用户的轨迹标签。

在本实施例中，具体地，根据每一个外来用户在第一区域中的移动轨迹，确定每一个外来用户在第一区域中的轨迹标签。轨迹标签的种类可以在较宽的范围内选择，例如，轨迹标签可以是移动总距离、停留点个数、最大停留时间、最小停留时间、平均停留时间、各停留点之间的平均距离和是否经过旅游景点中的至少一种；根据移动轨迹确定轨迹标签的方法可以是本领域内的常规方法，本实施例在此不再赘述。外来用户的轨迹标签可以在一定程度上反映外来用户在第一区域的出行类型，例如，对于旅游用户来说，其移动总距离较长，停留点个数较多，最大停留时间、最小停留时间和平均停留时间之间的差异较小，各停留点之间的平均距离较小，且一般经过旅游景点等。

步骤104、根据至少一个外来用户中的每一个外来用户的轨迹标签，确定随机森林模型，随机森林模型用于根据外来用户的轨迹标签确定外来用户的出行类型。

在本实施例中，具体地，将每一个外来用户的每一个轨迹标签作为样本变量，利用决策树算法进行训练，得到随机森林分类模型，其中，利用决策树算法对样本变量进行训练的方法为领域内的常规方法，本实施例在此不再赘述。本实施例得到的随机森林模型，可用于根据外来用户的轨迹标签来判断相应外来用户的出行类型。

本实施例中，获取至少一个外来用户中的每一个外来用户在第一区域中的位置数据，其中，外来用户包括职住地不是第一区域且在第一区域的停留时长超过第一预设时长的用户；根据位置数据，确定至少一个外来用户中的每一个外来用户在第一区域中的移动轨迹；根据移动轨迹，确定至少一个外来用户中的每一个外来用户的轨迹标签；根据至少一个外来用户中的每一个外来用户的轨迹标签，确定随机森林模型，随机森林模型用于根据外来用户的轨迹标签确定外来用户的出行类型。通过利用外来用户在第一区域中的移动轨迹对应的轨迹标签来确定随机森林图谱，使得本实施例得到的随机森林图谱能够较准确地反映外来用户在第一区域中的出行类型；同时，利用本实施例得到的随机森林图谱，能够快速、确定外来用户在第一区域中的出行类型，能够提升外来用户出行类型统计的效率和准确度。

图2为本申请实施例提供的另一种数据处理方法的流程示意图，在图1的基础上，如图2所示，该方法包括：

步骤201、每隔预设时间间隔，获取一次至少一个外来用户中的每一个外来用户在第一区域中的子位置数据，得到每一个外来用户在第一区域中的子位置数据集；根据子位置数据集，确定至少一个外来用户中的每一个外来用户在第一区域中的位置数据。

本实施例中，具体地，由于外来用户在第一区域中的购物、游玩、就餐、工作等行为，外来用户在第一区域中的位置会随时间发生变化，因此，每隔预设时间间隔获取一次外来用户在第一区域中的子位置数据，使最终得到的外来用户在第一区域中的位置数据能更加准确地反映外来用户在第一区域中的位置变化情况。

其中，本实施例所说的预设时间间隔可以在较大的范围内变化，能保证获取到的子位置数据可以及时反映外来用户在第一区域中的位置变化情况的预设时间间隔均可用于本申请，示例性地，本实施例中的预设时间间隔可以是30s。

当外来用户进入第一区域后，外来用户可以通过终端设备与第一区域中的移动通信网络的基站建立数据连接，因此，在本实施例中，可以利用移动通信网络的基站收集外来用户在第一区域中的所有位置数据，然后再在基站收集的所有位置数据中进行步骤201所说的子位置数据的收集工作。由于在第一区域中，同一时间可以有多个外来用户同时通过终端设备连接同一基站，导致同一基站在同一时间可能会收集到多个外来用户的位置数据，因此，在获取某一外来用户的子位置数据时，首先需要识别该外来用户与其他外来用户，识别该外来用户的方法和原理与步骤101中记载的方法和原理相似或相同，本实施例在此不再赘述。

根据子位置数据集，确定至少一个外来用户中的每一个外来用户在第一区域中的位置数据，可以通过本领域内的常规方法实现，例如可以将每一个外来用户的子位置数据集中的所有子位置数据进行数据格式转换，得到数据格式相同的子位置数据，并将这些数据格式相同的所有子位置数据进行统一存储，得到每一个外来用户的位置数据。

示例性地，图2a是本申请实施例提供的区域A的场景示意图，在图2a中，区域A中包括酒店H、商场I、办公楼J和景点K四个位置点，以及与该四个位置点分别对应的基站1、基站2、基站3和基站4。当外来用户M进入区域A后，外来用户M可以在上述四个位置点之间随机移动，在外来用户M移动的过程中，上述四个基站可以采集外来用户M的所有位置数据。根据本实施例的方法，需要每隔预设时间间隔从上述四个基站采集到的外来用户M的所有位置数据中获取子位置数据；预设时间间隔应当能够保证获取到的子位置数据可以及时反映外来用户在区域A中的位置变化情况，例如，假如外来用户M从酒店H移动到商场I，再从商场I移动到景点K，若预设时间间隔过大，可能会导致仅获取到外来用户M在酒店H和景点K的子位置数据，从而遗漏外来用户M在商场I的子位置数据，可能会导致误认为外来用户M没有到达过商场I，如此，由采集到的子位置数据确定的外来用户M在区域A中的位置数据无法真实真实反映外来用户M在区域A中的移动轨迹。

步骤202、根据每一个外来用户在第一区域中的位置数据，确定位置数据中的每个子位置数据在第一区域中对应的子位置；根据每一个外来用户的每个子位置数据的获取时间顺序，将每一个外来用户的每个子位置数据在第一区域中对应的子位置进行关联，得到至少一个外来用户中的每一个外来用户在第一区域中的移动轨迹。

在本实施例中，具体地，确定子位置数据在第一区域中对应的位置的方法可以是本领域内常规的，本实施例在此不再赘述；每个子位置数据对应的子位置可以表征外来用户在第一区域中实际达到过的位置；每一个外来用户的每个子位置数据的获取时间顺序，相当于每一个外来用户到达对应的子位置的时间顺序，因此，根据每一个外来用户的每个子位置数据的获取时间顺序，将每一个外来用户的每个子位置数据在第一区域中对应的子位置进行关联，可以得到每一个外来用户在第一区域中的移动轨迹。

可选地，在本实施例中，还可以包括：根据每一个外来用户在第一区域中的位置数据，确定每一个外来用户第一区域中的停留时间；根据每一个外来用户在第一区域中的停留时间，确定每一个外来用户在第一区域中的停留时间是否超过一个夜晚；获取在第一区域中的停留时间超过一个夜晚的外来用户的位置数据，并用于进行步骤202所示的操作。将在第一区域中的停留时间超过一个夜晚的外来用户的位置数据用于进行步骤202所示的操作，可以排除仅仅是途经第一区域的外来用户，使本实施例得到的随机森林模型能更加准确地模拟外来用户在第一区域中的出行类型。

步骤203、根据至少一个外来用户中的每一个外来用户在第一区域中的移动轨迹，确定至少一个外来用户中的旅游用户。

在本实施例中，具体地，第一区域中的外来用户包括旅游用户和商务用户，在获取每一个外来用户在第一区域中的移动轨迹之后，可以根据每一个外来用户在第一区域中的移动轨迹，确定第一区域中的外来用户中的旅游用户。

优选地，在本实施例中，旅游用户包括第一旅游用户和第二旅游用户，根据至少一个外来用户中的每一个外来用户在第一区域中的移动轨迹，确定至少一个外来用户中的旅游用户，包括：根据至少一个外来用户中的每一个外来用户在第一区域中的移动轨迹，确定移动轨迹中经过第一区域中至少一个旅游景点的第一移动轨迹，并将第一移动轨迹对应的外来用户确定为第一旅游用户；根据第一旅游用户的第一移动轨迹，确定至少一个外来用户中的其它外来用户的移动轨迹中与第一移动轨迹相似度大于预设值的第二移动轨迹，并将第二移动轨迹对应的外来用户确定为第二旅游用户；根据第一旅游用户和第二旅游用户，确定至少一个外来用户中的旅游用户。

在上述根据移动轨迹确定旅游用户的方法中，第一旅游用户是指移动轨迹经过第一区域中至少一个旅游景点的外来用户，由于本实施例中外来用户的移动轨迹是根据获取到的子位置数据来确定的，因此，也可以认为，第一旅游用户是指根据获取到的子位置数据被判定为到达过第一区域中至少一个旅游景点的外来用户，然而，本实施例中的子位置数据是从第一区域中的各基站采集的所有位置数据中获取的，因此，根据获取到的子位置数据被判定为到达过第一区域中至少一个旅游景点的外来用户，必然是通过终端设备连接过景点基站的外来用户，也就是说，第一旅游用户是通过终端设备连接过景点基站的外来用户。然而，在实际应用过程中，有些景点的基站覆盖不够全面，或者，有的景点部分区域在非景点基站的覆盖范围内，或者，有的景点基站无法将采集到的用户位置数据上传到服务器，上述的这些情况都可能导致景点基站无法采集到所有到达过相应景点的外来用户的位置数据，最终导致本实施例根据获取到的子位置数据判定的到达过景点的外来用户少于实际到达过景点的外来用户，也就是说上述第一旅游用户并不能完全代表第一区域内的旅游用户。为了克服上述第一旅游用户不能完全代表第一区域内的旅游用户的缺陷，本实施例将其它外来用户(非第一旅游用户的外来用户)的移动轨迹中与第一移动轨迹相似度大于预设值的第二移动轨迹确定为第二旅游用户，并将第一旅游用户和第二旅游用户共同作为第一区域中的旅游用户；其中，上述相似度的预设值可以在较大的范围内变化，示例性地，本实施例中预设值的取值可以为0.7，也就是说，在本实施例中，与第一移动轨迹的相似度大于0.7的移动轨迹对应的其它外来用户为第二旅游用户；其中，确定第一移动轨迹与其他移动轨迹的相似度的方法可以是本领域内的常规方法，例如，可以根据移动轨迹的总距离、或者移动轨迹中涉及到的位置点等来确定第一移动轨迹与其他移动轨迹的相似度。

将上述第一旅游用户和第二旅游用户共同确定为本实施例中的旅游用户，使本实施例确定的旅游用户能够更加真实地反映第一区域中旅游用户的真实情况，使本实施例得到的随机森林模型更加准确。

步骤204、根据至少一个外来用户中的每一个旅游用户的移动轨迹，确定至少一个外来用户中的每一个旅游用户的轨迹标签；根据至少一个外来用户中的每一个旅游用户的轨迹标签，确定随机森林模型。

在本实施例中，具体地，每一个旅游用户的轨迹标签包括移动总距离、停留点个数、最大停留时间、最小停留时间、平均停留时间、各停留点之间的平均距离和是否经过旅游景点中的至少一种。

本实施例根据每一个旅游用户的轨迹标签，确定随机森林模型的方法包括：以旅游用户中的至少一部分作为训练集，训练集中的每一个旅游用户作为训练样本，旅游用户对应的轨迹标签作为训练特征，从训练集中有放回地随机抽取训练样本，选取n(通常取n＝10)个训练样本，利用决策树算法对n各训练样本进行训练，获得n个决策树分类模型，将n个决策树分类模型进行组合得到组合分类模型，及随机森林模型，其中，每一棵决策树均扩展节点直到所有叶子都是纯的或者直到所有叶子包含少于min-samples-split样本，衡量分裂质量的方法选择基尼系数。

可选地，本实施例中，根据至少一个外来用户中的每一个外来用户的轨迹标签，确定随机森林模型之后，还可以包括：响应于获取的外来用户在第一区域中的位置数据，确定外来用户在第一区域中的移动轨迹；根据移动轨迹，确定外来用户的轨迹标签；根据随机森林模型，确定轨迹标签对应的外来用户是否为旅游用户。可以将本实施例得到的随机森林模型用于第一区域中外来用户出行类型的判别。

本实施例中，每隔预设时间间隔，获取一次至少一个外来用户中的每一个外来用户在第一区域中的子位置数据，得到每一个外来用户在第一区域中的子位置数据集；根据子位置数据集，确定至少一个外来用户中的每一个外来用户在第一区域中的位置数据；根据每一个外来用户在第一区域中的位置数据，确定位置数据中的每个子位置数据在第一区域中对应的子位置；根据每一个外来用户的每个子位置数据的获取时间顺序，将每一个外来用户的每个子位置数据在第一区域中对应的子位置进行关联，得到至少一个外来用户中的每一个外来用户在第一区域中的移动轨迹；根据至少一个外来用户中的每一个外来用户在第一区域中的移动轨迹，确定至少一个外来用户中的旅游用户；根据至少一个外来用户中的每一个旅游用户的移动轨迹，确定至少一个外来用户中的每一个旅游用户的轨迹标签；根据至少一个外来用户中的每一个旅游用户的轨迹标签，确定随机森林模型。本实施例的方法中，每隔预设时间间隔获取一次外来用户在第一区域中的子位置数据，使最终得到的外来用户在第一区域中的位置数据能更加准确地反映外来用户在第一区域中的位置变化情况；将上述第一旅游用户和第二旅游用户共同确定为本实施例中的旅游用户，使本实施例确定的旅游用户能够更加真实地反映第一区域中旅游用户的真实情况，使本实施例得到的随机森林模型更加准确；利用本实施例得到的随机森林模型，能够快速识别出外来用户中的旅游用户，而且识别结果的准确度高。

图3为本申请实施例提供的一种数据处理装置的结构示意图，如图3所示，该装置包括：

获取单元1，用户获取至少一个外来用户中的每一个外来用户在第一区域中的位置数据；其中，外来用户包括职住地不是第一区域且在第一区域的停留时长超过第一预设时长的用户；

第一处理单元2，用于根据位置数据，确定至少一个外来用户中的每一个外来用户在第一区域中的移动轨迹；

第二处理单元3，用于根据移动轨迹，确定至少一个外来用户中的每一个外来用户的轨迹标签；

第三处理单元4，用于根据至少一个外来用户中的每一个外来用户的轨迹标签，确定随机森林模型，随机森林模型用于根据外来用户的轨迹标签确定外来用户的出行类型。

图4为本申请实施例提供的另一种数据处理装置的结构示意图，在图3的基础上，如图4所示，

位置数据包括若干子位置数据，获取单元1，包括：

第一获取子单元11，用于每隔预设时间间隔，获取一次至少一个外来用户中的每一个外来用户在第一区域中的子位置数据，得到每一个外来用户在第一区域中的子位置数据集；

第一处理子单元12，用于根据子位置数据集，确定至少一个外来用户中的每一个外来用户在第一区域中的位置数据。

第一处理单元2，包括：

第二处理子单元21，用于根据每一个外来用户在第一区域中的位置数据，确定位置数据中的每个子位置数据在第一区域中对应的子位置；

第三处理子单元22，用于根据每一个外来用户的每个子位置数据的获取时间顺序，将每一个外来用户的每个子位置数据在第一区域中对应的子位置进行关联，得到至少一个外来用户中的每一个外来用户在第一区域中的移动轨迹。

外来用户包括旅游用户和商务用户，该装置还包括：

第四处理单元5，用于在第一处理单元2确定至少一个外来用户中的每一个外来用户在第一区域中的移动轨迹之后，根据至少一个外来用户中的每一个外来用户在第一区域中的移动轨迹，确定至少一个外来用户中的旅游用户；

第二处理单元3，包括：

第四处理子单元31，用于根据至少一个外来用户中的每一个旅游用户的移动轨迹，确定至少一个外来用户中的每一个旅游用户的轨迹标签；

第三处理单元4，包括：

第五处理子单元41，用于根据至少一个外来用户中的每一个旅游用户的轨迹标签，确定随机森林模型。

旅游用户包括第一旅游用户和第二旅游用户，第四处理单元5，包括：

第六处理子单元51，用于根据至少一个外来用户中的每一个外来用户在第一区域中的移动轨迹，确定移动轨迹中经过第一区域中至少一个旅游景点的第一移动轨迹，并将第一移动轨迹对应的外来用户确定为第一旅游用户；

第七处理子单元52，用于根据第一旅游用户的第一移动轨迹，确定至少一个外来用户中的其它外来用户的移动轨迹中与第一移动轨迹相似度大于预设值的第二移动轨迹，并将第二移动轨迹对应的外来用户确定为第二旅游用户；

第八处理子单元53，用于根据第一旅游用户和第二旅游用户，确定至少一个外来用户中的旅游用户。

该装置还包括：

第五处理单元6，用于响应于获取的外来用户在第一区域中的位置数据，确定外来用户在第一区域中的移动轨迹；

第六处理单元7，用于根据移动轨迹，确定外来用户的轨迹标签；

第七处理单元8，用于根据随机森林模型，确定轨迹标签对应的外来用户是否为旅游用户。

其中，轨迹标签包括移动总距离、停留点个数、最大停留时间、最小停留时间、平均停留时间、各停留点之间的平均距离和是否经过旅游景点中的至少一种。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的数据处理的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的数据处理的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的数据处理的方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的数据处理的方法对应的程序指令/模块(例如，附图3所示的获取单元1、第一处理单元2和第二处理单元3)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的数据处理的方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据数据处理的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至数据处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

数据处理的方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与数据处理的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

本实施例提供的数据处理系统的原理和有益效果，参考图1-图2中的数据处理方法的原理和有益效果，不再赘述。

本申请实施例还提供了一种数据处理的方法，该方法包括：接收图像搜索指令，基于图像搜索指令中的待搜索图像，确定与待搜索图像匹配的图像组并显示；其中，待搜索图像包括至少一个第一图像主体，第一图像主体可以是以下任意一种或者几种：文字、图形和电子图像。

本实施例提供的数据处理方法的原理和有益效果，参考图1-图2中的数据处理方法的原理和有益效果，不再赘述。

在本申请实施例中，上述各实施例之间可以相互参考和借鉴，相同或相似的步骤以及名词均不再一一赘述。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

根据所述至少一个外来用户中的每一个外来用户的轨迹标签，确定随机森林模型，其中，所述随机森林模型用于根据外来用户的轨迹标签确定外来用户的出行类型。

2.根据权利要求1所述的方法，其特征在于，所述位置数据包括若干子位置数据，所述获取至少一个外来用户中的每一个外来用户在第一区域中的位置数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述位置数据，确定所述至少一个外来用户中的每一个外来用户在所述第一区域中的移动轨迹，包括：

4.根据权利要求1所述的方法，其特征在于，所述外来用户包括旅游用户和商务用户，该方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述旅游用户包括第一旅游用户和第二旅游用户，所述根据所述至少一个外来用户中的每一个外来用户在所述第一区域中的移动轨迹，确定所述至少一个外来用户中的旅游用户，包括：

6.根据权利要求1-5中任意一项所述的方法，其特征在于，所述根据所述至少一个外来用户中的每一个外来用户的轨迹标签，确定随机森林模型之后，所述方法还包括：

根据所述移动轨迹，确定所述外来用户的轨迹标签；

7.根据权利要求1-5中任意一项所述的方法，其特征在于，所述轨迹标签包括移动总距离、停留点个数、最大停留时间、最小停留时间、平均停留时间、各停留点之间的平均距离和是否经过旅游景点中的至少一种。

8.一种数据处理装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述位置数据包括若干子位置数据，所述获取单元，包括：

10.根据权利要求9所述的装置，其特征在于，所述第一处理单元，包括：

11.根据权利要求8所述的装置，其特征在于，所述外来用户包括旅游用户和商务用户，所述根据所述位置数据，确定所述至少一个外来用户中的每一个外来用户在所述第一区域中的移动轨迹之后，该装置还包括：

所述第二处理单元，包括：

所述第三处理单元，包括：

12.根据权利要求11所述的装置，其特征在于，所述旅游用户包括第一旅游用户和第二旅游用户，所述第四处理单元，包括：

13.根据权利要求8-12中任意一项所述的装置，其特征在于，所述装置还包括：

14.根据权利要求8-12中任意一项所述的装置，其特征在于，所述轨迹标签包括移动总距离、停留点个数、最大停留时间、最小停留时间、平均停留时间、各停留点之间的平均距离和是否经过旅游景点中的至少一种。

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。