CN111898322B

CN111898322B - 一种数据处理方法及相关设备

Info

Publication number: CN111898322B
Application number: CN202010801173.9A
Authority: CN
Inventors: 杨帆
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2024-03-01
Anticipated expiration: 2040-08-11
Also published as: CN111898322A

Abstract

本申请提供了一种数据处理方法及相关设备，应用于地图领域，通过数据计算的方法预估商场的客流量，提高预估的准确度。该方法包括：确定N个小区中每个小区的画像特征；获取第一区域对应的业态特征；确定所述N个小区中每个小区与所述第一区域的距离数据；通过第一目标小区的画像特征、所述第一目标小区与所述第一区域的距离数据以及所述第一区域对应的业态特征构建K个回归决策树，所述第一目标小区为所述N个小区中的任意一个小区；将所述K个回归决策树中所有回归决策树对应的预测值之和确定为所述第一目标小区向所述第一区域输入的客流量；根据所述第一目标小区向所述第一区域输送的客流量计算所述第一区域总的客流量。

Description

一种数据处理方法及相关设备

技术领域

本申请涉及通信领域，尤其涉及一种数据处理方法及相关设备。

背景技术

商场到访客流建模预测是商业地理学领域的传统问题，根据Waldo Tobler提出的地理学第一定律(Tobler's First Law)：空间上越相近的事物相互间关联越为紧密，而在地理学中，常使用由物理学中万有引力定律借鉴而来的重力模型来表征地理事物的相关性，例如从区域i被吸引至区域j的人数。Huff提出了著名的Huff模型，Huff模型针对零售商场的到访客流建模给出了基于重力模型的解释：消费者由地点i去商场j购物的影响因素包括商场自身的规模与地点到商场间的距离，商场自身的规模是正向影响因素，规模越大吸引的消费者数量越多，而地点到商场的距离是负向影响因素，距离越远吸引的消费者数量越少。Huff模型提出后，涌现了大量基于Huff模型及其变种的零售商场到访客流研究，例如Okoruwa等基于泊松重力模型估计商场的市场份额，Lee等基于社会经济调查数据对商场到访行为进行了建模，Piovani等基于路网距离对伦敦的商场到访量进行精细估计。

然而以上研究均受限于研究数据与研究方法，主要缺陷是在数据上的局限性以及特征上的局限性：关于数据上的局限性，在数据收集上依赖于问卷发放、社会经济统计数据等，基于问卷发放的数据收集存在耗费人力物力、覆盖面低的缺点，基于社会经济统计数据的数据收集存在数据粒度过粗的缺点；关于特征上的局限性：受限于以上提到的数据局限性，传统方法在特征设计上也存在一些局限，例如Huff模型只利用商场的面积一个指标指代商场的吸引力、只使用人口一个指标指代客流来源地的规模，后续的研究中使用的特征也较为单一。

由于数据上的局限性以及特征上的局限性，导致在通过现有的方法对商场的客流量进行预估时，往往得到的预估客流量并不准确。

发明内容

本申请提供了一种数据处理方法及相关设备，可以解决现有的数据上的局限性以及特征上的局限性，使得预估的客流量更加准确。

本申请第一方面提供了一种数据处理方法，包括：

确定N个小区中每个小区的画像特征，所述N个小区为目标区域中的小区，N为大于或等于1的正整数；

获取第一区域对应的业态特征，所述第一区域与所述目标区域相关联；

确定所述N个小区中每个小区与所述第一区域的距离数据；

通过第一目标小区的画像特征、所述第一目标小区与所述第一区域的距离数据以及所述第一区域对应的业态特征构建K个回归决策树，其中，所述第一目标小区为所述N个小区中的任意一个小区，所述K个回归决策树与机器学习回归模型相对应；

将所述K个回归决策树中所有回归决策树对应的预测值之和确定为所述第一目标小区向所述第一区域输入的客流量；

根据所述第一目标小区向所述第一区域输送的客流量计算所述第一区域总的客流量。

可选地，所述方法还包括：

获取预设时间段内所述目标区域中到访第二区域的目标用户列表；

确定第二目标小区与所述第二区域的到访关系数据，所述第二目标小区为目标用户对应的居住小区，所述目标用户为所述目标用户列表中的任意一个用户；

提取所述第二目标小区的画像特征；

确定所述第二区域对应的业态特征；

确定所述第二目标小区与所述第二区域之间的目标距离；

对所述第二目标小区与所述第二区域的到访关系数据、所述第二目标小区的画像数据、所述第二区域对应的业态特征以及所述目标距离进行训练，得到所述机器学习回归模型。

可选地，所述获取预设时间段内所述目标区域内到访所述第二区域的目标用户列表包括：

获取所述预设时间段内的定位轨迹数据处于所述第二区域的第一用户列表；

剔除所述第一用户列表中符合预设条件的用户，得到所述目标用户列表，其中，所述预设条件为在所述第二区域居住、工作和/或在目标时段处于所述第二区域。

可选地，所述获取第一区域对应的业态特征包括：

统计所述第一区域内各类别商业类信息点的数量；

将所述第一区域内各类别商业类信息点的数量确定为所述第一区域对应的业态特征。

可选地，所述确定所述N个小区中每个小区的画像特征包括：

确定所述N个小区中每个小区内用户的用户画像；

根据所述N个小区中每个小区内用户的用户画像确定所述N个小区中每个小区的画像特征。

本申请第二方面提供了一种数据处理装置，包括：

第一确定单元，用于确定N个小区中每个小区的画像特征，所述N个小区为目标区域中的小区，N为大于或等于1的正整数；

获取单元，用于获取第一区域对应的业态特征，所述第一区域与所述目标区域相关联；

第二确定单元，用于确定所述N个小区中每个小区与所述第一区域的距离数据；

构建单元，用于通过第一目标小区的画像特征、所述第一目标小区与所述第一区域的距离数据以及所述第一区域对应的业态特征构建K个回归决策树，其中，所述第一目标小区为所述N个小区中的任意一个小区，所述K个回归决策树与机器学习回归模型相对应；

第三确定单元，用于将所述K个回归决策树中所有回归决策树对应的预测值之和确定为所述第一目标小区向所述第一区域输入的客流量；

计算单元，用于根据所述第一目标小区向所述第一区域输送的客流量计算所述第一区域总的客流量。

可选地，所述装置还包括：

模型训练单元，所述模型训练单元用于：

提取所述第二目标小区的画像特征；

确定所述第二区域对应的业态特征；

确定所述第二目标小区与所述第二区域之间的目标距离；

可选地，所述模型训练单元获取预设时间段内所述目标区域内到访所述第二区域的目标用户列表包括：

可选地，所述获取单元具体用于：

统计所述第一区域内各类别商业类信息点的数量；

可选地，所述第一确定单元具体用于：

确定所述N个小区中每个小区内用户的用户画像；

本申请第三方面提供了一种计算机装置，其包括至少一个连接的处理器、存储器和收发器，其中，所述存储器用于存储程序代码，所述程序代码由所述处理器加载并执行以实现上述所述的数据处理方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述所述的数据处理方法的步骤。

综上所述，可以看出，本申请提供的实施例中，数据处理装置在对某个区域的客流量进行预估时，综合考虑了研究范围内小区的画像特征、小区与该区域的距离数据以及该区域中的业态特征，可以解决现有的数据上的局限性以及特征上的局限性，使得预估的客流量更加准确。

附图说明

图1为本申请实施例提供的数据处理方法的技术流程框架图；

图2为本申请实施例提供的数据处理方法的流程示意图；

图3为本申请实施例提供的机器学习归回模型的训练流程示意图；

图4为本申请实施例提供的数据处理装置的虚拟结构示意图；

图5为本申请实施例提供的终端设备的硬件结构示意图；

图6为本申请实施例提供的服务器的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的信息以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征向量可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。

大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

请参阅图1，图1为本申请实施例提供的数据处理方法的技术流程框架图，包括：

输入数据101、到访识别102、特征构建103、模型学习104以及业务应用105；

其中，输入数据101包括用户定位轨迹数据、商场兴趣面(Area of Interest，AOI)数据、商场信息点(Point of Information，POI)数据、用户画像数据、用户职住地数据以及小区AOI数据，其中，AOI数据为地图数据中的区域状的地理实体，例如小区、学校、公园、医院等的面状轮廓；下面对输入数据101中的各个数据分别进行说明(可以理解的是，为了保护用户的隐私，此处所说的用户定位轨迹数据、用户职住地坐标数据以及用户画像数据均为脱敏后的数据，数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下，在不违反系统规则条件下，对真实数据进行改造并提供测试使用，如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏)：

1、用户定位轨迹数据，该用户定位轨迹数据存储用户在某个时间段内的定位轨迹，每条定位记录均以一个四元组表示：(UserID，Time，Longitude，Latitude)。其中，UserID代表用户的脱敏后的唯一标识符，Time代表该条定位记录的定位时间戳，也即发起定位的时刻，例如2020年7月20日10：25，Longitude代表定位坐标点的经度，Latitude代表定位坐标点的纬度；

2、用户职住地坐标数据：该用户职住地坐标数据存储用户在某个时间段内识别出的职住地，每位用户的信息以一个三元组表示：(UserID，WorkPoint，HomePoint)。其中，UserID代表与上文对应的用户的脱敏后的唯一标识符，WorkPoint代表用户的工作地，以(Longitude，Latitude)的二元组形式表示，分别代表其工作地坐标的经纬度，HomePoint代表用户的居住地，存储格式同工作地。用户职住地一般基于用户定位轨迹数据通过特定的算法挖掘得到，此处对特定的算法不做限定，只要能通过用户定位轨迹数据挖掘得到用户职住地即可；

3、用户画像数据：该用户画像数据存储各用户的基础信息画像，每位用户的信息以一个二元组表示：(UserID，Profile)，其中UserID代表与上文对应的用户脱敏后唯一标识符，Profile则是一个可以包括但不限于年龄、性别等画像信息的多元组，表征用户的社会经济与人口统计学属性；

4、AOI数据：该AOI数据存储各个AOI的基本信息，每一项AOI数据均以如下的三元组来表示：(AOIID，Category，Boundary)，其中，AOIID为AOI的唯一标识符，Category标识AOI的类别(如写字楼、居住小区、商场等)，当类别为商场时，AOIID可作为商场的唯一标志符(MallID)，当类别为居住小区时AOIID可作为居住小区的唯一标识符(RegionID)，字段Boundary为轮廓坐标信息，以GeoJSON形式存储；

5、POI数据：本数据存储各POI的基本信息，每项数据均以如下的四元组表示：(POIID，Category，Longitude，Latitude)，其中POIID为POI的唯一标志符，Category标识POI的类别，且在技术方案中可以根据类别进行重分类，进一步映射为方案所需的分类体系，Longitude代表POI的坐标经度，Latitude代表POI的坐标纬度；

通过用户定位轨迹数据以及商场AOI数据可以确定到访商场的用户列表；

通过用户职住地数据以及小区AOI数据可以确定用户居住小区；

在特征构建103阶段通过商场POI数据确定商场业态特征，通过用户画像数据确定小区画像特征，通过到访商场的用户列表以及用户居住小区确定空间距离特征，也即确定到访商场的用户居住的小区与商场之间的距离；

在模型学习104阶段通过对商场业态特征、空间距离特征以及小区画像特征进行模型训练，得到机器学习模型，具体的可以将商场业态特征、空间距离特征以及小区画像特征分成三份，训练集、验证集与测试集，基于训练集训练机器学习模型、基于验证集选择最佳机器学习模型超参数，基于测试集验证的模型真实效果；

在业务应用105阶段，可以将该机器学习模型应用至商场选址系统，通过该机器学习模型选择某个区域内最适合商场的选址，也即商场处于那个位置的客流量最大，也可以将该机器学习模型对固定商场位置的商场进行业态优化，通过机器学习模型对商场的业态特征进行最优配置。

下面从数据处理装置的角度对数据处理方法的进行说明，该数据处理装置可以为服务器，也可以为服务器中的服务单元。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

请参阅图2，图2为本申请实施例提供的数据处理方法的流程示意图，包括：

201、确定N个小区中每个小区的画像特征。

本实施例中，数据处理装置可以首先确定目标区域中的N个小区，其中，N为大于或等于1的正整数，该目标区域为待研究的区域，例如可以以城市为空间研究单元，也可以为一个城市中的一个或多个分区为空间研究单元，例如目标区域可以为深圳市的龙岗区，其中，N个小区为该目标区域中包含的居住小区，例如龙岗区中的居住小区，具体不做限定。之后数据处理装置可以确定N个小区中每个小区的画像特征。具体的，数据处理装置可以确定N个小区中每个小区内用户的用户画像，并根据N个小区中每个小区内用户的用户画像确定N个小区中每个小区的画像特征。数据处理装置可以获取N个小区对应的AOI轮廓数据、目标区域中全量用户职住地坐标数据以及全量用户画像数据，之后根据N个小区对应的AOI轮廓数据以及全量用户职住地坐标数据即可以确定N个小区中每个小区中的居住用户，再根据每个小区中居住用户的全量用户画像数据即可以确定每个小区的画像特征。也就是说，对于目标区域内的每个居住小区R，提取小区内居住人群包括但不限于性别、年龄等信息特征项，并汇总得到统计结果，以如下三元组形式表示：(RegionID，Profile，Num)。例如数据项(RegionID＝12，Profile＝[Sex＝Female]，186)代表RegionID＝12的小区中，性别为女性的用户合计有186人。数据项(RegionID＝7，Profile＝[10<＝Age<20]，36)则代表RegionID＝7的小区中，年龄介于10岁到20岁(不含)的用户合计有36人，以小区内各画像维度以及各取值的人数作为对应的居住小区画像特征。

可以理解的是，画像维度为性别为女性的用户以及年龄介于10岁到20岁(不含)的用户，画像维度对应的取值的人数仅为举例说明，并不代表对其的限定，该小区的画像维度当然也还可以有其他的维度，例如可以为小区常驻人口、小区内男性人口、小区内女性人口以及小区内已婚或未婚的人口等等，可以根据实际情况选择不同的画像维度。

202、获取第一区域对应的业态特征。

本实施例中，数据处理装置可以获取第一区域对应的业态特征，具体的，可以获取第一区域对应的AOI数据以及POI数据，并根据第一区域的AOI数据以及POI数据确定第一区域对应的业态特征，具体的，数据处理装置可以统计第一区域内各类别商业类信息点的数量；将第一区域内各类别商业类信息点的数量确定为第一区域对应的业态特征。下面以第一区域为商场为例对业态特征进行说明，当然该第一区域也还可以为其他的类别，例如写字楼或者居住小区，具体不做限定。对于商场M(也即第一区域)，通过空间关联，提取位于商场M的AOI轮廓内部的所有商业类POI，并统计各类POI的数量及占比；本申请中提出的商场业态划分方案包括但不限于是：将商业类POI划分为餐饮、便利店、超市、数码、体育、服饰、图书音像、母婴、珠宝化妆品、钟表、烟酒、美容美发、KTV、咖啡厅、电影院、剧场以及运动健身等17个类别，统计各个商场内各类别商业类POI的数量作为商场的业态特征。可以理解的是，该第一区域与该目标区域相关联，也就是说，该第一区域可以为目标区域内的某个特定区域，也可以为目标区域外的某个特定区域，当然该第一区域也还可以是N个小区中的某个小区，具体不做限定，当该第一区域为N个小区中的某个小区时，计算的即为N个小区中除该小区之外的其他小区向该小区输送的客流量。

203、确定N个小区中每个小区与第一区域的距离数据。

本实施例中，数据处理装置可以获取N个小区中每个小区的AOI数据以及第一区域的AOI数据，之后根据该每个小区的AOI数据以及第一区域的AOI数据确定N个小区中每个小区与第一区域的距离数据，该AOI数据均以如下的三元组来表示：(AOIID，Category，Boundary)，其中，字段Boundary为轮廓坐标信息，以GeoJSON形式存储，因此，此处可以通过每个小区的轮廓坐标信息以及第一区域的轮廓坐标信息来计算每个小区与第一区域之间的距离。

需要说明的是，通过步骤201可以确定N个小区中每个小区的画像特征，通过步骤202可以获取第一区域对应的业态特征，通过步骤203可以确定N个小区中每个小区与第一区域的距离数据，然而，这3个步骤之间并没有先后执行顺序的限制，可以先执行步骤201，也可以先执行步骤202，也可以先执行步骤203，或者同时执行，具体不做限定。

204、通过第一目标小区的画像特征、第一目标小区与第一区域的距离数据以及第一区域对应的业态特征构建K个回归决策树。

本实施例中，数据处理装置可以通过第一目标小区的画像特征、第一目标小区与第一区域的距离数据以及第一区域对应的业态特征构建K个回归决策树，其中，该第一目标小区为N个小区中的任意一个小区，其中，K个回归决策树与机器学习回归模型相对应。也就是说，可以提前训练一个机器学习回归模型来预测N个小区中每个小区向第一区输送的客流量，客流量是指某个时段(例如单天、单周等)以购物为主要目的到访商场的人的数量。

需要说明的是，机器学习回归模型不限定于某类特定的机器学习模型：此处XGBoost作为建模方法构建K个决策树为例进行说明，当然也还可以通过其他的方式来构建机器学习回归模型，例如普通最小二乘线性回归、Logistic回归、支持向量机回归、随机森林回归以及基于深度学习的方法等回归模型均可被采用，在实际应用时，可以根据模型在实际数据集上的效果指标来确定合适的模型。

205、将K个回归决策树中所有回归决策树对应的预测值之和确定为第一目标小区向第一区域输入的客流量。

本实施例中，数据处理装置在构建完成K个回归决策树之后，每个回归决策树均会有一个预测值，数据处理装置可以将K个回归决策树中所有回归决策树对应的预测值之和确定为第一目标小区向第一区域输入的客流量。也就是说，数据处理装置可以根据第一目标小区的画像特征、第一目标小区与第一区域的距离数据以及第一区域对应的业态特征构建K个回归决策树，每个回归决策树均可得到一个预测值，最终预测值即为各个回归决策树的预测值的加和，也即第一目标小区向第一区域输送的客流量即为各个回归决策树的预测值的加和。

206、根据第一目标小区向第一区域输送的客流量计算第一区域总的客流量。

本实施例中，数据处理装置在得到第一目标小区向第一区域输送的客流量之后，可以基于上述方式计算出N个小区中每个小区向第一区域输送的客流量，之后将N个小区中每个小区向第一区域输送的客流量进行求和，即可得到第一区域总的客流量。

请参阅图3，图3为本申请提供的机器学习回归模型的训练流程示意图，包括：

301、获取预设时间段内目标区域中到访第二区域的目标用户列表。

本实施例中，数据处理装置可以获取预设时间段内目标区域到访第二区域的目标用户列表。具体的，数据处理装置可以获取预设时间段内定位轨迹数据处于第二区域的第二用户列表，之后剔除第一用户列表中符合预设条件的用户，得到目标用户列表，其中，该预设条件为在第二区域居住、工作和/或在目标时段处于第二区域。也就是说，数据处理装置可以遍历全量用户在预设时间段内的定位轨迹数据，从中找出在商场M(第二区域，此处以及第二区域为商场为例进行说明，当然也还可以是其他的类别，例如写字楼，具体不限定)的营业时间段内至少有一个定位轨迹处于商场M的用户集合，且该用户集合中的用户即不居住在商场M内，也不在商场M内上班；也即对于商场M，若某位用户U曾经到访商场M，且用户U既不在商场M内居住亦不在商场M内工作，则将用户U加入到商场M的到访客流列表内。到访的定义是：用户U在商场营业时段内(此处商场营业时段为自定义参数，通常可取早上10时至晚上10时，亦可自定义营业时段)有至少一个定位点位于商场M的轮廓内；用户U是否在商场M内居住或工作的定义为：若用户U的工作地坐标位于商场M的轮廓内，则用户U在商场M内工作；若否，则用户U不在商场M内工作。提取出来的数据格式为以下二元组：(MallID，UserList)，其中，MallID是商场M的唯一标识符，UserList是到访用户的唯一标识符UserID的集合，也即商场M在预设时间段内对应的目标用户列表。

302、确定第二目标小区与第二区域的到访关系数据。

本实施例中，数据处理装置可以确定第二目标小区与第二区域的到访关系数据，第二目标小区为目标用户对应的居住小区，目标用户为目标用户列表中的任意一个用户；也就是说，对于商场M的每位到访用户U，根据该用户U的用户职住地坐标数据可以得到该用户U的职住地坐标，寻找该用户U的居住地坐标是否位于某个居住小区AOI轮廓内，若位于，则记居住地所处的居住小区为R，即用户U对应的居住小区。由此，数据处理装置可以构建目标用户列表中的所有用户对应的小区与商场M的到访关系数据，到访关系数据中的每一条数据以如下三元组表示：(RegionID，MallID，Num)，其中RegionID代表居住小区R的唯一标识符，MallID代表商场M的唯一标识符。Num代表居住小区R在预设时间段内向商场M输送的客流数，具体定义为居住在居住小区R内且在预设时间段曾到访商场M，且既不在商场M内居住亦不在商场M内工作的人数总和。例如该预设时间段为2020年7月20日10：00至2020年7月20日22：00，在小区R中居住，且即不在商场M内上班，也不在商场M内居住，且在2020年7月20日10：00至2020年7月20日22：00到访过商场M的用户数量为100，则该小区R与商场M的到访关系数据即为(RegionID，MallID，100)。

303、提取第二目标小区的画像特征。

本实施例中，数据处理装置可以提取第二目标小区的画像特征，对于目标区域内的每个居住小区R，提取小区内居住人群包括但不限于性别、年龄等信息特征项，也即数据处理装置可以获取目标区域内每个居住小区的AOI轮廓数据、全量用户职住地坐标数据以及全量用户画像数据，之后既可以根据全量用户职住地坐标数据以及AOI轮廓数据确定居住在目标区域内的每个居住小区R的用户ID，之后根据该用户ID以及全量用户画像数据确定目标区域内的每个居住小区R的画像特征。也就是说，可以获取目标区域内每个居住小区R中的居住人群的用户画像，并汇总得到统计结果，以如下三元组形式表示：(RegionID，Profile，Num)，例如数据项(RegionID＝12，Profile＝[Sex＝Female]，186)代表RegionID＝12的小区中，性别为女性的用户合计有186人。数据项(RegionID＝7，Profile＝[10<＝Age<20]，36)则代表RegionID＝7的小区中，年龄介于10岁到20岁(不含)的用户合计有36人，以小区内各画像维度以及各画像维度对应的取值的人数作为对应的居住小区画像特征。

需要说明的是，上述第二目标小区的画像特征以居住小区内年龄以及性别特征对应的人数作为第二目标小区的画像特征，当然也还可以是其他的特征作为第二目标小区的画像特征，例如受教育程度、职业、消费水平以及是否有车等人口统计学指标及其组合特征亦可作为居住小区的画像特征，具体不做限定。

304、确定第二区域对应的业态特征。

本实施例中，数据处理装置可以获取目标区域内的AOI轮廓数据以及全量POI数据，之后根据AOI轮廓数据以及全量POI数据确定目标区域内第二区域对应的业态特征。也就是说，对于目标区域内的每个商场M(第二区域)，通过空间关联，提取位于商场M的AOI轮廓内部的所有商业类POI，并统计各类POI的数量及占比。例如(但不限于)本专利提出的商场业态划分方案是：将商业类POI划分为餐饮、便利店、超市、数码、体育、服饰、图书音像、母婴、珠宝化妆品、钟表、烟酒、美容美发、KTV、咖啡厅、电影院、剧场、运动健身等17个类别，统计各个商场内各类别商业类POI的数量作为商场的业态特征。

305、确定第二目标小区与第二区域之间的目标距离。

本实施例中，数据处理装置根据第二目标小区的AOI数据以及第二区域的AOI数据确定第二目标小区与第二区域之间的目标距离，该AOI数据均以如下的三元组来表示：(AOIID，Category，Boundary)，其中，字段Boundary为轮廓坐标信息，以GeoJSON形式存储，因此，此处可以通过第二目标小区的轮廓坐标信息以及第二区域的轮廓坐标信息来计算第一目标小区与第二区域之间的距离。

需要说明的是，通过步骤302可以确定第二目标小区与第二区域的到访关系数据，通过步骤303可以提取第二目标小区的画像特征，通过步骤304可以确定第二区域对应的业态特征，通过步骤305可以确定第二目标小区与第二区域之间的目标距离，然而，这几个步骤之间并没有先后执行顺序的限制，可以先执行步骤302，也可以先执行步骤303，也可以先执行步骤304，也可以先执行步骤305，或者同时执行，具体不做限定。

306、对第二目标小区与第二区域的到访关系数据、第二目标小区的画像数据、第二区域对应的业态特征以及目标距离进行训练，得到机器学习回归模型。

本实施例中，数据处理装置可以对第二目标小区与第二区域的到访关系数据、第二目标小区的画像数据、第二区域对应的业态特征以及目标距离进行训练，得到机器学习回归模型；也就是说，为定义机器学习回归模型的模型特征，数据处理装置对传统的重力模型进行分析，其中，传统的重力模型如下：

两边取对数有：ln N＝a ln M_i+b ln M_j-c ln d；

其中N为第二目标小区i到访商场j(第二区域)的人数，M_i、M_j分别为第二目标小区i与商场j的规模，在传统模型中居住小区的规模一般以人数替代，商场的规模一般以营业面积替代，d为第二目标小区i到商场j之间的距离，a、b、c均为模型参数。由此可见，第二目标小区i到访商场j的到访人数与第二目标小区i的规模度量的幂、商场j的规模度量的幂成正相关，与小区i到商场j之间的距离的幂成负相关。本申请中，数据处理装置使用第二目标小区的画像特征(总常住人口规模与分不同画像的人口规模)来代表第二目标小区的规模度量，使用不同类别POI数量来代表商场的规模度量。

整合上述第二目标小区与第二区域的到访关系数据，第二目标小区的画像特征，第二区域对应的业态特征，第二目标小区与第二区域之间的目标距离，对于居住小区R与商场M，可以构建如下表1的特征(可以理解的是，表1中的变量名以及变量含义仅为举例说明，当然小区以及商场还可以包括其他的变量名及其对应的变量含义，具体不做限定)：

表1

基于以上特征，对数化处理后，构建机器学习回归模型(此处具体不限定构建机器学习回归模型的模型方法，例如可以是XGBoost，当然也还可以是其他的模型方法，例如普通最小二乘线性回归、Logistic回归、支持向量机回归、随机森林回归以及基于深度学习的方法等回归模型均可被采用，在实际应用时，可以根据模型在实际数据集上的效果指标来确定合适的模型，具体不做限定)，预测目标为第二目标小区R向商场M输送的客流量。也就是说，数据处理装置可以根据实际情况从小区对应的变量中选择一个或多个，从商场对应的变量中选择一个或多个，来构建上述的第二目标小区与第二区域的到访关系数据，第二目标小区的画像特征，第二区域对应的业态特征以及第二目标小区与第二区域之间的目标距离，并由此来进行模型训练，得到机器学习回归模型。

可以理解的是，在对特征数据集进行训练得到机器学习回归模型时，可以通过随机切分的方式将特征数据集切分为训练集、验证集以及测试集，基于训练集训练机器学习模型、基于验证集选择最佳机器学习模型超参数，基于测试集验证的模型真实效果。

综上所述，可以看出，本申请提供的实施例中，数据处理装置综合考虑了目标用户列表对应的第二目标小区与第二区域之间的距离数据、第二目标小区的画像数据以及第二目标小区与第二区域的到访关系数据，这样，在通过上述数据构建机器学习回归模型时，可以构建出更加优越的机器学习回归模型，该该机器学习回归模型在实际应用时，可以提高预估的客流量的准确度。

在实际应用中，将商场位置(商场中心点经纬度坐标)、商场内各类POI的分布作为模型参数输入，可以得到预估的客流量，实现商场选址与业态规划的动态建模，例如：

面向商业地产选址分析的业务场景：客户输入固定的商场业态配置方案(诸如餐饮店x家、电影院y家、超市z家等，各类别商店的配置数量为自定义参数)，同时指定若干个候选地点，根据本专利提出的商场到访客流量建模方法，可以预测各小区向各候选地点输送的客流量、各候选地点可吸引的总客流量，从而可以实现商场选址优化。

面向商业地产拿地分析的业务场景：可在客户不输入若干个候选地点的前提下，系统通过遍历城市内所有地点(例如以网格方式进行遍历，或以未开发地块为输入进行遍历)，得到各地点的潜在吸引总客流量，为客户在拿地规划的过程中提供决策支撑。

面向商场运营的业务场景：客户输入固定的商场坐标，通过客户自定义商场业态的不同配置方案，可以动态预测不同业态下吸引的总客流量，从而为商场运营、业态改造升级等业务诉求提供决策支撑。

上面从的数据处理方法的角度对本申请进行说明，下面从数据处理装置的角度对本申请进行说明。

请参阅图4，图4为本申请实施例提供的一种数据处理装置的虚拟结构示意图，包括：

第一确定单元401，用于确定N个小区中每个小区的画像特征，所述N个小区为目标区域中的小区，N为大于或等于1的正整数；

获取单元402，用于获取第一区域对应的业态特征，所述第一区域与所述目标区域相关联；

第二确定单元403，用于确定所述N个小区中每个小区与所述第一区域的距离数据；

构建单元404，用于通过第一目标小区的画像特征、所述第一目标小区与所述第一区域的距离数据以及所述第一区域对应的业态特征构建K个回归决策树，其中，所述第一目标小区为所述N个小区中的任意一个小区，所述K个回归决策树与机器学习回归模型相对应；

第三确定单元405，用于将所述K个回归决策树中所有回归决策树对应的预测值之和确定为所述第一目标小区向所述第一区域输入的客流量；

计算单元406，用于根据所述第一目标小区向所述第一区域输送的客流量计算所述第一区域总的客流量。

可选地，所述装置还包括：

模型训练单元407，所述模型训练单元407用于：

提取所述第二目标小区的画像特征；

确定所述第二区域对应的业态特征；

确定所述第二目标小区与所述第二区域之间的目标距离；

可选地，所述模型训练单元407获取预设时间段内所述目标区域内到访所述第二区域的目标用户列表包括：

可选地，所述获取单元402具体用于：

统计所述第一区域内各类别商业类信息点的数量；

可选地，所述第一确定单元401具体用于：

确定所述N个小区中每个小区内用户的用户画像；

本申请实施例还提供了另一种数据处理装置，如图5所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该数据处理装置可以为终端，该终端可以为包括手机、平板电脑、PDA(Personal DigitalAssistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等任意终端设备，以终端为手机为例：

图5示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图5，手机包括：射频(Radio Frequency，RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fIDelity，WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图5中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图5对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(WIDeband Code Division Multiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(LiquID CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图5中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理单元；优选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，优选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，上述由数据处理装置所执行的步骤可以由该终端所包括的处理器580来执行。

图6是本申请实施例提供的一种服务器结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

上述实施例中由数据处理装置所执行的步骤可以基于该图6所示的服务器结构。

本申请实施例还提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述所述数据处理方法的步骤。

本申请实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述所述数据处理方法的步骤。

本申请实施例还提供了一种终端设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，所述程序代码由所述处理器加载并执行以实现上述所述数据处理方法的步骤。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行上述所述数据处理方法的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

确定所述N个小区中每个小区与所述第一区域的距离数据；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

提取所述第二目标小区的画像特征；

确定所述第二区域对应的业态特征；

确定所述第二目标小区与所述第二区域之间的目标距离；

3.根据权利要求2所述的方法，其特征在于，所述获取预设时间段内所述目标区域内到访所述第二区域的目标用户列表包括：

4.根据权利要求2所述的方法，其特征在于，所述确定第二目标小区与所述第二区域的到访关系数据包括：

根据所述目标用户的用户职住地坐标数据确定所述目标用户的职住地坐标；

根据所述目标用户的职住地坐标确定所述第二目标小区；

确定所述第二目标小区在所述预设时间段内向所述第二区域输送的客流数；

根据所述第二目标小区的标识、所述第二区域的标识以及所述第二目标小区在所述预设时间段内向所述第二区域输送的客流数确定所述第二目标小区与所述第二区域的到访关系数据。

5.根据权利要求2所述的方法，其特征在于，所述确定所述第二区域对应的业态特征包括：

获取所述目标区域内兴趣面AOI轮廓数据以及全量信息点POI数据；

根据所述AOI轮廓数据以及所述全量POI数据提取位于所述第二区域对应的AOI轮廓内的所有POI；

将位于所述第二区域对应的AOI轮廓内的所有POI确定为所述第二区域对应的业态特征。

6.根据权利要求1至3中任一项所述的方法，其特征在于，所述获取第一区域对应的业态特征包括：

统计所述第一区域内各类别商业类信息点的数量；

7.根据权利要求1至3中任一项所述的方法，其特征在于，所述确定N个小区中每个小区的画像特征包括：

确定所述N个小区中每个小区内用户的用户画像；

8.一种数据处理装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

模型训练单元，所述模型训练单元用于：

提取所述第二目标小区的画像特征；

确定所述第二区域对应的业态特征；

确定所述第二目标小区与所述第二区域之间的目标距离；

10.根据权利要求9所述的装置，其特征在于，所述模型训练单元获取预设时间段内所述目标区域内到访所述第二区域的目标用户列表包括：

11.一种计算机装置，其特征在于，包括：

至少一个连接的处理器、存储器和收发器，其中，所述存储器用于存储程序代码，所述程序代码由所述处理器加载并执行以实现上述1至7中任一项所述的数据处理方法的步骤。

12.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行上述权利要求1至7中任一项所述的数据处理方法的步骤。