CN116611678B

CN116611678B - 数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN116611678B
Application number: CN202310898065.1A
Authority: CN
Inventors: 赵鹏; 刘永威; 刘思喆
Original assignee: Beijing Apoco Blue Technology Co ltd
Current assignee: Beijing Apoco Blue Technology Co ltd
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-12-01
Anticipated expiration: 2043-07-21
Also published as: CN116611678A

Abstract

本申请涉及一种数据处理方法、装置、计算机设备和存储介质。该方法包括：获取城市服务区域的区域数据；区域数据中包含城市服务区域的城市指标、城市服务区域中的第一网格以及第一网格的网格指标；根据城市指标与网格指标，在第一网格中确定满足预设筛选条件的第二网格；通过密度聚类算法对第二网格进行聚类处理，得到候选低效区域；基于距离聚类算法对候选低效区域中不满足区域筛选条件的候选低效区域进行分割处理，得到分割后满足区域筛选条件的候选低效区域；基于各满足区域筛选条件的候选低效区域包含的第二网格，确定目标低效区域。采用本方法能够提高确定目标低效区域的准确率。

Description

数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种数据处理方法、装置、计算机设备和存储介质。

背景技术

随着共享电单车的发展，共享电单车作为一种便捷、环保的交通工具，已经广泛普及和应用。然而，由于用户分布不均、需求波动大等因素，共享电单车的车辆分布往往会出现不平衡的情况。为了解决此问题，需要对共享电单车进行调度，其中，调度过程中的车辆选取一般是从低效区域中选取车辆，因此，划分低效区域的精准度直接影响了车辆调度的效果。

传统技术中，运维人员通过不同时间段的城市中，各区域的车辆流入流出情况，结合运维人员的先验经验进行人为判断，确定城市中的低效区域。

然而，目前的人为判断来确定低效区域的方法，由于运维人员的主观性，以及人为认知信息的局限性，导致运维人员很难同时考虑和分析大量的数据和复杂的因素，进而导致划分用于车辆选取的低效区域的准确率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种数据处理方法、装置、计算机设备和计算机可读存储介质。

第一方面，本申请提供了一种数据处理方法。所述方法包括：

获取城市服务区域的区域数据；所述区域数据中包含所述城市服务区域的城市指标、所述城市服务区域中的第一网格以及所述第一网格的网格指标；

根据所述城市指标与所述网格指标，在所述第一网格中确定满足预设筛选条件的第二网格；

通过密度聚类算法对所述第二网格进行聚类处理，得到候选低效区域；

基于距离聚类算法对所述候选低效区域中不满足区域筛选条件的候选低效区域进行分割处理，得到分割后满足所述区域筛选条件的候选低效区域；

基于各所述满足所述区域筛选条件的候选低效区域包含的所述第二网格，确定目标低效区域。

在其中一个实施例中，所述获取城市服务区域的区域数据，包括：

基于预设空间索引算法，对所述城市服务区域进行划分，得到所述城市服务区域的多个第一网格；

根据所述城市服务区域内的车辆订单记录和车辆调度记录，确定所述城市服务区域中每一所述第一网格的车辆流动指标；

根据所述车辆流动指标计算所述城市服务区域的城市指标和每个所述第一网格的网格指标。

在其中一个实施例中，所述网格指标包括网格流出效率、网格不动率、网格周转时长和网格周转价值；所述根据所述车辆流动指标计算每个所述第一网格的网格指标，包括：

根据所述车辆流动指标中的当日网格骑出车辆数量、当日网格初始时刻车辆数量、当日网格骑入车辆数量和当日网格挪入车辆数量，确定每个所述第一网格的所述网格流出效率；

根据所述车辆流动指标中的当日网格未骑出车辆数量、当日网格未挪出车辆数量、所述当日网格初始时刻车辆数量、所述当日网格骑入车辆数量和所述当日网格挪入车辆数量，确定每个所述第一网格的所述网格不动率；

根据所述车辆流动指标中骑出第一网格的骑出车辆的第一时间，以及所述骑出车辆的上次骑入所述第一网格的第二时间或所述骑出车辆上次被挪入所述第一网格的第二时间，确定每个所述第一网格的所述网格周转时长；

根据所述车辆流动指标中当日骑入车辆、当日挪入车辆、所述当日骑入车辆和所述当日挪入车辆在第一预设时间段内的订单数量，确定每个所述第一网格的所述网格周转价值。

在其中一个实施例中，所述城市指标包括城市平均流出效率、城市平均不动率、城市平均周转时长和城市平均周转价值；所述根据所述车辆流动指标计算所述城市服务区域的城市指标，包括：

根据每个所述第一网格的网格流出效率和第二预设时间段，确定所述城市平均流出效率；

根据每个所述第一网格的网格不动率和第二预设时间段，确定所述城市平均不动率；

根据每个所述第一网格的网格周转时长与所述第二预设时间段，确定所述城市平均周转时长；

根据每个所述第一网格的网格周转价值与所述第二预设时间段，确定所述城市平均周转价值。

在其中一个实施例中，所述根据所述城市指标与所述网格指标，在所述第一网格中确定满足预设筛选条件的第二网格，包括：

在所述第一网格中，将同时满足预设筛选条件中的流出效率条件、不动率条件、周转时长条件、周转价值筛选和位置条件的第一网格确定为第二网格。

在其中一个实施例中，所述通过密度聚类算法对所述第二网格进行聚类处理，得到候选低效区域，包括：

获取所述第二网格的网格索引；所述网格索引表征所述第二网格的位置信息；

确定密度聚类算法的参数；

基于所述密度聚类算法的参数与所述位置信息对所述第二网格进行聚类，并根据聚类结果确定候选低效区域。

在其中一个实施例中，所述基于距离聚类算法对所述候选低效区域中不满足区域筛选条件的候选低效区域进行分割处理，得到分割后满足所述区域筛选条件的候选低效区域，包括：

确定各所述候选低效区域包含的所述第二网格的数量；

将包含的所述第二网格的数量大于网格数量阈值的候选低效区域确定为不满足区域筛选条件的候选低效区域；

根据所述不满足区域筛选条件的候选低效区域包含的所述第二网格的数量、所述网格数量阈值确定距离聚类算法的参数；

基于所述距离聚类算法的参数与所述不满足区域筛选条件的候选低效区域中所述第二网格的位置信息对所述不满足区域筛选条件的候选低效区域中的所述第二网格进行聚类，并根据聚类结果确定满足区域筛选条件的候选低效区域。

在其中一个实施例中，所述基于各所述满足所述区域筛选条件的候选低效区域包含的所述第二网格，确定目标低效区域，包括：

基于各所述满足所述区域筛选条件的候选低效区域包含的所述第二网格确定第二网格的车辆流动指标，根据所述车辆流动指标确定各所述满足所述区域筛选条件的候选低效区域的区域不动率和区域挪出有效性；

根据所述区域不动率和所述区域挪出有效性，计算各所述满足所述区域筛选条件的候选低效区域的区域得分，并根据所述区域得分确定所述各所述满足所述区域筛选条件的候选低效区域的排名名次；

将所述排名名次大于预设名次阈值的满足所述区域筛选条件的候选低效区域，确定为目标低效区域。

第二方面，本申请还提供了一种数据处理装置。所述装置包括：

获取模块，用于获取城市服务区域的区域数据；所述区域数据中包含所述城市服务区域的城市指标、所述城市服务区域中的第一网格以及所述第一网格的网格指标；

第一确定模块，用于根据所述城市指标与所述网格指标，在所述第一网格中确定满足预设筛选条件的第二网格；

第一聚类模块，用于通过密度聚类算法对所述第二网格进行聚类处理，得到候选低效区域；

第二聚类模块，用于基于距离聚类算法对所述候选低效区域中不满足区域筛选条件的候选低效区域进行分割处理，得到分割后满足所述区域筛选条件的候选低效区域；

第二确定模块，用于基于各所述满足所述区域筛选条件的候选低效区域包含的所述第二网格，确定目标低效区域。

在其中一个实施例中，所述获取模块具体用于：

在其中一个实施例中，所述第一确定模块具体用于：

在其中一个实施例中，所述第一聚类模块具体用于：

确定密度聚类算法的参数；

在其中一个实施例中，所述第二聚类模块具体用于：

确定各所述候选低效区域包含的所述第二网格的数量；

在其中一个实施例中，所述第二确定模块具体用于：

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述数据处理方法、装置、计算机设备和存储介质，根据车辆流动指标中的各项参数对第一网格的网格指标进行计算，通过车辆流动指标中多样化的参数进行网格指标计算，可以提高网格指标反映当前第一网格车辆流动特征的有效性，实现提高确定第二网格的准确性，并通过密度聚类算法和距离聚类算法对第二网格进行连通和分割，得到颗粒度适中的候选低效区域，进而通过较为精准反映车辆流动特征的第二网格的网格指标确定目标低效区域，可以提高确定目标低效区域的准确率。

附图说明

图1为一个实施例中数据处理方法的应用环境图；

图2为一个实施例中计算区域数据的方法的流程示意图；

图3为一个实施例中计算网格指标方法的流程示意图；

图4为一个实施例中计算城市指标方法的流程示意图；

图5为一个实施例中根据密度聚类算法对第二网格进行连通的方法的流程示意图；

图6为一个实施例中根据距离聚类算法对不满足区域筛选条件的候选低效区域进行分割的方法的流程示意图；

图7为一个实施例中确定目标低效区域方法的流程示意图；

图8为一个实施例中数据处理装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种数据处理方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤102，获取城市服务区域的区域数据。

其中，区域数据中包含城市服务区域的城市指标、城市服务区域中的第一网格以及第一网格的网格指标。

本申请实施例中，终端确定需要挖掘低效区域的城市，以及该城市所提供共享电单车服务的城市服务区域，终端可以通过共享电单车服务平台该城市的城市服务区域以及该城市服务区域内的区域数据。具体的，终端获取由Uber H3（一种空间索引算法）标准划分的第一网格，以及根据共享电单车服务平台中的平台数据确定第一网格的网格指标和当前城市的城市指标，其中，该网格指标用于反映各第一网格中，共享电单车的流动情况；城市指标用于反映当前城市的共享电单车的流动情况。

步骤104，根据城市指标与网格指标，在第一网格中确定满足预设筛选条件的第二网格。

本申请实施例中，在得到各第一网格的网格指标后，终端通过第一网格的网格指标，可以在第一网格中确定出共享电单车流动情况低于该城市中共享电单车流动情况平均水平的第二网格，城市指标中包含多个指标参数，网格指标中包含与城市指标对应的指标参数，因此，该筛选条件可以为网格指标中的各指标参数与城市指标中对应的指标参数的大小关系，以及第一网格中是否包含特定的共享电单车站点（例如，热门站点）。进而终端可以通过该预设筛选条件，基于各第一网格的网格指标与城市指标中对应参数的大小关系，以及第一网格中包含的共享电单车站点的属性，在第一网格中初步确定出满足预设筛选条件的第二网格，即可以组成低效区域的第二网格。

步骤106，通过密度聚类算法对第二网格进行聚类处理，得到候选低效区域。

本申请实施例中，终端在第一网格中确定出满足筛选条件的第二网格后，可以通过密度聚类算法，在第二网格中，对第二网格的位置关系进行聚类处理，将密度大于密度阈值的第二网格确定为同一类别，并将属于同一类别的第二网格进行连通，得到由多个相邻的第二网格构成的候选低效区域。其中，该密度聚类算法可以为DBSCAN（Density-BasedSpatial Clustering of Applications with Noise，基于密度的聚类应用噪声算法）或OPTICS（Ordering points toidentify the clustering structure，点排序以识别聚类结构算法），本申请中对于密度聚类算法的种类不作限定。

步骤108，基于距离聚类算法对候选低效区域中不满足区域筛选条件的候选低效区域进行分割处理，得到分割后满足区域筛选条件的候选低效区域。

本申请实施例中，终端确定候选低效区域中的不满足区域筛选条件的候选低效区域，其中，区域筛选条件为候选低效区域中包含的第二网格的数量与网格数量阈值的关系，并基于距离聚类算法对不满足区域筛选条件的候选低效区域中的各第二网格进行聚类处理，得到多个聚类簇作为聚类结果，并基于该聚类结果划分候选低效区域，得到满足区域筛选条件的候选低效区域。其中，密度聚类算法可以为K-Means（一种基于欧式距离的聚类算法），也可以为Bi-KMeans（一种距离聚类算法）等，本申请对于距离聚类算法的种类不作限定。

步骤110，基于各满足区域筛选条件的候选低效区域包含的第二网格，确定目标低效区域。

本申请实施例中，终端首先确定所有满足区域筛选条件的候选低效区域，根据该候选低效区域中包含的多个第二网格，并得到该多个第二网格的网格指标，根据网格指标对该多个第二网格进行排序、筛选等处理，进而确定出满足筛选要求的目标低效区域。

满足区域筛选条件的候选低效区域包括分割后的候选低效区域和原始满足区域筛选条件的候选低效区域，例如，候选低效区域中包含候选低效区域A、候选低效区域B和候选低效区域C，其中，候选低效区域C为原始满足区域筛选条件的候选低效区域，候选低效区域A和候选低效区域B不满足区域筛选条件，则通过距离聚类算法对候选低效区域A，得到满足区域筛选条件的候选低效区域A1和候选低效区域A2；通过距离聚类算法对候选低效区域B进行分割处理，得到满足区域筛选条件的候选低效区域B1和候选低效区域B2。然后，终端根据候选低效区域A1、候选低效区域A2、候选低效区域B1、候选低效区域B2和候选低效区域C中第二网格的网格指标对各满足区域筛选条件的候选低效区域进行筛选操作，得到目标低效区域。

上述数据处理方法中，根据车辆流动指标中的各项参数对第一网格的网格指标进行计算，通过车辆流动指标中多样化的参数进行网格指标计算，可以提高网格指标反映当前第一网格车辆流动特征的有效性，实现提高确定第二网格的准确性，并通过密度聚类算法和距离聚类算法对第二网格进行连通和分割，得到颗粒度适中的候选低效区域，进而通过较为精准反映车辆流动特征的第二网格的网格指标确定目标低效区域，可以提高确定目标低效区域的准确率。

在一个实施例中，如图2所示，步骤102中获取城市服务区域的区域数据，包括：

步骤202，基于预设空间索引算法，对城市服务区域进行划分，得到城市服务区域的多个第一网格。

本申请实施例中，终端首先获取当前城市中，提供共享电单车服务的城市服务区域。具体的，终端获取当前城市中提供电单车服务区域的多个经纬度坐标，并将该多个经纬度坐标安装先后次序相连，在当前城市的地图中构成一个多边形区域，即当前城市的城市服务区域。然后，终端可以根据Uber H3标准、车辆订单记录包括各车辆的订单起点位置、订单终点位置和车辆调度记录中包括各车辆的挪出位置、挪入位置，通过h3.geo_to_h3函数（一种空间索引算法的函数）将城市服务区域划分为多个11级H3网格（在Uber H3标准中，H3解析度为11的网格的分辨率），即第一网格。

步骤204，根据城市服务区域内的车辆订单记录和车辆调度记录，确定城市服务区域中每一第一网格的车辆流动指标。

本申请实施例中，共享电单车服务平台的平台数据包括该城市服务区域内共享电单车的车辆订单记录和车辆调度记录，车辆订单记录包括各车辆的订单起点位置、订单终点位置、产生订单的时间等订单数据，车辆调度记录中包括各车辆的挪出位置、挪入位置和挪车时间等车辆调度数据。终端根据该车辆订单记录和车辆调度记录可以得到当前城市服务区域中，以第一网格为单位的车辆流动指标。

步骤206，根据车辆流动指标计算城市服务区域的城市指标和每个第一网格的网格指标。

本申请实施例中，对于第一网格的网格指标，终端针对第一网格的位置，通过该位置对应的车辆流动指标计算每个第一网格的网格指标。

对于城市指标，终端计算城市服务区域中的所有第一网格的网格指标的平均值，作为初始城市指标，然后计算预设时间段（例如一个月）内每天的初始城市指标的平均值，作为城市指标。

本实施例中，通过空间索引算法在城市服务区域中划分的第一网格，第一网格提供了更细粒度的划分，并根据车辆流动指标计算第一网格的网格指标，该网格指标能够更精确的反映当前城市服务区域中共享电单车车辆流动的特征，可以提高确定用于划分低效区域的网格指标的精确度。

在一个实施例中，为了在城市服务区域中确定目标低效区域，终端先在构成城市服务区域的第一网格中初步筛选出第二网格，具体的，终端可以根据城市指标和各第一网格的网格指标实现对第一网格的筛选，其中，网格指标包括网格流出效率、网格不动率、网格周转时长和网格周转价值，如图3所示，步骤206中根据车辆流动指标计算每个第一网格的网格指标，包括：

步骤302，根据车辆流动指标中的当日网格骑出车辆数量、当日网格初始时刻车辆数量、当日网格骑入车辆数量和当日网格挪入车辆数量，确定每个第一网格的网格流出效率。

本申请实施例中，终端将当日网格初始时刻车辆数量、当日网格骑入车辆数量、当日网格挪入车辆数量进行求和，得到当日网格车辆总数，并将当日网格骑出车辆数量与网格车辆总数的比值作为网格指标中的网格流出效率，该网格流出效率的数值越小，说明当前第一网格的特征越接近第二网格的特征。可选的，当终端计算出网格流出效率后，使用威尔逊系数对该网格流出效率进行修正。其中，该网格流出效率的数值区间为[0，1]。

步骤304，根据车辆流动指标中的当日网格未骑出车辆数量、当日网格未挪出车辆数量、当日网格初始时刻车辆数量、当日网格骑入车辆数量和当日网格挪入车辆数量，确定每个第一网格的网格不动率。

本申请实施例中，终端将车辆流动指标中的当日网格未骑出车辆数量与当日网格未挪出车辆数量进行求和，得到当日网格未流出车辆数量，将当日网格初始时刻车辆数量、当日网格骑入车辆数量和当日网格挪入车辆数量进行求和，得到当日网格车辆总数，并将当日网格未流出车辆数量与当日网格车辆总数的比值作为网格指标中的网格不动率，该网格不动率的数值越大，说明当前第一网格的特征越接近第二网格的特征。可选的，当终端计算出网格不动率后，使用威尔逊系数对该网格不动率进行修正。其中，该网格不动率的数值区间为[0，1]。

步骤306，根据车辆流动指标中骑出第一网格的骑出车辆的第一时间，以及骑出车辆的上次骑入第一网格的第二时间或骑出车辆上次被挪入第一网格的第二时间，确定每个第一网格的网格周转时长。

本申请实施例中，终端针对每个第一网格中，每一骑出车辆骑出当前第一网格的第一时间，与该骑出车辆上次被骑入当前第一网格的第二时间，或上次被挪入当前第一网格的第二时间，得到当日骑出车辆对于该第一网格的停留时间，并根据当前第一网格中每个骑出车辆的停留时间，得到当前第一网格中各骑出车辆对于当前第一网格停留时间的平均值，作为第一网格的网格周转时长，该网格周转时长的数值越大，说明当前第一网格的特征越接近第二网格的特征。

步骤308，根据车辆流动指标中当日骑入车辆、当日挪入车辆、当日骑入车辆和当日挪入车辆在第一预设时间段内的订单数量，确定每个第一网格的网格周转价值。

本申请实施例中，终端根据车辆流动指标中当日骑入车辆、当日挪入车辆，得到当日流入当前第一网格的车辆，并根据当日流入当前第一网格的车辆在第一预设时间段（例如24小时）内产生的订单数量的平均值，作为该第一网格的网格周转价值，该网格周转价值的数值越大，说明当前第一网格的特征越接近第二网格的特征。

可选的，终端还可以根据车辆流动指标计算城市服务区域的城市指标，具体计算过程在下述实施例进行详细描述，在此不再赘述。

本实施例中，根据车辆流动指标中的各项参数对第一网格的网格指标进行计算，通过车辆流动指标中多样化的参数进行网格指标计算，可以提高网格指标反映当前第一网格车辆流动特征的有效性，实现提高确定第二网格的准确性，进而通过较为精准反映车辆流动特征的第二网格可以提高确定目标低效区域的准确率。

在一个实施例中，为了在第一网格中筛选出第二网格，终端可以根据城市指标和各第一网格的网格指标实现对第一网格的筛选，其中，城市指标包括城市平均流出效率、城市平均不动率、城市平均周转时长和城市平均周转价值，如图4所示，步骤206中根据车辆流动指标计算城市服务区域的城市指标，包括：

步骤402，根据每个第一网格的网格流出效率和第二预设时间段，确定城市平均流出效率。

本申请实施例中，终端首先将城市服务区域中每一天内，所有第一网格的网格流出效率的平均值作为当前天的城市车辆流出效率，然后计算第二预设时间段（例如一个月）内每一天的城市车辆流出效率的平均值，作为城市平均流出效率。其中，该城市平均流出效率的数值区间为[0，1]。

步骤404，根据每个第一网格的网格不动率和第二预设时间段，确定城市平均不动率。

本申请实施例中，终端首先将城市服务区域中每一天内，所有第一网格的网格不动率的平均值作为当前天的城市车辆不动率，然后计算第二预设时间段（例如一个月）内每一天的城市车辆不动率的平均值，作为城市平均不动率。其中，该城市平均不动率的数值区间为[0，1]。

步骤406，根据每个第一网格的网格周转时长与第二预设时间段，确定城市平均周转时长。

本申请实施例中，终端首先将城市服务区域中每一天内，所有第一网格的网格周转时长的平均值作为当前天的城市车辆周转时长，然后计算第二预设时间段（例如一个月）内每一天的城市车辆周转时长的平均值，作为城市平均周转时长。

步骤408，根据每个第一网格的网格周转价值与第二预设时间段，确定城市平均周转价值。

本申请实施例中，终端首先将城市服务区域中每一天内，所有第一网格的网格周转价值的平均值作为当前天的城市车辆周转价值，然后计算第二预设时间段（例如一个月）内每一天的城市车辆周转价值的平均值，作为城市平均周转价值。

本实施例中，通过计算当前城市服务区域对应的城市指标，可以得到针对第一网格进行筛选的筛选标准，同时根据第一网格对应网格指标的平均值计算城市指标，可以提高城市指标的稳定性和可比性，实现提高确定第二网格的准确性，进而通过较为精准反映车辆流动特征的第二网格可以提高确定目标低效区域的准确率。

在一个实施例中，步骤104中根据城市指标与网格指标，在第一网格中确定满足预设筛选条件的第二网格，包括：

在第一网格中，将同时满足预设筛选条件中的流出效率条件、不动率条件、周转时长条件、周转价值筛选和位置条件的第一网格确定为第二网格。

本申请实施例中，终端首先计算每一个第一网格的网格流出效率、网格不动率、网格周转时长和网格周转价值在第二预设时间段（例如一个月）内的平均值，作为每个第一网格对应的网格平均流出效率、网格平均不动率、网格平均周转时长和网格平均周转价值。然后，终端将网格平均流出效率小于城市平均流出效率作为满足流出效率条件，将网格平均不动率大于城市平均不动率作为满足不动率条件，将网格平均周转时长大于城市平均周转时长作为满足周转时长条件，将网格平均周转价值大于城市平均周转价值作为满足周转价值条件，将第一网格中不包含热门站点作为满足位置条件，其中，热门站点为共享电单车服务平台根据各站点对应的订单数量确定出，本实施例中，该热门站点为共享电单车服务平台中的数据。

最后，终端根据对每个第一站点的网格平均流出效率、网格平均不动率、网格平均周转时长和网格平均周转价值，与城市指标中的城市平均流出效率、城市平均不动率、城市平均周转时长和城市平均周转价值进行对比和位置判断，根据对比结果和位置判断结果将同时满足预设筛选条件中所有条件的第一网格，确定为第二网格，该第二网格表征网格指标的特征接近低效区域的特征。

本实施例中，根据能够反映各第一网格车辆流动特征的有效性的网格特征计算网格平均指标，以及将该网格平均指标与具有稳定性和可比性城市指标进行对比，可以提高确定第二网格的准确性，进而通过较为精准反映车辆流动特征的第二网格可以提高确定目标低效区域的准确率。

在一个实施例中，如图5所示，步骤106中通过密度聚类算法对第二网格进行聚类处理，得到候选低效区域，包括：

步骤502，获取第二网格的网格索引。

其中，网格索引表征第二网格的位置信息。

本申请实施例中，终端确定各第二网格的边界，即确定第二网格的范围。第二网格位置信息可以是地理边界坐标或其他区域标识。

可选的，终端在对第二网格进行聚类前，对第二网格的网格索引进行归一化处理，例如，去除异常数据和归一化等。

步骤504，确定密度聚类算法的参数。

本申请实施例中，密度聚类算法为DBSCAN聚类算法，终端可以将第二网格的网格距离确定为DBSCAN算法参数中的Eps（邻域半径），即将相邻的第二网格确定为同一聚类簇，并将DBSCAN算法参数中的MinPts（最小密度阈值）确定为1，即单个聚类簇中至少包含一个第二网格。

步骤506，基于密度聚类算法的参数与位置信息对第二网格进行聚类，并根据聚类结果确定候选低效区域。

本申请实施例中，终端根据密度聚类算法的参数，针对第二网格的位置信息将各第二网格聚类为不同的聚类簇，即将相邻的第二网格聚类为同一聚类簇，并将每个聚类簇确定为候选低效区域。

本实施例中，通过密度聚类算法将位置相邻的第二网格进行连通，提高满足预设筛选条件的区域的颗粒度，降低候选低效区域划分的复杂度，提高确定候选低效区域的效率。

在一个实施例中，在确定出候选低效区域后，若候选低效区不满足区域筛选条件，则需要进一步对候选低效区域进行分割处理，如图6所示，步骤108中基于距离聚类算法对候选低效区域中不满足区域筛选条件的候选低效区域进行分割处理，得到分割后满足区域筛选条件的候选低效区域，包括：

步骤602，确定各候选低效区域包含的第二网格的数量。

本申请实施例中，经过密度聚类算法进行聚类后得到的候选低效区域中，可能存在区域过大的候选低效区域，因此，终端可以先确定出候选低效区域中包含的第二网格的数量，然后基于各候选低效区域包含的第二网格的数量进行筛选处理。

步骤604，将包含的第二网格的数量大于网格数量阈值的候选低效区域确定为不满足区域筛选条件的候选低效区域。

本申请实施例中，网格数量阈值可以设置为50，若候选低效区域所包含的第二网格的数量大于网格数量阈值，说明该候选低效区域的颗粒度过大，导致该候选低效区域所反映的区域特征不够精细化。因此，终端将将包含的第二网格的数量大于网格数量阈值的候选低效区域进行筛选，并将其确定为不满足区域筛选条件的候选低效区域，以便对其进行进一步处理。

步骤606，根据不满足区域筛选条件的候选低效区域包含的第二网格的数量、网格数量阈值确定距离聚类算法的参数。

其中，距离聚类算法为K-Means聚类算法。

本申请实施例中，终端根据不满足区域筛选条件的候选低效区域包含的第二网格的数量与网格数量阈值计算K-Means聚类算法的参数（聚类簇数量N），聚类簇数量N的计算公式如下所示：

其中，ceil()为取整函数，max_cluster_size为网格数量阈值，区域内H3网格数为不满足区域筛选条件的候选低效区域包含的第二网格的数量。

步骤608，基于距离聚类算法的参数与不满足区域筛选条件的候选低效区域中第二网格的位置信息对不满足区域筛选条件的候选低效区域中的第二网格进行聚类，并根据聚类结果确定满足区域筛选条件的候选低效区域。

本申请实施例中，终端得到距离聚类算法中的聚类簇数量参数N后，基于不满足区域筛选条件的候选低效区域中第二网格的位置信息对该候选低效区域中的第二网格进行进一步聚类操作，得到N个聚类簇，作为距离聚类算法的聚类结果，终端将聚类结果中的不同聚类簇包含的第二网格作为同一类型，对各不满足区域筛选条件的候选低效区域进行分割，得到满足区域筛选条件的候选低效区域。

本实施例中，通过距离聚类算法将区域过大的候选低效区域分割成大小适中的，由多个第二网格组成的满足区域筛选条件的候选低效区域，使得该候选低效区域的颗粒度适中，避免了候选低效区域的颗粒度过小或过大，实现对城市服务区域内候选低效区域的精确划分，进而提高确定目标低效区域的准确性。

在一个实施例中，如图7所示，步骤110基于各满足区域筛选条件的候选低效区域包含的第二网格，确定目标低效区域，包括：

步骤702，基于各满足区域筛选条件的候选低效区域包含的第二网格确定第二网格的车辆流动指标，根据车辆流动指标确定各满足区域筛选条件的候选低效区域的区域不动率和区域挪出有效性。

本申请实施例中，针对区域不动率的计算，基于步骤304中确定网格不动率相同的原理，终端根据满足区域筛选条件的候选低效区域中包含的第二网格对应的车辆流动指标，将车辆流动指标中各满足区域筛选条件的候选低效区域中全部第二网格的当日网格未骑出车辆数量和当日网格未挪出车辆数量进行求和，得到各满足区域筛选条件的候选低效区域的当日区域未流出车辆数量。然后，终端将满足区域筛选条件的候选低效区域中每个第二网格对应的当日网格初始时刻车辆数量、当日网格骑入车辆数量和当日网格挪入车辆数量进行求和，得到当日网格车辆总数进行求和，得到当日区域车辆总数，并将当日区域未流出车辆数量与当日区域车辆总数的比值作为区域不动率。

针对区域挪出有效性的计算，基于步骤308中确定网格周转价值相同的原理，终端根据满足区域筛选条件的候选低效区域中全部第二网格对应的当日骑入车辆、当日挪入车辆，得到各满足区域筛选条件的候选低效区域的当日流入车辆，以及各当日流入车辆在预设时间段（例如24小时）内产生的订单数量的平均值，作为满足区域筛选条件的候选低效区域的区域挪出有效性。

步骤704，根据区域不动率和区域挪出有效性，计算各满足区域筛选条件的候选低效区域的区域得分，并根据区域得分确定各满足区域筛选条件的候选低效区域的排名名次。

本申请实施例中，终端计算在第二预设时间段（例如一个月）内区域不动律和区域挪出有效性的平均值，并将每个满足区域筛选条件的候选低效区域对应的区域不动律的平均值与区域挪出有效性的平均值的乘积，作为满足区域筛选条件的候选低效区域的区域得分。并根据该区域得分对满足区域筛选条件的候选低效区域进行排名，得到每个满足区域筛选条件的候选低效区域的排名名次。

步骤706，将排名名次大于预设名次阈值的满足区域筛选条件的候选低效区域，确定为目标低效区域。

本申请实施例中，将排名名次大于预设名次阈值（例如，排名前30%的满足区域筛选条件的候选低效区域）的满足区域筛选条件的候选低效区域，确定为目标低效区域。

本实施例中，通过计算满足区域筛选条件的候选低效区域对应的区域得分以及排名名次，可以筛选出最具区域低效的代表性的目标低效区域，提高确定目标低效区域的准确性。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的数据处理方法的数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个数据处理装置实施例中的具体限定可以参见上文中对于数据处理方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种数据处理装置800，包括：获取模块801、第一确定模块802、第一聚类模块803、第二聚类模块804和第二确定模块805，其中：

获取模块801，用于获取城市服务区域的区域数据；区域数据中包含城市服务区域的城市指标、城市服务区域中的第一网格以及第一网格的网格指标；

第一确定模块802，用于根据城市指标与网格指标，在第一网格中确定满足预设筛选条件的第二网格；

第一聚类模块803，用于通过密度聚类算法对第二网格进行聚类处理，得到候选低效区域；

第二聚类模块804，用于基于距离聚类算法对候选低效区域中不满足区域筛选条件的候选低效区域进行分割处理，得到分割后满足区域筛选条件的候选低效区域；

第二确定模块805，用于基于各满足区域筛选条件的候选低效区域包含的第二网格，确定目标低效区域。

在其中一个实施例中，获取模块801具体用于：

基于预设空间索引算法，对城市服务区域进行划分，得到城市服务区域的多个第一网格；

根据城市服务区域内的车辆订单记录和车辆调度记录，确定城市服务区域中每一第一网格的车辆流动指标；

根据车辆流动指标计算城市服务区域的城市指标和每个第一网格的网格指标。

在其中一个实施例中，获取模块801具体用于：

根据车辆流动指标中的当日网格骑出车辆数量、当日网格初始时刻车辆数量、当日网格骑入车辆数量和当日网格挪入车辆数量，确定每个第一网格的网格流出效率；

根据车辆流动指标中的当日网格未骑出车辆数量、当日网格未挪出车辆数量、当日网格初始时刻车辆数量、当日网格骑入车辆数量和当日网格挪入车辆数量，确定每个第一网格的网格不动率；

根据车辆流动指标中骑出第一网格的骑出车辆的第一时间，以及骑出车辆的上次骑入第一网格的第二时间或骑出车辆上次被挪入第一网格的第二时间，确定每个第一网格的网格周转时长；

根据车辆流动指标中当日骑入车辆、当日挪入车辆、当日骑入车辆和当日挪入车辆在第一预设时间段内的订单数量，确定每个第一网格的网格周转价值。

在其中一个实施例中，获取模块801具体用于：

根据每个第一网格的网格流出效率和第二预设时间段，确定城市平均流出效率；

根据每个第一网格的网格不动率和第二预设时间段，确定城市平均不动率；

根据每个第一网格的网格周转时长与第二预设时间段，确定城市平均周转时长；

根据每个第一网格的网格周转价值与第二预设时间段，确定城市平均周转价值。

在其中一个实施例中，第一确定模块802具体用于：

在其中一个实施例中，第一聚类模块803具体用于：

获取第二网格的网格索引；网格索引表征第二网格的位置信息；

确定密度聚类算法的参数；

基于密度聚类算法的参数与位置信息对第二网格进行聚类，并根据聚类结果确定候选低效区域。

在其中一个实施例中，第二聚类模块804具体用于：

确定各候选低效区域包含的第二网格的数量；

将包含的第二网格的数量大于网格数量阈值的候选低效区域确定为不满足区域筛选条件的候选低效区域；

根据不满足区域筛选条件的候选低效区域包含的第二网格的数量、网格数量阈值确定距离聚类算法的参数；

基于距离聚类算法的参数与不满足区域筛选条件的候选低效区域中第二网格的位置信息对不满足区域筛选条件的候选低效区域中的第二网格进行聚类，并根据聚类结果确定满足区域筛选条件的候选低效区域。

在其中一个实施例中，第二确定模块805具体用于：

基于各满足区域筛选条件的候选低效区域包含的第二网格确定第二网格的车辆流动指标，根据车辆流动指标确定各满足区域筛选条件的候选低效区域的区域不动率和区域挪出有效性；

根据区域不动率和区域挪出有效性，计算各满足区域筛选条件的候选低效区域的区域得分，并根据区域得分确定各满足区域筛选条件的候选低效区域的排名名次；

将排名名次大于预设名次阈值的满足区域筛选条件的候选低效区域，确定为目标低效区域。

上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储区域数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取城市服务区域的区域数据；区域数据中包含城市服务区域的城市指标、城市服务区域中的第一网格以及第一网格的网格指标；

根据城市指标与网格指标，在第一网格中确定满足预设筛选条件的第二网格；

通过密度聚类算法对第二网格进行聚类处理，得到候选低效区域；

基于距离聚类算法对候选低效区域中不满足区域筛选条件的候选低效区域进行分割处理，得到分割后满足区域筛选条件的候选低效区域；

基于各满足区域筛选条件的候选低效区域包含的第二网格，确定目标低效区域。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

确定密度聚类算法的参数；

确定各候选低效区域包含的第二网格的数量；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

基于各所述满足所述区域筛选条件的候选低效区域包含的所述第二网格，确定目标低效区域；

所述基于距离聚类算法对所述候选低效区域中不满足区域筛选条件的候选低效区域进行分割处理，得到分割后满足所述区域筛选条件的候选低效区域，包括：

确定各所述候选低效区域包含的所述第二网格的数量；

基于所述距离聚类算法的参数与所述不满足区域筛选条件的候选低效区域中所述第二网格的位置信息对所述不满足区域筛选条件的候选低效区域中的所述第二网格进行聚类，并根据聚类结果确定满足区域筛选条件的候选低效区域；

所述基于各所述满足所述区域筛选条件的候选低效区域包含的所述第二网格，确定目标低效区域，包括：

基于各所述满足所述区域筛选条件的候选低效区域包含的所述第二网格，计算各所述满足所述区域筛选条件的候选低效区域的区域得分，并根据所述区域得分确定所述各所述满足所述区域筛选条件的候选低效区域的排名名次；

2.根据权利要求1所述的方法，其特征在于，所述获取城市服务区域的区域数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述网格指标包括网格流出效率、网格不动率、网格周转时长和网格周转价值；所述根据所述车辆流动指标计算每个所述第一网格的网格指标，包括：

4.根据权利要求2所述的方法，其特征在于，所述城市指标包括城市平均流出效率、城市平均不动率、城市平均周转时长和城市平均周转价值；所述根据所述车辆流动指标计算所述城市服务区域的城市指标，包括：

根据每个所述第一网格的网格不动率和所述第二预设时间段，确定所述城市平均不动率；

5.根据权利要求1所述的方法，其特征在于，所述根据所述城市指标与所述网格指标，在所述第一网格中确定满足预设筛选条件的第二网格，包括：

6.根据权利要求1所述的方法，其特征在于，所述通过密度聚类算法对所述第二网格进行聚类处理，得到候选低效区域，包括：

确定密度聚类算法的参数；

7.根据权利要求1所述的方法，其特征在于，所述基于各所述满足所述区域筛选条件的候选低效区域包含的所述第二网格，计算各所述满足所述区域筛选条件的候选低效区域的区域得分，包括：

根据所述区域不动率和所述区域挪出有效性，计算各所述满足所述区域筛选条件的候选低效区域的区域得分。

8.一种数据处理装置，其特征在于，所述装置包括：

第二确定模块，用于基于各所述满足所述区域筛选条件的候选低效区域包含的所述第二网格，确定目标低效区域；

所述第二聚类模块具体用于：

确定各所述候选低效区域包含的所述第二网格的数量；

所述第二确定模块具体用于：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。