CN109711451A

CN109711451A - 一种数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN109711451A
Application number: CN201811565378.0A
Authority: CN
Inventors: 赵松; 王纯斌; 赵神州; 覃进学; 赵红军
Original assignee: Chengdu Sefon Software Co Ltd
Current assignee: Chengdu Sefon Software Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-05-03

Abstract

本申请提供一种数据处理方法、装置、电子设备及存储介质，用于解决现有技术中在实际的公交车站点路线计算工作中，使用传统的统计计算方法找到的公交车路线并不理想的问题。该数据处理方法包括：获得多个位置点中的至少一个核心点；根据至少一个核心点计算多个位置点中对应的多个聚合区域中每个聚合区域的中心点；使用预设公式获得每个聚合区域的中心点中流量最大的中心点；将流量最大的中心点与转乘点连接；将该流量最大的中心点配置为新的转乘点；若新的转乘点不为终点，则跳转至执行使用预设公式获得每个聚合区域的中心点中流量最大的中心点的步骤；若新的转乘点为终点，则将被连线的中心点形成的连线确定为推荐路线。

Description

一种数据处理方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理的技术领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

聚类(Clustering)算法的本质是对数据进行分类，将相异的数据尽可能的分开，将相似的数据聚集成一个类别(也叫族，cluster),从而发现数据中隐藏的有用信息和知识。聚类算法广泛应用于市场分析、决策支持、数据压缩、模式识别等诸多领域。

目前在实际的公交车站点路线计算工作中，通过聚类算法得到候选车站集，因为筛选出的候选车站多且分布也很广，需要找出一条载客量最多的路径，而使用传统的统计方法和k-means方法找出的公交路线并不理想。因此，现有技术中存在着在实际的公交车站点路线计算工作中，使用传统的统计计算方法找到的公交车路线并不理想的问题。

发明内容

有鉴于此，本申请提供一种数据处理方法、装置、电子设备及存储介质，用于解决现有技术中在实际的公交车站点路线计算工作中，使用传统的统计计算方法找到的公交车路线并不理想的问题。

本申请实施例提供了的一种数据处理方法，应用于电子设备，包括：获得多个位置点中的至少一个核心点；根据所述至少一个核心点计算所述多个位置点中对应的多个聚合区域中每个聚合区域的中心点；使用预设公式获得每个聚合区域的中心点中流量最大的中心点；将所述流量最大的中心点与转乘点连接；将该流量最大的中心点配置为新的转乘点；若所述新的转乘点不为终点，则跳转至执行使用预设公式获得每个聚合区域的中心点中流量最大的中心点的步骤；若所述新的转乘点为终点，则将被连线的中心点形成的连线确定为推荐路线。

可选地，在本申请实施例中，在所述获得多个位置点中的至少一个核心点之前，还包括：获得乘客的上车地点和下车地点的多个位置数据对应的位置点。

可选地，在本申请实施例中，在所述使用预设公式获得每个聚合区域的中心点中流量最大的中心点之后，在所述将该流量最大的中心点与转乘点连接之前，还包括：确定所述流量最大的中心点与所述转乘点的方向，以及所述流量最大的中心点与所述转乘点的距离满足预设条件。

可选地，在本申请实施例中，所述方法还包括：若所述流量最大的中心点不满足所述预设条件，则将该流量最大的中心点删除，执行步骤“使用预设公式获得每个聚合区域的中心点中流量最大的中心点”。

可选地，在本申请实施例中，所述获得多个位置点中的至少一个核心点，包括：计算所述多个位置点中的每个位置点与除所述位置点之外的位置点的距离，获得所述位置点的多个距离；判断每个所述位置点的多个距离大于预设距离的个数是否大于预设数值；若是，则判定所述位置点为核心点。

可选地，在本申请实施例中，所述根据所述至少一个核心点计算所述多个位置点中对应的每个聚合区域的中心点，包括：将所述至少一个核心点中的每个作为第一待测点；获得所述第一待测点的密度可达点，所述密度可达点为与所述第一待测点的距离小于预设距离的位置点；将所述密度可达点作为新的第一待测点，执行步骤“获得所述第一待测点的密度可达点”，直到不能获得新的密度可达点；将每个核心点以及所述每个核心点对应的全部密度可达点作为一个聚合区域；获得每个聚合区域的中心点。

可选地，在本申请实施例中，所述使用预设公式获得每个聚合区域的中心点中流量最大的中心点，包括：根据公式获得每个聚合区域的中心点中流量最大的中心点；其中，表示根据已经连接了的前i个中心点选择的下一个中心点的人流量占比，S^*表示从当前中心点出发可到达的下一中心点集，S^*包含下一个可连接的中心点表示选在为下一中心点时，前面已连接的所有中心点到的人流之和，表示S^*中每一可连接中心点集的人流量之和。

本申请实施例还提供了的一种数据处理装置，应用于电子设备，包括：核心点获得模块，用于获得多个位置点中的至少一个核心点；中心点计算模块，用于根据所述至少一个核心点计算所述多个位置点中对应的每个聚合区域的中心点；中心点获得模块，用于使用预设公式获得每个聚合区域的中心点中流量最大的中心点；中心点连接模块，用于将该流量最大的中心点与转乘点连接；转乘点配置模块，用于将该流量最大的中心点配置为新的转乘点；跳转执行步骤模块，用于跳转至执行使用预设公式获得每个聚合区域的中心点中流量最大的中心点的步骤；推荐路线确定模块，用于将被连线的中心点形成的连线确定为推荐路线。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如上所述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上所述的方法。

本申请提供一种数据处理方法、装置、电子设备及存储介质，通过根据获得多个位置点中的至少一个核心点，来计算多个位置点中对应的每个聚合区域的中心点，再根据预设公式获得每个聚合区域的中心点中流量最大的中心点，然后将该流量最大的中心点与转乘点连接；将该流量最大的中心点作为新的转乘点，对于除与转乘点连接的中心点以外的中心点，执行步骤“使用预设公式获得每个聚合区域的中心点中流量最大的中心点”，直到每个中心点均被处理，将被连线的中心点形成的连线作为公交路线。也就是说，根据现有的数据采用了相关性启发式搜索算法能够准确方便计算出理想的公交车路线。通过这种方式从而有效地解决了现有技术中在实际的公交车站点路线计算工作中，使用传统的统计计算方法找到的公交车路线并不理想的问题。

为使本申请的上述目的和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚的说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的电子设备结构示意图；

图2示出了本申请实施例提供的数据处理方法流程示意图；

图3示出了本申请实施例提供的数据处理方法的全部流程示意图；

图4示出了本申请实施例提供的某市出租车的数据示意图；

图5示出了本申请实施例提供的数据处理方法步骤S110的流程示意图；

图6示出了本申请实施例提供的数据处理方法步骤S120的流程示意图；

图7示出了本申请实施例提供的数据处理装置结构示意图。

图标：100-数据处理装置；101-处理器；102-存储器；103-存储介质；109-电子设备；110-核心点获得模块；120-中心点计算模块；130-中心点获得模块；140-中心点连接模块；150-转乘点配置模块；160-跳转执行步骤模块；170-推荐路线确定模块。

具体实施方式

本申请实施例提供一种数据处理方法、装置、电子设备及存储介质，用于解决现有技术中在实际的公交车站点路线计算工作中，使用传统的统计计算方法找到的公交车路线并不理想的问题。其中，应用于电子设备的方法和装置是基于同一创造构思的，由于方法及相应的装置和设备解决问题的原理相似，因此方法及相应的装置和设备的实施可以相互参见，重复之处不再赘述。

以下将对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

启发式搜索算法，就是在状态空间中的搜索对每一个搜索的位置进行评估，得到最好的位置，再从这个位置进行搜索直到目标。启发式搜索就是在状态空间中的搜索对每一个搜索的位置进行评估，得到最好的位置，再从这个位置进行搜索直到目标。这样可以省略大量无谓的搜索路径，提高了效率。在启发式搜索中，对位置的估价是十分重要的。采用了不同的估价可以有不同的效果。

聚类算法，或称聚类分析，又称群分析，它是研究(样品或指标)分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。聚类(Cluster)分析是由若干模式(Pattern)组成的，通常，模式是一个度量(Measurement)的向量，或者是多维空间中的一个点。。聚类(Clustering)算法的本质是对数据进行分类，将相异的数据尽可能的分开，将相似的数据聚集成一个类别(也叫族，cluster),从而发现数据中隐藏的有用信息和知识。聚类算法广泛应用于市场分析、决策支持、数据压缩、模式识别等诸多领域。聚类算法分为5类：基于分层的聚类、基于划分的聚类、基于密度的聚类、基于网格的聚类以及基于模型的聚类算法。

OD数据，又称OD调查即交通起止点调查又称OD交通量调查，OD交通量就是指起终点间的交通出行量。“O”来源于英文ORIGIN，指出行的出发地点，“D”来源于英文DESTINATION，指出行的目的地。在本申请实施例中，OD数据是指人们的出租车出行数据。

GPS是英文Global Positioning System(全球定位系统)的简称。利用GPS定位卫星，在全球范围内实时进行定位、导航的系统，称为全球卫星定位系统，简称GPS。GPS是由美国国防部研制建立的一种具有全方位、全天候、全时段、高精度的卫星导航系统，能为全球用户提供低成本、高精度的三维位置、速度和精确定时等导航信息，是卫星通信技术在导航领域的应用典范，它极大地提高了地球社会的信息化水平，有力地推动了数字经济的发展。

基于密度聚类算法是基于一组邻域来描述样本集的紧密程度的，参数(∈,MinPts)用来描述邻域的样本分布紧密程度。其中，∈描述了某一样本的邻域距离阈值，MinPts描述了某一样本的距离为∈的邻域中样本个数的阈值。样本集是D＝(x1,x2,...,xm),则基于密度聚类算法具体的密度描述定义如下：

1)∈-邻域：对于xj∈D，其∈-邻域包含样本集D中与xj的距离不大于∈的子样本集，即N∈(xj)＝{xi∈D|distance(xi,xj)≤∈},这个子样本集的个数记为|N∈(xj)|

2)核心对象：对于任一样本xj∈D，如果其∈-邻域对应的N∈(xj)至少包含MinPts个样本，即如果|N∈(xj)|≥MinPts，则xj是核心对象。

3)密度直达：如果xi位于xj的∈-邻域中，且xj是核心对象，则称xi由xj密度直达。注意反之不一定成立，即此时不能说xj由xi密度直达,除非且xi也是核心对象。

4)密度可达：对于xi和xj,如果存在样本样本序列p1,p2,...,pT,满足p1＝xi,pT＝xj,且pt+1由pt密度直达，则称xj由xi密度可达。也就是说，密度可达满足传递性。此时序列中的传递样本p1,p2,...,pT-1均为核心对象，因为只有核心对象才能使其他样本密度直达。注意密度可达也不满足对称性，这个可以由密度直达的不对称性得出。

5)密度相连：对于xi和xj,如果存在核心对象样本xk，使xi和xj均由xk密度可达，则称xi和xj密度相连。注意密度相连关系是满足对称性的。

另外，需要理解的是，在本申请实施例的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或者暗示相对重要性，也不能理解为指示或者暗示顺序。

下面结合附图，对本申请实施例的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参见图1，图1示出了本申请实施例提供的电子设备结构示意图。本申请实施例提供了的一种电子设备109，包括：处理器101和存储器102，存储器102存储有处理器101可执行的机器可读指令，机器可读指令被处理器101执行时执行如下费用计算方法。

在具体的实施过程中，对卷积神经网络(Convolutional Neural Network，CNN)的相关计算可以用图形处理器(Graphics Processing Unit，GPU)进行加速，因此，该电子设备还可以包括图形处理器。此外，在使用分布式计算框架时需要使用通信接口，该电子设备还可以包括通讯与网络扩展卡、光纤卡或者多串口通信卡等部件，在此不再赘述。

请参见图1，本申请实施例提供了的一种存储介质103，该存储介质103上存储有计算机程序，该计算机程序被处理器101运行时执行如下费用计算方法。

其中，存储介质103可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

本领域技术人员可以理解，图1中示出的电子设备的结构并不构成对该设备的限定，本申请实施例提供的设备可以包括比图示更多或者更少的部件，或者不同的部件布置。

第一实施例

请参见图2，图2示出了本申请实施例提供的数据处理方法流程示意图。本申请实施例提供了的一种数据处理方法，应用于电子设备，包括：

步骤S110：获得多个位置点中的至少一个核心点。

其中，在正式的数据处理之前，还需要对上面的某市出租车的数据作为原始数据进行预处理，数据预处理的思路如下：

1)由于规划的是公交线路，主要考虑城市内的OD数据(ORIGIN DESTINATION，OD，这里主要指通过出租车出行的数据)，OD交通量就是指起终点间的交通出行量，所以需要删除GPS点越界数据，超出城市范围的数据。

2)如果一辆出租车的GPS数据长期不变化，速度长期为0，说明该车没有工作，这些数据没有意义。所以需要删除车辆长期静止的数据，速度长期为零。

3)由于GPS数据有时会发生漂移，如果短时间内两个GPS距离相差过大，说明数据有问题，所以需要删除GPS短时间跳动过大的数据。

4)提取OD数据，确定乘客的上车位置和下车位置。如果出租车的状态从1到0，说明是下车点；反之，从0到1是上车点。

请参见图3，图3示出了本申请实施例提供的数据处理方法的全部流程示意图。可选地，在本申请实施例中，在获得多个位置点中的至少一个核心点之前，还包括：

步骤S100：获得乘客的上车地点和下车地点的多个位置数据对应的位置点。

需要说明的是，请参见图4，图4示出了本申请实施例提供的某市出租车的数据示意图。这里的多个位置点是从某市出租车的数据中获取的，其中，列表中的数据从左至右的数据列意思依次为：显示数据的行号、数据的唯一标示、创建时间、经度、维度、速度、角度、状态；经度和维度表示出租车中的乘客下车或者上车，也就是出租车停车时候的位置的经度和维度。其中，多个位置数据对应的位置点表示，一条数据中的经度和维度，通过经度和维度就可以表示一个点的数据，即这里的位置点。

请参见图5，图5示出了本申请实施例提供的数据处理方法步骤S110的流程示意图。可选地，在本申请实施例中，获得多个位置点中的至少一个核心点，包括：

步骤S111：计算多个位置点中的每个位置点与除位置点之外的位置点的距离，获得位置点的多个距离。

其中，当然在具体的实施过程中，“计算多个位置点中的每个位置点与除位置点之外的位置点的距离，获得位置点的多个距离”也可以根据实际情况对该步骤的计算进行优化，因此，该步骤的具体的实现方式和内容不应理解为对本申请实施例的限制。

步骤S112：判断位置点的多个距离大于预设距离的个数是否大于预设数值。

其中，由于公交车站点的距离不宜过近或过远，所以这里的预设距离也不能过大或者过小，在具体的实施过程中，一般在500—1000m左右。当然也可以根据实际情况，对预设距离进行调整。这里的预设数值可以是5，也可以是8或者9，因此，这里的预设距离和预设数值不能理解为对本申请实施例的限制。

步骤S113：若是，则判定位置点为核心点。

其中，这里的核心点有时也被称为核心对象，判定位置点为核心点，这个步骤有时候也被描述为，如果位置点的预设距离范围内的位置点的个数大于预设数值，则判定该位置点为核心点。因此，这里的步骤具体描述和实现方式不应理解为对本申请实施例的限制。

需要说明的是，这个步骤需要重复执行步骤S112，直到每个位置点均被处理，获得至少一个核心点。

其中，若否的情况这里没有讨论，在具体的实施过程中，若“判断位置点的多个距离大于预设距离的个数小于或者等于预设数值”，则执行步骤S112，直到每个位置点均被处理，获得至少一个核心点。

步骤S120：根据至少一个核心点计算多个位置点中对应的每个聚合区域的中心点。

需要说明的是，请参见图6，图6示出了本申请实施例提供的数据处理方法步骤S120的流程示意图。可选地，在本申请实施例中，根据至少一个核心点计算多个位置点中对应的每个聚合区域的中心点，包括：

步骤S121：将至少一个核心点中的每个作为第一待测点。

其中，这里将至少一个核心点中的每个作为第一待测点，当获得第一待测点的密度可达点之后，又将获得的密度可达点作为新的第一待测点，这里是循环执行的过程，也是递归执行的过程，直到获取到该核心点的所有的密度可达点。

步骤S122：获得第一待测点的密度可达点；

其中，这里的密度可达点为与第一待测点的距离小于预设距离的位置点，也就是说，以第一待测点为圆心，以预设距离为半径覆盖范围内的位置点被判定为密度可达点，当然，也可以当位置点与第一待测点的距离小于预设距离时，该位置点被判定为密度可达点。因此，这里的密度可达点的具体判定方式不应理解为本申请实施例的限制。

步骤S123：将密度可达点作为新的第一待测点，执行步骤“获得第一待测点的密度可达点”，直到不能获得新的密度可达点。

其中，将密度可达点作为新的第一待测点，执行步骤“获得第一待测点的密度可达点”，直到不能获得新的密度可达点时，即可获得全部密度可达点。

步骤S124：将每个核心点以及每个核心点对应的全部密度可达点作为一个聚合区域。

需要说明的是，获得每个聚合区域的中心点，可以是通过均值融合方式来获取的，例如：当然，也可以通过加权融合来获取，例如：

其中，该中心点(x,y)的经度为x，维度为y，n为该聚合区域内的中心点的个数，x_i,y_j分别表示第i个中心点的经度和第j个中心点的维度，λ_i,λ_j分别表示第i个中心点的权重和第j个中心点的权重。

步骤S125：获得每个聚合区域的中心点。

步骤S130：使用预设公式获得每个聚合区域的中心点中流量最大的中心点。

需要说明的是，在本申请实施例中，使用预设公式获得每个聚合区域的中心点中流量最大的中心点，包括：

根据公式获得每个聚合区域的中心点中流量最大的中心点；

其中，表示根据已经连接了的前i个中心点选择的下一个中心点的人流量占比，S^*表示从当前中心点出发可到达的下一中心点集，S^*包含下一个可连接的中心点表示选在为下一中心点时，前面已连接的所有中心点到的人流之和，表示S^*中每一可连接中心点集的人流量之和。

请参见图3，可选地，在本申请实施例中，在使用预设公式获得每个聚合区域的中心点中流量最大的中心点之后，在将该流量最大的中心点与转乘点连接之前，还包括：

步骤S140：确定流量最大的中心点与转乘点的方向，以及流量最大的中心点与转乘点的距离满足预设条件。

需要说明的是，公交路线的起点和终点均已经确定，从候选停车集里选择合适的路线是一个非常复杂的过程，这里的预设条件需要基于一下几个规则：

a)两车站间距离要合适，如果公交站距离太远，乘客走路花费的时间过长；如果距离太近，则停车次数过大，公交车行驶时间过长。一般不能超过2km。

b)保证车辆是向前行驶。假设起点到终点的方向为x轴，相邻两个站和x轴的夹角为[-90°,90°]。

c)每一个站点要远离出发点。

d)每一个站点都要靠近终点站。

其中，a是流量最大的中心点与转乘点的距离条件，而b、c、d是流量最大的中心点与转乘点的的方向条件，预设条件为同时满足流量最大的中心点与转乘点的方向，以及流量最大的中心点与转乘点的距离的条件，即满足ab、ac或者ad条件。

步骤S150：将该流量最大的中心点与转乘点连接。

其中，在具体的实施过程中，公交路线是以集合的方式体现，整个方法开始时，加入已经确定好的起点，筛选下一个流量最大的中心点加入到公交路线的集合中。在本方法中的此步骤里，这个起点即为此步骤中的中心点，下一个流量最大的中心点即为转乘点。因此，这里的将该流量最大的中心点与转乘点连接，其具体的实现方式和内容不应理解为对本申请实施例的限制。

步骤S160：将该流量最大的中心点配置为新的转乘点。

请参见图3，可选地，在本申请实施例中，方法还包括：

步骤S170：若新的转乘点不为终点，则跳转至执行使用预设公式获得每个聚合区域的中心点中流量最大的中心点的步骤。

步骤S180：若新的转乘点为终点，则将被连线的中心点形成的连线确定为推荐路线。

其中，在具体的实施过程中，若“判断流量最大的中心点不满足预设条件”，则将该流量最大的中心点删除，执行步骤S130。直到每个中心点均被处理，将被连线的中心点形成的连线作为公交路线。当然在具体的实施过程中，这里预设条件可以在算法之前进行处理，以免算法在处理中出现各种问题。因此，这里预设条件是否算法之前进行处理不应理解为对本申请实施例的限制。

为了便于理解，下面介绍本申请实施例提供的数据处理方法的另一种实施方式，本申请实施例提供的数据处理方法的另一种实施方式具体描述如下：

输入：样本集D＝(x1,x2,...,xm)，邻域参数(∈,MinPts),样本距离度量方式

输出：簇划分C.

1)初始化核心对象集合初始化聚类簇数k＝0，初始化未访问样本集合Γ＝D,簇划分

2)对于j＝1,2,...m,按下面的步骤找出所有的核心对象：

a)通过距离度量方式，找到样本xj的∈-邻域子样本集N∈(xj)

b)如果子样本集样本个数满足|N∈(xj)|≥MinPts，将样本xj加入核心对象样本集合：Ω＝Ω∪{xj}

3)如果核心对象集合则算法结束，否则转入步骤4.

4)在核心对象集合Ω中，随机选择一个核心对象o，初始化当前簇核心对象队列Ωcur＝{o},初始化类别序号k＝k+1，初始化当前簇样本集合Ck＝{o},更新未访问样本集合Γ＝Γ-{o}

5)如果当前簇核心对象队列则当前聚类簇Ck生成完毕,更新簇划分C＝{C1,C2,...,Ck},更新核心对象集合Ω＝Ω-Ck，转入步骤3。

6)在当前簇核心对象队列Ωcur中取出一个核心对象o′,通过邻域距离阈值∈找出所有的∈-邻域子样本集N∈(o′)，令Δ＝N∈(o′)∩Γ,更新当前簇样本集合Ck＝Ck∪Δ,更新未访问样本集合Γ＝Γ-Δ,更新Ωcur＝Ωcur∪(Δ∩Ω)-o′，转入步骤5.

输出结果为：簇划分C＝{C1,C2,...,Ck}

使用分割合并算法确认合理的候选停车集。

由于公交车站点的距离不宜过近或过远，所以候选候车区点辐射的热点区域要适中。

如果通过聚类算法算出的两个热点区域相邻而且面积很小，就可以合并，如果一个热点区域过大，就需要拆分为更小的区域。一般来说，最后形成的热点区域长宽大小都在500m至1000m的范围。

从候选停车集里选择合适的路线是一个非常复杂的过程，必须明确两个原则：一是确保路线经过所筛选的候选车站二是能够在规定的时间内载到最大数量的乘客。如果直接从起始点开始选择具有最大客流量的车站，这样一直下去必然导致两个问题：一是公交车车绕圈而没法到达终点，二是可能未在规定的时间内载到最大数量的乘客。所以需要基于一下几个规则剪枝：

1)两车站间距离要合适，如果公交站距离太远，乘客走路花费的时间过长；如果距离太近，则停车次数过大，公交车行驶时间过长。一般不能超过2km。

2)保证车辆是向前行驶。假设起点到终点的方向为x轴，相邻两个站和x轴的夹角为[-90°,90°]。

3)每一个站点要远离出发点。

4)每一个站点都要靠近终点站。

计算流量矩阵和时间矩阵，使用相关性启发式搜索算法生成最优路径。

流量矩阵：fm,fm(i,j)表示一天内从i到j的人流与从j到i的人流之和除以2,所以fm(i,j)＝fm(j,i)

时间矩阵：tm,tm(i,j)表示从i到j的用时，用i到j的距离处以一个平均速度v，这里v取15m/s.

计算客流量和运行时间矩阵，矩阵的每个元素表示从当前候选车站i，到下一候选车站j(i！＝j)乘客数量和运行时间。

使用相关性启发式搜索算法生成最优路径。算法描述如下：

输入：候选车站集、客流量矩阵

输出：起始地到目的地的公交路线R*

(1):

(2):(开始R为空集，表示公交路线设计尚未开始)

(3):curR＝s1(s1为起始地)

(4):Repeat

(5):利用预设公式计算选取下一个车站si*

(6):R＝curR U si*(把要走的车站si*加如集合)

(7):重复(5)(6)两步直到s*＝sn(到达终点)

(8):return R

其中，步骤(5)中的预设公式如下：

S*表示从当前站点出发可到达的下一站点集，其中包含下一个可到达的节点S*i，

P(s*i|<s1,s2,…,si>)表示根据已经选择了的前i个站点选择的下一个站点s*i的人流量占比。

示选在s*i为下一站点时，前面已选的所有站点到s*i的人流之和。

示S*中每一可选站点集的人流量之和，归一化因子。

最后，选择P(s*i|<s1,s2,…,si>)最大的站点s*i作为下一个车站点。

第二实施例

请参见图7，图7示出了本申请实施例提供的数据处理装置结构示意图。本申请实施例提供了的一种数据处理装置100，应用于电子设备109，该数据处理装置100包括：

核心点获得模块110，用于获得多个位置点中的至少一个核心点；

中心点计算模块120，用于根据至少一个核心点计算多个位置点中对应的每个聚合区域的中心点；

中心点获得模块130，用于使用预设公式获得每个聚合区域的中心点中流量最大的中心点；

中心点连接模块140，用于将该流量最大的中心点与转乘点连接；

转乘点配置模块150，用于将该流量最大的中心点配置为新的转乘点；

跳转执行步骤模块160，用于跳转至执行使用预设公式获得每个聚合区域的中心点中流量最大的中心点的步骤；

推荐路线确定模块170，用于将被连线的中心点形成的连线确定为推荐路线。

本申请实施例提供一种数据处理方法、装置、电子设备及存储介质，通过根据获得多个位置点中的至少一个核心点，来计算多个位置点中对应的每个聚合区域的中心点，再根据预设公式获得每个聚合区域的中心点中流量最大的中心点，然后将该流量最大的中心点与转乘点连接；将该流量最大的中心点作为新的转乘点，对于除与转乘点连接的中心点以外的中心点，执行步骤“使用预设公式获得每个聚合区域的中心点中流量最大的中心点”，直到每个中心点均被处理，将被连线的中心点形成的连线作为公交路线。也就是说，根据现有的数据采用了相关性启发式搜索算法能够准确方便计算出理想的公交车路线。通过这种方式从而有效地解决了现有技术中在实际的公交车站点路线计算工作中，使用传统的统计计算方法找到的公交车路线并不理想的问题。

以上仅为本申请实施例的优选实施例而已，并不用于限制本申请实施例，对于本领域的技术人员来说，本申请实施例可以有各种更改和变化。凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，应用于电子设备，包括：

获得多个位置点中的至少一个核心点；

根据所述至少一个核心点计算所述多个位置点中对应的多个聚合区域中每个聚合区域的中心点；

使用预设公式获得每个聚合区域的中心点中流量最大的中心点；

将所述流量最大的中心点与转乘点连接；

将该流量最大的中心点配置为新的转乘点；

若所述新的转乘点不为终点，则跳转至执行使用预设公式获得每个聚合区域的中心点中流量最大的中心点的步骤；

若所述新的转乘点为终点，则将被连线的中心点形成的连线确定为推荐路线。

2.如权利要求1所述的方法，其特征在于，在所述获得多个位置点中的至少一个核心点之前，还包括：

获得乘客的上车地点和下车地点的多个位置数据对应的位置点。

3.如权利要求1所述的方法，其特征在于，在所述使用预设公式获得每个聚合区域的中心点中流量最大的中心点之后，在所述将该流量最大的中心点与转乘点连接之前，还包括：

确定所述流量最大的中心点与所述转乘点的方向，以及所述流量最大的中心点与所述转乘点的距离满足预设条件。

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

若所述流量最大的中心点不满足所述预设条件，则将该流量最大的中心点删除，执行步骤“使用预设公式获得每个聚合区域的中心点中流量最大的中心点”。

5.如权利要求1所述的方法，其特征在于，所述获得多个位置点中的至少一个核心点，包括：

计算所述多个位置点中的每个位置点与除所述位置点之外的位置点的距离，获得所述位置点的多个距离；

判断每个所述位置点的多个距离大于预设距离的个数是否大于预设数值；

若是，则判定所述位置点为核心点。

6.如权利要求1所述的方法，其特征在于，所述根据所述至少一个核心点计算所述多个位置点中对应的每个聚合区域的中心点，包括：

将所述至少一个核心点中的每个作为第一待测点；

获得所述第一待测点的密度可达点，所述密度可达点为与所述第一待测点的距离小于预设距离的位置点；

将所述密度可达点作为新的第一待测点，执行步骤“获得所述第一待测点的密度可达点”，直到不能获得新的密度可达点；

将每个核心点以及所述每个核心点对应的全部密度可达点作为一个聚合区域；

获得每个聚合区域的中心点。

7.如权利要求1所述的方法，其特征在于，所述使用预设公式获得每个聚合区域的中心点中流量最大的中心点，包括：

根据公式获得每个聚合区域的中心点中流量最大的中心点；

8.一种数据处理装置，其特征在于，应用于电子设备，包括：

核心点获得模块，用于获得多个位置点中的至少一个核心点；

中心点计算模块，用于根据所述至少一个核心点计算所述多个位置点中对应的每个聚合区域的中心点；

中心点获得模块，用于使用预设公式获得每个聚合区域的中心点中流量最大的中心点；

中心点连接模块，用于将该流量最大的中心点与转乘点连接；

转乘点配置模块，用于将该流量最大的中心点配置为新的转乘点；

跳转执行步骤模块，用于跳转至执行使用预设公式获得每个聚合区域的中心点中流量最大的中心点的步骤；

推荐路线确定模块，用于将被连线的中心点形成的连线确定为推荐路线。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1-7任一所述的方法。

10.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1-7任一所述的方法。