CN108109381B

CN108109381B - 交叉口分类方法及系统

Info

Publication number: CN108109381B
Application number: CN201810112429.8A
Authority: CN
Inventors: 陈冬; 王浩; 李晓丹
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2020-09-15
Anticipated expiration: 2038-02-05
Also published as: CN108109381A

Abstract

本发明提供了一种交叉口分类方法及系统，本发明通过获取M个交叉口的交通流量数据，根据每个交叉口的交通流量数据建立每个交叉口对应的多维向量，根据每个交叉口对应的多维向量，并通过PAM算法，将M个交叉口分为K个集合，每个交叉口被分配到离其自身最近的一个集合中，根据每个交叉口对应的多维向量，确定每个集合中的中心点，本发明为交叉口的分类提供了基础的数据依据和可靠的分类标准。为以后各类交叉口设计合理的交通管理方案，提供了良好的基础。

Description

交叉口分类方法及系统

技术领域

本发明涉及一种交叉口分类方法及系统。

背景技术

目前针对交通信息的分析，比较多的是对驾驶员行为进行分类以便为更先进的驾驶员辅助系统的构建提供数据基础。由于对以上行为数据的分析，可以有效的提高交叉路口的安全性，有效避免在交叉口发生的交通事故，故而在这方面有较多的研究。Bishop等人着重于开发估算驾驶员的算法，其中包括司机在道路交叉口的行为和验证交通数据。当前对于交通数据的分析主要分为两类，一种是基于的支持向量机的研究，另外一种是建立在隐马尔可夫模型上对交通数据的研究，这是两个非常流行的机器学习方法已被成功地用于众多学科分支中。但是，现有的工作还没有探索将这些技术应用在处理交叉口流量等数据上，并借此对交叉口进行分类，以此提出更为合理交通管理方案。Maji等人提出了应用支持向量机的方式处理大量的数据，但是针对交通行业的数据而言，并不是所有的参数都具有相同的重要性，无法排除弱势参数对最终结果的过度干扰。

交通流量为交叉口的分类可以提供基础的数据依据和可靠的分类标准，但现有的交叉口的分类都不够精确。

发明内容

本发明的目的在于提供一种交叉口分类方法及系统，能够解决现有的交叉口的分类都不够精确的问题。

为解决上述问题，本发明提供一种交叉口分类方法，包括：

获取M个交叉口的交通流量数据，其中，M为正整数；

根据每个交叉口的交通流量数据建立每个交叉口对应的多维向量；

根据每个交叉口对应的多维向量，并通过PAM算法，将M个交叉口分为K个集合，每个交叉口被分配到离其自身最近的一个集合中，其中，M为正整数；

根据每个交叉口对应的多维向量，确定每个集合中的中心点。

进一步的，在上述方法中，获取M个交叉口的交通流量数据，包括：

以预设的时间段为单位时间，预设N个相同的单位时间，每个单位时间依次对应有连续的序号，统计M个交叉口在每个单位时间的交通流量数据；

根据M个交叉口在每个单位时间的交通流量数据，获取一天中早高峰之前的时间段A的平均起止单位时间对应的序号，获取一天中早高峰时间段B的平均起止单位时间对应的序号，获取一天中早高峰后晚高峰前的时间段C的平均起止单位时间对应的序号，获取一天中晚高峰时间段D的平均起止单位时间对应的序号，获取一天中晚高峰后的时间段E的平均起止单位时间对应的序号。

进一步的，在上述方法中，根据每个交叉口的交通流量数据建立每个交叉口对应的多维向量，包括：

根据每个交叉口的交通流量数据建立每个交叉口对应的多维向量公式如下：

其中，j表示交叉口的编号；

表示一天中早高峰后晚高峰前的时间段C的交通流量的平均值；

σ_C ²表示一天中早高峰后晚高峰前的时间段C的交通流量的平方差；

S_C-max表示一天中早高峰后晚高峰前的时间段C的交通流量的最大值；

Q₁表示第一个四分位数的交通流量；

Q₃表示第三个四分位数的交通流量。

进一步的，在上述方法中，根据每个交叉口对应的多维向量，并通过PAM算法，将M个交叉口分为K个集合，每个交叉口被分配到离其自身最近的一个集合中，包括：

从M个交叉口中随机选择K个交叉口μ₁，μ₂，......,μ_K-1,μ_K作为初始的中心点；

计算每个中心点到M个交叉口中其它各个非中心点的距离或相异性，从M个交叉口中其它各个非中心点取任意一个非中心点，计算每个非中心点与K个中心点μ₁，μ₂，......,μ_K-1,μ_K的距离；

把每个非中心点分配到最近的中心点，从而将M个交叉口分为K个集合，每个集合包含一个中心点。

进一步的，在上述方法中，根据每个交叉口对应的多维向量，确定每个集合中的中心点，包括依次重复如下步骤：

每次根据每个交叉口对应的多维向量，计算每个中心点到其所在集合中每个非中心点的距离的第一总和；

每次选择该集合中的一个非中心点，计算该选择的非中心点到其所在集合中其它每个非中心点和中心点的距离的第二总和；

若所述第二总和小于所述第一总和，则将原来的中心点作为非中心点，同时将该选择的非中心点作为更新后的中心点。

进一步的，在上述方法中，将M个交叉口分为K个集合之前，还包括：

通过Nbclust方法和/或使用组内平方误差和的方法确定所述K的个数。

根据本发明的另一面，提供一种交叉口分类系统，包括：

向量模块，用于获取M个交叉口的交通流量数据，其中，M为正整数；根据每个交叉口的交通流量数据建立每个交叉口对应的多维向量；

分类模块，用于根据每个交叉口对应的多维向量，并通过PAM算法，将M个交叉口分为K个集合，每个交叉口被分配到离其自身最近的一个集合中，其中，M为正整数；根据每个交叉口对应的多维向量，确定每个集合中的中心点。

进一步的，在上述系统中，所述向量模块，用于以预设的时间段为单位时间，预设N个相同的单位时间，每个单位时间依次对应有连续的序号，统计M个交叉口在每个单位时间的交通流量数据；根据M个交叉口在每个单位时间的交通流量数据，获取一天中早高峰之前的时间段A的平均起止单位时间对应的序号，获取一天中早高峰时间段B的平均起止单位时间对应的序号，获取一天中早高峰后晚高峰前的时间段C的平均起止单位时间对应的序号，获取一天中晚高峰时间段D的平均起止单位时间对应的序号，获取一天中晚高峰后的时间段E的平均起止单位时间对应的序号。

进一步的，在上述系统中，所述向量模块，用于根据每个交叉口的交通流量数据建立每个交叉口对应的多维向量公式如下：

其中，j表示交叉口的编号；

Q₁表示第一个四分位数的交通流量；

Q₃表示第三个四分位数的交通流量。

进一步的，在上述系统中，所述分类模块，用于从M个交叉口中随机选择K个交叉口μ₁，μ₂，......,μ_K-1,μ_K作为初始的中心点；计算每个中心点到M个交叉口中其它各个非中心点的距离或相异性，从M个交叉口中其它各个非中心点取任意一个非中心点，计算每个非中心点与K个中心点μ₁，μ₂，......,μ_K-1,μ_K的距离；把每个非中心点分配到最近的中心点，从而将M个交叉口分为K个集合，每个集合包含一个中心点。

进一步的，在上述系统中，所述分类模块，用于依次重复如下步骤：每次根据每个交叉口对应的多维向量，计算每个中心点到其所在集合中每个非中心点的距离的第一总和；每次选择该集合中的一个非中心点，计算该选择的非中心点到其所在集合中其它每个非中心点和中心点的距离的第二总和；若所述第二总和小于所述第一总和，则将原来的中心点作为非中心点，同时将该选择的非中心点作为更新后的中心点。

进一步的，在上述系统中，所述分类模块，还用于在将M个交叉口分为K个集合之前，通过Nbclust方法和/或使用组内平方误差和的方法确定所述K的个数。

与现有技术相比，本发明通过获取M个交叉口的交通流量数据，根据每个交叉口的交通流量数据建立每个交叉口对应的多维向量，根据每个交叉口对应的多维向量，并通过PAM算法，将M个交叉口分为K个集合，每个交叉口被分配到离其自身最近的一个集合中，根据每个交叉口对应的多维向量，确定每个集合中的中心点，本发明为交叉口的分类提供了基础的数据依据和可靠的分类标准。为以后各类交叉口设计合理的交通管理方案，提供了良好的基础。

附图说明

图1为本发明一实施例的某交叉口全天时间划分示意图。

图2为本发明一实施例的Nbclust方法多种评价指标条形图。

图3为本发明一实施例的组内平方误差和拐点图。

图4为本发明一实施例的组内平方误差和拐点图。

图5为本发明一实施例的划分聚类分析结果示意图。

图6为本发明一实施例的三个族群的中心点的信息Rstudio截图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本

本发明提供一种交叉口分类方法，包括：

步骤S1，获取M个交叉口的交通流量数据，其中，M为正整数；

步骤S2，根据每个交叉口的交通流量数据建立每个交叉口对应的多维向量；

步骤S3，根据每个交叉口对应的多维向量，并通过PAM算法，将M个交叉口分为K个集合，每个交叉口被分配到离其自身最近的一个集合中，其中，M为正整数；

步骤S4，根据每个交叉口对应的多维向量，确定每个集合中的中心点。

在此，道路交叉口所具有的数据是典型的多维度和大数量的数据，比较适合运用聚类算法对数据进行分析。目前有两种基本类型的聚类算法：层次聚类和划分聚类。划分聚类算法将含有n个对象的数据库D的分区构造成k个集群的集合。K是这些算法的输入参数，在交通领域就是指交叉口划分的类别个数。划分聚类算法通常确定D的初始分区，然后使用迭代控制优化目标函数的策略，逐步调整划分集群。每个群集是由集群的重心(k-均值算法)表示，或由位于附近的集群的一个对象表示它的中心。因此，划分聚类算法通常分为两步程序。首先确定划分聚类的集群个数K和用于度量的目标函数。其次，将每个对象分配给与其特征“最为接近”的集群。

道路和交叉口的交通流量是确定交叉口绿信比、相位相序和饱和度的基础参数，同时也是判定早晚高峰和优化信号的时段划分的根本依据。根据交叉口的总流量进行判断是应用交通流量优化交叉口时段划分分主流方式，较为优化的方法是应用各个支路的交通分流量为时段划分提供更加精确的数据基础。交通流量为交叉口的分类提供了基础的数据依据和可靠的分类标准。通过使用PAM(Partitioning Around Medoid,围绕中心点的划分)算法，用集合中的非中心点到集合的中心点的所有距离之和来度量聚类效果，其中成员总是被分配到离自身最近的集合中，以此来提高聚类的质量。本发明为交叉口的分类提供了基础的数据依据和可靠的分类标准。为以后各类交叉口设计合理的交通管理方案，提供了良好的基础。

本发明用一个最有代表性的观测值来表示(称为中心点)。K均值聚类一般使用欧几里得距离，而PAM可以使用任意的距离来计算。因此，PAM可以容纳混合数据类型，并且不仅限于连续变量。PAM(Partitioning Around Medoid,围绕中心点的划分)算法，有时也称为k-中心点算法，是指用中心点来代表一个集合。

PAM(Partitioning Around Medoid,围绕中心点的划分)算法，有时也称为k-中心点算法，是指用中心点来代表一个集合。PAM算法最早由Kaufman和Rousseevw提出，Medoid的意思就是位于中心位置的对象。PAM算法的目的是对n个数据对象给出k个划分。

在划分方法中，每个交叉口作为一个质点，各质点被分为若干组(集合)并根据根据给定的规则改组成最有粘性的族群。因为K均值聚类方法是基于均值的，所以它对异常值是敏感的。一个更稳健的方法是围绕中心点的划分(PAM)。与其用质心(变量均值向量)表示类，不如用一个最有代表性的观测值来表示(称为中心点)。K均值聚类一般使用欧几里得距离，而PAM可以使用任意的距离来计算。因此，PAM可以容纳混合数据类型，并且不仅限于连续变量。

如图1所示，本发明交叉口分类方法一实施例中，步骤S1，获取M个交叉口的交通流量数据，包括：

在此，交通学科发展至今，交叉口的流量这一参数，起到了比较重要的作用，为交叉口的周期、绿信比、相位相序和饱和度等交通参数提供了最基础的支撑。能够将城市的交叉口合理的分类，并且对每一类的交叉口执行合理的优化时段划分方案，必将可以提高交叉口的通过能力和降低车辆的停车时间，优化城市交通的运行情况。一般交叉口的总流量如图1所示，通常可以将全天的时间划分为五个主要段落。

在划分方法中，质点被分为若干组并根据根据给定的规则改组成最有粘性的族群。因为K均值聚类方法是基于均值的，所以它对异常值是敏感的。一个更稳健的方法是围绕中心点的划分(PAM)。与其用质心(变量均值向量)表示类，不如用一个最有代表性的观测值来表示(称为中心点)。K均值聚类一般使用欧几里得距离，而PAM可以使用任意的距离来计算。因此，PAM可以容纳混合数据类型，并且不仅限于连续变量。

例如，可以研究着眼于苏州工业园区的路网和交叉口，并且在统计单位时间内的交通流量数据时，每15分钟(时间段)为一单位，一共96个单位，所以以后的时间的变化就以单位时间的序号为准。根据苏州工业园区107(M)个交叉口的统计数据，对早高峰和晚高峰的起止单位时间的序号求平均数，求得统一的起止单位时间的序号，作为后续研究的根据。

基于RBF神经网络的交通流量预测算法为后续的智能交通控制与管理提供了基础数据，同时基于车型聚类的交通流参数应用视频检测的算法也为交通流数据的获取提供了新的思路。交通流量为交叉口的分类提供了基础的数据依据和可靠的分类标准。

例如，确定该交叉口的流量早高峰和晚高峰时间点，本发明统一规定：A.时段00-28为高峰前期；B.早高峰：时段29-37；C.时段38-67为平谷期；D.晚高峰：时段68-77；E.时段78-96是高峰后期。建立了以下新型的“五数概括”，用以描述流量的特征，方便以后的聚类分析。S_C表示C段的平均值；σ_C ²表示C段的平方差；S_C-max表示C段的最大值；Q₁表示第一个四分位数(即从大到小排第25位)；Q₃表示第三个四分位数(即从大到小排第72位)。由此我们确立了可以与每一个交叉口一一对应的多维向量

本发明交叉口分类方法一实施例中，步骤S2，根据每个交叉口的交通流量数据建立每个交叉口对应的多维向量，包括：

其中，j表示交叉口的编号；

Q₁表示第一个四分位数的交通流量；

Q₃表示第三个四分位数的交通流量。

在此，数据处理中最为基础的数据特征是五数概括，其中包括中位数(Q2)、四分位数Q1和Q3、最小(Minimum)和最大(Maximum)观测值，通常按照次序Minimum，Q1，Median(Q2)，Q3，Maximum写出。本发明建立了以下新型的“五数概括”，用以描述流量的特征，方便以后的聚类分析。

Q₁表示第一个四分位数的交通流量(若为96个单位，即从大到小排第25个单位)；

Q₃表示第三个四分位数的交通流量(若为96个单位，即从大到小排第72个单位)；

由此我们确立了可以与每一个交叉口一一对应的多维向量；

本发明交叉口分类方法一实施例中，步骤S3，根据每个交叉口对应的多维向量，并通过PAM算法，将M个交叉口分为K个集合，每个交叉口被分配到离其自身最近的一个集合中，包括：

本发明交叉口分类方法一实施例中，根据每个交叉口对应的多维向量，确定每个集合中的中心点，包括依次重复如下步骤：

本发明交叉口分类方法一实施例中，将M个交叉口分为K个集合之前，还包括：

在此，在确定交叉口类(集合)的个数方面，本发明可使用两种办法，一种是使用R语言中的Nbclust方法。首先计算机系统定义了几十个评估指标，接着聚类数目从2遍历到15(计算机系统自己设定)，然后通过这些指标看分别在聚类数为多少时达到最优，最后选择指标支持数最多的聚类数目就是最佳聚类数目。如图2所示，是在R语言环境下，调用Nbclust方法，对107个交叉口进行可能的分类个数的预测。由图2可以看出，针对这107个交叉口，本发明在使用Nbclust方法后，“根据多数规则，最好的数目是3”。

另外一种方法是使用组内平方误差和——拐点图，在R语言中，本发明使用wssplot()函数来实现该功能。想必之前动辄几十个指标，这里就用一个最简单的指标——sum of squared error(SSE)组内平方误差和来确定最佳聚类数目。这个方法是自定义的一个求组内误差平方和的函数，如图3、图4所示。

随着聚类数目增多，每一个类别中数量越来越少，距离越来越近，因此WSS值肯定是随着聚类数目增多而减少的，所以关注的是斜率的变化，但WWS减少得很缓慢时，就认为进一步增大聚类数效果也并不能增强，存在得这个“肘点”就是最佳聚类数目，从一类到三类下降得很快，之后下降得很慢，所以最佳聚类个数选为三。

由上文所提及的交叉口的分类方法和类的个数确定。本发明使用R语言环境，对苏州工业园区107个交叉口进行聚类分析，得到的结果如下图所示。“这两个参数解释了89.2％的点变化性”

由图5可以看出，应用聚类分析将107个交叉口分为了3个大的族群，其中三大族群的中心点分别如下图所示，可以看出第一类的中心点为代号是14的交叉口，第一类的中心点为代号是45的交叉口，第一类的中心点为代号是69的交叉口，如图6所示。

具体的，PAM算法的基本思想是：PAM算法的目的是对成员集合D中的N个数据对象给出k个划分，形成k个集合，在每个集合中随机选取1个成员设置为中心点，然后在每一步中，对输入数据集中目前还不是中心点的成员根据其与中心点的相异度或者距离进行逐个比较，看是否可能成为中心点。用集合中的非中心点到集合的中心点的所有距离之和来度量聚类效果，其中成员总是被分配到离自身最近的集合中，以此来提高聚类的质量。

PAM算法如下：

(1)从M个交叉口中随机选择K个交叉口μ₁，μ₂，......,μ_K-1,μ_K作为初始的中心点；

(2)计算每个中心点到M个交叉口中其它各个非中心点的距离或相异性，从M个交叉口中其它各个非中心点取任意一个非中心点，计算每个非中心点与K个中心点μ₁，μ₂，......,μ_K-1,μ_K的距离；

d＝|μ_j-μ_k|

j＝1,2,......107

k＝1,2,......K

(3)把每个非中心点分配到最近的中心点，从而将M个交叉口分为K个集合，每个集合包含一个中心点；

If

then

为以μ_k为中心点的集合。

(4)计算每个中心点到集合中每个非中心点的距离的总和(总成本)；

计算随机聚类的某一个组群的群内非中心点到中心点的欧氏距离之和：

m----某一个组群内所有观测值的个数

e----某一个组群内所有观测值的编号

AD_i---某一个组群内所有非中心点到中心点的欧氏距离之和，i为随机聚类组群的编号

TAD----该群观测值的所有随机聚类组群欧氏距离之和的和

(5)选择该集合中的一个非中心点，并和中心点互换；

(6)重新把每个点分配到距它最近的中心点；

If

then

为以μ_k‘为中心点的集合。

(7)再次计算总成本；

(8)如果总成本比步骤(4)计算的总成本少，把新的点作为中心点；

(9)重复步骤(4)～(8)直到中心点不再改变。

最终得到每一类的最终中心点集合{*μ₁，*μ₂，......,*μ_K-1,*μ_K}，这些中心点的参数

能够代表本类的平均水平，是本类各项特征的综合体现。在同一类的观测值与彼此之间的距离或者说相似程度都要比类外各个观测值要近或者说相似程度高。

根据本发明的另一面，提供一种交叉口分类系统，包括：

其中，j表示交叉口的编号；

Q₁表示第一个四分位数的交通流量；

Q₃表示第三个四分位数的交通流量。

上述系统各实施例的详细内容具体可参见各方法实施例的对应部分，在此，不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种交叉口分类方法，其特征在于，包括：

获取M个交叉口的交通流量数据，其中，M为正整数；

根据每个交叉口对应的多维向量，并通过PAM算法，将M个交叉口分为K个集合，每个交叉口被分配到离其自身最近的一个集合中，其中，M为正整数，根据每个交叉口对应的多维向量，并通过PAM算法，将M个交叉口分为K个集合，每个交叉口被分配到离其自身最近的一个集合中，包括：从M个交叉口中随机选择K个交叉口μ₁，μ₂，......,μ_K-1,μ_K作为初始的中心点；计算每个中心点到M个交叉口中其它各个非中心点的距离，从M个交叉口中其它各个非中心点取任意一个非中心点，计算每个非中心点与K个中心点μ₁，μ₂，......,μ_K-1,μ_K的距离；把每个非中心点分配到最近的中心点，从而将M个交叉口分为K个集合，每个集合包含一个中心点；

根据每个交叉口对应的多维向量，确定每个集合中的中心点；获取M个交叉口的交通流量数据，包括：

根据M个交叉口在每个单位时间的交通流量数据，获取一天中早高峰之前的时间段A的平均起止单位时间对应的序号，获取一天中早高峰时间段B的平均起止单位时间对应的序号，获取一天中早高峰后晚高峰前的时间段C的平均起止单位时间对应的序号，获取一天中晚高峰时间段D的平均起止单位时间对应的序号，获取一天中晚高峰后的时间段E的平均起止单位时间对应的序号；

根据每个交叉口的交通流量数据建立每个交叉口对应的多维向量，包括：

其中，j表示交叉口的编号；

Q₁表示第一个四分位数的交通流量；

Q₃表示第三个四分位数的交通流量；

根据每个交叉口对应的多维向量，确定每个集合中的中心点，包括依次重复如下步骤：

若所述第二总和小于所述第一总和，则将原来的中心点作为非中心点，同时将该选择的非中心点作为更新后的中心点；

将M个交叉口分为K个集合之前，还包括：

2.一种交叉口分类系统，其特征在于，包括：

分类模块，用于根据每个交叉口对应的多维向量，并通过PAM算法，将M个交叉口分为K个集合，每个交叉口被分配到离其自身最近的一个集合中，其中，M为正整数；根据每个交叉口对应的多维向量，确定每个集合中的中心点，其中，所述分类模块，用于从M个交叉口中随机选择K个交叉口μ₁，μ₂，......,μ_K-1,μ_K作为初始的中心点；计算每个中心点到M个交叉口中其它各个非中心点的距离，从M个交叉口中其它各个非中心点取任意一个非中心点，计算每个非中心点与K个中心点μ₁，μ₂，......,μ_K-1,μ_K的距离；把每个非中心点分配到最近的中心点，从而将M个交叉口分为K个集合，每个集合包含一个中心点；

所述向量模块，用于以预设的时间段为单位时间，预设N个相同的单位时间，每个单位时间依次对应有连续的序号，统计M个交叉口在每个单位时间的交通流量数据；根据M个交叉口在每个单位时间的交通流量数据，获取一天中早高峰之前的时间段A的平均起止单位时间对应的序号，获取一天中早高峰时间段B的平均起止单位时间对应的序号，获取一天中早高峰后晚高峰前的时间段C的平均起止单位时间对应的序号，获取一天中晚高峰时间段D的平均起止单位时间对应的序号，获取一天中晚高峰后的时间段E的平均起止单位时间对应的序号；

所述向量模块，用于根据每个交叉口的交通流量数据建立每个交叉口对应的多维向量公式如下：

其中，j表示交叉口的编号；

Q₁表示第一个四分位数的交通流量；

Q₃表示第三个四分位数的交通流量；

所述分类模块，用于依次重复如下步骤：每次根据每个交叉口对应的多维向量，计算每个中心点到其所在集合中每个非中心点的距离的第一总和；每次选择该集合中的一个非中心点，计算该选择的非中心点到其所在集合中其它每个非中心点和中心点的距离的第二总和；若所述第二总和小于所述第一总和，则将原来的中心点作为非中心点，同时将该选择的非中心点作为更新后的中心点；

所述分类模块，还用于在将M个交叉口分为K个集合之前，通过Nbclust方法和/或使用组内平方误差和的方法确定所述K的个数。