CN105374209A

CN105374209A - 一种城市区域路网运行状态特征信息提取方法

Info

Publication number: CN105374209A
Application number: CN201510746769.2A
Authority: CN
Inventors: 王云鹏; 于海洋; 徐丽香; 余贵珍; 张俊峰
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2015-11-05
Filing date: 2015-11-05
Publication date: 2016-03-02
Anticipated expiration: 2035-11-05
Also published as: CN105374209B

Abstract

本发明公开了一种城市区域路网运行状态特征信息提取方法，具体包括以下几个步骤：步骤一、采集路网数据；步骤二、构建路网数据输入矩阵；步骤三、自适应邻域选择；步骤四、提取特征信息；步骤五、路网状态特征信息可视化表达，本发明适用于城市区域路网特征信息提取与路网运行状态表达方面，基于路网中流量、速度、密度数据，运用自适应邻域选择的流形学习方法提取路网运行特征信息，该特征信息具有宏观性、准确性、敏感性和实用性的特点，可以实时表达路网宏观运行状态，为交通管理者提供分析与决策依据。

Description

一种城市区域路网运行状态特征信息提取方法

技术领域

本发明涉及智能交通领域，尤其是涉及一种自适应邻域选择的区域路网运行状态特征信息提取方法。

背景技术

区域路网运行状态的客观分析是对其进行科学管控的基础，但由于路网运行数据具有明显的混杂性、复杂性、模糊性和隐藏性，导致路网的交通状态难于进行合理量化。因此，能否将路网的运行状态准确、客观地进行表征，提取演化过程中的本质因素成为亟需解决的问题。

同时，随着交通信息采集手段的不断丰富，获取的数据类型日趋复杂，数据采样的时间间隔不断缩短，数据规模呈几何级数增长，导致数据存储难以承担重负。交通管理部门通常采取将数据暂存后周期性删除的方法，导致数据价值无法挖掘，造成数据资源浪费。因此，需要通过特征信息的提取方法实现交通数据的约简，降低系统运行负担，提高数据的处理效率和使用价值。

目前，关于路网运行状态特征信息提取的方法的专利中，主要集中于对路网状态的评价或划分方法，对于路网运行过程的特征信息获取方法涉及不多。申请号为：200910081852.7，专利《区域交通服务水平微观指标及评价方法》中提出的基于速度、流量、占有率等参量的交通服务水平评价方法，侧重表达交通的微观服务层面，未对宏观路网状态进行综合分析，不能全面地表达路网运行状态；申请号为：201210084221.2，专利《一种区域交通状态评价方法》中提出了一种基于路段平均行程时间的区域交通状态评价方法，该方法只应用平均行程时间一种参量，在表达路网状态的时候有一定的局限性；申请号为：201210325652.3，专利《基于曲率预测的流形学习自适应邻域选择算法》中提出了一种适用范围比较广的基于曲率的自适应邻域选择方法，能够有效地降低流形学习算法的复杂度和找到优化的邻域大小，但是并未指出该方法针对交通数据特征提取的优越性；申请号为：201410057898.6，专利《一种基于半监督机器学习的交通状态划分方法》中提出了一种基于半监督学习的交通状态划分方法，该方法主要利用速度、流量、该条道路最大限速等信息进行计算流量最大带宽以及速度最大带宽，联合比较进行状态分类，其中道路最大限速与流量、速度不是来自同一数据来源，数据获取方面复杂，交通数据都是有类别标签的数据，用有监督的方法比半监督的方法更合适。

发明内容

为了解决上述问题，本发明提出一种自适应邻域选择的流形学习的区域路网运行状态特征信息提取方法，通过对城市路网运行状态流量、速度、密度三个参数数据进行特征提取，得到表征路网宏观状态的路网状态特征信息，来实时表达城市区域路网宏观运行状态。

一种城市区域路网运行状态特征信息提取方法，具体包括以下几个步骤：

步骤一、采集路网数据；

步骤二、构建路网数据输入矩阵；

步骤三、自适应邻域选择；

步骤四、提取特征信息；

本发明的优点在于：

(1)本方法适用于城市区域路网特征信息提取与路网运行状态表达方面，基于路网中流量、速度、密度数据，运用自适应邻域选择的流形学习方法提取路网运行特征信息，该特征信息具有宏观性、准确性、敏感性和实用性的特点，可以实时表达路网宏观运行状态，为交通管理者提供分析与决策依据；

(2)本方法可以从大样本、多参量的交通数据中发现一些主要特征参量，寻找原始数据之间的相互关系，并用特征信息代替原有参量，一方面可以消除重叠的信息，另一方面还可以起到降维的作用。这就使交通管理者可从繁杂的交通数据中得到有用信息，对路网状态表达中起到至关重要的作用。

(3)本方法根据交通数据非线性、敏感性、有类别的特点，实现了非均匀流形数据特征提取过程中邻域的自适应选择，根据输入矩阵子邻域数据流形的线性程度选择每个样本对应的最优邻域数，能够有效地实现最佳的低维嵌入，提高了特征提取的效果。

(4)本发明克服了现有城市路网状态表达领域中综合性差、模型复杂等缺点和不足，提供了一种城市区域路网交通状态特征提取方法，该方法仅需要速度、流量、密度等数据，无需增加新的设备实现，成本低，可靠性高。

附图说明

图1为本发明的方法流程图；

图2为路网状态信息输入数据图；

图3为路网运行状态特征信息图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明的一种城市区域路网运行状态特征信息提取方法，主要包括：采集路网数据、构建路网数据输入矩阵、自适应邻域选择、提取特征信息、特征信息可视化表达五个步骤，流程如图1所示，具体为：

步骤一、采集路网数据

路网中通常为不同类型、不同厂商的检测器并存使用，检测器数据在属性、属性类型、采集周期等方面存在差异，需要对多源异质数据进行汇聚和处理。具体步骤如下：

(1)建立各个检测器数据与汇聚表格属性之间的映射，将线圈检测器数据和微波检测器数据转换为统一格式的检测数据表格，其中第一列为采集时间，第二列及以后依次为路段ID、流量、速度、交通量、路段长度，本步骤消除数据之间的数据类型、取值范围、数据单位的属性冲突。

(2)对转换后数据按照时间序列进行排序，进行数据的预处理，通过独立判断和联合判断的方法实现错误数据的识别。独立判断的目的是检验数据是否是来自于有故障的检测器，错误数据的数值通常表现为0，或是超出可能出现的最大值y_max，所以数值不在(0，y_max)范围内数据是错误数据，例如占有率数据应该介于0到100％之间，那么(0,100％)为其合理范围。流量数据的合理范围为0≤f≤f_c·C·T/60，式中C为道路通行能力(veh/h)，T为数据采集的时间间隔(min),f_c为修正系数，一般取1.3～1.5。定义速度的合理范围为：0≤v≤f_v·v₁，式中v₁为道路的限制速度km/h，不同道路等级的限制速度不同；f_v为修正系数，一般取1.3～1.5。而当数据为0时，独立判断方法不能正确判断数据的合理性，对几个交通参量数据进行联合判断。当数据为零时有两种可能：第一，数据是正确的，即该时刻没有车辆通过检测站点；第二，数据是错误的，即交通检测器故障导致数据为0。如果流量和速度数据不同时为0，这组数据一定是错误的，需要对其进行剔除或修复处理。当流量、速度同时为0时，需要对当时的时间特征以及前几个时段的数据特征进行分析判断，用前几个时段数据的均值和方差σ进行判断，若数据值在内则数据是正确的，否则是错误数据。采用相邻时段数据的平均值对错误数据进行修复，的计算公式为

\overset{&OverBar;}{y} (t) = [y (t - n) + y (t - n - 1) + ... ... y (t - 1)] / n,

式中n为计算平均值所取的数据个数，y(t-n)表示t-n时刻对应的数值。

(3)对预处理后的数据按照统一的起止时间，以5分钟为时间周期，对周期内的数据进行逐行扫描，依次对5分钟周期内所有数据求平均值，并以得到的均值代表该5分钟周期内的数据值，依次求平均值并存储，更新检测数据表格。

(4)流量和速度数据通过检测器采集得到，通过计算单位路段长度上的交通量(交通量/路段长度)，得到交通密度数据，并代替检测数据表格中的交通量和路段长度两列数据，各列按照采集时间、路段ID、流量、速度、密度的格式组织数据，更新检测数据表格。

步骤二、构建路网数据输入矩阵

具体包括：

(1)构建路网数据输入矩阵：输入矩阵的各行依次按照数据采集时间排序，设路网中共有N条路段，输入矩阵的各列数据排序为：路段1到路段N上各个路段的流量数据、路段1到路段N上各个路段的速度数据、路段1到N上各个路段的密度数据，每列代表一个维度，每行是一个综合了各个列维度信息的高维样本点。(一个参数的路段1到N上的数据是N列，总共3个参数，所以是3*N列)，输入矩阵表达式为：

其中输入矩阵X中：F为流量，S为速度，D代表密度，矩阵中的行下标代表采集时间间隔序号(从1到m)，列下标代表路段ID号(从1到N)，如F_1，1表示第一个时间间隔内路段1上的流量数值。x_i，(i＝1,2,…,m)为输入矩阵X的行向量，共m个采集时间间隔，即共有m个样本点，N为路段条数，该输入矩阵的维数为m*3N。

(2)输入矩阵规范化处理。输入矩阵中交通流量、速度、密度三个参数的单位以及数量级各不相同，为保证最近邻分类过程中的距离度量的有效性，将数据按比例缩放，使之落入一个小的特定区间(0.0～1.0)来规范属性。本方法中使用min-max标准化方法将输入矩阵数据规范化处理。min-max标准化方法是对原始数据进行线性变换，设minA和maxA分别为属性A的最小值和最大值，将A所在列的一个原始值通过min-max标准化映射成在区间[0,1]中的新数据，其公式为：新数据＝(原数据-极小值)/(极大值-极小值)。对输入矩阵进行规范化处理。

步骤三、自适应邻域选择

流形学习方法中近邻域选择大多采用全局统一的邻域，针对均匀流形时该方法是有效的，而交通数据属于非均匀流形，不能用传统的全局统一邻域方法，本方法基于压缩策略实现了样本点邻域的自适应选择。其主要步骤包括以下四点：

(1)建立样本点的初始邻域矩阵：取输入矩阵的行向量为样本点，按采集时间排序。每个样本点包含采集时间，路段ID、流量、速度、密度信息。计算输入矩阵各样本点间的欧式距离，组成距离矩阵并按升序排序，设k为所有样本点的初始近邻数，选择距离矩阵中前k个最近距离的样本点，组成初始邻域矩阵，记初始邻域矩阵为i＝1,2,…,m，其中x_ik代表第i个样本点的第k个近邻点。

(2)基于压缩策略的自适应邻域选择：基于流形学习的特征提取方法是将高维非均匀数据流形分解为若干小区域均匀流形，在小区域均匀流形中进行线性映射，最终汇集各样本点的特征信息。本方法中的初始近邻数选取路段数与交通参量种类数的乘积，即输入矩阵的列数，样本初始邻域矩阵范围较大，通过由大到小范围压缩，得到最优的近邻数。将初始邻域矩阵转换为正定矩阵。令正定矩阵I为(k+1)*(k+1)维单位矩阵，所述e为(k+1)行的全1列向量，计算协方差矩阵特征值λ_i。

(3)求邻域内交通数据流形的线性程度：判断条件为：若经过特征提取后的特征值与邻域矩阵内所有特征值的和接近，即成立，其中0.5<η≤1是线性程度阈值，说明此邻域内样本点呈现线性关系，邻域属于均匀流形，则输出样本点x_i对应的近邻数k_i，i＝1,2,…,m。否则表明此邻域内样本点组成的仍是非均匀流形，令近邻数k_i＝k-1，返回步骤(1)循环，直至得到符合条件的近邻数k_i。

(4)计算输入矩阵中每个样本点对应的近邻数：顺序选取输入矩阵中的各个样本点x_i,i＝1,2,…,m，重复上述3步，计算其对应的近邻数k_i,i＝1,2,…,m，得到近邻数矩阵。

步骤四、提取特征信息

本方法根据特征信息中同类数据离的更近，不同类数据离的更远的原则，建立目标函数，最终以求解广义特征值的方式获得最优映射，得到表达路网运行状态的一维特征信息。具体步骤包括以下六步：

(1)输入第二步构建的输入矩阵X、低维特征信息特征信息维数d、样本点初始近邻数k、邻域矩阵线性程度容忍阈值η三个参量。

(2)建立样本点近邻域：通过第三步得到的近邻数矩阵，依次选取样本点对应的近邻数，建立样本点的k近邻域

(3)近邻域分类：仅凭近邻域不能发现交通数据中的判别结构。根据交通数据本身携带的路段ID、采集时刻信息、交通参量属性类别标签，记l(x_i)为样本x_i的所属的类别。对每个数据点x_i，初始近邻域对应的初始近邻集合分为同类近邻样本点集合N_w(x_i)和不同类近邻样本点集合N_b(x_i)两个集合。其中显然，集合关系满足以下条件，分别计算其权重矩阵W_w，ij和W_b，ij。权重矩阵计算定义为：

(4)建立目标函数：为更好的保持交通数据之间的判别结构，便于对特征提取后的路网状态特征信息进行聚类分析。根据特征信息中同类样本点离得更近，不同类样本点离得更远的原则。建立目标函数其中y＝(y₁，y₂，…，y_m)^T为将高维交通数据在邻域内映射到低维的特征信息点，目标函数中式1.3是确保如果x_i和x_j是近邻的同类样本那么映射之后的y_i和y_j的距离最小化。式1.4是确保如果x_i和x_j是近邻的不同类样本那么映射之后的y_i和y_j的距离最大化。设a是一个投影向量，则有y^T＝a^TX。将目标函数推导并转化为求解公式X(βL_b+(1-β)W_w)X^Ta＝λXD_wX^Ta的广义特征值，得到最优投影向量a。其中，L_b是拉普拉斯矩阵，D_w是对角矩阵，λ是向量a的特征值，W_w为类内图权重矩阵。β是平衡参数(0≤β≤1)。

(5)求映射函数：设降到低维后的d个最大特征值λ₁>…>λ_d对应的特征向量组成的最佳投影矩阵为A＝[a₁,a₂,…,a_d]，最优投影矩阵为A＝[a₁,a₂,…,a_d]，则映射关系为y_i＝A^Tx_i,i＝1,2,…,m。

(6)求路网状态特征信息：顺序选取输入矩阵的样本点x_i，计算每个样本点的最优投影，得到的每个y_i值中包含了第i个采集时间间隔内路段1到路段N所有路段上的交通流量、速度、密度三个参量的综合特征信息。则特征提取后获得的特征信息为 R^d为d维空间。

步骤五、路网状态特征信息可视化表达：路网状态特征信息Y是按照交通数据采集时间排序的一行数值，选用时间序列的折线图，横轴为采集时间间隔顺序，纵轴为特征信息数值。通过特征信息折线图能描述路网运行状态随时间的演化情况，直观观测路网运行状态的24h周期性、工作日的双峰特性以及周末的单峰特性等交通特性。

实施例：

本实施例选取浙江省舟山市一个包含了23条路段的区域路网，选取了流量、速度、密度三个参量从2014年12月7日(周日)到2014年12月13日(周六)持续一周的交通数据，原始数据矩阵维数为1985*69。

本实施例主要包括以下步骤：采集路网数据、构建路网数据输入矩阵、自适应邻域选择、提取特征信息、特征信息可视化表达，具体为：

步骤一、采集路网数据

(2)对转换后数据按照时间序列进行排序，进行数据的预处理，通过独立判断和联合判断的方法实现错误数据的识别。独立判断的目的是检验数据是否是来自于有故障的检测器，错误数据的数值通常表现为0，或是超出可能出现的最大值y_max，所以数值不在(0，y_max)范围内数据是错误数据，例如占有率数据应该介于0到100％之间，那么(0,100％)为其合理范围。流量数据的合理范围为0≤f≤f_c·C·T/60,式中C为道路通行能力(veh/h),T为数据采集的时间间隔(min),f_c为修正系数，一般取1.3～1.5。定义速度的合理范围为：0≤v≤f_v·v₁，式中v₁为道路的限制速度km/h，不同道路等级的限制速度不同；f_v为修正系数，一般取1.3～1.5。而当数据为0时，独立判断方法不能正确判断数据的合理性，对几个交通参量数据进行联合判断。当数据为零时有两种可能：第一，数据是正确的，即该时刻没有车辆通过检测站点；第二，数据是错误的，即交通检测器故障导致数据为0。如果流量和速度数据不同时为0，这组数据一定是错误的，需要对其进行剔除或修复处理。当流量、速度同时为0时，需要对当时的时间特征以及前几个时段的数据特征进行分析判断，用前几个时段数据的均值和方差σ进行判断，若数据值在内则数据是正确的，否则是错误数据。采用相邻时段数据的平均值对错误数据进行修复,的计算公式为式中n为计算平均值所取的数据个数，y(t-n)表示(t-n)时刻对应的数值。

步骤二、构建路网数据输入矩阵

具体包括：

(1)构建路网数据输入矩阵：输入矩阵的各行依次按照数据采集时间排序，设路网中共有N条路段，输入矩阵的各列数据排序为：路段1到路段N上各个路段的流量数据、路段1到路段N上各个路段的速度数据、路段1到N上各个路段的密度数据，每列代表一个维度，每行是一个综合了各个列维度信息的高维样本点，输入矩阵表达式为：

其中输入矩阵X中：F为流量，S为速度，D代表密度，矩阵中的行下标代表采集时间间隔序号(从1到1985)，列下标代表路段ID号(从1到23)，如F_1，1表示第一个时间间隔内路段1上的流量数值。x_i，(i＝1,2,…,1985)为输入矩阵X的行向量，共1985个采集时间间隔，即共有1985个样本点，该输入矩阵的维数为1985*69，输入矩阵如图2所示。

(2)输入矩阵规范化处理。输入矩阵中交通流量、速度、密度三个参数的单位以及数量级各不相同，为保证最近邻分类过程中的距离度量的有效性，将数据按比例缩放，使之落入一个小的特定区间(0.0～1.0)来规范属性。本方法中使用min-max标准化方法将输入矩阵数据规范化处理。min-max标准化方法是对原始数据进行线性变换，其公式为：新数据＝(原数据-极小值)/(极大值-极小值)。对输入矩阵进行规范化处理。

步骤三、自适应邻域选择

(1)建立样本点的初始邻域矩阵：取输入矩阵的行向量为样本点，按采集时间排序。每个样本点包含采集时间，路段ID、流量、速度、密度信息。计算输入矩阵各样本点间的欧式距离，组成距离矩阵并按升序排序，设k为所有样本点的初始近邻数，选择距离矩阵中前k个最近距离的样本点，组成初始邻域矩阵，记初始邻域矩阵为i＝1,2,…,1985，其中x_ik代表第i个样本点的第k个近邻点。

(2)基于压缩策略的自适应邻域选择：基于流形学习的特征提取方法是将高维非均匀数据流形分解为若干小区域均匀流形，在小区域均匀流形中进行线性映射，最终汇集各样本点的特征信息。本方法中的初始近邻数选取路段数与交通参量种类数的乘积，即输入矩阵的列数，样本初始邻域矩阵范围较大，通过由大到小范围压缩，得到最优的近邻数。将初始邻域矩阵转换为正定矩阵。令正定矩阵I为(k+1)×(k+1)维单位矩阵，所述e为(k+1)行的全1列向量，计算协方差矩阵特征值λ_i。

(3)求邻域内交通数据流形的线性程度：判断条件为：若经过特征提取后的特征值与邻域矩阵内所有特征值的和接近，即成立，其中0.5<η≤1是线性程度阈值，说明此邻域内样本点呈现线性关系，邻域属于均匀流形，则输出样本点x_i对应的近邻数k_i，i＝1,2,…,1985否则表明此邻域内样本点组成的仍是非均匀流形，令近邻数k_i＝k-1，返回步骤(1)循环，直至得到符合条件的近邻数k_i。

(4)计算输入矩阵中每个样本点对应的近邻数：顺序选取输入矩阵中的各个样本点x_i,i＝1,2,…,1985，重复上述3步，计算其对应的近邻数k_i,i＝1,2,…,1985，得到近邻数矩阵。

步骤四、提取特征信息

本方法根据特征信息中同类数据离的更近，不同类数据离的更远的原则，建立目标函数，最终以求解广义特征值的方式获得最优映射，得到表达路网运行状态的一维特征信息。具体步骤包括以下六步:

(1)输入：输入第二步构建的输入矩阵X、低维特征信息特征信息维数d、样本点初始近邻数k、邻域矩阵线性程度容忍阈值η三个参量。

(3)近邻域分类：仅凭近邻域不能发现交通数据中的判别结构。根据交通数据本身携带的路段ID、采集时刻信息、交通参量属性类别标签，记l(x_i)为样本x_i的所属的类别。对每个数据点x_i，初始近邻域对应的初始近邻集合分为同类近邻样本点集合N_w(x_i)和不同类近邻样本点集合N_b(x_i)两个集合。其中显然，集合关系满足以下条件， N_w(x_i)∪N_b(x_i)＝N(x_i)。分别计算其权重矩阵W_w,ij和W_b,ij。权重矩阵计算定义为：

五、路网状态特征信息可视化表达：路网状态特征信息如图3所示，路网状态特征信息Y是按照交通数据采集时间排序的一行数值，选用时间序列的折线图，横轴为采集时间间隔顺序(1至1985)，纵轴为特征信息数值。通过特征信息折线图能描述路网运行状态随时间的演化情况，直观观测路网运行状态的24h周期性、工作日的双峰特性以及周末的单峰特性等交通特性。特征提取的结果表明路网运行状态特征信息与道路拥堵情况为正相关关系并呈现出明显的周期特性，这一周期的出现是因为白天和夜晚交通流量的明显区别，由于人们的作息时间具有明显的周期性，在夜晚人们出行急剧减少，所以夜晚的特征信息数值很小，尤其在凌晨人们熟睡的时段，特征信息数值与峰值的差异十分大；白天的特征信息数值则一直维持在一个较高的水平，因为人们大多选择在白天出行，除了早上的上班早高峰以及傍晚时分下班的晚高峰造成的短时交通流增加，人们的出行总量在宏观上看是基本稳定的。此外，通过特征信息可以观察到明显的休息日和工作日的区别。在图3中，时间的排序为周日到周六，第1、7个周期为周末休息日，这两天的特征信息数值较其他工作日要偏小，这是因为在休息日很多人不需外出，路况相对工作日畅通；从形态上看，周末的波峰呈现单峰的形态，工作日的波峰出现了比较明显的双峰形态，双峰的出现代表着工作日典型的早、晚高峰特征。以上结果与分析表明了本方法得到的特征信息能够较好的表达路网运行状态。

Claims

1.一种城市区域路网运行状态特征信息提取方法，具体包括以下几个步骤：

步骤一、采集路网数据

具体步骤如下：

(1)建立各个检测器数据与汇聚表格属性之间的映射，将线圈检测器数据和微波检测器数据转换为统一格式的检测数据表格，其中第一列为采集时间，第二列及以后依次为路段ID、流量、速度、交通量、路段长度；

(2)对转换后数据按照时间序列进行排序，进行数据的预处理，通过独立判断和联合判断的方法实现错误数据的识别；

(3)对预处理后的数据按照统一的起止时间，以5分钟为时间周期，对周期内的数据进行逐行扫描，依次对5分钟周期内所有数据求平均值，并以得到的均值代表该5分钟周期内的数据值，依次求平均值并存储，更新检测数据表格；

(4)流量和速度数据通过检测器采集得到，通过计算单位路段长度上的交通量，得到交通密度数据，并代替检测数据表格中的交通量和路段长度两列数据，更新检测数据表格；

步骤二、构建路网数据输入矩阵

具体包括：

其中：F为流量，S为速度，D代表密度，矩阵中的行下标代表采集时间间隔序号(从1到m)，列下标代表路段ID号(从1到N)，x_i为输入矩阵X的行向量，i＝1,2,…,m，共m个采集时间间隔，即共有m个样本点，N为路段条数，该输入矩阵的维数为m*3N；

(2)输入矩阵规范化处理:输入矩阵中交通流量、速度、密度三个参数的单位以及数量级各不相同，为保证最近邻分类过程中的距离度量的有效性，将数据按比例缩放，使之落入(0.0～1.0)；

步骤三、自适应邻域选择

具体包括：

(1)建立样本点的初始邻域矩阵：取输入矩阵的行向量为样本点，按采集时间排序；每个样本点包含采集时间，路段ID、流量、速度、密度信息；计算输入矩阵各样本点间的欧式距离，组成距离矩阵并按升序排序，设k为所有样本点的初始近邻数，选择距离矩阵中前k个最近距离的样本点，组成初始邻域矩阵，记初始邻域矩阵为i＝1,2,…,m，其中x_ik代表第i个样本点的第k个近邻点；

(2)基于压缩策略的自适应邻域选择：将初始邻域矩阵转换为正定矩阵，令正定矩阵I为(k+1)*(k+1)维单位矩阵，所述e为(k+1)行的全1列向量，计算协方差矩阵特征值λ_i；

(3)求邻域内交通数据流形的线性程度：若则邻域内样本点呈现线性关系，邻域属于均匀流形，则输出样本点x_i对应的近邻数k_i，其中，η为线性程度阈值，0.5<η≤1，i＝1,2,…,m；否则，此邻域内样本点组成为非均匀流形，令近邻数k_i＝k-1，返回步骤(1)循环，直至得到符合条件的近邻数k_i；

(4)计算输入矩阵中每个样本点对应的近邻数：顺序选取输入矩阵中的各个样本点x_i，重复上述步骤(1)至(3)步，计算其对应的近邻数k_i，得到近邻数矩阵；

步骤四、提取特征信息

具体步骤包括：

(1)获取输入矩阵X、低维特征信息的特征信息维数d、样本点初始近邻数k、邻域矩阵线性程度阈值η；

(2)建立样本点近邻域：根据步骤三获取的近邻数矩阵，依次选取样本点对应的近邻数，建立样本点的k近邻域

X_{i}^{k} = {(x_{i}, x_{i 1}, x_{i 2}, ..., x_{i k})}^{T};

(3)近邻域分类：根据交通数据本身携带的路段ID、采集时刻信息、交通参量属性类别标签，设l(x_i)为样本x_i的所属的类别，对每个数据点x_i，初始近邻域对应的初始近邻集合分为同类近邻样本点集合N_w(x_i)和不同类近邻样本点集合N_b(x_i)两个集合；其中

N_{w} (x_{i}) = {x_{i}^{j} | l (x_{i}^{j}) = l (x_{i}), 1 \leq j \leq k}, N_{b} (x_{i}) = {x_{i}^{j} | l (x_{i}^{j}) &NotEqual; l (x_{i}), 1 \leq j \leq k},

N_w(x_i)∪N_b(x_i)＝N(x_i)；

分别计算其权重矩阵W_w，ij和W_b，ij：

(4)建立目标函数：

建立目标函数

\{\begin{matrix} m i n \underset{i j}{Σ} {(y_{i} - y_{j})}^{2} W_{w, i j} & (1.3) \\ m a x \underset{i j}{Σ} {(y_{i} - y_{j})}^{2} W_{b, i j} & (1.4) \end{matrix}

其中：y＝(y₁，y₂，…，y_m)^T为将高维交通数据在邻域内映射到低维的特征信息点，设a是一个投影向量，则有y^T＝a^TX；将目标函数推导并转化为求解公式X(βL_b+(1-β)W_w)X^Ta＝λXD_wX^Ta的广义特征值，得到最优投影向量a；其中，L_b是拉普拉斯矩阵，D_w是对角矩阵，λ是向量a的特征值，W_w为类内图权重矩阵；β是平衡参数，0≤β≤1；

(5)求映射函数：设降到低维后的d个最大特征值λ₁>…>λ_d对应的特征向量组成的最佳投影矩阵为A＝[a₁,a₂,…,a_d]，最优投影矩阵为A＝[a₁,a₂,…,a_d]，则映射关系为y_i＝A^Tx_i,i＝1,2,…,m；

(6)求路网状态特征信息：顺序选取输入矩阵的样本点x_i，计算每个样本点的最优投影，得到的每个y_i值中包含了第i个采集时间间隔内路段1到路段N所有路段上的交通流量、速度、密度三个参量的综合特征信息；则特征提取后获得的特征信息为 R^d为d维空间。

2.根据权利要求1所述的一种城市区域路网运行状态特征信息提取方法，所述的步骤一的(2)具体为：

独立判断为：去除数据不在(0，y_max)范围内的数据，y_max表示数据最大值；

当数据为0时，进行联合判断，如果流量和速度数据不同时为0，对数据进行剔除或修复；当流量、速度同时为0时，采用前几个时段数据的均值和方差σ进行判断，若数据值在内则数据是正确的，否则是数据错误；采用相邻时段数据的平均值对错误数据进行修复，的计算公式为

\overset{&OverBar;}{y} (t) = [y (t - n) + y (t - n - 1) + ... ... y (t - 1)] / n,

3.根据权利要求1所述的一种城市区域路网运行状态特征信息提取方法，所述的步骤二(2)中，采用min-max标准化方法将输入矩阵数据规范化处理。

4.根据权利要求1所述的一种城市区域路网运行状态特征信息提取方法，还包括步骤五、路网状态特征信息可视化表达：

路网状态特征信息Y为按照交通数据采集时间排序的一行数值，选用时间序列的折线图，横轴为采集时间间隔顺序，纵轴为特征信息数值；通过特征信息折线图描述路网运行状态随时间的演化情况。