CN105740395A

CN105740395A - 一种基于模糊去噪与模糊拼接的公交轨迹提取方法

Info

Publication number: CN105740395A
Application number: CN201610057530.9A
Authority: CN
Inventors: 童长飞; 厉旭杰; 徐玉; 陈慧灵; 李俊; 徐赢颖
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2016-01-28
Filing date: 2016-01-28
Publication date: 2016-07-06
Anticipated expiration: 2036-01-28
Also published as: CN105740395B

Abstract

本发明涉及一种基于模糊去噪与模糊拼接的公交轨迹提取方法，获取公交线路、到站车辆车牌号、到站站点和到站时间4种信息，并在数据库中将上述4种信息进行数值化，生成信息矩阵G，并通过信息矩阵G生成以车牌号索引值m和线路索引值l为分割依据，降维成仅保留到站时间T_j和到站站点索引I_j的二维信息矩阵G^(m,l)；根据公交站点间行驶时间的历史数据统计经验，获得模糊运算矩阵C_M，并通过模糊运算矩阵C_M从信息矩阵G^(m,l)中提取轨迹片段集对轨迹片段集通过模糊拼接算法将隶属于同一个班次的轨迹片段按到站顺序进行拼接成同一条轨迹，并利用模糊去噪算法去除拼接后的轨迹噪声，输出无噪声班次轨迹信息矩阵S^(m,l)，通过去噪来提高公交轨迹提取的正确性。

Description

一种基于模糊去噪与模糊拼接的公交轨迹提取方法

技术领域

本发明涉及具有较大噪声的网络数据源交通信息数据处理与云计算技术领域，具体涉及一种基于模糊去噪与模糊拼接的公交到站信息轨迹提取方法。

背景技术

随着城市公交信息化的建设与云计算的普及，目前国内多个城市均在公交车上安装了GPS全球定位系统，并开放公交实时到站查询服务，用户可在公交信息发布网站上通过浏览器或手机专用软件查询具体线路的公交实时到站信息，提高了公交服务质量和公交出行率，对改善城市交通拥堵具有重要意义。

受GPS定位误差、人工误操作、网络数据传输及电子设备故障等多方面因素的影响，公交到站信息的轨迹时空图存在一定比例的噪声数据和数据缺失现象，影响了行车轨迹的正确提取，具体表现在：1)同一辆车同一班次的行车数据在某些站点上会产生多个到站时间，且相互之间的时间差值在几十秒至几十分钟范围内，该现象在首末站点尤为严重；2)部分车辆在首末站点上下行线路换向后，电子设备未切换，导致车辆在某些班次上产生逆向行驶的行车轨迹；3)各车辆的行车轨迹均存在一定比例的数据缺失，受电子设备或网络传输阶段性故障影响，部分车辆甚至出现连续多站点的数据缺失。此外，在实际的系统中受交通拥堵影响，还存在后发车班次赶上前一班次的情况，表现在时空图上则出现行车轨迹交叉的现象，增加了轨迹正确提取的难度。

发明专利(申请号：201210274483.5)提出了一种基于网络数据源的公交到站信息轨迹生成方法，针对只提供到站信息无公交车辆识别号的数据源，实现了公交行车数据按线路和班次的轨迹提取，该方法对噪声较小的数据集能取得良好效果，但是对噪声较大的数据集依然存在较多的错误提取，或对真实系统的一个完整班次行车轨迹误提取成多个非完整的轨迹片段，不利于后期的数据挖掘及云计算。近年来，随着公交信息化建设的发展，部分城市公交信息发布网站丰富了信息查询内容，不仅提供线路公交的到站时间，还提供了到站车辆的车牌号，因此轨迹提取可充分利用车辆识别号信息，以取得更高的提取正确率。

发明内容

本发明提出了一种基于模糊去噪与模糊拼接的公交轨迹提取方法，充分利用了公交车牌号、到站时间以及历史经验数据等信息，降低了噪声对轨迹提取的影响，提高了轨迹提取的正确率和完整度。

本发明所采用的技术方案是：一种基于模糊去噪与模糊拼接的公交轨迹提取方法，其步骤为,

第一步：获取公交线路、到站车辆车牌号、到站站点和到站时间4种信息，并在数据库中将上述4种信息进行数值化，记j为数据集中第j条记录，则公交线路(上下行线视为2条不同的公交线路)数值化为索引值L_j(从1开始索引，不同的线路索引值不同)，车牌号数值化为索引值M_j(不同线路的车牌号索引值均从1开始，不同车牌号索引值不同)，到站站点按到站顺序数值化为索引值I_j(起始站索引值为1)，到站时间按午夜00:00:00为起始时间，以分钟为单位数值化为T_j，则信息矩阵G的第j条记录G_j可表达为G_j＝[T_j,I_j,M_j,L_j]，若G共有N条记录，则G是N×4的信息矩阵。信息矩阵G^(m,l)可从G中提取，具体为：

G^(m,l)＝{[T_j,I_j]|G_j＝[T_j,I_j,M_j,L_j]∈G,M_j＝m,L_j＝l}，

即G^(m,l)系G中以车牌索引值m和线路索引值l为筛选条件的信息集，并降维成仅保留到站时间T_j和到站站点索引I_j的二维信息矩阵。

第二步：根据公交站点间行驶时间的历史数据统计经验，获得模糊运算矩阵C_M，并通过模糊运算矩阵C_M从信息矩阵G^(m,l)中提取轨迹片段集

模糊运算矩阵的参数值如下：

C_{M} = [\begin{matrix} 0.2 & 0.5 & 2 & 16 & 25 \\ 0.4 & 0.8 & 2 & 12 & 17 \\ 0.4 & 0.8 & 2 & 10 & 14 \\ 0.5 & 0.85 & 2 & 8 & 11.5 \\ 0.5 & 0.85 & 2 & 7 & 9.4 \\ 0.55 & 0.9 & 2 & 6 & 8.2 \\ 0.55 & 0.9 & 2 & 5.5 & 7.2 \end{matrix}]

定义u(t)为关于单位有向行驶时间t的五边形同班次模糊隶属度函数，u(t)的形状由数轴上从小到大排序的五个点c₁,c₂,…,c₅确定，具体定义如下：

u (t) = \{\begin{matrix} 0, & t < c_{1} \\ \frac{t - c_{1}}{2 (c_{2} - c_{1})}, & c_{1} \leq t < c_{2} \\ \frac{1}{2} + \frac{t - c_{2}}{2 (c_{3} - c_{2})}, & c_{2} \leq t < c_{3} \\ \frac{1}{2} + \frac{c_{4} - t}{2 (c_{4} - c_{3})}, & c_{3} \leq t < c_{4} \\ \frac{c_{5} - t}{2 (c_{5} - c_{4})}, & c_{4} \leq t \leq c_{5} \\ 0, & t > c_{5} \end{matrix} - - - (1)

令为信息矩阵G^(m,l)中的第i个到站信息数据，令为信息矩阵G^(m,l)中的第k个到站信息数据，则单位有向行驶时间t定义如下：

t = \{\begin{matrix} \frac{T_{i} - T_{k}}{I_{i} - I_{k}}, & I_{i} &NotEqual; I_{k} \\ 0, & I_{i} = I_{k} \end{matrix} - - - (2)

定义U_ik为到站信息与的同班次模糊隶属度，则U_ik可由模糊运算矩阵C_M计算取得，具体步骤如下：

(A1)计算站距离n＝|I_i-I_k|，若n大于C_M行数，则u(t)的5个参数c₁,c₂,,c₅由C_M最后一行的5个数值给定；否则u(t)的5个参数由C_M的第n行给定。

(A2)由公式(1)和(2)计算和的模糊隶属度u(t)，并赋值U_ik＝u(t)。

定义U为信息矩阵G^(m,l)的同班次模糊隶属度矩阵，记M为信息矩阵G^(m,l)的总行数，则且主对角线为1的对称矩阵，U可由信息矩阵G^(m,l)中两两不同的到站信息和计算所得的同班次模糊隶属度U_ik生成，即U_ik为U中第i行第k列的值；在实际计算中，只需计算U的不包含主对角线的上三角部分，再根据主对角线元素全为1和对称性得到U的全部元素值。

定义u_min为判断两个到站信息和是否为同一班次的模糊隶属度阀值，则有：当U_ik≥u_min，与为同一班次，在轨迹提取时，应将和放在同一个轨迹片段集中；当U_ik＜u_min，则与隶属不同的轨迹片段集或轨迹噪声集。在本发明中，根据经验数据，设定u_min＝0.3可用于绝大多数线路的公交轨迹提取。

轨迹片段集的提取步骤如下：

(B1)根据模糊运算矩阵C_M，计算信息矩阵G^(m,l)的同班次模糊隶属度矩阵U的第1对角线的逻辑向量V⁽¹⁾，记V⁽¹⁾第i个元素为则有：若U_ii+1≥u_min(U_ii+1为U中第i行第i+1列元素)，若U_ii+1＜u_min，V_i ⁽¹⁾＝0；

(B2)根据V⁽¹⁾将G^(m,l)分割成轨迹片段集和噪声数据集R^(m,l)，具体步骤为：

(B2.1)初始化 I_s＝1，I_p＝1，I_e＝1，j＝1，其中I_s为遍历信息矩阵G^(m,l)的起始索引变量，I_p为遍历信息矩阵G^(m,l)的当前索引变量，I_e为遍历信息矩阵G^(m,l)的终止索引变量，j为轨迹片段索引(本发明中，索引值均从1开始计数)；

(B2.2)若V⁽¹⁾值全为1，则即信息矩阵G^(m,l)所有数据为同班次轨迹，跳转至步骤(B2.6)；若V⁽¹⁾值全为0，则R^(m,l)＝G^(m,l)，即信息矩阵G^(m,l)所有数据均视为噪声数据，跳转至步骤(B2.6)；

(B2.3)从索引值I_s开始遍历V⁽¹⁾，取出第1个值为1的索引并赋给I_p，更新I_s＝I_p；通过I_p自增遍历V⁽¹⁾直至取到值为0的元素，更新I_e＝I_p，若I_p已遍历至V⁽¹⁾最后一个数据依然未取到值为0数，则更新I_e＝I_p+1；取出信息矩阵G^(m,l)中第I_s行至第I_e行的数据，作为第j个轨迹片段并记为将加入轨迹片段集轨迹片段索引j自增1；更新I_s＝I_p+1；

(B2.4)若I_s小于等于V⁽¹⁾向量长度，且自I_s至尾部的V⁽¹⁾数据不全为0，跳至步骤(B2.3)，否则继续执行步骤(B2.5)；若I_s大于V⁽¹⁾向量长度，执行步骤(B2.5)；

(B2.5)取R^(m,l)为G^(m,l)中不包含的数据；

(B2.6)输出和

第三步：对轨迹片段集通过模糊拼接算法将隶属于同一个班次的轨迹片段按到站顺序进行拼接成同一条轨迹，并利用模糊去噪算法去除拼接后的轨迹噪声，输出无噪声班次轨迹信息矩阵S^(m,l)。

在实际数据处理中，由于噪声的存在，轨迹片段集会将一条完整的同班次轨迹分割成若干个轨迹片段，而本发明的目的是从生成的信息矩阵G^(m,l)中提取不含噪声的同班次轨迹，因此需对轨迹片段集进一步处理，将隶属于同一个班次的轨迹片段按到站顺序进行拼接，并将拼接后的轨迹去噪处理。

为了更好地描述轨迹片段拼接和轨迹去噪，定义S^(m,l)为轨迹片段集同班次拼接及去噪后的班次轨迹信息矩阵，并进一步定义S^(j,m,l)为S^(m,l)中第j条轨迹，则有对S^(m,l)中的任意两条不同的轨迹S^(j,m,l)和S^(k,m,l)，其S^(j,m,l)轨迹内的数据与另一条轨迹S^(k,m,l)不在同一班次，即S^(j,m,l)可视为第j班次的最大轨迹。

定义G为泛指一轨迹片段，U^G为通过模糊运算矩阵C_M对G计算的同班次模糊隶属度矩阵，为轨迹片段G的噪声指标向量；U^G的计算方式与信息矩阵G^(m,l)的同班次模糊隶属度矩阵U相同；假设G共有M个数据，则其中第i个元素是G中第i个数据的噪声指标，可通过计数U^G第i行小于u_min的元素个数取得，若表示G中第i个数据与G中所有其他数据的同班次模糊隶属度u(t)均大于等于u_min；若则表示G中有n个数据与第i个数据构成的同班次模糊隶属度u(t)＜u_min；因此越大，G中第i个数据越可能成为噪声，应在去噪过程中被优先删除。

轨迹去噪算法。记为轨迹片段G去噪后的信息矩阵，为信息矩阵的同班次模糊隶属度矩阵，为轨迹片段G去噪生成信息矩阵时剥离出的噪声数据集，则轨迹片段G的去噪算法可通过以下步骤实现：

(C1)初始化通过模糊运算矩阵C_M计算轨迹片段G的同班次模糊隶属度矩阵U^G；

(C2)通过U^G和同一班次的模糊隶属度阀值u_min计算轨迹片段G的噪声指标向量

(C3)取最大元素记为若跳至步骤(C6)；否则继续执行步骤(C4)；

(C4)取出中所有的噪声索引候选集合{k}满足若集合{k}元素个数大于1，则取最大噪声索引k^*∈{k}满足U^G第k^*行的行求和值是所有{k}中最小；若集合{k}只有1个元素，则k^*＝k；

(C5)从G中取出第k^*个数据加入删除G中第k^*个数据，删除U^G中第k^*行和第k^*列数据，跳至步骤(C2)；

(C6)若G的元素个数大于1，取否则取将G的元素加入

(C7)输出和

模糊拼接规则：若轨迹片段集中的两个轨迹片段和使得可拼接到构成轨迹片段G，则需满足以下条件：

\{\begin{matrix} | \hat{R} | < \min {n_{τ}, | G_{c}^{(i, m, l)} |, | G_{c}^{(j, m, l)} |} \\ a v g ({\hat{U}}^{G}) &GreaterEqual; u_{\min} \end{matrix} - - - (3)

且的到站时间早于

在公式(3)中，为使用轨迹去噪算法对拼接到构成轨迹片段G去噪后所得的噪声数据集，为集合的大小(即集合的元素数目)，n_τ为拼接噪声容许阀值，即当拼接至尾部构成轨迹片段G时，G的噪声数目需小于三个数中的最小数，且中的数据事件发生在之前；在本发明中，设置n_τ＝3。

定义U^F为轨迹片段集的模糊拼接隶属度矩阵，且记为U^F中第i行第j列元素，则为度量中第j个轨迹片段拼接到第i个轨迹片段尾部的可能性；若则表示不能拼接到尾部；值越大，拼接到的优先权越高；令拼接至构成轨迹片段G，若G不满足拼接规则，即不满足公式(3)，则若满足拼接规则，则的值计算如下：

U_{i j}^{F} = a v g ({\hat{U}}^{G}) - - - (4)

其中，为G经轨迹去噪算法处理后的无噪声轨迹片段所对应的同班次模糊隶属度矩阵，为中所有元素的算术平均值。

模糊拼接算法。将中的轨迹片段按拼接可能性的最大值优先拼接，并通过迭代的方式将同班次的轨迹片段拼接在一起，最终输出无噪声班次轨迹信息矩阵S^(m,l)，其具体实现步骤如下：

(D1)由轨迹片段集计算模糊拼接隶属度矩阵U^F；

(D2)若U^F＝0，跳至步骤(D5)；否则继续执行步骤(D3)；

(D3)取U^F的最大元素记为取满足将中第j个轨迹片段拼接至第i个轨迹片段尾部，并记拼接后的轨迹片段为G；对G轨迹去噪处理取得无噪声轨迹片段及对应的同班次模糊隶属度矩阵

(D4)对更新并在中删除重新计算U^F第i行元素和第i列元素；删除U^F第j行元素；删除U^F第j列元素；跳至步骤(D2)；

(D5)设置无噪声班次轨迹信息矩阵并输出结果。

本发明的有益效果是：本发明提出了五边形同班次模糊隶属度函数u(t)，用于度量两个到站信息属于同一班次轨迹的可能性，该函数相比三角形函数、梯形函数、高斯函数及Bell函数等传统隶属度函数，在刻画分段区间形状上具有更强的灵活性，适用于无需求导(无函数光滑性要求)的场合。在u(t)的基础上，提出模糊运算矩阵C_M，使得u(t)在不同的站距下具有不同的函数形状，充分考虑了单站距行驶时间比多站距平均行驶时间波动大的特性，在轨迹去噪及轨迹拼接中具有更强的鲁棒性。本发明提出的轨迹去噪算法中，通过引入噪声指标向量可度量轨迹G中每个数据假定视为噪声的量化值，并优先对噪声量化值最大的数据进行去噪。在轨迹拼接算法中，通过引入模糊拼接隶属度矩阵U^F，用于度量轨迹片段集任意两个轨迹片段的拼接可能性，并对模糊拼接隶属度最大的两个轨迹片段进行优先拼接。经本发明的数据处理后，可从具有一定噪声的公交到站信息矩阵G^(m,l)中提取无噪声班次轨迹信息矩阵S^(m,l)，且能保证S^(m,l)中每条不同的轨迹对应一个不同的班次，为后续的公交数据挖掘及公交信息增强服务提供更加适用于计算的数据集，为进一步的云计算和云服务奠定数据基础。

附图说明

图1是本发明中公交轨迹提取方法总流程图。

图2是本发明中A系列步骤流程图。

图3是本发明中B系列步骤流程图。

图4是本发明中C系列步骤流程图。

图5是本发明中D系列步骤流程图。

图6(A)、图6(B)、图6(C)、图6(D)是本发明中公交到站信息查询系统网页截图(数据源)。

图7是本发明中实施案例2处理前含噪声的公交轨迹时空图。

图8是本发明中实施案例2轨迹去噪后的公交轨迹时空图。

图9是本发明中实施案例3表2数据处理前的公交轨迹时空图。

图10是本发明中实施案例3表2数据处理后的公交轨迹时空图。

图11是本发明中实施案例3表1数据处理后的公交轨迹时空图。

具体实施方式

为了使本发明的内容更容易被理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，

实施案例1：

公交轨迹提取步骤如图1所示，首先采集公交信息发布网站上的公交到站信息，生成公交到站信息矩阵G，根据线路索引号l和车辆在线路中的索引号m，从G中提取特定车辆的到站信息矩阵G^(m,l)；按图2所示A系列步骤，通过模糊运算矩阵C_M，生成G^(m,l)的同班次模糊隶属度矩阵U，并按图3所示的B系列步骤将G^(m,l)分割成轨迹片段集和噪声集R^(m,l)；最后按图5所示的模糊拼接算法对进行轨迹片段拼接，使得相同班次的轨迹片段均处于同一个轨迹集中，并采用按图4所示的去噪声算法对拼接的轨迹进行去噪，最终输出无噪声班次轨迹信息矩阵S^(m,l)。

图6是苏州公交实时到站信息网站对两条线路在不同时刻下的查询结果截图，假设线路10(北线)在数据库中的线路索引号为1，线路10(南线)的线路索引号为2，车牌尾号为3E853和3D973的车辆在线路10(北线)中的车牌索引号对应值分别为1和2，与此相类似，车牌尾号为3E832和3E856的车辆在线路10(南线)中的车牌索引号分别为1和2。实施案例1结合图6的信息，给出轨迹的提取实施过程。

第一步：获取公交到站信息，生成指定线路及车辆的信息矩阵G^(m,l)。根据信息矩阵定义，G中第j行的信息G_j可表达为G_j＝[T_j,I_j,M_j,L_j]，其中T_j是以00:00:00为基准以分钟为单位的到站时间，I_j是以始发站开始计数的站点索引，M_j是车辆相对于所在线路的索引号，L_j为线路索引号，则图6对应的到站信息矩阵G可表达为：

G = {[\begin{matrix} 935.1 & 934.9 & 938.3 & 938.3 & 939.1 & 939.2 & 944.9 & 945.0 \\ 3 & 8 & 4 & 10 & 5 & 11 & 2 & 10 \\ 1 & 2 & 1 & 2 & 1 & 2 & 1 & 2 \\ 1 & 1 & 1 & 1 & 1 & 1 & 2 & 2 \end{matrix}]}^{T},

其中矩阵右上标T表示矩阵的转置运算。从信息矩阵G中提取线路10(北线)车牌尾号为3E853的信息集，即取l＝1，m＝1的G^(m,l)信息矩阵，可得：

G^{(m, l)} = {[\begin{matrix} 935.1 & 938.3 & 939.1 \\ 3 & 4 & 5 \end{matrix}]}^{T} .

第二步：通过模糊运算矩阵C_M，从l＝1，m＝1信息矩阵G^(m,l)中提取轨迹片段集

轨迹片段集的提取步骤如下：

(B1)根据模糊运算矩阵C_M，结合图2和图3，计算G^(m,l)的同班次模糊隶属度矩阵U的第1对角线的逻辑向量V⁽¹⁾。G^(m,l)为3×3的矩阵，由定义知，V⁽¹⁾由U₁₂和U₂₃构造。U₁₂由G^(m,l)中第1行和第2行到站信息计算获得，其单位有向行驶时间t＝(938.3-935.1)/(4-3)＝3.2，站距n＝4-3＝1，因此采用C_M中的第1行作为同班次模糊隶属度函数u(t)的5个参数，即c₁＝0.2，c₂＝0.5，c₃＝2，c₄＝16和c₅＝25，根据公式(1)定义：

u (t) = \{\begin{matrix} 0, & t < c_{1} \\ \frac{t - c_{1}}{2 (c_{2} - c_{1})}, & c_{1} \leq t < c_{2} \\ \frac{1}{2} + \frac{t - c_{2}}{2 (c_{3} - c_{2})}, & c_{2} \leq t < c_{3} \\ \frac{1}{2} + \frac{c_{4} - t}{2 (c_{4} - c_{3})}, & c_{3} \leq t < c_{4} \\ \frac{c_{5} - t}{2 (c_{5} - c_{4})}, & c_{4} \leq t \leq c_{5} \\ 0, & t > c_{5} \end{matrix}

可得u(t)＝0.957(保留3位小数的结果)，即U₁₂＝0.957，同理可得U₂₃＝0.6。设置同一班次的模糊隶属度阀值u_min＝0.3，根据V⁽¹⁾第i个元素V_i ⁽¹⁾的取值为U_ii+1≥u_min的逻辑值，则有V⁽¹⁾＝[1,1]^T。

(B2)根据V⁽¹⁾将G^(m,l)分割成轨迹片段集和噪声数据集R^(m,l)。由于V⁽¹⁾值全为1，G^(m,l)未发生分割，从而有

第三步：对l＝1，m＝1的轨迹片段集通过模糊拼接算法将隶属于同一班次的轨迹片段拼接成同一条轨迹，并利用模糊去噪算法去除拼接后的轨迹噪声，输出无噪声轨迹集S^(m,l)。由于只有一条轨迹片段，即G^(m,l)本身，因此不存在轨迹片段拼接，且G^(m,l)对应的同班次模糊隶属度矩阵U为：

U = [\begin{matrix} 1 & 0.957 & 1 \\ 0.957 & 1 & 0.6 \\ 1 & 0.6 & 1 \end{matrix}] .

针对本实施案例，在图4所示的去噪算法中，拼接的轨迹G即为G^(m,l)本身，因此对应的同班次模糊隶属度矩阵U^G＝U，G的噪声指标向量由去噪算法的步骤(C3)知，G无需去噪，输出的无噪声轨迹集S^(m,l)＝G^(m,l),即3个到站信息[935.1,3]，[935.1,3]，[939.1,5]是线路索引l＝1，车辆索引m＝1的公交车所产生的同一个班次上的到站信息。

实施案例2

针对本发明提出的轨迹去噪算法，给出含有较多噪声的某公交到站信息(如表1所示，来自实际采集数据)的去噪实施过程。假定表1的数据是一个轨迹片段G所对应的到站信息，图7为表1所列数据的公交到站时空图，如图所示，序号8数据、序号14数据是噪声数据，应在轨迹中剔除，序号15与序号16的数据到达站点为同一站点，应从中剔除1个，序号1-5的数据呈现逆向行驶轨迹，应全部或部分剔除。

表1实施案例2某公交车辆的到站信息

轨迹去噪算法。记为表1所述信息对应轨迹片段G去噪后的信息矩阵，为的同班次模糊隶属度矩阵，为G去噪生成时剥离出的噪声数据集，根据图4所示的流程图，G的去噪算法可通过以下步骤实现：

(C3)取最大元素记为若跳至步骤(C6)；否则继续执行步骤(C4)；

(C6)若G的元素个数大于1，取否则取将G的元素加入

(C7)输出和

在轨迹去噪过程中，首次实施步骤(C2)时，为24×1的噪声指标向量，具体为：

{\overset{&OverBar;}{N}}^{G} = {[\begin{matrix} 4 & 4 & 6 & 7 & 9 & 3 & 3 & 7 & 3 & 2 & 2 & 1 & 1 & 13 & 2 & 2 & 1 & 1 & 1 & 1 & 1 & 0 & 0 & 0 \end{matrix}]}^{T},

则根据步骤(C3)和(C4)，得k^*＝14，因此序号14的数据首先被作为噪声加入噪声数据集并在G中删除序号14数据，U^G中删除第14行和第14列数据。步骤(C4)处理完毕重新回到步骤(C2)，得到更新后的为23×1的噪声指标向量：

{\overset{&OverBar;}{N}}^{G} = {[\begin{matrix} 4 & 4 & 6 & 7 & 8 & 3 & 3 & 7 & 2 & 1 & 1 & 0 & 0 & 1 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \end{matrix}]}^{T},

在第二次循环中根据步骤(C3)和(C4)可找出序号5噪声数据。实施案例2的去噪过程共经历8次循环，前7次循环在每次循环中找出1个噪声数据(噪声剔除顺序为序号14，序号5，序号4，序号8，序号3，序号2和序号16)，第8次循环得到全为0的满足步骤(C3)的终止条件，通过步骤(C5)和(C6)输出和其中噪声集为包含序号2-5、序号8、序号14和序号16的数据，为G中剔除的数据，中最小值为0.4911，系原数据集中序号1与序号6的同班次模糊隶属度，去噪后的中所有数据满足同班次轨迹条件。实施案例2去噪后的公交轨迹时空图如图8所示，其中黑底白字的为无噪声数据的轨迹，白底黑字的为噪声集所对应的数据。

实施案例2仅仅是针对本发明的一个环节(轨迹去噪)进行算法演示，即将表1中的轨迹数据视为一个轨迹片段的数据，直接应用轨迹去噪算法进行去噪，用于验证去噪的效果，忽略了本发明中的轨迹片段分割和模糊拼接过程。因此本实施案例的处理结果不是最终的结果，从而导致序号1的数据被视为非噪声数据，若要取得完整的处理结果，见实施案例3。

实施案例3

某公交的到站信息如表2所示(来自实际采集数据)，即表2的数据与某特定公交车辆的到站信息矩阵G^(m,l)对应，该信息矩阵的时空图如图9所示。本实施案例结合表2数据，给出从G^(m,l)提取轨迹片段集以及轨迹片段拼接和模糊去噪的实施过程。

第一步：获取公交到站信息，生成以车牌号索引值m以及线路索引值l为分割依据的到站信息矩阵G^(m,l)。信息矩阵G^(m,l)的信息即为表2所对应的公交到站信息。

第二步：通过模糊运算矩阵C_M，从信息矩阵G^(m,l)中提取轨迹片段集

表2实施案例3某公交车辆的到站信息

如图3流程图所示，轨迹片段集的提取过程如下：

(B1)根据模糊运算矩阵C_M，计算G^(m,l)的同班次模糊隶属度矩阵U的第1对角线的逻辑向量V⁽¹⁾，记V⁽¹⁾第i个元素为V⁽¹⁾，则有：若U_ii+1≥u_min(U_ii+1为U中第i行第i+1列元素)，V_i ⁽¹⁾＝1；若U_ii+1＜u_min，V_i ⁽¹⁾＝0。在本实施案例中u_min＝0.3，G^(m,l)包含62条到站信息，则对应的V⁽¹⁾向量长度为61，由公式(1)和逻辑判断可得V⁽¹⁾的值，具体见表3所示。

表3实施案例3表2数据的逻辑向量值

(B2.1)初始化I_s＝1，I_p＝1，I_e＝1，j＝1，其中I_s为遍历G^(m,l)的起始索引变量，I_p为遍历G^(m,l)的当前索引变量，I_e为遍历G^(m,l)的终止索引变量，j为轨迹片段索引(本发明中，索引值均从1开始计数)；

(B2.2)若V⁽¹⁾值全为1，则即G^(m,l)所有数据为同班次轨迹，跳转至步骤(B2.6)；若V⁽¹⁾值全为0，则R^(m,l)＝G^(m,l)，即G^(m,l)所有数据均视为噪声数据，跳转至步骤(B2.6)；

(B2.3)从索引值I_s开始遍历V⁽¹⁾，取出第1个值为1的索引并赋给I_p，更新I_s＝I_p；通过I_p自增遍历V⁽¹⁾直至取到值为0的元素，更新I_e＝I_p，若I_p已遍历至V⁽¹⁾最后一个数据依然未取到值为0数，则更新I_e＝I_p+1；取出G^(m,l)中第I_s行至第I_e行的数据，作为第j个轨迹片段并记为将加入集合轨迹片段索引j自增1；更新I_s＝I_p+1；

(B2.5)取R^(m,l)为G^(m,l)中不包含的数据；

(B2.6)输出和R^(m,l)。

根据步骤B2可得，G^(m,l)中第1-12个数据为j＝1的轨迹片段为方便实施案例描述，对j＝1的轨迹片段重新记为G⁽¹⁾；G^(m,l)中第13-48个数据为j＝2的轨迹片段记为G⁽²⁾；G^(m,l)中第51-60个数据为j＝3的轨迹片段记为G⁽³⁾；G^(m,l)中第61-62个数据为j＝4的轨迹片段记为G⁽⁴⁾。由此可得轨迹片段集噪声数据有2个，为G^(m,l)中第49-50个数据。

第三步：对轨迹片段集通过模糊拼接算法将隶属于同一班次的轨迹片段拼接成同一条轨迹，并利用模糊去噪算法去除拼接后的轨迹噪声，输出无噪声班次轨迹信息矩阵S^(m,l)。

无噪声班次轨迹信息矩阵S^(m,l)的生成由轨迹去噪算法和模糊拼接算法两个核心算法实现。

轨迹去噪算法。记为轨迹片段G去噪后的信息矩阵，为的同班次模糊隶属度矩阵，为G去噪生成时剥离出的噪声数据集，则G的去噪算法可通过以下步骤实现(如图4所示)：

(C3)取最大元素记为若跳至步骤(C6)；否则继续执行步骤(C4)；

(C6)若G的元素个数大于1，取否则取将G的元素加入

(C7)输出和

模糊拼接算法的实现：将中的轨迹片段按拼接可能性的最大值优先拼接，并通过迭代的方式将同班次的轨迹片段拼接在一起，最终输出无噪声班次轨迹信息矩阵S^(m,l)。其具体实现步骤如下(如图5所示)：

(D1)由轨迹片段集计算模糊拼接隶属度矩阵U^F；

(D2)若U^F＝0，跳至步骤(D5)；否则继续执行步骤(D3)；

(D5)设置无噪声班次轨迹信息矩阵并输出结果。

在步骤(D1)中，由模糊拼接规则和公式(4)计算U^F，其计算过程使用轨迹去噪算法对轨迹片段集中任意两个片段拼接而成的轨迹G去噪，生成去噪后的信息矩阵对应的同班次模糊隶属度矩阵以及噪声集合并利用公式(3)判断。为更好描述算法，此处给出U₁₂ ^F的生成过程。U₁₂ ^F描述了中G⁽²⁾轨迹片段拼接至G⁽¹⁾尾部的拼接隶属度，其计算过程如下：

(E1)首先将G⁽²⁾信息矩阵合并到G⁽¹⁾信息矩阵的末行构成新信息矩阵G，即G＝[G⁽¹⁾；G⁽²⁾]，根据步骤(C1)及公式(1)和(2)，可得U^G；

(E2)根据u_min＝0.3和步骤(C2)，计算可得其中因为第12个数据与第13个数据不能拼接，其它数据均可以两两拼接，因此第12个数据和第13个数据噪声指标为1，即其它元素值为0；

(E3)通过步骤(C4)知，集合{k}＝{12,13}，由于U^G第13行的行和值比第12行的行和值小，因此k^*＝13，将G中第13个数据删除，并将此数据加入噪声集将U^G的第13行和13列删除；

(E4)重回步骤(C2)根据更新后的U^G计算可得所有元素均为0；

(E5)根据步骤(C3)判断可知噪声剔除已处理完毕，可根据步骤(C5)和(C6)输出和

(E6)由于噪声容许阀值n_τ＝3，|G⁽¹⁾|＝12，|G⁽²⁾|＝36，G⁽¹⁾事件发生在G⁽²⁾之前，应用模糊拼接规则和公式(3)可知，G⁽²⁾可拼接在G⁽¹⁾之后，并由公式(4)计算可得G⁽²⁾对G⁽¹⁾的模糊拼接隶属度U₁₂F＝0.929。

U^F其它值的计算过程类似于步骤(E1)-(E6)，最终取得轨迹片段集的模糊拼接隶属度矩阵：

U^{F} = [\begin{matrix} 0 & 0.929 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0.889 \\ 0 & 0 & 0 & 0 \end{matrix}] .

根据步骤(D2)-(D4)，在模糊拼接算法中，优先将G⁽²⁾拼接至G⁽¹⁾尾部，并将此去噪后的拼接轨迹(剔除第13个数据)重新赋给G⁽¹⁾；再将原G⁽⁴⁾拼接至G⁽³⁾尾部(剔除第61个数据)重新赋给G⁽³⁾。最终输出的无噪声班次轨迹信息矩阵S^(m,l)包含两条轨迹，具体如图10所示，圆点数据(●)为无噪声班次轨迹1，方点数据(■)为无噪声班次轨迹2，标星数据(*)为噪声数据，噪声数据共有4个，分别为表2中序号为13，49，50和61的数据。

应用实施案例3所示的完整处理过程，对实施案例2(表1)的轨迹数据进行处理，则序号1-5的数据、序号8数据和序号14-15的数据在第二步轨迹片段集的提取过程中即被逻辑向量V⁽¹⁾处理为噪声数据。实施案例2的最终处理结果如图11所示，其中黑底白字的为无噪声同班次轨迹数据，白底黑字的为噪声数据。

附图所描述的实施例仅是本发明的优选实施方式，而并非对本发明的保护范围的限定，任何基于本发明精神所做的改进都理应在本发明保护范围之内。

Claims

1.一种基于模糊去噪与模糊拼接的公交轨迹提取方法，其特征在于：其步骤为，

第一步：获取公交线路、到站车辆车牌号、到站站点和到站时间4种信息，并在数据库中将上述4种信息进行数值化，生成信息矩阵G，并通过信息矩阵G生成以车牌号索引值m和线路索引值l为分割依据，降维成仅保留到站时间T_j和到站站点索引I_j的二维信息矩阵G^(m，l)；

第二步：根据公交站点间行驶时间的历史数据统计经验，获得模糊运算矩阵C_M，并通过模糊运算矩阵C_M从信息矩阵G^(m，l)中提取轨迹片段集

第三步：对轨迹片段集通过模糊拼接算法将隶属于同一个班次的轨迹片段按到站顺序进行拼接成同一条轨迹，并利用模糊去噪算法去除拼接后的轨迹噪声，输出无噪声班次轨迹信息矩阵S^(m，l)。

2.根据权利要求1所述的一种基于模糊去噪与模糊拼接的公交轨迹提取方法，其特征在于：在第二步中，定义u(t)为关于单位有向行驶时间t的五边形同班次模糊隶属度函数，u(t)的形状由数轴上从小到大排序的五个点c₁，c₂，…，c₅确定，具体定义如下：

u (t) = \{\begin{matrix} 0, & t < c_{1} \\ \frac{t - c_{1}}{2 (c_{2} - c_{1})}, & c_{1} \leq t < c_{2} \\ \frac{1}{2} + \frac{t - c_{2}}{2 (c_{3} - c_{2})}, & c_{2} \leq t < c_{3} \\ \frac{1}{2} + \frac{t - c_{2}}{2 (c_{3} - c_{2})}, & c_{3} \leq t < c_{4} \\ \frac{c_{5} - t}{2 (c_{5} - c_{4})}, & c_{4} \leq t < c_{5} \\ 0, & t > c_{5} \end{matrix} - - - (1)

令为信息矩阵G^(m，l)中的第i个到站信息数据，

令为信息矩阵G^(m，l)中的第k个到站信息数据，则单位有向行驶时间t定义如下：

t = \{\begin{matrix} \frac{T_{i} - T_{k}}{I_{i} - I_{k}}, & I_{i} &NotEqual; I_{k} \\ 0, & I_{i} = I_{k} \end{matrix} . - - - (2)

3.根据权利要求2所述的一种基于模糊去噪与模糊拼接的公交轨迹提取方法，其特征在于：定义U_ik为到站信息与的同班次模糊隶属度，则U_ik可由模糊运算矩阵C_M计算取得，具体步骤如下：

(A1)计算站距离n＝|I_i-I_k|，若n大于C_M行数，则u(t)的5个参数c₁，c₂，…，c₅由C_M最后一行的5个数值给定；否则u(t)的5个参数由C_M的第n行给定；

(A2)由公式(1)和(2)计算和的模糊隶属度u(t)，并赋值U_ik＝u(t)；

定义U为信息矩阵G^(m，l)的同班次模糊隶属度矩阵，记M为信息矩阵G^(m，l)的总行数，则且主对角线为1的对称矩阵，U可由信息矩阵G^(m，l)中两两不同的到站信息和计算所得的同班次模糊隶属度U_ik生成，即U_ik为U中第i行第k列的值；

定义u_min为判断两个到站信息和是否为同一班次的模糊隶属度阀值，则有：当U_ik≥u_min，与为同一班次，在轨迹提取时，应将和放在同一个轨迹片段集中；当U_ik＜u_min，则与隶属不同的轨迹片段集或噪声集。

4.根据权利要求3所述的一种基于模糊去噪与模糊拼接的公交轨迹提取方法，其特征在于：所述模糊运算矩阵C_M的参数值如下：

C_{M} = [\begin{matrix} 0.2 & 0.5 & 2 & 16 & 25 \\ 0.4 & 0.8 & 2 & 12 & 17 \\ 0.4 & 0.8 & 2 & 10 & 14 \\ 0.5 & 0.85 & 2 & 8 & 11.5 \\ 0.5 & 0.85 & 2 & 7 & 9.4 \\ 0.55 & 0.9 & 2 & 6 & 8.2 \\ 0.55 & 0.9 & 2 & 5.5 & 7.2 \end{matrix}] .

5.根据权利要求3或4所述的一种基于模糊去噪与模糊拼接的公交轨迹提取方法，其特征在于：轨迹片段集的提取步骤如下：

(B1)根据模糊运算矩阵C_M，计算信息矩阵G^(m，l)的同班次模糊隶属度矩阵U的第1对角线的逻辑向量V⁽¹⁾，记V⁽¹⁾第i个元素为则有：若U_ii+1≥u_min，若U_ii+1＜u_min，

V_{i}^{(1)} = 0;

(B2)根据V⁽¹⁾将G^(m，l)分割成轨迹片段集和噪声数据集R^(m，l)。

6.根据权利要求5所述的一种基于模糊去噪与模糊拼接的公交轨迹提取方法，其特征在于：步骤(B2)的具体步骤为：

(B2.1)初始化 I_s＝1，I_p＝1，I_e＝1，j＝1，其中I_s为遍历信息矩阵G^(m，l)的起始索引变量，I_p为遍历信息矩阵G^(m，l)的当前索引变量，I_e为遍历信息矩阵G^(m，l)的终止索引变量，j为轨迹片段索引；

(B2.2)若V⁽¹⁾值全为1，则即信息矩阵G^(m，l)所有数据为同班次轨迹，跳转至步骤(B2.6)；若V⁽¹⁾值全为0，则R^(m，l)＝G^(m，l)，即信息矩阵G^(m，l)所有数据均视为噪声数据，跳转至步骤(B2.6)；

(B2.3)从索引值I_s开始遍历V⁽¹⁾，取出第1个值为1的索引并赋给I_p，更新I_s＝I_p；通过I_p自增遍历V⁽¹⁾直至取到值为0的元素，更新I_e＝I_p，若I_p已遍历至V⁽¹⁾最后一个数据依然未取到值为0数，则更新I_e＝I_p+1；取出信息矩阵G^(m，l)中第I_s行至第I_e行的数据，作为第j个轨迹片段并记为将加入轨迹片段集轨迹片段索引j自增1；更新I_s＝I_p+1；

(B2.5)取R^(m，l)为G^(m，l)中不包含的数据；

(B2.6)输出和R^(m，l)。

7.根据权利要求1所述的一种基于模糊去噪与模糊拼接的公交轨迹提取方法，其特征在于：

定义S^(m，l)为轨迹片段集同班次拼接及去噪后的班次轨迹信息矩阵，并进一步定义S^(j，m，l)为S^(m，l)中第j条轨迹，则有对S^(m，l)中的任意两条不同的轨迹S^(j，m，l)和S^(k，m，l)，其S^(j，m，l)轨迹内的数据与另一条轨迹S^(k，m，l)不在同一班次，即S^(j，m，l)可视为第j班次的最大轨迹；

定义G为泛指一轨迹片段，U^G为通过模糊运算矩阵C_M对G计算的同班次模糊隶属度矩阵，为轨迹片段G的噪声指标向量；U^G的计算方式与信息矩阵G^(m，l)的同班次模糊隶属度矩阵U相同；假设G共有M个数据，则其中第i个元素是G中第i个数据的噪声指标，可通过计数U^G第i行小于u_min的元素个数取得，若表示G中第i个数据与G中所有其他数据的同班次模糊隶属度u(t)均大于等于u_min；若则表示G中有n个数据与第i个数据构成的同班次模糊隶属度u(t)＜u_min；因此越大，G中第i个数据越可能成为噪声，应在去噪过程中被优先删除。

8.根据权利要求7所述的一种基于模糊去噪与模糊拼接的公交轨迹提取方法，其特征在于：记为轨迹片段G去噪后的信息矩阵，为信息矩阵的同班次模糊隶属度矩阵，为轨迹片段G去噪生成信息矩阵时剥离出的噪声数据集，则轨迹片段G的去噪算法可通过以下步骤实现：

(C3)取最大元素记为若跳至步骤(C6)；否则继续执行步骤(C4)；

(C6)若G的元素个数大于1，取否则取将G的元素加入

(C7)输出和

9.根据权利要求8所述的一种基于模糊去噪与模糊拼接的公交轨迹提取方法，其特征在于：若轨迹片段集中的两个轨迹片段和使得可拼接到构成轨迹片段G，则需满足以下条件：

\{\begin{matrix} | \hat{R} | < m i n {n_{τ}, | G_{c}^{(i, m, l)} |, | G_{c}^{(j, m, l)} |} \\ a v g ({\hat{U}}^{G}) &GreaterEqual; u_{\min} \end{matrix} - - - (3)

且的到站时间早于

在公式(3)中，为使用轨迹去噪算法对拼接到构成轨迹片段G去噪后所得的噪声数据集，为噪声数据集的元素数目，n_τ为拼接噪声容许阀值，即当拼接至尾部构成轨迹片段G时，G的噪声数目需小于三个数中的最小数，且中的数据事件发生在之前；

U_{i j}^{F} = a v g ({\hat{U}}^{G}) - - - (4)

10.根据权利要求9所述的一种基于模糊去噪与模糊拼接的公交轨迹提取方法，其特征在于：将中的轨迹片段按拼接可能性的最大值优先拼接，并通过迭代的方式将同班次的轨迹片段拼接在一起，最终输出无噪声班次轨迹信息矩阵S^(m，l)，其具体实现步骤如下：

(D1)由轨迹片段集计算模糊拼接隶属度矩阵U^F；

(D2)若U^F＝0，跳至步骤(D5)；否则继续执行步骤(D3)；

(D5)设置无噪声班次轨迹信息矩阵并输出结果。