CN109359670A

CN109359670A - 一种基于交通大数据的个体关联强度自动检测方法

Info

Publication number: CN109359670A
Application number: CN201811085836.0A
Authority: CN
Inventors: 尹宝才; 赵霞; 张勇; 刘浩; 林炯斌
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2019-02-19
Anticipated expiration: 2038-09-18
Also published as: CN109359670B

Abstract

本发明公开一种基于交通大数据的个体关联强度自动检测方法，包括以下步骤：步骤1：提取移动模式相似的两两交通个体样本集合；步骤2：度量集合中任一个体对的交通行为相似性；步骤3：度量集合中任一个体对的交通行为交互性；步骤4：构建联合概率加权模型来加权度量交通个体间的关联强度，以自动检测潜在同行个体，最终采用公共交通出行数据验证上述模型的检测精度、鲁棒性和可扩展性。

Description

一种基于交通大数据的个体关联强度自动检测方法

技术领域

本发明属于公共交通关联出行检测领域，尤其涉及一种基于交通大数据的个体关联强度自动检测方法。

背景技术

近年来，探索交通个体关联出行逐渐成为诸如友人推荐、异常个体追踪、轨迹预测等交通领域应用研究的热点话题。公共交通工具作为同行群体(如亲友、同事、熟人等)参加特定社会活动(如社交、会议、娱乐、购物、聚餐、春运等)的主要交通工具，所诱发的大量公共交通关联出行成为重点关注对象。有效挖掘所内的关联出行团体是从微观角度探索交通个体社会关系网络的重要途径。虽然公共交通数据为这一研究提供了海量数据基础，但关联出行仍未被现有学者广泛关注。究其原因，尚缺乏一套有效的交通个体关联强度自动检测方法。

部分交通领域的研究已分别从交通行为的相似性和交互性角度挖掘出行个体的关联强度。首先，在交通行为相似性角度，申请号为201710098940.2专利在考虑时空状态序列相似的基础上，公开了一种基于轨道交通数据的异常出行群体识别方法，采用时空相似性算子度量异常个体间交通状态的相似性，以检测轨道交通内的异常团体。申请号为2017113991203的专利在加权度量个体间交通行为在时空和移动模式相似性的基础上，公开了一种基于模块度最优化的方法，通过构建扒窃关联图，以自动检测地面公交场所内的潜在扒窃团体。上述2类专利均可有效检测特殊的目标团体，但均未考虑出行个体间的移动模式相似性，导致容易漏报具有弱时空相似性却有强移动模式相似性的同行个体，或者误报具有强行为相似性却无行为交互性的同行个体。其次，在交通行为交互性角度，申请号为201510996221.3的专利在考虑社交群体活动主题明确、聚集属性明显的特点，提出一种自适应网络局部扩展的方法，以推断定向局部群体。申请号为201611035627.6的专利在考虑到社交关系可扩展性的基础上，公开了一种基于图扩充的社交群体的确定方法及装置，即采用基于最大扩充图内完全模块的方式检测以多用户为中心的潜在社交群体。该2类专利均可从粗粒度视角有效发现局部关联团体，但仍无法摒弃由瞬时聚集效应引发的假阳性关联团体。同时，专利提及的社交关系扩展性但尚未应用于公共交通个体的关联出行检测应用中。最后，在社交网络关系度量的应用研究中，Xiang考虑到网络个体的交互行为诞生于彼此行为的相似性，提出采用基于因果关系的联合概率分布模型(relation strengthmodel，简称为Rs模型)来度量社交网络个体的关联强度。随后，Zhao和Xiong分别对上述Rs模型进行局部约束，即通过引入社交活动主题多样性和用户名直接点到的方式，来度量社交网络特定主题下的关联强度。但是，Rs模型及其衍生模型均不能应用于交通个体的关联度量研究中。究其原因，尚未提出一套专用于描述交通行为相似性和交互性的特征矢量集。

基于此，本发明提出一种基于交通大数据的个体关联强度自动检测方法。研究成果可应用于公共交通行业个体行为分析平台，为社交网络构建、异常个体追踪及轨迹预测提供科学依据。

发明内容

针对现有技术中存在的上述问题，本发明提出一种基于交通大数据的个体关联强度自动检测方法，首先从交通大数据中提取移动模式相似的两两交通个体样本集合，度量集合中任一个体对交通行为的相似性、交互性，构建基于上述属性模块的联合概率加权模型，来加权度量交通个体间的关联强度，以自动检测潜在同行个体，最终采用公共交通出行数据验证上述模型的检测精度、鲁棒性和可扩展性。

为实现上述目的，本发明采用如下的技术方案：

步骤1：筛选具有模式相似性的两两交通个体

鉴于具有关联特性的交通个体对往往具有相似的移动模式。因此，本发明首先从空间多样性、时间多样性、出行多样性维度提取用以度量交通个体移动模式的出行特征向量集，然后采用c-Means++算法聚类上述特征向量集，使移动模式相似的交通个体聚集到一类，并为类内每一位个体提取移动模式最为相似的前ns名邻居作为社区成员，并与目标个体组成两两交通个体对。合并所有近邻社区中的两两交通个体用于后续的个体间关联强度分析。

步骤2：交通行为相似性度量

具有社会关联性的两两交通个体在共同社交活动主题的驱动上，容易使其交通行为在时空维度和移动模式维度出现微观相似性。此外，在点式分布(如：站点片区分布)和线式分布(如：交通线路分布、Origin-Destination分布，简称为OD分布)为代表的出行偏好维度，两两关联个体也将呈现一定程度的相似性。基于此，本发明为每一对交通个体i和j，简写为τ₁＝(i，j)，构建一个描述其行为相似性的5维特征向量集其中，表示了交通个体对τ₁的时空相似性(stSim)、移动模式相似性(mobSim)、共同站点片区分布相似性(comZoneProb)、共同交通线路分布相似性(comRouteProb)、共同OD分布相似性(comODProb)。这一行为相似性向量可有效识别那些容易被误判的真阳性相似交通个体对，他们通常具有弱时空相似性或弱出行偏好性却具有强移动模式相似性。

步骤3：交通行为交互性度量

具有社会关联性的两两交通个体的行为交互性主要表现为相遇属性。当交通个体对的出行记录共同出现在同一交通线路上的一个站点或者一段区间上，则视为二者相遇。采用二元算子来描述任一交通个体对τ的出行记录是否存在相遇事件。当意味着交通个体i和j未相遇；否则相遇。进一步度量τ在相遇地点的间隔大小(encGap)、相遇时间段长短(encDurTm)、相遇次数多少(encTmsProb)这3维属性，来量化二者交通行为的交互强度。同时引入来标识τ₁的相遇属性。其中，l是描述个体相遇的特征维度，且l＝3。

步骤4：基于联合概率加权模型的交通个体相似性检测

交通个体间的社会关联性描述了二者隐含的关联强度的大小。该隐含变量由显性的个体行为模式相似性诱发而生，并在一定程度上决定了个体行为的显性交互强度。引入算子来描述任一交通个体对τ₁的关联强度。该连续型算子可在0～1范围内连续取值以表征交通个体间关联强度的渐变性，如式(1)所示。

基于此，分别构建“个体间行为相似性——个体间关联强度”的条件概率模型与“个体间关联强度——个体间交互强度”下的条件概率模型并联合这2类概率模型来描述任一交通个体对τ₁的在经典联合概率模型Rs下的原生相似性Rs(τ₁)。其中，可有效展示Wrs模型对τ₁在交通行为相似性方面的个性化特征描述，而可有效展示Wrs模型对τ₁在交通行为交互性方面的共性化特征描述。此外，群体聚集性是个体在社会生活中的基本特性，而扩大个体交际圈是个体社会性的基本手段。这一特性促使任一个体对i和j的交通行为在社区邻里关系的驱动下具有可扩展性，即i和j的弱关联性可扩展为强关联性。基于此，加权引入基于社区驱动的邻里关系相似性RsNb(τ₁)，即i和j与其共有社区Nb(τ₁)内任一邻居k∈Nb(τ₁)的联合相似性的累积值，来综合度量交通个体对τ₁在联合概率加权模型Wrs下的相似性强度Wrs(τ₁)。

作为优选，步骤1具体为：

步骤1.1：移动模式特征化

针对第i位交通个体，从空间、时间和属性维度为其特征化d维出行特征向量集来描述该个体的移动模式。d＝7，且这d维出行特征指标分别为：隐患站点个数(abStas)、站点片区熵值(staZnEn)、站点时间熵值(staTmEn)、高峰时段访问频率(peakTmPct)、频繁出行频率(freTraPct)、最频繁出行路径比重(maxODPct)、短途出行比重(shortTraPct)。上述指标的详细介绍可参考申请号为201711399106.3的专利。

步骤1.2：移动模式聚类

选用基于划分思想的c-means++方法对步骤1中输出的所有交通个体的移动模式特征向量集进行聚类，将具有相近移动模式的个体化为一类，最终得到c种具有不同移动模式的个体类别。聚类算法中需要指定两两交通个体(如i和j)的距离度量方法，我们采用移动模式相异性算子mobDis(τ₁)来表示这2位交通个体间出行特征序列m_i和m_j的欧式距离，见式(1)。式中，或代表m_i和m_j的第d维特征指标。同时，交通个体i和j间移动模式相似性算子mobSis(τ₁)即为mobDis(τ₁)的指数反函数，同见式(1)。式中，δ为幂平衡算子，用于确保mobSim(τ₁)介于[0，1]范围内，且δ＝1/2N×∑_NmobDis(τ)。

步骤1.3：交通个体社区提取

根据“6度分割”理论，一位个体在社交关系网络的作用只需要与6位近邻保持联系，则可联络到地球上的任何一个人。基于该理论，我们遍历步骤1.2中每一类，并为类内的每位交通个体提取个各自社区，并规定社区尺寸标准值(即社区内有效邻居的个数)为ns。遍历社区内所有邻居，使其与目标个体分别形成两两个体对，并最终合并为个体对集，以用于后续的关联强度分析。

作为优选，步骤2具体为：

首先，计算stSim相似性算子。stSim(τ₁)算子为任一对交通个体i和j在时空模式上的相似性。它可表示为i和j在空间分布相似性spaSim(τ₁)和时间分布相似性tmSim(τ₁)的乘积，见式(2)。关于stSim(τ₁)的详细介绍可参考申请号为201711399120.3的专利。

stSim(τ₁)＝spaSim(τ₁)×tmSim(τ₁) (2)

其次，计算mobSim相似性算子。该算子的计算方式详见步骤1.2。

最后，计算出行偏好相似性。交通个体在共同站点片区、共同线路和共同OD方面的出行偏好相似性分别用comZoneProb、comRouteProb和comODProb算子表示。这3类算子的定义及计算方式类似。对于comZoneProb，它是指任一交通个体对τ₁共同访问同一站点片区的累积概率和。该算子不仅与τ₁对共同站点片区的访问频数成正比，且与二者的各自出行频率成反比，具体计算公式见式(3)。式中，Z_i或Z_j是个体i或j所访问的站点片区集合，p₁为个体i或j在Z_i和Z_j集合中共同出现的第p₁个站点片区，或是二者访问p₁的频数，len(Z_i)或len(Z_j)即为个体i或j所访问的站点片区的加权频数。当二者共同访问过的站点片区不为空时(即：)，comZoneProb(τ₁)＞0；当Z_i＝Z_j时，comZoneProb(τ₁)＝1。

对于comZoneProb，它是指τ₁共同访问同一公交线路的累计概率和，具体计算公式见式(4)。式中，R_i或R_j是个体i或j所访问的公交线路集合，p₂为个体i或j在R_i和R_j集合中共同出现的第p₂条公交线路，或是二者访问p₂的频数，len(R_i)或len(R_j)即为个体i或j所访问的公交线路的加权频数。当二者共同访问过的公交线路不为空时(即：)，comRouteProb(τ₁)＞0；当R_i＝R_j时，comcomRoute(τ₁)＝1。

对于comODProb，它是指τ₁共同访问同一OD路径的累计概率和，具体计算公式见式(5)。式中，OD_i或OD_j是个体i或j所访问的OD路径集合，p₃为个体i或j在OD_i和OD_j集合中共同出现的第p₃条OD路径，或是二者访问p₃的频数，len(OD_i)或len(OD_j)即为个体i或j所访问的OD路径的加权频数。当二者共同访问过的OD路径不为空时(即：)时，comODProb(τ₁)＞0；当OD_i＝OD_j时，comODProb(τ₁)＝1。

上述算子集合构成5维特征向量集是步骤4中构建Wrs模型所需的交通行为相似性特征变量。

作为优选，步骤3具体为：

提取encGap、encDurTm、encTms来描述交通个体对在行为交互方面的特征。

首先，相遇间隔encGap指的是两两交通个体的全部相遇行程中的平均相遇间隔，可有效展示两两交通个体对某共同空间站点片区的选择偏好。图3从空间视觉展示了任一交通个体对τ的相遇行程tr。令O_tr ⁱ和D_tr ⁱ为交通个体i的起终点；和为交通个体j的起终点。和分别指的是这一交通个体对τ的起点空间差异和终点空间差异。那么，tr的相遇间隔则为这一交通个体对τ在空间O点或D点的较小的空间差异性。

其次，相遇时间encDurTm指的是两两交通个体的全部相遇行程中的平均相遇时间段，可有效展示两两交通个体对某共同交通线路的乘坐偏好。

最后，相遇次数encTms指的是两两交通个体的累积相遇频数，可有效展示两两个体对某共同站点片区和乘坐交通线路的偏好。引入encTmsProb来表征任一交通个体对τ₁在某共同站点片区相遇的累积概率和值。该值的计算方式与式(3)类似，此处不再赘述。

上述算子集合构成3维特征向量集是步骤4中构建Wrs模型所需的交通行为交互性特征向量。

作为优选，步骤4具体为：

在步骤1对具有移动模式相似的交通个体对进行过滤后，通过步骤2和步骤3提取步骤4所需的特征变量，用于本步骤的Wrs模型构建，以检测任一交通个体对的关联强度。模型的具体构建方式分为以下3步。

步骤4.1：任一交通个体对τ₁＝(i，j)的原生相似性Rs(τ₁)度量

经典Rs模型对任一交通个体对τ₁的关联强度的联合概率分布模型可由式(6)表示。其中，τ₁＝(i，j)∈D。D为两两交通个体对的集合，且D＝[(i₁，j₁)，(i₂，j₂)，...，(i_N，j_N)]^T。

步骤4.2：基于社区驱动的邻里关系相似性RsNb(τ₁)度量

对于任一交通个体对τ₁的共有社区Nb(τ₁)而言，其内任一邻居k∈Nb(τ₁)(k＝1，...，K)都将与i和j保持关联性。其中，K为Nb(τ₁)社区的尺寸值。那么，交通个体对i和k(简写为：τ₂＝(i，k))、交通个体对j和k(简写为：τ₃(j，k))的联合相似性Rs(τ₂)×Rs(τ₃)将对RsNb(τ)起积极贡献率。此外，考虑到上述贡献率随着i/j与k间的移动模式相异性mobDis(τ₂)与mobDis(τ₃)的增大而衰减。因此，进一步引入移动模式衰减系数来平衡邻里关系相似性的综合作用，即：综上，基于社区驱动的邻里关系相似性RsNb(τ₁)是τ₂和τ₃在移动模式衰减效应下的联合相似性的累积值，具体表达式如(7)所示。

步骤4.3：任一交通个体对τ₁的加权相似性Wrs(τ₁)度量

联合概率加权模型Wrs不仅考虑了步骤4.1中任一交通个体对τ₁的在经典联合概率模型Rs下的原生相似性Rs(τ₁)，也同时加权度量了步骤4.2中τ₁在社区驱动下的邻里关系相似性RsNb(τ₁)。因此，基于联合概率加权模型Wrs的加权相似性Wrs(τ₁)的表达式如式(8)所示。其中，α和β分别为Rs(τ₁)和RsNb(τ₁)的权重系数，且β＝1-α(α，β＞0)。β的值由所有共有社区尺寸之和在除K_all外的全部个体对的社区总和(N×ns)中所占的比重决定，即：β＝K_all/(N×ns-K_all)。

Wrs(τ₁)＝αRs(τ₁)+βRsNb(τ₁) (8)

将式(6)和(7)代入(8)中，可得任一对交通个体τ₁在联合概率加权模型Wrs下的相似性度量函数Wrs(τ₁)为：

分别采用Gaussian模型和Logistic模型来实例化(9)中的条件概率模型和(τ_η＝τ₁，τ₂或τ₃)，见式(10)和(11)。式(10)中，w_η＝[w_η ¹，w_η ²，...，w_η ^m]^T是行为相似变量的5维权重向量。v_η是加权的方差大小，在后续实验中初始化为0.5。式(11)中，是行为交互变量与关联变量的组合变量。θ_η＝[θ_η ¹，θ_η ²，...，θ_η ^l，θ_η ^l+1]^T是的(l+1)维权重变量，且b是Logistic模型中的常数项，决定行为交互性对二者关联性评估的初始贡献大小。

为了避免参数w_η和θ_η过拟合，引入L2正则项来约束二者，如式(12)和(13)所示。式中，和分布为w_η和θ_η的权重系数。

综上，所有两两交通个体的关联强度联合概率加权相似性如式(14)所示。

采用最大似然法对上式取对数似然函数，如式(15)所示。

上式中，

进一步估计D中潜变量w_η、θ_η(η＝1，2，或3)。采用牛顿-拉弗森法(Newton-Raphson)迭代求解潜变量θ_η，如式(16)、(17)所示；采用脊回归方法(ridge regressionscheme)迭代求解潜变量w_η，如式(18)所示。该式中，或或

w_η＝(λ_wI+S^TS)^-1S^TR， (18)

上述所构建的Wrs模型用于识别任一交通个体对的关联强度。

综上，本发明具有以下有益效果：

a)提出一个全新的联合概率加权模型来度量两两交通个体的关联强度。该模型能捕捉到交通个体间的交通行为的模式相似性约束和行为可扩展性约束，使模型具有很好的预测精度、鲁棒性和可扩展性；

b)研究成果服务于公共交通安全领域中的同行团体检测应用，为友人推荐、异常个体追踪、轨迹预测等业务需求提供科学依据。

附图说明

图1为一种基于联合概率加权模型的交通个体关联强度自动检测方法流程图；

图2(a)～图2(d)为交通个体交互属性的频率分布和累计频率分布图，图2(a)为交通个体的邻居数，图2(b)为相遇间隔，图2(c)为相遇时段，图2(d)为相遇次数；

图3为两两交通个体的相遇事件示例图；

图4为Wrs模型的图形化展示界面；

图5为c-Means++算法的最优聚类数目的确定；

图6(a)～图6(c)为Wrs模型的λ_θ、λ_w、b参数敏感性分析，图6(a)为变换3参数后精度评估参数AUC(Area under ROC curve)的变化趋势，图6(b)为λ_θ＝0.5时，变化其他2参数后AUC的变化趋势，图6(c)为λ_θ＝0.5，λ_w＝0.1时，变化参数b后AUC的变化趋势；

图7为不同实验样本体量下各评估方法的分类性能对比；

图8(a)～图8(c)为不同兴趣主题干扰下各评估方法的分类性能对比。

具体实施方式

下面结合附图和实例对本发明做进一步说明。

一种基于模块度最优化的地面公交扒窃团体自动检测方法的流程图如图1所示，包括以下步骤：

步骤1：筛选具有模式相似性的两两交通个体

步骤2：交通行为相似性度量

步骤3：交通行为交互性度量

步骤4：基于Wrs模型的交通个体相似性检测

选取北京市2015年8月3日至28日4周内的地面公交和地铁IC卡刷卡数据作为本例的实验数据。其中，海量数据集中包含4,036对已标识为两两同行的有效交通个体对，占全体数据集的0.817％。基于上述数据集，引入AUC(Area under ROC curve)评估算子(即ROC曲线下的面积大小)，对比Wrs模型及其他方法对已知关联个体对的预测精度，来验证Wrs模型在预测精度、算法鲁棒性和扩展性的优势。

步骤1：筛选具有模式相似性的两两交通个体

经过数据清洗、缺失字段补全、站点片区聚类、公交出行链生成等预处理操作，所获取的有效公交数据集中包含了由1487万交通个体产生的2.05亿条出行链。表1示例了2对交通个体对的出行链记录。其中，IC卡号为6796407和10427754的乘客是移动模式相似的同行对，而卡号为4377804和10351421的乘客虽然移动模式相似，但非同行对。

表1.2015年8月两两交通个体对的出行链记录示例

本发明所选的实验集共有N_all＝4,870万交通个体，若不提前筛选移动模式相似的两两交通个体，则需要处理亿对两两交通个体。显然，这组海量数据对任何一类评估方法而言都太大而无法处理。因此，本发明提出通过提前筛选出移动模式相似的交通个体对的手段，来避免上述数据灾难问题。

在对每一位乘客提取7维移动模式向量后，采用c-means++算法对移动模式向量集进行聚类。c-means++算法需要预设聚类数目c。该值达到最优的条件是所有类内个体移动模式的累积相异度的标准值(简称为NSSE)最小，且所有类间个体移动模式的累积相异度的标准值(简称为NSSB)最大。此时，所有类实现：类内凝聚度最大，且类间分离度最大，达到最优聚类效果。图3展示了当聚类数目c从3变化值15时，NSSE和NSSB的分布情况。当聚类数目为14时，上述两指标第一次出现交集，达到NSSE最小而NSSB最大。因此，最佳聚类数目c设定为12。

针对每一不同移动模式类别，遍历其中的每位个体，选取各自的社区，以筛选移动模式最相近的两两交通个体对。图2a)展示了每位个体的实际邻居个数ns_i的频率分布曲线(frequency distribution，FD)和累计频率分布曲线(cumulativedistributionfunction，CDF)，可知，近90％的乘客的最大邻居数少于20人，且邻居众数为5人。因此，当从步骤1.2中获取到14类具有不同移动模式的个体后，迭代每一类，为类内每位个体选取移动模式最相似的前位邻居作为社区成员。同时，遍历社区内所有邻居，使其与目标个体分别形成两两个体对，并最终合并形成493,903对移动模式相似的两两交通个体对集。可见，移动模式相似性过滤的手段可有效剪除无效数据集，以提高后续算法的扩展性和鲁棒性。

步骤2：交通行为相似性度量

从493,903对移动模式相似的两两交通个体中，分别筛选出了20对具有社会关联性(t＝1)和不具有社会关联性(t＝0)的两两交通个体来示例说明交通行为相似性算子的所得值。

表2.两两个体对的交通行为相似性算子示例

步骤3：交通行为交互性度量

同样，我们从493,903对移动模式相似的两两交通个体中，分别筛选出了20对具有社会关联性(t＝1)和不具有社会关联性(t＝0)的两两交通个体来示例说明交通行为交互性算子的所得值。encGap的FD和CDF分布曲线如图2b)所示。25.8％的乘客的相遇间隔在1km以内。这也解释了能在公共交通场所中常见“熟悉的陌生人”的原因。相遇间隔超过2km的个体对基本不可能成为同行团体，这部分个体对所占比重不到10％，也是待排除的阴性样本对。encDurTm的FD和CDF分布曲线如图2c)所示。相遇时间达15、30和60分钟的行程所占比重分别为30.5％、80.8％和98.6％。加上相遇时段超过30分钟是个体对具有关联性的必备条件，那么这些相遇时段仅为15分钟的形成可基本视为待排除的阴性样本。但依然存在大量相遇时段长却无关联性的假阳性个体对。encTms的FD和CDF分布曲线如图2d)所示。23.5％的乘客在1个月的时间内仅相遇1次，83.4％的乘客平均2天相遇1次。

表3.两两个体对的交通行为交互性算子示例

步骤4：基于Wrs模型的交通个体相似性检测

首先，设计一组实验，即：变换Wrs模型中3个变量λ_w、λ_θ、b，来评估不同变量取值下的预测精度AUC。上述变量的取值范围分别为：λ_w和λ_θ在[0,0.9]范围内以0.2的间隔取值；b在[-3,10]范围内以0.5的间隔取值，具体实验结果如图6a)～图6c)所示。图6a)中，“p_0.1_0.1_-3”指代λ_θ＝0.1，λ_w＝0.1，b＝-3。显然，该图中AUC出现明显的周期性，那么随机选取λ_θ为它的中值0.5，可得相同的评估效果。进一步限定λ_θ＝0.5，再变换λ_θ、b取值，重新绘制AUC的变化曲线，如图6b)所示，可得到依然保持同样周期性的AUC分布曲线。因此，将λ_w取值为0.1，可得相同的评估效果。最后，限定λ_θ＝0.5，λ_w＝0.1变化b值，观察AUC的变化曲线，如图6c)所示。可见，b值对AUC取值起到极端贡献作用：或低至0，或高至1。为了不影响后期实验不同评估方法对AUC的影响，我们仅将变化b值下的AUC值限定在它的基准线范围内，即：AUC∈[0.5，0.6]。那么当b＝1时，AUC落在基准线的概率最大，因此将b设定为该值。最终设定λ_θ＝0.5，λ_w＝0.1，b＝1来开展后续的实验。

其次，设计2组实验，即：1)以10％～100％的比例随机抽取实验样本的数据体量；和2)以10％～100％的比例抽取具有交通个体对在共同站点片区(comZoneProb)、共同线路(comRouteProb)和共同OD(comODProb)方面具有共同出行偏好的实验样本，来评估Wrs模型在数据体量增加和出行偏好干扰下的预测精度、算法鲁棒性和扩展性。同时，引入其他6类对比评估算子，分别为：基于移动模式和时空并发加权相似性的mobStSim、相遇间隔encGap、相遇时段encDurTm、相遇次数概率encTmsProb、基于交互行为encGap、encDurTm、encTmsProb的累积加权值interactSim、Rs模型，并采取5倍交叉验证的方式，来测试所有评估算子对已知关联个体对的预测精度。其中，mobStSim的具体介绍详见申请号为201711399120.3的专利。一般而言，数据体量越大，交通个体对的出行偏好越相似，评估算法识别关联性个体对的难度也越高。

针对不同数据体量的7种评估算子的AUC预测均值如图7所示。可见，在经历了移动模式相似卡对筛选后，各类评估方法随数据体量的增加均呈现一定程度的鲁棒性，尤以mobStSim、Rs模型和Wrs模型的表现更为突出。细观基于行为交互性算子encGap、encDurTm、encTmsProb和interactSim的预测精度，可发现，这些评估方法的AUC均值分别为：0.488±0.012、0.508±0.002、0.703±0.011、0.681±0.020。以单点约束的encGap算子的预测精度最低，连续时间线约束的encDurTm算子次之，具有时空并发性约束的encTmsProb最高。而interactSim由于是上述3者的加权值，尽管在encTmsProb作用下预测精度有所提升，但仍难以摆脱encGap、encDurTm算子的预测劣势，导致整体预测精度次于encTmsProb。可见，基于对两两交通个体的强时空同步性约束性能够显著提高预测精度，以encTmsProb为证，但也带来了一定程度的误报率和漏报率。致使不具备强时空同步性但具有强行为交互性的真实关联个体对不能被成功检测，最终对真实样本的分类覆盖率较低。这些潜在的误报卡对即为公众熟知的“熟悉的陌生人”。通常，误报卡对在行程上呈现部分交叉而非完全重叠，因此容易被误判为真阳性卡对。这些部分交叉现象有可能是由于偶发出行偏好引发的瞬时时空并发性，如在一趟公交线路上相遇但拥有不同的OD值，或者拥有相同的O/D但行驶线路迥异等。同样，漏报卡通常为这些不具备时空同步性的真实关联个体对。此外，mobStSim具备了encTmsProb算子的时空同时性的优势之外，还加权了移动模式相似性，使其在不丢失时空约束的前提下扩大潜在扒窃伴随团体的搜索范围，降低由encTmsProb引发的漏报事件和误报事件。因此，mobStSim的AUC均值达到0.766±0.021，但由于未考虑行为交互性，使其预测精度仍无法超越0.8的瓶颈。最后，Rs模型和Wrs模型是建立在交通行为相似性和交互性依赖而生的基础上，因此能够克服上述算子的所有劣势，使其达到较高水平的预测精度，如Rs模型的AUC均值为0.803±0.035。此外，Wrs模型在集成Rs模型的优势基础上，仍考虑加权移动模式相似性算子及交通行为的可扩展性，使其AUC均值高达0.849±0.026。这样可有效避免漏报具有行为相似性较弱但移动模式相似性较高的真阳性个体对。同时，也有效避免漏报关联性较弱的真阳性个体对。

针对不同出行偏好下和不同实验样本体量干扰下的7种评估算子的AUC预测均值如图8a)～8c)所示。可见，不同出行偏好下各行为交互性算子的预测精度的大小排序为：encGap<encDurTm<interactSim<encTmsProb。与上一实验不同的是，这一阶段的预测精度更加呈现波动性，表现为：encGap和encDurTm的AUC预测精度一直在基准线水平剧烈波动。EncTmsProb随着实验样本体量的增加，在comZoneProb和comRouteProb主题下呈现先升后降的趋势。升降转折点出现在数据体量的40～50％的时刻。可见，比起识别大规模数据集中的关联卡对，encTmsProb更适用于准确识别小规模数据集的真阳性个体对，因为小规模数据集中出现假阳性个体对的概率相对更少。此外，encTmsProb在出行偏好约束性更强的comODProb主题下的性能现逐渐上升的趋势。因为较强的主题约束能提前过滤掉干扰性强的假阳性个体对，从而提高算法的预测精度。但同时也是由于comODProb主题的约束性太强，提前提出了若干真阳性个体对，而降低了这2类交互算子的AUC平均预测精度，表现为：comODProb主题下encTmsProb的AUC值为：0.588，比comRouteProb主题下的0.692和comZoneProb主题下的0.647都要低。InteractSim在不同主题偏好下的预测性能依然介于encTmsProb与encDurTm之间。再进一步观察mobStSim在不同出行偏好主题下对关联卡对的预测精度。该算子在加权移动模式相似性后可有效避免encTmsProb引发的过拟合问题，因此在任何出行偏好下的预测精度都有所提升，表现为：comZoneProb、comRouteProb和comODProb主题偏好下的AUC均值分别为0.775、0.786、0.710。与此同时，随着数据体量的变化，mobStSim在不同出行偏好干扰下的AUC变化趋势基本与encTmsProb的一致，在comZoneProb、comRouteProb主题下先升后降，在comODProb主题下逐渐升高。不同点在于mobStSim算子的升降转折点出现在数据体量的70％～80％。最后，相对于上述算子在不同出行偏好下预测精度的局部适用性，Rs模型和Wrs模型则表现出更好的全局适用性，分别达到0.8以上(Rs)和0.85以上(Wrs)的预测精度，说明2类模型均能够准确判断具有关联性的交通个体对。此外，相对于Rs模型在不同出行偏好下的预测精度波动性，Wrs模型具有更稳健的预测效果。究其原因，后者在度量两两交通个体相似性的过程中充分考虑了移动模式相似性的加权优势和基于社区驱动的关系可拓展性的优势。

综上，本发明提出的联合概率加权模型的交通个体关联强度自动检测方法可有效识别共公交场所内的同行团体，为友人推荐、异常个体追踪、轨迹预测等业务需求提供科学依据。

Claims

1.一种基于交通大数据的个体关联强度自动检测方法，其特征在于，包括以下步骤：

步骤1：提取移动模式相似的两两交通个体样本集合；

步骤2：度量集合中任一个体对的交通行为相似性；

步骤3：度量集合中任一个体对的交通行为交互性；

步骤4：构建联合概率加权模型来加权度量交通个体间的关联强度，以自动检测潜在同行个体。

2.如权利要求1所述的基于交通大数据的个体关联强度自动检测方法，其特征在于，步骤1具体为：

步骤1.1：移动模式特征化

针对第i位交通个体，从空间、时间和属性维度为其特征化d维出行特征向量集来描述该个体的移动模式，其中，d＝7，且这d维出行特征指标分别为：隐患站点个数(abStas)、站点片区熵值(staZnEn)、站点时间熵值(staTmEn)、高峰时段访问频率(peakTmPct)、频繁出行频率(freTraPct)、最频繁出行路径比重(maxODPct)、短途出行比重(shortTraPct)；

步骤1.2：移动模式聚类

选用基于划分思想的c-means++方法对步骤1中输出的所有交通个体的移动模式特征向量集进行聚类，将具有相近移动模式的个体化为一类，最终得到c种具有不同移动模式的个体类别；聚类算法中需要指定两两交通个体的距离度量方法，采用移动模式相异性算子mobDis(τ₁)来表示这2位交通个体间出行特征序列m_i和m_j的欧式距离，见式公式(1)，式中，或代表m_i和m_j的第d维特征指标；同时，交通个体i和j间移动模式相似性算子mobSim(τ₁)即为mobDis(τ₁)的指数反函数，同见公式(1)，式中，δ为幂平衡算子，用于确保mobSim(τ₁)介于[0，1]范围内，且δ＝1/2N×∑_NmobDis(τ)，

步骤1.3：交通个体社区提取

根据“6度分割”理论，遍历步骤1.2中每一类，并为类内的每位交通个体提取个各自社区，并规定社区尺寸标准值为ns；遍历社区内所有邻居，使其与目标个体分别形成两两个体对，并最终合并为个体对集，以用于后续的关联强度分析。

3.如权利要求2所述的基于交通大数据的个体关联强度自动检测方法，其特征在于，步骤2具体为：

首先，计算stSim相似性算子：stSim(τ₁)算子为任一对交通个体i和j在时空模式上的相似性，可表示为i和j在空间分布相似性spaSim(τ₁)和时间分布相似性tmSim(τ₁)的乘积，

stSim(τ₁)＝spaSim(τ₁)×tmSim(τ₁) (2)

其次，计算mobSim相似性算子；

最后，计算出行偏好相似性：交通个体在共同站点片区、共同线路和共同OD路径方面的出行偏好相似性分别用comZoneProb、comRouteProb和comODProb算子表示。

4.如权利要求3所述的基于交通大数据的个体关联强度自动检测方法，其特征在于，步骤3具体为：具有社会关联性的两两交通个体的行为交互性主要表现为相遇属性；当交通个体对的出行记录共同出现在同一交通线路上的一个站点或者一段区间上，则视为二者相遇；采用二元算子来描述任一交通个体对τ的出行记录是否存在相遇事件；当意味着交通个体i和j未相遇；否则相遇；进一步度量τ在相遇地点的间隔大小(encGap)、相遇时间段长短(encDurTm)、相遇次数多少(encTmsProb)这3维属性，来量化二者交通行为的交互强度；同时引入来标识τ₁的相遇属性，其中，l是描述个体相遇的特征维度，且l＝3。

5.如权利要求4所述的基于交通大数据的个体关联强度自动检测方法，其特征在于，

步骤4具体为：

在步骤1对具有移动模式相似的交通个体对进行过滤后，通过步骤2和步骤3提取步骤4所需的特征变量，用于本步骤的Wrs模型构建，以检测任一交通个体对的关联强度，模型的具体构建方式分为以下3步。

经典Rs模型对任一交通个体对τ₁的关联强度的联合概率分布模型可由式(6)表示，其中，τ₁＝(i，j)∈D，D为两两交通个体对的集合，且D＝[(i₁，j₁)，(i₂，j₂)，...，(i_N，j_N)]^T。

步骤4.2：基于社区驱动的邻里关系相似性RsNb(τ₁)度量

对于任一交通个体对τ₁的共有社区Nb(τ₁)而言，其内任一邻居k∈Nb(τ₁)(k＝1，...，K)都将与i和j保持关联性，其中，K为Nb(τ₁)社区的尺寸值，那么，交通个体对i和k(简写为：τ₂＝(i，k))、交通个体对j和k(简写为：τ₃＝(j，k))的联合相似性Rs(τ₂)×Rs(τ₃)将对RsNb(τ)起积极贡献率；进一步引入移动模式衰减系数来平衡邻里关系相似性的综合作用，即：综上，基于社区驱动的邻里关系相似性RsNb(τ₁)是τ₂和τ₃在移动模式衰减效应下的联合相似性的累积值，具体表达式如(7)所示，

步骤4.3：任一交通个体对τ₁的加权相似性Wrs(τ₁)度量

联合概率加权模型Wrs不仅考虑了步骤4.1中任一交通个体对τ₁的在经典联合概率模型Rs下的原生相似性Rs(τ₁)，也同时加权度量了步骤4.2中τ₁在社区驱动下的邻里关系相似性RsNb(τ₁)，因此，基于联合概率加权模型Wrs的加权相似性Wrs(τ₁)的表达式如式(8)所示，其中，α和β分别为Rs(τ₁)和RsNb(τ₁)的权重系数，且β＝1-α(α，β＞0)，β的值由所有共有社区尺寸之和在除K_all外的全部个体对的社区总和(N×ns)中所占的比重决定，即：β＝K_all/(N×ns-K_all)，

Wrs(τ₁)＝αRs(τ₁)+βRsNb(τ₁) (8)

将式(6)和(7)带入(8)中，可得任一对交通个体τ₁在联合概率加权模型Wrs下的相似性度量函数Wrs(τ₁)为：

分别采用Gaussian模型和Logistic模型来实例化(9)中的条件概率模型和(τ_η＝τ₁，τ₂或τ₃)，见式(10)和(11)，式(10)中，w_η＝[w_η ¹，w_η ²，...，w_η ^m]^T是行为相似变量的5维权重向量，v_η是加权的方差大小，式(11)中，是行为交互变量与关联变量的组合变量，θ_η＝[θ_η ¹，θ_η ²，...θ_η ^l，θ_η ^l+1]^T是的(l+1)维权重变量，且b是Logistic模型中的常数项，决定行为交互性对二者关联性评估的初始贡献大小，

为了避免参数w_η和θ_η过拟合，引入L2正则项来约束二者，如式(12)和(13)所示，式中，和分布为w_η和θ_η的权重系数。

综上，所有两两交通个体的关联强度联合概率加权相似性如式(14)所示，

采用最大似然法对上式取对数似然函数，如式(15)所示，

上式中，

进一步估计D中潜变量w_η、θ_η(η＝1，2，或3)，采用牛顿-拉弗森法(Newton-Raphson)迭代求解潜变量θ_η，如式(16)、(17)所示；采用脊回归方法(ridge regression scheme)迭代求解潜变量w_η，如式(18)所示，该式中，或或

w_η＝(λ_wI+S^TS)^-1S^TR， (18)。