CN112542045A

CN112542045A - 基于手机信令识别交通出行方式的方法与系统

Info

Publication number: CN112542045A
Application number: CN202011399981.3A
Authority: CN
Inventors: 李永军; 赵海燕; 马荣叶; 王幸; 戴培; 杨旭
Original assignee: Jiangsu Xinwang Video Signal Software Technology Co ltd
Current assignee: Jiangsu Xinwang Video Signal Software Technology Co ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-03-23
Anticipated expiration: 2040-12-01
Also published as: CN112542045B

Abstract

本发明提供一种基于手机信令识别交通出行方式的方法与系统，基于用户上报的手机信令数据实现。在实现过程中，首先基于用户上报的样本数据进行识别模型的训练，在剔除专有出行方式后，基于SVM二分类器的模型训练，采用年龄、性别、速度、瞬时速度、平均速度以及移动距离多维度特征进行训练，提高模型的辨识度和准确性；然后在预测模型的基础上，采用专用出行与SVM模型进行融合的方式，基于实际上报的信令数据进行特征提取并识别出出行方式；最后以时间序列为基础，将不同的出行方式的OD链合并，形成完整的交通方式出行轨迹段。

Description

基于手机信令识别交通出行方式的方法与系统

技术领域

本发明涉及智能交通技术领域，尤其是手机信令数据在智能交通识别中的应用，具体而言涉及一种基于手机信令识别交通出行方式的方法、装置、系统与计算机可读存储介质。

背景技术

识别用户出行的交通方式，对理解用户移动性、交通状况的分析和预测、社会活动模式挖掘等方面起到非常关键的作用。城市全面出行方式分析结果，可用于交通方案的规划以解决拥堵问题，也可以对旅游区居民的出行方式进行统计，从而设计出更高效的交通服务方案，具有较高的社会意义。

城市交通出行方式的传统方法多是采取居民居住条件、周边交通设施状态、抽样调查等条件利用某些交通模型进行的，数据采集费用高，数据精准度较低。

随着智能硬件、LBS技术的快速发展，手机信令具有数据覆盖广、数据采集成本低、时间连续性高等特点，基于手机信令大数据分析技术及AI人工智能技术进行出行方式识别逐渐具备条件。

现有技术文献：

CN111653093A一种基于手机信令数据的城市出行方式综合识别方法

CN111653094A一种基于手机信令数据且含路网修正的城市出行方式综合识别方法

CN111653096A一种基于手机信令数据的城市出行方式识别方法

发明内容

本发明目的在于提供一种基于手机信令识别交通出行方式的方法，包括以下步骤：

步骤1、基于城市边界GIS数据，获取城市范围内的用户移动通信终端上报数据作为样本，包括信令数据、个人信息、出行交通工具以及GPS数据，所述信令数据为移动通信终端进行基站扇区切换时上报的包含终端号码、时间以及基站经纬度的数据；

步骤2、根据移动通信终端的信令数据获得对应的信令轨迹点集合P_cid，P_cid＝{(P₁,T₁),(P₂,T₃),(P₃,T₃)…(P_n,T_n)},其中P_i表示T_i时刻的基站的经纬度坐标，i表示获得的信令数据的序号，n表示某个移动终端上报的信令数据的总数量；

步骤3、根据信令轨迹点集合进行停留点识别，并确定信令轨迹点集合中的行程中间点和行程结束点，构造用户的信令轨迹；

步骤4、基于质心替换以平滑步骤3获得的用户的信令轨迹；

步骤5、基于停留点为关键点，将平滑后的用户的信令轨迹分为多个以出行结束点为终点的OD链；

步骤6、基于城市专有场景交通基础设施数据识别OD链中的高铁、动车、轻轨以及轨道交通四种专有出行方式；

步骤7、将步骤5的OD链中剔除步骤6中识别的专有出行方式的OD链，并将剩余的OD链中对应的信令轨迹点与GIS路网数据进行路网匹配，得到多个对应的子路段信息；

步骤8、对用户每天的路网匹配结果按照时间字段排序，然后按照预设的窗口时长和滑动步长进行时间窗口切割；

步骤9、将步骤8切割得到的时间窗口内的子路段信息与用户上报的出行方式进行匹配，为窗口的轨迹段打上出行方式标签；

步骤10、基于步骤1的用户上报数据以及步骤8切割的时间窗口内子路段对应的各信令轨迹点获取特征值，所述特征值包括用户的个人年龄和性别信息以及时间窗口的各信令轨迹点的最大瞬时速度、平均速度、速度方差与移动位移；

步骤11、基于步骤10的特征值，采用SVM二分类器进行出行方式识别模型训练，获得识别模型；

步骤12、对于待预测的实际输入数据，根据前述步骤2-5的方式提取OD链，然后进行出行方式识别：

(1)首先，根据城市专有场景交通基础设施数据识别四种专有出行方式；

(2)然后，根据步骤7-8进行切割得到的时间窗口以及基于时间窗口获得的特征值，再输入步骤11训练的识别模型识别出行方式；

在基于前述(1)、(2)识别出的出行方式的基础上，以时间序列为依据，将时间联系的连续专有交通场景的OD链及时间窗口的OD链按照相同交通方式进行合并，输出交通方式完整的轨迹段。

根据本发明的第二方面还提出一种用于基于手机信令识别交通出行方式的系统，包括：

一个或多个处理器；

存储器，存储可被操作的指令，所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括执行前述方法的过程。

与现有技术相比，本发明的显著的有益效果在于：

相对于传统方法，本发明基于SVM二分器类进行出行方式训练，利用核函数RBF来将多维度的特征，即最大瞬时速度、平均速度、速度方差与移动位移以及年龄、性别特征之间的非线性关系映射到高维空间，使其在高维空间具有线性可分性，模型参数较少，模型训练相对简单高效；

相对于传统的朴素贝叶斯算法，本发明使用多维度特征进行SVM二分类器的训练，需要的有标签数据量少，可以进行半监督学习。

同时，相对于其他数据，本发明使用的信令数据在SVM二分类器模型训练过程中可提供更加丰富的特征，例如年龄、性别、出行速度、出行距离、基站性质、停留时长等，可以更识别更多种出行方式。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外，所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1是本发明示例性实施例的用户(即移动终端用户)上传的GPS轨迹的示意图。

图2是本发明示例性实施例的用户上传的信令数据得到的信令轨迹数据的示意图。

图3是本发明示例性实施例的用户上传的信令数据进行平滑后的轨迹示意图。

图4是本发明示例性实施例的用户上传的信令数据构造的OD链进行路网匹配后的示意图。其中原点表示是路网匹配后的起始点描绘的用户可能的路径；三角形为基站位置。

图5是本发明示例性实施例的路网匹配后取离基站最近的匹配路段的结果示意图。

图6是本发明示例性实施例的用户一段时间内的出行轨迹点的示意图。

图7是本发明示例性实施例的利用停留点集的质心来代替停留点集使得轨迹变得平滑的示意图。

图8是本发明示例性实施例的通过滑动窗口获得的基于路网信息的用户轨迹示意图，其中的每个路段对应的点(例如A-G)表示基站位置。

图9是本发明示例性实施例的出行方法识别的流程示意图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

结合图1-8以及图9所示的流程，本发明示例性实施例提出一种基于手机信令识别交通出行方式的方法，包括以下步骤：

步骤4、基于质心替换以平滑步骤3获得的用户的信令轨迹；

下面结合附图所示，更加具体的描述上述方法的示例性实施。

本发明的出行方式识别，基于用户上报的手机信令数据实现。在实现过程中，首先基于用户上报的样本数据进行识别模型的训练，在剔除专有出行方式后，基于SVM二分类器的模型训练，采用年龄、性别、速度、瞬时速度、平均速度以及移动距离多维度特征进行训练，提高模型的辨识度和准确性；然后在预测模型的基础上，采用专用出行与SVM模型进行融合的方式，识别出行方式，最后以时间序列为基础，将不同的出行方式的OD链合并，形成完整的交通方式出行轨迹段。

在初始阶段，基于城市边界GIS数据，将处于城市范围内的用户手机信令进行采集，其每次出行采用的交通工具、GPS数据、信令数据，在进行数据预处理和本发明的匹配、筛选、时间滑动后，进行多维度的特征提取，用于进行出行方式识别模型的训练。

如图1示例性地表示了某一用户在一段时间内上报的GPS轨迹数据的示意。

图2示例性地表示了某一用户一段信令轨迹数据示意。

由于移动通信终端进行基站扇区切换时，由于基站的实际覆盖等原因，会存在比较多的噪声数据，例如ABA、ABC等方式的乒乓切换或者数据漂移。对此，我们在本发明中对信令数据需要进行预处理，即对信令轨迹点进行优化处理，尤其是指乒乓切换优化和过滤漂移点。

在两个或多个基站的交界处，信号往往被多个基站覆盖，并且不同基站的信号强度差距并不明显，使得手机在两个或这个多个基站之间来回切换，但是实际上手机用户并没有移动，我们把这种现象称之为“乒乓效应”，属于异常信令切换行为，包括ABA、ABC以及A＝B->C三种类型。

类型1：A->B->A类型。在基站A上报后，切换到基站B后，马上又切换回基站A。本发明的实施例中，根据位置判断和停留时间阈值设置，进行优化处理，剔除异常信令数据。

Step1:将用户的上报信令数据按照上报时间字段升序排序，得到每个用户按照时间顺序产生的定位数据；

Step2:设i的初始值为1，顺序选取第(i，i+1，i+2)三条数据，如果Δt_i，Δt_i+1均小于时间阈值T，则转到Step3，否则结束。

Step3:分别比较第(i，i+1，i+2)三条数据的LAC与基站ID字段值，如果i与i+2的LAC与基站ID字段值相同，且i与i+1的LAC与基站ID字段值不同，则判定为乒乓数据，保留第i条记录与第i+2条记录；否则设置i＝i+1，同时返回Step2处理，直到所有记录遍历完成。

类型2：由于基站切换迟滞性过大或其他因素，存在用户从基站A切换到基站B后，基站B主控很短时间后，马上进行基站更新，从基站B切换到基站C。此外，也存在部分切换时间迟滞小，导致切换到非运动方向的基站C的情况。

Step2:设i的初始值为1，顺序选取第(i，i+1，i+2)三条数据，如果Δt_i+1均小于时间阈值T，则转到Step3，否则结束。

Step3:分别计算(i，i+1，i+2)三个位置点的Haversine距离，分别记为S_i→i+1，S_i+1→i+2，S_i+2→i，如果满足

则判定为乒乓数据，保留第i条记录与第i+2条记录；否则设置i＝i+1，同时返回Step2处理，直到所有记录遍历完成。

类型3：A＝B->C类型。即在同一时间，用户在不同的基站位置上报数据。对于此类乒乓切换，需要对轨迹首先按照距离阈值进行预处理，确保轨迹点间隔一定距离，然后根据算法模型剔除乒乓切换。

Step2:设i的初始值为1，顺序选取第(i，i+1，i+2，i+3)四条数据，如果t_(i+1)＝t_(i+2)，则转到Step3，否则结束。

Step3:计算(i，i+1，i+2，i+3)四个位置点的Haversine距离，分别记为S_(i→i+1)，S_(i→i+2)，S_(i+1→i+3)，S_(i+2→i+3)。

如果满足S_(i→i+1)+S_(i+1→i+3)＞S_(i→i+2)+S_(i+2→i+3)，则判定位置点i+1为异常切换数据，保留第i+2条记录；否则判定位置点i+2为异常切换数据，保留第i+1条记录。最后设置i＝i+1，同时返回Step2处理，直到所有记录遍历完成。

漂移处理：使用信令数据进行轨迹分析时，由于基站上报信令中存在基站位置记录异常以及信号切换至较远基站等极端情况，会导致出现用户基站上报位置距离用户实际位置较远的情况。位置点漂移会影响轨迹中速度、距离的计算，进而影响对用户轨迹的进一步分析，因此我们在进行特征值处理前对信令数据进行漂移数据过滤处理。

类型1：远距离异常漂移问题特征比较明显，一般是由于基站位置工参中经纬度信息异常造成。表现方式为用户可能突然切换到距离当前位置很远的位置，然后再次切回到当前位置附近。此类根据速度和距离阈值以及距离倍数系数，以剔除异常漂移点。

定义用户的基站切换序列为P1，P2，P3，…Pi，如果满足

{(S_(P_1 P_2_＞S_(P_1 P_(3))*2@S_(P_2 P_3)＞S_(P_1 P_(3))*2)

则判定P2点发生远距离异常漂移。

类型2：临近基站漂移，信令轨迹由基站的位置决定，而基站的分布往往是随机的，且用户上报基站是周围多个基站中的某一个，因此用户的基站轨迹包括大量的临近基站漂移情况。反映在用户轨迹中，就存在大量的回头、锯齿等情况。

不管是远距离漂移和临近基站漂移，反映到具体轨迹问题上，都是基站漂移过程有很多跳跃及折回的线路。

因此需要对切换轨迹进行优化，获取较为平滑移动轨迹，优化具体过程如下：

Step1：假定手机用户在一天内共产生n条定位数据，向量(P)_i，lng_i，lat_i分别表示第i条数据产生的事件以及经纬度，其中1≤i≤n。

选取连续的三个上报位置P_i，P_(i+1)，P_(i+2))，为方便展示，以x和y分别替换经纬度信息，替换后三个位置分别为：

P_i(x_i，y_i)，P_(i+1)(x_(i+1)，y_(i+1))，P_(i+2)(x_(i+2)，y_(i+2))

Step2：根据三个位置间的两次切换信息，生成两个切换向量：

Step3：然后通过余弦定理计算切换向量间的夹角θ_(i+1)余弦值信息：

设置夹角的置信度为T，如果cosθ_i+1＞cosT，则认为P_(i+1)点存在漂移，否则认为没有发生漂移。

最后，设置i＝i+1，同时返回Step2直到所有记录遍历完成。

Step4：根据配置的优化深度d，重复以上处理步骤d次，得到平滑的移动轨迹。

在对信令数据进行预处理后，根据移动通信终端的信令数据获得对应的信令轨迹点集合P_cid，P_cid＝{(P₁,T₁),(P₂,T₃),(P₃,T₃)…(P_n,T_n)},其中P_i表示T_i时刻的基站的经纬度坐标，i表示获得的信令数据的序号，n表示某个移动终端上报的信令数据的总数量。

步骤3中，在信令轨迹点集合的基础上，进行停留点识别，并确定信令轨迹点集合中的行程中间点和行程结束点，构造用户的信令轨迹。

在出行链分析之前，要先识别用户的每次连续出行轨迹，然后再对每次连续出行轨迹进行细化分析。用户的出行轨迹识别包括3个部分：起始点识别、出行持续状态识别、结束点识别。

优选地，步骤3中根据信令轨迹点集合按照下述方式构造用户的信令轨迹，具体包括：对信令轨迹点集合采用DBSCAN密度聚类算法，根据预设的距离范围阈值Dis以及预设时间阈值Tpre进行停留识别以识别出停留点，并根据停留点确定信令轨迹点集合中的行程中间点和行程结束点，基于行程结束点从而确定出用户每段行程的开始时间、开始位置、结束时间以及结束位置，构造用户的信令轨迹。

在可选的实施例中，本发明的实施例中采用下述方式进行停留点识别。

定义用户出行起始点

用户开始持续运动状态，在指定时间T中，离开指定范围A，则范围A为用户出行开始区域。

用户离开区域的时间，即在区域A最后一次上报的时间，为用户的出行开始时间。

而用户实际出行位置，则通过权重算法模型进行计算。计算用户在区域A的位置重心坐标：

选取距离重心最近的位置上报点作为出行起始点，即：

P＝min{(lng(P)-lng(G))²+(lat(P)-lat(G))²}。

定义用户持续出行

对于用户轨迹中任意的位置点P，从P点的时间开始，在指定时间T中，用户活动范围超出P周围指定范围A，则认为用户保持持续运动状态。

定义用户出行结束点

用户结束持续运动状态，在指定时间T中，持续停留在指定范围A，则范围A为用户出行结束区域。

用户到达A区域的时间，即用户在区域A首次出现的时间，为用户的出行结束时间。

选取距离重心最近的位置上报点作为出行结束点，即：

P＝min{(lng(P)-lng(G))²+(lat(P)-lat(G))²}。

图6示例性表示了以信令轨迹点为例的信令轨迹示意，每个点表示对应时刻的信令轨迹点位置。

可选地，按照上述定义，在指定时间T(例如30分钟)内，指定范围A(例如500米)的条件下，图6所示的轨迹中，圈内的轨迹点形成了停留状态，如p3,p4,p5是一个停留，如果停留时间＝T5-T3小于30分钟，且未超过A范围，则该停留属于短暂停留。形成短暂停留现象的原因非常多，例如出行中交通方式切换时的换乘等待，或者是交通堵塞导致的停滞不前，亦或者是散步中的短暂休息，等等。又如p8,p9,……,p12，如果停留时间＝T12-T8大于30分钟，且未超过A范围，则该停留可能是一次出行的结束点。

本发明基于密度聚类DBSCAN算法，参数eps＝500，minPts＝5，进行停留识别，并通过计算停留时长、停留范围，将停留点识别为行程中间点，行程结束点。继而，按照上述定义推算每个行程的开始时间，开始位置，结束时间，结束位置。

通过上述处理，在将步骤3获得的信令轨迹基础上，对于停留点集采用停留点集的质心进行替代，平滑用户的信令轨迹，使得轨迹变得平滑且简洁，如图7所示。

图3所示为实际根据用户上报的信令数据进行平滑后得到的轨迹的示例，此处的轨迹是指信令轨迹，是基于基站位置进行连线形成的轨迹，其可能穿过实际GIS路网中的道路路段或者偏离路段，并非是指用户实际出行的轨迹。

接下来在步骤5中，基于识别出来的停留点为关键点，将平滑后的用户的信令轨迹分为多个以出行结束点为终点的OD链。

优选地，在所述步骤6中，基于城市专有场景交通基础设施数据及其专有场景专用基站，采用基站经纬度匹配识别OD链条中高铁、动车、轻轨以及轨道交通四种专有出行方式。

优选地，所述步骤7中，利用路网的GIS数据及OD链中对应的信令数据中的基站的位置，计算基站位置对应映射到路网的道路上的所有可能的路段信息，并取基站到路网道路上距离最短的路段信息作为OD链匹配到路网中的匹配结果，输出对应的子路段信息。

通过路网匹配，获得了基站位置(即信令轨迹点)对应到实际路网中的路段信息。

如图4所示为路网匹配后的示意，图5所示为取离基站最近的匹配路段结果的示意。

优选地，在步骤8中，在进行窗口切割过程中，对每个人的路网匹配结果按照time字段排序，并剔除speed异常的轨迹点(例如设定为速度小于0.3m/s、大于40m/s的异常点)。

具体的切割过程中，以窗口时长为基础(例如选择为1200s)，以滑动步长(例如选择为120s)作为滑动间隔进行窗口滑动处理。

本发明的示例性的滑动窗口切割过程如下：

St6.1.对停留时长和滑动间隔时间进行参数配置

St6.2.假设停留时长设置为1200s，滑动间隔120s，例如某个用户的轨迹为A-B-C-D-E-F-G

A:2020-08-24 11:00:00

B:2020-08-24 11:01:00

C:2020-08-24 11:05:00

D:2020-08-24 11:15:00

E:2020-08-24 11:20:00

F:2020-08-24 11:35:00

G:2020-08-24 11:40:00

第一次切割直接从起始点开始，每次进行时间间隔的累加

step1轨迹点A停留时长为0

step2轨迹点B停留时长为0+60＝60<＝1200s

step3轨迹点C停留时长为0+60+240＝300<＝1200s

step4轨迹点D停留时长为0+60+240+600＝900<＝1200s

step5轨迹点E停留时长为0+60+240+900+300＝1200<＝1200s

step6轨迹点F停留时长为0+60+240+600+300+900＝2100>1200s

则第一段时间窗口为A-B-C-D-E。

第二次切割的开始时间为：A的时间+滑动间隔120s则开始时间为2020-08-24 11:02:00；

step1轨迹点B时间为2020-08-24 11:01:00<2020-08-24 11:02:00直接跳过；

step2轨迹点C时间为2020-08-24 11:05:00>＝2020-08-24 11:02:00停留时长为0；

step3轨迹点D停留时长为0+600＝600<＝1200s；

step4轨迹点E停留时长为0+600+300＝900<＝1200s；

step5轨迹点F停留时长为0+600+300+900＝1800>1200s，

则第二段时间窗口为C-D-E。

第三次切割的开始时间为：C的时间+滑动间隔120s则开始时间为2020-08-24 11:07:00；

同上过程，第三段时间窗口为D-E-F。

第四次切割的开始时间为：D的时间+滑动间隔120s则开始时间为2020-08-24 11:17:00：

step1轨迹点E时间2020-08-24 11:20:00>2020-08-24 11:17:00停留时长为0；

step2轨迹点F停留时长为0+900＝900<＝1200s；

step3轨迹点G停留时长为0+900+300＝1200<＝1200s,且到达最后一个轨迹点；

则第四段时间窗口为E-F-G，切割结束。

最后切割为四段时间窗口：

A-B-C-D；C-D-E；D-E-F；E-F-G。

应当理解，在时间窗口切割过程中，针对的是信令轨迹点进行处理，也即基站信息进行处理。信令轨迹点已经在前面的步骤中进行路网匹配处理，获得相应的子路段信息。

应当理解，本发明的出行模型训练采用的特征值包括样本数据中的用户年龄，性别，最大瞬时速度，平均速度，速度方差，移动距离。

优选地，步骤10中各个特征值的获取方式包括：

(1)利用用户终端号码msisdn从用户资料表提取匹配获取年龄与性别信息；

(2)最大瞬时速度，取值为时间窗口中各信令轨迹点的speed字段最大值；

最大瞬时速度＝max(speed_i)

speed_i＝窗口内轨迹点的speed

(3)平均速度，取值为时间窗口中各信令轨迹点的speed字段的平均值；

N表示时间窗口内的信令轨迹点的个数。

(4)速度方差，取值为时间窗口中各信令轨迹点的speed字段的方差；

(5)移动位移，取值为时间窗口内各信令轨迹点对应子路段的距离、上一子路段终点与下一子路段起始点之间的距离以及最后一段子路段的剩余距离。

例如，结合图8所示，如果时间窗口为A-B-C-D，则移动距离等于A.distance+A的终点与B的起点之间的路段距离+B.distance+B的终点与C的起点之间的路段距离+C.distance+C的终点与D的起点之间的路段距离+D.distance+D的剩余的时间*D.speed，其中D的剩余时间为：(A.time+时间窗口时长–D.time)，如果A.time为2020-08-24 11:00:00，时间窗口时长为20min，D.time为2020-08-24 11:19:00，则剩余时间为60s。移动位移为所有连线的线路长度。

优选地，所述步骤11中，采用SVM二分类器进行出行方式识别模型训练，获得识别模型的具体操作包括：构建多个SVM二分类器，并根据步骤11获得的特征值，对步行、出租车、私家车和公交车四种出行方式进行模型训练，输出出行方式识别模型，具体训练过程包括：

(1)对四种出行方式分别赋予类别标识，步行0，出租车为1，私家车为2，公交车为3；

(2)构造6个二分类器，并确定每个二分类的决策函数；

(3)将特征值输入6个二分类器中，并基于投票机制进行训练，计算哪种出行方式的二分配器预测出现的方式最多，即为哪种出行方式；若出现每种出行方式预测出现的测试次数相同，则获取对应出行方式组合的二分配器再进行训练，直到二分配器只有一个出行方式次数最多，或者每种出行方式预测出来都等于1，则随机分配；或者每种出行方式预测出来的结果都相同，则随机分配；

(4)将特征值训练得到的模型作为测试对象，将样本数据进行k等分，分成训练集和测试机，将训练集训练得到的模型用测试集进行k交叉测试，与实际上报的出行方式进行对比，计算K个对比结果进行验证，如果验证结果的预测准确性达到预设值，则输出模型，否则调整二分类器决策函数的惩罚系数和核函数进行重新训练，直到满足预测准确性的预设值标准。

可选地，每个二分类的决策函数为：

其中参数选择过程中，惩罚系数C(0.1，50)，以及核函数参数σ(0.1，50)，通过参数选择调整模型训练的效果。

根据本发明的示例性实施例，还提出一种基于手机信令识别交通出行方式的系统，包括：

一个或多个处理器；

存储器，存储可被操作的指令，所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括执行前述识别方法的过程，尤其是前述识别模型的构建与识别处理的过程。

根据本发明的示例性实施例，还提出一种存储软件的计算机可读取介质，所述软件包括能通过一个或多个计算机执行的指令，所述指令在被所述一个或多个计算机执行时执行包括执行前述识别方法的过程，尤其是前述识别模型的构建与识别处理的过程。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于手机信令识别交通出行方式的方法，其特征在于，包括以下步骤：

步骤1、基于城市边界GIS数据，获取城市范围内的用户移动通信终端上报数据作为样本数据，包括信令数据、个人信息、出行交通工具以及GPS数据，所述信令数据为移动通信终端进行基站扇区切换时上报的包含终端号码、时间以及基站经纬度的数据；

步骤4、基于质心替换以平滑步骤3获得的用户的信令轨迹；

2.根据权利要求1所述的基于手机信令识别交通出行方式的方法，其特征在于，所述步骤2中，还包括以下步骤：

对信令轨迹点集合P_cid中的信令轨迹点信息进行优化处理，包括：

1)过滤信令轨迹数据中乒乓切换位置信息，进行乒乓切换优化处理

2)过滤信令轨迹数据中漂移点数据。

3.根据权利要求1所述的基于手机信令识别交通出行方式的方法，其特征在于，所述步骤3中，根据信令轨迹点集合按照下述方式构造用户的信令轨迹：

对信令轨迹点集合采用DBSCAN密度聚类算法，根据预设的距离范围阈值Dis以及预设时间阈值T_pre进行停留识别以识别出停留点，并根据停留点确定信令轨迹点集合中的行程中间点和行程结束点，基于行程结束点从而确定出用户每段行程的开始时间、开始位置、结束时间以及结束位置，构造用户的信令轨迹。

4.根据权利要求1所述的基于手机信令识别交通出行方式的方法，其特征在于，在所述步骤4中，在将步骤3获得的信令轨迹基础上，对于停留点集采用停留点集的质心进行替代，平滑用户的信令轨迹。

5.根据权利要求1所述的基于手机信令识别交通出行方式的方法，其特征在于，在所述步骤6中，基于城市专有场景交通基础设施数据及其专有场景专用基站，采用基站经纬度匹配识别OD链条中高铁、动车、轻轨以及轨道交通四种专有出行方式。

6.根据权利要求1所述的基于手机信令识别交通出行方式的方法，其特征在于，所述步骤7中，利用路网的GIS数据及OD链中对应的信令数据中的基站的位置，计算基站位置对应映射到路网的道路上的所有可能的路段信息，并取基站到路网道路上距离最短的路段信息作为OD链匹配到路网中的匹配结果，输出对应的子路段信息。

7.根据权利要求1所述的基于手机信令识别交通出行方式的方法，其特征在于，所述窗口时长选择为1200s，滑动步长选择为120s，以滑动步长作为滑动间隔进行窗口滑动处理。

8.根据权利要求1所述的基于手机信令识别交通出行方式的方法，其特征在于，所述步骤10中，各个特征值的获取方式包括：

9.根据权利要求1所述的基于手机信令识别交通出行方式的方法，其特征在于，所述步骤11中，采用SVM二分类器进行出行方式识别模型训练，获得识别模型的具体操作包括：构建多个SVM二分类器，并根据步骤11获得的特征值，对步行、出租车、私家车和公交车四种出行方式进行模型训练，输出出行方式识别模型，具体训练过程包括：

(2)构造6个二分类器，并确定每个二分类的决策函数；

10.一种用于基于手机信令识别交通出行方式的系统，其特征在于，包括：

一个或多个处理器；

存储器，存储可被操作的指令，所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括执行所述权利要求1-9中任意一项所述方法的过程。