CN106408026B

CN106408026B - 用户出行方式的识别方法和装置

Info

Publication number: CN106408026B
Application number: CN201610835404.1A
Authority: CN
Inventors: 慎东辉
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-09-20
Filing date: 2016-09-20
Publication date: 2020-04-28
Anticipated expiration: 2036-09-20
Also published as: CN106408026A

Abstract

本发明公开了用户出行方式的识别方法和装置，所述方法包括：获取训练样本，每个训练样本中包括：以预定时长作为一个时间窗口，从所述时间窗口内采集到的用户行为数据中提取出的特征值，以及，用户在所述时间窗口内的出行方式；将提取出的特征值作为输入，将用户的出行方式作为输出，训练得到识别模型；针对待识别的用户，每经过一个所述时间窗口，则根据从所述时间窗口内采集到的用户行为数据中提取出的特征值以及识别模型，确定出用户的出行方式。应用本发明所述方案，能够提高识别结果的准确性等。

Description

用户出行方式的识别方法和装置

【技术领域】

本发明涉及网络技术，特别涉及用户出行方式的识别方法和装置。

【背景技术】

在实际应用中，很多场景下需要对用户的出行方式进行识别，所述出行方式可包括：公交、步行、驾车、地铁、跑步、骑行等。

比如，图1为现有用户的出行路线示意图，如图1所示，在该出行路线中，既包括步行路段，也包括公交路段，在步行路段，可为用户进行步行导航诱导，在公交路段，可为用户进行公交实时到站提醒诱导，为此，则需要准确地识别出用户当前的出行方式，以便切换到相应的诱导模式。

再比如，在智能化地图场景中，用户使用地图的过程中，如果能够获取到用户的出行方式，那么可通过较长时间用户出行方式的数据获取，并结合大数据分析技术等，可分析出用户出行的长期偏好、短期偏好、即时出行偏好等，从而丰富地图用户画像标签，进而为地图智能化服务提供重要的数据源。

现有技术中，多基于全球定位系统(GPS，Global Positioning System)数据来识别用户的出行方式，如步行时的GPS速度值小于乘坐公交时的GPS速度值。

但是，上述识别方式的准确性较低，比如，在公交堵车阶段或刚起步阶段，公交速度和步行速度相似，从而难以区分，很可能造成识别错误。

【发明内容】

有鉴于此，本发明提供了用户出行方式的识别方法和装置，能够提高识别结果的准确性。

具体技术方案如下：

一种用户出行方式的识别方法，包括：

获取训练样本，每个训练样本中包括：以预定时长作为一个时间窗口，从所述时间窗口内采集到的用户行为数据中提取出的特征值，以及，用户在所述时间窗口内的出行方式；

将提取出的特征值作为输入，将用户的出行方式作为输出，训练得到识别模型；

针对待识别的用户，每经过一个所述时间窗口，则根据从所述时间窗口内采集到的用户行为数据中提取出的特征值以及所述识别模型，确定出所述用户的出行方式。

一种用户出行方式的识别装置，包括：获取单元和识别单元；

所述获取单元，用于从服务端获取识别模型，并发送给所述识别单元；所述识别模型通过训练样本训练得到，每个训练样本中包括：以预定时长作为一个时间窗口，从所述时间窗口内采集到的用户行为数据中提取出的特征值，以及，用户在所述时间窗口内的出行方式，将提取出的特征值作为输入，将用户的出行方式作为输出，训练得到所述识别模型；

所述识别单元，用于针对待识别的用户，每经过一个所述时间窗口，则根据从所述时间窗口内采集到的用户行为数据中提取出的特征值以及所述识别模型，确定出所述用户的出行方式。

可以看出，采用本发明所述方案，可将从用户行为数据中提取出的特征值作为输入，将用户的出行方式作为输出，训练得到识别模型，进而根据识别模型来对用户的出行方式进行识别，从而相比于现有技术提高了识别结果的准确性。

【附图说明】

图1为现有用户的出行路线示意图。

图2为本发明所述用户出行方式的识别方法实施例的流程图。

图3为本发明所述用户出行方式的识别过程的第一示意图。

图4为本发明所述用户出行方式的识别过程的第二示意图。

图5为本发明所述用户出行方式的识别装置实施例的组成结构示意图。

【具体实施方式】

为了使本发明的技术方案更加清楚、明白，以下参照附图并举实施例，对本发明所述方案作进一步地详细说明。

实施例一

图2为本发明所述用户出行方式的识别方法实施例的流程图，如图2所示，包括以下具体实现方式。

在21中，获取训练样本，每个训练样本中包括：以预定时长作为一个时间窗口，从时间窗口内采集到的用户行为数据中提取出的特征值，以及，用户在时间窗口内的出行方式。

在22中，将提取出的特征值作为输入，将用户的出行方式作为输出，训练得到识别模型。

在23中，针对待识别的用户，每经过一个时间窗口，则根据从时间窗口内采集到的用户行为数据中提取出的特征值以及识别模型，确定出用户的出行方式，即识别出用户姿态。

可以看出，上述21～22为训练得到识别模型的过程，23为利用识别模型进行用户的出行方式识别的过程。

其中，用户行为数据可包括：GPS数据、加速度传感器数据和方向传感器数据。

时间窗口的具体时长可为5～10s中的任意值。实验显示，时间窗口的时长小于5s，将不能完整刻画用户姿态，超过10s的时间窗口和5～10s的时间窗口得到的结果几乎一致，但时长越长，计算耗时越长，因此，时间窗口的时长可为5～10s中的任意值。

假设时间窗口的时长为10s，那么在一个时间窗口内，可采集10次GPS数据，当选取的采样率为40ms时，可采集250次加速度传感器数据和250次方向传感器数据。

在实际应用中，每一秒进行一次GPS数据回调，即进行一次GPS数据采集，因此，可通过GPS数据回调来进行计时，即当第10个GPS数据回调后，则认为一个时间窗口结束。

实验显示，对于加速度传感器数据和方向传感器数据，仅对前200次采集到的数据进行处理和对250次采集到的数据进行处理，得到的结果几乎一致，因此为减少计算量等，可仅对前200次采集到的数据进行处理。

由于每个时间窗口内采集到的数据都比较多，如果均作为识别模型的输入的话，将会导致数据维度过多，计算复杂度过大，因此，需要针对采集到的用户行为数据进行特征值提取，以降低数据的维度，突出数据的特征。

不同类型的用户行为数据，提取特征值的方式也会不同，以下分别进行介绍。

1)从加速度传感器数据中提取特征值

当用户按照不同的出行方式出行时，加速度传感器数据会有明显的不同，比如，步行时的加速度较大，而驾车时的加速度较小。

针对时间窗口内前N次每次采集到的加速度传感器数据，可分别进行以下处理：分别计算该加速度传感器数据中的x方向值、y方向值和z方向值的平方值，并将三个平方值相加，得到一个加速度能量值；根据预先设定的离散区间，对N个加速度能量值进行离散化处理，得到M个离散值，将M个离散值作为提取出的特征值，M为大于一的正整数，M<N。

每次采集到的加速度传感器数据由x方向值、y方向值和z方向值组成，可计算三个方向值的平方和，作为该加速度传感器数据对应的加速度能量值，即一个加速度传感器数据对应一个加速度能量值。

对于得到的N个加速度能量值，可采用以下方式来对其进行离散化处理：预先设置M个连续的取值区间，针对每个取值区间，分别统计出N个加速度能量值中位于该取值区间内的加速度能量值的个数，将统计结果作为对N个加速度能量值进行离散化处理的结果。

M的具体取值可根据实际需要而定，各取值区间的具体取值也可根据实际需要而定，比如，M的取值可为7，各取值区间可分别为(0,1]、(1,2]、(2,4]、(4,8]、(8,16]、(16,32]以及大于32。

分别统计出N个加速度能量值中位于(0,1]、(1,2]、(2,4]、(4,8]、(8,16]、(16,32]以及大于32这7个取值区间中的加速度能量值的个数，得到7个统计结果，这7个统计结果即为一个时间窗口内从加速度传感器数据中提取出的特征值。

如前所述，当时间窗口的时长为10s时，N的取值可为200，将200个加速度能量值离散化为7个特征值，从而降低了数据的维度。

2)从方向传感器数据中提取特征值

对于方向传感器，z轴正方向为前进方向，pitch表征俯仰角，将物体绕x轴旋转，yaw表征航向角，将物体绕y轴旋转，roll表征横滚角，将物体绕z轴旋转。由于横滚角在机动车和非机动车中不能表征运动特征，因此，可丢弃每次采集到的方向传感器数据中的横滚角数据。另外，由于俯仰角和航向角均为方向角，值都比较大，因此可进行梯度计算，将当前值减去上次值得到的梯度作为本次梯度，然后将所有梯度进行求和，从而将数据的维度从3*200维降低到2维。

具体地，可针对时间窗口内除第一次采集到的方向传感器数据之外前N次每次采集到的方向传感器数据，分别进行以下处理：

分别计算该方向传感器数据中的俯仰角与时间窗口内相邻前一次采集到的方向传感器数据中的俯仰角的第一差值，并计算该方向传感器数据中的航向角与时间窗口内相邻前一次采集到的方向传感器数据中的航向角的第二差值；

分别计算各第一差值相加之和以及各第二差值相加之和，将计算结果作为提取出的特征值。

N为大于1的正整数，如前所述，假设时间窗口的时长为10s，那么N的取值可为200，即分别计算第2次采集到的方向传感器数据中的俯仰角与第1次采集到的方向传感器数据中的俯仰角的差值、第3次采集到的方向传感器数据中的俯仰角与第2次采集到的方向传感器数据中的俯仰角的差值、…、第200次采集到的方向传感器数据中的俯仰角与第199次采集到的方向传感器数据中的俯仰角的差值，将各差值相加，得到一个特征值，并且，分别计算第2次采集到的方向传感器数据中的航向角与第1次采集到的方向传感器数据中的航向角的差值、第3次采集到的方向传感器数据中的航向角与第2次采集到的方向传感器数据中的航向角的差值、…、第200次采集到的方向传感器数据中的航向角与第199次采集到的方向传感器数据中的航向角的差值，将各差值相加，得到另外一个特征值。

3)从GPS数据中提取特征值

可分别计算时间窗口内采集到的各GPS数据中的速度值的均值以及时间窗口内采集到的各GPS数据中的方向角的均值，将计算结果作为提取出的特征值。

如前所述，假设时间窗口的时长为10s，在时间窗口内共进行了10次GPS数据采集，那么可将10次采集到的GPS数据中的速度值求平均，并将10次采集到的GPS数据中的方向角求平均，从而得到2个特征值。

按照1)～3)中所述方式进行特征值提取，并已知用户的出行方式，即可得到各训练样本。

在实际应用中，可以让专门的测试人员按照不同的出行方式出行，并实时采集用户行为数据，从而得到各训练样本。

在得到足够数量的训练样本之后，可将训练样本中的特征值作为输入，将用户的出行方式作为输出，训练得到识别模型，如何训练得到识别模型为现有技术。

具体采用何种模型作为识别模型可根据实际需要而定，比如，可采用随机森林识别模型，随机森林识别模型的文件格式如表一所示。

表一随机森林识别模型的文件格式

在得到识别模型之后，即可利用识别模型，来对用户的出行方式进行识别。

如在用户的手机中预置识别模型，从而可以对用户的出行方式进行实时识别。

手机中的相关单元可实时地采集用户行为数据，并且，每经过一个时间窗口，可根据该时间窗口内采集到的用户行为数据中提取出的特征值以及识别模型，确定出用户的出行方式。

需要说明的是，对于手机来说，当采用IOS平台时，采集到的用户行为数据的取值将在-1到1之间，即为归一化之后的数据，而当采用Android平台时，采集到的用户行为数据为真实值，因此需要针对不同平台进行差异化处理，处理方式可为：针对IOS平台和Android平台，分别按照本发明所述方式生成一个识别模型，这样，可在采用IOS平台的手机中预置IOS平台对应的识别模型，在采用Android平台的手机中预置Android平台对应的识别模型。

基于上述介绍，图3为本发明所述用户出行方式的识别过程的第一示意图，如图3所示，识别出的出行方式可包括公交、步行、驾车、地铁、跑步、骑行等。

另外，对于公交和驾车这两种出行方式，由于特征相对相似，按照上述识别模型可能比较难以区分，为此，本发明所述方案中还提出，可进一步引入用户与公交站点的接近度这一特征，实验显示，引入该特征后可明显提高对公交和驾车的识别准确率和召回率。

相应地，每个训练样本中需要进一步包括：时间窗口内用户与公交站点的接近度，将提取出的特征值以及时间窗口内用户与公交站点的接近度作为输入，将用户的出行方式作为输出，训练得到识别模型。

这样，针对待识别的用户，每经过一个时间窗口，则根据时间窗口内采集到的用户行为数据中提取出的特征值、获取到的时间窗口内用户与公交站点的接近度以及识别模型，确定出用户的出行方式。

具体地，在时间窗口内，当每采集到一次GPS数据时，则可根据采集到的GPS数据以及预先获取的各公交站点的地理信息系统(GIS，Geographic Information System)信息，统计出当前与用户之间的距离小于预定阈值的公交站点的个数，并将各次统计结果相加，用相加之和除以时间窗口的时长，得到时间窗口内用户与公交站点的接近度。

假设时间窗口的时长为10s，时间窗口内共采集了10次GPS数据，那么，每采集一次GPS数据，则可得到一个统计结果，即当前与用户之间的距离小于预定阈值的公交站点的个数，将10个统计结果相加之和除以10s，得到的即为时间窗口内用户与公交站点的接近度。

所述预定阈值的具体取值可根据实际需要而定，比如可为15米。

可将全国各公交站点的GIS信息打包预置到用户手机中，当需要获取统计结果时，可根据用户所处的位置，选取适当的公交站点去和用户进行距离比较，比如，根据GPS数据确定出用户位于北京市海淀区，那么可首先获取到位于北京市海淀区内的各公交站点的GIS信息，然后根据各公交站点的GIS信息确定出其与用户之间的距离是否小于15米。

基于上述介绍，图4为本发明所述用户出行方式的识别过程的第二示意图，相比于图3所示方式，图4所示方式中进一步引入了时间窗口内用户与公交站点的接近度这一特征。

无论采用哪种识别模型，在利用识别模型对用户的出行方式进行识别之后，可根据识别结果及对应的特征值等生成新的训练样本，进而根据新的训练样本对原识别模型进行优化和完善，具体实现为现有技术。

以上是关于方法实施例的介绍，以下通过装置实施例，对本发明所述方案进行进一步说明。

实施例二

图5为本发明所述用户出行方式的识别装置实施例的组成结构示意图，如图5所示，包括：获取单元51和识别单元52。

获取单元51，用于从服务端获取识别模型，并发送给识别单元52；识别模型通过训练样本训练得到，每个训练样本中包括：以预定时长作为一个时间窗口，从时间窗口内采集到的用户行为数据中提取出的特征值，以及，用户在时间窗口内的出行方式，将提取出的特征值作为输入，将用户的出行方式作为输出，训练得到识别模型。

识别单元52，用于针对待识别的用户，每经过一个时间窗口，则根据从时间窗口内采集到的用户行为数据中提取出的特征值以及识别模型，确定出用户的出行方式。

相应地，识别单元52中可具体包括：信息采集子单元521、第一提取子单元522、第二提取子单元523、第三提取子单元524以及识别子单元525。

信息采集子单元521，用于将时间窗口内采集到的加速度传感器数据发送给第一提取子单元522，将时间窗口内采集到的方向传感器数据发送给第二提取子单元523，将时间窗口内采集到的GPS数据发送给第三提取子单元524。

第一提取子单元522，用于从时间窗口内采集到的加速度传感器数据中提取出特征值，并发送给识别子单元525。

第二提取子单元523，用于从时间窗口内采集到的方向传感器数据中提取出特征值，并发送给识别子单元525。

第三提取子单元524，用于从时间窗口内采集到的GPS数据中提取出特征值，并发送给识别子单元525。

识别子单元525，用于根据接收到的时间窗口内的特征值以及识别模型，确定出用户的出行方式。

另外，由于每个时间窗口内采集到的数据都比较多，如果均作为识别模型的输入的话，将会导致数据维度过多，计算复杂度过大，因此，需要针对采集到的用户行为数据进行特征值提取，以降低数据的维度，突出数据的特征。

其中，第一提取子单元522可针对时间窗口内前N次(如前200次)每次采集到的加速度传感器数据，分别进行以下处理：分别计算该加速度传感器数据中的x方向值、y方向值和z方向值的平方值，并将三个平方值相加，得到一个加速度能量值；根据预先设定的离散区间，对N个加速度能量值进行离散化处理，得到M个离散值，将M个离散值作为提取出的特征值，M为大于一的正整数，M<N。

第一提取子单元522可针对预先设置的M个连续的取值区间中的每个取值区间，分别统计出N个加速度能量值中位于该取值区间内的加速度能量值的个数，将统计结果作为对N个加速度能量值进行离散化处理的结果。

M的具体取值可根据实际需要而定，各取值区间的具体取值也可根据实际需要而定。

第二提取子单元523可针对时间窗口内除第一次采集到的方向传感器数据之外前N次每次采集到的方向传感器数据，N为大于1的正整数，如200，分别进行以下处理：分别计算该方向传感器数据中的俯仰角与时间窗口内相邻前一次采集到的方向传感器数据中的俯仰角的第一差值，并计算该方向传感器数据中的航向角与时间窗口内相邻前一次采集到的方向传感器数据中的航向角的第二差值；分别计算各第一差值相加之和以及各第二差值相加之和，将计算结果作为提取出的特征值。

第三提取子单元524可分别计算时间窗口内采集到的各GPS数据中的速度值的均值以及时间窗口内采集到的各GPS数据中的方向角的均值，将计算结果作为提取出的特征值。

在生成识别模型时，可按照与识别单元52中同样的方式进行用户行为数据的采集和特征值的提取，并已知用户的出行方式，即可得到各训练样本。

具体采用何种模型作为识别模型可根据实际需要而定，比如，可采用随机森林识别模型。

基于上述识别模型，即可对用户的出行方式进行实时识别，但是，对于公交和驾车这两种出行方式，由于特征相对相似，按照上述识别模型可能比较难以区分，为此，本发明所述方案中还提出，可进一步引入用户与公交站点的接近度这一特征，实验显示，引入该特征后可明显提高对公交和驾车的识别准确率和召回率。

相应地，每个训练样本的输入中可进一步包括：时间窗口内用户与公交站点的接近度。

如图5所示，识别单元52中可进一步包括：接近度获取子单元526。

接近度获取子单元526，用于获取时间窗口内用户与公交站点的接近度，并发送给识别子单元525。

识别子单元525进一步用于，根据接收到的时间窗口内的特征值、时间窗口内用户与公交站点的接近度以及识别模型，确定出用户的出行方式。

具体地，第三提取子单元524可将每次采集到的GPS数据发送给接近度获取子单元526，在时间窗口内，接近度获取子单元526每获取到一次GPS数据，则可根据该GPS数据以及预先获取的各公交站点的GIS信息，统计出当前与用户之间的距离小于预定阈值的公交站点的个数，将各次统计结果相加，并用相加之和除以时间窗口的时长，得到时间窗口内用户与公交站点的接近度。

总之，采用本发明所述方案，可将从用户行为数据中提取出的特征值作为输入，将用户的出行方式作为输出，训练得到识别模型，进而根据识别模型来对用户的出行方式进行识别，从而相比于现有技术提高了识别结果的准确性；而且，可借助于公交站点的GIS信息，进一步区分公交和驾车两种出行方式，从而进一步提高了识别结果的准确性。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种用户出行方式的识别方法，其特征在于，包括：

获取训练样本，每个训练样本中包括：以预定时长作为一个时间窗口，从所述时间窗口内采集到的用户行为数据中提取出的特征值，以及，用户在所述时间窗口内的出行方式；其中，所述用户行为数据包括：全球定位系统GPS数据、加速度传感器数据和方向传感器数据；

针对待识别的用户，每经过一个所述时间窗口，则根据从所述时间窗口内采集到的用户行为数据中提取出的特征值以及所述识别模型，确定出所述用户的出行方式；

其中，从所述加速度传感器数据中提取出特征值包括：针对所述时间窗口内前N次每次采集到的加速度传感器数据，分别计算所述加速度传感器数据中的x方向值、y方向值和z方向值的平方值，并将三个平方值相加，得到一个加速度能量值；根据预先设定的离散区间，对N个加速度能量值进行离散化处理，得到M个离散值，将M个离散值作为提取出的特征值，M为大于一的正整数，M<N。

2.根据权利要求1所述的方法，其特征在于，

所述根据预先设定的离散区间，对N个加速度能量值进行离散化处理包括：

设置M个连续的取值区间，针对每个取值区间，分别统计出N个加速度能量值中位于所述取值区间内的加速度能量值的个数，将统计结果作为对N个加速度能量值进行离散化处理的结果。

3.根据权利要求1所述的方法，其特征在于，

从所述方向传感器数据中提取出特征值包括：

针对所述时间窗口内除第一次采集到的方向传感器数据之外前N次每次采集到的方向传感器数据，N为大于1的正整数，分别进行以下处理：

分别计算所述方向传感器数据中的俯仰角与所述时间窗口内相邻前一次采集到的方向传感器数据中的俯仰角的第一差值，并计算所述方向传感器数据中的航向角与所述时间窗口内相邻前一次采集到的方向传感器数据中的航向角的第二差值；

4.根据权利要求1所述的方法，其特征在于，

从所述GPS数据中提取出特征值包括：

分别计算所述时间窗口内采集到的各GPS数据中的速度值的均值以及所述时间窗口内采集到的各GPS数据中的方向角的均值，将计算结果作为提取出的特征值。

5.根据权利要求1所述的方法，其特征在于，

每个训练样本中进一步包括：所述时间窗口内用户与公交站点的接近度；

该方法进一步包括：

将提取出的特征值以及所述时间窗口内用户与公交站点的接近度作为输入，将用户的出行方式作为输出，训练得到识别模型；

针对待识别的用户，每经过一个所述时间窗口，则根据从所述时间窗口内采集到的用户行为数据中提取出的特征值、获取到的所述时间窗口内所述用户与公交站点的接近度以及所述识别模型，确定出所述用户的出行方式。

6.根据权利要求5所述的方法，其特征在于，

获取所述时间窗口内所述用户与公交站点的接近度包括：

在所述时间窗口内，当每采集到一次GPS数据时，则根据所述GPS数据以及预先获取的各公交站点的地理信息系统GIS信息，统计出当前与所述用户之间的距离小于预定阈值的公交站点的个数；

将各次统计结果相加，并用相加之和除以所述时间窗口的时长，得到所述时间窗口内所述用户与公交站点的接近度。

7.根据权利要求1～6中任一项所述的方法，其特征在于，

所述时间窗口的时长为5～10s中的任意值。

8.一种用户出行方式的识别装置，其特征在于，包括：获取单元和识别单元；

所述获取单元，用于从服务端获取识别模型，并发送给所述识别单元；所述识别模型通过训练样本训练得到，每个训练样本中包括：以预定时长作为一个时间窗口，从所述时间窗口内采集到的用户行为数据中提取出的特征值，以及，用户在所述时间窗口内的出行方式，将提取出的特征值作为输入，将用户的出行方式作为输出，训练得到所述识别模型；其中，所述用户行为数据包括：全球定位系统GPS数据、加速度传感器数据和方向传感器数据；

所述识别单元，用于针对待识别的用户，每经过一个所述时间窗口，则根据从所述时间窗口内采集到的用户行为数据中提取出的特征值以及所述识别模型，确定出所述用户的出行方式，其中，从所述加速度传感器数据中提取出特征值包括：针对所述时间窗口内前N次每次采集到的加速度传感器数据，分别计算所述加速度传感器数据中的x方向值、y方向值和z方向值的平方值，并将三个平方值相加，得到一个加速度能量值；根据预先设定的离散区间，对N个加速度能量值进行离散化处理，得到M个离散值，将M个离散值作为提取出的特征值，M为大于一的正整数，M<N。

9.根据权利要求8所述的装置，其特征在于，

所述识别单元中包括：信息采集子单元、第一提取子单元、第二提取子单元、第三提取子单元以及识别子单元；

所述信息采集子单元，用于将所述时间窗口内采集到的加速度传感器数据发送给所述第一提取子单元，将所述时间窗口内采集到的方向传感器数据发送给所述第二提取子单元，将所述时间窗口内采集到的GPS数据发送给所述第三提取子单元；

所述第一提取子单元，用于从所述时间窗口内采集到的加速度传感器数据中提取出特征值，并发送给所述识别子单元；

所述第二提取子单元，用于从所述时间窗口内采集到的方向传感器数据中提取出特征值，并发送给所述识别子单元；

所述第三提取子单元，用于从所述时间窗口内采集到的GPS数据中提取出特征值，并发送给所述识别子单元；

所述识别子单元，用于根据接收到的所述时间窗口内的特征值以及所述识别模型，确定出所述用户的出行方式。

10.根据权利要求9所述的装置，其特征在于，

所述第一提取子单元针对预先设置的M个连续的取值区间中的每个取值区间，分别统计出N个加速度能量值中位于所述取值区间内的加速度能量值的个数，将统计结果作为对N个加速度能量值进行离散化处理的结果。

11.根据权利要求9所述的装置，其特征在于，

所述第二提取子单元针对所述时间窗口内除第一次采集到的方向传感器数据之外前N次每次采集到的方向传感器数据，N为大于1的正整数，分别进行以下处理：分别计算所述方向传感器数据中的俯仰角与所述时间窗口内相邻前一次采集到的方向传感器数据中的俯仰角的第一差值，并计算所述方向传感器数据中的航向角与所述时间窗口内相邻前一次采集到的方向传感器数据中的航向角的第二差值；分别计算各第一差值相加之和以及各第二差值相加之和，将计算结果作为提取出的特征值。

12.根据权利要求9所述的装置，其特征在于，

所述第三提取子单元分别计算所述时间窗口内采集到的各GPS数据中的速度值的均值以及所述时间窗口内采集到的各GPS数据中的方向角的均值，将计算结果作为提取出的特征值。

13.根据权利要求9所述的装置，其特征在于，

每个训练样本的输入中进一步包括：所述时间窗口内用户与公交站点的接近度；

所述识别单元中进一步包括：接近度获取子单元；

所述接近度获取子单元，用于获取所述时间窗口内所述用户与公交站点的接近度，并发送给所述识别子单元；

所述识别子单元进一步用于，根据接收到的所述时间窗口内的特征值、所述时间窗口内所述用户与公交站点的接近度以及所述识别模型，确定出所述用户的出行方式。

14.根据权利要求13所述的装置，其特征在于，

所述第三提取子单元进一步用于，将每次采集到的GPS数据发送给所述接近度获取子单元；

在所述时间窗口内，所述接近度获取子单元每获取到一次GPS数据，则根据所述GPS数据以及预先获取的各公交站点的地理信息系统GIS信息，统计出当前与所述用户之间的距离小于预定阈值的公交站点的个数，并将各次统计结果相加，用相加之和除以所述时间窗口的时长，得到所述时间窗口内所述用户与公交站点的接近度。

15.根据权利要求8～14中任一项所述的装置，其特征在于，

所述时间窗口的时长为5～10s中的任意值。