CN110598762A

CN110598762A - 基于音频的出行方式检测方法、装置以及移动终端

Info

Publication number: CN110598762A
Application number: CN201910790652.2A
Authority: CN
Inventors: 刘文龙
Original assignee: Shanghai Jinsheng Communication Technology Co Ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Shanghai Jinsheng Communication Technology Co Ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2019-12-20

Abstract

本申请公开了一种基于音频的出行方式检测方法、装置以及移动终端。检测移动终端的屏幕的状态信息，该状态信息包括息屏状态和亮屏状态，当检测到屏幕的状态信息为息屏状态时，通过麦克风采集音频数据输入DSP中已训练的第一分类模型，并获取第一分类模型输出的第一分类结果，当第一分类结果表征第一出行方式时，将音频数据输入ARM中已训练的第二分类模型，并获取第二分类模型输出的第二分类结果，当第二分类结果表征第二出行方式时，将第二出行方式确定为移动终端对应的用户的出行方式。本申请通过在移动终端处于息屏状态时，在DSP采用一级检测并在ARM采用二级检测，以提升出行方式检测的准确性以及降低移动终端的功耗。

Description

基于音频的出行方式检测方法、装置以及移动终端

技术领域

本申请涉及移动终端技术领域，更具体地，涉及一种基于音频的出行方式检测方法、装置以及移动终端。

背景技术

随着科学技术的发展，移动终端的使用越来越广泛，功能越来越多，已经成为人们日常生活中的必备之一。目前，移动终端在监测用户的出行方式时，监测效果较差。

发明内容

鉴于上述问题，本申请提出了一种基于音频的出行方式检测方法、装置以及移动终端，以解决上述问题。

第一方面，本申请实施例提供了一种基于音频的出行方式检测方法，应用于移动终端，所述移动终端包括第一微处理器ARM、第二微处理器DSP、麦克风以及屏幕，所述方法包括：检测所述移动终端的屏幕的状态信息，所述状态信息包括息屏状态和亮屏状态；当检测到所述屏幕的状态信息为息屏状态时，通过所述麦克风采集音频数据输入所述DSP中已训练的第一分类模型，并获取所述第一分类模型输出的第一分类结果；当所述第一分类结果表征第一出行方式时，将所述音频数据输入所述ARM中已训练的第二分类模型，并获取所述第二分类模型输出的第二分类结果；当所述第二分类结果表征第二出行方式时，将所述第二出行方式确定为所述移动终端对应的用户的出行方式。

第二方面，本申请实施例提供了一种基于音频的出行方式检测装置，应用于移动终端，所述移动终端包括第一微处理器ARM、第二微处理器DSP、麦克风以及屏幕，所述方法装置：状态信息检测模块，用于检测所述移动终端的屏幕的状态信息，所述状态信息包括息屏状态和亮屏状态；第一分类结果获得模块，用于当检测到所述屏幕的状态信息为息屏状态时，通过所述麦克风采集音频数据输入所述DSP中已训练的第一分类模型，并获取所述第一分类模型输出的第一分类结果；第二分类结果获得模块，用于当所述第一分类结果表征第一出行方式时，将所述音频数据输入所述ARM中已训练的第二分类模型，并获取所述第二分类模型输出的第二分类结果；出行方式确定模块，用于当所述第二分类结果表征第二出行方式时，将所述第二出行方式确定为所述移动终端对应的用户的出行方式。

第三方面，本申请实施例提供了一种移动终端，包括存储器、处理器、麦克风以及屏幕，所述存储器、所述麦克风、所述屏幕耦接到所述处理器，所述处理器包括第一微处理器ARM和第二微处理器DSP，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行上述方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述方法。

本申请实施例提供的基于音频的出行方法检测方法、装置以及移动终端，检测移动终端的屏幕的状态信息，该状态信息包括息屏状态和亮屏状态，当检测到屏幕的状态信息为息屏状态时，通过麦克风采集音频数据输入DSP中已训练的第一分类模型，并获取第一分类模型输出的第一分类结果，当第一分类结果表征第一出行方式时，将音频数据输入ARM中已训练的第二分类模型，并获取第二分类模型输出的第二分类结果，当第二分类结果表征第二出行方式时，将第二出行方式确定为移动终端对应的用户的出行方式，从而通过在移动终端处于息屏状态时，在DSP采用一级检测并在ARM采用二级检测，以提升出行方式检测的准确性一级降低移动终端的功耗。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本申请一个实施例提供的基于音频的出行方式检测方法的流程示意图；

图2示出了本申请又一个实施例提供的基于音频的出行方式检测方法的流程示意图；

图3示出了本申请的图2所示的基于音频的出行方式检测方法的步骤S209的流程示意图；

图4示出了本申请实施例提供的基于音频的出行方式检测装置的模块框图；

图5示出了本申请实施例用于执行根据本申请实施例的基于音频的出行方式检测方法的移动终端的框图；

图6示出了本申请实施例的用于保存或者携带实现根据本申请实施例的基于音频的出行方式检测方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

其中，随着移动终端技术的发展，移动终端所应用的领域也越来越广，例如，越来越多的移动终端开始支持对用户的出行方式进行检测，目前，通过移动终端对用户的出行方式的检测主要有三种。

第一种是基于移动终端的各种运动传感器所检测的数据，例如，基于加速度传感器以及陀螺仪等，以提取不同的出行方式的运动传感器数据特征，利用机器学习算法进行分类，以检测用户的出行方式，但是，基于移动终端的运动传感器数据的出行方式检测算法容易受到用户行为的影响，具体而言，用户自身的动作会对运动传感器检测到的数据造成很大的影响，并且若出行方式对应的交通工具处于停止状态，比如公交车等待红绿灯时，运动传感器检测到的数据无法反应出行方式的任何信息。

第二种是通过全球定位系统(Global Positioning System，GPS)、基站信息获取移动终端的运动轨迹，再根据运动轨迹判断用户的出行方式，但是基于基站信息的出行方式检测的成本高且工作量大，具体地，需要收集不同运营商的基站信息，而且基站信息精度不高，数据不精确，即使GPS的精度够高，但是如果用户坐地铁出行，GPS信息将会非常弱。

第三种是通过移动终端获取两个地理位置信息计算对应的参考出行距离以及时间来判断用户在两个城市之间出行是飞机还是火车等出行方式，但是基于终端地理位置判断出行方式只能用于跨城市间的出行，应用场景非常有限。

针对上述问题，发明人经过长期的研究发现，并提出了本申请实施例提供的基于音频的出行方式检测方法、装置以及移动终端，通过在移动终端处于息屏状态时，在DSP采用一级检测并在ARM采用二级检测，以提升出行方式检测的准确性以及降低移动终端的功耗。其中，具体的基于音频的出行方式检测方法在后续的实施例中进行详细的说明。

请参阅图1，图1示出了本申请一个实施例提供的基于音频的出行方式检测方法。所述基于音频的出行方式检测方法用于通过在移动终端处于息屏状态时，在DSP采用一级检测并在ARM采用二级检测，以提升出行方式检测的准确性以及降低移动终端的功耗。在具体的实施例中，所述基于音频的出行方式检测方法应用于如图4所示的基于音频的出行方式检测装置200以及配置有所述基于音频的出行方式检测装置200的移动终端100(图5)。下面将以移动终端为例，说明本实施例的具体流程，当然，可以理解的，本实施例所应用的移动终端可以为智能手机、平板电脑、穿戴式电子设备等，在此不做限定。在本实施例中，所述移动终端包括第一微处理器(Advanced RISC Machine，ARM)、第二微处理器(DigitalSignal Processor，DSP)、麦克风以及屏幕，下面将针对图1所示的流程进行详细的阐述，所述基于音频的出行方式检测方法具体可以包括以下步骤：

步骤S101：检测所述移动终端的屏幕的状态信息，所述状态信息包括息屏状态和亮屏状态。

在本实施例中，移动终端的屏幕的状态信息包括息屏状态和亮屏状态，也就是说，移动终端的屏幕可以处于息屏状态，也可以处于亮屏状态。在一些实施方式中，可以对移动终端的屏幕的状态信息进行检测，即检测移动终端的屏幕是处于息屏状态还是处于亮屏状态。

作为一种方式，移动终端可以预先设置并存储有预设亮度，该预设亮度用于作为移动终端的屏幕亮度的判断依据。具体地，可以检测移动终端的屏幕亮度(Settings.System.SCREEN_BRIGHTNESS)，并将检测到的屏幕亮度与预设亮度进行对比，以判断该屏幕的状态信息，其中，当屏幕亮度大于预设亮度时，可以认为该屏幕的状态信息为亮屏状态，当屏幕亮度不大于预设亮度时，可以认为该屏幕的状态信息为息屏状态。其中，该预设亮度可以为0(int value＝0)，其中，参数value是0-255之间的整数值，数值越大说明屏幕越亮。

作为另一种方式，移动终端的屏幕的状态信息可以对应状态值，例如，屏幕的状态信息为亮屏状态时对应的状态值1，屏幕的状态信息为息屏状态时对应状态值0。因此，可以获取移动终端的屏幕的状态信息对应的状态值，当获取到移动终端的屏幕的状态信息对应状态值1时，可以确定该移动终端的屏幕的状态信息为亮屏状态，当获取到移动终端的屏幕的状态信息对应状态值0时，可以确定该移动终端的屏幕的状态信息为息屏状态。

当然，在本实施例中，还可以包括其他更多检测移动终端的屏幕的状态信息的方式，例如，还可以通过指定应用程序进行检测，在此不再赘述。

步骤S102：当检测到所述屏幕的状态信息为息屏状态时，通过所述麦克风采集音频数据输入所述DSP中已训练的第一分类模型，并获取所述第一分类模型输出的第一分类结果。

在一些实施方式中，当检测到移动终端的屏幕的状态信息为息屏状态时，ARM处于休眠状态且DSP处于工作状态，因此，可以通过DSP对音频数据进行初步检测，以降低移动终端的功耗。具体地，当检测到移动终端的屏幕的状态信息为息屏状态时，可以通过移动终端的拾音器(如麦克风)不断采集音频数据，将采集到的音频数据输入DSP中已训练的第一分类模型，并获取第一分类模型输出的第一分类结果。其中，拾音器采集到的音频数据包括移动终端所在环境的环境音，拾音器可以将采集到的音频数据(如环境音)实时输入已训练的第一分类模型，也可以在采集到预设时长内的音频数据后一起输入已训练的第一分类模型，具体方式在此不做限定。另外，第一分类模型基于音频数据输出的第一分类结果可以包括：第一出行方式、未检测到出行方式或未输出数据等。

其中，该已训练的第一分类模型是通过机器学习获得的，具体地，首先采集训练数据集，其中，训练数据集中的一类数据的属性或特征区别于另一类数据，然后通过将采集的训练数据集按照预设的算法对神经网络进行训练建模，从而基于该训练数据集总结出规律，得到已训练的第一分类模型。在本实施例中，训练数据集例如可以包括多个音频数据和多个出行方式，多个音频数据和多个出行方式一一对应。

可以理解的，已训练的第一分类模型可以预先训练完成后存储在移动终端的DSP中，基于此，移动终端通过拾音器采集到音频数据后，可以直接通过DSP在本地调用该已训练的第一分类模型，例如，移动终端通过DSP可以直接发送指令至已训练的第一分类模型，以指示该已训练的第一分类模型在目标存储区域读取该音频数据，或者移动终端通过DSP直接将该音频数据输入存储在本地的已训练的第一分类模型，从而有效避免由于网络因素的影响降低音频数据输入已训练的第一分类模型的速度，以提升已训练的第一分类模型获取音频数据的速度，提升用户体验。

步骤S103：当所述第一分类结果表征第一出行方式时，将所述音频数据输入所述ARM中已训练的第二分类模型，并获取所述第二分类模型输出的第二分类结果。

在一些实施方式中，当第一分类结果没有表征第一出行方式时，也就是说，当已训练的第一分类模型输出的第一分类结果没有第一出行方式时，可以继续保持DSP处于工作状态且ARM处于休眠状态。

在一些实施方式中，当第一分类结果表征第一出行方式时，也就是说，当已训练的第一分类模型输出的第一分类结果为第一出行方式时，可以唤醒ARM，以使ARM由休眠状态切换为工作状态，再通过ARM对音频数据进行进一步检测，以提升出行方式检测的准确性。具体地，当第一分类结果表征第一出行方式时，可以通过DSP将音频数据输入ARM中已训练的第二分类模型，并获取该第二分类模型输出的第二分类结果，其中，DSP在将音频数据输入ARM中已训练的第二分类模型后，可以由工作状态切换为休眠状态，以降低移动终端的功耗。另外，第二分类模型输出的第二分类结果可以包括：第二出行方式、未检测到出行方式或未输出数据等。

其中，该已训练的第二分类模型是通过机器学习获得的，具体地，首先采集训练数据集，其中，训练数据集中的一类数据的属性或特征区别于另一类数据，然后通过将采集的训练数据集按照预设的算法对神经网络进行训练建模，从而基于该训练数据集总结出规律，得到已训练的第二分类模型。在本实施例中，数据集例如可以包括多个音频数据和多个出行方式，多个音频数据和多个出行方式一一对应。

可以理解的，已训练的第二分类模型可以预先训练完成后存储在移动终端的ARM中，基于此，移动终端通过DSP将音频数据传输至ARM时，可以直接通过ARM在本地调用该已训练的第二分类模型，例如，移动终端通过ARM可以直接发送指令至已训练的第二分类模型，以指示该已训练的第二分类模型在目标存储区域读取该音频数据，或者移动终端通过ARM直接将该音频数据输入存储在本地的已训练的第二分类模型，从而有效避免由于网络因素的影响降低音频数据输入已训练的第二分类模型的速度，以提升已训练的第二分类模型获取音频数据的速度，提升用户体验。

步骤S104：当所述第二分类结果表征第二出行方式时，将所述第二出行方式确定为所述移动终端对应的用户的出行方式。

在一些实施方式中，当第二分类结果没有表征第二出行方式时，也就是说，当已训练的第二分类模型输出的第二分类结果没有第二出行方式时，则ARM可以从工作状态切换为休眠状态，DSP由休眠状态切换为工作状态并对拾音器采集的音频数据进行检测。

在一些实施方式中，当第二分类结果表征第二出行方式时，也就是说，当已训练的第二分类模型输出的第二分类结果为第二出行方式时，可以将第二出行方式确定为该移动终端对应的用户的出行方式。在本实施例，第一分类模型输出的第一出行方式和第二分类模型输出的第二出行方式可以相同、也可以不相同，其中，当第一出行方式和第二出行方式相同时，可以将第一出行方式和第二出行方式共同确定为移动终端对应的用户的出行方式，当第一出行方式和第二出行方式不相同时，可以将第二出行方式确定为移动终端对应的用户的出行方式。

其中，出行方式可以包括小型汽车、公交车、地铁、高铁、飞机以及其它类。

本申请一个实施例提供的基于音频的出行方式检测方法，检测移动终端的屏幕的状态信息，该状态信息包括息屏状态和亮屏状态，当检测到屏幕的状态信息为息屏状态时，通过麦克风采集音频数据输入DSP中已训练的第一分类模型，并获取第一分类模型输出的第一分类结果，当第一分类结果表征第一出行方式时，将音频数据输入ARM中已训练的第二分类模型，并获取第二分类模型输出的第二分类结果，当第二分类结果表征第二出行方式时，将第二出行方式确定为移动终端对应的用户的出行方式，从而通过在移动终端处于息屏状态时，在DSP采用一级检测并在ARM采用二级检测，以提升出行方式检测的准确性一级降低移动终端的功耗。

请参阅图2，图2示出了本申请又一个实施例提供的基于音频的出行方式检测方法的流程示意图。该方法应用于上述移动终端，该移动终端包括ARM、DSP、麦克风以及屏幕，下面将针对图2所示的流程进行详细的阐述，所述基于音频的出行方式检测方法具体可以包括以下步骤：

步骤S201：检测所述移动终端的屏幕的状态信息，所述状态信息包括息屏状态和亮屏状态。

步骤S202：当检测到所述屏幕的状态信息为息屏状态时，通过所述麦克风采集音频数据。

其中，步骤S201-步骤S202的具体描述请参阅步骤S101-步骤S102，在此不再赘述。

步骤S203：通过所述DSP获取所述音频数据的音频能量，并判断所述音频能量是否大于能量阈值。

在一些实施方式中，当移动终端的屏幕的状态信息为息屏状态时，DSP处于工作状态且ARM处于休眠状态，可以通过移动终端的拾音器采集音频数据，并通过DSP监测拾音器是否采集到音频信号，其中，当监测到该拾音器没有采集到音频信号，继续保持DSP处于工作状态监测拾音器是否采集到音频信号且保持ARM继续处于休眠状态；当监测到该拾音器采集到音频信号时，通过DSP获取该音频信号对应的音频数据的音频能量，并判断该音频能量是否大于能量阈值，其中，当音频能量不大于能量阈值时，表征移动终端处于较为安静的环境下，比如移动终端对应的用户处于睡眠状态，此时可以无需一直启用DSP中已训练的第一分类模型进行出行方式的检测，以降低移动终端的功耗；当音频能量大于能量阈值时，表征移动终端处于较为嘈杂的环境下，比如移动终端对应的用户处于地铁上、公交车上等，此时可以将音频数据输入DSP中已训练的第一分类模型进行出行方式的检测。

步骤S204：当所述音频能量大于所述能量阈值时，将所述音频数据输入所述DSP中已训练的第一分类模型。

在一些实施方式中，第一分类模型可以通过如下步骤训练得到：获取第一待训练音频数据；对所述第一待训练音频数据进行特征提取，获得第一向量；基于所述第一向量对所述DSP中的xgboost模型进行分类训练，生成第一分类模型。

其中，由于DSP的计算性能和存储能力都非常有限，而xgboost模型的模型小且运算量低，其具有训练模型快且效率高的特点，是一种较好的集成学习方法，因此，在本实施例中，可以但不限于采用传统的机器学习算法xgboost创建xgboost模型进行分类训练，作为一种方式，可以采用10棵深度为5的树，并采用python xgboost包训练模型。其中，第一待训练音频数据可以是对应不同出行方式下的拾音器采集到的音频数据，例如，第一待训练音频数据可以包括：出行方式为小型汽车时的音频数据、出行方式为公交车时的音频数据、出行方式为地铁时的音频数据、出行方式为高铁时的音频数据、出行方式为飞机时的音频数据等。

在一些实施方式中，对所述第一待训练音频数据进行特征提取，获得第一向量，可以包括：依次对所述第一待训练音频数据进行预加重处理、分帧处理、加窗处理、傅里叶变换以及能量谱计算，获得N1个元素个数为M1的特征向量，其中，N1为正整数，M1为正整数；对所述N1个元素个数为M1的特征向量取平均值，获得一个元素个数为M1的平均向量，将所述元素个数为M1的平均向量确定为所述第一向量。

具体地，在获取第一待训练音频数据后，可以通过预加重模块对该第一待训练音频数据进行预加重处理，例如，可以通过高通滤波器对第一待训练音频数据进行高通滤波处理，其数学表达式可以为：H(z)＝1-az^-1，其中，a是修正系数，一般取0.95-0.97；进一步地，在对第一待训练数据进行预加重处理后，可以通过分帧加窗模块对预加重后的第一待训练数据依次进行分帧处理和加窗处理，再进行傅里叶变换以及能量谱计算，其中，分帧加窗模块用于将预加重后的第一待训练数据分为很多帧数，在平滑帧信号的边缘，采用的是汉明窗其中，n为整数，n＝0，1，2，3……M，M为傅里叶变换的点数，于本实施例中，例如，M可以取512，音频采样率为8000HZ，512个数据点即64ms，经过傅里叶变换后得到512个复数，由于傅里叶变换的对称性，可以取前257个复数，并计算能量谱(即复数的实部和虚部的平方和)，则可以得到一个元素个数为257的实数向量。若输入的音频数据为5s的音频，本实施例采用5056ms，即输入5056ms的音频数据，以64ms为一个窗口作傅里叶变换，窗口每次移动32ms，即相邻的两个窗口重叠32ms，这样能够得到157个元素个数为257的特征向量，进一步地，在得到157个元素个数为257的特征向量后，可以对157个元素个数为257的特征向量取平均值，得到一个元素个数为257的平均向量，将该平均向量作为第一向量，并代表本实施例的5056ms的向量。

步骤S205：获取所述第一分类模型输出的第一分类结果。

其中，步骤S205的具体描述请参阅步骤S102，在此不再赘述。

步骤S206：当所述第一分类结果表征第一出行方式时，将所述音频数据输入所述ARM中已训练的第二分类模型，并获取所述第二分类模型输出的第二分类结果。

在一些实施方式中，所述第二分类模型可以通过如下步骤训练获得：获取第二待训练音频；对所述第二待训练音频数据进行初步特征提取，获得初步特征向量，对所述初步特征向量进行深层特征提取，获得第二向量，并通过预设滤波器对所述初步特征向量进行滤波处理，获得第三向量，将所述第二向量和所述第三向量进行合并，获得第四向量，基于所述第四向量对所述ARM中的xgboost模型进行分类训练，生成第二分类模型。

其中，由于xgboost模型的模型小且运算量低，其具有训练模型快且效率高的特点，是一种较好的集成学习方法，因此，在本实施例中，可以但不限于采用传统的机器学习算法xgboost创建xgboost模型进行分类训练，于本实施例中，可以采用20棵深度为5的树，利用python中的xgboost库训练，当然，由于ARM计算性能和存储能力较好，也可以采用其它模型进行分类训练，在此不做限定。其中，第二待训练音频数据可以是对应不同出行方式下的拾音器采集到的音频数据，例如，第二待训练音频数据可以包括：出行方式为小型汽车时的音频数据、出行方式为公交车时的音频数据、出行方式为地铁时的音频数据、出行方式为高铁时的音频数据、出行方式为飞机时的音频数据等。

在一些实施方式中，所述对所述第二待训练音频数据进行初步特征提取，获得初步特征向量，可以包括：依次对所述第二待训练音频数据进行预加重处理、分帧处理、加窗处理、傅里叶变换以及能量谱计算，获得N2个元素个数为M2的特征向量，其中，N2为正整数，M2为正整数，将所述N2个元素个数为M2的特征向量确定为所述初步特征向量。

具体地，在获取第二待训练音频数据后，可以通过预加重模块对该第二待训练音频数据进行预加重处理，例如，可以通过高通滤波器对第二待训练音频数据进行高通滤波处理，其数学表达式可以为：H(z)＝1-az^-1，其中，a是修正系数，一般取0.95-0.97；进一步地，在对第二待训练数据进行预加重处理后，可以通过分帧加窗模块对预加重后的第二待训练数据依次进行分帧处理和加窗处理，再进行傅里叶变换以及能量谱计算，其中，分帧加窗模块用于将预加重后的第二待训练数据分为很多帧数，在平滑帧信号的边缘，采用的是汉明窗其中，n为整数，n＝0，1，2，3……M，M为傅里叶变换的点数，于本实施例中，例如M可以取512，音频采样率为8000HZ，512个数据点即64ms，经过傅里叶变换后得到512个复数，由于傅里叶变换的对称性，可以取前257个复数，并计算能量谱(即复数的实部和虚部的平方和)，则可以得到一个元素个数为257的实数向量。若输入的音频数据为5s的音频，本实施例采用5056ms，即输入5056ms的音频数据，以64ms为一个窗口作傅里叶变换，窗口每次移动32ms，即相邻的两个窗口重叠32ms，这样能够得到157个元素个数为257的特征向量，将该157个元素个数为257的特征向量确定为所述初步特征向量。

在一些实施方式中，所述对所述初步特征向量进行深层特征提取，获得第二向量，可以包括：将所述N2个元素个数为M2的特征向量依次输入两层卷积神经网络CNN、一层循环神经网络LSTM以及全连接层FC，获得一个元素个数为M3的特征向量，其中，M3为正整数；将所述一个元素个数为M3的特征向量确定为所述第二向量。

具体地，在确定初步特征向量为N2个元素个数为M2的特征向量后，可以将N2个元素个数为M2的特征向量输入两层卷积神经网络(Convolutional Neural Networks，CNN)后，再接一层循环神经网络(Long Short-Term Memory，LSTM)，其中，LSTM能较好的提取初步特征向量中的第二待训练音频数据在时序上的相关性特征，然后将经LSTM处理后的N2个元素个数为M2的特征向量输入全连接层(Fully Connected，FC)，FC将输入的经LSTM处理后的N2个元素个数为M2的特征向量压缩为一个元素个数为M3的特征向量，将该一个元素个数为M3的特征向量确定为第二向量，以完成深层特征提取。

另外，作为一种方式，深层特征提取模型在进行训练时，在获得一个元素个数为M3的特征向量后，还可以通过另一全连接层FC2将该一个元素个数为M3的特征向量映射到一个元素个数为6的向量，再经过softmax函数得到每一类出行方式的额概率，即深层特征提取模型输出的分类结果，根据输入的音频数据的真实类别计算交叉熵损失函数，再利用梯度下降法训练该深层特征提取模型。

在一些实施方式中，所述通过所述预设滤波器对所述初步特征向量进行滤波处理，获得第三向量，包括：通过1700×log₁₀(1+f/10)或1800×log₁₀(1+f/10)对所述初步特征向量进行滤波计算，获得滤波后特征向量，其中，f为频率；对所述滤波后特征向量取对数并进行离散余弦变换DCT，获得一个元素个数为M4的特征向量，其中，M4为正整数；将所述一个元素个数为M4的特征向量确定为所述第三向量。

具体地，传统的音频特征主要是使用梅尔滤波器来提取特征，梅尔滤波器能够将音频信号的频率转换为符合人耳听觉的频带范围，对于语音相关的任务非常实用，但是在出行方式的音频的识别上并不一定是最好的提取滤波器。因此，在本实施例中，通过1700×log₁₀(1+f/10)或1800×log₁₀(1+f/10)对初步特征向量进行滤波计算，获得滤波后的特征向量，其中，1700×log₁₀(1+f/10)和1800×log₁₀(1+f/10)对输入的初步特征向量进行滤波，不同的滤波算法重点关注的频率范围不一样，本实施例采用的滤波算法能够针对本方案数据集及任务提取更有效的特征。进一步地，在获得滤波后的特征向量后，可以对滤波后的特征向量去对数并进行离散余弦变换(Discrete Cosine Transform，DCT)，获得一个元素个数为M4的特征向量，将该一个元素个数为M4的特征向量确定为第三向量。

在一些实施方式中，也可以采用多个滤波算法提取多个特征向量后再将多个特征向量结合，在此不再赘述。

在一些实施方式中，在获得第二向量和第三向量后，可以将第二向量和第三向量进行合并，获得第四向量。例如，将一个元素个数为M3的特征向量和一个元素个数为M4的特征向量进行合并，获得一个元素个数为M3+M4的特征向量，将一个元素个数为M3+M4的特征向量作为第四向量。

在一些实施方式中，在基于音频数据预测移动终端对应的用户的出行方式时，输入音频数据至ARM中已训练的第二分类模型，第二分类模型提取音频数据的初步特征向量，并分别对初步特征向量进行深层特征提取和滤波处理，并将初步特征提取后获得的第二向量和滤波处理后获得的第三向量进行合并获得第四向量，最后基于第四向量输出该音频数据属于每一类出行方式的概率，给定概率阈值，若某一类出行方式的概率大于概率阈值时，则表征该类出行方式为移动终端对应的用户的出行方式。

步骤S207：当所述第二分类结果表征第二出行方式时，将所述第二出行方式确定为所述移动终端对应的用户的出行方式。

其中，步骤S207的具体描述请参阅步骤S104，在此不再赘述。

步骤S208：获取并输出与所述第二出行方式相关的信息或服务。

在一些实施方式中，在确定移动终端对应的用户的出行方式时，可以推送与用户的出行方式相关的信息或服务给用户，则移动终端获取并输出展示与第二出行方式相关的信息或服务。例如，若检测到移动终端对应的用户的出行方式为公交车，可以推送提示提示用户是否需要相关的公交车到站查询服务等；若检测到移动终端对应的用户的出行方式为飞机时，可以帮助用户自动开启飞行模式等，在此不做限定。

步骤S209：当检测到所述屏幕的状态信息为亮屏状态时，通过所述麦克风采集音频数据输入所述ARM中已训练的第二分类模型，并获取所述第二分类模型输出的第三分类结果。

在一些实施方式中，当检测到移动终端的屏幕的状态信息为亮屏状态时，ARM处于工作状态且DSP处于工作状态，因此，可以直接通过ARM对音频数据进行检测。具体地，当检测到移动终端的屏幕的状态信息为亮屏状态时，可以通过移动终端的拾音器不断采集音频数据，将采集到的音频数据输入ARM中已训练的第二分类模型，并获取第二分类模型输出的第三分类结果。其中，拾音器采集到的音频数据包括移动终端所在环境的环境音，拾音器可以将采集到的音频数据(如环境音)实时输入已训练的第二分类模型，也可以在采集到预设时长内的音频数据后一起输入已训练的第二分类模型，具体方式在此不做限定。另外，第二分类模型基于音频数据输出的第三分类结果可以包括：第三出行方式、未检测到出行方式或未输出数据等。

请参阅图3，图3示出了本申请的图2所示的基于音频的出行方式检测方法的步骤S209的流程示意图。下面将针对图3所示的流程进行详细的阐述，所述方法具体可以包括以下步骤：

步骤S2091：通过所述麦克风采集音频数据。

步骤S2092：通过所述DSP获取所述音频数据的音频能量，并判断所述音频能量是否大于所述能量阈值。

步骤S2093：当所述音频能量大于所述能量阈值时，将所述音频数据输入所述ARM中已训练的第二分类模型。

在一些实施方式中，当移动终端的屏幕的状态信息为亮屏状态时，DSP处于工作状态且ARM处于工作状态，可以通过移动终端的拾音器采集音频数据，并通过DSP监测拾音器是否采集到音频信号，其中，当监测到该拾音器没有采集到音频信号，继续保持DSP处于工作状态监测拾音器是否采集到音频信号；当监测到该拾音器采集到音频信号时，通过DSP获取该音频信号对应的音频数据的音频能量，并判断该音频能量是否大于能量阈值，其中，当音频能量不大于能量阈值时，表征移动终端处于较为安静的环境下，比如移动终端对应的用户处于睡眠状态，此时可以无需一直启用ARM中已训练的第二分类模型进行出行方式的检测，以降低移动终端的功耗；当音频能量大于能量阈值时，表征移动终端处于较为嘈杂的环境下，比如移动终端对应的用户处于地铁上、公交车上等，此时可以将音频数据输入ARM中已训练的第二分类模型进行出行方式的检测。

步骤S210：当所述第三分类结果表征第三出行方式时，将所述第三出行方式确定为所述移动终端对应的用户的出行方式。

步骤S211：获取并输出与所述第三出行方式相关的信息或服务。

在一些实施方式中，在确定移动终端对应的用户的出行方式时，可以推送与用户的出行方式相关的信息或服务给用户，则移动终端获取并输出展示与第三出行方式相关的信息或服务。

因此，在本实施例中，采用二级出出行方式检测方案，一级出行方式检测算法放在低功耗DSP上，可以保证移动终端息屏情况下能实时监测用户所选择的出行方式，并且功耗较低，移动终端亮屏情况下则直接使用ARM侧的出行方式检测算法，所以整体功耗较好，适合部署在移动终端。另外本实施例部署在ARM侧的出行方式检测算法采用两种提取提取方法并融合两种特征，第一种设计合适的滤波器提取特征，该特征可以为人工设计特征，能够较好的提取区分度高的出行方式的音频特征，第二种利用CNN模型提取更深层的抽象特征，通过训练深度神经网络模型提取出行方式的深层抽象特征，再将两种特征结合输入到分类器中，从而能有效提高模型的分类精度。

本申请又一个实施例提供的基于音频的出行方式检测方法，检测移动终端的屏幕的状态信息，该状态信息包括息屏状态和亮屏状态。当检测到屏幕的状态信息为息屏状态时，通过麦克风采集音频数据，通过DSP获取音频数据的音频能量，并判断音频能量是否大于能量阈值，当音频能量大于能量阈值时，将音频数据输入DSP中已训练的第一分类模型，获取第一分类模型输出的第一分类结果，当第一分类结果表征第一出行方式时，将该音频数据输入ARM中已训练的第二分类模型，并获取第二分类模型输出的第二分类结果，当第二分类结果表征第二出行方式时，将第二出行方式确定为移动终端对应的用户的出行方式，获取并输出与第二出行方式相关的信息或服务。当检测到屏幕的状态信息为亮屏状态时，通过麦克风采集音频数据输入ARM中已训练的第二分类模型，并获取第二分类模型输出的第三分类结果，当第三分类结果表征第三出行方式时，将第三出行方式确定为移动终端对应的用户的出行方式，获取并输出与第三出行方式相关的信息或服务。相较于图1所示的基于音频的出行方式检测方法，本实施例还通过DSP检测音频数据的音频能量，并在音频能量大于能量阈值时将音频数据发送至ARM，以降低移动终端的功耗。另外，本实施例还在移动终端的屏幕的状态信息为亮屏状态时，直接通过ARM进行出行方式的检测，提升检测效率。

请参阅图4，图4示出了本申请实施例提供的基于音频的出行方式检测装置200的模块框图。该基于音频的出行方式检测装置200应用于上述移动终端100，该移动终端包括第一微处理器ARM、第二微处理器DSP、麦克风以及屏幕。下面将针对图4所示的框图进行阐述，所示基于音频的出行方式检测装置200包括：状态信息检测模块210、第一分类结果获得模块220、第二分类结果获得模块230以及出行方式确定模块240，其中：

状态信息检测模块210，用于检测所述移动终端的屏幕的状态信息，所述状态信息包括息屏状态和亮屏状态。

第一分类结果获得模块220，用于当检测到所述屏幕的状态信息为息屏状态时，通过所述麦克风采集音频数据输入所述DSP中已训练的第一分类模型，并获取所述第一分类模型输出的第一分类结果。进一步地，所述第一分类结果获得模块220包括：第一音频数据采集子模块、第一音频能量判断子模块以及第一音频能量判断子模块，其中：

第一音频数据采集子模块，用于通过所述麦克风采集音频数据。

第一音频能量判断子模块，用于通过所述DSP获取所述音频数据的音频能量，并判断所述音频能量是否大于能量阈值。

第一音频能量判断子模块，用于当所述音频能量大于所述能量阈值时，将所述音频数据输入所述DSP中已训练的第一分类模型。

第二分类结果获得模块230，用于当所述第一分类结果表征第一出行方式时，将所述音频数据输入所述ARM中已训练的第二分类模型，并获取所述第二分类模型输出的第二分类结果。

出行方式确定模块240，用于当所述第二分类结果表征第二出行方式时，将所述第二出行方式确定为所述移动终端对应的用户的出行方式。

进一步地，所示基于音频的出行方式检测装置200还包括：第三分类结果获得模块以及出行方式确定模块，其中：

第三分类结果获得模块，用于当检测到所述屏幕的状态信息为亮屏状态时，通过所述麦克风采集音频数据输入所述ARM中已训练的第二分类模型，并获取所述第二分类模型输出的第三分类结果。进一步地，所述第三分类结果获得模块，包括：第二音频数据采集子模块、第二音频能量判断子模块以及第二音频能量判断子模块，其中：

第二音频数据采集子模块，用于通过所述麦克风采集音频数据。

第二音频能量判断子模块，用于通过所述DSP获取所述音频数据的音频能量，并判断所述音频能量是否大于所述能量阈值。

第二音频能量判断子模块，用于当所述音频能量大于所述能量阈值时，将所述音频数据输入所述ARM中已训练的第二分类模型。

出行方式确定模块，用于当所述第三分类结果表征第三出行方式时，将所述第三出行方式确定为所述移动终端对应的用户的出行方式。

进一步地，所述基于音频的出行方式检测装置200还包括：第一信息输出模块和第二信息输出模块，其中：

第一信息输出模块，用于获取并输出与所述第二出行方式相关的信息或服务。

第二信息输出模块，用于获取并输出与所述第三出行方式相关的信息或服务。

进一步地，所述基于音频的出行方式检测装置200还包括：第一待训练音频数据获得模块、第一向量获得模块以及第一分类模型生成模块，其中：

第一待训练音频数据获得模块，用于获取第一待训练音频数据。

第一向量获得模块，用于对所述第一待训练音频数据进行特征提取，获得第一向量。进一步地，所述第一向量获得模块，包括：第一特征向量获得子模块和第一向量获得子模块，其中：

第一特征向量获得子模块，用于依次对所述第一待训练音频数据进行预加重处理、分帧处理、加窗处理、傅里叶变换以及能量谱计算，获得N1个元素个数为M1的特征向量，其中，N1为正整数，M1为正整数。

第一向量获得子模块，用于对所述N1个元素个数为M1的特征向量取平均值，获得一个元素个数为M1的平均向量，将所述元素个数为M1的平均向量确定为所述第一向量。

第一分类模型生成模块，用于基于所述第一向量对所述DSP中的xgboost模型进行分类训练，生成所述第一分类模型。

进一步地，所述基于音频的出行方式检测装置200还包括：第二待训练音频数据获得模块、初步特征向量获得模块、第二向量及第三向量获得模块、第四向量获得模块、第二分类模型生成模块，其中：

第二待训练音频数据获得模块，用于获取第二待训练音频数据。

初步特征向量获得模块，用于对所述第二待训练音频数据进行初步特征提取，获得初步特征向量。进一步地，所述初步特征向量获得模块包括：第二特征向量获得子模块和初步特征向量获得子模块，其中：

第二特征向量获得子模块，用于依次对所述第二待训练音频数据进行预加重处理、分帧处理、加窗处理、傅里叶变换以及能量谱计算，获得N2个元素个数为M2的特征向量，其中，N2为正整数，M2为正整数。

初步特征向量获得子模块，用于将所述N2个元素个数为M2的特征向量确定为所述初步特征向量。

第二向量及第三向量获得模块，用于对所述初步特征向量进行深层特征提取，获得第二向量，并通过预设滤波器对所述初步特征向量进行滤波处理，获得第三向量。进一步地，所述第二向量及第三向量获得模块包括：第三特征向量获得子模块和第二向量获得子模块，其中：

第三特征向量获得子模块，用于将所述N2个元素个数为M2的特征向量依次输入两层卷积神经网络CNN、一层循环神经网络LSTM以及全连接层FC，获得一个元素个数为M3的特征向量，其中，M3为正整数。

第二向量获得子模块，用于将所述一个元素个数为M3的特征向量确定为所述第二向量。

进一步地，所述第二向量及第三向量获得模块，包括：第四特征向量获得子模块、第五特征向量获得子模块以及第三向量获得子模块，其中：

第四特征向量获得子模块，用于通过1700×log₁₀(1+f/10)或1800×log₁₀(1+f/10)对所述初步特征向量进行滤波计算，获得滤波后特征向量，其中，f为频率。

第五特征向量获得子模块，用于对所述滤波后特征向量取对数并进行离散余弦变换DCT，获得一个元素个数为M4的特征向量，其中，M4为正整数。

第三向量获得子模块，用于将所述一个元素个数为M4的特征向量确定为所述第三向量。

第四向量获得模块，用于将所述第二向量和所述第三向量进行合并，获得第四向量。

第二分类模型生成模块，用于基于所述第四向量对所述ARM中的xgboost模型进行分类训练，生成所述第二分类模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图5，其示出了本申请实施例提供的一种移动终端100的结构框图。该移动终端100可以是智能手机、平板电脑、电子书等能够运行应用程序的移动终端。本申请中的移动终端100可以包括一个或多个如下部件：处理器110、存储器120、屏幕130、麦克风140以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。其中，处理器110可以包括第一微处理器ARM111和第二微处理器DSP112。

其中，处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个移动终端100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行移动终端100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

屏幕130用于显示由用户输入的信息、提供给用户的信息以及所述移动终端100的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、数字、视频和其任意组合来构成，在一个实例中，该显示屏130可以为液晶显示器(Liquid Crystal Display，LCD)，也可以为有机发光二极管(Organic Light-Emitting Diode，OLED)，在此不做限定。

请参阅图6，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质300中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质300包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质300具有执行上述方法中的任何方法步骤的程序代码310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码310可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的基于音频的出行方法检测方法、装置以及移动终端，检测移动终端的屏幕的状态信息，该状态信息包括息屏状态和亮屏状态，当检测到屏幕的状态信息为息屏状态时，通过麦克风采集音频数据输入DSP中已训练的第一分类模型，并获取第一分类模型输出的第一分类结果，当第一分类结果表征第一出行方式时，将音频数据输入ARM中已训练的第二分类模型，并获取第二分类模型输出的第二分类结果，当第二分类结果表征第二出行方式时，将第二出行方式确定为移动终端对应的用户的出行方式，从而通过在移动终端处于息屏状态时，在DSP采用一级检测并在ARM采用二级检测，以提升出行方式检测的准确性一级降低移动终端的功耗。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于音频的出行方式检测方法，其特征在于，应用于移动终端，所述移动终端包括第一微处理器ARM、第二微处理器DSP、麦克风以及屏幕，所述方法包括：

检测所述移动终端的屏幕的状态信息，所述状态信息包括息屏状态和亮屏状态；

当检测到所述屏幕的状态信息为息屏状态时，通过所述麦克风采集音频数据输入所述DSP中已训练的第一分类模型，并获取所述第一分类模型输出的第一分类结果；

当所述第一分类结果表征第一出行方式时，将所述音频数据输入所述ARM中已训练的第二分类模型，并获取所述第二分类模型输出的第二分类结果；

当所述第二分类结果表征第二出行方式时，将所述第二出行方式确定为所述移动终端对应的用户的出行方式。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当检测到所述屏幕的状态信息为亮屏状态时，通过所述麦克风采集音频数据输入所述ARM中已训练的第二分类模型，并获取所述第二分类模型输出的第三分类结果；

当所述第三分类结果表征第三出行方式时，将所述第三出行方式确定为所述移动终端对应的用户的出行方式。

3.根据权利要求2所述的方法，其特征在于，所述将所述第二出行方式确定为所述移动终端对应的用户的出行方式之后，还包括：

获取并输出与所述第二出行方式相关的信息或服务；或

将所述第三出行方式确定为所述移动终端对应的用户的出行方式之后，还包括：

获取并输出与所述第三出行方式相关的信息或服务。

4.根据权利要求1所述的方法，其特征在于，所述通过所述麦克风采集音频数据输入所述DSP中已训练的第一分类模型，包括：

通过所述麦克风采集音频数据；

通过所述DSP获取所述音频数据的音频能量，并判断所述音频能量是否大于能量阈值；

当所述音频能量大于所述能量阈值时，将所述音频数据输入所述DSP中已训练的第一分类模型。

5.根据权利要求2所述的方法，其特征在于，所述通过所述麦克风采集音频数据输入所述ARM中已训练的第二分类模型，包括：

通过所述麦克风采集音频数据；

通过所述DSP获取所述音频数据的音频能量，并判断所述音频能量是否大于所述能量阈值；

当所述音频能量大于所述能量阈值时，将所述音频数据输入所述ARM中已训练的第二分类模型。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述第一分类模型通过如下步骤训练得到：

获取第一待训练音频数据；

对所述第一待训练音频数据进行特征提取，获得第一向量；

基于所述第一向量对所述DSP中的xgboost模型进行分类训练，生成所述第一分类模型。

7.根据权利要求6所述的方法，其特征在于，所述对所述第一待训练音频数据进行特征提取，获得第一向量，包括：

依次对所述第一待训练音频数据进行预加重处理、分帧处理、加窗处理、傅里叶变换以及能量谱计算，获得N1个元素个数为M1的特征向量，其中，N1为正整数，M1为正整数；

对所述N1个元素个数为M1的特征向量取平均值，获得一个元素个数为M1的平均向量，将所述元素个数为M1的平均向量确定为所述第一向量。

8.根据权利要求1-5任一项所述的方法，其特征在于，所述第二分类模型通过如下步骤训练获得：

获取第二待训练音频数据；

对所述第二待训练音频数据进行初步特征提取，获得初步特征向量；

对所述初步特征向量进行深层特征提取，获得第二向量，并通过预设滤波器对所述初步特征向量进行滤波处理，获得第三向量；

将所述第二向量和所述第三向量进行合并，获得第四向量；

基于所述第四向量对所述ARM中的xgboost模型进行分类训练，生成所述第二分类模型。

9.根据权利要求8所述的方法，其特征在于，所述对所述第二待训练音频数据进行初步特征提取，获得初步特征向量，包括：

依次对所述第二待训练音频数据进行预加重处理、分帧处理、加窗处理、傅里叶变换以及能量谱计算，获得N2个元素个数为M2的特征向量，其中，N2为正整数，M2为正整数；

将所述N2个元素个数为M2的特征向量确定为所述初步特征向量。

10.根据权利要求9所述的方法，其特征在于，所述对所述初步特征向量进行深层特征提取，获得第二向量，包括：

将所述N2个元素个数为M2的特征向量依次输入两层卷积神经网络CNN、一层循环神经网络LSTM以及全连接层FC，获得一个元素个数为M3的特征向量，其中，M3为正整数；

将所述一个元素个数为M3的特征向量确定为所述第二向量。

11.根据权利要求8所述的方法，其特征在于，所述通过预设滤波器对所述初步特征向量进行滤波处理，获得第三向量，包括：

通过1700×log₁₀(1+f/10)或1800×log₁₀(1+f/10)对所述初步特征向量进行滤波计算，获得滤波后特征向量，其中，f为频率；

对所述滤波后特征向量取对数并进行离散余弦变换DCT，获得一个元素个数为M4的特征向量，其中，M4为正整数；

将所述一个元素个数为M4的特征向量确定为所述第三向量。

12.一种基于音频的出行方式检测装置，其特征在于，应用于移动终端，所述移动终端包括第一微处理器ARM、第二微处理器DSP、麦克风以及屏幕，所述方法装置：

状态信息检测模块，用于检测所述移动终端的屏幕的状态信息，所述状态信息包括息屏状态和亮屏状态；

第一分类结果获得模块，用于当检测到所述屏幕的状态信息为息屏状态时，通过所述麦克风采集音频数据输入所述DSP中已训练的第一分类模型，并获取所述第一分类模型输出的第一分类结果；

第二分类结果获得模块，用于当所述第一分类结果表征第一出行方式时，将所述音频数据输入所述ARM中已训练的第二分类模型，并获取所述第二分类模型输出的第二分类结果；

出行方式确定模块，用于当所述第二分类结果表征第二出行方式时，将所述第二出行方式确定为所述移动终端对应的用户的出行方式。

13.一种移动终端，其特征在于，包括存储器、处理器、麦克风以及屏幕，所述存储器、所述麦克风、所述屏幕耦接到所述处理器，所述处理器包括第一微处理器ARM和第二微处理器DSP，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行如权利要求1-11任一项所述的方法。

14.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-11任一项所述的方法。