CN110880328B

CN110880328B - 到站提醒方法、装置、终端及存储介质

Info

Publication number: CN110880328B
Application number: CN201911142032.4A
Authority: CN
Inventors: 刘文龙
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2022-11-15
Anticipated expiration: 2039-11-20
Also published as: CN110880328A

Abstract

本申请实施例公开了一种到站提醒方法、装置、终端及存储介质，属于人工智能领域。该方法包括：当处于交通工具时，通过麦克风采集环境音；利用声音识别模型对环境音进行识别，声音识别模型是采用RNN的二分类模型；当识别出环境音中包含目标警铃声时，对已行驶站数进行加一操作；当已行驶站数达到目标站数时，进行到站提醒。采用本申请实施例提供的方法，通过实时采集环境音，并在识别出环境音中包含目标警铃声时，对已行驶站数进行更新，在已行驶站数达到目标站数时，进行到站提醒；由于警铃声用于向乘客发出警示，声音特征较为明显，并且采用RNN模型识别警铃声，能够提高到站提醒的准确率和时效性。

Description

到站提醒方法、装置、终端及存储介质

技术领域

本申请实施例涉及人工智能领域，特别涉及一种到站提醒方法、装置、终端及存储介质。

背景技术

人们在乘坐地铁等公共交通工具出行时，需要时刻注意当前停靠站点是否为自己的目标站点，而到站提醒功能则是一种提醒乘客在到达目标站时及时下车的功能。

相关技术中，终端通常利用语音识别技术，根据地铁播报的到站信息来获取当前站点信息，并判断当前站点是否为乘客的目标站，若当前站点为目标站，则对乘客进行到站提醒。

然而，采用上述方法获取站点信息时，乘客的说话声和地铁运行的噪音会对语音识别的结果产生较大影响，容易导致提醒延误或不准确。

发明内容

本申请实施例提供了一种到站提醒方法、装置、终端及存储介质。所述技术方案如下：

一方面，本申请实施例提供了一种到站提醒方法，所述方法包括：

当处于交通工具时，通过麦克风采集环境音；

利用声音识别模型对所述环境音进行识别，所述声音识别模型是采用循环神经网络(Recurrent Neural Network,RNN)的二分类模型；

当识别出所述环境音中包含目标警铃声时，对已行驶站数进行加一操作，所述目标警铃声为开门警铃声或关门警铃声；

当所述已行驶站数达到目标站数时，进行到站提醒，所述目标站数为起始站点与目标站点之间的站数，所述目标站点是中转站点或目的地站点。

另一方面，本申请实施例提供了一种到站提醒装置，所述装置包括：

采集模块，用于当处于交通工具时，通过麦克风采集环境音；

识别模块，用于利用声音识别模型对所述环境音进行识别，所述声音识别模型是采用RNN的二分类模型；

计数模块，用于当识别出所述环境音中包含目标警铃声时，对已行驶站数进行加一操作，所述目标警铃声为开门警铃声或关门警铃声；

提醒模块，用于当所述已行驶站数达到目标站数时，进行到站提醒，所述目标站数为起始站点与目标站点之间的站数，所述目标站点是中转站点或目的地站点。

另一方面，本申请实施例提供了一种终端，所述终端包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现上述方面所述的到站提醒方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现上述方面所述的到站提醒方法。

本申请实施例提供的技术方案的有益效果至少包括：

本申请实施例中，通过实时采集环境音，并识别当前环境音中是否包含目标警铃声，从而在识别出包含目标警铃声时，对已行驶站数进行更新，在已行驶站数达到目标站数时，进行到站提醒；由于警铃声用于向乘客发出警示，声音特征较为明显，并且采用RNN模型识别警铃声，能够提高到站提醒的准确率和时效性。

附图说明

图1是根据一示例性实施例示出的到站提醒方法的流程图；

图2是根据另一示例性实施例示出的到站提醒方法的流程图；

图3是根据另一示例性实施例示出的到站提醒方法的流程图；

图4是根据一示例性实施例示出的音频数据预处理的流程图；

图5是根据另一示例性实施例示出的声音识别过程的流程图；

图6是根据另一示例性实施例示出的到站提醒方法的流程图；

图7是根据一示例性实施例示出的计算目标特征向量过程的实施示意图；

图8是根据一示例性实施例示出的一种环境音的频谱图；

图9是根据一示例性实施例示出的声音识别模型的框架图；

图10是根据一示例性实施例示出的到站提醒装置的结构框图；

图11是根据一示例性实施例示出的终端的结构框图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请各个实施例提供的到站提醒方法用于具备音频采集和处理功能的终端，该终端可以是智能手机、平板电脑、电子书阅读器、个人便携式计算机等。在一种可能的实施方式中，本申请实施例提供的到站提醒方法可以实现成为应用程序或者应用程序的一部分，并安装在终端中。当用户乘坐交通工具时，可以手动开启该应用程序(或应用程序自动开启)，从而通过应用程序，对用户进行到站提醒。

相关技术中，通常利用语音识别技术，根据交通工具到站时的报站广播确定当前交通工具所在站点的站名，并在到达目标站点时对用户进行到站提醒。然而交通工具在行驶过程中产生的噪音以及乘客说话声等环境音会对语音识别造成影响，容易导致语音识别结果产生错误，并且语音识别模型很难运行在终端上，通常需要依赖云端运行。

另外相关技术中还有利用加速度计检测交通工具是否处于加速或减速状态，从而判断交通工具是否进站，然而终端内的加速度计传感器记录的加速度方向与用户手持终端的方向有关，用户在交通工具内的走动也会对传感器的记录结果造成影响，并且交通工具有时会在两站之间临时停车，利用加速度计时难以准确判断交通工具所在位置。

为了解决上述问题，本申请实施例提供了一种到站提醒方法，该到站提醒方法的流程如图1所示。终端在第一次使用到站提醒功能前，执行步骤101，存储交通工具线路图；当终端开启到站提醒功能时，首先执行步骤102，确定乘车路线；进入交通工具后，执行步骤103，通过麦克风实时获取环境音；执行步骤104，终端识别环境音中是否含有目标警铃声，当识别到环境音中不含有目标警铃声时，继续对下一段环境音进行识别，当终端识别到环境音中含有目标警铃声时，执行步骤105，对已行驶站数加一；执行步骤106，根据已行驶站数，判断是否为目的地站点，若所在站点为目的地站点，则执行步骤107，发送到站提醒，若所在站点不是目的地站点，执行步骤108，则判断是否为中转站点，确定是中转站点时，再执行步骤107，发送到站提醒，否则继续识别下一段环境音。

相较于相关技术中提供的到站提醒方法，本申请实施例通过识别当前环境音中是否含有目标警铃声来判断交通工具已行驶的站点，由于目标警铃声与其他环境音相比特征明显，受影响的因素较少，因此识别结果准确率高；并且不需要使用复杂的语音识别模型进行语音识别，有助于降低终端的功耗。

请参考图2，其示出了本申请的一个实施例示出的到站提醒方法的流程图。本实施例以到站提醒方法用于具备音频采集和处理功能的终端为例进行说明，该方法包括：

步骤201，当处于交通工具时，通过麦克风采集环境音。

当处于交通工具时，终端开启到站提醒功能，并通过麦克风实时采集环境音。

在一种可能的实施方式中，到站提醒方法应用于地图导航类应用程序时，终端实时获取用户位置信息，当根据用户位置信息确定用户进入交通工具时，终端开启到站提醒功能。

可选的，当用户使用支付类应用程序进行刷卡乘坐交通工具时，终端确认进入交通工具，开启到站提醒功能。

可选的，为了降低终端的功耗，终端可使用低功耗麦克风进行实时采集。

步骤202，利用声音识别模型对环境音进行识别，声音识别模型是采用RNN的二分类模型。

可选的，终端将通过麦克风实时采集到的环境音转换为音频数据，并对音频数据进行数据处理，将经过数据处理后的音频数据输入声音识别模型，识别音频数据中是否含有目标警铃声的音频数据。

在一种可能的实施方式中，终端采用RNN作为声音识别模型。RNN是以序列数据为输入，且所有循环单元按链式连接的神经网络，能够对任何长度的序列数据进行处理。由于声音在时间上具有连续性，采用RNN模型可以更好地提取不同时刻的音频数据之间的相关性，从而提高识别目标警铃声的准确率，最后通过模型的分类结果判断当前环境音中是否含有目标警铃声。

在一种可能的实施方式中，终端在获取城市的交通工具线路图时，获取不同交通工具的警铃声，并将其音频数据保存至本地。当终端无法获取当前所在城市或交通工具的警铃声时，需要用户在第一次乘坐交通工具时开启麦克风采集警铃声并保存，以便终端对该警铃声进行学习。

步骤203，当识别出环境音中包含目标警铃声时，对已行驶站数进行加一操作。

终端识别出当前环境音中包含目标警铃声时，表明当前交通工具到达某一站点，则对已行驶的站数进行加一操作，其中，目标警铃声为开门警铃声或关门警铃声。由于交通工具通常在开门和关门时都会发出警铃声，为了避免计数混乱，终端可提前设置只识别开门警铃声或者只识别关门警铃声。通常开门警铃声与关门警铃声之间的时间间隔较小，因此在开门警铃声与关门警铃声相同的情况下，在固定时间区域内识别出两次警铃声时认为一次开门或一次关门。

步骤204，当已行驶站数达到目标站数时，进行到站提醒，目标站数为起始站点与目标站点之间的站数。

当终端进行一次加一操作后，若当前已行驶站数达到目标站数，则表示当前站点为目标站点，对用户进行到站提醒。目标站数是起始站点与目标站点之间的站数，即交通工具从起始站点到达目标站点需要行驶的站数，目标站点包括中转站点和目的地站点。

可选的，为了防止终端发出到站提醒与交通工具关门驶往下一站之间的时间过短，用户错过下车时间，设置当到达目标站点的前一站时发送即将到站的消息提示，使用户提前做好下车准备。

可选的，到站提醒的方式包括但不限定与：语音提醒、震动提醒、界面提醒。

关于获取目标站数的方式，在一种可能的实施方式中，终端事先加载并存储当前所在城市的交通工具的线路图，线路图中包含每条线路的站点信息、换乘信息、首末班时间及站点附近地图等。终端开启麦克风采集环境音之前，首先获取用户的乘车信息，乘车信息包括起始站点、目标站点、站点附近地图以及首末班时间等，从而根据乘车信息确定出目标站数。

可选的，终端获取乘车信息的方式可以是由用户手动输入，例如起始站点和目标站点的名称，终端根据用户输入的乘车信息和交通工具的线路图选择合适的乘车线路，当到达目标站点时，终端向用户发送到站提醒的消息以及目标站点附近的地图。

可选的，用户手动输入的乘车信息可以仅为起始站点和目标站点之间的站点数。由于本申请实施例的方法是终端根据交通工具开门或关门时的警铃声判断当前所在站点，当识别到目标警铃声时对已行驶站数进行加一操作，直至已行驶站数等于从起始站点到达目标站点所要行驶的站数，因此当用户有确定的乘车线路时，可以只输入该乘车线路的站点数，终端可提示用户当已有确定乘车线路时，输入起始站点与中转站点之间的站点数以及中转站点与目的地站点之间的站点数。

可选的，终端可以根据用户的历史乘车记录，预测用户的乘车线路，将乘车次数达到乘车次数阈值的乘车线路作为优先选择线路，并提示用户进行选择。

综上所述，本申请实施例中，通过实时采集环境音，并识别当前环境音中是否包含目标警铃声，从而在识别出包含目标警铃声时，对已行驶站数进行更新，在已行驶站数达到目标站数时，进行到站提醒；由于警铃声用于向乘客发出警示，声音特征较为明显，并且采用RNN模型识别警铃声，能够提高到站提醒的准确率和时效性。

在一种可能的实施方式中，识别环境音中是否包含目标警铃声时，为了提高识别准确率，需要先将环境音对应的音频数据进行预处理，再将处理后的音频数据输入声音识别模型，从而根据声音识别模型输出的目标警铃声识别结果判断当前环境音中是否包含目标警铃声。下面采用示意性的实施例进行说明。

请参考图3，其示出了本申请的另一个实施例示出的到站提醒方法的流程图。本实施例以到站提醒方法用于具备音频采集和处理功能的终端为例进行说明，该方法包括：

步骤301，当处于交通工具时，通过麦克风采集环境音。

步骤301的实施方式可以参考上述步骤201，本实施例在此不再赘述。

步骤302，对环境音对应的音频数据进行分帧处理，得到音频帧。

由于声音识别模型无法直接对音频数据进行识别，因此需要预先处理音频数据，得到能够被声音识别模型识别的数字特征。由于终端麦克风实时采集环境音，其音频数据整体上并不是平稳的，但其局部可以看作平稳数据，而声音识别模型只能对平稳数据进行识别，因此终端先将对应的音频数据进行分帧处理，得到不同音频帧对应的音频数据。

在一种可能的实施方式中，音频数据预处理过程如图4所示，在终端对音频数据进行分帧处理之前，音频数据首先经过预加重模块401进行预加重处理，预加重过程采用高通滤波器，其只允许高于某一频率的信号分量通过，而抑制低于该频率的信号分量，从而去除音频数据中人的交谈声、脚步声和机械噪音等不必要的低频干扰，使音频信号的频谱变得平坦。高通滤波器的数学表达式为：

H(z)＝1-az^-1

其中，a是修正系数，一般取值范围为0.95至0.97，z是音频信号。

将去除噪音后的音频数据通过分帧加窗模块402进行分帧处理，得到不同音频帧对应的音频数据。

示意性的，本实施例中将包含1024个数据点的音频数据划分为一帧，当音频数据的采样频率选取为16000Hz时，一帧音频数据的时长为64ms。为了避免两帧数据之间的变化过大，同时也为了避免加窗处理后音频帧两端的数据丢失，并不采用背靠背的方式直接将音频数据划分为帧，而是每取完一帧数据后，后滑动32ms再取下一帧数据，即相邻两帧数据重叠32ms。

步骤303，对音频帧进行加窗处理，得到音频窗口，音频窗口中包含n个连续的音频帧，n为大于等于2的整数。

由于分帧处理后的音频数据在后续特征提取时需要进行离散傅里叶变换，而一帧音频数据没有明显的周期性，即帧左端和帧右端不连续，经过傅里叶变换后与原始数据会产生误差，分帧越多误差越大，因此为了使分帧后的音频数据连续，且每一帧音频数据表现出周期函数的特征，需要通过分帧加窗模块402进行加窗处理。为窗口设置合理的时长，使得每n个连续的音频帧为一个音频窗口，n为大于等于2的整数。

在一种可能的实施方式中，采用汉明窗对音频帧进行加窗处理。将每一帧数据乘以汉明窗函数，得到的音频数据就有了明显的周期性。汉明窗的函数形式为：

其中n为整数，n的取值范围为0至M，M是傅里叶变换的点数，示意性的，本实施例取1024个数据点作为傅里叶变换点。

步骤304，对音频窗口内的音频帧进行特征提取，得到音频窗口对应的音频特征矩阵。

音频数据在分帧加窗处理后，需要进行特征提取，得到声音识别模型能够识别的特征矩阵。

在一种可能的实施方式中，提取音频帧的梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients，MFCC)，其过程如图4所示，由于从音频信号在时域上的变换中很难得到其信号特性，通常需要把时域信号转换为频域上的能量分布来处理，因此终端先将音频帧数据输入傅里叶变换模块403进行傅里叶变换，然后将傅里叶变换后的音频帧数据输入能量谱计算模块404，计算音频帧数据的能量谱。为了将其能量谱转化为符合人耳听觉的梅尔谱，需要将能量谱输入梅尔滤波处理模块405进行滤波处理，滤波处理的数学表达式为：

其中，f为傅里叶变换后的频点。

得到音频帧的梅尔谱之后，终端通过离散余弦变换(Discrete CosineTransform，DCT)模块406对其取对数，得到的DCT系数即为MFCC特征。

示意性的，本申请实施例选取128维的MFCC特征，终端在实际提取特征时，音频数据的输入窗口长度选为1056ms，而一帧信号的时间长度为64ms，相邻两帧数据之间有32ms的重叠部分，因此每一个1056ms的输入窗口数据对应生成的特征为32*128的矩阵。

步骤305，将音频特征矩阵输入声音识别模型，得到声音识别模型输出的目标警铃声识别结果。

可选的，终端将特征提取后得到的音频特征矩阵输入声音识别模型中，模型识别当前音频帧中是否包含目标警铃声，并输出识别结果，目标警铃声识别结果用于指示音频帧中是否包含目标警铃声。

在一种可能的实施方式中，若终端无法自主获取当前所在城市的交通工具的警铃声时，需要用户事先采集目标警铃声，当采集到目标警铃声后，将包含目标警铃声的音频数据也进行上述步骤302至304的分帧处理和特征提取过程，并将不同目标警铃声的音频特征矩阵保存至本地。

步骤306，当预定时长内包含目标警铃声的音频帧的个数达到个数阈值时，确定环境音中包含目标警铃声。

由于终端在进行识别目标警铃声之前，将音频数据进行了分帧处理，而一帧音频的时间很短，因此当某一音频帧中包含目标警铃声时，无法排除存在其他相似声音或特征提取时的数据处理过程产生错误的情况，不能立即确定环境音中包含目标警铃声。所以，终端设置预定时长，当声音识别模型的输出结果指示预定时长内包含目标警铃声的音频帧的个数达到个数阈值时，确定环境音中包含目标警铃声。

示意性的，终端设置预定时长为5秒，个数阈值为2，当5秒钟的时间内终端识别到2个或多于2个音频帧中包含目标警铃声时，确定当前环境音中包含目标警铃声。

步骤307，获取上一警铃识别时刻，上一警铃识别时刻为上一次识别出环境音中包含目标警铃声的时刻。

当声音识别模型的输出结果中，指示预定时长内包含目标警铃声的音频帧个数达到个数阈值时，终端记录当前时刻，并获取上一次识别出环境音中包含目标警铃声的时刻，即获取上一警铃识别时刻。

步骤308，若上一警铃识别时刻与当前警铃识别时刻之间的时间间隔大于时间间隔阈值，则对已行驶站数进行加一操作。

实际乘车过程中，交通工具的关门警铃声和开门警铃声可能相同，会导致终端在同一站点识别到两次警铃声，或者，同一种交通工具的其他车辆与终端所在车辆的警铃声相同，当终端所在车辆停靠在某一站点时附近车辆发出相同的警铃声，都会导致终端计数产生错误，因此，终端预先设置时间间隔阈值，若上一警铃识别时刻与当前警铃识别时刻之间的时间间隔大于时间间隔阈值，则对已行驶站数进行加一操作。

示意性的，预先设置时间间隔阈值为3分钟，终端每一次终端识别出环境音中包含目标警铃声时，记录当前时刻并获取上一警铃识别时刻，若二者之间的时间间隔大于3分钟，则确定交通工具行驶了一站，并对已行驶站数进行加一操作。例如，10:00:00时终端识别出当前环境音中含有目标警铃声，获取到上一次识别出目标警铃声的时间为09:55:00，时间间隔大于3分钟，则确定交通工具行驶了一站。

步骤309，当已行驶站数达到目标站数时，进行到站提醒，目标站数为起始站点与目标站点之间的站数。

步骤309的实施方式可以参考上述步骤204，本实施例在此不再赘述。

本申请实施例中，通过对环境音的音频数据进行分帧和加窗处理，并对音频帧进行特征提取，得到声音识别模型能够识别的数据；通过对声音识别模型的输出结果进行后处理，确认识别出的警铃声是否为目标警铃声，避免将其他交通工具的警铃声或类似声音误识别为目标警铃声，提高了到站提醒的准确率。

终端在交通工具行驶过程中实时开启麦克风获取环境音，并将环境音的音频数据输入声音识别模型进行识别，在一种可能的实施方式中，终端采用RNN模型作为声音识别模型。声音识别过程如图5所示，终端获取环境音(步骤501)，在对环境音进行识别之前，首先提取音频数据特征(步骤502)，然后将提取出的音频特征矩阵输入RNN模型，通过RNN模型判断是否包含目标警铃声(步骤503)；若RNN模型的识别结果为环境音中包含目标警铃声，则在后处理(步骤504)后判断是否进行加一操作(步骤505)，若识别结果为环境音中不包含目标警铃声，则终端继续对环境音进行识别。

在一种可能的实施方式中，在图3的基础上，如图6所示，上述步骤305包括步骤305a至305c。

步骤305a，对音频特征矩阵进行列分解，得到n个音频特征向量，各个音频特征向量的维度相同。

由于RNN是针对序列数据进行处理的神经网络，因此，在音频特征矩阵输入声音识别模型前，终端首先对音频特征矩阵进行列分解，得到音频特征向量，音频特征向量的维度都与音频特征矩阵的行数相同，音频特征向量的数量与音频特征矩阵的列数相同，即与一个窗口中音频帧的数量相同。

示意性的，对于一个32*128的音频特征矩阵，终端将其进行列分解，得到32个的音频特征向量，音频特征向量的向量元素个数是128。

步骤305b，通过门控循环单元(Gated Recurrent Unit，GRU)层和注意力机制层，对n个音频特征向量进行特征提取，得到目标特征向量。

由于声音是一个时序特征，因此终端将分解得到的音频特征向量输入RNN模型，经过模型中的GRU层和注意力机制层，提取不同音频特征向量之间的相关性和有效信息，从而得到一个目标特征向量。

在一种可能的实施方式中，步骤305b包括下述步骤一至三：

一、将n个音频特征向量输入GRU层，得到各个音频特征向量对应的候选特征向量。

在一种可能的实施方式中，如图7所示，声音识别模型的第一层和第二层为GRU层，GRU是一种常用的门控循环神经网络，其输入为当前时刻的输入与上一时刻的隐藏状态，即输出yt会受到当前时刻t和前t-1个时刻的信息的影响。终端将分解得到的音频特征向量x1至xt输入GRU，得到对应的候选特征向量y1至yt，其中，t为音频特征矩阵的列数。

二、将n个候选特征向量输入注意力机制层，得到各个候选特征向量对应的向量权重，向量权重经过归一化处理。

在一种可能的实施方式中，如图7所示，声音识别模型的第三层为注意力机制层，注意力机制可以决定输入中需要关注的部分，并将有限的信息处理资源分配给重要的部分，在数学上体现为计算权重α_t。终端通过GRU层得到候选特征向量后，利用注意力机制层计算各个候选特征向量的向量权重，向量权重的计算公式为：

e_t＝tanh(w_ty_t+b)，

其中，y_t为GRU输出的候选特征向量，e_t为各个候选特征向量y_t对应的权重，α_t为e_t经过归一化处理后得到的向量权重，w_t和b是权重计算过程中的参数，经过模型训练得到。

三、根据候选特征向量和向量权重，确定目标特征向量。

终端通过注意力机制层计算出候选特征向量的向量权重后，对候选特征向量进行加权计算，得到目标特征向量，其计算公式为：

其中，y是目标特征向量，α_t是向量权重，y_t是候选特征向量，T是候选特征向量的总数。

目标特征向量综合了当前窗口中每帧音频数据的特征，声音识别模型利用目标特征向量进行识别，能够准确地识别出环境音中是否含有目标警铃声。

步骤305c，通过全连接层和分类层，对目标特征向量进行分类，得到目标警铃声识别结果。

在一种可能的实施方式中，在注意力机制层之后，声音识别模型还包括两层全连接(Fully Connected，FC)层和一层分类层。终端根据加权计算得到目标特征向量后，利用FC接层和分类层对目标特征向量的信息进行整合并分类，输出最终的声音识别结果。

可选的，分类层采用归一化指数函数(Softmax)对目标特征向量进行分类，其输出的结果指示是否存在目标警铃声。

在一种可能的实施方式中，声音识别模型根据正负样本训练，并且以焦点损失focalloss为损失函数，通过梯度下降算法训练得到，模型训练过程如下：

一、将采集到的包含目标警铃声的环境音转换为频谱图。

如图8所示，可以明显看出目标警铃声与其他环境音的区别，图中黑色方框内的短线为目标警铃声的频谱，标记出目标警铃声作为正样本，其余环境音作为负样本。

二、对采集到的环境音进行特征提取。

事先采集的环境音的特征提取方式与上述实施例中的特征提取方式相同，每个音频帧对应的音频特征矩阵作为一条训练样本，目标警铃声的音频特征矩阵对应的标签为0，其余环境音的音频特征矩阵对应的标签为1。

三、构建RNN模型。

在一种可能的实施方式中，RNN模型结构如图9所示，第一GUR层901和第二GRU层902用于提取输入的音频特征向量的特征，并转换为候选特征向量，注意力机制层903计算各个候选特征向量的向量权重，并对候选特征向量进行加权计算，得到目标特征向量，第一全连接层904和第二全连接层905整合目标特征向量中具有类别区分性的信息，最后接Softmax905，将全连接层整合的信息进行分类，得到声音识别结果。

四、构建模型的损失函数。

由于交通工具行驶时，目标警铃声通常只有5秒左右，而其余环境音长达几分钟，正负样本数据非常不平衡，因此选取焦点损失函数(Focalloss)解决样本不均衡的问题，Focalloss公式如下：

其中，y′为RNN分类模型输出的概率，y为训练样本对应的标签，α和γ为手动调节参数，用于调整正负样本的比例。

五、导入训练样本进行模型训练。

在一种可能的实施方式中，可以利用开源软件库Tensorflow训练RNN分类模型，并采用Focalloss和梯度下降算法，直至模型收敛，此时模型获得最终的网络参数。

在一种可能的实施方式中，声音识别模型也可以采用其他的传统机器学习分类器或深度学习分类模型，本实施例对此不做限定。

本申请实施例中，利用RNN模型中的GRU对音频特征向量进行特征提取，并添加了注意力机制，根据音频特征向量之间的相关性和时序特征计算权重，再进行加权计算得到目标特征向量，提高了声音识别模型的准确性，进而提高了终端到站提醒的准确率和时效性。

请参考图10，其示出了本申请一个示例性实施例提供的到站提醒装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置包括：

采集模块1001，用于当处于交通工具时，通过麦克风采集环境音；

识别模块1002，用于利用声音识别模型对所述环境音进行识别，所述声音识别模型是采用RNN的二分类模型；

计数模块1003，用于当识别出所述环境音中包含目标警铃声时，对已行驶站数进行加一操作，所述目标警铃声为开门警铃声或关门警铃声；

提醒模块1004，用于当所述已行驶站数达到目标站数时，进行到站提醒，所述目标站数为起始站点与目标站点之间的站数，所述目标站点是中转站点或目的地站点。

可选的，所述识别模块1002，包括：

分帧单元，用于对所述环境音对应的音频数据进行分帧处理，得到音频帧；

加窗单元，用于对所述音频帧进行加窗处理，得到音频窗口，所述音频窗口中包含n个连续的所述音频帧，n为大于等于2的整数；

提取单元，用于对所述音频窗口内的所述音频帧进行特征提取，得到所述音频窗口对应的音频特征矩阵；

识别单元，用于将所述音频特征矩阵输入声音识别模型，得到所述声音识别模型输出的目标警铃声识别结果，所述目标警铃声识别结果用于指示所述音频帧中是否包含所述目标警铃声。

可选的，所述声音识别模型包括GRU层、注意力机制层、全连接层和分类层；

所述识别单元，还用于：

对所述音频特征矩阵进行列分解，得到n个音频特征向量，各个所述音频特征向量的维度相同；

通过所述GRU层和所述注意力机制层，对n个所述音频特征向量进行特征提取，得到目标特征向量；

通过所述全连接层和所述分类层，对所述目标特征向量进行分类，得到所述目标警铃声识别结果。

可选的，所述识别单元，还用于：

将n个所述音频特征向量输入所述GRU层，得到各个所述音频特征向量对应的候选特征向量；

将n个所述候选特征向量输入所述注意力机制层，得到各个所述候选特征向量对应的向量权重，所述向量权重经过归一化处理；

根据所述候选特征向量和所述向量权重，确定所述目标特征向量。

可选的，所述识别模块1002，还包括：

确定单元，用于当预定时长内包含所述目标警铃声的音频帧的个数达到个数阈值时，确定所述环境音中包含所述目标警铃声。

可选的，所述计数模块1003，包括：

获取单元，用于获取上一警铃识别时刻，所述上一警铃识别时刻为上一次识别出所述环境音中包含所述目标警铃声的时刻；

计数单元，用于若所述上一警铃识别时刻与当前警铃识别时刻之间的时间间隔大于时间间隔阈值，则对所述已行驶站数进行加一操作。

请参考图11，其示出了本申请一个示例性实施例提供的终端1100的结构方框图。该终端1100可以是智能手机、平板电脑、电子书、便携式个人计算机等安装并运行有应用程序的电子设备。本申请中的终端1100可以包括一个或多个如下部件：处理器1110、存储器1120和屏幕1130。

处理器1110可以包括一个或者多个处理核心。处理器1110利用各种接口和线路连接整个终端1100内的各个部分，通过运行或执行存储在存储器1120内的指令、程序、代码集或指令集，以及调用存储在存储器1120内的数据，执行终端1100的各种功能和处理数据。可选地，处理器1110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器1110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责屏幕1130所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1110中，单独通过一块通信芯片进行实现。

存储器1120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器1120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1120可用于存储指令、程序、代码、代码集或指令集。存储器1120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等，该操作系统可以是安卓(Android)系统(包括基于Android系统深度开发的系统)、苹果公司开发的IOS系统(包括基于IOS系统深度开发的系统)或其它系统。存储数据区还可以存储终端1100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

屏幕1130可以为电容式触摸显示屏，该电容式触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作，以及显示各个应用程序的用户界面。触摸显示屏通常设置在终端1100的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本申请实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的终端1100的结构并不构成对终端1100的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端1100中还包括射频电路、拍摄组件、传感器、音频电路、无线保真(Wireless Fidelity，Wi-Fi)组件、电源、蓝牙组件等部件，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的到站提醒方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的到站提醒方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读存储介质中或者作为计算机可读存储介质上的一个或多个指令或代码进行传输。计算机可读存储介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种到站提醒方法，其特征在于，所述方法包括：

当处于交通工具时，通过麦克风采集环境音；

对所述环境音对应的音频数据进行分帧处理，得到音频帧；

对所述音频帧进行加窗处理，得到音频窗口，所述音频窗口中包含n个连续的所述音频帧，n为大于等于2的整数；

对所述音频窗口内的所述音频帧进行特征提取，得到所述音频窗口对应的音频特征矩阵；

将所述音频特征矩阵输入声音识别模型，得到所述声音识别模型输出的目标警铃声识别结果，所述目标警铃声识别结果用于指示所述音频帧中是否包含目标警铃声，所述声音识别模型是采用循环神经网络RNN的二分类模型，所述目标警铃声为开门警铃声或关门警铃声，所述目标警铃声在获取交通工具线路图时获取得到，或，预先通过终端采集得到，且所述终端存储有所述目标警铃声的音频特征矩阵，所述目标警铃声的音频特征矩阵通过分帧处理和特征提取得到；

当预定时长内包含所述目标警铃声的音频帧的个数达到个数阈值时，确定所述环境音中包含所述目标警铃声；

当识别出所述环境音中包含目标警铃声时，对已行驶站数进行加一操作；

2.根据权利要求1所述的方法，其特征在于，所述声音识别模型包括门控循环单元GRU层、注意力机制层、全连接层和分类层；

所述将所述音频特征矩阵输入声音识别模型，得到所述声音识别模型输出的目标警铃声识别结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述通过所述GRU层和所述注意力机制层，对n个所述音频特征向量进行特征提取，得到目标特征向量，包括：

4.根据权利要求1所述的方法，其特征在于，所述声音识别模型根据正负样本训练，并且以焦点损失focalloss为损失函数，通过梯度下降算法训练得到。

5.根据权利要求1至4任一所述的方法，其特征在于，所述对已行驶站数进行加一操作，包括：

获取上一警铃识别时刻，所述上一警铃识别时刻为上一次识别出所述环境音中包含所述目标警铃声的时刻；

若所述上一警铃识别时刻与当前警铃识别时刻之间的时间间隔大于时间间隔阈值，则对所述已行驶站数进行加一操作。

6.一种到站提醒装置，其特征在于，所述装置包括：

识别模块，用于对所述环境音对应的音频数据进行分帧处理，得到音频帧；对所述音频帧进行加窗处理，得到音频窗口，所述音频窗口中包含n个连续的所述音频帧，n为大于等于2的整数；对所述音频窗口内的所述音频帧进行特征提取，得到所述音频窗口对应的音频特征矩阵；将所述音频特征矩阵输入声音识别模型，得到所述声音识别模型输出的目标警铃声识别结果，所述目标警铃声识别结果用于指示所述音频帧中是否包含目标警铃声，所述声音识别模型是采用RNN的二分类模型，所述目标警铃声为开门警铃声或关门警铃声，所述目标警铃声在获取交通工具线路图时获取得到，或，预先通过终端采集得到，且所述终端存储有所述目标警铃声的音频特征矩阵，所述目标警铃声的音频特征矩阵通过分帧处理和特征提取得到；当预定时长内包含所述目标警铃声的音频帧的个数达到个数阈值时，确定所述环境音中包含所述目标警铃声；

计数模块，用于当识别出所述环境音中包含目标警铃声时，对已行驶站数进行加一操作；

7.一种终端，其特征在于，所述终端包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至5任一所述的到站提醒方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如权利要求1至5任一所述的到站提醒方法。