CN111009261A

CN111009261A - 到站提醒方法、装置、终端及存储介质

Info

Publication number: CN111009261A
Application number: CN201911257235.8A
Authority: CN
Inventors: 刘文龙
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-04-14
Anticipated expiration: 2039-12-10
Also published as: CN111009261B; WO2021115232A1

Abstract

本申请实施例公开了一种到站提醒方法、装置、终端及存储介质，属于人工智能领域。该方法包括：当处于交通工具时，通过麦克风采集环境音；对环境音对应的音频数据进行时频域特征提取，得到时频域特征矩阵；将时频域特征矩阵输入声音识别模型，得到声音识别模型输出的目标警铃声识别结果；当识别出环境音中包含目标警铃声时，更新已行驶站数；当已行驶站数达到目标站数时，进行到站提醒。本申请实施例中，通过实时采集环境音，并在识别出目标警铃声时，更新已行驶站数，在已行驶站数达到目标站数时，进行到站提醒；终端对环境音进行时频域特征提取，并将得到的时频域特征矩阵输入声音识别模型，提高了到站提醒的准确率和有效性。

Description

到站提醒方法、装置、终端及存储介质

技术领域

本申请实施例涉及人工智能领域，特别涉及一种到站提醒方法、装置、终端及存储介质。

背景技术

人们在乘坐地铁等公共交通工具出行时，需要时刻注意当前停靠站点是否为自己的目标站点，而到站提醒功能则是一种提醒乘客在到达目标站时及时下车的功能。

相关技术中，终端通常利用语音识别技术，根据地铁播报的到站信息来获取当前站点信息，并判断当前站点是否为乘客的目标站，若当前站点为目标站，则对乘客进行到站提醒。

然而，采用上述方法获取站点信息时，乘客的说话声和地铁运行的噪音会对语音识别的结果产生较大影响，容易导致提醒延误或不准确。

发明内容

本申请实施例提供了一种到站提醒方法、装置、终端及存储介质。所述技术方案如下：

一方面，本申请实施例提供了一种到站提醒方法，所述方法包括：

当处于交通工具时，通过麦克风采集环境音；

对所述环境音对应的音频数据进行时频域特征提取，得到时频域特征矩阵，所述时频域特征矩阵用于表示所述环境音对应的音频数据的时域特征和频域特征；

将所述时频域特征矩阵输入声音识别模型，得到所述声音识别模型输出的目标警铃声识别结果，所述目标警铃声识别结果用于指示所述环境音中是否包含目标警铃声；

当识别出所述环境音中包含所述目标警铃声时，更新已行驶站数；

当所述已行驶站数达到目标站数时，进行到站提醒，所述目标站数为起始站点与目标站点之间的站数，所述目标站点是中转站点或目的地站点。

另一方面，本申请实施例提供了一种到站提醒装置，所述装置包括：

采集模块，用于当处于交通工具时，通过麦克风采集环境音；

提取模块，用于对所述环境音对应的音频数据进行时频域特征提取，得到时频域特征矩阵，所述时频域特征矩阵用于表示所述环境音对应的音频数据的时域特征和频域特征；

识别模块，用于将所述时频域特征矩阵输入声音识别模型，得到所述声音识别模型输出的目标警铃声识别结果，所述目标警铃声识别结果用于指示所述环境音中是否包含目标警铃声；

计数模块，用于当识别出所述环境音中包含所述目标警铃声时，更新已行驶站数；

提醒模块，用于当所述已行驶站数达到目标站数时，进行到站提醒，所述目标站数为起始站点与目标站点之间的站数，所述目标站点是中转站点或目的地站点。

另一方面，本申请实施例提供了一种终端，所述终端包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现上述方面所述的到站提醒方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现上述方面所述的到站提醒方法。

本申请实施例提供的技术方案的有益效果至少包括：

本申请实施例中，通过实时采集环境音，并识别当前环境音中是否包含目标警铃声，从而在识别出目标警铃声时，对已行驶站数进行更新，在已行驶站数达到目标站数时，进行到站提醒；终端对采集到的环境音进行时频域特征提取，并将得到的时频域特征矩阵输入声音识别模型，使得声音识别模型对环境音的时域特征和频域特征进行识别，提高了识别结果的准确性；由于警铃声用于向乘客发出警示，声音特征较为明显，且容易被识别，因此基于环境音中的警铃声进行到站提示能够提高到站提醒的准确率和有效性。

附图说明

图1是根据一示例性实施例示出的到站提醒方法的流程图；

图2是根据另一示例性实施例示出的到站提醒方法的流程图；

图3是根据另一示例性实施例示出的到站提醒方法的流程图；

图4是根据一示例性实施例示出的音频数据预处理的流程图；

图5是根据一示例性实施例示出的声音识别过程的流程图；

图6是根据另一示例性实施例示出的到站提醒方法的流程图；

图7是根据一示例性实施例示出的音频数据频域特征提取的流程图；

图8是根据一示例性实施例示出的声音识别模型训练过程的流程图；

图9是根据一示例性实施例示出的一种环境音的频谱图；

图10是根据一示例性实施例示出的声音识别模型结构的框架图；

图11是根据一示例性实施例示出的到站提醒装置的结构框图；

图12是根据一示例性实施例示出的终端的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请各个实施例提供的到站提醒方法用于具备音频采集和处理功能的终端，该终端可以是智能手机、平板电脑、电子书阅读器、个人便携式计算机等。在一种可能的实施方式中，本申请实施例提供的到站提醒方法可以实现成为应用程序或者应用程序的一部分，并安装在终端中。当用户乘坐交通工具时，可以手动开启该应用程序(或应用程序自动开启)，从而通过应用程序，对用户进行到站提醒。

相关技术中，通常利用语音识别技术，根据交通工具到站时的报站广播确定当前交通工具所在站点的站名，并在到达目标站点时对用户进行到站提醒。然而交通工具在行驶过程中产生的噪音以及乘客说话声等环境音会对语音识别造成影响，容易导致语音识别结果产生错误，并且语音识别模型很难运行在终端上，通常需要依赖云端运行。

另外相关技术中还有利用加速度计检测交通工具是否处于加速或减速状态，从而判断交通工具是否进站，然而终端内的加速度计传感器记录的加速度方向与用户手持终端的方向有关，用户在交通工具内的走动也会对传感器的记录结果造成影响，并且交通工具有时会在两站之间临时停车，利用加速度计时难以准确判断交通工具所在位置。

为了解决上述问题，本申请实施例提供了一种到站提醒方法，该到站提醒方法的流程如图1所示。终端在第一次使用到站提醒功能前，执行步骤101，存储交通工具线路图；当终端开启到站提醒功能时，首先执行步骤102，确定乘车路线；进入交通工具后，执行步骤103，通过麦克风实时获取环境音；执行步骤104，终端识别环境音中是否含有目标警铃声，当识别到环境音中不含有目标警铃声时，继续对下一段环境音进行识别，当终端识别到环境音中含有目标警铃声时，执行步骤105，更新已行驶站数；执行步骤106，根据已行驶站数，判断是否为目的地站点，若所在站点为目的地站点，则执行步骤107，发送到站提醒，若所在站点不是目的地站点，执行步骤108，则判断是否为中转站点，确定是中转站点时，再执行步骤107，发送到站提醒，否则继续识别下一段环境音。

相较于相关技术中提供的到站提醒方法，本申请实施例通过识别当前环境音中是否含有目标警铃声来判断交通工具已行驶的站点，由于目标警铃声与其他环境音相比特征明显，受影响的因素较少，因此识别结果准确率高；并且不需要使用复杂的语音识别模型进行语音识别，有助于降低终端的功耗。

请参考图2，其示出了本申请的一个实施例示出的到站提醒方法的流程图。本实施例以到站提醒方法用于具备音频采集和处理功能的终端为例进行说明，该方法包括：

步骤201，当处于交通工具时，通过麦克风采集环境音。

当处于交通工具时，终端开启到站提醒功能，并通过麦克风实时采集环境音。

在一种可能的实施方式中，到站提醒方法应用于地图导航类应用程序时，终端实时获取用户位置信息，当根据用户位置信息确定用户进入交通工具时，终端开启到站提醒功能。

可选的，当用户使用支付类应用程序进行刷卡乘坐交通工具时，终端确认进入交通工具，开启到站提醒功能。

可选的，为了降低终端的功耗，终端可使用低功耗麦克风进行实时采集。

步骤202，对环境音对应的音频数据进行时频域特征提取，得到时频域特征矩阵，时频域特征矩阵用于表示环境音对应的音频数据的时域特征和频域特征。

由于终端无法直接从环境音的音频信号中识别出目标警铃声，因此，需要对采集到的环境音进行预处理。在一种可能的实施方式中，终端将通过麦克风实时采集的环境音转换为音频数据，并对音频数据进行特征提取，得到终端能够识别的数字特征。

音频信号是一种随时间连续变化的模拟信号，这种变化表现在时域和频域两方面，不同的音频信号在时域和频域上的特征不同。可选的，为了更好地区别目标警铃声和其余环境音，提高识别目标警铃声的准确性，终端对环境音的音频数据进行时频域特征提取，得到时频域特征矩阵。

步骤203，将时频域特征矩阵输入声音识别模型，得到声音识别模型输出的目标警铃声识别结果，目标警铃声识别结果用于指示环境音中是否包含目标警铃声。

在一种可能的实施方式中，终端内设置有声音识别模型，用于对环境音中的目标警铃声进行识别。终端将特征提取后得到的时频域特征矩阵输入声音识别模型，模型识别当前环境音中是否包含目标警铃声，并输出目标警铃声识别结果。

步骤204，当识别出环境音中包含目标警铃声时，更新已行驶站数。

终端识别出当前环境音中包含目标警铃声时，表明当前交通工具到达某一站点，则更新已行驶站数(例如，对已行驶站数进行加一操作)。由于交通工具通常在开门和关门时都会发出警铃声，为了避免计数混乱，终端可提前设置只识别开门警铃声或者只识别关门警铃声。通常开门警铃声与关门警铃声之间的时间间隔较小，因此在开门警铃声与关门警铃声相同的情况下，在固定时间区域内识别出两次警铃声时认为一次开门或一次关门。

步骤205，当已行驶站数达到目标站数时，进行到站提醒，目标站数为起始站点与目标站点之间的站数，目标站点是中转站点或目的地站点。

当终端进行一次对已行驶站数的更新操作后，若当前已行驶站数达到目标站数，则表示当前站点为目标站点，对用户进行到站提醒。目标站数是起始站点与目标站点之间的站数，即交通工具从起始站点到达目标站点需要行驶的站数，目标站点包括中转站点和目的地站点。

可选的，为了防止终端发出到站提醒与交通工具关门驶往下一站之间的时间过短，用户错过下车时间，可以设置当到达目标站点的前一站时发送即将到站的消息提示，使用户提前做好下车准备。

可选的，到站提醒的方式包括但不限定与：语音提醒、震动提醒、界面提醒。

关于获取目标站数的方式，在一种可能的实施方式中，终端事先加载并存储当前所在城市的交通工具的线路图，线路图中包含每条线路的站点信息、换乘信息、首末班时间及站点附近地图等。终端开启麦克风采集环境音之前，首先获取用户的乘车信息，乘车信息包括起始站点、目标站点、站点附近地图以及首末班时间等，从而根据乘车信息确定出目标站数。

可选的，终端获取乘车信息的方式可以是由用户手动输入，例如起始站点和目标站点的名称，终端根据用户输入的乘车信息和交通工具的线路图选择合适的乘车线路，当到达目标站点时，终端向用户发送到站提醒的消息以及目标站点附近的地图。

可选的，用户手动输入的乘车信息可以仅为起始站点和目标站点之间的站点数。由于本申请实施例的方法是终端根据交通工具开门或关门时的警铃声判断当前所在站点，当识别到目标警铃声时更新已行驶站数，直至已行驶站数等于从起始站点到达目标站点所要行驶的站数，因此当用户有确定的乘车线路时，可以只输入该乘车线路的站点数，终端可提示用户当已有确定乘车线路时，输入起始站点与中转站点之间的站点数以及中转站点与目的地站点之间的站点数。

可选的，终端可以根据用户的历史乘车记录，预测用户的乘车线路，将乘车次数达到乘车次数阈值的乘车线路作为优先选择线路，并提示用户进行选择。

综上所述，本申请实施例中，通过实时采集环境音，并识别当前环境音中是否包含目标警铃声，从而在识别出目标警铃声时，对已行驶站数进行更新，在已行驶站数达到目标站数时，进行到站提醒；终端对采集到的环境音进行时频域特征提取，并将得到的时频域特征矩阵输入声音识别模型，使得声音识别模型对环境音的时域特征和频域特征进行识别，提高了识别结果的准确性；由于警铃声用于向乘客发出警示，声音特征较为明显，且容易被识别，因此基于环境音中的警铃声进行到站提示能够提高到站提醒的准确率和有效性。

在一种可能的实施方式中，识别环境音中是否包含目标警铃声时，为了提高识别准确率，需要先将环境音对应的音频数据进行预处理，再将处理后的音频数据输入声音识别模型，从而根据声音识别模型输出的目标警铃声识别结果判断当前环境音中是否包含目标警铃声。下面采用示意性的实施例进行说明。

请参考图3，其示出了本申请的另一个实施例示出的到站提醒方法的流程图。本实施例以到站提醒方法用于具备音频采集和处理功能的终端为例进行说明，该方法包括：

步骤301，当处于交通工具时，通过麦克风采集环境音。

步骤301的实施方式可以参考上述步骤201，本实施例在此不再赘述。

步骤302，对环境音对应的音频数据进行分帧加窗处理，得到至少一个音频帧，音频帧中包含n个连续的音频窗口，n为大于等于2的整数。

由于声音识别模型无法直接对音频数据进行识别，因此需要预先处理音频数据，得到能够被声音识别模型识别的数字特征。由于声音识别模型只能对平稳数据进行识别，而终端麦克风实时采集环境音，其音频数据整体上并不是平稳的，但其局部可以看作平稳数据，因此终端先将对应的音频数据进行分帧和加窗处理，得到不同的音频帧和音频窗口，其中，一帧音频数据包含n个连续的音频窗口。

在一种可能的实施方式中，音频数据预处理过程如图4所示，在终端对音频数据进行分帧处理之前，音频数据首先经过预加重模块401进行预加重处理，预加重过程采用高通滤波器，其只允许高于某一频率的信号分量通过，而抑制低于该频率的信号分量，从而去除音频数据中人的交谈声、脚步声和机械噪音等不必要的低频干扰，使音频信号的频谱变得平坦。高通滤波器的数学表达式为：

H(z)＝1-az^-1

其中，a是修正系数，一般取值范围为0.95至0.97，z是音频信号。

将去除噪音后的音频数据通过分帧加窗模块402进行分帧处理，得到不同音频帧对应的音频数据。

示意性的，本实施例中将包含16384个数据点的音频数据划分为一帧，当音频数据的采样频率选取为16000Hz时，一帧音频数据的时长为1024ms。为了避免两帧数据之间的变化过大，同时也为了避免加窗处理后音频帧两端的数据丢失，终端并不采用背靠背的方式直接将音频数据划分为帧，而是每取完一帧数据后，后滑动512ms再取下一帧数据，即相邻两帧数据重叠512ms。

由于分帧处理后的音频数据在后续特征提取时需要进行离散傅里叶变换，而一帧音频数据没有明显的周期性，经过傅里叶变换后与原始数据会产生误差，分帧越多误差越大，因此为了使分帧后的音频数据连续，且表现出周期函数的特征，需要通过分帧加窗模块402进行加窗处理。通过为窗口设置合理的时长，使得一帧音频帧中包含n个连续的音频窗口，n为大于等于2的整数。

在一种可能的实施方式中，采用汉明窗对音频帧进行加窗处理。将每一帧数据乘以汉明窗函数，得到的音频数据就有了明显的周期性。汉明窗的函数形式为：

其中n为整数，n的取值范围是0至M，M是每个音频窗口包含的数据量。示意性的，本实施例中M取值为128，即每个音频窗口包含8ms的音频数据，一帧音频数据为1024ms，因此每个音频帧包含128个音频窗口。

步骤303，对各个音频帧进行时频域特征提取，得到各个音频帧对应的时频域特征矩阵。

在一种可能的实施方式中，终端将环境音的音频数据进行分帧加窗处理后，对各个音频帧进行时域和频域的特征提取，每个音频帧对应得到一个时频域特征矩阵。

步骤304，将时频域特征矩阵输入声音识别模型，得到声音识别模型输出的目标警铃声识别结果。

步骤304的实施方式可以参考上述步骤203，本实施例在此不再赘述。

步骤305，当预定时长内包含目标警铃声的音频帧的个数达到个数阈值时，确定环境音中包含目标警铃声。

由于终端在进行识别目标警铃声之前，将音频数据进行了分帧处理，而一帧音频的时间很短，因此当某一音频帧中包含目标警铃声时，无法排除存在其他相似声音或特征提取时的数据处理过程产生错误的情况，不能立即确定环境音中包含目标警铃声。所以，终端设置预定时长，当声音识别模型的输出结果指示预定时长内包含目标警铃声的音频帧的个数达到个数阈值时，确定环境音中包含目标警铃声。

示意性的，终端设置预定时长为5秒，个数阈值为2，当5秒内终端识别到2个或多于2个音频帧中包含目标警铃声时，确定当前环境音中包含目标警铃声。

步骤306，获取上一警铃识别时刻，上一警铃识别时刻为上一次识别出环境音中包含目标警铃声的时刻。

当声音识别模型的输出结果中，指示预定时长内包含目标警铃声的音频帧个数达到个数阈值时，终端记录当前时刻，并获取上一次识别出环境音中包含目标警铃声的时刻，即获取上一警铃识别时刻。

步骤307，若上一警铃识别时刻与当前警铃识别时刻之间的时间间隔大于时间间隔阈值，则更新已行驶站数。

在实际乘车过程中，交通工具的关门警铃声和开门警铃声可能相同，会导致终端在同一站点识别到两次警铃声，或者，同一种交通工具的其他车辆与终端所在车辆的警铃声相同，当终端所在车辆停靠在某一站点时附近车辆发出相同的警铃声，都会导致终端计数产生错误，因此，终端预先设置时间间隔阈值，若上一警铃识别时刻与当前警铃识别时刻之间的时间间隔大于时间间隔阈值，则更新已行驶站数(例如，对已行驶站数进行加一操作)。

示意性的，预先设置时间间隔阈值为1分钟，终端每一次终端识别出环境音中包含目标警铃声时，记录当前时刻并获取上一警铃识别时刻，若二者之间的时间间隔大于一分钟，则确定交通工具行驶了一站，并对已行驶站数进行加一操作。例如，当前警铃识别时刻为10:10:00，获取到上一警铃识别时刻是10:00:00，二者的时间间隔大于1分钟，则已行驶站数加一。

步骤308，当已行驶站数达到目标站数时，进行到站提醒。

步骤308的实施方式可以参考上述步骤205，本实施例在此不再赘述。

本申请实施例中，通过对环境音的音频数据进行分帧和加窗处理，得到声音识别模型能够识别的平稳数据，并对各个音频帧进行时频域特征提取，使得声音识别模型能够识别出包含目标警铃声特征的音频帧；通过对声音识别模型的输出结果进行后处理，确认识别出的警铃声是否为目标警铃声，避免将其他交通工具的警铃声或类似声音误识别为目标警铃声，提高了到站提醒的准确率。

终端在交通工具行驶过程中实时开启麦克风获取环境音，并将环境音的音频数据输入声音识别模型进行识别，在一种可能的实施方式中，终端采用卷积神经网络(Convolutional Neural Networks，CNN)模型作为声音识别模型。声音识别过程如图5所示，终端输入环境音(步骤501)，在对环境音进行识别之前，首先执行时频域特征提取(步骤502)，然后将提取出的时频域特征矩阵输入CNN模型，通过CNN模型判断是否包含目标警铃声(步骤503)；若CNN模型的识别结果为环境音中包含目标警铃声，则在后处理(步骤504)后判断是否更新已行驶站数(步骤505)，若识别结果为环境音中不包含目标警铃声，则终端继续对环境音进行识别。

在一种可能的实施方式中，在图3的基础上，如图6所示，上述步骤303包括步骤303a至303c。

步骤303a，根据各个音频窗口的短时能量特征，生成音频帧对应的时域特征矩阵，时域特征矩阵的第一矩阵维度等于音频帧中音频窗口的数量。

音频信号是随时间变化的非平稳随机过程，但具有短时相关性，即在较短时间内，音频信号具有平稳的特征。而不同的声音包含的能量不同，因此可以通过比较各个音频帧的短时能量特征，区分目标警铃声和其余环境音。

在一种可能的实施方式中，如图4所示，终端通过时域特征提取模块403计算音频帧中各个音频窗口的短时能量，并将计算得到的短时能量以矩阵的形式合成，最终得到一帧音频帧的时域特征矩阵，该时域特征矩阵的第一矩阵维度和音频帧中音频窗口的数量相等。短时能量的计算公式为：

其中，M是汉明窗参数，即每个音频窗口包含的数据量，n是音频窗口的序号，x_n是对应音频窗口的音频数据，ω_n是汉明窗函数，E_n是对应音频窗口的短时能量值。

示意性的，终端对音频数据的采样频率为16000Hz，一帧音频帧包含1024ms的音频数据，M取值为128，则每个音频窗口包含8ms的音频数据，一帧音频帧包含128个音频窗口。终端对各音频帧的音频窗口进行短时能量计算，得到128个短时能量值，形成1×128的时域特征矩阵，该时域特征矩阵包含了对应音频帧的时域特征。

步骤303b，对音频帧进行梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients，MFCC)特征提取，生成频域特征矩阵，频域特征矩阵的第一矩阵维度与音频窗口的数量相同。

仅凭音频信号在时域上的变化区分不同音频信号的特征较为困难，因此可以通过傅里叶变换，将其变换为频域上的能量分布，再结合时域上的短时能量特征进行区分。由于傅里叶变换后得到的能量频谱中，存在大量无用信息，因此需要将能量频谱通过滤波器进行滤波。

在一种可能的实施方式中，如图4所示，终端通过频域特征提取模块404对音频帧进行频域特征提取，并采用MFCC进行滤波，其过程如图7所示，终端先将音频帧数据输入傅里叶变换模块701进行傅里叶变换，离散傅里叶变换公式为：

其中，N是傅里叶变换的点数，k是傅里叶变换的频率信息，x_n是对应傅里叶变换点的音频数据。

可选的，终端根据至少两种傅里叶变换精度对音频帧进行MFCC特征提取，生成至少两个频域特征矩阵，其中，不同频域特征矩阵的第一矩阵维度相同，且不同频域特征矩阵的第二矩阵维度不同。例如，各频域特征矩阵的列数都与时域特征矩阵的列数相等，各频域特征矩阵的行数不同；或，各频域特征矩阵的行数都与时域特征矩阵的行数相等，列数不同。

终端将经过傅里叶变换后的音频帧数据输入能量谱计算模块702，计算音频帧数据的能量频谱。为了将其能量频谱转化为符合人耳听觉的梅尔谱，需要将能量频谱输入梅尔滤波处理模块703进行滤波处理，滤波处理的数学表达式为：

其中，f为傅里叶变换后的频点。

得到音频帧的梅尔谱之后，终端通过离散余弦变换(Discrete CosineTransform，DCT)模块704对其取对数，得到的DCT系数即为MFCC特征。

示意性的，终端对音频数据的采样频率为16000Hz，一帧音频帧包含1024ms的音频数据，N分别取1024、512和256，MFCC特征取128维，则一帧音频帧经过三次MFCC特征提取后，分别得到16×128、32×128和64×128的频域特征矩阵。

步骤303c，将时域特征矩阵和频域特征矩阵融合，得到时频域特征矩阵。

在一种可能的实施方式中，如图4所示，终端通过特征融合模块405，将音频帧经过时域特征提取和频域特征提取后得到的时域特征矩阵和频域特征矩阵融合，得到时频域特征矩阵，声音识别模块基于该时频域特征矩阵识别目标警铃声。

示意性的，终端将时域特征提取得到的1×128的时域特征矩阵，和特征提取得到的16×128、32×128和64×128的频域特征矩阵合并，得到一个113×128的时频域特征矩阵。

本申请实施例中，通过对各个音频帧进行时域和频域两方面的特征提取，并且采取不同的傅里叶变换精度对一帧音频帧进行多次频域特征提取，得到音频数据在时域和频域的多个特征矩阵；终端将时域和频域的特征矩阵融合为时频特征矩阵，输入声音识别模型进行识别，提高了声音识别模型的准确性，从而提高了到站提醒的准确率和有效性。

在一种可能的实施方式中，如图8所示，声音识别模型采用CNN分类模型，模型训练过程如下：

步骤801，通过麦克风采集样本音频数据。

相关数据库存储的交通工具的警铃声可能不完整，当数据库中不包含用户所在城市的交通工具的警铃声时，用户可以根据需要主动采集目标警铃声。

在一种可能的实施方式中，用户在乘坐交通工具时开启终端麦克风采集样本音频数据，该样本音频数据中包含目标警铃声的音频数据。

步骤802，当接收到对样本音频数据的标记操作时，根据标记操作生成训练样本，训练样本包括正样本和负样本，且训练样本包含样本标签，正样本是包含目标警铃声的音频数据，负样本是不包含目标警铃声的音频数据。

在一种可能的实施方式中，用户对采集到的样本音频数据进行标记，框选出包含目标警铃声的时段，如图9所示，目标警铃声与其他环境音有明显区别，图中黑色方框内的短线为目标警铃声的频谱，其余为环境音的频谱。终端接收到对样本音频数据的标记操作时，根据标记将目标警铃声作为正样本，其余环境音作为负样本。

步骤803，将训练样本输入声音识别模型，得到声音识别模型输出的样本识别结果，声音识别模型是采用CNN的二分类模型。

在一种可能的实施方式中，CNN模型结构如图10所示，第一卷积层1001和第二卷积层1002用于提取输入的时频域特征矩阵的特征，第一全连接层1003和第二全连接层1004整合卷积层1001和1002中具有类别区分性的信息，最后接归一化指数函数(Softmax)1005，将全连接层整合的信息进行分类，得到样本识别结果。

步骤804，根据样本识别结果和样本标签，通过焦点损失(FocalLoss)和梯度下降法训练声音识别模型。

由于交通工具行驶时，目标警铃声通常只有5秒左右，而其余环境音长达几分钟，正负样本数据非常不平衡，因此，在一种可能的实施方式中，采用Focalloss解决样本不均衡的问题，Focalloss公式如下：

其中，y′为CNN分类模型输出的概率，y为训练样本对应的标签，α和γ为手动调节参数，用于调整正负样本的比例。

在一种可能的实施方式中，利用神经网络算法库Tensorflow系统，并采用梯度下降算法，训练CNN分类模型。将声音识别模型的样本识别结果与训练样本的样本标签对比，当样本识别结果的正确率达到预定标准时，模型训练完成。

可选的，声音识别模型的训练过程可以在用户的终端进行，或者将标记后的样本音频数据上传至云端，云端的服务器基于得到的样本音频数据对声音识别模型进行训练，并将训练完成后得到的网络参数反馈至终端。

可选的，声音识别模型也可以采用其他的传统机器学习分类器或深度学习分类模型，本实施例对此不做限定。

本申请实施例中，构建CNN二分类模型作为声音识别模型，通过采集样本音频数据，并标记正负训练样本，采用FocalLoss和梯度下降算法训练模型，解决了正负样本数据不平衡的问题，提高了声音识别模型的准确性，完善了网络数据库。

请参考图11，其示出了本申请一个示例性实施例提供的到站提醒装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置包括：

采集模块1101，用于当处于交通工具时，通过麦克风采集环境音；

提取模块1102，用于对所述环境音对应的音频数据进行时频域特征提取，得到时频域特征矩阵，所述时频域特征矩阵用于表示所述环境音对应的音频数据的时域特征和频域特征；

识别模块1103，用于将所述时频域特征矩阵输入声音识别模型，得到所述声音识别模型输出的目标警铃声识别结果，所述目标警铃声识别结果用于指示所述环境音中是否包含目标警铃声；

计数模块1104，用于当识别出所述环境音中包含所述目标警铃声时，更新已行驶站数；

提醒模块1105，用于当所述已行驶站数达到目标站数时，进行到站提醒，所述目标站数为起始站点与目标站点之间的站数，所述目标站点是中转站点或目的地站点。

可选的，所述提取模块1102，包括：

处理单元，用于对所述环境音对应的音频数据进行分帧加窗处理，得到至少一个音频帧，所述音频帧中包含n个连续的音频窗口，n为大于等于2的整数；

提取单元，用于对各个所述音频帧进行时频域特征提取，得到各个音频帧对应的所述时频域特征矩阵。

可选的，所述提取单元，还用于：

根据各个所述音频窗口的短时能量特征，生成所述音频帧对应的时域特征矩阵，所述时域特征矩阵的第一矩阵维度等于所述音频帧中所述音频窗口的数量；

对所述音频帧进行梅尔频率倒谱系数MFCC特征提取，生成频域特征矩阵，所述频域特征矩阵的所述第一矩阵维度与所述音频窗口的数量相同；

将所述时域特征矩阵和所述频域特征矩阵融合，得到所述时频域特征矩阵。

可选的，所述MFCC特征提取包括傅里叶变换过程，所述提取单元，还用于：

根据至少两种傅里叶变换精度对所述音频帧进行MFCC特征提取，生成至少两个所述频域特征矩阵，其中，不同频域特征矩阵的所述第一矩阵维度相同，且不同频域特征矩阵的第二矩阵维度不同。

可选的，所述装置还包括：

确定模块，用于当预定时长内包含所述目标警铃声的音频帧的个数达到个数阈值时，确定所述环境音中包含所述目标警铃声。

可选的，所述计数模块1104，包括：

获取单元，用于获取上一警铃识别时刻，所述上一警铃识别时刻为上一次识别出所述环境音中包含所述目标警铃声的时刻；

计数单元，用于若所述上一警铃识别时刻与当前警铃识别时刻之间的时间间隔大于时间间隔阈值，则更新所述已行驶站数。

可选的，所述装置还包括：

采集模块，用于通过所述麦克风采集样本音频数据；

生成模块，用于当接收到对所述样本音频数据的标记操作时，根据所述标记操作生成训练样本，所述训练样本包括正样本和负样本，且所述训练样本包含样本标签，所述正样本是包含所述目标警铃声的音频数据，所述负样本是不包含所述目标警铃声的音频数据；

输入模块，用于将所述训练样本输入所述声音识别模型，得到所述声音识别模型输出的样本识别结果，所述声音识别模型是采用CNN的二分类模型；

训练模块，用于根据所述样本识别结果和所述样本标签，通过焦点损失FocalLoss和梯度下降法训练所述声音识别模型。

请参考图12，其示出了本申请一个示例性实施例提供的终端1200的结构方框图。该终端1200可以是智能手机、平板电脑、电子书、便携式个人计算机等安装并运行有应用程序的电子设备。本申请中的终端1200可以包括一个或多个如下部件：处理器1210、存储器1220和屏幕1230。

处理器1210可以包括一个或者多个处理核心。处理器1210利用各种接口和线路连接整个终端1200内的各个部分，通过运行或执行存储在存储器1220内的指令、程序、代码集或指令集，以及调用存储在存储器1220内的数据，执行终端1200的各种功能和处理数据。可选地，处理器1210可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器1210可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责屏幕1230所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1210中，单独通过一块通信芯片进行实现。

存储器1220可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器1220包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1220可用于存储指令、程序、代码、代码集或指令集。存储器1220可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等，该操作系统可以是安卓(Android)系统(包括基于Android系统深度开发的系统)、苹果公司开发的IOS系统(包括基于IOS系统深度开发的系统)或其它系统。存储数据区还可以存储终端1200在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

屏幕1230可以为电容式触摸显示屏，该电容式触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作，以及显示各个应用程序的用户界面。触摸显示屏通常设置在终端1200的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本申请实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的终端1200的结构并不构成对终端1200的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端1200中还包括射频电路、拍摄组件、传感器、音频电路、无线保真(Wireless Fidelity，Wi-Fi)组件、电源、蓝牙组件等部件，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的到站提醒方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的到站提醒方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读存储介质中或者作为计算机可读存储介质上的一个或多个指令或代码进行传输。计算机可读存储介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种到站提醒方法，其特征在于，所述方法包括：

当处于交通工具时，通过麦克风采集环境音；

2.根据权利要求1所述的方法，其特征在于，所述对所述环境音对应的音频数据进行时频域特征提取，得到时频域特征矩阵，包括：

对所述环境音对应的音频数据进行分帧加窗处理，得到至少一个音频帧，所述音频帧中包含n个连续的音频窗口，n为大于等于2的整数；

对各个所述音频帧进行时频域特征提取，得到各个音频帧对应的所述时频域特征矩阵。

3.根据权利要求2所述的方法，其特征在于，所述对所述音频帧进行时频域特征提取，得到各个音频帧对应的所述时频域特征矩阵，包括：

4.根据权利要求3所述的方法，其特征在于，所述MFCC特征提取包括傅里叶变换过程，所述对所述音频帧进行MFCC特征提取，生成频域特征矩阵，包括：

5.根据权利要求2至4任一所述的方法，其特征在于，所述将所述时频域特征矩阵输入声音识别模型，得到所述声音识别模型输出的目标警铃声识别结果之后，还包括：

当预定时长内包含所述目标警铃声的音频帧的个数达到个数阈值时，确定所述环境音中包含所述目标警铃声。

6.根据权利要求1至4任一所述的方法，其特征在于，所述更新已行驶站数，包括：

获取上一警铃识别时刻，所述上一警铃识别时刻为上一次识别出所述环境音中包含所述目标警铃声的时刻；

若所述上一警铃识别时刻与当前警铃识别时刻之间的时间间隔大于时间间隔阈值，则更新所述已行驶站数。

7.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

通过所述麦克风采集样本音频数据；

当接收到对所述样本音频数据的标记操作时，根据所述标记操作生成训练样本，所述训练样本包括正样本和负样本，且所述训练样本包含样本标签，所述正样本是包含所述目标警铃声的音频数据，所述负样本是不包含所述目标警铃声的音频数据；

将所述训练样本输入所述声音识别模型，得到所述声音识别模型输出的样本识别结果，所述声音识别模型是采用卷积神经网络CNN的二分类模型；

根据所述样本识别结果和所述样本标签，通过焦点损失FocalLoss和梯度下降法训练所述声音识别模型。

8.一种到站提醒装置，其特征在于，所述装置包括：

9.一种终端，其特征在于，所述终端包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至7任一所述的到站提醒方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如权利要求1至7任一所述的到站提醒方法。