CN111261190A

CN111261190A - 一种识别声音的方法、系统、计算机设备及存储介质

Info

Publication number: CN111261190A
Application number: CN201811468660.7A
Authority: CN
Inventors: 陈杰
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2020-06-09

Abstract

本公开实施例提出了一种识别声音的方法、系统、计算机设备及存储介质。其中，识别声音的方法包括：接收从交通工具内采集的声音信号；对声音信号进行扩帧处理；通过训练好的神经网络模型，确定扩帧处理后的声音信号属于预设动作声音的概率；将概率与预设阈值进行比较，若概率小于或等于预设阈值则识别乘客和/或司机未执行预设动作，并发出警报，能够实现自动通过声音判别动作特征的功能。

Description

一种识别声音的方法、系统、计算机设备及存储介质

技术领域

本公开实施例涉及声音识别技术领域，具体而言，涉及一种识别声音的方法、系统、计算机设备及存储介质。

背景技术

汽车中对司机或者乘客的动作执行的检测及提示功能已经是确保车辆使用效果以及人员安全的重要措施，例如检测及提示安全带是否系上、车锁是否锁住等，但是目前的汽车对上述检测及提示并不能完全实现，例如目前的部分汽车尚不具备检测安全带是否被系上的功能。而具有检测安全带是否被系上功能的汽车，也仅仅是通过车载设备检测座位前排安全带卡扣是否插入插销来判断副驾驶座上的乘客与驾驶座上的司机是否系上了安全带，但是却不能检测后排乘客是否系上了安全带。因此，如何对车内人员是否执行动作进行识别成为亟待解决的问题。

发明内容

本公开实施例旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本公开实施例的一个方面在于提出了一种识别声音的方法。

本公开实施例的另一个方面在于提出了一种识别声音的系统。

本公开实施例的再一个方面在于提出了一种计算机设备。

本公开实施例的又一个方面在于提出了一种计算机可读存储介质。

有鉴于此，根据本公开实施例的一个方面，提出了一种识别声音的方法，方法包括：接收从交通工具内采集的声音信号；对声音信号进行扩帧处理；通过训练好的神经网络模型，确定扩帧处理后的声音信号属于预设动作声音的概率；将概率与预设阈值进行比较，若概率小于或等于预设阈值则识别乘客和/或司机未执行预设动作，并发出警报。

本公开实施例提供的识别声音的方法，收集近距离的声音信号，例如，可以利用移动设备中的内嵌声音获取装置来获取车辆中近距离的声音信号。为了在分析时充分覆盖声音信号的频谱结构，对声音信号进行前后扩帧，进一步地利用训练好的神经网络模型对声音信号作二分类分析，即属于预设动作声音或不属于预设动作声音，并输出相应概率。通过对概率与预设阈值进行比较得出判断乘客和/或司机是否执行预设动作的最终结果，并在未执行时发出提示，能够实现自动通过声音判别动作特征的功能。

根据本公开实施例的上述识别声音的方法，还可以具有以下技术特征：

在上述技术方案中，优选地，对声音信号进行扩帧处理，具体包括：对声音信号所在帧的前后分别扩大预设帧数。

在该技术方案中，预设动作的声音信号可能集中在比较宽的区间内(例如300ms至600ms)，并呈现出易于识别的特殊频谱结构。为了在分析时充分覆盖其频谱结构，可以采用对于每一帧声音信号进行前后扩帧以作整体分析的处理方式，例如可扩增前后20帧。

在上述任一技术方案中，优选地，训练好的神经网络模型包括：卷积神经网络模型、深度神经网络模型、和/或基于长短期记忆网络的神经网络模型；当训练好的神经网络模型为卷积神经网络模型和深度神经网络模型时，通过训练好的神经网络模型，确定扩帧处理后的声音信号属于预设动作声音的概率，具体包括：通过卷积神经网络模型和深度神经网络模型，获取扩帧处理后声音信号的每一帧的属于预设动作声音的判别概率；将判别概率的平均值作为声音信号属于预设动作声音的概率；当训练好的神经网络模型为基于长短期记忆网络的神经网络模型时，通过训练好的神经网络模型，确定扩帧处理后的声音信号属于预设动作声音的概率，具体包括：通过基于长短期记忆网络的神经网络模型，获取扩帧处理后声音信号的每一帧的属于预设动作声音的判别概率；将最后一帧的判别概率作为声音信号属于预设动作声音的概率。

在该技术方案中，训练好的神经网络模型的构建可以基于卷积神经网络(Convolutional Neural Network，CNN)与深度神经网络(Deep Neural Network，DNN)，还可以采用基于长短期记忆网络(Long Short Term Memory，LSTM)的神经网络模型。在确定声音信号之前需要对一定时间段内获得的多个概率进行平滑处理，例如可以对基于CNN+DNN的神经网络模型所获取的多帧声音信号对应的输出概率结果进行平均计算，得到平均概率，再将平均概率与阈值进行比较从而判定获取的声音信号是不是预设动作的声音。如果采用的是基于LSTM的神经网络模型，在判别时可以只取最后一帧的判断概率进行判定，提高了概率确定的精确性。

需要说明的是，在训练上述神经网络模型时，采用多条件参数进行训练，通过加噪以模拟复杂的车内场景，提高系统鲁棒性。例如可以加入容易造成误判的拍掌声进行训练。

在上述任一技术方案中，优选地，在接收从交通工具内采集的声音信号之前，还包括：判断车辆内是否有乘客和/或司机；在判断车辆内有乘客和/或司机后，进入接收从交通工具内采集的声音信号的步骤。

在该技术方案中，在接收从交通工具内采集的声音信号之前首先判断乘客和/或司机是否已经进入到车内。还可以在确定乘客和/或司机已经进入到车内的预设时间段内判断是否接收到声音信号，若未接收到声音信号则确定声音获取装置故障，则发出警报，已告知乘客和/或司机对声音获取装置的故障进行处理。

在上述任一技术方案中，优选地，预设动作声音包括：安全带卡扣的声音、车况检测的声音、和/或锁车的提示声音。

在该技术方案中，上述的预设动作可以包括但不限于系安全带、车况检测、锁车，则对应的预设动作声音包括但不限于安全带卡扣的声音、车况检测的声音、锁车的提示声音，可以实现根据声音信号进行多种预设动作的识别。并且根据不同的预设动作设置对应的概率预设阈值。

根据本公开实施例的另一个方面，提出了一种识别声音的系统，系统包括：接收单元，用于接收从交通工具内采集的声音信号；扩帧处理单元，用于对声音信号进行扩帧处理；概率确定单元，用于通过训练好的神经网络模型，确定扩帧处理后的声音信号属于预设动作声音的概率；识别及警报单元，用于将概率与预设阈值进行比较，若概率小于或等于预设阈值则识别乘客和/或司机未执行预设动作，并发出警报。

本公开实施例提供的识别声音的系统，收集近距离的声音信号，例如，可以利用移动设备中的内嵌声音获取装置来获取车辆中近距离的声音信号。为了在分析时充分覆盖声音信号的频谱结构，对声音信号进行前后扩帧，进一步地利用训练好的神经网络模型对声音信号作二分类分析，即属于预设动作声音或不属于预设动作声音，并输出相应概率。通过对概率与预设阈值进行比较得出判断乘客和/或司机是否执行预设动作的最终结果，并在未执行时发出提示，能够实现自动通过声音判别动作特征的功能。

根据本公开实施例的上述识别声音的系统，还可以具有以下技术特征：

在上述技术方案中，优选地，扩帧处理单元，具体用于对声音信号所在帧的前后分别扩大预设帧数。

在上述任一技术方案中，优选地，训练好的神经网络模型包括：卷积神经网络模型、深度神经网络模型、和/或基于长短期记忆网络的神经网络模型；当训练好的神经网络模型为卷积神经网络模型和深度神经网络模型时，概率确定单元，具体用于通过卷积神经网络模型和深度神经网络模型，获取扩帧处理后声音信号的每一帧的属于预设动作声音的判别概率；以及将判别概率的平均值作为声音信号属于预设动作声音的概率；当训练好的神经网络模型为基于长短期记忆网络的神经网络模型时，概率确定单元，具体用于通过基于长短期记忆网络的神经网络模型，获取扩帧处理后声音信号的每一帧的属于预设动作声音的判别概率；以及将最后一帧的判别概率作为声音信号属于预设动作声音的概率。

在该技术方案中，训练好的神经网络模型的构建可以基于卷积神经网络与深度神经网络，还可以采用基于长短期记忆网络的神经网络模型。在确定声音信号之前需要对一定时间段内获得的多个概率进行平滑处理，例如可以对基于CNN+DNN的神经网络模型所获取的多帧声音信号对应的输出概率结果进行平均计算，得到平均概率，再将平均概率与阈值进行比较从而判定获取的声音信号是不是预设动作的声音。如果采用的是基于LSTM的神经网络模型，在判别时可以只取最后一帧的判断概率进行判定，提高了概率确定的精确性。

在上述任一技术方案中，优选地，还包括：判断单元，用于判断车辆内是否有乘客和/或司机；接收单元，用于在判断车辆内有乘客和/或司机后，进行接收从交通工具内采集的声音信号。

根据本公开实施例的再一个方面，提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述任一技术方案的识别声音的方法的步骤。

本公开实施例提供的计算机设备，处理器执行计算机程序时实现收集近距离的声音信号，例如，可以利用移动设备中的内嵌声音获取装置来获取车辆中近距离的声音信号。为了在分析时充分覆盖声音信号的频谱结构，对声音信号进行前后扩帧，进一步地利用预设神经网络模型对声音信号作二分类分析，即属于预设动作声音或不属于预设动作声音，并输出相应概率。通过对概率与预设阈值进行比较得出判断乘客和/或司机是否执行预设动作的最终结果，并在未执行时发出提示，能够实现自动通过声音判别动作特征的功能。

根据本公开实施例的又一个方面，提出了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一技术方案的识别声音的方法的步骤。

本公开实施例提供的计算机可读存储介质，计算机程序被处理器执行时实现收集近距离的声音信号，例如，可以利用移动设备中的内嵌声音获取装置来获取车辆中近距离的声音信号。为了在分析时充分覆盖声音信号的频谱结构，对声音信号进行前后扩帧，进一步地利用预设神经网络模型对声音信号作二分类分析，即属于预设动作声音或不属于预设动作声音，并输出相应概率。通过对概率与预设阈值进行比较得出判断乘客和/或司机是否执行预设动作的最终结果，并在未执行时发出提示，能够实现自动通过声音判别动作特征的功能。

本公开实施例的附加方面和优点将在下面的描述部分中变得明显，或通过本公开实施例的实践了解到。

附图说明

本公开实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了本公开实施例的一个实施例的识别声音的方法的流程示意图；

图2示出了本公开实施例的另一个实施例的识别声音的方法的流程示意图；

图3示出了本公开实施例的再一个实施例的识别声音的方法的流程示意图；

图4示出了本公开实施例的一个实施例的识别声音的系统的示意框图；

图5示出了本公开实施例的另一个实施例的识别声音的系统的示意框图；

图6示出了本公开实施例的一个实施例的计算机设备的示意框图。

具体实施方式

为了能够更清楚地理解本公开实施例的上述目的、特征和优点，下面结合附图和具体实施方式对本公开实施例进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开实施例，但是，本公开实施例还可以采用其他不同于在此描述的其他方式来实施，因此，本公开实施例的保护范围并不限于下面公开的具体实施例的限制。

本公开实施例第一方面的实施例，提出一种识别声音的方法，图1示出了本公开实施例的一个实施例的识别声音的方法的流程示意图。其中，该方法包括：

步骤102，接收从交通工具内采集的声音信号；

步骤104，对声音信号进行扩帧处理；

步骤106，通过训练好的神经网络模型，确定扩帧处理后的声音信号属于预设动作声音的概率；

步骤108，将概率与预设阈值进行比较，若概率小于或等于预设阈值则识别乘客和/或司机未执行预设动作，并发出警报。

其中，声音获取装置可以为手机、智能手表、车载设备等设备中的麦克风。

图2示出了本公开实施例的另一个实施例的识别声音的方法的流程示意图。其中，该方法包括：

步骤202，接收从交通工具内采集的声音信号；

步骤204，对声音信号所在帧的前后分别扩大预设帧数；

步骤206，通过训练好的神经网络模型，确定扩帧处理后的声音信号属于预设动作声音的概率；

步骤208，将概率与预设阈值进行比较，若概率小于或等于预设阈值则识别乘客和/或司机未执行预设动作，并发出警报。

在该实施例中，预设动作的声音信号可能集中在比较宽的区间内(例如300ms至600ms)，并呈现出易于识别的特殊频谱结构。为了在分析时充分覆盖其频谱结构，可以采用对于每一帧声音信号进行前后扩帧以作整体分析的处理方式，例如可扩增前后20帧。

图3示出了本公开实施例的再一个实施例的识别声音的方法的流程示意图。其中，该方法包括：

步骤302，判断车辆内是否有乘客和/或司机；

步骤304，在判断车辆内有乘客和/或司机后，接收从交通工具内采集的声音信号；

步骤306，对声音信号所在帧的前后分别扩大预设帧数；

步骤308，当训练好的神经网络模型为卷积神经网络模型和深度神经网络模型时，通过卷积神经网络模型和深度神经网络模型，获取扩帧处理后声音信号的每一帧的属于预设动作声音的判别概率，并将判别概率的平均值作为声音信号属于预设动作声音的概率；当训练好的神经网络模型为基于长短期记忆网络的神经网络模型时，通过基于长短期记忆网络的神经网络模型，获取扩帧处理后声音信号的每一帧的属于预设动作声音的判别概率，并将最后一帧的判别概率作为声音信号属于预设动作声音的概率；

步骤310，将概率与预设阈值进行比较，若概率大于预设阈值则识别乘客和/或司机已执行预设动作；若概率小于或等于预设阈值则识别乘客和/或司机未执行预设动作，并发出警报。

在该实施例中，在接收从交通工具内采集的声音信号之前首先判断乘客和/或司机是否已经进入到车内。还可以在确定乘客和/或司机已经进入到车内的预设时间段内判断是否接收到声音信号，若未接收到声音信号则确定声音获取装置故障，则发出警报，已告知乘客和/或司机对声音获取装置的故障进行处理。在预设时间段内接收到声音信号后对声音信号进行前后扩帧，进一步地利用预设神经网络模型对声音信号作二分类分析，即属于预设动作声音或不属于预设动作声音，并输出相应概率。通过对概率与预设阈值进行比较得出判断乘客和/或司机是否执行预设动作的最终结果。

训练好的神经网络模型的构建可以基于卷积神经网络与深度神经网络，还可以采用基于长短期记忆网络的神经网络模型。在确定声音信号之前需要对一定时间段内获得的多个概率进行平滑处理，例如可以对基于CNN+DNN的神经网络模型所获取的多帧声音信号对应的输出概率结果进行平均计算，得到平均概率，再将平均概率与阈值进行比较从而判定获取的声音信号是不是预设动作的声音。如果采用的是基于LSTM的神经网络模型，在判别时可以只取最后一帧的判断概率进行判定，提高了概率确定的精确性。

在本公开实施例的一个实施例中，优选地，预设动作声音包括：安全带卡扣的声音、车况检测的声音、和/或锁车的提示声音。

在该实施例中，上述的预设动作可以包括但不限于系安全带、车况检测、锁车，则对应的预设动作声音包括但不限于安全带卡扣的声音、车况检测的声音、锁车的提示声音，可以实现根据声音信号进行多种预设动作的识别。并且根据不同的预设动作设置对应的概率预设阈值。

本公开实施例第二方面的实施例，提出一种识别声音的系统，图4示出了本公开实施例的一个实施例的识别声音的系统400的示意框图。其中，该系统400包括：

接收单元402，用于接收从交通工具内采集的声音信号；

扩帧处理单元404，用于对声音信号进行扩帧处理；

概率确定单元406，用于通过训练好的神经网络模型，确定扩帧处理后的声音信号属于预设动作声音的概率；

识别及警报单元408，用于将概率与预设阈值进行比较，若概率小于或等于预设阈值则识别乘客和/或司机未执行预设动作，并发出警报。

本公开实施例提供的识别声音的系统400，收集近距离的声音信号，例如，可以利用移动设备中的内嵌声音获取装置来获取车辆中近距离的声音信号。为了在分析时充分覆盖声音信号的频谱结构，对声音信号进行前后扩帧，进一步地利用训练好的神经网络模型对声音信号作二分类分析，即属于预设动作声音或不属于预设动作声音，并输出相应概率。通过对概率与预设阈值进行比较得出判断乘客和/或司机是否执行预设动作的最终结果，并在未执行时发出提示，能够实现自动通过声音判别动作特征的功能。

在本公开实施例的一个实施例中，优选地，扩帧处理单元404，具体用于对声音信号所在帧的前后分别扩大预设帧数。

在本公开实施例的一个实施例中，优选地，训练好的神经网络模型包括：卷积神经网络模型、深度神经网络模型、和/或基于长短期记忆网络的神经网络模型；当训练好的神经网络模型为卷积神经网络模型和深度神经网络模型时，概率确定单元406，具体用于通过卷积神经网络模型和深度神经网络模型，获取扩帧处理后声音信号的每一帧的属于预设动作声音的判别概率；以及将判别概率的平均值作为声音信号属于预设动作声音的概率；当训练好的神经网络模型为基于长短期记忆网络的神经网络模型时，概率确定单元406，具体用于通过基于长短期记忆网络的神经网络模型，获取扩帧处理后声音信号的每一帧的属于预设动作声音的判别概率；以及将最后一帧的判别概率作为声音信号属于预设动作声音的概率。

在该实施例中，训练好的神经网络模型的构建可以基于卷积神经网络与深度神经网络，还可以采用基于长短期记忆网络的神经网络模型。在确定声音信号之前需要对一定时间段内获得的多个概率进行平滑处理，例如可以对基于CNN+DNN的神经网络模型所获取的多帧声音信号对应的输出概率结果进行平均计算，得到平均概率，再将平均概率与阈值进行比较从而判定获取的声音信号是不是预设动作的声音。如果采用的是基于LSTM的神经网络模型，在判别时可以只取最后一帧的判断概率进行判定，提高了概率确定的精确性。

图5示出了本公开实施例的另一个实施例的识别声音的系统500的示意框图。其中，该系统500包括：

判断单元502，用于判断车辆内是否有乘客和/或司机；

接收单元504，用于在判断车辆内有乘客和/或司机后，接收从交通工具内采集的声音信号；

扩帧处理单元506，用于对声音信号进行扩帧处理；

概率确定单元508，用于通过训练好的神经网络模型，确定扩帧处理后的声音信号属于预设动作声音的概率；

识别及警报单元510，用于将概率与预设阈值进行比较，若概率大于预设阈值则识别乘客和/或司机已执行预设动作；若概率小于或等于预设阈值则识别乘客和/或司机未执行预设动作，并由发出警报；

在该实施例中，在接收从交通工具内采集的声音信号之前首先判断乘客和/或司机是否已经进入到车内。还可以在确定乘客和/或司机已经进入到车内的预设时间段内判断是否接收到声音信号，若未接收到声音信号则确定声音获取装置故障，则发出警报，已告知乘客和/或司机对声音获取装置的故障进行处理。在预设时间段内接收到声音信号后对声音信号进行前后扩帧，进一步地利用训练好的神经网络模型对声音信号作二分类分析，即属于预设动作声音或不属于预设动作声音，并输出相应概率。通过对概率与预设阈值进行比较得出判断乘客和/或司机是否执行预设动作的最终结果。

本公开实施例第三方面的实施例，提出一种计算机设备，图6示出了本公开实施例的一个实施例的计算机设备600的示意框图。其中，该计算机设备600包括：

存储器602、处理器604及存储在存储器602上并可在处理器604上运行的计算机程序，处理器604执行计算机程序时实现如上述任一项的识别声音的方法的步骤。

本公开实施例提供的计算机设备600，处理器604执行计算机程序时实现收集近距离的声音信号，例如，可以利用移动设备中的内嵌声音获取装置来获取车辆中近距离的声音信号。为了在分析时充分覆盖声音信号的频谱结构，对声音信号进行前后扩帧，进一步地利用预设神经网络模型对声音信号作二分类分析，即属于预设动作声音或不属于预设动作声音，并输出相应概率。通过对概率与预设阈值进行比较得出判断乘客和/或司机是否执行预设动作的最终结果，能够实现自动通过声音判别动作特征的功能。

本公开实施例第四方面的实施例，提出了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一项的识别声音的方法的步骤。

本公开实施例提供的计算机可读存储介质，计算机程序被处理器执行时实现收集近距离的声音信号，例如，可以利用移动设备中的内嵌声音获取装置来获取车辆中近距离的声音信号。为了在分析时充分覆盖声音信号的频谱结构，对声音信号进行前后扩帧，进一步地利用预设神经网络模型对声音信号作二分类分析，即属于预设动作声音或不属于预设动作声音，并输出相应概率。通过对概率与预设阈值进行比较得出判断乘客和/或司机是否执行预设动作的最终结果，能够实现自动通过声音判别动作特征的功能。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本公开实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本公开实施例的优选实施例而已，并不用于限制本公开实施例，对于本领域的技术人员来说，本公开实施例可以有各种更改和变化。凡在本公开实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开实施例的保护范围之内。

Claims

1.一种识别声音的方法，其特征在于，所述方法包括：

接收从交通工具内采集的声音信号；

对所述声音信号进行扩帧处理；

通过训练好的神经网络模型，确定扩帧处理后的所述声音信号属于预设动作声音的概率；

将所述概率与预设阈值进行比较，若所述概率小于或等于所述预设阈值则识别所述乘客和/或司机未执行所述预设动作，并发出警报。

2.根据权利要求1所述的识别声音的方法，其特征在于，对所述声音信号进行扩帧处理，具体包括：

对所述声音信号所在帧的前后分别扩大预设帧数。

3.根据权利要求1所述的识别声音的方法，其特征在于，所述训练好的神经网络模型包括：卷积神经网络模型、深度神经网络模型、和/或基于长短期记忆网络的神经网络模型；

当所述训练好的神经网络模型为所述卷积神经网络模型和所述深度神经网络模型时，所述通过所述训练好的预设神经网络模型，确定扩帧处理后的所述声音信号属于预设动作声音的概率，具体包括：

通过所述卷积神经网络模型和所述深度神经网络模型，获取扩帧处理后所述声音信号的每一帧的属于预设动作声音的判别概率；将所述判别概率的平均值作为所述声音信号属于所述预设动作声音的概率；

当所述训练好的神经网络模型为所述基于长短期记忆网络的神经网络模型时，所述通过所述训练好的神经网络模型，确定扩帧处理后的所述声音信号属于预设动作声音的概率，具体包括：

通过所述基于长短期记忆网络的神经网络模型，获取扩帧处理后所述声音信号的每一帧的属于预设动作声音的判别概率；将最后一帧的判别概率作为所述声音信号属于所述预设动作声音的概率。

4.根据权利要求1至3中任一项所述的识别声音的方法，其特征在于，在所述接收从交通工具内采集的声音信号之前，还包括：

判断所述车辆内是否有所述乘客和/或司机；

在判断所述车辆内有所述乘客和/或司机后，进入所述接收从交通工具内采集的声音信号的步骤。

5.根据权利要求1至3中任一项所述的识别声音的方法，其特征在于，所述预设动作声音包括：安全带卡扣的声音、车况检测的声音、和/或锁车的提示声音。

6.一种识别声音的系统，其特征在于，所述系统包括：

接收单元，用于接收从交通工具内采集的声音信号；

扩帧处理单元，用于对所述声音信号进行扩帧处理；

概率确定单元，用于通过训练好的神经网络模型，确定扩帧处理后的所述声音信号属于预设动作声音的概率；

识别及警报单元，用于将所述概率与预设阈值进行比较，若所述概率小于或等于所述预设阈值则识别所述乘客和/或司机未执行所述预设动作，并发出警报。

7.根据权利要求6所述的识别声音的系统，其特征在于，

所述扩帧处理单元，具体用于对所述声音信号所在帧的前后分别扩大预设帧数。

8.根据权利要求6所述的识别声音的系统，其特征在于，所述训练好的神经网络模型包括：卷积神经网络模型、深度神经网络模型、和/或基于长短期记忆网络的神经网络模型；

当所述训练好的神经网络模型为所述卷积神经网络模型和所述深度神经网络模型时，所述概率确定单元，具体用于通过所述卷积神经网络模型和所述深度神经网络模型，获取扩帧处理后所述声音信号的每一帧的属于预设动作声音的判别概率；以及将所述判别概率的平均值作为所述声音信号属于所述预设动作声音的概率；

当所述训练好的神经网络模型为所述基于长短期记忆网络的神经网络模型时，所述概率确定单元，具体用于通过所述基于长短期记忆网络的神经网络模型，获取扩帧处理后所述声音信号的每一帧的属于预设动作声音的判别概率；以及将最后一帧的判别概率作为所述声音信号属于所述预设动作声音的概率。

9.根据权利要求6至8中任一项所述的识别声音的系统，其特征在于，还包括：

判断单元，用于判断所述车辆内是否有所述乘客和/或司机；

所述接收单元，用于在判断所述车辆内有所述乘客和/或司机后，进行接收从所述交通工具内采集的所述声音信号。

10.根据权利要求6至8中任一项所述的识别声音的系统，其特征在于，所述预设动作声音包括：安全带卡扣的声音、车况检测的声音、和/或锁车的提示声音。

11.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的识别声音的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的识别声音的方法的步骤。