CN113241093A

CN113241093A - 地铁站紧急状态下声音识别方法、装置和电子设备

Info

Publication number: CN113241093A
Application number: CN202110362974.4A
Authority: CN
Inventors: 朱永寅; 谢辉优; 蒋辉华; 潘超; 许宗金; 杨雪斌
Original assignee: Shenzhen Das Intellitech Co Ltd
Current assignee: Shenzhen Das Intellitech Co Ltd
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-08-10

Abstract

本发明涉及地铁站紧急状态下声音识别方法、装置和电子设备，包括：获取地铁站内的声音信号；对声音信号进行声学特征提取，获得声学特征数据；对声学特征数据进行滤波处理，获得声学特征向量；将声学特征向量输入预设声学模型中，识别声音信号，并输出声音识别结果。本发明可以快速识别地铁站紧急状态下的声音信号，可以准确地识别出异常危险信号，为地铁站预警和监控提供了更为精确的参考信息，且在提高识别准确率的同时，还降低了运算量，提升识别效率。

Description

地铁站紧急状态下声音识别方法、装置和电子设备

技术领域

本发明涉及声音识别的技术领域，更具体地说，涉及一种地铁站紧急状态下声音识别方法、装置和电子设备。

背景技术

地铁轨道交通具有容载率高，客流量大、舒适便捷、安全稳定、运营费用低以及环境污染小等特点，已成为城市居民出行的常用交通工具。受工作日早晚高峰通勤、节假日外出游玩、恶劣天气、以及春运等因素影响，均会导致地铁站客流增多，一旦发生火灾、列车脱轨、爆炸、毒气泄漏、停电、水灾、地震、恐怖袭击等紧急情况时，较容易发生人员踩踏伤亡事件，将造成严重社会不良影响。

对地铁站内的危险状态检测，主要是通过地铁站厅站台内的摄像头监测、通道闸机感应等方法对进站人员数量进行监测和统计，进而采取客流限制来预防踩踏和潜在危险事件的发生。另一方面设置安装在屏蔽门上的半球形摄像头，对屏蔽门缝隙进行拍摄，对缝隙中异物进行识别。同时，采用压力传感器防止屏蔽门启闭时乘客夹在地铁门缝隙发生危险。上述方法对摄像头的成像效果依赖较高，而列车运行带来的灰尘会加大摄像头处的维护成本，且应用场景局限于已安装屏蔽门的地铁站台附近，对于开放式地铁站台则作用不大。由于上述方法不能识别危险状态和危险事件的发生，因此，采用准确高效的识别方法就显得尤为重要。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种地铁站紧急状态下声音识别方法、装置和电子设备。

本发明解决其技术问题所采用的技术方案是：构造一种地铁站紧急状态下声音识别方法，包括：

获取地铁站内的声音信号；

对所述声音信号进行声学特征提取，获得声学特征数据；

对所述声学特征数据进行滤波处理，获得声学特征向量；

将所述声学特征向量输入预设声学模型中，识别所述声音信号，并输出声音识别结果。

在本发明所述的地铁站紧急状态下声音识别方法中，所述声学特征数据包括：声学前端特征、滤波器组特征和梅尔倒谱系数特征中的任意一种或者多种。

在本发明所述的地铁站紧急状态下声音识别方法中，所述对所述声音信号进行声学特征提取，获得声学特征数据包括：

对所述声音信号进行分帧处理；

对分帧处理后的声音信号提取声学特征。

在本发明所述的地铁站紧急状态下声音识别方法中，所述声学特征数据为定点数特征向量。

在本发明所述的地铁站紧急状态下声音识别方法中，所述对所述声学特征数据进行滤波处理，获得声学特征向量包括：

对所述定点数特征向量中的每个定点数的声学特征分别进行滤波运算，获得多个滤波后的浮点数声学特征；

所述多个滤波后的浮点数声学特征为所述声学特征向量；所述声学特征向量为浮点数特征向量。

在本发明所述的地铁站紧急状态下声音识别方法中，所述方法还包括：

收集正常声音数据，获得正常声音数据集；

收集异常声音数据，获得异常声音数据集；

对所述正常声音数据集和所述异常声音数据集作为训练样本进行处理，获得所述预设声学模型。

在本发明所述的地铁站紧急状态下声音识别方法中，所述对所述正常声音数据集和所述异常声音数据集作为训练样本进行处理，获得所述预设声学模型包括：

对所述正常声音数据集和所述异常声音数据集进行划分，得到训练数据和验证数据；

提取所述训练数据的声学特征；

将所述声学特征中的每一帧波形转换为包含声音信息的多维特征向量，获得初始模型；

基于所述验证数据对所述初始模型进行验证，获得经过验证后的声学模型；

所述经过验证后的声学醋为所述预设声学模型。

在本发明所述的地铁站紧急状态下声音识别方法中，所述预设声学模型包括：时延神经网络模型、卷积神经网络模型、深度神经网络模型、长短期记忆模型、循环神经网络模型中的任意一种。

若所述声音识别结果为异常声音，则根据所述异常声音输出报警信号。

若所述声音识别结果为异常声音，则输出声音识别装置的位置信息。

本发明还提供一种地铁站紧急状态下声音识别装置，包括：

获取模块，用于获取地铁站内的声音信号；

特征提取模块，用于对所述声音信号进行声学特征提取，获得声学特征数据；

滤波模块，用于对所述声学特征数据进行滤波处理，获得声学特征向量；

识别模块，用于将所述声学特征向量输入预设声学模型中，识别所述声音信号，并输出声音识别结果。

本发明还提供一种电子设备，包括：

存储器，用于存储程序；

处理器，用于加载所述程序，执行如上所述的地铁站紧急状态下声音识别方法。

本发明还提供一种存储介质，其存储有程序，所述程序被处理器执行时实现如上所述的地铁站紧急状态下声音识别方法。

实施本发明的地铁站紧急状态下声音识别方法具有以下有益效果：包括：获取地铁站内的声音信号；对声音信号进行声学特征提取，获得声学特征数据；对声学特征数据进行滤波处理，获得声学特征向量；将声学特征向量输入预设声学模型中，识别声音信号，并输出声音识别结果。本发明可以快速识别地铁站紧急状态下的声音信号，可以准确地识别出异常危险信号，为地铁站预警和监控提供了更为精确的参考信息，且在提高识别准确率的同时，还降低了运算量，提升识别效率。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明提供的地铁站紧急状态下声音识别方法实施例一的流程示意图；

图2是本发明提供的地铁站紧急状态下声音识别方法实施例二的流程示意图；

图3是本发明提供的地铁站紧急状态下声音识别装置的结构示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

参考图1，图1为本发明提供的地铁站紧急状态下声音识别方法实施例一的流程示意图。

如图1所示，该地铁站紧急状态下声音识别方法包括：

步骤S101、获取地铁站内的声音信号。

可选的，本发明实施例中，声音信号可以通过声音传感器实时采集获得。

一些实施例中，该声音信号可以是地铁站内的公共场所实时采集到的声音信号。可选的，该声音信号包括但不限于爆炸声、尖叫声、撞击声等异常声音。

步骤S102、对声音信号进行声学特征提取，获得声学特征数据。

可选的，该声学特征数据包括：声学前端特征、滤波器组特征和梅尔倒谱系数特征中的任意一种或者多种。当然，可以理解地，该声学特征数据还可以是其他声学特征，不限于本发明的实例。

进一步地，本发明实施例的声学特征数据为定点数特征向量。

一些实施例中，对声音信号进行声学特征提取，获得声学特征数据包括：对声音信号进行分帧处理；对分帧处理后的声音信号提取声学特征。例如，先对声音信号进行分帧处理，并对分帧处理后的声音信号提取滤波器组特征，获得滤波器组特征的一阶差分特征和二阶差分特征。

步骤S103、对声学特征数据进行滤波处理，获得声学特征向量。

一些实施例中，对声学特征数据进行滤波处理，获得声学特征向量包括：对定点数特征向量中的每个定点数的声学特征分别进行滤波运算，获得多个滤波后的浮点数声学特征；多个滤波后的浮点数声学特征为声学特征向量；声学特征向量为浮点数特征向量。

例如，对定点数特征向量中的每个定点数的梅尔倒谱系数特征分别进行滤波运算，得到多个滤波后的浮点数梅尔倒谱系数特征，该多个滤波后的浮点数梅尔倒谱系数特征即为浮点数特征向量。其中，浮点数梅尔倒谱系数特征指用浮点数表示的梅尔倒谱系数特征。

步骤S104、将声学特征向量输入预设声学模型中，识别声音信号，并输出声音识别结果。

可选的，本发明实施例中，该预设声学模型包括但不限于：时延神经网络模型、卷积神经网络模型、深度神经网络模型、长短期记忆模型、循环神经网络模型中的任意一种。

可以理解地，本发明实施例中所应用的神经网络模型可以用于分类，实现识别异常声音。可以采用多种类型的异常声音的声音样本以及不包括异常声音的声音样本对神经网络模型进行训练，从而使得训练的神经网络模型能够识别当前的声音信号是否为异常声音，或者是多种类型的异常声音中的其中一类异常声音。可以基于神经网络模型的输出层的输出结果识别声音信号中的异常声音。

另外，神经网络模型可以包括与神经网络模型的输出层直接或间接连接的多个中间层，将声学特征输入预先训练的用于识别异常声音的神经网络模型，以基于神经网络模型识别声音信号中的异常声音。具体为：将声学特征输入预先训练的用于识别异常声音的神经网络模型，获取多个中间层中至少一个中间层的输出结果；将至少一个中间层的输出结果与预先获取的特征平均信息进行匹配；基于匹配结果识别声音信号中的异常声音。例如，多个中间层包括与神经网络模型的输出层连接的嵌入层，可以获取嵌入层的第一输出结果，将嵌入层的第一输出结果与预设特征信息进行匹配，基于匹配结果识别声音信号中的异常声音。

基于上述原理，本发明实施例的预设声学模型可以通过以下步骤获得：

步骤S1041、收集正常声音数据，获得正常声音数据集。

可选的，正常声音数据可以为各种正常情况下地铁站内的声音，并建立正常声音数据集。其中，该正常声音数据包括但不限于乘客的嘈杂声、列车进出站的声音、地铁站语音播报的声音等。

步骤S1042、收集异常声音数据，获得异常声音数据集。

可选的，异常声音数据可以为与呼救声、突发事件有关的关键字(或者声音)，如“救命”、“着火了”等，并建立异常声音数据集。当然，可以理解地，在一些实施例中，也可以根据场景人为定义其他关键词(字)作为异常声音数据集。

一些实施例中，突发事件有关的声音包括但不限于尖叫声、爆炸声、争吵声等。另外，异常声音数据集还包括分贝突然变大的声音。

步骤S1043、对正常声音数据集和异常声音数据集作为训练样本进行处理，获得预设声学模型。

具体的，对正常声音数据集和异常声音数据集作为训练样本进行处理，获得预设声学模型包括：对正常声音数据集和异常声音数据集进行划分，得到训练数据和验证数据；提取训练数据的声学特征；将声学特征中的每一帧波形转换为包含声音信息的多维特征向量，获得初始模型；基于验证数据对初始模型进行验证，获得经过验证后的声学模型。其中，经过验证后的声学醋为预设声学模型。

一些实施例中，在获得浮点数特征向量后，将所获得的浮点数特征向量输入预告训练验证完成的预设声学模型中，通过该预设声学模型对声音信号进行识别，以识别声音信号中是否存在异常声音，并输出声音识别结果。

本发明实施例通过采用定点运算、对声音信号进行特征提取，得到定点数特征向量，再对定点数特征向量进行滤波运算得到浮点数特征向量。其中，通过采用定点运算可以减少运算量。通过将浮点数特征向量输入预先训练完成的声音识别神经网络模型中，识别数字化声音信号是否包含异常声音，可以提高异常声音识别的准确率。

本发明实施例中，除了针对关键词(字)的识别外，还需要对没有词语意思的突发异常声音进行识别比如尖叫、爆炸、击打的声音，这些声音的最重要的特征就是分贝突然变大，高于周围的声音，扰乱正常情况的声音波形特征。当获得这些异常分贝突出的声音后，对其进行类别的判定，由于尖叫、爆炸等声音不包含具体的发音和含义，且突发性较强，更具有不规则性，所以网络将不再识别异常声音的语义，而是仅判断其与正常声音特征的相似度，如果差异性很大，则可识别为异常声音。同样地，根据异常声音的分贝大小、频率，也可以将其分为不同的危险等级，较小分贝的异常声音可能发生拥挤，推搡等低风险事件，较大分贝的异常声音可能发生爆炸、斗殴等高风险事件。

参考图2，图2为本发明提供的地铁站紧急状态下声音识别方法实施例二的流程示意图。

如图2所示，该实施例在实施例一的基础上，进一步还包括：

步骤S105、若声音识别结果为异常声音，则根据异常声音输出报警信号。同时，若声音识别结果为异常声音，则输出声音识别装置的位置信息。

具体的，通过预设声学模型识别出声音信号为呼救声音或者突发事件声音时，输出报警信号，同时，输出识别装置的位置信息。需要说明的是，本发明实施例中，该识别装置为离该异常声音最近、音量最大的声音传感器。即当识别出呼救声音或者突发事件声音时，选择获取异常声音的音量最大的声音传感器作为距离异常事发地的最近的位置，并将此声音传感器所在的位置发送给监控台或者监控终端，同时还输出异常声音的风险等级给监控台或者监控终端，以告知列车司机和相关工作人员。

参考图3，为本发明提供的地铁站紧急状态下声音识别装置的结构示意图。可以理解，本发明实施例提供的地铁站紧急状态下声音识别装置可以用于实现本发明实施例公开的地铁站紧急状态下声音识别方法。

如图3所示，该地铁站紧急状态下声音识别装置，包括：

获取模块301，用于获取地铁站内的声音信号。

特征提取模块302，用于对声音信号进行声学特征提取，获得声学特征数据。

滤波模块303，用于对声学特征数据进行滤波处理，获得声学特征向量。

识别模块304，用于将声学特征向量输入预设声学模型中，识别声音信号，并输出声音识别结果。

进一步地，本发明还提供一种电子设备，该电子设备包括：存储器，用于存储程序；处理器，用于加载程序，执行本发明实施例公开的地铁站紧急状态下声音识别方法。

进一步地，本发明还提供一种存储介质，其存储有程序，程序被处理器执行时实现本发明实施例公开的地铁站紧急状态下声音识别方法。

本发明实施例的地铁站紧急状态下声音识别方法和装置可以有效防止地铁危险事件的发生，解决了现有技术存在的应用场景有限、准确度较低、受环境影响较大等问题，不仅可以对列车与站台门缝隙之间的危险事件(如缝隙夹人、缝隙出现危险物等)进行识别，也可以对轨道列车内和站台上的危险事件进行识别，应用场景和应用范围更广。进一步地，还解决了摄像头有遮挡、画质差、视频死角导致的识别不准确的问题，识别更准确。而且，本发明的设备安装、维护成本更低。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据此实施，并不能限制本发明的保护范围。凡跟本发明权利要求范围所做的均等变化与修饰，均应属于本发明权利要求的涵盖范围。

Claims

1.一种地铁站紧急状态下声音识别方法，其特征在于，包括：

获取地铁站内的声音信号；

对所述声音信号进行声学特征提取，获得声学特征数据；

对所述声学特征数据进行滤波处理，获得声学特征向量；

2.根据权利要求1所述的地铁站紧急状态下声音识别方法，其特征在于，所述声学特征数据包括：声学前端特征、滤波器组特征和梅尔倒谱系数特征中的任意一种或者多种。

3.根据权利要求1所述的地铁站紧急状态下声音识别方法，其特征在于，所述对所述声音信号进行声学特征提取，获得声学特征数据包括：

对所述声音信号进行分帧处理；

对分帧处理后的声音信号提取声学特征。

4.根据权利要求1所述的地铁站紧急状态下声音识别方法，其特征在于，所述声学特征数据为定点数特征向量。

5.根据权利要求4所述的地铁站紧急状态下声音识别方法，其特征在于，所述对所述声学特征数据进行滤波处理，获得声学特征向量包括：

6.根据权利要求1所述的地铁站紧急状态下声音识别方法，其特征在于，所述方法还包括：

收集正常声音数据，获得正常声音数据集；

收集异常声音数据，获得异常声音数据集；

7.根据权利要求6所述的地铁站紧急状态下声音识别方法，其特征在于，所述对所述正常声音数据集和所述异常声音数据集作为训练样本进行处理，获得所述预设声学模型包括：

提取所述训练数据的声学特征；

所述经过验证后的声学醋为所述预设声学模型。

8.根据权利要求1-7任一项所述的地铁站紧急状态下声音识别方法，其特征在于，所述预设声学模型包括：时延神经网络模型、卷积神经网络模型、深度神经网络模型、长短期记忆模型、循环神经网络模型中的任意一种。

9.根据权利要求1所述的地铁站紧急状态下声音识别方法，其特征在于，所述方法还包括：

10.根据权利要求9所述的地铁站紧急状态下声音识别方法，其特征在于，所述方法还包括：

11.一种地铁站紧急状态下声音识别装置，其特征在于，包括：

获取模块，用于获取地铁站内的声音信号；

12.一种电子设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于加载所述程序，执行如权利要求1-10任一项所述的地铁站紧急状态下声音识别方法。

13.一种存储介质，其存储有程序，其特征在于，所述程序被处理器执行时实现如权利要求1-10任一项所述的地铁站紧急状态下声音识别方法。