CN115083439A

CN115083439A - 车辆鸣笛声识别方法、系统、终端及存储介质

Info

Publication number: CN115083439A
Application number: CN202210652023.5A
Authority: CN
Inventors: 田野; 张晓灿; 汤跃忠
Original assignee: Third Research Institute Of China Electronics Technology Group Corp; Beijing Zhongdian Huisheng Technology Co ltd
Current assignee: Third Research Institute Of China Electronics Technology Group Corp; Beijing Zhongdian Huisheng Technology Co ltd
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-09-20
Anticipated expiration: 2042-06-10

Abstract

本发明公开一种车辆鸣笛声识别方法、系统、终端及存储介质，所述方法包括：获取音频训练集，提取面向车辆鸣笛声识别任务的音频特征；构建基于支持向量机、朴素贝叶斯网络、随机森林的三种鸣笛声识别分类器；获取检测的实时音频信号提取音频特征，分别输入到训练完成的三种鸣笛声识别分类器中，相应的得到三种分类器识别结果；将三种分类器识别结果进行融合决策，并结合时序关联关系进行二次融合决策，得到最终判断实时音频信号的声音类别。本发明通过融合三种分类器的识别结果，并综合考虑时序关联关系，达到了互补提升的效果，有效提高了不同车辆鸣笛声识别的准确率和稳定性。

Description

车辆鸣笛声识别方法、系统、终端及存储介质

【技术领域】

本发明涉及声音识别技术领域，尤其涉及一种车辆鸣笛声识别方法、系统、终端及存储介质。

【背景技术】

随着我国城市化和现代化的快速发展，城市环境中的交通噪声污染和交通拥堵问题日益凸显，噪声危害已成为继空气污染之后人类公共健康的第二个杀手。不当场所、不当时间下的汽车乱鸣笛声是常见的交通噪声，严重影响着居民的生活和工作。因此需要面向汽车鸣笛声、紧急车辆鸣笛声的音频检测识别技术，为鸣笛抓拍系统提供抓拍依据，为智能交通疏导系统提供紧急避让疏导依据，从而缓解交通噪声与拥堵问题。

针对车辆鸣笛声识别任务，大多数处理方法主要包括特征提取与分类器构建两大环节，目前的分类器包括基于子带谱熵法特征和改进SVM分类器、基于信号分解、MFCC与线性预测倒谱系数融合特征与BP神经网络分类器、基于MFCC特征与卷积神经网络分类器等。由于不同特征、不同分类器间具有一定的互补性，采用多特征融合与多分类器融合对于提升鸣笛声识别效果是一种可行的思路。但从车辆鸣笛声检测应用的实时性要求方面考虑，采用多特征融合需要对实时音频提取高维特征，往往比较耗费时间，且特征维度过高对分类器也是一种负担。

鉴于此，实有必要提供一种车辆鸣笛声识别方法、系统、终端及存储介质以克服上述缺陷。

【发明内容】

本发明的目的是提供一种车辆鸣笛声识别方法、系统、终端及存储介质，旨在解决目前的多特征融合与多分类器融合需要对实时音频提取高维特征，耗费时间较多的问题，降低每个分类器的检测负担。

为了实现上述目的，本发明第一方面提供一种车辆鸣笛声识别方法，包括以下步骤：

获取音频训练集，并从所述音频训练集的音频信号中提取用于车辆鸣笛声识别的音频特征；

构建基于支持向量机、朴素贝叶斯网络、随机森林的三种鸣笛声识别分类器，并将所述音频特征作为输入分别训练三种鸣笛声识别分类器；

获取检测到的实时音频信号，从所述实时音频信号中提取用于车辆鸣笛声识别的音频特征，将所述音频特征分别输入到训练完成的所述三种鸣笛声识别分类器中，相应的得到三种分类器识别结果；

将所述三种分类器识别结果进行融合决策，并结合时序关联关系进行二次融合决策，最终判断所述实时音频信号的声音类别。

在一个优选实施方式中，所述音频训练集包括道路噪声、汽车鸣笛声、紧急车辆鸣笛声的音频信号；所述从所述音频训练集的音频信号中提取用于车辆鸣笛声识别的音频特征包括：

采用时频域特征提取方法提取所述音频训练集中每个音频信号的多个音频特征的特征值。

在一个优选实施方式中，所述采用时频域特征提取方法提取所述音频训练集中每个音频信号的多个音频特征的特征值包括：

对音频信号进行分帧及加窗；

对每帧信号提取帧特征；

对提取的帧特征分段以及取均值得到段特征，并作为最终的特征向量。

在一个优选实施方式中，所述帧特征包括时域能量、过零率和MFCC特征。

在一个优选实施方式中：

若定义第i帧信号为x_i，则该帧时域能量特征E_i＝x_i ²；

若定义第i帧信号为x(i)，帧长为L，则该帧过零率特征

梅尔频率的转换公式为：

f为音频信号的普通频率；其中，所述MFCC特征为12阶MFCC特征。

在一个优选实施方式中，所述将所述三种分类器识别结果进行融合决策包括：

对所述三种分类器识别结果进行投票表决，得到三个分类器的融合识别结果；其中，所述融合识别结果取自获得票数最多的分类器识别结果；若所述三种分类器识别结果均不相同，则以单独分类时准确率最高的分类器的识别结果为融合识别结果。

在一个优选实施方式中，所述结合时序关联关系进行识别结果的二次融合包括：

若后一时刻识别结果与前一时刻识别结果不同时，则连续检测后续预设数量时刻的融合识别结果，若其中半数以上时刻的识别结果为所述后一时刻识别结果，则保留所述后一时刻识别结果，否则将所述后一时刻识别结果改为所述前一时刻识别结果。

本发明第二方面提供一种车辆鸣笛声识别系统，包括：

特征提取模块，用于获取音频训练集，并从所述音频训练集的音频信号中提取用于车辆鸣笛声识别的音频特征；

分类器训练模块，用于构建基于支持向量机、朴素贝叶斯网络、随机森林的三种鸣笛声识别分类器，并将所述音频特征作为输入分别训练三种鸣笛声识别分类器；

鸣笛声识别模块，用于获取检测到的实时音频信号，从所述实时音频信号中提取用于车辆鸣笛声识别的音频特征，将所述音频特征分别输入到训练完成的所述三种鸣笛声识别分类器中，相应的得到三种分类器识别结果；

结果融合模块，用于将所述三种分类器识别结果进行融合决策，并结合时序关联关系进行二次融合决策，最终判断所述实时音频信号的声音类别。

本发明第三方面提供一种终端，所述终端包括存储器、处理器以及存储在所述存储器的计算机程序，所述计算机程序被所述处理器执行时实现如上述实施方式任一项所述的车辆鸣笛声识别方法。

本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施方式任一项所述的车辆鸣笛声识别方法。

本发明提供的车辆鸣笛声识别方法、系统、终端及存储介质，采用支持向量机、朴素贝叶斯网络、随机森林这三种在分类识别领域应用广泛且各具特色的方法作为基础分类器，在实时检测中，对实时音频提取特征后送入三个分类器进行识别，通过融合三种分类器的识别结果，并综合考虑时序关联关系，达到了互补提升的效果，有效提高了不同车辆鸣笛声识别的准确率和稳定性。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明提供的车辆鸣笛声识别方法的流程图；

图2为图1所示的车辆鸣笛声识别方法的流程拓扑图；

图3为本发明提供的车辆鸣笛声识别方法在一个具体实施方案中识别结果类别标签图；

图4为本发明提供的车辆鸣笛声识别系统的框架图。

【具体实施方式】

为了使本发明的目的、技术方案和有益技术效果更加清晰明白，以下结合附图和具体实施方式，对本发明进行进一步详细说明。应当理解的是，本说明书中描述的具体实施方式仅仅是为了解释本发明，并不是为了限定本发明。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

实施例一

在本发明的实施例中，提供一种车辆鸣笛声识别方法，提出基于支持向量机、朴素贝叶斯网络、随机森林的多分类器融合决策方法，利用不同分类器间的互补性，提升在道路噪声中对车辆鸣笛声识别的准确率与实际应用中模型的泛化能力。

如图1与图2所示，车辆鸣笛声识别方法包括以下步骤S100-S400。

步骤S100，获取音频训练集，并从音频训练集的音频信号中提取用于车辆鸣笛声识别的音频特征。

具体的，音频训练集包括道路噪声、汽车鸣笛声、紧急车辆鸣笛声的音频信号。其中，采用时频域特征提取方法提取所述音频训练集中每个音频信号的多个音频特征的特征值。需要说明的是，为了从时域、频域角度获取不同车辆鸣笛声间的可区分性信息，又兼顾特征提取的实时性，本实施方式提取时域能量、过零率，以及在声音信号处理中应用最广的MFCC特征(梅尔倒谱系数特征)作为后续分类器的输入。具体的，音频特征提取流程如下：

首先，对音频信号进行分帧及加窗；其中，帧长设置为20ms，帧移为10ms，即以50％的重叠度分帧，并采用Hamming窗(海明窗，是余弦窗的一种，又称改进的升余弦窗)避免帧信号前后端信号不连续的问题。

其次，对每帧信号提取帧特征；帧特征包括时域能量、过零率和MFCC特征共14维的特征。

其中，音频时域能量指的是一段时长内音频信号所具备的能量大小，本实施例指的是每帧信号的能量。若定义第i帧信号为x_i，则该帧时域能量特征E_i＝x_i ²。

音频时域过零率指的是一段时长内音频信号符号改变的次数，若定义第i帧信号为x(i)，帧长为L，则该帧过零率特征

音频频域梅尔频率倒谱系数MFCC是一种借鉴人耳听觉特性的非线性特征，通过将音频信号从时域转换到频域、再到mel频率刻度，实现对不同频率的声音给予不同感知能力。音频信号的梅尔频率的转换公式为：

f为音频信号的普通频率。根据对数性质可知，mel(梅尔)频率在低频部分随频率值变化较快，而在高频部分变化较慢，与人耳听觉规律相似。MFCC具有较好的声音表征与抗噪声干扰能力，在声音识别认知领域得到了较多的应用，因此，本实施例选择MFCC作为频域的代表特征。需要说明的是，MFCC特征的提取过程主要包括信号分帧、加窗、傅里叶变换、mel滤波、对数运算、离散余弦变换等步骤，详细的计算过程可参阅现有技术，本发明在此不做限定。为了降低车辆鸣笛声识别过程的耗时，本实施例只取12阶MFCC特征，即加上时域能量、过零率共有14维特征。

最后，对提取的帧特征分段以及取均值得到段特征，并作为最终的特征向量；其中，段长设置为25ms，段移为10ms。需要说明的是，为了缓解帧特征的短时波动，本实施例对提取的帧特征分段、取均值得到段特征，作为最终的特征向量。

步骤S200，构建基于支持向量机、朴素贝叶斯网络、随机森林的三种鸣笛声识别分类器，并将音频特征作为输入分别训练三种鸣笛声识别分类器。

在本步骤中，基于所述音频特征的特征值，分别采用支持向量机、朴素贝叶斯网络、随机森林方法训练鸣笛声识别分类器。以下，对三种分类器进行说明。

(1)支持向量机

SVM(Support Vector Machine，支持向量机)是一种应用非常广泛的分类方法，通过在特征空间中找到最优超平面，将不同类别的数据区分开。假设存在训练样本G＝{(x_i,y_i),i＝1,2,…,l}，其中每一个样本x_i∈R^d属于一个类别y∈{+1,-1}。基于非线性映射函数

SVM将在原始空间上线性不可分的输入数据，投影到一个更高维度的特征空间F＝Rⁿ，则可得到线性判别函数：

这里，非线性映射的核函数选择是分类器构建的关键。

在SVM算法中，比较常用的核函数有：多项式核、高斯径向基核、指数径向基核等。本实施例中考虑所涉及数据的特性，选用了高斯径向基核作为SVM的核函数。

(2)朴素贝叶斯网络

贝叶斯网络是一种概率图模型，在分类预测等不确定性分析问题中有着重要应用。贝叶斯网络由一个有向无环图和一个条件概率表组成，前者用于描述属性间的依赖关系，后者描述属性间的联合概率分布[14]。假设数据集的特征属性集合为D＝{D₁,D₂,…,D_k}，类别标签集合C＝{C₁,C₂,…,C_m}，d_i是特征属性D_i的取值，则数据样本x＝{d₁,d₂,…,d_k}属于类别c_j的概率可以表示为：

其中，p(d₁,d₂,…,d_k|c_j)是标签c_j的条件概率，p(c_j)是标签c_j的先验概率。通过计算x属于每个类别的概率，并选其最大值作为x的类别属性，来实现对数据的分类。

朴素贝叶斯是一种最基本的贝叶斯网络分类器，优点是计算高效、泛化能力强。因此，本实施例选用了朴素贝叶斯方法。朴素贝叶斯方法中假设属性间相互独立，则联合概率可转换为各属性边缘概率的乘积，即

基于此，根据后验概率最大化准则

可以求解样本x对应的类别标签。

(3)随机森林

随机森林(Random Forest，RF)是一种典型的集成学习方法，采用Bagging策略(即引导聚集算法，又称装袋算法)，基于若干个决策树构成集成分类器，最终分类结果由各决策树的识别结果综合投票决定。决策树是组成随机森林分类器的基础单元，每棵决策树包含一系列分叉节点，形成二叉树的结构。每次分叉时选择最佳分类属性，根据属性值确定每个节点处的划分结果。

随机森林模型的构建过程为：

①采用Bootstrap方法从训练数据样本中有放回的抽样，作为单个决策树的训练样本。其中，Bootstrap方法为非参数统计中一种重要的估计统计量变异性，并可进行统计量区间估计的统计方法，也称为自助法。

②基于随机抽样的训练数据进行决策树分类训练。

③重复上述操作得到多个决策树，形成决策森林。

④对测试数据，综合多个决策树的分类结果进行投票，得到最终的分类结果。

需要说明的是，随机森林模型的构建过程中随机为每个决策树选择训练样本，并在决策树每个节点划分时随机选取特征属性，有效避免了过拟合问题，提升了模型的泛化能力。

步骤S300，获取检测到的实时音频信号，从实时音频信号中提取用于车辆鸣笛声识别的音频特征，将音频特征分别输入到训练完成的三种鸣笛声识别分类器中，相应的得到三种分类器识别结果。

步骤S400，将三种分类器识别结果进行融合决策，并结合时序关联关系进行二次融合决策，最终判断实时音频信号的声音类别。

需要说明的是，对三种分类器识别结果进行投票表决，得到三个分类器的融合识别结果；其中，融合识别结果取自获得票数最多的分类器识别结果；若三种分类器识别结果均不相同，则以单独分类时准确率最高的分类器的识别结果为融合识别结果；

其中，基于的融合识别结果，结合时序关联关系进行识别结果的二次融合，得到最终的识别结果。

需要说明的是，若后一时刻识别结果与前一时刻识别结果不同时，则连续检测后续预设数量时刻的融合识别结果，若其中半数以上时刻的识别结果为后一时刻识别结果，则保留后一时刻识别结果，否则将后一时刻识别结果改为前一时刻识别结果。

举例来说，在车辆鸣笛声检测任务中，由于道路噪声干扰，瞬时识别结果往往不稳定，因此本实施例考虑识别结果的前后关联关系，设定在实时检测过程中，后一时刻识别结果B与前一时刻识别结果A不同时，连续检测后续8个时刻的结果，若其中有5个时刻的识别结果为B，则保留结果B，否则，将识别结果B改为前序结果A，从而减少误报警率，保证识别稳定性。

下面结合具体应用实例分析本发明的实际效果：

在本发明的案例分析中，道路噪声音频数据来自于谷歌公开的Audioset数据集，汽车鸣笛声和紧急车辆鸣笛声音频数据来自于UrbanSound8K数据集。

对三种声音的音频信号，统一采样到16kHz，提取14维的帧特征与段特征，共得到2500组特征数据样本，随机抽取其中的1500组作为训练样本，剩余1000组作为测试样本数据。

基于训练样本数据，训练SVM、朴素贝叶斯网络和随机森林分类器。基于测试样本数据对各分类器的识别性能进行验证，并采用两种融合决策方法对识别结果进行二次处理得到最终的识别结果。测试结果如图3和表1所示。从表中可以看到，三个分类器的测试分类准确率都在95％上下，随机森林的准确率最高为95.37％，因此在融合决策中，遇到三者意见不同时以随机森林分类器的识别结果为准。通过三个分类器的融合，综合识别准确率提升到97.5％，说明三个分类器在决策中确实存在着互补性，可以实现整体识别性能的提升。再考虑前后时序关联关系，最终的识别准确率可以提升到98.60％。从图3中可以清晰地看到两种融合过程中识别标签的变化情况。

表1各个分类器及融合决策的识别结果明细

实施例二

本发明第二方面提供一种车辆鸣笛声识别系统100，基于支持向量机、朴素贝叶斯网络、随机森林的多分类器融合决策方法，利用不同分类器间的互补性，提升识别的准确率与实际应用中模型的泛化能力。需要说明的是，车辆鸣笛声识别系统100的实现原理及实施方式与上述的车辆鸣笛声识别方法相一致，故以下不再赘述。

如图4所示，车辆鸣笛声识别系统100包括：

特征提取模块10，用于获取音频训练集，并从音频训练集的音频信号中提取用于车辆鸣笛声识别的音频特征；

分类器训练模块20，用于构建基于支持向量机、朴素贝叶斯网络、随机森林的三种鸣笛声识别分类器，并将音频特征作为输入分别训练三种鸣笛声识别分类器；

鸣笛声识别模块30，用于获取检测到的实时音频信号，从实时音频信号中提取用于车辆鸣笛声识别的音频特征，将音频特征分别输入到训练完成的三种鸣笛声识别分类器中，相应的得到三种分类器识别结果；

结果融合模块40，用于将三种分类器识别结果进行融合决策，并结合时序关联关系进行二次融合决策，最终判断实时音频信号的声音类别。

实施例三

实施例四

本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施方式任一项所述的车辆鸣笛声识别方法的。

综上所述，本发明提供的车辆鸣笛声识别方法、系统、终端及存储介质，采用支持向量机、朴素贝叶斯网络、随机森林这三种在分类识别领域应用广泛且各具特色的方法作为基础分类器，在实时检测中，对实时音频提取特征后送入三个分类器进行识别，通过融合三种分类器的识别结果，并综合考虑时序关联关系，达到了互补提升的效果，有效提高了不同车辆鸣笛声识别的准确率和稳定性。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述系统的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的系统或装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的系统或装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，系统或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本发明并不仅仅限于说明书和实施方式中所描述，因此对于熟悉领域的人员而言可容易地实现另外的优点和修改，故在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下，本发明并不限于特定的细节、代表性的设备和这里示出与描述的图示示例。

Claims

1.一种车辆鸣笛声识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的车辆鸣笛声识别方法，其特征在于，

所述音频训练集包括道路噪声、汽车鸣笛声、紧急车辆鸣笛声的音频信号；

所述从所述音频训练集的音频信号中提取用于车辆鸣笛声识别的音频特征包括：

3.如权利要求2所述的车辆鸣笛声识别方法，其特征在于，所述采用时频域特征提取方法提取所述音频训练集中每个音频信号的多个音频特征的特征值包括：

对音频信号进行分帧及加窗；

对每帧信号提取帧特征；

4.如权利要求3所述的车辆鸣笛声识别方法，其特征在于，所述帧特征包括时域能量、过零率和MFCC特征。

5.如权利要求4所述的车辆鸣笛声识别方法，其特征在于：

若定义第i帧信号为x_i，则该帧时域能量特征E_i＝x_i ²；

若定义第i帧信号为x(i)，帧长为L，则该帧过零率特征

梅尔频率的转换公式为：

6.如权利要求1所述的车辆鸣笛声识别方法，其特征在于，所述将所述三种分类器识别结果进行融合决策包括：

7.如权利要求1所述的车辆鸣笛声识别方法，其特征在于，所述结合时序关联关系进行识别结果的二次融合包括：

8.一种车辆鸣笛声识别系统，其特征在于，包括：

9.一种终端，其特征在于，所述终端包括存储器、处理器以及存储在所述存储器的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7任一项所述的车辆鸣笛声识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的车辆鸣笛声识别方法。