CN108369813A

CN108369813A - 特定声音识别方法、设备和存储介质

Info

Publication number: CN108369813A
Application number: CN201780004160.5A
Authority: CN
Inventors: 刘洪涛; 冯澍婷; 欧朋
Original assignee: Shenzhen Heertai Intelligent Technology Co Ltd Home Furnishing
Current assignee: Shenzhen H&T Intelligent Control Co Ltd
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2018-08-03
Anticipated expiration: 2037-07-31
Also published as: CN108369813B; WO2019023877A1

Abstract

一种特定声音识别方法、设备和存储介质，所述方法包括：采样声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵(201)；从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征(202)；确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特定声音特征模型(203)；如果匹配，则确认所述声音信号为特定声音(204)。上述特定声音识别方法、设备和存储介质，采用基于MFCC特征参数和SVDD模型的识别算法对特定声音进行识别，能适用于各种不同的特定声音，算法复杂度低，且计算量少、对硬件要求低，降低了产品制造成本。

Description

特定声音识别方法、设备和存储介质

技术领域

本申请实施例涉及声音处理技术，尤其涉及一种特定声音识别方法、设备和存储介质。

背景技术

在生活中，我们每天都可以听到一些特定的、没有实际语义的声音。如：哭声、鼾声、咳嗽声、呼吸声、笑声、鞭炮声等等，尽管它们没有实际的语义，但是却能够准确的反应人们的生理需求、状态或者物质的品质。例如：父母可以通过婴儿的哭声信号辨别婴儿的饱或饿状态，医生能够通过病人的鼾声、咳嗽、呼吸等等辨别人们的健康情况，人们通过鞭炮声音的大小或者次数来判断鞭炮的质量情况。这类特定声音内容比较简单、重复，却是我们生活中不可或缺的一部分，有效的识别和判断各种特定声音信号意义重大。

目前有研究通过语音识别技术识别特定声音。例如有针对咳嗽声音的识别方法，将咳嗽声音的特性和语音识别技术相结合，建立咳嗽模型，采用基于动态时间规整算法(Dynamic Time Warping，DTW)的模型匹配方法对特定人的孤立咳嗽声音进行识别。

有针对婴儿哭声的语音识别算法，语音特征参数使用目前最广泛采用的MFCC参数,使用最大欧氏距离划分初始样本,使用LBG算法不断迭代优化得到最终码本。在婴儿哭声的识别阶段,提取待识别语音的MFCC特征参数与已有码本计算矢量量化误差,若矢量量化误差两次低于判断值,输出判别为婴儿哭声的结果。

实现本申请过程中，发明人发现相关技术中至少存在如下问题：现有的识别算法，计算量大、对硬件设备要求高。且不同的特定声音需要采用不同的算法，无法使用统一的算法进行识别，算法复杂。

发明内容

本申请的目的在于提供一种特定声音识别方法、设备和存储介质，能采用统一的算法识别各种特定声音，算法简单，且计算量小，对硬件设备要求低。

为实现上述目的，第一方面，本申请实施例提供了一种特定声音识别方法，用于识别设备，所述方法包括：

采集声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵；

从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征；

确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特定声音特征模型；

如果匹配，则确认所述声音信号为所述特定声音。

可选的，所述方法还包括：

预先获取所述基于支持向量数据描述算法的特定声音特征模型。

可选的，所述预先获取所述基于支持向量数据描述算法的特定声音特征模型，包括：

采集预设数量的特定声音样本信号并获取所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵；

从所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征；

将所述特定声音样本信号的信号特征作为输入，训练支持向量数据描述算法模型，以获取所述基于支持向量数据描述算法的特定声音特征模型。

可选的，所述特定声音包括咳嗽声、鼾声、呼吸声、笑声、鞭炮声和哭声中的任意一种。

可选的，所述信号特征包括能量特征、局部特征、全局频域特征和过零率特征中的一种或多种子信号特征。

可选的，所述基于支持向量数据描述算法的特定声音特征模型包括基于支持向量数据描述算法的能量特征模型，基于支持向量数据描述算法的局部特征模型，基于支持向量数据描述算法的全局频域特征模型和基于支持向量数据描述算法的过零率特征模型中的一种或多种基于支持向量数据描述算法的子特征模型；

若所述基于支持向量数据描述算法的特定声音特征模型包括多种基于支持向量数据描述算法的子特征模型，所述确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特征模型，包括：

分别确认所述信号特征中的各个子信号特征是否均匹配预先获取的所述多种基于支持向量数据描述算法的子特征模型。

第二方面，本申请实施例提供了一种特定声音识别设备，所述特定声音识别设备包括：

声音输入单元，用于接收声音信号；

信号处理单元，用于对所述声音信号进行模拟信号处理；

所述信号处理单元与特定声音识别设备内置或者外置的运算处理单元相连，所述运算处理单元包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：

如果匹配，则确认所述声音信号为所述特定声音。

可选的，所述至少一个处理器还能够执行：

若所述基于支持向量数据描述算法的特定声音特征模型包括多种基于支持向量数据描述算法的子特征模型，所述确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特定声音特征模型，包括：

第三方面，本申请实施例还提供了一种存储介质，所述存储介质存储有可执行指令，所述可执行指令被特定声音识别设备执行时，使所述特定声音识别设备执行上述的方法

第四方面，本申请实施例还提供了一种程序产品，所述程序产品包括存储在存储介质上的程序，所述程序包括程序指令，当所述程序指令被特定声音识别设备执行时，使所述特定声音识别设备执行上述的方法。

本申请实施例提供的特定声音识别方法、设备和存储介质，采用基于MFCC特征参数和SVDD模型的识别算法对特定声音进行识别，能适用于各种不同的特定声音，算法复杂度低，且计算量少、对硬件要求低，降低了产品制造成本。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本申请各实施例的应用环境的结构示意图；

图2是咳嗽声音信号的时间-幅度图；

图3是咳嗽声音信号的时间-频率图；

图4是MFCC系数计算过程中梅尔频率滤波处理示意图；

图5是本申请实施例提供的特定声音识别方法中预先获得基于支持向量数据描述算法的特定声音特征模型的流程示意图；

图6是本申请实施例提供的特定声音识别方法的流程示意图；

图7是本申请实施例提供的特定声音识别装置的结构示意图；

图8是本申请实施例提供的特定声音识别设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提出一种基于梅尔频率倒谱系数(Mel Frequency CepstralCoefficients,MFCC)特征参数和支持向量数据描述算法(Support Vector DataDescription,SVDD)模型的特定声音识别方案，适用于图1所示的应用环境。其中，所述特定声音包括哭声、鼾声、咳嗽声、呼吸声、笑声、鞭炮声等具有重复特性的声音。所述应用环境包括用户10和特定声音识别设备20，特定声音识别设备20用于接收用户10发出的声音，并对该声音进行识别，以确定该声音是否为特定声音。

进一步的，在识别出该声音为特定声音之后，所述特定识别设备20还可以对特定声音进行记录和处理，以输出用户10发出特定声音的情况信息。该特定声音的情况信息可以包括特定声音的次数、特定声音的时长以及特定声音的分贝。例如，可以通过在特定声音识别设备中包括计数器，用于在检测到特定声音时，对特定声音进行计数统计；可以通过在特定声音识别设备中包括计时器，用于在检测到特定声音时，对特定声音的持续时长进行统计；可以通过在特定声音识别设备中包括分贝检测装置，用于在检测到特定声音时，检测该特定声音的分贝。

本申请实施例对特定声音的识别原理与语音识别的原理相似，都是将输入的声音经过处理后将其和声音模型进行比较，从而得到识别结果。其可分为两个阶段，分别为特定声音模型训练阶段和特定声音识别阶段。特定声音模型训练阶段主要是采集一定数量的特定声音样本，计算特定声音信号的MFCC特征参数，从MFCC特征参数中提取信号特征，将所述信号特征基于SVDD算法进行模型训练，得到特定声音的参考特征模型。在特定声音识别阶段，对需要判断的声音，计算其MFCC特征参数，并提取与特征模型对应的信号特征，然后判断信号特征是否匹配特征模型，如果匹配，则判为特定声音，否则判为非特定声音。其识别过程主要包括预处理、特征提取、模型训练、模式匹配及判决等。

其中，在预处理步骤，包括采样特定声音信号以及计算所述特定声音信号的MFCC系数。在特征提取步骤，从特定声音的MFCC系数矩阵中选择信号特征。在模型训练步骤，根据从特定声音的MFCC系数矩阵中提取的特征信号进行训练，训练出与特征信号对应的SVDD模型。在模式匹配及判决步骤，首先计算声音信号的MFCC系数矩阵，然后从MFCC系数矩阵中提取声音信号的所述信号特征，再判断上述信号特征是否匹配SVDD模型，如果匹配，则判断所述声音信号为特定声音信号，否则,判断所述声音信号不是特定声音信号。

MFCC结合SVDD识别特定声音的方案可以简化算法的复杂度，减少计算量，并能够显著提高特定声音识别的准确性。

本申请实施例提供了一种特定声音识别方法，可以用于上述的特定声音识别设备20，所述特定声音识别方法需要预先获得基于支持向量数据描述算法的特定声音特征模型，即基于SVDD模型的特定声音特征模型，如图5所示，所述预先获得基于支持向量数据描述算法的特定声音特征模型包括：

步骤101：采集预设数量的特定声音样本信号并获取所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵；

采样得到特定声音样本信号s(n)，并根据所述特定声音样本信号获取所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵。梅尔频率倒谱系数主要用于声音数据特征提取和降低运算维度。例如：对于一帧有512维(采样点)的数据，经过MFCC处理后可以提取出最重要的40维数据同时也达到了降维的目的。梅尔频率倒谱系数计算一般包括：预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组和离散余弦变换。

获取所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵包括以下步骤：

①预加重

预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿声音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。其实现方法是将经采样后的特定声音样本信号s(n)通过一个一阶有限长单位冲激响应(FiniteImpulse Response，FIR)高通数字滤波器来进行预加重，其传递函数为：

H(z)＝1-a·z^-1 (1)

其中,z表示输入信号，时域表示即为咳嗽声音样本信号s(n)，a表示预加重系数，一般取0.9～1.0中的常数。

②分帧

将咳嗽声音样本信号s(n)中每P个采样点集合成一个观测单位，称为帧。P的值可以取256或512，涵盖的时间约为20～30ms左右。为了避免相邻两帧的变化过大，可以让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，M的值可以约为P的1/2或1/3。通常声音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度为256个采样点，则对应的时间长度是256/8000×1000＝32ms。

③加窗

将每一帧乘以汉明窗，以增加帧左端和右端的连续性。假设分帧后的信号为S(n),n＝0,1…,P-1,P为帧的大小，那么乘上汉明窗后:S′(n)＝S(n)×W(n),其中，

其中，l表示窗长。

④快速傅里叶变换(Fast Fourier Transform，FFT)

由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同声音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到声音信号的功率谱。

⑤三角带通滤波器滤波

将能量谱通过一组梅尔尺度的三角形滤波器组进行滤波，定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，采用的滤波器为三角滤波器，中心频率为f(m),m＝1,2,...,M。M可以取22-26。各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽，请参照图4。

三角滤波器的频率响应定义为：

其中

⑥离散余弦变换

计算每个滤波器组输出的对数能量为：

对对数能量s(m)经离散余弦变换(Dual Clutch Transmission，DCT)得到MFCC系数：

步骤102：从所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征；

其中，所述信号特征可以包括能量特征、局部特征、全局频域特征和过零率特征中的一种或多种子特征。

由式(5)可知，MFCC系数为一个N*L的系数矩阵，其中N为声音信号帧数，L为MFCC系数长度。由于MFCC系数矩阵维度较高，且声音信号长度不一致导致矩阵行数N不同，MFCC系数矩阵无法作为直接输入获得SVDD模型。因此需要进一步的从MFCC系数矩阵中提取有效特征，以用于直接输入SVDD模型。

为了进一步从MFCC系数矩阵中提取有效特征，需要对MFCC系数矩阵进行降维。而直接对MFCC矩阵降维可能会损失特定声音信号有效特征,可以结合特定声音信号的时域与频域特性在MFCC系数矩阵中提取有效特征。

以特定声音信号为咳嗽声音信号为例，请参考图2，图2为咳嗽声音信号的时间-幅度图(时域图)，从图2可以看出，咳嗽声音信号的发生过程很短，具有明显的突发性，单声咳嗽声音所持续的时长通常小于550ms，甚至患上严重的咽喉和支气管疾病的病人，他们的单声咳嗽声音的时长也一般维持在1000ms左右。从能量上看，咳嗽声音信号的能量主要集中在信号的前半部分。因此，可以选择能量相对集中的信号段的能量系数作为能量特征来表征咳嗽声音样本信号的特性，例如从所述咳嗽声音样本信号中选择前1/2部分信号的一组能量系数作为能量特征，并将该能量特征作为输入，建立SVDD模型对声音信号进行识别。

由于各个咳嗽声音样本信号长度不一致将导致参数矩阵行数N不同，则能量系数的长度亦不同。因此需要将所述能量系数统一归一化到相同长度。

具体的，从咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取能量特征包括：

从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的预设比例的连续帧咳嗽声音样本信号的能量系数；

将所述连续帧咳嗽声音样本信号的能量系数基于DTW算法归整到预设长度获得所述咳嗽声音样本信号的能量特征。

具体应用中，结合咳嗽声音信号的能量分布，所述能量系数之和最大的预设比例的连续帧咳嗽声音样本信号，可以是咳嗽声音样本信号的前1/2部分、前4/7部分或者前5/9部分等等。其中，预设长度可以根据实际应用情况进行设定。

从图2中可以看出，大部分咳嗽声音信号(约90％)变化趋势基本一致，在咳嗽脉冲发生之后，信号能量迅速降低，干咳时下降速度较快，湿咳时下降速度稍慢。因此，咳嗽声音信号的变化趋势能很好的表征咳嗽声音信号的特性，可以从咳嗽声音信号的MFCC系数矩阵中提取全局频域特征(全局频域特征能反映信号的变化趋势)，并将该全局频域特征作为输入，建立SVDD模型对声音信号进行识别。

具体的，咳嗽声音样本信号的全局频域特征可以采用线性判别分析算法(LandingDistance Available，LDA)，对所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵进行降维处理获得。

图3为咳嗽声音信号的时间-频率图(频谱图)，从图3可以看出，频谱能量也集中在信号开始段，且频率分布范围较广(一般集中在200～6000Hz内)。因此，可以选择咳嗽声音样本信号中频谱能量集中的几帧信号的MFCC系数作为局部特征来表征咳嗽声音信号的特性，并将该局部特征作为输入，建立SVDD模型对声音信号进行识别。具体的，局部特征可以通过如下方法获得：从咳嗽声音样本信号中选取能量最为集中的几帧信号，然后为各帧信号的MFCC系数分配不同的权重并相加，可以获得咳嗽声音样本信号的局部特征。因为咳嗽声音样本信号的梅尔频率倒谱系数的权重与所述咳嗽声音样本信号的能量系数正相关，因此权重值可以根据嗽声音样本信号的能量系数确定。即：从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的连续S2帧咳嗽声音样本信号的梅尔频率倒谱系数，所述S2为正整数；然后基于所述S2帧咳嗽声音样本信号的能量系数确定所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数的权重，并根据所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数的权重对所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数进行加权求和，获得所述咳嗽声音样本信号的局部特征。

通过上述分析，如果特定声音为咳嗽声音信号，能量特征、局部特征、全局频域特征能反映咳嗽声音信号的特性，在咳嗽声音样本信号的MFCC系数矩阵中选择咳嗽声音信号的能量特征、全局频域特征和局部特征中的一种或者多种子信号特征。并将该一种或多种子信号特征作为输入,建立SVDD模型对声音信号进行识别，大大提高了咳嗽声音识别的准确率，同时降低了误识别率。在从咳嗽声音样本信号的MFCC系数矩阵中同时提取能量特征、局部特征和全局频域特征作为输入，训练SVDD模型对声音信号进行识别时，咳嗽声音的识别率可以达到95％以上。

也可以采用其他降维方法对特定声音样本信号的MFCC系数进行降维，例如采用DTW、主成分分析(Principal Component Analysis，PCA)等算法对MFCC系数进行降维。在采用PCA算法对咳嗽声音样本信号的MFCC系数进行降维，并利用降维后的参数训练SVDD模型的场合，获得的咳嗽声音信号的SVDD模型，对咳嗽声音与噪声区分度很小，咳嗽声音识别率约为85％，噪声误识别率达到65％。

其他的一些特定语音信号，例如：哭声、呼吸声、笑声、鼾声和爆破声等也可以根据其时域与频域特性，有选择性的从MFCC系数矩阵中提取特征向量。

步骤103：将所述特定声音样本信号的信号特征作为输入，训练支持向量数据描述算法模型，以获取所述基于支持向量数据描述算法的特定声音特征模型。

在所述特定声音为咳嗽声音的场合，分别将所述能量特征、局部特征和全局频域特征作为输入，训练SVDD模型，即训练能量特征的SVDD模型(能量特征模型)、局部特征的SVDD模型(局部特征模型)和全局频域特征的SVDD模型(全局频域特征模型)。从而获得由能量特征模型、局部特征模型和全局频域特征模型组成的基于支持向量数据描述算法的特定声音特征模型。

SVDD基本原理是为输入样本计算一个球状的决策边界，将整个空间划分为两部分，一部分是边界内的空间，看作可接受的部分；另一部分则是边界外的空间，看作是拒绝的部分。这就使SVDD具有一类样本的分类特征。

具体地，SVDD的优化目标就是，求一个中心为a，半径为R的最小球面：

使得这个球面满足(对于3维以上的数据x_i，该球面即为超球面。其中，超球面是指3维以上的空间中的球面，对应的2维空间中就是曲线，3维空间中就是球面):

满足这个条件就是说要把训练数据集中的数据点都包含在球面里，其中x_i表示输入样本数据，即特定声音样本信号。

现在有了要求解的目标，又有了约束，接下来的求解方法可以采用

Lagrangian乘子法:

其中α_i≥0,γ_i≥0，分别对参数R,a,ξ_i求偏导并令导数等于0得到：

将上面(7)、(8)、(9)代入式(6)中，便可得到其对偶问题：

其中

上面的向量内积可以通过核函数K解决，即:

通过上述计算过程可以得到，j中心a，半径为R的取值，也即确定了SVDD模型。分别利用上述计算过程可训练得到各个SVDD模型的中心a1、a2、a3和半径R1、R2、R3，分别对应能量特征模型、局部特征模型和全局频域特征模型，训练过程完成。

在训练的过程中，我们一方面通过控制超球的大小和范围使超球面包含住尽可能多的样本点，另一方面我们又要求它的半径达到最小，使其达到最优化的分类效果。

具体地，以咳嗽声音信号为例，能量特征模型、局部特征模型和全局频域特征模型，每一模型对应一个超球面，并在包含所有特定声音信号前提下，优化超球面边界，使得它的半径达到最小，最终得到最符合要求的基于支持向量数据描述算法的咳嗽信号特征模型，从而使得利用该基于支持向量数据描述算法的咳嗽信号特征模型对提取到的声音信号的信号特征进行识别时准确率高。

如图6所示，所述特定声音识别方法包括：

步骤201:采样声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵；

在实际应用中，可以在所述特定声音识别设备20上设置声音输入单元(例如麦克风)来采集声音信号，对声音信号进行放大、滤波等处理后转换成数字信号。该数字信号可以在特定声音识别设备20本地的运算处理单元中进行采样及其他计算处理，也可以通过网络上传到云端服务器、智能终端或者其他服务器中进行处理。

其中，获取声音信号的梅尔频率倒谱系数特征参数矩阵的技术细节请参照步骤101，在此不再赘述。

步骤202:从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征；

具体的，在识别咳嗽声音的场合，从特征参数矩阵中提取能量特征、局部特征、全局频域特征。其他的特定声音可以根据声音信号的时域与频域特性，从特征参数矩阵中选择信号特征。其中，所述声音信号的能量特征、局部特征和全局频域特征的具体计算方法请参照步骤102，在此不再赘述。

步骤203:确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特定声音特征模型；

具体的，在识别咳嗽声音的场合，分别判断步骤202中获取的能量特征、局部特征和全局频域特征是否符合咳嗽声特征模型中的能量特征模型、局部特征模型和全局频域特征模型，即能量特征是否符合能量特征模型、局部特征是否符合局部特征模型以及全局频域特征是否符合全局频域特征模型。由步骤103的论述可知，能量特征模型、局部特征模型和全局频域特征模型分别是中心为a1、a2、a3，半径为R1、R2、R3的超球面模型。在判断能量特征、局部特征和全局频域特征是否符合特征模型时，可以分别计算能量特征、局部特征和全局频域特征到中心a1、a2、a3的距离D1、D2、D3，只有当三个特征全部在SVDD模型边界内(即D1<R1,D2<R2,D3<R3)时，才能判定该声音信号为咳嗽声音。

步骤204:如果匹配，则确认所述声音信号为所述特定声音。

本申请实施例提供的特定声音识别方法，采用基于MFCC特征参数和SVDD模型的识别算法对特定声音进行识别，能适用于各种不同的特定声音，算法复杂度低，且计算量少、对硬件要求低，降低了产品制造成本。

相应的，本申请实施例还提供了一种特定声音识别装置，用于识别设备20，所述装置包括：

采样及特征参数获取模块301，用于采样声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵；

信号特征提取模块302，用于从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征；

特征匹配模块303，用于确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特征模型；

确认模块304，用于如果所述信号特征匹配预先获取的基于支持向量数据描述算法的特定声音特征模型，则确认所述声音信号为特定声音。

本申请实施例提供的特定声音识别装置，采用基于MFCC特征参数和SVDD模型的识别算法对特定声音进行识别，能适用于各种不同的特定声音，算法复杂度低，且计算量少、对硬件要求低，降低了产品制造成本。

可选的，在所述装置的其他实施例中，所述装置还包括：

特征模型预设模块，用于预先获取所述基于支持向量数据描述算法的特定声音特征模型；

所述特征模型预设模块，具体用于：

将所述特定声音样本信号的信号特征作为输入，训练支持向量数据描述算法模型，以获取基于支持向量数据描述算法的特定声音特征模型。

其中，可选的，在所述装置的某些实施例中，所述特定声音包括咳嗽声、鼾声、呼吸声、笑声、鞭炮声和哭声中的任意一种；

其中，可选的，在所述装置的某些实施例中，所述基于支持向量数据描述算法的信号特定声音特征模型包括基于支持向量数据描述算法的能量特征模型，基于支持向量数据描述算法的局部特征模型，基于支持向量数据描述算法的全局频域特征模型和基于支持向量数据描述算法的过零率特征模型中的一种或多种基于支持向量数据描述算法的子信号特征模型；

分别确认所述信号特征中的各个子信号特征是否均匹配预先获取的所述多种基于支持向量数据描述算法的子信号特征模型。

需要说明的是，上述装置可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

本申请实施例还提供了一种特定声音识别设备，如图8所示，所述特定声音识别设备20包括声音输入单元21、信号处理单元22和运算处理单元23。其中：声音输入单元21，用于接收声音信号，所述声音输入单元可以例如是麦克风等。信号处理单元22，用于对所述声音信号进行信号处理；所述信号处理单元22可以对所述声音信号进行放大、滤波、数模转换等模拟信号处理，将获得的数字信号发送给运算处理单元23。

所述信号处理单元22与特定声音识别设备内置或者外置的运算处理单元23相连(图8以运算处理单元内置在特定声音识别设备中为例说明)，运算处理单元23可以内置在特定声音识别设备20上，也可以外置在特定声音识别设备20外部，所述运算处理单元23还可以是远程设置的服务器，例如可以是通过网络与特定声音识别设备20通信连接的云端服务器、智能终端或者其他服务器。

所述运算处理单元23包括：

至少一个处理器232(图8中以一个处理器举例说明)和存储器231，处理器232和存储器231可以通过总线或者其他方式连接，图8中以通过总线连接为例。

存储器231用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的特定声音识别方法对应的程序指令/模块(例如，附图7所示的采样及特征参数获取模块301)。处理器232通过运行存储在存储器231中的非易失性软件程序、指令以及模块，从而执行各种功能应用以及数据处理，即实现上述方法实施例的特定声音识别方法。

存储器231可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据特定声音识别装置使用所创建的数据等。此外，存储器231可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器231可选包括相对于处理器232远程设置的存储器，这些远程存储器可以通过网络连接至特定声音识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器231中，当被所述一个或者多个处理器232执行时，执行上述任意方法实施例中的特定声音识别方法，例如，执行以上描述的图5中的方法步骤101-103，图6中的方法步骤201至步骤204；实现图7中的模块301-304的功能。

本申请实施例提供的特定声音识别设备20可以用于识别不同的特定声音，例如哭声、鼾声、咳嗽声、呼吸声、笑声、鞭炮声等。在实际使用中，在识别不同的特定声音之前，需要对特定声音识别设备20的工作模式进行切换。例如，在识别咳嗽声音时，在特征提取步骤其提取的是待测声音的能量特征、局部特征和全局频域特征，在模型训练步骤，其训练生成能量特征模型、局部特征模型和全局频域特征模型，而在模式匹配步骤，其对应的匹配能量特征与能量特征模型，局部特征与局部特征模型，全局频域特征与全局频域特征模型。而对于其他声音，也可以根据其他声音的时域和频域特性提取能量特征、局部特征、全局频域特征和过零率特征中的一种或多种子特征，并相应的建立各个子特征模型，然后在模式匹配步骤将各个子特征匹配对应的子特征模型。

本申请实施例提供的特定声音识别设备，采用基于MFCC特征参数和SVDD模型的识别算法对特定声音进行识别，能适用于各种不同的特定声音，算法复杂度低，且计算量少、对硬件要求低，降低了产品制造成本。

上述特定声音识别设备可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

本申请实施例提供了一种存储介质，所述存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行(例如图8中的一个处理器232)，可使得上述一个或多个处理器可执行上述任意方法实施例中的特定声音识别方法，例如，执行以上描述的图5中的方法步骤101-103，图6中的方法步骤201至步骤204；实现图7中的模块301-304的功能。

以上所描述的实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述，本领域普通技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种特定声音识别方法，其特征在于，所述方法包括：

如果匹配，则确认所述声音信号为所述特定声音。

2.根据权利要求1所述的特定声音识别方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的特定声音识别方法，其特征在于，所述预先获取所述基于支持向量数据描述算法的特定声音特征模型，包括：

4.根据权利要求1-3任意一项所述的特定声音识别方法，其特征在于，所述特定声音包括咳嗽声、鼾声、呼吸声、笑声、鞭炮声和哭声中的任意一种。

5.根据权利要求1-3任意一项所述的特定声音识别方法，其特征在于，所述信号特征包括能量特征、局部特征、全局频域特征和过零率特征中的一种或多种子信号特征。

6.根据权利要求5所述的特定声音识别方法，其特征在于，所述基于支持向量数据描述算法的特定声音特征模型包括基于支持向量数据描述算法的能量特征模型，基于支持向量数据描述算法的局部特征模型，基于支持向量数据描述算法的全局频域特征模型和基于支持向量数据描述算法的过零率特征模型中的一种或多种基于支持向量数据描述算法的子特征模型；

7.一种特定声音识别设备，其特征在于，所述特定声音识别设备包括：

声音输入单元，用于接收声音信号；

信号处理单元，用于对所述声音信号进行模拟信号处理；

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

如果匹配，则确认所述声音信号为所述特定声音。

8.根据权利要求7所述的特定声音识别设备，其特征在于，所述至少一个处理器还能够执行：

9.根据权利要求8所述的特定声音识别设备，其特征在于，所述预先获取所述基于支持向量数据描述算法的特定声音特征模型，包括：

10.根据权利要求7-9任意一项所述的特定声音识别设备，其特征在于，所述特定声音包括咳嗽声、鼾声、呼吸声、笑声、鞭炮声和哭声中的任意一种。

11.根据权利要求7-9任意一项所述的特定声音识别设备，其特征在于，所述信号特征包括能量特征、局部特征、全局频域特征和过零率特征中的一种或多种子信号特征。

12.根据权利要求11所述的特定声音识别设备，其特征在于，所述基于支持向量数据描述算法的特定声音特征模型包括基于支持向量数据描述算法的能量特征模型，基于支持向量数据描述算法的局部特征模型，基于支持向量数据描述算法的全局频域特征模型和基于支持向量数据描述算法的过零率特征模型中的一种或多种基于支持向量数据描述算法的子特征模型；

13.一种存储介质，其特征在于，所述存储介质存储有可执行指令，所述可执行指令被特定声音识别设备执行时，使所述特定声音识别设备执行权利要求1-6任意一项所述的方法。