CN106297770B - 基于时频域统计特征提取的自然环境声音识别方法 - Google Patents
基于时频域统计特征提取的自然环境声音识别方法 Download PDFInfo
- Publication number
- CN106297770B CN106297770B CN201610634966.XA CN201610634966A CN106297770B CN 106297770 B CN106297770 B CN 106297770B CN 201610634966 A CN201610634966 A CN 201610634966A CN 106297770 B CN106297770 B CN 106297770B
- Authority
- CN
- China
- Prior art keywords
- frame
- energy
- feature
- sound
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Abstract
本发明公开了一种基于时频域统计特征提取的自然环境识别方法。本发明包括如下步骤:步骤1、采集各类自然环境的声音,如发动机、汽车喇叭、风噪声等,建立声音样本库;步骤2、声音样本信号的加窗分帧处理;步骤3、提取所有帧信号在时域上的统计特征;步骤4、标记特征向量所属声音来源的种类,建立样本特征库;步骤5、利用支持向量机训练特征向量,建立训练模型;步骤6,提取目标声音的特征向量;步骤7、利用支持向量机对目标声音的特征向量进行匹配分类;步骤8、提供识别结果。本发明弥补了传统的声音LPCC和MFCC特征提取方法在时频结合方面的不足,能够判断各类目标声音的所属类型。
Description
技术领域
本发明属于声音信号识别技术领域,尤其涉及一种基于时频域统计特征提取的自然环境声音识别方法。
背景技术
近年来自然环境声音的识别取得了广泛的关注,自然环境中充满了多种声音,如车辆行驶中的发动机声和汽车喇叭声,建筑工地上的施工声音,人的说话声,鸟虫鸣叫声,风雨声等。自然环境声音的识别是机器监控的一个重要部分,对建设智慧城市和发展智能家居也有重要的作用。
目前的自然环境声音识别技术,在特征提取方面使用的技术大多借鉴于语音识别算法,包括:线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)、过零率(ZCR)等。但此类特征用于语音信号的识别,是以语音的短时平稳性为基础的,自然环境中的声音却并非都具有短时平稳性。同时,由于声音信号在传播中的的衰减效应,单一的时域特征如LPCC、ZCR或者单一的频域特征如MFCC,都不能够准确的描述不同距离下的自然环境声音信号。因此,语音识别的特征提取方法,在对自然环境声音的识别方面并不能完全适用。
发明内容
针对目前存在如以上所述的技术问题,本发明提供了一种基于时频域统计特征提取的自然环境声音识别方法。针对不同声音信号如发动机声、汽车喇叭声、建筑施工声、说话声等,根据其能量随时间变化程度的区别和频谱能量分布上的区别,对各类自然环境中的声音进行识别,判断目标声音所属的类别。
为了实现上述目的,本发明采用技术方案包括如下步骤:
步骤1、采集各类自然环境声音,建立声音样本库;
步骤2、声音样本信号的加窗分帧处理;
步骤3、提取所有帧信号在时域上的统计特征:平均帧能量变化系数、能量冲击型帧信号占比、平均能量脉冲宽度、脉冲宽度离散程度、平均脉冲间隔宽度、间隔宽度离散程度和脉冲个数,以及在频谱分布上的特征:频带能量分量占比、频带帧能量分布离散程度和总频带帧能量分布离散程度,组成特征向量;
步骤4、标记特征向量所属声音来源的种类,建立样本特征库;
步骤5、利用支持向量机训练特征向量,建立训练模型;
步骤6,提取目标声音的特征向量;
步骤7、利用支持向量机对目标声音的特征向量进行匹配分类;
步骤8、提供识别结果。
所述步骤1的建立声音样本库:将声音采集装置放置在户外施工现场,按照不同的距离采集自然环境声音,并给声音标定其所属自然环境声音的种类后作为声音样本库。自然环境声音包括:发动机声、汽车喇叭声、建筑施工声、说话声和现场风噪声。
所述步骤2的声音样本信号的加窗分帧处理:首先对声音进行滤波处理,使用高通滤波器滤除50Hz以下的低频干扰信号;再将声音分为一秒钟每段,对每一段声音加Hamming窗做分帧处理,每帧选取256个采样点,为了保持帧信号间的连续性,帧移选取为128个采样点。
所述步骤3的所有帧信号在时域上的统计特征提取过程如下:
3-1.设fs为采样频率,每秒的连续声音信号s(t)经过采样后离散化为s[n],设对每秒信号进行分帧处理的帧长为N,帧移为总帧数为NF。则第i帧信号si(n)的短时帧能量计算公式为:
3-2.对所有帧能量中位值以下的帧能量取平均值,记为Emed-ave,则:
其中Emedian为所有帧能量的中位值,而Nlower为能量在中位值以下的帧的个数,El表示中位值以下的帧能量。
3-3.对信号s[n]做傅里叶变换,得到频谱分布信息,短时傅里叶变换的公式为:
其中,Si(k)是第i帧信号si(n)的STFT。
3-4.根据不同种类的自然环境声音在每帧时域能量和频谱分布上的特点,取其统计值作为每段声音的特征。每帧信号时域能量帧能量变化系数公式表示为它反映的是帧信号的能量冲击程度。为使各类自然环境声音之间具有区别性,滤除低于帧能量平均值的帧后,取所有帧信号的平均帧能量变化系数作为特征I,即其中,为所有帧能量的平均值,mean(·)为对集合中的元素求平均值。
3-5.根据不同声音信号的特点,设定一个帧能量冲击系数的阈值T,将信号分为能量冲击型帧信号和非冲击型帧信号,滤除低于帧能量平均值的帧后,统计一段自然环境声音的冲击型能量帧信号所占比例,作为特征II,即
其中,Eave表示所有帧能量的平均值,crad(·)表示求集合中元素的个数。
由于不同的声音信号能量波形具有不同的脉冲特性,利用平均帧能量截取信号的能量波形,即高于平均能量的帧用平均能量替代,截取后的帧能量公式为:
3-6.对将被截断的各帧的序号存入一个向量a,a中的数值是递增的,即a(k)<a(k+1)。计算da(k)=a(k+1)-a(k),k=1,…,K-1,其中,K是被截断的帧的总个数。根据定义,将da表示为其中,为li维向量,表示有li个1,而Δi>1是截断能量帧的不连续点,i=1,…I是1-vector的数量,即这段信号的脉冲数量。因此脉冲的宽度 脉冲之间的间隔宽度
3-7.计算所有脉冲的宽度均值作为特征III,即mean(TERda);计算所有脉冲之间的间隔宽度的平均值作为特征IV,即mean(IoPda);计算所有脉冲的宽度变异系数作为特征V,即计算所有脉冲间隔宽度的变异系数作为特征VI,即计算所有脉冲的个数作为特征VII,即I。
由于不同声音信号的频谱分布不同,其能量集中在不同的频带上,因此将每帧信号按照频率划分为三个频带,分别记为[k1,k2]、[k3,k4]、[k5,k6],整段信号s(n)在第k频带的能量公式为:
其中,为短时傅里叶变换后,第i帧信号在第k频带的能量分量。信号s(n)在所有频带的总能量为:
因此能够计算第一个频带的能量占总频带比重,作为一段声音信号的特征VIII,即计算第二个频带能量占总能量的比重作为特征IX,即计算第三个频带能量占总能量的比重作为特征X,即
由于不同声音信号频谱特性,一段声音信号中,如说话声,建筑施工声的帧能量之间有高低间隔的情况出现,而发动机的帧能量近似平均,即不同声音信号帧能量的离散程度不同,且在不同频带有区别。因此,为了反映各类声音的在不同帧信号之间的各频带和总能量上分布的离散程度,计算总频带所有帧能量的变异系数作为特征XI,即计算第一个频带所有帧能量的变异系数作为特征XII,即计算第二个频带所有帧能量的变异系数作为特征XIII,即计算第三个频带所有帧能量的变异系数作为特征XIV,即
将以上14个特征组成一个14维向量,作为一段声音信号的特征向量。
步骤4的建立样本特征库:从声音样本库中提取每一类自然环境声音样本的特征,并给每类声音的特征标定其所属种类。
所述步骤5的建立训练模型:是利用支持向量机对样本特征库进行训练,得到训练模型。
所述步骤6的提取目标声音特征向量:目标声音的特征提取和使用和样本声音特征提取完全相同的过程。
所述步骤7的匹配分类:利用支持向量机对目标声音的特征向量与训练模型进行模式匹配,给出判断结果。
本发明的有益效果如下:
本发明的基于时频域统计特征提取的自然环境声音识别方法,由声音的特性入手,在短时帧分析的基础上,提取帧信号在时域和频谱上的特征,弥补了传统的声音LPCC和MFCC特征提取方法在时频结合方面的不足,满足自然环境声音的识别要求。利用本发明的基于时频域统计特征提取的自然环境声音识别方法能够提高识别效果。
附图说明
图1为本发明方法流程图;
图2为本发明方法中的特征提取流程图;
具体实施方式
下面结合的具体实施方式对本发明作详细说明,以下描述仅作为示范和解释,并不对本发明作任何形式上的限制。
如图1和2所示,基于时频域统计特征提取的自然环境声音(如:发动机声,汽车喇叭声,建筑施工声,说话声)识别方法具体实施方式的步骤如下:
步骤1、将采样频率为fs的声音采集装置放置在距离声源点不同距离处,多次采集每类自然环境的声音,标定声音所属类型后作为声音样本库。
步骤2、将声音样本进行预处理,通过高通滤波器,滤除50Hz以下的低频干扰信号,再将声音分帧为分为一秒钟每段,并对每段信号加Hamming窗做分帧处理,每帧选取256个采样点,帧移选取为128个采样点。
步骤3、组成样本特征向量步骤,分析每帧信号在时域及频谱上的特性,选取分析结果的统计值作为特征组成特征向量,具体分步操作如下:
(1)每秒的连续声音信号s(t)经过采样后离散化为s[n],对每秒信号进行分帧处理的帧长为N,帧移为总帧数为NF。第i帧信号si(n)的短时帧能量为对所有帧能量中位值以下的帧能量取平均值,记为Emed-ave,则其中Emedian为所有帧能量的中位值,而Nlower为能量在中位值以下的帧的个数,El表示中位值以下的帧能量。对信号做短时傅里叶变换: 其中,Si(k)是第i帧信号si(n)的STFT,得到信号频谱分布信息。
(2)计算每帧的能量变化系数:统计一段声音内的帧能量冲击程度的平均值:作为特征I;
(3)选取能量大于Emed-ave的所有帧信号,帧能量变化系数的阈值以设定4.1为例,将选取的帧信号分为能量冲击型帧和非能量冲击型帧,统计一段声音中能量冲击型帧信号所占的比例:作为特征量II;
(4)取所有帧能量的平均值Eave,用Eave截取帧能量波形,得到截取的帧能量:将被截断的各帧的序号存入一个向量a,计算da(k)=a(k+1)-a(k),k=1,…,K-1,其中,K是被截断的帧的总个数。将da表示为这种形式:其中,为li维向量,表示有li个1,而Δi>1是截断能量帧的不连续点,i=1,…I是1-vector的数量,即这段信号的脉冲数量。因此截取脉冲的宽度截取脉冲之间的间隔宽度
计算所有脉冲的宽度均值:作为特征III;计算所有脉冲之间的间隔宽度的平均值作为特征IV;计算所有脉冲宽度的变异系数:作为特征V;计算所有脉冲间隔宽度的变异系数:作为特征VI;计算所有脉冲的个数:I,作为特征VII。
(5)计算短时傅里叶变换后,第i帧信号在第k频带的能量分量:信号s(n)在所有频带的总能量: 将信号划分为[k1,k2]、[k3,k4]、[k5,k6]三个频带,计算整段信号s(n)在第k频带的能量:
计算第一个频带的能量占总频带比重:作为一段自然环境声音信号的特征VIII;计算第二个频带能量占总能量的比重:作为特征IX;计算第三个频带能量占总能量的比重作为特征X。
计算总频带所有帧能量的变异系数:作为特征XI;计算第一个频带所有帧能量的变异系数:作为特征XII;计算第二个频带所有帧能量的变异系数:作为特征XIII;计算第三个频带所有帧能量的变异系数:作为特征XIV。
将以上14个特征组成14维向量,作为一段声音信号的特征向量。
步骤4、提取所有类型声音的特征向量,标定所属种类,建立样本声音的特征向量库;
步骤5、利用支持向量机对样本特征库进行分类训练,建立训练模型;
步骤6、使用与样本声音同样的采集装置采集目标声音,按照与声音样本同样的步骤提取目标声音的特征向量;
步骤7、利用支持向量机将目标声音的特征向量与已建立的训练模型做匹配,提供分类结果;
步骤8、目标声音识别结果步骤,根据支持向量机提供的分类结果判断目标声音所属的来源种类。
Claims (7)
1.基于时频域统计特征提取的自然环境声音识别方法,其特征在于包括如下步骤:
步骤1、采集各类自然环境声音,建立声音样本库;
步骤2、声音样本信号的加窗分帧处理;
步骤3、提取所有帧信号在时域上的统计特征:平均帧能量变化系数、能量冲击型帧信号占比、平均能量脉冲宽度、脉冲宽度离散程度、平均脉冲间隔宽度、间隔宽度离散程度和脉冲个数,以及在频谱分布上的特征:频带能量分量占比、频带帧能量分布离散程度和总频带帧能量分布离散程度,组成特征向量;
步骤4、标记特征向量所属声音来源的种类,建立样本特征库;
步骤5、利用支持向量机训练特征向量,建立训练模型;
步骤6,提取目标声音的特征向量;
步骤7、利用支持向量机对目标声音的特征向量进行匹配分类;
步骤8、提供识别结果;
所述步骤3的所有帧信号在时域上的统计特征提取过程如下:
3-1.设fs为采样频率,每秒的连续声音信号s(t)经过采样后离散化为s[n],设对每秒信号进行分帧处理的帧长为N,帧移为总帧数为NF;则第i帧信号si(n)的短时帧能量计算公式为:
3-2.对所有帧能量中位值以下的帧能量取平均值,记为Emed-ave,则:
其中Emedian为所有帧能量的中位值,而Nlower为能量在中位值以下的帧的个数,El表示中位值以下的帧能量;
3-3.对信号s[n]做傅里叶变换,得到频谱分布信息,短时傅里叶变换的公式为:
其中,Si(k)是第i帧信号si(n)的短时傅里叶变换STFT;
3-4.根据不同的自然环境声音在每帧时域能量和频谱分布上的特点,取其统计值作为每段声音的特征;每帧信号时域能量帧能量变化系数公式表示为用于反映帧信号的能量冲击程度;在滤除低于帧能量平均值的帧后,取所有帧信号的平均帧能量变化系数作为特征I,即其中,为所有帧能量的平均值,mean(·)为对集合中的元素求平均值;
3-5.根据不同自然环境的特点,设定一个帧能量冲击系数的阈值T,将信号分为能量冲击型帧信号和非冲击型帧信号,滤除低于帧能量平均值的帧后,统计一段自然环境声音的冲击型能量帧信号所占比例,作为特征II,即
其中,Eave表示所有帧能量的平均值,crad(·)表示求集合中元素的个数;
由于不同的声音信号帧能量波形具有不同的脉冲特性,利用平均帧能量截取信号的能量波形,即高于平均能量的帧用平均能量替代,截取后的帧能量公式为:
3-6.对将被截断的各帧的序号存入一个向量a,a中的数值是递增的,即a(k)<a(k+1);设da(k)=a(k+1)-a(k),k=1,…,K-1,其中,K是被截断的帧的总个数;根据定义,将da表示为 其中,为li维向量,表示有li个1,而Δi>1是截断能量帧的不连续点,i=1,…I是1-vector的数量,即这段信号的脉冲数量;因此脉冲的宽度脉冲之间的间隔宽度
3-7.计算所有脉冲的宽度均值作为特征III,即计算所有脉冲之间的间隔宽度的平均值作为特征IV,即计算所有脉冲的宽度变异系数作为特征V,即计算所有脉冲间隔宽度的变异系数作为特征VI,即计算所有脉冲的个数作为特征VII,即I;
3-8.由于不同声音信号的频谱分布不同,其能量集中在不同的频带上,因此将每帧信号按照频率划分为三个频带,分别记为[k1,k2]、[k3,k4]、[k5,k6],整段信号s(n)在第k频带的能量公式为:
其中,为短时傅里叶变换后,第i帧信号在第k频带的能量分量;信号s(n)在所有频带的总能量为:
因此能够计算第一个频带的能量占总频带比重,作为一段自然环境声音信号的特征VIII,即计算第二个频带能量占总能量的比重作为特征IX,即计算第三个频带能量占总能量的比重作为特征X,即
由于不同声音信号的频谱特性,为了反映自然环境声音在不同帧信号之间的各频带和总能量上分布的离散程度,计算总频带所有帧能量的变异系数作为特征XI,即计算第一个频带所有帧能量的变异系数作为特征XII,即计算第二个频带所有帧能量的变异系数作为特征XIII,即计算第三个频带所有帧能量的变异系数作为特征XIV,即
将以上14个特征组成一个14维向量,作为一段声音信号的特征向量。
2.根据权利要求1所述的基于时频域统计特征提取的自然环境声音识别方法,其特征在于在提取所有帧信号在时域上的统计特征前,对声音样本信号的加窗分帧处理:首先对声音进行滤波处理,使用高通滤波器滤除50Hz以下的低频干扰信号;再将声音分为一秒钟每段,对每一段声音加Hamming窗做分帧处理,每帧选取256个采样点,为了保持帧信号间的连续性,帧移选取为128个采样点。
3.根据权利要求2所述的基于时频域统计特征提取的自然环境声音识别方法,其特征在于声音样本信号来源于声音样本库,将声音采集装置放置在户外施工现场,按照不同的距离采集自然环境声音,并给声音标定其所属自然环境声音的种类后作为声音样本库。
4.根据权利要求3所述的基于时频域统计特征提取的自然环境声音识别方法,其特征在于从声音样本库中提取每一类自然环境声音样本的特征,并给每类声音的特征标定其所属种类,形成样本特征库。
5.根据权利要求4所述的基于时频域统计特征提取的自然环境声音识别方法,其特征在于利用支持向量机对样本特征库进行训练,得到训练模型。
6.根据权利要求5所述的基于时频域统计特征提取的自然环境声音识别方法,其特征在于提取目标声音的特征向量,目标声音的特征向量的提取使用和样本声音特征提取完全相同的过程。
7.根据权利要求6所述的基于时频域统计特征提取的自然环境声音识别方法,其特征在于利用支持向量机对目标声音的特征向量与训练模型进行模式匹配,给出判断结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610634966.XA CN106297770B (zh) | 2016-08-04 | 2016-08-04 | 基于时频域统计特征提取的自然环境声音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610634966.XA CN106297770B (zh) | 2016-08-04 | 2016-08-04 | 基于时频域统计特征提取的自然环境声音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106297770A CN106297770A (zh) | 2017-01-04 |
CN106297770B true CN106297770B (zh) | 2019-11-22 |
Family
ID=57665404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610634966.XA Active CN106297770B (zh) | 2016-08-04 | 2016-08-04 | 基于时频域统计特征提取的自然环境声音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106297770B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106950544B (zh) * | 2017-03-06 | 2020-01-31 | 哈尔滨工程大学 | 一种基于dsp实现的大时宽信号分段识别的方法 |
CN107274913B (zh) * | 2017-05-26 | 2020-09-11 | 广东美的厨房电器制造有限公司 | 一种声音识别方法及装置 |
CN107342088B (zh) * | 2017-06-19 | 2021-05-18 | 联想(北京)有限公司 | 一种声音信息的转换方法、装置及设备 |
CN107564530A (zh) * | 2017-08-18 | 2018-01-09 | 浙江大学 | 一种基于声纹能量特征的无人机检测方法 |
CN108053828A (zh) * | 2017-12-25 | 2018-05-18 | 无锡小天鹅股份有限公司 | 确定控制指令的方法、装置和家用电器 |
CN108269579B (zh) * | 2018-01-18 | 2020-11-10 | 厦门美图之家科技有限公司 | 语音数据处理方法、装置、电子设备及可读存储介质 |
CN109472973B (zh) * | 2018-03-19 | 2021-01-19 | 国网浙江桐乡市供电有限公司 | 一种基于声音辨识的实时交通展示方法 |
CN108501003A (zh) * | 2018-05-08 | 2018-09-07 | 国网安徽省电力有限公司芜湖供电公司 | 一种应用于变电站智能巡检机器人的声音识别系统和方法 |
CN108872960A (zh) * | 2018-05-09 | 2018-11-23 | 南京航空航天大学 | 用于hrrp目标识别的滑动分帧方法 |
CN108896878B (zh) * | 2018-05-10 | 2020-06-19 | 国家电网公司 | 一种基于超声波的局部放电检测方法 |
CN108650745A (zh) * | 2018-06-28 | 2018-10-12 | 重庆工业职业技术学院 | 一种灯光智能控制系统 |
CN109387565A (zh) * | 2018-10-12 | 2019-02-26 | 山东理工大学 | 一种通过分析声音信号检测刹车片内部缺陷的方法 |
CN109902712B (zh) * | 2019-01-17 | 2021-04-16 | 国网山东省电力公司临沂供电公司 | 基于无人机巡检的输电线路驱鸟方法 |
CN110097872B (zh) * | 2019-04-30 | 2021-07-30 | 维沃移动通信有限公司 | 一种音频处理方法及电子设备 |
CN110988137A (zh) * | 2019-12-31 | 2020-04-10 | 四川长虹电器股份有限公司 | 一种基于时频域特征的异音检测系统及方法 |
CN111402889A (zh) * | 2020-03-16 | 2020-07-10 | 南京奥拓电子科技有限公司 | 音量阈值确定方法与装置、语音识别系统及排队机 |
CN111770427B (zh) * | 2020-06-24 | 2023-01-24 | 杭州海康威视数字技术股份有限公司 | 麦克风阵列的检测方法、装置、设备以及存储介质 |
CN115985331B (zh) * | 2023-02-27 | 2023-06-30 | 百鸟数据科技(北京)有限责任公司 | 一种用于野外观测的音频自动分析方法 |
CN115995231B (zh) * | 2023-03-21 | 2023-06-16 | 北京探境科技有限公司 | 语音唤醒方法、装置、电子设备及可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1100073A2 (en) * | 1999-11-11 | 2001-05-16 | Sony Corporation | Classifying audio signals for later data retrieval |
CN101599271A (zh) * | 2009-07-07 | 2009-12-09 | 华中科技大学 | 一种数字音乐情感的识别方法 |
CN102254552A (zh) * | 2011-07-14 | 2011-11-23 | 杭州电子科技大学 | 一种语义增强型交通车辆声信息融合方法 |
CN102708861A (zh) * | 2012-06-15 | 2012-10-03 | 天格科技(杭州)有限公司 | 基于支持向量机的不良语音识别方法 |
EP2860706A2 (en) * | 2013-09-24 | 2015-04-15 | Agnitio S.L. | Anti-spoofing |
CN105118516A (zh) * | 2015-09-29 | 2015-12-02 | 浙江图维电力科技有限公司 | 基于声音线性预测倒谱系数的工程机械的识别方法 |
CN105139852A (zh) * | 2015-07-30 | 2015-12-09 | 浙江图维电力科技有限公司 | 一种基于改进的mfcc声音特征的工程机械识别方法及识别装置 |
-
2016
- 2016-08-04 CN CN201610634966.XA patent/CN106297770B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1100073A2 (en) * | 1999-11-11 | 2001-05-16 | Sony Corporation | Classifying audio signals for later data retrieval |
CN101599271A (zh) * | 2009-07-07 | 2009-12-09 | 华中科技大学 | 一种数字音乐情感的识别方法 |
CN102254552A (zh) * | 2011-07-14 | 2011-11-23 | 杭州电子科技大学 | 一种语义增强型交通车辆声信息融合方法 |
CN102708861A (zh) * | 2012-06-15 | 2012-10-03 | 天格科技(杭州)有限公司 | 基于支持向量机的不良语音识别方法 |
EP2860706A2 (en) * | 2013-09-24 | 2015-04-15 | Agnitio S.L. | Anti-spoofing |
CN105139852A (zh) * | 2015-07-30 | 2015-12-09 | 浙江图维电力科技有限公司 | 一种基于改进的mfcc声音特征的工程机械识别方法及识别装置 |
CN105118516A (zh) * | 2015-09-29 | 2015-12-02 | 浙江图维电力科技有限公司 | 基于声音线性预测倒谱系数的工程机械的识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106297770A (zh) | 2017-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106297770B (zh) | 基于时频域统计特征提取的自然环境声音识别方法 | |
CN102682765B (zh) | 高速公路音频车辆检测装置及其方法 | |
CN110852201B (zh) | 一种基于多脉冲包络谱匹配的脉冲信号检测方法 | |
Bardeli et al. | Detecting bird sounds in a complex acoustic environment and application to bioacoustic monitoring | |
CN108231067A (zh) | 基于卷积神经网络与随机森林分类的声音场景识别方法 | |
CN106330385A (zh) | 一种干扰类型识别方法 | |
CN104916289A (zh) | 行车噪声环境下快速声学事件的检测方法 | |
CN103440873B (zh) | 一种基于相似性的音乐推荐方法 | |
CN111175718B (zh) | 联合时频域的地面雷达自动目标识别方法及系统 | |
CN106382981B (zh) | 一种单站次声波信号识别提取方法 | |
CN101587186B (zh) | 一种雷达脉内调制信号的特征提取方法 | |
CN102565759B (zh) | 一种基于子带信噪比估计的双耳声源定位方法 | |
CN103412287B (zh) | 基于lvd的线性调频信号参数估计方法 | |
CN103646649A (zh) | 一种高效的语音检测方法 | |
CN106373589B (zh) | 一种基于迭代结构的双耳混合语音分离方法 | |
Venter et al. | Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings | |
CN109949823A (zh) | 一种基于dwpt-mfcc与gmm的车内异响识别方法 | |
CN102636775B (zh) | 基于模糊逻辑识别的风廓线雷达回波谱重构方法 | |
CN105893976B (zh) | 一种行波信号的参数化识别方法 | |
CN109741759A (zh) | 一种面向特定鸟类物种的声学自动检测方法 | |
CN103994820A (zh) | 一种基于微孔径麦克风阵列的运动目标识别方法 | |
CN113640768B (zh) | 一种基于小波变换的低分辨雷达目标识别方法 | |
CN113345443A (zh) | 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法 | |
CN111968671B (zh) | 基于多维特征空间的低空声目标综合识别方法及装置 | |
CN103544953B (zh) | 一种基于背景噪声最小统计量特征的声音环境识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |