CN110610722B - 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法 - Google Patents

短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法 Download PDF

Info

Publication number
CN110610722B
CN110610722B CN201910914499.XA CN201910914499A CN110610722B CN 110610722 B CN110610722 B CN 110610722B CN 201910914499 A CN201910914499 A CN 201910914499A CN 110610722 B CN110610722 B CN 110610722B
Authority
CN
China
Prior art keywords
vector
audio
sound
mel
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910914499.XA
Other languages
English (en)
Other versions
CN110610722A (zh
Inventor
贾懋珅
赵文兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910914499.XA priority Critical patent/CN110610722B/zh
Publication of CN110610722A publication Critical patent/CN110610722A/zh
Application granted granted Critical
Publication of CN110610722B publication Critical patent/CN110610722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明属于智能应用型声场判别领域,具体涉及一种短时能量及梅尔倒谱系数联合矢量量化的危险声场景判别方法。该方法具体包括危险声场景声音库的建立、构建音频时频复合特征参数、引入改进型矢量量化模型对音频特征参数训练;在危险声场景匹配阶段利用欧式距离测度算法进行失真度匹配,找到最小平均误差失真度作为最佳匹配进而达到识别效果。

Description

短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险 声场景判别方法
技术领域
本发明属于智能应用型声场判别领域,具体涉及一种短时能量及梅尔倒谱系数联合矢量量化的危险声场景判别方法。
背景技术
现实声场景中包含丰富的有用信息,当一个环境中存在着针对而言的潜在危险时,可通过对场景中声音的关键特征进行识别来达到对危险声环境检测的效果。当前,儿童的安全问题引起了社会及广大家长的高度重视。众所周知,在儿童活动生活的环境中,当出现一些非常规的声音时,意味着这个环境中存在潜在的危险。此时,如果能及时提醒儿童及家长,可有效避免针对儿童的危险事件发生。但当前电池发展遭遇瓶颈,现有佩戴式电子设备中电池容量较小、续航时间相对短,这给嵌入此类设备中的算法提出了更高的要求,希望嵌入的异常声音识别算法要简单、计算复杂度要低。然而,现有的声场识别算法复杂度都比较高,识别时间较长不能满足便携式电子设备的要求。
发明内容
针对低功耗便携式声场监控设备的要求,本发明主要研究低复杂度的危险声场景判决方法,应用于低供电量的便携式/佩戴式设备。本发明提供一种基于短时能量及梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)联合矢量量化的低复杂度危险声场景判别方法,该方法包括目标声音库的建立、基于时域的背景声音强度实时更新方法、基于频域的异常声音片段均值滤波MFCC参数提取方法、引入改进型矢量量化模型训练及异常声音匹配检测方法。
本发明的发明点在于构建了新的音频特征,即将帧能量E(m)替代MFCC的第一维系数组成新的梅尔频率倒谱系数矢量E-MFCC,由于现实声场中异常声音的特点大多比较尖锐、短促(如尖叫、爆炸声、哭泣声等)即,短时能量比较大,因此,可将音频的短时能量作为检测异常声音的一个特征,将时域的短时能量特征放到梅尔频率倒谱系的第一维中可一次性检测音频的能量与声学特征,简化了音频特征检测的步骤,降低了算法的复杂度;此外本发明通过对每段原始音频构建最佳码书,利用欧式距离测度算法进行失真度匹配,找到最小平均误差失真度即为最佳匹配进而达到识别效果。相比传统矢量量化,本发明方法灵活性更强,可同时识别多类音频。
本发明的技术方案用于解决实际场景中对目标声源进行精确感知重放困难的问题,通过检测实际场景中目标声源的类型来判断用户是否处于危险环境,主要分为以下几个步骤:
步骤1,构建声音特征与危险场景间映射关系
步骤2,训练阶段,建立异常声音模板库
步骤3,识别阶段,提取待检测声音的特征矢量与模板进行匹配,最终输出最优匹配结果。
有益效果
1、复杂度低且灵活性更强
2、便于嵌入到低耗能的设备中
3、经过改进的矢量量化可检测多类声音类型
4、经过复合的E-MFCC参数鲁棒性更高
该方法复杂度低、实时性高,解决了在低供电量的小型设备对危险声场景进行实时检测的问题,最重要的是本方法通过选用小样本量数据进行声信号特征空间分类,更易于实际操作。
附图说明
图1.声音类型与场景间映射关系
图2.危险声场景识别流程图。
具体实施方式
本发明的技术方案用于解决实际场景中对目标声源进行精确感知重放困难的问题,通过检测实际场景中目标声源的类型来判断用户是否处于危险环境,主要分为以下几个步骤:
步骤1,构建声音特征与危险场景间映射关系
根据儿童所处环境声环境特点,将常见声音分为若干类,当出现孩子哭声、玻璃碎裂、物体摔裂、爆炸、车辆急促鸣笛等声音时意味着出现潜在危险;当出现常规语音、街道声、办公室声、上下课铃声等时意味着此时所处环境基本安全。这几类声音分别映射两种场景:危险环境和非危险环境(本设计原始声音样本选取比较灵活,用户可以根据自身需求添加目标音频构造危险场景映射关系)。如图1.所示:
步骤2,训练阶段,建立异常声音模板库
选取孩子哭声、玻璃碎裂、物体摔裂、爆炸、车辆急促鸣笛和常规语音、街道声、办公室声、上下课铃声这几类数据作为原始训练数据。提取原始音频特征进行矢量量化建立模板库。具体流程为:
Step2.1:声音预处理
在数据特征提取前,先做预处理操作。预处理包括:带通滤波、预加重、分帧。
(1)选取8kHz采样音频信号作为处理对象进行带通滤波处理,为提取人耳感知最重要的频率成分,选用通带范围为20Hz-4000Hz的带通滤波器对信号进行处理。本设计中带通滤波选用有限冲击响应(Finite Impulse Filter,FIR)滤波器,滤波过程为:
Figure BDA0002215695610000041
其中,N为处理信号的采样点数,h(l)为FIR滤波器系数,s_input()为输入信号,为s_in(n)为带通滤波后信号。
(2)对带通滤波后信号s_in(n)进行预加重处理,本设计选用具有6dB/倍频程的数字滤波器实现,用以提升预处理后信号的高频特性,使得信号频谱变得相对平坦,同时使语音信号在从低频到高频的整个频带中,能用同样的信噪比求频谱。
预加重处理如下式所示:
s(n)=s_in(n)-μ*s_in(n-1)
其中,μ为预加重系数,其取值为0.96,s(n)为预加重处理后信号。
(3)对预加重后的信号进行加窗分帧处理。以帧长为0.064秒对音频进行分帧,帧与帧之间保持75%的重叠率,每一帧用相同长度的汉宁窗进行加权。
Step2.2:提取音频组合特征
本技术联合时域的短时能量和梅尔频率倒谱系数联合构成一个20维的特征参数矢量,此矢量第一维为音频信号帧能量,后19维为抽选的梅尔频率倒谱系数。本技术选用此特征矢量进行危险场景分类。特征求取分为两步:帧能量求取和梅尔频率倒谱系数求取。
(1)计算音频信号的帧能量,假定当前为音频信号的第m帧信号数据,则该帧音频信号的平均能量可由下式表示:
Figure BDA0002215695610000051
其中,Sm(n)是经预处理后的第m帧音频信号,N为帧长,本设计中选取N为512,E(m)为第m帧音频信号的平均帧能量。E(m)可作为能量开关,当某一帧信号的E(m)出现阶跃式突变时,可认定声音信号从无声变化为有声或从有声变为无声。即,场景状况发生了变化,此情况可作为情景变化的判别准则之一。
(2)计算音频信号每一帧的线性频谱,当前第m帧音频信号进行离散傅立叶变换后得到线性频谱Xm(k)的具体公式如下:
Figure BDA0002215695610000052
其中,Xm(k)为频域信号,Sm(n)为时域信号,k为频率索引,N为离散傅里叶变换的样点长度。
(3)计算音频每帧频谱对数能量,将上述频谱Xm(k)通过梅尔频率滤波器组,得到梅尔频谱,通过计算梅尔频谱的对数能量,得到对数能量频谱S(q),其中,当前第m帧音频信号的第q个频谱对数能量频谱Sm(q)计算公式如下:
Figure BDA0002215695610000053
式中,Hq(k)是梅尔滤波器组,q为梅尔滤波器编号,M滤波器总数,此处为20。
(4)计算梅尔频率倒谱系数:将上述对数能量谱经离散余弦变换得到MFCC系数,其中,当前第m帧音频信号的第q个维MFCC系数计算公式如下:
Figure BDA0002215695610000054
式中,M为梅尔滤波器总数,也为MFCC的维数,此处为20
(5)将音频信号的帧能量E(m)替代MFCC的第一维系数,组合成新的梅尔频率倒谱系数矢量E-MFCC
Step2.3:特征参数的新型矢量量化
根据原矢量量化的特点每段音频的特征经过矢量量化只能生成一个胞腔且只能进行二分类判别不能满足本发明需求,故将原本矢量量化中的阈值判别改为匹配判别,然后在后续的步骤中用欧式距离测度算法进行失真度匹配,找到最小平均误差失真度即为最佳匹配进而达到识别效果。经改进的矢量量化可以进行多类判别且灵活性很高、复杂度更低。
构建样本音频矢量量化器,为方便表述,将上述所求样本音频库中的某段异常声音的特征矢量E-MFCC,记为X={X1,X2,…Xm,…,XQ}
其中,X在M维欧几里得空间RM中,Q为一段音频的总帧数,第m帧的特征矢量可记为Xm={x1,x2,…,xM},m=1,2,…,Q
将M维欧几里得空间RM无遗漏地划分成J个互不相交的子空间R1,R2,…,RJ,这些子空间Rj(j=1,2,…,J)称为胞腔,在每一个子空间Rj找一个代表矢量Yj,则J个代表矢量可以组成矢量集为Y={Y1,Y2,…,Yj,…,YJ}
这样,Y就组成了一个矢量量化器,被称为码书;Yj称为码字;Y内的矢量个数J称为码书长度或码书尺寸。不同的划分或不同的代表矢量选取方法就可以构成不同的矢量量化器;也就是说每段音频经过矢量量化可组成一个矢量量化器。
选取欧式距离测度,设待测M维特征矢量
Figure BDA0002215695610000061
与码书中某个M维码字Y比较,xq与yq分别表示
Figure BDA0002215695610000062
与Y的同一维分量(q=1,2,…,M),则其欧式距离测度可表示为
Figure BDA0002215695610000071
构建样本音频特征矢量最佳码书,由于不同码字的选取会构成不同的码书,因此,若能找到最合适的码字组成码书,此码书就为最佳码书(训练用的特征矢量X与该矢量训练出的码字Y之间的畸变最小),最佳码书构建过程如下:
(1)设定码书和迭代训练参数:设全部输入训练矢量X的集合为Z,设置码书的尺寸为J,迭代算法的最大迭代次数为G,畸变最小阈值为σ
(2)设定码字初始化值,设置J个码字的初始值为
Figure BDA0002215695610000072
畸变初值D(0)=∞,迭代次数初值g=1
(3)根据最近邻近准则将Z分成了J个子集
Figure BDA0002215695610000073
即当
Figure BDA0002215695610000074
时,下式应成立:
Figure BDA0002215695610000075
(4)计算总畸变D(g)
Figure BDA0002215695610000076
(5)计算畸变改进量ΔD(g)的相对值
Figure BDA0002215695610000077
(6)计算新码书的码字
Figure BDA0002215695610000078
Figure BDA0002215695610000079
其中T是矢量集合Z所包含矢量X的个数
(7)判断σ(g)是否小于σ,若是,转为(9)执行;否则,转入(8)执行。
(8)判断g是否小于G,若否,转为(9)执行;否则,令g=g+1转入(3)执行。
(9)迭代终止;输出
Figure BDA0002215695610000081
作为训练成的最佳码书的码字,并且输出总畸变D(g)
把上述提取的异常声音特征矢量E-MFCC经新型矢量量化处理生成最佳码书存入模板数据库中留待与被分类样本进行匹配。
步骤3,识别阶段,提取待检测声音的特征矢量与模板进行匹配
本技术采用新型矢量量化分类器将待测音频经上述预处理、特征参数提取处理,输入新型矢量量化分类器经与模板最优匹配输出检测结果。危险声场景识别流程图如图2.所示,具体流程为:
(1)选取一段待测音频经上述预处理、特征参数提取处理得序列
Figure BDA0002215695610000082
(2)将模板库中的每个模板依次对特征矢量序列进行矢量量化,计算各自的平均量化误差
Figure BDA0002215695610000083
式中,
Figure BDA0002215695610000084
是模板库中第p个码书中的第j个码字矢量;而
Figure BDA0002215695610000085
是待测矢量
Figure BDA0002215695610000086
和码字矢量
Figure BDA0002215695610000087
之间的失真测度。
(3)选取平均量化误差最小的码书所对应声音库中的声音类型作为系统的最优匹配结果,若匹配的声音类型为孩子哭声、玻璃碎裂、物体摔裂、爆炸、车辆急促鸣笛,则把结果定为用户处于危险场景。若匹配的声音类型为常规语音、街道声、办公室声、上下课铃声,则把结果定为用户处于非危险场景。

Claims (2)

1.短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法,其特征在于包括以下步骤:
步骤1,构建声音特征与危险场景间映射关系,即根据儿童所处环境声环境特点,将声音映射为危险场景或非危险场景;
步骤2,训练阶段:选取儿童所处环境声环境中的常见声音作为原始样本,经处理后建立异常声音模板库,具体包括:
Step2.1:对原始样本音频预处理,预处理包括:带通滤波、预加重、加窗分帧;
Step2.2:按帧提取预处理后的所有原始样本的音频组合特征,音频组合特征由音频信号的平均能量E(m)和MFCC梅尔频率倒谱系数C(q)构成,特征在于,将音频信号的平均能量E(m)替代MFCC的第一维系数,组合成新的梅尔频率倒谱系数矢量E-MFCC;
Step2.3:根据所有原始样本的音频组合特征构建初步样本音频矢量量化器Y,即码书,表示为Y={Y1,Y2,…,Yj,…,YJ},其中,Yj称为码字,Y内的矢量个数J称为码书长度或码书尺寸,码字用于表示所有原始样本可被划分的类别,Yj的确定方法如下:
为方便表述,将上述矢量E-MFCC,记为
X={X1,X2,…Xm,…,XQ}
其中,X在M维欧几里得空间RM中,Q为一段音频的总帧数,第m帧的特征矢量可记为Xm={x1,x2,…,xM},m=1,2,…,Q,
将M维欧几里得空间RM无遗漏地划分成J个互不相交的子空间R1,R2,…,RJ,这些子空间Rj(j=1,2,…,J)称为胞腔,Yj即为第j个胞腔的中心矢量;
Step2.4:对初步构建的样本音频矢量量化器Y进行优化,构建样本音频特征矢量最佳码书,具体为:
(1)根据最近邻准则将全部训练矢量X的集合Z分成J个子集,表示为
Figure FDA0003398401370000021
具体划分条件为:
Figure FDA0003398401370000022
时,满足以下条件:
Figure FDA0003398401370000023
其中,
Figure FDA0003398401370000024
表示第g-1迭代的码字Yj,初步构建样本音频矢量量化器Y作为码字迭代的初始值,
Figure FDA0003398401370000025
表示X与
Figure FDA0003398401370000026
的欧氏距离;
(2)计算总畸变D(g)
Figure FDA0003398401370000027
(3)计算畸变改进量ΔD(g)的相对值
Figure FDA0003398401370000028
(4)计算新码书的码字
Figure FDA0003398401370000029
Figure FDA00033984013700000210
其中T是矢量集合Z所包含矢量X的个数;
(5)判断σ(g)是否小于畸变最小阈值σ,若是,转为(7)执行;否则,转入(6)执行;
(6)判断当前迭代次数g是否小于最大迭代次数G,若否,转为(7)执行;否则,令g=g+1,转入(1)继续迭代;
(7)迭代终止,输出
Figure FDA00033984013700000211
作为训练成的最佳码书的码字,并且输出总畸变D(g)
原始样本中每段音频都对应一个最佳码书,把上述提取的异常声音特征矢量E-MFCC经新型矢量量化处理生成最佳码书存入模板数据库中留待与待分类样本进行匹配;
步骤3,识别阶段,提取待检测声音的特征矢量与模板进行匹配
(1)选取一段待测音频经上述Step2.1、Step2.2处理得到待测音频特征矢量
Figure FDA0003398401370000031
(2)将模板库中的每个模板依次对特征矢量序列进行矢量量化,计算各自的平均量化误差
Figure FDA0003398401370000032
式中,
Figure FDA0003398401370000033
是模板库中第p个最佳码书中的第j个码字矢量;而
Figure FDA0003398401370000034
是待测矢量
Figure FDA0003398401370000035
和码字矢量
Figure FDA0003398401370000036
之间的欧氏距离;
(3)选取平均量化误差最小的最佳码书所对应声音库中的声音类型作为系统的最优匹配结果。
2.根据权利要求1所述的短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法,其特征在于:Step2.2进一步包括以下步骤:
(1)计算音频信号的帧能量,其中,当前第m帧音频信号的平均能量E(m)计算公式如下:
Figure FDA0003398401370000037
其中,Sm(n)是经预处理后的第m帧音频信号,N为帧长;
(2)计算音频信号每一帧的线性频谱,其中,当前第m帧音频信号进行离散傅立叶变换后得到线性频谱Xm(k)的具体公式如下:
Figure FDA0003398401370000038
其中,Xm(k)为频域信号,Sm(n)是经预处理后的第m帧音频信号,k为频率索引;
(3)计算音频每帧频谱对数能量:将上述频谱Xm(k)通过梅尔频率滤波器组,得到梅尔频谱,通过计算梅尔频谱的对数能量,得到对数能量频谱S(q),其中,当前第m帧音频信号的第q个频谱对数能量频谱Sm(q)计算公式如下:
Figure FDA0003398401370000041
式中,Hq(k)是梅尔滤波器组,q为梅尔滤波器编号,M滤波器总数,此处为20;
(4)计算梅尔频率倒谱系数C(q):将上述对数能量谱经离散余弦变换得到MFCC系数,其中,当前第m帧音频信号的第q个维MFCC系数计算公式如下:
Figure FDA0003398401370000042
式中,M为梅尔滤波器总数,也为MFCC的维数,此处为20;
(5)将音频信号的平均能量E(m)替代MFCC的第一维系数,组合成新的梅尔频率倒谱系数矢量E-MFCC。
CN201910914499.XA 2019-09-26 2019-09-26 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法 Active CN110610722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910914499.XA CN110610722B (zh) 2019-09-26 2019-09-26 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910914499.XA CN110610722B (zh) 2019-09-26 2019-09-26 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法

Publications (2)

Publication Number Publication Date
CN110610722A CN110610722A (zh) 2019-12-24
CN110610722B true CN110610722B (zh) 2022-02-08

Family

ID=68893418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910914499.XA Active CN110610722B (zh) 2019-09-26 2019-09-26 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法

Country Status (1)

Country Link
CN (1) CN110610722B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111568400B (zh) * 2020-05-20 2024-02-09 山东大学 一种人体体征信息监测方法及系统
CN112562727B (zh) * 2020-12-18 2024-04-26 科大讯飞股份有限公司 应用于音频监控的音频场景分类方法、装置以及设备
CN113793613A (zh) * 2021-07-28 2021-12-14 辽宁工业大学 一种多特征融合的说话人识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107808658A (zh) * 2016-09-06 2018-03-16 深圳声联网科技有限公司 基于家居环境下实时的婴儿音频系列行为检测方法
US10026407B1 (en) * 2010-12-17 2018-07-17 Arrowhead Center, Inc. Low bit-rate speech coding through quantization of mel-frequency cepstral coefficients

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10014003B2 (en) * 2015-10-12 2018-07-03 Gwangju Institute Of Science And Technology Sound detection method for recognizing hazard situation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10026407B1 (en) * 2010-12-17 2018-07-17 Arrowhead Center, Inc. Low bit-rate speech coding through quantization of mel-frequency cepstral coefficients
CN107808658A (zh) * 2016-09-06 2018-03-16 深圳声联网科技有限公司 基于家居环境下实时的婴儿音频系列行为检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于MFCC与VQ码本的不良音频检测算法研究;于艳山;《中国优秀硕士学位论文全文数据库》;20160130;全文 *

Also Published As

Publication number Publication date
CN110610722A (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
Agrawal et al. Novel TEO-based Gammatone features for environmental sound classification
CN108369813B (zh) 特定声音识别方法、设备和存储介质
Hossan et al. A novel approach for MFCC feature extraction
CN110610722B (zh) 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法
Hu et al. Pitch‐based gender identification with two‐stage classification
CN106782511A (zh) 修正线性深度自编码网络语音识别方法
CN111128236B (zh) 一种基于辅助分类深度神经网络的主乐器识别方法
CN109584904B (zh) 应用于基础音乐视唱教育的视唱音频唱名识别建模方法
Vivek et al. Acoustic scene classification in hearing aid using deep learning
CN112071308A (zh) 一种基于语音合成数据增强的唤醒词训练方法
CN109002529B (zh) 音频检索方法及装置
CN116153337B (zh) 合成语音溯源取证方法及装置、电子设备及存储介质
CN116469395A (zh) 一种基于Fca-Res2Net融合自注意力的说话人识别方法
CN118197309A (zh) 基于ai语音识别的智能多媒体终端
Thomas et al. Acoustic and data-driven features for robust speech activity detection
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
CN117976006A (zh) 音频处理方法、装置、计算机设备和存储介质
CN114512134A (zh) 声纹信息提取、模型训练与声纹识别的方法和装置
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Dhakal et al. Detection and identification of background sounds to improvise voice interface in critical environments
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
CN114724589A (zh) 语音质检的方法、装置、电子设备和存储介质
Li et al. Audio similarity detection algorithm based on Siamese LSTM network
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
CN108877816B (zh) 基于qmdct系数的aac音频重压缩检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant