CN110610722B - 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法 - Google Patents
短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法 Download PDFInfo
- Publication number
- CN110610722B CN110610722B CN201910914499.XA CN201910914499A CN110610722B CN 110610722 B CN110610722 B CN 110610722B CN 201910914499 A CN201910914499 A CN 201910914499A CN 110610722 B CN110610722 B CN 110610722B
- Authority
- CN
- China
- Prior art keywords
- vector
- audio
- sound
- mel
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 73
- 238000013139 quantization Methods 0.000 title claims abstract description 26
- 238000012850 discrimination method Methods 0.000 title claims abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims description 22
- 230000005236 sound signal Effects 0.000 claims description 21
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 239000002131 composite material Substances 0.000 abstract 1
- 206010011469 Crying Diseases 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004880 explosion Methods 0.000 description 3
- 238000013467 fragmentation Methods 0.000 description 3
- 238000006062 fragmentation reaction Methods 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明属于智能应用型声场判别领域,具体涉及一种短时能量及梅尔倒谱系数联合矢量量化的危险声场景判别方法。该方法具体包括危险声场景声音库的建立、构建音频时频复合特征参数、引入改进型矢量量化模型对音频特征参数训练;在危险声场景匹配阶段利用欧式距离测度算法进行失真度匹配,找到最小平均误差失真度作为最佳匹配进而达到识别效果。
Description
技术领域
本发明属于智能应用型声场判别领域,具体涉及一种短时能量及梅尔倒谱系数联合矢量量化的危险声场景判别方法。
背景技术
现实声场景中包含丰富的有用信息,当一个环境中存在着针对而言的潜在危险时,可通过对场景中声音的关键特征进行识别来达到对危险声环境检测的效果。当前,儿童的安全问题引起了社会及广大家长的高度重视。众所周知,在儿童活动生活的环境中,当出现一些非常规的声音时,意味着这个环境中存在潜在的危险。此时,如果能及时提醒儿童及家长,可有效避免针对儿童的危险事件发生。但当前电池发展遭遇瓶颈,现有佩戴式电子设备中电池容量较小、续航时间相对短,这给嵌入此类设备中的算法提出了更高的要求,希望嵌入的异常声音识别算法要简单、计算复杂度要低。然而,现有的声场识别算法复杂度都比较高,识别时间较长不能满足便携式电子设备的要求。
发明内容
针对低功耗便携式声场监控设备的要求,本发明主要研究低复杂度的危险声场景判决方法,应用于低供电量的便携式/佩戴式设备。本发明提供一种基于短时能量及梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)联合矢量量化的低复杂度危险声场景判别方法,该方法包括目标声音库的建立、基于时域的背景声音强度实时更新方法、基于频域的异常声音片段均值滤波MFCC参数提取方法、引入改进型矢量量化模型训练及异常声音匹配检测方法。
本发明的发明点在于构建了新的音频特征,即将帧能量E(m)替代MFCC的第一维系数组成新的梅尔频率倒谱系数矢量E-MFCC,由于现实声场中异常声音的特点大多比较尖锐、短促(如尖叫、爆炸声、哭泣声等)即,短时能量比较大,因此,可将音频的短时能量作为检测异常声音的一个特征,将时域的短时能量特征放到梅尔频率倒谱系的第一维中可一次性检测音频的能量与声学特征,简化了音频特征检测的步骤,降低了算法的复杂度;此外本发明通过对每段原始音频构建最佳码书,利用欧式距离测度算法进行失真度匹配,找到最小平均误差失真度即为最佳匹配进而达到识别效果。相比传统矢量量化,本发明方法灵活性更强,可同时识别多类音频。
本发明的技术方案用于解决实际场景中对目标声源进行精确感知重放困难的问题,通过检测实际场景中目标声源的类型来判断用户是否处于危险环境,主要分为以下几个步骤:
步骤1,构建声音特征与危险场景间映射关系
步骤2,训练阶段,建立异常声音模板库
步骤3,识别阶段,提取待检测声音的特征矢量与模板进行匹配,最终输出最优匹配结果。
有益效果
1、复杂度低且灵活性更强
2、便于嵌入到低耗能的设备中
3、经过改进的矢量量化可检测多类声音类型
4、经过复合的E-MFCC参数鲁棒性更高
该方法复杂度低、实时性高,解决了在低供电量的小型设备对危险声场景进行实时检测的问题,最重要的是本方法通过选用小样本量数据进行声信号特征空间分类,更易于实际操作。
附图说明
图1.声音类型与场景间映射关系
图2.危险声场景识别流程图。
具体实施方式
本发明的技术方案用于解决实际场景中对目标声源进行精确感知重放困难的问题,通过检测实际场景中目标声源的类型来判断用户是否处于危险环境,主要分为以下几个步骤:
步骤1,构建声音特征与危险场景间映射关系
根据儿童所处环境声环境特点,将常见声音分为若干类,当出现孩子哭声、玻璃碎裂、物体摔裂、爆炸、车辆急促鸣笛等声音时意味着出现潜在危险;当出现常规语音、街道声、办公室声、上下课铃声等时意味着此时所处环境基本安全。这几类声音分别映射两种场景:危险环境和非危险环境(本设计原始声音样本选取比较灵活,用户可以根据自身需求添加目标音频构造危险场景映射关系)。如图1.所示:
步骤2,训练阶段,建立异常声音模板库
选取孩子哭声、玻璃碎裂、物体摔裂、爆炸、车辆急促鸣笛和常规语音、街道声、办公室声、上下课铃声这几类数据作为原始训练数据。提取原始音频特征进行矢量量化建立模板库。具体流程为:
Step2.1:声音预处理
在数据特征提取前,先做预处理操作。预处理包括:带通滤波、预加重、分帧。
(1)选取8kHz采样音频信号作为处理对象进行带通滤波处理,为提取人耳感知最重要的频率成分,选用通带范围为20Hz-4000Hz的带通滤波器对信号进行处理。本设计中带通滤波选用有限冲击响应(Finite Impulse Filter,FIR)滤波器,滤波过程为:
其中,N为处理信号的采样点数,h(l)为FIR滤波器系数,s_input()为输入信号,为s_in(n)为带通滤波后信号。
(2)对带通滤波后信号s_in(n)进行预加重处理,本设计选用具有6dB/倍频程的数字滤波器实现,用以提升预处理后信号的高频特性,使得信号频谱变得相对平坦,同时使语音信号在从低频到高频的整个频带中,能用同样的信噪比求频谱。
预加重处理如下式所示:
s(n)=s_in(n)-μ*s_in(n-1)
其中,μ为预加重系数,其取值为0.96,s(n)为预加重处理后信号。
(3)对预加重后的信号进行加窗分帧处理。以帧长为0.064秒对音频进行分帧,帧与帧之间保持75%的重叠率,每一帧用相同长度的汉宁窗进行加权。
Step2.2:提取音频组合特征
本技术联合时域的短时能量和梅尔频率倒谱系数联合构成一个20维的特征参数矢量,此矢量第一维为音频信号帧能量,后19维为抽选的梅尔频率倒谱系数。本技术选用此特征矢量进行危险场景分类。特征求取分为两步:帧能量求取和梅尔频率倒谱系数求取。
(1)计算音频信号的帧能量,假定当前为音频信号的第m帧信号数据,则该帧音频信号的平均能量可由下式表示:
其中,Sm(n)是经预处理后的第m帧音频信号,N为帧长,本设计中选取N为512,E(m)为第m帧音频信号的平均帧能量。E(m)可作为能量开关,当某一帧信号的E(m)出现阶跃式突变时,可认定声音信号从无声变化为有声或从有声变为无声。即,场景状况发生了变化,此情况可作为情景变化的判别准则之一。
(2)计算音频信号每一帧的线性频谱,当前第m帧音频信号进行离散傅立叶变换后得到线性频谱Xm(k)的具体公式如下:
其中,Xm(k)为频域信号,Sm(n)为时域信号,k为频率索引,N为离散傅里叶变换的样点长度。
(3)计算音频每帧频谱对数能量,将上述频谱Xm(k)通过梅尔频率滤波器组,得到梅尔频谱,通过计算梅尔频谱的对数能量,得到对数能量频谱S(q),其中,当前第m帧音频信号的第q个频谱对数能量频谱Sm(q)计算公式如下:
式中,Hq(k)是梅尔滤波器组,q为梅尔滤波器编号,M滤波器总数,此处为20。
(4)计算梅尔频率倒谱系数:将上述对数能量谱经离散余弦变换得到MFCC系数,其中,当前第m帧音频信号的第q个维MFCC系数计算公式如下:
式中,M为梅尔滤波器总数,也为MFCC的维数,此处为20
(5)将音频信号的帧能量E(m)替代MFCC的第一维系数,组合成新的梅尔频率倒谱系数矢量E-MFCC
Step2.3:特征参数的新型矢量量化
根据原矢量量化的特点每段音频的特征经过矢量量化只能生成一个胞腔且只能进行二分类判别不能满足本发明需求,故将原本矢量量化中的阈值判别改为匹配判别,然后在后续的步骤中用欧式距离测度算法进行失真度匹配,找到最小平均误差失真度即为最佳匹配进而达到识别效果。经改进的矢量量化可以进行多类判别且灵活性很高、复杂度更低。
构建样本音频矢量量化器,为方便表述,将上述所求样本音频库中的某段异常声音的特征矢量E-MFCC,记为X={X1,X2,…Xm,…,XQ}
其中,X在M维欧几里得空间RM中,Q为一段音频的总帧数,第m帧的特征矢量可记为Xm={x1,x2,…,xM},m=1,2,…,Q
将M维欧几里得空间RM无遗漏地划分成J个互不相交的子空间R1,R2,…,RJ,这些子空间Rj(j=1,2,…,J)称为胞腔,在每一个子空间Rj找一个代表矢量Yj,则J个代表矢量可以组成矢量集为Y={Y1,Y2,…,Yj,…,YJ}
这样,Y就组成了一个矢量量化器,被称为码书;Yj称为码字;Y内的矢量个数J称为码书长度或码书尺寸。不同的划分或不同的代表矢量选取方法就可以构成不同的矢量量化器;也就是说每段音频经过矢量量化可组成一个矢量量化器。
构建样本音频特征矢量最佳码书,由于不同码字的选取会构成不同的码书,因此,若能找到最合适的码字组成码书,此码书就为最佳码书(训练用的特征矢量X与该矢量训练出的码字Y之间的畸变最小),最佳码书构建过程如下:
(1)设定码书和迭代训练参数:设全部输入训练矢量X的集合为Z,设置码书的尺寸为J,迭代算法的最大迭代次数为G,畸变最小阈值为σ
(4)计算总畸变D(g)
(5)计算畸变改进量ΔD(g)的相对值
其中T是矢量集合Z所包含矢量X的个数
(7)判断σ(g)是否小于σ,若是,转为(9)执行;否则,转入(8)执行。
(8)判断g是否小于G,若否,转为(9)执行;否则,令g=g+1转入(3)执行。
把上述提取的异常声音特征矢量E-MFCC经新型矢量量化处理生成最佳码书存入模板数据库中留待与被分类样本进行匹配。
步骤3,识别阶段,提取待检测声音的特征矢量与模板进行匹配
本技术采用新型矢量量化分类器将待测音频经上述预处理、特征参数提取处理,输入新型矢量量化分类器经与模板最优匹配输出检测结果。危险声场景识别流程图如图2.所示,具体流程为:
(1)选取一段待测音频经上述预处理、特征参数提取处理得序列
(2)将模板库中的每个模板依次对特征矢量序列进行矢量量化,计算各自的平均量化误差
(3)选取平均量化误差最小的码书所对应声音库中的声音类型作为系统的最优匹配结果,若匹配的声音类型为孩子哭声、玻璃碎裂、物体摔裂、爆炸、车辆急促鸣笛,则把结果定为用户处于危险场景。若匹配的声音类型为常规语音、街道声、办公室声、上下课铃声,则把结果定为用户处于非危险场景。
Claims (2)
1.短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法,其特征在于包括以下步骤:
步骤1,构建声音特征与危险场景间映射关系,即根据儿童所处环境声环境特点,将声音映射为危险场景或非危险场景;
步骤2,训练阶段:选取儿童所处环境声环境中的常见声音作为原始样本,经处理后建立异常声音模板库,具体包括:
Step2.1:对原始样本音频预处理,预处理包括:带通滤波、预加重、加窗分帧;
Step2.2:按帧提取预处理后的所有原始样本的音频组合特征,音频组合特征由音频信号的平均能量E(m)和MFCC梅尔频率倒谱系数C(q)构成,特征在于,将音频信号的平均能量E(m)替代MFCC的第一维系数,组合成新的梅尔频率倒谱系数矢量E-MFCC;
Step2.3:根据所有原始样本的音频组合特征构建初步样本音频矢量量化器Y,即码书,表示为Y={Y1,Y2,…,Yj,…,YJ},其中,Yj称为码字,Y内的矢量个数J称为码书长度或码书尺寸,码字用于表示所有原始样本可被划分的类别,Yj的确定方法如下:
为方便表述,将上述矢量E-MFCC,记为
X={X1,X2,…Xm,…,XQ}
其中,X在M维欧几里得空间RM中,Q为一段音频的总帧数,第m帧的特征矢量可记为Xm={x1,x2,…,xM},m=1,2,…,Q,
将M维欧几里得空间RM无遗漏地划分成J个互不相交的子空间R1,R2,…,RJ,这些子空间Rj(j=1,2,…,J)称为胞腔,Yj即为第j个胞腔的中心矢量;
Step2.4:对初步构建的样本音频矢量量化器Y进行优化,构建样本音频特征矢量最佳码书,具体为:
(2)计算总畸变D(g)
(3)计算畸变改进量ΔD(g)的相对值
其中T是矢量集合Z所包含矢量X的个数;
(5)判断σ(g)是否小于畸变最小阈值σ,若是,转为(7)执行;否则,转入(6)执行;
(6)判断当前迭代次数g是否小于最大迭代次数G,若否,转为(7)执行;否则,令g=g+1,转入(1)继续迭代;
原始样本中每段音频都对应一个最佳码书,把上述提取的异常声音特征矢量E-MFCC经新型矢量量化处理生成最佳码书存入模板数据库中留待与待分类样本进行匹配;
步骤3,识别阶段,提取待检测声音的特征矢量与模板进行匹配
(1)选取一段待测音频经上述Step2.1、Step2.2处理得到待测音频特征矢量
(2)将模板库中的每个模板依次对特征矢量序列进行矢量量化,计算各自的平均量化误差
(3)选取平均量化误差最小的最佳码书所对应声音库中的声音类型作为系统的最优匹配结果。
2.根据权利要求1所述的短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法,其特征在于:Step2.2进一步包括以下步骤:
(1)计算音频信号的帧能量,其中,当前第m帧音频信号的平均能量E(m)计算公式如下:
其中,Sm(n)是经预处理后的第m帧音频信号,N为帧长;
(2)计算音频信号每一帧的线性频谱,其中,当前第m帧音频信号进行离散傅立叶变换后得到线性频谱Xm(k)的具体公式如下:
其中,Xm(k)为频域信号,Sm(n)是经预处理后的第m帧音频信号,k为频率索引;
(3)计算音频每帧频谱对数能量:将上述频谱Xm(k)通过梅尔频率滤波器组,得到梅尔频谱,通过计算梅尔频谱的对数能量,得到对数能量频谱S(q),其中,当前第m帧音频信号的第q个频谱对数能量频谱Sm(q)计算公式如下:
式中,Hq(k)是梅尔滤波器组,q为梅尔滤波器编号,M滤波器总数,此处为20;
(4)计算梅尔频率倒谱系数C(q):将上述对数能量谱经离散余弦变换得到MFCC系数,其中,当前第m帧音频信号的第q个维MFCC系数计算公式如下:
式中,M为梅尔滤波器总数,也为MFCC的维数,此处为20;
(5)将音频信号的平均能量E(m)替代MFCC的第一维系数,组合成新的梅尔频率倒谱系数矢量E-MFCC。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910914499.XA CN110610722B (zh) | 2019-09-26 | 2019-09-26 | 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910914499.XA CN110610722B (zh) | 2019-09-26 | 2019-09-26 | 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110610722A CN110610722A (zh) | 2019-12-24 |
CN110610722B true CN110610722B (zh) | 2022-02-08 |
Family
ID=68893418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910914499.XA Active CN110610722B (zh) | 2019-09-26 | 2019-09-26 | 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110610722B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111568400B (zh) * | 2020-05-20 | 2024-02-09 | 山东大学 | 一种人体体征信息监测方法及系统 |
CN112562727B (zh) * | 2020-12-18 | 2024-04-26 | 科大讯飞股份有限公司 | 应用于音频监控的音频场景分类方法、装置以及设备 |
CN113793613A (zh) * | 2021-07-28 | 2021-12-14 | 辽宁工业大学 | 一种多特征融合的说话人识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808658A (zh) * | 2016-09-06 | 2018-03-16 | 深圳声联网科技有限公司 | 基于家居环境下实时的婴儿音频系列行为检测方法 |
US10026407B1 (en) * | 2010-12-17 | 2018-07-17 | Arrowhead Center, Inc. | Low bit-rate speech coding through quantization of mel-frequency cepstral coefficients |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10014003B2 (en) * | 2015-10-12 | 2018-07-03 | Gwangju Institute Of Science And Technology | Sound detection method for recognizing hazard situation |
-
2019
- 2019-09-26 CN CN201910914499.XA patent/CN110610722B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10026407B1 (en) * | 2010-12-17 | 2018-07-17 | Arrowhead Center, Inc. | Low bit-rate speech coding through quantization of mel-frequency cepstral coefficients |
CN107808658A (zh) * | 2016-09-06 | 2018-03-16 | 深圳声联网科技有限公司 | 基于家居环境下实时的婴儿音频系列行为检测方法 |
Non-Patent Citations (1)
Title |
---|
基于MFCC与VQ码本的不良音频检测算法研究;于艳山;《中国优秀硕士学位论文全文数据库》;20160130;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110610722A (zh) | 2019-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Agrawal et al. | Novel TEO-based Gammatone features for environmental sound classification | |
CN108369813B (zh) | 特定声音识别方法、设备和存储介质 | |
Hossan et al. | A novel approach for MFCC feature extraction | |
CN110610722B (zh) | 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法 | |
Hu et al. | Pitch‐based gender identification with two‐stage classification | |
CN106782511A (zh) | 修正线性深度自编码网络语音识别方法 | |
CN111128236B (zh) | 一种基于辅助分类深度神经网络的主乐器识别方法 | |
CN109584904B (zh) | 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 | |
Vivek et al. | Acoustic scene classification in hearing aid using deep learning | |
CN112071308A (zh) | 一种基于语音合成数据增强的唤醒词训练方法 | |
CN109002529B (zh) | 音频检索方法及装置 | |
CN116153337B (zh) | 合成语音溯源取证方法及装置、电子设备及存储介质 | |
CN116469395A (zh) | 一种基于Fca-Res2Net融合自注意力的说话人识别方法 | |
CN118197309A (zh) | 基于ai语音识别的智能多媒体终端 | |
Thomas et al. | Acoustic and data-driven features for robust speech activity detection | |
CN111243621A (zh) | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 | |
CN117976006A (zh) | 音频处理方法、装置、计算机设备和存储介质 | |
CN114512134A (zh) | 声纹信息提取、模型训练与声纹识别的方法和装置 | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
Dhakal et al. | Detection and identification of background sounds to improvise voice interface in critical environments | |
KR100766170B1 (ko) | 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법 | |
CN114724589A (zh) | 语音质检的方法、装置、电子设备和存储介质 | |
Li et al. | Audio similarity detection algorithm based on Siamese LSTM network | |
Tzudir et al. | Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients | |
CN108877816B (zh) | 基于qmdct系数的aac音频重压缩检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |