CN107393554B - 一种声场景分类中融合类间标准差的特征提取方法 - Google Patents

一种声场景分类中融合类间标准差的特征提取方法 Download PDF

Info

Publication number
CN107393554B
CN107393554B CN201710472024.0A CN201710472024A CN107393554B CN 107393554 B CN107393554 B CN 107393554B CN 201710472024 A CN201710472024 A CN 201710472024A CN 107393554 B CN107393554 B CN 107393554B
Authority
CN
China
Prior art keywords
standard deviation
spectrogram
substep
class
inter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710472024.0A
Other languages
English (en)
Other versions
CN107393554A (zh
Inventor
杨玉红
胡瑞敏
江玉至
陆璐
艾浩军
涂卫平
王晓晨
张会玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201710472024.0A priority Critical patent/CN107393554B/zh
Publication of CN107393554A publication Critical patent/CN107393554A/zh
Application granted granted Critical
Publication of CN107393554B publication Critical patent/CN107393554B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Auxiliary Devices For Music (AREA)
  • Complex Calculations (AREA)

Abstract

本发明一种声场景分类中融合类间标准差的特征提取方法,包括:步骤1,基于传统方式的特征提取:计算原始音频的频谱图,基于传统滤波器降采样,得到降采样后的特征频谱图P1;步骤2,基于类间标准差的特征提取:计算原始音频的频谱图,基于类间频域标准差滤波器降采样,得到降采样后的类间标准差特征频谱图P2;步骤3,基于类间标准差的特征融合:将步骤1中的特征频谱图P1和步骤2中的特征频谱图P2进行拼接,作为声场景分类模型的输入。本发明提高声场景分类准确率的方案,克服了现有声场景分别率不高的问题;首创通过类间标准差提取特征,并与其他特征融合,提高系统的识别性能。本发明的系统结构简单,实施便捷。

Description

一种声场景分类中融合类间标准差的特征提取方法
技术领域
本发明涉及声音信号分析领域,尤其涉及一种声场景分类中融合类间标准差的特征提取方法。
背景技术
近年来,在音频研究领域中,在广大学者的关注下,语音识别这项任务已经取得了很大的进步,然而对于非语音比如环境声音亦含有重要的信息,所以对于它们的分析和理解也同样重要。声学场景分类(Acoustic scene classification,ASC)这个概念的就是通过分析语音片段,从而识别出这个语音片段录制的环境,给这段音频赋予对应的环境语义标签。如公园、地铁、办公室等。ASC的主要研究目标是让计算机能够像人类的听觉系统一样,通过分析声音来理解周围的环境,是与计算声学场景分析(Computational AudioScene Analysis,CASA)相关的一个研究方向,同时也与机器学习、机器人技术、模式识别和人工智能等领域相关联。ASC的主要目的是理解这段音频的背景环境,在需要针对环境变化而提供不同服务的系统设计上,应用ASC可以提供更智能更人性化的服务。
ASC作为一个典型的分类问题,主要由两部分组成:信号预处理和特征提取、声学模型(Acoustic Model,AM)训练与模式匹配。以原始的音频信号作为输入,经过信号预处理后,对音频数据进行分析计算,提取鲁棒性强的特征向量。声学模型以特征提取部分的特征为输入,通过一些分类算法将这些特征进行分类得到最后的识别结果,声学场景分类最后的正确率取决于特征,所以如何提取特征,使得它能够代表这些声学场景是一个重要问题。现阶段对原始音频数据进行特征提取,用作分类的声学特征有以下两大类:短时特征和长时特征。短时特征既可以在时域提取,如短时平均过零率、短时能量,也可以在将时域信号变换到频域,在频域提取线性预测系数(Linear Prediction Coefficient,LPC)和梅尔倒谱系数(Mel Frequency CepstralCoefficents,MFCC);长时特征多为对音频段整体进行统计分析,如一些频谱质心、低能量率等这些长时统计特性。1997年麻省理工学院多媒体实验室的Sawhnney和Maes用循环神经网络和K-近邻准则去构建这些音频底层特征和场景类别之间的映射,最终达到了68%的分类准确率。Guo。对语音进行分帧加窗,对每帧的数据提取了两类特征,一类是感知特征:如整个频带的能量、子带能量、基因特征等,第二类是MFCC。在提取特征之后,通过支持向量机(Support Vector Machine,SVM)和二叉树的识别策略进行声学场景的识别。Kyuwoong等人使用参数较少的高斯直方图作为一小段音频的特征,Kullback-Leibler距离作为两个高斯直方图之间的距离度量,然后使用K近邻算法进行分类。深度神经网络被应用在声学场景分类的任务上的起步很晚,但是实验结果表明卷积神经网络(Convolutional Neural Network,CNN)比传统的基于高斯混合模型(Gaussianmixture model,GMM)和SVM的模型能产生更好的识别结果。CNN被用在图像识别领域,直接将原图像作为输入,避免了人工提取特征不准确的问题。音频中常见提取特征是梅尔谱,梅尔谱是基于人耳对频率感知的分辨率提取的频谱图,而各频率成分的声学场景辨析度可能和感知分辨率不完全一致,仅采用单一特征频谱作为CNN特征输入,存在特征表达不够充分的问题,会影响声学场景分类的识别率。
发明内容
本发明针对现有技术的不足,提供一种声场景分类中融合类间标准差的特征提取方法,将类间标准差提取的特征频谱与其他特征频谱相融合,实现声场景分类。声场景分类可以和视频信息、地理信息结合,实现更精准的分类、过滤或者定位功能。
为达到上述目的,本发明提供:
一种声场景分类中融合类间标准差的特征提取方法,包括:
步骤1,基于传统方式的特征提取:计算原始音频的频谱图,基于梅尔滤波器降采样,得到降采样后的特征频谱图P1;
步骤2,基于类间标准差的特征提取:计算原始音频的频谱图,基于类间频域标准差滤波器降采样,得到降采样后的类间标准差特征频谱图P2;
步骤3,基于类间标准差的特征融合:将步骤1中的特征频谱图P1和步骤2中的特征频谱图P2进行拼接,作为声场景分类模型的输入。
在上述的一种声场景分类中融合类间标准差的特征提取方法,基于类间标准差的特征提取包含以下子步骤:
步骤1,将包含M类音频场景的音频数据集作为训练集A,Nj是对应第j类声学场景中样本的个数;
步骤2,将步骤1中原始训练集A中音频文件根据场景分成M类,在每一类中,将音频文件做时频变换,将得到相应每个点处对数幅度值相加起来,每个频点的值得到
Figure GDA0002493123250000021
是第j类场景下第i个样本的对数幅度谱,d是频点的下标;
步骤3,将步骤1中训练集A所有音频文件做时频变换得到频谱图,再将频谱图中各频点处对数幅度值相加,每个频点的值除以帧数,得到整个训练集均值,即通过下面公式计算得到:
Figure GDA0002493123250000031
其中M是场景类别总数,j是M类场景的序号,Nj是对应第j类声学场景中样本的个数,Bji是第j类场景下第i个样本的对数幅度谱,d是频点的下标,N是总的文件数
步骤4,根据以下公式求出M类类内标准差:
Figure GDA0002493123250000032
步骤5,将步骤4中M类内标准差通过下面公式:
Figure GDA0002493123250000033
得到整体频率标准差;
步骤6,利用公式:
Figure GDA0002493123250000034
计算类间标准差,将类间标准差归一化到[0,1]之间,作出横轴为频率,纵轴为归一化后标准差的训练集中类间频域标准差分布图B;
步骤7,对步骤6中得到的频率标准差图B进行降采样后得到新的频段数是D,根据标准差图和坐标轴的围成面积来确定边界;定义标准差曲线和坐标轴的面积为S,计算确定D组边界[a,b],使得[a,b]区间内的面积满足Sab=S/D;根据数学中的数值积分方法,作出横坐标为频率,纵坐标为归一化到[0,1]之间类间频域标准差积分曲线C;
步骤8,运用以下公式:
p(x)=p1xn+p2xn-1+...+pnx+pn+1采用多项式拟合的方法对步骤7中积分曲线C进行拟合,得到拟合曲线的多项表达式,再令p(x)取[0,D]之间的整数,反解方程,得到对应频点[a,b]
步骤9,步骤8中求解出来的D组边界[a,b]组成一组基于类间频域标准差的滤波器,用这组滤波器降采样得到的特征即基于类间频域标准差的音频特征谱图P2。
在上述的一种声场景分类中融合类间标准差的特征提取方法,基于类间标准差的特征提取特征融合包含以下步骤:
步骤1,利用梅尔滤波器提取音频特征频谱图,记为特征频谱图P1;
步骤2,利用基于类间频域标准差滤波器提取基于类间频域标准差的音频特征频谱图,记为特征频谱图P2;
步骤3,将步骤1中的特征频谱图P1和步骤2中的特征频谱图P2沿着时域对齐,任选一张特征频谱图频域翻转,和余下的特征频谱图共用同一时间轴拼接,得到拼接后的特征图P3。
本发明根据类间标准差提取特征,提出类间标准差的特征提取及其他特征融合,提高声场景分类准确率的方案,克服了现有声场景分辨率不高的问题;首创通过类间标准差提取特征,并与其他特征融合,提高系统的识别性能。本发明的系统结构简单,实施便捷。
附图说明
图1是本发明的方法声学场景分类系统训练测试阶段流程框图。
图2是梅尔频谱特征和类间标准差频谱特征提取过程流程图。
图3是梅尔特征和类间标准差特征沿着频域特征融合示意图。
具体实施方式
下面结合实施例对本发明作进一步说明:
本发明实施例所提供基于类间标准差特征融合的声场景分类系统,具体包括以下部分,具体实施时可以采用软件固化技术实现各模块。
类间频域标准差的非线性映射的特征生成模块:根据输入的音频,输出是代表该声场景基于频域标准差的谱图像特征(Frequency Standard Deviation based SIF,FSD-SIF)。基于频域标准差的谱图像特征生成方法:
步骤1,将DCASE2017中音频作为参考的原始音频训练集,记为原始训练集A;
步骤2,对步骤1所得原始训练集A中的音频文件计算其相应的幅度谱特征的累加和,并用帧长对每一段文件进行归一化处理,记为文件集B;
步骤3,然后文件集B进行类内统计,将属于同一个场景的音频片段的谱特征累加,得到了每类场景特征的分布情况,并且同样的用每类场景的文件数量进行归一化。根据下面公式:
可以计算的到相应的不同场景音频的类内标准差如下:
Figure GDA0002493123250000041
其中j是M类场景的序号,Nj是对应第j类声学场景中样本的个数,Bji是第j类场景下第i个样本的标准差,d是频点的下标,
Figure GDA0002493123250000051
是整个训练集均值,可以通过下面的公式计算得到:
Figure GDA0002493123250000052
从而得到15类声学场景的对数幅度谱标准差图;
步骤4,根据以下公式:
Figure GDA0002493123250000053
Figure GDA0002493123250000054
步骤3中的标准差再求标准差,得到的整体的频率标准差图C;
步骤5,需要降采样后得到新的频段数是D。根据标准差图和坐标轴的围成面积来确定边界。假设标准差曲线和坐标轴的面积为S,需要确定D组边界[a,b],使得[a,b]区间内的面积满足Sab=S/D,采用数学中的数值积分的方法就步骤4中的频率标准差图C中的频率标准差图进行积分,得到面积和频段下标索引之间的关系图E;
步骤6,采用多项式拟合的方法对步骤5中的关系图E进行拟合,得到拟合曲线的多项式表达后,令多项式的值依次取[0,D]之间的整数,反向求解方程,如此就可以确定下[a,b]的值;
特征融合模块:根据类间标准差提取的特征,与其他方法提取出来的特征相融合,输出是拼接后的代表场景的特征。本模块的输入是不同方法提取的场景特征。
特征融合方法:
基于类间标准差提取的特征与其他特征融合方法,包含以下步骤:
步骤1,利用梅尔滤波器提取梅尔频谱特征XMFS,得到特征频谱图P1。
步骤2,利用基于类间标准差滤波器提取基于标准差频谱特征XFSD-SIF,得到特征频谱图P2。
步骤3,记提取的MFS特征XMFS∈Rr×t,基于方差提取的特征XFSD-SIF∈Rr×t,将步骤1中的特征频谱图P1和特征频谱图P2按频域上进行拼接,得到拼接后的特征图P3。
将得到的特征图P3输入到CNN模型,例如VGGNET,经过训练得到学习模型,训练阶段结束。
当进入测试阶段,待测音频输入到学习模型中,最后输出场景标签,如beach。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变换或变型,因此所有等同的技术方案,都落入本发明的保护范围。

Claims (2)

1.一种声场景分类中融合类间标准差的特征提取方法,包括:
步骤1,基于梅尔滤波器的特征提取:计算原始音频的频谱图,基于梅尔滤波器降采样,得到降采样后的特征频谱图P1;
步骤2,基于类间标准差的特征提取:计算原始音频的频谱图,基于类间频域标准差滤波器降采样,得到降采样后的类间标准差特征频谱图P2;
步骤3,基于类间标准差的特征融合:将步骤1中的特征频谱图P1和步骤2中的特征频谱图P2进行拼接,作为声场景分类模型的输入,包含以下步骤:
子步骤1,利用梅尔滤波器提取音频特征频谱图,记为特征频谱图P1;
子步骤2,利用基于类间频域标准差滤波器提取基于类间频域标准差的音频特征频谱图,记为特征频谱图P2;
子步骤3,将步骤1中的特征频谱图P1和步骤2中的特征频谱图P2沿着时域对齐,任选一张特征频谱图频域翻转,和余下的特征频谱图共用同一时间轴拼接,得到拼接后的特征图P3。
2.根据权利要求1所述的一种声场景分类中融合类间标准差的特征提取方法,其特征在于,基于类间标准差的特征提取包含以下子步骤:
子步骤1,将包含M类音频场景的音频数据集作为训练集A,Nj是对应第j类声学场景中样本的个数;
子步骤2,将步骤1中原始训练集A中音频文件根据场景分成M类,在每一类中,将音频文件做时频变换,将得到相应每个点处对数幅度值相加起来,每个频点的值得到
Figure FDA0002493123240000011
Bji是第j类场景下第i个样本的对数幅度谱,d是频点的下标;
子步骤3,将子步骤1中训练集A所有音频文件做时频变换得到频谱图,再将频谱图中各频点处对数幅度值相加,每个频点的值除以帧数,得到整个训练集均值,即通过下面公式计算得到:
Figure FDA0002493123240000021
其中M是场景类别总数,j是M类场景的序号,Nj是对应第j类声学场景中样本的个数,Bji是第j类场景下第i个样本的对数幅度谱,d是频点的下标,N是总的文件数;
子步骤4,根据以下公式求出M类类内标准差:
Figure FDA0002493123240000022
子步骤5,将子步骤4中M类内标准差通过下面公式:
Figure FDA0002493123240000023
得到整体频率标准差;
子步骤6,利用公式:
Figure FDA0002493123240000024
计算类间标准差,将类间标准差归一化到[0,1]之间,作出横轴为频率,纵轴为归一化后标准差的训练集中类间频域标准差分布图B;
子步骤7,对子步骤6中得到的频率标准差图B进行降采样后得到新的频段数是D,根据标准差图和坐标轴的围成面积来确定边界;定义标准差曲线和坐标轴的面积为S,计算确定D组边界[a,b],使得[a,b]区间内的面积满足Sab=S/D;根据数学中的数值积分方法,作出横坐标为频率,纵坐标为归一化到[0,1]之间类间频域标准差积分曲线C;
子步骤8,运用以下公式:
p(x)=p1xn+p2xn-1+...+pnx+pn+1采用多项式拟合的方法对步骤7中积分曲线C进行拟合,得到拟合曲线的多项表达式,再令p(x)取[0,D]之间的整数,反解方程,得到对应频点[a,b]
子步骤9,子步骤8中求解出来的D组边界[a,b]组成一组基于类间频域标准差的滤波器,用这组滤波器降采样得到的特征即基于类间频域标准差的音频特征频谱图P2。
CN201710472024.0A 2017-06-20 2017-06-20 一种声场景分类中融合类间标准差的特征提取方法 Expired - Fee Related CN107393554B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710472024.0A CN107393554B (zh) 2017-06-20 2017-06-20 一种声场景分类中融合类间标准差的特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710472024.0A CN107393554B (zh) 2017-06-20 2017-06-20 一种声场景分类中融合类间标准差的特征提取方法

Publications (2)

Publication Number Publication Date
CN107393554A CN107393554A (zh) 2017-11-24
CN107393554B true CN107393554B (zh) 2020-07-10

Family

ID=60332493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710472024.0A Expired - Fee Related CN107393554B (zh) 2017-06-20 2017-06-20 一种声场景分类中融合类间标准差的特征提取方法

Country Status (1)

Country Link
CN (1) CN107393554B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182949A (zh) * 2017-12-11 2018-06-19 华南理工大学 一种基于深度变换特征的高速公路异常音频事件分类方法
CN108764304B (zh) * 2018-05-11 2020-03-06 Oppo广东移动通信有限公司 场景识别方法、装置、存储介质及电子设备
CN108932950B (zh) * 2018-05-18 2021-07-09 华南师范大学 一种基于标签扩增与多频谱图融合的声音场景识别方法
CN109036382B (zh) * 2018-08-15 2020-06-09 武汉大学 一种基于kl散度的音频特征提取方法
CN109166593B (zh) * 2018-08-17 2021-03-16 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及存储介质
CN109087634A (zh) * 2018-10-30 2018-12-25 四川长虹电器股份有限公司 一种基于音频分类的音质设置方法
CN110718234A (zh) * 2019-09-02 2020-01-21 江苏师范大学 基于语义分割编解码网络的声学场景分类方法
CN110866143B (zh) * 2019-11-08 2022-11-22 山东师范大学 一种音频场景分类方法及系统
CN111368893B (zh) * 2020-02-27 2023-07-25 Oppo广东移动通信有限公司 图像识别方法、装置、电子设备及存储介质
CN111477250B (zh) * 2020-04-07 2023-11-28 北京达佳互联信息技术有限公司 音频场景识别方法、音频场景识别模型的训练方法和装置
CN111509841A (zh) * 2020-04-14 2020-08-07 佛山市威格特电气设备有限公司 一种带挖掘机特征量识别的电缆防外力破坏预警装置
CN111509842A (zh) * 2020-04-14 2020-08-07 佛山市威格特电气设备有限公司 一种带切割机特征量识别的电缆防破坏预警装置
CN111509843A (zh) * 2020-04-14 2020-08-07 佛山市威格特电气设备有限公司 一种带机械破碎锤特征量识别的电缆防破坏预警装置
CN111653290B (zh) * 2020-05-29 2023-05-02 北京百度网讯科技有限公司 音频场景分类模型生成方法、装置、设备以及存储介质
CN113012684B (zh) * 2021-03-04 2022-05-31 电子科技大学 一种基于语音分割的合成语音检测方法
CN116543795B (zh) * 2023-06-29 2023-08-29 天津大学 一种基于多模态特征融合的声音场景分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008224911A (ja) * 2007-03-10 2008-09-25 Toyohashi Univ Of Technology 話者認識システム
CN102045162A (zh) * 2009-10-16 2011-05-04 电子科技大学 一种三模态生物特征持证人身份鉴别系统及其控制方法
WO2015034633A1 (en) * 2013-09-06 2015-03-12 Nuance Communications, Inc. Method for non-intrusive acoustic parameter estimation

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5806022A (en) * 1995-12-20 1998-09-08 At&T Corp. Method and system for performing speech recognition
US7089178B2 (en) * 2002-04-30 2006-08-08 Qualcomm Inc. Multistream network feature processing for a distributed speech recognition system
JP2011158515A (ja) * 2010-01-29 2011-08-18 Ryukoku Univ 音声認識装置および音声認識方法
AU2014332251B2 (en) * 2013-10-07 2017-11-09 Med-El Elektromedizinische Geraete Gmbh Method for extracting temporal features from spike-like signals
US10360901B2 (en) * 2013-12-06 2019-07-23 Nuance Communications, Inc. Learning front-end speech recognition parameters within neural network training
US10068171B2 (en) * 2015-11-12 2018-09-04 Conduent Business Services, Llc Multi-layer fusion in a convolutional neural network for image classification
US9792907B2 (en) * 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
CN106847267B (zh) * 2015-12-04 2020-04-14 中国科学院声学研究所 一种连续语音流中的叠音检测方法
CN105895110A (zh) * 2016-06-30 2016-08-24 北京奇艺世纪科技有限公司 一种音频文件的分类方法及装置
CN106257488B (zh) * 2016-07-07 2019-11-19 电子科技大学 一种基于邻域特征空间鉴别分析的雷达目标识别方法
CN106599907B (zh) * 2016-11-29 2019-11-29 北京航空航天大学 多特征融合的动态场景分类方法与装置
CN106531192A (zh) * 2016-12-09 2017-03-22 电子科技大学 基于冗余特征和多词典表示的语音情感识别方法及系统
CN106710589B (zh) * 2016-12-28 2019-07-30 百度在线网络技术(北京)有限公司 基于人工智能的语音特征提取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008224911A (ja) * 2007-03-10 2008-09-25 Toyohashi Univ Of Technology 話者認識システム
CN102045162A (zh) * 2009-10-16 2011-05-04 电子科技大学 一种三模态生物特征持证人身份鉴别系统及其控制方法
WO2015034633A1 (en) * 2013-09-06 2015-03-12 Nuance Communications, Inc. Method for non-intrusive acoustic parameter estimation

Also Published As

Publication number Publication date
CN107393554A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
CN107393554B (zh) 一种声场景分类中融合类间标准差的特征提取方法
CN109036382B (zh) 一种基于kl散度的音频特征提取方法
CN108305616A (zh) 一种基于长短时特征提取的音频场景识别方法及装置
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN109767756A (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
CN113327626A (zh) 语音降噪方法、装置、设备及存储介质
Von Zeddelmann et al. Perceptual audio features for unsupervised key-phrase detection
Tolba A high-performance text-independent speaker identification of Arabic speakers using a CHMM-based approach
CN110931023A (zh) 性别识别方法、系统、移动终端及存储介质
Al-Kaltakchi et al. Thorough evaluation of TIMIT database speaker identification performance under noise with and without the G. 712 type handset
CN105845143A (zh) 基于支持向量机的说话人确认方法及其系统
CN112992155B (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
KR20190135916A (ko) 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법
Birla A robust unsupervised pattern discovery and clustering of speech signals
Ding et al. Acoustic scene classification based on ensemble system
Leow et al. Language-resource independent speech segmentation using cues from a spectrogram image
CN114038469B (zh) 一种基于多类谱图特征注意力融合网络的说话人识别方法
CN113516987B (zh) 一种说话人识别方法、装置、存储介质及设备
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Kek et al. Acoustic scene classification using bilinear pooling on time-liked and frequency-liked convolution neural network
Ganoun et al. Performance analysis of spoken arabic digits recognition techniques
Srinivasan et al. Multi-view representation based speech assisted system for people with neurological disorders
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language
Pentapati et al. Log-MelSpectrum and Excitation features based Speaker Identification using Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200710