CN107403618B - 基于堆叠基稀疏表示的音频事件分类方法及计算机设备 - Google Patents

基于堆叠基稀疏表示的音频事件分类方法及计算机设备 Download PDF

Info

Publication number
CN107403618B
CN107403618B CN201710601565.9A CN201710601565A CN107403618B CN 107403618 B CN107403618 B CN 107403618B CN 201710601565 A CN201710601565 A CN 201710601565A CN 107403618 B CN107403618 B CN 107403618B
Authority
CN
China
Prior art keywords
audio
training
test
dictionary
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710601565.9A
Other languages
English (en)
Other versions
CN107403618A (zh
Inventor
冷严
周耐
齐广慧
徐新艳
李登旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201710601565.9A priority Critical patent/CN107403618B/zh
Publication of CN107403618A publication Critical patent/CN107403618A/zh
Application granted granted Critical
Publication of CN107403618B publication Critical patent/CN107403618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了基于堆叠基稀疏表示的音频事件分类方法及计算机设备,该方法在训练阶段首先创建各类音频事件的音频字典;然后,通过将各类音频事件的音频字典进行堆叠构建大型字典;测试阶段,根据训练阶段构建的大型字典提取测试音频样本的稀疏表示系数,并通过softmax函数对稀疏表示系数进行映射;最后,根据映射后的系数构建测试音频文档在各类音频事件上的置信度,并根据置信度的大小进行分类判别。本发明创新性地提出通过堆叠基构建大型字典,进而求得样本的稀疏表示系数;如此提取的稀疏表示系数能更好地表征音频事件样本,增大样本的类间差异,减少类内差异,提高分类准确率。

Description

基于堆叠基稀疏表示的音频事件分类方法及计算机设备
技术领域
本发明属于音频事件分类领域,尤其涉及基于堆叠基稀疏表示的音频事件分类方法及计算机设备。
背景技术
音频事件分类作为音频信息研究的重要内容之一,得到了广泛关注。基于音频事件分类的音频监控可以作为视频监控的辅助手段。与视频信号相比,音频信号可以不受光照和遮挡的影响,且能很好地保护个人隐私,因此其具有非常广泛的应用价值。音频事件分类技术可以用于智能机器人,以帮助机器人更好地感知周围环境,进而做出正确的决策;音频事件分类技术还可以广泛地用于城市规划、智能家居及生态声学等各个领域。
现有的音频事件分类方法在训练样本充足且音频数据不受噪声干扰的情况下分类效果较好,但是在训练样本不足及音频数据受噪声干扰的情况下分类效果较差。实际应用中,某些音频事件,比如异常音频事件,由于发生概率小,导致采集的这类音频事件的样本较少,因而存在训练样本不足的问题。此外,音频数据在采集过程中经常会受到各种噪声干扰,包括环境噪声干扰及采集设备产生的噪声干扰。训练样本不足和噪声干扰问题为音频事件分类增大了难度,导致分类准确率较低。
发明内容
本发明的目的就是为了解决上述问题,提供一种基于堆叠基稀疏表示的音频事件分类方法及计算机设备,通过堆叠各类音频事件的基函数构建大型音频字典,进而提取样本的稀疏表示系数以更好地表征和识别音频事件。
为了实现上述目的,本发明采用如下技术方案:
基于堆叠基稀疏表示的音频事件分类方法,包括:
步骤(1):训练音频分帧处理:对训练音频文档进行分帧处理,每帧作为一个训练音频样本;
步骤(2):对训练音频文档中的每个训练音频样本进行训练音频特征提取,用提取的训练音频特征表征训练音频样本;
步骤(3):通过堆叠基构建大型音频字典;
步骤(4):对测试音频文档进行和步骤(1)同样的分帧处理,每帧作为一个测试音频样本;
步骤(5):对测试音频文档中的每个测试音频样本进行测试音频特征提取,用提取的测试音频特征表征测试音频样本;
步骤(6):根据步骤(3)构建的大型音频字典,利用正交匹配追踪算法求得测试音频样本的稀疏表示系数;
步骤(7):通过softmax函数对稀疏表示系数进行映射;
步骤(8):通过映射后的稀疏表示系数求得每个测试音频样本在各类音频事件上的置信度;
步骤(9):通过对测试音频文档内所有音频样本的置信度取平均,求得测试音频文档在各类音频事件上的置信度;
步骤(10):求测试音频文档在各个音频事件类上的置信度的最大值,将测试音频文档的音频事件类判别为具有最大置信度值的音频事件类。
所述步骤(1)根据经验法则,将帧长设定为30毫秒,帧移设定为20毫秒;
所述步骤(2)对每个音频样本提取39维MFCC特征,用所述39维MFCC特征来表达每个训练音频样本;
所述步骤(3)通过堆叠基构建大型音频字典的过程包括:
步骤(3.1):训练集中包括若干类音频事件,对于每一类音频事件,用训练集中该类音频事件的样本作为K-SVD(K-Singular Value Decomposition)算法的输入,样本是用步骤(2)中提取的训练音频特征表征的训练音频样本。通过K-SVD算法创建该类音频事件的音频字典。
假设训练集中共有N类不同音频事件,记通过K-SVD算法创建的第i类音频事件的音频字典为Bi,其中,i=1,…,N。假设每类音频事件的音频字典中基函数的个数为M个,则Bi是尺寸为39×M的矩阵;
步骤(3.2):将各类音频事件的音频字典通过堆叠得到大型音频字典B:
B=[B1 B2 ...... BN]
B是尺寸为39×(M·N)的矩阵。
所述步骤(4),分帧处理时,设定帧长为30毫秒,帧移为20毫秒。
所述步骤(5)对测试音频文档中的每个帧提取39维MFCC特征,用所述39维MFCC 特征来表达每个测试音频样本。
所述步骤(6):对某一测试音频文档,假设其共有K个由39维MFCC特征表征的样本;基于步骤(3)构建的大型音频字典B,利用正交匹配追踪算法求得每个测试音频样本的稀疏表示系数;记第k个样本的稀疏表示系数为xk,其中,k=1,…,K,xk是M·N维的列向量, xk表示为:
Figure BDA0001357273850000031
其中,xk1表示xk的第1维;xk(M·N)表示xk的第M·N维。
所述步骤(7)对稀疏表示系数xk(k=1,…,K)进行映射,假设映射后的稀疏系数记为yk, xk到yk的softmax映射关系式为:
Figure BDA0001357273850000032
其中,ykj表示yk的第j维;xkj表示xk的第j维;xkd表示xk的第d维,j=1,…,M·N,
Figure BDA0001357273850000033
表示对xkj做以e为底数的指数函数运算,
Figure BDA0001357273850000034
表示对xkd做以e为底数的指数函数运算。
e是数学常数,近似等于2.718281828。
所述步骤(8)的步骤为:
记通过yk求得的第k个音频样本在第i类音频事件上的置信度为fki
fki的求解表达式为:
Figure BDA0001357273850000035
N表示共有N类音频事件。
所述步骤(9)的步骤为:
记测试音频文档在第i类音频事件上的置信度为fi(i=1,…,N):
Figure BDA0001357273850000036
所述步骤(10):记测试音频文档的分类判别类标签为label,则:
Figure BDA0001357273850000041
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序运行时实现以下步骤:
步骤(1):训练音频分帧处理:对训练音频文档进行分帧处理,每帧作为一个训练音频样本;
步骤(2):对训练音频文档中的每个训练音频样本进行训练音频特征提取,用提取的训练音频特征表征训练音频样本;
步骤(3):通过堆叠基构建大型音频字典;
步骤(4):对测试音频文档进行和步骤(1)同样的分帧处理,每帧作为一个测试音频样本;
步骤(5):对测试音频文档中的每个测试音频样本进行测试音频特征提取,用提取的测试音频特征表征测试音频样本;
步骤(6):根据步骤(3)构建的大型音频字典,利用正交匹配追踪算法求得测试音频样本的稀疏表示系数;
步骤(7):通过softmax函数对稀疏表示系数进行映射;
步骤(8):通过映射后的稀疏表示系数求得每个测试音频样本在各类音频事件上的置信度;
步骤(9):通过对测试音频文档内所有音频样本的置信度取平均,求得测试音频文档在各类音频事件上的置信度;
步骤(10):求测试音频文档在各个音频事件类上的置信度的最大值,将测试音频文档的音频事件类判别为具有最大置信度值的音频事件类。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
步骤(1):训练音频分帧处理:对训练音频文档进行分帧处理,每帧作为一个训练音频样本;
步骤(2):对训练音频文档中的每个训练音频样本进行训练音频特征提取,用提取的训练音频特征表征训练音频样本;
步骤(3):通过堆叠基构建大型音频字典;
步骤(4):对测试音频文档进行和步骤(1)同样的分帧处理,每帧作为一个测试音频样本;
步骤(5):对测试音频文档中的每个测试音频样本进行测试音频特征提取,用提取的测试音频特征表征测试音频样本;
步骤(6):根据步骤(3)构建的大型音频字典,利用正交匹配追踪算法求得测试音频样本的稀疏表示系数;
步骤(7):通过softmax函数对稀疏表示系数进行映射;
步骤(8):通过映射后的稀疏表示系数求得每个测试音频样本在各类音频事件上的置信度;
步骤(9):通过对测试音频文档内所有音频样本的置信度取平均,求得测试音频文档在各类音频事件上的置信度;
步骤(10):求测试音频文档在各个音频事件类上的置信度的最大值,将测试音频文档的音频事件类判别为具有最大置信度值的音频事件类。
本发明的有益效果:
(1)本发明提出通过堆叠各类音频事件基函数的方法构造大型音频字典,进而提取样本的稀疏表示系数。该方法能使样本的非零系数主要集中于其所属音频事件类的基函数所对应的系数位置处,因而能更好地表征音频事件样本,增大样本的类间差异,减少类内差异,提高分类准确率。
(2)本发明提出通过softmax函数将稀疏表示系数映射到[0,1]区间,然后根据与各类音频事件基函数相对应的稀疏表示系数的累加和值的大小进行分类判别。该分类判别策略未采用其它分类模型,简单易行,节省了训练阶段花费在分类模型上的训练时间,因而能极大地提高训练效率。
(3)本发明提出的基于堆叠基稀疏表示的音频事件分类方法在训练样本不足时仍然能得到较好的分类效果,因而能有效地解决训练样本不足问题。
(4)本发明提出的基于堆叠基稀疏表示的音频事件分类方法在音频数据受噪声干扰的情况下仍然能得到较好的分类效果,因而其对噪声具有很强的抗干扰性。
(5)本发明提出的基于堆叠基稀疏表示的分类方法并不局限于音频事件分类判别,其可以广泛地推广到各个分类判别领域,为其它分类判别领域提供方法借鉴。
附图说明
图1是本发明提出的基于堆叠基稀疏表示的音频事件分类方法示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
如图1所示,本发明提出的音频场景识别方法主要分为两大模块:训练过程和分类测试过程。其中,训练过程包括对训练数据进行音频分帧处理、音频特征提取和通过堆叠基构建大型音频字典。分类测试过程包括音频分帧处理、音频特征提取、提取稀疏表示系数及分类判别四个过程。以下将对各个部分做详细介绍。
首先介绍训练过程:
(一)音频分帧处理
对训练音频文档进行分帧处理,每帧作为一个音频样本。根据经验法则,本发明将帧长设定为30毫秒,帧移设定为20毫秒。
(二)音频特征提取
表征音频信号最常用的特征是39维MFCC特征,因此本申请对每个帧提取39维MFCC特征,用此39维MFCC特征来表达每个训练音频样本。
(三)通过堆叠基构建大型音频字典
首先,对于每一类音频事件,通过训练集中该类音频事件的训练样本创建该类音频事件的音频字典。字典的创建方法采用K-SVD(K-Singular Value Decomposition)算法。假设训练集中共有N类不同音频事件,记通过K-SVD算法学习得到的第i类音频事件的音频字典为 Bi(i=1,…,N)。假设每类音频事件的音频字典中基函数的个数为M个,则Bi是尺寸为39×M 的矩阵。
其次,将各类音频事件的音频字典通过堆叠得到大型音频字典B:
B=[B1 B2 ...... BN] (1)
B是尺寸为39×(M·N)的矩阵。
本发明提出通过堆叠各类音频事件的字典得到大型字典,基于大型字典提取样本的稀疏表示系数。与传统的基于每类音频事件自身的音频字典提取稀疏表示系数的方法相比,本发明具有以下优点:对于某一类音频事件的样本,在基于大型字典提取稀疏表示系数时,其稀疏表示系数的非零值主要集中在样本所属音频事件类的音频字典对应的系数部分。比如,第 i类音频事件样本的稀疏表示系数的非零值主要集中在与Bi所对应的系数部分。因此,本发明将会使各类音频事件样本之间具有很好的区分度,便于后期的分类识别。
以下介绍分类测试过程:
(一)音频分帧处理
对测试音频文档进行和训练阶段同样的分帧处理,即,分帧时,设定帧长为30毫秒,帧移为20毫秒。
(二)音频特征提取
分帧处理后对每个帧提取39维MFCC特征,用此39维MFCC特征来表达每个测试音频样本。
(三)提取稀疏表示系数
根据训练阶段构建的大型字典,利用正交匹配追踪算法求得测试音频样本的稀疏表示系数。
对某一测试音频文档,假设其共有K个由39维MFCC特征表征的样本。对每个样本,基于训练阶段构建的大型字典B,利用正交匹配追踪算法求其稀疏表示系数。记第k个样本的稀疏表示系数为xk(k=1,…,K),因为B是尺寸为39×(M·N)的矩阵,所以xk是 (M·N)维的列向量,即xk可表示为:
Figure BDA0001357273850000071
其中,xk1表示xk的第1维;xk(M·N)表示xk的第(M·N)维。
通过softmax函数对稀疏表示系数进行映射,记映射后的稀疏表示系数为 yk(k=1,…,K)。yk(k=1,…,K)的维度也为(M·N)维,即
Figure BDA0001357273850000072
其中, yk1表示yk的第1维;yk(M·N)表示yk的第(M·N)维。由xk到yk的softmax映射关系式为:
Figure BDA0001357273850000073
其中,ykj表示yk的第j维;xkj表示xk的第j维;xkd表示xk的第d维。
Figure BDA0001357273850000074
表示对xkj做以 e为底数的指数函数运算,
Figure BDA0001357273850000075
表示对xkd做以e为底数的指数函数运算。e是数学常数,近似等于2.718281828。
稀疏表示系数xk的元素值有正有负,不适合用本发明提出的分类判别策略。经softmax 函数映射后,yk的每个元素值都处于[0,1]区间,且所有元素的和值为1,如此处理后的稀疏表示系数yk适合于用本发明提出的分类判别策略。
(四)分类判别
对每个测试音频样本,通过其映射后的稀疏表示系数求其在各类音频事件上的置信度;测试音频文档在各类音频事件上的置信度是通过文档内所有样本的置信度取平均得到的。最后,根据置信度的大小进行分类判别。
这里以第k个测试音频样本为例介绍如何通过其映射后的稀疏表示系数求其在各类音频事件上的置信度。
记通过yk求得的第k个音频样本在第i类音频事件上的置信度为fki(i=1,…,N),fki的求解表达式为:
Figure BDA0001357273850000081
测试音频文档在各类音频事件上的置信度是通过文档内所有样本的置信度取平均得到的。记测试音频文档在第i类音频事件上的置信度为fi(i=1,…,N),则其求解公式为:
Figure BDA0001357273850000082
对于测试音频文档,在分类时,根据其在各个音频事件类上的置信度,将其分类为置信度值最大的那一类音频事件。记测试音频文档的分类判别类标签为label,则:
Figure BDA0001357273850000083
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.基于堆叠基稀疏表示的音频事件分类方法,其特征是,包括:
步骤(1):训练音频分帧处理:对训练音频文档进行分帧处理,每帧作为一个训练音频样本;
步骤(2):对训练音频文档中的每个训练音频样本进行训练音频特征提取,用提取的训练音频特征表征训练音频样本;
步骤(3):通过堆叠基构建大型音频字典;
步骤(4):对测试音频文档进行和步骤(1)同样的分帧处理,每帧作为一个测试音频样本;
步骤(5):对测试音频文档中的每个测试音频样本进行测试音频特征提取,用提取的测试音频特征表征测试音频样本;
步骤(6):根据步骤(3)构建的大型音频字典,利用正交匹配追踪算法求得测试音频样本的稀疏表示系数;
步骤(7):通过softmax函数对稀疏表示系数进行映射;
步骤(8):通过映射后的稀疏表示系数求得每个测试音频样本在各类音频事件上的置信度;
步骤(9):通过对测试音频文档内所有音频样本的置信度取平均,求得测试音频文档在各类音频事件上的置信度;
步骤(10):求测试音频文档在各个音频事件类上的置信度的最大值,将测试音频文档的音频事件类判别为具有最大置信度值的音频事件类;
所述步骤(3)通过堆叠基构建大型音频字典的过程包括:
步骤(3.1):训练集中包括若干类音频事件,对于每一类音频事件,用训练集中该类音频事件的样本作为K-SVD算法的输入,样本是用步骤(2)中提取的训练音频特征表征的训练音频样本;通过K-SVD算法创建该类音频事件的音频字典;
假设训练集中共有N类不同音频事件,记通过K-SVD算法创建的第i类音频事件的音频字典为Bi,其中,i=1,…,N;假设每类音频事件的音频字典中基函数的个数为M个,则Bi是尺寸为39×M的矩阵;
步骤(3.2):将各类音频事件的音频字典通过堆叠得到大型音频字典B:
B=[B1 B2......BN]
B是尺寸为39×(M·N)的矩阵。
2.如权利要求1所述的基于堆叠基稀疏表示的音频事件分类方法,其特征是,
所述步骤(1)根据经验法则,将帧长设定为30毫秒,帧移设定为20毫秒;
所述步骤(2)对每个音频样本提取39维MFCC特征,用所述39维MFCC特征来表达每个训练音频样本;
所述步骤(4),分帧处理时,设定帧长为30毫秒,帧移为20毫秒;
所述步骤(5)对测试音频文档中的每个帧提取39维MFCC特征,用所述39维MFCC特征来表达每个测试音频样本。
3.如权利要求1所述的基于堆叠基稀疏表示的音频事件分类方法,其特征是,
所述步骤(6):对某一测试音频文档,假设其共有K个由39维MFCC特征表征的样本;基于步骤(3)构建的大型音频字典B,利用正交匹配追踪算法求得每个测试音频样本的稀疏表示系数;记第k个样本的稀疏表示系数为xk,其中,k=1,…,K,xk是M·N维的列向量,xk表示为:
Figure FDA0002311417390000021
其中,xk1表示xk的第1维;xk(M·N)表示xk的第M·N维。
4.如权利要求3所述的基于堆叠基稀疏表示的音频事件分类方法,其特征是,
所述步骤(7)对稀疏表示系数xk,k=1,…,K进行映射,假设映射后的稀疏系数记为yk,xk到yk的softmax映射关系式为:
Figure FDA0002311417390000022
其中,ykj表示yk的第j维;xkj表示xk的第j维;xkd表示xk的第d维,j=1,…,M·N,
Figure FDA0002311417390000023
表示对xkj做以e为底数的指数函数运算,
Figure FDA0002311417390000024
表示对xkd做以e为底数的指数函数运算;e是数学常数。
5.如权利要求4所述的基于堆叠基稀疏表示的音频事件分类方法,其特征是,
所述步骤(8)的步骤为:
记通过yk求得的第k个音频样本在第i类音频事件上的置信度为fki
fki的求解表达式为:
Figure FDA0002311417390000031
i=1,…,N;
N表示共有N类音频事件。
6.如权利要求5所述的基于堆叠基稀疏表示的音频事件分类方法,其特征是,
所述步骤(9)的步骤为:
记测试音频文档在第i类音频事件上的置信度为fi,i=1,…,N:
Figure FDA0002311417390000032
7.如权利要求6所述的基于堆叠基稀疏表示的音频事件分类方法,其特征是,
所述步骤(10):记测试音频文档的分类判别类标签为label,则:
Figure FDA0002311417390000033
8.一种计算机设备,其特征是,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序运行时实现以下步骤:
步骤(1):训练音频分帧处理:对训练音频文档进行分帧处理,每帧作为一个训练音频样本;
步骤(2):对训练音频文档中的每个训练音频样本进行训练音频特征提取,用提取的训练音频特征表征训练音频样本;
步骤(3):通过堆叠基构建大型音频字典;
步骤(4):对测试音频文档进行和步骤(1)同样的分帧处理,每帧作为一个测试音频样本;
步骤(5):对测试音频文档中的每个测试音频样本进行测试音频特征提取,用提取的测试音频特征表征测试音频样本;
步骤(6):根据步骤(3)构建的大型音频字典,利用正交匹配追踪算法求得测试音频样本的稀疏表示系数;
步骤(7):通过softmax函数对稀疏表示系数进行映射;
步骤(8):通过映射后的稀疏表示系数求得每个测试音频样本在各类音频事件上的置信度;
步骤(9):通过对测试音频文档内所有音频样本的置信度取平均,求得测试音频文档在各类音频事件上的置信度;
步骤(10):求测试音频文档在各个音频事件类上的置信度的最大值,将测试音频文档的音频事件类判别为具有最大置信度值的音频事件类;
所述步骤(3)通过堆叠基构建大型音频字典的过程包括:
步骤(3.1):训练集中包括若干类音频事件,对于每一类音频事件,用训练集中该类音频事件的样本作为K-SVD算法的输入,样本是用步骤(2)中提取的训练音频特征表征的训练音频样本;通过K-SVD算法创建该类音频事件的音频字典;
假设训练集中共有N类不同音频事件,记通过K-SVD算法创建的第i类音频事件的音频字典为Bi,其中,i=1,…,N;假设每类音频事件的音频字典中基函数的个数为M个,则Bi是尺寸为39×M的矩阵;
步骤(3.2):将各类音频事件的音频字典通过堆叠得到大型音频字典B:
B=[B1 B2......BN]
B是尺寸为39×(M·N)的矩阵。
9.一种计算机可读存储介质,其特征是,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
步骤(1):训练音频分帧处理:对训练音频文档进行分帧处理,每帧作为一个训练音频样本;
步骤(2):对训练音频文档中的每个训练音频样本进行训练音频特征提取,用提取的训练音频特征表征训练音频样本;
步骤(3):通过堆叠基构建大型音频字典;
步骤(4):对测试音频文档进行和步骤(1)同样的分帧处理,每帧作为一个测试音频样本;
步骤(5):对测试音频文档中的每个测试音频样本进行测试音频特征提取,用提取的测试音频特征表征测试音频样本;
步骤(6):根据步骤(3)构建的大型音频字典,利用正交匹配追踪算法求得测试音频样本的稀疏表示系数;
步骤(7):通过softmax函数对稀疏表示系数进行映射;
步骤(8):通过映射后的稀疏表示系数求得每个测试音频样本在各类音频事件上的置信度;
步骤(9):通过对测试音频文档内所有音频样本的置信度取平均,求得测试音频文档在各类音频事件上的置信度;
步骤(10):求测试音频文档在各个音频事件类上的置信度的最大值,将测试音频文档的音频事件类判别为具有最大置信度值的音频事件类;
所述步骤(3)通过堆叠基构建大型音频字典的过程包括:
步骤(3.1):训练集中包括若干类音频事件,对于每一类音频事件,用训练集中该类音频事件的样本作为K-SVD算法的输入,样本是用步骤(2)中提取的训练音频特征表征的训练音频样本;通过K-SVD算法创建该类音频事件的音频字典;
假设训练集中共有N类不同音频事件,记通过K-SVD算法创建的第i类音频事件的音频字典为Bi,其中,i=1,…,N;假设每类音频事件的音频字典中基函数的个数为M个,则Bi是尺寸为39×M的矩阵;
步骤(3.2):将各类音频事件的音频字典通过堆叠得到大型音频字典B:
B=[B1 B2......BN]
B是尺寸为39×(M·N)的矩阵。
CN201710601565.9A 2017-07-21 2017-07-21 基于堆叠基稀疏表示的音频事件分类方法及计算机设备 Active CN107403618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710601565.9A CN107403618B (zh) 2017-07-21 2017-07-21 基于堆叠基稀疏表示的音频事件分类方法及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710601565.9A CN107403618B (zh) 2017-07-21 2017-07-21 基于堆叠基稀疏表示的音频事件分类方法及计算机设备

Publications (2)

Publication Number Publication Date
CN107403618A CN107403618A (zh) 2017-11-28
CN107403618B true CN107403618B (zh) 2020-05-05

Family

ID=60401129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710601565.9A Active CN107403618B (zh) 2017-07-21 2017-07-21 基于堆叠基稀疏表示的音频事件分类方法及计算机设备

Country Status (1)

Country Link
CN (1) CN107403618B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108777815B (zh) * 2018-06-08 2021-04-23 Oppo广东移动通信有限公司 视频处理方法和装置、电子设备、计算机可读存储介质
CN109086704A (zh) * 2018-07-23 2018-12-25 杭州电子科技大学 一种基于稀疏表示和Softmax分类的人体活动识别方法
CN109344309A (zh) * 2018-09-18 2019-02-15 上海唯识律简信息科技有限公司 基于卷积神经网络堆叠泛化的文档图像分类方法和系统
CN109816632B (zh) * 2018-12-25 2020-12-25 东软集团股份有限公司 脑图像处理方法、装置、可读存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332264A (zh) * 2011-09-21 2012-01-25 哈尔滨工业大学 鲁棒性活动语音检测方法
US9558762B1 (en) * 2011-07-03 2017-01-31 Reality Analytics, Inc. System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner
CN106653061A (zh) * 2016-11-01 2017-05-10 武汉大学深圳研究院 一种基于字典分类的音频匹配追踪装置及其追踪方法
CN106847309A (zh) * 2017-01-09 2017-06-13 华南理工大学 一种语音情感识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558762B1 (en) * 2011-07-03 2017-01-31 Reality Analytics, Inc. System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner
CN102332264A (zh) * 2011-09-21 2012-01-25 哈尔滨工业大学 鲁棒性活动语音检测方法
CN106653061A (zh) * 2016-11-01 2017-05-10 武汉大学深圳研究院 一种基于字典分类的音频匹配追踪装置及其追踪方法
CN106847309A (zh) * 2017-01-09 2017-06-13 华南理工大学 一种语音情感识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Dictionary learning based sparse coefficients for audio classification with max and average pooling;Syed Zubair et al.;《Digital Signal Processing》;20130126;第960-970页 *

Also Published As

Publication number Publication date
CN107403618A (zh) 2017-11-28

Similar Documents

Publication Publication Date Title
CN107403618B (zh) 基于堆叠基稀疏表示的音频事件分类方法及计算机设备
Qu et al. Radar signal intra-pulse modulation recognition based on convolutional denoising autoencoder and deep convolutional neural network
CN111460968B (zh) 基于视频的无人机识别与跟踪方法及装置
CN110826630A (zh) 基于深度卷积神经网络的雷达干扰信号特征级融合识别方法
Naghavi et al. Integrated real-time object detection for self-driving vehicles
CN111222442A (zh) 一种电磁信号分类方法和装置
CN112766378B (zh) 一种专注细粒度识别的跨域小样本图像分类模型方法
CN104951791A (zh) 数据分类方法和装置
Wang et al. Multi-task Joint Sparse Representation Classification Based on Fisher Discrimination Dictionary Learning.
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
CN117516937A (zh) 基于多模态特征融合增强的滚动轴承未知故障检测方法
CN110909678B (zh) 一种基于宽度学习网络特征提取的人脸识别方法及系统
CN109598216B (zh) 一种基于卷积的射频指纹特征提取方法
Yan et al. Rare Chinese character recognition by Radical extraction network
CN107341519B (zh) 一种基于多分辨率分析的支持向量机识别优化方法
CN116450781A (zh) 问答的处理方法及装置
CN114359786A (zh) 一种基于改进时空卷积网络的唇语识别方法
Wang et al. Fisher discriminative dictionary learning for vehicle classification in acoustic sensor networks
CN113361631A (zh) 基于迁移学习的绝缘子老化光谱分类方法
Zha et al. Intensifying The Consistency of Pseudo Label Refinement for Unsupervised Domain Adaptation Person Re-Identification
CN111783526A (zh) 一种利用姿势不变和图结构对齐的跨域行人重识别方法
Haque et al. Real time object detection based on YOLO with feature filter bank
Linlin et al. Image Recognition Based on the Depth-Wise Separable Convolution and Softpool
CN116912920B (zh) 表情识别方法及装置
CN117272086B (zh) 一种基于dbscan的雷达信号扫描包络分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant