CN104239372A - 一种音频数据分类方法及装置 - Google Patents

一种音频数据分类方法及装置 Download PDF

Info

Publication number
CN104239372A
CN104239372A CN201310254043.8A CN201310254043A CN104239372A CN 104239372 A CN104239372 A CN 104239372A CN 201310254043 A CN201310254043 A CN 201310254043A CN 104239372 A CN104239372 A CN 104239372A
Authority
CN
China
Prior art keywords
classification
audio data
voice data
subsequence
data sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310254043.8A
Other languages
English (en)
Other versions
CN104239372B (zh
Inventor
谢志明
潘晖
潘石柱
张兴明
傅利泉
朱江明
吴军
吴坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN201310254043.8A priority Critical patent/CN104239372B/zh
Publication of CN104239372A publication Critical patent/CN104239372A/zh
Application granted granted Critical
Publication of CN104239372B publication Critical patent/CN104239372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种音频数据分类方法,用以解决现有技术中存在的处理快慢不同的音频数据序列时,分类处理效果不好的问题。通过本发明实施例提供的技术方案,由于对同一段未知类别的音频数据序列进行了至少两次划分,得到了长短不一的多个音频数据子序列,从而相当于提高了该未知类别的音频数据序列的适应性,使之能够适用于分类器的训练样本中较快音频数据占比比较高,以及分类器的训练样本中较慢音频数据占比比较高的等不同情况。从而这样的方法适用性更广,对于快慢节奏不同的音频数据有较好的鲁棒性。

Description

一种音频数据分类方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种音频数据分类方法及装置。
背景技术
音频数据的分类可广泛应用于音频检索以及异常事件检测。比如,一个对音频数据进行音频检索的具体实例是对音频数据进行语音与音乐的分类。在该实例中,如果能够预先确定出待检索的某音频数据的类别是“音乐”,则可以确定应该在“音乐数据库”包含的音频数据子类别里查找该音频数据。特别地,如果能够预先确定出待检索的音频数据的类别是具备某种音乐风格的音频数据,则可进一步缩小检索范围。
再比如,另一个实例是通过对尖叫声、玻璃碎裂声、枪声与正常声音(如按某人正常语速说话的声音等)等不同的待检测音频数据进行分类,从而确定出产生待检测音频数据的事件是异常事件还是正常事件。在该实例中,如果确定出待检测音频数据的特征与尖叫声、枪声或玻璃碎裂等异常音频数据的特征类似,则可以确定待检测音频数据归属于异常音频数据这一类别,从而确定待检测音频数据所对应的事件为异常事件;而如果待检测音频数据的特征与正常声音的特征类似,则可以确定待检测音频数据归属于正常音频数据这一类别,从而确定待检测音频数据所对应的事件为正常事件。
现有技术中一般都是将已知类别的时间定长的音频数据样本(一般为由多个音频数据构成的音频数据序列)进行分帧短时处理,得到各个帧的美尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)、线性预测倒谱系数(LinearPredictive Cepstral Coding,LPCC)等等组合起来作为该段音频数据样本的描述特征,再将从各段音频数据样本中提取到的特征数据进行聚类或分类训练得到各类音频数据的共性特征。从而在分类未知类别的音频数据序列时,也是根据时间定长的一段音频数据序列进行同样的分帧处理,提取相应的数据特征送入聚类或分类训练得到的聚类中心或分类器中,而获得该未知类别的音频数据序列所属的音频数据类别。
按照上述这样的方法处理快慢不同的未知类别的不同音频数据序列时,分类结果会不好。比如训练得到某分类器的音频数据样本中的慢音频数据样本(声音频率较低)占多数,而在利用该分类器对未知类别的快音频数据(声音频率较高)进行分类时,得到的分类结果的准确性会较差。
发明内容
本发明实施例提供一种音频数据分类方法,用以解决现有技术中存在的处理快慢不同的音频数据序列时,分类处理效果不好的问题。
本发明实施例采用以下技术方案:
一种音频数据分类方法,包括:对未知类别的音频数据序列进行至少两次划分;其中,每次对所述未知类别的音频数据序列进行划分,均得到对所述未知类别的音频数据序列进行本次划分而获得的多个音频数据子序列构成的集合;且得到的各个集合中的任一集合包含的音频数据子序列的长度不同于其他集合包含的音频数据子序列的长度;针对所述各个集合中的每个音频数据子序列分别执行:按照对音频数据样本进行分类训练时采用的特征提取方法,提取该音频数据子序列的特征;通过比较该音频数据子序列的特征和对所述音频数据样本进行所述分类训练而得到的各个音频数据类别里的音频数据样本子序列的特征,得到分类结果;根据针对所述每个音频数据子序列分别得到的所述分类结果,确定未知类别的音频数据序列的类别。
一种音频数据分类装置,包括:切分单元,用于对未知类别的音频数据序列进行至少两次划分;其中,每次对所述未知类别的音频数据序列进行划分,均得到对所述未知类别的音频数据序列进行本次划分而获得的多个音频数据子序列构成的集合;且得到的各个集合中的任一集合包含的音频数据子序列的长度不同于其他集合包含的音频数据子序列的长度;特征提取单元,用于针对所述各个集合中的每个音频数据子序列分别执行:按照对音频数据样本进行分类训练时采用的特征提取方法,提取该音频数据子序列的特征;分类结果确定单元,用于针对所述每个音频数据子序列分别执行:比较特征提取单元提取出的该音频数据子序列的特征和对音频数据样本进行所述分类训练而得到的各个音频数据类别的特征,得到分类结果;类别确定单元,用于根据分类结果确定单元针对所述每个音频数据子序列分别得到的所述分类结果,确定未知类别的音频数据序列的类别。
本发明实施例的有益效果如下:
通过本发明实施例提供的技术方案,由于对同一段未知类别的音频数据序列进行了至少两次划分,得到了长短不一的多个音频数据子序列,从而相当于提高了该未知类别的音频数据序列的适应性,使之能够适用于分类器的训练样本中较快音频数据占比比较高,以及分类器的训练样本中较慢音频数据占比比较高的等不同情况。从而这样的方法适用性更广,对于快慢节奏不同的音频数据有较好的鲁棒性。
附图说明
图1为本发明实施例提供的音频分类方法流程图;
图2为本发明实施例提供的音频分类方法的具体应用流程图;
图3为本发明实施例提供的音频分类装置的具体结构示意图。
具体实施方式
发明人通过对现有技术的分析研究,发现现有技术中采用的音频数据分类方法存在着一个共同的缺陷,即针对快慢节奏不同的音频数据进行分类处理时分类效果不好的缺陷:如果训练时所采用的快音频数据样本占多数,而在分类时处理的却是一段较慢的未知类别的音频数据的话,分类效果会很差;如果训练时所采用的慢音频数据样本占多数,而在分类时处理的却是一段较快的未知类别的音频数据的话,分类效果也会很差。
为了给出能适应快慢不同的音频数据的分类实施方案,本发明实施例提供了一种音频数据分类方法,该方法的具体流程示意图如图1所示,包括以下步骤:
步骤11,对未知类别的音频数据序列进行至少两次划分;
其中,每次对该未知类别的音频数据序列进行划分,均得到对该未知类别的音频数据序列进行本次划分而获得的多个音频数据子序列构成的集合。
本发明实施例中,得到的各个集合中的任一集合均满足:其包含的音频数据子序列的长度不同于其他集合包含的音频数据子序列的长度。
步骤12,针对得到的各个集合中的每个音频数据子序列分别执行:按照对音频数据样本进行分类训练时采用的特征提取方法,提取该音频数据子序列的特征;
步骤13,针对得到的各个集合中的每个音频数据子序列分别执行:通过比较该音频数据子序列的特征和对音频数据样本进行分类训练而得到的各个音频数据类别的特征,得到分类结果;
一般说来,音频数据子序列的特征和音频数据类别的特征都可以是一个向量,即特征向量。从而比较音频数据子序列的特征和音频数据类别中的音频数据子序列的特征,即为比较两个特征向量之间的距离。该距离越小,说明两个特征向量越相似,即音频数据子序列归属于该音频数据类别的可能性越大;反之则说明两个特征向量差别比较大,即音频数据子序列归属于该音频数据类别的可能性越小。
步骤14,根据针对每个音频数据子序列分别得到的分类结果,确定未知类别的音频数据序列的类别。
具体地,步骤14的实现方式可以包括:根据针对每个音频数据子序列分别得到的分类结果,采用投票方式确定该未知类别的音频数据序列的类别。
本发明实施例中,采用投票方式确定该未知类别的音频数据序列的类别可以有以下两种实现方式。
第一种方式:
该方式主要包括下述子步骤:
子步骤1:根据针对得到的各个集合中的每个音频数据子序列分别得到的分类结果,确定各个音频数据类别所对应的分类结果的个数;
子步骤2:从确定出的个数中,确定最大个数;
子步骤3:将确定出的最大个数所对应的音频数据类别确定为所述未知类别的音频数据序列的类别。
第二种方式:
该方式主要包括下述子步骤:
子步骤1:针对每个音频数据子序列分别执行:分别确定提取的该音频数据子序列的特征和该音频数据子序列所属类别的音频数据样本子序列的特征的相似度,并按照预设的相似度与权重值的对应关系,确定该音频数据子序列所对应的权重值;
其中,该对应关系满足:使得不同相似度与相应的权重值之间为正比关系。比如,假设存在相似度A<相似度B,且相似度A所对应的权重值为a,相似度B所对应的权重值为b。那么,按照该对应关系满足的上述条件,就有a<b。
子步骤2:分别统计各个音频数据类别所对应的所有音频数据子序列的权重值的和值;
子步骤3:将最大和值所对应的音频数据类别确定为未知类别的音频数据序列的类别。
由本发明实施例提供的上述方法可知,由于该方法对同一段未知类别的音频数据序列进行了至少两次划分,得到了长短不一的多个音频数据子序列,从而相当于提高了该未知类别的音频数据的适应性,使之能够适用于分类器的训练样本中较快音频数据占比比较高,以及分类器的训练样本中较慢音频数据占比比较高的等不同情况。从而这样的方法适用性更广,对于快慢节奏不同的音频数据有较好的鲁棒性。
以下具体介绍本发明实施例提供的上述方法在实际中的一种具体应用流程。该应用流程包括如图2所示的下述步骤:
步骤21,收集各个待分类的已知类别的音频数据样本,并对各个待分类的已知类别的音频数据样本采用固定帧数值、变化帧时长的方式提取出各类的聚类中心或分类器。
步骤22,对于一段未知类别的音频数据序列,首先采用预先设置好的最短切分单位时长,对其进行切分;然后,按一定时间步长对该最短切分单位时长进行调整后得到另一个切分单位时长,并根据得到的该切分单位时长对该音频数据序列进行切分;以此类推,直至按照预先设置好的最长切分单位时长,完成对该音频数据序列的切分。
例如:一段5秒长的未知类别的音频数据序列,第一次以0.5秒为切分单位时长对其进行切分,可以得到10段长度相等的音频数据子序列;若时间步长为0.5秒,则第二次以1秒为切分单位时长对该音频数据序列进行切分,可以得到5段长度相等的音频数据子序列。以此类推,对该音频数据序列反复进行多次切分,可以得到多个音频数据子序列。需要说明的是,若以1.5秒为切分单位时长对该音频数据序列进行切分时,会得到3段1.5秒长的音频数据子序列以及1段0.5秒长的音频数据子序列,那么,可以滤掉0.5秒长的音频数据子序列,即不将该0.5秒长的音频数据子序列统计到对该音频数据序列进行划分而到的音频数据子序列中。
在本实施例中,切分方案得到了节奏快慢不同的音频数据子序列,这样就可以进一步执行下述步骤23,实现按固定帧数值、变化帧时长的方式对这些未知类别的音频数据子序列进行特征提取。
步骤23,针对对未知类别的音频数据序列进行多次划分而得到的每个音频数据子序列,分别按照对音频数据样本序列进行分类训练时采用的特征提取方法,提取该音频数据子序列的特征;
步骤24,将从每一个音频数据子序列提取得到的特征分别与对音频数据样本序列进行分类训练而得到的每个类别的聚类中心进行比较,得到该音频数据子序列所对应的分类结果;
其中,任意类别的聚类中心可以理解为该类别下的音频数据样本序列的共性特征。
可选的,在本发明的实施例中,可以将通过执行步骤23而提取的各个音频数据子序列的特征送入训练得到的分类器中,由分类器来实施比较从音频数据子序列提取得到的特征与训练而得到的每个类别的特征。具体地,分类器可以针对每个音频数据子序列执行:对该音频数据子序列的特征与每个类别的特征进行比较,选取与该音频数据子序列的特征相似度最大的那个类别作为该音频数据子序列的分类结果。
步骤25,根据针对每个音频数据子序列分别得到的分类结果,采用投票方式确定该未知类别的音频数据的类别。
一般地,投票方式有很多种,本发明实施例中详细介绍其中两种。其中一种为简单投票方式,即从针对每个音频数据子序列分别得到的分类结果中,选取出现次数最多的分类结果所对应的类别,作为该未知类别的音频数据序列的类别。具体地,在本发明的实施例中,将所有音频数据子序列的分类结果进行整理,采用简单投票方式确定该未知类别的音频数据序列的类别的过程如下:
首先,根据针对每个音频数据子序列分别得到的分类结果,确定各个音频数据类别所对应的分类结果的个数;
然后,从确定出的个数中确定最大个数;
最后,将该最大个数所对应的音频数据类别确定为该未知类别的音频数据序列的类别。
基于上述投票方式,假设一共得到10个音频数据子序列分类结果,且训练得到的三个音频数据类别A类、B类和C类所分别对应的分类结果的情况为:6个分类结果是A类,2个分类结果是B类,2个分类结果是C类,那么,由于A类所对应的分类结果的个数最大,那么就可以选择A类作为未知类别的音频数据序列的类别。
可选的,本发明实施例中,还可以采用一种较为复杂的权重投票方式来确定未知类别的音频数据序列的类别。具体地,将所有音频数据子序列的分类结果按预设的权重值进行整理,采用权重投票方式确定知类别的音频数据序列的类别的具体过程包括:
首先,针对每个音频数据子序列分别执行:确定提取的该音频数据子序列的特征和该音频数据子序列所属类别的共性特征的相似度,并按照预设的相似度与权重值的对应关系,确定该音频数据子序列所对应的权重值;其中,该对应关系可以满足:使得不同相似度与相应的权重值之间为正比关系;
然后,分别统计各个音频数据类别所对应的所有音频数据子序列的权重值的和值;
最后,将最大和值所对应的音频数据类别确定为未知类别的音频数据序列的类别。
基于上述权重投票方式,假设两个音频数据子序列X和Y的分类结果都是A类,而X的特征(一般为特征向量)与A类的聚类中心(一般也是一个特征向量)之间的距离的绝对值很大,且Y的特征与A类的聚类中心之间的距离的绝对值很小。那么,虽然将这两个音频数据子序列都归为A类,但是可以通过为X的分类结果分配权重值0.1,而为Y的分类结果分配权重值0.9的方式,将这两段音频数据子序列的分类结果调整为0.1*A和0.9*A。类似地,对于每个音频数据子序列的分类结果,都可以采用上述方式来进行调整,从而通过对调整后的分类结果的统计,就可以得到各个类别的加权值,如得到2.5A、3B和1.2C。其中,A、B和C分别为类别标识。这样,就可以将2.5、3和1.2这几个数字中的最大数字3所对应的类别B确定为未知类别的音频数据序列的类别。
通过本发明实施例提供的技术方案,由于对同一段未知类别的音频数据序列进行了至少两次划分,得到了长短不一的多个音频数据子序列,从而相当于提高了该未知类别的音频数据的适应性,使之能够适用于分类器的训练样本中较快音频数据占比比较高,以及分类器的训练样本中较慢音频数据占比比较高的等不同情况。从而这样的方法适用性更广,对于快慢节奏不同的音频数据有较好的鲁棒性。
出于与本发明实施例提供的音频数据分类方法相同的发明构思,本发明实施例还提供一种音频数据分类装置。该装置的具体结构示意图如图3所示,其具体包括如下功能单元:
切分单元31,用于对未知类别的音频数据序列进行至少两次划分;
其中,每次对该未知类别的音频数据序列进行划分,均得到对该未知类别的音频数据进行本次划分而获得的多个音频数据子序列构成的集合;且得到的各个集合中的任一集合包含的音频数据子序列的长度不同于其他集合包含的音频数据子序列的长度;
特征提取单元32,用于针对切分单元31切分而得到的各个集合中的每个音频数据子序列分别执行:按照对音频数据样本序列进行分类训练时采用的特征提取方法,提取该音频数据子序列的特征;
分类结果确定单元33,用于针对所述每个音频数据子序列分别执行:比较特征提取单元32提取出的该音频数据子序列的特征和对该音频数据样本序列进行分类训练而得到的各个音频数据类别里的音频数据子序列的特征,得到分类结果;
类别确定单元34,用于根据分类结果确定单元33针对每个音频数据子序列分别得到的分类结果,确定未知类别的音频数据序列的类别。
本发明实施例中,类别确定单元34具体可以针对每个音频数据子序列分别得到的所述分类结果,采用投票方式确定该未知类别的音频数据序列的类别。
当采用前文所述的简单投票方式时,类别确定单元34可以进一步划分为以下子单元:
分类结果统计子单元,用于根据分类结果确定单元34针对每个音频数据子序列分别得到的分类结果,确定各个音频数据类别所对应的分类结果的个数;
最大值确定子单元,用于从分类结果统计子单元确定出的各个音频数据类别所对应的分类结果的个数中,确定最大个数;
类别确定子单元,用于将最大值确定子单元确定的最大个数所对应的音频数据类别确定为未知类别的音频数据的类别。
当采用前文所述的权重投票方式时,类别确定单元34可以进一步划分为以下子单元:
权重值确定子单元,用于针对对未知类别的音频数据序列划分得到的每个音频数据子序列分别执行:分别确定提取的该音频数据子序列的特征和该音频数据子序列所属类别的音频数据子序列的特征的相似度,并按照预设的相似度与权重值的对应关系,确定该音频数据子序列所对应的权重值;其中,该对应关系满足:使得不同相似度与相应的权重值之间为正比关系;
权重值统计子单元,用于分别统计各个音频数据类别所对应的所有音频数据子序列的权重值的和值;
类别确定子单元,用于将权重值统计子单元统计出的最大和值所对应的音频数据类别确定为未知类别的音频数据序列的类别。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种音频数据分类方法,其特征在于,包括:
对未知类别的音频数据序列进行至少两次划分;其中,每次对所述未知类别的音频数据序列进行划分,均得到对所述未知类别的音频数据序列进行本次划分而获得的多个音频数据子序列构成的集合;且得到的各个集合中的任一集合包含的音频数据子序列的长度不同于其他集合包含的音频数据子序列的长度;
针对所述各个集合中的每个音频数据子序列分别执行:按照对音频数据样本进行分类训练时采用的特征提取方法,提取该音频数据子序列的特征;通过比较该音频数据子序列的特征和对所述音频数据样本进行所述分类训练而得到的各个音频数据类别里的音频数据样本子序列的特征,得到分类结果;
根据针对所述每个音频数据子序列分别得到的所述分类结果,确定未知类别的音频数据序列的类别。
2.如权利要求1所述的方法,其特征在于,对音频数据样本进行分类训练时采用的特征提取方法,具体包括:
针对每个音频数据样本执行:
将该音频数据样本进行切分,得到多个音频数据样本子序列;
针对所述多个音频数据样本子序列中的每个音频数据样本子序列执行:
将该音频数据样本子序列进行切分,得到多个音频数据样本段;分别提取每个音频数据样本段的指定特征;将提取到的各个音频数据样本段的指定特征进行组合,得到该音频数据样本子序列的特征;
其中,所述多个音频数据样本段的数量等于预设数量;且每个音频数据样本段均包含相同的数据总量。
3.如权利要求1所述的方法,其特征在于,根据针对所述每个音频数据子序列分别得到的所述分类结果,确定未知类别的音频数据序列的类别,具体包括:
根据针对所述每个音频数据子序列分别得到的所述分类结果,采用投票方式确定所述未知类别的音频数据序列的类别。
4.如权利要求3所述的方法,其特征在于,根据针对所述每个音频数据子序列分别得到的所述分类结果,采用投票方式确定所述未知类别的音频数据序列的类别,具体包括:
根据针对所述每个音频数据子序列分别得到的所述分类结果,确定各个音频数据类别所对应的分类结果的个数;
从确定出的所述个数中,确定最大个数;并
将所述最大个数所对应的音频数据类别确定为所述未知类别的音频数据序列的类别。
5.如权利要求3所述的方法,其特征在于,根据针对所述每个音频数据子序列分别得到的所述分类结果,采用投票方式确定所述未知类别的音频数据序列的类别,具体包括:
针对每个音频数据子序列分别执行:分别确定提取的该音频数据子序列的特征和该音频数据子序列所属类别的共性特征的相似度,并按照预设的相似度与权重值的对应关系,确定该音频数据子序列所对应的权重值;其中,所述对应关系满足:使得不同相似度与相应的权重值之间为正比关系;
分别统计各个音频数据类别所对应的所有音频数据子序列的权重值的和值;并
将最大和值所对应的音频数据类别确定为所述未知类别的音频数据序列的类别。
6.一种音频数据分类装置,其特征在于,包括:
切分单元,用于对未知类别的音频数据序列进行至少两次划分;其中,每次对所述未知类别的音频数据序列进行划分,均得到对所述未知类别的音频数据序列进行本次划分而获得的多个音频数据子序列构成的集合;且得到的各个集合中的任一集合包含的音频数据子序列的长度不同于其他集合包含的音频数据子序列的长度;
特征提取单元,用于针对所述各个集合中的每个音频数据子序列分别执行:按照对音频数据样本进行分类训练时采用的特征提取方法,提取该音频数据子序列的特征;
分类结果确定单元,用于针对所述每个音频数据子序列分别执行:比较特征提取单元提取出的该音频数据子序列的特征和对音频数据样本进行所述分类训练而得到的各个音频数据类别的特征,得到分类结果;
类别确定单元,用于根据分类结果确定单元针对所述每个音频数据子序列分别得到的所述分类结果,确定未知类别的音频数据序列的类别。
7.如权利要求6所述的装置,其特征在于,对音频数据样本进行分类训练时采用的特征提取方法,具体包括:
针对每个音频数据样本执行:
将该音频数据样本进行切分,得到多个音频数据样本子序列;
针对所述多个音频数据样本子序列中的每个音频数据样本子序列执行:
将该音频数据样本子序列进行切分,得到多个音频数据样本段;分别提取每个音频数据样本段的指定特征;将提取到的各个音频数据样本段的指定特征进行组合,得到该音频数据样本子序列的特征;
其中,所述多个音频数据样本段的数量等于预设数量;且每个音频数据样本段均包含相同的数据总量。
8.如权利要求6所述的装置,其特征在于,所述类别确定单元具体用于:针对所述每个音频数据子序列分别得到的所述分类结果,采用投票方式确定所述未知类别的音频数据序列的类别。
9.如权利要求8所述的装置,其特征在于,所述类别确定单元具体包括:
分类结果统计子单元,用于根据分类结果确定单元针对所述每个音频数据子序列分别得到的所述分类结果,确定各个音频数据类别所对应的分类结果的个数;
最大值确定子单元,用于从分类结果统计子单元确定出的各个音频数据类别所对应的分类结果的个数中,确定最大个数;
类别确定子单元,用于将最大值确定子单元确定的所述最大个数所对应的音频数据类别确定为所述未知类别的音频数据序列的类别。
10.如权利要求8所述的装置,其特征在于,所述类别确定单元具体包括:
权重值确定子单元,用于针对所述每个音频数据子序列分别执行:分别确定提取的该音频数据子序列的特征和该音频数据子序列所属类别的共性特征的相似度,并按照预设的相似度与权重值的对应关系,确定该音频数据子序列所对应的权重值;其中,所述对应关系满足:使得不同相似度与相应的权重值之间为正比关系;
权重值统计子单元,用于分别统计各个音频数据类别所对应的所有音频数据子序列的权重值的和值;
类别确定子单元,用于将权重值统计子单元统计出的最大和值所对应的音频数据类别确定为所述未知类别的音频数据序列的类别。
CN201310254043.8A 2013-06-24 2013-06-24 一种音频数据分类方法及装置 Active CN104239372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310254043.8A CN104239372B (zh) 2013-06-24 2013-06-24 一种音频数据分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310254043.8A CN104239372B (zh) 2013-06-24 2013-06-24 一种音频数据分类方法及装置

Publications (2)

Publication Number Publication Date
CN104239372A true CN104239372A (zh) 2014-12-24
CN104239372B CN104239372B (zh) 2017-09-12

Family

ID=52227451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310254043.8A Active CN104239372B (zh) 2013-06-24 2013-06-24 一种音频数据分类方法及装置

Country Status (1)

Country Link
CN (1) CN104239372B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105788592A (zh) * 2016-04-28 2016-07-20 乐视控股(北京)有限公司 一种音频分类方法及装置
CN109036461A (zh) * 2017-06-12 2018-12-18 杭州海康威视数字技术股份有限公司 一种通知信息的输出方法、服务器及监控系统
CN110019774A (zh) * 2017-08-23 2019-07-16 腾讯科技(深圳)有限公司 标签分配方法、装置、存储介质及电子装置
CN111859011A (zh) * 2020-07-16 2020-10-30 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006132596A1 (en) * 2005-06-07 2006-12-14 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio clip classification
CN101566999A (zh) * 2009-06-02 2009-10-28 哈尔滨工业大学 一种快速音频检索的方法
GB2469499A (en) * 2009-04-16 2010-10-20 Aurix Ltd Labelling an audio file in an audio mining system and training a classifier to compensate for false alarm behaviour.
CN102405495A (zh) * 2009-03-11 2012-04-04 谷歌公司 使用稀疏特征对信息检索进行音频分类
CN102831910A (zh) * 2012-07-17 2012-12-19 清华大学 一种音乐片段的伸缩抗性区间的计算方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006132596A1 (en) * 2005-06-07 2006-12-14 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio clip classification
CN102405495A (zh) * 2009-03-11 2012-04-04 谷歌公司 使用稀疏特征对信息检索进行音频分类
GB2469499A (en) * 2009-04-16 2010-10-20 Aurix Ltd Labelling an audio file in an audio mining system and training a classifier to compensate for false alarm behaviour.
CN101566999A (zh) * 2009-06-02 2009-10-28 哈尔滨工业大学 一种快速音频检索的方法
CN102831910A (zh) * 2012-07-17 2012-12-19 清华大学 一种音乐片段的伸缩抗性区间的计算方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105788592A (zh) * 2016-04-28 2016-07-20 乐视控股(北京)有限公司 一种音频分类方法及装置
CN109036461A (zh) * 2017-06-12 2018-12-18 杭州海康威视数字技术股份有限公司 一种通知信息的输出方法、服务器及监控系统
WO2018228280A1 (zh) * 2017-06-12 2018-12-20 杭州海康威视数字技术股份有限公司 一种通知信息的输出方法、服务器及监控系统
US11275628B2 (en) 2017-06-12 2022-03-15 Hangzhou Hikvision Digital Technology Co., Ltd. Notification information output method, server and monitoring system
CN110019774A (zh) * 2017-08-23 2019-07-16 腾讯科技(深圳)有限公司 标签分配方法、装置、存储介质及电子装置
CN111859011A (zh) * 2020-07-16 2020-10-30 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN104239372B (zh) 2017-09-12

Similar Documents

Publication Publication Date Title
CN102799899B (zh) 基于svm和gmm的特定音频事件分层泛化识别方法
US8249870B2 (en) Semi-automatic speech transcription
CN108932950B (zh) 一种基于标签扩增与多频谱图融合的声音场景识别方法
CN104240719A (zh) 音频的特征提取方法、音频的分类方法和相关装置
CN103853749B (zh) 基于模式的音频检索方法和系统
Sun et al. Speaker diarization system for RT07 and RT09 meeting room audio
CN107293308B (zh) 一种音频处理方法及装置
CN103500579B (zh) 语音识别方法、装置及系统
CN110070859B (zh) 一种语音识别方法及装置
CN111128134B (zh) 声学模型训练方法和语音唤醒方法、装置及电子设备
CN103534755B (zh) 声音处理装置、声音处理方法、程序及集成电路
CN107480152A (zh) 一种音频分析及检索方法和系统
CN104239372A (zh) 一种音频数据分类方法及装置
CN111859011B (zh) 音频处理方法、装置、存储介质及电子设备
Anguera Information retrieval-based dynamic time warping.
CN112397073B (zh) 一种音频数据处理方法及装置
CN105653546B (zh) 一种目标主题的检索方法和系统
Wang et al. A histogram density modeling approach to music emotion recognition
US20110029108A1 (en) Music genre classification method and apparatus
CN113112992A (zh) 一种语音识别方法、装置、存储介质和服务器
CN114023336A (zh) 模型训练方法、装置、设备以及存储介质
CN104731918A (zh) 一种语音搜索方法及装置
CN106503181A (zh) 一种音频数据处理方法及装置
CN104240697A (zh) 一种音频数据的特征提取方法及装置
CN103390404A (zh) 信息处理装置、信息处理方法和信息处理程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant