CN101196888A

CN101196888A - 应用数字音频特征集分类音频的系统及其方法

Info

Publication number: CN101196888A
Application number: CNA2006101621298A
Authority: CN
Inventors: 林宗庆; 王建兴; 丁彬; 麦文伟; 王舜正
Original assignee: YUNYI TECHNOLOGY Co Ltd
Current assignee: YUNYI TECHNOLOGY Co Ltd
Priority date: 2006-12-05
Filing date: 2006-12-05
Publication date: 2008-06-11

Abstract

本发明提供一种应用数字音频特征集分类音频的系统及其方法，该方法包含下列步骤。首先，将该音频译码为一无编码音频。接着，将该无编码音频区分为多个音频片段，并以一包括九组特征运算式的数字音频特征集将每一音频片段进行特征抽取，该九组特征运算式分别用以计算过零次数变异数、过零次数的第三阶扭矩、过零次数分布、归一化能量标准差、归一化能量最小值、归一化能量的差值、四频段的对数能量平均值、四频段的对数能量标准差以及归一化能量的帧差，而可达到分类音频的目的。本发明自动从大量播送音频的公开音频源中搜集所喜爱类型的音频，如音乐，收听者不需费时费心地录音，便可以拥有一首首完整的音乐。

Description

应用数字音频特征集分类音频的系统及其方法

技术领域

本发明涉及一种分类音频的系统及其方法，特别是涉及一种应用数字音频特征集分类音频的系统及其方法。

背景技术

数字信息时代中，音频数据的处理已变成现代计算机应用极重要的一部分。一个典型的多媒体数据库通常储存数以百万计的音频段(Audio Clips)，包括环境声响、机器噪音、动物叫声、音乐、语音，及其他非语音的语调等各种音频类别。因此，自动分类不同音频类别的大量音频也就成为重要的研究议题，尤其是针对分类音频中的音乐及非音乐，因为具有多方面的加值应用，因此更受到关注。

例如，一个音乐节目或一场演唱会的音频文件可能同时包含非音乐(如语音)和音乐穿插的片段，为了能不受打扰地享用喜爱的音乐，可以利用自动分类技术将喜爱的音乐从音频中分离出来并另外搜集储存。

一般来说，音频分类的方法有二步骤：首先，将所述音频利用特征抽取技术分为一小型的参数集合；接着，将分类演算法，例如从简单的欧几里得距离方法(Euclidean Distance Methods)至细致的统计技术，运作于这些参数上。要得到良好的分类品质，必须取得适当的音频特征，且准确地将每一种特征的集合对应于它所应该对应的音频类别里。

因此，为达到良好的分类精准度，并从音频中更准确地分类出音乐及非音乐，有必要寻求正确可靠的音频分类方法。

发明内容

本发明的目的在于提供一种可以准确地分类音频中的音乐与非音乐的方法。

于是，本发明应用数字音频特征集分类音频的方法是包含下列步骤：(a)将该音频译码为一无编码音频。(b)将该无编码音频区分为多个音频片段，并以一数字音频特征集将每一音频片段进行特征抽取。每一音频片段各具有多个帧，且针对每一音频片段，形成一特征向量的过程，包括计算该音频片段中所有帧的过零次数的一变异数、计算该音频片段中所有帧的过零次数的一第三阶扭矩、计算该音频片段中所有帧的过零次数的一平均值，再分别计算出所述帧中过零次数大于以及小于等于该平均值的帧数、计算该音频片段中所有帧的归一化能量的一标准差、取出该音频片段中所有帧的归一化能量的最小值、计算该音频片段中所有帧的归一化能量中最大值及最小值的差值、将该音频片段中所有帧由时间域转换为频率域后，计算所有帧的其中四频段的对数能量的一平均值、计算所有帧的其中四频段的对数能量的一标准差，及分别计算除第一个帧外的每一帧与其前一相邻帧的归一化能量差。(c)若其中一音频片段特征抽取的结果符合一所欲搜集的音频类别，则将该其中一音频片段分类为一特征音频片段。(d)将连续出现的所述特征音频片段组合为一目标音频。

本发明所述的应用数字音频特征集分类音频的方法，在该(b)步骤中，每一音频片段的长度为1至2秒。

本发明所述的应用数字音频特征集分类音频的方法，在该(b)步骤中，每一音频片段的所述帧为150个。

本发明所述的应用数字音频特征集分类音频的方法，在该(b)步骤中，每一帧的一采样数为512，且每一帧的采样频率为48KHz。

本发明所述的应用数字音频特征集分类音频的方法，在该(b)步骤中，该归一化能量＝(所述采样的平方总和/65535的平方)/512。

本发明所述的应用数字音频特征集分类音频的方法，在该(b)步骤中，每一帧以长度为所述每一帧的一采样数的汉明窗相乘，再将所述帧进行快速傅立叶转换，以将时间域转换为频率域。

本发明所述的应用数字音频特征集分类音频的方法，在(c)步骤中，是以一支援向量机进行分类。

本发明的另一目的在于提供一种应用数字音频特征集分类音频的系统。

于是，该应用数字音频特征集分类音频的系统包含一译码模块、一数字特征转换模块、一数字特征分类模块，及一完整音频确认模块。该译码模块用以将音频译码为一无编码音频。该数字特征转换模块用以将该译码模块产生的无编码音频区分为多个音频片段，并包括一用以将每一音频片段进行特征抽取的数字音频特征集，每一音频片段各具有多个帧，且针对每一音频片段，形成一特征向量的过程包括计算该音频片段中所有帧的过零次数的一变异数、计算该音频片段中所有帧的过零次数的一第三阶扭矩、计算该音频片段中所有帧的过零次数的一平均值，再分别计算出所述帧中过零次数大于以及小于等于该平均值的帧数、计算该音频片段中所有帧的归一化能量的一标准差、取出该音频片段中所有帧的归一化能量的最小值、计算该音频片段中所有帧的归一化能量中最大值及最小值的差值、将该音频片段中所有帧由时间域转换为频率域后，计算所有帧中之其中四频段的对数能量的一平均值、计算所有帧中之其中四频段的对数能量的一标准差，及分别计算除第一个帧外的每一帧与其前一相邻帧的归一化能量差。

该数字特征分类模块的作用为若其中一音频片段特征抽取的结果符合一所欲搜集的音频类别，则该数字特征分类模块用以将该其中一音频片段分类为一特征音频片段。该完整音频确认模块用以将连续出现的所述特征音频片段组合成一目标音频。

本发明所述的应用数字音频特征集分类音频的系统，每一音频片段的长度为1至2秒。

本发明所述的应用数字音频特征集分类音频的系统，每一音频片段的所述帧为150个。

本发明所述的应用数字音频特征集分类音频的系统，每一帧的一采样数为512，且每一帧的采样频率为48KHz。

本发明所述的应用数字音频特征集分类音频的系统，该归一化能量＝(所述采样的平方总和/65535的平方)/512。

本发明所述的应用数字音频特征集分类音频的系统，每一帧以长度为所述每一帧的一采样数的汉明窗相乘，再将所述帧进行快速傅立叶转换，以将时间域转换为频率域。

本发明所述的应用数字音频特征集分类音频的系统，该数字特征分类模块包括一支援向量机。

本发明的功效在于，自动从大量播送音频的公开音频源中搜集所喜爱类型的音频，如音乐，收听者不需费时费心地录音，便可以拥有一首首完整的音乐。

附图说明

图1是一方块图，说明本发明的应用数字音频特征集分类音频的系统的较佳实施例；

图2是一流程图，说明本较佳实施例的实施过程。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

参阅图1，本发明一种应用数字音频特征集分类音频的系统的较佳实施例包含一译码模块11、一数字特征转换模块12、一数字特征分类模块13，及一完整音频确认模块14。

该译码模块11用以将一音频译码为一无编码音频。数字音频为了节省储存空间，通常都会压缩成某种特定格式的音频档，常见的如asx、asf、mp3或wmv等音频格式，为了后续处理，在本较佳实施例中，各种不同音频格式的音频，皆译码为一脉冲码调制(Pulse Code Modulation，PCM)音频。

该数字特征转换模块12用以将该译码模块11产生的无编码音频区分为多个音频片段(Chunk)，在本较佳实施例中，每一音频片段的时间为1.6秒，每一音频片段各具有150个帧(Frame)，每一帧的采样数(Sample)为512，采样频率为48KHz。上述的音频片段时间、帧数、采样数及采样频率只为本较佳实施例所揭示的参考值，实际应用并不限定于此。

该数字特征转换模块12包括一具有九个特征(F1～F9)运算式的数字音频特征集121。该数字特征转换模块12利用该数字音频特征集121针对每一音频片段计算后，使每一音频片段形成一具有十五个维度的特征向量。本说明书中稍后将配合图2详述该特征向量的九个特征。

该数字特征分类模块13的作用为，若其中一音频片段特征抽取的结果符合一所欲搜集的音频类别，在本较佳实施例中该音频类别为音乐，则该数字特征分类模块13用以将该其中一音频片段分类为一特征音频片段。该数字特征分类模块13包括一执行分类用的支援向量机(Support Vector Machine)131，该支援向量机131预先以多份真实音频样本进行训练，以使该支援向量机131根据由每一音频片段所形成的特征向量分辨出该音频片段是否为音乐。

特别要说明的是，音乐包括器乐、歌曲与绕舌歌(RAP)等类型，器乐是只有乐器的声音，歌曲是有人声及音乐伴奏，绕舌歌则是另一种形式的人声及音乐伴奏。此外，不属于音乐的则称为非音乐，包括人的讲话声加上背景音乐，及人的讲话声，前者通常是广告或是主持人的讲话，后者通常是新闻播报。

为确保辨认该特征音频片段的准确性，在本较佳实施例中，该完整音频确认模块14以该其中一音频片段为中心，往前取五个音频片段并往后取五个音频片段为一窗格(Window)。若在该窗格中的十一个音频片段中超过半数为特征音频片段，则将该窗格中心的音频片段分类为该特征音频片段。接着，完整音频确认模块14将所述连续出现的特征音频片段组合成一目标音频。接着，该完整音频确认模块14若判断该目标音频长于一预定时间，在本较佳实施例中为100秒，则将该目标音频储存，其目的在于排除太短的音乐片段，如广播节目中常出现的片头音乐、片尾音乐及串场音乐。

参阅图1、图2，该较佳实施例的应用数字音频特征集分类音频的方法是包含下列步骤。首先，如步骤21所示，将该音频译码为无编码音频。接着，如步骤22所示，该步骤22包括所述子步骤220～229，该子步骤220将该无编码音频区分为所述音频片段，每一音频片段的长度可为1至2秒，且较佳是1.6秒，且每一音频片段各具有150帧，每一帧的采样数为512，采样频率为48KHz。本发明的特征在于，以数字音频特征集121的九个特征运算式分别针对每一音频片段执行所述子步骤221～229以进行特征抽取，使每一音频片段形成一具有十五个维度的特征向量。需特别说明的是，所述子步骤221～229执行的过程并无顺序关系，可不依下述的次序进行，也可同时进行。所述子步骤221～229如下：

如子步骤221所示，第一特征(F1)运算式用以计算一过零次数变异数(Zero Crossing Rate Variance)。首先，计算该音频片段中每一帧的过零次数；接着，统计150个帧的变异数，再除以512的平方，以归一化(Normalize)至(-1，1)间。

如子步骤222所示，第二特征(F2)运算式用以计算一过零次数的第三阶扭矩(Third-Order Moment)。首先，计算该音频片段中每一帧的过零次数；接着，统计150个帧的第三阶扭矩，再除以512的立方，以归一化至(-1，1)间。

如子步骤223所示，第三特征(F3)运算式用以计算一过零次数分布。首先，计算该音频片段中150个帧的过零次数的一平均值；接着，分别计算出所述帧中过零次数大于以及小于等于该平均值的二帧数；接着，将过零次数大于该平均值的帧数减去过零次数小于等于该平均值的帧数，再除以150，以归一化至(-1，1)间。

如子步骤224所示，第四特征(F4)运算式用以计算一归一化能量标准差。首先，计算该音频片段中150个帧的归一化能量，该归一化能量等于所述采样的平方总和除以65535的平方再除以512；接着，取该归一化能量的标准差。

如子步骤225所示，第五特征(F5)运算式用以计算一归一化能量最小值，也就是取出该音频片段中150个帧的归一化能量的最小值。该归一化能量与该第四特征运算式所述的归一化能量相同。

如子步骤226所示，第六特征(F6)运算式用以计算一归一化能量的差值。首先，分别计算该音频片段中150帧的归一化能量中的最大值及最小值；然后，计算最大值和最小值的差值。该归一化能量与该第四特征运算式所述的归一化能量相同。

如子步骤227所示，第七特征(F7)运算式用以计算四频段(Subband)的对数能量(Log Energy)平均值。首先，将该音频片段中所有帧以长度为512的汉明窗(Hamming-Window)相乘；接着，将所述帧进行快速傅立叶转换(Fast FourierTransformation)，以将时间域转换为频率域；接着，取0至255的快速傅立叶系数；接着，先取绝对值，再加1，再取对数；接着，以每个点除以256个点的和进行归一化；最后，取出其中四频段的对数能量。第一频段为第1至25系数的和、第二频段为第26至50系数的和、第三频段为第51至75系数的和、第四频段为第76至100系数的和。于是，该第七特征运算式的最后结果为150个帧的第一至四频段的平均值。

如子步骤228所示，第八特征(F8)运算式用以计算四频段的对数能量标准差。首先，以第七特征运算式所示的步骤，取得四频段的对数能量，接着计算四频段对数能量的一标准差。

如子步骤229所示，第九特征(F9)运算式用以计算一归一化能量的帧差(Frame Difference)。首先，将每一帧中的第2至150个帧的归一化能量减去第1至149个帧的归一化能量，得到149个帧差；接着，将149的帧差的平方和除以149。

接着，如步骤23所示，若其中一音频片段特征抽取的结果符合一所欲搜集的音频类别，则将该其中一音频片段分类为一特征音频片段。该数字特征分类模块13包括一执行分类用的支援向量机131，该支援向量机131预先以多份真实音频样本进行训练，以使该支援向量机131根据每一音频片段的特征向量分辨出该片段是否为所欲搜集的音频类别。

然后，如步骤24所示，为确保辨认该特征音频片段的准确性，在本较佳实施例中，该完整音频确认模块14以该其中一音频片段为中心，往前取五个音频片段并往后取五个音频片段为该窗格。若在该窗格中的十一个音频片段中超过半数为特征音频片段，则将该窗格中心的音频片段分类为该特征音频片段。继而，将所述连续出现的特征音频片段组合为目标音频，同时，判断该目标音频若长于预定时间，在本较佳实施例中为100秒，则将该目标音频储存，其目的在于排除太短的音乐片段，如广播节目中常出现的片头音乐、片尾音乐及串场音乐。

参阅表1所示的测试结果，一测试音频所包含的音频片段中，包括38个器乐类型、222个歌曲类型、119个绕舌歌类型、191个讲话加上背景音乐类型，及463个讲话类型。以采用F1、F2、F3及F4为组合的数字音频特征集为例，其可正确分辨出12个器乐类型、144个歌曲类型、96个绕舌歌类型、135个讲话加上背景音乐类型，及448个讲话类型，音乐判断正确率为0.66，而非音乐判断正确率为0.89。在多种测试组合中，以本发明所采用的F1、F2、F3、F4、F5、F6、F7、F8及F9为组合的数字音频特征集为最佳，其可正确分辨出27个器乐类型、152个歌曲类型、108个绕舌歌类型、168个讲话加上背景音乐类型，及454个讲话类型，音乐判断正确率为0.76，而非音乐判断正确率为0.95。

表1

综上所述，利用该数字特征转换模块12的数字音频特征集121取得音频中每一音频片段的特征向量，可使数字特征分类模块13的支援向量机131准确地判断音频中的音乐及非音乐，配合该完整音频确认模块14后，音乐判断正确率达79％，且非音乐判断正确率达95％以上(如表1所示)，确实达到其优点。

以上所述仅为本发明较佳实施例，然其并非用以限定本发明的范围，任何熟悉本项技术的人员，在不脱离本发明的精神和范围内，可在此基础上做进一步的改进和变化，因此本发明的保护范围当以本申请的权利要求书所界定的范围为准。

Claims

1.一种应用数字音频特征集分类音频的方法，其特征在于，包含下列步骤：

步骤一：将该音频译码为一无编码音频；

步骤二：将该无编码音频区分为多个音频片段，并以一数字音频特征集将每一音频片段进行特征抽取，每一音频片段各具有多个帧，且针对每一音频片段，形成一特征向量的过程包括计算该音频片段中所有帧的过零次数的一变异数、计算该音频片段中所有帧的过零次数的一第三阶扭矩、计算该音频片段中所有帧的过零次数的一平均值，再分别计算出所述帧中过零次数大于以及小于等于该平均值的帧数、计算该音频片段中所有帧的归一化能量的一标准差、取出该音频片段中所有帧的归一化能量的最小值、计算该音频片段中所有帧的归一化能量中最大值及最小值的差值、将该音频片段中所有帧由时间域转换为频率域后，计算所有帧的其中四频段的对数能量的一平均值、计算所有帧的其中四频段的对数能量的一标准差，及分别计算除第一个帧外的每一帧与其前一相邻帧的归一化能量差；

步骤三：若其中一音频片段特征抽取的结果符合一所欲搜集的音频类别，则将该其中一音频片段分类为一特征音频片段；及

步骤四：将连续出现的所述特征音频片段组合为一目标音频。

2.根据权利要求1所述的应用数字音频特征集分类音频的方法，其特征在于，在该步骤二中，每一音频片段的长度为1至2秒。

3.根据权利要求2所述的应用数字音频特征集分类音频的方法，其特征在于，在该步骤二中，每一音频片段的所述帧为150个。

4.根据权利要求3所述的应用数字音频特征集分类音频的方法，其特征在于，在该步骤二中，每一帧的一采样数为512，且每一帧的采样频率为48KHz。

5.根据权利要求1所述的应用数字音频特征集分类音频的方法，其特征在于，在该步骤二中，该归一化能量等于所述采样的平方总和除以65535的平方再除以512。

6.根据权利要求1所述的应用数字音频特征集分类音频的方法，其特征在于，在该步骤二中，每一帧以长度为所述每一帧的一采样数的汉明窗相乘，再将所述帧进行快速傅立叶转换，以将时间域转换为频率域。

7.根据权利要求1所述的应用数字音频特征集分类音频的方法，其特征在于，在步骤三中，是以一支援向量机进行分类。

8.一种应用数字音频特征集分类音频的系统，包含：

一译码模块，将音频译码为一无编码音频；

一数字特征分类模块，若其中一音频片段特征抽取的结果符合一所欲搜集的音频类别，则该数字特征分类模块用以将该其中一音频片段分类为一特征音频片段；

一完整音频确认模块，用以将连续出现的所述特征音频片段组合成一目标音频；

其特征在于，

该应用数字音频特征集分类音频的系统还包含：

一数字特征转换模块，用以将该译码模块产生的无编码音频区分为多个音频片段，并包括一用以将每一音频片段进行特征抽取的数字音频特征集，每一音频片段各具有多个帧，且针对每一音频片段，形成一特征向量的过程包括计算该音频片段中所有帧的过零次数的一变异数、计算该音频片段中所有帧的过零次数的一第三阶扭矩、计算该音频片段中所有帧的过零次数的一平均值，再分别计算出所述帧中过零次数大于以及小于等于该平均值的帧数、计算该音频片段中所有帧的归一化能量的一标准差、取出该音频片段中所有帧的归一化能量的最小值、计算该音频片段中所有帧的归一化能量中最大值及最小值的差值、将该音频片段中所有帧由时间域转换为频率域后，计算所有帧的其中四频段的对数能量的一平均值、计算所有帧的其中四频段的对数能量的一标准差，及分别计算除第一个帧外的每一帧与其前一相邻帧的归一化能量差。

9.根据权利要求8所述的应用数字音频特征集分类音频的系统，其特征在于，每一音频片段的长度为1至2秒。

10.根据权利要求9所述的应用数字音频特征集分类音频的系统，其特征在于，每一音频片段的所述帧为150个。

11.根据权利要求10所述的应用数字音频特征集分类音频的系统，其特征在于，每一帧的一采样数为512，且每一帧的采样频率为48KHz。

12.根据权利要求8所述的应用数字音频特征集分类音频的系统，其特征在于，该归一化能量等于所述采样的平方总和除以65535的平方再除以512。

13.根据权利要求8所述的应用数字音频特征集分类音频的系统，其特征在于，每一帧以长度为所述每一帧的一采样数的汉明窗相乘，再将所述帧进行快速傅立叶转换，以将时间域转换为频率域。

14.根据权利要求8所述的应用数字音频特征集分类音频的系统，其特征在于，该数字特征分类模块包括一支援向量机。