CN107943865A

CN107943865A - 一种适用于多场景、多类型的音频分类标签方法及系统

Info

Publication number: CN107943865A
Application number: CN201711101625.7A
Authority: CN
Inventors: 宫云梅
Original assignee: Archimedes (shanghai) Media Co Ltd
Current assignee: Archimedes (shanghai) Media Co Ltd
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2018-04-20

Abstract

本发明公开了一种适合多场景、多类型的音频分类标签方法及系统。本发明提供的系统和方法能适用于多场合、多类型的音频分类、标签，通过对服务器上大量的广播音频节目进行自动分类、打标签、人工校对得到大量分类、打标签的短音频库，组成丰富的音频训练库，通过增加多样化的特征提取，使得对各种分类标签模型的训练更加准确，稳定，便于全面对比各种分类标签模型的性能。

Description

一种适用于多场景、多类型的音频分类标签方法及系统

技术领域

本发明公开了一种适用于多场景、多类型的音频分类标签方法及系统，涉及到音频库的建立、音频分类、识别等智能音频处理领域，是实现音频智能化必要前提条件。本发明方法及系统，提供了丰富的音频场景、类型和算法，提高了音频分类、标签的评估的各项指标，适合对大规模的音频进行分类、打标签处理，便于建立音频智能算法，进行大数据库音频检索。

背景技术

音频智能化，需要大量的数据库，短音频数据库为音频算法的应用、提升，提供了可统计、可分析、可重构的数据。而将这些音频数据进行分类、打标签、内容文本提取，是实现音频智能化——语音识别、合成、唤醒、变声等技术，广告识别，音乐分类、标签，等领域的前提和必要条件。

现有的音频分类算法如图1所示，短音频信号经过预处理(包括去混叠、音频去噪、高频提升等步骤)，输入到算法研究模块进行音频分割、进行特征提取后进行模型训练得到分类标签模型，同时用得到分类标签模型对短音频进行分类获得音频分类后，进行标注分类标签。根据分类得到的分类音频可以对算法性能进行评估。

现有的音频分类技术有以下几个方面的不足：

1.输入的音频比较单一；现有文献提出的算法，作为研究对象的音频，都比较局限于几类，而且用于训练的音频数量有限，不适合大规模的音频进行分类、打标签处理。例如广播音频，每天服务器保存大量的节目音频，有语音、纯音乐、广告、有歌声音乐、背景(音乐、噪声或者其它)语音等各种场景、多种类型的音频节目，若是不进行分类、标签处理，这些音频就是黑匣子，若不人为点开听，不知道是什么内容，而现有算法的研究对象，远远没有包含进来如此丰富的音频。

2.算法比较单一；据查阅相关的音频分类文献可以看出，文献中提到的算法单一，一般都采用比较几种常用的分类算法，没有给出比较全面的各种不同算法，应用在大数据音频上的性能的比较，从而可以根据不同的项目选取最优的分类、标签算法。

3.工程上用到的比较好的分类算法，普遍存在两个问题：1.缺乏丰富的音频库，虽然分类代码提供训练好的数据模型可以直接使用，但是对于不同场景和类型的音频，效果不显著；2.音频特征值的提取相对少，音频信号特征值包括时域、频域、声学上的，有音频帧的特征，也有音频段的特征等多方面，现有技术往往仅提取单一类型的特征作为分类的依据而没有提取比较全面的特征值。

发明内容

为了解决现有的音频分类技术存在的不足，本发明提供一种适用于多场景、多类型的音频分类标签方法,该方法包括：

步骤1，制作短音频训练库，所述短音频训练库包括多个种类短音频库，即每个短音频库对应一类短音频，每个短音频只属于其中一类，设置多个不同场景、不同类型的音频信号，是为确保信号的多样性，应用的广泛性；

步骤2，提取音频信号的多个特征值作为训练模型的数据输入，采用多个不同的分类算法来训练模型，得到多个不同的分类标签模型，便于横向、纵向等多角度分析比较音频的分类标签结果，针对不同项目得到最优算法模型。

步骤3，利用步骤2选出的最优分类标签模型，对待分类的短音频进行自动分类、打标签；若是只需要结果，不需要扩充音频库，这一步音频的分类、标签完成。

为了进一步提升算法模型的准确度，在步骤3之后还可以包括以下步骤；

步骤4，采用人工校对的方式对自动分类、打好标签的短音频进行校对，然后将校对好的短音频加入到短音频训练库对应类别的短音频库中；

步骤5，定期用扩充的新短音频训练库，重新训练、更新分类标签模型，即重复步骤2、步骤3，形成闭环系统，以保证随着音频库大量增加，分类标签模型更加趋于稳定，提高各种评估指标。

本技术方案中制作短音频训练库可以采用人工对服务器上大量的音频节目，进行试听，剪辑出各种短音频，确保每个短音频是只包含一个分类，而不是两个或者多个分类。根据用户需要，选取各类短音频，这些短音频是有简单标签的。本发明的技术方案主要是针对大量音频进行表示级的特征值，也是较低层次的特征值提取，不考虑语义级上的细分类。

本发明提供的技术方案设置了设置多个不同场景、不同类型的音频信号，是为确保信号的多样性，应用的广泛性。提取音频信号的多个特征值作为训练模型的数据输入，采用多个不同的分类算法来训练模型，得到多个不同的分类标签模型，便于横向、纵向等多角度分析比较音频的分类标签结果，选出每个不同项目所需的最优算法模型。克服了传统音频分类技术输入的音频比较单一、算法比较单一、音频特征值的提取不全面的不足，增强了音频分类方法的适用性，准确性。其中多个不同场景包括语音、纯音乐、广告、有歌声音乐、背景(音乐、噪声或者其它)语音等场景。不同类型的音频信号特征值至少包括时域特征值、频域特征值、声学上的特征值、音频帧的特征值以及音频段的特征值等多种不同的音频信号特征值，或者几种特征值进行数学算法组合形成新的特征值。训练模型为机器学习分类算法，包括：K最近邻模型(KNN)、混合高斯模型(GMM)、神经网络模型(CNN)、支持向量机模型(SVM)、隐马尔可夫模型(HMM)和决策树模型(Decision Trees)，极端随机树(ETC)，随机森林(RFC)，梯度提升(GBC)，极端梯度提升(XGBC)，朴素贝叶斯(NBC)、逻辑回归(LR)以及其它改进的分类算法模型。

本发明的技术方案在得到多个分类标签模型后，通过算法评估模块对所述多个分类标签模型的性能进行评估，给出比较全面的各种不同算法，应用在大数据音频上的性能的比较，从而选出每个不同项目所需的最优算法模型，得到好的分类、标签结果。

进一步地，本发明提供的技术方案还可以定期根据实际需要，人工校对自动分类、打好标签的短音频，扩充到短音频训练库，重新训练、更新分类标签模型采用更新后训练模型对待分类的短音频进行自动分类、打标签，整个系统形成闭环系统，以保证随着音频库大量增加，分类标签模型更加趋于稳定。

相应地，本发明还提供一种适用于多场景、多类型的音频分类标签系统,该系统包括：

短音频训练库构建模块，用于为用户提供接口制作短音频训练库，所述短音频训练库包括多个短音频库，每个短音频库对应一类短音频，每个短音频只属于其中一类；

分类标签模型构建模块，其中设置有多个不同场景、不同类型的音频信号特征值作为训练模型的数据输入，采用多个不同的分类算法来训练模型，得到多个不同的分类标签模型；

算法评估模块，用于对所述多个分类标签模型的性能进行评估，横向、纵向等多角度分析比较音频的分类标签结果，选出每个不同项目所需的最优算法模型；

短音频分类/标签处理模块，利用分类标签模型构建模块得到的最优分类标签模型对待分类的短音频进行分类、打标签；

分类校对确认模块，为用户提供相应的接口以便采用人工校对的方式对自动分类、打好标签的短音频进行校对；

短音频训练库更新模块，用于将校对好的短音频加入到短音频训练库中对应类别的短音频库中；

分类标签模型更新模块，用于定期重新训练所述短音频训练库、更新分类标签模型。

附图说明

图1为现有音频分类、标签算法的技术框图；

图2为本发明技术方案对应的方法流程图；

图3为本发明技术方案采用的闭环分类、标签算法。

具体实施方式

为了使本发明所解决的技术问题、技术方案以及有益效果更加清楚明白，以下结合附图对本发明进行进一步详细说明。应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照附图2，本发明提供一种适用于多场景、多类型的音频分类标签方法,该方法包括：

步骤1：制作包括多个种类短音频库的短音频训练库，即每个短音频库对应一类短音频，每个短音频只属于其中一类；

步骤2：提取音频信号的多个特征值作为训练模型的数据输入，采用多个不同的分类算法来训练模型，多角度分析比较音频的分类标签结果，选出每个不同项目所需的最优算法模型；

步骤3：利用选出的最优分类标签模型，对待分类的短音频进行自动分类、打标签。

步骤4：采用人工校对的方式对自动分类、打好标签的短音频进行校对，然后将校对好的短音频加入到短音频训练库中；

步骤5：定期用扩充的新短音频训练库，重新训练、更新分类标签模型，即重复步骤2、步骤3，形成闭环系统，以保证随着音频库大量增加，分类标签模型更加趋于稳定，提高各种评估指标。

其中，步骤1制作短音频训练库可以采用人工对服务器上大量的音频节目，进行试听，剪辑出各种短音频，确保每个短音频是只包含一个分类，而不是两个或者多个分类。根据用户需要，选取各类短音频，这些短音频是有简单标签的。本发明的技术方案主要是针对大量音频进行表示级的特征，也是较低层次的特征提取，不考虑语义级上的细分类。例如，在一个音频节目中有的时间段是纯粹人的说话声，有的时间段是纯音乐，有的时间段是背景音乐下讲故事，有的时间段是广告，有的时间段是带有嘈杂声的采访等，需要针对一个音频节目中不同时间段的音频内容进行剪辑，切片、分类、打标作为一个个分类的短音频加入到短音频训练库中对应类别的短音频库中。

步骤2中设置多个不同场景、不同类型的音频信号，是为确保信号的多样性，应用的广泛性。提取音频信号的多个特征值作为训练模型的数据输入，采用多个不同的分类算法来训练模型，得到多个不同的分类标签模型，便于横向、纵向等多角度分析比较音频的分类标签结果，选出每个不同项目所需的最优算法模型。克服了传统音频分类技术输入的音频比较单一、算法比较单一、音频特征值的提取不全面的不足，增强了音频分类方法的适用性，准确性。其中多个不同场景包括语音、纯音乐、广告、有歌声音乐、背景(音乐、噪声或者其它)语音等场景。不同类型的音频信号特征值至少包括时域特征值、频域特征值、声学上的特征值、音频帧的特征值以及音频段的特征值等多种不同的音频信号特征值，或者几种特征值进行数学算法组合形成新的特征值。训练模型包括各种机器学习分类算法：K最近邻模型(KNN)、混合高斯模型(GMM)、神经网络模型(CNN)、支持向量机模型(SVM)、隐马尔可夫模型(HMM)和决策树模型(Decision Trees)，极端随机树(ETC)，随机森林(RFC)，梯度提升(GBC)，极端梯度提升(XGBC)，朴素贝叶斯(NBC)、逻辑回归(LR)以及其他改进的分类算法等。得到多个分类标签模型后，通过算法评估模块对所述多个分类标签模型的性能进行评估，给出比较全面的各种不同算法，应用在大数据音频上的性能的比较，从而选出每个不同项目所需的最优算法模型，得到好的分类、标签结果。

随着音频数量的不断增加，为了保证本发明的技术方案可以适应多种场景，多种类型的音频大数据分类、检索，可以定期根据实际需要，人工校对自动分类、打好标签的短音频，扩充到短音频训练库，重新训练、更新分类标签模型采用更新后训练模型对待分类的短音频进行自动分类、打标签，整个系统形成闭环系统，以保证随着音频库大量增加，分类标签模型更加趋于稳定。

如图3所示、本发明提供的算法是一种闭环的分类、标签算法。对原始音频即待分类、打标签的原始音频数据，采用以上方法得到最优的分类标签模型对原始音频输入进行分类、打标签得到分类音频。然后采用人工校对的方式对自动分类、打标签的短音频进行校对，将所述音频加入短音频训练库中相应类别的短音频库中，以更新所述短音频训练库。设置上述闭环的分类、标签算法能随着音频训练库不断增加，定期用扩充的新短音频训练库，重新训练、更新分类标签模型，以保证随着音频库大量增加，分类标签模型更加趋于稳定，提高各种评估指标。

本发明中研究对象是广播音频节目，但不局限于此，任何类型的音频都可以作为研究、分类对象。前提是制作训练用的音频库时，对音频进行准确的分类、标签，不同于已有分类、标签，可以作为新一类的分类、标签音频。相关的算法可以采用github上成熟的音频分类算法代码架构，也可以采用其它应用的分类算法，例如颜色的图像分类算法，病理分类的医学分类算法等等，都可以把输入数据换成音频数据，通过音频库训练来验证是否可以用音频分类上。音频的特征值是多形态和多方面的，或者几种特征值进行数学算法组合形成新的特征值，都可以移植到合适音频分类的代码架构中，进行提取，作为各种分类算法的输入。新的有效的训练算法，同样可以集成到已有稳定的代码架构中，得到移植性强，音频分类更准确，更细致的分类标签系统。

与现有技术相比，本发明能适用于多场合、多类型的音频分类、标签。通过大量的音频节目，得到大量的分类、标签的音频库。采用现有实现了的分类代码架构作为开发基础，保证代码的稳定性，可移植性良好。通过增加多样化的特征值提取，使得分类标签模型训练更加准确，稳定；通过增加尽可能多的分类算法，可以全面的比较分类、标签结果。与现有技术相比，本发明的技术方案还有以下优点：

1.制作短音频训练库时，可以创建技术文档，便于多人参与、交互检测，避免个人原因使得短音频训练库中对短音频的分类不准确。不断更新所述短音频训练库、随着时间推移，其数量和质量提升显著。

2.可以在现有代码架构的基础上，利用制作的音频库训练模型，增加新的特征值，新的分类算法，同时新的优化算法(例如提升模型训练速度，分类算法的后续优化处理等)，也不断集成进来，在提高分类、标签准确率、召回率等评估指标的基础上，提高训练、分类的效率。

3.采用闭环的分类、标签算法，实现了新增分类标签准确的数据加入训练音频库中，极大的丰富了现有人工制作的音频训练库。

Claims

1.一种适用于多场景、多类型的音频分类标签方法,该方法包括：

步骤1，制作短音频训练库，所述短音频训练库包括多个种类短音频库以便适应不同的场景，即每个短音频库对应一类短音频，每个短音频只属于其中一类，设置多个不同场景、不同类型的音频信号，是为确保信号的多样性，应用的广泛性；

步骤2，提取短音频库中音频信号的多个特征值作为训练模型的数据输入，采用多个不同的分类算法进行训练，得到多个不同的分类标签模型，进行横向、纵向等多角度分析比较音频的分类标签模型，针对不同项目得出最优分类标签模型；

2.如权利要求1所述的音频分类标签方法，在步骤3之后还包括以下步骤：

3.如权利要求1所述的音频分类标签方法，其中步骤2得到短音频多个分类标签模型后，还可以通过算法评估模块对所述多个分类标签模型的性能进行评估，从而确定相对于特定项目所需最优的短音频分类标签模型。

4.如权利要求1所述的音频分类标签方法，其中，骤1中短音频训练库可以通过人工对大量的音频节目进行试听、剪辑得到各类音频，然后，进行构建或扩充，剪辑得到每类短音频库，需要确保每个短音频只属于一个分类。

5.如权利要求1-4中任一项所述的音频分类标签方法，其中，步骤1中的多个不同场景、类型包括语音、纯音乐、广告、有歌声音乐、背景(音乐、噪声或者其它)语音以及其它场景/类型的短音频；步骤2中不同的音频信号特征值至少包括时域特征值、频域特征值、声学上的特征值、音频帧的特征值、音频段的特征值以及其它类型的音频信号特征值，或者几种特征值进行数学算法组合形成新的特征值；训练模型为机器学习分类算法模型包括：K最近邻模型(KNN)、混合高斯模型(GMM)、神经网络模型(CNN)、支持向量机模型(SVM)、隐马尔可夫模型(HMM)和决策树模型(Decision Trees)，极端随机树(ETC)，随机森林(RFC)，梯度提升(GBC)，极端梯度提升(XGBC)，朴素贝叶斯(NBC)、逻辑回归(LR)及其它改进的分类算法模型。

6.如权利要求2所述的音频分类标签方法，其中步骤5中定期用扩充的新短音频训练库，重新训练、更新分类标签模型，具体包括：定期根据实际需要更新训练模型参数、采用更新后训练模型对待分类的短音频进行自动分类、打标签。

7.如权利要求2或6所述的音频分类标签方法，其中更新分类标签模型还包括对定期寻求新出现的分类算法集成到代码中。

8.一种适用于多场景、多类型的音频分类标签系统,该系统包括：

分类标签模型构建模块，用于提取短音频训练库中不同类型的音频信号特征值作为训练模型的数据输入，采用多个不同的分类算法进行训练，得到多个不同的分类标签模型；

算法评估模块，用于对所述多个分类标签模型的性能进行评估，采用横向、纵向等多角度分析比较音频的分类标签结果，针对不同项目选择最优算法模型；

短音频分类标签处理模块，利用分类标签模型构建模块得到的最优分类标签模型对待分类的短音频进行自动分类、打标签；

9.如权利要求8所述的音频分类标签系统，其中分类标签模型构建模块中设置的多个不同场景、不同类型的音频信号包括语音、纯音乐、广告、有歌声音乐、背景(音乐、噪声或者其它)语音以及其它场景/类型的短音频；不同类型的音频信号特征值至少包括时域特征值、频域特征值、声学上的特征值、音频帧的特征值、音频段的特征值以及其它类型的音频信号特征值，或者几种特征值进行数学算法组合形成新的特征值；训练模型为机器学习分类算法模型，包括：K最近邻模型(KNN)、混合高斯模型(GMM)、神经网络模型(CNN)、支持向量机模型(SVM)、隐马尔可夫模型(HMM)和决策树模型(Decision Trees)，极端随机树(ETC)，随机森林(RFC)，梯度提升(GBC)，极端梯度提升(XGBC)，朴素贝叶斯(NBC)、逻辑回归(LR)以及其它改进的分类算法模型。

10.如权利要求8所述的音频分类标签系统，其中分类标签模型更新模块，定期用扩充的新短音频训练库，重新训练、更新分类标签模型，具体包括：提供接口供用户定期根据实际需要更新训练模型、采用更新后训练模型对待分类的短音频进行自动分类、打标签。