CN107170443A

CN107170443A - 一种模型训练层AdaBoost算法的参数优化方法

Info

Publication number: CN107170443A
Application number: CN201710332545.6A
Authority: CN
Inventors: 罗森林; 潘丽敏; 王怀庆; 刘晓双
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2017-05-12
Filing date: 2017-05-12
Publication date: 2017-09-15

Abstract

本发明涉及一种模型训练层AdaBoost算法的参数优化方法。从应用场景的角度讲，属于音频事件识别技术领域；从技术实现的角度来讲，亦属于计算机科学与音频处理技术领域。本发明首先，提取音频训练样本底层特征，生成特征向量；然后，使用模拟退火算法进行AdaBoost模型的参数优化；最后使用优化后参数生成音频事件识别模型。本发明所述方法，对模型训练层AdaBoost算法参数进行优化，逼近迭代次数的最优解。在保持优秀的识别效果的同时，极大地缩短了参数优化时间，进而提高模型训练的效率，缓解了模型训练阶段网格法寻优耗时严重的问题。

Description

一种模型训练层AdaBoost算法的参数优化方法

技术领域

本发明涉及一种模型训练层AdaBoost算法的参数优化方法。从应用场景的角度讲，属于音频事件识别技术领域；从技术实现的角度来讲，亦属于计算机科学与音频处理技术领域。

背景技术

音频事件识别技术是基于音频数据的内容，识别音频流中的事件声音段落。音频事件识别技术在有广泛的应用，可用于异常场景的监控，如无人车行驶环境下的异常声音事件，公共场所异常骚乱情况等。随着数字多媒体技术的快速发展，以及多终端移动设备的普及应用，音频数据的数量正以指数形式进行增长，音频事件识别技术的应用价值越来越显著。

近年来，研究者们针对不同的应用场景提出了多种多样的音频事件识别算法。音频事件识别系统的模块数量、识别流程程度都在变得复杂，各模块的关键参数数量也不断增加，传统的网格法参数寻优耗时多、需要人工介入、并且结果易陷入局部最优解，甚至有多参的高分辨率优化无法实施等问题。因此，迫切需要针对音频事件识别系统的参数优化问题进行研究，提出更快速、有效并且方便地实现识别系统参数的整体优化。

目前关于音频事件识别的参数优化研究较少，尚处于起步阶段，将不同的参数优化算法引入音频事件识别技术领域，对于减少参数优化耗时、提高准确率、完善音频事件识别的理论体系，为其他领域提供基础技术，有较高的实用和理论价值。

发明内容

本发明的目的是：针对音频事件识别系统模型训练层算法参数的优化问题，提出了一种模型训练层AdaBoost算法的参数优化方法，缓解模型训练阶段网格法寻优耗时严重的问题。

本发明的设计原理如图1所示，具体为：首先，提取音频训练样本底层特征，生成特征向量；然后，使用模拟退火算法进行AdaBoost模型的参数优化；最后使用优化后参数生成音频事件识别模型。本发明可以提高系统的参数优化速度，得到较好的识别结果。

本发明的技术方案是通过如下步骤实现的：

步骤1，采集并生成音频事件训练样本，完成数据的预处理，具体实现方法为：

步骤1.1，采集多段音频，将音频中的某一特定事件标记为正样本，音频中其余事件标记为负样本；

步骤1.2，提取音频样本特征向量；

步骤1.3，将N个音频片段中的l个正样本片段记为y_i＝1，m负样本片段记为y_i＝0，l+m＝N。

步骤2，使用AdaBoost算法训练音频事件识别模型，具体方法如下：

步骤2.1，初始化权重

步骤2.2，对第t次训练(T为总训练次数，且t＝1,2,…,T)，归一化权重：

步骤2.3，对每一维特征j，训练弱分类器h_j，计算其样本集的分类错误率：

步骤2.4，选取分类率e_t最小的分类器h_t，放入强分类器列表；

步骤2.5，更新样本权重：

其中，i＝1,2,…,N，如果样本x_i被正确分类，则e_i＝0，否则e_i＝1；

步骤2.6，重复步骤2.2至步骤2.5共T次。

步骤3，对AdaBoost参数进行优化，具体方法如下：

步骤3.1，在步骤2中随机设定一个迭代次数T₀，将步骤2输出结果的准确度记为f(T₀)＝A，使用T₀和A作为模拟退火算法的初始值，步骤2中的数据操作函数f作为目标函数；

步骤3.2，运行模拟退火算法；

步骤3.3，记录模拟退火算法结果T_best，并将此值作为AdaBoost的迭代次数。

有益效果

相比于常用的网格法进行参数优化，本发明提出的基于模拟退火的音频事件识别模型参数优化方法，通过随机搜索方式对参数寻优路径进行调整，缓解了模型训练阶段网格法寻优耗时严重的问题。

本发明所提方法，对模型训练层AdaBoost算法参数进行优化，逼近迭代次数的最优解。在保持优秀的识别效果的同时，极大地缩短了参数优化时间，进而提高模型训练的效率。

附图说明

图1为本发明提出的训练层AdaBoost算法的参数优化方法原理图；

具体实施方式

为了更好的说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

训练数据选择枪声音频数据。枪声为正样本，时长约2h。包含了各种不同类型的枪声，如机关枪声、手枪声等。样本时长分布在小于1s、1-5s和5-10s三个范围。非枪声为负样本，包含各种各种语言人声、动物叫声，不同地区音乐等等，尽可能多的包含除枪声外的各种声音，总时长约2h。其中，样本时长分布较广，最短时长小于1s，最长时长约30s。

以下测试的实验环境均为同一台计算机，其配置为：四核2.9GHz CPU，8.0GB内存，Windows7操作系统。

第一环节

本环节使用数据源为原始数据源。详细训练数据的生成过程。具体实施步骤如下：

步骤1.1，选取有枪声的音频段，标记为正样本，其他音频段标记为负样本；

步骤1.2，提取音频样本特征向量；

步骤1.3，根据特征向量提取的音频片段，标记正样本y_i＝1及个数l＝3600，标记负样本y_i＝0及个数m＝3600，总音频片段数N＝7200。

第二环节

本环节使用数据源为上一环节获得的数据源。详细说明AdaBoost算法计算过程。具体实施步骤如下：

步骤2.1，初始化权重

步骤2.2，对第t次训练(T为总训练次数，且t＝1,2,…,T)，归一化权重；

步骤2.3，对每一维特征j，训练弱分类器h_j，计算其样本集的分类错误率e_j；

步骤2.5，更新样本权重

步骤2.6，重复步骤2.2至步骤2.5共T次。

第三环节

本环节使用数据源为第一环节获得的数据源。并使用第二环节计算过程作为参数优化目标函数。具体实施步骤如下：

步骤3.1，随机设定一个迭代次数T₀，使用第二环节输出结果的准确度记为f(T₀)＝A，使用T₀和A作为模拟退火算法的初始值，步骤2中的数据操作函数f作为目标函数；

步骤3.2，运行模拟退火算法；

本发明首先是针对音频事件识别研究的不断深入，算法架构日趋复杂，各个模块的关键参数逐渐增多，显著增加了系统整体参数寻优的难度和耗时的问题，其次针对音频事件识别系统模型训练层算法参数的优化问题，提出了一种模型训练层AdaBoost算法的参数优化方法。通过音频事件识别模型训练实验证明，本方法可以对音频中特定事件的识别模型的训练参数进行优化，结果会逼近最优参数，而不会因为人为设定造成准确率的下降。本方法在优化Adaboost训练模型参数的操作上简单高效，易于推广，极具使用价值。

Claims

1.一种模型训练层AdaBoost算法的参数优化方法，其特征在于，所述方法包括以下步骤：

步骤1，采集并生成音频事件训练样本，完成数据的预处理，得到带有正负样本标记的训练数据；

步骤2，对步骤1获得数据集S，应用AdaBoost算法，训练音频事件识别模型；

步骤3，采用步骤2的方法作为目标函数，应用模拟退火方法，优化AdaBoost的训练参数。

2.根据权利要求1所述的方法，其特征在于，所述训练音频事件识别模型的步骤具体包括：

步骤2.1，初始化权重

步骤2.2，对第t次训练(T为总训练次数，且t＝1，2，...，T)，归一化权重：

<mrow> <msubsup> <mi>w</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mfrac> <msubsup> <mi>w</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>w</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> </mrow> </mfrac> </mrow>

<mrow> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mi>i</mi> </msub> <msubsup> <mi>w</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>|</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow>

步骤2.5，更新样本权重：

其中，i＝1，2，...，N，如果样本x_i被正确分类，则e_i＝0，否则e_i＝1；

步骤2.6，重复步骤2.2至步骤2.5共T次。

3.根据权利要求1所述的方法，其特征在于，所述模型训练参数优化的步骤具体包括：

步骤3.2，运行模拟退火算法；