CN107170443A - 一种模型训练层AdaBoost算法的参数优化方法 - Google Patents
一种模型训练层AdaBoost算法的参数优化方法 Download PDFInfo
- Publication number
- CN107170443A CN107170443A CN201710332545.6A CN201710332545A CN107170443A CN 107170443 A CN107170443 A CN 107170443A CN 201710332545 A CN201710332545 A CN 201710332545A CN 107170443 A CN107170443 A CN 107170443A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msubsup
- msub
- training
- adaboost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000005457 optimization Methods 0.000 title claims abstract description 30
- 238000002922 simulated annealing Methods 0.000 claims abstract description 12
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 238000000137 annealing Methods 0.000 claims 1
- 238000002372 labelling Methods 0.000 claims 1
- 238000004088 simulation Methods 0.000 claims 1
- 238000013459 approach Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract 1
- 230000005236 sound signal Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 5
- 239000012634 fragment Substances 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种模型训练层AdaBoost算法的参数优化方法。从应用场景的角度讲,属于音频事件识别技术领域;从技术实现的角度来讲,亦属于计算机科学与音频处理技术领域。本发明首先,提取音频训练样本底层特征,生成特征向量;然后,使用模拟退火算法进行AdaBoost模型的参数优化;最后使用优化后参数生成音频事件识别模型。本发明所述方法,对模型训练层AdaBoost算法参数进行优化,逼近迭代次数的最优解。在保持优秀的识别效果的同时,极大地缩短了参数优化时间,进而提高模型训练的效率,缓解了模型训练阶段网格法寻优耗时严重的问题。
Description
技术领域
本发明涉及一种模型训练层AdaBoost算法的参数优化方法。从应用场景的角度讲,属于音频事件识别技术领域;从技术实现的角度来讲,亦属于计算机科学与音频处理技术领域。
背景技术
音频事件识别技术是基于音频数据的内容,识别音频流中的事件声音段落。音频事件识别技术在有广泛的应用,可用于异常场景的监控,如无人车行驶环境下的异常声音事件,公共场所异常骚乱情况等。随着数字多媒体技术的快速发展,以及多终端移动设备的普及应用,音频数据的数量正以指数形式进行增长,音频事件识别技术的应用价值越来越显著。
近年来,研究者们针对不同的应用场景提出了多种多样的音频事件识别算法。音频事件识别系统的模块数量、识别流程程度都在变得复杂,各模块的关键参数数量也不断增加,传统的网格法参数寻优耗时多、需要人工介入、并且结果易陷入局部最优解,甚至有多参的高分辨率优化无法实施等问题。因此,迫切需要针对音频事件识别系统的参数优化问题进行研究,提出更快速、有效并且方便地实现识别系统参数的整体优化。
目前关于音频事件识别的参数优化研究较少,尚处于起步阶段,将不同的参数优化算法引入音频事件识别技术领域,对于减少参数优化耗时、提高准确率、完善音频事件识别的理论体系,为其他领域提供基础技术,有较高的实用和理论价值。
发明内容
本发明的目的是:针对音频事件识别系统模型训练层算法参数的优化问题,提出了一种模型训练层AdaBoost算法的参数优化方法,缓解模型训练阶段网格法寻优耗时严重的问题。
本发明的设计原理如图1所示,具体为:首先,提取音频训练样本底层特征,生成特征向量;然后,使用模拟退火算法进行AdaBoost模型的参数优化;最后使用优化后参数生成音频事件识别模型。本发明可以提高系统的参数优化速度,得到较好的识别结果。
本发明的技术方案是通过如下步骤实现的:
步骤1,采集并生成音频事件训练样本,完成数据的预处理,具体实现方法为:
步骤1.1,采集多段音频,将音频中的某一特定事件标记为正样本,音频中其余事件标记为负样本;
步骤1.2,提取音频样本特征向量;
步骤1.3,将N个音频片段中的l个正样本片段记为yi=1,m负样本片段记为yi=0,l+m=N。
步骤2,使用AdaBoost算法训练音频事件识别模型,具体方法如下:
步骤2.1,初始化权重
步骤2.2,对第t次训练(T为总训练次数,且t=1,2,…,T),归一化权重:
步骤2.3,对每一维特征j,训练弱分类器hj,计算其样本集的分类错误率:
步骤2.4,选取分类率et最小的分类器ht,放入强分类器列表;
步骤2.5,更新样本权重:
其中,i=1,2,…,N,如果样本xi被正确分类,则ei=0,否则ei=1;
步骤2.6,重复步骤2.2至步骤2.5共T次。
步骤3,对AdaBoost参数进行优化,具体方法如下:
步骤3.1,在步骤2中随机设定一个迭代次数T0,将步骤2输出结果的准确度记为f(T0)=A,使用T0和A作为模拟退火算法的初始值,步骤2中的数据操作函数f作为目标函数;
步骤3.2,运行模拟退火算法;
步骤3.3,记录模拟退火算法结果Tbest,并将此值作为AdaBoost的迭代次数。
有益效果
相比于常用的网格法进行参数优化,本发明提出的基于模拟退火的音频事件识别模型参数优化方法,通过随机搜索方式对参数寻优路径进行调整,缓解了模型训练阶段网格法寻优耗时严重的问题。
本发明所提方法,对模型训练层AdaBoost算法参数进行优化,逼近迭代次数的最优解。在保持优秀的识别效果的同时,极大地缩短了参数优化时间,进而提高模型训练的效率。
附图说明
图1为本发明提出的训练层AdaBoost算法的参数优化方法原理图;
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实例对本发明方法的实施方式做进一步详细说明。
训练数据选择枪声音频数据。枪声为正样本,时长约2h。包含了各种不同类型的枪声,如机关枪声、手枪声等。样本时长分布在小于1s、1-5s和5-10s三个范围。非枪声为负样本,包含各种各种语言人声、动物叫声,不同地区音乐等等,尽可能多的包含除枪声外的各种声音,总时长约2h。其中,样本时长分布较广,最短时长小于1s,最长时长约30s。
以下测试的实验环境均为同一台计算机,其配置为:四核2.9GHz CPU,8.0GB内存,Windows7操作系统。
第一环节
本环节使用数据源为原始数据源。详细训练数据的生成过程。具体实施步骤如下:
步骤1.1,选取有枪声的音频段,标记为正样本,其他音频段标记为负样本;
步骤1.2,提取音频样本特征向量;
步骤1.3,根据特征向量提取的音频片段,标记正样本yi=1及个数l=3600,标记负样本yi=0及个数m=3600,总音频片段数N=7200。
第二环节
本环节使用数据源为上一环节获得的数据源。详细说明AdaBoost算法计算过程。具体实施步骤如下:
步骤2.1,初始化权重
步骤2.2,对第t次训练(T为总训练次数,且t=1,2,…,T),归一化权重;
步骤2.3,对每一维特征j,训练弱分类器hj,计算其样本集的分类错误率ej;
步骤2.4,选取分类率et最小的分类器ht,放入强分类器列表;
步骤2.5,更新样本权重
步骤2.6,重复步骤2.2至步骤2.5共T次。
第三环节
本环节使用数据源为第一环节获得的数据源。并使用第二环节计算过程作为参数优化目标函数。具体实施步骤如下:
步骤3.1,随机设定一个迭代次数T0,使用第二环节输出结果的准确度记为f(T0)=A,使用T0和A作为模拟退火算法的初始值,步骤2中的数据操作函数f作为目标函数;
步骤3.2,运行模拟退火算法;
步骤3.3,记录模拟退火算法结果Tbest,并将此值作为AdaBoost的迭代次数。
本发明首先是针对音频事件识别研究的不断深入,算法架构日趋复杂,各个模块的关键参数逐渐增多,显著增加了系统整体参数寻优的难度和耗时的问题,其次针对音频事件识别系统模型训练层算法参数的优化问题,提出了一种模型训练层AdaBoost算法的参数优化方法。通过音频事件识别模型训练实验证明,本方法可以对音频中特定事件的识别模型的训练参数进行优化,结果会逼近最优参数,而不会因为人为设定造成准确率的下降。本方法在优化Adaboost训练模型参数的操作上简单高效,易于推广,极具使用价值。
Claims (3)
1.一种模型训练层AdaBoost算法的参数优化方法,其特征在于,所述方法包括以下步骤:
步骤1,采集并生成音频事件训练样本,完成数据的预处理,得到带有正负样本标记的训练数据;
步骤2,对步骤1获得数据集S,应用AdaBoost算法,训练音频事件识别模型;
步骤3,采用步骤2的方法作为目标函数,应用模拟退火方法,优化AdaBoost的训练参数。
2.根据权利要求1所述的方法,其特征在于,所述训练音频事件识别模型的步骤具体包括:
步骤2.1,初始化权重
<mrow>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msubsup>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mfrac>
<mn>1</mn>
<mrow>
<mn>2</mn>
<mi>l</mi>
</mrow>
</mfrac>
<mo>,</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mn>1</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mfrac>
<mn>1</mn>
<mrow>
<mn>2</mn>
<mi>m</mi>
</mrow>
</mfrac>
<mo>.</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
步骤2.2,对第t次训练(T为总训练次数,且t=1,2,...,T),归一化权重:
<mrow>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>=</mo>
<mfrac>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msubsup>
<mi>w</mi>
<mi>j</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</msubsup>
</mrow>
</mfrac>
</mrow>
步骤2.3,对每一维特征j,训练弱分类器hj,计算其样本集的分类错误率:
<mrow>
<msub>
<mi>e</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<msub>
<mi>&Sigma;</mi>
<mi>i</mi>
</msub>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>|</mo>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
</mrow>
步骤2.4,选取分类率et最小的分类器ht,放入强分类器列表;
步骤2.5,更新样本权重:
<mrow>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>t</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mo>)</mo>
</mrow>
</msubsup>
<mo>=</mo>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</msubsup>
<msup>
<mi>&beta;</mi>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>e</mi>
<mi>i</mi>
</msub>
</mrow>
</msup>
</mrow>
其中,i=1,2,...,N,如果样本xi被正确分类,则ei=0,否则ei=1;
步骤2.6,重复步骤2.2至步骤2.5共T次。
3.根据权利要求1所述的方法,其特征在于,所述模型训练参数优化的步骤具体包括:
步骤3.1,在步骤2中随机设定一个迭代次数T0,将步骤2输出结果的准确度记为f(T0)=A,使用T0和A作为模拟退火算法的初始值,步骤2中的数据操作函数f作为目标函数;
步骤3.2,运行模拟退火算法;
步骤3.3,记录模拟退火算法结果Tbest,并将此值作为AdaBoost的迭代次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710332545.6A CN107170443A (zh) | 2017-05-12 | 2017-05-12 | 一种模型训练层AdaBoost算法的参数优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710332545.6A CN107170443A (zh) | 2017-05-12 | 2017-05-12 | 一种模型训练层AdaBoost算法的参数优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107170443A true CN107170443A (zh) | 2017-09-15 |
Family
ID=59814904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710332545.6A Pending CN107170443A (zh) | 2017-05-12 | 2017-05-12 | 一种模型训练层AdaBoost算法的参数优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107170443A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472311A (zh) * | 2018-11-13 | 2019-03-15 | 北京物灵智能科技有限公司 | 一种用户行为识别方法及装置 |
CN109491195A (zh) * | 2018-12-25 | 2019-03-19 | 上海微阱电子科技有限公司 | 一种建立辅助图形曝光模型的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799899A (zh) * | 2012-06-29 | 2012-11-28 | 北京理工大学 | 基于svm和gmm的特定音频事件分层泛化识别方法 |
US20140111701A1 (en) * | 2012-10-23 | 2014-04-24 | Dolby Laboratories Licensing Corporation | Audio Data Spread Spectrum Embedding and Detection |
CN105147248A (zh) * | 2015-07-30 | 2015-12-16 | 华南理工大学 | 基于生理信息的抑郁症评估系统及其评估方法 |
CN105631440A (zh) * | 2016-02-22 | 2016-06-01 | 清华大学 | 一种易受伤害道路使用者的联合检测方法 |
CN106601271A (zh) * | 2016-12-16 | 2017-04-26 | 北京灵众博通科技有限公司 | 一种语音异常信号检测系统 |
-
2017
- 2017-05-12 CN CN201710332545.6A patent/CN107170443A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799899A (zh) * | 2012-06-29 | 2012-11-28 | 北京理工大学 | 基于svm和gmm的特定音频事件分层泛化识别方法 |
US20140111701A1 (en) * | 2012-10-23 | 2014-04-24 | Dolby Laboratories Licensing Corporation | Audio Data Spread Spectrum Embedding and Detection |
CN105147248A (zh) * | 2015-07-30 | 2015-12-16 | 华南理工大学 | 基于生理信息的抑郁症评估系统及其评估方法 |
CN105631440A (zh) * | 2016-02-22 | 2016-06-01 | 清华大学 | 一种易受伤害道路使用者的联合检测方法 |
CN106601271A (zh) * | 2016-12-16 | 2017-04-26 | 北京灵众博通科技有限公司 | 一种语音异常信号检测系统 |
Non-Patent Citations (2)
Title |
---|
刘培: "敏感图像识别的相关技术研究", 《万方学位论文》 * |
高晓芳: "音频事件识别参数优化方法研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472311A (zh) * | 2018-11-13 | 2019-03-15 | 北京物灵智能科技有限公司 | 一种用户行为识别方法及装置 |
CN109491195A (zh) * | 2018-12-25 | 2019-03-19 | 上海微阱电子科技有限公司 | 一种建立辅助图形曝光模型的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102405495B (zh) | 使用稀疏特征对信息检索进行音频分类 | |
CN109035779B (zh) | 基于DenseNet的高速公路交通流预测方法 | |
CN111275107A (zh) | 一种基于迁移学习的多标签场景图像分类方法及装置 | |
US20210158166A1 (en) | Semi-structured learned threshold pruning for deep neural networks | |
CN108231086A (zh) | 一种基于fpga的深度学习语音增强器及方法 | |
CN111178260A (zh) | 一种基于生成对抗网络的调制信号时频图分类系统及其运行方法 | |
CN103226948A (zh) | 一种基于声学事件的音频场景识别方法 | |
CN108846120A (zh) | 用于对文本集进行分类的方法、系统及存储介质 | |
CN108182316B (zh) | 一种基于人工智能的电磁仿真方法及其电磁大脑 | |
CN104794501A (zh) | 模式识别方法及装置 | |
US20220121949A1 (en) | Personalized neural network pruning | |
CN109919295A (zh) | 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法 | |
CN111653275A (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
CN112307048B (zh) | 语义匹配模型训练方法、匹配方法、装置、设备及存储介质 | |
CN105304078A (zh) | 目标声数据训练装置和目标声数据训练方法 | |
CN107170443A (zh) | 一种模型训练层AdaBoost算法的参数优化方法 | |
CN116958688A (zh) | 一种基于YOLOv8网络的目标检测方法及系统 | |
Tripathi et al. | Data augmentation guided knowledge distillation for environmental sound classification | |
CN103559289A (zh) | 语种无关的关键词检索方法及系统 | |
López et al. | E-DNAS: Differentiable neural architecture search for embedded systems | |
CN110728144A (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
CN107170442A (zh) | 基于自适应遗传算法的多参数优化方法 | |
Zhang et al. | ATReSN-Net: Capturing Attentive Temporal Relations in Semantic Neighborhood for Acoustic Scene Classification. | |
Ni et al. | Enhanced knowledge distillation for face recognition | |
US11763836B2 (en) | Hierarchical generated audio detection system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170915 |
|
WD01 | Invention patent application deemed withdrawn after publication |