CN107170443A - 一种模型训练层AdaBoost算法的参数优化方法 - Google Patents

一种模型训练层AdaBoost算法的参数优化方法 Download PDF

Info

Publication number
CN107170443A
CN107170443A CN201710332545.6A CN201710332545A CN107170443A CN 107170443 A CN107170443 A CN 107170443A CN 201710332545 A CN201710332545 A CN 201710332545A CN 107170443 A CN107170443 A CN 107170443A
Authority
CN
China
Prior art keywords
mrow
msubsup
msub
training
adaboost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710332545.6A
Other languages
English (en)
Inventor
罗森林
潘丽敏
王怀庆
刘晓双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201710332545.6A priority Critical patent/CN107170443A/zh
Publication of CN107170443A publication Critical patent/CN107170443A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种模型训练层AdaBoost算法的参数优化方法。从应用场景的角度讲,属于音频事件识别技术领域;从技术实现的角度来讲,亦属于计算机科学与音频处理技术领域。本发明首先,提取音频训练样本底层特征,生成特征向量;然后,使用模拟退火算法进行AdaBoost模型的参数优化;最后使用优化后参数生成音频事件识别模型。本发明所述方法,对模型训练层AdaBoost算法参数进行优化,逼近迭代次数的最优解。在保持优秀的识别效果的同时,极大地缩短了参数优化时间,进而提高模型训练的效率,缓解了模型训练阶段网格法寻优耗时严重的问题。

Description

一种模型训练层AdaBoost算法的参数优化方法
技术领域
本发明涉及一种模型训练层AdaBoost算法的参数优化方法。从应用场景的角度讲,属于音频事件识别技术领域;从技术实现的角度来讲,亦属于计算机科学与音频处理技术领域。
背景技术
音频事件识别技术是基于音频数据的内容,识别音频流中的事件声音段落。音频事件识别技术在有广泛的应用,可用于异常场景的监控,如无人车行驶环境下的异常声音事件,公共场所异常骚乱情况等。随着数字多媒体技术的快速发展,以及多终端移动设备的普及应用,音频数据的数量正以指数形式进行增长,音频事件识别技术的应用价值越来越显著。
近年来,研究者们针对不同的应用场景提出了多种多样的音频事件识别算法。音频事件识别系统的模块数量、识别流程程度都在变得复杂,各模块的关键参数数量也不断增加,传统的网格法参数寻优耗时多、需要人工介入、并且结果易陷入局部最优解,甚至有多参的高分辨率优化无法实施等问题。因此,迫切需要针对音频事件识别系统的参数优化问题进行研究,提出更快速、有效并且方便地实现识别系统参数的整体优化。
目前关于音频事件识别的参数优化研究较少,尚处于起步阶段,将不同的参数优化算法引入音频事件识别技术领域,对于减少参数优化耗时、提高准确率、完善音频事件识别的理论体系,为其他领域提供基础技术,有较高的实用和理论价值。
发明内容
本发明的目的是:针对音频事件识别系统模型训练层算法参数的优化问题,提出了一种模型训练层AdaBoost算法的参数优化方法,缓解模型训练阶段网格法寻优耗时严重的问题。
本发明的设计原理如图1所示,具体为:首先,提取音频训练样本底层特征,生成特征向量;然后,使用模拟退火算法进行AdaBoost模型的参数优化;最后使用优化后参数生成音频事件识别模型。本发明可以提高系统的参数优化速度,得到较好的识别结果。
本发明的技术方案是通过如下步骤实现的:
步骤1,采集并生成音频事件训练样本,完成数据的预处理,具体实现方法为:
步骤1.1,采集多段音频,将音频中的某一特定事件标记为正样本,音频中其余事件标记为负样本;
步骤1.2,提取音频样本特征向量;
步骤1.3,将N个音频片段中的l个正样本片段记为yi=1,m负样本片段记为yi=0,l+m=N。
步骤2,使用AdaBoost算法训练音频事件识别模型,具体方法如下:
步骤2.1,初始化权重
步骤2.2,对第t次训练(T为总训练次数,且t=1,2,…,T),归一化权重:
步骤2.3,对每一维特征j,训练弱分类器hj,计算其样本集的分类错误率:
步骤2.4,选取分类率et最小的分类器ht,放入强分类器列表;
步骤2.5,更新样本权重:
其中,i=1,2,…,N,如果样本xi被正确分类,则ei=0,否则ei=1;
步骤2.6,重复步骤2.2至步骤2.5共T次。
步骤3,对AdaBoost参数进行优化,具体方法如下:
步骤3.1,在步骤2中随机设定一个迭代次数T0,将步骤2输出结果的准确度记为f(T0)=A,使用T0和A作为模拟退火算法的初始值,步骤2中的数据操作函数f作为目标函数;
步骤3.2,运行模拟退火算法;
步骤3.3,记录模拟退火算法结果Tbest,并将此值作为AdaBoost的迭代次数。
有益效果
相比于常用的网格法进行参数优化,本发明提出的基于模拟退火的音频事件识别模型参数优化方法,通过随机搜索方式对参数寻优路径进行调整,缓解了模型训练阶段网格法寻优耗时严重的问题。
本发明所提方法,对模型训练层AdaBoost算法参数进行优化,逼近迭代次数的最优解。在保持优秀的识别效果的同时,极大地缩短了参数优化时间,进而提高模型训练的效率。
附图说明
图1为本发明提出的训练层AdaBoost算法的参数优化方法原理图;
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实例对本发明方法的实施方式做进一步详细说明。
训练数据选择枪声音频数据。枪声为正样本,时长约2h。包含了各种不同类型的枪声,如机关枪声、手枪声等。样本时长分布在小于1s、1-5s和5-10s三个范围。非枪声为负样本,包含各种各种语言人声、动物叫声,不同地区音乐等等,尽可能多的包含除枪声外的各种声音,总时长约2h。其中,样本时长分布较广,最短时长小于1s,最长时长约30s。
以下测试的实验环境均为同一台计算机,其配置为:四核2.9GHz CPU,8.0GB内存,Windows7操作系统。
第一环节
本环节使用数据源为原始数据源。详细训练数据的生成过程。具体实施步骤如下:
步骤1.1,选取有枪声的音频段,标记为正样本,其他音频段标记为负样本;
步骤1.2,提取音频样本特征向量;
步骤1.3,根据特征向量提取的音频片段,标记正样本yi=1及个数l=3600,标记负样本yi=0及个数m=3600,总音频片段数N=7200。
第二环节
本环节使用数据源为上一环节获得的数据源。详细说明AdaBoost算法计算过程。具体实施步骤如下:
步骤2.1,初始化权重
步骤2.2,对第t次训练(T为总训练次数,且t=1,2,…,T),归一化权重;
步骤2.3,对每一维特征j,训练弱分类器hj,计算其样本集的分类错误率ej
步骤2.4,选取分类率et最小的分类器ht,放入强分类器列表;
步骤2.5,更新样本权重
步骤2.6,重复步骤2.2至步骤2.5共T次。
第三环节
本环节使用数据源为第一环节获得的数据源。并使用第二环节计算过程作为参数优化目标函数。具体实施步骤如下:
步骤3.1,随机设定一个迭代次数T0,使用第二环节输出结果的准确度记为f(T0)=A,使用T0和A作为模拟退火算法的初始值,步骤2中的数据操作函数f作为目标函数;
步骤3.2,运行模拟退火算法;
步骤3.3,记录模拟退火算法结果Tbest,并将此值作为AdaBoost的迭代次数。
本发明首先是针对音频事件识别研究的不断深入,算法架构日趋复杂,各个模块的关键参数逐渐增多,显著增加了系统整体参数寻优的难度和耗时的问题,其次针对音频事件识别系统模型训练层算法参数的优化问题,提出了一种模型训练层AdaBoost算法的参数优化方法。通过音频事件识别模型训练实验证明,本方法可以对音频中特定事件的识别模型的训练参数进行优化,结果会逼近最优参数,而不会因为人为设定造成准确率的下降。本方法在优化Adaboost训练模型参数的操作上简单高效,易于推广,极具使用价值。

Claims (3)

1.一种模型训练层AdaBoost算法的参数优化方法,其特征在于,所述方法包括以下步骤:
步骤1,采集并生成音频事件训练样本,完成数据的预处理,得到带有正负样本标记的训练数据;
步骤2,对步骤1获得数据集S,应用AdaBoost算法,训练音频事件识别模型;
步骤3,采用步骤2的方法作为目标函数,应用模拟退火方法,优化AdaBoost的训练参数。
2.根据权利要求1所述的方法,其特征在于,所述训练音频事件识别模型的步骤具体包括:
步骤2.1,初始化权重
<mrow> <msubsup> <mi>w</mi> <mi>i</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <mi>l</mi> </mrow> </mfrac> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>1</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <mi>m</mi> </mrow> </mfrac> <mo>.</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
步骤2.2,对第t次训练(T为总训练次数,且t=1,2,...,T),归一化权重:
<mrow> <msubsup> <mi>w</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mfrac> <msubsup> <mi>w</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>w</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> </mrow> </mfrac> </mrow>
步骤2.3,对每一维特征j,训练弱分类器hj,计算其样本集的分类错误率:
<mrow> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>=</mo> <msub> <mi>&amp;Sigma;</mi> <mi>i</mi> </msub> <msubsup> <mi>w</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>|</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow>
步骤2.4,选取分类率et最小的分类器ht,放入强分类器列表;
步骤2.5,更新样本权重:
<mrow> <msubsup> <mi>w</mi> <mi>i</mi> <mrow> <mo>(</mo> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <msubsup> <mi>w</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <msup> <mi>&amp;beta;</mi> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> </mrow> </msup> </mrow>
其中,i=1,2,...,N,如果样本xi被正确分类,则ei=0,否则ei=1;
步骤2.6,重复步骤2.2至步骤2.5共T次。
3.根据权利要求1所述的方法,其特征在于,所述模型训练参数优化的步骤具体包括:
步骤3.1,在步骤2中随机设定一个迭代次数T0,将步骤2输出结果的准确度记为f(T0)=A,使用T0和A作为模拟退火算法的初始值,步骤2中的数据操作函数f作为目标函数;
步骤3.2,运行模拟退火算法;
步骤3.3,记录模拟退火算法结果Tbest,并将此值作为AdaBoost的迭代次数。
CN201710332545.6A 2017-05-12 2017-05-12 一种模型训练层AdaBoost算法的参数优化方法 Pending CN107170443A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710332545.6A CN107170443A (zh) 2017-05-12 2017-05-12 一种模型训练层AdaBoost算法的参数优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710332545.6A CN107170443A (zh) 2017-05-12 2017-05-12 一种模型训练层AdaBoost算法的参数优化方法

Publications (1)

Publication Number Publication Date
CN107170443A true CN107170443A (zh) 2017-09-15

Family

ID=59814904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710332545.6A Pending CN107170443A (zh) 2017-05-12 2017-05-12 一种模型训练层AdaBoost算法的参数优化方法

Country Status (1)

Country Link
CN (1) CN107170443A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472311A (zh) * 2018-11-13 2019-03-15 北京物灵智能科技有限公司 一种用户行为识别方法及装置
CN109491195A (zh) * 2018-12-25 2019-03-19 上海微阱电子科技有限公司 一种建立辅助图形曝光模型的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799899A (zh) * 2012-06-29 2012-11-28 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
US20140111701A1 (en) * 2012-10-23 2014-04-24 Dolby Laboratories Licensing Corporation Audio Data Spread Spectrum Embedding and Detection
CN105147248A (zh) * 2015-07-30 2015-12-16 华南理工大学 基于生理信息的抑郁症评估系统及其评估方法
CN105631440A (zh) * 2016-02-22 2016-06-01 清华大学 一种易受伤害道路使用者的联合检测方法
CN106601271A (zh) * 2016-12-16 2017-04-26 北京灵众博通科技有限公司 一种语音异常信号检测系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799899A (zh) * 2012-06-29 2012-11-28 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
US20140111701A1 (en) * 2012-10-23 2014-04-24 Dolby Laboratories Licensing Corporation Audio Data Spread Spectrum Embedding and Detection
CN105147248A (zh) * 2015-07-30 2015-12-16 华南理工大学 基于生理信息的抑郁症评估系统及其评估方法
CN105631440A (zh) * 2016-02-22 2016-06-01 清华大学 一种易受伤害道路使用者的联合检测方法
CN106601271A (zh) * 2016-12-16 2017-04-26 北京灵众博通科技有限公司 一种语音异常信号检测系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘培: "敏感图像识别的相关技术研究", 《万方学位论文》 *
高晓芳: "音频事件识别参数优化方法研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472311A (zh) * 2018-11-13 2019-03-15 北京物灵智能科技有限公司 一种用户行为识别方法及装置
CN109491195A (zh) * 2018-12-25 2019-03-19 上海微阱电子科技有限公司 一种建立辅助图形曝光模型的方法

Similar Documents

Publication Publication Date Title
CN102405495B (zh) 使用稀疏特征对信息检索进行音频分类
CN109035779B (zh) 基于DenseNet的高速公路交通流预测方法
CN111275107A (zh) 一种基于迁移学习的多标签场景图像分类方法及装置
US20210158166A1 (en) Semi-structured learned threshold pruning for deep neural networks
CN108231086A (zh) 一种基于fpga的深度学习语音增强器及方法
CN111178260A (zh) 一种基于生成对抗网络的调制信号时频图分类系统及其运行方法
CN103226948A (zh) 一种基于声学事件的音频场景识别方法
CN108846120A (zh) 用于对文本集进行分类的方法、系统及存储介质
CN108182316B (zh) 一种基于人工智能的电磁仿真方法及其电磁大脑
CN104794501A (zh) 模式识别方法及装置
US20220121949A1 (en) Personalized neural network pruning
CN109919295A (zh) 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法
CN111653275A (zh) 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法
CN112307048B (zh) 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN105304078A (zh) 目标声数据训练装置和目标声数据训练方法
CN107170443A (zh) 一种模型训练层AdaBoost算法的参数优化方法
CN116958688A (zh) 一种基于YOLOv8网络的目标检测方法及系统
Tripathi et al. Data augmentation guided knowledge distillation for environmental sound classification
CN103559289A (zh) 语种无关的关键词检索方法及系统
López et al. E-DNAS: Differentiable neural architecture search for embedded systems
CN110728144A (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
CN107170442A (zh) 基于自适应遗传算法的多参数优化方法
Zhang et al. ATReSN-Net: Capturing Attentive Temporal Relations in Semantic Neighborhood for Acoustic Scene Classification.
Ni et al. Enhanced knowledge distillation for face recognition
US11763836B2 (en) Hierarchical generated audio detection system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170915

WD01 Invention patent application deemed withdrawn after publication