CN106372653B - 一种基于堆栈式自动编码器的广告识别方法 - Google Patents
一种基于堆栈式自动编码器的广告识别方法 Download PDFInfo
- Publication number
- CN106372653B CN106372653B CN201610745524.2A CN201610745524A CN106372653B CN 106372653 B CN106372653 B CN 106372653B CN 201610745524 A CN201610745524 A CN 201610745524A CN 106372653 B CN106372653 B CN 106372653B
- Authority
- CN
- China
- Prior art keywords
- advertisement
- audio
- type automatic
- stack type
- automatic encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 230000005236 sound signal Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种基于堆栈式自动编码器的广告识别的方法,属于通信领域。该方法的特点在于首先采用无标签的语音、音频和有标签的广告音频,训练基于堆栈式自动编码器和softmax分类器的深度神经网络;去掉softmax分类器;利用训练好的堆栈式自动编码器,提取广告的特征参数,并建立广告音频特征参数数据库;利用训练好的堆栈式自动编码器提取待检测音频的特征参数,用该特征参数去匹配广告音频特征参数数据库,根据欧氏距离确定待检测音频是哪一条广告。本发明利用堆栈式自动编码器提取广告音频的特征参数,广告识别准确率高;本发明在对堆栈式自动编码器进行有监督学习时,加入了含有噪声的广告音频数据,有较好的抗噪声性能。
Description
技术领域
本发明涉及音频检索的一种方法,属于通信领域。
背景技术
广播电视或网络视频中广告的自动监测和识别,有重要的实用价值。比如,广告客户通过跟踪电视台或网站播放的视频,确认电视台或网站是否定时定量的履行了广告播放合同;通过获取用户观看的广告,手机应用可以为用户推送相关的产品链接等。
提取广告节目中的音频信息,并采用基于音频检索的广告识别方法,是一种有效的广告识别方法。基于音频检索的广告识别,包括音频信号的特征提取和特征匹配。常用的特征包括过零率、短时能量、线性预测系数(LPC)、线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC)等。上述特征常用于语音信号处理,其中MFCC特征参数基于人耳的听觉特性,在语音识别应用中具有较好的性能。但是,音乐类音频信号和语音信号有很大的不同。广告节目中通常包含语音和背景音乐;另外,有些应用场合获取的广告音频包含噪声,直接采用上述特征参数影响广告识别的准确率。
近年来,深度神经网络在语音识别、图像识别等诸多机器学习领域取得了巨大的成功。由于每一个隐藏层是前一级输入的非线性变换,深度神经网络能够表示复杂的非线性变换,具有较强的深层信息提取能力。
自动编码器能够利用大量无标签数据学习得到好的特征表示,多级自动编码器叠加构成堆栈式自动编码器。把堆栈式自动编码器的输出作为softmax分类器的输入,然后采用有标签数据对整个网络进行微调,可以得到更好的特征表示。
发明内容
为了实现基于音频的广告识别,本发明提出了一种基于堆栈式自动编码器的广告识别方法。
为实现上述发明目的,本发明采用下述的技术方法:
1. 无标签的语音或音频信号预处理方法
对语音或音频信号进行分段,每一段信号包含10帧,50%重叠。去掉其中的静音段,对非静音段提取出每一段信号的MFCC特征参数。
2.广告音频信号预处理方法
获取广告音频的原始信号、压缩解压缩后的信号,以及加入噪声后的信号。然后对上述音频信号进行分段、加标签,每一段音频信号包含10帧,50%重叠;提取出每一段广告音频的MFCC特征参数。
3. 堆栈式自动编码器预训练方法
采用无标签的语音或音频信号的MFCC特征参数作为堆栈式自动编码器的输入,逐层进行训练。每一次只训练一层。采用无监督学习;训练当前层时,固定前面已经被训练过的层的权值。
4. 堆栈式自动编码器微调方法(fine-tuning)
在方法3中训练得到的堆栈式自动编码器最后一级,加上softmax分类器;输入有标签的广告音频的MFCC特征参数,采用有监督学习方式,对整个网络进行微调,得到整个网络的权值;去掉softmax分类器,得到训练好的堆栈式自动编码器。
5. 广告音频特征参数数据库建立方法
构造广告库。对广告库中的每一条广告音频进行分段;提取出每一段广告音频的MFCC特征参数;MFCC特征参数作为方法4中训练好的堆栈式自动编码器的输入,堆栈式自动编码器最后一级的输出保存为广告音频特征参数。对广告库中的所有广告进行上述操作,得到广告音频特征参数数据库。
6. 广告识别方法
对待检测音频进行分段,并提取出每一段的MFCC特征参数;把待检测音频的MFCC特征参数输入到方法4中训练好的堆栈式自动编码器,堆栈式自动编码器最后一级的输出保存为待检测音频的特征参数。计算待检测音频的特征参数与广告音频特征参数数据库中所有广告的特征参数的欧氏距离。根据欧氏距离的最小值确定待检测音频是否是广告库中的广告,以及具体是广告库中的哪一条广告。
本发明实施例提供的技术方案的有益效果是:
1.本方法采用基于堆栈式自动编码器的深度神经网络提取广告音频的特征参数,广告识别准确率高。
2.本方法在训练堆栈式自动编码器时,采用了含有噪声的广告音频数据,有较好的抗噪性能。
附图说明
下面结合附图和具体实施方式对本发明作进一步的说明。
附图1为采用基于堆栈式自动编码器的广告识别方法对待检测音频进行广告识别的示意图。
附图2为基于堆栈式自动编码器的广告识别方法的框架图。
附图3为堆栈式自动编码器加softmax分类器结构图。
附图4为基于堆栈式自动编码器的音频特征参数提取框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明方式作进一步的详细描述。
附图3为堆栈式自动编码器加softmax分类器结构图,附图4为基于堆栈式自动编码器的音频特征参数提取框图。本发明具体流程如下描述。
步骤1.获取5000段语音或音频信号,用来在步骤3中进行堆栈式自动编码器的预训练。对语音或音频信号进一步分割成段,每一段信号包含10帧,50%重叠。去掉其中的静音段,对非静音段提取出每一段信号的MFCC特征参数。
步骤2.选取100条广告用来在步骤4中进行堆栈式自动编码器的微调。每一条广告包括原始音频信号、不同电视台不同时段播出的该广告的音频、视频网站播出的该广告的音频、以及电视机播出时用录音设备录下的该广告的音频等。然后对上述音频信号进行分段、加标签。每一段音频信号包含10帧,50%重叠。标签采用数字1到100,顺序编号;同一条广告的不同版本加同样的标签。最后提取出每一段广告音频的MFCC特征参数,并保存其标签。
步骤3.采用步骤1中得到的MFCC特征参数作为堆栈式自动编码器的输入,对堆栈式自动编码器进行预训练。每一次只训练一层,逐层进行。
步骤4.在步骤3训练得到的堆栈式自动编码器最后一级加上softmax分类器,采用步骤2中得到的MFCC特征参数和标签,对该网络进行微调。训练完成后,去掉softmax分类器,得到训练好的堆栈式自动编码器
步骤5.根据实际应用需要选取广告,构建广告库。对广告库中的每一条广告音频进行分段;提取MFCC特征参数;送入步骤4中训练好的堆栈式自动编码器,计算得到该广告音频的特征参数,建立广告音频特征参数数据库。
步骤6.对待检测音频进行分段,提取MFCC特征参数,送入步骤4中训练好的堆栈式自动编码器,计算得到待检测音频的特征参数。
步骤7.计算待检测音频特征参数和广告音频特征参数数据库中所有广告的特征参数的欧氏距离,并求出最小值。当欧氏距离的最小值小于阈值时,判断该音频是对应的广告;否则,判断待检测音频不是广告库中的广告。
上面对本发明所述的一种基于堆栈式自动编码器的广告识别方法进行了详细的说明,但本发明的具体实现形式并不局限于此。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于堆栈式自动编码器的广告识别方法,其特征在于:首先采用无标签的音频和有标签及噪声的广告音频,训练得到基于堆栈式自动编码器和softmax分类器的深度神经网络;然后去掉softmax分类器,利用训练好的堆栈式自动编码器,提取广告库中每一条广告的特征参数,建立广告音频特征参数数据库;把待检测音频输入到训练好的堆栈式自动编码器,得到特征参数,用待检测音频的特征参数去匹配广告音频特征参数数据库,根据欧氏距离的最小值确定待检测音频是否是广告库中的广告,如果是则该音频是哪一条广告;
无标签的音频信号预处理方法:对音频信号进行分段,每一段信号部分重叠;去掉其中的静音段,对非静音段提取出每一段信号的MFCC特征参数;
广告音频信号预处理方法:获取广告音频的原始信号、压缩解压缩后的信号,以及加入噪声后的信号;然后对上述音频信号进行分段、加标签,广告音频信号的分段方法与无标签的音频信号的分段方法相同;提取出每一段广告音频的MFCC特征参数;
所述堆栈式自动编码器预训练方法:采用无标签的音频信号的特征参数作为堆栈式自动编码器的输入,逐层进行训练,每一次只训练一层,采用无监督学习;训练当前层时,固定前面已经被训练过的层的权值;将上面经过训练得到的堆栈式自动编码器最后一级,加上softmax分类器,输入有标签及噪声的广告音频特征参数,采用有监督学习方式,对整个网络进行微调,得到整个网络的权值,去掉softmax分类器,得到训练好的堆栈式自动编码器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610745524.2A CN106372653B (zh) | 2016-08-29 | 2016-08-29 | 一种基于堆栈式自动编码器的广告识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610745524.2A CN106372653B (zh) | 2016-08-29 | 2016-08-29 | 一种基于堆栈式自动编码器的广告识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106372653A CN106372653A (zh) | 2017-02-01 |
CN106372653B true CN106372653B (zh) | 2020-10-16 |
Family
ID=57903797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610745524.2A Active CN106372653B (zh) | 2016-08-29 | 2016-08-29 | 一种基于堆栈式自动编码器的广告识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106372653B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107452371B (zh) * | 2017-05-27 | 2019-03-05 | 北京字节跳动网络技术有限公司 | 一种语音分类模型的构建方法及装置 |
CN107748898A (zh) * | 2017-11-03 | 2018-03-02 | 北京奇虎科技有限公司 | 文件分类方法、装置、计算设备及计算机存储介质 |
CN108171151A (zh) * | 2017-12-26 | 2018-06-15 | 上海亿动信息技术有限公司 | 一种对视频广告进行识别统计的控制方法及装置 |
CN108899025A (zh) * | 2018-07-24 | 2018-11-27 | 中国联合网络通信集团有限公司 | 终端设备控制方法、设备及存储介质 |
CN108834170B (zh) * | 2018-07-24 | 2021-04-13 | 南昌航空大学 | 无线传感器网络链路质量评估方法 |
CN109215682A (zh) * | 2018-08-01 | 2019-01-15 | 上海箧书网络科技有限公司 | 用于影音作品的广告监测方法及监测装置 |
CN112951274A (zh) * | 2021-02-07 | 2021-06-11 | 脸萌有限公司 | 语音相似度确定方法及设备、程序产品 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100530196C (zh) * | 2007-11-16 | 2009-08-19 | 北京交通大学 | 一种基于分层匹配的快速音频广告识别方法 |
CN103594083A (zh) * | 2012-08-14 | 2014-02-19 | 韩凯 | 通过电视伴音自动识别电视节目的技术 |
CN103971690A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
US9922272B2 (en) * | 2014-09-25 | 2018-03-20 | Siemens Healthcare Gmbh | Deep similarity learning for multimodal medical images |
US20160098633A1 (en) * | 2014-10-02 | 2016-04-07 | Nec Laboratories America, Inc. | Deep learning model for structured outputs with high-order interaction |
CN104679863B (zh) * | 2015-02-28 | 2018-05-04 | 武汉烽火众智数字技术有限责任公司 | 一种基于深度学习的以图搜图方法和系统 |
CN104992713B (zh) * | 2015-05-14 | 2018-11-13 | 电子科技大学 | 一种快速广播音频比对方法 |
CN105139864B (zh) * | 2015-08-17 | 2019-05-07 | 北京眼神智能科技有限公司 | 语音识别方法和装置 |
-
2016
- 2016-08-29 CN CN201610745524.2A patent/CN106372653B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106372653A (zh) | 2017-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106372653B (zh) | 一种基于堆栈式自动编码器的广告识别方法 | |
US11386916B2 (en) | Segmentation-based feature extraction for acoustic scene classification | |
CN108615532B (zh) | 一种应用于声场景的分类方法及装置 | |
CN103700370A (zh) | 一种广播电视语音识别系统方法及系统 | |
CN111785275A (zh) | 语音识别方法及装置 | |
JP2005530214A (ja) | メガ話者識別(id)システム及びその目的に相当する方法 | |
CN108876951A (zh) | 一种基于声音识别的教学考勤方法 | |
CN108735200A (zh) | 一种说话人自动标注方法 | |
CN111341319A (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
CN115798459B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN112466287A (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
CN111147871A (zh) | 直播间歌唱识别方法、装置及服务器、存储介质 | |
CN115565533A (zh) | 语音识别方法、装置、设备及存储介质 | |
Aronowitz et al. | Context and uncertainty modeling for online speaker change detection | |
US20150051912A1 (en) | Method for Segmenting Videos and Audios into Clips Using Speaker Recognition | |
CN111028859A (zh) | 一种基于音频特征融合的杂交神经网络车型识别方法 | |
CN108831486B (zh) | 基于dnn与gmm模型的说话人识别方法 | |
CN117219110A (zh) | 一种适用于录音工牌的话者分离方法 | |
CN113611286A (zh) | 一种基于共性特征提取的跨语种语音情感识别方法和系统 | |
CN113327619A (zh) | 一种基于云—边缘协同架构的会议记录方法及系统 | |
Espi et al. | Spectrogram patch based acoustic event detection and classification in speech overlapping conditions | |
CN116129909A (zh) | 一种基于聚类的声纹数据自动采集方法 | |
CN110517694A (zh) | 一种教学场景说话人转换检测系统 | |
CN110659613A (zh) | 一种基于活体属性识别技术的广告投放方法 | |
Abu et al. | Voice-based malay commands recognition by using audio fingerprint method for smart house applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |