CN106372653A

CN106372653A - 一种基于堆栈式自动编码器的广告识别方法

Info

Publication number: CN106372653A
Application number: CN201610745524.2A
Authority: CN
Inventors: 赵艳明; 蓝善祯; 李绍彬; 雷腾铭; 周俊宇
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2016-08-29
Filing date: 2016-08-29
Publication date: 2017-02-01
Anticipated expiration: 2036-08-29
Also published as: CN106372653B

Abstract

本发明公开了一种基于堆栈式自动编码器的广告识别的方法，属于通信领域。该方法的特点在于首先采用无标签的语音、音频和有标签的广告音频，训练基于堆栈式自动编码器和softmax分类器的深度神经网络；去掉softmax分类器；利用训练好的堆栈式自动编码器，提取广告的特征参数，并建立广告音频特征参数数据库；利用训练好的堆栈式自动编码器提取待检测音频的特征参数，用该特征参数去匹配广告音频特征参数数据库，根据欧氏距离确定待检测音频是哪一条广告。本发明利用堆栈式自动编码器提取广告音频的特征参数，广告识别准确率高；本发明在对堆栈式自动编码器进行有监督学习时，加入了含有噪声的广告音频数据，有较好的抗噪声性能。

Description

一种基于堆栈式自动编码器的广告识别方法

技术领域

本发明涉及音频检索的一种方法，属于通信领域。

背景技术

广播电视或网络视频中广告的自动监测和识别，有重要的实用价值。比如，广告客户通过跟踪电视台或网站播放的视频，确认电视台或网站是否定时定量的履行了广告播放合同；通过获取用户观看的广告，手机应用可以为用户推送相关的产品链接等。

提取广告节目中的音频信息，并采用基于音频检索的广告识别方法，是一种有效的广告识别方法。基于音频检索的广告识别，包括音频信号的特征提取和特征匹配。常用的特征包括过零率、短时能量、线性预测系数(LPC)、线性预测倒谱系数(LPCC)和梅尔频率倒谱系数（MFCC）等。上述特征常用于语音信号处理，其中MFCC特征参数基于人耳的听觉特性，在语音识别应用中具有较好的性能。但是，音乐类音频信号和语音信号有很大的不同。广告节目中通常包含语音和背景音乐；另外，有些应用场合获取的广告音频包含噪声，直接采用上述特征参数影响广告识别的准确率。

近年来，深度神经网络在语音识别、图像识别等诸多机器学习领域取得了巨大的成功。由于每一个隐藏层是前一级输入的非线性变换，深度神经网络能够表示复杂的非线性变换，具有较强的深层信息提取能力。

自动编码器能够利用大量无标签数据学习得到好的特征表示，多级自动编码器叠加构成堆栈式自动编码器。把堆栈式自动编码器的输出作为softmax分类器的输入，然后采用有标签数据对整个网络进行微调，可以得到更好的特征表示。

发明内容

为了实现基于音频的广告识别，本发明提出了一种基于堆栈式自动编码器的广告识别方法。

为实现上述发明目的，本发明采用下述的技术方法：

1. 无标签的语音或音频信号预处理方法

对语音或音频信号进行分段，每一段信号包含10帧，50%重叠。去掉其中的静音段，对非静音段提取出每一段信号的MFCC特征参数。

2.广告音频信号预处理方法

获取广告音频的原始信号、压缩解压缩后的信号，以及加入噪声后的信号。然后对上述音频信号进行分段、加标签，每一段音频信号包含10帧，50%重叠；提取出每一段广告音频的MFCC特征参数。

3. 堆栈式自动编码器预训练方法

采用无标签的语音或音频信号的MFCC特征参数作为堆栈式自动编码器的输入，逐层进行训练。每一次只训练一层。采用无监督学习；训练当前层时，固定前面已经被训练过的层的权值。

4. 堆栈式自动编码器微调方法(fine-tuning)

在方法3中训练得到的堆栈式自动编码器最后一级，加上softmax分类器；输入有标签的广告音频的MFCC特征参数，采用有监督学习方式，对整个网络进行微调，得到整个网络的权值；去掉softmax分类器，得到训练好的堆栈式自动编码器。

5. 广告音频特征参数数据库建立方法

构造广告库。对广告库中的每一条广告音频进行分段；提取出每一段广告音频的MFCC特征参数；MFCC特征参数作为方法4中训练好的堆栈式自动编码器的输入，堆栈式自动编码器最后一级的输出保存为广告音频特征参数。对广告库中的所有广告进行上述操作，得到广告音频特征参数数据库。

6. 广告识别方法

对待检测音频进行分段，并提取出每一段的MFCC特征参数；把待检测音频的MFCC特征参数输入到方法4中训练好的堆栈式自动编码器，堆栈式自动编码器最后一级的输出保存为待检测音频的特征参数。计算待检测音频的特征参数与广告音频特征参数数据库中所有广告的特征参数的欧氏距离。根据欧氏距离的最小值确定待检测音频是否是广告库中的广告，以及具体是广告库中的哪一条广告。

本发明实施例提供的技术方案的有益效果是：

1.本方法采用基于堆栈式自动编码器的深度神经网络提取广告音频的特征参数，广告识别准确率高。

2.本方法在训练堆栈式自动编码器时，采用了含有噪声的广告音频数据，有较好的抗噪性能。

附图说明

下面结合附图和具体实施方式对本发明作进一步的说明。

附图1为采用基于堆栈式自动编码器的广告识别方法对待检测音频进行广告识别的示意图。

附图2为基于堆栈式自动编码器的广告识别方法的框架图。

附图3为堆栈式自动编码器加softmax分类器结构图。

附图4为基于堆栈式自动编码器的音频特征参数提取框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明方式作进一步的详细描述。

附图3为堆栈式自动编码器加softmax分类器结构图，附图4为基于堆栈式自动编码器的音频特征参数提取框图。本发明具体流程如下描述。

步骤1.获取5000段语音或音频信号，用来在步骤3中进行堆栈式自动编码器的预训练。对语音或音频信号进一步分割成段，每一段信号包含10帧，50%重叠。去掉其中的静音段，对非静音段提取出每一段信号的MFCC特征参数。

步骤2.选取100条广告用来在步骤4中进行堆栈式自动编码器的微调。每一条广告包括原始音频信号、不同电视台不同时段播出的该广告的音频、视频网站播出的该广告的音频、以及电视机播出时用录音设备录下的该广告的音频等。然后对上述音频信号进行分段、加标签。每一段音频信号包含10帧，50%重叠。标签采用数字1到100，顺序编号；同一条广告的不同版本加同样的标签。最后提取出每一段广告音频的MFCC特征参数，并保存其标签。

步骤3.采用步骤1中得到的MFCC特征参数作为堆栈式自动编码器的输入，对堆栈式自动编码器进行预训练。每一次只训练一层，逐层进行。

步骤4.在步骤3训练得到的堆栈式自动编码器最后一级加上softmax分类器，采用步骤2中得到的MFCC特征参数和标签，对该网络进行微调。训练完成后，去掉softmax分类器，得到训练好的堆栈式自动编码器

步骤5.根据实际应用需要选取广告，构建广告库。对广告库中的每一条广告音频进行分段；提取MFCC特征参数；送入步骤4中训练好的堆栈式自动编码器，计算得到该广告音频的特征参数，建立广告音频特征参数数据库。

步骤6.对待检测音频进行分段，提取MFCC特征参数，送入步骤4中训练好的堆栈式自动编码器，计算得到待检测音频的特征参数。

步骤7.计算待检测音频特征参数和广告音频特征参数数据库中所有广告的特征参数的欧氏距离，并求出最小值。当欧氏距离的最小值小于阈值时，判断该音频是对应的广告；否则，判断待检测音频不是广告库中的广告。

上面对本发明所述的一种基于堆栈式自动编码器的广告识别方法进行了详细的说明，但本发明的具体实现形式并不局限于此。以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于堆栈式自动编码器的广告识别方法，其特征在于：首先采用无标签的语音、音频和有标签的广告音频，训练得到基于堆栈式自动编码器和softmax分类器的深度神经网络；然后去掉softmax分类器，利用训练好的堆栈式自动编码器，提取广告库中每一条广告的特征参数，建立广告音频特征参数数据库；把待检测音频输入到训练好的堆栈式自动编码器，得到特征参数，用待检测音频的特征参数去匹配广告音频特征参数数据库，根据欧氏距离的最小值确定待检测音频是否是广告库中的广告，如果是则该音频是哪一条广告。

2.如权利要求1所述的利用堆栈式自动编码器提取音频的特征参数的方法，其特征在于：首先利用无标签的语音、音频和有标签的广告音频训练堆栈式自动编码器，然后利用训练好的堆栈式自动编码器，提取音频信号的特征参数。