CN103594083A

CN103594083A - 通过电视伴音自动识别电视节目的技术

Info

Publication number: CN103594083A
Application number: CN201210287491.3A
Authority: CN
Inventors: 韩凯; 党海飞; 易鹏
Original assignee: Individual
Current assignee: Individual
Priority date: 2012-08-14
Filing date: 2012-08-14
Publication date: 2014-02-19

Abstract

本发明提出了通过电视伴音自动识别电视节目的技术，属于电子信息技术领域。本发明的目的是提供一种技术可以让计算机、智能手机通过电视伴音自动识别当前播出的是什么电视节目，包括广告节目。本发明能够将某一电视频道的模拟伴音进行数字化，然后提取出其音频信号的特征向量，将目标音频的特征向量与所有电视频道的特征向量进行并行比对，根据相似度判断出当前是哪个电视频道。然后通过该频道的电子节目单进行查找，判断出当前是什么节目。也可以在离线的节目库中进行查找，针对单一节目进行特征向量比对。能够广泛应用于收视率调查、广告监播、社交电视、关键字过滤，影视片断查找，将原来需要大量人力的工作用计算机和智能终端替代。

Description

通过电视伴音自动识别电视节目的技术

技术领域

本发明涉及电子信息技术领域，尤其是涉及计算机与网络技术、数字化视听技术。

背景技术

数字音频信号处理，数字音频信号处理有别于数字语音信号处理，前者除了对语音信号处理外，还包括对语音信号之外的一切音频信号的采集，压缩，特征提取，传输，对比等。

音频的采集：音频信号是模拟信号，是通过麦克风捕获到的变成为一定电平的信号。它是时间的连续函数。信号振幅就是音量，频率就是音调。一般来说人耳可感受的正弦波的范围是从20Hz的低频声音到20000Hz的高频声。把这样的模拟信号转变成计算机以及网络能够接受的数字信号的第1步是对模拟信号进行采样，使其成为时间的离散函数(此为固定周期)。为了以后恢复模拟信号的原貌，采样频率应该不低于模拟信号最高频率的两倍(Harry Nyquist定理)。第2步就是对采样来的离散信号进行编码即所谓的脉冲编码调制(pulsecode modulation，PCM)，也就是用二进制码来表示每个离散信号的幅度。硬件实现上主要是由采样保持器和模数转换器来完成的，即构成一个音频输入设备。音频的压缩：采集来的音频数据有着相当巨大的数据量，如果不经过压缩，保存它们需要大量的存贮空间，传输起来也比较困难，很自然，人们想到了压缩。可以说，这一环节在数字音频技术中占有特别重要的地位。目前常用的压缩方法有很多种，不同的方法具有不同的压缩比和还原音质。编码的格式和算法也各不相同，其中某些压缩算法相当复杂，普通程序不可能去实现其编解码算法。值得庆幸的是，Windows为数字音频技术提供了这方面的支持，引入了音频压缩管理器(audiocompressionmanager，ACM)，它是负责管理系统中所有数字音频的编解码器(coderdecoder，CODEC)。我们可以通过ACM提供的编程接口调用这些系统中现成的编解码器来实现音频数据的压缩和解压缩。

音频特征向量提取：特征向量提取包括时域特征向量与频域特征向量，时域特征向量主要包括短时能量和过零率，短时能量和过零率主要用来检测语音信号的端点，由于语音信号是一个非平稳态过程，不能用处理平稳信号的处理技术对其进行分析处理。但由于语音信号本身的特点，在10-30ms的短时间范围内，其特性可以看做是一个准稳态过程，即具有短时性。因此采用短时能量和过零率来对语音进行端点检测是可行的。音频的频域特征，主要包括通过线性预测倒谱系数(LPC)和梅尔倒谱系数(MEL)来进行提取，Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)的缩写。Mel频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。

发明内容

本发明的一个目的是提供一种技术可以让计算机、智能手机通过电视伴音自动识别当前播出的是什么电视节目，包括广告节目。

为了实现该目的，本发明提供了通过电视伴音自动识别电视节目的技术，其将某一电视频道的模拟伴音进行数字化，然后提取出其音频信号的特征向量，将目标音频的特征向量与所有电视频道的特征向量进行并行比对，根据相似度判断出当前是哪个电视频道。然后通过该频道的电子节目单进行查找，判断出当前是什么节目。也可以在离线的节目库中进行查找，针对单一节目进行特征向量比对。

优选的，所述技术包括：电视伴音采集模块，电视伴音特征向量提取模块，电视伴音特征向量传输模块，对比匹配模块，节目单采集分析模块，并行处理平台；

所述电视伴音采集模块，能够通过电脑声卡或智能手机麦克风，将电视机、机顶盒、网络视频计算机/播放器输出的模拟音频信号进行数字化转换，将其转为WAV、MIDI或MP3等数字音频文件/传输流；

所述电视伴音特征向量提取模块，能够将所述电视伴音采集模块输出的WAV、MIDI或MP3等数字音频文件/传输流中的特征向量进行提取，类似于音频指纹提取，特征向量的数据量仅为原数字音频文件/传输流数据量的1/50至1/100，大大降低了所述电视伴音特征向量传输模块和对比匹配模块的数据量。以WAV文件为例，音频特征向量提取的具体过程如下：第一步，分帧，将WAV文件中的PCM每25毫秒为一帧，帧间重叠10毫秒。第二步，对分帧后的PCM数据进行快速傅里叶变换，得到频域信息，在实现过程中采用查表法可以讲快速傅里叶变换的运算效率提高10倍。第三步，在300Hz-3700Hz的区间等分为32个频带，计算每个频带的能量值。第四步，二阶差分处理，对于能量值矩阵进行二阶差分，得到二阶差分能量矩阵。第五步，零一化，将二阶差分能量矩阵进行零一化，将大于零的值统一归为一，将小于等于零的值统一归为零。得到的零一矩阵为电视伴音的特征向量矩阵。

所述特征向量传输模块为基于WebService文件传输服务/客户端，能支持音频特征向量文件的全双工实时传输，兼容局域网、互联网、移动互联网、GPRS数据网，可以运行在计算机，智能手机以及嵌入式终端上，具有很高的通用性。

所述对比匹配模块，将两组音频特征向量进行比对，算出其相似度。由于音频输出设备以及环境噪音的差异，即使相同频道的音频特征向量也存在一定的差异，而且目标频道和源频道存在一定的延时。目标频道录取5-8秒的音频信号，然后进行特征向量提取，通过传输模块传输至对比匹配模块，源频道进行实时特征向量提取，将特征向量的实时流传输至对比匹配模块。将目标特征向量在源特征向量流中进行移位对比匹配计算相似度，选取最大的相似度作为该组匹配的相似度。具体的相似度算法为矩阵相似度算法，即两矩阵之间的欧式距离。在将目标特征向量和多个频道的特征向量流对比后，将相似度最高的结果返回，即为识别出的频道。经过实际测试，在环境噪音不大的情况下，匹配对比的准确率高达98％以上，匹配时间为10秒钟以内。

所述节目单处理模块，从互联网上自动抓取源频道的节目单，根据目标频道特征向量的时间戳和对比返回的频道号，自动查找识别出具体的电视节目。从互联网上抓取节目单是采用爬虫程序，对CNTV以及各省卫视频道网站的特定页面进行定期抓取，比对，整理，然后将其录入到节目单处理模块的专用数据库中。

所述并行处理平台，采用Hadoop平台的底层架构，能够实现1000路以上的电视节目同时采集，1万个以上并发的目标频道的并行对比，返回结果在12秒以内，并且该平台能够自动荣誉备份和平滑扩展。随着硬件的堆叠，运算能力能够线性增长，不需要进行做任何软件的适配开发。

本发明提出了通过电视伴音自动识别电视节目的技术，能够通过电视的音频输出自动定位电视节目，可以广泛的应用于收视率调查、广告监播、社交电视、关键字过滤，影视片断查找，将原来需要大量人力的工作用计算机，智能手机，嵌入式终端进行替代。该技术的出现对于移动互联网社交电视、收视数据统计分析、广告监播都具有非常大的帮助和深远的意义。

附图说明

通过下面结合附图对本发明的一个优选实施例进行的描述，本发明的技术方案及其技术效果将变得更加清楚，且更加易于理解。其中：

图1示出了根据本发明的对某个频道的电视伴音进行自动识别其电视节目的过程示意图；

具体实施方式

以下将结合所附的附图对本发明的一个优选实施例进行描述。

实施例1

本发明第一实施的对某个频道的电视伴音进行自动识别其电视节目，其过程如图1所示的，包括：所述电视伴音采集模块1，所述电视伴音特征向量提取模块2，电视伴音特征传输模块3，所述对比匹配模块4；所述节目单处理模块5。

当对某一频道的电视伴音进行自动识别时，第一步，由所述电视伴音采集模块1对其模拟音频进行数字化转换，将其转为WAV文件，取5-8秒作为目标文件。第二步由所述电视伴音特征向量提取模块2对目标文件进行特征向量提取，生成目标特征向量矩阵。第三步，将目标特征向量矩阵由所述电视伴音特征传输模块3进行传输至所述对比匹配模块4。第四步，由所述对比匹配模块4将目标特征向量矩阵与实时采集的源频道特征向量矩阵流进行移位比对，算出最大值作为目标频道与该频道的相似度。第五步，汇总所有相似度，取最大的频道号作为返回值。第六步，将频道号返回值利用所述节目单处理模块5查找相应时间段的电视节目，将电视节目信息返回。

对于所属技术领域的技术人员而言，随着技术的发展，本发明构思可以不同方式实现。本发明的实施方式并不仅限于以上描述的实施例，而且可在权利要求的范围内进行变化。

Claims

1.通过电视伴音自动识别电视节目的技术，其特征在于，包括：所述电视伴音采集模块，所述电视伴音特征向量提取模块，所述电视伴音特征向量传输模块，所述对比匹配模块，所述节目单采集分析模块，所述并行处理平台。

2.根据权利要求1所述的电视伴音采集模块，其特征在于，能够通过电脑声卡或智能手机麦克风，将电视机、机顶盒、网络视频计算机/播放器输出的模拟音频信号进行数字化转换，将其转为WAV、MIDI或MP3等数字音频文件/传输流。

3.根据权利要求1所述的所述电视伴音特征向量提取模块，其特征在于，能够将所述电视伴音采集模块输出的WAV、MIDI或MP3等数字音频文件/传输流中的特征向量进行提取，类似于音频指纹提取，特征向量的数据量仅为原数字音频文件/传输流数据量的1/50至1/100，大大降低了所述电视伴音特征向量传输模块和对比匹配模块的数据量。以WAV文件为例，音频特征向量提取的具体过程如下：第一步，分帧，将WAV文件中的PCM每25毫秒为一帧，帧间重叠10毫秒。第二步，对分帧后的PCM数据进行快速傅里叶变换，得到频域信息，在实现过程中采用查表法可以讲快速傅里叶变换的运算效率提高10倍。第三步，在300Hz-3700Hz的区间等分为32个频带，计算每个频带的能量值。第四步，二阶差分处理，对于能量值矩阵进行二阶差分，得到二阶差分能量矩阵。第五步，零一化，将二阶差分能量矩阵进行零一化，将大于零的值统一归为一，将小于等于零的值统一归为零。得到的零一矩阵为电视伴音的特征向量矩阵。

4.根据权利要求1所述的特征向量传输模块，其特征在于，为基于WebService文件传输服务/客户端，能支持音频特征向量文件的全双工实时传输，兼容局域网、互联网、移动互联网、GPRS数据网，可以运行在计算机，智能手机以及嵌入式终端上，具有很高的通用性。

5.根据权利要求1所述对比匹配模块，其特征在于，将两组音频特征向量进行比对，算出其相似度。由于音频输出设备以及环境噪音的差异，即使相同频道的音频特征向量也存在一定的差异，而且目标频道和源频道存在一定的延时。目标频道录取5-8秒的音频信号，然后进行特征向量提取，通过传输模块传输至对比匹配模块，源频道进行实时特征向量提取，将特征向量的实时流传输至对比匹配模块。将目标特征向量在源特征向量流中进行移位对比匹配计算相似度，选取最大的相似度作为该组匹配的相似度。具体的相似度算法为矩阵相似度算法，即两矩阵之间的欧式距离。在将目标特征向量和多个频道的特征向量流对比后，将相似度最高的结果返回，即为识别出的频道。经过实际测试，在环境噪音不大的情况下，匹配对比的准确率高达98％以上，匹配时间为10秒钟以内。

6.根据权利要求1所述节目单处理模块，其特征在于，从互联网上自动抓取源频道的节目单，根据目标频道特征向量的时间戳和对比返回的频道号，自动查找识别出具体的电视节目。从互联网上抓取节目单是采用爬虫程序，对CNTV以及各省卫视频道网站的特定页面进行定期抓取，比对，整理，然后将其录入到节目单处理模块的专用数据库中。

7.根据权利要求1所述并行处理平台，其特征在于，采用Hadoop平台的底层架构，能够实现1000路以上的电视节目同时采集，1万个以上并发的目标频道的并行对比，返回结果在12秒以内，并且该平台能够自动荣誉备份和平滑扩展。随着硬件的堆叠，运算能力能够线性增长，不需要进行做任何软件的适配开发。