CN105554590B

CN105554590B - 一种基于音频指纹的直播流媒体识别系统

Info

Publication number: CN105554590B
Application number: CN201510902809.8A
Authority: CN
Inventors: 李宏元; 郭伟伟; 孙彦龙
Original assignee: Hangzhou Arcvideo Technology Co ltd
Current assignee: Hangzhou Dang Hong Polytron Technologies Inc
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2018-12-04
Anticipated expiration: 2035-12-10
Also published as: CN105554590A

Abstract

本发明公开了一种基于音频指纹的直播流媒体识别系统，包括服务器端和用户端，服务器端包括音频指纹采集模块、指纹管理模块和指纹比对模块，用户端包括现场指纹采集模块，这种基于音频指纹的直播流媒体识别系统，结构简单，服务器端与用户端运算量小，识别率高，节目信号不必预先加工处理，抗干扰能力强，因此可以在广播电视播出，网络直播等场景下，实时识别终端的播放信号，可以作为内容提供者与观众的桥梁，也为观众喜爱节目的统计提供了有效手段。

Description

一种基于音频指纹的直播流媒体识别系统

技术领域

本发明涉及数字音频信号处理技术，特别涉及一种基于音频指纹的直播流媒体识别系统。

背景技术

在电视台或电台等直播运营机构，在调查各个电台或电视台的收视率/收听率，或者节目进行的时刻，与收视用户实施多方异地互动，都需识别用户正在收视的电台或电视台，此即频道识别。

多个频道的识别就是各个直播流媒体的识别。用户可用手机或其他终端设备将相关信息通过网络发送到运营商的服务器，服务器端再对信号进行处理并作出响应。

现有的实现方法中有将各个节目的流媒体信号进行预处理，加上各自独立的logo标志，比如在视频中添加的水印，在音频中加入的超声波等。检测用户传回的信号中的logo标志等，就能识别所收视的直播媒体流所在的频道。这些方法需要对节目流媒体信号进行预先加工，抗干扰能力有限。

发明内容

基于此，有必要提供一种不需要对节目信号进行预先加工处理，可在广播电视、网络直播等场景下实时识别终端播放信号，抗干扰能力强的基于音频指纹的直播流媒体识别系统。

根据本发明的一方面，提供了一种基于音频指纹的直播流媒体识别系统，包括服务器端和用户端，服务器端包括音频指纹采集模块、指纹管理模块和指纹比对模块，用户端包括现场指纹采集模块。

在其中一个实施例中，音频指纹采集模块用于直播流媒体的音频信号指纹。

在其中一个实施例中，指纹管理模块用于保存音频信号指纹。

在其中一个实施例中，现场指纹采集模块用于频道播放及接收的现场音频的指纹。

这种基于音频指纹的直播流媒体识别系统，结构简单，服务器端与用户端运算量小，识别率高，节目信号不必预先加工处理，抗干扰能力强，因此可以在广播电视播出，网络直播等场景下，实时识别终端的播放信号，可以作为内容提供者与观众的桥梁，也为观众喜爱节目的统计提供了有效手段。

附图说明

图1为本发明一实施方式的一种音频指纹直播流媒体识别的结构示意图。

具体实施方式

为了便于理解本发明，下面将用具体实施例对本发明进行更全面的描述。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这实施例的目的是使对本发明的公开内容的理解更加透彻全面。

如图1所示，为本发明一实施例的一种基于音频指纹的直播流媒体识别系统，包括服务器端10和用户端30，服务器端10包括音频指纹采集模块110、指纹管理模块130和指纹比对模块150，用户端30包括现场指纹采集模块310。

服务器端10用于采集各个频道直播节目流媒体之音频指纹，实时更新频道指纹库。服务器端10用于响应用户的请求，对比指纹库与用户传回的指纹数据，进行指纹的相似度比对以识别用户正在收视的直播流。具体地，音频指纹采集模块110用于直播流媒体的音频信号指纹。指纹管理模块130用于保存音频信号指纹。现场指纹采集模块310用于频道播放及接收的现场音频的指纹。

图1中对于多频道电视直播而言，各直播流对应于各电视频道。此外，网络直播，及其他直播流媒体应用的场景，如多会场节目整合与观众互动等，直播流的识别都可采用上述机制。

服务器端10在传送音视频信号的同时，采集各个直播流媒体(比如各个电视台实时播放的节目信号)的音频信号指纹，建立动态指纹库。每个流的指纹库实时更新，其容量只需5秒至10秒的音频指纹，4k大小就已足够。用户端30采集收视现场500毫秒至1秒的音频指纹，通过网络传送到服务器，服务器端10将用户传来的指纹与动态指纹库中的指纹进行比对，即可识别用户收视的流媒体频道。

这种基于音频指纹的直播流媒体识别系统，结构简单，服务器端10与用户端30运算量小，识别率高，节目信号不必预先加工处理，抗干扰能力强，因此可以在广播电视播出，网络直播等场景下，实时识别终端的播放信号，可以作为内容提供者与观众的桥梁，也为观众喜爱节目的统计提供了有效手段。

具体地，本实施例的系统中用户端30的运算量：采集1秒左右的音频数据，将指纹传送至服务器。音频时间长度与指纹长度成正比关系，在本实施例的系统中，1秒的音频可大约生成近100个指纹，400个字节。

具体地，本实施例的系统中服务器端10的运算量：实施更新指纹库的指纹队列，采用与用户端30同样的指纹生成算法。另外，服务器端10还需将从用户端30传来的指纹与指纹队列中的指纹进行匹配。本实施例的系统中，每个指纹4个字节(32位bit)对应10毫秒的音频。

假设服务器拥有媒体流的个数为N，每个指纹库队列的长度为L(个指纹)。从用户端30传来的待测音频指纹串长度为d(个指纹)，这里要求d＜L/2。

完整的搜索过程如下：从每个队列开始，从头至尾，匹配长度为d的指纹串，共需(L-d)次匹配，如果在某一队列未能匹配成功，则从下一个队列开始继续搜索，直至匹配成功或搜索完所有队列。

每次匹配都是累加d个指纹对的汉明距离，即d次4Byte整数异或运算与(d-1)次整数加法运算。为计算方便，将-1略去，这不影响大致的运算量计算结果。距离累加和越小，则两者的相似度越大；超过设定的阀值，即为匹配成功。

每次匹配最多需要进行大约N*(L-d)*d次的异或与加法运算，加上N*(L-d)次整数比较；平均值则取其一半。

考虑到音频数据的短时稳定性，没有必要从队列头到队列尾依次搜索所有的指纹串，可以先按指纹帧宽一半的距离(本系统中是5个指纹)跳跃式地先进行粗匹配，若粗匹配结果在一可接受的阀值以内(预示这一段指纹内极有可能有匹配成功)，再进行上述精细匹配。这样，实际上的最大运算量是约N*((L-d)/5+10)*d次的异或与加法运算，加上N*((L-d)/5+10)次比较；平均则是N*((L-d)/5+10)*d/2次异或加法，及N*((L-d)/5+10)比较。

以18个流、队列长度为10秒、待测1秒音频指纹串为例，则每次匹配搜索的最大计算量约为18*((1000-100)/5+10)*100＝342000次异或与加法，与3420次比较。以目前的电脑性能来看，上述运算量是非常小的。

本实施例的音频指纹采集模块110和现场指纹采集模块310的指纹生成算法是基于已有的音频指纹生成算法。其原理是将音频信号进行傅立叶变换，再将其各频段能量进行比较后编码，即生成了指纹。在实施此算法的过程中，本实施例的算法在降采样之前增加了前端降噪处理，以滤除高频成分，避免采样增加音乐噪音。

此外，对于同样的音频数据，分帧时间点的偏移会造成指纹某些bit的改变。而待测音频的分帧位置不可能与生成指纹库参考指纹的分帧位置完全重合。故偶尔也有指纹搜索失败的情况。改进的方法可以是可以使用两套指纹库，其一是从原始音频信号中提取的指纹，其二是将原始音频信号偏移4毫秒，从此偏移信号提取的指纹。这样两套指纹库可以增加指纹搜索成功的命中率。

以上所述实施例仅表达了本发明的个别实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于音频指纹的直播流媒体识别系统，其特征在于，包括服务器端和用户端，

所述服务器端包括

用于直播流媒体的音频信号指纹采集的音频指纹采集模块，所述音频信号指纹为5～10秒、4KB大小音频指纹，

用于保存所述音频信号指纹的指纹管理模块，以及

用于指纹相似度比对识别直播流的指纹比对模块，

所述用户端包括

用于频道播放及接收现场音频指纹的现场指纹采集模块，所述现场音频指纹为500毫秒～1秒的音频指纹，所述现场音频指纹的指纹数d要求小于所述音频信号指纹的指纹数L的一半，

所述指纹比对模块先按指纹帧宽一半的距离进行跳跃式粗匹配，若粗匹配结果在预设阈值以内，再进行精细匹配，所述精细匹配为从每个队列从头开始，匹配长度为所述现场音频指纹的指纹数的指纹串，直至匹配成功或搜索完所有队列。