CN102132341B

CN102132341B - 鲁棒的媒体指纹

Info

Publication number: CN102132341B
Application number: CN200980133072.0A
Authority: CN
Inventors: C·鲍尔; R·拉达克里希南
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2008-08-26
Filing date: 2009-08-26
Publication date: 2014-11-26
Anticipated expiration: 2029-08-26
Also published as: WO2010027847A1; CN102132341A; US20110153050A1; EP2324475A1; US8700194B2

Abstract

从音频内容的一部分推导鲁棒的媒体指纹。对音频信号中的内容的一部分进行归类。至少部分地基于音频内容的特征中的一个或多个表征该音频内容。所述特征可包括可与音频信号混合在一起的与几种声音类别之一相关的分量，比如语音和/或噪声。一旦将音频内容归类为没有语音相关分量或噪声相关分量，则对音频信号分量进行处理。当将音频内容归类为包括语音相关分量和/或噪声相关分量时，从音频信号分离语音相关分量或噪声相关分量。独立于语音相关分量和/或噪声相关分量对音频信号进行处理。处理音频信号包括计算与音频信号可靠地对应的音频指纹。

Description

鲁棒的媒体指纹

相关美国申请

本申请要求于2008年8月26日提交的美国专利临时申请No.61/091,979的优先权。另外，本申请与于2007年10月5日提交的共同未决的美国专利临时申请No.60/997,943相关。特此通过引用并入这两篇申请的全文。

技术领域

本发明整体涉及媒体。更具体地讲，本发明的实施例涉及音频(声学)指纹。

背景技术

音频媒体包括本质上普遍存在的现代活动特征。多媒体内容(例如最现代的电影)包括多于一种类型的媒体，例如包括其视频内容和音频声道(soundtrack)二者。几乎每一类型的现代企业和许多行业的个人以多种独特且相关的方式使用音频媒体内容。娱乐、商务和广告、教育、教学和培训、计算和联网、广播、企业和电信仅仅是在其中音频媒体内容找到普遍使用的几个现代行为的例子。

音频媒体包括记录在各个光盘(CD)上或者以其它存储格式记录的、通过网络在服务器和客户端计算机之间作为数字文件流传输的、或者通过模拟和数字电磁信号传输的音乐、语音和声音。发现用户在移动、上下班往返途中等时用iPods^TM、MP3播放器和CD听音乐已变得与在家中用娱乐系统、或者其它更固定的音频再现装置或较不固定的音频再现装置听音乐一样熟悉。流行乐队的演唱会在互联网上被流传输，并被用户作为音频欣赏和/或还在演出网播中被观看。极其便携的重量轻的、规格小的、成本低的数字音频文件播放器已广泛普及。现在本质上普遍存在的蜂窝电话、以及个人数字助理(PDA)和手持计算机都具有通用的功能。不仅电信装置，而且现代蜂窝电话也接入互联网，并从互联网流传输音频内容。

互联网的广泛且日益增长的使用的结果是，非常大量的音频媒体内容存在。考虑到存在大量的各种音频媒体内容并且该内容随着时间扩大增长，识别内容的能力是有价值的。媒体指纹包括识别媒体内容的技术。媒体指纹是从其提取或生成它们的媒体内容的唯一标识符。从比如在法医学上通过人类指纹唯一地识别人类的意义上来讲，术语“指纹”适用于表示这些媒体内容标识符的唯一性。尽管与签名类似，但是媒体指纹可能甚至更密切地并且更可识别地对应于内容。音频媒体和视频媒体均可使用与每种媒体对应的媒体指纹来识别。

可通过音频指纹识别音频媒体，这里音频指纹比如可互换地称为声学指纹。从特定音频波形生成作为与该波形唯一地对应的代码的音频指纹。本质上，音频指纹从音频或声学波形推导得到。例如，音频指纹可包括音频信号的采样分量。因此，这里所用的音频指纹可表示原始音频内容文件的相对低比特率表示。因此，相对于存储从其推导音频指纹的整个音频文件或者该音频文件的部分的成本，存储和访问音频指纹不管怎样都可以是有效率的或者经济的。

一旦生成和存储音频指纹，以后从其生成指纹的对应波形就可通过参照其指纹被识别。可将音频指纹存储在例如数据库中。存储的音频指纹可以比如通过查询存储它们的数据库来访问，以对与存储的音频指纹进行比较的音频采样进行识别、归类或换句话讲分类。因此，声学指纹可用于识别用户正播放的音乐或者其它记录的、流传输的或以其它方式传输的音频媒体，管理声音库，监控广播、网络行为和广告，以及从与视频内容(例如电影)相关联的音频内容(例如声道)识别该视频内容。

声学指纹的可靠性可以与该声学指纹与特定的音频波形可识别地(比如，唯一地)对应的特定性相关。一些音频指纹如此精确地提供识别，以至于可依靠它们来识别相同音乐的不同演奏。而且，由于音频内容被人类心理声学系统感知，所以一些声学指纹基于音频内容。因此，这样的鲁棒的音频指纹使得可在通过基于感知的音频编解码器、甚至涉及有损压缩的编解码器(它因此可能趋向于降低音频内容质量)对音频内容进行压缩、解压缩、码转换和其它改变之后识别该内容。

音频指纹可从被感知编码的音频剪辑、序列、分段、部分等推导得到。因此，即使在通过基于感知的音频编解码器、甚至涉及有损压缩的编解码器(它因此可能趋向于降低音频内容质量，该音频内容质量的降低实际上可能对于检测是感觉不到的)对内容进行压缩、解压缩、码转换和其它改变之后，也可通过将音频序列与其指纹进行比较来精确地识别该音频序列。而且，对于与音频指纹对应的内容的信号质量降低、以及各种攻击或者诸如离速(off-speed)播放的情形，音频指纹可以鲁棒地工作。

音频媒体内容可以在概念上、商业上或者其它方面以某种方式与分开的且截然不同的(distinct)内容实例相关。与音频内容相关的内容可包括，但不限于，其它音频、视频或多媒体内容。例如，某首歌曲可以以某种概念方式与特定电影相关。其它示例可以是在某种商业背景下与给定语音、演讲或音乐片段相关的文本文件或计算机图形。

本章节中所述的方法是可继续进行(pursue)的方法，但是不必然是以前已设想或进行过的方法。因此，除非另外指明，不应该仅由于本章节中所述的任何方法被包括在本章节中，就假设这些方法是现有技术。类似地，除非另外指明，不应该基于本章节就假设已在任何现有技术中认识到关于一种或多种方法所识别的问题。

附图说明

在附图中以举例的方式而非限制性的方式对本发明进行说明，在附图中，相同的标号表示类似的元素，其中：

图1描绘根据本发明实施例的第一示例性过程；

图2描绘根据本发明实施例的第二示例性过程；和

图3描绘根据本发明实施例的第三示例性过程的流程图。

具体实施方式

这里描述鲁棒的媒体指纹。在以下描述中，为了说明的目的，对许多特定细节进行了阐述，以使得可充分理解本发明。然而，将清楚的是，可在没有这些特定细节的情况下实施本发明。在其它实例中，为了避免不必要地封闭、模糊或混淆本发明，不对公知的结构和装置进行详尽的描述。

概述

这里所述的示例性实施例涉及鲁棒的媒体指纹。所述指纹相对于音频信号的与各种声音类别相关的分量(例如，语音相关分量和/或噪声相关分量)是鲁棒的。这里所述的音频指纹可以在语言学上(linguistically)是鲁棒的。例如，音频指纹可以可靠地提供多媒体内容的一部分的精确或准确的识别，在所述部分中，用一种或多种自然语言表达的语音包括其音频内容的分量特征。

语音分量可与来自其它声源(例如，背景声或前景声、音乐、环境声音、噪声、或者它们的组合)的分量混合在一起。另外或者作为另外一种选择，音频指纹可以可靠地提供多媒体内容中与噪声混合在一起的部分的精确或准确的识别。例如在通过任意的、随机的或违禁的(contrabanned)麦克风在指纹化的歌曲的公共演出时录制该歌曲的情况下，噪声分量可源于例如与通过扬声器播放的音乐内容一起捕捉(capture)的环境声音。

在实施例中，从音频内容的一部分推导(比如，计算、提取、采样、编索引)鲁棒的媒体指纹。对音频信号中的内容的一部分进行归类。至少部分地基于音频内容的特征中的一个或多个表征该音频内容。所述特征可包括与语音相关的分量和/或与噪声相关的分量。语音相关和/或噪声相关特征可与音频信号混合在一起。当将音频内容归类为没有语音相关分量或噪声相关分量时，对音频信号分量进行处理。当将音频内容归类为包括语音相关分量和/或噪声相关分量时，从音频信号分离语音相关分量或噪声相关分量。独立于所述语音相关分量和/或噪声相关分量来处理音频信号。处理音频信号包括计算与音频信号可靠地对应的音频指纹。

各种实施例中的对内容部分进行归类可包括涉及源分离和/或音频分类的技术。源分离技术可包括识别对声音剪辑有贡献的多个声源中的至少重要部分中的每一个。源分离还可包括本质上忽略对音频信号有贡献的一个或多个声源。

音频分类可包括对音频信号进行采样和确定采样的内容部分的分量的至少重要部分的至少一种声音特性。然后，可根据音频内容部分或者音频信号中所包含的声音分量来表征该音频内容部分、该音频内容的特征或者音频信号。声音特性或分量可与至少一种特征类别相关，可包括语音相关分量、音乐相关分量、噪声相关分量、和/或一个或多个具有其它分量中的一个或多个的语音、音乐或噪声相关分量。在实施例中，可将音频内容部分表示为一系列特征，比如，在对音频内容进行分类之前将音频内容部分表示为一系列特征。

在实施例中，可选择源分离或音频分类技术中的任何一个或者二者来表征音频信号或音频内容部分。将音频内容部分划分成输入帧序列。输入帧序列可包括重叠的和/或非重叠的输入帧。对于每个输入帧，计算多维度(multi-dimensional)特征，这些多维度特征中的每一个是从该输入帧的声音分量中的一个推导得到的。然后，可基于所述多维度特征计算与所述声音分量中的每一个相关的模型概率密度。

命名、术语和示例性平台

这里所用的术语“介质”(多个“介质”)可以指数据和其它信息的储存器或传输容器。这里所用的术语“多媒体”可以指包含多种形式的信息的媒体。多媒体信息文件可以例如包含音频、视频、图像、图形、文本、动画和/或其它信息以及它们的各种组合。这里所用的术语“关联信息”可以指以某种方式与信息媒体内容相关的信息。关联信息可包括例如辅助内容。

这里所用的术语“媒体指纹”可以指媒体内容文件的表示，该表示是从媒体内容文件的特性分量推导得到的。媒体指纹是从与其对应的媒体内容推导(比如，计算、提取、生成等)的。这里所用的术语“音频指纹”和“声学指纹”可同义地或互换地表示以某种程度的特定性与音频媒体相关联的媒体指纹(虽然同样声学指纹还可与其它媒体相关联，比如，视频电影可包括单独指纹化的音频声道)。这里所用的术语“视频指纹”可表示以某种程度的特定性与视频媒体相关联的媒体指纹(虽然同样视频指纹还可与其它媒体相关联)。这里，实施例中所用的媒体指纹可对应于音频、视频、图像、图形、文本、动画和/或其它媒体信息内容、以及/或者它们的各种组合，并可表示除了它们以某种程度的特定性与其相关联的媒体之外的其它媒体。

这里所述的媒体指纹可以本质上符合由RegunathanRadhakhrishnan和Claus Bauer于2007年10月5日提交的共同未决的美国临时专利申请No.60/997,943中所述的媒体指纹，该申请的题目为“Media Fingerprints that Reliably Correspond to MediaContent”，该申请已转让给本发明的受让人，这里为了一切目的通过引用并入该申请，就如同在这里完整阐述了该申请一样。

音频指纹可包括使用数字信号处理技术从包括音频媒体内容的音频波形生成的唯一代码。因此，音频指纹可与例如与媒体内容和/或音频信号相关联的声谱图(spectrogram)相关。

因此，尽管这里所述的媒体指纹代表从其推导它们的媒体内容，但是它们不包括可与媒体内容相关联(比如，添加到媒体内容或者与媒体内容相加)的元数据或其它标签，并且(比如，为了这里描述的目的，在这里描述的背景下)它们不与这些元数据或其它标签混淆。媒体指纹可以以比从其推导它们的媒体内容低的比特率传输。重要的是，因此，这里所用的像“推导”、“生成”、“写”、“提取”和/或“压缩”的术语以及基本上像“计算指纹”的短语可与从媒体内容部分获得媒体指纹相关，在这种背景下，可同义地或互换地使用这些术语和短语。

因此，这些术语和类似的术语可与媒体指纹和这些媒体指纹的源媒体内容或者与这些媒体指纹相关联的源媒体内容的关系相关。在实施例中，媒体内容部分为媒体指纹的源，媒体指纹本质上包括媒体内容的独特分量。因此，媒体指纹可用于唯一地代表、识别、参照或引用从其推导它们的媒体内容部分。随之，这里的这些术语和类似术语可被理解为表述：媒体指纹与为了标示或描述的目的而可以被添加到内容中、随后可从该内容提取的元数据、标签和其它描述符截然不同。在具体表述“派生媒体内容”的上下文中，术语“派生”或“推导”可进一步与除了媒体内容的原始实例之外的可表示或包括的媒体内容相关。

当原始媒体文件(比如，整个电影)被创建时，可进行编索引(indexing)。然而，实施例提供能够在视频分段的呈现期间(比如，当电影播放时)将该视频分段与辅助内容链接的机制。当在不同的成套装置上以不同长度和格式播放、呈现多媒体文件的仅仅一部分时，以及/或者在对视频文件进行各种修改之后，实施例也可工作。修改方式可包括，但不限于，编辑、缩放、码转换(transcode)和创建其派生作品，比如，将该部分插入到其它媒体中。实施例可工作于事实上任何类型的媒体，包括视频文件和音频文件、以及音频文件和视频文件的多媒体播放等。

例如辅助内容的信息可与媒体内容相关联。在实施例中，媒体指纹(例如音频指纹和视频指纹)用于识别媒体内容部分。媒体指纹不仅识别整个媒体作品，而且还识别媒体的正呈现的(比如，当前正播放的或者上传的)的确切的部分。

在实施例中，对媒体文件的媒体指纹的数据库进行维护。另一个数据库将代表某个媒体内容的特定部分的特定媒体指纹映射到相关联的辅助内容。当媒体内容被创建时，可将辅助内容分配给特定媒体内容部分。当呈现媒体内容部分时，将与正呈现的部分对应的媒体指纹与映射数据库中的媒体指纹进行比较。本质上可以相对于呈现媒体内容部分实时地执行比较。

而且，实施例提供这样的指纹，该指纹在语言学上是鲁棒的和/或对于与内容相关联的噪声是鲁棒的，因此，可以可靠地(比如，忠实地)识别具有语音分量的内容，该内容可包括多种可选的自然语言的语音和/或噪声。即使在对应的媒体内容部分被用在派生内容(例如，预告片、广告或者甚至盗版的例如以用于显示在社会网站上的业余或未授权的媒体内容拷贝)中的情况下，指纹也是鲁棒的。无论以何种格式呈现媒体内容部分，该媒体内容部分均可被识别和链接到与其相关联的信息(例如，辅助内容)。在实施例中，在搜索查询中使用媒体内容的一部分。

在实施例中，计算机系统执行上述一个或多个特征。计算机系统包括一个或多个处理器，并可用硬件、软件、固件和/或它们的任何组合来执行上述特征中的一个或多个。计算机系统的处理器和/或其它部件可在执行上述特征中的一个或多个时在计算机可读和可执行指令的指导下工作，所述指令可被编码在一个或多个计算机可读存储介质中和/或可被计算机系统接收。

在实施例中，上述特征中的一个或多个在工作于计算机平台上的解码器中执行，解码器可包括硬件、软件、固件和/或它们的组合。计算机平台可设有或者被部署为电子装置(例如，TV、DVD播放器、游戏机、工作站、台式机、膝上型电脑、手持或其它计算机、可联网通讯装置(例如，蜂窝电话、便携式数字助理(PDA)、便携式游戏机)等)的组件。可用被构造为用于执行所述特征中的一个或多个的集成电路(IC)装置来实现这些特征。IC可以是应用特定IC(ASIC)和/或可编程IC装置(例如，现场可编程门阵列(FPGA)或微控制器)。

示例性指纹鲁棒性

可以执行这里所述的与推导鲁棒的音频指纹相关的示例性过程。可用比所示的示例性步骤更多或更少的步骤和/或用按照与示例性过程的顺序不同的顺序执行的步骤来执行实施例所实现的过程。示例性过程可在一个或多个计算机系统上(比如在被编码在一个或多个计算机可读存储介质中的可机读指令的控制下)执行，或者，该过程可在ASIC或可编程IC装置中执行。

实施例涉及创建这样的音频指纹，这些音频指纹对于音频内容的音频片段或其它部分中所使用的自然语言变化是鲁棒的、仍然是内容敏感的和稳定的。音频指纹从音频内容的一部分的分量推导得到，并与这些分量唯一对应，这使得它们可用作从其推导它们的音频内容部分的唯一的、可靠的标识符。因此，所公开的实施例可用于识别音频内容。事实上，音频指纹提供独特时刻的精确识别。

而且，如果音频信号被修改，比如，被码转换、离速播放、失真等，则根据这里所述的实施例而计算的音频指纹本质上不改变(或者仅稍微改变)。每个音频指纹对于音频内容的特定片段(例如，音频内容的部分、分段、章节或零星片段)是唯一的，每个音频指纹在时间上可以与其它音频指纹完全不同。因此，不同的音频内容部分都具有它们自己的对应的音频指纹，这些音频指纹中的每一个不同于与其它音频内容部分对应的音频指纹。音频指纹本质上包括具有良好定义的比特长度的二进制序列。因此，在某种意义上，音频指纹可被本质上概念化为这些指纹分别对应的音频文件的哈希函数。

实施例可用于识别与电影或其它多媒体内容相关联的音乐文件、语音和其它音频文件(实际上是在这些音乐文件、语音和其它音频文件之间进行区分)。例如对于电影，通常以多种自然语言记录和存储语音相关音频文件，以适应不同地理区域和语言背景的观众。因此，针对美国观众的电影的数字多功能盘(DVD)和BluRay^TM盘(BD)可存储(至少)与英语和西班牙语版本的语音内容对应的音频文件。因此，一些DVD和BD存储音频内容的多于一种自然语言的语音分量。例如，具有电影“少林足球”的原始中文版本的一些DVD可存储几种中文语言的语音，以适应香港和广东观众的语言背景或偏好(广东话)以及北京和中国其它部分观众的语言背景或偏好(普通话或北京话)或者用英语和一种或多种欧洲语言观众的语言背景或偏好。类似地，“好莱坞”电影的DVD可具有用在印度所讲的多种语言中的两种或更多种语言(包括例如印地语、乌尔都语和英语)编码的语音。

然而，与某个电影的各种语言版本对应的音频文件因此非常不同；它们用不同的语言对属于该电影的语音进行编码。在语言上(比如，音位上、音调上)和在听觉上(比如，与任何人发音朗读音频内容的音质(timbre)和/或音高(pitch)相关地)，音频内容的与完全不同的自然语言相关的分量不同。因此，特定的音频内容部分的具有用第一自然语言(比如，英语)表达的语音分量的实例通常在听觉上与相同内容部分的具有用第二自然语言(比如，除英语之外的语言，例如西班牙语)表达的语音分量的另一实例完全不同(比如，至少具有一些不同的音频属性)。虽然它们呈现相同的内容部分，但是具有语言上完全不同的语音分量的每个内容实例因此可以照惯例与完全不同的音频指纹相关联。

理想的是，通过扬声器展现的音频内容实例应该在听觉上与相同内容的原始实例或源实例(例如预先记录的内容源)相同。然而，声音噪声可以以有些类似的方式影响音频内容部分。例如，可以在存在观众产生的和环境的噪声以及与扬声器阵列、放大器、驱动器等相关联的再现噪声时通过扬声器阵列将预先录制的音频内容部分展现给观众。当在被展现给观众时重新录制该内容部分时，这样的声音噪声分量本质上与源内容混合在一起。虽然它们代表相同的内容部分，但是其噪声分量可以在听觉上区分重新记录的实例与源实例。因此，重新记录的实例和源实例因此可以照惯例与完全不同的音频指纹相关联。

本发明实施例涉及语言上鲁棒的音频指纹，这些指纹还可以享有对噪声分量的鲁棒性。实施例使用源分离技术。实施例使用音频分类技术。

这里所用的术语“音频分类”可表示将音频剪辑归类到各种声音种类中。声音分类可包括语音、音乐、具有音乐背景的语音、环境噪声和其它声音噪声、等等。这里所用的术语“源分离”可表示识别对音频内容部分(例如，声音剪辑)有贡献的各个有贡献的声源。例如，在音频剪辑包括语音和音乐的混合的情况下，音频分类器将该音频归类为“具有音乐背景的语音”。源分离识别可以对内容部分中的语音分量有贡献的子波段(sub band)和可以对音乐分量有贡献的子波段。应该意识到，实施例不是绝对或者必须要求从特定子波段到特定声源的能量分配。例如，能量的某个部分可以对一个(比如，第一)源有贡献，其余能量部分可以对另一个(比如，第二个)源有贡献。因此，源分离可能够通过本质上忽略可能原始存在于输入音频混合剪辑中的一个或多个源来重构或孤立(isolate)信号。

示例性音频分类

人类正常自然地发展重要的心理声学技能，所述技能使得他们可以将他们听到的音频剪辑(甚至时间上简短的音频剪辑)分类为属于特定的声音类别，例如，语音、音乐、噪声和其它类别。音频分类将一些像人类的音频分类能力扩展(extend)到计算机。计算机可用信号处理和统计技术(例如机器学习工具)实现音频分类功能。实施例使用计算机化的音频分类。音频分类器检测所选择的声音种类。对于分类器将构建的每种声音种类收集训练数据。例如，收集、采样和分析几种示例性“仅语音的”音频剪辑。用这些音频剪辑将统计模型公式化(formulate)，这使得可检测语音信号(比如，对语音信号进行分类)。

信号处理一开始将输入音频表示为特征序列。例如，一开始可通过将输入音频划分为重叠和/或非重叠帧的序列来将音频表示为特征序列。对于每个输入帧提取多维度特征(M)，其中，M对应于对于每个音频帧提取的特征的数量，将基于该多维度特征执行分类。实施例使用高斯混合模型(GMM)对特定声音种类的特征的概率密度函数进行建模。

值Y为表示提取的特征的M维度(dimensional)的随机矢量。值K表示GMM分量的数量，∏表示维度K×1的矢量，其中，每个∏_k(k＝1，2，...K)为每个混合分量的概率。值μ_k和R_k分别表示第k个混合分量的均值(mean)和方差(variance)。因此，μ_k为维度M ×1的矢量，其对应于第k个混合分量的均值，以及，R_k为维度M×M的矩阵，其表述第k个混合分量的协方差(covariance)矩阵。那么，表征K分量GMM的完整参数集可用参数集θ＝(π_k，μ_k，R_k)来定义，其中，k＝1，2，...K。可分别根据以下式1和2表示整个序列Y_n(n＝1，2，...N)的概率p_y的自然对数和概率p_y。

\log p_{y} (y | K, θ) = Σ_{n = 1}^{N} \log (Σ_{k = 1}^{K} p_{y_{n}} (y_{n} | k, θ) π_{k})

(式1)

p_{y_{n}} (y_{n} | k, θ) = \frac{1}{{(2 π)}^{\frac{M}{2}} {| R |}^{\frac{1}{2}}} e^{- \frac{1}{2} {(y_{n} - μ_{k})}^{T} R_{k}^{- 1} (y_{n} - μ_{k})}

(式2)

在以上式1和2中，N表示特征矢量的总数，其可从被建模的特定声音种类的训练示例中提取出来。使用期望最大化方法估计参数K和θ，如以上式1所示，期望最大化方法估计使数据的似然性最大的参数。通过被学习和存储的每个声音种类的模型参数，在每个被训练的模型下计算正对新的音频剪辑分类的输入特征矢量的似然性。基于最大似然性标准将输入音频剪辑归类到声音种类之一中。

本质上，对每个声音种类收集训练数据，并从该训练数据提取代表音频剪辑的特征集。生成机器学习(比如，GMM)和/或区分机器学习(比如，支持矢量机)被用于对所选择的特征空间中的各种信号类型之间的决定边界进行建模。关于新的输入音频剪辑相对于建模的决定边界落入的位置，测量所述新的输入音频剪辑，并表达分类决定。各种音频分类方法可用于对音频内容进行分类。

示例性源分离

除了能够音频分类的那些技能之外，人类还正常自然地发展使得他们可识别音频剪辑中存在的各个声音源的重要心理声学技能。接收第二个人(其在乘坐有噪声的火车时进行呼叫)的蜂窝电话呼叫的人可以例如能够从电话接收的声音剪辑中分辨其中的两个或更多个相对主要的声源。例如，接收该呼叫的人可感知到第二个人讲话时的语音和与火车相关联的噪声(例如，引擎噪声、可听得到的铁路信号、轨道隆隆声、吱吱声、金属叮当声和/或其它火车乘客的语音)。这种能力帮助接收电话呼叫的人集中注意于语音上，尽管伴随有语音可能与其纠缠或被其污染的火车噪声(假设噪声音量不是高到不能分辨语音)。换句话讲，即使在信号的语音部分播出期间存在显著的声音噪声时(再次，只要噪声不太大)，收听者仍能集中精神于音频剪辑的语音部分上。实施例涉及计算机化的音频源分离。

在实施例中，“N”个音频源可表示为S₁、S₂、S₃...S_N。这些声源的混合声的“K”个麦克风记录可表示为X₁、X₂、X₃...X_K。可根据以下式3描述K个麦克风记录中的每一个。

X_{k} (t) = Σ_{j = 1}^{N} a_{kj} S_{j} (t - d_{kj})

k＝1，2，...，K

(式3)

值a_kj和b_kj分别表示与声源“j”和麦克风“k”之间的路径相关联的衰减和延迟。在给定观察的混合波形的这个模型X₁，X₂，X₃，...，X_k的情况下，源分离估计混合参数(d_kj和a_kj)和N个源信号S₁，S₂，S₃，...，S_N。实践上，实施例可与许多源分离技术中的任何源分离技术一起工作，其中的一些技术可使用多个麦克风，而其它一些技术可仅使用单个麦克风。

当识别声音混合中的各个源时，可构造新的音频信号。例如，可根据以下式4选择存在于原始混合中的N个声源的数量M。

Y_{k} (t) = Σ_{j = 1}^{M} a_{kj} S_{j} (t - d_{kj})

k＝1，2，...，K

(式4)

其中，Y_k(t)为仅用原始N个源S₁，S₂，S₃，...，S_N中的前“M”个声源的麦克风“k”处的信号的重构。然后，音频分类和音频源分离可用于提供关于输入音频剪辑的更多情报(intelligence)，并可用于推导(比如，计算、“提取”)音频指纹。音频指纹对于自然语言变化和/或噪声是鲁棒的。

示例性过程

图1描绘根据本发明实施例的示例性过程100。一开始，将音频内容的输入信号X(t)划分成帧。在块101中，基于在每个帧中提取的特征，对音频内容进行分类。

分类确定语音(或噪声)分量是否存在于输入信号X(t)中。在音频帧不包含语音信号分量的情况下，在块105中，本质上该帧中所包含的所有的信息都可被用于指纹推导。然而，在帧被发现具有语音分量的情况下，在块103中使用源分离。源分离从输入信号隔离(segregate)所述输入信号的语音分量，并重构无语音信号Y(t)。对于具有N个声源的原始输入信号X(t)，可(本质上排他地)使用来自M＝(N-1)个源的贡献(比如，如以上式4中那样)来重构Y(t)。语音分量本质上可丢弃(或者，比如，用于其它处理函数)。因此，根据实施例的指纹推导提供相对于语言变化(和/或存在明显的声音噪声时)的显著鲁棒性。实施例可以本质上排他地使用音频分类。因此，本质上可基于输入帧中是否存在语音，选择或丢弃用于音频指纹推导的输入帧。

在一实施例中，不完全丢弃包含语音分量的帧。代替丢弃承载语音的音频帧，实施例在块103中将语音分量与该帧的音频内容的其余部分分离。在块105中，来自其它声源的、在分离出语音分量之后所保留的音频内容被用于从音频帧推导指纹。因此，实施例使得可有效率地识别可用不同自然语言记录的电影声道、以及不同和/或多个歌手和/或用不同语言演唱的和/或具有噪声分量的歌曲。

而且，实施例还使得可在音频指纹匹配的上下文中进行智能音频处理。图2描绘根据本发明实施例的示例性过程200。即使在具有显著的(甚至大量的)环境噪声或其它声音噪声N(t)(这些噪声可在块202处添加到输入音频信号X(t)中)的情况下，也可使用存储的音频指纹来识别相同音频剪辑的实例。可使用音频源分离。在块204中，源分离从输入信号中分出环境噪声分量、周围噪声分量或其它噪声分量。一旦隔离噪声分量，则在块105中从安静的(比如，去噪的)音频信号Y(t)计算音频指纹。因此，实施例使得可精确和有效率地匹配在播放(或者上传)时从音频剪辑推导的音频指纹与无噪声的源的音频指纹，所述无噪声的源的音频指纹可存储在例如参考指纹数据库中。

过程100和/或200可在用计算机可读代码控制或指导的一个或多个计算机部件内执行，所述计算机可读代码可存储在计算机可读存储介质(例如，存储器、寄存器、盘、可拆卸软件介质等)中。过程100和/或200还可在适当地被配置或编程的IC中执行。因此，关于各个实施例，过程100和200可表示方法或者系统或者存储于计算机可读介质上的代码，当用计算机系统中的处理器执行这些代码时，这些代码控制计算机执行参照图1和图2所述的方法。在过程100和200表示系统的情况下，元素标识符101、103、105、202和204可分别表示系统的部件，包括音频分类器、音频源分离器、指纹生成器、加法器(adder)或求和点(junction)、以及音频源分离器。在涉及计算机存储介质的实施例中，这些元素可类似地表示功能软件模块。

图3描绘根据本发明实施例的示例性过程300的流程图。从音频内容的一部分推导媒体指纹：音频内容包括音频信号。在步骤301中，至少部分地基于音频内容部分的一个或多个特征将音频内容部分归类。内容特征可包括与语音相关的分量。语音相关分量与音频信号混合在一起。其中，内容特征还可包括与噪声相关的分量。噪声相关分量与音频信号混合在一起。

一旦将音频内容归类为没有语音相关分量或噪声相关分量，则可在步骤302中对音频信号分量进行处理。一旦将音频内容归类为包括语音相关分量或噪声相关分量中的一个或多个，则在步骤303中从音频信号分离语音相关分量或噪声相关分量。在步骤304中，独立于语音相关分量或噪声相关分量处理音频信号。处理步骤302和304包括计算媒体指纹，该媒体指纹在语言上是鲁棒的，并且对于噪声分量是鲁棒的，因此，可靠地对应于音频信号。

对内容部分进行归类可包括源分离和/或音频分类。源分离技术可包括识别对声音剪辑有贡献的多个声源中的至少重要部分中的每一个。源分离还可包括本质上忽略对音频信号有贡献的一个或多个声源。

音频分类可包括对音频信号进行采样和确定采样的内容部分分量的至少重要部分的至少一种声音特性。然后，可根据音频内容部分或音频信号中所包含的声音分量表征该音频内容部分、该音频内容部分的特征或者该音频信号。声音特性或分量可与至少一种特征类别相关，可包括语音相关分量、音乐相关分量、噪声相关分量、以及/或者一个或多个具有其它分量中的一个或多个的语音、音乐或噪声相关分量。在实施例中，可将音频内容部分表示为特征序列，比如，在对音频内容进行分类之前将音频内容部分表示为特征序列。

在实施例中，可选择源分离或音频分类技术中的任何一种或者二者来表征音频信号或音频内容部分。将音频内容部分划分成输入帧序列。输入帧序列可包括重叠和/或非重叠的输入帧。对于每个输入帧，计算多维度特征，所述多维度特征中的每一个是从输入帧的声音分量之一推导得到的。然后，可基于多维度特征计算与所述声音分量中的每一个相关的模型概率密度。

优选地，本申请还提供了一种用于从音频内容的一部分推导媒体指纹的系统，包括：用于将音频内容部分归类的装置；用于一旦将音频内容归类为没有与第一声音类别或第二声音类别相关的分量，则对音频信号分量进行处理的装置；和用于一旦将音频内容归类为包括与第一声音类别或第二声音类别相关的分量中的一个或多个，则从所述音频信号分离所述与第一声音类别或第二声音类别相关的分量；并且独立于所述与第一声音类别或第二声音类别相关的分量处理所述音频信号的装置；其中，所述音频内容部分包括音频信号；并且其中，所述归类装置至少部分地基于音频内容部分的一个或多个特征操作，所述特征包括：所述内容部分的与第一声音类别相关的分量，其中，所述与第一声音类别相关的分量与所述音频信号混合在一起；或者所述内容部分的与第二声音类别相关的分量，其中，所述与第二声音类别相关的分量与所述音频信号混合在一起；其中，处理包括计算媒体指纹；并且其中，所述媒体指纹可靠地对应于所述音频信号。

优选地，所述第一声音类别和第二声音类别中的一个与以下中的一个相关：与语音相关的声音；或者与噪声相关的声音；并且所述第一声音类别和第二声音类别中的另一个和与语音相关的声音或者与噪声相关的声音中的另一个相关。

优选地，所述归类装置包括用于源分离的装置或用于音频分类的装置中的一个或多个。

优选地，所述用于源分离的装置包括：用于识别对声音剪辑有贡献的多个声源中的至少重要部分中的每一个的装置。

优选地，所述源分离识别能够对内容部分中的语音分量有贡献的子波段和能够对音乐分量有贡献的子波段。

优选地，所述用于源分离的装置进一步包括：用于忽略对所述音频信号有贡献的一个或多个声源的装置。

优选地，所述用于音频分类的装置包括：用于对所述音频信号进行采样的装置；用于基于采样步骤确定音频内容部分的分量的至少重要部分的至少一个声音特性的装置；和用于基于所述声音特性表征所述音频内容部分、所述音频内容部分的特征或者所述音频信号中的一个或多个的装置。

优选地，所述声音特性中的每一个与至少一种特征类别相关，所述特征类别包括：语音相关分量；音乐相关分量；噪声相关分量。

优选地，该系统进一步包括：用于在分类之前，将音频内容部分表示为特征序列的装置。

优选地，该系统进一步包括：用于选择源分离或音频分类中的至少一个用于归类的装置；用于将所述音频内容部分划分成输入帧序列的装置；其中，所述输入帧序列包括重叠输入帧或非重叠输入帧中的一个或多个；用于对于所述输入帧中的每一个，计算多个多维度特征的装置，所述多维度特征中的每一个是从所述输入帧的声音分量之一推导得到的。

优选地，该系统进一步包括：用于基于所述多维度特征，计算与所述声音分量中的每一个相关的模型概率密度的装置。

优选地，本发明还提供了一种用于从音频内容的一部分推导媒体指纹的系统，包括：用于将音频内容部分归类的装置；用于一旦将音频内容归类为没有语音相关分量，则对所述音频信号进行处理的装置；以及用于一旦将音频内容归类为包括语音相关分量，则：从所述音频信号分离所述语音相关分量；以及独立于所述语音相关分量处理所述音频信号的装置；其中，所述音频内容部分包括音频信号；并且其中，所述归类至少部分地基于所述内容部分的与语音相关的分量；和其中，所述语音相关分量与所述音频信号混合在一起；其中，所述处理包括计算媒体指纹；以及其中，所述媒体指纹可靠地对应于所述音频信号。

优选地，所述用于归类的装置进一步至少部分地基于所述内容部分的与噪声相关的分量操作；并且其中，与噪声相关的分量与所述音频信号混合在一起。

优选地，该系统进一步包括：用于一旦将所述音频内容归类为没有语音相关分量和噪声相关分量二者，则执行所述处理的装置；以及用于一旦将所述音频内容归类为包括语音相关分量和噪声相关分量二者，则：从所述音频信号分离语音相关分量和噪声相关分量二者；以及独立于语音相关分量和噪声相关分量二者执行所述处理的装置。

优选地，本发明还提供了一种用于从音频内容的一部分推导媒体指纹的系统，包括：用于将音频内容部分归类的装置；用于一旦将所述音频内容归类为没有噪声相关分量，则对所述音频信号进行处理的装置；以及用于一旦将音频内容归类为包括噪声相关分量，则：从所述音频信号分离所述噪声相关分量；并且独立于所述噪声相关分量处理所述音频信号的装置；其中，所述音频内容部分包括音频信号；和其中，所述用于归类的装置至少部分地基于所述内容部分的与噪声相关的分量操作，其中，与噪声相关的分量与所述音频信号混合在一起；其中，所述处理包括计算媒体指纹；并且其中，所述媒体指纹可靠地对应于所述音频信号。

优选地，所述用于归类的装置进一步至少部分地基于所述内容部分的与语音相关的分量；并且其中，所述语音相关分量与所述音频信号混合在一起。

优选地，该系统进一步包括：用于一旦将所述音频内容归类为没有语音相关分量和噪声相关分量二者，则执行所述处理的装置；和用于一旦将所述音频内容归类为包括语音相关分量和噪声相关分量二者，则：从所述音频信号分离语音相关分量和噪声相关分量二者；以及独立于语音相关分量和噪声相关分量中的任何一个执行所述处理的装置。

等同形式、扩展形式、替代形式和混杂形式

如此对鲁棒的媒体指纹的示例性实施例进行了描述。在前述说明书中，已参照可在实现方式与实现方式之间不同的许多特定细节对本发明实施例进行了描述。因此，什么是本发明、申请人意图的什么是本发明的唯一且排他的指示为本申请公布的以权利要求集所公布的特定形式公布的权利要求集，包括任何后续修正。这里对于这样的权利要求中所包含的术语明确阐述的任何定义应该决定权利要求中所使用的这样的术语的意义。因此，没有在权利要求中明确详述的限制、元素、性质、特征、优点或属性不应该以任何方式限制这样的权利要求的范围。因此，应该以示例性的意义而不是限制性的意义来看待本说明书和附图。

Claims

1.一种用于从音频内容的一部分推导媒体指纹的方法，包括以下步骤：

将音频内容部分归类；

其中，所述音频内容部分包括音频信号；并且

其中，所述归类步骤至少部分地基于音频内容部分的一个或多个特征，所述特征包括：

所述内容部分的与第一声音类别相关的分量，其中，所述与第一声音类别相关的分量与所述音频信号混合在一起；或者

所述内容部分的与第二声音类别相关的分量，其中，所述与第二声音类别相关的分量与所述音频信号混合在一起；

一旦将音频内容归类为没有与第一声音类别或第二声音类别相关的分量，则对音频信号分量进行处理；和

一旦将音频内容归类为包括与第一声音类别或第二声音类别相关的分量中的一个或多个，则

从所述音频信号分离所述与第一声音类别或第二声音类别相关的分量；并且

独立于所述与第一声音类别或第二声音类别相关的分量处理所述音频信号；

其中，处理步骤包括计算媒体指纹的步骤；并且

其中，所述媒体指纹可靠地对应于所述音频信号，

其中，所述归类步骤包括源分离，并且其中，所述源分离包括以下步骤：

识别对声音剪辑有贡献的多个声源中的至少重要部分中的每一个，以及

忽略对所述音频信号有贡献的一个或多个声源。

2.根据权利要求1所述的方法，其中，所述第一声音类别和第二声音类别中的一个与以下中的一个相关：

与语音相关的声音；或者

与噪声相关的声音；

并且所述第一声音类别和第二声音类别中的另一个和与语音相关的声音或者与噪声相关的声音中的另一个相关。

3.根据权利要求1所述的方法，其中，所述归类步骤包括音频分类。

4.根据权利要求1所述的方法，其中，源分离识别能够对内容部分中的语音分量有贡献的子波段和能够对音乐分量有贡献的子波段。

5.根据权利要求3所述的方法，其中，所述音频分类包括以下步骤：

对所述音频信号进行采样；

基于采样步骤确定音频内容部分的分量的至少重要部分的至少一个声音特性；和

基于所述声音特性表征所述音频内容部分、所述音频内容部分的特征或者所述音频信号中的一个或多个。

6.根据权利要求5所述的方法，其中，所述声音特性中的每一个与至少一种特征类别相关，所述特征类别包括：

语音相关分量；

音乐相关分量；

噪声相关分量。

7.根据权利要求5所述的方法，进一步包括以下步骤：

在分类步骤之前，将音频内容部分表示为特征序列。

8.根据权利要求3所述的方法，进一步包括：

选择源分离或音频分类中的至少一个用于归类步骤；

将所述音频内容部分划分成输入帧序列；

其中，所述输入帧序列包括重叠输入帧或非重叠输入帧中的一个或多个；

对于所述输入帧中的每一个，计算多个多维度特征，所述多维度特征中的每一个是从所述输入帧的声音分量之一推导得到的。

9.根据权利要求8所述的方法，进一步包括以下步骤：

基于所述多维度特征，计算与所述声音分量中的每一个相关的模型概率密度。

10.一种用于从音频内容的一部分推导媒体指纹的方法，包括以下步骤：

将音频内容部分归类；

其中，所述音频内容部分包括音频信号；并且

其中，所述归类步骤至少部分地基于所述内容部分的与语音相关的分量；和

其中，所述语音相关分量与所述音频信号混合在一起；

一旦将音频内容归类为没有语音相关分量，则对所述音频信号进行处理；以及

一旦将音频内容归类为包括语音相关分量，则：

从所述音频信号分离所述语音相关分量；以及

独立于所述语音相关分量处理所述音频信号；

其中，所述处理步骤包括计算媒体指纹的步骤；以及

其中，所述媒体指纹可靠地对应于所述音频信号，

忽略对所述音频信号有贡献的一个或多个声源。

11.根据权利要求10所述的方法，其中，所述归类步骤进一步至少部分地基于所述内容部分的与噪声相关的分量；并且

其中，与噪声相关的分量与所述音频信号混合在一起。

12.根据权利要求11所述的方法，进一步包括以下步骤：

一旦将所述音频内容归类为没有语音相关分量和噪声相关分量二者，则执行处理步骤；以及

一旦将所述音频内容归类为包括语音相关分量和噪声相关分量二者，则：

从所述音频信号分离语音相关分量和噪声相关分量二者；以及

独立于语音相关分量和噪声相关分量二者执行所述处理步骤。

13.一种用于从音频内容的一部分推导媒体指纹的方法，包括以下步骤：

将音频内容部分归类；

其中，所述音频内容部分包括音频信号；和

其中，所述归类步骤至少部分地基于所述内容部分的与噪声相关的分量，其中，与噪声相关的分量与所述音频信号混合在一起；

一旦将所述音频内容归类为没有噪声相关分量，则对所述音频信号进行处理；以及

一旦将音频内容归类为包括噪声相关分量，则：

从所述音频信号分离所述噪声相关分量；并且

独立于所述噪声相关分量处理所述音频信号；

其中，处理步骤包括计算媒体指纹的步骤；并且

其中，所述媒体指纹可靠地对应于所述音频信号，

忽略对所述音频信号有贡献的一个或多个声源。

14.根据权利要求13所述的方法，其中，所述归类步骤进一步至少部分地基于所述内容部分的与语音相关的分量；并且

其中，所述语音相关分量与所述音频信号混合在一起。

15.根据权利要求14所述的方法，进一步包括以下步骤：

一旦将所述音频内容归类为没有语音相关分量和噪声相关分量二者，则执行处理步骤；和

独立于语音相关分量和噪声相关分量中的任何一个执行所述处理步骤。

16.一种用于从音频内容的一部分推导媒体指纹的系统，包括：

用于将音频内容部分归类的装置；

其中，所述音频内容部分包括音频信号；并且

其中，所述归类装置至少部分地基于音频内容部分的一个或多个特征操作，所述特征包括：

用于一旦将音频内容归类为没有与第一声音类别或第二声音类别相关的分量，则对音频信号分量进行处理的装置；和

用于一旦将音频内容归类为包括与第一声音类别或第二声音类别相关的分量中的一个或多个，则

独立于所述与第一声音类别或第二声音类别相关的分量处理所述音频信号的装置；

其中，处理包括计算媒体指纹；并且

其中，所述媒体指纹可靠地对应于所述音频信号，

其中，所述归类装置包括用于源分离的装置，并且其中，所述用于源分离的装置包括：

用于识别对声音剪辑有贡献的多个声源中的至少重要部分中的每一个的装置，以及

用于忽略对所述音频信号有贡献的一个或多个声源的装置。

17.根据权利要求16所述的系统，其中，所述第一声音类别和第二声音类别中的一个与以下中的一个相关：

与语音相关的声音；或者

与噪声相关的声音；

18.根据权利要求16所述的系统，其中，所述归类装置包括用于音频分类的装置。

19.根据权利要求16所述的系统，其中，源分离识别能够对内容部分中的语音分量有贡献的子波段和能够对音乐分量有贡献的子波段。

20.根据权利要求18所述的系统，其中，所述用于音频分类的装置包括：

用于对所述音频信号进行采样的装置；

用于基于采样步骤确定音频内容部分的分量的至少重要部分的至少一个声音特性的装置；和

用于基于所述声音特性表征所述音频内容部分、所述音频内容部分的特征或者所述音频信号中的一个或多个的装置。

21.根据权利要求20所述的系统，其中，所述声音特性中的每一个与至少一种特征类别相关，所述特征类别包括：

语音相关分量；

音乐相关分量；

噪声相关分量。

22.根据权利要求20所述的系统，进一步包括：

用于在分类之前，将音频内容部分表示为特征序列的装置。

23.根据权利要求18所述的系统，进一步包括：

用于选择源分离或音频分类中的至少一个用于归类的装置；

用于将所述音频内容部分划分成输入帧序列的装置；

用于对于所述输入帧中的每一个，计算多个多维度特征的装置，所述多维度特征中的每一个是从所述输入帧的声音分量之一推导得到的。

24.根据权利要求23所述的系统，进一步包括：

用于基于所述多维度特征，计算与所述声音分量中的每一个相关的模型概率密度的装置。

25.一种用于从音频内容的一部分推导媒体指纹的系统，包括：

用于将音频内容部分归类的装置；

其中，所述音频内容部分包括音频信号；并且

其中，所述归类至少部分地基于所述内容部分的与语音相关的分量；和

其中，所述语音相关分量与所述音频信号混合在一起；

用于一旦将音频内容归类为没有语音相关分量，则对所述音频信号进行处理的装置；以及

用于一旦将音频内容归类为包括语音相关分量，则：

从所述音频信号分离所述语音相关分量；以及

独立于所述语音相关分量处理所述音频信号的装置；

其中，所述处理包括计算媒体指纹；以及

其中，所述媒体指纹可靠地对应于所述音频信号，

其中，所述用于归类的装置包括用于源分离的装置，并且其中，所述用于源分离的装置包括：

用于忽略对所述音频信号有贡献的一个或多个声源的装置。

26.根据权利要求25所述的系统，其中，所述用于归类的装置进一步至少部分地基于所述内容部分的与噪声相关的分量操作；并且

其中，与噪声相关的分量与所述音频信号混合在一起。

27.根据权利要求26所述的系统，进一步包括：

用于一旦将所述音频内容归类为没有语音相关分量和噪声相关分量二者，则执行所述处理的装置；以及

用于一旦将所述音频内容归类为包括语音相关分量和噪声相关分量二者，则：

独立于语音相关分量和噪声相关分量二者执行所述处理的装置。

28.一种用于从音频内容的一部分推导媒体指纹的系统，包括：

用于将音频内容部分归类的装置；

其中，所述音频内容部分包括音频信号；和

其中，所述用于归类的装置至少部分地基于所述内容部分的与噪声相关的分量操作，其中，与噪声相关的分量与所述音频信号混合在一起；

用于一旦将所述音频内容归类为没有噪声相关分量，则对所述音频信号进行处理的装置；以及

用于一旦将音频内容归类为包括噪声相关分量，则：

从所述音频信号分离所述噪声相关分量；并且

独立于所述噪声相关分量处理所述音频信号的装置；

其中，所述处理包括计算媒体指纹；并且

其中，所述媒体指纹可靠地对应于所述音频信号，

用于忽略对所述音频信号有贡献的一个或多个声源的装置。

29.根据权利要求28所述的系统，其中，所述用于归类的装置进一步至少部分地基于所述内容部分的与语音相关的分量；并且

其中，所述语音相关分量与所述音频信号混合在一起。

30.根据权利要求29所述的系统，进一步包括：

用于一旦将所述音频内容归类为没有语音相关分量和噪声相关分量二者，则执行所述处理的装置；和

独立于语音相关分量和噪声相关分量中的任何一个执行所述处理的装置。

31.一种计算机系统的用途，包括：

执行或进行根据权利要求1-15中的任一个所述的用于从音频内容的一部分推导媒体指纹的方法。