CN107633078A

CN107633078A - 音频指纹提取方法、音视频检测方法、装置及终端

Info

Publication number: CN107633078A
Application number: CN201710874385.8A
Authority: CN
Inventors: 张大威
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2017-09-25
Filing date: 2017-09-25
Publication date: 2018-01-26
Anticipated expiration: 2037-09-25
Also published as: CN107633078B

Abstract

本发明提供了一种音频指纹提取方法和装置、音视频检测方法和装置及终端，所述方法包括：根据输入的音频时域数据获得二维的音频频域数据；从所述音频频域数据中获取若干个能量极大值点；根据所述若干个能量极大值点，将所述音频频域数据转化为一维的特征序列；根据所述特征序列生成所述音频时域数据的音频指纹。本发明可以有效检测出同源音频，达到更好的音视频版权保护效果。

Description

音频指纹提取方法、音视频检测方法、装置及终端

技术领域

本发明涉及多媒体数据处理技术领域，具体而言，本发明涉及一种音频指纹提取方法和装置、音视频检测方法和装置及终端。

背景技术

版权(copyright)，是法律上规定的某一单位或个人对某项著作享有印刷出版和销售的权利，任何人要复制、翻译、改编或演出等均需要得到版权所有人的许可，否则就是对他人权利的侵权行为。音视频版权是其中的一种，音视频版权所有者拥有独自播放的权利，他人不得擅自播放。随着计算机通信和互联网技术的快速发展以及数字化信息广泛应用，音视频版权保护变得日益突出。各大音视频网站(如腾讯视频、爱奇艺、优酷土豆、搜狐视频、乐视等)都不惜重金购买了大量的独播音视频版权，建立起属于自己的音视频数据库。如何在海量数据库中及时判断，某个网站视频或者音频是否为己方的盗版视频或者音频就显得十分必要。

传统技术中提供了一种通过检索同源音频找到被版权保护的视频的方法，即基于音轨的视频版权保护技术。其基本原理是通过提取输入视频数据中音频信息特征，在数据库中找到与检索音频数据同源的音频片段。服务器在全部数据库中初步找出与查询音频相似的一定数目的候选视频，若最高的相关性值低于设定的阈值，则给出拒识判决；若最高的相关性值高于阈值，则给出对应的视频ID(identification，身份标识)，并根据该ID从数据库中得到视频的名字、作者、导演和演员等信息。

上述方法通过输入音频在数据库中检索时，需要匹配输入音频与数据库中音频是否一致，但是通过对音频进行编辑(例如加噪等)有可能绕过匹配过程，无法有效检测出同源音频。

发明内容

基于此，针对传统技术中无法有效检测出同源音频的缺陷，本发明提供了一种音频指纹提取方法和装置、音视频检测方法和装置及终端，以有效检测出同源音频。

本发明实施例提供了一种音频指纹提取方法，所述方法包括：

根据输入的音频时域数据获得二维的音频频域数据；

从所述音频频域数据中获取若干个能量极大值点；

根据所述若干个能量极大值点，将所述音频频域数据转化为一维的特征序列；

根据所述特征序列生成所述音频时域数据的音频指纹。

上述音频指纹提取方法，通过从音频频域数据中选择的若干个能量极大值点生成音频指纹，可以对噪声有一定的抑制能力，即生成的音频指纹对加躁等音频形变具有很好的鲁棒性，因而基于该音频指纹可以有效检测出同源音频，达到更好的音视频版权保护效果。

在一个实施例中，所述根据所述若干个能量极大值点，将所述音频频域数据转化为一维的特征序列，包括：将所述若干个能量极大值点采用预设进制的不同数值进行标记，得到所述若干个能量极大值点的标识；将若干个标识按照设定规则依次排列拼接，得到一维的特征序列。通过对若干个能量极大值点的标识生成特征序列，对噪声具有一定的抑制能力。

在一个实施例中，所述将所述若干个能量极大值点采用预设进制的不同数值进行标记，包括：当某一个能量极大值点为正数时，将该能量极大值点采用预设进制的第一数值进行标记；当某一个能量极大值点为负数时，将该能量极大值点采用预设进制的第二数值进行标记；当某一个能量极大值点为0时，将该能量极大值点采用预设进制的第三数值进行标记；其中，所述第一数值、所述第二数值和所述第三数值均不相同。

在一个实施例中，所述根据所述特征序列生成所述音频时域数据的音频指纹，包括：将所述特征序列按照预设排序规则进行若干次排序；获取设定值在每次排序后的特征序列中第N次出现的位置；其中，N为大于等于1的整数；将若干个位置分别转换为预设进制的数值；根据转换后的各个数值生成所述音频时域数据的音频指纹。基于该种方式生成的音频指纹可以有效检测出同源音频，达到更好的音视频版权保护效果。

本发明实施例还提供一种音视频检测方法，所述方法包括：

从待检测的音视频数据中提取音频时域数据；

根据所述音频时域数据获得二维的音频频域数据；

从所述音频频域数据中获取若干个能量极大值点；

根据所述特征序列生成所述音频时域数据的音频指纹；

根据所述音频指纹，检测所述待检测的音视频数据与预设的音视频版权数据库中各个音视频数据是否一致。

上述音视频检测方法，通过从音频频域数据中选择的若干个能量极大值点生成音频指纹，可以对噪声有一定的抑制能力，即生成的音频指纹对加躁等音频形变具有很好的鲁棒性，因而基于该音频指纹可以有效检测出同源音频，达到更好的音视频版权保护效果。

在一个实施例中，所述根据所述音频指纹，检测所述待检测的音视频数据与预设的音视频版权数据库中的音视频数据是否一致，包括：采用若干个哈希函数对所述音频指纹进行计算，得到所述音频指纹的若干个第一哈希值；检测所述若干个第一哈希值与预设的Hash索引表中的各个第二哈希值是否一致；其中，所述各个第二哈希值为所述音视频版权数据库中各个音视频数据对应的哈希值。通过哈希值检索的方式能够大大提高同源视频检索的速度。

在一个实施例中，所述检测所述若干个第一哈希值与预设的Hash索引表中的各个第二哈希值是否一致，包括：采用变化步长读取所述Hash索引表中的各个第二哈希值；检测所述若干个第一哈希值与读取的各个第二哈希值是否一致。传统技术中通过输入音频在数据库中检索时，需要匹配输入音频与数据库中音频是否一致，但是通过对音频进行编辑(例如音频截断等)有可能绕过匹配过程，无法有效检测出同源音频，该实施例在检索时采用变化步长进行查找，有一定概率使检索音频与音视频版权数据库中音频对齐，可有效解决音频截断问题，因此即使在音频经过编辑后，依然可以有效的检测出同源音频。

本发明实施例还提供了一种音频指纹提取装置，所述装置包括：

音频频域数据获得模块，用于根据输入的音频时域数据获得二维的音频频域数据；

能量极大值获取模块，用于从所述音频频域数据中获取若干个能量极大值点；

音频频域数据转化模块，用于根据所述若干个能量极大值点，将所述音频频域数据转化为一维的特征序列；

音频指纹生成模块，用于根据所述特征序列生成所述音频时域数据的音频指纹。

上述音频指纹提取装置，通过从音频频域数据中选择的若干个能量极大值点生成音频指纹，可以对噪声有一定的抑制能力，即生成的音频指纹对加躁等音频形变具有很好的鲁棒性，因而基于该音频指纹可以有效检测出同源音频，达到更好的音视频版权保护效果。

在一个实施例中，所述音频频域数据转化模块包括：标识获得单元，用于将所述若干个能量极大值点采用预设进制的不同数值进行标记，得到所述若干个能量极大值点的标识；特征序列获得单元，用于将若干个标识按照设定规则依次排列拼接，得到一维的特征序列。通过对若干个能量极大值点的标识生成特征序列，对噪声具有一定的抑制能力。

在一个实施例中，所述标识获得单元用于当某一个能量极大值点为正数时，将该能量极大值点采用预设进制的第一数值进行标记；当某一个能量极大值点为负数时，将该能量极大值点采用预设进制的第二数值进行标记；当某一个能量极大值点为0时，将该能量极大值点采用预设进制的第三数值进行标记；其中，所述第一数值、所述第二数值和所述第三数值均不相同。

在一个实施例中，所述音频指纹生成模块包括：排序单元，用于将所述特征序列按照预设排序规则进行若干次排序；位置获取单元，用于获取设定值在每次排序后的特征序列中第N次出现的位置；其中，N为大于等于1的整数；数值转换单元，用于将若干个位置分别转换为预设进制的数值；音频指纹生成单元，用于根据转换后的各个数值生成所述音频时域数据的音频指纹。基于该种方式生成的音频指纹可以有效检测出同源音频，达到更好的音视频版权保护效果。

本发明实施例还提供了一种音视频检测装置，所述装置包括：

音频时域数据提取模块，用于从待检测的音视频数据中提取音频时域数据；

音频频域数据获得模块，用于根据所述音频时域数据获得二维的音频频域数据；

音频指纹生成模块，用于根据所述特征序列生成所述音频时域数据的音频指纹；

音视频数据检测模块，用于根据所述音频指纹，检测所述待检测的音视频数据与预设的音视频版权数据库中各个音视频数据是否一致。

上述音视频检测装置，通过从音频频域数据中选择的若干个能量极大值点生成音频指纹，可以对噪声有一定的抑制能力，即生成的音频指纹对加躁等音频形变具有很好的鲁棒性，因而基于该音频指纹可以有效检测出同源音频，达到更好的音视频版权保护效果。

在一个实施例中，所述音视频数据检测模块包括：第一哈希值获得单元，用于采用若干个哈希函数对所述音频指纹进行计算，得到所述音频指纹的若干个第一哈希值；哈希值检测单元，用于检测所述若干个第一哈希值与预设的Hash索引表中的各个第二哈希值是否一致；其中，所述各个第二哈希值为所述音视频版权数据库中各个音视频数据对应的哈希值。通过哈希值检索的方式能够大大提高同源视频检索的速度。

在一个实施例中，所述哈希值检测单元用于采用变化步长读取所述Hash索引表中的各个第二哈希值，检测所述若干个第一哈希值与读取的各个第二哈希值是否一致。传统技术中通过输入音频在数据库中检索时，需要匹配输入音频与数据库中音频是否一致，但是通过对音频进行编辑(例如音频截断等)有可能绕过匹配过程，无法有效检测出同源音频，该实施例在检索时采用变化步长进行查找，有一定概率使检索音频与音视频版权数据库中音频对齐，可有效解决音频截断问题，因此即使在音频经过编辑后，依然可以有效的检测出同源音频。

本发明实施例还提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述任意一项所述方法的步骤。通过从音频频域数据中选择的若干个能量极大值点生成音频指纹，可以对噪声有一定的抑制能力，即生成的音频指纹对加躁等音频形变具有很好的鲁棒性，因而基于该音频指纹可以有效检测出同源音频，达到更好的音视频版权保护效果。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明一实施例的音频指纹提取方法的流程示意图；

图2为本发明一实施例的音频指纹提取装置的结构示意图；

图3为本发明一实施例的音频指纹识别过程的整体框架图；

图4为本发明一实施例的音视频检测方法的流程示意图；

图5为本发明一实施例的音频指纹建立和更新的系统框架图；

图6为本发明一实施例的音视频检测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

传统技术中视频版权保护技术一般有两种：一种是对数字内容进行加密，但是数字内容一旦被解密就不再具有保护作用，并且密文形式的数字产品更容易引起攻击者的注意，从而受到恶意的攻击；另一种是数字水印技术，但是目前并没有一个统一的视频水印算法，被提出的一些算法在鲁棒性和实时性上不能满足系统的要求，而且市场上的视频水印产品在应用方面还不成熟，对视频水印的研究和开发还比较有限，此外，对于非盗录于己方视频网站，从他处获取的视频源，此技术则无能为力。因此这两种视频版权保护技术已无法满足形式多样的数字视频版权保护需求。

基于以上技术的缺点，传统技术中还提供了一种基于音轨的同源视频检索技术，该技术通过检索同源音频的方法，找到被版权保护的视频，具备以下优点：(1)覆盖范围更广：同源视频检索技术几乎可以覆盖所有与数据库中相似的视频文件，只要检测到输入视频的某一片段与数据库中视频相似即可扑捉到盗版视频，可以有效覆盖从己方数据库之外获取的片源；(2)更为安全：传统方法对数字内容进行加密，一旦被解密就不再具有保护作用，而音频检索技术无法破解，因为此技术并无加密算法；(3)操作简单：无需设计加密和解密算法，直接输入数据即可。

但是，本发明的发明人经研究发现，上述基于音轨的同源视频检索技术在输入音频在数据库中检索时，需要匹配输入音频与数据库中音频是否一致，但是通过对音频进行编辑(音频截断、降采样、加噪等)有可能绕过匹配过程，因此无法有效的检测出同源音频。因此，为了解决该问题，本发明提供了一种音频指纹提取方法和装置、音视频检测方法和装置及终端。下面对本发明的具体实施方式进行详细介绍。

首先结合附图对本发明音频指纹提取方法、音频指纹提取装置以及终端的具体实施方式进行详细介绍。

如图1所示，在一个实施例中，一种音频指纹提取方法，包括：

S110、根据输入的音频时域数据获得二维的音频频域数据。

音频时域数据为时域中的音频数据。输入的音频时域数据可以是从某一段视频中提取出来的音频数据，也可以是从某一段音频中直接采集的音频数据。音频频域数据为频域中的音频数据，二维的音频频域数据即为频域中音频信号的二维频谱图。

根据音频时域数据获得音频频域数据的方式有很多种，例如，在一个实施例中，对输入的音频时域数据进行降采样处理(低通滤波、最近邻差值)，将降采样后的音频时域数据通过FFT(Fast Fourier Transformation，快速傅立叶变换)变换到频域，得到频域中音频数据的二维频谱图，即二维的音频频域数据。

但是考虑到对音频数据进行降采样处理有可能会饶过匹配过程，因此，可选的，将输入的音频时域数据统一至指定采样频率，例如，默认降采样后采样率为8000Hz(赫兹)，可有效应对采样率变化，从而后续生成的音频指纹对降采样的音频形变具有很好的鲁棒性，即使在音频经过编辑后，依然可以有效的检测出同源音频。

S120、从所述音频频域数据中获取若干个能量极大值点。

能量极大值点为音频频域数据中的能量峰值。选取的能量极大值点的个数可以根据实际需要进行确定。选取音频频域数据中的N个能量极大值点，可以对噪声有一定的抑制能力，从而后续生成的音频指纹对加躁的音频形变具有很好的鲁棒性，即使在音频经过编辑后，依然可以有效的检测出同源音频。

从音频频域数据中获取能量极大值点有多种方式，例如，通过滤波器获取N个能量极大值点等等。可选的，滤波器可以为Haar(哈尔)小波滤波器等。

S130、根据所述若干个能量极大值点，将所述音频频域数据转化为一维的特征序列。

采用若干个能量极大值点生成一维的特征序列，从而实现对二维的音频频域数据的降维，能够更好的表征音频数据的特征。

S140、根据所述特征序列生成所述音频时域数据的音频指纹。

获得一维的特征序列后，就可以根据该特征序列生成音频指纹，该音频指纹即用于表征输入的音频时域数据的数字特征。另外，考虑到每一段音视频有时长，对一段音视频可能会进行多次抽样，例如，对一段音视频的抽样时长分别为5s(秒)、10s、30s等，那么根据每次抽样的数据输入音频时域数据后就可以得到一个音频指纹，假设对一段音视频进行Y次抽样，那么就得到Y个音频指纹，则这Y个音频指纹都用于表征这一段音视频的数字特征。

在一个实施例中，所述根据所述若干个能量极大值点，将所述音频频域数据转化为一维的特征序列，可以包括：

S1301、将所述若干个能量极大值点采用预设进制的不同数值进行标记，得到所述若干个能量极大值点的标识。

具体采用进制可以根据实际需要进行确定，考虑到目前计算机通常采用二进制的数据进行计算，所以，可选的，可以将各个能量极大值点采用二进制的数值进行标记。

S1302、将若干个标识按照设定规则依次排列拼接，得到一维的特征序列。

设定规则可以根据用户需要自行设置，例如，采用获取能量极大值点的顺序对各个标识进行排列拼接，或者，采用能量极大值点所对应频率的大小顺序对各个标识进行排列拼接等。排列拼接后的序列即为一维的特征序列，通过该种方式就可以将二维频谱图降为一维的特征序列。如果以二进制标记各个能量极大值点，那么此时得到的特征序列即为bit(比特)序列。特征序列的长度由标识和选取的能量极大值点的个数确定，例如长度为8192。

在一个实施例中，所述将所述若干个能量极大值点采用预设进制的不同数值进行标记，可以包括：

S1301a、当某一个能量极大值点为正数时，将该能量极大值点采用预设进制的第一数值进行标记；

考虑到目前计算机一般采用的是二进制的方式，所以，优选的，预设进制为二进制，但是本发明并不对此作出限定。另外，为了更为简洁的标记各个能量极大值点，可以采用两位数对能量极大值点进行标记，例如，当一个能量极大值点为正数时，则将该能量极大值点标记为01，但是本发明并不对此作出限定。

S1301b、当某一个能量极大值点为负数时，将该能量极大值点采用预设进制的第二数值进行标记；

同理，考虑到目前计算机一般采用的是二进制的方式，所以，优选的，预设进制为二进制，但是本发明并不对此作出限定。另外，为了更为简洁的标记各个能量极大值点，可以采用两位数对能量极大值点进行标记，例如，当一个能量极大值点为负数时，则将该能量极大值点标记为10，但是本发明并不对此作出限定。

S1301c、当某一个能量极大值点为0时，将该能量极大值点采用预设进制的第三数值进行标记；其中，所述第一数值、所述第二数值和所述第三数值均不相同。

同理，考虑到目前计算机一般采用的是二进制的方式，所以，优选的，预设进制为二进制，但是本发明并不对此作出限定。另外，为了更为简洁的标记各个能量极大值点，可以采用两位数对能量极大值点进行标记，例如，当一个能量极大值点为0时，则将该能量极大值点标记为00，但是本发明并不对此作出限定。

需要说明的是，本发明并不限制于上述方式对能量极大值点进行标记，用户还可以采用其它方式对能量极大值点进行标记，例如按照能量极大值点的具体情况划分为6个区间，每一个区间采用一个预设进制的数值进行标记等等。

为了更好的理解步骤S130，下面以一个简单的例子进行说明。

假设从音频频域系数(即音频频域数据)中依次选择出能量极大值点1、能量极大值点2、能量极大值3、能量极大值4、能量极大值5和能量极大值6，其中，能量极大值1和能量极大值6为正数，能量极大值2、能量极大值3和能量极大值4为负数，能量极大值5为0，正数标记为01，负数标记为10，其它标记为00，则生成的bit序列可以为(011010100001)。

考虑到一维的特征序列一般长度较长，后续匹配时检索较为复杂，在一个实施例中，所述根据所述特征序列生成所述音频时域数据的音频指纹，可以包括：

S1401、将所述特征序列按照预设排序规则进行若干次排序。

预设排序规则可以根据实际需要进行设置，例如，第一次随机排序向右移动一位，第二次随机排序向右移动两位......；或者，第一次随机排序向左移动一位，第二次随机排序向左移动两位……。排序的次数M也可以根据实际需要进行设置，例如排序10次等等。

S1402、获取设定值在每次排序后的特征序列中第N次出现的位置；其中，N为大于等于1的整数。

设定值为选取的特征序列中的某一数值，可以根据实际需要进行确定，例如特征序列为二进制序列，则设定值可以为1。第N次出现的位置也可以根据实际需要进行确定，例如，可以设置在特征序列中第1次出现的位置，也可以设置在特征序列中第2次出现的位置等等。第N次出现的位置可以设置为从左到右第N次出现的位置，也可以设置为从右向左第N次出现的位置。

S1403、将若干个位置分别转换为预设进制的数值。

考虑到目前计算机采用二进制的方式，所以，优选的，预设进制为二进制。每一个位置可以用一个字节进行表示。将位置，例如20，转换为预设进制的数值可以采用现有技术中已有的方式实现。

S1404、根据转换后的各个数值生成所述音频时域数据的音频指纹。

将M次排序后位置所转换的数值依次排列拼接，就可以生成一个M字节长度的特征向量，该特征向量即为音频时域数据的音频指纹。

基于同一发明构思，本发明实施例还提供一种音频指纹提取装置，如图2所示，所述装置包括：

音频频域数据获得模块110，用于根据输入的音频时域数据获得二维的音频频域数据；

能量极大值获取模块120，用于从所述音频频域数据中获取若干个能量极大值点；

音频频域数据转化模块130，用于根据所述若干个能量极大值点，将所述音频频域数据转化为一维的特征序列；

音频指纹生成模块140，用于根据所述特征序列生成所述音频时域数据的音频指纹。

在一个实施例中，所述音频频域数据转化模块130包括：标识获得单元，用于将所述若干个能量极大值点采用预设进制的不同数值进行标记，得到所述若干个能量极大值点的标识；特征序列获得单元，用于将若干个标识按照设定规则依次排列拼接，得到一维的特征序列。通过对若干个能量极大值点的标识生成特征序列，对噪声具有一定的抑制能力。

在一个实施例中，所述音频指纹生成模块140包括：排序单元，用于将所述特征序列按照预设排序规则进行若干次排序；位置获取单元，用于获取设定值在每次排序后的特征序列中第N次出现的位置；其中，N为大于等于1的整数；数值转换单元，用于将若干个位置分别转换为预设进制的数值；音频指纹生成单元，用于根据转换后的各个数值生成所述音频时域数据的音频指纹。基于该种方式生成的音频指纹可以有效检测出同源音频，达到更好的音视频版权保护效果。

上述音频指纹提取装置的其它技术特征与上述音频指纹提取方法的技术特征相同，在此不予赘述。

本发明实施例还提供了一种终端，所述终端包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述任意一项所述方法的步骤。

然后从音视频数据检测方法、音视频数据检测装置以及终端的角度出发，对本发明的具体实施方式进行详细介绍。

首先，对本发明音频指纹识别过程的整体框架图进行简单介绍。如图3所示，为音频指纹识别过程的整体框架图，从该图3可以看出，音频指纹识别过程包括：采集音频信号；从音频信号中提取音频指纹；根据提取的音频指纹进行音频指纹匹配；输出音频指纹匹配结果。需要说明的是，附图虽然分为输入端和服务器端，但是本发明并不对此作出限定，例如，音频指纹识别过程还可以仅在一个终端中实现。

下面结合实施例对本发明音视频数据检测方法的具体实施方式进行详细介绍。

如图4所示，在一个实施例中，一种音视频检测方法，包括：

S210、从待检测的音视频数据中提取音频时域数据。

音视频数据为音频数据或者视频数据。用户可以直接上传音视频数据，也可以将音视频数据连接的URL(Uniform Resource Locator，统一资源定位符)上传。音频时域数据可以是从某一段视频中提取出来的音频数据，也可以是从某一段音频中直接采集的音频数据。

S220、根据所述音频时域数据获得二维的音频频域数据。

音频时域数据为时域中的音频数据。音频频域数据为频域中的音频数据，二维的音频频域数据即为频域中音频信号的二维频谱图。

根据音频时域数据获得音频频域数据的方式有很多种，例如，在一个实施例中，对输入的音频时域数据进行降采样处理(低通滤波、最近邻差值)，将降采样后的音频时域数据通过FFT变换到频域，得到频域中音频数据的二维频谱图，即二维的音频频域数据。

但是考虑到对音频数据进行降采样处理有可能会饶过匹配过程，因此，可选的，将输入的音频时域数据统一至指定采样频率，例如，默认降采样后采样率为8000Hz，可有效应对采样率变化，从而后续生成的音频指纹对降采样的音频形变具有很好的鲁棒性，即使在音频经过编辑后，依然可以有效的检测出同源音频。

S230、从所述音频频域数据中获取若干个能量极大值点。

从音频频域数据中获取能量极大值点有多种方式，例如，通过滤波器获取N个能量极大值点等等。可选的，滤波器可以为Haar小波滤波器等。

S240、根据所述若干个能量极大值点，将所述音频频域数据转化为一维的特征序列。

S250、根据所述特征序列生成所述音频时域数据的音频指纹。

获得一维的特征序列后，就可以根据该特征序列生成音频指纹，该音频指纹即用于表征输入的音频时域数据的数字特征。另外，考虑到每一段音视频有时长，对一段音视频可能会进行多次抽样，例如，对一段音视频的抽样时长分别为5s、10s、30s等，那么根据每次抽样的数据输入音频时域数据后就可以得到一个音频指纹，假设对一段音视频进行Y次抽样，那么就得到Y个音频指纹，则这Y个音频指纹都用于表征这一段音视频的数字特征。

S260、根据所述音频指纹，检测所述待检测的音视频数据与预设的音视频版权数据库中各个音视频数据是否一致。

预设的音频版权数据库存储有受版权保护的各个音视频数据以及各个音视频数据对应的音频指纹，音频指纹生成的方式与上述方式相同。生成待检测音视频数据对应的音频指纹后，将生成的该音频指纹与数据库中的各个音频指纹进行比对，如果搜寻到一致的音频指纹，则反馈与该音频指纹对应的音视频数据的ID以及音视频数据名称、作者等额外信息，如果未搜索到一致的音频指纹，则反馈数据库中无此音视频数据，则同意该音视频数据的发布。

S2401、将所述若干个能量极大值点采用预设进制的不同数值进行标记，得到所述若干个能量极大值点的标识。

S2402、将若干个标识按照设定规则依次排列拼接，得到一维的特征序列。

设定规则可以根据用户需要自行设置，例如，采用获取能量极大值点的顺序对各个标识进行排列拼接，或者，采用能量极大值点所对应频率的大小顺序对各个标识进行排列拼接等。排列拼接后的序列即为一维的特征序列，通过该种方式就可以将二维频谱图降为一维的特征序列。如果以二进制标记各个能量极大值点，那么此时得到的特征序列即为bit序列。特征序列的长度由标识和选取的能量极大值点的个数确定。

S2401a、当某一个能量极大值点为正数时，将该能量极大值点采用预设进制的第一数值进行标记；

S2401b、当某一个能量极大值点为负数时，将该能量极大值点采用预设进制的第二数值进行标记；

S2401c、当某一个能量极大值点为0时，将该能量极大值点采用预设进制的第三数值进行标记；其中，所述第一数值、所述第二数值和所述第三数值均不相同。

S2501、将所述特征序列按照预设排序规则进行若干次排序。

S2502、获取设定值在每次排序后的特征序列中第N次出现的位置；其中，N为大于等于1的整数。

S2503、将若干个位置分别转换为预设进制的数值。

S2504、根据转换后的各个数值生成所述音频时域数据的音频指纹。

为了提高同源视频检索的速度，在一个实施例中，所述根据所述音频指纹，检测所述待检测的音视频数据与预设的音视频版权数据库中的音视频数据是否一致，可以包括：

S2601、采用若干个哈希函数对所述音频指纹进行计算，得到所述音频指纹的若干个第一哈希值。

hash函数(哈希函数)的个数可以根据实际需要进行确定。另外，如果对一段音视频数据进行Y次抽样，每次抽样都会获得一个音频指纹，那么总共获得Y个音频指纹，选择k个hash函数分别对每一个音频指纹求哈希值，则每一个音频指纹可以得到k个哈希值，该段音视频数据总共得到Y*k个哈希值，即Y*k个哈希值用于表征该段音视频数据的数字特征。

S2602、检测所述若干个第一哈希值与预设的Hash索引表中的各个第二哈希值是否一致；其中，所述各个第二哈希值为所述音视频版权数据库中各个音视频数据对应的哈希值。

Hash索引表中的各个第二哈希值获得方式与上述步骤相同。如图5所示，为一实施例的音视频版权数据库各个音视频数据的音频指纹建立和更新的系统框架图，从该系统框架图可以看出，音频指纹建立和更新过程包括：从构建的音视频版权数据中提取中各个音视频数据的音频指纹，然后根据各个音频指纹建立hash索引表，该hash索引表用于音频指纹的快速检索，当有音视频数据更新时，提取更新音视频数据的音频指纹，然后根据更新的音频指纹更新hash索引表。

音频指纹存入数据库时一般采用固定步长加窗处理，即对音频进行音频截断的编辑，如果通过hash值直接匹配检索音频以及数据库中音频，则很大可能绕过匹配过程，无法有效检测出同源音频。因此，针对该缺陷，在一个实施例中，所述检测所述若干个第一哈希值与预设的Hash索引表中的各个第二哈希值是否一致，可以包括：S2602a、采用变化步长读取所述Hash索引表中的各个第二哈希值；S2602b、检测所述若干个第一哈希值与读取的各个第二哈希值是否一致。在检索时采用变化步长进行查找，有一定概率使检索音频与音视频版权数据库中音频对齐，可有效解决音频截断问题，因此即使在音频经过编辑后，依然可以有效的检测出同源音频。

基于同一发明构思，本发明实施例还提供了一种音视频检测装置，如图6所示，所述装置包括：

音频时域数据提取模块210，用于从待检测的音视频数据中提取音频时域数据；

音频频域数据获得模块220，用于根据所述音频时域数据获得二维的音频频域数据；

能量极大值获取模块230，用于从所述音频频域数据中获取若干个能量极大值点；

音频频域数据转化模块240，用于根据所述若干个能量极大值点，将所述音频频域数据转化为一维的特征序列；

音频指纹生成模块250，用于根据所述特征序列生成所述音频时域数据的音频指纹；

音视频数据检测模块260，用于根据所述音频指纹，检测所述待检测的音视频数据与预设的音视频版权数据库中各个音视频数据是否一致。

在一个实施例中，所述音视频数据检测模块260包括：第一哈希值获得单元，用于采用若干个哈希函数对所述音频指纹进行计算，得到所述音频指纹的若干个第一哈希值；哈希值检测单元，用于检测所述若干个第一哈希值与预设的Hash索引表中的各个第二哈希值是否一致；其中，所述各个第二哈希值为所述音视频版权数据库中各个音视频数据对应的哈希值。通过哈希值检索的方式能够大大提高同源视频检索的速度。

上述音视频检测装置的其他技术特征与上述音视频检测方法的技术特征相同，在此不予赘述。

本发明实施例还提供了一种终端，所述终端包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意一项所述方法的步骤。

上述音频指纹提取方法和装置、音视频检测方法和装置及终端，提供了一种基于音频指纹检索的音视频版权保护机制，在运营和维护过程中，可以快速检验视频版权数据库中是否存在输入的音视频。其与现有技术相互比较时，具备以下优点：

1、提供了一种快速且低成本的音频指纹生成机制，这种音频指纹对加噪和降采样等音频形变具有很好的鲁棒性，即使在音频经过编辑后，基于生成的该音频指纹依然能够有效检测出同源音频；

2、提供了一种快速且低成本的音频检测机制，该音频检测机制对音频截断等音频形变具有很好的鲁棒性，即使在音频经过编辑后，依然可以有效的检测出同源音频。

在本发明各实施例中的各功能单元可集成在一个处理模块中，也可以各个单元单独物理存在，也可以两个或两个以上单元集成于一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取的存储介质中。所述存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random AcceSS Memory，随即存储器)、EPROM(EraSable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，存储介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。可以是只读存储器，磁盘或光盘等。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频指纹提取方法，其特征在于，所述方法包括：

根据输入的音频时域数据获得二维的音频频域数据；

从所述音频频域数据中获取若干个能量极大值点；

根据所述特征序列生成所述音频时域数据的音频指纹。

2.根据权利要求1所述的音频指纹提取方法，其特征在于，所述根据所述若干个能量极大值点，将所述音频频域数据转化为一维的特征序列，包括：

将所述若干个能量极大值点采用预设进制的不同数值进行标记，得到所述若干个能量极大值点的标识；

将若干个标识按照设定规则依次排列拼接，得到一维的特征序列。

3.根据权利要求2所述的音频指纹提取方法，其特征在于，所述将所述若干个能量极大值点采用预设进制的不同数值进行标记，包括：

当某一个能量极大值点为正数时，将该能量极大值点采用预设进制的第一数值进行标记；

当某一个能量极大值点为负数时，将该能量极大值点采用预设进制的第二数值进行标记；

当某一个能量极大值点为0时，将该能量极大值点采用预设进制的第三数值进行标记；其中，所述第一数值、所述第二数值和所述第三数值均不相同。

4.根据权利要求1至3任意一项所述的音频指纹提取方法，其特征在于，所述根据所述特征序列生成所述音频时域数据的音频指纹，包括：

将所述特征序列按照预设排序规则进行若干次排序；

获取设定值在每次排序后的特征序列中第N次出现的位置；其中，N为大于等于1的整数；

将若干个位置分别转换为预设进制的数值；

根据转换后的各个数值生成所述音频时域数据的音频指纹。

5.一种音视频检测方法，其特征在于，所述方法包括：

从待检测的音视频数据中提取音频时域数据；

根据所述音频时域数据获得二维的音频频域数据；

从所述音频频域数据中获取若干个能量极大值点；

根据所述特征序列生成所述音频时域数据的音频指纹；

6.根据权利要求5所述的音视频检测方法，其特征在于，所述根据所述音频指纹，检测所述待检测的音视频数据与预设的音视频版权数据库中的音视频数据是否一致，包括：

采用若干个哈希函数对所述音频指纹进行计算，得到所述音频指纹的若干个第一哈希值；

检测所述若干个第一哈希值与预设的Hash索引表中的各个第二哈希值是否一致；其中，所述各个第二哈希值为所述音视频版权数据库中各个音视频数据对应的哈希值。

7.根据权利要求6所述的音视频检测方法，其特征在于，所述检测所述若干个第一哈希值与预设的Hash索引表中的各个第二哈希值是否一致，包括：

采用变化步长读取所述Hash索引表中的各个第二哈希值；

检测所述若干个第一哈希值与读取的各个第二哈希值是否一致。

8.一种音频指纹提取装置，其特征在于，所述装置包括：

9.根据权利要求8所述的音频指纹提取装置，其特征在于，所述音频频域数据转化模块包括：

标识获得单元，用于将所述若干个能量极大值点采用预设进制的不同数值进行标记，得到所述若干个能量极大值点的标识；

特征序列获得单元，用于将若干个标识按照设定规则依次排列拼接，得到一维的特征序列。

10.根据权利要求8或9所述的音频指纹提取装置，其特征在于，所述音频指纹生成模块包括：

排序单元，用于将所述特征序列按照预设排序规则进行若干次排序；

位置获取单元，用于获取设定值在每次排序后的特征序列中第N次出现的位置；其中，N为大于等于1的整数；

数值转换单元，用于将若干个位置分别转换为预设进制的数值；

音频指纹生成单元，用于根据转换后的各个数值生成所述音频时域数据的音频指纹。

11.一种音视频检测装置，其特征在于，所述装置包括：

12.根据权利要求11所述的音视频检测装置，其特征在于，所述音视频数据检测模块包括：

第一哈希值获得单元，用于采用若干个哈希函数对所述音频指纹进行计算，得到所述音频指纹的若干个第一哈希值；

哈希值检测单元，用于检测所述若干个第一哈希值与预设的Hash索引表中的各个第二哈希值是否一致；其中，所述各个第二哈希值为所述音视频版权数据库中各个音视频数据对应的哈希值。

13.根据权利要求12所述的音视频检测装置，其特征在于，所述哈希值检测单元用于采用变化步长读取所述Hash索引表中的各个第二哈希值，检测所述若干个第一哈希值与读取的各个第二哈希值是否一致。

14.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任意一项所述方法的步骤。