CN117807564A

CN117807564A - 音频数据的侵权识别方法、装置、设备及介质

Info

Publication number: CN117807564A
Application number: CN202410126112.5A
Authority: CN
Inventors: 潘颂声; 李鹏; 刘华平; 赵翔宇; 金强; 李宜烜; 章臻; 陈锦海
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2024-01-29
Filing date: 2024-01-29
Publication date: 2024-04-02

Abstract

本发明的实施方式提供了一种音频数据的侵权识别方法、装置、设备及介质。通过先从多个候选音频数据中，确定与目标音频数据的整体相似度满足第一阈值范围的第一音频数据、以及整体相似度满足第二阈值范围的第二音频数据，再从第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据，然后从第二音频数据中除第三音频数据之外的第四音频数据中，确定与目标音频数据的歌词相似度满足第三阈值范围的第五音频数据，从而将第一音频数据、第三音频数据、第五音频数据和第四音频数据中除第五音频数据之外的第六音频数据确定为目标音频数据的侵权音频数据，以达到通过分层召回策略实现侵权音频数据识别的效果，提高识别效率和识别准确性。

Description

音频数据的侵权识别方法、装置、设备及介质

技术领域

本发明的实施方式涉及多媒体技术领域，更具体地，本发明的实施方式涉及一种音频数据的侵权识别方法、装置、设备及介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着互联网技术的发展，音频数据(如歌曲)版权的保护变得越来越重要。而独家版权作为音频数据版权的一种具体表现形式，可以更加具体、更加明确地实现版权的控制，以将某个音频数据的版权授予给某个特定的音频播放平台(如音频播放应用)。

相关技术中，为了防止音频播放平台的独家版权被盗用，可以对外部平台已上线的音频数据进行校验，以确定外部平台已上线的音频数据中是否包括自家独家版权的音频数据。

在上述实现过程中，准确识别外部平台已上线的音频数据中是否包括自家独家版权的音频数据，对音频数据的独家版权保护至关重要。

发明内容

在本上下文中，本发明的实施方式期望提供一种音频数据的侵权识别方法、装置、设备及介质，以提高音频数据侵权与否的识别准确性，为保护音乐版权提供有力支撑。

在本发明实施方式的第一方面中，提供了一种方法音频数据的侵权识别方法，该方法包括：

从多个候选音频数据中，确定与目标音频数据的整体相似度满足第一阈值范围的第一音频数据、以及与目标音频数据的整体相似度满足第二阈值范围的第二音频数据；

从第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据；

从第四音频数据中，确定与目标音频数据的歌词相似度满足第三阈值范围的第五音频数据，第四音频数据为第二音频数据中除第三音频数据之外的音频数据；

将第一音频数据、第三音频数据、第五音频数据和第六音频数据确定为目标音频数据的侵权音频数据，第六音频数据为第四音频数据中除第五音频数据之外的音频数据。

在本发明的一个实施例中，从多个候选音频数据中，确定与目标音频数据的整体相似度满足第一阈值范围的第一音频数据、以及与目标音频数据的整体相似度满足第二阈值范围的第二音频数据，包括：

基于目标音频数据以及各个候选音频数据分别进行编码，得到目标音频数据的第一音频向量以及每个候选音频数据的第二音频向量；

基于第一音频向量和各个第二音频向量的向量距离，确定目标音频数据和各个候选音频数据之间的整体相似度；

基于目标音频数据和各个候选音频数据之间的整体相似度，确定候选音频数据中整体相似度满足第一阈值范围的第一音频数据、以及整体相似度满足第二阈值范围的第二音频数据。

在本发明的一个实施例中，基于目标音频数据以及各个候选音频数据分别进行编码，得到目标音频数据的第一音频向量以及每个候选音频数据的第二音频向量，包括：

将目标音频数据以及各个候选音频数据分别输入至翻唱识别模型，通过翻唱识别模型对目标音频数据以及各个候选音频数据分别进行编码，以输出目标音频数据的第一音频向量以及每个候选音频数据的第二音频向量。

在本发明的一个实施例中，基于目标音频数据和各个候选音频数据之间的整体相似度，确定候选音频数据中整体相似度满足第一阈值范围的第一音频数据、以及整体相似度满足第二阈值范围的第二音频数据，包括：

基于目标音频数据和各个候选音频数据之间的整体相似度，确定候选音频数据中整体相似度大于或等于第一相似度阈值的第一音频数据，并确定候选音频数据中整体相似度大于第二相似度阈值且小于第一相似度阈值的第二音频数据。

在本发明的一个实施例中，从第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据，包括：

获取目标音频数据的各个音频片段的第一指纹信息，对于任一音频片段，第一指纹信息中包括音频片段中第一特征点对应的特征点指纹，第一特征点为音频片段中能量值满足第一条件的特征点，特征点指纹至少包括第一特征点对应的时间和频率；

获取每个第二音频数据的第二指纹信息，对于任一第二音频数据，第二指纹信息中包括第二音频数据中第二特征点对应的特征点指纹，第二特征点为第二音频数据中能量值满足第二条件的特征点；

确定第一指纹信息和第二指纹信息中所包括的相同频率，基于相同频率在第一指纹信息中对应的时间以及相同频率在第二指纹信息中对应的时间，确定指纹时间差；

基于指纹时间差，从第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据。

在本发明的一个实施例中，获取目标音频数据的各个音频片段的第一指纹信息，包括：

按照预设片段时长，将目标音频数据划分为多个音频片段；

对于任一音频片段，对音频片段进行分帧处理，得到音频片段的多个第一音频帧；

获取每个第一音频帧的对数域频谱特征，以得到音频片段的对数域频谱；

对音频片段的对数域频谱进行均值规整，以得到音频片段的频域信息，频域信息用于指示各个时间对应的频率；

基于音频片段的频域信息，通过滤波器，确定多个局部最大值点，局部最大值点为滤波器覆盖区域内能量值最大的频率点；

通过固定大小的滑窗，从多个局部最大值点中确定多个极值点，作为多个第一特征点；

基于第一特征点对应的时间和频率，获取音频片段的第一指纹信息。

在本发明的一个实施例中，获取每个第二音频数据的第二指纹信息，包括：

对于任一第二音频数据，对第二音频数据进行分帧处理，得到第二音频数据的多个音频帧；

获取每个音频帧的对数域频谱特征，以得到第二音频数据的对数域频谱；

对第二音频数据的对数域频谱进行均值规整，以得到第二音频数据的频域信息，频域信息用于指示各个时间对应的频率；

基于第二音频数据的频域信息，通过滤波器，确定多个局部最大值点，局部最大值点为滤波器覆盖区域内能量值最大的频率点；

通过固定大小的滑窗，从多个局部最大值点中确定多个极值点，作为多个第二特征点；

基于多个第二特征点对应的时间和频率，获取第二音频数据的第二指纹信息。

在本发明的一个实施例中，基于指纹时间差，从第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据，包括：

对于任一第二音频数据，确定第二音频数据对应的多个指纹时间差中出现次数最多的目标指纹时间差；

基于目标指纹时间差的出现次数以及目标音频数据所包括的音频片段的个数，确定目标音频数据在第二音频数据中的出现完整度；

将出现完整度大于完整度阈值的第二音频数据确定为第三音频数据。

在本发明的一个实施例中，基于目标指纹时间差的出现次数以及目标音频数据所包括的音频片段的个数，确定目标音频数据在第二音频数据中的出现完整度，包括：

将目标指纹差的出现次数大于次数阈值的音频片段，确定为出现在第二音频数据中的音频片段；

基于目标音频数据所包括的音频片段中出现在第二音频数据中的音频片段的个数、以及目标音频数据所包括的音频片段的个数，确定目标音频数据在第二音频数据中的出现完整度。

在本发明的一个实施例中，从第四音频数据中，确定与目标音频数据的歌词相似度满足第三阈值范围的第五音频数据，包括：

对于第四音频数据和目标音频数据中的任一音频数据，基于音频数据的歌词文本进行分词处理，得到音频数据对应的词序列；

对于任一第四音频数据，基于第四音频数据对应的词序列和目标音频数据对应的词序列，确定公共词序列，公共词序列为最大公共子串、最大公共子序列和局部最大公共子串中的任一项；

基于各个第四音频数据对应的公共词序列，从第四音频数据中确定与目标音频数据的歌词相似度满足第三阈值范围的第五音频数据。

在本发明的一个实施例中，对于任一第四音频数据，基于第四音频数据对应的词序列和目标音频数据对应的词序列，确定公共词序列，包括：

获取第四音频数据对应的词序列和目标音频数据对应的词序列中较短词序列的序列长度；

若较短词序列的序列长度小于等于第一长度阈值，则获取第四音频数据对应的词序列和目标音频数据对应的词序列的最大公共子串作为公共词序列；

若较短词序列的序列长度大于第一长度阈值，则获取第四音频数据对应的词序列和目标音频数据对应的词序列的最大公共子序列和局部最大公共子串，作为公共词序列。

在本发明的一个实施例中，基于各个第四音频数据对应的公共词序列，从第四音频数据中确定与目标音频数据的歌词相似度满足第三阈值范围的第五音频数据，包括：

对于任一第四音频数据，若较短词序列的序列长度小于等于第一长度阈值，则基于作为公共词序列的最大公共子串的序列长度、第四音频数据对应的词序列的序列长度和目标音频数据对应的词序列的序列长度，确定歌词相似度；

若歌词相似度大于第三相似度阈值，则将第四音频数据确定为第五音频数据。

对于任一第四音频数据，若较短词序列的序列长度大于第一长度阈值，则基于作为公共词序列的最大公共子序列的序列长度、第四音频数据对应的词序列的序列长度和目标音频数据对应的词序列的序列长度，确定第一歌词相似度，并基于作为公共词序列的局部最大公共子串的序列长度、第四音频数据对应的词序列的序列长度和目标音频数据对应的词序列的序列长度，确定第二歌词相似度；

若第一歌词相似度大于第四相似度阈值，且第二歌词相似度大于第五相似度阈值，则将第四音频数据确定为第五音频数据。

在本发明的一个实施例中，从多个候选音频数据中，确定与目标音频数据的整体相似度满足第一阈值范围的第一音频数据、以及与目标音频数据的整体相似度满足第二阈值范围的第二音频数据之前，该方法还包括：

获取目标音频数据的属性信息以及多个已上线音频数据的属性信息；

获取属性信息与目标音频数据的属性信息匹配的已上线音频数据，作为候选音频数据。

在本发明的一个实施例中，获取属性信息与目标音频数据的属性信息匹配的已上线音频数据，作为候选音频数据之后，该方法还包括：

确定各个候选音频数据的音乐时长，音乐时长为候选音频数据中仅包含背景音乐的部分的时长；

将音乐时长大于或等于第一时长阈值的候选音频数据，作为用于侵权识别的候选音频数据。

在本发明的一个实施例中，确定各个候选音频数据的音乐时长，包括：

对于任一候选音频数据，通过预测模型，基于候选音频数据的频谱，确定候选音频数据中每帧音频包含人声的概率；

基于候选音频数据中每帧音频包含人声的概率，确定候选音频数据中包含人声的音频帧的时间戳；

基于候选音频数据中包含人声的音频帧的时间戳以及候选音频数据的时长，确定候选音频数据的音乐时长。

在本发明的一个实施例中，将第一音频数据、第三音频数据、第五音频数据和第六音频数据确定为目标音频数据的侵权音频数据之后，该方法还包括：

分别确定第一音频数据、第三音频数据、第五音频数据和第六音频数据的侵权类型。

在本发明的一个实施例中，分别确定第一音频数据、第三音频数据、第五音频数据和第六音频数据的侵权类型，包括：

对于第一音频数据，若第一音频数据的时长与目标音频数据的时长之差小于第二时长阈值，则将第一音频数据的侵权类型确定为第一侵权类型，第一侵权类型用于指示音频数据为目标音频数据的完整录音；

对于第一音频数据，若第一音频数据的时长与目标音频数据的时长之差大于等于第二时长阈值，则将第一音频数据的侵权类型确定为第二侵权类型，第二侵权类型用于指示音频数据为目标音频数据的部分录音；

对于第三音频数据，若第三音频数据的对应的出现完整度为预设值，则将第三音频数据的侵权类型确定为第一侵权类型；

对于第三音频数据，若第三音频数据的对应的出现完整度为非预设值，则将第三音频数据的侵权类型确定为第二侵权类型；

对于第五音频数据，将第五音频数据的侵权类型确定为第三侵权类型，第三侵权类型用于指示音频数据的歌词侵权；

对于第六音频数据，将第六音频数据的侵权类型确定为第四侵权类型，第四侵权类型用于指示音频数据的旋律侵权。

在本发明实施方式的第二方面中，提供了一种音频数据的侵权识别装置，该装置包括：

第一确定模块，用于从多个候选音频数据中，确定与目标音频数据的整体相似度满足第一阈值范围的第一音频数据、以及与目标音频数据的整体相似度满足第二阈值范围的第二音频数据；

第一确定模块，还用于从第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据；

第一确定模块，还用于从第四音频数据中，确定与目标音频数据的歌词相似度满足第三阈值范围的第五音频数据，第四音频数据为第二音频数据中除第三音频数据之外的音频数据；

第二确定模块，用于将第一音频数据、第三音频数据、第五音频数据和第六音频数据确定为目标音频数据的侵权音频数据，第六音频数据为第四音频数据中除第五音频数据之外的音频数据。

在本发明实施方式的第三方面中，提供了一种计算设备，计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行程序时实现如上述第一方面以及第一方面的任意实施例所提供的音频数据的侵权识别方法所执行的操作。

在本发明实施方式的第四方面中，提供了一种计算机可读存储介质，计算机可读存储介质上存储有程序，程序被处理器执行如上述第一方面以及第一方面的任意实施例所提供的音频数据的侵权识别方法所执行的操作。

在本发明实施方式的第五方面中，提供了一种计算机程序产品，计算机程序产品包括计算机程序，程序被处理器执行时实现上述第一方面以及第一方面的任意实施例所提供的音频数据的侵权识别方法所执行的操作。

根据本发明实施方式所提供的音频数据的侵权识别方法，可以先从多个候选音频数据中，确定与目标音频数据的整体相似度满足第一阈值范围的第一音频数据、以及与目标音频数据的整体相似度满足第二阈值范围的第二音频数据，再从第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据，然后从第二音频数据中除第三音频数据之外的第四音频数据中，确定与目标音频数据的歌词相似度满足第三阈值范围的第五音频数据，从而将第一音频数据、第三音频数据、第五音频数据和第四音频数据中除第五音频数据之外的第六音频数据确定为目标音频数据的侵权音频数据，以达到通过分层召回策略实现侵权音频数据识别的效果，提高侵权音频数据的识别效率和识别准确性。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1是本发明根据一示例性实施例示出的一种音频数据的侵权识别方法的流程图；

图2是本发明根据一示例性实施例示出的一种基于音频指纹实现侵权识别的处理过程示意图；

图3是本发明根据一示例性实施例示出的一种基于音频指纹实现侵权识别的处理过程示意图；

图4是本发明根据一示例性实施例示出的一种基于歌词文本实现侵权识别的处理过程示意图；

图5是本发明根据一示例性实施例示出的一种基于歌词文本公共词序列的决策过程示意图；

图6是本发明根据一示例性实施例示出的一种音频数据侵权识别过程的流程示意图；

图7是本发明根据一示例性实施例示出的一种音频数据的侵权识别装置的框图；

图8是本发明根据一示例性实施例示出的一种计算机可读存储介质的示意图；

图9是本发明根据一示例性实施例示出的一种计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种音频数据的侵权识别方法、装置、设备及介质。下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，随着计算机技术和移动互联网技术的飞速发展，音频数据的传播方式和消费模式发生了巨大的变化，音频数据已经由传统的硬件设备传播变成通过流媒体传播，例如，通过流媒体音乐平台(如音频播放平台)传播、通过视频网站传播、通过直播平台传播，等等。

相关技术中，各个流媒体平台为了获得更大的用户收听规模，都会极力扩展音乐数量，购入大量音频数据版权。而独家版权音频数据能够锁定用户仅在特定平台收听，对于保证用户留存有着巨大作用，因此，独家版权的保护是流媒体平台的一个重要任务。

但是，相关技术中通过对外部平台已上线的音频数据进行校验，以确定外部平台已上线的音频数据中是否包括自家独家版权的音频数据的处理方式，可能存在如下缺陷：

(1)外部平台已上线的音频数据数量较多，从而导致获取外部平台已上线音频数据所需的时间较长，成本较高；

(2)需要比对的音频数据规模庞大，检索速度较慢，检索效率较低；

(3)检测召回率十分有限，很可能出现基于原曲改编或翻唱得到的音频数据无法被识别出来的情况。

有鉴于此，本发明提出一种通过分层召回以实现侵权音频数据识别的方案，以应对相关技术中存在的不足。

应用场景总览

本发明所提供的音频数据的侵权识别方法，可以用于对多种类型的音频播放平台中的音频数据进行识别，以识别出涉及侵权的音频数据。

其中，多种类型的音频播放平台包括但不限于音频播放应用、直播应用、视频播放应用，等等，本发明实施例对音频播放平台的具体类型不加以限定。此外，所识别的音频数据可以为任意类型、任意风格的音频数据，本发明实施例对此也不加以限定。

需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

上述音频数据的侵权识别方法可以由计算设备执行，计算设备可以为服务器，如一台服务器、多台服务器、服务器集群、云计算平台等，但不限于此，计算设备还可以为其他类型的设备，本发明对计算设备的设备类型不加以限定。

示例性方法

下面结合上述有关应用场景的介绍，来对本发明所提供的音频数据的侵权识别方法进行详细介绍。

参见图1，图1是本发明根据一示例性实施例示出的一种音频数据的侵权识别方法的流程图，如图1所示，该方法包括：

S101、从多个候选音频数据中，确定与目标音频数据的整体相似度满足第一阈值范围的第一音频数据、以及与目标音频数据的整体相似度满足第二阈值范围的第二音频数据。

其中，目标音频数据可以为音频播放平台具有独家版权的音频数据，多个候选音频数据可以为其他音频播放平台中已上线的音频数据。

可选地，第一阈值范围和第二阈值范围均可以任意的取值区间，本发明对此不加以限定，仅需保证第一阈值范围的区间下限大于或等于第二阈值范围的区间上限即可。

通过从多个候选音频数据中确定与目标音频数据的整体相似度满足第一阈值范围的第一音频数据，以便可以从候选音频数据中确定出与目标音频数据属于同一音频的第一音频数据(例如，第一音频数据为目标音频数据的翻唱音频，但不限于此)，以实现侵权音频数据的初步识别。此外，通过从多个候选音频数据中确定与目标音频数据的整体相似度满足第二阈值范围的第二音频数据，以从候选音频数据中确定出作为目标音频数据的潜在相似音频的第二音频数据，用于后续召回阶段使用。

S102、从第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据。

通过从第二音频数据中确定包含目标音频数据的音频片段的第三音频数据，以召回与目标音频数据存在包含关系或部分包含关系的侵权音频数据，以实现侵权音频数据的进一步识别。

需要说明的是，对于第二音频数据中未被召回的音频数据，可以将其作为后续召回阶段使用的音频数据，也即是步骤S1032中所涉及的第四音频数据。

S103、从第四音频数据中，确定与目标音频数据的歌词相似度满足第三阈值范围的第五音频数据，第四音频数据为第二音频数据中除第三音频数据之外的音频数据。

可选地，第三阈值范围均可以任意的取值区间，本发明对此不加以限定。

通过从第四音频数据中确定与目标音频数据的歌词相似度满足第三阈值范围的第五音频数据，以便可以从第四音频数据中确定出与目标音频数据歌词相似度较高的第五音频数据，以实现侵权音频数据的更进一步识别。

S104、将第一音频数据、第三音频数据、第五音频数据和第六音频数据确定为目标音频数据的侵权音频数据，第六音频数据为第四音频数据中除第五音频数据之外的音频数据。

通过将第一音频数据、第三音频数据、第五音频数据和第四音频数据中第五音频数据之外的第六音频数据确定为目标音频数据的侵权音频数据，以达到通过三层识别召回从不同方面侵犯目标音频数据的独家版权的侵权音频数据，实现候选音频数据的逐级筛查，减少了音频数据的比对次数，提高了监控效率。

本发明先从多个候选音频数据中，确定与目标音频数据的整体相似度满足第一阈值范围的第一音频数据、以及与目标音频数据的整体相似度满足第二阈值范围的第二音频数据，再从第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据，然后从第二音频数据中除第三音频数据之外的第四音频数据中，确定与目标音频数据的歌词相似度满足第三阈值范围的第五音频数据，从而将第一音频数据、第三音频数据、第五音频数据和第四音频数据中第五音频数据之外的第六音频数据确定为目标音频数据的侵权音频数据，以达到通过分层召回策略实现侵权音频数据识别的效果，提高侵权音频数据的识别效率和识别准确性。

在介绍了本发明的基本实现过程之后，下面对本发明的各种非限制性实施方式进行介绍。

对于步骤S101，在多个候选音频数据中，确定与目标音频数据的整体相似度满足第一阈值范围的第一音频数据、以及与目标音频数据的整体相似度满足第二阈值范围的第二音频数据时，可以通过如下步骤实现：

S1011、基于目标音频数据以及各个候选音频数据分别进行编码，得到目标音频数据的第一音频向量以及每个候选音频数据的第二音频向量。

在一种可能的实现方式中，可以将目标音频数据以及各个候选音频数据分别输入至翻唱识别模型，通过翻唱识别模型对目标音频数据以及各个候选音频数据分别进行编码，以输出目标音频数据的第一音频向量以及每个候选音频数据的第二音频向量。

可选地，翻唱识别模型可以为任意类型的神经网络模型，例如，翻唱识别模型可以为循环神经网络(Recurrent Neural Network，RNN)模型，但不限于此，本发明对翻唱识别模型的具体类型不加以限定。

其中，翻唱识别模型可以预先训练好的，例如，可以采用多个翻唱组(包括原唱音频数据和翻唱音频数据)进行模型训练，以得到训练好的翻唱识别模型。

需要说明的是，训练好的翻唱识别模型可以将一个音频数据编码成一个固定维度的向量(如x₁,x₂,…,x_n)，以得到音频数据对应的音频向量。

S1012、基于第一音频向量和各个第二音频向量的向量距离，确定目标音频数据和各个候选音频数据之间的整体相似度。

在一种可能的实现方式中，可以确定分别确定第一音频向量和各个第二音频向量之间的余弦距离，作为第一音频向量和各个第二音频向量之间的向量距离，从而基于第一音频向量和各个第二音频向量之间的向量距离，确定目标音频数据和各个候选音频数据之间的整体相似度。

可选地，可以设置好不同取值的向量距离与整体相似度之间的映射关系，从而可以根据预先设置好的映射关系，基于第一音频向量和各个第二音频向量之间的向量距离，确定目标音频数据和各个候选音频数据之间的整体相似度。

需要说明的是，整体相似度和向量距离可以呈负相关关系，也即是，向量距离越小，整体相似度越大，反之，向量距离越大，整体相似度越小。

S1013、基于目标音频数据和各个候选音频数据之间的整体相似度，确定候选音频数据中整体相似度满足第一阈值范围的第一音频数据、以及整体相似度满足第二阈值范围的第二音频数据。

在一种可能的实现方式中，可以基于目标音频数据和各个候选音频数据之间的整体相似度，确定候选音频数据中整体相似度大于或等于第一相似度阈值的第一音频数据，并确定候选音频数据中整体相似度大于第二相似度阈值且小于第一相似度阈值的第二音频数据。

也即是，第一阈值范围可以为大于或等于第一相似度阈值的取值区间，第一相似度阈值可以为任意取值。例如，第一阈值范围可以为[s₁,+∞)，s₁即为第一相似度阈值。

可选地，当两个音频数据的整体相似度大于或等于第一相似度阈值时，可以确定这两个音频数据的相似度较高，这两个音频数据可以被视为属于同一音频。

或者说，当两个音频向量之间的向量距离d≤t₁时，可以确定这两个音频数据的相似度较高，这两个音频数据可以被视为属于同一音频。其中，t₁为整体相似度s₁对应的向量距离。

而第二阈值范围可以为大于第二相似度阈值且小于第一相似度阈值的取值区间，第二相似度阈值可以为小于第一相似度阈值的任意取值。例如，第二相似度阈值范围可以为(s₂,s₁)，s₂即为第二相似度阈值。

也即是，当两个音频数据的整体相似度大于第二相似度阈值且小于第一相似度阈值时，可以确定这两个音频数据相似但相似度不是很高，这两个音频数据可以被视为潜在相似音频，作为下一召回阶段的基础数据。

或者说，当两个音频数据的音频向量之间的向量距离t₁<d<t₂时，可以确定这两个音频数据相似但相似度不是很高，这两个音频数据可以被视为潜在相似音频，作为下一召回阶段的基础数据。其中，t₁为整体相似度s₁对应的向量距离，t₂为整体相似度s₂对应的向量距离。

另外，需要说明的是，对于整体相似度小于等于第二相似度阈值的两个音频数据，可以确定这两个音频数据的相似度较低，不存在侵权与被侵权的可能性。也即是，当两个音频数据的音频向量之间的向量距离d≥t₂时，可以确定这两个音频数据的相似度较低，不存在侵权与被侵权的可能性。

在通过上述实施例确定出第二音频数据之后，即可通过步骤S102，从第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据。

在一些实施例中，对于步骤S102，在从第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据时，可以通过如下步骤实现：

S1021、获取所述目标音频数据的各个音频片段的第一指纹信息，对于任一音频片段，第一指纹信息中包括音频片段中第一特征点对应的特征点指纹，第一特征点为音频片段中能量值满足第一条件的特征点，特征点指纹至少包括第一特征点对应的时间和频率。

在一种可能的实现方式中，可以按照预设片段时长，将目标音频数据划分为多个音频片段。可选地，预设片段时长可以为任意时长，例如，预设片段时长可以为5秒(s)，但不限于此，预设片段时长还可以为其他取值。

以预设片段时长为5s为例，可以对目标音频数据进行固定时长的切片处理，以将目标音频数据切换成m段时长均为5s的切片音频(也即是音频片段)，这m个音频片段可以被记为p₁,p₂,…,p_m。

对于任一音频片段，在获取该音频片段的第一指纹信息时，可以通过该音频片段进行短时傅里叶变换(Short Time Fourier Transform，STFT)实现。

在一种可能的实现方式中，对于任一音频片段，可以对该音频片段进行分帧处理，以得到该音频片段的多个第一音频帧；获取每个第一音频帧的对数域频谱特征，以得到该音频片段的对数域频谱；对该音频片段的对数域频谱进行均值规整，以得到该音频片段的频域信息，频域信息用于指示各个时间对应的频率；基于该音频片段的频域信息，通过滤波器，确定多个局部最大值点，局部最大值点为滤波器覆盖区域内能量值最大的频率点；通过固定大小的滑窗，从多个局部最大值点中确定多个极值点，作为该音频片段的多个第一特征点；基于这多个第一特征点对应的时间和频率，获取该音频片段的第一指纹信息。

可选地，可以将第一特征点对应的时间和频率，作为第一特征点的特征点指纹，从而可以将多个第一特征点的特征点指纹组成集合，作为该音频片段的第一指纹信息。

例如，可以按照每帧时长为20毫秒(ms)、帧移为10ms，将该音频片段分为多个第一音频帧，从而对每个第一音频帧进行快速傅里叶变化以提取每个第一音频帧的对数域频谱特征，从而得到该音频片段的对数域频谱。在获取到该音频片段的对数域频谱之后，可以对整个对数域频谱进行均值规整处理，以消除音量不同带来的影响，从而得到该音频片段的频域信息(如一个由时间和频率组成的二维表)。在获取到该音频片段的频域信息之后，可以采用3*3滤波器筛选出局部最大值点，再使用固定长宽的窗(w*h)作用于这些最大值点，找到每个窗中的极值点，作为该音频片段的多个第一特征点，第一特征点的信息可以包括(t,f,height)，其中，t表示时间，f表示频率，height表示特征点的能量，特征点信息中第一特征点的时间和频率即可作为第一特征点的指纹信息，如可以采用频率时间f作为指纹信息的键(key)、t作为值(value)，从而可以将多个第一特征点的特征点指纹所组成的集合作为该音频片段的第一指纹信息。

可选地，可以使用多个第一特征点的特征点指纹构建倒排索引表，以将倒排索引表作为音频片段的第一指纹信息。

S1022、获取每个第二音频数据的第二指纹信息，对于任一第二音频数据，第二指纹信息中包括第二音频数据中第二特征点对应的特征点指纹，第二特征点为第二音频数据中能量值满足第二条件的特征点，特征点指纹至少包括第一特征点对应的时间和频率。

在一种可能的实现方式中，对于任一第二音频数据，对第二音频数据进行分帧处理，得到第二音频数据的多个音频帧；获取每个音频帧的对数域频谱特征，以得到第二音频数据的对数域频谱；对第二音频数据的对数域频谱进行均值规整，以得到第二音频数据的频域信息，频域信息用于指示各个时间对应的频率；基于第二音频数据的频域信息，通过滤波器，确定多个局部最大值点，局部最大值点为滤波器覆盖区域内能量值最大的频率点；通过固定大小的滑窗，从多个局部最大值点中确定多个极值点，作为多个第二特征点；基于多个第二特征点对应的时间和频率，获取第二音频数据的第二指纹信息。

可选地，可以将第二特征点对应的时间和频率，作为第二特征点的特征点指纹，从而可以将多个第二特征点的特征点指纹组成集合，作为该第二音频数据的第二指纹信息。

例如，可以按照每帧时长为20ms、帧移为10ms，将该第二音频数据分为多个第二音频帧，从而对每个第二音频帧进行快速傅里叶变化以提取每个第二音频帧的对数域频谱特征，从而得到该第二音频数据的对数域频谱。在获取到该第二音频数据的对数域频谱之后，可以对整个对数域频谱进行均值规整处理，以消除音量不同带来的影响，从而得到该第二音频数据的频域信息(如一个由时间和频率组成的二维表)。在获取到该第二音频数据的频域信息之后，可以采用3*3滤波器筛选出局部最大值点，再使用固定长宽的窗(w*h)作用于这些最大值点，找到每个窗中的极值点，作为该第二音频数据的多个第二特征点，第二特征点的信息可以包括(t,f,height)，其中，t表示时间，f表示频率，height表示特征点的能量，特征点信息中第二特征点的时间和频率即可作为第二特征点的指纹信息，如可以采用频率f作为指纹信息的键(key)、时间t作为值(value)，从而可以将多个第二特征点的指纹信息所组成的集合作为该第二音频数据的第二指纹信息。

可选地，可以使用多个第二特征点的指纹信息构建倒排索引表，以将倒排索引表作为第二音频数据的第二指纹信息。

需要说明的是，无论是目标音频数据的音频片段还是第二音频数据，一般情况下，每秒音频可以选取出数十个特征点，特征点的多少依赖与窗的大小，也即是w和h的取值。

S1023、确定第一指纹信息和第二指纹信息中所包括的相同频率，基于相同频率在第一指纹信息中对应的时间以及相同频率在第二指纹信息中对应的时间，确定指纹时间差。

可选地，可以以音频片段的第一指纹信息中所包括的各个第一特征点的特征点指纹分别作为比对基准，在各个第二音频数据的第二指纹信息中进行检索，以实现指纹时间差的确定。

在一种可能的实现方式中，对于任一第一特征点的特征点指纹，可以以该第一特征点的特征点指纹作为输入，与每个第二音频数据所包括的第二特征点的特征点指纹进行比对，以从各个第二音频数据所包括的第二特征点中找到特征点指纹的频率与该第一特征点的特征点指纹频率相同的第二特征点，从而确定该第二特征点的特征点指纹时间与第一特征点的特征点指纹时间之间的差值，作为这两个特征点所对应的指纹时间差。

对于任一音频片段，在将该音频片段的第一指纹信息与某个第二音频数据的第二指纹信息比对之后，可以将确定出的所有指纹时间差组成一个时间差集合，以得到一个音频片段和一个第二音频数据所对应的时间差集合，以便后续统计时使用。

参见图2，图2是本发明根据一示例性实施例示出的一种基于音频指纹实现侵权识别的处理过程示意图，如图2所示，可以对目标音频数据的各个音频片段分别进行特征点提取，以得到音频片段的第一指纹信息，对各个第二音频数据分别进行特征点提取，以得到第二音频数据的第二指纹信息，从而基于音频片段的第一指纹信息和第二音频数据的第二指纹信息进行指纹检索，以确定出音频片段和第二音频数据所对应的指纹时间差，其中，一个音频片段和一个第二音频数据对应有一个指纹时间差集合，从而可以根据统计出的指纹时间差实现第二音频数据侵权与否的判断。

S1024、基于指纹时间差，从第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据。

在一种可能的实现方式中，对于任一第二音频数据，可以确定第二音频数据对应的多个指纹时间差中出现次数最多的目标指纹时间差；基于目标指纹时间差的出现次数以及目标音频数据所包括的音频片段的个数，确定目标音频数据在第二音频数据中的出现完整度；将出现完整度大于完整度阈值的第二音频数据确定为第三音频数据。

可选地，在基于目标指纹时间差的出现次数以及目标音频数据所包括的音频片段的个数，确定目标音频数据在第二音频数据中的出现完整度时，将目标指纹差的出现次数大于次数阈值的音频片段，确定为出现在第二音频数据中的音频片段；基于目标音频数据所包括的音频片段中出现在第二音频数据中的音频片段的个数、以及目标音频数据所包括的音频片段的个数，确定目标音频数据在第二音频数据中的出现完整度。

可选地，可以确定目标音频数据所包括的音频片段中出现在第二音频数据中的音频片段的个数、以及目标音频数据所包括的音频片段的个数这二者之间的比值，作为目标音频数据在第二音频数据中的出现完整度。

可以按照如下公式(1)，确定目标音频数据在第二音频数据中的出现完整度：

C＝x/m (1)

其中，C表示目标音频数据在第二音频数据中的出现完整度，x表示目标音频数据所包括的音频片段中出现在第二音频数据中的音频片段的个数，m表示目标音频数据所包括的音频片段的个数。

例如，对于任一音频片段，可以统计出该音频片段与各个第二音频数据所对应的时间差集合，每个第二音频数据会对应有一个其与该音频片段的时间差集合，对于任一时间差集合，可以统计该时间差集合中每个指纹时间差出现的次数之和，以找出最大次数的指纹时间差，作为目标指纹时间差。假设目标指纹时间差的出现次数为n，若n超过一定阈值，说明该音频片段出现在该第二音频数据中。假设目标音频数据中出现在第二音频数据的音频片段个数为x，目标音频数据所包括的音频片段的个数为m，则可以确定目标音频数据在第二音频数据中的出现完整度为x/m。

在确定出目标音频数据在第二音频数据中的出现完整度之后，即可将出现完整度大于完整度阈值的第二音频数据确定为第三音频数据，可选地，完整度阈值可以为任意取值，本发明对完整度阈值的具体取值不加以限定。

参见图3，图3是本发明根据一示例性实施例示出的一种基于音频指纹实现侵权识别的处理过程示意图，如图3所示，可以基于目标音频数据的各个音频片段(也即是音频片段1、音频片段2、…、音频片段m)分别进行指纹校验，以确定出可能包括每个音频片段的第二音频数据(也即是音频片段1的匹配结果、音频片段2的匹配结果、…、音频片段m的匹配结果)，作为第三音频数据。

需要说明的是，对于出现完整度小于或等于完整度阈值的其他第二音频数据，则可作为下一召回阶段的基础数据。也即是，可以以出现完整度小于或等于完整度阈值的其他第二音频数据作为第四音频数据，以通过步骤S103，从第四音频数据中，确定与目标音频数据的歌词相似度满足第三阈值范围的第五音频数据。

在一些实施例中，对于步骤S103，在从第四音频数据中，确定与目标音频数据的歌词相似度满足第三阈值范围的第五音频数据时，可以通过如下步骤实现：

S1031、对于第四音频数据和目标音频数据中的任一音频数据，基于音频数据的歌词文本进行分词处理，得到音频数据对应的词序列。

在一种可能的实现方式中，对于任一音频数据，可以对该音频数据的歌词文本以词或字的粒度进行切分，以得到该音频数据对应的词序列。

例如，对于中文的歌词文本，可以以字的粒度对其进行切分，以实现词序列的获取；对于英文的歌词文本，可以以单词的粒度对其进行切分，以实现词序列的获取。

可选地，音频数据的歌词文本可以是通过对音频数据进行文本识别得到的，也即是，可以对音频数据进行文本识别，以识别出音频数据的歌词文本。

可选地，在识别出歌词文本之后，还可以对歌词文本进行预处理，以过滤掉与纯粹的唱词文本内容无关的文本部分。

例如，可以对歌词文本进行预处理，以将其中所包含的时间戳信息、歌曲来源信息、以及跟唱词无关的特殊文本(如纯音乐)等进行过滤，以得到纯粹的唱词文本内容。

S1032、对于任一第四音频数据，基于第四音频数据对应的词序列和目标音频数据对应的词序列，确定公共词序列，公共词序列为最大公共子串、最大公共子序列和局部最大公共子串中的任一项。

在一种可能的实现方式中，可以获取第四音频数据对应的词序列和目标音频数据对应的词序列中较短词序列的序列长度；若较短词序列的序列长度小于等于第一长度阈值，则获取第四音频数据对应的词序列和目标音频数据对应的词序列的最大公共子串作为公共词序列；若较短词序列的序列长度大于第一长度阈值，则获取第四音频数据对应的词序列和目标音频数据对应的词序列的最大公共子序列和局部最大公共子串，作为公共词序列。

可选地，在确定第四音频数据对应的词序列和目标音频数据对应的词序列的最大公共子串时，可以采用动态规划算法实现。

可选地，在通过动态规划算法实现词序列最大公共子串的确定时，可以增加错误容忍系数σ，以在找出两个词序列所能匹配到的连续最长子串时，可以容忍歌词识别存在的识别错误，从而实现连续最长子串的确定，以便可以基于所确定出的连续最长子串实现最大公共子串的确定。

其中，错误容忍系数σ用于指示作为连续最长子串的两个词之间允许插入或缺失的字的个数，错误容忍系数σ可以为任意取值，本发明对此不加以限定。例如，错误容忍系数σ可以为5，意味着作为连续最长子串的两个词之间允许插入或缺失的字的个数为5，例如，“我和我的祖国”和“我和我们的祖国”这两个词之间插入或缺失的字的个数为1，满足错误容忍系数σ的要求，因而这两个词可以作为连续最长子串，对于作为连续最长子串的这两个词，“我和我的祖国”即为最大公共子串。

需要说明的是，最大公共子串的长度可以为最长连续子串的长度与较短词序列的长度的比值。

可选地，在确定第四音频数据对应的词序列和目标音频数据对应的词序列的最大公共子序列时，可以采用最长公共子序列(Longest Common Subsequence，LCS)算法实现。

可选地，对于任一第四音频数据，在确定第四音频数据对应的词序列和目标音频数据对应的词序列的局部最大公共子串时，可以对目标音频数据的词序列进行滑窗，从而分别计算窗内词序列和该第四音频数据的词序列的最大公共子串(此时，错误容忍系数σ可以设为1)，相邻窗可以保持50％的重叠度，以实现所有窗内的最大公共子串的计算。在计算完所有窗内的最大公共子串之后，选取其中长度最长的最大公共子串作为局部最大公共子串。

S1033、基于各个第四音频数据对应的公共词序列，从第四音频数据中确定与目标音频数据的歌词相似度满足第三阈值范围的第五音频数据。

在一种可能的实现方式中，对于任一第四音频数据，若较短词序列的序列长度小于等于第一长度阈值，则可以基于作为公共词序列的最大公共子串的序列长度、第四音频数据对应的词序列的序列长度和目标音频数据对应的词序列的序列长度，确定歌词相似度；若歌词相似度大于第三相似度阈值，则可以将第四音频数据确定为第五音频数据。

可选地，在基于作为公共词序列的最大公共子串的序列长度、第四音频数据对应的词序列的序列长度和目标音频数据对应的词序列的序列长度，确定歌词相似度时，可以确定第四音频数据对应的词序列的序列长度和目标音频数据对应的词序列的序列长度的和值，从而将最大公共子串的序列长度的2倍与该和值的比值，作为歌词相似度。

其中，第一长度阈值可以为任意取值，例如，第一长度阈值可以为80，但不限于此，第一长度阈值还可以为其他取值，本发明对此不加以限定。此外，第三相似度阈值可以为任意取值，本发明对此不加以限定。

在另一种可能的实现方式中，对于任一第四音频数据，若较短词序列的序列长度大于第一长度阈值，则可以基于作为公共词序列的最大公共子序列的序列长度、第四音频数据对应的词序列的序列长度和目标音频数据对应的词序列的序列长度，确定第一歌词相似度，并基于作为公共词序列的局部最大公共子串的序列长度、第四音频数据对应的词序列的序列长度和目标音频数据对应的词序列的序列长度，确定第二歌词相似度；若第一歌词相似度大于第四相似度阈值，且第二歌词相似度大于第五相似度阈值，则可以将第四音频数据确定为第五音频数据。

可选地，在基于作为公共词序列的最大公共子序列的序列长度、第四音频数据对应的词序列的序列长度和目标音频数据对应的词序列的序列长度，确定第一歌词相似度时，可以确定第四音频数据对应的词序列的序列长度和目标音频数据对应的词序列的序列长度的和值，从而将最大公共子序列的序列长度的2倍与该和值的比值，作为第一歌词相似度。

可选地，在基于作为公共词序列的局部最大公共子串的序列长度、第四音频数据对应的词序列的序列长度和目标音频数据对应的词序列的序列长度，确定第二歌词相似度时，可以确定第四音频数据对应的词序列的序列长度和目标音频数据对应的词序列的序列长度的和值，从而将局部最大公共子串的序列长度的2倍与该和值的比值，作为第二歌词相似度。

其中，第四相似度阈值、第五相似度阈值均可以为任意取值，并且，第三相似度阈值、第四相似度阈值、第五相似度阈值这三者的取值可以相同也可以不同，本发明对此不加以限定。

参见图4，图4是本发明根据一示例性实施例示出的一种基于歌词文本实现侵权识别的处理过程示意图，如图4所示，可以分别基于目标音频数据的歌词文本以及各个第四音频数据的歌词文本进行歌词预处理，从而基于预处理得到的歌词文本分别进行公共词序列计算，以获取到目标音频数据的歌词文本与各个第四音频数据的歌词文本之间的最大公共子串、最大公共子序列或局部最大公共子串，从而基于所确定出的公共词序列实现决策，以实现基于歌词文本的侵权识别。

其中，基于所确定出的公共词序列实现决策的过程可以参见图5，图5是本发明根据一示例性实施例示出的一种基于歌词文本公共词序列的决策过程示意图，如图5所示，可以获取目标音频数据的歌词文本和第四音频数据的歌词文本中的较短词序列长度，若较短词序列长度小于或等于第一长度阈值，则可以基于最大公共子串实现侵权判决，具体地，若歌词相似度大于第三相似度阈值，则可以将第四音频数据确定为第五音频数据，若歌词相似度小于或等于第三相似度阈值，则可以将第四音频数据确定为第六音频数据；若较短词序列长度大于第一长度阈值，则可以基于最大公共子序列和局部最大公共子串实现侵权判决，具体地，可以先基于最大公共子序列进行判断，若歌词相似度小于或等于第四相似度阈值，则可以将第四音频数据确定为第六音频数据，若歌词相似度大于第四相似度阈值，则可以基于局部最大公共子串进行判断，若歌词相似度大于第五相似度阈值，则可以将第四音频数据确定为第五音频数据，若歌词相似度小于或等于第五相似度阈值，则可以将第四音频数据确定为第六音频数据。

需要说明的是，第五音频数据即为歌词文本与目标音频数据的歌词文本相似度较高的音频数据，可以将其判定为目标音频数据的侵权音频数据，而对于第四音频数据中除第五音频数据之外的第六音频数据，虽然其歌词文本与目标音频数据的歌词文本相似度较低，但仍可以被判定为目标音频数据的侵权音频数据。

也即是，在一些实施例中，可以通过步骤S104，将第一音频数据、第三音频数据、第五音频数据和第六音频数据确定为目标音频数据的侵权音频数据，其中，第六音频数据为第四音频数据中除第五音频数据之外的音频数据。

通过上述实施例，可以实现侵权音频数据的分层召回，每层采用不同的召回算法实现不同类型的侵权音频数据的召回，减少无效匹配，提升匹配速度。

上述实施例主要介绍了识别侵权音频数据的实现过程，在更多可能的实现方式中，还可以鉴别出各类音频数据的具体侵权类型。

在一些实施例中，在通过步骤S104，将第一音频数据、第三音频数据、第五音频数据和第六音频数据确定为目标音频数据的侵权音频数据之后，还可以包括如下步骤：

S105、分别确定第一音频数据、第三音频数据、第五音频数据和第六音频数据的侵权类型。

可选地，对于第一音频数据，若第一音频数据的时长与目标音频数据的时长之差小于第二时长阈值，则将第一音频数据的侵权类型确定为第一侵权类型，第一侵权类型用于指示音频数据为目标音频数据的完整录音。

可选地，对于第一音频数据，若第一音频数据的时长与目标音频数据的时长之差大于等于第二时长阈值，则将第一音频数据的侵权类型确定为第二侵权类型，第二侵权类型用于指示音频数据为目标音频数据的部分录音。

也即是，若第一音频数据的时长和目标音频数据的时长之差小于第二时长阈值，则可以判定第一音频数据为录音侵权且为录音完整侵权；若第一音频数据的时长和目标音频数据的时长之差小于第二时长阈值，则可以判定第一音频数据为录音侵权且为录音部分侵权。

其中，第二时长阈值可以为任意取值，例如，第二时长阈值可以为3s，但不限于此，第二时长阈值还可以为其他取值。

可选地，对于第三音频数据，若第三音频数据的对应的出现完整度为预设值，则将第三音频数据的侵权类型确定为第一侵权类型。

可选地，对于第三音频数据，若第三音频数据的对应的出现完整度为非预设值，则将第三音频数据的侵权类型确定为第二侵权类型。

其中，预设值可以为任意取值，例如，预设值可以为1，但不限于此。

以预设值为1为例，也即是，若第三音频数据的对应的出现完整度为1，则可以判定第三音频数据为录音侵权且为录音完整侵权；若第三音频数据的对应的出现完整度不是1，则可以判定第三音频数据为录音侵权且为录音部分侵权。

可选地，对于第五音频数据，将第五音频数据的侵权类型确定为第三侵权类型，第三侵权类型用于指示音频数据的歌词侵权。

也即是，可以将第五音频数据直接判定为歌词侵权。

可选地，对于第六音频数据，将第六音频数据的侵权类型确定为第四侵权类型，第四侵权类型用于指示音频数据的旋律侵权。

也即是，可以将第六音频数据直接判定为曲侵权。

在更多可能的实现方式中，还可以对被判定为曲侵权的第六音频数据进行进一步判断，以进一步细分曲侵权类型。

例如，可以检测第六音频数据是否为目标音频数据的变速版，以检测第六音频数据是否是通过变速实现的曲侵权；或者，可以检测第六音频数据是否为目标音频数据的变调版，以检测第六音频数据是否是通过变调实现的曲侵权；或者，可以检测第六音频数据是否为目标音频数据的其他乐器版本，以检测第六音频数据是否是通过变换乐器实现的曲侵权。

通过上述实施例，可以实现侵权类型的识别，提高侵权识别效果。

上述实施例主要介绍了识别出侵权音频数据之后，进一步识别侵权音频数据的侵权类型的实现过程，在更多可能的实现方式中，在通过步骤S101，从多个候选音频数据中，确定与目标音频数据的整体相似度满足第一阈值范围的第一音频数据、以及与目标音频数据的整体相似度满足第二阈值范围的第二音频数据之前，还可以包括如下步骤：

S100、获取目标音频数据的属性信息以及多个已上线音频数据的属性信息；获取属性信息与目标音频数据的属性信息匹配的已上线音频数据，作为候选音频数据。

其中，目标音频数据的属性信息可以为目标音频数据的元数据(Meta)信息，包括但不限于歌曲名、歌手、专辑等。

通过获取属性信息与目标音频数据的属性信息匹配的已上线音频数据作为候选音频数据，可以从其他音频播放平台的所有已上线音频数据中定向获取到与目标音频数据具有关联的候选音频数据，作为后续分析的基础数据。

通过上述实施例所提供的定向获取候选音频数据的方式，可以避免因监控范围过大，导致音频数据获取周期长且存储成本高的问题，降低计算设备的处理压力，提高侵权识别速度。

需要说明的是，基于属性信息获取到的候选音频数据仅仅为基于类似文本标识的内容获取到的匹配音频，但所获取到的候选音频数据中的内容可能较为杂乱，甚至会有候选音频数据中不存在任何有效歌曲内容的情况出现，这类候选音频数据即使进行侵权识别也是无效的，为降低计算设备的处理压力和侵权识别速度，可以提前剔除这类候选音频数据。

也即是，在更多可能的实现方式中，在获取属性信息与目标音频数据的属性信息匹配的已上线音频数据，作为候选音频数据之后，还可以确定各个候选音频数据的音乐时长，以将音乐时长大于或等于第一时长阈值的候选音频数据，作为用于侵权识别的候选音频数据。

其中，音乐时长为候选音频数据中仅包含背景音乐的部分的时长。

在一种可能的实现方式中，可以通过如下方式实现候选音频数据的音乐时长的确定：

对于任一候选音频数据，通过预测模型，基于候选音频数据的频谱，确定候选音频数据中每帧音频包含人声的概率；基于候选音频数据中每帧音频包含人声的概率，确定候选音频数据中包含人声的音频帧的时间戳；基于候选音频数据中包含人声的音频帧的时间戳以及候选音频数据的时长，确定候选音频数据的音乐时长。

其中，预测模型可以为预先训练好的，其可以为基于神经网络模型的音频面貌分析模型，其可以以音频数据的频谱作为输入，以每帧音频包含人声的概率作为输出，以实现音频面貌的分析。

例如，预测模型可以使用卷积神经网络(Convolutional Neural Network，CNN)从音频数据的频谱中提取局部低维特征，通过循环神经网络(Recurrent Neural Network，RNN)网络将低维特征转换成高维特征，以通过高维特征分类器，基于转换得到的高维特征获得每帧音频包含人声的概率。

可选地，在获取到每帧音频包含人声的概率之后，可以通过后处理方法获得各声音事件发生的时间戳，从而能分析出每个音频数据中包含的音乐时长、唱歌时长、说话时长、音频时长信息。

可选地，在通过后处理方法获得各声音事件发生的时间戳时，可以使用相邻帧对当前帧各声音事件的概率进行平滑，避免各声音事件的概率分发生突变；然后基于预先设置好的概率阈值来判断各声音事件的开始和结束点(也即是开始和结束对应的时间戳)，得到各声音事件发生的片段信息；在相同声音事件相隔较近时可以对其进行合并，以得到各个声音事件对应的片段。可选地，对于时长较短的片段，可以对其进行剔除。

可选地，在获得各个声音事件对应的片段之后，即可分析中每个音频数据中所包括的音乐时长、唱歌时长、说话时长等。

可选地，对于音乐时长小于第一时长阈值的候选音频数据，可以对其进行丢弃，视为不侵权音频处理；对于音乐时长大于或等于第一时长阈值的候选音频数据，可以将其作为后续侵权识别时所使用的音频数据。

通过上述实施例，可以过滤掉候选音频数据中的无效音频，为后续的分层召回过程提供助力。

本发明所提供的音频数据侵权识别方法可以参见图6，图6是本发明根据一示例性实施例示出的一种音频数据侵权识别过程的流程示意图，如图6所示，可以将本发明所提供的音频数据侵权识别方法分为四个阶段。其中，第一个阶段可以为定向获取阶段，以基于歌曲元信息实现音频数据的定向获取，得到候选音频数据。第二个阶段可以为预分析阶段，以对候选音频数据进行音频面貌分析，剔除掉候选音频数据中的无效音频，得到用于侵权识别的候选音频数据。第三个阶段可以为分层召回阶段，在分层召回阶段，可以先基于音频向量进行召回，以得到侵权的第一音频数据；对于用于侵权识别的候选音频数据中未被召回的第二音频数据，可以基于音频指纹进行召回，以得到侵权的第三音频数据；对于第二音频数据中未被召回的第四音频数据，可以基于歌词文本进行召回，以得到侵权的第五音频数据和第六音频数据。第四个阶段可以为类型鉴别阶段，以实现对侵权的第一音频数据、第三音频数据、第五音频数据和第六音频数据的侵权类型鉴别，从而确定出是录音侵权(包括录音完整侵权和录音部分侵权)、歌词侵权还是曲侵权。

通过上述方案，可以通过四阶段处理实现音频数据侵权识别，以实现低成本的音乐版权监控。另外，采用歌曲向量、音频指纹、歌词文本的分层召回策略，可以逐级筛查音频集合，减少了比对次数，提高了监控效率。另外，通过对侵权音频数据进行侵权类型鉴别，实现了对侵权类型的细化。

示例性装置

另外，本发明还提供了一种音频数据的侵权识别装置，参见图7，图7是本发明根据一示例性实施例示出的一种音频数据的侵权识别装置的框图，如图7所示，该装置包括：

第一确定模块701，用于从多个候选音频数据中，确定与目标音频数据的整体相似度满足第一阈值范围的第一音频数据、以及与目标音频数据的整体相似度满足第二阈值范围的第二音频数据；

第一确定模块701，还用于从第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据；

第一确定模块701，还用于从第四音频数据中，确定与目标音频数据的歌词相似度满足第三阈值范围的第五音频数据，第四音频数据为第二音频数据中除第三音频数据之外的音频数据；

第二确定模块702，用于将第一音频数据、第三音频数据、第五音频数据和第六音频数据确定为目标音频数据的侵权音频数据，第六音频数据为第四音频数据中除第五音频数据之外的音频数据。

在一些实施例中，第一确定模块701，在用于从多个候选音频数据中，确定与目标音频数据的整体相似度满足第一阈值范围的第一音频数据、以及与目标音频数据的整体相似度满足第二阈值范围的第二音频数据时，用于：

在一些实施例中，第一确定模块701，在用于基于目标音频数据以及各个候选音频数据分别进行编码，得到目标音频数据的第一音频向量以及每个候选音频数据的第二音频向量时，用于：

在一些实施例中，第一确定模块701，在用于基于目标音频数据和各个候选音频数据之间的整体相似度，确定候选音频数据中整体相似度满足第一阈值范围的第一音频数据、以及整体相似度满足第二阈值范围的第二音频数据时，用于：

在一些实施例中，第一确定模块701，在用于从第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据时，用于：

在一些实施例中，第一确定模块701，在用于获取目标音频数据的各个音频片段的第一指纹信息时，用于：

按照预设片段时长，将目标音频数据划分为多个音频片段；

在一些实施例中，第一确定模块701，在用于获取每个第二音频数据的第二指纹信息时，用于：

在一些实施例中，第一确定模块701，在用于基于指纹时间差，从第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据时，用于：

在一些实施例中，第一确定模块701，在用于基于目标指纹时间差的出现次数以及目标音频数据所包括的音频片段的个数，确定目标音频数据在第二音频数据中的出现完整度时，用于：

在一些实施例中，第一确定模块701，在用于从第四音频数据中，确定与目标音频数据的歌词相似度满足第三阈值范围的第五音频数据时，用于：

在一些实施例中，对于任一第四音频数据，第一确定模块701，在用于基于第四音频数据对应的词序列和目标音频数据对应的词序列，确定公共词序列时，用于：

在一些实施例中，第一确定模块701，在用于基于各个第四音频数据对应的公共词序列，从第四音频数据中确定与目标音频数据的歌词相似度满足第三阈值范围的第五音频数据时，用于：

在一些实施例中，该装置还包括获取模块，用于：

在一些实施例中，该装置还包括第三确定模块，用于：

在一些实施例中，第三确定模块，在用于确定各个候选音频数据的音乐时长时，用于：

在一些实施例中，该装置还包括第四确定模块，用于：

在一些实施例中，第四确定模块，在用于分别确定第一音频数据、第三音频数据、第四音频数据和第五音频数据的侵权类型时，用于：

示例性介质

本发明实施例还提供了一种计算机可读存储介质。图8是本发明根据一示例性实施例示出的一种计算机可读存储介质的示意图，如图8所示，该存储介质上存储有计算机程序800，该计算机程序800被处理器执行时可以执行本发明任一实施例所提供的音频数据的侵权识别方法。

示例性设备

本发明实施例还提供了一种计算设备，该计算设备可以包括存储器、处理器，该存储器用于存储可在处理器上运行的计算机指令，该处理器用于在执行该计算机指令时实现本发明任一实施例所提供的音频数据的侵权识别方法。参见图9，图9是本发明根据一示例性实施例示出的一种计算设备的结构示意图，该计算设备900可以包括但不限于：处理器910、存储器920、连接不同系统组件(包括存储器920和处理器910)的总线930。

其中，存储器920存储有计算机指令，该计算机指令可以被处理器910执行，使得处理器910能够执行本发明任一实施例所提供的音频数据的侵权识别方法。存储器920可以包括随机存取存储单元RAM921、高速缓存存储单元922和/或只读存储单元ROM923。该存储器920还可以包括：具有一组程序模块924的程序工具929，该程序模块924包括但不限于：操作系统、一个或多个应用程序、其他程序模块和程序数据，这些程序模块一种或多种组合可以包含网络环境的实现。

总线930例如可以包括数据总线、地址总线和控制总线等。该计算设备900还可以通过I/O接口940与外部设备950通信，该外部设备950例如可以是键盘、蓝牙设备等。该计算设备900还可以通过网络适配器960与一个或多个网络通信，例如，该网络可以是局域网、广域网、公共网络等。如图9所示，该网络适配器960还可以通过总线930与计算设备900的其他模块进行通信。

示例性产品

本发明实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，程序被计算设备900的处理器910执行时，可以实现本发明任一实施例所提供的音频数据的侵权识别方法。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种音频数据的侵权识别方法，其特征在于，所述方法包括：

从多个候选音频数据中，确定与目标音频数据的整体相似度满足第一阈值范围的第一音频数据、以及与所述目标音频数据的整体相似度满足第二阈值范围的第二音频数据；

从所述第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据；

从第四音频数据中，确定与所述目标音频数据的歌词相似度满足第三阈值范围的第五音频数据，所述第四音频数据为所述第二音频数据中除第三音频数据之外的音频数据；

将所述第一音频数据、所述第三音频数据、所述第五音频数据和第六音频数据确定为所述目标音频数据的侵权音频数据，所述第六音频数据为所述第四音频数据中除第五音频数据之外的音频数据。

2.根据权利要求1所述的方法，其特征在于，所述从多个候选音频数据中，确定与目标音频数据的整体相似度满足第一阈值范围的第一音频数据、以及与所述目标音频数据的整体相似度满足第二阈值范围的第二音频数据，包括：

基于所述目标音频数据以及各个候选音频数据分别进行编码，得到所述目标音频数据的第一音频向量以及每个候选音频数据的第二音频向量；

基于所述第一音频向量和各个第二音频向量的向量距离，确定所述目标音频数据和各个候选音频数据之间的整体相似度；

基于所述目标音频数据和各个候选音频数据之间的整体相似度，确定候选音频数据中整体相似度满足第一阈值范围的第一音频数据、以及整体相似度满足第二阈值范围的第二音频数据。

3.根据权利要求1所述的方法，其特征在于，所述从所述第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据，包括：

获取所述目标音频数据的各个音频片段的第一指纹信息，对于任一音频片段，所述第一指纹信息中包括所述音频片段中第一特征点对应的特征点指纹，所述第一特征点为所述音频片段中能量值满足第一条件的特征点，所述特征点指纹至少包括第一特征点对应的时间和频率；

获取每个第二音频数据的第二指纹信息，对于任一第二音频数据，所述第二指纹信息中包括所述第二音频数据中第二特征点对应的特征点指纹，所述第二特征点为所述第二音频数据中能量值满足第二条件的特征点；

确定所述第一指纹信息和所述第二指纹信息中所包括的相同频率，基于所述相同频率在所述第一指纹信息中对应的时间以及所述相同频率在所述第二指纹信息中对应的时间，确定指纹时间差；

基于所述指纹时间差，从所述第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据。

4.根据权利要求1所述的方法，其特征在于，所述从第四音频数据中，确定与所述目标音频数据的歌词相似度满足第三阈值范围的第五音频数据，包括：

对于所述第四音频数据和所述目标音频数据中的任一音频数据，基于所述音频数据的歌词文本进行分词处理，得到所述音频数据对应的词序列；

对于任一第四音频数据，基于所述第四音频数据对应的词序列和所述目标音频数据对应的词序列，确定公共词序列，所述公共词序列为最大公共子串、最大公共子序列和局部最大公共子串中的任一项；

基于各个第四音频数据对应的公共词序列，从第四音频数据中确定与所述目标音频数据的歌词相似度满足第三阈值范围的第五音频数据。

5.根据权利要求1所述的方法，其特征在于，所述从多个候选音频数据中，确定与目标音频数据的整体相似度满足第一阈值范围的第一音频数据、以及与所述目标音频数据的整体相似度满足第二阈值范围的第二音频数据之前，所述方法还包括：

获取所述目标音频数据的属性信息以及多个已上线音频数据的属性信息；

获取属性信息与所述目标音频数据的属性信息匹配的已上线音频数据，作为所述候选音频数据。

6.根据权利要求1所述的方法，其特征在于，所述将所述第一音频数据、所述第三音频数据、所述第五音频数据和第六音频数据确定为所述目标音频数据的侵权音频数据之后，所述方法还包括：

分别确定所所述第一音频数据、所述第三音频数据、所述第五音频数据和第六音频数据的侵权类型。

7.根据权利要求6所述的方法，其特征在于，所述分别确定所述第一音频数据、所述第三音频数据、所述第五音频数据和第六音频数据的侵权类型，包括：

对于所述第一音频数据，若所述第一音频数据的时长与所述目标音频数据的时长之差小于第二时长阈值，则将所述第一音频数据的侵权类型确定为第一侵权类型，所述第一侵权类型用于指示音频数据为目标音频数据的完整录音；

对于所述第一音频数据，若所述第一音频数据的时长与所述目标音频数据的时长之差大于等于第二时长阈值，则将所述第一音频数据的侵权类型确定为第二侵权类型，所述第二侵权类型用于指示音频数据为目标音频数据的部分录音；

对于所述第三音频数据，若所述第三音频数据的对应的出现完整度为预设值，则将所述第三音频数据的侵权类型确定为第一侵权类型；

对于所述第三音频数据，若所述第三音频数据的对应的出现完整度为非预设值，则将所述第三音频数据的侵权类型确定为第二侵权类型；

对于所述第五音频数据，将所述第五音频数据的侵权类型确定为第三侵权类型，所述第三侵权类型用于指示音频数据的歌词侵权；

对于所述第六音频数据，将所述第六音频数据的侵权类型确定为第四侵权类型，所述第四侵权类型用于指示音频数据的旋律侵权。

8.一种音频数据的侵权识别装置，其特征在于，所述装置包括：

第一确定模块，用于从多个候选音频数据中，确定与目标音频数据的整体相似度满足第一阈值范围的第一音频数据、以及与所述目标音频数据的整体相似度满足第二阈值范围的第二音频数据；

所述第一确定模块，还用于从所述第二音频数据中，确定包含目标音频数据的音频片段的第三音频数据；

所述第一确定模块，还用于从第四音频数据中，确定与所述目标音频数据的歌词相似度满足第三阈值范围的第五音频数据，所述第四音频数据为所述第二音频数据中除第三音频数据之外的音频数据；

第二确定模块，用于将所述第一音频数据、所述第三音频数据、所述第五音频数据和第六音频数据确定为所述目标音频数据的侵权音频数据，所述第六音频数据为所述第四音频数据中除第五音频数据之外的音频数据。

9.一种计算设备，其特征在于，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的音频数据的侵权识别方法所执行的操作。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有程序，所述程序被处理器执行如权利要求1至7中任一项所述的音频数据的侵权识别方法所执行的操作。