CN115472181A

CN115472181A - 基于特征融合和聚类的翻唱识别方法、装置和存储介质

Info

Publication number: CN115472181A
Application number: CN202211068244.4A
Authority: CN
Inventors: 郭莉; 徐士彪; 康天宇; 袁强
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-12-13

Abstract

本发明提供一种基于特征融合和聚类的翻唱识别方法、装置和存储介质，所述方法包括：提取两个输入音频的音频特征；将两个音频特征沿着通道维度进行融合，形成双通道融合特征，利用融合分类特征提取网络提取两个输入音频的分类特征；利用音乐特征聚类网络分别提取两个音频特征的聚类结果；利用二分类决策网络根据两个输入音频的分类特征和各输入音频的聚类结果，输出所述待识别音频的二分类翻唱识别结果。所述方法丰富了音频特征的维度信息，提高了翻唱识别的鲁棒性；丰富了数据标签种类，避免了特征融合的局限性，降低了翻唱识别模型的训练难度，提升了翻唱识别模型的识别性能。

Description

基于特征融合和聚类的翻唱识别方法、装置和存储介质

技术领域

本发明涉及音频处理技术领域，尤其涉及一种基于特征融合和聚类的翻唱识别方法、装置和存储介质。

背景技术

翻唱识别技术是给定一首歌曲从音乐数据库中检索出其对应的翻唱歌曲或原厂歌曲，一直以来都是音乐信息检索领域的研究热点。翻唱歌曲相比较于原厂歌曲在节奏、音色、音调甚至结构上都发生了变化，现有的公开翻唱数据集除了翻唱版本标签以外无法提供更多的分类标签特征信息，因此翻唱识别任务难度大，挑战性高。传统的翻唱识别技术包括使用序列对齐的方法比较两首歌曲相似度来判定是否为翻唱版本，还包括利用元数据比对来判定是否为翻唱歌曲；但是序列对齐的判断方法在遇到相似曲风的非翻唱歌曲时鲁棒性差，元数据比对的判断方法对于数据的要求较高，均难以应用到实际场景中。

随着计算机硬件和深度学习的发展，许多音频的预处理特征时一个时频域的二维特征，因此卷积神经网络应用于翻唱识别任务成为了主流的技术方案，现有技术中主要涉及两种技术手段，其一为基于音乐表示学习技术，提取输入音频预处理特征的深度特征，当查询歌曲的翻唱版本时使用欧式距离或余弦相似度计算查询歌曲和音乐数据库中每首歌曲深度特征的相似度，并通过相似度从大到小排序的方式在音乐数据库中查询歌曲的翻唱版本或原唱歌曲。其训练方法是依托公开的数据集歌曲种类在生成音频深度特征的同时将翻唱识别模型训练成多分类的识别模型，数据集内的翻唱版本可以直接通过原唱版本标签进行判定；还可以使用triplet loss训练模型来提升模型分区翻唱对和分翻唱对的相似度区分度。音乐表示学习技术是单输入模型，并针对翻唱识别中特殊的音乐元素变化在模型结果中添加独特的结构来提升模型提取翻唱歌曲去的不变性特征，这类方法在识别性能上具有更好的效果；但因为实际应用场景中音乐数据库中的查询歌曲未必提供相应的翻唱标签，此时相似度数值大的曲子不一定就是其对应的翻唱版本，这便使得难以确定翻唱对的判定阈值，即使设置有经验阈值，也会导致判定不准确；另一方面翻唱数据集中只存在翻唱版本标签，导致标签数据单一，缺少不受版本标签限制的特征空间标签。

其二为基于孪生卷积网络的翻唱识别技术，通过两个权重共享的分支同时提取双输入的特征，并通过全连接层或交叉距离矩阵进行特征融合，是以孪生网络为主体架构，通过同时输入两首歌曲，输出两首歌曲是翻唱对或非翻唱对的二分类结果。此种基于孪生网络的二分类模型不需要依赖翻唱识别领域的特殊知识，也可以避免上述方法中在实际应用场景中缺少判定阈值的问题；但是因为孪生网络的模型结构冗余，模型参数过多，在训练期间容易出现过拟合的现象，实际预测速度较慢，并且此方法在独立分支中仅提取空间域深度特征，缺少通道维度的差异学习，通过全连接层进行特征融合的融合程度有限。

发明内容

鉴于此，本发明实施例提供了一种基于特征融合和聚类的翻唱识别方法、装置和存储介质，以消除或改善现有技术中存在的一个或更多个缺陷。

本发明的一个方面提供了一种基于特征融合和聚类的翻唱识别方法，该方法包括以下步骤：选择一个原唱音频和一个待识别音频作为输入音频，分别提取各输入音频的音频特征，作为基于特征融合和聚类的翻唱识别模型的输入向量；在所述基于特征融合和聚类的翻唱识别模型中，将提取的两个音频特征沿着通道维度进行融合，形成双通道融合特征；利用融合分类特征提取网络根据所述双通道融合特征提取两个输入音频的分类特征；利用音乐特征聚类网络分别提取两个音频特征的聚类结果；利用二分类决策网络根据两个输入音频的分类特征和各输入音频的聚类结果，输出所述待识别音频的二分类翻唱识别结果。

在本发明的一些实施例中，所述提取各输入音频的音频特征的步骤，包括：利用预训练模型提取各输入音频的音级轮廓特征，作为输入至所述融合分类特征提取网络和所述音乐特征聚类网络中的音频特征。

在本发明的一些实施例中，所述融合分类特征提取网络包括融合特征提取结构和通道分离决策结构；利用融合分类特征提取网络提取两个输入音频的分类特征的步骤，包括：

将提取的两个音频特征沿着通道维度进行融合，形成双通道融合特征，将所述双通道融合特征输入至所述融合特征提取结构中，利用所述融合特征提取结构提取所述双通道融合特征的多通道特征图；将所述多通道特征图输入至所述通道分离决策结构中，利用所述通道分离决策结构将所述多通道特征图沿通道维度分成两个大小相等的特征图，通过计算两个特征图在每个通道间的交叉举例矩阵得到两个输入音频的多通道交叉特征，并根据所述多通道交叉特征提取两个输入音频的分类特征。

在本发明的一些实施例中，所述音乐特征聚类网络包括卷积层和作为聚类层的全连接层，所述利用音乐特征聚类网络分别提取两个音频特征的聚类结果的步骤，包括：利用所述卷积层分别对两个音频特征的深度特征进行提取，并利用所述聚类层分别对提取的两个深度特征进行聚类，形成各输入音频的聚类结果。

在本发明的一些实施例中，利用二分类决策网络输出所述待识别音频的二分类翻唱识别结果的步骤，包括：将两个输入音频的分类特征作为所述二分类决策网络的输入向量，并将各输入音频的聚类结果与两个输入音频的分类特征进行拼接融合，令各输入音频的聚类结果参与所述二分类决策网络的训练；通过所述二分类决策网络输出两个输入音频是翻唱对或非翻唱对的二分类决策结果，从而得到所述待识别音频的二分类翻唱识别结果。

在本发明的一些实施例中，所述音乐特征聚类网络中设有音乐特征聚类结构，所述音乐特征聚类结构通过自编码器完成所述音乐特征聚类网络的训练；所述自编码器包括编码器和解码器；

所述音乐特征聚类网络的训练步骤，包括：通过所述编码器对输入音频的音频特征进行编码，并聚类形成聚类结果；再通过所述解码器对所述聚类结果进行重构，得到该输入音频的音频特征对应的重构特征；利用该输入音频的音频特征和对应的重构特征之间的误差，对所述音乐特征聚类网络的聚类损失进行优化。

在本发明的一些实施例中，所述音乐特征聚类网络的训练步骤中，采用随机梯度下降优化函数对所述音乐特征聚类网络的聚类损失进行优化。

在本发明的一些实施例中，该方法还包括所述基于特征融合和聚类的翻唱识别模型的训练步骤，包括：通过交叉熵损失函数和Adam优化函数对两个输入音频的分类特征和二分类翻唱识别结果进行优化。

本发明的另一方面提供了一种基于特征融合和聚类的翻唱识别装置，包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如上述基于特征融合和聚类的翻唱识别方法的步骤。

本发明的另一方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述基于特征融合和聚类的翻唱识别方法的步骤。

本发明的基于特征融合和聚类的翻唱识别方法、装置和存储介质，所述方法通过融合融合分类特征提取网络从空间维度提取输入音频的融合特征，并从通道维度分析所述融合特征在多通道间的相似性差异，丰富了音频特征的维度信息，提高了翻唱识别的鲁棒性；通过音乐特征聚类网络通过特征聚类为翻唱数据生成了隐形的数据特征维度标签，丰富了数据标签的种类，降低了翻唱识别模型的训练难度，提升了翻唱识别模型的识别性能；通过二分类决策网络避免了音频识别在实际场景中缺乏判定阈值的问题。并且在特征融合过程中，空间维度的音频特征提取后在通道维度通过卷积计算实现了特征融合，避免了特征融合的局限性，实现了特征融合的全程可学习。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。

图1为实施例中基于特征融合和聚类的全融合翻唱识别方法流程图。

图2为实施例中音乐特征聚类网络训练结构图

图3是基准测试数据集聚类结果散点图；

图4是判定阈值在SHS5数据集中对音乐动机嵌入的精确和可伸缩的版本识别模型(MOVE)性能的影响示意图；

图5是判定阈值在Da-Tacos数据集中对音乐动机嵌入的精确和可伸缩的版本识别模型(MOVE)性能的影响示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

本实施例中提出了一种基于特征融合和聚类的翻唱识别方法，其主要的工作流程如图1所示，包括步骤S110-S140：

在步骤S110中：选择一个原唱音频和一个待识别音频作为输入音频，分别提取各输入音频的音频特征，作为基于特征融合和聚类的翻唱识别模型的输入向量，基于特征融合和聚类的翻唱识别模型包括融合分类特征提取网络、音乐特征聚类网络和二分类决策网络。

实施例中，需首先判断该待识别音频可能对应的原唱音频，将所述待识别音频和对应的原唱音频作为一对输入音频，对两个输入音频分别进行特征提取，分别得到各输入音频的音频特征，作为基于特征融合和聚类的翻唱识别模型的输入向量，该音频特征为空间维度的二维向量。

实施例中使用预训练模型来提取各输入音频的音级轮廓特征，作为各输入音频的音频特征，将所述音频特征作为基于特征融合和聚类的翻唱识别模型的输入向量，并将各音频特征统一裁剪成23*1800的大小。

在步骤S120中，在所述基于特征融合和聚类的翻唱识别模型中，将提取的两个音频特征沿着通道维度进行融合，形成双通道融合特征；利用融合分类特征提取网络根据所述双通道融合特征提取两个输入音频的分类特征；

在实施例中，在基于特征融合和聚类的翻唱识别模型中对输入音频统一特征尺寸，将两个音频特征统一裁剪成23*1800的大小，并将统一特征尺寸的两个音频特征沿通道道维度通过卷积计算进行通道间的加权组合和映射，得到两个输入音频的融合特征，即双通道融合特征，该双通道融合特征为空间维度和通道维度的三维向量；与上述实施例中的音频特征的特征尺寸相应的，本实施例中所述双通道融合特征的尺寸大小为2*23*1800。两个音频特征沿着通道维度的卷积计算公式为：

其中，N_i表示卷积计算中的批处理的音频特征的数量，i表示批处理的音频特征中音频特征的序号，

表示输出的通道维度大小，j表示输出的通道维度的序号，k表示输入的音频特征的通道序号，C_in表示输入的音频特征的通道数，out(·)表示卷积计算的输出向量，bias(·)表示偏移量，weight(·)输入的各音频特征的权重卷积计算，input(·)表示卷积计算的输入向量。

在实施例中，所述音乐融合分类特征提取网络包括融合特征提取结构和通道分离决策结构；所述融合特征提取结构通过卷积块提取所述双通道融合特征的多通道融合特征，得到所述双通道融合特征的多通道特征图；所述通道分离决策结构将所述多通道特征图沿通道维度分成两个大小相等的特征图，通过计算两个特征图在每个通道间的交叉举例矩阵得到两个输入音频的多通道交叉特征，从而反映两个输入音频是翻唱对和非翻唱对之间的相似性差异，并通过卷积提取所述多通道交叉特征的分类特征作为所述音乐融合分类特征提取网络输出的两个输入音频的分类特征，所述分类特征为空间维度和通道维度的三维向量。

一个实施例中，所述融合特征提取结构输出的多通道特征图的特征尺寸为512*H*W，其中H表示所述多通道特征图的高，W表示所述多通道特征图的宽，512表示通道数量。与之对应的所述通道分离决策结构输出的两个特征图的特征尺寸均为256*H*W，得到的多通道交叉特征的特征尺寸为256*H*W。

针对现有技术中基于孪生卷积网络的翻唱识别技术中结构冗余和特征融合局限性的问题，本方法中的融合分类特征提取网络，通过在通道维度进行卷积实现了音频特征的融合，丰富了音频特征的维度信息，避免了特征融合的局限性，提高了翻唱识别的鲁棒性，实现了特征融合参数的全程可学习。

在步骤S130中，利用音乐特征聚类网络分别提取两个音频特征的聚类结果。

实施例中，所述音乐特征聚类网络包括卷积层和作为聚类层的全连接层，将各输入音频的音频特征作为所述卷积层的输入，利用所述卷积层分别对两个音频特征的深度特征进行提取，并利用所述聚类层分别对提取的两个深度特征进行聚类，形成各输入音频的聚类结果。

所述音乐特征聚类网络还设有用于完成所述音乐特征聚类网络训练的音乐特征聚类结构，所述音乐特征聚类结构通过自编码器完成所述音乐特征聚类网络的训练，所述自编码器包括编码器和解码器。所述音乐特征聚类网络的训练过程如图2所示，将输入音频的音频特征作为所述编码器的输入，利用所述编码器通过卷积层对音频特征进行编码，再通过作为聚类层的全连接层编码后的音频特征进行聚类，形成该输入音频的聚类结果；再将聚类结果作为所述解码器的输入，利用所述解码器通过逆卷积计算对聚类结果进行重构，得到该输入音频的音频特征对应的重构特征；利用输入音频的音频特征和对应的重构特征之间的误差，选用随机梯度下降优化函数(SGD优化函数)对音乐特征聚类结构的聚类损失进行优化，令编码器输入的音频特征与解码器输出的重构特征尽量接近，从而完成音乐特征聚类结构的训练。

一个实施例中利用训练后的音乐特征聚类网络对待识别音频的深度特征进行提取并聚类，将聚类层的大小设置为50，则说明在本音乐特征聚类网络中将两个输入音频的音频特征在深度特征空间均聚类成50类，生成对应的聚类结果。

在步骤S140中，利用二分类决策网络根据两个输入音频的分类特征和各输入音频的聚类结果，输出所述待识别音频的二分类翻唱识别结果。

实施例中，所述二分类决策网络通过全连接层实现两个输入音频是翻唱对或非翻唱对的二分类翻唱识别，将两个输入音频的分类特征作为二分类决策网络的全连接层的输入向量，并将各输入音频的聚类结果与两个输入音频的分类特征进行拼接融合，令各输入音频的聚类结果参与二分类决策网络的训练；在作为二分类决策网络的全连接层中，将两个输入音频的分类特征的三个维度的乘积与各输入音频的聚类结果的聚类数量之和，作为所述作为二分类决策网络的全连接层的输入维度；将所述作为二分类决策网络的全连接层的输出维度设置为2，则可以通过所述作为二分类决策网络的全连接层输出两个输入音频是翻唱对或非翻唱对的二分类翻唱识别结果，从而得到所述待识别音频的二分类翻唱识别结果。

实施例中对于上述基于特征融合和聚类的翻唱识别模型的训练步骤，包括：通过交叉熵损失函数和Adam优化函数对两个输入音频的分类特征和二分类翻唱识别结果进行优化。

针对现有技术中音乐表示学习在实际场景中缺乏判定阈值和标签数据的问题，本方法中通过引入音乐特征聚类网络生成翻唱音频的隐性数据特征的维度标签，从而丰富数据分类标签特征的种类；通过音乐融合分类特征提取网络从通道维度分析多通道间的相似性差异，丰富音频特征的维度信息，提高翻唱识别模型的鲁棒性；还通过二分类决策网络对翻唱识别结果进行确定性是被，从而避免了翻唱识别模型缺乏判定阈值的问题。

针对上述基于特征融合和聚类的翻唱识别方法的可行性和有效性，进行如下分析：

1、以上述基于特征融合和聚类的翻唱识别方法为基础，基于音色等音乐元素进行改变的翻唱歌曲，在曲风和情感元素上并没有发生改变，其翻唱版本和原唱版本在深度特征空间上仍然保持相似的原则，以Da-Tacos数据集聚类为例对音频特征的聚类结果进行分析。以Da-Tacos数据集的聚类结果如图3所示，图中x、y、z轴分别代表歌曲类别、聚类结果和聚类标签的属性值；从图中可以看出，翻唱版本号相同的歌曲的聚类结果大多相同，说明自动编码器聚类结果符合原曲和翻唱版本之间的不变特征，同时验证了音频特征聚类为翻唱歌曲识别提供特征维度数据标签是合理的。

2、针对现有技术中缺少特征维度标签的问题，为了验证本发明所述方法可以解决此问题，对本发明中三个不同结构对翻唱音频识别性能的影响进行验证，在本实施例中以本发明中的音乐特征融合结构为基础，分别依次加入通道分离决策结构和音乐特征聚类结构，来评估三个结构的音频翻唱识别性能，比较结果如表1所示：

表1探究通道分离决策结构和音乐特征聚类结构的消融实验结果表

其中，MAP为翻唱识别评估指标，表示平均分类精度的平均值；P@10为翻唱识别评估指标，表示前10名中确定的翻唱版本平均数；MR1为翻唱识别评估指标，表示第一个识别出翻唱版本的平均排名；baseline表示音乐特征融合结构，CSDS表示通道分离决策结构，MFCS表示音乐特征聚类结构；SHS-TEST、Covers80和Da-Tacos均表示一种数据集。

通过上述表1可以看出，只采用音乐特征融合结构进行特征提取时，因为只对时频维度特征进行提取，缺乏通道间的特征分析，因此模型效果一般；采用音乐特征融合结构和通道分离决策结构进行特征提取时，模型特征提取和差异分析更加全面，在SHS-TEST、Covers80和Da-Tacos三个测试集上取得了显着的效果提升；采用音乐特征融合结构和通道分离决策结构再加上音乐特征聚类结构进行特征提取时，可以生成隐式特征聚类标签，从而丰富了标签类型，提高模型识别性能。从实验结果中也可以看出，音乐特征聚类结构的加入进一步提高了在三个测试数据集上的翻唱识别性能。

3、针对现有技术中音频表示学习方法因为缺乏判定阈值，仅依靠相似度还需很难在实际应用中得到广泛推广的问题，为了验证本发明所述方法可以解决此问题，根据判定阈值对音频表示学习方法和本发明所述方法的音频翻唱识别预测性能的影响进行验证：0.1到0.9之间的每0.05个大小作为判定阈值，探讨判定阈值的变化在实际应用场景中对音乐表示学习方法中的MOVE模型和对本发明所述的二分类进行音频表示特征的预测性能的影响：图4显示利用在Da-Tacos验证集上的100首原唱歌曲，使用音乐表示学习方法的MOVE模型和本发明所述的二分类方法对验证集中的音频表示特征进行预测，并计算13首原曲翻唱版本和19首不相关歌曲的欧几里得距离；图5显示利用在SHS5验证集上的77首原唱歌曲，使用音乐表示学习方法的MOVE模型和本发明所述的二分类方法对验证集中的音频表示特征进行预测，并计算16首原曲翻唱版本和16首不相关歌曲的欧几里得距离，并将欧式距离值归一化到0到1的范围内，值越小，越相似，图4和图5中，accuracy表示准确性，precison表示精度，recall表示回归能力。

从图4和图5中可以看出，本发明中的二分类方法在应用场景中不会受到判定阈值的影响，模型性能稳定，而MOVE模型等音频表示学习方法的稳定性和准确性直接受到判定阈值的影响。不仅如此，判定阈值对Da-Tacos和SHS5数据集产生了不同影响，虽然整体性能趋势相同，但SHS5中的理想判定阈值应该在0.5到0.6之间，而Da-Tacos数据集的理想判定阈值在0.4到0.5之间，因此不同数据源的理想性能阈值是不同的，使用经验阈值也难以确定确定性的判定阈值，所以该方法难以在实际场景中应用。

4、针对本发明所述方法的识别性能进行验证，在SHS-TEST、Covers80和Da-Tacos的翻唱测试数据集上，将本发明所述方法与其他方法的测试性能进行比较，比较结果如表2所示：

表2：探究各识别方法的性能测试结果表

其中key-Invariant表示有效用于翻唱识别的键不变的卷积神经网络，MulKINet表示用于准确快速的翻唱识别的多阶段键不变卷积神经网络，KDTN表示基于聚合学习的神经网络，CQT-TPPNet表示基于时间金字塔的池卷积神经网络，SCMM表示基于多级深度序列的交叉相似矩阵的识别模型，MOVE表示使用音乐动机嵌入的精确和可伸缩的版本识别模型，Re-MOVE表示更快更准确的音乐动机嵌入翻唱识别模型。

通过上述表2可以看出，在SHS-TEST数据集中，本发明所述方法的MAP指标成功突破0.8；在Covers80数据集中，本发明所述方法虽然不如SCMM，但与其他方法相比，各方面的性能都有显着提升。本发明所述方法在Da-Tacos数据集上表现最好，这是因为我们的方法通过融合特征提取结构和通道分离决策结构从空间域和通道维度提取相关特征，并且音乐特征聚类结构可以在高维特征空间将翻唱版本与不相关的作品分开，因此随着测试数据集大小的增加，其性能受到的影响较小。

5、针对现有技术中同样采用二分类方法的深度决策网络学习查询歌曲和参考歌曲的相似分布矩阵，判断两首歌曲是否为翻唱对的基于多层次深度序列交叉矩阵的翻唱识别相似性方法，该方案在基于孪生结构并通过交叉矩阵融合特征的基础上提出多层次序列交叉矩阵，每个卷积操作后的特征都得到了有效融合，解决了基于孪生网络的翻唱识别方法的特征融合度有限的问题，但是冗余的权重共享分支不仅没能解决，模型结构反而更加复杂，模型参数更多，预测速度慢，在大规模音乐数据库进行比对识别时，会消耗大量的时间。因此本发明所述方法相较之下同样具有先进性和竞争力。

6、针对现有技术中同样在结合空洞卷积在空间维度和通道维度提取了音频深度特征，同时提高模型时间域信息的总结能力的基于音乐驱动准确的和可扩展的翻唱版本识别方案，该方案提出了虽然在模型结构上针对通道维度信息做出了创新，但是依然属于音乐表示学习的一种，在实际应用场景中依然缺少确定性的判定阈值。因此本发明所述方法相较之下同样具有先进性和竞争力。

与上述方法相应地，本发明还提供了一种基于特征融合和聚类的翻唱识别装置，该装置包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述基于特征融合和聚类的翻唱识别方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于特征融合和聚类的翻唱识别方法，其特征在于，该方法包括以下步骤：

选择一个原唱音频和一个待识别音频作为输入音频，分别提取各输入音频的音频特征，作为基于特征融合和聚类的翻唱识别模型的输入向量；

在所述基于特征融合和聚类的翻唱识别模型中，将提取的两个音频特征沿着通道维度进行融合，形成双通道融合特征；利用融合分类特征提取网络根据所述双通道融合特征提取两个输入音频的分类特征；

利用音乐特征聚类网络分别提取两个音频特征的聚类结果；

利用二分类决策网络根据两个输入音频的分类特征和各输入音频的聚类结果，输出所述待识别音频的二分类翻唱识别结果。

2.根据权利要求1所述的方法，其特征在于，所述提取各输入音频的音频特征的步骤，包括：利用预训练模型提取各输入音频的音级轮廓特征，作为输入至所述融合分类特征提取网络和所述音乐特征聚类网络中的音频特征。

3.根据权利要求1所述的方法，其特征在于，所述融合分类特征提取网络包括融合特征提取结构和通道分离决策结构；利用融合分类特征提取网络提取两个输入音频的分类特征的步骤，包括：

将提取的两个音频特征沿着通道维度进行融合，形成双通道融合特征，将所述双通道融合特征输入至所述融合特征提取结构中，利用所述融合特征提取结构提取所述双通道融合特征的多通道特征图；

将所述多通道特征图输入至所述通道分离决策结构中，利用所述通道分离决策结构将所述多通道特征图沿通道维度分成两个大小相等的特征图，通过计算两个特征图在每个通道间的交叉举例矩阵得到两个输入音频的多通道交叉特征，并根据所述多通道交叉特征提取两个输入音频的分类特征。

4.根据权利要求1所述的方法，其特征在于，所述音乐特征聚类网络包括卷积层和作为聚类层的全连接层，所述利用音乐特征聚类网络分别提取两个音频特征的聚类结果的步骤，包括：

利用所述卷积层分别对两个音频特征的深度特征进行提取，并利用所述聚类层分别对提取的两个深度特征进行聚类，形成各输入音频的聚类结果。

5.根据权利要求1所述的方法，其特征在于，利用二分类决策网络输出所述待识别音频的二分类翻唱识别结果的步骤，包括：

将两个输入音频的分类特征作为所述二分类决策网络的输入向量，并将各输入音频的聚类结果与两个输入音频的分类特征进行拼接融合，令各输入音频的聚类结果参与所述二分类决策网络的训练；

通过所述二分类决策网络输出两个输入音频是翻唱对或非翻唱对的二分类决策结果，从而得到所述待识别音频的二分类翻唱识别结果。

6.根据权利要求1所述的方法，其特征在于，所述音乐特征聚类网络中设有音乐特征聚类结构，所述音乐特征聚类结构通过自编码器完成所述音乐特征聚类网络的训练；所述自编码器包括编码器和解码器；

7.根据权利要求6所述的方法，其特征在于，所述音乐特征聚类网络的训练步骤中，采用随机梯度下降优化函数对所述音乐特征聚类网络的聚类损失进行优化。

8.根据权利要求1所述的方法，其特征在于，该方法还包括所述基于特征融合和聚类的翻唱识别模型的训练步骤，包括：通过交叉熵损失函数和Adam优化函数对两个输入音频的分类特征和二分类翻唱识别结果进行优化。

9.一种基于特征融合和聚类的翻唱识别装置，包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如权利要求1至8中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。