CN110675893B

CN110675893B - 一种歌曲识别方法、装置、存储介质及电子设备

Info

Publication number: CN110675893B
Application number: CN201910887630.8A
Authority: CN
Inventors: 孔令城
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2022-04-05
Anticipated expiration: 2039-09-19
Also published as: WO2021051681A1; CN110675893A; US20220366880A1

Abstract

本发明实施例公开了一种歌曲识别方法、装置、存储介质及电子设备。该方案通过获取目标歌曲片段，对目标歌曲片段进行变换处理，生成对应的第一频谱图；根据第一频谱图和预设的神经网络模型，生成多维的第一特征向量；获取预存歌曲的第二特征向量；计算第一特征向量与第二特征向量之间的相似度，并确定最大相似度；若最大相似度大于预设阈值，则判定目标歌曲片段与最大相似度对应的预存歌曲为同一首歌曲的不同版本，以提高对翻唱歌曲的识别准确率。

Description

一种歌曲识别方法、装置、存储介质及电子设备

技术领域

本发明涉及音频处理技术领域，具体涉及一种歌曲识别方法、装置、存储介质及电子设备。

背景技术

目前，用户可以通过输入相关的关键字搜索歌曲，例如歌曲名字或者歌词等。或者，当用户听到一段喜爱的旋律却不知道歌名的情况下，只需要用手机录制一段听到的歌曲片段，通过音乐软件的听歌识曲功能，即可识别出该片段所属的歌曲。

但是，传统的听歌识曲方案，通常是通过音频指纹检索的方式获取歌曲的名称，能够实现对录制的原唱歌曲片段进行识别。但是对于翻唱的歌曲，例如，用户自己对歌曲片段进行哼唱识别时，识别准确度非常低。

发明内容

本发明实施例提供一种歌曲识别方法、装置、存储介质及电子设备，可以提高对翻唱歌曲的识别准确率。

本发明实施例提供一种歌曲识别方法，包括：

获取目标歌曲片段，对所述目标歌曲片段进行变换处理，生成对应的第一频谱图；

根据所述第一频谱图和预设的神经网络模型，生成多维的第一特征向量；

获取预存歌曲的第二特征向量，其中，一首预存歌曲分割为多个预存歌曲片段，一个预存歌曲片段对应一个第二特征向量，所述第一特征向量与所述第二特征向量的维数相等；

计算所述第一特征向量与所述第二特征向量之间的相似度，并确定最大相似度；

若所述最大相似度大于预设阈值，则判定所述目标歌曲片段与所述最大相似度对应的预存歌曲为同一首歌曲的不同版本。

本发明实施例还提供一种歌曲识别装置，包括：

音频变换单元，用于获取目标歌曲片段，对所述目标歌曲片段进行变换处理，生成对应的第一频谱图；

特征提取单元，用于根据所述第一频谱图和预设的神经网络模型，生成多维的第一特征向量；

数据获取单元，用于获取预存歌曲的第二特征向量，其中，一首预存歌曲分割为多个预存歌曲片段，一个预存歌曲片段对应一个第二特征向量，所述第一特征向量与所述第二特征向量的维数相等；

相似度计算单元，用于计算所述第一特征向量与所述第二特征向量之间的相似度，并确定最大相似度；

翻唱识别单元，用于若所述最大相似度大于预设阈值，则判定所述目标歌曲片段与所述最大相似度对应的预存歌曲为同一首歌曲的不同版本。

本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一歌曲识别方法。

本发明实施例提供的歌曲识别方案，获取目标歌曲片段后，对该目标歌曲片段进行变换处理，生成对应的第一频谱图。根据第一频谱图和预设的神经网络模型，生成多维的第一特征向量，该第一特征向量能够表征目标歌曲片段所包含的信息。获取预存歌曲的第二特征向量，预存歌曲集合中的每一首预存歌曲被分割为多个预存歌曲片段，一个预存歌曲片段对应一个第二特征向量，并且第一特征向量与第二特征向量的维数相等。通过计算第一特征向量与第二特征向量之间的相似度，来确定与目标歌曲片段最接近的预存歌曲片段，由于预存歌曲集合中有多个预存歌曲片段，故可以计算多个相似度，从多个相似度中确定最大相似度，若该最大相似度大于预设阈值，则可以判断目标歌曲片段与最大相似度对应的预存歌曲为同一首歌曲的不同版本，本方案通过神经网络模型将高维的音频数据转换为低维的特征向量，通过衡量低维特征向量的相似性来判断歌曲的相似性，提高了特征的信息量，增强歌曲识别算法的鲁棒性，进而实现对于翻唱歌曲的准确识别。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的歌曲识别方法的应用场景示意图；

图1b是本发明实施例提供的歌曲识别方法的第一流程示意图；

图2a是本发明实施例提供的歌曲识别方法的第二流程示意图；

图2b是本发明实施例提供的歌曲识别方法的神经网络结构示意图；

图3a是本发明实施例提供的歌曲识别装置的第一种结构示意图；

图3b是本发明实施例提供的歌曲识别装置的第二种结构示意图；

图3c是本发明实施例提供的歌曲识别装置的第三种结构示意图；

图4是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明实施例提供一种歌曲识别方法，该歌曲识别方法的执行主体可以是本发明实施例提供的歌曲识别装置，或者集成了该歌曲识别装置的电子设备，其中该歌曲识别装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。请参照图1a所示，为本申请实施例中歌曲识别方法的应用场景示意图。电子设备通过语音组件采集目标歌曲片段，对目标歌曲片段进行变换处理，生成对应的第一频谱图，根据第一频谱图和预设的神经网络模型，生成多维的第一特征向量，该第一特征向量能够表征目标歌曲片段中包含的信息。接下来，从预存歌曲集合中获取各预存歌曲分割得到的多个预存歌曲片段，其中，每一个预存歌曲片段对应于一个第二特征向量，根据预存歌曲片段生成第二特征向量的方式与根据目标歌曲片段生成第一特征向量的方式相同，故第二特征向量与第一特征向量具有相同的维数，第二特征向量能够表征预存歌曲片段中包含的信息。计算第一特征向量与各个第二特征向量之间的相似度，从多个相似度中确定出最大相似度，则可以判定该最大相似度对应的预存歌曲片段是目标歌曲片段的原唱版本，进而判定目标歌曲片段与最大相似度对应的预存歌曲片段为同一首歌曲的不同版本，可以输出该预存歌曲的名称，实现对翻唱歌曲的听歌识曲。

在一实施例中，提供了一种关键帧提取方法，可以由电子设备执行。如图1b所示，该歌曲识别方法的具体流程可以如下：

101、获取目标歌曲片段，对所述目标歌曲片段进行变换处理，生成对应的第一频谱图。

本申请实施例的方案可以应用于听歌识曲的场景。例如，用户听到一首歌觉得好听，想要搜索该歌曲；或者想要搜歌，却只记得的歌词不记得歌名时，可以通过电子设备录制自己哼唱的几句，启动电子设备的听歌识曲功能进行歌曲搜索。

其中，目标歌曲片段即为输入到电子设备中作为搜索依据的音频片段。本申请实施例对目标歌曲片段的获取方式不做具体限定。目标歌曲片段可以是用户自己哼唱录制的，也可以是接收其它终端发送的。

其中，在一些实施例中，可以在录制时，对目标歌曲片段的时长进行限定。例如，在用户开启某音乐软件的听歌识曲功能后，开始录制时长等于预设时长的目标歌曲片段，即当录制时长达到预设时长时，停止录音。

在获取到目标歌曲片段后，对目标歌曲片段进行变换处理，生成对应的第一频谱图。在一些实施例中，可以采用如下方式对目标歌曲片段进行变换处理：对所述目标歌曲片段进行短时傅里叶变换，生成对应的第一频谱图。

短时傅里叶变换(short-time Fourier transform，STFT)是和傅里叶变换相关的一种数学变换，用以确定时变信号其局部区域正弦波的频率与相位，多用来分析平稳信号。它的基本原理是，选择一个时频局部化的窗函数，把一个较长的时间信号分成相同长度的更短的段,在每个更短的段上计算傅里叶变换,即傅里叶频谱。本申请实施例中采用对目标歌曲片段进行短时傅里叶变换处理，获取第一频谱图，作为后续的神经网络模型的输入数据。

在一些实施例中，对所述目标歌曲片段进行变换处理，生成对应的第一频谱图，包括：按照预设采样率对所述目标歌曲片段进行降采样处理；对经过降采样处理后的目标歌曲片段进行变换处理，生成对应的第一频谱图。

为了提高数据处理速度，在获取到目标歌曲片段后，可以按照预设采样率对原始的目标歌曲片段进行降采样处理，例如，将原始的目标歌曲片段降采样到16KHz。

在一些实施例中，按照预设采样率对所述目标歌曲片段进行降采样处理，包括：判断所述目标歌曲片段的时长是否大于预设时长；若是，则将所述目标歌曲片段的时长调整为预设时长；按照所述预设采样率对预设时长的所述目标歌曲片段进行降采样处理。

除了可以在录制目标歌曲片段时，将目标歌曲片段的时长限定在预设时长之外，还可以在获取到目标歌曲片段后，对目标歌曲片段的时长进行调整，例如，在降采样操作之前，或者在降采样操作之后，若判定目标歌曲片段的时长大于预设时长，对目标歌曲片段进行切割，例如剪切掉首尾部分，使得剩余部分的时长等于预设时长。

102、根据所述第一频谱图和预设的神经网络模型，生成多维的第一特征向量。

在获取到目标歌曲片段对应的第一频谱图之后，将第一频谱图输入到预先训练好的神经网络模型中进行计算，生成n维的第一特征向量。

其中，本申请实施例中提出的神经网络模型采用卷积神经网络和分割编码网络(divide-and-encode)结合的方式从频谱图中提取第一特征向量。本申请实施例中的神经网络模型包括卷积神经网络和divide-and-encode网络，其具体的网络结构为，卷积神经网络中包括10个卷积神经网络模块，其中，每个卷积神经网络模块中有两个分别为1x3和3x1的二维卷积核，该卷积神经网络模块与divide-and-encode模块连接。其中，可以使用时长等于预设时长的样本歌曲片段提取频谱图，输入预设的神经网络模型进行训练确定模型参数。

在一些实施例中，根据所述第一频谱图和预设的神经网络模型，生成多维的第一特征向量，包括：将所述第一频谱图输入所述神经网络模型，在所述卷积神经网络中进行卷积运算，生成特征张量；根据所述分割编码网络对所述特征张量进行编码处理，生成多维的第一特征向量。

经过卷积神经网络对第一频谱图的卷积运算，得到一个特征张量，例如，一个二维的特征矩阵。将该特征张量输入到divide-and-encode模块进行处理，将卷积神经网络输出的数据降维成一维数据，再分成n份，例如，n＝128。每份用全连接层连接，输出至输出层。最终由输出层输出一个128维的第一特征向量。

本申请实施例中，采用机器学习的方式从每段歌曲中得到一个n维的第一特征向量，通过向量之间的相似性，来判断两个向量对应的歌曲片段是否属于同一首歌，或者属于同一首歌的不同版本，不仅可以识别原唱歌曲，而且可以对翻唱歌曲进行识别，可以很好的应用于听歌识曲的场合，具有较高的识别准确度。并且，本申请实施例中，通过机器学习的方式从每段歌曲中得到一个n维的第一特征向量，不仅能够提高特征的信息量，增强算法的鲁棒性。还可以将高维的音频数据转换为低维的特征向量，同时保持高维数据相似性与低维向量的相似性一致，进而通过衡量低维特征向量的相似性来判断歌曲片段的相似，减少了计算复杂度。此外，本申请实施例提出的听歌识曲算法可以应用于实时识别系统中，即在翻唱的同时进行实时识别。而传统的一些翻唱识别算法往往需要输入整首歌才能进行识别，导致仅能进行离线识别。

103、获取预存歌曲的第二特征向量，其中，一首预存歌曲分割为多个预存歌曲片段，一个预存歌曲片段对应一个第二特征向量，所述第一特征向量与所述第二特征向量的维数相等。

预先构建一个预存歌曲集合，在预存歌曲集合中存储有多首预存歌曲，其中，每一首预存歌曲都被分割为多个预存歌曲片段。其中，可以每一个预存歌歌曲片段的时长都按照预设时长分割，比如预设时长设置为10s。例如，一首时长为240s的歌曲，按照预设时长为10s进行分割，则可以分割为24个时长为10s的预存歌曲片段。其中，对于每一个预存歌曲片段，都会预先采用与从目标歌曲片段中提取第一特征向量相同的方式提取第二特征向量，并且将第二特征向量对于对应的预存歌曲片段和对应的预存歌曲关联后存储至预存歌曲集合。

在一些实施例中，该方法还包括：

a1、获取预存歌曲，按照预设采样率对所述预存歌曲进行降采样处理；

a2、将经过降采样处理后的预存歌曲分割为多个预设时长的预存歌曲片段；

a3、对所述预存歌曲片段进行短时傅里叶变换，生成对应的第二频谱图；

a4、根据所述第二频谱图和所述神经网络模型，生成第二特征向量，将所述第二特征向量与所述预存歌曲片段和所述预存歌曲关联后存储至预存歌曲集合。

按照如上方式对歌曲库中的全部预存歌曲进行处理，得到每个预存歌曲对应的第二特征向量，构建预存歌曲集合。

104、计算所述第一特征向量与所述第二特征向量之间的相似度，并确定最大相似度。

105、若所述最大相似度大于预设阈值，则判定所述目标歌曲片段与所述最大相似度对应的预存歌曲为同一首歌曲的不同版本。

在对目标歌曲片段进行识别时，按照前述流程获取目标歌曲片段的第一特征向量，计算第一特征向量与每一个第二特征向量之间的相似度，从计算得到的多个相似度中确定最大相似度。

其中，计算第一特征向量和第二特征向量之间的欧式距离，根据欧式距离确定所述第一特征向量与所述第二特征向量之间的相似度，其中，欧式距离越小，相似度越大。例如计算得到欧式距离L，将1/L作为相似度。其中，预设区域的大小为经验值，可以根据多次模拟实验确定。

或者，在其他实施例中，可以采用其他方式计算第一特征向量与第二特征向量之间的相似度，例如，计算余弦相似度，余弦相似度本身即可表示第一特征向量与第二特征向量之间的相似度，余弦相似度的取值范围为(-1，1)计算的余弦相似度越接近于1，则越相似。或者，还可以通过计算DTW(Dynamic Time Warping，动态时间归整)距离等方式，计算第一特征向量和第二特征向量之间的相似度。

如果该最大相似度大于预设阈值，则确定该最大相似度对应的预存歌曲片段，以及该预存歌曲片段所属的预存歌曲，可以判定用户输入的目标歌曲片段与该预存歌曲为同一首歌曲的不同版本，即目标歌曲片段为该预存歌曲的翻唱版本。如果当前是在搜索歌曲或者听歌识曲的场合，则输出该歌曲的歌曲名字或者搜索结果，以供用户基于该搜索结果播放歌曲。

其中，最大相似度可以是最大的一个相似度，或者最大的多个相似度。例如，根据计算得到的多个相似度，从中确定出最大的三个相似度。这样最终搜到的歌曲也有多个，例如，在一首歌曲有多个歌手演唱的不同版本时，可以搜索到这些不同歌手演唱的歌曲。

具体实施时，本申请不受所描述的各个步骤的执行顺序的限制，在不产生冲突的情况下，某些步骤还可以采用其它顺序进行或者同时进行。

由上所述，本发明实施例提出的歌曲识别方法，获取目标歌曲片段后，对该目标歌曲片段进行变换处理，生成对应的第一频谱图。根据第一频谱图和预设的神经网络模型，生成多维的第一特征向量，该第一特征向量能够表征目标歌曲片段所包含的信息。获取预存歌曲的第二特征向量，预存歌曲集合中的每一首预存歌曲被分割为多个预存歌曲片段，一个预存歌曲片段对应一个第二特征向量，并且第一特征向量与第二特征向量的维数相等。通过计算第一特征向量与第二特征向量之间的相似度，来确定与目标歌曲片段最接近的预存歌曲片段，由于预存歌曲集合中有多个预存歌曲片段，故可以计算多个相似度，从多个相似度中确定最大相似度，若该最大相似度大于预设阈值，则可以判断目标歌曲片段与最大相似度对应的预存歌曲为同一首歌曲的不同版本，本方案通过神经网络模型将高维的音频数据转换为低维的特征向量，通过衡量低维特征向量的相似性来判断歌曲的相似性，提高了特征的信息量，增强歌曲识别算法的鲁棒性，进而实现对于翻唱歌曲的准确识别。

根据前面实施例所描述的方法，以下将举例作进一步详细说明。

请参阅图2a，图2a是本发明实施例提供的歌曲识别方法的第二流程示意图。所述方法包括：

201、获取目标歌曲片段，对所述目标歌曲片段进行降采样处理，其中，所述目标歌曲片段的时长为预设时长。

目标歌曲片段为输入到电子设备中作为搜索依据的音频片段。本申请实施例对目标歌曲片段的获取方式不做具体限定。目标歌曲片段可以是用户自己哼唱录制的，也可以是接收其它终端发送的。例如，用户使用电子设备录制时长为预设时长，例如10s的目标歌曲片段，接下来对目标歌曲片段降采样至16KHz。

202、对经过降采样处理的所述目标歌曲片段进行短时傅里叶变换，生成对应的第一频谱图。

电子设备对10s长的目标歌曲片段进行短时傅立叶变换，选择一个时频局部化的窗函数，把一个较长的时间信号分成相同长度的更短的段,在每个更短的段上计算傅里叶变换。例如，变换的窗长为1024，步长为512，按照该参数对目标歌曲片段进行短时傅立叶变换处理，得到第一频谱图。此时第一频谱图应为513*312维的图像。

203、根据所述第一频谱图和预设的神经网络模型，生成n维的第一特征向量，其中，所述神经网络模型包括卷积神经网络和分割编码网络。

将513*312维的第一频谱图输入预先训练好的神经网络模型进行特征的提取。参照图2b所示，为本发明实施例提供的歌曲识别方法中神经网络模型的结构示意图。本申请实施例中提出的神经网络模型由卷积神经网络和分割编码网络构成，将第一频谱图输入神经网络模型，在卷积神经网络中进行卷积运算，生成特征张量；根据分割编码网络对特征张量进行编码处理，生成多维的第一特征向量。

在一些实施例中，神经网络模型的网络结构可以为，卷积神经网络中包括10个卷积神经网络模块，其中，每个卷积神经网络模块(conv block)中有两个分别为1x3和3x1的二维卷积核，如图2b中的conv2d_1×3和conv2d_3×1。该卷积神经网络与divide-and-encode网络连接。参照图2b所示，divide-and-encode网络中从左至右的四个层分别为输入层、数据分割层、全连接层和输出层。根据所述分割编码网络对所述特征张量进行编码处理，生成多维的第一特征向量，包括：

b1、将所述特征张量输入所述分割编码网络，在所述输入层将所述特征张量转换为一维数据后，输入所述数据分割层。

b2、在所述数据分割层将所述一维数据分割为n份，每一份连接至所述全连接层。

b3、经过所述全连接层的运算后，由所述输出层输出n个特征值，所述n个特征值构成n维的第一特征向量，其中，n为大于1的正整数。

divide-and-encode网络将输入的特征张量降维(flatten)为一维数据，再分成n份，每一份连接至所述全连接层，由输出层输出n维的第一特征向量。此处513*312维的频谱图经过特征提取后得到的第一特征向量为128维。

其中，卷积神经网络的激活函数可以使用ELU，全连接层的激活函数可以使用SIGMOD。在其他实施例中，也可以根据需要使用其他函数。

在其他实施例中，卷积神经网络和分割编码网络也可以采用其他的网络结构，能够对频谱图进行特征提取，将其转换为一个特征向量，来表征目标歌曲片段所包含的信息即可。

204、获取预存歌曲的第二特征向量，其中，一首预存歌曲分割为多个预存歌曲片段，一个预存歌曲片段对应一个第二特征向量，所述第一特征向量与所述第二特征向量的维数相等。

其中，按照如下方式，从预存歌曲集合中的预存歌曲得到一组第二特征向量：获取预存歌曲，按照预设采样率对所述预存歌曲进行降采样处理；将经过降采样处理后的预存歌曲分割为多个预设时长的预存歌曲片段；对所述预存歌曲片段进行短时傅里叶变换，生成对应的第二频谱图；根据所述第二频谱图和所述神经网络模型，生成第二特征向量，将所述第二特征向量与所述预存歌曲片段和所述预存歌曲关联后存储至预存歌曲集合。

预存歌曲集合记为S＝{S1,S2……SN}，其中N为建库用的歌曲数，Si为其中的第i首预存歌曲特征向量的集合，如果第i首歌曲时长是240s，则Si包含24个128维的第二特征向量，其中的第j个第二特征向量可以表示为Sij。

205、计算所述第一特征向量与每一所述第二特征向量之间的余弦相似度，从中确定出最大余弦相似度。

对目标歌曲片段进行翻唱识别查询，将根据前述流程提取的该目标歌曲片段的第一特征向量即为Q，计算Q与S中每一个第二特征向量Sij之间的欧氏距离。

206、如果最大余弦相似度大于预设阈值，则判定所述目标歌曲片段与所述最大相似度对应的预存歌曲为同一首歌曲的不同版本。

找出与S中所有第二特征向量Sij的欧氏距离最小的那个距离L和对应的片段S0，如果L小于某个阈值H，则认为目标歌曲片段Q是预存歌曲集合中预存歌曲S0的翻唱版本。至此，可以输出预存歌曲S0的歌曲的名称，完成听歌识曲。

需要说明的是，上述实施例中的涉及到的数字，例如短时傅里叶变换中的窗长、步长，歌曲片段的预设时长，采样率等等，均为经验值，本方案在实际应用时，可以根据需要设置为其他数值。

由上所述，本发明实施例提出的歌曲识别方法，获取目标歌曲片段后，对该目标歌曲片段进行降采样处理，短时傅里叶变换处理，生成对应的第一频谱图。根据第一频谱图和预设的神经网络模型，生成多维的第一特征向量，该第一特征向量能够表征目标歌曲片段所包含的信息。计算第一特征向量与预存歌曲集合中每一第二特征向量之间的相似度，来确定与目标歌曲片段最接近的预存歌曲片段，目标歌曲片段为最大相似度对应的预存歌曲的翻唱版本，本方案通过神经网络模型将高维的音频数据转换为低维的特征向量，通过衡量低维特征向量的相似性来判断歌曲的相似性，提高了特征的信息量，增强歌曲识别算法的鲁棒性，进而实现对于翻唱歌曲的准确识别。

为了实施以上方法，本发明实施例还提供一种歌曲识别装置，该歌曲识别装置具体可以集成在终端设备如手机、平板电脑等设备中。

例如，如图3a所示，是本发明实施例提供的歌曲识别装置的第一种结构示意图。该歌曲识别装置可以包括音频变换单元301、特征提取单元302、数据获取单元303、相似度计算单元304和翻唱识别单元305，如下：

音频变换单元301，用于获取目标歌曲片段，对所述目标歌曲片段进行变换处理，生成对应的第一频谱图；

特征提取单元302，用于根据所述第一频谱图和预设的神经网络模型，生成多维的第一特征向量；

数据获取单元303，用于获取预存歌曲的第二特征向量，其中，一首预存歌曲分割为多个预存歌曲片段，一个预存歌曲片段对应一个第二特征向量，所述第一特征向量与所述第二特征向量的维数相等；

相似度计算单元304，用于计算所述第一特征向量与所述第二特征向量之间的相似度，并确定最大相似度；

翻唱识别单元305，用于若所述最大相似度大于预设阈值，则判定所述目标歌曲片段与所述最大相似度对应的预存歌曲为同一首歌曲的不同版本。

在一些实施例中，音频变换单元301还用于：对所述目标歌曲片段进行短时傅里叶变换，生成对应的第一频谱图。

如图3b所示，是本发明实施例提供的歌曲识别装置的第二种结构示意图。在一些实施例中，神经网络模型包括卷积神经网络和分割编码网络；所述特征提取单元302包括：

卷积网络子单元3021，用于将所述第一频谱图输入所述神经网络模型，在所述卷积神经网络中进行卷积运算，生成特征张量；

分割编码子单元3022，用于根据所述分割编码网络对所述特征张量进行编码处理，生成多维的第一特征向量。

如图3c所示，是本发明实施例提供的歌曲识别装置的第三种结构示意图。在一些实施例中，音频变换单元301包括：

降采样子单元3011，用于按照预设采样率对所述目标歌曲片段进行降采样处理；

音频变换子单元3012，用于对经过降采样处理后的目标歌曲片段进行变换处理，生成对应的第一频谱图。

在一些实施例中，降采样子单元3011还用于：

判断所述目标歌曲片段的时长是否大于预设时长；

若是，则将所述目标歌曲片段的时长调整为预设时长；

按照所述预设采样率对预设时长的所述目标歌曲片段进行降采样处理。

在一些实施例中，所述分割编码网络包括输入层、数据分割层、全连接层和输出层；分割编码子单元3022还用于：

将所述特征张量输入所述分割编码网络，在所述输入层将所述特征张量转换为一维数据后，输入所述数据分割层；

在所述数据分割层将所述一维数据分割为n份，每一份连接至所述全连接层；

经过所述全连接层的运算后，由所述输出层输出n个特征值，所述n个特征值构成n维的第一特征向量，其中，n为大于1的正整数。

在一些实施例中，该歌曲识别装置还包括曲库构建单元，该曲库构建单元用于：

获取预存歌曲，按照预设采样率对所述预存歌曲进行降采样处理；

将经过降采样处理后的预存歌曲分割为多个预设时长的预存歌曲片段；

对所述预存歌曲片段进行短时傅里叶变换，生成对应的第二频谱图；

根据所述第二频谱图和所述神经网络模型，生成第二特征向量，将所述第二特征向量与所述预存歌曲片段和所述预存歌曲关联后存储至预存歌曲集合。

在一些实施例中，相似度计算单元304还用于：

计算所述第一特征向量与所述第二特征向量之间的欧式距离，根据所述欧式距离确定所述第一特征向量与所述第二特征向量之间的相似度，其中，欧式距离越小，相似度越大。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

应当说明的是，本发明实施例提供的歌曲识别装置与上文实施例中的歌曲识别方法属于同一构思，在歌曲识别装置上可以运行歌曲识别方法实施例中提供的任一方法，其具体实现过程详见歌曲识别方法实施例，此处不再赘述。

本发明实施例提出的歌曲识别装置，获取目标歌曲片段后，音频变换单元301对该目标歌曲片段进行变换处理，生成对应的第一频谱图。特征提取单元302根据第一频谱图和预设的神经网络模型，生成多维的第一特征向量，该第一特征向量能够表征目标歌曲片段所包含的信息。数据获取单元303获取预存歌曲的第二特征向量，预存歌曲集合中的每一首预存歌曲被分割为多个预存歌曲片段，一个预存歌曲片段对应一个第二特征向量，并且第一特征向量与第二特征向量的维数相等。相似度计算单元304通过计算第一特征向量与第二特征向量之间的相似度，来确定与目标歌曲片段最接近的预存歌曲片段，由于预存歌曲集合中有多个预存歌曲片段，故可以计算多个相似度，从多个相似度中确定最大相似度，若该最大相似度大于预设阈值，则翻唱识别单元305可以判断目标歌曲片段与最大相似度对应的预存歌曲为同一首歌曲的不同版本，本方案通过神经网络模型将高维的音频数据转换为低维的特征向量，通过衡量低维特征向量的相似性来判断歌曲的相似性，提高了特征的信息量，增强歌曲识别算法的鲁棒性，进而实现对于翻唱歌曲的准确识别。

本发明实施例还提供一种电子设备，如图4所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

在一些实施例中，处理器401运行存储在存储器402中的应用程序，还可以实现如下功能：

对所述目标歌曲片段进行短时傅里叶变换，生成对应的第一频谱图。

按照预设采样率对所述目标歌曲片段进行降采样处理；

对经过降采样处理后的目标歌曲片段进行变换处理，生成对应的第一频谱图。

判断所述目标歌曲片段的时长是否大于预设时长；

若是，则将所述目标歌曲片段的时长调整为预设时长；

将所述第一频谱图输入所述神经网络模型，在所述卷积神经网络中进行卷积运算，生成特征张量；

根据所述分割编码网络对所述特征张量进行编码处理，生成多维的第一特征向量。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

由上所述，本发明实施例提出的电子设备，获取目标歌曲片段后，对该目标歌曲片段进行变换处理，生成对应的第一频谱图。根据第一频谱图和预设的神经网络模型，生成多维的第一特征向量，该第一特征向量能够表征目标歌曲片段所包含的信息。获取预存歌曲的第二特征向量，预存歌曲集合中的每一首预存歌曲被分割为多个预存歌曲片段，一个预存歌曲片段对应一个第二特征向量，并且第一特征向量与第二特征向量的维数相等。通过计算第一特征向量与第二特征向量之间的相似度，来确定与目标歌曲片段最接近的预存歌曲片段，由于预存歌曲集合中有多个预存歌曲片段，故可以计算多个相似度，从多个相似度中确定最大相似度，若该最大相似度大于预设阈值，则可以判断目标歌曲片段与最大相似度对应的预存歌曲为同一首歌曲的不同版本，本方案通过神经网络模型将高维的音频数据转换为低维的特征向量，通过衡量低维特征向量的相似性来判断歌曲的相似性，提高了特征的信息量，增强歌曲识别算法的鲁棒性，进而实现对于翻唱歌曲的准确识别。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种歌曲识别方法中。例如，该指令可以执行：

以上操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种歌曲识别方法，因此，可以实现本发明实施例所提供的任一种歌曲识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。以上对本发明实施例所提供的一种歌曲识别方法、装置及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种歌曲识别方法，其特征在于，包括：

根据所述第一频谱图和预设的神经网络模型，生成多维的第一特征向量，包括：将所述第一频谱图输入所述神经网络模型，在卷积神经网络中进行卷积运算，生成特征张量；根据分割编码网络对所述特征张量进行编码处理，生成多维的第一特征向量；

2.如权利要求1所述的歌曲识别方法，其特征在于，所述对所述目标歌曲片段进行处理，生成对应的第一频谱图，包括：

3.如权利要求1所述的歌曲识别方法，其特征在于，所述对所述目标歌曲片段进行变换处理，生成对应的第一频谱图，包括：

按照预设采样率对所述目标歌曲片段进行降采样处理；

4.如权利要求3所述的歌曲识别方法，其特征在于，所述按照预设采样率对所述目标歌曲片段进行降采样处理，包括：

判断所述目标歌曲片段的时长是否大于预设时长；

若是，则将所述目标歌曲片段的时长调整为预设时长；

5.如权利要求1所述的歌曲识别方法，其特征在于，所述分割编码网络包括输入层、数据分割层、全连接层和输出层；所述根据所述分割编码网络对所述特征张量进行编码处理，生成多维的第一特征向量，包括：

6.如权利要求1至5任一项所述的歌曲识别方法，其特征在于，所述方法还包括：

7.如权利要求1至5任一项所述的歌曲识别方法，其特征在于，所述计算所述第一特征向量与所述第二特征向量之间的相似度，包括：

8.一种歌曲识别装置，其特征在于，包括：

特征提取单元，用于根据所述第一频谱图和预设的神经网络模型，生成多维的第一特征向量，包括：将所述第一频谱图输入所述神经网络模型，在卷积神经网络中进行卷积运算，生成特征张量；根据分割编码网络对所述特征张量进行编码处理，生成多维的第一特征向量；

9.如权利要求8所述的歌曲识别装置，其特征在于，所述音频变换单元还用于：对所述目标歌曲片段进行短时傅里叶变换，生成对应的第一频谱图。

10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的歌曲识别方法。

11.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上，并可在所述处理器上运行的歌曲识别程序，所述歌曲识别程序被所述处理器执行时实现权利要求1至7任一项所述的方法。