CN114817622A - 歌曲片段搜索方法及其装置、设备、介质、产品 - Google Patents

歌曲片段搜索方法及其装置、设备、介质、产品 Download PDF

Info

Publication number
CN114817622A
CN114817622A CN202111493984.8A CN202111493984A CN114817622A CN 114817622 A CN114817622 A CN 114817622A CN 202111493984 A CN202111493984 A CN 202111493984A CN 114817622 A CN114817622 A CN 114817622A
Authority
CN
China
Prior art keywords
song
information
feature
segment
song segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111493984.8A
Other languages
English (en)
Inventor
肖纯智
张超钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN202111493984.8A priority Critical patent/CN114817622A/zh
Publication of CN114817622A publication Critical patent/CN114817622A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种歌曲片段搜索方法及其装置、设备、介质、产品,所述方法包括:获取客户端提交的待搜索歌曲片段相对应的编码信息;采用特征提取模型根据编码信息提取出表征该待搜索歌曲片段的多个尺度的深层语义信息的高维索引向量;将与第一歌曲片段特征库中的高维索引向量未构成相似的待搜索歌曲片段的高维索引向量确定为待匹配向量;第一歌曲片段特征库中的高维索引向量为所述特征提取模型提取无主旋律的歌曲片段的特征表示;从第二歌曲片段特征库所存储的多个歌曲片段相对应的高维索引向量中匹配出与待匹配向量构成相似的目标歌曲片段。通过以上过程,可以快速高效精准地实现以歌搜歌服务,为用户查找到待搜索歌曲片段相似的目标歌曲片段。

Description

歌曲片段搜索方法及其装置、设备、介质、产品
技术领域
本申请涉及音乐信息检索技术领域,尤其涉及一种歌曲片段搜索方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
随着短视频、直播、电台的流行,翻唱类的音乐数量越来越大,需要音乐识别的场景也越来越复杂。与原唱版本相比,翻唱版本可能在音色、基频、节奏、速度、和声、歌词、唱法、整体结构等音乐成分均存在差异甚至完全不同。因此翻唱识别是一个非常有挑战性的研究工作。
现有技术中存在多种翻唱识别相关的技术,各种现有技术均存在一定程度的不足,例如:(1)传统的基于Landmark的听歌识曲技术,只能识别同源版本的歌曲,无法识别上述具有一定差异化信息的翻唱版本;(2)传统的基于旋律匹配的哼唱识曲技术,只能识别干净的清唱/哼唱,无法识别上述带背景伴奏的翻唱版本;(3)传统的翻唱识别技术方案,主要是通过提取音级轮廓(Pitch Class Profile,PCP)等音频特征,然后利用动态规划等算法计算歌曲间的相似距离。由于翻唱版本的多样性,上述方案仅能适用于改编较小的翻唱方案,准确识别率低,而且识别速度慢,无法适用于海量音乐的查找。
歌曲短片段翻唱识尤其是翻唱识别中的难点,短片段通常只具有几秒到十几秒的音频时长,信息量有限,但却需要快速识别出对应的原版歌曲,并将结果返回给用户。基于这一特点,短片段翻唱识别一直是业内的一个难题,首先缺乏有效的短片段翻唱训练集,其次识别率低(用户拾音环境存在强干扰、失真、信道衰弱等),此外短片段容易引起误判(片段过短有效内容不足,无旋律的伴奏、说话声、杂音、重复性的DJ背景音等无明显旋律特征的片段样本均易引起误判,其中无旋律误判是最主要的误判来源)。
综上,针对歌曲片段识别相关的技术方案缺乏普遍适应性,识别准确率不高,且识别效率低下,故本申请人尝试探索更为有效的技术方案。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种歌曲片段搜索方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种歌曲片段搜索方法,包括如下步骤:
获取客户端提交的待搜索歌曲片段相对应的编码信息;
采用已训练至收敛状态的特征提取模型根据所述编码信息提取出表征该待搜索歌曲片段的多个尺度的深层语义信息的高维索引向量;
将与第一歌曲片段特征库中的高维索引向量未构成相似的待搜索歌曲片段的高维索引向量确定为待匹配向量;第一歌曲片段特征库中的高维索引向量为所述特征提取模型提取无主旋律的歌曲片段的特征表示;
从第二歌曲片段特征库所存储的多个歌曲片段相对应的高维索引向量中匹配出与待匹配向量构成相似的目标歌曲片段;第二歌曲片段特征库中的高维索引向量为所述特征提取模型提取有主旋律的歌曲片段的特征表示。
深化的实施例中,所述获取客户端提交的待搜索歌曲片段相对应的编码信息,包括如下步骤:
接收客户端提交的歌曲片段搜索请求,获取该请求所指定的待搜索歌曲片段的音频数据;
检测所述音频数据是否包含人声演唱信息,若未包含则终止后续执行;
将所述音频数据格式化为处于最小预设时长和最大预设时长之间的音频数据;
对所述音频数据进行编码,获得相应的编码信息。
深化的实施例中,所述特征提取模型被调用时,执行如下步骤:
采用已训练至收敛状态的特征提取模型中的共享网络中的多个卷积块依次对所述编码信息进行多级特征提取,获得提取了所述编码信息的深层语义信息的中间特征信息;
采用所述特征提取模型中的两个以上的分支网络中的多个卷积块对所述中间特征信息进行不同尺度的特征提取后,转换为相应尺度的输出特征向量,各分支网络的输出特征向量所包含的深层语义信息各不相同;
由所述特征提取模型将各分支网络的输出特征向量输出为所述的高维索引向量。
进一步的实施例中,所述采用所述特征提取模型中的两个以上的分支网络中的多个卷积块对所述中间特征信息进行不同尺度的特征提取后,转换为相应尺度的输出特征向量,包括如下任意两个以上的步骤:
采用第一分支网络中的多个卷积块对该中间特征信息进行特征提取获得全局特征信息,将全局特征信息池化为全局尺度的输出特征向量;
采用第二分支网络中的多个卷积块对该中间特征信息进行特征提取后按通道分割成多部分进行池化,相应获得通道尺度的输出特征向量;
采用第三分支网络中的多个卷积块对该中间特征信息进行特征提取后按频带分割成多部分进行池化,相应获得频带尺度的输出特征向量。
较佳的改进实施例中,所述第一分支网络执行所述池化的操作时,采用均值池化和/或最大值池化操作,以相应获得一个或两个所述的全局尺度的输出特征向量;所述第二分支网络执行所述池化的操作时,针对单个或多个通道采用均值池化操作,以相应获得一个或多个所述的通道尺度的输出特征向量;所述第三分支网络执行所述池化的操作时,针对单个或多个频带采用均值池化操作,以相应获得一个或多个所述的频带尺度的输出特征向量。
进一步的实施例中,所述卷积块被调用时,执行如下步骤:
对输入其中的信息进行卷积变换获得变换特征信息;
将所述变换特征信息分别进行实例归一化和批量归一化处理后组合为拼接特征信息,对拼接特征信息激活输出;
将激活输出的拼接特征信息经多次卷积操作和批量归一化处理后获得残差信息;
将残差信息叠加至输入其中的信息中激活输出。
较佳的实施例中,所述共享网络中,至少一个所述的卷积块应用注意力模块用于提取歌曲片段的音频数据中的关键信息,所述注意力模块为空间注意力模块或通道注意力模块。
较佳的实施例中,所述编码信息的来源为相应的音频数据的时频谱信息、梅尔谱信息、CQT滤波信息、音级轮廓信息、Chroma特征信息中任意一项。
深化的实施例中,所述将与第一歌曲片段特征库中的高维索引向量未构成相似的待搜索歌曲片段的高维索引向量确定为待匹配向量,包括如下步骤:
调用第一歌曲片段特征库,第一歌曲片段特征库存储有多个预设的无主旋律的歌曲片段相对应的高维索引向量,所述高维索引向量由所述特征提取模型提取相应的歌曲片段获得;
分别计算待搜索歌曲片段的高维索引向量与第一歌曲片段特征库中的各个高维索引向量之间的相似度,获得相应的相似度数值;
判断是否存在相似度数值超过预设门限的无主旋律的歌曲片段,若存在则判定所述待搜索歌曲片段未包含歌曲旋律而终止执行,若不存在则判定待搜索歌曲片段包含歌曲旋律而将其高维索引向量确定为待匹配向量。
深化的实施例中,所述从第二歌曲片段特征库所存储的多个歌曲片段相对应的高维索引向量中匹配出与待匹配向量构成相似的目标歌曲片段,包括如下步骤:
调用第二歌曲片段特征库,以获得其中各首歌曲片段相对应的高维索引向量,所述高维索引向量为整体表示一个歌曲片段的不同尺度的深层语义信息的单个高维向量;
分别计算所述待匹配向量与第二歌曲片段特征库中的各个高维索引向量之间的相似度,获得相应的相似度序列;
确定所述相似度序列中超过预设阈值且为最大的相似度数值所对应的歌曲片段为与待搜索歌曲片段构成相似的目标歌曲片段;
从曲库中获取该目标歌曲片段所属的歌曲的访问链接推送给客户端设备。
扩展的实施例中,所述特征提取模型的训练过程包括如下迭代训练的步骤:
从训练集中调用一个训练样本,确定该训练样本的编码信息,所述训练样本为按照预定时长预采集的包含歌曲旋律的歌曲片段;
将所述编码信息输入至所述特征提取模型中对其实施训练,以获得相对应的各个输出特征向量;
分别针对各个所述的输出特征向量进行分类预测,使其映射出相应的分类标签;
利用所述训练样本相对应的监督标签与所述分类标签计算特征提取模型的损失值,根据所述损失值对该特征提取模型实施梯度更新;
判断所述损失值是否达到预设阈值,当未达到预设阈值时,调用训练集中的下一训练样本继续对该特征提取模型实施迭代训练,直至该损失值达至所述预设阈值。
扩展的实施例中,所述歌曲片段搜索方法包括用于构造第二歌曲片段特征库的如下步骤:
从曲库中获取候选歌曲的音频数据,根据预设时长将该音频数据分割为多个歌曲片段,获得多个歌曲片段相对应的音频数据;
针对每个歌曲片段的音频数据进行编码获得其编码信息;
针对每个歌曲片段,调用所述特征提取模型提取其编码信息的多个尺度的深层语义信息,相应获得其高维索引向量;
针对每个歌曲片段,计算其高维索引向量与第一歌曲片段特征库中的各个高维索引向量之间的相似度,获得相应的相似度数值;
针对每个歌曲片段,判断是否存在相似度数值超过预设门限的无主旋律的歌曲片段,若存在则丢弃该歌曲片段,若不存在则将该歌曲片段与其高维索引向量的映射关系数据存储于第二歌曲片段特征库中。
适应本申请的目的之一而提供的一种歌曲片段搜索装置,包括:片段编码模块、语义提取模块、片段过滤模块,以及片段匹配模块,其中,所述片段编码模块,用于获取客户端提交的待搜索歌曲片段相对应的编码信息;所述语义提取模块,用于采用已训练至收敛状态的特征提取模型根据所述编码信息提取出表征该待搜索歌曲片段的多个尺度的深层语义信息的高维索引向量;所述片段过滤模块,用于将与第一歌曲片段特征库中的高维索引向量未构成相似的待搜索歌曲片段的高维索引向量确定为待匹配向量;第一歌曲片段特征库中的高维索引向量为所述特征提取模型提取无主旋律的歌曲片段的特征表示;所述片段匹配模块,用于从第二歌曲片段特征库所存储的多个歌曲片段相对应的高维索引向量中匹配出与待匹配向量构成相似的目标歌曲片段;第二歌曲片段特征库中的高维索引向量为所述特征提取模型提取有主旋律的歌曲片段的特征表示。
适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的歌曲片段搜索方法的步骤。
适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的歌曲片段搜索方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
相对于现有技术,本申请的优势如下:
首先,本申请根据待搜索歌曲片段编码获得的编码信息,借助预训练至收敛状态的特征提取模型获得表征其风格不变特征的深层语义信息的高维索引向量,根据用于存储无主旋律的歌曲片段的高维索引向量的第一歌曲片段特征库对该待搜索歌曲片段是否属于无主旋律的歌曲片段进行过滤判别,将判别为有主旋律的待搜索歌曲片段的高维索引向量确定为待匹配向量,然后在第二歌曲片段特征库中再匹配出该待搜索歌曲片段相似的目标歌曲片段。由于第二歌曲片段特征库中的歌曲片段的高维索引向量也是采用相同特征提取模型提取的,均在不同语义尺度上实现了对歌曲片段相应的音频数据的深层语义表示,因此,可以与待搜索歌曲片段进行语义匹配,从而根据语义精准地实现所述待搜索歌曲片段的相似歌曲片段的匹配,基于端到端的模型架构为客户端设备快速查询相似歌曲。
其次,本申请针对歌曲片段短时长、信息量不足的特点,既通过采用多尺度特征来增强对其语义信息的捕捉,又借助无主旋律的第一歌曲片段特征库对待搜索歌曲片段进行过滤预处理,前者可以通过增强语义信息表示能力来为搜索匹配过程提供丰富的校验信息,后者可以通过滤除无旋律的冗余信息来达到只针对有旋律的歌曲片段进行搜索匹配的目的,两者相配合,便全面提升了搜索匹配结果的精准度。
再者,由于本申请在其所采用的特征提取模型中实现对歌曲片段的音频数据的深层语义信息的多尺度的特征提取,因此可使所获得的高维索引向量更具表示能力,例如表示所述歌曲片段的音频数据的全局特征信息、显著特征信息、通道特征信息、频带特征信息等,从而实现对相应的歌曲片段的音频数据的更为有效的索引,以此为基础执行歌曲片段的搜索任务,可获得更为精准高效的匹配效果,可通用服务于翻唱识别、听歌识曲、哼唱识别、侵权比对等多种业务需求。
此外,本申请以端到端表示学习能力为基础时,辅以一个检索匹配机制,能够取得较为明显的规模成效,可部署于在线音乐服务平台的后台而实现标准化接口,进而服务于多种不同应用场景的需求,提供综合多用途的开放服务,提升平台的音乐信息检索经济优势。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的歌曲片段搜索方法的典型实施例的流程示意图;
图2为本申请一种实施例中获取编码信息过程的流程示意图;
图3为本申请一种实施例中特征提取模型运行过程的流程示意图;
图4为本申请一种实施例中特征提取模型的网络架构示意图;
图5为本申请另一实施例中特征提取模型的网络架构示意图;
图6为本申请的特征提取模型中所采用的残差卷积块的工作过程所呈现的流程示意图;
图7为本申请的实施例中,利用第一歌曲片段特征库对待搜索歌曲片段进行过滤的具体过程的流程示意图;
图8为本申请的实施例中,利用第二歌曲片段特征库对待搜索歌曲片段进行匹配的具体过程的流程示意图;
图9为本申请的特征提取模型被实施训练的过程的流程示意图;
图10为本申请的特征提取模型在训练阶段所接入的分类模型的原理框图;
图11为本申请的实施例中构造第二歌曲片段特征库的过程的流程示意图;
图12为本申请的歌曲片段搜索装置的原理框图;
图13为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种歌曲片段搜索方法,可被编程为计算机程序产品,部署于服务器中运行而实现,藉此,客户端可以网页程序或应用程序的形式访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程实现人机交互。
请参阅图1,本申请的歌曲片段搜索方法,在其典型实施例中,包括如下步骤:
步骤S1100、获取客户端提交的待搜索歌曲片段相对应的编码信息:
本申请的技术方案可部署于在线音乐平台的服务器中,向海量的平台用户开放多种以歌搜歌的服务,包括但不限于听歌识曲、哼唱识曲、翻唱识别等。
听歌识曲业务中,用户可在其客户端录制一段通常是外源的音频数据,作为待搜索歌曲片段提交至服务器,服务器据此为其找到原版歌曲或相应的翻唱歌曲。
哼唱识曲业务中,用户可在其客户端录制一段人声演唱形成的主旋律,获得对应的音频数据,同理作为待搜索歌曲片段提交至服务器,服务器根据主旋律的相似性为其找到具有相同主旋律的歌曲。
翻唱识别业务中,用户可在其客户端向服务器指定或提交一首歌曲的音频数据,作为待搜索歌曲片段,然后由服务器据此找出其相同歌曲或其相应的其他不同版本的歌曲,以此确定两者之间存在翻唱或相同关系。
本申请所称的歌曲片段,通常可以预先规定为时长落入特定时长范围内的歌曲片段,实践中可根据歌词的时间戳结合特定时长范围对歌曲片段进行界定,从而使歌曲片段更具备独立性。
用户提交的待搜索歌曲片段到达服务器后,服务器会对其进行相应的编码,以便获得其相应的编码信息,在编码过程中可以视具体情况对待搜索歌曲片段的音频数据做适应性的处理。
提交至所述服务器的待搜索歌曲片段的音频数据,可以是MP3、WMA、M4A、WAV等等任意格式的音频数据,也可以是对各类视频文件分离音频而获得的音频数据。待搜索歌曲片段的音频数据通常由时域的多个语音数据包构成。在此基础上,适应具体编码信息类型对语音数据包进行相应的变换处理,便可获得相应的编码信息。
所述编码信息主要是起到描述歌曲片段的音频数据中的风格不变特征的相关信息,可以有多种类型,包括但不限于由音频数据的语音数据包提取而得的时频谱信息、梅尔谱信息、CQT滤波信息、音级轮廓信息、Chroma特征信息等。此类信息可以采用相应的算法进行编码,从而获得相应类型的编码信息。本申请中,以上任意一种类型的编码信息均可用于本申请中实现特征提取。实践中,推荐以经实测最优的CQT滤波信息进行编码而获得所述的编码信息。
本领域技术人员理解,以上各种编码信息,均可采用对应的算法对其编码。编码的过程中,需要先对歌曲片段的音频数据进行预加重、分帧以及加窗等常规处理,然后再进行时域或频域的分析,即实现语音信号分析。预加重的目的是为了提升语音信号的高频部分,使频谱平滑;一般预加重通过一个一阶高通滤波器实现。在对语音信号进行分析前,还需对其进行分帧,通常将语音信号的每帧长度设为20ms,考虑帧移因素,相邻两帧之间可以有10ms的重叠。为了实现分帧,可通过对语音信号进行加窗操作来实现。不同的窗口选择对语音信号分析的结果会产生影响,较为常见的,采用汉明窗(Hamm)相对应的窗函数来实施加窗操作。
在完成对歌曲片段的音频数据的语音信号分析所需的预处理的基础上,进一步可对其实施时域和频域的分析,以实现编码而获得相应的编码信息:
针对所述的时频谱信息,通过对各个语音数据包在时域上的语音数据进行预加重、分帧、加窗、短时傅里叶变换(STFT)变换到频域,从而获得声谱图相对应的数据,从而构成所述的时频谱信息。
所述的梅尔谱信息,可以采用梅尔尺度滤波器组对所述的时频谱信息进行滤波处理而获得,同理,通过对梅尔谱信息进行取对数、做DCT变换,获得相应的梅尔倒谱信息,也同样适用。可以理解,梅尔谱信息及其梅尔倒谱信息能够更好地描述歌曲中的风格不变特征,例如音高、音准、音色等等。
对于所述的CQT滤波信息,由于在音乐中,所有的音都是由若干八度的12平均律共同组成的,即十二平均律,对应着钢琴中一个八度上的十二个半音。这些半音邻近之间频率比为21/12。显然,同一音级的两个八度音,高八度音是低八度音频率的两倍。因此在音乐当中,声音都是以指数分布的,但傅立叶变换得到的音频谱都是线性分布的,两者的频率点是不能一一对应的,这会使某些音阶频率的估计值产生误差。所以可采用CQT这一时频变换算法替换傅里叶变换手段来进行语音分析。CQT,Constant Q Transform,即恒Q变换,指中心频率按指数规律分布,滤波带宽不同、但中心频率与带宽比为常量Q的滤波器组。其与傅立叶变换不同的是,其频谱的横轴频率不是线性的,而是基于log2为底的,并且可以根据谱线频率的不同而改变滤波窗长度,以获得更好的性能。由于CQT与音阶频率的分布相同,所以通过计算音乐信号的CQT谱,可以直接得到音乐信号在各音符频率处的振幅值,对于音乐的信号处理来说更为完美。因此,本实施例推荐采用这一信息进行相应的编码获得相应的编码信息,作为本申请的神经网络模型的输入。
所述的音级轮廓信息,包括PCP(Pitch Class Profile)、HPCP(Harmonic PitchClass Profile)均可,旨在从歌曲片段的音频数据中提取出其相应其基音序列,经规整、合并、分段后转化为旋律轮廓序列,然后使用标准音调生成的标准音调差值转化为相应的特征表示。采用基于音级轮廓信息构造的编码信息,对环境噪声有较好的鲁棒性。
所述的Chroma特征信息,是色度向量(Chroma Vector)和色度图谱(Chromagram)的统称。色度向量是一个含有12个元素的向量,这些元素分别代表一段时间(如1帧)内12个音级中的能量,不同八度的同一音级能量累加,色度图谱则是色度向量的序列。具体而言,将歌曲片段的音频数据的语音数据包做短时傅里叶变换从时域转变为频域之后,做一些降噪处理,再进行调谐;将绝对时间按照所选窗的长度转换为帧,并将每一个音高在每一帧内的能量记录下来,成为音高图谱;在音高图谱的基础上,将同一时间、同一音级、不同八度的音符的能量(以响度计)叠加到色度向量内该音级的元素上,成为色度图谱。该色度图谱相对应的数据即为所述的Chroma特征信息。
以上任意一种具体编码信息均可用于本申请的特征提取模型的输入,为了便于该特征提取模型的处理,可以根据一定的预设格式组织所述的编码信息。例如,将每个语音包对应的编码信息组织为一个行向量,对于被编码的整个音频数据按时序将其各个语音数据包的行向量按行组织在一起获得一个二维矩阵作为其完整的编码信息。诸如此类,可为适应所述特征提取模型所预设,可由本领域技术人员灵活实施。
需要注意的是,此处所称的编码原理,是适应所述特征提取模型的输入所需而采用的,因而适用于特征提取模型所需要处理的所有由其进行表示学习的音频数据,例如,本申请中,不仅适用于待搜索歌曲片段的音频数据,也适用于所述特征提取模型在训练阶段对训练样本的音频数据的处理,同理也适用于本申请的第一歌曲片段特征库和第二歌曲片段特征库所包括的歌曲片段相应的音频数据的处理,本领域技术人员对此当能理解。
步骤S1200、采用已训练至收敛状态的特征提取模型根据所述编码信息提取出表征该待搜索歌曲片段的多个尺度的深层语义信息的高维索引向量:
本申请基于卷积神经网络模型实现的用于提取歌曲片段的深层语义信息的特征提取模型,预先被训练至收敛状态,经训练之后使其习得适于根据所述的编码信息提取出歌曲片段的音频数据的多个尺度的深层语义信息的能力,实现对相应的歌曲片段的音频数据的风格不变特征的表示学习,从而可以用于歌曲之间的查询、检索、匹配等需求。
本申请的特征提取模型,被实现为适于提取同一音频数据的多个尺度的深层语义信息,将这些深层语义信息表示为单个或多个高维索引向量,以便从多不同方面和/或不同角度实现对音频数据的特征表示。所述高维索引向量本质上为高维向量,其在语义层面上起到对相应的音频数据的编码信息的索引代表作用。这些不同的尺度,包括基于编码信息的全局的尺度,或者基于编码信息的频带尺度、通道尺度等进行特征提取获得,对于一个歌曲片段而言,选取其编码信息相对应的两个或两个以上的任意数量的尺度的深层语义信息表示为高维索引向量,便可实现对相应的歌曲片段的多尺度深层语义信息的特征表示。
根据以上原理实现的所述特征提取模型被训练至收敛后,便可开放服务接口供本实施例的技术方案所调用,向其馈入所述待搜索歌曲片段的编码信息,由该特征提取模型在该编码信息的基础上进行特征提取,获得待搜索歌曲片段相对应的高维索引向量。
应当理解,由于所述特征提取模型可以从多个尺度提取歌曲片段的深层语义信息,在将这些不同尺度的深层语义信息转换为所述的高维索引向量时,可以有不同的组织形式,例如,将所述高维索引向量表示为单个的高维向量,通常该单个高维向量整体上表示一个歌曲片段的深层语义信息;或者,将所述高维索引向量根据尺度对应关系表示为离散的多个高维向量,每个高维向量对应一个尺度。无论如何,本领域技术人员可以根据对实际尺度语义信息的需要而灵活组织这些高维向量,以方便实现对歌曲的整体深层语义信息的表示数据的调用为准。
对于本步骤而言,经所述特征提取模型对所述待搜索歌曲片段的编码信息进行特征提取,最终便可获得该待搜索歌曲片段相对应的高维索引向量,可用于后续的相似匹配。
步骤S1300、将与第一歌曲片段特征库中的高维索引向量未构成相似的待搜索歌曲片段的高维索引向量确定为待匹配向量;第一歌曲片段特征库中的高维索引向量为所述特征提取模型提取无主旋律的歌曲片段的特征表示:
本申请预构造有一个第一歌曲片段特征库,第一歌曲片段特征库用于存储海量的无主旋律的歌曲片段及其相对应的高维索引向量之间的映射关系数据,其中的高维索引向量由本申请的特征提取模型提取相应的无主旋律的歌曲片段获得。该些无主旋律的歌曲片段,可预先通过从无主旋律歌曲中采集获得,相应的无主旋律歌曲可以是纯音乐伴奏歌曲,也可以是有主旋律歌曲中无主旋律的前奏段、过渡段、结尾段等,诸如此类,既可借助公知识别技术检测截取,也可人工处理获得。
为了降低后续为待搜索歌曲片段匹配相似歌曲片段的误判率,此处将待搜索歌曲片段的高维索引向量与第一歌曲片段特征库中的各个无主旋律的歌曲片段的高维索引向量计算相似度,然后根据相似度数值确定是否存在与该待搜索歌曲相似的无主旋律歌曲片段,若存在,则表示待搜索歌曲片段不包含歌曲主旋律,因此无需再继续后续步骤,直接通知相应的客户端设备即可;若不存在,则表示待搜索歌曲片段包含歌曲主旋律,可将其高维索引向量确定为待匹配向量,然后继续采用该待匹配向量为待搜索歌曲片段搜索出与其相似的目标歌曲片段。
在进行相似度计算时,可以采用余弦相似度算法、欧氏距离算法、皮尔逊系数算法、杰卡德相似度算法、近邻搜索算法等等,任意一种适于计算数据间相似距离的算法来实现,本领域技术人员对此可灵活实施。
步骤S1400、从第二歌曲片段特征库所存储的多个歌曲片段相对应的高维索引向量中匹配出与待匹配向量构成相似的目标歌曲片段;第二歌曲片段特征库中的高维索引向量为所述特征提取模型提取有主旋律的歌曲片段的特征表示:
本申请预构造有一个第二歌曲片段特征库,第二歌曲片段特征库的构造过程请参阅本申请后文的相应实施例的详细揭示。概要而言,第二歌曲片段特征库用于存储海量的有主旋律的歌曲片段及其相对应的高维索引向量之间的映射关系数据,其中的高维索引向量由本申请的特征提取模型提取相应的有主旋律的歌曲片段获得。该些有主旋律的歌曲片段,可预先通过从曲库的歌曲中采集获得,例如通过歌曲相对应的歌词中的时间戳,结合特定时长范围,将歌曲中的歌词对应部分的片段截取出来,由此获得各个相应的有主旋律的歌曲片段。除此之外,当然也可人工识别和处理获得。
示例性的在线音乐服务平台中,预备有一个曲库,该曲库存储海量的歌曲相对应的音频数据,可以为所述第二歌曲片段特征库提供歌曲片段素材。因此,对于所述待搜索歌曲片段而言,第二歌曲片段特征库所指向的歌曲片段便是搜索过程中的候选歌曲片段,这些候选歌曲片段可以在所述曲库中对应出相应的目标歌曲。
歌曲片段特征库基于所述待搜索歌曲片段的高维索引向量即所述的待匹配向量与第二歌曲片段特征库中各个歌曲片段相对应的高维索引向量,可以应用预设的相似度计算公式进行相似度计算,以计算出所述待搜索歌曲片段与各个歌曲片段之间的相似度数值。所述相似度计算公式,可以采用余弦相似度算法、欧氏距离算法、皮尔逊系数算法、杰卡德相似度算法、近邻搜索算法等等,任意一种适于计算数据间相似距离的算法来实现,本领域技术人员对此可灵活实施。经过相似度计算后,便获得所述待搜索歌曲片段的待匹配向量对应第二歌曲片段特征库中的各个歌曲片段的高维索引向量之间的相似度序列,所述相似度序列中,存储该待搜索歌曲片段与第二歌曲片段特征库中各个歌曲片段相对应的相似度数值。
确定出所述待搜索歌曲片段相对应的相似度序列后,进一步可利用一个预设阈值,该预设阈值可以是经验阈值或实验阈值,利用该预设阈值对所述相似度序列中的各个相似度数值进行过滤,过滤出其中相似度数值超过该预设阈值的所有元素。如果超过预设阈值的元素为0,则表明第二歌曲片段特征库中不存在与所述待搜索歌曲片段构成相似的相似歌曲片段。如果筛选后获得多个相似度数值,则可只选用其中最大相似度数值所对应的歌曲片段,作为该待搜索歌曲片段相对应的相似歌曲片段,也即以歌搜歌所获得的目标歌曲片段。
至此,根据客户端设备所提交或指定的待搜索歌曲片段,本申请便确定出了其与其在语义上相似的目标歌曲片段,进一步可从曲库中调用该目标歌曲片段所属的歌曲相对应的音频数据,获得该歌曲的音频数据的访问链接,封装为包含该链接的可播放页面或可播放数据,将其推送至相应的客户端设备中供用户进一步访问。对此,无论是听歌识曲,还是哼唱识曲,抑或是翻唱识别等业务,用户只需提交或指定相应的待搜索歌曲片段,便可获得相应的相似歌曲。
在本申请后续将陆续揭示的其他实施例中,以歌搜歌的过程存在多种变化情况,此处暂且按下不表。此处仅根据本典型实施例的介绍,即可理解,本申请的实施,具备丰富的优势,包括但不限于如下各个方面:
首先,本申请根据待搜索歌曲片段编码获得的编码信息,借助预训练至收敛状态的特征提取模型获得表征其风格不变特征的深层语义信息的高维索引向量,根据用于存储无主旋律的歌曲片段的高维索引向量的第一歌曲片段特征库对该待搜索歌曲片段是否属于无主旋律的歌曲片段进行过滤判别,将判别为有主旋律的待搜索歌曲片段的高维索引向量确定为待匹配向量,然后在第二歌曲片段特征库中再匹配出该待搜索歌曲片段相似的目标歌曲片段。由于第二歌曲片段特征库中的歌曲片段的高维索引向量也是采用相同特征提取模型提取的,均在不同语义尺度上实现了对歌曲片段相应的音频数据的深层语义表示,因此,可以与待搜索歌曲片段进行语义匹配,从而根据语义精准地实现所述待搜索歌曲片段的相似歌曲片段的匹配,基于端到端的模型架构为客户端设备快速查询相似歌曲。
其次,本申请针对歌曲片段短时长、信息量不足的特点,既通过采用多尺度特征来增强对其语义信息的捕捉,又借助无主旋律的第一歌曲片段特征库对待搜索歌曲片段进行过滤预处理,前者可以通过增强语义信息表示能力来为搜索匹配过程提供丰富的校验信息,后者可以通过滤除无主旋律的冗余信息来达到只针对有主旋律的歌曲片段进行搜索匹配的目的,两者相配合,便全面提升了搜索匹配结果的精准度。
再者,由于本申请在其所采用的特征提取模型中实现对歌曲片段的音频数据的深层语义信息的多尺度的特征提取,因此可使所获得的高维索引向量更具表示能力,例如表示所述歌曲片段的音频数据的全局特征信息、显著特征信息、通道特征信息、频带特征信息等,从而实现对相应的歌曲片段的音频数据的更为有效的索引,以此为基础执行歌曲片段的搜索任务,可获得更为精准高效的匹配效果,可通用服务于翻唱识别、听歌识曲、哼唱识别、侵权比对等多种业务需求。
此外,本申请以端到端表示学习能力为基础时,辅以一个检索匹配机制,能够取得较为明显的规模成效,可部署于在线音乐服务平台的后台而实现标准化接口,进而服务于多种不同应用场景的需求,提供综合多用途的开放服务,提升平台的音乐信息检索经济优势。
请参阅图2,深化的实施例中,所述步骤S1100、获取客户端提交的待搜索歌曲片段相对应的编码信息,包括如下步骤:
步骤S1110、接收客户端提交的歌曲片段搜索请求,获取该请求所指定的待搜索歌曲片段的音频数据:
本实施例中,用户在其客户端设备所展示的歌曲片段搜索页面中录制或指定一段音频数据,必要时此段音频数据可以事先由应用程序规定一个预设时长,然后触发将该音频数据作为待搜索歌曲片段所需的音频数据的歌曲片段搜索请求,将该请求提交至本申请开放以歌搜歌服务的服务器。服务器解析该请求而获得待搜索歌曲片段相应的音频数据。客户端提交的音频数据,既可以是带伴奏和歌唱主旋律的音频数据,也可以是单纯人声哼唱歌曲主旋律形成的音频数据,因此,既可以是从歌曲文件中截取的数据,也可以是从客户端的录音设备中采样获得的音频数据。至于所述的歌曲文件,既可以是客户端本地存储的,也可以是客户端通过访问链接提供的远程文件。
步骤S1120、检测所述音频数据是否包含人声演唱信息,若未包含则终止后续执行:
为了提升匹配准确率,服务器可对其所接收的音频数据进行预处理,例如通过VAD逻辑模块检测所述音频数据中是否包含人声演唱主旋律部分,如果不包含人声演唱主旋律部分音频数据,则可终止本申请的后续执行,直接向客户端设备返回相应的通知。当确认存在人声演唱主旋律部分相对应的音频数据时,可以继续后续步骤。所述VAD逻辑模块同理可采用本领域技术人员熟知的各种现有技术来执行,推荐采用基于端到端的预训练至收敛状态的神经网络模型来执行。
步骤S1130、将所述音频数据格式化为处于最小预设时长和最大预设时长之间的音频数据:
尽管可以在客户端中规范用户提交的音频数据的时长,将其规范为提交一个符合期望时长范围的歌曲片段,但是,为了扩大对用户提交的音频数据的兼容性,服务器侧可通过本步骤对用户提交的音频数据做进一步的预处理来实现进一步的规范。
具体而言,服务器侧可以将待搜索歌曲片段的音频数据处理为预设的特定时长范围,例如10秒至15秒的区间,该区间相应的音频数据同理可以借助前一步骤的检测手段确定为包含歌曲主旋律部分,即人声演唱部分。如果用户提交的歌曲片段的总时长未能达到该特定时长范围的最小预设时长,则可终止处理该歌曲片段的匹配工作。如果用户提交的歌曲片段的总时长超过所述特定时长范围的最大预设时长,则可对其对应所述特定时长范围截取出包含歌曲主旋律部分的音频数据,作为用于编码的音频数据。
步骤S1140、对所述音频数据进行编码,获得相应的编码信息:
对于已经通过人声检测和格式化处理的音频数据,可采用本申请前文所述的编码原理对其进行编码,获得相应的编码信息。如前所述,推荐采用CQT滤波信息来构造所述待搜索歌曲片段的音频数据相应的编码信息。
本实施例通过对所述待搜索歌曲片段的音频数据进行数据预处理,实现对部分无人声的音频数据的过滤以及对音频数据的规范,避免相应的在线服务频繁响应无效的待搜索歌曲片段,可以提升以歌搜歌的匹配准确率,还可节省后端服务的系统开销。
请参阅图3,深化的实施例中,所述特征提取模型被调用时,执行如下步骤:
步骤S2100、采用已训练至收敛状态的特征提取模型中的共享网络中的多个卷积块依次对所述编码信息进行多级特征提取,获得提取了所述编码信息的深层语义信息的中间特征信息:
所述的特征提取模型,基于本申请的多分支思想而构建,可以适应本申请的不同实施例的要求而灵活变形。所述特征提取模型在其典型的实施例中,如图4的原理框图所示,所述特征提取模型由共享网络和多个分支网络构成,其中,共享网络包括多个用于逐级提取编码信息的深层语义信息的卷积块,以获得中间特征信息;多个分支网络分别基于所述中间特征信息执行不同类型的深层语义信息的提取,获得相应的输出特征信息。多个分支网络之间,各包含一部分相同的结构,该结构中包含多个用于逐级提取深层语义信息的卷积块,最后一个卷积块输出后,便可根据各分支网络的不同功能而进行不同的处理。
所述的卷积块,可采用基于CNN、RNN的卷积层实现,优选采用基于残差卷积原理的卷积块。为了实现上下文梳理的作用,以便提取出歌曲片段的音频数据中的关键信息,可以在其中任意一个卷积块中应用注意力机制,添加相应的注意力模块,具体中为空间注意力模块(Spatial Attention Module,SAM)或通道注意力模块(Channel Attention Module,CAM)。强化的实施例中,在所述的卷积块中应用实例归一化操作(IN)和批量归一化(BN)操作,以对输入其中的信息分割为两部分,其中一部分进行实例归一化操作以学习风格不变特征,另一部分则执行批量归一化操作实现归一化,故此,即应用了俗称的IBN架构。应用该一架构,可以学习到歌曲片段的音频数据的风格高度多样化的音乐属性不变特征,例如音符、节奏、音色等,同时保留版本信息。
据此,不难理解,所述特征提取模型适应不同的应用场景,启用不同的分支网络,采用预选的训练集先将其训练至收敛状态,便可获得相应的特征提取能力,从而适于执行所述应用场景相对应的任务,从输入其中的歌曲片段的音频数据的编码信息中提取出该歌曲片段的音频数据相对应的输出特征信息。关于所述特征提取模型的训练过程,将在本申请的示例性实施例中给出,此处暂且按下不表。
在本步骤中,在如图4所示的架构中,所述编码信息经共享网络的多个卷积块逐级进行特征提取后,特别是经其中的最后一个卷积块进行关键信息提取后,可以获得提取了所述编码信息的关键信息的中间特征信息,该中间特征信息被分为多路输出至所述多个分支网络中,以便在各个分支网络中分别进行不同角度的深层语义信息的提取。
步骤S2200、采用所述特征提取模型中的两个以上的分支网络中的多个卷积块对所述中间特征信息进行不同尺度的特征提取后,转换为相应尺度的输出特征向量,各分支网络的输出特征向量所包含的深层语义信息各不相同:
如前所述,图4所示的架构中,各个分支网络可以灵活选型组合,因此,根据组合而得的具体架构,便可确定具体有多少个分支网络。所述共享网络输出的中间特征信息,分别被输入各个所述的分支网络中进行进一步的特征提取处理。
根据图4所示的架构,每个分支网络中属于相同结构部分,均包括两个卷积块,两个卷积块依次对输出其中的特征信息进行特征提取后,提取后的输出,便可适应不同分支网络的具体结构进行不同的处理。
具体而言,不同的分支网络,适应其自身所提取的深层语义信息的不同,在彼此非相同结构部分,可以做不同的处理。例如:可以针对其中一个分支网络进行最大值池化或均值池化输出,可以针对其中一个分支网络接入Dropout层随机丢弃其中的冗余特征再进行最大值池化输出,可以在另一分支网络中对最后一个卷积块输出的中间特征信息进行等通道分割分别进行均值池化后输出,可以在另一分支网络中对最后一个卷积块输出的中间特征信息进行等频带分割分别进行均值池化后输出,诸如此类,通过对最后一个卷积块所输出的特征信息进行各种不同的处理,可以获得包含不同深层语义信息的输出特征信息,这些输出特征信息分别从不同尺度描述了所述歌曲片段的音频数据的深层语义信息,包括该歌曲片段的音频数据的全局信息及各种局部信息等,例如抽象了所述歌曲片段的音频数据的编码信息的显著特征的全局信息、抽象了所述歌曲片段的音频数据的编码信息的通道或频带特征的局部信息,等等。据此,可以获得多个在表示上不同的输出特征信息,这些输出特征信息可以被独立调用,也可以按需被任意组合使用。
本申请中,各个分支网络所输出的输出特征信息,被归一化为输出特征向量表示,因此,多个分支网络可以相应获得多个输出特征向量,各个输出特征向量分别在不同方面或称不同尺度上表示了所述歌曲片段的音频数据的深层语义信息,各个输出特征向量彼此之间所包含的深层语义信息各不相同。
在使用时,通常采用两个以上的分支网络,以获得两种以上的输出特征向量,以利用两种以上的深层语义信息对歌曲片段的音频数据进行特征表示,例如,可以将用于表示所述歌曲片段的音频数据的全局信息的输出特征向量与用于表示所述歌曲片段的音频数据的通道信息的输出特征向量相结合使用,也可将用于表示所述歌曲片段的音频数据的全局信息的输出特征向量与用于表示所述歌曲片段的音频数据的频带信息的输出特征向量相结合使用,或者可将用于表示所述歌曲片段的音频数据的通道信息的输出特征向量与用于表示所述歌曲片段的音频数据的频带信息的输出特征向量相结合使用,或者结合所有输出特征向量使用。诸如此类,可由本领域技术人员按需调用。
步骤S2300、由所述特征提取模型将各分支网络的输出特征向量输出为所述的高维索引向量:
各个分支网络所获得的输出特征向量,可以最终转换为高维索引向量进行存储或直接使用。所述高维索引向量即为用于起对相应的歌曲片段的音频数据的索引作用的高维向量。由于各个分支网络已经将其输出特征信息归一化为输出特征向量,这种情况下,视特征提取模型的具体用途,可以变通的处理所述的高维索引向量。例如,对于仅为存储备用、分别调用的应用需求而言,可以将各个输出特征向量作为多个相应的高维索引向量,分散存储于本申请所称的第一歌曲片段特征库和第二歌曲片段特征库中,以供按需调用不同分支网络输出的高维索引向量用于检索、查询、匹配之用。又如,对于听歌识曲、翻唱识别、哼唱识曲等具体任务而言,可根据具体任务的需要,将所有已架构的分支网络输出的所有输出特征向量进行有序拼接,从而获得单个所述的高维索引向量,这一高维索引向量可以被存储或即时用于匹配,例如存储于所述第一歌曲片段特征库(无主旋律)和第二歌曲片段特征库(有主旋律)中。至此,便通过所述的高维索引向量实现了对所述歌曲片段的音频数据的表示学习。本申请中,为方便起见,对于第一歌曲片段特征库、第二歌曲片段特征库所存储的歌曲片段的高维索引向量,以及待搜索歌曲片段的高维索引向量,均可采用已经由多个输出特征向量拼接为单个高维向量的形式来实施。
根据本典型实施例以上揭示的原理,可以按照本实施例的过程,为在线音乐服务平台的曲库中的部分或全量的歌曲制备所述的第一和第二歌曲片段特征库,通过对曲库中每首相应的歌曲的歌曲片段的音频数据应用本实施例的各个步骤,便可获得各个歌曲片段的音频数据相对应的高维索引向量,将这些高维索引向量与相应歌曲片段进行关联存储,便可构造出所述的歌曲片段特征库,其中,如果歌曲片段无主旋律信息,则可将其高维索引向量添加至第一歌曲片段特征库,如果歌曲片段有主旋律信息,则可将其高维索引向量添加至第二歌曲片段特征库。后续可直接从该歌曲片段特征库中调用其中的高维索引向量用于进行检索、查询、匹配等操作。
除本申请所揭示的各种应用方式外,基于本申请所获得的高维索引向量进行的挖掘利用,还可能存在多种不同的用途,可由本领域技术人员根据此处揭示的原理灵活运用,均不影响本申请的创造性的体现。
通过以上对所述特征提取模型的执行过程及其网络架构的介绍,可以理解,本实施例包含非常丰富的有益效果,包括但不限于如下各方面:
首先,特征提取模型利用歌曲片段的音频数据编码出相应的编码信息,以获得歌曲片段的音频数据的风格不变特征,然后通过一个共享网络对所述编码信息提取出中间特征信息,在中间特征信息的基础上,通过多个分支网络,分别从不同角度提取出歌曲片段的音频数据的深层语义信息,获得相应的输出特征信息,最后将这些输出特征信息作为该歌曲片段的音频数据相对应的高维索引向量,完成对所述歌曲片段的音频数据的端到端的表示学习。
其次,由于所述特征提取模型中采用了共享网络与多个分支网络相结合的方式,实现对歌曲片段的音频数据的深层语义信息的多角度的特征提取,因此可使所获得的高维索引向量更具表示能力,例如表示所述歌曲片段的音频数据的全局特征信息、显著特征信息、通道特征信息、频带特征信息等,从而实现对相应的歌曲片段的音频数据的更为有效的索引,以此为基础进行歌曲片段的音频数据的检索、查询、匹配等下游处理,可获得更为精准高效的匹配效果,可通用服务于翻唱识别、听歌识曲、哼唱识别、歌曲侵权判定等多种应用场景。
此外,所述特征提取模型的多个分支网络获得的输出特征向量,可以被结合为单一高维索引向量使用,也可以分别被独立为不同高维索引向量使用,根据所需的深层语义信息而灵活确定,用途广泛,用法灵活,在处理海量歌曲片段的音频数据的表示学习时,能够取得较为明显的规模成效,可部署于在线音乐服务平台的后台而实现标准化接口,进而服务于多种不同应用场景的需求,提供综合多用途的开放服务,提升平台的音乐信息检索经济优势。
进一步的实施例中,所述步骤S2200、采用所述特征提取模型中的两个以上的分支网络中的多个卷积块对所述中间特征信息进行不同尺度的特征提取后,转换为相应尺度的输出特征向量,包括如下任意两个以上的步骤:
步骤S2210、采用第一分支网络中的多个卷积块对该中间特征信息进行特征提取获得全局特征信息,将全局特征信息池化为全局尺度的输出特征向量:
图4示例性给出的第一分支网络中,其在将所述中间特征信息经与其他分支网络相同结构的两个卷积块逐级进行特征提取后,将最后一个卷积块的输出分为两路,其中一路直接进行均值池化操作而获得其整体特征信息,另一路经Dropout层随机丢弃部分时频区域信息,再通过最大值池化操作提取全局中的显著特征信息,由此,便对应输出两个全局输出特征向量。据此架构,在模型训练阶段,一方面提高了模型对歌曲片段的音频数据中片段缺失、片段插入等局部时频域改变的音频的泛化能力,另一方面也一定程度上起到防止模型过拟合的作用。另外,两路全局输出特征向量一路捕获整体特征一路捕获显著特征,提升了模型的识别能力。
步骤S2220、采用第二分支网络中的多个卷积块对该中间特征信息进行特征提取后按通道分割成多部分进行池化,相应获得通道尺度的输出特征向量:
由于各个卷积块输出的特征信息通常以“通道数*频带数*帧数”进行表示,因此可按通道数进行分割处理。图4示例性给出的第二分支网络中,其在将所述中间特征信息经与其他分支网络相同结构的两个卷积块逐级进行特征提取后,将最后一个卷积块的输出按通道进行分割,分为多路例如为两路输出,然后再分别经过1*1卷积层,进行均值池化后,得到两部分通道相对应的通道输出特征信息。这一过程,两个通道分支专注于音频的局部特征捕获,对于改编差异很大、大量信息被强噪或其它干扰音淹没的音频,能够从少数几个局部的显著共性特征建立特征表示。
步骤S2230、采用第三分支网络中的多个卷积块对该中间特征信息进行特征提取后按频带分割成多部分进行池化,相应获得频带尺度的输出特征向量:
图4示例性给出的第三分支网络中,其在将所述中间特征信息经与其他分支网络相同结构的两个卷积块逐级进行特征提取后,将最后一个卷积块的输出进行均值池化后按频带进行分割,分为多路例如为两路输出,进行均值池化后,得到两部分频带相对应的频带输出特征信息。这一过程中,每个频带分支专注于提取相应频带的特征信息,对于抵抗恶劣拾音环境的频带选择性衰弱、平衡高低频信息在特征构成中的贡献、抵抗固定范围频段的内容增删(如增加、减少一种鼓声)或固定频段范围的强干扰有显著的效果。
可以理解,同一分支网络中获得的多个输出特征向量,还可进一步通过拼接或者均值池化处理为同一输出特征向量,对此,本领域技术人员可灵活实施。
本实施例中,通过丰富的分支网络对歌曲片段的音频数据提取多方面、多尺度的特征信息,使得所获得的输出特征向量能够获得丰富的深层语义信息表示,既表示了歌曲片段的音频数据的全局信息、显著信息,又按通道、频带表示了歌曲片段的音频数据的相关局部信息,考虑到此先中间特征信息已经在共享网络的作用下捕获了歌曲片段的音频数据的关键信息,因此,本实施例实现从多个方面体现对歌曲片段的音频数据的索引价值,后续获得的高维索引向量用于查询、检索、匹配时,能够提升各方面的精准度。
由于本实施例能够多方面捕获歌曲片段的音频数据的深层语义信息,因此,适用于歌曲片段的音频数据的特征提取,可以有效挖掘出歌曲片段这种短时长的音频数据的深层语义信息,使相应的高维索引向量所表示的信息量更为丰富准确,能起到更为精准的匹配效果。
请参阅图5,在前一实施例的基础上对本申请的特征提取模型的网络结构进行改进,可以看出,图5中的网络架构与图4的网络架构的不同之处在于,图5中,第一分支网络最后一个卷积块的输出直接进行最大值池化后便获得全局输出特征向量,捕获了歌曲片段的音频数据的编码信息的显著特征信息;第二分支网络中,最后一个卷积块的输出被按通道进行等分割为四部分通道相对应的特征信息,将各部分通道相对应的特征信息分别进行均值池化处理后,再重新拼接为相应的输出特征向量,不难理解,通过局部分支的分割和构造,所获得的输出特征向量可学习到更优的局部特征信息。
本实施例示例性地给出了基于图4所示的网络架构基础上的改型,相对较为轻量,根据这一示例不难理解本申请的创造精神的重点在于对多个所述的分支网络的灵活结合使用。本领域技术人员在本申请所揭示的原理的基础上,根据各个分支网络所获得的输出特征向量所具备的多尺度深层语义信息的特点,适应不同具体用途,可以选用由不同的分支网络组合所构建的特征提取模型,变换出本申请的多种其他实施例,用于满足诸如哼唱识别、听歌识曲、翻唱识别、侵权比对之类的需求。
请参阅图6,进一步的实施例中,所述卷积块被调用时,执行如下步骤:
步骤S3100、对输入其中的信息进行卷积变换获得变换特征信息:
本申请的特征提取模型中的任意一个卷积块,每一个卷积块对于输入其中的信息,无论是所述的编码信息还是由前一卷积块输出的中间特征信息,均先经过一个1*1卷积核进行卷积操作,获得相应的变换特征信息。
步骤S3200、将所述变换特征信息分别进行实例归一化和批量归一化处理后组合为拼接特征信息,对拼接特征信息激活输出:
在第一次卷积之后,应用实例批量归一化层(IN),对所述变换特征信息进行处理。所述变换特征信息被分为两路,采用一个批量归一化块(BN),对其中一半的通道进行批量归一化处理,而对其他的通道,则应用实例归一化层对其实施实例归一化处理,后者使得相应的卷积块可以捕获歌曲片段的音频数据的风格不变特征,由此,对于单一数据中的风格多样化的歌曲表示而言,可以实现对该歌曲表示的更好的利用。两部分通道经不同的归一化处理后便可被拼接为同一拼接特征信息进行激活输出。
步骤S3300、将激活输出的拼接特征信息经多次卷积操作和批量归一化处理后获得残差信息:
被激活输出的拼接特征信息进一步经过多个卷积层执行卷积操作以进一步提取特征,每个这样的卷积层后接一个批量归一化层进行归一化处理后输出,其中,最后一个卷积层采用1*1卷积核实施,以避免由于经过多个卷积块的多个实例归一化处理之后,导致整个特征提取模型的表示学习能力被衰减。据此,最终输出的特征信息便为残差卷积过程中的残差信息。
步骤S3400、将残差信息叠加至输入其中的信息中激活输出:
最后,根据残差卷积原理,参考第一次卷积所获得的变换特征信息,将其叠加所述的残差信息然后激活输出,便可获得当前卷积块进行残差卷积操作之后输出的中间特征信息。
本实施例中,应用基于残差卷积结合实例批量归一化操作构造本申请的特征提取模型所需的卷积块,其中的残差卷积网络基于Resnet系列的基础模型进行改进,同时叠加IBN架构,由此搭建的特征提取模型更易被训练,且能够实现更为精准的特征提取效果,特别适用于歌曲片段的音频数据的特征提取。
请参阅图7,深化的实施例中,所述步骤S1300、将与第一歌曲片段特征库中的高维索引向量未构成相似的待搜索歌曲片段的高维索引向量确定为待匹配向量,包括如下步骤:
步骤S1310、调用第一歌曲片段特征库,第一歌曲片段特征库存储有多个预设的无主旋律的歌曲片段相对应的高维索引向量,所述高维索引向量由所述特征提取模型提取相应的歌曲片段获得:
按照前文各实施例所揭示,本申请事先构造出第一歌曲片段特征库,其中存储有多个无主旋律的歌曲片段相对应的高维索引向量,这些无主旋律的歌曲片段通常是歌曲中的前、中、后的伴奏部分,或者纯音乐,此处出于对待搜索歌曲片段进行过滤的需要,可调用该第一歌曲片段特征库。
步骤S1320、分别计算待搜索歌曲片段的高维索引向量与第一歌曲片段特征库中的各个高维索引向量之间的相似度,获得相应的相似度数值:
本实施例中,待搜索歌曲片段的高维索引向量及第一歌曲片段特征库中歌曲片段的高维索引向量,均为整体上表示相应的歌曲片段的多尺度深层语义信息的单个高维向量,为了判决两者是否相匹配,可应用各种相似度算法,通过计算两者的数据距离来实现。如前所述,具体可以采用余弦相似度算法、欧氏距离算法、皮尔逊系数算法、杰卡德相似度算法、近邻搜索算法等等,任意一种适于计算数据间相似距离的算法来实现,本领域技术人员对此可灵活实施。
经过相似度计算后,便获得所述待搜索歌曲片段的高维索引向量对应第一歌曲片段特征库中的各个歌曲片段的高维索引向量之间的相似度序列,该相似度序列中,存储该待搜索歌曲片段与第一歌曲片段特征库中各个无主旋律的歌曲片段相对应的相似度数值。
步骤S1330、判断是否存在相似度数值超过预设门限的无主旋律的歌曲片段,若存在则判定所述待搜索歌曲片段未包含歌曲主旋律而终止执行,若不存在则判定待搜索歌曲片段包含歌曲主旋律而将其高维索引向量确定为待匹配向量:
为了判断待搜索歌曲片段是否为无主旋律的音频数据,可通过设定一个预设门限来与第一歌曲片段特征库中的歌曲片段所对应的相似度数值来进行比较。不难理解,如果第一歌曲片段特征库中的一个歌曲片段与所述待搜索歌曲片段之间的相似度数值大于该预设门限,这种情况下,待搜索歌曲片段即可视为属于无主旋律的歌曲片段,反之,如果第一歌曲片段特征库中的一个歌曲片段与所述待搜索歌曲片段之间的相似度数值小于该预设门限,这种情况下,待搜索歌曲片段即可视为属于有主旋律的歌曲片段。根据这一原理,只要将该相似度序列中的最大相似度数值与所述预设门限进行比较即可,当前者大于后者时,即判定待搜索歌曲片段为无主旋律的歌曲片段,可以终止后续步骤的执行,简单通知用户即可;当前者小于后者时,即判定待搜索歌曲片段为有主旋律的歌曲片段,据此可将该待搜索歌曲片段的高维索引向量确定为后续进行匹配所需的待匹配向量。
本实施例采用相似度算法,通过计算待搜索歌曲片段与第一歌曲片段特征库中无主旋律歌曲片段之间的高维索引向量之间的数据距离,判定并过滤掉无主旋律的待搜索歌曲片段,只将有主旋律的待搜索歌曲片段的高维索引向量确定为待匹配向量,为后台服务实现前端的过滤操作,从而可以确保后端服务在进行歌曲片段的搜索比对时具有更高的准确度,也可节省后端服务的系统开销,免于频繁响应冗余和无效信息。
请参阅图8,深化的实施例中,所述步骤S1400、从第二歌曲片段特征库所存储的多个歌曲片段相对应的高维索引向量中匹配出与待匹配向量构成相似的目标歌曲片段,包括如下步骤:
步骤S1410、调用第二歌曲片段特征库,以获得其中各首歌曲片段相对应的高维索引向量,所述高维索引向量为整体表示一个歌曲片段的不同尺度的深层语义信息的单个高维向量:
按照前文各实施例所揭示,本申请事先构造出第二歌曲片段特征库,其中存储有多个有主旋律的歌曲片段相对应的高维索引向量,这些有主旋律的歌曲片段通常是歌曲中的歌词相对应的部分,此处出于对待搜索歌曲片段进行匹配的需要,可调用该第二歌曲片段特征库。
步骤S1420、分别计算所述待匹配向量与第二歌曲片段特征库中的各个高维索引向量之间的相似度,获得相应的相似度序列:
本实施例中,待搜索歌曲片段的高维索引向量即待匹配向量及第二歌曲片段特征库中歌曲片段的高维索引向量,均为整体上表示相应的歌曲片段的多尺度深层语义信息的单个高维向量。为了判决两者是否相匹配,可应用各种相似度算法,通过计算两者的数据距离来实现。如前所述,具体可以采用余弦相似度算法、欧氏距离算法、皮尔逊系数算法、杰卡德相似度算法、近邻搜索算法等等,任意一种适于计算数据间相似距离的算法来实现,本领域技术人员对此可灵活实施。
经过相似度计算后,便获得所述待搜索歌曲片段的高维索引向量对应第二歌曲片段特征库中的各个歌曲片段的高维索引向量之间的相似度序列,该相似度序列中,存储该待搜索歌曲片段与第二歌曲片段特征库中各个有主旋律的歌曲片段相对应的相似度数值。
步骤S1430、确定所述相似度序列中超过预设阈值且为最大的相似度数值所对应的歌曲片段为与待搜索歌曲片段构成相似的目标歌曲片段:
为了判断第二歌曲片段特征库中是否存在与所述待搜索歌曲片段构成相似的目标歌曲片段,可以采用一个预设阈值来判断,该预设阈值可以是经验阈值或实验阈值,由本领域技术人员灵活确定。据此,将相似度序列中所有的元素逐一与所述预设阈值进行比较,确定出高于该预设阈值的所有元素。当存在一个或多个相似度数值超过所述预设阈值的元素时,一般而言,确定相似度数值最大的元素所对应的歌曲片段为与待搜索歌曲片段构成相似的目标歌曲片段即可。
步骤S1440、从曲库中获取该目标歌曲片段所属的歌曲的访问链接推送给客户端设备:
由于如前所述,第二歌曲片段特征库中的歌曲片段是属于所述在线音乐服务平台的曲库中的某首歌曲的,事先均已先行建立了对应关系,因此,本步骤中,可以根据这种对应关系,从所述的曲库中获取该目标歌曲片段所在的歌曲,将该歌曲的访问链接封装为相应的结果通知信息,然后将该结果通知信息推送给提交所述待搜索歌曲片段的用户,送达其相应的客户端设备即可。
本实施例将经过无主旋律过滤后的待搜索歌曲片段的待匹配向量在存储有主旋律歌曲片段的高维索引向量的第二歌曲片段特征库中进行数据距离匹配,从而确定出与该待搜索歌曲片段构成相似的目标歌曲片段,再根据该目标歌曲片段确定曲库中的目标歌曲,然后将该目标歌曲相应的访问链接推送至客户端,由此,完成了业务闭环,使提交所述待搜索歌曲片段的用户可以获得期望的相似歌曲,实现待搜索歌曲片段的溯源或者相似歌曲匹配。
请参阅图9,扩展的实施例中,所述特征提取模型的训练过程包括如下迭代训练的步骤:
步骤S4100、从训练集中调用一个训练样本,确定该训练样本的编码信息,所述训练样本为按照预定时长预采集的包含歌曲主旋律的歌曲片段:
本领域技术人员可以理解,适应不同的下游任务,可以构建不同的用于训练所述特征提取模型的训练集,每个训练集中包含足量的训练样本,且每个训练样本预备有相对应的监督标签。
所述的训练样本,可由本领域技术人员预先采集,每个训练样本即为一个歌曲片段的音频数据,这些歌曲片段可以是MIDI有主旋律歌曲片段、带伴奏和主旋律的歌曲片段、无伴奏部分的人声演唱部分的歌曲片段、无主旋律部分的歌曲片段、有主旋律部分的歌曲片段等等。同一个歌曲片段的不同音源演唱所得的演唱版本,可以合并为同一分类,即对应同一监督标签,以增强模型分类的泛化能力。
一个实施例中,取在线音乐服务平台的曲库中的每首歌曲,根据每首歌曲的歌词的时间戳,按照特定时长范围,将每首歌曲分割为多个歌曲片段,其中部分歌曲片段为有主旋律的歌曲片段,另一部分为无主旋律的歌曲片段,后续,可在本申请的特征提取模型被训练至收敛状态后,利用该特征提取模型对该两部分歌曲片段进行特征提取,获得其相应的高维索引向量,将无主旋律的歌曲片段及其高维索引向量存储于本申请的第一歌曲片段特征库中,将有主旋律的歌曲片段及其高维索引向量存储于本申请的第二歌曲片段特征库中,分别完成所述第一和第二歌曲片段特征库的构建。
另一改进的实施例中,可以删除不足所述特定时长范围的歌曲片段,以提升模型训练所需的样本的精准度。后文将揭示的再一实施例中,还可利用本申请的特征提取模型提取出某些候选的歌曲片段的高维索引向量,计算其与预先构建的第一歌曲片段特征库中各歌曲片段的高维索引向量之间的相似度,根据相似度做出这些候选的歌曲片段是否属于有主旋律的歌曲片段的判决,再将有主旋律的歌曲片段及其高维索引向量添加至所述的第二歌曲片段特征库中。
对于训练集中的训练样本,出于模型训练的便利,可以预先制备其歌曲片段的音频数据相对应的编码信息,或者在调用每个歌曲片段的音频数据用于对特征提取模型实施训练时实时编码获得相应的编码信息亦可。至于具体的编码原理,参阅本申请前文所揭示的相应过程进行处理即可。
步骤S4200、将所述编码信息输入至所述特征提取模型中对其实施训练,以获得相对应的各个输出特征向量:
在一个训练样本的训练过程中,该训练样本相对应的编码信息被输出至所述特征提取模型中进行特征提取,其特征提取原理请参阅前文各实施例中对特征提取模型的原理的说明,此处恕不赘述。这一过程中,由特征提取模型实现对训练样本的表示学习,获得各个相应的输出特征向量。
步骤S4300、分别针对各个所述的输出特征向量进行分类预测,使其映射出相应的分类标签:
本申请中,将所述特征提取模型的训练任务理解为一个分类任务,因此,通过将所述特征提取模型的各路输出特征向量接入相应预备的分类模型中,考察各个分类模型的分类结果,利用相应的监督标签予以监督,便可实施该模型的训练。基于此一原理,在训练阶段,在为本申请任意实施例实现的特征提取模型实施训练时,为其每个分支网络的每一个输出特征向量输出端接入一个所述的分类模型。
所述的分类模型,采用如图10所示的结构,采用一个批量归一化层对输出特征向量进行批量归一化操作,然后再经过一个全连接层将输出特征向量映射到分类空间,经分类函数计算出各个分类标签相应的分类概率,从而确定分类概率最大者为训练样本相对应的分类标签。
所述的分类模型中的分类器,可以采用Softmax函数实现的多分类器来构造,也可以采用能被增强类内紧凑性且扩大类间稀疏性的AM-Softmax函数实现的多分类器来构造,后者显然具有更佳的分类优势。
步骤S4400、利用所述训练样本相对应的监督标签与所述分类标签计算特征提取模型的损失值,根据所述损失值对该特征提取模型实施梯度更新:
所述分类模型中,采用了所述的批量归一化层,实现了对三元组损失和交叉熵分类损失的均衡,后续可通过对批量归一化层计算三元组损失、对全连接层计算交叉熵分类损失,通过综合这两种损失来实现对输出特征向量的优化。
据此,训练样本被预测出相应的分类标签后,便可根据其相应的监督标签计算出监督标签与分类标签之间的损失值,然后根据该损失值对特征提取模型实施梯度更新,修正整个模型的各个环节的权重参数,促使模型收敛。
由于存在多个分支网络,每个分支网络可能存在多个输出特征向量的输出,相应存在多个所述的分类模型,因此,在计算损失值时,可采用加权的方式,即每个分类模型中的三元组损失与分类损失先加权求和获得每个输出特征向量相对应的损失值,然后将各个输出特征向量相对应的损失值再进行加权求和获得最终的损失值,以该损失值对整个特征提取模型实施梯度更新即可。
步骤S4500、判断所述损失值是否达到预设阈值,当未达到预设阈值时,调用训练集中的下一训练样本继续对该特征提取模型实施迭代训练,直至该损失值达至所述预设阈值:
对于每个训练样本所计得的损失值,判断其是否无限趋近于0值,或者判断其是否达到预设阈值,当其满足这些判断条件时,则可判定特征提取模型已被训练至收敛状态,据此,即可终止模型的训练,将特征提取模型投入生产阶段。如果未达到收敛状态,则可继续调用所述训练集中的下一训练样本,继续对该特征提取模型实施迭代训练,直至该特征提取模型被训练至收敛状态为止。
本实施例揭示了本申请的特征提取模型的训练原理及其过程,通过本实施例可以看出,通过采用预备的训练集对所述特征提取模型实施训练,可以使该特征提取模型习得从歌曲片段的音频数据的编码信息中提取出相应的输出特征向量的能力,实现对歌曲片段的音频数据的深层语义信息的有效的表示学习,并且,同一歌曲片段的音频数据的多个尺度的输出特征向量可以被联合训练,训练效率更高,模型功能更丰富,当将其投入生产阶段时,可以快速获取同一歌曲片段的音频数据的多个尺度相对应的深层语义信息。
本实施例的分类模型由于采用了具有批量归一化层以及AM-Softmax函数实现的多分类器,可以均衡三元组损失与分类损失进行模型的梯度更新,能够使模型更快速地被训练至收敛,且训练后的模型可以更好地对歌曲片段的音频数据的深层语义信息进行更为有效的表示学习。后续所述输出特征向量被按需组合使用时,能够更有效地表征歌曲片段的音频数据的特征信息,起到更高效的匹配作用。
本实施例也体现了本申请的特征提取模型在应用方面的可扩展性和兼容性,具体而言,本实施例允许出于服务不同下游任务的需要,通过采用不同下游任务相对应的训练样本对特征提取模型实施训练,便可使特征提取模型获得服务于不同下游任务的能力,因此,属于较为基础的改进,具有较优的经济效用。
请参阅图11,扩展的实施例中,所述歌曲片段搜索方法包括用于构造第二歌曲片段特征库的如下步骤:
步骤S5100、从曲库中获取候选歌曲的音频数据,根据预设时长将该音频数据分割为多个歌曲片段,获得多个歌曲片段相对应的音频数据:
仍以在线音乐服务平台为例,其具有一个曲库,该曲库包含海量的歌曲,这些歌曲可以作为本实施例中构造第二歌曲片段特征库的候选歌曲。
为了科学地对每首候选歌曲进行分段,以获得多个相应的歌曲片段,设定一个预设时长,该预设时长既可以是定值,也可以是一个范围值。对于后者,该预设时长通常是一个特定时长范围,处于最小预设时长与最大预设时长之间,例如10秒至15秒之间的任意取值。
适应预设时长被表示为特定时长范围的情况,可以进一步根据每首候选歌曲的歌词中的时间戳,根据连续多句歌词的时间戳计算出落入所述特定时长范围的多句目标歌词,根据这些目标歌词的时间戳从候选歌曲中截取出演唱这些目标歌词的歌曲片段相对应的音频数据段,据此,便可从每首候选歌曲中获得多个有主旋律的歌曲片段。进一步,考虑到歌曲中相同歌词的主旋律、背景音乐具有相似性,还可根据歌词对每首候选歌曲的多个歌曲片段进行去重,也即对于每首候选歌曲中具有相同内容的歌曲片段只保留其中之一即可。由此,每首候选歌曲均有多个歌曲片段与之相对应,将每个歌曲片段与其所属的候选歌曲之间映射关系数据灵活存储表示可备后续调用。
步骤S5200、针对每个歌曲片段的音频数据进行编码获得其编码信息:
由于需要提取出每首候选歌曲中的每个歌曲片段的深层语义信息,本实施例仍采用本申请经预先训练至收敛状态的特征提取模型对每个歌曲片段进行处理,为此需要对相应的歌曲片段的音频数据进行编码,获得相应的编码信息。关于编码的原理及过程已经在本申请前述各实施例中揭示,此处恕不赘述。
步骤S5300、针对每个歌曲片段,调用所述特征提取模型提取其编码信息的多个尺度的深层语义信息,相应获得其高维索引向量:
确定一个歌曲片段的编码信息后,便可调用所述特征提取模型对其编码信息进行特征提取,在该特征提取模型的作用下,根据所述编码信息提取出相应的歌曲片段的多尺度的深层语义信息,最终组织为高维索引向量。如前所述,本申请推荐将所述多个尺度的深层语义信息拼接表示为单个高维向量,作为所述的高维索引向量。
步骤S5400、针对每个歌曲片段,计算其高维索引向量与第一歌曲片段特征库中的各个高维索引向量之间的相似度,获得相应的相似度数值:
为了提升入库的准确率,进一步利用已经预先构建的第一歌曲片段特征库,先计算其中存储的各个无主旋律歌曲片段的高维索引向量与待入库的歌曲片段的高维索引向量的相似度,获得相应的相似度序列,该相似度序列存储与各个无主旋律歌曲片段相对应的相似度数值。
步骤S5500、针对每个歌曲片段,判断是否存在相似度数值超过预设门限的无主旋律的歌曲片段,若存在则丢弃该歌曲片段,若不存在则将该歌曲片段与其高维索引向量的映射关系数据存储于第二歌曲片段特征库中。
最后,按照前文相关实施例所揭示的原理,根据相似度序列中最大相似度数值是否高于预设门限判断是否存在相似度数值超过预设门限的无主旋律的歌曲片段,若存在,表示待入库的歌曲片段高度疑似于无主旋律歌曲片段,可将其丢弃,不予入库;反之,表示待入库的歌曲片段高度疑似于有主旋律歌曲片段,可将该歌曲片段及其高维索引向量的映射关系数据添加至第二歌曲片段特征库中。以此类推,不断丰富所述第二歌曲片段特征库,完成该库的构建,即可用于本申请中为待搜索歌曲片段匹配相似目标歌曲片段。
本实施例进一步细化揭示了本申请的第二歌曲片段特征库的构造过程,通过本实施例可以看出,第二歌曲片段特征库的歌曲片段可以从在线音乐服务平台的曲库中选材,且建立歌曲片段到曲库的相应候选歌曲之间的映射关系,据此,当需要为待搜索歌曲片段搜索其相似歌曲(片段)时,便可利用第二歌曲片段特征库中各个歌曲片段的索引特征向量进行相似匹配,根据匹配出的相似歌曲片段确定曲库中的相似歌曲。在此过程中,由于第二歌曲特征库中的歌曲片段已经借助第一歌曲片段特征库进行过滤选材,普遍均为有主旋律歌曲片段,因此,在进行搜索匹配时,应用算法所获得的相似度数值的准确率更高,不容易出现误判。
请参阅图12,本申请提供的一种歌曲片段搜索装置,适应本申请的歌曲片段搜索方法进行功能化部署,包括:片段编码模块1100、语义提取模块1200、片段过滤模块1300,以及片段匹配模块1400,其中,所述片段编码模块1100,用于获取客户端提交的待搜索歌曲片段相对应的编码信息;所述语义提取模块1200,用于采用已训练至收敛状态的特征提取模型根据所述编码信息提取出表征该待搜索歌曲片段的多个尺度的深层语义信息的高维索引向量;所述片段过滤模块1300,用于将与第一歌曲片段特征库中的高维索引向量未构成相似的待搜索歌曲片段的高维索引向量确定为待匹配向量;第一歌曲片段特征库中的高维索引向量为所述特征提取模型提取无主旋律的歌曲片段的特征表示;所述片段匹配模块1400,用于从第二歌曲片段特征库所存储的多个歌曲片段相对应的高维索引向量中匹配出与待匹配向量构成相似的目标歌曲片段;第二歌曲片段特征库中的高维索引向量为所述特征提取模型提取有主旋律的歌曲片段的特征表示。
深化的实施例中,所述片段编码模块1100,包括:请求分析子模块,用于接收客户端提交的歌曲片段搜索请求,获取该请求所指定的待搜索歌曲片段的音频数据;人声检测子模块,用于检测所述音频数据是否包含人声演唱信息,若未包含则终止后续执行;格式化处理子模块,用于将所述音频数据格式化为处于最小预设时长和最大预设时长之间的音频数据;编码执行子模块,用于对所述音频数据进行编码,获得相应的编码信息。
深化的实施例中,所述特征提取模型包括如下用于实现其功能的构造:共享提取模块,用于采用已训练至收敛状态的特征提取模型中的共享网络中的多个卷积块依次对所述编码信息进行多级特征提取,获得提取了所述编码信息的深层语义信息的中间特征信息;分支提取模块,用于采用所述特征提取模型中的两个以上的分支网络中的多个卷积块对所述中间特征信息进行不同尺度的特征提取后,转换为相应尺度的输出特征向量,各分支网络的输出特征向量所包含的深层语义信息各不相同;向量输出模块,用于由所述特征提取模型将各分支网络的输出特征向量输出为所述的高维索引向量。
进一步的实施例中,所述分支提取模块被配置为包括以下两个或两个以上的子模块:第一提取子模块,用于采用第一分支网络中的多个卷积块对该中间特征信息进行特征提取获得全局特征信息,将全局特征信息池化为全局尺度的输出特征向量;第二提取子模块,用于采用第二分支网络中的多个卷积块对该中间特征信息进行特征提取后按通道分割成多部分进行池化,相应获得通道尺度的输出特征向量;第三提取子模块,用于采用第三分支网络中的多个卷积块对该中间特征信息进行特征提取后按频带分割成多部分进行池化,相应获得频带尺度的输出特征向量。
较佳的改进实施例中,所述第一分支网络执行所述池化的操作时,采用均值池化和/或最大值池化操作,以相应获得一个或两个所述的全局尺度的输出特征向量;所述第二分支网络执行所述池化的操作时,针对单个或多个通道采用均值池化操作,以相应获得一个或多个所述的通道尺度的输出特征向量;所述第三分支网络执行所述池化的操作时,针对单个或多个频带采用均值池化操作,以相应获得一个或多个所述的频带尺度的输出特征向量。
进一步的实施例中,所述卷积块被配置为包括如下用于实现其功能的构造:卷积变换单元,用于对输入其中的信息进行卷积变换获得变换特征信息;归一处理单元,用于将所述变换特征信息分别进行实例归一化和批量归一化处理后组合为拼接特征信息,对拼接特征信息激活输出;残差计算单元,用于将激活输出的拼接特征信息经多次卷积操作和批量归一化处理后获得残差信息;激活输出单元,用于将残差信息叠加至输入其中的信息中激活输出。
较佳的实施例中,所述共享网络中,至少一个所述的卷积块应用注意力模块用于提取歌曲片段的音频数据中的关键信息,所述注意力模块为空间注意力模块或通道注意力模块。
较佳的实施例中,所述编码信息的来源为相应的音频数据的时频谱信息、梅尔谱信息、CQT滤波信息、音级轮廓信息、Chroma特征信息中任意一项。
深化的实施例中,所述片段过滤模块1300,包括:无主旋律调用子模块,用于调用第一歌曲片段特征库,第一歌曲片段特征库存储有多个预设的无主旋律的歌曲片段相对应的高维索引向量,所述高维索引向量由所述特征提取模型提取相应的歌曲片段获得;无主旋律计算子模块,用于分别计算待搜索歌曲片段的高维索引向量与第一歌曲片段特征库中的各个高维索引向量之间的相似度,获得相应的相似度数值;无主旋律判断子模块,用于判断是否存在相似度数值超过预设门限的无主旋律的歌曲片段,若存在则判定所述待搜索歌曲片段未包含歌曲主旋律而终止执行,若不存在则判定待搜索歌曲片段包含歌曲主旋律而将其高维索引向量确定为待匹配向量。
深化的实施例中,所述片段匹配模块1400,包括:有主旋律调用子模块,用于调用第二歌曲片段特征库,以获得其中各首歌曲片段相对应的高维索引向量,所述高维索引向量为整体表示一个歌曲片段的不同尺度的深层语义信息的单个高维向量;有主旋律计算子模块,用于分别计算所述待匹配向量与第二歌曲片段特征库中的各个高维索引向量之间的相似度,获得相应的相似度序列;有主旋律匹配子模块,用于确定所述相似度序列中超过预设阈值且为最大的相似度数值所对应的歌曲片段为与待搜索歌曲片段构成相似的目标歌曲片段;链接推送子模块,用于从曲库中获取该目标歌曲片段所属的歌曲的访问链接推送给客户端设备。
扩展的实施例中,本歌曲片段搜索装置包括如下用于实施对所述特征提取模型的训练的结构,该结构包括:样本调用模块,用于从训练集中调用一个训练样本,确定该训练样本的编码信息,所述训练样本为按照预定时长预采集的包含歌曲主旋律的歌曲片段;表示学习模块,用于将所述编码信息输入至所述特征提取模型中对其实施训练,以获得相对应的各个输出特征向量;分类预测模块,用于分别针对各个所述的输出特征向量进行分类预测,使其映射出相应的分类标签;梯度更新模块,用于利用所述训练样本相对应的监督标签与所述分类标签计算特征提取模型的损失值,根据所述损失值对该特征提取模型实施梯度更新;迭代决策模块,用于判断所述损失值是否达到预设阈值,当未达到预设阈值时,调用训练集中的下一训练样本继续对该特征提取模型实施迭代训练,直至该损失值达至所述预设阈值。
扩展的实施例中,所述歌曲片段搜索装置包括用于构造第二歌曲片段特征库的构造,该构造包括:歌曲分段模块,用于从曲库中获取候选歌曲的音频数据,根据预设时长将该音频数据分割为多个歌曲片段,获得多个歌曲片段相对应的音频数据;分段编码模块,用于针对每个歌曲片段的音频数据进行编码获得其编码信息;片段提取模块,用于针对每个歌曲片段,调用所述特征提取模型提取其编码信息的多个尺度的深层语义信息,相应获得其高维索引向量;相似计算模块,用于针对每个歌曲片段,计算其高维索引向量与第一歌曲片段特征库中的各个高维索引向量之间的相似度,获得相应的相似度数值;片段入库模块,用于针对每个歌曲片段,判断是否存在相似度数值超过预设门限的无主旋律的歌曲片段,若存在则丢弃该歌曲片段,若不存在则将该歌曲片段与其高维索引向量的映射关系数据存储于第二歌曲片段特征库中。
为解决上述技术问题,本申请实施例还提供计算机设备。如图13所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种歌曲片段搜索方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的歌曲片段搜索方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图12中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的歌曲片段搜索装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的歌曲片段搜索方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请借助特征提取模型实现对歌曲片段的多尺度的深层语义信息的表示学习,获得其高维索引向量,基于高维索引向量进行相似歌曲片段的匹配,在服务于歌曲的查询、检索、匹配时能起到更为精准高效的效果,可服务于听歌识曲、哼唱识曲、翻唱识别等多种下游任务,提升在线音乐平台的综合服务能力。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (16)

1.一种歌曲片段搜索方法,其特征在于,包括如下步骤:
获取客户端提交的待搜索歌曲片段相对应的编码信息;
采用已训练至收敛状态的特征提取模型根据所述编码信息提取出表征该待搜索歌曲片段的多个尺度的深层语义信息的高维索引向量;
将与第一歌曲片段特征库中的高维索引向量未构成相似的待搜索歌曲片段的高维索引向量确定为待匹配向量;第一歌曲片段特征库中的高维索引向量为所述特征提取模型提取无主旋律的歌曲片段的特征表示;
从第二歌曲片段特征库所存储的多个歌曲片段相对应的高维索引向量中匹配出与待匹配向量构成相似的目标歌曲片段;第二歌曲片段特征库中的高维索引向量为所述特征提取模型提取有主旋律的歌曲片段的特征表示。
2.根据权利要求1所述的歌曲片段搜索方法,其特征在于,所述获取客户端提交的待搜索歌曲片段相对应的编码信息,包括如下步骤:
接收客户端提交的歌曲片段搜索请求,获取该请求所指定的待搜索歌曲片段的音频数据;
检测所述音频数据是否包含人声演唱信息,若未包含则终止后续执行;
将所述音频数据格式化为处于最小预设时长和最大预设时长之间的音频数据;
对所述音频数据进行编码,获得相应的编码信息。
3.根据权利要求1所述的歌曲片段搜索方法,其特征在于,所述特征提取模型被调用时,执行如下步骤:
采用已训练至收敛状态的特征提取模型中的共享网络中的多个卷积块依次对所述编码信息进行多级特征提取,获得提取了所述编码信息的深层语义信息的中间特征信息;
采用所述特征提取模型中的两个以上的分支网络中的多个卷积块对所述中间特征信息进行不同尺度的特征提取后,转换为相应尺度的输出特征向量,各分支网络的输出特征向量所包含的深层语义信息各不相同;
由所述特征提取模型将各分支网络的输出特征向量输出为所述的高维索引向量。
4.根据权利要求3所述的歌曲片段搜索方法,其特征在于,所述采用所述特征提取模型中的两个以上的分支网络中的多个卷积块对所述中间特征信息进行不同尺度的特征提取后,转换为相应尺度的输出特征向量,包括如下任意两个以上的步骤:
采用第一分支网络中的多个卷积块对该中间特征信息进行特征提取获得全局特征信息,将全局特征信息池化为全局尺度的输出特征向量;
采用第二分支网络中的多个卷积块对该中间特征信息进行特征提取后按通道分割成多部分进行池化,相应获得通道尺度的输出特征向量;
采用第三分支网络中的多个卷积块对该中间特征信息进行特征提取后按频带分割成多部分进行池化,相应获得频带尺度的输出特征向量。
5.根据权利要求4所述的歌曲片段搜索方法,其特征在于:
所述第一分支网络执行所述池化的操作时,采用均值池化和/或最大值池化操作,以相应获得一个或两个所述的全局尺度的输出特征向量;
所述第二分支网络执行所述池化的操作时,针对单个或多个通道采用均值池化操作,以相应获得一个或多个所述的通道尺度的输出特征向量;
所述第三分支网络执行所述池化的操作时,针对单个或多个频带采用均值池化操作,以相应获得一个或多个所述的频带尺度的输出特征向量。
6.根据权利要求3所述的歌曲片段搜索方法,其特征在于,所述卷积块被调用时,执行如下步骤:
对输入其中的信息进行卷积变换获得变换特征信息;
将所述变换特征信息分别进行实例归一化和批量归一化处理后组合为拼接特征信息,对拼接特征信息激活输出;
将激活输出的拼接特征信息经多次卷积操作和批量归一化处理后获得残差信息;
将残差信息叠加至输入其中的信息中激活输出。
7.根据权利要求3所述的歌曲片段搜索方法,其特征在于,所述共享网络中,至少一个所述的卷积块应用注意力模块用于提取歌曲片段的音频数据中的关键信息,所述注意力模块为空间注意力模块或通道注意力模块。
8.根据权利要求1所述的歌曲片段搜索方法,其特征在于,所述编码信息的来源为相应的音频数据的时频谱信息、梅尔谱信息、CQT滤波信息、音级轮廓信息、Chroma特征信息中任意一项。
9.根据权利要求1所述的歌曲片段搜索方法,其特征在于,所述将与第一歌曲片段特征库中的高维索引向量未构成相似的待搜索歌曲片段的高维索引向量确定为待匹配向量,包括如下步骤:
调用第一歌曲片段特征库,第一歌曲片段特征库存储有多个预设的无主旋律的歌曲片段相对应的高维索引向量,所述高维索引向量由所述特征提取模型提取相应的歌曲片段获得;
分别计算待搜索歌曲片段的高维索引向量与第一歌曲片段特征库中的各个高维索引向量之间的相似度,获得相应的相似度数值;
判断是否存在相似度数值超过预设门限的无主旋律的歌曲片段,若存在则判定所述待搜索歌曲片段未包含歌曲主旋律而终止执行,若不存在则判定待搜索歌曲片段包含歌曲主旋律而将其高维索引向量确定为待匹配向量。
10.根据权利要求1所述的歌曲片段搜索方法,其特征在于,所述从第二歌曲片段特征库所存储的多个歌曲片段相对应的高维索引向量中匹配出与待匹配向量构成相似的目标歌曲片段,包括如下步骤:
调用第二歌曲片段特征库,以获得其中各首歌曲片段相对应的高维索引向量,所述高维索引向量为整体表示一个歌曲片段的不同尺度的深层语义信息的单个高维向量;
分别计算所述待匹配向量与第二歌曲片段特征库中的各个高维索引向量之间的相似度,获得相应的相似度序列;
确定所述相似度序列中超过预设阈值且为最大的相似度数值所对应的歌曲片段为与待搜索歌曲片段构成相似的目标歌曲片段;
从曲库中获取该目标歌曲片段所属的歌曲的访问链接推送给客户端设备。
11.根据权利要求3所述的歌曲片段搜索方法,其特征在于,所述特征提取模型的训练过程包括如下迭代训练的步骤:
从训练集中调用一个训练样本,确定该训练样本的编码信息,所述训练样本为按照预定时长预采集的包含歌曲主旋律的歌曲片段;
将所述编码信息输入至所述特征提取模型中对其实施训练,以获得相对应的各个输出特征向量;
分别针对各个所述的输出特征向量进行分类预测,使其映射出相应的分类标签;
利用所述训练样本相对应的监督标签与所述分类标签计算特征提取模型的损失值,根据所述损失值对该特征提取模型实施梯度更新;
判断所述损失值是否达到预设阈值,当未达到预设阈值时,调用训练集中的下一训练样本继续对该特征提取模型实施迭代训练,直至该损失值达至所述预设阈值。
12.根据权利要求1至11中任意一项所述的歌曲片段搜索方法,其特征在于,本方法包括用于构造第二歌曲片段特征库的如下步骤:
从曲库中获取候选歌曲的音频数据,根据预设时长将该音频数据分割为多个歌曲片段,获得多个歌曲片段相对应的音频数据;
针对每个歌曲片段的音频数据进行编码获得其编码信息;
针对每个歌曲片段,调用所述特征提取模型提取其编码信息的多个尺度的深层语义信息,相应获得其高维索引向量;
针对每个歌曲片段,计算其高维索引向量与第一歌曲片段特征库中的各个高维索引向量之间的相似度,获得相应的相似度数值;
针对每个歌曲片段,判断是否存在相似度数值超过预设门限的无主旋律的歌曲片段,若存在则丢弃该歌曲片段,若不存在则将该歌曲片段与其高维索引向量的映射关系数据存储于第二歌曲片段特征库中。
13.一种歌曲片段搜索装置,其特征在于,包括:
片段编码模块,用于获取客户端提交的待搜索歌曲片段相对应的编码信息;
语义提取模块,用于采用已训练至收敛状态的特征提取模型根据所述编码信息提取出表征该待搜索歌曲片段的多个尺度的深层语义信息的高维索引向量;
片段过滤模块,用于将与第一歌曲片段特征库中的高维索引向量未构成相似的待搜索歌曲片段的高维索引向量确定为待匹配向量;第一歌曲片段特征库中的高维索引向量为所述特征提取模型提取无主旋律的歌曲片段的特征表示;
片段匹配模块,用于从第二歌曲片段特征库所存储的多个歌曲片段相对应的高维索引向量中匹配出与待匹配向量构成相似的目标歌曲片段;第二歌曲片段特征库中的高维索引向量为所述特征提取模型提取有主旋律的歌曲片段的特征表示。
14.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至12中任意一项所述的方法的步骤。
15.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至12中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
16.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至12任意一项中所述方法的步骤。
CN202111493984.8A 2021-12-08 2021-12-08 歌曲片段搜索方法及其装置、设备、介质、产品 Pending CN114817622A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111493984.8A CN114817622A (zh) 2021-12-08 2021-12-08 歌曲片段搜索方法及其装置、设备、介质、产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111493984.8A CN114817622A (zh) 2021-12-08 2021-12-08 歌曲片段搜索方法及其装置、设备、介质、产品

Publications (1)

Publication Number Publication Date
CN114817622A true CN114817622A (zh) 2022-07-29

Family

ID=82525762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111493984.8A Pending CN114817622A (zh) 2021-12-08 2021-12-08 歌曲片段搜索方法及其装置、设备、介质、产品

Country Status (1)

Country Link
CN (1) CN114817622A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668002A (zh) * 2024-02-01 2024-03-08 江西合一云数据科技股份有限公司 应用于公共信息平台的大数据决策方法、装置及设备
CN118312638A (zh) * 2024-05-09 2024-07-09 腾讯科技(深圳)有限公司 音频检索方法、装置、电子设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668002A (zh) * 2024-02-01 2024-03-08 江西合一云数据科技股份有限公司 应用于公共信息平台的大数据决策方法、装置及设备
CN117668002B (zh) * 2024-02-01 2024-05-17 江西合一云数据科技股份有限公司 应用于公共信息平台的大数据决策方法、装置及设备
CN118312638A (zh) * 2024-05-09 2024-07-09 腾讯科技(深圳)有限公司 音频检索方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN112199548B (zh) 一种基于卷积循环神经网络的音乐音频分类方法
US9401154B2 (en) Systems and methods for recognizing sound and music signals in high noise and distortion
US11816151B2 (en) Music cover identification with lyrics for search, compliance, and licensing
Typke Music retrieval based on melodic similarity
Schindler et al. Comparing Shallow versus Deep Neural Network Architectures for Automatic Music Genre Classification.
Zhang Music style classification algorithm based on music feature extraction and deep neural network
Zhuang et al. Music genre classification with transformer classifier
Anglade et al. Improving music genre classification using automatically induced harmony rules
CN110472097A (zh) 乐曲自动分类方法、装置、计算机设备和存储介质
Jia et al. Deep learning-based automatic downbeat tracking: a brief review
WO2015114216A2 (en) Audio signal analysis
CN114817622A (zh) 歌曲片段搜索方法及其装置、设备、介质、产品
Prockup et al. Modeling Genre with the Music Genome Project: Comparing Human-Labeled Attributes and Audio Features.
Sarkar et al. Raga identification from Hindustani classical music signal using compositional properties
CN114840707A (zh) 歌曲匹配方法及其装置、设备、介质、产品
CN114817621A (zh) 歌曲语义信息索引方法及其装置、设备、介质、产品
Pikrakis et al. Unsupervised singing voice detection using dictionary learning
CN113744759B (zh) 音色模板定制方法及其装置、设备、介质、产品
Yeh et al. Popular music representation: chorus detection & emotion recognition
CN115938332A (zh) 音乐节奏信息检测方法及其装置、设备、介质、产品
Balachandra et al. Music Genre Classification for Indian Music Genres
Shirali-Shahreza et al. Fast and scalable system for automatic artist identification
CN114764452A (zh) 歌曲搜索方法及其装置、设备、介质、产品
CN114817620A (zh) 歌曲比对方法及其装置、设备、介质、产品
CN114840708A (zh) 歌曲索引方法及其装置、设备、介质、产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination