CN115146105A - 一种歌曲识别方法、装置、电子设备及存储介质 - Google Patents

一种歌曲识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115146105A
CN115146105A CN202110342525.3A CN202110342525A CN115146105A CN 115146105 A CN115146105 A CN 115146105A CN 202110342525 A CN202110342525 A CN 202110342525A CN 115146105 A CN115146105 A CN 115146105A
Authority
CN
China
Prior art keywords
audio
detected
classification model
sample
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110342525.3A
Other languages
English (en)
Inventor
张冉
王晓瑞
李岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110342525.3A priority Critical patent/CN115146105A/zh
Publication of CN115146105A publication Critical patent/CN115146105A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本申请涉及计算机技术领域,公开了一种歌曲识别方法、装置、电子设备及存储介质,通过采用预先构建的分类模型对待检测音频片段进行特征提取,得到待检测音频片段的特征信息后,将待检测音频片段的特征信息与原唱音频的特征信息进行比较;若待检测音频片段的特征信息与原唱音频的特征信息之间的相似度大于预设相似度,则确定待检测音频片段为翻唱音频,从而可以准确识别音频为原唱音频或翻唱音频。

Description

一种歌曲识别方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种歌曲识别方法、装置、电子设备及存储介质。
背景技术
伴随网络的高速发展,移动终端可实现的功能也越来越多,尤其是智能手机、平板电脑等智能移动终端的普及,使得音乐爱好者仅仅通过智能移动终端的应用程序就可以进行歌曲的录制。
由于用户群体遍布各个年龄段以及各种音乐层次,使得歌手发布的一首原唱音频可能存在多种不同的翻唱音频。而,如何识别翻唱音频,目前尚未提供技术方案。
发明内容
本申请实施例提供一种歌曲识别方法、装置、电子设备及存储介质,可以准确识别音频为原唱音频或翻唱音频。
一方面,本申请一实施例提供了一种歌曲识别方法,包括:
采用预先构建的分类模型对待检测音频片段进行特征提取,得到所述待检测音频片段的特征信息;
将所述待检测音频片段的特征信息与原唱音频的特征信息进行比较;
若所述待检测音频片段的特征信息与所述原唱音频的特征信息之间的相似度大于预设相似度,则确定所述待检测音频片段为翻唱音频;
其中,所述分类模型用于提取音频样本的特征,并基于所述音频样本的特征识别所述音频样本的对应的原唱音频标识。
一种可选的实施方式为,提取的所述特征信息为所述分类模型的瓶颈特征;
其中,所述分类模型是根据以下方法构建的:
获取所述音频样本及其对应的标注标签,所述标注标签包括所述音频样本对应的原唱音频的标识;
将所述音频样本输入所述分类模型以使所述分类模型输出所述音频样本的预测标签;
基于所述预测标签和所述标注标签之间的损失,训练所述分类模型。
一种可选的实施方式为,所述对待检测音频片段进行特征提取之前,所述方法还包括:
获取多个验证样本,所述验证样本中包括所述音频样本之外的音频片段;
将所述多个验证样本输入所述预先训练的分类模型,得到各验证样本的特征信息;
由原唱音频对应的验证样本和所述原唱音频的翻唱音频对应的验证样本构成第一类样本对,并由不同音乐的验证样本构成第二类样本对,得到多个第一类样本对中两样本的相似度,以及多个第二类样本对中两样本的相似度;
对多个第一类样本对中两样本的相似度,以及多个第二类样本对中两样本的相似度进行分类处理,得到能够区分第一类样本对和第二类样本对的分界点作为所述预设相似度。
一种可选的实施方式为,所述采用预先构建的分类模型对待检测音频片段进行特征提取,包括:
获取所述待检测音频片段的梅尔倒谱系数;
采用所述分类模型对所述梅尔倒谱系数进行特征提取。
一种可选的实施方式为,所述采用预先构建的分类模型对待检测音频片段进行特征提取之前,所述方法还包括:
将待检测音频等间隔切分为指定时长的多个音频段,得到所述待检测音频片段,其中,所述待检测音频片段为所述多个音频段的任一段。
一种可选的实施方式为,通过以下方式获取所述待检测音频片段的梅尔倒谱系数:
基于预设窗长、预设每帧移动距离、以及预设梅尔倒谱系数的维度,对所述待检测音频片段进行分帧加窗,确定所述待检测音频片段的梅尔倒谱系数。
一种可选的实施方式为,所述采用预先构建的分类模型对所述待检测音频片段进行特征提取,包括:
将所述待检测音频片段输入至所述分类模型,进行特征提取,输出所述待检测音频片段的预测标签、以及所述分类模型的瓶颈特征;
在所述将所述待检测音频片段的特征信息与原唱音频的特征信息进行比较之前,所述方法还包括:
基于所述音频样本的预测标签,在所述原唱音频中筛选与所述待检测音频片段的预测标签关联度大于预设标签关联度的原唱音频作为与所述待检测音频片段的特征信息进行比较的原唱音频。
一方面,本申请一实施例提供了一种歌曲识别装置,包括:
特征提取单元,被配置为执行采用预先构建的分类模型对待检测音频片段进行特征提取,得到所述待检测音频片段的特征信息;
比较单元,被配置为执行将所述待检测音频片段的特征信息与原唱音频的特征信息进行比较;
确定单元,被配置为执行若所述待检测音频片段的特征信息与所述原唱音频的特征信息之间的相似度大于预设相似度,则确定所述待检测音频片段为翻唱音频;
其中,所述分类模型用于提取音频样本的特征,并基于所述音频样本的特征识别所述音频样本的对应的原唱音频标识。
一种可选的实施方式为,提取的所述特征信息为所述分类模型的瓶颈特征;
其中,所述分类模型是根据以下方法构建的:
获取所述音频样本及其对应的标注标签,所述标注标签包括所述音频样本对应的原唱音频的标识;
将所述音频样本输入所述分类模型以使所述分类模型输出所述音频样本的预测标签;
基于所述预测标签和所述标注标签之间的损失,训练所述分类模型。
一种可选的实施方式为,在所述特征提取单元之前,所述装置还包括:
获取单元,被配置为执行获取多个验证样本,所述验证样本中包括所述音频样本之外的音频片段;
第一确定单元,被配置为执行将所述多个验证样本输入所述分类模型,得到各验证样本的特征信息;
第二确定单元,被配置为执行由原唱音频对应的验证样本和所述原唱音频的翻唱音频对应的验证样本构成第一类样本对,并由不同音乐的验证样本构成第二类样本对,得到多个第一类样本对中两样本的相似度,以及多个第二类样本对中两样本的相似度;
第三确定单元,被配置为执行对多个第一类样本对中两样本的相似度,以及多个第二类样本对中两样本的相似度进行分类处理,得到能够区分第一类样本对和第二类样本对的分界点作为所述预设相似度。
一种可选的实施方式为,所述特征提取单元,被配置为执行:
获取所述待检测音频片段的梅尔倒谱系数;
采用所述分类模型对所述梅尔倒谱系数进行特征提取。
一种可选的实施方式为,所述特征提取单元对待检测音频片段进行特征提取之前,所述装置还包括:
将待检测音频等间隔切分为指定时长的多个音频段,得到所述待检测音频片段,其中,所述待检测音频片段为所述多个音频段的任一段。
一种可选的实施方式为,所述特征提取单元,被配置为执行:
基于预设窗长、预设每帧移动距离、以及预设梅尔倒谱系数的维度,对所述待检测音频片段进行分帧加窗,确定所述待检测音频片段的梅尔倒谱系数。
一种可选的实施方式为,所述特征提取单元,被配置为执行:
将所述待检测音频片段输入至所述分类模型,进行特征提取,输出所述待检测音频片段的预测标签、以及所述分类模型的瓶颈特征;
在所述比较单元之前,所述装置还包括:
原唱音频获取单元,被配置为执行基于所述音频样本的预测标签,在所述原唱音频中筛选与所述待检测音频片段的预测标签关联度大于预设标签关联度的原唱音频作为与所述待检测音频片段的特征信息进行比较的原唱音频。
根据本申请实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面中任一项所述的歌曲识别方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面中任一项所述的歌曲识别方法。
根据本申请实施例的第五方面,提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现第一方面中任一项所述的歌曲识别方法。
本申请的实施例提供的技术方案至少带来以下有益效果:
通过采用预先构建的分类模型对待检测音频片段进行特征提取,得到待检测音频片段的特征信息后,将待检测音频片段的特征信息与原唱音频的特征信息进行比较;若待检测音频片段的特征信息与原唱音频的特征信息之间的相似度大于预设相似度,则确定待检测音频片段为翻唱音频,从而可以准确识别音频为原唱音频或翻唱音频。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的歌曲识别方法的应用场景示意图;
图2为本申请一实施例提供的歌曲识别方法的流程示意图;
图3为本申请一实施例提供的分类模型训练的流程示意图;
图4为本申请一实施例提供的确定相似度的方法的流程示意图;
图5为本申请一实施例提供的歌曲识别装置的结构示意图;
图6为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应所述理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
以下,对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)本申请实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
(2)“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
(3)服务器,是为终端服务的,服务的内容诸如向终端提供资源,保存终端数据;服务器是与终端上安装的应用程序相对应的,与终端上的应用程序配合运行。
(4)终端设备,既可以指软件类的APP(Application,应用程序),也可以指客户端。它具有可视的显示界面,能与用户进行交互;是与服务器相对应,为客户提供本地服务。针对软件类的应用程序,除了一些只在本地运行的应用程序之外,一般安装在普通的客户终端上,需要与服务端互相配合运行。因特网发展以后,较常用的应用程序包括了如收寄电子邮件时的电子邮件客户端,以及即时通讯的客户端等。对于这一类应用程序,需要网络中有相应的服务器和服务程序来提供相应的服务,如数据库服务,配置参数服务等,这样在客户终端和服务器端,需要建立特定的通信连接,来保证应用程序的正常运行。
在具体实践过程中,由于用户群体遍布各个年龄段以及各种音乐层次,使得歌手发布的一首原唱音频可能存在多种不同的翻唱音频,其中,翻唱音频可以是非原唱歌手利用原唱音频中的伴奏进行的翻唱,也可以是非原唱歌手对原唱音频进行重新演奏的翻唱。对于原唱音频来说,存在各种各样的翻唱。现有技术中,是对待检测音频片段和原唱音频分别进行特征提取后,手动设计算法确定特征信息的相似度,判断待检测音频片段是否为翻唱音频。但是这样很难准确识别一段音频为原唱音频还是翻唱音频。
为此,本申请提供了一种歌曲识别方法,通过预先构建的分类模型对待检测音频片段进行特征提取,得到待检测音频片段的特征信息后,将待检测音频片段的特征信息与原唱音频的特征信息进行比较;若待检测音频片段的特征信息与原唱音频的特征信息之间的相似度大于预设相似度,则确定待检测音频片段为翻唱音频,从而可以提高识别音频为原唱音频或翻唱音频的准确度。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
参考图1,其为本申请实施例提供的歌曲识别方法的应用场景示意图。该应用场景包括多个终端设备101(包括终端设备101-1、终端设备101-2、……终端设备101-n)和服务器102。其中,终端设备101和服务器102之间通过无线或有线网络连接,终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视等电子设备。服务器102可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
不同用户分别通过各自对应的终端设备101将待检测音频片段发送至服务器102中,服务器102通过预先构建的分类模型对待检测音频片段进行特征提取,得到待检测音频片段的特征信息后,将待检测音频片段的特征信息与原唱音频的特征信息进行比较;若待检测音频片段的特征信息与原唱音频的特征信息之间的相似度大于预设相似度,则确定待检测音频片段为翻唱音频,并将确定的结果发送至其对应的终端设备101中,通过终端设备101提示用户检测的结果。
当然,本申请实施例提供的方法并不限用于图1所示的应用场景中,还可以用于其它可能的应用场景,本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。
下面结合图1所示的应用场景,对本申请实施例提供的技术方案进行说明。
参考图2,本申请实施例提供一种歌曲识别方法,包括以下步骤:
实施时,有些翻唱是对音频的高潮部分进行的,一段完整的音频往往时间较长,故此为了提高翻唱检测的准确性和时效性,可以将待检测音频等间隔切分为指定时长的多个音频段,得到待检测音频片段,其中,待检测音频片段为多个音频段的任一段。例如,待检测音频的时长共2分钟,将待检测音频按照指定时长10秒进行等间隔切分后,得到12段音频段,可以将12段音频段中的任一段作为待检测音频片段。
在得到待检测音频后,可以在步骤S201中,采用预先构建的分类模型对待检测音频片段进行特征提取,得到待检测音频片段的特征信息。
可选地,通过获取待检测音频片段的梅尔倒谱系数,然后对梅尔倒谱系数进行特征提取,得到待检测音频段的特征信息,进而可以更好的梳理音频的特征,以便于准确简便的进行翻唱识别。
具体地,实施时可以基于预设窗长、预设每帧移动距离、以及预设梅尔倒谱系数的维度,对待检测音频片段进行分帧加窗,确定待检测音频片段的梅尔倒谱系数。
梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性。并且利用梅尔倒谱系数提取出的特征不依赖于待检测音频片段信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,确定待检测音频片段的梅尔倒谱系数具有更好的鲁棒性,更符合人耳的听觉特性,当信噪比降低时仍然具有较好的识别性能。
本申请实施例,可通过采用预先构建的分类模型对待检测音频片段进行特征提取;得到提取的特征信息为分类模型的瓶颈特征。
这里,采用训练好的神经网络模型进行特征提取,以提取出能够很好的表述不同音频段之间的特征区别的特征。由于瓶颈特征在语音识别中可以有效提高语音的识别效率,因此将分类模型的瓶颈特征作为待检测音频段比较相似度的特征。
其中,分类模型是根据以下方法构建的:
获取音频样本及其对应的标注标签,标注标签包括音频样本对应的原唱音频的标识;将音频样本输入分类模型以使分类模型输出音频样本的预测标签;基于预测标签和标注标签之间的损失,训练分类模型。
实施时,将音频样本的梅尔倒谱系数(帧数*维度)作为分类模型的输入,例如可以根据梅尔倒谱系数构建梅尔倒谱系数特征图。其中,帧数为基于预设窗长、预设每帧移动距离、以及预设梅尔倒谱系数的维度,对音频样本进行分帧加窗得到的,维度即为预设梅尔倒谱系数的维度。
实施时,该特征图可以是帧数*1*维度,其中帧数为特征图的长度,1为特征图的宽度,维度为特征图的高度,如图3所示,将特征图输入分类模型中,经过卷积层与激活层、池化层、全连接层与激活层后,得到音频样本的瓶颈特征,音频样本的瓶颈特征再经过分类器得到音频样本的预测标签。其中,301、303、304、306、307、308均为卷积层与激活层,302、305、309均为池化层,310为全连接层与激活层,311为分类器。
示例性地,如表1所示,假设音频样本中包括:音频1-音频名称:小幸运(原唱音频1、翻唱音频11、翻唱音频12、翻唱音频13)、音频2-音频名称:小酒窝(原唱音频2、翻唱音频21、翻唱音频22、翻唱音频23)等,音频样本1对应的标注标签为其原唱音频的标识,即为原唱音频1,音频样本2对应的标注标签为其原唱音频的标识,即为原唱音频2,将音频样本输入分类模型中进行样本训练,得到对应的预测标签,通过计算预测标签和标注标签之间的损失,训练分类模型。
表1
音频 音频名称 原唱音频 翻唱音频
音频1 小幸运 原唱音频1 翻唱音频11、翻唱音频12、翻唱音频13
音频2 小酒窝 原唱音频2 翻唱音频21、翻唱音频22、翻唱音频23
... ... ... ...
音频n 天空 原唱音频n 翻唱音频n1、翻唱音频n2、翻唱音频n3
提取待检测音频片段的特征信息之后,可以在步骤S202中,将待检测音频片段的特征信息与原唱音频的特征信息进行比较,得到两音频的相似度。
实施时,可以将待检测音频片段的特征信息与原唱音频的特征信息分别进行一一比较,也可以在进行比较之前,对原唱音频进行筛选后,再与待检测音频片段进行比较。
具体地,分类模型可以输出待检测音频片段分类到每个原唱音频的置信度。原则上如果特征越相似分类结果越相近,故此可以根据分类模型寻找要比较的原唱音频。可实施为将待检测音频片段输入至预先构建的分类模型,进行特征提取后,可基于提取的特征输出待检测音频片段的预测的多个标签及其置信度,可以根据置信度,在原唱音频中筛选与待检测音频片段的预测标签关联度大于预设标签关联度的原唱音频。例如,可以设定置信度阈值,选择置信度大于置信度阈值的原唱音频作为进行比较的原唱音频,也可以根据置信度从高到低的顺序选择一定数量的原唱音频作为进行比较的音频。
示例性地,若待检测音频片段经过特征提取后,输出的预测标签为A,假设音频样本中所有原唱音频包括如表2所示的音频1、音频2、...、音频n(n为正整数),并且每一个音频分别对应的预测标签如表1所示,经过预设算法规则确定标签1、标签2、...、标签i的关联度大于预设标签关联度,则将音频1、音频2、...、音频i确定为筛选后的原唱音频。这里,并不限定预设算法的具体规则,可根据实际应用情况进行调整。
表2
音频样本 预测标签
音频1 标签1
音频2 标签2
... ...
音频i 标签i
... ...
音频n 标签n
通过对原唱音频进行筛选,将与待检测音频片段的预测标签关联度大于预设标签关联度的原唱音频作为与待检测音频片段的特征信息进行比较的原唱音频,可以减少计算量,进而提高检测效率。
基于步骤S202得到比较结果之后,可以在步骤S203中,若待检测音频片段的特征信息与原唱音频的特征信息之间的相似度大于预设相似度,则确定待检测音频片段为翻唱音频。
相应的,若待检测音频片段的特征信息与任一原唱音频的相似度均小于或等于预设相似度,则可确定待检测音频片段为原唱音频。之后,可以将待检测音频片段存储到原唱音频数据库中。
通过采用预先构建的分类模型对待检测音频片段进行特征提取,将待检测音频片段的特征信息与原唱音频的特征信息进行比较,以确定待检测音频片段为翻唱音频,相比于现有技术通过手动设定待检测音频片段的特征信息来说,利用分类模型提取待检测音频片段的特征信息,使得特征信息的鲁棒性更高,也提高了识别待检测音频为原唱音频或翻唱音频的准确率。
在一些实施例中,为了尽可能的降低误判率,可通过数据挖掘技术来合理的确定预设相似度,具体地,如图4所示,可通过以下方式确定预设相似度:
S401,获取多个验证样本,验证样本中包括音频样本之外的音频片段。
S402,将多个验证样本输入预先训练的分类模型,得到各验证样本的特征信息。
S403,由原唱音频对应的验证样本和原唱音频的翻唱音频对应的验证样本构成第一类样本对,并由不同音乐的验证样本构成第二类样本对,得到多个第一类样本对中两样本的相似度,以及多个第二类样本对中两样本的相似度。
S404,对多个第一类样本对中两样本的相似度,以及多个第二类样本对中两样本的相似度进行分类处理,得到能够区分第一类样本对和第二类样本对的分界点作为预设相似度。
示例性地,若音频样本中所有原唱音频包括如表1所示的音频1、音频2、...、音频n(n为正整数),则获取的多个验证样本如表3所示,包括音频n+1、音频n+2、...、音频2n,并且每一个音频均对应一个原唱音频、以及三个翻唱音频,将多个验证样本输入预先训练的分类模型,得到各验证样本的特征信息,这里,各验证样本的特征信息为瓶颈特征,如表4所示。
表3
Figure BDA0002999959200000131
表4
音频 瓶颈特征
原唱音频n+1 A1
翻唱音频(n+1)1 A2
翻唱音频(n+1)2 A3
翻唱音频(n+1)3 A4
原唱音频n+2 B1
... ...
原唱音频2n N1
例如,将表4中的原唱音频n+1、翻唱音频(n+1)1确定为第一类样本对中的第一个样本对x1,将原唱音频n+1、翻唱音频(n+1)2确定为第一类样本对中的第二个样本对x2,将原唱音频n+1、翻唱音频(n+1)3确定为第一类样本对中的第三个样本对x3,将原唱音频n+1、原唱音频n+2确定为第二类样本对中的第一个样本对y1,将原唱音频n+1、原唱音频2n确定为第二类样本对中的第二个样本对y2,也可以将原唱音频n+2、原唱音频2n确定为第二类样本对中的第三个样本对y3。
根据余弦相似度公式,确定多个第一样本对中两样本的相似度,以及多个第二样本对中两样本的相似度,并对相似度进行分类处理,比如将x1、x2、x3的相似度归为一类,将y1、y2、y3的相似度归为另一类,进而根据分类处理后的分界点确定预设相似度,在此并不限定根据分界点确定预设相似度的具体方法,可根据实际应用情况进行调整。其中,余弦相似度公式如下公式(1)所示:
Figure BDA0002999959200000141
式中,m1k、m2k由上述x1、x2、x3中,或者y1、y2、y3中的任意两个确定。
通过增加音频样本之外的音频片段得到较多的验证样本,利用更加丰富的验证样本计算得到的预设相似度,可以提高确定待检测音频片段是否为翻唱音频的准确率。
本实施例通过采用预先构建的分类模型对待检测音频片段进行特征提取,得到待检测音频片段的特征信息后,将待检测音频片段的特征信息与原唱音频的特征信息进行比较;若待检测音频片段的特征信息与原唱音频的特征信息之间的相似度大于预设相似度,则确定待检测音频片段为翻唱音频,从而可以准确识别音频为原唱音频或翻唱音频。
如图5所示,基于与上述歌曲识别方法相同的发明构思,本申请实施例还提供了一种歌曲识别装置50,包括:
特征提取单元501,被配置为执行采用预先构建的分类模型对待检测音频片段进行特征提取,得到所述待检测音频片段的特征信息;
比较单元502,被配置为执行将所述待检测音频片段的特征信息与原唱音频的特征信息进行比较;
确定单元503,被配置为执行若所述待检测音频片段的特征信息与所述原唱音频的特征信息之间的相似度大于预设相似度,则确定所述待检测音频片段为翻唱音频;
其中,所述分类模型用于提取音频样本的特征,并基于所述音频样本的特征识别所述音频样本的对应的原唱音频标识。
一种可选的实施方式为,提取的所述特征信息为所述分类模型的瓶颈特征;
其中,所述分类模型是根据以下方法构建的:
获取所述音频样本及其对应的标注标签,所述标注标签包括所述音频样本对应的原唱音频的标识;
将所述音频样本输入所述分类模型以使所述分类模型输出所述音频样本的预测标签;
基于所述预测标签和所述标注标签之间的损失,训练所述分类模型。
一种可选的实施方式为,在所述特征提取单元501之前,所述装置还包括:
获取单元,被配置为执行获取多个验证样本,所述验证样本中包括所述音频样本之外的音频片段;
第一确定单元,被配置为执行将所述多个验证样本输入所述分类模型,得到各验证样本的特征信息;
第二确定单元,被配置为执行由原唱音频对应的验证样本和所述原唱音频的翻唱音频对应的验证样本构成第一类样本对,并由不同音乐的验证样本构成第二类样本对,得到多个第一类样本对中两样本的相似度,以及多个第二类样本对中两样本的相似度;
第三确定单元,被配置为执行对多个第一类样本对中两样本的相似度,以及多个第二类样本对中两样本的相似度进行分类处理,得到能够区分第一类样本对和第二类样本对的分界点作为所述预设相似度。
一种可选的实施方式为,所述特征提取单元501,被配置为执行:
获取所述待检测音频片段的梅尔倒谱系数;
采用所述分类模型对所述梅尔倒谱系数进行特征提取。
一种可选的实施方式为,所述特征提取单元501对待检测音频片段进行特征提取之前,所述装置还包括:
将待检测音频等间隔切分为指定时长的多个音频段,得到所述待检测音频片段,其中,所述待检测音频片段为所述多个音频段的任一段。
一种可选的实施方式为,所述特征提取单元501,被配置为执行:
基于预设窗长、预设每帧移动距离、以及预设梅尔倒谱系数的维度,对所述待检测音频片段进行分帧加窗,确定所述待检测音频片段的梅尔倒谱系数。
一种可选的实施方式为,所述特征提取单元501,被配置为执行:
将所述待检测音频片段输入至所述分类模型,进行特征提取,输出所述待检测音频片段的预测标签、以及所述分类模型的瓶颈特征;
在所述比较单元502之前,所述装置还包括:
原唱音频获取单元,被配置为执行基于所述音频样本的预测标签,在所述原唱音频中筛选与所述待检测音频片段的预测标签关联度大于预设标签关联度的原唱音频作为与所述待检测音频片段的特征信息进行比较的原唱音频。
在介绍了本申请示例性实施方式的歌曲识别方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本申请的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的歌曲识别方法中的步骤。例如,处理器可以执行如歌曲识别方法中的步骤。
下面参照图6来描述根据本申请的这种实施方式的电子设备130。图6显示的电子设备130仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于:上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。
总线133表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器132可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1321和/或高速缓存存储器1322,还可以进一步包括只读存储器(ROM)1323。
存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325,这样的程序模块1324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与电子设备130交互的设备通信,和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且,电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解,尽管图中未示出,可以结合电子设备130使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器132,上述指令可由处理器131执行以完成上述方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器131执行时实现如本申请提供的歌曲识别方法的任一方法。
在示例性实施例中,本申请提供的一种歌曲识别方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的歌曲识别方法中的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于图像缩放的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程图像缩放设备的处理器以产生一个机器,使得通过计算机或其他可编程图像缩放设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程图像缩放设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程图像缩放设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种歌曲识别方法,其特征在于,包括:
采用预先构建的分类模型对待检测音频片段进行特征提取,得到所述待检测音频片段的特征信息;
将所述待检测音频片段的特征信息与原唱音频的特征信息进行比较;
若所述待检测音频片段的特征信息与所述原唱音频的特征信息之间的相似度大于预设相似度,则确定所述待检测音频片段为翻唱音频;
其中,所述分类模型用于提取音频样本的特征,并基于所述音频样本的特征识别所述音频样本的对应的原唱音频标识。
2.根据权利要求1所述的方法,其特征在于,提取的所述特征信息为所述分类模型的瓶颈特征;
其中,所述分类模型是根据以下方法构建的:
获取所述音频样本及其对应的标注标签,所述标注标签包括所述音频样本对应的原唱音频的标识;
将所述音频样本输入所述分类模型以使所述分类模型输出所述音频样本的预测标签;
基于所述预测标签和所述标注标签之间的损失,训练所述分类模型。
3.根据权利要求2所述的方法,其特征在于,所述对待检测音频片段进行特征提取之前,所述方法还包括:
获取多个验证样本,所述验证样本中包括所述音频样本之外的音频片段;
将所述多个验证样本输入所述分类模型,得到各验证样本的特征信息;
由原唱音频对应的验证样本和所述原唱音频的翻唱音频对应的验证样本构成第一类样本对,并由不同音乐的验证样本构成第二类样本对,得到多个第一类样本对中两样本的相似度,以及多个第二类样本对中两样本的相似度;
对多个第一类样本对中两样本的相似度,以及多个第二类样本对中两样本的相似度进行分类处理,得到能够区分第一类样本对和第二类样本对的分界点作为所述预设相似度。
4.根据权利要求1所述的方法,其特征在于,所述采用预先构建的分类模型对待检测音频片段进行特征提取,包括:
获取所述待检测音频片段的梅尔倒谱系数;
采用所述分类模型对所述梅尔倒谱系数进行特征提取。
5.根据权利要求1所述的方法,其特征在于,所述采用预先构建的分类模型对待检测音频片段进行特征提取之前,所述方法还包括:
将待检测音频等间隔切分为指定时长的多个音频段,得到所述待检测音频片段,其中,所述待检测音频片段为所述多个音频段的任一段。
6.根据权利要求4所述的方法,其特征在于,通过以下方式获取所述待检测音频片段的梅尔倒谱系数:
基于预设窗长、预设每帧移动距离、以及预设梅尔倒谱系数的维度,对所述待检测音频片段进行分帧加窗,确定所述待检测音频片段的梅尔倒谱系数。
7.根据权利要求1所述的方法,其特征在于,所述采用预先构建的分类模型对待检测音频片段进行特征提取,包括:
将所述待检测音频片段输入至所述分类模型,进行特征提取,输出所述待检测音频片段的预测标签、以及所述分类模型的瓶颈特征;
在所述将所述待检测音频片段的特征信息与原唱音频的特征信息进行比较之前,所述方法还包括:
基于所述音频样本的预测标签,在所述原唱音频中筛选与所述待检测音频片段的预测标签关联度大于预设标签关联度的原唱音频作为与所述待检测音频片段的特征信息进行比较的原唱音频。
8.一种歌曲识别装置,其特征在于,包括:
特征提取单元,被配置为执行采用预先构建的分类模型对待检测音频片段进行特征提取,得到所述待检测音频片段的特征信息;
比较单元,被配置为执行将所述待检测音频片段的特征信息与原唱音频的特征信息进行比较;
确定单元,被配置为执行若所述待检测音频片段的特征信息与所述原唱音频的特征信息之间的相似度大于预设相似度,则确定所述待检测音频片段为翻唱音频;
其中,所述分类模型用于提取音频样本的特征,并基于所述音频样本的特征识别所述音频样本的对应的原唱音频标识。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的歌曲识别方法。
10.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至7中任一项所述的歌曲识别方法。
CN202110342525.3A 2021-03-30 2021-03-30 一种歌曲识别方法、装置、电子设备及存储介质 Pending CN115146105A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110342525.3A CN115146105A (zh) 2021-03-30 2021-03-30 一种歌曲识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110342525.3A CN115146105A (zh) 2021-03-30 2021-03-30 一种歌曲识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115146105A true CN115146105A (zh) 2022-10-04

Family

ID=83404725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110342525.3A Pending CN115146105A (zh) 2021-03-30 2021-03-30 一种歌曲识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115146105A (zh)

Similar Documents

Publication Publication Date Title
US11062698B2 (en) Image-based approaches to identifying the source of audio data
CN108989882B (zh) 用于输出视频中的音乐片段的方法和装置
US9633004B2 (en) Better resolution when referencing to concepts
US11538236B2 (en) Detecting backdoor attacks using exclusionary reclassification
CN110138745B (zh) 基于数据流序列的异常主机检测方法、装置、设备及介质
EP2946311A2 (en) Accumulation of real-time crowd sourced data for inferring metadata about entities
US20150248424A1 (en) Sorting and displaying documents according to sentiment level in an online community
CN114244611B (zh) 异常攻击检测方法、装置、设备及存储介质
CN111460288B (zh) 用于检测新闻事件的方法和装置
CN111816170A (zh) 一种音频分类模型的训练和垃圾音频识别方法和装置
CN110059172B (zh) 基于自然语言理解的推荐答案的方法和装置
US10755171B1 (en) Hiding and detecting information using neural networks
US20230315990A1 (en) Text detection method and apparatus, electronic device, and storage medium
CN113033707B (zh) 视频分类方法、装置、可读介质及电子设备
US11437038B2 (en) Recognition and restructuring of previously presented materials
CN110147482B (zh) 用于获取突发热点主题的方法和装置
CN113297525A (zh) 网页分类方法、装置、电子设备、及存储介质
KR102243275B1 (ko) 오프라인 오브젝트에 관한 콘텐츠 자동 생성 방법, 장치 및 컴퓨터 판독가능 저장 매체
CN110263135A (zh) 一种数据交换匹配方法、装置、介质和电子设备
WO2021151354A1 (zh) 一种单词识别方法、装置、计算机设备和存储介质
CN115129902A (zh) 媒体数据处理方法、装置、设备及存储介质
CN115146105A (zh) 一种歌曲识别方法、装置、电子设备及存储介质
CN114595361A (zh) 一种音乐热度的预测方法、装置、存储介质及电子设备
CN115618873A (zh) 数据处理方法、装置、计算机设备及存储介质
CN112037772A (zh) 基于多模态的响应义务检测方法、系统及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination