CN111508506B

CN111508506B - 音频文件的原唱检测方法、装置、服务器及存储介质

Info

Publication number: CN111508506B
Application number: CN202010259245.1A
Authority: CN
Inventors: 张文文; 李岩; 姜涛
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2024-03-01
Anticipated expiration: 2040-04-03
Also published as: CN111508506A

Abstract

本公开关于一种音频文件的原唱检测方法、装置、服务器及存储介质，该方法包括：提取待检测音频文件的音频指纹，根据待检测音频文件的音频指纹，确定与待检测音频文件对应的歌曲音频文件；从待检测音频文件中分离出人声音频；分别提取人声音频的音频指纹和歌曲音频文件的音频指纹；根据人声音频的音频指纹和歌曲音频文件的音频指纹，确定对待检测音频文件的原唱检测结果。采用本方法，综合考虑了待检测音频文件中的人声音频的音频指纹以及与待检测音频文件对应的歌曲音频文件的音频指纹，避免了仅仅考虑待检测音频文件中的音频指纹，导致确定出的原唱检测结果的准确率较低的缺陷，从而提高了音频文件的原唱检测准确率。

Description

音频文件的原唱检测方法、装置、服务器及存储介质

技术领域

本公开涉及音频处理技术，尤其涉及一种音频文件的原唱检测方法、装置、服务器及存储介质。

背景技术

随着计算机技术的发展，越来越多的音频文件应用到短视频中，为了识别音频文件对应的歌曲，需要对音频文件进行原唱检测。

相关技术中，对音频文件的原唱检测方式，一般是基于音频指纹检索技术，通过音频文件匹配上的音频指纹数来确定音频文件的原唱检测结果；但是，仅仅依靠匹配上的音频指纹数来确定音频文件的原唱检测结果，很容易出现误识别或者漏识别，导致音频文件的原唱检测准确率较低。

发明内容

本公开提供一种音频文件的原唱检测方法、装置、服务器及存储介质，以至少解决相关技术中音频文件的原唱检测准确率较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频文件的原唱检测方法，包括：

提取待检测音频文件的音频指纹，根据所述待检测音频文件的音频指纹，确定与所述待检测音频文件对应的歌曲音频文件；

从所述待检测音频文件中分离出人声音频；

分别提取所述人声音频的音频指纹和所述歌曲音频文件的音频指纹；

根据所述人声音频的音频指纹和所述歌曲音频文件的音频指纹，确定对所述待检测音频文件的原唱检测结果。

在其中一个实施例中，所述从所述待检测音频文件中分离出人声音频，包括：

将所述待检测音频文件输入预先训练的人声音频分离模型，得到所述待检测音频文件中的人声音频；所述预先训练的人声音频分离模型用于对所述待检测音频文件进行多次卷积处理，得到所述待检测音频文件中的人声音频。

在其中一个实施例中，所述预先训练的人声音频分离模型通过下述方式训练得到：

采集包含有实际人声音频的样本音频文件；

根据所述样本音频文件，对待训练的人声音频分离模型进行训练，得到训练后的人声音频分离模型；

获取所述训练后的人声音频分离模型输出的人声音频与所述实际人声音频之间的误差；

当所述误差大于或等于预设误差时，根据所述误差调整所述人声音频分离模型的网络参数，得到调整后的人声音频分离模型，并对所述调整后的人声音频分离模型进行反复训练，直至根据训练后的人声音频分离模型得到的所述误差小于所述预设误差；

若根据训练后的人声音频分离模型得到的所述误差小于所述预设误差，将所述训练后的人声音频分离模型作为所述预先训练的人声音频分离模型。

在其中一个实施例中，所述根据所述人声音频的音频指纹和所述歌曲音频文件的音频指纹，确定对所述待检测音频文件的原唱检测结果，包括：

将所述人声音频的音频指纹和所述歌曲音频文件的音频指纹进行匹配，得到所述人声音频的音频指纹和所述歌曲音频文件的音频指纹之间的音频指纹匹配数；

若所述音频指纹匹配数大于第一预设阈值，则确认所述待检测音频文件包含所述歌曲音频文件的原唱。

在其中一个实施例中，所述提取待检测音频文件的音频指纹，包括：

获取所述待检测音频文件的频谱信息；

识别所述频谱信息中的峰值信号，根据所述频谱信息中的峰值信号，确定所述待检测音频文件的音频指纹。

在其中一个实施例中，所述根据所述待检测音频文件的音频指纹，确定与所述待检测音频文件对应的歌曲音频文件，包括：

将所述待检测音频文件的音频指纹与预设歌曲音频文件的音频指纹进行匹配，得到所述待检测音频文件的音频指纹与所述预设歌曲音频文件的音频指纹之间的音频指纹匹配数；

若所述音频指纹匹配数大于第二预设阈值，则将所述预设歌曲音频文件识别为与所述待检测音频文件对应的歌曲音频文件。

在其中一个实施例中，在根据所述人声音频的音频指纹和所述歌曲音频文件的音频指纹，确定对所述待检测音频文件的原唱检测结果之后，还包括：

从预设数据库中获取所述歌曲音频文件的标签信息；所述预设数据库中存储有多个歌曲音频文件的标签信息；

将所述标签信息，识别为所述待检测音频文件的标签信息。

根据本公开实施例的第二方面，提供一种音频文件的原唱检测装置，包括：

歌曲音频文件确定单元，被配置为执行提取待检测音频文件的音频指纹，根据所述待检测音频文件的音频指纹，确定与所述待检测音频文件对应的歌曲音频文件；

人声音频分离单元，被配置为执行从所述待检测音频文件中分离出人声音频；

音频指纹提取单元，被配置为执行分别提取所述人声音频的音频指纹和所述歌曲音频文件的音频指纹；

原唱检测结果确定单元，被配置为执行根据所述人声音频的音频指纹和所述歌曲音频文件的音频指纹，确定对所述待检测音频文件的原唱检测结果。

在其中一个实施例中，所述人声音频分离单元，还被配置为执行将所述待检测音频文件输入预先训练的人声音频分离模型，得到所述待检测音频文件中的人声音频；所述预先训练的人声音频分离模型用于对所述待检测音频文件进行多次卷积处理，得到所述待检测音频文件中的人声音频。

在其中一个实施例中，所述装置还包括模型训练单元，被配置为执行采集包含有实际人声音频的样本音频文件；根据所述样本音频文件，对待训练的人声音频分离模型进行训练，得到训练后的人声音频分离模型；获取所述训练后的人声音频分离模型输出的人声音频与所述实际人声音频之间的误差；当所述误差大于或等于预设误差时，根据所述误差调整所述人声音频分离模型的网络参数，得到调整后的人声音频分离模型，并对所述调整后的人声音频分离模型进行反复训练，直至根据训练后的人声音频分离模型得到的所述误差小于所述预设误差；若根据训练后的人声音频分离模型得到的所述误差小于所述预设误差，将所述训练后的人声音频分离模型作为所述预先训练的人声音频分离模型。

在其中一个实施例中，所述原唱检测结果确定单元，还被配置为执行将所述人声音频的音频指纹和所述歌曲音频文件的音频指纹进行匹配，得到所述人声音频的音频指纹和所述歌曲音频文件的音频指纹之间的音频指纹匹配数；若所述音频指纹匹配数大于第一预设阈值，则确认所述待检测音频文件包含所述歌曲音频文件的原唱。

在其中一个实施例中，所述歌曲音频文件确定单元，还被配置为执行获取所述待检测音频文件的频谱信息；识别所述频谱信息中的峰值信号，根据所述频谱信息中的峰值信号，确定所述待检测音频文件的音频指纹。

在其中一个实施例中，所述歌曲音频文件确定单元，还被配置为执行将所述待检测音频文件的音频指纹与预设歌曲音频文件的音频指纹进行匹配，得到所述待检测音频文件的音频指纹与所述预设歌曲音频文件的音频指纹之间的音频指纹匹配数；若所述音频指纹匹配数大于第二预设阈值，则将所述预设歌曲音频文件识别为与所述待检测音频文件对应的歌曲音频文件。

在其中一个实施例中，所述装置还包括标签信息获取单元，被配置为执行从预设数据库中获取所述歌曲音频文件的标签信息；所述预设数据库中存储有多个歌曲音频文件的标签信息；将所述标签信息，识别为所述待检测音频文件的标签信息。

根据本公开实施例的第三方面，提供一种服务器，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面的任一项实施例中所述的音频文件的原唱检测方法。

根据本公开实施例的第四方面，提供一种存储介质，包括：当所述存储介质中的指令由服务器的处理器执行时，使得电子设备能够执行如第一方面的任一项实施例中所述的音频文件的原唱检测方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一项实施例中所述的音频文件的原唱检测方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据待检测音频文件的音频指纹，确定与待检测音频文件对应的歌曲音频文件；然后从待检测音频文件中分离出人声音频，并分别提取人声音频的音频指纹和歌曲音频文件的音频指纹；最后根据人声音频的音频指纹和歌曲音频文件的音频指纹，确定对待检测音频文件的原唱检测结果；实现了根据待检测音频文件中的人声音频的音频指纹以及与待检测音频文件对应的歌曲音频文件的音频指纹，确定对待检测音频文件的原唱检测结果的目的；综合考虑了待检测音频文件中的人声音频的音频指纹以及与待检测音频文件对应的歌曲音频文件的音频指纹，避免了仅仅考虑待检测音频文件中的音频指纹，导致确定出的原唱检测结果的准确率较低的缺陷，进一步提高了音频文件的原唱检测准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频文件的原唱检测方法的应用环境图。

图2是根据一示例性实施例示出的一种音频文件的原唱检测方法的流程图。

图3是根据一示例性实施例示出的确定待检测音频文件的音频检索结果的步骤的流程图。

图4是根据一示例性实施例示出的预先训练的人声音频分离模型的训练步骤的流程图。

图5是根据一示例性实施例示出的确定待检测音频文件的原唱检测结果的步骤的流程图。

图6是根据一示例性实施例示出的另一种音频文件的原唱检测方法的流程图。

图7是根据一示例性实施例示出的一种音频文件的原唱检测装置的框图。

图8是根据一示例性实施例示出的一种服务器的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的音频文件的原唱检测方法，可以应用于如图1所示的应用环境中。其中，终端110通过网络与服务器120进行交互，终端110将待检测文件发送至服务器120，服务器120提取接收的待检测音频文件的音频指纹，根据待检测音频文件的音频指纹，确定与待检测音频文件对应的歌曲音频文件；从待检测音频文件中分离出人声音频；分别提取人声音频的音频指纹和歌曲音频文件的音频指纹；根据人声音频的音频指纹和歌曲音频文件的音频指纹，确定对待检测音频文件的原唱检测结果，并将对待检测音频文件的原唱检测结果发送至终端110，终端110通过界面显示对待检测音频文件的原唱检测结果。其中，终端110可以是但不限于各种智能手机、平板电脑或笔记本电脑等，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图2是根据一示例性实施例示出的一种音频文件的原唱检测方法的流程图，如图2所示，音频文件的原唱检测方法用于如图1所示的服务器中，包括以下步骤。

在步骤S210中，提取待检测音频文件的音频指纹，根据待检测音频文件的音频指纹，确定与待检测音频文件对应的歌曲音频文件。

其中，待检测音频文件是指包含有音乐的未知音频文件，可以是音频片段，也可以是完整音频；在实际场景中，待检测音频文件可以是不知道歌曲名字的歌曲片段、录制的歌曲片段、视频的配乐等。

其中，音频指纹是指音频文件的音频特征，用于描述音频文件的特征信息，每个音频文件都具有对应的音频指纹，具体由一对在频域中邻近的局部峰值点组成；歌曲音频文件是指歌曲库中原唱歌曲对应的完整音频文件。

具体地，服务器获取待检测音频文件，根据预设的音频指纹提取指令，提取待检测音频文件的音频指纹；将待检测音频文件的音频指纹与指纹检索数据库中的音频指纹进行匹配，得到匹配结果，该指纹检索数据库中存储有多首歌曲的音频指纹；根据匹配结果，确定待检测音频文件中包含的音乐对应的歌曲名字；从存储有多个歌曲音频文件的歌曲库中获取与该歌曲名字对应的歌曲音频文件，作为与待检测音频文件对应的歌曲音频文件。

需要说明的是，确定待检测音频文件中包含的音乐对应的歌曲名字，说明待检测音频文件中包含有歌曲，有可能是歌曲的背景音乐，也有可能是歌曲的原唱。

进一步地，服务器还可以接收终端发送的音频文件原唱检测请求，对音频文件原唱检测请求进行解析，得到待检测音频文件；提取待检测音频文件中的音频特征，对待检测音频文件中的音频特征进行编码处理，得到待检测音频文件的音频指纹。

示例性地，在听歌识曲场景中，比如在听到一段不知道歌曲名字的歌曲片段的场景中，用户打开终端的听歌识曲功能，通过终端对当前的歌曲片段进行录制，并将录制的歌曲片段作为待检测音频文件上传至对应的服务器，由服务器对该待检测音频文件进行识别。

示例性地，在视频配乐识别场景中，比如在观看一个不知道配乐对应的歌曲名字的短视频的场景中，用户触发终端的配乐识别功能，通过终端将短视频中的配乐作为待检测音频文件上传至对应的服务器，由服务器对该待检测音频文件进行识别。

在步骤S220中，从待检测音频文件中分离出人声音频。

其中，人声音频用于表征人声对应的音频信息。

具体地，服务器获取预设的人声分离指令，根据预设的人声分离指令，从待检测音频文件中分离出人声音频。这样，有利于后续根据分离出的人声音频的音频指纹，确定待检测音频文件是否包含确定出的歌曲音频文件的人声，从而判断待检测音频文件是否包含歌曲音频文件的原唱，进而实现了对待检测音频文件原唱的精准识别，进一步提高了音频文件的原唱检测准确率。

进一步地，服务器还可以通过人声分离技术，对待检测音频文件进行人声分离处理，以从待检测音频文件中分离出人声音频。例如，服务器通过非负矩阵分解处理、贝叶斯算法、基于结构的重复分析处理、基于U-Net的卷积神经网络等，从待检测音频文件中分离出人声音频。

在步骤S230中，分别提取人声音频的音频指纹和歌曲音频文件的音频指纹。

具体地，服务器获取预设的音频指纹提取指令，根据预设的音频指纹提取指令，分别提取待检测音频文件的音频指纹和歌曲音频文件的音频指纹；这样，有利于后续根据人声音频的音频指纹和歌曲音频文件的音频指纹，确定对待检测音频文件的原唱检测结果，避免了仅仅考虑待检测音频文件中的音频指纹，导致确定出的原唱检测结果的准确率较低的缺陷，进一步提高了音频文件的原唱检测准确率。

进一步地，服务器还可以提取人声音频中的音频特征和歌曲音频文件中的音频特征，分别对人声音频中的音频特征和歌曲音频文件中的音频特征进行编码处理，得到人声音频的音频指纹和歌曲音频文件的音频指纹。

此外，服务器还可以获取人声音频的频谱信息；识别该频谱信息中的峰值信号，根据该频谱信息中的峰值信号，确定人声音频的音频指纹；同理，按照同样的方法，可以得到歌曲音频文件的音频指纹。

在步骤S240中，根据人声音频的音频指纹和歌曲音频文件的音频指纹，确定对待检测音频文件的原唱检测结果。

其中，对待检测音频文件的原唱检测结果，可以是待检测音频文件包含歌曲音频文件的原唱，也可以是待检测音频文件不包含歌曲音频文件的原唱，即待检测音频文件只包含歌曲音频文件的背景音乐。

具体地，服务器将人声音频的音频指纹和歌曲音频文件的音频指纹进行匹配，得到匹配结果；根据匹配结果，判断待检测音频文件中是否包含歌曲音频文件的原唱，从而得到对待检测音频文件的原唱检测结果；这样，综合考虑了待检测音频文件中的人声音频的音频指纹以及与待检测音频文件对应的歌曲音频文件的音频指纹，有利于准确识别待检测音频文件是否包含歌曲音频文件的原唱，从而使得得到的待检测音频文件的原唱检测结果更加准确，进一步提高了音频文件的原唱检测准确率。

示例性地，在听歌识曲场景中，服务器对终端录制的歌曲片段进行识别，并将终端录制的歌曲片段对应的原唱检测结果(包含歌曲名称)以通知消息的形式推送至终端，以通过终端的听歌识曲界面展示用户听到的歌曲的原唱检测结果。

示例性地，在视频配乐识别场景中，服务器对终端上传的短视频中的配乐进行识别，并将终端上传的短视频中的配乐对应的原唱检测结果(包含歌曲名称)以通知消息的形式推送至终端，以通过终端的视频播放界面展示用户观看的视频中的配乐的原唱检测结果。

上述音频文件的原唱检测方法中，根据待检测音频文件的音频指纹，确定与待检测音频文件对应的歌曲音频文件；然后从待检测音频文件中分离出人声音频，并分别提取人声音频的音频指纹和歌曲音频文件的音频指纹；最后根据人声音频的音频指纹和歌曲音频文件的音频指纹，确定对待检测音频文件的原唱检测结果；实现了根据待检测音频文件中的人声音频的音频指纹以及与待检测音频文件对应的歌曲音频文件的音频指纹，确定对待检测音频文件的原唱检测结果的目的；综合考虑了待检测音频文件中的人声音频的音频指纹以及与待检测音频文件对应的歌曲音频文件的音频指纹，避免了仅仅考虑待检测音频文件中的音频指纹，导致确定出的原唱检测结果的准确率较低的缺陷，进一步提高了音频文件的原唱检测准确率。

在一示例性实施例中，在步骤S210中，提取待检测音频文件的音频指纹具体包括：获取待检测音频文件的频谱信息；识别频谱信息中的峰值信号，根据频谱信息中的峰值信号，确定待检测音频文件的音频指纹。

其中，待检测音频文件的频谱信息是指待检测音频文件在频域中的频谱信息。

具体地，对待检测音频文件进行频域分析，得到待检测音频文件的频谱信息；根据待检测音频文件的频谱信息，确定待检测音频文件的频谱带；识别各个频谱带中的峰值信号，作为音频指纹，从而得到待检测音频文件的音频指纹。这样，可以有效获取待检测音频文件的音频指纹，便于后续根据待检测音频文件的音频指纹，确定与待检测音频文件对应的歌曲音频文件。

在一示例性实施例中，上述步骤S210，在提取待检测音频文件的音频指纹之前，还包括：对待检测音频文件进行预处理，得到预处理后的待检测音频文件。

具体地，服务器获取预设的预处理文件，根据预设的预处理文件对待检测音频文件进行预处理，比如去噪等，得到预处理后的待检测音频文件；其中，预设的预处理文件是一种能够对音频文件进行预处理的算法文件。这样，通过对待检测音频文件进行预处理，有利于消除待检测音频文件中的干扰信息，便于后续提取待检测音频文件的音频指纹。

在一示例性实施例中，在步骤S210中，根据待检测音频文件的音频指纹，确定与待检测音频文件对应的歌曲音频文件，包括：将待检测音频文件的音频指纹与预设歌曲音频文件的音频指纹进行匹配，得到待检测音频文件的音频指纹与预设歌曲音频文件的音频指纹之间的音频指纹匹配数；若音频指纹匹配数大于第二预设阈值，则将预设歌曲音频文件识别为与待检测音频文件对应的歌曲音频文件。

其中，预设歌曲音频文件是指歌曲库中原唱歌曲对应的完整音频文件；待检测音频文件的音频指纹与预设歌曲音频文件的音频指纹之间的音频指纹匹配数，是指待检测音频文件和预设歌曲音频文件的音频指纹间，具有相同时间差的音频指纹的最大值，用于衡量待检测音频文件中包含的音乐与预设歌曲音频文件的相似程度；一般地，音频指纹匹配数越大，表示待检测音频文件中包含的音乐与预设歌曲音频文件越相似；音频指纹匹配数越小，表示待检测音频文件中包含的音乐与预设歌曲音频文件越不相似。

需要说明的是，第二预设阈值可以根据实际情况进行调整，具体本公开不限定。

具体地，服务器按照上述提取待检测音频文件的音频指纹的方式，提取歌曲库中的预设歌曲音频文件的音频指纹；例如，服务器提取歌曲库中的预设歌曲音频文件中的音频特征，对歌曲库中的预设歌曲音频文件中的音频特征进行编码处理，得到歌曲库中的预设歌曲音频文件的音频指纹；接着，服务器将待检测音频文件的音频指纹，分别与歌曲库中的预设歌曲音频文件的音频指纹进行一一匹配，得到待检测音频文件的音频指纹与预设歌曲音频文件的音频指纹之间的音频指纹匹配数；若该音频指纹匹配数大于第二预设阈值，说明待检测音频文件中包含的音乐与该预设歌曲音频文件较相似，则将该预设歌曲音频文件识别为与待检测音频文件对应的歌曲音频文件。

需要说明的是，若该音频指纹匹配数小于或者等于第二预设阈值，说明待检测音频文件中包含的音乐不是歌曲库中的歌曲，即待检测音频文件中不包含歌曲库中的歌曲；若待检测音频文件的音频指纹与多个预设歌曲音频文件的音频指纹之间的音频指纹匹配数均大于第二预设阈值，说明待检测音频文件中包含歌曲库中的多首歌曲，从而确定与待检测音频文件对应的多个歌曲音频文件。

示例性地，参考图3，服务器按照上述提取待检测音频文件的音频指纹的方式，提取歌曲库中的歌曲的音频指纹，并根据歌曲库中的歌曲的音频指纹，构建指纹检索数据库；提取待检测音频文件中的音频指纹，将待检测音频文件中的音频指纹与指纹检索数据库中的歌曲的音频指纹进行匹配，得到待检测音频文件的音频指纹与指纹检索数据库中的歌曲的音频指纹之间的音频指纹匹配数；根据音频指纹匹配数与第二预设阈值之间的大小关系，确定检索结果；例如，若待检测音频文件的音频指纹与指纹检索数据库中的歌曲A的音频指纹之间的音频指纹匹配数大于第二预设阈值，说明待检测音频文件包含歌曲A，则从歌曲库中获取歌曲A的歌曲音频文件，作为与待检测音频文件对应的歌曲音频文件。

本公开实施例提供的技术方案，通过将待检测音频文件的音频指纹与歌曲库中的预设歌曲音频文件的音频指纹进行匹配，有利于准确确定待检测音频文件中包含的歌曲，从而确定与待检测音频文件对应的歌曲音频文件，进一步提高了确定出的歌曲音频文件的准确率。

在一示例性实施例中，在步骤S220中，从待检测音频文件中分离出人声音频，包括：将待检测音频文件输入预先训练的人声音频分离模型，得到待检测音频文件中的人声音频；预先训练的人声音频分离模型用于对待检测音频文件进行多次卷积处理，得到待检测音频文件中的人声音频。

其中，预先训练的人声音频分离模型是一种能够提取待检测音频文件中的人声音频的卷积神经网络模型，比如基于U-Net的卷积神经网络模型，是通过多次训练得到的。

例如，服务器将待检测音频文件输入预先训练的基于U-Net的卷积神经网络模型，通过基于U-Net的卷积神经网络模型对待检测音频文件进行一系列卷积处理，以从待检测音频文件中分离出人声音频，并输出待检测音频文件中的人声音频。

本公开实施例提供的技术方案，通过预先训练的人声音频分离模型，有利于从待检测音频文件中分离出人声音频，便于后续根据分离出的人声音频的音频指纹，确定待检测音频文件是否包含确定出的歌曲音频文件的人声，从而判断待检测音频文件是否包含歌曲音频文件的原唱，进而实现了对待检测音频文件原唱的精准识别，进一步提高了音频文件的原唱检测准确率。

在一示例性实施例中，如图4所示，预先训练的人声音频分离模型通过下述方式训练得到：

在步骤S410中，采集包含有实际人声音频的样本音频文件。

具体地，服务器基于大数据技术，采集多个标注有实际人声音频的音频文件，作为样本音频文件。

在步骤S420中，根据样本音频文件，对待训练的人声音频分离模型进行训练，得到训练后的人声音频分离模型。

在步骤S430中，获取训练后的人声音频分离模型输出的人声音频与实际人声音频之间的误差。

其中，训练后的人声音频分离模型输出的人声音频与实际人声音频之间的误差，用于衡量训练后的人声音频分离模型输出的人声音频与实际人声音频之间的偏差程度。

在步骤S440中，当误差大于或等于预设误差时，根据误差调整人声音频分离模型的网络参数，得到调整后的人声音频分离模型，并对调整后的人声音频分离模型进行反复训练，直至根据训练后的人声音频分离模型得到的误差小于预设误差。

具体地，当误差大于或等于预设误差时，将误差进行反向传播，以对人声音频分离模型的网络参数进行调整，并对调整后的人声音频分离模型进行反复训练，直到根据训练后的人声音频分离模型得到的误差小于预设误差。

在步骤S450中，若根据训练后的人声音频分离模型得到的误差小于预设误差，将训练后的人声音频分离模型作为预先训练的人声音频分离模型。

本公开实施例提供的技术方案，通过对人声音频分离模型进行反复训练，有利于提高人声音频分离模型输出的人声音频的准确度，使得后续根据人声音频的音频指纹以及歌曲音频文件的音频指纹确定出的原唱检测结果更加准确，从而提高了音频文件的原唱检测准确率。

在一示例性实施例中，在步骤S240中，根据人声音频的音频指纹和歌曲音频文件的音频指纹，确定对待检测音频文件的原唱检测结果，包括：将人声音频的音频指纹和歌曲音频文件的音频指纹进行匹配，得到人声音频的音频指纹和歌曲音频文件的音频指纹之间的音频指纹匹配数；若音频指纹匹配数大于第一预设阈值，则确认待检测音频文件包含歌曲音频文件的原唱。

其中，人声音频的音频指纹和歌曲音频文件的音频指纹之间的音频指纹匹配数，是指人声音频的音频指纹和歌曲音频文件的音频指纹间，具有相同时间差的音频指纹的最大值，用于衡量待检测音频文件中包含的人声音频与歌曲音频文件中的人声的相似程度；一般地，音频指纹匹配数越大，表示待检测音频文件中包含的人声音频与歌曲音频文件中的人声越相似，说明待检测音频文件中包含歌曲音频文件的原唱；音频指纹匹配数越小，表示待检测音频文件中包含的人声音频与歌曲音频文件中的人声越不相似，说明待检测音频文件中不包含歌曲音频文件的原唱，即待检测音频文件只包含歌曲音频文件的背景音乐。

需要说明的是，第一预设阈值可以根据实际情况进行调整，具体本公开不限定。

具体地，服务器将待检测音频文件中的人声音频的音频指纹和歌曲音频文件的音频指纹进行一一匹配，得到人声音频的音频指纹和歌曲音频文件的音频指纹之间的音频指纹匹配数；若该音频指纹匹配数大于第一预设阈值，说明待检测音频文件中包含的人声音频与该歌曲音频文件中的人声较相似，说明待检测音频文件中包含该歌曲音频文件的原唱；若该音频指纹匹配数小于或者等于第一预设阈值，说明待检测音频文件中包含的人声音频与该歌曲音频文件中的人声不相似，说明待检测音频文件中不包含该歌曲音频文件的原唱，即待检测音频文件中只包含该歌曲音频文件的背景音乐。

示例性地，参考图5，假设根据步骤S210，确定待检测音频文件中包含歌曲A，则服务器按照上述提取待检测音频文件的音频指纹的方式，提取待检测音频文件的人声音频的音频指纹和检索到的歌曲A的歌曲音频文件的音频指纹；将待检测音频文件中的人声音频的音频指纹与歌曲A的歌曲音频文件的音频指纹进行匹配，得到待检测音频文件中的人声音频的音频指纹与歌曲A的歌曲音频文件的音频指纹之间的音频指纹匹配数；根据音频指纹匹配数与第一预设阈值之间的大小关系，确定检测结果；例如，若待检测音频文件中的人声音频的音频指纹与歌曲A的歌曲音频文件的音频指纹之间的音频指纹匹配数大于第一预设阈值，说明待检测音频文件包含歌曲A的原唱；若该音频指纹匹配数小于或者等于第一预设阈值，说明待检测音频文件不包含歌曲A的原唱，即待检测音频文件只包含歌曲A的背景音乐。

本公开实施例提供的技术方案，综合考虑了待检测音频文件中的人声音频的音频指纹以及与待检测音频文件对应的歌曲音频文件的音频指纹，有利于准确识别待检测音频文件是否包含歌曲音频文件的原唱，从而使得得到的待检测音频文件的原唱检测结果更加准确，进一步提高了音频文件的原唱检测准确率。

在一示例性实施例中，上述步骤S240，在根据人声音频的音频指纹和歌曲音频文件的音频指纹，确定对待检测音频文件的原唱检测结果之后，还包括：从预设数据库中获取歌曲音频文件的标签信息；预设数据库中存储有多个歌曲音频文件的标签信息；将标签信息，识别为待检测音频文件的标签信息。

其中，歌曲音频文件的标签信息用于标识歌曲的相关信息，比如歌曲名字、演唱者(即歌手名字)、作曲者、作词者、编曲者等。

具体地，在确定对待检测音频文件的原唱检测结果之后，服务器根据与待检测音频文件对应的歌曲音频文件的歌曲名字，查询存储有多个歌曲音频文件的标签信息的预设数据库，得到与该歌曲名字对应的歌曲音频文件的标签信息，作为待检测音频文件中包含的音乐的标签信息。

进一步地，在从预设数据库中获取歌曲音频文件的标签信息之前，服务器还可以预先基于大数据技术，采集网络上的歌曲音频文件的标签信息，得到多个歌曲音频文件的标签信息；将多个歌曲音频文件的标签信息，按照歌曲音频文件的歌曲名字分类存储至预设数据库中，以通过预设数据库存储多个歌曲音频文件的标签信息。

本公开实施例提供的技术方案，通过确定待检测音频文件的标签信息，有利于标记待检测音频文件的相关信息，便于用户及时了解待检测音频文件的相关信息。

在一示例性实施例中，上述步骤S240，在根据人声音频的音频指纹和歌曲音频文件的音频指纹，确定对待检测音频文件的原唱检测结果之后，还包括：获取待检测音频文件的文件标识；将对待检测音频文件的原唱检测结果，按照待检测音频文件的文件标识存储至数据库中。

其中，待检测音频文件的文件标识是指待检测音频文件的标识信息，比如文件名称、文件编号等。

例如，服务器识别待检测音频文件的文件名称，并将文件名称作为待检测音频文件的文件标识；将对待检测音频文件的原唱检测结果，按照待检测音频文件的文件标识分类存储至Redis数据库中，以通过Redis数据库存储多个待检测音频文件的原唱检测结果。当然，服务器还可以将待检测音频文件的标签信息，按照待检测音频文件的文件标识分类存储至Redis数据库中，以通过Redis数据库存储多个待检测音频文件的原唱检测结果和标签信息。

进一步地，在将对待检测音频文件的原唱检测结果，按照待检测音频文件的文件标识存储至数据库中之后，服务器还可以接收终端(比如智能手机)发送的音频文件原唱检测请求，该音频文件原唱检测请求中携带有待检测音频文件的文件标识；从数据库中确定与该文件标识对应的原唱检测结果，作为待检测音频文件的原唱检测结果，并将待检测音频文件的原唱检测结果推送至终端，以通过终端界面展示待检测音频文件的原唱检测结果。

当然，服务器还可以将待检测音频文件的标签信息、待检测音频文件当前播放进度的歌词信息等推送至终端，以通过终端界面展示待检测音频文件的原唱检测结果、标签信息、当前播放进度的歌词信息等。

需要说明的，若数据库中没有存储与该文件标识对应的原唱检测结果，则服务器实时获取与该文件标识对应的待检测音频文件，并执行步骤S210至S240，得到待检测音频文件的原唱检测结果，并将待检测音频文件的原唱检测结果推送至终端。

本公开实施例提供的技术方案，实现了将待检测音频文件的原唱检测结果进行存储的目的，便于后续根据终端发起的音频文件原唱检测请求，准确地、实时地将对应的原唱检测结果发送至终端。

在一示例性实施例中，如图6所示，提供了另一种音频文件的原唱检测方法，包括以下步骤：

在步骤S610中，接收终端发送的音频文件原唱检测请求，该音频文件原唱检测请求中携带有待检测音频文件。

在步骤S620中，提取待检测音频文件的音频指纹，根据待检测音频文件的音频指纹，确定与待检测音频文件对应的歌曲音频文件。

在步骤S630中，从待检测音频文件中分离出人声音频。

在步骤S640中，分别提取人声音频的音频指纹和歌曲音频文件的音频指纹。

在步骤S650中，将人声音频的音频指纹和歌曲音频文件的音频指纹进行匹配，得到人声音频的音频指纹和歌曲音频文件的音频指纹之间的音频指纹匹配数。

在步骤S660中，根据人声音频的音频指纹和歌曲音频文件的音频指纹之间的音频指纹匹配数，确定对待检测音频文件的原唱检测结果。

在步骤S670中，将对待检测音频文件的原唱检测结果推送至终端。

上述音频文件的原唱检测方法中，综合考虑了待检测音频文件中的人声音频的音频指纹以及与待检测音频文件对应的歌曲音频文件的音频指纹，避免了仅仅考虑待检测音频文件中的音频指纹，导致确定出的原唱检测结果的准确率较低的缺陷，进一步提高了音频文件的原唱检测准确率。

应该理解的是，虽然图2、4、6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、4、6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图7是根据一示例性实施例示出的一种音频文件的原唱检测装置的框图。参照图7，该装置包括歌曲音频文件确定单元710，人声音频分离单元720，音频指纹提取单元730和原唱检测结果确定单元740。

歌曲音频文件确定单元710，被配置为执行提取待检测音频文件的音频指纹，根据待检测音频文件的音频指纹，确定与待检测音频文件对应的歌曲音频文件；

人声音频分离单元720，被配置为执行从待检测音频文件中分离出人声音频；

音频指纹提取单元730，被配置为执行分别提取人声音频的音频指纹和歌曲音频文件的音频指纹；

原唱检测结果确定单元740，被配置为执行根据人声音频的音频指纹和歌曲音频文件的音频指纹，确定对待检测音频文件的原唱检测结果。

在一示例性实施例中，人声音频分离单元720，还被配置为执行将待检测音频文件输入预先训练的人声音频分离模型，得到待检测音频文件中的人声音频；预先训练的人声音频分离模型用于对待检测音频文件进行多次卷积处理，得到待检测音频文件中的人声音频。

在一示例性实施例中，上述音频文件的原唱检测装置还包括模型训练单元，被配置为执行采集包含有实际人声音频的样本音频文件；根据样本音频文件，对待训练的人声音频分离模型进行训练，得到训练后的人声音频分离模型；获取训练后的人声音频分离模型输出的人声音频与实际人声音频之间的误差；当误差大于或等于预设误差时，根据误差调整人声音频分离模型的网络参数，得到调整后的人声音频分离模型，并对调整后的人声音频分离模型进行反复训练，直至根据训练后的人声音频分离模型得到的误差小于预设误差；若根据训练后的人声音频分离模型得到的误差小于预设误差，将训练后的人声音频分离模型作为预先训练的人声音频分离模型。

在一示例性实施例中，上述原唱检测结果确定单元740，还被配置为执行将人声音频的音频指纹和歌曲音频文件的音频指纹进行匹配，得到人声音频的音频指纹和歌曲音频文件的音频指纹之间的音频指纹匹配数；若音频指纹匹配数大于第一预设阈值，则确认待检测音频文件包含歌曲音频文件的原唱。

在一示例性实施例中，上述歌曲音频文件确定单元710，还被配置为执行获取待检测音频文件的频谱信息；识别频谱信息中的峰值信号，根据频谱信息中的峰值信号，确定待检测音频文件的音频指纹。

在一示例性实施例中，上述歌曲音频文件确定单元710，还被配置为执行将待检测音频文件的音频指纹与预设歌曲音频文件的音频指纹进行匹配，得到待检测音频文件的音频指纹与预设歌曲音频文件的音频指纹之间的音频指纹匹配数；若音频指纹匹配数大于第二预设阈值，则将预设歌曲音频文件识别为与待检测音频文件对应的歌曲音频文件。

在一示例性实施例中，上述音频文件的原唱检测装置还包括标签信息获取单元，被配置为执行从预设数据库中获取歌曲音频文件的标签信息；预设数据库中存储有多个歌曲音频文件的标签信息；将标签信息，识别为待检测音频文件的标签信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种用于执行上述音频文件的原唱检测方法的设备800的框图。例如，设备800可以为一服务器。参照图8，设备800包括处理组件820，其进一步包括一个或多个处理器，以及由存储器822所代表的存储器资源，用于存储可由处理组件820的执行的指令，例如应用程序。存储器822中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件820被配置为执行指令，以执行上述音频文件的原唱检测方法。

设备800还可以包括一个电源组件824被配置为执行设备800的电源管理，一个有线或无线网络接口826被配置为将设备800连接到网络，和一个输入输出(I/O)接口828。设备800可以操作基于存储在存储器822的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器822，上述指令可由设备800的处理器执行以完成上述方法。存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行本公开的任一项实施例中所述的音频文件的原唱检测方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频文件的原唱检测方法，其特征在于，包括：

提取待检测音频文件的音频指纹，根据所述待检测音频文件的音频指纹，确定与所述待检测音频文件对应的歌曲音频文件，包括：将所述待检测音频文件的音频指纹，分别与歌曲库中的原唱歌曲完整音频文件的音频指纹进行一一匹配，若所述待检测音频文件的音频指纹与所述原唱歌曲完整音频文件的音频指纹之间的音频指纹匹配数大于第二预设阈值，则将所述原唱歌曲完整音频文件识别为与所述待检测音频文件对应的歌曲音频文件；所述音频指纹匹配数是指所述待检测音频文件和所述原唱歌曲完整音频文件的音频指纹间，具有相同时间差的音频指纹的最大值；

从所述待检测音频文件中分离出人声音频；

根据所述人声音频的音频指纹和所述歌曲音频文件的音频指纹之间的音频指纹匹配数，确定对所述待检测音频文件的原唱检测结果；所述人声音频的音频指纹和所述歌曲音频文件的音频指纹之间的音频指纹匹配数，是指所述人声音频的音频指纹和所述歌曲音频文件的音频指纹间，具有相同时间差的音频指纹的最大值。

2.根据权利要求1所述的方法，其特征在于，所述从所述待检测音频文件中分离出人声音频，包括：

3.根据权利要求2所述的方法，其特征在于，所述预先训练的人声音频分离模型通过下述方式训练得到：

采集包含有实际人声音频的样本音频文件；

4.根据权利要求1所述的方法，其特征在于，在根据所述人声音频的音频指纹和所述歌曲音频文件的音频指纹之间的音频指纹匹配数，确定对所述待检测音频文件的原唱检测结果之前，还包括：

所述根据所述人声音频的音频指纹和所述歌曲音频文件的音频指纹之间的音频指纹匹配数，确定对所述待检测音频文件的原唱检测结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述提取待检测音频文件的音频指纹，包括：

获取所述待检测音频文件的频谱信息；

6.根据权利要求1所述的方法，其特征在于，所述根据所述待检测音频文件的音频指纹，确定与所述待检测音频文件对应的歌曲音频文件，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，在根据所述人声音频的音频指纹和所述歌曲音频文件的音频指纹，确定对所述待检测音频文件的原唱检测结果之后，还包括：

将所述标签信息，识别为所述待检测音频文件的标签信息。

8.一种音频文件的原唱检测装置，其特征在于，包括：

歌曲音频文件确定单元，被配置为执行提取待检测音频文件的音频指纹，根据所述待检测音频文件的音频指纹，确定与所述待检测音频文件对应的歌曲音频文件；所述歌曲音频文件确定单元，还被配置为执行将所述待检测音频文件的音频指纹，分别与歌曲库中的原唱歌曲完整音频文件的音频指纹进行一一匹配，若所述待检测音频文件的音频指纹与所述原唱歌曲完整音频文件的音频指纹之间的音频指纹匹配数大于第二预设阈值，则将所述原唱歌曲完整音频文件识别为与所述待检测音频文件对应的歌曲音频文件；所述音频指纹匹配数是指所述待检测音频文件和所述原唱歌曲完整音频文件的音频指纹间，具有相同时间差的音频指纹的最大值；

原唱检测结果确定单元，被配置为执行根据所述人声音频的音频指纹和所述歌曲音频文件的音频指纹之间的音频指纹匹配数，确定对所述待检测音频文件的原唱检测结果；所述人声音频的音频指纹和所述歌曲音频文件的音频指纹之间的音频指纹匹配数，是指所述人声音频的音频指纹和所述歌曲音频文件的音频指纹间，具有相同时间差的音频指纹的最大值。

9.根据权利要求8所述的装置，其特征在于，所述人声音频分离单元，还被配置为执行将所述待检测音频文件输入预先训练的人声音频分离模型，得到所述待检测音频文件中的人声音频；所述预先训练的人声音频分离模型用于对所述待检测音频文件进行多次卷积处理，得到所述待检测音频文件中的人声音频。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括模型训练单元，被配置为执行采集包含有实际人声音频的样本音频文件；根据所述样本音频文件，对待训练的人声音频分离模型进行训练，得到训练后的人声音频分离模型；获取所述训练后的人声音频分离模型输出的人声音频与所述实际人声音频之间的误差；当所述误差大于或等于预设误差时，根据所述误差调整所述人声音频分离模型的网络参数，得到调整后的人声音频分离模型，并对所述调整后的人声音频分离模型进行反复训练，直至根据训练后的人声音频分离模型得到的所述误差小于所述预设误差；若根据训练后的人声音频分离模型得到的所述误差小于所述预设误差，将所述训练后的人声音频分离模型作为所述预先训练的人声音频分离模型。

11.根据权利要求8所述的装置，其特征在于，所述原唱检测结果确定单元，还被配置为执行将所述人声音频的音频指纹和所述歌曲音频文件的音频指纹进行匹配，得到所述人声音频的音频指纹和所述歌曲音频文件的音频指纹之间的音频指纹匹配数；若所述音频指纹匹配数大于第一预设阈值，则确认所述待检测音频文件包含所述歌曲音频文件的原唱。

12.根据权利要求8所述的装置，其特征在于，所述歌曲音频文件确定单元，还被配置为执行获取所述待检测音频文件的频谱信息；识别所述频谱信息中的峰值信号，根据所述频谱信息中的峰值信号，确定所述待检测音频文件的音频指纹。

13.根据权利要求8所述的装置，其特征在于，所述歌曲音频文件确定单元，还被配置为执行将所述待检测音频文件的音频指纹与预设歌曲音频文件的音频指纹进行匹配，得到所述待检测音频文件的音频指纹与所述预设歌曲音频文件的音频指纹之间的音频指纹匹配数；若所述音频指纹匹配数大于第二预设阈值，则将所述预设歌曲音频文件识别为与所述待检测音频文件对应的歌曲音频文件。

14.根据权利要求8至13任一项所述的装置，其特征在于，所述装置还包括标签信息获取单元，被配置为执行从预设数据库中获取所述歌曲音频文件的标签信息；所述预设数据库中存储有多个歌曲音频文件的标签信息；将所述标签信息，识别为所述待检测音频文件的标签信息。

15.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的音频文件的原唱检测方法。

16.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得服务器能够执行如权利要求1至7中任一项所述的音频文件的原唱检测方法。