CN113470693A

CN113470693A - 假唱检测方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113470693A
Application number: CN202110766671.9A
Authority: CN
Inventors: 高月洁; 郑博; 刘华平; 曹偲
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-10-01
Anticipated expiration: 2041-07-07
Also published as: CN113470693B

Abstract

本公开的实施方式提供了一种假唱检测方法、装置、电子设备及计算机可读存储介质，涉及计算机技术领域。该方法包括：确定待检测音频对应的待检测音频特征；待检测音频特征通过对待检测音频指纹进行解码处理得到；确定待检测音频对应的参考音频的参考音频特征；参考音频特征通过对参考音频指纹进行解码处理得到；对待检测音频特征与参考音频特征进行相似度计算，以得到音色相似度；将音色相似度与相似度阈值进行对比，根据对比结果确定待检测音频的检测结果。本公开可以提取直播音频对应的音频指纹，在客户端与服务端之间传输，对直播音频进行假唱实时检测。

Description

假唱检测方法、装置、电子设备及计算机可读存储介质

技术领域

本公开的实施方式涉及计算机技术领域，更具体地，本公开的实施方式涉及假唱检测方法、假唱检测装置、计算机可读存储介质及电子设备。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

目前娱乐方式越来越多，网络直播为用户提供了越来越多的娱乐内容，例如，主播可以通过直播间演唱歌曲，用户可以通过直播间收听主播演唱的歌曲。主播在直播间演唱的优质歌曲片段，作为平台优质内容，将会被优先分发或推荐。目前，通常对主播的演唱进行机器打分，筛选出高分作品作为优先分发的内容，然而，机器打分无法识别主播演唱的歌曲是真实演唱还是放原唱对口型。

现有的一种基于机器视觉和语音信号处理相结合的假唱检测方法，是将现场录制的多媒体音频信号和视频信号相结合，并进行一系列分析过程后，确定真唱或假唱的结果。

发明内容

但是，现有的假唱检测方法在进行假唱判断时，除需要音频信息外，还需要视频信息；并且存在技术方式实现过程复杂，算法准确度不高，运算效率较低，无法支持实时检测等问题。

为此，本公开提出一种改进的假唱检测方法，以使在进行假唱检测时，仅需使用音频信息，通过对音频信息的音频指纹进行分析，计算量小，能够实时得出检测结果，并且可以有效提高检测准确率。

在本上下文中，本公开的实施方式期望提供一种假唱检测方法、假唱检测装置、计算机可读存储介质及电子设备。

在本公开实施方式的第一方面中，提供了一种假唱检测方法，包括：确定待检测音频对应的待检测音频特征；待检测音频特征通过对待检测音频指纹进行解码处理得到，待检测音频指纹是由客户端对待检测音频进行音频特征提取与编码处理所得到的；确定待检测音频对应的参考音频的参考音频特征；参考音频特征通过对参考音频指纹进行解码处理得到，参考音频指纹是由客户端对参考音频进行音频特征提取与编码处理所得到的；对待检测音频特征与参考音频特征进行相似度计算，以得到音色相似度；将音色相似度与相似度阈值进行对比，根据对比结果确定待检测音频的检测结果。

在本公开的一个实施例中，待检测音频特征包括待检测梅尔谱，确定待检测音频对应的待检测音频特征，包括：接收客户端发送的待检测音频指纹，对待检测音频指纹进行解码处理，得到对应的中间待检测特征数组；对中间待检测特征数组的数据进行数据格式转换处理，还原为初始待检测特征数组；获取预先配置的数据重组规则，根据数据重组规则对初始待检测特征数组进行重组处理，以得到待检测梅尔谱。

在本公开的一个实施例中，参考音频特征包括参考梅尔谱，确定待检测音频对应的参考音频的参考音频特征，包括：接收客户端发送的参考音频指纹，对参考音频指纹进行解码处理，得到对应的中间参考特征数组；对中间参考特征数组的数据进行数据格式转换处理，还原为初始参考特征数组；获取数据重组规则，根据数据重组规则对初始参考特征数组进行重组处理，以得到参考梅尔谱。

在本公开的一个实施例中，待检测音频特征包括待检测梅尔谱，参考音频特征包括参考梅尔谱；对待检测音频特征与参考音频特征进行相似度计算，以得到音色相似度，包括：获取预先构建的音频特征提取模型；音频特征提取模型基于包含多个表演者标签的测试音频训练得到；将待检测梅尔谱与参考梅尔谱输入至音频特征提取模型，以分别得到对应的待检测特征向量与参考特征向量；计算待检测特征向量与参考特征向量之间的向量距离，以得到音色相似度。

在本公开的一个实施例中，音频特征提取模型通过下述步骤训练得到：获取多个包含表演者标签的测试音频，根据多个测试音频生成音频训练集；音频训练集包括被测音频、同源被测音频与异源被测音频；获取预先构建的初始模型，根据被测音频、同源被测音频与异源被测音频确定损失函数；基于损失函数对初始模型进行训练，直至损失函数收敛，得到表演者识别网络；根据表演者识别网络确定音频特征提取模型。

在本公开的一个实施例中，音频特征提取模型包括多个第一卷积层、与各第一卷积层对应的池化层以及第二卷积层；将待检测梅尔谱与参考梅尔谱输入至音频特征提取模型，以分别得到对应的待检测特征向量与参考特征向量，包括：由各第一卷积层与各池化层对待检测梅尔谱进行特征提取，得到初始待检测特征；由第二卷积层对初始待检测特征进行卷积处理，得到待检测特征向量；由各第一卷积层与各池化层对参考梅尔谱进行特征提取，得到初始参考特征；由第二卷积层对初始参考特征进行卷积处理，得到参考特征向量。

在本公开实施方式的第二方面中，提供了一种假唱检测方法，应用于客户端，包括：获取待检测音频，并确定与待检测音频对应的参考音频；待检测音频基于实时获取的待检测实时音频得到；分别对待检测音频与参考音频进行音频特征提取，以得到对应的待检测音频特征与参考音频特征；对待检测音频特征进行编码处理，以得到对应的待检测音频指纹；对参考音频特征进行编码处理，以得到对应的参考音频指纹；将待检测音频指纹与参考音频指纹发送至服务端，以由服务端对待检测音频指纹与参考音频指纹进行解码处理，分别得到对应的待检测音频特征与参考音频特征；对待检测音频特征与参考音频特征进行相似度计算，得到音色相似度，以根据音色相似度确定待检测音频的检测结果。

在本公开的一个实施例中，获取待检测音频，并确定与待检测音频对应的参考音频，包括：获取待检测实时音频；确定音频截取时长，根据音频截取时长从待检测实时音频中确定待检测音频；获取与待检测音频对应的原始参考音频；确定待检测音频对应的目标位置，根据目标位置从原始参考音频中确定参考音频。

在本公开的一个实施例中，根据音频截取时长从待检测实时音频中确定待检测音频，包括：确定截取音频的第一候选起始点；根据第一候选起始点与音频截取时长进行音频截取操作，从待检测实时音频中确定待检测音频区间；确定待检测音频区间中包含的音符加和时长；如果音符加和时长大于等于音符时长阈值，则将待检测音频区间中包含的音频确定为待检测音频。

在本公开的一个实施例中，上述方法还包括：如果音频加和时长小于音符时长阈值，则根据第一候选起始点与音频截取时长确定第二候选起始点；根据第二候选起始点与音频截取时长重新进行音频截取操作，直至确定出待检测音频。

在本公开的一个实施例中，待检测音频特征包括待检测梅尔谱，参考音频特征包括参考梅尔谱；分别对待检测音频与参考音频进行音频特征提取，以得到对应的待检测音频特征与参考音频特征，包括：确定音频采样频率以及音频提取窗函数；根据音频采样频率与音频提取窗函数分别对待检测音频与参考音频进行频谱计算，以得到对应的待检测音频频谱与参考音频频谱；获取预先配置的频带值，采用频带值并通过音频滤波器对待检测音频频谱进行处理，得到待检测梅尔谱；采用频带值并通过音频滤波器对参考音频频谱进行处理，得到参考梅尔谱。

在本公开的一个实施例中，对待检测音频特征进行编码处理，以得到对应的待检测音频指纹，包括：将待检测梅尔谱进行数据展开处理，生成对应的初始待检测特征数组；初始待检测特征数组包含第一数据格式的数据；对初始待检测特征数组的数据由第一数据格式转换为第二数据格式，得到中间待检测特征数组；对中间待检测特征数组进行编码处理，以得到待检测音频指纹。

在本公开的一个实施例中，对参考音频特征进行编码处理，以得到对应的参考音频指纹，包括：将参考梅尔谱进行数据展开处理，生成对应的初始参考特征数组；初始参考特征数组包含第一数据格式的数据；对初始参考特征数组的数据由第一数据格式转换为第二数据格式，得到中间参考特征数组；对中间参考特征数组进行编码处理，以得到参考音频指纹。

在本公开实施方式的第三方面中，提供了一种假唱检测装置，包括：待检测特征确定模块，用于确定待检测音频对应的待检测音频特征；待检测音频特征通过对待检测音频指纹进行解码处理得到，待检测音频指纹是由客户端对待检测音频进行音频特征提取与编码处理所得到的；参考特征确定模块，用于确定待检测音频对应的参考音频的参考音频特征；参考音频特征通过对参考音频指纹进行解码处理得到，参考音频指纹是由客户端对参考音频进行音频特征提取与编码处理所得到的；相似度确定模块，用于对待检测音频特征与参考音频特征进行相似度计算，以得到音色相似度；检测结果确定模块，用于将音色相似度与相似度阈值进行对比，根据对比结果确定待检测音频的检测结果。

在本公开的一个实施例中，待检测音频特征包括待检测梅尔谱，待检测特征确定模块包括待检测特征确定单元，用于接收客户端发送的待检测音频指纹，对待检测音频指纹进行解码处理，得到对应的中间待检测特征数组；对中间待检测特征数组的数据进行数据格式转换处理，还原为初始待检测特征数组；获取预先配置的数据重组规则，根据数据重组规则对初始待检测特征数组进行重组处理，以得到待检测梅尔谱。

在本公开的一个实施例中，参考音频特征包括参考梅尔谱，参考特征确定模块包括参考特征确定单元，用于接收客户端发送的参考音频指纹，对参考音频指纹进行解码处理，得到对应的中间参考特征数组；对中间参考特征数组的数据进行数据格式转换处理，还原为初始参考特征数组；获取数据重组规则，根据数据重组规则对初始参考特征数组进行重组处理，以得到参考梅尔谱。

在本公开的一个实施例中，待检测音频特征包括待检测梅尔谱，参考音频特征包括参考梅尔谱；相似度确定模块包括相似度确定单元，用于获取预先构建的音频特征提取模型；音频特征提取模型基于包含多个表演者标签的测试音频训练得到；将待检测梅尔谱与参考梅尔谱输入至音频特征提取模型，以分别得到对应的待检测特征向量与参考特征向量；计算待检测特征向量与参考特征向量之间的向量距离，以得到音色相似度。

在本公开的一个实施例中，相似度确定模块包括模型训练单元，用于获取多个包含表演者标签的测试音频，根据多个测试音频生成音频训练集；音频训练集包括被测音频、同源被测音频与异源被测音频；获取预先构建的初始模型，根据被测音频、同源被测音频与异源被测音频确定损失函数；基于损失函数对初始模型进行训练，直至损失函数收敛，得到表演者识别网络；根据表演者识别网络确定音频特征提取模型。

在本公开的一个实施例中，音频特征提取模型包括多个第一卷积层、与各第一卷积层对应的池化层以及第二卷积层；相似度确定单元包括向量确定子单元，用于由各第一卷积层与各池化层对待检测梅尔谱进行特征提取，得到初始待检测特征；由第二卷积层对初始待检测特征进行卷积处理，得到待检测特征向量；由各第一卷积层与各池化层对参考梅尔谱进行特征提取，得到初始参考特征；由第二卷积层对初始参考特征进行卷积处理，得到参考特征向量。

在本公开实施方式的第四方面中，提供了一种假唱检测装置，应用于客户端，包括：音频获取模块，用于获取待检测音频，并确定与待检测音频对应的参考音频；待检测音频基于实时获取的待检测实时音频得到；音频特征提取模块，用于分别对待检测音频与参考音频进行音频特征提取，以得到对应的待检测音频特征与参考音频特征；第一指纹确定模块，用于对待检测音频特征进行编码处理，以得到对应的待检测音频指纹；第二指纹确定模块，用于对参考音频特征进行编码处理，以得到对应的参考音频指纹；音频检测模块，用于将待检测音频指纹与参考音频指纹发送至服务端，以由服务端对待检测音频指纹与参考音频指纹进行解码处理，分别得到对应的待检测音频特征与参考音频特征；对待检测音频特征与参考音频特征进行相似度计算，得到音色相似度，以根据音色相似度确定待检测音频的检测结果。

在本公开的一个实施例中，音频获取模块包括音频获取单元，用于获取待检测实时音频；确定音频截取时长，根据音频截取时长从待检测实时音频中确定待检测音频；获取与待检测音频对应的原始参考音频；确定待检测音频对应的目标位置，根据目标位置从原始参考音频中确定参考音频。

在本公开的一个实施例中，音频获取单元包括第一获取子单元，用于确定截取音频的第一候选起始点；根据第一候选起始点与音频截取时长进行音频截取操作，从待检测实时音频中确定待检测音频区间；确定待检测音频区间中包含的音符加和时长；如果音符加和时长大于等于音符时长阈值，则将待检测音频区间中包含的音频确定为待检测音频。

在本公开的一个实施例中，音频获取单元还包括第二获取子单元，用于如果音频加和时长小于音符时长阈值，则根据第一候选起始点与音频截取时长确定第二候选起始点；根据第二候选起始点与音频截取时长重新进行音频截取操作，直至确定出待检测音频。

在本公开的一个实施例中，待检测音频特征包括待检测梅尔谱，参考音频特征包括参考梅尔谱；音频特征提取模块包括音频特征提取单元，用于确定音频采样频率以及音频提取窗函数；根据音频采样频率与音频提取窗函数分别对待检测音频与参考音频进行频谱计算，以得到对应的待检测音频频谱与参考音频频谱；获取预先配置的频带值，采用频带值并通过音频滤波器对待检测音频频谱进行处理，得到待检测梅尔谱；采用频带值并通过音频滤波器对参考音频频谱进行处理，得到参考梅尔谱。

在本公开的一个实施例中，第一指纹确定模块包括第一指纹确定单元，用于将待检测梅尔谱进行数据展开处理，生成对应的初始待检测特征数组；初始待检测特征数组包含第一数据格式的数据；对初始待检测特征数组的数据由第一数据格式转换为第二数据格式，得到中间待检测特征数组；对中间待检测特征数组进行编码处理，以得到待检测音频指纹。

在本公开的一个实施例中，第二指纹确定模块包括第二指纹确定单元，用于将参考梅尔谱进行数据展开处理，生成对应的初始参考特征数组；初始参考特征数组包含第一数据格式的数据；对初始参考特征数组的数据由第一数据格式转换为第二数据格式，得到中间参考特征数组；对中间参考特征数组进行编码处理，以得到参考音频指纹。

在本公开实施方式的第五方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的假唱检测方法。

在本公开实施方式的第六方面中，提供了一种电子设备，包括：处理器；以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上述所述的假唱检测方法。

根据本公开实施方式的技术方案，一方面，通过确定出的待检测音频特征与参考音频特征计算待检测音频与参考音频之间的音色相似度，进而确定假唱检测结果，不再需要视频信息等额外信息，仅使用音频信息即可得到假唱检测结果。另一方面，通过对比待检测音频特征与参考音频特征，可以提高检测准确率。又一方面，服务端通过接收客户端传输的待检测音频指纹与参考音频指纹，可以解决无法实时检测的问题，并大大减少服务端信息传输压力。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示意性地示出了根据本公开的一些实施例的示例性应用场景的系统架构的示意框图；

图2示意性地示出了根据本公开的一些实施例的在服务端执行的假唱检测方法的流程示意图；

图3示意性地示出了根据本公开的一些实施例的训练音频特征提取模型的流程示意图；

图4示意性地示出了根据本公开的一些实施例的在客户端执行的假唱检测方法的流程示意图；

图5示意性地示出了根据本公开的一些实施例的假唱检测的整体流程示意图；

图6示意性地示出了根据本公开的一些实施例的一种假唱检测装置的示意图；

图7示意性地示出了根据本公开的一些实施例的另一假唱检测装置的示意框图；

图8示意性地示出了根据本公开的示例实施例的存储介质的示意图；以及

图9示意性地示出了根据发明的示例实施例的电子设备的方框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种假唱检测方法、假唱检测装置、介质和电子设备。

在本文中，需要理解的是，所涉及的术语，比如，梅尔谱，一种音频特征。其计算过程为：对音频的每一帧进行快速傅里叶变换，生成频谱。再在频域上通过梅尔滤波器，将频域变为更符合人耳听觉习惯的梅尔域，生成梅尔谱。梅尔谱与音频片段一一对应，可以描述音频片段的音色特征。乐器数字接口(Musical Instrument Digital Interface，MIDI)，可以用于记录歌曲音高线信息，以音符为单位，每个音符记录的起始时间可以记为starttime，长度可以记为duration，音高可以记为pitch。Base64编码是一种基于64个可打印字符来表示二进制数据的表示方法，Base64编码可用于数据无损压缩。卷积神经网络(Convolutional Neural Network，CNN)在图像处理方面有着广泛应用，如可以应用于图像分类、目标检测等场景。此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

随着直播内容的不断丰富，越来越多的主播通过直播间演唱歌曲，主播在直播间演唱的优质歌曲片段，作为平台优质内容，将会被优先分发或推荐。目前，通常对主播的演唱进行机器打分，筛选出高分作品作为优先分发的内容，然而，机器打分无法识别主播演唱的歌曲是真实演唱还是放原唱对口型。

在一种技术方案中，可以基于机器视觉和语音信号处理相结合的方式进行假唱检测，具体步骤如下：1)将音视频信号分离；2)对于音频信号进行分帧处理并提取每一帧的特征参数；3)对于视频信号的每帧进行处理，提取图像特征点，再从中提取特征参数，使得视频信号的提取频率与音频信号的提取频率相同；4)根据视频信号的视频帧和音频信号的音频帧确定音视频特征参数，并确定出多个子特征参数序列；5)将每一子特征参数序列进行同步性分析，获得同步性帧移曲线；6)同步性分类判定，将得到的同步性帧移曲线进行分类判断可以获得真唱或假唱的结果。

然而，上述技术方案存在下述技术问题：1)除音频信息外，还需要视频信息。上述方案需要演唱人脸部全程被摄录且嘴部无遮挡，对于输入数据要求较高。2)技术方案实现过程复杂。上述方案至少包括脸部关键点提取、唇部区域特征提取、像素距离对齐、关键唇动提取、音频背景音乐消除、同步性分析等步骤，复杂的实现过程也增加了开发难度。3)算法准确度不高。本方案中需对全曲所有片段的算法结果进行投票，且全曲准确率仅70％左右。4)运算效率较低，无法支持实时检测。该方案输入为整首歌的视频，无法在演唱实时给出真/假唱的判断，需对视频图像信息进行计算，计算量较大。

基于上述内容，本公开的基本思想在于，确定待检测音频对应的待检测音频特征；待检测音频特征通过对待检测音频指纹进行解码处理得到；确定待检测音频对应的参考音频的参考音频特征；参考音频特征通过对参考音频指纹进行解码处理得到；对待检测音频特征与参考音频特征进行相似度计算，以得到音色相似度；将音色相似度与相似度阈值进行对比，根据对比结果确定待检测音频的检测结果。本公开根据待检测音频特征与参考音频特征进行假唱检测，无需视频信息即可完成假唱检测，且有效提高检测准确率；另外，将音频指纹在客户端与服务端进行传输，可以达到实时检测的效果，同时大大减轻服务器端的信息传输压力。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景总览

首先参考图1，图1示出了可以应用本公开实施例的一种假唱检测方法及装置的示例性应用场景的系统架构的示意框图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的假唱检测方法可以由服务器105与终端设备101、102、103两部分执行，相应地，假唱检测装置分别对应设置于服务器105与终端设备101、102、103中。举例而言，在一种示例性实施例中，可以是主播可以通过终端设备101、102、103录制待检测音频，终端设备101、102、103在获取到待检测音频后，可以确定待检测音频对应的参考音频，分别对两者进行特征提取得到待检测音频特征与参考音频特征，将对其进行编码处理后的待检测音频指纹与参考音频指纹传输至服务器105，服务器105可以对接收到的待检测音频指纹与参考音频指纹进行解码处理，还原出可以待检测音频特征与参考音频特征，并进行音色相似度计算，根据音色相似度计算结果确定待检测音频是否为假唱音频。

应该理解的是，图1所示的应用场景仅是本公开的实施例可以在其中得以实现的一个示例。本公开实施例的适用范围不受到该应用场景任何方面的限制。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本公开示例性实施方式的假唱检测方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

本公开首先提供了一种假唱检测方法，应用于服务端，该方法执行主体可以是服务器，本示例实施例中以服务器执行该方法为例进行说明。

参照图2所示，该假唱检测方法可以包括以下步骤S210至步骤S240：

步骤S210，确定待检测音频对应的待检测音频特征；待检测音频特征通过对待检测音频指纹进行解码处理得到，待检测音频指纹是由客户端对待检测音频进行音频特征提取与编码处理所得到的。

在一些示例实施例中，待检测音频可以是等待识别是否为假唱的音频，待检测音频可以是通过客户端实时获取到的音频。例如，在直播间的歌曲演唱场景中，待检测音频可以是通过客户端(如主播端)实时获取到的歌曲演唱片段。待检测音频特征可以是用于描述待检测音频片段的音色特征。音频指纹可以是用于表示一段音频的独一无二的数字特征的标识符。待检测音频指纹可以是待检测音频对应的音频指纹。音频特征提取可以是对音频片段进行特征提取的过程，如对待检测音频进行音频特征提取。编码处理可以是采用一定的编码方式对提取到的音频特征进行编码处理的过程，如对待检测音频特征进行编码处理。解码处理可以是对音频指纹进行解码以还原为对应的音频特征的处理过程，如对待检测音频指纹进行解码处理还原为待检测音频特征。

服务端在对待检测视频进行假唱检测时，可以先确定待检测音频对应的待检测音频特征。举例而言，在直播间场景中，主播可以通过客户端(即主播端)演唱歌曲，主播端可以实时收集演唱的歌曲音频，主播端实时获取到的主播演唱的歌曲音频即为待检测音频。客户端在获取到待检测音频后，可以对待检测音频进行音频特征提取处理，得到对应的待检测音频特征，并将待检测音频特征进行编码处理，得到对应的待检测音频指纹，并将待检测音频指纹发送至服务端，服务端可以对接收到的待检测音频指纹进行解码处理即可得到待检测音频特征。

步骤S220，确定待检测音频对应的参考音频的参考音频特征；参考音频特征通过对参考音频指纹进行解码处理得到，参考音频指纹是由客户端对参考音频进行音频特征提取与编码处理所得到的。

在一些示例实施例中，参考音频可以是与待检测音频进行对比的音频，并且参考音频与待检测音频对应相同的歌词位置。例如，如果待检测音频是实时演唱的歌曲片段，则参考音频可以是与该歌曲片段对应的原唱歌曲片段。参考音频特征可以是用于描述参考音频片段的音色特征。参考音频指纹可以是参考音频对应的音频指纹。同理，与对待检测音频的处理方式相同，音频特征提取可以是对参考音频进行特征提取的过程。编码处理可以是采用一定的编码方式确定出的与待检测音频对应的参考音频特征进行编码处理的过程。解码处理可以是对参考音频指纹进行解码以还原为参考音频特征的处理过程。

在获取到待检测音频后，客户端可以从音频数据库中确定与待检测音频对应的参考音频，如待检测音频对应的原唱音频。客户端在确定出参考音频后，可以对参考音频进行音频特征提取处理与编码处理，得到对应的参考音频指纹，并将参考音频指纹发送至服务端，服务端可以对接收到的参考音频指纹进行解码处理即可得到参考音频特征。

步骤S230，对待检测音频特征与参考音频特征进行相似度计算，以得到音色相似度。

在一些示例实施例中，音色相似度可以是待检测音频与参考音频之间音色特征的相似程度。

在分别确定出待检测音频特征与参考音频特征后，可以对两者进行相似度计算。具体的，可以采用距离算法或相似度(系数)算法计算两个特征之间的相似度，例如，距离算法可以包括欧几里得距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)、切比雪夫距离(Chebyshev Distance)、明可夫斯基距离(Minkowski Distance)以及海明距离(Hamming distance)等。相似度算法可以包括余弦相似度(Cosine Similarity)、皮尔森相关系数(Pearson Correlation Coefficient)、Jaccard相似系数(Jaccard Coefficient)以及对数似然相似度/对数似然相似率等。本公开对相似度计算所采用的具体算法不作任何特殊限定。

步骤S240，将音色相似度与相似度阈值进行对比，根据对比结果确定待检测音频的检测结果。

在一些示例实施例中，相似度阈值可以是预先设定的用于与音色相似度进行对比的数值，可以记为threshold。对比结果可以是将音色相似度与相似度阈值进行对比得到的结果。检测结果可以是识别待检测音频是否为假唱的识别结果。

在计算出音色相似度后，获取预先设定的相似度阈值。具体的，相似度阈值可以通过下述方式确定：相似度阈值threshold的取值，可以通过遍历0.1-0.9，计算每个threshold对应的数据集的准确率(precision)和召回率(recall)的具体数值，当precision和recall均取得较高值时，此时的threshold数值即为最有效阈值；其中，准确率可以是对于给定的测试数据集，分类器正确分类的样本数与总样本数之比，即

召回率可以表示所有检索到的样本数量(tp)占所有应该被检索到的样本数量(tp+fn)的比例，即

将计算出的音色相似度与相似度阈值进行对比，根据得到的对比结果可以确定待检测音频是否为假唱音频。例如，当音色相似度大于等于相似度阈值时，可以判定待检测音频为假唱音频；当音色相似度小于相似度阈值时，可以判定待检测音频为真唱音频。

在本示例实施方式所提供的假唱检测方法，确定待检测音频对应的待检测音频特征；待检测音频特征通过对待检测音频指纹进行解码处理得到；确定待检测音频对应的参考音频的参考音频特征；参考音频特征通过对参考音频指纹进行解码处理得到；对待检测音频特征与参考音频特征进行相似度计算，以得到音色相似度；将音色相似度与相似度阈值进行对比，根据对比结果确定待检测音频的检测结果。一方面，通过确定出的待检测音频特征与参考音频特征计算待检测音频与参考音频之间的音色相似度，进而确定假唱检测结果，不再需要视频信息等额外信息，仅使用音频信息即可得到假唱检测结果。另一方面，通过对比待检测音频特征与参考音频特征，可以提高检测准确率。又一方面，服务端通过接收客户端传输的待检测音频指纹与参考音频指纹，可以解决无法实时检测的问题，并大大减少服务端信息传输压力。

下面，对于本示例实施方式的上述步骤进行更加详细的说明。

在本公开的一个实施例中，接收客户端发送的待检测音频指纹，对待检测音频指纹进行解码处理，得到对应的中间待检测特征数组；对中间待检测特征数组的数据进行数据格式转换处理，还原为初始待检测特征数组；获取预先配置的数据重组规则，根据数据重组规则对初始待检测特征数组进行重组处理，以得到待检测梅尔谱。

其中，中间待检测特征数组可以是对待检测音频指纹进行解码处理后得到的特征数组。数据格式转换处理可以是对中间特征数组中的数据进行格式转换的处理过程，例如，服务端可以对中间待检测特征数组的数据进行数据格式转换处理。初始待检测特征数组可以是对中间待检测特征数组进行数据格式转换处理后得到的数组。数据重组规则可以是对初始特征数组进行重组处理以得到对应的梅尔谱所采用的规则，例如，可以根据数据重组规则对初始待检测特征数组和初始参考特征数组进行重组处理。待检测梅尔谱可以是待检测音频对应的梅尔谱。

服务端在接收到客户端发送的待检测音频指纹后，可以将待检测音频指纹进行解码处理。举例而言，在对待检测音频特征进行特征提取处理与编码处理的过程中，可以采用进行基于64个可打印字符来表示二进制数据(base64)的编码方式。因此，服务端在对待检测音频指纹进行解码处理的过程中，可以采用对应的解码规则进行解码处理，生成对应的中间待检测特征数组，根据base64解码处理方式得到的中间待检测特征数组可以是字符类型的数据组成的数组，如字符串序列。

将得到的中间待检测特征数组中的数据进行数据格式转换处理，例如，可以将字符串序列进行格式转换，转换为对应的浮点类型数据，还原为对应的初始待检测特征数组，即初始待检测特征数组可以是浮点类型的一维数组。将中间待检测特征数组还原为初始待检测特征数组后，可以根据数据重组规则，将初始待检测特征数组按照一定的重组规则进行数据重组处理，得到待检测梅尔谱。

在本公开的一个实施例中，接收客户端发送的参考音频指纹，对参考音频指纹进行解码处理，得到对应的中间参考特征数组；对中间参考特征数组的数据进行数据格式转换处理，还原为初始参考特征数组；获取数据重组规则，根据数据重组规则对初始参考特征数组进行重组处理，以得到参考梅尔谱。

其中，中间参考特征数组可以是对参考音频指纹进行解码处理后得到的特征数组。数据格式转换处理还可以是对中间参考特征数组中的数据进行格式转换的处理过程。初始参考特征数组可以是对中间参考特征数组进行数据格式转换处理后得到的数组。参考梅尔谱可以是待检测音频对应的梅尔谱。

与根据待检测音频指纹得到待检测梅尔谱的处理过程相同，服务端在接收到客户端发送的参考音频指纹后，可以将参考音频指纹进行解码处理。例如，采用base64解码方式对参考音频指纹进行解码处理，生成字符串序列形式的中间参考特征数组。然后，对将得到的中间参考特征数组中的数据进行数据格式转换处理，将字符串序列中间参考特征数组转换为对应的浮点类型数据，还原为对应的初始参考特征数组，即浮点类型的一维数组。按照数据重组规则对初始参考特征数组进行数据重组处理，得到初始梅尔谱。

在本公开的一个实施例中，获取预先构建的音频特征提取模型；音频特征提取模型基于包含多个表演者标签的测试音频训练得到；将待检测梅尔谱与参考梅尔谱输入至音频特征提取模型，以分别得到对应的待检测特征向量与参考特征向量；计算待检测特征向量与参考特征向量之间的向量距离，以得到音色相似度。

其中，音频特征提取模型可以是用于提取音频片段中的相关音频特征所采用的网络模型。表演者标签可以是某一音频的表演者所对应的标签。测试音频可以是用于训练音频特征提取模型所采用的音频，测试音频可以对应多个不同的表演者。待检测特征向量可以是由音频特征提取模型对待检测梅尔谱进行特征提取后得到音色特征向量。参考特征向量可以是由音频特征提取模型对参考梅尔谱进行特征提取后得到音色特征向量。向量距离可以是用于度量待检测特征向量与参考特征向量两个向量之间的相似程度所采用的距离。

在得到待检测梅尔谱与参考梅尔谱之后，可以获取预先构建的音频特征提取模型，将待检测梅尔谱输入至音频特征提取模型，进行音色特征提取，得到对应的待检测特征向量，例如，得到的待检测特征向量可以是256维的音色特征向量。同样的，将参考梅尔谱输入至音频特征提取模型进行音色特征提取，可以得到与待检测特征向量具有相同数据维数的参考特征向量。进而，根据公式1计算待检测特征向量与参考特征向量之间的向量距离，得到待检测音频与参考音频之间的音色相似度。

其中，音频训练集可以是用于训练音频特征提取模型时所采用的样本集合。被测音频可以是某一目标表演者演唱的歌曲或其他音频片段。同源被测音频可以是目标表演者演唱的歌曲或音频，即同源被测音频与被测音频对应同一表演者。异源被测音频可以是非目标表演者演唱的歌曲或片段，即异源被测音频与被测音频对应不同的表演者。表演者识别网络可以是用于确定某一音频对应的表演者所采用的分类网络。

参考图3，图3示意性地示出了根据本公开的一些实施例的训练音频特征提取模型的流程示意图。在步骤S310中，获取多个包含表演者标签的测试音频，根据多个测试音频生成音频训练集；音频训练集包括被测音频、同源被测音频与异源被测音频。在获取到包含多个表演者标签的测试音频后，可以将测试音频中添加对应的标注，生成音频训练集，例如，可以将测试音频分为三类：被测音频，记为p_i；同源被测音频，记为p₊；异源被测音频，记为p_-。音频训练集中每组数据可以包括真唱/假唱音频片段，对应的原唱音频，真/假唱标注等。

在步骤S320中，获取预先构建的初始模型，根据被测音频、同源被测音频与异源被测音频确定损失函数。

获取初始模型，将这三类具有对应标注的音频作为训练样本集对初始模型进行训练，以得到表演者识别网络。具体的，可以将模型的损失函数确定为公式1中所示的函数。

其中，α为余量系数，在某些实施例中，α值可以通过对0.01到1.0之间的值执行网格搜索后确定，例如，可以将为α值设定为0.1。S可以两个音频片段经神经网络提取出的音色特征向量，具体的，S函数的计算方式可以如公式2所示：

在步骤S330中，基于损失函数对初始模型进行训练，直至损失函数收敛，得到表演者识别网络。在确定出损失函数后，利用损失函数对初始模型进行训练，等到损失函数收敛后，可以确定此时模型对应的参数，得到表演者识别网络。通过上述方式确定出的表演者识别网络可以采用度量学习的方式，使同一表演者的音频在度量上更加接近。

在步骤S340中，根据表演者识别网络确定音频特征提取模型。在得到表演者识别网络之后，可以将该识别网络的前n-1层作为音频特征提取模型，用于提取待检测音频与参考音频的音色特征。例如，可以固定表演者识别网络中前五层CNN网络参数，提取出表演者识别网络中的前五层网络作为音频特征提取模型。

进一步地，在模型训练过程中，每个网络层还可以使用批量归一化(BatchNormalization)和线性整流函数(Rectified Linear Unit，ReLU)提高训练速度，在最后一层确定向量输出时，还可以通过dropout算法进行防止过拟合处理，即，在深度学习网络的训练过程中，对于神经网络单元按照一定的丢弃概率将其暂时从网络中丢弃。本实施例优选的丢弃概率为50％。

其中，第一卷积层可以是对音频的梅尔谱进行初始特征提取的网络层。初始待检测特征可以是由第一卷积层对待检测梅尔谱进行初始特征提取后得到的音频特征。第二卷积层可以是将对提取出的音频特征进行向量转换所采用的网络层。初始参考特征可以是由第一卷积层对参考梅尔谱进行初始特征提取后得到的音频特征。

在得到音频特征提取模型后，可以将待检测梅尔谱与参考梅尔谱分别输入至音频特征提取模型，以得到对应的待检测特征向量和参考特征向量。以音频特征提取模型确定待检测梅尔谱的待检测特征向量的过程为例进行说明。举例而言，当音频特征提取模型为由5个卷积层组成的卷积神经网络时，即音频特征提取模型可以包括四个第一卷积层以及与各第一卷积层对应的池化层，例如，前四层每层(第一卷积层)可以包含128个3*3的卷积核，将待检测梅尔谱输入至音频特征提取模型之后，每次由第一卷积层的卷积核进行卷积计算之后，再通过一个3*3的最大池化层，得到初始待检测特征。继续由第二卷积层对初始待检测特征进行卷积处理，例如，第二卷积层可以包含256个1维的卷积核，使模型的输出固定为1*256维的向量，即得到1*256维的待检测特征向量。

同理，由音频特征提取模型确定参考梅尔谱对应的参考特征向量的过程，与确定待检测特征向量的过程相同，本公开对此不再进行赘述。

本领域技术人员容易理解的是，在本公开的其它示例性实施例中，表演者识别网络以及音频特征提取模型的网络层数还可以是其他数量，如网络层数量可以为7个、9个等，本公开对此不作任何特殊限定。

进一步地，本公开提供了一种假唱检测方法，应用于客户端，该方法执行主体可以是终端设备，本示例实施例中以终端设备执行该方法为例进行说明。

参照图4所示，该假唱检测方法可以包括以下步骤S410至步骤S450：

步骤S410，获取待检测音频，并确定与待检测音频对应的参考音频；待检测音频基于实时获取的待检测实时音频得到。

在一些示例实施例中，待检测实时音频可以是实时获取的完整音频片段。待检测音频可以是从待检测实时音频中截取出的一部分音频片段。

在直播间演唱场景中，客户端可以实时获取主播演唱的歌曲，将其作为待检测实时音频。为了实时确定出音频的假唱检测结果，在进行假唱检测时，可以从实时获取到的待检测实时音频中截取一个音频片段作为待检测音频。例如，可以从待检测实时音频中截取3秒或5秒的音频作为待检测音频。在得到待检测音频后，可以从音频数据库中确定与待检测音频对应的源音频，根据待检测音频的歌词位置，对源音频在相同歌词位置进行截取操作，可以得到参考音频。

步骤S420，分别对待检测音频与参考音频进行音频特征提取，以得到对应的待检测音频特征与参考音频特征。

在一些示例实施例中，在确定出待检测音频与参考音频后，分别对待检测音频与参考音频进行音频特征提取，以得到待检测音频对应的待检测音频特征以及参考音频对应的参考音频特征。举例而言，可以采用音频特征提取模型对待检测音频与参考音频进行音频特征提取。

步骤S430，对待检测音频特征进行编码处理，以得到对应的待检测音频指纹。

在一些示例实施例中，编码处理可以是采用一定的编码方式对待检测音频特征进行编码处理的过程。编码处理的目的是对待检测音频特征进行无损压缩，以减少待检测音频特征的数据量。

由于待检测音频特征通常具有较大的数据量，在本公开中，在人声密集的情况下，客户端每隔预设时间则需上传待检测音频特征至服务端，大数据量的传输耗时将会影响算法检测的实时效果，且信息传输将会对服务端造成极大的压力。因此，需要对提取出的待检测音频特征进行压缩编码，生成对应的待检测音频指纹，代替待检测音频特征在客户端与服务端之间传输。

步骤S440，对参考音频特征进行编码处理，以得到对应的参考音频指纹。

在一些示例实施例中，对参考音频特征进行编码处理同样是为了对待检测音频特征进行无损压缩，减少待检测音频特征的数据量。根据待检测音频特征与参考音频特征进行编码处理，得到待检测音频指纹与参考音频指纹，可以减少数据传输耗时，并减轻数据传输对服务端造成的压力。

步骤S450，将待检测音频指纹与参考音频指纹发送至服务端，以由服务端对待检测音频指纹与参考音频指纹进行解码处理，分别得到对应的待检测音频特征与参考音频特征；对待检测音频特征与参考音频特征进行相似度计算，得到音色相似度，以根据音色相似度确定待检测音频的检测结果。

在一些示例实施例中，将待检测音频指纹与参考音频指纹发送至服务端后，服务端在接收到待检测音频指纹与参考音频指纹后，可以对其进行解码处理，分别得到对应的待检测音频特征与参考音频特征。服务端通过对待检测音频特征与参考音频特征进行相似度计算，可以得到两者之间的音色相似度。将得到的音色相似度与相似度阈值进行对比，可以根据音色相似度确定待检测音频的检测结果，即确定待检测音频为真唱或假唱的检测结果。

在本示例实施方式所提供的假唱检测方法，获取待检测音频，并确定与待检测音频对应的参考音频；待检测音频基于实时获取的待检测实时音频得到；分别对待检测音频与参考音频进行音频特征提取，以得到对应的待检测音频特征与参考音频特征；对待检测音频特征进行编码处理，以得到对应的待检测音频指纹；对参考音频特征进行编码处理，以得到对应的参考音频指纹；将待检测音频指纹与参考音频指纹发送至服务端，以由服务端对待检测音频指纹与参考音频指纹进行解码处理，分别得到对应的待检测音频特征与参考音频特征；对待检测音频特征与参考音频特征进行相似度计算，得到音色相似度，以根据音色相似度确定待检测音频的检测结果。一方面，客户端将对音频特征进行编码处理后得到的音频指纹发送至服务端，由音频指纹进行数据传输，可以极大压缩客户端与服务端之间的传输数据量，以便于给出实时检测结果。另一方面，客户端通过提取音频特征以便服务端后续进行假唱检测，在检测过程中仅通过音频数据即可完成假唱检测。

在本公开的一个实施例中，获取待检测实时音频；确定音频截取时长，根据音频截取时长从待检测实时音频中确定待检测音频；获取与待检测音频对应的原始参考音频；确定待检测音频对应的目标位置，根据目标位置从原始参考音频中确定参考音频。

其中，音频截取时长可以是根据待检测实时音频截取待检测音频所采用的时长，记为t1。原始参考音频可以是音频数据库中存储的与待检测音频对应的完整音频。目标位置可以是待检测音频对应的位置，如待检测音频对应的歌词位置、时长定位位置等。

参考图5，图5示意性地示出了根据本公开的一些实施例的假唱检测的整体流程示意图。客户端可以是实时获取待检测实时音频511，在获取到待检测实时音频511之后，可以根据音频截取时长对待检测实时音频进行截取处理，得到对应的待检测音频521。在得到待检测音频之后，可以从音频数据库中确定与待检测音频对应的原始参考音频512，如待检测音频对应的原唱歌曲为原唱歌曲A，则可以从音频数据库中获取原唱歌曲A作为原始参考音频。

确定待检测音频的目标位置，由于歌词中不同元音的发声也属于音色的一部分，可能会对音色特征的提取产生影响，因此，客户端在确定参考音频的过程中，分别提取参考音频与待检测音频在歌曲同一歌词位置演唱或同一时间区间内的音频片段。例如，待检测音频对应的歌曲内容为整首歌曲的第30秒～第33秒，则目标位置对应的区间为[30s,33s]。又例如，待检测音频的目标位置对应的歌词为“我很快乐”，则在根据原始参考音频512确定参考音频时，可以在同样的歌词位置确定出参考音频522。

在本公开的一个实施例中，确定截取音频的第一候选起始点；根据第一候选起始点与音频截取时长进行音频截取操作，从待检测实时音频中确定待检测音频区间；确定待检测音频区间中包含的音符加和时长；如果音符加和时长大于等于音符时长阈值，则将待检测音频区间中包含的音频确定为待检测音频。

其中，第一候选起始点可以从待检测实时音频中确定待检测音频时所采用的候选起始点，记为starttime1。音频截取操作可以是一个音频中截取一部分音频片段的处理过程。待检测音频区间可以是基于第一候选起始点与音频截取时长对待检测实时音频进行音频截取操作所确定出的音频区间。音符加和时长可以是待检测音频区间中所包含的音符持续时间(duration)的时长总和。音符时长阈值可以是预先设定的时长数值，用于与音符加和时长进行对比。

在进行音频截取的时，为了保证假唱检测的实时性，对进行音频截取操作时所采用的音频截取时长不宜过长，例如，当待检测音频的音频长度为t_segment秒时，假唱检测的结果至少在t_segment+t_process时间后返回；其中，t_process可以是检测过程中数据传输所消耗的时间。另外，为了保证音色特征被识别出，待检测音频中人声占比需大于70％，时长可以在3秒以上。例如，可以将音频截取时长确定为3秒、4秒、5秒等，当音频截取时长为3秒时，音符时长阈值应为3*0.7。在确定待检测音频时，可以根据歌曲的MIDI信息进行筛选。音频截取操作的具体步骤如下：1)确定截取音频所采用的第一候选起始点，将starttime1作为待检测音频的第一候选起始点，则待检测音频区间为[starttime1,starttime1+t1]。2)计算[starttime1,starttime1+t1]区间内，所包含的音符加和时长。3)如果duration加和大于等于音符时长阈值时，可以认为该待检测音频区间内的音频数据有效，可以将截取出的音频作为待检测音频。

在本公开的一个实施例中，如果音频加和时长小于音符时长阈值，则根据第一候选起始点与音频截取时长确定第二候选起始点；根据第二候选起始点与音频截取时长重新进行音频截取操作，直至确定出待检测音频。

其中，第二候选起始点可以是经音频截取操作截取的音频数据无效后，基于待检测实时音频重新确定的候选起始点，记为starttime2。

如果duration加和小于音符时长阈值时，可以认为该待检测音频区间内的音频数据无效，可以重新执行音频截取操作。此时，可以将经过上一次音频截取操作后的下一个音符的起始时间作为第二候选起始点，即根据第一候选起始点与音频截取时长确定第二候选起始点，重复音频截取操作，直至确定出待检测音频。

在本公开的一个实施例中，确定音频采样频率以及音频提取窗函数；根据音频采样频率与音频提取窗函数分别对待检测音频与参考音频进行频谱计算，以得到对应的待检测音频频谱与参考音频频谱；获取预先配置的频带值，采用频带值并通过音频滤波器对待检测音频频谱进行处理，得到待检测梅尔谱；采用频带值并通过音频滤波器对参考音频频谱进行处理，得到参考梅尔谱。

其中，音频采样频率可以是对音频进行采样时所采用的采样率。窗函数可以是为了减少频谱能量泄漏，对信号进行截断所采用的不同的截取函数，简称为窗。音频提取窗函数可以是对音频进行提取时所采用的窗函数。频谱是频率谱密度的简称，是频率的分布曲线。待检测音频频谱可以是待检测音频对应的频谱。参考音频频谱可以是参考音频对应的频谱。频带，即带宽，指信号所占据的频带宽度。频带值可以是频带数值。音频滤波器可以是非线性分布的滤波器。

在确定出待检测音频与参考音频之后，可以通过下述步骤提取待检测音频与参考音频分别对应的待检测梅尔谱与参考梅尔谱。以确定待检测梅尔谱的过程为例进行说明：确定音频采样频率与音频提取窗函数，举例而言，音频采样频率可以是22050Hz，音频提取窗函数可以是具有50％重叠的1024个采样点的汉宁(Hanning)窗。以22050Hz的音频采样频率读入待检测音频，并具有50％重叠的1024个采样点的Hanning窗计算待检测音频对应的待检测音频频谱。获取预先配置的频带值，例如，频带值可以确定为128，音频滤波器可以是梅尔谱(mel)滤波器。通过mel滤波器，取频带数为128，并对幅度进行对数压缩，可以得到待检测音频对应的待检测梅尔谱。

同样的，根据确定参考音频对应的参考梅尔谱的过程与确定待检测梅尔谱的过程相同，本公开对此不作任何特殊限定。

在本公开的一个实施例中，将待检测梅尔谱进行数据展开处理，生成对应的初始待检测特征数组；初始待检测特征数组包含第一数据格式的数据；对初始待检测特征数组的数据由第一数据格式转换为第二数据格式，得到中间待检测特征数组；对中间待检测特征数组进行编码处理，以得到待检测音频指纹。

其中，数据展开处理可以是按照约定的数据展开规则将梅尔谱进行展开处理，以得到初始特征数组的处理过程。数据格式可以是特征数组中数据的具体格式，例如，数据格式可以包括浮点型、字符型、整型等。第一数据格式可以是区别于第二数据格式的其他数据格式。

由于待检测梅尔谱为二维数组的格式，将待检测梅尔谱进行数据展开处理，可以生成待检测音频对应的初始待检测特征数组。例如，初始待检测特征数组中数据的数据格式可以是浮点型。中间待检测特征数据中数据的数据格式可以是字符型。

举例而言，原始梅尔谱形式为公式3中的二维矩阵：

将待检测梅尔谱(即二维梅尔谱)按约定顺序展开为一维数组，例如，将待检测梅尔谱进行逐行展开，得到初始待检测特征数组，初始待检测特征数组中的数据格式可以是浮点型，即，第一数据格式为浮点型，展开后得到的初始待检测特征数组为：[1.12345678,2,3,4,5,6,7,8,9]。

在得到初始待检测特征数组，将初始待检测特征数组中的数据由第一数据格式转换为第二数据格式，例如，可以将初始待检测特征数组中的数据由浮点型转换为字符串，具体，可以将初始待检测特征数组中的浮点数转换为保留5位有效数字的字符串，转换后得到中间待检测特征数组，具体为：['1.1234','2.0000','3.0000','4.0000','5.0000','6.0000','7.0000','8.0000','9.0000']。

在得到中间待检测特征数组后，可以对中间待检测特征数组进行编码处理，例如，可以对其进行base64编码，举例而言，表1中示出了对浮点数进行转换的部分转换规则。将每一个编码后的字符串拼接在一起，即可得到拼接后的字符串MS4xMjM0CiA＝Mi4wMDAwMy4wMDAw……，即待检测音频指纹。

表1

对中间检测特征数据进行编码处理，可以减少计算数据量，并实现快速实时地压缩数据；压缩率高，压缩后得到的音频指纹数据量更小，更适用于数据传输；另外，所进行的编码处理为无损压缩，服务端在接收到音频指纹后，可以无损的将音频指纹复原为音频的梅尔谱，进行后续相似度计算。

在本公开的一个实施例中，将参考梅尔谱进行数据展开处理，生成对应的初始参考特征数组；初始参考特征数组包含第一数据格式的数据；对初始参考特征数组的数据由第一数据格式转换为第二数据格式，得到中间参考特征数组；对中间参考特征数组进行编码处理，以得到参考音频指纹。

在确定出参考梅尔谱后，可以根据确定待检测梅尔谱对应的待检测音频指纹的方式确定出对应的参考音频指纹。本公开对此不再进行赘述。

继续参考图5，客户端在根据待检测梅尔谱531与参考梅尔谱532分别生成待检测音频指纹541与参考音频指纹542后，可以将待检测音频指纹541与参考音频指纹542发送至服务端，服务端接收到待检测音频指纹541与参考音频指纹542，可以对其进行解码处理，还原为待检测梅尔谱531与参考梅尔谱532。在步骤S510中，将待检测梅尔谱531与参考梅尔谱532输入音频特征提取模型中，进行模型计算，提取出对应待检测特征向量与参考特征向量。在步骤S520中，根据待检测特征向量与参考特征向量进行相似度计算，得到待检测音频与参考音频之间的音色相似度。在步骤S530中，将计算出的音色相似度与相似度阈值进行对比，确定对比结果。在步骤S540中，根据对比结果确定待检测音频的检测结果，判断待检测音频是否为假唱音频。

本领域技术人员容易理解的是，客户端在对待检测音频特征与参考音频特征进行编码处理的过程中，还可以采用其他编码方式，如美国信息交换标准代码(AmericanStandard Code for Information Interchange，ASCII)码、拓展ASCII编码、针对Unicode的可变长度字符编码-8位元(Universal Character Set/Unicode TransformationFormat，UTF-8编码)、Unicode符号集等编码方式。本公开对此不作任何特殊限定。另外，对于特征数组中数据的具体格式不作任何特殊限定。

示例性装置

在介绍了本公开示例性实施方式的方法之后，接下来，参考图6对本公开示例性实施例设置于服务端的假唱检测装置进行说明。

在图6中，假唱检测装置600可以包括待检测特征确定模块610、参考特征确定模块620、相似度确定模块630以及检测结果确定模块640。其中：待检测特征确定模块610，用于确定待检测音频对应的待检测音频特征；待检测音频特征通过对待检测音频指纹进行解码处理得到，待检测音频指纹是由客户端对待检测音频进行音频特征提取与编码处理所得到的；参考特征确定模块620，用于确定待检测音频对应的参考音频的参考音频特征；参考音频特征通过对参考音频指纹进行解码处理得到，参考音频指纹是由客户端对参考音频进行音频特征提取与编码处理所得到的；相似度确定模块630，用于对待检测音频特征与参考音频特征进行相似度计算，以得到音色相似度；检测结果确定模块640，用于将音色相似度与相似度阈值进行对比，根据对比结果确定待检测音频的检测结果。

参考图7，本公开还提供了另一种假唱检测装置700，应用于客户端，包括：音频获取模块710、音频特征提取模块720、第一指纹确定模块730、第二指纹确定模块740以及音频检测模块750；其中：

音频获取模块710，用于获取待检测音频，并确定与待检测音频对应的参考音频；待检测音频基于实时获取的待检测实时音频得到；音频特征提取模块720，用于分别对待检测音频与参考音频进行音频特征提取，以得到对应的待检测音频特征与参考音频特征；第一指纹确定模块730，用于对待检测音频特征进行编码处理，以得到对应的待检测音频指纹；第二指纹确定模块740，用于对参考音频特征进行编码处理，以得到对应的参考音频指纹；音频检测模块750，用于将待检测音频指纹与参考音频指纹发送至服务端，以由服务端对待检测音频指纹与参考音频指纹进行解码处理，分别得到对应的待检测音频特征与参考音频特征；对待检测音频特征与参考音频特征进行相似度计算，得到音色相似度，以根据音色相似度确定待检测音频的检测结果。

由于本公开的示例实施例的假唱检测装置的各个功能模块与上述假唱检测方法的示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的假唱检测方法的实施例，此处不再赘述。

应当注意，尽管在上文详细描述中提及了假唱检测装置的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开实施例的一个方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的假唱检测方法。

示例性介质

在介绍了本公开示例性实施方式的装置之后，接下来，参考图8对本公开示例性实施例的存储介质进行说明。

在一些实施例中，本公开的各个方面还可以实现为一种介质，其上存储有程序代码，当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的假唱检测方法中的步骤。

例如，所述设备的处理器执行所述程序代码时可以实现如图2中所述的步骤S210，确定待检测音频对应的待检测音频特征；待检测音频特征通过对待检测音频指纹进行解码处理得到，待检测音频指纹是由客户端对待检测音频进行音频特征提取与编码处理所得到的；步骤S220，确定待检测音频对应的参考音频的参考音频特征；参考音频特征通过对参考音频指纹进行解码处理得到，参考音频指纹是由客户端对参考音频进行音频特征提取与编码处理所得到的；步骤S230，对待检测音频特征与参考音频特征进行相似度计算，以得到音色相似度；以及步骤S240，将音色相似度与相似度阈值进行对比，根据对比结果确定待检测音频的检测结果。

所述设备的处理器执行所述程序代码时还可以实现如图4中所述的步骤S410，获取待检测音频，并确定与待检测音频对应的参考音频；待检测音频基于实时获取的待检测实时音频得到；步骤S420，分别对待检测音频与参考音频进行音频特征提取，以得到对应的待检测音频特征与参考音频特征；步骤S430，对待检测音频特征进行编码处理，以得到对应的待检测音频指纹；步骤S440，对参考音频特征进行编码处理，以得到对应的参考音频指纹以及步骤S450，将待检测音频指纹与参考音频指纹发送至服务端，以由服务端对待检测音频指纹与参考音频指纹进行解码处理，分别得到对应的待检测音频特征与参考音频特征；对待检测音频特征与参考音频特征进行相似度计算，得到音色相似度，以根据音色相似度确定待检测音频的检测结果。

参考图8所示，描述了根据本公开的实施例的用于实现上述假唱检测方法或者实现上述假唱检测方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备。

示例性计算设备

在介绍了本公开示例性实施方式的假唱检测方法、假唱检测装置以及存储介质之后，接下来，参考图9对本公开示例性实施方式的电子设备进行说明。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施例、完全的软件实施例(包括固件、微代码等)，或硬件和软件方面结合的实施例，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施例中，根据本公开的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的假唱检测方法中的步骤。例如，所述处理单元可以执行如图2中所示的步骤S210，独权步骤。所述处理单元还可以执行如图2中所示的步骤S210，确定待检测音频对应的待检测音频特征；待检测音频特征通过对待检测音频指纹进行解码处理得到，待检测音频指纹是由客户端对待检测音频进行音频特征提取与编码处理所得到的；步骤S220，确定待检测音频对应的参考音频的参考音频特征；参考音频特征通过对参考音频指纹进行解码处理得到，参考音频指纹是由客户端对参考音频进行音频特征提取与编码处理所得到的；步骤S230，对待检测音频特征与参考音频特征进行相似度计算，以得到音色相似度；以及步骤S240，将音色相似度与相似度阈值进行对比，根据对比结果确定待检测音频的检测结果。

下面参照图9来描述根据本公开的示例实施例的电子设备900。图9所示的电子设备900仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于：上述至少一个处理单元901、上述至少一个存储单元902、连接不同系统组件(包括存储单元902和处理单元901)的总线903、显示单元907。

总线903表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元902可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)921和/或高速缓存存储器922，还可以进一步包括只读存储器(ROM)923。

存储单元902还可以包括具有一组(至少一个)程序模块924的程序/实用工具925，这样的程序模块924包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备900也可以与一个或多个外部设备904(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与电子设备900交互的设备通信，和/或与使得电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口905进行。并且，电子设备900还可以通过网络适配器906与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器906通过总线903与电子设备900的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了假唱检测装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种假唱检测方法，其特征在于，应用于服务端，包括：

确定待检测音频对应的待检测音频特征；所述待检测音频特征通过对待检测音频指纹进行解码处理得到；

确定所述待检测音频对应的参考音频的参考音频特征；所述参考音频特征通过对参考音频指纹进行解码处理得到；

对所述待检测音频特征与所述参考音频特征进行相似度计算，以得到音色相似度；

将所述音色相似度与相似度阈值进行对比，根据对比结果确定所述待检测音频的检测结果；其中，所述待检测音频指纹与所述参考音频指纹是由客户端分别对所述待检测音频与所述参考音频进行音频特征提取与编码处理所得到的。

2.根据权利要求1所述的方法，其特征在于，所述待检测音频特征包括待检测梅尔谱，所述参考音频特征包括参考梅尔谱；

所述对所述待检测音频特征与所述参考音频特征进行相似度计算，以得到音色相似度，包括：

获取预先构建的音频特征提取模型；所述音频特征提取模型基于包含多个表演者标签的测试音频训练得到；

将所述待检测梅尔谱与所述参考梅尔谱输入至所述音频特征提取模型，以分别得到对应的待检测特征向量与参考特征向量；

计算所述待检测特征向量与所述参考特征向量之间的向量距离，以得到所述音色相似度。

3.根据权利要求2所述的方法，其特征在于，所述音频特征提取模型包括多个第一卷积层、与各所述第一卷积层对应的池化层以及第二卷积层；

所述将所述待检测梅尔谱与所述参考梅尔谱输入至所述音频特征提取模型，以分别得到对应的待检测特征向量与参考特征向量，包括：

由各所述第一卷积层与各所述池化层对所述待检测梅尔谱进行特征提取，得到初始待检测特征；

由所述第二卷积层对所述初始待检测特征进行卷积处理，得到所述待检测特征向量；

由各所述第一卷积层与各所述池化层对所述参考梅尔谱进行特征提取，得到初始参考特征；

由所述第二卷积层对所述初始参考特征进行卷积处理，得到所述参考特征向量。

4.一种假唱检测方法，其特征在于，应用于客户端，包括：

获取待检测音频，并确定与所述待检测音频对应的参考音频；所述待检测音频基于实时获取的待检测实时音频得到；

分别对所述待检测音频与所述参考音频进行音频特征提取，以得到对应的待检测音频特征与参考音频特征；

对所述待检测音频特征进行编码处理，以得到对应的待检测音频指纹；

对所述参考音频特征进行编码处理，以得到对应的参考音频指纹；

将所述待检测音频指纹与所述参考音频指纹发送至服务端，以由服务端对所述待检测音频指纹与所述参考音频指纹进行解码处理，分别得到对应的所述待检测音频特征与所述参考音频特征；对所述待检测音频特征与所述参考音频特征进行相似度计算，得到音色相似度，以根据所述音色相似度确定所述待检测音频的检测结果。

5.根据权利要求4所述的方法，其特征在于，所述待检测音频特征包括待检测梅尔谱，所述参考音频特征包括参考梅尔谱；

所述分别对所述待检测音频与所述参考音频进行音频特征提取，以得到对应的待检测音频特征与参考音频特征，包括：

确定音频采样频率以及音频提取窗函数；

根据所述音频采样频率与所述音频提取窗函数分别对所述待检测音频与所述参考音频进行频谱计算，以得到对应的待检测音频频谱与参考音频频谱；

获取预先配置的频带值，采用所述频带值并通过音频滤波器对所述待检测音频频谱进行处理，得到所述待检测梅尔谱；

采用所述频带值并通过所述音频滤波器对所述参考音频频谱进行处理，得到所述参考梅尔谱。

6.根据权利要求5所述的方法，其特征在于，所述对所述待检测音频特征进行编码处理，以得到对应的待检测音频指纹，包括：

将所述待检测梅尔谱进行数据展开处理，生成对应的初始待检测特征数组；所述初始待检测特征数组包含第一数据格式的数据；

对所述初始待检测特征数组的数据由所述第一数据格式转换为第二数据格式，得到中间待检测特征数组；

对所述中间待检测特征数组进行编码处理，以得到所述待检测音频指纹。

7.一种假唱检测装置，其特征在于，应用于服务端，包括：

待检测特征确定模块，用于确定待检测音频对应的待检测音频特征；所述待检测音频特征通过对待检测音频指纹进行解码处理得到；

参考特征确定模块，用于确定所述待检测音频对应的参考音频的参考音频特征；所述参考音频特征通过对参考音频指纹进行解码处理得到；

相似度确定模块，用于对所述待检测音频特征与所述参考音频特征进行相似度计算，以得到音色相似度；

检测结果确定模块，用于将所述音色相似度与相似度阈值进行对比，根据对比结果确定所述待检测音频的检测结果；其中，所述待检测音频指纹与所述参考音频指纹是由客户端分别对所述待检测音频与所述参考音频进行音频特征提取与编码处理所得到的。

8.一种假唱检测装置，其特征在于，应用于客户端，包括：

音频获取模块，用于获取待检测音频，并确定与所述待检测音频对应的参考音频；所述待检测音频基于实时获取的待检测实时音频得到；

音频特征提取模块，用于分别对所述待检测音频与所述参考音频进行音频特征提取，以得到对应的待检测音频特征与参考音频特征；

第一指纹确定模块，用于对所述待检测音频特征进行编码处理，以得到对应的待检测音频指纹；

第二指纹确定模块，用于对所述参考音频特征进行编码处理，以得到对应的参考音频指纹；

音频检测模块，用于将所述待检测音频指纹与所述参考音频指纹发送至服务端，以由服务端对所述待检测音频指纹与所述参考音频指纹进行解码处理，分别得到对应的所述待检测音频特征与所述参考音频特征；对所述待检测音频特征与所述参考音频特征进行相似度计算，得到音色相似度，以根据所述音色相似度确定所述待检测音频的检测结果。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至6中任意一项所述的假唱检测方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述的假唱检测方法。