CN117392986A

CN117392986A - 声纹处理方法、装置、设备、存储介质和程序产品

Info

Publication number: CN117392986A
Application number: CN202311690367.6A
Authority: CN
Inventors: 金强; 李宜烜; 陈锦海; 刘华平; 李鹏; 赵翔宇
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-01-12
Anticipated expiration: 2043-12-11
Also published as: CN117392986B

Abstract

本申请提供一种声纹处理方法、装置、设备、存储介质和程序产品，包括：获取目标歌手的目标歌曲；对目标歌曲进行特征提取，得到第一声学特征；将第一声学特征输入至歌手声纹提取模型，以通过歌手声纹提取模型对第一声学特征进行特征提取，得到多个第一特征向量，对多个第一特征向量进行人声检测，确定多个第一特征向量中目标歌曲中人声部分对应的多个第一人声向量，对多个第一人声向量进行处理，得到目标歌手的第一声纹信息；其中，歌手声纹提取模型是基于歌曲数据训练得到。以提高确定歌手声纹的准确性，降低确定歌手声纹的成本。

Description

声纹处理方法、装置、设备、存储介质和程序产品

技术领域

本申请实施例涉及音频检索技术领域，尤其涉及一种声纹处理方法、装置、设备、存储介质和程序产品。

背景技术

目前的声纹识别技术在训练和实际应用时，使用的声音数据一般是说话人平常说话的声音数据。

然而，由于歌手平常说话的声音数据是较难获取的，因此，使用歌手平常说话的声音数据来确定歌手的声纹是具有较高成本的。对于音乐作品中歌手的声音数据，由于音乐作品中伴有大量的伴奏和音效等背景音乐声，而歌手平常说话的声音数据中除了人声部分之外只有较少的杂音，因此，音乐作品中歌手的声音数据会因为受到背景音乐声的影响，从而与歌手平常说话的声音数据具有较大差异。若直接使用目前的声纹识别技术对音乐作品中歌手的声音数据进行处理，来确定歌手的声纹，那么会导致确定的歌手声纹不准确的问题。

发明内容

本申请提供一种声纹处理方法、装置、设备、存储介质和程序产品，以提高确定歌手声纹的准确性，降低确定歌手声纹的成本。

第一方面，本申请提供一种声纹处理方法，该方法包括：获取目标歌手的目标歌曲；对目标歌曲进行特征提取，得到第一声学特征；将第一声学特征输入至歌手声纹提取模型，以通过歌手声纹提取模型对第一声学特征进行特征提取，得到多个第一特征向量，对多个第一特征向量进行人声检测，确定多个第一特征向量中目标歌曲中人声部分对应的多个第一人声向量，对多个第一人声向量进行处理，得到目标歌手的第一声纹信息；其中，歌手声纹提取模型是基于歌曲数据训练得到。

可选的，上述对多个第一人声向量进行处理，得到目标歌手的第一声纹信息，包括：对多个第一人声向量进行分组，得到至少一个人声向量组；针对至少一个人声向量组中的任一人声向量组，计算人声向量组的均值，得到均值向量；根据多个均值向量，确定第一声纹信息。

可选的，上述根据多个均值向量，确定第一声纹信息，包括：计算人声向量组的标准差，得到标准差向量；对均值向量和标准差向量进行拼接，得到第一声纹向量；对多个第一声纹向量进行组合，得到第一声纹信息。

可选的，歌手声纹提取模型是通过以下步骤训练得到的：获取多个样本歌手各自独唱的多首样本歌曲；针对多个样本歌手中的任一目标样本歌手，确定目标样本歌手的多首样本歌曲各自的第二声学特征、歌词文本信息以及实际歌手标识；针对多首样本歌曲中的任一目标样本歌曲，根据目标样本歌曲的歌词文本信息确定目标样本歌曲中的人声部分对应的时间段，根据人声部分对应的时间段，确定目标样本歌曲中人声部分对应的第一时间帧和非人声部分对应的第二时间帧，确定第一时间帧对应的数值为1，确定第二时间帧对应的数值为0，按照第一时间帧和第二时间帧在目标样本歌曲中由先至后的顺序，对第一时间帧对应的数值和第二时间帧对应的数值进行组合，得到目标样本歌曲对应的实际人声向量，其中，目标样本歌曲中时间帧的数量和目标样本歌曲对应的实际人声向量的维数一致；将目标样本歌曲的第二声学特征输入至歌手声纹提取模型，得到目标样本歌曲对应的预测人声向量和预测声纹信息；根据目标样本歌曲对应的实际人声向量和目标样本歌曲对应的预测人声向量，确定第一损失；将目标样本歌曲的预测声纹信息输入歌手分类模型，确定目标样本歌曲对应的预测歌手标识；根据目标样本歌曲对应的实际歌手标识和目标样本歌曲对应的预测歌手标识，确定第二损失；计算第一损失和第二损失之和，得到第三损失；根据第三损失训练歌手声纹提取模型。

可选的，上述方法还包括：获取曲库中多个已有歌手各自的多首已有歌曲；针对多个已有歌手中的任一目标已有歌手，对目标已有歌手的多首已有歌曲分别进行特征提取，得多个第三声学特征；针对多个第三声学特征中的任一目标第三声学特征，将目标第三声学特征输入至歌手声纹提取模型，得到多个第二特征向量和多个第二特征向量中的多个第二人声向量；计算多个第二特征向量中多个第二人声向量的第一数量占比；判断第一数量占比是否小于第一占比阈值；响应于第一数量大于或者等于第一占比阈值，根据歌手声纹提取模型对多个第二人声向量进行处理，得到第二声纹信息；根据目标已有歌手的多个第二声纹信息，确定目标已有歌手的声纹信息集合。

可选的，上述多个第二声纹信息分别包括多个第二声纹向量；上述根据目标已有歌手的多个第二声纹信息，确定目标已有歌手的声纹信息集合，包括：针对目标已有歌手的多个第二声纹信息中的任一目标第二声纹信息，从目标第二声纹信息中的多个第二声纹向量中确定目标声纹向量；计算多个第二声纹向量中每个第二声纹向量分别与目标声纹向量的第一距离；确定多个第二声纹向量中第一距离小于第一距离阈值的第二声纹向量的第二数量占比；响应于第二数量占比大于第二占比阈值，将目标声纹向量添加至目标已有歌手的声纹信息集合。

可选的，上述目标声纹向量为多个第二声纹向量的聚类中心。

可选的，上述方法还包括：确定多个已有歌手中除目标已有歌手之外的至少一个其他已有歌手的声纹信息集合分别与目标已有歌手的声纹信息集合的第一相似度；从至少一个其他已有歌手的声纹信息集合中，确定大于第一相似度阈值的第一相似度对应的至少一个第一声纹信息集合；对至少一个第一声纹信息集合和目标已有歌手的声纹信息集合进行处理，确定目标已有歌手的更新声纹信息集合。

可选的，目标已有歌手的声纹信息集合包括多个第三声纹向量，至少一个其他已有歌手的声纹信息集合分别包括多个第四声纹向量；上述确定多个已有歌手中除目标已有歌手之外的至少一个其他已有歌手的声纹信息集合分别与目标已有歌手的声纹信息集合的第一相似度，包括：

针对多个第三声纹向量中的任一目标第三声纹向量，计算目标第三声纹向量与至少一个其他已有歌手的声纹信息集合各自对应的多个第四声纹向量中每个第四声纹向量的距离，得到至少一个其他已有歌手各自对应的多个第二距离；

针对至少一个其他已有歌手中的任一目标其他已有歌手对应的多个第二距离，确定目标已有歌手对应的多个第二距离中小于第二距离阈值的第二距离的第三数量占比，将第三数量占比确定为目标其他已有歌手对应的第一相似度。

可选的，上述对至少一个第一声纹信息集合和目标已有歌手的声纹信息集合进行处理，确定目标已有歌手的更新声纹信息集合，包括：确定至少一个第一声纹信息集合和目标已有歌手的声纹信息集合分别对应的歌手名称；针对至少一个第一声纹信息集合中的任一目标第一声纹信息集合，获取目标第一声纹信息集合的第一审核结果，第一审核结果是基于目标第一声纹信息集合对应的歌手名称确定的；响应于第一审核结果为目标第一声纹信息集合对应的歌手名称与目标已有歌手的歌手名称相同，对目标第一声纹信息集合与目标已有歌手的声纹信息集合进行合并处理，得到目标已有歌手的更新声纹信息集合；或者，响应于第一审核结果为目标第一声纹信息集合对应的歌手名称与目标已有歌手的歌手名称不同，将目标已有歌手的声纹信息集合确定为目标已有歌手的更新声纹信息集合。

可选的，上述方法，还包括：获取待入库歌手的待入库歌曲和待入库歌手名称；将待入库歌曲输入歌手声纹提取模型，得到第三人声向量；响应于第三人声向量为空值，根据待入库歌手名称将待入库歌曲存入曲库；或者，响应于第三人声向量不为空值，根据第三人声向量确定是否将待入库歌曲存入曲库。

可选的，上述根据第三人声向量确定是否将待入库歌曲存入曲库，包括：根据歌手声纹提取模型对第三人声向量进行处理，得到第三声纹信息；将待入库歌手名称与曲库中的全部已有歌手名称进行匹配，确定至少一个候选歌手名称；计算至少一个候选歌手名称各自对应的第三声纹信息集合分别与第三声纹信息的距离，得到至少一个第三距离；根据至少一个第三距离确定是否将待入库歌曲存入曲库。

可选的，上述将待入库歌手名称与曲库中的全部已有歌手名称进行匹配，确定至少一个候选歌手名称，包括：计算全部已有歌手名称分别与待入库歌手名称的第二相似度；判断全部已有歌手名称中是否包括第二相似度大于第二相似度阈值的第一已有歌手名称；响应于全部已有歌手名称中包括第一已有歌手名称，将第一已有歌手名称确定为至少一个候选歌手名称；或者，响应于全部已有歌手名称中不包括第一已有歌手名称，将全部已有歌手名称确定为至少一个候选歌手名称。

可选的，上述将待入库歌手名称与曲库中的全部已有歌手名称进行匹配，确定至少一个候选歌手名称，包括：确定待入库歌手的除待入库歌手名称之外的其他名称、与待入库歌手合作的合作歌手的合作歌手名称；判断全部已有歌手名称是否包括其他名称或者合作歌手名称；响应于全部已有歌手名称包括其他名称或者合作歌手名称，将其他名称和/或合作歌手名称确定为至少一个候选歌手名称；或者，响应于全部已有歌手名称中不包括其他名称和合作歌手名称，将全部已有歌手名称确定为至少一个候选歌手名称。

可选的，上述根据至少一个第三距离确定是否将待入库歌曲存入曲库，包括：判断至少一个第三距离中最小的第三距离是否小于第三距离阈值；响应于最小的第三距离小于第三距离阈值，计算最小的第三距离对应的候选歌手名称与待入库歌手名称的第三相似度，根据第三相似度确定是否将待入库歌曲存入曲库；或者，响应于最小的第三距离大于或者等于第三距离阈值，确定按照由小至大的顺序排列的至少一个第三距离中前第一数量个第三距离对应的候选歌手名称，根据第二审核结果确定是否将待入库歌曲存入曲库，第二审核结果是基于前第一数量个第三距离对应的候选歌手名称与待入库歌手名称所确定的。

可选的，上述根据第三相似度确定是否将待入库歌曲存入曲库，包括：判断第三相似度是否大于第三相似度阈值；响应于第三相似度大于第三相似度阈值，将待入库歌曲存入曲库；或者，响应于第三相似度小于或者等于第三相似度阈值，根据第三审核结果确定是否将待入库歌曲存入曲库，第三审核结果是基于最小的第三距离对应的候选歌手名称与待入库歌手名称所确定的。

第二方面，本申请提供一种声纹处理装置，声纹处理装置包括：收发模块、处理模块，其中，收发模块，用于：获取目标歌手的目标歌曲；处理模块，用于：对目标歌曲进行特征提取，得到第一声学特征；将第一声学特征输入至歌手声纹提取模型，以通过歌手声纹提取模型对第一声学特征进行特征提取，得到多个第一特征向量，对多个第一特征向量进行人声检测，确定多个第一特征向量中目标歌曲中人声部分对应的多个第一人声向量，对多个第一人声向量进行处理，得到目标歌手的第一声纹信息；其中，歌手声纹提取模型是基于歌曲数据训练得到。

可选的，处理模块，具体用于：对多个第一人声向量进行分组，得到至少一个人声向量组；针对至少一个人声向量组中的任一人声向量组，计算人声向量组的均值，得到均值向量；根据多个均值向量，确定第一声纹信息。

可选的，处理模块，具体用于：计算人声向量组的标准差，得到标准差向量；对均值向量和标准差向量进行拼接，得到第一声纹向量；对多个第一声纹向量进行组合，得到第一声纹信息。

可选的，收发模块，还用于：获取曲库中多个已有歌手各自的多首已有歌曲；处理模块，还用于：针对多个已有歌手中的任一目标已有歌手，对目标已有歌手的多首已有歌曲分别进行特征提取，得多个第三声学特征；针对多个第三声学特征中的任一目标第三声学特征，将目标第三声学特征输入至歌手声纹提取模型，得到多个第二特征向量和多个第二特征向量中的多个第二人声向量；计算多个第二特征向量中多个第二人声向量的第一数量占比；判断第一数量占比是否小于第一占比阈值；响应于第一数量大于或者等于第一占比阈值，根据歌手声纹提取模型对多个第二人声向量进行处理，得到第二声纹信息；根据目标已有歌手的多个第二声纹信息，确定目标已有歌手的声纹信息集合。

可选的，多个第二声纹信息分别包括多个第二声纹向量；处理模块，具体用于：针对目标已有歌手的多个第二声纹信息中的任一目标第二声纹信息，从目标第二声纹信息中的多个第二声纹向量中确定目标声纹向量；计算多个第二声纹向量中每个第二声纹向量分别与目标声纹向量的第一距离；确定多个第二声纹向量中第一距离小于第一距离阈值的第二声纹向量的第二数量占比；响应于第二数量占比大于第二占比阈值，将目标声纹向量添加至目标已有歌手的声纹信息集合。

可选的，处理模块，还用于：确定多个已有歌手中除目标已有歌手之外的至少一个其他已有歌手的声纹信息集合分别与目标已有歌手的声纹信息集合的第一相似度；从至少一个其他已有歌手的声纹信息集合中，确定大于第一相似度阈值的第一相似度对应的至少一个第一声纹信息集合；对至少一个第一声纹信息集合和目标已有歌手的声纹信息集合进行处理，确定目标已有歌手的更新声纹信息集合。

可选的，目标已有歌手的声纹信息集合包括多个第三声纹向量，至少一个其他已有歌手的声纹信息集合分别包括多个第四声纹向量；处理模块，具体用于：针对多个第三声纹向量中的任一目标第三声纹向量，计算目标第三声纹向量与至少一个其他已有歌手的声纹信息集合各自对应的多个第四声纹向量中每个第四声纹向量的距离，得到至少一个其他已有歌手各自对应的多个第二距离；针对至少一个其他已有歌手中的任一目标其他已有歌手对应的多个第二距离，确定目标已有歌手对应的多个第二距离中小于第二距离阈值的第二距离的第三数量占比，将第三数量占比确定为目标其他已有歌手对应的第一相似度。

可选的，处理模块，具体用于：确定至少一个第一声纹信息集合和目标已有歌手的声纹信息集合分别对应的歌手名称；针对至少一个第一声纹信息集合中的任一目标第一声纹信息集合，获取目标第一声纹信息集合的第一审核结果，第一审核结果是基于目标第一声纹信息集合对应的歌手名称确定的；响应于第一审核结果为目标第一声纹信息集合对应的歌手名称与目标已有歌手的歌手名称相同，对目标第一声纹信息集合与目标已有歌手的声纹信息集合进行合并处理，得到目标已有歌手的更新声纹信息集合；或者，响应于第一审核结果为目标第一声纹信息集合对应的歌手名称与目标已有歌手的歌手名称不同，将目标已有歌手的声纹信息集合确定为目标已有歌手的更新声纹信息集合。

可选的，收发模块，还用于：获取待入库歌手的待入库歌曲和待入库歌手名称；处理模块，还用于：将待入库歌曲输入歌手声纹提取模型，得到第三人声向量；响应于第三人声向量为空值，根据待入库歌手名称将待入库歌曲存入曲库；或者，响应于第三人声向量不为空值，根据第三人声向量确定是否将待入库歌曲存入曲库。

可选的，处理模块，具体用于：根据歌手声纹提取模型对第三人声向量进行处理，得到第三声纹信息；将待入库歌手名称与曲库中的全部已有歌手名称进行匹配，确定至少一个候选歌手名称；计算至少一个候选歌手名称各自对应的第三声纹信息集合分别与第三声纹信息的距离，得到至少一个第三距离；根据至少一个第三距离确定是否将待入库歌曲存入曲库。

可选的，处理模块，具体用于：计算全部已有歌手名称分别与待入库歌手名称的第二相似度；判断全部已有歌手名称中是否包括第二相似度大于第二相似度阈值的第一已有歌手名称；响应于全部已有歌手名称中包括第一已有歌手名称，将第一已有歌手名称确定为至少一个候选歌手名称；或者，响应于全部已有歌手名称中不包括第一已有歌手名称，将全部已有歌手名称确定为至少一个候选歌手名称。

可选的，处理模块，具体用于：确定待入库歌手的除待入库歌手名称之外的其他名称、与待入库歌手合作的合作歌手的合作歌手名称；判断全部已有歌手名称是否包括其他名称或者合作歌手名称；响应于全部已有歌手名称包括其他名称或者合作歌手名称，将其他名称和/或合作歌手名称确定为至少一个候选歌手名称；或者，响应于全部已有歌手名称中不包括其他名称和合作歌手名称，将全部已有歌手名称确定为至少一个候选歌手名称。

可选的，处理模块，具体用于：判断至少一个第三距离中最小的第三距离是否小于第三距离阈值；响应于最小的第三距离小于第三距离阈值，计算最小的第三距离对应的候选歌手名称与待入库歌手名称的第三相似度，根据第三相似度确定是否将待入库歌曲存入曲库；或者，响应于最小的第三距离大于或者等于第三距离阈值，确定按照由小至大的顺序排列的至少一个第三距离中前第一数量个第三距离对应的候选歌手名称，根据第二审核结果确定是否将待入库歌曲存入曲库，第二审核结果是基于前第一数量个第三距离对应的候选歌手名称与待入库歌手名称所确定的。

可选的，处理模块，具体用于：判断第三相似度是否大于第三相似度阈值；响应于第三相似度大于第三相似度阈值，将待入库歌曲存入曲库；或者，响应于第三相似度小于或者等于第三相似度阈值，根据第三审核结果确定是否将待入库歌曲存入曲库，第三审核结果是基于最小的第三距离对应的候选歌手名称与待入库歌手名称所确定的。

第三方面，本申请提供一种电子设备，包括：处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，执行如第一方面或其各实现方式中的方法。

第四方面，本申请提供一种计算机可读存储介质，用于存储计算机程序，计算机程序使得计算机执行如第一方面或其各实现方式中的方法。

第五方面，本申请提供一种计算机程序产品，包括计算机程序指令，该计算机程序指令使得计算机执行如第一方面或其各实现方式中的方法。

第六方面，本申请提供一种计算机程序，计算机程序使得计算机执行如第一方面或其各实现方式中的方法。

通过本申请技术方案，电子设备可以获取目标歌手的目标歌曲，对目标歌曲进行特征提取，得到第一声学特征，将第一声学特征输入至歌手声纹提取模型，以通过歌手声纹提取模型对第一声学特征进行特征提取，得到多个第一特征向量，对多个第一特征向量进行人声检测，确定多个第一特征向量中目标歌曲中人声部分对应的多个第一人声向量，对多个第一人声向量进行处理，得到目标歌手的第一声纹信息，其中，歌手声纹提取模型是基于歌曲数据训练得到。在上述过程中，由于是根据歌手的歌曲来确定歌手的声纹信息的，因此可以降低确定歌手声纹信息的成本，而且，由于在确定声纹信息时，使用的模型是基于歌曲数据训练得到的歌手声纹提取模型，因此可以更好地适应于根据歌曲提取声纹信息的场景，可以解决现有技术中由于受到歌曲背景音乐的影响而导致确定的声纹信息不准确的问题，从而提高声纹信息提取的准确性。另外，本申请可以通过歌手声纹提取模型对歌曲的声学特征进行进一步的提取、检测等处理，来确保得到的声纹信息更准确、更可靠。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用场景图；

图2为本申请实施例提供的一种声纹处理方法的流程图；

图3为本申请实施例提供的一种模型结构示意图；

图4为本申请实施例提供的一种声纹处理方法的示意图；

图5为本申请实施例提供的另一种声纹处理方法的示意图；

图6为本申请实施例提供的再一种声纹处理方法的示意图；

图7为本申请实施例提供的又一种声纹处理方法的示意图；

图8为本申请实施例提供的一种声纹处理装置800的示意图；

图9为本申请实施例提供的一种电子设备900的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如上所述，由于音乐作品中伴有大量的伴奏和音效等背景音乐声，而歌手平常说话的声音数据中除了人声部分之外只有较少的杂音，因此，音乐作品中歌手的声音数据会因为受到背景音乐声的影响，从而与歌手平常说话的声音数据具有较大差异，若直接使用目前的声纹识别技术对音乐作品中歌手的声音数据进行处理，来确定歌手的声纹，那么会导致确定的歌手声纹不准确的问题，另外，由于歌手平常说话的声音数据是较难获取的，因此，使用歌手平常说话的声音数据来确定歌手的声纹是具有较高成本的。

为了解决上述技术问题，本申请通过使用基于歌曲数据训练得到的歌手声纹提取确定声纹信息，以更好地适应于根据歌曲提取声纹信息的场景，可以解决现有技术中由于受到歌曲背景音乐的影响而导致确定的声纹信息不准确的问题，从而提高声纹信息提取的准确性，而且，本申请可以通过歌手声纹提取模型对歌曲的声学特征进行进一步的提取、检测等处理，来确保得到的声纹信息更准确、更可靠。另外，由于是根据歌手的歌曲来确定歌手的声纹信息的，因此可以降低确定歌手声纹信息的成本。

应理解的是，本申请技术方案可以应用于如下场景，但不限于：

在一些可实现方式中，本申请技术方案可以用于确定歌手声纹信息的场景中。例如，可以用于通过比较确定的歌手声纹信息，来判断歌曲是否存在侵犯歌手声音权益的场景，也可以用于通过识别歌曲的声纹信息来确定该歌曲对应的歌手的场景中，本申请对此不做限制。

在一些可实现方式中，图1为本申请实施例提供的一种应用场景图，如图1所示，该应用场景中可以包括终端设备110和电子设备120。终端设备110可以通过有线网络或者无线网络与电子设备120建立连接。

示例性的，终端设备110可以是可以为手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、车载设备、超级移动个人计算机（Ultra-Mobile Personal Computer，UMPC）、上网本，以及蜂窝电话、个人数字助理（Personal Digital Assistant，PDA）、增强现实（Augmented Reality，AR）\虚拟现实（Virtual Reality，VR）设备等，但不限于此。电子设备120可以是一台服务器，也可以是由多台服务器组成的服务器集群，还可以是云平台控制中心，本申请实施例对此不做限定。

示例性的，终端设备110中可以安装客户端，客户端可以显示目标歌手的多首歌曲，终端设备110可以响应于用户的触发操作将上述多首歌曲中的目标歌曲发送给电子设备120。接着，电子设备120可以对目标歌曲进行特征提取，并根据歌手声纹提取模型对进行特征提取得到的特征进行提取、检测等操作，从而确定目标歌手的声纹信息。

此外，图1示例性地给出了一个电子设备和一个终端设备，实际上可以包括其他数量的电子设备和终端设备，本申请对此不作限制。

在另一些可实现方式中，本申请技术方案也可以由上述终端设备110执行，或者，本申请技术方案还可以由上述电子设备120执行，本申请对此不做限制。

在介绍了本申请实施例的应用场景之后，下面将对本申请技术方案进行详细阐述：

图2为本申请实施例提供的一种声纹处理方法的流程图，该方法可以由如图1所示的电子设备120执行，但不限于此。如图2所示，该方法可以包括如下步骤：

S210：获取目标歌手的目标歌曲；

S220：对目标歌曲进行特征提取，得到第一声学特征；

S230：将第一声学特征输入至歌手声纹提取模型，其中，歌手声纹提取模型是基于歌曲数据训练得到；

S240：通过歌手声纹提取模型对第一声学特征进行特征提取，得到多个第一特征向量；

S250：通过歌手声纹提取模型对多个第一特征向量进行人声检测，确定多个第一特征向量中目标歌曲中人声部分对应的多个第一人声向量；

S260：通过歌手声纹提取模型对多个第一人声向量进行处理，得到目标歌手的第一声纹信息。

在一些可实现方式中，用户可以基于客户端选择需要进行歌曲声纹提取的目标歌曲，之后，客户端可以响应于用户的选择操作，将该目标歌曲发送至电子设备，从而电子设备可以获取目标歌曲。

其中，目标歌曲可以是音频数据形式的歌曲，也可以是视频数据中的歌曲。当目标歌曲是视频数据中的歌曲时，电子设备可以对该视频数据中的目标歌曲进行提取，从而得到目标歌曲。

在一些可实现方式中，第一声学特征可以是以下任一项，但不限于此：梅尔频率倒谱系数（Mel Frequency Cepstrum Coefficient，MFCC）特征、对数梅尔普（log-mel）。其中，本申请对特征提取的方式不做限制。

示例性的，电子设备可以采用音频特征提取方式，将时域的一维音频信号转换到二维频域信号，得到对数梅尔谱。在二维频域信号中，横轴可以表示时间帧，纵轴可以表示频率。例如，电子设备可以设置转换的窗长为64ms、步长为32ms、频率范围是0~16000，将梅尔谱的频带划分成128个，最终得到的梅尔谱维度可以记为（128，T），T表示音频按照指定窗长和步长处理后到的时间帧数，每一个时间帧都对应于时域音频上的一段音频，此处的音频指目标歌曲。

在得到第一声学特征之后，电子设备可以将第一声学特征输入歌手声纹提取模型，并执行上述S250-S260，从而得到目标歌曲的声纹信息。本申请在介绍S250-S260之前，将在下面实施例中先对歌手声纹提取模型的模型结构以及训练过程进行介绍：

在一些可实现方式中，如图3所示，歌手声纹提取模型可以包括特征提取模块、人声检测模块和声纹生成模块。特征提取模块可以对输入至歌手声纹提取模型的第一声学特征进行特征提取，得到第一特征向量；人声检测模块可以对特征提取模块输出的第一特征向量进行人声检测，得到第一人声向量；声纹生成模块可以对人声检测模块输出的第一人声向量进行处理，得到第一声纹信息。

需要说明的是，本申请将在下面实施例中，将特征提取模块和人声检测模块组合为特征提取及人声检测模块，特征提取模块和人声检测模块对应的结构和内容，与特征提取及人声检测模块对应的结构和内容是类似的。

在一些可实现方式中，如图4所示，假设目标歌曲包括人声部分“啦啦啦”、“哈哈”以及非人声部分“空白”，电子设备可以先对目标歌曲进行特征提取，得到第一声学特征。歌手声纹提取模型可以包括两个模块：特征提取及人声检测模块、声纹生成模块。其中，特征提取及人声检测模块可以将输入的歌曲声学特征转换为一组音频特征向量，即将第一声学特征转换为第一特征向量，并预测第一特征向量对应的时间片段是否含有人声，即对第一特征向量进行人声检测，确定第一特征向量中人声部分对应的第一人声向量。声纹生成模块可以将特征提取及人声检测模块确定出的含有人声的特征向量作为输入，按照固定的步长将含有人声的特征向量映射为一组声纹向量，即将第一人声向量处理为第一声纹信息。

示例性的，特征提取及人声检测模块的主体结构可以是一个深度学习网络模型。例如，该深度学习网络模型可以由特征提取部分与人声活性检测（Voice ActivityDetection，VAD）模块组成，特征提取部分可以对声学特征进行提取，得到特征向量，VAD模块可以对特征向量进行是否含有人声的检测，得到人声向量。声纹生成模块的主体结构也可以是一个深度学习网络模型，其可以包括计算模块与全连接层，计算模块可以计算人声向量的均值与标准差，并对均值与标准差进行拼接，将拼接结果，全连接层可以将拼接结果输出为声纹信息。

例如，特征提取部分可以是ECAPA-TDNN（Emphasized Channel Attention，Propagation and Aggregation in Time Delay Neural Network Based SpeakerVerification）中的特征提取部分，特征提取部分的输出可以与第一声学特征的尺寸一致。VAD模块可以由两个全连接层构成，可以对每个特征向量进行否是人声的预测。其中，ECAPA-TDNN是一个说话人声纹提取模型。

在一些可实现方式中，歌手声纹提取模型可以通过以下步骤训练得到：获取多个样本歌手各自独唱的多首样本歌曲；针对多个样本歌手中的任一目标样本歌手，确定目标样本歌手的多首样本歌曲各自的第二声学特征、歌词文本信息以及实际歌手标识；针对多首样本歌曲中的任一目标样本歌曲，根据目标样本歌曲的歌词文本信息确定目标样本歌曲中的人声部分对应的时间段，根据人声部分对应的时间段，确定目标样本歌曲中人声部分对应的第一时间帧和非人声部分对应的第二时间帧，确定第一时间帧对应的数值为1，确定第二时间帧对应的数值为0，按照第一时间帧和第二时间帧在目标样本歌曲中由先至后的顺序，对第一时间帧对应的数值和第二时间帧对应的数值进行组合，得到目标样本歌曲对应的实际人声向量，其中，目标样本歌曲中时间帧的数量和目标样本歌曲对应的实际人声向量的维数一致；将目标样本歌曲的第二声学特征输入至歌手声纹提取模型，得到目标样本歌曲对应的预测人声向量和预测声纹信息；根据目标样本歌曲对应的实际人声向量和目标样本歌曲对应的预测人声向量，确定第一损失；将目标样本歌曲的预测声纹信息输入歌手分类模型，确定目标样本歌曲对应的预测歌手标识；根据目标样本歌曲对应的实际歌手标识和目标样本歌曲对应的预测歌手标识，确定第二损失；计算第一损失和第二损失之和，得到第三损失；根据第三损失训练歌手声纹提取模型。

示例性的，歌手标识可以对歌手身份进行唯一标识，例如，歌手标识可以是歌手的身份标识（Identity，ID）、歌手昵称等，但不限于此。

示例性的，第二声学特征与第一声学特征类似，其对应的内容与方法均可参考第一声学特征对应的内容与方法，本申请在此不做赘述。

示例性的，电子设备可以先确定一个歌手音乐数据集，根据该歌手音乐数据集确定目标样本歌手的多首样本歌曲各自的第二声学特征、歌词文本信息以及实际歌手标识。歌手音乐数据集可以包括多个样本歌手以及每个样本歌手的多首样本歌曲。例如，歌手音乐数据集可以包括2000个样本歌手以及每个样本歌手的5-10首样本歌曲。其中，样本歌曲可以满足以下标准：样本歌曲是为该样本歌曲对应的样本歌手独唱的歌曲、样本歌曲具有精确的歌词文本信息，以标记出样本歌曲中含有人声的时间段，便于确定实际人声向量，还可以避免其他歌手的声音对声纹提取造成的干扰，提高声纹提取的准确性。

例如，歌词文本信息可以是样本歌曲的歌词，还可以是样本歌曲中含有歌词文本的时间段。电子设备可以将样本歌曲中歌词对应的时间段确定为样本歌曲中的人声部分对应的时间段。

例如，目标样本歌手的多首样本歌曲各自的实际歌手标识可以是是目标样本歌手的实际歌手标识。

示例性的，歌手分类模型的输入可以是声纹信息、输出可以是歌手标识。歌手分类模型可以是基于以下任一算法的模型，但不限于此：最邻近规则分类（K-NearestNeighbor，KNN）、线性判别分析（Linear Discriminant Analysis，LDA）、二次判别分析（Quadratic Discriminant Analysis，QDA）。

示例性的，第一损失和第二损失均可以是任一形式的损失函数，例如，可以是交叉熵（Cross-entropy）损失函数。

示例性的，电子设备在根据第三损失训练歌手声纹提取模型时，可以对第一损失、第二损失或者第三损失采用任何梯度下降算法，例如，可以采用Adam算法。另外，电子设备可以在上述第一损失、第二损失或者第三损失达到预设大小时，完成对歌手声纹提取模型的训练，或者，也可以在对歌手声纹提取模型的训练次数达到预设次数时，完成对歌手声纹提取模型的训练，本申请对此不做限制。

示例性的，结合上述实施例，针对目标样本歌手的多首样本歌曲中的任一目标样本歌曲，将目标样本歌曲的第二声学特征输入至歌手声纹提取模型中的特征提取及人声检测模块，得到预测特征向量（F1，F2，......，FT）以及对该预测特征向量中每个向量是否含有人声的预测结果即预测人声向量（y^~1，y^~2，…，y^~T），y^~1、y^~2、…、y^~T为0或者1，y^~1、y^~2、…或者y^~T为0表示预测预测特征向量中对应的向量不含有人声，y^~1、y^~2、…或者y^~T为1表示预测预测特征向量中对应的向量含有人声，T为样本歌曲的时间帧数。另外，假设目标样本歌曲的实际人声向量为（y1，y2，…，yT），y1、y2、…、yT为0或者1，y1、y2、…或者yT为0表示预测特征向量中对应的向量实际不含有人声，y1、y2、…或者yT为1表示预测特征向量中对应的向量实际含有人声。电子设备可以基于公式（1），根据预测人声向量（y^~1，y^~2，…，y^~T）和实际人声向量（y1，y2，…，yT）计算二分类交叉熵损，得到第一损失为L1。

公式（1）

接着，电子设备可以根据预测人声向量确定预测特征向量中人声部分对应的向量，并按照每128个为一组对该向量进行分组，将多组向量输入至歌手声纹提取模型中的声纹生成模块，得到预测声纹信息为（V1，V2，…，VN），N=T/128。接着，将预测声纹信息输入到由两个全连接层构成的歌手分类模型中，得到预测歌手标识s^~。接着，假设歌手标识的总数是C，实际歌手标识为s，电子设备可以基于公式（2），根据实际歌手标识和预测歌手标识计算多分类交叉熵损失，确定第二损失为L2。

公式（2）

之后，电子设备可以确定第三损失为L = L1+L2。电子设备可以基于第三损失通过迭代训练对歌手声纹提取模型参数进行更新，从而完成对歌手声纹提取模型的训练。

在一些可实现方式中，上述多个第一人声向量进行处理，得到目标歌手的第一声纹信息，包括：对多个第一人声向量进行分组，得到至少一个人声向量组；针对至少一个人声向量组中的任一人声向量组，计算人声向量组的均值，得到均值向量；根据多个均值向量，确定第一声纹信息。

示例性的，上述根据多个均值向量，确定第一声纹信息，包括：计算人声向量组的标准差，得到标准差向量；对均值向量和标准差向量进行拼接，得到第一声纹向量；对多个第一声纹向量进行组合，得到第一声纹信息。或者，电子设备还可以将均值向量直接确定为第一声纹向量。其中，可以以首尾相连的方式对均值向量和标准差向量进行拼接。

可以理解的是，声纹信息表示歌手唱歌时的声音特征，可以是一个向量或一组向量，一组向量中的每个向量均可以表示该歌手唱歌时的声音特征。例如，在第一声纹信息是一个向量时，第一声纹信息可以是由多个第一声纹向量拼接得到的；在第一声纹信息是一组向量时，该一组向量可以包括多个第一声纹向量。

示例性的，结合上述实施例，假设T个第一特征向量中人声部分对应有T1个第一人声向量，电子设备可以将T1个第一人声向量按照每组128个分为T1/128组，得到T1/128个人声向量组，并将T1/128个人声向量组分别输入到歌手声纹提取模型中的声纹生成模块，每次输入的人声向量组的维度是（128，128），针对每次输入的人声向量组，声纹生成模块可以按时间维度计算其均值和标准差，再将均值和标准差拼接后输入到一个全连接层，输出得到一个256维的向量，即第一声纹信息，最终，可以得到T1/128个256维的第一声纹信息。

在上述过程中，由于是根据歌手的歌曲来确定歌手的声纹信息的，因此可以降低确定歌手声纹信息的成本，而且，由于在确定声纹信息时，使用的模型是基于歌曲数据训练得到的歌手声纹提取模型，因此可以更好地适应于根据歌曲提取声纹信息的场景，可以解决现有技术中由于受到歌曲背景音乐的影响而导致确定的声纹信息不准确的问题，从而提高声纹信息提取的准确性。另外，本申请可以通过歌手声纹提取模型对歌曲的声学特征进行进一步的提取、检测等处理，来确保得到的声纹信息更准确、更可靠。

本申请将在下面的实施例中，对确定已有歌手的声纹信息集合的具体内容进行介绍：

需要说明的是，已有歌手可以是上述目标歌手。曲库可以是指存储着歌曲和歌手的管理系统，每个歌手有歌手名称和歌手标识，歌手标识具有唯一性，歌手名称可以不具有唯一性。

在一些可实现方式中，电子设备可以获取曲库中多个已有歌手各自的多首已有歌曲；针对多个已有歌手中的任一目标已有歌手，对目标已有歌手的多首已有歌曲分别进行特征提取，得多个第三声学特征；针对多个第三声学特征中的任一目标第三声学特征，将目标第三声学特征输入至歌手声纹提取模型，得到多个第二特征向量和多个第二特征向量中的多个第二人声向量；计算多个第二特征向量中多个第二人声向量的第一数量占比；判断第一数量占比是否小于第一占比阈值；响应于第一数量大于或者等于第一占比阈值，根据歌手声纹提取模型对多个第二人声向量进行处理，得到第二声纹信息；根据目标已有歌手的多个第二声纹信息，确定目标已有歌手的声纹信息集合。

示例性的，上述对多个第二人声向量进行处理得到第二声纹信息的过程与上述S260类似，其对应的内容和效果均可参考上述S260，本申请在此不做赘述。

示例性的，多个第二声纹信息分别包括多个第二声纹向量。

示例性的，电子设备可以通过以下任一方式根据目标已有歌手的多个第二声纹信息，确定目标已有歌手的声纹信息集合，但不限于此：

方式一，针对目标已有歌手的多个第二声纹信息中的任一目标第二声纹信息，从目标第二声纹信息中的多个第二声纹向量中确定目标声纹向量；计算多个第二声纹向量中每个第二声纹向量分别与目标声纹向量的第一距离；确定多个第二声纹向量中第一距离小于第一距离阈值的第二声纹向量的第二数量占比；响应于第二数量占比大于第二占比阈值，将目标声纹向量添加至目标已有歌手的声纹信息集合。

方式二，结合方式一，电子设备可以在确定多个第二声纹信息各自对应的目标声纹向量后，将多个目标声纹向量进行组合，确定声纹信息集合。

方式三，电子设备可以对目标已有歌手的多个第二声纹信息直接进行组合，得到目标已有歌手的声纹信息集合。

示例性的，目标声纹向量为多个第二声纹向量的聚类中心。

在一些可实现方式中，如图5所示，电子设备可以根据已有歌手的歌手标识，从曲库中获取该已有歌手的多首歌曲，通过人工或者歌曲名称匹配的方式对该多首歌曲进行去重处理，得到已有歌手的去重歌曲合集。针对去重歌曲合集中的任一首歌曲，将该歌曲的声学特征输入至歌手声纹提取模型的特征提取及人声检测模块中，得到特征向量和人声向量。若人声向量在特征向量中的占比小于或者等于第一占比阈值时，则放弃这首歌，即不根据这首歌曲的声纹信息确定歌手的声纹信息集合；若人声向量在特征向量中的占比大于第一占比阈值时，则将人声向量输入到声纹生成模型中，得到从该歌曲中提取到的第二声纹信息。接着，电子设备可以对该第二声纹信息做K均值聚类，聚类中心设置为1，聚类中心可以是第二声纹信息中多个向量的几何中心，电子设备可以根据余弦距离计算公式计算第二声纹信息中每个向量到聚类中心的第一距离，并确定第一距离小于第一距离阈值的向量数量在第二声纹信息的全部向量数量中的第二数量占比，若第二数量占比大于第二占比阈值，则将聚类中心加入到声纹信息集合；若第二数量占比小于或者等于第二占比阈值，则不将聚类中心加入到声纹信息集合，即不使用这首歌曲的声纹信息确定声纹信息集合。

需要说明的是，声纹信息可以包括多个声纹向量。声纹信息集合可以包括多个声纹信息，也可以包括多个声纹信息各自包括的任一个声纹向量，也可以包括多个声纹信息各自包括全部声纹向量。

在一些可实现方式中，电子设备可以根据曲库中多个已有歌手的声纹信息集合构建歌手声纹库。歌手声纹库可以对应存储歌手标识与歌手的声纹信息集合。

在一些可实现方式中，确定多个已有歌手中除目标已有歌手之外的至少一个其他已有歌手的声纹信息集合分别与目标已有歌手的声纹信息集合的第一相似度；从至少一个其他已有歌手的声纹信息集合中，确定大于第一相似度阈值的第一相似度对应的至少一个第一声纹信息集合；对至少一个第一声纹信息集合和目标已有歌手的声纹信息集合进行处理，确定目标已有歌手的更新声纹信息集合。

示例性的，目标已有歌手的声纹信息集合包括多个第三声纹向量，至少一个其他已有歌手的声纹信息集合分别包括多个第四声纹向量。

示例性的，电子设备可以通过以下任一可实现方式确定多个已有歌手中除目标已有歌手之外的至少一个其他已有歌手的声纹信息集合分别与目标已有歌手的声纹信息集合的第一相似度，但不限于此：

可实现方式一，针对多个第三声纹向量中的任一目标第三声纹向量，计算目标第三声纹向量与至少一个其他已有歌手的声纹信息集合各自对应的多个第四声纹向量中每个第四声纹向量的距离，得到至少一个其他已有歌手各自对应的多个第二距离；针对至少一个其他已有歌手中的任一目标其他已有歌手对应的多个第二距离，确定目标已有歌手对应的多个第二距离中小于第二距离阈值的第二距离的第三数量占比，将第三数量占比确定为目标其他已有歌手对应的第一相似度。

可实现方式二，结合上述可实现方式一，在得到至少一个其他已有歌手分别对应的多个第二距离之后，针对至少一个其他已有歌手中的任一目标其他已有歌手，电子设备可以确定目标其他已有歌手对应的多个第二距离的和值、平均值、中值、最大值或者最小值，并将和值、平均值、中值、最大值或者最小值确定为目标其他已有歌手对应的第一相似度。

示例性的，上述对至少一个第一声纹信息集合和目标已有歌手的声纹信息集合进行处理，确定目标已有歌手的更新声纹信息集合，包括：确定至少一个第一声纹信息集合和目标已有歌手的声纹信息集合分别对应的歌手名称；针对至少一个第一声纹信息集合中的任一目标第一声纹信息集合，获取目标第一声纹信息集合的第一审核结果，第一审核结果是基于目标第一声纹信息集合对应的歌手名称确定的；响应于第一审核结果为目标第一声纹信息集合对应的歌手名称与目标已有歌手的歌手名称相同，对目标第一声纹信息集合与目标已有歌手的声纹信息集合进行合并处理，得到目标已有歌手的更新声纹信息集合；或者，响应于第一审核结果为目标第一声纹信息集合对应的歌手名称与目标已有歌手的歌手名称不同，将目标已有歌手的声纹信息集合确定为目标已有歌手的更新声纹信息集合。

另外，若第一审核结果为目标第一声纹信息集合对应的歌手名称与目标已有歌手的歌手名称不相同，则可以将目标第一声纹信息集合对应的歌手名称或者目标已有歌手的歌手名称确定为目标已有歌手的唯一名称，并删除目标已有歌手的的其他名称，以确保歌手名称的唯一性，提高曲库管理与声纹信息集合管理的规范性。

在一些可实现方式中，结合上述实施例，如图6所示，假设歌手A与歌手B的声纹信息集合分别为（A1，A2，……，An）、（B1，B2，……，Bm），电子设备计算（A1，A2，……，An）中的每个向量分别与（B1，B2，……，Bm）中每个向量的距离，得到多个第二距离：DA1B1、……、DAnBm，例如，DA1B1为（A1，A2，……，An）中的向量A1与（B1，B2，……，Bm）中的向量B1的距离。然后，可以确定多个第二距离中小于第二距离阈值的第二距离的第三数量占比，在该占比大于第一相似度阈值时，可以确定歌手A与歌手B的声纹信息集合的重合度较高，确定歌手A与歌手B为同一歌手的可能性较高。之后，可以由人工审核的方式，确定歌手A与歌手B是否为同一歌手，在确定是同一歌手的情况下，将歌手A与歌手B的声纹信息集合做合并，并由人工赋予唯一名称。

可以理解的是，随着歌曲制作流程的智能化与简洁化，在各个音乐平台和短视频平台上出现了大量的歌手，然而歌手数量的增多提高了对曲库的管理难度，例如，可能出现：同一歌手拥有多个不同的名称、不同歌手拥有相同的名称、有的歌曲还不具有歌手名称，还可能出现歌手声音被滥用的情况。而通过本申请技术方案，电子设备可以根据歌手声纹提取模型和歌手的已有歌曲，确定歌手的多个声纹信息，并通过对多个声纹信息的双重验证，得到可以更准确表示歌手声音特征的的声纹信息集合，并根据声纹信息集合完成歌手声纹库的构建，从而不仅可以实现自动化的歌手声纹库构建，减少人工整理的难度，还可以方便对歌手的声音的鉴定，防止歌手的音乐作品等声音被滥用，保护歌手权益。另外，还可以通过合并操作将可能是同一歌手的声纹信息集合进行合并，确定该歌手唯一的声纹信息集合与名称等信息，实现对曲库歌手名称以及声纹信息集合的规范化管理。

本申请将在下面实施例中对在曲库中增加歌曲的内容进行介绍：

在一些可实现方式中，电子设备可以获取待入库歌手的待入库歌曲和待入库歌手名称；将待入库歌曲输入歌手声纹提取模型，得到第三人声向量；响应于第三人声向量为空值，根据待入库歌手名称将待入库歌曲存入曲库；或者，响应于第三人声向量不为空值，根据第三人声向量确定是否将待入库歌曲存入曲库。

需要说明的是，第三人声向量是空值表示待入库歌曲不包含人声部分，那么电子设备可以根据待入库歌手名称将待入库歌曲存入曲库。第三人声向量不是空值表示待入库歌曲包含人声部分，那么电子设备可以先对待入库歌曲和待入库歌手名称进行匹配、相似度校验等处理，再确定是否将待入库歌曲存入曲库，从而避免歌手声音被盗用的情况，提高入库歌歌曲的规范化管理。

可以理解的是，同一歌手的名称一般是一致或者相似的，因此先匹配名称再计算声纹信息的距离，可以减少入库校验的数据处理量，提高校验效率。

具体的，上述根据第三人声向量确定是否将待入库歌曲存入曲库，包括：根据歌手声纹提取模型对第三人声向量进行处理，得到第三声纹信息；将待入库歌手名称与曲库中的全部已有歌手名称进行匹配，确定至少一个候选歌手名称；计算至少一个候选歌手名称各自对应的第三声纹信息集合分别与第三声纹信息的距离，得到至少一个第三距离；根据至少一个第三距离确定是否将待入库歌曲存入曲库。

当然，电子设备在根据第三人声向量确定是否将待入库歌曲存入曲库时，还可以不进行名称匹配，可以直接将全部已有歌手名称确定为至少一个候选歌手名称，并计算全部已有歌手名称各自对应的第三声纹信息集合分别与第三声纹信息的距离，得到至少一个第三距离，根据至少一个第三距离确定是否将待入库歌曲存入曲库。此处对应的内容和上述实施例相似，本申请对此不做赘述。

示例性的，电子设备可以通过以下任一可选方式将将待入库歌手名称与曲库中的全部已有歌手名称进行匹配，确定至少一个候选歌手名称，但不限于此：

可选方式一，电子设备可以计算全部已有歌手名称分别与待入库歌手名称的第二相似度；判断全部已有歌手名称中是否包括第二相似度大于第二相似度阈值的第一已有歌手名称；响应于全部已有歌手名称中包括第一已有歌手名称，将第一已有歌手名称确定为至少一个候选歌手名称；或者，响应于全部已有歌手名称中不包括第一已有歌手名称，将全部已有歌手名称确定为至少一个候选歌手名称。

其中，电子设备可以基于字符串匹配的方式计算名称间的相似度，但不限于此。

可选方式二，电子设备可以确定待入库歌手的除待入库歌手名称之外的其他名称、与待入库歌手合作的合作歌手的合作歌手名称；判断全部已有歌手名称是否包括其他名称或者合作歌手名称；响应于全部已有歌手名称包括其他名称或者合作歌手名称，将其他名称和/或合作歌手名称确定为至少一个候选歌手名称；或者，响应于全部已有歌手名称中不包括其他名称和合作歌手名称，将全部已有歌手名称确定为至少一个候选歌手名称。

例如，电子设备可以为歌手构建关系图谱，关系图谱可以包括待入库歌手对应的全部名称以及与待入库歌手合作的合作歌手的名称，从而可以基于关系图谱确定待入库歌手的其他名称以及合作歌手名称。

例如，根据第三相似度确定是否将待入库歌曲存入曲库，包括：判断第三相似度是否大于第三相似度阈值；响应于第三相似度大于第三相似度阈值，将待入库歌曲存入曲库；或者，响应于第三相似度小于或者等于第三相似度阈值，根据第三审核结果确定是否将待入库歌曲存入曲库，第三审核结果是基于最小的第三距离对应的候选歌手名称与待入库歌手名称所确定的。

在一些可实现方式中，如图7所示，电子设备可以先根据上述实施例中的方法对待入库歌曲的歌曲音频进行处理，得到待入库歌曲的第三声纹信息即歌曲声纹集，若歌曲声纹集是空值，则表示待入库歌曲的第三人声向量为空值，即表示待入库歌曲中没有人声向量，那么可以先判断曲库中是包括待入库歌手名称，若曲库包括待入库歌手名称，则直接将待入库歌手名称与待入库歌曲存入曲库，若曲库不包括待入库歌手名称，则向曲库中新增待入库歌手名称，并将待入库歌手名称与待入库歌曲存入曲库。若歌曲声纹集不是空值，则电子设备可以根据待入库歌手名称确定候选歌手名称，例如，可以将曲库中与待入库歌手名称相似度大于第二相似度阈值的名称确定为候选歌手名称，若曲库中不存在与待入库歌手名称相似度大于第二相似度阈值的名称，则可以将曲库中全部名称确定为候选歌手名称。之后，电子设备可以确定候选歌手名称对应的声纹信息集合即候选歌手声纹集，并对候选歌手声纹集和歌曲声纹集进行匹配，即计算第三声纹信息与第三声纹信息集合之间的第三距离。若最小的第三距离大于或者等于第三距离阈值，则可以确定匹配度最高的候选歌手声纹集与歌曲声纹集的相似度不太高，那么此时，电子设备可以根据第二审核结果确定是否将待入库歌曲存入曲库，第二审核结果是审核人基于前5个第三距离对应的候选歌手名称与待入库歌手名称确定的，即是基于匹配度前5的候选歌手名称与待入库歌手名称确定的。也就是说，此时的候选歌手声纹集与待入库歌曲的歌曲声纹集之间不相似，即确定待入库歌手较大概率是新增的歌手，那么可以通过人工的方式再对名称进行验证，若判断是新增歌手，可以向曲库中增加待入库歌手名称，并将待入库歌手名称与待入库歌曲对应添加至曲库中，若不是新增歌手，则可以将该待入库歌曲确定为待入库歌手的另一名称对应的歌曲。若最小的第三距离小于第三距离阈值，则可以说明候选歌手声纹集与待入库歌曲的歌曲声纹集之间较相似，那么就需要进一步判断是否存在滥用歌手声音的情况，接着，电子设备可以通过字符串匹配的方式计算最小的第三距离对应的候选歌手名称与待入库歌手名称的第三相似度，即计算相似度最高的候选歌手声纹集对应的名称与待入库歌手名称的相似度，若第三相似度大于第三相似度阈值，则说明该相似度最高的候选歌手声纹集对应的歌手大概率与待入库歌手为同一人，即不存在滥用歌手声音的情况，则将待入库歌曲存入曲库；若第三相似度小于或者等于第三相似度阈值，则说明较大概率存在滥用歌手声音的情况，那么此时电子设备可以根据第三审核结果确定是否将待入库歌曲存入曲库，第三审核结果为审核人基于最小的第三距离对应的候选歌手名称与待入库歌手名称确定。

在上述过程中，针对待入库的歌曲，可以通过名称匹配与声纹信息相似度匹配的双重验证以及人工审核的方式，提高检测歌手声音是否被滥用的准确性，提高曲库管理的规范性。

需要说明的是，本申请中的各种声学特定对应的内容与方法与第一声学特征对应的内容和方法类似，均可以参考第一声学特征对应的内容和方法；本申请中的各种特征向量对应的内容与方法与第一特征向量对应的内容和方法类似，均可以参考第一特征向量对应的内容和方法；本申请中的各种人声向量对应的内容与方法与第一人声向量对应的内容和方法类似，均可以参考第一人声向量对应的内容和方法；本申请中的各种声纹信息对应的内容与方法与第一声纹信息对应的内容和方法类似，均可以参考第一声纹信息对应的内容和方法；本申请在此不做赘述。

需要说明的是，上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图8为本申请实施例提供的一种声纹处理装置800的示意图。

如图8所示，声纹处理装置800包括：收发模块810、处理模块820，其中，收发模块810，用于：获取目标歌手的目标歌曲；处理模块820，用于：对目标歌曲进行特征提取，得到第一声学特征；将第一声学特征输入至歌手声纹提取模型，以通过歌手声纹提取模型对第一声学特征进行特征提取，得到多个第一特征向量，对多个第一特征向量进行人声检测，确定多个第一特征向量中目标歌曲中人声部分对应的多个第一人声向量，对多个第一人声向量进行处理，得到目标歌手的第一声纹信息；其中，歌手声纹提取模型是基于歌曲数据训练得到。

在一些可实现方式中，处理模块820，具体用于：对多个第一人声向量进行分组，得到至少一个人声向量组；针对至少一个人声向量组中的任一人声向量组，计算人声向量组的均值，得到均值向量；根据多个均值向量，确定第一声纹信息。

在一些可实现方式中，处理模块820，具体用于：计算人声向量组的标准差，得到标准差向量；对均值向量和标准差向量进行拼接，得到第一声纹向量；对多个第一声纹向量进行组合，得到第一声纹信息。

在一些可实现方式中，上述歌手声纹提取模型是通过以下步骤训练得到的：确定训练样本，训练样本包括：多个样本歌手中每个样本歌手的多首样本歌曲各自的第二声学特征、每个样本歌手的多首样本歌曲各自对应的实际人声向量、每个样本歌手的多首样本歌曲各自对应的实际歌手标识；针对多个样本歌手中的任一样本歌手，将样本歌手的多首样本歌曲各自的第二声学特征分别输入至歌手声纹提取模型，得到样本歌手的多首样本歌曲各自对应的预测人声向量和预测声纹信息；针对样本歌手的多首样本歌曲中的任一样本歌曲，根据样本歌曲对应的实际人声向量和样本歌曲对应的预测人声向量，确定第一损失；将样本歌曲的预测声纹信息输入歌手分类模型，确定样本歌曲对应的预测歌手标识；根据样本歌曲对应的实际歌手标识和样本歌曲对应的预测歌手标识，确定第二损失；根据第一损失和第二损失训练歌手声纹提取模型。

在一些可实现方式中，处理模块820，具体用于：计算第一损失和第二损失之和，得到第三损失；根据第三损失训练歌手声纹提取模型。

在一些可实现方式中，处理模块820，具体用于：针对多个样本歌手中的任一样本歌手，确定样本歌手的多首样本歌曲各自的歌词文本信息；针对样本歌手的多首样本歌曲中的任一样本歌曲，根据样本歌曲的歌词文本信息确定样本歌曲中的人声部分对应的时间段；根据人声部分对应的时间段确定样本歌曲对应的实际人声向量。

在一些可实现方式中，处理模块820，具体用于：根据人声部分对应的时间段，确定样本歌曲中人声部分对应的第一时间帧和非人声部分对应的第二时间帧；确定第一时间帧对应的数值为1，确定第二时间帧对应的数值为0；按照第一时间帧和第二时间帧在样本歌曲中由先至后的顺序，对第一时间帧对应的数值和第二时间帧对应的数值进行组合，得到样本歌曲对应的实际人声向量；其中，样本歌曲中时间帧的数量和样本歌曲对应的实际人声向量的维数一致。

在一些可实现方式中，上述样本歌曲为样本歌曲对应的样本歌手独唱的歌曲。

在一些可实现方式中，收发模块810，还用于：获取曲库中多个已有歌手各自的多首已有歌曲；处理模块820，还用于：针对多个已有歌手中的任一已有歌手，对已有歌手的多首已有歌曲分别进行特征提取，得多个第三声学特征；针对多个第三声学特征中的任一第三声学特征，将第三声学特征输入至歌手声纹提取模型，得到多个第二特征向量和多个第二特征向量中的多个第二人声向量；计算多个第二特征向量中多个第二人声向量的第一数量占比；判断第一数量占比是否大于第一占比阈值；当第一数量大于第一占比阈值时，根据歌手声纹提取模型对多个第二人声向量进行处理，得到第二声纹信息；根据已有歌手的多个第二声纹信息，确定已有歌手的声纹信息集合。

在一些可实现方式中，处理模块820，具体用于：针对已有歌手的多个第二声纹信息中的任一第二声纹信息，从第二声纹信息中的多个第二声纹向量中确定目标声纹向量；计算多个第二声纹向量中每个第二声纹向量分别与目标声纹向量的第一距离；确定多个第二声纹向量中第一距离小于第一距离阈值的第二声纹向量的第二数量占比；判断第二数量占比是否大于第二占比阈值；当第二数量占比大于第二占比阈值时，将目标声纹向量添加至已有歌手的声纹信息集合。

在一些可实现方式中，上述目标声纹向量为多个第二声纹向量的聚类中心。

在一些可实现方式中，处理模块820，还用于：针对多个已有歌手中任一已有歌手，确定多个已有歌手中除已有歌手之外的至少一个其他已有歌手的声纹信息集合分别与已有歌手的声纹信息集合的第一相似度；从至少一个其他已有歌手的声纹信息集合中，确定大于第一相似度阈值的第一相似度对应的至少一个第一声纹信息集合；对至少一个第一声纹信息集合和已有歌手的声纹信息集合进行处理，确定已有歌手的更新声纹信息集合。

在一些可实现方式中，处理模块820，具体用于：针对已有歌手的声纹信息集合中的任一第三声纹向量，计算第三声纹向量与至少一个其他已有歌手的声纹信息集合中每个第四声纹向量的距离，得到至少一个其他已有歌手分别对应的多个第二距离；针对至少一个其他已有歌手中的任一其他已有歌手对应的多个第二距离，确定多个第二距离中小于第二距离阈值的第二距离的第三数量占比，将第三数量占比确定为其他已有歌手对应的第一相似度。

在一些可实现方式中，处理模块820，具体用于：确定至少一个第一声纹信息集合和已有歌手的声纹信息集合分别对应的歌手名称；针对至少一个第一声纹信息集合中的任一第一声纹信息集合，获取第一声纹信息集合的第一审核结果，第一审核结果为审核人基于第一声纹信息集合对应的歌手名称确定；在第一审核结果为第一声纹信息集合对应的歌手名称与已有歌手的歌手名称属于同一歌手时，对第一声纹信息集合与已有歌手的声纹信息集合进行合并处理，得到已有歌手的更新声纹信息集合；在第一审核结果为第一声纹信息集合对应的歌手名称与已有歌手的歌手名称不属于同一歌手时，将已有歌手的声纹信息集合确定为已有歌手的更新声纹信息集合。

在一些可实现方式中，收发模块810，还用于：获取待入库歌手的待入库歌曲和待入库歌手名称；处理模块820，还用于：将待入库歌曲输入歌手声纹提取模型，得到第三人声向量；若第三人声向量为空值，则根据待入库歌手名称将待入库歌曲存入曲库；若第三人声向量不为空值，则根据第三人声向量确定是否将待入库歌曲存入曲库。

在一些可实现方式中，处理模块820，具体用于：根据歌手声纹提取模型对第三人声向量进行处理，得到第三声纹信息；将待入库歌手名称与曲库中的全部已有歌手名称进行匹配，确定至少一个候选歌手名称；计算至少一个候选歌手名称各自对应的第三声纹信息集合分别与第三声纹信息的距离，得到至少一个第三距离；根据至少一个第三距离确定是否将待入库歌曲存入曲库。

在一些可实现方式中，处理模块820，具体用于：计算全部已有歌手名称分别与待入库歌手名称的第二相似度；判断全部已有歌手名称中是否包括第二相似度大于第二相似度阈值的第一已有歌手名称；若全部已有歌手名称中包括第一已有歌手名称，则将第一已有歌手名称确定为至少一个候选歌手名称；若全部已有歌手名称中不包括第一已有歌手名称，则将全部已有歌手名称确定为至少一个候选歌手名称。

在一些可实现方式中，处理模块820，具体用于：确定待入库歌手的除待入库歌手名称之外的其他名称、与待入库歌手合作的合作歌手的名称；判断全部已有歌手名称是否包括其他名称或者合作歌手名称；若全部已有歌手名称包括其他名称或者合作歌手名称，则将其他名称和/或合作歌手名称确定为至少一个候选歌手名称；若全部已有歌手名称中不包括其他名称和合作歌手名称，则将全部已有歌手名称确定为至少一个候选歌手名称。

在一些可实现方式中，处理模块820，具体用于：判断至少一个第三距离中最小的第三距离是否小于第三距离阈值；若最小的第三距离小于第三距离阈值，则计算最小的第三距离对应的候选歌手名称与待入库歌手名称的第三相似度，根据第三相似度确定是否将待入库歌曲存入曲库；若最小的第三距离大于或者等于第三距离阈值，则确定按照由小至大的顺序排列的至少一个第三距离中前第一数量个第三距离对应的候选歌手名称，根据第二审核结果确定是否将待入库歌曲存入曲库，第二审核结果为审核人基于前第一数量个第三距离对应的候选歌手名称与待入库歌手名称确定。

在一些可实现方式中，处理模块820，具体用于：判断第三相似度是否大于第三相似度阈值；若第三相似度大于第三相似度阈值，则将待入库歌曲存入曲库；若第三相似度小于或者等于第三相似度阈值，则根据第三审核结果确定是否将待入库歌曲存入曲库，第三审核结果为审核人基于最小的第三距离对应的候选歌手名称与待入库歌手名称确定。

在一些可实现方式中，装置800还包括存储模块830，用于：存储目标歌手的声纹信息。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图8所示的装置800可以执行上述方法实施例，并且装置800中的各个模块的前述和其它操作和/或功能分别为了实现上述各个方法中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置800。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图9为本申请实施例提供的一种电子设备900的示意性框图。

如图9所示，该电子设备900可包括：

存储器910和处理器920，该存储器910用于存储计算机程序，并将该程序代码传输给该处理器920。换言之，该处理器920可以从存储器910中调用并运行计算机程序，以实现本申请实施例中的方法。

例如，该处理器920可用于根据该计算机程序中的指令执行上述方法实施例。

在本申请的一些实施例中，该处理器920可以包括但不限于：

通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（FieldProgrammable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器910包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、电可擦除可编程只读存储器（Electrically EPROM，EEPROM）或闪存。易失性存储器可以是随机存取存储器（Random Access Memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（Static RAM，SRAM）、动态随机存取存储器（Dynamic RAM，DRAM）、同步动态随机存取存储器（Synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（Double DataRate SDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（Enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（Synch Link DRAM，SLDRAM）和直接内存总线随机存取存储器（Direct Rambus RAM，DR RAM）。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器910中，并由该处理器920执行，以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该电子设备中的执行过程。

如图9所示，该电子设备还可包括：

收发器930，该收发器930可连接至该处理器920或存储器910。

其中，处理器920可以控制该收发器930与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器930可以包括发射机和接收机。收发器930还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该电子设备中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本申请还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，可使计算机全部或部分地执行本申请实施例中各方法中的相应流程、产生本申请实施例中各方法可实现的功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（Digital Subscriber Line，DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如，数字视频光盘（Digital Video Disc，DVD））、或者半导体介质（例如，固态硬盘（Solid State Disk，SSD））等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种声纹处理方法，其特征在于，包括：

获取目标歌手的目标歌曲；

对所述目标歌曲进行特征提取，得到第一声学特征；

将所述第一声学特征输入至歌手声纹提取模型，以通过所述歌手声纹提取模型对所述第一声学特征进行特征提取，得到多个第一特征向量，对所述多个第一特征向量进行人声检测，确定所述多个第一特征向量中所述目标歌曲中人声部分对应的多个第一人声向量，对所述多个第一人声向量进行处理，得到所述目标歌手的第一声纹信息；

其中，所述歌手声纹提取模型是基于歌曲数据训练得到。

2.根据权利要求1所述的方法，其特征在于，所述对所述多个第一人声向量进行处理，得到所述目标歌手的第一声纹信息，包括：

对所述多个第一人声向量进行分组，得到至少一个人声向量组；

针对所述至少一个人声向量组中的任一人声向量组，计算所述人声向量组的均值，得到均值向量；

根据多个所述均值向量，确定所述第一声纹信息。

3.根据权利要求2所述的方法，其特征在于，所述根据多个所述均值向量，确定所述第一声纹信息，包括：

计算所述人声向量组的标准差，得到标准差向量；

对所述均值向量和所述标准差向量进行拼接，得到第一声纹向量；

对多个所述第一声纹向量进行组合，得到所述第一声纹信息。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述歌手声纹提取模型是通过以下步骤训练得到的：

获取多个样本歌手各自独唱的多首样本歌曲；

针对多个样本歌手中的任一目标样本歌手，确定所述目标样本歌手的多首样本歌曲各自的第二声学特征、歌词文本信息以及实际歌手标识；

针对所述多首样本歌曲中的任一目标样本歌曲，根据所述目标样本歌曲的歌词文本信息确定所述目标样本歌曲中的人声部分对应的时间段，根据所述人声部分对应的时间段，确定所述目标样本歌曲中人声部分对应的第一时间帧和非人声部分对应的第二时间帧，确定所述第一时间帧对应的数值为1，确定所述第二时间帧对应的数值为0，按照所述第一时间帧和所述第二时间帧在所述目标样本歌曲中由先至后的顺序，对所述第一时间帧对应的数值和所述第二时间帧对应的数值进行组合，得到所述目标样本歌曲对应的实际人声向量，其中，所述目标样本歌曲中时间帧的数量和所述目标样本歌曲对应的实际人声向量的维数一致；

将所述目标样本歌曲的第二声学特征输入至所述歌手声纹提取模型，得到所述目标样本歌曲对应的预测人声向量和预测声纹信息；

根据所述目标样本歌曲对应的实际人声向量和所述目标样本歌曲对应的预测人声向量，确定第一损失；

将所述目标样本歌曲的预测声纹信息输入歌手分类模型，确定所述目标样本歌曲对应的预测歌手标识；根据所述目标样本歌曲对应的实际歌手标识和所述目标样本歌曲对应的预测歌手标识，确定第二损失；

计算所述第一损失和所述第二损失之和，得到第三损失；

根据所述第三损失训练所述歌手声纹提取模型。

5.根据权利要求1-3任一项所述的方法，其特征在于，还包括：

获取曲库中多个已有歌手各自的多首已有歌曲；

针对所述多个已有歌手中的任一目标已有歌手，对所述目标已有歌手的多首已有歌曲分别进行特征提取，得多个第三声学特征；

针对所述多个第三声学特征中的任一目标第三声学特征，将所述目标第三声学特征输入至所述歌手声纹提取模型，得到多个第二特征向量和所述多个第二特征向量中的多个第二人声向量；

计算所述多个第二特征向量中所述多个第二人声向量的第一数量占比；

判断所述第一数量占比是否小于第一占比阈值；

响应于所述第一数量大于或者等于所述第一占比阈值，根据所述歌手声纹提取模型对所述多个第二人声向量进行处理，得到第二声纹信息；

根据所述目标已有歌手的多个第二声纹信息，确定所述目标已有歌手的声纹信息集合。

6.根据权利要求5所述的方法，其特征在于，所述多个第二声纹信息分别包括多个第二声纹向量；所述根据所述目标已有歌手的多个第二声纹信息，确定所述目标已有歌手的声纹信息集合，包括：

针对所述目标已有歌手的多个第二声纹信息中的任一目标第二声纹信息，从所述目标第二声纹信息中的多个第二声纹向量中确定目标声纹向量；

计算所述多个第二声纹向量中每个第二声纹向量分别与所述目标声纹向量的第一距离；

确定所述多个第二声纹向量中第一距离小于第一距离阈值的第二声纹向量的第二数量占比；

响应于所述第二数量占比大于第二占比阈值，将所述目标声纹向量添加至所述目标已有歌手的声纹信息集合。

7.根据权利要求6所述的方法，其特征在于，所述目标声纹向量为所述多个第二声纹向量的聚类中心。

8.根据权利要求5所述的方法，其特征在于，还包括：

确定所述多个已有歌手中除所述目标已有歌手之外的至少一个其他已有歌手的声纹信息集合分别与所述目标已有歌手的声纹信息集合的第一相似度；

从所述至少一个其他已有歌手的声纹信息集合中，确定大于第一相似度阈值的第一相似度对应的至少一个第一声纹信息集合；

对所述至少一个第一声纹信息集合和所述目标已有歌手的声纹信息集合进行处理，确定所述目标已有歌手的更新声纹信息集合。

9.根据权利要求8所述的方法，其特征在于，所述目标已有歌手的声纹信息集合包括多个第三声纹向量，所述至少一个其他已有歌手的声纹信息集合分别包括多个第四声纹向量；所述确定所述多个已有歌手中除所述目标已有歌手之外的至少一个其他已有歌手的声纹信息集合分别与所述目标已有歌手的声纹信息集合的第一相似度，包括：

针对所述多个第三声纹向量中的任一目标第三声纹向量，计算所述目标第三声纹向量与所述至少一个其他已有歌手的声纹信息集合各自对应的多个第四声纹向量中每个第四声纹向量的距离，得到所述至少一个其他已有歌手各自对应的多个第二距离；

针对所述至少一个其他已有歌手中的任一目标其他已有歌手对应的多个第二距离，确定所述目标已有歌手对应的多个第二距离中小于第二距离阈值的第二距离的第三数量占比，将所述第三数量占比确定为所述目标其他已有歌手对应的第一相似度。

10.根据权利要求8所述的方法，其特征在于，所述对所述至少一个第一声纹信息集合和所述目标已有歌手的声纹信息集合进行处理，确定所述目标已有歌手的更新声纹信息集合，包括：

确定所述至少一个第一声纹信息集合和所述目标已有歌手的声纹信息集合分别对应的歌手名称；

针对所述至少一个第一声纹信息集合中的任一目标第一声纹信息集合，获取所述目标第一声纹信息集合的第一审核结果，所述第一审核结果是基于所述目标第一声纹信息集合对应的歌手名称确定的；

响应于所述第一审核结果为所述目标第一声纹信息集合对应的歌手名称与所述目标已有歌手的歌手名称相同，对所述目标第一声纹信息集合与所述目标已有歌手的声纹信息集合进行合并处理，得到所述目标已有歌手的更新声纹信息集合；或者，

响应于所述第一审核结果为所述目标第一声纹信息集合对应的歌手名称与所述目标已有歌手的歌手名称不同，将所述目标已有歌手的声纹信息集合确定为所述目标已有歌手的更新声纹信息集合。

11.根据权利要求5所述的方法，其特征在于，还包括：

获取待入库歌手的待入库歌曲和待入库歌手名称；

将所述待入库歌曲输入所述歌手声纹提取模型，得到第三人声向量；

响应于所述第三人声向量为空值，根据所述待入库歌手名称将所述待入库歌曲存入所述曲库；或者，

响应于所述第三人声向量不为空值，根据所述第三人声向量确定是否将所述待入库歌曲存入所述曲库。

12.根据权利要求11所述的方法，其特征在于，所述根据所述第三人声向量确定是否将所述待入库歌曲存入所述曲库，包括：

根据所述歌手声纹提取模型对所述第三人声向量进行处理，得到第三声纹信息；

将所述待入库歌手名称与所述曲库中的全部已有歌手名称进行匹配，确定至少一个候选歌手名称；

计算所述至少一个候选歌手名称各自对应的第三声纹信息集合分别与所述第三声纹信息的距离，得到至少一个第三距离；

根据所述至少一个第三距离确定是否将所述待入库歌曲存入所述曲库。

13.根据权利要求12所述的方法，其特征在于，所述将所述待入库歌手名称与所述曲库中的全部已有歌手名称进行匹配，确定至少一个候选歌手名称，包括：

计算所述全部已有歌手名称分别与所述待入库歌手名称的第二相似度；

判断所述全部已有歌手名称中是否包括第二相似度大于第二相似度阈值的第一已有歌手名称；

响应于所述全部已有歌手名称中包括所述第一已有歌手名称，将所述第一已有歌手名称确定为所述至少一个候选歌手名称；或者，

响应于所述全部已有歌手名称中不包括所述第一已有歌手名称，将所述全部已有歌手名称确定为所述至少一个候选歌手名称。

14.根据权利要求12所述的方法，其特征在于，所述将所述待入库歌手名称与所述曲库中的全部已有歌手名称进行匹配，确定至少一个候选歌手名称，包括：

确定所述待入库歌手的除所述待入库歌手名称之外的其他名称、与所述待入库歌手合作的合作歌手的合作歌手名称；

判断所述全部已有歌手名称是否包括所述其他名称或者所述合作歌手名称；

响应于所述全部已有歌手名称包括所述其他名称或者所述合作歌手名称，将所述其他名称和/或所述合作歌手名称确定为所述至少一个候选歌手名称；或者，

响应于所述全部已有歌手名称中不包括所述其他名称和所述合作歌手名称，将所述全部已有歌手名称确定为所述至少一个候选歌手名称。

15.根据权利要求12所述的方法，其特征在于，所述根据所述至少一个第三距离确定是否将所述待入库歌曲存入所述曲库，包括：

判断所述至少一个第三距离中最小的第三距离是否小于第三距离阈值；

响应于所述最小的第三距离小于所述第三距离阈值，计算所述最小的第三距离对应的候选歌手名称与所述待入库歌手名称的第三相似度，根据所述第三相似度确定是否将所述待入库歌曲存入所述曲库；或者，

响应于所述最小的第三距离大于或者等于所述第三距离阈值，确定按照由小至大的顺序排列的所述至少一个第三距离中前第一数量个第三距离对应的候选歌手名称，根据第二审核结果确定是否将所述待入库歌曲存入所述曲库，所述第二审核结果是基于所述前第一数量个第三距离对应的候选歌手名称与所述待入库歌手名称所确定的。

16.根据权利要求15所述的方法，其特征在于，所述根据所述第三相似度确定是否将所述待入库歌曲存入所述曲库，包括：

判断所述第三相似度是否大于第三相似度阈值；

响应于所述第三相似度大于所述第三相似度阈值，将所述待入库歌曲存入所述曲库；或者，

响应于所述第三相似度小于或者等于所述第三相似度阈值，根据第三审核结果确定是否将所述待入库歌曲存入所述曲库，所述第三审核结果是基于所述最小的第三距离对应的候选歌手名称与所述待入库歌手名称所确定的。

17.一种声纹处理装置，其特征在于，所述声纹处理装置包括：收发模块、处理模块，其中，

所述收发模块，用于：获取目标歌手的目标歌曲；

所述处理模块，用于：对所述目标歌曲进行特征提取，得到第一声学特征；

其中，所述歌手声纹提取模型是基于歌曲数据训练得到。

18.根据权利要求17所述的装置，其特征在于，所述处理模块，具体用于：

根据多个所述均值向量，确定所述第一声纹信息。

19.根据权利要求18所述的装置，其特征在于，所述处理模块，具体用于：

计算所述人声向量组的标准差，得到标准差向量；

20.根据权利要求17-19任一项所述的装置，其特征在于，所述歌手声纹提取模型是通过以下步骤训练得到的：

获取多个样本歌手各自独唱的多首样本歌曲；

计算所述第一损失和所述第二损失之和，得到第三损失；

根据所述第三损失训练所述歌手声纹提取模型。

21.根据权利要求17-19任一项所述的装置，其特征在于，

所述收发模块，还用于：获取曲库中多个已有歌手各自的多首已有歌曲；

所述处理模块，还用于：

判断所述第一数量占比是否小于第一占比阈值；

22.根据权利要求21所述的装置，其特征在于，所述多个第二声纹信息分别包括多个第二声纹向量；所述处理模块，具体用于：

23.根据权利要求22所述的装置，其特征在于，所述目标声纹向量为所述多个第二声纹向量的聚类中心。

24.根据权利要求21所述的装置，其特征在于，所述处理模块，还用于：

25.根据权利要求24所述的装置，其特征在于，所述目标已有歌手的声纹信息集合包括多个第三声纹向量，所述至少一个其他已有歌手的声纹信息集合分别包括多个第四声纹向量；所述处理模块，具体用于：

26.根据权利要求24所述的装置，其特征在于，所述处理模块，具体用于：

27.根据权利要求21所述的装置，其特征在于，

所述收发模块，还用于：获取待入库歌手的待入库歌曲和待入库歌手名称；

所述处理模块，还用于：将所述待入库歌曲输入所述歌手声纹提取模型，得到第三人声向量；

28.根据权利要求27所述的装置，其特征在于，所述处理模块，具体用于：

29.根据权利要求28所述的装置，其特征在于，所述处理模块，具体用于：

30.根据权利要求28所述的装置，其特征在于，所述处理模块，具体用于：

31.根据权利要求28所述的装置，其特征在于，所述处理模块，具体用于：

32.根据权利要求31所述的装置，其特征在于，所述处理模块，具体用于：

判断所述第三相似度是否大于第三相似度阈值；

33.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-16任一项所述的方法。

34.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-16任一项所述的方法。

35.一种包含指令的计算机程序产品，其特征在于，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行权利要求1-16中任一项所述的方法。