CN111243618B

CN111243618B - 用于确定音频中的特定人声片段的方法、装置和电子设备

Info

Publication number: CN111243618B
Application number: CN201811469871.2A
Authority: CN
Inventors: 曹良博
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2024-03-19
Anticipated expiration: 2038-11-28
Also published as: CN111243618A

Abstract

本申请涉及一种用于确定音频中的特定人声片段的方法，装置和电子设备。该方法包括：获取音频的多个声音片段；从多个声音片段中去除仅包含非人声的声音的非人声片段以获得准人声片段；基于准人声片段中的每个音频帧是否包含人声来确定准人声片段为人声片段；以及，获取人声片段的平均能量值并确定平均能量值高的人声片段为特定人声片段。这样，通过确定音频的多个声音片段是否为人声片段并选择能量平均值高的特定人声片段，可以快速和准确地确定音频中所需的特定人声片段。

Description

用于确定音频中的特定人声片段的方法、装置和电子设备

技术领域

本申请总的来说涉及音频处理技术领域，且更为具体地，涉及一种用于确定音频中的特定人声片段的方法、装置和电子设备。

背景技术

随着各种短视频应用的流行，越来越多的人自己拍摄短视频，并通过配乐来制作短视频。

这种配乐短视频的场景需要使用大量的歌曲片段，并且通常，歌曲片段采用歌曲的副歌部分，俗称为歌曲的高潮部分。

目前，歌曲中的副歌部分可以采用人工标注的方式获得，但是，如果大量级的歌曲副歌部分都用人工标注，将耗费大量的人力物力，且效率很低。

因此，期望提供改进的系统化的方式来确定音频中的特定人声片段。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种用于确定音频中的特定人声片段的方法，其通过确定音频的多个声音片段是否为人声片段并选择能量平均值高的特定人声片段，从而快速和准确地确定音频中所需的特定人声片段。

根据本申请的一方面，提供了一种用于确定音频中的特定人声片段的方法，包括：获取所述音频的多个声音片段；从所述多个声音片段中去除仅包含非人声的声音的非人声片段以获得准人声片段；基于所述准人声片段中的每个音频帧是否包含人声来确定所述准人声片段为人声片段；以及，获取所述人声片段的平均能量值并确定所述平均能量值高的人声片段为特定人声片段。

在上述方法中，基于所述准人声片段中的每个音频帧是否包含人声来确定所述准人声片段为人声片段包括：确定所述准人声片段中包含人声的音频帧的数目；确定所述包含人声的音频帧的数目与所述准人声片段中的总音频帧数目的比值；以及，响应于所述比值大于预定比率阈值，确定所述准人声片段为人声片段。

在上述方法中，获取所述人声片段的平均能量值并确定所述平均能量值高的人声片段为特定人声片段包括：获取所述人声片段中的每个人声片段的平均能量值；根据所述平均能量值对所述人声片段进行排序；以及，选择序列中平均能量值高的一个或多个人声片段作为所述特定人声片段。

在上述方法中，获取音频的多个声音片段包括：获取音频；提取所述音频的常数Q转换频谱数据；对所述常数Q转换频谱数据进行自相关处理；以及，对所述音频的音频帧进行谱聚类以获得所述多个声音片段。

在上述方法中，对所述音频的音频帧进行谱聚类以获得所述多个声音片段包括：对所述音频的音频帧进行谱聚类以获得多个初始片段；确定所述多个初始片段中每个初始片段的时长是否大于预定时长阈值；以及，获得所述多个初始片段中时长大于预定时长阈值的初始片段作为所述多个声音片段。

在上述方法中，对所述音频的音频帧进行谱聚类以获得所述多个声音片段包括：提取所述音频的节拍数据；基于所述节拍数据将所述音频划分为N个部分，N是大于一的整数；对所述N个部分中的每个部分求中值；以及，基于所述N个部分的中值对所述N个部分进行谱聚类以获得所述多个声音片段。

在上述方法中，所述音频是歌曲，且所述特定人声片段是所述歌曲中的副歌部分。

在上述方法中，获取所述人声片段的平均能量值并确定所述平均能量值高的人声片段为特定人声片段包括：获取所述人声片段的平均能量值；以及，结合所述歌曲的动态歌词，所述人声片段的人声音高以及所述人声片段的片段重复次数中的至少一个，来确定所述平均能量值高的人声片段为所述副歌部分。

根据本申请的另一方面，提供了一种用于确定音频中的特定人声片段的装置，包括：声音片段获取单元，用于获取所述音频的多个声音片段；非人声片段去除单元，用于从所述多个声音片段中去除仅包含非人声的声音的非人声片段以获得准人声片段；人声片段确定单元，用于基于所述准人声片段中的每个音频帧是否包含人声来确定所述准人声片段为人声片段；以及，特定片段获取单元，用于获取所述人声片段的平均能量值并确定所述平均能量值高的人声片段为特定人声片段。

在上述装置中，所述人声片段确定单元用于：确定所述准人声片段中包含人声的音频帧的数目；确定所述包含人声的音频帧的数目与所述准人声片段中的总音频帧数目的比值；以及，响应于所述比值大于预定比率阈值，确定所述准人声片段为人声片段。

在上述装置中，所述特定片段获取单元用于：获取所述人声片段中的每个人声片段的平均能量值；根据所述平均能量值对所述人声片段进行排序；以及，选择序列中平均能量值高的一个或多个人声片段作为所述特定人声片段。

在上述装置中，所述声音片段获取单元用于：获取音频；提取所述音频的常数Q转换频谱数据；对所述常数Q转换频谱数据进行自相关处理；以及，对所述音频的音频帧进行谱聚类以获得所述多个声音片段。

在上述装置中，所述声音片段获取单元对所述音频的音频帧进行谱聚类以获得所述多个声音片段包括：对所述音频的音频帧进行谱聚类以获得多个初始片段；确定所述多个初始片段中每个初始片段的时长是否大于预定时长阈值；以及，获得所述多个初始片段中时长大于预定时长阈值的初始片段作为所述多个声音片段。

在上述装置中，所述声音片段获取单元对所述音频的音频帧进行谱聚类以获得所述多个声音片段包括：提取所述音频的节拍数据；基于所述节拍数据将所述音频划分为N个部分，N是大于一的整数；对所述N个部分中的每个部分求中值；以及，基于所述N个部分的中值对所述N个部分进行谱聚类以获得所述多个声音片段。

在上述装置中，所述音频是歌曲，且所述特定人声片段是所述歌曲中的副歌部分。

在上述装置中，所述特定片段获取单元用于：获取所述人声片段的平均能量值；以及，结合所述歌曲的动态歌词，所述人声片段的人声音高以及所述人声片段的片段重复次数中的至少一个，来确定所述平均能量值高的人声片段为所述副歌部分。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的用于确定音频中的特定人声片段的方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的用于确定音频中的特定人声片段的方法。

本申请提供的用于确定音频中的特定人声片段的方法、装置和电子设备，其通过确定音频的多个声音片段是否为人声片段并选择能量平均值高的特定人声片段，能够快速和准确地确定音频中所需的特定人声片段。

附图说明

通过阅读下文优选的具体实施方式中的详细描述，本申请各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。显而易见地，下面描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。而且在整个附图中，用相同的附图标记表示相同的部件。

图1图示了根据本申请实施例的用于确定音频中的特定人声片段的方法的流程图；

图2图示了根据本申请实施例的音频分段过程的示例的流程图。

图3图示了根据本申请实施例的音频的分类分段频谱数据的示意图。

图4图示了根据本申请实施例的分类分段频谱数据的人声标注的示意图；

图5图示了根据本申请实施例的用于确定音频中的特定人声片段的装置的框图；

图6图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，在短视频的制作中，用户通常期望提取歌曲中的副歌部分。目前的一种方法是通过指定副歌时长，根据信号能量和音高值来定位副歌片段。但是，这种方法的缺点在于很难人为地指定准确的副歌时长，而这会显著地影响最终的数据准确率，

目前的另一种方法是通过振幅的大小对比来确定副歌的位置，但是，其缺点在于在仅通过振幅大小来定位的情况下，丢失了很多特征，且极易命中那些声音大的片段，比如歌曲中的间奏或前奏。

针对上述技术问题，本申请的基本构思是考虑音频中的人声帧，从而排除不包含人声的音频部分，比如歌曲的间奏，并结合人声片段的平均能量值，从而快速和准确地确定音频中的特定人声部分。

具体地，本申请提供的用于确定音频中的特定人声片段的方法，装置和电子设备可以首先获取所述音频的多个声音片段，然后从所述多个声音片段中去除仅包含非人声的声音的非人声片段以获得准人声片段，再基于所述准人声片段中的每个音频帧是否包含人声来确定所述准人声片段为人声片段，最后获取所述人声片段的平均能量值并确定所述平均能量值高的人声片段为特定人声片段。因此，本申请的方案通过引入人声标识，可以大概率地排除掉了非人声片段。

这里，本领域技术人员可以理解，本申请的用于确定音频中的特定人声片段的方法，装置和电子设备可以应用于各种需要确定音频中的特定人声片段的场景。例如，通过如上所述确定歌曲中的副歌部分，本申请可以应用于短视频配乐、歌曲快速试听等场景下。另外，本申请还可以应用于其它场景，例如确定会议录音中主讲人的讲话部分的场景。因此，本申请中的音频包括各种包含人声的音频，且特定人声片段可以是所述音频中的任何用户期望提取的主要人声部分。

另外，本领域技术人员可以理解，本申请的方案除了用于确定音频中的特定人声片段之外，也可以等效地应用于确定音频中的其它特定类型的声音片段，例如动物声音、机器声音等。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图1图示了根据本申请实施例的用于确定音频中的特定人声片段的方法的流程图。

如图1所示，根据本申请实施例的用于确定音频中的特定人声片段的方法包括：S110，获取所述音频的多个声音片段；S120，从所述多个声音片段中去除仅包含非人声的声音的非人声片段以获得准人声片段；S130，基于所述准人声片段中的每个音频帧是否包含人声来确定所述准人声片段为人声片段；以及S140，获取所述人声片段的平均能量值并确定所述平均能量值高的人声片段为特定人声片段。

在步骤S110中，获取所述音频的多个声音片段。如上所述，在根据本申请实施例的用于确定音频中的特定人声片段的方法中，所述音频可以是歌曲，或者是会议录音、采访录音等。并且，可以简单地将所述音频划分为多个声音片段，例如多个相等时间长度的声音片段。但是，为了提高特定人声片段的定位准确性，可以采用特定的分类分段的方式，这将在下文中进一步详细说明。

在步骤S120中，从所述多个声音片段中去除仅包含非人声的声音的非人声片段以获得准人声片段。具体地，以歌曲为例，歌曲中通常包括包含人声的部分，即演唱部分，以及不包含人声的部分，例如歌曲的前奏、间奏等纯音乐部分。由于根据本申请实施例的方案是用于确定特定人声片段，因此，通过从声音片段中排除仅包含非人声的声音的非人声片段，可以提高定位准确性。例如，通过判断声音片段是否是纯音乐，可以更精准地定位非纯音乐的人声片段，从而极大地提高了副歌定位准确率。具体地，可以通过例如机器学习算法等方式来标注声音片段是否为仅包含非人声的声音的非人声片段，例如，纯音乐片段。

在步骤S130中，基于所述准人声片段中的每个音频帧是否包含人声来确定所述准人声片段为人声片段。也就是说，通过上述步骤S120，在声音片段中排除了仅包含非人声的声音的非人声片段，从而获得包含人声的准人声片段。但是，在这些准人声片段中，有可能仅包含少量人声，而包含大量的其它声音。例如，在会议录音场景下，针对包含非主讲人讲话的声音片段，例如开场致辞等声音片段，可能仅包含少量人声。

因此，在本申请实施例中，进一步确定所述准人声片段中的每个音频帧是否包含人声，并基于包含人声的音频帧占整个片段的比率来确定所述准人声片段是否为人声片段。这里，针对不同场景，可以设置不同的比率阈值，例如，对于歌曲的副歌部分，可以设置比率阈值为50％，而针对会议中的主讲人讲话部分，可以设置比率阈值为70％。并且，可以利用机器学习算法或工程算法标注每个音频帧中是否包含人声。

也就是，在根据本申请实施例的用于确定音频中的特定人声片段的方法中，基于所述准人声片段中的每个音频帧是否包含人声来确定所述准人声片段为人声片段包括：确定所述准人声片段中包含人声的音频帧的数目；确定所述包含人声的音频帧的数目与所述准人声片段中的总音频帧数目的比值；以及，响应于所述比值大于预定比率阈值，确定所述准人声片段为人声片段。

在步骤S140中，获取所述人声片段的平均能量值并确定所述平均能量值高的人声片段为特定人声片段。也就是，通过如上所述的对于声音片段的过滤操作，可以获得想要的主要包含人声的人声片段，作为经过人声标注后的有效片段。然后，可以进一步结合人声片段的能量值特征，例如，能量平均值(例如，以分贝为单位)确定特定人声片段。另外，针对特定人声片段，例如歌曲的副歌部分的能量值特征，选择平均能量值大的人声片段作为所述特定人声片段。

也就是，在根据本申请实施例的用于确定音频中的特定人声片段的方法中，获取所述人声片段的平均能量值并确定所述平均能量值高的人声片段为特定人声片段包括：获取所述人声片段中的每个人声片段的平均能量值；根据所述平均能量值对所述人声片段进行排序；以及，选择序列中平均能量值高的一个或多个人声片段作为所述特定人声片段。

如上所述，为了提高特定人声片段的定位准确性，可以采用特定的分类分段的方式，具体地，本申请实施例可以采用自相关技术和谱聚类技术，来分类划分声音频段。

图2图示了根据本申请实施例的音频分段过程的示例的流程图。如图2所示，所述音频分段过程包括：

S210，获取音频文件；例如，所述音频文件可以是常见的各种品质和格式的歌曲文件，或者包含其它音频内容的音频文件。

S220，提取所述音频文件的常数Q转换频谱数据；这里，常数Q转换是一种重要的时频分析工具，且特别适用于音乐信号的分析，这个转换产生的频谱最大的特色是在频率轴为对数标度而不是线性标度，且窗口长度会随着频率而改变。并且，本领域技术人员可以理解，除了常数Q转换以外，还可以利用例如短时傅里叶变换的其它变换方式得到频谱数据，其中，短时傅里叶变换是与傅里叶变换相关的一种数学变换，用以确定时变信号其局部区域正弦波的频率与相位。并且，在转换为频谱数据之后，可以直接基于所述频谱数据转化分贝(单位)，以用于后续确定片段的能量平均值。

S230，对所述常数Q转换频谱数据进行自相关处理；这里，自相关也被称为序列相关，是一个信号于其自身在不同时间点的互相关。简单来说，可以看作对信号的两次观察之间的相似度对它们之间的时间差的函数。

S240，对所述音频的音频帧进行谱聚类以获得所述多个声音片段；相比于其它聚类算法，谱聚类算法建立在谱图理论基础上，有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。

因此，在根据本申请实施例的用于确定音频中的特定人声片段的方法中，获取音频的多个声音片段包括：获取音频；提取所述音频的常数Q转换频谱数据；对所述常数Q转换频谱数据进行自相关处理；以及，对所述音频的音频帧进行谱聚类以获得所述多个声音片段。

此外，如图2所示，在步骤S230之前，为了降低自相关处理和谱聚类的计算复杂度，可以包括步骤S250，对所获得的频谱数据进行降维操作。具体地，可以提取音频的节拍数据N拍，然后按节拍把音频按照时域维度划分成N份，然后每份求中值，目标数据变为N帧。

也就是，在如上所述的音频分段过程中，对所述音频的音频帧进行谱聚类以获得所述多个声音片段包括：提取所述音频的节拍数据；基于所述节拍数据将所述音频划分为N个部分，N是大于一的整数；对所述N个部分中的每个部分求中值；以及，基于所述N个部分的中值对所述N个部分进行谱聚类以获得所述多个声音片段。

此外，如图2所示，在步骤S240之后，由于通过谱聚类算法获得的声音片段并不限定片段长度，而在本申请实施例中，通常所述特定人声片段的长度不会过小，因此可以进一步包括步骤S260，去除短时长声音片段。例如，可以去掉片段时长不足10秒的片段。

也就是，在如上所述的音频分段过程中，对所述音频的音频帧进行谱聚类以获得所述多个声音片段包括：对所述音频的音频帧进行谱聚类以获得多个初始片段；确定所述多个初始片段中每个初始片段的时长是否大于预定时长阈值；以及，获得所述多个初始片段中时长大于预定时长阈值的初始片段作为所述多个声音片段。

这样，通过如图2所示的音频分段操作，可以将音频划分为多个不同类别的分段，例如，如图3所示，频谱数据被划分为ABCBA这五个片段。图3图示了根据本申请实施例的音频的分类分段频谱数据的示意图。因此，相对于人工指定副歌时长的现有方式，通过采用自相关技术和谱聚类技术，可以自然地定位分段长度。从而进一步结合如上所述的能量值均值算法，可以在片段划分好的基础上快速地定位出副歌片段。

接下来，可以按照如上所述的方式对所述频谱数据的分段是否为人声片段进行标注，例如，如图4所示，将频谱数据中的人声片段标注为1，且将其它片段标注为0。图4图示了根据本申请实施例的分类分段频谱数据的人声标注的示意图。

另外，针对确定歌曲中的副歌部分的特定场景，还可以基于其它参数来协同确定副歌部分。例如，考虑副歌片段重复性的特点，可以进一步考虑人声片段的片段重复次数，则可以提高最终的准确率。另外，还可以结合歌曲的动态歌词，以及人声的音高等。

因此，在根据本申请实施例的用于确定音频中的特定人声片段的方法中，获取所述人声片段的平均能量值并确定所述平均能量值高的人声片段为特定人声片段包括：获取所述人声片段的平均能量值；以及，结合所述歌曲的动态歌词，所述人声片段的人声音高以及所述人声片段的片段重复次数中的至少一个，来确定所述平均能量值高的人声片段为所述副歌部分。

示意性装置

图5图示了根据本申请实施例的用于确定音频中的特定人声片段的装置的框图。

如图5所示，根据本申请实施例的用于确定音频中的特定人声片段的装置300包括：声音片段获取单元310，用于获取所述音频的多个声音片段；非人声片段去除单元320，用于从所述多个声音片段中去除仅包含非人声的声音的非人声片段以获得准人声片段；人声片段确定单元330，用于基于所述准人声片段中的每个音频帧是否包含人声来确定所述准人声片段为人声片段；以及，特定片段获取单元340，用于获取所述人声片段的平均能量值并确定所述平均能量值高的人声片段为特定人声片段。

在一个示例中，在上述装置300中，所述人声片段确定单元330用于：确定所述准人声片段中包含人声的音频帧的数目；确定所述包含人声的音频帧的数目与所述准人声片段中的总音频帧数目的比值；以及，响应于所述比值大于预定比率阈值，确定所述准人声片段为人声片段。

在一个示例中，在上述装置300中，所述特定片段获取单元340用于：获取所述人声片段中的每个人声片段的平均能量值；根据所述平均能量值对所述人声片段进行排序；以及，选择序列中平均能量值高的一个或多个人声片段作为所述特定人声片段。

在一个示例中，在上述装置300中，所述声音片段获取单元310用于：获取音频；提取所述音频的常数Q转换频谱数据；对所述常数Q转换频谱数据进行自相关处理；以及，对所述音频的音频帧进行谱聚类以获得所述多个声音片段。

在一个示例中，在上述装置300中，所述声音片段获取单元310对所述音频的音频帧进行谱聚类以获得所述多个声音片段包括：对所述音频的音频帧进行谱聚类以获得多个初始片段；确定所述多个初始片段中每个初始片段的时长是否大于预定时长阈值；以及，获得所述多个初始片段中时长大于预定时长阈值的初始片段作为所述多个声音片段。

在一个示例中，在上述装置300中，所述声音片段获取单元310对所述音频的音频帧进行谱聚类以获得所述多个声音片段包括：提取所述音频的节拍数据；基于所述节拍数据将所述音频划分为N个部分，N是大于一的整数；对所述N个部分中的每个部分求中值；以及，基于所述N个部分的中值对所述N个部分进行谱聚类以获得所述多个声音片段。

在一个示例中，在上述装置300中，所述音频是歌曲，且所述特定人声片段是所述歌曲中的副歌部分。

在一个示例中，在上述装置300中，所述特定片段获取单元340用于：获取所述人声片段的平均能量值；以及，结合所述歌曲的动态歌词，所述人声片段的人声音高以及所述人声片段的片段重复次数中的至少一个，来确定所述平均能量值高的人声片段为所述副歌部分。

这里，本领域技术人员可以理解，上述用于确定音频中的特定人声片段的装置300中的各个单元和模块的具体功能和操作已经在上面参考图1到图4描述的用于确定音频中的特定人声片段的方法中详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的用于确定音频中的特定人声片段的装置300可以实现在各种终端设备中，例如用户使用来拍摄短视频的智能手机、平板电脑，或者提供歌曲快速试听服务的服务器等。在一个示例中，根据本申请实施例的装置300可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该装置300可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端证设备所开发的一个应用程序；当然，该装置300同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该装置300与该终端设备也可以是分立的设备，并且该装置300可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图6来描述根据本申请实施例的电子设备。

图6图示了根据本申请实施例的电子设备的框图。

如图6所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的用于确定音频中的特定人声片段的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如非人声片段、准人声片段、人声片段等数据。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以包括比如麦克风的音频采集设备，或者键盘、鼠标等。

该输出装置14可以向用户播放从音频中定位的特定人声片段，例如歌曲的副歌部分。该输出设备14还可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图6中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于确定音频中的特定人声片段的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于确定音频中的特定人声片段的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种用于确定音频中的特定人声片段的方法，包括：

获取音频；

提取所述音频的频谱数据；

对所述频谱数据进行自相关处理；

对所述音频的音频帧进行谱聚类以获得所述音频的多个声音片段；

从所述多个声音片段中去除仅包含非人声的声音的非人声片段以获得准人声片段；

确定所述准人声片段中包含人声的音频帧的数目；

确定所述包含人声的音频帧的数目与所述准人声片段中的总音频帧数目的比值；以及

响应于所述比值大于预定比率阈值，确定所述准人声片段为人声片段，其中，针对不同场景，所述预定比率阈值不同；以及

获取所述人声片段的平均能量值并确定所述平均能量值高的人声片段为特定人声片段；

对所述音频的音频帧进行谱聚类以获得所述多个声音片段包括：

提取所述音频的节拍数据；

基于所述节拍数据将所述音频划分为N个部分，N是大于1的整数；

对所述N个部分中的每个部分求中值；以及

基于所述N个部分的中值对所述N个部分进行谱聚类以获得所述多个声音片段。

2.根据权利要求1所述的方法，其中，获取所述人声片段的平均能量值并确定所述平均能量值高的人声片段为特定人声片段包括：

获取所述人声片段中的每个人声片段的平均能量值；

根据所述平均能量值对所述人声片段进行排序；以及

选择序列中平均能量值高的一个或多个人声片段作为所述特定人声片段。

3.根据权利要求1所述的方法，提取所述音频的频谱数据，包括：

提取所述音频的常数Q转换频谱数据；相应地，对所述频谱数据进行自相关处理，包括：

对所述常数Q转换频谱数据进行自相关处理。

4.根据权利要求1所述的方法，其中，对所述音频的音频帧进行谱聚类以获得所述多个声音片段包括：

对所述音频的音频帧进行谱聚类以获得多个初始片段；

确定所述多个初始片段中每个初始片段的时长是否大于预定时长阈值；以及

获得所述多个初始片段中时长大于预定时长阈值的初始片段作为所述多个声音片段。

5.根据权利要求1到4中任意一项所述的方法，其中，所述音频是歌曲，且所述特定人声片段是所述歌曲中的副歌部分。

6. 根据权利要求5所述的方法，其中，获取所述人声片段的平均能量值并确定所述平均能量值高的人声片段为特定人声片段包括：

获取所述人声片段的平均能量值；以及

结合所述歌曲的动态歌词，所述人声片段的人声音高以及所述人声片段的片段重复次数中的至少一个，来确定所述平均能量值高的人声片段为所述副歌部分。

7.一种用于确定音频中的特定人声片段的装置，包括：

声音片段获取单元，用于获取音频；

提取所述音频的常数Q转换频谱数据；

对所述常数Q转换频谱数据进行自相关处理；

对所述音频的音频帧进行谱聚类以获得作为所述音频的多个声音片段；

非人声片段去除单元，用于从所述多个声音片段中去除仅包含非人声的声音的非人声片段以获得准人声片段；

人声片段确定单元，用于确定所述准人声片段中包含人声的音频帧的数目；

特定片段获取单元，用于获取所述人声片段的平均能量值并确定所述平均能量值高的人声片段为特定人声片段；

所述声音片段获取单元对所述音频的音频帧进行谱聚类以获得所述多个声音片段包括：

提取所述音频的节拍数据；

基于所述节拍数据将所述音频划分为N个部分，N是大于一的整数；

对所述N个部分中的每个部分求中值；以及

8.根据权利要求7所述的装置，其中，所述特定片段获取单元用于：

获取所述人声片段中的每个人声片段的平均能量值；

根据所述平均能量值对所述人声片段进行排序；以及

9.根据权利要求7所述的装置，所述声音片段获取单元具体用于：提取所述音频的常数Q转换频谱数据；对所述常数Q转换频谱数据进行自相关处理。

10.根据权利要求9所述的装置，其中，所述声音片段获取单元对所述音频的音频帧进行谱聚类以获得所述多个声音片段包括：

对所述音频的音频帧进行谱聚类以获得多个初始片段；

11.根据权利要求7到10中任意一项所述的装置，其中，所述音频是歌曲，且所述特定人声片段是所述歌曲中的副歌部分。

12. 根据权利要求11所述的装置，其中，所述特定片段获取单元用于：

获取所述人声片段的平均能量值；以及

13. 一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-6中任一项所述的用于确定音频中的特定人声片段的方法。