CN104091600A

CN104091600A - 一种歌声位置检测方法及装置

Info

Publication number: CN104091600A
Application number: CN201410109432.6A
Authority: CN
Inventors: 孔令城
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2014-03-21
Filing date: 2014-03-21
Publication date: 2014-10-08
Anticipated expiration: 2034-03-21
Also published as: CN104091600B

Abstract

本发明实施例公开了歌声位置检测方法及装置，应用于信息处理技术领域。歌声位置检测装置会将待检测歌曲划分为多帧歌曲，并获取每一帧歌曲的特征，如果某一帧歌曲的特征满足第一策略，则得到了包含歌声的一帧歌曲，则储存该帧歌曲的标识信息；为了更准确得到歌声位置，还需要进一步地将上述位置确定的结果与通过第二策略得到的位置进行比较得到最终结果，具体地，将待检测歌曲的所有帧歌曲中，特征满足第二策略的第一个帧歌曲的标识信息，与上述储存的标识信息进行比较，选择某一个标识信息对应帧歌曲的位置作为歌声的位置，这样得到的歌声位置较为准确。本实施例的方法可以快速准确地检测出歌声位置。

Description

一种歌声位置检测方法及装置

技术领域

本发明涉及centroidspectral centroid歌声位置检测方法及装置信息处理技术领域，特别涉及歌声位置检测方法及装置。

背景技术

在音乐的分析中，对于歌声的分析是一个很重要的课题，尤其是在流行音乐中，歌声部分的分析，首先是定位歌声的位置。现有的歌声位置检测方法，有些是完全根据经验对所有的歌曲都按照同样的时间点来截取一段歌曲，然后对这段歌曲进行分析，虽然这一方法符合大部分音乐特性，但是存在着一定的缺陷，毕竟，歌曲种类千差万别，必然会出现所截取的歌曲段并不是有效段的情况。另外一些方法，主要是探究更好的提取流行音乐的歌声部分，然而这类方法的计算量很大，不适合广泛的应用。

发明内容

本发明实施例提供歌声位置检测方法及装置，快速准确地检测出歌声位置。

本发明实施例提供一种歌声位置检测方法，包括：

获取待检测歌曲或经过至少一次处理后的待检测歌曲中当前帧歌曲的特征，所述待检测歌曲划分为多帧歌曲；

如果所述当前帧歌曲的特征满足预置的第一策略，储存所述当前帧歌曲的标识信息；

将所述待检测歌曲的所有帧歌曲中，特征满足预置的第二策略的第一个帧歌曲的标识信息，与储存的所述标识信息进行比较，选择某一标识信息对应帧歌曲所在位置作为所述待检测歌曲中包含歌声的位置；

其中，所述选择的标识信息对应帧歌曲排在所述待检测歌曲较后的位置。

本发明实施例提供一种歌声位置检测装置，包括：

特征获取单元，用于获取待检测歌曲或经过至少一次处理后的待检测歌曲中当前帧歌曲的特征，所述待检测歌曲划分为多帧歌曲；

储存单元，用于如果所述特征获取单元获取的当前帧歌曲的特征满足预置的第一策略，储存所述当前帧歌曲的标识信息；

比较选择单元，用于将所述待检测歌曲的所有帧歌曲中，特征满足预置的第二策略的第一个帧歌曲的标识信息，与储存单元储存的所述标识信息进行比较，选择某一标识信息对应帧歌曲所在位置作为所述待检测歌曲中包含歌声的位置；

本实施例中，歌声位置检测装置会将待检测歌曲划分为多帧歌曲，并获取每一帧歌曲的特征，如果某一帧歌曲的特征满足第一策略，则得到了包含歌声的一帧歌曲，则储存该帧歌曲的标识信息；为了更准确得到歌声位置，还需要进一步地将上述位置确定的结果与通过第二策略得到的位置进行比较得到最终结果，具体地，将待检测歌曲的所有帧歌曲中，特征满足第二策略的第一个帧歌曲的标识信息，与上述储存的标识信息进行比较，选择某一个标识信息对应帧歌曲的位置作为歌声的位置，这样得到的歌声位置较为准确。且由于本实施例中在获取歌曲的特征时以帧为单位，而一帧歌曲的长度较少，则在得到一帧歌曲的特征时，相比得到整个歌曲的特征的计算量少，进而使得本实施例中整个歌声位置检测的流程所花费时间少。综上所述，本实施例的方法可以快速准确地检测出歌声位置。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种歌声位置检测方法的流程图；

图2是本发明实施例提供的另一种歌声位置检测方法的流程图；

图3是本发明应用实施例中提供的一种歌声位置检测方法的流程图；

图4是本发明实施例提供的一种歌声位置检测装置的结构图；

图5是本发明实施例提供的另一种歌声位置检测装置的结构图；

图6是本发明实施例提供的另一种歌声位置检测装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排它的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供一种歌声位置检测方法，主要是检测出某一段歌曲中的唱歌声部分的位置，该方法可以被广泛应用在歌声相关分析系统中前端处理的歌声位置检测过程中，比如应用在歌唱者身份识别、音乐检索和歌曲指纹匹配等领域，本实施例的方法是歌声位置检测装置所执行的方法，流程图如图1所示，包括：

步骤101，获取待检测歌曲或经过至少一次处理后的待检测歌曲中当前帧歌曲的特征，该待检测歌曲划分为多帧歌曲。其中至少一次处理可以包括带通滤波等处理，是为了更好且准确地得到歌曲的特征的处理。

可以理解，本实施例中，歌声位置检测装置首先要将待检测歌曲划分为多帧歌曲，分别计算每一帧歌曲的特征，这里歌曲的特征可以包括能量特征、过零率和谱通量，其中过零率是某一帧歌曲中信号样本改变符号的次数，用来估计歌曲信号的过零频率；谱通量用来描述歌曲信号的频谱变化率。且获取歌曲的特征还可以包括其它特征，比如谱差异（spectral difference）和谱矩心（spectral centroid）等。

步骤102，判断当前帧歌曲的特征是否满足预置的第一策略，如果满足，则执行步骤103，如果不满足，则需要针对待检测歌曲中下一帧歌曲返回执行上述步骤101。

这里预置的第一策略可以是用户预先设置在歌声位置检测装置中的，是能说明在某一帧歌曲中包含了歌声的策略，且针对不同的特征有不同的策略，比如对于能量特征，一般情况下，歌曲中包含歌声部分的能量大于纯音乐部分的能量，则一帧歌曲的能量需要超过预置的第一阈值；对于过零率，一般情况下包含人声的部分过零率比较高，则一帧歌曲的过零率需要超过预置的第二阈值；对于谱通量，一帧歌曲的谱通量需要超过预置的第三阈值。上述第一阈值到第三阈值是歌曲中包含歌声部分时，一般情况下，该部分歌曲信号所具有的特征值。

步骤103，储存当前帧歌曲的标识信息，这里当前帧歌曲的标识信息是用于标识当前帧歌曲是哪一帧的歌曲，比如能标识当前帧歌曲是哪一帧的帧索引等信息。

步骤104，当对待检测歌曲的所有帧歌曲都执行了上述步骤101到102，并对部分帧歌曲执行了上述步骤103之后，歌声位置检测装置还需要得到待检测歌曲的所有帧歌曲中，特征满足预置的第二策略的第一个帧歌曲的标识信息，并将该标识信息与上述步骤103中储存的标识信息进行比较。

其中预置的第二策略可以包括某一个特征（比如能量特征、过零率或谱通量等）超过预置的值，其中由于歌曲的能量特征比较重要，在实际实现时，一般是将预置的第二策略设置为：一帧歌曲的能量超过预置的值。这里得到的第一帧歌曲是指在所有帧歌曲中第一个能满足第二策略的一帧歌曲，说明，从该帧歌曲开始，以后的歌曲中会包含歌声部分。

步骤105，选择某一标识信息对应帧歌曲所在位置作为待检测歌曲中包含歌声的位置。

如果用帧索引来表示上述标识信息，且帧索引是按照递增的方式来标识每一帧歌曲，则如果标识信息即帧索引较大，该标识信息所标识的一帧歌曲排在待检测歌曲较后的位置，因此，在执行本步骤的选择时，由于在一段歌曲中，歌声并不一定是连续地包含在歌曲中，也就是说歌曲中包含歌声的位置有多处，这里可以选择标识信息较大的多帧歌曲所在位置作为待检测歌曲中包含歌声的位置。

可见，本实施例中，歌声位置检测装置会将待检测歌曲划分为多帧歌曲，并获取每一帧歌曲的特征，如果某一帧歌曲的特征满足第一策略，则得到了包含歌声的一帧歌曲，则储存该帧歌曲的标识信息；为了更准确得到歌声位置，还需要进一步地将上述位置确定的结果与通过第二策略得到的位置进行比较得到最终结果，具体地，将待检测歌曲的所有帧歌曲中，特征满足第二策略的第一个帧歌曲的标识信息，与上述储存的标识信息进行比较，选择某一个标识信息对应帧歌曲的位置作为歌声的位置，这样得到的歌声位置较为准确。且由于本实施例中在获取歌曲的特征时以帧为单位，而一帧歌曲的长度较少，则在得到一帧歌曲的特征时，相比得到整个歌曲的特征的计算量少，进而使得本实施例中整个歌声位置检测的流程所花费时间少。综上所述，本实施例的方法可以快速准确地检测出歌声位置。

参考图2所示，在另一个具体的实施例中，歌声位置检测装置在针对能量特征和过零率执行上述不足后101之前，还可以执行步骤201；且在执行完上述步骤101之后，需要先执行步骤202后再执行步骤102，具体地：

步骤202，对待检测歌曲进行带通滤波。

由于人声（即歌声）的频带一般处于340～2500Hz以内，则在获取歌曲的特征之前，有必要去除歌声频带以外的成分，以突出人声的影响，具体地，可以采用如无限脉冲响应（Infinite Impulse Response，IIR）带通数字滤波器等对待检测歌曲进行带通滤波。

且该带通滤波的主要是针对能量特征和过零率，对于谱通量来说是表示帧间频谱的变化速率，反应的是频谱在时间上的起伏，加了带通滤波后，对于非歌声频谱会有消弱，获取的歌声部分和非歌声部分的频谱在时间上的差异会存在不可靠性，因此，在计算谱通量时，不需要对歌曲进行带通滤波。

步骤201，如果当前帧歌曲为待检测歌曲中前段部分歌曲，则对获取的所述当前帧歌曲的特征进行抑制，即将特征值设置在阈值以下，这里个阈值可以是歌曲中不包含歌声的阈值。

由于歌曲之间的特征是千差万别的，但在一般情况下，一首歌曲的前一段，往往是前奏部分，没有歌声，为了不让前奏中歌曲的特征值过大而干扰最终的检测结果，需要对前奏部分的特征值进行抑制。而其中前奏部分的设定可以是用户根据实际预置在歌声位置检测装置中的，比如设置一个待检测歌曲中前20s的部分歌曲为前奏部分。

在另一个具体的实施例中，歌声位置检测装置具体在执行上述步骤101时，根据特征的不同，有不同的获取方法，具体地：

（1）特征为能量特征

计算当前帧歌曲的信号的平方和，即其中x为当前帧歌曲的信号，N为当前帧歌曲的信号的长度为N；然后再用该平方和除以待检测歌曲中所有帧歌曲的信号的平方和的最大值进行归一化，即并将该商作为当前帧歌曲的能量特征。

（2）特征为过零率

计算当前帧歌曲的信号中样本改变符号的次数，具体可以通过符号函数来计算，即：

Z = \frac{1}{2} Σ_{i = 0}^{N - 1} | sgn [x (i)] - sgn [x (i - 1)] |,

其中sgn（x）为符号函数，为

sgn (x) = \{\begin{matrix} 1, (x &GreaterEqual; 0) \\ - 1, (x < 0) \end{matrix};

N为一帧歌曲的信号的样本个数，|·|为取绝对值。

然后再用计算的次数除以待检测歌曲中所有帧歌曲的信号对应样本改变符号次数的最大值进行归一化，即并将该商作为当前帧歌曲的过零率。

（3）特征为谱通量

计算当前帧歌曲的信号与前一帧歌曲的信号归一化频谱系数的差的平方和即FX值，并将该平方和作为当前帧歌曲的谱通量。

FX (t) = Σ_{i = 1}^{N} {(X_{i} (n) - X_{i - 1} (n))}^{2},

其中FX（t）表示第t帧歌曲的信号的谱通量的值；X（n）表示第t帧的频谱系数的归一化值，频谱系数的个数为n，当n=0时，不参与计算，直接设置FX（0）为0或固定的值，其中频谱系数的归一化值X（n）可以通过如下方式获取：

对当前帧歌曲的时域信号进行快速傅里叶变换得到频域信号，Y（n）=fft（x（n）），其中，x（n）为时域信号，fft(·)为快速傅里叶变换；然后对当前帧歌曲的频域信号进行归一化操作得到X（n）。

参考图3所示，以下以一个具体的实施例来说明本发明实施例的歌声位置检测方法，具体包括：

歌声位置检测装置解码一段动态影像专家压缩标准音频层面3（MovingPicture Experts Group Audio Layer III，MP3）音乐并取解码后音乐中前40s的音乐，然后对解码后音乐进行下采样至7350Hz得到待检测音乐；

将待检测音乐划分为n帧音乐，并分别计算n帧音乐的谱通量；且将待检测音乐进行带通滤波后，针对滤波后的待检测音乐所包括的n帧音乐，分别计算n帧音乐的能量特征和过零率；

将上述得到的能量特征、过零率和谱通量进行归一化，并抑制待检测音乐前15s的特征，初始化i=0；

取第i帧音乐的能量特征和过零率，并分别判断该能量特征和过零率是否满足阈值，如果不满足，需要确定该第i帧是否是待检测音乐的最后一帧音乐，如果不是最后一帧，将i的值加1，并返回执行取第i帧音乐的能量特征和过零率的步骤，如果是最后一帧，将i归零，并执行如下的取第i帧音乐的谱通量的步骤；

如果上述能量特征和过零率满足阈值，则继续取第i帧音乐的谱通量，并判断该谱通量是否满足阈值，如果不满足，需要确定该第i帧是否是待检测音乐的最后一帧音乐，如果不是最后一帧，将i的值加1，并返回执行取第i帧音乐的谱通量的步骤，如果是最后一帧，则会执行如下的出能量特征大于阈值的第一个帧的位置的步骤；

如果上述谱通量满足阈值时，在待检测音乐的所有帧音乐中找出能量特征大于阈值的第一个帧的位置，比如第j帧；

对于第i帧音乐，将该i与上述步骤中找到的位置j进行比较，取其中最大值作为待检测音乐中包含歌曲的位置。

本发明实施例还提供一种歌声位置检测装置，其结构示意图如图4所示，包括：

特征获取单元10，用于获取待检测歌曲或经过至少一次处理后的待检测歌曲中当前帧歌曲的特征，所述待检测歌曲划分为多帧歌曲；这里歌曲的特征可以包括能量特征、过零率和谱通量，且获取歌曲的特征还可以包括其它特征，比如谱差异（spectral difference）和谱矩心（spectral centroid）等。

储存单元11，用于如果所述特征获取单元10获取的当前帧歌曲的特征满足预置的第一策略，储存所述当前帧歌曲的标识信息，比如当前帧歌曲的帧索引；这里预置的第一策略可以包括：一帧歌曲的能量需要超过预置的第一阈值；一帧歌曲的过零率需要超过预置的第二阈值；一帧歌曲的谱通量需要超过预置的第三阈值。上述第一阈值到第三阈值是歌曲中包含歌声部分时，一般情况下，该部分歌曲信号所具有的特征值。

比较选择单元12，用于将所述待检测歌曲的所有帧歌曲中，特征满足预置的第二策略的第一个帧歌曲的标识信息，与储存单元11储存的所述标识信息进行比较，选择某一标识信息对应帧歌曲所在位置作为所述待检测歌曲中包含歌声的位置；其中，所述选择的标识信息对应帧歌曲排在所述待检测歌曲较后的位置。

这里预置的策略可以包括：某一个特征（比如能量特征、过零率或谱通量等）超过预置的值。这里得到的第一帧歌曲是指在所有帧歌曲中第一个能满足第二策略的一帧歌曲，说明，从该帧歌曲开始，以后的一段歌曲中会包含歌声部分。如果标识信息为帧索引，则比较选择单元12在选择标识信息时，可以选择比较大的标识信息对应的多帧歌曲所在位置作为待检测歌曲中包含歌声的位置。

本实施例的歌声位置检测装置中，特征获取单元10获取每一帧歌曲的特征，如果某一帧歌曲的特征满足第一策略，则得到了包含歌声的一帧歌曲，则储存单元11储存该帧歌曲的标识信息；为了更准确得到歌声位置，还比较选择单元12需要进一步地将上述位置确定的结果与通过第二策略得到的位置进行比较得到最终结果，具体地，将待检测歌曲的所有帧歌曲中，特征满足第二策略的第一个帧歌曲的标识信息，与上述储存的标识信息进行比较，选择某一个标识信息对应帧歌曲的位置作为歌声的位置，这样得到的歌声位置较为准确。且由于本实施例中在获取歌曲的特征时以帧为单位，而一帧歌曲的长度较少，则在得到一帧歌曲的特征时，相比得到整个歌曲的特征的计算量少，进而使得本实施例中整个歌声位置检测的流程所花费时间少。综上所述，本实施例中歌声位置检测装置所执行的方法可以快速准确地检测出歌声位置。

参考图5所示，本实施例中的歌声位置检测装置除了可以包括如图4所示的结构外，还可以包括抑制单元13和滤波单元14，且其中的特征获取单元10具体可以通过能量特征计算单元110、过零计算单元120和谱通量计算单元130来实现，具体地：

抑制单元13，用于如果所述当前帧歌曲为所述待检测歌曲中前段部分歌曲，则对上述特征获取单元10获取的所述当前帧歌曲的特征进行抑制，将特征设置在阈值以下。

滤波单元14，用于对所述待检测歌曲进行带通滤波。

能量特征计算单元110，用于计算所述当前帧歌曲的信号的平方和；用所述平方和与所述待检测歌曲中所有帧歌曲的信号的平方和的最大值的商作为所述当前帧歌曲的能量特征。

过零计算单元120，用于计算所述当前帧歌曲的信号中样本改变符号的次数；用所述次数与所述待检测歌曲中所有帧歌曲的信号对应样本改变符号次数的最大值的商作为所述当前帧歌曲的过零率。

谱通量计算单元130，用于计算所述当前帧歌曲的信号与前一帧歌曲的信号归一化频谱系数的差的平方和，并将所述平方和作为所述当前帧歌曲的谱通量。

本实施例的歌声位置检测装置中，针对能量特征和过零率，需要由滤波单元14先对待检测歌曲进行带通滤波，然后再由特征获取单元10中的能量特征计算单元110和过零计算单元120分别获取进行带通滤波后的待检测歌曲中当前帧歌曲的能量特征和过零率；当特征获取单元10中的能量特征计算单元110、过零计算单元120和谱通量计算单元130分别计算了能量特征、过零率和谱通量后，可以由抑制单元13对带检测歌曲的前段部分歌曲；然后再确定当前帧歌曲的特征满足预置的第一策略时，由储存单元11进行储存。

以下主要以本发明实施例的歌声位置检测方法应用于终端中来举例说明，该终端可以包括智能手机、平板电脑、电子书阅读器、动态影像专家压缩标准音频层面3（Moving Picture Experts Group Audio Layer III，MP3）播放器、动态影像专家压缩标准音频层面4（Moving Picture Experts Group AudioLayer IV，MP4）播放器、膝上型便携计算机和台式计算机等等。

请参考图6，其示出了本发明实施例所涉及的终端的结构示意图，具体来讲：

终端可以包括射频（Radio Frequency，RF）电路20、包括有一个或一个以上计算机可读存储介质的存储器21、输入单元22、显示单元23、传感器24、音频电路25、无线保真(wireless fidelity，WiFi)模块26、包括有一个或者一个以上处理核心的处理器27、以及电源28等部件。本领域技术人员可以理解，图6中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路20可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器27处理；另外，将涉及上行的数据发送给基站。通常，RF电路20包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块（SIM）卡、收发信机、耦合器、低噪声放大器（Low Noise Amplifier，LNA）、双工器等。此外，RF电路20还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global Systemof Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器21可用于存储软件程序以及模块，处理器27通过运行存储在存储器21的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器21可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据终端的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器21可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器21还可以包括存储器控制器，以提供处理器27和输入单元22对存储器21的访问。

输入单元22可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元22可包括触敏表面221以及其他输入设备222。触敏表面221，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触敏表面221上或在触敏表面221附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面221可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器27，并能接收处理器27发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面221。除了触敏表面221，输入单元22还可以包括其他输入设备222。具体地，其他输入设备222可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元23可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元23可包括显示面板231，可选的，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(OrganicLight-Emitting Diode,OLED)等形式来配置显示面板231。进一步的，触敏表面221可覆盖显示面板231，当触敏表面221检测到在其上或附近的触摸操作后，传送给处理器27以确定触摸事件的类型，随后处理器27根据触摸事件的类型在显示面板231上提供相应的视觉输出。虽然在图6中，触敏表面221与显示面板231是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面221与显示面板231集成而实现输入和输出功能。

终端还可包括至少一种传感器24，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板231的亮度，接近传感器可在终端移动到耳边时，关闭显示面板231和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等;至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路25、扬声器251，传声器252可提供用户与终端之间的音频接口。音频电路25可将接收到的音频数据转换后的电信号，传输到扬声器251，由扬声器251转换为声音信号输出；另一方面，传声器252将收集的声音信号转换为电信号，由音频电路25接收后转换为音频数据，再将音频数据输出处理器27处理后，经RF电路20以发送给比如另一终端，或者将音频数据输出至存储器21以便进一步处理。音频电路25还可能包括耳塞插孔，以提供外设耳机与终端的通信。

WiFi属于短距离无线传输技术，终端通过WiFi模块26可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块26，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器27是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器21内的软件程序和/或模块，以及调用存储在存储器21内的数据，执行终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器27可包括一个或多个处理核心；优选的，处理器27可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器27中。

终端还包括给各个部件供电的电源28（比如电池），优选的，电源可以通过电源管理系统与处理器27逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源28还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器27运行存储器21中加载的一个或一个以上的应用程序的进程，从而实现各种功能：

如果所述获取的当前帧歌曲的特征满足预置的第一策略，储存所述当前帧歌曲的标识信息，比如当前帧歌曲的帧索引；

为了更准确得到歌声位置，还需要进一步地将上述位置确定的结果与通过第二策略得到的位置进行比较得到最终结果，具体地，将所述待检测歌曲的所有帧歌曲中，特征满足预置的第二策略的第一个帧歌曲的标识信息，与储存的所述标识信息进行比较，选择某一标识信息对应帧歌曲所在位置作为所述待检测歌曲中包含歌声的位置；其中，所述选择的标识信息对应帧歌曲排在所述待检测歌曲较后的位置，这样得到的歌声位置较为准确。且由于本实施例中在获取歌曲的特征时以帧为单位，而一帧歌曲的长度较少，则在得到一帧歌曲的特征时，相比得到整个歌曲的特征的计算量少，进而使得本实施例中整个歌声位置检测的流程所花费时间少。综上所述，本实施例中歌声位置检测装置所执行的方法可以快速准确地检测出歌声位置。

其中歌曲的特征可以包括能量特征、过零率和谱通量，且获取歌曲的特征还可以包括其它特征，比如谱差异和谱矩心等。且预置的第一策略可以包括：一帧歌曲的能量需要超过预置的第一阈值；一帧歌曲的过零率需要超过预置的第二阈值；一帧歌曲的谱通量需要超过预置的第三阈值。上述第一阈值到第三阈值是歌曲中包含歌声部分时，一般情况下，该部分歌曲信号所具有的特征值。预置的策略可以包括：某一个特征（比如能量特征、过零率或谱通量等）超过预置的值。且处理器27在选择某一标识信息时，可以选择比较大的标识信息对应多帧歌曲所在位置作为待检测歌曲中包含歌声的位置。

在一个具体的实施例中，处理器27在获取当前帧歌曲的能量特征时，具体可以计算所述当前帧歌曲的信号的平方和；用所述平方和与所述待检测歌曲中所有帧歌曲的信号的平方和的最大值的商作为所述当前帧歌曲的能量特征；在获取当前帧歌曲的过零率时，计算所述当前帧歌曲的信号中样本改变符号的次数；用所述次数与所述待检测歌曲中所有帧歌曲的信号对应样本改变符号次数的最大值的商作为所述当前帧歌曲的过零率；在计算谱通量时，计算所述当前帧歌曲的信号与前一帧歌曲的信号归一化频谱系数的差的平方和，并将所述平方和作为所述当前帧歌曲的谱通量。

在另一个具体的实施例中，针对能量特征和过零率，处理器27需要先对待检测歌曲进行带通滤波，然后再获取进行带通滤波后的待检测歌曲中当前帧歌曲的特征即能量特征和过零率；当处理器27获取到当前帧歌曲的特征，如果所述当前帧歌曲为所述待检测歌曲中前段部分歌曲，则对上述获取的所述当前帧歌曲的特征进行抑制，将特征设置在阈值以下；然后再确定当前帧歌曲的特征满足预置的第一策略时，由进行当前帧歌曲的标识信息的储存。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器（ROM）、随机存取存储器（RAM）、磁盘或光盘等。

以上对本发明实施例所提供的歌声位置检测方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种歌声位置检测方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述获取的待检测歌曲中当前帧歌曲的特征包括：能量特征、过零率和谱通量；

所述预置的第一策略包括：一帧歌曲的能量大于预置的第一阈值，过零率大于预置的第二阈值，且谱通量大于预置的第三阈值；

所述预置的第二策略包括：一帧歌曲的某一特征大于预置的值。

3.如权利要求1所述的方法，其特征在于，所述获取待检测歌曲或经过至少一次处理后的待检测歌曲中当前帧歌曲的特征之后，还包括：

如果所述当前帧歌曲为所述待检测歌曲中前段部分歌曲，则对获取的所述当前帧歌曲的特征进行抑制。

4.如权利要求2或3所述的方法，其特征在于，如果所述特征为能量特征，则所述获取待检测歌曲中当前帧歌曲的特征，具体包括：

计算所述当前帧歌曲的信号的平方和；

用所述平方和与所述待检测歌曲中所有帧歌曲的信号的平方和的最大值的商作为所述当前帧歌曲的能量特征。

5.如权利要求2或3所述的方法，其特征在于，如果所述特征为过零率，则所述获取待检测歌曲中当前帧歌曲的特征，具体包括：

计算所述当前帧歌曲的信号中样本改变符号的次数；

用所述次数与所述待检测歌曲中所有帧歌曲的信号对应样本改变符号次数的最大值的商作为所述当前帧歌曲的过零率。

6.如权利要求4或5所述的方法，其特征在于，所述获取待检测歌曲中当前帧歌曲的特征之前，还包括：

对所述待检测歌曲进行带通滤波；

所述获取经过至少一次处理后的待检测歌曲中当前帧歌曲的特征，具体包括：获取经过所述带通滤波后的待检测歌曲中当前帧歌曲的特征。

7.如权利要求2或3所述的方法，其特征在于，如果所述特征为谱通量，则所述获取待检测歌曲中当前帧歌曲的特征，具体包括：

计算所述当前帧歌曲的信号与前一帧歌曲的信号归一化频谱系数的差的平方和，并将所述平方和作为所述当前帧歌曲的谱通量。

8.一种歌声位置检测装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于，还包括：

抑制单元，用于如果所述当前帧歌曲为所述待检测歌曲中前段部分歌曲，则对获取的所述当前帧歌曲的特征进行抑制。

10.如权利要求8或9所述的装置，其特征在于，所述特征获取单元，具体包括：

能量特征计算单元，用于计算所述当前帧歌曲的信号的平方和；用所述平方和与所述待检测歌曲中所有帧歌曲的信号的平方和的最大值的商作为所述当前帧歌曲的能量特征；

过零计算单元，用于计算所述当前帧歌曲的信号中样本改变符号的次数；用所述次数与所述待检测歌曲中所有帧歌曲的信号对应样本改变符号次数的最大值的商作为所述当前帧歌曲的过零率。

11.如权利要求10所述的装置，其特征在于，还包括：

滤波单元，用于对所述待检测歌曲进行带通滤波；

则所述特征获取单元，具体用于获取经过所述带通滤波后的待检测歌曲中当前帧歌曲的特征。

12.如权利要求8或9所述的装置，其特征在于，所述特征获取单元，具体包括：

谱通量计算单元，用于计算所述当前帧歌曲的信号与前一帧歌曲的信号归一化频谱系数的差的平方和，并将所述平方和作为所述当前帧歌曲的谱通量。