CN101650940A

CN101650940A - 基于音频频谱特征分析的演唱音色纯净度的客观评测方法

Info

Publication number: CN101650940A
Application number: CN200810224789A
Authority: CN
Inventors: 颜永红; 潘接林; 刘建; 李明; 曹川�
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2008-12-26
Filing date: 2008-12-26
Publication date: 2010-02-17

Abstract

本发明提供一种基于演唱片段频谱特征分析的音色纯净度客观评测方法，包括如下步骤：1)选取需要度量音色纯净度的演唱片段音频信号；2)对步骤1)的演唱信号进行基频提取；3)用步骤2)中量化出的基频序列定位音频信号中所有浊音段的谐波结构；4)根据步骤3)中得到的谐波结构，计算得到四种频谱特征测度：谐波结构能量和、噪声能量、宽带能量和以及窄带能量和；5)根据步骤4)中得到的频谱特征，计算得到最终的音色纯净度的客观度量参数指标：平均谐噪比以及平均窄带宽带能量比，利用求出的参数指标对演唱音色的纯净度进行评测。本发明的评测方法，利用计算机算法给出量化的指标，不受人为因素影响并具有稳定性、客观性及便利性等优点。

Description

基于音频频谱特征分析的演唱音色纯净度的客观评测方法

技术领域

本发明涉及一种度量演唱音色纯净度的客观方法，更具体地说，本发明涉及一种基于音频频谱特征分析的演唱音色纯净度的客观评测方法。

背景技术

音色纯净度是指一种用于评价唱歌者演唱水平的主观指标，一般定义为一种清晰、良好的演唱发声的主观感知。主观评价人感觉唱歌者的声音越清晰、纯净，则认为唱歌者的演唱音色纯净度越高，反之，则认为演唱音色纯净度越低。这里的主观评价人，一般指的是声乐专家，比如声乐老师和资深音乐家。而唱歌者可以是专业的歌手、声乐系学生，也可以是普通人。

目前，演唱评价基本还是处于完全依靠专家主观评价的阶段，并没有成熟的客观评价系统能够对演唱水平或演唱水平的某个方面进行度量和评价。演唱音色纯净度的评价也完全依赖专家的主观感知，目前还没有客观度量的方法或者辅助主观评价的客观指标。虽然国外一些研究调查发现音色纯净度的评价和频谱噪声有一定的关系，但是并没有具体的、定义明确的客观度量方法出现。例如，文献1提出音色明亮度与频谱能量分布有关，但是并没有给出具体的的计算方法。另外，在对音色纯净度进行评价时，演唱者的音高是一个基本信息，我们采用参考文献2中的方法提取演唱者的音高，该方法通过求取每帧数据频谱谐波和最大值对应的基频作为每帧的音高值。这里，需要说明的是，该方法得到的音高值仅仅作为计算音色的一个基本参数值，与本专利的独特性无关。

另外，主观演唱评价方法不可避免的具有以下几个缺点：第一，不可重复性。因为各种各样因素的影响，对于同样一个演唱片段，两次主观评价之间或多或少的都会出现差异，而这种差异在理想情况下是不应该存在的。第二，主观偏向性。因为每个评价人都有各自不同的喜好，所以对于同一个演唱片段，每个评价人都有各自不同的评价，都有各自的偏向性。第三，费用昂贵，可获得性差。对于一般的普通人来说(不是专业的声乐学校的学生)，要获得声乐专家的主观评价，是很困难的或费用高昂的。

参考文献1：E.Ekholm，G.Papagiannis，and F.Chagnon，“Relating ObjectiveMeasurements to Expert Evaluation of Voice Quality in Western Classical Singing：Critical Perceptual Parameters，”Journal of Voice，vol.12，no.2，pp.182-196，1998.

参考文献2：C.Cao，M.Li，J.Liu，and Y.Yan，“Singing Melody Extraction inPolyphonic Music by Harmonic Tracking，”Proc.8th International Conference on MusicInformation Retrieval(ISMIR)，pp.373-374，2007.

发明内容

因此，鉴于上述现状，本发明的目的在于提供一种基于演唱片段的频谱特征分析的音色纯净度的客观评测方法，通过对演唱片段的频谱特征分析，给出可以量化的客观度量参数指标。

为实现上述发明目的，本发明的基于演唱片段频谱特征分析的音色纯净度客观评测方法，包括如下步骤：

1)选取需要度量音色纯净度的演唱片段音频信号；

2)对步骤1)的演唱信号进行基频提取；

3)用步骤2)中量化出的基频序列，定位音频信号中所有浊音段的谐波结构；

4)对上述步骤3)中得到的谐波结构，计算得到四种频谱特征测度：谐波结构能量和、噪声能量、宽带能量和以及窄带能量和；

5)根据上述步骤4)中得到的频谱特征，计算得到最终的音色纯净度的客观度量参数指标。

与现有的主观评价的方法相比，本发明提及的两种客观度量方法具有以下优点：稳定性、客观性、便利性。由于是基于音频信号频谱特征的客观评价方法，只要输入的演唱音频信号一致，则度量结果保持不变，不受其他人为因素影响。同时，计算机算法的便利程度较声乐专家主观评价的方式有很大改进，只需将录制的演唱片段输入，算法即可以给出客观度量参数。

附图说明

图1是本发明的基于音频频谱特征分析的演唱音色纯净度的客观评测方法的流程图。

具体实施方式

下面结合附图及具体实施方式对本发明的基于音频频谱特征分析的演唱音色纯净度的客观评测方法做进一步详细描述。

如图1所示，本发明提供的基于音频频谱特征分析的演唱音色纯净度的客观评测方法，包括如下步骤：

1)选取需要度量音色纯净度的演唱片段音频信号；

该步骤1)中，首先输入演唱片段的音频数据。

在本发明的基于演唱频谱特征分析的音色纯净度的客观评测方法中，音频数据的格式可以采用16K 16Bit Windows PCM格式等任何一种采样率来进行处理。作为一个实施例，我们采用16K采样率的音频数据格式，每个采样点用16Bit数来表示。

2)对步骤1)的演唱信号进行基频提取；

在基频提取步骤中，我们采用的是基于谐波和的基频提取算法。简要地说，该方法通过计算归一化谐波和谱对信号基频f₀序列进行估计，每个浊音帧输出一个基频估计值。基频的具体计算方法与参考文献2中描述基本一致，通过求取每帧数据频谱谐波和最大值对应的基频获得。

3)利用步骤2)中量化出的基频序列，定位音频信号中所有浊音段的谐波结构；

在演唱片段音频基频序列f₀已确定的基础上，下一步进行演唱浊音段的谐波结构定位。谐波结构S_v指的是浊音段(有真实基频的帧)的基频及其各次谐波构成的一簇频谱分量以及各次谐波之间构成的关系。在本发明中，我们只需要定位各次谐波所在的位置f_i ^j即可进行之后的特征计算。具体的定位方法如下：

{f_{i}}^{j} = \underset{f &Element; Φ_{i}^{j}}{\arg \max} S_{i} (f),

Φ_{i}^{j} = (j \cdot f_{0} - σ, j \cdot f_{0} + σ]

其中，f_i ^j指的是第i帧的第j次谐波所在位置，S_i(f)为该帧的FFT能量谱，f₀为该帧的基频值，σ为谐波位置的搜索范围。简单地说，在本发明中的谐波位置由基频整数倍局部范围内最大频谱能量值所在位置确定的。

该步骤是进行各种频谱特征测度的计算：

第一频谱特征：谐波结构能量和，其计算公式为

E_{H} = \underset{j}{Σ} ({&Integral;}_{{f_{i}}^{j} - σ_{H}}^{{f_{i}}^{j} + σ_{H}} S_{i} (f) df)

其中，σ_H为设定的谐波宽度参数。谐波结构能量和E_H主要度量的是该浊音帧整个谐波簇的能量总和。因为演唱片段中谐波结构是由规则、良好的声带振动产生的，谐波结构的能量和在一定程度上可以代表良好振动的程度。

第二频谱特征：噪声能量和。可把整个频谱分为谐波分量和非谐波分量，在这里，把非谐波分量认为是由不规则的声带振动引起的“噪声”部分，其计算方法为

E_{N} = &Integral; S_{i} (f) df - \underset{j}{Σ} ({&Integral;}_{{f_{i}}^{j} - σ_{H}}^{{f_{i}}^{j} + σ_{H}} S_{i} (f) df)

其中，∫S_i(f)df为整个频谱能量和，减号后面是E_H的展开形式。

第三个特征：窄带能量和，其定义为浊音帧各次谐波附近一个窄带内能量的总和，在一定程度上也反映了规则声带振动的程度。其计算公式为：

E_{NB} = \underset{j}{Σ} ({&Integral;}_{{f_{i}}^{j} - σ_{N}}^{{f_{i}}^{j} + σ_{N}} S_{i} (f) df)

其中，σ_N为设定的窄带带宽。

第四特征：宽带能量和，其定义为浊音帧各次谐波附近一个宽带内能量的总和，这其中包含规则振动的能量部分，也包含由于声带不规则振动引起的能量泄露部分。其计算方法为：

E_{WB} = \underset{j}{Σ} ({&Integral;}_{{f_{i}}^{j} - σ_{W}}^{{f_{i}}^{j} + σ_{W}} S_{i} (f) df)

其中，σ_W为设定的宽带带宽。

5)根据上述步骤4)中得到的频谱特征，计算得到最终的音色纯净度的客观度量参数指标：平均谐噪比以及平均窄带宽带能量比。

在获得了“谐波结构能量和”、“噪声能量和”的情况下，计算出平均谐噪比作为演唱音色纯净度的客观度量参数指标。

平均谐噪比的计算：

对于任何浊音帧，其谐噪比的计算公式为：

{HNR}_{i} = \frac{E_{H}}{E_{N}} = \frac{\underset{j}{Σ} ({&Integral;}_{{f_{i}}^{j} - σ_{H}}^{{f_{i}}^{j} + σ_{H}} S_{i} (f) df)}{{&Integral; S}_{i} (f) df - \underset{j}{Σ} ({&Integral;}_{{f_{i}}^{j} - σ}^{{f_{i}}^{j} + σ} S_{i} (f) df)}

平均谐噪比HNR就是该演唱音频信号中所有浊音帧谐噪比HNR_i的算术平均值。在本发明中，平均谐噪比即可作为演唱音色纯净度的一个客观度量，取值范围为0～1，平均谐噪比越大，说明演唱片段音色纯净度越高，反之，平均谐噪比越小，说明音色纯净度越低。

另外，也可以在获得了“窄带能量和”、“宽带能量和”的情况下，计算出平均窄带宽带能量比作为演唱音色纯净度的客观度量参数指标。

平均窄带宽带能量比的计算：

对于任何浊音帧，其窄带宽带能量比的计算公式为：

{NWR}_{i} = \frac{E_{NB}}{E_{WB}} = \frac{\underset{j}{Σ} ({&Integral;}_{{f_{i}}^{j} - σ_{N}}^{{f_{i}}^{j} + σ_{N}} S_{i} (f) df)}{\underset{j}{Σ} ({&Integral;}_{{f_{i}}^{j} - σ_{W}}^{{f_{i}}^{j} + σ_{W}} S_{i} (f) df)}

平均窄带宽带能量比NWR就是该演唱音频信号中所有浊音帧窄带宽带能量比NWR_i的算术平均值。在本发明中，平均窄带宽带能量比也可作为演唱音色纯净度的另一个客观度量，取值范围为0～1，平均窄带宽带能量比越大，说明演唱片段音色纯净度越高，反之，平均窄带宽带能量比越小，说明音色纯净度越低。

另外，本发明的基于演唱片段频谱特征分析的音色纯净度客观评测方法，还可以将上述两个度量指标结合起来对音色纯净度进行评测。即将两种测度进行加权平均后的值作为指标。至于加权的方式和具体数值我们不做具体限定，可以是线性加权，也可以是指数加权。

Claims

1、一种基于音频频谱特征分析的演唱音色纯净度的客观评测方法，包括如下步骤：

1)选取需要度量音色纯净度的演唱片段音频信号；

2)对步骤1)的演唱信号进行基频提取；

5)根据上述步骤4)中得到的频谱特征，计算得到最终的音色纯净度的客观度量参数指标：平均谐噪比以及平均窄带宽带能量比，然后利用求出的参数指标对演唱音色的纯净度进行评测。

2、如权利要求1所述的基于音频频谱特征分析的演唱音色纯净度的客观评测方法，其特征在于，所述步骤5)中，在利用求出的参数指标对演唱音色的纯净度进行评测时，单独基于所述平均谐噪比或者平均窄带宽带能量比进行评价，或者将所述平均谐噪比和平均窄带宽带能量比相结合进行评价。

3、如权利要求1或2所述的基于音频频谱特征分析的演唱音色纯净度的客观评测方法，其特征在于，所述步骤1)中的基频提取采用基于谐波和的基频提取算法。

4、如权利要求1或2所述的基于音频频谱特征分析的演唱音色纯净度的客观评测方法，其特征在于，所述步骤2)中的谐波结构S_v是指浊音段的基频及其各次谐波构成的一簇频谱分量以及各次谐波之间构成的关系，这里，定位各次谐波所在的位置f_i ^j，具体的定位方法如下：

f_{i}^{j} = \underset{f &Element; Φ_{i}^{j}}{\arg \max} S_{i} (f),

Φ_{i}^{j} = (j \cdot f_{0} - σ, j \cdot f_{0} + σ]

其中，f_i ^j指的是第i帧的第j次谐波所在位置，S_i(f)为该帧的FFT能量谱，f₀为该帧的基频值，σ为谐波位置的搜索范围。

5、如权利要求1或2所述的基于音频频谱特征分析的演唱音色纯净度的客观评测方法，其特征在于，

所述步骤4)中各频谱特征测度的计算方法分别为：

1)谐波结构能量和：其计算公式为

E_{H} = \underset{j}{Σ} ({&Integral;}_{f_{i}^{j} - σ_{H}}^{f_{i}^{j} + σ_{H}} S_{i} (f) df)

其中，σ_H为设定的谐波宽度参数；

2)噪声能量和：把整个频谱分为谐波分量和非谐波分量，将非谐波分量认定为由不规则的声带振动引起的噪声部分，其计算方法为

E_{N} = &Integral; S_{i} (f) df - \underset{j}{Σ} ({&Integral;}_{f_{i}^{j} - σ_{H}}^{f_{i}^{j} + σ_{H}} S_{i} (f) df)

其中，∫S_i(f)df为整个频谱能量和，减号后面是E_H的展开形式；

3)窄带能量和：定义为浊音帧各次谐波附近一个窄带内能量的总和，反映规则声带振动的程度，其计算公式为

E_{NB} = \underset{j}{Σ} ({&Integral;}_{f_{i}^{j} - σ_{N}}^{f_{i}^{j} + σ_{N}} S_{i} (f) df)

其中，σ_N为设定的窄带带宽；

4)宽带能量和：定义为浊音帧各次谐波附近一个宽带内能量的总和，包含规则振动的能量部分，也包含由声带不规则振动引起的能量泄露部分，其计算方法为

E_{WB} = \underset{j}{Σ} ({&Integral;}_{f_{i}^{j} - σ_{W}}^{f_{i}^{j} + σ_{W}} S_{i} (f) df)

其中，σ_W为设定的宽带带宽；

所述步骤5)中，根据上述频谱特征计算得到最终的音色纯净度的客观度量参数指标为：

1)平均谐噪比HNR：

对于任何浊音帧，其谐噪比的计算公式为，

{HNR}_{i} = \frac{E_{H}}{E_{N}} = \frac{\underset{j}{Σ} ({&Integral;}_{f_{i}^{j} - σ_{H}}^{f_{i}^{j} + σ_{H}} S_{i} (f) df)}{{&Integral; S}_{i} (f) df - \underset{j}{Σ} ({&Integral;}_{f_{i}^{j} - σ}^{f_{i}^{j} + σ} S_{i} (f) df)}

所述平均谐噪比HNR是该演唱音频信号中所有浊音帧谐噪比HNR_i的算术平均值，当平均谐噪比HNR作为演唱音色纯净度的一个客观度量时，取值范围为0～1，平均谐噪比HNR越大，则演唱片段音色纯净度越高；

2)平均窄带宽带能量比NWR：

对于任何浊音帧，其窄带宽带能量比的计算公式为，

{NWR}_{i} = \frac{E_{NB}}{E_{WB}} = \frac{\underset{j}{Σ} ({&Integral;}_{f_{i}^{j} - σ_{N}}^{f_{i}^{j} + σ_{N}} S_{i} (f) df)}{\underset{j}{Σ} ({&Integral;}_{f_{i}^{j} - σ_{W}}^{f_{i}^{j} + σ_{W}} S_{i} (f) df)}

所述平均窄带宽带能量比NWR是该演唱音频信号中所有浊音帧窄带宽带能量比NWR_i的算术平均值，当该平均窄带宽带能量比NWR作为演唱音色纯净度的另一个客观度量时，取值范围为0～1，平均窄带宽带能量比越大，则演唱片段音色纯净度越高；

3)当将上述平均谐噪比HNR和平均窄带宽带能量比NWR两个度量指标结合起来对音色纯净度进行评测时，将这两种测度进行加权平均后的值作为指标，所述加权的方式采用线性加权或者指数加权。