CN101650940A - 基于音频频谱特征分析的演唱音色纯净度的客观评测方法 - Google Patents

基于音频频谱特征分析的演唱音色纯净度的客观评测方法 Download PDF

Info

Publication number
CN101650940A
CN101650940A CN200810224789A CN200810224789A CN101650940A CN 101650940 A CN101650940 A CN 101650940A CN 200810224789 A CN200810224789 A CN 200810224789A CN 200810224789 A CN200810224789 A CN 200810224789A CN 101650940 A CN101650940 A CN 101650940A
Authority
CN
China
Prior art keywords
sigma
energy
average
purity
tone color
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200810224789A
Other languages
English (en)
Inventor
颜永红
潘接林
刘建
李明
曹川�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN200810224789A priority Critical patent/CN101650940A/zh
Publication of CN101650940A publication Critical patent/CN101650940A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

本发明提供一种基于演唱片段频谱特征分析的音色纯净度客观评测方法,包括如下步骤:1)选取需要度量音色纯净度的演唱片段音频信号;2)对步骤1)的演唱信号进行基频提取;3)用步骤2)中量化出的基频序列定位音频信号中所有浊音段的谐波结构;4)根据步骤3)中得到的谐波结构,计算得到四种频谱特征测度:谐波结构能量和、噪声能量、宽带能量和以及窄带能量和;5)根据步骤4)中得到的频谱特征,计算得到最终的音色纯净度的客观度量参数指标:平均谐噪比以及平均窄带宽带能量比,利用求出的参数指标对演唱音色的纯净度进行评测。本发明的评测方法,利用计算机算法给出量化的指标,不受人为因素影响并具有稳定性、客观性及便利性等优点。

Description

基于音频频谱特征分析的演唱音色纯净度的客观评测方法
技术领域
本发明涉及一种度量演唱音色纯净度的客观方法,更具体地说,本发明涉及一种基于音频频谱特征分析的演唱音色纯净度的客观评测方法。
背景技术
音色纯净度是指一种用于评价唱歌者演唱水平的主观指标,一般定义为一种清晰、良好的演唱发声的主观感知。主观评价人感觉唱歌者的声音越清晰、纯净,则认为唱歌者的演唱音色纯净度越高,反之,则认为演唱音色纯净度越低。这里的主观评价人,一般指的是声乐专家,比如声乐老师和资深音乐家。而唱歌者可以是专业的歌手、声乐系学生,也可以是普通人。
目前,演唱评价基本还是处于完全依靠专家主观评价的阶段,并没有成熟的客观评价系统能够对演唱水平或演唱水平的某个方面进行度量和评价。演唱音色纯净度的评价也完全依赖专家的主观感知,目前还没有客观度量的方法或者辅助主观评价的客观指标。虽然国外一些研究调查发现音色纯净度的评价和频谱噪声有一定的关系,但是并没有具体的、定义明确的客观度量方法出现。例如,文献1提出音色明亮度与频谱能量分布有关,但是并没有给出具体的的计算方法。另外,在对音色纯净度进行评价时,演唱者的音高是一个基本信息,我们采用参考文献2中的方法提取演唱者的音高,该方法通过求取每帧数据频谱谐波和最大值对应的基频作为每帧的音高值。这里,需要说明的是,该方法得到的音高值仅仅作为计算音色的一个基本参数值,与本专利的独特性无关。
另外,主观演唱评价方法不可避免的具有以下几个缺点:第一,不可重复性。因为各种各样因素的影响,对于同样一个演唱片段,两次主观评价之间或多或少的都会出现差异,而这种差异在理想情况下是不应该存在的。第二,主观偏向性。因为每个评价人都有各自不同的喜好,所以对于同一个演唱片段,每个评价人都有各自不同的评价,都有各自的偏向性。第三,费用昂贵,可获得性差。对于一般的普通人来说(不是专业的声乐学校的学生),要获得声乐专家的主观评价,是很困难的或费用高昂的。
参考文献1:E.Ekholm,G.Papagiannis,and F.Chagnon,“Relating ObjectiveMeasurements to Expert Evaluation of Voice Quality in Western Classical Singing:Critical Perceptual Parameters,”Journal of Voice,vol.12,no.2,pp.182-196,1998.
参考文献2:C.Cao,M.Li,J.Liu,and Y.Yan,“Singing Melody Extraction inPolyphonic Music by Harmonic Tracking,”Proc.8th International Conference on MusicInformation Retrieval(ISMIR),pp.373-374,2007.
发明内容
因此,鉴于上述现状,本发明的目的在于提供一种基于演唱片段的频谱特征分析的音色纯净度的客观评测方法,通过对演唱片段的频谱特征分析,给出可以量化的客观度量参数指标。
为实现上述发明目的,本发明的基于演唱片段频谱特征分析的音色纯净度客观评测方法,包括如下步骤:
1)选取需要度量音色纯净度的演唱片段音频信号;
2)对步骤1)的演唱信号进行基频提取;
3)用步骤2)中量化出的基频序列,定位音频信号中所有浊音段的谐波结构;
4)对上述步骤3)中得到的谐波结构,计算得到四种频谱特征测度:谐波结构能量和、噪声能量、宽带能量和以及窄带能量和;
5)根据上述步骤4)中得到的频谱特征,计算得到最终的音色纯净度的客观度量参数指标。
与现有的主观评价的方法相比,本发明提及的两种客观度量方法具有以下优点:稳定性、客观性、便利性。由于是基于音频信号频谱特征的客观评价方法,只要输入的演唱音频信号一致,则度量结果保持不变,不受其他人为因素影响。同时,计算机算法的便利程度较声乐专家主观评价的方式有很大改进,只需将录制的演唱片段输入,算法即可以给出客观度量参数。
附图说明
图1是本发明的基于音频频谱特征分析的演唱音色纯净度的客观评测方法的流程图。
具体实施方式
下面结合附图及具体实施方式对本发明的基于音频频谱特征分析的演唱音色纯净度的客观评测方法做进一步详细描述。
图1是本发明的基于音频频谱特征分析的演唱音色纯净度的客观评测方法的流程图。
如图1所示,本发明提供的基于音频频谱特征分析的演唱音色纯净度的客观评测方法,包括如下步骤:
1)选取需要度量音色纯净度的演唱片段音频信号;
该步骤1)中,首先输入演唱片段的音频数据。
在本发明的基于演唱频谱特征分析的音色纯净度的客观评测方法中,音频数据的格式可以采用16K 16Bit Windows PCM格式等任何一种采样率来进行处理。作为一个实施例,我们采用16K采样率的音频数据格式,每个采样点用16Bit数来表示。
2)对步骤1)的演唱信号进行基频提取;
在基频提取步骤中,我们采用的是基于谐波和的基频提取算法。简要地说,该方法通过计算归一化谐波和谱对信号基频f0序列进行估计,每个浊音帧输出一个基频估计值。基频的具体计算方法与参考文献2中描述基本一致,通过求取每帧数据频谱谐波和最大值对应的基频获得。
3)利用步骤2)中量化出的基频序列,定位音频信号中所有浊音段的谐波结构;
在演唱片段音频基频序列f0已确定的基础上,下一步进行演唱浊音段的谐波结构定位。谐波结构Sv指的是浊音段(有真实基频的帧)的基频及其各次谐波构成的一簇频谱分量以及各次谐波之间构成的关系。在本发明中,我们只需要定位各次谐波所在的位置fi j即可进行之后的特征计算。具体的定位方法如下:
f i j = arg max f ∈ Φ i j S i ( f ) , Φ i j = ( j · f 0 - σ , j · f 0 + σ ]
其中,fi j指的是第i帧的第j次谐波所在位置,Si(f)为该帧的FFT能量谱,f0为该帧的基频值,σ为谐波位置的搜索范围。简单地说,在本发明中的谐波位置由基频整数倍局部范围内最大频谱能量值所在位置确定的。
4)对上述步骤3)中得到的谐波结构,计算得到四种频谱特征测度:谐波结构能量和、噪声能量、宽带能量和以及窄带能量和;
该步骤是进行各种频谱特征测度的计算:
第一频谱特征:谐波结构能量和,其计算公式为
E H = Σ j ( ∫ f i j - σ H f i j + σ H S i ( f ) df )
其中,σH为设定的谐波宽度参数。谐波结构能量和EH主要度量的是该浊音帧整个谐波簇的能量总和。因为演唱片段中谐波结构是由规则、良好的声带振动产生的,谐波结构的能量和在一定程度上可以代表良好振动的程度。
第二频谱特征:噪声能量和。可把整个频谱分为谐波分量和非谐波分量,在这里,把非谐波分量认为是由不规则的声带振动引起的“噪声”部分,其计算方法为
E N = ∫ S i ( f ) df - Σ j ( ∫ f i j - σ H f i j + σ H S i ( f ) df )
其中,∫Si(f)df为整个频谱能量和,减号后面是EH的展开形式。
第三个特征:窄带能量和,其定义为浊音帧各次谐波附近一个窄带内能量的总和,在一定程度上也反映了规则声带振动的程度。其计算公式为:
E NB = Σ j ( ∫ f i j - σ N f i j + σ N S i ( f ) df )
其中,σN为设定的窄带带宽。
第四特征:宽带能量和,其定义为浊音帧各次谐波附近一个宽带内能量的总和,这其中包含规则振动的能量部分,也包含由于声带不规则振动引起的能量泄露部分。其计算方法为:
E WB = Σ j ( ∫ f i j - σ W f i j + σ W S i ( f ) df )
其中,σW为设定的宽带带宽。
5)根据上述步骤4)中得到的频谱特征,计算得到最终的音色纯净度的客观度量参数指标:平均谐噪比以及平均窄带宽带能量比。
在获得了“谐波结构能量和”、“噪声能量和”的情况下,计算出平均谐噪比作为演唱音色纯净度的客观度量参数指标。
平均谐噪比的计算:
对于任何浊音帧,其谐噪比的计算公式为:
HNR i = E H E N = Σ j ( ∫ f i j - σ H f i j + σ H S i ( f ) df ) ∫ S i ( f ) df - Σ j ( ∫ f i j - σ f i j + σ S i ( f ) df )
平均谐噪比HNR就是该演唱音频信号中所有浊音帧谐噪比HNRi的算术平均值。在本发明中,平均谐噪比即可作为演唱音色纯净度的一个客观度量,取值范围为0~1,平均谐噪比越大,说明演唱片段音色纯净度越高,反之,平均谐噪比越小,说明音色纯净度越低。
另外,也可以在获得了“窄带能量和”、“宽带能量和”的情况下,计算出平均窄带宽带能量比作为演唱音色纯净度的客观度量参数指标。
平均窄带宽带能量比的计算:
对于任何浊音帧,其窄带宽带能量比的计算公式为:
NWR i = E NB E WB = Σ j ( ∫ f i j - σ N f i j + σ N S i ( f ) df ) Σ j ( ∫ f i j - σ W f i j + σ W S i ( f ) df )
平均窄带宽带能量比NWR就是该演唱音频信号中所有浊音帧窄带宽带能量比NWRi的算术平均值。在本发明中,平均窄带宽带能量比也可作为演唱音色纯净度的另一个客观度量,取值范围为0~1,平均窄带宽带能量比越大,说明演唱片段音色纯净度越高,反之,平均窄带宽带能量比越小,说明音色纯净度越低。
另外,本发明的基于演唱片段频谱特征分析的音色纯净度客观评测方法,还可以将上述两个度量指标结合起来对音色纯净度进行评测。即将两种测度进行加权平均后的值作为指标。至于加权的方式和具体数值我们不做具体限定,可以是线性加权,也可以是指数加权。

Claims (5)

1、一种基于音频频谱特征分析的演唱音色纯净度的客观评测方法,包括如下步骤:
1)选取需要度量音色纯净度的演唱片段音频信号;
2)对步骤1)的演唱信号进行基频提取;
3)用步骤2)中量化出的基频序列,定位音频信号中所有浊音段的谐波结构;
4)对上述步骤3)中得到的谐波结构,计算得到四种频谱特征测度:谐波结构能量和、噪声能量、宽带能量和以及窄带能量和;
5)根据上述步骤4)中得到的频谱特征,计算得到最终的音色纯净度的客观度量参数指标:平均谐噪比以及平均窄带宽带能量比,然后利用求出的参数指标对演唱音色的纯净度进行评测。
2、如权利要求1所述的基于音频频谱特征分析的演唱音色纯净度的客观评测方法,其特征在于,所述步骤5)中,在利用求出的参数指标对演唱音色的纯净度进行评测时,单独基于所述平均谐噪比或者平均窄带宽带能量比进行评价,或者将所述平均谐噪比和平均窄带宽带能量比相结合进行评价。
3、如权利要求1或2所述的基于音频频谱特征分析的演唱音色纯净度的客观评测方法,其特征在于,所述步骤1)中的基频提取采用基于谐波和的基频提取算法。
4、如权利要求1或2所述的基于音频频谱特征分析的演唱音色纯净度的客观评测方法,其特征在于,所述步骤2)中的谐波结构Sv是指浊音段的基频及其各次谐波构成的一簇频谱分量以及各次谐波之间构成的关系,这里,定位各次谐波所在的位置fi j,具体的定位方法如下:
f i j = arg max f ∈ Φ i j S i ( f ) , Φ i j = ( j · f 0 - σ , j · f 0 + σ ]
其中,fi j指的是第i帧的第j次谐波所在位置,Si(f)为该帧的FFT能量谱,f0为该帧的基频值,σ为谐波位置的搜索范围。
5、如权利要求1或2所述的基于音频频谱特征分析的演唱音色纯净度的客观评测方法,其特征在于,
所述步骤4)中各频谱特征测度的计算方法分别为:
1)谐波结构能量和:其计算公式为
E H = Σ j ( ∫ f i j - σ H f i j + σ H S i ( f ) df )
其中,σH为设定的谐波宽度参数;
2)噪声能量和:把整个频谱分为谐波分量和非谐波分量,将非谐波分量认定为由不规则的声带振动引起的噪声部分,其计算方法为
E N = ∫ S i ( f ) df - Σ j ( ∫ f i j - σ H f i j + σ H S i ( f ) df )
其中,∫Si(f)df为整个频谱能量和,减号后面是EH的展开形式;
3)窄带能量和:定义为浊音帧各次谐波附近一个窄带内能量的总和,反映规则声带振动的程度,其计算公式为
E NB = Σ j ( ∫ f i j - σ N f i j + σ N S i ( f ) df )
其中,σN为设定的窄带带宽;
4)宽带能量和:定义为浊音帧各次谐波附近一个宽带内能量的总和,包含规则振动的能量部分,也包含由声带不规则振动引起的能量泄露部分,其计算方法为
E WB = Σ j ( ∫ f i j - σ W f i j + σ W S i ( f ) df )
其中,σW为设定的宽带带宽;
所述步骤5)中,根据上述频谱特征计算得到最终的音色纯净度的客观度量参数指标为:
1)平均谐噪比HNR:
对于任何浊音帧,其谐噪比的计算公式为,
HNR i = E H E N = Σ j ( ∫ f i j - σ H f i j + σ H S i ( f ) df ) ∫ S i ( f ) df - Σ j ( ∫ f i j - σ f i j + σ S i ( f ) df )
所述平均谐噪比HNR是该演唱音频信号中所有浊音帧谐噪比HNRi的算术平均值,当平均谐噪比HNR作为演唱音色纯净度的一个客观度量时,取值范围为0~1,平均谐噪比HNR越大,则演唱片段音色纯净度越高;
2)平均窄带宽带能量比NWR:
对于任何浊音帧,其窄带宽带能量比的计算公式为,
NWR i = E NB E WB = Σ j ( ∫ f i j - σ N f i j + σ N S i ( f ) df ) Σ j ( ∫ f i j - σ W f i j + σ W S i ( f ) df )
所述平均窄带宽带能量比NWR是该演唱音频信号中所有浊音帧窄带宽带能量比NWRi的算术平均值,当该平均窄带宽带能量比NWR作为演唱音色纯净度的另一个客观度量时,取值范围为0~1,平均窄带宽带能量比越大,则演唱片段音色纯净度越高;
3)当将上述平均谐噪比HNR和平均窄带宽带能量比NWR两个度量指标结合起来对音色纯净度进行评测时,将这两种测度进行加权平均后的值作为指标,所述加权的方式采用线性加权或者指数加权。
CN200810224789A 2008-12-26 2008-12-26 基于音频频谱特征分析的演唱音色纯净度的客观评测方法 Pending CN101650940A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810224789A CN101650940A (zh) 2008-12-26 2008-12-26 基于音频频谱特征分析的演唱音色纯净度的客观评测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810224789A CN101650940A (zh) 2008-12-26 2008-12-26 基于音频频谱特征分析的演唱音色纯净度的客观评测方法

Publications (1)

Publication Number Publication Date
CN101650940A true CN101650940A (zh) 2010-02-17

Family

ID=41673161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810224789A Pending CN101650940A (zh) 2008-12-26 2008-12-26 基于音频频谱特征分析的演唱音色纯净度的客观评测方法

Country Status (1)

Country Link
CN (1) CN101650940A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997765A (zh) * 2017-03-31 2017-08-01 福州大学 人声音色的定量表征方法
CN108986843A (zh) * 2018-08-10 2018-12-11 杭州网易云音乐科技有限公司 音频数据处理方法及装置、介质和计算设备
CN109360583A (zh) * 2018-11-13 2019-02-19 无锡冰河计算机科技发展有限公司 一种音色评定方法和装置
CN109920446A (zh) * 2019-03-12 2019-06-21 腾讯音乐娱乐科技(深圳)有限公司 一种音频数据处理方法、装置及计算机存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997765A (zh) * 2017-03-31 2017-08-01 福州大学 人声音色的定量表征方法
CN106997765B (zh) * 2017-03-31 2020-09-01 福州大学 人声音色的定量表征方法
CN108986843A (zh) * 2018-08-10 2018-12-11 杭州网易云音乐科技有限公司 音频数据处理方法及装置、介质和计算设备
CN108986843B (zh) * 2018-08-10 2020-12-11 杭州网易云音乐科技有限公司 音频数据处理方法及装置、介质和计算设备
CN109360583A (zh) * 2018-11-13 2019-02-19 无锡冰河计算机科技发展有限公司 一种音色评定方法和装置
CN109360583B (zh) * 2018-11-13 2021-10-26 无锡冰河计算机科技发展有限公司 一种音色评定方法和装置
CN109920446A (zh) * 2019-03-12 2019-06-21 腾讯音乐娱乐科技(深圳)有限公司 一种音频数据处理方法、装置及计算机存储介质
WO2020181782A1 (zh) * 2019-03-12 2020-09-17 腾讯音乐娱乐科技(深圳)有限公司 一种音频数据处理方法、装置及计算机存储介质
CN109920446B (zh) * 2019-03-12 2021-03-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频数据处理方法、装置及计算机存储介质

Similar Documents

Publication Publication Date Title
Cano et al. Evaluation of quality of sound source separation algorithms: Human perception vs quantitative metrics
Sundberg et al. Effects of vocal loudness variation on spectrum balance as reflected by the alpha measure of long-term-average spectra of speech
Nakano et al. An automatic singing skill evaluation method for unknown melodies using pitch interval accuracy and vibrato features
US7778825B2 (en) Method and apparatus for extracting voiced/unvoiced classification information using harmonic component of voice signal
CN108417228A (zh) 乐器音色迁移下的人声音色相似性度量方法
CN102054480B (zh) 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
CN106997765B (zh) 人声音色的定量表征方法
US20150255088A1 (en) Method and system for assessing karaoke users
Dressler Pitch estimation by the pair-wise evaluation of spectral peaks
JPH09505701A (ja) 電気通信装置の試験
CN102723079B (zh) 基于稀疏表示的音乐和弦自动识别方法
US6675114B2 (en) Method for evaluating sound and system for carrying out the same
CN101452698B (zh) 一种自动嗓音谐噪比分析方法
CN101023469A (zh) 数字滤波方法和装置
EP2920785B1 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal
CN106663450A (zh) 用于评估劣化语音信号的质量的方法及装置
CN107221342A (zh) 话音信号处理电路
CN101650940A (zh) 基于音频频谱特征分析的演唱音色纯净度的客观评测方法
CN101650941A (zh) 基于音频频谱特征分析的演唱音色明亮度客观评测方法
Benetos et al. Auditory spectrum-based pitched instrument onset detection
Mu et al. An objective analysis method for perceptual quality of a virtual bass system
AU2006252341A2 (en) Frequency spectrum conversion to natural harmonic frequencies process
Mahdi et al. New single-ended objective measure for non-intrusive speech quality evaluation
Parsa et al. Interactions between speech coders and disordered speech
Brandner et al. Classification of phonation modes in classical singing using modulation power spectral features

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20100217