CN109360583A

CN109360583A - 一种音色评定方法和装置

Info

Publication number: CN109360583A
Application number: CN201811349640.8A
Authority: CN
Inventors: 单花连; 周峰
Original assignee: Glacial Epoch Wuxi Computing Machine Development In Science And Technology Co Ltd
Current assignee: Glacial Epoch Wuxi Computing Machine Development In Science And Technology Co Ltd
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2019-02-19
Anticipated expiration: 2038-11-13
Also published as: CN109360583B

Abstract

本发明提出了一种音色评定方法和装置，所述音色评定方法包括如下步骤：获取演唱者的语音信号并对所述语音信号进行预加重、分帧加窗以将所述语音信号分成短时帧；估计每帧语音信号的基音频率f0和共振峰频率f1，做比值f1/f0；并计算演唱者当前句中每帧信号比值f1/f0的平均值；设置用于判断演唱者的声音与原声之间的共鸣程度的阈值，并将所述平均值与所述阈值进行比较；根据比较的结果对演唱者声音的音色进行评分。通过使用本发明的音色评定方法，使歌唱评分系统更加多元化，提升了歌唱的娱乐性。

Description

一种音色评定方法和装置

技术领域

本发明涉及智能语音技术领域，尤其涉及一种音色评定方法和装置。

背景技术

音色是指声音在听觉上产生的某种属性，听音者能够据此判断两个以同样方式呈现、具有相同音高和响度的声音的不同。由此，演唱时的人声音色是指当不同的演唱者演唱同一首歌曲时，人们用来判别出具体是哪个演唱者的声音特征。

共鸣的好坏是衡量演唱者音色的一个重要指标。在歌唱中如果声音缺少共鸣，声音往往就会显得单薄无力、缺少色彩。而良好的声音共鸣对音量的扩大、音色的改善和声音的传播都有很大的帮助。然而，目前对共鸣的描述多以主观感受为主，例如，声音是否有穿透力、是否色彩明亮以及是否清脆等。这些主观感受因人而异，难以量化，因此无法对共鸣好坏做出客观准确的判断，也无法根据共鸣的好坏程度对演唱者的音色进行评分。

发明内容

本发明的目的在于提供一种音色评定方法，该方法能够通过共鸣来对演唱者的音色进行评分，使传统的歌唱评分系统更加多样化，提升了演唱的娱乐性。

根据本发明的第一个方面，提供了一种音色评定方法，所述音色评定方法包括如下步骤：获取演唱者的语音信号并对所述语音信号进行预加重、分帧加窗以将所述语音信号分成短时帧；估计每帧语音信号的基音频率f0和第一共振峰频率f1，做比值f1/f0；并计算演唱者当前句中每帧信号比值f1/f0的平均值；设置用于判断演唱者的声音与原声之间的共鸣程度的阈值，并将所述平均值与所述阈值进行比较；根据比较的结果对演唱者声音的音色进行评分。

优选地，所述用于判断演唱者的声音与原声之间的共鸣程度的阈值为1.5-2，优选为2。

优选地，所述根据比较的结果对演唱者声音的音色进行评分包括如下步骤：判断所述平均值与所述阈值之间的大小，若所述平均值大于所述阈值，则表明演唱者的声音与原声之间的共鸣差，对演唱者声音的音色评分低；若所述平均值小于所述阈值，则表明演唱者的声音与原声之间的共鸣好，对演唱者声音的音色评分高。

优选地，所述预加重过程中使用的数字滤波器为：H(z)＝1-uz^-1，其中，u取值在0.94～0.97之间。

优选地，所述分帧加窗过程中使用的窗函数选用矩形窗。

优选地，所述基音频率f0通过短时平均幅度差法进行估算。

优选地，所述第一共振峰频率f1通过LPC内插法进行估算。

根据本发明的另一个方面，还提供了一种音色评定装置，该音色评定装置包括：预处理单元，用于获取演唱者的语音信号，并对所述语音信号进行预加重、分帧加窗以将其分成短时帧。估算单元，用于估计每帧语音信号的基音频率f0和第一共振峰频率f1，做比值f1/f0，并计算演唱者当前句中每帧信号比值f1/f0的平均值。比较单元，用于设置判断演唱者的声音与原声之间的共鸣程度的阈值，将所述平均值与所述阈值进行比较。评分单元，用于根据比较的结果对演唱者声音的音色进行评分。

根据本发明的另一个方面，还提供了一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行上述该音色评定方法。

本发明通过比较共鸣时共振峰与基频的关系将共鸣的好坏进行量化，将共鸣作为判断音色优劣的一个指标，使判断结果准确合理，使歌唱评分系统更加多元化，提升了歌唱的娱乐性。

附图说明

在下文中将基于实施例并参考附图来对本发明进行更详细的描述。其中：

图1为好的共鸣共振峰的分布灰度图；

图2为差的共鸣共振峰的分布灰度图；

图3为本发明一种实施方式的音色评分方法的流程图。

具体实施方式

下面将结合附图对本发明作进一步说明。

声音是振动产生的，而一个物体来回振动，几乎不可能一直按照确定的周期振动，也就是说发声对象发声时，会产生许多分振动，从而产生许多不同频率的波(谐波)。这许多不同频率的波由于相位差很小(也就是相隔时间很短)，人们无法单独分辨，所以这些波会混合在一起给人一个整体的感受，而这个感受就形成了音色。一个声音中相对量最大的频率决定了声音的音调，而其他频率的相对量大小分布则决定了音色。人们辨别不同的发声对象，并不是依靠声音的频率，频率只决定音调，而是发声对象所固有的音色。

共鸣即物理学上的共振，是指一物理系统在特定频率下，比其他频率以更大的振幅做振动的情形，这些特定频率称之为共振频率或共振峰。美妙动听的歌声离不开共鸣，因为共鸣使声音扩大并圆润宏亮。良好的声音共鸣对音量的扩大、音色的改善和声音的传播都有很大的帮助。

本发明通过对多位受过专业声乐训练的演唱者所发出的若干段好的共鸣与不好的共鸣的共振峰分布灰度图进行研究发现，可以通过共振峰的强弱以及分布情况来判断共鸣的优劣，也可以通过第一共振峰与基频的比值来判断共鸣的优劣，进而通过共鸣来对演唱者的音色进行评分。

如图1所示，为某一演唱者好的共鸣共振峰的分布灰度图。图中横轴为时间，纵轴为频率，颜色越亮表明共振峰的峰值越强。从图中可以看出，好的共鸣共振峰的分布比较均匀且只在低频处有较强的共振峰，高频处共振峰则不明显。共鸣良好时，其第一共振峰频率在基频或第一泛音附近，即，第一共振峰与基频的比值应小于2。如图2所示，为某一演唱者差的共鸣共振峰的分布灰度图。从图中可以看出，差的共鸣除了低频出的共振峰之外还存在其他较明显的共振峰。共鸣较差时，第一共振峰会出现在其他泛音的附近，即，第一共振峰与基频的比值应大于2。

表1.第一共振峰频率与基频比值

表1所示为5名演唱者发出的各段不同的共鸣中第一共振峰与基频的平均比值。表中各列为不同的演唱者，各行中的‘good’和‘bad’分别表示共鸣的优劣。

图3为本发明一种实施方式的音色评分方法的流程图，该音色评分方法具体包括如下步骤：

一，预处理步骤：通过预加重数字滤波器H(z)＝1-uz^-1实现预加重，提升信号中的高频分量，使信号的频谱变得平坦，便于之后的分析与计算。上式中u一般取0.94～0.97之间。然后对信号进行加窗分帧处理，将信号分成短时帧。窗函数选用矩形窗：

二，估算步骤：通过短时平均幅度差法估计每帧语音信号的基音频率f0。对于一帧信号，其短时平均幅度差函数定义为：其中，N为一帧信号的采样点数。对于周期性的浊音信号，短时平均幅度差函数呈现出与浊音信号相一致的周期特性，其谷值周期即为基音周期，周期的倒数即为对应的基音频率f0。通过LPC内插法估算共振峰频率f1：对每一帧信号求其线性预测系数，并根据预测系数求出声道传递函数的功率谱响应曲线。曲线的峰值对应共振峰频率的位置，然后通过抛物线内插的方法求出更精确的共振峰频率，记第一共振峰频率为f1。

三，比较步骤，用于设置判断演唱者的声音与原声之间的共鸣程度的阈值，例如阈值＝2，计算当前句中比值的平均值，将该平均值与该阈值进行比较，若大于2则认为共鸣较差；若小于2则共鸣良好，且越接近1时共鸣越好。

四，评分步骤，用于根据比较的结果对演唱者声音的音色进行评分，若演唱者的声音与原声之间的共鸣差，则对演唱者声音的音色评分低；若演唱者的声音与原声之间的共鸣好，则对演唱者声音的音色评分高。

此外根据本发明的另一个方面，还提供了一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行上述该音色评定方法。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种音色评定方法，其特征在于，所述音色评定方法包括如下步骤：获取演唱者的语音信号并对所述语音信号进行预加重、分帧加窗以将所述语音信号分成短时帧；估计每帧语音信号的基音频率f0和第一共振峰频率f1，做比值f1/f0；并计算演唱者当前句中每帧信号比值f1/f0的平均值；设置用于判断演唱者的声音与原声之间的共鸣程度的阈值，并将所述平均值与所述阈值进行比较；根据比较的结果对演唱者声音的音色进行评分。

2.根据权利要求1所述的音色评定方法，其特征在于，所述用于判断演唱者的声音与原声之间的共鸣程度的阈值为1.5-2，优选为2。

3.根据权利要求1所述的音色评定方法，其特征在于，所述根据比较的结果对演唱者声音的音色进行评分包括如下判断步骤：若所述平均值大于所述阈值，则判断演唱者的声音与原声之间的共鸣差，对演唱者声音的音色评分低；若所述平均值小于所述阈值，则判断演唱者的声音与原声之间的共鸣好，对演唱者声音的音色评分高。

4.根据权利要求1所述的音色评定方法，其特征在于，所述预加重过程中使用的数字滤波器为：，其中，u取值在0.94~0.97之间。

5.根据权利要求1所述的音色评定方法，其特征在于，所述分帧加窗过程中使用的窗函数选用矩形窗。

6.根据权利要求1所述的音色评定方法，其特征在于，所述基音频率f0通过短时平均幅度差法进行估算。

7.根据权利要求1所述的音色评定方法，其特征在于，所述第一共振峰频率f1通过LPC内插法进行估算。

8.一种音色评定装置，其特征在于，所述音色评定装置包括：预处理单元，用于获取演唱者的语音信号，并对所述语音信号进行预加重、分帧加窗以将其分成短时帧；估算单元，用于估计每帧语音信号的基音频率f0和第一共振峰频率f1，做比值f1/f0，并计算演唱者当前句中每帧信号比值f1/f0的平均值；比较单元，用于设置判断演唱者的声音与原声之间的共鸣程度的阈值，将所述平均值与所述阈值进行比较；评分单元，用于根据比较的结果对演唱者声音的音色进行评分。

9.一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行所述权利要求1至7中任一所述的音色评定方法。