CN102664016B

CN102664016B - 唱歌评测方法及系统

Info

Publication number: CN102664016B
Application number: CN201210120560.1A
Authority: CN
Inventors: 蒋成林; 何婷婷; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: Anhui Toycloud Technology Co Ltd
Priority date: 2012-04-23
Filing date: 2012-04-23
Publication date: 2014-05-14
Anticipated expiration: 2032-04-23
Also published as: CN102664016A

Abstract

本发明涉及语音信号处理技术领域，公开了一种唱歌评测方法及系统，该方法包括：接收用户唱歌的连续语音信号；确定所述连续语音信号中每个音符的边界位置，以切分出每个音符；选择切分出的每个音符对应的音调模型，所述音调模型是预先以离线方式训练得到的；提取所述音符的音调特征；根据所述音符的音调特征、以及与所述音符相对应的音调模型计算所述音符的标准度；根据所述音符的标准度确定唱歌评测得分。利用本发明，可以提高音符匹配的客观性和准确性，提升唱歌评测系统的评测性能。

Description

唱歌评测方法及系统

技术领域

本发明涉及语音信号处理技术领域，特别涉及一种唱歌评测方法及系统。

背景技术

近年来，一些卡拉OK产品在用户演唱结束后给出计分，提高了娱乐互动性。传统唱歌评分系统通常采用比较用户唱歌语音数据的音高曲线及预设标准音高曲线差异的方法，通过直接计算它们基频曲线之间的误差面积大小或在利用动态时间规整(Dynamic Time Warping，简称DTW)等技术对基频曲线对齐规整后计算基频曲线之间的差异来评价唱歌水平的高低。曲线差异值越大则用户唱歌数据得分越低；反之则用户唱歌数据得分越高。该方法在用户数据与标准音高曲线节奏不一致时容易导致评分过低的问题。

为此，业界提出了一种基于连续语音信号切分的单独唱词片断基频标准度评估的方法。该方法首先将连续语音信号相对于各唱词单元进行对齐，随后对切分的音符语音片断的标准度进行评估，进而获知连续语音信号的标准度。通过唱词对齐实现了用户语音信号和标准参考信号的有效对应，可以使评判评分更加准确合理。

显然，基于唱词对齐的音符评分系统性能的好坏主要依赖于音符对齐效果以及单独唱词片段的评分结果。音符对齐越准确以及单个唱词片段评分越客观，则整体评分结果越合理。现有技术中通常采用距离度量的方法计算单个唱词片断的标准度，即将提取的唱词片段的声学特征，如音高特征和系统预存的基于乐谱构建的音符标准音高匹配并计算差异。然而在实际应用中，用户音高往往存在波动，如通常所说的Vibration(颤音)现象；另外音高也容易受到上下文影响，在不同音符转换时存在如通常所说的Preparation(预准备)、OverShort的现象，在实际音高曲线上不是表现为自然的连接曲线，而是需要经历一个准备过程和后续过程。在不同音符切换时，用户无法实现高低音的跳跃，而是需要经历一个连续过程；另外相同音符在不同上下文环境中会表现出一定的差异性。可见，即使用户的音高曲线与乐谱设定的标准音高走势完全一致，但由于根据乐谱标准值设定的标准音高曲线，由于无法体现音符的上下文相关变化，无法准确细致地模拟用户音高变化曲线，用户音高变化曲线中的各种噪音干扰使得用户最终评分较低，影响到对唱歌评测的合理性。

为了更好地模拟音符在不同上下文中的变化，研究人员提出了基于音高曲线拟和的方法，设定音高曲线y(t)为标准音符值h(t)和二阶阻尼函数f(t)的卷积加上一个误差函数e(t)，即：

y(t)＝f(t)*h(t)+e(t)。

对给定待测唱词片段，系统针对唱歌时的Preparation、OverShort、Vibration等现象采用不同的样条曲线加权拟和用户的音高曲线，并通过参数估计实现用户音高曲线的分解，得到用户真实的音高值，随后据此和预设标准值比较计算差异。

这种基于音高曲线拟和的方法在计算每个音符真实音高时需要估计较多的参数值，而在音符时长有限(短的只有0.1秒)的情况下，训练数据量相对较少，因而容易过拟合导致参数估计不够鲁棒，影响系统的评测性能。

发明内容

本发明实施例提供一种唱歌评测系统及方法，提高音符匹配的客观性和准确性，提升唱歌评测系统的评测性能。

一种唱歌评测方法，包括：

接收用户唱歌的连续语音信号；

确定所述连续语音信号中每个音符的边界位置，以切分出每个音符；

选择切分出的每个音符对应的音调模型，所述音调模型是预先以离线方式训练得到的；

提取所述音符的音调特征；

根据所述音符的音调特征、以及与所述音符相对应的音调模型计算所述音符的标准度；

根据所述音符的标准度确定唱歌评测得分。

优选地，所述方法还包括：

将预先采集的歌曲训练数据切分为与不同音符对应的语音片段；

按照所述语音片段对应的音符对所述语音片段归类；

对每一类语音片断，分别按时间顺序提取其中每一个语音片断的音调特征，生成对应所述音符的特征序列；

构建音调模型拓扑；

对每个音符，利用该音符对应的所有训练数据的特征序列训练对应所述音调模型拓扑的参数；

所述选择切分出的每个音符对应的音调模型包括：

选择切分出的每个音符对应的用于模拟音符的音高特征的音调模型；

所述提取所述音符的音调特征包括：

提取每个音符的基频特征或音高特征，并将所述基频特征或音高特征作为所述音调特征。

优选地，所述方法还包括：

按照所述语音片段对应的音符具有相同前后高低音转换的标准对所述语音片段归类；

对每一类语音片断，分别按时间顺序提取其中每一语音片断的音调特征，生成对应所述音符的特征序列；

构建音调模型拓扑；

对每一类具有相同前后高低音转换的音调模型，利用该音调模型对应的所有训练数据的特征序列训练对应所述音调模型拓扑的参数；

所述选择切分出的每个音符对应的音调模型包括：

选择切分出的每个音符对应的用于模拟具有相同前后高低音转换的音高特征的音调模型；

所述提取所述音符的音调特征包括：

提取每个音符的音高特征；

计算每个音符的音高特征与其前一个音符的标准音高的差异，并将所述差异作为所述音符的音调特征。

优选地，所述确定所述连续语音信号中每个音符的边界位置包括：

将所述连续语音信号及其对应的歌词进行字音对齐，得到所述歌词中每个唱词对应的语音信号片断；

根据所述唱词对应的乐谱确定所述语音信号片段中每个音符的边界位置。

优选地，所述根据所述音符的音调特征、以及与所述音符相对应的音调模型计算所述音符的标准度包括：

计算所述音调特征与所述音符相对应的音调模型的相似度，并将所述相似度作为所述音符的标准度。

优选地，所述根据所述音符的标准度确定唱歌评测得分包括：

对计算得到的所述音符的标准度进行加权平均，得到唱歌音准评分；

根据所述唱词对应的连续语音信号的时间长度与所述唱词对应的标准时间长度的差异，计算唱歌节奏评分；

将所述唱歌音准评分和所述唱歌节奏评分通过以下函数映射为唱歌评测得分：

Score＝a·ToneScore+b·RhythmScore+c；

其中，Score为唱歌评测得分，ToneScore为唱歌音准评分，RhythmScore为唱歌节奏评分，a，b分别表示唱歌音准评分及唱歌节奏评分的权重，c为调整常数项。

一种唱歌评测系统，包括：

信号接收单元，用于接收用户唱歌的连续语音信号；

音符切分单元，用于确定所述连续语音信号中每个音符的边界位置，以切分出每个音符；

模型选择单元，用于选择所述音符切分单元切分出的每个音符对应的音调模型，所述音调模型是预先以离线方式训练得到的；

特征提取单元，用于提取所述音符的音调特征；

标准度计算单元，用于根据所述特征提取单元提取的音符的音调特征、以及与所述音符相对应的音调模型计算所述音符的标准度；

得分计算单元，用于根据所述音符的标准度确定唱歌评测得分。

优选地，所述系统还包括：第一模型训练单元，所述第一模型训练单元包括：

切分子单元，用于将预先采集的歌曲训练数据切分为与不同音符对应的语音片段；

第一分类子单元，用于按照所述语音片段对应的音符对所述语音片段归类；

特征提取子单元，用于对每一类语音片断，分别按时间顺序提取其中每一语音片断的音高特征，生成对应所述音符的特征序列；

模型拓扑构建子单元，用于构建音调模型拓扑；

参数训练子单元，用于对每个音符，利用该音符对应的所有训练数据的特征序列训练对应所述音调模型拓扑的参数；

所述模型选择单元，具体用于选择切分出的每个音符对应的用于模拟音符的音高特征的音调模型；

所述特征提取单元，具体用于提取所述音符的基频特征或音高特征，并将所述基频特征或音高特征作为所述音调特征。

优选地，所述系统还包括：第二模型训练单元，所述第二模型训练单元包括：

第二分类子单元，用于按照所述语音片段对应的音符具有相同前后高低音转换的标准对所述语音片段归类；

模型拓扑构建子单元，用于构建音调模型拓扑；

参数训练子单元，用于对每一类具有相同前后高低音转换的音调模型，利用该音调模型对应的所有训练数据的特征序列训练对应所述音调模型拓扑的参数；

所述模型选择单元，具体用于选择切分出的每个音符对应的用于模拟具有相同前后高低音转换的音高特征的音调模型；

所述特征提取单元包括：

提取子单元，用于提取每个音符的音高特征；

计算子单元，用于计算每个音符的音高特征与其前一个音符的标准音高的差异，并将所述差异作为所述音符的音调特征。

优选地，所述音符切分单元包括：

字音对齐子单元，用于将所述连续语音信号及其对应的歌词进行字音对齐，得到所述歌词中每个唱词对应的语音信号片断；

边界定位子单元，用于根据所述唱词对应的乐谱确定所述语音信号片段中每个音符的边界位置。

优选地，所述标准度计算单元包括：

相似度计算子单元，用于计算所述音调特征与所述音符相对应的音调模型的相似度，并将所述相似度作为所述音符的标准度。

优选地，所述得分计算单元包括：

音准评分子单元，用于对计算得到的所述音符的标准度进行加权平均，得到唱歌音准评分；

节奏评分子单元，用于根据所述唱词对应的连续语音信号的时间长度与所述唱词对应的标准时间长度的差异，计算唱歌节奏评分；

得分映射子单元，用于将所述唱歌音准评分和所述唱歌节奏评分通过以下函数映射为唱歌评测得分：

Score＝a·ToneScore+b·RhythmScore+c；

本发明实施例唱歌评测方法及系统，预先以离线方式从真实唱歌数据中学习各音符发音特点，训练得到各种不同音符对应的音调模型。这样，在对用户唱歌的连续语音信号进行评测时，就可以根据所述连续语音信号中各音符的音调特征、以及与所述音符相对应的音调模型计算所述音符的标准度，根据所述音符的标准度确定唱歌评测得分。由于离线方式训练得到的音调模型从真实数据中尽可能模拟了各种不同音调的变化特点及分布规律，因而可以准确拟合各音符在不同上下文环境下的发音特点，提高了单个音符水平测试的准确度，进而可以更加准确客观地评价用户唱歌水平的高低，提升唱歌评测系统的评测性能。同时还可以提高系统运行效率，更好地满足实用要求。

附图说明

为了更清楚地说明本发明实施的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例唱歌评测方法的流程图；

图2是本发明实施例中音调模型训练过程的一种流程图；

图3是本发明实施例中音调模型训练过程的另一种流程图；

图4是本发明实施例中计算单个音符的标准度的一种流程图；

图5是本发明实施例唱歌评测系统的结构示意图；

图6是本发明实施例唱歌评测系统中第一模型训练单元的结构示意图；

图7是本发明实施例唱歌评测系统中第二模型训练单元的结构示意图；

图8是本发明实施列唱歌评测系统中得分计算单元的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例唱歌评测方法及系统，针对现有技术中基于音高曲线拟和的方法在音符时长有限的情况下，训练数据量相对较少，因而容易过拟或导致参数估计不够鲁棒，影响系统的评测性能的问题，预先以离线方式从真实唱歌数据中学习各音符发音特点，训练得到各种不同音符对应的音调模型，使所述音调模型可以尽可能模拟各种不同音调的变化特点及分布规律。这样，在对用户唱歌的连续语音信号进行评测时，就可以根据所述连续语音信号中各音符的音调特征、以及与所述音符相对应的音调模型确定唱歌评测得分，提高了单个音符水平测试的准确度，进而可以更加准确客观地评价用户唱歌水平的高低，提升唱歌评测系统的评测性能。同时还可以提高系统运行效率，更好地满足实用要求。

如图1所示，是本发明实施例唱歌评测方法的流程图，包括以下步骤：

步骤101，接收用户唱歌的连续语音信号。

步骤102，确定所述连续语音信号中每个音符的边界位置，以切分出每个音符。

具体地，可以采用基于语谱切分的方法来确定所述连续语音信号中的每个音符。首先，将所述连续语音信号及其对应的歌词进行字音对齐，得到所述歌词中每个唱词对应的语音信号片断。所述唱词是指基本的识别单元，通常为音节或者说单字符单元。然后，根据所述唱词对应的乐谱(即标准音高特性)确定所述语音信号片段中每个音符的边界位置。

在进行唱词对应的语音信号片段切分时，可以利用预先训练得到的语谱模型采用Viterbi算法，确定出每个唱词的边界。所述语谱模型可以通过录制清唱数据训练得到。这些过程可参照相关文献，在此不再详细描述。

在根据唱词确定音符位置时，可以采用DTW(Dynamic Time Warping，动态时间规整)算法将所述唱词对应的标准音高特性曲线与所述语音信号片段对应的音高曲线进行对齐，实现音符的切分。

所述DTW算法的基本思想是将时间的规整和距离测度规整结合在一起的一种非线性规整技术，通过在允许的时间规整范围内寻找距离测度最小的时间上的规整方式，进而确定输入信号和模板在时间上的对应关系。

步骤103，选择切分出的每个音符对应的音调模型，所述音调模型是预先以离线方式训练得到的。

在本发明实施例中，所述音调模型是预先以离线方式训练得到的。而且，所述音调模型可以是用于模拟音符的音高特征的模型，或者是用于模拟具有相同前后高低音转换的音高特征的模型。

步骤104，提取所述音符的音调特征。

在本发明实施例中，所述音调特征可以是音符的基频特征或音高特征，也可以是音符的音高特征与该音符前一个音符的标准音高的差异特征，具体采用哪种音调特征与实际采用的音调模型相关，对此将在后面详细说明。

步骤105，根据所述音符的音调特征、以及与所述音符相对应的音调模型计算所述音符的标准度。

由于不同人在唱同一首歌时表现往往不同，其音高曲线差异较大，很难找到标准音高曲线。为此，在本发明实施例中，采用统计模型模拟的方法，通过在海量数据上训练模型参数实现对音高曲线变化规律的学习。

在实际应用中，所述音调模型可以有多种不同的方式来生成，具体将在后面详细说明。

步骤106，根据所述音符的标准度确定唱歌评测得分。

需要说明的是，为了进一步提高系统的鲁棒性，在上述步骤102之前，可以先对接收到的连续语音信号进行降噪处理。首先通过VAD(语音活动性检测)，从所述语音信号中确定出语音的起点以及终点，以将连续的语音信号分割成独立的语音片断和非语音片断，然后对分割得到的语音片断进行语音增强处理，在进行语音增强处理时，可以通过维纳滤波等方法，将语音信号中的环境噪声进一步消除，以提高后续系统对该信号的处理能力。

本发明实施例唱歌评测方法，预先以离线方式从真实唱歌数据中学习各音符发音特点，训练得到各种不同音符对应的音调模型。由于离线方式训练得到的音调模型尽可能模拟了各种不同音调的变化特点及分布规律，因而可以准确拟合各音符在不同上下文环境下的发音特点，提高了单个音符水平测试的准确度，进而可以更加准确客观地评价用户唱歌水平的高低，提升唱歌评测系统的评测性能。同时，由于音调模型通过离线方式训练得到，因此还提高了系统运行效率，更好地满足实用要求。

在本发明实施例中，所述音调模型是预先以离线方式训练得到的。而且，所述音调模型可以是用于模拟音符的音高特征的模型，或者是用于模拟具有相同前后高低音转换的音高特征的模型。下面对不同音调模型的训练过程做进一步详细说明。

如图2所示，是本发明实施例中音调模型训练过程的一种流程图。

在该实施例中，所述音调模型是一种用于模拟音符的音高特征的模型，其训练过程包括以下步骤：

步骤201，将预先采集的歌曲训练数据切分为与不同音符对应的语音片段。

具体地，可以采集具有代表性的歌曲原唱来获得训练数据。

步骤202，按照所述语音片段对应的音符对所述语音片段归类。

步骤203，对每一类语音片断，分别按时间顺序提取其中每一语音片断的音高特征，生成对应所述音符的特征序列。

对某个音符对应的语音片断集合中的第i个时长为T帧的语音片段，按照时间顺序提取每帧语音信号的基频特征，形成T个一维的特征序列。也可以将所述基频特征序列转换成音乐中12平均律的音高值特征。这样，所述音符对应的单个语音片断量化为一个T时长的单维特征序列Y＝(y₁，y₂，...，y_i，...y_T)，其中y₁，y₂，...，y_i，...y_T表示音高特征值。

步骤204，构建音调模型拓扑。

该音调模型用于模拟每个不同音符的音高特点，因此相应于每个音符，都可以单独设置一个音调模型。

具体地，对每个音调模型，可以选择基于HMM(隐马尔可夫模型)的统计模型，定义音调模型拓扑结构为自左向右的N状态模型，复杂度为K高斯。其中，参数N和K可以预先设定，如在考虑数据复杂度和识别精确度条件下可以设置N＝3，K＝8等。

步骤205，对每个音符，利用该音符对应的一维特征序列训练对应所述音调模型拓扑的参数。

对每个单独的音符，可以利用提取的该音符对应的训练数据的特征训练对应的模型参数。具体地，可以采用EM(Expectation-Maximization)算法基于MLE(Maximum Likelihood Estimation)准则训练得到各参数。

相应地，基于这种用于模拟音符的音高特征的音调模型，在上述步骤104中，需要提取每个音符的基频特征或音高特征，并将所述基频特征或音高特征作为所述音调特征。

如图3所示，是本发明实施例中音调模型训练过程的一种流程图。

在该实施例中，所述音调模型是一种用于模拟具有相同前后高低音转换的音高特征的模型，其训练过程包括以下步骤：

步骤301，将预先采集的歌曲训练数据切分为与不同音符对应的语音片段。

步骤302，按照所述语音片段对应的音符具有相同前后高低音转换的标准对所述语音片段归类。

比如，对训练数据中的从“1”到“2”音符转变的数据，将音符“2”对应的语音片段归入“当前音符比前一音符高一阶”的模型训练数据中。相应地，对从“2”到“3”音符转变的数据，同样将“3”对应的语音片段归入“当前音符比前一音符高一阶”的模型训练数据中。

可见，步骤302不同于前面的步骤202，即不再根据音符对语音片段进行归类，而是根据相邻音符前后高低音变化的差异值将语音片段归类，并作为该具有相同前后高低音转换的音高特点的训练数据，同时还要记录该语音片段的前一音符的标准音高值。

步骤303，对每一类语音片断，分别按时间顺序提取其中每一语音片断的音高特征，生成对应所述音符的特征序列。

具体地，对某个音符对应的T帧语音片段，按照时间顺序提取每帧语音信号的基频特征，形成T个一维的特征序列。也可以将所述基频特征序列转换成音乐中12平均律的音高值特征，这样，单个音符量化为一个T时长的单维特征序列Y＝(y₁，y₂，...，y_i，...y_T)，其中y₁，y₂，...，y_i，...y_T表示音高值。

步骤304，构建音调模型拓扑。

针对唱歌标准度评测主要由用户的音高曲线走势和标准音高走势一致性确定的特点，本发明实施例通过设定具有相同上下文高低音变化的音符模型，以减少模型参数。对应于实际存在的不同高低音转换，可以设计相应的音调模型，包括：“当前音符比前一音符高i阶”，其中i＝-M，-M+1，...，-1，0，1，...M-1，M。M是系统预设的阈值。当然，也可以选择设置较小的M值，并将所有音差大于M阶或小于-M阶的音符对统一为“当前音符比前一音符高M阶”或“当前音符比前一音符高-M阶”模型，以进一步减少模型数量，提高处理效率。

步骤305，对每一类具有相同前后高低音转换的音调模型，利用该音调模型对应的所有训练数据的特征序列训练对应所述音调模型拓扑的参数。

具体的训练过程与前面步骤205相同，在此不再赘述。

相应地，基于这种用于模拟具有相同前后高低音转换的音高特征的音调模型，在上述步骤103中，不仅需要提取每个音符的音高特征，而且还要计算每个音符的音高特征与其前一个音符的标准音高的差异，并将所述差异作为所述音符的音调特征。

在前面所述的步骤104中，需要对切分出的每个音符，根据上述离线生成的与所述音符相对应的音调模型计算所述音符的标准度。具体地，可以计算步骤104中提取出的对应某个音符的音调特征与所述音符相对应的音调模型的相似度，并将该相似度作为所述音符的标准度。另外，还可以先对所述音调特征进行优化，然后再计算相似度。

下面对本发明实施例中单个音符的标准度的计算过程进行详细说明。

如图4所示，是本发明实施例中计算单个音符的标准度的一种流程图，包括以下步骤：

步骤401，获取音符的音调特征。

步骤402，根据所述音符的变化趋势对所述音调特征进行优化，得到规整特征。

前面提到，所述音调特征可以是音符的基频特征或音高特征，也可以是音符的音高特征与该音符前一个音符的标准音高的差异特征。而无论是哪种音调特征，都可以先对其进行优化，比如进行起调和半倍频规整等，得到规整特征。为了进一步提高特征区分性，还可以计算该规整音高值的差分特征，如一阶差分，二阶差分等作为辅助特征。

步骤403，计算所述音调特征与所述音符相对应的音调模型的相似度，并将所述相似度作为所述音符的标准度。

具体地，可以按以下公式计算所述声学特征序列与所述音符相对应的音调模型的相似度：

P (M_{i} | x) = \frac{P (M_{i}, x)}{P (x)} \approx \frac{P (x | M_{i})}{\underset{M_{j &Element;} M}{Σ} P (x | M_{j})}

其中，p(M_i|x)是指特征x属于模型M_i的后验概率，其中x为所述音高特征序列，模型M_i表示当前音符对应的参考模型。M是所有音符模型的集合。

在计算得到用户唱歌的连续语音信号中每个音符的标准度之后，可以根据这些单个音符的标准度来确定唱歌评测得分。在本发明实施例中，可以从音准评分和节奏评分两方面来进行评估，以便更加准确客观地评价用户唱歌水平的高低。

具体地，在进行音准评分时，可以对计算得到的所述音符的标准度进行加权平均，权重由系统预先设置或根据音符长短确定，得到唱歌音准评分ToneScore，即：

ToneScore = \frac{1}{N} Σ_{i = 1}^{N} ToneScor e_{i}

其中，ToneScore_i为第i个音符的音准评分。

在进行节奏评分时，可以根据每个唱词对应的连续语音信号的时间长度与所述唱词对应的标准时间长度的差异，计算唱歌节奏评分RhythmScore，即：

RhythmScore = \frac{1}{N} Σ_{i = 1}^{N} RhythmScor e_{i};

RhythmScor e_{i} = \frac{\max (0, \min (M E_{i}, H E_{i}) - \max ({HB}_{i}, {MB}_{i}))}{\sqrt{({HE}_{i} - {HB}_{i}) \times ({ME}_{i} - {MB}_{i})}};

其中，HB_i，HE_i分别表示第i个唱词标准的开始和结束位置，MB_i，ME_i表示测试数据中第i个唱词开始和结束位置。进一步的，还可以通过比较对应音符的节奏差异来判断唱歌的标准度，即设置HB_i，HE_i分别表示第i个音符标准的开始和结束位置，MB_i，ME_i表示测试数据中第i个音符开始和结束位置。

对于上述两维评分，可以通过函数映射，得到最终的唱歌评测得分Score，即：

Score＝a·ToneScore+b·RhythmScor e+c；

其中，a，b分别表示唱歌音准评分及唱歌节奏评分的权重，而参数c为调整常数项，可以由系统预先在有专家评分的数据集上通过比较人工打分训练得到。当然，也可以根据经验值来确定。

需要说明的是，上述过程首先分别计算音高和节奏特征上的差异，然后通过分数映射综合得到评测分数。本发明实施例并不仅限于上述方式，比如，还可以通过训练不同节奏的音调模型模拟具有不同时长的音符，计算各音符对应的语音片断相对于该音调模型的似然度，得到对该音符的音高及节奏的综合评测结果。

具体的模型训练和识别流程同上，只是在模型训练时，不仅考虑前后音高差异值，还考虑音符本身的长短值，确定最后的参考模型。

可见，本发明实施例唱歌评测方法，预先以离线方式训练得到各种不同音符对应的音调模型，对用户唱歌的连续语音信号，先切分出其中的每个音符，然后利用相应的音调模型计算所述音符的标准度，并据此确定唱歌评测得分。由于这些离线方式训练得到的音调模型尽可能模拟了各种不同音调的变化特点及分布规律，因而可以准确拟合各音符在不同上下文环境下的发音特点，提高了单个音符水平测试的准确度，进而可以更加准确客观地评价用户唱歌水平的高低，提升唱歌评测系统的评测性能。由于是离线训练音调模型，因此可以提高系统运行效率，更好地满足实用要求。

相应地，本发明实施例还提供一种唱歌评测系统，如图5所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

信号接收单元501，用于接收用户唱歌的连续语音信号；

音符切分单元502，用于确定所述连续语音信号中每个音符的边界位置，以切分出每个音符；

模型选择单元503，用于选择所述音符切分单元502切分出的每个音符对应的音调模型，所述音调模型是预先以离线方式训练得到的；

特征提取单元504，用于提取所述音符的音调特征；

标准度计算单元505，用于根据所述特征提取单元503提取的音符的音调特征、以及与所述音符相对应的音调模型计算所述音符的标准度；

得分计算单元505，用于根据所述音符的标准度确定唱歌评测得分。

在本发明实施例中，所述音符切分单元502的一种具体结构可以包括：字音对齐子单元和边界定位子单元。其中，所述字音对齐子单元用于将所述连续语音信号及其对应的歌词进行字音对齐，得到所述歌词中每个唱词对应的语音信号片断；所述边界定位子单元用于根据所述唱词对应的乐谱确定所述语音信号片段中每个音符的边界位置。

由于不同人在唱同一首歌时表现往往不同，其音高曲线差异较大，很难找到标准音高曲线。为此，在本发明实施例中，采用统计模型模拟的方法，通过在海量数据上训练模型参数实现对音高曲线变化规律的学习。在实际应用中，所述音调模型可以有多种不同的方式来生成，具体可以是用于模拟音符的音高特征的模型，或者是用于模拟具有相同前后高低音转换的音高特征的模型。相应地，所述音调特征与实际采用的音调模型相关，可以是音符的基频特征，也可以是音符的基频特征与该音符前一个音符的标准音高的差异特征，对此将在后面详细说明。

本发明实施例唱歌评测系统，预先以离线方式从真实唱歌数据中学习各音符发音特点，训练得到各种不同音符对应的音调模型，从而可以根据音符发音长短的不同设定相应的音调模型。由于离线方式训练得到的音调模型尽可能模拟了各种不同音调的变化特点及分布规律，因而可以准确拟合各音符在不同上下文环境下的发音特点，提高了单个音符水平测试的准确度，进而可以更加准确客观地评价用户唱歌水平的高低，提升唱歌评测系统的评测性能。同时，由于音调模型通过离线方式训练得到，因此还提高了系统运行效率，更好地满足实用要求。

本发明实施例中的音调模型是预先以离线方式训练得到的，当然，在实际应用中，音调模型的训练可以由本系统完成，也可以由单独的设备完成，在本系统启动时载入本系统，对此本发明实施例不做限定。

比如，由本发明实施例唱歌评测系统完成音调模型的训练，可以在所述系统中设置第一模型训练单元，以生成用于模拟音符的音高特征的模型；或者在所述系统中设置第二模型训练单元，以生成用于模拟具有相同前后高低音转换的音高特征的模型。下面分别对第一模型训练单元和第二模型训练单元进行详细说明。

如图6所示，是本发明实施例唱歌评测系统中第一模型训练单元的结构示意图。

所述第一模型训练单元包括：

切分子单元601，用于将预先采集的歌曲训练数据切分为与不同音符对应的语音片段；

第一分类子单元602，用于按照所述语音片段对应的音符对所述语音片段归类；

特征提取子单元603，用于对每一类语音片断，分别按时间顺序提取其中每一语音片断的音高特征，生成对应所述音符的特征序列；

模型拓扑构建子单元604，用于构建音调模型拓扑；

参数训练子单元605，对每个音符，利用该音符对应的一维特征序列训练对应所述音调模型拓扑的参数。

利用上述第一模型训练单元，可以生成用于模拟音符的音高特征的模型，其具体过程与图2所示流程类似，在此不再详细说明。

基于上述第一模型训练单元生成的音调模型，相应地，图5中的特征提取单元504需要提取每个音符的基频特征或音高特征，并将所述基频特征或音高特征作为所述音调特征。

如图7所示，是本发明实施例唱歌评测系统中第二模型训练单元的结构示意图。

所述第二模型训练单元包括：

切分子单元701，用于将预先采集的歌曲训练数据切分为与不同音符对应的语音片段；

第二分类子单元702，用于按照所述语音片段对应的音符具有相同前后高低音转换的标准对所述语音片段归类；

特征提取子单元703，用于对每一类语音片断，分别按时间顺序提取其中每一语音片断的音高特征，生成对应所述音符的特征序列；

模型拓扑构建子单元704，用于构建音调模型拓扑；

参数训练子单元705，用于对每一类具有相同前后高低音转换的音调模型，利用该音调模型对应的所有训练数据的特征序列训练对应所述音调模型拓扑的参数。

利用上述第二模型训练单元，可以生成用于模拟具有相同前后高低音转换的音高特征的模型，其具体过程与图3所示流程类似，在此不再详细说明。

基于上述第二模型训练单元生成的音调模型，相应地，图5中的特征提取单元504的一种具体结构包括：提取子单元和计算子单元，其中，所述提取子单元，用于提取每个音符的音高特征；所述计算子单元，用于计算每个音符的音高特征与其前一个音符的标准音高的差异，并将所述差异作为所述音符的音调特征。

在本发明系统中，所述标准度计算单元504可以有多种实现方式，比如，在其一种实现方式中，所述标准度计算单元504包括：相似度计算子单元，用于计算所述音调特征与所述音符相对应的音调模型的相似度，并将所述相似度作为所述音符的标准度。在其另一种实现方式中，所述标准度计算单元504不仅包括相似度计算子单元，还可进一步包括：优化子单元，用于根据所述音符的变化趋势对所述音调特征进行优化，得到规整特征。相应的，在这种实现方式中，所述相似度计算子单元需要计算所述规整特征与所述音符相对应的音调模型的相似度，并将所述相似度作为所述音符的标准度，具体规整及相似度计算过程可参照前面图4所示实施例，在此不再赘述。

在本发明系统中，所述得分计算单元505可以根据标准度计算单元504得到的各单个音符的标准度来确定唱歌评测得分。具体地，可以从音准评分和节奏评分两方面来进行评估，以便更加准确客观地评价用户唱歌水平的高低。

如图8所示，是本发明实施例唱歌评测系统中得分计算单元的一种结构示意图。

在该实施例中，所述得分计算单元包括：

音准评分子单元801，用于对计算得到的所述音符的标准度进行加权平均，得到唱歌音准评分；

节奏评分子单元802，用于根据所述唱词对应的连续语音信号的时间长度与所述唱词对应的标准时间长度的差异，计算唱歌节奏评分；

得分映射子单元803，用于将所述唱歌音准评分和所述唱歌节奏评分通过以下函数映射为唱歌评测得分：

Score＝a·ToneScore+b·RhythmScore+c；

上述各子单元的具体计算过程可参照前面本发明实施例唱歌评测方法中的描述，在此不再赘述。

需要说明的是，本发明系统实施例并不仅限上述方式，比如，还可以通过训练不同节奏的音调模型模拟具有不同时长的音符，计算各音符对应的语音片断相对于该音调模型的似然度，得到对该音符的音高及节奏的综合评测结果。

具体的模型训练和识别流程同上，只是在模型训练时，不仅考虑前后音高差异值，还考虑音符本身的长短值，确定最后的音调模型。

可见，本发明实施例唱歌评测系统，预先以离线方式训练得到各种不同音符对应的音调模型，对用户唱歌的连续语音信号，先切分出其中的每个音符，然后利用相应的音调模型计算所述音符的标准度，并据此确定唱歌评测得分。由于这些离线方式训练得到的音调模型尽可能模拟了各种不同音调的变化特点及分布规律，因而可以准确拟合各音符在不同上下文环境下的发音特点，提高了单个音符水平测试的准确度，进而可以更加准确客观地评价用户唱歌水平的高低，提升唱歌评测系统的评测性能。由于是离线训练音调模型，因此可以提高系统运行效率，更好地满足实用要求。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上公开的仅为本发明的优选实施方式，但本发明并非局限于此，任何本领域的技术人员能思之的没有创造性的变化，以及在不脱离本发明原理前提下所作的若干改进和润饰，都应落在本发明的保护范围内。

Claims

1.一种唱歌评测方法，其特征在于，包括：

接收用户唱歌的连续语音信号；

提取所述音符的音调特征；

根据所述音符的标准度确定唱歌评测得分；

其中，所述预先以离线方式训练得到音调模型具体为：

按照所述语音片段对应的音符对所述语音片段归类；

构建音调模型拓扑；

所述选择切分出的每个音符对应的音调模型包括：

所述提取所述音符的音调特征包括：

提取每个音符的基频特征或音高特征，并将所述基频特征或音高特征作为所述音调特征；

或者，

构建音调模型拓扑；

所述选择切分出的每个音符对应的音调模型包括：

所述提取所述音符的音调特征包括：

提取每个音符的音高特征；

2.如权利要求1所述的方法，其特征在于，所述确定所述连续语音信号中每个音符的边界位置包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述音符的音调特征、以及与所述音符相对应的音调模型计算所述音符的标准度包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述音符的标准度确定唱歌评测得分包括：

Score=a·ToneScore+b·RhythmScore+c；

5.一种唱歌评测系统，其特征在于，包括：

信号接收单元，用于接收用户唱歌的连续语音信号；

特征提取单元，用于提取所述音符的音调特征；

得分计算单元，用于根据所述音符的标准度确定唱歌评测得分；

其中，所述系统还包括：第一模型训练单元，所述第一模型训练单元包括：

模型拓扑构建子单元，用于构建音调模型拓扑；

所述特征提取单元，具体用于提取所述音符的基频特征或音高特征，并将所述基频特征或音高特征作为所述音调特征；

或者，

所述系统还包括：第二模型训练单元，所述第二模型训练单元包括：

模型拓扑构建子单元，用于构建音调模型拓扑；

所述特征提取单元包括：

提取子单元，用于提取每个音符的音高特征；

6.如权利要求5所述的系统，其特征在于，所述音符切分单元包括：

7.如权利要求5所述的系统，其特征在于，所述标准度计算单元包括：

8.如权利要求5所述的系统，其特征在于，所述得分计算单元包括：

Score=a·ToneScore+b·RhythmScore+c；