CN102664018B

CN102664018B - 基于径向基函数统计模型的演唱评分方法

Info

Publication number: CN102664018B
Application number: CN201210127133.6A
Authority: CN
Inventors: 林裕旭; 刘康苗; 刘迪搏; 张恺
Original assignee: HANGZHOU LAITONG TECHNOLOGY Co Ltd
Current assignee: HANGZHOU LAITONG TECHNOLOGY Co Ltd
Priority date: 2012-04-26
Filing date: 2012-04-26
Publication date: 2014-01-08
Anticipated expiration: 2032-04-26
Also published as: CN102664018A

Abstract

本发明公开了一种基于径向基函数统计模型的演唱评分方法。传统的演唱评分方法通过比对目标音频与参考音频的声学特征差异进行评分，其缺陷在于：使用不同的参考音频将得到迥异的评分结果。本发明提出一种基于径向基函数统计模型的演唱评分方法，采集标准样本不同的参考音频并提取声学特征，包括梅尔倒谱系数特征、线性预测系数、基频特征，使用这些特征训练得到基于径向基函数统计模型，再利用该模型计算目标音频的对数概率矩阵，最后使用动态规整计算最佳匹配对数概率，能得到更精确而稳定的评分。

Description

基于径向基函数统计模型的演唱评分方法

技术领域

本发明涉及演唱评分领域，特别是涉及一种基于径向基函数统计模型的演唱评分方法。

背景技术

演唱评分方法主要用于卡拉0K装置或软件，目的是对演唱者的声音作评价，增加歌唱乐趣。

传统的演唱评分方法通过比对目标音频与参考音频的声学特征差异进行评分，其缺陷在于：使用不同的参考音频将得到迥异的评分结果。

发明内容

为了克服现有技术的不足，本发明公开了一种基于径向基函数统计模型的演唱评分方法。

本发明采用了如下的技术方案：

一种基于径向基函数统计模型的演唱评分方法，其特征在于，包括以下步骤：

(1)预处理，包括如下步骤：

制作特征库：采集同一歌曲的若干参考音频样本，即同一歌手在不同时期的录音及不同歌手的录音，记为{Sⁱ}，将样本分割成相互重叠时间长度为T的音频段，记为

提取音频段的短时信号特征，包括梅尔倒谱系数特征、线性预测系数、基频特征，记为

建立统计模型并训练：建立各段音频对应的径向基函数统计模型：

P_j(X)＝R(D_j(X))

D_{j} (X) = {(X - μ_{j})}^{T} \cdot σ_{j}^{- 1} \cdot (X - μ_{j})

其中，R为单调递减径向基函数；μ_j为各音频样本的第j段音频均值；σ_j为第j段音频的协方差矩阵，代表样本在空间中的分布；D_j(X)为输入向量X与音频均值的马氏距离，该距离计算方法用于归一化特征向量在不同方向上长度；P_j(X)为第j段音频对应的径向基函数统计模型；通过如下计算μ_j与σ_j：

μ_{j} = \frac{1}{n} \cdot Σ_{i = 0}^{n - 1} F_{j}^{i}

σ_{j} = \frac{1}{n - 1} \cdot Σ_{i = 0}^{n - 1} {(F_{j}^{i} - u_{j})}^{T} \cdot (F_{j}^{i} - u_{j})

其中，n代表参考音频样本的数量，i表示第i个参考音频样本；

(2)目标音频评分，包括如下步骤：

提取目标音频实时特征：将目标音频实时分割成相互重叠时间长度为T的音频段，记为{D_j}，提取音频段的短时信号特征，包括梅尔倒谱系数特征、线性预测系数、基频特征，记为{G_j}；

建立对数概率矩阵：评分系统每隔L个音频段对目标音频进行评分，每次评分前建立目标音频特征与统计模型的对数概率矩阵：

M_k(x，y)＝Log(P_k*L-v+x(G_k*L+y))

x∈[0，L+2v)

y∈[0，L)

M_k(x，y)表示第k次评分的对数概率矩阵中下标为(x，y)的元素值，v为偏差忍受值，即允许演唱者的节奏相对特征库提前或滞后v个音频段；

动态规整匹配：使用对数概率矩阵M_k作为标准动态规整算法的输入，得到目标音频段相对于统计模型的最佳匹配对数概率，记为b_k，通过如下正规化公式输出第k次评判分数p_k：

p_{k} = e^{\frac{b_{k}}{L}}

使用所有实时评判分数的均值作为目标音频的总体评判分数。

本发明的优点在于：采集标准样本不同的参考音频并提取声学特征，包括梅尔倒谱系数特征、线性预测系数、基频特征，使用这些特征训练得到基于径向基函数统计模型，再利用该模型计算目标音频的对数概率矩阵，最后使用动态规整计算最佳匹配对数概率，能得到更精确而稳定的评分。

附图说明

图1为本发明预处理的流程图；

图2为本发明目标音频评分的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的说明：

一种基于径向基函数统计模型的演唱评分方法，包括以下步骤：

(1)预处理，参见图1，包括如下步骤：

特征库制作，参见图中101部分：采集同一歌曲的若干参考音频样本，即同一歌手在不同时期的录音及不同歌手的录音，以.mp3标准格式存放，使用标准解码器解码成16KHz波形流，记为{Sⁱ}，将样本分割成长度为50毫秒，前后重叠均为20毫秒的音频段，其中，记为

建立各段音频对应的径向基函数统计模型，参见图1中102部分：

P_j(X)＝R(D_j(X))

D_{j} (X) = {(X - μ_{j})}^{T} \cdot σ_{j}^{- 1} \cdot (X - μ_{j})

其中，R为高斯函数；μ_j为各音频样本的第j段音频均值；σ_j为第j段音频的协方差矩阵，代表样本在空间中的分布；D_j(X)为输入向量X与音频均值的马氏距离，该距离计算方法用于归一化特征向量在不同方向上长度；P_j(X)为第j段音频对应的径向基函数统计模型；通过如下计算μ_j与σ_j：

μ_{j} = \frac{1}{n} \cdot Σ_{i = 0}^{n - 1} F_{j}^{i}

σ_{j} = \frac{1}{n - 1} \cdot Σ_{i = 0}^{n - 1} {(F_{j}^{i} - u_{j})}^{T} \cdot (F_{j}^{i} - u_{j})

(2)目标音频评分，包括如下步骤：

目标音频实时特征提取，参见图2中201部分：目标音频通过PC声卡提取，提取频率为16KHz，将目标音频实时分割成长度为50毫秒，前后重叠均为20毫秒的音频段，记为{D_j}，提取音频段的短时信号特征，包括梅尔倒谱系数特征、线性预测系数、基频特征，记为{G_j}；

建立对数概率矩阵，参见图2中202部分：评分系统每隔L个音频段对目标音频进行评分，L取值为10，每次评分前建立目标音频特征与统计模型的对数概率矩阵：

M_k(x，y)＝Log(P_k*L-v+x(G_k*L+y))

x∈[0，L+2v)

y∈[0，L)

M_k(x，y)表示第k次评分的对数概率矩阵中下标为(x，y)的元素值，v为偏差忍受值，取值为3，即允许演唱者的节奏相对特征库提前或滞后3个音频段，即150毫秒；

动态规整匹配，参见图2中203部分：使用对数概率矩阵M_k作为标准动态规整算法的输入，可以得到目标音频段相对于特征库模型的最佳匹配对数概率，记为b_k，通过如下正规化公式输出第k次评判分数p_k：

p_{k} = e^{\frac{b_{k}}{L}}

使用所有实时评判分数的均值作为目标音频的总体评判分数，参见图2中204部分。

Claims

1.基于径向基函数统计模型的演唱评分方法，其特征在于，包括以下步骤：

（1）预处理，包括如下步骤：

制作特征库：采集同一歌曲的若干参考音频样本，即同一歌手在不同时期的录音及不同歌手的录音，记为{Sⁱ}，将样本分割成时间长度为T、前后重叠时间长度一致的音频段，记为

，提取音频段的短时信号特征，包括梅尔倒谱系数特征、线性预测系数、基频特征，记为

；

训练并建立统计模型：

训练计算模型的均值与协方差参数：

μ_{j} = \frac{1}{n} Σ_{i = 0}^{n - 1} F_{j}^{i}

σ_{j} = \frac{1}{n - 1} Σ_{i = 0}^{n - 1} {(F_{j}^{i} - u_{j})}^{T} . (F_{j}^{i} - u_{j})

其中，μ_j为各音频样本第j段音频的模型均值；σ_j为第j段音频的模型协方差矩阵，代表样本在空间中的分布；n代表参考音频样本的数量；i表示第i个参考音频样本；

建立各段音频对应的径向基函数统计模型：

P_j(X)=R(D_j(X))

D_j(X)=(X-μ_j)^T.σ_j ^-1.(X-μ_j)

其中，R为单调递减径向基函数；D_j(X)为输入向量X与音频均值的马氏距离，该距离计算方法用于归一化特征向量在不同方向上的长度；P_j(X)为第j段音频对应的径向基函数统计模型；

（2）目标音频评分，包括如下步骤：

提取目标音频实时特征：将目标音频实时分割成时间长度为T、前后重叠时间长度一致的音频段，记为{D_j}，提取音频段的短时信号特征，包括梅尔倒谱系数特征、线性预测系数、基频特征，记为{G_j}；建立对数概率矩阵：评分系统每隔L个音频段对目标音频进行评分，每次评分前建立目标音频特征与统计模型的对数概率矩阵：M_k(x,y)=Log(P_k*L-v+x(G_k*L+y))

x∈[0,L+2v),y∈[0,L),M_k(x,y)表示第k次评分的对数概率矩阵中下标为(x,y)的元素值，v为偏差忍受值，即允许演唱者的节奏相对特征库提前或滞后v个音频段；

P_{k} = e^{\frac{b_{k}}{L}}

2.如权利要求1所述的基于径向基函数统计模型的演唱评分方法，其特征在于，步骤（1）的所述的单调递减径向基函数为高斯函数或样条函数。