CN102664018B - 基于径向基函数统计模型的演唱评分方法 - Google Patents

基于径向基函数统计模型的演唱评分方法 Download PDF

Info

Publication number
CN102664018B
CN102664018B CN201210127133.6A CN201210127133A CN102664018B CN 102664018 B CN102664018 B CN 102664018B CN 201210127133 A CN201210127133 A CN 201210127133A CN 102664018 B CN102664018 B CN 102664018B
Authority
CN
China
Prior art keywords
audio
statistical model
section
basis function
radial basis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210127133.6A
Other languages
English (en)
Other versions
CN102664018A (zh
Inventor
林裕旭
刘康苗
刘迪搏
张恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HANGZHOU LAITONG TECHNOLOGY Co Ltd
Original Assignee
HANGZHOU LAITONG TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU LAITONG TECHNOLOGY Co Ltd filed Critical HANGZHOU LAITONG TECHNOLOGY Co Ltd
Priority to CN201210127133.6A priority Critical patent/CN102664018B/zh
Publication of CN102664018A publication Critical patent/CN102664018A/zh
Application granted granted Critical
Publication of CN102664018B publication Critical patent/CN102664018B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种基于径向基函数统计模型的演唱评分方法。传统的演唱评分方法通过比对目标音频与参考音频的声学特征差异进行评分,其缺陷在于:使用不同的参考音频将得到迥异的评分结果。本发明提出一种基于径向基函数统计模型的演唱评分方法,采集标准样本不同的参考音频并提取声学特征,包括梅尔倒谱系数特征、线性预测系数、基频特征,使用这些特征训练得到基于径向基函数统计模型,再利用该模型计算目标音频的对数概率矩阵,最后使用动态规整计算最佳匹配对数概率,能得到更精确而稳定的评分。

Description

基于径向基函数统计模型的演唱评分方法
技术领域
本发明涉及演唱评分领域,特别是涉及一种基于径向基函数统计模型的演唱评分方法。
背景技术
演唱评分方法主要用于卡拉0K装置或软件,目的是对演唱者的声音作评价,增加歌唱乐趣。
传统的演唱评分方法通过比对目标音频与参考音频的声学特征差异进行评分,其缺陷在于:使用不同的参考音频将得到迥异的评分结果。
发明内容
为了克服现有技术的不足,本发明公开了一种基于径向基函数统计模型的演唱评分方法。
本发明采用了如下的技术方案:
一种基于径向基函数统计模型的演唱评分方法,其特征在于,包括以下步骤:
(1)预处理,包括如下步骤:
制作特征库:采集同一歌曲的若干参考音频样本,即同一歌手在不同时期的录音及不同歌手的录音,记为{Si},将样本分割成相互重叠时间长度为T的音频段,记为
Figure BDA0000157539580000011
提取音频段的短时信号特征,包括梅尔倒谱系数特征、线性预测系数、基频特征,记为
Figure BDA0000157539580000012
建立统计模型并训练:建立各段音频对应的径向基函数统计模型:
Pj(X)=R(Dj(X))
D j ( X ) = ( X - μ j ) T · σ j - 1 · ( X - μ j )
其中,R为单调递减径向基函数;μj为各音频样本的第j段音频均值;σj为第j段音频的协方差矩阵,代表样本在空间中的分布;Dj(X)为输入向量X与音频均值的马氏距离,该距离计算方法用于归一化特征向量在不同方向上长度;Pj(X)为第j段音频对应的径向基函数统计模型;通过如下计算μj与σj
μ j = 1 n · Σ i = 0 n - 1 F j i
σ j = 1 n - 1 · Σ i = 0 n - 1 ( F j i - u j ) T · ( F j i - u j )
其中,n代表参考音频样本的数量,i表示第i个参考音频样本;
(2)目标音频评分,包括如下步骤:
提取目标音频实时特征:将目标音频实时分割成相互重叠时间长度为T的音频段,记为{Dj},提取音频段的短时信号特征,包括梅尔倒谱系数特征、线性预测系数、基频特征,记为{Gj};
建立对数概率矩阵:评分系统每隔L个音频段对目标音频进行评分,每次评分前建立目标音频特征与统计模型的对数概率矩阵:
Mk(x,y)=Log(Pk*L-v+x(Gk*L+y))
x∈[0,L+2v)
y∈[0,L)
Mk(x,y)表示第k次评分的对数概率矩阵中下标为(x,y)的元素值,v为偏差忍受值,即允许演唱者的节奏相对特征库提前或滞后v个音频段;
动态规整匹配:使用对数概率矩阵Mk作为标准动态规整算法的输入,得到目标音频段相对于统计模型的最佳匹配对数概率,记为bk,通过如下正规化公式输出第k次评判分数pk
p k = e b k L
使用所有实时评判分数的均值作为目标音频的总体评判分数。
本发明的优点在于:采集标准样本不同的参考音频并提取声学特征,包括梅尔倒谱系数特征、线性预测系数、基频特征,使用这些特征训练得到基于径向基函数统计模型,再利用该模型计算目标音频的对数概率矩阵,最后使用动态规整计算最佳匹配对数概率,能得到更精确而稳定的评分。
附图说明
图1为本发明预处理的流程图;
图2为本发明目标音频评分的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的说明:
一种基于径向基函数统计模型的演唱评分方法,包括以下步骤:
(1)预处理,参见图1,包括如下步骤:
特征库制作,参见图中101部分:采集同一歌曲的若干参考音频样本,即同一歌手在不同时期的录音及不同歌手的录音,以.mp3标准格式存放,使用标准解码器解码成16KHz波形流,记为{Si},将样本分割成长度为50毫秒,前后重叠均为20毫秒的音频段,其中,记为
Figure BDA0000157539580000031
提取音频段的短时信号特征,包括梅尔倒谱系数特征、线性预测系数、基频特征,记为
Figure BDA0000157539580000032
建立各段音频对应的径向基函数统计模型,参见图1中102部分:
Pj(X)=R(Dj(X))
D j ( X ) = ( X - μ j ) T · σ j - 1 · ( X - μ j )
其中,R为高斯函数;μj为各音频样本的第j段音频均值;σj为第j段音频的协方差矩阵,代表样本在空间中的分布;Dj(X)为输入向量X与音频均值的马氏距离,该距离计算方法用于归一化特征向量在不同方向上长度;Pj(X)为第j段音频对应的径向基函数统计模型;通过如下计算μj与σj
μ j = 1 n · Σ i = 0 n - 1 F j i
σ j = 1 n - 1 · Σ i = 0 n - 1 ( F j i - u j ) T · ( F j i - u j )
其中,n代表参考音频样本的数量,i表示第i个参考音频样本;
(2)目标音频评分,包括如下步骤:
目标音频实时特征提取,参见图2中201部分:目标音频通过PC声卡提取,提取频率为16KHz,将目标音频实时分割成长度为50毫秒,前后重叠均为20毫秒的音频段,记为{Dj},提取音频段的短时信号特征,包括梅尔倒谱系数特征、线性预测系数、基频特征,记为{Gj};
建立对数概率矩阵,参见图2中202部分:评分系统每隔L个音频段对目标音频进行评分,L取值为10,每次评分前建立目标音频特征与统计模型的对数概率矩阵:
Mk(x,y)=Log(Pk*L-v+x(Gk*L+y))
x∈[0,L+2v)
y∈[0,L)
Mk(x,y)表示第k次评分的对数概率矩阵中下标为(x,y)的元素值,v为偏差忍受值,取值为3,即允许演唱者的节奏相对特征库提前或滞后3个音频段,即150毫秒;
动态规整匹配,参见图2中203部分:使用对数概率矩阵Mk作为标准动态规整算法的输入,可以得到目标音频段相对于特征库模型的最佳匹配对数概率,记为bk,通过如下正规化公式输出第k次评判分数pk
p k = e b k L
使用所有实时评判分数的均值作为目标音频的总体评判分数,参见图2中204部分。

Claims (2)

1.基于径向基函数统计模型的演唱评分方法,其特征在于,包括以下步骤:
(1)预处理,包括如下步骤:
制作特征库:采集同一歌曲的若干参考音频样本,即同一歌手在不同时期的录音及不同歌手的录音,记为{Si},将样本分割成时间长度为T、前后重叠时间长度一致的音频段,记为
Figure FDA0000388252420000013
,提取音频段的短时信号特征,包括梅尔倒谱系数特征、线性预测系数、基频特征,记为
Figure FDA0000388252420000014
训练并建立统计模型:
训练计算模型的均值与协方差参数:
μ j = 1 n Σ i = 0 n - 1 F j i
σ j = 1 n - 1 Σ i = 0 n - 1 ( F j i - u j ) T . ( F j i - u j )
其中,μj为各音频样本第j段音频的模型均值;σj为第j段音频的模型协方差矩阵,代表样本在空间中的分布;n代表参考音频样本的数量;i表示第i个参考音频样本;
建立各段音频对应的径向基函数统计模型:
Pj(X)=R(Dj(X))
Dj(X)=(X-μj)Tj -1.(X-μj)
其中,R为单调递减径向基函数;Dj(X)为输入向量X与音频均值的马氏距离,该距离计算方法用于归一化特征向量在不同方向上的长度;Pj(X)为第j段音频对应的径向基函数统计模型;
(2)目标音频评分,包括如下步骤:
提取目标音频实时特征:将目标音频实时分割成时间长度为T、前后重叠时间长度一致的音频段,记为{Dj},提取音频段的短时信号特征,包括梅尔倒谱系数特征、线性预测系数、基频特征,记为{Gj};建立对数概率矩阵:评分系统每隔L个音频段对目标音频进行评分,每次评分前建立目标音频特征与统计模型的对数概率矩阵:Mk(x,y)=Log(Pk*L-v+x(Gk*L+y))
x∈[0,L+2v),y∈[0,L),Mk(x,y)表示第k次评分的对数概率矩阵中下标为(x,y)的元素值,v为偏差忍受值,即允许演唱者的节奏相对特征库提前或滞后v个音频段;
动态规整匹配:使用对数概率矩阵Mk作为标准动态规整算法的输入,得到目标音频段相对于统计模型的最佳匹配对数概率,记为bk,通过如下正规化公式输出第k次评判分数pk
P k = e b k L
使用所有实时评判分数的均值作为目标音频的总体评判分数。
2.如权利要求1所述的基于径向基函数统计模型的演唱评分方法,其特征在于,步骤(1)的所述的单调递减径向基函数为高斯函数或样条函数。
CN201210127133.6A 2012-04-26 2012-04-26 基于径向基函数统计模型的演唱评分方法 Expired - Fee Related CN102664018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210127133.6A CN102664018B (zh) 2012-04-26 2012-04-26 基于径向基函数统计模型的演唱评分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210127133.6A CN102664018B (zh) 2012-04-26 2012-04-26 基于径向基函数统计模型的演唱评分方法

Publications (2)

Publication Number Publication Date
CN102664018A CN102664018A (zh) 2012-09-12
CN102664018B true CN102664018B (zh) 2014-01-08

Family

ID=46773484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210127133.6A Expired - Fee Related CN102664018B (zh) 2012-04-26 2012-04-26 基于径向基函数统计模型的演唱评分方法

Country Status (1)

Country Link
CN (1) CN102664018B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104269174B (zh) * 2014-10-24 2018-02-09 北京音之邦文化科技有限公司 一种音频信号的处理方法及装置
CN106548784B (zh) * 2015-09-16 2020-04-24 广州酷狗计算机科技有限公司 一种语音数据的评价方法及系统
CN113593607A (zh) * 2020-04-30 2021-11-02 北京破壁者科技有限公司 一种音频处理方法、装置及电子设备
CN113744721B (zh) * 2021-09-07 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 模型训练方法、音频处理方法、设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008216486A (ja) * 2007-03-01 2008-09-18 Univ Waseda 音楽再生システム
CN101364407A (zh) * 2008-09-17 2009-02-11 清华大学 保持主观一致性的卡拉ok演唱评分方法
CN101430876A (zh) * 2007-11-08 2009-05-13 中国科学院声学研究所 一种演唱的评分系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259081A (ja) * 1998-03-13 1999-09-24 Nec Corp 歌唱採点表示カラオケ装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008216486A (ja) * 2007-03-01 2008-09-18 Univ Waseda 音楽再生システム
CN101430876A (zh) * 2007-11-08 2009-05-13 中国科学院声学研究所 一种演唱的评分系统和方法
CN101364407A (zh) * 2008-09-17 2009-02-11 清华大学 保持主观一致性的卡拉ok演唱评分方法

Also Published As

Publication number Publication date
CN102664018A (zh) 2012-09-12

Similar Documents

Publication Publication Date Title
CN102881284B (zh) 非特定人语音情感识别方法及系统
CN102664016B (zh) 唱歌评测方法及系统
CN103440873B (zh) 一种基于相似性的音乐推荐方法
CN103714806B (zh) 一种结合svm和增强型pcp特征的和弦识别方法
CN103354092B (zh) 一种带检错功能的音频乐谱比对方法
CN105719661B (zh) 一种弦乐器演奏音质自动判别方法
Patel et al. Speech recognition and verification using MFCC & VQ
CN101226743A (zh) 基于中性和情感声纹模型转换的说话人识别方法
CN104992712B (zh) 能识别音乐自动成谱的方法
CN103824565A (zh) 一种基于音符和时值建模的哼唱识谱方法及系统
CN102820033A (zh) 一种声纹识别方法
CN104616663A (zh) 一种结合hpss的mfcc-多反复模型的音乐分离方法
CN102664018B (zh) 基于径向基函数统计模型的演唱评分方法
Gómez et al. Predominant Fundamental Frequency Estimation vs Singing Voice Separation for the Automatic Transcription of Accompanied Flamenco Singing.
CN110660383A (zh) 一种基于歌词歌声对齐的唱歌评分方法
CN109545191B (zh) 一种歌曲中人声起始位置的实时检测方法
CN102723079A (zh) 基于稀疏表示的音乐和弦自动识别方法
CN104240706A (zh) 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN107564543A (zh) 一种高情感区分度的语音特征提取方法
CN110265051A (zh) 应用于基础音乐视唱教育的视唱音频智能评分建模方法
Wang et al. HMM-based glissando detection for recordings of Chinese bamboo flute
Kızrak et al. Classification of classic Turkish music makams
CN109410968B (zh) 一种高效的歌曲中人声起始位置检测方法
CN101552004A (zh) 一种集内说话者的识别方法
CN104240699A (zh) 一种简单有效的短语语音识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140108

Termination date: 20150426

EXPY Termination of patent right or utility model