CN105575393A - 一种基于人声音色的个性化点唱歌曲推荐方法 - Google Patents
一种基于人声音色的个性化点唱歌曲推荐方法 Download PDFInfo
- Publication number
- CN105575393A CN105575393A CN201510859812.6A CN201510859812A CN105575393A CN 105575393 A CN105575393 A CN 105575393A CN 201510859812 A CN201510859812 A CN 201510859812A CN 105575393 A CN105575393 A CN 105575393A
- Authority
- CN
- China
- Prior art keywords
- voice
- tone color
- user
- recommendation
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 238000001914 filtration Methods 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 8
- 230000001755 vocal effect Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 235000009508 confectionery Nutrition 0.000 claims description 3
- 238000011160 research Methods 0.000 claims description 3
- 238000009472 formulation Methods 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 238000004088 simulation Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 238000000926 separation method Methods 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 108010033040 Histones Proteins 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 230000019552 anatomical structure morphogenesis Effects 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000004962 physiological condition Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于人声音色的个性化点唱推荐方法,它涉及网络平台演唱推荐方法。它解决了协同过滤方法在这里并不适用,不能直接使用说话人识别的相关方法,对推荐结果影响大的问题。本发明的方法一、采用伴奏人声分离;二、从人声数据中提取能代表用户音色特征的声学特征量MFCC和LPCC;三、根据步骤二中提取的声学特征量推荐个性化点唱曲目;四、可扩展性分析。本发明的方法在网络演唱系统中提升用户体验,有着很好的应用前景。
Description
技术领域
本发明涉及网络平台点唱推荐方法,具体涉及一种基于人声音色的个性化点唱推荐方法。
背景技术
目前,随着网络音乐的蓬勃发展,人们对于音乐服务的要求越来越高,各大音乐服务网站都相继推出了音乐的个性化推荐功能,即通过对用户访问行为以及收藏记录等历史行为的分析,挖掘用户的兴趣爱好,为其推荐符合其欣赏品味的音乐。
网络演唱是近几年发展迅猛的音乐服务类产品,他将传统的KTV演唱功能搬到互联网上,通过网络为广大演唱爱好者提供一个虚拟的演唱平台。由于在线KTV的用户大多数是业余用户,他们没有丰富的音乐知识,对歌曲的风格、调式、节奏以及歌手的音色特点等知之甚少,对哪些歌曲适合自己也不甚了解,所以选歌存在很大的盲目性。因此为网络演唱服务进行精准的个性化推荐就显得尤为重要。并且唱歌与听歌不同,听歌是被动的行为,并不需要听众过多的参与反馈。而演唱是主动的,需要用户全程积极参与其中,一旦歌曲不符合用户兴趣,就会直接被切歌,这就要求网络演唱推荐要更加精准,更贴近用户的真实兴趣。所以,网络演唱推荐不能全盘照搬音乐推荐的方法,而是应该在现有音乐推荐方法的基础上,结合网络演唱自身的特点,研究适合网络演唱的推荐方法。
基于人声音色的个性化演唱推荐与传统的音乐推荐有很大不同,第一,该推荐是根据用户自身的音色特点进行推荐,只和本身的音色特点有关,与其他用户无关,所以在传统音乐推荐中使用最广泛的协同过滤方法在这里并不适用,第二,基于人声音色的个性化演唱推荐是根据用户自己的音色特征,为其推荐与他有着类似音色的歌手的歌曲,所以和说话人识别有所不同,不能直接使用说话人识别的相关方法,第三,该推荐只能基于演唱者本人的人声信息,伴奏以及和声对推荐结果都会产生影响的问题。所以在数据处理阶段要对音乐文件进行处理,提取出只有人声部分的音频数据。而网络演唱平台的优势在于可以直接获得演唱者的人声音频数据,只要将曲库中的音乐数据做提取人声的处理就可以了。
发明内容
本发明为了解决传统音乐推荐中使用最广泛的协同过滤方法在这里并不适用,基于人声音色的个性化演唱推荐是根据用户自己的音色特征,为其推荐与他有着类似音色的歌手的歌曲,所以和说话人识别有所不同,不能直接使用说话人识别的相关方法;该推荐只能基于演唱者本人的人声信息,伴奏以及和声对推荐结果都会产生影响的问题,提供了一种基于人声音色的个性化点唱推荐方法,具体技术实施方案如下:
本发明的一种基于人声音色的个性化点唱推荐方法,该方法的步骤如下:
步骤一、伴奏人声分离;
步骤二、从人声数据中提取能代表用户音色特征的声学特征量MFCC和LPCC;
步骤三、根据步骤二中提取的声学特征量推荐个性化点唱曲目;
首先将人声音频按音色进行分类,为此构造了一个人声音色分类数据集,将人声音色分为男声沙哑、男声明亮、女声沙哑、女声明亮、甜美、空灵六大类;
其次基础音色歌曲推荐,分类后包含音频数目最多的类别为用户的基本音色类别,其它音色类为用户的扩展音色类别;然后计算基本特征类别中所有用户声音样本的平均值作为用户基本音色模型,然后计算本类中所有待推荐样本与平均值的距离,以此度量歌手和用户音色相似度。将相似度从大到小排序;
然后扩展音色歌曲推荐,代表用户扩展音色的歌曲数目相对很少,所以这部分推荐可以直接使用AR策略,为每首扩展音色歌曲在其对应的类别中计算与其他歌曲的相似度,然后根据相似度从大到小排序;
最后推荐结果合并,假设用户演唱历史中基础音色对应的音频数目为m,扩展音色对应的音频数目为n,推荐歌曲数目为k,最后按照比例进行推荐结果合并。在基础音色推荐结果中取前Int(k*(m/(m+k)))个,在扩展音色推荐结果中取k-Int(k*(m/(m+k)))个,形成最终推荐结果集;
步骤四、可扩展性分析;
根据基础音色产生平均值后,产生推荐的过程是代表基础音色平均值的向量和代表扩展音色的向量与曲库中所有样本向量计算距离的过程。此过程可以分布到多个结点并行计算,每个结点产生m个推荐样本,再从这m*n个推荐样本中产生m个最优推荐样本作为推荐。
本发明的一种基于人声音色的个性化点唱推荐方法,该方法在网络演唱系统中提升用户体验,有着很好的应用前景。
附图说明
图1是MFCC提取流程图,图2是基于音色分类的近邻搜索流程图,图3是SVM分类原理图,图4是AR策略示意图,图5是算法的分布式计算示意图,图6是算法的伪代码,图7是推荐准确率示意图。
具体实施方式
具体实施方式一:本实施方式的基于人声音色的个性化点唱的推荐方法是这样实现的:
步骤一、伴奏人声分离;
网络演唱系统中可以得到两部分的音频数据,一个是只有伴奏的信号m,另一个是伴有声音的信号c=s+m′,s表示潜在的原始声音信号,m′表示为s伴奏的背景音乐。通常m听起来像m′,因此原始声音信号s可以被接近m′的m提取。但是,由于m和m′不能分辨,从c直接减去m对提取s的用处不大。一种有望成功代替直接提取的解决方法是采用自适应滤波器,如最小均方或者递归最小二乘,来从m中估算m′。为了计算效率,我们假定m和m′的主要差别是振幅和相位(或框架间隔),相位差反应了m和m′的不同时。在一份相关的研究中提出,估算m和c之间音量级的差,然后在m后从c减去m可以用差值补偿。但是,他们的方法不能解决m和m′振幅和相位不同的问题;
自适应滤波器的概念可以通过频域计算实现;双频道信号首先被分成帧,然后通过快速傅里叶变换法转换为幅度谱;假设Ct={Ct,1,Ct,2,...,Ct,J}和Mt={Mt,1,Mt,2,...,Mt,J}分别表示伴奏声音频道和只有伴奏频道的第t帧样本幅度谱,其中J是频率成分的数值。假定Ct=St+M′t,其中St={St,1,St,2,...,St,J}是声音幅度谱,而M′t={M′t,1,M′t,2,...,M′t,J}是背景伴奏的幅度谱。为了找到St,我们可以通过atMt+bt接近M′t,其中Mt+bt是紧挨着可能与M′t相对应的Mt的第bt帧;而at是反映Mt和M′t之间振幅差的换算系数。最优bt可以通过在事先预置的可产生最小二乘方误差的范围(±B)内进行挑选找到,即其中是考虑到的最优振幅换算系数。那么,假设我们得出以下at的最小二乘误差法答案为相应地,t帧上声音幅度谱可以通过估算出来;
步骤二、从人声数据中提取能代表用户音色特征的声学特征量梅尔倒谱系数MFCC和线性预测倒谱系数LPCC;
将伴奏和人声分离后,我们使用人声部分的音频数据去进行演唱者音色分析。每一个演唱者的人声音频数据中,会既包含语音的文本特征,又包含演唱者音色特征,在文本无关方式下,我们希望这些特征主要表示的是演唱者的音色特征。最终的目标是得到演唱者音色模型描述。要想满足上述目标,需要按照如下准则从人声音频数据中对演唱者音色特征参数进行提取:对局外变量不敏感,能够长期保持稳定,易于测量,与其他特征不相关。通常很难找到同时满足以上要求的特征,一般通过采取一些折衷措施的方式实现。
研究者们通过不断的实验和探索发现,声道频率特性以及激励信号源两者共同作用产生了语音信号,由于激励信号源经常伴有一些随机性,因而人声的个性特征主要取决于发音声道。因此,我们可以用能量、共振峰值、基音频率等参数表示人声音色特征。目前语音识别中常用梅尔倒谱系数(MFCC)与线性预测倒谱系数(LPCC)来表示说话者的音色特征,两者都采取了将语音从时域变换到倒谱域上的方式,MFCC通过模拟人耳听觉模型,使用滤波器组对语音信号进行滤波,然后以滤波后的输出作为声学特征,直接通过快速傅立叶变换将信号转换到频域中;LPCC从人的喉咙构造引起的发声模型角度出发,利用线性预测编码技术求倒谱系数。
在人声音色个性化推荐部分我们使用12维MFCC,12维MFCC差分和12维LPCC来描述音乐。
MFCC的计算主要分为5个步骤,具体流程如图1所示。
1、预处理:包括预加重、分帧和加窗函数
2、快速傅里叶变换:将信号从时域变换到频域,便于观察信号在各频率分量上的能量分布特点,如式1所示
X(i,k)=FFT[xi(m)](1)
3、计算谱线能量:对每一帧FFT后的数据计算谱线的能量,如式2所示
E(i,k)=[X(i,k)]2(2)
4、计算通过MEL滤波器的能量:将能量谱通过一组三角带通梅尔频率滤波器,并计算在该MEL滤波器中的能量。在频域中相当于把每帧的能量谱E(i,k)与MEL滤波器的频域响应Hm(k)相乘并相加,如式3所示
5、计算DCT倒谱:把MEL滤波器的能量取对数后计算DCT,如式4所示
线性预测倒谱参数(LPCC)是线性预测(LPC)在倒谱域中的表示方式。LPC系数可以通过自相关法求得,该方法可以保证系统的稳定性,并可以得到具有最小相位的声道模型传输函数如式5所示。
由此可得出语音信号的倒谱和现行预测系数之间的递推关系,如式6所示
或是由LPC通过式7计算得到:
步骤三、根据步骤二中提取的声学特征量推荐个性化点唱曲目;
问题定义:定义U为用户集合,S为歌曲集,给定一个用户u,u∈U,为用户u推荐一个歌曲列表Sg<S1,S2,...Sk>,Sg∈S。
要想为用户推荐适合他音色特点的歌曲,首要问题是要分析出每个用户的音色特点。由于网络演唱系统中的大部分用户都是不是专业歌手,没有受过专业的演唱训练,那么我们认为多数用户在演唱多数歌曲时,声音特征都符合他固有的音色特征,只有少数高水平用户在演唱个别歌曲时会使用某些演唱技巧使固有音色特征发生改变。这样,我们将用户演唱历史中的绝大部分歌曲能代表的音色称为用户的基本音色,可以由演唱技巧改变的音色为扩展音色。
1、将人声音频按音色进行分类;
在产生推荐的过程中,我们需要计算曲库中所有歌曲的人声音频到用户音色特征平均值的距离,从中找到距离最近的k首歌曲生成推荐集。这种方法需要进行全局搜索,计算的时间复杂性大,速度慢。为解决这一问题,我们将分类过程结合到近邻的搜索过程中,将训练集和测试集中的人声音频按音色进行分类,构造了一个人声音色分类数据集,将人声音色分为男声沙哑、男声明亮、女声沙哑、女声明亮、甜美、空灵六大类。然后在近邻选择的过程中只要在相应的类别中进行搜索就可以了,可以将工作量减少5/6,如图2所示。
分类过程采用支持向量机(SupportVectorMachines,SVM)作为分类器进行人声音色分类。
支持向量机的思想如图3所示。假设在二维空间内,H是一条“分界线”,用于区分图中的圆圈和方块表示的两类样本,H1、H2分别是平行于“分界线”H的直线,且经过各类中离分类线最近的样本。支持向量机就是要找出这样的最优“分界线”,该分界线不但能准确的区分两类样本,并且要使得H1、H2之间的距离最大。分类的准确性保证了经验风险最小,而距离最大是使推广性的界中的置信风险最小,从而使真实风险最小。在二维空间H是一条分界线,扩展到高维空间,H就变成了一个最优分类曲面,称为“超平面”。
以上思想是SVM用于区分两类分类的基本思想,如果要将其扩展到多类分类,可以将多类问题进行分解,分解为若干个SVM可直接求解的两类问题,根据这些SVM求解结果得出最终判别结果。
如果要再将其扩展为可处理非线性可分问题,则科通过松弛变量和核函数技术来实现线性不可分的样本分类的。
SVM的核函数主要分为四种:
(1)、线性核函数
K(x,x′)=x·x′(8)
(2)、多项式核函数
K(x,x′)=[(x,x′)+c]d,d为多项式的阶数(9)
(3)、径向基核函数
K(x,x′)=tanhα(x,x′)+β,α为变换尺度,β为偏置(10)
(4)、Sigmoid核函数
σ2为高斯函数的方差(11)
经实验证明,径向基核函数在音乐流派分类数据集上的分类准确率最高,因此方法在SVM训练过程中选择径向基核函数进行音乐流派分类。
2、基础音色歌曲推荐,分类后包含音频数目最多的类别为用户的基本音色类别,其它音色类为用户的扩展音色类别;然后计算基本特征类别中所有用户声音样本的平均值作为用户基本音色模型,然后计算本类中所有待推荐样本与平均值的距离,以此度量歌手和用户音色相似度。将相似度从大到小排序;
基于用户音色特征的点唱推荐最重要的一点是用户音色特点分析,要解决的问题是如何从一个用户以往的演唱记录中发现该用户的音色特点,然后将和用户音色特点相似的歌曲推荐给用户。我们借鉴了基于全局特征的推荐的思想来解决这一问题。
基于全局特征的音乐推荐是基于用户长期行为推荐算法中比较朴素的一类推荐方法,此类算法认为用户的长期行为能够反映用户对音乐的偏好。因此,在抽取歌曲特征的基础上,此类算法将用户收听的所有歌曲的平均特征作为用户特征并推荐与此平均特征类似的歌曲给用户。
基于此方法,我们认为,用户的音色特点可以从他曾经演唱过的歌曲中发现,那么我们可以从用户过去演唱过的所有歌曲中抽取用户演唱的音色特征,用所有音色特征的平均值代表该用户的音色特征。
我们可以将一个用户过去演唱过所有歌曲看做一类(这一类歌曲都反映了该用户的音色)。从物理观点来看,一类用它的重心(该类样品特征的均值)做代表比较合理,所以我们取用户演唱过的所有歌曲中用户音色特征平均值代表该用户的音色特点。
为解决这个问题,我们在步骤三开始的问题定义的基础上,增加用户演唱历史集合Sh(Sh1,Sh2,...,Shn),Sh中有n首歌曲,我们从Shi中提取MFCC和LPCC的组合用来表征用户的音色特征,其中MFCC为24维,LPCC为12维,那么Sh集合中的每首歌曲都用一个36维的特征向量来表示,形成了一个m×n的用户演唱历史的特征向量矩阵如式12所示,其中m为特征向量的维数,n为用户演唱历史中歌曲的数目。
(12)
[Sh11,Sh12,...,Sh1m
Sh21,Sh22,...,Sh2m
......
Shn1,Shn2,...,Shnm]
那么,求用户音色特征的平均值就转化成求矩阵中所有向量的平均值的问题。我们将所有向量映射到欧几里德空间,每个向量对应着空间中的一个点,那么求向量的平均值问题就转化为求空间中所有点的重心问题,如式13所示:
在用平均值表示了一个用户的音色特点之后,那么为这个用户推荐符合他音色特点的歌曲的问题就转化为:在曲库中计算每一首歌曲与代表该用户音色特点的平均值之间的距离,取距离最近的k首歌曲作为推荐结果的问题。
那么如何计算歌曲与平均值之间的距离呢?我们将曲库中的每首歌也提取36维的MFCC+LPCC形成特征向量Si(Si1,Si2,...,Sim),这样,求某首歌曲与平均值之间的距离就转化为求两个向量之间的距离的问题。
(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:
(2)两个n维向量a(x11,x12,...,x1n)与b(x21,x22,...,x2n)间的欧氏距离:
也可以用表示成向量运算的形式:
3、扩展音色歌曲推荐,代表用户扩展音色的歌曲数目相对很少,所以这部分推荐可以直接使用AR策略,为每首扩展音色歌曲在其对应的类别中计算与其他歌曲的相似度,然后根据相似度从大到小排序;
AR策略:为群体用户中的每个用户进行个性化推荐,然后将推荐结果进行合并,作为群体推荐结果。最常用的合并策略有最小悲伤策略(leastmisery)、公平策略(average)等。我们可以将用户唱过的每首歌看做是整个群体中的一个用户,那么为每首歌寻找近邻,产生推荐,最后将推荐结果进行和并。如图4所示。
4、推荐结果合并,假设用户演唱历史中基础音色对应的音频数目为m,扩展音色对应的音频数目为n,推荐歌曲数目为k,最后按照比例进行推荐结果合并。在基础音色推荐结果中取前Int(k*(m/(m+k)))个,在扩展音色推荐结果中取k-Int(k*(m/(m+k)))个,形成最终推荐结果集。
步骤四、可扩展性分析;
上述推荐算法中,根据基础音色产生平均值后,产生推荐的过程是代表基础音色平均值的向量和代表扩展音色的向量与曲库中所有样本向量计算距离的过程。此过程可以分布到多个结点并行计算,每个结点产生m个推荐样本,再从这m*n个推荐样本中产生m个最优推荐样本作为推荐。如图5所示。整个推荐方法的算法伪代码如图6所示。
附:实验结果及分析
数据集的建立及数据预处理
实验过程中选择了10个用户,每个用户录制了75首歌曲,作为实验数据集,然后将750首歌曲进行人声和伴奏分离,只保留人声部分的数据。然后将每个用户的数据分成5份,取4/5作为训练数据,然后将所有用户剩下的1/5数据混合在一起作为测试数据。
评价标准
令R(u)是为用户生成的推荐列表,T(u)是用户在测试集上的行为列表。那么,推荐结果的准确率定义为:
评价过程:我们为每一个用户使用其训练集分析其音色,在测试集上为其生成推荐列表R(u),T(u)为测试集中该用户演唱的歌曲,则R(u)∩T(u)则表示推荐正确的歌曲。
实验结果及分析
实验一:分别对10个用户进行推荐,推荐准确率如图7所示。最终该方法平均准确率为41.3%。
实验二、测试算法的计算效率,分析其时间复杂度,AR策略的算法时间复杂度为O(mn),本文算法时间复杂度O(m+n),为其中n为训练集歌曲数目,m为测试集歌曲数目,由此可见,本文算法的时间复杂度有了显著降低。
该推荐方法的优势在于不但可以为用户生成个性化推荐列表,还可以告诉用户他的主要音色类型以及可以扩展的音色类型,让用户对自己的音色特点更加了解。
一种基于用户人声音色的点唱歌曲推荐方法,该方法将基于全局特征的音乐推荐策略、群组推荐中合并推荐结果策略以及音色分类相结合,在分析用户的音色类型的基础上产生符合用户音色的歌曲推荐,该方法可以在网络演唱系统中提升用户体验,有着很好的应用前景。
相关术语
“人声”,声乐术语,指由于声带的振动而发出的声音,也称“嗓音”。人声根据人类男女的不同,以及各人生理、音色、音域、风格等存在差异,即便经过训练也各自不同。
“音色”是声音的感觉特性,不同的发声体由于材料、结构不同,发出声音的音色也就不同。音色是一个内涵丰富、外延宽泛的概念。《辞海》对音色的定义为:“亦称‘音品’,声音的属性之一,主要由谐音的多寡和相对强度所决定”即音色是由发音体振动时泛音的多少和各泛音的相对强度所决定的。
“人声音色”,即演唱者的个人嗓音音色。不同演唱者都有自己特有的音色是由演唱者声带的长短、厚薄等先天生理条件决定的。在声乐领域,演唱个性主要通过人声音色来表达,音乐作为一种听觉艺术,如果缺乏个性化音色的表现,就会失去其感染力以及个性魅力。因此,在对不同风格、不同情感的音乐作品进行演绎时,应充分发挥音色的表现力,使音乐更具魅力。
因此,在进行演唱歌曲的个性化推荐过程中,我们要充分把握用户的音色特征,为用户推荐适合其音色特征的歌曲,这样可以使用户在演唱过程中充分发挥自己的音色特点,提高演唱的完成度,使歌唱更有魅力。
Claims (3)
1.一种基于人声音色的个性化点唱推荐方法,其特征在于:方法的步骤如下:
步骤一、伴奏人声分离;
步骤二、从人声数据中提取能代表用户音色特征的声学特征量MFCC和LPCC;
步骤三、根据步骤二中提取的声学特征量推荐个性化点唱曲目;
首先将人声音频按音色进行分类,为此构造了一个人声音色分类数据集,将人声音色分为男声沙哑、男声明亮、女声沙哑、女声明亮、甜美、空灵六大类;
其次基础音色歌曲推荐,分类后包含音频数目最多的类别为用户的基本音色类别,其它音色类为用户的扩展音色类别;然后计算基本特征类别中所有用户声音样本的平均值作为用户基本音色模型,然后计算本类中所有待推荐样本与平均值的距离,以此度量歌手和用户音色相似度;将相似度从大到小排序;
然后扩展音色歌曲推荐,代表用户扩展音色的歌曲数目相对很少,所以这部分推荐可以直接使用AR策略,为每首扩展音色歌曲在其对应的类别中计算与其他歌曲的相似度,然后根据相似度从大到小排序;
最后推荐结果合并,假设用户演唱历史中基础音色对应的音频数目为m,扩展音色对应的音频数目为n,推荐歌曲数目为k,最后按照比例进行推荐结果合并,基础音色推荐结果中取前Int(k*(m/(m+k)))个,在扩展音色推荐结果中取k-Int(k*(m/(m+k)))个,形成最终推荐结果集;
步骤四、可扩展性分析;
根据基础音色产生平均值后,产生推荐的过程是代表基础音色平均值的向量和代表扩展音色的向量与曲库中所有样本向量计算距离的过程,此过程可以分布到多个结点并行计算,每个结点产生m个推荐样本,再从这m*n个推荐样本中产生m个最优推荐样本作为推荐。
2.根据权利要求1所述的一种基于人声音色的个性化点唱推荐方法,其特征在于:步骤一中所述的网络演唱系统中可以得到两部分的音频数据,一个是只有伴奏的信号m,另一个是伴有声音的信号c=s+m′,s表示潜在的原始声音信号,m′表示为s伴奏的背景音乐;通常m听起来像m′,因此原始声音信号s可以被接近m′的m提取,但是,由于m和m′不能分辨,从c直接减去m对提取s的用处不大,一种有望成功代替直接提取的解决方法是采用自适应滤波器,如最小均方或者递归最小二乘,来从m中估算m′;为了计算效率,我们假定m和m′的主要差别是振幅和相位(或框架间隔),相位差反应了m和m′的不同时,在一份相关的研究中提出,估算m和c之间音量级的差,然后在m后从c减去m可以用差值补偿;但是,他们的方法不能解决m和m′振幅和相位不同的问题;自适应滤波器的概念可以通过频域计算实现;双频道信号首先被分成帧,然后通过快速傅里叶变换法转换为幅度谱;假设Ct={Ct,1,Ct,2,...,Ct,J)和Mt={Mt,1,Mt,2,...,Mt,J}分别表示伴奏声音频道和只有伴奏频道的第t帧样本幅度谱,其中J是频率成分的数值;假定Ct=St+M′t,其中St={St,1,St,2,...,St,J)是声音幅度谱,而M′t={M′t,1,M′t,2,...,M′t,J)是背景伴奏的幅度谱,为了找到St,我们可以通过atMt+bt接近M′t,其中Mt+bt是紧挨着可能与M′t相对应的Mt的第bt帧;而at是反映Mt和M′t之间振幅差的换算系数,最优bt可以通过在事先预置的可产生最小二乘方误差的范围(±B)内进行挑选找到,即其中是考虑到的最优振幅换算系数;那么,假设我们得出以下at的最小二乘误差法答案为相应地,t帧上声音幅度谱可以通过估算出来。
3.根据权利要求1所述的一种基于人声音色的个性化点唱推荐方法,其特征在于:步骤一中所述的将伴奏和人声分离后,使用人声部分的音频数据去进行演唱者音色分析;每一个演唱者的人声音频数据中,会既包含语音的文本特征,又包含演唱者音色特征,在文本无关方式下,我们希望这些特征主要表示的是演唱者的音色特征;最终的目标是得到演唱者音色模型描述;要想满足上述目标,需要按照如下准则从人声音频数据中对演唱者音色特征参数进行提取:对局外变量不敏感,能够长期保持稳定,易于测量,与其他特征不相关;通常很难找到同时满足以上要求的特征,一般通过采取一些折衷措施的方式实现;通过不断的实验和探索发现,声道频率特性以及激励信号源两者共同作用产生了语音信号,由于激励信号源经常伴有一些随机性,因而人声的个性特征主要取决于发音声道;因此,可以用能量、共振峰值、基音频率等参数表示人声音色特征;目前语音识别中常用梅尔倒谱系数与线性预测倒谱系数来表示说话者的音色特征,两者都采取了将语音从时域变换到倒谱域上的方式,MFCC通过模拟人耳听觉模型,使用滤波器组对语音信号进行滤波,然后以滤波后的输出作为声学特征,直接通过快速傅立叶变换将信号转换到频域中;LPCC从人的喉咙构造引起的发声模型角度出发,利用线性预测编码技术求倒谱系数;在人声音色个性化推荐部分我们使用12维MFCC,12维MFCC差分和12维LPCC来描述音乐;
MFCC的计算主要分为5个步骤,具体流程如下:
预处理:包括预加重、分帧和加窗函数;
快速傅里叶变换:将信号从时域变换到频域,便于观察信号在各频率分量上的能量分布特点,如式1所示
X(i,k)=FFT[xi(m)](1)
计算谱线能量:对每一帧FFT后的数据计算谱线的能量,如式2所示
E(i,k)=[X(i,k)]2(2)
计算通过MEL滤波器的能量:将能量谱通过一组三角带通梅尔频率滤波器,并计算在该MEL滤波器中的能量,在频域中相当于把每帧的能量谱E(i,k)与MEL滤波器的频域响应Hm(k)相乘并相加,如式3所示
计算DCT倒谱:把MEL滤波器的能量取对数后计算DCT,如式4所示
线性预测倒谱参数(LPCC)是线性预测(LPC)在倒谱域中的表示方式,LPC系数可以通过自相关法求得,该方法可以保证系统的稳定性,并可以得到具有最小相位的声道模型传输函数如式5所示;
由此可得出语音信号的倒谱和现行预测系数之间的递推关系,如式6所示
或是由LPC通过式7计算得到:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510859812.6A CN105575393A (zh) | 2015-12-02 | 2015-12-02 | 一种基于人声音色的个性化点唱歌曲推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510859812.6A CN105575393A (zh) | 2015-12-02 | 2015-12-02 | 一种基于人声音色的个性化点唱歌曲推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105575393A true CN105575393A (zh) | 2016-05-11 |
Family
ID=55885447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510859812.6A Pending CN105575393A (zh) | 2015-12-02 | 2015-12-02 | 一种基于人声音色的个性化点唱歌曲推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105575393A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095925A (zh) * | 2016-06-12 | 2016-11-09 | 北京邮电大学 | 一种基于声乐特征的个性化歌曲推荐系统 |
CN106898339A (zh) * | 2017-03-29 | 2017-06-27 | 腾讯音乐娱乐(深圳)有限公司 | 一种歌曲的合唱方法及终端 |
CN107844562A (zh) * | 2017-11-01 | 2018-03-27 | 重庆市智汇人才开发有限公司 | 智能化咨询服务方法 |
CN107918614A (zh) * | 2016-10-08 | 2018-04-17 | 北京小唱科技有限公司 | 一种演唱伴奏的推荐方法及服务器 |
CN107977370A (zh) * | 2016-10-21 | 2018-05-01 | 北京酷我科技有限公司 | 一种歌手推荐方法及系统 |
CN108090081A (zh) * | 2016-11-22 | 2018-05-29 | 百度在线网络技术(北京)有限公司 | 一种内容推荐方法与装置 |
CN108182946A (zh) * | 2017-12-25 | 2018-06-19 | 广州势必可赢网络科技有限公司 | 一种基于声纹识别的声乐模式选择方法及装置 |
CN108806655A (zh) * | 2017-04-26 | 2018-11-13 | 微软技术许可有限责任公司 | 歌曲的自动生成 |
CN109308901A (zh) * | 2018-09-29 | 2019-02-05 | 百度在线网络技术(北京)有限公司 | 歌唱者识别方法和装置 |
CN109903773A (zh) * | 2019-03-13 | 2019-06-18 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置及存储介质 |
CN109920447A (zh) * | 2019-01-29 | 2019-06-21 | 天津大学 | 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 |
CN110176242A (zh) * | 2019-07-10 | 2019-08-27 | 广州荔支网络技术有限公司 | 一种音色的识别方法、装置、计算机设备和存储介质 |
CN110364182A (zh) * | 2019-08-01 | 2019-10-22 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种声音信号处理方法及装置 |
CN110489659A (zh) * | 2019-07-18 | 2019-11-22 | 平安科技(深圳)有限公司 | 数据匹配方法和装置 |
CN112331222A (zh) * | 2020-09-23 | 2021-02-05 | 北京捷通华声科技股份有限公司 | 一种转换歌曲音色的方法、系统、设备及存储介质 |
CN112992118A (zh) * | 2021-05-22 | 2021-06-18 | 成都启英泰伦科技有限公司 | 一种少语料的语音模型训练及合成方法 |
CN113744759A (zh) * | 2021-09-17 | 2021-12-03 | 广州酷狗计算机科技有限公司 | 音色模板定制方法及其装置、设备、介质、产品 |
US11328010B2 (en) | 2017-05-25 | 2022-05-10 | Microsoft Technology Licensing, Llc | Song similarity determination |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012194520A (ja) * | 2010-08-05 | 2012-10-11 | Asahi Kasei E-Materials Corp | 感光性樹脂組成物、硬化レリーフパターンの製造方法及び半導体装置 |
CN103065623A (zh) * | 2012-12-17 | 2013-04-24 | 深圳Tcl新技术有限公司 | 音色匹配方法和装置 |
CN103186527A (zh) * | 2011-12-27 | 2013-07-03 | 北京百度网讯科技有限公司 | 建立音乐分类模型的系统、推荐音乐的系统及相应方法 |
CN103440873A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种基于相似性的音乐推荐方法 |
CN103943113A (zh) * | 2014-04-15 | 2014-07-23 | 福建星网视易信息系统有限公司 | 一种歌曲去伴奏的方法和装置 |
CN104134444A (zh) * | 2014-07-11 | 2014-11-05 | 福建星网视易信息系统有限公司 | 一种基于mmse的歌曲去伴奏方法和装置 |
CN104183245A (zh) * | 2014-09-04 | 2014-12-03 | 福建星网视易信息系统有限公司 | 一种演唱者音色相似的歌星推荐方法与装置 |
CN104282316A (zh) * | 2013-07-01 | 2015-01-14 | 亿览在线网络技术(北京)有限公司 | 一种基于语音匹配的k歌计分方法和装置 |
-
2015
- 2015-12-02 CN CN201510859812.6A patent/CN105575393A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012194520A (ja) * | 2010-08-05 | 2012-10-11 | Asahi Kasei E-Materials Corp | 感光性樹脂組成物、硬化レリーフパターンの製造方法及び半導体装置 |
CN103186527A (zh) * | 2011-12-27 | 2013-07-03 | 北京百度网讯科技有限公司 | 建立音乐分类模型的系统、推荐音乐的系统及相应方法 |
CN103065623A (zh) * | 2012-12-17 | 2013-04-24 | 深圳Tcl新技术有限公司 | 音色匹配方法和装置 |
CN104282316A (zh) * | 2013-07-01 | 2015-01-14 | 亿览在线网络技术(北京)有限公司 | 一种基于语音匹配的k歌计分方法和装置 |
CN103440873A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种基于相似性的音乐推荐方法 |
CN103943113A (zh) * | 2014-04-15 | 2014-07-23 | 福建星网视易信息系统有限公司 | 一种歌曲去伴奏的方法和装置 |
CN104134444A (zh) * | 2014-07-11 | 2014-11-05 | 福建星网视易信息系统有限公司 | 一种基于mmse的歌曲去伴奏方法和装置 |
CN104183245A (zh) * | 2014-09-04 | 2014-12-03 | 福建星网视易信息系统有限公司 | 一种演唱者音色相似的歌星推荐方法与装置 |
Non-Patent Citations (3)
Title |
---|
李泽 等: "MFCC和LPCC特征参数在说话人识别中的研究", 《河南工程学院学报(自然科学版)》 * |
王彪: "基于LPCC参数的语音识别系统", 《电子设计工程》 * |
魏君颖 等: "说话人识别特征提取算法改进", 《成都信息工程学院学报》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095925B (zh) * | 2016-06-12 | 2018-07-03 | 北京邮电大学 | 一种基于声乐特征的个性化歌曲推荐方法 |
CN106095925A (zh) * | 2016-06-12 | 2016-11-09 | 北京邮电大学 | 一种基于声乐特征的个性化歌曲推荐系统 |
CN107918614A (zh) * | 2016-10-08 | 2018-04-17 | 北京小唱科技有限公司 | 一种演唱伴奏的推荐方法及服务器 |
CN107918614B (zh) * | 2016-10-08 | 2020-11-10 | 北京小唱科技有限公司 | 一种演唱伴奏的推荐方法及服务器 |
CN107977370A (zh) * | 2016-10-21 | 2018-05-01 | 北京酷我科技有限公司 | 一种歌手推荐方法及系统 |
CN108090081A (zh) * | 2016-11-22 | 2018-05-29 | 百度在线网络技术(北京)有限公司 | 一种内容推荐方法与装置 |
CN106898339A (zh) * | 2017-03-29 | 2017-06-27 | 腾讯音乐娱乐(深圳)有限公司 | 一种歌曲的合唱方法及终端 |
CN108806655A (zh) * | 2017-04-26 | 2018-11-13 | 微软技术许可有限责任公司 | 歌曲的自动生成 |
CN108806655B (zh) * | 2017-04-26 | 2022-01-07 | 微软技术许可有限责任公司 | 歌曲的自动生成 |
US11328010B2 (en) | 2017-05-25 | 2022-05-10 | Microsoft Technology Licensing, Llc | Song similarity determination |
CN107844562B (zh) * | 2017-11-01 | 2020-03-24 | 重庆市智汇人才开发有限公司 | 智能化咨询服务方法 |
CN107844562A (zh) * | 2017-11-01 | 2018-03-27 | 重庆市智汇人才开发有限公司 | 智能化咨询服务方法 |
CN108182946B (zh) * | 2017-12-25 | 2021-04-13 | 广州势必可赢网络科技有限公司 | 一种基于声纹识别的声乐模式选择方法及装置 |
CN108182946A (zh) * | 2017-12-25 | 2018-06-19 | 广州势必可赢网络科技有限公司 | 一种基于声纹识别的声乐模式选择方法及装置 |
CN109308901A (zh) * | 2018-09-29 | 2019-02-05 | 百度在线网络技术(北京)有限公司 | 歌唱者识别方法和装置 |
CN109920447A (zh) * | 2019-01-29 | 2019-06-21 | 天津大学 | 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 |
CN109903773A (zh) * | 2019-03-13 | 2019-06-18 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置及存储介质 |
CN110176242A (zh) * | 2019-07-10 | 2019-08-27 | 广州荔支网络技术有限公司 | 一种音色的识别方法、装置、计算机设备和存储介质 |
CN110489659A (zh) * | 2019-07-18 | 2019-11-22 | 平安科技(深圳)有限公司 | 数据匹配方法和装置 |
CN110364182A (zh) * | 2019-08-01 | 2019-10-22 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种声音信号处理方法及装置 |
CN110364182B (zh) * | 2019-08-01 | 2022-06-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种声音信号处理方法及装置 |
CN112331222A (zh) * | 2020-09-23 | 2021-02-05 | 北京捷通华声科技股份有限公司 | 一种转换歌曲音色的方法、系统、设备及存储介质 |
CN112992118A (zh) * | 2021-05-22 | 2021-06-18 | 成都启英泰伦科技有限公司 | 一种少语料的语音模型训练及合成方法 |
CN112992118B (zh) * | 2021-05-22 | 2021-07-23 | 成都启英泰伦科技有限公司 | 一种少语料的语音模型训练及合成方法 |
CN113744759A (zh) * | 2021-09-17 | 2021-12-03 | 广州酷狗计算机科技有限公司 | 音色模板定制方法及其装置、设备、介质、产品 |
CN113744759B (zh) * | 2021-09-17 | 2023-09-22 | 广州酷狗计算机科技有限公司 | 音色模板定制方法及其装置、设备、介质、产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105575393A (zh) | 一种基于人声音色的个性化点唱歌曲推荐方法 | |
CN101599271B (zh) | 一种数字音乐情感的识别方法 | |
CN109147804A (zh) | 一种基于深度学习的音质特性处理方法及系统 | |
Zhang | Music style classification algorithm based on music feature extraction and deep neural network | |
CN105975496A (zh) | 一种基于上下文感知的音乐推荐方法及装置 | |
Samsekai Manjabhat et al. | Raga and tonic identification in carnatic music | |
CN110377786A (zh) | 音乐情感分类方法 | |
Ramirez et al. | Automatic performer identification in commercial monophonic jazz performances | |
Kobayashi et al. | Voice timbre control based on perceived age in singing voice conversion | |
Ikhsan et al. | Automatic musical genre classification of audio using Hidden Markov Model | |
CN102841932A (zh) | 一种基于内容的音频语义特征相似度比较方法 | |
Foucard et al. | Multi-scale temporal fusion by boosting for music classification. | |
Wu et al. | The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge. | |
Mirbeygi et al. | Speech and music separation approaches-a survey | |
JP6350325B2 (ja) | 音声解析装置およびプログラム | |
Ramirez et al. | Automatic performer identification in celtic violin audio recordings | |
Jha et al. | Assessing vowel quality for singing evaluation | |
Waghmare et al. | Raga identification techniques for classifying indian classical music: A survey | |
Kaygusuz et al. | Impact of intervals on the emotional effect in western music | |
Kroher | The flamenco cante: Automatic characterization of flamenco singing by analyzing audio recordings | |
Paiement | Probabilistic models for music | |
Bracks et al. | Totoli's art of Lelegesan: Analyzing sociocultural context and musical content | |
Dalin-Volsing | Classification of musical genres using hidden Markov models | |
Sun et al. | Intelligent analysis of music's affective features and expressive pattern | |
MOLGORA | Musical instrument recognition: a transfer learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160511 |
|
WD01 | Invention patent application deemed withdrawn after publication |