CN115658957A - 基于模糊聚类算法的音乐旋律轮廓提取方法及装置 - Google Patents

基于模糊聚类算法的音乐旋律轮廓提取方法及装置 Download PDF

Info

Publication number
CN115658957A
CN115658957A CN202211296379.6A CN202211296379A CN115658957A CN 115658957 A CN115658957 A CN 115658957A CN 202211296379 A CN202211296379 A CN 202211296379A CN 115658957 A CN115658957 A CN 115658957A
Authority
CN
China
Prior art keywords
pitch
contour
melody
music
clustering algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211296379.6A
Other languages
English (en)
Inventor
姚三军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaihua University
Original Assignee
Huaihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaihua University filed Critical Huaihua University
Priority to CN202211296379.6A priority Critical patent/CN115658957A/zh
Publication of CN115658957A publication Critical patent/CN115658957A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

本发明实施例中提供了一种基于模糊聚类算法的音乐旋律轮廓提取方法、装置及电子设备,属于人工智能技术领域,该方法包括:根据高斯混合模型的模糊聚类算法,构建相关的目标函数;获取二进制形式存储的音乐文件,对所述音乐文件执行特征提取;使用谐波求和和源滤波模型的组合来计算音高显著性,滤波模型来计算音高显著性,以获得旋律的候选音高,然后创建音高轮廓,以便于进一步提取旋律音高轮廓。采用本方案,能够提高音乐轮廓提取的准确性。

Description

基于模糊聚类算法的音乐旋律轮廓提取方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于模糊聚类算法的音乐旋 律轮廓提取方法、装置及电子设备。
背景技术
20世纪90年代初,为了满足图像、视频和其他二维多媒体信息检索和基于 内容的多媒体信息检索的需要,基于内容的多媒体检索技术应运而生,并在理 论研究和实际应用中迅速发展和应用。歌谱信息是音乐检索的目标。歌谱轮廓 特征是由音高轮廓特征,而音高是哼唱检索的基础。传统的模糊c-means聚类分 析方法在聚类分析中,对样本的不同特征一视同仁,忽视了关键特征对聚类结 果的重要影响。对聚类结果的重要影响,导致聚类结果与实际分类之间存在一 定差距。
发明内容
有鉴于此,本发明实施例提供一种基于模糊聚类算法的音乐旋律轮廓提取 方法、装置及电子设备,至少部分解决现有技术中存在的问题。
第一方面,本发明实施例提供了一种基于模糊聚类算法的音乐旋律轮廓提 取方法,包括:
根据高斯混合模型的模糊聚类算法,构建相关的目标函数;
获取二进制形式存储的音乐文件,对所述音乐文件执行特征提取;
使用谐波求和和源滤波模型的组合来计算音高显著性,滤波模型来计算音 高显著性,以获得旋律的候选音高,然后创建音高轮廓,以便于进一步提取旋 律音高轮廓。
根据本公开实施例的一种具体实现方式,所述构建相关的目标函数,包括:
构建如下目标函数:
(Θ)=∑i=ln∑j=lkzijdij+λ
∑i+ln∑j=lD
((sijl lg sijlρ1+(1-sijl)lg1-sijl1-ρ1)
∑j∈11≤i≤N
sijl∈[0,1]1≤i≤N,1≤k
dij=-∑1=1D(sijl|lgΦjl(xilμjl,σ2jl)+(1-sijl)
Φ=(xilεl,v21)Φjl(xil,σ2jl,2jl
其中,dij为第i个样本与第j个中心之间的加权似然距离J,Sijl为第i个 样本中第L个特征属性xil对第j个类的影响程度,ujl为第L个特征,σ2jl是 第i个样本中第L个特征属性xil对第j个类的影响程度,jl是第j个样本平均值 对应的第L个特征,εL是平均值对应的第L个特征属性值;2jl是第L个特征 属性值对应的第j个样本方差,ρL是对应于所有样本平均值的第L个特征属 性值。
根据本公开实施例的一种具体实现方式,所述方法还包括:
构建函数
Figure BDA0003903064210000031
Figure BDA0003903064210000032
Figure BDA0003903064210000033
根据本公开实施例的一种具体实现方式,所述方法还包括:
找到声谱上的每个峰点,得到一个音乐片段的音高序列SN,然后估计音高 频率;
将每一帧的长度扩大3倍,将音频数据中的4096个点扩大到16384个点, 将所有的扩展数据填充为零,然后再进行FFT变换。
根据本公开实施例的一种具体实现方式,所述方法还包括:
对音高端文件进行检测,用以消除音高隔离段。
根据本公开实施例的一种具体实现方式,所述方法还包括:
计算音高曲线,将所述音高曲线作为音乐文件的轮廓特征。
根据本公开实施例的一种具体实现方式,所述方法还包括:
针对复调音乐中不同声源的相互干扰造成的同一声源音高序列的不连续 性,利用音高意义的连续性和高次谐波的稳定性来创建音高轮廓;
在跟踪音高形成音高轮廓时,利用基于音高的静态似然函数计算出当前时 频点的高次谐波,然后根据一阶预测函数和基于音高意义的动态似然函数计算 出每个谐波处的下一帧音高,再根据谐波的基频计算出静态似然函数,得到当 前时点的下一帧音高值,对下一帧音高重复上述步骤,形成音高轮廓;
在提取旋律音高轮廓之前,为了利用不同声源音色的不一致性,计算音高 轮廓的MFCC作为音色特征,用音高轮廓的音色特征和其他特征训练的随机森 林分类器来提取旋律音高轮廓。
第二方面,本发明实施例提供了一种基于模糊聚类算法的音乐旋律轮廓提 取装置,包括:
构建模块,用于根据高斯混合模型的模糊聚类算法,构建相关的目标函数;
获取模块,用于获取二进制形式存储的音乐文件,对所述音乐文件执行特 征提取;
执行模块,用于使用谐波求和和源滤波模型的组合来计算音高显著性,滤 波模型来计算音高显著性,以获得旋律的候选音高,然后创建音高轮廓,以便 于进一步提取旋律音高轮廓。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
至少一个处理器;以及,
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个 处理器执行,以使该至少一个处理器能够执行前述任第一方面或第一方面的任 一实现方式中的基于模糊聚类算法的音乐旋律轮廓提取方法。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,该非 暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行 前述第一方面或第一方面的任一实现方式中的基于模糊聚类算法的音乐旋律轮 廓提取方法。
第五方面,本发明实施例还提供了一种计算机程序产品,该计算机程序产 品包括存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程 序指令,当该程序指令被计算机执行时,使该计算机执行前述第一方面或第一 方面的任一实现方式中的基于模糊聚类算法的音乐旋律轮廓提取方法。
本发明实施例中的基于模糊聚类算法的音乐旋律轮廓提取方案,包括:根 据高斯混合模型的模糊聚类算法,构建相关的目标函数;获取二进制形式存储 的音乐文件,对所述音乐文件执行特征提取;使用谐波求和和源滤波模型的组 合来计算音高显著性,滤波模型来计算音高显著性,以获得旋律的候选音高, 然后创建音高轮廓,以便于进一步提取旋律音高轮廓。采用本方案,提高了音 乐轮廓处理的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些 实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可 以根据这些附图获得其它的附图。
图1为本发明实施例提供的基于模糊聚类算法的音乐旋律轮廓提取方法流 程示意图;
图2为本发明实施例提供的标准音调差异图;
图3为本发明实施例提供的哼哼音乐的波形图和音高曲线图示意图;
图4为本发明实施例提供的基于模糊聚类算法的音乐旋律轮廓提取装置结 构示意图;
图5为本发明实施例提供的电子设备示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本 说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实 施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另 外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不 同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是, 在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开 中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有 其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。 应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述 的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应 了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方 式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何 数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面 中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的 基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数 目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意 的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所 属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
本公开实施例提供一种基于模糊聚类算法的音乐旋律轮廓提取方法。本实 施例提供的基于模糊聚类算法的音乐旋律轮廓提取方法可以由一计算装置来执 行,该计算装置可以实现为软件,或者实现为软件和硬件的组合,该计算装置 可以集成设置在服务器、终端设备等中。
参见图1,图2及图3,本公开实施例提供了一种基于模糊聚类算法的音乐 旋律轮廓提取方法,包括:
S101,根据高斯混合模型的模糊聚类算法,构建相关的目标函数;
S102,获取二进制形式存储的音乐文件,对所述音乐文件执行特征提取;
S103,使用谐波求和和源滤波模型的组合来计算音高显著性,滤波模型来 计算音高显著性,以获得旋律的候选音高,然后创建音高轮廓,以便于进一步 提取旋律音高轮廓。
本发明提出了一种基于模糊聚类的在线特征选择方法及其应用,在这个算 法中,特征选择被引入到模糊高斯混合模型中,得到了新的模糊聚类方法,得 到了满意的分割结果。
特征选择高斯混合模型
探讨特征选择的样本模式分析已成为智能信息处理的重要研究内容。考虑 到传统的考虑到传统的高斯混合模型对不同特征的处理不尽相同,根据高斯混 合模型的模糊聚类(gkl-fcm)算法,其目标函数被描述为
(Θ)=∑i=ln∑j=lkzijdij+λ (1)
∑i+ln∑j=LD (2)
((sijl lg sijlρ1+(1-sijl)lg1-sijl1-ρ1) (3)
∑j∈11≤i≤N (4)
sijl∈[0,1]1≤i≤N,1≤k (5)
dij=-∑1=1D(sijl lgΦjl(xilμjl,σ2jl)+(1-sijl) (6)
Φ=(xilεl,v2l)Φjl(xil,σ2jl,2jl (7)
其中,ij d为第i个样本与第j个中心之间的加权似然距离J;Sijl为第i个 样本中第L个特征属性xil对第j个类的影响程度;jl为第L个特征,是第i个 样本中第L个特征属性xil对第j个类的影响程度;j1是第j个样本平均值对应 的第L个特征。2jl是第L个特征属性值对应的第j个样本方差,L是对应于所 有样本平均值的第L个特征属性值。21V是所有样本中第一特征属性的方差; L是L维特征属性的权重系数。
Figure BDA0003903064210000071
Figure BDA0003903064210000072
Figure BDA0003903064210000073
改进算法的目标函数,即改进广义模糊聚类算法
N fcm gt_2.执行步骤是:实现聚类中心C,最大迭代次数T,以及终止条 件、参数、设置。
终止条件、参数、设置;对于_2fcm gt为n的算法,计算图像的中位数和 平均数;对于_2fcm gt为n的算法,计算图像的中位数和平均数。
中位数和平均数;聚类中心(O)随机初始化,初始迭代数k=1。
计算成员度(O)U。
计算成员度(K)U。
计算聚类中心(K)V。
音乐轮廓提取算法
以数字方式存储在计算机中的音乐是以二进制形式存储的,它具有大量的 数据和丰富的的音乐旋律内涵。因此,音乐检索不能通过直接对比演唱数据本 身来实现。必须将隐藏在原始数据中的语音特征和音乐特征提取出来,通过特 征比较来实现检索。因此,特征提取是音乐检索研究中一个非常重要的步骤。
音高估计
首先找到声谱上的每个峰点。并得到一个音乐片段的音高序列SN(N为序 列长度),然后估计音高频率。对这个数据进行快速傅里叶变换(FFT)。然而, 即使在高采样率下(如44100khz),每个窗口的数据每个窗口的长度只有4096, 而4096个数据的FFT精度显然是不够的。因此,将每一帧的长度扩大3倍,将 上述4096个点扩大到16384个点,将所有的扩展数据填充为然后再进行FFT变 换。对于信号)(t S的周期为T,可以分解为正弦序列。
S(t)=∞k=1!a sk sin(2!kft+!k) (11)
其中t f/1=是)(ts)的频率。那么峰值将出现在....3,2,f f f之后)(ts)的模型。
的模型后,通过FFT。取所有峰值的最大公除数作为最终的音高检测结果, 也就是说,所有的峰值都是其八度。
音高隔离段(点)的消除
经过初步分割计算得到的音高序列lm往往含有一些"野点"或"孤立段", 也就是说,这个段的长度很短,一般为1或2。但其音高值却与前后音高值有明 显的不同。
采用以下算法进行处理:设定阈值K,某个"孤立段"为1(i1 i m),记住"= -1,i ileft l l"right=-+1,i i l l然后如果"左k和"右k,该段(点)被排除;如 果"左k和"右<k,该段(点)被合并为被并入1+li;相反,它被并入1-li;如 果"左<k和"右k,但"左"右,那么这段(点)被并入1+i l;相反,它被并入 1-i l。由于孤立的线段(点)的数量很少,这些线段(点)被并入由于孤立的片 段(点)数量较少,这些合并或剔除操作在最后的搜索中不会起到决定性的作 用,即使有错误也是如此。
如果有错误的话。实验结果也验证了这一点。经过上述操作后,lm被记录 为lv,而每段的数值为v l。每段的值为v lv,是当前音段的总数。
计算音高曲线
不同的人唱同一首歌,频率不同。在这个过程中,要尽量使发音的起伏与 乐谱一致,所以用连续性的音高增量是以音高轮廓线为搜索标准。也就是音调 之间的变化比例音调本身的价值更重要。音调本身更重要。在排除了节奏之后, 一首歌曲的乐谱之间的变化是这首歌曲的精华所在。
这首歌曲的本质。对于LW中的任何连续段Li和L1(1 i w)I+,其连续递 增序列被定义为"l(l1 i w)L,而"i i i l=l+1-l"被记录下来。这样一来,"1l是 音调的轮廓序列。
基于音高意义的旋律提取算法
旋律作为音乐的灵魂,是基于人类听觉的音高值序列。基于音高显著性的 方法是提取音乐旋律的主要方法之一。这种方法分为三个部分:计算该方法分 为三个部分:计算音高显著性、创建音高轮廓和提取旋律音高轮廓。本发明提 出了一种改进的提取算法,该算法以音高显著性为基础。首先,我们使用谐波 求和(HS)和源滤波模型的组合来计算音高显著性。滤波模型来计算音高显著性, 以获得旋律的候选音高。然后创建音高轮廓,从以下两个方面提取旋律音高轮 廓。
算法的实施步骤
在提取旋律音高轮廓之前,为了利用不同声源音色的不一致性,拟将音高 轮廓的Mel frequency cepstral coefficients(MFCC)作为音色特征来计算,并根 据谐波正弦模型得到的音高轮廓的谐波振幅来计算音色特征,然后,用音高轮 廓的音色特征和其他特征训练的随机森林分类器来提取旋律音高轮廓。最后, 通过维特比平滑算法对旋律音高轮廓进行平滑处理,形成旋律音高轮廓。
一方面,针对复调音乐中不同声源的相互干扰造成的同一声源音高序列的 不连续性,利用音高意义的连续性和高次谐波的稳定性来创建音高轮廓。在跟 踪音高形成音高轮廓时,该方法首先利用基于音高的静态似然函数计算出当前 时频点的高次谐波,然后根据一阶预测函数和基于音高意义的动态似然函数计 算出每个谐波处的下一帧音高,再根据谐波的基频计算出静态似然函数,得到 当前时点的下一帧音高值,对下一帧音高重复上述步骤,形成音高轮廓。另一 方面,在提取旋律音高轮廓之前,为了利用不同声源音色的不一致性,建议计 算音高轮廓的Mel frequency cepstral coefficients(MFCC)作为音色特征。然后, 用音高轮廓的音色特征和其他特征训练的随机森林分类器来提取旋律音高轮廓。
根据音高轮廓标签的特点,在验证集上根据准确率和召回率计算出综合评 价指标F1,在测试集上用满足最大F1设置的似然阈值来选择旋律音高轮廓。对 于得到的旋律音高轮廓,采用Viterbi平滑算法,得到旋律音高轮廓。
标准音差图的生成
在实验过程中,发现了标准音的差异规律。计算步骤如下。
(1)用guitarpro4.0生成基本音高旋律的WAV文件(do,re,MI,FA,sol,La, SI)。用钢琴作为音乐发生器。音乐片段的时域波形如图所示。
(2)用Mcea算法计算基本音级的音调旋律,得到标准音序。
(3)计算两个标准音高序列之间的增量序列,即得到音高轮廓线。这个轮廓 序列将作为其他哼唱音乐片段的音高轮廓计算的量化标准。实验部分的中间过 程如图2所示。
经过音高和mcea两个步骤,实现了从音乐片段到歌谱大纲的转换,这将在 图3中显示。
通过简单处理每个数字音素序列,可以得到相应的旋律轮廓,形成一个旋 律数据库。为旋律数据库中的旋律创建一个旋律向量索引,可以通过旋律轮廓 匹配算法检索到。只要我们能表达出旋律的高低差异,就能达到良好的检索效 果。但大多数人都能用乐谱唱歌。不同的人用不同的频率演唱同一首歌曲,但 演唱者在演唱过程中会尽量使发音的起伏与乐谱一致,所以他们用音高的连续 增量,即音高轮廓作为检索标准。旋律的表达比较准确,这一点在哼唱时往往 无法实现。这种算法提高了音高估计的准确性和总精度。然而,本文将降低声 音的召回率。下一步将考虑到对沉默帧的检测,以提高声音召回率。在组织音乐数据库时,可以根据数据库的对象和目的,选择使用不同的旋律表示法,并 建立相应的索引。
根据本公开实施例的一种具体实现方式,所述构建相关的目标函数,包括:
构建如下目标函数:
(Θ)=Σi=lnΣj=lkzijij+λ
∑i+ln∑j=lD
((sijllg sijlρ1+(1-sijl)lg1-sijl1-ρl)
∑i∈11≤i≤N
sijl∈[0,1]1≤i≤N,1≤k
dij=-∑1=1D(sijl|lgΦjl(xilμjl,σ2jl)+(1-sijl)
Φ=(xilεl,v2l)Φjl(xil,σ2jl,2jl
其中,dij为第i个样本与第j个中心之间的加权似然距离J,Sijl为第i个 样本中第L个特征属性xil对第j个类的影响程度,ujl为第L个特征,σ2jl是 第i个样本中第L个特征属性xil对第j个类的影响程度,jl是第j个样本平均值 对应的第L个特征,εL是平均值对应的第L个特征属性值;2jl是第L个特征 属性值对应的第j个样本方差,ρL是对应于所有样本平均值的第L个特征属 性值。
根据本公开实施例的一种具体实现方式,所述方法还包括:
构建函数
Figure BDA0003903064210000121
Figure BDA0003903064210000122
Figure BDA0003903064210000123
根据本公开实施例的一种具体实现方式,所述方法还包括:
找到声谱上的每个峰点,得到一个音乐片段的音高序列SN,然后估计音高 频率;
将每一帧的长度扩大3倍,将音频数据中的4096个点扩大到16384个点, 将所有的扩展数据填充为零,然后再进行FFT变换。
根据本公开实施例的一种具体实现方式,所述方法还包括:
对音高端文件进行检测,用以消除音高隔离段。
根据本公开实施例的一种具体实现方式,所述方法还包括:
计算音高曲线,将所述音高曲线作为音乐文件的轮廓特征。
根据本公开实施例的一种具体实现方式,所述方法还包括:
针对复调音乐中不同声源的相互干扰造成的同一声源音高序列的不连续 性,利用音高意义的连续性和高次谐波的稳定性来创建音高轮廓;
在跟踪音高形成音高轮廓时,利用基于音高的静态似然函数计算出当前时 频点的高次谐波,然后根据一阶预测函数和基于音高意义的动态似然函数计算 出每个谐波处的下一帧音高,再根据谐波的基频计算出静态似然函数,得到当 前时点的下一帧音高值,对下一帧音高重复上述步骤,形成音高轮廓;
在提取旋律音高轮廓之前,为了利用不同声源音色的不一致性,计算音高 轮廓的MFCC作为音色特征,用音高轮廓的音色特征和其他特征训练的随机森 林分类器来提取旋律音高轮廓。
参见图4,本发明实施例还公开了一种基于模糊聚类算法的音乐旋律轮廓提 取装置40,包括:
构建模块401,用于根据高斯混合模型的模糊聚类算法,构建相关的目标函 数;
获取模块402,用于获取二进制形式存储的音乐文件,对所述音乐文件执行 特征提取;
执行模块403,用于使用谐波求和和源滤波模型的组合来计算音高显著性, 滤波模型来计算音高显著性,以获得旋律的候选音高,然后创建音高轮廓,以 便于进一步提取旋律音高轮廓。
参见图5,本发明实施例还提供了一种电子设备60,该电子设备包括:
至少一个处理器;以及,
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个 处理器执行,以使该至少一个处理器能够执行前述方法实施例中基于模糊聚类 算法的音乐旋律轮廓提取方法。
本发明实施例还提供了一种非暂态计算机可读存储介质,该非暂态计算机 可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述方法实 施例中。
本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括存储 在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当 该程序指令被计算机执行时,使该计算机执行前述方法实施例中的基于模糊聚 类算法的音乐旋律轮廓提取方法。
图5所示装置可以执行图1-4所示实施例的方法,本实施例未详细描述的部 分,可参考对图1-4所示实施例的相关说明。在此不再赘述。
下面参考图5,其示出了适于用来实现本公开实施例的电子设备60的结构 示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本 电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携 式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数 字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不 应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备60可以包括处理装置(例如中央处理器、图形处理 器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装 置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和 处理。在RAM 603中,还存储有电子设备60操作所需的各种程序和数据。处 理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O) 接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、 鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液 晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等 的存储装置608;以及通信装置609。通信装置609可以允许电子设备60与其 他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子 设备60,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地 实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为 计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承 载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示 的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609 从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。 在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上 述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质 或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例 如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装 置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包 括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机 访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM 或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以 是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器 件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基 带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。 这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上 述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外 的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于 由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在, 而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序 被该电子设备执行时,使得该电子设备:获取至少两个网际协议地址;向节点 评价设备发送包括所述至少两个网际协议地址的节点评价请求,其中,所述节 点评价设备从所述至少两个网际协议地址中,选取网际协议地址并返回;接收 所述节点评价设备返回的网际协议地址;其中,所获取的网际协议地址指示内 容分发网络中的边缘节点。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多 个程序被该电子设备执行时,使得该电子设备:接收包括至少两个网际协议地 址的节点评价请求;从所述至少两个网际协议地址中,选取网际协议地址;返 回选取出的网际协议地址;其中,接收到的网际协议地址指示内容分发网络中 的边缘节点。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的 计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、 Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程 序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机 上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机 上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中, 远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)— 连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供 商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计 算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图 中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、 或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应 当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图 中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执 行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的 是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可 以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用 硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以 通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本 身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的 单元”。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到 的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围 应以权利要求的保护范围为准。

Claims (10)

1.一种基于模糊聚类算法的音乐旋律轮廓提取方法,其特征在于,包括:
根据高斯混合模型的模糊聚类算法,构建相关的目标函数;
获取二进制形式存储的音乐文件,对所述音乐文件执行特征提取;
使用谐波求和和源滤波模型的组合来计算音高显著性,滤波模型来计算音高显著性,以获得旋律的候选音高,然后创建音高轮廓,以便于进一步提取旋律音高轮廓。
2.根据权利要求1所述的方法,其特征在于,所述构建相关的目标函数,包括:
构建如下目标函数:
(Θ)=∑i=1n∑j=lkzijdij+λ
∑i+1n∑j=lD
((sijl1gsijlρ1+(1-sijl)1g1-sijl1-ρ1)
∑j∈11≤i≤N
sij/∈[O,1]1≤i≤N,1≤k
dij=-∑1=1D(sijl|lgΦjl(xilμjl,σ2jl)+(1-sijl)
Φ=(xilεl,v21)Φjl(xil,σ2jl,2jl
其中,dij为第i个样本与第j个中心之间的加权似然距离J,Sijl为第i个样本中第L个特征属性xil对第j个类的影响程度,ujl为第L个特征,σ2jl是第i个样本中第L个特征属性xil对第j个类的影响程度,j1是第j个样本平均值对应的第L个特征,εL是平均值对应的第L个特征属性值;2jl是第L个特征属性值对应的第j个样本方差,ρL是对应于所有样本平均值的第L个特征属性值。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
构建函数
Figure FDA0003903064200000021
Figure FDA0003903064200000022
Figure FDA0003903064200000023
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
找到声谱上的每个峰点,得到一个音乐片段的音高序列SN,然后估计音高频率;
将每一帧的长度扩大3倍,将音频数据中的4096个点扩大到16384个点,将所有的扩展数据填充为零,然后再进行FFT变换。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对音高端文件进行检测,用以消除音高隔离段。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算音高曲线,将所述音高曲线作为音乐文件的轮廓特征。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
针对复调音乐中不同声源的相互干扰造成的同一声源音高序列的不连续性,利用音高意义的连续性和高次谐波的稳定性来创建音高轮廓;
在跟踪音高形成音高轮廓时,利用基于音高的静态似然函数计算出当前时频点的高次谐波,然后根据一阶预测函数和基于音高意义的动态似然函数计算出每个谐波处的下一帧音高,再根据谐波的基频计算出静态似然函数,得到当前时点的下一帧音高值,对下一帧音高重复上述步骤,形成音高轮廓;
在提取旋律音高轮廓之前,为了利用不同声源音色的不一致性,计算音高轮廓的MFCC作为音色特征,用音高轮廓的音色特征和其他特征训练的随机森林分类器来提取旋律音高轮廓。
8.一种基于模糊聚类算法的音乐旋律轮廓提取装置,其特征在于,包括:
构建模块,用于根据高斯混合模型的模糊聚类算法,构建相关的目标函数;
获取模块,用于获取二进制形式存储的音乐文件,对所述音乐文件执行特征提取;
执行模块,用于使用谐波求和和源滤波模型的组合来计算音高显著性,滤波模型来计算音高显著性,以获得旋律的候选音高,然后创建音高轮廓,以便于进一步提取旋律音高轮廓。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述任一权利要求1-7所述的基于模糊聚类算法的音乐旋律轮廓提取方法。
10.一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述任一权利要求1-7所述的基于模糊聚类算法的音乐旋律轮廓提取方法。
CN202211296379.6A 2022-10-21 2022-10-21 基于模糊聚类算法的音乐旋律轮廓提取方法及装置 Pending CN115658957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211296379.6A CN115658957A (zh) 2022-10-21 2022-10-21 基于模糊聚类算法的音乐旋律轮廓提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211296379.6A CN115658957A (zh) 2022-10-21 2022-10-21 基于模糊聚类算法的音乐旋律轮廓提取方法及装置

Publications (1)

Publication Number Publication Date
CN115658957A true CN115658957A (zh) 2023-01-31

Family

ID=84988650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211296379.6A Pending CN115658957A (zh) 2022-10-21 2022-10-21 基于模糊聚类算法的音乐旋律轮廓提取方法及装置

Country Status (1)

Country Link
CN (1) CN115658957A (zh)

Similar Documents

Publication Publication Date Title
Duan et al. Multi-pitch streaming of harmonic sound mixtures
US8977374B1 (en) Geometric and acoustic joint learning
Benetos et al. Joint multi-pitch detection using harmonic envelope estimation for polyphonic music transcription
Tsunoo et al. Beyond timbral statistics: Improving music classification using percussive patterns and bass lines
CN108986843B (zh) 音频数据处理方法及装置、介质和计算设备
Tachibana et al. Harmonic/percussive sound separation based on anisotropic smoothness of spectrograms
Şentürk et al. Linking scores and audio recordings in makam music of Turkey
Yu et al. Sparse cepstral codes and power scale for instrument identification
Hernandez-Olivan et al. Music boundary detection using convolutional neural networks: A comparative analysis of combined input features
Nam et al. Intelligent query by humming system based on score level fusion of multiple classifiers
Gurjar et al. Comparative Analysis of Music Similarity Measures in Music Information Retrieval Systems.
EP3161689B1 (en) Derivation of probabilistic score for audio sequence alignment
CN111445922A (zh) 音频匹配方法、装置、计算机设备及存储介质
Zhang et al. A novel singer identification method using GMM-UBM
CN115658957A (zh) 基于模糊聚类算法的音乐旋律轮廓提取方法及装置
Shirali-Shahreza et al. Fast and scalable system for automatic artist identification
Bormane et al. A novel techniques for classification of musical instruments
Lai [Retracted] Automatic Music Classification Model Based on Instantaneous Frequency and CNNs in High Noise Environment
JP2004531758A5 (zh)
Zhang Music Data Feature Analysis and Extraction Algorithm Based on Music Melody Contour
Singh et al. Computational approaches for Indian classical music: A comprehensive review
Bohak et al. Transcription of polyphonic vocal music with a repetitive melodic structure
Horsburgh et al. Music-inspired texture representation
CN113192522B (zh) 音频合成模型生成方法及装置、音频合成方法及装置
CN113744721B (zh) 模型训练方法、音频处理方法、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination