CN112989105A - 一种音乐结构的分析方法及系统 - Google Patents

一种音乐结构的分析方法及系统 Download PDF

Info

Publication number
CN112989105A
CN112989105A CN201911300064.2A CN201911300064A CN112989105A CN 112989105 A CN112989105 A CN 112989105A CN 201911300064 A CN201911300064 A CN 201911300064A CN 112989105 A CN112989105 A CN 112989105A
Authority
CN
China
Prior art keywords
music
data
matrix
sentence
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911300064.2A
Other languages
English (en)
Other versions
CN112989105B (zh
Inventor
孟泽
杨辞源
任续超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heihezi Technology Beijing Co ltd
Original Assignee
Heihezi Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heihezi Technology Beijing Co ltd filed Critical Heihezi Technology Beijing Co ltd
Priority to CN201911300064.2A priority Critical patent/CN112989105B/zh
Publication of CN112989105A publication Critical patent/CN112989105A/zh
Application granted granted Critical
Publication of CN112989105B publication Critical patent/CN112989105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Algebra (AREA)
  • Auxiliary Devices For Music (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及一种音乐结构的分析方法及系统,其中,所述方法包括:获取待分析音乐的音乐数据,所述音乐数据中包括音频数据和对齐歌词文本;采用凸非负矩阵分解预测所述音乐数据的候选音乐边界点,并基于所述对齐歌词文本对所述候选音乐边界点进行矫正,以形成最终的歌曲段落;基于深度神经网络推断指定音乐时间节点,并将包含所述指定音乐时间节点的歌曲段落标记为副歌段落;基于音频和歌词的相似性,对副歌段落的标记传播至整首待分析音乐,以识别出所述待分析音乐的音乐结果。本申请提供的技术方案,能够音乐结果分析的精度。

Description

一种音乐结构的分析方法及系统
技术领域
本申请涉及数据处理技术领域,特别涉及一种音乐结构的分析方法及系统。
背景技术
随着网络多媒体数据的大量增长与音乐舞台技术的发展,如何将这些数据合理地整理与理解日益关键,在数据检索与音乐理解中,音乐结构分析是一项关键技术。音乐结构分析旨在识别出歌曲中主歌、副歌等部分。一方面,计算机自动分析音乐结构可以用于网络音乐浏览,进行十分高效的音乐检索;另一方面,在音乐舞台表演中,精确获取音乐事件位置可以自动化舞台效果编排。在这样的情况下,高效准确地识别音乐结构信息,可以高效地进行音乐浏览与舞台编排,此外在一定程度上也可以减少成本开销。
然而,现有的一些音乐结构分析方面的研究,最初音乐结构分析算法大都是计算自相似矩阵与隐马科夫模型,但往往这种方法所作的假设具有很大的局限。近些年对于用户数据的挖掘开始兴起,对音乐网站用户登录日志与操作轨迹来估计音乐事件位置,这种方法需要大量用户操作数据且对于冷门歌曲并不奏效。随着卷积神经网络的发展,基于深度神经网络的音乐情感爆发点检测的研究出现,但是对于精确定位音乐事件依然差强人意。这是因为流行音乐是由音频与歌词共同组成,单从音频角度出发,造成一定的信息缺失,而且现有的特征无法很好区分音乐段落。因此,急需提供一种精确的音乐结构分析的方法。
发明内容
本申请的目的在于提供一种音乐结构的分析方法及系统,能够音乐结果分析的精度。
为实现上述目的,本申请提供一种音乐结构的分析方法,所述方法包括:
获取待分析音乐的音乐数据,所述音乐数据中包括音频数据和对齐歌词文本;
采用凸非负矩阵分解预测所述音乐数据的候选音乐边界点,并基于所述对齐歌词文本对所述候选音乐边界点进行矫正,以形成最终的歌曲段落;
基于深度神经网络推断指定音乐时间节点,并将包含所述指定音乐时间节点的歌曲段落标记为副歌段落;
基于音频和歌词的相似性,对副歌段落的标记传播至整首待分析音乐,以识别出所述待分析音乐的音乐结果。
进一步地,采用凸非负矩阵分解预测所述音乐数据的候选音乐边界点包括:
将音乐波形文件作为输入,并计算所述音乐波形文件的色度图;
计算所述音乐波形文件的时间序列,并按照所述时间序列的时间节点对所述色度图进行将采样,以得到降采样后的特征矩阵;
计算所述降采样后的特征矩阵的自相似矩阵,并对所述自相似矩阵进行凸非负矩阵分解,以得到分解矩阵;
将所述分解矩阵中的行向量作为特征数据,并对所述特征数据进行聚类,以检测出候选音乐边界点。
进一步地,所述方法还包括:
使用指定窗口大小的滑动中位数滤波器沿时间轴方向对所述降采样后的特征矩阵进行平滑,以过滤掉噪声信息。
进一步地,基于所述对齐歌词文本对所述候选音乐边界点进行矫正包括:
按时间顺序读取所述对齐歌词文本中的句子列表,并记录每个句子的起止时间节点;
基于所述候选音乐边界点和每个句子的起始时间节点,推断出位于分割点的句子集合;
识别所述句子集合中的分割点句子,并分别为所述分割点句子以及所述分割点句子的邻近句子赋值,以得到带有赋值的句子列表;
将所述带有赋值的句子列表中的每一项的分数累加至相同的句子中,并选取累加结果的极值点作为最终的音乐边界点。
进一步地,基于深度神经网络推断指定音乐时间节点包括:
将所述音频数据转换为梅尔频谱数据,并将所述梅尔频谱数据按时间方向分为多个数据块,并在每个所述数据块中采样多个样本点;
使用堆栈式卷积层提取各个所述数据块的高层特征,并在所述堆栈式卷积层之后连接全局最大池化层,以及在时间轴全局上对每一个数据块进行最大池化;
将池化后的数据块转换为特征向量,并将所述特征向量输入不同的两个分支,其中一个分支用于预测情感标签,另一个分支用于计算每个数据块对于全局预测的重要性;
为所述特征向量增加块级别的位置嵌入,以生成新的特征向量,并根据所述新的特征向量计算得到注意力分数;
融合两个分支的结果,并利用所述注意力分数对融合后的结果进行块级别的预测,以得到最终的歌曲级别的预测。
进一步地,所述方法还包括:
在预测情感标签时,使用全连接层学习中间特征向量与情感标签之间的映射关系,得到块级别的预测结果。
进一步地,所述方法还包括:
在训练阶段使用交叉熵损失来比较正确标签与预测标签的误差,并根据得到的所述误差对训练模型进行校正。
进一步地,所述方法还包括:
在预测阶段,将网络前向计算得到的注意力分数最大的点,作为情感爆发点,并将所述情感爆发点在歌曲中的时间节点作为情感爆发时间节点。
为实现上述目的,本申请还提供一种音乐结构的分析系统,所述系统包括:
数据获取单元,用于获取待分析音乐的音乐数据,所述音乐数据中包括音频数据和对齐歌词文本;
歌曲段落形成单元,用于采用凸非负矩阵分解预测所述音乐数据的候选音乐边界点,并基于所述对齐歌词文本对所述候选音乐边界点进行矫正,以形成最终的歌曲段落;
标记单元,用于基于深度神经网络推断指定音乐时间节点,并将包含所述指定音乐时间节点的歌曲段落标记为副歌段落;
结果识别单元,用于基于音频和歌词的相似性,对副歌段落的标记传播至整首待分析音乐,以识别出所述待分析音乐的音乐结果。
进一步地,所述歌曲段落形成单元包括:
色度图计算模块,用于将音乐波形文件作为输入,并计算所述音乐波形文件的色度图;
特征矩阵计算模块,用于计算所述音乐波形文件的时间序列,并按照所述时间序列的时间节点对所述色度图进行将采样,以得到降采样后的特征矩阵;
分解矩阵获取模块,用于计算所述降采样后的特征矩阵的自相似矩阵,并对所述自相似矩阵进行凸非负矩阵分解,以得到分解矩阵;
边界点检测模块,用于将所述分解矩阵中的行向量作为特征数据,并对所述特征数据进行聚类,以检测出候选音乐边界点。
由上可见,本申请提供的技术方案,首先使用凸非负矩阵分解来预测音乐候选的分割时间节点,接着使用歌词的每一句作为最小的分割单元,候选的分割时间节点进行矫正。最后使用深度神经网络来预测音乐High Light(高光)的时间节点,将包含High Light的段落标记为副歌,因为High Light的唯一性,采用音频-文本相似的特征对副歌段落进行传播,最终得到全局的结果。本发明不依赖于任何超参数的选取(比如副歌长度),因此拥有更加鲁棒和精确的性能,并且可以从音乐整体出发,充分利用音频数据与歌词文本,从而进行更加精准的音乐结构分析。
附图说明
图1为音乐结构的分析方法的示意图;
图2为音乐结构的分析系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式,都应当属于本申请保护的范围。
本申请提供一种音乐结构的分析方法,请参阅图1,所述方法包括:
S1:获取待分析音乐的音乐数据,所述音乐数据中包括音频数据和对齐歌词文本;
S2:采用凸非负矩阵分解预测所述音乐数据的候选音乐边界点,并基于所述对齐歌词文本对所述候选音乐边界点进行矫正,以形成最终的歌曲段落;
S3:基于深度神经网络推断指定音乐时间节点,并将包含所述指定音乐时间节点的歌曲段落标记为副歌段落;
S4:基于音频和歌词的相似性,对副歌段落的标记传播至整首待分析音乐,以识别出所述待分析音乐的音乐结果。
具体地,在一个实际应用场景下,可以提供音乐音频数据与对齐的LRC格式的歌词文本。
音乐结构分析可以分为三步,1)凸非负矩阵分解(C-DMF)提取候选音乐边界点(Music Boundary),2)基于歌词文本的Bag-Vote候选边界点选取,形成最终的歌曲段落,3)DNN(深度神经网络)推断音乐High Light时间节点,并将存在位置的段落标记为副歌,根据音频-歌词相似性,将副歌属性标记传播至整首歌,最终得到全局结果。下面具体分析各个步骤:
1)凸非负矩阵分解生成候选音乐边界点:
1.本步骤需要将音乐波形文件作为输入。
2.计算波形文件的色度图(chromagram),得到N*12的特征矩阵。
3.计算波形文件的beats时间序列。
4.按照时间序列的时间节点对原始色度图进行降采样,得到降采样后的特征矩阵C,减少候选音频帧数。
5.使用窗口大小为h的滑动中位数滤波器沿着时间轴方向进行平滑,过滤掉噪声信息。
6.使用如下公式逐帧计算降采样后的特征矩阵C的相关距离的自相似矩阵S(SSM):
Figure BDA0002320101780000061
其中μx为特征向量x的均值,||·||2表示欧几里得范数,·为点积。
7.随后将S逐元素平方有S=S2,使得相似度增强。
8.S是自相似矩阵(SSM),sij表示第i帧与第j帧间的距离。
9.对S进行C-DMF(凸非负矩阵分解),描述X≈FG,F∈RN×r为聚类行矩阵,G∈Rr×p表明聚类指示器。
10.其中
Figure BDA0002320101780000062
是X特征的凸组合,其中wij≥0,∑jwij=1
Figure BDA0002320101780000063
11.最终F=XW,W∈Rp×r,最终得到分解矩阵
Figure BDA0002320101780000064
把C-DMF等式变为X≈XWG。
12.得到分解矩阵R,对其进行k-means聚类,将矩阵R行向量视为特征,其中k=2,可以检测音乐事件边界(对边界进行二分类),于是得到音乐事件的边界点B。
2)Bag-Vote选取步骤1中的生成边界点B,因为步骤1给出的边界点准确率较低,但是召回率很高,于是采用此方法来矫正步骤1中输出的边界点:
1.本步骤需要与歌曲对齐的歌词文件。
2.以句子为单位读取歌词的句子,按时间顺序的列表L={li=1,..,n}},以及对应每句的始终时间节点
Figure BDA0002320101780000071
Figure BDA0002320101780000072
其中n为歌曲歌词句数。
3.将B根据歌词的每句开始的时间点推断出位于分割点的句子
Figure BDA0002320101780000073
得到
Figure BDA0002320101780000074
4.根据
Figure BDA0002320101780000075
中段落,给予
Figure BDA0002320101780000076
中每个分割点li邻近句子li-1、li+1加权分数0.25,而li赋值0.5,因此有
Figure BDA0002320101780000077
5.对于整个句子赋值结束后,得到有分数的句子列表
Figure BDA0002320101780000078
随后将
Figure BDA0002320101780000079
中的每一项的分数累加到相同句子中。
6.随后使用pick-peak方法选取极值点作为音乐边界点。
3)DNN推断音乐High Light时间节点:
1.输入为音乐音频文件。
2.将原始音频转换为mel-spectrogram(梅尔频谱数据),并将其按时间方向分为T块,每块采样3个样本点,每一块可以看作2-D的图像。
3.对于每一块使用堆栈式卷积层(convolutional layer)提取其高层特征,紧接全局最大池化层(max pooling layer),在时间轴全局上对每一个时间块进行最大池化。然后将2-D块输入转化成1-D的特征向量ht∈RM:
ht=TimeMaxPool(Conv(Xt)),
4.将得到的特征向量ht输入两个不同的分支,一个用于预测最终的情感标签,使用全连接层(fully-connected layers)学习中间特征向量与情感标签之间的映射关系。每一个块得到块级别的预测
Figure BDA0002320101780000081
Figure BDA0002320101780000082
其中C为情感分类数目,softmax方法将FC层输入归一化成[0,1]范围,使其总和为1。
5.另一个分支使用attention机制计算每个块对于全局预测的重要性,这是因为音乐一个明显的特性——序列化,一个音乐事件高度依赖先前事件,邻近位置的音乐事件依赖性最强。
基于此,估计attention score对于探究时域信息十分有意义。
6.为特征向量ht增加块级别(chunk-level)的位置嵌入(positionalembeddings)pt,
pt,2z-1=sin(t/100002(z-1)/M),
pt,2z=cos(t/100002(z-1)/M),
pt,j表示pt的第j个元素,且z∈1,…,M/2。使用全连接层(FC)来实现attention机制,首先得到位置嵌入后的特征向量
Figure BDA0002320101780000083
Figure BDA0002320101780000084
然后将新特征向量
Figure BDA0002320101780000085
输入至全连接层,然后得到注意力分数(attentionscore)αt,
Figure BDA0002320101780000086
7.最终融合两个分支的结果,使用注意力分数αt线性组合块级别的预测,得到最终歌曲级别的预测
Figure BDA0002320101780000087
Figure BDA0002320101780000088
8.在训练阶段使用交叉熵损失来比较正确标签y∈{0,1}C与预测标签
Figure BDA0002320101780000089
9.当训练完毕进行预测时,网络前向计算得到的注意力分数αt最大的点,作为情感爆发点,取得其在歌曲中的时间节点作为情感爆发时间Ttarget。随后以歌词为输入,进行歌词段落划分。
由上可见,在一个实施方式中,采用凸非负矩阵分解预测所述音乐数据的候选音乐边界点包括:
将音乐波形文件作为输入,并计算所述音乐波形文件的色度图;
计算所述音乐波形文件的时间序列,并按照所述时间序列的时间节点对所述色度图进行将采样,以得到降采样后的特征矩阵;
计算所述降采样后的特征矩阵的自相似矩阵,并对所述自相似矩阵进行凸非负矩阵分解,以得到分解矩阵;
将所述分解矩阵中的行向量作为特征数据,并对所述特征数据进行聚类,以检测出候选音乐边界点。
在一个实施方式中,所述方法还包括:
使用指定窗口大小的滑动中位数滤波器沿时间轴方向对所述降采样后的特征矩阵进行平滑,以过滤掉噪声信息。
在一个实施方式中,基于所述对齐歌词文本对所述候选音乐边界点进行矫正包括:
按时间顺序读取所述对齐歌词文本中的句子列表,并记录每个句子的起止时间节点;
基于所述候选音乐边界点和每个句子的起始时间节点,推断出位于分割点的句子集合;
识别所述句子集合中的分割点句子,并分别为所述分割点句子以及所述分割点句子的邻近句子赋值,以得到带有赋值的句子列表;
将所述带有赋值的句子列表中的每一项的分数累加至相同的句子中,并选取累加结果的极值点作为最终的音乐边界点。
在一个实施方式中,基于深度神经网络推断指定音乐时间节点包括:
将所述音频数据转换为梅尔频谱数据,并将所述梅尔频谱数据按时间方向分为多个数据块,并在每个所述数据块中采样多个样本点;
使用堆栈式卷积层提取各个所述数据块的高层特征,并在所述堆栈式卷积层之后连接全局最大池化层,以及在时间轴全局上对每一个数据块进行最大池化;
将池化后的数据块转换为特征向量,并将所述特征向量输入不同的两个分支,其中一个分支用于预测情感标签,另一个分支用于计算每个数据块对于全局预测的重要性;
为所述特征向量增加块级别的位置嵌入,以生成新的特征向量,并根据所述新的特征向量计算得到注意力分数;
融合两个分支的结果,并利用所述注意力分数对融合后的结果进行块级别的预测,以得到最终的歌曲级别的预测。
在一个实施方式中,所述方法还包括:
在预测情感标签时,使用全连接层学习中间特征向量与情感标签之间的映射关系,得到块级别的预测结果。
在一个实施方式中,所述方法还包括:
在训练阶段使用交叉熵损失来比较正确标签与预测标签的误差,并根据得到的所述误差对训练模型进行校正。
在一个实施方式中,所述方法还包括:
在预测阶段,将网络前向计算得到的注意力分数最大的点,作为情感爆发点,并将所述情感爆发点在歌曲中的时间节点作为情感爆发时间节点。
请参阅图2,本申请还提供一种音乐结构的分析系统,所述系统包括:
数据获取单元,用于获取待分析音乐的音乐数据,所述音乐数据中包括音频数据和对齐歌词文本;
歌曲段落形成单元,用于采用凸非负矩阵分解预测所述音乐数据的候选音乐边界点,并基于所述对齐歌词文本对所述候选音乐边界点进行矫正,以形成最终的歌曲段落;
标记单元,用于基于深度神经网络推断指定音乐时间节点,并将包含所述指定音乐时间节点的歌曲段落标记为副歌段落;
结果识别单元,用于基于音频和歌词的相似性,对副歌段落的标记传播至整首待分析音乐,以识别出所述待分析音乐的音乐结果。
在一个实施方式中,所述歌曲段落形成单元包括:
色度图计算模块,用于将音乐波形文件作为输入,并计算所述音乐波形文件的色度图;
特征矩阵计算模块,用于计算所述音乐波形文件的时间序列,并按照所述时间序列的时间节点对所述色度图进行将采样,以得到降采样后的特征矩阵;
分解矩阵获取模块,用于计算所述降采样后的特征矩阵的自相似矩阵,并对所述自相似矩阵进行凸非负矩阵分解,以得到分解矩阵;
边界点检测模块,用于将所述分解矩阵中的行向量作为特征数据,并对所述特征数据进行聚类,以检测出候选音乐边界点。
由上可见,本申请提供的技术方案,首先使用凸非负矩阵分解来预测音乐候选的分割时间节点,接着使用歌词的每一句作为最小的分割单元,候选的分割时间节点进行矫正。最后使用深度神经网络来预测音乐High Light(高光)的时间节点,将包含High Light的段落标记为副歌,因为High Light的唯一性,采用音频-文本相似的特征对副歌段落进行传播,最终得到全局的结果。本发明不依赖于任何超参数的选取(比如副歌长度),因此拥有更加鲁棒和精确的性能,并且可以从音乐整体出发,充分利用音频数据与歌词文本,从而进行更加精准的音乐结构分析。
上面对本申请的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述,本申请的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此,虽然已经具体讨论了一些另选的实施方式,但是其它实施方式将是显而易见的,或者本领域技术人员相对容易得出。本申请旨在包括在此已经讨论过的本发明的所有替代、修改、和变化,以及落在上述申请的精神和范围内的其它实施方式。

Claims (10)

1.一种音乐结构的分析方法,其特征在于,所述方法包括:
获取待分析音乐的音乐数据,所述音乐数据中包括音频数据和对齐歌词文本;
采用凸非负矩阵分解预测所述音乐数据的候选音乐边界点,并基于所述对齐歌词文本对所述候选音乐边界点进行矫正,以形成最终的歌曲段落;
基于深度神经网络推断指定音乐时间节点,并将包含所述指定音乐时间节点的歌曲段落标记为副歌段落;
基于音频和歌词的相似性,对副歌段落的标记传播至整首待分析音乐,以识别出所述待分析音乐的音乐结果。
2.根据权利要求1所述的方法,其特征在于,采用凸非负矩阵分解预测所述音乐数据的候选音乐边界点包括:
将音乐波形文件作为输入,并计算所述音乐波形文件的色度图;
计算所述音乐波形文件的时间序列,并按照所述时间序列的时间节点对所述色度图进行将采样,以得到降采样后的特征矩阵;
计算所述降采样后的特征矩阵的自相似矩阵,并对所述自相似矩阵进行凸非负矩阵分解,以得到分解矩阵;
将所述分解矩阵中的行向量作为特征数据,并对所述特征数据进行聚类,以检测出候选音乐边界点。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
使用指定窗口大小的滑动中位数滤波器沿时间轴方向对所述降采样后的特征矩阵进行平滑,以过滤掉噪声信息。
4.根据权利要求1所述的方法,其特征在于,基于所述对齐歌词文本对所述候选音乐边界点进行矫正包括:
按时间顺序读取所述对齐歌词文本中的句子列表,并记录每个句子的起止时间节点;
基于所述候选音乐边界点和每个句子的起始时间节点,推断出位于分割点的句子集合;
识别所述句子集合中的分割点句子,并分别为所述分割点句子以及所述分割点句子的邻近句子赋值,以得到带有赋值的句子列表;
将所述带有赋值的句子列表中的每一项的分数累加至相同的句子中,并选取累加结果的极值点作为最终的音乐边界点。
5.根据权利要求1所述的方法,其特征在于,基于深度神经网络推断指定音乐时间节点包括:
将所述音频数据转换为梅尔频谱数据,并将所述梅尔频谱数据按时间方向分为多个数据块,并在每个所述数据块中采样多个样本点;
使用堆栈式卷积层提取各个所述数据块的高层特征,并在所述堆栈式卷积层之后连接全局最大池化层,以及在时间轴全局上对每一个数据块进行最大池化;
将池化后的数据块转换为特征向量,并将所述特征向量输入不同的两个分支,其中一个分支用于预测情感标签,另一个分支用于计算每个数据块对于全局预测的重要性;
为所述特征向量增加块级别的位置嵌入,以生成新的特征向量,并根据所述新的特征向量计算得到注意力分数;
融合两个分支的结果,并利用所述注意力分数对融合后的结果进行块级别的预测,以得到最终的歌曲级别的预测。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在预测情感标签时,使用全连接层学习中间特征向量与情感标签之间的映射关系,得到块级别的预测结果。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在训练阶段使用交叉熵损失来比较正确标签与预测标签的误差,并根据得到的所述误差对训练模型进行校正。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在预测阶段,将网络前向计算得到的注意力分数最大的点,作为情感爆发点,并将所述情感爆发点在歌曲中的时间节点作为情感爆发时间节点。
9.一种音乐结构的分析系统,其特征在于,所述系统包括:
数据获取单元,用于获取待分析音乐的音乐数据,所述音乐数据中包括音频数据和对齐歌词文本;
歌曲段落形成单元,用于采用凸非负矩阵分解预测所述音乐数据的候选音乐边界点,并基于所述对齐歌词文本对所述候选音乐边界点进行矫正,以形成最终的歌曲段落;
标记单元,用于基于深度神经网络推断指定音乐时间节点,并将包含所述指定音乐时间节点的歌曲段落标记为副歌段落;
结果识别单元,用于基于音频和歌词的相似性,对副歌段落的标记传播至整首待分析音乐,以识别出所述待分析音乐的音乐结果。
10.根据权利要求9所述的系统,其特征在于,所述歌曲段落形成单元包括:
色度图计算模块,用于将音乐波形文件作为输入,并计算所述音乐波形文件的色度图;
特征矩阵计算模块,用于计算所述音乐波形文件的时间序列,并按照所述时间序列的时间节点对所述色度图进行将采样,以得到降采样后的特征矩阵;
分解矩阵获取模块,用于计算所述降采样后的特征矩阵的自相似矩阵,并对所述自相似矩阵进行凸非负矩阵分解,以得到分解矩阵;
边界点检测模块,用于将所述分解矩阵中的行向量作为特征数据,并对所述特征数据进行聚类,以检测出候选音乐边界点。
CN201911300064.2A 2019-12-16 2019-12-16 一种音乐结构的分析方法及系统 Active CN112989105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911300064.2A CN112989105B (zh) 2019-12-16 2019-12-16 一种音乐结构的分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911300064.2A CN112989105B (zh) 2019-12-16 2019-12-16 一种音乐结构的分析方法及系统

Publications (2)

Publication Number Publication Date
CN112989105A true CN112989105A (zh) 2021-06-18
CN112989105B CN112989105B (zh) 2024-04-26

Family

ID=76342027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911300064.2A Active CN112989105B (zh) 2019-12-16 2019-12-16 一种音乐结构的分析方法及系统

Country Status (1)

Country Link
CN (1) CN112989105B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611517A (zh) * 2022-03-15 2022-06-10 平安科技(深圳)有限公司 基于深度学习的命名实体识别方法、装置、设备和介质
CN115294947A (zh) * 2022-07-29 2022-11-04 腾讯科技(深圳)有限公司 音频数据处理方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060113093A (ko) * 2005-04-29 2006-11-02 에스케이 텔레콤주식회사 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약장치, 방법 및 이를 구현하기 위한 프로그램이 저장된기록매체
CN101587708A (zh) * 2009-06-26 2009-11-25 清华大学 歌曲情绪压力分析方法及系统
CN102208184A (zh) * 2010-03-31 2011-10-05 索尼公司 信息处理设备、信息处理方法以及程序
CN106228977A (zh) * 2016-08-02 2016-12-14 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法
CN108648767A (zh) * 2018-04-08 2018-10-12 中国传媒大学 一种流行歌曲情感综合与分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060113093A (ko) * 2005-04-29 2006-11-02 에스케이 텔레콤주식회사 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약장치, 방법 및 이를 구현하기 위한 프로그램이 저장된기록매체
CN101587708A (zh) * 2009-06-26 2009-11-25 清华大学 歌曲情绪压力分析方法及系统
CN102208184A (zh) * 2010-03-31 2011-10-05 索尼公司 信息处理设备、信息处理方法以及程序
CN106228977A (zh) * 2016-08-02 2016-12-14 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法
CN108648767A (zh) * 2018-04-08 2018-10-12 中国传媒大学 一种流行歌曲情感综合与分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEIYAOXUE 等: "music boundary detection with multiple features", 《2016 INTERNATIONAL CONFERENCE ON AUDIO,LANGUAGE AND IMAGE PROCESSING》, pages 1 - 2 *
魏华珍 等: "特征组合的中文音乐情感识别研究", 《安徽大学学报》, vol. 38, no. 6, pages 30 - 36 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611517A (zh) * 2022-03-15 2022-06-10 平安科技(深圳)有限公司 基于深度学习的命名实体识别方法、装置、设备和介质
CN114611517B (zh) * 2022-03-15 2023-07-25 平安科技(深圳)有限公司 基于深度学习的命名实体识别方法、装置、设备和介质
CN115294947A (zh) * 2022-07-29 2022-11-04 腾讯科技(深圳)有限公司 音频数据处理方法、装置、电子设备及介质
CN115294947B (zh) * 2022-07-29 2024-06-11 腾讯科技(深圳)有限公司 音频数据处理方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN112989105B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
Stowell Computational bioacoustic scene analysis
Zhang et al. Using multi-label classification for acoustic pattern detection and assisting bird species surveys
US7858868B2 (en) Method for classifying music using Gish distance values
Paulus et al. Music structure analysis by finding repeated parts
US20080201340A1 (en) Decision tree construction via frequent predictive itemsets and best attribute splits
CN115098620B (zh) 一种注意力相似度迁移的跨模态哈希检索方法
Heittola et al. The machine learning approach for analysis of sound scenes and events
CN114117213A (zh) 一种推荐模型训练、推荐方法、装置、介质和设备
US20110178615A1 (en) Method for calculating measures of similarity between time signals
Liu et al. A parallel fusion approach to piano music transcription based on convolutional neural network
Cholewa et al. Estimation of the number of states for gesture recognition with Hidden Markov Models based on the number of critical points in time sequence
CN111859010A (zh) 一种基于深度互信息最大化的半监督音频事件识别方法
CN112989105B (zh) 一种音乐结构的分析方法及系统
CN115858785A (zh) 一种基于大数据的敏感数据识别方法及系统
Narimatsu et al. State duration and interval modeling in hidden semi-Markov model for sequential data analysis
Lee et al. Cover song identification using song-to-song cross-similarity matrix with convolutional neural network
US11829442B2 (en) Methods and systems for efficient batch active learning of a deep neural network
Sowmyayani et al. STHARNet: Spatio-temporal human action recognition network in content based video retrieval
CN115858763A (zh) 多模态数据融合的城管事件分析方法及其应用
Coviello et al. Multivariate Autoregressive Mixture Models for Music Auto-Tagging.
CN111737513B (zh) 一种针对海量音乐数据的哼唱检索系统
CN113657533A (zh) 一种面向时空场景构建的多元时间序列分割聚类方法
CN112766368A (zh) 一种数据分类方法、设备和可读存储介质
Shen et al. QUC-tree: Integrating query context information for efficient music retrieval
Geler Role of Similarity Measures in Time Series Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant