CN116312633A - 一种副歌结构检测方法、系统、设备及存储介质 - Google Patents

一种副歌结构检测方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN116312633A
CN116312633A CN202310227563.3A CN202310227563A CN116312633A CN 116312633 A CN116312633 A CN 116312633A CN 202310227563 A CN202310227563 A CN 202310227563A CN 116312633 A CN116312633 A CN 116312633A
Authority
CN
China
Prior art keywords
chorus
curve
self
probability
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310227563.3A
Other languages
English (en)
Inventor
何其锜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202310227563.3A priority Critical patent/CN116312633A/zh
Publication of CN116312633A publication Critical patent/CN116312633A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明属于计算机信息处理技术领域,具体为一种副歌结构检测方法、系统、设备及存储介质。本发明副歌结构检测方法包括:对待检测音乐进行特征提取,得到梅尔声谱图;将所述梅尔声谱图输入至副歌提取模型中,得到概率曲线;采用自适应阈值策略对所述概率曲线进行处理,得到自适应阈值曲线;对所述自适应阈值曲线进行中值滤波处理,得中值滤波处理后的曲线;基于所述中值滤波处理后的曲线对待检测音乐的副歌进行检测。本发明能够减少对参数量以及计算资源的消耗,降低对先验知识的需求,从而提高副歌结构检测的准确性。

Description

一种副歌结构检测方法、系统、设备及存储介质
技术领域
本发明属于计算机信息处理技术领域,具体涉及一种副歌结构检测方法、系统、设备及存储介质。
背景技术
随着现代科技的高速发展,人们从各种途径获得不同的媒体资源越来越方便,其中的音乐媒介成为人们日常生活中不可或缺的一部分。不同于中世纪时期被视作阳春白雪的古典音乐,在上世纪五十年代后发展起来的流行音乐已成为数字媒体音乐中的主流。流行音乐的特点之一是对群众参与度的强调,激起艺术家与听众在感情或是肢体语言上的共鸣,因此流行音乐能够打破不同文化、民族或地域的隔阂,成为在全世界范围内流行的音乐形式。
音乐是高度结构化的载体,尤其是对于流行音乐而言。在现有的流行音乐中,一首音乐常常被划分为前奏(Intro)、主歌(Verse)、副歌(Chorus)、间奏(Bridge)和尾奏(Outro)等结构。对音乐结构的研究和分析一直是音乐信息检索(Music InformationRetrival,MIR)领域中一项重要的研究课题,也是在数字音频管理中不可或缺的重要环节。在众多的音乐结构中,副歌结构通常是最恰当地反映一段音乐中“最具代表性”的部分,且在绝大部分流行音乐中,副歌重复不只一次。
目前,绝大多数的副歌检测方法都是基于每种音乐结构规则来仔细调整设计的模型,它们普遍需要经过复杂的前处理和后处理过程。这些情况可能会降低模型的泛化能力。同时,这些模型需要消耗大量计算资源,并可能导致另一些与副歌部分具有相似特点的音乐结构(如主歌结构,也会在一首歌曲中重复数次)被错误地检测为副歌部分。
发明内容
本发明的目的在于提供一种副歌结构检测方法、系统、设备及存储介质,用以减少对参数量以及计算资源的消耗,降低对先验知识的需求,从而提高副歌结构检测的准确性。
本发明提供的副歌结构检测方法,具体步骤为:
(1)对待检测音乐进行特征提取,得到梅尔声谱图;
(2)将所述梅尔声谱图输入至副歌提取模型中,得到概率曲线;所述副歌提取模型包括多分辨率网络和自注意力卷积网络;所述概率曲线表示副歌存在与否的概率;
(3)采用自适应阈值策略对所述概率曲线进行处理,得到自适应阈值曲线;
(4)对所述自适应阈值曲线进行中值滤波处理,得中值滤波处理后的曲线;
(5)基于所述中值滤波处理后的曲线对待检测音乐的副歌进行检测。
进一步地,步骤(1)所述对待检测音乐进行特征提取,得到梅尔声谱图,具体包括:
通过梅尔滤波器对所述待检测音乐进行特征提取,即进行重采样,然后进行傅里叶变换,得梅尔声谱图。
进一步地,步骤(2)所述将所述梅尔声谱图输入至副歌提取模型中,得到概率曲线,具体包括:
将所述梅尔声谱图输入至所述多分辨率网络中进行特征融合,得到初始特征;
将所述初始特征输入至所述自注意力卷积网络中,得到概率曲线。
可选地,所述自注意力卷积网络包括多个依次叠加的自注意力卷积模块;所述自注意力卷积模块包括一个自注意力模块和一个卷积层。
进一步地,步骤(3)所述采用自适应阈值策略对所述概率曲线进行处理,得到自适应阈值曲线,具体包括:
采用自适应阈值策略中的动态阈值函数,计算所述概率曲线的理想阈值;
基于所述理想阈值计算动态阈值函数;
基于所述动态阈值函数生成自适应阈值曲线。
本发明还提供一种副歌结构检测系统,包括:
特征提取模块,用于对待检测音乐进行特征提取,得到梅尔声谱图;
概率曲线确定模块,用于将所述梅尔声谱图输入至副歌提取模型中,得到概率曲线;所述副歌提取模型包括多分辨率网络和自注意力卷积网络;所述概率曲线表示副歌存在与否的概率;
自适应阈值处理模块,用于采用自适应阈值策略对所述概率曲线进行处理,得到自适应阈值曲线;
中值滤波处理模块,用于对所述自适应阈值曲线进行中值滤波处理,得中值滤波处理后的曲线;
副歌检测模块,用于基于所述中值滤波处理后的曲线对待检测音乐的副歌进行检测。
这五个模块执行副歌检测方法中的5个步骤的操作。
本发明还提供一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述副歌结构检测方法。
本发明还提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述副歌结构检测方法。
本发明具有优异技术效果:
本发明提取待检测音乐的梅尔声谱图,然后输入至由多分辨率网络和自注意力卷积网络组成的副歌提取模型中,输出概率曲线,再将自适应阈值策略应用于概率曲线中,在经由二值化后可以检测副歌。本发明能够减少对参数量以及计算资源的消耗,降低对先验知识的需求,从而提高副歌结构检测的准确性。
附图说明
图1为本发明提供的副歌结构检测方法的流程图。
图2为副歌模型输出的概率曲线示意图。
图3为自适应阈值曲线示意图。
图4为中值滤波处理后的曲线示意图。
具体实施方式
下面将通过实施例结合附图,对本发明的技术方案进一步说明。所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例提供一种副歌结构检测方法,如图1所示,方法包括:
步骤101:对待检测音乐进行特征提取,得到梅尔声谱图;
步骤102:将所述梅尔声谱图输入至副歌提取模型中,得到概率曲线;所述副歌提取模型包括多分辨率网络和自注意力卷积网络;所述概率曲线表示副歌存在与否的概率;
步骤103:采用自适应阈值策略对所述概率曲线进行处理,得到自适应阈值曲线;
步骤104:对所述自适应阈值曲线进行中值滤波处理,得中值滤波处理后的曲线;
步骤105:基于所述中值滤波处理后的曲线对待检测音乐的副歌进行检测。
进一步地,步骤101具体包括:
将流行音乐输入到梅尔滤波器组,经重采样至22050HZ,然后进行傅里叶变换,得到梅尔声谱图。
傅里叶变换为:
ft=wi*xt (1)
其中,ft是第t帧经傅里叶变换后的数值,xt是第t帧的傅立叶变换点矢量,wi是梅尔滤波器组的第i个频带(Bin)的权重。第i个频带的中的变化过程呈三角形,wi频带的大小根据梅尔标度变化而定。
进一步地,步骤102具体包括:
将提取出的梅尔声谱图输入到副歌特征提取模型中,经多分辨率网络进行特征融合。具体的,对于一个长为T的输入声谱图,首先在时间轴上对输入进行卷积核大小为T/3的下采样,得到两个不同尺度的中间特征,这两种尺度的特征大小分别为(128,T)和(128,T/3)。然后,将这些特征分别送入三个并行分支,进行主要由卷积层完成的中间层计算,得到三个维度为3的计算结果数组。在得到结果后,通过重采样以及连接操作(Concatenate,将得到的所有中间结果在最后一维拼接起来,如(1,5,1)与(1,5,3)连接,得到(1,5,4))来重复多尺度融合。对于每次连接操作,模型会在之前添加一个卷积核为1×3的卷积层,紧接着加入一个指数线性单元(ELU)作为激活函数,以保证每次重采样完成时通道数的一致。
也就是说,使用卷积层进行对特征的重新融合,在每个卷积层后,都进行一次批归一化。多分辨率网络通过沿通道维度的连接操作反复进行融合,这样每个分支中的特征都会收到来自不同分辨率的信息。最后,经过了多分辨率模块的中间特征能够初步地显示出任务所需要的副歌结构。然后,模型将多分辨率网络得到的中间结果(即初始特征)继续传播给自注意力卷积网络进行进一步的处理。
自注意力-卷积网络包括三个依次叠加的自注意力卷积模块,自注意力卷积模块包括一个自注意力模块和一个卷积层。
经多分辨率网络进行特征融合得到中间结果后,将中间结果输入到自注意力卷积网络,然后使用一个卷积核长度和以及步数(Strides)为N的一维卷积层用来将序列长度下采样为1/N(这也是期望的输出长度),其中N表示输入的梅尔声谱中的每秒帧数(frame persecond,fps)(在实践过程中,N=43)。最后,自注意力卷积网络使用stride=N的卷积层得到的目标时间序列,如形状为(1,256)的数组,256代表输入音频的秒数。添加一个Sigmoid函数将它们处理成概率曲线,代表每秒副歌段落的存在与否,概率曲线如图2所示。
进一步地,步骤103具体包括:
对每首流行歌曲输出的副歌结构原始曲线(即概率曲线)计算出一个合适的阈值以进行二值化操作。具体的:
假设y=(y1,...,yn)是上述模型输出的的原始概率曲线,输出的原始曲线为一维矢量,矢量中每个元素为0-1的整数,为将函数二值化,需要从原始曲线y中计算出对于这首流行乐曲理想的阈值T,有:
Figure BDA0004119026940000051
其中,ts是原始输出曲线在s处的理想阈值,动态阈值函数DT由以下公式给出:
Figure BDA0004119026940000052
其中,α是动态阈值的缩放参数,在本实施例中,将α设置为0.5。在使用经过计算的动态阈值后,副歌提取模型输出的极端情况能够大大地减少,得出更加符合现实情况与合理的表示副歌段落的自适应阈值曲线。
进一步地,步骤104具体包括:
算出自适应阈值曲线(如图3所示)之后,通过中值滤波器来平滑输出的矢量,具体的:
假设z=(z1,...,zn)是一个已被计算出自适应阈值曲线,且未被二值化的一维矢量,那么在经过中值滤波器后,得到的矢量m=(m1,...,mn)可以由以下公式定义:
mi=Med(zi-l,zi+l),l<i<k-L,
mi=zi, otherwise (4)
在式中,Med表示原始输出矢量在窗口(zi-l,...,zi,...,zi+l)内的截断平均值(Trimmed Mean);2L∈(0,n)则表示每个滤波器的窗口大小,L为设定的窗口大小,k为输出序列的长度。从图3中能够看出,在使用自适应阈值对模型原始输出曲线进行判定后,许多在副歌与非副歌段落有分化,但在固定阈值的情况下达不到阈值的情况有较大改善,而中值滤波器的引入,使得通过网络输入的原始曲线的锯齿得到了较大程度的平滑,中值滤波处理后的曲线如图4所示。
实施例2
为了执行上述实施例1对应的方法,以实现相应的功能和技术效果,下面提供一种副歌结构检测系统。
该系统包括:
特征提取模块,用于对待检测音乐进行特征提取,得到梅尔声谱图;
概率曲线确定模块,用于将所述梅尔声谱图输入至副歌提取模型中,得到概率曲线;所述副歌提取模型包括多分辨率网络和自注意力卷积网络;所述概率曲线表示副歌存在与否的概率;
自适应阈值处理模块,用于采用自适应阈值策略对所述概率曲线进行处理,得到自适应阈值曲线;
中值滤波处理模块,用于对所述自适应阈值曲线进行中值滤波处理,得中值滤波处理后的曲线;
副歌检测模块,用于基于所述中值滤波处理后的曲线对待检测音乐的副歌进行检测。
实施例3
本发明实施例3提供了一种电子设备,包括存储器及处理器,该存储器用于存储计算机程序,该处理器运行计算机程序以使电子设备执行实施例一的副歌结构检测方法。
上述电子设备可以是服务器。
实施例4
本发明实施例四提供一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现实施例一的副歌结构检测方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

Claims (9)

1.一种副歌结构检测方法,其特征在于,具体步骤为:
(1)对待检测音乐进行特征提取,得到梅尔声谱图;
(2)将所述梅尔声谱图输入至副歌提取模型中,得到概率曲线;所述副歌提取模型包括多分辨率网络和自注意力卷积网络;所述概率曲线表示副歌存在与否的概率;
(3)采用自适应阈值策略对所述概率曲线进行处理,得到自适应阈值曲线;
(4)对所述自适应阈值曲线进行中值滤波处理,得中值滤波处理后的曲线;
(5)基于所述中值滤波处理后的曲线对待检测音乐的副歌进行检测。
2.根据权利要求1所述的副歌结构检测方法,其特征在于,步骤(1)中所述对待检测音乐进行特征提取,得到梅尔声谱图,具体包括:
通过梅尔滤波器对所述待检测音乐进行重采样,然后进行傅里叶变换,得梅尔声谱图。
3.根据权利要求1所述的副歌结构检测方法,其特征在于,步骤(2)中所述将所述梅尔声谱图输入至副歌提取模型中,得到概率曲线,具体包括:
将所述梅尔声谱图输入至所述多分辨率网络中进行特征融合,得到初始特征;
将所述初始特征输入至所述自注意力卷积网络中,得到概率曲线。
4.根据权利要求3所述的副歌结构检测方法,其特征在于,所述自注意力卷积网络包括多个依次叠加的自注意力卷积模块;所述自注意力卷积模块包括一个自注意力模块和一个卷积层。
5.根据权利要求1所述的副歌结构检测方法,其特征在于,步骤(3)中所述采用自适应阈值策略对所述概率曲线进行处理,得到自适应阈值曲线,具体包括:
采用自适应阈值策略中的动态阈值函数,计算所述概率曲线的理想阈值;
基于所述理想阈值计算动态阈值函数;
基于所述动态阈值函数生成自适应阈值曲线。
6.根据权利要求5所述的副歌结构检测方法,其特征在于,步骤(3)的具体流程为:
对每首流行歌曲输出的副歌结构原始曲线即概率曲线计算出一个合适的阈值以进行二值化操作,具体为:
假设y=(y1,...,yn)是上述模型输出的的原始概率曲线,输出的原始曲线为一维矢量,矢量中每个元素为0-1的整数,为将函数二值化,从原始曲线y中计算出对于这首流行乐曲理想的阈值T,有:
Figure FDA0004119026910000011
其中,ts是原始输出曲线在s处的理想阈值,动态阈值函数DT由以下公式给出:
Figure FDA0004119026910000021
其中,α是动态阈值的缩放参数;在使用经过计算的动态阈值后,副歌提取模型输出的极端情况能够大大地减少,得出更加符合现实情况与合理的副歌段落输出。
7.一种副歌结构检测系统,其特征在于,包括:
特征提取模块,用于对待检测音乐进行特征提取,得到梅尔声谱图;
概率曲线确定模块,用于将所述梅尔声谱图输入至副歌提取模型中,得到概率曲线;所述副歌提取模型包括多分辨率网络和自注意力卷积网络;所述概率曲线表示副歌存在与否的概率;
自适应阈值处理模块,用于采用自适应阈值策略对所述概率曲线进行处理,得到自适应阈值曲线;
中值滤波处理模块,用于对所述自适应阈值曲线进行中值滤波处理,得中值滤波处理后的曲线;
副歌检测模块,用于基于所述中值滤波处理后的曲线对待检测音乐的副歌进行检测。
8.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1-5中任一项所述的副歌结构检测方法。
9.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的副歌结构检测方法。
CN202310227563.3A 2023-03-08 2023-03-08 一种副歌结构检测方法、系统、设备及存储介质 Pending CN116312633A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310227563.3A CN116312633A (zh) 2023-03-08 2023-03-08 一种副歌结构检测方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310227563.3A CN116312633A (zh) 2023-03-08 2023-03-08 一种副歌结构检测方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116312633A true CN116312633A (zh) 2023-06-23

Family

ID=86812669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310227563.3A Pending CN116312633A (zh) 2023-03-08 2023-03-08 一种副歌结构检测方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116312633A (zh)

Similar Documents

Publication Publication Date Title
KR102235568B1 (ko) 합성곱 신경망 기반 환경음 인식 방법 및 시스템
CN108172213B (zh) 娇喘音频识别方法、装置、设备及计算机可读介质
CN111400540B (zh) 一种基于挤压和激励残差网络的歌声检测方法
CN116958688B (zh) 一种基于YOLOv8网络的目标检测方法及系统
US20210074270A1 (en) Keyword spotting apparatus, method, and computer-readable recording medium thereof
CN114974292A (zh) 音频增强方法、装置、电子设备及可读存储介质
CN112581980A (zh) 时频通道注意力权重计算和向量化的方法和网络
CN110134852B (zh) 一种文档的去重方法、设备及可读介质
CN115083435A (zh) 音频数据处理方法、装置、计算机设备和存储介质
CN114783034B (zh) 基于局部敏感特征与全局特征融合的人脸表情识别方法
CN111709516A (zh) 神经网络模型的压缩方法及压缩装置、存储介质、设备
CN114399808A (zh) 一种人脸年龄估计方法、系统、电子设备及存储介质
CN117497008A (zh) 基于声门振动序列动态建模的语音情感识别方法和工具
CN114155868B (zh) 语音增强方法、装置、设备及存储介质
CN111680132A (zh) 一种用于互联网文本信息的噪声过滤和自动分类方法
CN115148195A (zh) 音频特征提取模型的训练方法和音频分类方法
CN109977947A (zh) 一种图像特征提取方法及装置
CN119360872A (zh) 一种基于生成对抗网络的人声增强降噪方法
CN116312633A (zh) 一种副歌结构检测方法、系统、设备及存储介质
CN114664313B (zh) 语音识别方法、装置、计算机设备、存储介质和程序产品
CN111489739A (zh) 音素识别方法、装置及计算机可读存储介质
CN114065868B (zh) 文本检测模型的训练方法、文本检测方法及装置
CN117174082A (zh) 语音唤醒模型的训练和执行方法、装置、设备及存储介质
Gillela Design of hardware CNN accelerators for audio and image classification
CN117672230A (zh) 声纹特征提取的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination