CN114724583A - 一种音乐片段的定位方法、装置、设备及存储介质 - Google Patents

一种音乐片段的定位方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114724583A
CN114724583A CN202110007734.2A CN202110007734A CN114724583A CN 114724583 A CN114724583 A CN 114724583A CN 202110007734 A CN202110007734 A CN 202110007734A CN 114724583 A CN114724583 A CN 114724583A
Authority
CN
China
Prior art keywords
music
feature matrix
matrix
frame
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110007734.2A
Other languages
English (en)
Inventor
华威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zitiao Network Technology Co Ltd
Original Assignee
Beijing Zitiao Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zitiao Network Technology Co Ltd filed Critical Beijing Zitiao Network Technology Co Ltd
Priority to CN202110007734.2A priority Critical patent/CN114724583A/zh
Priority to PCT/CN2021/132678 priority patent/WO2022148163A1/zh
Publication of CN114724583A publication Critical patent/CN114724583A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种音乐片段的定位方法、装置、设备及存储介质,所述方法包括:首先,提取原音乐和待定位音乐片段的色度特征矩阵,分别作为第一特征矩阵和第二特征矩阵。然后,确定第一特征矩阵中与第二特征矩阵的相似度大于预设阈值的子特征矩阵,并基于该子特征矩阵在第一特征矩阵中的位置信息,获取待定位音乐片段在原音乐中的定位信息。本公开通过分别提取待定位音乐片段和原音乐的色度特征矩阵,并基于二者的色度特征矩阵的相似度比较,实现了对待定位音乐片段在原音乐中位置的定位。另外,由于色度特征矩阵能够较好的体现音乐片段和原音乐的音乐相关特征,因此,本公开一定程度上能够保证音乐片段定位的准确性。

Description

一种音乐片段的定位方法、装置、设备及存储介质
技术领域
本公开涉及数据处理领域,尤其涉及一种音乐片段的定位方法、装置、设备及存储介质。
背景技术
随着音频处理技术的不断提高,针对音乐等各种类型的音频数据的处理需求不断增加。对音乐片段在原音乐中的位置进行定位,是目前存在的多种音频数据处理需求之一。
实际应用中,用户拿到一段音乐片段,而该音乐片段可能是从原音乐中截取之后加入了录音、音效等混音,导致该音乐片段与原音乐中的原始片段存在较大偏差,想要确定该音乐片段在原音乐中的具体对应位置比较困难。
因此,如何对上述音乐片段在原音乐中的位置进行定位,是目前亟待解决的技术问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种音乐片段的定位方法、装置、设备及存储介质,能够实现对音乐片段在原音乐中的位置进行定位。
第一方面,本公开提供了一种音乐片段的定位方法,所述方法包括:
提取原音乐的色度特征矩阵,作为第一特征矩阵;
以及,提取待定位音乐片段的色度特征矩阵,作为第二特征矩阵;其中,所述待定位音乐片段是基于所述原音乐得到的;
确定所述第一特征矩阵中与所述第二特征矩阵的相似度大于预设阈值的子特征矩阵;
基于所述子特征矩阵在所述第一特征矩阵中的位置信息,获取所述待定位音乐片段在所述原音乐中的定位信息。
一种可选的实施方式中,所述确定所述第一特征矩阵中与所述第二特征矩阵的相似度大于预设阈值的子特征矩阵,包括:
确定所述第一特征矩阵中与所述第二特征矩阵的相似度最大且大于预设阈值的子特征矩阵。
一种可选的实施方式中,所述确定所述第一特征矩阵中与所述第二特征矩阵的相似度最大且大于预设阈值的子特征矩阵,包括:
将所述第一特征矩阵和所述第二特征矩阵作为莫因相似度搜索MASS算法的输入参数,经过所述MASS算法的处理后,输出所述第一特征矩阵中与所述第二特征矩阵的相似度最大且大于预设阈值的子特征矩阵的位置信息。
一种可选的实施方式中,所述确定所述第一特征矩阵中与所述第二特征矩阵的相似度大于预设阈值的子特征矩阵,包括:
利用滑动对比的方式,确定所述第一特征矩阵中与所述第二特征矩阵的相似度大于预设阈值的子特征矩阵。
一种可选的实施方式中,所述提取原音乐的色度特征矩阵,作为第一特征矩阵,包括:
对原音乐进行时频转换后,按照预设窗口长度将所述原音乐划分为至少一个帧;其中,每一帧的长度等于所述预设窗口长度;
确定所述至少一个帧中每一帧对应的色度特征向量;
按照时间顺序,将所述至少一个帧中每一帧对应的色度特征向量进行组合,得到所述原音乐的色度特征矩阵,作为第一特征矩阵。
一种可选的实施方式中,所述提取待定位音乐片段的色度特征矩阵,作为第二特征矩阵,包括:
对待定位音乐片段进行时频转换后,按照预设窗口长度将所述待定位音乐片段划分为至少一个帧;其中,每个帧的长度等于所述预设窗口长度;
确定所述至少一个帧中每个帧对应的色度特征向量;
按照时间顺序,将所述至少一个帧中每个帧对应的色度特征向量进行组合,得到所述待定位音乐片段的色度特征矩阵,作为第二特征矩阵。
一种可选的实施方式中,所述确定所述至少一个帧中每个帧对应的色度特征向量,包括:
针对所述至少一个帧中的每一帧,分别确定不同八度在各个音级中的能量累加值,构成该帧对应的色度特征向量。
一种可选的实施方式中,所述基于所述子特征矩阵在所述第一特征矩阵中的位置信息,获取所述待定位音乐片段在所述原音乐中的定位信息,包括:
根据所述子特征矩阵在所述第一特征矩阵中的起始位置,确定所述原音乐中所述待定位音乐片段的开始时间点;
基于所述开始时间点和所述待定位音乐片段的长度,获取所述原音乐中与所述待定位音乐片段对应的时间段。
第二方面,本公开提供了一种音乐片段的定位装置,所述装置包括:
第一提取模块,用于提取原音乐的色度特征矩阵,作为第一特征矩阵;
第二提取模块,用于提取待定位音乐片段的色度特征矩阵,作为第二特征矩阵;其中,所述待定位音乐片段是基于所述原音乐得到的;
确定模块,用于确定所述第一特征矩阵中与所述第二特征矩阵的相似度大于预设阈值的子特征矩阵;
获取模块,用于基于所述子特征矩阵在所述第一特征矩阵中的位置信息,获取所述待定位音乐片段在所述原音乐中的定位信息。
第三方面,本公开提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现上述的方法。
第四方面,本公开提供了一种设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述的方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供了一种音乐片段的定位方法,首先提取原音乐的色度特征矩阵,作为第一特征矩阵,以及提取待定位音乐片段的色度特征矩阵,作为第二特征矩阵,其中,待定位音乐片段是基于原音乐得到的。然后,确定第一特征矩阵中与第二特征矩阵的相似度大于预设阈值的子特征矩阵,并基于该子特征矩阵在第一特征矩阵中的位置信息,获取待定位音乐片段在原音乐中的定位信息。本公开实施例通过分别提取待定位音乐片段和原音乐的色度特征矩阵,并基于二者的色度特征矩阵的相似度比较,实现了对待定位音乐片段在原音乐中位置的定位。
由于色度特征矩阵能够较好的体现音乐片段和原音乐的音色、乐器、和声、旋律等音乐相关的特征,因此,基于色度特征矩阵对音乐片段在原音乐中的位置进行定位,一定程度上能够保证定位的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种音乐片段的定位方法的流程图;
图2为本公开实施例提供的一种滑动对比的示意图;
图3为本公开实施例提供的另一种音乐片段的定位方法的流程图;
图4为本公开实施例提供的一种音乐片段的定位装置结构框图;
图5为本公开实施例提供的一种音乐片段的定位设备结构框图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
本公开实施例中的音乐片段的定位,是指对音乐片段在原音乐中的位置进行定位。
一种应用场景中,假设原音乐为a,从a中截取一个片段b作为短视频的背景音乐,同时该短视频中还可以包括用户录制的声音、添加的音效的声音等混音,最终该短视频中的背景音乐b、用户录制的声音和音效等声音共同构成音频c。
针对上述应用场景,本公开实施例可以实现对片段b在原音乐a中的位置进行定位,还可以实现对包括混音的音频c在原音乐a中的位置进行定位。
目前,对音乐片段在原音乐中的位置进行定位的方法中,通常是基于频谱特征矩阵实现的。具体的,首先分别提取音乐片段和原音乐的频谱特征矩阵,然后确定原音乐的频谱特征矩阵中与音乐片段的频谱特征矩阵之间的差异最小的位置,最终基于该位置对音乐片段在原音乐中的位置进行定位。
但是,由于频谱特征矩阵通常采用STFT短时傅里叶变换提取得到,而基于STFT提取到的特征往往不符合音乐的特点,因此基于STFT提取得到的频谱特征矩阵无法体现出原音乐和音乐片段的音乐相关的特征,导致基于频谱特征矩阵对音乐片段在原音乐中位置的定位结果的准确性较低。
为此,本公开实施例提供了一种音乐片段的定位方法,通过提取原音乐和音乐片段的色度特征矩阵的方式,实现对音乐片段的定位。由于色度特征矩阵能够较好的体现音乐片段和原音乐的音色、乐器、和声、旋律等音乐相关的特征,因此,相比于频谱特征矩阵,本公开实施例基于色度特征矩阵对音乐片段在原音乐中的位置进行定位,一定程度上能够提高定位的准确性。
具体的,本公开提供的音乐片段的定位方法中,首先提取原音乐的色度特征矩阵,作为第一特征矩阵,以及提取待定位音乐片段的色度特征矩阵,作为第二特征矩阵,其中,待定位音乐片段是基于原音乐得到的。然后,确定第一特征矩阵中与第二特征矩阵的相似度大于预设阈值的子特征矩阵,并基于该子特征矩阵在第一特征矩阵中的位置信息,获取待定位音乐片段在原音乐中的定位信息。本公开实施例通过分别提取待定位音乐片段和原音乐的色度特征矩阵,并基于二者的色度特征矩阵的相似度比较,实现了对待定位音乐片段在原音乐中位置的定位。另外,本公开实施例基于色度特征矩阵对音乐片段在原音乐中的位置进行定位,一定程度上能够保证定位的准确性。
基于此,本公开实施例提供了一种音乐片段的定位方法,参考图1,为本公开实施例提供的一种音乐片段的定位方法的流程图,该方法包括:
S101:提取原音乐的色度特征矩阵,作为第一特征矩阵。
色度Chroma特征与音乐中的12个音高类别关系紧密,音乐的Chroma特征能够捕捉到该音乐中的和声和旋律的特征,同时对该音乐中的音色和乐器的变化具有较强的适应性,能够体现出该音乐中的音色和乐器的变化。因此,通过提取原音乐的色度特征,能够提取到原音乐中音乐相关的特征,其中,音乐相关的特征可以包括音色、乐器、和声、旋律等特征。
实际应用中,音乐中的一个音高可以分成两个部分,具体包括色调高度toneheight和色度Chroma,其中,Chroma是一个包含12个元素的向量,这些元素分别代表一段时间(如1帧)内12个音级中的能量,具体为不同八度的同一音级能量的累加。12个音级也就是乐理知识中的“十二平均律”。
一种可选的提取原音乐的色度特征矩阵的方式中,首先对原音乐进行时频转换,然后按照预设窗口长度将原音乐划分为至少一个帧,每个帧的长度等于预设窗口的长度。其次,确定每一帧对应的色度特征向量,最终按照时间顺序,将原音乐的每一帧对应色度特征向量进行组成,得到原音乐的色度特征矩阵。
其中,确定每一帧对应的色度特征向量的方式中,针对原音乐对应的至少一个帧中的每一帧,分别确定不同八度在各个音级中的能量累加值,构成该帧对应的色度特征向量。实际应用中,通常确定不同八度在12个音级中的能量累加值,构成该帧对应的色度特征向量,其中,该色度特征向量中的元素为12个音级对应的能量累积值。
S102:提取待定位音乐片段的色度特征矩阵,作为第二特征矩阵。
本公开实施例中,待定位音乐片段是基于原音乐得到的。具体的,待定位音乐片段可以是原音乐中的其中一个音乐片段,待定位音乐片段也可以是包含了混音等噪声的原音乐中的其中一个音乐片段。
与原音乐的色度特征矩阵提取方式类似的,一种可选的提取待定位音乐片段的色度特征矩阵的方式中,首先对待定位音乐进行时频转换,然后按照预设窗口长度将原音乐划分为至少一个帧,每个帧的长度等于预设窗口的长度。其次,确定每一帧对应的色度特征向量,最终按照时间顺序,将待定位音乐的每一帧对应色度特征向量进行组成,得到待定位音乐的色度特征矩阵。
其中,确定每一帧对应的色度特征向量的方式中,针对待定位音乐对应的至少一个帧中的每一帧,分别确定不同八度在各个音级中的能量累加值,构成该帧对应的色度特征向量。实际应用中,通常确定不同八度在12个音级中的能量累加值,构成该帧对应的色度特征向量,其中,该色度特征向量中的元素为12个音级对应的能量累积值。
值得注意的是,本公开实施例中的S101和S102之间的执行顺序不受限制。
一种应用场景中,待定位音乐片段是包含了混音等噪声的原音乐中的其中一个音乐片段,事实上,这种情况下待定位音乐片段中的噪声可能会对音频片段定位结果的准确性造成影响,而Chroma特征对音乐中音色的变化比较敏感,能够降低噪声对定位的影响,因此提取待定位音乐片段的Chroma特征矩阵,用于对带有噪声的音乐片段进行定位,能够提高定位结果的准确性。
S103:确定所述第一特征矩阵中与所述第二特征矩阵的相似度大于预设阈值的子特征矩阵。
本公开实施例中,在分别提取到原音乐的第一特征矩阵和待定位音乐片段的第二特征矩阵之后,进一步的确定第一特征矩阵中与第二特征矩阵的相似度大于预设阈值的子特征矩阵。其中,预设阈值可以根据需求进行设定,通常为90%以上的值。
一种可选的实施方式中,可以利用滑动对比的方式,确定第一特征矩阵中与第二特征矩阵的相似度大于预设阈值的子特征矩阵。如图2所示,为本公开实施例提供的一种滑动对比的示意图,其中,从第一特征矩阵的index0的位置开始,从第一特征矩阵中确定出一个与第二特征矩阵大小相同的子特征矩阵,然后将其与第二特征矩阵进行对比,具体为计算两者之间的差异,换个角度描述也可以为计算两者之间的相似性。其次,向右滑动以确定出第一特征矩阵中的另一个子特征矩阵,继续与第二特征矩阵进行对比,按照上述方式滑动对比,直到滑动到第一特征矩阵的最后一个子特征矩阵完成对比即可,最终确定出相似度大于预设阈值的子特征矩阵,换个角度描述也可以为确定出差异大于阈值的子特征矩阵。
实际应用中,第一特征矩阵中与第二特征矩阵的相似度大于预设阈值的子特征矩阵可以为一个,也可以为多个。针对上述子特征矩阵为多个的情况,可以为原音乐中包括多个与待定位音乐片段具有对应关系的音乐片段,如待定位音乐片段为副歌部分,而作为一首歌曲的原音乐中可能包括多个副歌部分。可以理解的是,相似度越高,对应的子特征矩阵用于音乐片段的定位中,得到的结果越准确。
S104:基于所述子特征矩阵在所述第一特征矩阵中的位置信息,获取所述待定位音乐片段在所述原音乐中的定位信息。
本公开实施例中,在确定第一特征矩阵中与第二特征矩阵的相似度大于预设阈值的子特征矩阵之后,基于该子特征矩阵在第一特征矩阵中的位置信息,获取待定位音乐片段在原音乐中的定位信息。
实际应用中,在确定子特征矩阵的位置信息之后,将该位置信息转换为该子特征矩阵对应的原音乐中的时间信息,假设该子特征矩阵中元素的最小下标为i=10,采样算法中采样率sr=44100,且采用的跳跃大小(hop size)hs=1024,则将位置信息转换为该子特征矩阵对应的原音乐中的时间信息t=i*hs/sr=10*1024/44100=0.23秒。在确定子特征矩阵对应的原音乐中的时间信息之后,基于该时间信息可以对待定位音乐片段在原音乐中的位置进行定位。如上示例,待定位音乐片段正在原音乐中的开始时间点为0.23秒的位置。
一种可选的实施方式中,可以根据子特征矩阵在第一特征矩阵中的起始位置,确定原音乐中待定位音乐片段的开始时间点。然后,基于开始时间点和待定位音乐片段的长度,获取原音乐中与待定位音乐片段对应的时间段,即为待定位音乐片段在原音乐中的定位信息。
另一种可选的实施方式中,也可以根据子特征矩阵在第一特征矩阵中的起始位置和结束位置,确定原音乐中待定位音乐片段的开始时间点和结束时间点。然后,将开始时间点和结束时间点确定的时间段,确定为原音乐中与待定位音乐片段对应的时间段。
本公开实施例对于确定待定位音乐片段在原音乐中的定位信息的方式不做限定。
本公开实施例提供的音乐片段的定位方法中,首先提取原音乐的色度特征矩阵,作为第一特征矩阵,以及提取待定位音乐片段的色度特征矩阵,作为第二特征矩阵,其中,待定位音乐片段是基于原音乐得到的。然后,确定第一特征矩阵中与第二特征矩阵的相似度大于预设阈值的子特征矩阵,并基于该子特征矩阵在第一特征矩阵中的位置信息,获取待定位音乐片段在原音乐中的定位信息。本公开实施例通过分别提取待定位音乐片段和原音乐的色度特征矩阵,并基于二者的色度特征矩阵的相似度比较,实现了对待定位音乐片段在原音乐中位置的定位。
由于色度特征矩阵能够较好的体现音乐片段和原音乐的音色、乐器、和声、旋律等音乐相关的特征,因此,基于色度特征矩阵对音乐片段在原音乐中的位置进行定位,一定程度上能够保证定位的准确性。
在上述实施例的基础上,本公开还提供了一种音乐片段的定位方法,参考图3,为本公开实施例提供的另一种音乐片段的定位方法流程图,该方法包括:
S301:提取原音乐的色度特征矩阵,作为第一特征矩阵。
S302:提取待定位音乐片段的色度特征矩阵,作为第二特征矩阵。
S303:确定所述第一特征矩阵中与所述第二特征矩阵的相似度最大且大于预设阈值的子特征矩阵。
为了提高定位的准确性,本公开实施例可以仅确定出第一特征矩阵中与第二特征矩阵的相似度最大且大于预设阈值的子特征矩阵,用于对待定位音乐片段在原音乐中的位置进行定位。如图2所示的滑动对比中,可以仅确定出index4对应的子特征矩阵。
一种可选的实施方式中,可以利用莫因相似度搜索(英文:Mueen's Algorithmfor Similarity Search;简称MASS)算法确定第一特征矩阵中与第二特征矩阵的相似度最大且大于预设阈值的子特征矩阵。具体的,将第一特征矩阵和第二特征矩阵作为MASS算法的输入参数,经过MASS算法的处理后,输出第一特征矩阵中与第二特征矩阵的相似度最大且大于预设阈值的子特征矩阵的位置信息。
由于MASS算法对输入的第一特征矩阵和第二特征矩阵进行了傅里叶变换FFT,同时基于欧拉距离确定出第一特征矩阵中与第二特征矩阵的相似度最大且大于预设阈值的子特征矩阵,无需进行多次滑动对比,因此,采用MASS算法能够提高子特征矩阵的确定效率,最终提高了音乐片段的定位效率。针对MASS算法的原理在此不再过多说明。
S304:基于所述子特征矩阵在所述第一特征矩阵中的位置信息,获取所述待定位音乐片段在所述原音乐中的定位信息。
本公开实施例中的S301、S302和S304可参照上述实施例中的S101、S102和S104进行理解,在此不再赘述。
本公开实施例提供的音乐片段的定位方法中,由于确定的子特征矩阵是第一特征矩阵中与第二特征矩阵的相似度最大且大于预设阈值的子特征矩阵,因此,基于该子特征矩阵在第一特征矩阵中的位置信息,对待定位音乐片段在原音乐中的位置进行定位的结果更准确。
与上述方法实施例基于同一个发明构思,本公开还提供了一种音乐片段的定位装置,参考图4,为本公开实施例提供的一种音乐片段的定位装置,所述装置包括:
第一提取模块401,用于提取原音乐的色度特征矩阵,作为第一特征矩阵;
第二提取模块402,用于提取待定位音乐片段的色度特征矩阵,作为第二特征矩阵;其中,所述待定位音乐片段是基于所述原音乐得到的;
确定模块403,用于确定所述第一特征矩阵中与所述第二特征矩阵的相似度大于预设阈值的子特征矩阵;
获取模块404,用于基于所述子特征矩阵在所述第一特征矩阵中的位置信息,获取所述待定位音乐片段在所述原音乐中的定位信息。
一种可选的实施方式中,所述确定模块,具体用于:
确定所述第一特征矩阵中与所述第二特征矩阵的相似度最大且大于预设阈值的子特征矩阵。
一种可选的实施方式中,所述确定模块,具体用于:
将所述第一特征矩阵和所述第二特征矩阵作为MASS算法的输入参数,经过所述MASS算法的处理后,输出所述第一特征矩阵中与所述第二特征矩阵的相似度最大且大于预设阈值的子特征矩阵的位置信息。
一种可选的实施方式中,所述确定模块,具体用于:
利用滑动对比的方式,确定所述第一特征矩阵中与所述第二特征矩阵的相似度大于预设阈值的子特征矩阵。
一种可选的实施方式中,所述第一提取模块,包括:
第一划分子模块,用于对原音乐进行时频转换后,按照预设窗口长度将所述原音乐划分为至少一个帧;其中,每一帧的长度等于所述预设窗口长度;
第一确定子模块,用于确定所述至少一个帧中每一帧对应的色度特征向量;
第一组合子模块,用于按照时间顺序,将所述至少一个帧中每一帧对应的色度特征向量进行组合,得到所述原音乐的色度特征矩阵,作为第一特征矩阵。
一种可选的实施方式中,所述第二提取模块,包括:
第二划分子模块,用于对待定位音乐片段进行时频转换后,按照预设窗口长度将所述待定位音乐片段划分为至少一个帧;其中,所述至少一个帧中每个帧的长度等于所述预设窗口长度;
第二确定子模块,用于确定所述至少一个帧中每个帧对应的色度特征向量;
第二组合子模块,用于按照时间顺序,将所述至少一个帧中每个帧对应的色度特征向量进行组合,得到所述待定位音乐片段的色度特征矩阵,作为第二特征矩阵。
一种可选的实施方式中,所述第一确定模块或所述第二确定模块,具体用于:
针对所述至少一个帧中的每一帧,分别确定不同八度在各个音级中的能量累加值,构成该帧对应的色度特征向量。
一种可选的实施方式中,所述获取模块,包括:
第三确定子模块,用于根据所述子特征矩阵在所述第一特征矩阵中的起始位置,确定所述原音乐中所述待定位音乐片段的开始时间点;
获取子模块,用于基于所述开始时间点和所述待定位音乐片段的长度,获取所述原音乐中与所述待定位音乐片段对应的时间段。
本公开实施例提供的音乐片段的定位装置,首先提取原音乐的色度特征矩阵,作为第一特征矩阵,以及提取待定位音乐片段的色度特征矩阵,作为第二特征矩阵,其中,待定位音乐片段是基于原音乐得到的。然后,确定第一特征矩阵中与第二特征矩阵的相似度大于预设阈值的子特征矩阵,并基于该子特征矩阵在第一特征矩阵中的位置信息,获取待定位音乐片段在原音乐中的定位信息。本公开实施例通过分别提取待定位音乐片段和原音乐的色度特征矩阵,并基于二者的色度特征矩阵的相似度比较,实现了对待定位音乐片段在原音乐中位置的定位。
由于色度特征矩阵能够较好的体现音乐片段和原音乐的音色、乐器、和声、旋律等音乐相关的特征,因此,基于色度特征矩阵对音乐片段在原音乐中的位置进行定位,一定程度上能够保证定位的准确性。
另外,本公开实施例还提供了一种音乐片段的定位设备,参见图5所示,可以包括:
处理器501、存储器502、输入装置503和输出装置504。音乐片段的定位设备中的处理器501的数量可以一个或多个,图5中以一个处理器为例。在本公开的一些实施例中,处理器501、存储器502、输入装置503和输出装置504可通过总线或其它方式连接,其中,图5中以通过总线连接为例。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行音乐片段的定位设备的各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置503可用于接收输入的数字或字符信息,以及产生与音乐片段的定位设备的用户设置以及功能控制有关的信号输入。
具体在本实施例中,处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现上述音乐片段的定位设备的各种功能。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种音乐片段的定位方法,其特征在于,所述方法包括:
提取原音乐的色度特征矩阵,作为第一特征矩阵;
以及,提取待定位音乐片段的色度特征矩阵,作为第二特征矩阵;其中,所述待定位音乐片段是基于所述原音乐得到的;
确定所述第一特征矩阵中与所述第二特征矩阵的相似度大于预设阈值的子特征矩阵;
基于所述子特征矩阵在所述第一特征矩阵中的位置信息,获取所述待定位音乐片段在所述原音乐中的定位信息。
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一特征矩阵中与所述第二特征矩阵的相似度大于预设阈值的子特征矩阵,包括:
确定所述第一特征矩阵中与所述第二特征矩阵的相似度最大且大于预设阈值的子特征矩阵。
3.根据权利要求2所述的方法,其特征在于,所述确定所述第一特征矩阵中与所述第二特征矩阵的相似度最大且大于预设阈值的子特征矩阵,包括:
将所述第一特征矩阵和所述第二特征矩阵作为莫因相似度搜索算法的输入参数,经过所述莫因相似度搜索算法的处理后,输出所述第一特征矩阵中与所述第二特征矩阵的相似度最大且大于预设阈值的子特征矩阵的位置信息。
4.根据权利要求1所述的方法,其特征在于,所述确定所述第一特征矩阵中与所述第二特征矩阵的相似度大于预设阈值的子特征矩阵,包括:
利用滑动对比的方式,确定所述第一特征矩阵中与所述第二特征矩阵的相似度大于预设阈值的子特征矩阵。
5.根据权利要求1所述的方法,其特征在于,所述提取原音乐的色度特征矩阵,作为第一特征矩阵,包括:
对所述原音乐进行时频转换后,按照预设窗口长度将所述原音乐划分为至少一个帧;其中,所述至少一个帧中每一帧的长度等于所述预设窗口长度;
确定所述至少一个帧中每一帧对应的色度特征向量;
按照时间顺序,将所述至少一个帧中每一帧对应的色度特征向量进行组合,得到所述原音乐的色度特征矩阵,作为第一特征矩阵。
6.根据权利要求1所述的方法,其特征在于,所述提取待定位音乐片段的色度特征矩阵,作为第二特征矩阵,包括:
对所述待定位音乐片段进行时频转换后,按照预设窗口长度将所述待定位音乐片段划分为至少一个帧;其中,所述至少一个帧中每个帧的长度等于所述预设窗口长度;
确定所述至少一个帧中每个帧对应的色度特征向量;
按照时间顺序,将所述至少一个帧中每个帧对应的色度特征向量进行组合,得到所述待定位音乐片段的色度特征矩阵,作为第二特征矩阵。
7.根据权利要求5或6所述的方法,其特征在于,所述确定所述至少一个帧中每个帧对应的色度特征向量,包括:
针对所述至少一个帧中的每一帧,分别确定不同八度在各个音级中的能量累加值,构成该帧对应的色度特征向量。
8.一种音乐片段的定位装置,其特征在于,所述装置包括:
第一提取模块,用于提取原音乐的色度特征矩阵,作为第一特征矩阵;
第二提取模块,用于提取待定位音乐片段的色度特征矩阵,作为第二特征矩阵;其中,所述待定位音乐片段与所述原音乐中的音乐片段具有对应关系;
确定模块,用于确定所述第一特征矩阵中与所述第二特征矩阵的相似度大于预设阈值的子特征矩阵;
获取模块,用于基于所述子特征矩阵在所述第一特征矩阵中的位置信息,获取所述待定位音乐片段在所述原音乐中的定位信息。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现如权利要求1-7任一项所述的方法。
10.一种设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-7任一项所述的方法。
CN202110007734.2A 2021-01-05 2021-01-05 一种音乐片段的定位方法、装置、设备及存储介质 Pending CN114724583A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110007734.2A CN114724583A (zh) 2021-01-05 2021-01-05 一种音乐片段的定位方法、装置、设备及存储介质
PCT/CN2021/132678 WO2022148163A1 (zh) 2021-01-05 2021-11-24 一种音乐片段的定位方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110007734.2A CN114724583A (zh) 2021-01-05 2021-01-05 一种音乐片段的定位方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114724583A true CN114724583A (zh) 2022-07-08

Family

ID=82234213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110007734.2A Pending CN114724583A (zh) 2021-01-05 2021-01-05 一种音乐片段的定位方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN114724583A (zh)
WO (1) WO2022148163A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294947B (zh) * 2022-07-29 2024-06-11 腾讯科技(深圳)有限公司 音频数据处理方法、装置、电子设备及介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4788810B2 (ja) * 2009-08-17 2011-10-05 ソニー株式会社 楽曲同定装置及び方法、楽曲同定配信装置及び方法
CN105138617A (zh) * 2015-08-07 2015-12-09 中国人民大学 一种音乐自动定位和注解系统及方法
CN106528706B (zh) * 2016-10-26 2020-02-07 北京邮电大学 音乐检索方法及装置
CN106919662B (zh) * 2017-02-14 2021-08-31 复旦大学 一种音乐识别方法及系统
CN110147843A (zh) * 2019-05-22 2019-08-20 哈尔滨工程大学 基于度量学习的语音时序数据相似性度量方法
CN111986698B (zh) * 2019-05-24 2023-06-30 腾讯科技(深圳)有限公司 音频片段的匹配方法、装置、计算机可读介质及电子设备
CN111309962B (zh) * 2020-01-20 2023-05-16 抖音视界有限公司 提取音频片段的方法、装置以及电子设备
CN111400543B (zh) * 2020-03-20 2023-10-10 腾讯科技(深圳)有限公司 音频片段的匹配方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2022148163A1 (zh) 2022-07-14

Similar Documents

Publication Publication Date Title
RU2743315C1 (ru) Способ классификации музыки и способ детектирования долей музыкального такта, носитель данных и компьютерное устройство
EP2659480B1 (en) Repetition detection in media data
US20120103166A1 (en) Signal Processing Device, Signal Processing Method, and Program
JP5732994B2 (ja) 楽曲検索装置および方法、プログラム、並びに記録媒体
US10497348B2 (en) Evaluation device and evaluation method
CN110246472B (zh) 一种音乐风格的转换方法、装置及终端设备
CN111901538B (zh) 一种字幕生成方法、装置、设备及存储介质
US9570060B2 (en) Techniques of audio feature extraction and related processing apparatus, method, and program
Park et al. Harmonic-Percussive Source Separation Using Harmonicity and Sparsity Constraints.
US20240346073A1 (en) Methods and apparatus to identify media
CN114724583A (zh) 一种音乐片段的定位方法、装置、设备及存储介质
CN111863030B (zh) 音频检测方法及装置
CN111243618B (zh) 用于确定音频中的特定人声片段的方法、装置和电子设备
WO2017195292A1 (ja) 楽曲構造解析装置、楽曲構造解析方法および楽曲構造解析プログラム
CN110136677B (zh) 乐音控制方法及相关产品
EP3860156A1 (en) Information processing device, method, and program
Gao et al. Popular song summarization using chorus section detection from audio signal
Degani et al. Comparison of tuning frequency estimation methods
US11877128B2 (en) Audio signal processing method, apparatus, and program
CN112908289B (zh) 节拍确定方法、装置、设备和存储介质
US20240354339A1 (en) Methods and apparatus to identify media that has been pitch shifted, time shifted, and/or resampled
Pauwels et al. Improving the key extraction performance of a simultaneous local key and chord estimation system
CN116781944A (zh) 歌曲检测方法、装置、设备及可读存储介质
CN113742513A (zh) 歌单调整方法、装置、设备以及计算机可读存储介质
CN117037837A (zh) 基于音轨分离技术的噪声分离方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination