CN111863030A - 音频检测方法及装置 - Google Patents
音频检测方法及装置 Download PDFInfo
- Publication number
- CN111863030A CN111863030A CN202010754237.4A CN202010754237A CN111863030A CN 111863030 A CN111863030 A CN 111863030A CN 202010754237 A CN202010754237 A CN 202010754237A CN 111863030 A CN111863030 A CN 111863030A
- Authority
- CN
- China
- Prior art keywords
- audio
- chord
- audios
- detected
- trend
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 11
- 230000008451 emotion Effects 0.000 abstract description 17
- 230000002349 favourable effect Effects 0.000 abstract description 4
- 238000005065 mining Methods 0.000 abstract description 4
- 238000004590 computer program Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000011295 pitch Substances 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本申请实施例公开了一种音频检测方法及装置,属于媒体技术领域。在本申请实施例中,通过两个待检测音频的调式特征和和弦特征来检测两个待检测音频是否为相似音频。由于音频的调式特征和和弦特征能够反映音频的旋律以及歌唱者的情感,因此,基于调式特征和和弦特征能够检测出两个音频在旋律和情感上是否相似,如此,使得相似音频的检测更为多样,有利于后续应用该检测结果更好的进行歌曲挖掘或推荐等。
Description
技术领域
本申请涉及媒体技术领域,特别涉及一种音频检测方法及装置。
背景技术
当前,相似音频检测被广泛的应用于各种音乐相关业务中。例如,通过检测两个音频之间的相似性,能够挖掘潜力热歌、或者是为用户推荐歌曲、查找相似歌曲等。相关技术中常用的相似音频检测方法是:通过傅里叶变换来生成两个音频的音频特征,进而计算两个音频的音频特征之间的相似度,根据相似度的大小来确定两个音频是否为相似音频。然而,通过该种检测方法得到的相似音频不能代表情感和旋律上的相似。
发明内容
本申请实施例提供了一种音频检测方法及装置,能够检测出两个音频在旋律和情感上是否相似。所述技术方案如下:
一方面,提供了一种音频检测方法,所述方法包括:
获取两个待检测音频中每个音频的调式特征和和弦特征;
根据每个音频的调式特征和和弦特征,确定相应音频的和弦走向;
根据每个音频的和弦走向,检测所述两个待检测音频是否为相似音频。
可选地,所述和弦特征包括多个和弦,所述根据每个音频的调式特征和和弦特征,确定相应音频的和弦走向,包括:
从存储的调式、和弦与音乐级数的映射关系中,获取每个音频的调式特征下与相应音频的和弦特征包括的每个和弦所对应的音乐级数;
将确定的每个音频的多个音乐级数所组成的字符串作为相应音频的和弦走向。
可选地,所述根据每个音频的和弦走向,检测所述两个待检测音频是否为相似音频,包括:
根据每个音频的和弦走向,确定相应音频的核心和弦走向;
根据每个音频的核心和弦走向,检测所述两个待检测音频是否为相似音频。
可选地,所述根据每个音频的和弦走向,确定相应音频的核心和弦走向,包括:
对每个音频的和弦走向进行分段处理,得到相应音频对应的多个分段和弦走向;
从每个音频对应的多个分段和弦走向中获取相应音频的最长公共子串,所述最长公共子串是指所述多个分段和弦中包括的最长的相同子串;
将每个音频的最长公共子串作为相应音频的核心和弦走向。
可选地,所述根据每个音频的核心和弦走向,检测所述两个待检测音频是否为相似音频,包括:
计算所述两个待检测音频的核心和弦走向之间的距离;
当所述两个待检测音频的核心和弦走向之间的距离小于参考阈值时,确定所述两个待检测音频为相似音频。
另一方面,提供了一种音频检测装置,所述装置包括:
获取模块,用于获取两个待检测音频中每个音频的调式特征和和弦特征;
确定模块,用于根据每个音频的调式特征和和弦特征,确定相应音频的和弦走向;
检测模块,用于根据每个音频的和弦走向,检测所述两个待检测音频是否为相似音频。
可选地,所述和弦特征包括多个和弦,所述确定模块包括:
获取子模块,用于从存储的调式、和弦与音乐级数的映射关系中,获取每个音频的调式特征下与相应音频的和弦特征包括的每个和弦所对应的音乐级数;
第一确定子模块,用于将确定的每个音频的多个音乐级数所组成的字符串作为相应音频的和弦走向。
可选地,所述检测模块包括:
第二确定子模块,用于根据每个音频的和弦走向,确定相应音频的核心和弦走向;
检测子模块,用于根据每个音频的核心和弦走向,检测所述两个待检测音频是否为相似音频。
可选地,所述第二确定子模块用于:
对每个音频的和弦走向进行分段处理,得到相应音频对应的多个分段和弦走向;
从每个音频对应的多个分段和弦走向中获取相应音频的最长公共子串,所述最长公共子串是指所述多个分段和弦中包括的最长的相同子串;
将每个音频的最长公共子串作为相应音频的核心和弦走向。
可选地,所述检测子模块用于:
计算所述两个待检测音频的核心和弦走向之间的距离;
当所述两个待检测音频的核心和弦走向之间的距离小于参考阈值时,确定所述两个待检测音频为相似音频。
另一方面,提供了一种音频检测装置,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器执行所述存储器中的可执行指令来执行上述音频检测方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述所述音频检测方法的步骤。
另一方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述的音频检测方法的步骤。
本申请实施例提供的技术方案带来的有益效果至少包括:
在本申请实施例中,通过两个待检测音频的调式特征和和弦特征来检测两个待检测音频是否为相似音频。由于音频的调式特征和和弦特征能够反映音频的旋律以及歌唱者的情感,因此,基于调式特征和和弦特征能够检测出两个音频在旋律和情感上是否相似,如此,使得相似音频的检测更为多样,有利于后续应用该检测结果更好的进行歌曲挖掘或推荐等。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种音频检测方法流程图;
图2是本申请实施例提供的一种根据两个音频的和弦走向检测两个音频是否为相似音频的流程图;
图3是本申请实施例提供的一种音频检测装置的结构示意图;
图4是本申请实施例提供的一种确定模块的结构示意图;
图5是本申请实施例提供的一种检测模块的结构示意图;
图6是本申请实施例提供的一种用于进行音频检测的服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在对本申请实施例进行详细的解释说明之前,先对本申请实施例涉及的应用场景进行介绍。
当前,相似音频检测被广泛的应用于各种音乐相关业务中。例如,当某个音频深受广大用户的喜爱时,通过检测与该音频相似的音频,能够挖掘出潜在的其他可能受到广大用户的喜爱的音频。再例如,用户在收听音乐的过程中,可能会对喜欢的音乐进行标记。在这种情况下,检测与用户标记的音乐相似的音乐,进而向用户推荐该音乐,如此,能够提高推荐准确率。再例如,当用户在听到一首歌曲时,想要搜索与该歌曲相似的其他歌曲,此时,也可以通过相似音频检测方法来查找与该歌曲相似的歌曲,进而将其推送给该用户。本申请实施例提供的音频检测方法即能够应用于上述场景中,用于检测两个音频是否为相似音频。
接下来对本申请实施例提供的音频检测方法进行介绍。
图1是本申请实施例提供的一种音频检测方法。该方法可以应用于电子设备中,该电子设备可能为智能手机、平板电脑等终端,也可能为服务器,本申请实施例以该电子设备为服务器为例来进行说明。如图1所示,该方法包括以下步骤:
步骤101:获取两个待检测音频中每个音频的调式特征和和弦特征。
根据应用场景的不同,两个待检测音频的来源可能不同。在一种可能的场景中,两个待检测音频是指曲库中存储的音频中任意两个需要检测相似性的音频。或者,在一些可能的场景中,两个待检测音频中的一个音频是用户上传或者选择的音频,另一个音频是曲库中任意一个需要检测与前述的用户上传或选择的音频是否相似的音频。本申请实施例不对待检测音频的来源做限定。另外,为了方便后续说明,将两个待检测音频分别称为第一音频和第二音频。
在本申请实施例中,服务器分别提取第一音频和第二音频的调式特征和和弦特征。
需要说明的是,音频的和弦特征包括该音频的多个和弦。和弦是指组合在一起的两个或更多不同音高的音。音频的调式特征是指该音频的调式。在音乐中,按照一定关系连接在一起的多个音,组成一个体系,并以一个音为中心,这个音为主音,而这个体系就称为该音频的调式。和弦和调式能够在一定程度上反映歌唱者的情感和旋律。其中,和弦包括C:maj、Cm、Cdim等等。调式包括C大调、G大调、a小调等等,本申请实施例对此不再赘述。
以第一音频为例,服务器将第一音频进行傅里叶变换,从而将第一音频从时域变换到频域,得到第一音频的频谱。之后,服务器对第一音频的频谱进行诸如降噪等前处理,并对前处理后的第一音频的频谱进行调谐处理。之后,按照预设时间窗大小,将第一音频的频谱划分为多个帧,记录每个音高在每一帧内的能量,从而得到第一音频的音高图谱。之后,基于该音高图谱,将同一时间、同一音级、不同八度的音符的能量叠加到色度向量内相应音级对应的元素上,从而得到第一音频的Chroma(色度)图谱,之后,根据第一音频的Chroma图谱上各个音级的亮度确定第一音频的和弦特征和调式特征。
对于第二音频,服务器采用相同方式确定第二音频的和弦特征和调式特征。
步骤102:根据每个音频的调式特征和和弦特征,确定相应音频的和弦走向。
在确定得到每个音频的调式特征和和弦特征之后,服务器从存储的调式、和弦与音乐级数的映射关系中,获取每个音频的调式特征下与相应音频的和弦特征包括的每个和弦所对应的音乐级数;将确定的每个音频的多个音乐级数所组成的字符串作为相应音频的和弦走向。
其中,音乐级数是指音乐中音级的数目。在本申请实施例中,服务器中存储有调式、和弦与音乐级数之间的映射关系。由前述关于和弦特征的介绍可知,音频的和弦特征包括多个和弦,而调式特征是指该音频的调式。基于此,以第一音频为例,服务器首先在该映射关系中查找第一音频的调式,在查找到第一音频的调式之后,依次查找在第一音频的调式下,第一音频的和弦特征包括的每个和弦所对应的音乐级数,将查找到各个和弦对应的音乐级数按照各个和弦的先后顺序排列,从而得到由所有的和弦的音乐级数组成的字符串,将该字符串作为第一音频的和弦走向。
示例性地,表1是本申请实施例示出的一种调式、和弦与音乐级数之间的映射关系表,以第一音频为例,假设第一音频的调式为C大调,和弦特征中包括的和弦有:C:maj A:min C:maj A:min D:min F:maj G:maj C:maj A:min,则首先服务器从映射关系表中查找C大调,之后,依次确定C大调下每个和弦对应的音乐级数,其中,C大调下和弦C:maj对应的音乐级数为1,和弦A:min对应的音乐级数为6,和弦D:min对应的级数为2,和弦F:maj对应的音乐级数为4,和弦G:maj对应的音乐级数为5,将确定的各个和弦的音乐级数按照各个和弦的顺序依次排列,如此,则可以上述9个和弦对应的音乐级数所组成的字符串161624516。
表1调式、和弦与音乐级数之间的映射关系表
对于音频的和弦特征中包括的所有和弦,服务器均可以参照上表,根据对应的调式查找到所有和弦对应的音乐级数,进而查找到的音乐级数组成的字符串作为该音频的和弦走向。
需要说明的是,音频的和弦特征和调式反映了该音频的旋律和歌唱者的情感,在此基础上,通过音频的和弦特征和调式进一步确定的和弦走向实际上是能够用于表征该音频的旋律走向和情感的字符串。
步骤103:根据每个音频的和弦走向,检测两个待检测音频是否为相似音频。
在确定每个音频的和弦走向之后,在一种可能的实现方式中,服务器可以通过图2中的步骤来检测两个待检测音频是否为相似音频。
1031:根据每个音频的和弦走向,确定相应音频的核心和弦走向。
其中,服务器对每个音频的和弦走向进行分段处理,得到相应音频对应的多个分段和弦走向;从每个音频对应的多个分段和弦走向中获取相应音频的最长公共子串,最长公共子串是指多个分段和弦中包括的最长的相同子串;将每个音频的最长公共子串作为相应音频的核心和弦走向。
需要说明的是,服务器根据音频的音乐节拍或者音频对应的歌词等信息,对音频的和弦走向进行分段处理。
其中,音乐节拍是指乐谱中每一小节的音符总长度,常见的音乐节拍有1/4拍、3/4拍等等,服务器可以按照音乐节拍将和弦走向分为多个小节,每个小节即为一个分段和弦走向。
再或者,当音频对应有歌词信息时,服务器获取该音频的歌词信息,按照该音频的歌词信息包含的每句歌词来划分和弦走向。其中,将每句歌词对应的和弦走向作为一个分段,从而得到多个分段和弦走向。
在确定每个音频的多个分段和弦走向之后,服务器从每个音频的多个分段和弦走向中获取相应音频的最长公共子串,进而将该最长公共子串作为相应音频的核心和弦走向。其中,最长公共子串是指多个分段和弦走向中共有的最长的子串。
例如,以第一音频为例,假设通过步骤102确定得到的第一音频的和弦走向为:16455164511616455164516451316451645456451645,按照第一音频的节拍对该和弦走向进行分段处理,从而得到多个分段和弦走向,分别为:16455,16451,1616455,1645,1645,131645,164545645,1645。由此可见,上述各个分段和弦走向中均包括的最长的相同子串为1645,也即,第一音频对应的最长公共子串为1645。
对于第二音频,服务器以相同的方式来确定得到第二音频对应的最长公共子串。
由于音频的核心和弦走向是从该音频的多个分段和弦走向中提取的共有的最长的一段子串,因此,该核心和弦走向实际上是该音频的最主要的和弦走向,能够更好的代表该音频的旋律走向和情感。
1032:根据每个音频的核心和弦走向,检测两个待检测音频是否为相似音频。
在确定得到两个待检测音频中每个音频的核心和弦走向之后,服务器计算两个待检测音频的核心和弦走向之间的距离。之后,服务器将两个待检测音频的核心和弦走向之间的距离与参考阈值进行比较,如果两个待检测音频的核心和弦走向之间的距离小于参考阈值,则确定两个待检测音频为相似音频。如果两个待检测音频的核心和弦走向之间的距离不小于参考阈值,则确定两个待检测音频不为相似音频。
示例性地,服务器计算两个待检测音频的核心和弦走向之间的编辑距离,通过该编辑距离来确定两个待检测音频是否为相似音频。其中,该编辑距离能够用于指示从一个核心和弦走向变化为另一个核心和弦走向需要多少次编辑操作,编辑操作次数越少,则说明两个核心和弦走向越相似,编辑操作次数越多,则说明两个核心和弦走向相差越大。
其中,服务器通过下述公式(1)来计算两个待检测音频的核心和弦走向之间的编辑距离。
其中,a和b分别为两个待检测音频的核心和弦走向。i为是指核心和弦走向a的长度,也即,a包括的总字符数。j是指核心和弦走向b的长度,也即,b包括的总字符数。leva,b(i,j)是指a与b之间的距离。
当min(i,j)=0时,说明a和b中存在一个空字符串,在这种情况下,a和b之间的编辑距离即等于i和j中的最大值。
当min(i,j)≠0时,a和b之间的编辑距离为以下三个值中的最小值:
1、leva,b(i-1,j)+1;
2、leva,b(i,j-1)+1;
其中,leva,b(i-1,j)是指a的前i-1个字符组成的字符串与b的前j个字符组成的字符串之间的编辑距离,同理,leva,b(i,j-1)是指a的前i个字符组成的字符串与b的前j-1个字符组成的字符串之间的编辑距离,leva,b(i-1,j-1)是指a的前i-1个字符组成的字符串与b的前j-1个字符组成的字符串之间的编辑距离,是一个指示函数,当ai=bj时,该函数的取值为0,当ai≠bj时,该函数的取值为1。其中,ai是指a的第i个字符,bj是指b的第j个字符。
需要说明的是,由上述公式可知,当min(i,j)≠0时,计算a和b之间的编辑距离是一个不断迭代的过程,例如,当确定leva,b(i-1,j)的值时,则将a的前i-1个字符组成的字符串作为更新后的a,将b的前j个字符组成的字符串作为更新后的b,进而通过前述的公式进行计算,此时,i将更新为i-1,j仍为j。如此,通过不断迭代,服务器即能够得到a和b之间的编辑距离。
在确定两个核心和弦走向之间的编辑距离之后,服务器将该编辑距离与参考阈值进行比较,以此来判定两个待检测音频是否为相似音频。其中,此处的参考阈值是设定的两个相似音频之间的最大编辑距离。如果计算得到的编辑距离小于该参考阈值,说明从一个核心和弦走向变化为另一个核心和弦走向所需的编辑操作次数较少,也即,这两个核心和弦走向中差异部分较少,较为相似。由于核心和弦走向是一个音频最主要的和弦走向,能够代表一个音频的主要旋律走向和情感,因此,若两个音频的核心和弦走向较为相似,即可确定这两个音频在旋律走向和情感上较为相似,此时,服务器即确定这两个音频为相似音频。反之,如果两个核心和弦走向之间的编辑距离不小于参考阈值,则说明这两个核心和弦走向的差异较大,此时,服务器确定这两个音频在旋律走向和情感上并不相似,也即,这两个音频不为相似音频。
可选地,在另外一些可能的实现方式中,服务器也可以计算两个核心和弦走向之间的欧式距离或海明距离,通过该欧式距离或海明距离来确定两个待检测音频是否为相似音频。相应地,所用的参考阈值也不同。本申请实施例在此不再赘述。
在上述图2所示的实现方式中,服务器从每个音频的和弦走向中提取了相应音频的核心和弦走向,然后通过两个音频的核心和弦走向之间的距离来检测两个音频是否为相似音频。在另外一些可能的实现方式中,服务器也可以直接计算第一音频的和弦走向和第二音频的和弦走向之间的距离,进而根据两个音频的和弦走向之间的距离来检测两个音频是否相似音频。其中,计算两个音频的和弦走向之间的距离可以参考前述介绍的计算两个核心和弦走向之间的距离的实现方式,区别之处在于字符串长度不同,本申请实施例在此不再赘述。
在本申请实施例中,通过两个待检测音频的调式特征和和弦特征来检测两个待检测音频是否为相似音频。由于音频的调式特征和和弦特征能够反映音频的旋律以及歌唱者的情感,因此,基于调式特征和和弦特征能够检测出两个音频在旋律和情感上是否相似,如此,使得相似音频的检测更为多样,有利于后续应用该检测结果更好的进行歌曲挖掘或推荐等。
接下来,对本申请实施例提供的音频检测装置进行介绍。
参见图3,本申请实施例提供了一种音频检测装置300,该装置300包括:
获取模块301,用于获取两个待检测音频中每个音频的调式特征和和弦特征;
确定模块302,用于根据每个音频的调式特征和和弦特征,确定相应音频的和弦走向;
检测模块303,用于根据每个音频的和弦走向,检测两个待检测音频是否为相似音频。
可选地,和弦特征包括多个和弦,参见图4,确定模块302包括:
获取子模块3021,用于从存储的调式、和弦与音乐级数的映射关系中,获取每个音频的调式特征下与相应音频的和弦特征包括的每个和弦所对应的音乐级数;
第一确定子模块3022,用于将确定的每个音频的多个音乐级数所组成的字符串作为相应音频的和弦走向。
可选地,参见图5,检测模块303包括:
第二确定子模块3031,用于根据每个音频的和弦走向,确定相应音频的核心和弦走向;
检测子模块3032,用于根据每个音频的核心和弦走向,检测两个待检测音频是否为相似音频。
可选地,第二确定子模块3031用于:
对每个音频的和弦走向进行分段处理,得到相应音频对应的多个分段和弦走向;
从每个音频对应的多个分段和弦走向中获取相应音频的最长公共子串,最长公共子串是指多个分段和弦中包括的最长的相同子串;
将每个音频的最长公共子串作为相应音频的核心和弦走向。
可选地,检测子模块3032用于:
计算两个待检测音频的核心和弦走向之间的距离;
当两个待检测音频的核心和弦走向之间的距离小于参考阈值时,确定两个待检测音频为相似音频。
综上所述,在本申请实施例中,在本申请实施例中,通过两个待检测音频的调式特征和和弦特征来检测两个待检测音频是否为相似音频。由于音频的调式特征和和弦特征能够反映音频的旋律以及歌唱者的情感,因此,基于调式特征和和弦特征能够检测出两个音频在旋律和情感上是否相似,如此,使得相似音频的检测更为多样,有利于后续应用该检测结果更好的进行歌曲挖掘或推荐等。
需要说明的是,上述实施例提供的音频检测装置在检测两个音频是否为相似音频时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音频检测装置与音频检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是根据一示例性实施例示出的一种的服务器结构示意图。上述实施例中的服务器的功能即可以通过图6中所示的服务器来实现。该服务器可以是后台服务器集群中的服务器。具体来讲:
服务器600包括CPU(Central Processing Unit,中央处理单元)601、包括RAM(Random Access Memory,随机存取存储器)602和ROM(Read-Only Memory,只读存储器)603的系统存储器604,以及连接系统存储器604和中央处理单元601的系统总线605。服务器600还包括帮助计算机内的各个器件之间传输信息的I/O(Input/Output,基本输入/输出)系统606,和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。
基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。大容量存储设备607及其相关联的计算机可读介质为服务器600提供非易失性存储。也就是说,大容量存储设备607可以包括诸如硬盘或者CD-ROM(CompactDisc Read-Only Memory)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable read only memory,带电可擦可编程只读存储器)、闪存或其他固态存储设备,CD-ROM、DVD(Digital Video Disc,数字通用光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。
根据本申请的各种实施例,服务器600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器600可以通过连接在系统总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。所述一个或者一个以上程序包含用于进行本申请实施例提供的音频检测方法的指令。
本申请实施例还提供了一种计算机可读存储介质,当该存储介质中的指令由服务器的处理器执行时,使得服务器能够执行上述实施例提供的音频检测方法。例如,该计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。值得注意的是,本申请实施例提到的计算机可读存储介质可以为非易失性存储介质,换句话说,可以是非瞬时性存储介质。
应当理解的是,实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。
也即是,在一些实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例提供的音频检测方法。
以上所述并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请实施例的保护范围之内。
Claims (10)
1.一种音频检测方法,其特征在于,所述方法包括:
获取两个待检测音频中每个音频的调式特征和和弦特征;
根据每个音频的调式特征和和弦特征,确定相应音频的和弦走向;
根据每个音频的和弦走向,检测所述两个待检测音频是否为相似音频。
2.根据权利要求1所述的方法,其特征在于,所述和弦特征包括多个和弦,所述根据每个音频的调式特征和和弦特征,确定相应音频的和弦走向,包括:
从存储的调式、和弦与音乐级数的映射关系中,获取每个音频的调式特征下与相应音频的和弦特征包括的每个和弦所对应的音乐级数;
将确定的每个音频的多个音乐级数所组成的字符串作为相应音频的和弦走向。
3.根据权利要求1或2所述的方法,其特征在于,所述根据每个音频的和弦走向,检测所述两个待检测音频是否为相似音频,包括:
根据每个音频的和弦走向,确定相应音频的核心和弦走向;
根据每个音频的核心和弦走向,检测所述两个待检测音频是否为相似音频。
4.根据权利要求3所述的方法,其特征在于,所述根据每个音频的和弦走向,确定相应音频的核心和弦走向,包括:
对每个音频的和弦走向进行分段处理,得到相应音频对应的多个分段和弦走向;
从每个音频对应的多个分段和弦走向中获取相应音频的最长公共子串,所述最长公共子串是指所述多个分段和弦中包括的最长的相同子串;
将每个音频的最长公共子串作为相应音频的核心和弦走向。
5.根据权利要求3所述的方法,其特征在于,所述根据每个音频的核心和弦走向,检测所述两个待检测音频是否为相似音频,包括:
计算所述两个待检测音频的核心和弦走向之间的距离;
当所述两个待检测音频的核心和弦走向之间的距离小于参考阈值时,确定所述两个待检测音频为相似音频。
6.一种音频检测装置,其特征在于,所述装置包括:
获取模块,用于获取两个待检测音频中每个音频的调式特征和和弦特征;
确定模块,用于根据每个音频的调式特征和和弦特征,确定相应音频的和弦走向;
检测模块,用于根据每个音频的和弦走向,检测所述两个待检测音频是否为相似音频。
7.根据权利要求6所述的装置,其特征在于,所述和弦特征包括多个和弦,所述确定模块包括:
获取子模块,用于从存储的调式、和弦与音乐级数的映射关系中,获取每个音频的调式特征下与相应音频的和弦特征包括的每个和弦所对应的音乐级数;
第一确定子模块,用于将确定的每个音频的多个音乐级数所组成的字符串作为相应音频的和弦走向。
8.根据权利要求6或7所述的装置,其特征在于,所述检测模块包括:
第二确定子模块,用于根据每个音频的和弦走向,确定相应音频的核心和弦走向;
检测子模块,用于根据每个音频的核心和弦走向,检测所述两个待检测音频是否为相似音频。
9.根据权利要求8所述的装置,其特征在于,所述第二确定子模块用于:
对每个音频的和弦走向进行分段处理,得到相应音频对应的多个分段和弦走向;
从每个音频对应的多个分段和弦走向中获取相应音频的最长公共子串,所述最长公共子串是指所述多个分段和弦中包括的最长的相同子串;
将每个音频的最长公共子串作为相应音频的核心和弦走向。
10.根据权利要求8所述的装置,其特征在于,所述检测子模块用于:
计算所述两个待检测音频的核心和弦走向之间的距离;
当所述两个待检测音频的核心和弦走向之间的距离小于参考阈值时,确定所述两个待检测音频为相似音频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010754237.4A CN111863030B (zh) | 2020-07-30 | 2020-07-30 | 音频检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010754237.4A CN111863030B (zh) | 2020-07-30 | 2020-07-30 | 音频检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111863030A true CN111863030A (zh) | 2020-10-30 |
CN111863030B CN111863030B (zh) | 2024-07-30 |
Family
ID=72945515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010754237.4A Active CN111863030B (zh) | 2020-07-30 | 2020-07-30 | 音频检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111863030B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210241733A1 (en) * | 2020-01-31 | 2021-08-05 | Obeebo Labs Ltd. | Systems, devices, and methods for decoupling note variation and harmonization in computer-generated variations of music data objects |
CN113744763A (zh) * | 2021-08-18 | 2021-12-03 | 北京达佳互联信息技术有限公司 | 确定相似旋律的方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070131094A1 (en) * | 2005-11-09 | 2007-06-14 | Sony Deutschland Gmbh | Music information retrieval using a 3d search algorithm |
CN101366071A (zh) * | 2006-01-06 | 2009-02-11 | 索尼株式会社 | 信息处理设备和方法、以及记录介质 |
CN102063292A (zh) * | 2009-11-18 | 2011-05-18 | 华为技术有限公司 | 一种和声编制方法及装置 |
CN102723079A (zh) * | 2012-06-07 | 2012-10-10 | 天津大学 | 基于稀疏表示的音乐和弦自动识别方法 |
CN103959375A (zh) * | 2011-11-30 | 2014-07-30 | 杜比国际公司 | 增强的从音频编解码器的色度提取 |
CN107301865A (zh) * | 2017-06-22 | 2017-10-27 | 海信集团有限公司 | 一种用于语音输入中确定交互文本的方法和装置 |
US20180226088A1 (en) * | 2016-01-29 | 2018-08-09 | G&C Interactive Co., Ltd. | System for analyzing emotion of sound and method of the same |
CN110472097A (zh) * | 2019-07-03 | 2019-11-19 | 平安科技(深圳)有限公司 | 乐曲自动分类方法、装置、计算机设备和存储介质 |
CN111081272A (zh) * | 2019-12-16 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 歌曲高潮片段识别方法及装置 |
-
2020
- 2020-07-30 CN CN202010754237.4A patent/CN111863030B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070131094A1 (en) * | 2005-11-09 | 2007-06-14 | Sony Deutschland Gmbh | Music information retrieval using a 3d search algorithm |
CN101366071A (zh) * | 2006-01-06 | 2009-02-11 | 索尼株式会社 | 信息处理设备和方法、以及记录介质 |
CN102063292A (zh) * | 2009-11-18 | 2011-05-18 | 华为技术有限公司 | 一种和声编制方法及装置 |
CN103959375A (zh) * | 2011-11-30 | 2014-07-30 | 杜比国际公司 | 增强的从音频编解码器的色度提取 |
CN102723079A (zh) * | 2012-06-07 | 2012-10-10 | 天津大学 | 基于稀疏表示的音乐和弦自动识别方法 |
US20180226088A1 (en) * | 2016-01-29 | 2018-08-09 | G&C Interactive Co., Ltd. | System for analyzing emotion of sound and method of the same |
CN107301865A (zh) * | 2017-06-22 | 2017-10-27 | 海信集团有限公司 | 一种用于语音输入中确定交互文本的方法和装置 |
CN110472097A (zh) * | 2019-07-03 | 2019-11-19 | 平安科技(深圳)有限公司 | 乐曲自动分类方法、装置、计算机设备和存储介质 |
CN111081272A (zh) * | 2019-12-16 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 歌曲高潮片段识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
HENG-TZE CHENG ET AL: ""Automatic chord recognition for music classification and retrieval"", 《IEEE XPLORE》, pages 1505 - 1508 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210241733A1 (en) * | 2020-01-31 | 2021-08-05 | Obeebo Labs Ltd. | Systems, devices, and methods for decoupling note variation and harmonization in computer-generated variations of music data objects |
US11908438B2 (en) * | 2020-01-31 | 2024-02-20 | Obeebo Labs Ltd. | Systems, devices, and methods for decoupling note variation and harmonization in computer-generated variations of music data objects |
CN113744763A (zh) * | 2021-08-18 | 2021-12-03 | 北京达佳互联信息技术有限公司 | 确定相似旋律的方法和装置 |
CN113744763B (zh) * | 2021-08-18 | 2024-02-23 | 北京达佳互联信息技术有限公司 | 确定相似旋律的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111863030B (zh) | 2024-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Benetos et al. | Automatic music transcription: challenges and future directions | |
US12105753B2 (en) | Automated cover song identification | |
EP3477643B1 (en) | Audio fingerprint extraction and audio recognition using said fingerprints | |
US11948542B2 (en) | Systems, devices, and methods for computer-generated musical note sequences | |
US12105754B2 (en) | Audio identification based on data structure | |
US12014708B2 (en) | Systems, devices, and methods for harmonic structure in digital representations of music | |
CN112489676A (zh) | 模型训练方法、装置、设备及存储介质 | |
CN111863030B (zh) | 音频检测方法及装置 | |
US20230141326A1 (en) | Systems, devices, and methods for segmenting a musical composition into musical segments | |
Cho et al. | Music emotion recognition using chord progressions | |
KR100512143B1 (ko) | 멜로디 기반 음악 검색방법과 장치 | |
Park et al. | A Cross-Scape Plot Representation for Visualizing Symbolic Melodic Similarity. | |
Gurjar et al. | Comparative Analysis of Music Similarity Measures in Music Information Retrieval Systems. | |
Schuller et al. | Music theoretic and perception-based features for audio key determination | |
Armentano et al. | Genre classification of symbolic pieces of music | |
Müller et al. | Content-based audio retrieval | |
JPH0736478A (ja) | 音符列間類似度計算装置 | |
Yeh et al. | Popular music representation: chorus detection & emotion recognition | |
CN115329125A (zh) | 一种歌曲串烧拼接方法和装置 | |
Gao et al. | Popular song summarization using chorus section detection from audio signal | |
Ciamarone et al. | Automatic Dastgah recognition using Markov models | |
Valero-Mas et al. | Analyzing the influence of pitch quantization and note segmentation on singing voice alignment in the context of audio-based Query-by-Humming | |
CN113270081B (zh) | 调整歌伴奏音的方法及调整歌伴奏音的电子装置 | |
Martin et al. | Indexing musical pieces using their major repetition | |
CN115101094A (zh) | 音频处理方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |