CN112380382B - 一种音频分类方法、装置及存储介质 - Google Patents
一种音频分类方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112380382B CN112380382B CN202011324279.0A CN202011324279A CN112380382B CN 112380382 B CN112380382 B CN 112380382B CN 202011324279 A CN202011324279 A CN 202011324279A CN 112380382 B CN112380382 B CN 112380382B
- Authority
- CN
- China
- Prior art keywords
- audio
- target
- fingerprints
- retrieval
- fingerprint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000001914 filtration Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 11
- 239000012634 fragment Substances 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种音频分类方法、装置及存储介质,涉及音频处理领域,以挖掘出当前最新的,播放热度高的歌曲。该方法中,通过目标音频的音频指纹获取对应的音频检索资源,并将目标指纹分别与对应的音频检索资源进行指纹匹配,从而得到目标指纹的待分类音频集合。将目标音频与待分类音频集合中的各待分类音频进行分类,得到分类结果。这样,通过对目标音频的音频分类,可以得到目标音频分类后的音频,从而在较多的音频内容中,提高音频分类的准确性。
Description
技术领域
本申请涉及音频处理领域,尤其涉及一种音频分类方法、装置及存储介质。
背景技术
伴随短视频应用的普及,音频检索被广泛应用在如今的多媒体内容理解中,特别是基于指纹检索的音频检索技术。但在实际应用中,该技术一般应用于识别用户音频中包含哪首歌,所识别的歌曲必须得是已包含在曲库的内容。随着音频内容的海量增长,检索人员获取当前较为受欢迎的音频较为困难,因此,在相关技术中,存在对音频分类不准确的问题。
发明内容
本申请实施例提供一种音频分类方法、装置及存储介质,以提高音频分类的准确性。
根据本申请实施例的第一方面,提供一种音频分类方法,包括:
获取目标音频对应的至少一个音频检索资源;其中,所述音频检索资源是根据所述目标音频从音频指纹库中进行音频指纹检索得到的,每个音频检索资源具有对应所述目标音频中至少一个音频指纹;
将所述目标音频分别与对应的音频检索资源进行指纹匹配,得到与所述目标音频具有连续相同音频指纹的至少一个待分类音频;
将所述目标音频与各待分类音频进行分类,得到用于表示所述目标音频和各待分类音频的分类结果。
在一种可能的实现方式中,将所述目标音频分别与对应的音频检索资源进行指纹匹配,得到与所述目标音频具有连续相同音频指纹的至少一个待分类音频之前,所述方法还包括:
按照具有对应所述目标音频中音频指纹的数量,对所述目标音频对应的音频检索资源进行筛选;
将筛选的预设数量音频检索资源作为所述目标音频对应的音频检索资源。
在一种可能的实现方式中,通过以下方法对所述目标音频对应的音频检索资源进行筛选:
筛选相同音频指纹的数量超过预设阈值的音频;或;
按照相同音频指纹的数量从高到低的排列顺序,筛选预设数量的音频。
在一种可能的实现方式中,所述将所述目标音频分别与对应的音频检索资源进行指纹匹配,得到与所述目标音频具有连续相同音频指纹的至少一个待分类音频,包括:
将所述目标音频分别与对应的音频检索资源进行指纹匹配,得到所述目标音频与各音频检索资源的指纹匹配的指纹数量;
按照所述指纹数量从所述目标音频对应的各音频检索资源中,获得与所述目标音频具有连续相同音频指纹的待分类音频。
在一种可能的实现方式中,所述按照所述指纹数量从所述目标音频对应的各音频检索资源中,获得与所述目标音频具有连续相同音频指纹的待分类音频,包括:
根据每个音频指纹的时间戳,确定所述目标音频与对应的音频检索资源中连续的相同音频指纹的起始时间和结束时间;
若存在所述目标音频与音频检索资源中连续的相同音频指纹的所述结束时间和所述起始时间之间的差值大于预设阈值,则将所述音频检索资源作为待分类音频。
在一种可能的实现方式中,所述将该目标音频与所述待分类音频集合中的各待分类音频进行分类,得到用于表示该目标音频和各待分类音频的分类结果,包括:
选择所述目标音频与所述待分类音频中均包含的音频片段作为所述目标音频分类的音频片段;其中,所述音频片段对应至少两个音频指纹。
在一种可能的实现方式中,所述获取目标音频对应的至少一个音频检索资源之前,所述方法还包括:
获取所述目标音频的每帧音频;
针对每帧音频,通过该帧音频的频谱极值点确定该帧音频的音频指纹;
将各帧音频的音频指纹的集合作为所述目标音频的音频指纹。
根据本申请实施例的第二方面,提供一种音频分类装置,包括:
第一获取单元,被配置为执行获取目标音频对应的至少一个音频检索资源;其中,所述音频检索资源是根据所述目标音频从音频指纹库中进行音频指纹检索得到的,每个音频检索资源具有对应所述目标音频中至少一个音频指纹;
匹配单元,被配置为执行将所述目标音频分别与对应的音频检索资源进行指纹匹配,得到与所述目标音频具有连续相同音频指纹的至少一个待分类音频;
分类单元,被配置为执行将所述目标音频与各待分类音频进行分类,得到用于表示所述目标音频和各待分类音频的分类结果。
在一种可能的实现方式中,所述装置还包括:
筛选单元,被配置为执行匹配单元将所述目标音频分别与对应的音频检索资源进行指纹匹配,得到与所述目标音频具有连续相同音频指纹的至少一个待分类音频之前,按照具有对应所述目标音频中音频指纹的数量,对所述目标音频对应的音频检索资源进行筛选;
第一确定单元,被配置为执行将筛选的预设数量音频检索资源作为所述目标音频对应的音频检索资源。
在一种可能的实现方式中,通过以下装置对所述目标音频对应的音频检索资源进行筛选:
第一筛选子单元,被配置为执行筛选相同音频指纹的数量超过预设阈值的音频;
第二筛选子单元,被配置为执行按照相同音频指纹的数量从高到低的排列顺序,筛选预设数量的音频。
在一种可能的实现方式中,匹配单元包括:
匹配子单元,被配置为执行将所述目标音频分别与对应的音频检索资源进行指纹匹配,得到所述目标音频与各音频检索资源的指纹匹配的指纹数量;
获取子单元,被配置为执行按照所述指纹数量从所述目标音频对应的各音频检索资源中,获得与所述目标音频具有连续相同音频指纹的待分类音频。
在一种可能的实现方式中,获取子单元包括:
第一确定子单元,被配置为执行根据每个音频指纹的时间戳,确定所述目标音频与对应的音频检索资源中连续的相同音频指纹的起始时间和结束时间;
第二确定子单元,被配置为执行若存在所述目标音频与音频检索资源中连续的相同音频指纹的所述结束时间和所述起始时间之间的差值大于预设阈值,则将所述音频检索资源作为待分类音频。
在一种可能的实现方式中,分类单元被配置为执行选择所述目标音频与所述待分类音频中均包含的音频片段作为所述目标音频分类的音频片段;其中,所述音频片段对应至少两个音频指纹。
在一种可能的实现方式中,所述装置还包括:
第二获取单元,被配置为执行第一获取单元获取目标音频对应的至少一个音频检索资源之前,获取所述目标音频的每帧音频;
第二确定单元,被配置为执行针对每帧音频,通过该帧音频的频谱极值点确定该帧音频的音频指纹;
第三确定单元,被配置为执行将各帧音频的音频指纹的集合作为所述目标音频的音频指纹。
根据本申请实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现一种音频分类方法;
根据本申请实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种音频分类方法;
根据本申请实施例的第五方面,提供一种计算机程序产品,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请实施例提供的音频分类方法。
本申请的实施例提供的技术方案至少带来以下有益效果:
通过目标音频的音频指纹获取对应的音频检索资源,并将目标指纹分别与对应的音频检索资源进行指纹匹配,从而得到目标指纹的待分类音频集合。将目标音频与待分类音频集合中的各待分类音频进行分类,得到分类结果。这样,通过对目标音频的音频分类,可以得到目标音频分类后的音频,从而在较多的音频内容中,提高音频分类的准确性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中一种音频分类方法的流程示意图;
图2为本申请实施例中音频指纹库的示意图;
图3为本申请实施例中一种音频分类装置的结构示意图;
图4为本申请实施方式中终端设备结构示意图。
具体实施方式
为了提高音频分类的准确性,本申请实施例中提供一种音频分类方法、装置及存储介质。为了更好的理解本申请实施例提供的技术方案,这里对该方案的基本原理做一下简单说明:
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
下面结合附图介绍本申请实施例提供的技术方案。
音频指纹技术(Audio fingerprinting technology)是指通过特定的算法将一段音频中独一无二的数字特征以标识符的形式提取出来,用于识别海量的声音样本或跟踪定位样本在数据库中的位置。音频指纹作为内容自动识别技术的核心算法,已广泛应用于音乐识别,版权内容监播,内容库去重和电视第二屏互动等领域。
伴随短视频应用的普及,音频检索被广泛应用在如今的多媒体内容理解中,特别是基于指纹检索的音频检索技术。但在实际应用中,该技术一般应用于识别用户音频中包含哪首歌,所识别的歌曲必须得是已包含在曲库的内容。随着音频内容的海量增长,如何挖掘音频中包含的未知音频的需求日益突出,即如何挖掘出当前最新的,播放热度高的歌曲为目前需要解决的问题。因此需要音频分类技术对音频内容进行分类。然而在相关技术中,面对较多的原创音频内容,存在对音频分类不准确的问题。
有鉴于此,本申请为了解决以上问题,提供了一种音频分类方法,通过目标音频的音频指纹获取对应的音频检索资源,并将目标指纹分别与对应的音频检索资源进行指纹匹配,从而得到目标指纹的待分类音频集合。将目标音频与待分类音频集合中的各待分类音频进行分类,得到分类结果。这样,通过对目标音频的音频分类,可以得到目标音频分类后的音频,从而在较多的音频内容中,提高音频分类的准确性。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请实施例中的实施例及实施例中的特征可以相互组合。
下面对本申请实施例提供的音频分类方法进行进一步的解释说明。如图1所示,包括以下步骤。
在步骤S11中,获取目标音频对应的至少一个音频检索资源;其中,所述音频检索资源是根据所述目标音频从音频指纹库中进行音频指纹检索得到的,每个音频检索资源具有对应所述目标音频中至少一个音频指纹。
在本申请实施例中,为了获取目标音频对应的音频检索资源,需要建立音频指纹库。音频指纹库是对每个音频进行指纹提取,并将提取得到的音频指纹与音频的对应关系进行存储。如图2所示,其为音频指纹库存储示意图,其中,左边的为从各音频中提取的音频指纹,右边为该音频指纹对应的音频。
例如,若存在10个音频,对每一个音频进行指纹提取,得到每一个音频提取到的音频指纹。若音频1提取出2个音频指纹,分别为音频指纹1和音频指纹3,则建立音频指纹库进行存储时,在音频指纹1和音频指纹3对应的音频上记录下音频1。
即,进行音频指纹提取时是以音频为对象确定该音频对应的音频指纹,而在进行存储时,是以音频指纹为对象确定该音频指纹对应的音频。
其中,音频的来源是从用户的原创音频中获取的,而目标音频以及音频检索资源是从音频指纹库中的各音频中获取的。
需要说明的是,在进行指纹提取之前,需要将每个音频的音频格式进行统一,具体可实施为:若所述目标音频和所述音频检索资源的音频格式不完全相同,则通过转码处理统一所述目标音频和所述音频检索资源的音频格式。
例如,若共有3个音频,其音频格式分别为8k pcm(PulseCodeModulation,脉冲编码调制)、16k pcm、32k pcm,则对这个音频的音频格式进行统一处理,使所有音频的音频格式均为8k pcm。这样,先统一音频格式,再执行后续操作,可以保证后续音频分析的准确性。
在介绍完如可建立音频指纹库后,下面对如何提取音频的音频指纹进行进一步的解释说明。
在本申请实施例中,若要提取音频指纹,首先需要对音频进行分帧,确定出每一帧的音频,并确定每一帧音频的音频指纹,以对目标音频进行指纹提取为例,具体可实施为步骤A1-A3:
步骤A1:获取所述目标音频的每帧音频。
在本申请实施例中,通过重叠分帧技术确定目标音频的每一帧音频。
步骤A2:针对每帧音频,通过该帧音频的频谱极值点确定该帧音频的音频指纹。
对该帧音频进行STFT(short-time Fourier transform,短时傅里叶变换),提取该帧的频谱极值点,并通过联合不同极值点形成该帧的指纹。
需要说明的是,每一帧音频可以得到多个音频指纹。且各帧提取的音频指纹的数量可以相同也可以不同。
步骤A3:将各帧音频的音频指纹的集合作为所述目标音频的音频指纹。
例如,一个音频共分为4帧音频,且每一帧均得到5个音频指纹,则该音频共有20个音频指纹。
这样,通过频谱极值点确定音频指纹,可以确定每一个音频的多种音频指纹,这样确定了各音频的音频指纹后,可以根据确定的音频指纹来确定各音频是否存在相同的片段或部分,从而保证了后续操作时的准确性。
针对每一个音频进行指纹提取并记录,从而得到音频指纹库。在本申请实施例中,在得到了音频指纹库后,便可以根据音频指纹库确定目标音频对应的音频检索资源了。
如通过音频指纹库确定出目标音频每个音频包含的音频,并将所有音频指纹包含的音频作为音频检索资源。例如,若目标音频共有5个音频指纹,分别为音频指纹1、音频指纹2、音频指纹3、音频指纹4、音频指纹5;通过音频指纹库检索得到音频指纹1对应音频1和音频2,音频指纹2对应音频3和音频4,音频指纹3对应音频1、音频2和音频4,音频指纹4对应音频1和音频3,音频指纹5对应音频2和音频4,那么通过检索,得到目标音频的音频检索资源为音频1、音频2、音频3和音频4。即,将目标音频提取出的音频指纹对应的音频作为目标音频的音频检索资源。
在步骤S12中,将所述目标音频分别与对应的音频检索资源进行指纹匹配,得到与所述目标音频具有连续相同音频指纹的至少一个待分类音频。
其中,匹配结果为匹配指纹相同的结果。
如上例所述,在确定了目标音频的音频检索资源为音频1、音频2、音频3和音频4后,将目标音频分别与音频1、音频2、音频3和音频4进行指纹匹配,得到目标音频与音频1、音频2、音频3和音频4中音频指纹匹配的结果,其中,目标音频与音频1的匹配结果为指纹1、指纹3和指纹4;目标音频与音频2的匹配结果为指纹1、指纹3和指纹5;目标音频与音频3的匹配结果为指纹2和指纹4;目标音频与音频4的匹配结果为指纹2、指纹3和指纹5。
需要说明的是,指纹1、指纹2、指纹3、指纹4和指纹5为按照顺序连续的5个音频指纹。
由于每一帧音频都存在多个音频指纹,因此若两个音频之间存在不连续的,相同的音频指纹并不能够说明这两个音频存在相同的音频片段,因此,在得到匹配结果后,将与目标音频具有连续相同音频指纹的音频作为具有相同音频片段的音频,因此将该音频作为待分类音频。将符合条件的各待分类音频组成为该目标音频的待分类音频集合。具体可实施为:
将所述目标音频分别与对应的音频检索资源进行指纹匹配,得到所述目标音频与各音频检索资源的指纹匹配的指纹数量;
按照所述指纹数量从所述目标音频对应的各音频检索资源中,获得与所述目标音频具有连续相同音频指纹的待分类音频。
如上例所述,若将连续两个音频指纹的音频作为目标音频的待分类音频,则音频1和音频4为目标音频的待分类音频。因为音频1中与目标音频都存在指纹3和指纹4,为连续两个音频指纹;音频4中与目标音频都存在指纹2和指纹3,为连续两个音频指纹。
若将连续三个音频指纹的音频作为目标音频的待分类音频,则目标音频没有待分类音频。
这样,通过连续的音频指纹来判断各音频之间是否存在相同的音频片段,通过将具有相同音频片段的音频进行分类,从而将相同的连续的音频指纹作为音频分类的条件,从而保证了分类结果的准确性。
虽然可以根据相同的连续的音频指纹作为音频分类的条件,但是需要通过哪种方法来确定各音频指纹之间的顺序。
在本申请实施例中,每个音频指纹都具有时间戳,可通过时间戳来确定各音频指纹之间的顺序。从而根据时间戳可以确定与目标音频具有相同音频片段的音频,具体可实施为步骤B1-B2:
步骤B1:根据每个音频指纹的时间戳,确定所述目标音频与对应的音频检索资源中连续的相同音频指纹的起始时间和结束时间。
步骤B2:若存在所述目标音频与音频检索资源中连续的相同音频指纹的所述结束时间和所述起始时间之间的差值大于预设阈值,则将所述音频检索资源作为待分类音频。
例如,确定连续的相同音频指纹的时间戳的起始时间和结束时间,若结束时间和起始时间之间的差值大于预设阈值,则说明该音频检索资源与目标音频具有的连续的相同音频指纹的数量较多,因此存在相同的音频片段,从而确定该音频为待分类音频。
如连续的相同音频指纹的起始时间和结束时间之间的差值为15秒,大于预设的10秒钟,因此,该音频为待分类音频。若存在连续的相同音频指纹的起始时间和结束时间之间的差值为5秒的音频,由于没有超过10秒钟,因此该音频被剔除。
这样,通过音频指纹的时间戳来确定待分类音频,可以使获取的待分类音频更符合要求,更加准确。
上述对比音频指纹的方法可以准确的确定各音频与目标音频的关联关系,但是由于目标音频与每一个音频均进行指纹提取的话,需要的计算量较大,且计算数据较多,因此效率较为低下。
因此,在本申请实施例中,为了减少计算量,在进行指纹匹配之前,需要对音频检索资源进行预处理,即预先筛选出一部分音频作为音频检索资源,并对筛选后的音频进行指纹匹配。具体可实施为:
按照具有对应所述目标音频中音频指纹的数量,对所述目标音频对应的音频检索资源进行筛选;
将筛选的预设数量音频检索资源作为所述目标音频对应的音频检索资源。
如上例所述,分别确定目标音频与音频1、音频2、音频3和音频4中相同音频指纹的数量,分别为3、3、2、3,那么可以根据数量来对音频进行筛选。
若将相同音频指纹的数量设为3个,则音频1、音频2和音频4作为目标音频对应的音频检索资源,音频2由于与目标音频具有相同音频指纹的数量仅为2个,因此音频2被剔除掉。
这样,经过了一步预处理过程,可以剔除掉一部分与目标音频具有相同音频指纹的数量较少的音频,从而减少了后续指纹比对的计算量。
而在本申请实施例中,可通过不同的方法对目标音频对应的音频检索资源进行筛选。下面提出两种筛选方法:
第一,筛选相同音频指纹的数量超过预设阈值的音频。
在该方法中,需要设置一个阈值,并将相同音频指纹的数量超过该阈值的音频作为筛选出的音频。
例如,如上例所述,若设置的阈值为3,则筛选出的音频为音频1、音频2和音频4,并将音频1、音频2和音频4与目标音频进行指纹匹配。
第二、按照相同音频指纹的数量从高到低的排列顺序,筛选预设数量的音频。
在该方法中,根据相同音频指纹的数量,按照从高到低的排列顺序筛选出预设数量的音频。
例如,如上例所述,若要筛选出3个音频,则按照从高到低的排列顺序筛选出的音频为音频1、音频2和音频4,并将音频1、音频2和音频4与目标音频进行指纹匹配。
这样,通过不同的筛选方式,可以更为灵活的筛选音频检索资源。
在步骤S13中,将所述目标音频与各待分类音频进行分类,得到用于表示所述目标音频和各待分类音频的分类结果。
为了将具有相同音频片段的分类到一起,可通过音频聚类技术来实现。聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。而音频聚类则是对包含有同一部分音频片段的音频进行分析,从而可以得到热度最高的歌曲。
在本申请实施例中,通过聚类可以得到目标音频与各待聚类音频之间存在的相同音频片段,具体可实施为:
选择所述目标音频与所述待分类音频中均包含的音频片段作为所述目标音频分类的音频片段;其中,所述音频片段对应至少两个音频指纹。
确定出每个音频都包含的音频片段,从而确定出那段音频的播放热度最高。这样,通过对目标音频的音频聚类,可以得到目标音频聚类后的音频,从而根据各目标音频的聚类结果,得到当前最新的,播放热度高的歌曲。
基于相同的发明构思,本申请还提供一种音频分类装置。如图3所示,为本申请提供的一种音频分类装置示意图。该装置包括:
第一获取单元301,被配置为执行获取目标音频对应的至少一个音频检索资源;其中,所述音频检索资源是根据所述目标音频从音频指纹库中进行音频指纹检索得到的,每个音频检索资源具有对应所述目标音频中至少一个音频指纹;
匹配单元302,被配置为执行将所述目标音频分别与对应的音频检索资源进行指纹匹配,得到与所述目标音频具有连续相同音频指纹的至少一个待分类音频;
分类单元303,被配置为执行将所述目标音频与各待分类音频进行分类,得到用于表示所述目标音频和各待分类音频的分类结果。
在一种可能的实现方式中,所述装置还包括:
筛选单元,被配置为执行匹配单元302将所述目标音频分别与对应的音频检索资源进行指纹匹配,得到与所述目标音频具有连续相同音频指纹的至少一个待分类音频之前,按照具有对应所述目标音频中音频指纹的数量,对所述目标音频对应的音频检索资源进行筛选;
第一确定单元,被配置为执行将筛选的预设数量音频检索资源作为所述目标音频对应的音频检索资源。
在一种可能的实现方式中,通过以下装置对所述目标音频对应的音频检索资源进行筛选:
第一筛选子单元,被配置为执行筛选相同音频指纹的数量超过预设阈值的音频;
第二筛选子单元,被配置为执行按照相同音频指纹的数量从高到低的排列顺序,筛选预设数量的音频。
在一种可能的实现方式中,匹配单元302包括:
匹配子单元,被配置为执行将所述目标音频分别与对应的音频检索资源进行指纹匹配,得到所述目标音频与各音频检索资源的指纹匹配的指纹数量;
获取子单元,被配置为执行按照所述指纹数量从所述目标音频对应的各音频检索资源中,获得与所述目标音频具有连续相同音频指纹的待分类音频。
在一种可能的实现方式中,获取子单元包括:
第一确定子单元,被配置为执行根据每个音频指纹的时间戳,确定所述目标音频与对应的音频检索资源中连续的相同音频指纹的起始时间和结束时间;
第二确定子单元,被配置为执行若存在所述目标音频与音频检索资源中连续的相同音频指纹的所述结束时间和所述起始时间之间的差值大于预设阈值,则将所述音频检索资源作为待分类音频。
在一种可能的实现方式中,分类单元303被配置为执行选择所述目标音频与所述待分类音频中均包含的音频片段作为所述目标音频分类的音频片段;其中,所述音频片段对应至少两个音频指纹。
在一种可能的实现方式中,所述装置还包括:
第二获取单元,被配置为执行第一获取单元301获取目标音频对应的至少一个音频检索资源之前,获取所述目标音频的每帧音频;
第二确定单元,被配置为执行针对每帧音频,通过该帧音频的频谱极值点确定该帧音频的音频指纹;
第三确定单元,被配置为执行将各帧音频的音频指纹的集合作为所述目标音频的音频指纹。
如图4所示,基于同一技术构思,本申请实施例还提供了一种电子设备40,可以包括存储器401和处理器402。
所述存储器401,用于存储处理器402执行的计算机程序。存储器401可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据任务管理装置的使用所创建的数据等。处理器402,可以是一个中央处理单元(central processing unit,CPU),或者为数字处理单元等等。本申请实施例中不限定上述存储器401和处理器402之间的具体连接介质。本申请实施例在图4中以存储器401和处理器402之间通过总线403连接,总线403在图4中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线403可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器401可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器401也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器401是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器401可以是上述存储器的组合。
处理器402,用于调用所述存储器401中存储的计算机程序时执行如图1中所示的实施例中设备所执行的方法。
在一些可能的实施方式中,本申请提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行如图1~图2中所示的实施例中设备所执行的方法。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (14)
1.一种音频分类方法,其特征在于,所述方法包括:
获取目标音频对应的至少一个音频检索资源;其中,所述音频检索资源是根据所述目标音频从音频指纹库中进行音频指纹检索得到的,每个音频检索资源具有对应所述目标音频中至少一个音频指纹;
将所述目标音频分别与对应的音频检索资源进行指纹匹配,得到所述目标音频与各音频检索资源的指纹匹配的指纹数量;按照所述指纹数量从所述目标音频对应的各音频检索资源中,获得与所述目标音频具有连续相同音频指纹的待分类音频;
将所述目标音频与各待分类音频进行分类,得到用于表示所述目标音频和各待分类音频的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标音频分别与对应的音频检索资源进行指纹匹配,得到与所述目标音频具有连续相同音频指纹的至少一个待分类音频之前,所述方法还包括:
按照具有对应所述目标音频中音频指纹的数量,对所述目标音频对应的音频检索资源进行筛选;
将筛选的预设数量音频检索资源作为所述目标音频对应的音频检索资源。
3.根据权利要求2所述的方法,其特征在于,通过以下方法对所述目标音频对应的音频检索资源进行筛选:
筛选相同音频指纹的数量超过预设阈值的音频;或,
按照相同音频指纹的数量从高到低的排列顺序,筛选预设数量的音频。
4.根据权利要求1所述的方法,其特征在于,所述按照所述指纹数量从所述目标音频对应的各音频检索资源中,获得与所述目标音频具有连续相同音频指纹的待分类音频,包括:
根据每个音频指纹的时间戳,确定所述目标音频与对应的音频检索资源中连续的相同音频指纹的起始时间和结束时间;
若存在所述目标音频与音频检索资源中连续的相同音频指纹的所述结束时间和所述起始时间之间的差值大于预设阈值,则将所述音频检索资源作为待分类音频。
5.根据权利要求1所述的方法,其特征在于,所述将该目标音频与所述待分类音频集合中的各待分类音频进行分类,得到用于表示该目标音频和各待分类音频的分类结果,包括:
选择所述目标音频与所述待分类音频中均包含的音频片段作为所述目标音频分类的音频片段;其中,所述音频片段对应至少两个音频指纹。
6.根据权利要求1所述的方法,其特征在于,所述获取目标音频对应的至少一个音频检索资源之前,所述方法还包括:
获取所述目标音频的每帧音频;
针对每帧音频,通过该帧音频的频谱极值点确定该帧音频的音频指纹;
将各帧音频的音频指纹的集合作为所述目标音频的音频指纹。
7.一种音频分类装置,其特征在于,包括:
第一获取单元,被配置为执行获取目标音频对应的至少一个音频检索资源;其中,所述音频检索资源是根据所述目标音频从音频指纹库中进行音频指纹检索得到的,每个音频检索资源具有对应所述目标音频中至少一个音频指纹;
匹配单元,被配置为将所述目标音频分别与对应的音频检索资源进行指纹匹配,得到所述目标音频与各音频检索资源的指纹匹配的指纹数量;
获取子单元,被配置为按照所述指纹数量从所述目标音频对应的各音频检索资源中,获得与所述目标音频具有连续相同音频指纹的待分类音频;
分类单元,被配置为执行将所述目标音频与各待分类音频进行分类,得到用于表示所述目标音频和各待分类音频的分类结果。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
筛选单元,被配置为执行匹配单元将所述目标音频分别与对应的音频检索资源进行指纹匹配,得到与所述目标音频具有连续相同音频指纹的至少一个待分类音频之前,按照具有对应所述目标音频中音频指纹的数量,对所述目标音频对应的音频检索资源进行筛选;
第一确定单元,被配置为执行将筛选的预设数量音频检索资源作为所述目标音频对应的音频检索资源。
9.根据权利要求8所述的装置,其特征在于,通过以下装置对所述目标音频对应的音频检索资源进行筛选:
第一筛选子单元,被配置为执行筛选相同音频指纹的数量超过预设阈值的音频;
第二筛选子单元,被配置为执行按照相同音频指纹的数量从高到低的排列顺序,筛选预设数量的音频。
10.根据权利要求7所述的装置,其特征在于,获取子单元包括:
第一确定子单元,被配置为执行根据每个音频指纹的时间戳,确定所述目标音频与对应的音频检索资源中连续的相同音频指纹的起始时间和结束时间;
第二确定子单元,被配置为执行若存在所述目标音频与音频检索资源中连续的相同音频指纹的所述结束时间和所述起始时间之间的差值大于预设阈值,则将所述音频检索资源作为待分类音频。
11.根据权利要求7所述的装置,其特征在于,分类单元被配置为执行选择所述目标音频与所述待分类音频中均包含的音频片段作为所述目标音频分类的音频片段;其中,所述音频片段对应至少两个音频指纹。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取单元,被配置为执行第一获取单元获取目标音频对应的至少一个音频检索资源之前,获取所述目标音频的每帧音频;
第二确定单元,被配置为执行针对每帧音频,通过该帧音频的频谱极值点确定该帧音频的音频指纹;
第三确定单元,被配置为执行将各帧音频的音频指纹的集合作为所述目标音频的音频指纹。
13.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的音频分类方法。
14.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至6中任一项所述的音频分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011324279.0A CN112380382B (zh) | 2020-11-23 | 2020-11-23 | 一种音频分类方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011324279.0A CN112380382B (zh) | 2020-11-23 | 2020-11-23 | 一种音频分类方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112380382A CN112380382A (zh) | 2021-02-19 |
CN112380382B true CN112380382B (zh) | 2024-03-12 |
Family
ID=74588887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011324279.0A Active CN112380382B (zh) | 2020-11-23 | 2020-11-23 | 一种音频分类方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380382B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967922A (zh) * | 2017-12-19 | 2018-04-27 | 成都嗨翻屋文化传播有限公司 | 一种基于特征的音乐版权识别方法 |
CN108198573A (zh) * | 2017-12-29 | 2018-06-22 | 北京奇艺世纪科技有限公司 | 音频识别方法及装置、存储介质及电子设备 |
CN108509558A (zh) * | 2018-03-23 | 2018-09-07 | 太原理工大学 | 一种抗变速干扰的采样计数音频检索方法 |
CN108763492A (zh) * | 2018-05-29 | 2018-11-06 | 四川远鉴科技有限公司 | 一种音频模板提取方法及装置 |
CN109388729A (zh) * | 2017-08-14 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 音频子指纹的检索方法、装置以及音频查询系统 |
CN109558509A (zh) * | 2018-07-04 | 2019-04-02 | 北京邮电大学 | 一种广播音频中广告检索的方法和装置 |
-
2020
- 2020-11-23 CN CN202011324279.0A patent/CN112380382B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388729A (zh) * | 2017-08-14 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 音频子指纹的检索方法、装置以及音频查询系统 |
CN107967922A (zh) * | 2017-12-19 | 2018-04-27 | 成都嗨翻屋文化传播有限公司 | 一种基于特征的音乐版权识别方法 |
CN108198573A (zh) * | 2017-12-29 | 2018-06-22 | 北京奇艺世纪科技有限公司 | 音频识别方法及装置、存储介质及电子设备 |
CN108509558A (zh) * | 2018-03-23 | 2018-09-07 | 太原理工大学 | 一种抗变速干扰的采样计数音频检索方法 |
CN108763492A (zh) * | 2018-05-29 | 2018-11-06 | 四川远鉴科技有限公司 | 一种音频模板提取方法及装置 |
CN109558509A (zh) * | 2018-07-04 | 2019-04-02 | 北京邮电大学 | 一种广播音频中广告检索的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112380382A (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2437255B1 (en) | Automatic identification of repeated material in audio signals | |
US8352259B2 (en) | Methods and apparatus for audio recognition | |
EP2973034B1 (en) | Methods and systems for arranging and searching a database of media content recordings | |
US20060149533A1 (en) | Methods and Apparatus for Identifying Media Objects | |
JP2005202357A (ja) | オーディオ重複検出器 | |
CA2905385C (en) | Methods and systems for arranging and searching a database of media content recordings | |
CN111326171B (zh) | 一种基于简谱识别和基频提取的人声旋律提取方法及系统 | |
CN102411578A (zh) | 一种多媒体播放系统和方法 | |
CN111508506B (zh) | 音频文件的原唱检测方法、装置、服务器及存储介质 | |
CN111078513A (zh) | 日志处理方法、装置、设备、存储介质及日志告警系统 | |
US10534777B2 (en) | Systems and methods for continuously detecting and identifying songs in a continuous audio stream | |
CN106598997B (zh) | 一种计算文本主题归属度的方法及装置 | |
CN114817645A (zh) | 时序数据的存储及读取方法、装置、设备及存储介质 | |
CN112380382B (zh) | 一种音频分类方法、装置及存储介质 | |
CN109271501A (zh) | 一种音频数据库的管理方法及系统 | |
KR100916310B1 (ko) | 오디오 신호처리 기반의 음악 및 동영상간의 교차 추천 시스템 및 방법 | |
US11429616B2 (en) | Data recording and analysis system | |
CN113420178A (zh) | 一种数据处理方法以及设备 | |
CN108648733B (zh) | 一种迪曲生成方法及系统 | |
Panteli et al. | Automatic detection of outliers in world music collections | |
CN113626385B (zh) | 一种基于文本数据读取的方法和系统 | |
CN114900713B (zh) | 一种视频剪辑处理方法及系统 | |
KR101647012B1 (ko) | 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치 및 방법 | |
CN115525286A (zh) | 一种代码规则分析方法、装置、设备及存储介质 | |
CN117573918A (zh) | 用于识别音频片段的方法、装置及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |