CN112037814B - 一种音频指纹的提取方法、装置、电子设备及存储介质 - Google Patents

一种音频指纹的提取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112037814B
CN112037814B CN202010845686.XA CN202010845686A CN112037814B CN 112037814 B CN112037814 B CN 112037814B CN 202010845686 A CN202010845686 A CN 202010845686A CN 112037814 B CN112037814 B CN 112037814B
Authority
CN
China
Prior art keywords
peak point
value
local peak
target
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010845686.XA
Other languages
English (en)
Other versions
CN112037814A (zh
Inventor
陈晓敏
姜涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202010845686.XA priority Critical patent/CN112037814B/zh
Publication of CN112037814A publication Critical patent/CN112037814A/zh
Application granted granted Critical
Publication of CN112037814B publication Critical patent/CN112037814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开提供一种音频指纹的提取方法、装置、电子设备及存储介质,涉及声纹识别技术领域,用于提高音频指纹的鲁棒性。该方法包括:确定待处理的音频信号,并对待处理的音频信号进行频谱特征提取处理,获得目标频谱图;从目标频谱图中提取局部区域峰值点,获得局部峰值点候选集,局部峰值点候选集包括目标频谱图上按照预设频段划分的各区域中的峰值点;从目标频谱图的平坦区域中提取峰值点,获得平坦区域的局部峰值点集合;基于局部峰值点候选集和平坦区域的局部峰值点集合,得到目标局部峰值点集合,并根据目标局部峰值点集合确定待处理的音频信号的音频指纹,目标局部峰值点集合包括从局部峰值点候选集中剔除平坦区域的局部峰值点集合中的峰值点。

Description

一种音频指纹的提取方法、装置、电子设备及存储介质
技术领域
本公开涉及声纹识别技术领域,尤其涉及一种音频指纹的提取方法、装置、电子设备及存储介质。
背景技术
目前,基于音频指纹的音频检索在听歌识曲、身份认证等多种场景有较为广泛的应用。
相关技术中,在提取音频指纹时,存在提取的音频信号对应频谱上的局部峰值点数量过多,对噪声处理的鲁棒性较差,从而导致音频指纹变多,即在一定程度上降低了基于音频指纹检索方法中音频指纹的索引性能。
发明内容
本公开提供一种音频指纹的提取方法、装置、电子设备及存储介质,以提高音频指纹的鲁棒性。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种音频指纹的提取方法,所述方法包括:
确定待处理的音频信号,并对所述待处理的音频信号进行频谱特征提取处理,获得目标频谱图;
从所述目标频谱图中提取局部区域峰值点,获得局部峰值点候选集,所述局部峰值点候选集包括所述目标频谱图上按照预设频段划分的各区域中的峰值点;以及,
从所述目标频谱图的平坦区域中提取峰值点,获得平坦区域的局部峰值点集合,其中,所述平坦区域为所述目标频谱图中与相邻能量值的差值属于第一预定范围,且能量值小于第一预定值的多个能量值所组成的连通区域;
基于所述局部峰值点候选集和所述平坦区域的局部峰值点集合,得到目标局部峰值点集合,并根据所述目标局部峰值点集合确定所述待处理的音频信号的音频指纹,其中,所述目标局部峰值点集合包括从所述局部峰值点候选集中剔除所述平坦区域的局部峰值点集合中的峰值点。
在一种可能的实施方式中,所述从所述目标频谱图的平坦区域中提取峰值点,获得平坦区域的局部峰值点集合,包括:
确定所述目标频谱图的平坦区域;
对所述平坦区域进行蚀刻处理,获得第一平坦区域,并对所述第一平坦区域进行最大值池化处理,以获得所述第一平坦区域的局部峰值点集合。
在本公开实施例中,可以先确定目标频谱图中的平坦区域,然后对平坦区域进行蚀刻处理以获得第一平坦区域,并获得第一平坦区域的局部峰值点集合。这样的方式,可以确定与其它音频信号可能会相同的平坦区域,减少了容易造成混淆的峰值点,使得提取音频指纹更具有鲁棒性。
在一种可能的实施方式中,所述确定所述目标频谱图的平坦区域,包括:
对所述目标频谱图进行均值池化处理,得到所述目标频谱图对应的局部平均值图;
将所述目标频谱图的能量值减去所述局部平均值图中的能量值,获得处理值集;
若确定所述处理值集中的多个处理值与第二预定阈值的差值属于预定范围,则根据所述多个处理值对应的能量值在所述目标频谱图中的位置,确定所述目标频谱图的平坦区域。
在本公开实施例中,可以将目标频谱图的能量值减去局部平均值图中的能量值获得处理值集,并当确定处理值集中的多个处理值与第二预定阈值的差值属于预定范围时,确定平坦区域。这样的方式,可以高效且准确的确定平坦区域。
在一种可能的实施方式中,所述对所述平坦区域进行蚀刻处理,获得第一平坦区域,包括:
确定所述平坦区域中的第一处理子区域,其中,所述第一处理子区域为所述平坦区域中按照第一预设频段划分的各区域中的任一子区域;
将所述第一处理子区域中的处理值进行蚀刻处理,获得蚀刻处理后的对应值;
将所述对应值中与预设值相同的值对应删除,获得第一处理子区域对应的能量值,以获得所述第一平坦区域。
在本公开实施例中,可以先确定平坦区域中的第一处理子区域,然后对第一处理子区域中的处理值进行蚀刻处理,这样的方式,可以对平坦区域中每个区域进行处理,且由于对平坦区域中的第一处理子区域进行蚀刻处理,即从第一处理子区域对应的局部峰值点中去掉鲁棒性较好的峰值点,获得第一平坦区域,为后续音频指纹的提取提供良好的实施基础,使得提取的音频指纹的鲁棒性更好。
在一种可能的实施方式中,从所述目标频谱图中提取局部区域峰值点,获得局部峰值点候选集,包括:
对所述目标频谱图进行最大值池化处理,获得局部峰值点候选集。
在本公开实施例中,通过对目标频谱图进行最大值池化处理,可以简单快速的确定目标频谱图的局部峰值点候选集,提升音频指纹的提取效率。
根据本公开实施例的第二方面,提供一种音频指纹的提取装置,所述装置包括:
处理单元,被配置为执行确定待处理的音频信号,并对所述待处理的音频信号进行频谱特征提取处理,获得目标频谱图;
第一获得单元,被配置为执行从所述目标频谱图中提取局部区域峰值点,获得局部峰值点候选集,所述局部峰值点候选集包括所述目标频谱图上按照预设频段划分的各区域中的峰值点;以及,
第二获得单元,被配置为执行从所述目标频谱图的平坦区域中提取峰值点,获得平坦区域的局部峰值点集合,其中,所述平坦区域为所述目标频谱图中与相邻能量值的差值属于第一预定范围,且能量值小于第一预定值的多个能量值所组成的连通区域;
确定单元,基于所述局部峰值点候选集和所述平坦区域的局部峰值点集合,得到目标局部峰值点集合,并根据所述目标局部峰值点集合确定所述待处理的音频信号的音频指纹,其中,所述目标局部峰值点集合包括从所述局部峰值点候选集中剔除所述平坦区域的局部峰值点集合中的峰值点。
在一种可能的实施方式中,所述第二获得单元被配置为执行:
确定所述目标频谱图的平坦区域;
对所述平坦区域进行蚀刻处理,获得第一平坦区域,并对所述第一平坦区域进行最大值池化处理,以获得所述第一平坦区域的局部峰值点集合。
在一种可能的实施方式中,所述第二获得单元被配置为执行:
对所述目标频谱图进行均值池化处理,得到所述目标频谱图对应的局部平均值图;
将所述目标频谱图中的能量值减去所述局部平均值图中的能量值,获得处理值集;
若确定所述处理值集中的多个处理值与第二预定阈值的差值属于预定范围,则根据所述多个处理值对应的能量值在所述目标频谱图中的位置,确定所述目标频谱图的平坦区域。
在一种可能的实施方式中,所述第二获得单元被配置为执行:
确定所述平坦区域中的第一处理子区域,其中,所述第一处理子区域为所述平坦区域中按照第一预设频段划分的各区域中的任一子区域;
将所述第一处理子区域中的处理值进行蚀刻处理,获得蚀刻处理后的对应值;
将所述对应值中与预设值相同的值对应删除,获得第一处理子区域对应的能量值,以获得所述第一平坦区域。
在一种可能的实施方式中,所述第一获得单元,被配置为执行:
对所述目标频谱图进行最大值池化处理,获得局部峰值点候选集。
根据本公开实施例的第三方面,提供一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为执行指令,以实现本公开实施例上述第一方面以及第一方面涉及的任一可能涉及的方法。
根据本公开实施例的第四方面,提供一种存储介质,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例上述第一方面以及第一方面涉及的任一可能涉及的方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行实现本公开实施例上述第一方面以及第一方面任一可能涉及的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
在本公开实施例中,可以确定待处理的音频信号,并对待处理的音频信号进行频谱特征提取处理,获得目标频谱图,然后从目标频谱图中提取局部区域峰值点,获得局部峰值点候选集,局部峰值点候选集包括目标频谱图上按照预设频段划分的各区域中的峰值点;以及,从目标频谱图的平坦区域中提取峰值点,获得平坦区域的局部峰值点集合,其中,平坦区域为目标频谱图中与相邻能量值的差值属于第一预定范围,且能量值小于第一预定值的多个能量值所组成的连通区域。也就是说,在本公开实施例中,可以对目标频谱图中的平坦区域进行处理,即可以对待处理的音频信号中静音部分进行处理。进一步地,可以从局部峰值点候选集中删除平坦区域的局部峰值点集合中的峰值点,得到目标局部峰值点集合,并根据目标局部峰值点集合确定待处理的音频信号的音频指纹。
在本公开实施例中,可以对待处理的音频信号中可能与其它音频信号相同的静音部分的信号进行处理,具体为可以对静音信号对应的区域的峰值点(即平坦区域的局部峰值点集合)进行删除处理,即去掉与其它音频信号可能会相同的平坦区域,从而获得较为准确且数量较少的峰值点,以及可以获得对应的音频指纹。也就是说,减少了容易造成混淆的峰值点,使得提取音频指纹更具有鲁棒性,增强了基于音频指纹的音频检索的检索准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种应用场景的示意图;
图2是根据一示例性实施例示出的一种音频指纹的提取方法的流程示意图;
图3是根据一示例性实施例示出的平坦区域蚀刻处理过程的示意图;
图4是根据一示例性实施例示出的一种音频指纹的提取装置的结构框图;
图5为根据一示例性实施例示出的电子设备的结构示意图;
图6为根据一示例性实施例示出的电子设备的另一结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
下面对本公开实施例的设计思想进行简要介绍:
相关技术中,对音频指纹进行提取时,存在对音频信号对应的频谱图提取局部峰值点过多,导致存在冗余信息和噪声问题,即音频指纹的提取质量较差,导致基于音频指纹的音频检索准确性低。
鉴于此,本公开提供一种音频指纹的提取方法,通过该方法可以对待处理的音频信号进行局部峰值点和平坦区域的局部峰值点的提取处理,然后确定目标峰值点集合,从而确定待处理的音频信号的音频指纹。这样的方式,可以减少容易造成混淆的峰值点,即提取到的音频指纹更具有鲁棒性,且减少了基于音频指纹的索引量,从而提高了检索速度以及基于音频指纹的音频检索的准确性。
介绍完本公开实施例的设计思想之后,下面对本公开实施例中的音频指纹的提取技术方案适用的应用场景做一些简单介绍,需要说明的是,本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案,并不构成对于本公开实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本公开实施例提供的技术方案对于类似的技术问题,同样适用。
在本公开实施例中,该技术方案可以应用于需要基于音频指纹检索的任一场景,例如听歌识曲的场景或者是身份认证等,本公开实施例中不做限定,为了便于更好的理解方案,本公开后文中以对听歌识曲的场景为例进行说明。
在具体的实施过程中,请参见图1所示的一种应用场景示意图,应用场景图中包括两个终端101和一个电子设备102,可以通过终端101登录音乐播放平台(未示出)。需要说明的是,图1中仅以两个终端101和一个电子设备102进行交互为例进行示出,在具体实施过程中,可以是多个终端101与一个电子设备102之间进行交互,也可以是多个终端101和多个电子设备102之间进行交互。
在具体的实施过程中,终端101和电子设备102之间可以通过一个或者多个通信网络103进行通信连接。该通信网络103可以是有线网络,也可以是无线网络,例如无线网络可以是移动蜂窝网络,或者可以是无线保真(WIreless-Fidelity,WIFI)网络,当然还可以是其他可能的网络,本公开实施例对此不做限定。
在本公开实施例中,用户可以通过终端101登录音乐播放平台进行听歌识曲操作,也可以进行播放歌曲等操作。如果用户通过对应的终端101登录音乐播放平台对某一个歌曲进行听歌识曲操作,然后电子设备102可以获取到该歌曲的音频信号,并对该音频信号进行相关处理,从而可以获得该歌曲对应的音频指纹。
下面结合说明书附图介绍本公开实施例提供的技术方案。
图2是本公开实施例提供的一示例性音频指纹的提取方法的流程图,如图2所示,该方法可以应用于前述的电子设备。图2所示的流程图描述如下。
步骤201:确定待处理的音频信号。
步骤202:对待处理的音频信号进行频谱特征提取处理,获得目标频谱图。
在本公开实施例中,可以通过终端向电子设备发送待处理的音频信号,具体的,可以是终端仅向电子设备发送一条音频信号,从而电子设备可以将该条音频信号作为待处理的音频信号;还可以是终端向电子设备发送多条音频信号,电子设备根据预设规则确定待处理的音频信号,具体的,该预设规则例如是音频信号的内存小于或等于预设内存值,或者是音频信号的运行时长小于或等于预设时长,本公开实施例中不做限制。
在本公开实施例中,当确定待处理的音频信号后,还可以对待处理的音频信号进行频谱特征提取处理,从而可以获得目标频谱图。
在具体的实施过程中,可以先将待处理的音频信号通过一个高通滤波器,即可以提升待处理的信号对应的高频部分,使得待处理的音频信号的频谱变的平坦。然后将处理后的第一音频信号进行分帧和加窗处理,得到处理后的第二音频信号,并将处理后的第二音频信号进行快速傅里叶变换,从而得到待处理的音频信号在频谱上的能量分布图。具体的,该能量分布图即为前述的目标频谱图,目标频谱图可以理解为个M*N维的矩阵,每个矩阵里的数值可以看作图片中的一个像素,该像素的坐标可以理解为能量值。
步骤203:从目标频谱图中提取局部区域峰值点,获得局部峰值点候选集,局部峰值点候选集包括目标频谱图上按照预设频段划分的各区域中的峰值点。
在本公开实施例中,可以对目标频谱图进行第一预设处理,其中,第一预设处理为最大值池化处理,从而可以获得局部峰值点候选集,局部峰值点候选集包括目标频谱图上任一局部区域中最大的峰值点。
在具体的实施过程中,可以对目标频谱图进行最大值池化处理即Max Pooling操作,具体为将目标频谱图的整个图像被不重叠的分割成若干个同样大小的分块,即将目标频谱图的按照预设频段划分为相同大小的各区域,然后每个分块内只取最大的数值,在舍弃其它数值后输出,即可以获得局部峰值点候选集。
步骤204:从目标频谱图的平坦区域中提取峰值点,获得平坦区域的局部峰值点集合,其中,平坦区域为目标频谱图中与相邻能量值的差值属于第一预定范围,且能量值小于第一预定值的多个能量值所组成的连通区域。
在本公开实施例中,可以从目标频谱图的平坦区域中提取峰值点,获得平坦区域的局部峰值点集合,其中,获得平坦区域的局部峰值点集合具体的处理方式如下:
步骤A:确定目标频谱图的平坦区域。
在本公开实施例中,可以对目标频谱图进行均值池化处理,得到目标频谱图对应的局部平均值图,然后可以将目标频谱图中的能量值减去局部平均值图中的能量值,获得处理值集。若确定处理值集中的多个处理值与第二预定阈值的差值属于预定范围,则可以根据多个处理值对应的能量值在目标频谱图中的位置,确定目标频谱图中的平坦区域。
在具体的实施过程中,可以将目标频谱图的整个图像被不重叠的分割成若干个同样大小的分块,然后每个分块内取平均值,在舍弃其它值后输出,从而可以获得目标频谱图对应的局部平均值图。然后用目标频谱图中的能量值减去局部平均值图中的能量值,可以获得处理值集。进一步地,若确定处理值集中的多个处理值与第二预定阈值的差值属于预定范围,则可以根据多个处理值对应的能量值在目标频谱图中的位置,确定目标频谱图中的平坦区域。例如,若预定范围为0-0.5,如果处理值属于0-0.5,则可以确定处理值对应的区域就是平坦区域,即平坦区域中的处理值接近0。
步骤B:对平坦区域进行蚀刻处理,获得第一平坦区域,并对第一平坦区域进行最大值池化处理,以获得第一平坦区域的局部峰值点集合。
在本公开实施例中,可以确定平坦区域中的第一处理子区域,其中,第一处理子区域为平坦区域中按照第一预设频段划分的各区域中的任一子区域。然后可以将第一处理子区域中的处理值进行蚀刻处理,获得蚀刻处理后的对应值;进一步地,可以将对应值中与预设值相同的值对应删除,获得第一处理子区域对应的能量值,以获得第一平坦区域。在本公开实施例中,通过蚀刻处理后的第一平坦区域,可以使得平坦区域边缘的具有较高鲁棒性的峰值点被保留下来。
在具体的实施过程中,可以根据实际处理经验预先设置第一预设频段,该第一预设频段对应的范围例如是3*3或者是5*5的矩阵范围,从而可以将该矩阵范围对应的任一区域确定第一处理子区域,然后对第一处理子区域中的处理值进行蚀刻处理,从而可以得到蚀刻处理后的对应值,进而将对应值中与预设值相同的值对应删除,获得第一处理子区域对应的能量值,根据各个区域对应的能量值确定第一平坦区域。在本公开实施例中,通过对平坦区域进行蚀刻处理,可以保留平坦区域中鲁棒性较好的峰值点。
例如,请参见图3,图3为本公开实施例提供的一示例性平坦区域蚀刻处理过程的示意图,具体的,图3中包括3个过程示意图,分别为a示意图、b示意图以及c示意图,a示意图对应示出的是第一处理子区域,b示意图对应示出的是预处理后的第一处理子区域,c示意图对应示出的是蚀刻处理后的第一处理子区域,其中,c示意图中数字1对应的部分为第一处理子区域即平坦区域的子区域。
步骤205:基于局部峰值点候选集和平坦区域的局部峰值点集合,得到目标局部峰值点集合,并根据目标局部峰值点集合确定待处理的音频信号的音频指纹。
在本公开实施例中,可以从局部峰值点候选集中剔除平坦区域的局部峰值点集合中的峰值点,得到目标局部峰值点集合。然后可以将目标局部峰值点集合中的峰值点生成一个哈希值,并将该哈希值作为音频指纹,从而可以得到待处理的音频信号的音频指纹。具体的,根据目标局部峰值点集合中的峰值点获得音频指纹的方式可以是采用Quad算法,当然,也可以采用其它算法,本公开实施例中不做限定。进一步地,在本公开实施例中,还可以将获得的音频指纹建立索引,从而为音频检索提供索引基础。
在本公开实施例中,通过采用前述的方法,可以对待处理的音频信号对应的目标频谱图中的平坦区域进行处理,获得平坦区域的局部峰值点集合。然后从局部峰值点候选集中删除平坦区域的局部峰值点集合,即得到较少数量的局部峰值点,可以获得较少数量的音频指纹,从而在一定程度上提高索引性能。此外,由于去除了平坦区域的局部峰值点集合中的峰值点,即减少了容易造成混淆的峰值点,使得提取的音频指纹更具有鲁棒性,从而对音频检索准确性提高。
基于同一发明构思,本公开实施例提供了一种音频指纹的提取装置,该音频指纹的提取装置能够实现前述的音频指纹的提取方法对应的功能。该音频指纹的提取装置可以是硬件结构、软件模块、或硬件结构加软件模块。该音频指纹的提取装置可以由芯片系统实现,芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。请参见图4所示,该音频指纹的提取装置包括处理单元401、第一获得单元402、第二获得单元403以及确定单元404。其中:
处理单元401,被配置为执行确定待处理的音频信号,并对所述待处理的音频信号进行频谱特征提取处理,获得目标频谱图;
第一获得单元402,被配置为执行从所述目标频谱图中提取局部区域峰值点,获得局部峰值点候选集,所述局部峰值点候选集包括所述目标频谱图上按照预设频段划分的各区域中的峰值点;以及,
第二获得单元403,被配置为执行从所述目标频谱图的平坦区域中提取峰值点,获得平坦区域的局部峰值点集合,其中,所述平坦区域为所述目标频谱图中与相邻能量值的差值属于第一预定范围,且能量值小于第一预定值的多个能量值所组成的连通区域;
确定单元404,基于所述局部峰值点候选集和所述平坦区域的局部峰值点集合,得到目标局部峰值点集合,并根据所述目标局部峰值点集合确定所述待处理的音频信号的音频指纹,其中,所述目标局部峰值点集合包括从所述局部峰值点候选集中剔除所述平坦区域的局部峰值点集合中的峰值点。
在一种可能的实施方式中,所述第二获得单元403被配置为执行:
确定所述目标频谱图的平坦区域;
对所述平坦区域进行蚀刻处理,获得第一平坦区域,并对所述第一平坦区域进行最大值池化处理,以获得所述第一平坦区域的局部峰值点集合。
在一种可能的实施方式中,所述第二获得单元403被配置为执行:
对所述目标频谱图进行均值池化处理,得到所述目标频谱图对应的局部平均值图;
将所述目标频谱图中的能量值减去所述局部平均值图中的能量值,获得处理值集;
若确定所述处理值集中的多个处理值与第二预定阈值的差值属于预定范围,则根据所述多个处理值对应的能量值在所述目标频谱图中的位置,确定所述目标频谱图的平坦区域。
在一种可能的实施方式中,所述第二获得单元403被配置为执行:
确定所述平坦区域中的第一处理子区域,其中,所述第一处理子区域为所述平坦区域中按照预设频段划分的各区域中的任一子区域;
将所述第一处理子区域中的处理值进行蚀刻处理,获得蚀刻处理后的对应值;
将所述对应值中与预设值相同的值对应删除,获得第一处理子区域对应的能量值,以获得所述第一平坦区域。
在一种可能的实施方式中,所述第一获得单元403被配置为执行:
对所述目标频谱图进行最大值池化处理,获得局部峰值点候选集。
前述如图2的音频指纹的提取方法的实施例涉及的各步骤的所有相关内容均可以援引到本公开实施例中的音频指纹的提取装置所对应的功能单元的功能描述,在此不再赘述。
本公开实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本公开各个实施例中的各功能单元可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
基于同一发明构思,本公开实施例还提供一种电子设备,如图5所示,本公开实施例中的电子设备包括至少一个处理器501,以及与至少一个处理器501连接的存储器502和通信接口503,本公开实施例中不限定处理器501与存储器502之间的具体连接介质,图5中是以处理器501和存储器502之间通过总线500连接为例,总线500在图5中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线500可以分为地址总线、数据总线、控制总线等,为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在本公开实施例中,存储器502存储有可被至少一个处理器501执行的指令,至少一个处理器501通过执行存储器502存储的指令,可以执行前述的音频指纹的提取方法中所包括的步骤。
其中,处理器501是电子设备的控制中心,可以利用各种接口和线路连接整个故障检测设备的各个部分,通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据,计算设备的各种功能和处理数据,从而对计算设备进行整体监控。可选的,处理器501可包括一个或多个处理单元,处理器501可集成应用处理器和调制解调处理器,其中,处理器501主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。在一些实施例中,处理器501和存储器502可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器501可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本公开实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本公开实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
通信接口503是能够用于进行通信的传输接口,可以通过通信接口503接收数据或者发送数据。
参见图6所示的电子设备的进一步地的结构示意图,该电子设备还包括帮助电子设备内的各个器件之间传输信息的基本输入/输出系统(I/O系统)601、用于存储操作系统602、应用程序603和其他程序模块604的大容量存储设备605。
基本输入/输出系统601包括有用于显示信息的显示器606和用于用户输入信息的诸如鼠标、键盘之类的输入设备607。其中显示器606和输入设备607都通过连接到系统总线500的基本输入/输出系统601连接到处理器501。所述基本输入/输出系统601还可以包括输入输出控制器以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备605通过连接到系统总线500的大容量存储控制器(未示出)连接到处理器501。所述大容量存储设备605及其相关联的计算机可读介质为该服务器包提供非易失性存储。也就是说,大容量存储设备605可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
根据本公开的各种实施例,该计算设备包还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即该计算设备可以通过连接在所述系统总线500上的通信接口503连接到网络608,或者说,也可以使用通信接口503来连接到其他类型的网络或远程计算机系统(未示出)。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器502,上述指令可由装置的处理器501执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在一些可能的实施方式中,本公开提供的音频指纹的提取方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本公开各种示例性实施方式的音频指纹的提取方法中的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。

Claims (12)

1.一种音频指纹的提取方法,其特征在于,所述方法包括:
确定待处理的音频信号,并对所述待处理的音频信号进行频谱特征提取处理,获得目标频谱图;
从所述目标频谱图中提取局部区域峰值点,获得局部峰值点候选集,所述局部峰值点候选集包括所述目标频谱图上按照预设频段划分的各区域中的峰值点;以及,
从所述目标频谱图的平坦区域中提取峰值点,获得平坦区域的局部峰值点集合,其中,所述平坦区域为所述目标频谱图中与相邻能量值的差值属于第一预定范围,且能量值小于第一预定值的多个能量值所组成的连通区域;
基于所述局部峰值点候选集和所述平坦区域的局部峰值点集合,得到目标局部峰值点集合,并根据所述目标局部峰值点集合确定所述待处理的音频信号的音频指纹,其中,所述目标局部峰值点集合包括从所述局部峰值点候选集中剔除所述平坦区域的局部峰值点集合中的峰值点。
2.如权利要求1所述的方法,其特征在于,所述从所述目标频谱图的平坦区域中提取峰值点,获得平坦区域的局部峰值点集合,包括:
确定所述目标频谱图的平坦区域;
对所述平坦区域进行蚀刻处理,获得第一平坦区域,并对所述第一平坦区域进行最大值池化处理,以获得所述第一平坦区域的局部峰值点集合。
3.如权利要求2所述的方法,其特征在于,所述确定所述目标频谱图的平坦区域,包括:
对所述目标频谱图进行均值池化处理,得到所述目标频谱图对应的局部平均值图;
将所述目标频谱图的能量值减去所述局部平均值图中的能量值,获得处理值集;
若确定所述处理值集中的多个处理值与第二预定阈值的差值属于预定范围,则根据所述多个处理值对应的能量值在所述目标频谱图中的位置,确定所述目标频谱图的平坦区域。
4.如权利要求3所述的方法,其特征在于,所述对所述平坦区域进行蚀刻处理,获得第一平坦区域,包括:
确定所述平坦区域中的第一处理子区域,其中,所述第一处理子区域为所述平坦区域中按照第一预设频段划分的各区域中的任一子区域;
将所述第一处理子区域中的处理值进行蚀刻处理,获得蚀刻处理后的对应值;
将所述对应值中与预设值相同的值对应删除,获得第一处理子区域对应的能量值,以获得所述第一平坦区域。
5.如权利要求1所述的方法,其特征在于,从所述目标频谱图中提取局部区域峰值点,获得局部峰值点候选集,包括:
对所述目标频谱图进行最大值池化处理,获得局部峰值点候选集。
6.一种音频指纹的提取装置,其特征在于,所述装置包括:
处理单元,被配置为执行确定待处理的音频信号,并对所述待处理的音频信号进行频谱特征提取处理,获得目标频谱图;
第一获得单元,被配置为执行从所述目标频谱图中提取局部区域峰值点,获得局部峰值点候选集,所述局部峰值点候选集包括所述目标频谱图上按照预设频段划分的各区域中的峰值点;以及,
第二获得单元,被配置为执行从所述目标频谱图的平坦区域中提取峰值点,获得平坦区域的局部峰值点集合,其中,所述平坦区域为所述目标频谱图中与相邻能量值的差值属于第一预定范围,且能量值小于第一预定值的多个能量值所组成的连通区域;
确定单元,基于所述局部峰值点候选集和所述平坦区域的局部峰值点集合,得到目标局部峰值点集合,并根据所述目标局部峰值点集合确定所述待处理的音频信号的音频指纹,其中,所述目标局部峰值点集合包括从所述局部峰值点候选集中剔除所述平坦区域的局部峰值点集合中的峰值点。
7.如权利要求6所述的装置,其特征在于,所述第二获得单元被配置为执行:
确定所述目标频谱图的平坦区域;
对所述平坦区域进行蚀刻处理,获得第一平坦区域,并对所述第一平坦区域进行最大值池化处理,以获得所述第一平坦区域的局部峰值点集合。
8.如权利要求7所述的装置,其特征在于,所述第二获得单元被配置为执行:
对所述目标频谱图进行均值池化处理,得到所述目标频谱图对应的局部平均值图;
将所述目标频谱图中的能量值减去所述局部平均值图中的能量值,获得处理值集;
若确定所述处理值集中的多个处理值与第二预定阈值的差值属于预定范围,则根据所述多个处理值对应的能量值在所述目标频谱图中的位置,确定所述目标频谱图的平坦区域。
9.如权利要求8所述的装置,其特征在于,所述第二获得单元被配置为执行:
确定所述平坦区域中的第一处理子区域,其中,所述第一处理子区域为所述平坦区域中按照第一预设频段划分的各区域中的任一子区域;
将所述第一处理子区域中的处理值进行蚀刻处理,获得蚀刻处理后的对应值;
将所述对应值中与预设值相同的值对应删除,获得第一处理子区域对应的能量值,以获得所述第一平坦区域。
10.如权利要求6所述的装置,其特征在于,所述第一获得单元被配置为执行:
对所述目标频谱图进行最大值池化处理,获得局部峰值点候选集。
11.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至权利要求5中任一项所述的音频指纹的提取方法。
12.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至权利要求5中任一项所述的音频指纹的提取方法。
CN202010845686.XA 2020-08-20 2020-08-20 一种音频指纹的提取方法、装置、电子设备及存储介质 Active CN112037814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010845686.XA CN112037814B (zh) 2020-08-20 2020-08-20 一种音频指纹的提取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010845686.XA CN112037814B (zh) 2020-08-20 2020-08-20 一种音频指纹的提取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112037814A CN112037814A (zh) 2020-12-04
CN112037814B true CN112037814B (zh) 2024-01-30

Family

ID=73580219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010845686.XA Active CN112037814B (zh) 2020-08-20 2020-08-20 一种音频指纹的提取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112037814B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784097B (zh) * 2021-01-21 2024-03-26 百果园技术(新加坡)有限公司 一种音频特征的生成方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479505A (zh) * 2010-11-30 2012-05-30 Jvc建伍株式会社 声音处理装置及声音处理方法
JP2015125238A (ja) * 2013-12-26 2015-07-06 Pioneer DJ株式会社 音声信号処理装置、音声信号処理装置の制御方法、プログラム
WO2019185529A1 (en) * 2018-03-28 2019-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing a fingerprint of an input signal
CN111400542A (zh) * 2020-03-20 2020-07-10 腾讯科技(深圳)有限公司 音频指纹的生成方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9159328B1 (en) * 2014-03-27 2015-10-13 Verizon Patent And Licensing Inc. Audio fingerprinting for advertisement detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479505A (zh) * 2010-11-30 2012-05-30 Jvc建伍株式会社 声音处理装置及声音处理方法
JP2015125238A (ja) * 2013-12-26 2015-07-06 Pioneer DJ株式会社 音声信号処理装置、音声信号処理装置の制御方法、プログラム
WO2019185529A1 (en) * 2018-03-28 2019-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing a fingerprint of an input signal
CN111400542A (zh) * 2020-03-20 2020-07-10 腾讯科技(深圳)有限公司 音频指纹的生成方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于哈希的音频指纹提取算法的研究》;罗凤鸣;《中国优秀硕士学位论文全文数据库信息科技辑》(第02期);全文 *

Also Published As

Publication number Publication date
CN112037814A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN108932124A (zh) 神经网络模型压缩方法、装置、终端设备及存储介质
CN110826418B (zh) 脸部特征提取方法及装置
CN110503682B (zh) 矩形控件识别方法、装置、终端及存储介质
CN107404486B (zh) 解析Http数据的方法、装置、终端设备及存储介质
TW202127376A (zh) 基於圖像的指紋品質評估方法、裝置及電子設備
CN109685805B (zh) 一种图像分割方法及装置
CN111444807A (zh) 目标检测方法、装置、电子设备和计算机可读介质
CN112037814B (zh) 一种音频指纹的提取方法、装置、电子设备及存储介质
CN110766074B (zh) 生物识别方法中异常纹路识别合格性的测试方法及装置
CN110889009A (zh) 一种声纹聚类方法、装置、处理设备以及计算机存储介质
US20190115044A1 (en) Method and device for audio recognition
CN112966756A (zh) 一种可视化的准入规则的生成方法、装置、机器可读介质及设备
TWI818496B (zh) 指紋識別方法、指紋模組及電子設備
CN110969640A (zh) 视频图像的分割方法、终端设备以及计算机可读存储介质
CN113032071B (zh) 页面元素定位方法、页面测试方法、装置、设备和介质
CN115546105A (zh) 一种轮胎花纹检测方法、装置、可读存储介质及终端设备
CN114218428A (zh) 音频数据聚类方法、装置、设备及存储介质
CN113312946A (zh) 指纹图像的特征提取方法、装置及计算机可读存储介质
CN110929623A (zh) 多媒体文件的识别方法、装置、服务器和存储介质
CN113128660A (zh) 深度学习模型压缩方法及相关设备
TWI712033B (zh) 聲音識別方法、裝置、電腦裝置及存儲介質
CN114020192B (zh) 一种基于曲面电容实现非金属平面的互动方法和系统
CN113283978B (zh) 基于生物基础与行为特征及业务特征的金融风险评估方法
CN113950054B (zh) 号码识别方法、装置、电子设备及存储介质
CN112487079A (zh) 基于云计算的页面大数据分析方法及区块链金融服务中心

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant