CN111583963B - 一种重复音频检测方法、装置、设备及存储介质 - Google Patents
一种重复音频检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111583963B CN111583963B CN202010419124.9A CN202010419124A CN111583963B CN 111583963 B CN111583963 B CN 111583963B CN 202010419124 A CN202010419124 A CN 202010419124A CN 111583963 B CN111583963 B CN 111583963B
- Authority
- CN
- China
- Prior art keywords
- audio data
- audio
- features
- similarity
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 60
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000005259 measurement Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims description 44
- 230000003252 repetitive effect Effects 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 15
- 230000008569 process Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种重复音频检测方法、装置、设备及存储介质,该方法包括:分别获取待检测音频数据集中的各音频数据的音频特征;根据待检测音频数据集中的各音频数据的音频特征,分别确定每两个音频数据间的相似度影响序列;其中,相似度影响序列包括该两个音频数据的音频特征的每一特征维度对于度量该两个音频数据的相似度的贡献度;对于待检测音频数据集中的每两个音频数据,依据其各自的音频特征,和该两个音频数据间的相似度影响序列,确定该两个音频数据各自的加权音频特征;以待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度为依据,检测待检测音频数据集中的重复音频数据。采用上述方案可以更准确地检测出重复音频数据。
Description
技术领域
本申请涉及数字音频处理技术领域,尤其涉及一种重复音频检测方法、装置、设备及存储介质。
背景技术
随着信息技术向数字化、智能化方向发展,音频数据的生成量和存储量均急剧增加。重复的音频数据会给音频数据的存储和处理带来严重的资源浪费。
因此,从音频数据中检测出重复的音频数据,是节省音频数据存储空间以及提高音频数据处理效率的关键,也是音频数据处理过程中急需解决的问题。
发明内容
基于上述需求,本申请提出一种重复音频检测方法、装置、设备及存储介质,用以实现从音频数据中检测出重复的音频数据。
为了达到上述目的,本申请具体提出如下技术方案:
一种重复音频检测方法,其特征在于,包括:
分别获取待检测音频数据集中的各音频数据的音频特征;
根据所述待检测音频数据集中的各音频数据的音频特征,分别确定每两个音频数据间的相似度影响序列;其中,所述相似度影响序列包括该两个音频数据的音频特征的每一特征维度对于度量该两个音频数据的相似度的贡献度;
对于所述待检测音频数据集中的每两个音频数据,依据其各自的音频特征,和该两个音频数据间的相似度影响序列,确定该两个音频数据各自的加权音频特征;
以所述待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度为依据,检测所述待检测音频数据集中的重复音频数据。
一种重复音频检测装置,其特征在于,包括:
特征获取单元,用于分别获取待检测音频数据集中的各音频数据的音频特征;
参数获取单元,用于根据所述待检测音频数据集中的各音频数据的音频特征,分别确定每两个音频数据间的相似度影响序列;其中,所述相似度影响序列包括该两个音频数据的音频特征的每一特征维度对于度量该两个音频数据的相似度的贡献度;
特征处理单元,用于对于所述待检测音频数据集中的每两个音频数据,依据其各自的音频特征,和该两个音频数据间的相似度影响序列,确定该两个音频数据各自的加权音频特征;
检测处理单元,用于以所述待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度为依据,检测所述待检测音频数据集中的重复音频数据。
一种重复音频检测设备,包括:
存储器和处理器;
其中,所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中存储的程序,实现上述的重复音频检测方法。
一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述的重复音频检测方法。
本申请提出的重复音频检测方法,能够根据待检测音频数据集中的每条音频数据的音频特征,分别确定每两个音频数据间的相似度影响序列;其中,所述相似度影响序列包括该两个音频数据的音频特征的每一特征维度对于度量该两个音频数据的相似度的贡献度;进而,对于所述待检测音频数据集中的每两个音频数据,依据其各自的音频特征,和该两个音频数据间的相似度影响序列,确定该两个音频数据各自的加权音频特征;最后,以所述待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度为依据,检测所述待检测音频数据集合中的重复音频数据。上述的重复音频检测方法,通过计算各音频数据的音频特征的相似度,可以实现重复音频数据的检测。
同时,本申请所提出的重复音频检测方法在计算音频数据的音频特征相似度时,充分考虑了音频特征的各特征维度对于度量音频数据间的相似度的贡献度,并基于各特征维度对于度量音频数据间的相似度的贡献度,确定音频数据的加权音频特征。因此,度量音频数据的加权音频特征之间的相似度,能够更加准确地反映音频数据之间的相似度,也就是,采用本申请提出的重复音频检测方法,能够更加准确地度量音频数据的相似度,从而能够更加准确地检测出重复的音频数据。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请实施例提供的一种重复音频检测方法的流程示意图;
图2是本申请实施例提供的另一种重复音频检测方法的流程示意图;
图3是本申请实施例提供的一种重复音频检测装置的结构示意图;
图4是本申请实施例提供的一种重复音频检测设备的结构示意图。
具体实施方式
本申请实施例技术方案适用于重复音频检测应用场景,采用本申请实施例技术方案,能够更准确、高效地从音频数据集中检测出重复的音频数据。
音频数据存储以及音频数据处理是数字音频处理技术领域常见的处理内容。在数字音频处理技术领域中,用户通常应用多种手段搜集其需要处理的音频,因此同一条音频往往由于不同的手段而重复采集,重复采集的音频数据对于音频数据存储以及音频数据处理来说,都会带来不必要的资源浪费。因此,从大量的音频数据中筛选或检测出重复音频数据,并予以剔除,是提升音频数据处理效率的关键处理。
目前,重复的音频数据需要相应的专业语言人才进行人工筛选,该过程费时耗力,特别当数据量大的时候,一方面由于不能按时处理完从而无法满足重复音频筛选的时效性要求,另一方面筛选质量也难以保证;而对于小语种领域的重复音频数据筛选,由于相应语言人才的稀缺,其难度更大。
本领域技术人员经过研究,提出了原声比对技术,用于实现重复音频检测。该原声比对技术首先通过快速傅里叶变换将原始音频波形由时域变换到频域,然后在得到的频谱图上提取landmark(频域极值点)特征,将特征组合在一起构建音频指纹,最后通过音频指纹比对确定这段音频是否来自于指定音频库,从而实现重复音频的检测和识别。
但是在实际应用中发现,上述的原声比对技术存在如下弊端:
(a)当音频的某些频带上存在能量和密度都很大的时间上连续的峰值点,即电流音时,电流音会导致在原声检索时,短时间内就可以获得很大的得分,从而导致识别错误。而目前应用系统中由于接收设备方面的原因,获得的音频数据中存在大量的电流声,所以会导致大量的虚警。
(b)有些音频的能量在频谱图各个频带上分布都比较均匀且能量值较大,如果这些音频被当成建库音频插入检索音频库中,经常会造成检材都匹配到这种音频,而用这种类型的音频作为检材去检索库中检索时,也会匹配到各种不相关的音频,对系统检索准确率造成影响。
(c)实际应用中音频数量大且时长长,运用该技术构建指纹库的实时率难以满足实际应用的需求。
因此,上述的原声比对技术只是理论上可以实现自动化的重复音频检测,但是在实际应用中的检测效果并不理想。
基于上述技术现状,本申请发明人经过研究,提出本申请所示的重复音频检测方法,该方法能够实现自动化的重复音频检测,并且相对现有技术具有更高的检测准确度。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1所示,本申请实施例提出的重复音频检测方法,包括:
S101、分别获取待检测音频数据集中的各音频数据的音频特征。
具体的,上述的待检测音频数据集,是指由大量的音频数据所构成的集合,该音频数据集中的音频数据,可以是通过任意渠道、通过任意方式采集到的任意格式的音频数据。例如,可以是对人声、音乐等进行录音得到的音频数据,或者是从语音信道中截取的语音数据,或者是通过计算机技术人工合成的音频数据等。
上述的音频数据的音频特征,泛指能够唯一、准确地表示音频数据的特征。对于某一音频数据来说,其音频特征是唯一的能够准确表示该音频数据的特征,通过音频数据的音频特征,可以准确区分不同的音频数据,或相同的音频数据。该音频数据的音频特征,具体可以是任意类型的音频特征,例如可以是音频数据频谱、filter bank特征、瓶颈特征、PLP(Perceptual Linear Prediction,线性感知预测)特征等。
示例性的,上述的音频数据的音频特征,具体可以表示为特征向量的形式。
上述的各音频数据的音频特征获取方式,可以是直接对音频数据进行特征提取处理得到,也可以是从预先存储的音频特征中读取得到,或者是通过任意其他的方式得到,本申请实施例不做限定。当对待检测音频数据集中的各音频数据提取音频特征时,其具体的特征提取过程可以根据所提取的音频特征类型,选取现有的特征提取算法实现,本申请实施例不再详述。
需要说明的是,对获取上述各音频数据的音频特征的处理方式应当统一,从而保证获取的各音频数据的音频特征的维度相同,也就是保证各音频特征的音频数据具有直接可比性。
S102、根据所述待检测音频数据集中的各音频数据的音频特征,分别确定每两个音频数据间的相似度影响序列。
其中,所述相似度影响序列包括该两个音频数据的音频特征的每一特征维度对于度量该两个音频数据的相似度的贡献度。
具体的,在分别获取上述待检测音频数据集中的各个音频数据的音频特征后,本申请实施例以各音频数据的音频特征为依据,进行重复音频数据检测。
在获取待检测音频数据集中的各个音频数据的音频特征的基础上,本申请实施例针对待检测音频数据集中的每两个音频数据,分别确定该两个音频数据间的相似度影响序列。
其中,两个音频数据间的相似度影响序列,是由一定数量的数值元素构成的序列,其序列元素的具体数量,与该两个音频数据的音频特征的特征维度数量相同,并且,该相似度影响序列中的各个元素,与该两个音频数据的音频特征的各个特征维度之间具有一一对应关系。也就是,两个音频数据间的相似度影响序列中的每一个元素,分别对应该两个音频数据的音频特征的一个特征维度。
两个音频数据间的相似度影响序列中的每个元素的数值大小,用于表示在该两个音频数据的音频特征中、与该数值对应的特征维度,对于度量该两个音频数据的相似度的贡献度。
上述的特征维度对于度量两个音频数据的相似度的贡献度,是指两个音频数据的某一相同特征维度,对于度量该两个音频数据的整体相似度的影响程度。如果某一特征维度对于度量两个音频数据的整体相似度的影响程度较大,则当两个音频数据的该特征维度的差异发生一定程度的变化时,该两个音频数据的整体相似度会发生较大变化;如果某一特征维度对于度量两个音频数据的整体相似度的影响程度较小,则当两个音频数据的该特征维度的差异发生相同程度的变化时,该两个音频数据的整体相似度发生较小的变化。
示例性的,本申请实施例设定,两个音频数据间的相似度影响序列中的某一元素的具体取值大小,与该元素对应的特征维度对于度量该两个音频数据的相似度的贡献度成正比。
在两个音频数据的音频特征中的某一相应特征维度之间的差异一定的情况下,如果该两个音频数据间的相似度影响序列中的、与该特征维度对应的元素的取值较大,则表示该特征维度对于该两个音频数据的相似度的影响程度较大,此时认为该两个音频数据的相似度较高;如果该两个音频数据间的相似度影响序列中的、与该特征维度对应的数值较小,则表示该特征维度对于该两个音频数据的相似度的影响程度较小,此时认为该两个音频数据的相似度较低。
可以理解,通过上述的相似度影响序列,可以更加具体地确定两个音频数据的音频特征的各个特征维度,对于度量两个音频数据的相似度的影响程度,从而利于更加准确的通过度量两个音频数据的音频特征的各个特征维度的相似度,来确定两个音频数据的相似度。
需要说明的是,由于待检测音频数据集中的音频数据具有高度的多样性,因此不同音频数据间的各特征维度对于度量音频数据间的相似度的贡献度不同。为了适应大量音频数据的多样性,从而更加准确地度量音频数据间的相似度,本申请实施例对于上述待检测音频数据集中的每两个音频数据,均确定两者间的相似度影响序列。同时,不同的音频数据对之间的相似度影响序列,可以相同也可以不同。
作为示例性的实现方式,上述的分别确定每两个音频数据间的相似度影响序列,可以通过分别计算上述的待检测音频数据集中的每两个音频数据间的相似度影响序列实现,或者,也可以在对待检测音频数据集中的音频数据进行分类的基础上,针对不同类别的音频数据进行两两之间的相似度影响序列计算实现,本申请实施例不做严格限定。
S103、对于所述待检测音频数据集中的每两个音频数据,依据其各自的音频特征,和该两个音频数据间的相似度影响序列,确定该两个音频数据各自的加权音频特征。
具体的,对于上述待检测音频数据集中的每两个音频数据,本申请实施例将该两个音频数据间的相似度影响序列中的每个元素的值,作为与该元素对应的特征维度的权重。基于上述设置,以两个音频数据间的相似度影响序列为依据,对两个音频数据的音频特征的各个特征维度增加权重,得到该两个音频数据的各自的加权音频特征。
可以理解,上述的音频数据的加权音频特征,是指为音频数据的音频特征的各个特征维度增加权重后得到的音频特征。对于两个音频数据来说,其各自的加权音频特征的各个特征维度的权重是相同的,其中,某一特征维度的权重,即为该特征维度对于对量该两个音频数据的相似度的贡献度。
示例性的,对于待检测音频数据集中的每两个音频数据,将两个音频数据各自的音频特征的各个特征维度,分别乘以该两个音频数据间的相似度影响序列中的、与该特征维度对应的元素的值,,也就是与该特征维度对应的贡献度,即可得到该两个音频数据各自的加权音频特征。
例如,假设上述的音频数据集中的某两个音频数据分别为音频数据X和音频数据Y,并且音频数据X的音频特征为(X1,X2,…,XM),音频数据Y的音频特征为(Y1,Y2,…,YM),并且音频数据X和音频数据Y之间的相似度影响序列为(a1,a2,…,aM),则音频数据X的加权音频特征为(a1X1,a2X2,…,aMXM),音频数据Y的加权音频特征为(a1Y1,a2Y2,…,aMYM)。
S104、以所述待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度为依据,检测所述待检测音频数据集中的重复音频数据。
通过上述介绍可以确定,音频数据的加权音频特征的各个特征维度,携带了该特征维度对于度量音频数据与其他音频数据的相似度的贡献度信息。计算音频数据的加权音频特征之间的相似度,可以更加准确地衡量音频数据间的相似度。
因此,在分别获取待检测音频数据集中的每两个音频数据各自的加权音频特征后,计算该两个音频数据的加权音频特征的相似度。按照上述处理,可以得到待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度。
示例性的,上述的计算两个音频数据的加权音频特征的相似度,可以通过计算两个音频数据的加权音频特征的余弦距离实现。或者也可以通过其他的向量相似度计算方式实现,本申请实施例不做严格限定。
在此基础上,以待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度为依据,从待检测音频数据集中检测重复音频数据。
作为一种示例性的实现方式,当某两个音频数据的加权音频特征的相似度大于设定的相似度阈值时,即可认为该两个音频数据为重复的音频数据。按照上述处理,遍历待检测音频数据集中的每两个音频数据,可以确定待检测音频数据集中的重复音频数据。
或者,也可以根据待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度为依据,通过人工智能算法,对待检测音频数据集中的数据进行重复音频数据检测。
理论上,当待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度确定后,也就相当于确定了待检测音频数据集中的每两个音频数据的相似度。在此基础上,从待检测音频数据集中检测重复音频数据的处理,可以通过任意可行方式进行,例如也可以采用现有技术中相关的去重方案进行,本申请实施例不再一一详述。
通过上述介绍可见,本申请实施例提出的重复音频检测方法,能够根据待检测音频数据集中的每条音频数据的音频特征,分别确定每两个音频数据间的相似度影响序列;其中,所述相似度影响序列包括该两个音频数据的音频特征的每一特征维度对于度量该两个音频数据的相似度的贡献度;进而,对于所述待检测音频数据集中的每两个音频数据,依据其各自的音频特征,和该两个音频数据间的相似度影响序列,确定该两个音频数据各自的加权音频特征;最后,以所述待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度为依据,检测所述待检测音频数据集合中的重复音频数据。上述的重复音频检测方法,通过计算各音频数据的音频特征的相似度,可以实现重复音频数据的检测。
同时,本申请实施例所采用的特征相似度计算方案与常规的特征相似度计算方案不同。常规的特征相似度计算方案对于特征的各个特征维度,均按照均等的贡献度来计算该特征与其他特征的相似度,这种处理方式无法准确把握各特征维度对于特征间的相似度度量的影响程度,无法准确地把握不同的特征在某个或某些特征维度上的区别程度或关联程度,也就无法准确度量特征间的相似度。
而本申请实施例所提出的重复音频检测方法在计算音频数据的音频特征相似度时,充分考虑了音频特征的各特征维度对于度量音频数据间的相似度的贡献度,并基于各特征维度对于度量音频数据间的相似度的贡献度,确定音频数据的加权音频特征。因此,度量音频数据的加权音频特征之间的相似度,能够更加准确地把握不同音频数据的音频特征在各个特征维度上的区别程度或关联程度,能够更加准确地反映音频数据之间的相似度,也就是,采用本申请提出的重复音频检测方法,能够更加准确地度量音频数据的相似度,从而能够更加准确地检测出重复的音频数据。
作为一种可选的实现方式,上述的根据所述待检测音频数据集中的各音频数据的音频特征,分别确定每两个音频数据间的相似度影响序列,包括:
首先,根据所述待检测音频数据集中的各音频数据的音频特征,分别确定每两个音频数据的音频特征的各个特征维度的贡献度。
其中,该两个音频数据的音频特征的每个特征维度的贡献度,包括其对于度量该两个音频数据的音频特征之间的相似度的贡献度。
具体的,以待检测音频数据集中的各音频数据的音频特征为依据,本申请实施例分别确定待检测音频数据集中的每两个音频数据的音频特征的各个特征维度的贡献度。
其中,上述的两个音频数据的音频特征的各个特征维度的贡献度,具体包括该两个音频数据的音频特征的各个特征维度对于度量该两个音频数据的音频特征之间的相似度的贡献度,也就是对于度量该两个音频数据的音频特征之间的相似度的影响程度。
示例性的,通过统计同种类型的音频数据对(由两个音频数据构成的音频数据对)的音频特征之间的某一特征维度的区别程度或关联程度,可以确定该特征维度对于度量该种类型的音频数据对的音频特征间的相似度的贡献度。
其次,将该两个音频数据的音频特征的各个特征维度的贡献度构成的序列,作为该两个音频数据间的相似度影响序列。
具体的,通过上述处理,对于待检测音频数据集中的每两个音频数据,均可以确定该两个音频数据的音频特征的各个特征维度对于度量该两个音频数据间的相似度的贡献度。
在此基础上,按照与该两个音频数据的音频特征的各个特征维度一一对应的关系,将该两个音频数据的音频特征的各个特征维度对于度量该两个音频数据的相似度的贡献度组成序列,该序列即为该两个音频数据间的相似度影响序列。
则可以理解,确定每两个音频数据的音频特征的各个特征维度对于度量该两个音频数据的音频特征之间的相似度的贡献度,是获取该两个音频数据间的相似度影响序列的前提和关键。
作为一种示例性的实现方式,本申请实施例提出了上述的根据所述待检测音频数据集中的各音频数据的音频特征,分别确定每两个音频数据的音频特征的各个特征维度的贡献度的具体处理过程,该过程可大致分如下两步骤处理:
首先,根据所述待检测音频数据集中的各音频数据的音频特征,将待检测音频数据集中的音频数据聚类为设定数量的音频数据组,并从所述设定数量的音频数据组中,任选两个音频数据组的音频数据。
示例性的,本申请实施例采用聚类算法,例如k-means算法等,以待检测音频数据集中的各音频数据的音频特征为依据,对待检测音频数据集中的音频数据进行聚类处理,从而将待检测音频数据集中的音频数据划分为设定数量的音频数据组。其中,该设定数量的音频数据组的具体数量,可以灵活设置,或者根据所选用的聚类算法确定。
例如,采用k-means算法,可以将待检测音频数据集中的音频数据聚类为C1,C2,…,Ck共k个音频数据组。
可以理解,对待检测音频数据集中的音频数据进行聚类处理,可以将相较相似的音频数据聚为一类,而将差异较大的音频数据聚为不同类。而此时对待检测音频数据集中的音频数据的聚类处理,是根据音频数据的完整音频特征为依据所进行的聚类处理,其中并没有具体考虑音频特征的各个特征维度对于音频特征间的相似度的影响程度,因此只能从整体上代表不同音频特征之间的相似性或差异性,但是并不能确定音频特征间的相似性或差异性主要是由哪些特征维度决定的。
在将待检测音频数据集中的音频数据聚类为设定数量的音频数据组后,本申请实施例从聚类得到的设定数量的音频数据组中,任选两个音频数据组的音频数据。
然后,根据所选择的音频数据的音频特征的相应特征维度之间的距离,分别确定所选择的音频数据中的每两个音频数据的音频特征的各个特征维度的贡献度。
具体的,所选取的任意两个音频数据组,是具有较大差异的音频数据所构成的音频数据组。虽然已确定该两个音频数据组中的音频数据具有较大差异,也就是该两个音频数据组中的音频数据的音频特征具有较大差异,但是并不确定该差异具体是由音频特征的哪些特征维度的差异决定的。如果能够确定该两个音频数据组中的音频数据的各个特征维度之间的差异,也就能够确定该两个音频数据组的音频数据的音频特征的差异,是受哪些特征维度之间的差异的影响造成的,也就是确定了该两个音频数据组中的音频数据的音频特征的各个特征维度,对于该两个音频数据组中的音频数据的音频特征之间的相似度的影响程度。
基于上述理论,本申请实施例在从设定数量的音频数据组中选出两个音频数据组后,分别计算所选择的两个音频数据组中的音频数据的音频特征的相应特征维度之间的距离,并根据该两个音频数据组中的音频数据的音频特征的相应特征维度之间的距离,确定该两个音频数据组中的音频数据的音频特征的各个特征维度的贡献度,该两个音频数据组中的音频数据的音频特征的各个特征维度的贡献度,即作为该两个音频数据组中的每两个音频数据的音频特征的各个特征维度的贡献度。
示例性的,确定所选择的两个音频数据组的音频数据中的每两个音频数据的音频特征的各个特征维度的贡献度的处理过程,可以按照如下方式实现:
对应所选择的音频数据中的每两个音频数据的音频特征的每个特征维度,分别通过如下处理来确定其贡献度:
将从所述设定数量的音频数据组中选择的第一音频数据组中的目标音频数据的音频特征的该特征维度,与从所述设定数量的音频数据组中选择的第二音频数据组中的目标音频数据的音频特征的该特征维度之间的距离的平均值,设定为该特征维度的贡献度;
其中,所述目标音频数据为从音频数据组中选取的设定数量的音频数据。
具体的,在计算从设定数量的音频数据组中选取的任意两个音频数据组中的每两个音频数据的音频特征的某一个特征维度的贡献度时,从所选择的两个音频数据组中的第一音频数据组中,选取设定数量的音频数据作为目标音频数据,同时,从第二音频数据组中,选取设定数量的音频数据作为目标音频数据。对于从第一音频数据组中选取的目标音频数据,以及从第二音频数据组中选取的目标音频数据,计算其音频特征的该特征维度的距离的平均值,作为该两个音频数据组中的每两个音频数据的音频特征的该特征维度的贡献度。
按照上述处理,可以计算确定所选取的两个音频数据组中的每两个音频数据的音频特征的各个特征维度的贡献度。
示例性的,假设从上述设定数量的音频数据组中选取Ci和Cj两个音频数据组,该两个音频数据组中的音频数据的音频特征为M维的音频特征。则当计算该两个音频数据组中的每两个音频数据的音频特征的第m维特征的贡献度时,可以按照如下公式计算:
其中,wij(m)表示Ci和Cj中的音频数据的第m维特征的贡献度;Vin(m)表示Ci中的某一目标音频数据的音频特征的第m维特征;Vjn(m)表示Cj中的某一目标音频数据的音频特征的第m维特征;d(Vin(m),Vjn(m))表示Ci中的目标音频数据的音频特征的第m维特征,与Cj中的目标音频数据的音频特征的第m维特征之间的距离;N表示从Ci和Cj中选取的目标音频数据的数量。
在上述的计算公式中,的具体计算方式如下:
其中,Vin(m)-Vjn(m)表示Ci中的某一目标音频数据的音频特征的第m维特征,与Cj中的某一目标音频数据的音频特征的第m维特征之间的距离;max(m)表示Ci中的N个目标音频数据与Cj中的N个目标音频数据的音频特征的第m维特征的距离中的最大值;min(m)表示Ci中的N个目标音频数据与Cj中的N个目标音频数据的音频特征的第m维特征的距离中的最小值。
按照上述处理,可以确定所选择的两个音频数据组的音频数据中的每两个音频数据的音频特征的每个特征维度的贡献度。所确定的每个特征维度的贡献度,也就是该两个音频数据组中的任意两个音频数据的音频特征的每个特征维度的贡献度,包括第一音频数据组中的任意两个音频数据的音频特征的每个特征维度的贡献度、第二音频数据组中的任意两个音频数据的音频特征的每个特征维度的贡献度,或者第一音频数据组中的某一音频数据与第二音频数据组中的某一音频数据的音频特征的每个特征维度的贡献度。
可以理解,参照上述处理,对于上述设定数量的音频数据组中的任意两个音频数据组,均可以确定其所包含的音频数据中的任意两个音频数据的音频特征的各个特征维度的贡献度,也就是确定了待检测音频数据集中的每两个音频数据的音频特征的各个特征维度的贡献度。
作为一种示例性的实现方式,上述的目标音频数据,是指从音频数据组中选取的设定数量的、音频特征之间的相似度最高的音频数据。
具体的,当通过聚类算法将待检测音频数据集中的音频数据划分为设定数量的音频数据组后,所得到的音频数据组实际上是一个音频数据簇,在音频数据簇中,越靠近簇中心的音频数据的音频特征的相似度越高,也越能够代表该音频数据簇的音频数据的特点。
为了简化运算量,本申请实施例从音频数据组中选取设定数量的、音频特征之间的相似度最高的音频数据,作为目标音频数据。也就是从音频数据簇的簇中心选取设定数量的音频数据,作为目标音频数据。
可以理解,在实际实施本申请实施例技术方案时,也可以按照其他方式从音频数据组中选择能够代表音频数据组的音频数据作为目标音频数据,或者,也可以将音频数据组中的所有音频数据,均视为目标音频数据。
作为一种示例性的实现方式,当上述的待检测音频数据集中的音频数据为语音数据时,上述的分别获取待检测音频数据集中的各音频数据的音频特征,包括:
首先,提取待检测音频数据集中的各音频数据的PLP(Perceptual LinearPrediction,线性感知预测)特征。具体的,本申请实施例对待检测音频数据集中的各音频数据分别提取39维的PLP特征。在实际应用本申请实施例技术方案时,提取的PLP特征的维度数量可以根据需求或实际情况灵活设定。
上述的PLP特征的提取过程,可以参照现有技术中的PLP特征提取方案实现,本申请实施例不再详述。
然后,将各音频数据的PLP特征,分别输入预先训练的通用背景模型UBM和T矩阵,得到各音频数据的PLP特征的鉴别向量i-vector。
具体的,上述的通用背景模型UBM和T矩阵是基于i-vector声纹识别中常用的算法模型。其中,UBM是使用大量的PLP特征数据训练得到的一个高阶高斯混合模型,可以平滑地逼近任意形状的概率密度函数,T矩阵为全局差异空间矩阵,该空间既包含了说话人空间的信息也包含了信道空间信息。
本申请实施例预先利用音频数据样本,对上述的UBM和T矩阵进行组合训练,使其能够准确地从音频数据的PLP特征中提取得到鉴别向量i-vector。
上述的UBM和T矩阵的功能,以及对其进行训练的过程,均可以参照现有技术执行,本申请实施例不再详述。
最后,将上述的各音频数据的鉴别向量i-vector映射到LDA(LinearDiscriminate Analysis,线性判别分析)空间,得到降维后的鉴别向量,作为各音频数据的音频特征。
具体的,通过将音频数据的鉴别向量映射到LDA空间,可以去除鉴别向量中的信道信息,而保留声纹信息,因此达到了对鉴别向量进行降维的目的,同时使其包含的有用信息更纯净。
将上述处理后的鉴别向量,作为音频数据的音频特征,有助于更准确地表示音频数据特征。
需要说明的是,本申请实施例以语音数据为例,介绍了上述的音频特征提取方案。由于声纹特征是区分语音数据的关键特征,因此上述的音频特征提取过程以提取语音数据的声纹特征为主。可以理解,当上述的待检测音频数据集中的音频数据类型改变时,可以适应调整相应的音频特征提取方案,本申请实施例不再一一详述。
基于上述的提取待检测音频数据集中的各音频数据的音频特征,以及确定待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度的基础上,参见图2所示,本申请实施例以所述待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度为依据,检测所述待检测音频数据集中的重复音频数据,具体包括:
S204、以所述每两条音频数据的加权音频特征之间的相似度为依据,对所述待检测音频数据集中的音频数据进行聚类处理,得到各个音频数据子集。
具体的,本申请实施例预先设置相似度阈值。当待检测音频数据集中的任意两条音频数据的加权音频特征之间的相似度大于上述的相似度阈值时,将该两条音频数据归为一类,否则将该两条音频数据归为不同类。
按照上述处理,可以实现对待检测音频数据集中的音频数据的聚类处理,得到一个或多个音频数据子集。
S205、基于所述各个音频数据子集,确定所述待检测音频数据集中的重复音频数据。
具体的,经过上述的聚类处理可以确定,在每个音频数据子集内部,所包含的音频数据的加权音频特征的相似度都超过的设定的相似度阈值,即所包含的音频数据为相似度超过相似度阈值的音频数据。
基于音频数据子集中的音频数据的相似度关系,可以从音频数据子集中,确定出待检测音频数据集中的重复音频数据。
一种可选的实现方式是,从聚类得到的各个音频数据子集中,确定出目标音频数据子集。其中,该目标音频数据子集,是指包含的音频数据的数量大于1的音频数据子集。
本申请实施例设置较高的相似度阈值,并以此为标准对待检测音频数据集中的音频数据进行聚类得到各个音频数据子集,则可以理解,各个音频数据子集内部包含的音频数据的相似度较高,可以认为同一音频数据子集中的音频数据为相同的音频数据,也就是同一音频数据子集中的各个音频数据为重复的音频数据。基于上述处理和上述逻辑,本申请实施例从聚类得到的各个音频数据子集中,筛选出目标音频数据子集,并将目标音频数据子集中的音频数据确定为重复的音频数据。
按照上述处理,可以实现待检测音频数据集中的重复音频数据检测。
但是在实际应用中,尤其是对于语音数据来说,采用上述的方案只能从声纹特征入手进行重复语音数据检测,但是对于声纹特征相似度不高,但是语音内容相似度很高的语音数据,也通常被视为重复的语音数据。采用上述方案尚不能实现对该种重复语音数据的检测。
因此,本申请实施例在基于所述各个音频数据子集,确定所述待检测音频数据集中的重复音频数据时,还提出如下的另一种实现方式。
在该实现方式中,当所述待检测音频数据集中的音频数据为语音数据时,所述基于所述各个音频数据子集,确定所述待检测音频数据集中的重复音频数据,包括:
首先,从所述各个音频数据子集中,确定出目标音频数据子集;其中,所述目标音频数据子集包含的音频数据的数量大于1。
具体的,在该实现方式中,本申请实施例设定相对上一实现方式较低的相似度阈值,并基于该相似度阈值对待检测音频数据集中的音频数据进行聚类,得到各个音频数据子集。则可以理解,此时得到的音频数据子集中的音频数据的相似度的跨度范围更大,所包含的音频数据更多。在该实现方式中,实现了对待检测音频数据集的松门限的音频数据聚类。
在聚类得到各个音频数据子集后,从中选出包含的音频数据的数量大于1的音频数据子集,作为目标音频数据子集。
然后,识别所述目标音频数据子集中的每条音频数据的语音内容。
示例性的,对每个目标音频数据子集中的每条音频数据进行连续语音撰写处理,即可识别每个目标音频数据子集中的每条音频数据的语音内容。识别到的语音内容可以以文本形式表示。
最后,根据所述目标音频数据子集中的每条音频数据的语音内容,从所述目标音频数据子集中,筛选语音内容的相似度大于设定的相似度阈值的音频数据,得到重复的音频数据。
具体的,对于每一目标音频数据子集中的音频数据,计算其语音内容之间的相似度,并根据子集内的音频数据的语音内容的相似度,从子集中选出语音内容的相似度大于设定的相似度阈值的音频数据,即得到子集中包含的重复音频数据。此处的相似度阈值,又可称为重复音频判别阈值,当目标音频数据子集中的任意两个音频数据的语音内容的相似度大于该阈值时,即认为该两个音频数据为重复音频数据。
其中,上述的计算音频数据的语音内容之间的相似度,可以示例性地通过计算音频数据的语音内容文本的最小编辑距离确定。
通过上述处理,可以从待检测音频数据集中,检测出声纹特征和语音内容均重复的音频数据,在重复语音检测中具有更好的检测效果。
上述的两种实现方式在实际应用中可以灵活选用。例如,当待检测音频数据集中的音频数据为非语音数据时,可以采用第一种实现方式,以较少的运算量实现重复音频检测;当待检测音频数据集中的音频数据为语音数据时,可以采用第二种实现方式,实现更准确、更全面的重复语音检测。当然,也可以将上述两种实现方式相结合应用,实现对待检测音频数据集中的重复音频数据的更全面、更准确的检测。
图2所示的实施例中的步骤S201~S203分别对应图1所示的方法实施例中的步骤S101~S103,其具体内容请参见上述图1所示的方法实施例的内容,此处不再赘述。
与上述的重复音频检测方法相对应的,本申请实施例还提出一种重复音频检测装置,参见图3所示,该装置包括:
特征获取单元100,用于分别获取待检测音频数据集中的各音频数据的音频特征;
参数获取单元110,用于根据所述待检测音频数据集中的各音频数据的音频特征,分别确定每两个音频数据间的相似度影响序列;其中,所述相似度影响序列包括该两个音频数据的音频特征的每一特征维度对于度量该两个音频数据的相似度的贡献度;
特征处理单元120,用于对于所述待检测音频数据集中的每两个音频数据,依据其各自的音频特征,和该两个音频数据间的相似度影响序列,确定该两个音频数据各自的加权音频特征;
检测处理单元130,用于以所述待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度为依据,检测所述待检测音频数据集中的重复音频数据。
本申请实施例提出的重复音频检测装置,能够根据待检测音频数据集中的每条音频数据的音频特征,分别确定每两个音频数据间的相似度影响序列;其中,所述相似度影响序列包括该两个音频数据的音频特征的每一特征维度对于度量该两个音频数据的相似度的贡献度;进而,对于所述待检测音频数据集中的每两个音频数据,依据其各自的音频特征,和该两个音频数据间的相似度影响序列,确定该两个音频数据各自的加权音频特征;最后,以所述待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度为依据,检测所述待检测音频数据集合中的重复音频数据。上述的重复音频检测装置,通过计算各音频数据的音频特征的相似度,可以实现重复音频数据的检测。
同时,本申请实施例所提出的重复音频检测装置在计算音频数据的音频特征相似度时,充分考虑了音频特征的各特征维度对于度量音频数据间的相似度的贡献度,并基于各特征维度对于度量音频数据间的相似度的贡献度,确定音频数据的加权音频特征。因此,度量音频数据的加权音频特征之间的相似度,能够更加准确地反映音频数据之间的相似度,也就是,采用本申请实施例提出的重复音频检测装置,能够更加准确地度量音频数据的相似度,从而能够更加准确地检测出重复的音频数据。
作为一种可选的实现方式,所述参数获取单元根据所述待检测音频数据集中的各音频数据的音频特征,分别确定每两个音频数据间的相似度影响序列时,具体用于:
根据所述待检测音频数据集中的各音频数据的音频特征,分别确定每两个音频数据的音频特征的各个特征维度的贡献度;其中,该两个音频数据的音频特征的每个特征维度的贡献度,包括其对于度量该两个音频数据的音频特征之间的相似度的贡献度;
将该两个音频数据的音频特征的各个特征维度的贡献度构成的序列,作为该两个音频数据间的相似度影响序列。
作为一种可选的实现方式,所述参数获取单元根据所述待检测音频数据集中的各音频数据的音频特征,分别确定每两个音频数据的音频特征的各个特征维度的贡献度的具体处理过程,包括:
根据所述待检测音频数据集中的各音频数据的音频特征,将待检测音频数据集中的音频数据聚类为设定数量的音频数据组,并从所述设定数量的音频数据组中,任选两个音频数据组的音频数据;
根据所选择的音频数据的音频特征的相应特征维度之间的距离,分别确定所选择的音频数据中的、每两个音频数据的音频特征的各个特征维度的贡献度。
作为一种可选的实现方式,所述根据所选择的音频数据的音频特征的相应特征维度之间的距离,分别确定所选择的音频数据中的每两个音频数据的音频特征的各个特征维度的贡献度,包括:
对应所选择的音频数据中的每两个音频数据的音频特征的每个特征维度,分别通过如下处理确定其贡献度:
将从所述设定数量的音频数据组中选择的第一音频数据组中的目标音频数据的音频特征的该特征维度,与从所述设定数量的音频数据组中选择的第二音频数据组中的目标音频数据的音频特征的该特征维度之间的距离的平均值,设定为该特征维度的贡献度;
其中,所述目标音频数据为从音频数据组中选取的设定数量的音频数据。
作为一种可选的实现方式,所述目标音频数据为从音频数据组中选取的设定数量的、音频特征之间的相似度最高的音频数据。
作为一种可选的实现方式,所述特征处理单元对于所述待检测音频数据集中的每两个音频数据,依据其各自的音频特征,和该两个音频数据间的相似度影响序列,确定该两个音频数据各自的加权音频特征时,具体用于:
对于所述待检测音频数据集中的每两个音频数据,将其各自的音频特征的每个特征维度,分别乘以该两个音频数据间的相似度影响序列中的与该特征维度对应的贡献度,得到该两个音频数据各自的加权音频特征。
作为一种可选的实现方式,所述检测处理单元以所述待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度为依据,检测所述待检测音频数据集中的重复音频数据时,具体用于:
以所述每两条音频数据的加权音频特征之间的相似度为依据,对所述待检测音频数据集中的音频数据进行聚类处理,得到各个音频数据子集;
基于所述各个音频数据子集,确定所述待检测音频数据集中的重复音频数据。
作为一种可选的实现方式,所述基于所述各个音频数据子集,确定所述待检测音频数据集中的重复音频数据,包括:
从所述各个音频数据子集中,确定出目标音频数据子集,并将确定出的每个目标音频数据子集中的音频数据确定为重复的音频数据。
其中,所述目标音频数据子集包含的音频数据的数量大于1。
作为一种可选的实现方式,当所述待检测音频数据集中的音频数据为语音数据时,所述基于所述各个音频数据子集,确定所述待检测音频数据集中的重复音频数据,包括:
从所述各个音频数据子集中,确定出目标音频数据子集;其中,所述目标音频数据子集包含的音频数据的数量大于1;
识别所述目标音频数据子集中的每条音频数据的语音内容;
根据所述目标音频数据子集中的每条音频数据的语音内容,从所述目标音频数据子集中,筛选语音内容的相似度大于设定的相似度阈值的音频数据,得到重复的音频数据。
上述的重复音频检测装置的各个单元的具体工作内容,请参见上述方法实施例的内容,此处不再赘述。
本申请另一实施例还公开了一种重复音频检测设备,参见图4所示,该设备包括:
存储器200和处理器210;
其中,所述存储器200与所述处理器210连接,用于存储程序;
所述处理器210,用于通过运行所述存储器200中存储的程序,实现上述任一实施例公开的重复音频检测方法。
具体的,上述目标检测结果的评测设备还可以包括:总线、通信接口220、输入设备230和输出设备240。
处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中:
总线可包括一通路,在计算机系统各个部件之间传送信息。
处理器210可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
处理器210可包括主处理器,还可包括基带芯片、调制解调器等。
存储器200中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(randomaccess memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
处理器2102执行存储器200中所存放的程序,以及调用其他设备,可用于实现本申请实施例所提供的重复音频检测方法的各个步骤。
本申请另一实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时,实现上述任一实施例提供的重复音频检测方法的各个步骤。
上述的重复音频检测设备的各个部分的具体工作内容,以及上述的存储介质中的计算机程序被处理器运行时的具体处理内容,均可参见本申请上述方法实施例的内容,此处不再重复。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种重复音频检测方法,其特征在于,包括:
分别获取待检测音频数据集中的各音频数据的音频特征;
根据所述待检测音频数据集中的各音频数据的音频特征,分别确定每两个音频数据间的相似度影响序列;其中,所述相似度影响序列包括该两个音频数据的音频特征的每一特征维度对于度量该两个音频数据的相似度的贡献度;
对于所述待检测音频数据集中的每两个音频数据,依据其各自的音频特征,和该两个音频数据间的相似度影响序列,确定该两个音频数据各自的加权音频特征;
以所述待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度为依据,检测所述待检测音频数据集中的重复音频数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待检测音频数据集中的各音频数据的音频特征,分别确定每两个音频数据间的相似度影响序列,包括:
根据所述待检测音频数据集中的各音频数据的音频特征,分别确定每两个音频数据的音频特征的各个特征维度的贡献度;其中,该两个音频数据的音频特征的每个特征维度的贡献度,包括其对于度量该两个音频数据的音频特征之间的相似度的贡献度;
将该两个音频数据的音频特征的各个特征维度的贡献度构成的序列,作为该两个音频数据间的相似度影响序列。
3.根据权利要求2所述的方法,其特征在于,根据所述待检测音频数据集中的各音频数据的音频特征,分别确定每两个音频数据的音频特征的各个特征维度的贡献度的具体处理过程,包括:
根据所述待检测音频数据集中的各音频数据的音频特征,将待检测音频数据集中的音频数据聚类为设定数量的音频数据组,并从所述设定数量的音频数据组中,任选两个音频数据组的音频数据;
根据所选择的音频数据的音频特征的相应特征维度之间的距离,分别确定所选择的音频数据中的、每两个音频数据的音频特征的各个特征维度的贡献度。
4.根据权利要求3所述的方法,其特征在于,所述根据所选择的音频数据的音频特征的相应特征维度之间的距离,分别确定所选择的音频数据中的每两个音频数据的音频特征的各个特征维度的贡献度,包括:
对应所选择的音频数据中的每两个音频数据的音频特征的每个特征维度,分别通过如下处理确定其贡献度:
将从所述设定数量的音频数据组中选择的第一音频数据组中的目标音频数据的音频特征的该特征维度,与从所述设定数量的音频数据组中选择的第二音频数据组中的目标音频数据的音频特征的该特征维度之间的距离的平均值,设定为该特征维度的贡献度;
其中,所述目标音频数据为从音频数据组中选取的设定数量的音频数据。
5.根据权利要求4所述的方法,其特征在于,所述目标音频数据为从音频数据组中选取的设定数量的、音频特征之间的相似度最高的音频数据。
6.根据权利要求1所述的方法,其特征在于,所述对于所述待检测音频数据集中的每两个音频数据,依据其各自的音频特征,和该两个音频数据间的相似度影响序列,确定该两个音频数据各自的加权音频特征,包括:
对于所述待检测音频数据集中的每两个音频数据,将其各自的音频特征的每个特征维度,分别乘以该两个音频数据间的相似度影响序列中的与该特征维度对应的贡献度,得到该两个音频数据各自的加权音频特征。
7.根据权利要求1所述的方法,其特征在于,所述以所述待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度为依据,检测所述待检测音频数据集中的重复音频数据,包括:
以所述每两条音频数据的加权音频特征之间的相似度为依据,对所述待检测音频数据集中的音频数据进行聚类处理,得到各个音频数据子集;
基于所述各个音频数据子集,确定所述待检测音频数据集中的重复音频数据。
8.根据权利要求7所述的方法,其特征在于,所述基于所述各个音频数据子集,确定所述待检测音频数据集中的重复音频数据,包括:
从所述各个音频数据子集中,确定出目标音频数据子集,并将确定出的每个目标音频数据子集中的音频数据确定为重复的音频数据;
其中,所述目标音频数据子集包含的音频数据的数量大于1。
9.根据权利要求7所述的方法,其特征在于,当所述待检测音频数据集中的音频数据为语音数据时,所述基于所述各个音频数据子集,确定所述待检测音频数据集中的重复音频数据,包括:
从所述各个音频数据子集中,确定出目标音频数据子集;其中,所述目标音频数据子集包含的音频数据的数量大于1;
识别所述目标音频数据子集中的每条音频数据的语音内容;
根据所述目标音频数据子集中的每条音频数据的语音内容,从所述目标音频数据子集中,筛选语音内容的相似度大于设定的相似度阈值的音频数据,得到重复的音频数据。
10.一种重复音频检测装置,其特征在于,包括:
特征获取单元,用于分别获取待检测音频数据集中的各音频数据的音频特征;
参数获取单元,用于根据所述待检测音频数据集中的各音频数据的音频特征,分别确定每两个音频数据间的相似度影响序列;其中,所述相似度影响序列包括该两个音频数据的音频特征的每一特征维度对于度量该两个音频数据的相似度的贡献度;
特征处理单元,用于对于所述待检测音频数据集中的每两个音频数据,依据其各自的音频特征,和该两个音频数据间的相似度影响序列,确定该两个音频数据各自的加权音频特征;
检测处理单元,用于以所述待检测音频数据集中的每两个音频数据的加权音频特征之间的相似度为依据,检测所述待检测音频数据集中的重复音频数据。
11.一种重复音频检测设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中存储的程序,实现如权利要求1至9中任意一项所述的重复音频检测方法。
12.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现如权利要求1至9中任意一项所述的重复音频检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010419124.9A CN111583963B (zh) | 2020-05-18 | 2020-05-18 | 一种重复音频检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010419124.9A CN111583963B (zh) | 2020-05-18 | 2020-05-18 | 一种重复音频检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111583963A CN111583963A (zh) | 2020-08-25 |
CN111583963B true CN111583963B (zh) | 2023-03-21 |
Family
ID=72125159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010419124.9A Active CN111583963B (zh) | 2020-05-18 | 2020-05-18 | 一种重复音频检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111583963B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115641856B (zh) * | 2022-12-14 | 2023-03-28 | 北京远鉴信息技术有限公司 | 一种语音的重复音频检测方法、装置及存储介质 |
CN115910042B (zh) * | 2023-01-09 | 2023-05-05 | 百融至信(北京)科技有限公司 | 识别格式化音频文件的信息种类的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009001202A1 (en) * | 2007-06-28 | 2008-12-31 | Universitat Pompeu Fabra | Music similarity systems and methods using descriptors |
WO2017148523A1 (en) * | 2016-03-03 | 2017-09-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Non-parametric audio classification |
CN109087669A (zh) * | 2018-10-23 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 音频相似度检测方法、装置、存储介质及计算机设备 |
CN110808065A (zh) * | 2019-10-28 | 2020-02-18 | 北京达佳互联信息技术有限公司 | 副歌检测方法、装置、电子设备及存储介质 |
CN110880329A (zh) * | 2018-09-06 | 2020-03-13 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及设备、存储介质 |
-
2020
- 2020-05-18 CN CN202010419124.9A patent/CN111583963B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009001202A1 (en) * | 2007-06-28 | 2008-12-31 | Universitat Pompeu Fabra | Music similarity systems and methods using descriptors |
WO2017148523A1 (en) * | 2016-03-03 | 2017-09-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Non-parametric audio classification |
CN110880329A (zh) * | 2018-09-06 | 2020-03-13 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及设备、存储介质 |
CN109087669A (zh) * | 2018-10-23 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 音频相似度检测方法、装置、存储介质及计算机设备 |
CN110808065A (zh) * | 2019-10-28 | 2020-02-18 | 北京达佳互联信息技术有限公司 | 副歌检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111583963A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Priyadarshani et al. | Automated birdsong recognition in complex acoustic environments: a review | |
US7783581B2 (en) | Data learning system for identifying, learning apparatus, identifying apparatus and learning method | |
Zhang et al. | Using multi-label classification for acoustic pattern detection and assisting bird species surveys | |
CN109493881B (zh) | 一种音频的标签化处理方法、装置和计算设备 | |
CN101292280A (zh) | 导出音频输入信号的一个特征集的方法 | |
CN111583963B (zh) | 一种重复音频检测方法、装置、设备及存储介质 | |
CN112712809B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN113327626A (zh) | 语音降噪方法、装置、设备及存储介质 | |
Gingras et al. | A three-parameter model for classifying anurans into four genera based on advertisement calls | |
CN112259123B (zh) | 一种鼓点检测方法、装置及电子设备 | |
CN111192601A (zh) | 音乐标注方法、装置、电子设备及介质 | |
Dong et al. | Similarity-based birdcall retrieval from environmental audio | |
CN111859011A (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN109271501B (zh) | 一种音频数据库的管理方法及系统 | |
JPWO2020003413A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
Kelly et al. | Pervasive sound sensing: A weakly supervised training approach | |
CN112836731A (zh) | 基于决策树准确率和相关性度量的信号随机森林分类方法、系统及装置 | |
CN102789780B (zh) | 基于谱时幅度分级向量辨识环境声音事件的方法 | |
Jleed et al. | Acoustic environment classification using discrete hartley transform features | |
Ruiz-Muñoz et al. | Enhancing the dissimilarity-based classification of birdsong recordings | |
KR101398059B1 (ko) | 표준편차 기반의 음원의 특징 축소 방법을 이용하는 음악 분위기 자동 판별 시스템 및 방법 | |
CN115547347A (zh) | 基于多尺度时频特征提取的鲸类声信号识别方法与系统 | |
CN113936667A (zh) | 一种鸟鸣声识别模型训练方法、识别方法及存储介质 | |
Chandan et al. | Indian instrument identification from polyphonic audio using KNN classifier | |
CN113569957A (zh) | 一种业务对象的对象类型识别方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |