CN114255785A - 音频检测方法、装置、终端及存储介质 - Google Patents

音频检测方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN114255785A
CN114255785A CN202111571145.3A CN202111571145A CN114255785A CN 114255785 A CN114255785 A CN 114255785A CN 202111571145 A CN202111571145 A CN 202111571145A CN 114255785 A CN114255785 A CN 114255785A
Authority
CN
China
Prior art keywords
audio
detected
terminal
fingerprint sequence
autocorrelation function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111571145.3A
Other languages
English (en)
Inventor
何礼
孔令城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202111571145.3A priority Critical patent/CN114255785A/zh
Publication of CN114255785A publication Critical patent/CN114255785A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本申请实施例提供了一种音频检测方法、装置、终端及存储介质,其中方法包括:终端对待检测音频的音频信号进行处理,获得所述待检测音频的音频指纹序列,所述音频指纹序列包括所述音频信号中每个信号帧的音频指纹,所述音频指纹用于标识对应信号帧的数字特征;所述终端根据所述音频指纹序列,计算所述待检测音频的自相关函数;所述终端根据所述自相关函数的峰值,检测所述待检测音频是否为内容重复音频。通过本申请实施例可以根据自相关函数的峰值,检测出内容重复音频,从而能够快速准确地完成音频检测。

Description

音频检测方法、装置、终端及存储介质
技术领域
本申请涉及数据处理领域,尤其涉及一种音频检测方法、装置、终端及存储介质。
背景技术
目前,对正常音频和内容重复音频进行检测,主要是通过采用神经网络模型来实现的。通过该方法进行检测的时候,需要先对数据库中的正常音频和内容重复音频数据进行标注,然后再利用神经网络模型训练标注的数据,得到分类训练模型,最后将待测音频输入训练的分类模型中进行检测,得出待检测音频的类型。可见,神经网络训练分类模型需要依赖大量的标注数据,当数据量增加时,标注成本以及标注错误会随之上升,此外,神经网络模型所需要的计算量较大,从而导致检测的速度及检测结果的准确度降低。
发明内容
本申请实施例提供一种音频检测方法、装置、终端及存储介质,可以提高内容重复音频的检测准确度和效率。
一方面,本申请实施例提供了一种音频检测方法,所述方法包括:
终端对待检测音频的音频信号进行处理,获得所述待检测音频的音频指纹序列,所述音频指纹序列包括所述音频信号中每个信号帧的音频指纹,所述音频指纹用于标识对应信号帧的数字特征;
所述终端根据所述音频指纹序列,计算所述待检测音频的自相关函数;
所述终端根据所述自相关函数的峰值,检测所述待检测音频是否为内容重复音频。
可选地,所述终端对待检测音频的音频信号进行处理,获得所述待检测音频的音频指纹序列,包括:
所述终端对待检测音频的音频信号进行分帧加窗处理,获得所述待检测音频的多个时域信号帧;
所述终端对所述多个时域信号帧进行傅里叶变换,获得多个频域信号帧;
所述终端根据所述每个频域信号帧中子带的子带能量差,确定所述待检测音频的音频指纹序列。
可选地,所述终端根据所述音频指纹序列,计算所述待检测音频的自相关函数,包括:
所述终端平移所述音频指纹序列,获得平移后的音频指纹序列;
所述终端根据所述音频指纹序列和所述平移后的音频指纹序列,计算所述待检测音频的自相关函数。
可选地,所述终端根据所述音频指纹序列和所述平移后的音频指纹序列,计算所述待检测音频的自相关函数,包括:
所述终端将所述音频指纹序列X(n)中每个信号帧的音频指纹与所述平移后的音频指纹序列X(n+τ)中对应信号帧的音频指纹进行乘法运算后累加,获得所述待检测音频的自相关函数;
所述τ表示所述音频指纹序列的平移序列点。
可选地,所述终端根据所述自相关函数的峰值,检测所述待检测音频是否为内容重复音频,包括:
所述终端根据所述自相关函数的峰值,确定m个阈值分别对应的峰值数量,所述m个阈值分别是阈值μ1至阈值μm,每个阈值对应的峰值数量是所述自相关函数的峰值中大于该阈值的峰值数量,所述m个不同阈值中所述阈值μ1至阈值μm的大小依次减小,所述m为大于1的整数;
所述终端根据所述m个阈值分别对应的峰值数量,确定所述待检测音频是否为内容重复音频。
可选地,所述终端根据所述m个阈值分别对应的峰值数量,确定所述待检测音频是否为内容重复音频,包括:
若第一阈值对应的峰值数量大于1,所述终端根据所述m个阈值分别对应的峰值数量,确定所述待检测音频是否为内容重复音频;所述第一阈值是所述m个阈值中的其中一个阈值;
若所述第一阈值对应的峰值数量等于1,确定所述待检测音频不是内容重复音频。
可选地,所述终端根据所述m个阈值分别对应的峰值数量,确定所述待检测音频是否为内容重复音频,包括:
若所述m个阈值中所有两个大小相邻的阈值分别对应的峰值数量之差小于预设值,所述终端确定所述待检测音频是内容重复音频;
若所述m个阈值中存在任一两个大小相邻的阈值分别对应的峰值数量之差不小于预设值,所述终端确定所述待检测音频不是内容重复音频。
可选地,若所述待检测音频是所述内容重复音频,所述方法还包括:
所述终端从待推荐的多个音频中过滤所述待检测音频,获得过滤后的待推荐的音频。
一方面,本申请实施例提供了一种音频检测装置,所述装置包括:
处理模块,用于终端对待检测音频的音频信号进行处理,获得所述待检测音频的音频指纹序列,所述音频指纹序列包括所述音频信号中每个信号帧的音频指纹,所述音频指纹用于标识对应信号帧的数字特征;
计算模块,用于所述终端根据所述音频指纹序列,计算所述待检测音频的自相关函数;
检测模块,用于所述终端根据所述自相关函数的峰值,检测所述待检测音频是否为内容重复音频。
一方面,本申请实施例提供了一种终端,包括:处理器、通信接口和存储器,所述处理器、所述通信接口和所述存储器相互连接,其中,所述存储器存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,执行本申请实施例提供的方法。
相应地,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行本申请实施例提供的方法。
相应地,本申请实施例还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行本申请实施例提供的方法
本申请实施例通过终端对待检测音频的音频信号进行处理,获得所述待检测音频的音频指纹序列,根据所述音频指纹序列,计算待检测音频的自相关函数,再根据所述自相关函数的峰值,检测待检测音频是否为内容重复音频。可见,本申请实施例不仅无需依赖标注数据,而且还可快速准确地检测出内容重复音频。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例示出的一种音频检测方法的流程示意图;
图2是本申请实施例示出的另一种音频检测方法的流程示意图;
图3是本申请实施例示出的又一种音频检测方法的流程示意图;
图4a、图4b、图4c是本申请实施例示出的部分歌曲的自相关函数示意图;
图5是本申请实施例示出的一种音频检测装置的示意图;
图6是本申请实施例示出的一种终端的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,内容重复音频的检测主要采用的是神经网络模型,该方法依赖大量的标注数据,且需要对神经网络模型进行不断地训练来得到分类模型,最后再将待检测音频输入分类模型中进行检测。然而,当数据量增加时,其标注成本和标注错误会随之上升,且神经网络模型需要的计算量较大。
基于此,本申请实施例提供了一种音频检测方法、装置、终端及存储介质,以更加准确快速地检测出内容重复音频。该方法中,终端对待检测音频的音频信号进行处理,获得待检测音频的音频指纹序列;终端根据音频指纹序列,计算待检测音频的自相关函数;终端根据自相关函数的峰值,检测待检测音频是否为内容重复音频。可见,本申请不需要依赖标注数据,能够提高内容重复音频的检测准确度和效率。
需要说明的是,该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载等,但并不局限于此。
音频可包括但不限于歌曲等形式的声音数据。
为了便于理解本申请实施例,下面对该音频检测方法的具体实现方式进行详细阐述。
请参阅图1,图1为本申请实施例提供的一种音频检测方法的流程示意图。本申请实施例中所描述的方法包括步骤S101-S103。
S101、终端对待检测音频的音频信号进行处理,获得待检测音频的音频指纹序列。
其中,音频指纹序列包括音频信号中每个信号帧的音频指纹,音频指纹用于标识对应信号帧的数字特征。
在一种可选的实施方式中,终端对待检测音频的音频信号进行处理,获得待检测音频的音频指纹序列,包括:终端对待检测音频的音频信号进行分帧加窗处理,获得待检测音频的多个时域信号帧;终端对多个时域信号帧进行傅里叶变换,获得多个频域信号帧;终端根据每个频域信号帧中子带的子带能量差,确定待检测音频的音频指纹序列。
其中,终端根据每个频域信号帧中子带的子带能量差,确定待检测音频的音频指纹序列,包括:终端对每个频域信号帧进行子带划分,获得每个频域信号帧中每个子带的起始频率;根据每个频域信号帧中每个子带的起始频率,获得每个频域信号帧中每个子带的子带能量差;根据多个频域信号帧中每个子带的子带能量差,确定获得待检测音频的音频指纹序列。
该实施方式中,终端对待检测音频的音频信号进行分帧加窗处理,获得待检测音频的多个时域信号帧,可以包括:将采样率为预设频率的音频信号分割成预设长度的时域信号帧,相邻帧间重叠一定的长度;为每个时域信号帧添加汉宁窗做平滑处理,防止频谱泄露。举例来说,假设待检测音频为一首歌歌曲,终端对待检测歌曲的音频信号进行分帧加窗处理时,可以将采样率为A kHz的音频信号分割成长度为B ms的时域信号帧,相邻帧间重叠C ms,且为每个时域信号帧添加汉宁窗做平滑处理。例如,采样率A kHz可为8kHz,信号帧的长度B ms可为320ms,帧间重叠C ms可为248ms。
该实施方式中,以s(t)表示时域信号帧,以Sn(k)表示频域信号帧,其中k表示信号帧在频域的频点索引,n表示频域信号帧在频域的帧索引。
该实施方式中,终端对每个频域信号帧进行子带划分,获得每个频域信号帧中每个子带的起始频率,可以包括:将每个频域信号帧按照一定的距离划分为I个互不重叠的子带;获得每个子带的起始频率。举例来说,终端可以将每个频域信号帧按照对数距离划分为I个互不重叠的子带,之后获得每个子带的起始频率f(i),其中,i为大于1小于I的整数。f(i)的计算公式如下式(1),其中,Fmax为上限频率,Fmin为下限频率,I为子带划分个数。例如,I为33。
Figure BDA0003423366430000061
该实施方式中,终端根据每个频域信号帧中每个子带的起始频率,获得每个频域信号帧中每个子带的子带能量差,包括:根据每个频域信号帧中每个子带的起始频率获得每个频域信号帧中每个子带的子带能量;根据每个频域信号帧中每个子带的子带能量获得每个频域信号帧中每个子带的子带能量差。举例来说,终端可以根据第i个子带的起始频率获得频域信号帧中第i个子带的能量En(i),之后根据该子带能量En(i)获得频域信号帧中第i个子带的子带能量差Dn(i),En(i)和Dn(i)的计算公式分别如下式(2)、式(3),其中,n表示频域信号帧在频域的帧索引,即第n帧频域信号:
Figure BDA0003423366430000062
Dn(i)=En(i)-En(i+1)-(En-1(i)-En-1(i+1)) (3)
该实施方式中,终端根据多个频域信号帧中每个子带的子带能量差,确定待检测音频的音频指纹序列,包括:将每个频域信号帧中每个子带的子带能量差映射为子指纹;根据子指纹获得每个频域信号帧的音频指纹;根据每个频域信号帧的音频指纹,确定待检测音频的音频指纹序列。
其中,每个子指纹对应一个指纹值,每个频域信号帧的音频指纹包括多位子指纹。可选地,子指纹可通过哈希函数获得,因此子指纹也可称为哈希指纹。
举例来说,终端可以将式(3)中计算的子带能量差Dn(i)映射为子指纹,并获得频域信号帧中第i位指纹值Fn(i),Fn(i)的计算公式如下式(4):
Figure BDA0003423366430000063
然后根据子指纹Fn(i)获得每个频域信号帧的音频指纹,例如可以记为xj,其中,j为正整数,且j∈[1,n];xj由Y(如32)位子指纹组成,即由Y(如32)位的0/1向量表示。最后,确定待检测音频的音频指纹序列X(n),其中,X(n)=[x1,x2,…,xn]。
假设待检测音频为一首歌曲,则一种情况,待检测歌曲经过上述过程处理之后,得到的音频指纹序列中前奏、主歌、副歌、间奏、尾奏等不同部分的音频指纹不同。另一种情况,待检测歌曲经过上述过程处理之后,得到的音频指纹序列中不同部分会存在大量重复的音频指纹。又一种情况,主歌或副歌歌词重复的待检测歌曲,经过上述过程处理之后,得到的待检测歌曲的音频指纹序列不同部分的音频指纹也不相同。可见,该实施方式能够识别出待检测音频中不同部分的数字特征,继而有利于检测待检测音频是否是内容重复音频。
S102、终端根据音频指纹序列,计算待检测音频的自相关函数。
在一种可选的实施方式中,终端根据待检测音频的音频指纹序列,计算待检测音频的自相关函数,包括:终端平移所述音频指纹序列,获得平移后的音频指纹序列;终端根据所述音频指纹序列和平移后的音频指纹序列,计算待检测音频的自相关函数。
举例来说,假设待检测音频的音频指纹序列为X(n),则终端通过平移X(n)可以获得平移后的音频指纹序列X(n+τ),其中τ表示平移序列点,根据X(n)和X(n+τ),终端可以计算出待检测音频的自相关函数rx(τ)。在一种可选的实施方式中,将所述音频指纹序列X(n)中每个信号帧的音频指纹与所述平移后的音频指纹序列X(n+τ)中对应信号帧的音频指纹进行乘法运算后累加,获得所述待检测音频的自相关函数rx(τ)。例如,公式(5)所示:
Figure BDA0003423366430000071
其中,N表示X(n)具有N个序列点。
S103、终端根据自相关函数的峰值,检测待检测音频是否为内容重复音频。
若待检测音频的音频指纹序列中不同部分具有不同的音频指纹,则公式(5)中,只有在τ=0(即待检测音频的音频指纹序列与自身完全重合)时,自相关函数才会产生峰值;若待检测音频的音频指纹序列中不同部分具有大量重复的音频指纹,则待检测音频的自相关函数会产生多个峰值。
基于此,在一种可选的实施方式中,S103中终端根据自相关函数的峰值,检测所述待检测音频是否为内容重复音频,包括:终端根据自相关函数的峰值,确定m个阈值分别对应的峰值数量;终端根据m个阈值分别对应的峰值数量,确定待检测音频是否为内容重复音频。其中,内容重复音频为对同一音频片段进行连续拼接形成的音频。
在另一种可选的实施方式中,S103中终端根据自相关函数的峰值,检测所述待检测音频是否为内容重复音频,包括:终端根据自相关函数的峰值,确定m个阈值分别对应的峰值数量;终端在第一阈值对应的峰值数量大于1时,根据m个阈值分别对应的峰值数量,确定待检测音频是否为内容重复音频。其中,第一阈值为m个阈值中的一个阈值。
上述实施方式中,m个阈值分别是阈值μ1至阈值μm,m为大于1的整数,阈值μ1至阈值μm可以分别是大于0且小于1的数值,该m个阈值可以是预先设定的,也可以是基于检测的准确度设置的。其中,每个阈值对应的峰值数量是自相关函数的峰值中大于该阈值的峰值数量。在一种可选的实施方式中,阈值μ1至阈值μm的大小是依次减小的,在另一种可选的实施方式中,阈值μ1至阈值μm的大小是依次增大的。需要说明的是,以上两种可选的具体实施方式中,终端根据m个阈值分别对应的峰值数量确定待检测音频是否为内容重复音频的具体实现方式都可以是,基于相邻阈值的峰值数量的差值来判断待检音频是否为内容重复音频,具体请可以参照图3中步骤S305的相关说明。
可见,本申请实施例中,终端获取待检测音频的音频指纹序列,根据音频指纹序列计算出对应的自相关函数,根据自相关函数的峰值检测待检测音频是否为内容重复音频,该方法不需要依赖标注数据,可以快速准确地检测出内容重复音频。
本申请实施例提供的音频检测方法中,终端在推荐多个音频时,可从待推荐的多个音频中过滤掉内容重复音频后,再进行推荐。例如,请参阅图2,图2为本申请实施例提供的另一种音频检测方法的流程示意图。本申请实施例中所描述的方法包括步骤S201-S205。
S201、终端针对待推荐的多个音频中每个音频,对该音频的音频信号进行处理,获得该音频的音频指纹序列。
S202、终端根据每个音频的音频指纹序列,计算每个音频的自相关函数。
S203、终端根据每个音频的自相关函数的峰值,检测该多个音频中是否存在内容重复音频。若存在内容重复音频,则终端执行步骤S204;若不存在内容重复音频,则终端执行步骤S205。
S204、终端从待推荐的多个音频中过滤内容重复音频,输出过滤后的待推荐的音频。
S205、终端输出待推荐的音频。
在一种可选的实施方式中,步骤S201、S202、S203的具体过程可分别参见上文S101、S102、S103中的描述,此处不再进行赘述。
可见,本申请实施例通过待推荐的多首音频中,每首音频的自相关函数的峰值,检测该多首音频中是否存在内容重复音频,从而在向用户推荐音频时,可先从待推荐的多首音频中过滤掉内容重复音频,再进行推荐,进而提升了用户的体验。
请参阅图3,图3为本申请实施例提供的又一种音频检测方法的流程示意图。本申请实施例中所描述的方法包括步骤S301-S307。
S301、终端对待检测音频的音频信号进行处理,获得待检测音频的音频指纹序列。
S302、终端根据音频指纹序列,计算待检测音频的自相关函数。
S303、终端根据自相关函数的峰值,确定m个不同阈值分别对应的峰值数量。
其中,m个阈值分别是阈值μ1至阈值μm,m为大于1的整数,每个阈值对应的峰值数量是自相关函数的峰值中大于该阈值的峰值数量。在一种可选的实施方式中阈值μ1至阈值μm的大小是依次减小的,在另一种可选的实施方式中,阈值μ1至阈值μm的大小是依次增大的。
S304、终端判断第一阈值对应的峰值数量大于1还是等于1,当第一阈值对应的峰值数量大于1时,终端执行步骤S305;当第一阈值对应的峰值数量等于1时,终端执行步骤S307。
其中,第一阈值为m个阈值中的其中一个阈值。可选的,该第一阈值可以是m个阈值中相对较大的一个阈值。若该第一阈值对应的峰值数量等于1,则对于大于该第一阈值的其他阈值来说,所对应的峰值数量均会等于1,说明该第一阈值对应的峰值只可能是待检测音频与自身自相关产生的,而不可能是待检测音频中存在大量重复的音频指纹片段而产生的,故执行步骤S307。若该第一阈值对应的峰值数量大于1,则说明还需进一步分析各阈值对应的峰值数量的情况,以确定是否为内容重复音频,故需执行步骤S305。
S305、终端判断m个阈值中两个大小相邻的阈值分别对应的峰值数量之间的差值是否均小于预设值,若所有均小于预设值,则终端执行步骤S306;若存在差值不小于预设值,则终端执行步骤S307。
其中,m个阈值中所有两个大小相邻的阈值包括以下组合:μ1和μ2、μ2和μ3、…、μm-1和μm。预设值可以是预先设定的,也可以是基于检测的准确度设置的。
也就是说,对于m个阈值中大小相邻的阈值分别对应的峰值数量之间的差值来说,若所有的差值均小于预设值,则不仅说明待检测音频中存在大量重复的音频指纹片段而且说明重复规律比较一致,即某个片段重复拼接获得的待检测音频会出现这种情况,故执行步骤S306。若存在差值大于预设值,则说明待检测音频中存在大量重复的音频指纹片段但重复规律不一致,故很有可能是音频结构设计,如主歌或副歌歌词的重复等,故执行步骤S307。
S306、终端确定待检测音频是内容重复音频。
S307、终端确定待检测音频不是内容重复音频。
在一种可选的实施方式中,步骤S301、S302的具体过程可分别参见上文S101、S102中的描述,此处不再进行赘述。
在一种可选的实施方式中,终端在执行完步骤S303之后可直接执行步骤S305。
下面通过举例的方式对上述步骤进行描述。
例如,假设第一阈值为μ2。终端对待检测歌曲1的音频信号进行处理,可以得到待检测歌曲1的音频指纹序列,之后根据待检测歌曲1的音频指纹序列计算得出待检测歌曲1的自相关函数如图4a所示,图4a中,根据自相关函数的峰值确定出第一阈值μ2对应的峰值数量,即自相关函数的峰值大于第一阈值μ2的峰值数量为1,因此可以确定待检测歌曲1不是内容重复歌曲。
再例如,假设m为3,第一阈值为μ2,预设值为1。终端对待检测歌曲2的音频信号进行处理,可以得到待检测歌曲2的音频指纹序列,之后根据待检测歌曲2的音频指纹序列计算得出待检测歌曲2的自相关函数如图4b所示,图4b中,根据自相关函数的峰值,确定了3个不同阈值μ1、μ2、μm分别对应的峰值数量为1、3、19,然后发现第一阈值μ2对应的峰值数量为3,3是大于1的,所以,针对待检测歌曲2进一步判断3个阈值中所有两个大小相邻的阈值μ1和μ2、μ2和μm分别对应的峰值数量之差,其中μ1和μ2分别对应的峰值数量之差为3-1=2,μ2和μm分别对应的峰值数量之差为19-3=16,而2和16都是不小于预设值(即1)的,因此可以确定待检测歌曲2不是内容重复歌曲。
又例如,假设m为3,第一阈值为μ2,预设值为1。终端对待检测歌曲3音频信号进行处理,可以得到待检测歌曲3的音频指纹序列,之后待检测歌曲3的音频指纹序列计算得出待检测歌曲3的自相关函数如图4c所示,图4c中,根据自相关函数的峰值,确定了3个不同阈值μ1、μ2、μm分别对应的峰值数量为5、5、5,然后发现第一阈值μ2对应的峰值数量为5,5是大于1的,所以针对待检测歌曲3进一步判断3个阈值中所有两个大小相邻的阈值μ1和μ2、μ2和μm分别对应的峰值数量之差,其中μ1和μ2分别对应的峰值数量之差为5-5=0,μ2和μm分别对应的峰值数量之差为5-5=0,而0是小于预设值(即1)的,因此可以确定待检测歌曲3是内容重复歌曲。
可见,本申请实施例中,终端获取待检测歌曲的音频指纹序列,根据音频指纹序列计算出对应的自相关函数,根据自相关函数的峰值检测待检测歌曲是否为内容重复歌曲。该方法不需要依赖标注数据,可以快速地检测出内容重复歌曲,同时,根据内容重复歌曲自相关函数峰值的特点,有效地降低对某些具有局部重复音乐结构的正常歌曲(如DJ舞曲、欧美歌曲等)的误检率。请参见图5,图5是本申请实施例示出的一种音频检测装置示意图。该实施例中所描述的音频检测装置可以包括以下部分:
处理模块501,用于终端对待检测音频的音频信号进行处理,获得待检测音频的音频指纹序列,所述音频指纹序列包括所述音频信号中每个信号帧的音频指纹,所述音频指纹用于标识对应信号帧的数字特征;
计算模块502,用于终端根据音频指纹序列,计算待检测音频的自相关函数;
检测模块503,用于终端根据自相关函数的峰值,检测待检测音频是否为内容重复音频。
在一种可选的实施方式中,处理模块501具体用于,终端对待检测音频的音频信号进行分帧加窗处理,获得待检测音频的多个时域信号帧;终端对多个时域信号帧进行傅里叶变换,获得多个频域信号帧;终端根据每个频域信号帧中子带的子带能量差,确定待检测音频的音频指纹序列。
在一种可选的实施方式中,计算模块502具体用于,终端平移音频指纹序列,获得平移后的音频指纹序列;终端根据所述音频指纹序列和平移后的音频指纹序列,计算待检测音频的自相关函数。
在一种可选的实施方式中,计算模块502具体用于,终端将音频指纹序列X(n)中每个信号帧的音频指纹与平移后的音频指纹序列X(n+τ)中对应信号帧的音频指纹进行乘法运算后累加,获得待检测音频的自相关函数;其中,τ表示音频指纹序列的平移序列点。
在一种可选的实施方式中,检测模块503具体用于,终端根据自相关函数的峰值,确定m个阈值分别对应的峰值数量;终端根据m个阈值分别对应的峰值数量,确定待检测音频是否为内容重复音频。其中,m个阈值分别是阈值μ1至阈值μm,m为大于1的整数,每个阈值对应的峰值数量是所述自相关函数的峰值中大于该阈值的峰值数量,m个阈值中阈值μ1至阈值μm的大小依次减小。
在一种可选的实施方式中,检测模块503具体用于,若第一阈值对应的峰值数量大于1,终端根据m个阈值分别对应的峰值数量,确定待检测音频是否为内容重复音频;该第一阈值是所述m个阈值中的其中一个阈值;若第一阈值对应的峰值数量等于1,确定所述待检测音频不是内容重复音频。
在一种可选的实施方式中,检测模块503具体用于,若m个阈值中所有两个大小相邻的阈值分别对应的峰值数量之差小于预设值,终端确定待检测音频是内容重复音频;若m个阈值中存在任一两个大小相邻的阈值分别对应的峰值数量之差不小于预设值时,终端确定待检测音频不是内容重复音频。
该实施例所述的音频检测装置还可以包括:
过滤模块504,用于若待检测音频是内容重复音频,则终端从待推荐的多首音频中过滤待检测音频,获得过滤后的待推荐的音频。
可以理解的是,本申请实施例所述音频检测装置中各个模块的具体实现以及可以达到的有益效果可参考前述相关实施例的描述,在此不再赘述。
请参见图6,图6是本申请实施例示出的一种终端的结构示意图。本申请实施例中所描述的终端包括:处理器601、用户接口602、通信接口603及存储器604。其中,处理器601、用户接口602、通信接口603及存储器604可通过总线或其他方式连接,本申请实施例以通过总线连接为例。
其中,处理器601(或称CPU(Central Processing Unit,中央处理器))是终端的计算核心以及控制核心,其可以解析终端内的各类指令以及处理终端的各类数据,例如:CPU可以用于解析用户向终端所发送的开关机指令,并控制终端进行开关机操作;再如:CPU可以在终端内部结构之间传输各类交互数据,等等。用户接口602是实现用户与终端进行交互和信息交换的媒介,其具体体现可以包括用于输出的显示屏(Display)以及用于输入的键盘(Keyboard)等等,需要说明的是,此处的键盘既可以为实体键盘,也可以为触屏虚拟键盘,还可以为实体与触屏虚拟相结合的键盘。通信接口603可选的可以包括标准的有线接口、无线接口(如Wi-Fi、移动通信接口等),受处理器601的控制用于收发数据。存储器604(Memory)是终端中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器604既可以包括终端的内置存储器,当然也可以包括终端所支持的扩展存储器。存储器604提供存储空间,该存储空间存储了终端的操作系统,可包括但不限于:Android系统、iOS系统、Windows Phone系统等等,本申请对此并不作限定。
在本申请实施例中,处理器601通过运行存储器604中的可执行程序代码,执行如下操作:
对待检测音频的音频信号进行处理,获得待检测音频的音频指纹序列;其中,音频指纹序列包括音频信号中每个信号帧的音频指纹,音频指纹用于标识对应信号帧的数字特征;
根据音频指纹序列,计算待检测音频的自相关函数;
根据自相关函数的峰值,检测待检测音频是否为内容重复音频。
在一种可选的实施方式中,所述处理器601对待检测歌曲的音频信号进行处理,获得待检测歌曲的音频指纹序列时,具体用于:
终端对待检测音频的音频信号进行分帧加窗处理,获得待检测音频的多个时域信号帧;
终端对多个时域信号帧进行傅里叶变换,获得多个频域信号帧;
终端根据每个频域信号帧中子带的子带能量差,确定待检测音频的音频指纹序列。
在一种可选的实施方式中,所述处理器601根据音频指纹序列,计算所述待检测音频的自相关函数时,具体用于:
平移音频指纹序列,获得平移后的音频指纹序列;
根据音频指纹序列和平移后的音频指纹序列,计算待检测音频的自相关函数。
在一种可选的实施方式中,所述处理器601根据音频指纹序列和平移后的音频指纹序列,计算待检测音频的自相关函数时,具体用于:
将音频指纹序列X(n)中每个信号帧的音频指纹与平移后的音频指纹序列X(n+τ)中对应信号帧的音频指纹进行乘法运算后累加,获得待检测音频的自相关函数;其中,τ表示音频指纹序列的平移序列点。在一种可选的实施方式中,所述处理器601根据自相关函数的峰值,检测待检测音频是否为内容重复音频时,具体用于:
根据自相关函数的峰值,确定m个阈值分别对应的峰值数量;其中,m个阈值分别是阈值μ1至阈值μm,每个阈值对应的峰值数量是自相关函数的峰值中大于该阈值的峰值数量,m为大于1的整数;
根据m个阈值分别对应的峰值数量,确定待检测音频是否为内容重复音频。
在一种可选的实施方式中,所述处理器601在根据m个阈值分别对应的峰值数量,确定待检测音频是否为内容重复音频时,具体用于:
若第一阈值对应的峰值数量大于1,根据m个阈值分别对应的峰值数量,确定待检测音频是否为内容重复音频;第一阈值是m个阈值中的其中一个阈值;
若所述第一阈值对应的峰值数量等于1,确定待检测音频不是内容重复音频。
在一种可选的实施方式中,所述处理器601根据m个阈值分别对应的峰值数量,确定待检测音频是否为内容重复音频时,具体用于:
若m个阈值中所有两个大小相邻的阈值分别对应的峰值数量之差小于预设值,确定待检测音频是内容重复音频;
若m个阈值中存在任一两个大小相邻的阈值分别对应的峰值数量之差不小于预设值,确定待检测音频不是内容重复音频。
在一种可选的实施方式中,所述处理器601还用于,若待检测音频是内容重复音频,则从待推荐的多首音频中过滤待检测音频,获得过滤后的待推荐的音频。
具体实现中,本申请实施例中所描述的处理器601、用户接口602、通信接口603及存储器604可执行本申请实施例提供的音频检测方法中所描述的终端的实现方式,也可执行本申请实施例提供的音频检测装置中所描述的实现方式,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现本申请实施例所提供的音频检测方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
本申请实施例还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。终端的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述终端执行如本申请实施例所述的方法。其具体实现方式可参考前文描述,此处不再赘述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
以上所揭露的仅为本申请部分实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种音频检测方法,其特征在于,所述方法包括:
终端对待检测音频的音频信号进行处理,获得所述待检测音频的音频指纹序列,所述音频指纹序列包括所述音频信号中每个信号帧的音频指纹,所述音频指纹用于标识对应信号帧的数字特征;
所述终端根据所述音频指纹序列,计算所述待检测音频的自相关函数;
所述终端根据所述自相关函数的峰值,检测所述待检测音频是否为内容重复音频。
2.根据权利要求1所述的方法,其特征在于,所述终端对待检测音频的音频信号进行处理,获得所述待检测音频的音频指纹序列,包括:
所述终端对待检测音频的音频信号进行分帧加窗处理,获得所述待检测音频的多个时域信号帧;
所述终端对所述多个时域信号帧进行傅里叶变换,获得多个频域信号帧;
所述终端根据所述多个频域信号帧中子带的子带能量差,确定所述待检测音频的音频指纹序列。
3.根据权利要求1所述的方法,其特征在于,所述终端根据所述音频指纹序列,计算所述待检测音频的自相关函数,包括:
所述终端平移所述音频指纹序列,获得平移后的音频指纹序列;
所述终端根据所述音频指纹序列和所述平移后的音频指纹序列,计算所述待检测音频的自相关函数。
4.根据权利要求3所述的方法,其特征在于,所述终端根据所述音频指纹序列和所述平移后的音频指纹序列,计算所述待检测音频的自相关函数,包括:
所述终端将所述音频指纹序列X(n)中每个信号帧的音频指纹与所述平移后的音频指纹序列X(n+τ)中对应信号帧的音频指纹进行乘法运算后累加,获得所述待检测音频的自相关函数;
所述τ表示所述音频指纹序列的平移序列点。
5.根据权利要求1所述的方法,其特征在于,所述终端根据所述自相关函数的峰值,检测所述待检测音频是否为内容重复音频,包括:
所述终端根据所述自相关函数的峰值,确定m个阈值分别对应的峰值数量,所述m个阈值分别是阈值μ1至阈值μm,每个阈值对应的峰值数量是所述自相关函数的峰值中大于该阈值的峰值数量,所述m个阈值中所述阈值μ1至阈值μm的大小依次减小,所述m为大于1的整数;
所述终端根据所述m个阈值分别对应的峰值数量,确定所述待检测音频是否为内容重复音频。
6.根据权利要求5所述的方法,其特征在于,所述终端根据所述m个阈值分别对应的峰值数量,确定所述待检测音频是否为内容重复音频,包括:
若第一阈值对应的峰值数量大于1,所述终端根据所述m个阈值分别对应的峰值数量,确定所述待检测音频是否为内容重复音频;所述第一阈值是所述m个阈值中的其中一个阈值;
若所述第一阈值对应的峰值数量等于1,确定所述待检测音频不是内容重复音频。
7.根据权利要求5或6所述的方法,其特征在于,所述终端根据所述m个阈值分别对应的峰值数量,确定所述待检测音频是否为内容重复音频,包括:
若所述m个阈值中所有两个大小相邻的阈值分别对应的峰值数量之差小于预设值,所述终端确定所述待检测音频是内容重复音频;
若所述m个阈值中存在任一两个大小相邻的阈值分别对应的峰值数量之差不小于预设值,所述终端确定所述待检测音频不是内容重复音频。
8.根据权利要求1所述的方法,其特征在于,若所述待检测音频是所述内容重复音频,所述方法还包括:
所述终端从待推荐的多个音频中过滤所述待检测音频,获得过滤后的待推荐的音频。
9.一种终端,其特征在于,包括:处理器、通信接口和存储器,所述处理器、所述通信接口和所述存储器相互连接,其中,所述存储器存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,执行如权利要求1-8中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的方法。
CN202111571145.3A 2021-12-21 2021-12-21 音频检测方法、装置、终端及存储介质 Pending CN114255785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111571145.3A CN114255785A (zh) 2021-12-21 2021-12-21 音频检测方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111571145.3A CN114255785A (zh) 2021-12-21 2021-12-21 音频检测方法、装置、终端及存储介质

Publications (1)

Publication Number Publication Date
CN114255785A true CN114255785A (zh) 2022-03-29

Family

ID=80796285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111571145.3A Pending CN114255785A (zh) 2021-12-21 2021-12-21 音频检测方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN114255785A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115641856A (zh) * 2022-12-14 2023-01-24 北京远鉴信息技术有限公司 一种语音的重复音频检测方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115641856A (zh) * 2022-12-14 2023-01-24 北京远鉴信息技术有限公司 一种语音的重复音频检测方法、装置及存储介质
CN115641856B (zh) * 2022-12-14 2023-03-28 北京远鉴信息技术有限公司 一种语音的重复音频检测方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN110085251B (zh) 人声提取方法、人声提取装置及相关产品
US11670325B2 (en) Voice activity detection using a soft decision mechanism
KR102128926B1 (ko) 오디오 정보 처리 방법 및 디바이스
Zhang12 et al. The effect of silence and dual-band fusion in anti-spoofing system
US9484036B2 (en) Method and apparatus for detecting synthesized speech
CN110265064B (zh) 音频爆音检测方法、装置和存储介质
CN109801646B (zh) 一种基于融合特征的语音端点检测方法和装置
CN109616098B (zh) 基于频域能量的语音端点检测方法和装置
US20140148933A1 (en) Sound Feature Priority Alignment
JP6784758B2 (ja) ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置
CN110880329A (zh) 一种音频识别方法及设备、存储介质
CN110324726B (zh) 模型生成、视频处理方法、装置、电子设备及存储介质
CN110688518A (zh) 节奏点的确定方法、装置、设备及存储介质
CN110875059A (zh) 收音结束的判断方法、装置以及储存装置
US20190122678A1 (en) Methods and apparatus to perform windowed sliding transforms
CN114255785A (zh) 音频检测方法、装置、终端及存储介质
CN105224844A (zh) 验证方法、系统和装置
CN108847251B (zh) 一种语音去重方法、装置、服务器及存储介质
US10726852B2 (en) Methods and apparatus to perform windowed sliding transforms
KR101571746B1 (ko) 유사도판별장치 및 그 동작 방법
CN112309409A (zh) 音频修正方法及相关装置
CN111489739A (zh) 音素识别方法、装置及计算机可读存储介质
US20150279373A1 (en) Voice response apparatus, method for voice processing, and recording medium having program stored thereon
CN111210817A (zh) 数据处理方法及装置
CN113555031B (zh) 语音增强模型的训练方法及装置、语音增强方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination