CN112735481B - Pop音检测方法、装置、终端设备及存储介质 - Google Patents

Pop音检测方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN112735481B
CN112735481B CN202011513251.1A CN202011513251A CN112735481B CN 112735481 B CN112735481 B CN 112735481B CN 202011513251 A CN202011513251 A CN 202011513251A CN 112735481 B CN112735481 B CN 112735481B
Authority
CN
China
Prior art keywords
detection
detection signal
detected
pop sound
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011513251.1A
Other languages
English (en)
Other versions
CN112735481A (zh
Inventor
王艳芬
严锋贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oppo Chongqing Intelligent Technology Co Ltd
Original Assignee
Oppo Chongqing Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oppo Chongqing Intelligent Technology Co Ltd filed Critical Oppo Chongqing Intelligent Technology Co Ltd
Priority to CN202011513251.1A priority Critical patent/CN112735481B/zh
Publication of CN112735481A publication Critical patent/CN112735481A/zh
Application granted granted Critical
Publication of CN112735481B publication Critical patent/CN112735481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本申请公开了一种POP音检测方法、装置、终端设备及存储介质,该方法包括:通过获取待检测的音频数据;对所述待检测的音频数据进行滤波处理,能够过滤部分正常跳变信号成分,得到滤波处理后的数据;基于所述滤波处理后的数据构造检测信号;将所述检测信号与预设检测阈值进行比较;若所述检测信号大于预设检测阈值,则判定检测到POP音。该方案能够实现音频数据中POP音的精准检测,避免出现漏判情况,通过实时POP音检测能够定位POP音出现的位置,为POP音修复提供辅助参考,而且计算量较小。

Description

POP音检测方法、装置、终端设备及存储介质
技术领域
本申请涉及多媒体技术领域,尤其涉及一种POP音检测方法、装置、终端设备及存储介质。
背景技术
在音频播放过程中,有时会产生POP音,POP音是一种不正常破音,产生POP音的原因很多,比如录音时外界环境声音的影响,录音停止时按下停止键的按键声音被录入进音频文件等,这些都会导致产生POP音,POP音会影响用户播放音频的体验。
目前,在检测POP音时,通常采用的方案是,将选定的音频数据的音频幅值与阈值进行比较,若选定的音频数据的音频幅值小于阈值,则表明选定的音频数据可能存在POP音数据。由于POP音出现的原因种类较多,该相关技术方案并不能适应各种类型的POP音检测。而且仅利用音频的幅值进行POP音检测判定,只适用于声音音量突然增大的场景,而在数据跳变的情况下,也会出现POP音,这种场景音频的幅值不一定会高于阈值。因此,现有相关方案对POP音的检测较简单,容易出现漏判情况。
发明内容
本申请的主要目的在于提供一种POP音检测方法、装置、终端设备及存储介质,旨在实现音频数据中POP音的精准检测,避免出现漏判情况。
为实现上述目的,本申请实施例提供一种POP音检测方法,所述POP音检测方法包括以下步骤:
获取待检测的音频数据;
对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据;
基于所述滤波处理后的数据构造检测信号;
将所述检测信号与预设检测阈值进行比较;
若所述检测信号大于预设检测阈值,则判定检测到POP音
此外,本申请实施例还提出一种POP音检测装置,所述POP音检测装置包括:
获取模块,用于获取待检测的音频数据;
滤波模块,用于对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据;
构造模块,用于基于所述滤波处理后的数据构造检测信号;
比较模块,用于将所述检测信号与预设检测阈值进行比较;
判定模块,用于若所述检测信号大于预设检测阈值,则判定检测到POP音。
此外,本申请实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的POP音检测程序,所述POP音检测程序被所述处理器执行时实现如上所述的POP音检测方法的步骤。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有POP音检测程序,所述POP音检测程序被处理器执行时实现如上所述的POP音检测方法的步骤。
本申请实施例提出的POP音检测方法、装置、终端设备及存储介质,通过获取待检测的音频数据;对所述待检测的音频数据进行滤波处理,能够过滤部分正常跳变信号成分,得到滤波处理后的数据;基于所述滤波处理后的数据构造检测信号;将所述检测信号与预设检测阈值进行比较;若所述检测信号大于预设检测阈值,则判定检测到POP音。该方案能够实现音频数据中POP音的精准检测,避免出现漏判情况,通过实时POP音检测能够定位POP音出现的位置,为POP音修复提供辅助参考,而且计算量较小;POP音检测结果,方便开发人员进行定位、分析,提升工作效率。
附图说明
图1为本申请POP音检测装置所属终端设备的功能模块示意图;
图2为本申请POP音检测方法一示例性实施例的流程示意图;
图3为本实施例涉及的音频数据进行高通滤波前的效果图;
图4为本实施例涉及的音频数据进行高通滤波后的效果图;
图5为本申请POP音检测方法另一示例性实施例的流程示意图;
图6为本申请实施例中对音频数据进行重叠分帧的波形示意图;
图7为本申请POP音检测方法再一示例性实施例的流程示意图;
图8为本申请POP音检测方法实施例的一种细化流程示意图;
图9为本申请POP音检测方法实施例的另一种细化流程示意图;
图10为本申请POP音检测方法实施例的再一种细化流程示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例的主要解决方案是:通过获取待检测的音频数据;对所述待检测的音频数据进行滤波处理,能够过滤部分正常跳变信号成分,得到滤波处理后的数据;基于所述滤波处理后的数据构造检测信号;将所述检测信号与预设检测阈值进行比较;若所述检测信号大于预设检测阈值,则判定检测到POP音。该方案能够实现音频数据中POP音的精准检测,避免出现漏判情况,通过实时POP音检测能够定位POP音出现的位置,为POP音修复提供辅助参考,而且计算量较小;POP音检测结果,可以方便开发人员进行定位、分析,提升工作效率。
本申请实施例考虑到,现有相关方案中,在检测POP音时,通常将选定的音频数据的音频幅值与阈值进行比较,若选定的音频数据的音频幅值小于阈值,则表明选定的音频数据可能存在POP音数据。由于POP音出现的原因种类较多,该相关技术方案并不能适应各种类型的POP音检测。而且仅利用音频的幅值进行POP音检测判定,只适用于声音音量突然增大的场景,而在数据跳变的情况下,也会出现POP音,这种场景音频的幅值不一定会高于阈值。因此,现有相关方案对POP音的检测较简单,容易出现漏判情况。
因此,本申请实施例提出解决方案,可以实现音频数据中POP音的精准检测,避免出现漏判情况。
具体地,参照图1,图1为本申请POP音检测装置所属终端设备的功能模块示意图。该POP音检测装置可以为独立于终端设备的、能够实现音频检测的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等智能移动终端,还可以为其他能够播放音频文件的音频播放设备。
在本实施例中,该POP音检测装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作系统以及POP音检测程序,POP音检测装置可以将获取的待检测的音频数据、滤波处理后的数据、构造的检测信号等信息存储于该存储器130中;输出模块110可为显示屏、扬声器等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中,作为一种实施例方式,存储器130中的POP音检测程序被处理器执行时实现以下步骤:
获取待检测的音频数据;
对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据;
基于所述滤波处理后的数据构造检测信号;
将所述检测信号与预设检测阈值进行比较;
若所述检测信号大于预设检测阈值,则判定检测到POP音。
进一步地,存储器130中的POP音检测程序被处理器执行时还实现以下步骤:
获取所述待检测的音频数据的采样率;
根据所述采样率确定通带截止频率;
根据所述通带截止频率对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据。
进一步地,存储器130中的POP音检测程序被处理器执行时还实现以下步骤:
获取所述滤波处理后的数据的相邻帧能量差值;
基于所述滤波处理后的数据的相邻帧能量差值生成检测信号。
进一步地,存储器130中的POP音检测程序被处理器执行时还实现以下步骤:
计算所述滤波处理后的数据的高阶导数;
基于所述滤波处理后的数据的高阶导数生成检测信号。
进一步地,存储器130中的POP音检测程序被处理器执行时还实现以下步骤:
构造检测阈值。具体包括:
获取所述待检测的音频数据的采样间隔;
基于所述采样间隔、所述滤波处理后的数据及预设检测阈值构造公式,构造检测阈值。
进一步地,存储器130中的POP音检测程序被处理器执行时还实现以下步骤:
对所述待检测的音频数据进行重叠分帧处理;
对重叠分帧处理后的音频数据进行滤波处理,得到滤波处理后的数据。
进一步地,存储器130中的POP音检测程序被处理器执行时还实现以下步骤:
对重叠分帧处理后的音频数据进行加窗处理;
对加窗处理后的音频数据进行滤波处理,得到滤波处理后的数据。
进一步地,存储器130中的POP音检测程序被处理器执行时还实现以下步骤:
对所述重叠分帧处理后的音频数据通过窗函数进行加窗处理。
进一步地,存储器130中的POP音检测程序被处理器执行时还实现以下步骤:
获取所述滤波处理后的数据的相邻帧能量差值,基于所述滤波处理后的数据的相邻帧能量差值生成第一检测信号;
计算所述滤波处理后的数据的高阶导数,基于所述滤波处理后的数据的高阶导数生成第二检测信号;
将所述第一检测信号与对应的第一检测阈值进行比较,将所述第二检测信号与对应的第二检测阈值进行比较;
若所述第一检测信号大于所述第一检测阈值,且所述第二检测信号大于所述第二检测阈值,则判定检测到POP音。
进一步地,存储器130中的POP音检测程序被处理器执行时还实现以下步骤:
若所述检测信号小于或等于预设检测阈值,则判定未检测到POP音。
本实施例通过上述方案,获取待检测的音频数据;对所述待检测的音频数据进行滤波处理,能够过滤部分正常跳变信号成分,得到滤波处理后的数据;基于所述滤波处理后的数据构造检测信号;将所述检测信号与预设检测阈值进行比较;若所述检测信号大于预设检测阈值,则判定检测到POP音。该方案能够实现音频数据中POP音的精准检测,避免出现漏判情况,通过实时POP音检测能够定位POP音出现的位置,为POP音修复提供辅助参考,而且计算量较小;POP音检测结果,方便开发人员进行定位、分析,提升工作效率。
基于上述终端设备架构但不限于上述架构,提出本申请方法实施例。
本实施例方法的执行主体可以是用以实现音频检测的POP音检测装置,该装置可以通过硬件或软件的形式集成在终端设备上,该终端设备可以为手机、平板电脑等智能移动终端,还可以为其他能够播放音频文件的音频播放设备。本实施例以手机进行举例。
参照图2,图2为本申请POP音检测方法一示例性实施例的流程示意图。所述POP音检测方法包括以下步骤:
步骤S101,获取待检测的音频数据;
本申请实施例方案主要实现对音频数据中可能存在的POP音的检测。其中,作为一种实施方式,可以在播放音频文件时,实时获取播放的音频文件中的音频数据,作为待检测的音频数据。
假设输入POP音检测装置的待检测的音频数据由干净数据x(n)与POP杂音数据u(n)组合而成,可由以下公式表示输入的待检测的音频数据:
y(n)=x(n)+u(n),其中,0≤n≤N,N为数据帧长。
步骤S102,对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据;
作为一种实施方式,对所述待检测的音频数据进行滤波处理,可以采用如下方案:
获取所述待检测的音频数据的采样率;
根据所述采样率确定通带截止频率;
根据所述通带截止频率对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据。
具体地,本实施例考虑到,pop音在时域波形上会表现出跳变的现象,但是某些正常音也有该类现象,因此可以根据输入数据的采样率fs,设计一高通滤波器,该高通滤波器的通带截止频率为
Figure BDA0002846516990000071
通过对待检测的音频数据进行高通滤波,将一部分正常数据突变的部分过滤,从而可以提高数据处理精度,滤波后的数据可以记为
Figure BDA0002846516990000072
后续,可以通过滤波数据信号构造检测信号,以判断待检测的音频数据中是否存在POP音。
采用本实施例方案实现POP音检测时,采用高通滤波的效果图可以参照图3及图4所示,图3是本实施例涉及的音频数据进行高通滤波前的效果图,图4是本实施例涉及的音频数据进行高通滤波后的效果图。
如图3所示(上图为时域图,下为频域图),POP音在时域波形上会表现出跳变的现象,但是某些正常音也有该类现象,如图3中右侧箭头所示。
如图4所示(上图为时域图,下为频域图),对音频数据进行高通滤波后,由于POP音的频率分布特性,滤波后的残留量在波形上还会有跳变的现象,正常音的跳变现象则消失了。
步骤S103,基于所述滤波处理后的数据构造检测信号;
其中,构造检测信号的目的是方便将检测信号与预设阈值进行比对,以此判断检测的音频数据中是否存在POP音。
具体地,作为一种实施方式,可以基于滤波处理后的数据(滤波信号)的相邻帧能量差值构造检测信号,具体实现如下:
首先,获取所述滤波处理后的数据的相邻帧能量差值;然后,基于所述滤波处理后的数据的相邻帧能量差值生成检测信号。
采用相邻帧能量差值构造检测信号的公式如下:
Figure BDA0002846516990000081
其中,
Figure BDA0002846516990000082
是滤波后的数据,n是采样点序列,0≤n≤N,N为数据帧长;i为帧序号。
作为另一种实施方式,可以基于滤波处理后的数据(滤波信号)的高阶导数构造检测信号,具体实现如下:
计算所述滤波处理后的数据的高阶导数;
基于所述滤波处理后的数据的高阶导数生成检测信号。
以4阶导数为例,通过滤波信号的4阶导数构造检测信号的公式如下:
Figure BDA0002846516990000083
其中,
Figure BDA0002846516990000084
是滤波后的数据,n是采样点序列,0≤n≤N,N为数据帧长;i为帧序号,Δt是帧数据的采样间隔。
步骤S104,将所述检测信号与预设检测阈值进行比较;
步骤S105,若所述检测信号大于预设检测阈值,则判定检测到POP音。
然后,将所述检测信号与预设检测阈值进行比较,若所述检测信号大于预设检测阈值,则判定检测到POP音。若所述检测信号小于或等于预设检测阈值,则判定未检测到POP音。
其中,预设检测阈值可以采用如下方案设置:
作为一种实施方式,对于高阶导数生成的检测信号di(n),构造检测阈值方法如下:
获取所述待检测的音频数据的采样间隔;
基于所述采样间隔、所述滤波处理后的数据及预设检测阈值构造公式,构造检测阈值。该检测阈值是根据输入数据自适应调整的,具体公式如下:
Figure BDA0002846516990000091
如果检测信号由相邻帧能量差值构成,检测信号di″对应的检测阈值THi″可以根据经验,设置为一预设值。
当检测到di(n)大于THi(n),或者di″大于THi″,则判定检测到POP杂音。
本实施例通过上述方案,获取待检测的音频数据;对所述待检测的音频数据进行滤波处理,能够过滤部分正常跳变信号成分,得到滤波处理后的数据;基于所述滤波处理后的数据构造检测信号;将所述检测信号与预设检测阈值进行比较;若所述检测信号大于预设检测阈值,则判定检测到POP音。该方案能够实现音频数据中POP音的精准检测,避免出现漏判情况,通过实时POP音检测能够定位POP音出现的位置,为POP音修复提供辅助参考,而且计算量较小;POP音检测结果,方便开发人员进行定位、分析,提升工作效率。
作为再一种实施方式,还可以将上述两种方式组合实施,即将基于滤波处理后的数据(滤波信号)的相邻帧能量差值构造检测信号,以及基于滤波处理后的数据(滤波信号)的高阶导数构造检测信号,这两种实施方式组合实施。
具体实现如下:
首先,获取所述滤波处理后的数据的相邻帧能量差值,基于所述滤波处理后的数据的相邻帧能量差值生成第一检测信号;
计算所述滤波处理后的数据的高阶导数,基于所述滤波处理后的数据的高阶导数生成第二检测信号;
然后,将所述第一检测信号与对应的第一检测阈值进行比较,将所述第二检测信号与对应的第二检测阈值进行比较;
其中,第一检测阈值可以根据经验设置一预设值,第二检测阈值可以根据输入数据自适应调整,基于音频数据的采样间隔、滤波处理后的数据及预设检测阈值构造公式,构造该检测阈值,具体构造方法可以参照上述实施例,在此不再赘述。
若所述第一检测信号大于所述第一检测阈值,且所述第二检测信号大于所述第二检测阈值,则判定检测到POP音。
由此,通过组合实施可以进一步提升POP音的检测准确性和检测精度。
本实施例通过上述方案,获取待检测的音频数据;对所述待检测的音频数据进行滤波处理,能够过滤部分正常跳变信号成分,得到滤波处理后的数据;基于所述滤波处理后的数据构造检测信号;将所述检测信号与预设检测阈值进行比较;若所述检测信号大于预设检测阈值,则判定检测到POP音。该方案能够实现音频数据中POP音的精准检测,避免出现漏判情况,通过实时POP音检测能够定位POP音出现的位置,为POP音修复提供辅助参考,而且计算量较小;POP音检测结果,方便开发人员进行定位、分析,提升工作效率。
参照图5,图5为本申请POP音检测方法另一示例性实施例的流程示意图。基于上述图2所示的实施例,在上述步骤S102,对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据之前还包括:
步骤S1011,对所述待检测的音频数据进行重叠分帧处理;
所述步骤S102,对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据包括:
步骤S1021,对重叠分帧处理后的音频数据进行滤波处理,得到滤波处理后的数据。
相比上述图2所示的实施例,本实施例还包括对待检测的音频数据进行重叠分帧处理的方案。
具体地,在获取到待检测的音频数据后,对所述待检测的音频数据进行重叠分帧处理,重叠分帧处理的目的是考虑到某些音频数据中间存在帧截断的情况,通过重叠分帧可以使得音频数据更完整,更准确,精度更高。
本实施例中,对音频数据进行重叠分帧的波形如图6所示,其中,图6示意了帧数据Frame1、Frame2、Frame3、Frame4中,相邻帧之间存在重叠分帧的情况。
然后,对重叠分帧处理后的音频数据进行滤波处理,得到滤波处理后的数据。
本实施例通过上述方案,获取待检测的音频数据;对所述待检测的音频数据进行重叠分帧处理,对重叠分帧处理后的音频数据进行滤波处理,得到滤波处理后的数据;基于所述滤波处理后的数据构造检测信号;将所述检测信号与预设检测阈值进行比较;若所述检测信号大于预设检测阈值,则判定检测到POP音。该方案能够实现音频数据中POP音的精准检测,避免出现漏判情况,通过实时POP音检测能够定位POP音出现的位置,为POP音修复提供辅助参考,而且计算量较小;可以保存POP音检测结果,方便开发人员进行定位、分析,提升工作效率。
参照图7,图7为本申请POP音检测方法再一示例性实施例的流程示意图。基于上述图2所示的实施例,在上述步骤S102,对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据之前还包括:
步骤S1011,对所述待检测的音频数据进行重叠分帧处理;
步骤S1012,对重叠分帧处理后的音频数据进行加窗处理;
所述步骤S102,对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据包括:
步骤S1022,对加窗处理后的音频数据进行滤波处理,得到滤波处理后的数据。
相比上述图2所示的实施例,本实施例还包括对待检测的音频数据进行重叠分帧处理及加窗处理的方案。
具体地,在获取到待检测的音频数据后,对所述待检测的音频数据进行重叠分帧处理,重叠分帧处理的目的是考虑到某些音频数据中间存在帧截断的情况,通过重叠分帧可以使得音频数据更完整,更准确,精度更高。
然后,对重叠分帧处理后的音频数据进行加窗处理。
加窗处理的目的是考虑到重叠分帧后的音频数据存在边缘部分不连续的地方,通过加窗处理可以使得音频数据更加平滑,避免重叠分帧数据造成的数据错误。
其中,作为一种实施方式,对重叠分帧处理后的音频数据进行加窗处理,具体可以采用如下方案:
对重叠分帧处理后的音频数据通过窗函数进行加窗处理。
具体地,选择数据帧加窗的窗函数为hamming窗,窗长为N,即数据帧长,窗函数的公式如下:
w(n)=0.54-0.46cos(2πnN),0≤n≤N;
分帧加窗的数据表示为下式,其中,i为帧序号,w(n)为窗函数,n是采样点序列:
yi(n)=yi(n)*w(n)0≤n≤N。
之后,对加窗处理后的音频数据进行滤波处理,得到滤波处理后的数据。
本实施例通过上述方案,获取待检测的音频数据;对所述待检测的音频数据进行重叠分帧处理,对重叠分帧处理后的音频数据进行加窗处理,对加窗处理后的音频数据进行滤波处理,得到滤波处理后的数据;基于所述滤波处理后的数据构造检测信号;将所述检测信号与预设检测阈值进行比较;若所述检测信号大于预设检测阈值,则判定检测到POP音。该方案能够实现音频数据中POP音的精准检测,避免出现漏判情况,通过实时POP音检测能够定位POP音出现的位置,为POP音修复提供辅助参考,而且计算量较小;可以保存POP音检测结果,方便开发人员进行定位、分析,提升工作效率。
更为具体地,在本实施例方案中,对输入的待检测的音频数据依次进行重叠分帧、加窗处理、高通滤波器滤波、通过滤波数据计算高阶导数构造检测信号、计算检测阈值,进而判断是否检测到POP音的具体流程可以参照图8所示。
在本实施例方案中,对输入的待检测的音频数据依次进行重叠分帧、加窗处理、高通滤波器滤波、通过滤波数据的相邻帧能量差值构造检测信号、进而判断是否检测到POP音的具体流程可以参照图9所示。
在本实施例方案中,对输入的待检测的音频数据依次进行重叠分帧、加窗处理、高通滤波器滤波、并结合上述两种构造检测信号的方式,进而判断是否检测到POP音的具体流程可以参照图10所示。
本实施例方案能够实现音频数据中POP音的精准检测,避免出现漏判情况,通过实时POP音检测能够定位POP音出现的位置,为POP音修复提供辅助参考,而且计算量较小;可以保存POP音检测结果,方便开发人员进行定位、分析,提升工作效率。
而且需要说明的是,该技术方案应用不仅仅局限于移动设备,凡是涉及到需要音频检测的设备都可以应用此方案。
此外,本申请实施例还提出一种POP音检测装置,所述POP音检测装置包括:
获取模块,用于获取待检测的音频数据;
滤波模块,用于对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据;
构造模块,用于基于所述滤波处理后的数据构造检测信号;
比较模块,用于将所述检测信号与预设检测阈值进行比较;
判定模块,用于若所述检测信号大于预设检测阈值,则判定检测到POP音。
本实施例实现POP音检测的原理及实施过程,请参照上述各实施例,在此不再赘述。
此外,本申请实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的POP音检测程序,所述POP音检测程序被所述处理器执行时实现如上述实施例所述的POP音检测方法的步骤。
由于本POP音检测程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本申请实施例还提出一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有POP音检测程序,所述POP音检测程序被处理器执行时实现如权利要求1-11中任一项所述的POP音检测方法的步骤
由于本POP音检测程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
相比现有技术,本申请实施例提出的POP音检测方法、装置、终端设备及存储介质,通过获取待检测的音频数据;对所述待检测的音频数据进行滤波处理,能够过滤部分正常跳变信号成分,得到滤波处理后的数据;基于所述滤波处理后的数据构造检测信号;将所述检测信号与预设检测阈值进行比较;若所述检测信号大于预设检测阈值,则判定检测到POP音。该方案能够实现音频数据中POP音的精准检测,避免出现漏判情况,通过实时POP音检测能够定位POP音出现的位置,为POP音修复提供辅助参考,而且计算量较小;POP音检测结果,方便开发人员进行定位、分析,提升工作效率。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本申请每个实施例的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (9)

1.一种POP音检测方法,其特征在于,所述POP音检测方法包括以下步骤:
获取待检测的音频数据;
对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据;
基于所述滤波处理后的数据构造检测信号;
将所述检测信号与预设检测阈值进行比较;
若所述检测信号大于预设检测阈值,则判定检测到POP音;
所述基于所述滤波处理后的数据构造检测信号的步骤包括:
获取所述滤波处理后的数据的相邻帧能量差值;
基于所述滤波处理后的数据的相邻帧能量差值生成检测信号;
所述基于所述滤波处理后的数据构造检测信号的步骤包括:
计算所述滤波处理后的数据的高阶导数;
基于所述滤波处理后的数据的高阶导数生成检测信号;
所述基于所述滤波处理后的数据构造检测信号的步骤包括:
获取所述滤波处理后的数据的相邻帧能量差值,基于所述滤波处理后的数据的相邻帧能量差值生成第一检测信号;
计算所述滤波处理后的数据的高阶导数,基于所述滤波处理后的数据的高阶导数生成第二检测信号;
所述将所述检测信号与预设检测阈值进行比较的步骤包括:
将所述第一检测信号与对应的第一检测阈值进行比较,将所述第二检测信号与对应的第二检测阈值进行比较;
所述若所述检测信号大于预设检测阈值,则判定检测到POP音的步骤包括:
若所述第一检测信号大于所述第一检测阈值,且所述第二检测信号大于所述第二检测阈值,则判定检测到POP音。
2.根据权利要求1所述的POP音检测方法,其特征在于,所述对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据包括:
获取所述待检测的音频数据的采样率;
根据所述采样率确定通带截止频率;
根据所述通带截止频率对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据。
3.根据权利要求1所述的POP音检测方法,其特征在于,所述将所述检测信号与预设检测阈值进行比较的步骤之前还包括:
获取所述待检测的音频数据的采样间隔;
基于所述采样间隔、所述滤波处理后的数据及预设检测阈值构造公式,构造检测阈值。
4.根据权利要求1-3中任一项所述的POP音检测方法,其特征在于,所述对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据的步骤之前还包括:
对所述待检测的音频数据进行重叠分帧处理;
所述对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据的步骤包括:
对重叠分帧处理后的音频数据进行滤波处理,得到滤波处理后的数据。
5.根据权利要求4所述的POP音检测方法,其特征在于,所述对所述待检测的音频数据进行重叠分帧处理的步骤之后还包括:
对重叠分帧处理后的音频数据进行加窗处理;
所述对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据的步骤包括:
对加窗处理后的音频数据进行滤波处理,得到滤波处理后的数据。
6.根据权利要求1所述的POP音检测方法,其特征在于,所述将所述检测信号与预设检测阈值进行比较的步骤之后还包括:
若所述检测信号小于或等于预设检测阈值,则判定未检测到POP音。
7.一种POP音检测装置,其特征在于,所述POP音检测装置包括:
获取模块,用于获取待检测的音频数据;
滤波模块,用于对所述待检测的音频数据进行滤波处理,得到滤波处理后的数据;
构造模块,用于基于所述滤波处理后的数据构造检测信号;
比较模块,用于将所述检测信号与预设检测阈值进行比较;
判定模块,用于若所述检测信号大于预设检测阈值,则判定检测到POP;
所述构造模块,还用于:
获取所述滤波处理后的数据的相邻帧能量差值;
基于所述滤波处理后的数据的相邻帧能量差值生成检测信号;
所述构造模块,还用于:
计算所述滤波处理后的数据的高阶导数;
基于所述滤波处理后的数据的高阶导数生成检测信号;
所述构造模块,还用于:
获取所述滤波处理后的数据的相邻帧能量差值,基于所述滤波处理后的数据的相邻帧能量差值生成第一检测信号;
计算所述滤波处理后的数据的高阶导数,基于所述滤波处理后的数据的高阶导数生成第二检测信号;
所述将所述检测信号与预设检测阈值进行比较的步骤包括:
将所述第一检测信号与对应的第一检测阈值进行比较,将所述第二检测信号与对应的第二检测阈值进行比较;
所述若所述检测信号大于预设检测阈值,则判定检测到POP音的步骤包括:
若所述第一检测信号大于所述第一检测阈值,且所述第二检测信号大于所述第二检测阈值,则判定检测到POP音。
8.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的POP音检测程序,所述POP音检测程序被所述处理器执行时实现如权利要求1-6中任一项所述的POP音检测方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有POP音检测程序,所述POP音检测程序被处理器执行时实现如权利要求1-6中任一项所述的POP音检测方法的步骤。
CN202011513251.1A 2020-12-18 2020-12-18 Pop音检测方法、装置、终端设备及存储介质 Active CN112735481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011513251.1A CN112735481B (zh) 2020-12-18 2020-12-18 Pop音检测方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011513251.1A CN112735481B (zh) 2020-12-18 2020-12-18 Pop音检测方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN112735481A CN112735481A (zh) 2021-04-30
CN112735481B true CN112735481B (zh) 2022-08-05

Family

ID=75603552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011513251.1A Active CN112735481B (zh) 2020-12-18 2020-12-18 Pop音检测方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN112735481B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115243183A (zh) * 2022-06-29 2022-10-25 上海勤宽科技有限公司 一种音频检测方法、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143341A (zh) * 2013-05-23 2014-11-12 腾讯科技(深圳)有限公司 爆音检测方法和装置
CN105118520A (zh) * 2015-07-13 2015-12-02 腾讯科技(深圳)有限公司 一种音频开头爆音的消除方法及装置
CN106887233A (zh) * 2015-12-15 2017-06-23 广州酷狗计算机科技有限公司 音频数据处理方法及系统
CN109658955A (zh) * 2019-01-07 2019-04-19 环鸿电子(昆山)有限公司 爆音检测方法及装置
CN109903775A (zh) * 2017-12-07 2019-06-18 北京雷石天地电子技术有限公司 一种音频爆音检测方法和装置
CN110175015A (zh) * 2019-05-29 2019-08-27 Oppo广东移动通信有限公司 一种控制终端设备的音量的方法、装置及终端设备
CN110265064A (zh) * 2019-06-12 2019-09-20 腾讯音乐娱乐科技(深圳)有限公司 音频爆音检测方法、装置和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012009670A2 (en) * 2010-07-15 2012-01-19 Conexant Systems, Inc. Audio driver system and method
US20120245927A1 (en) * 2011-03-21 2012-09-27 On Semiconductor Trading Ltd. System and method for monaural audio processing based preserving speech information
KR20130123713A (ko) * 2012-05-03 2013-11-13 현대모비스 주식회사 팝 노이즈 제거 방법
US20180285056A1 (en) * 2017-03-28 2018-10-04 Microsoft Technology Licensing, Llc Accessory human interface device

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143341A (zh) * 2013-05-23 2014-11-12 腾讯科技(深圳)有限公司 爆音检测方法和装置
CN105118520A (zh) * 2015-07-13 2015-12-02 腾讯科技(深圳)有限公司 一种音频开头爆音的消除方法及装置
CN106887233A (zh) * 2015-12-15 2017-06-23 广州酷狗计算机科技有限公司 音频数据处理方法及系统
CN109903775A (zh) * 2017-12-07 2019-06-18 北京雷石天地电子技术有限公司 一种音频爆音检测方法和装置
CN109658955A (zh) * 2019-01-07 2019-04-19 环鸿电子(昆山)有限公司 爆音检测方法及装置
CN110175015A (zh) * 2019-05-29 2019-08-27 Oppo广东移动通信有限公司 一种控制终端设备的音量的方法、装置及终端设备
CN110265064A (zh) * 2019-06-12 2019-09-20 腾讯音乐娱乐科技(深圳)有限公司 音频爆音检测方法、装置和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ways to suppress click and pop for class D amplifiers;Wang Haishi et al;《Journal of Semiconductors》;20120831;全文 *
基于乐音信号的特征提取与分类方法研究;王臣梁;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20171115;全文 *

Also Published As

Publication number Publication date
CN112735481A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN110265064B (zh) 音频爆音检测方法、装置和存储介质
US10522164B2 (en) Method and device for improving audio processing performance
EP1913708B1 (en) Determination of audio device quality
US20200097528A1 (en) Method and Device for Quickly Inserting Text of Speech Carrier
CN107833579A (zh) 噪声消除方法、装置及计算机可读存储介质
CN113010139B (zh) 一种投屏方法、装置及电子设备
CN108234793B (zh) 一种通讯方法、装置、电子设备和存储介质
US20130266147A1 (en) System and method for identification of highly-variable vocalizations
CN104285452A (zh) 空间音频信号滤波
CN110970051A (zh) 语音数据采集方法、终端及可读存储介质
GB2559460A (en) Speech recognition without interrupting the playback audio
CN112735481B (zh) Pop音检测方法、装置、终端设备及存储介质
CN104092809A (zh) 通话录音方法、通话录音播放方法及其相应装置
CN108509175B (zh) 一种语音交互方法及电子设备
JP5558792B2 (ja) 複合イベント・プロセッサを使用して対話式音声応答システムのパフォーマンスを動的に改善する方法、システム、及びコンピュータ・プログラム
CN107452398B (zh) 回声获取方法、电子设备及计算机可读存储介质
JP5395399B2 (ja) 携帯端末、拍位置推定方法および拍位置推定プログラム
CN114879929A (zh) 多媒体文件播放方法及其装置
JP4770194B2 (ja) 音響信号に対する情報の埋め込み装置および方法
CN111627416B (zh) 音频噪声消除方法、装置、设备和存储介质
CN112135235A (zh) 质量检测方法、系统及计算机可读存储介质
CN104869232A (zh) 一种终端
CN111163310B (zh) 电视音频测试方法、装置、设备及计算机可读存储介质
JP2015046758A (ja) 情報処理装置、情報処理方法及びプログラム
CN114678038A (zh) 音频噪声检测方法、计算机设备和计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant