CN113271386B - 啸叫检测方法及装置、存储介质、电子设备 - Google Patents
啸叫检测方法及装置、存储介质、电子设备 Download PDFInfo
- Publication number
- CN113271386B CN113271386B CN202110529806.XA CN202110529806A CN113271386B CN 113271386 B CN113271386 B CN 113271386B CN 202110529806 A CN202110529806 A CN 202110529806A CN 113271386 B CN113271386 B CN 113271386B
- Authority
- CN
- China
- Prior art keywords
- howling
- probability
- scene
- audio signal
- instantaneous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 259
- 230000005236 sound signal Effects 0.000 claims abstract description 168
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000012216 screening Methods 0.000 claims abstract description 7
- 230000001131 transforming effect Effects 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000000737 periodic effect Effects 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000007774 longterm Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开的实施方式涉及计算机技术领域,更具体地,本公开的实施方式涉及啸叫检测方法及装置,存储介质和电子设备。所述啸叫检测方法包括:获取当前输入的音频信号并对其进行变换以获取所述音频信号对应的频域信号;识别所述频域信号中的峰值点,根据全部的所述峰值点计算平均能量值,并筛选最大峰值点;计算所述最大峰值点与所述平均能量值之间的第一比值,并将第一比值与预设的第一阈值进行比对,以根据比对结果确定所述音频信号的啸叫检测结果。本公开通过利用频域信号中的峰值信息进行啸叫检测,能够有效的提升啸叫检测的准确率,尤其针对音乐场景,可以有效的减少误判和漏判。
Description
技术领域
本公开的实施方式涉及计算机技术领域,更具体地,本公开的实施方式涉及啸叫检测方法及装置,存储介质和电子设备。
背景技术
本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。
在多媒体通信领域,在电话会议或者多媒体会议等应用场景中,由于参会人数众多,极易出现由于硬件设备问题或者是场景问题导致的啸叫现象,从而导致严重降低通话质量;因此啸叫处理是音频处理中的一个重要环节。通过啸叫处理以避免在通话过程中出现啸叫现象,可极大的提升通话语音质量和参会人的主观体验。
在一些技术中,存在使用基于机器学习的算法进行啸叫检测,一类是基于传统信号处理,基于不同形式的功率/功率比的方式进行啸叫检测;但存在检测准确率不稳定的问题,例如音乐场景下会存在过多误判。另一类是基于AI机器训练进行啸叫检测;但由于该类算法基于AI模型,存在计算量较高的问题,且对设备的CPU占用较高。
发明内容
在本上下文中,本公开的实施方式期望提供一种啸叫检测方法和装置、存储介质和电子设备。
根据本公开的一个方面,提供一种啸叫检测方法,包括:
获取当前输入的音频信号并对其进行变换以获取所述音频信号对应的频域信号;
识别所述频域信号中的峰值点,根据全部的所述峰值点计算平均能量值,并筛选最大峰值点;
计算所述最大峰值点与所述平均能量值之间的第一比值,并将第一比值与预设的第一阈值进行比对,以根据比对结果确定所述音频信号的啸叫检测结果。
在本公开的一种示例性实施例中,所述第一比值为所述最大峰值相比于所述平均能量值的结果;
所述将第一比值与预设的第一阈值进行比对时,所述方法还包括,在第一比值大于所述第一阈值时:
基于所述频域信号对应的高频能量参数和低频能量参数确定对应的场景标记;以及
获取所述频域信号对应的相关周期性参数、谐波特性参数和端点检测结果;
根据所述相关周期性参数、谐波特性参数和端点检测结果结合所述场景标记确定所述频域信号对应的瞬时啸叫概率,以用于根据所述瞬时啸叫概率判断所述音频信号是否存在啸叫。
在本公开的一种示例性实施例中,所述确定所述频域信号对应的瞬时啸叫概率后,所述方法还包括:
基于前序预设时长的音频信号对应的啸叫检测结果对所述瞬时啸叫概率进行修正;
根据修正后的所述瞬时啸叫概率确定所述啸叫检测结果。
在本公开的一种示例性实施例中,所述将所述瞬时啸叫概率,结合前序预设时长的音频信号对应的啸叫检测结果,对所述瞬时啸叫概率进行修正,包括:
将所述瞬时啸叫概率加入长时啸叫检测数据队列;所述长时啸叫检测数据队列包括以当前的所述音频数据为终点的预设时长的连续音频信号对应的历史啸叫概率值;
计算所述长时啸叫检测数据队列对应的概率和值,并将所述概率和值与预设和值阈值进行比对以确定长时啸叫检测结果;
结合所述长时啸叫检测结果和所述瞬时啸叫概率确定所述音频信号的啸叫检测结果。
在本公开的一种示例性实施例中,所述基于所述频域信号对应的高频能量参数和低频能量参数确定对应的场景标记,包括:
对所述频域信号按预设采样率进行采样以获取对应的高频能量参数和低频能量参数;
计算所述高频能量参数和所述低频能量参数的第二比值;
在第二比值大于第二阈值时,确定为第一场景;或者,在第二比值小于或等于第二阈值时,确定为第二场景。
在本公开的一种示例性实施例中,所述获取所述频域信号对应的相关周期性参数,包括:
获取与所述音频信号相邻的至少一个相邻音频信号对应的相邻频域信号,以根据所述相邻频域信号和所述频域信号计算相关周期性参数。
在本公开的一种示例性实施例中,所述获取所述频域信号对应的谐波特性参数,包括:
对所述频域信号进行谐波特性分析以提取所述输入音频信号对应的谐波特征参数。
在本公开的一种示例性实施例中,所述所述获取所述频域信号对应的端点检测结果,包括:
对所述频域信号进行端点检测,以获取所述音频信号对应的端点检测结果;所述端点检测结果包括语音或非语音。
在本公开的一种示例性实施例中,所述根据所述相关周期性参数、谐波特性参数和端点检测结果结合所述所述场景标记确定所述频域信号对应的瞬时啸叫概率,包括:
在所述场景标记为非音乐场景时,若所述音频信号为非语音,则配置所述瞬时啸叫概率为第一数值;或者,
在所述场景标记为非音乐场景时,若所述音频信号为语音,若不存在谐波特征,则配置所述瞬时啸叫概率为第二数值1;或者,
在所述场景标记为非音乐场景时,若所述音频信号为语音,存在谐波特征,若相关周期性值大于第三阈值,则配置所述瞬时啸叫概率为第二数值;或者,
在所述场景标记为非音乐场景时,若所述音频信号为语音,存在谐波特征,若相关周期性值小于或等于第三阈值,则配置所述瞬时啸叫概率为第三数值。
在本公开的一种示例性实施例中,所述根据所述相关周期性参数、谐波特性参数和端点检测结果结合所述所述场景标记确定所述频域信号对应的瞬时啸叫概率,包括:
在所述场景标记为音乐场景时,若所述音频信号为非语音,则配置所述瞬时啸叫概率为第一数值;或者,
在所述场景标记为音乐场景时,若所述音频信号为语音,且不存在谐波特性,则配置所述瞬时啸叫概率为第二数值;或者,
在所述场景标记为音乐场景时,若所述音频信号为语音,存在谐波特性,若相关周期性值大于第三阈值,则配置所述瞬时啸叫概率为第二数值;或者,
在所述场景标记为音乐场景时,若所述音频信号为语音,存在谐波特性,若相关周期性值小于或等于第三阈值,则配置所述瞬时啸叫概率为第一数值。
根据本公开的一个方面,提供一种啸叫检测装置,包括:
信号转换模块,用于获取当前输入的音频信号并对其进行离散变换以获取所述音频信号对应的频域信号;
峰值点处理模块,用于识别所述频域信号中的峰值点,根据全部的所述峰值点计算平均能量值,并筛选最大峰值点;
第一比对模块,用于计算所述最大峰值点与所述平均能量值之间的比值,并将比值与预设的第一阈值进行比对,以根据比对结果确定所述音频信号的啸叫检测结果。
在本公开的一种示例性实施例中,所述第一比值为所述最大峰值相比于所述平均能量值的结果;
所述装置还包括:
第二比对模块,用于在第一比值大于所述第一阈值时,基于所述频域信号对应的高频能量参数和低频能量参数确定对应的场景标记;以及获取所述频域信号对应的相关周期性参数、谐波特性参数和端点检测结果;根据所述相关周期性参数、谐波特性参数和端点检测结果结合所述场景标记确定所述频域信号对应的瞬时啸叫概率,以用于根据所述瞬时啸叫概率判断所述音频信号是否存在啸叫。
在本公开的一种示例性实施例中,所述装置还包括:
修正处理模块,用于确定所述频域信号对应的瞬时啸叫概率后,基于前序预设时长的音频信号对应的啸叫检测结果对所述瞬时啸叫概率进行修正;根据修正后的所述瞬时啸叫概率确定所述啸叫检测结果。
在本公开的一种示例性实施例中,所述修正处理模块包括:
数据队列更新模块,用于将所述瞬时啸叫概率加入长时啸叫检测数据队列;所述长时啸叫检测数据队列包括以当前的所述音频数据为终点的预设时长的连续音频信号对应的历史啸叫概率值;
长时啸叫处理模块,用于计算所述长时啸叫检测数据队列对应的概率和值,并将所述概率和值与预设和值阈值进行比对以确定长时啸叫检测结果;
检测结果输出模块,用于结合所述长时啸叫检测结果和所述瞬时啸叫概率确定所述音频信号的啸叫检测结果。
在本公开的一种示例性实施例中,所述第二比对模块包括:
场景计算模块,用于对所述频域信号按预设采样率进行采样以获取对应的高频能量参数和低频能量参数;计算所述高频能量参数和所述低频能量参数的第二比值;在第二比值大于第二阈值时,确定为第一场景;或者,在第二比值小于或等于第二阈值时,确定为第二场景。
在本公开的一种示例性实施例中,所述第二比对模块包括:
相关周期性参数计算模块,用于获取与所述音频信号相邻的至少一个相邻音频信号对应的相邻频域信号,以根据所述相邻频域信号和所述频域信号计算相关周期性参数。
在本公开的一种示例性实施例中,所述第二比对模块包括:
谐波特征参数计算模块,用于对所述频域信号进行谐波特性分析以提取所述输入音频信号对应的谐波特征参数。
在本公开的一种示例性实施例中,所述第二比对模块包括:
端点检测模块,用于对所述频域信号进行端点检测,以获取所述音频信号对应的端点检测结果;所述端点检测结果包括语音或非语音。
在本公开的一种示例性实施例中,所述第二比对模块包括:
第一瞬时啸叫概率计算模块,用于在所述场景标记为非音乐场景时,若所述音频信号为非语音,则配置所述瞬时啸叫概率为第一数值;或者,在所述场景标记为非音乐场景时,若所述音频信号为语音,若不存在谐波特征,则配置所述瞬时啸叫概率为第二数值;或者,在所述场景标记为非音乐场景时,若所述音频信号为语音,存在谐波特征,若相关周期性值大于第三阈值,则配置所述瞬时啸叫概率为第二数值;或者,在所述场景标记为非音乐场景时,若所述音频信号为语音,存在谐波特征,若相关周期性值小于或等于第三阈值,则配置所述瞬时啸叫概率为第三数值。
本公开的一种示例性实施例中,所述第二比对模块包括:
第二瞬时啸叫概率计算模块,用于在所述场景标记为音乐场景时,若所述音频信号为非语音,则配置所述瞬时啸叫概率为第一数值;或者,在所述场景标记为音乐场景时,若所述音频信号为语音,且不存在谐波特性,则配置所述瞬时啸叫概率为第二数值;或者,在所述场景标记为音乐场景时,若所述音频信号为语音,存在谐波特性,若相关周期性值大于第三阈值,则配置所述瞬时啸叫概率为第二数值;或者,在所述场景标记为音乐场景时,若所述音频信号为语音,存在谐波特性,若相关周期性值小于或等于第三阈值,则配置所述瞬时啸叫概率为第一数值。
根据本公开的一个方面,提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时上述的啸叫检测方法。
根据本公开的一个方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的啸叫检测方法。
根据实施方式的啸叫检测方法及装置,通过对输入的音频信号进行快速傅里叶变换,将音频信号由时域信号变换得到对应的频域信号,并对频域信号的峰值点进行识别,得到对应的平均能量值和最大峰值;进而计算最大峰值与平均能量值之间的第一比值,并将该第一比值与预设的第一阈值进行比对,从而能够根据比值的结果确定当前的音频信号中是否处在啸叫。通过利用频域信号中的峰值信息进行啸叫检测,能够有效的提升啸叫检测的准确率,尤其针对音乐场景,可以有效的减少误判和漏判。
附图说明
通过参考附图阅读下文的详细描述,本公开中的示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示意性地示出了根据本公开实施方式的啸叫检测方法的流程示意图;
图2示意性地示出了根据本公开实施方式的二级啸叫检测方法的流程示意图;
图3示意性地示出了根据本公开实施方式的场景识别方法的流程示意图;
图4示意性地示出了根据本公开实施方式的二级啸叫点判断逻辑的示意图;
图5示意性地示出了根据本公开实施方式的长时啸叫检测的方法的流程示意图;
图6示意性地示出了根据本公开实施方式的啸叫检测装置的方框图;
图7示意性地示出了根据本公开实施方式的另一啸叫检测装置的方框图;
图8示出了根据本公开实施方式的存储介质的示意图;以及
图9示意性示出了根据本公开实施方式的电子设备的方框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提供一种啸叫检测方法、啸叫检测装置、存储介质和电子设备。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐述本公开的原理和精神。
发明概述
本发明人发现,在一些技术中,在语音通信、多媒体通信领域,在电话会议或者多媒体会议场景,由于参会人数众多,终端设备较多且设备类型较多,各终端所处环境复杂,极易出现由于设备问题或者是场景问题导致的啸叫现象。啸叫对于会议通话质量的危害极大,因此啸叫处理是音频处理中的一个重要环节。通过啸叫检测处理以避免在通话过程中出现啸叫现象,可极大的提升通话语音质量和参会人的主观体验。目前,针对啸叫检测的算法,一类是基于传统信号处理,基于不同形式的功率/功率比的方式进行啸叫检测的方案;但是会存在检测准确率问题,例如音乐场景会导致过多误判。另一类是基于AI机器训练进行啸叫处理的啸叫检测方案,在大量训练的基础上会在一定程度上面提高检测准确率,但是存在引入算法计算量问题,会提升设备的CPU占用。
鉴于上述内容,本公开的基本思想在于:将音频信号变换为对应的频域信号,根据频域信号中的峰值特征进行啸叫检测,从而提升啸叫检测的准确率。
在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
示例性方法
下面结合图1来描述根据本公开示例性实施方式的啸叫检测方法。
参考图1所示,所述啸叫检测方法可以包括以下步骤:
S1、获取当前输入的音频信号并对其进行变换以获取所述音频信号对应的频域信号;
S2、识别所述频域信号中的峰值点,根据全部的所述峰值点计算平均能量值,并筛选最大峰值点;
S3、计算所述最大峰值点与所述平均能量值之间的第一比值,并将第一比值与预设的第一阈值进行比对,以根据比对结果确定所述音频信号的啸叫检测结果。
在本公开实施方式的啸叫检测方法中,通过对输入的音频信号进行快速傅里叶变换,将音频信号由时域信号变换得到对应的频域信号,并对频域信号的峰值点进行识别,得到对应的平均能量值和最大峰值;进而计算最大峰值与平均能量值之间的第一比值,并将该第一比值与预设的第一阈值进行比对,从而能够根据比值的结果确定当前的音频信号中是否处在啸叫。通过利用频域信号中的峰值信息进行啸叫检测,能够有效的提升啸叫检测的准确率,尤其针对音乐场景,可以有效的减少误判和漏判。
具体的,在本公开的一种示例性的啸叫检测方法中:
在步骤S1中,获取当前输入的音频信号并对其进行变换以获取所述音频信号对应的频域信号。
在本公开的示例性实施方式中,上述的音频信号可以是电话会议、视频会议等场景中,通过终端设备的麦克风或者独立的麦克风设备采集的音频数据;或者,上述的音频信号也可以是其他应用场景下,通过麦克风采集的音频数据;例如,在表演舞台上、ktv中通过麦克风采集的音频数据。上述的音频信号可以是一定检测周期时长下的音频信号;例如,检测周期可以为1秒或500毫秒,等等。
在采集音频数据后,可以首先对当前输入的音频信号进行FFT变换(Fast FourierTransform,快速傅里叶变换),从而将音频由时域变换至频域,从并获取当前输入的音频信号的FFT参数,即频域信号,包含音频数据的频谱特征。另外,还可以进行梅尔变换,得到对应的功率谱。
此外,在进行频域转换之前,还可以对音频信号进行分段、加窗处理。
在步骤S2中,识别所述频域信号中的峰值点,根据全部的所述峰值点计算平均能量值,并筛选最大峰值点。
在本公开的示例性实施方式中,在将音频信号转换为频域信号后,可以首先进行能量检测。
具体来说,针对频域信号,可以找出所有分段的频域信号中能量最高的n个峰值所对应的频率值,n为大于0的自然数。并将这些频率值按照先后顺序依次记录下来形成一个频域信号峰值频率序列。针对该序列,可以筛选出最大峰值点(peak_max);并且,根据该序列中的峰值点计算对应的平均能量值(energy_ave)。
在步骤S3中,计算所述最大峰值点与所述平均能量值之间的第一比值,并将第一比值与预设的第一阈值进行比对,以根据比对结果确定所述音频信号的啸叫检测结果。
在本公开的示例性实施方式中,可以根据频域信号中的峰值特征进行第一级判断。具体来说,上述的第一比值可以为所述最大峰值相比于所述平均能量值的能量比值结果(energy_compare);即,Energy_compare=Peak_max/Energy_ave。具体的,若第一比值小于预设的第一阈值,则当前的音频信号不存在啸叫。或者,若第一比值大于第一阈值,则判断存在啸叫;且最大峰值点便为啸叫点。举例来说,上述的第一阈值可以为10、15、17等数值;或者,该第一阈值也可以根据应用场景、终端设备的类型、终端设备的数量等参数进行自定义。
基于上述内容,在本公开的其他示例性实施方式中,具体来说,参考图2所示,上述的方法还可以包括:
步骤S41,在第一比值大于所述第一阈值时,基于所述频域信号对应的高频能量参数和低频能量参数确定对应的场景标记;
步骤S42,获取所述频域信号对应的相关周期性参数、谐波特性参数和端点检测结果;
步骤S43,根据所述相关周期性参数、谐波特性参数和端点检测结果结合所述场景标记确定所述频域信号对应的瞬时啸叫概率,以用于根据所述瞬时啸叫概率判断所述音频信号是否存在啸叫。
通过在根据频域信号的峰值特征进行一级判断后,若判断当前的音频帧存在啸叫点,则可以将该啸叫点配置为候选啸叫点,并可以结合当前的场景信息以及信号特征对进行二级判断,从而提供更加准确的啸叫检测结果。
在本公开的示例性实施方式中,具体的,参考图3所示,上述的步骤S41可以包括:
步骤S411,对所述频域信号按预设采样率进行采样以获取对应的高频能量参数和低频能量参数;
步骤S412,计算所述高频能量参数和所述低频能量参数的第二比值;
步骤S413,在第二比值大于第二阈值时,确定为第一场景;或者,在第二比值小于或等于第二阈值时,确定为第二场景。
举例来说,音频数据的场景或环境可以划分为音乐场景和非音乐场景。对应的,上述的第一场景可以为音乐场景,并为其配置场景标识(Signal_type)为1;上述的第二场景可以为非音乐场景,并为其配置场景标识(Signal_type)为0。其中,上述的非音乐场景也可以是通话场景。
可以对音频数据的频域信号进行采样,提取其中的高频能量(High_energy)和低频能量(Low_energy),从而通过频域信号中包含的高频能量特征和低频能量特征进行通话场景的识别。
例如,可以配置采样率为4k或8k;可以将频率小于或等于4KHz的频谱划分为低频,大于4KHz的频谱划分为高频。上述的第二阈值可以配置为0.5、0.4或0.7等数值。当然,在本公开的其他示例性实施方式中,上述的第二阈值也可以根据应用场景或实际需求配置为其他数值。
举例而言,在第二阈值为0.5时,若High_energy/Low_energy>0.5,则配置Signal_type=1,即为音乐场景。或者,若High_energy/Low_energy≤0.5,则配置Signal_type=0,即为非音乐场景或通话场景。
在本公开的示例性实施方式中,对于上述的步骤S42,在对音频数据的场景进行识别的同时;或者,在确定场景识别结果之后,还可以对频域信号进行处理,从而提取其中的相关周期性参数、谐波特性参数和端点检测结果。即,上述的步骤S41和步骤S42可以同时执行,或者以先执行步骤S42,后执行步骤S41的顺序执行。
在本公开的示例性实施方式中,获取频域信号对应的相关周期性参数的方法可以包括:获取与所述音频信号相邻的至少一个相邻音频信号对应的相邻频域信号,以根据所述相邻频域信号和所述频域信号计算相关周期性参数。
具体而言,针对频域信号相关周期性参数,可以通过当前帧音频信号的前序的一帧或连续多帧音频信号机器啸叫检测结果来计算当前帧信号的相关周期性值(Corr)。例如,可以将当前帧作为音频帧序列的最后一帧,向前获取至少一帧音频帧,利用基于卷积的相关性算法,计算当前帧音频信号的相关周期性值。或者,也可以通过计算两帧音频信号之间的频域信号的相似度来计算相关周期性值。若计算得到的相关性越高,则两帧音频帧之间的相似性越高。例如,若相邻的前一帧音频或连续的多帧音频存在啸叫,若计算得到的相关周期性值较高,则表明当前帧也较大概率存在啸叫;或者,若相邻的前一帧音频或连续的多帧音频存在啸叫,若计算得到的相关周期性值较低,则表明当前帧打概率不存在啸叫,即当前帧可能为啸叫的结束帧。
在本公开的示例性实施方式中,获取所述频域信号对应的端点检测结果的方法可以包括:对所述频域信号进行端点检测,以获取所述音频信号对应的端点检测结果;所述端点检测结果包括语音或非语音。
具体来说,可以通过对音频信号进行VAD检测(Voice Activity Detection,语音活动检测),来识别音频数据中的静音部分和有声部分,进而判断各帧音频数据中是否存在语音内容,或为纯音乐内容,或者为静音内容。采用常用的VAD检测算法即可实现,本公开对VAD检测算法的具体内容不再赘述。举例来说,对于VAD检测结果(VAD_flag),若当前音频帧为语音,则可以配置VAD_flag=1;或者,若当前帧为非语音,则配置VAD_flag=0。
在本公开的示例性实施方式中,获取所述频域信号对应的谐波特性参数的方法可以包括:对所述频域信号进行谐波特性分析以提取所述输入音频信号对应的谐波特征参数。
具体而言,针对频域信号的谐波特性,声音信号是不规则的随机信号,由基频信号和谐波组成。由于人声和器乐声的谐波频率范围不同,通过对音频信号的频谱进行识别,可以准确的判断是否存在谐波特性。例如,语言基音的频率范围为130~350Hz,谐波的频率范围为130~4000Hz;而演唱声的频率的基音范围为80~1100Hz,谐波的频率范围为80~8000Hz。而器乐则具有不同的基因和谐波,例如,钢琴的基音频率为28-4196Hz,其谐波频率范围5k-8k Hz;电吉他的基因频率为82-1319Hz,其谐波频率范围为1k-15k Hz;而底鼓的基音频率范围为30-147Hz,其谐波频率范围为1k-6kHz。当然,采集的音频信号中也可能存在由于电气设备本身的原因造成的谐波。对于音频信号,若判断存在谐波特性(Harmonic),则配置Harmonic=1;或者,若不存在谐波特征,则配置Harmonic=0。
在本公开的示例性实施方式中,对于上述的步骤S43,对于各音频帧,可以通过对应的场景标记、相关周期性参数、谐波特性参数和端点检测结果进行第二级啸叫检测,计算对应的啸叫概率。具体来说,参考图4所示,其判断逻辑可以包括:
在所述场景标记为非音乐场景时,若所述音频信号为非语音,则配置所述瞬时啸叫概率为第一数值;或者,
在所述场景标记为非音乐场景时,若所述音频信号为语音,若不存在谐波特征,则配置所述瞬时啸叫概率为第二数值;或者,
在所述场景标记为非音乐场景时,若所述音频信号为语音,存在谐波特征,若相关周期性值大于第三阈值,则配置所述瞬时啸叫概率为第二数值;或者,
在所述场景标记为非音乐场景时,若所述音频信号为语音,存在谐波特征,若相关周期性值小于或等于第三阈值,则配置所述瞬时啸叫概率为第三数值。
或者,在所述场景标记为音乐场景时,若所述音频信号为非语音,则配置所述瞬时啸叫概率为第一数值;或者,
在所述场景标记为音乐场景时,若所述音频信号为语音,且不存在谐波特性,则配置所述瞬时啸叫概率为第二数值;或者,
在所述场景标记为音乐场景时,若所述音频信号为语音,存在谐波特性,若相关周期性值大于第三阈值,则配置所述瞬时啸叫概率为第二数值;或者,
在所述场景标记为音乐场景时,若所述音频信号为语音,存在谐波特性,若相关周期性值小于或等于第三阈值,则配置所述瞬时啸叫概率为第一数值。
其中,上述的相关周期性的第三阈值可以为0.98;可以配置上述的瞬时啸叫概率的第一数值可以为0,第二数值为1,第三数值为0.6。
其中,若瞬时啸叫概率为1或0.6,则可以判定当前音频帧存在啸叫点;若瞬时啸叫概率为0,则可以判定当前音频帧不存在啸叫点。
基于上述的判断逻辑,可以在一级判断识别候选啸叫点之后,针对候选啸叫点结合应用场景、谐波特性特征、周期相关性特征和语音端点检测结果进行二级判断,对一级检测结果进行一次修正,从而进一步的对候选啸叫点进行再次判断,有效利用场景特征,提升啸叫检测的准确率,避免误判。
此外,基于上述内容,在本公开的其他示例性实施方式中,在进行二级啸叫检测,并获取对应的二级检测结果之后,还可以参考历史信息对啸叫检测结果进行修正。具体来说,上述的方法还可以包括:基于前序预设时长的音频信号对应的啸叫检测结果对所述瞬时啸叫概率进行修正;根据修正后的所述瞬时啸叫概率确定所述啸叫检测结果。
通过利用一段时长的音频数据的啸叫检测结果对当前的音频数据的啸叫检测结果进行再次修正。从而实现对啸叫检测结果的长时啸叫检测逻辑。
在本公开的其他示例性实施方式中,具体来说,参考图5所示,上述的基于前序预设时长的音频信号对应的啸叫检测结果对所述瞬时啸叫概率进行修正可以包括:
步骤S51,将所述瞬时啸叫概率加入长时啸叫检测数据队列;所述长时啸叫检测数据队列包括以当前的所述音频数据为终点的预设时长的连续音频信号对应的历史啸叫概率值;
步骤S52,计算所述长时啸叫检测数据队列对应的概率和值,并将所述概率和值与预设和值阈值进行比对以确定长时啸叫检测结果;
步骤S53,结合所述长时啸叫检测结果和所述瞬时啸叫概率确定所述音频信号的啸叫检测结果。
具体而言,针对音频数据,可以预先创建一长时啸叫检测数据队列,用于存储当前输入的音频数据的各音频帧的啸叫检测结果。举例来说,该长时啸叫检测数据队列可以保存预设时长的音频数据的啸叫检测结果。例如,可以存储2秒、3秒或者5秒的音频数据的啸叫检测结果。若该数据队列的长度已满,则将进入队列时间最早的数据开始删除,例如可以删除最早的一半数据;或者,也可以删除一定时长的数据,例如删除1秒音频对应的啸叫检测结果。当然,在本公开的其他示例性实施方式中,也可以配置该数据队列中存储较短时长的数据,从而可以缩短计算时长。
对于当前获取的第二级的瞬时啸叫概率(Howling_prob),可以添加至检测数据队列中,从而得到更新后的长时啸叫检测数据(Long_howling)。之后,便可以计算当前时刻该该啸叫检测数据队列对应的概率和值(Howling_prob_sum),并将该概率和值与预设的和值阈值进行比对,进而得到长时啸叫检测结果(Long_howling_flag)。举例来说,上述的和值阈值可以配置为50,若Howling_prob_sum>50,则配置长时啸叫检测结果的概率为1;否则,则配置长时啸叫检测结果的概率为0。
在获取长时啸叫检测结果之后,便可以结合前续获取的瞬时啸叫概率确定最终的啸叫检测结果。例如,若当前音频帧的瞬时啸叫概率为0,对应的长时啸叫检测结果为0,则判定为不存在啸叫。或者,若当前音频帧的瞬时啸叫概率为1,对应的长时啸叫检测结果为1,则判定为存在啸叫;此时,便可以对音频帧执行对应的啸叫消除处理。或者,若当前音频帧的瞬时啸叫概率为0,但对应的长时啸叫检测结果为1,则判断当前帧为啸叫的结束帧,判定当前帧不存在啸叫;此时,便可以不对音频帧进行处理,从而有效的避免音频帧损失音质。或者,若当前音频帧的瞬时啸叫概率为1,但对应的长时啸叫检测结果为0,则判断当前为啸叫的起始帧,可以对其执行啸叫消除处理,从而有效的消除啸叫。
在本公开的一些示例性实施方式中,上述的啸叫检测方法还可以包括,获取当前输入的音频信号并对其进行变换以获取所述音频信号对应的频域信号;识别所述频域信号中的峰值点,根据全部的所述峰值点计算平均能量值,并筛选最大峰值点;计算所述最大峰值点与所述平均能量值之间的第一比值,并将第一比值与预设的第一阈值进行比对,以根据比对结果确定所述音频信号的啸叫检测结果。
同时,对于输入的音频信号对应的频域信号,可以同步执行:基于所述频域信号对应的高频能量参数和低频能量参数确定对应的场景标记;以及获取所述频域信号对应的相关周期性参数、谐波特性参数和端点检测结果;根据所述相关周期性参数、谐波特性参数和端点检测结果结合所述场景标记确定所述频域信号对应的瞬时啸叫概率,以用于根据所述瞬时啸叫概率判断所述音频信号是否存在啸叫。
即,对于输入的音频信号,可以同步执行一级啸叫检测和二级啸叫检测,从而可以同时获取两个啸叫检测结果,再将根据两个检测结果判断初步啸叫检测结果。例如,若两检测结果均判断存在啸叫,则判定当前音频帧存在啸叫;或者,若两检测结果均判断不存在啸叫,则判定当前音频帧不存在啸叫;或者,在两啸叫检测结果不一致时,再执行上述的长时啸叫检测逻辑,即基于前序预设时长的音频信号对应的啸叫检测结果对所述瞬时啸叫概率进行修正;根据修正后的所述瞬时啸叫概率确定所述啸叫检测结果。进而获取最终的啸叫检测结果。
通过同步执行一级啸叫检测和二级啸叫检测,并仅在两啸叫检测结果不一致时,再启动长时啸叫检测逻辑,可以有效的提升啸叫检测的运行速度,进而提升啸叫检测效率。
在本公开的一些示例性实施方式中,为了提升啸叫检测的效率,降低终端的预算压力,上述的啸叫检测方法还可以包括:获取当前输入的音频信号并对其进行变换以获取所述音频信号对应的频域信号;基于所述频域信号对应的高频能量参数和低频能量参数确定对应的场景标记;以及获取所述频域信号对应的相关周期性参数、谐波特性参数和端点检测结果;根据所述相关周期性参数、谐波特性参数和端点检测结果结合所述场景标记确定所述频域信号对应的瞬时啸叫概率。以及,基于前序预设时长的音频信号对应的啸叫检测结果对所述瞬时啸叫概率进行修正;根据修正后的所述瞬时啸叫概率确定所述啸叫检测结果。
即,首先执行二级啸叫检测,再执行长时啸叫检测逻辑,从而可以压缩啸叫检测的流程,提升啸叫检测的效率和速度,并能降低终端的计算压力。
综上所述,本公开提供的啸叫检测方法,通过在一级啸叫检测、二级啸叫检测之后设置长时啸叫检测逻辑,从而可以实现三级啸叫检测;在一级啸叫检测时利用音频信号的高低频能量特征进行检测,在二级啸叫检测是利用音频特征进行检测;在三级检测时利用长时啸叫修正逻辑进行修正;一方面,能够在不同的检测阶段使用音频的不同特征进行检测,充分利用音频数据中包含的各类特征进行啸叫检测,从而提升啸叫检测准确性;另一方面,可以有效的区分音乐场景和非音乐场景,从而进一步的提升啸叫检测准确率;再一方面,通过在检测过程中结合信号相关周期性,从而考虑信号的连续性,提升啸叫检测准确性;同时,通过长时啸叫修正逻辑,有效的利用历史数据,进一步的减少误判的发生,避免因误处理而导致的音质下降。
示例性装置
在介绍了本公开示例性实施方式的啸叫检测方法之后,接下来,参考图6对本公开示例性实施方式的啸叫检测装置进行描述。
参考图6所示,本公开示例性实施方式的啸叫检测装置60可以包括:信号转换模块601、峰值点处理模块602、第一比对模块603,其中:
所述信号转换模块601可以用于获取当前输入的音频信号并对其进行离散变换以获取所述音频信号对应的频域信号。
所述峰值点处理模块602可以用于识别所述频域信号中的峰值点,根据全部的所述峰值点计算平均能量值,并筛选最大峰值点。
所述第一比对模块可以用于计算所述最大峰值点与所述平均能量值之间的比值,并将比值与预设的第一阈值进行比对,以根据比对结果确定所述音频信号的啸叫检测结果。
根据本公开的示例性实施例,所述第一比值为所述最大峰值相比于所述平均能量值的结果;参考图7所示,所述啸叫检测装置60还可以包括:第二比对模块604。
所述第二比对模604可以用于在第一比值大于所述第一阈值时,基于所述频域信号对应的高频能量参数和低频能量参数确定对应的场景标记;以及获取所述频域信号对应的相关周期性参数、谐波特性参数和端点检测结果;根据所述相关周期性参数、谐波特性参数和端点检测结果结合所述场景标记确定所述频域信号对应的瞬时啸叫概率,以用于根据所述瞬时啸叫概率判断所述音频信号是否存在啸叫。
根据本公开的示例性实施例,参考图7所示,所述啸叫检测装置60还可以包括:修正处理模块605。
所述修正处理模块605可以用于确定所述频域信号对应的瞬时啸叫概率后,基于前序预设时长的音频信号对应的啸叫检测结果对所述瞬时啸叫概率进行修正;根据修正后的所述瞬时啸叫概率确定所述啸叫检测结果。
根据本公开的示例性实施例,所述修正处理模块605还可以包括:数据队列更新模块、长时啸叫处理模块和检测结果输出模块,其中:。
所述数据队列更新模块可以用于将所述瞬时啸叫概率加入长时啸叫检测数据队列;所述长时啸叫检测数据队列包括以当前的所述音频数据为终点的预设时长的连续音频信号对应的历史啸叫概率值。
所述长时啸叫处理模块可以用于计算所述长时啸叫检测数据队列对应的概率和值,并将所述概率和值与预设和值阈值进行比对以确定长时啸叫检测结果。
所述检测结果输出模块可以用于结合所述长时啸叫检测结果和所述瞬时啸叫概率确定所述音频信号的啸叫检测结果。
根据本公开的示例性实施例,所述第二比对模块604可以包括:场景计算模块。
所述场景计算模块可以用于对所述频域信号按预设采样率进行采样以获取对应的高频能量参数和低频能量参数;计算所述高频能量参数和所述低频能量参数的第二比值;在第二比值大于第二阈值时,确定为第一场景;或者,在第二比值小于或等于第二阈值时,确定为第二场景。
根据本公开的示例性实施例,所述第二比对模块604还可以包括:相关周期性参数计算模块。
所述相关周期性参数计算模块可以用于获取与所述音频信号相邻的至少一个相邻音频信号对应的相邻频域信号,以根据所述相邻频域信号和所述频域信号计算相关周期性参数。
根据本公开的示例性实施例,所述第二比对模块604还可以包括:谐波特征参数计算模块。
所述谐波特征参数计算模块可以用于对所述频域信号进行谐波特性分析以提取所述输入音频信号对应的谐波特征参数。
根据本公开的示例性实施例,所述第二比对模块604还可以包括:端点检测模块。
所述端点检测模块可以用于对所述频域信号进行端点检测,以获取所述音频信号对应的端点检测结果;所述端点检测结果包括语音或非语音。
根据本公开的示例性实施例,所述第二比对模块604还可以包括:第一瞬时啸叫概率计算模块。
所述第一瞬时啸叫概率计算模块可以用于在所述场景标记为非音乐场景时,若所述音频信号为非语音,则配置所述瞬时啸叫概率为第一数值;或者,在所述场景标记为非音乐场景时,若所述音频信号为语音,若不存在谐波特征,则配置所述瞬时啸叫概率为第二数值;或者,在所述场景标记为非音乐场景时,若所述音频信号为语音,存在谐波特征,若相关周期性值大于第三阈值,则配置所述瞬时啸叫概率为第二数值;或者,在所述场景标记为非音乐场景时,若所述音频信号为语音,存在谐波特征,若相关周期性值小于或等于第三阈值,则配置所述瞬时啸叫概率为第三数值。
根据本公开的示例性实施例,所述第二比对模块604还可以包括:第二瞬时啸叫概率计算模块。
所述第二瞬时啸叫概率计算模块可以用于在所述场景标记为音乐场景时,若所述音频信号为非语音,则配置所述瞬时啸叫概率为第一数值;或者,在所述场景标记为音乐场景时,若所述音频信号为语音,且不存在谐波特性,则配置所述瞬时啸叫概率为第二数值;或者,在所述场景标记为音乐场景时,若所述音频信号为语音,存在谐波特性,若相关周期性值大于第三阈值,则配置所述瞬时啸叫概率为第二数值;或者,在所述场景标记为音乐场景时,若所述音频信号为语音,存在谐波特性,若相关周期性值小于或等于第三阈值,则配置所述瞬时啸叫概率为第一数值。
本公开的啸叫检测装置60的各个功能模块对应于上述的啸叫检测方法的内容设置。基于此,啸叫检测装置60中的各功能模块能够实现对应的方法内容相同的相关实施方式,本装置中的各功能模块与对应的方法实施例保持一致,因此在此对装置的实施例不再赘述。
示例性存储介质
在介绍了本公开示例性实施方式的啸叫检测方法和装置之后,接下来,参考图8对本公开示例性实施方式的存储介质进行说明。
参考图8所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品80,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等,还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性电子设备
在介绍了本公开示例性实施方式的存储介质之后,接下来,参考图9对本公开示例性实施方式的电子设备进行说明。
图9显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述"示例性方法"部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图1中所示的步骤。
存储单元820可以包括易失性存储单元,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以包括数据总线、地址总线和控制总线。
电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口850进行。电子设备800还包括显示单元840,其连接到输入/输出(I/O)接口850,用于进行显示。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了音频播放装置和音频分享装置的若干模块或子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (20)
1.一种啸叫检测方法,其特征在于,包括:
获取当前输入的音频信号并对其进行变换以获取所述音频信号对应的频域信号;
识别所述频域信号中的峰值点,根据全部的所述峰值点计算平均能量值,并筛选最大峰值点;
计算所述最大峰值点相比于所述平均能量值的结果并作为第一比值,并将第一比值与预设的第一阈值进行比对,在所述第一比值大于所述第一阈值时,基于所述频域信号对应的高频能量参数和低频能量参数确定对应的场景标记;以及
获取所述频域信号对应的相关周期性参数、谐波特性参数和端点检测结果;
根据所述相关周期性参数、谐波特性参数和端点检测结果结合所述场景标记确定所述频域信号对应的瞬时啸叫概率,以用于根据所述瞬时啸叫概率判断所述音频信号是否存在啸叫。
2.根据权利要求1所述的啸叫检测方法,其特征在于,所述确定所述频域信号对应的瞬时啸叫概率后,所述方法还包括:
基于前序预设时长的音频信号对应的啸叫检测结果对所述瞬时啸叫概率进行修正;
根据修正后的所述瞬时啸叫概率确定所述啸叫检测结果。
3.根据权利要求2所述的啸叫检测方法,其特征在于,将所述瞬时啸叫概率,结合前序预设时长的音频信号对应的啸叫检测结果,对所述瞬时啸叫概率进行修正,包括:
将所述瞬时啸叫概率加入长时啸叫检测数据队列;所述长时啸叫检测数据队列包括以当前的所述音频信号为终点的预设时长的连续音频信号对应的历史啸叫概率值;
计算所述长时啸叫检测数据队列对应的概率和值,并将所述概率和值与预设和值阈值进行比对以确定长时啸叫检测结果;
结合所述长时啸叫检测结果和所述瞬时啸叫概率确定所述音频信号的啸叫检测结果。
4.根据权利要求1所述的啸叫检测方法,其特征在于,所述基于所述频域信号对应的高频能量参数和低频能量参数确定对应的场景标记,包括:
对所述频域信号按预设采样率进行采样以获取对应的高频能量参数和低频能量参数;
计算所述高频能量参数和所述低频能量参数的第二比值;
在第二比值大于第二阈值时,确定为第一场景;或者,在第二比值小于或等于第二阈值时,确定为第二场景。
5.根据权利要求1所述的啸叫检测方法,其特征在于,所述获取所述频域信号对应的相关周期性参数,包括:
获取与所述音频信号相邻的至少一个相邻音频信号对应的相邻频域信号,以根据所述相邻频域信号和所述频域信号计算相关周期性参数。
6.根据权利要求1所述的啸叫检测方法,其特征在于,所述获取所述频域信号对应的谐波特性参数,包括:
对所述频域信号进行谐波特性分析以提取所述输入音频信号对应的谐波特征参数。
7.根据权利要求1所述的啸叫检测方法,其特征在于,所述获取所述频域信号对应的端点检测结果,包括:
对所述频域信号进行端点检测,以获取所述音频信号对应的端点检测结果;所述端点检测结果包括语音或非语音。
8.根据权利要求1所述的啸叫检测方法,其特征在于,所述根据所述相关周期性参数、谐波特性参数和端点检测结果结合所述所述场景标记确定所述频域信号对应的瞬时啸叫概率,包括:
在所述场景标记为非音乐场景时,若所述音频信号为非语音,则配置所述瞬时啸叫概率为第一数值;或者,
在所述场景标记为非音乐场景时,若所述音频信号为语音,若不存在谐波特征,则配置所述瞬时啸叫概率为第二数值;或者,
在所述场景标记为非音乐场景时,若所述音频信号为语音,存在谐波特征,若相关周期性参数的值大于第三阈值,则配置所述瞬时啸叫概率为第二数值;或者,
在所述场景标记为非音乐场景时,若所述音频信号为语音,存在谐波特征,若相关周期性参数的值小于或等于第三阈值,则配置所述瞬时啸叫概率为第三数值。
9.根据权利要求1所述的啸叫检测方法,其特征在于,所述根据所述相关周期性参数、谐波特性参数和端点检测结果结合所述所述场景标记确定所述频域信号对应的瞬时啸叫概率,包括:
在所述场景标记为音乐场景时,若所述音频信号为非语音,则配置所述瞬时啸叫概率为第一数值;或者,
在所述场景标记为音乐场景时,若所述音频信号为语音,且不存在谐波特性,则配置所述瞬时啸叫概率为第二数值;或者,
在所述场景标记为音乐场景时,若所述音频信号为语音,存在谐波特性,若相关周期性参数的值大于第三阈值,则配置所述瞬时啸叫概率为第二数值;或者,
在所述场景标记为音乐场景时,若所述音频信号为语音,存在谐波特性,若相关周期性参数的值小于或等于第三阈值,则配置所述瞬时啸叫概率为第一数值。
10.一种啸叫检测装置,其特征在于,包括:
信号转换模块,用于获取当前输入的音频信号并对其进行离散变换以获取所述音频信号对应的频域信号;
峰值点处理模块,用于识别所述频域信号中的峰值点,根据全部的所述峰值点计算平均能量值,并筛选最大峰值点;
第一比对模块,用于计算所述最大峰值点相比于所述平均能量值的结果并作为第一比值,并将第一比值与预设的第一阈值进行比对,在所述第一比值大于所述第一阈值时,确定所述最大峰值点为啸叫点;
第二比对模块,用于在第一比值大于所述第一阈值时,基于所述频域信号对应的高频能量参数和低频能量参数确定对应的场景标记;以及获取所述频域信号对应的相关周期性参数、谐波特性参数和端点检测结果;根据所述相关周期性参数、谐波特性参数和端点检测结果结合所述场景标记确定所述频域信号对应的瞬时啸叫概率,以用于根据所述瞬时啸叫概率判断所述音频信号是否存在啸叫。
11.根据权利要求10所述的啸叫检测装置,其特征在于,所述装置还包括:
修正处理模块,用于确定所述频域信号对应的瞬时啸叫概率后,基于前序预设时长的音频信号对应的啸叫检测结果对所述瞬时啸叫概率进行修正;根据修正后的所述瞬时啸叫概率确定所述啸叫检测结果。
12.根据权利要求11所述的啸叫检测装置,其特征在于,所述修正处理模块包括:
数据队列更新模块,用于将所述瞬时啸叫概率加入长时啸叫检测数据队列;所述长时啸叫检测数据队列包括以当前的所述音频信号为终点的预设时长的连续音频信号对应的历史啸叫概率值;
长时啸叫处理模块,用于计算所述长时啸叫检测数据队列对应的概率和值,并将所述概率和值与预设和值阈值进行比对以确定长时啸叫检测结果;
检测结果输出模块,用于结合所述长时啸叫检测结果和所述瞬时啸叫概率确定所述音频信号的啸叫检测结果。
13.根据权利要求10所述的啸叫检测装置,其特征在于,所述第二比对模块包括:
场景计算模块,用于对所述频域信号按预设采样率进行采样以获取对应的高频能量参数和低频能量参数;计算所述高频能量参数和所述低频能量参数的第二比值;在第二比值大于第二阈值时,确定为第一场景;或者,在第二比值小于或等于第二阈值时,确定为第二场景。
14.根据权利要求10所述的啸叫检测装置,其特征在于,所述第二比对模块包括:
相关周期性参数计算模块,用于获取与所述音频信号相邻的至少一个相邻音频信号对应的相邻频域信号,以根据所述相邻频域信号和所述频域信号计算相关周期性参数。
15.根据权利要求10所述的啸叫检测装置,其特征在于,所述第二比对模块包括:
谐波特征参数计算模块,用于对所述频域信号进行谐波特性分析以提取所述输入音频信号对应的谐波特征参数。
16.根据权利要求10所述的啸叫检测装置,其特征在于,所述第二比对模块包括:
端点检测模块,用于对所述频域信号进行端点检测,以获取所述音频信号对应的端点检测结果;所述端点检测结果包括语音或非语音。
17.根据权利要求10所述的啸叫检测装置,其特征在于,所述第二比对模块包括:
第一瞬时啸叫概率计算模块,用于在所述场景标记为非音乐场景时,若所述音频信号为非语音,则配置所述瞬时啸叫概率为第一数值;或者,在所述场景标记为非音乐场景时,若所述音频信号为语音,若不存在谐波特征,则配置所述瞬时啸叫概率为第二数值;或者,在所述场景标记为非音乐场景时,若所述音频信号为语音,存在谐波特征,若相关周期性参数的值大于第三阈值,则配置所述瞬时啸叫概率为第二数值;或者,在所述场景标记为非音乐场景时,若所述音频信号为语音,存在谐波特征,若相关周期性参数的值小于或等于第三阈值,则配置所述瞬时啸叫概率为第三数值。
18.根据权利要求10所述的啸叫检测装置,其特征在于,所述第二比对模块包括:
第二瞬时啸叫概率计算模块,用于在所述场景标记为音乐场景时,若所述音频信号为非语音,则配置所述瞬时啸叫概率为第一数值;或者,在所述场景标记为音乐场景时,若所述音频信号为语音,且不存在谐波特性,则配置所述瞬时啸叫概率为第二数值;或者,在所述场景标记为音乐场景时,若所述音频信号为语音,存在谐波特性,若相关周期性参数的值大于第三阈值,则配置所述瞬时啸叫概率为第二数值;或者,在所述场景标记为音乐场景时,若所述音频信号为语音,存在谐波特性,若相关周期性参数的值小于或等于第三阈值,则配置所述瞬时啸叫概率为第一数值。
19.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~9中任一项所述的啸叫检测方法。
20.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~9中任一项所述的啸叫检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110529806.XA CN113271386B (zh) | 2021-05-14 | 2021-05-14 | 啸叫检测方法及装置、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110529806.XA CN113271386B (zh) | 2021-05-14 | 2021-05-14 | 啸叫检测方法及装置、存储介质、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113271386A CN113271386A (zh) | 2021-08-17 |
CN113271386B true CN113271386B (zh) | 2023-03-31 |
Family
ID=77231019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110529806.XA Active CN113271386B (zh) | 2021-05-14 | 2021-05-14 | 啸叫检测方法及装置、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113271386B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI794059B (zh) * | 2022-03-21 | 2023-02-21 | 英業達股份有限公司 | 聲音處理方法及聲音處理裝置 |
CN117641218B (zh) * | 2024-01-25 | 2024-04-12 | 北京中电慧声科技有限公司 | 一种啸叫检测和抑制方法、系统及介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004023722A (ja) * | 2002-06-20 | 2004-01-22 | Matsushita Electric Ind Co Ltd | ハウリングの検出装置、抑制装置、検出方法および抑制方法 |
JP4573689B2 (ja) * | 2005-04-05 | 2010-11-04 | ローランド株式会社 | ハウリング防止装置 |
CN103391496B (zh) * | 2013-07-16 | 2016-08-10 | 歌尔声学股份有限公司 | 应用于主动噪声消除anr耳机的啸叫抑制方法和装置 |
CN105812993B (zh) * | 2014-12-29 | 2019-02-15 | 联芯科技有限公司 | 啸叫检测和抑制方法及其装置 |
CN107645696B (zh) * | 2016-07-20 | 2019-04-19 | 腾讯科技(深圳)有限公司 | 一种啸叫检测方法和装置 |
CN109102819A (zh) * | 2017-06-20 | 2018-12-28 | 中移(杭州)信息技术有限公司 | 一种啸叫检测方法及装置 |
CN109218957B (zh) * | 2018-10-23 | 2020-11-27 | 北京达佳互联信息技术有限公司 | 啸叫检测方法、装置、电子设备及存储介质 |
CN110536215B (zh) * | 2019-09-09 | 2021-06-29 | 普联技术有限公司 | 音频信号处理的方法、装置、计算设置及存储介质 |
CN110838301B (zh) * | 2019-11-20 | 2022-04-12 | 北京雷石天地电子技术有限公司 | 抑制啸叫的方法、装置终端和非临时性计算机可读存储介质 |
CN111402911B (zh) * | 2019-12-23 | 2023-01-31 | 佛山慧明电子科技有限公司 | 一种啸叫检测与抑制方法 |
CN112004177B (zh) * | 2020-09-03 | 2021-08-31 | 重庆瑞可利科技有限公司 | 一种啸叫检测方法、麦克风音量调节方法及存储介质 |
-
2021
- 2021-05-14 CN CN202110529806.XA patent/CN113271386B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113271386A (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110148427B (zh) | 音频处理方法、装置、系统、存储介质、终端及服务器 | |
US10593333B2 (en) | Method and device for processing voice message, terminal and storage medium | |
CN108831437B (zh) | 一种歌声生成方法、装置、终端和存储介质 | |
US20240021202A1 (en) | Method and apparatus for recognizing voice, electronic device and medium | |
Tachibana et al. | Singing voice enhancement in monaural music signals based on two-stage harmonic/percussive sound separation on multiple resolution spectrograms | |
CN113271386B (zh) | 啸叫检测方法及装置、存储介质、电子设备 | |
CN107799126A (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
US9711167B2 (en) | System and method for real-time speaker segmentation of audio interactions | |
CN109801646B (zh) | 一种基于融合特征的语音端点检测方法和装置 | |
CN109616098B (zh) | 基于频域能量的语音端点检测方法和装置 | |
EP3989217B1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
US20130246061A1 (en) | Automatic realtime speech impairment correction | |
CN110472097A (zh) | 乐曲自动分类方法、装置、计算机设备和存储介质 | |
CN112309409A (zh) | 音频修正方法及相关装置 | |
US10262677B2 (en) | Systems and methods for removing reverberation from audio signals | |
WO2004093057A2 (en) | Cascaded hidden markov model for meta-state estimation | |
US8725508B2 (en) | Method and apparatus for element identification in a signal | |
US6470311B1 (en) | Method and apparatus for determining pitch synchronous frames | |
JP2017187676A (ja) | 音声判別装置、音声判別方法、コンピュータプログラム | |
CN107025902B (zh) | 数据处理方法及装置 | |
WO2021217750A1 (zh) | 消除语音交互中信道差异的方法及系统、电子设备及介质 | |
JPH10301594A (ja) | 有音検出装置 | |
CN113781989A (zh) | 一种音频的动画播放、节奏卡点识别方法及相关装置 | |
JP2023539121A (ja) | オーディオコンテンツの識別 | |
CN112786071A (zh) | 面向语音交互场景语音片段的数据标注方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211008 Address after: 310000 Room 408, building 3, No. 399, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: Hangzhou Netease Zhiqi Technology Co.,Ltd. Address before: 310052 Room 301, Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province Applicant before: HANGZHOU LANGHE TECHNOLOGY Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |