CN110782910A - 一种高检出率的啸叫音频检测系统 - Google Patents

一种高检出率的啸叫音频检测系统 Download PDF

Info

Publication number
CN110782910A
CN110782910A CN201911077968.3A CN201911077968A CN110782910A CN 110782910 A CN110782910 A CN 110782910A CN 201911077968 A CN201911077968 A CN 201911077968A CN 110782910 A CN110782910 A CN 110782910A
Authority
CN
China
Prior art keywords
howling
signal
frame
detection
current frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911077968.3A
Other languages
English (en)
Other versions
CN110782910B (zh
Inventor
张芷毓
林坤鹏
陈喆
殷福亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201911077968.3A priority Critical patent/CN110782910B/zh
Publication of CN110782910A publication Critical patent/CN110782910A/zh
Application granted granted Critical
Publication of CN110782910B publication Critical patent/CN110782910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种高检出率的啸叫音频检测系统,包括:预处理模块,对输入信号进行分帧、缓存和加窗处理,再对加窗后的信号进行快速傅里叶变换和语音端点检测处理;特征参数提取模块,对预处理后的每帧音频信号进行特征参数提取和缓存;啸叫检测判决模块,根据获取的Pearson系数信息对音频信号进行啸叫检测,其过程为:如果当前帧信号的Pearson系数值ρmax在检测阈值范围内,则进入短时啸叫判决过程,如果当前帧信号的Pearson系数值ρmax大于检测阈值范围的最大值,则进入长时啸叫判决过程最后获取啸叫帧;啸叫抑制模块,对啸叫帧进行啸叫衰减和消除处理。

Description

一种高检出率的啸叫音频检测系统
技术领域
本发明涉及语音信号处理领域,尤其涉及一种高检出率的啸叫音频检测系统。
背景技术
随着互联网通信技术与经济条件的快速发展,会议电视系统凭借其自身的优势日益应用广泛,成为一种被大众认同接受的办公运作。然而,由于电视电话会议多工作在双工模式,易于系统中形成闭环回路,当此闭环回路满足啸叫发生的振幅和相位条件时,信号形成声学反馈(SF),系统会处于自激振荡状态导致啸叫现象发生。啸叫会造成恶劣的现场通话环境,甚至毁坏系统中的扩声组件,所以在会议电视系统中需要做好啸叫检测及抑制工作才能保证通话音频质量。
在现有技术中关于基于神经网络的啸叫检测方法,具体步骤是:接受声音信号,将声音信号经过采样分帧后,缓存过去的9帧数据,进行特征提取,其中提取的特征包含:10帧数据的频域最大幅值,10帧数据频域最大幅值所对应的频点位置,还有9个当前帧与过去帧之间的频域相关性系数,一共是29维的特征向量。将提取的特征输入进神经网络对其进行训练,训练数据集中的啸叫音频是由从不同的位置,调节不同的音量录得的实际助听器音频,训练数据集中的正常语音采用纯净语音数据。在所述神经网络分类步骤中,为了进一步消除啸叫检测中误判所带来的语音损失,采用0.7作为输出层单元的分类阈值,也就是说,当神经网络的输出大于0.7时,才判断当前帧存在啸叫,否则判断为不存在啸叫。基于神经网络的检测方法虽然算法复杂度不高,但计算量较大,需要较多训练数据,训练过程会浪费大量时间。
发明内容
根据现有技术存在的问题,本发明公开了一种高检出率的啸叫音频检测系统,具体包括:
预处理模块,对输入信号进行分帧、缓存和加窗处理,再对加窗后的信号进行快速傅里叶变换和语音端点检测处理;
特征参数提取模块,对预处理后的每帧音频信号进行特征参数提取和缓存;其中音频信号的特征参数包括Pearson系数、二阶Pearson系数、低频带谱平坦度、全频带谱平坦度、自相关函数和波谷占比;
啸叫检测判决模块,根据获取的Pearson系数信息对音频信号进行啸叫检测,其过程为:如果当前帧信号的Pearson系数值ρmax在检测阈值范围内,则进入短时啸叫判决过程,如果当前帧信号的Pearson系数值ρmax大于检测阈值范围的最大值,则进入长时啸叫判决模过程最后获取啸叫帧;
啸叫抑制模块,对啸叫帧进行啸叫衰减和消除处理。
进一步的,采用Pearson系数、二阶Pearson系数、低频带谱平坦度、全频带谱平坦度、自相关函数和波谷占比多特征融合的啸叫检测方法。
所述提取Pearson系数时对每帧信号分别找到与当前帧信号频谱最相关的一帧信号x1,并计算当前帧信号与x1之间的最大平均Pearson系数;
所述提取二阶Pearson系数时:在Pearson系数的基础上对每帧信号分别找到与其自身的x1最相关的信号x2,并计算帧信号x1与帧信号x2之间的Pearson系数。
进一步的,设第i帧为当前帧,则当前帧i和其前j帧的Pearson系数的表达方式为:
Figure BDA0002263069490000021
其中,Gamp(i,k),Gamp(j,k)分别为当前帧和其前j帧信号在频点k的幅度谱;Gi,Gj分别为当前帧和其前j帧信号的总功率,k1,k2为频率索引,m为正整数,t为缓存时间索引。
进一步的,所述二阶Pearson系数采用如下方式获取:
Figure BDA0002263069490000022
其中,Gamp(x1,k),Gamp(x1-jmax,k)分别为帧信号x1和其前jmax帧信号在频点k的幅值;Gx1,Gx1-jmax分别为x1和其前jmax帧信号的总功率,k1,k2为频率索引。
所述波谷占比采用如下方式获取:
通过在当前帧信号与x1之间寻找能量低于当前帧信号能量阈值的语音帧,将其数目记作nc,该段时间总帧数记为nt,则当前帧信号的波谷占比Ra
Figure BDA0002263069490000031
由于采用了上述技术方案,本发明提供的一种高检出率的啸叫音频检测系统,该系统通过计算音频信号的特征参数如Pearson系数、二阶Pearson系数、低频带谱平坦度、全频带谱平坦度、自相关函数和波谷占比等参数信息,对啸叫进行判决,从而对音频信号进行啸叫衰减和消除处理,该系统利用Pearson系数在持续时间内寻找与当前帧信号最相近的一帧信号,并将二者在该段时间内的平均Pearson系数值作为阈值来进行啸叫判决,在此基础上,继续增加二阶Pearson系数从而缩小了检出范围,同时降低了对语音的误检率,同时该系统公开的波谷占比计算方式为具有周期性的短时啸叫的检测缩小了范围,降低了误检率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明系统的结构示意图;
图2为本发明中Pearson相关系数计算原理图;
图3为本发明中二阶Pearson系数计算过程示意图;
图4为本发明中啸叫检测判决模块工作过程的流程图;
图5(a)为本发明中啸叫方法总体抑制结果样例图;
图5(b)为本发明中啸叫方法总体抑制结果样例图。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
啸叫检测(HD)是一个典型的二元信号检测问题,本发明采取的主要技术路线为在传统二元信号检测技术基础上研发新的检测、判决、识别的新方法,以期在性能上和资源消耗上能达到预期效果。本发明的一种高检出率的啸叫音频检测系统如图1所示,该系统首先对语音信号进行预处理,在此基础上再提取多个合适的特征参数,再根据不同的啸叫信号的时域与频域特性选择合适的特征参数进行联合条件判决,以达到识别啸叫与正常语音信号的目的,并对啸叫信号进行抑制。该系统具体包括预处理模块、特征参数提取模块、啸叫检测判决模块和啸叫抑制模块。
进一步的,预处理模块对输入信号进行分帧、缓存和加窗处理,再对加窗后的信号进行快速傅里叶变换和语音端点检测处理。
作为优选的方式,预处理模块在进行特征参数提取之前需要对输入信号进行必要的预处理,主要包括:(1)信号分帧与缓存供后续参数提取使用;(2)加窗截取数据做FFT并进行缓存;(3)语音端点检测处理。对麦克风拾取到的语音信号x(n)经过16kHz的采样以后,用一个定长的时间窗,以固定的帧移长度对原始信号进行分帧。为了减少频谱泄露和谱间干扰的影响,选择海明(Hamming)窗w(n)对信号x(n)进行加窗处理。经过分帧加窗之后的信号每帧的帧长为N,本专利N为256个点。分帧加窗之后的信号为
Figure BDA0002263069490000041
其中
Figure BDA0002263069490000042
n=0,1,…,N-1
对分帧加窗后的信号
Figure BDA0002263069490000043
进行快速傅里叶变换(FFT),得到第i帧信号的第k个频点的频谱为
Figure BDA0002263069490000045
的幅度谱为
Figure BDA0002263069490000046
XR(i,k)为第i帧信号第k个频点的实部,XI(i,k)为第i帧信号第k个频点的虚部。
Figure BDA0002263069490000047
的功率谱为
G(i,k)=[XR(i,k)2+XI(i,k)2],k=0,1,…,N-1 (4)
的总功率为
Figure BDA0002263069490000051
对传进的每帧信号进行分帧加窗,计算幅度谱与功率谱并进行缓存。
在正常语音或啸叫信号中,谱峰频率一般在中高频率段。根据该特征,当发现某一低频频率(本专利为100~300HZ)的幅度谱大于该帧信号幅度峰值10%时,即低频谱峰存在时,不再进行啸叫检测。
特征参数提取模块的作用是对预处理后的每帧音频信号进行特征参数提取和缓存;其中音频信号的特征参数包括Pearson系数、二阶Pearson系数、低频带谱平坦度、全频带谱平坦度、自相关函数和波谷占比。
作为优选的方式:Pearson系数采用如下方式获取:Pearson系数作为特征主要意义在于音频信号在一段范围内(本系统中为0.32秒)存在与当前帧信号频谱最相关的一帧信号,记为x1,一般来说,啸叫信号之间的相关性大于语音信号。因此本专利选择当前帧信号与x1的平均Pearson系数作为阈值,对啸叫进行检测。具体计算步骤如下:
(i)首先计算当前帧与其前149帧信号的Pearson系数,共150个系数(包括当前帧与其自身的Pearson系数),缓存时间为0.32秒(32帧)。设第i帧为当前帧,本专利中当前帧和其前j帧的Pearson相关系数的具体公式为
Figure BDA0002263069490000052
其中,Gamp(i,k),Gamp(j,k)分别为当前帧和其前j帧信号在频点k的幅度谱;Gi,Gj分别为当前帧和其前j帧信号的总功率,k1,k2为频率索引(其中k1=1,k2=126),m为正整数,t为缓存时间索引。
(ii)分别求出在0.32秒内当前帧与前j帧的Pearson系数的平均值,共125个平均值,选择平均值最大者所对应的j值作为与当前帧谱峰最相似的一帧信号,其中j=24,25,…,149,相关计算公式为
Figure BDA0002263069490000053
Figure BDA0002263069490000054
ρmax=max{ρave(j)},j=24,25,…,149 (9)
其中,ρtotal(j)为0.32秒(32帧)内当前帧与前j帧的总Pearson系数值,ρave(j)为0.32秒内当前帧与前j帧的Pearson系数的平均值,ρmax为ρave(j)的最大值,该最大值所对应的jmax即为本专利所求的当前帧的最相近帧x1,ρt(j)为在t时刻(0.32秒内),当前帧分别与其前j帧的Pearson系数,且ρt(j)>0.1,n(j)为在32帧内ρt(j)>0.1的总帧数。
(iii)将(ii)中求得的ρmax作为阈值门限,来判别当前帧是否为啸叫信号。计算原理图如图2所示。
其中,二阶Pearson系数具体采用如下方式获取:
由于在上述中已寻找到与当前帧谱峰最相近的一帧信号x1,在此基础上继续寻找与x1最相近的信号x2,方法与(1)中所示相同。且x2信号与x1信号间隔的距离和x1信号与当前帧信号间隔的距离大致相等。将x1与x2信号间的相关系数记为二阶Pearson系数,以此作为判别啸叫的阈值之一,示意图如图3所示,x1与x2的二阶Pearson系数用ρ(2)表示,公式为
Figure BDA0002263069490000061
其中,Gamp(x1,k),Gamp(x1-jmax,k)分别为x1和其前jmax帧信号在频点k的幅值;Gx1,Gx1-jmax分别为x1和其前jmax帧信号的总功率,k1,k2为频率索引(其中k1=1,k2=126)。如图3所示。
低频带谱平坦度和全频带谱平坦度采用如下方式获取:由于啸叫产生时,谱平坦度较小。本系统分别提取了低频带(100~1khz)与全频带(100~7.9khz)的谱平坦度,分别用Sl、St表示。SFT具体计算公式为:
Figure BDA0002263069490000062
其中,k为频率索引,Gamp(i,k)为第i帧信号在频点k处的幅度。
自相关函数采用如下方式获取:自相关函数是描述随机信号在任意不同时刻的取值之间的相关程度,是对信号自身的互相关,表示同一序列不同时刻的相关程度。虽然在上文已经根据Pearson系数大致计算出与当前帧较为相关的一帧信号x1的位置,但为了使定位更为精确,本专利在Pearson系数的基础上,继续计算当前帧信号与x1和x1前后各两帧信号的自相关函数r(k),共5个系数,再取其最大者R,以此作为阈值来进行啸叫判决,因为啸叫信号的相关性往往大于语音信号,所以该特征能达到判决啸叫和语音的目的。该算法在Pearson系数的基础上会减少漏检与误捡,具体计算公式为
Figure BDA0002263069490000071
R=max{r(k)},k=-2,-1,…,2 (13)
其中,x(n)为当前帧音频信号时域幅值,xk(n)为x1相邻(包括x1在内)的5帧信号时域幅值,N=256。
波谷占比采用如下方式获取:由于短促啸叫的发生在低频段和高频段较为常见,它会在当前帧信号与x1之间的数帧信号中形成多个低能量的波谷,而这是语音信号不常见的现象。本专利的波谷占比通过以下步骤计算:通过在当前帧信号与x1之间寻找能量低于当前帧信号能量阈值的语音帧,其中,能量阈值为当前帧信号能量的0.01倍,将其数目记作nc,该段时间总帧数记为nt,则当前帧信号的波谷占比Ra
Figure BDA0002263069490000072
进一步的,啸叫检测判决模块的作用是根据获取的Pearson系数信息对音频信号进行啸叫检测,其过程为:如果当前帧信号的Pearson系数值ρmax在检测阈值范围内,则进入短时啸叫判决过程,如果当前帧信号的Pearson系数值ρmax大于检测阈值范围的最大值,则进入长时啸叫判决模过程最后获取啸叫帧。
作为优选的方式:根据提取到的特征参数设定好检测阈值范围,检测逻辑如下:首先判断ρmax是否在检测阈值范围为0.55-0.78的范围内,如果满足条件则进入短时啸叫判决过程;否则如果ρmax大于0.78进入长时啸叫判决过程。
在短时啸叫判决过程中:如果Ra超过60%且相关函数R大于0.6则进入啸叫频率判决过程。在啸叫频率判决过程中:如果当前帧信号峰值频率(设为fm)大于800hz,则判定结果为啸叫;如果fm小于800hz,则要满足二阶皮尔森系数ρ(2)大于0.55、全带谱平坦度St小于0.11、低频带谱平坦度Sl小于0.2才判其为啸叫。
在长时啸叫判决过程中:如果fm大于800hz,则判其为啸叫;如果fm小于800hz且Sl小于0.2则判决为啸叫。啸叫检测流程如图4所示。
啸叫抑制模块的作用是对啸叫帧进行啸叫衰减和消除处理。作为优选的方式:抑制步骤为:在刚被检出的起始啸叫帧内,对每一帧的幅度分别乘以一逐渐减小的动态衰减系数(本专利起始啸叫帧设为90帧以内,衰减系数每次减少0.01,最少衰减到0.1倍),并将0.1作为啸叫稳定时的稳定衰减系数,使稳定后的啸叫衰减20db,具体公式为
yi(n)=xi(n)×(1-0.01×i) (15)
yi(n)=xi(n)×0.1 (16)
其中,xi(n)为被连续检出的第i帧啸叫,yi(n)为第i帧信号抑制之后的信号。当0<i<90时,选择公式(15)对啸叫进行抑制,否则选择公式(16)来抑制当前啸叫帧。
为了验证本系统的有效性,使用大量啸叫信号,并进行了若干测试,下面表1为啸叫总时长分别为5分钟、10分钟、15分钟、20分钟、25分钟、30分钟内各类啸叫的检出率。图5为实测的啸叫抑制结果,该图(a)部分图形为原始音频波形图,图(b)为抑制之后的音频波形。由检测结果可看出本专利可以实时追踪啸叫帧,啸叫的检出率与准确性也较高,误检率较低,能对啸叫进行一定抑制,对正常语音的损失不大。
表1不同时间内各类啸叫的检出率
Figure BDA0002263069490000081
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
参考文献(如专利/论文/标准)
[1]张涛,李康康,焦海泉.一种低虚警概率的啸叫检测方法[J].西安电子科技大学学报,2017,44(4):100-105.
[2]张禄等.一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质:中国,201910167801.X[P].2019.
[3]Khoubrouy S A,Panahi I.A method of howling detection in presenceof speech signal[J].Signal Processing,2016,119:153-161.
[4]Thomas D,Jayan A R.Automated suppression of howling noise usingsinusoidal model based analysis/synthesis[C]//2014IEEE International AdvanceComputing Conference(IACC).IEEE,2014:761-765.

Claims (5)

1.一种高检出率的啸叫音频检测系统,其特征在于包括:
预处理模块,对输入信号进行分帧、缓存和加窗处理,再对加窗后的信号进行快速傅里叶变换和语音端点检测处理;
特征参数提取模块,对预处理后的每帧音频信号进行特征参数提取和缓存;其中音频信号的特征参数包括Pearson系数、二阶Pearson系数、低频带谱平坦度、全频带谱平坦度、自相关函数和波谷占比;
啸叫检测判决模块,根据获取的Pearson系数信息对音频信号进行啸叫检测,其过程为:如果当前帧信号的Pearson系数值ρmax在检测阈值范围内,则进入短时啸叫判决过程,如果当前帧信号的Pearson系数值ρmax大于检测阈值范围的最大值,则进入长时啸叫判决模过程最后获取啸叫帧;
啸叫抑制模块,对啸叫帧进行啸叫衰减和消除处理。
2.根据权利要求1所述的系统,其特征还在于:所述提取Pearson系数时对每帧信号分别找到与当前帧信号频谱最相关的一帧信号x1,并计算当前帧信号与x1之间的最大平均Pearson系数;
所述提取二阶Pearson系数时:在Pearson系数的基础上对每帧信号分别找到与其自身的x1最相关的信号x2,并计算帧信号x1与帧信号x2之间的Pearson系数。
3.根据权利要求2所述的系统,其特征还在于:设第i帧为当前帧,则当前帧i和其前j帧的Pearson系数的表达方式为:
Figure FDA0002263069480000011
其中,Gamp(i,k),Gamp(j,k)分别为当前帧和其前j帧信号在频点k的幅度谱;Gi,Gj分别为当前帧和其前j帧信号的总功率,k1,k2为频率索引,m为正整数,t为缓存时间索引。
4.根据权利要求3所述的系统,其特征还在于:所述二阶Pearson系数采用如下方式获取:
Figure FDA0002263069480000021
其中,Gamp(x1,k),Gamp(x1-jmax,k)分别为帧信号x1和其前jmax帧信号在频点k的幅值;Gx1,Gx1-jmax分别为x1和其前jmax帧信号的总功率,k1,k2为频率索引。
5.根据权利要求1所述的系统,其特征还在于:所述波谷占比采用如下方式获取:
通过在当前帧信号与x1之间寻找能量低于当前帧信号能量阈值的语音帧,将其数目记作nc,该段时间总帧数记为nt,则当前帧信号的波谷占比Ra
Figure FDA0002263069480000022
CN201911077968.3A 2019-11-06 2019-11-06 一种高检出率的啸叫音频检测系统 Active CN110782910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911077968.3A CN110782910B (zh) 2019-11-06 2019-11-06 一种高检出率的啸叫音频检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911077968.3A CN110782910B (zh) 2019-11-06 2019-11-06 一种高检出率的啸叫音频检测系统

Publications (2)

Publication Number Publication Date
CN110782910A true CN110782910A (zh) 2020-02-11
CN110782910B CN110782910B (zh) 2022-05-20

Family

ID=69390000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911077968.3A Active CN110782910B (zh) 2019-11-06 2019-11-06 一种高检出率的啸叫音频检测系统

Country Status (1)

Country Link
CN (1) CN110782910B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111383662A (zh) * 2020-03-18 2020-07-07 斑马网络技术有限公司 Ecu报警音验证方法及系统
CN111641799A (zh) * 2020-04-20 2020-09-08 合肥优尔电子科技有限公司 一种视频会议系统及其音频质量诊断方法
CN112037816A (zh) * 2020-05-06 2020-12-04 珠海市杰理科技股份有限公司 语音信号频域频率的校正、啸叫检测、抑制方法及装置
CN112562717A (zh) * 2020-12-01 2021-03-26 广州华多网络科技有限公司 啸叫检测方法、装置、存储介质、计算机设备
CN112669868A (zh) * 2020-12-23 2021-04-16 广州智讯通信系统有限公司 基于指挥调度系统的语音啸叫抑制方法、设备、存储介质
CN112802492A (zh) * 2021-04-14 2021-05-14 展讯通信(上海)有限公司 一种抑制啸叫的方法、装置、芯片及模组设备
CN114582371A (zh) * 2022-04-29 2022-06-03 北京百瑞互联技术有限公司 基于谱平坦度的啸叫检测及抑制方法、系统、介质及设备
CN114841218A (zh) * 2022-06-02 2022-08-02 北京工业大学 一种语音啸叫检测算法
CN117636907A (zh) * 2024-01-25 2024-03-01 中国传媒大学 基于广义互相关的音频数据处理方法、装置及存储介质
CN114841218B (zh) * 2022-06-02 2024-05-28 北京工业大学 一种语音啸叫检测算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180643A (zh) * 2016-03-11 2017-09-19 深圳市有信网络技术有限公司 一种啸叫声检测和消除系统
CN107371116A (zh) * 2017-07-21 2017-11-21 天津大学 一种基于帧间谱平坦度偏差的啸叫检测方法
US20190138597A1 (en) * 2017-07-28 2019-05-09 Nia Marcia Maria Dowell Computational linguistic analysis of learners' discourse in computer-mediated group learning environments
CN110261101A (zh) * 2019-06-14 2019-09-20 西安交通大学 基于正交-成对比较试验与svr的啸叫定量评价方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180643A (zh) * 2016-03-11 2017-09-19 深圳市有信网络技术有限公司 一种啸叫声检测和消除系统
CN107371116A (zh) * 2017-07-21 2017-11-21 天津大学 一种基于帧间谱平坦度偏差的啸叫检测方法
US20190138597A1 (en) * 2017-07-28 2019-05-09 Nia Marcia Maria Dowell Computational linguistic analysis of learners' discourse in computer-mediated group learning environments
CN110261101A (zh) * 2019-06-14 2019-09-20 西安交通大学 基于正交-成对比较试验与svr的啸叫定量评价方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YASHARI, JONATHAN M. ET AL.: "Evaluation of a novel canine activity monitor for at-home physical activity analysis", 《BMC VETERINARY RESEARCH》 *
王璐: "基于模块化的语音信号预处理实现", 《大连理工大学 硕士论文》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111383662A (zh) * 2020-03-18 2020-07-07 斑马网络技术有限公司 Ecu报警音验证方法及系统
CN111641799A (zh) * 2020-04-20 2020-09-08 合肥优尔电子科技有限公司 一种视频会议系统及其音频质量诊断方法
CN111641799B (zh) * 2020-04-20 2021-06-29 合肥优尔电子科技有限公司 一种视频会议系统及其音频质量诊断方法
CN112037816A (zh) * 2020-05-06 2020-12-04 珠海市杰理科技股份有限公司 语音信号频域频率的校正、啸叫检测、抑制方法及装置
CN112037816B (zh) * 2020-05-06 2023-11-28 珠海市杰理科技股份有限公司 语音信号频域频率的校正、啸叫检测、抑制方法及装置
CN112562717B (zh) * 2020-12-01 2023-08-18 广州华多网络科技有限公司 啸叫检测方法、装置、存储介质、计算机设备
CN112562717A (zh) * 2020-12-01 2021-03-26 广州华多网络科技有限公司 啸叫检测方法、装置、存储介质、计算机设备
CN112669868A (zh) * 2020-12-23 2021-04-16 广州智讯通信系统有限公司 基于指挥调度系统的语音啸叫抑制方法、设备、存储介质
CN112669868B (zh) * 2020-12-23 2021-11-26 广州智讯通信系统有限公司 基于指挥调度系统的语音啸叫抑制方法、设备、存储介质
CN112802492B (zh) * 2021-04-14 2021-07-27 展讯通信(上海)有限公司 一种抑制啸叫的方法、装置、芯片及模组设备
CN112802492A (zh) * 2021-04-14 2021-05-14 展讯通信(上海)有限公司 一种抑制啸叫的方法、装置、芯片及模组设备
CN114582371A (zh) * 2022-04-29 2022-06-03 北京百瑞互联技术有限公司 基于谱平坦度的啸叫检测及抑制方法、系统、介质及设备
CN114582371B (zh) * 2022-04-29 2022-07-08 北京百瑞互联技术有限公司 基于谱平坦度的啸叫检测及抑制方法、系统、介质及设备
CN114841218A (zh) * 2022-06-02 2022-08-02 北京工业大学 一种语音啸叫检测算法
CN114841218B (zh) * 2022-06-02 2024-05-28 北京工业大学 一种语音啸叫检测算法
CN117636907A (zh) * 2024-01-25 2024-03-01 中国传媒大学 基于广义互相关的音频数据处理方法、装置及存储介质
CN117636907B (zh) * 2024-01-25 2024-04-12 中国传媒大学 基于广义互相关的音频数据处理方法、装置及存储介质

Also Published As

Publication number Publication date
CN110782910B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN110782910B (zh) 一种高检出率的啸叫音频检测系统
WO2017202292A1 (zh) 一种回声时延跟踪方法及装置
US8600073B2 (en) Wind noise suppression
US9524735B2 (en) Threshold adaptation in two-channel noise estimation and voice activity detection
CN103440871B (zh) 一种语音中瞬态噪声抑制的方法
CN108831499A (zh) 利用语音存在概率的语音增强方法
US8050415B2 (en) Method and apparatus for detecting audio signals
CN107863099B (zh) 一种新型双麦克风语音检测和增强方法
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测系统
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN104157295A (zh) 用于检测及抑制瞬态噪声的方法
GB2554955A (en) Detection of acoustic impulse events in voice applications
CN104658544A (zh) 一种语音中瞬态噪声抑制的方法
CN108962285B (zh) 一种基于人耳掩蔽效应划分子带的语音端点检测方法
CN103905656A (zh) 残留回声的检测方法及装置
CN114627899A (zh) 声音信号检测方法及装置、计算机可读存储介质、终端
CN111341331B (zh) 基于局部注意力机制的语音增强方法、装置及介质
CN111341351B (zh) 基于自注意力机制的语音活动检测方法、装置及存储介质
CN110556128B (zh) 一种语音活动性检测方法、设备及计算机可读存储介质
CN110689905B (zh) 一种用于视频会议系统的语音活动检测系统
Wu et al. A pitch-based method for the estimation of short reverberation time
Rosca et al. Multichannel voice detection in adverse environments
Ma et al. Time of arrival estimation for underwater acoustic signal using multi-feature fusion
Ayat et al. An improved spectral subtraction speech enhancement system by using an adaptive spectral estimator
Bolisetty et al. Speech enhancement using modified wiener filter based MMSE and speech presence probability estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant