CN116189700A - 一种通信系统啸叫检测方法和装置 - Google Patents
一种通信系统啸叫检测方法和装置 Download PDFInfo
- Publication number
- CN116189700A CN116189700A CN202310176023.7A CN202310176023A CN116189700A CN 116189700 A CN116189700 A CN 116189700A CN 202310176023 A CN202310176023 A CN 202310176023A CN 116189700 A CN116189700 A CN 116189700A
- Authority
- CN
- China
- Prior art keywords
- howling
- short
- peak
- detected
- frequency point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 142
- 238000004891 communication Methods 0.000 title claims abstract description 38
- 238000001228 spectrum Methods 0.000 claims abstract description 330
- 238000000034 method Methods 0.000 claims abstract description 58
- 230000005236 sound signal Effects 0.000 claims description 60
- 238000012545 processing Methods 0.000 claims description 33
- 238000009499 grossing Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000003595 spectral effect Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 230000007774 longterm Effects 0.000 description 7
- 229920006395 saturated elastomer Polymers 0.000 description 6
- 230000001629 suppression Effects 0.000 description 6
- 238000003672 processing method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- NTOPKICPEQUPPH-UHFFFAOYSA-N IPMP Natural products COC1=NC=CN=C1C(C)C NTOPKICPEQUPPH-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002688 persistence Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 208000014488 papillary tumor of the pineal region Diseases 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Monitoring And Testing Of Transmission In General (AREA)
Abstract
本发明涉及一种通信系统啸叫检测方法和装置,涉及啸叫检测技术,该方法基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引,若不存在,则基于峰值‑平均幅度比稳定性测度和峰值‑谐波功率比检测t帧时的待检测短时频谱中是否存在第二类啸叫频点索引,第一类啸叫频点索引是峰值功率谱稳定性测度大于预设的峰值功率谱稳定性测度门限的局部峰值频点索引,第二类啸叫频点索引是对应于峰值‑平均幅度稳定性测度大于预设的峰值‑平均幅度稳定性测度门限并且峰值‑谐波功率比大于预设的峰值‑谐波功率比门限的局部峰值频点索引,该方案采用两种啸叫频点索引进行组合判断,有效提高啸叫检测准确度。
Description
技术领域
本发明涉及啸叫检测技术,具体涉及一种通信系统啸叫检测方法和装置。
背景技术
扩声系统和免提通信系统均存在声学反馈问题,例如在图1所示的扩声系统中,当声音信号被麦克风捕获,随后被放大并通过扬声器播放时,扬声器声音通常通过直接声耦合或由于混响而间接反馈到麦克风,这种声学反馈路径存在,形成了一个闭环信号回路;在图2所示的免提通信系统中,近端用户终端A发话时,其近旁的用户终端B扬声器播放其接收到的用户终端A语音信号时,也会反馈耦合到用户终端A的麦克风,并通过通信网络形成一个闭环信号回路1,而远端用户终端C扬声器播放其接收到的用户终端A语音信号时,也会反馈耦合到其近旁的用户终端D的麦克风,并通过通信网络形成一个闭环信号回路2。
上述的这种闭合信号回路的存在,致使系统不能可靠稳定地运行,并引发严重扰人的啸叫(Howling)现象。为此,首先需要及时地检测到啸叫状态,然后将检测指示信号送给系统,以便系统作相关的后续控制处理。
经查阅大量国内外相关文献可知,目前啸叫检测技术大都基于麦克风接收信号来抽取时域和频域的相关特征来进行的,其原理是:将麦克风接收的时域(数字)信号x(n) 通过下述的短时傅里叶变换(STFT)技术,变换为t帧时的待检测短时频谱信号X(k,t):
其中k = 0, 1, 2, …, N-1、t = 0, 1, 2, …, 和n = 0, 1, 2, …, N-1, 分别为频点索引、信号帧索引和样本索引;w(·)为N个样本长度的窗函数,通常可选为Hamming、Hanning和Blackman窗函数;x(n,t)为第t帧信号中的第n个样本,即,这里L为帧移跳跃的样本数。
针对t帧的待检测短时频谱X(k,t),应用寻峰算法(Peak Picking Algorithm,PPA)选取P个最大峰值频点索引,作为备选的啸叫频点索引集合;对集合/>中的每个元素计算相应的特征参数,如该特征参数值超过预设的门限值,则判该特征参数对应的元素为啸叫频点索引。Toonvan Waterschoot和Marc Moonen在其论文“Comparative evaluation of howlingdetection criteria in notch-filter-based howling suppression”(J. Audio Eng.Soc., Vol. 58, No. 11, November, 2010, pp. 923 - 940)中对用于啸叫检测的信号特征参数予以了详细的评述,这些特征参数和相应的啸叫检测判决准则分别是:
6)帧间幅度斜率偏差(Interframe Magnitude Slope Deviation, IMSD):该特征为时域特征, 它是通过平均在Q个连续信号帧上备选啸频点索引对应的频谱分量的幅度差值来定义,其中差分是在旧的信号帧和较新的信号帧之间进行,即:
由于啸叫频点索引所对应的频谱幅度dB标度在(帧)时间上表现为几乎是线性递增,因此其对应的IMSD特征值较小,这便是啸叫分量的一个重要特征。若,则判啸叫发生,且/>为啸叫频点索引;这里/>为该特征参数的判决门限。
仅使用单个特征进行啸叫检测,其误检率较高;为此,一种直观的想法便是:直接组合多个上述信号特征参数的检测判决准则,以获得比更好的啸叫检测性能。M. P. Oster等人提出了一种基于PHPR和IPMP特征的啸叫检测判决准则如下:
N. Osmanovic等人基于PNPR和IMSD特征提出了一种称之为反馈存在概率(Feedback Existence Probability,FEP)的特征,并据此给出了相应的啸叫检测判决准则。FEP定义为:
那么基于FEP的啸叫检测判决准则为:
Toon van Waterschoot和Marc Moonen基于PHPR、PNPR和IMSD这三种信号特征分别提出了如下的4种多特征啸叫检测判决准则(15)- (18):
上述基于单信号特征的啸叫检测判决准则通常具有较高的检测概率,但同时其误检概率也很高;而基于多信号特征的啸叫检测判决准则通常具有较低的误检概率,但其检测概率相对单特征啸叫检测判决准则而言却低许多。注意到,高误检概率会使系统误激活其后续的声学反馈控制处理,从而导致信号的音质变差;而低检测概率却会使系统未能激活其后续的声学反馈控制处理,同样也会导致因啸叫而引发的信号音质变差、甚至系统无法正常运行。
发明内容
相对于已有技术,采用一种新的声音信号参数特征进行通讯系统的啸叫检测,从而提供一种通信系统啸叫检测方法及装置。
为解决上述技术问题,本发明公开实施例至少提供一种通信系统啸叫检测方法及装置。
第一方面,本发明公开实施例提供了一种通信系统啸叫检测方法,包括:
获取待检测声音信号;
生成所述待检测声音信号在t帧时的待检测短时频谱;
基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引,所述峰值功率谱稳定性测度是用指定加权系数对指定短时频谱幅度平方进行加权处理并取分贝尺度后形成的,所述指定加权系数以欧拉数e为底数和以所述待检测声音信号短时频谱幅度局部峰值频点索引处的幅度谱帧间相对变化率绝对值的负数为指数而形成,所述指定短时频谱幅度平方是所述待检测声音信号在局部峰值频点索引处的短时频谱幅度平方;所述第一类啸叫频点索引是峰值功率谱稳定性测度大于预设的峰值功率谱稳定性测度门限的局部峰值频点索引。
若t帧时的待检测短时频谱中不存在所述第一类啸叫频点索引,则基于峰值-平均幅度比稳定性测度和峰值-谐波功率比检测t帧时的待检测短时频谱中是否存在第二类啸叫频点索引,所述峰值-平均幅度比稳定性测度是用所述指定加权系数对指定短时频谱幅度比进行加权处理并取分贝尺度后形成的,所述指定短时频谱幅度比是所述待检测声音信号在局部峰值频点索引处的短时频谱幅度与短时频谱幅度全频带平均值之比;所述峰值-谐波功率比是对指定短时频谱幅度平方比取分贝尺度后形成的,所述指定短时频谱幅度平方比是待检测声音信号在局部峰值频点索引处的短时频谱幅度平方与局部峰值频点相应的谐波频点索引处短时频谱幅度平方之比;所述第二类啸叫频点索引是对应于所述峰值-平均幅度稳定性测度大于预设的峰值-平均幅度稳定性测度门限并且所述峰值-谐波功率比大于预设的峰值-谐波功率比门限的局部峰值频点索引。
可选地,在所述基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引之前,所述方法还包括:计算t帧时的待检测短时频谱的长时帧幅度平方相干系数;基于所述长时帧幅度平方相干系数从t帧时的待检测短时频谱中获取预设数量的备选啸叫频点索引,所述备选啸叫频点索引为t帧时的长时帧幅度平方相干系数大于预设长时帧幅度平方相干系数门限参数所对应的频点索引;所述基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引为:基于峰值功率谱稳定性测度和所述备选啸叫频点索引检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引;所述基于峰值-平均幅度比稳定性测度和峰值-谐波功率比检测t帧时的待检测短时频谱中是否存在第二类啸叫频点索引为:基于峰值-平均幅度比稳定性测度和峰值-谐波功率比和所述备选啸叫频点索引检测t帧时的待检测短时频谱中是否存在第二类啸叫频点索引。
可选地,所述基于所述长时帧幅度平方相干系数从t帧时的待检测短时频谱中获取预设数量的备选啸叫频点索引包括:基于所述长时帧幅度平方相干系数从t帧时的待检测短时频谱中获取全部备选啸叫频点索引;
从全部所述备选啸叫频点索引中获取预设数量的、长时帧幅度平方相干系数最大的所述备选啸叫频点索引。
可选地,在所述计算t帧时的待检测短时频谱的长时帧幅度平方相干系数之前,所述方法还包括:对t帧时的待检测短时频谱进行切里特-贝鲁克拉尼内核平滑处理。
可选地,所述基于所述长时帧幅度平方相干系数从t帧时的待检测短时频谱中获取预设数量的备选啸叫频点索引还包括:从t帧时的待检测短时频谱中获取所述备选啸叫频点索引对应的备选短时频谱;所述基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引为:若t帧时的待检测短时频谱中存在所述备选啸叫频点频点索引,则基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引;若t帧时的待检测短时频谱中不存在所述备选啸叫频点索引,则获取t帧时的待检测短时频谱中下一帧短时频谱,直至t帧时的待检测短时频谱中全部检测完毕。
可选地,所述基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引为:利用公式实现基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引,其中 />为第一啸叫检测器在t帧输出的二元型检测指示信号;“V”为逻辑“或”运算符;/>(单位为信号帧)为第一啸叫检测器预设的判决门限参数;/>为第一啸叫检测器中备选啸叫频点索引/>在t帧时的计数器值,它的确定方式为t帧时在备选啸叫频点索引/>处的所述峰值功率谱稳定性测度大于预设的峰值功率谱稳定性测度门限时,/>将自动加一,否则将自动减一直至零为止。
可选地,所述基于峰值-平均幅度比稳定性测度和峰值-谐波功率比检测t帧时的待检测短时频谱中是否存在第二类啸叫频点索引为:利用公式实现基于峰值-平均幅度比稳定性测度和峰值-谐波功率比检测t帧时的待检测短时频谱中是否存在第二类啸叫频点索引,其中,/>为第二啸叫检测器在t帧时输出的二元型检测指示信号;/>(单位为信号帧)为第二啸叫检测器预设的判决门限参数;/>为第二啸叫检测器中备选啸叫频点索引/>在t帧时的计数器值,/>的确定方式为t帧时在备选啸叫频点索引/>处的所述峰值-平均幅度比稳定性测度大于预设的峰值-平均幅度比稳定性测度门限并且峰值-谐波功率比大于预设的峰值-谐波功率比门限时,/>将自动加一,否则将自动减一直至零为止。
可选地,所述方法还包括:通过以下层次型最终判决表达式对t帧时的待检测短时频谱的啸叫频点索引的检测指示信号进行确定,所述层次型最终判决表达式为:
其中,为t帧时的待检测短时频谱的啸叫频点索引的检测指示信号,为t帧时的备选啸叫频点索引集;/>为在t帧时待检测短时频谱中是否存在第一类啸叫频点索引的检测指示信号;/>为在t帧时待检测短时频谱中是否存在第二类啸叫频点索引的检测指示信号;输出t帧时的待检测短时频谱的啸叫频点索引的检测指示信号,1表示检测结果为真,0表示检测结果为假。
第二方面,本发明公开实施例提供了一种通信系统啸叫检测装置,包括:
待检测声音信号获取模块,用于获取待检测声音信号;
短时频谱生成模块,用于生成所述待检测声音信号在t帧时的待检测短时频谱;
第一啸叫检测器,用于基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引,所述峰值功率谱稳定性测度是用指定加权系数对指定短时频谱幅度平方进行加权处理并取分贝尺度后形成的,所述指定加权系数以欧拉数e为底数和以所述待检测声音信号短时频谱幅度局部峰值频点索引处的幅度谱帧间相对变化率绝对值的负数为指数而形成,所述指定短时频谱幅度平方是所述待检测声音信号在局部峰值频点索引处的短时频谱幅度平方;所述第一类啸叫频点索引是峰值功率谱稳定性测度大于预设的峰值功率谱稳定性测度门限的局部峰值频点索引。
本发明的实施例提供的技术方案可以具有以下有益效果:
基于一种新的声音信号参数特征峰值功率谱稳定性测度检测待检测短时频谱中是否存在第一类啸叫频点索引,相对于已有技术,提供了一种新的啸叫检测方法。进一步的采用另一新的声音特征声音信号峰值-平均幅度比稳定性测度和现有的声音特征声音信号峰值-谐波功率比检测待检测短时频谱中是否存在第二类啸叫频点索引,又进一步叠加长时帧幅度平方相干系数来区分啸叫信号和正常语音信号,在实现较高的检测概率的同时,能够降低误检概率,有效的提高啸叫抑制效果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了啸叫形成过程示意图;
图2示出了免提通信系统中啸叫形成过程示意图;
图3本发明公开实施例所提供的一种语音通信系统中的声反馈处理方法流程图;
图4示出了本发明公开实施例所提供的另一种语音通信系统中的声反馈处理方法流程图;
图5示出了本发明公开实施例中的一种啸叫形成过程示意图;
图6示出了本发明公开实施例所提供的又一种语音通信系统中的声反馈处理过程示意图;
图7示出了本发明公开实施例所提供的一种语音通信系统中的声反馈处理装置结构示意图。
具体实施方式
为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如发明内容中所详述的、本发明的一些方面相一致的装置和方法的例子。
实施例1
如图3所示,本发明公开实施例所提供的一种通信系统啸叫检测方法的流程图,该方法包括:
S31:获取待检测声音信号;
S32:生成待检测声音信号在t帧时的待检测短时频谱;
S33:基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引,若t帧时的待检测短时频谱中不存在第一类啸叫频点索引,则执行S34;
其中,峰值功率谱稳定性测度是用指定加权系数对指定短时频谱幅度平方进行加权处理并取分贝尺度后形成的,指定加权系数以欧拉数e为底数和以待检测声音信号短时频谱幅度局部峰值频点索引处的幅度谱帧间相对变化率绝对值的负数为指数而形成,指定短时频谱幅度平方是待检测声音信号在局部峰值频点索引处的短时频谱幅度平方;第一类啸叫频点索引是峰值功率谱稳定性测度大于预设的峰值功率谱稳定性测度门限的局部峰值频点索引。
S34:基于峰值-平均幅度比稳定性测度和峰值-谐波功率比检测t帧时的待检测短时频谱中是否存在第二类啸叫频点索引。
其中,峰值-平均幅度比稳定性测度是用指定加权系数对指定短时频谱幅度比进行加权处理并取分贝尺度后形成的,指定短时频谱幅度比是待检测声音信号在局部峰值频点索引处的短时频谱幅度与短时频谱幅度全频带平均值之比;峰值-谐波功率比是对指定短时频谱幅度平方比取分贝尺度后形成的,指定短时频谱幅度平方比是待检测声音信号在局部峰值频点索引处的短时频谱幅度平方与局部峰值频点相应的谐波频点索引处短时频谱幅度平方之比;第二类啸叫频点索引是对应于峰值-平均幅度稳定性测度大于预设的峰值-平均幅度稳定性测度门限并且峰值-谐波功率比大于预设的峰值-谐波功率比门限的局部峰值频点索引。
可以理解的是,本实施例提供的技术方案,基于一种新的声音信号参数特征峰值功率谱稳定性测度检测待检测短时频谱中是否存在第一类啸叫频点索引,相对于已有技术,提供了一种新的啸叫检测方法。进一步的采用另一新的声音特征声音信号峰值-平均幅度比稳定性测度和现有的声学特征声音峰值-谐波功率比检测待检测短时频谱中是否存在第二类啸叫频点索引,又进一步叠加长时帧幅度平方相干系数来区分啸叫信号和正常语音信号,在实现较高的检测概率的同时,能够降低误检概率,有效的提高啸叫抑制效果。
实施例2
如图4所示,本发明公开实施例所提供的另一种通信系统啸叫检测方法的流程图,该方法包括:
S401:获取待检测声音信号。
S402:生成待检测声音信号在t帧时的待检测短时频谱。
S403:对t帧时的待检测短时频谱进行切里特-贝鲁克拉尼(CB)内核平滑处理。
本发明实施例采用一种基于短时频谱CB内核平滑处理的信号频谱长时帧幅度平方相干系数(MSC)估计方法,克服了现有的基于Welch平均周期图算法和MVDR算法来估计MSC的缺陷,进一步改善与提高了信号频谱长时帧MSC的估计性能,保证了筛选备选啸叫频点集处理的可靠性。
S404:计算t帧时的待检测短时频谱的长时帧幅度平方相干系数。
S405:基于长时帧幅度平方相干系数从t帧时的待检测短时频谱中获取预设数量的备选啸叫频点索引,备选啸叫频点索引为t帧时的长时帧幅度平方相干系数大于预设长时帧幅度平方相干系数门限参数所对应的频点索引。
S406:t帧时的待检测短时频谱中是否存在备选啸叫频点索引,若t帧时的待检测短时频谱中存在备选啸叫频点索引,则执行S407,若t帧时的待检测短时频谱中不存在备选啸叫频点索引,则执行S409。
S407:基于峰值功率谱稳定性测度和备选啸叫频点索引检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引,若t帧时的待检测短时频谱中不存在第一类啸叫频点索引,则执行S408,若t帧时的待检测短时频谱中存在第一类啸叫频点索引,则执行S409。
其中,峰值功率谱稳定性测度是用指定加权系数对指定短时频谱幅度平方进行加权处理并取分贝尺度后形成的,指定加权系数以欧拉数e为底数和以待检测声音信号短时频谱幅度局部峰值频点索引处的幅度谱帧间相对变化率绝对值的负数为指数而形成,指定短时频谱幅度平方是待检测声音信号在局部峰值频点索引处的短时频谱幅度平方;第一类啸叫频点索引是峰值功率谱稳定性测度大于预设的峰值功率谱稳定性测度门限的局部峰值频点索引。
具体的,可以利用公式:
实现基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引,其中/>为第一啸叫检测器在t帧输出的二元型检测指示信号;“V”为逻辑“或”运算符;/>(单位为信号帧)为第一啸叫检测器预设的判决门限参数;/>为第一啸叫检测器中备选啸叫频点索引/>在t帧时的计数器值,它的确定方式为t帧时在备选啸叫频点索引/>处的峰值功率谱稳定性测度大于预设的峰值功率谱稳定性测度门限时,/>将自动加一,否则将自动减一直至零为止。
S408:基于峰值-平均幅度比稳定性测度和峰值-谐波功率比和备选啸叫频点索引获取t帧时的待检测短时频谱中的第二类啸叫频点索引,峰值-平均幅度比稳定性测度是用指定加权系数对指定短时频谱幅度比进行加权处理并取分贝尺度后形成的,指定短时频谱幅度比是待检测声音信号在局部峰值频点索引处的短时频谱幅度与短时频谱幅度全频带平均值之比;峰值-谐波功率比是对指定短时频谱幅度平方比取分贝尺度后形成的,指定短时频谱幅度平方比是待检测声音信号在局部峰值频点索引处的短时频谱幅度平方与局部峰值频点相应的谐波频点索引处短时频谱幅度平方之比;第二类啸叫频点索引是对应于峰值-平均幅度稳定性测度大于预设的峰值-平均幅度稳定性测度门限并且峰值-谐波功率比大于预设的峰值-谐波功率比门限的局部峰值频点索引。
具体的,利用公式:实现基于峰值-平均幅度比稳定性测度和峰值-谐波功率比检测t帧时的待检测短时频谱中是否存在第二类啸叫频点索引,其中,/> 为第二啸叫检测器在t帧时输出的二元型检测指示信号;/>(单位为信号帧)为第二啸叫检测器预设的判决门限参数;/>为第二啸叫检测器中备选啸叫频点索引/>在t帧时的计数器值,它的确定方式为t帧时在备选啸叫频点索引/>处的峰值-平均幅度比稳定性测度大于预设的峰值-平均幅度比稳定性测度门限并且峰值-谐波功率比大于预设的峰值-谐波功率比门限时,将自动加一,否则将自动减一直至零为止。
S409:通过以下层次型最终判决表达式对t帧时的待检测短时频谱的啸叫频点索引的检测指示信号进行确定,层次型最终判决表达式为:
其中,为t帧时的待检测短时频谱的啸叫频点索引的检测指示信号,为t帧时的备选啸叫频点索引集;/>为在t帧时待检测短时频谱中是否存在第一类啸叫频点索引的检测指示信号;/>为在t帧时待检测短时频谱中是否存在第二类啸叫频点索引的检测指示信号,1表示检测结果为真,0表示检测结果为假。
本发明实施例中采用的一种层次型啸叫判决规则,即:首先应用所估计的信号频谱长时帧MSC,来筛选备选啸叫频点集;若该备选啸叫频点集为空集,那么算法将直接进入下一信号帧的处理;否则,算法将根据备选啸叫频点集所选取的CB内核平滑频谱,进入第一啸叫检测器的判决处理,如第一啸叫检测器的判决结果为“真”,则输出其检测结果并进入下一信号帧的处理;否则,算法将进入第二啸叫检测器的判决处理,然后输出其检测结果并进入下一信号帧的处理。应用这种层次型啸叫判决规则,可进一步提高啸叫检测概率、降低误检概率和检测算法的计算复杂度。
本发明实施例提出的两种新的啸叫检测器,即第一啸叫检测器和第二啸叫检测器。第一啸叫检测器,对每个备选啸叫频点均使用峰值功率谱稳定性测度(PPS)特征,只要其中任一频点满足该特征的啸叫检测条件(即PPS值超过判决门限),则判该帧信号含有啸叫分量;这种等效于检测条件逻辑“或”的运算,提高了检测概率,同时降低了判决复杂度;此外,由于第一啸叫检测器使用了PPS特征、并用于检测“饱和啸叫”时段,因而其误检概率也很低。 第二啸叫检测器,对每个备选啸叫频点均联合使用峰值-平均幅度比稳定性测度(PAMRS)和峰值-谐波功率比(PHPR)这两种特征来进行啸叫检测判决,这种等效于检测条件逻辑“与”的运算,进一步降低了误检概率;此外,每个备选啸叫频点的双特征联合判决结果的逻辑“或”运算,提高了第二啸叫检测器的检测概率,同时也相对地降低了其判决复杂度。
S410:输出t帧时的待检测短时频谱的啸叫频点索引的检测指示信号。
后续,继续获取t帧时的待检测短时频谱中下一帧短时频谱,直至t帧时的待检测短时频谱中全部检测完毕。
在一些可选实施例中,上述S405包括:
S405-1、基于长时帧幅度平方相干系数从t帧时的待检测短时频谱中获取全部备选啸叫频点索引。
S405-2、从全部备选啸叫频点索引中获取预设数量的、长时帧幅度平方相干系数最大的备选啸叫频点索引。
S405-3、从t帧时的待检测短时频谱中获取备选啸叫频点索引对应的备选短时频谱。
为了便于读者理解,下面对本发明实施例中涉及的技术原理及具体实现方式进行详细描述。
语音信号的短时频谱在帧时间轴上的长时相干系数很小,而啸叫信号的频谱在帧时间轴上的长时相干系数却很大,因此语音信号频谱的长时相干系数这一特性,可以作为一种用来区分啸叫信号和正常语音信号(即不含有啸叫成分的语音信号)的特征;然而,诸如长笛和唢呐等器乐的音频信号,其频谱在帧时间上的长时相干系数也具有较高的值,为此,本申请采用“峰值功率谱稳定性测度”(PPS)、“峰值-平均幅度比稳定性测度”(PAMRS)和“峰值-谐波功率比(PHPR)”信号特征,来进一步区分正常音频信号和啸叫信号,从而完成啸叫检测任务。本发明提出的这种啸叫检测方法的系统框图如图5所示,其中输入信号x(n)经分帧处理后进行短时傅里叶变换(STFT),获得短时频谱信号X(k,t),这里n和t分别为输入信号的样本索引和帧索引;k为短时频谱的频点索引,k = 0, 1, 2, …, N-1, N为STFT运算中的窗函数长度,单位为样本数(以下均同,不另作说明)。该短时频谱信号X(k,t)送给“CB内核平滑处理器”进行平滑处理,以便进一步降低因频谱泄露而产生的交叉干扰、提高频谱峰值点的分辨能力。“长时帧幅度平方相干系数计算器”根据“CB内核平滑处理器”的输出来计算频谱信号的长时帧幅度平方相干系数/>,据此来区分正常语音和啸叫成分。“备选啸叫频点选择器”用来选取P个最大(超过预设门限参数)的长时帧幅度平方相干系数/>所对应的频点索引集/>,作为备选的啸叫频点索引集;这里建议P取值为1~5。“备选啸叫频点频谱选择器”根据备选啸叫频点索引集/>从平滑的频谱/>中选取P个对应值/>送至后续的啸叫检测器。注意到啸叫过程可分解为“预饱和啸叫”和“饱和啸叫”2个时段,在“饱和啸叫”时段,啸叫频点时间轨迹相对稳定、并且功率谱幅度值很高,因此应用“基于峰值功率谱稳定性测度特征的第一啸叫检测器”,可方便地检测出“饱和啸叫”时段;而在“预饱和啸叫”时段,应用“基于峰值-平均幅度比稳定性测度和峰值-谐波功率比特征的第二啸叫检测器”可以方便地检测出“预饱和啸叫”时段;需要说明的是,第一和第二啸叫检测器的激活与调用则由“层次型啸叫判决规则”模块来控制,详见后续的讨论。最后,应用本发明提出的层次型啸叫判决规则,便获得最终的检测结果。应当指出的是:基于长时帧幅度平方相干系数来选取备选啸叫点集和备选啸叫点集中基于多特征联合应用的逻辑“与”操作来进行啸叫检测,均进一步地降低了啸叫误检概率;而层次型啸叫判决规则(等效于各个检测结果的逻辑“或”操作)的应用,则进一步改善和提高了啸叫的检测概率、降低了啸叫检测算法的计算复杂度。因此,本发明提出的这种啸叫检测器与现有的啸叫检测技术相比,具有更高的检测概率、更低的误检概率和更低的计算复杂度特性。
现就图5中的主要模块工作原理简介如下:
I. 长时(帧)幅度平方相干系数计算器和CB内核平滑处理器模块的工作原理:
时间相干函数(Temporal coherence function,TCF)是20世纪初首次在光学中定义的一个基本物理量,用于测量光波与其延迟版本之间的相关性。事实上,TCF 是信号广义自频谱相干函数的一种特殊表现形式,它测量了一个随机过程的两个频谱随时间的相干性。注意到啸叫分量具有相对较长的相干时间、而语音信号具有相对较短的相干时间这一事实,有关学者将之用于闭环语音扩声系统中啸叫频率的检测估计。在这一应用研究中,其TCF的估计是通过传统的Welch平均周期图算法来获得的,因而估计的TCF存在频域分辨率有限和不可忽略的频谱泄漏问题(尽管STFT变化中应用了具有一定程度的抗频谱泄漏的Hanning(汉宁)窗函数);为此,有关学者建议采用 J. Benesty等人提出的最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)技术来估计TCF,以便克服上述的缺陷。然而,采用MVDR技术估计的功率谱实际上等效于一组设计在有限均匀采样的分析频率网格上匹配带通滤波器的输出,如果信号频率与所有分析频率不匹配,那么该信号频率分量将被抑制并且无法从频谱中检测到;这就是MVDR谱估计技术普遍存在的称之为“信号适配问题”的缺陷。近年来,紧致支持核(Kernel with Compact Support,KCS)在时-频分布中的应用非常广泛,业已证明KCS时-频分布在其瞬时频率中具有减少的频谱泄露交叉干扰项和高分辨能力的测量值特性。作为紧凑型支持内核之一的Cheriet-Belouchrani内核(后续称之为CB内核)在图像与视频处理中已获得成功的应用,它通过控制CB核的参数,可以有效抑制频谱泄露的交叉干扰,提高时-频分辨率。
在本发明实施例中,本申请提出应用CB内核函数来平滑信号的短时频谱,然后将平滑后频谱用于估计信号的TCF,从而改善与提高TCF的估计性能。
具体地,设有信号x(n)的短时频谱为X(k,t), 应用CB内核函数按下述方式对X(k,t)进行平滑处理,即:
这里上标“”为复共轭运算符;q>>1为一预设的整型长时帧参数,建议取160毫秒~320毫秒范围内所对应的值;例如,若待处理系统的信号采样率为Fs = 16 kHz, 信号分帧时使用的跳跃样本数L=64,那么200毫秒所对应的长时帧参数/>,这里/>表示不小于x的最小整数。
II. 备选啸叫频点及其频谱选择器模块的工作原理:
III. 啸叫检测器的工作原理:
本节首先定义2个新的啸叫信号检测特征,然后将它们与现有的啸叫特征PHPR组合应用于啸叫检测。
III-a. 新的啸叫检测特征:
其中,为频谱幅度帧间相对变化率;第t帧平均频谱幅度,这里/>为短时频谱的幅度谱,N为STFT中窗函数的长度。当/>为啸叫频点索引时,其位置在时间上比较稳定、且频谱幅度较高,因而/>数值很小,故其/>和/>值此时很大。显然,/>和/>均属于时-频域型的信号特征。
III-b. 基于PPS特征的第一啸叫检测器工作原理:
其中,为第一啸叫检测器在t帧时输出的二元型检测指示信号;“V”为逻辑“或”运算符(以下均同,不另作说明);/>(单位为信号帧)为第一啸叫检测器预设的判决门限参数;/>为第一啸叫检测器中备选啸叫频点/>在t帧时的计数器值,由下式定义:
III-c. 基于PAMRS和PHPR特征的第二啸叫检测器工作原理:
IV. 啸叫检测器的层次型判决规则及其工程实现的程序流程示意图:
本发明提出的啸叫检测器最终判决表达式为层次型判决规则,可表述为下式:
具体地,本发明提出的这种层次型啸叫判决规则工作原理如下:
首先检查基于频谱长时帧幅度平方相干系数筛选获得的第t帧备选啸叫频点索引集是否为空集,若/>为空集,则判第t帧信号无啸叫成分,并置最终啸叫检测器的第t帧输出指示为“假”(即:hdFlag(t) = 0),同时结束本信号帧的啸叫判决处理而转入下一信号帧的啸叫判决处理。若/>为非空集,那么啸叫判决立即进入第一啸叫检测器进行啸叫检测;若第一啸叫检测器的输出指示为“真”(即:/>),那么则判第t帧信号有啸叫成分,并置最终啸叫检测器的第t帧输出指示为“真”(即hdFlag(t) = 1),同时结束本信号帧的啸叫判决处理而转入下一信号帧的啸叫判决处理;若第一啸叫检测器的输出指示为“假”(即/>),那么啸叫判决将立即进入第二啸叫检测器进行啸叫检测,并将第二啸叫检测器的输出指示作为最终啸叫检测器的输出指示(即:/>),同时结束本信号帧的啸叫判决处理而转入下一信号帧的啸叫判决处理。
由此可见,这种层次型啸叫判决规则,可降低啸叫检测算法的计算复杂度和误检概率,提高其检测概率。本发明提出的这种啸叫检测算法,其工程实现的程序流程示意图详见图6所示。
可以理解的是,本实施例提供的技术方案,提出了两种分别称之为“峰值功率谱稳定性测度(PPS)”和“峰值-平均幅度率比稳定性测度(PAMRS)”的啸叫检测时-频特征,与现有的啸叫检测特征相比,这两种特征参数进行啸叫检测,具有更好的检测性能、对运行环境具有更强的鲁棒特性(Robustness)。
首先,基于一种新的声音信号参数特征峰值功率谱稳定性测度检测待检测短时频谱中是否存在第一类啸叫频点索引,相对于已有技术,提供了一种新的啸叫检测方法。进一步的采用另一新的声音特征声音信号峰值-平均幅度比稳定性测度和峰值-谐波功率比检测待检测短时频谱中是否存在第二类啸叫频点索引,又进一步叠加长时帧幅度平方相干系数来区分啸叫信号和正常语音信号,在实现较高的检测概率的同时,能够降低误检概率,有效的提高啸叫抑制效果。该方法首先应用信号频谱的长时帧幅度平方相干系数(MSC)来筛选“备选啸叫频点”,从而降低了由语音信号共振峰引发的啸叫误检概率;在备选的啸叫频点集中,应用本发明提出的峰值功率谱稳定性测度和峰值-平均幅度比稳定性测度这两种啸叫信号时-频特征、并结合峰值-谐波比啸叫信号的频域特征来进行啸叫检测,进一步降低了由乐器音频信号引发的啸叫误检概率。
实施例3
如图7所示,本发明公开实施例所提供的一种通信系统啸叫检测装置的结构示意图,该装置包括:
待检测声音信号获取模块71,用于获取待检测声音信号;
短时频谱生成模块72,用于生成所述待检测声音信号在t帧时的待检测短时频谱;
第一啸叫检测器73,用于基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引,所述峰值功率谱稳定性测度是用指定加权系数对指定短时频谱幅度平方进行加权处理并取分贝尺度后形成的,所述指定加权系数以欧拉数e为底数和以所述待检测声音信号短时频谱幅度局部峰值频点索引处的幅度谱帧间相对变化率绝对值的负数为指数而形成,所述指定短时频谱幅度平方是所述待检测声音信号在局部峰值频点索引处的短时频谱幅度平方;所述第一类啸叫频点索引是峰值功率谱稳定性测度大于预设的峰值功率谱稳定性测度门限的局部峰值频点索引;
第二啸叫检测器74,若t帧时的待检测短时频谱中不存在所述第一类啸叫频点索引,则基于峰值-平均幅度比稳定性测度和峰值-谐波功率比检测t帧时的待检测短时频谱中是否存在第二类啸叫频点索引,所述峰值-平均幅度比稳定性测度是用所述指定加权系数对指定短时频谱幅度比进行加权处理并取分贝尺度后形成的,所述指定短时频谱幅度比是所述待检测声音信号在局部峰值频点索引处的短时频谱幅度与短时频谱幅度全频带平均值之比;所述峰值-谐波功率比是对指定短时频谱幅度平方比取分贝尺度后形成的,所述指定短时频谱幅度平方比是待检测声音信号在局部峰值频点索引处的短时频谱幅度平方与局部峰值频点相应的谐波频点索引处短时频谱幅度平方之比;所述第二类啸叫频点索引是对应于所述峰值-平均幅度稳定性测度大于预设的峰值-平均幅度稳定性测度门限并且所述峰值-谐波功率比大于预设的峰值-谐波功率比门限的局部峰值频点索引。
在一些可选实施例中,如图7中虚线部分所示,上述通信系统啸叫检测装置还可以包括:
长时帧幅度平方相干系数计算模块75,用于计算t帧时的待检测短时频谱的长时帧幅度平方相干系数;
备选啸叫频点索引获取模块76,用于基于所述长时帧幅度平方相干系数从t帧时的待检测短时频谱中获取预设数量的备选啸叫频点索引,所述备选啸叫频点索引为t帧时的长时帧幅度平方相干系数大于预设长时帧幅度平方相干系数门限参数所对应的频点索引;
第一啸叫检测器73:基于峰值功率谱稳定性测度和所述备选啸叫频点索引检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引;
具体的,第一啸叫检测器73可以利用公式实现基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引,其中/>为第一啸叫检测器在t帧输出的二元型检测指示信号;“V”为逻辑“或”运算符;/>(单位为信号帧)为第一啸叫检测器预设的判决门限参数;/>为第一啸叫检测器中备选啸叫频点索引/>在t帧时的计数器值,它的确定方式为t帧时在备选啸叫频点索引/>处的所述峰值功率谱稳定性测度大于预设的峰值功率谱稳定性测度门限时,/>将自动加一,否则将自动减一直至零为止。/>
第二啸叫检测器74:基于峰值-平均幅度比稳定性测度和峰值-谐波功率比和所述备选啸叫频点索引检测t帧时的待检测短时频谱中是否存在第二类啸叫频点索引。
具体的,第二啸叫检测器74可以利用公式实现基于峰值-平均幅度比稳定性测度和峰值-谐波功率比检测t帧时的待检测短时频谱中是否存在第二类啸叫频点索引,其中,/>为第二啸叫检测器在t帧时输出的二元型检测指示信号;/>(单位为信号帧)为第二啸叫检测器预设的判决门限参数;/>为第二啸叫检测器中备选啸叫频点索引/>在t帧时的计数器值,它的确定方式为t帧时在备选啸叫频点索引/>处的所述峰值-平均幅度比稳定性测度大于预设的峰值-平均幅度比稳定性测度门限并且峰值-谐波功率比大于预设的峰值-谐波功率比门限时,/>将自动加一,否则将自动减一直至零为止。
在一些可选实施例中,如图7中虚线部分所示,上述备选啸叫频点索引获取模块76可以包括:
全部备选啸叫频点索引获取子模块761,用于基于所述长时帧幅度平方相干系数从t帧时的待检测短时频谱中获取全部备选啸叫频点索引;
备选啸叫频点索引获取子模块762,用于从全部所述备选啸叫频点索引中获取预设数量的、长时帧幅度平方相干系数最大的所述备选啸叫频点索引。
备选短时频谱获取子模块76 3,用于从t帧时的待检测短时频谱中获取所述备选啸叫频点索引对应的备选短时频谱;若t帧时的待检测短时频谱中存在所述备选啸叫频点频点索引,则第一啸叫检测器73基于峰值功率谱稳定性测度和所述备选啸叫频点索引检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引;
若t帧时的待检测短时频谱中不存在所述备选啸叫频点索引,则获取t帧时的待检测短时频谱中下一帧短时频谱,直至t帧时的待检测短时频谱中全部检测完毕。
在一些可选实施例中,如图7中虚线部分所示,上述通信系统啸叫检测装置还可以包括:
平滑处理模块77,用于对t帧时的待检测短时频谱进行切里特-贝鲁克拉尼内核平滑处理。
在一些可选实施例中,如图7中虚线部分所示,上述通信系统啸叫检测装置还可以包括:
层次型啸叫判决规则78,用于通过以下层次型最终判决表达式对t帧时的待检测短时频谱的啸叫频点索引的检测指示信号进行确定,所述层次型最终判决表达式为:
其中,为t帧时的待检测短时频谱的啸叫频点索引的检测指示信号,为t帧时的备选啸叫频点索引集;/>为在t帧时待检测短时频谱中是否存在第一类啸叫频点索引的检测指示信号;/>为在t帧时待检测短时频谱中是否存在第二类啸叫频点索引的检测指示信号;输出t帧时的待检测短时频谱的啸叫频点索引的检测指示信号。
可以理解的是,本实施例提供的技术方案,基于一种新的声音信号参数特征峰值功率谱稳定性测度检测待检测短时频谱中是否存在第一类啸叫频点索引,相对于已有技术,提供了一种新的啸叫检测方法。进一步的采用另一新的声音特征声音信号峰值-平均幅度比稳定性测度和峰值-谐波功率比检测待检测短时频谱中是否存在第二类啸叫频点索引,又进一步叠加长时帧幅度平方相干系数来区分啸叫信号和正常语音信号,在实现较高的检测概率的同时,能够降低误检概率,有效的提高啸叫抑制效果。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
实施例4
基于同一技术构思,本申请实施例还提供了一种计算机设备,包括存储器1和处理器2,所述存储器1存储有计算机程序,所述处理器2执行所述计算机程序时实现上述任一项所述的语音通信系统中的声反馈处理方法。
其中,存储器1至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器1在一些实施例中可以是啸叫检测系统的内部存储单元,例如硬盘。存储器1在另一些实施例中也可以是啸叫检测系统的外部存储设备,例如插接式硬盘,智能存储卡(Smart MediaCard, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,存储器1还可以既包括啸叫检测系统的内部存储单元也包括外部存储设备。存储器1不仅可以用于存储安装于啸叫检测系统的应用软件及各类数据,例如啸叫检测程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器2在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器1中存储的程序代码或处理数据,例如执行啸叫检测程序等。
可以理解的是,本实施例提供的技术方案,基于一种新的声音信号参数特征峰值功率谱稳定性测度检测待检测短时频谱中是否存在第一类啸叫频点索引,相对于已有技术,提供了一种新的啸叫检测方法。进一步的采用另一新的声音特征声音信号峰值-平均幅度比稳定性测度和峰值-谐波功率比检测待检测短时频谱中是否存在第二类啸叫频点索引,又进一步叠加长时帧幅度平方相干系数来区分啸叫信号和正常语音信号,在实现较高的检测概率的同时,能够降低误检概率,有效的提高啸叫抑制效果。
本发明公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的语音通信系统中的声反馈处理方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本发明公开实施例所提供的语音通信系统中的声反馈处理方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的语音通信系统中的声反馈处理方法的步骤,具体可参见上述方法实施例,在此不再赘述。
本发明公开实施例还提供一种计算机程序,该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种通信系统啸叫检测方法,其特征在于,包括:
获取待检测声音信号;
生成所述待检测声音信号在t帧时的待检测短时频谱;
基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引,所述峰值功率谱稳定性测度是用指定加权系数对指定短时频谱幅度平方进行加权处理并取分贝尺度后形成的,所述指定加权系数以欧拉数e为底数和以所述待检测声音信号短时频谱幅度局部峰值频点索引处的幅度谱帧间相对变化率绝对值的负数为指数而形成,所述指定短时频谱幅度平方是所述待检测声音信号在局部峰值频点索引处的短时频谱幅度平方;所述第一类啸叫频点索引是峰值功率谱稳定性测度大于预设的峰值功率谱稳定性测度门限的局部峰值频点索引;
若t帧时的待检测短时频谱中不存在所述第一类啸叫频点索引,则基于峰值-平均幅度比稳定性测度和峰值-谐波功率比检测t帧时的待检测短时频谱中是否存在第二类啸叫频点索引,所述峰值-平均幅度比稳定性测度是用所述指定加权系数对指定短时频谱幅度比进行加权处理并取分贝尺度后形成的,所述指定短时频谱幅度比是所述待检测声音信号在局部峰值频点索引处的短时频谱幅度与短时频谱幅度全频带平均值之比;所述峰值-谐波功率比是对指定短时频谱幅度平方比取分贝尺度后形成的,所述指定短时频谱幅度平方比是待检测声音信号在局部峰值频点索引处的短时频谱幅度平方与局部峰值频点相应的谐波频点索引处短时频谱幅度平方之比;所述第二类啸叫频点索引是对应于所述峰值-平均幅度稳定性测度大于预设的峰值-平均幅度稳定性测度门限并且所述峰值-谐波功率比大于预设的峰值-谐波功率比门限的局部峰值频点索引。
2.根据权利要求1所述的通信系统啸叫检测方法,其特征在于,在所述基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引之前,所述方法还包括:
计算t帧时的待检测短时频谱的长时帧幅度平方相干系数;
基于所述长时帧幅度平方相干系数从t帧时的待检测短时频谱中获取预设数量的备选啸叫频点索引,所述备选啸叫频点索引为t帧时的长时帧幅度平方相干系数大于预设长时帧幅度平方相干系数门限参数所对应的频点索引;
所述基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引为:基于峰值功率谱稳定性测度和所述备选啸叫频点索引检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引;
所述基于峰值-平均幅度比稳定性测度和峰值-谐波功率比检测t帧时的待检测短时频谱中是否存在第二类啸叫频点索引为:基于峰值-平均幅度比稳定性测度和峰值-谐波功率比和所述备选啸叫频点索引检测t帧时的待检测短时频谱中是否存在第二类啸叫频点索引。
3.根据权利要求2所述的通信系统啸叫检测方法,其特征在于,所述基于所述长时帧幅度平方相干系数从t帧时的待检测短时频谱中获取预设数量的备选啸叫频点索引包括:
基于所述长时帧幅度平方相干系数从t帧时的待检测短时频谱中获取全部备选啸叫频点索引;
从全部所述备选啸叫频点索引中获取预设数量的、长时帧幅度平方相干系数最大的所述备选啸叫频点索引。
4.根据权利要求3所述的通信系统啸叫检测方法,其特征在于,在所述计算t帧时的待检测短时频谱的长时帧幅度平方相干系数之前,所述方法还包括:
对t帧时的待检测短时频谱进行切里特-贝鲁克拉尼内核平滑处理。
5.根据权利要求4述的通信系统啸叫检测方法,其特征在于,所述基于所述长时帧幅度平方相干系数从t帧时的待检测短时频谱中获取预设数量的备选啸叫频点索引还包括:
从t帧时的待检测短时频谱中获取所述备选啸叫频点索引对应的备选短时频谱;
所述基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引为:若t帧时的待检测短时频谱中存在所述备选啸叫频点索引,则基于峰值功率谱稳定性测度和所述备选啸叫频点索引检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引;
若t帧时的待检测短时频谱中不存在所述备选啸叫频点索引,则获取t帧时的待检测短时频谱中下一帧短时频谱,直至t帧时的待检测短时频谱中全部检测完毕。
7.根据权利要求6所述的通信系统啸叫检测方法,其特征在于,所述基于峰值-平均幅度比稳定性测度和峰值-谐波功率比检测t帧时的待检测短时频谱中是否存在第二类啸叫频点索引为:利用公式实现基于峰值-平均幅度比稳定性测度和峰值-谐波功率比检测t帧时的待检测短时频谱中是否存在第二类啸叫频点索引,其中,/>为第二啸叫检测器在t帧时输出的二元型检测指示信号;/>(单位为信号帧)为第二啸叫检测器预设的判决门限参数;/>为第二啸叫检测器中备选啸叫频点索引/>在t帧时的计数器值,/>的确定方式为t帧时在备选啸叫频点索引/>处的所述峰值-平均幅度比稳定性测度大于预设的峰值-平均幅度比稳定性测度门限并且峰值-谐波功率比大于预设的峰值-谐波功率比门限时,/>将自动加一,否则将自动减一直至零为止。
9.一种通信系统啸叫检测装置,其特征在于,包括:
待检测声音信号获取模块,用于获取待检测声音信号;
短时频谱生成模块,用于生成所述待检测声音信号在t帧时的待检测短时频谱;
第一啸叫检测器,用于基于峰值功率谱稳定性测度检测t帧时的待检测短时频谱中是否存在第一类啸叫频点索引,所述峰值功率谱稳定性测度是用指定加权系数对指定短时频谱幅度平方进行加权处理并取分贝尺度后形成的,所述指定加权系数以欧拉数e为底数和以所述待检测声音信号短时频谱幅度局部峰值频点索引处的幅度谱帧间相对变化率绝对值的负数为指数而形成,所述指定短时频谱幅度平方是所述待检测声音信号在局部峰值频点索引处的短时频谱幅度平方;所述第一类啸叫频点索引是峰值功率谱稳定性测度大于预设的峰值功率谱稳定性测度门限的局部峰值频点索引;
第二啸叫检测器,若t帧时的待检测短时频谱中不存在所述第一类啸叫频点索引,则基于峰值-平均幅度比稳定性测度和峰值-谐波功率比检测t帧时的待检测短时频谱中是否存在第二类啸叫频点索引,所述峰值-平均幅度比稳定性测度是用所述指定加权系数对指定短时频谱幅度比进行加权处理并取分贝尺度后形成的,所述指定短时频谱幅度比是所述待检测声音信号在局部峰值频点索引处的短时频谱幅度与短时频谱幅度全频带平均值之比;所述峰值-谐波功率比是对指定短时频谱幅度平方比取分贝尺度后形成的,所述指定短时频谱幅度平方比是待检测声音信号在局部峰值频点索引处的短时频谱幅度平方与局部峰值频点相应的谐波频点索引处短时频谱幅度平方之比;所述第二类啸叫频点索引是对应于所述峰值-平均幅度稳定性测度大于预设的峰值-平均幅度稳定性测度门限并且所述峰值-谐波功率比大于预设的峰值-谐波功率比门限的局部峰值频点索引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310176023.7A CN116189700A (zh) | 2023-02-28 | 2023-02-28 | 一种通信系统啸叫检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310176023.7A CN116189700A (zh) | 2023-02-28 | 2023-02-28 | 一种通信系统啸叫检测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116189700A true CN116189700A (zh) | 2023-05-30 |
Family
ID=86448406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310176023.7A Pending CN116189700A (zh) | 2023-02-28 | 2023-02-28 | 一种通信系统啸叫检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116189700A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118016042A (zh) * | 2024-04-09 | 2024-05-10 | 成都启英泰伦科技有限公司 | 一种啸叫抑制方法及装置 |
-
2023
- 2023-02-28 CN CN202310176023.7A patent/CN116189700A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118016042A (zh) * | 2024-04-09 | 2024-05-10 | 成都启英泰伦科技有限公司 | 一种啸叫抑制方法及装置 |
CN118016042B (zh) * | 2024-04-09 | 2024-05-31 | 成都启英泰伦科技有限公司 | 一种啸叫抑制方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11694711B2 (en) | Post-processing gains for signal enhancement | |
RU2596592C2 (ru) | Пространственный аудио процессор и способ обеспечения пространственных параметров на основе акустического входного сигнала | |
US9548063B2 (en) | Method and apparatus for acoustic echo control | |
US7968786B2 (en) | Volume adjusting apparatus and volume adjusting method | |
Tan et al. | Multi-band summary correlogram-based pitch detection for noisy speech | |
CN110782910B (zh) | 一种高检出率的啸叫音频检测系统 | |
US20130231925A1 (en) | Monaural Noise Suppression Based on Computational Auditory Scene Analysis | |
JP6374120B2 (ja) | 発話の復元のためのシステムおよび方法 | |
JP5439586B2 (ja) | 低複雑度の聴覚イベント境界検出 | |
JP2014507689A (ja) | ピッチ検出方法及び装置 | |
KR20170035986A (ko) | 활성화 음성 검측 방법 및 장치 | |
CN116189700A (zh) | 一种通信系统啸叫检测方法和装置 | |
KR102651085B1 (ko) | 드라이 사운드 및 주변 사운드 분리 | |
US20200410993A1 (en) | Pre-processing for automatic speech recognition | |
CN111292758B (zh) | 语音活动检测方法及装置、可读存储介质 | |
WO2013170610A1 (zh) | 检测基音周期的正确性的方法和装置 | |
US10229686B2 (en) | Methods and apparatus for speech segmentation using multiple metadata | |
EP2438591A1 (en) | A method and arrangement for estimating the quality degradation of a processed signal | |
Gaoxiong et al. | The perceptual objective listening quality assessment algorithm in telecommunication: introduction of itu-t new metrics polqa | |
US20150162014A1 (en) | Systems and methods for enhancing an audio signal | |
JP5815435B2 (ja) | 音源位置判定装置、音源位置判定方法、プログラム | |
JP3815323B2 (ja) | 周波数変換ブロック長適応変換装置及びプログラム | |
CN112201279A (zh) | 一种基音检测方法及装置 | |
JP2007298607A (ja) | 音響信号分析装置、音響信号分析方法、及び音響信号分析用プログラム | |
CN112530450A (zh) | 频域中的样本精度延迟识别 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |