CN101308651B - 音频暂态信号的检测方法 - Google Patents

音频暂态信号的检测方法 Download PDF

Info

Publication number
CN101308651B
CN101308651B CN2007100407770A CN200710040777A CN101308651B CN 101308651 B CN101308651 B CN 101308651B CN 2007100407770 A CN2007100407770 A CN 2007100407770A CN 200710040777 A CN200710040777 A CN 200710040777A CN 101308651 B CN101308651 B CN 101308651B
Authority
CN
China
Prior art keywords
signal
energy
sub
segment
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007100407770A
Other languages
English (en)
Other versions
CN101308651A (zh
Inventor
黄鹤云
张本好
林福辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN2007100407770A priority Critical patent/CN101308651B/zh
Publication of CN101308651A publication Critical patent/CN101308651A/zh
Application granted granted Critical
Publication of CN101308651B publication Critical patent/CN101308651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种音频暂态信号的检测方法,首先,在每帧音频信号中分别求出突变指数以及最大加权能量两个特征信号;然后根据设定的门限值进行门限判决;先判断最大加权能量是否大于门限值,如果大于则该帧音频信号为暂态信号;否则再判断突变指数是否大于门限值,如果大于则判定该帧音频信号为暂态信号,否则为稳态信号。本发明能够快速从时域中检测出音频暂态信号。适用于数字移动通信领域。

Description

音频暂态信号的检测方法
技术领域
本发明涉及数字移动通信领域,特别是涉及一种音频暂态信号的检测方法。
背景技术
暂态信号是一种特殊的音频信号,它多存在于有敲打乐器的音频序列中,例如,连续的敲锣打鼓产生的信号可以称之为暂态信号。它的特殊性在于,如果采用常规的变换编码方法例如MDCT等,对其进行编解码的话,由于量化噪声的存在,会产生预回声现象。预回声现象则是人耳不能忍受的一种听觉上的失真。现有技术中虽然已经有两类经典的技术对暂态信号进行有效的编解码,但是,运算开销都相对常规的变换编解码的方法要大得多。
为了能够对暂态信号进行有效的编解码,对暂态信号进行准确的检测是非常重要的。感知熵是一种经典的暂态信号检测方法。它能有效的进行频域中的暂态信号检测,但是由于其要用到多点的FFT(傅立叶变换),所以计算较为复杂。
发明内容
本发明要解决的技术问题是提供一种音频暂态信号的检测方法,能够快速从时域中检测出音频暂态信号。
为解决上述技术问题,本发明的音频暂态信号的检测方法是采用如下技术方案实现的,首先,在每帧音频信号中分别求出突变指数以及最大加权能量两个特征信号;然后根据设定的门限值进行门限判决;
先判断最大加权能量是否大于门限值,如果大于则该帧音频信号为暂态信号;否则再判断突变指数是否大于门限值,如果大于则判定该帧音频信号为暂态信号,否则为稳态信号;
所述突变指数和最大加权能量的计算方法是,对于输入的每帧音频信号,在得到输入音频信号采样点x1、x2、......xN以后,将所有采样信号均匀的分成L段,在每一段信号中分别求出子段信号能量El、子段信号峰值
Figure GSB00000347605800021
以及每帧音频信号的平均能量E0
所述突变指数等于每一个子段信号峰值
Figure GSB00000347605800022
和前一个子段信号能量El-1的比值,即:
I l T = P l M E l - 1 , l = 2,3 , . . . , L
所述最大加权能量等于加权的子段信号能量与平均能量E0的比值,其中,加权的子段信号能量等于每个子段信号能量El乘以选自码率自适应权重参数表的一个系数。
由于采用本发明的方法,在进行暂态信号检测时不需要多点的FFT,所以计算过程简单,能够快速的在音频序列中检测出暂态信号。
附图说明
下面结合附图与具体实施方式对本发明作进一步详细的说明:
图1是本发明的暂态信号检测框图;
图2是图1中的门限判决框图。
具体实施方式
参见图1所示,本发明的音频暂态信号检测方法具体实现的过程是:对于输入的每帧音频信号,在得到输入音频信号采样点x1,x2,....,xN以后,将所有采样点的信号均匀的分成L段。在每一段采样点的信号中,首先计算每段采样点的信号的能量,称为子段信号能量El
E l = Σ x i ∈ A l x i 2
其中,Al是表示第l段信号含有的采样点。
然后,再计算每段采样点的信号Al中,绝对值最大的前M个点(M可以取任意一个大于1整数)。将绝对值求平均值,可以得到子段信号峰值
Figure GSB00000347605800032
Figure GSB00000347605800033
Ml是绝对值最大的前M个采样点集合
计算子段信号峰值
Figure GSB00000347605800034
还可以采用其它方法,如求M个最大值的中值,或者加权平均值等。
最后,求得整个采样点的信号输入帧的平均能量E0。
E 0 = Σ i = 1 N x i 2
根据上述计算所得到的三组参数:子段信号能量El、子段信号峰值
Figure GSB00000347605800036
输入帧的平均能量E0,以及一个码率自适应的权重参数表(可以采用现有技术中任意一种码率自适应权重参数表)进行暂态信号检测。
首先,使用每一个子段信号峰值
Figure GSB00000347605800037
和前一个子段信号能量El参数,计算如下的突变指数:
I l T = P l M E l - 1 , l = 2,3 , . . . , L
从物理意义上解释,子段信号峰值
Figure GSB00000347605800041
和前一子段信号能量El参数比值越大,意味着信号在这个子段出现瞬变,产生了一个类似冲击的现象,即暂态信号现象。在计算子段信号峰值
Figure GSB00000347605800042
时,选取M个绝对值最大的点,其目的是为了保证检测在如下两种情况下的鲁棒性:
a)在出现毛刺类伪暂态现象的时候,即子段信号有一个特别大的值(野值)的时候,用M个绝对值最大的点平均值可以让子段信号的峰值降下来,得到一个鲁棒的子段信号峰值。
b)在子段信号末端出现暂态现象的时候,这一个子段其实是近似稳态的,如果认为其为暂态的话,会带来不必要的计算量增加。
然后,再计算最大加权能量,即子段信号能量El乘以一个系数r(bitrate)得到加权的子段信号能量E′l=r(bitrate)El,其与平均能量E0的比值。
所述的系数r(bitrate)是一组经验值,是根据音频编解码的码率来自适应调整的(即,对应不同的码率,所取的经验值不一样),选自码率自适应权重参数表。
根据计算所得的突变指数以及最大加权能量进行门限判决:
首先计算最大加权能量是否大于某个门限,即:
max E l E 0 > T 1
如果大于则判定为该帧音频信号需要进行暂态信号的编解码处理,即认为是暂态信号。否则再判断突变指数
Figure GSB00000347605800044
是否超过门限,即:
max I l T > T 2
如果大于则判定该音频信号为暂态信号,否则为稳态信号,即不用进行暂态信号的编解码处理。
在进行门限判决时可以采用任意一种模式分类方法(给定输入特征),例如采用神经网络分类器进行门限判决。

Claims (4)

1.一种音频暂态信号的检测方法,其特征在于:首先,在每帧音频信号中分别求出突变指数以及最大加权能量两个特征信号;然后根据设定的门限值T2、T1进行门限判决;
先判断最大加权能量是否大于门限值T1,如果大于则该帧音频信号为暂态信号;否则再判断突变指数是否大于门限值T2,如果大于则判定该帧音频信号为暂态信号,否则为稳态信号;
所述突变指数和最大加权能量的计算方法是,对于输入的每帧音频信号,在得到输入音频信号采样点x1、x2、......xN以后,将所有采样信号均匀的分成L段,在每一段信号中分别求出子段信号能量El、子段信号峰值
Figure FSB00000368816900011
以及每帧音频信号的平均能量E0
所述突变指数等于每一个子段信号峰值
Figure FSB00000368816900012
和前一个子段信号能量El-1的比值,即:
I l T = P l M E l - 1 , l = 2,3 , . . . , L
所述最大加权能量等于加权的子段信号能量与平均能量E0的比值,其中,加权的子段信号能量等于每个子段信号能量El乘以选自码率自适应权重参数表的一个系数。
2.根据权利要求1所述的音频暂态信号的检测方法,其特征在于:所述子段信号能量El等于:
Figure FSB00000368816900014
其中,Al表示第l段信号含有的采样点。
3.根据权利要求1所述的音频暂态信号的检测方法,其特征在于:所述子段信号峰值
Figure FSB00000368816900021
的计算方法是,在每段采样信号中选取绝对值最大的前M个点,M为任意一个大于1的整数;对选定的M个绝对值最大的点的绝对值采用求平均值、求中值、或加权平均值的方法得到子段信号峰值
Figure FSB00000368816900022
4.根据权利要求1所述的音频暂态信号的检测方法,其特征在于:所述每帧音频信号的平均能量E0等于:
E 0 = Σ i = 1 N x i 2 .
CN2007100407770A 2007-05-17 2007-05-17 音频暂态信号的检测方法 Active CN101308651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007100407770A CN101308651B (zh) 2007-05-17 2007-05-17 音频暂态信号的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100407770A CN101308651B (zh) 2007-05-17 2007-05-17 音频暂态信号的检测方法

Publications (2)

Publication Number Publication Date
CN101308651A CN101308651A (zh) 2008-11-19
CN101308651B true CN101308651B (zh) 2011-05-04

Family

ID=40125067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100407770A Active CN101308651B (zh) 2007-05-17 2007-05-17 音频暂态信号的检测方法

Country Status (1)

Country Link
CN (1) CN101308651B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826327B (zh) * 2009-03-03 2013-06-05 中兴通讯股份有限公司 一种基于时域掩蔽的瞬态判决方法及设备
CN101587710B (zh) * 2009-07-02 2011-12-14 北京理工大学 一种基于音频突发事件分类的多码本编码参数量化方法
CN104143341B (zh) * 2013-05-23 2015-10-21 腾讯科技(深圳)有限公司 爆音检测方法和装置
CN103327433B (zh) * 2013-05-27 2014-08-27 腾讯科技(深圳)有限公司 音频输入接口检测方法及其系统
CN106782613B (zh) * 2016-12-22 2020-01-21 广州酷狗计算机科技有限公司 信号检测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1116011A (zh) * 1993-11-02 1996-01-31 艾利森电话股份有限公司 鉴别稳态信号和非稳态信号
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
CN1218945A (zh) * 1993-05-26 1999-06-09 艾利森电话股份有限公司 静态和非静态信号的鉴别
CN1536559A (zh) * 2003-04-10 2004-10-13 联发科技股份有限公司 可以检测声音信号的暂态位置的编码器及编码方法
CN1897109A (zh) * 2006-06-01 2007-01-17 电子科技大学 一种基于mfcc的单一音频信号识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
CN1218945A (zh) * 1993-05-26 1999-06-09 艾利森电话股份有限公司 静态和非静态信号的鉴别
CN1116011A (zh) * 1993-11-02 1996-01-31 艾利森电话股份有限公司 鉴别稳态信号和非稳态信号
CN1536559A (zh) * 2003-04-10 2004-10-13 联发科技股份有限公司 可以检测声音信号的暂态位置的编码器及编码方法
CN1897109A (zh) * 2006-06-01 2007-01-17 电子科技大学 一种基于mfcc的单一音频信号识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Information Technology)》.2006,第28卷(第2期),307-311. *
JP特开2002-311973A 2002.10.25
Mylene D. Kwong et al..Transient Detection of Audio Signals Based on an Adaptive Comb Filter in the Frequency Domain.《Conference Record of the Thirty-Seventh Asilomar Conference on Signals,Systems and Computers,2003》.2003,第1卷542-545. *
阎建新等.音频编码中瞬态信号的时域检测方法.《电子与信息学报(Journal of Electronics & Information Technology)》.2006,第28卷(第2期),307-311.
阎建新等.音频编码中瞬态信号的时域检测方法.《电子与信息学报(Journal of Electronics &amp *

Also Published As

Publication number Publication date
CN101308651A (zh) 2008-11-19

Similar Documents

Publication Publication Date Title
CN101320559B (zh) 一种声音激活检测装置及方法
CN102959625B9 (zh) 自适应地检测输入音频信号中的话音活动的方法和设备
CN104966517B (zh) 一种音频信号增强方法和装置
CN101308651B (zh) 音频暂态信号的检测方法
CN105611477A (zh) 数字助听器中深度和广度神经网络相结合的语音增强算法
CN1997988B (zh) 在音频编码过程中根据mdct数据进行视窗类型判定的方法
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测系统
CN101399039A (zh) 一种确定非噪声音频信号类别的方法及装置
JP6493889B2 (ja) 音声信号を検出するための方法および装置
CN103594094A (zh) 自适应谱减法实时语音增强
CN104464722A (zh) 基于时域和频域的语音活性检测方法和设备
US8779271B2 (en) Tonal component detection method, tonal component detection apparatus, and program
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN1160450A (zh) 从连续语音中识别讲话声音的系统及其应用方法
CN102144258A (zh) 促进确定信号边界频率的方法和装置
CN107257528A (zh) 一种基于加权谱熵的啸叫检测方法
JPWO2014168022A1 (ja) 信号処理装置、信号処理方法および信号処理プログラム
CN101308655A (zh) 一种音频编解码方法与装置
CN105513614A (zh) 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法
CN103632681A (zh) 一种谱包络静音检测方法
CN103310800B (zh) 一种抗噪声干扰的浊语音检测方法及系统
CN101483416B (zh) 一种语音的响度均衡处理方法
CN102930863B (zh) 一种基于简化自适应内插加权谱模型的语音转换及重构方法
CN110675888A (zh) 一种基于RefineNet和评价损失的语音增强方法
CN111341351B (zh) 基于自注意力机制的语音活动检测方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180402

Address after: The 300456 Tianjin FTA test area (Dongjiang Bonded Port) No. 6865 North Road, 1-1-1802-7 financial and trade center of Asia

Patentee after: Xinji Lease (Tianjin) Co.,Ltd.

Address before: 201203 Shanghai city Zuchongzhi road Pudong New Area Zhangjiang hi tech park, Spreadtrum Center Building 1, Lane 2288

Patentee before: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20081119

Assignee: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Assignor: Xinji Lease (Tianjin) Co.,Ltd.

Contract record no.: 2018990000196

Denomination of invention: Detection method of audio transient signal

Granted publication date: 20110504

License type: Exclusive License

Record date: 20180801

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221018

Address after: 201203 Shanghai city Zuchongzhi road Pudong New Area Zhangjiang hi tech park, Spreadtrum Center Building 1, Lane 2288

Patentee after: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Address before: 300456 1-1-1802-7, north area of financial and Trade Center, No. 6865, Asia Road, Tianjin pilot free trade zone (Dongjiang Bonded Port Area)

Patentee before: Xinji Lease (Tianjin) Co.,Ltd.