CN103137133A - 非激活音信号参数估计方法及舒适噪声产生方法及系统 - Google Patents

非激活音信号参数估计方法及舒适噪声产生方法及系统 Download PDF

Info

Publication number
CN103137133A
CN103137133A CN201210037152XA CN201210037152A CN103137133A CN 103137133 A CN103137133 A CN 103137133A CN 201210037152X A CN201210037152X A CN 201210037152XA CN 201210037152 A CN201210037152 A CN 201210037152A CN 103137133 A CN103137133 A CN 103137133A
Authority
CN
China
Prior art keywords
time
frequency
frequency spectrum
smoothing processing
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210037152XA
Other languages
English (en)
Other versions
CN103137133B (zh
Inventor
江东平
袁浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201210037152.XA priority Critical patent/CN103137133B/zh
Priority to PCT/CN2012/085286 priority patent/WO2013078974A1/zh
Priority to US14/361,422 priority patent/US9449605B2/en
Priority to EP12853638.0A priority patent/EP2772915B1/en
Publication of CN103137133A publication Critical patent/CN103137133A/zh
Application granted granted Critical
Publication of CN103137133B publication Critical patent/CN103137133B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

本发明公开了非激活音信号参数估计方法及舒适噪声产生方法及系统,针对非激活音信号帧,将包含所述非激活音信号帧的时域信号的序列进行时频变换,得到频谱序列,根据此频谱序列计算频谱系数,对所述频谱系数进行平滑处理,根据所述经过平滑处理后的频谱系数计算得到平滑处理后的频谱序列,对此平滑处理后的频谱序列进行时频反变换得到重构的时域信号,根据所述重构的时域信号进行非激活音信号参数估计,得到频谱参数和能量参数。本方案可以在非稳态背景噪声情况下提供平稳的背景噪声参数,尤其是在激活音检测判断准确的情况下,可以在舒适噪声产生系统中较好的消除解码端合成的舒适噪声中的人工杂音。

Description

非激活音信号参数估计方法及舒适噪声产生方法及系统
技术领域
本发明涉及一种语音频编解码技术,尤其涉及非激活音信号参数估计方法及舒适噪声产生方法及系统。
背景技术
在正常的语音通话中,用户不是全程持续发出语音,在不发出语音的阶段称为非激活音阶段,正常情况下通话双方总的非语音激活阶段要超过通话双方总的语音编码时长的50%,在非激活音阶段双方进行编解码并传输的是背景噪声,对背景噪声进行编解码操作浪费了编解码能力以及无线资源。利用这一事实,语音通信中通常都采用不连续发送(Discontinuous Transmission,简称DTX)方式来节省信道的传送带宽和设备的功耗,并在编码端提取少量的非激活音帧参数,解码端则根据这些参数来产生舒适噪声(Comfort Noisegenerator,简称CNG)。现代的很多语音编解码标准,如AMR,AMR-WB等,都支持DTX和CNG功能。对于非激活音阶段的信号为稳态背景噪声的时候,编码解器均工作稳定,但是对于非稳态的背景噪声,尤其是在噪声比较大的时候,这些编解码器的使用DTX和CNG方法产生出来的背景噪声都不是很稳定,会产生一些杂音。
发明内容
本发明要解决的技术问题是提供一种舒适噪声产生方法及系统和非激活音信号参数估计方法及系统,降低舒适噪声中的杂音。
为了解决上述技术问题,本发明提供了一种非激活音信号参数估计方法,其中,针对非激活音信号帧,将包含所述非激活音信号帧的时域信号的序列进行时频变换,得到频谱序列,根据此频谱序列计算频谱系数,对所述频谱系数进行平滑处理,根据所述经过平滑处理后的频谱系数计算得到平滑处理后的频谱序列,对此平滑处理后的频谱序列进行时频反变换得到重构的时域信号,根据所述重构的时域信号进行非激活音信号参数估计,得到频谱参数和能量参数。
进一步地,上述方法还可以具有以下特点:
所述频谱系数是频域幅度系数时,对频域幅度系数进行平滑处理,根据经过平滑处理后的频域幅度系数计算得到平滑处理后的频谱序列,对此频谱序列进行时频反变换得到重构的时域信号;
所述频谱系数是频域能量系数时,对频域能量系数进行平滑处理,对经过平滑处理后的频域能量系数开平方后计算得到平滑处理后的频谱序列,对此频谱序列进行时频反变换得到重构的时域信号。
进一步地,上述方法还可以具有以下特点:
所述平滑是指:
Xsmooth(k)=αX′smooth(k)+(1-α)X(k);k=0,…,N-1
Xsmooth(k)是指对当前帧进行平滑后的序列,X′smooth(k)是前一非激活音信号帧的平滑后的序列,X(k)是所述频谱系数,α是单极平滑器的衰减因子,N是正整数,k是各个频点的位置索引。
进一步地,上述方法还可以具有以下特点:
所述包含所述非激活音信号帧的时域信号的序列是指对包含此非激活音信号帧的时域信号进行加窗运算后的序列,所述加窗运算中的窗函数是正弦窗、海明窗、矩形窗、汉宁(Hanning)窗、凯撒窗(Kaiser)、三角窗、贝塞尔窗或高斯窗。
进一步地,上述方法还可以具有以下特点:
对所述频谱系数进行平滑处理后,对所述平滑处理后的频谱序列进行部分频点数据的符号取反操作。
进一步地,上述方法还可以具有以下特点:
部分频点数据的符号取反操作是指对索引为奇数的频点数据的符号取反或者对索引为偶数的频点数据的符号取反。
进一步地,上述方法还可以具有以下特点:
如果采用的时频变换算法是复数变换,根据其数字频域0到π之间的频谱将平滑后的频谱序列扩展得到0到2π之间的频谱序列。
进一步地,上述方法还可以具有以下特点:
所述频谱参数是线性频谱频率(LSF)或导抗频谱频率(ISF),所述能量参数是残差的能量相对于基准信号能量值的增益或残差的能量。
为了解决上述技术问题,本发明提供了一种非激活音信号进行参数估计装置,包括时频变换单元,时频反变换单元,非激活音信号参数估计单元,其中,
所述装置还包括连接于时频变换单元和时频反变换单元之间的平滑处理单元;
所述时频变换单元,用于针对非激活音信号帧,将包含所述非激活音信号帧的时域信号的序列进行时频变换,得到频谱序列;
所述平滑处理单元,用于根据此频谱序列计算频谱系数,对此频谱系数进行平滑处理;
所述时频反变换单元,用于根据所述经过平滑处理后的频谱系数计算得到平滑处理后的频谱序列,对此平滑处理后的频谱序列进行时频反变换得到重构的时域信号;
所述非激活音信号参数估计单元,用于根据所述重构的时域信号进行非激活音信号参数估计,得到频谱参数和能量参数。
为了解决上述技术问题,本发明还提供了一种舒适噪声产生方法,其中,针对非激活音信号帧,编码端将包含所述非激活音信号帧的时域信号的序列进行时频变换,得到频谱序列,根据此频谱序列计算频谱系数,对所述频谱系数进行平滑处理,根据所述经过平滑处理后的频谱系数计算得到平滑处理后的频谱序列,对此平滑处理后的频谱序列进行时频反变换得到重构的时域信号,根据所述重构的时域信号进行非激活音信号参数估计,得到频谱参数和能量参数,将所述频谱参数和能量参数进行量化编码后将码流发送到解码端;
所述解码端根据从编码端接收的码流获得频谱参数和能量参数,根据所述频谱参数和能量参数计算产生舒适噪声信号。
为了解决上述技术问题,本发明还提供了一种舒适噪声产生系统,包括编码装置和解码装置,其中,所述编码装置包括时频变换单元,时频反变换单元,非激活音信号参数估计单元,量化编码单元,所述解码装置包括解码反量化单元,舒适噪声生成单元;
所述编码装置还包括连接于时频变换单元和时频反变换单元之间的平滑处理单元;
所述时频变换单元,用于针对非激活音信号帧,将包含所述非激活音信号帧的时域信号的序列进行时频变换,得到频谱序列;
所述平滑处理单元,用于根据此频谱序列计算频谱系数,对此频谱系数进行平滑处理;
所述时频反变换单元,用于根据所述经过平滑处理后的频谱系数计算得到平滑处理后的频谱序列,对此平滑处理后的频谱序列进行时频反变换得到重构的时域信号;
所述非激活音信号参数估计单元,用于根据所述重构的时域信号进行非激活音信号参数估计,得到频谱参数和能量参数;
所述量化编码单元,用于对频谱参数和能量参数进行量化编码得到码流并发送至解码装置;
所述解码反量化单元,用于从所述编码装置接收到的码流进行解码反量化,得到解码反量化后的频谱参数和能量参数并发送至所述舒适噪声生成单元;
所述舒适噪声生成单元,用于根据所述频谱参数和能量参数生成舒适噪声信号。
本方案可以在非稳态背景噪声情况下提供平稳的背景噪声参数,尤其是在激活音检测(Voice Activity Detection,简称VAD)判断准确的情况下,可以在舒适噪声产生系统中较好的消除解码端合成的舒适噪声中的人工杂音。
附图说明
图1是实施例中对非激活音信号进行参数估计的方法示意图;
图2是实施例中对语音信号进行编码的示意图。
具体实施方式
如图1所示,对非激活音信号进行参数估计的方法包括:针对非激活音信号帧,将包含所述非激活音信号帧的时域信号的序列进行时频变换,得到频谱序列,根据此频谱序列计算频谱系数,对所述频谱系数进行平滑处理,根据所述经过平滑处理后的频谱系数计算得到平滑处理后的频谱序列,对此平滑处理后的频谱序列进行时频反变换得到重构的时域信号,根据所述重构的时域信号进行非激活音信号参数估计,得到频谱参数和能量参数。
其中,频谱系数是频域幅度系数时,对频域幅度系数进行平滑处理,根据经过平滑处理后的频域幅度系数计算得到平滑处理后的频谱序列,对此频谱序列进行时频反变换得到重构的时域信号。频谱系数是频域能量系数时,对频域能量系数进行平滑处理,对经过平滑处理后的频域能量系数开平方后计算得到平滑处理后的频谱序列,对此频谱序列进行时频反变换得到重构的时域信号。
上述方法中,所述平滑是指:
Xsmooth(k)=αX′smooth(k)+(1-α)X(k);k=0,…,N-1
Xsmooth(k)是指当前帧进行平滑后的序列,X′smooth(k)是前一非激活音信号帧的平滑后的序列,X(k)是所述频谱系数,α是单极平滑器的衰减因子,N是正整数。k是各频点的位置索引。
所述包含所述非激活音信号帧的时域信号的序列是指对包含此非激活音信号帧的时域信号进行加窗运算后的序列,所述加窗运算中的窗函数是正弦窗、海明窗、矩形窗、汉宁(Hanning)窗、凯撒窗(Kaiser)、三角窗、贝塞尔窗或高斯窗。
对所述频谱系数进行平滑处理后,还对所述平滑处理后的频谱序列进行部分频点数据的符号取反操作。典型的,部分频点数据的符号取反操作是指对索引为奇数的频点数据的符号取反或者对索引为偶数的频点数据的符号取反。
如果采用的时频变换算法是复数变换,根据其数字频域0到π之间的频谱将平滑后的频谱序列扩展得到0到2π之间的频谱序列后进行时频反变换得到时域信号。
所述频谱参数是线性频谱频率(LSF)或导抗频谱频率(ISF),所述能量参数是残差的能量相对于基准信号能量值的增益或残差的能量,其中基准信号能量值为一个随机白噪声的能量值。
与上述方法对应的对非激活音信号进行参数估计的装置,包括时频变换单元,平滑处理单元,时频反变换单元,非激活音信号参数估计单元,其中,
所述时频变换单元,用于针对非激活音信号帧,将包含此非激活音信号帧的时域信号的序列进行时频变换,得到频谱序列;
所述平滑处理单元,用于根据此频谱序列计算频谱系数,对此频谱系数进行平滑处理;
所述时频反变换单元,用于根据所述经过平滑处理后的频谱系数计算得到平滑处理后的频谱序列,对此平滑处理后的频谱序列进行时频反变换得到重构的时域信号;
所述非激活音信号参数估计单元,用于根据所述重构的时域信号进行非激活音信号参数估计,得到频谱参数和能量参数。
在上述方法基础上还可以得到一种舒适噪声产生方法,包括:针对非激活音信号帧,编码端将包含所述非激活音信号帧的时域信号的序列进行时频变换,得到频谱序列,根据此频谱序列计算频谱系数,对所述频谱系数进行平滑处理,根据所述经过平滑处理后的频谱系数计算得到平滑处理后的频谱序列,对此平滑处理后的频谱序列进行时频反变换得到重构的时域信号,根据所述重构的时域信号进行非激活音信号参数估计,得到频谱参数和能量参数,将所述频谱参数和能量参数进行量化编码后将码流发送到解码端;所述解码端根据从编码端接收的码流获得频谱参数和能量参数,根据所述频谱参数和能量参数计算产生舒适噪声信号。
与上述方法对应的舒适噪声产生系统,其中,包括编码装置和解码装置,所述编码装置包括时频变换单元,时频反变换单元,非激活音信号参数估计单元,量化编码单元,所述解码装置包括解码反量化单元,舒适噪声生成单元;
所述编码装置还包括连接于时频变换单元和时频反变换单元之间的平滑处理单元;
所述时频变换单元,用于针对非激活音信号帧,将包含此非激活音信号帧的时域信号的序列进行时频变换,得到频谱序列;
所述平滑处理单元,用于根据此频谱序列计算频谱系数,对此频谱系数进行平滑处理;
所述时频反变换单元,用于根据所述经过平滑处理后的频谱系数计算得到平滑处理后的频谱序列,对此平滑处理后的频谱序列进行时频反变换得到重构的时域信号;
所述非激活音信号参数估计单元,用于根据此时域信号进行非激活音信号参数估计,得到频谱参数和能量参数;
所述量化编码单元,用于对频谱参数和能量参数进行量化编码得到码流并发送至解码装置;
所述解码反量化单元,用于从所述编码装置接收到的码流进行解码反量化,得到解码反量化后的频谱参数和能量参数并发送至所述舒适噪声生成单元;
所述舒适噪声生成单元,用于根据所述频谱参数和能量参数生成舒适噪声。
下面通过具体实施例对本方案进行详细说明。
对待编码码流进行激活音检测(VAD),如果当前帧信号判断为激活音,则对该信号采用基本的语音频编码模式进行编码,基本的语音频编码模式可以是AMR-WB,G.718等语音频编码器;如果当前帧信号判断为非激活音,则采用以下非激活音帧(也称为静音帧,SID帧)编码方法进行编码(如图2):
步骤101:对输入时域信号进行时域加窗。加窗所采用的窗型和方式可以同激活音语音频编码模式下加窗所采用的窗型和方式相同,也可以不同。
本步骤的一种具体实现方式可以是:
将当前帧的N点时域采样信号x(n)与上一帧的N点时域采样信号xold(n)组成2N点时域采样信号
Figure BDA0000136595810000081
2N点的时域采样信号可由下式表示:
x ‾ ( n ) = x old ( n ) n = 0,1 , · · · , N - 1 x ( n - N ) n = N , N + 1 , · · · , 2 N - 1
实施时域加窗,得到加窗后的时域系数如下:
其中,w(n)表示窗函数,窗函数是正弦窗、海明窗、矩形窗、汉宁(Hanning)窗、凯撒窗(Kaiser)、三角窗、贝塞尔窗或高斯窗。
当帧长为20ms,采样率为16kHz时,N=320。其他帧长、采样率及窗长可同样算出相应的频域系数个数。
步骤102:对加窗后的时域系数xw(n)进行DFT变换,计算过程如下:
对xw(n)进行DFT运算:
x w ( n ) = x ‾ ( n ) w ( n ) n = 0 , · · · , 2 N - 1
X ( k ) = Σ n = 0 2 N - 1 x w ( n ) e - 2 πi 2 N kn n = 0 , · · · , 2 N - 1 ; k = 0,1,2 · · · N - 1
步骤103,采用下面方程计算得到频域系数X在[0,N-1]范围内的频域能量系数:
Xe(k)=(real(X(k)))2+(image(X(k)))2    k=0,…,N-1
其中real(X(k)),image(X(k))分别表示频谱系数X(k)的实部和虚部。
步骤104:对当前的频域能量系数Xe(k)进行平滑运算,实现方程式如下:
Xsmooth(k)=αX′smooth(k)+(1-α)Xe(k);k=0,…,N-1
其中,Xsmooth(k)是指当前帧进行平滑后的频域能量系数序列,X′smooth(k)是前一非激活音信号帧的平滑后的频域能量系数序列,k是各个频点的位置索引,α是单极平滑器的衰减因子,α是单极平滑器的衰减因子,取值在[0.3,0.999]范围。
此步骤中还可以根据前面若干帧的激活音判断结果,采用以下计算过程得到平滑后的能量谱Xsmooth:如果前面连续若干帧(5帧)都为激活音帧,则直接采用当前的频域能量系数Xe(k)作为平滑后的频域能量系数输出,实现方程式如下:Xsmooth(k)=Xe(k);k=0,…,N-1,否则,如步骤104所述进行平滑运算。
步骤105:对平滑后的能量谱Xsmooth进行开方运算,并乘上一个固定的增益系数β,得到平滑后的幅度谱系数Xamp_smooth作为平滑后的频谱序列,计算方程式如下:
X amp _ smooth ( k ) = β X smooth ( k ) + 0.01 ; k = 0 , · · · , N - 1 ;
β取值在[0.3,1]范围内。
上述步骤104和步骤105处还可以对加窗后的时域系数xw(n)进行DFT变换后直接计算幅度谱系数并对幅度谱系数进行平滑,平滑方式与上述相同。
步骤106:对平滑后的频谱序列间隔一个频点数据取反,即对所有索引为奇数或所有索引为偶数的频点数据的符号取反,而其它系数的符号不变。将低频小于50HZ频谱分量置0,并对符号取反后的频谱序列进行延拓,得到频域系数Xse
频点数据的符号取反实现方程式如下:
X amp _ smooth ( 2 k ) = - X amp _ smooth ( 2 k ) ; X amp _ smooth ( 2 k + 1 ) = X amp _ smooth ( 2 k + 1 ) ; k = 0 , · · · , N / 2 - 1
X amp _ smooth ( 2 k ) = X amp _ smooth ( 2 k ) ; X amp _ smooth ( 2 k + 1 ) = - X amp _ smooth ( 2 k + 1 ) ; k = 0 , · · · , N / 2 - 1
将低频小于50hz频谱分量置0。频谱序列延拓将Xsmooth从[0,N-1]的范围以N为对称中心,以偶对称的方式扩展到[0,2N-1]的范围,即Xsmooth从数字频率[0,π)的频谱范围以频率π为对称中心,以偶对称的方式延拓到[0,2π)的频谱范围。频域延拓方程如下:
Xse(k)=0;.........k=0或k=N
Xse(k)=Xamp_smooth(k);.......k=1,2,...,N-1
Xse(k)=Xamp_smooth(2N-k).......k=N+1,N+2,...,2N-1
步骤107:对延拓后的序列进行IDFT变换,得到处理后的时域信号xp(n)。
步骤108:对IDFT变换得到的时域信号进行LPC分析,得到LPC参数和残差信号的能量,将LPC参数转换成LSF矢量参数fl或ISF矢量参数fi,将残差信号的能量同一个基准的白噪声能量进行比较,得到残差信号增益系数g。该基准的白噪声采用以下方法产生:
rand(k)=uint32(A*rand(k-1)+C);.......k=0,1,2,...,N-1
函数uint32表示对结果进行32位的无符号截断,rand(-1)是前一帧的最后一个随机值,A和C都是方程系数,其取值范围都在[1,65536]。
步骤109:每隔8帧对LSF参数fl和残差信号增益系数g或者对ISF参数fi和残差信号增益系数g进行量化编码,得到静音帧(SID)的编码码流,并将编码码流发送到解码端。对于没有进行SID帧编码的非激活音帧,发送一个无效帧标志到解码端。
步骤110:解码端根据编码端发送过来的参数产生舒适噪声信号。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

Claims (11)

1.一种非激活音信号参数估计方法,其中,
针对非激活音信号帧,将包含所述非激活音信号帧的时域信号的序列进行时频变换,得到频谱序列,根据此频谱序列计算频谱系数,对所述频谱系数进行平滑处理,根据所述经过平滑处理后的频谱系数计算得到平滑处理后的频谱序列,对此平滑处理后的频谱序列进行时频反变换得到重构的时域信号,根据所述重构的时域信号进行非激活音信号参数估计,得到频谱参数和能量参数。
2.如权利要求1所述的方法,其特征在于,
所述频谱系数是频域幅度系数时,对频域幅度系数进行平滑处理,根据经过平滑处理后的频域幅度系数计算得到平滑处理后的频谱序列,对此频谱序列进行时频反变换得到重构的时域信号;
所述频谱系数是频域能量系数时,对频域能量系数进行平滑处理,对经过平滑处理后的频域能量系数开平方后计算得到平滑处理后的频谱序列,对此频谱序列进行时频反变换得到重构的时域信号。
3.如权利要求1或2所述的方法,其特征在于,
所述平滑是指:
Xsmooth(k)=aX′smooth(k)+(1-α)X(k);k=0,…,N-1
Xsmooth(k)是指对当前帧进行平滑后的序列,X′smooth(k)是前一非激活音信号帧的平滑后的序列,X(k)是所述频谱系数,α是单极平滑器的衰减因子,
N是正整数,k是各个频点的位置索引。
4.如权利要求1所述的方法,其特征在于,
所述包含所述非激活音信号帧的时域信号的序列是指对包含此非激活音信号帧的时域信号进行加窗运算后的序列,所述加窗运算中的窗函数是正弦窗、海明窗、矩形窗、汉宁(Hanning)窗、凯撒窗(Kaiser)、三角窗、贝塞尔窗或高斯窗。
5.如权利要求1所述的方法,其特征在于,
对所述频谱系数进行平滑处理后,对所述平滑处理后的频谱序列进行部分频点数据的符号取反操作。
6.如权利要求5所述的方法,其特征在于,
部分频点数据的符号取反操作是指对索引为奇数的频点数据的符号取反或者对索引为偶数的频点数据的符号取反。
7.如权利要求1所述的方法,其特征在于,
如果采用的时频变换算法是复数变换,根据其数字频域0到π之间的频谱将平滑后的频谱序列扩展得到0到2π之间的频谱序列。
8.如权利要求1所述的方法,其特征在于,
所述频谱参数是线性频谱频率(LSF)或导抗频谱频率(ISF),所述能量参数是残差的能量相对于基准信号能量值的增益或残差的能量。
9.一种非激活音信号进行参数估计装置,包括时频变换单元,时频反变换单元,非激活音信号参数估计单元,其中,
所述装置还包括连接于时频变换单元和时频反变换单元之间的平滑处理单元;
所述时频变换单元,用于针对非激活音信号帧,将包含所述非激活音信号帧的时域信号的序列进行时频变换,得到频谱序列;
所述平滑处理单元,用于根据此频谱序列计算频谱系数,对此频谱系数进行平滑处理;
所述时频反变换单元,用于根据所述经过平滑处理后的频谱系数计算得到平滑处理后的频谱序列,对此平滑处理后的频谱序列进行时频反变换得到重构的时域信号;
所述非激活音信号参数估计单元,用于根据所述重构的时域信号进行非激活音信号参数估计,得到频谱参数和能量参数。
10.一种舒适噪声产生方法,其中,
针对非激活音信号帧,编码端将包含所述非激活音信号帧的时域信号的序列进行时频变换,得到频谱序列,根据此频谱序列计算频谱系数,对所述频谱系数进行平滑处理,根据所述经过平滑处理后的频谱系数计算得到平滑处理后的频谱序列,对此平滑处理后的频谱序列进行时频反变换得到重构的时域信号,根据所述重构的时域信号进行非激活音信号参数估计,得到频谱参数和能量参数,将所述频谱参数和能量参数进行量化编码后将码流发送到解码端;
所述解码端根据从编码端接收的码流获得频谱参数和能量参数,根据所述频谱参数和能量参数计算产生舒适噪声信号。
11.一种舒适噪声产生系统,包括编码装置和解码装置,其中,所述编码装置包括时频变换单元,时频反变换单元,非激活音信号参数估计单元,量化编码单元,所述解码装置包括解码反量化单元,舒适噪声生成单元;
所述编码装置还包括连接于时频变换单元和时频反变换单元之间的平滑处理单元;
所述时频变换单元,用于针对非激活音信号帧,将包含所述非激活音信号帧的时域信号的序列进行时频变换,得到频谱序列;
所述平滑处理单元,用于根据此频谱序列计算频谱系数,对此频谱系数进行平滑处理;
所述时频反变换单元,用于根据所述经过平滑处理后的频谱系数计算得到平滑处理后的频谱序列,对此平滑处理后的频谱序列进行时频反变换得到重构的时域信号;
所述非激活音信号参数估计单元,用于根据所述重构的时域信号进行非激活音信号参数估计,得到频谱参数和能量参数;
所述量化编码单元,用于对频谱参数和能量参数进行量化编码得到码流并发送至解码装置;
所述解码反量化单元,用于从所述编码装置接收到的码流进行解码反量化,得到解码反量化后的频谱参数和能量参数并发送至所述舒适噪声生成单元;
所述舒适噪声生成单元,用于根据所述频谱参数和能量参数生成舒适噪声信号。
CN201210037152.XA 2011-11-29 2012-02-17 非激活音信号参数估计方法及舒适噪声产生方法及系统 Active CN103137133B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201210037152.XA CN103137133B (zh) 2011-11-29 2012-02-17 非激活音信号参数估计方法及舒适噪声产生方法及系统
PCT/CN2012/085286 WO2013078974A1 (zh) 2011-11-29 2012-11-26 非激活音信号参数估计方法及舒适噪声产生方法及系统
US14/361,422 US9449605B2 (en) 2011-11-29 2012-11-26 Inactive sound signal parameter estimation method and comfort noise generation method and system
EP12853638.0A EP2772915B1 (en) 2011-11-29 2012-11-26 Inactive sound signal parameter estimation method and comfort noise generation method and system

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201110386821.X 2011-11-29
CN201110386821X 2011-11-29
CN201110386821 2011-11-29
CN201210037152.XA CN103137133B (zh) 2011-11-29 2012-02-17 非激活音信号参数估计方法及舒适噪声产生方法及系统

Publications (2)

Publication Number Publication Date
CN103137133A true CN103137133A (zh) 2013-06-05
CN103137133B CN103137133B (zh) 2017-06-06

Family

ID=48496871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210037152.XA Active CN103137133B (zh) 2011-11-29 2012-02-17 非激活音信号参数估计方法及舒适噪声产生方法及系统

Country Status (4)

Country Link
US (1) US9449605B2 (zh)
EP (1) EP2772915B1 (zh)
CN (1) CN103137133B (zh)
WO (1) WO2013078974A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106531175A (zh) * 2016-11-13 2017-03-22 南京汉隆科技有限公司 一种网络话机柔和噪声产生的方法
CN106663436A (zh) * 2014-07-28 2017-05-10 弗劳恩霍夫应用研究促进协会 用于舒适噪声生成模式选择的装置和方法
CN112002338A (zh) * 2020-09-01 2020-11-27 北京百瑞互联技术有限公司 一种优化音频编码量化次数的方法及系统

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105225668B (zh) * 2013-05-30 2017-05-10 华为技术有限公司 信号编码方法及设备
JP6851283B2 (ja) * 2017-07-31 2021-03-31 日本電子株式会社 画像処理装置、分析装置、および画像処理方法
CN112447166A (zh) * 2019-08-16 2021-03-05 阿里巴巴集团控股有限公司 一种针对目标频谱矩阵的处理方法及装置
CN113744754B (zh) * 2021-03-23 2024-04-05 京东科技控股股份有限公司 语音信号的增强处理方法和装置
CN113726348B (zh) * 2021-07-21 2022-06-21 湖南艾科诺维科技有限公司 一种无线电信号频谱的平滑滤波方法及系统
CN114785379B (zh) * 2022-06-02 2023-09-22 厦门大学马来西亚分校 一种水声janus信号参数估计方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1327574A (zh) * 1998-12-07 2001-12-19 三菱电机株式会社 声音解码装置和声音解码方法
CN1513168A (zh) * 2000-11-27 2004-07-14 ��˹��ŵ�� 话音通信中产生舒适噪声的方法和系统
US20080219339A1 (en) * 2007-03-09 2008-09-11 Qualcomm Incorporated Channel estimation using frequency smoothing
US20090024387A1 (en) * 2000-03-28 2009-01-22 Tellabs Operations, Inc. Communication system noise cancellation power signal calculation techniques
CN101366077A (zh) * 2005-08-31 2009-02-11 摩托罗拉公司 在语音通信系统中产生舒适噪声的方法和设备
CN101393743A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种可配置参数的立体声编码装置及其编码方法
CN101483042A (zh) * 2008-03-20 2009-07-15 华为技术有限公司 一种噪声生成方法以及噪声生成装置
CN101627593A (zh) * 2007-03-09 2010-01-13 高通股份有限公司 使用频率平滑进行信道估计
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
US20110125490A1 (en) * 2008-10-24 2011-05-26 Satoru Furuta Noise suppressor and voice decoder
CN101303855B (zh) * 2007-05-11 2011-06-22 华为技术有限公司 一种舒适噪声参数产生方法和装置
CN102194457A (zh) * 2010-03-02 2011-09-21 中兴通讯股份有限公司 音频编解码方法、系统及噪声水平估计方法
CN102201241A (zh) * 2011-04-11 2011-09-28 深圳市华新微声学技术有限公司 语音信号处理方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
US7243065B2 (en) 2003-04-08 2007-07-10 Freescale Semiconductor, Inc Low-complexity comfort noise generator
CN101087319B (zh) * 2006-06-05 2012-01-04 华为技术有限公司 一种发送和接收背景噪声的方法和装置及静音压缩系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1327574A (zh) * 1998-12-07 2001-12-19 三菱电机株式会社 声音解码装置和声音解码方法
US20090024387A1 (en) * 2000-03-28 2009-01-22 Tellabs Operations, Inc. Communication system noise cancellation power signal calculation techniques
CN1513168A (zh) * 2000-11-27 2004-07-14 ��˹��ŵ�� 话音通信中产生舒适噪声的方法和系统
CN101366077A (zh) * 2005-08-31 2009-02-11 摩托罗拉公司 在语音通信系统中产生舒适噪声的方法和设备
US20080219339A1 (en) * 2007-03-09 2008-09-11 Qualcomm Incorporated Channel estimation using frequency smoothing
CN101627593A (zh) * 2007-03-09 2010-01-13 高通股份有限公司 使用频率平滑进行信道估计
CN101303855B (zh) * 2007-05-11 2011-06-22 华为技术有限公司 一种舒适噪声参数产生方法和装置
CN101393743A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种可配置参数的立体声编码装置及其编码方法
CN101483042A (zh) * 2008-03-20 2009-07-15 华为技术有限公司 一种噪声生成方法以及噪声生成装置
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
US20110125490A1 (en) * 2008-10-24 2011-05-26 Satoru Furuta Noise suppressor and voice decoder
CN102194457A (zh) * 2010-03-02 2011-09-21 中兴通讯股份有限公司 音频编解码方法、系统及噪声水平估计方法
CN102201241A (zh) * 2011-04-11 2011-09-28 深圳市华新微声学技术有限公司 语音信号处理方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106663436A (zh) * 2014-07-28 2017-05-10 弗劳恩霍夫应用研究促进协会 用于舒适噪声生成模式选择的装置和方法
CN106663436B (zh) * 2014-07-28 2021-03-30 弗劳恩霍夫应用研究促进协会 用于舒适噪声生成模式选择的装置和方法
CN106531175A (zh) * 2016-11-13 2017-03-22 南京汉隆科技有限公司 一种网络话机柔和噪声产生的方法
CN106531175B (zh) * 2016-11-13 2019-09-03 南京汉隆科技有限公司 一种网络话机柔和噪声产生的方法
CN112002338A (zh) * 2020-09-01 2020-11-27 北京百瑞互联技术有限公司 一种优化音频编码量化次数的方法及系统

Also Published As

Publication number Publication date
CN103137133B (zh) 2017-06-06
EP2772915B1 (en) 2016-08-17
US20140358527A1 (en) 2014-12-04
EP2772915A1 (en) 2014-09-03
EP2772915A4 (en) 2015-05-20
WO2013078974A1 (zh) 2013-06-06
US9449605B2 (en) 2016-09-20

Similar Documents

Publication Publication Date Title
CN103137133A (zh) 非激活音信号参数估计方法及舒适噪声产生方法及系统
JP4112027B2 (ja) 再生成位相情報を用いた音声合成
JP4740260B2 (ja) 音声信号の帯域幅を疑似的に拡張するための方法および装置
KR101698905B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
WO2015154397A1 (zh) 一种噪声信号的处理和生成方法、编解码器和编解码系统
US20210074307A1 (en) Noise filling without side information for celp-like coders
JP2014505907A (ja) 不活性相の間のノイズ合成を用いるオーディオコーデック
KR20150108937A (ko) 오디오 프레임 손실 은폐를 제어하기 위한 방법 및 장치
EP2936487B1 (en) Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals
KR20070051857A (ko) 스케일러블 오디오 코딩
CN103632677A (zh) 带噪语音信号处理方法、装置及服务器
JP2016500453A (ja) 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加
JP2019023742A (ja) オーディオ信号内の雑音を推定するための方法、雑音推定器、オーディオ符号化器、オーディオ復号器、およびオーディオ信号を送信するためのシステム
Bhatt Simulation and overall comparative evaluation of performance between different techniques for high band feature extraction based on artificial bandwidth extension of speech over proposed global system for mobile full rate narrow band coder
EP1442455B1 (en) Enhancement of a coded speech signal
RU2696466C2 (ru) Устройство и способ для выбора режима генерирования комфортного шума
CN115966218A (zh) 一种骨导辅助的气导语音处理方法、装置、介质及设备
CN115083429A (zh) 语音降噪的模型训练方法、语音降噪方法、装置及介质
Raina et al. Experimental Analysis of Voice Ooze Algorithm using Voice-excited LPC Vocoder

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170508

Address after: 210012 Nanjing, Yuhuatai District, South Street, Bauhinia Road, No. 68

Applicant after: Nanjing Zhongxing Software Co., Ltd.

Address before: 518057 Nanshan District Guangdong high tech Industrial Park, South Road, science and technology, ZTE building, Ministry of Justice

Applicant before: ZTE Corporation

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191112

Address after: 518057 Nanshan District science and Technology Industrial Park, Guangdong high tech Industrial Park, ZTE building

Patentee after: ZTE Communications Co., Ltd.

Address before: 210012 Nanjing, Yuhuatai District, South Street, Bauhinia Road, No. 68

Patentee before: Nanjing Zhongxing Software Co., Ltd.