JP2004302257A - Long-period post-filter - Google Patents

Long-period post-filter Download PDF

Info

Publication number
JP2004302257A
JP2004302257A JP2003096638A JP2003096638A JP2004302257A JP 2004302257 A JP2004302257 A JP 2004302257A JP 2003096638 A JP2003096638 A JP 2003096638A JP 2003096638 A JP2003096638 A JP 2003096638A JP 2004302257 A JP2004302257 A JP 2004302257A
Authority
JP
Japan
Prior art keywords
filter
pitch
coefficient
long
post
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003096638A
Other languages
Japanese (ja)
Inventor
Hiroyuki Ebara
宏幸 江原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2003096638A priority Critical patent/JP2004302257A/en
Publication of JP2004302257A publication Critical patent/JP2004302257A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To improve subjective quality of a decoded speech signal by constituting a long-period post-filter having a strong harmonics structure which is the stronger as the frequency is the lower and weaker in a high frequency range according to the features of an audio signal. <P>SOLUTION: A filter coefficient control part 302 calculates a pitch gain coefficient according to a pitch cycle and calculates the filter coefficients of a three-tap AR type pitch filter 303 and a primary MA type spectrum tilt correcting filter 304 according to the pitch gain coefficient. The three-tap AR type pitch filter 303 consists of filter coefficients which are symmetrical before and after a pitch period and emphasizes the pitch harmonics of a decoded speech signal. The primary MA type spectrum tilt correcting filter 304 corrects a decoded speech signal processed by the three-tap AR type pitch filter 303 to flatten a spectrum envelope characteristic. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、復号された音声信号の主観品質を高めるための長期ポストフィルタ(ピッチポストフィルタ)に関する。
【0002】
【従来の技術】
CELP(符号励振線形予測)に代表される高能率音声符号化方式においては、低周波帯域のピッチハーモニクスの谷に存在する符号化歪(量子化雑音)を聞こえ難くするように、人間の聴覚特性を利用した後処理(ポストフィルタ)を復号音声信号に対して行うことが一般的である。
【0003】
図7は、従来のポストフィルタの構成の一例を示す図である。図7に示すように、従来のポストフィルタ10は、長期ポストフィルタ(ピッチポストフィルタとも呼ばれる)11と短期ポストフィルタ(ホルマントポストフィルタとも呼ばれる)12とから主に構成される(例えば、特許文献1、非特許文献1)。
【0004】
長期ポストフィルタ11は、入力した復号音声信号のピッチハーモニクスを強調する。この従来の長期ポストフィルタ11は、単純なくし型フィルタであり、ピッチハーモニクス構造が周波数全体に渡って一様である。例えば、非特許文献1に開示されているピッチポストフィルタの伝達関数H(z)は、以下の式(1)により表される。なお、式(1)において、pはピッチ周期、G、γ、λはそれぞれフィルタ係数である。
【0005】
【数1】

Figure 2004302257
【0006】
短期ポストフィルタ12は、長期ポストフィルタ11から出力された復号音声信号のホルマント構造を強調する。この短期ポストフィルタ12の出力が復号器の出力音声信号となる。なお、短期ポストフィルタ12の出力は、ポストフィルタ10の入力信号(復号音声信号)と同じパワを持つように利得制御される。
【0007】
ここで、音声信号のハーモニクス構造は必ずしも全周波数帯に一様ではなく、一般に低域ほどピッチハーモニクスの谷が深く、高域はピッチハーモニクス構造が崩れ易い傾向がある。
【0008】
【特許文献1】
欧州特許出願公開第0503684A2号明細書
【非特許文献1】
J−H. Chen and Allen Gersho, ”Adaptive Postfiltering for Quality Enhancement of Coded Speech”, IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL.3, NO.1, JANUARY 1995, pp.59−71.
【0009】
【発明が解決しようとする課題】
しかしながら、上記のように従来の長期ポストフィルタは、ピッチハーモニクス構造が周波数全体に渡って一様であり音声信号のハーモニクス構造と一致しないため、低域のピッチハーモニクス構造を強調すると、高域のピッチハーモニクス構造を強調しすぎてしまい、復号音声が聴覚的に不自然なものになってしまうという問題がある。
【0010】
本発明はかかる点に鑑みてなされたものであり、音声信号の特徴に合わせて、周波数が低い帯域ほどハーモニクス構造が強く、周波数が高い帯域ではハーモニクス構造が弱くなる特性を有し、復号音声信号の主観品質の改善を図ることができる長期ポストフィルタを提供することを目的とする。
【0011】
【課題を解決するための手段】
本発明の長期ポストフィルタは、ピッチ周期の前後で対象なフィルタ係数から構成されるマルチタップピッチフィルタと、前記マルチタップピッチフィルタのスペクトル傾斜を補正する傾斜補正フィルタと、これらのフィルタのフィルタ係数を制御する係数制御手段と、を具備する構成を採る。
【0012】
本発明の長期ポストフィルタにおける前記係数制御手段は、ピッチ周期に基づいてピッチゲイン係数を算出し、このピッチゲイン係数に基づいて前記マルチタップピッチフィルタのフィルタ係数及び前記傾斜補正フィルタのフィルタ係数を制御する構成をとる。
【0013】
これらの構成により、周波数が低い帯域ほどハーモニクス構造が強く、周波数が高い帯域ではハーモニクス構造が弱くなる特性を有するピッチポストフィルタを提供することができ、低周波帯域のピッチハーモニクスの谷に存在する量子化雑音を聞こえ難くし、高周波帯域のピッチハーモニクスを強調しすぎることなく自然なピッチハーモニクスの強調を行うことができる。
【0014】
本発明の長期ポストフィルタにおける前記傾斜補正フィルタは1次のMAフィルタであり、前記係数制御手段は、前記1次のMAフィルタのフィルタ係数を前記ピッチゲイン係数の2次式により算出する構成をとる。
【0015】
この構成により、簡単なフィルタ構成、簡単な関数制御で、ピッチゲイン係数が取り得る値の範囲内においてはほぼスペクトル包絡特性を平坦化することが可能となる。
【0016】
本発明の音声復号化装置は、上記いずれかの長期ポストフィルタを後処理として備える構成をとる。また、本発明の音声信号受信装置は、この音声復号化装置を具備する構成をとる。また、本発明の通信端末装置は、この音声復号化装置を具備する構成をとる。また、本発明の基地局装置は、この音声復号化装置を具備する構成をとる。
【0017】
これらの構成により、低周波帯域のピッチハーモニクスの谷に存在する量子化雑音を聞こえ難くし、高周波帯域のピッチハーモニクスを強調しすぎることなく自然なピッチハーモニクスの強調を行うことができ、復号音声信号の主観品質の改善を図ることができる。
【0018】
【発明の実施の形態】
本発明の骨子は、長期ポストフィルタを、ピッチ周期の前後で対象なフィルタ係数から構成されるマルチタップピッチフィルタと、このピッチフィルタのスペクトル包絡特性を平坦化する傾斜補正フィルタとにより構成することで、低周波帯域のピッチハーモニクスの谷に存在する量子化雑音を聞こえ難くし、高周波帯域のピッチハーモニクスを強調しすぎることなく自然なピッチハーモニクスの強調を行うことである。
【0019】
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
【0020】
(実施の形態)
図1は、本発明の一実施の形態に係る音声信号伝送システムの構成を示すブロック図である。音声信号伝送システムは、音声信号送信装置100及び音声信号受信装置150を具備している。
【0021】
音声信号送信装置100は、入力装置101、A/D変換装置102、音声符号化装置103、信号処理装置104、RF変調装置105、送信装置106及びアンテナ107から主に構成されている。
【0022】
入力装置101は、受信した音声信号を電気信号であるアナログ音声信号に変換し、これをA/D変換装置102に出力する。A/D変換装置102は、入力装置101から出力されたアナログの音声信号をディジタル音声信号に変換し、これを音声符号化装置103に出力する。音声符号化装置103は、A/D変換装置102から出力されたディジタル音声信号を符号化して音声符号化ビット列を生成し信号処理装置104に出力する。信号処理装置104は、音声符号化装置103から出力された音声符号化ビット列にチャネル符号化処理やパケット化処理及び送信バッファ処理等を行った後、その音声符号化ビット列をRF変調装置105に出力する。RF変調装置105は、信号処理装置104から出力された音声符号化ビット列の信号を変調して送信装置106に出力する。送信装置106は、RF変調装置105から出力された音声符号化信号を、アンテナ107を介して電波(RF信号)として送出する。
【0023】
音声信号送信装置100においては、A/D変換装置102を介して得られるディジタル音声信号に対して数十msのフレーム単位で処理が行われる。システムを構成するネットワークがパケット網である場合には、1フレーム又は数フレームの符号化データを1つのパケットに入れ、このパケットをパケット網に送出する。なお、前記ネットワークが回線交換網の場合には、パケット化処理や送信バッファ処理は不要である。
【0024】
音声信号受信装置150は、アンテナ151、受信装置152、RF復調装置153、信号処理装置154、音声復号化装置155、D/A変換装置156及び出力装置157を有している。
【0025】
受信装置152は、アンテナ151を介して音声符号化情報を含んでいる電波(RF信号)を受けてアナログの電気信号である受信音声符号化信号を生成し、これをRF復調装置153に出力する。アンテナ151を介して受けた電波(RF信号)は、伝送路において信号の減衰や雑音の重畳がなければ、音声信号送信装置100において送出された電波(RF信号)と全く同じものになる。
【0026】
RF復調装置153は、受信装置152から出力された受信音声符号化信号を復調し、これを信号処理装置154に出力する。信号処理装置154は、RF復調装置153からの受信音声符号化信号のジッタ吸収バッファリング処理、パケット組みたて処理およびチャネル復号化処理等を行い、受信音声符号化ビット列を音声復号化装置155に出力する。音声復号化装置155は、信号処理装置154から出力された受信音声符号化ビット列に対して復号化処理を行い、復号音声信号を生成しD/A変換装置156に出力する。D/A変換装置156は、音声復号化装置155から出力されたディジタル復号音声信号をアナログ復号音声信号に変換し、これを出力装置157に出力する。出力装置157は、D/A変換装置156から出力されたアナログ復号音声信号を空気の振動に変換し音波として人間の耳に聞こえる様に出力する。
【0027】
復号音声信号の主観的品質を改善する本発明の特徴は、音声信号受信装置150に搭載されている音声復号化装置155の中に備えられている。
【0028】
以下、音声復号化装置155の内部構成について、図2のブロック図を用いて詳細に説明する。
【0029】
図2に示すように、音声復号化装置155は、音声復号部201、長期ポストフィルタ202及び短期ポストフィルタ203から主に構成される。長期ポストフィルタ202の2つの入力端子は、音声復号部201の3つの出力端子のうちの2つにそれぞれ接続されている。短期ポストフィルタ203の2つの入力端子は、一方が長期ポストフィルタの出力端子に、他方が音声復号部の3つの出力端子の一つに、それぞれ接続されている。
【0030】
音声復号部201は、入力した音声符号化ビット列から音声信号を復号し、復号音声信号及び復号ピッチ情報を長期ポストフィルタ202に出力し、復号線形予測係数を短期ポストフィルタ203に出力する。なお、本実施の形態では音声信号の符号化モデルを特定しないが、符号化モデルは、短期予測(線形予測)および長期予測(ピッチ予測)を用いたものであり、典型的な例としてはCELP符号化を挙げることができる。音声復号部201がこのような符号化モデルに基づいて音声信号の復号処理を行うので、長期予測パラメータ(ピッチパラメータ)および短期予測パラメータ(線形予測係数)は一連の処理の中で復号される。
【0031】
長期ポストフィルタ202は、復号音声信号のピッチハーモニクスを強調するフィルタであり、復号音声信号のピッチ周期に基づくくし型フィルタによって構成される。復号音声信号のピッチ周期は、復号ピッチ周期の近傍を再探索することによって求められる。なお、復号ピッチの情報を用いずにピッチ探索を行っても良いが、その場合は復号ピッチを音声復号部201から入力する必要がない代わりに探索のための演算量が大きくなる。本発明の特徴は、長期ポストフィルタ202にあり、その詳細な説明は後述する。
【0032】
短期ポストフィルタ203は、復号音声信号のホルマント構造を強調するフィルタであり、復号線形予測係数に重みを掛けたフィルタ係数を用いて構成される極零型フィルタである。なお、復号線形予測係数を用いずに、復号音声信号を再分析して求められる線形予測係数を用いても良いが、その場合、再分析のための演算量と遅延の増加が必要となる。
【0033】
なお、本発明において、長期ポストフィルタ202と短期ポストフィルタ203の処理順序は一意ではなく、例えば、(1)短期ポストフィルタの零部(LPC逆フィルタ)、(2)ピッチポストフィルタ、(3)短期ポストフィルタの極部(LPC合成フィルタ)というような順序で処理を行っても良い。
【0034】
次に、本発明の特徴部分である長期ポストフィルタ202の構成について図3のブロック図を参照して更に詳細に説明する。
【0035】
図3に示すように、長期ポストフィルタ202は、ピッチ探索部301、フィルタ係数制御部302、マルチタップピッチフィルタの一例である3タップAR型ピッチフィルタ303及び傾斜補正フィルタの一例である1次MA型スペクトル傾斜補正フィルタ304とから主に構成される。
【0036】
ピッチ探索部301は、図2の音声復号部201から出力された復号ピッチ情報と復号音声信号を入力し、入力した復号ピッチ情報を用いて復号音声信号のピッチ周期(またはピッチラグ)pを決定し、これをフィルタ係数制御部302及び3タップAR型ピッチフィルタ303に出力する。なお、上述のように、ピッチ探索部301は、復号ピッチ情報を用いずに復号音声信号のピッチ周期(またはピッチラグ)pを決定することもできる。
【0037】
フィルタ係数制御部302は、ゲイン算出部321及び係数算出部322とから主に構成されている。ゲイン算出部321は、ピッチ周期pを用いてピッチゲイン係数(利得係数)gを算出し、これを係数算出部322に出力する。係数算出部322は、ピッチゲイン係数gを用いて所定のフィルタ係数G’、α、β、σ、εを算出し、フィルタ係数G’、α、βを3タップAR型ピッチフィルタ303に出力し、フィルタ係数σ、εを1次MA型スペクトル傾斜補正フィルタ304に出力する。
【0038】
3タップAR型ピッチフィルタ303は、復号音声信号のピッチハーモニクスを強調するフィルタであり、増幅器331、加算器332、遅延素子333、増幅器334、遅延素子335、増幅器336、遅延素子337及び増幅器338とから主に構成される。
【0039】
増幅器331は、フィルタ係数G’を用いて、図2の音声復号部201から出力された復号音声信号を増幅する。加算器332は、増幅器331、増幅器334、増幅器336および増幅器338の出力を加算する。遅延素子333は、ピッチ周期pを遅延パラメータとして加算器332の出力を遅延させる。増幅器334は、フィルタ係数βを用いて遅延素子333の出力を増幅する。遅延素子335は、遅延素子333の出力を1サンプル時間遅延させる。増幅器336は、フィルタ係数αを用いて遅延素子335の出力を増幅する。遅延素子337は、遅延素子335の出力を1サンプル時間遅延させる。増幅器338は、フィルタ係数βを用いて遅延素子337の出力を増幅する。
【0040】
1次MA型スペクトル傾斜補正フィルタ304は、3タップAR型ピッチフィルタ303でピッチフィルタ処理された復号音声信号に対してスペクトル包絡特性を平坦化する補正を行うフィルタであり、遅延素子341、増幅器342、加算器343及び増幅器344から主に構成される。
【0041】
遅延素子341は、加算器332の出力を1サンプル時間遅延させる。増幅器342は、フィルタ係数σを用いて遅延素子341の出力を増幅する。加算器343は、加算器332の出力から増幅器342の出力を減算する。増幅器344は、フィルタ係数εを用いて加算器343の出力を増幅する。
【0042】
以下、上記構成の長期ポストフィルタ202の処理を、数式を用いて具体的に説明する。
【0043】
まず、ピッチ探索部301が、復号ピッチ情報を用いて、式(2)の正規化自己相関関数R(t)を最大化するサンプルタイミングtをピッチ周期p(単位:サンプル)として決定する。ただし、式(2)において、Nはピッチポストフィルタ処理を行う単位となっている(サブ)フレーム長、s(n)はピッチポストフィルタの入力信号である。
【数2】
Figure 2004302257
【0044】
なお、ピッチ周期pは分数精度であっても良く、その場合は一般的に行われるようにSinc関数を用いた補間処理を用いる。また、ピッチ周期pは正規化自己相関関数を最大化することによって求めることができるが、この方法に限定するものではない。
【0045】
次に、ゲイン算出部321が、式(3)によりピッチゲインgLを算出し、式(4)により重み付け後のピッチゲイン係数gを算出する。
【0046】
【数3】
Figure 2004302257
【0047】
g =0.6gL ,0.4≦gL≦1.0 または gL=0 ・・・(4)
【0048】
次に、係数算出部322が、ピッチゲイン係数gを用いて式(5)によりフィルタ係数G’、α、β、σ、εを算出する。
【0049】
G’=1−g
α =0.8g
β =0.1g
σ =0.40g+0.13g
ε =1/(1−σ) ・・・(5)
次に、3タップAR型ピッチフィルタ303が、ピッチ探索部301および係数算出部322で決定されたピッチ周期p、フィルタ係数G’、α、βを用いて、復号音声信号に対してフィルタ処理を行う。
【0050】
この3タップAR型ピッチフィルタ303の伝達関数Hp(z)は、以下の式(6)により表され、ピッチ周期pの前後1サンプルに対して対称な重み係数を用いたものとなっている。
【0051】
【数4】
Figure 2004302257
【0052】
ピッチ周期に対応するフィルタ係数αへの重みを大きくし、前後1サンプルに対応するフィルタ係数βへの重みを小さくかつ対称としているので、1タップのピッチ予測(一般のピッチ探索)で求めたピッチ周期をそのまま3タップピッチフィルタのピッチラグとして用いることができる。
【0053】
式(6)のフィルタの周波数特性は、ハーモニクスのピークの位置(周波数)が従来のものと変わらず、周波数が高くなるほどピークの高さ(振幅)が低く、ピークの幅が広がる特性となる。
【0054】
ここで、このような周波数特性は、異なる周期をもつ複数の櫛形関数を重ね合わせることによって表現される。しかしながら、異なる周期の多数の櫛形フィルタを重ね合わせるのは演算量が大規模になり現実的でないので、本発明では、探索されたピッチ周期の近傍数種類のピッチ周期に限定したピッチフィルタを重ね合わせる。最も簡単な例は、探索されたピッチ周期とその前後1サンプルのピッチ周期の合計3種類のピッチの櫛形フィルタを重ね合わせたものである。3種類のピッチを用いた3タップのピッチフィルタとするのが最も現実的である。このときのフィルタ係数は、ピッチ周期を中心として前後対称な値を有し、上記式(6)で表される。
【0055】
式(6)において、β/αを適当な値に調整することでハーモニクスのピーク幅とピーク値の振幅を調整できる。例えば、β/αが大きくなるようにα、βを設定すれば、ピークの幅が広がるとともにピークの振幅の減衰が大きくなるようにすることができる。ただし、α>0,β≧0,0<β/α≦0.5,α+2β≦1とする。しかし、制御が煩雑となるのでここでは経験的に得られた値に固定している(β/α=0.1g/0.8g=0.125)。
【0056】
ピッチ周期を20サンプル(8kHzサンプリング)、g=0.60,0.42,0.24とした場合の3タップAR型ピッチフィルタ303の周波数特性を図4に示す。図4から明らかなように、高域へ行くほどハーモニクスのピーク幅が広がり、ハーモニクスの山と谷の振幅差が小さくなる。また、ピッチゲイン係数gを大きくするに従い、正比例的に周波数特性が振幅方向に拡大される(ハーモニクスの谷がより深くなり、低域におけるハーモニクスの山と谷の振幅差と高域におけるハーモニクスの山と谷の振幅差との差が大きくなる)。ハーモニクスの山と谷の差がピッチ周期性の強調度合いに対応するので、ピッチゲイン係数gが大きいほど強いピッチ強調がなされる。一方、ピッチゲイン係数gは、信号のピッチ周期性を表すパラメータであり、一般的に長期ポストフィルタで行われるピッチ強調の強さを制御するために使用される。そこで本発明においてもピッチゲインgLを用いて3タップのピッチフィルタを制御している。
【0057】
次に、1次MA型スペクトル傾斜補正フィルタ304が、ピッチフィルタ処理された復号音声信号に対して、係数算出部322で決定されたフィルタ係数σ,εを用いてスペクトル傾斜補正(スペクトル包絡特性を平坦化する補正)を行い、長期ポストフィルタ202の出力信号を生成する。
【0058】
この1次MA型スペクトル傾斜補正フィルタ304の伝達関数Ht(z)は以下の式(7)により表される。これは、最もシンプルで一般的なスペクトル傾斜補正フィルタである。
【0059】
【数5】
Figure 2004302257
【0060】
ところで、式(6)の周波数特性を有するピッチフィルタのハーモニクスのピークの減衰は、式(7)のようなシンプルな形では表現できないので、式(6)のピッチフィルタのスペクトル包絡特性(ハーモニクスのピークの高さ)を、前記スペクトル傾斜補正フィルタによって完全に平坦化することはできない。しかしながら、式(7)のフィルタ係数σをピッチゲイン係数gの2次式 を用いて制御することにより(式(5)参照)、ピッチゲイン係数gが取り得る値の範囲内(0.24〜0.6または0)においてはほぼスペクトル包絡特性を平坦化することが可能となる。前記スペクトル傾斜補正フィルタのスペクトル特性は、フィルタ係数σに比例して傾斜が変化するのではないため、1次式では制御できない。上記2次式は、所定のピッチゲイン係数の範囲内で所望のスペクトル傾斜特性が得られるように二次関数の係数をヒューリスティックに調整した結果得られたものである。このように、簡単なフィルタを簡単な制御関数で制御することにより、所望のスペクトル傾斜補正特性を実現することができる。
【0061】
以上が、本発明の特徴部分である長期ポストフィルタ202の構成及び処理の説明である。
【0062】
本発明の長期ポストフィルタ及び従来の長期ポストフィルタの周波数特性(FFTスペクトル特性)の一例を図5に示す。従来の長期ポストフィルタの特性は、式(1)のλ=0、γ=0.4×gLとしたものであり、図はピッチゲインgL=1.0の場合を示している。ピッチ周期は20サンプル(8kHzサンプリング)で、本発明の長期ポストフィルタのピッチゲイン係数g=0.6×gL=0.6である。高域の部分で従来の長期ポストフィルタと同程度のピッチ強調が行われ、低域では従来の長期ポストフィルタよりきついピッチ強調が行われるようにピッチフィルタの係数制御を行うようにしている。なお、図5において、横軸は周波数(Hz)、縦軸は振幅(dB)である。また、本発明の長期ポストフィルタの周波数特性を波線で示し、従来の長期ポストフィルタの周波数特性を実線で示した。
【0063】
図5から明らかなように、本発明の長期ポストフィルタの周波数特性は、スペクトル包絡特性が全周波数帯においてほぼ一定であり、周波数が低くなるほどハーモニクスの谷が深く(ピークと谷との差が大きく)、ハーモニクスのピークが鋭くなり(ピーク幅が狭くなり)、一方、周波数が高い帯域では従来の長期ポストフィルタの特性に近いものとなる。このような周波数特性により、ハーモニクス構造が顕著な低域ほど強いピッチ強調がかかる一方で、ハーモニクス構造がはっきりし難い高域では弱めのピッチ強調に抑えることが可能となる。
【0064】
次に、長期ポストフィルタ202の動作について、図6のフロー図を参照して説明する。
【0065】
図6に示すように、長期ポストフィルタ202の動作は大きく3つのステップに分けることができる。3つのステップとは、利得係数決定ステップ(ST600)、ピッチフィルタリングステップ(ST610)、傾斜補正フィルタリグステップ(ST620)である。
【0066】
利得係数決定ステップ(ST600)は、ピッチ探索ステップ(ST601)およびピッチゲイン算出ステップ(ST602)を含む。ピッチフィルタリングステップ(ST610)は、ピッチフィルタ係数算出ステップ(ST611)およびピッチフィルタ処理ステップ(ST612)を含む。傾斜補正フィルタリングステップ(ST620)は、傾斜フィルタ係数算出ステップ(ST621)および傾斜補正フィルタ処理ステップ(ST622)を含む。
【0067】
まず、利得係数決定ステップ(ST600)において、各種フィルタ係数を制御するピッチゲイン係数gが算出される。より具体的には、ピッチ探索ステップ(ST601)において、式(2)のR(t)を最大化するサンプルタイミングtをピッチ周期pとして決定する。次に、ピッチゲイン算出ステップ(ST602)において、式(3)によってピッチゲインgLを算出し、さらに式(4)によってピッチゲインgLに重みをかけてピッチゲイン係数gを算出する。
【0068】
次に、ピッチフィルタリングステップ(ST610)においてピッチフィルタ処理を行う。具体的には、まず、ピッチフィルタ係数算出ステップ(ST611)において、ピッチゲイン係数gから式(5)を用いてピッチフィルタ係数G’,α,βを算出する。次に、ピッチフィルタ処理ステップ(ST612)において、ピッチフィルタ係数G’,α,βを用いて式(6)に示される特性のピッチフィルタ処理を行う。
【0069】
次に、傾斜補正フィルタリングステップ(ST620)においてスペクトル傾斜補正フィルタ処理を行う。具体的には、まず、傾斜フィルタ係数算出ステップ(ST621)において、ピッチゲイン係数gから式(5)を用いて傾斜補正フィルタ係数(強調係数)σ,εを算出する。次に、傾斜補正フィルタ処理ステップ(ST622)において、傾斜補正フィルタ係数σ,εを用いて式(7)に示される特性のスペクトル傾斜補正フィルタ処理を行う。
【0070】
【発明の効果】
以上説明したように、本発明によれば、ピッチ周期の前後で対象なフィルタ係数から構成されるマルチタップピッチフィルタと、このピッチフィルタのスペクトル包絡特性を平坦化する傾斜補正フィルタとによりピッチポストフィルタを構成することにより、周波数が低い帯域ほどハーモニクス構造が強く、周波数が高い帯域ではハーモニクス構造が弱くなる特性を有するピッチポストフィルタを提供することができる。そして、このピッチポストフィルタを音声復号化装置に搭載することにより低周波帯域のピッチハーモニクスの谷に存在する量子化雑音を聞こえ難くし、高周波帯域のピッチハーモニクスを強調しすぎることなく自然なピッチハーモニクスの強調を行うことができ、復号音声信号の主観品質の改善を図ることができる。なお、この音声復号化装置は、音声信号受信装置、通信端末装置、基地局装置等に搭載される。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る音声信号伝送システムの構成を示すブロック図
【図2】上記実施の形態に係る音声復号化装置の内部構成を示すブロック図
【図3】上記実施の形態に係る長期ポストフィルタの内部構成を示すブロック図
【図4】本発明の長期ポストフィルタに含まれる3タップAR型ピッチフィルタの周波数特性を示す図
【図5】本発明の長期ポストフィルタ及び従来の長期ポストフィルタの周波数特性を示す図
【図6】上記実施の形態に係る長期ポストフィルタの動作を示すフロー図
【図7】従来のポストフィルタの構成の一例を示す図
【符号の説明】
155 音声復号化装置
201 音声復号部
202 長期ポストフィルタ
203 短期ポストフィルタ
301 ピッチ探索部
302 フィルタ係数制御部
303 3タップAR型ピッチフィルタ
304 1次MA型スペクトル傾斜補正フィルタ
321 ゲイン算出部
322 係数算出部
331、334、336、338、342、344 増幅器
332、343 加算器
333、335、337、341 遅延素子[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a long-term post-filter (pitch post-filter) for improving the subjective quality of a decoded audio signal.
[0002]
[Prior art]
In a high-efficiency speech coding system represented by CELP (Code Excited Linear Prediction), human auditory characteristics are set so that coding distortion (quantization noise) present in a valley of pitch harmonics in a low frequency band is hardly heard. It is common practice to perform post-processing (post-filtering) on the decoded audio signal using.
[0003]
FIG. 7 is a diagram illustrating an example of a configuration of a conventional post filter. As shown in FIG. 7, a conventional post filter 10 mainly includes a long-term post filter (also called a pitch post filter) 11 and a short-term post filter (also called a formant post filter) 12 (for example, Patent Document 1). , Non-Patent Document 1).
[0004]
The long-term post filter 11 emphasizes the pitch harmonics of the input decoded audio signal. This conventional long-term post filter 11 is a simple comb filter, and the pitch harmonic structure is uniform over the entire frequency. For example, the transfer function H (z) of the pitch post filter disclosed in Non-Patent Document 1 is represented by the following equation (1). In Equation (1), p is a pitch period, and G, γ, and λ are filter coefficients, respectively.
[0005]
(Equation 1)
Figure 2004302257
[0006]
The short-term post-filter 12 emphasizes the formant structure of the decoded audio signal output from the long-term post-filter 11. The output of the short-term post filter 12 becomes the output audio signal of the decoder. The gain of the output of the short-term post-filter 12 is controlled so as to have the same power as the input signal (decoded audio signal) of the post-filter 10.
[0007]
Here, the harmonic structure of the audio signal is not necessarily uniform in all frequency bands. Generally, the lower the frequency, the deeper the valley of the pitch harmonics, and the higher the frequency, the more easily the pitch harmonic structure tends to collapse.
[0008]
[Patent Document 1]
EP-A-0 503 684 A2
[Non-patent document 1]
JH. Chen and Allen Gersho, "Adaptive Postfiltering for Quality Enhancement of Coded Speech", IEEE TRANSONS ON SPECH AND AUDIO PROVIDE. 3, NO. 1, January 1995, pp. 59-71.
[0009]
[Problems to be solved by the invention]
However, as described above, in the conventional long-term post-filter, the pitch harmonic structure is uniform over the entire frequency and does not match the harmonic structure of the audio signal. There is a problem that the harmonics structure is emphasized too much, and the decoded speech becomes unnaturally auditory.
[0010]
The present invention has been made in view of such a point, and has a characteristic that the harmonic structure is stronger in a lower frequency band and the harmonic structure is weaker in a higher frequency band in accordance with the characteristics of the audio signal. It is an object of the present invention to provide a long-term post-filter capable of improving the subjective quality of the post-filter.
[0011]
[Means for Solving the Problems]
The long-term post filter according to the present invention includes a multi-tap pitch filter composed of target filter coefficients before and after a pitch cycle, a slope correction filter for correcting a spectral tilt of the multi-tap pitch filter, and a filter coefficient of these filters. And a coefficient control means for controlling.
[0012]
The coefficient control means in the long-term post filter of the present invention calculates a pitch gain coefficient based on a pitch period, and controls a filter coefficient of the multi-tap pitch filter and a filter coefficient of the tilt correction filter based on the pitch gain coefficient. Configuration.
[0013]
With these configurations, it is possible to provide a pitch post filter having a characteristic that the harmonic structure becomes stronger in a lower frequency band and the harmonic structure becomes weaker in a higher frequency band, and a quantum post present in a pitch harmonic valley in a low frequency band. Thus, it is possible to make natural noise difficult to hear and to emphasize natural pitch harmonics without excessively enhancing pitch harmonics in a high frequency band.
[0014]
In the long-term post filter according to the present invention, the tilt correction filter is a primary MA filter, and the coefficient control means calculates a filter coefficient of the primary MA filter by a quadratic expression of the pitch gain coefficient. .
[0015]
With this configuration, it is possible to substantially flatten the spectral envelope characteristic within a range of values that the pitch gain coefficient can take with a simple filter configuration and simple function control.
[0016]
The speech decoding apparatus of the present invention has a configuration including any one of the long-term post filters described above as post-processing. The audio signal receiving device of the present invention has a configuration including the audio decoding device. Further, the communication terminal device of the present invention has a configuration including the audio decoding device. Further, the base station apparatus of the present invention has a configuration including the speech decoding apparatus.
[0017]
With these configurations, the quantization noise present in the valleys of the pitch harmonics in the low-frequency band is hardly heard, and natural pitch harmonics can be emphasized without excessively enhancing the pitch harmonics in the high-frequency band. Can improve the subjective quality.
[0018]
BEST MODE FOR CARRYING OUT THE INVENTION
The gist of the present invention is that the long-term post filter is configured by a multi-tap pitch filter composed of target filter coefficients before and after the pitch cycle, and a tilt correction filter that flattens the spectral envelope characteristic of the pitch filter. Another object of the present invention is to make the quantization noise present in the valley of the pitch harmonics in the low frequency band difficult to hear, and to emphasize the natural pitch harmonics without excessively enhancing the pitch harmonics in the high frequency band.
[0019]
Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
[0020]
(Embodiment)
FIG. 1 is a block diagram showing a configuration of an audio signal transmission system according to one embodiment of the present invention. The audio signal transmission system includes an audio signal transmitting device 100 and an audio signal receiving device 150.
[0021]
The audio signal transmission device 100 mainly includes an input device 101, an A / D conversion device 102, an audio encoding device 103, a signal processing device 104, an RF modulation device 105, a transmission device 106, and an antenna 107.
[0022]
The input device 101 converts the received audio signal into an analog audio signal, which is an electric signal, and outputs the analog audio signal to the A / D converter 102. The A / D converter 102 converts an analog audio signal output from the input device 101 into a digital audio signal, and outputs this to the audio encoding device 103. The audio encoding device 103 encodes the digital audio signal output from the A / D conversion device 102 to generate an audio encoded bit sequence, and outputs it to the signal processing device 104. The signal processing device 104 performs channel coding processing, packetization processing, transmission buffer processing, and the like on the audio coded bit sequence output from the audio encoding device 103, and then outputs the audio coded bit sequence to the RF modulation device 105. I do. The RF modulation device 105 modulates the signal of the speech coded bit string output from the signal processing device 104 and outputs the modulated signal to the transmission device 106. The transmitting device 106 transmits the encoded voice signal output from the RF modulation device 105 as a radio wave (RF signal) via the antenna 107.
[0023]
In the audio signal transmitting apparatus 100, the digital audio signal obtained via the A / D converter 102 is processed in units of several tens of ms. When the network constituting the system is a packet network, one frame or several frames of coded data are put into one packet, and this packet is transmitted to the packet network. If the network is a circuit-switched network, packetization processing and transmission buffer processing are unnecessary.
[0024]
The audio signal receiving device 150 includes an antenna 151, a receiving device 152, an RF demodulation device 153, a signal processing device 154, an audio decoding device 155, a D / A conversion device 156, and an output device 157.
[0025]
Receiving apparatus 152 receives a radio wave (RF signal) containing audio encoded information via antenna 151, generates a received audio encoded signal that is an analog electric signal, and outputs this to RF demodulation apparatus 153. . The radio wave (RF signal) received via the antenna 151 is exactly the same as the radio wave (RF signal) transmitted from the audio signal transmitting apparatus 100 unless the signal is attenuated or noise is not superimposed on the transmission path.
[0026]
The RF demodulation device 153 demodulates the received voice coded signal output from the reception device 152, and outputs this to the signal processing device 154. The signal processing device 154 performs a jitter absorption buffering process, a packet assembling process, a channel decoding process, and the like of the received voice encoded signal from the RF demodulation device 153, and outputs the received voice encoded bit sequence to the voice decoding device 155. Output. The audio decoding device 155 performs a decoding process on the received encoded audio bit sequence output from the signal processing device 154, generates a decoded audio signal, and outputs the decoded audio signal to the D / A conversion device 156. The D / A converter 156 converts the digital decoded audio signal output from the audio decoder 155 into an analog decoded audio signal, and outputs this to the output device 157. The output device 157 converts the analog decoded audio signal output from the D / A conversion device 156 into air vibration and outputs it as a sound wave so that it can be heard by human ears.
[0027]
The feature of the present invention for improving the subjective quality of the decoded audio signal is provided in the audio decoding device 155 mounted on the audio signal receiving device 150.
[0028]
Hereinafter, the internal configuration of the audio decoding device 155 will be described in detail with reference to the block diagram of FIG.
[0029]
As shown in FIG. 2, the audio decoding device 155 mainly includes an audio decoding unit 201, a long-term post-filter 202, and a short-term post-filter 203. Two input terminals of the long-term post filter 202 are connected to two of three output terminals of the audio decoding unit 201, respectively. One of the two input terminals of the short-term post-filter 203 is connected to the output terminal of the long-term post-filter, and the other is connected to one of the three output terminals of the audio decoding unit.
[0030]
The audio decoding unit 201 decodes the audio signal from the input audio encoded bit sequence, outputs the decoded audio signal and the decoding pitch information to the long-term post-filter 202, and outputs the decoded linear prediction coefficient to the short-term post-filter 203. In the present embodiment, a coding model of a speech signal is not specified, but the coding model uses short-term prediction (linear prediction) and long-term prediction (pitch prediction), and a typical example is CELP. Encoding. Since the audio decoding unit 201 performs the audio signal decoding processing based on such an encoding model, the long-term prediction parameter (pitch parameter) and the short-term prediction parameter (linear prediction coefficient) are decoded in a series of processing.
[0031]
The long-term post filter 202 is a filter that emphasizes the pitch harmonics of the decoded audio signal, and includes a comb filter based on the pitch period of the decoded audio signal. The pitch period of the decoded speech signal is obtained by re-searching the vicinity of the decoded pitch period. Note that the pitch search may be performed without using the decoding pitch information. In this case, however, the decoding pitch does not need to be input from the speech decoding unit 201, and the amount of calculation for the search is large. A feature of the present invention resides in the long-term post filter 202, a detailed description of which will be given later.
[0032]
The short-term post-filter 203 is a filter that emphasizes the formant structure of the decoded speech signal, and is a pole-zero filter configured using a filter coefficient obtained by weighting the decoded linear prediction coefficient. Instead of using the decoded linear prediction coefficient, a linear prediction coefficient obtained by re-analyzing the decoded speech signal may be used, but in this case, the amount of calculation and delay for the re-analysis need to be increased.
[0033]
In the present invention, the processing order of the long-term post-filter 202 and the short-term post-filter 203 is not unique. For example, (1) zero part of the short-term post-filter (LPC inverse filter), (2) pitch post-filter, (3) Processing may be performed in an order such as a pole portion of a short-term post filter (LPC synthesis filter).
[0034]
Next, the configuration of the long-term post filter 202, which is a feature of the present invention, will be described in more detail with reference to the block diagram of FIG.
[0035]
As shown in FIG. 3, the long-term post filter 202 includes a pitch search unit 301, a filter coefficient control unit 302, a 3-tap AR pitch filter 303 as an example of a multi-tap pitch filter, and a primary MA as an example of an inclination correction filter. And a spectral tilt correction filter 304.
[0036]
The pitch search section 301 receives the decoded pitch information and the decoded speech signal output from the speech decoding section 201 in FIG. 2, and determines the pitch period (or pitch lag) p of the decoded speech signal using the inputted decoded pitch information. Are output to the filter coefficient control unit 302 and the 3-tap AR pitch filter 303. As described above, the pitch search unit 301 can also determine the pitch period (or pitch lag) p of the decoded speech signal without using the decoded pitch information.
[0037]
The filter coefficient control section 302 mainly includes a gain calculation section 321 and a coefficient calculation section 322. The gain calculator 321 calculates a pitch gain coefficient (gain coefficient) g using the pitch period p, and outputs this to the coefficient calculator 322. The coefficient calculation unit 322 calculates predetermined filter coefficients G ′, α, β, σ, and ε using the pitch gain coefficient g, and outputs the filter coefficients G ′, α, and β to the 3-tap AR pitch filter 303. , And the filter coefficients σ and ε are output to the primary MA type spectrum tilt correction filter 304.
[0038]
The 3-tap AR pitch filter 303 is a filter that emphasizes the pitch harmonics of the decoded audio signal, and includes an amplifier 331, an adder 332, a delay element 333, an amplifier 334, a delay element 335, an amplifier 336, a delay element 337, and an amplifier 338. Mainly composed of
[0039]
Amplifier 331 amplifies the decoded audio signal output from audio decoding section 201 in FIG. 2 using filter coefficient G ′. The adder 332 adds the outputs of the amplifiers 331, 334, 336, and 338. The delay element 333 delays the output of the adder 332 using the pitch period p as a delay parameter. Amplifier 334 amplifies the output of delay element 333 using filter coefficient β. Delay element 335 delays the output of delay element 333 by one sample time. Amplifier 336 amplifies the output of delay element 335 using filter coefficient α. Delay element 337 delays the output of delay element 335 by one sample time. Amplifier 338 amplifies the output of delay element 337 using filter coefficient β.
[0040]
The first-order MA type spectral tilt correction filter 304 is a filter that performs correction for flattening the spectral envelope characteristic of the decoded audio signal pitch-filtered by the 3-tap AR type pitch filter 303, and includes a delay element 341 and an amplifier 342. , An adder 343 and an amplifier 344.
[0041]
The delay element 341 delays the output of the adder 332 by one sample time. Amplifier 342 amplifies the output of delay element 341 using filter coefficient σ. The adder 343 subtracts the output of the amplifier 342 from the output of the adder 332. The amplifier 344 amplifies the output of the adder 343 using the filter coefficient ε.
[0042]
Hereinafter, the processing of the long-term post filter 202 having the above configuration will be specifically described using mathematical expressions.
[0043]
First, using the decoded pitch information, the pitch search unit 301 determines a sample timing t that maximizes the normalized autocorrelation function R (t) in Expression (2) as a pitch period p (unit: sample). In the equation (2), N is a (sub) frame length which is a unit for performing the pitch post-filter processing, and s (n) is an input signal of the pitch post-filter.
(Equation 2)
Figure 2004302257
[0044]
Note that the pitch period p may have fractional precision, and in that case, an interpolation process using a Sinc function is used as generally performed. Further, the pitch period p can be obtained by maximizing the normalized autocorrelation function, but is not limited to this method.
[0045]
Next, the gain calculation unit 321 calculates the pitch gain gL by the equation (3), and calculates the weighted pitch gain coefficient g by the equation (4).
[0046]
[Equation 3]
Figure 2004302257
[0047]
g = 0.6 gL, 0.4 ≦ gL ≦ 1.0 or gL = 0 (4)
[0048]
Next, the coefficient calculation unit 322 calculates the filter coefficients G ′, α, β, σ, and ε according to the equation (5) using the pitch gain coefficient g.
[0049]
G '= 1-g
α = 0.8g
β = 0.1g
σ = 0.40 g 2 + 0.13g
ε = 1 / (1−σ) (5)
Next, the 3-tap AR pitch filter 303 performs a filtering process on the decoded speech signal using the pitch period p and the filter coefficients G ′, α, and β determined by the pitch search unit 301 and the coefficient calculation unit 322. Do.
[0050]
The transfer function Hp (z) of the three-tap AR type pitch filter 303 is represented by the following equation (6), and uses a symmetric weight coefficient for one sample before and after the pitch period p.
[0051]
(Equation 4)
Figure 2004302257
[0052]
Since the weight to the filter coefficient α corresponding to the pitch period is increased and the weight to the filter coefficient β corresponding to one sample before and after is small and symmetrical, the pitch obtained by pitch prediction of one tap (general pitch search) The period can be directly used as a pitch lag of a 3-tap pitch filter.
[0053]
The frequency characteristic of the filter of the equation (6) is such that the position (frequency) of the peak of harmonics is the same as that of the conventional filter, and the higher the frequency, the lower the peak height (amplitude) and the wider the peak width.
[0054]
Here, such frequency characteristics are expressed by superimposing a plurality of comb functions having different periods. However, since it is not realistic to superimpose a large number of comb filters having different periods because of a large amount of calculation, the present invention superposes pitch filters limited to several types of pitch periods near the searched pitch period. In the simplest example, a comb filter having a total of three types of pitches, that is, a searched pitch cycle and pitch cycles of one sample before and after the searched pitch cycle, is superimposed. It is most realistic to use a three-tap pitch filter using three types of pitches. The filter coefficient at this time has a value that is symmetrical about the pitch period, and is represented by the above equation (6).
[0055]
In equation (6), by adjusting β / α to an appropriate value, the peak width of the harmonics and the amplitude of the peak value can be adjusted. For example, if α and β are set so that β / α increases, the width of the peak can be increased and the attenuation of the peak amplitude can be increased. Here, α> 0, β ≧ 0, 0 <β / α ≦ 0.5, and α + 2β ≦ 1. However, since the control becomes complicated, the value is fixed here to an empirically obtained value (β / α = 0.1 g / 0.8 g = 0.125).
[0056]
FIG. 4 shows the frequency characteristics of the 3-tap AR pitch filter 303 when the pitch cycle is 20 samples (8 kHz sampling) and g = 0.60, 0.42, 0.24. As is clear from FIG. 4, the peak width of the harmonics increases as the frequency increases, and the amplitude difference between the peaks and valleys of the harmonics decreases. Further, as the pitch gain coefficient g is increased, the frequency characteristic is expanded in the amplitude direction in direct proportion (the valley of the harmonics becomes deeper, the amplitude difference between the peaks of the harmonics in the low frequency range and the peak of the harmonics in the high frequency range). And the valley amplitude difference increases). Since the difference between the peaks and valleys of the harmonics corresponds to the degree of enhancement of the pitch periodicity, the greater the pitch gain coefficient g, the stronger the pitch enhancement. On the other hand, the pitch gain coefficient g is a parameter representing the pitch periodicity of the signal, and is generally used to control the strength of pitch enhancement performed by a long-term post filter. Therefore, in the present invention, the pitch filter of three taps is controlled using the pitch gain gL.
[0057]
Next, the first-order MA type spectrum tilt correction filter 304 uses the filter coefficients σ and ε determined by the coefficient calculation unit 322 to perform spectrum tilt correction on the decoded speech signal that has been subjected to the pitch filter processing. Is performed to generate an output signal of the long-term post-filter 202.
[0058]
The transfer function Ht (z) of the first-order MA-type spectral tilt correction filter 304 is represented by the following equation (7). This is the simplest and most common spectral tilt correction filter.
[0059]
(Equation 5)
Figure 2004302257
[0060]
By the way, the attenuation of the harmonics peak of the pitch filter having the frequency characteristic of the equation (6) cannot be expressed in a simple form as in the equation (7). Therefore, the spectral envelope characteristic of the pitch filter of the equation (6) (harmonics Peak height) cannot be completely flattened by the spectral tilt correction filter. However, by controlling the filter coefficient σ of the equation (7) using the quadratic equation of the pitch gain coefficient g (see the equation (5)), the pitch gain coefficient g falls within a range of possible values (0.24 to 0.24). In the case of 0.6 or 0), the spectrum envelope characteristic can be almost flattened. The spectral characteristics of the spectral tilt correction filter cannot be controlled by a linear expression because the tilt does not change in proportion to the filter coefficient σ. The above quadratic equation is obtained as a result of heuristically adjusting the coefficient of the quadratic function so as to obtain a desired spectral tilt characteristic within a predetermined pitch gain coefficient range. Thus, by controlling a simple filter with a simple control function, a desired spectral tilt correction characteristic can be realized.
[0061]
The above is the description of the configuration and processing of the long-term post filter 202, which is a feature of the present invention.
[0062]
FIG. 5 shows an example of the frequency characteristics (FFT spectrum characteristics) of the long-term post-filter of the present invention and the conventional long-term post-filter. The characteristics of the conventional long-term post-filter are those where λ = 0 and γ = 0.4 × gL in equation (1), and the figure shows a case where the pitch gain gL = 1.0. The pitch period is 20 samples (8 kHz sampling), and the pitch gain coefficient g of the long-term post filter of the present invention is g = 0.6 × gL = 0.6. The pitch control of the pitch filter is performed so that the pitch enhancement is performed in the high band at the same level as that of the conventional long-term post filter, and in the low band, the pitch enhancement is performed more tightly than the conventional long-term post filter. In FIG. 5, the horizontal axis represents frequency (Hz) and the vertical axis represents amplitude (dB). Further, the frequency characteristics of the long-term post-filter of the present invention are indicated by dashed lines, and the frequency characteristics of the conventional long-term post-filter are indicated by solid lines.
[0063]
As is clear from FIG. 5, the frequency characteristics of the long-term post-filter of the present invention are such that the spectral envelope characteristics are almost constant in all frequency bands, and the lower the frequency, the deeper the valley of the harmonics (the difference between the peak and the valley becomes larger). ), The peak of the harmonics becomes sharper (the peak width becomes narrower), and on the other hand, in a high frequency band, the characteristics are close to those of the conventional long-term post-filter. Due to such frequency characteristics, the lower frequency range in which the harmonic structure is conspicuous, the stronger pitch enhancement is applied, while the higher frequency range in which the harmonic structure is hard to be clear, the weaker pitch enhancement can be suppressed.
[0064]
Next, the operation of the long-term post filter 202 will be described with reference to the flowchart of FIG.
[0065]
As shown in FIG. 6, the operation of the long-term post filter 202 can be roughly divided into three steps. The three steps are a gain coefficient determination step (ST600), a pitch filtering step (ST610), and a tilt correction filter rig step (ST620).
[0066]
The gain coefficient determination step (ST600) includes a pitch search step (ST601) and a pitch gain calculation step (ST602). The pitch filtering step (ST610) includes a pitch filter coefficient calculation step (ST611) and a pitch filter processing step (ST612). The tilt correction filtering step (ST620) includes a tilt filter coefficient calculation step (ST621) and a tilt correction filter processing step (ST622).
[0067]
First, in a gain coefficient determining step (ST600), a pitch gain coefficient g for controlling various filter coefficients is calculated. More specifically, in the pitch search step (ST601), a sample timing t that maximizes R (t) in Expression (2) is determined as a pitch period p. Next, in a pitch gain calculation step (ST602), a pitch gain gL is calculated by equation (3), and a pitch gain coefficient g is calculated by weighting the pitch gain gL by equation (4).
[0068]
Next, pitch filtering is performed in a pitch filtering step (ST610). Specifically, first, in a pitch filter coefficient calculation step (ST611), pitch filter coefficients G ′, α, and β are calculated from the pitch gain coefficient g using Expression (5). Next, in a pitch filter processing step (ST612), pitch filter processing of the characteristic shown in Expression (6) is performed using the pitch filter coefficients G ′, α, and β.
[0069]
Next, in a tilt correction filtering step (ST620), a spectral tilt correction filter process is performed. Specifically, first, in a gradient filter coefficient calculation step (ST621), the gradient correction filter coefficients (emphasis coefficients) σ and ε are calculated from the pitch gain coefficient g using Expression (5). Next, in a tilt correction filter processing step (ST622), spectral tilt correction filter processing of the characteristic shown in equation (7) is performed using the tilt correction filter coefficients σ and ε.
[0070]
【The invention's effect】
As described above, according to the present invention, a pitch post filter including a multi-tap pitch filter composed of target filter coefficients before and after a pitch period, and a tilt correction filter for flattening a spectral envelope characteristic of the pitch filter. With this configuration, it is possible to provide a pitch post filter having such a characteristic that the harmonic structure is stronger in a lower frequency band and the harmonic structure is weaker in a higher frequency band. By installing this pitch post filter in the speech decoding device, quantization noise existing in the valleys of pitch harmonics in the low frequency band is hardly heard, and natural pitch harmonics without excessively emphasizing the pitch harmonics in the high frequency band. Can be enhanced, and the subjective quality of the decoded audio signal can be improved. This speech decoding device is mounted on a speech signal receiving device, a communication terminal device, a base station device, and the like.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an audio signal transmission system according to an embodiment of the present invention.
FIG. 2 is a block diagram showing an internal configuration of the speech decoding apparatus according to the embodiment.
FIG. 3 is a block diagram showing an internal configuration of a long-term post filter according to the embodiment.
FIG. 4 is a diagram showing frequency characteristics of a 3-tap AR pitch filter included in the long-term post filter of the present invention.
FIG. 5 is a diagram showing frequency characteristics of a long-term post-filter of the present invention and a conventional long-term post-filter.
FIG. 6 is a flowchart showing the operation of the long-term post filter according to the embodiment.
FIG. 7 is a diagram showing an example of a configuration of a conventional post filter.
[Explanation of symbols]
155 audio decoder
201 audio decoding unit
202 Long-term post-filter
203 Short-term post-filter
301 Pitch search unit
302 Filter coefficient control unit
303 3-tap AR type pitch filter
304 1st-order MA type spectrum tilt correction filter
321 gain calculator
322 coefficient calculation unit
331, 334, 336, 338, 342, 344 Amplifier
332, 343 Adder
333, 335, 337, 341 Delay element

Claims (7)

ピッチ周期の前後で対象なフィルタ係数から構成されるマルチタップピッチフィルタと、前記マルチタップピッチフィルタのスペクトル傾斜を補正する傾斜補正フィルタと、これらのフィルタのフィルタ係数を制御する係数制御手段と、を具備することを特徴とする長期ポストフィルタ。A multi-tap pitch filter composed of target filter coefficients before and after a pitch cycle, a slope correction filter for correcting a spectral tilt of the multi-tap pitch filter, and coefficient control means for controlling filter coefficients of these filters. A long-term post-filter comprising: 前記係数制御手段は、ピッチ周期に基づいてピッチゲイン係数を算出し、このピッチゲイン係数に基づいて前記マルチタップピッチフィルタのフィルタ係数及び前記傾斜補正フィルタのフィルタ係数を制御することを特徴とする請求項1記載の長期ポストフィルタ。The coefficient control means calculates a pitch gain coefficient based on a pitch period, and controls a filter coefficient of the multi-tap pitch filter and a filter coefficient of the tilt correction filter based on the pitch gain coefficient. Item 2. A long-term post-filter according to Item 1. 前記傾斜補正フィルタは1次のMAフィルタであり、前記係数制御手段は、前記1次のMAフィルタのフィルタ係数を前記ピッチゲイン係数の2次式により算出することを特徴とする請求項2記載の長期ポストフィルタ。3. The apparatus according to claim 2, wherein the inclination correction filter is a primary MA filter, and the coefficient control unit calculates a filter coefficient of the primary MA filter by a quadratic expression of the pitch gain coefficient. Long-term post filter. 請求項1から請求項3のいずれかに記載の長期ポストフィルタを後処理として備えることを特徴とする音声復号化装置。A speech decoding device comprising the long-term post-filter according to any one of claims 1 to 3 as post-processing. 請求項4記載の音声復号化装置を具備する音声信号受信装置。An audio signal receiving device comprising the audio decoding device according to claim 4. 請求項4記載の音声復号化装置を具備する通信端末装置。A communication terminal device comprising the speech decoding device according to claim 4. 請求項4記載の音声復号化装置を具備する基地局装置。A base station device comprising the speech decoding device according to claim 4.
JP2003096638A 2003-03-31 2003-03-31 Long-period post-filter Pending JP2004302257A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003096638A JP2004302257A (en) 2003-03-31 2003-03-31 Long-period post-filter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003096638A JP2004302257A (en) 2003-03-31 2003-03-31 Long-period post-filter

Publications (1)

Publication Number Publication Date
JP2004302257A true JP2004302257A (en) 2004-10-28

Family

ID=33408634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003096638A Pending JP2004302257A (en) 2003-03-31 2003-03-31 Long-period post-filter

Country Status (1)

Country Link
JP (1) JP2004302257A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007126015A1 (en) * 2006-04-27 2007-11-08 Panasonic Corporation Audio encoding device, audio decoding device, and their method
JP4954069B2 (en) * 2005-06-17 2012-06-13 パナソニック株式会社 Post filter, decoding device, and post filter processing method
CN102893330A (en) * 2010-05-11 2013-01-23 瑞典爱立信有限公司 Method and arrangement for processing of audio signals
JP2017522604A (en) * 2014-07-28 2017-08-10 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Apparatus and method for processing audio signals using harmonic postfilters
JP2020052414A (en) * 2014-07-28 2020-04-02 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Harmonic dependent control of harmonic filter tool
CN114582365A (en) * 2022-05-05 2022-06-03 阿里巴巴(中国)有限公司 Audio processing method and device, storage medium and electronic equipment
CN115188388A (en) * 2022-07-11 2022-10-14 北京百瑞互联技术有限公司 Audio post-filtering method and device, storage medium and equipment
US20220415341A1 (en) * 2018-05-10 2022-12-29 Nippon Telegraph And Telephone Corporation Pitch emphasis apparatus, method and program for the same

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4954069B2 (en) * 2005-06-17 2012-06-13 パナソニック株式会社 Post filter, decoding device, and post filter processing method
US8315863B2 (en) 2005-06-17 2012-11-20 Panasonic Corporation Post filter, decoder, and post filtering method
WO2007126015A1 (en) * 2006-04-27 2007-11-08 Panasonic Corporation Audio encoding device, audio decoding device, and their method
JP5173800B2 (en) * 2006-04-27 2013-04-03 パナソニック株式会社 Speech coding apparatus, speech decoding apparatus, and methods thereof
CN102893330A (en) * 2010-05-11 2013-01-23 瑞典爱立信有限公司 Method and arrangement for processing of audio signals
CN102893330B (en) * 2010-05-11 2015-04-15 瑞典爱立信有限公司 Method and arrangement for processing of audio signals
CN113450810A (en) * 2014-07-28 2021-09-28 弗劳恩霍夫应用研究促进协会 Harmonic dependent control of harmonic filter tools
JP7160790B2 (en) 2014-07-28 2022-10-25 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Harmonic dependent control of harmonic filter tools
JP2019194716A (en) * 2014-07-28 2019-11-07 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Device and method for processing audio signals using harmonic post filters
JP2020052414A (en) * 2014-07-28 2020-04-02 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Harmonic dependent control of harmonic filter tool
JP2021064009A (en) * 2014-07-28 2021-04-22 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Device and method for processing audio signal using harmonic post filter
US11037580B2 (en) 2014-07-28 2021-06-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio signal using a harmonic post-filter
JP2017522604A (en) * 2014-07-28 2017-08-10 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Apparatus and method for processing audio signals using harmonic postfilters
CN113450810B (en) * 2014-07-28 2024-04-09 弗劳恩霍夫应用研究促进协会 Harmonic dependent control of harmonic filter tools
JP7340553B2 (en) 2014-07-28 2023-09-07 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Apparatus and method for processing audio signals using harmonic postfilters
US10242688B2 (en) 2014-07-28 2019-03-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio signal using a harmonic post-filter
US11694704B2 (en) 2014-07-28 2023-07-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio signal using a harmonic post-filter
US11581003B2 (en) 2014-07-28 2023-02-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Harmonicity-dependent controlling of a harmonic filter tool
US20220415341A1 (en) * 2018-05-10 2022-12-29 Nippon Telegraph And Telephone Corporation Pitch emphasis apparatus, method and program for the same
US11749295B2 (en) * 2018-05-10 2023-09-05 Nippon Telegraph And Telephone Corporation Pitch emphasis apparatus, method and program for the same
US20230386498A1 (en) * 2018-05-10 2023-11-30 Nippon Telegraph And Telephone Corporation Pitch emphasis apparatus, method and program for the same
CN114582365A (en) * 2022-05-05 2022-06-03 阿里巴巴(中国)有限公司 Audio processing method and device, storage medium and electronic equipment
CN115188388A (en) * 2022-07-11 2022-10-14 北京百瑞互联技术有限公司 Audio post-filtering method and device, storage medium and equipment
CN115188388B (en) * 2022-07-11 2024-05-17 北京百瑞互联技术股份有限公司 Audio post-filtering method, device, storage medium and equipment

Similar Documents

Publication Publication Date Title
JP4698593B2 (en) Speech decoding apparatus and speech decoding method
JP4376489B2 (en) Frequency domain post-filtering method, apparatus and recording medium for improving the quality of coded speech
JP3653826B2 (en) Speech decoding method and apparatus
AU714752B2 (en) Speech coder
JP4218134B2 (en) Decoding apparatus and method, and program providing medium
JP3881946B2 (en) Acoustic encoding apparatus and acoustic encoding method
US20050137864A1 (en) Audio enhancement in coded domain
WO2005041170A1 (en) Noise-dependent postfiltering
JP2004101720A (en) Device and method for acoustic encoding
JPH11122120A (en) Coding method and device therefor, and decoding method and device therefor
JPH04233600A (en) Low-delay-code exciting-wire type prediction encoding for speech in 32 kb/s wide band
JPH1097296A (en) Method and device for voice coding, and method and device for voice decoding
JP4734286B2 (en) Speech encoding device
JP2004302257A (en) Long-period post-filter
JP4299676B2 (en) Method for generating fixed excitation vector and fixed excitation codebook
JP2005091749A (en) Device and method for encoding sound source signal
JP2004302259A (en) Hierarchical encoding method and hierarchical decoding method for sound signal
JP4343302B2 (en) Pitch emphasis method and apparatus
JP4638895B2 (en) Decoding method, decoder, decoding device, program, and recording medium
JPH08202399A (en) Post processing method for decoded voice
JP3350340B2 (en) Voice coding method and voice decoding method
JP2001142500A (en) Speech encoding device
KR100421816B1 (en) A voice decoding method and a portable terminal device
JPH09166999A (en) Speech encoding device and method therefor
JPH11119796A (en) Method of detecting speech signal section and device therefor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090428

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090908