JP4309060B2

JP4309060B2 - 背景雑音の再生成を伴う音声符号化

Info

Publication number: JP4309060B2
Application number: JP2000570769A
Authority: JP
Inventors: インゲマールヨハンソン，; ジョナススヴェドベリ，; アンデルスウヴリデン，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 1998-09-16
Filing date: 1999-09-10
Publication date: 2009-08-05
Anticipated expiration: 2019-09-10
Also published as: RU2001110168A; US6275798B1; WO2000016313A1; DE69935233D1; CN1244090C; BR9913754A; DE69942288D1; HK1117629A1; EP1879176A2; EP1879176A3; EP1112568A1; EP1879176B1; MY126550A; CA2340160A1; EP1112568B1; AU6377499A; TW454167B; ZA200101222B; CN1318187A; JP2002525665A

Description

【０００１】
【発明の属する技術分野】
本発明は、広く音声の符号化に関し、より具体的には、音声符号化における背景雑音の再生成（reproduction of background noise）に関する。
【０００２】
【従来の技術及び発明が解決しようとする課題】
符号励振型線形予測（ＣＥＬＰ(Code Excited Linear Prediction)）による音声符号器のような線形予測方式の音声符号器においては、到来する原音声信号をフレームと呼ばれるブロックに分割するのが通例である。典型的なフレームの長さは２０ミリ秒又は１６０サンプルであり、かかるフレーム長は、例えば在来の電話通信帯域幅を使う移動電話等で利用され、一般的に用いられている。それらのフレームは一般にサブフレームへとさらに分割され、分割されたサブフレームは５ミリ秒又は４０サンプルの長さを有するものとされる場合が多い。
【０００３】
上記のような在来型の音声符号器においては、声道（vocal tract）、ピッチ及びその他の特徴を表すパラメータが音声符号化のプロセス中に原音声信号から抽出される。ゆっくり変動するパラメータは、フレーム単位を基準として計算される。そのゆっくり変動するパラメータの例としては、いわゆる短期予測変数（ＳＴＰ(short term predictor)）の声道を表すパラメータが挙げられる。ＳＴＰのパラメータは、線形予測型の音声符号器における合成フィルタのフィルタ係数を定める。より速く変動するパラメータ、例えば、ピッチや新たに導入する波形で新たに導入するゲインのパラメータ（innovation shape and innovation gain parameters）などは、サブフレーム毎に計算されるのが通例である。
【０００４】
各パラメータが計算された後に、それらのパラメータの量子化が行われる。ＳＴＰのパラメータは、線スペクトル周波数（ＬＳＦ(line spectrum frequency)）による表現等の、量子化により適した表現に変換される場合が多い。ＳＴＰパラメータのＬＳＦ表現への変換は、音声符号化の分野ではよく知られている。
【０００５】
各パラメータが量子化されると、誤り制御符号化と検査合計の情報が付加された後にパラメータの情報のインタリーブと変調がなされる。それからパラメータの情報が通信チャネルを通じて受信機へ送信され、その受信機において、音声復号器が上述した音声符号化の手順と基本的に逆の手順を実行し、原音声信号に極めて近い音声信号を合成する。音声復号器では、合成された音声信号に対して一般に後置フィルタが適用され、感知される信号の品質が高められる。
【０００６】
ＣＥＬＰモデルのような線形予測型のモデルを利用する音声符号器は、一般的に音声の符号化に対して極めて綿密に適合したものとなっているので、かかる符号器では背景雑音のような非音声信号（non-speech signals）を合成ないし再生成する能力に乏しい場合が多い。例えば、量子化されたパラメータの情報がチャネル・エラーにより誤って伝達される場合のように、チャネル不良がある状況の下では、背景雑音の再生成がより一層劣化する。チャネルにノイズがない状況下であっても、受信機側の聴取者にとっては、背景雑音が揺動する不安定なノイズとして感知されることが多い。ＣＥＬＰ符号器において、この問題の主な原因となっているのは、対象とする信号と合成される信号との劣悪な相関を組み合わせて合成による分析（analysis-by-synthesis）のループで伝統的に利用されている平均二乗誤差（ＭＳＥ(mean squared error)）による基準である。チャネル不良がある状況下では、背景雑音のレベルが甚だしく揺動することから、その問題は既述のようにさらに悪化する。このことは、背景雑音のレベルが極めてゆっくり変動することになるため、聴取者にとっては非常に不快に感じられる。
【０００７】
チャネルにノイズがない状況とチャネルにノイズがある状況の双方において感知される背景雑音の品質を改良するための一解決策としては、符号化されようとしている信号が音声か非音声かどうかについて急峻な（例えばｙｅｓ又はｎｏの）判断をする有音無音検出器（ＶＡＤｓ(voice activity detectors)）の利用を挙げることができる。その急峻な判断（the hard decision）に基づき、復号器において別々の処理手法を適用することができる。例えば、非音声であるとの判断がされた場合、その後の復号器は、信号を背景雑音とみなすことができると共に、その背景雑音におけるスペクトルの変動を滑らかにする処理を行うことができる。しかしながらこの急峻な判断による手法には、音声処理の動作と非音声処理の動作との間での復号器の切り替えが聴取者に聞こえてしまうという難点がある。
【０００８】
前述の問題に加え、背景雑音の再生成は、低く設定されたビット伝送速度（例えば８ｋｂ／ｓ以下）ではより一層品質が低下する。設定されたビット伝送速度が低くて劣悪なチャネル状況の下では、背景雑音は、復号化された背景雑音のレベルが不自然に変動することによって生じるフラッタ効果（fluttering effect）として聞こえることが多い。
【０００９】
このようなことから、ＣＥＬＰ復号器等のような線形予測型の音声復号器においては、聴取者に背景雑音が上述したように感知される好ましくない事態を回避しつつ、その背景雑音の再生成を実現することが望ましい。
【００１０】
【課題を解決するための手段】
本発明は、改良された背景雑音の再生成を提供する。デコーダは、再構成されていく信号に対し、エネルギー曲線を滑らかにする作用（energy contour smoothing）の適用を徐々に（ないしは緩やかに）増大させたり減少させたりすることができるものとする。これにより、エネルギー曲線を滑らかにする処理動作の実行中／非実行中が感知される不都合を生じることなく、エネルギー曲線を滑らかにすることによって背景雑音の再生成における問題に対処することができる。
欧州特許出願 No.0,843,301 の公報では、断続的な送信モードで動作している移動端末機において快適音（ comfort noise ）を発生させる方法の概要が開示されている。送信側ではランダムな励振制御パラメータを演算し、かつ、それらを受信側で調整することとしている。これによれば、送信側では背景雑音に整合した的確な快適音が発生される。それらのパラメータは、他の快適音のパラメータに加えて、音声が休止している間に演算されるだけである。音声符号化の調子が悪いパラメータについては、もとのパラメータを中間のパラメータで置き換えることとしている。
米国特許第 No.4,630,305 号は、雑音抑圧システムのための自動ゲイン選別器の概要を開示している。その雑音抑圧システムでは、雑音が多い音声信号を受信して雑音を抑圧した音声信号を生成し、音声の品質を高めている。この処理はスペクトルのゲイン調整を利用して行われ、そのゲイン調整では、個々のチャネルのゲインをそれぞれチャネル番号、チャネルの最新ＳＮＲ、背景雑音の総合的な平均等、いくつかのパラメータに従って選別している。
欧州特許出願 No.0,786,760 の公報では、復号器による快適音の発生の概要が説明されており、その復号器は、特定の信号区分の間における入力信号の自己相関値の重み付け平均を利用し、背景雑音の統計的なデータを推定するものとなっている。また、急に発生する音声の間に、快適音を徐々に導入する滑らかな移行形態が紹介されている。
WO 96/34382 の公報では、信号の最新部分が音声か雑音かを判断する方法の概要が開示されている。これは、最新部分を前の部分と比較することによって行われており、信号の最新部分が雑音か音声かどうかがいずれ判断されることになる。
音響、音声及び信号の処理に関するＩＥＥＥ国際大会の１９９８年梗概集 ICASSP ‘ 98,vol.1,12-15 May 1998,pages 365-368,XP002085126,Seattle,WA,US にあるＩＥＥＥ論文“雑音スペクトルの適応に基づく緩やかな判断を利用した有音無音検出器”（“ A voice activity detector employing soft decision based noise spectrum adaptation ”）では、可変速音声符号化に利用する有音無音検出器（ＶＡＤ）の概要が開示されている。雑音の統計的なデータが事前に分かっていることとされるが、雑音スペクトルの適応アルゴリズムに基づく緩やかな判断によって雑音の統計的なデータを推定している。
【００１１】
【発明の実施の形態】
一例である図１は、ＣＥＬＰ復号器等のような在来の線形予測型音声復号器における関連部分の例を図によって表したものであり、この図１に示した例は本発明の理解に役立つ。図１に示した在来の復号器部分において、パラメータ決定器１１は、音声符号器から（図示せぬ通常の通信チャネルを介して）複数のパラメータを表す情報を受信する。それらのパラメータは、復号器によって原音声信号にできるだけ近い信号を再構成するのに利用されるものである。パラメータ決定器１１は、前記符号器からの情報により、それぞれの時点におけるサブフレームないしフレームについてのエネルギー・パラメータとその他のパラメータを決定する。図１においては、エネルギー・パラメータをＥｎＰａｒ（ｉ）と表すと共に、その他のパラメータ（符号１３で示されているもの）をＯｔｈｅｒＰａｒ（ｉ）と表してある。ここで、ｉは、それぞれの時点におけるサブフレーム（ないしフレーム）を表すサブフレーム・インデックス（ないしフレーム・インデックス）である。それぞれのパラメータは音声再構成器１５へ入力され、音声再構成器１５は、前記エネルギー・パラメータ及びその他のパラメータから原音声の近似音声と背景雑音とを合成ないし再構成する。
【００１２】
従来からあるエネルギー・パラメータＥｎＰａｒ（ｉ）の例としては、ＣＥＬＰモデルで使用されている在来の固定符号帳ゲイン（fixed codebook gain）、長期予測変数（long term predictor）のゲイン、及びフレームのエネルギーを表すパラメータが含まれる。従来からあるその他のパラメータＯｔｈｅｒＰａｒ（ｉ）の例としては、上述したＳＴＰパラメータのＬＳＦ表現が含まれる。図１の音声再構成器１５へ入力されるエネルギー・パラメータ及びその他のパラメータは、当業者にはよく知られているものである。
【００１３】
図２は、本発明に基づく代表的なＣＥＬＰ復号器等の線形予測型音声復号器における関連部分の例を図によって表したものである。図２の復号器は、図１に示した在来型のパラメータ決定器１１を有すると共に、音声再構成器２５を有している。しかし、図２中のパラメータ決定器１１から出力されるエネルギー・パラメータＥｎＰａｒ（ｉ）は、エネルギー・パラメータ調整器２１へ入力され、エネルギー・パラメータ調整器２１が順次調整されたエネルギー・パラメータＥｎＰａｒ（ｉ）_ｍｏｄを出力する。それらの調整されたエネルギー・パラメータ（以下「調整済エネルギー・パラメータ」という。）は、パラメータ決定器１１により生成されたエネルギー・パラメータＥｎＰａｒ（ｉ）及びその他のパラメータＯｔｈｅｒＰａｒ（ｉ）と同時に音声再構成器２５へ入力される。
【００１４】
エネルギー・パラメータ調整器２１は、パラメータ決定器１１により出力されたその他のパラメータから制御入力２３を受け、かつ、チャネル状況を表す制御入力も受ける。これらの制御入力に応じて、エネルギー・パラメータ調整器は、選択的にエネルギー・パラメータＥｎＰａｒ（ｉ）を調整すると共に調整済エネルギー・パラメータＥｎＰａｒ（ｉ）_ｍｏｄを出力する。調整済エネルギー・パラメータは、図１に例示したような在来型の復号器における背景雑音の再生成に関して聴取者が感知する上述の不都合を生じさせない改良された背景雑音の再生成を実現する。
【００１５】
本発明における手法の一例では、エネルギー・パラメータ調整器２１が定常的な背景雑音のみのエネルギー曲線を滑らかにすることを試みる。定常的な背景雑音とは、走行中の自動車に乗りながら移動電話機を使用している場合に現れる背景雑音のように、本質的に一定な背景雑音のことである。手法の一例では、本発明は、短期合成フィルタ係数（ＳＴＰのパラメータ）の最新のものと前のものを利用し、信号の定常性の程度を表す値（measure of the stationarity）を得る。それらのパラメータは、一般にチャネル・エラーに対する対策がよくなされている。最新の短期フィルタ係数と前の短期フィルタ係数を用いる定常性の程度を表す値の一例は、次の式によって与えられる。
【００１６】
【数１】

【００１７】
上記数１において、ｌｓｆ_ｊは、最新のサブフレームに係る短期フィルタ係数の線スペクトル周波数表現におけるｊ番目の線スペクトル周波数の係数を表す。また、数１において、ｌｓｆＡｖｅｒ_ｊは、ｊ番目の短期フィルタ係数の線スペクトル周波数表現の、フレームＮ個分前からの平均値を表す。ここで、Ｎは、例えば８に設定することとしてもよい。このような数１における右辺の総和記号が示す演算は、短期フィルタ係数を線スペクトル周波数で表現したもののそれぞれについて行う。一例としては、典型的な１０個の短期フィルタ係数（１０次の合成フィルタに対応するフィルタ係数）があれば、対応する線スペクトル周波数表現は１０個になるので、ｊは、１から１０までの線スペクトル周波数表現を標示することになる。この例では、各サブフレームにつき、１０個の値（それぞれの短期フィルタ係数について一つの値）が数１によって演算されることになり、その後、それらの１０個の値が合計されて当該各サブフレームについての定常性程度であるｄｉｆｆが与えられることになる。
【００１８】
短期フィルタ係数と対応する線スペクトル周波数表現が一フレーム毎に一度だけ更新される場合であっても、数１はサブフレーム単位で適用できることに留意されたい。在来型の復号器は、それぞれの線スペクトル周波数ｌｓｆの値をサブフレーム毎に内挿補間しているので、このようにすることは可能である。すなわち、在来型ＣＥＬＰの復号化処理においては、それぞれのサブフレームが内挿補間されてそれぞれに割り当てられたｌｓｆ値の組を有している。上述した例を用いる場合には、それぞれのサブフレームがそれぞれに割り当てられた１０個の内挿補間ｌｓｆ値を有する。
【００１９】
数１におけるｌｓｆＡｖｅｒ_ｊの項は、ｌｓｆ値のサブフレーム補間を表すことができる（ただし、ｌｓｆ値のサブフレーム補間でなければならないわけではない。）。例えば、ｌｓｆＡｖｅｒ_ｊの項は、直前のＮ個のフレームに対応するＮ個のｌｓｆ値の平均か、直前のＮ個のフレームの４Ｎ個のサブフレームに対応する（各フレームは、補間したｌｓｆ値を使用して求めた４つのサブフレームに対応する）、４Ｎ個のｌｓｆ値の平均を表すものとすることもできる。数１においては、サンプリング周波数の半分の周波数をπとすると、通常はｌｓｆの範囲を０〜πとすることができる。
【００２０】
数１におけるｌｓｆＡｖｅｒ_ｊの項を計算する一方法として他に採用し得るものとしては、次式が挙げられる。
【数２】

【００２１】
ここで、ｌｓｆＡｖｅｒ_ｊ（ｉ）、ｌｓｆＡｖｅｒ_ｊ（ｉ−１）の項は、それぞれ、ｉ番目、ｉ−１番目のフレームにおけるｊ番目のｌｓｆ表現（線スペクトル周波数表現）に対応する。また、ｌｓｆ_ｊ（ｉ）は、ｉ番目のフレームにおけるｊ番目のｌｓｆ表現である。ｉ＝１の場合に当たる第１番目のフレームについては、適切な（例えば経験的に定められる）初期値をｌｓｆＡｖｅｒ_ｊ（ｉ−１）（＝ｌｓｆＡｖｅｒ_ｊ（０））の項として選択することができる。Ａ１、Ａ２の値の例としては、Ａ１＝０．８４、Ａ２＝０．１６が挙げられる。上記数２は、上述した代表的な８フレームの移動平均よりも計算が簡単なものとなっている。
【００２２】
数１の定常性程度の他の形態としては、分母のｌｓｆＡｖｅｒ_ｊの項をｌｓｆ_ｊに置き換えることができる。
【００２３】
数１の定常性程度ｄｉｆｆは、最新のサブフレームについてのスペクトルが、それ以前の予め定めた個数のフレームに渡って平均化した平均スペクトルからどの程度相違しているかを表している。スペクトル形状における相違は、例えば話が盛り上がり始めた時や戸を激しく閉めた時などの、信号エネルギー中の激しい変化と非常に強い相関関係がある。ほとんどのタイプの背景雑音に対してｄｉｆｆは非常に小さいが、有声の音声に対してはｄｉｆｆはかなり大きくなる。
【００２４】
背景雑音のように符号化が困難な信号については、正確な波形整合をするよりもむしろ滑らかなエネルギー曲線を確保する方がよい（正確な波形整合を実現するのは困難である。）。定常性程度ｄｉｆｆは、エネルギー曲線を滑らかにする作用がどの程度必要かを判断するのに利用する。エネルギー曲線を滑らかにする作用は、その滑らかにする作用の処理動作が実行中か非実行中かを聞き取ることができるように感知されるのを回避するため、緩やかに導入しなければならず、また、復号器の処理から緩やかに消失させなければならない。そこで、混合係数ｋを定めるためにｄｉｆｆが表す定常性程度を利用することとし、その混合係数ｋを定める式を一例として次のように与える。
【００２５】
【数３】

【００２６】
ここで、Ｋ_１とＫ_２は、混合係数ｋが、有声の音声に対してはほぼ１に等しくなり（エネルギー曲線を滑らかにする作用が全く働かず）、かつ、定常的な背景雑音に対してはほぼゼロに等しくなる（エネルギー曲線を滑らかにする作用がすべて働く）ように、選定する。Ｋ_１とＫ_２についての適切な値は、例えば、Ｋ_１＝０．４０とＫ_２＝０．２５である。図６には、そのＫ_１＝０．４０かつＫ_２＝０．２５とした例について、定常性程度ｄｉｆｆと混合係数ｋとの間の関係をグラフで例示してある。混合係数ｋは、ｄｉｆｆが表す程度の他の任意の関数Ｆにより適宜ｋ＝Ｆ（ｄｉｆｆ）として式で表現することができる。
【００２７】
図２のエネルギー・パラメータ調整器２１もまた、前のサブフレームに係るエネルギー・パラメータを利用し、調整済エネルギー・パラメータＥｎＰａｒ（ｉ）_ｍｏｄを生成する。例えば、調整器２１は、図２における受信された在来型のエネルギー・パラメータＥｎＰａｒ（ｉ）を時間平均した値を計算することができる。その時間平均値は、例えば次式によって演算することができる。
【００２８】
【数４】

【００２９】
ここで、ｂ_ｉは、エネルギー・パラメータを重み付けして合計するのに利用される。例えば、ｂ_ｉの値を１／Ｍに設定し、過去のＭ個のサブフレームからエネルギー・パラメータ値のそのままの平均演算を行うこととしてもよい。数４による平均演算は、サブフレーム単位で実行する必要がなく、また、Ｍ個のフレームに関して実行することもできる。平均演算の基礎原理は、平均化される（個々ないし複数の）エネルギー・パラメータと望まれる処理態様とに応じて決定する。
【００３０】
数４を用いてエネルギー・パラメータの時間平均値であるＥｎＰａｒ（ｉ）_ａｖｇを演算した後に、混合係数ｋを利用して、受信されたエネルギー・パラメータ値ＥｎＰａｒ（ｉ）の使用と平均化されたエネルギー・パラメータ値ＥｎＰａｒ（ｉ）_ａｖｇの使用との間を緩やかにないしは徐々に切り替える動作を制御する。混合係数ｋの適用を表す等式としては、一例として次式が挙げられる。
【００３１】
【数５】

【００３２】
数５によれば、ｋの値が小さい時（定常的な背景雑音の時）には主に平均化されたエネルギー・パラメータが使用されてエネルギー曲線が滑らかにされることは明らかである。一方、ｋの値が大きい時には主に最新のパラメータが使用される。中間的なｋの値に対しては、最新のパラメータと平均化されたパラメータを混合した値が計算されることになる。ただし、上記数４及び数５による処理は、要望される任意のエネルギー・パラメータ、要望される分の数のパラメータ及び要望される任意のエネルギー・パラメータの組合せに対しても適用することが可能である。
【００３３】
さて、図２におけるエネルギー・パラメータ調整器２１へ入力されるチャネル状況について見てみると、このようなチャネル状況の情報は、ＣＥＬＰ復号器のような線形予測型の復号器では従来から取得可能なものであり、例えば、チャネル復号化情報やＣＲＣ検査合計の形で取得することができる情報である。例えば、ＣＲＣ検査合計にエラーがない場合、そのことはチャネル状況がよいことを表すが、与えられたサブフレームのシーケンス内でＣＲＣ検査合計に過度のエラーがある場合、そのことは符号器と復号器との間における内部状態の不整合を表すことになり得る。結局のところ、与えられたフレームがＣＲＣ検査合計にエラーを有するものである場合、そのことは当該フレームが不良フレームであることを表す。
【００３４】
上述したチャネル状況がよい場合においては、エネルギー・パラメータ調整器は、例えば、控え目のアプローチを採り、数４でＭを４ないし５に設定することができる。符号器と復号器で内部状態不整合の虞がある上述の場合においては、図２のエネルギー・パラメータ調整器２１は、例えば、数３におけるＫ_１の値を０．４から例えば０．５５に増加させることにより、混合係数ｋを変更することができる。数５と図６から分かるように、Ｋ_１の値を増加させると、より広範囲のｄｉｆｆの値に対して混合係数ｋがゼロのまま維持される（滑らかにする作用が最大限適用される状態が維持される）ことになり、これによって数５における時間平均したエネルギー・パラメータの項ＥｎＰａｒ（ｉ）_ａｖｇによる寄与が強められる。チャネル状況の情報が不良フレームを表す場合には、図２のエネルギー・パラメータ調整器２１は、例えば、数３におけるＫ_１の値を増加させると共に、数４におけるＭの値も増加させることとすることができる。
【００３５】
図３は、図２のエネルギー・パラメータ調整器２１を実現する一構成例を図示したものである。図３の実施形態では、最新のサブフレームに係るＥｎＰａｒ（ｉ）とｌｓｆ（ｉ）で示した最新のサブフレームに係るｌｓｆ値とが受信されてメモリ３１に記憶される。定常性決定器３３は、最新のｌｓｆ値と前のｌｓｆ値をメモリ３１から得ると共に、上記数１を実行して定常性程度ｄｉｆｆを決定する。その後、前記定常性決定器がｄｉｆｆを混合係数決定器３５へ供給し、混合係数決定器３５は、上記数３を実行して混合係数ｋを決定する。その後、前記混合係数決定器は混合係数ｋを混合ロジック３７へ供給する。
【００３６】
エネルギー・パラメータ平均化器３９は、ＥｎＰａｒ（ｉ）の最新の値と前の値をメモリ３１から得ると共に、上記数４を実行する。その後、前記エネルギー・パラメータ平均化器がＥｎＰａｒ（ｉ）_ａｖｇを混合ロジック３７へ供給し、混合ロジック３７は、また最新のエネルギー・パラメータＥｎＰａｒ（ｉ）も受ける。混合ロジック３７は、上記数５を実行してＥｎＰａｒ（ｉ）_ｍｏｄを生成し、そのＥｎＰａｒ（ｉ）_ｍｏｄは、上述したようにパラメータＥｎＰａｒ（ｉ）及びＯｔｈｅｒＰａｒ（ｉ）と同時に音声再構成器２５へ入力される。混合係数決定器３５とエネルギー・パラメータ平均化器３９は、それぞれ、従来から取得可能なチャネル状況の情報を制御入力として受け、そして様々なチャネル状況に応じて上述したように適切な動作を実行することができる。
【００３７】
図４は、図２及び図３に示した代表的な線形予測型復号器の装置構成による代表的な処理動作を例示した図である。４１では、パラメータ決定器１１が符号器からの情報から音声パラメータを決定する。その後、４３で定常性決定器３３が背景雑音の定常性程度を決定する。４５では、混合係数決定器３５が定常性程度とチャネル状況の情報とに基づいて混合係数ｋを決定する。４７では、エネルギー・パラメータ平均化器３９が時間平均したエネルギー・パラメータＥｎＰａｒ（ｉ）_ａｖｇを決定する。４９では、混合ロジック３７が、最新のエネルギー・パラメータＥｎＰａｒ（ｉ）及び平均化されたエネルギー・パラメータＥｎＰａｒ（ｉ）_ａｖｇに対して混合係数ｋを適用し、調整済エネルギー・パラメータＥｎＰａｒ（ｉ）_ｍｏｄを決定する（これらのエネルギー・パラメータＥｎＰａｒ（ｉ）、平均化されたエネルギー・パラメータＥｎＰａｒ（ｉ）_ａｖｇ及び調整済エネルギー・パラメータＥｎＰａｒ（ｉ）_ｍｏｄは、それぞれが１つずつである場合とそれぞれが２つ以上ある場合とがある。）。４０では、調整済エネルギー・パラメータＥｎＰａｒ（ｉ）_ｍｏｄがパラメータＥｎＰａｒ（ｉ）及びＯｔｈｅｒＰａｒ（ｉ）と同時に音声再構成器へ供給され、これらのパラメータから背景雑音を含んだ原音声の近似信号が再構成される。
【００３８】
図７は、図２及び図３における音声再構成器２５の一部を実現する一構成例を示したものである。図７は、エネルギー・パラメータを伴う従来からの計算方式でパラメータＥｎＰａｒ（ｉ）及びＥｎＰａｒ（ｉ）_ｍｏｄがどのように音声再構成器２５によって使用されるかを例示している。再構成器２５は、復号器の何等かの内部状態に影響を与える従来からのエネルギー・パラメータ計算に、パラメータＥｎＰａｒ（ｉ）を使用する。ここにいう復号器の何等かの内部状態とは、好ましくは符号器の対応する内部状態（例えばピッチの履歴）と整合すべきものである。再構成器２５は、それ以外のすべての従来からのエネルギー・パラメータ計算に、調整されたパラメータＥｎＰａｒ（ｉ）_ｍｏｄを使用する。これに対し、図１における在来型の再構成器１５は、図７中に示した従来からのエネルギー・パラメータ計算のすべてにパラメータＥｎＰａｒ（ｉ）を使用する。パラメータＯｔｈｅｒＰａｒ（ｉ）（図２及び図３）については、在来型の再構成器１５で従来から使用されていたのと同じ方式によって再構成器２５で使用することができる。
【００３９】
図５は、本発明に基づく通信システムの一例を示したブロック図である。図５において、本発明に基づく復号器５２は、送受信機（ＸＣＶＲ）５３内に設けられており、この送受信機５３は、送受信機５４と通信チャネル５５を介して通信を行う。復号器５２は、送受信機５４内の符号器５６からチャネル５５を介してパラメータの情報を受信すると共に、再構成した音声及び背景雑音を送受信機５３の所に居る聴取者へ提供する。一例としては、図５の送受信機５３及び５４が移動電話機であり、かつ、チャネル５５が移動電話通信網を介する通信回線である場合を挙げることができる。本発明による音声復号器５２には他にも多数の適用例があり、それらの適用例は容易に理解できる。
【００４０】
本発明に基づく音声復号器は、例えば、適宜プログラムされたデジタル信号処理装置（ＤＳＰ(digital signal processor)）又は他のデータ処理装置を利用して容易に実現することができ、これらのデジタル信号処理装置又はデータ処理装置を単独で利用しても外部支援ロジック（external support logic）と組み合わせて利用しても容易に実現することができる。このように本発明に基づく音声復号器が実現できることは、当業者にとっては明らかである。
【００４１】
本発明に基づく上述した音声の復号化によれば、エラーのない状況と不良チャネルの状況の双方において、背景雑音を再生成する能力が向上し、さらに音声の性能を許容できないように劣化させることもない。本発明における混合係数は、エネルギーを滑らかにする処理動作を滑らかに実行状態とし、あるいは、滑らかに非実行状態とするので、エネルギーを滑らかにする処理動作が実行中／非実行中となることにより、再生成される音声信号中に感知され得る劣化が生じることはない。また、エネルギーを滑らかにする処理動作で利用される以前のパラメータの情報量が比較的少ないので、再生成される音声信号の品質を低下させる虞を生じることはほとんどない。
【００４２】
以上、本発明の代表的な実施形態について詳細に説明したが、これは本発明の範囲を限定するものではなく、本発明は、多種多様な形態で実施することができる。
【図面の簡単な説明】
【図１】在来の線形予測型音声復号器における関連部分の例を示した図である。
【図２】本発明に基づく線形予測型音声復号器における関連部分の例を示した図である。
【図３】図２における調整器の例をより詳細に示した図である。
【図４】図２及び図３の音声復号器によって実行することができる代表的な処理動作をフローチャートの形式で例示した図である。
【図５】本発明に基づく通信システムの例を示した図である。
【図６】本発明に基づく混合係数と定常性程度との間の関係をグラフで例示した図である。
【図７】図２及び図３における音声再構成器の一部分の例をより詳細に示した図である。
【符号の説明】
１１パラメータ決定器
２１エネルギー・パラメータ調整器
２５音声再構成器
３１メモリ
３３定常性決定器
３５混合係数決定器
３７混合ロジック
３９エネルギー・パラメータ平均化器
５２復号器
５３、５４送受信機
５５通信チャネル
５６符号器

Claims

原音声信号についての符号化された情報から前記原音声信号の近似信号を生成する方法であって、
前記原音声信号の最新の信号区分に係る複数の最新のパラメータを前記符号化された情報から決定する段階（１１、４１）と、
前記複数の最新のパラメータのうちの少なくとも一つについて、その最新のパラメータと前記原音声信号の以前の各信号区分に係る以前の対応パラメータとを用いて調整されたパラメータを生成する段階（２１）と、
その調整されたパラメータを用いて前記原音声信号の前記最新の信号区分の近似信号を生成する段階（２５）とを有し、
前記最新のパラメータと前記以前の対応パラメータとを用いる前記段階は、
前記原音声信号の前記最新の信号区分に係る雑音成分の定常性特性を表す定常性程度（３３、４３）を決定する段階と、
前記調整されたパラメータの生成における、前記最新のパラメータに対する相対的な前記以前の対応パラメータの重要性を表す混合係数（３５、４５）を、前記定常性程度の関数として決定する段階とを含むことを特徴とする方法。
前記最新のパラメータが前記原音声信号の前記最新の信号区分における信号のエネルギーを表すパラメータである請求項１記載の方法。
請求項２記載の方法において、前記最新のパラメータと前記以前の対応パラメータとを用いる段階は、
前記以前の対応パラメータを平均化処理（３９、４７）に用いて平均化パラメータを生成する段階と、前記平均化パラメータを前記最新のパラメータと共に用いて前記調整されたパラメータを生成する段階とを含む方法。
請求項１記載の方法において、定常性程度を決定する前記段階は、
前記複数の最新のパラメータのうちの、前記調整されたパラメータの生成に関連する前記最新のパラメータとは別の少なくとも１つの最新のパラメータと、該別の最新のパラメータについての前記原音声信号の以前の各信号区分に係る以前の対応パラメータとを用いて前記定常性程度を決定する段階を含む、方法。
請求項４記載の方法において、前記別の最新のパラメータと該別の最新のパラメータについての以前の対応パラメータとを用いる前記段階は、
その以前の対応パラメータに平均化処理を適用して、前記調整されたパラメータの生成に関連する前記平均化パラメータとは別の平均化パラメータを生成する段階と、該別の平均化パラメータを前記別の最新のパラメータと共に用いて前記定常性程度を決定する段階とを含む、方法。
前記別の最新のパラメータが前記原音声信号の近似信号生成において利用される合成フィルタのフィルタ係数である請求項４記載の方法。
請求項３記載の方法において、前記最新のパラメータと前記平均化パラメータとを用いる前記段階は、
前記混合係数（３５）から前記最新のパラメータと前記平均化パラメータのそれぞれに係るさらなる係数を決定する段階と、そのそれぞれのさらなる係数を前記最新のパラメータと前記平均化パラメータに乗じる段階とを含む方法。
請求項３記載の方法において、前記以前の対応パラメータを平均化処理に用いる前記段階は、その平均化処理を、前記符号化された情報の供給に利用されている通信チャネルの状況に応じて、選択的に変更する段階を含む方法。
請求項１記載の方法において、混合係数を決定する前記段階は、その混合係数を、前記符号化された情報の供給に利用されている通信チャネルの状況に応じて、選択的に変更する段階を含む方法。
前記最新のパラメータが符号励振型線形予測の音声復号化処理を実行するのに利用される固定符号帳ゲインである請求項２記載の方法。
原音声信号の近似信号を生成するための符号化された情報を受信する入力と、
前記近似信号を出力する出力と、
前記入力と接続され、前記原音声信号の最新の信号区分の近似信号生成において用いる複数の最新のパラメータを前記符号化された情報から決定するパラメータ決定器（１１）と、
前記パラメータ決定器と前記出力との間に接続され、前記原音声信号の前記近似信号を生成する再構成器（２５）と、
前記パラメータ決定器と前記再構成器との間に接続され、前記複数の最新のパラメータのうちの少なくとも一つと前記原音声信号の以前の各信号区分に係る以前の対応パラメータとを用いて調整されたパラメータを生成し、さらに、前記原音声信号の前記最新の信号区分の前記近似信号の生成で使用するために前記調整されたパラメータを前記再構成器へ供給する調整器（２１）とを有して構成され、
前記調整器（２１）は、前記パラメータ決定器と前記再構成器との間に接続され、前記原音声信号の前記最新の信号区分に係る雑音成分の定常性特性を表す定常性程度を決定する定常性決定器（３３）と、
前記定常性決定器と前記再構成器との間に接続され、前記調整されたパラメータの生成における、前記最新のパラメータに対する相対的な前記以前の対応パラメータの重要性を表す混合係数を、前記定常性程度の関数として決定する混合係数決定器（３５）とを有することを特徴とする音声復号装置。
前記最新のパラメータが前記原音声信号の前記最新の信号区分における信号のエネルギーを表すパラメータである請求項１１記載の装置。
請求項１２記載の装置において、前記調整器は、前記以前の対応パラメータを平均化処理に用いて平均化パラメータを生成する平均化器（３９）を有し、前記平均化パラメータを前記最新のパラメータと共に用いて前記調整されたパラメータを生成することができる装置。
請求項１１記載の装置において、前記定常性決定器は、前記複数の最新のパラメータのうちの、前記調整されたパラメータの生成に関連する前記最新のパラメータとは別の少なくとも１つの最新のパラメータと、該別の最新のパラメータについての前記原音声信号の以前の各信号区分に係る以前の対応パラメータとを用いて、前記定常性程度を決定することができる、装置。
請求項１４記載の装置において、
前記定常性決定器は、さらに、前記少なくとも１つの別の最新のパラメータに対応する前記以前の対応パラメータに平均化処理を適用して、前記調整されたパラメータの生成に関連する前記平均化パラメータとは別の平均化パラメータを生成することができ、かつ、該別の平均化パラメータを前記別の最新のパラメータと共に用いて前記定常性程度を決定することができる、装置。
前記別の最新のパラメータが前記原音声信号の前記近似信号生成において前記再構成器で実現される合成フィルタのフィルタ係数である請求項１４記載の装置。
請求項１３記載の装置において、
前記調整器は、前記混合係数決定器（３５）と前記再構成器（２５）との間に接続された混合ロジック（３７）を有し、
前記混合ロジックは、前記混合係数から前記最新のパラメータと前記平均化パラメータのそれぞれに係るさらなる係数を決定すると共に、そのそれぞれのさらなる係数を前記最新のパラメータと前記平均化パラメータに乗じてそれぞれの積を生成し、さらに、それらの積に応じて前記調整されたパラメータを生成することができる装置。
請求項１３記載の装置において、前記平均化器（３９）は、前記符号化された情報が供給されるチャネルの状況を表す情報を受信する入力を有し、その入力への情報に応じて前記平均化処理を選択的に変更する装置。
請求項１１記載の装置において、前記混合係数決定器は、前記符号化された情報が供給されるチャネルの状況を表す情報を受信する入力を有し、その入力への情報に応じて前記混合係数を選択的に変更する装置。
前記最新のパラメータが符号励振型線形予測の音声復号化処理に利用される固定符号帳ゲインである請求項１２記載の装置。
符号励振型線形予測音声復号器を有する請求項１１記載の音声復号装置。
通信システムにおいて利用するための送受信機の装置であって、
送信機から通信チャネル（５５）を介して情報を受信する入力と、
前記送受信機の利用者へ出力を供給する出力と、
前記送受信機の入力と接続された入力と前記送受信機の出力と接続された出力とを有する音声復号装置（５２）とを有し、
前記音声復号装置の前記入力は、原音声信号の近似信号を生成するための符号化された情報を前記送受信機の入力から受信し、
前記音声復号装置の前記出力は、前記近似信号を前記送受信機の出力へ供給し、
さらに前記音声復号装置（５２）は、前記音声復号装置の前記入力と接続されたパラメータ決定器（１１）と、前記パラメータ決定器と前記音声復号装置の前記出力との間に接続された再構成器（２５）と、前記パラメータ決定器と前記再構成器との間に接続された調整器（２１）とを有し、
前記パラメータ決定器は、前記原音声信号の最新の信号区分の近似信号生成に用いる複数の最新のパラメータを前記符号化された情報から決定し、
前記再構成器は、前記原音声信号の前記近似信号を生成し、
前記調整器は、前記複数の最新のパラメータのうちの少なくとも一つと前記原音声信号の以前の各信号区分に係る以前の対応パラメータとを用いて調整されたパラメータを生成し、さらに、前記原音声信号の前記最新の信号区分の前記近似信号の生成で用いるために前記調整されたパラメータを前記再構成器へ供給し、
前記調整器（２１）は、前記パラメータ決定器と前記再構成器との間に接続され、前記原音声信号の前記最新の信号区分に係る雑音成分の定常性特性を表す定常性程度を決定する定常性決定器（３３）と、
前記定常性決定器と前記再構成器との間に接続され、前記調整されたパラメータの生成における、前記最新のパラメータに対する相対的な前記以前の対応パラメータの重要性を表す混合係数を、前記定常性程度の関数として決定する混合係数決定器（３５）とを有することを特徴とする送受信機の装置。
前記送受信機の装置が移動電話機の一部を構成する請求項２２記載の装置。