JP2002525665A

JP2002525665A - 改良された背景雑音の再生成を伴う音声符号化

Info

Publication number: JP2002525665A
Application number: JP2000570769A
Authority: JP
Inventors: インゲマールヨハンソン，; ジョナススヴェドベリ，; アンデルスウヴリデン，
Original assignee: テレフォンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 1998-09-16
Filing date: 1999-09-10
Publication date: 2002-08-13
Anticipated expiration: 2019-09-10
Also published as: WO2000016313A1; DE69935233D1; EP1112568A1; CN1318187A; CA2340160C; CA2340160A1; EP1879176B1; HK1117629A1; US6275798B1; BR9913754A; MY126550A; CN1244090C; KR20010090438A; KR100688069B1; TW454167B; EP1112568B1; ZA200101222B; AU6377499A; JP4309060B2; EP1879176A2

Abstract

(57)【要約】原音声信号についての符号化された情報から前記原音声信号の近似信号を生成する場合において、前記原音声信号の最新の信号区分に係る複数の最新のパラメータ（ＥｎＰａｒ（ｉ））を前記符号化された情報から決定する。前記原音声信号の雑音成分の再生成は、前記複数の最新のパラメータのうちの少なくとも一つと前記原音声信号の以前の各信号区分に係る以前の対応パラメータとを用い（３１、３７、３９）、調整されたパラメータ（ＥｎＰａｒ（ｉ）_ｍｏｄ）を生成することによって改良する。前記調整されたパラメータは、前記原音声信号の前記最新の信号区分の近似信号生成に用いる（２５、４０）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】

本発明は、広く音声の符号化に関し、より具体的には、音声符号化における背
景雑音の再生成（reproduction of background noise）に関する。

【０００２】

【従来の技術及び発明が解決しようとする課題】

符号励振型線形予測（ＣＥＬＰ(Code Excited Linear Prediction)）による音
声符号器のような線形予測方式の音声符号器においては、到来する原音声信号を
フレームと呼ばれるブロックに分割するのが通例である。典型的なフレームの長
さは２０ミリ秒又は１６０サンプルであり、かかるフレーム長は、例えば在来の
電話通信帯域幅を使う移動電話等で利用され、一般的に用いられている。それら
のフレームは一般にサブフレームへとさらに分割され、分割されたサブフレーム
は５ミリ秒又は４０サンプルの長さを有するものとされる場合が多い。

【０００３】上記のような在来型の音声符号器においては、声道（vocal tract）、ピッチ
及びその他の特徴を表すパラメータが音声符号化のプロセス中に原音声信号から
抽出される。ゆっくり変動するパラメータは、フレーム単位を基準として計算さ
れる。そのゆっくり変動するパラメータの例としては、いわゆる短期予測変数（
ＳＴＰ(short term predictor)）の声道を表すパラメータが挙げられる。ＳＴＰ
のパラメータは、線形予測型の音声符号器における合成フィルタのフィルタ係数
を定める。より速く変動するパラメータ、例えば、ピッチや新たに導入する波形
で新たに導入するゲインのパラメータ（innovation shape and innovation gain
parameters）などは、サブフレーム毎に計算されるのが通例である。

【０００４】各パラメータが計算された後に、それらのパラメータの量子化が行われる。Ｓ
ＴＰのパラメータは、線スペクトル周波数（ＬＳＦ(line spectrum frequency)
）による表現等の、量子化により適した表現に変換される場合が多い。ＳＴＰパ
ラメータのＬＳＦ表現への変換は、音声符号化の分野ではよく知られている。

【０００５】各パラメータが量子化されると、誤り制御符号化と検査合計の情報が付加され
た後にパラメータの情報のインタリーブと変調がなされる。それからパラメータ
の情報が通信チャネルを通じて受信機へ送信され、その受信機において、音声復
号器が上述した音声符号化の手順と基本的に逆の手順を実行し、原音声信号に極
めて近い音声信号を合成する。音声復号器では、合成された音声信号に対して一
般に後置フィルタが適用され、感知される信号の品質が高められる。

【０００６】ＣＥＬＰモデルのような線形予測型のモデルを利用する音声符号器は、一般的
に音声の符号化に対して極めて綿密に適合したものとなっているので、かかる符
号器では背景雑音のような非音声信号（non-speech signals）を合成ないし再生
成する能力に乏しい場合が多い。例えば、量子化されたパラメータの情報がチャ
ネル・エラーにより誤って伝達される場合のように、チャネル不良がある状況の
下では、背景雑音の再生成がより一層劣化する。チャネルにノイズがない状況下
であっても、受信機側の聴取者にとっては、背景雑音が揺動する不安定なノイズ
として感知されることが多い。ＣＥＬＰ符号器において、この問題の主な原因と
なっているのは、対象とする信号と合成される信号との劣悪な相関を組み合わせ
て合成による分析（analysis-by-synthesis）のループで伝統的に利用されてい
る平均二乗誤差（ＭＳＥ(mean squared error)）による基準である。チャネル不
良がある状況下では、背景雑音のレベルが甚だしく揺動することから、その問題
は既述のようにさらに悪化する。このことは、背景雑音のレベルが極めてゆっく
り変動することになるため、聴取者にとっては非常に不快に感じられる。

【０００７】チャネルにノイズがない状況とチャネルにノイズがある状況の双方において感
知される背景雑音の品質を改良するための一解決策としては、符号化されようと
している信号が音声か非音声かどうかについて急峻な（例えばｙｅｓ又はｎｏの
）判断をする有音無音検出器（ＶＡＤｓ(voice activity detectors)）の利用を
挙げることができる。その急峻な判断（the hard decision）に基づき、復号器
において別々の処理手法を適用することができる。例えば、非音声であるとの判
断がされた場合、その後の復号器は、信号を背景雑音とみなすことができると共
に、その背景雑音におけるスペクトルの変動を滑らかにする処理を行うことがで
きる。しかしながらこの急峻な判断による手法には、音声処理の動作と非音声処
理の動作との間での復号器の切り替えが聴取者に聞こえてしまうという難点があ
る。

【０００８】前述の問題に加え、背景雑音の再生成は、低く設定されたビット伝送速度（例
えば８ｋｂ／ｓ以下）ではより一層品質が低下する。設定されたビット伝送速度
が低くて劣悪なチャネル状況の下では、背景雑音は、復号化された背景雑音のレ
ベルが不自然に変動することによって生じるフラッタ効果（fluttering effect
）として聞こえることが多い。

【０００９】このようなことから、ＣＥＬＰ復号器等のような線形予測型の音声復号器にお
いては、聴取者に背景雑音が上述したように感知される好ましくない事態を回避
しつつ、その背景雑音の再生成を実現することが望ましい。

【００１０】

【課題を解決するための手段】

本発明は、改良された背景雑音の再生成を提供する。デコーダは、再構成され
ていく信号に対し、エネルギー曲線を滑らかにする作用（energy contour smoot
hing）の適用を徐々に（ないしは緩やかに）増大させたり減少させたりすること
ができるものとする。これにより、エネルギー曲線を滑らかにする処理動作の実
行中／非実行中が感知される不都合を生じることなく、エネルギー曲線を滑らか
にすることによって背景雑音の再生成における問題に対処することができる。

【００１１】

【発明の実施の形態】

一例である図１は、ＣＥＬＰ復号器等のような在来の線形予測型音声復号器に
おける関連部分の例を図によって表したものであり、この図１に示した例は本発
明の理解に役立つ。図１に示した在来の復号器部分において、パラメータ決定器
１１は、音声符号器から（図示せぬ通常の通信チャネルを介して）複数のパラメ
ータを表す情報を受信する。それらのパラメータは、復号器によって原音声信号
にできるだけ近い信号を再構成するのに利用されるものである。パラメータ決定
器１１は、前記符号器からの情報により、それぞれの時点におけるサブフレーム
ないしフレームについてのエネルギー・パラメータとその他のパラメータを決定
する。図１においては、エネルギー・パラメータをＥｎＰａｒ（ｉ）と表すと共
に、その他のパラメータ（符号１３で示されているもの）をＯｔｈｅｒＰａｒ（
ｉ）と表してある。ここで、ｉは、それぞれの時点におけるサブフレーム（ない
しフレーム）を表すサブフレーム・インデックス（ないしフレーム・インデック
ス）である。それぞれのパラメータは音声再構成器１５へ入力され、音声再構成
器１５は、前記エネルギー・パラメータ及びその他のパラメータから原音声の近
似音声と背景雑音とを合成ないし再構成する。

【００１２】従来からあるエネルギー・パラメータＥｎＰａｒ（ｉ）の例としては、ＣＥＬ
Ｐモデルで使用されている在来の固定符号帳ゲイン（fixed codebook gain）、
長期予測変数（long term predictor）のゲイン、及びフレームのエネルギーを
表すパラメータが含まれる。従来からあるその他のパラメータＯｔｈｅｒＰａｒ
（ｉ）の例としては、上述したＳＴＰパラメータのＬＳＦ表現が含まれる。図１
の音声再構成器１５へ入力されるエネルギー・パラメータ及びその他のパラメー
タは、当業者にはよく知られているものである。

【００１３】図２は、本発明に基づく代表的なＣＥＬＰ復号器等の線形予測型音声復号器に
おける関連部分の例を図によって表したものである。図２の復号器は、図１に示
した在来型のパラメータ決定器１１を有すると共に、音声再構成器２５を有して
いる。しかし、図２中のパラメータ決定器１１から出力されるエネルギー・パラ
メータＥｎＰａｒ（ｉ）は、エネルギー・パラメータ調整器２１へ入力され、エ
ネルギー・パラメータ調整器２１が順次調整されたエネルギー・パラメータＥｎ
Ｐａｒ（ｉ）_ｍｏｄを出力する。それらの調整されたエネルギー・パラメータ（
以下「調整済エネルギー・パラメータ」という。）は、パラメータ決定器１１に
より生成されたエネルギー・パラメータＥｎＰａｒ（ｉ）及びその他のパラメー
タＯｔｈｅｒＰａｒ（ｉ）と同時に音声再構成器２５へ入力される。

【００１４】エネルギー・パラメータ調整器２１は、パラメータ決定器１１により出力され
たその他のパラメータから制御入力２３を受け、かつ、チャネル状況を表す制御
入力も受ける。これらの制御入力に応じて、エネルギー・パラメータ調整器は、
選択的にエネルギー・パラメータＥｎＰａｒ（ｉ）を調整すると共に調整済エネ
ルギー・パラメータＥｎＰａｒ（ｉ）_ｍｏｄを出力する。調整済エネルギー・パ
ラメータは、図１に例示したような在来型の復号器における背景雑音の再生成に
関して聴取者が感知する上述の不都合を生じさせない改良された背景雑音の再生
成を実現する。

【００１５】本発明における手法の一例では、エネルギー・パラメータ調整器２１が定常的
な背景雑音のみのエネルギー曲線を滑らかにすることを試みる。定常的な背景雑
音とは、走行中の自動車に乗りながら移動電話機を使用している場合に現れる背
景雑音のように、本質的に一定な背景雑音のことである。手法の一例では、本発
明は、短期合成フィルタ係数（ＳＴＰのパラメータ）の最新のものと前のものを
利用し、信号の定常性の程度を表す値（measure of the stationarity）を得る
。それらのパラメータは、一般にチャネル・エラーに対する対策がよくなされて
いる。最新の短期フィルタ係数と前の短期フィルタ係数を用いる定常性の程度を
表す値の一例は、次の式によって与えられる。

【００１６】

【数１】

【００１７】上記数１において、ｌｓｆ_ｊは、最新のサブフレームに係る短期フィルタ係数
の線スペクトル周波数表現におけるｊ番目の線スペクトル周波数の係数を表す。
また、数１において、ｌｓｆＡｖｅｒ_ｊは、ｊ番目の短期フィルタ係数の線スペ
クトル周波数表現の、フレームＮ個分前からの平均値を表す。ここで、Ｎは、例
えば８に設定することとしてもよい。このような数１における右辺の総和記号が
示す演算は、短期フィルタ係数を線スペクトル周波数で表現したもののそれぞれ
について行う。一例としては、典型的な１０個の短期フィルタ係数（１０次の合
成フィルタに対応するフィルタ係数）があれば、対応する線スペクトル周波数表
現は１０個になるので、ｊは、１から１０までの線スペクトル周波数表現を標示
することになる。この例では、各サブフレームにつき、１０個の値（それぞれの
短期フィルタ係数について一つの値）が数１によって演算されることになり、そ
の後、それらの１０個の値が合計されて当該各サブフレームについての定常性程
度であるｄｉｆｆが与えられることになる。

【００１８】短期フィルタ係数と対応する線スペクトル周波数表現が一フレーム毎に一度だ
け更新される場合であっても、数１はサブフレーム単位で適用できることに留意
されたい。在来型の復号器は、それぞれの線スペクトル周波数ｌｓｆの値をサブ
フレーム毎に内挿補間しているので、このようにすることは可能である。すなわ
ち、在来型ＣＥＬＰの復号化処理においては、それぞれのサブフレームが内挿補
間されてそれぞれに割り当てられたｌｓｆ値の組を有している。上述した例を用
いる場合には、それぞれのサブフレームがそれぞれに割り当てられた１０個の内
挿補間ｌｓｆ値を有する。

【００１９】数１におけるｌｓｆＡｖｅｒ_ｊの項は、ｌｓｆ値のサブフレーム補間を表すこ
とができる（ただし、ｌｓｆ値のサブフレーム補間でなければならないわけでは
ない。）。例えば、ｌｓｆＡｖｅｒ_ｊの項は、直前のＮ個のフレームに対応する
Ｎ個のｌｓｆ値の平均か、直前のＮ個のフレームの４Ｎ個のサブフレームに対応
する（各フレームは、補間したｌｓｆ値を使用して求めた４つのサブフレームに
対応する）、４Ｎ個のｌｓｆ値の平均を表すものとすることもできる。数１にお
いては、サンプリング周波数の半分の周波数をπとすると、通常はｌｓｆの範囲
を０〜πとすることができる。

【００２０】数１におけるｌｓｆＡｖｅｒ_ｊの項を計算する一方法として他に採用し得るも
のとしては、次式が挙げられる。

【数２】

【００２１】ここで、ｌｓｆＡｖｅｒ_ｊ（ｉ）、ｌｓｆＡｖｅｒ_ｊ（ｉ−１）の項は、それ
ぞれ、ｉ番目、ｉ−１番目のフレームにおけるｊ番目のｌｓｆ表現（線スペクト
ル周波数表現）に対応する。また、ｌｓｆ_ｊ（ｉ）は、ｉ番目のフレームにおけ
るｊ番目のｌｓｆ表現である。ｉ＝１の場合に当たる第１番目のフレームについ
ては、適切な（例えば経験的に定められる）初期値をｌｓｆＡｖｅｒ_ｊ（ｉ−１
）（＝ｌｓｆＡｖｅｒ_ｊ（０））の項として選択することができる。Ａ１、Ａ２
の値の例としては、Ａ１＝０．８４、Ａ２＝０．１６が挙げられる。上記数２は
、上述した代表的な８フレームの移動平均よりも計算が簡単なものとなっている
。

【００２２】数１の定常性程度の他の形態としては、分母のｌｓｆＡｖｅｒ_ｊの項をｌｓｆ _ｊに置き換えることができる。

【００２３】数１の定常性程度ｄｉｆｆは、最新のサブフレームについてのスペクトルが、
それ以前の予め定めた個数のフレームに渡って平均化した平均スペクトルからど
の程度相違しているかを表している。スペクトル形状における相違は、例えば話
が盛り上がり始めた時や戸を激しく閉めた時などの、信号エネルギー中の激しい
変化と非常に強い相関関係がある。ほとんどのタイプの背景雑音に対してｄｉｆ
ｆは非常に小さいが、有声の音声に対してはｄｉｆｆはかなり大きくなる。

【００２４】背景雑音のように符号化が困難な信号については、正確な波形整合をするより
もむしろ滑らかなエネルギー曲線を確保する方がよい（正確な波形整合を実現す
るのは困難である。）。定常性程度ｄｉｆｆは、エネルギー曲線を滑らかにする
作用がどの程度必要かを判断するのに利用する。エネルギー曲線を滑らかにする
作用は、その滑らかにする作用の処理動作が実行中か非実行中かを聞き取ること
ができるように感知されるのを回避するため、緩やかに導入しなければならず、
また、復号器の処理から緩やかに消失させなければならない。そこで、混合係数
ｋを定めるためにｄｉｆｆが表す定常性程度を利用することとし、その混合係数
ｋを定める式を一例として次のように与える。

【００２５】

【数３】

【００２６】ここで、Ｋ_１とＫ_２は、混合係数ｋが、有声の音声に対してはほぼ１に等しく
なり（エネルギー曲線を滑らかにする作用が全く働かず）、かつ、定常的な背景
雑音に対してはほぼゼロに等しくなる（エネルギー曲線を滑らかにする作用がす
べて働く）ように、選定する。Ｋ_１とＫ_２についての適切な値は、例えば、Ｋ_１＝０．４０とＫ_２＝０．２５である。図６には、そのＫ_１＝０．４０かつＫ_２＝
０．２５とした例について、定常性程度ｄｉｆｆと混合係数ｋとの間の関係をグ
ラフで例示してある。混合係数ｋは、ｄｉｆｆが表す程度の他の任意の関数Ｆに
より適宜ｋ＝Ｆ（ｄｉｆｆ）として式で表現することができる。

【００２７】図２のエネルギー・パラメータ調整器２１もまた、前のサブフレームに係るエ
ネルギー・パラメータを利用し、調整済エネルギー・パラメータＥｎＰａｒ（ｉ
）_ｍｏｄを生成する。例えば、調整器２１は、図２における受信された在来型の
エネルギー・パラメータＥｎＰａｒ（ｉ）を時間平均した値を計算することがで
きる。その時間平均値は、例えば次式によって演算することができる。

【００２８】

【数４】

【００２９】ここで、ｂ_ｉは、エネルギー・パラメータを重み付けして合計するのに利用さ
れる。例えば、ｂ_ｉの値を１／Ｍに設定し、過去のＭ個のサブフレームからエネ
ルギー・パラメータ値のそのままの平均演算を行うこととしてもよい。数４によ
る平均演算は、サブフレーム単位で実行する必要がなく、また、Ｍ個のフレーム
に関して実行することもできる。平均演算の基礎原理は、平均化される（個々な
いし複数の）エネルギー・パラメータと望まれる処理態様とに応じて決定する。

【００３０】数４を用いてエネルギー・パラメータの時間平均値であるＥｎＰａｒ（ｉ）_ａ _ｖｇを演算した後に、混合係数ｋを利用して、受信されたエネルギー・パラメー
タ値ＥｎＰａｒ（ｉ）の使用と平均化されたエネルギー・パラメータ値ＥｎＰａ
ｒ（ｉ）_ａｖｇの使用との間を緩やかにないしは徐々に切り替える動作を制御す
る。混合係数ｋの適用を表す等式としては、一例として次式が挙げられる。

【００３１】

【数５】

【００３２】数５によれば、ｋの値が小さい時（定常的な背景雑音の時）には主に平均化さ
れたエネルギー・パラメータが使用されてエネルギー曲線が滑らかにされること
は明らかである。一方、ｋの値が大きい時には主に最新のパラメータが使用され
る。中間的なｋの値に対しては、最新のパラメータと平均化されたパラメータを
混合した値が計算されることになる。ただし、上記数４及び数５による処理は、
要望される任意のエネルギー・パラメータ、要望される分の数のパラメータ及び
要望される任意のエネルギー・パラメータの組合せに対しても適用することが可
能である。

【００３３】さて、図２におけるエネルギー・パラメータ調整器２１へ入力されるチャネル
状況について見てみると、このようなチャネル状況の情報は、ＣＥＬＰ復号器の
ような線形予測型の復号器では従来から取得可能なものであり、例えば、チャネ
ル復号化情報やＣＲＣ検査合計の形で取得することができる情報である。例えば
、ＣＲＣ検査合計にエラーがない場合、そのことはチャネル状況がよいことを表
すが、与えられたサブフレームのシーケンス内でＣＲＣ検査合計に過度のエラー
がある場合、そのことは符号器と復号器との間における内部状態の不整合を表す
ことになり得る。結局のところ、与えられたフレームがＣＲＣ検査合計にエラー
を有するものである場合、そのことは当該フレームが不良フレームであることを
表す。

【００３４】上述したチャネル状況がよい場合においては、エネルギー・パラメータ調整器
は、例えば、控え目のアプローチを採り、数４でＭを４ないし５に設定すること
ができる。符号器と復号器で内部状態不整合の虞がある上述の場合においては、
図２のエネルギー・パラメータ調整器２１は、例えば、数３におけるＫ_１の値を
０．４から例えば０．５５に増加させることにより、混合係数ｋを変更すること
ができる。数５と図６から分かるように、Ｋ_１の値を増加させると、より広範囲
のｄｉｆｆの値に対して混合係数ｋがゼロのまま維持される（滑らかにする作用
が最大限適用される状態が維持される）ことになり、これによって数５における
時間平均したエネルギー・パラメータの項ＥｎＰａｒ（ｉ）_ａｖｇによる寄与が
強められる。チャネル状況の情報が不良フレームを表す場合には、図２のエネル
ギー・パラメータ調整器２１は、例えば、数３におけるＫ_１の値を増加させると
共に、数４におけるＭの値も増加させることとすることができる。

【００３５】図３は、図２のエネルギー・パラメータ調整器２１を実現する一構成例を図示
したものである。図３の実施形態では、最新のサブフレームに係るＥｎＰａｒ（
ｉ）とｌｓｆ（ｉ）で示した最新のサブフレームに係るｌｓｆ値とが受信されて
メモリ３１に記憶される。定常性決定器３３は、最新のｌｓｆ値と前のｌｓｆ値
をメモリ３１から得ると共に、上記数１を実行して定常性程度ｄｉｆｆを決定す
る。その後、前記定常性決定器がｄｉｆｆを混合係数決定器３５へ供給し、混合
係数決定器３５は、上記数３を実行して混合係数ｋを決定する。その後、前記混
合係数決定器は混合係数ｋを混合ロジック３７へ供給する。

【００３６】エネルギー・パラメータ平均化器３９は、ＥｎＰａｒ（ｉ）の最新の値と前の
値をメモリ３１から得ると共に、上記数４を実行する。その後、前記エネルギー
・パラメータ平均化器がＥｎＰａｒ（ｉ）_ａｖｇを混合ロジック３７へ供給し、
混合ロジック３７は、また最新のエネルギー・パラメータＥｎＰａｒ（ｉ）も受
ける。混合ロジック３７は、上記数５を実行してＥｎＰａｒ（ｉ）_ｍｏｄを生成
し、そのＥｎＰａｒ（ｉ）_ｍｏｄは、上述したようにパラメータＥｎＰａｒ（ｉ
）及びＯｔｈｅｒＰａｒ（ｉ）と同時に音声再構成器２５へ入力される。混合係
数決定器３５とエネルギー・パラメータ平均化器３９は、それぞれ、従来から取
得可能なチャネル状況の情報を制御入力として受け、そして様々なチャネル状況
に応じて上述したように適切な動作を実行することができる。

【００３７】図４は、図２及び図３に示した代表的な線形予測型復号器の装置構成による代
表的な処理動作を例示した図である。４１では、パラメータ決定器１１が符号器
からの情報から音声パラメータを決定する。その後、４３で定常性決定器３３が
背景雑音の定常性程度を決定する。４５では、混合係数決定器３５が定常性程度
とチャネル状況の情報とに基づいて混合係数ｋを決定する。４７では、エネルギ
ー・パラメータ平均化器３９が時間平均したエネルギー・パラメータＥｎＰａｒ
（ｉ）_ａｖｇを決定する。４９では、混合ロジック３７が、最新のエネルギー・
パラメータＥｎＰａｒ（ｉ）及び平均化されたエネルギー・パラメータＥｎＰａ
ｒ（ｉ）_ａｖｇに対して混合係数ｋを適用し、調整済エネルギー・パラメータＥ
ｎＰａｒ（ｉ）_ｍｏｄを決定する（これらのエネルギー・パラメータＥｎＰａｒ
（ｉ）、平均化されたエネルギー・パラメータＥｎＰａｒ（ｉ）_ａｖｇ及び調整
済エネルギー・パラメータＥｎＰａｒ（ｉ）_ｍｏｄは、それぞれが１つずつであ
る場合とそれぞれが２つ以上ある場合とがある。）。４０では、調整済エネルギ
ー・パラメータＥｎＰａｒ（ｉ）_ｍｏｄがパラメータＥｎＰａｒ（ｉ）及びＯｔ
ｈｅｒＰａｒ（ｉ）と同時に音声再構成器へ供給され、これらのパラメータから
背景雑音を含んだ原音声の近似信号が再構成される。

【００３８】図７は、図２及び図３における音声再構成器２５の一部を実現する一構成例を
示したものである。図７は、エネルギー・パラメータを伴う従来からの計算方式
でパラメータＥｎＰａｒ（ｉ）及びＥｎＰａｒ（ｉ）_ｍｏｄがどのように音声再
構成器２５によって使用されるかを例示している。再構成器２５は、復号器の何
等かの内部状態に影響を与える従来からのエネルギー・パラメータ計算に、パラ
メータＥｎＰａｒ（ｉ）を使用する。ここにいう復号器の何等かの内部状態とは
、好ましくは符号器の対応する内部状態（例えばピッチの履歴）と整合すべきも
のである。再構成器２５は、それ以外のすべての従来からのエネルギー・パラメ
ータ計算に、調整されたパラメータＥｎＰａｒ（ｉ）_ｍｏｄを使用する。これに
対し、図１における在来型の再構成器１５は、図７中に示した従来からのエネル
ギー・パラメータ計算のすべてにパラメータＥｎＰａｒ（ｉ）を使用する。パラ
メータＯｔｈｅｒＰａｒ（ｉ）（図２及び図３）については、在来型の再構成器
１５で従来から使用されていたのと同じ方式によって再構成器２５で使用するこ
とができる。

【００３９】図５は、本発明に基づく通信システムの一例を示したブロック図である。図５
において、本発明に基づく復号器５２は、送受信機（ＸＣＶＲ）５３内に設けら
れており、この送受信機５３は、送受信機５４と通信チャネル５５を介して通信
を行う。復号器５２は、送受信機５４内の符号器５６からチャネル５５を介して
パラメータの情報を受信すると共に、再構成した音声及び背景雑音を送受信機５
３の所に居る聴取者へ提供する。一例としては、図５の送受信機５３及び５４が
移動電話機であり、かつ、チャネル５５が移動電話通信網を介する通信回線であ
る場合を挙げることができる。本発明による音声復号器５２には他にも多数の適
用例があり、それらの適用例は容易に理解できる。

【００４０】本発明に基づく音声復号器は、例えば、適宜プログラムされたデジタル信号処
理装置（ＤＳＰ(digital signal processor)）又は他のデータ処理装置を利用し
て容易に実現することができ、これらのデジタル信号処理装置又はデータ処理装
置を単独で利用しても外部支援ロジック（external support logic）と組み合わ
せて利用しても容易に実現することができる。このように本発明に基づく音声復
号器が実現できることは、当業者にとっては明らかである。

【００４１】本発明に基づく上述した音声の復号化によれば、エラーのない状況と不良チャ
ネルの状況の双方において、背景雑音を再生成する能力が向上し、さらに音声の
性能を許容できないように劣化させることもない。本発明における混合係数は、
エネルギーを滑らかにする処理動作を滑らかに実行状態とし、あるいは、滑らか
に非実行状態とするので、エネルギーを滑らかにする処理動作が実行中／非実行
中となることにより、再生成される音声信号中に感知され得る劣化が生じること
はない。また、エネルギーを滑らかにする処理動作で利用される以前のパラメー
タの情報量が比較的少ないので、再生成される音声信号の品質を低下させる虞を
生じることはほとんどない。

【００４２】以上、本発明の代表的な実施形態について詳細に説明したが、これは本発明の
範囲を限定するものではなく、本発明は、多種多様な形態で実施することができ
る。

【図面の簡単な説明】

【図１】在来の線形予測型音声復号器における関連部分の例を示した図で
ある。

【図２】本発明に基づく線形予測型音声復号器における関連部分の例を示
した図である。

【図３】図２における調整器の例をより詳細に示した図である。

【図４】図２及び図３の音声復号器によって実行することができる代表的
な処理動作をフローチャートの形式で例示した図である。

【図５】本発明に基づく通信システムの例を示した図である。

【図６】本発明に基づく混合係数と定常性程度との間の関係をグラフで例
示した図である。

【図７】図２及び図３における音声再構成器の一部分の例をより詳細に示
した図である。

【符号の説明】

１１パラメータ決定器２１エネルギー・パラメータ調整器２５音声再構成器３１メモリ３３定常性決定器３５混合係数決定器３７混合ロジック３９エネルギー・パラメータ平均化器５２復号器５３、５４送受信機５５通信チャネル５６符号器

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１２年１１月２２日（２０００．１１．２２）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】発明の名称

【補正方法】変更

【補正内容】

【発明の名称】改良された背景雑音の再生成を伴う音声符号化

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】００１０

【補正方法】変更

【補正内容】

【００１０】

【課題を解決するための手段】本発明は、改良された背景雑音の再生成を提供する。デコーダは、再構成され
ていく信号に対し、エネルギー曲線を滑らかにする作用（energy contour smoot
hing）の適用を徐々に（ないしは緩やかに）増大させたり減少させたりすること
ができるものとする。これにより、エネルギー曲線を滑らかにする処理動作の実
行中／非実行中が感知される不都合を生じることなく、エネルギー曲線を滑らか
にすることによって背景雑音の再生成における問題に対処することができる。欧州特許出願No.0,843,301の公報では、断続的な送信モードで動作している移
動端末機において快適音（comfort noise）を発生させる方法の概要が開示され
ている。送信側ではランダムな励振制御パラメータを演算し、かつ、それらを受
信側で調整することとしている。これによれば、送信側では背景雑音に整合した
的確な快適音が発生される。それらのパラメータは、他の快適音のパラメータに
加えて、音声が休止している間に演算されるだけである。音声符号化の調子が悪
いパラメータについては、もとのパラメータを中間のパラメータで置き換えるこ
ととしている。米国特許第No.4,630,305号は、雑音抑圧システムのための自動ゲイン選別器の
概要を開示している。その雑音抑圧システムでは、雑音が多い音声信号を受信し
て雑音を抑圧した音声信号を生成し、音声の品質を高めている。この処理はスペ
クトルのゲイン調整を利用して行われ、そのゲイン調整では、個々のチャネルの
ゲインをそれぞれチャネル番号、チャネルの最新ＳＮＲ、背景雑音の総合的な平
均等、いくつかのパラメータに従って選別している。欧州特許出願No.0,786,760の公報では、復号器による快適音の発生の概要が説
明されており、その復号器は、特定の信号区分の間における入力信号の自己相関
値の重み付け平均を利用し、背景雑音の統計的なデータを推定するものとなって
いる。また、急に発生する音声の間に、快適音を徐々に導入する滑らかな移行形
態が紹介されている。 WO 96/34382の公報では、信号の最新部分が音声か雑音かを判断する方法の概
要が開示されている。これは、最新部分を前の部分と比較することによって行わ
れており、信号の最新部分が雑音か音声かどうかがいずれ判断されることになる
。音響、音声及び信号の処理に関するＩＥＥＥ国際大会の１９９８年梗概集 ICA
SSP‘98,vol.1,12-15 May 1998,pages 365-368,XP002085126,Seattle,WA,US に
あるＩＥＥＥ論文“雑音スペクトルの適応に基づく緩やかな判断を利用した有音
無音検出器”（“A voice activity detector employing soft decision based
noise spectrum adaptation”）では、可変速音声符号化に利用する有音無音検
出器（ＶＡＤ）の概要が開示されている。雑音の統計的なデータが事前に分かっ
ていることとされるが、雑音スペクトルの適応アルゴリズムに基づく緩やかな判
断によって雑音の統計的なデータを推定している。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者ウヴリデン，アンデルススウェーデン国エス−977 53 ルレオ，フォルスカーヴェーゲン 27 Ｆターム(参考） 5D045 AB04 CA01 5J064 AA01 BB03 BC01 BC03 BC21 BD02

Claims

【特許請求の範囲】

【請求項１】原音声信号についての符号化された情報から前記原音声信号
の近似信号を生成する方法であって、前記原音声信号の最新の信号区分に係る複数の最新のパラメータを前記符号化
された情報から決定する過程と、前記複数の最新のパラメータのうちの少なくとも一つについて、その最新のパ
ラメータと前記原音声信号の以前の各信号区分に係る以前の対応パラメータとを
用いて調整されたパラメータを生成すると共に、その調整されたパラメータを用
いて前記原音声信号の前記最新の信号区分の近似信号を生成する過程とを有する方法。
【請求項２】前記調整されたパラメータが前記最新のパラメータと異なる
請求項１記載の方法。
【請求項３】前記最新のパラメータが前記原音声信号の前記最新の信号区
分における信号のエネルギーを表すパラメータである請求項１記載の方法。
【請求項４】請求項３記載の方法において、前記最新のパラメータと前記
以前の対応パラメータとを用いる段階は、前記以前の対応パラメータを平均化処理に用いて平均化パラメータを生成する
段階と、前記平均化パラメータを前記最新のパラメータと共に用いて前記調整さ
れたパラメータを生成する段階とを含む方法。
【請求項５】請求項４記載の方法において、前記最新のパラメータと前記
平均化パラメータとを用いる前記段階は、前記調整されたパラメータの生成にお
ける、前記最新のパラメータ及び前記平均化パラメータの相対的な重要性を表す
混合係数を決定する段階を含む、方法。
【請求項６】請求項５記載の方法において、混合係数を決定する前記段階
は、前記原音声信号の前記最新の信号区分に係る雑音成分の定常性特性を表す定常
性程度を決定する段階と、前記定常性程度の関数として前記混合係数を決定する
段階とを含む方法。
【請求項７】請求項６記載の方法において、定常性程度を決定する前記段
階は、前記複数の最新のパラメータのうちの少なくとも別のパラメータについて、そ
の別のパラメータの、最新のパラメータと前記原音声信号の以前の各信号区分に
係る以前の対応パラメータとを用いて前記定常性程度を決定する段階を含む、方
法。
【請求項８】請求項７記載の方法において、前記別のパラメータの、最新
のパラメータと以前の対応パラメータとを用いる前記段階は、その以前の対応パラメータに平均化処理を適用して平均化パラメータを生成す
る段階と、その平均化パラメータを前記別の最新のパラメータと共に用いて前記
定常性程度を決定する段階とを含む方法。
【請求項９】前記別の最新のパラメータが前記原音声信号の近似信号生成
において利用される合成フィルタのフィルタ係数である請求項７記載の方法。
【請求項１０】請求項５記載の方法において、前記最新のパラメータと前
記平均化パラメータとを用いる前記段階は、前記混合係数から前記最新のパラメータと前記平均化パラメータのそれぞれに
係るさらなる係数を決定する段階と、そのそれぞれのさらなる係数を前記最新の
パラメータと前記平均化パラメータに乗じる段階とを含む方法。
【請求項１１】請求項４記載の方法において、前記以前の対応パラメータ
を平均化処理に用いる前記段階は、その平均化処理を、前記符号化された情報の
供給に利用されている通信チャネルの状況に応じて、選択的に変更する段階を含
む、方法。
【請求項１２】請求項３記載の方法において、前記最新のパラメータと前
記以前の対応パラメータとを用いる前記段階は、前記調整されたパラメータの生
成における、前記最新のパラメータに対する相対的な前記以前の対応パラメータ
の重要性を表す混合係数を決定する段階を含む、方法。
【請求項１３】請求項１２記載の方法において、混合係数を決定する前記
段階は、前記原音声信号の前記最新の信号区分に係る雑音成分の定常性特性を表す定常
性程度を決定する段階と、その定常性程度の関数として前記混合係数を決定する
段階とを含む方法。
【請求項１４】請求項１２記載の方法において、混合係数を決定する前記
段階は、その混合係数を、前記符号化された情報の供給に利用されている通信チ
ャネルの状況に応じて、選択的に変更する段階を含む、方法。
【請求項１５】前記最新のパラメータが符号励振型線形予測の音声復号化
処理を実行するのに利用される固定符号帳ゲインである請求項３記載の方法。
【請求項１６】原音声信号の近似信号を生成するための符号化された情報
を受信する入力と、前記近似信号を出力する出力と、前記入力と接続され、前記原音声信号の最新の信号区分の近似信号生成におい
て用いる複数の最新のパラメータを前記符号化された情報から決定するパラメー
タ決定器と、前記パラメータ決定器と前記出力との間に接続され、前記原音声信号の前記近
似信号を生成する再構成器と、前記パラメータ決定器と前記再構成器との間に接続され、前記複数の最新のパ
ラメータのうちの少なくとも一つと前記原音声信号の以前の各信号区分に係る以
前の対応パラメータとを用いて調整されたパラメータを生成し、さらに、前記原
音声信号の前記最新の信号区分の前記近似信号の生成で使用するために前記調整
されたパラメータを前記再構成器へ供給する調整器とを有する音声復号装置。
【請求項１７】前記調整されたパラメータが前記最新のパラメータと異な
る請求項１６記載の装置。
【請求項１８】前記最新のパラメータが前記原音声信号の前記最新の信号
区分における信号のエネルギーを表すパラメータである請求項１６記載の装置。
【請求項１９】請求項１８記載の装置において、前記調整器は、前記以前
の対応パラメータを平均化処理に用いて平均化パラメータを生成する平均化器を
有し、前記平均化パラメータを前記最新のパラメータと共に用いて前記調整され
たパラメータを生成することができる、装置。
【請求項２０】請求項１９記載の装置において、前記調整器は、前記調整
されたパラメータの生成における、前記最新のパラメータ及び前記平均化パラメ
ータの相対的な重要性を表す混合係数を決定する混合係数決定器を有する、装置
。
【請求項２１】請求項２０記載の装置において、前記調整器は、前記パラメータ決定器と前記混合係数決定器との間に接続され
た定常性決定器を有し、前記定常性決定器は、前記最新の信号区分の雑音成分の定常性特性を表す定常
性程度を決定し、前記混合係数決定器は、前記定常性程度の関数として前記混合係数を決定する
ことができる、装置。
【請求項２２】請求項２１記載の装置において、前記定常性決定器は、前
記複数の最新のパラメータのうちの少なくとも別のパラメータと、その別の最新
のパラメータに対応する、前記原音声信号の以前の各信号区分に係る以前の対応
パラメータとを用いて、前記定常性程度を決定することができる、装置。
【請求項２３】請求項２２記載の装置において、前記定常性決定器は、さらに、前記少なくとも別の最新のパラメータに対応す
る前記以前の対応パラメータに平均化処理を適用してさらなる平均化パラメータ
を生成することができ、かつ、前記さらなる平均化パラメータを前記別の最新の
パラメータと共に用いて前記定常性程度を決定することができる、装置。
【請求項２４】前記別の最新のパラメータが前記原音声信号の前記近似信
号生成において前記再構成器で実現される合成フィルタのフィルタ係数である請
求項２２記載の装置。
【請求項２５】請求項２０記載の装置において、前記調整器は、前記混合係数決定器と前記再構成器との間に接続された混合ロ
ジックを有し、前記混合ロジックは、前記混合係数から前記最新のパラメータと前記平均化パ
ラメータのそれぞれに係るさらなる係数を決定すると共に、そのそれぞれのさら
なる係数を前記最新のパラメータと前記平均化パラメータに乗じてそれぞれの積
を生成し、さらに、それらの積に応じて前記調整されたパラメータを生成するこ
とができる、装置。
【請求項２６】請求項１９記載の装置において、前記平均化器は、前記符
号化された情報が供給されるチャネルの状況を表す情報を受信する入力を有し、
その入力への情報に応じて前記平均化処理を選択的に変更する、装置。
【請求項２７】請求項１８記載の装置において、前記調整器は、前記調整
されたパラメータの生成における、前記最新のパラメータに対する相対的な前記
以前の対応パラメータの重要性を表す混合係数を決定する混合係数決定器を有す
る、装置。
【請求項２８】請求項２７記載の装置において、前記調整器は、前記パラメータ決定器と前記混合係数決定器との間に接続され
た定常性決定器を有し、前記定常性決定器は、前記最新の信号区分の雑音成分の定常性特性を表す定常
性程度を決定し、前記混合係数決定器は、その定常性程度の関数として前記混合係数を決定する
ことができる、装置。
【請求項２９】請求項２７記載の装置において、前記混合係数決定器は、
前記符号化された情報が供給されるチャネルの状況を表す情報を受信する入力を
有し、その入力への情報に応じて前記混合係数を選択的に変更する、装置。
【請求項３０】前記最新のパラメータが符号励振型線形予測の音声復号化
処理に利用される固定符号帳ゲインである請求項１８記載の装置。
【請求項３１】符号励振型線形予測音声復号器を有する請求項１６記載の
音声復号装置。
【請求項３２】通信システムにおいて利用するための送受信機の装置であ
って、送信機から通信チャネルを介して情報を受信する入力と、前記送受信機の利用者へ出力を供給する出力と、前記送受信機の入力と接続された入力と前記送受信機の出力と接続された出力
とを有する音声復号装置とを有し、前記音声復号装置の前記入力は、原音声信号の近似信号を生成するための符号
化された情報を前記送受信機の入力から受信し、前記音声復号装置の前記出力は、前記近似信号を前記送受信機の出力へ供給し
、さらに前記音声復号装置は、前記音声復号装置の前記入力と接続されたパラメ
ータ決定器と、前記パラメータ検出器と前記音声復号装置の前記出力との間に接
続された再構成器と、前記パラメータ検出器と前記再構成器との間に接続された
調整器とを有し、前記パラメータ決定器は、前記原音声信号の最新の信号区分の近似信号生成に
用いる複数の最新のパラメータを前記符号化された情報から決定し、前記再構成器は、前記原音声信号の前記近似信号を生成し、前記調整器は、前記複数の最新のパラメータのうちの少なくとも一つと前記原
音声信号の以前の各信号区分に係る以前の対応パラメータとを用いて調整された
パラメータを生成し、さらに、前記原音声信号の前記最新の信号区分の前記近似
信号の生成で用いるために前記調整されたパラメータを前記再構成器へ供給する送受信機の装置。
【請求項３３】前記送受信機の装置が移動電話機の一部を構成する請求項
３２記載の装置。