JP2009069856A

JP2009069856A - 音声コーデックにおける擬似高帯域信号の推定方法

Info

Publication number: JP2009069856A
Application number: JP2008321598A
Authority: JP
Inventors: Jani Rotola-Pukkila; ロトラ−プッキラ、ヤニ; Hannu J Mikkola; ミッコラ、ハッヌ、イー．; Janne Vainio; ヴァイニオ、ヤッネ
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2000-10-18
Filing date: 2008-12-17
Publication date: 2009-04-02
Also published as: WO2002033696B1; ZA200302465B; PT1328927E; KR20040005838A; EP1772856A1; CA2426001C; JP2004537739A; KR100544731B1; DK1328927T3; CN1295677C; DE60128479T2; CA2426001A1; US6691085B1; JP4302978B2; CN1484824A; EP1328927A1; AU2001284327A1; DE60128479D1; EP1328927B1; BRPI0114706B1

Abstract

【課題】暗雑音を含む入力信号に対して広帯域音声符号化する方法を提供する。
【解決手段】入力信号を符号化し、復号するための方法および装置であって、当該入力信号は、符号化処理および復号処理によって高周波数帯域と低周波数帯域とに分割され、該高周波数帯域の復号が、低周波数帯域から得られた音声パラメータと共に擬似信号を用いて行なわれる。とくに、擬似信号は、低周波数帯域および高周波数帯域に着色されたノイズを含んでいる擬似広帯域信号に変換される前に規格化される。加えて、音声活動性情報は、入力信号の音声期間と非音声期間とを規定するために用いられる。当該音声活動性情報に基づいて、音声期間と非音声期間における擬似信号を規格化するために、異なる重み係数が用いられる。
【選択図】図３

Description

本発明は、合成された音声の符号化および復号分野に関し、より詳しくは、広帯域音声のこのような符号化と復号に関する。

今日、音声を符号化する方法の多くが、線形予測（ＬＰ）符号化に基づいているが、これは、音声信号の知覚的に重要な特徴を、この音声信号の周波数スペクトルから抽出する（これは、チャネルボコーダと呼ばれるものまたはフォルマントボコーダと呼ばれるものの方式である）のではなく、時間波形から直接的に抽出するものである。ＬＰ符号化では、最初に音声波形が分析されて（ＬＰ分析によって）、この音声信号をもたらした声道励振の時間依存性モデルとさらに伝達関数とを決定する。つぎに、デコーダ（コード化された音声信号が電気通信される場合は、受信端末内にある）が、オリジナル音声をシンセサイザ（ＬＰ合成を実行する）を用いて再現するが、このシンセサイザは、声道をモデリングするパラメータ化されたシステムに励振を通過させる。声道モデルのパラメータとモデルの励振は双方とも、周期的に更新されて、スピーカが音声信号を生成するにつれてスピーカ中で発生した対応する変化に適合するようにする。しかしながら、ある更新とつぎの更新のあいだ、すなわち、なんらかの指定時間間隔のあいだ、システムの励振とパラメータとは、一定に保持され、したがって、モデルによって実行されるプロセスは、線形の非時間依存性のプロセスである。この符号化と復号（分布）システムは総称してコーデック（ｃｏｄｅｃ）と呼ばれる。

ＬＰ符号化を用いて音声を発生するコーデックにおいては、デコーダは、コーダが３つの入力、すなわち、励振がボイシングされる場合にはピッチ期間、利得ファクターおよび予測係数を提供することを必要する。（１部のコードでは、励振の性質、すなわち、それがボイシングされているか否かもまた提供されるが、通常は、たとえば代数符号励振線形予測（ＡＣＥＬＰ）コーデックの場合には必要とされない。）ＬＰ符号化は、前方推定プロセスにおいてパラメータが適用される（指定時間間隔中の）音声波形の実際の入力セグメントに基づいて予測パラメータを用いるという点で予測的である。

基本的ＬＰ符号化と復号とを用いて、比較的低いデータ転送速度でディジタル式に通信することが可能であるが、それは、それがひじょうに単純な励振システムを用いるため合成サウンディング音声を生成するからである。いわゆる符号励振線形予測（ＣＥＬＰ）コーデックは、強化された励振コーデックである。それは、「残差」符号化に基づいている。声道のモデリングは、そのパラメータが符号化されて圧縮音声になっているディジタルフィルタに関して実行される。これらのフィルタは、オリジナルスピーカの声帯の振動を表わす信号によって駆動される、すなわち「励振される」。オーディオ音声信号の残差は、ディジタル式にフィルタリングされたオーディオ音声信号未満の（オリジナル）オーディオ音声信号である。ＣＥＬＰコーデックは公知のものにおいては、残差を符号化して、それを励振の基礎として「補完パルス増幅」として用いられる。しかしながら、残差波形をサンプル毎に符号化する代わりに、ＣＥＬＰは、波形テンプレートから成る所定の集合から選択された波形テンプレートを用い、これで残差サンプルのブロックを表わす。コードワードは、コーダによって決定されて、デコーダに提供され、つぎにこのデコーダが、このコードワードを用いて、残差シーケンスを選択し、これでオリジナル残差サンプルを表わす。

図１に、送信機／エンコーダシステムのエレメントと受信機／デコーダシステムのエレメントを示す。システム全体としては、ＬＰコーデックとして働くが、ＣＥＬＰタイプのコーデックであってもよい。この送信機は、サンプリングされた音声信号ｓ（ｎ）を受け入れ、これを、コーデックのＬＰパラメータを決定する分析機（逆フィルタと合成フィルタ）に出力する。ｓ_q（ｎ）は、逆フィルタにかけられた信号であり、残差ｘ（ｎ）を決定するために用いられる。励振探索モジュールは、送信目的で、定量化されたまたは量子化された誤差ｘ_q（ｎ）として残差ｘ（ｎ）を、また、シンセサイザのパラメータを双方とも符号化して、これらを受信機に通じている通信チャネルに入力する。受信機（デコーダシステム）側では、デコーダモジュールが、シンセサイザのパラメータを送信された信号から抽出して、これらをシンセサイザに出力する。デコーダモジュールはまた、定量化された誤差ｘ_q（ｎ）を送信された信号から決定する。シンセサイザからの出力は、定量化された誤差ｘ_q（ｎ）と組み合わされて、オリジナル音声信号ｓ（ｎ）を表わす定量化された値ｓ_q（ｎ）を生成する。

ＣＥＬＰタイプのコーデックを用いる送信機と受信機とは、同じように機能するが、誤差ｘ_q（ｎ）が誤差（残差）ｘ（ｎ）を近似するのに適している様々な波形を表わすコードブックに指数として送信される点が例外である。

ナイキスト理論によれば、サンプリングレートＦｓを持つ音声信号は、０〜０．５Ｆｓという周波数帯域を表わすことが可能である。今日では、ほとんどの音声コーデック（コーダ−デコーダ）は、８ｋＨｚというサンプリングレートを用いている。このサンプリングレートを８ｋＨｚから上昇させると、音声信号の自然性が改善されるが、それは、より高い周波数を表わすことが可能となるからである。今日、音声信号のサンプリングレートは、通常は８ｋＨｚであるが、１６ｋＨｚというサンプリングレートを用いるモバイル電話局が開発中である。ナイキスト理論によれば、１６ｋＨｚというサンプリングレートは、０〜８ｋＨｚの周波数帯域の音声を表わすことが可能である。すると、サンプリングされた音声は、送信機によって通信されるように符号化され、つぎに、受信機によって復号される。１６ｋＨｚというサンプリングレートを用いてサンプリングされた音声信号の音声符号化は、広帯域音声符号化と呼ばれる。

音声のサンプリングレートを増すと、符号化の複雑さも増す。ある種のアルゴリズムでは、サンプリングレートが増すに連れて、符号化の複雑さが指数関数的にさらに増す。したがって、符号化の複雑さはしばしば、広帯域音声符号化のアルゴリズムを決定する際における制限的な要因となる。これは特に、たとえば、電力消費量、利用可能な処理能力およびメモリの要件がアルゴリズムの適用性に重大な影響をおよぼすモバイル電話局の場合に当てはまる。

音声の符号化においては、時々、デシメーションとして公知の手順を用いて、符号化の複雑さを軽減する。デシメーションは、シーケンスのオリジナルサンプリングレートをより低いレートに減少させる。これは、補間として公知の手順とは逆である。デシメーションプロセスは、入力データを低域通過フィルタでフィルタリングして、つぎに、結果として得られる平滑化された信号をより低いレートで再サンプリングする。補間は、シーケンスのオリジナルサンプリングレートをより高いレートに増加させる。補間は、ゼロをオリジナルシーケンス中に挿入して、つぎに、特殊な低域通過フィルタにかけて、このゼロ値を補間された値で置き換える。このようにして、サンプルの数を増す。

別の先行技術による広帯域音声コーデックは、サブ帯域符号化によって複雑さを制限する。このようなサブ帯域符号化方式では、広帯域信号は、符号化する前に、２つの信号、すなわち、低帯域信号と高帯域信号とに分割される。つぎに、これらの信号は双方とも、互いに別々に符号化される。デコーダでは、合成プロセスにおいて、この２つの信号が再結合される。このような方式は、複雑さがサンプリングレートの関数として指数的に増す符号化アルゴリズム（たとえば、革新的コードブックの検索）などの部分では符号化の複雑さを減少させる。しかしながら、複雑さが線形に増す部分では、このような方式は、複雑さを減少させない。

上記のサブ帯域符号化の先行技術ソリューションの符号化複雑さは、図２に示すように、エンコーダ内の高帯域分析を無視し、また、それをデコーダ内におけるフィルタにかけられた白色雑音、すなわちフィルタにかけられた疑似ランダム雑音と置き換えることによってさらに減少させることが可能である。この高帯域の分析は無視可能であり、その理由は、人間の聴覚は、高周波数帯域の位相反応を感知することはなく、振幅反応しか感知しないからである。他方の理由は、雑音のようなボイシングされない音素だけが、高帯域でのエネルギを含んでおり、一方、位相が重要となるボイシングされた信号は、高帯域ではあまりエネルギを有しないからである。この方式では、高帯域のスペクトルは、低帯域ＬＰフィルタから発生したＬＰフィルタで推測される。したがって、高周波数帯域の内容に関する知識は送信チャネルには送信されず、また、高帯域ＬＰ合成フィルタリングパラメータは、低周波数帯域に基づいて発生される。白色雑音、すなわち擬似信号は、低帯域信号の特徴から推測される雑音のエネルギでの高帯域フィルタリングのソースとして用いられる。エンコーダとデコーダは双方ともが、励振と、低帯域の長期予測器（ＬＴＰ）および固定コードブックの利得とを認識しているので、これらのパラメータから、高帯域のエネルギスケーリングファクターとＬＰ合成フィルタリングパラメータを推定することが可能である。先行技術による方式においては、広帯域白色雑音のエネルギは、低帯域励振のエネルギに等化される。その後で、低帯域合成信号の傾斜が計算される。傾斜ファクターの計算においては、最低周波数が遮断され、等化された広帯域白色雑音をこの傾斜ファクターで乗算する。

前記高帯域エネルギスケーリングは、エネルギスケーラ推定器からの推定された高帯域エネルギスケーリングファクターに基づいてなされ、また、高帯域ＬＰ合成フィルタは、ＬＰフィルタ推定器によって提供された高帯域ＬＰ合成フィルタパラメータに基づいて行なわれるが、これらは双方とも、入力信号が音声であるか背景雑音であるかとは無関係に実行される。この方式は音声しか含んでいない信号を処理するには適しているが、入力信号が暗雑音を含んでいる場合は、特に非音声期間では適切には機能しない。

したがって、本発明では、暗雑音を含む入力信号に対して広帯域音声符号化する方法であり、どのような特定の符号化アルゴリズムを用いても、完全広帯域音声信号を符号化する際の複雑さと比較して複雑さを減少させ、さらに、音声信号を表わす際に実質的に同じ優れた忠実度を提供することが可能である方法を提供することを目的とする。

本発明は、音声活動性情報の利点を生かして、入力信号の音声期間と非音声期間を区別し、これによって、この入力信号の高周波数帯域のエネルギスケーリングファクターと線形予測（ＬＰ）合成フィルタパラメータを推定するときにこの入力信号中の背景雑音の影響が考慮されるようにする。

本発明は、高周波数成分と低周波数成分とを有する合成された音声を提供するために、音声期間と非音声期間とを有する音声信号を示す符号化されたビットストリームを復号化する方法であって、前記方法が、音声信号における低周波数帯域に特有の音声関連パラメータを、合成された音声の高周波数成分を提供するための擬似信号を生成するために使用し、音声期間を示す第１値および非音声期間を示す第２値のうちの１つを有する音声活動性信号が受信され、該方法が、音声活動性信号に基づいて前記音声期間中および非音声期間中に擬似信号をスケーリングする工程を含んでなることを特徴とする。

したがって、音声期間と非音声期間を有する入力信号を符号化および復号して、高周波数成分と低周波数成分を有する合成された音声を提供する第１の態様による音声符号化方法は、符号化プロセスと復号プロセスにおいて、前記入力信号が高周波数帯域と低周波数帯域とに分割され、また、前記低周波数帯域の音声のパラメータ特性を用いて、擬似信号を処理して、前記合成信号の高周波数帯域成分を提供し、また、前記入力信号が、前記音声期間に第１の信号を含み、前記非音声期間に第２の信号を含み、前記方法は、前記擬似信号を前記音声期間において前記第１の信号を表わす音声のパラメータに基づいてスケーリングして合成フィルタにかけるステップと；

前記擬似信号を前記非音声期間において前記第２の信号を表わす音声関連のパラメータに基づいてスケーリングして合成フィルタにかけるステップと；
を含み、前記第１の信号が音声信号を含み、前記第２の信号がノイズ信号を含む。

好ましくは、音声期間における擬似信号のスケーリングと合成フィルタはまた、合成された音声の低周波数成分から計算されたスペクトル傾斜ファクターに基づいて実行される。

好ましくは、入力信号が背景雑音を含む場合、音声期間中での擬似信号のスケーリングと合成フィルタは、さらに、暗雑音の補正ファクター特性に基づいて実行される。

好ましくは、非音声期間中での擬似信号のスケーリングと合成フィルタは、さらに、暗雑音の補正ファクター特性に基づいて実行される。

好ましくは、音声ないしは音声活動性情報を用いて、第１と第２の信号期間を示す。

本発明によれば、どのような特定の符号化アルゴリズムを用いても、完全広帯域音声信号を符号化する際の複雑さと比較して複雑さを減少させ、さらに、音声信号を表わす際に実質的に同じ優れた忠実度を提供することができる。

本発明はつぎの図３〜６を参照して説明を読むことにより明らかになるであろう。

図３に示すように、高帯域デコーダ１０を用いて、図２に示すように、先行技術による高帯域デコーダによる方式と同様に、高帯域エネルギスケーリングファクター１４０と複数の高帯域線形予測（ＬＰ）合成フィルタパラメータ１４２を低帯域デコーダ２から発生した低帯域パラメータ１０２に基づいて提供する。図２に示すように、先行技術によるコーデックでは、デシメーションデバイスを用いて、広帯域入力信号を低帯域音声入力信号に変換し、また、低帯域エンコーダを用いて低帯域音声入力信号を分析し、これによって、複数の符号化された音声パラメータを提供する。この符号化されたパラメータは、線形予測符号化（ＬＰＣ）信号、ＬＰフィルタおよび励振に関する情報を含み、送信チャネルを介して、受信端末に送信されるが、この受信端末は、音声デコーダを用いて、入力音声を再構成する。デコーダでは、低帯域音声信号が低帯域デコーダによって合成される。特に、合成された低帯域音声信号は、ＬＢ合成による分析（Ａ−ｂ−Ｓ）モジュール（図示せず）によって提供されるように、低帯域励振ｅｘｃ（ｎ）を含む。つぎに、合成され、低帯域だけにエネルギを含む広帯域音声信号を加算デバイスに補間器を用いて提供する。高周波数帯域中の音声信号の再構成に関して、高帯域デコーダは、エネルギスケール推定器、ＬＰフィルタ推定器、スケーリングモジュールおよび高帯域ＬＰ合成フィルタモジュールを含む。図示するように、エネルギスケール推定器は、高帯域エネルギスケーリングファクター、すなわち、利得をスケーリングモジュールに提供し、ＬＰフィルタ推定器は、ＬＰフィルタベクトル、すなわち、高帯域ＬＰ合成フィルタパラメータの集合を提供する。エネルギスケーリングファクターを用いて、スケーリングモジュールは、白色ノイズ発生器によって提供されるように、擬似信号のエネルギを適切なレベルにスケーリングする。高帯域ＬＰ合成フィルタモジュールは、この適切にスケーリングされた白色ノイズを、有色ノイズを低周波数帯域と高周波数帯域の双方に含む擬似広帯域信号に変換する。つぎに、高域フィルタを用いて、加算デバイスに、高帯域だけに有色雑音を含む擬似広帯域信号を提供し、これによって、合成された音声を広帯域全体にわたって生成する。

本発明では、図３に示すように、白色ノイズ、すなわち擬似信号ｅ（ｎ）がまた、白色ノイズ発生器４によって発生される。しかしながら、先行技術によるデコーダでは、図２に示すように、暗雑音信号の高帯域は、高帯域音声信号を推定するのと同じアルゴリズムを用いて推定される。暗雑音のスペクトルは、通常は、音声のスペクトルより平坦であるため、この先行技術による方式は、合成された暗雑音中の高帯域ではほとんどエネルギを生成しない。本発明によれば、２セットのエネルギスケール推定器と２セットのＬＰフィルタ推定器とを、高帯域デコーダ１０内で用いている。図３に示すように、すべて、同じ低帯域デコーダ２によって提供された低帯域パラメータ１０２に基づいて、エネルギスケール推定器２０とＬＰフィルタ推定器２２を音声周期に対して使い、エネルギスケール推定器３０とＬＰフィルタ推定器３２を非音声周期に対して用いる。特に、エネルギスケール推定器２０は、この信号は音声であると仮定して、高帯域エネルギをそのように推定し、また、ＬＰフィルタ推定器２２は、音声信号をモデリングするように設計されている。同様に、エネルギスケール推定器３０は、この信号は暗雑音であると仮定して、高帯域エネルギをこの仮定の下に推定し、また、ＬＰフィルタ推定器３２は、暗雑音信号をモデリングする用に設計されている。したがって、エネルギスケール推定器２０を用いて、音声期間の高帯域エネルギスケーリングファクター１２０を加重調整モジュール２４に提供し、また、エネルギスケール推定器３０を用いて、非音声期間の高帯域エネルギスケーリングファクター１３０を重み調整モジュール３４に提供する。ＬＰフィルタリング推定器２２を用いて、高帯域ＬＰ合成フィルタリングパラメータ１２２を、重み調整モジュール２６に提供し、また、ＬＰフィルタリング推定器３２を用いて、非音声期間は高帯域ＬＰ合成フィルタリングパラメータ１３２を加重調整モジュール３６に提供する。一般的に、エネルギスケール推定器３０とＬＰフィルタ推定器３２は、エネルギスケール推定器２０とＬＰフィルタ推定器３０によって仮定されるものより、スペクトルはより平坦であり、また、エネルギスケーリングファクターはより大きいと仮定している。この信号が音声と暗雑音の双方を含んでいる場合、双方の集合の推定器を用いるが、最終的な推定は、高帯域エネルギスケーリングファクター１２０と１３０の重み平均値および高帯域ＬＰ合成フィルタパラメータ１２２と１３２の重み平均に基づいてなされる。

暗雑音モードと音声モード間の高帯域パラメータ推定アルゴリズムの加重を音声と暗雑音が識別可能な特徴を有するという事実に基づいて変更するために、重み計算モジュール１８は、音声活動性情報１０６と復号された低帯域音声信号１０８をその入力として用い、また、この入力を用いて、暗雑音のレベルを非音声期間で、雑音処理の重みファクターα_nと音声処理の重みファクターα_sを設定する（ここで、α_n＋α_s＝１）ことによって監視する。ここで、音声活動性情報１０６が、技術上周知なように、音声活動性検出器（ＶＡＤ、図示せず）によって提供されることに注意すべきである。音声活動性情報１０６を用いて、復号された音声信号１０８のどの部分が、音声期間のものであるか非音声期間のものであるか識別する。暗雑音は、音声休止期間、すなわち、非音声期間で監視することが可能である。ここで、音声活動性情報１０６が送信チャネルを介してデコーダに送られない場合、復号された音声信号１０８を分析して、非音声期間と音声期間とを識別することが可能であることに注意すべきである。かなりのレベルの暗雑音が検出された場合、図４に示すように、重み補正ファクターα_nを増加させ、重み補正ファクターα_sを減少させることによって、重みづけが、暗雑音の高帯域発生に向けて印加される。この重みづけは、たとえば、雑音エネルギに対する音声エネルギの実際の比率（ＳＮＲ）に従って実行することが可能である。したがって、重み計算モジュール１８は、音声期間の重み補正ファクター１１６、すなわち、α_sを重み調整モジュール２４と２６に対して送信し、また、非音声期間の別の重み補正ファクター１１８、すなわち、α_nを重み調整モジュール３４と３６に対して提供する。背景雑音の出力は、たとえば、非音声期間で信号１０２に含まれている合成信号の出力を分析することによって分かる。一般的には、この出力は、全く安定しており、したがって、一定であると考えることが可能である。したがって、ＳＮＲは、暗雑音の出力に対する合成された音声信号の出力の対数比である。重み補正ファクター１１６と１１８によって、重み調整モジュール２４は、音声期間に対して高帯域エネルギスケーリングファクター１２４を提供し、また、重み調整モジュール３４は、非音声期間の高帯域エネルギスケーリングファクター１３４を加算モジュール４０に対して提供する。加重モジュール４０は、音声期間と非音声期間の双方の高帯域エネルギスケーリングファクター１４０を提供する。同様に、重み調整モジュール２６は、音声期間の高帯域ＬＰ合成フィルタリングパラメータ１２６を提供し、また、重み調整モジュール３６は、高帯域ＬＰ合成フィルタリングパラメータ１３６を加算デバイス４２に提供する。これらのパラメータに基づいて、加算デバイス４２は、音声期間と非音声期間の双方に対する高帯域ＬＰ合成フィルタリングパラメータ１４２を提供する。先行技術による高帯域エンコーダ中のそれと同様に、図２に示すように、スケーリングモジュール５０は、白色ノイズ発生器４によって提供された擬似信号１０４のエネルギを適切にスケーリングし、また、高帯域ＬＰ合成フィルタリングモジュール５２は、白色ノイズを、低周波数帯域と高周波数帯域の双方で有色ノイズを含む擬似広帯域信号１５２に変換する。適切にスケーリングされたこの擬似信号は、参照番号１５０で示される。

本発明を実現する１つの方法は、エネルギスケール推定器２０からの高帯域エネルギスケーリングファクター１２０に基づいて暗雑音の高帯域のエネルギを増すことである。したがって、高帯域エネルギスケーリングファクター１３０は、単に、高帯域エネルギスケーリングファクター１２０を一定の補正ファクターｃ_corrで乗算したものであり得る。たとえば、エネルギスケーラ推定器２０によって用いられた傾斜ファクターｃ_tiltが０．５であり、補正ファクターｃ_corr＝２．０であると、加算された高帯域エネルギファクター１４０、すなわち、α_sumは、次式で計算可能である：

α_sum＝α_sｃ_tilt＋α_nｃ_tiltｃ_corr（式１）

重み補正ファクター１１６、すなわち、α_sが音声だけで１．０に等しくなるように設定され、雑音だけで０．０に設定され、低レベルの暗雑音を持つ音声で０．８に設定され、高レベルの暗雑音を持つ音声で０．５に設定されると、加算された高帯域エネルギファクターα_sumは次式で与えられる：

α_sum＝１．０×０．５＋０．０×０．５×２．０＝０．５（音声だけ）
α_sum＝０．０×０．５＋１．０×０．５×２．０＝１．０（雑音だけ）
α_sum＝０．８×０．５＋０．２×０．５×２．０＝０．６（低暗雑音をもつ音声）
α_sum＝０．５×０．５＋０．５×０．５×２．０＝０．７５（高暗雑音をもつ音声）

この例の実現例を図５に示す。この簡単な手順によれば、高帯域のエネルギを補正することによって、合成された音声の等化性を向上させることが可能である。補正ファクターｃ_corrをここでは用いているが、それは、通常、暗雑音のスペクトルが、音声のスペクトルより平坦であるからである。音声期間では、補正ファクターｃ_corrの影響は、非音声期間中ほど重要ではないが、それは、ｃ_tiltの値が小さいからである。この場合、ｃ_tiltの値は、先行技術におけるように音声信号用に設計されている。

傾斜ファクターを暗雑音の平坦性に従って適応的に変更することが可能である。音声信号では、傾斜は、周波数ドメインのエネルギの一般的な傾きと定義される。一般的には、傾斜ファクターは、低帯域合成信号から計算され、等化された広帯域擬似信号に乗算される。傾斜ファクターは、次式を用いて第１の自動補正係数、すなわち、ｒを計算することによって推定される：

ｒ＝｛ｓ^T（ｎ）ｓ（ｎ−１）｝／｛ｓ^T（ｎ）ｓ（ｎ）｝（式２）

ここで、ｓ（ｎ）は合成された音声信号である。したがって、推定された傾斜ファクターｃ_tiltは、ｃ_tilt＝１．０−ｒで０．２≦ｃ_tilt≦１．０として決定され、上付添え字Ｔはベクトルの転置を示す。

また、スケーリングファクターを、ＬＰＣ励振ｅｘｃ（ｎ）とフィルタをかけられた擬似信号ｅ（ｎ）から次式のように推定することが可能である：

ｅ_scaled＝ｓｑｒｔ［｛ｅｘｃ^T（ｎ）ｅｘｃ（ｎ）｝／｛ｅ^T（ｎ）ｅ（ｎ）｝］ｅ（ｎ）（式３）

スケーリングファクターｓｑｒｔ［｛ｅｘｃ^T（ｎ）ｅｘｃ（ｎ）｝／｛ｅ^T（ｎ）ｅ（ｎ）｝］は、参照番号１４０で示され、また、スケーリングされた白色雑音ｅ_scaledは、参照番号１５０で示される。ＬＰＣ励振、フィルタをかけられた擬似信号および傾斜ファクターは、信号１０２に含むことが可能である。

音声期間におけるＬＰＣ励振ｅｘｃ（ｎ）は、非音声期間のそれとは異なっていることに注意すべきである。低帯域信号の特徴と高帯域信号の特徴とのあいだの関係は、音声期間と非音声期間では異なるため、高帯域のエネルギを傾斜ファクターｃ_tiltに補正ファクターｃ_corrを乗算することによって増加させるのが望ましい。上記の例（図４）では、ｃ_corrは一定値２．０と選択される。しかしながら、補正ファクターｃ_corrは、０．１≦ｃ_tiltｃ_corr≦１．０となるように選択すべきである。エネルギスケール推定器１２０の出力信号１２０がｃ_tiltである場合、エネルギスケール推定器１３０の出力信号１３０はｃ_tiltｃ_corrである。

雑音に対するＬＰフィルタ推定器３２の１実現例は、背景雑音が存在しない場合に高帯域のスペクトルを平坦化するものである。これは、発生した広帯域ＬＰフィルタにならって、

を加算することによって達成可能であるが、

は、等化されたＬＰフィルタであり、１＞β₁≧β₂＞０である。たとえば、α_sum＝α_sβ₁＋α_nβ₂ｃ_corrであり、つぎのようになる：

β₁＝０．５，β₂＝０．５（音声だけ）
β₁＝０．８，β₂＝０．５（雑音だけ）
β₁＝０．５６，β₂＝０．４６（低暗雑音をもつ音声）
β₁＝０．６５，β₂＝０．４０（高暗雑音をもつ音声）

β₁とβ₂間の差が大きくなると、スペクトルは平坦になり、また、重みフィルタは、ＬＰフィルタの効果を打ち消す。

図５に、本発明の１例示の実施形態による移動局２００のブロック図を示す。この移動局は、マイクロフォン２０１、キーパッド２０７、ディスプレイ２０６、イヤホーン２１４、送／受信スイッチ２０８、アンテナ２０９および制御ユニット２０５などの、デバイスでは一般的な部品を備えている。加えて、この図には、モバイル局では一般的な送信ブロックと受信ブロック２０４と２１１が図示されている。送信ブロック２０４は、音声信号を符号化するコーダ２２１を備えている。送信ブロック２０４はまた、チャネルの符号化、解読および変調に必要とされる動作と無線周波数機能を備えているが、これらを分かりやすいように図５に示されている。受信ブロック２１１もまた、本発明による復号ブロック２２０を備えている。復号ブロック２２０は、図３に示す高帯域デコーダ１０のような高帯域デコーダ２２２を備えている。増幅段２０２で増幅されＡ／Ｄコンバータでディジタル化され、マイクロフォン２０１から入力された信号は、送信ブロック２０４、一般的には、送信ブロックから成る音声符号化デバイスに送られる。処理された送信信号は、送信ブロックで変調されて増幅され、送／受信スイッチ２０８を介してアンテナ２０９に送られる。受信される信号は、アンテナから送／受信スイッチ２０８を介して受信ブロック２１１に送られるが、ここで、受信信号が復調され、解読内容とチャネル符号化内容が復号される。結果として得られる音声信号は、Ｄ／Ａコンバータ２１２から増幅器２１３に、さらには、イヤホーン２１４に送られる。制御ユニット２０５は、移動局２００の動作を制御し、ユーザがキーパッド２０７から入力した制御コマンドを読み取り、メッセージをユーザに対してディスプレイ２０６を用いて与える。

本発明によれば、高帯域デコーダ１０もまた、普通の電話網や、たとえばＧＳＭネットワークなどの移動局ネットワークなどの電気通信ネットワーク３００で使用可能である。図６に、このような電気通信ネットワークのブロック図の例を示す。たとえば、電気通信ネットワーク３００は、電話交換機または対応するスイッチングシステム３６０を備えることができるが、これに対して、電気通信ネットワークの通常の電話機３７０、基地局３４０、基地局コントローラ３５０および他の中央デバイス３５５がカップリングされている。移動局３３０は、電気通信ネットワークに基地局３４０を介して接続を確立することが可能である。図３に示す高帯域デコーダ１０に類似した高帯域デコーダ３２２を含む復号ブロック３２０は、たとえば基地局３４０中に設置すれば特に利点がある。しかしながら、復号ブロック３２０もまた、基地局コントローラ３５０または他の中央のデバイスまたは、たとえばスイッチングデバイス３５５内にも設置可能である。移動局システムが、たとえば基地局と基地局コントローラ間で別のトランスコーダを用いて、無線チャネルから取られた符号化された信号を電気通信システムで転送される一般的な６４キロビット／秒信号に変換またはその逆をすれば、復号ブロック３２０もまた、このようなトランスコーダ内に設置することが可能である。一般に、高帯域デコーダ３２２を含む復号ブロック３２０は、符号化されたデータストリームを符号化されていないデータストリームに変換する電気通信ネットワーク３００のどのエレメント内にも設置可能である。復号ブロック３２０は、モバイル局３３０から入力される符号化された音声信号を復号してフィルタリングし、その後で、音声信号を、圧縮されていない通常の仕方で、電気通信ネットワーク３００中に前方転送することが可能である。

本発明は、ＣＥＬＰタイプの音声コーデックに応用可能であり、また、他のタイプの音声コーデックにも適用可能である。さらに、図３に示すように、デコーダ内で１つだけのエネルギスケール推定器を用いて、高帯域エネルギを推定する、または、１つのＬＰフィルタ推定器を用いて音声信号と暗雑音信号をモデリングすることが可能である。

このように、本発明を好ましい実施形態を参照して説明したが、形態と詳細における前記の様々な他の変更、省略および修正が本発明の精神と範囲から逸脱することなく可能であることが当業者には理解されよう。

線形予測エンコーダ／デコーダを用いる送信機／受信機を示す略図である。白色雑音を擬似信号として用いて高帯域をフィルタリングする先行技術によるＣＥＬＰ音声エンコーダ／デコーダを示す略図である。本発明による高帯域デコーダを示す略図である。入力信号中の雑音レベルに従った重み計算を示すフローチャートである。本発明による、デコーダを含む移動局を示す略図である。本発明による、デコーダを用いる電気通信ネットワークを示す略図である。

Claims

高周波数成分と低周波数成分とを有する合成された音声を提供するために、音声期間と非音声期間とを有する音声信号を示す符号化されたビットストリームを復号化する方法であって、
前記方法が、
音声信号における低周波数帯域に特有の音声関連パラメータを、合成された音声の高周波数成分を提供するための擬似信号を生成するために使用し、
音声期間を示す第１値および非音声期間を示す第２値のうちの１つを有する音声活動性信号が受信され、
該方法が、
音声活動性信号に基づいて前記音声期間中および非音声期間中に擬似信号をスケーリングする工程を含んでなる
ことを特徴とする方法。
音声信号を示す音声パラメータに基づいて前記音声期間中の擬似信号を合成フィルタにかける工程と、
ノイズ信号を示す音声パラメータに基づいて非音声期間中の擬似信号を合成フィルタにかける工程
をさらに含むことを特徴とする請求項１記載の方法。
前記第１値が音声信号を示し、前記第２値がノイズ信号を示してなることを特徴とする請求項１または２記載の方法。
前記第１値がノイズ信号をさらに示してなることを特徴とする請求項３記載の方法。
前記音声関連パラメータが、音声信号を示す線形予測符号化係数を含んでなることを特徴とする請求項１〜４のいずれか１項に記載の方法。
前記音声期間中の擬似信号のスケーリングが、合成された音声の低周波数成分から計算されたスペクトル傾斜ファクター（tilt factor）にさらに基づいてなることを特徴とする請求項１〜５のいずれか１項に記載の方法。
前記入力信号が暗雑音を含み、前記音声期間中の擬似信号のスケーリングが該暗雑音の補正ファクター（correction factor）の特性にさらに基づいてなることを特徴とする請求項６記載の方法。
前記非音声期間中の擬似信号のスケーリングが補正ファクターにさらに基づいてなることを特徴とする請求項７記載の方法。