JP2007065679A

JP2007065679A - 音声復号器におけるフレームエラー隠蔽に対する改善されたスペクトルパラメータ代替

Info

Publication number: JP2007065679A
Application number: JP2006273448A
Authority: JP
Inventors: Jari Maekinen; メキネン、ヤリ; Hannu J Mikkola; イーミッコラ、ハッヌ; Janne Vainio; ヴァイノ、ヤッネ; Jani Rotola-Pukkila; ロトラ−プッキラ、ヤニ
Original assignee: Nokia Inc
Current assignee: Nokia Inc
Priority date: 2000-10-23
Filing date: 2006-10-04
Publication date: 2007-03-15
Also published as: ES2276839T3; WO2002035520A2; PT1332493E; AU1079902A; ATE348385T1; ZA200302778B; JP2004522178A; KR20030048067A; CA2425034A1; US7529673B2; US20070239462A1; EP1332493A2; DE60125219D1; AU2002210799B2; DE60125219T2; US7031926B2; US20020091523A1; CN1291374C; CN1535461A; WO2002035520A3

Abstract

【課題】合成音声を提供する際に複合器によって複合化されるフレーム中のフレームエラーの影響を隠蔽するための方法および装置の提供。
【解決手段】音声複合器によって通信チャネル経由で受信された不良フレームの影響を前記不良フレーム（劣化フレームまたは損失フレームのいずれかである不良フレーム）のパラメータの値を、最近受信した有効フレームの少なくとも部分的な適応平均値にもとづく値で代替することによって隠蔽される。しかしながら、（損失フレームに対向する）劣化フレームの場合、もし前記不良フレームが所定の基準を満たせば、不良フレーム自体を使用する。隠蔽の目的は、不良フレームに最も適したパラメータを見つけだし、合成音声の主体的品質を可能な限り高くすることである。
【選択図】図７

Description

本発明は、音声復号器（speech decoder）に関し、より詳しくは音声復号器によって受信される不良フレームを処理するために用いられる方法に関する。

デジタルセルラシステムにおいて、ビットストリーム（bit stream）が、無線で移動局を基地局と接続している通信チャネルを介して送信されると言われる。ビットストリームは、音声フレームを含むフレームで構成されている。送信中にエラーが生じるか否かは、現在のチャネルの条件に依存する。エラーを含んで検出された音声フレームは単に不良フレーム（bad frame）と呼ばれる。従来技術においては、不良フレームの場合、過去の（誤差のない音声フレームの）正しいパラメータから導出される音声パラメータが不良フレームの音声パラメータに代替される。このような代替を行なうことにより不良フレームを処理する目的は、音声品質における顕著な劣化を引き起こさずに、エラーのある音声フレームの原型が損なわれた音声パラメータを隠すことである。

近年の音声コーデック（codec）は、音声信号を短い断片、すなわち、前記フレームにおいて処理することによって動作する。音声コーデックの典型的なフレーム長は２０ｍｓであり、８ｋＨｚのサンプリング周波数を仮定すると１６０音声サンプルに相当する。いわゆる広帯域コーデックにおいて、フレーム長は再び２０ｍｓとすることができるが、１６ｋＨｚのサンプリング周波数を仮定すると３２０の音声サンプルに対応できる。フレームはさらに複数のサブフレームに分割されてもよい。

あらゆるフレームに対し、符号器（encoder）は入力信号のパラメータ表示を決定する。パラメータは量子化されたのち、デジタル形式で通信チャネルを伝わって送信される。復号器は受信したパラメータにもとづき合成された音声信号を生成する（図１参照）。

抽出された典型的な符号化パラメータのセットは、短期間の予測において使用されるスペクトルパラメータ（いわゆる線形予測符号化パラメータ、またはＬＰＣ）、信号の長期間予測に使用されるパラメータ（いわゆる長期予測パラメータ、またはＬＴＰ）、種々の利得パラメータ、および最後に励振パラメータを含んでいる。

線形予測符号化と呼ばれるものは、通信チャネルで送信するために音声の符号化に広範に使用され成功している方法である。線形予測符号化は声道（vocal tract）の周波数形状の特性を表す。ＬＰＣパラメータ化することにより音声の短い断片のスぺクトル形状を特徴づける。ＬＰＣパラメータは、ＬＳＦ（線スペクトル周波数）、または同等に、ＩＳＰ（イミッタンススペクトル対）として表すことができる。ＩＰＳは逆フィルタ変換関数Ａ（ｚ）を、１つは偶対称性、他の１つは奇対称性を有する２つの変換関数のセットに分解することによって得られる。当該ＩＳＰは、イミッタンススペクトル周波数（ＩＳＦ）とも呼ばれ、ｚ単位円上のこれらの多項式の根である。線スペクトル対（線スペクトル周波数とも呼ばれる）は、イミッタンススペクトル対と同じ方法で定義することができる。これらの表示の差異はＬＰフィルタ係数を別のＬＰＣパラメータ表示（ＬＳＰまたはＩＳＰ）に変換する変換アルゴリズムである。

ときに、符号化された音声パラメータが送信される通信チャネルの状態がよくなく、ビットストリームのエラー、すなわちフレームエラー（そして不良フレーム）を引き起こすことがある。損失したフレーム(lost frame)および劣化したフレーム（corrupted frame）という２種類のフレームエラーが存在する。劣化したフレームの場合、特定の音声セグメント（典型的に２０ｍｓの時間）を記述するいくつかのパラメータのみが損なわれる。フレーム損失型フレームエラーにおいては、あるフレームが全体的に劣化するか、またはまったく受信されないかのいずれかである。

通常のインターネット接続により時々提供されるような、パケットにもとづく音声通信のための送信システム（１つのフレームが通常単一パケットとして伝えられるシステム）においては、データパケット（またはフレーム）が目的の受信機に決して到着しないか、またはデータパケット（またはフレーム）の到着が非常に遅く、会話音声の同時性のために使用できないということがあり得る。このようなフレームは損失フレーム（lost frame）と呼ばれる。このような状況における劣化フレーム（corrupted frame）は、確かに受信機に（通常単一パケット内で）到着するが、たとえばサイクリック冗長チェック（cyclic redundancy check：CRC）により表示されるようにエラー状態にあるいくつかのパラメータを含んだフレームである。これは、移動体通信接続のグローバルシステム（ＧＳＭ）接続における接続などのような、通常回路切替接続（circuit-switched connection）における状況である。ＧＳＭにおいては劣化フレームにおけるビットエラー率（ＢＥＲ）は、典型的には５％以下である。

こうして、不良フレームの２つの場合（劣化フレームおよび損失フレーム）に対して、不良フレームの発生に対する最適な訂正の応答方法が異なることがわかる。劣化フレームの場合、パラメータについて低い信頼性の情報が存在し、損失フレームの場合、情報が入手できないために異なる応答が存在する。

従来技術によれば、受信された音声フレームにエラーが検出されたとき、代替およびミューティング手続が開始される。不良フレームの音声パラメータは、過去の有効なフレーム（good frame）の減衰値か修正値により代替される。もっとも、エラーを含んだフレームから、たとえば、符号励振線形予測パラメータ（ＣＥＬＰ）、または、より簡単には励振パラメータなど、最小限の重要なパラメータのいくつかが使用される。

従来技術によるいくつかの方法において、パラメータ履歴と呼ばれるバッファが（受信機において）使用され、バッファにはエラーなく受信された最新の音声パラメータが格納される。あるフレームがエラーなく受信されるとき、パラメータ履歴は更新され、フレームによって伝えられた音声パラメータは復号化に使用される。不良フレームがＣＲＣチェックまたは他のあるエラー検出方法によって検出されると、不良フレームインジケータ（ＢＦＩ）が真に設定されて、パラメータの隠蔽（concealment）（対応する不良フレームの代替およびミューティング）が始まる。従来技術におけるパラメータの隠蔽の方法は、劣化フレームの隠蔽のためにパラメータ履歴を用いる。前記のように、受信されたフレームが不良フレームとして区別（ＢＦＩが真に設定）されるとき、不良フレームからのいくつかの音声パラメータは使用されてもよい。たとえば、ＥＴＳＩ（欧州電気通信標準化機構）規格０６．９１において与えられるＧＳＭＡＭＲ（adaptive multi-rate）音声コーデックの劣化フレーム代替のための対応策例では、チャネルからの励振ベクトルが常時使用される。音声フレームが損なわれる（たとえば、いくつかのＩＰにもとづく送信システムにおけるなどの、フレームが使用されるにはあまりに遅く到着する状況も含む）ときは、使用すべき損失フレームからいかなるパラメータも明らかに利用できない。

いくつかの従来のシステムにおいて、受信されたすぐ前の良好なスペクトルパラメータは、一定の所定平均値に向かいわずかにシフトされたのち、不良フレームのスペクトルパラメータの代わりに代替される。ＧＳＭ０６．９１ＥＴＳＩ基準によれば、隠蔽はＬＳＦフォーマットでなされ、つぎのアルゴリズム
i＝０からＮ−１に対し、

で与えられる。ここで、α＝０．９５であり、Ｎは使用される線形予測（ＬＰ）フィルタの次数である。量LSF_q1は、第２サブフレームの量子化されたＬＳＦベクトルであり、量LSF_q2は、第４サブフレームの量子化されたＬＳＦベクトルである。第１および第３サブフレームのＬＳＦベクトルは、前記２つのベクトルから補間される。（フレームｎにおける第１サブフレームのＬＳＦベクトルは、フレームｎ−１すなわち過去のフレームにおける第４サブフレームのＬＳＦベクトルから補間される）量past_LSF_qは、過去フレームからの量LSF_q2である。量mean_LSFは成分が予め決められた定数のベクトルであり、その成分は復号化された音声シーケンスに依存しない。一定の成分を有する量mean_LSFは、一定の音声スペクトルを生成する。

そのような従来技術システムは、常にスペクトル係数を一定量、ここではmean_LSF(i)として示される量に向かってシフトさせる。その一定量は長時間かつ数個の連続的なトーカ（talker）にわたり平均することによって構成される。したがって、そのようなシステムは妥協的解決策を提示するのみであって、特別な話者または状況のための最適な解決策も提示しない。妥協の代償は、合成された音声における悩ましいアーチファクト（artifact）を放置することと、合成音声がどう聞こえるかという点で（すなわち、合成音声の品質という点で）音声をより自然にすることとのあいだにある。

劣化した音声フレームの場合、改善されたスペクトルパラメータ代替、もしかすると音声パラメータ履歴およびエラーを含むフレーム両方の解析に基づく代替が必要とされている。エラーを含む音声フレームの適切な代替は、ビットストリームから生成される合成音声の品質に重大な効果を有する。

したがって、本発明は、合成音声を提供する際に復号器によって復号化されるフレーム中のフレームエラーの影響を隠蔽するための方法および対応する装置を提供し、フレームは通信チャネルを伝わって復号器へ提供され、各フレームは音声を合成する際に復号器によって使用されるパラメータを提供し、その方法は、フレームが不良フレームであるか否かを判断するステップと、最も最近に受信された有効なフレームの所定数のスペクトルパラメータの少なくとも部分的な適応（adaptive）平均値に基づいて不良フレームのパラメータの代替を与えるステップとを有する。

本発明の別の態様では、その方法が、不良フレームが定常的音声を伝達するのか、それとも非定常的音声を伝達するのかを判断するステップを含み、加えて、不良フレームが定常的音声を伝達するのか、あるいは非定常的音声を伝達するのかに依存する方法で不良フレームに代替を提供するステップが実行される。本発明のさらに追加の態様では、定常的音声を伝達する不良フレームの場合、不良フレームの代替を提供するステップは、最も最近受信された有効なフレームの所定数のパラメータの平均値を使用して実行される。本発明の別のさらなる態様では、非定常的音声を伝達する不良フレームの場合、不良フレームに代替を与えるステップが、多くとも、所定数の最も最近受信された有効なフレームのパラメータの平均値の所定の部分を使用して実行される。

本発明の別の追加態様では、その方法は、不良フレームが所定の基準を満たすかどうかを判断し、満たす場合には、不良フレームを代替する代わりに不良フレームを使用するステップも含む。このようなステップを有する本発明のさらなる追加の態様では、所定の基準は、４つの比較、つまりフレーム間比較、フレーム内比較、２点比較、および単一点比較のうちの１または２以上を行なうことを含んでいる。

別の観点から、本発明は、合成音声を提供する際に復号器によって復号化されるフレーム中のフレームエラーの影響を隠す方法であり、フレームは通信チャネルを伝わって復号器に提供され、それぞれのフレームが音声を合成する際に復号器によって使用されるパラメータを提供し、フレームが不良フレームであるか否かを判断するステップと、過去のイミタンススペクトル周波数（ＩＳＦ）が以下により与えられる部分的適応平均値に向けてシフトされる、不良フレームのパラメータの代替を提供する工程とを含み、

ここで、α＝０．９であり、
ISF_q（i）は、カレントフレームのＩＳＦベクトルのｉ番目の成分であり、
past_ISF_q（i）は、過去のフレームからのＩＳＦベクトルのｉ番目の成分であり、ISF_mean(i)は適応平均値と一定の所定平均値ＩＳＦベクトルの組み合わせであるベクトルのｉ番目の成分であり、つぎの式、

を用いて計算される。ここで、β＝０.７５であり、

であり、ISF_{adaptive_mean}(i)は、
ＢＦＩ＝０の場合に必ず更新され、ここでＢＦＩは不良フレームインジケータであり、ISF_{const_mean}（i）はＩＳＦベクトルの長期平均値から形成されるベクトルのｉ番目の成分である、
本発明の前記および他の目的、特徴および優位点は、添付図面と関連して提示される以後の詳細な説明を検討することから明らかになるだろう。

本発明にしたがって、音声信号が通信路を通って送信された後に不良フレームが復号器によって検出されるとき（図１）、音声信号の劣化したスペクトルパラメータは、通信チャネルを通って最近通信されたスペクトルパラメータの分析に基づいて（他のスペクトルパラメータで劣化したパラメータの代わりに代替することにより）隠される。不良フレームの劣化したスペクトルパラメータを効果的に隠すことは、劣化したスペクトルパラメータがアーチファクト（明らかに音声ではない可聴音）を引き起こす可能性があるためだけではなく、以後のエラーのない音声フレームの主観的品質（subjective quality）が（少なくとも線形予測量子化が使用されるときに）低下するために重要である。

本発明による分析は、線スペクトル周波数（ＬＳＦ）などのスペクトルパラメータのスペクトル影響（spectral impact）の局所化した性質も利用する。ＬＳＦのスペクトル影響は、１つのＬＳＦパラメータが量子化およびコード化プロセスによって逆に変化する場合に、ＬＰスペクトルがＬＳＦパラメータによって表される周波数の近くだけで変化し、スペクトルの残りを未変更のまま残すという点で局所化していると言われている。
損失フレームまたは劣化フレームのいずれかに対する一般的発明
本発明によれば、アナライザは、過去に受信された音声パラメータの履歴に基づき、不良フレームの場合のスペクトルパラメータ隠蔽を判断する。アナライザは、復号化される音声信号の種類（つまり、それが定常的であるか、それとも非定常的であるか）を判断する。音声パラメータの履歴は、復号化された音声信号（定常的として、または非定常的として、および詳細には有声か、有声ではないか）を分類するために使用される。使用される履歴は、おもにＬＴＰおよびスペクトルパラメータの最も最近の値から導き出すことができる。

定常的音声信号および有声音声信号という用語は、実際には同義である。有声音声シーケンスは、通常、相対的に定常的な信号であるが、無声の音声シーケンスは通常定常的な信号ではない。われわれは、その専門用語がより正確であるため、定常的音声信号および非定常的音声信号という専門用語を明細書中で使用する。

フレームは、フレームに対応する音声のフレームで示されるように、総励振（total excitation）のパワーに対する適応型励振（adaptive excitation）のパワーの比率にしたがって有声または無声（および、定常的または非定常的とも）として分類できる（フレームは、適応型励振と総励振の両方ともがそれにしたがって構成されるパラメータを含む。このようにした後に、総パワーが計算できる）。

音声シーケンスが定常的である場合、前述したように、劣化したスペクトルパラメータを隠す従来の技術による方法は特に効果的なものではない。これは定常的な隣接スペクトルパラメータがゆっくりと変化するため、過去の有効なスペクトル値（劣化したり、損失していないスペクトル値）は通常次のスペクトル係数にとって有効な推定値であり、さらに具体的には、従来の技術が不良スペクトルパラメータの代わりに（それらを隠すために）使用する、定数平均値に向かって動かされる過去のフレームからのスペクトルパラメータより優れている。図２は、定常的音声信号（およびより具体的にはに有声音声信号）について、スペクトルパラメータの１つの例としてＬＳＴの特性を示す。図２は、定常的音声の隣接フレームのＬＳＦ係数［０...４ｋＨｚ］を示しており、Ｙ軸は周波数で、Ｘ軸はフレームであり、ＬＳＦが定常的音声についてフレームからフレームへ相対的にゆっくりと変化することを示している。

定常的音声セグメントのあいだ、本発明により以下のアルゴリズムを使用して隠蔽が（損失フレームまたは劣化フレームのどちらかについて）実行される。

ｉ＝０からＮ−１（フレーム内の要素）に対し、

ここで、αは概ね０．９５であり得て、ＮはＬＰフィルタの次数であり、Ｋは適応長である。LSF_q1(i)は第２ブフレームの量子化されたＬＳＦのベクトルであり、LSF_q2（i）は、第４サブフレームの量子化されたＬＳＦベクトルである。第１サブフレームと第３サブフレームのＬＳＦベクトルは、これら２つのベクトルから補間される。量past_LSF_qood(i)(0)は、過去の有効なフレームからの量LSF_q2(i-1)の値に等しい。量past_LSF_good(i)(n)は、ｎ＋１回前の有効なフレーム（つまり、現在の不良フレームにｎ＋１フレーム分先行する）からのＬＳＦパラメータのベクトルの成分である。最後に、量adaptive_mean_LSF(i)は、過去の有効なＬＳＦベクトルの平均値（算術平均）である（つまり、それはベクトル量の成分であり、各成分は過去の有効なＬＳＦベクトルの対応する成分の平均である）。

本発明の適応平均法が、従来の技術の方法と比較して合成音声の主観的品質を改善することが立証された。立証は、音声がエラーを誘発する通信チャネルを通して送信されるシミュレーションを使用した。不良フレームが検出されるたびに、スペクトル誤差が計算された。スペクトル誤差は、元のスペクトルから、不良フレームのあいだに隠蔽に使用されたスペクトルを差し引くことによって得られた。絶対誤差は、スペクトル誤差から絶対値を取ることにより計算される。図４および図５は、それぞれ従来の技術の場合と、本発明の方法の場合のＬＳＦの絶対偏差エラーのヒストグラムを示している。最適な誤差の隠蔽はゼロに近い誤差を有する。つまり、誤差がゼロに近いとき、隠蔽に使用されるスペクトルパラメータは元の（劣化しているか、あるいは損失している）スペクトルパラメータに非常に近い。図４および図５のヒストグラムから分かるように、本発明の適応平均法（図５）は、定常的音声シーケンスのあいだ、従来の技術の方法（図４）よりうまく誤差を隠している。

前述されたように、非定常的信号（つまり、より不正確には無声信号）のスペクトル係数は、図３に示されるように、隣接するフレーム間で変動する。図３は、非定常的音声の場合の隣接するフレームのＬＳＦを示し、Ｙ軸が周波数であり、Ｘ軸がフレームのグラフである。このような場合、最適な隠蔽方法は定常的音声信号の場合でと同じではない。非定常的音声の場合、本発明は、以下のアルゴリズム（非定常的アルゴリズム）にしたがって、不良（劣化している、または損失している）非定常的音声セグメントに隠蔽を提供する。つまり、
ｉ＝０からＮ−１に対し、

であり、この場合、ＮはＬＰフィルタの次数であり、αは通常約０.９０であり、LSF_q1（i）とLSF_q2（i）は式（2.1）におけるように、カレントフレームのＬＳＦベクトルの２つの集合であり、past_LSF_q（i）は過去の有効なフレームからのLSF_q2（i）であり、partly_adaptive_mean_LSF（i）は適応平均ＬＳＦベクトルと平均ＬＳＦベクトルの組み合わせであり、adaptive_mean_LSF（i）は最新のＫ個の有効なＬＳＦベクトル（ＢＦＩが設定されていないときに更新される）の平均であり、mean_LSF（i）は定数平均値ＬＳＦであり、音声を合成するために使用されるコーデックの設計プロセス中に生成される。それは、いくつかの音声データベースの平均ＬＳＦである。パラメータβは約０.７５である。βは、通常、非定常と対比して音声が定常的である程度を表すために使用される値である（それは、固定コードブック励振エネルギー（fixed codebook excitation energy）に対する長期予測励振エネルギーの比率に基づき、つまりさらに正確には、以下の公式を使用して計算されることもある。つまり、

であり、この場合

ここで、energy_pitchはピッチ励振（pitch excitation）のエネルギーであり、energy_innovationは革新コード励振（innovation code excitation）のエネルギーである。エネルギーの大部分が長期予測励振にあるとき、復号化される音声は、たいていは定常的である。エネルギーの大部分が固定コードブック励振にあるときには、音声は、たいていは非定常的である）。

β＝１．０である場合、式（2.3）は、従来の技術である式（1.0）に変わる。β＝０．０である場合、式（2.3）は、定常的セグメントについて本発明によって使用される式（2.1）に変わる。（複雑度を妥当なレベルに保つことが重要である応用例における）複雑度に敏感なインプリメンテーションの場合には、定常的セグメントと非定常的セグメントの両方について、βをなんらかの妥協値、たとえば０．７５に固定することができる。損失フレームに対するスペクトルパラメータ隠蔽。

損失フレームの場合、過去のスペクトルパラメータの情報だけを使用できる。代替されるべきスペクトルパラメータは、たとえばスペクトル値およびＬＴＰ（長期予測）値のパラメータ履歴に基づいた基準にしたがって計算される。ＬＴＰパラメータは、ＬＴＰ（長期予測）利得およびＬＴＰ（長期予測）遅延値を含む。ＬＴＰ（長期遅延予測）は、カレントフレームの過去のフレームに対する相関性を表す。たとえば、代替されるべきスペクトルパラメータを計算するために使用される基準は、最後の有効なＬＳＦが適応ＬＳＦ平均値によって修正されるべきか、または従来の技術におけるように定数平均値によって修正されるべきかという状況を区別できる。

特に劣化フレーム用の代替スペクトルパラメータ隠蔽
音声フレームが（損失しているのとは対照的に）劣化しているとき、本発明の隠蔽手順をさらに最適化することができる。このような場合、スペクトルパラメータは、音声復号器で受信されるときに完全にまたは部分的に正しい場合があり得る。たとえば、（通常のＴＣＰ／ＩＰインターネット接続におけるように）パケットをベースにした接続では、ＴＣＰ／ＩＰ型の接続を使用する場合、通常すべての不良フレームが損失フレームであるために、劣化フレームの隠蔽方法は通常可能ではない。しかしながら、回路切替式のＧＳＭまたはＥＤＧＥ接続でのような他の種類の接続の場合、本発明の劣化フレームの隠蔽方法を使用することができる。したがって、パケット切替接続（packet switched connection）の場合、以下の代替方法を使用することはできないが、回路切替接続の場合、このような接続では、不良フレームは少なくともときおり（および実際には通常）劣化フレームだけであるため、以下の代替方法を使用することができる。

ＣＲＣチェックまたはチャネル復号化プロセスで使用される他のエラー検出機構の後にＢＦＩフラグが設定されるとき、ＧＳＭの仕様にしたがって不良フレームが検出される。エラー検出機構は、主観的に最上位の(most significant)ビット、つまり合成音声の品質に最大の影響を及ぼすビットにおけるエラーを検出するために使用される。いくつかの従来の技術の方法では、フレームが不良フレームであることが示されているとき、これらの最上位のビットは使用されない。しかしながら、フレームは（ＢＦＩフラグを設定するには１つでも十分であるが）数個のビットエラーしか有さないことがあるため、たとえビットの大部分が正しくても、フレーム全体を廃棄することがあり得る。ＣＲＣチェックは、単にフレームが誤ったフレームを有するか否かを検出するだけであるが、ＢＥＲ（ビット誤り率）の推定は行なわない。図６は、不良フレームが検出されるときにビットがどのように従来の技術にしたがって分類されるのかを示す。図６では、ＣＲＣチェックに含まれるフレームのいくつかのビットが破壊され、したがってＢＦＩが１に設定される条件で、単一のフレームが一度に１ビットづつ（左から右へ）通信チャネル上を復号器へ通信中として示されている。

図６から分かるように、受信されたフレームが多くの正しいビットを含むことがあっても（フレーム中のＢＥＲは、チャネル条件が相対的に良好であるときには通常小さい）、従来の技術はそれらを使用しない。対照的に、本発明は、受信されたパラメータが劣化しているのかどうかを推定しようと試み、パラメータが劣化していない場合には、発明された方法はそれらを使用する。

表１は、適応マルチレート（ＡＭＲ）広帯域（ＷＢ）復号器の例における本発明による劣化フレーム隠蔽の背景にある考え方を明示している。

ＡＭＲＷＢ（適応マルチレート広帯域）復号器の場合、毎秒１２．６５ｋｂｉｔのモードは、チャネル搬送波対干渉比（channel carrier to interference ratio：Ｃ／Ｉ）が約９ｄＢから１０ｄＢの範囲内にあるときに使用するのに優れた選択肢である。表１から、ＧＭＳＫ（ガウス最小シフトキーイング）変調方式を使用するＣ／Ｉが９ｄＢから１０ｄＢの範囲にあるＧＳＭチャネル状況の場合に、受信された不良フレームの約３５％から５０％が完全に正しいスペクトルを有することが分かる。また、すべての不良フレームスペクトルパラメータ係数の約７５％から８５％が正しい。前述されたように、スペクトル影響の局所化した性質のため、スペクトルパラメータ情報を不良フレームで使用することができる。Ｃ／Ｉが６ｄＢから８ｄＢの範囲内、または範囲以下であるチャネル状況は非常に質が悪いので、毎秒１２．６５ｋｂｉｔのモードを使用してはならない。代わりに、他のなんらかのさらに低いモードを使用しなければならない。

劣化フレームの場合の本発明の基本的な考えは、（後述される）基準にしたがって、劣化フレームからのチャネルビットが、その劣化フレームを復号化するために使用されるということである。スペクトル係数の基準は、復号化される信号の音声パラメータの過去の値に基づいている。不良フレームが検出されるとき、受信されたＬＳＦまたはチャネル上で通信された他のスペクトルパラメータは、基準が満たされる場合に使用される。言い換えると、受信されたＬＳＦが基準を満たす場合、それらは、丁度フレームが不良フレームでない場合にそれらが使用されるように、復号化の際に使用される。それ以外の場合、つまりチャネルからのＬＳＦが基準を満たさない場合、不良フレームのスペクトルは、式（2.1）または（2.2）を使用して前述の隠蔽方法にしたがって計算される。スペクトルパラメータを受け入れるための基準は、たとえば、いわゆるItakura-Saito法スペクトル距離の計算などのスペクトル距離計算を使用して実現され得る（たとえば、ジョン・アール・デラー・ジュニア、ジョン・エイチ・エル・ハンセンおよびジョン・ジー・プロアキス，「音声信号の離散時間処理（Discrete-Time Processing of Speech Signals）」、IEEEプレス，2000年，ｐ．329参照）。

チャネルからスペクトルパラメータを受け入れるための基準は、定常的音声信号の場合には非常に厳格でなければならない。図３に図示されるように、スペクトル係数は定常的シーケンス中、（その名のとおりに）非常に安定しているので、定常的音声信号の劣化しているＬＳＦ（または他の音声パラメータ）が通常容易に検出できる。（というのは、定常的音声信号の劣化しているＬＳＦ（または他の音声パラメータ）は、それらが劣化していない隣接フレームのＬＳＦと劇的に異なることに基づいて、劣化していないＬＳＦから区別可能であるからである）他方、非定常的音声信号の場合、基準はそれほど厳格である必要はない。つまり、非定常的音声信号のスペクトルは、より大きな変化量を有することができる。非定常的音声（つまり、多かれ少なかれ無声音声）の場合、音声パラメータが正しいかどうかに関わりなく可聴アーチファクトが起こりにくいため、非定常的音声信号の場合、正しいスペクトルパラメータの正確さは可聴アーチファクトに関して厳格ではない。言い換えると、たとえスペクトルパラメータのビットが劣化しても、いくつかの劣化しているビットを含む非定常的音声のスペクトルパラメータは通常可聴アーチファクトを発生しないために、それらは依然として基準にしたがって許容できる。本発明にしたがって、合成音声の主観的品質は、受信されたＬＳＦについてのすべての入手可能な情報を使用することによって、および伝達されている音声の特性にしたがってどのＬＳＦを使用するのかを選択することによって劣化フレームの場合にできる限り小さく減ぜられなければならない。

したがって、本発明は劣化フレームを隠す方法を含んでいるが、本発明は、非定常的音声を伝達する劣化フレームの場合に、代替策として、満たされるならば劣化フレームをそのまま復号器に使用させる基準を使用することを包含する。言い換えれば、たとえＢＦＩが設定されていても、フレームが使用されるであろう。該基準は、本質的には、使用できる劣化フレームと、使用できない劣化フレームを区別するために使用される閾値である。その閾値は、劣化フレームのスペクトルパラメータが最も最近受信された有効なフレームのスペクトルパラメータとどの程度異なるのかに基づく。

劣化している可能性のあるスペクトルパラメータを使用することは、おそらく、劣化しているＬＴＰ遅延値などの他の劣化しているパラメータを使用することより可聴アーチファクトに敏感である。このため、おそらく劣化しているスペクトルパラメータを使用するかどうかを判断するために使用される基準は特に信頼性がなければならない。いくつかの実施の形態では、基準として（過去のフレームの対応するスペクトルパラメータからの）最大スペクトル距離を使用するのが有利である（疑わしいスペクトルパラメータが最大スペクトル距離を超えて使用されるべきではない）。このような実施形態では、閾値と比較するべきスペクトル距離を定量化するため、周知のItakura-Saito法距離計算が使用できるであろう。代わりに、劣化している可能性があるスペクトルパラメータを使用するかどうかを判断するために、スペクトルパラメータの固定された統計値または適応的統計値が使用できるであろう。また、基準を作成するためには利得パラメータなどの他の音声パラメータも使用できるであろう（他の音声パラメータが、最も最近の有効フレーム内の値と比較して、カレントフレーム内で大幅に異ならない場合、受信されたスペクトルパラメータも基準を満たしたのであれば、おそらくスペクトルパラメータを使用して大丈夫である。言い換えると、受信されたスペクトルパラメータを使用するかどうかを判断する適切な基準を設定するため、追加成分として、ＬＴＰ利得などの他のパラメータを使用することができる。他の音声パラメータの履歴が、音声特性の認知改善のために使用できる。たとえば、履歴が、復号化された音声シーケンスに定常的特性があるのか、あるいは非定常的特性があるのかを判断するために使用できる。復号化された音声シーケンスの特性が既知である場合には、劣化フレームからおそらく正しいスペクトルパラメータを検出することはさらに容易であり、どの種類のスペクトルパラメータ値が受信された劣化フレームで伝達されたと考えられるのかを推定することがさらに容易である）。

好ましい実施形態の本発明にしたがって、およびここでは図８を参照すると、劣化フレームについてスペクトルパラメータを使用するかどうかを判断するための基準は、前述されたようにスペクトル距離という概念に基づいている。さらに具体的には、劣化フレームのＬＳＦ係数を受け入れるための基準が満たされているかどうかを判断するために、受信機のプロセッサは、所定数の初期の最も最近のフレームのＬＳＦ係数とともにＬＳＦバッファに格納される、最後の有効なフレームのＬＳＦ係数と比較して、どのくらい多くのＬＳＦ係数が周波数軸に沿って移動したのかをチェックするアルゴリズムを実行する。

好適な実施形態による基準は、４つの比較、つまりフレーム間比較、フレーム内比較、２点比較および単一点比較のうちの１または２以上を行なうことを含む。

第１比較であるフレーム間比較では、劣化フレームに隣接するフレーム内のＬＳＦベクトル要素間の差異が過去のフレームの対応する差異と比較される。差異は以下のように決定される。つまり、

ここで、Ｐはフレームのスペクトル係数の数であり、L_n（i）は劣化フレームのｉ番目のＬＳＦ要素であり、L_n-1（i）は劣化フレームの前のフレームのｉ番目のＬＳＦ要素である。ｋがＬＳＦバッファの長さである場合に、もし差異d_n（i）がd_n-1（i）、d_n-2（i）、...、d_n-k（i）と比べて高すぎると、劣化フレームのＬＳＦ要素、L_n（i）は廃棄される。

第２の比較であるフレーム内比較は、同じフレーム内の隣接するＬＳＦベクトル要素間の差異の比較である。ｎ番目のフレームの候補ｉ番目のＬＳＦ要素、Ｌ_n（i）と、ｎ番目のフレームの（i-1）番目のＬＳＦ要素L_n-1（i）との差異は以下のように決定される。つまり、

ここで、Ｐはスペクトル係数の数であり、e_n（i）はＬＳＦ要素間の距離である。距離は、フレームのすべてのＬＳＦベクトル要素のあいだで計算される。もし差異e_n（i）がe_n-1（i）、e_n-2（i）、...，e_n-k（i）と比べて大きすぎる、あるいは小さすぎる場合には、ＬＳＦ要素L_n（i）とL_n（i-1）のうちの１つまたは他方、あるいは両方とも廃棄されるであろう。

第３の比較である２点比較は、候補ＬＳＦ要素L_n（i）を含むクロスオーバが発生したかどうか、つまり候補要素より次数で低い要素L_n（i-1）が候補ＬＳＦ要素L_n（i）より大きな値を有するかどうかを判断する。クロスオーバは、１または２以上のきわめて劣化しているＬＳＦ値を示す。通常すべての交差するＬＳＦ要素が廃棄される。

第４の比較である単一点比較は、候補ＬＳＦベクトル要素L_n（i）の値を、ともにＬＳＦバッファから計算される最小ＬＳＦ要素、L_min（i）、および最大ＬＳＦ要素L_max（i）と比較し、それが最小ＬＳＦ要素と最大ＬＳＦ要素によってくくられる範囲の外にある場合には候補ＬＳＦ要素を廃棄する。

劣化フレームのＬＳＦ要素が（前記または他の基準に基づいて）廃棄される場合は、ＬＳＦ要素の新しい値が式（2.2）を使用するアルゴリズムにしたがって計算される。

ここで図７を参照すると、本発明の全体的な方法のフローチャートが示され、定常的音声フレームと非定常的音声フレームに対する、および失われた非定常的音声フレームと対照的に劣化したフレームに対するさまざまな規定を示している。

説明
本発明は、移動局または移動ネットワーク要素のどちらかの音声復号器で応用できる。本発明は、エラーを含む伝送チャネルを有するシステムで使用される任意の音声復号器にも応用できる。

発明の範囲
前述の装置が本発明の原則の応用を例証するにすぎないことが理解されるべきである。特に、本発明は具体的な説明のために線スペクトル対を使用して図示され、説明されてきたが、本発明が、イミタンススペクトル対などの他の同等なパラメータを使用することも包含することが理解される必要がある。多数の変型および代替装置は、本発明の精神および範囲を逸脱することなく当業者により考案されてよく、添付される請求項はこのような変型および装置をカバーすることを目的とする。

音声信号およびオーディオ信号を送信または記憶する従来の技術によるシステムの構成要素のブロック図である。定常的音声の場合に隣接するフレームのＬＳＦ係数［０...４ｋＨｚ］を示すグラフであり、Ｙ軸は周波数で、Ｘ軸がフレームである。非定常的音声の場合に隣接するフレームのＬＳＦ係数［０...４ｋＨｚ］を示すグラフであり、Ｙ軸が周波数であり、Ｘ軸がフレームである。従来の技術による方法の絶対スペクトル偏差エラーを示すグラフである。（本発明が従来の技術の方法より優れた代替をスペクトルパラメータに提供することを示す）本発明の絶対スペクトル偏差エラーを示すグラフであり、（最も有望な残差を示す）グラフ中の最高のバーはほぼゼロである。不良フレーム検出時に、なんらかの従来の技術にしたがってビットがどのように分類されるのかを示す概略流れ図である。本発明の全体的な方法のフローチャートである。エラーを有するとして示されるフレームのＬＳＦ（線スペクトル周波数）が許容できるかどうかを判断するために使用される基準の態様を示す２つのグラフのセットである。

Claims

合成音声を提供する復号器によって復号化されるフレームにおけるフレームエラーの効果を隠蔽する方法であって、前記フレームが通信チャネルを伝わって復号器に供給され、各フレームが、音声を合成する際に復号器によって使用されるスペクトルパラメータを提供し、
ａ）フレームが不良フレームであるか否かを判断するステップと、
ｂ）最も最近に以前に受信された有効フレームのスペクトルパラメータのみに基づいて、最も最近に以前に受信された有効なフレームの所定数の前記スペクトルパラメータの少なくとも部分的な適応的平均値を含む不良フレームのスペクトルパラメータの代替を与えるステップと、
ｃ）前記不良フレームが定常的音声または非定常的音声のいずれを伝達するかを判断するステップをさらに含み、前記不良フレームの代替を与えるステップが、前記不良フレームが定常的音声または非定常的音声のいずれを伝達するかに依存する方法で実行されるステップと
を含む方法。
合成音声を提供する復号器によって復号化されるフレームにおけるフレームエラーの効果を隠蔽する装置であって、前記フレームが通信チャネルを伝わって復号器に供給され、各フレームが、音声を合成する際に復号器によって使用されるスペクトルパラメータを提供し、
ａ）フレームが不良フレームであるか否かを判断する手段と、
ｂ）最も最近に以前に受信された有効フレームのスペクトルパラメータのみに基づいて、最も最近に以前に受信された有効なフレームの所定数のスペクトルパラメータの少なくとも部分的な適応平均値を含む前記不良フレームのスペクトルパラメータの代替を与える手段と
ｃ）前記不良フレームが定常的音声または非定常的音声のいずれを伝達するかを判断する手段をさらに備え、前記不良フレームの代替を与える手段が、前記不良フレームが定常的音声または非定常的音声のいずれを伝達するかに依存する方法で代替を実行する手段
を備える装置。
合成音声を提供する復号器によって復号化されるフレームにおけるフレームエラーの効果を隠蔽する方法であって、前記フレームが通信チャネルを伝わって復号器に供給され、各フレームが、音声を合成する際に復号器によって使用されるスペクトルパラメータを提供し、
ａ）フレームが不良フレームであるか否かを判断するステップと、
ｂ）前記フレームが不良フレームであった場合、該不良フレームが所定の基準を満たすか否かを判断するステップと、
ｃ）前記不良フレームが所定の基準を満たす場合、該不良フレームを使用して前記不良フレームのスペクトルパラメータの代替を与えるステップとを含み、前記所定の基準が、フレーム間比較、フレーム内比較、２点比較および単一点比較の４つの比較のうち、１または２以上を行なうことを含む方法。
合成音声を提供する復号器によって復号化されるフレームにおけるフレームエラーの効果を隠蔽する装置であって、前記フレームが通信チャネルを伝わって復号器に供給され、各フレームが、音声を合成する際に復号器によって使用されるスペクトルパラメータを提供し、
ａ）フレームが不良フレームであるか否かを判断する手段と、
ｂ）前記フレームが不良フレームであった場合、該不良フレームが所定の基準を満たすか否かを判断する手段と、
ｃ）前記不良フレームが所定の基準を満たす場合、該不良フレームを使用して前記不良フレームのスペクトルパラメータの代替を与える手段とを含み、前記所定の基準が、フレーム間比較、フレーム内比較、２点比較および単一点比較の４つの比較のうち、１または２以上を行なうことを含む装置。