JP5149198B2

JP5149198B2 - 音声コーデック内の効率的なフレーム消去隠蔽の方法およびデバイス

Info

Publication number: JP5149198B2
Application number: JP2008547818A
Authority: JP
Inventors: トミー・ヴェランコート; ミラン・ジェリネク; フィリップ・グルネー; レドワン・サラミ
Original assignee: ヴォイスエイジ・コーポレーション
Priority date: 2005-12-28
Filing date: 2006-12-28
Publication date: 2013-02-20
Anticipated expiration: 2026-12-28
Also published as: WO2007073604A8; JP2009522588A; EP1979895A1; RU2419891C2; AU2006331305A1; PL1979895T3; CN101379551A; BRPI0620838A2; RU2008130674A; ES2434947T3; US8255207B2; EP1979895A4; KR20080080235A; NO20083167L; CA2628510C; ZA200805054B; PT1979895E; CA2628510A1; WO2007073604A1; EP1979895B1

Description

本発明は、サウンド信号、排他的ではないが具体的には音声信号を、このサウンド信号の伝送および/または合成を考慮して、ディジタルに符号化する技法に関する。より具体的には、本発明は、たとえば、無線システムのチャネルエラーまたはvoice over packetネットワークアプリケーションでの失われたパケットに起因する消去フレーム(erased frame)の場合によい性能を維持するためのサウンド信号の頑健な符号化および復号に関する。

主観的品質とビットレートとの間のよいトレードオフを有する効率的なディジタルの狭帯域および広帯域の音声符号化技法の必要は、テレビ会議、マルチメディア、および無線通信などのさまざまな応用領域で高まりつつある。最近になるまで、200〜3400Hzの範囲に制約された電話帯域幅が、音声コーディングアプリケーションで主に使用されてきた。しかし、広帯域音声アプリケーションは、従来の電話帯域幅と比較して、通信における高められた了解度および自然さをもたらす。50〜7000Hzの範囲の帯域幅が、対面コミュニケーションの印象を与えるよい品質を与えるのに十分であることがわかっている。一般のオーディオ信号について、この帯域幅は、受け入れられる主観的品質を与えるが、それでも、それぞれ20〜16000Hzおよび20〜20000HzのFMラジオまたはCDの品質より低い。

音声エンコーダは、音声信号をディジタルビットストリームに変換し、このディジタルビットストリームは、通信チャネルを介して伝送されるか、記憶媒体に格納される。音声信号は、ディジタル化される、すなわち、通常はサンプルあたり16ビットを用いてサンプリングされ、量子化される。音声符号化は、これらのディジタルサンプルをより少数のビットを用いて表現すると同時に、よい主観的音声品質を維持するという役割を有する。音声デコーダまたはシンセサイザは、送信されたまたは格納されたビットストリームを操作し、これをサウンド信号に戻して変換する。

Code-Excited Linear Prediction (CELP)コーディングは、主観的品質とビットレートとの間のよい妥協を達成する、最良の使用可能な技法の1つである。この符号化技法は、無線アプリケーションと有線アプリケーションとの両方の複数の音声符号化標準規格の基礎である。CELP符号化では、サンプリングされた音声信号が、通常はフレームと呼ばれるL個のサンプルの連続するブロックで処理され、ここで、Lは、通常は音声信号の10〜30msに対応する所定の数である。線形予測(LP)フィルタが、フレームごとに計算され、伝送される。LPフィルタの計算は、通常、ルックアヘッドすなわち、後続フレームからの5〜15msの音声セグメントを必要とする。L個のサンプルのフレームは、サブフレームと呼ばれるより小さいブロックに分割される。通常、サブフレームの個数は、3または4であり、4〜10msのサブフレームがもたらされる。各サブフレーム内では、励起信号が、通常は2つの成分すなわち、過去の励起および革新的固定コードブック励起(innovative, fixed-codebook excitation)から入手される。過去の励起から形成される成分は、しばしば、適応コードブックまたはピッチ励起と呼ばれる。励起信号の特徴を表すパラメータが、コーディングされ、デコーダに伝送され、デコーダでは、再構成された励起信号が、LPフィルタの入力として使用される。

低ビットレート音声符号化の主要な応用例は、無線モバイル通信システムおよびvoice over packetネットワークなので、フレーム消去の場合の音声コーデックの頑健性を高めることが、非常に重要になる。無線セルラシステムでは、受信信号のエネルギは、頻繁に激しいフェードを示し、高いビットエラーレートをもたらす可能性があり、これは、セル境界でより明白になる。この場合に、チャネルデコーダは、受信フレーム内のエラーを訂正することができず、その結果、通常はチャネルデコーダの後で使用されるエラー検出器は、そのフレームを消去されたものと宣言する。voice over packetネットワークアプリケーションでは、音声信号がパケット化され、ここで、通常、各パケットが、サウンド信号の20〜40msに対応する。パケット交換通信では、パケット脱落は、パケット数が非常に多くなる場合にルータで発生する可能性があり、あるいは、パケットは、長い遅延の後に受信器に達する可能性があり、遅延が受信器側でのジッタバッファの長さより長い場合には失われたものとして宣言されなければならない。これらのシステムでは、コーデックは、通常、3から5%のフレーム消去レートにさらされる。さらに、広帯域音声符号化の使用は、これらのシステムがレガシ狭帯域音声信号を使用する伝統的なPSTN (公衆交換電話網)と競争することを可能にするために、これらのシステムに役立つ性質である。

CELPの適応コードブックまたはピッチプレディクタは、低いビットレートで高い音声品質を維持する上で役割を演じる。しかし、適応コードブックの内容は、過去のフレームからの信号に基づくので、これは、コーデックモデルをフレーム消失に敏感にする。消去されたフレームまたは消失したフレームの場合に、デコーダの適応コードブックの内容は、エンコーダの適応コードブックの内容と異なるものになる。したがって、消失したフレームが、隠蔽され、結果のよいフレームが受信された後に、受信されたよいフレームで合成される信号は、適応コードブック寄与が変更されているので、意図された合成信号とは異なる。消失したフレームの影響は、消去が発生した音声セグメントの性質に依存する。消去が、信号の静止セグメントで発生する場合には、効率的なフレーム消去隠蔽を実行することができ、結果のよいフレームへの影響を最小にすることができる。その一方で、消去が音声の開始または過渡状態で発生する場合には、消去の影響が、複数のフレームを通って伝搬する可能性がある。たとえば、有声音セグメントの始めが失われる場合に、最初のピッチ周期が、適応コードブック内容から欠けることになる。これは、結果のよいフレームにおいてピッチプレディクタに対する複数の影響を有し、合成信号がエンコーダでの所期の信号に収束する前のより長い時間をもたらす。
米国特許第5444816号米国特許第5699482号米国特許第5754976号米国特許第5701392号 PCT特許出願WO03102921A1 ITU-T勧告G.729, "Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear-prediction (CS-ACELP)"、ジュネーブ、1996年 ITU-T勧告G.729.1, "G.729 based Embedded Variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729"、ジュネーブ、2006年

より具体的に言うと、本発明の第1の態様によれば、エンコーダからデコーダへの伝送中に消去された符号化されたサウンド信号のフレームによって引き起こされるフレーム消去を隠蔽し、フレーム消去の後にデコーダを回復する方法であって、エンコーダ内で、符号化されたサウンド信号のフレームに関係する位相情報を少なくとも含む隠蔽/回復パラメータを判定するステップと、エンコーダ内で判定された隠蔽/回復パラメータをデコーダに伝送するステップと、デコーダ内で、受信された隠蔽/回復パラメータに応答してフレーム消去隠蔽を行うステップであって、フレーム消去隠蔽は、消去-隠蔽されるフレームの第1の位相を示す特徴を符号化されたサウンド信号の対応するフレームの第2の位相を示す特徴と位置合せすることによって、消去-隠蔽されるフレームを符号化されたサウンド信号の対応するフレームに再同期化するステップを含み、前記第2の位相を示す特徴は、位相情報に含まれる、フレーム消去隠蔽を行うステップとを含む方法が提供される。

本発明の第2の態様によれば、エンコーダからデコーダへの伝送中に消去された符号化されたサウンド信号のフレームによって引き起こされるフレーム消去を隠蔽し、フレーム消去の後にデコーダを回復するデバイスであって、エンコーダ内の、符号化されたサウンド信号のフレームに関係する位相情報を少なくとも含む隠蔽/回復パラメータを判定する手段と、エンコーダ内で判定された隠蔽/回復パラメータをデコーダに伝送する手段と、デコーダ内で、受信された隠蔽/回復パラメータに応答してフレーム消去隠蔽を行う手段であって、フレーム消去隠蔽を行う手段は、消去-隠蔽されるフレームの第1の位相を示す特徴を符号化されたサウンド信号の対応するフレームの第2の位相を示す特徴と位置合せすることによって、消去-隠蔽されるフレームを符号化されたサウンド信号の対応するフレームに再同期化する手段を含み、前記第2の位相を示す特徴は、位相情報に含まれる、フレーム消去隠蔽を行う手段とを含むデバイスが提供される。

本発明の第3の態様によれば、エンコーダからデコーダへの伝送中に消去された符号化されたサウンド信号のフレームによって引き起こされるフレーム消去を隠蔽し、フレーム消去の後にデコーダを回復するデバイスであって、エンコーダ内の、符号化されたサウンド信号のフレームに関係する位相情報を少なくとも含む隠蔽/回復パラメータのジェネレータと、エンコーダ内で判定された隠蔽/回復パラメータをデコーダに伝送する通信リンクと、デコーダ内の、受信された隠蔽/回復パラメータを供給されるフレーム消去隠蔽モジュールであって、フレーム消去隠蔽モジュールは、受信された位相情報に応答して、消去-隠蔽されるフレームの第1の位相を示す特徴を符号化されたサウンド信号の対応するフレームの第2の位相を示す特徴と位置合せすることによって、消去-隠蔽されるフレームを符号化されたサウンド信号の対応するフレームに再同期化するシンクロナイザを含み、前記第2の位相を示す特徴は、位相情報に含まれる、フレーム消去隠蔽モジュールとを含むデバイスが提供される。

本発明の第4の態様によれば、エンコーダからデコーダへの伝送中に消去された符号化されたサウンド信号のフレームによって引き起こされるフレーム消去を隠蔽し、フレーム消去の後にデコーダを回復する方法であって、デコーダ内で、エンコーダからデコーダへの伝送中に消去された符号化されたサウンド信号の各フレームの位相情報を推定するステップと、推定された位相情報に応答してフレーム消去隠蔽を行うステップであって、フレーム消去隠蔽は、推定された位相情報に応答して、各消去-隠蔽されるフレームの第1の位相を示す特徴を符号化されたサウンド信号の対応するフレームの第2の位相を示す特徴に位置合せすることによって、各消去-隠蔽されるフレームを符号化されたサウンド信号の対応するフレームに再同期化するステップを含み、前記第2の位相を示す特徴は、推定された位相情報に含まれる、フレーム消去隠蔽を行うステップとを含む方法が提供される。

本発明の第5の態様によれば、エンコーダからデコーダへの伝送中に消去された符号化されたサウンド信号のフレームによって引き起こされるフレーム消去を隠蔽し、フレーム消去の後にデコーダを回復するデバイスであって、デコーダで、エンコーダからデコーダへの伝送中に消去された符号化されたサウンド信号の各フレームの位相情報を推定する手段と、推定された位相情報に応答してフレーム消去隠蔽を行う手段であって、フレーム消去隠蔽を行う手段は、推定された位相情報に応答して、各消去-隠蔽されるフレームの第1の位相を示す特徴を符号化されたサウンド信号の対応するフレームの第2の位相を示す特徴と位置合せすることによって、各消去-隠蔽されるフレームを符号化されたサウンド信号の対応するフレームに再同期化する手段を含み、前記第2の位相を示す特徴は、推定された位相情報に含まれる、フレーム消去隠蔽を行う手段とを含むデバイスが提供される。

本発明の第6の態様によれば、エンコーダからデコーダへの伝送中に消去された符号化されたサウンド信号のフレームによって引き起こされるフレーム消去を隠蔽し、フレーム消去の後にデコーダを回復するデバイスであって、デコーダにある、エンコーダからデコーダへの伝送中に消去された符号化された信号の各フレームの位相情報のエスティメータと、推定された位相情報を供給される消去隠蔽モジュールであって、フレーム消去隠蔽モジュールは、推定された位相情報に応答して、各消去-隠蔽されるフレームの第1の位相を示す特徴を符号化されたサウンド信号の対応するフレームの第2の位相を示す特徴と位置合せすることによって、各消去-隠蔽されるフレームを符号化されたサウンド信号の対応するフレームに再同期化するシンクロナイザを含み、前記第2の位相を示す特徴は、推定された位相情報に含まれる、フレーム消去隠蔽モジュールとを含むデバイスが提供される。

本発明の前述および他の目的、利益、および特徴は、添付図面を参照して例としてのみ与えられる本発明の例示的実施形態の次の非制限的な説明を読む時に、より明白になる。

本発明の例示的実施形態を、音声信号に関して次の説明で説明するが、本発明の概念が、他のタイプの信号、排他的ではないが具体的には他のタイプのサウンド信号に同等に適用されることに留意されたい。

図1に、本発明の例示的文脈での音声符号化および音声復号の使用を示す音声通信システム100を示す。図1の音声通信システム100は、通信チャネル101にまたがる音声信号の伝送をサポートする。通信チャネル101は、たとえばワイヤ、光リンク、またはファイバリンクを含むことができるが、通常は、ラジオ周波数リンクを少なくとも部分的に含む。そのようなラジオ周波数リンクは、しばしば、セル電話システムと共に見ることができるものなどの共有される帯域幅リソースを必要とする、複数の同時音声通信をサポートする。図示されてはいないが、通信チャネル101を、後の再生のために符号化された音声信号を記録し、格納する、システム100の単一デバイス実施形態内のストレージデバイスに置換することができる。

図1の音声通信システム100では、マイクロホン102が、アナログ音声信号103を作り、このアナログ音声信号103は、ディジタル音声信号105に変換するためにアナログディジタル(A/D)変換器104に供給される。音声エンコーダ106は、ディジタル音声信号105を符号化して、1組の信号符号化パラメータ107を作り、この信号符号化パラメータ107は、2進形式にコーディングされ、チャネルエンコーダ108に送達される。オプションのチャネルエンコーダ108は、通信チャネル101を介して信号符号化パラメータ107を伝送する前に、信号符号化パラメータ107の2進表現に冗長性を追加する。

受信器では、チャネルデコーダ109が、受信されたビットストリーム111内の前記冗長情報を利用して、伝送中に発生したチャネルエラーを検出し、訂正する。次に、音声デコーダ110が、チャネルデコーダ109から受け取られたビットストリーム112を、1組の信号符号化パラメータに戻して変換し、受け取られた信号符号化パラメータから、ディジタル合成された音声信号113を作成する。音声デコーダ110で再構成されたディジタル合成された音声信号113は、ディジタルアナログ(D/A)変換器115によってアナログ形式114に変換され、ラウドスピーカユニット116を介して再生される。

本明細書で開示される効率的なフレーム消去隠蔽方法の非制限的例示的実施形態は、狭帯域線形予測ベースまたは広帯域線形予測ベースのいずれかのコーデックと共に使用することができる。また、例示的実施形態を、国際電気通信連合(ITU)によって標準化された勧告G.729 [ITU-T勧告G.729, "Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear-prediction (CS-ACELP)"、ジュネーブ、1996年]に基づく組込みコーデックに関して開示する。

G.729ベースの組込みコーデックは、ITU-Tによって2006年に標準化され、勧告G.729.1 [ITU-T勧告G.729.1, "G.729 based Embedded Variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729"、ジュネーブ、2006年]として知られる。本明細書で開示される技法は、ITU-T勧告G.729.1で実施された。

ここで、効率的なフレーム消去隠蔽方法の例示的実施形態を、他のタイプのコーデックに適用できることを理解されたい。たとえば、本明細書で提示される効率的なフレーム消去隠蔽方法の例示的実施形態は、ITU-Tによる組込み可変ビットレートコーデックの標準化の候補アルゴリズムで使用される。この候補アルゴリズムでは、コア層は、AMR-WB (ITU-T勧告G.722.2)に似た広帯域コーディング技法に基づく。

次のセクションでは、CELPならびにG.729ベースの組込みエンコーダおよびデコーダの概要を、まず示す。その後、コーデックの頑健性を改善する新規の手法の例示的実施形態を開示する。

ACELPエンコーダの概要
サンプリングされた音声信号は、図2の符号化デバイス200によってブロックごとの基礎で符号化され、符号化デバイス200は、201から211までの番号を付けられた11個のモジュールに分解される。

したがって、入力音声信号212は、ブロックごとの基礎で、すなわち、上で述べた、フレームと呼ばれるL個のサンプルのブロックで処理される。

図2を参照すると、サンプリングされた入力音声信号212は、オプションの前処理モジュール201に供給される。前処理モジュール201は、狭帯域信号用の200Hzカットオフ周波数および広帯域信号用の50Hzカットオフ周波数を有する高域フィルタからなるものとすることができる。

前処理された信号は、s(n), n = 0, 1, 2, …, L - 1によって表され、ここで、Lは、フレームの長さであり、通常は20ms (8kHzのサンプリング周波数で160個のサンプル)である。

信号s(n)は、モジュール204でLP分析を実行するのに使用される。LP分析は、当業者に周知の技法である。この例示的実施態様では、自己相関手法が使用される。自己相関手法では、信号s(n)は、まず、通常は30〜40ms程度の長さを有するハミングウィンドウを使用してウィンドウイングされる。自己相関は、ウィンドウイングされた信号から計算され、Levinson-Durbin再帰を使用して、LPフィルタ効率a_iを計算し、ここで、i = 1, …, pであり、pはLP次数(LP order)であり、このLP次数は、通常、狭帯域コーディングでは10、広帯域コーディングでは16である。パラメータa_iは、LPフィルタの伝達関数A(z)の係数であり、次の関係によって与えられる。

LP分析は、それ以外の点では当業者に周知と思われ、したがって、本明細書でさらには説明しない。

モジュール204は、LPフィルタ係数の量子化および補間をも実行する。LPフィルタ係数は、まず、量子化および補間の目的により適切な、別の同等の領域に変換される。線スペクトル対(LSP)領域およびイミッタンススペクトル対(ISP)領域が、量子化および補間を効率的に実行できる2つの領域である。狭帯域コーディングでは、10個のLPフィルタ係数a_iを、分割量子化またはマルチステージ量子化あるいはその組合せを使用して、18ビットから30ビット程度で量子化することができる。補間の目的は、すべてのサブフレームでのLPフィルタ係数の更新を、すべてのフレームで1回これらを伝送することと同時に可能にすることであり、これは、ビットレートを高めずにエンコーダ性能を改善する。LPフィルタ係数の量子化および補間は、当業者に周知と思われ、したがって、本明細書でさらには説明しない。

次の段落では、サブフレームを基礎として実行されるコーディング動作の残りを説明する。この例示的実施態様では、20ms入力フレームが、5ms (8kHzのサンプリング周波数で40個のサンプル)の4つのサブフレームに分割される。次の説明では、フィルタA(z)は、サブフレームの量子化されていない補間されたLPフィルタを表し、フィルタ

は、サブフレームの量子化され補間されたLPフィルタを表す。フィルタ

は、すべてのサブフレームについて、通信チャネル(図示せず)を介する伝送のためにマルチプレクサ213に供給される。

合成による分析エンコーダ(analysis-by-synthesis encoder)では、最適のピッチパラメータおよび革新パラメータが、知覚的に重み付けされた領域で入力音声信号212と合成された音声信号との間の二乗平均誤差を最小にすることによって検索される。重み付けされた信号s_w(n)が、信号s(n)に応答して知覚加重フィルタ(perceptual weighting filter) 205で計算される。知覚加重フィルタ205の伝達関数の例は、次の関係によって与えられる。
W(z) = A(z/y₁)/A(z/y₂)、ただし、0 < y₂ < y₁ ≦ 1

ピッチ分析を単純化するために、開ループピッチラグT_OLが、まず、重み付けされた音声信号s_w(n)から開ループピッチ検索モジュール206で推定される。次に、サブフレームを基礎として閉ループピッチ検索モジュール207で実行される閉ループピッチ分析が、開ループピッチラグT_OLの周囲に制限され、これは、LTP (長期予測、Long Term Prediction)パラメータT (ピッチラグ)およびb (ピッチ利得)の検索の複雑さを大幅に減らす。開ループピッチ分析は、通常、当業者に周知の技法を使用して、10ms (2つのサブフレーム)おきに1回、モジュール206で実行される。

LTP (長期予測)分析のターゲットベクトルxが、まず計算される。これは、通常、重み付けされた音声信号s_w(n)から重み付き合成フィルタ(weighted synthesis filter)

のゼロ入力応答s₀を引くことによって行われる。このゼロ入力応答s₀は、LP分析、量子化、および補間モジュール204からの量子化され補間されたLPフィルタ

ならびに、LPフィルタA(z)および

と励起ベクトルuとに応答してメモリ更新モジュール211に格納される重み付き合成フィルタ

の初期状態に応答してゼロ入力応答カリキュレータ208によって計算される。この動作は、当業者に周知であり、したがって、本明細書でさらには説明しない。

重み付き合成フィルタ

のN次元インパルス応答ベクトルhが、モジュール204からのLPフィルタA(z)および

の係数を使用してインパルス応答ジェネレータ209で計算される。やはり、この動作は、当業者に周知であり、したがって、本明細書でさらには説明しない。

閉ループピッチ(またはピッチコードブック)パラメータbおよびTが、閉ループピッチ検索モジュール207で計算され、この計算は、入力としてターゲットベクトルx、インパルス応答ベクトルh、および開ループピッチラグT_OLを使用する。

ピッチ検索は、最良のピッチラグTならびに、ターゲットベクトルxと過去の励起のスケーリングされフィルタリングされた版との間の平均二乗加重ピッチ予測誤差、たとえば、
e = ‖x - by‖²
を最小にする利得bを見つけることからなる。

より具体的に言うと、現在の例示的実施態様では、ピッチ(ピッチコードブックまたは適応コードブック)検索は、3つのステージからなる。

第1ステージでは、開ループピッチラグT_OLが、重み付けされた音声信号s_w(n)に応答して開ループピッチ検索モジュール206で推定される。前の説明で示したように、この開ループピッチ分析は、通常、当業者に周知の技法を使用して、10ms (2つのサブフレーム)おきに1回実行される。

第2ステージでは、検索判断基準Cを、推定された開ループピッチラグT_OLの前後(通常は±5)の整数ピッチラグについて閉ループピッチ検索モジュール207で検索し、これは、検索手順を大幅に単純化する。検索判断基準Cの例は、

、ただし、tはベクトル転置を表す
によって与えられる。

最適の整数ピッチラグが第2ステージで見つけられたならば、検索の第3ステージ(モジュール207)は、検索判断基準Cによって、最適の整数ピッチラグの前後の分数をテストする。たとえば、ITU-T勧告G.729は、1/3サブサンプル分解能を使用する。

ピッチコードブックインデックスTが、通信チャネル(図示せず)を介する伝送のために符号化され、マルチプレクサ213に送られる。ピッチ利得bが、量子化され、マルチプレクサ213に送られる。

ピッチまたはLTP (長期予測)パラメータbおよびTが判定されたならば、次のステップは、図2の革新的励起検索モジュール210による最適の革新的励起の検索である。まず、ターゲットベクトルxを、LTP寄与を引くことによって更新し、
x' = x - by_T
ここで、bは、ピッチ利得であり、y_Tは、フィルタリングされたピッチコードブックベクトル(インパルス応答hを用いて畳み込まれた遅延Tでの過去の励起)である。

CELPの革新的励起検索手順は、最適の励起コードブックc_kと、ターゲットベクトルx'とコードベクトルc_kのスケーリングされフィルタリングされた版との間の平均二乗誤差E、たとえば
E = ‖x' - gHc_k‖²
を最小にする利得gとを見つけるために革新コードブック内で実行され、ここで、Hは、インパルス応答ベクトルhから導出された下三角畳み込み行列である。見つかった最適のコードベクトルc_kおよび利得gに対応する革新コードブックのインデックスkが、通信チャネルを介する伝送のためにマルチプレクサ213に供給される。

例示的実施態様では、使用される革新コードブックは、1995年8月22日にAdoul他に許可された米国特許第5444816号による、合成音声品質を改善するために特殊なスペクトル成分の質を高める適応前置フィルタF(z)が続く代数コードブックを含む動的コードブックである。この例示的実施態様では、革新的コードブック検索は、1995年8月22日発行の米国特許第5444816号(Adoul他)、1997年12月17日にAdoul他に許可された米国特許第5699482号、1998年5月19日にAdoul他に許可された米国特許第5754976号、および1997年12月23日付の米国特許第5701392号(Adoul他)に記載の代数コードブックによってモジュール210で実行される。

ACELPデコーダの概要
図3の音声デコーダ300は、ディジタル入力322 (デマルチプレクサ317への入力ビットストリーム)と出力のサンプリングされた音声信号s_outとの間で実行されるさまざまなステップを示す。

デマルチプレクサ317は、ディジタル入力チャネルから受け取られた2進情報(入力ビットストリーム322)から合成モデルパラメータを抽出する。受け取られる2進フレームのそれぞれから抽出されるパラメータは、次の通りである。
-フレームあたり1回作られる、短期予測(STP)パラメータとも呼ばれる、量子化され補間されたLP係数

、
-長期予測(LTP)パラメータTおよびb (サブフレームごとの)、および
-革新的コードブックインデックスkおよび利得g (サブフレームごとの)。

現在の音声信号は、下で説明するように、これらのパラメータに基づいて合成される。

革新コードブック318は、革新コードベクトルc_kを作るためにインデックスkに応答し、革新コードベクトルc_kは、増幅器324を介して、復号された利得gによってスケーリングされる。この例示的実施態様では、上で述べた米国特許第5444816号、米国特許第5699482号、米国特許第5754976号、および米国特許第5701392号に記載された革新コードブックが、革新的コードベクトルc_kを作るのに使用される。

スケーリングされたピッチコードベクトルbv_Tが、ピッチコードベクトルを作るためにピッチコードブック301にピッチ遅延Tを適用することによって作られる。次に、ピッチコードベクトルv_Tが、スケーリングされたピッチコードベクトルbv_Tを作るために、増幅器326によってピッチ利得bだけ増幅される。

励起信号uは、加算器320によって、
u = gc_k + bv_T
として計算される。

ピッチコードブック301の内容は、エンコーダ200とデコーダ300との間の同期を保つために、メモリ303に格納された励起信号uの過去の値を使用して更新される。

合成された信号s'は、形式

を有するLP合成フィルタ306を介して励起信号uをフィルタリングすることによって計算され、ここで、

は、現在のサブフレームの量子化され補間されたLPフィルタである。図3からわかるように、デマルチプレクサ317からの信号線325上の量子化され補間されたLP係数

は、LP合成フィルタ306のパラメータをそれ相応に調整するためにLP合成フィルタ306に供給される。

ベクトルs'は、出力のサンプリングされた音声信号s_outを得るためにポストプロセッサ307を介してフィルタリングされる。後処理は、通常、短期ポストフィルタリング、長期ポストフィルタリング、および利得スケーリングからなる。後処理は、望まれない低い周波数を除去するための高域フィルタからもなるものとすることもできる。ポストフィルタリングは、それ以外の点では当業者に周知である。

G.729ベースの組込みコーディングの概要
G.729コーデックは、上で説明した代数CELP (ACELP)コーディングパラダイムに基づく。8kビット/sでのG.729コーデックのビット割振りを、表1に示す。

ITU-T勧告G.729は、10msフレーム(8kHzサンプリングレートで80個のサンプル)を操作する。LPパラメータは、フレームあたり1回量子化され、伝送される。G.729フレームは、2つの5msサブフレームに分割される。ピッチ遅延(または適応コードブックインデックス)は、第1サブフレームでは8ビット、第2サブフレームでは5ビットを用いて量子化される(第1サブフレームの遅延に対して相対的に)。ピッチおよび代数コードブック利得は、サブフレームあたり7ビットを使用して共同で量子化される。17ビット代数コードブックが、革新励起または固定コードブック励起を表すのに使用される。

組込みコーデックは、コアG.729コーデックに基づいて作成される。組込みコーディングまたは階層化コーディングは、コア層と、高められた品質または高められた符号化後の帯域幅のための追加層とからなる。上位層に対応するビットストリームは、必要に応じてネットワークによって捨てることができる(輻輳の場合または一部のリンクがより低い使用可能ビットレートを有するマルチキャスト状況で)。デコーダは、それが受信する層に基づいて信号を再構成することができる。

この例示的実施形態では、コア層L1は、8kビット/sのG.729からなる。第2層(L2)は、(ビットレートR2 = L1 + L2 = 12kビット/sで)狭帯域品質を改善するための追加の4kビット/sからなる。それぞれ2kビット/sの上側の10個の層は、広帯域符号化された信号を得るのに使用される。10個の層L3からL12は、14、16、…、および32kビット/sのビットレートに対応する。したがって、組込みコーダは、14kビット/s以上のビットレート用の広帯域コーダとして動作する。

たとえば、エンコーダは、最初の2層で予測コーディング(CELP)を使用し(第2の代数コードブックを追加することによって変更されたG.729)、その後、これらの最初の層のコーディング誤差を周波数領域で量子化する。MDCT (Modified Discrete Cosine Transform)が、この信号を周波数領域に写像するのに使用される。MDCT係数は、スケーラブル代数ベクトル量子化を使用して量子化される。オーディオ帯域幅を広げるために、パラメトリックコーディングが、高周波数に適用される。

エンコーダは、20msフレームを操作し、LP分析ウィンドウのために5msルックアヘッドを必要とする。50%オーバーラップを有するMDCTは、ルックアヘッドの追加の20msを必要とし、これは、エンコーダまたはデコーダのいずれかで適用することができる。たとえば、MCDTルックアヘッドは、デコーダで使用され、これは、下で説明するように、改善されたフレーム消去隠蔽をもたらす。エンコーダは、32kbpsで出力を作り、これは、それぞれ640ビットを含む20msのフレームになる。各フレーム内のビットは、組込み層で配置される。層1は、8kbpsで標準G.729の20msを表す160ビットを有する(2つのG.729フレームに対応する)。層2は、追加の4kbpsを表す80ビットを有する。その後、各追加層(層3から12まで)が、32kbpsまで、2kbpsを追加する。

組込みエンコーダの例のブロック図を、図4に示す。

16kHzでサンプリングされるオリジナルの広帯域信号x (401)は、まず、モジュール402で2つの帯域すなわち0〜4000Hzおよび4000〜8000Hzに分割される。図4の例では、帯域分割は、64個の係数を有するQMF (直交ミラーフィルタ)フィルタバンクを使用して実現される。この動作は、当業者に周知である。帯域分割の後に、2つの信号すなわち、0〜4000Hz帯域(ロウ帯域)をカバーする信号および4000〜8000Hz帯域(ハイ帯域)をカバーする信号が得られる。この2つの帯域のそれぞれの信号が、モジュール402で2倍ダウンサンプリングされる。これは、8kHzサンプリング周波数の2つの信号すなわち、ロウ帯域のx_LF (403)およびハイ帯域のx_HF (404)を生じる。

ロウ帯域信号x_LFは、変更された版のG.729エンコーダ405に供給される。この変更された版405は、まず、8kbpsで標準G.729ビットストリームを作り、これが、層1のビットを構成する。このエンコーダが、20msフレームを操作し、したがって、層1のビットが、2つのG.729フレームに対応することに留意されたい。

次に、G.729エンコーダ405は、ロウ帯域信号の質を高めるために第2の革新的代数コードブックを含むように変更される。この第2コードブックは、G.729の革新的コードブックと同一であり、コードブックパルスを符号化するのに5msサブフレームあたり17ビット(20msフレームあたり68ビット)を必要とする。第2代数コードブックの利得は、第1サブフレームおよび第3サブフレームでは3ビット、第2サブフレームおよび第4サブフレームでは2ビットを使用して(フレームあたり10ビット)、第1コードブック利得に対して相対的に量子化される。2ビットが、デコーダでの隠蔽を改善するための分類情報を送信するのに使用される。これは、層2の68 + 10 + 2 = 80ビットを作る。この第2ステージ革新的コードブックに使用されるターゲット信号は、重みを付けられた音声の領域でG.729革新的コードブックの寄与を減算することによって得られる。

変更されたG.729エンコーダ405の合成信号

は、標準G.729の励起(スケーリングされた革新的コードベクトルおよび適応コードベクトルの加算)と追加の革新的コードブックの革新的励起を加算し、この質を高められた励起を通常のG.729合成フィルタに通すことによって得られる。これは、デコーダが、ビットストリームから層1および層2だけを受信する場合に作る合成信号である。適応(またはピッチ)コードブック内容が、G.729励起だけを使用して更新されることに留意されたい。

層3は、帯域幅を狭帯域品質から広帯域品質に拡張する。これは、高周波数成分x_HFにパラメトリックコーディングを適用することによって(モジュール407)行われる。x_HFのスペクトルエンベロープおよび時間領域エンベロープだけが、この層のために計算され、伝送される。帯域幅拡張は、33ビットを必要とする。この層の残りの7ビットは、本発明に従ってデコーダでのフレーム消去隠蔽を改善するために位相情報(声門パルス位置)を伝送するのに使用される。これは、後続の説明でより詳細に説明する。

次に、図4から、加算器406からのコーディング誤差

が、高周波数信号x_HFと一緒に、両方ともモジュール408内で周波数領域に写像される。50%オーバーラップを有するMDCTが、この時間-周波数写像に使用される。これは、帯域ごとに1つの、2つのMDCTを使用することによって実行することができる。ハイ帯域信号を、まず、MDCTの前に演算子(-1)ⁿによってスペクトル的に折り畳むことができ、その結果、両方の変換からのMDCT係数を、量子化のために1つのベクトルにつなぎ合わせられるようになる。次に、MDCT係数は、3GPP AMR-WB+ オーディオコーダ(3GPP TS 26.290)でのFFT (高速フーリエ変換)係数の量子化に似た形で、スケーラブル代数ベクトル量子化を使用してモジュール409で量子化される。もちろん、他の形の量子化を適用することができる。このスペクトル量子化の総ビットレートは、18kbpsであり、これは、20msフレームあたり360ビットのビットバジェットになる。量子化の後に、対応するビットが、モジュール410で2kbpsのステップで階層化されて、層4から12を形成する。したがって、各2kbps層は、20msフレームあたり40ビットを含む。1つの例示的実施形態では、5ビットを、エネルギ情報伝送のために層4で予約して、フレーム消去の場合のデコーダの隠蔽および収束を改善することができる。

コアG.729エンコーダと比較した、このアルゴリズム的拡張は、1) G.729の革新的コードブックが2回(層2)繰り返され、2)パラメトリックコーディングが、帯域幅を拡張するために適用され、スペクトルエンベロープおよび時間領域エンベロープ(利得情報)だけが計算され、量子化され(層3)、3) MDCTが、20msおきに計算され、そのスペクトル係数が、スケーラブル代数VQ (ベクトル量子化)を使用して8次元ブロックで量子化され、4)ビット階層化ルーチンが、代数VQからの18kbpsストリームをそれぞれ2kbpsの層(層4から12)にフォーマットするために適用されることとして要約することができる。一実施形態で、14ビットの隠蔽および収束情報を、層2 (2ビット)、層3 (7ビット)および層4 (5ビット)で伝送することができる。

図5は、組込みデコーダ500の例のブロック図である。各20msフレームに、デコーダ500は、8kbpsから32kbpsまでのサポートされるビットレートのいずれをも受信することができる。これは、デコーダ動作が、各フレームで受信されるビット数または層数に条件付けられることを意味する。図5では、少なくとも層1、2、3、および4が、デコーダで受信されると仮定する。より低いビットレートの事例を、下で説明する。

図5のデコーダでは、受信されたビットストリーム501が、まず、エンコーダによって作られたビット層に分離される(モジュール502)。層1および2は、変更されたG.729デコーダ503への入力を形成し、変更されたG.729デコーダ503は、下側帯域(8kHzでサンプリングされた0〜4000Hz)の合成信号

を作る。層2が、本質的に、G.729の革新的コードブックと同一の構造を有する第2の革新的コードブックのビットを含むことを想起されたい。

次に、層3からのビットは、パラメトリックデコーダ506への入力を形成する。層3のビットは、ハイ帯域(8kHzでサンプリングされた4000〜8000Hz)のパラメトリック記述を与える。具体的に言うと、層3のビットは、時間領域エンベロープ(または利得情報)と一緒に、20msフレームのハイ帯域スペクトルエンベロープを記述する。パラメトリック復号の結果は、図5で

と呼ばれる、ハイ帯域信号のパラメトリック近似である。

次に、層4およびその上の層からのビットは、逆量子化器504 (Q^-1)の入力を形成する。逆量子化器504の出力は、1組の量子化されたスペクトル係数である。これらの量子化された係数は、逆変換モジュール505 (T^-1)、具体的には50%オーバーラップを有する逆MDCTの入力を形成する。逆MDCTの出力は、信号

である。この信号

は、所与のフレーム内でハイ帯域にビットが割り振られた場合には量子化されたハイ帯域と一緒に、ロウ帯域での変更されたG.729エンコーダの量子化されたコーディング誤差とみなすことができる。逆変換モジュール505 (T^-1)は、2つの逆MDCTとして実施され、その場合に、

は、2つの成分すなわち、低周波数成分を表す

および高周波数成分を表す

からなる。

次に、変更されたG.729エンコーダの量子化されたコーディング誤差を形成する成分

が、コンバイナ507で

と組み合わされて、ロウ帯域合成

を形成する。同一の形で、量子化されたハイ帯域を形成する成分

は、コンバイナ508でハイ帯域のパラメトリック近似

と組み合わされて、ハイ帯域合成

を形成する。信号

および

が、合成QMFフィルタバンク509を介して処理されて、16kHzサンプリングレートの全体的な合成信号

を形成する。

層4およびその上の層が受信されない場合には、

は0であり、コンバイナ507および508の出力は、その入力すなわち

および

と等しい。層1および2だけが受信される場合には、デコーダは、変更されたG.729デコーダを適用して、信号

を作るだけでよい。ハイ帯域成分は、0になり、16kHzのアップサンプリングされた信号(必要な場合に)は、ロウ帯域にのみ内容を有する。層1だけが受信される場合には、デコーダは、G.729デコーダを適用して、信号

を作るだけでよい。

頑健なフレーム消去隠蔽
フレームの消去は、特に無線環境およびパケット交換網で動作する時に、ディジタル音声通信システムの合成された音声の品質に大きい影響を有する。無線セルラシステムでは、受信信号のエネルギが、頻繁な激しいフェードを示し、高いビットエラーレートを示す可能性があり、これは、セル境界でより明白になる。この場合に、チャネルデコーダは、受信フレーム内のエラーを訂正することができず、その結果、通常はチャネルデコーダの後で使用されるエラー検出器は、そのフレームを消去されたものと宣言する。Voice over Internet Protocol (VoIP)などのvoice over packetネットワークアプリケーションでは、音声信号がパケット化され、ここで、通常は、1つの20msフレームが各パケットに配置される。パケット交換通信では、パケット脱落は、パケット数が非常に多くなる場合にルータで発生する可能性があり、あるいは、パケットは、長い遅延の後に受信器に達する可能性があり、遅延が受信器側でのジッタバッファの長さより長い場合には失われたものとして宣言されなければならない。これらのシステムでは、コーデックは、通常、3から5%のフレーム消去レートにさらされる。

フレーム消去(FER)処理の問題は、基本的に2つ折りになっている。第1に、消去フレームインジケータが到着する時に、欠けているフレームを、以前のフレームで送信された情報を使用することと、欠けているフレームでの信号進展を推定することとによって生成しなければならない。この推定の成功は、隠蔽戦略だけではなく、音声信号内で消去が発生する場所にも依存する。第2に、通常動作が回復する時、すなわち、消去フレーム(1つまたは複数)のブロックの後に最初のよいフレームが到着する時に、滑らかな遷移を保証しなければならない。これは、真の合成および推定された合成が異なって進展する可能性があるので、自明な作業ではない。したがって、最初のよいフレームが到着する時に、デコーダは、エンコーダから非同期化されている。主な理由は、低ビットレートエンコーダが、ピッチ予測に頼り、消去フレーム中に、ピッチプレディクタ(または適応コードブック)のメモリが、もはやエンコーダのそのメモリと同一ではなくなることである。この問題は、多数の連続するフレームが消去される時に、増幅される。隠蔽に関して、通常処理回復のむずかしさは、たとえば音声信号など、消去が発生する場所の信号のタイプに依存する。

フレーム消去の悪影響は、隠蔽および通常処理の回復(さらなる回復)を消去が発生する音声信号のタイプに適合させることによって大幅に減らすことができる。このためには、各音声フレームを分類することが必要である。この分類を、エンコーダで行い、伝送することができる。その代わりに、この分類を、デコーダで推定することができる。

最良の隠蔽および回復のために、注意深く制御されなければならない、音声信号の少数のクリティカルな特性がある。これらのクリティカルな特性は、信号エネルギまたは振幅、周期数の量、スペクトルエンベロープ、およびピッチ周期である。有声音音声回復の場合に、さらなる改善を、位相制御によって達成することができる。ビットレートのわずかな増加を伴って、よりよい制御のために、少数の補足パラメータを量子化し、伝送することができる。追加帯域幅が使用可能ではない場合には、これらのパラメータをデコーダで推定することができる。これらのパラメータが制御される状態で、フレーム消去隠蔽および回復を、特に、エンコーダでの実際の信号への復号される信号の収束を改善することと、通常処理が回復する時のエンコーダとデコーダとの間の不一致の影響を軽減することとによって、大幅に改善することができる。

これらの発想は、参考文献[1]のPCT特許出願に開示されている。本発明の非制限的例示的実施形態によれば、隠蔽および収束は、下で開示するように、ピッチコードブック(または適応コードブック)での声門パルスのよりよい同期化によって、さらに質を高められる。これは、たとえばピッチパルスまたは声門パルスの位置に対応する、受信される位相情報を用いて、またはこれを用いずに実行することができる。

本発明の例示的実施形態では、効率的なフレーム消去隠蔽の方法および消去フレームに続くフレームでのデコーダでの収束を改善する方法が、開示される。

例示的実施形態によるフレーム消去隠蔽技法は、上で説明したG.729ベースの埋込みコーデックに適用された。このコーデックは、次の説明のFER隠蔽方法の実施態様のための例のフレームワークとして働く。

図6は、図2のCELPエンコーダモデルに基づく組込みエンコーダ600の層1および2の単純化されたブロック図を与える。この単純化されたブロック図では、閉ループピッチ検索モジュール207、ゼロ入力応答カリキュレータ208、インパルス応答ジェネレータ209、革新的励起検索モジュール210、およびメモリ更新モジュール211が、閉ループピッチおよび革新コードブック検索モジュール602内にグループ化されている。さらに、層2の第2ステージコードブック検索も、モジュール602に含まれる。このグループ化は、本発明の例示的実施形態に関係するモジュールの導入を単純にするために行われたものである。

図7は、本発明の非制限的例示的実施形態に関係するモジュールが追加されている、図6のブロック図の拡張である。これらの追加されたモジュール702から707では、FER隠蔽と消去フレームの後のデコーダの収束および回復とを改善する目的で、追加のパラメータが、計算され、量子化され、伝送される。この例示的実施形態では、これらの隠蔽/回復パラメータは、信号分類、エネルギ、および位相情報(たとえば、前のフレーム内の最後の声門パルスの推定された位置)を含む。

次の説明では、これらの追加の隠蔽/回復パラメータの計算および量子化が、詳細に与えられ、図7を参照することによってより明白になる。これらのパラメータの中で、信号分類が、最も詳細に取り扱われる。後続のセクションでは、収束を改善するのにこれらの追加の隠蔽/回復パラメータを使用する効率的なFER隠蔽を説明する。

FER隠蔽および回復のための信号分類
消去フレームの存在下での信号再構成に音声の分類を使用することの背後にある基本的な発想は、理想的な隠蔽戦略が、擬似静止音声セグメントとすばやく変化する特性を有する音声セグメントとで異なるという事実からなる。非静止音声セグメント内の消去フレームの最良の処理は、音声符号化パラメータの環境雑音特性へのすばやい収束として要約することができるが、擬似静止信号の場合に、音声符号化パラメータは、劇的には変化せず、減衰される前に、複数の隣接する消去フレーム中に事実上変化しないままに保つことができる。また、フレームの消去されたブロックに続く信号回復の最適な方法は、音声信号の分類に伴って変化する。

音声信号は、おおまかには有声音、無声音、および小休止として分類することができる。

有声音音声は、ある量の周期的成分を含み、有声音開始、有声音セグメント、有声音遷移、および有声音オフセットというカテゴリにさらに分類することができる。有声音開始は、小休止または無声音セグメントの後の有声音音声セグメントの始めと定義される。有声音セグメント中に、音声信号パラメータ(スペクトルエンベロープ、ピッチ周期、周期成分と非周期成分との比率、エネルギ)は、フレームにまたがってゆっくり変化する。有声音遷移は、母音の間の遷移など、有声音音声のすばやい変動の特徴がある。有声音オフセットは、有声音セグメントの終りでのエネルギおよび発声の徐々の減少という特徴がある。

信号の無声音部分は、周期的成分を欠くという特徴があり、エネルギおよびスペクトルがすばやく変化する不安定フレームと、これらの特性が相対的に安定したままである安定フレームとにさらに分類することができる。

残りのフレームは、無音として分類される。無音フレームは、アクティブ音声を含まないすべてのフレームを含む、すなわち、背景雑音が存在する場合には雑音だけのフレームをも含む。

上で述べた分類のすべてが、別々の処理を必要とするわけではない。したがって、エラー隠蔽技法において、信号クラスの一部は、一緒にグループ化される。

エンコーダでの分類
ビットストリームに、分類情報を含めるのに使用可能な帯域幅がある場合には、分類をエンコーダで行うことができる。これは、複数の利益を有する。1つは、しばしば、音声エンコーダにルックアヘッドがあることである。このルックアヘッドは、後続フレームでの信号の進展を推定することを可能にし、その結果、分類を、将来の信号挙動を考慮に入れることによって行うことができる。一般に、ルックアヘッドが長ければ長いほど、分類をよりよいものにすることができる。さらなる利益は、複雑さの低下である。というのは、フレーム消去隠蔽に必要な信号処理のほとんどが、いずれにせよ音声符号化に必要であるからである。最後に、合成された信号ではなくオリジナルの信号を扱うという利益もある。

フレーム分類は、隠蔽および回復戦略の考慮事項を念頭において行われる。言い換えると、すべてのフレームは、次のフレームが欠けている場合に隠蔽を最適にすることができる形で、または前のフレームが失われた場合に回復を最適にすることができる形で、分類される。FER処理に使用されるクラスの一部は、曖昧さなしにデコーダ側で演繹することができるので、伝送される必要がない。この例示的実施形態では、5つの別個のクラスが使用され、これらのクラスは、次のように定義される。
・UNVOICED(無声音)クラスは、すべての無声音音声フレームおよびアクティブ音声を含まないすべてのフレームを含む。有声音オフセットフレームは、その終りが無声音になる傾向があり、無声音フレーム用に設計された隠蔽を、そのフレームが失われた場合に次のフレームのために使用できる場合に、UNVOICEDとして分類することもできる。
・UNVOICED TRANSITION(無声音遷移)クラスは、その終りに可能な有声音開始を有する無声音フレームを含む。しかし、開始は、それでも、有声音フレーム用に設計された隠蔽を使用するのには短すぎるか、それに十分に良く作られてはいない。UNVOICED TRANSITIONクラスは、UNVOICEDまたはUNVOICED TRANSITIONとして分類されるフレームに続くことだけができる。
・VOICED TRANSITION(有声音遷移)クラスは、比較的弱い有声音特性を有する有声音フレームを含む。これらは、通常、すばやく変化する特性(母音の間の遷移)またはフレーム全体に続く有声音オフセットを有する有声音フレームである。VOICED TRANSITIONクラスは、VOICED TRANSITION、VOICED、またはONSETとして分類されるフレームに続くことだけができる。
・VOICED(有声音)クラスは、安定した特性を有する有声音フレームを含む。このクラスは、VOICED TRANSITION、VOICED、またはONSETとして分類されるフレームに続くことだけができる。
・ONSET(開始)クラスは、UNVOICEDまたはUNVOICED TRANSITIONとして分類されるフレームに続く、安定した特性を有するすべての有声音フレームを含む。ONSETとして分類されるフレームは、その開始が、失われた有声音フレーム用に設計された隠蔽の使用について既に十分に良く作られている有声音開始フレームに対応する。ONSETクラスに続くフレーム消去に使用される隠蔽技法は、VOICEDクラスに続く場合と同一である。相違は、回復戦略にある。あるONSETクラスフレームが失われる(すなわち、VOICEDのよいフレームが消去の後に到着するが、消去の前の最後のよいフレームがUNVOICEDであった)場合には、特殊な技法を使用して、失われた開始を人工的に再構成することができる。このシナリオを、図6に見ることができる。人工的開始再構成技法は、後続の説明でより詳細に説明する。その一方で、ONSETのよいフレームが消去の後に到着し、消去の前の最後のよいフレームがUNVOICEDであった場合には、この特殊な処理は不要である。というのは、開始が、失われていない(失われたフレームに含まれない)からである。

分類状態図の概略を、図8に示す。使用可能な帯域幅が十分である場合には、分類は、エンコーダで行われ、2ビットを使用して伝送される。図8からわかるように、UNVOICED TRANSITION 804およびVOICED TRANSITION 806は、デコーダで曖昧さなしに区別できるので、一緒にグループ化することができる(UNVOICED TRANSITION 804フレームは、UNVOICED 802フレームまたはUNVOICED TRANSITION 804フレームだけに続くことができ、VOICED TRANSITION 806フレームは、ONSET 810フレーム、VOICED 808フレーム、またはVOICED TRANSITION 806フレームだけに続くことができる)。この例示的実施形態では、分類は、エンコーダで実行され、2ビットを使用して量子化され、この2ビットは、層2で伝送される。したがって、少なくとも層2が受信される場合に、デコーダ分類情報が、改善された隠蔽に使用される。コア層1だけが受信される場合には、分類は、デコーダで実行される。

次のパラメータが、エンコーダで分類に使用される。正規化された相関r_x、スペクトルチルト測定値e_t、信号対雑音比snr、ピッチ安定性カウンタpc、現在のフレームの終りでの信号の相対フレームエネルギE_s、およびゼロ交差カウンタzc。

信号を分類するのに使用されるこれらのパラメータの計算を、下で説明する。

正規化された相関r_xは、図7の開ループピッチ検索モジュール206の一部として計算される。このモジュール206は、通常、10msおきに(フレームあたり2回)開ループピッチ推定値を出力する。ここでは、この推定値が、正規化された相関の測定値を出力するのにも使用される。これらの正規化された相関は、現在の重み付けされた音声信号s_w(n)および開ループピッチ遅延にある過去の重み付けされた信号に対して計算される。平均相関

は、

と定義され、ここで、r_x(0)、r_x(1)は、それぞれ、第1の半フレームおよび第2の半フレームの正規化された相関である。正規化された相関r_x(k)は、次のように計算される。

相関r_x(k)は、重み付けされた音声信号s_w(n)を使用して(「x」として)計算される。瞬間t_kは、現在の半フレームの始めに関係し、それぞれ0サンプルおよび80サンプルと等しい。値T_kは、相互相関

を最大にする、半フレーム内のピッチラグである。自己相関計算の長さL'は、80サンプルと等しい。半フレーム内で値T_kを判定するもう1つの実施形態では、相互相関

が計算され、3つの遅延セクション20〜39、40〜79、および80〜143内の最大値に対応するτの値が見つけられる。次に、式(2)の正規化された相関を最大にするτの値をT_kにセットする。

スペクトルチルトパラメータe_tは、エネルギの周波数分布に関する情報を含む。この例示的実施形態では、スペクトルチルトは、音声信号の正規化された第1の自己相関係数(LP分析中に得られる最初の反射係数)としてモジュール703で推定される。

LP分析はフレームあたり2回(10ms G.729フレームごとに1回)実行されるので、スペクトルチルトは、両方のLP分析からの最初の反射係数の平均値として計算される。すなわち、
e_t = -0.5(k₁ ⁽¹⁾ + k₁ ⁽²⁾) (3)
であり、ここで、k₁ ^(j)は、半フレームjでのLP分析からの最初の反射係数である。

信号対雑音比(SNR) snr測定値は、一般波形マッチングエンコーダ(general waveform matching encoder)について、SNRが、有声音サウンドについてはるかにより高いという事実を活用する。snrパラメータ推定は、エンコーダサブフレームループの終りで行われなければならず、次の関係を使用して、SNR計算モジュール704でフレーム全体について計算される。

ここで、E_swは、現在のフレームの音声信号s(n)のエネルギであり、E_eは、現在のフレームの音声信号と合成信号との間の誤差のエネルギである。

ピッチ安定性カウンタpcは、ピッチ周期の変動を査定する。これは、開ループピッチ推定に応答して、次のように、信号分類モジュール705内で計算される。
pc = |p₃ - p₂| + |p₂ - p₁| (5)
値p₁、p₂、およびp₃は、最後の3つのサブフレームからの閉ループピッチラグに対応する。

相対フレームエネルギE_sは、dB単位の現在のフレームエネルギとその長期平均との間の差として、モジュール705によって計算される。
E_s = E_f - E_lt (6)
ここで、フレームエネルギE_fは、dB単位のウィンドウイングされた入力信号のエネルギ

であり、ここで、L = 160は、フレーム長であり、w_hanning(i)は、長さLのハニングウィンドウである。長期平均をとられたエネルギは、次の関係を使用して、アクティブ音声フレームで更新される。
E_lt = 0.99E_lt + 0.01E_f (8)
最後のパラメータは、ゼロ交差計算モジュール702によって音声信号の1フレームで計算されるゼロ交差パラメータzcである。この例示的実施形態では、ゼロ交差カウンタzcは、信号の符号がそのインターバル中に正から負に変化する回数をカウントする。

分類をより頑健にするために、分類パラメータは、信号分類モジュール705で一緒に考慮されて、ファンクションオブメリット(function of merit) f_mを形成する。そのために、分類パラメータを、まず0と1との間でスケーリングし、その結果、無声音信号に典型的な各パラメータの値が0になり、有声音信号に典型的な各パラメータの値が1になるようにする。線形関数が、これらの間で使用される。ここでパラメータpxを考慮するが、そのスケーリングされた版は、
p^s = k_p ・ p_x + c_p (9)
を使用して入手され、0と1との間でクリッピングされる(相対エネルギを除く。相対エネルギは、0.5と1との間でクリッピングされる)。関数係数k_pおよびc_pが、パラメータのそれぞれについて経験的に見つけられており、その結果、FERの存在下で使用される隠蔽技法および回復技法に起因する信号ひずみが、最小になる。この例示的実施態様で使用される値を、表2に要約する。

メリット関数は

と定義されており、ここで、添字sは、パラメータのスケーリングされた版を示す。

次に、ファンクションオブメリットを、スケーリングされた相対エネルギ

が0.5と等しい場合には1.05によってスケーリングし、

が0.75より大きい場合には1.25によってスケーリングする。さらに、ファンクションオブメリットは、瞬間的な相対エネルギ変動と長期的な相対エネルギ変動との間の差をチェックする状態機械に基づいて導出される要因f_Eによってもスケーリングされる。これは、背景雑音の存在下で信号分類を改善するために追加される。

相対エネルギ変動パラメータE_varは、
E_var = 0.05(E_s - E_prev) + 0.95E_var
として更新され、ここで、E_prevは、前のフレームからのE_sの値である。
If (|E_s - E_prev| < (|E_var| + 6)) AND (class_old = UNVOICED) f_E = 0.8
Else
If ((E_s - E_prev) > (E_var + 3)) AND (class_old = UNVOICED or TRANSITION) f_E = 1.1
Else
If ((E_s - E_prev) < (E_var - 5)) AND (class_old = VOICED or ONSET) f_E = 0.6.
ここで、class_oldは、前のフレームのクラスである。

次に、分類が、ファンクションオブメリットf_mを使用し、表3に要約された規則に従って行われる。

発話区間検出(voice activity detection、VAD)がエンコーダに存在する場合には、VADフラグを分類に使用することができる。というのは、VADフラグは、その値がインアクティブ音声を示す(すなわち、フレームが直接にUNVOICEDとして分類される)場合に、さらなる分類が不要であることを直接に示すからである。この例示的実施形態では、フレームは、相対エネルギが10dB未満の場合にUNVOICEDとして直接に分類される。

デコーダでの分類
アプリケーションが、クラス情報の伝送を許容しない(余分のビットを輸送できない)場合に、それでも、分類をデコーダで実行することができる。この例示的実施形態では、分類ビットは、層2で伝送され、したがって、分類は、コア層1だけが受信される場合にもデコーダで実行される。

次のパラメータが、デコーダでの分類に使用される。正規化された相関r_x、スペクトルチルト測定値e_t、ピッチ安定性カウンタpc、現在のフレームの終りでの信号の相対フレームエネルギE_s、およびゼロ交差カウンタzc。

信号の分類に使用されるこれらのパラメータの計算を、下で説明する。

正規化された相関r_xは、合成信号に基づいてフレームの終りに計算される。最後のサブフレームのピッチラグが使用される。

正規化された相関r_xは、次のようにピッチ同期して計算される。

ここで、Tは、最後のサブフレームのピッチラグであり、t = L - Tであり、Lは、フレームサイズである。最後のサブフレームのピッチラグが、3N/2 (Nはサブフレームサイズである)より大きい場合に、Tには、最後の2つのサブフレームの平均ピッチラグがセットされる。

相関r_xは、合成音声信号s_out(n)を使用して計算される。サブフレームサイズ(40サンプル)未満のピッチラグについて、正規化された相関は、2回すなわち瞬間t = L - Tおよびt = L - 2Tに計算され、r_xは、この2回の計算の平均値として与えられる。

スペクトルチルトパラメータe_tは、エネルギの周波数分布に関する情報を含む。この例示的実施形態では、デコーダでのスペクトルチルトは、合成信号の第1の正規化された自己相関係数として推定される。スペクトルチルトは、少なくとも3つのサブフレームに基づいて、

として計算され、ここで、x(n) = s_out(n)は、合成信号であり、Nは、サブフレームサイズであり、Lは、フレームサイズである(この例示的実施形態では、N = 40およびL = 160である)。

ピッチ安定性カウンタpcは、ピッチ周期の変動を査定する。これは、デコーダで、次に基づいて計算される。
pc = |p₃ + p₂ - p₁ - p₀| (13)
値p₀、p₁、p₂、およびp₃は、4つのサブフレームからの閉ループピッチラグに対応する。

相対フレームエネルギE_sは、dB単位の現在のフレームエネルギとその長期平均エネルギとの間の差として計算される。

ここで、フレームエネルギ

は、

としてフレームの終りにピッチ同期して計算されるdB単位の合成信号のエネルギであり、ここで、L = 160は、フレーム長であり、Tは、最後の2つのサブフレームの平均ピッチラグである。Tがサブフレームサイズより短い場合には、Tに2Tをセットする(短いピッチラグについて、2つのピッチ周期を使用して計算されるエネルギ)。

長期平均エネルギは、次の関係を使用して、アクティブ音声フレームで更新される。
E_lt = 0.99E_lt + 0.01E_f (16)
最後のパラメータは、合成信号の1フレームで計算されるゼロ交差パラメータzcである。この例示的実施形態では、ゼロ交差カウンタzcは、信号の符号がそのインターバル中に正から負に変化する回数をカウントする。

分類をより頑健にするために、分類パラメータは、一緒に考慮されて、ファンクションオブメリットf_mを形成する。そのために、分類パラメータを、まず線形関数によってスケーリングする。ここでパラメータp_xを考慮するが、そのスケーリングされた版は、
p^s = k_p ・ p_x + c_p (17)
を使用して入手される。スケーリングされたピッチコヒーレンスパラメータは、0と1との間でクリッピングされ、スケーリングされた正規化された相関パラメータは、正である場合に2倍にされる。関数係数k_pおよびc_pが、パラメータのそれぞれについて経験的に見つけられており、その結果、FERの存在下で使用される隠蔽技法および回復技法に起因する信号ひずみが、最小になる。この例示的実施態様で使用される値を、表4に要約する。

ファンクションオブメリット関数は、

次に、分類が、ファンクションオブメリットf_mを使用し、表5に要約された規則に従って行われる。

FER処理用の音声パラメータ
FERが発生する時の迷惑なアーティファクトを避けるために注意深く制御される少数のパラメータがある。少数の余分なビットを伝送できる場合に、これらのパラメータを、エンコーダで推定し、量子化し、伝送することができる。そうでない場合に、これらの一部を、デコーダで推定することができる。これらのパラメータには、信号分類、エネルギ情報、位相情報、および発声情報を含めることができる。

エネルギ制御の重要さは、主に、フレームの消去されたブロックの後に通常動作が回復する時に明らかになる。ほとんどの音声エンコーダは、予測を利用するので、正しいエネルギをデコーダで正しく推定することはできない。有声音音声セグメントでは、不正なエネルギが、複数の連続するフレームにわたって持続する可能性があり、これは、特にこの不正なエネルギが増える時に非常に迷惑である。

エネルギは、長期予測(ピッチ予測)のゆえに有声音音声について制御されるだけではなく、無声音音声についても制御される。この理由は、CELPタイプコーダでしばしば使用される革新利得量子化器の予測である。無声音セグメント中の誤ったエネルギは、迷惑な高周波変動を引き起こす可能性がある。

位相制御も、考慮すべき部分である。たとえば、声門パルス位置に関係する位相情報が、送信される。[1]のPCT特許出願では、位相情報は、フレーム内の最初の声門パルスの位置として伝送され、失われた有声音開始を再構成するのに使用される。位相情報のさらなる使用が、適応コードブックの内容の再同期化である。これは、隠蔽されるフレームおよび続くフレームでのデコーダ収束を改善し、音声品質を大幅に高める。適応コードブック(または過去の励起)の再同期化の手順は、受信される位相情報(受信されるか否か)およびデコーダで使用可能な遅延に依存して、複数の形で行うことができる。

エネルギ情報
エネルギ情報は、LP残差領域または音声信号領域のいずれかで推定し、送信することができる。残差領域での情報の送信は、LP合成フィルタの影響を考慮に入れていないという不利益を有する。これは、複数の失われた有声音フレームの後の有声音回復の場合(FERが有声音音声セグメント中に発生する時)に、特に注意を要する。FERが有声音フレームの後に到着する時には、最後のよいフレームの励起が、通常、ある減衰戦略と共に隠蔽中に使用される。新しいLP合成フィルタが、消去の後の最初のよいフレームと共に到着する時には、励起エネルギとLP合成フィルタの利得との間に不一致がある可能性がある。新しい合成フィルタは、そのエネルギが最後に合成された消去フレームのエネルギともオリジナルの信号エネルギとも非常に異なる合成信号を作る可能性がある。この理由から、エネルギは、信号領域で計算され、量子化される。

エネルギE_qは、図7のエネルギ推定および量子化モジュール706で計算され、量子化される。この非制限的例示的実施形態では、5ビットのユニフォーム量子化器(uniform quantizer)が、0dBから96dBまでの範囲で3.1dBのステップで使用される。量子化インデックスは、

の整数部分によって与えられ、ここで、インデックスは、0 ≦ i ≦ 31に制限される。

Eは、VOICEDまたはONSETとして分類されたフレームについては最大サンプルエネルギであり、他のフレームについてはサンプルあたりの平均エネルギである。VOICEDフレームまたはONSETフレームについて、最大サンプルエネルギは、次のようにフレームの終りにピッチ同期して計算される。

ここで、Lは、フレーム長であり、信号s(i)は、音声信号を表す。ピッチ遅延がサブフレームサイズ(この例示的実施形態では40サンプル)を超える場合には、t_Eは、最後のサブフレームの丸められた閉ループピッチラグと等しい。ピッチ遅延が40サンプルより短い場合には、t_Eに、最後のサブフレームの丸められた閉ループピッチラグの2倍をセットする。

他のクラスについて、Eは、現在のフレームの2番目の半分のサンプルあたりの平均エネルギである、すなわち、t_EにはL/2がセットされ、Eは、

として計算される。この例示的実施形態では、エンコーダでのローカル合成信号が、エネルギ情報の計算に使用される。

この例示的実施形態では、エネルギ情報は、層4で伝送される。したがって、層4が受信される場合に、この情報を使用して、フレーム消去隠蔽を改善することができる。そうでない場合には、エネルギは、デコーダ側で推定される。

位相制御情報
位相制御は、前のセクションで説明したものに類似する理由で、有声音音声の失われたセグメントの後の回復の間に使用される。消去フレームのブロックの後に、デコーダメモリは、エンコーダメモリと非同期化された状態になる。デコーダを再同期化するために、いくつかの位相情報を伝送することができる。非限定的な例として、前のフレーム内の最後の声門パルスの位置および符号を、位相情報として送信することができる。この位相情報は、その後、後で説明するように、失われた有声音開始の後の回復に使用される。また、後で開示するように、この情報は、正しく受信された連続するフレームでの収束を改善する(伝搬されるエラーを減らす)ために、消去フレームの励起信号を再同期化するのにも使用される。

位相情報は、フレーム内の最初の声門パルスまたは前のフレーム内の最後の声門パルスのいずれかに対応するものとすることができる。その選択は、余分な遅延がデコーダで使用可能であるか否かに依存する。この例示的実施形態では、1フレームの遅延が、MDCT再構成でのoverlap-and-add動作のためにデコーダで使用可能である。したがって、単一のフレームが消去される時に、将来のフレームのパラメータが使用可能である(余分なフレーム遅延のゆえに)。この場合に、消去フレームの終りの最大パルスの位置および符号が、将来のフレームから入手可能である。したがって、ピッチ励起を、最後の最大パルスが将来のフレームで受信される位置に位置合せされる形で隠蔽することができる。これを、下でより詳細に説明する。

余分な遅延が、デコーダで使用可能ではない場合がある。この場合には、位相情報は、消去フレームが隠蔽される時に使用されない。しかし、消去フレームの後のよい受信されたフレームで、位相情報を使用して、適応コードブックのメモリ内で声門パルス同期化を実行する。これは、エラー伝搬を減らす際の性能を高める。

T₀が、最後のサブフレームの丸められた閉ループピッチラグであるものとする。最大パルスの検索が、低域フィルタリングされたLP残差に対して実行される。低域フィルタリングされた残差は、
r_LP(n) = 0.25r(n - 1) + 0.5r(n) + 0.25r(n + 1) (22)
によって与えられる。声門パルス検索および量子化モジュール707は、最大の絶対振幅を有するサンプルを探すことによって、フレーム内の低域フィルタリングされた残差のT₀個の最後のサンプルの中で最後の声門パルスの位置τを検索する(τは、フレームの終りに対する相対的な位置である)。

最後の声門パルスの位置は、次の形で6ビットを使用してコーディングされる。最初の声門パルスの位置を符号化するのに使用される精度は、最後のサブフレームの閉ループピッチ値T₀に依存する。これが可能であるのは、この値が、エンコーダとデコーダとの両方によって知られ、1つまたは複数のフレーム消失の後のエラー伝搬の対象ではないからである。T₀が64未満の時には、フレームの終りに対する相対的な最後の声門パルスの位置は、1サンプルの精度で直接に符号化される。64 ≦ T₀ < 128の時には、フレームの終りに対する相対的な最後の声門パルスの位置は、単純な整数除算すなわちτ/2を使用することによって、2サンプルの精度で符号化される。T₀ ≧ 128の時には、フレームの終りに対する相対的な最後の声門パルスの位置は、τをさらに2によって除算することによって、4サンプルの精度で符号化される。逆の手順が、デコーダで行われる。T₀ < 64の場合には、受信された量子化された位置は、そのままで使用される。64 ≦ T₀ < 128の場合には、受信された量子化された位置は、2をかけられ、1つ増分される。T₀ ≧ 128の場合には、受信された量子化された位置は、4をかけられ、2つ増分される(2による増分は、一様分布する量子化誤差をもたらす)。

最大絶対パルス振幅の符号も、量子化される。これは、位相情報に関して、合計7ビットを与える。符号は、位相再同期化に使用される。というのは、声門パルス形状が、しばしば、反対の符号を有する2つの大きいパルスを含むからである。符号を無視することは、位置の小さいドリフトをもたらし、再同期化手順の性能を下げる可能性がある。

位相情報を量子化する効率的な方法を使用できることに留意されたい。たとえば、前のフレーム内の最後のパルス位置を、現在のフレーム内の最初のサブフレームのピッチラグから推定される位置に対して相対的に量子化することができる(この位置は、ピッチラグによって遅延されたフレーム内の最初のパルスから簡単に推定することができる)。

より多くのビットが使用可能である場合には、声門パルスの形状を符号化することができる。この場合に、最初の声門パルスの位置は、残差信号と可能なパルス形状との間の相関分析、符号(正または負)、および位置によって判定することができる。パルス形状は、エンコーダとデコーダとの両方で既知のパルス形状のコードブックからとることができ、この方法は、当業者によってベクトル量子化として知られている。次に、最初の声門パルスの形状、符号、および振幅が、符号化され、デコーダに伝送される。

消去フレームの処理
この例示的実施形態のFER隠蔽技法は、ACELPタイプのコーデックで説明される。しかし、これらの技法は、励起信号をLP合成フィルタを介してフィルタリングすることによって合成信号が生成される任意の音声コーデックに簡単に適用することができる。隠蔽戦略は、信号エネルギおよびスペクトルエンベロープの、背景雑音の推定されたパラメータへの収束として要約することができる。信号の周期数は、0に収束される。収束の速度は、最後のよい受信されたフレームクラスのパラメータと、連続する消去フレームの個数とに依存し、減衰係数αによって制御される。係数αは、さらに、UNVOICEDフレームに関するLPフィルタの安定性に依存する。一般に、収束は、最後のよい受信されたフレームが安定したセグメント内にある場合には遅く、そのフレームが遷移セグメント内にある場合には速い。αの値を、表6に要約する。

表6では、

は、

によって与えられる、フレームあたりの平均ピッチ利得であり、ここで、

は、サブフレームiでのピッチ利得である。

βの値は、

によって与えられる。

値θは、隣接するLPフィルタの間の距離測定値に基づいて計算される安定性係数である。ここで、係数θは、LSP (線スペクトル対)距離測定値に関係し、0 ≦ θ ≦ 1によって制限され、θのより大きい値は、より安定した信号に対応する。これは、分離されたフレーム消去が、安定した無声音セグメントの内部で発生する時に、減少するエネルギ変動およびスペクトルエンベロープ変動をもたらす。この例示的実施形態では、安定性係数θは、

によって与えられ、ここで、LSP_iは、現在のフレームLSPであり、LSPold_iは、過去のフレームLSPである。LSPが、コサイン領域にある(-1から1まで)ことに留意されたい。

将来のフレームの分類情報が入手可能ではない場合には、クラスは、最後のよい受信されたフレームと同一になるようにセットされる。クラス情報が、将来のフレームで入手可能である場合には、失われたフレームのクラスは、将来のフレームのクラスおよび最後のよいフレームのクラスに基づいて推定される。この例示的実施形態では、将来のフレームのクラスは、将来のフレームの層2が受信される(将来のフレームのビットレートが8kビット/sを超え、失われない)場合に入手可能とすることができる。エンコーダが、12kビット/sの最大ビットレートで動作する場合に、デコーダでMDCT overlap-and-addに使用される余分なフレーム遅延は、不要であり、実装者は、デコーダ遅延を減らすことを選択することができる。この場合に、隠蔽は、過去の情報だけに対して実行される。これを、低遅延デコーダモードと呼ぶ。

class_oldが、最後のよいフレームのクラスを表し、class_newが、将来のフレームのクラスを表し、class_lostが、推定される失われたフレームのクラスであるものとする。

当初に、class_lostは、class_oldと等しくなるようにセットされる。将来のフレームが使用可能である場合には、そのクラス情報が、class_newに復号される。次に、class_lostの値が、次のように更新される。
- class_newがVOICEDであり、class_oldがONSETである場合には、class_lostにVOICEDをセットする。
- class_newがVOICEDであり、最後のよいフレームの前のフレームのクラスがONSETまたはVOICEDである場合には、class_lostにVOICEDをセットする。
- class_newがUNVOICEDであり、class_oldがVOICEDである場合には、class_lostにUNVOICED TRANSITIONをセットする。
- class_newがVOICEDまたはONSETであり、class_oldがUNVOICEDである場合には、class_lostにSIN ONSET (開始再構成)をセットする。

励起の周期的部分の構成
そのクラスにUNVOICEDまたはUNVOICED TRANSITIONがセットされている消去フレームの隠蔽について、励起信号の周期的部分は、生成されない。他のクラスについて、励起信号の周期的部分は、次の形で構成される。

まず、前のフレームの最後のピッチサイクルを、繰り返してコピーする。よいフレームの後の最初の消去フレームの場合には、このピッチサイクルは、まず低域フィルタリングされる。使用されるフィルタは、0.18、0.64、および0.18と等しいフィルタ係数を有する単純な3タップ線形位相FIR (有限インパルス応答)フィルタである。

最後のピッチサイクルを選択するのに使用され、したがって隠蔽中に使用されるピッチ周期T_cは、ピッチの倍数または約数を回避するか減らすことができるようになるように定義される。ピッチ周期T_cの判定では、次の論理が使用される。
if ((T₃ < 1.8 T_s) AND (T₃ > 0.6T_s)) OR (T_cnt ≧ 30), then T_c = T₃, else T_c = T_s
ここで、T₃は、最後のよい受信されたフレームの第4サブフレームの丸められたピッチ周期であり、T_sは、コヒーレントピッチ推定値を有する最後のよい安定した有声音フレームの第4サブフレームの丸められた予測されたピッチ周期である。安定した有声音フレームは、ここでは、有声音タイプ(VOICED TRANSITION、VOICED、ONSET)が先行するVOICEDフレームと定義される。ピッチのコヒーレンスは、この実施態様では、閉ループピッチ推定値が適度に近いかどうか、すなわち、前のフレームの最後のサブフレームピッチと2番目のサブフレームピッチと最後のサブフレームピッチとの間の比が区間(0.7, 1.4)内にあるかどうかを検査することによって検証される。代替案では、複数の失われたフレームがある場合に、T₃は、最後の隠蔽されるフレームの第4サブフレームの丸められた推定されたピッチ周期である。

ピッチ周期T_cのこの判定は、最後のよいフレームの終りのピッチおよび最後の安定したフレームのピッチが互いに近い場合に、最後のよいフレームのピッチが使用されることを意味する。そうでない場合には、このピッチは、信頼できないと考えられ、最後の安定したフレームのピッチが、有声音開始での誤ったピッチ推定の影響を回避するために、その代わりに使用される。しかし、この論理は、最後の安定したセグメントが、遠すぎる過去ではない場合に限って意味をなす。したがって、最後の安定したセグメントの影響の到達範囲を制限するカウンタT_cntが定義される。T_cntが30以上である場合、すなわち、最後のT_s更新以降に少なくとも30フレームがある場合には、最後のよいフレームピッチが、意図的に使用される。T_cntは、安定したセグメントが検出され、T_sが更新されるたびに0にリセットされる。次に、周期T_cは、消去されたブロック全体に関する隠蔽中に、一定に維持される。

UNVOICED以外の正しく受信されたフレームに続く消去フレームについて、励起バッファが、励起のこの周期的部分だけを用いて更新される。この更新は、次のフレームのピッチコードブック励起を構成するのに使用される。

上で説明した手順は、声門パルス位置のドリフトをもたらす場合がある。というのは、励起を作成するのに使用されるピッチ周期が、エンコーダでの真のピッチ周期と異なる可能性があるからである。これは、適応コードブックバッファ(または過去励起バッファ)を実際の励起バッファから非同期化させる。したがって、よいフレームが、消去フレームの後に受信される場合に、ピッチ励起(または適応コードブック励起)は、複数フレームにまたがって持続し、正しく受信されたフレームの性能に影響する可能性がある誤差を有する。

図9は、例示的実施形態で説明した励起の周期的部分の隠蔽手順900を示す流れ図であり、図10は、励起の周期的部分の同期化手順1000を示す流れ図である。

この問題を克服し、デコーダでの収束を改善するために、隠蔽されるフレーム内の最後の声門パルスの位置を、実際の声門パルス位置と同期化させるために調整する、再同期化方法(図9の900)を開示する。第1の実施態様では、この再同期化手順は、将来のフレームで伝送される、隠蔽されるフレーム内の最後の声門パルスの真の位置に関する位相情報に基づいて実行することができる。第2の実施態様では、最後の声門パルスの位置は、将来のフレームからの情報が入手可能ではない時に、デコーダで推定される。

上で説明したように、失われたフレーム全体のピッチ励起は、前のフレームの最後のピッチサイクルT_cを繰り返すことによって作成され(図9の動作906)、ここで、T_cは、上で定義されたものである。最初の消去フレーム(図9の動作902中に検出される)について、ピッチサイクルは、まず、係数0.18、0.64、および0.18を有するフィルタを使用して低域フィルタリングされる(図9の動作904)。これは、次のように行われる。
u(n) = 0.18u(n - T_c - 1) + 0.64u(n - T_c) + 0.18u(n - T_c + 1), n = 0, …, T_c - 1
u(n) = u(n - T_c), n = T_c, …, L + N - 1 (26)
ここで、u(n)は、励起信号であり、Lは、フレームサイズであり、Nは、サブフレームサイズである。最初の消去フレームではない場合には、隠蔽される励起は、単純に、
u(n) = u(n - T_c), n = 0, …, L + N - 1 (27)
として作成される。隠蔽される励起が、下で示すように、再同期化において助けるために余分のサブフレームについても計算されることに留意されたい。

隠蔽される励起が見つかったならば、再同期化手順は、次のように実行される。将来のフレームが使用可能であり(図9の動作908)、声門パルス情報を含む場合に、この情報を復号する(図9の動作910)。上で説明したように、この情報は、フレームの終りからの絶対最大パルスの位置およびその符号からなる。この復号された位置をP₀と表すものとすると、絶対最大パルスの実際の位置は、
P_last = L - P₀
によって与えられる。次に、復号された符号情報に類似する符号を有するフレームの始めからの隠蔽される励起の最大パルスの位置を、低域フィルタリングされた励起に基づいて判定する(図9の動作912)。すなわち、復号された最大パルス位置が正である場合に、フレームの始めからの隠蔽される励起の最大の正パルスが判定され、そうでない場合には、負の最大パルスが判定される。隠蔽される励起の最初の最大パルスをT(0)と表すものとする。他の最大パルスの位置は、
T(i) = T(0) + iT_c, i = 1, …, N_p - 1 (28)
によって与えられ(図9の動作914)、ここで、N_pは、パルスの個数である(将来のフレーム内の最初のパルスを含む)。

そのフレーム内の最後の隠蔽されるパルスのパルス位置の誤差を、実際のパルスP_lastに最も近いパルスT(i)を検索することによって見つける(図9の動作916)。この誤差は、
T_e = P_last - T(k)、ただし、kは、P_lastに最も近いパルスのインデックスである
によって与えられる。T_e = 0の場合には、再同期化は不要である(図9の動作918)。T_eの値が正である(T(k) < P_last)場合には、T_e個のサンプルを挿入する必要がある(図10の動作1002)。T_eの値が負である(T(k) > P_last)場合には、T_e個のサンプルを除去する必要がある(図10の動作1002)。さらに、再同期化は、T_e < NかつT_e < N_p × T_diffの場合に限って実行され、ここで、Nは、サブフレームサイズであり、T_diffは、T_cと将来のフレームの最初のサブフレームのピッチラグとの間の絶対差である(図9の動作918)。

追加されまたは削除される必要があるサンプルは、フレーム内のピッチサイクルにまたがって分配される。異なるピッチサイクル内の最小エネルギ領域を判定し、サンプルの削除または挿入を、これらの領域で実行する。フレーム内のピッチパルスの個数は、めいめいの位置T(i)でN_pであり、i = 0, …, N_p - 1である。最小エネルギ領域の個数は、N_p - 1である。最小エネルギ領域は、スライディング5サンプルウィンドウを使用してエネルギを計算することによって判定される(図10の動作1002)。最小エネルギ位置が、エネルギが最小値であるウィンドウの中央にセットされる(図10の動作1004)。位置T(i)およびT(i + 1)の2つのピッチパルスの間で実行される検索は、T(i) + T_c/4とT(i + 1) - T_c/4との間に制限される。

上で説明したように判定された最小位置をTmin(i), i = 0, …, N_min - 1と表すものとするが、N_min = N_p - 1は、最小エネルギ領域の個数である。サンプルの削除または挿入は、T_min(i)の前後で実行される。追加または削除されるサンプルは、次に説明するように、異なるピッチサイクルにまたがって分配される。

N_min = 1の場合には、最小エネルギ領域は1つだけあり、すべてのパルスT_eが、T_min(0)で挿入され、または削除される。

N_min > 1について、単純なアルゴリズムを使用して、各ピッチサイクルで追加または除去すべきサンプルの個数を判定し、これによって、より少数のサンプルが、フレームの始めで追加/除去され、より多数のサンプルが、フレームの終りに向かって追加/除去されるようにする(図10の動作1006)。この例示的実施形態では、追加/除去されるパルスの総数の値T_eおよび最小エネルギ領域の個数N_minについて、ピッチサイクルあたりの追加/除去されるサンプルの個数R(i), i = 0, …, N_min - 1は、次の再帰関係を使用して見つけられる(図10の動作1006)。

ここで、

である。

各ステージで、条件R(i) < R(i - 1)が検査され、これが真である場合に、R(i)およびR(i - 1)の値が交換されることに留意されたい。

値R(i)は、フレームの始めから始まるピッチサイクルに対応する。R(0)は、T_min(0)に対応し、R(1)は、T_min(1)に対応し、…、R(N_min - 1)は、T_min(N_min - 1)に対応する。値R(i)は、昇順になっているので、より多くのサンプルが、フレームの終りのサイクルに向かって追加/除去される。

R(i)の計算の例として、T_e = 11または-11、N_min = 4 (追加/除去される11個のサンプルおよびフレーム内の4つのピッチサイクル)について、R(i)の次の値が見つかる。
f = 2 × 11 / 16 = 1.375
R(0) = round(f / 2) = 1
R(1) = round(2f - 1) = 2
R(2) = round(4.5f - 1 - 2) = 3
R(3) = round(8f - 1 - 2 - 3) = 5

したがって、1つのサンプルが、最小エネルギ位置T_min(0)の前後で追加/除去され、2つのサンプルが、最小エネルギ位置T_min(1)の前後で追加/除去され、3つのサンプルが、最小エネルギ位置T_min(2)の前後で追加/除去され、5つのサンプルが、最小エネルギ位置T_min(3)の前後で追加/除去される(図10の動作1008)。

サンプルの除去は、単純である。サンプルの追加(図10の動作1008)は、この例示的実施形態では、最後のR(i)個のサンプルを、20によって割り、符号を反転した後にコピーすることによって実行される。5つのサンプルを位置T_min(3)に挿入する必要がある上の例では、次が実行される。
u(T_min(3) + i) = -u(T_min(3) + i - R(3))/20, i = 0, …, 4 (30)
上で開示した手順を使用すると、隠蔽される励起の最後の最大パルスは、将来のフレームで伝送されるフレームの終りの実際の最大パルス位置に強制的に位置合せされる(図9の動作920および図10の動作1010)。

パルス位相情報が使用可能ではないが、将来のフレームは使用可能である場合には、将来のフレームのピッチ値を過去のピッチ値を用いて補間して、サブフレームあたりの推定されたピッチラグを見つけることができる。将来のフレームが使用可能ではない場合には、欠けているフレームのピッチ値を、推定し、その後、過去のピッチ値を用いて補間して、サブフレームあたりの推定されたピッチラグを見つけることができる。その後、隠蔽されるフレーム内のすべてのピッチサイクルの総遅延を、隠蔽に使用された最後のピッチとサブフレームあたりの推定されたピッチラグとの両方について計算する。この2つの総遅延の間の差は、フレーム内の最後の隠蔽された最大パルスと推定されたパルスとの間の差の推定値を与える。次に、上で説明したように、パルスを再同期化することができる(図9の動作920および図10の動作1010)。

デコーダが余分な遅延を有しない場合には、将来のフレームに存在するパルス位相情報を、最初に受信されたよいフレームで使用して、適応コードブック(過去の励起)のメモリを再同期化することができ、現在のフレームの励起を構成する前に、最後の最大声門パルスを現在のフレーム内で伝送される位置に位置合せさせることができる。この場合に、同期化は、正確に上で説明した通りではあるが、現在の励起で行われるのではなく、励起のメモリ内で行われる。この場合に、現在の励起の構成は、同期化されたメモリを用いて開始される。

余分な遅延が使用可能ではない時に、最後のフレームの最後の最大声門パルスの位置ではなく、現在のフレームの最初の最大パルスの位置を送信することも可能である。そうである場合には、同期化は、やはり、現在の励起を構成する前に、励起のメモリ内で達成される。この構成を用いると、励起のメモリ内の絶対最大パルスの実際の位置は、
P_last = L + P₀ - T_new
によって与えられ、ここで、T_newは、新しいフレームの最初のピッチサイクルであり、P₀は、現在のフレームの最初の最大声門パルスの復号された位置である。

前のフレームの励起の最後のパルスが、周期的部分の構成に使用されるので、その利得は、隠蔽されるフレームの始めでほぼ正しく、1をセットすることができる(図9の動作922)。次に、利得は、フレームの終りでのαの値を達成するために、サンプルごとの基礎でフレーム全体を通じて線形に減衰される(図9の動作924)。

αの値(図9の動作922)は、有声音セグメントのエネルギ進展を考慮に入れた表6の値に対応する。この進展は、最後のよいフレームの各サブフレームのピッチ励起利得値を使用することによって、ある程度外挿することができる。一般に、これらの利得が1を超える場合に、信号エネルギは増加しつつあり、これらの利得が1未満である場合に、エネルギは減少しつつある。したがって、αには、上で説明した

がセットされる。βの値は、エネルギの強い増加および減少を避けるために、0.98と0.85との間にクリッピングされる。

UNVOICED以外の正しく受信されたフレームに続く消去フレームについて、励起バッファは、励起の周期的部分のみを用いて更新される(再同期化および利得スケーリングの後に)。この更新は、次のフレームのピッチコードブック励起を構成するのに使用される(図9の動作926)。

図11に、同期化手順を伴うおよびこれを伴わない励起信号の通常の例を示す。フレーム消去なしのオリジナル励起信号を、図11bに示す。図11cに、同期化手順を使用しない、図11aに示されたフレームが消去された時の隠蔽される励起信号を示す。隠蔽されたフレームの最後の声門パルスが、図11bに示された真のパルス位置と位置合せされていないことが、明瞭にわかる。さらに、フレーム消去隠蔽の影響が、消去されない後続フレームで持続することがわかる。図11dに、上で説明した本発明の例示的実施形態による同期化手順が使用された時の、隠蔽される励起信号を示す。隠蔽されるフレームの最後の声門パルスが、図11bに示された真のパルス位置に正しく位置合せされていることが、明瞭にわかる。さらに、後続の正しく受信されたフレームに対するフレーム消去隠蔽の影響が、図11cの事例より問題が少ないことがわかる。この観察は、図11eおよび11fで確認される。図11eは、オリジナル励起と同期化なしの隠蔽された励起との間の誤差を示す。図11fは、オリジナル励起と本同期化手順が使用される時の隠蔽された励起との間の誤差を示す。

図12に、図11に示された励起信号を使用して再構成された音声信号の例を示す。フレーム消去なしの再構成された信号を、図12bに示す。図12cは、同期化手順を使用しない、図12aに示されたフレームが消去された時の再構成された音声信号を示す。図12dは、本発明の上の例示的な実施形態で開示された同期化手順を使用する、図12aに示されたフレームが消去された時の再構成された音声信号を示す。図12eは、オリジナル信号と図12cの信号との間のサブフレームあたりの信号対雑音比(SNR)を示す。図12eから、SNRが、よいフレームが受信される時であっても非常に低いままであることがわかる(次の2つのよいフレームについて0dB未満のままであり、7番目のよいフレームまで8dB未満になる)。図12fに、オリジナル信号と図12dの信号との間のサブフレームあたりの信号対雑音比(SNR)を示す。図12fから、信号が真の再構成された信号にすばやく収束することがわかる。SNRは、2つのよいフレームの後にすばやく10dBを超えて増加する。

励起のランダム部分の構成
励起信号の革新(非周期的)部分は、ランダムに生成される。この部分は、ランダム雑音として、またはランダムに生成されるベクトルインデックスを有するCELP革新コードブックを使用することによって、生成することができる。この例示的実施形態では、ほぼ一様分布を有する単純なランダムジェネレータが使用された。革新利得を調整する前に、ランダムに生成された革新が、ここでは、サンプルあたり単一エネルギに固定される、ある基準値に対してスケーリングされる。

消去されたブロックの始めに、革新利得g_sは、最後のよいフレームの各サブフレームの革新励起利得を使用することによって初期化される。
g_s = 0.1g(0) + 0.2g(1) + 0.3g(2) + 0.4g(3) (31)
ここで、g(0)、g(1)、g(2)、およびg(3)は、最後に正しく受信されたフレームの4つのサブフレームの固定コードブック利得または革新利得である。励起のランダム部分の減衰戦略は、ピッチ励起の減衰とは多少異なる。その理由は、ピッチ励起(したがって、励起周期数)が、0に収束しつつあるが、ランダム励起が、コンフォートノイズ生成(comfort noise generation、CNG)励起エネルギに収束しつつあるからである。革新利得減衰は、

として行われ、ここで、

は、次のフレームの始めでの革新利得であり、

は、現在のフレームの始めでの革新利得であり、g_nは、コンフォートノイズ生成中に使用される励起の利得であり、αは、表5で定義されるものである。したがって、周期的励起減衰に似て、利得は、

から始まり、次のフレームの始めに達成される

という値まで進んで、サンプルごとの基礎でフレームを通って線形に減衰される。

最後に、最後のよい(正しく受信されたまたは消去されていない)受信されたフレームが、UNVOICEDとは異なる場合に、革新励起は、係数-0.0125、-0.109、0.7813、-0.109、-0.0125を有する線形位相FIR高域フィルタを介してフィルタリングされる。有声音セグメント中の雑音のある成分の量を減らすために、これらのフィルタ係数は、(0.75 - 0.25 r_v)と等しい適応係数をかけられ、r_vは、-1から1までの範囲の発声係数である。次に、励起のランダム部分を適応励起に加算して、総励起信号を形成する。

最後のよいフレームがUNVOICEDである場合には、革新励起だけが使用され、革新励起は、さらに、0.8の係数によって減衰される。この場合に、過去励起バッファは、励起の周期的部分が入手可能ではないので、革新励起を用いて更新される。

スペクトルエンベロープの隠蔽、合成、および更新
復号された音声を合成するために、LPフィルタパラメータを入手しなければならない。

将来のフレームが使用可能ではない場合に、スペクトルエンベロープは、環境雑音の推定されたエンベロープに徐々に移動される。ここで、LPパラメータのLSF表現が使用される。
I¹(j) = αI⁰(j) + (1 - α)I_n(j), j = 0, …, p - 1 (33)
式(33)では、I¹(j)は、現在のフレームのj番目のLSFの値であり、I⁰(j)は、前のフレームのj番目のLSFの値であり、Iⁿ(j)は、推定されたコンフォートノイズエンベロープのj番目のLSFの値であり、pは、LPフィルタの次数である(LSFが周波数領域にあることに留意されたい)。代替案では、消去フレームのLSFパラメータを、最後のフレームからのパラメータと等しくなるように単純にセットすることができる(I¹(j) = I⁰(j))。

合成された音声は、LP合成フィルタを介して励起信号をフィルタリングすることによって得られる。フィルタ係数は、LSF表現から計算され、通常のエンコーダ動作中と同様にサブフレームごとに(フレームあたり4回)補間される。

将来のフレームが入手可能な場合に、サブフレームあたりのLPフィルタパラメータは、将来のフレームおよび過去のフレームのLSP値を補間することによって入手される。複数の方法を、補間されたパラメータを見つけるのに使用することができる。1つの方法では、フレーム全体のLSPパラメータが、次の関係を使用して見つけられる。
LSP⁽¹⁾ = 0.4LSF⁽⁰⁾ + 0.6 LSP⁽²⁾ (34)
ここで、LSP⁽¹⁾は、消去フレームの推定されたLSPであり、LSP⁽⁰⁾は、過去のフレームのLSPであり、LSP⁽²⁾は、将来のフレームのLSPである。

非限定的な例として、LSPパラメータは、20msフレームあたり2回伝送される(第2サブフレームおよび第4サブフレームにセンタリングされる)。したがって、LSP⁽⁰⁾は、過去のフレームの第4サブフレームにセンタリングされ、LSP⁽²⁾は、将来のフレームの第2サブフレームにセンタリングされる。したがって、補間されたLSPパラメータは、消去フレームのサブフレームごとに、
LSP^(1,i) = ((5 - i)LSP⁽⁰⁾ + (i + 1)LSF⁽²⁾)/6, i = 0, …, 3 (35)
として見つけることができ、ここで、iはサブフレームインデックスである。LSPは、コサイン領域(-1から1まで)にある。

革新利得量子化器とLSF量子化器との両方が、予測を使用するので、これらの量子化器のメモリは、通常動作が再開された後に最新状態ではなくなる。この影響を減らすために、量子化器のメモリは、各消去フレームの終りに推定され、更新される。

消去の後の通常動作の再開
フレームの消去されたブロックの後の回復の問題は、基本的に、事実上すべての現代の音声エンコーダで使用される強い予測に起因する。具体的に言うと、CELPタイプの音声コーダは、現在のフレームの励起を符号化するのに過去の励起信号を使用している(長期予測またはピッチ予測)という事実に起因して、有声音音声に関する高い信号対雑音比を達成する。また、ほとんどの量子化器(LP量子化器、利得量子化器など)は、予測を利用する。

人工的な開始の構成
CELPエンコーダでの長期予測の使用に関係する最も複雑な状況は、有声音開始が失われる時である。失われた開始は、有声音音声開始が、消去されたブロック中のどこかで発生したことを意味する。この場合に、最後のよい受信されたフレームは、無声音であり、したがって、周期的励起は、励起バッファ内で見つからない。しかし、消去されたブロックの後の最初のよいフレームは、有声音であり、エンコーダの励起バッファは、非常に周期的であり、適応励起は、この周期的な過去の励起を使用して符号化されている。励起のこの周期的部分は、デコーダでは完全に失われているので、この消失から回復するには、数フレームを要する可能性がある。

ONSETフレームが失われる(すなわち、VOICEDのよいフレームが消去の後に到着するが、消去の前の最後のよいフレームが、図13に示されているようにUNVOICEDであった)場合には、特殊な技法を使用して、失われた開始を人工的に再構成し、音声合成をトリガする。この例示的実施形態では、隠蔽されるフレームの最後の声門パルスの位置を、将来のフレームから入手可能とすることができる(将来のフレームは、失われず、前のフレームに関係する位相情報は、その将来のフレームで受信される)。この場合に、消去フレームの隠蔽は、通常通りに実行される。しかし、消去フレームの最後の声門パルスは、将来のフレームから入手可能な位置および符号の情報に基づいて人工的に再構成される。この情報は、フレームの終りからの最大パルスの位置およびその符号からなる。したがって、消去フレーム内の最後の声門パルスは、低域フィルタリングされたパルスとして人工的に再構成される。この例示的実施形態では、パルスの符号が正である場合には、使用される低域フィルタは、インパルス応答h_low = {-0.0125, 0.109, 0.7813, 0.109, -0.0125}を有する単純な線形位相FIRフィルタである。パルスの符号が負である場合には、使用される低域フィルタは、インパルス応答h_low = {0.0125, -0.109, -0.7813, -0.109, 0.0125}を有する線形位相FIRフィルタである。

検討されるピッチ周期は、隠蔽されるフレームの最後のサブフレームである。低域フィルタリングされたパルスは、低域フィルタのインパルス応答を適応励起バッファのメモリ(以前に0に初期化された)に配置することによって実現される。低域フィルタリングされた声門パルス(低域フィルタのインパルス応答)は、復号された位置P_last(将来のフレームのビットストリーム内で伝送される)にセンタリングされる。次のよいフレームを復号する際に、通常のCELP復号が再開される。低域フィルタリングされた声門パルスを隠蔽されるフレームの終りの正しい位置に配置することによって、連続するよいフレームの性能が大幅に改善され、実際のデコーダ状態へのデコーダ収束が加速される。

次に、人工的開始励起の周期的部分のエネルギを、LP合成フィルタの利得によって除算された、FER隠蔽の量子化され伝送されたエネルギに対応する利得によってスケーリングする。LP合成フィルタ利得は、

として計算され、ここで、h(i)は、LP合成フィルタのインパルス応答である。最後に、人工的開始利得を、周期的部分に0.96をかけることによって減らす。

出力音声合成のLPフィルタは、人工的開始構成の場合には補間されない。そうではなく、受信されたLPパラメータが、フレーム全体の合成に使用される。

エネルギ制御
フレームの消去されたブロックの後の回復での1つの作業が、合成音声信号のエネルギを正しく制御することである。合成エネルギ制御が必要なのは、現代の音声コーダで通常使用される強い予測のゆえである。エネルギ制御は、消去フレームのブロックが有声音セグメント中に発生する時にも実行される。フレーム消去が有声音フレームの後に到着する時には、最後のよいフレームの励起は、通常、ある減衰戦略と共に隠蔽中に使用される。新しいLPフィルタが、消去の後の最初のよいフレームと共に到着する時には、励起エネルギと新しいLP合成フィルタの利得との間に不一致がある可能性がある。新しい合成フィルタは、最後に合成された消去フレームのエネルギともオリジナルの信号エネルギとも非常に異なるエネルギを有する合成信号を作る可能性がある。

消去フレームの後の最初のよいフレーム中のエネルギ制御は、次のように要約することができる。合成された信号は、そのエネルギが、最初のよいフレームの始めで、最後の消去されたフレームの終りの合成された音声のエネルギに類似し、高すぎるエネルギ増加を防ぐためにフレームの終りに向かって、伝送されたエネルギに収束しつつあるようにするためにスケーリングされる。

エネルギ制御は、合成音声信号領域で行われる。エネルギが、音声領域で制御される場合であっても、励起信号は、後続フレームの長期予測メモリとして働くので、スケーリングされなければならない。次に、合成をやり直して、遷移を滑らかにする。g₀が、現在のフレームの最初のサンプルをスケーリングするのに使用される利得を表し、g₁が、そのフレームの終りに使用される利得を表すものとする。励起信号は、次のようにスケーリングされる。
u_s(i) = g_AGC(i) ・ u(i), i = 0, …, L - 1 (37)
ここで、u_s(i)は、スケーリングされた励起であり、u(i)は、スケーリングの前の励起であり、Lは、フレーム長であり、g_AGC(i)は、g₀から始まり、g₁に指数関数的に収束する利得であり、
g_AGC(i) = f_AGCg_AGC(i - 1) + (1 - f_AGC)g₁ i = 0, …, L - 1 (38)
であり、g_AGC(-1) = g₀の初期化を伴い、ここで、f_AGCは、この実施形態では0.98の値をセットされる減衰係数である。この値は、一方では前の(消去された)フレームからの滑らかな遷移を有することと、他方ではできる限り現在のフレームの最後のピッチ周期を正しい(伝送された)値にスケーリングすることとの妥協として経験的に見つけられたものである。これが行われるのは、伝送されたエネルギ値が、フレームの終りにピッチ同期式に推定されるからである。利得g₀およびg₁は、

と定義され、ここで、E_-1は、前の(消去された)フレームの終りに計算されたエネルギであり、E₀は、現在の(回復される)フレームの始めのエネルギであり、E₁は、現在のフレームの終りのエネルギであり、E_qは、式(20;21)からエンコーダで計算される、現在のフレームの終りに量子化され伝送されるエネルギ情報である。E_-1およびE₁は、これらが合成された音声信号s'に対して計算されることを除いて、同様に計算される。E_-1は、隠蔽されるピッチ周期T_cを使用してピッチ同期式に計算され、E₁は、最後のサブフレームの丸められたピッチT₃を使用する。E₀は、最初のサブフレームの丸められたピッチ値T₀を使用して同様に計算され、式(20;21)は、VOICEDフレームおよびONSETフレームについて、

に変更される。t_Eは、丸められたピッチラグと等しいか、ピッチが64サンプルより短い場合にはその2倍と等しい。他のフレームについて、

であり、ここで、t_Eは、フレーム長の半分と等しい。利得g₀およびg₁は、さらに、強いエネルギを防ぐために最大の許容値までに制限される。この値には、この例示的実施態様では1.2がセットされている。

フレーム消去隠蔽およびデコーダ回復を行うことは、フレーム消去に続いて受信される最初の非消去フレームのLPフィルタの利得が前記フレーム消去中の最後の消去されたフレームのLPフィルタの利得より高い時に、受信された最初の非消去フレーム中にデコーダで作られるLPフィルタ励起信号のエネルギを、次の関係を使用して前記受信される最初の非消去フレームのLPフィルタの利得に調整することを含む。

E_qを伝送できない場合には、E_qにはE₁がセットされる。しかし、消去が、有声音音声セグメント中に発生する(すなわち、消去の前の最後のよいフレームおよび消去の後の最初のよいフレームが、VOICED TRANSITION、VOICED、またはONSETとして分類される)場合には、前に述べた励起信号エネルギとLPフィルタ利得との間の可能な不一致のゆえに、さらなる予防措置を講じなければならない。フレーム消去に続いて受信される最初の非消去フレームのLPフィルタの利得が、そのフレーム消去中に消去された最後のフレームのLPフィルタの利得より高い時に、特に危険な状況が生じる。その特定の場合に、受信された最初の非消去フレーム中にデコーダで作られるLPフィルタ励起信号のエネルギは、次の関係を使用して、受信された最初の非消去フレームのLPフィルタの利得に調整される。

ここで、E_LP0は、消去の前の最後のよいフレームのLPフィルタインパルス応答のエネルギであり、E_LP1は、消去の後の最初のよいフレームのLPフィルタのエネルギである。この実施態様では、あるフレーム内の最後のサブフレームのLPフィルタが使用される。最後に、E_qの値は、この場合(E_q情報が伝送されない有声音セグメント消去)ではE_-1の値までに制限される。

次の例外は、すべてが音声信号の遷移に関係するが、g₀の計算をさらに上書きする。人工的開始が、現在のフレームで使用される場合に、開始エネルギが徐々に増加するようにするために、g₀に0.5 g₁をセットする。

ONSETとして分類される消去の後の最初のよいフレームの場合に、利得g₀は、g₁より高くなることを防がれる。この予防措置は、フレームの始め(おそらくはそれでも少なくとも部分的に無声音である)の正の利得調整が有声音開始(そのフレームの終りにある)を増幅するのを防ぐために講じられる。

最後に、有声音から無声音へ(すなわち、VOICED TRANSITION、VOICED、またはONSETとして分類される最後のよいフレームと、UNVOICEDとして分類される現在のフレーム)の遷移中、または非アクティブ音声期間からアクティブ音声期間へ(コンフォートノイズとして符号化された最後の受信されたよいフレームと、アクティブ音声として符号化された現在のフレーム)の遷移中に、g₀にはg₁がセットされる。

有声音セグメント消去の場合に、誤ったエネルギの問題は、消去の後の最初のよいフレームに続くフレームにも現れる可能性がある。これは、最初のよいフレームのエネルギが上で説明したように調整された場合であっても発生する可能性がある。この問題を弱めるために、エネルギ制御を、有声音セグメントの終りまで継続することができる。

広帯域コア層を有する組込みコーデックでの開示される隠蔽の応用
上で述べたように、上で開示した本発明の例示的実施形態は、ITU-Tによる組込み可変ビットレートコーデックの標準化の候補アルゴリズムにも使用されている。この候補アルゴリズムでは、コア層は、AMR-WB (ITU-T勧告G.722.2)に類似する広帯域コーディング技法に基づく。コア層は、8kビット/sで動作し、12.8kHzの内部サンプリング周波数を用いて6400Hzまでの帯域幅を符号化する(AMR-WBに類似する)。第2の4kビット/s CELP層が使用され、ビットレートを12kビット/sまで高める。次に、MDCTを使用して、16kビット/sから32kビット/sまでの上位層を得る。

隠蔽は、主にコア層の異なるサンプリングレートに起因する少数の相違はあるが、上で開示した方法に類似する。フレームサイズは、12.8kHzサンプリングレートで256サンプルであり、サブフレームサイズは64サンプルである。

位相情報は、8ビットを用いて符号化され、次のように、符号は1ビットを用いて符号化され、位置は7ビットを用いて符号化される。

最初の声門パルスの位置を符号化するのに使用される精度は、将来のフレームの最初のサブフレームの閉ループピッチ値T₀に依存する。T₀が128未満の時には、フレームの終りに対する最後の声門パルスの位置が、1サンプルの精度で直接に符号化される。T₀ ≧ 128の時には、フレームの終りに対する最後の声門パルスの位置は、単純な整数除算すなわちτ/2によって2サンプルの精度で符号化される。逆の手順が、デコーダで行われる。T₀ < 128の場合には、受信された量子化された位置は、そのまま使用される。T₀ ≧ 128の場合には、受信された量子化された位置は、2をかけられ、1つ増分される。

隠蔽回復パラメータは、8ビットの位相情報、2ビットの分類情報、および6ビットのエネルギ情報からなる。これらのパラメータは、第3層で16kビット/sで伝送される。

本発明を、前述の説明でその非制限的例示的実施形態に関して説明したが、この実施形態を、添付の特許請求の範囲の範囲内で、本発明の範囲および趣旨から逸脱せずに、変更することもできる。

音声符号化デバイスおよび音声復号デバイスのアプリケーションの例を示す音声通信システムを示す概略ブロック図である。 CELP符号化デバイスの例を示す概略ブロック図である。 CELP復号デバイスの例を示す概略ブロック図である。 G.729コア(G.729はITU-T勧告G.729を指す)に基づく組込みエンコーダを示す概略ブロック図である。 G.729コアに基づく組込みデコーダを示す概略ブロック図である。閉ループピッチ検索モジュール、ゼロ入力応答カリキュレータモジュール、インパルス応答ジェネレータモジュール、革新的励起検索モジュール、およびメモリ更新モジュールが、単一の閉ループピッチおよび革新的コードブック検索モジュールにグループ化されている、図2のCELP符号化デバイスを示す概略ブロック図である。隠蔽/回復を改善するためのパラメータに関係するモジュールが追加されている、図6のブロック図の拡張を示す図である。消去隠蔽用のフレーム分類状態機械の例を示す概略図である。本発明の非制限的例示的実施形態による励起の周期的部分の隠蔽手順を示す流れ図である。本発明の非制限的例示的実施形態による励起の周期的部分の同期化手順を示す流れ図である。同期化手順を伴うおよびこれを伴わない励起信号の通常の例を示す図である。図11に示された励起信号を使用して再構成された音声信号の例を示す図である。開始フレームが失われた時のケース例を示すブロック図である。

符号の説明

100 音声通信システム
101 通信チャネル
102 マイクロホン
103 アナログ音声信号
104 アナログディジタル(A/D)変換器
105 ディジタル音声信号
106 音声エンコーダ
107 信号符号化パラメータ
108 チャネルエンコーダ
109 チャネルデコーダ
110 音声デコーダ
111 受信されたビットストリーム
112 ビットストリーム
113 ディジタル合成された音声信号
114 アナログ形式
115 ディジタルアナログ(D/A)変換器
116 ラウドスピーカユニット
200 符号化デバイス
201 前処理モジュール
204 LP分析、量子化、および補間モジュール
205 知覚加重フィルタ
206 開ループピッチ検索モジュール
207 閉ループピッチ検索モジュール
208 ゼロ入力応答カリキュレータ
209 インパルス応答ジェネレータ
210 革新的励起検索モジュール
211 メモリ更新モジュール
212 入力音声信号
213 マルチプレクサ
300 音声デコーダ
301 ピッチコードブック
303 メモリ
306 LP合成フィルタ
307 ポストプロセッサ
317 デマルチプレクサ
318 革新コードブック
320 加算器
322 ディジタル入力
324 増幅器
325 信号線
326 増幅器
401 オリジナルの広帯域信号x
402 モジュール
403 ロウ帯域のx_LF
404 ハイ帯域のx_HF
405 変更された版のG.729エンコーダ
406 加算器
407 モジュール
408 モジュール
409 モジュール
410 モジュール
500 組込みデコーダ
501 ビットストリーム
502 モジュール
503 変更されたG.729デコーダ
504 逆量子化器
505 逆変換モジュール
506 パラメトリックデコーダ
507 コンバイナ
508 コンバイナ
509 合成QMFフィルタバンク
600 組込みエンコーダ
602 閉ループピッチおよび革新コードブック検索モジュール
702 ゼロ交差計算モジュール
703 追加されたモジュール
704 SNR計算モジュール
705 信号分類モジュール
706 エネルギ推定および量子化モジュール
707 声門パルス検索および量子化モジュール
802 UNVOICED
804 UNVOICED TRANSITION
806 VOICED TRANSITION
808 VOICED
810 ONSET
900 隠蔽手順
1000 同期化手順

Claims

エンコーダからデコーダへの伝送中に消去された符号化されたサウンド信号のフレームによって引き起こされるフレーム消去を隠蔽し、フレーム消去の後に前記デコーダを回復する方法であって、前記デコーダ内で、
位相情報を少なくとも含む隠蔽/回復パラメータを前記エンコーダから受信するステップを含み、前記位相情報は、前記符号化されたサウンド信号のフレームに関係し、前記位相情報は、前記符号化されたサウンド信号の各フレーム内の声門パルスの位置を含み、
前記受信された隠蔽/回復パラメータに応答してフレーム消去隠蔽を行うステップを含み、前記フレーム消去隠蔽は、前記受信された位相情報に応答して、前記消去-隠蔽されるフレームを前記符号化されたサウンド信号の対応するフレームに再同期化することを含み、
前記消去-隠蔽されるフレームを前記符号化されたサウンド信号の対応するフレームに再同期化することは、
前記消去-隠蔽されるフレーム内において、最大振幅パルスの位置を判定することと、
前記消去-隠蔽されるフレーム内の前記最大振幅パルスの位置を前記符号化されたサウンド信号の前記対応するフレームの声門パルスの位置に位置合せすることとを含む、方法。
前記エンコーダ内で前記隠蔽/回復パラメータを判定するステップと、
前記エンコーダ内で判定され、かつ前記デコーダによって受信される前記隠蔽/回復パラメータを前記デコーダに伝送するステップとを含む、請求項1に記載の方法。
前記位相情報は、前記符号化されたサウンド信号の各フレーム内の最後の声門パルスの位置および符号を含む、請求項1に記載の方法。
前記声門パルスの前記位置を前記デコーダに伝送する前に、前記声門パルスの前記位置を量子化するステップをさらに含む、請求項2に記載の方法。
前記隠蔽/回復パラメータを判定するステップは、前記位相情報として、前記符号化されたサウンド信号の各フレーム内の最後の声門パルスの位置および符号を判定するステップを含み、前記方法は、前記最後の声門パルスの前記位置および符号を前記デコーダに伝送する前に、前記最後の声門パルスの前記位置および符号を量子化するステップをさらに含む、請求項2に記載の方法。
前記符号化されたサウンド信号の将来のフレームに、前記声門パルスの前記量子化された位置を符号化するステップをさらに含む、請求項4に記載の方法。
前記符号化されたサウンド信号の各フレームの所定のピッチサイクル内の最大振幅のパルスを測定するとともに、
前記符号化されたサウンド信号のフレーム内における最大振幅の前記パルスの位置を判定することによって、
前記声門パルスの前記位置を判定するステップ
を含む、請求項2に記載の方法。
前記符号化されたサウンド信号のフレーム内の前記最大振幅パルスの符号を測定することによって、前記声門パルスの符号を位相情報として判定するステップをさらに含む、請求項7に記載の方法。
前記隠蔽/回復パラメータを判定するステップは、前記位相情報として、前記符号化されたサウンド信号の各フレーム内の最後の声門パルスの位置および符号を判定するステップを含み、
前記最後の声門パルスの前記位置を判定するステップは、
前記符号化されたサウンド信号の各フレーム内の最大振幅のパルスを測定するステップと、
前記符号化されたサウンド信号のフレーム内における最大振幅の前記パルスの位置を判定するステップと
を含む、請求項2に記載の方法。
前記最後の声門パルスの前記符号を判定するステップは、
前記符号化されたサウンド信号のフレーム内の前記最大振幅パルスの符号を測定するステップ
を含む、請求項9に記載の方法。
前記消去-隠蔽されるフレーム内の最大振幅パルスは、前記符号化されたサウンド信号の前記対応するフレームの前記声門パルスの前記符号に類似する符号を有する、請求項1に記載の方法。
前記消去-隠蔽されるフレーム内の最大振幅パルスの位置は、前記符号化されたサウンド信号の前記対応するフレームの前記声門パルスの前記位置に最も近い最大振幅パルスの位置である、請求項1に記載の方法。
前記消去-隠蔽されるフレーム内の前記最大振幅パルスの前記位置を、前記符号化されたサウンド信号の前記対応するフレーム内の前記声門パルスの前記位置に位置合せするステップは、
前記消去-隠蔽されるフレーム内の前記最大振幅パルスの前記位置と前記符号化されたサウンド信号の前記対応するフレーム内の前記声門パルスの前記位置との間のオフセットを判定するステップと、
前記消去-隠蔽されるフレーム内で、前記判定されたオフセットに対応する複数のサンプルを挿入/除去するステップと
を含む、請求項1に記載の方法。
前記複数のサンプルを挿入/除去するステップは、
前記消去-隠蔽されるフレーム内の最小エネルギの少なくとも1つの領域を判定するステップと、
挿入/除去される前記複数のサンプルを、最小エネルギの前記少なくとも1つの領域の前後で分配するステップと
を含む、請求項13に記載の方法。
挿入/除去される前記複数のサンプルを、最小エネルギの前記少なくとも1つの領域の前後で分配するステップは、関係
ただし、i = 0, …, N_min - 1、k = 0, …, i - 1、かつN_min > 1
を使用して最小エネルギの前記少なくとも1つの領域の前後で前記複数のサンプルを分配するステップを含み、ここで、
であり、N_minは、最小エネルギ領域の個数であり、T_eは、前記消去-隠蔽されるフレーム内の前記最大振幅パルスの前記位置と前記符号化されたサウンド信号の前記対応するフレーム内の前記声門パルスの前記位置との間のオフセットである、請求項14に記載の方法。
R(i)は、挿入/削除されるサンプルの大部分が前記消去-隠蔽されるフレームの終りに向かって追加/除去されるようにするために、昇順である、請求項15に記載の方法。
前記受信された隠蔽/回復パラメータに応答してフレーム消去隠蔽を行うステップは、有声音消去フレームについて、
前記受信された隠蔽/回復パラメータに応答して、前記消去-隠蔽されるフレーム内の励起信号の周期的部分を構成するステップと、
非周期的革新的信号をランダムに生成することによって、前記励起信号のランダム革新的部分を構成するステップと
を含む、請求項1に記載の方法。
前記受信された隠蔽/回復パラメータに応答してフレーム消去隠蔽を行うステップは、無声音消去フレームについて、非周期的革新的信号をランダムに生成することによって、励起信号のランダム革新的部分を構成するステップを含む、請求項1に記載の方法。
前記隠蔽/回復パラメータは、さらに、信号分類を含む、請求項1に記載の方法。
前記信号分類は、前記符号化されたサウンド信号の連続するフレームを、無声音、無声音遷移、有声音遷移、有声音、または有声音音声の開始として分類するステップを含む、請求項19に記載の方法。
失われたフレームの前記分類は、将来のフレームおよび最後の受信されたよいフレームの前記分類に基づいて推定される、請求項20に記載の方法。
前記失われたフレームの前記分類には、前記将来のフレームが有声音であり、前記最後の受信されたよいフレームが有声音音声の開始である場合に、有声音がセットされる、請求項21に記載の方法。
前記失われたフレームの前記分類には、前記将来のフレームが無声音であり、前記最後の受信されたよいフレームが有声音である場合に、無声音遷移がセットされる、請求項22に記載の方法。
前記サウンド信号は、音声信号であり、
前記エンコーダ内で隠蔽/回復パラメータを判定するステップは、前記符号化されたサウンド信号の連続するフレームの前記位相情報および信号分類を判定するステップを含み、
前記隠蔽/回復パラメータに応答してフレーム消去隠蔽を行うステップは、
フレーム消去に続く有声音フレームおよびフレーム消去の前の無声音フレームの存在によって示される、有声音音声の開始フレームが失われる時に、前記失われた有声音音声の開始フレームを再構成するステップと、
前記消去-隠蔽される失われた有声音音声の開始フレームを、前記位相情報に応答して、前記符号化されたサウンド信号の前記対応する有声音音声の開始フレームに再同期化するステップと
を含む
請求項1に記載の方法。
前記失われた有声音音声の開始フレームを再構成するステップは、前記失われた有声音音声の開始フレーム内の最後の声門パルスを、低域フィルタリングされたパルスとして再構成するステップを含む、請求項24に記載の方法。
前記再構成された失われた有声音音声の開始フレームを利得によってスケーリングするステップをさらに含む、請求項24に記載の方法。
前記位相情報が消去フレームの隠蔽の時に使用可能ではない時に、次の受信された非消去フレームを復号する前に使用可能な時に前記位相情報を用いて前記デコーダの適応コードブックの内容を更新するステップを含む、請求項1に記載の方法。
前記適応コードブックを更新するステップは、前記適応コードブック内の前記声門パルスを再同期化するステップを含む
請求項27に記載の方法。
エンコーダからデコーダへの伝送中に消去された符号化されたサウンド信号のフレームによって引き起こされるフレーム消去を隠蔽し、フレーム消去の後に前記デコーダを回復する方法であって、前記デコーダ内で、
前記エンコーダから前記デコーダへの伝送中に消去された前記符号化されたサウンド信号の各フレームの位相情報を推定するステップと、
前記推定された位相情報に応答してフレーム消去隠蔽を行うステップとを含み、前記フレーム消去隠蔽は、前記推定された位相情報に応答して、各消去-隠蔽されるフレームを前記符号化されたサウンド信号の前記対応するフレームに再同期化することを含み、
前記推定された位相情報は、消去された前記符号化されたサウンド信号の各フレームの声門パルスの推定された位置であり、
前記消去-隠蔽されるフレームを前記符号化されたサウンド信号の対応するフレームに再同期化することは、前記消去-隠蔽されるフレーム内の最大振幅パルスを判定することと、前記消去-隠蔽されるフレーム内の前記最大振幅パルスを前記声門パルスの推定された位置に位置合せすることとを含む、方法。
前記位相情報を推定するステップは、消去された前記符号化されたサウンド信号の各フレームの最後の声門パルスの位置を推定するステップを含む、請求項29に記載の方法。
消去された前記符号化されたサウンド信号の各フレームの前記最後の声門パルスの前記位置を推定するステップは、
過去のピッチ値から声門パルスを推定するステップと、
推定されたピッチラグを判定するために前記過去のピッチ値を用いて前記推定された声門パルスを補間するステップと
を含む、請求項30に記載の方法。
前記消去-隠蔽されるフレーム内の前記最大振幅パルスを前記推定された声門パルスに位置合せするステップは、
前記消去-隠蔽されるフレーム内のピッチサイクルを計算するステップと、
前記推定されたピッチラグと前記消去-隠蔽されるフレーム内の前記ピッチサイクルとの間のオフセットを判定するステップと、
前記消去-隠蔽されるフレーム内で、前記判定されたオフセットに対応する複数のサンプルを挿入/除去するステップと
を含む、請求項31に記載の方法。
前記複数のサンプルを挿入/除去するステップは、
前記消去-隠蔽されるフレーム内の最小エネルギの少なくとも1つの領域を判定するステップと、
挿入/除去される前記複数のサンプルを最小エネルギの前記少なくとも1つの領域の前後で分配するステップと
を含む、請求項32に記載の方法。
挿入/除去される前記複数のサンプルを最小エネルギの前記少なくとも1つの領域の前後で分配するステップは、関係
ただし、i = 0, …, N_min - 1、k = 0, …, i - 1、かつN_min > 1
を使用して最小エネルギの前記少なくとも1つの領域の前後で前記複数のサンプルを分配するステップを含み、ここで、
であり、N_minは、最小エネルギ領域の個数であり、T_eは、前記推定されたピッチラグと前記消去-隠蔽されるフレーム内の前記ピッチサイクルとの間のオフセットである、請求項33に記載の方法。
R(i)は、挿入/削除されるサンプルの大部分が前記消去-隠蔽されるフレームの終りに向かって追加/除去されるようにするために、昇順である、請求項34に記載の方法。
各消去-隠蔽されるフレームの利得を、線形の形で、前記消去-隠蔽されるフレームの始めから終りへ減衰させるステップを含む、請求項29に記載の方法。
各消去-隠蔽されるフレームの利得は、αに達するまで減衰され、αは、フレーム消去の後の前記デコーダ回復の収束速度を制御する係数である、請求項36に記載の方法。
前記係数αは、無声音フレームに関するLPフィルタの安定性に依存する、請求項37に記載の方法。
前記係数αは、有声音セグメントのエネルギ進展をさらに考慮に入れる、請求項38に記載の方法。
エンコーダからデコーダへの伝送中に消去された符号化されたサウンド信号のフレームによって引き起こされるフレーム消去を隠蔽し、フレーム消去の後に前記デコーダを回復するデバイスであって、前記デコーダ内で、
位相情報を少なくとも含む隠蔽/回復パラメータを受信する手段とを含み、前記位相情報は、前記符号化されたサウンド信号のフレームに関係し、前記位相情報は、前記符号化されたサウンド信号の各フレーム内の声門パルスの位置を含み、
前記デバイスは、
前記受信された隠蔽/回復パラメータに応答してフレーム消去隠蔽を行う手段を含み、
前記フレーム消去隠蔽を行う手段は、前記受信された位相情報に応答して、前記消去-隠蔽されるフレームを前記符号化されたサウンド信号の対応するフレームに再同期化する手段を含み、
前記消去-隠蔽されるフレームを前記符号化されたサウンド信号の対応するフレームに再同期化する手段は、
前記消去-隠蔽されるフレーム内において、最大振幅パルスの位置を判定する手段と、
前記消去-隠蔽されるフレーム内の前記最大振幅パルスの位置を前記符号化されたサウンド信号の前記対応するフレームの声門パルスの位置に位置合せする手段とを含む、デバイス。
エンコーダからデコーダへの伝送中に消去された符号化されたサウンド信号のフレームによって引き起こされるフレーム消去を隠蔽し、フレーム消去の後に前記デコーダを回復するデバイスであって、前記デコーダ内で、
位相情報を少なくとも含む隠蔽/回復パラメータのレシーバを含み、前記位相情報は、前記符号化されたサウンド信号のフレームに関係し、前記位相情報は、前記符号化されたサウンド信号の各フレーム内の声門パルスの位置を含み、
前記デバイスは、
前記受信された隠蔽/回復パラメータを供給されるフレーム消去隠蔽モジュールを含み、
前記フレーム消去隠蔽モジュールは、前記受信された位相情報に応答する、前記消去-隠蔽されるフレームと前記符号化されたサウンド信号の対応するフレームとのシンクロナイザを含み、
前記シンクロナイザは、消去-隠蔽されるフレームを前記符号化されたサウンド信号の対応するフレームに同期化するために、前記消去-隠蔽されるフレーム内において、最大振幅パルスの位置を判定するとともに、前記消去-隠蔽されるフレーム内の前記最大振幅パルスの位置を前記符号化されたサウンド信号の前記対応するフレームの声門パルスの位置に位置合せする、デバイス。
前記エンコーダ内に、前記隠蔽/回復パラメータのジェネレータと、
前記エンコーダ内で判定された前記隠蔽/回復パラメータを前記デコーダに伝送する通信リンクとを含む、請求項41に記載のデバイス。
前記位相情報は、前記符号化されたサウンド信号の各フレーム内の最後の声門パルスの位置および符号を含む、請求項41に記載のデバイス。
前記通信リンクを介して前記声門パルスの前記位置を前記デコーダに伝送する前における、前記声門パルスの前記位置の量子化器をさらに含む、請求項42に記載のデバイス。
前記隠蔽/回復パラメータのジェネレータは、前記位相情報として、前記符号化されたサウンド信号の各フレーム内の最後の声門パルスの位置および符号を判定し、前記デバイスは、前記通信リンクを介して前記最後の声門パルスの前記位置および符号を前記デコーダに伝送する前における、前記最後の声門パルスの前記位置および符号の量子化器をさらに含む、請求項42に記載のデバイス。
前記符号化されたサウンド信号の将来のフレームへの前記声門パルスの前記量子化された位置のエンコーダをさらに含む、請求項44に記載のデバイス。
前記ジェネレータは、前記声門パルスの前記位置として、前記符号化されたサウンド信号の各フレーム内の最大振幅パルスの位置を判定する、請求項42に記載のデバイス。
前記隠蔽/回復パラメータのジェネレータは、前記位相情報として、前記符号化されたサウンド信号の各フレーム内の最後の声門パルスの位置および符号を判定し、前記ジェネレータは、前記最後の声門パルスの前記位置および符号として、前記符号化されたサウンド信号の各フレーム内の最大振幅パルスの位置および符号を判定する、請求項42に記載のデバイス。
前記ジェネレータは、位相情報として、前記符号化されたサウンド信号のフレーム内の前記最大振幅パルスの符号としての前記声門パルスの符号を判定する、請求項47に記載のデバイス。
前記シンクロナイザは、
各消去-隠蔽されるフレーム内の前記最大振幅パルスの前記位置と前記符号化されたサウンド信号の前記対応するフレーム内の前記声門パルスの前記位置との間のオフセットを判定し、
前記消去-隠蔽されるフレーム内の前記最大振幅パルスの前記位置を前記符号化されたサウンド信号の前記対応するフレーム内の前記声門パルスの前記位置に位置合せするために、各消去-隠蔽されるフレーム内で前記判定されたオフセットに対応する複数のサンプルを挿入/除去する
請求項41に記載のデバイス。
前記シンクロナイザは、
各消去-隠蔽されるフレーム内で、前記最後の声門パルスの前記符号に類似する符号を有し、前記符号化されたサウンド信号の対応するフレーム内の前記最後の声門パルスの前記位置に最も近い、最大振幅パルスの位置を判定し、
各消去-隠蔽されるフレーム内の前記最大振幅パルスの前記位置と前記符号化されたサウンド信号の前記対応するフレーム内の前記最後の声門パルスの前記位置との間のオフセットを判定し、
前記消去-隠蔽されるフレーム内の前記最大振幅パルスの前記位置を前記符号化されたサウンド信号の前記対応するフレーム内の前記最後の声門パルスの前記位置に位置合せするために、各消去-隠蔽されるフレーム内で前記判定されたオフセットに対応する複数のサンプルを挿入/除去する
請求項43に記載のデバイス。
前記シンクロナイザは、さらに、
スライディングウィンドウを使用することによって、各消去-隠蔽されるフレーム内の最小エネルギの少なくとも1つの領域を判定し、
挿入/除去される前記複数のサンプルを、最小エネルギの前記少なくとも1つの領域の前後で分配する
請求項50に記載のデバイス。
前記シンクロナイザは、挿入/除去される前記複数のサンプルを最小エネルギの前記少なくとも1つの領域の前後で分配するのに関係
ただし、i = 0, …, N_min - 1、k = 0, …, i - 1、かつN_min > 1
を使用し、ここで、
であり、N_minは、最小エネルギ領域の個数であり、T_eは、前記消去-隠蔽されるフレーム内の前記最大振幅パルスの前記位置と前記符号化されたサウンド信号の前記対応するフレーム内の前記声門パルスの前記位置との間のオフセットである、請求項52に記載のデバイス。
R(i)は、挿入/削除されるサンプルの大部分が前記消去-隠蔽されるフレームの終りに向かって追加/除去されるようにするために、昇順である、請求項53に記載のデバイス。
前記受信された隠蔽/回復パラメータを供給される前記フレーム消去隠蔽モジュールは、有声音消去フレームについて、
前記受信された隠蔽/回復パラメータに応答する、各消去-隠蔽されるフレーム内の励起信号の周期的部分のジェネレータと、
前記励起信号の非周期的革新的部分のランダムジェネレータと
を含む、請求項41に記載のデバイス。
前記受信された隠蔽/回復パラメータを供給される前記フレーム消去隠蔽モジュールは、無声音消去フレームについて、励起信号の非周期的革新的部分のランダムジェネレータを含む、請求項41に記載のデバイス。
前記デコーダは、前記位相情報が消去フレームの隠蔽の時に使用可能ではない時に、次の受信された非消去フレームを復号する前に使用可能な時に前記位相情報を用いて前記デコーダの適応コードブックの内容を更新する、請求項41に記載のデバイス。
前記デコーダは、前記適応コードブックを更新するために、前記適応コードブック内の前記声門パルスを再同期化する
請求項57に記載のデバイス。
前記シンクロナイザは、各消去-隠蔽されるフレーム内において、前記符号化されたサウンド信号の前記対応するフレームの前記声門パルスの前記位置に最も近く、前記声門パルスの前記符号に類似する符号を有する最大振幅パルスの位置を判定する、請求項41に記載のデバイス。
エンコーダからデコーダへの伝送中に消去された符号化されたサウンド信号のフレームによって引き起こされるフレーム消去を隠蔽し、フレーム消去の後に前記デコーダを回復するデバイスであって、
前記デコーダで、前記エンコーダから前記デコーダへの伝送中に消去された前記符号化されたサウンド信号の各フレームの位相情報を推定する手段と、
前記推定された位相情報に応答してフレーム消去隠蔽を行う手段であって、フレーム消去隠蔽を行う前記手段は、各消去-隠蔽されるフレームを前記符号化されたサウンド信号の前記対応するフレームに再同期化する手段を含み、
前記推定された位相情報は、消去された前記符号化されたサウンド信号の各フレームの声門パルスの推定された位置であり、
各消去-隠蔽されるフレームを前記符号化されたサウンド信号の対応するフレームに再同期化する手段は、前記消去-隠蔽されるフレーム内の最大振幅パルスを判定する手段と、前記消去-隠蔽されるフレーム内の前記最大振幅パルスを前記声門パルスの推定された位置に位置合せする手段とを含む、デバイス。
エンコーダからデコーダへの伝送中に消去された符号化されたサウンド信号のフレームによって引き起こされるフレーム消去を隠蔽し、フレーム消去の後に前記デコーダを回復するデバイスであって、
前記デコーダにある、前記エンコーダから前記デコーダへの伝送中に消去された前記符号化された信号の各フレームの位相情報のエスティメータと、
前記推定された位相情報を供給される消去隠蔽モジュールとを含み、前記消去隠蔽モジュールは、前記推定された位相情報に応答して、各消去-隠蔽されるフレームを前記符号化されたサウンド信号の前記対応するフレームに再同期化するシンクロナイザを含み、
前記推定された位相情報は、消去された前記符号化されたサウンド信号の各フレームの声門パルスの推定された位置であり、
前記シクロナイザは、前記消去-隠蔽されるフレーム内の最大振幅パルスを判定するとともに、前記消去-隠蔽されるフレーム内の前記最大振幅パルスを前記声門パルスの推定された位置に位置合せする、デバイス。
前記位相情報の前記エスティメータは、過去のピッチ値から、前記符号化されたサウンド信号の各フレーム内の最後の声門パルスの位置および符号を推定し、推定されたピッチラグを判定するために前記過去のピッチ値を用いて前記推定された声門パルスを補間する、請求項61に記載のデバイス。
前記シンクロナイザは、
各消去-隠蔽されるフレーム内の最大振幅パルスおよびピッチサイクルを判定し、
各消去-隠蔽されるフレーム内の前記ピッチサイクルと前記符号化されたサウンド信号の前記対応するフレーム内の前記推定されたピッチラグとの間のオフセットを判定し、
前記消去-隠蔽されるフレーム内の前記最大振幅パルスを前記推定された最後の声門パルスに位置合せするために、各消去-隠蔽されるフレーム内で前記判定されたオフセットに対応する複数のサンプルを挿入/除去する
請求項62に記載のデバイス。
前記シンクロナイザは、さらに、
スライディングウィンドウを使用することによって、最小エネルギの少なくとも1つの領域を判定し、
前記複数のサンプルを、最小エネルギの前記少なくとも1つの領域の前後で分配する
請求項63に記載のデバイス。
前記シンクロナイザは、最小エネルギの前記少なくとも1つの領域の前後で前記複数のサンプルを分配するのに関係
ただし、i = 0, …, N_min - 1、k = 0, …, i - 1、かつN_min > 1
を使用し、ここで、
であり、N_minは、最小エネルギ領域の個数であり、T_eは、各消去-隠蔽されるフレーム内の前記ピッチサイクルと前記符号化されたサウンド信号の前記対応するフレーム内の前記推定されたピッチラグとの間のオフセットである、請求項64に記載のデバイス。
R(i)は、挿入/削除されるサンプルの大部分が前記消去-隠蔽されるフレームの終りに向かって追加/除去されるようにするために、昇順である、請求項65に記載のデバイス。
各消去-隠蔽されるフレームの利得を、線形の形で、前記消去-隠蔽されるフレームの始めから終りへ減衰させる減衰器を含む、請求項62に記載のデバイス。
前記減衰器は、各消去-隠蔽されるフレームの利得をαまで減衰させ、αは、フレーム消去の後の前記デコーダ回復の収束速度を制御する係数である、請求項67に記載のデバイス。
前記係数αは、無声音フレームに関するLPフィルタの安定性に依存する、請求項68に記載のデバイス。
前記係数αは、有声音セグメントのエネルギ進展をさらに考慮に入れる、請求項69に記載のデバイス。
前記エスティメータは、消去された前記符号化されたサウンド信号の各フレームの最後の声門パルスの推定された位置を推定する、請求項61に記載のデバイス。
前記消去-隠蔽されるフレーム内の最大振幅パルスの位置は、前記符号化されたサウンド信号の前記対応するフレームの前記声門パルスの前記位置に最も近い最大振幅パルスの位置である、請求項41に記載のデバイス。