JP5420175B2

JP5420175B2 - 通信システムにおける隠蔽フレームの生成方法

Info

Publication number: JP5420175B2
Application number: JP2007552505A
Authority: JP
Inventors: セレン・ヴァング・アナセン
Original assignee: Skype Ltd Ireland
Current assignee: Skype Ltd Ireland
Priority date: 2005-01-31
Filing date: 2006-01-31
Publication date: 2014-02-19
Anticipated expiration: 2026-01-31
Also published as: AU2006208530B2; EP1846921B1; US20080154584A1; ZA200706261B; ZA200706307B; US8068926B2; CN101120400A; NO340871B1; JP2008529072A; JP2008529074A; CN101120400B; JP2008529073A; RU2007132729A; BRPI0607246B1; US20080275580A1; CN101120399B; CA2596341A1; RU2007132728A; EP1846921A1; KR20080002757A

Description

本発明は、電気通信システムに関する。本発明は、特に、無線通信システム及びパケット交換ネットワーク上での信号送信品質を改善するために、信号パケットの損失及び／又は遅延ジッタ及び／又はクロックスキューを補償する方法、デバイス及び装置に関する。

最新の電気通信は、信号のディジタル送信に基づく。例えば図１において、送信機２００は、ソース（信号源）１００から音声信号を収集する。このソースは、マイクロホンにより収集される少なくとも１人の人による発話及び他の音波源に起因するソースである場合もあれば、テキスト音声合成又は対話システム等の音声信号格納システム又は発生システムである場合もある。ソース信号がアナログであれば、これは、アナログ／ディジタル変換器を用いてディジタル表現に変換される。ディジタル表現は続いて符号化され、ディジタルチャンネル３００に適するフォーマットに従ってパケット内に配置される。パケットは、ディジタルチャンネル上で送信される。ディジタルチャンネルは、典型的には複数の抽象化のレイヤを備える。

図１の抽象化のレイヤにおいて、ディジタルチャンネルはパケットのシーケンスを入力として受け取り、パケットのシーケンスを出力として送る。典型的には、チャンネル内の雑音、不完全性及び過負荷を原因として生じるチャンネルの劣化により、出力されるパケットのシーケンスは、典型的には幾つかのパケットの損失、及びその他のパケットの到着時間の遅延及び遅延ジッタによって汚染される。さらに、送信機と受信機との間のクロックの差はクロックスキューをもたらすことがある。受信機４００の役割は、受信されるデータパケットを復号し、復号されたディジタル表現をパケットストリームから変換しかつこれをディジタル信号表現に復号し、さらに、これらの表現を信号シンク（信号シンク装置）５００への出力に適するフォーマットで復号された音声信号に変換することである。この信号シンクは、復号された音声信号を例えば少なくとも１つのスピーカによって提示される少なくとも１人の人である場合もあれば、音声又はオーディオ格納システム又は音声又はオーディオ対話システム又は認識装置である場合もある。

シンクに提示され得る信号を正確に再生することは、受信機の役割である。シンクが直接又は間接的に複数の人間の聴取者を含む場合、受信機の目的は、人間の聴取者に提示されるときに、１つのソース又は複数のソースからの音響信号に関して人に知覚される印象及び情報を正確に再生する音声信号表現を取得することにある。損失、遅延、及び遅延ジッタによってチャンネルが受信されるパケットシーケンスを劣化させ、さらにクロックスキューが存在するためにパケットシーケンスが劣化する一般的なケースにおいて、受信機のこの役割を保証するためには、受信機サブシステムの一部として効率的な隠蔽が必要である。

一例として、この役割を果たすための受信機サブシステムの可能な１つの実装を図２に示す。この図が示すように、着信するパケットはジッタバッファ４１０に格納され、復号及び隠蔽ユニット４２０は受信され符号化された信号表現をここから取得し、かつこれらの符号化された信号表現を復号しかつ隠蔽することにより再生出力バッファ４３０における格納及びこれに続く再生出力に適する信号表現を得る。隠蔽をいつ開始するか、及び隠蔽される信号の長さ等の隠蔽の具体的なパラメータが何であるかに関する制御は、一例として、制御ユニット４４０によって実行されてもよい。ここで、制御ユニット４４０は、ジッタバッファ及び再生出力バッファの内容を監視しかつ復号及び隠蔽ユニット４２０の動作を制御する。

隠蔽はまたチャンネルサブシステムの一部として達成される場合もある。図３は、パケットがチャンネル３１０から、後の参照でリレーと呼ぶサブシステム３２０を介して、チャンネル３３０へ転送されるチャンネルサブシステムの一例を示す。実際のシステムでは、このリレー機能を、多様なタイプのルータ、プロキシサーバ、エッジサーバ、ネットワークアクセスコントローラ、無線ローカルエリアネットワークコントローラ、ボイスオーバーＩＰゲートウェイ、メディアゲートウェイ、無免許ネットワークコントローラ、無認可ネットワークコントローラ及び他の名称等のコンテキストに依存する様々な名称で呼ばれるユニットによって達成することができる。本明細書のコンテキストでは、これらは全てリレーシステムの例示である。

オーディオの隠蔽を行うことのできるリレーシステムの一例を図４に示す。本図に示すように、パケットは、入力バッファ３１０からパケット交換サブシステム３２０及び３５０を介して出力バッファ３６０へ転送される。制御ユニット３７０は、入力及び出力バッファを監視し、この監視の結果として、トランスコーディング及び隠蔽が必要であるか否かの決定を下す。必要であれば、スイッチは、トランスコーディング及び隠蔽ユニット３３０を介するようにパケットを方向づける。必要でなければ、スイッチは、最小プロトコルアクションサブシステム３４０を介するようにパケットを方向づける。ここで、最小プロトコルアクションサブシステム３４０は、パケットが適用されているプロトコルに従うように、パケットヘッダに対して最小限の動作を行う。これは、パケットのシーケンス番号及びタイムスタンプを変更するステップを含んでもよい。

上述の説明によって例示される、但しこれに限定されないシステムを使用するオーディオ信号の送信に際しては、音声信号を表現する、又は部分的に表現する信号における損失、遅延、遅延ジッタ及び／又はクロックスキューを隠蔽する必要がある。この隠蔽タスクにアプローチする先行技術は、ピッチ繰り返し方法と時間スケール修正方法とに分類される。

発振器モデルにおいて具体化されることのあるピッチ繰り返し方法は、発声された音声におけるピッチ周期の推定値、又は発声された音声信号の対応する基本周波数の推定に基づく。ピッチ周期が与えられると、隠蔽フレームは、最終ピッチ周期の読み出しを繰り返することによって取得される。隠蔽フレームの最初と終わり、及びピッチ周期の各繰り返し間における不連続は、ウィンドウ化されたオーバーラップ加算手順を使用して平滑化されてもよい。例えば、ピッチ繰り返し方法に関する特許文献１及び非特許文献１を参照されたい。複数の先行技術システムは、ピッチ繰り返しに基づく隠蔽を、線形予測コーディング原理に基づくデコーダと統合する。これらのシステムでは、ピッチの繰り返しは、典型的には、線形予測動作ドメインにおいて長期予測又は適応コードブックループからの読み出しによって達成される。線形予測動作ドメインにおけるピッチ繰り返しに基づく隠蔽については、例えば、特許文献２、非特許文献２及び非特許文献３を参照されたい。上述の方法は、損失又は増大する遅延、すなわち正の遅延ジッタ、及び例えばクロックスキューに起因する入力又はジッタバッファのアンダーフロー又はアンダーフローに近い状況の隠蔽に適用される。低減する遅延、負の遅延ジッタ又は入力又はジッタバッファのオーバーフロー又はオーバーフローに近い状況を隠蔽するためには、短縮された隠蔽信号の生成が必要とされる。ピッチに基づく方法は、ピッチ周期とより早いピッチ周期との間のオーバーラップ加算手順によってこれを達成する。この方法の一例として、特許文献１を参照されたい。

国際公開特許第０１４８７３６号パンフレット。米国特許第５６９９４８１号明細書。国際電気通信連合勧告（ＩｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＵｎｉｏｎｒｅｃｏｍｍｅｎｄａｔｉｏｎ）ＩＴＵ−ＴＧ．７１１アペンディックス１。国際電気通信連合勧告（ＩｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＵｎｉｏｎｒｅｃｏｍｍｅｎｄａｔｉｏｎ）ＩＴＵ−ＴＧ．７２９。コメント３９５１に対するインターネットエンジニアリングタスクフォース要求書（ＩｎｔｅｒｎａｔｉｏｎａｌＥｎｇｉｎｅｅｒｉｎｇＴａｓｋＦｏｒｃｅＲｅｑｕｅｓｔｆｏｒＣｏｍｍｅｎｔｓ３９５１）。リナグ（Ｌｉｎａｇ）、ファーバー（Ｆａｒｂｅｒ）、ギオルド（Ｇｉｒｏｄ）、「ＩＰネットワーク上の音声通信のための適応型再生スケジューリング及び損失の隠蔽（ＡｄａｐｔｉｖｅＰｌａｙｏｕｔＳｃｈｅｄｕｌｉｎｇａｎｄＬｏｓｓＣｏｎｃｅａｌｍｅｎｔｆｏｒＶｏｉｃｅＣｏｍｍｕｎｉｃａｔｉｏｎｏｖｅｒＩＰＮｅｔｗｏｒｋｓ）」、マルチメディアに関するＩＥＥＥプロシーディング（ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＭｕｌｔｉｍｅｄｉａ）、２００３年１２月、第５巻、第４号、ｐ．５３２−ｐ．５４３。ロドブロ（Ｒφｄｂｒｏ）、ヤンセン（Ｊｅｎｓｅｎ）、「パケットベースの電話方式におけるインテリジェントジッタバッファのための正弦関数の時間スケーリング（Ｔｉｍｅ−ｓｃａｌｉｎｇｏｆＳｉｎｕｓｏｉｄｓｆｏｒＩｎｔｅｌｌｉｇｅｎｔＪｉｔｔｅｒＢｕｆｆｅｒｉｎＰａｃｋｅｔＢａｓｅｄＴｅｌｅｐｈｏｎｙ）」、２００２年、音声コーディングに関するワークショップのＩＥＥＥプロシーディング（ＩＥＥＥＰｒｏｃｅｅｄｉｎｇＷｏｒｋｓｈｏｐｏｎＳｐｅｅｃｈＣｏｄｉｎｇ）、ｐ．７１−ｐ．７３。バレンズエラ（Ｖａｌｅｎｚｕｅｌａ）、アニマル（Ａｎｉｍａｌｕ）、「新しい音声−パケット再構成技術（Ａｎｅｗｖｏｉｃｅ−ｐａｃｋｅｔｒｅｃｏｎｓｔｒｕｃｔｉｏｎｔｅｃｈｎｉｑｕｅ）」、１９８９年、ＩＥＥＥ。

これも同じく、線形予測デコーダ内に存在するファシリティを活用しながら達成することができる。一例として、特許文献２は、再生信号におけるピッチの周期性を保証するために、適応コードブックの状態に依存して、特定のコードブック寄与ベクトルを単に再生信号から廃棄する方法を開示している。ピッチ繰り返し方法に関連する１つの目的は、隠蔽フレームから次のフレームへの継ぎ目のない信号の連続性にある。特許文献１は、この目的を達成する方法を開示している。特許文献１に開示されている発明によれば、この目的は、時変性かつおそらくは信号依存性である長さを有する隠蔽フレームによって達成される。この解法は、遅延ジッタ及びクロックスキューの隠蔽に関連して継ぎ目のない信号の連続性を効率的に保証することができる反面、図４に描かれているタイプのシステムに関して欠陥を有する。すなわち、このタイプの隠蔽に従うと、好ましくは最小プロトコルアクション３４０を介してリレーされる既に符号化されたフレームへ継ぎ目なしに接続する予め設定された固定長さのフレームへの隠蔽の符号化を保証することができない。

損失及び急激に増大する遅延を隠蔽するためのピッチの繰り返しに基づく方法において頻発する問題点は、ピッチサイクルの繰り返しが再生される信号音声を不自然にすることにある。より具体的には、このオーディオ信号は周期的になり過ぎる。最悪のケースでは、再生された音声信号においていわゆるストリング音（string sounds）が知覚される。先行技術には、この問題点を緩和する多くの方法が存在する。これらの方法には、推定されるピッチ周期の二倍又は三倍である繰り返し周期の使用が含まれる。一例として、非特許文献３は、推定されるピッチ周期が１０ミリ秒未満であれば推定されるピッチ周期の二倍が使用される方法について記述している。別の例として、非特許文献１は、単一のピッチ周期を繰り返しするのではなく、２つのピッチサイクル及び後に３つのピッチサイクルを繰り返すためにピッチ周期の倍増及び後に三倍増が導入される方法を記述している。この方法の完全な説明に関しては、非特許文献１を参照されたい。さらに、ストリング音を軽減するために、典型的には、音声の発声レベルに依存するレベル及び隠蔽信号の段階的減衰を有するランダムな、又はランダム的な信号成分と、隠蔽信号との混合が導入される。時として、このランダム的な信号は、バッファされた信号に対する演算によって、又はデコーダ内で既に使用可能なランダムなコードブック等のファシリティを使用することによって導出される。このような特徴を使用する例に関しては、特許文献２、非特許文献２及び非特許文献３を参照されたい。また、導入されるアーチファクトを抑制するためには、段階的減衰も使用される。これは、基本的な隠蔽方法が与えられれば、近端の聴取者が解釈するところの最善の選択肢である可能性があるが、遠端の聴取者は、エコーが戻りかつこのエコーを適応型フィルタが打ち消す方法において、この減衰の効果を圧倒的にネガティブに解釈する可能性がある。これは、減衰が適応型エコーキャンセラの動作の持続性を低下させるためである。これにより、これの実際のエコー経路までの追跡品質は低下し、遠端の聴取者はより大きいエコーリターンを経験することがある。

例えば、非特許文献４に記述されているタイプの時間スケール修正方法は、マッチングされた平滑なオーバーラップ加算手順を介して機能する。この手順においては、信号セグメントはバッファされるがまだ再生されず、信号は平滑にウィンドウ化されてテンプレートセグメントとして識別され、続いて類似のセグメントを識別するために、平滑にウィンドウ化された他のセグメントが検索される。ここで類似性とは、例えば相関的測度であってもよい。平滑にウィンドウ化されたテンプレートセグメント及び平滑にウィンドウ化された類似セグメントは続いてオーバーラップされ、かつ加算されて時間スケールを修正された信号が生成される。再生の時間スケールが延長されると、類似セグメントの検索領域はサンプル時間においてテンプレートセグメントより前へ位置づけられる。逆に言えば、再生の時間スケールが圧縮されるとき、類似セグメントの検索領域はサンプル時間においてテンプレートセグメントの先へ位置づけられる。周知の時間スケール修正方法では、テンプレートの長さと類似セグメント及びこれらに適用されるウィンドウは時間スケール修正の実行前に予め定義され、これらの量は、この時間スケール修正が適用される特定の信号の特性に応じて適合化されない。先行技術による時間スケール修正を使用する、非特許文献４において観察されるように、スパイク遅延は、パケットネットワーク上のリアルタイム双方向音声通信において必要とされるような低遅延再生スケジューリングでは開始時間的な位置から効果的に軽減され得ない。

時間スケール修正方法及びピッチ繰り返し方法への類似点を有する他の方法が知られている。このコンテキストで言及すべき１つのタイプは、正弦波に基づく隠蔽方法である。例えば、非特許文献５を参照されたい。これらの方法により正弦波モデルドメインを介して達成される補間又はピッチの繰り返しの量に依存して、これらの方法は、先に言及したピッチ繰り返し方法及び時間スケール修正方法に関して識別される同じ制限を受ける。

開示している発明又はその実施形態は、既知の解決方法における先に同定した、例えば可聴アーチファクト（人工物）のような制約、及び上記既知の解決方法における他の明記されていない欠陥を緩和する。

既知のピッチ繰り返しに基づく方法と具体的に比較すると、開示している本方法は、音声信号を表現する隠蔽信号を発生する技術を提供する。ここで、この隠蔽信号は、ストリング音等の知覚上のうっとうしいアーチファクトが大幅に少ない。これにより、結果的にこれらのシステムの制約は緩和され、知覚される音声品質は直接的に向上される。またこれは、隠蔽信号における大幅に少ない減衰の導入と同時に達成される。これにより、ピッチの繰り返しに基づくシステムの第２の制約が緩和される。また、この第２の制約の緩和は、通信の近端側における隠蔽信号の知覚品質を直接向上させる。さらに、第２の制約の緩和は、遠端により知覚される音響エコーの影響を軽減するために近端に音響エコー及び適応型フィルタを有するシステムにおいて、通信の遠端側における知覚品質を向上させる。この第２の効果は、開示している本方法の隠蔽信号に起因して、これらの隠蔽信号がより少ない減衰を呈し、適応型エコーキャンセルフィルタの適応プロセスのためにより持続的な動作を供給することによって達成される。さらに、開示している技術の音響背景雑音に対するロバスト性は、既知のピッチ繰り返しに基づく方法のそれを凌ぐ。

さらに、既知の時間スケール修正方法と具体的に比較して、開示している本方法は、パケットネットワーク上のリアルタイムの双方向音声通信に必要とされるような低遅延再生又は出力バッファスケジューリングを有するシステムにおいてスパイク遅延の隠蔽を可能にする。これにより、既知の時間スケール修正における主たる制約が緩和される。

第１の態様では、本発明は、ディジタル化されたオーディオ信号の送信に関連して隠蔽サンプルのシーケンスを生成するための方法を提供し、バッファされた上記ディジタル化された表現のオーディオ信号のサンプルから、上記隠蔽サンプルのシーケンスをサンプルの時間順序で生成することを含み、上記隠蔽サンプルのシーケンス内のサンプルの少なくとも２つの連続するサブシーケンスは、バッファされたサンプルのサブシーケンスに基づいており、上記バッファされたサンプルのサブシーケンスは、並べ替えされた時間順序で連続する。

以下の定義は上記第１の態様に当てはまるものであり、かつ本開示を通じて使用される。「サンプル」という用語は、ディジタル化されたオーディオ信号を起源とするサンプル、又は上記ディジタル化されたオーディオ信号から導出される信号を起源とするサンプル、もしくはこのような信号の係数又はパラメータ表現を起源とするサンプルとして理解され、これらの係数又はパラメータはスカラ値又はベクトル値である。「フレーム」という用語は、サンプルに関する上述の定義を使用して、連続するサンプルを含む集合であると理解される。「サブシーケンス」は、サンプルに関する上述の定義を使用して、少なくとも１つの連続するサンプルを含む集合であると理解される。従って、ある特定のケースでは、サブシーケンスはサンプルに等しい。例えばオーバーラップ加算を使用するケースでは、２つの連続するサブシーケンスはオーバーラップする複数のサンプルを含んでもよい。フレームの選択に依存して、サブシーケンスは、２つの連続するフレーム間に及んでもよい。好ましい実施形態では、サブシーケンスは、１つのサブシーケンスが別のサブシーケンスの部分集合になり得ないように配置される。

好ましくは、上記隠蔽サンプルのシーケンス内のサンプルの少なくとも２つの連続するサブシーケンスは、バッファされたサンプルのサブシーケンスに基づいており、上記バッファされたサンプルのサブシーケンスは逆の時間順序で連続する。従って、好ましい実施形態では、隠蔽サンプルのシーケンスは、逆の時間順序で連続するバッファサンプルに基づく連続するサンプル等の連続するサブシーケンスを含む。例えば、隠蔽サンプルのシーケンスにおけるサンプルの２つ、３つ、４つ又はそれ以上の連続するサブシーケンスは、逆の時間順序で連続するバッファされたサンプルのサブシーケンス基づいてもよい。言い換えれば、発生される隠蔽シーケンスは、好ましくは、多かれ少なかれバッファされたサンプルの直接逆転再生に基づく部分を含む。ある好ましい実施形態では、隠蔽サンプルのシーケンスは、バッファされたサンプルの連続サンプル集合を逆の時間順序で含む。バッファされたサンプルに基づく隠蔽サンプルのシーケンスの少なくとも一部を、この並べ替え又は逆方向の並べ替え方法を使用して計算することにより、先行技術によるストリング音の影響を受けることのない、より自然な発音隠蔽シーケンスが提供され、他の幾つかのアーチファクトの除去又は低減も促進される。

説明している本方法は、例えばＶｏＩＰシステムである通信システムに関連して多くの優位点を有する。ここで、ディジタル音声信号がフレームで送信され、通信はフレーム損失及びジッタに曝されるので、可聴性が高くうっとうしい信号の急変を少なくとも部分的に低減するためのサンプルの隠蔽シーケンスを必要としている。

好ましい実施形態では、上記バッファされたサンプルのサブシーケンスの位置は、上記隠蔽サンプルの生成の間、サンプル時間において後方及び前方に漸次展開するポイントに置かれる。これは、この時間的展開を制御するインデックス（索引）パターン発生器によって実行されてもよい。バッファされたサンプルを解析することにより、このインデックスパターン発生器は、後方への時間的展開路の開始、停止及び速度を選択し、これはまた、前方への時間的展開の開始、停止及び速度及び自然な発音の隠蔽シーケンスを生成するために後方への時間的展開及び前方への時間的展開を順序づけるパターンをも制御する。

上記隠蔽サンプルのシーケンスは、上記バッファされたサンプルの時間順序で最後のサブシーケンスに基づくサブシーケンスから開始してもよい。

上記サブシーケンスの時間方向の並べ替えは、サンプルを時間方向で読み取り索引付けしかつ時間の逆方向でステッピングする順次プロセスに基づくものであってもよい。好ましくは、サンプルを索引付けしかつ読み取る順次プロセスは、
ａ）幾つかのバッファされたサンプルを時間順序の逆方向でステッピングすることによりバッファサンプルを索引付けするステップと、これに続く、
ｂ）幾つかのバッファされたサンプルを、ステップａ）において索引付けされた上記バッファされたサンプルから開始して、時間順序の方向で読み取り、上記読み取られたサンプルを、上記隠蔽サンプルのシーケンスのサブシーケンスの計算に使用するステップとを含み、
上記時間方向で読み取られバッファされたサンプルの数は、上記時間の逆方向でステッピングされるバッファされたサンプルの数とは異なる。この数の相違により、不自然なストリング音に繋がる周期性が回避される。本方法はさらに、後の実施形態の詳細な説明において「バックステップ」及び「読み出し長さ」と称される。

時間方向で読出されるバッファサンプルの数は、時間の逆方向でステッピングされるバッファサンプルの数より多い場合もあれば、少ない場合もある。好ましくは、上記時間方向で読み取られバッファされたサンプルの数は、上記時間の逆方向でステッピングされるバッファサンプルの数より少ない。この選択は、バッファされたサンプル内で漸次時間の逆方向でさらに展開する方法を提供し、よって、後続のサンプルが漸次より古いバッファサンプルに基づいており、その後に前方展開が開始される隠蔽シーケンスを提供する。

上記隠蔽サンプルのシーケンスのサブシーケンスは、重み付けされたオーバーラップ加算手順を伴うことにより、上記バッファされたサンプルのサブシーケンスから計算されてもよい。上記重み付けされたオーバーラップ加算手順における重み付け関数は、さらに周波数の関数であってもよい。上記重み付けされたオーバーラップ加算手順は、マッチング品質インジケータに応答して修正されてもよい。このマッチング品質インジケータは、上記重み付けされたオーバーラップ加算手順で入力されるサンプルの２つ以上のサブシーケンスに関する測度である。

上記時間方向の並べ替えは、ロケーションポインタの後方及び前方展開によって部分的に記述されてもよい。好ましくは、上記ロケーションポインタの後方展開は、停止基準の使用によって制限される。上記後方展開のための停止基準、上記前方及び上記後方展開のペース（又はスピード）、及び開始される上記後方展開の数は、人間の聴取者により解釈されるときの音声品質を最適化するように同時に最適化されてもよい。

好ましくは、平滑化及び等化演算は、上記バッファされたサンプルに適用される。これは、サンプルがバッファされる前、バッファリングの間又はサンプルが隠蔽サンプルの計算に使用される直前の何れで行われてもよい。上記後方展開のための停止基準、上記前方及び上記後方展開のペース、開始される上記後方展開の数、及び上記平滑化及び等化演算は、人間の聴取者により解釈されるときの音声品質を最適化するように同時に最適化されてもよい。

上記ロケーションポインタの後方及び前方展開は、人間の聴取者により解釈されるときの音声品質を最適化するように同時に最適化されてもよい。

好ましくは、上記隠蔽サンプルのシーケンスと、サンプルの連続するフレームとの間の境界における不連続性を最小化するように位相フィルタリングが適用される。位相フィルタリングの導入は、隠蔽シーケンスを導入するときの周知の問題点である不連続性の低減を促進させる。このような位相フィルタリングが適用される場合、上記同時の最適化は、人間の聴取者により知覚されるときの音声品質を最適化するように、上記位相フィルタリングにより導入される信号歪も含んでいてもよい。

上記隠蔽サンプルのシーケンスに雑音の混合が導入されてもよい。特に、上記隠蔽サンプルのシーケンスに雑音の混合が導入されてもよく、上記雑音の混合は、サンプルを時間方向で読み取り索引付けしかつ時間の逆方向でステッピングする順次プロセスに応答して修正される。このような場合、サンプルを時間方向で読み取り索引付けしかつ時間の逆方向でステッピングする順次プロセス及びこれに対する応答は、マッチング品質表示の使用を含んでいてもよい。

上記隠蔽サンプルのシーケンスに減衰関数が適用されてもよい。特に、このような減衰関数は、サンプルを時間方向で読み取り索引付けしかつ時間の逆方向でステッピングする順次プロセスに応答して修正されてもよい。サンプルを時間方向で読み取り索引付けしかつ時間の逆方向でステッピングする順次プロセス及びこれに対する応答は、マッチング品質表示の使用を含んでもよい。

好ましくは、上記隠蔽サンプルのシーケンスにおける最終的なサンプル数は予め設定され、例えば、隠蔽フレーム内のサンプル数は固定されてもよい。上記サンプル数は、好ましくは、ディジタルオーディオ信号の特徴と独立している。上記予め設定されるサンプル数は、２０−５００の範囲内等の５−１０００の範囲内の予め設定された整数値であり、好ましくは、実際のサンプル周波数に依存する。

上記隠蔽サンプルのシーケンスは第１の隠蔽フレーム内に含まれていてもよい。上記方法はさらに、上記第１の隠蔽フレームに連続する少なくとも１つの第２の隠蔽フレームを生成することを含んでいてもよく、上記第２のフレームは第２の隠蔽サンプルのシーケンスを含む。上記第１及び第２の隠蔽フレームにおける隠蔽サンプルのシーケンスは好ましくは異なり、すなわち、両隠蔽フレームの連続するコピーは好ましくは回避される。異なる隠蔽シーケンスを含むフレームの使用は、より自然な発声隠蔽に繋がる。好ましくは、上記第１及び第２の隠蔽フレームは同数のサンプルを含む。

好ましくは、上記第２の隠蔽フレーム内のサンプルの少なくとも１つのサブシーケンスは、上記第１の隠蔽フレームに含まれるサンプルの任意のサブシーケンスより時間の逆方向でさらにバッファされたサンプルのサブシーケンスに少なくとも部分的に基づく。従って、後ろに来る隠蔽フレームは、好ましくは、より古いバッファサンプルに基づく。

第２の態様において、本発明は、上記第１の態様による方法を実行するように適合化されたコンピュータによる実行が可能なプログラムコードを提供する。このようなプログラムコードは、マシン依存又はマシン独立な形式で、かつマシンコード又はより高位のプログラミング言語等の任意のプログラミング言語で書かれてもよい。

第３の態様において、本発明は、上記第１の態様による方法を実行するための汎用マイクロプロセッサ等のマイクロプロセッサに対する命令シーケンスを備えるプログラム記憶デバイスを提供する。上記記憶デバイスは、ディスク、メモリカード又はメモリスティック、ハードディスクほか等の任意タイプのデータ格納手段であってもよい。

第４の態様において、本発明は、ディジタル化されたオーディオ信号を受信するための例えばデバイス又は機器である装置を提供し、本装置は、
−受信されるディジタルオーディオ信号を表現するサンプルを記憶するためのメモリ手段と、
−上記第１の態様による方法を実行するためのプロセッサ手段とを含む。

好ましい実施形態に関連して後に記述するもの等の適切な手段を有する本発明を実行することは、デコーダ及び隠蔽システム、及び／又はトランスコーダ及び隠蔽システムが、知覚的にうっとうしいアーチファクトを導入することなく、損失される又は遅延されるパケットのシーケンスを効率的に隠蔽することを可能にする。さらにこれは、音響背景雑音及び複数のスピーカに対するロバスト性を伴って、高速フェージングを導入することなく達成される。ロバスト性の向上は、本方法の一貫性が、時間的展開により、繰り返しに基づく方法よりも、厳密な信号周期性に対して依存性が低いことによって達成される。これにより、本発明は、音響背景雑音、音響エコー及び／又は過酷なクロックスキュー、チャンネル損失及び／又は遅延ジッタを有する状況において高品質な双方向音声通信を可能にする。

次に、添付の図面を参照して、本発明をさらに詳しく説明する。

本発明は、様々な修正及び代替形式をとることが可能であるが、図面には、例示として特定の実施形態を示している。以下、これらの特定の実施形態について詳細に説明する。しかしながら、本発明は開示されているこれらの特定の形式に限定されるべきものでない点を理解すべきである。本発明はむしろ、添付の請求の範囲により定義される本発明の精神及び範囲内にある全ての修正、同等物及び代替物を包含するものである。

本発明による方法は、図２に示すもの等の受信機の復号及び隠蔽ユニット４２０において起動され、又は、図４に示すもの等のトランスコーディング及び隠蔽ユニット３３０において、又は、そのアクションが適切である通信システムにおける他の任意のロケーションにおいて起動される。これらのロケーションでは、幾つかのバッファされた信号のフレームが利用可能であり、幾つかの隠蔽フレームが必要とされる。利用可能な信号フレーム及び必要とされる隠蔽フレームは、例えば音声信号であるオーディオ信号の時間領域サンプルより成る場合もあれば、上記サンプルから導出された線形予測動作サンプル等のサンプルより成る場合も、オーディオ信号から導出される、音声信号フレームを完全又は部分的に表現する他の係数より成る場合もある。このような係数の例としては、周波数領域係数、正弦波モデル係数、線形予測コーディング係数、波形補間係数及びオーディオ信号サンプルを完全又は部分的に表現する他の係数集合がある。

図５は、本発明の好ましい一実施形態を示す。図５によれば、利用可能な信号フレーム５９５はフレームバッファ６００に格納される。信号フレーム５９５は、受信されて復号又はトランスコーディングされたフレーム又は、隠蔽フレームを生成するための本方法又は他の方法によるこれより前の演算からの隠蔽フレーム又は、上述のタイプの信号フレームの組み合わせであってもよい。フレームバッファ内の信号は、インデックスパターン発生器６６０によって解析される。インデックスパターン発生器は、信号ピッチ５９６及び発声５９７の推定値を効果的に利用することができる。全体的なシステム設計に依存するが、これらの推定値は、符号化、復号又はトランスコーディングプロセス等の他のプロセスからの入力として利用可能であってもよく、又は他の方法により、好ましくは信号解析のための最新技術による方法を使用して計算される。さらに、インデックスパターン発生器は、入力として、生成する隠蔽信号フレームの数５９８と、フレームバッファにおける隠蔽フレームで置換される少なくとも１つの特定の信号フレームの始まりと終わりを指すポインタ５９９とを採用する。一例として、これらのバッファがフレームバッファの終わりを指していれば、これは、少なくとも１つの隠蔽フレームが上記フレームバッファに格納されている信号に引き続くように作られるべきであることを意味する。別の例として、これらのポインタがフレームバッファ内の連続するフレームの空でない部分集合を指していれば、これは、少なくとも１つの隠蔽フレームがフレームシーケンス内の音声信号を表現する、又は部分的に表現するフレームに取って代わるように作られるべきであることを意味する。

さらにこれを例示するために、フレームバッファ６００が信号フレームＡ、Ｂ、Ｃ、Ｄ、Ｅを含み、隠蔽フレームの数５９８は２であるものとする。すると、置換されるフレームを指すポインタ５９９がフレームバッファの終わりを指していれば、これは、２つの隠蔽信号フレームが順に信号フレームＥに引き続くように作られるべきであることを意味する。逆に、ポインタ５９９が信号フレームＢ、Ｃ、Ｄを指していれば、これらの２つの隠蔽フレームは信号フレームＢ、Ｃ、Ｄに取って代わるように、かつ順に信号フレームＡに引き続き、かつ順にその後に信号フレームＥが続くように作られるべきである。

隠蔽フレームの数５９８及び隠蔽フレームが最終的に取って代わるべきフレームの部分集合、すなわちポインタ５９９を決定する方法に関しては、好ましくは、最新技術による方法が使用されるべきである。従って、データ５９６、５９７、５９８及び５９９及び信号フレーム５９５は、本発明による方法、デバイス及び装置への入力を構成する。

所定の全体的なシステム設計においては、隠蔽ユニットの実行中、信号フレームの長さ又は大きさは、効果的には定数として維持される。隠蔽ユニットがリレーシステムに統合されるときには、他の方法の中でもこれは典型的なケースである。ここで、リレーシステムにおいて、隠蔽の結果は、予め設定された長さの時間間隔内の音声信号を表現するパケット内に入れられるべきであり、この予め設定される長さは他の場所で決定される。一例として、この予め設定される長さは、ボイスオーバーＩＰシステムにおける呼のセットアップの間のプロトコル交渉中に決定されてもよく、かつ例えばネットワーク輻輳制御機構に応答して上記会話中に変更されてもよい。後に明らかとなるように、本発明の幾つかの実施形態は、予め設定された信号フレームの長さで効果的に動作するというこの要件に適合する。しかしながら、このような技術革新はこれらのシステム要件に限定されず、この技術革新による他の実施形態は、非整数個のフレーム数の隠蔽及び時変長さを有する隠蔽フレームを用いても機能することができ、これらの長さは、おそらくは他の要素との組み合わせであるフレームバッファ内の特定のコンテンツの関数であってもよい。

本発明の実施形態は、フレームバッファからの信号６０５に作用する平滑化及び等化演算６１０を効果的に利用することができる。この平滑化及び等化は、少なくとも１つの隠蔽フレームより時間的に早いフレームが上記少なくとも１つの隠蔽フレームで置換される少なくとも１つの信号フレーム又はその直前のフレームとの増加された類似性を有する信号６１５を生成する。又は、上記少なくとも１つの隠蔽フレームが既存のフレームを有するシーケンスに置換なしに挿入されれば、類似性は、上記少なくとも１つの隠蔽フレームの意図された位置の直前の少なくとも１つのフレームに対する類似性となる。後の参照用に、これらの双方のケースを単に類似性と呼んでおく。類似性は、人間の聴取者が解釈するときの類似性である。平滑化及び等化は、類似性が増大されている信号を取得するが、同時に信号６１５の自然な発声展開を保つ。平滑化及び等化６１０により効果的に実行される類似性増加演算の例は、エネルギー包絡線、ピッチ輪郭、音声グレード、音声カットオフ、スペクトル包絡線及び他の知覚的に重要なパラメータ等のパラメータにおける平滑さ及び類似性の増大を含む。

これらのパラメータのそれぞれに関して、平滑化されかつ等化されるべきフレームにおけるパラメータ展開の急激な遷移はろ波して除かれ、これらのフレームにおける平均的なパラメータレベルは、先に定義した類似の意味合いにおいてより類似したものになるように滑らかに修正される。効果的には、類似性は、依然として自然な発声の信号展開が保たれる程度にのみ導入される。インデックスパターン発生器６６０の制御下で、平滑化及び等化は、そうでなければ次の索引付け及び補間演算６２０において生じることのある遷移及び不連続を効果的に緩和することができる。さらに、ピッチ輪郭の平滑化及び等化は、インデックスパターン発生器６６０により、そうでなければ最終的には後に位相フィルタ６５０により隠蔽フレーム内に導入される歪みを最小化するようにして効果的に制御されてもよい。平滑化及び等化演算は、フレームバッファ６００内の時間の逆方向でさらに発見される信号フレーム（又は導出されるそのパラメータ）との信号又はパラメータの置換、混合、補間及び／又はマージを効果的に利用することができる。平滑化及び等化演算６１０は、本発明の一般的範囲を逸脱することなくシステムから除外されてもよい。この場合は、信号６１５が信号６０５と同一視されることになり、インデックスパターン発生器６６０の信号入力６５６及び制御出力６６５はシステム設計から省略されてもよい。

索引付け及び補間演算６２０は、入力として、おそらくは平滑化されかつ等化されている信号６１５及びインデックスパターン６６６を取り込む。さらに、本発明の幾つかの効果的な実施形態では、上記索引付け及び補間演算はマッチング品質インジケータ６６７を入力として取り込む。マッチング品質インジケータは、時刻当たりのスカラ値であってもよく、時間及び周波数双方の関数であってもよい。マッチング品質インジケータの目的は、本明細書本文において後に明らかとなるであろう。インデックスパターン６６６は、索引付け及び補間機能の演算をパラメータ化する。

図５Ａは、インデックスパターンが、少なくとも１つの隠蔽フレームの合成において、バッファされたサンプルＢＳ１、ＢＳ２、ＢＳ３、ＢＳ４内のサブシーケンスを漸次時間の逆方向で索引付けし得る方法の一例を示す。図示された例では、隠蔽フレームＣＦ１、ＣＦ２、ＣＦ３内の連続するサブシーケンスＣＳ１、ＣＳ２、ＣＳ３、ＣＳ４、ＣＳ５、ＣＳ６、ＣＳ７は、フレームＢＦ１、ＢＦ２内のサンプルのバッファされたサブシーケンスＢＳ１、ＢＳ２、ＢＳ３及びＢＳ４に基づく。図から分かるように、隠蔽サブシーケンスＣＳ１−ＣＳ７は、ＣＳ１がＢＳ４に基づく等々を意味する関数的表記法ＣＳ１（ＢＳ４）、ＣＳ２（ＢＳ３）、ＣＳ３（ＢＳ２）により表示されるように、時間の逆方向で漸次かつ次には漸次時間方向でロケーションポインタに伴ってバッファされたサブシーケンスＢＳ１−ＢＳ４から索引付けされる。従って、図５Ａは、隠蔽フレーム内の連続するサブシーケンスが、連続するバッファされたサブシーケンスに基づいて、但し時間的に並べ替えされて互いに続き合うことのできる方法を示す一例として作用する。図から分かるように、最初の４つの隠蔽サブシーケンスＣＳ１（ＢＳ４）、ＣＳ２（ＢＳ３）、ＣＳ３（ＢＳ２）及びＣＳ４（ＢＳ１）は、バッファされたサンプルの終わりの４つのサブシーケンスＢＳ１、ＢＳ２、ＢＳ３、ＢＳ４を連続する順序で、但し逆の時間順序で、よってバッファされた最後のサブシーケンスＢＳ１を始点として基礎とするように選択される。逆の時間順序の最初の４つのサブシーケンスの後は、全て時間順序の連続するバッファされたサブシーケンス、すなわちそれぞれＢＳ２、ＢＳ３及びＢＳ４に基づく３つのサブシーケンスＣＳ５、ＣＳ６、ＣＳ７が続く。この好ましいインデックスパターンは、インデックスパターン発生器６６０の結果であり、このブロックへの入力６５６、５９６、５９７、５９８及び５９９に伴って大幅に変わることがある。図５Ｂは、図５Ａにおける表記法に従ってバッファされたサブシーケンスＢＳ１−ＢＳ４の時間的な並べ替えに基づいて、隠蔽サブシーケンスＣＳ１−ＣＳ１１が如何にして生成されうるかを例示する別の例を表す。図から分かるように、時間的に遅い隠蔽サブシーケンスは漸次、時間の逆方向でさらにバッファされたサブシーケンスに基づく。例えば、最初の２つの連続する隠蔽サブシーケンスＣＳ１及びＣＳ２は、最後の２つのバッファされたサブシーケンスＢＳ３、ＢＳ４を逆の時間順序で基礎とする一方で、時間的に遅い隠蔽サブシーケンス、例えばＣＳ１０はＢＳ１を、すなわち、ＣＳ１及びＣＳ２の計算に使用されるものより時間の逆方向でさらにバッファされたサブシーケンスに基づく。従って、図５Ｂは、連続する隠蔽サブシーケンスが、索引付けが漸次時間の逆方向で展開するような方法で時間的に前後して索引付けされるバッファされたサブシーケンスに基づくことを示すものである。

本発明の効果的な実施形態では、この時間の逆方向での段階的展開は、本明細書の意図に沿って称するステップバックのシーケンス、及び本明細書の意図に沿って称する読み取り長さのシーケンスとして形式化される。このフォーマットのインデックスパターンの単純な実施形態では、信号サンプル又は信号サンプルを表現するパラメータ又は係数を指すポインタは第１のステップバックに等しい量だけ後方へ移動され、この後、隠蔽フレームに一定量のサンプル又は上記サンプルを表現するパラメータ又は係数が挿入される。上記量は、第１の読み取り長さに等しい。この後、ポインタは第２のステップバックに等しい量だけ後退され、第２の読み取り長さに等しいサンプル量又は上記サンプル量を表現するパラメータ又は係数が読出され、等々と続く。

図５Ｃは、索引付けされたサンプルの第１の計数データを並べ替えした本プロセスの一例を示す。この第１の計数データは、信号時間軸上に記入されるのに対し、図５Ｃの隠蔽時間軸上に記入される計数データは、オリジナルのサンプルのその隠蔽フレームへの配置に伴う並べ替えに対応する。この図示されている例の場合、第１、第２及び第３のステップバックはそれぞれ任意に５、６、５として選択され、第１、第２及び第３の読み取り長さは、同様にそれぞれ任意に３、４、３として選択されている。本例では、時間インデックス集合｛６，７，８｝、｛３，４，５，６｝及び｛２，３，４｝を有するサブシーケンスはそれぞれ、時間の逆方向で漸次展開するサブシーケンスである。この場合、ステップバック及び読み取り長さのシーケンスは、純粋に例示を目的として選定されている。例として１６ｋＨｚでサンプリングされた音声残留サンプルの場合、ステップバックの典型値は４０から２４０までの範囲であるがこの範囲に限定されず、読み取り長さの典型値は５から１０００サンプルまでの範囲であるがこの範囲に限定されない。このフォーマットによるより高度な実施形態では、前向きのシーケンス（例えば、オリジナルの時間方向又は時間の逆方向で索引付けされたサブシーケンス）から時間の逆方向でさらに１ステップ行う別の前向きのシーケンスへの遷移は、漸次シフトする補間によって漸次行われる。

図６は、１つのステップバック及び対応する読み取り長さ及びマッチング品質インジケータに応答する索引付け及び補間関数の単純な実施形態の演算を示す。ここでは、単なる例示を目的として、信号フレームは時間領域オーディオサンプルから成る。漸次シフトする補間は、本明細書で使用している「サンプル」という用語の一般的定義に基づいて、すなわち、時間領域オーディオサンプルを表現するスカラ値又はベクトル値の係数又はパラメータを包含して、同様に、よって直接的に適用される。本図において、７００は信号６１５のセグメントを示す。ポインタ７０５は、索引付け及び補間出力信号６２５において最後に生成されたサンプルのサンプル時刻に続くサンプル時刻である。時間間隔７５０は、読み取り長さに等しい長さを有する。時間間隔７７０も同じく、読み取り長さに等しい長さを有する。時間間隔７６０は、ステップバックに等しい長さを有する。７００における時刻７０５から始まる信号サンプル及び時間的に前方向の読み取り長さは、ウィンドウ関数７２０によって１つずつ乗算される。同じく、７００における１サンプル分のステップバック後でロケーション７０６より前のロケーションを始点とする信号サンプル及びそこから先の読み取り長さのサンプルも、ウィンドウ関数７１０によって１つずつ乗算される。ウィンドウ７１０との乗算及びウィンドウ７２０との乗算から結果的に得られるサンプルは１つずつ加算され７３０、結果的に、索引付け及び補間演算からの出力６２５の新しいサンプルバッチを構成する７４０が得られる。この演算の完了時に、ポインタ７０５はロケーション７０６へ移動する。

本発明の単純な実施形態では、ウィンドウ関数７１０及び７２０は読み取り長さ７５０の単関数である。このような単関数の１つは、ウィンドウ７１０及びウィンドウ７２０をそれぞれ、読み取り長さの２倍の長さであるハニングウィンドウの第１及び第２の半分として選定する。この場合は、広範囲の関数を選ぶこともできるが、このような関数は本発明のコンテキストにおいて意味のあるものでなければならないという観点から、これらは、７５０で示されるセグメント内のサンプルと７７０で示されるサンプルとの間に、７５０で示されるセグメントに対する高い重みから７７０で示されるセグメントに対する高い重みへと漸次、但し必ずしも単調にではなく移動するようにして重みつき補間を達成しなければならない。

本発明の他の実施形態では、ウィンドウ関数７１０及び７２０はマッチング品質インジケータの関数である。このような関数の単純な一例では、時間間隔７５０及び７７０で示される信号７００のセグメント上の正規化された相関性のしきい値に依存して、補間演算は振幅又は電力の何れかで合計が１になるように選択される。このような関数の別の例は、合計して振幅又は電力を１にするという制約を回避する代わりに、ウィンドウ重みをマッチング測度のみの関数として最適化する。この方法をさらに改良したものは、正規化された相関性の実際の値を求め、これに応答して、例えば古典的な線形的推定方法を使用して補間演算を最適化する。好ましい方法の例については後に述べるが、これらの例においては、正規化された相関性のしきい値又は実際の値は、マッチング品質インジケータ６６７により送られる効果的な情報の例となる。後に示す好ましい実施形態によれば、補間演算は、異なる周波数において異なる重みを実装させられてもよい。この場合、マッチング品質インジケータ６６７は、マッチングの測度を周波数の関数として効果的に送ることができる。効果的な実施形態では、周波数の関数としてのこの重みは、多段遅延線として、又はマッチング基準を最大化するように最適化され得る他のパラメトリックなフィルタ形式として実装される。

図６には、信号６１５（及び、ひいては信号セグメント７００）が音声信号の、又は上記音声信号から導出される時間領域信号の時間領域サンプルを表現するサンプルを含む場合の索引付け及び補間の演算が示されている。上述したように、フレーム５９５における、かつひいては信号６０５及び６１５におけるサンプルは、効果的には、各サンプルがベクトル（ベクトル値サンプル）であるようなものであってもよい。このようなベクトルは、音声信号を表現する、又は部分的に表現する係数又はパラメータを含む。このような係数の例は、線スペクトルの周波数、周波数領域係数、又は振幅、周波数及び位相の集合等の正弦信号モデルを定義する係数である。この本発明の好ましい実施形態に関する詳細な説明に基づけば、ベクトル値サンプルへ効果的に適用される補間演算の設計は、このようなベクトル値サンプルの個々の特有のケースに関する一般文献を読めば他の詳細事項も記述されていることから、当業者にとって実行可能である。

本発明を理解する上で、索引付け及び補間演算がステップバックより小さい読み取り長さで繰り返し実行されると、結果的に信号６２５におけるサンプルは、信号６１５において徐々に進められかつ逆方向で進められる信号サンプルの代表物となると気づくことは効果的である。よって、ステップバック及び／又は読み取り長さが、ステップバックより読み取り長さの方が長くなるように変更されると、このプロセスは逆転し、これで信号６２５におけるサンプルは、信号６１５において徐々に進められかつ時間方向で進められる信号サンプルの代表物となる。ステップバックのシーケンス及び読み取り長さのシーケンスの効果的な選択により、豊富で自然な変形を有する長い隠蔽信号を、フレームバッファ６００内の最後に受信された信号フレームからの時間的に先行するサンプルを必要とすることなく、又は、フレームバッファ６００内の最後に受信されたフレームにおける最後のサンプルより早期に位置づけられ得る、予め設定された別の時刻に先行するサンプルをも必要とすることなく取得することができる。その結果、低遅延再生又は出力バッファスケジューリングを有するシステムにおける遅延スパイクの隠蔽が本発明によって可能になる。この明細書の定式化においては、本発明の単純な実施形態における一要素として考えることが有益である可能性のある信号の単純で厳密な時間の逆方向での展開は、１つのサンプルの読み取り長さと、２つのサンプルのステップバックと、値０を有する単一サンプルで構成されるウィンドウ７２０と、値１．０を有する単一サンプルで構成されるウィンドウ７１０との繰り返し使用によって実現される。

インデックスパターン発生器６６０の主たる目的は、索引付け及び補間演算６２０のアクションを制御することにある。一連の好ましい実施形態では、この制御は、ステップバックのシーケンス及び読み取り長さのシーケンスから成ってもよい索引付けパターン６６６に形式化される。この制御は、マッチング品質表示のシーケンスでさらに拡大されてもよく、マッチング品質表示のそれぞれは、例えば周波数の関数であってもよい。インデックスパターン発生器から出力されてもよく、かつその使用は本明細書において後に明らかとなる追加の機能は、繰り返し数６６８である。繰り返し数は、少なくとも１つの隠蔽フレームの組立てにおいて時間の逆方向での展開が開始される回数を意味する。インデックスパターン発生器はこれらのシーケンスを、平滑化及び等化演算６１０から出力される平滑化及び等化信号６５６、ピッチ推定５９６、発声推定５９７、発生すべき隠蔽フレームの数５９８及び置換されるフレームを指すポインタ５９９を含んでもよい情報に基づいて取得する。インデックスパターン発生器の一実施形態では、上記発生器は、発声インジケータに依存して異なるモードに入る。以下、このようなモードを例示する。

線形予測動作ドメインに効果的に使用される一例として、発声インジケータが、信号は無声音声であること、又は信号内にアクティブな音声は存在しない、すなわち信号は背景雑音から成ることをロバストに指示すれば、インデックスパターン発生器は、信号サンプルの時間的展開の単純な逆転が開始されるモードに入ることができる。上述したように、これは、例えば、ステップバック値が２であるシーケンス及び読み取り長さ値が１であるシーケンスを提出することによって達成されてもよい（この説明は、索引付け及び補間演算はそれ自体がこれらの値を同定しかつ上述したように適切なウィンドウ関数を適用する、という設計選択肢に基づく）。ケースによっては、このシーケンスは、少なくとも１つの隠蔽フレームに必要な新しいサンプルの数の半分に関して信号の逆の時間的展開が実装されるまで続いてもよく、その後、ステップバックシーケンス内の値は０に変わってもよく、これにより、信号の前方への時間的展開が開始され、ポインタ７０６が第１のステップバックアプリケーションにおいて効果的にポインタ７０５の出発点に戻るまで続く。しかしながら、この単純な手順は、高品質の隠蔽フレームにとって必ずしも十分ではない。インデックスパターン発生器の重要な役割は、適切な停止基準の監視である。上述の例では、逆の時間的展開がポインタ７０６を、人間の聴取者が解釈するところの音声が始点とは著しく異なる信号内の位置へ戻してもよい。時間的展開は、これが発生する前に逆転されるべきである。

本発明の好ましい実施形態は、一連の測度に基づく停止基準セットに適用することができる。以下、これらの測度及び停止基準の幾つかを例示する。ポインタ７０６における信号が有声化されていることを、発声が示していれば、無声を始点とする上述の例では、時間的展開方向は効果的には逆転されてもよく、同様に、ポインタ７０６の周囲の領域における信号エネルギーが（絶対又は相対しきい値による決定に準じて）ポインタ７０５の出発点における信号エネルギーとは異なっていれば、時間的展開方向は効果的には逆転されてもよい。第３の例として、ポインタ７０５の出発点の周囲の領域とポインタ７０６の現在位置とのスペクトルの差はしきい値を超えてもよく、時間的展開方向は逆転されるべきである。

第２のモード例は、信号が無声である、又はアクティブな音声を含まない、とロバストに決定され得ない場合に喚起される可能性がある。このモードでは、ピッチ推定５９６はインデックスパターンを決定するための根拠となる。これを実行する１つの手順は、ポインタ７０５から時間的に１ピッチサイクル先の信号と、ステップバック上ポインタ７０５より早期であるポイントから１ピッチサイクル先の信号との間に最大限に正規化された相関性を与えるために、各ステップバックが探索されるというものである。ステップバック値の探索は、効果的には、ある領域に制限されてもよい。この領域は、効果的には、先行して発見されたステップバックのプラスマイナス１０パーセントに、又はそのようなステップバックが発見されていなければピッチラグに設定されてもよい。ステップバックが決定されると、読み取り長さの値によって、時間的な信号展開が時間の逆方向で、又は時間方向で展開すべきか否か、及びこの展開の実行速度が決定される。低速展開は、ステップバックの同定値に近い読み取り長さを選ぶことによって達成される。高速展開は、それぞれ後方及び前方展開の場合のステップバックより遙かに小さい、又は遙かに大きい読み取り長さを選択することによって達成される。インデックスパターン発生器の目的は、人間の聴取者によって解釈される音声品質を最適化するように読み取り長さを選択することにある。ステップバックに近すぎる読み取り長さを選択すると、十分に周期的でない信号等の信号によっては、結果的に、ストリング音等の知覚的にうっとうしいアーチファクトが発生することがある。ステップバックから離れすぎた読み取り長さの選択は、フレームバッファ内のより大きい時間間隔が、最終的には少なくとも１つの隠蔽フレームの時間的展開の間に掃引されること、又は、時間的展開の方向が、少なくとも１つの隠蔽フレームにとって十分な量のサンプルが生成されるまで、より頻繁に逆転されなければならないことを含意する。

第１のケースは、十分に定常的でない（又は、十分に平滑かつ等化されていない）信号等の信号によっては、最終的に、ある程度少なくとも１つの隠蔽フレームの音声における吃音との類似性を有する、ある種の知覚的にうっとうしいアーチファクトを発生させることがある。第２のケースでは、ストリング音のようなアーチファクトが発生することがある。本発明の効果的な実施形態による１つの特徴は、読み取り長さがステップバックと正規化された相関性との関数として決定され得ることにある。ここで、上記関数は、最適なステップバックの探索において最適化される。この関数が音声信号に作用しかつ信号フレームが１６ｋＨｚでサンプリングされた２０ミリ秒の線形予測動作信号を含むとき、本発明の実施形態におけるこの関数の１つの単純な但し効果的な選択肢は、一例として、次の関数によって与えられる。

［数１］
ＲｅａｄＬｅｎｇｔｈ＝［（０．２＋ＮｏｒｍａｌｉｚｅｄＣｏｒｒｅｌａｔｉｏｎ／３）＊ＳｔｅｐＢａｃｋ］

ここで、角括弧［］は最も近い整数への丸めを指して使用され、記号ＲｅａｄＬｅｎｇｔｈ、ＮｏｒｍａｌｉｚｅｄＣｏｒｒｅｌａｔｅｉｏｎ及びＳｔｅｐＢａｃｋはそれぞれ、最適なステップバックのために取得される読み取り長さ及び正規化された相関性、及び対応するステップバックを表して使用される。上述の関数は、本発明の幾つかの実施形態における１つの効果的な選択肢を伝えるための単なる例として包含されている。読み取り長さの選択肢としては、この読み取り長さを達成する任意の関数関係を含み、何れも本発明の精神を逸脱することなく可能である。具体的には、読み取り長さを選択する効果的な方法は、中間の隠蔽フレーム６２５において吃音及びストリング音のようなアーチファクトが同時に最小値に到達するように、制御６６５を使用して平滑化及び等化演算６１０をパラメータ化することを含む。これは、インデックスパターン発生器６６０が入力として平滑化及び等化演算から出力６１５ではなく中間信号６５６を採用する理由を説明するものであり、信号６５６は制御６６５に制御された最終的信号６１５の潜在的なバージョンを表現し、インデックスパターン発生器がイタレーションにより最適化タスクへ取り組むことを可能にする。先の無声及び非アクティブな音声モードの場合と同様に、このモードでも停止基準は不可欠である。先のモードにおいて提案した停止基準の例は全て、このモードにも当てはまる。さらに、このモードでは、ピッチ及び正規化された相関性に関する測定からの停止基準は、効果的には本発明の実施形態の一部であってもよい。

図７は、停止基準を組み合わせるための効果的な決定論理を例示するものである。図７における引用符号は、下記を示す。

８００：信号が高相関タイプであるか、低相関タイプであるか、どちらでもないかを識別する。初期エネルギーレベルを決定する。
８０１：次のステップバック及び正規化された相関性、及び読み取り長さを決定する。
８０２：信号が低相関タイプに入ったか否かを決定する。
８０３：信号が高相関タイプに入ったか否かを決定する。
８０４：信号は高相関タイプであるか？
８０５：信号は低相関タイプであるか？
８０６：エネルギーは相対最小しきい値より少ないか、又は相対最大しきい値を超えているか？
８０７：正規化された相関性は高相関タイプのしきい値を下回っているか？
８０８：正規化された相関性は低相関タイプのしきい値を上回っているか？
８０９：十分なサンプルが生成されたか？

１６ｋＨｚでサンプリングされた音声の線形予測動作ドメインにおける演算の場合、図７に挙げられているしきい値は、効果的には次のように選ばれてもよい。すなわち、高相関タイプは０．８より大きい正規化された相関性が発生したときに入力されてもよく、高相関タイプに留まるためのしきい値は正規化された相関性で０．５に設定されてもよく、低相関タイプは０．５より小さい正規化された相関性が発声したときに入力されてもよく、低相関タイプに留まるためのしきい値は正規化された相関性で０．８に設定されてもよく、最小相対エネルギーは０．３に設定されてもよく、かつ最大相対エネルギーは３．０に設定されてもよい。さらに、本発明のコンテキストにおいて、本発明の精神及び範囲を逸脱することなく他の論理及び他の停止基準が使用されてもよい。

停止基準の適用は、十分なサンプルが生成されるまで、又は停止基準が満たされるまで時間の逆方向でかつ次に再び時間方向で行う単一の展開では、隠蔽フレームに必要な数のサンプルをもたらすことが保証されないことを意味する。従って、時間の逆方向でかつ時間方向で行う別の展開がインデックスパターン発生器によって適用されてもよい。しかしながら、前後する展開が多すぎれば、信号によっては、ストリング音のようなアーチファクトが生成されることがある。従って、本発明の好ましい実施形態は、停止基準、読み取り長さの計算に適用される関数、平滑化及び等化制御６６５及び前後への展開数、すなわち繰り返し数６６８、及び置換フレームを指すポインタ５９９によりイネーブルされていればさらに、時間の逆方向で行う新たな各展開が開始される前に時間方向で展開するサンプルの数を同時に最適化することができる。この目的に沿って、平滑化及び等化演算もまた、効果的には、信号のピッチ輪郭を僅かに修正するように制御されてもよい。さらに、この同時の最適化は位相フィルタ６５０の演算を考慮することができ、かつ位相フィルタに導入される歪みを上述の他のパラメータと同時に最小化するインデックスパターンをもたらすようにピッチ輪郭を僅かに変更することができる。本発明の好ましい実施形態の説明に基づけば、当業者は、一般的な様々な最適化ツールがこのタスクに適用されることを理解することができる。これらのツールには、繰り返し最適化、マルコフ決定過程、ビタビ法等が含まれる。これらの何れも、本発明の範囲を逸脱することなくこのタスクへ適用可能である。

図８は、これらのパラメータの単純でしかも効率的な最適化を達成する繰り返し手順の一例をフローグラフによって示したものである。図８における引用符号は、下記を示す。

８２０：平滑化及び等化６６５の制御を開始する。
８２１：新たな平滑化信号６５６を取得する。
８２２：停止基準を起動する。
８２３：許可された繰り返し数を起動する。
８２４：ポインタ５９９により指示された利用可能なフレーム上に均等に分布される前後展開のシーケンスのインデックスパターン、又は利用可能なフレームの終わりが指示されていれば、時間方向での展開直後に続く時間の逆方向での展開のシーケンスのインデックスパターンを識別する。
８２５：隠蔽フレームの数５９８に対して十分な量のサンプルが生成されているか？
８２６：最大繰り返し数に到達しているか？
８２７：繰り返し許可数を増やす。
８２８：停止基準の最も緩いしきい値に到達しているか？
８２９：停止基準のしきい値を緩める。
８３０：平滑化及び等化の影響を増大させるように制御を変更する。

少なくとも１つの先行する時間的前後展開において十分な信号が合成されていなかった場合、１つの時間的前後展開及びこれに続く１つの時間的前後展開は、効果的には相違してもよいことに留意されたい。例として、ステップバック、読み取り長さ及び補間関数のシーケンス及び時間的前後展開後のエンドロケーションポインタは、そうでなければ類似のインデックスパターンの反復から生じる周期アーチファクトを最小化するように考案されるべきである。１６ｋＨｚで発声される音声の残留域サンプルを例にとると、例えば約３２０個のサンプルを生成する１つの時間的前後展開は、好ましくは、信号内で早期の時間的前後展開よりさらに約１００個分のサンプルを時間の逆方向で遡って終了してもよい。

ここまでに開示した実施形態は、先行技術方法から知られる人工的に発生されるストリング音の問題点を効率的に軽減すると同時に、急激な遅延ジッタスパイク及び急激に発生する反復性のパケット損失の効率的な隠蔽を可能にする。しかしながら、例えば何らかの無線システム、無線アドホックネットワーク、ベストエフォート型ネットワーク及び他の送信方法において遭遇するような不利なネットワーク条件においては、開示している本方法であっても、ケースによっては、隠蔽フレーム内に調音性の僅かな成分を導入することがある。従って、本発明の幾つかの実施形態では、微量雑音の混合演算６３０及びグレースフル減衰フィルタ６４０が効果的に適用されてもよい。雑音の混合及び減衰の一般的技術は、当業者には周知である。これには、雑音成分のパワーの周波数依存時間展開及び減衰関数の周波数依存時間展開の効果的な使用が含まれる。本発明のコンテキストにおける雑音の混合及び減衰の使用に特有の特徴は、雑音の混合及び減衰演算を適応的にパラメータ化するための索引付けパターン６６６、マッチング品質測度６６７及び／又は繰り返し数６６８の明示的使用にある。具体的には、インデックスパターンは隠蔽フレームにおいて不変の信号サンプルが置かれる場所、及び隠蔽フレームのサンプルが補間演算の結果である場所を指し示す。さらに、読み取り長さに対するステップバックの割合は、マッチング品質測度との組み合わせで、補間演算の結果として生じる知覚品質を示す。従って、効果的には、オリジナルサンプルに混合され得る雑音はほとんどないか、全くない。それ以上の雑音は、効果的には、補間プロセスの結果であるサンプルに混合されてもよく、効果的には、これらのサンプルに混合される雑音量は、効果的には周波数差別的なマッチング品質測度の関数であってもよい。さらに、ステップバックに対する読み取り長さの値は、発生し得る周期量も示し、雑音混合は、効果的には、隠蔽信号に混合する雑音量の決定に際してこの測度を包含してもよい。この同じ原理は減衰にも当てはまり、効果的にはグレースフルな減衰が使用されるが、オリジナルの信号を表現するサンプルにはより少ない減衰が導入されてもよく、補間演算の結果として生じるサンプルにはそれ以上の減衰が導入されてもよい。さらに、効果的には、これらのサンプルにおける減衰量は、効果的には周波数差別的なマッチング品質表示の関数であってもよい。この場合もやはり、ステップバックに対する読み取り長さの値は発生し得る周期量を示し、減衰演算は、効果的には減衰の設計においてこの測度を含んでもよい。

発明の背景の説明で挙げたように、本発明の実施形態サブセットの重要な目的は、通常の信号フレームの長さに等しい予め設定された長さの隠蔽フレームを達成することにある。システム上の観点からこれが望まれる場合、このための手段は、効果的には位相フィルタ６５０であってもよい。このブロックの計算上単純で近似的な、但し多くの場合十分である演算は、予め設定されたフレーム長を超えるサンプル間の滑らかなオーバーラップ加算と、隠蔽フレームに続くフレームからのサンプルの追尾する部分集合を有する隠蔽フレームの数との乗算を達成することである。単独で見ると、この方法は最新技術から周知であり、例えば、非特許文献１において使用されている。システムの観点から実際的には、この単純なオーバーラップ加算手順は、それがオーバーラップ加算領域における相関性を増大する場合はいつでも後続するフレーム数と−１との乗算によって向上されてもよい。しかしながら、例えば有声化信号フレーム間の遷移においては、効果的には、フレーム境界における不連続性の影響をさらに緩和するために他の方法が使用されてもよい。このような方法の１つに、隠蔽フレームのリサンプリングがある。独立した方法として見ると、これもやはり最新技術から周知である。例えば、非特許文献６を参照されたい。従って、当業者であれば、フレーム境界における不連続性の緩和を実行することができる。しかしながら、本明細書に開示している発明の好ましい実施形態では、効果的には、リサンプリングを最後の隠蔽フレームに続くフレームへと継続することができる。これにより、リサンプリング技術の結果である時間的変化、ひいては周波数シフトの勾配を、人間の聴取者が解釈する際には知覚できないものにすることができる。さらに本発明は、リサンプリングではなく、時変性の全域通過フィルタ（ｔｉｍｅ−ｖａｒｙｉｎｇａｌｌ−ｐａｓｓｆｉｌｔｅｒ）を使用してフレーム境界における不連続性を緩和することを開示する。その一実施形態は、下記のフィルタ方程式によって与えられる。

［数２］
Ｈ＿Ｌ（ｚ，ｔ）＝（ａｌｐｈａ＿１（ｔ）＋ａｌｐｈａ＿２（ｔ）＊ｚ＾（−Ｌ））／（ａｌｐｈａ＿２（ｔ）＋ａｌｐｈａ＿１（ｔ）＊ｚ＾（−Ｌ））

以下、その関数について説明する。Ｌ個のサンプルの遅延から０個のサンプルの遅延までの掃引が、隠蔽フレームより前のフレーム及び隠蔽フレームの後のフレームにおいて、隠蔽フレームの全て又は一部におけるサンプルの全て又は一部を含んでもよい掃引間隔に渡って希望されるものとすると、掃引間隔の始まりでは、Ｌ個のサンプルの遅延を提供するようにａｌｐｈａ＿１（ｔ）はゼロに設定され、ａｌｐｈａ＿２（ｔ）は１．０に設定される。ｔ上の掃引が開始されるに伴って、ａｌｐｈａ＿１（ｔ）は漸次０．５へと増大し、ａｌｐｈａ＿２（ｔ）は漸次０．５へと低下していく。掃引間隔の終わりでａｌｐｈａ＿１（ｔ）がａｌｐｈａ＿２（ｔ）に等しくなると、フィルタＨ＿Ｌ（ｚ，ｔ）は遅延ゼロを導入する。逆に、０個のサンプルの遅延からＬ個のサンプルの遅延までの掃引が、隠蔽フレームより前のフレーム及び隠蔽フレームの後のフレームにおいて、隠蔽フレームの全て又は一部におけるサンプルの全て又は一部を含んでもよい掃引間隔に渡って希望されれば、掃引間隔の始まりでは、０個のサンプルの遅延を提供するようにａｌｐｈａ＿１（ｔ）は０．５に設定され、ａｌｐｈａ＿２（ｔ）は０．５に設定される。ｔ上の掃引が開始されるに伴って、ａｌｐｈａ＿１（ｔ）は漸次０へと低下し、ａｌｐｈａ＿２（ｔ）は漸次１．０へと増大していく。掃引間隔の終わりでａｌｐｈａ＿１（ｔ）が０に、ａｌｐｈａ＿２（ｔ）が１．０になると、フィルタＨ＿Ｌ（ｚ，ｔ）はＬ個のサンプルの遅延を導入する。

上述のフィルタリングは計算が単純であるが、非線形の位相応答を有する。知覚上の理由から、この非線形位相は、その使用を比較的小さいＬに限定する。効果的には、サンプリング速度が１６ｋＨｚの音声に関して、Ｌ＜１０である。これより大きい初期値Ｌに関してフィルタリングを達成する１つの方法は、合計して所望される値Ｌになる複数のより小さい値Ｌのために幾つかのフィルタを起動するというものである。これらの幾つかのフィルタは、効果的には、異なる瞬間に起動され、そのａｌｐｈａの領域の異なる時間間隔上を掃引することができる。次に、このフィルタの適用可能なＬの範囲を増大する他の一方法を開示する。上述の方法と同じフィルタリング機能を提供する構造体は、信号をＬ個のポリフェーズに分割し、これらのポリフェーズのそれぞれにおいて下記のフィルタリングを実行する。

［数３］
Ｈ＿１（ｚ，ｔ）＝（ａｌｐｈａ＿１（ｔ）＋ａｌｐｈａ＿２（ｔ）＊ｚ＾（−１））／（ａｌｐｈａ＿２（ｔ）＋ａｌｐｈａ＿１（ｔ）＊ｚ＾（−１））

本発明の場合、ポリフェーズフィルタリングは、効果的には、アップサンプリングを使用して提供される。これを効果的に行う一方法は、各ポリフェーズを係数Ｋでアップサンプリングし、アップサンプリングされた各ポリフェーズにおいてフィルタリングＨ＿１（ｚ，ｔ）をＫ回実行する。その後、係数Ｋによるダウンサンプリングにより、ポリフェーズから位相修正された信号が再構成される。係数Ｋは、効果的には、Ｋ＝２として選択されてもよい。アップサンプリング手順により、線形に近い位相応答が取得される。これにより、人間の聴取者により解釈される知覚品質は向上する。

複数のフレームに対する上述の位相調整は、隠蔽フレームが受信されるフレームシーケンス内に損失なしに挿入される場合に適用可能である。これはまた、後続フレームの再生遅延を低減するために信号シーケンスからフレームが取り出される場合にも適用可能である。さらにこれは、フレームが損失され、ゼロ又はそれ以上の隠蔽フレームがこの損失より前に、かつ後に受信されたフレーム間に挿入される場合にも適用することができる。これらの場合に、このフィルタの入力信号を取得して遅延Ｌを求める方法は、下記の通りである。

１）不連続ポイントより時間的に早いフレーム上で、本明細書に開示している方法又は他の任意の方法である隠蔽方法を継続又は開始する。
２）不連続より時間的に遅いフレーム上で、本明細書に開示している方法又は他の任意の方法である隠蔽方法により開始されたフレームに、Ｌ＿ｔｅｓｔ個の試験サンプルを時間サンプルの索引付けを逆転させて挿入する。
３）正規化された相関性等のマッチング測度を、１）からの少なくとも１つの隠蔽フレームと、ヘッディングであるＬ＿ｔｅｓｔ個の試験サンプルを含む２）からの少なくとも１つのフレームとの間に適用する。
４）マッチング測度を最大化するＬ＿ｔｅｓｔをＬとして選択する。
５）次に、重み付けされたオーバーラップ加算手順を使用して、２）からの少なくとも１つの隠蔽フレームと、３）からの少なくとも１つのフレームとを加算する。この重み付けされたオーバーラップ加算は、当業者に知られる方法で実行することができるが、好ましくは、本明細書で後に開示するように最適化されてもよい。
６）結果的に得られる少なくとも１つのフレームを、決定された値Ｌで開始される上述の位相フィッティングフィルタリングへの入力として使用する。Ｌがしきい値より大きい場合は、幾つかのフィルタを起動し、異なる瞬間及び時間間隔において係数を掃引する。この場合、個々のＬ値の合計が決定された値Ｌになる。

効果的には、８又は１６ｋＨｚでサンプリングされた音声又は残留音声の場合、上述のしきい値は、５から５０までの範囲の値であるように選択されてもよい。さらに効果的には、発声音声又は残留発声音声の場合、隠蔽サンプルのＬ＿ｔｅｓｔ個の試験及び後続フレームへのその継続は、フレームの第１のピッチ周期のサンプルを循環的にシフトすることによって達成される。これにより効果的には、好ましい循環シフトＬを求めるために、フルピッチ周期を相関させる正規化なしの相関測度をマッチング測度として使用することができる。

図９は、このような方法の一実施形態を示したものである。本図において、位相調整は、信号フレーム９００と後続フレームとの間に滑らかな遷移を生成する。これは、次のようにして達成される。すなわち、信号フレーム９００及びその前のフレームから、隠蔽信号９１０が生成される。この隠蔽信号は、本明細書に開示している方法を使用して生成されてもよく、最新技術から周知の他の方法を使用して生成されてもよい。隠蔽信号はウィンドウ９２０で乗算され、別のウィンドウ９３０に加算９２５される。ここで、ウィンドウ９３０は、次のようにして生成される信号９４０で乗算される。すなわち、隠蔽信号９４０は、後続サンプル９５０及びおそらくは９６０から、本明細書に開示している方法等の隠蔽方法を効果的に適用することによって、又は最新技術から周知である他の方法を使用することによって発生され、後続サンプル９５０と連結される。隠蔽９４０内のサンプル数は、隠蔽９１０と９４０及び後続サンプル９５０の連結とのマッチングを最大化するように最適化される。

効果的には、正規化された相関性は、このマッチングの測度として使用されてもよい。さらに、計算上の複雑さを減らすために、発声音声又は残留発声音声に関してマッチングは１つのピッチ周期を含むように制限されてもよい。この場合、隠蔽サンプル９４０は、１ピッチ周期の循環シフトの第１の部分として取得されてもよく、よって１ピッチ周期の相関測度を正規化する必要はなくなる。これにより、正規化係数を計算するための計算は省かれる。この好ましい実施形態の詳細な説明において先に述べた索引付け及び補間演算に関しては、効果的には、同じくウィンドウがマッチング品質インジケータの関数及び／又は周波数の関数であって、効果的には、多段遅延線として実装されてもよい。フィルタ９７０の演算は、下記の通りである。オーバーラップ加算手順の結果として生じる最初のＬ個のサンプルは、その出力へ直接送られ、フィルタの初期状態をセットアップするために使用される。その後、フィルタ係数は先に述べた通りに初期設定され、フィルタによるサンプルＬ＋１から先へのフィルタリングに伴って、これらの係数は漸次、上述したようにＬ個のサンプル分の遅延を漸次除去するように調整される。

上述の手順においてもやはり、先に述べたマッチング基準の最大化によってウィンドウ重みを最適化する方法が適用され、多段遅延線の形式又は他のパラメトリックフィルタ形式によるウィンドウ関数の周波数依存重み及び整合フィルタへの一般化も適用される。効果的な実施形態では、周波数依存フィルタ重みの時間的展開は、次の３つのオーバーラップ加算シーケンス、すなわち、第１のより早いフレームからの少なくとも１つの隠蔽フレームのフェードダウン、第２の時間的に逆のインデックス順に取得される後のフレームからの隠蔽フレームをマッチングするための、これらのフィルタされたバージョンのフィルタによるフェードアップ及びこれに続くその再度のフェードダウン、第３の時間的に後の少なくとも１つのフレームのフェードアップから成るシーケンスによって達成される。効果的な別の実施形態セットでは、周波数依存フィルタ重みの時間的展開は、次の４つのオーバーラップ加算シーケンス、すなわち、第１のより早いフレームからの少なくとも１つの隠蔽フレームのフェードダウン、第２の時間的に逆のインデックス順に取得される後のフレームからの隠蔽フレームをマッチングするための、これらのフィルタされたバージョンのフィルタによるフェードアップ及びこれに続くその再度のフェードダウン、第３のこれのマッチングをさらに向上させるための時間的に後のフィルタされたバージョンフレームのフェードアップ及びその再度のフェードダウン、及び最後に第４の時間的に後の少なくとも１つのフレームのフェードアップから成るシーケンスによって達成される。重み付けされたオーバーラップ加算法のさらに効果的な実施形態については、本明細書において後に開示する。

残留領域サンプルが音声信号を表現する情報の一部として使用される実施形態における平滑化及び等化演算６１０の場合、平滑化及び等化は、効果的には、くし形フィルタ又は周期性のノッチフィルタ等のピッチ適応型フィルタリングを使用して、この残留信号に適用されてもよい。さらに、効果的には、フィルタリングされていない残留のモデルとして雑音をプラスした長期相関フィルタを使用するウィーナ又はカルマンフィルタリングが適用されてもよい。ウィーナ又はカルマンフィルタを適用するこの方法では、モデル内の雑音の分散が平滑化及び等化の程度を調整するために適用される。この成分は、ウィーナ及びカルマンフィルタリング理論において伝統的に、望ましくない雑音成分の存在をモデリングするために適用されるものであり、これは幾分直感に反した使用である。これが本技術革新において適用される場合、その目的は、平滑化及び等化のレベルを設定することにある。本革新技術のコンテキストにおいては、ピッチ適応型くし形フィルタ又はノッチフィルタリング及びウィーナ又はカルマン型フィルタリングの代替として、効果的には、残留信号の平滑化及び等化に第３の方法が適用される。この第３の方法により、効果的には、例えば無声音声に適用されるようなサンプル振幅又は効果的には、例えば発声音声に適用されるようなサンプルの連続するベクトルの何れかがますます類似したものにされる。以下、これを達成することのできる手順について、発声音声のベクトル及び無声音声のサンプルのそれぞれに関連して概説する。

発声音声に関しては、音声又は残留の連続するサンプルが複数のベクトルにして収集され、ここで、各ベクトルは１ピッチ周期に等しくかつ幾つかのサンプルを有する。説明の便宜上、ここではこのベクトルをｖ（ｋ）で表す。次に、本方法は、残差ベクトルｒ（ｋ）を何らかの手段によって周囲ベクトルｖ（ｋ−Ｌ１），ｖ（ｋ−Ｌ１＋１），…，ｖ（ｋ−１）及びｖ（ｋ＋１），ｖ（ｋ＋２），…，ｖ（ｋ＋Ｌ２）において発見され得なかったｖ（ｋ）の成分として取得する。説明の便宜上、周囲ベクトルにおいて発見される成分をａ（ｋ）で表す。残差ベクトルｒ（ｋ）は、続いて何らかの線形的又は非線形的方法でその可聴性を低減するように操作され、同時に、この操作されたバージョンのｒ（ｋ）に成分ａ（ｋ）を挿入し直すことによって達成される最終的に再構成されたベクトルの自然さが保たれる。

これにより、平滑化されかつ等化された形の発声音声又は発声残留音声がもたらされる。以下、便宜的に行列−ベクトル表記を使用し、かつ例を単純にするためにａ（ｋ）を定義する線形結合及び最小二乗の概念を使用して、上述の原理の単純な一実施形態を示す。但しこれは、上述の平滑化及び等化の一般原理の単純かつ単一の実施形態の単なる一例である。

本例の目的に沿って、行列Ｍ（ｋ）を次のように定義する。

［数４］
Ｍ（ｋ）＝［ｖ（ｋ−Ｌ１）ｖ（ｋ−Ｌ１＋１）…ｖ（ｋ−１）ｖ（ｋ＋１）ｖ（ｋ＋２）…ｖ（ｋ＋Ｌ２）］

上述の式から、ａ（ｋ）を、例えばＭ（ｋ）が与えられたときのｖ（ｋ）の最小二乗推定として計算することができる。

［数５］
ａ（ｋ）＝Ｍ（ｋ）ｉｎｖ（ｔｒａｎｓ（Ｍ（ｋ））Ｍ（ｋ））ｖ（ｋ）

ここで、ｉｎｖ（）は行列反転又は擬似反転を表し、ｔｒａｎｓ（）は行列の転置を表す。よって、残差ｒ（ｋ）は、例えば以下の減算によって計算することができる。

［数６］
ｒ（ｋ）＝ｖ（ｋ）−ａ（ｋ）

ｒ（ｋ）の操作の一例は、例えば、サンプルの最大絶対値を、前後の隠蔽手順の始点に最も近いｒ（ｋ）の最大振幅に等しいレベルに、又はベクトル内の同じ位置にあるが、ベクトル内で前後の隠蔽手順の始点に最も近いサンプルの振幅に何らかの係数を乗じたものに制限するために、このベクトルのピークをクリッピングして除くというものである。操作された残差ｒｍ（ｋ）は、続いてａ（ｋ）ベクトルと結合され、ｖ（ｋ）が等化された形で再構成される。ここではこれを、便宜的にｖｅ（ｋ）で表す。一例として、この結合は、以下の単純な加算によって達成することができる。

［数７］
ｖｅ（ｋ）＝ａｌｐｈａ＊ｒｍ（ｋ）＋ａ（ｋ）

本例におけるパラメータａｌｐｈａは１．０に設定されてもよく、効果的には、１．０未満となるように選択されてもよいが、その効果的な選択肢の１つは０．８である。

無声音声の場合、効果的には、別の平滑化及び等化方法が使用されてもよい。無声音声の平滑化及び等化の一例は、対数領域における残留信号の振幅との多項式フィッティングを計算する。一例として、二次多項式及びｌｏｇ１０領域が使用されてもよい。多項式フィッティングを対数領域から線形領域へ変換して戻した後、フィッティング曲線は、前後手順の始点に対応するポイントで１．０へ正規化される。続いて、フィッティング曲線は下方を、例えば０．５に制限され、その後、残留信号の振幅は、無声残留信号の振幅の変形を滑らかに等化するようにフィッティング曲線で分割されてもよい。

重み付けされたオーバーラップ加算手順に関しては、先に本明細書においてその幾つかの、但し全てではないアプリケーション、すなわち索引付け及び補間演算６２０及び位相調整フィルタリング９７０の入力信号の起動方法を開示している。これらの手順は、当業者に周知の方法で実行されてもよい。しかしながら、重み付けされたオーバーラップ加算手順の好ましい実施形態においては、効果的には、以下で開示する方法が使用されてもよい。

マッチング品質インジケータに応答して修正される重み付けされたオーバーラップ加算手順の単純な実施形態においては、第１のウィンドウが第１のサブシーケンスで乗算され、第２のウィンドウが第２のサブシーケンスで乗算され、これらの２つの積がオーバーラップ加算演算へ入力されるものと考える。ここで、例として、第１のウィンドウを単調減少関数等の先細りのウィンドウとし、第２のウィンドウを単調増加関数等の先広がりのウィンドウとする。第２に、例を単純にするために、第２のウィンドウを基本的なウィンドウ形状とスカラ乗数との積によってパラメータ化させる。ここで、ｔａｒｇｅｔを上記第１のサブシーケンスと定義し、ｗ＿ｔａｒｇｅｔを上記先細りのウィンドウで乗算されたサンプル毎の第１のサブシーケンスと定義し、ｗ＿ｒｅｇｒｅｓｓｏｒを先広がりのウィンドウの基本的なウィンドウ形状で乗算されたサンプル毎の第２のサブシーケンスと定義し、ｃｏｅｆを上記スカラ乗数と定義する。これで、第２のウィンドウのスカラ乗数成分を、ターゲットとオーバーラップ加算演算の結果との間の二乗誤差の総和を最小化するようにして最適化することができる。便宜上、行列−ベクトル表記を使用すると、上記問題は、ターゲットと以下の式で示す量との二乗差合計の最小化として定式化することができる。

［数８］
ｗ＿ｔａｒｇｅｔ＋ｗ＿ｒｅｇｒｅｓｓｏｒ＊ｃｏｅｆ

これから、ベクトルＴ及びＨを、以下のように定義する。

［数９］
Ｔ＝ｔａｒｇｅｔ−ｗ＿ｔａｒｇｅｔ

［数１０］
Ｈ＝ｗ＿ｒｅｇｒｅｓｓｏｒ

この最適化問題に対する解は、以下の式で与えられる。

［数１１］
ｃｏｅｆ＝ｉｎｖ（ｔｒａｎｓ（Ｈ）＊Ｈ）＊ｔｒａｎｓ（Ｈ）＊Ｔ

ここで、ｉｎｖ（）はスカラ又は行列反転を表し、ｔｒａｎｓ（）は行列又はベクトルの転置を表し、＊は行列乗算又はベクトル乗算である。次に、本明細書に開示している発明における中心要素として、この方法は、ウィンドウの実際の形状を最適化するように拡張されてもよい。これを達成する１つの方法は、下記の通りである。形状の集合を、希望されるウィンドウをその形状の集合に含まれる要素の線形結合として得るための集合と定義する。ここで、Ｈを、Ｈの各列が上記第２のサブシーケンスによりサンプル毎に乗算されたこの集合からの１つの形状であるように定義し、ｃｏｅｆを、最適化されたウィンドウ関数におけるこれらの形状の未知の重みを含む列ベクトルとして定義する。これらの定義を使用して、問題及びその解を定式化した上述の方程式を、今度はより一般的なウィンドウ形状の解法のために適用する。当然ながら、第１及び第２のウィンドウの役割は上記課題において互換されてもよく、よって、ここでは最適化実行の対象は第１のウィンドウになる。

本発明のより高度な実施形態は、これらの双方のウィンドウ形状を同時に最適化する。これは、おそらくはウィンドウ形状の第１の集合と同等物でありかつ効果的には、ウィンドウ形状の第１の集合におけるウィンドウ形状のそれぞれにおけるサンプルの時間反転索引付けとして選択される、基本的なウィンドウ形状の第２の集合を定義することによって行われる。ここで、ｗ＿ｔａｒｇｅｔを各列が上記第１のサブシーケンスによりサンプル毎に乗算された上記ウィンドウ形状の第２の集合からの基本的なウィンドウ形状である行列と定義し、ｃｏｅｆを、第１に、上記第１のウィンドウのための重みを含みかつ第２に、上記第２のウィンドウのための重みを含む列ベクトルとして定義する。これで、より一般的な問題は、ターゲットと以下の式で示す量との二乗差合計の最小化として定式化することができる。

［数１２］
［ｗ＿ｔａｒｇｅｔｗ＿ｒｅｇｒｅｓｓｏｒ］＊ｃｏｅｆ

ここで、角括弧［］は部分行列又はベクトルから行列を形成するために使用される。次に、これから、ベクトルＴ及びＨを以下のように定義する。

［数１３］
Ｔ＝ｔａｒｇｅｔ

［数１４］
Ｈ＝［ｗ＿ｔａｒｇｅｔｗ＿ｒｅｇｒｅｓｓｏｒ］

この最適化に対する解は以下の式で与えられる。

［数１５］
ｃｏｅｆ＝ｉｎｖ（ｔｒａｎｓ（Ｈ）＊Ｈ）＊ｔｒａｎｓ（Ｈ）＊Ｔ

さらに、本発明のさらに高度な実施形態は、瞬時のウィンドウ形状だけでなく、最適化された周波数依存重みを有するウィンドウも最適化する。本発明の一実施形態は多段遅延線の形式を適用するが、本発明全般は、如何なる場合もこの形式に限定されない。この一般化を達成する１つの方法は、上述のｗ＿ｔａｒｇｅｔ及びｗ＿ｒｅｇｒｅｓｓｏｒの定義において、各列をそれぞれがサンプル毎に基本的なウィンドウ形状による乗算を行う幾つかの列で置換するというものであり、上記基本的なウィンドウ形状は、これらの幾つかの列が置換する列、但しこの基本的なウィンドウ形状がその時間的な位置でサンプル毎に多段遅延線における特定位置に対応する関連の遅延されたサブシーケンスで乗算される場所である列に対応している。

効果的には、これらの方法における係数の最適化は、本明細書に開示している発明を逸脱することなく、係数の重み、制約又は逐次計算を考慮する。このような重みには、効果的には、低い絶対遅延値に対応する係数へより大きい重みを付ける傾向のある重みが含まれる。このような逐次計算は、効果的には、低い絶対遅延値の係数を、まずはこれらの係数のみを使用して二乗誤差の合計を最小化し、続いてこのプロセスを、増加する遅延値に関して、但しこのプロセスの早期のステップから残る誤差のみに関して反復するように計算してもよい。

一般に、本発明の実施形態は、幾つかのサブシーケンスを最適化の目標として採用する。一般的に言えば、最適化は、これらの目標のサブシーケンス及び重み付けされたオーバーラップ加算系からの出力の関数である歪み関数を最小化する。この最適化は、本発明を逸脱することなく、基本形状の選択及び遅延及びオーバーラップ加算全体における重みに様々な制約を付してもよい。形状の的確な選択に依存して、オーバーラップ加算の影響は、効果的には、時間的にオーバーラップ加算領域に続くサブシーケンスから漸次フェードアウトされる。

図１０は、開示しているオーバーラップ加算方法の一実施形態を示す。本発明は、本図における正確な構造に限定されず、よって本図は単に本発明の一実施形態を例示するためのものである。図１０において、１つのサブシーケンス１０００は、別のサブシーケンス１０１０と共に時間及び周波数形状を最適化されたオーバーラップ加算で入力される。これらのサブシーケンスはそれぞれ、別の遅延線に入力される。本図において、ｚは１サンプル分の時間先行を示し、ｚ−１は１サンプル分の時間遅延を示す。選択されている１、−１及び０という遅延は純粋に例示を目的とするものであり、本発明に関しては、多かれ少なかれ、他の遅延を効果的に使用することができる。遅延されたバージョンの各サブシーケンスは、次に、幾つかの基本的なウィンドウ形状によって乗算され、これらの結果はそれぞれ、最適化の過程で他の係数と同時に発見されるべき係数によって乗算される。これらの係数による乗算の後、結果として得られたサブシーケンスは加算され、時間及び周波数形状を最適化されたオーバーラップ加算から出力１０２０がもたらされる。係数の最適化１０３０は、図１０における例ではサブシーケンス１０４０及び１０５０を入力として取り込み、１０４０及び１０５０及び出力１０２０の関数である歪み関数を最小化する。

請求の範囲において図面を示す引用符号は、単に明確さを目的として記述されたものである。諸図における例示的な実施形態を指すこれらの引用符号は、如何なる場合も請求の範囲を限定するものとして解釈されるべきではない。

損失、遅延、遅延ジッタ及び／又はクロックスキューの影響を受ける既知のエンドツーエンドのパケット交換式音声送信システムを示すブロック図である。制御ユニットによる制御下でジッタバッファリング、復号及び隠蔽及び再生出力バッファリングを達成する例示的な受信機サブシステムを示す。クロックスキュー、損失、遅延及び遅延ジッタの影響を受けるパケット交換チャンネルのリレーサブシステムを示すブロック図である。制御ユニットによる制御下で入力バッファリング、出力バッファリング及び必要に応じてトランスコーディング及び隠蔽を達成する例示的なリレーサブシステムを示す。本発明の一連の好ましい実施形態を示すブロック図である。隠蔽フレームにおけるサブシーケンスを描いたスケッチであり、上記フレームの始点は、時間の逆方向の順序で最後にバッファされたサブシーケンスに基づくサブシーケンスである。隠蔽フレームにおけるサブシーケンスのより大きいシーケンスによる別の例を示し、上記フレームの始点は、時間の逆方向の順序による最後の２つのバッファされたサブシーケンスであり、連続するサブシーケンスは時間の逆方向でさらにバッファされたサブシーケンスに基づく。ステップバック及び読み取り長さによってフォーマットされたインデックスパターンにおけるサンプル計数インデックスを示す。索引付け及び補間関数に関係する信号を描いたスケッチである。停止基準の決定論理を実行できる一方法を示すフローチャートである。平滑化及び等化、停止基準及び許容される繰り返し数の反復的な同時最適化を達成できる一方法を示すフローチャートである。位相調整フィルタの初期化及び供給に関連する循環シフト及びオーバーラップ加算の使用を示す。開示されている重み付けされたオーバーラップ加算手順の一実施形態を示す。

Claims

ディジタル化されたオーディオ信号の伝送に関連して隠蔽サンプルのシーケンスを生成する方法であって、
サンプルの時間順序でバッファされた、オーディオ信号のディジタル化された表現のサンプルの複数のサブシーケンスから、隠蔽サンプルのシーケンスを生成するステップを有し、
前記生成するステップは、
前記バッファされたサブシーケンスを、最後にバッファされたサブシーケンスから始めて、時間の逆方向に所定数のバッファされたサブシーケンスを読み出した隠蔽サブシーケンスから構成されるステップバックシーケンス（逆順シーケンス）と、前記バッファされたサブシーケンスを、前記ステップバックシーケンスの最後のサブシーケンスと対応するバッファされたサブシーケンスに、前記バッファにおいて時間の順方向で続くバッファされたサブシーケンスから始めて、時間の順方向に最後にバッファされたサブシーケンスまで読み出した隠蔽サブシーケンスから構成される読み取り長さシーケンス（時間順シーケンス）との組をつくる段階と、
前記ステップバックシーケンスと前記読み取り長さシーケンスとの組をつくる段階を、隠蔽サンプルのシーケンスの長さに応じて複数回くり返す段階とを有し、
前記くり返す段階において、ステップバックシーケンスをつくる際に所定数読み出されるバッファされたサブシーケンスの数を、くり返し回数の増加に応じて増加させることを特徴とする方法。