JP5202960B2

JP5202960B2 - 通信システムにおけるフレームの連結方法

Info

Publication number: JP5202960B2
Application number: JP2007552507A
Authority: JP
Inventors: セレン・ヴァング・アナセン
Original assignee: Skype Ltd Ireland
Current assignee: Skype Ltd Ireland
Priority date: 2005-01-31
Filing date: 2006-01-31
Publication date: 2013-06-05
Anticipated expiration: 2026-01-31
Also published as: AU2006208530B2; EP1846921B1; US20080154584A1; ZA200706261B; ZA200706307B; US8068926B2; CN101120400A; NO340871B1; JP2008529072A; JP2008529074A; CN101120400B; JP2008529073A; RU2007132729A; BRPI0607246B1; US20080275580A1; CN101120399B; CA2596341A1; RU2007132728A; EP1846921A1; KR20080002757A

Description

本発明は、通信システムに関する。より具体的には、本発明は、オリジナルのオーディオ信号における非連続フレームに関連するフレーム、または一方または双方が隠蔽方法に関連しているフレーム、が連結される場合に発生する不連続性を軽減する方法、デバイス及び装置に関する。この不連続性は、具体的には、信号パケットの損失及び／または遅延ジッタ及び／またはクロック・スキューに関連して起こる。本発明は、無線通信システム及びパケット交換ネットワーク上での信号伝送の品質を向上させる。

今回のこの発明の動機付けは、通信システムにおけるそのアプリケーションにあり、具体的には、信号パケットの損失及び／又は遅延ジッタ及び／又はクロックスキューによる影響を緩和することにおけるそのアプリケーションに関連している。発明の要約、好ましい実施形態、図面及び請求の範囲を読めば当業者には明白となるであろうが、本発明は、一般に、信号のディジタル処理に重み付けされたオーバーラップ加算手順が適用される場合に効果的なアプリケーションを有する。

最新の電気通信は、信号のディジタル送信に基づく。例えば図１において、送信機２００は、ソース（信号源）１００から音声信号を収集する。このソースは、マイクロホンにより収集される少なくとも１人の人による発話及び他の音波源に起因するソースである場合もあれば、テキスト音声合成又は対話システム等の音声信号格納システム又は発生システムである場合もある。ソース信号がアナログであれば、これは、アナログ／ディジタル変換器を用いてディジタル表現に変換される。ディジタル表現は続いて符号化され、ディジタルチャンネル３００に適するフォーマットに従ってパケット内に配置される。パケットは、ディジタルチャンネル上で送信される。ディジタルチャンネルは、典型的には複数の抽象化のレイヤを備える。

図１の抽象化のレイヤにおいて、ディジタルチャンネルはパケットのシーケンスを入力として受け取り、パケットのシーケンスを出力として送る。典型的には、チャンネル内の雑音、不完全性及び過負荷を原因として生じるチャンネルの劣化により、出力されるパケットのシーケンスは、典型的には幾つかのパケットの損失、及びその他のパケットの到着時間の遅延及び遅延ジッタによって汚染される。さらに、送信機と受信機との間のクロックの差はクロックスキューをもたらすことがある。受信機４００の役割は、受信されるデータパケットを復号し、復号されたディジタル表現をパケットストリームから変換しかつこれをディジタル信号表現に復号し、さらに、これらの表現を信号シンク（信号シンク装置）５００への出力に適するフォーマットで復号された音声信号に変換することである。この信号シンクは、復号された音声信号を例えば少なくとも１つのスピーカによって提示される少なくとも１人の人である場合もあれば、音声又はオーディオ格納システム又は音声又はオーディオ対話システム又は認識装置である場合もある。

シンクに提示され得る信号を正確に再生することは、受信機の役割である。シンクが直接又は間接的に複数の人間の聴取者を含む場合、受信機の目的は、人間の聴取者に提示されるときに、１つのソース又は複数のソースからの音響信号に関して人に知覚される印象及び情報を正確に再生する音声信号表現を取得することにある。損失、遅延、及び遅延ジッタによってチャンネルが受信されるパケットシーケンスを劣化させ、さらにクロックスキューが存在するためにパケットシーケンスが劣化する一般的なケースにおいて、受信機のこの役割を保証するためには、受信機サブシステムの一部として効率的な隠蔽が必要である。

一例として、この役割を果たすための受信機サブシステムの可能な１つの実装を図２に示す。この図が示すように、着信するパケットはジッタバッファ４１０に格納され、復号及び隠蔽ユニット４２０は受信され符号化された信号表現をここから取得し、かつこれらの符号化された信号表現を復号しかつ隠蔽することにより再生出力バッファ４３０における格納及びこれに続く再生出力に適する信号表現を得る。隠蔽をいつ開始するか、及び隠蔽される信号の長さ等の隠蔽の具体的なパラメータが何であるかに関する制御は、一例として、制御ユニット４４０によって実行されてもよい。ここで、制御ユニット４４０は、ジッタバッファ及び再生出力バッファの内容を監視しかつ復号及び隠蔽ユニット４２０の動作を制御する。

隠蔽はまたチャンネルサブシステムの一部として達成される場合もある。図３は、パケットがチャンネル３１０から、後の参照でリレーと呼ぶサブシステム３２０を介して、チャンネル３３０へ転送されるチャンネルサブシステムの一例を示す。実際のシステムでは、このリレー機能を、多様なタイプのルータ、プロキシサーバ、エッジサーバ、ネットワークアクセスコントローラ、無線ローカルエリアネットワークコントローラ、ボイスオーバーＩＰゲートウェイ、メディアゲートウェイ、無免許ネットワークコントローラ、無認可ネットワークコントローラ及び他の名称等のコンテキストに依存する様々な名称で呼ばれるユニットによって達成することができる。本明細書のコンテキストでは、これらは全てリレーシステムの例示である。

オーディオの隠蔽を行うことのできるリレーシステムの一例を図４に示す。本図に示すように、パケットは、入力バッファ３１０からパケット交換サブシステム３２０及び３５０を介して出力バッファ３６０へ転送される。制御ユニット３７０は、入力及び出力バッファを監視し、この監視の結果として、トランスコーディング及び隠蔽が必要であるか否かの決定を下す。必要であれば、スイッチは、トランスコーディング及び隠蔽ユニット３３０を介するようにパケットを方向づける。必要でなければ、スイッチは、最小プロトコルアクションサブシステム３４０を介するようにパケットを方向づける。ここで、最小プロトコルアクションサブシステム３４０は、パケットが適用されているプロトコルに従うように、パケットヘッダに対して最小限の動作を行う。これは、パケットのシーケンス番号及びタイムスタンプを変更するステップを含んでもよい。

上述の説明によって例示される、但しこれに限定されないシステムを使用するオーディオ信号の送信に際しては、音声信号を表現する、又は部分的に表現する信号における損失、遅延、遅延ジッタ及び／又はクロックスキューを隠蔽する必要がある。

発振器モデルにおいて具体化されることのあるピッチ繰り返し方法は、発声された音声におけるピッチ周期の推定値、又は発声された音声信号の対応する基本周波数の推定に基づく。ピッチ周期が与えられると、隠蔽フレームは、最終ピッチ周期の読み出しを繰り返することによって取得される。隠蔽フレームの最初と終わり、及びピッチ周期の各繰り返し間における不連続は、ウィンドウ化されたオーバーラップ加算手順を使用して平滑化されてもよい。例えば、ピッチ繰り返し方法に関する特許文献１及び非特許文献１を参照されたい。複数の先行技術システムは、ピッチ繰り返しに基づく隠蔽を、線形予測コーディング原理に基づくデコーダと統合する。これらのシステムでは、ピッチの繰り返しは、典型的には、線形予測動作ドメインにおいて長期予測又は適応コードブックループからの読み出しによって達成される。線形予測動作ドメインにおけるピッチ繰り返しに基づく隠蔽については、例えば、特許文献２、非特許文献２及び非特許文献３を参照されたい。上述の方法は、損失又は増大する遅延、すなわち正の遅延ジッタ、及び例えばクロックスキューに起因する入力又はジッタバッファのアンダーフロー又はアンダーフローに近い状況の隠蔽に適用される。低減する遅延、負の遅延ジッタ又は入力又はジッタバッファのオーバーフロー又はオーバーフローに近い状況を隠蔽するためには、短縮された隠蔽信号の生成が必要とされる。ピッチに基づく方法は、ピッチ周期とより早いピッチ周期との間のオーバーラップ加算手順によってこれを達成する。この方法の一例として、特許文献１を参照されたい。

国際公開特許第０１４８７３６号パンフレット。米国特許第５６９９４８１号明細書。国際電気通信連合勧告（ＩｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＵｎｉｏｎｒｅｃｏｍｍｅｎｄａｔｉｏｎ）ＩＴＵ−ＴＧ．７１１アペンディックス１。国際電気通信連合勧告（ＩｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＵｎｉｏｎｒｅｃｏｍｍｅｎｄａｔｉｏｎ）ＩＴＵ−ＴＧ．７２９。コメント３９５１に対するインターネットエンジニアリングタスクフォース要求（ＩｎｔｅｒｎａｔｉｏｎａｌＥｎｇｉｎｅｅｒｉｎｇＴａｓｋＦｏｒｃｅＲｅｑｕｅｓｔｆｏｒＣｏｍｍｅｎｔｓ３９５１）。バレンズエラ（Ｖａｌｅｎｚｕｅｌａ）、アニマル（Ａｎｉｍａｌｕ）、「新しい音声−パケット再構成技術（Ａｎｅｗｖｏｉｃｅ−ｐａｃｋｅｔｒｅｃｏｎｓｔｒｕｃｔｉｏｎｔｅｃｈｎｉｑｕｅ）」、１９８９年、ＩＥＥＥ。

これも同じく、線形予測デコーダ内に存在するファシリティを活用しながら達成することができる。一例として、特許文献２は、再生信号におけるピッチの周期性を保証するために、適応コードブックの状態に依存して、特定のコードブック寄与ベクトルを単に再生信号から廃棄する方法を開示している。ピッチ繰り返し方法に関連する１つの目的は、隠蔽フレームから次のフレームへの継ぎ目のない信号の連続性にある。特許文献１は、この目的を達成する方法を開示している。特許文献１に開示されている発明によれば、この目的は、長さが時変性かつおそらくは信号依存性である隠蔽フレームによって達成される。この解法は、遅延ジッタ及びクロックスキューの隠蔽に関連して継ぎ目のない信号の連続性を効率的に保証することができる反面、図４に描かれているタイプのシステムに関して欠陥を有する。すなわち、このタイプの隠蔽に従うと、好ましくは最小プロトコルアクション３４０を介してリレーされる既に符号化されたフレームへ継ぎ目なしに接続する予め設定された固定長さのフレームへの隠蔽の符号化を保証することができない。

従って、重要な目的は、正規の信号フレームの長さに等しい予め設定された長さを有する隠蔽フレームを取得することにある。予め設定された長さによる隠蔽の一方法は、予め設定されたフレーム長を超えるサンプル間の滑らかなオーバーラップ加算と、隠蔽フレームに続くフレームからのサンプルの追尾する部分集合を有する隠蔽フレームの数との乗算を達成することである。この方法は最新技術から周知であり、例えば、非特許文献２において使用されている。原則的には、この方法は１つのフレームが別のフレームに連結され、これらの２つのフレームがオリジナルのオーディオ信号における非連続フレームに関連している場合にも適用することが可能である。従って、当業者であれば、第１のフレームの続きとして隠蔽フレームを取得することによりこれを達成し、この隠蔽フレームを第２のフレームと共にオーバーラップ加算手順に入れることができ、これにより、第１のフレームの最後のサンプルと第２のフレームの最初のサンプルとの境界において起こる不連続性が部分的に低減される。

これらの方法に対する上述の解決方法には、問題がある。それは、このオーバーラップ加算手順に入る２つの信号の実際の波形に依存して、最終的に得られるオーディオ信号に知覚可能な不連続性が残るためである。この不連続性は、人間の聴取者により信号内の「バンプ」又は「フェード」として観察される。

少なくとも１つの隠蔽フレームが包含される第１の方法においては、これらの隠蔽フレームのリサンプリングが文献に提案されている。このような方法の１つに関しては、例えば、非特許文献４を参照されたい。この方法は、目的が２つの既存フレームの連結であって隠蔽フレームとの連結でないときには解決方法を提供せず、さらには隠蔽フレームと後続フレームとの連結のための解決方法を提示せず、依然として問題を含んでいる。これは、人間の聴取者によって知覚される不連続性を軽減するために必要なリサンプリングが、代わりに、人間の聴取者によりうっとうしいアーチファクトとしても知覚される顕著な周波数歪み、すなわち周波数シフトをもたらす場合があるためである。

開示している本方法またはその実施形態は、既知の解決方法における上述の制限、及び既知の解決方法における明示されていない他の欠陥を効果的に緩和する。本発明によれば、これらの目的は、添付の請求の範囲に規定されている特徴を有する、全てが本発明の異なる態様である方法、プログラム記憶デバイス及び装置によって達成される。

具体的には、既知のピッチ反復を基礎とする方法に比較すると、開示している本方法は、フレームの境界に固有の不連続性を有する信号フレームを最新技術から知られるものより知覚されるアーチファクトを遙かに少なくして連結する技術を提供する。これにより、開示している本方法は最新技術システムにおける制限事項を緩和し、結果的に、知覚される音声品質を直接的に向上させる。

本開示においては、次のような定義を使用する。「サンプル」という用語は、ディジタル化されたオーディオ信号を起源とするサンプル、又は上記ディジタル化されたオーディオ信号から導出される信号を起源とするサンプル、もしくはこのような信号の係数又はパラメータ表現を起源とするサンプルとして理解され、これらの係数又はパラメータはスカラ値又はベクトル値である。「フレーム」という用語は、サンプルに関する上述の定義を使用して、連続するサンプルを含む集合であると理解される。「サブシーケンス」は、サンプルに関する上述の定義を使用して、２つ以上の連続するサンプルを含む集合であると理解される。例えばオーバーラップ加算を使用するケースでは、２つの連続するサブシーケンスはオーバーラップする複数のサンプルを含んでもよい。フレームの選択に依存して、サブシーケンスは、２つの連続するフレーム間に及んでもよい。

第１の態様において、本発明は、サンプルの第１のフレームとサンプルの後続の第２のフレームとを連結するための方法を提供し、上記サンプルの第１及び第２のフレーム間の境界における不連続性を最小化するように適合化された位相フィルタを適用することを含む。

好ましくは、上記位相フィルタは、少なくとも２つの連続するフレーム内のサンプルの少なくとも一部へ適用される。上記少なくとも２つの連続するフレームは上記連続する上記第１及び第２のフレームであってもよい。

上記位相フィルタは、少なくとも上記第２のフレーム内のサンプルの少なくとも一部、及び上記第２のフレームに連続する少なくとも１つのフレーム内のサンプルの少なくとも一部へ適用されてもよい。上記位相フィルタは、少なくとも上記第２のフレーム内のサンプルの少なくとも一部、及び上記第２のフレームに連続する少なくとも２つのフレーム内のサンプルの少なくとも一部へ適用されてもよい。

上記位相フィルタは、少なくとも上記第１のフレーム内のサンプルの少なくとも一部、及び上記第１のフレームに先行する少なくとも１つのフレーム内のサンプルの少なくとも一部へ適用されてもよい。上記位相フィルタは、少なくとも上記第１のフレーム内のサンプルの少なくとも一部、及び上記第１のフレームに先行する少なくとも２つのフレーム内のサンプルの少なくとも一部へ適用されてもよい。

好ましくは、記位相フィルタは全域通過フィルタセクションを含み、好適で単純な実施形態では、位相フィルタは全域通過フィルタである。上記全域通過フィルタセクションはパラメトリックな全域通過フィルタセクションであってもよい。上記パラメトリックな全域通過フィルタセクションは１から２０までの間の複数の非ゼロ係数を含んでもよい。

上記位相フィルタは、少なくとも１つのサンプルのサブシーケンスの位相を位相値ｐｉラジアンだけ修正してもよい。

好ましい実施形態では、上記位相フィルタは時変性である。好ましくは、上記位相フィルタは、上記位相フィルタの応答が上記第１及び第２のフレーム間の境界から有限数のサンプルだけ離れて近似的にゼロ位相であるように時変性である。好ましくは、上記位相フィルタは、最初に選択される位相応答を開始時に有する。上記境界から離れている上記サンプルの数は、上記位相フィルタの最初に選択される位相応答に依存してもよい。上記位相フィルタの応答が近似的にゼロ位相である時間的な位置は、上記第１及び第２のフレームの少なくとも一方の中にあってもよい。あるいは、上記位相フィルタの応答が近似的にゼロ位相である時間的な位置は、上記第１のフレームより少なくとも１フレームは先行しているフレームの中にあってもよい。あるいは、上記位相フィルタの応答が近似的にゼロ位相である時間的な位置は、上記第２のフレームより少なくとも１フレームは後のフレームの中にあってもよい。

上記境界から離れている上記サンプルの数は、上記第２のフレームにおける、又は上記第２のフレームに続くフレームにおけるサンプルのサブシーケンスの特性に依存してもよい。例えば、入力されるサンプルが音声信号を表す場合には、使用され得るこのようなサンプルの特性は、これらのサンプルが発声音声を表すか、無声音声を表すかを検出することである。

上記境界から離れている上記サンプルの数は、上記第１のフレームにおける、又は上記第１のフレームに先行するフレームにおけるサンプルのサブシーケンスの特性に依存してもよい。

上記位相フィルタはポリフェーズ構造を含んでもよい。上記位相フィルタリングはアップサンプリングを含んでもよい。

上記方法は、整合フィルタを含む重み付けされたオーバーラップ加算手順等の重み付けされたオーバーラップ加算手順を適用することを含む。この重み付けされたオーバーラップ加算手順の結果として生じるサンプルの一部は、効果的には位相フィルタの状態を初期化するために使用され、オーバーラップ加算手順の結果として生じるサンプルの別の部分がこの初期化の後も残っていれば、これらのサンプルは、効果的には、位相フィルタの第１の入力サンプルとして使用される。

上記第１及び第２のフレームの少なくとも一方は、隠蔽方法により生成されてもよい。上記隠蔽方法は、逆の時間順序で連続するバッファされたサンプルの２つのサブシーケンスに基づいて、隠蔽サンプルの２つの連続するサブシーケンスを生成してもよい。

上記位相フィルタは、時間の逆方向で上記第２のフレームから生成される隠蔽サンプルに基づいてもよい。上記位相フィルタの初期状態は上記隠蔽サンプルに基づいてもよい。上記隠蔽サンプルの少なくとも１つに含まれる幾つかのサンプルは、マッチング測度を最大化するように選択されてもよい。上記マッチング測度は正規化された相関性等の相関性を含んでもよい。

請求の範囲における任意のクレームに記載されている方法によれば、上記第１及び第２のフレームにおけるサンプルは、音声信号を含むオーディオ信号等のディジタル化されたオーディオ信号を表す。

本発明の効果的な実施形態では、位相フィルタリングにパラメトリックな全域通過フィルタ等の全域通過フィルタが使用される。位相フィルタは、フレーム境界から遠ざかるほど、その応答が漸次ゼロ位相に近くなるように、時変性にされる。フィルタは、ゼロ位相へ到達するポイントで信号経路から外される。このポイントは、本方法によりフレーム境界の不連続性が緩和された同じフレーム内である場合もあれば、効果的には、フレーム境界の不連続性が緩和されたポイントから１つまたは幾つかのフレームだけ離れたポイントである場合もある。本発明のさらなる効果的な実施形態では、上記初期位相フィルタ、このフィルタの初期状態及びこのフィルタへの入力は、第１のフレームの最後のサンプルと第２のフレームの最初のサンプルとの間の不連続性を最小化するようにして決定され、この最小化は、隠蔽方法により達成される上記第１のフレーム内の最後のサンプルの滑らかな継続と、上記第２のフレーム内のサンプルの位相フィルタリングの入力、状態または出力の最初の部分との間の類似性測度を最大化することによって達成される。さらに、効果的な実施形態では、上記第２のフレームの最初のサンプルより前の時間を表すサンプルは、第２のフレームの最初のサンプル及びそれ以降からの位相フィルタの入力、状態及び／又は出力を推定することを目的として、時間の逆方向で作用する隠蔽方法により取得される。さらなる効果的な実施形態では、上記第１のフレームからの隠蔽サンプルと位相フィルタの入力、状態又は出力との間へ、重み付けされたオーバーラップ加算手順及び好ましくは整合フィルタによる重み付けされたオーバーラップ加算手順が適用される。

第２の態様において、本発明は、上記第１の態様による方法を実行するように適合化されたコンピュータによる実行が可能なプログラムコードを提供する。このようなプログラムコードは、マシン依存又はマシン独立な形式で、かつマシンコード又はより高位のプログラミング言語等の任意のプログラミング言語で書かれてもよい。

第３の態様において、本発明は、上記第１の態様による方法を実行するための汎用マイクロプロセッサ等のマイクロプロセッサに対する命令シーケンスを備えるプログラム記憶デバイスを提供する。上記記憶デバイスは、ディスク、メモリカード又はメモリスティック、ハードディスクほか等の任意タイプのデータ格納手段であってもよい。

第４の態様において、本発明は、ディジタル化されたオーディオ信号を受信するための例えばデバイス又は機器である装置を提供し、本装置は、
−受信されるディジタルオーディオ信号を表現するサンプルを記憶するためのメモリ手段と、
−上記第１の態様による方法を実行するためのプロセッサ手段とを含む。

好ましい実施形態に関連して後に記述するもの等の適切な手段を有する本発明の実装は、デコーダ／隠蔽システム、及び／またはトランスコーダ、及び隠蔽システムが、知覚的にうっとうしいアーチファクトを導入することなく、損失される、または遅延されるパケットのシーケンスを効率的に隠蔽することを有効化する。これにより、本発明は、過酷なクロック・スキュー、チャンネル損失及び／または遅延ジッタを有する状況においてオーディオの高品質な双方向通信を有効化する。

次に、添付の図面を参照して、本発明をさらに詳しく説明する。

本発明は、様々な修正及び代替形式をとることが可能であるが、図面には、例示として特定の実施形態を示している。以下、これらの特定の実施形態について詳細に説明する。しかしながら、本発明は開示されているこれらの特定の形式に限定されるべきものでない点を理解すべきである。本発明はむしろ、添付の請求の範囲により定義される本発明の精神及び範囲内にある全ての修正、同等物及び代替物を包含するものである。

以下、本発明を隠蔽フレームと後続フレームとの連結と併せて説明する。しかしながら、請求の範囲から理解されるように、本発明による連結方法は、これよりも遙かに広範なアプリケーションを有する。

本発明による方法は、図２に示すもの等の受信機の復号及び隠蔽ユニット４２０において起動され、又は、図４に示すもの等のトランスコーディング及び隠蔽ユニット３３０において、又は、そのアクションが適切である通信システムにおける他の任意のロケーションにおいて起動される。これらのロケーションでは、幾つかのバッファされた信号のフレームが利用可能であり、幾つかの隠蔽フレームが必要とされる。利用可能な信号フレーム及び必要とされる隠蔽フレームは、例えば音声信号であるオーディオ信号の時間領域サンプルより成る場合もあれば、上記サンプルから導出される、線形予測動作サンプル等のサンプルより成る場合も、オーディオ信号から導出される、音声信号フレームを完全又は部分的に表現する他の係数より成る場合もある。このような係数の例としては、周波数領域係数、正弦波モデル係数、線形予測コーディング係数、波形補間係数及びオーディオ信号サンプルを完全又は部分的に表現する他の係数集合がある。

図５は、本発明の好ましい一実施形態を示す。図５によれば、利用可能な信号フレーム５９５はフレームバッファ６００に格納される。信号フレーム５９５は、受信されて復号又はトランスコーディングされたフレーム又は、隠蔽フレームを生成するための本方法又は他の方法によるこれより前の演算からの隠蔽フレーム又は、上述のタイプの信号フレームの組み合わせであってもよい。フレームバッファ内の信号は、インデックス（索引）パターン発生器６６０によって解析される。インデックスパターン発生器は、信号ピッチ５９６及び発声５９７の推定値を効果的に利用することができる。全体的なシステム設計に依存するが、これらの推定値は、符号化、復号又はトランスコーディングプロセス等の他のプロセスからの入力として利用可能であってもよく、又は他の方法により、好ましくは信号解析のための最新技術による方法を使用して計算される。さらに、インデックスパターン発生器は、入力として、生成する隠蔽信号フレームの数５９８と、フレームバッファにおける隠蔽フレームで置換される少なくとも１つの特定の信号フレームの始まりと終わりを指すポインタ５９９とを採用する。一例として、これらのバッファがフレームバッファの終わりを指していれば、これは、少なくとも１つの隠蔽フレームが上記フレームバッファに格納されている信号に引き続くように作られるべきであることを意味する。別の例として、これらのポインタがフレームバッファ内の連続するフレームの空でない部分集合を指していれば、これは、少なくとも１つの隠蔽フレームがフレームシーケンス内の音声信号を表現する、又は部分的に表現するフレームに取って代わるように作られるべきであることを意味する。

さらにこれを例示するために、フレームバッファ６００が信号フレームＡ、Ｂ、Ｃ、Ｄ、Ｅを含み、隠蔽フレームの数５９８は２であるものとする。すると、置換されるフレームを指すポインタ５９９がフレームバッファの終わりを指していれば、これは、２つの隠蔽信号フレームが順に信号フレームＥに引き続くように作られるべきであることを意味する。逆に、ポインタ５９９が信号フレームＢ、Ｃ、Ｄを指していれば、これらの２つの隠蔽フレームは信号フレームＢ、Ｃ、Ｄに取って代わるように、かつ順に信号フレームＡに引き続き、かつ順にその後に信号フレームＥが続くように作られるべきである。

隠蔽フレームの数５９８及び隠蔽フレームが最終的に取って代わるべきフレームの部分集合、すなわちポインタ５９９を決定する方法に関しては、好ましくは、最新技術による方法が使用されるべきである。従って、データ５９６、５９７、５９８及び５９９及び信号フレーム５９５は、本発明による方法、デバイス及び装置への入力を構成する。

所定の全体的なシステム設計においては、隠蔽ユニットの実行中、信号フレームの長さ又は大きさは、効果的には定数として維持される。隠蔽ユニットがリレーシステムに統合されるときには、他の方法の中でもこれは典型的なケースである。ここで、リレーシステムにおいて、隠蔽の結果は、予め設定された長さの時間間隔内の音声信号を表現するパケット内に入れられるべきであり、この予め設定される長さは他の場所で決定される。一例として、この予め設定される長さは、ボイスオーバーＩＰシステムにおける呼のセットアップの間のプロトコル交渉中に決定されてもよく、かつ例えばネットワーク輻輳制御機構に応答して上記会話中に変更されてもよい。後に明らかとなるように、本発明の幾つかの実施形態は、予め設定された信号フレームの長さで効果的に動作するというこの要件に適合する。しかしながら、このような技術革新はこれらのシステム要件に限定されず、この技術革新による他の実施形態は、非整数個のフレーム数の隠蔽及び時変長さを有する隠蔽フレームを用いても機能することができ、これらの長さは、おそらくは他の要素との組み合わせであるフレームバッファ内の特定のコンテンツの関数であってもよい。

本発明の実施形態は、フレームバッファからの信号６０５に作用する平滑化及び等化演算６１０を効果的に利用することができる。この平滑化及び等化は、少なくとも１つの隠蔽フレームより時間的に早いフレームが上記少なくとも１つの隠蔽フレームで置換される少なくとも１つの信号フレーム又はその直前のフレームとの増加された類似性を有する信号６１５を生成する。又は、上記少なくとも１つの隠蔽フレームが既存のフレームを有するシーケンスに置換なしに挿入されれば、類似性は、上記少なくとも１つの隠蔽フレームの意図された位置の直前の少なくとも１つのフレームに対する類似性となる。後の参照用に、これらの双方のケースを単に類似性と呼んでおく。類似性は、人間の聴取者が解釈するときの類似性である。平滑化及び等化は、類似性が増大されている信号を取得するが、同時に信号６１５の自然な発声展開を保つ。平滑化及び等化６１０により効果的に実行される類似性増加演算の例は、エネルギー包絡線、ピッチ輪郭、音声グレード、音声カットオフ、スペクトル包絡線及び他の知覚的に重要なパラメータ等のパラメータにおける平滑さ及び類似性の増大を含む。

これらのパラメータのそれぞれに関して、平滑化されかつ等化されるべきフレームにおけるパラメータ展開の急激な遷移はろ波して除かれ、これらのフレームにおける平均的なパラメータレベルは、先に定義した類似の意味合いにおいてより類似したものになるように滑らかに修正される。効果的には、類似性は、依然として自然な発声の信号展開が保たれる程度にのみ導入される。インデックスパターン発生器６６０の制御下で、平滑化及び等化は、そうでなければ次の索引付け及び補間演算６２０において生じることのある遷移及び不連続を効果的に緩和することができる。さらに、ピッチ輪郭の平滑化及び等化は、インデックスパターン発生器６６０により、そうでなければ最終的には後に位相フィルタ６５０により隠蔽フレーム内に導入される歪みを最小化するようにして効果的に制御されてもよい。平滑化及び等化演算は、フレームバッファ６００内の時間の逆方向でさらに発見される信号フレーム（又は導出されるそのパラメータ）との信号又はパラメータの置換、混合、補間及び／又はマージを効果的に利用することができる。平滑化及び等化演算６１０は、本発明の一般的範囲を逸脱することなくシステムから除外されてもよい。この場合は、信号６１５が信号６０５と同一視されることになり、インデックスパターン発生器６６０の信号入力６５６及び制御出力６６５はシステム設計から省略されてもよい。

索引付け及び補間演算６２０は、入力として、おそらくは平滑化されかつ等化されている信号６１５及びインデックスパターン６６６を取り込む。さらに、本発明の幾つかの効果的な実施形態では、上記索引付け及び補間演算はマッチング品質インジケータ６６７を入力として取り込む。マッチング品質インジケータは、時刻当たりのスカラ値であってもよく、時間及び周波数双方の関数であってもよい。マッチング品質インジケータの目的は、本明細書本文において後に明らかとなるであろう。インデックスパターン６６６は、索引付け及び補間機能の演算をパラメータ化する。

図５Ａは、インデックスパターンが、少なくとも１つの隠蔽フレームの合成において、バッファされたサンプルＢＳ１、ＢＳ２、ＢＳ３、ＢＳ４内のサブシーケンスを漸次時間の逆方向で索引付けし得る方法の一例を示す。図示された例では、隠蔽フレームＣＦ１、ＣＦ２、ＣＦ３内の連続するサブシーケンスＣＳ１、ＣＳ２、ＣＳ３、ＣＳ４、ＣＳ５、ＣＳ６、ＣＳ７は、フレームＢＦ１、ＢＦ２内のサンプルのバッファされたサブシーケンスＢＳ１、ＢＳ２、ＢＳ３及びＢＳ４に基づく。図から分かるように、隠蔽サブシーケンスＣＳ１−ＣＳ７は、ＣＳ１がＢＳ４に基づく等々を意味する関数的表記法ＣＳ１（ＢＳ４）、ＣＳ２（ＢＳ３）、ＣＳ３（ＢＳ２）により表示されるように、時間の逆方向で漸次かつ次には漸次時間方向でインクリメントされるロケーションポインタに伴ってバッファされたサブシーケンスＢＳ１−ＢＳ４から索引付けされる。従って、図５Ａは、隠蔽フレーム内の連続するサブシーケンスが、連続するバッファされたサブシーケンスに基づいて、但し時間的に並べ替えされて互いに続き合うことのできる方法を示す一例として作用する。図から分かるように、最初の４つの隠蔽サブシーケンスＣＳ１（ＢＳ４）、ＣＳ２（ＢＳ３）、ＣＳ３（ＢＳ２）及びＣＳ４（ＢＳ１）は、バッファされたサンプルの終わりの４つのサブシーケンスＢＳ１、ＢＳ２、ＢＳ３、ＢＳ４を連続する順序で、但し逆の時間順序で、よってバッファされた最後のサブシーケンスＢＳ１を始点として基礎とするように選択される。逆の時間順序の最初の４つのサブシーケンスの後は、全て時間順序の連続するバッファされたサブシーケンス、すなわちそれぞれＢＳ２、ＢＳ３及びＢＳ４に基づく３つのサブシーケンスＣＳ５、ＣＳ６、ＣＳ７が続く。この好ましいインデックスパターンは、インデックスパターン発生器６６０の結果であり、このブロックへの入力６５６、５９６、５９７、５９８及び５９９に伴って大幅に変わることがある。図５Ｂは、図５Ａにおける表記法に従ってバッファされたサブシーケンスＢＳ１−ＢＳ４の時間的な並べ替えに基づいて、隠蔽サブシーケンスＣＳ１−ＣＳ１１が如何にして生成されうるかを例示する別の例を表す。図から分かるように、時間的に遅い隠蔽サブシーケンスは漸次、時間の逆方向でさらにバッファされたサブシーケンスに基づく。例えば、最初の２つの連続する隠蔽サブシーケンスＣＳ１及びＣＳ２は、最後の２つのバッファされたサブシーケンスＢＳ３、ＢＳ４を逆の時間順序で基礎とする一方で、時間的に遅い隠蔽サブシーケンス、例えばＣＳ１０はＢＳ１を、すなわち、ＣＳ１及びＣＳ２の計算に使用されるものより時間の逆方向でさらにバッファされたサブシーケンスに基づく。従って、図５Ｂは、連続する隠蔽サブシーケンスが、索引付けが漸次時間の逆方向で展開するような方法で時間的に前後して索引付けされるバッファされたサブシーケンスに基づくことを示すものである。

本発明の効果的な実施形態では、この時間の逆方向での段階的展開は、本明細書の意図に沿って称するステップバックのシーケンス、及び本明細書の意図に沿って称する読み取り長さのシーケンスとして形式化される。このフォーマットのインデックスパターンの単純な実施形態では、信号サンプル又は信号サンプルを表現するパラメータ又は係数を指すポインタは第１のステップバックに等しい量だけ後方へ移動され、この後、隠蔽フレームに一定量のサンプル又は上記サンプルを表現するパラメータ又は係数が挿入される。上記量は、第１の読み取り長さに等しい。この後、ポインタは第２のステップバックに等しい量だけ後退され、第２の読み取り長さに等しいサンプル量又は上記サンプル量を表現するパラメータ又は係数が読出され、等々と続く。

図５Ｃは、索引付けされたサンプルの第１の計数データを並べ替えした本プロセスの一例を示す。この第１の計数データは、信号時間軸上に記入されるのに対し、図５Ｃの隠蔽時間軸上に記入される計数データは、オリジナルのサンプルのその隠蔽フレームへの配置に伴う並べ替えに対応する。この図示されている例の場合、第１、第２及び第３のステップバックはそれぞれ任意に５、６、５として選択され、第１、第２及び第３の読み取り長さは、同様にそれぞれ任意に３、４、３として選択されている。本例では、時間インデックス集合｛６，７，８｝、｛３，４，５，６｝及び｛２，３，４｝を有するサブシーケンスはそれぞれ、時間の逆方向で漸次展開するサブシーケンスである。この場合、ステップバック及び読み取り長さのシーケンスは、純粋に例示を目的として選定されている。例として１６ｋＨｚでサンプリングされた音声残留サンプルの場合、ステップバックの典型値は４０から２４０までの範囲であるがこの範囲に限定されず、読み取り長さの典型値は５から１０００サンプルまでの範囲であるがこの範囲に限定されない。このフォーマットによるより高度な実施形態では、前向きのシーケンス（例えば、オリジナルの時間方向で又は時間の逆方向で索引付けされたサブシーケンス）から時間の逆方向でさらに１ステップ遡る別の前向きのシーケンスへの遷移は、漸次シフトする補間によって漸次行われる。

図６は、１つのステップバック及び対応する読み取り長さ及びマッチング品質インジケータに応答する索引付け及び補間関数の単純な実施形態の演算を示す。ここでは、単なる例示を目的として、信号フレームは時間領域オーディオサンプルから成る。漸次シフトする補間は、本明細書で使用している「サンプル」という用語の一般的定義に基づいて、すなわち、時間領域オーディオサンプルを表現するスカラ値又はベクトル値の係数又はパラメータを包含して、同様に、よって直接的に適用される。本図において、７００は信号６１５のセグメントを示す。ポインタ７０５は、索引付け及び補間出力信号６２５において最後に生成されたサンプルのサンプル時刻に続くサンプル時刻である。時間間隔７５０は、読み取り長さに等しい長さを有する。時間間隔７７０も同じく、読み取り長さに等しい長さを有する。時間間隔７６０は、ステップバックに等しい長さを有する。７００における時刻７０５から始まる信号サンプル及び時間的に前方向の読み取り長さは、ウィンドウ関数７２０によって１つずつ乗算される。同じく、７００における１サンプル分のステップバック後でロケーション７０６より前のロケーションを始点とする信号サンプル及びそこから先の読み取り長さのサンプルも、ウィンドウ関数７１０によって１つずつ乗算される。ウィンドウ７１０との乗算及びウィンドウ７２０との乗算から結果的に得られるサンプルは１つずつ加算され７３０、結果的に、索引付け及び補間演算からの出力６２５の新しいサンプルバッチを構成する７４０が得られる。この演算の完了時に、ポインタ７０５はロケーション７０６へ移動する。

本発明の単純な実施形態では、ウィンドウ関数７１０及び７２０は読み取り長さ７５０の単関数である。このような単関数の１つは、ウィンドウ７１０及びウィンドウ７２０をそれぞれ、読み取り長さの２倍の長さであるハニングウィンドウの第１及び第２の半分として選定する。この場合は、広範囲の関数を選ぶこともできるが、このような関数は本発明のコンテキストにおいて意味のあるものでなければならないという観点から、これらは、７５０で示されるセグメント内のサンプルと７７０で示されるサンプルとの間に、７５０で示されるセグメントに対する高い重みから７７０で示されるセグメントに対する高い重みへと漸次、但し必ずしも単調にではなく移動するようにして重みつき補間を達成しなければならない。

本発明の他の実施形態では、ウィンドウ関数７１０及び７２０はマッチング品質インジケータの関数である。このような関数の単純な一例では、時間間隔７５０及び７７０で示される信号７００のセグメント上の正規化された相関性のしきい値に依存して、補間演算は振幅又は電力の何れかで合計が１になるように選択される。このような関数の別の例は、合計して振幅又は電力を１にするという制約を回避する代わりに、ウィンドウ重みをマッチング測度のみの関数として最適化する。この方法をさらに改良したものは、正規化された相関性の実際の値を求め、これに応答して、例えば古典的な線形的推定方法を使用して補間演算を最適化する。好ましい方法の例については後に述べるが、これらの例においては、正規化された相関性のしきい値又は実際の値は、マッチング品質インジケータ６６７により送られる効果的な情報の例となる。後に示す好ましい実施形態によれば、補間演算は、異なる周波数において異なる重みを実装させられてもよい。この場合、マッチング品質インジケータ６６７は、マッチングの測度を周波数の関数として効果的に送ることができる。効果的な実施形態では、周波数の関数としてのこの重みは、多段遅延線として、又はマッチング基準を最大化するように最適化され得る他のパラメトリックなフィルタ形式として実装される。

図６には、信号６１５（及び、ひいては信号セグメント７００）が音声信号の、又は上記音声信号から導出される時間領域信号の時間領域サンプルを表現するサンプルを含む場合の索引付け及び補間の演算が示されている。上述したように、フレーム５９５における、かつひいては信号６０５及び６１５におけるサンプルは、効果的には、各サンプルがベクトル（ベクトル値サンプル）であるようなものであってもよい。このようなベクトルは、音声信号を表現する、又は部分的に表現する係数又はパラメータを含む。このような係数の例は、線スペクトルの周波数、周波数領域係数、又は振幅、周波数及び位相の集合等の正弦信号モデルを定義する係数である。この本発明の好ましい実施形態に関する詳細な説明に基づけば、ベクトル値サンプルへ効果的に適用される補間演算の設計は、このようなベクトル値サンプルの個々の特有のケースに関する一般文献を読めば他の詳細事項も記述されていることから、当業者にとって実行可能である。

本発明を理解する上で、索引付け及び補間演算がステップバックより小さい読み取り長さで繰り返し実行されると、結果的に信号６２５におけるサンプルは、信号６１５において徐々に進められ、逆方向で進められる信号サンプルの代表物となると気づくことは効果的である。よって、ステップバック及び／又は読み取り長さが、ステップバックより読み取り長さの方が長くなるように変更されると、このプロセスは逆転し、これで信号６２５におけるサンプルは、信号６１５において徐々に進められかつ時間方向で進められる信号サンプルの代表物となる。ステップバックのシーケンス及び読み取り長さのシーケンスの効果的な選択により、豊富で自然な変形を有する長い隠蔽信号を、フレームバッファ６００内の最後に受信された信号フレームからの時間的に先行するサンプルを必要とすることなく、又は、フレームバッファ６００内の最後に受信されたフレームにおける最後のサンプルより早期に位置づけられ得る、予め設定された別の時刻に先行するサンプルをも必要とすることなく取得することができる。その結果、低遅延再生又は出力バッファスケジューリングを有するシステムにおける遅延スパイクの隠蔽が本発明によって可能になる。この明細書の定式化においては、本発明の単純な実施形態における一要素として考えることが有益である可能性のある信号の単純で厳密な時間の逆方向での展開は、１つのサンプルの読み取り長さと、２つのサンプルのステップバックと、値０を有する単一サンプルで構成されるウィンドウ７２０と、値１．０を有する単一サンプルで構成されるウィンドウ７１０との繰り返し使用によって実現される。

インデックスパターン発生器６６０の主たる目的は、索引付け及び補間演算６２０のアクションを制御することにある。一連の好ましい実施形態では、この制御は、ステップバックのシーケンス及び読み取り長さのシーケンスから成ってもよい索引付けパターン６６６に形式化される。この制御は、マッチング品質表示のシーケンスでさらに拡大されてもよく、マッチング品質表示のそれぞれは、例えば周波数の関数であってもよい。インデックスパターン発生器から出力されてもよく、かつその使用は本明細書において後に明らかとなる追加の機能は、繰り返し数６６８である。繰り返し数は、少なくとも１つの隠蔽フレームの組立てにおいて時間の逆方向での展開が開始される回数を意味する。インデックスパターン発生器はこれらのシーケンスを、平滑化及び等化演算６１０から出力される平滑化及び等化信号６５６、ピッチ推定５９６、発声推定５９７、発生すべき隠蔽フレームの数５９８及び置換されるフレームを指すポインタ５９９を含んでもよい情報に基づいて取得する。インデックスパターン発生器の一実施形態では、上記発生器は、発声インジケータに依存して異なるモードに入る。以下、このようなモードを例示する。

線形予測動作ドメインに効果的に使用される一例として、発声インジケータが、信号は無声音声であること、又は信号内にアクティブな音声は存在しない、すなわち信号は背景雑音から成ることをロバストに指示すれば、インデックスパターン発生器は、信号サンプルの時間的展開の単純な逆転が開始されるモードに入ることができる。上述したように、これは、例えば、ステップバック値が２であるシーケンス及び読み取り長さ値が１であるシーケンスを提出することによって達成されてもよい（この説明は、索引付け及び補間演算はそれ自体がこれらの値を同定しかつ上述したように適切なウィンドウ関数を適用する、という設計選択肢に基づく）。ケースによっては、このシーケンスは、少なくとも１つの隠蔽フレームに必要な新しいサンプルの数の半分に関して信号の逆の時間的展開が実装されるまで続いてもよく、その後、ステップバックシーケンス内の値は０に変わってもよく、これにより、信号の前方への時間的展開が開始され、ポインタ７０６が第１のステップバックアプリケーションにおいて効果的にポインタ７０５の出発点に戻るまで続く。しかしながら、この単純な手順は、高品質の隠蔽フレームにとって必ずしも十分ではない。インデックスパターン発生器の重要な役割は、適切な停止基準の監視である。上述の例では、逆の時間的展開がポインタ７０６を、人間の聴取者が解釈するところの音声が始点とは著しく異なる信号内の位置へ戻してもよい。時間的展開は、これが発生する前に逆転されるべきである。

本発明の好ましい実施形態は、一連の測度に基づく停止基準セットに適用することができる。以下、これらの測度及び停止基準の幾つかを例示する。ポインタ７０６における信号が有声化されていることを、発声が示していれば、無声を始点とする上述の例では、時間的展開方向は効果的には逆転されてもよく、同様に、ポインタ７０６の周囲の領域における信号エネルギーが（絶対又は相対しきい値による決定に準じて）ポインタ７０５の出発点における信号エネルギーとは異なっていれば、時間的展開方向は効果的には逆転されてもよい。第３の例として、ポインタ７０５の出発点の周囲の領域とポインタ７０６の現在位置とのスペクトルの差はしきい値を超えてもよく、時間的展開方向は逆転されるべきである。

第２のモード例は、信号が無声である、又はアクティブな音声を含まない、とロバストに決定され得ない場合に喚起される可能性がある。このモードでは、ピッチ推定５９６はインデックスパターンを決定するための根拠となる。これを実行する１つの手順は、ポインタ７０５から時間的に１ピッチサイクル先の信号と、ステップバック上ポインタ７０５より早期であるポイントから１ピッチサイクル先の信号との間に最大限に正規化された相関性を与えるために、各ステップバックが探索されるというものである。ステップバック値の探索は、効果的には、ある領域に制限されてもよい。この領域は、効果的には、先行して発見されたステップバックのプラスマイナス１０パーセントに、又はそのようなステップバックが発見されていなければピッチラグに設定されてもよい。ステップバックが決定されると、読み取り長さの値によって、時間的な信号展開が時間の逆方向で又は時間方向で展開すべきか否か、及びこの展開の実行速度が決定される。低速展開は、ステップバックの同定値に近い読み取り長さを選ぶことによって達成される。高速展開は、それぞれ後方及び前方展開の場合のステップバックより遙かに小さい、又は遙かに大きい読み取り長さを選択することによって達成される。インデックスパターン発生器の目的は、人間の聴取者によって解釈される音声品質を最適化するように読み取り長さを選択することにある。ステップバックに近すぎる読み取り長さを選択すると、十分に周期的でない信号等の信号によっては、結果的に、ストリング音等の知覚的にうっとうしいアーチファクトが発生することがある。ステップバックから離れすぎた読み取り長さの選択は、フレームバッファ内のより大きい時間間隔が、最終的には少なくとも１つの隠蔽フレームの時間的展開の間に掃引されること、又は、時間的展開の方向が、少なくとも１つの隠蔽フレームにとって十分な量のサンプルが生成されるまで、より頻繁に逆転されなければならないことを含意する。

第１のケースは、十分に定常的でない（又は、十分に平滑かつ等化されていない）信号等の信号によっては、最終的に、ある程度少なくとも１つの隠蔽フレームの音声における吃音との類似性を有する、ある種の知覚的にうっとうしいアーチファクトを発生させることがある。第２のケースでは、ストリング音のようなアーチファクトが発生することがある。本発明の効果的な実施形態による１つの特徴は、読み取り長さがステップバックと正規化された相関性との関数として決定され得ることにある。ここで、上記関数は、最適なステップバックの探索において最適化される。この関数が音声信号に作用しかつ信号フレームが１６ｋＨｚでサンプリングされた２０ミリ秒の線形予測動作信号を含むとき、本発明の実施形態におけるこの関数の１つの単純な但し効果的な選択肢は、一例として、次の関数によって与えられる。

［数１］
ＲｅａｄＬｅｎｇｔｈ＝［（０．２＋ＮｏｒｍａｌｉｚｅｄＣｏｒｒｅｌａｔｉｏｎ／３）＊ＳｔｅｐＢａｃｋ］

ここで、角括弧［］は最も近い整数への丸めを指して使用され、記号ＲｅａｄＬｅｎｇｔｈ、ＮｏｒｍａｌｉｚｅｄＣｏｒｒｅｌａｔｅｉｏｎ及びＳｔｅｐＢａｃｋはそれぞれ、最適なステップバックのために取得される読み取り長さ及び正規化された相関性、及び対応するステップバックを表して使用される。上述の関数は、本発明の幾つかの実施形態における１つの効果的な選択肢を伝えるための単なる例として包含されている。読み取り長さの選択肢としては、この読み取り長さを達成する任意の関数関係を含み、何れも本発明の精神を逸脱することなく可能である。具体的には、読み取り長さを選択する効果的な方法は、中間の隠蔽フレーム６２５において吃音及びストリング音のようなアーチファクトが同時に最小値に到達するように、制御６６５を使用して平滑化及び等化演算６１０をパラメータ化することを含む。これは、インデックスパターン発生器６６０が入力として平滑化及び等化演算から出力６１５ではなく中間信号６５６を採用する理由を説明するものであり、信号６５６は制御６６５に制御された最終的信号６１５の潜在的なバージョンを表現し、インデックスパターン発生器がイタレーションにより最適化タスクへ取り組むことを可能にする。先の無声及び非アクティブな音声モードの場合と同様に、このモードでも停止基準は不可欠である。先のモードにおいて提案した停止基準の例は全て、このモードにも当てはまる。さらに、このモードでは、ピッチ及び正規化された相関性に関する測定からの停止基準は、効果的には本発明の実施形態の一部であってもよい。

図７は、停止基準を組み合わせるための効果的な決定論理を例示するものである。図７における引用符号は、下記を示す。

８００：信号が高相関タイプであるか、低相関タイプであるか、どちらでもないかを識別する。初期エネルギーレベルを決定する。
８０１：次のステップバック及び正規化された相関性、及び読み取り長さを決定する。
８０２：信号が低相関タイプに入ったか否かを決定する。
８０３：信号が高相関タイプに入ったか否かを決定する。
８０４：信号は高相関タイプであるか？
８０５：信号は低相関タイプであるか？
８０６：エネルギーは相対最小しきい値より少ないか、又は相対最大しきい値を超えているか？
８０７：正規化された相関性は高相関タイプのしきい値を下回っているか？
８０８：正規化された相関性は低相関タイプのしきい値を上回っているか？
８０９：十分なサンプルが生成されたか？

１６ｋＨｚでサンプリングされた音声の線形予測動作ドメインにおける演算の場合、図７に挙げられているしきい値は、効果的には次のように選ばれてもよい。すなわち、高相関タイプは０．８より大きい正規化された相関性が発生したときに入力されてもよく、高相関タイプに留まるためのしきい値は正規化された相関性で０．５に設定されてもよく、低相関タイプは０．５より小さい正規化された相関性が発声したときに入力されてもよく、低相関タイプに留まるためのしきい値は正規化された相関性で０．８に設定されてもよく、最小相対エネルギーは０．３に設定されてもよく、かつ最大相対エネルギーは３．０に設定されてもよい。さらに、本発明のコンテキストにおいて、本発明の精神及び範囲を逸脱することなく他の論理及び他の停止基準が使用されてもよい。

停止基準の適用は、十分なサンプルが生成されるまで、又は停止基準が満たされるまで時間の逆方向でかつ次に再び時間方向で行う単一の展開では、隠蔽フレームに必要な数のサンプルをもたらすことが保証されないことを意味する。従って、時間の逆方向でかつ時間方向での別の展開がインデックスパターン発生器によって適用されてもよい。しかしながら、前後する展開が多すぎれば、信号によっては、ストリング音のようなアーチファクトが生成されることがある。従って、本発明の好ましい実施形態は、停止基準、読み取り長さの計算に適用される関数、平滑化及び等化制御６６５及び前後への展開数、すなわち繰り返し数６６８、及び置換フレームを指すポインタ５９９によりイネーブルされていればさらに、時間の逆方向での新たな各展開が開始される前に時間方向で行う展開するサンプルの数を同時に最適化することができる。この目的に沿って、平滑化及び等化演算もまた、効果的には、信号のピッチ輪郭を僅かに修正するように制御されてもよい。さらに、この同時の最適化は位相フィルタ６５０の演算を考慮することができ、かつ位相フィルタに導入される歪みを上述の他のパラメータと同時に最小化するインデックスパターンをもたらすようにピッチ輪郭を僅かに変更することができる。本発明の好ましい実施形態の説明に基づけば、当業者は、一般的な様々な最適化ツールがこのタスクに適用されることを理解することができる。これらのツールには、繰り返し最適化、マルコフ決定過程、ビタビ法等が含まれる。これらの何れも、本発明の範囲を逸脱することなくこのタスクへ適用可能である。

図８は、これらのパラメータの単純でしかも効率的な最適化を達成する繰り返し手順の一例をフローグラフによって示したものである。図８における引用符号は、下記を示す。

８２０：平滑化及び等化６６５の制御を開始する。
８２１：新たな平滑化信号６５６を取得する。
８２２：停止基準を起動する。
８２３：許可された繰り返し数を起動する。
８２４：ポインタ５９９により指示された利用可能なフレーム上に均等に分布される前後展開のシーケンスのインデックスパターン、又は利用可能なフレームの終わりが指示されていれば、前方への展開直後に続く時間の逆方向での展開のシーケンスのインデックスパターンを識別する。
８２５：隠蔽フレームの数５９８に対して十分な量のサンプルが生成されているか？
８２６：最大繰り返し数に到達しているか？
８２７：繰り返し許可数を増やす。
８２８：停止基準の最も緩いしきい値に到達しているか？
８２９：停止基準のしきい値を緩める。
８３０：平滑化及び等化の影響を増大させるように制御を変更する。

少なくとも１つの先行する時間的前後展開において十分な信号が合成されていなかった場合、１つの時間的前後展開及びこれに続く１つの時間的前後展開は、効果的には相違してもよいことに留意されたい。例として、ステップバック、読み取り長さ及び補間関数のシーケンス及び時間的前後展開後のエンドロケーションポインタは、そうでなければ類似のインデックスパターンの反復から生じる周期アーチファクトを最小化するように考案されるべきである。１６ｋＨｚで発声される音声の残留域サンプルを例にとると、例えば約３２０個のサンプルを生成する１つの時間的前後展開は、好ましくは、信号内で早期の時間的前後展開よりさらに約１００個分のサンプルを遡って終了してもよい。

ここまでに開示した実施形態は、先行技術方法から知られる人工的に発生されるストリング音の問題点を効率的に軽減すると同時に、急激な遅延ジッタスパイク及び急激に発生する反復性のパケット損失の効率的な隠蔽を可能にする。しかしながら、例えば何らかの無線システム、無線アドホックネットワーク、ベストエフォート型ネットワーク及び他の送信方法において遭遇するような不利なネットワーク条件においては、開示している本方法であっても、ケースによっては、隠蔽フレーム内に調音性の僅かな成分を導入することがある。従って、本発明の幾つかの実施形態では、微量雑音の混合演算６３０及びグレースフル減衰フィルタ６４０が効果的に適用されてもよい。雑音の混合及び減衰の一般的技術は、当業者には周知である。これには、雑音成分のパワーの周波数依存時間展開及び減衰関数の周波数依存時間展開の効果的な使用が含まれる。本発明のコンテキストにおける雑音の混合及び減衰の使用に特有の特徴は、雑音の混合及び減衰演算を適応的にパラメータ化するための索引付けパターン６６６、マッチング品質測度６６７及び／又は繰り返し数６６８の明示的使用にある。具体的には、インデックスパターンは隠蔽フレームにおいて不変の信号サンプルが置かれる場所、及び隠蔽フレームのサンプルが補間演算の結果である場所を指し示す。さらに、読み取り長さに対するステップバックの割合は、マッチング品質測度との組み合わせで、補間演算の結果として生じる知覚品質を示す。従って、効果的には、オリジナルサンプルに混合され得る雑音はほとんどないか、全くない。それ以上の雑音は、効果的には、補間プロセスの結果であるサンプルに混合されてもよく、効果的には、これらのサンプルに混合される雑音量は、効果的には周波数差別的なマッチング品質測度の関数であってもよい。さらに、ステップバックに対する読み取り長さの値は、発生し得る周期量も示し、雑音混合は、効果的には、隠蔽信号に混合する雑音量の決定に際してこの測度を包含してもよい。この同じ原理は減衰にも当てはまり、効果的にはグレースフルな減衰が使用されるが、オリジナルの信号を表現するサンプルにはより少ない減衰が導入されてもよく、補間演算の結果として生じるサンプルにはそれ以上の減衰が導入されてもよい。さらに、効果的には、これらのサンプルにおける減衰量は、効果的には周波数差別的なマッチング品質表示の関数であってもよい。この場合もやはり、ステップバックに対する読み取り長さの値は発生し得る周期量を示し、減衰演算は、効果的には減衰の設計においてこの測度を含んでもよい。

発明の背景の説明で挙げたように、本発明の実施形態サブセットの重要な目的は、通常の信号フレームの長さに等しい予め設定された長さの隠蔽フレームを達成することにある。システム上の観点からこれが望まれる場合、このための手段は、効果的には位相フィルタ６５０であってもよい。このブロックの計算上単純で近似的な、但し多くの場合十分である演算は、予め設定されたフレーム長を超えるサンプル間の滑らかなオーバーラップ加算と、隠蔽フレームに続くフレームからのサンプルの追尾する部分集合を有する隠蔽フレームの数との乗算を達成することである。単独で見ると、この方法は最新技術から周知であり、例えば、非特許文献１において使用されている。システムの観点から実際的には、この単純なオーバーラップ加算手順は、それがオーバーラップ加算領域における相関性を増大する場合はいつでも後続するフレーム数と−１との乗算によって向上されてもよい。しかしながら、例えば有声化信号フレーム間の遷移においては、効果的には、フレーム境界における不連続性の影響をさらに緩和するために他の方法が使用されてもよい。このような方法の１つに、隠蔽フレームのリサンプリングがある。独立した方法として見ると、これもやはり最新技術から周知である。例えば、非特許文献４を参照されたい。従って、当業者であれば、フレーム境界における不連続性の緩和を実行することができる。しかしながら、本明細書に開示している発明の好ましい実施形態では、効果的には、リサンプリングを最後の隠蔽フレームに続くフレームへと継続することができる。これにより、リサンプリング技術の結果である時間的変化、ひいては周波数シフトの勾配を、人間の聴取者が解釈する際には知覚できないものにすることができる。さらに本発明は、リサンプリングではなく、時変性の全域通過フィルタ（ｔｉｍｅ−ｖａｒｙｉｎｇａｌｌ−ｐａｓｓｆｉｌｔｅｒ）を使用してフレーム境界における不連続性を緩和することを開示する。その一実施形態は、下記のフィルタ方程式によって与えられる。

［数２］
Ｈ＿Ｌ（ｚ，ｔ）＝（ａｌｐｈａ＿１（ｔ）＋ａｌｐｈａ＿２（ｔ）＊ｚ＾（−Ｌ））／（ａｌｐｈａ＿２（ｔ）＋ａｌｐｈａ＿１（ｔ）＊ｚ＾（−Ｌ））

以下、その関数について説明する。Ｌ個のサンプルの遅延から０個のサンプルの遅延までの掃引が、隠蔽フレームより前のフレーム及び隠蔽フレームの後のフレームにおいて、隠蔽フレームの全て又は一部におけるサンプルの全て又は一部を含んでもよい掃引間隔に渡って希望されるものとすると、掃引間隔の始まりでは、Ｌ個のサンプルの遅延を提供するようにａｌｐｈａ＿１（ｔ）はゼロに設定され、ａｌｐｈａ＿２（ｔ）は１．０に設定される。ｔ上の掃引が開始されるに伴って、ａｌｐｈａ＿１（ｔ）は漸次０．５へと増大し、ａｌｐｈａ＿２（ｔ）は漸次０．５へと低下していく。掃引間隔の終わりでａｌｐｈａ＿１（ｔ）がａｌｐｈａ＿２（ｔ）に等しくなると、フィルタＨ＿Ｌ（ｚ，ｔ）は遅延ゼロを導入する。逆に、０個のサンプルの遅延からＬ個のサンプルの遅延までの掃引が、隠蔽フレームより前のフレーム及び隠蔽フレームの後のフレームにおいて、隠蔽フレームの全て又は一部におけるサンプルの全て又は一部を含んでもよい掃引間隔に渡って希望されれば、掃引間隔の始まりでは、０個のサンプルの遅延を提供するようにａｌｐｈａ＿１（ｔ）は０．５に設定され、ａｌｐｈａ＿２（ｔ）は０．５に設定される。ｔ上の掃引が開始されるに伴って、ａｌｐｈａ＿１（ｔ）は漸次０へと低下し、ａｌｐｈａ＿２（ｔ）は漸次１．０へと増大していく。掃引間隔の終わりでａｌｐｈａ＿１（ｔ）が０に、ａｌｐｈａ＿２（ｔ）が１．０になると、フィルタＨ＿Ｌ（ｚ，ｔ）はＬ個のサンプルの遅延を導入する。

上述のフィルタリングは計算が単純であるが、非線形の位相応答を有する。知覚上の理由から、この非線形位相は、その使用を比較的小さいＬに限定する。効果的には、サンプリング速度が１６ｋＨｚの音声に関して、Ｌ＜１０である。これより大きい初期値Ｌに関してフィルタリングを達成する１つの方法は、合計して所望される値Ｌになる複数のより小さい値Ｌのために幾つかのフィルタを起動するというものである。これらの幾つかのフィルタは、効果的には、異なる瞬間に起動され、そのａｌｐｈａの領域の異なる時間間隔上を掃引することができる。次に、このフィルタの適用可能なＬの範囲を増大する他の一方法を開示する。上述の方法と同じフィルタリング機能を提供する構造体は、信号をＬ個のポリフェーズに分割し、これらのポリフェーズのそれぞれにおいて下記のフィルタリングを実行する。

［数３］
Ｈ＿１（ｚ，ｔ）＝（ａｌｐｈａ＿１（ｔ）＋ａｌｐｈａ＿２（ｔ）＊ｚ＾（−１））／（ａｌｐｈａ＿２（ｔ）＋ａｌｐｈａ＿１（ｔ）＊ｚ＾（−１））

本発明の場合、ポリフェーズフィルタリングは、効果的には、アップサンプリングを使用して提供される。これを効果的に行う一方法は、各ポリフェーズを係数Ｋでアップサンプリングし、アップサンプリングされた各ポリフェーズにおいてフィルタリングＨ＿１（ｚ，ｔ）をＫ回実行する。その後、係数Ｋによるダウンサンプリングにより、ポリフェーズから位相修正された信号が再構成される。係数Ｋは、効果的には、Ｋ＝２として選択されてもよい。アップサンプリング手順により、線形に近い位相応答が取得される。これにより、人間の聴取者により解釈される知覚品質は向上する。

複数のフレームに対する上述の位相調整は、隠蔽フレームが受信されるフレームシーケンス内に損失なしに挿入される場合に適用可能である。これはまた、後続フレームの再生遅延を低減するために信号シーケンスからフレームが取り出される場合にも適用可能である。さらにこれは、フレームが損失され、ゼロ又はそれ以上の隠蔽フレームがこの損失より前に、かつ後に受信されたフレーム間に挿入される場合にも適用することができる。これらの場合に、このフィルタの入力信号を取得して遅延Ｌを求める方法は、下記の通りである。

１）不連続ポイントより時間的に早いフレーム上で、本明細書に開示している方法又は他の任意の方法である隠蔽方法を継続又は開始する。
２）不連続より時間的に遅いフレーム上で、本明細書に開示している方法又は他の任意の方法である隠蔽方法により開始されたフレームに、Ｌ＿ｔｅｓｔ個の試験サンプルを時間サンプルの索引付けを逆転させて挿入する。
３）正規化された相関性等のマッチング測度を、１）からの少なくとも１つの隠蔽フレームと、ヘッディングであるＬ＿ｔｅｓｔ個の試験サンプルを含む２）からの少なくとも１つのフレームとの間に適用する。
４）マッチング測度を最大化するＬ＿ｔｅｓｔをＬとして選択する。
５）次に、重み付けされたオーバーラップ加算手順を使用して、２）からの少なくとも１つの隠蔽フレームと、３）からの少なくとも１つのフレームとを加算する。この重み付けされたオーバーラップ加算は、当業者に知られる方法で実行することができるが、好ましくは、本明細書で後に開示するように最適化されてもよい。
６）結果的に得られる少なくとも１つのフレームを、決定された値Ｌで開始される上述の位相フィッティングフィルタリングへの入力として使用する。Ｌがしきい値より大きい場合は、幾つかのフィルタを起動し、異なる瞬間及び時間間隔において係数を掃引する。この場合、個々のＬ値の合計が決定された値Ｌになる。

効果的には、８又は１６ｋＨｚでサンプリングされた音声又は残留音声の場合、上述のしきい値は、５から５０までの範囲の値であるように選択されてもよい。さらに効果的には、発声音声又は残留発声音声の場合、隠蔽サンプルのＬ＿ｔｅｓｔ個の試験及び後続フレームへのその継続は、フレームの第１のピッチ周期のサンプルを循環的にシフトすることによって達成される。これにより効果的には、好ましい循環シフトＬを求めるために、フルピッチ周期を相関させる正規化なしの相関測度をマッチング測度として使用することができる。

図９は、このような方法の一実施形態を示したものである。本図において、位相調整は、信号フレーム９００と後続フレームとの間に滑らかな遷移を生成する。これは、次のようにして達成される。すなわち、信号フレーム９００及びその前のフレームから、隠蔽信号９１０が生成される。この隠蔽信号は、本明細書に開示している方法を使用して生成されてもよく、最新技術から周知の他の方法を使用して生成されてもよい。隠蔽信号はウィンドウ９２０で乗算され、別のウィンドウ９３０に加算９２５される。ここで、ウィンドウ９３０は、次のようにして生成される信号９４０で乗算される。すなわち、隠蔽信号９４０は、後続サンプル９５０及びおそらくは９６０から、本明細書に開示している方法等の隠蔽方法を効果的に適用することによって、又は最新技術から周知である他の方法を使用することによって発生され、後続サンプル９５０と連結される。隠蔽９４０内のサンプル数は、隠蔽９１０と９４０及び後続サンプル９５０の連結とのマッチングを最大化するように最適化される。

効果的には、正規化された相関性は、このマッチングの測度として使用されてもよい。さらに、計算上の複雑さを減らすために、発声音声又は残留発声音声に関してマッチングは１つのピッチ周期を含むように制限されてもよい。この場合、隠蔽サンプル９４０は、１ピッチ周期の循環シフトの第１の部分として取得されてもよく、よって１ピッチ周期の相関測度を正規化する必要はなくなる。これにより、正規化係数を計算するための計算は省かれる。この好ましい実施形態の詳細な説明において先に述べた索引付け及び補間演算に関しては、効果的には、同じくウィンドウがマッチング品質インジケータの関数及び／又は周波数の関数であって、効果的には、多段遅延線として実装されてもよい。フィルタ９７０の演算は、下記の通りである。オーバーラップ加算手順の結果として生じる最初のＬ個のサンプルは、その出力へ直接送られ、フィルタの初期状態をセットアップするために使用される。その後、フィルタ係数は先に述べた通りに初期設定され、フィルタによるサンプルＬ＋１から先へのフィルタリングに伴って、これらの係数は漸次、上述したようにＬ個のサンプル分の遅延を漸次除去するように調整される。

上述の手順においてもやはり、先に述べたマッチング基準の最大化によってウィンドウ重みを最適化する方法が適用され、多段遅延線の形式又は他のパラメトリックフィルタ形式によるウィンドウ関数の周波数依存重み及び整合フィルタへの一般化も適用される。効果的な実施形態では、周波数依存フィルタ重みの時間的展開は、次の３つのオーバーラップ加算シーケンス、すなわち、第１のより早いフレームからの少なくとも１つの隠蔽フレームのフェードダウン、第２の時間的に逆のインデックス順に取得される後のフレームからの隠蔽フレームをマッチングするための、これらのフィルタされたバージョンのフィルタによるフェードアップ及びこれに続くその再度のフェードダウン、第３の時間的に後の少なくとも１つのフレームのフェードアップから成るシーケンスによって達成される。効果的な別の実施形態セットでは、周波数依存フィルタ重みの時間的展開は、次の４つのオーバーラップ加算シーケンス、すなわち、第１のより早いフレームからの少なくとも１つの隠蔽フレームのフェードダウン、第２の時間的に逆のインデックス順に取得される後のフレームからの隠蔽フレームをマッチングするための、これらのフィルタされたバージョンのフィルタによるフェードアップ及びこれに続くその再度のフェードダウン、第３のこれのマッチングをさらに向上させるための時間的に後のフィルタされたバージョンフレームのフェードアップ及びその再度のフェードダウン、及び最後に第４の時間的に後の少なくとも１つのフレームのフェードアップから成るシーケンスによって達成される。重み付けされたオーバーラップ加算法のさらに効果的な実施形態については、本明細書において後に開示する。

残留領域サンプルが音声信号を表現する情報の一部として使用される実施形態における平滑化及び等化演算６１０の場合、平滑化及び等化は、効果的には、くし形フィルタ又は周期性のノッチフィルタ等のピッチ適応型フィルタリングを使用して、この残留信号に適用されてもよい。さらに、効果的には、フィルタリングされていない残留のモデルとして雑音をプラスした長期相関フィルタを使用するウィーナ又はカルマンフィルタリングが適用されてもよい。ウィーナ又はカルマンフィルタを適用するこの方法では、モデル内の雑音の分散が平滑化及び等化の程度を調整するために適用される。この成分は、ウィーナ及びカルマンフィルタリング理論において伝統的に、望ましくない雑音成分の存在をモデリングするために適用されるものであり、これは幾分直感に反した使用である。これが本技術革新において適用される場合、その目的は、平滑化及び等化のレベルを設定することにある。本革新技術のコンテキストにおいては、ピッチ適応型くし形フィルタ又はノッチフィルタリング及びウィーナ又はカルマン型フィルタリングの代替として、効果的には、残留信号の平滑化及び等化に第３の方法が適用される。この第３の方法により、効果的には、例えば無声音声に適用されるようなサンプル振幅又は効果的には、例えば発声音声に適用されるようなサンプルの連続するベクトルの何れかがますます類似したものにされる。以下、これを達成することのできる手順について、発声音声のベクトル及び無声音声のサンプルのそれぞれに関連して概説する。

発声音声に関しては、音声又は残留の連続するサンプルが複数のベクトルにして収集され、ここで、各ベクトルは１ピッチ周期に等しくかつ幾つかのサンプルを有する。説明の便宜上、ここではこのベクトルをｖ（ｋ）で表す。次に、本方法は、残差ベクトルｒ（ｋ）を何らかの手段によって周囲ベクトルｖ（ｋ−Ｌ１），ｖ（ｋ−Ｌ１＋１），…，ｖ（ｋ−１）及びｖ（ｋ＋１），ｖ（ｋ＋２），…，ｖ（ｋ＋Ｌ２）において発見され得なかったｖ（ｋ）の成分として取得する。説明の便宜上、周囲ベクトルにおいて発見される成分をａ（ｋ）で表す。残差ベクトルｒ（ｋ）は、続いて何らかの線形的又は非線形的方法でその可聴性を低減するように操作され、同時に、この操作されたバージョンのｒ（ｋ）に成分ａ（ｋ）を挿入し直すことによって達成される最終的に再構成されたベクトルの自然さが保たれる。

これにより、平滑化されかつ等化された形の発声音声又は発声残留音声がもたらされる。以下、便宜的に行列−ベクトル表記を使用し、かつ例を単純にするためにａ（ｋ）を定義する線形結合及び最小二乗の概念を使用して、上述の原理の単純な一実施形態を示す。但しこれは、上述の平滑化及び等化の一般原理の単純かつ単一の実施形態の単なる一例である。

本例の目的に沿って、行列Ｍ（ｋ）を次のように定義する。

［数４］
Ｍ（ｋ）＝［ｖ（ｋ−Ｌ１）ｖ（ｋ−Ｌ１＋１）…ｖ（ｋ−１）ｖ（ｋ＋１）ｖ（ｋ＋２）…ｖ（ｋ＋Ｌ２）］

上述の式から、ａ（ｋ）を、例えばＭ（ｋ）が与えられたときのｖ（ｋ）の最小二乗推定として計算することができる。

［数５］
ａ（ｋ）＝Ｍ（ｋ）ｉｎｖ（ｔｒａｎｓ（Ｍ（ｋ））Ｍ（ｋ））ｖ（ｋ）

但し、ｉｎｖ（）は行列反転又は擬似反転を表し、ｔｒａｎｓ（）は行列の転置を表す。よって、残差ｒ（ｋ）は、例えば以下の減算によって計算することができる。

［数６］
ｒ（ｋ）＝ｖ（ｋ）−ａ（ｋ）

ｒ（ｋ）の操作の一例は、例えば、サンプルの最大絶対値を、前後の隠蔽手順の始点に最も近いｒ（ｋ）の最大振幅に等しいレベルに、又はベクトル内の同じ位置にあるが、ベクトル内で前後の隠蔽手順の始点に最も近いサンプルの振幅に何らかの係数を乗じたものに制限するために、このベクトルのピークをクリッピングして除くというものである。操作された残差ｒｍ（ｋ）は、続いてａ（ｋ）ベクトルと結合され、ｖ（ｋ）が等化された形で再構成される。ここではこれを、便宜的にｖｅ（ｋ）で表す。一例として、この結合は、以下の単純な加算によって達成することができる。

［数７］
ｖｅ（ｋ）＝ａｌｐｈａ＊ｒｍ（ｋ）＋ａ（ｋ）

本例におけるパラメータａｌｐｈａは１．０に設定されてもよく、効果的には、１．０未満となるように選択されてもよいが、その効果的な選択肢の１つは０．８である。

無声音声の場合、効果的には、別の平滑化及び等化方法が使用されてもよい。無声音声の平滑化及び等化の一例は、対数領域における残留信号の振幅との多項式フィッティングを計算する。一例として、二次多項式及びｌｏｇ１０領域が使用されてもよい。多項式フィッティングを対数領域から線形領域へ変換して戻した後、フィッティング曲線は、前後手順の始点に対応するポイントで１．０へ正規化される。続いて、フィッティング曲線は下方を、例えば０．５に制限され、その後、残留信号の振幅は、無声残留信号の振幅の変形を滑らかに等化するようにフィッティング曲線で分割されてもよい。

重み付けされたオーバーラップ加算手順に関しては、先に本明細書においてその幾つかの、但し全てではないアプリケーション、すなわち索引付け及び補間演算６２０及び位相調整フィルタリング９７０の入力信号の起動方法を開示している。これらの手順は、当業者に周知の方法で実行されてもよい。しかしながら、重み付けされたオーバーラップ加算手順の好ましい実施形態においては、効果的には、以下で開示する方法が使用されてもよい。

マッチング品質インジケータに応答して修正される重み付けされたオーバーラップ加算手順の単純な実施形態においては、第１のウィンドウが第１のサブシーケンスで乗算され、第２のウィンドウが第２のサブシーケンスで乗算され、これらの２つの積がオーバーラップ加算演算へ入力されるものと考える。ここで、例として、第１のウィンドウを単調減少関数等の先細りのウィンドウとし、第２のウィンドウを単調増加関数等の先広がりのウィンドウとする。第２に、例を単純にするために、第２のウィンドウを基本的なウィンドウ形状とスカラ乗数との積によってパラメータ化させる。ここで、ｔａｒｇｅｔを上記第１のサブシーケンスと定義し、ｗ＿ｔａｒｇｅｔを上記先細りのウィンドウで乗算されたサンプル毎の第１のサブシーケンスと定義し、ｗ＿ｒｅｇｒｅｓｓｏｒを先広がりのウィンドウの基本的なウィンドウ形状で乗算されたサンプル毎の第２のサブシーケンスと定義し、ｃｏｅｆを上記スカラ乗数と定義する。これで、第２のウィンドウのスカラ乗数成分を、ターゲットとオーバーラップ加算演算の結果との間の二乗誤差の総和を最小化するようにして最適化することができる。便宜上、行列−ベクトル表記を使用すると、上記問題は、ターゲットと以下の式で示す量との二乗差合計の最小化として定式化することができる。

［数８］
ｗ＿ｔａｒｇｅｔ＋ｗ＿ｒｅｇｒｅｓｓｏｒ＊ｃｏｅｆ

これから、ベクトルＴ及びＨを、以下のように定義する。

［数９］
Ｔ＝ｔａｒｇｅｔ−ｗ＿ｔａｒｇｅｔ

［数１０］
Ｈ＝ｗ＿ｒｅｇｒｅｓｓｏｒ

この最適化問題に対する解は、以下の式で与えられる。

［数１１］
ｃｏｅｆ＝ｉｎｖ（ｔｒａｎｓ（Ｈ）＊Ｈ）＊ｔｒａｎｓ（Ｈ）＊Ｔ

ここで、ｉｎｖ（）はスカラ又は行列反転を表し、ｔｒａｎｓ（）は行列又はベクトルの転置を表し、＊は行列乗算又はベクトル乗算である。次に、本明細書に開示している発明における中心要素として、この方法は、ウィンドウの実際の形状を最適化するように拡張されてもよい。これを達成する１つの方法は、下記の通りである。形状の集合を、希望されるウィンドウをその形状の集合に含まれる要素の線形結合として得るための集合と定義する。ここで、Ｈを、Ｈの各列が上記第２のサブシーケンスによりサンプル毎に乗算されたこの集合からの１つの形状であるように定義し、ｃｏｅｆを、最適化されたウィンドウ関数におけるこれらの形状の未知の重みを含む列ベクトルとして定義する。これらの定義を使用して、問題及びその解を定式化した上述の方程式を、今度はより一般的なウィンドウ形状の解法のために適用する。当然ながら、第１及び第２のウィンドウの役割は上記課題において互換されてもよく、よって、ここでは最適化実行の対象は第１のウィンドウになる。

本発明のより高度な実施形態は、これらの双方のウィンドウ形状を同時に最適化する。これは、おそらくはウィンドウ形状の第１の集合と同等物でありかつ効果的には、ウィンドウ形状の第１の集合におけるウィンドウ形状のそれぞれにおけるサンプルの時間反転索引付けとして選択される、基本的なウィンドウ形状の第２の集合を定義することによって行われる。ここで、ｗ＿ｔａｒｇｅｔを各列が上記第１のサブシーケンスによりサンプル毎に乗算された上記ウィンドウ形状の第２の集合からの基本的なウィンドウ形状である行列と定義し、ｃｏｅｆを、第１に、上記第１のウィンドウのための重みを含みかつ第２に、上記第２のウィンドウのための重みを含む列ベクトルとして定義する。これで、より一般的な問題は、ターゲットと以下の式で示す量との二乗差合計の最小化として定式化することができる。

［数１２］
［ｗ＿ｔａｒｇｅｔｗ＿ｒｅｇｒｅｓｓｏｒ］＊ｃｏｅｆ

ここで、角括弧［］は部分行列又はベクトルから行列を形成するために使用される。次に、これから、ベクトルＴ及びＨを以下のように定義する。

［数１３］
Ｔ＝ｔａｒｇｅｔ

［数１４］
Ｈ＝［ｗ＿ｔａｒｇｅｔｗ＿ｒｅｇｒｅｓｓｏｒ］

この最適化に対する解は以下の式で与えられる。

［数１５］
ｃｏｅｆ＝ｉｎｖ（ｔｒａｎｓ（Ｈ）＊Ｈ）＊ｔｒａｎｓ（Ｈ）＊Ｔ

さらに、本発明のさらに高度な実施形態は、瞬時のウィンドウ形状だけでなく、最適化された周波数依存重みを有するウィンドウも最適化する。本発明の一実施形態は多段遅延線の形式を適用するが、本発明全般は、如何なる場合もこの形式に限定されない。この一般化を達成する１つの方法は、上述のｗ＿ｔａｒｇｅｔ及びｗ＿ｒｅｇｒｅｓｓｏｒの定義において、各列をそれぞれがサンプル毎に基本的なウィンドウ形状による乗算を行う幾つかの列で置換するというものであり、上記基本的なウィンドウ形状は、これらの幾つかの列が置換する列、但しこの基本的なウィンドウ形状がその時間的な位置でサンプル毎に多段遅延線における特定位置に対応する関連の遅延されたサブシーケンスで乗算される場所である列に対応している。

効果的には、これらの方法における係数の最適化は、本明細書に開示している発明を逸脱することなく、係数の重み、制約又は逐次計算を考慮する。このような重みには、効果的には、低い絶対遅延値に対応する係数へより大きい重みを付ける傾向のある重みが含まれる。このような逐次計算は、効果的には、低い絶対遅延値の係数を、まずはこれらの係数のみを使用して二乗誤差の合計を最小化し、続いてこのプロセスを、増加する遅延値に関して、但しこのプロセスの早期のステップから残る誤差のみに関して反復するように計算してもよい。

一般に、本発明の実施形態は、幾つかのサブシーケンスを最適化の目標として採用する。一般的に言えば、最適化は、これらの目標のサブシーケンス及び重み付けされたオーバーラップ加算系からの出力の関数である歪み関数を最小化する。この最適化は、本発明を逸脱することなく、基本形状の選択及び遅延及びオーバーラップ加算全体における重みに様々な制約を付してもよい。形状の的確な選択に依存して、オーバーラップ加算の影響は、効果的には、時間的にオーバーラップ加算領域に続くサブシーケンスから漸次フェードアウトされる。

図１０は、開示しているオーバーラップ加算方法の一実施形態を示す。本発明は、本図における正確な構造に限定されず、よって本図は単に本発明の一実施形態を例示するためのものである。図１０において、１つのサブシーケンス１０００は、別のサブシーケンス１０１０と共に時間及び周波数形状を最適化されたオーバーラップ加算で入力される。これらのサブシーケンスはそれぞれ、別の遅延線に入力される。本図において、ｚは１サンプル分の時間先行を示し、ｚ−１は１サンプル分の時間遅延を示す。選択されている１、−１及び０という遅延は純粋に例示を目的とするものであり、本発明に関しては、多かれ少なかれ、他の遅延を効果的に使用することができる。遅延されたバージョンの各サブシーケンスは、次に、幾つかの基本的なウィンドウ形状によって乗算され、これらの結果はそれぞれ、最適化の過程で他の係数と同時に発見されるべき係数によって乗算される。これらの係数による乗算の後、結果として得られたサブシーケンスは加算され、時間及び周波数形状を最適化されたオーバーラップ加算から出力１０２０がもたらされる。係数の最適化１０３０は、図１０における例ではサブシーケンス１０４０及び１０５０を入力として取り込み、１０４０及び１０５０及び出力１０２０の関数である歪み関数を最小化する。

請求の範囲において図面を示す引用符号は、単に明確さを目的として記述されたものである。諸図における例示的な実施形態を指すこれらの引用符号は、如何なる場合も請求の範囲を限定するものとして解釈されるべきではない。

損失、遅延、遅延ジッタ及び／又はクロックスキューの影響を受ける既知のエンドツーエンドのパケット交換式音声送信システムを示すブロック図である。制御ユニットによる制御下でジッタバッファリング、復号及び隠蔽及び再生出力バッファリングを達成する例示的な受信機サブシステムを示す。クロックスキュー、損失、遅延及び遅延ジッタの影響を受けるパケット交換チャンネルのリレーサブシステムを示すブロック図である。制御ユニットによる制御下で入力バッファリング、出力バッファリング及び必要に応じてトランスコーディング及び隠蔽を達成する例示的なリレーサブシステムを示す。本発明の一連の好ましい実施形態を示すブロック図である。隠蔽フレームにおけるサブシーケンスを描いたスケッチであり、上記フレームの始点は、時間の逆方向の順序で最後にバッファされたサブシーケンスに基づくサブシーケンスである。隠蔽フレームにおけるサブシーケンスのより大きいシーケンスによる別の例を示し、上記フレームの始点は、時間の逆方向の順序による最後の２つのバッファされたサブシーケンスであり、連続するサブシーケンスは時間の逆方向でさらにバッファされたサブシーケンスに基づく。ステップバック及び読み取り長さによってフォーマットされたインデックスパターンにおけるサンプル計数インデックスを示す。索引付け及び補間関数に関係する信号を描いたスケッチである。停止基準の決定論理を実行できる一方法を示すフローチャートである。平滑化及び等化、停止基準及び許容される繰り返し数の反復的な同時最適化を達成できる一方法を示すフローチャートである。位相調整フィルタの初期化及び供給に関連する循環シフト及びオーバーラップ加算の使用を示す。開示されている重み付けされたオーバーラップ加算手順の一実施形態を示す。

Claims

信号内のサンプルの第１のフレームとサンプルの後続の第２のフレームとを連結するための方法であって、
上記第２のフレームから逆の時間順序で生成されかつ前記サンプルの第２のフレームに連結される隠蔽サンプルに基づいて、全域通過フィルタを初期化するステップと、
サンプルの上記第１及び第２のフレーム間の境界における不連続性を最小化するように、少なくとも２つの連続するフレーム内のサンプルの少なくとも一部に上記全域通過フィルタを適用するステップと
を含む方法。
上記少なくとも２つの連続するフレームは上記連続する上記第１及び第２のフレームである請求項１記載の方法。
上記全域通過フィルタは、少なくとも上記第２のフレーム内のサンプルの少なくとも一部、及び上記第２のフレームに連続する少なくとも１つのフレーム内のサンプルの少なくとも一部へ適用される請求項１又は２記載の方法。
上記全域通過フィルタは、少なくとも上記第２のフレーム内のサンプルの少なくとも一部、及び上記第２のフレームに連続する少なくとも２つのフレーム内のサンプルの少なくとも一部へ適用される請求項２記載の方法。
上記全域通過フィルタは、少なくとも上記第１のフレーム内のサンプルの少なくとも一部、及び上記第１のフレームに先行する少なくとも１つのフレーム内のサンプルの少なくとも一部へ適用される請求項１乃至４のうちのいずれか１つの請求項に記載の方法。
上記全域通過フィルタは、少なくとも上記第１のフレーム内のサンプルの少なくとも一部、及び上記第１のフレームに先行する少なくとも２つのフレーム内のサンプルの少なくとも一部へ適用される請求項５記載の方法。
上記全域通過フィルタは、少なくとも１つのサンプルのサブシーケンスの位相を位相値ｐｉラジアンだけ修正することを含む請求項１乃至６のうちのいずれか１つの請求項に記載の方法。
上記全域通過フィルタはパラメトリックであり、１から２０までの間の複数の非ゼロ係数を含む請求項１乃至７のうちのいずれか１つの請求項に記載の方法。
上記全域通過フィルタは時変性である請求項１乃至８のうちのいずれか１つの請求項記載の方法。
上記全域通過フィルタは、上記全域通過フィルタの応答が上記第１及び第２のフレーム間の境界から有限数のサンプルだけ離れて近似的にゼロ位相であるように時変性である請求項９記載の方法。
上記全域通過フィルタは、最初に選択される位相応答を開始時に有する請求項１０記載の方法。
上記境界から離れている上記サンプルの数は、上記全域通過フィルタの最初に選択される位相応答に依存する請求項１１記載の方法。
上記全域通過フィルタの応答が近似的にゼロ位相である時間的な位置は、上記第１及び第２のフレームの少なくとも一方の中にある請求項１０乃至１２のうちのいずれか１つの請求項に記載の方法。
上記全域通過フィルタの応答が近似的にゼロ位相である時間的な位置は、上記第１のフレームより少なくとも１フレームは先行しているフレームの中にある請求項１０乃至１２のうちのいずれか１つの請求項に記載の方法。
上記全域通過フィルタの応答が近似的にゼロ位相である時間的な位置は、上記第２のフレームより少なくとも１フレームは後のフレームの中にある請求項１０乃至１２のうちのいずれか１つの請求項に記載の方法。
上記境界から離れている上記サンプルの数は、上記第２のフレームにおける、又は上記第２のフレームに続くフレームにおけるサンプルのサブシーケンスの特性に依存する請求項１０乃至１５のうちのいずれか１つの請求項に記載の方法。
上記境界から離れている上記サンプルの数は、上記第１のフレームにおける、又は上記第１のフレームに先行するフレームにおけるサンプルのサブシーケンスの特性に依存する請求項１０乃至１５のうちのいずれか１つの請求項に記載の方法。
上記全域通過フィルタはポリフェーズ構造を含む請求項１乃至１７のうちのいずれか１つの請求項に記載の方法。
アップサンプリングを行うことをさらに含む請求項１乃至１８のうちのいずれか１つの請求項に記載の方法。
上記隠蔽サンプルの少なくとも１つに含まれる幾つかのサンプルは、マッチング測度を最大化するように選択される請求項１乃至１９のうちのいずれか１つの請求項に記載の方法。
上記マッチング測度は正規化された相関性等の相関性を含む請求項２０記載の方法。
上記第１及び第２のフレームにおけるサンプルは、ディジタル化されたオーディオ信号を表す請求項１乃至２１のうちのいずれか１つの請求項に記載の方法。
請求項１乃至２２のうちのいずれか１つの請求項に記載の方法を、コンピュータに実行させるためのプログラム。
請求項１乃至２２のうちのいずれか１つの請求項に記載の方法を、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
ディジタル化されたオーディオ信号を受信するための装置であって、
受信されるディジタル化されたオーディオ信号を表すフレームを記憶するためのメモ
リ手段と、
請求項１乃至２２のうちのいずれか１つの請求項に記載の方法を実行するためのプロセッサ手段と
を含む装置。