JP6177239B2

JP6177239B2 - 変換符号化または変換復号化のための分析重み付けウィンドウまたは合成重み付けウィンドウの適合化

Info

Publication number: JP6177239B2
Application number: JP2014519605A
Authority: JP
Inventors: ジュリアン・フォーレ; ピーリック・フィリップ
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2011-07-12
Filing date: 2012-07-09
Publication date: 2017-08-09
Anticipated expiration: 2032-07-09
Also published as: KR20140050056A; FR2977969A1; KR20190124331A; BR112014000611A2; CN103814406B; KR102089281B1; WO2013007943A1; RU2607230C2; US20140142930A1; US10373622B2; JP2014524048A; BR112014000611B1; US9368121B2; MX2014000409A; ES2556268T3; US20170011747A1; BR122021011683B1; CA2841303C; KR20190124332A; EP2732448B1

Description

本発明は信号処理に関し、特に、一連の標本の形の（会話信号のような）音声信号および／またはビデオ信号の処理に関する。本発明は特に、分析ウィンドウまたは合成ウィンドウの変換と変換サイズに対する適合化とによるデジタル音声信号の符号化と復号化に関する。

変換符号化は、変換（周波数）領域において時間信号を符号化することから成る。当該変換により特に、音声信号の周波数特性を使用して符号化の性能を最適化し向上させることができる。例えば、倍音が少数のスペクトル光により周波数領域で表現され、したがって当該倍音を簡潔に符号化できるという事実が利用される。例えば、符号化雑音が殆ど聴こえないように符号化雑音を有利にフォーマットするために、周波数マスク効果も使用される。

従来、変換による符号化と復号化は、以下の５つのステップを適用することによって実施されている。
・符号化すべき（所与の標本化周波数Ｆｓで標本化した）デジタル音声ストリームを、有限数（例えば、２Ｎ）の標本から成るフレームに分割する。各フレームは通常、先行フレームと５０％だけ重複する。
・変換ステップを信号に適用する。ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）と呼ばれる変換のケースでは、（分析ウィンドウと呼ばれる）Ｌ＝２Ｎのサイズの重み付けウィンドウｈ_ａが各フレームに適用される。重み付けされたフレームは、２ＮからＮの変換に従って「畳み込まれる」。ｈ_ａで重み付けしたサイズ２ＮのフレームＴ_２ＮのサイズＮのフレームＴ_Ｎへの「畳み込み」を例えば以下のように行うことができる。

ＤＣＴＴＶを、畳み込まれたフレームＴ_Ｎに適用して、変換領域内のサイズＮのフレームを得る。これは以下のように表される。

・次に、変換領域内のフレームが、マッチした量子化器を用いることによって量子化される。量子化により、送信データのサイズを削減することができるが、元のフレームに（可聴または不可聴な）雑音が生ずる。符号化のビット・レートが高くなると、当該雑音が減り、量子化フレームが元のフレームに近くなる。
・逆ＭＤＣＴ変換が復号化において量子化フレームに適用される。当該変換は２つのステップを含む。即ち、サイズＮの量子化フレームが、（直接変換として表される）逆ＤＣＴＴＶを用いることによって時間領域Ｔ_Ｎ ^＊におけるサイズＮのフレームに変換される。次に、Ｎから２Ｎへの「展開」の第２のステップがサイズＮの時間フレームＴ_Ｎ ^＊に適用される。合成ウィンドウと呼ばれる重み付けウィンドウｈ_ｓが、以下の式に従ってサイズ２ＮのフレームＴ_２Ｎ ^＊に適用される。

・次に、復号化された音声ストリームが、２つの連続するフレームの重複部分を合計することによって合成される。

この機構は、分析フィルタおよび合成フィルタが（２Ｋ−１）Ｎの重複に関して長さＬ＝２ＫＮを有するＥＬＴのような、より広い重複を有する変換に拡張されることに留意されたい。したがって、ＭＤＣＴはＫ＝１であるＥＬＴの特別なケースである。変換と所与の重複に関して、（量子化のない）符号化される信号の所謂「完全な」再構築が得られるようにする分析ウィンドウと合成ウィンドウが決定される。

元のＸ信号と再構築された

信号の差分が無視できると考えられるとき、当該再構築は「準完全な」再構築でもありうる。例えば、音声符号化では、処理信号Ｘの電力より低い誤差電力５０ｄＢを有する差分を無視できるとみなしてもよい。例えば、分析ウィンドウと合成ウィンドウが２つの連続するフレームで変化しない場合には、次の完全再構築条件が成り立つはずである。

したがって、殆どのコーデックでは、分析ウィンドウと合成ウィンドウがメモリに格納されて事前に計算されＲＯＭメモリに格納されるか、または、分析ウィンドウと合成ウィンドウが公式を利用して初期化されＲＡＭメモリに格納されるかの何れかであることは容易に理解される。

大部分の時間、場合によってはインデックス反転（ｈ_ｓ（ｋ）＝ｈ_ａ（２Ｎ−１−ｋ））を除いて、分析ウィンドウと合成ウィンドウは同一であり（ｈ_ｓ（ｋ）＝ｈ_ａ（ｋ））、それらをメモリに格納するには２Ｎのサイズの単一のメモリ空間のみが必要である。

この新たなコーデックは、複数の標本化周波数を管理するためか、（例えば、遷移のケースで）分析ウィンドウ（したがって合成ウィンドウ）のサイズを音声コンテンツに適合させるためかに関わらず、様々なフレーム・サイズＮで動作する。これらのコーデックでは、ＲＯＭメモリまたはＲＡＭメモリは、様々なフレーム・サイズと同じ数の分析ウィンドウおよび／または合成ウィンドウを含む。

符号化器または復号化器の分析ウィンドウまたは合成ウィンドウの係数（標本とも呼ばれる）をメモリに格納して分析変換または合成変換を実施すべきである。明らかに、様々なサイズの変換を用いる特定のケースでは、使用するサイズごとの重み付けウィンドウをメモリ内で表現しなければならない。

ウィンドウが対称的である好適なケースでは、Ｌ／２個だけの係数を格納する必要があり、その他のＬ／２個はこれらの格納された係数から算術演算を何ら行うことなく演繹される。したがって、ＭＤＣＴ（Ｋ＝１）では、サイズＭと２Ｍの変換の必要がある場合には、当該ウィンドウが対称であれば（Ｍ＋２Ｍ）＝３Ｍ個の係数を格納しなければならず、そうでなければ（２Ｍ＋４Ｍ）＝６Ｍ個の係数を格納しなければならない。音声符号化の典型的な例はＭ＝３２０またはＭ＝１０２４である。したがって、非対称のケースでは、これはそれぞれ１９２０個の係数と６１４４個の係数を格納しなければならないことを意味する。

係数の表現に望まれる精度に応じて、係数ごとに１６ビット、場合によっては２４ビットが必要である。これは、低コストのコンピュータに対しては僅かなメモリ空間を意味するものではない。

分析ウィンドウまたは合成ウィンドウの間引き技術が存在する。例えば、Ｎ個の標本からＭ個の標本に変更するために（ＮはＭの倍数）、単純なウィンドウ間引きでは、Ｎ／Ｍのうち１つの標本を取る。Ｎ／Ｍは１より大きい整数である。かかる計算では、式（３）で与えた完全な再構築式は成立しない。例えば、合成ウィンドウが分析ウィンドウの時間反転であるケースでは、以下が成り立つ。

完全再構築条件は、

となる。従来この条件を満たす符号化で使用されるウィンドウは、Ｍａｌｖａｒ正弦ウィンドウである。即ち、

Ｎ／Ｍのうち１つの標本を取ることによってウィンドウｈ（ｋ）を間引く場合には、当該ウィンドウは、

となる。サイズ２Ｍのｈ＊（ｋ）が完全再構築条件（式（３））

を満たすためには、Ｎ／Ｍは１に等しくなければならない。ここで、Ｎ／Ｍは１より大きい整数として定義されている。したがって、かかる間引きに関して、完全再構築条件を満たすことはできない。

ここで挙げた例示的な例は容易に一般化される。したがって、小さいサイズのウィンドウを得るための基本ウィンドウを直接的に間引くことにより、完全な再構築性を保証することはできない。

重み付けウィンドウの補間技術も存在する。かかる技術は例えば特許文献１に開示されている。当該技術により、大きなサイズのウィンドウが必要であるとき、ＲＯＭに格納されるウィンドウのサイズを削減することができる。

したがって、サイズ２Ｎのウィンドウとサイズ４Ｎのウィンドウを格納するのではなく、特許文献１では２Ｎのウィンドウの標本を４Ｎのウィンドウのうち２つにおける１つの標本に割り当て、欠落した２Ｎ個の標本のみをＲＯＭに格納することが提案されている。したがって、ＲＯＭの格納サイズは４Ｎ＋２Ｎから２Ｎ＋２Ｎに削減される。

欧州特許出願公開第２３１９０３９号明細書

Ｈ．Ｓ．Ｍａｌｖａｒ、ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｗｉｔｈＬａｐｐｅｄＴｒａｎｓｆｏｒｍａｔｉｏｎｓ、ＡｒｔｅｃｈＨｏｕｓｅ、１９９２Ｄｕｈａｍｅｌｅｔａｌ．、「ＡｆａｓｔａｌｇｏｒｉｔｈｍｆｏｒｔｈｅｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｆｉｌｔｅｒｂａｎｋｓｂａｓｅｄｏｎＴＤＡＣ」、ＩＣＡＳＳＰ９１ｃｏｎｆｅｒｅｎｃｅ

しかし、当該技法にも、実際の変換を適用する前に分析ウィンドウと合成ウィンドウの計算を事前に行う必要がある。したがって、少数の分析ウィンドウと合成ウィンドウのみをメモリに格納して、完全再構築条件を満たしつつ様々なサイズの変換を適用する必要がある。さらに、変換による符号化の前にこれらのウィンドウの事前計算ステップを回避する必要があると思われる。

本発明はこの状況を改善するものである。この目的のため、本発明は、標本フレームに適用される分析（ｈ_ａ）重み付けウィンドウまたは合成（ｈ_ｓ）重み付けウィンドウを用いた変換によりデジタル音声信号を符号化または復号化する方法を提供する。本方法は、所与の初期サイズＮの変換に提供され、Ｎとは異なるＭのサイズの二次変換を適用する初期ウィンドウの不規則標本化（Ｅ１０）を備えるものである。

したがって、格納した初期ウィンドウから、サイズＮの変換が与えられると、事前計算を実施することなく、かつ、様々なサイズの他のウィンドウを格納することなく、様々なサイズの変換を適用することができる。したがって、任意のサイズの単一のウィンドウが、様々なサイズの変換に適合させるのに十分でありうる。

不規則標本化により、復号化の最中に所謂「完全」または「準完全」な再構築条件を満たすことができる。

以下で述べる様々な特定の実施形態を、以上で定義した符号化方法または復号化方法のステップに、独立にまたは互いと組み合わせて、追加することができる。

好適な実施形態によれば、標本化ステップは、初期ウィンドウの第１の係数ｄ（０≦ｄ＜Ｎ／Ｍ）から１組の定義された係数Ｎ−ｄ−１、Ｎ＋ｄ、２Ｎ−ｄ−１を選択して、所定の完全再構築条件を満たすステップを含む。したがって、完全再構築条件を満たしつつ、様々なサイズの二次変換にマッチするウィンドウを１組の係数から決定することができる。

有利なことに、ＮはＭより大きく、初期ウィンドウの間引きを、少なくとも当該１組の定義された係数を保持することによって実施して、間引きされたウィンドウを得る。したがって、大きなサイズの格納された分析ウィンドウまたは合成ウィンドウから、復号化において完全再構築条件も満たす小さなサイズのウィンドウを得ることができる。

特定の例示的な実施形態では、本方法は、１組の定義された係数と一定の差分だけ離間した第２の組の係数を選択するステップを含み、当該第２の組の係数を保持することによって間引きを実施して間引きされたウィンドウを得る。

このように、所望の変換サイズにマッチする間引きを得ることができる。これにより、得られるウィンドウの周波数応答を最良に保存することができる。

特定の実施形態では、以下の式に従ってサイズ２Ｎのウィンドウをサイズ２Ｍのウィンドウに間引きする。

ここで、ｈ^＊は、間引きした分析ウィンドウまたは合成ウィンドウであり、ｈは初期の分析ウィンドウまたは合成ウィンドウであり、

はＸ以下の最大の整数であり、

はＸ以上の最小の整数であり、ｄは定義された集合の第１の係数の値である。このように、初期ウィンドウと取得したウィンドウの間の係数の数が複数でない場合でも、様々なサイズのウィンドウを最大サイズのウィンドウから得ることができる。ＮがＭより小さいときには、１組の定義された係数の各係数と１組の隣接係数の各係数の間に係数を挿入することによって補間を実施して、補間されたウィンドウを得る。当該補間されたウィンドウは完全再構築も満たし、小さなサイズの格納されたウィンドウからオンザフライで計算することができる。

特定の実施形態では、本方法は、１組の定義された係数と一定の差分だけ離間した第２の組の係数を選択するステップを含み、当該第２の組の係数の各々と１組の隣接係数の各係数の間に係数を挿入することによって補間を行って、補間されたウィンドウを得る。このように、所望の変換サイズにマッチする補間を得ることができる。これにより、取得したウィンドウの周波数応答を最良に保持することができる。

補間されたウィンドウの周波数応答を最適化するために、特定の実施形態では、本方法は、第１の定義された係数と隣接係数とから計算された係数を含む補間ウィンドウを計算し、当該ウィンドウを補間するステップを含む。好適な実施形態では、不規則標本化のステップと、初期ウィンドウの間引きまたは補間を、二次変換の計算に使用される時間畳み込みまたは時間展開を実施するステップの最中に行う。したがって、分析ウィンドウまたは合成ウィンドウの間引きまたは補間は、実際の変換ステップと同時に、したがってオンザフライに実施される。したがって、もはや符号化の最中に取得されている変換サイズにマッチするウィンドウを、符号化の前に事前計算するステップを実施する必要はない。

例示的な実施形態では、初期ウィンドウの間引きと補間の両方を、二次変換の計算に使用される時間畳み込みまたは時間展開を実施するステップの間に行う。これにより、様々なサイズのウィンドウをメモリに格納された単一のウィンドウから取得する可能性をより高めることができる。間引きに関する特定の実施形態では、時間畳み込みの最中の間引きを次式に従って実施する。

ここで、Ｔ_ＭはＭ個の標本から成るフレームであり、Ｔ_２Ｍは２Ｍ個の標本から成るフレームであり、時間展開中の間引きは次式に従って実施される。

ここで、Ｔ＊_ＭはＭ個の標本から成るフレームであり、Ｔ＊_２Ｍは２Ｍ個の標本から成るフレームである。

特定の同等な例示的な実施形態では、二次変換のサイズがＭ＝３／２Ｎであるとき、次式に従って、時間畳み込みの最中に初期ウィンドウの間引きを行い、続いて補間を行う。

ここで、Ｔ_ＭはＭ個の標本から成るフレームであり、Ｔ_２Ｍは２Ｍ個の標本から成るフレームであり、ｈｃｏｍｐは補完ウィンドウであり、二次変換のサイズがＭ＝３／２Ｎであるとき、次式に従って、時間展開の最中に初期ウィンドウの間引きを行い、続いて補間を行う。

ここで、Ｔ_ＭはＭ個の標本から成るフレームであり、Ｔ_２Ｍは２Ｍ個の標本から成るフレームであり、ｈｃｏｍｐは補完ウィンドウである。

本発明はまた、標本フレームに適用される分析重み付けウィンドウまたは合成重み付けウィンドウを用いた変換によりデジタル音声信号を符号化または復号化するための装置を対象とする。当該装置は、所与の初期サイズＮの変換に与えられる初期ウィンドウを不規則に標本化し、Ｎとは異なるＭのサイズの二次変換を適用するのに適合した標本化モジュールを備えるものである。当該装置は、上述の方法と同じ利点を提供し、上述の方法を実装する。

本発明は、説明した符号化または復号化の方法のステップを、プロセッサにより実行されたときに実装するためのコード命令を含むコンピュータ・プログラムを対象とする。

最後に、本発明はプロセッサ読取可能記憶媒体に関する。当該プロセッサ読取可能記憶媒体は、符号化または復号化の装置に組み込まれるかまたは組み込まれず、場合によっては取外し可能であり、上述の符号化または復号化の方法を実装するコンピュータ・プログラムを格納するものである。

本発明の他の特徴や利点は、純粋に非限定的な例として与えた以下の説明を、添付図面を参照して読めばより明らかになろう。

１実施形態において本発明を実装する符号化および復号化のシステムの１例を示す図である。本発明に従う分析ウィンドウまたは合成ウィンドウの間引きの１例を示す図である。本発明の１実施形態に従う、分析ウィンドウまたは合成ウィンドウを不規則標本化してウィンドウを得る図である。本発明の１実施形態に従う、分析ウィンドウまたは合成ウィンドウを不規則標本化してウィンドウを得る図である。本発明の１実施形態における有利因子（２／３）の分析ウィンドウまたは合成ウィンドウの不規則標本化を示し、間引きサブステップを示す図である。本発明の１実施形態における有利因子（２／３）の分析ウィンドウまたは合成ウィンドウの不規則標本化を示し、補間サブステップを示す図である。本発明に従う符号化または復号化の装置のハードウェアの実施形態の１例を示す図である。

図１は、２Ｎのサイズの単一の分析ウィンドウと単一の合成ウィンドウがメモリに格納されている、変換により符号化および復号化するためのシステムを示す。デジタル音声ストリームＸ（ｔ）が標本化モジュール１０１により標本化周波数Ｆ_ｓで標本化され、２Ｍ個の標本のフレームＴ_２Ｍ（ｔ）が取得される。各フレームは通常、先行フレームと５０％だけ重複する。

次に、変換ステップをブロック１０２と１０３により信号に適用する。ブロック１０２で、サイズＮの変換に提供される格納された初期ウィンドウの標本化を行って、Ｎとは異なるＭのサイズの二次変換を適用する。次に、２Ｎ個の係数から成る分析ウィンドウｈ_ａの標本化を行って、信号の２Ｍ個の標本から成るフレームに適合させる。ＮがＭの倍数であるケースでは当該ケースは間引きであり、ＮがＭの約数であるケースでは当該ケースは補間である。Ｎ／Ｍがこれらの何れかであるケースを提供する。

ブロック１０２により実装されるステップについては、図２と図３を参照して後で詳述する。ブロック１０２では、２ＭからＭへの変換に従って重み付きフレームに対する畳み込みを行う。有利なことに、この畳み込みステップは、後述する不規則標本化および間引きまたは補間ステップと組み合わせて行われる。したがって、ブロック１０２の後、当該信号はＭ個の標本から成るフレームＴ_Ｍ（ｔ）の形である。例えば、ＤＣＴＩＶタイプの変換をブロック１０３で適用して、変換領域、即ちここでは周波数領域においてサイズＭのフレームＴ_Ｍを取得する。

次に、これらのフレームを量子化モジュール１０４により量子化して、量子化インデックス形Ｉ_Ｑで復号化器に送信する。当該復号化器は、モジュール１１４により逆量子化を行い、変換領域においてフレーム

を取得する。例えば、逆変換モジュール１１３は逆ＤＣＴＩＶを実施して時間領域においてフレーム

を取得する。次に、ブロック１１２で、Ｍ個から２Ｍ個の標本への展開をフレーム

に対して実施する。ブロック１１２で、サイズ２Ｍの合成重み付けウィンドウをサイズ２Ｎのウィンドウｈ_ｓの間引きまたは補間により取得する。ＮがＭより大きいケースでは当該ケースは間引きであり、ＮがＭより小さいケースでは当該ケースは補間である。ブロック１１２で実施するステップは、図２および図３を参照して後で詳述する。符号化に関して、有利なことに、当該展開ステップは不規則標本化および間引きまたは補間ステップと組み合わせて実施される。これについては後述する。

復号化された音声ストリーム

は、ブロック１１１で重複部分を合計することによって合成される。

次に、ブロック１０２とブロック１１２をより詳細に説明する。これらのブロックでは、不規則標本化ステップＥ１０を実施して、二次変換のサイズＭにマッチするウィンドウを定義する。したがって、サイズ２Ｎの格納されたウィンドウ（ｈ_ａまたはｈ_ｓ）の第１の係数ｄ（ｗｉｔｈ０≦ｄ＜Ｎ／Ｍ）から、所定の完全再構築条件を満たす、１組の定義された係数ｓＮ−ｄ−１、Ｎ＋ｄ、２Ｎ−ｄ−１が選択される。この集合から、当該ウィンドウの間引きまたは補間を、ＮがＭより大きいか小さいかに従ってＥ１１において実施し、２Ｎ個の標本から成るウィンドウから２Ｍ個の標本から成るウィンドウへ変更する。

所定の完全再構築条件を求める。このために、以下の式が満たされる（合成と分析のために選択された係数によりサイズＮの変換に対する完全再構築が可能であることを保証する）ように標本化を実施しなければならない。

したがって、間引きされたウィンドウが式（３）の完全再構築条件を満たすために、分析ウィンドウ上の点ｈ_ａ（ｋ）（ｋ∈［０°；２Ｎ−１］）から、合成ウィンドウ上の点ｈ_ａ（Ｎ＋ｋ）、および分析ウィンドウ上の点ｈ_ｓ（Ｎ＋ｋ）、ｈ_ｓ（２Ｎ−１−ｋ）およびｈ_ｓ（Ｎ−１−ｋ）をさらに選択することが完全再構築を条件付ける。しかし、これらの６個の点のみを保持することによって、不均衡が生じ、分析ウィンドウがＮだけ間引かれ、合成ウィンドウがＮ／２だけ間引かれることが分かるであろう。

同様に、間引きにおいて分析ウィンドウｈ_ａ（Ｎ−ｋ−１）上の点Ｎ−ｋ−１を選択する場合には、分析ウィンドウ上の点ｓｈ_ａ（２Ｎ−１−ｋ）、ならびに、合成ウィンドウ上の４つの同一の点ｈ_ｓ（ｋ）、ｈ_ｓ（Ｎ＋ｋ）、ｈ_ｓ（２Ｎ−１−ｋ）およびｈ_ｓ（Ｎ−１−ｋ）のみを選択することによって完全再構築条件を満たすことができることに留意されたい。

したがって、図２を参照して説明した間引きの間に、（３）の完全再構築条件を満たすために、０＜ｄ＜Ｎ／Ｍである係数ｄから、分析ウィンドウ上の次の係数Ｎ−ｄ−１、Ｎ＋ｄ、２Ｎ−１−ｄと合成ウィンドウ上のｄ、Ｎ＋ｄ、２Ｎ−１−ｄおよびＮ−１−ｄも選択して、分析ウィンドウと合成ウィンドウの間に同一サイズの間引きをもたせることが絶対不可欠である。実際、完全再構築条件は図２に示すように独立に８個の点のサブセットにのみ適用される。このように、分析ウィンドウと合成ウィンドウ上の１組の定義された係数ｄ、Ｎ−ｄ−１、Ｎ＋ｄ、２Ｎ−１−ｄの選択が行われる。

次に、当該間引きを、少なくとも当該１組の定義された係数を保持することによって実施して、間引きされたウィンドウを取得する。他の係数は削除することができる。完全再構築条件を満たす最小の間引きされたウィンドウがこのように取得される。

このように、最小の間引かれた分析ウィンドウを得るために、図２を参照して例示したように点ｈ_ａ（ｋ）、ｈ_ａ（Ｎ＋ｋ）、ｈ_ａ（２Ｎ−１−ｋ）およびｈ_ａ（Ｎ−１−ｋ）のみが保持される。

合成ウィンドウに関して、同一の１組の係数を選択し、少なくとも当該１組の定義された係数を保持することによって間引きを行い、間引きされたウィンドウを得る。このように、最小の間引かれた合成ウィンドウを得るために、図２を参照して例示したように点ｈ_ｓ（ｋ）、ｈ_ｓ（Ｎ＋ｋ）、ｈ_ｓ（２Ｎ−１−ｋ）およびｈ_ｓ（Ｎ−１−ｋ）のみが保持される。

点の間の対称性が与えられると、合成ウィンドウが分析ウィンドウの時間反転であるケースでは、４個の点（ｈ（ｋ）、ｈ（Ｎ＋ｋ）、ｈ（２Ｎ-１−ｋ）およびｈ（Ｎ−１−ｋ））から成るサブセットのみが間引きに必要である。したがって、上で定義した集合を選択することによって、完全再構築の特性を保ちつつ０とＮ−１の間の任意の値ｋを選択して分析ウィンドウおよび／または合成ウィンドウを間引くことができる。

適合した間引きにより、間引かれるウィンドウの周波数応答を最良に保存することができる。適合した間引きのケースでは、変換サイズＭにより、分析（または合成）ウィンドウの第１のクォータ上でＮ／Ｍのうち１つの係数をとり、当該１組の定義された係数と（Ｎ／Ｍの）一定の差分だけ離間する第２の組の係数を選択する。したがって、係数ｄ、Ｎ−１−ｄ、Ｎ＋ｄ、２Ｎ−１−ｄに加えて当該第２の組の係数を保存することによって間引きを実施して間引きされたウィンドウを得る。

図３は、変換サイズＭにマッチする不規則標本化の１例を示す。表示したウィンドウは４つのクォータに分割されている。完全再構築条件が与えられると、サイズ２Ｍの間引きされたウィンドウを得るために以下の式を得る。

ここで、ｈ^＊は、補間または間引いた分析ウィンドウまたは合成ウィンドウであり、ｈは初期の分析ウィンドウまたは合成ウィンドウであり、

はＸ以下の最大の整数であり、

はＸ以上の最小の整数であり、ｄはオフセットである。当該オフセットは、ウィンドウの第１のクォータ上の開始標本ｄの関数である。したがって、ブロック１０２のステップＥ１０は、１組の定義された係数（ｄ、Ｎ−ｄ−１、Ｎ＋ｄ、２Ｎ−ｄ−１）から一定の差分（ここではＮ／Ｍ）だけ離間した第２の組の係数を選択することを含む。同じ一定の差分を適用して、第３の組の係数を選択することができる。実際、例えば、ウィンドウを３だけ間引く場合、即ち、Ｎ／Ｍ＝３である場合には、当該差分は各ウィンドウ部で３である。ｄ＝０が定義された組の第１の係数である場合には、一定の差分だけ離間した第２の組または第３の組の係数は３および６である、等である。同様に、ｄ＝１である場合には、一定の差分だけ離間した第２のまたは第３の組の第１の係数は１、４、７・・・であり、そうでなくｄ＝２である場合には、当該係数は２、５、８・・・である。式７の「ｄ」はしたがって（Ｎ／Ｍ−１を含めて、０とＮ／Ｍ−１の間の）０、１、または２の値をとりうる。

図３は、ウィンドウの第１のクォータにおいて選択した第１の係数がｄ＝１であるケースを表す。そうすると、一定の差分だけ離間した第２のおよび第３の組の係数は４および７である。

以下の表１は、サイズＮ＝４８の変換からより小さなサイズの変換（Ｍ＝２４、１６、１２および８）へ変更するために保持される点を示す。したがって、サイズＭ＝８の変換を実装するために、標本０、６、１２、１８、２９、３５、４１、４７、４８、５４、６０、６６、７７、８３、８９および９５が分析ウィンドウまたは合成ウィンドウにおいて考慮され、したがって不規則標本化を示すことが分かる。

以下の表２は、サイズＮ＝４８の変換に提供された初期ウィンドウからサイズＮ＝６の変換を生成するのに適したウィンドウへ変更するための実施形態を示す。次に、ｄ：ｄ＝０・・・７の値に対してＮ／Ｍ＝８および７の確率の間引きが存在する。当該表は、初期ウィンドウに保持された値に対応するインデックスを示す。

元のウィンドウに近い周波数応答をもたせるために、本発明では当該値を

に設定することを提示する。この条件は限定ではない。開始点が各セグメントの末端であると考えられる場合には、式７は

となる。各部では、サイズＭの変換を実施してサイズ２Ｎの初期ウィンドウにおける点を任意に選択することもできる。第１の係数（ｈ（ｄ））Ｍ／２−１のうち、インデックス２Ｎ−１−ｄ_ｋ、Ｎ−１−ｄ_ｋおよびＮ＋ｄ_ｋの係数を他の３つの部分から選択することを条件として、当該ウィンドウの第１のクォータから係数をインデックスｄ_ｋにより任意に取得することができる。これは、構築されるサイズ２Ｍのウィンドウの周波数応答の連続性を改善するのに特に有利である。即ち、インデックスｄ_ｋを賢く選択することによって、不連続性を特に限定することができる。

以下の表３は、２Ｎ＝４８、２Ｍ＝１６である特定の実施形態を示す。

有利な実施形態では、ブロック１０２および１１２で、信号フレームの畳み込みまたは展開のステップと同時に標本化ステップを実施する。ここで説明したケースでは、サイズ２Ｎの分析重み付けウィンドウｈ_ａが、ブロック１０２においてオンザフライでサイズ２Ｍの各フレームを間引くことまたは当該フレームを補間することによって、当該フレームに適用される。当該ステップは、畳み込みステップを記述する式（１）と不規則な間引きを記述する式（７）をグループ化することによって実施される。

当該重み付きフレームは、２ＭからＭへの変換に従って「畳み込まれる」。（サイズ２Ｎの）ｈ_ａによって重み付けしたサイズ２ＭのフレームＴ_２ＭをサイズＭのフレームＴ_Ｍへ「畳み込む」ことを次式のように行うことができる。

したがって、サイズ２Ｎのウィンドウをサイズ２Ｍのウィンドウへ間引きするステップは、サイズ２ＭのフレームをサイズＭのフレームへ畳み込むのと同時に行われる。実施される計算の計算量は、インデックスが変更されるだけで、従来の畳み込みに使用される計算量と同じである。このオンザフライの間引き動作は計算量をさらに必要とするものではない。

同様に、復号化では、サイズ２Ｎの合成重み付けウィンドウｈ_ｓは、ブロック１１２においてオンザフライで、サイズ２Ｍの各フレームに適用されるサイズ２Ｍのウィンドウに間引かれる。当該ステップは、展開の式（２）を間引きの式（７）または（８）とグループ化することによって実施される。すると、以下の式が得られる。

ここでも、これらの式は従来の展開の式と比べて何ら計算量をさらに生じさせるものではない。これらの式により、何ら事前の計算を行う必要なく、かつ、ウィンドウをさらに格納する必要なく、ウィンドウの間引きをオンザフライで取得することができるようになる。

合成ウィンドウが分析ウィンドウの時間反転であるケース（ｈ_ｓ（ｋ）＝ｈ_ａ（２Ｎ−１−ｋ））では、割合Ｎ／Ｍは整数（したがって、間引きのみ）であり、式１０は

となる。当該実施形態により、分析と合成の時点で使用される単一のウィンドウのみをメモリにもたせることができる。

したがって、畳み込み／展開と間引きのステップを組み合わせて、サイズＮで提供された分析／合成ウィンドウを用いてサイズＭの変換を実施できることが示された。本発明により、サイズＭに提供された分析／合成ウィンドウでサイズＭの変換を適用するのと同じ計算量が得られ、追加のメモリは使用されない。この効果は、（非特許文献１で示唆されているように）ＤＣＴＩＶに基づくＭＤＣＴ変換の効果的な実装に対して示され、当該効果はまた、他の効果的な実装、特に非特許文献２で提供された実装おいて明らかにできることに留意されたい。

本方法は限定的ではなく、特に、分析ウィンドウが０秒である場合や、当該分析ウィンドウを、オフセットされたフレームに適用して符号化遅延を削減する（直近の音声標本が、ウィンドウ部分が０秒を示す直前に当該ウィンドウ部分により重み付けされる）場合に、本方法を適用することができる。この場合、フレームに割り当てられるインデックスとウィンドウに割り当てられるインデックスはオフセットされる。特定の実施形態では、サイズ２Ｎのウィンドウｈが存在しサイズＭのフレームが存在する場合に、補間方法の記述が続く。

ＮがＭより小さい場合には、完全再構築条件を満たす１組の係数を同様に選択する。１組の定義された係数に隣接する１組の係数も決定される。当該１組の定義された係数の各係数と１組の隣接係数の各係数の間に係数を挿入することによって補間を実施して、補間されたウィンドウを得る。したがって、式（３）で定義した完全再構築条件を満たすために、位置ｋとｋ＋１の間に標本を挿入しようとする場合に、分析ウィンドウ上の位置ｈ_ａ（ｋ）とｈ_ａ（ｋ＋１）の間、ｈ_ａ（Ｎ−ｋ−１）とｈ_ａ（Ｎ−ｋ−２）の間、ｈ_ａ（Ｎ＋ｋ）とｈ_ａ（Ｎ＋ｋ＋１）の間、ｈ_ａ（２Ｎ−１−ｋ）とｈ_ａ（２Ｎ−ｋ−２）の間に点を挿入し、合成ウィンドウ上の位置ｈ_ｓ（ｋ）とｈ_ｓ（ｋ＋１）の間、ｈ_ｓ（Ｎ＋ｋ）とｈ_ｓ（Ｎ＋ｋ＋１）の間、ｈ_ｓ（２Ｎ−１−ｋ）とｈ_ｓ（２Ｎ−ｋ−２）の間、ｈ_ｓ（Ｎ−１−ｋ）とｈ_ｓ（Ｎ−ｋ−２）の間に点を挿入することを提案する。これらの新たに挿入された８個の点も、式（３）の完全再構築条件を満たす。

第１の実施形態では、定義された１組の係数または１組の隣接する係数の繰返しにより補間を実施する。第２の実施形態では、取得したウィンドウに対して良好な周波数応答を得るために、係数（ｈｃｏｍｐ）を計算することによって補間を実施する。このために、サイズ２Ｎの補完ウィンドウｈ_ｉｎｉｔを計算する第１のステップを実施する。当該ウィンドウは、

であるようにサイズ２Ｎのｈの係数の間で補間されたバージョンである。第２のステップでは、ウィンドウｈｃｏｍｐは特許文献１に従って計算されるので、完全再構築を示す。このために、当該ウィンドウは、以下の式に従って１組の定義された係数に対して計算される。

当該ウィンドウは、初期化時に計算されるかまたはＲＯＭに格納されるかの何れかである。補間と間引きのステップを統合して、変換が効果的に適用される１実施形態を示すことができる。

当該実施形態を、図４Ａと図４Ｂを参照して示す。当該実施形態は次の２つのステップに分解される。図４Ａに示す第１のステップでは、本方法はサイズ２Ｎのウィンドウｈ_ａから開始してサイズ２Ｎ’の第２のウィンドウｈを取得する（ここで、２Ｎ＝９６および２Ｎ’＝３２である。即ち、因数３による間引きが実施される）。当該間引きは不規則であり式（７）に従う。図４Ｂに示す第２のステップでは、１組の補完係数ｈｃｏｍｐをｈの２Ｎ’個の係数に追加して、合計で２Ｍ個の係数を得る（ここで、補完係数の数は２Ｎ’であり、２Ｍ＝４Ｎ’が得られる）。図４Ａと図４Ｂにおける特定の例では、サイズ２Ｍ＝６４のウィンドウを構築することによって、サイズＮ＝４８のＭＤＣＴに与えたサイズ２Ｎ＝９６の初期ウィンドウを、サイズＭ＝３２のＭＴＣＴを実装するためのウィンドウに変換している。

ブロック１０２で、変換の時点に、以下の式を満たすことによってウィンドウｈとウィンドウｈｃｏｍｐを交互に適用する。

同様に、ブロック１１２で、逆変換の時点に、次式に従ってウィンドウｈが、次いでウィンドウｈｃｏｍｐが、交互に適用される。

本発明に従う多数の変形が可能である。したがって、メモリに格納された単一のウィンドウから、補間によって、間引きによって、または間引きされたウィンドウ補間またはその反対によって、様々なサイズのウィンドウを得ることができる。したがって、符号化の柔軟性と復号化の柔軟性は高く、メモリ空間を増大させることも、実施すべき計算も何ら増大させることはない。ＭＤＣＴの畳み込みの時点または展開の時点に間引きまたは補間を行うことによって、計算量と柔軟性がさらに節約される。

図５は、本発明に従う符号化または復号化の装置のハードウェア実施形態を表す。当該装置は、記憶部および／または作業メモリＭＥＭを備えるメモリ・ブロックＢＭと協働するプロセッサＰＲＯＣを備える。有利なことに、当該メモリ・ブロックは、プロセッサＰＲＯＣにより実行されたときに、本発明に関する符号化または復号化の方法のステップ、特に、所与の初期サイズＮの変換に与えられる初期ウィンドウの不規則標本化を実装して、Ｎとは異なるＭのサイズの二次変換を適用するためのコード命令を含むコンピュータ・プログラムを備える。

一般に、図１の説明は、かかるコンピュータ・プログラムのアルゴリズムの諸ステップを繰り返すものである。装置のドライブにより読取可能でありそのメモリ空間にダウンロードできるコンピュータ・プログラムを、メモリ媒体に格納することもできる。かかる装置は、符号化器の場合には音声ストリームＸ（ｔ）を受信し、または、復号化器の場合には量子化インデックスＩ_Ｑを受信するのに適した入力モジュールを備える。当該装置は、符号化器の場合には量子化インデックスＩ_Ｑを送信し、復号化器の場合には復号化ストリーム

を送信するのに適した出力モジュールを備える。１つの可能な実施形態では、このように説明した装置は符号化機能と復号化機能の両方を備えることができる。

１００標本化周波数
１０３離散余弦変換
１０４量子化モジュール

Claims

標本フレームに適用される分析（ｈａ）重み付けウィンドウを用いた変換によりデジタル音声信号を符号化する方法であって、Ｎとは異なるサイズＭの変換を適用するために、プロセッサによって、所与の初期サイズＮの変換に対して提供された初期ウィンドウを不規則標本化するステップ（Ｅ１０）を含み、
前記不規則標本化することは、前記初期ウィンドウに適用される第１の値ｄ（０≦ｄ＜Ｎ／Ｍ）から、所定の完全再構築条件を満たす１組の定義された値Ｎ−ｄ−１、Ｎ＋ｄ、２Ｎ−ｄ−１を選択することを含む、方法。
ＮはＭより大きく、前記プロセッサによって、間引きされたウィンドウを得るために、少なくとも前記１組の定義された前記値を保持することによって前記初期ウィンドウの間引きを実施するステップを含む、請求項１に記載の方法。
前記プロセッサによって、間引きされたウィンドウ得るために、前記１組の定義された値と一定の差分だけ離間した第２の組の値を選択するステップを含み、前記第２の組の値も保持することによって前記間引きを実施するステップを含む、請求項１に記載の方法。
ＮがＭ未満であるとき、前記１組の定義された値の各々と１組の隣接値の各々の間に値を挿入することによって補間を実施して、補間されたウィンドウを得る、請求項１に記載の方法。
前記１組の定義された値と一定の差分だけ離間した第２の組の値を選択するステップを含み、前記第２の組の値の各々と１組の隣接値の各々の間に値を挿入することによって前記補間を実施して前記補間されたウィンドウを得る、請求項４に記載の方法。
前記１組の定義された値と前記隣接値とから計算した値を含む補完ウィンドウを計算して前記ウィンドウを補間するステップを含む、請求項４および５のうち１項に記載の方法。
前記不規則標本化と前記初期ウィンドウの間引きまたは補間は、前記サイズＭの変換の計算に使用される時間畳み込みを実施するステップの間に実施される、請求項１乃至６の何れか１項に記載の方法。
前記初期ウィンドウの間引きと補間の両方が、前記サイズＭの変換の計算に使用される時間畳み込みを実施するステップの間に実施される、請求項１乃至６の何れか１項に記載の方法。
ＴＭをＭ個の標本から成るフレームとし、Ｔ２Ｍを２Ｍ個の標本から成るフレームとして、前記時間畳み込みの間に間引きが
に従って実施される、請求項７に記載の方法。
前記変換のサイズがＭ＝３／２Ｎであるとき、ＴＭをＭ個の標本から成るフレームとし、Ｔ２Ｍを２Ｍ個の標本から成るフレームとし、ｈｃｏｍｐを補完ウィンドウとして、時間畳み込みの間に、前記初期ウィンドウの間引きと、続いて補間とが、
に従って実施される、請求項１に記載の方法。
標本フレームに適用される分析（ｈａ）重み付けウィンドウを用いた変換によりデジタル音声信号を符号化するための装置であって、Ｎとは異なるサイズＭの変換を適用するための、所与の初期サイズＮの変換に対して提供された初期ウィンドウを不規則標本化するように適合された標本化モジュール（１０２、１１２）を備え、
前記不規則標本化することは、前記初期ウィンドウに適用される第１の値ｄ（０≦ｄ＜Ｎ／Ｍ）から、所定の完全再構築条件を満たす１組の定義された値Ｎ−ｄ−１、Ｎ＋ｄ、２Ｎ−ｄ−１を選択することを含む、装置。
プロセッサにより実行されたときに、請求項１乃至１１のうち１項に記載の符号化方法のステップを実施するためのコード命令を含む、コンピュータ・プログラム。
標本フレームに適用される合成（ｈｓ）重み付けウィンドウを用いた変換によりデジタル音声信号を復号化する方法であって、Ｎとは異なるサイズＭの変換を適用するために、プロセッサによって、所与の初期サイズＮの変換に対して提供された初期ウィンドウを不規則標本化するステップ（Ｅ１０）を含み、
前記不規則標本化することは、前記初期ウィンドウに適用される第１の値ｄ（０≦ｄ＜Ｎ／Ｍ）から、所定の完全再構築条件を満たす１組の定義された値Ｎ−ｄ−１、Ｎ＋ｄ、２Ｎ−ｄ−１を選択することを含む、方法。
ＮはＭよりも大きく、間引きされたウィンドウを得るために、少なくとも前記１組の定義された前記値を保持することによって前記初期ウィンドウの間引きを実施するステップを含む、請求項１３に記載の方法。
間引きされたウィンドウ得るために、前記１組の定義された値と一定の差分だけ離間した第２の組の値を選択するステップを含み、前記第２の組の値も保持することによって前記間引きを実施するステップを含む、請求項１３に記載の方法。
前記不規則標本化と前記初期ウィンドウの間引きまたは補間は、前記サイズＭの変換の計算に使用される時間展開を実施するステップの間に実施される、請求項１３乃至１５の何れか１項に記載の方法。
前記初期ウィンドウの間引きと補間の両方が、前記サイズＭの変換の計算に使用される時間展開を実施するステップの間に実施される、請求項１３乃至１５の何れか１項に記載の方法。
Ｔ＊ＭをＭ個の標本から成るフレームとし、Ｔ＊２Ｍを２Ｍ個の標本から成るフレームとして、前記時間展開の間に間引きが
に従って実施される、請求項１６に記載の方法。
前記変換のサイズがＭ＝３／２Ｎであるとき、ＴＭをＭ個の標本から成るフレームとし、Ｔ２Ｍを２Ｍ個の標本から成るフレームとし、ｈｃｏｍｐを補完ウィンドウとして、時間展開の間に、前記初期ウィンドウの間引きと、続いて補間とが、
に従って実施される、請求項１３に記載の方法。
標本フレームに適用される合成（ｈｓ）重み付けウィンドウを用いた変換によりデジタル音声信号を復号化するための装置であって、Ｎとは異なるサイズＭの変換を適用するための、所与の初期サイズＮの変換に対して提供された初期ウィンドウを不規則標本化するように適合された標本化モジュール（１０２、１１２）を備え、
前記不規則標本化することは、前記初期ウィンドウに適用される第１の値ｄ（０≦ｄ＜Ｎ／Ｍ）から、所定の完全再構築条件を満たす１組の定義された値Ｎ−ｄ−１、Ｎ＋ｄ、２Ｎ−ｄ−１を選択することを含む、装置。
プロセッサにより実行されたときに、請求項１３乃至１９のうち１項に記載の復号化方法のステップを実施するためのコード命令を含む、コンピュータ・プログラム。