JP4426483B2

JP4426483B2 - オーディオ信号の符号化効率を向上させる方法

Info

Publication number: JP4426483B2
Application number: JP2005056891A
Authority: JP
Inventors: オジャンペレー，ジュハ
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 1999-07-05
Filing date: 2005-03-02
Publication date: 2010-03-03
Anticipated expiration: 2020-07-05
Also published as: EP1203370A1; CA2378435A1; EP2037451A1; CN1766990A; BRPI0012182B1; WO2001003122A1; US20060089832A1; FI991537A; EP1587062B1; KR100545774B1; KR20020019483A; ATE418779T1; CA2378435C; ES2244452T3; FI116992B; BR0012182A; US7457743B2; KR100593459B1; DE60041207D1; EP1203370B1

Description

本発明は、オーディオ信号の符号化効率を向上させるための請求項1および29〜31の前文に記載の方法に係わる。本発明は、また、請求項14に記載のデータ伝送システムにも、請求項20、32、34および35の前文に記載の符号器にも、請求項22の前文に記載の復号器にも、さらに請求項28の前文に記載の復号化方法にも係わる。

普通、オーディオ符号化方式では、音声信号などのアナログオーディオ信号から符号化信号を生成する。概して、符号化信号は、データ伝送システムに固有のデータ伝送方法で受信器側へ送信される。受信器側では、符号化信号に基づいてオーディオ信号が生成される。送信される情報量は、システム内で符号化情報のために用いられる帯域幅、および符号化が実行されうる効率などに影響される。

符号化のために、例えば0.125msの規則的な間隔でアナログ信号からデジタルサンプルを生成する。各サンプルは、一般に、固定の大きさ、例えば約20ms間隔を有するグループで処理される。これらのサンプル群は「フレーム」とも呼ばれる。普通、フレームは、オーディオデータを処理する基本単位である。

オーディオ符号化方式の目的は、使用可能な帯域幅の範囲内でできるだけ良質の音を生成することである。この最終目的のために、オーディオ信号特に音声信号の周期性を利用することができる。音声の周期性は、例えば、声帯の振動に起因する。一般に、振動期間は2ms〜20ms程度である。先行技術に係わる多数の音声符号器では、長周期予測（LTP）という手法が用いられている。この方法の目的は、この周期性を評価し利用して符号化処理の効率を高めることである。従って、符号化中に、符号化対象信号の一部（フレーム）とその信号での先に符号化された部分とを比較する。類似の信号が先に符号化された部分に存在する場合、類似の信号と符号化対象信号との間の遅延（時間遅れ）を調べる。類似の信号に基づいて、符号化対象信号を表す予測信号を形成する。更に、誤差信号を生成する。誤差信号は、予測信号と符号化対象信号との間の差異を表す信号である。こうして、有利には、遅れ情報と誤差信号とだけが送信されるように、符号化を実行する。受信器側では、正しいサンプルが、メモリから検索され、符号化対象信号の一部を予測するために使われ、遅れに基づいて誤差信号と結合される。数学的には、この種のピッチ予測子（pitch predictor）は、次のような伝達関数であらわされうるフィルタ動作を実行するものと考えられる。

上記の方程式は、一次ピッチ予測子としての伝達関数を表す。βはピッチ予測子係数であり、αは周期性を表す遅れである。より高次のピッチ予測子フィルタの場合、もっと一般的な伝達関数を使用することが可能である。

フレーム毎に係数β_kを選択する目的は、符号化誤差、すなわち実際の信号と以前のサンプルを使って形成された信号との間の差異を限りなく小さくすることにある。有利には、最小自乗法を用いて最小誤差を実現できるような係数を選択して符号化で使用する。有利には、係数はフレーム毎に更新される。

米国特許第5,528,629号には、短周期予測（STP）および一次長周期予測を用いる先行技術に係わる音声符号化方式が開示されている。

先行技術の符号器の場合、オーディオ信号の周波数とその周期性との間の関係には何ら着目していないという問題をはらんでいる。あらゆる状況で信号の周期性を有効に利用できるわけではないのである。しかも、符号化情報の量が不必要に大きくなったり、受信器側で再構成されるオーディオ信号の音質が低下したりする。

例えば、状況によっては、オーディオ信号が周期性の高い信号で経時的変化の少ない信号ならば、遅れ情報だけで信号の予測がうまくできる。このような状況では、高次のピッチ予測子を用いる必要はないが、別の状況では、逆である。遅れは必ずしもサンプリング間隔の整数倍ではない。例えば、オーディオ信号の二つの連続するサンプルの間の時間が遅れである。この場合、より高次のピッチ予測子で、離散的なサンプリング時点の間を効果的に補間して、信号をより正確に表すことができる。更に、より高次のピッチ予測子の周波数応答は周波数の関数として減少する傾向にある。これは、すなわち、より高次のピッチ予測子の方がオーディオ信号の低周波成分のモデル化をうまく行えるということである。これは、音声符号化の場合、低周波成分の方が、高周波成分より感知できる音声信号の質に与える影響が大きいので、好都合である。従って、オーディオ信号を予測するために使われるピッチ予測子の次数を信号の展開に応じて変化させる機能は非常に望ましいものであることが分かる。固定次数のピッチ予測子を用いる符号器は、複雑過ぎる場合もあるが、オーディオ信号のモデル化が十分にできない場合もある。

本発明の一つの目的は、データ伝送システムにおけるオーディオ信号の符号化の正確さと送信の効率とを向上させる方法を実現することである。すなわち、先行技術の方法より正確にオーディオデータを符号化しより効率良く転送することである。本発明に係わる符号器の目的は、伝送される情報量を確実に低く抑えながら、符号化対象オーディオ信号を可能な限り正確にフレーム毎に予測することである。本発明の方法は、請求項１、１２及び１３の特徴部分に提示された点に特徴を有する。本発明の符号器は、請求項１４，１５及び１６の特徴部分に提示された点に特徴を有する。

本発明は、先行技術の解決策に比べて優位性がかなり高い。本発明の方法によれば、先行技術の方法より正確にオーディオ信号を符号化できる。しかも、符号化信号を表すために要する情報量を確実に低く抑えることができる。また、本発明によれば、先行技術による方法よりも柔軟にオーディオ信号の符号化を実行できる。オーディオ信号を予測する正確さ（定性的最大化）をはかるために、符号化オーディオ信号を表すために要する情報量の削減（定量的最小化）をはかるために、あるいは、両者の間のトレードオフを提供するために、本発明を適用することができる。また、本発明の方法によれば、オーディオ信号に存在する異なる周波数の周期性をより適切に考慮にいれることも可能である。

次に、添付の図面を参照して本発明についてより詳細に説明する。

図1は、本発明の好適な実施例に係わる符号器1を示す簡略化ブロック図である。図4は、本発明に係わる方法を示すフロー図400である。符号器1は、例えば、移動通信網やインターネットネットワークなどのデータ伝送システムで送信される符号化信号へとオーディオ信号を変換するための無線通信装置2（図3）の音声符号器である。復号器33は、有利には、移動通信網の基地局に配置される。これに対応して、アナログオーディオ信号例えばマイク29で生成され必要に応じてオーディオブロック30で増幅された信号は、アナログ‐デジタル変換器4でデジタル信号へ変換される。変換の正確さは例えば8あるいは12ビットであり、連続するサンプル間の間隔（時間分解能）は例えば0.125msである。本明細書で示す数値は、本発明を明確に説明するための一例にすぎず本発明を制限するものではない。

オーディオ信号から得たサンプルはサンプルバッファ（図示せず）に格納される。サンプルバッファは、無線通信装置2のメモリ手段5などの周知の手段で実現されうる。有利には、オーディオ信号の符号化は、所定数のサンプルが符号器1へ送信されて符号化されるように、例えば、20ms（＝連続するサンプル間の時間間隔が0.125msならば160個のサンプル）以内に生成されたサンプル全部が符号器1へ送信されて符号化されるように、フレーム毎に実行される。符号化対象フレームのサンプルは、有利には、変換ブロック6へ送信される。ここで、オーディオ信号は、例えば修正離散コサイン変換（MDCT）によって時間領域から変換領域（周波数領域）へと変換される。変換ブロック6の出力は、周波数領域で変換された信号の特性を表す数値群を提供する。この変換は、図4のフロー図のステップ404で表される。

あるいは、時間領域信号を周波数領域へ変換する処理部を、バンドパスフィルタ数個からなるフィルタバンクとして実現してもよい。各フィルタの通過帯域は比較的狭い。フィルタから出力される信号の大きさは、変換対象信号の周波数スペクトルを表す。

遅れブロック7は、以前のサンプルシーケンスのどれが所定の時点で符号化されるフレームに最も良く一致しているかを判定する（ステップ402）。この遅れ判定ステージは有利には次のように実行される。すなわち、遅れブロック7が、基準バッファ8に格納された値と符号化対象フレームのサンプルとを比較して、例えば最小自乗法を用いて符号化対象フレームのサンプルと基準バッファに格納された対応するサンプルシーケンスとの間の誤差を算出する。好適には、連続するサンプルで構成され最小誤差を示すサンプルシーケンスは、サンプルの基準シーケンスとして選択される。

サンプルの基準シーケンスを格納されたサンプルの中から遅れブロック7によって選択すると（ステップ403）、遅れブロック7は、選択したシーケンスに関する情報を係数算出ブロック9へ転送して、ピッチ予測子係数（pitch predictor coefficient）の評価を実行する。係数算出ブロック9では、サンプルの基準シーケンス内のサンプルに基づいて、1と3と5と7などの異なるピッチ予測子次数（pitch predictor orders）に対するピッチ予測子係数b(k)を算出する。そして、算出された係数b(k)はピッチ予測子（pitch predictor）ブロック10へ転送される。図4のフロー図にこれらのステージをステップ405〜411で示す。尚、ここで提示する次数は、単に本発明を明確に説明するための一例であって本発明を限定するものではない。本発明は別の次数ででも適用可能である。また、使用可能な次数の数はここで提示される合計4次でなくてもよい。

ピッチ予測子係数は、このように算出されるとその後量子化される。こうして、量子化されたピッチ予測子係数が求められる。好適には、受信器側の復号器33で生成された再構成信号が誤差のないデータ伝送状態において可能な限り元の信号に近づくように、ピッチ予測子係数を量子化する。ピッチ予測子係数を量子化する際には、丸めによる誤差を最小にするために限りなく高い分解能を用いる（量子化段階を限りなく小さくする）とよい。

格納されたサンプルの基準シーケンス内のサンプルは、ピッチ予測子ブロック10へ転送される。ここで、算出され量子化されたピッチ予測子係数b(k)を使って、ピッチ予測子次数毎に基準シーケンス内のサンプルから予測信号を生成する。各予測信号とは、該当するピッチ予測子次数を使って評価される符号化対象信号を予測したものである。本発明の好適な実施例によれば、予測信号は、次に第二変換ブロック11へ転送されて周波数領域へ変換される。第二変換ブロック11は、二つ以上の異なる次数を使って変換を実行する。こうして、異なるピッチ予測子次数で予測された信号に対応する変換値のセットが生成される。ピッチ予測子ブロック10と第二変換ブロック11とは、ピッチ予測子次数毎に必要な処理を実行するようにして実現されうる。あるいは、別個のピッチ予測子ブロック10と別個の第二変換ブロック11とを次数毎に実現してもよい。

算出ブロック12では、予測信号の周波数領域変換値と変換ブロック6からえられた符号化対象オーディオ信号の周波数領域へ変換されたものとを比較する。符号化対象オーディオ信号の周波数スペクトルとピッチ予測子を使って予測した信号の周波数スペクトルとの差異から予測誤差信号を算出する。有利には、予測誤差信号は、符号化対象信号の周波数成分と予測信号の周波数成分との間の差異に対応する予測誤差値のセットで構成される。オーディオ信号の周波数スペクトルと予測信号の周波数スペクトルとの間の平均差などを表す符号化誤差も算出する。有利には、最小二乗法を用いて符号化誤差を算出する。オーディオ信号の心理音響モデル化（psychoacoustic modelling）を基盤とした方法など別の適宜の方法を使って、符号化対象オーディオ信号を最も良く表わす予測信号を判定してもよい。

ブロック12では、送信チャネルに乗せられる情報を決定するために符号化効率（予測利得）も算出される（ステップ413）。これは、送信情報量（ビット）の最小化（定量的最小化）および信号歪みの最小化（定性的最大化）を目的とする。

受信装置に格納された以前のサンプルに基づいて受信器で信号を再構成するために、例えば、選択次数に対する量子化されたピッチ予測子係数と、次数についての情報と、遅れと、予測誤差情報とを、受信側へ送信することが必要である。有利には、符号化効率は、元の信号に関する情報を送信するのに必要なビット数より少ないビット数で、ピッチ予測子ブロック10で符号化された信号を復号化するのに必要な情報を送信することが可能かどうかを示すものである。この判定処理を実現するために、例えば、復号化に必要な情報を特定のピッチ予測子を使って生成する場合に送信される情報量を表す第一基準値を定義する。ついで、元のオーディオ信号に基づいて復号化に要する情報を形成する場合に送信される情報量を表す第二基準値を定義する。符号化効率は、有利には、第一基準値に対する第二基準値の比率である。予測信号を表すのに要するビット数は、例えば、ピッチ予測子の次数（すなわち、送信される係数の個数）と、各係数が表される（量子化される）精密さと、予測信号に付随する誤差情報の量と精密さとに依存する。一方、元のオーディオ信号に関する情報を送信するのに要するビット数は、例えば、オーディオ信号を周波数領域で表したものの精密さに依存する。

このように判定される符号化効率が1より大きい場合、元の信号に関する情報より少ないビット数で、予測信号を復号化するのに必要な情報を送信できることを示す。算出ブロック12では、異なる方法での送信に必要なビット数を判定して、送信されるビット数が少なくてすむ方法を選択する（ステップ414）。

本発明の第一実施例によれば、最小符号化誤差を実現するためのピッチ予測子次数を選択してオーディオ信号を符号化する（ステップ412）。選択されたピッチ予測子に対する符号化効率が1より大きい場合、予測信号に関する情報を選択し送信する。符号化効率が1より大きくない場合、元のオーディオ信号に基づいて送信情報を形成する。本発明の本実施例では、予測誤差の最小化（定性的最大化）に力点が置かれている。

本発明の第二の有利な実施例によれば、ピッチ予測子次数毎に符号化効率を算出する。最小符号化誤差を提供するピッチ予測子次数を使ってオーディオ信号を符号化する。ここで、このピッチ予測子次数は、符号化効率が1より大きくなるような次数の中から選択される。どのピッチ予測子次数でも予測利得が得られない（すなわち、どの符号化効率も1より大きくない）場合、有利には、元のオーディオ信号に基づいて送信情報を形成する。本発明の本実施例によれば、予測誤差と符号化効率との間のトレードオフ（trade-off）が可能になる。

本発明の第三実施例によれば、ピッチ予測子次数毎に符号化効率を算出して、符号化効率が1より大きくなるような次数の中から最大符号化効率を提供するピッチ予測子次数を選択してオーディオ信号を符号化する。どのピッチ予測子次数でも予測利得を得られない（すなわち、どの符号化効率も1より大きくない）場合、有利には、元のオーディオ信号に基づいて送信情報を形成する。本発明の本実施例は、符号化効率の最大化（定量的最小化）に力点を置いている。

本発明の第四実施例によれば、ピッチ予測子次数毎に符号化効率を算出し、最大符号化効率を提供するピッチ次数を選択してオーディオ信号を符号化する。この場合、符号化効率は1より大きくなくともよい。

符号化誤差の算出とピッチ予測子次数の選択とは、一定間隔毎に好適にはフレーム毎別々に実行される。ここで、異なるフレームで、所定の時点でのオーディオ信号の特性に最もよく対応するピッチ予測子次数を使用することができる。

上記の説明のとおり、ブロック12で判定された符号化効率が1より大きくない場合、元の信号の周波数スペクトルを送信する方がよいことになる。ここでデータ伝送チャネルに乗せるビットストリング501は、有利には、次の手順に従って形成される（ステップ415）。すなわち、選択された送信方法に関する算出ブロック12からの情報を選択ブロック13へ転送する（図1の線D1とD4）。選択ブロック13では、元のオーディオ信号を表す周波数領域変換値を選択して量子化ブロック14へ送信する。元のオーディオ信号の周波数領域変換値の量子化ブロック14への送信を図1のブロック図において線A1で示す。量子化ブロック14では、周波数領域変換信号値をそれ自体周知の方法で量子化する。量子化値は多重化ブロック15へ転送され、送信ビットストリングが形成される。図5の（A）および（B）はそれぞれ、本発明に関連づけて有利に適用されうるビットストリング構造の一例を示す。選択された符号化方法に関する情報は、算出ブロック12から多重化ブロック15へ転送される（線D1とD3）。ここで、送信方法に従ってビットストリングを形成する。第一論理値例えば論理0を、元のオーディオ信号を表す周波数領域変換値を当該ビットストリングで送信する旨を示す符号化方法情報502として用いる。符号化方法情報502の他に、所定の正確さで量子化された値自体もビットストリングで送信する。これらの値の送信に使われるフィールドを図5（A）では参照番号503で示す。ビットストリング毎に送信される数値の個数は、サンプリング周波数と、一度に調べるフレーム長とに依存する。このような状況では、受信器側ではビットストリング501で送信される元のオーディオ信号の周波数領域値に基づいて信号を再構成するので、ピッチ予測子次数情報と、ピッチ予測子係数と、遅れと、誤差情報とは送信されない。

符号化効率が1より大きい場合、選択されたピッチ予測子を使ってオーディオ信号を符号化したほうがよい。また、データ伝送チャネルに乗せるビットストリング501（図5（B)）は、有利には、次の手順に従って形成される（ステップ416）。すなわち、選択された送信方法に関する情報が算出ブロック12から選択ブロック13へ送信される。これを図1のブロック図で線D1とD4で示す。選択ブロック13は、量子化されたピッチ予測子係数を選択して多重化ブロック15へ転送する。これを図1のブロック図において線B1で示す。尚、選択ブロック13を介してではなく別の経路でピッチ予測子係数を多重化ブロック15へ転送してもよい。多重化ブロック15で送信ビットストリングが形成される。選択された符号化方法に関する情報は、算出ブロック12から多重化ブロック15へ転送される（線D1とD3）。ここで、送信方法に応じてビットストリングを形成する。第二論理値例えば論理1を、当該ビットストリングで量子化されたピッチ予測子係数を送信する旨を示す符号化方法情報502として用いる。次数フィールド504のビットは、選択されたピッチ予測子次数に応じて設定される。例えば4個の異なる次数が使用可能な場合、どの次数が所定の時点で選択されるかを示すのにはビット二個（00、01、10あるいは11）で十分である。更に、遅れ情報を遅れフィールド505においてビットストリングで送信する。好適な例では、遅れをビット11個で示しているが、これ以外のビット長でも本発明の範囲内で適用可能である。量子化されたピッチ予測子係数を係数フィールド506に設定することでビットストリングに追加する。選択されたピッチ予測子次数が1の場合、係数は一つだけ送信される。次数が3の場合、係数は三つ送信されるなどである。係数の送信に使われるビット数も実施例によって異なる。有利な実施例では、一次の係数をビット3個で表し、三次の係数をビット5個で表し、五次の係数をビット9個で表し、七次の係数をビット10個で表す。普通、選択次数が高いほど、量子化されたピッチ予測子係数の送信に要するビット数は大きくなる。

オーディオ信号を選択されたピッチ予測子に基づいて符号化する場合、上記の情報に加えて、予測誤差情報を誤差フィールド507に設定して送信することが必要である。この予測誤差情報は、有利には、算出ブロック12で差信号として生成される。差信号は、符号化対象オーディオ信号の周波数スペクトルと、選択されたピッチ予測子の量子化されたピッチ予測子係数をサンプルの基準シーケンスと関連させて使用することで復号化（すなわち、再構成）可能な信号の周波数スペクトルとの間の差異を表す。誤差信号は、例えば第一選択ブロック13を介して量子化ブロック14へ転送されて量子化される。量子化された誤差信号は、量子化ブロック14から多重化ブロック15へ転送される。ここで、量子化された予測誤差値がビットストリングの誤差フィールド507に設定され追加される。

本発明に係わる符号器1は、局所的復号化機能をも備えている。符号化オーディオ信号は、量子化ブロック14から逆量子化ブロック17へ転送される。上述のように、符号化効率が1より大きくない場合、オーディオ信号はその量子化された周波数スペクトル値で表される。この場合、量子化された周波数スペクトル値は逆量子化ブロック17へ転送される。ここで、それ自体周知の方法で逆量子化されて、限りなく正確にオーディオ信号の元の周波数スペクトルが復元される。元のオーディオ信号の周波数スペクトルを表わす逆量子化値は、ブロック17から加算ブロック18へ出力される。

符号化効率が1より大きい場合、オーディオ信号は、例えばピッチ予測子次数情報、量子化されたピッチ予測子係数、遅れ値、及び予測誤差情報などのピッチ予測子情報によって、量子化された周波数領域値の形式で表わされる。上述のように、予測誤差情報は、符号化対象オーディオ信号の周波数スペクトルと、選択されたピッチ予測子とサンプルの基準シーケンスとに基づいて再構成されうるオーディオ信号の周波数スペクトルとの間の差異を表す。従って、この場合、予測誤差情報で構成される量子化された周波数領域値は、逆量子化ブロック17へ転送されて逆量子化される。これによって、予測誤差の周波数領域値が限りなく正確に復元される。このように、ブロック17の出力は逆量子化された予測誤差値で構成される。これらの値は更に加算ブロック18の入力として提供される。ここで、選択されたピッチ予測子を使って予測された信号の周波数領域値と合算される。このようにして、元のオーディオ信号の周波数領域で再構成されたものが形成される。予測信号の周波数領域値は、算出ブロック12から利用できる。この算出ブロック12で、予測信号の周波数領域値は、予測誤差の判定値に関連づけて算出され、図1の線C1で示されるように加算ブロック18へ転送される。

加算ブロック18の処理は、算出ブロック12からの制御情報に従ってゲートされる（オン／オフ切替えされる）。このゲート処理をイネーブルにする制御情報の転送を算出ブロック12と加算ブロック18との間のリンク（図1の線D1とD2）で示す。ゲート処理は、逆量子化ブロック17から出力される様々なタイプの逆量子化された周波数領域値を考慮に入れるために必要である。上述のように、符号化効率が1より大きくない場合、ブロック17の出力は、元のオーディオ信号を表す逆量子化された周波数領域値で構成される。この場合、加算処理は不必要であり、算出ブロック12で構成されるいかなる予測オーディオ信号の周波数領域値に関する情報も必要ない。このような状況では、加算ブロック18の処理は、算出ブロック12からの制御情報で禁止され、元のオーディオ信号を表す逆量子化された周波数領域値は、加算ブロック18を通過する。一方、符号化効率が1より大きい場合、ブロック17の出力は逆量子化された予測誤差値で構成される。この場合、逆量子化された予測誤差値と予測信号の周波数スペクトルとを合算して、元のオーディオ信号の周波数領域で再構成されたものを形成することが必要である。さて、加算ブロック18の処理は、算出ブロック12からの制御情報でイネーブルされる。これによって、逆量子化された予測誤差値と予測信号の周波数スペクトルとが合算される。有利には、必要な制御情報は、オーディオ信号に適用される符号化方法の選択と関連させてブロック12で生成される符号化方法の情報で提供される。

別の実施例によれば、量子化は、予測誤差と符号化効率値との算出前に実行されうる。ここで、予測誤差の算出と符号化効率の算出とは、元の信号と予測信号とを表す量子化された周波数領域値を使って実行される。有利には、量子化は、ブロック6とブロック12との間およびブロック11とブロック12との間に位置する量子化ブロック（図示せず)で実行される。この実施例では、量子化ブロック14は必要としない。ただし、逆量子化ブロックを線C1で示される経路に追加する必要がある。

加算ブロック18の出力は、サンプルの符号化シーケンス（オーディオ信号）に対応するサンプリングされた周波数領域データである。このサンプリングされた周波数領域データはさらに、逆修正離散コサイン変換部（逆修正DCT部）19で時間領域へ変換される。サンプルの復号化シーケンスが、この逆修正DCT部から基準バッファ8へ転送されて格納され、次のフレームの符号化と関連づけて使用される。基準バッファ8の記憶容量は、当該用途の符号化効率要求を満たすために必要なサンプルの数に従って選択される。基準バッファ8の場合、好適には、バッファ内の最も古いサンプルに上書きすることによって、新規のサンプルのシーケンスを格納する。要するに、バッファはいわゆる循環バッファである。

符号器1で形成されるビットストリングは送信器16 へ転送される。送信器16ではそれ自体周知の方法で変調が実行される。変調された信号は、例えば無線周波信号としてデータ伝送チャネル3を介して受信器側へ転送される。有利には、符号化オーディオ信号は、所定のフレームの符号化が終了したほぼすぐ後に、フレーム毎に送信される。あるいは、オーディオ信号は、符号化され送信端末のメモリに格納された後に送信されうる。

受信装置31では、受信器ブロック20においてそれ自体周知の方法でデータ伝送チャネルを介して受信した信号を復調する。復号器33で復調データフレームに含まれる情報を判定する。復号器33の分離（demultiplexing）ブロック21で、ビットストリングの符号化方法情報502に基づいて、受信情報が元のオーディオ信号に基づいて形成されたかどうかを先ず調べる。復号器が、符号器1で形成されたビットストリング501には元の信号の周波数領域変換値が含まれていないと判断すると、有利には次の手順に従って復号が実行される。次数フィールド504からピッチ予測子ブロック24で用いられる次数Mを判定し、遅れフィールド505から遅れを判定する。ビットストリング501の係数フィールド506で受信された量子化ピッチ予測子係数、および次数と遅れとに関する情報を復号器のピッチ予測子ブロック24へ転送する。これを図2に線B2で示す。ビットストリングのフィールド507で受信された予測誤差信号の量子化値は、逆量子化ブロック22で逆量子化されて復号器の合算ブロック23へ転送される。遅れ情報に基づいて、復号器のピッチ予測子ブロック24は、基準シーケンスとして使われるサンプルをサンプルバッファ28から検索し、選択次数Mに従って予測を実行する。ここで、ピッチ予測子ブロック24は、受信されたピッチ予測子係数を利用する。これによって、第一の再構成時間領域信号が生成される。この第一の再構成時間領域信号は、変換ブロック25で周波数領域へ変換されて、この周波数領域信号は加算ブロック23へ転送される。加算ブロック23で、周波数領域信号はこの信号と逆量子化された予測誤差信号との合計値として生成される。このようにして、誤差のないデータ伝送状態では、再構成周波数領域信号は、周波数領域において元の符号化信号と実質的に一致する。この周波数領域信号は、逆変換ブロック26で逆修正DCT（離散コサイン変換）によって時間領域へと変換される。ここでデジタルオーディオ信号が逆変換ブロック26から出力される。この信号は、デジタル／アナログ変換器27でアナログ信号へと変換され、必要に応じて増幅され、それ自体周知の方法で次の処理段階へと送信される。これは、図3に示すオーディオブロック32で示される。

符号器1で形成されるビットストリング501が周波数領域へ変換された元の信号の値で構成される場合、有利には次の手順に従って復号が実行される。量子化された周波数領域変換値を逆量子化ブロック22で逆量子化し、加算ブロック23を介して逆変換ブロック26へ転送する。逆変換ブロック26では、逆修正DCTによって周波数領域信号を時間領域へ変換する。ここで元のオーディオ信号に対応する時間領域信号はデジタル形式で生成される。必要に応じて、この信号をデジタル／アナログ変換器27でアナログ信号へ変換する。

図2のA2は加算ブロック23への制御情報の送信を示す。この制御信号は、符号器の局所的復号機能に関連付けて説明したのと同じように用いられる。すなわち、受信されたビットストリング501のフィールド502に設定された符号化方法情報が、オーディオ信号自体から得た量子化された周波数領域値がビットストリングに含まれていることを示す場合、加算ブロック23の処理を禁止する。これによって、オーディオ信号の量子化された周波数領域値は、加算ブロック23を経て逆変換ブロック26へ送られる。一方、受信されたビットストリングのフィールド502から検索された符号化方法情報が、オーディオ信号がピッチ予測子を使って符号化されたことを示す場合、加算ブロック23の処理をイネーブルとする。これによって、逆量子化された予測誤差データと変換ブロック25によって生成された予測信号の周波数領域で表されたものとが合算される。

図3の例の場合、送信装置は無線通信装置2であり、受信装置は基地局31である。無線通信装置2から送信された信号は、基地局31の復号器33で復号される。基地局からは、アナログオーディオ信号がそれ自体周知の方法で次の処理段階へと送信される。

本例では、本発明を適用するために必要不可欠な機能だけが示されているが、実用のアプリケーションでは、データ伝送システムは本明細書に提示された機能以外の機能も備える。また、本発明に係わる符号化と関連させて短周期予測など別の符号化方法を利用することも可能である。更に、本発明に従って符号化された信号の送信の際には、チャネル符号化など別の処理段階を実行することもできる。

また、予測信号と時間領域での実際の信号との間の対応関係を判定することも可能である。かくして本発明の別の実施例によれば、信号を周波数領域へ変換する必要はない。この場合、変換ブロック6と11は必ずしも必要ではない。また、符号器の逆変換ブロック19および復号器の変換ブロック25と逆変換ブロック26も必ずしも必要ではない。従って、符号化効率と予測誤差とは時間領域信号に基づいて判定される。

先述のオーディオ信号符号化／復号化段階については、移動通信システムや衛星TVシステムやビデオオンデマンドシステムなど、異なる種類のデータ伝送システムに適用することができる。例えば、オーディオ信号が全二重方式で送信される移動通信システムでは、無線通信装置2と基地局31などの両方に符号器と復号器のペアが必要である。図3のブロック図では、無線通信装置2と基地局31との対応する機能ブロックを基本的には同じ参照番号で示す。図3では符号器1と復号器33とを別個の装置として示しているが、実用のアプリケーションでは、符号器1と復号器33とを一つの装置いわゆるコーデックで実現しうる。コーデックでは、符号化と復号化の両方を実行するのに必要な機能全部が実現される。オーディオ信号を移動通信システムにおいてデジタル形式で送信する場合、アナログ／デジタル変換とデジタル／アナログ変換とは、基地局では必要ない。従って、これらの変換処理は無線通信装置とインタフェイスとで実行される。そしてインタフェイスを介して、移動通信網が公衆電話網など別の通信網に接続される。この電話網がデジタル電話網の場合、上記の変換処理は、このような電話網に接続されたデジタル電話（図示せず）などで行われうる。

先述の符号化段階は、必ずしも送信に関連させて実行されるわけではなく、符号化情報は後の送信に備えて記憶されうる。更に、符号器に印加されるオーディオ信号は、必ずしも実時間オーディオ信号でなくてもよい。符号化対象オーディオ信号は、オーディオ信号から早い段階に記憶された情報でもよい。

次に、本発明の有利な実施例に係わる異なる符号化段階について数学的に説明する。ピッチ予測子ブロックの伝達関数は次のように表される。

ここで、αは遅れを示し、b(k)はピッチ予測子の係数を示す。また、m₁とm₂とは有利には次に示すように、次数（Ｍ）に依存する。

ｍ₁＝（Ｍ−１）／２
ｍ₂＝Ｍ−ｍ₁−１
有利には、最も良く一致するサンプルのシーケンス（すなわち、基準シーケンス）は最小自乗法を用いて決められる。これは次の数式で表される。

遅れαは、変数ｍ₁とｍ₂とを0に設定し、方程式(2)を解いてｂを求めることによって算出されうる。遅れαを求める別の方法は、正規化相関法を用いる方法であり次の数式で表される。

最も良く一致する（基準）サンプルシーケンスが見つかった段階で、遅れブロック7は遅れについての情報を得る。すなわち、遅れブロック7は、どのくらい早い段階で対応するサンプルシーケンスがオーディオ信号に出現していたかについての情報を得る。

ピッチ予測子係数ｂ(ｋ)は、方程式(2)から次数Ｍ毎に算出されうる。方程式(2)を次のように書き直すことができる。

この方程式は行列形式で書くこともできる。この場合、係数ｂ(ｋ)は行列方程式を解くことによって求められる。

本発明に係わる方法においては、先行技術に係わるシステムにおける場合より効果的にオーディオ信号の周期性を利用することをその目的とする。これは、いくつかの次数に対してピッチ予測子係数を算出することによってオーディオ信号の周波数変化に対する符号器の適応力を増加させることで達成される。オーディオ信号の符号化に使われるピッチ予測子次数については、予測誤差を最小にするか、符号化効率を最大にするか、予測誤差と符号化効率との間の取捨（trade-off）を可能にするような次数を選択しうる。この選択は一定の間隔毎に、好適にはフレーム毎に独立して実行される。次数とピッチ予測子係数とはフレーム毎に変えられる。本発明に係わる方法では、固定した次数を用いる先行技術の符号化方法に比べて符号化の柔軟性を向上させることができる。更に、本発明の方法によれば、所定のフレームに対して送信される情報の量（ビット数）を符号化で削減できない場合、元の信号を周波数領域へ変換させて、ピッチ予測子係数と誤差信号との代わりに送信することができる。

本発明に係わる方法で用いられる前述の算出手順は、有利には、デジタル信号処理装置などでの制御部34のプログラムコードとしてプログラム形式で実現させることができ、しかも／あるいはハードウェアとして実現させることができる。上記の本発明の説明に基づき、本発明に係わる符号器1を実現させることは当業者なら可能である。従って、符号器1の異なる機能ブロックについてここで詳細に検討する必要はない。

前記ピッチ予測子係数を受信器へ伝送するために、いわゆるルックアップテーブルを使用することができる。この場合、ルックアップテーブルには異なる係数値が記憶される。ここで係数の代わりに、ルックアップテーブル内に記憶された係数のインデックスが送信される。ルックアップテーブルは符号器1と復号器33の両方に知らされる。受信段階では、送信されたインデックスに基づいてルックアップテーブルを用いて当該ピッチ予測子係数を判定することができる。場合によっては、ルックアップテーブルを使用することで、送信されるビット数がピッチ予測子係数を送信する場合に比べて減少することがある。

本発明は上記の実施例に限定されるものではない。また、あらゆる点で限定されるものではなく、特許請求の範囲内で修正可能である。

本発明の好適な実施例に係わる符号器を示す図である。本発明の好適な実施例に係わる復号器を示す図である。本発明の好適な実施例に係わるデータ伝送システムを示す簡略化ブロック図である。本発明の好適な実施例に係わる方法を示すフロー図である。（A）および（B）はそれぞれ、本発明の好適な実施例に係わる符号器によって生成されるデータ伝送フレームの一例を示す図である。

Claims

オーディオ信号を符号化する方法であって、少なくとも、
符号化対象オーディオ信号の一部を調べて、サンプルバッファに格納された、前記符号化対象オーディオ信号の一部に実質的に一致する、以前のオーディオ信号の一部を求める段階と、
前記オーディオ信号の一部に実質的に一致する、前記の格納されたオーディオ信号の一部に基づいて、異なるピッチ予測子次数に対する予測信号を生成して、該予測信号のセットを生成する段階と、
前記の符号化対象オーディオ信号の一部を示す情報を使って、各前記予測信号に対する符号化効率を判定する段階と、
前記の判定された符号化効率を使って、前記符号化対象オーディオ信号の一部に対して、（ｉ）前記予測信号に基づいて符号化する第１の符号化方法、又は（ｉｉ）前記オーディオ信号自体に基づいて符号化する第２の符号化方法を選択する段階と、
各前記予測信号に対する符号化誤差を判定する段階と、
前記の第１の符号化方法が選択される場合には、前記の判定された符号化誤差を使って、各前記予測信号に対して判定された符号化誤差を比較し、それにより最小符号化誤差を生成するピッチ予測子次数を選択することによって、前記の選択された符号化方法に対するピッチ予測子次数を選択する段階と、
がなされることを特徴とする方法。
前記符号化誤差は前記予測信号の各々に対して判定され、また符号化は、判定された符号化誤差が、符号化対象オーディオ信号の一部に基づいて符号化が実行される場合よりも符号化誤差が少ないことを示す場合に、最小符号化誤差を提供する予測信号に基づいて実行されることを特徴とする請求項１に記載の方法。
前記符号化対象オーディオ信号の一部は周波数領域へ変換されて、そのオーディオ信号の周波数スペクトルが判定され、また各予測信号は周波数領域へ変換されて、各予測信号の周波数スペクトルが判定され、そして前記符号化効率は、前記オーディオ信号の周波数スペクトルと前記予測信号の周波数スペクトルとに基づいて予測信号毎に判定されることを特徴とする請求項２に記載の方法。
予測誤差情報は前記予測信号の各々に対して判定されることを特徴とする請求項２に記載の方法。
前記予測信号は、前記予測信号の各々に対して異なる予測次数を使用することによって形成されることを特徴とする請求項２に記載の方法。
前記予測信号の各々に対して判定される前記予測誤差情報は、前記オーディオ信号の周波数スペクトルと前記予測信号の周波数スペクトルとを使って表される差のスペクトルとして算出されることを特徴とする請求項４に記載の方法。
前記周波数領域への変換は修正離散コサイン変換（DCT）を用いて実行されることを特徴とする請求項３に記載の方法。
前記予測信号の符号化情報（501）は、少なくとも符号化方法に関するデータ（502）と、選択次数に関するデータ（504）と、遅れ（505）と、ピッチ予測子係数（506）と、予測誤差に関するデータ（507）と、で構成されることを特徴とする請求項１〜７のいずれか一項に記載の方法。
前記オーディオ信号は各フレームに分割され、符号化は、前記オーディオ信号から形成された各フレーム毎に別個に実行されることを特徴とする請求項１〜８のいずれか一項に記載の方法。
前記オーディオ信号は音声信号であることを特徴とする請求項１〜９のいずれか一項に記載の方法。
前記の符号化されたオーディオ信号は受信装置へ送信されることを特徴とする請求項１〜１０のいずれか一項に記載の方法。
オーディオ信号を符号化する方法であって、少なくとも、
符号化対象オーディオ信号の一部を調べて、サンプルバッファに格納された、前記符号化対象オーディオ信号の一部に実質的に一致する、以前のオーディオ信号の一部を求める段階と、
前記オーディオ信号の一部に実質的に一致する、前記の格納されたオーディオ信号の一部に基づいて、異なるピッチ予測子次数に対する予測信号を生成して、該予測信号のセットを生成する段階と、
前記の符号化対象オーディオ信号の一部を示す情報を使って、各前記予測信号に対する符号化効率を判定する段階と、
前記の判定された符号化効率を使って、前記符号化対象オーディオ信号の一部に対して、（ｉ）前記予測信号に基づいて符号化する第１の符号化方法、又は（ｉｉ）前記オーディオ信号自体に基づいて符号化する第２の符号化方法を選択する段階と、
各前記予測信号に対する予測誤差を判定する段階と、
前記の第１の符号化方法が選択される場合には、前記の判定された予測誤差を使って、各前記予測信号に対して判定された予測誤差を比較し、それにより最小予測誤差を生成するピッチ予測子次数を選択することによって、前記の選択された符号化方法に対するピッチ予測子次数を選択する段階と、
がなされることを特徴とする方法。
オーディオ信号を符号化する方法であって、少なくとも、
符号化対象オーディオ信号の一部を調べて、サンプルバッファに格納された、前記符号化対象オーディオ信号の一部に実質的に一致する、以前のオーディオ信号の一部を求める段階と、
前記オーディオ信号の一部に実質的に一致する、前記の格納されたオーディオ信号の一部に基づいて、異なるピッチ予測子次数に対する予測信号を生成して、該予測信号のセットを生成する段階と、
前記の符号化対象オーディオ信号の一部を示す情報を使って、各前記予測信号に対する符号化効率を判定する段階と、
前記符号化対象オーディオ信号の一部に対して、前記予測信号に基づいて符号化する第１の符号化方法を選択する段階と、
前記の判定された符号化効率を使って、各前記予測信号に対して判定された符号化効率を比較し、それにより最大符号化効率を生成するピッチ予測子次数を選択することによって、前記選択された符号化方法に対するピッチ予測子次数を選択する段階と、
がなされることを特徴とする方法。
オーディオ信号を符号化する手段を有する符号器であって、該符号器は、
符号化対象オーディオ信号の一部を調べて、サンプルバッファに格納された、前記符号化対象オーディオ信号の一部に実質的に一致する、以前のオーディオ信号の一部を求める手段と、
前記オーディオ信号の一部に実質的に一致する、前記の格納されたオーディオ信号の一部に基づいて、異なるピッチ予測子次数に対する予測信号を生成して、該予測信号のセットを生成する手段と、
前記の符号化対象オーディオ信号の一部を示す情報を使って、各前記予測信号に対する符号化効率を判定する手段と、
前記の判定された符号化効率を使って、前記符号化対象オーディオ信号の一部に対して、（ｉ）前記予測信号に基づいて符号化する第１の符号化方法、又は（ｉｉ）前記オーディオ信号自体に基づいて符号化する第２の符号化方法を選択する手段と、
各前記予測信号に対する符号化誤差を判定する手段と、
前記の第１の符号化方法が選択される場合には、前記の判定された符号化誤差を使って、各前記予測信号に対して判定された符号化誤差を比較し、それにより最小符号化誤差を生成するピッチ予測子次数を選択することによって、前記の選択された符号化方法に対するピッチ予測子次数を選択する手段と、
を有してなることを特徴とする符号器。
オーディオ信号を符号化する手段を有する符号器であって、該符号器は、
符号化対象オーディオ信号の一部を調べて、サンプルバッファに格納された、前記符号化対象オーディオ信号の一部に実質的に一致する、以前のオーディオ信号の一部を求める手段と、
前記オーディオ信号の一部に実質的に一致する、前記の格納されたオーディオ信号の一部に基づいて、異なるピッチ予測子次数に対する予測信号を生成して、該予測信号のセットを生成する手段と、
前記の符号化対象オーディオ信号の一部を示す情報を使って、各前記予測信号に対する符号化効率を判定する手段と、
前記の判定された符号化効率を使って、前記符号化対象オーディオ信号の一部に対して、（ｉ）前記予測信号に基づいて符号化する第１の符号化方法、又は（ｉｉ）前記オーディオ信号自体に基づいて符号化する第２の符号化方法を選択する手段と、
各前記予測信号に対する予測誤差を判定する手段と、
前記の第１の符号化方法が選択される場合には、前記の判定された予測誤差を使って、各前記予測信号に対して判定された予測誤差を比較し、それにより最小予測誤差を生成するピッチ予測子次数を選択することによって、前記の選択された符号化方法に対するピッチ予測子次数を選択する手段と、
を有してなることを特徴とする符号器。
オーディオ信号を符号化する手段を有する符号器であって、該符号器は、
符号化対象オーディオ信号の一部を調べて、サンプルバッファに格納された、前記符号化対象オーディオ信号の一部に実質的に一致する、以前のオーディオ信号の一部を求める手段と、
前記オーディオ信号の一部に実質的に一致する、前記の格納されたオーディオ信号の一部に基づいて、異なるピッチ予測子次数に対する予測信号を生成して、該予測信号のセットを生成する手段と、
前記の符号化対象オーディオ信号の一部を示す情報を使って、各前記予測信号に対する符号化効率を判定する手段と、
前記符号化対象オーディオ信号の一部に対して、前記予測信号に基づいて符号化する第１の符号化方法を選択する手段と、
前記の判定された符号化効率を使って、各前記予測信号に対して判定された符号化効率を比較し、それにより最大符号化効率を生成するピッチ予測子次数を選択することによって、前記選択された符号化方法に対するピッチ予測子次数を選択する手段と、
を有してなることを特徴とする符号器。
前記ピッチ予測子次数のセットのそれぞれの符号化効率を示す各前記予測信号についての基準値を算出する手段と、
各前記基準値同士を比較する手段と、をそなえ、
前記の判定された符号化効率を使用する手段は、最小の基準値に基づいて前記ピッチ予測子次数を選択するようにされていることを特徴とする請求項１４〜１６のいずれか一項に記載の符号器。
前記オーディオ信号自体を符号化する手段（4，6，14）を有してなることを特徴とする請求項１４〜１６の何れか一項に記載の符号器。