JP4687658B2

JP4687658B2 - 画像の認識装置

Info

Publication number: JP4687658B2
Application number: JP2007018110A
Authority: JP
Inventors: 美樹男笹木
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2007-01-29
Filing date: 2007-01-29
Publication date: 2011-05-25
Anticipated expiration: 2015-09-29
Also published as: JP2007189704A

Description

本発明は、画像信号を可変長符号を用いて圧縮した符号化ビットストリームとして符号化して送信するようにした画像信号の符号化処理に適した画像の認識装置に関する。

近年、情報通信端末のマルチメディア化が急速に進んでおり、電話においてもデジタルデータ伝送に基づく様々な付加価値を創成していくことが今後のビジネス展開において必須である。特に、ＰＨＳ（personal handy phone system ）では、既に従来の音声，文字情報のみならず、自然静止画さらには動画をも伝送することが本格的に検討されており、電話機のマルチメディア化はごく近い将来に当たり前のことになることが予想される。

しかし、このような画像信号を伝送するにあたって、無圧縮状態では約１６６Ｍｂｐｓに相当する信号量のＴＶ映像をどうやってＰＨＳ（３８４ｋｂｐｓの内、画像の割り当ては３２ｋｂｐｓあるいは４８ｋｂｐｓ）や既存の電話回線の伝送レート（１０ｋｂｐｓ程度）で伝送するかという問題がある。

ここで、従来のＴＶ会議やビデオＣＤに用いられている動画像圧縮技術が要求される。しかし、この規格においても、例えば現行のＴＶ会議用規格ＩＴＵ−Ｔ／Ｈ．２６１では、６４ｋｂｐｓ〜２Ｍｂｐｓ、ＩＳＯ／ＭＰＥＧ１では１．５Ｍｂｐｓ程度を対象としており、６４ｋｂｐｓ以下の超低レート伝送には対応するようになっていない。なお、１９９５年１１月に勧告されるＨ．２６３規格は４．８ｋｂｐｓ〜６４ｋｂｐｓを対象としているが、内容が未公開となっているので、その方式を認識することができない実情である。また、その規格では、Ｈ．２６１との接続性が補償されていないものである。

さらには、このような動画像圧縮技術は、有線系を対象としたものが主であり、例えば、移動体通信における無線系の通信において発生するデータ伝送誤りのレベル（１０の−２〜−３乗程度）に対する対策が完全に施されておらず、無線系においては、通常は、ＡＲＱ（automatic repeat request）による再送要求を用いたデマンドリフレッシュと呼ばれる方法が用いられる。ところが、このようなＡＲＱを用いる場合には、受信側においては、画像情報の再送が完了するまでは、ピクチャーがフリーズすることが避けられない。したがって、電波事情が悪い所ではピクチャーがフリーズした状態が継続してしまうということになって実質的に動画伝送が不可能になる不具合がある。

一方で、静止画伝送では、データを重要度に応じてグループ分割し、レート制御するという方法が提案されてはいるが、実用には至っていない。また、３８４ｋｂｐｓ程度の伝送レートではデータ伝送順序の変更と誤り訂正符号により伝送誤りに対処した例が報告されているが、６４ｋｂｐｓ以下の超低レート無線伝送における報告はまだない。

本発明は、上記事情に鑑みてなされたもので、その目的は、画像信号の符号化処理に適した機能として、ＰＨＳやデジタル携帯電話などの超低レート伝送での動画像の伝送を可能としながら、データ再送モードの発生やピクチャーフリーズの発生を極力抑制することができるようにした画像の認識装置を提供することにある。

画像の認識装置について、請求項１のようにすることにより、符号化制御モードとして、モデルベースモードを設定することで、三次元モデルに基づいてその動きに対応する位置情報や色情報を符号化データとして伝送することにより符号発生量を極力抑制した符号化制御を行うことができるようになる。また、対象領域抽出手段によって画面中に存在する対象の領域を抽出し、その対象領域情報を属性データとして符号化手段により画像信号に付加して伝送するので、伝送量の低減を図ることができるようになる。さらに対象領域をブロック単位で指定される属性情報としての動ベクトルの発生領域を検出することにより抽出することができるようになる。この場合において、請求項２では、二次元テンプレートを用いることにより距離情報を算出可能となり、請求項３では、二次元動き情報に基づいて特徴領域の位置データから三次元モデルの位置姿勢を推定することができるようになる。

請求項４のようにすることにより、画像信号の解析によるモードの判定に情報が不足する場合に、あらかじめ設定された遷移確率値に基づいて実用上において確率の高い側のモードに自動的に遷移させることができるようになる。この場合において、請求項５では、遷移確率値に基づいて遷移した結果を評価してその誤差値が大きくなるときにはその誤差を抑制するように遷移確率値を更新設定させるので、使用するにしたがって使用形態に適合したモード間遷移を達成できるようになる。そして、請求項６では、上述の評価に当たっては、二次元テンプレート，色解析結果あるいは速度・加速度評価などによって確実に行うことができるようになる。

また請求項７では、３フレーム以上に渡る時間方向の解析を行って動ベクトルの発生領域を検出するので、対象領域を確実に検出することができるようになり、請求項８では、対象領域を最大動ベクトルが発生しているブロックを検出してそれを含む領域を主領域として推定するので、高い確率で対象領域を抽出することができるようになる。さらに、請求項９では、最大動ベクトルの検出に際して、パニングベクトル演算手段により計算されたパニングベクトルを差し引いた上で対象領域を抽出することができるようになる。

また、請求項１０では、対象領域の抽出に際して、動きブロックで構成されるブロックパターンからその特徴量を算出し、テンプレート情報の有無に応じてスケーリングを行うので、テンプレートの選択と適合化処理を迅速に行うことができるようになる。この場合において、請求項１１では、テンプレート情報をブロック単位の属性情報としてモデルベース伝送することができる。また、請求項１２では、画面中の対象が二次元的に移動するパターンを分析することにより簡易的に動きを検出することができるようになる。

請求項１３では、限定された環境下の人物モードにおいては、三次元モデルの透視変換を行うことによって二次元テンプレートを生成することができるようになる。そして、請求項１４では、モード情報に従った制御状態に基づいて対象領域のカテゴリーを判定し、これによって、状態遷移を行うための判定条件に移行することができるようになる。また、請求項１５では、上述の対象領域のカテゴリーの判定をブロック単位で設定される属性情報に基づいて行うことができるようになる。

請求項１６のようにすることにより、対象領域抽出手段により、強制イントラフレームが伝送された時点では領域抽出処理を行って、対象領域から推定される背景領域の情報を指定して伝送するので、復号化装置側でこの情報を利用して復号化処理を的確に行うことができるようになる。この場合において、請求項１７では、復号化装置側で指定された情報に基づいて背景情報を記憶しておくことにより、対象領域部分の情報量が増えたときに背景領域の情報については記憶した情報を参照して再生することができるようになり、符号発生量の増加を防止しながら、動画再生を保持できるようになる。そして、請求項１８では、符号化処理する際に、背景領域情報として指定した情報に伝送中の人物情報に合成するデータを付すことで、復号化装置側では、対象領域部分の人物情報により再生される人物画像と、過去のフレームで復号化処理した背景領域情報とを合成することにより、背景領域の画像を付加した画像を再生させることができるようになる。

以下、本発明を自動車電話を想定した構成に適用した場合の一実施例について図面を参照しながら説明する。
図１には符号化装置としての符号化器１を、図２には復号化装置としての復号化器２の機能的なブロック構成をそれぞれ示している。以下、図１および図２を参照して全体構成について概略的に説明する。

図１に示す符号化器１において、撮像手段としてのカメラ３は対象物を撮影して画像データを通常のアナログ信号で映像ソースとして出力するようになっている。この場合、映像ソースとしては、カメラ３のような撮像手段によるものに限らずあらかじめ記憶されたビデオ信号などを用いることも利用可能である。このカメラ３により撮影された画像データによる映像ソースは、切換スイッチ４を介してＡ／Ｄ変換器５に入力され、デジタル信号に変換されるようになっている。Ａ／Ｄ変換器５は切換スイッチ６を介して直交変換部７に接続されている。また、この場合、Ａ／Ｄ変換器５は減算器８および切換スイッチ６を介した状態でも直交変換部７に接続されている。そして、切換スイッチ６の切換設定により減算器８を介在させるか否かを切換制御するようになっている。

直交変換部７は、Ｈ．２６１規格のものと同様にＣＩＦ形式に沿ってブロック単位で原画像または予測差分画像に二次元直交変換（この実施例ではＨ．２６１規格に従うので離散コサイン変換（ＤＣＴ））を施すもので、その変換出力を量子化部９に出力するようになっている。量子化部９は、直交変換部７から与えられる変換係数データを直線量子化またはデッドゾーン付き量子化により９ビット精度で量子化変換するようになっており、通信路符号化部１０に出力する。通信路符号化部１０は、所定の変換ルールにしたがって量子化部９からの量子化変換された画像信号を符号化ビットストリームに変換するもので、ＦＩＦＯバッファ１１に一旦蓄積した後、有線路あるいは無線路などの通信路１２に出力するようになっている。

さて、逆量子化部１３は、量子化部９により変換された量子化信号が与えられるもので、量子化部９にて量子化した画像信号を再び量子化前のデジタルデータに変換して逆変換部１４に出力する。逆変換部１４は、デジタルデータをアナログデータに変換して映像ソースから取り込んだときの画像データとほぼ同じになるように復元して加算器１５を介して予測メモリ１６に出力する。予測メモリ１６は、映像ソースから取り込んだ画像データに基づいて次のフレームにおける画像データの予測を行うためのもので、ループフィルタ１７および切換スイッチ１８を介して減算器８に減算信号として出力するようになっている。

ループフィルタ１７は、隣接するブロックとの間の色や輝度の急激な変化を抑制するためにスムージングを行う空間的ローパスフィルタの働きをするもので、その出力は、切換スイッチ１８から他の切換スイッチ１９を介して加算器１５に加算信号として与えるようになっている。また、予測メモリ１６の出力は動き検出部２０に与えられるようになっており、この動き検出部２０は、Ａ／Ｄ変換器５から与えられる映像ソースの画像データとの両者のデータから、フレーム間の動きを補償するように量子化部９に信号を与えると共に通信路符号化部１０に信号を与える。

また、符号化制御部２１は、符号化処理の各種の制御を実行するもので、直交変換部７から変換情報が与えられると共にＦＩＦＯバッファ１１からバッファ使用率などのデータが与えられるようになっており、これらのデータに基づいて、量子化部９の量子化変換のレベルを設定する適応量子化制御を行うと共に、適応レート制御を行うようになっている。また、符号化した結果得られる画像信号の属性データを記憶する属性メモリ２２は、符号化制御部２１から記憶すべき属性データが入力されるようになっており、属性予測部２３はその属性メモリ２２に記憶されている過去の属性データに基づいて現在符号化処理中の属性データを予測して符号化制御部２１に与えるようになっている。そして、以上により、Ｈ．２６１規格をベースとした符号化処理部２４が構成されている。

次に、本実施例において付加されている特徴的な構成について説明する。すなわち、領域抽出・認識処理部２５は、次のように構成される。対象領域抽出部２６は、動き検出部２０から与えられる動きベクトルの情報に基づいて後述するような対象領域抽出処理を実行するもので、テンプレートデータベース２７に情報を出力する。２Ｄ（二次元）テンプレートマッチング部２８はテンプレートデータベース２７からのデータに基づいてマッチング処理を行い、対象領域抽出部２６および通信路符号化部１０に処理結果を出力する。

モデルベース予測部２９は、三次元形状データベース３０からデータを呼び出すと共に人物メモリ３１および背景メモリ３２の記憶データに基づいてモデルベースモードにおける画像再生の処理を行うもので、その処理結果を通信路符号化部１０および切換スイッチ１８を介して減算器８に減算入力として与えるようになっている。人物メモリ３１および背景メモリ３２は、対象領域抽出部２６から記憶すべき人物データおよび背景データが入力されるようになっている。

さらに、この符号化器１には、これのモード制御を行うためのモード制御部３３が接続されており、後述するようにして種々のモード制御の詳細な内容が実施されるようになっている。また、このモード制御部３３には、使用者との間の情報の授受を行うためのヒューマンインターフェイス３４が接続されている。ヒューマンインターフェイス３４は、具体的には、表示部，音声入出力部あるいは操作入力部等を備えたもので、モード制御を迅速且つ適切に実施するために制御されるようになっている。モード制御部３３は、復号化器２側とも接続されており、作用の項にて説明するように、復号化器２の各部のモード制御についても同様に行うようになっており、同様にして復号化器２においてもヒューマンインターフェイス３４を利用することができるようになっている。

なお、このヒューマンインターフェイス３４を通じて人物画像情報を人物メモリ３１内に個人識別情報として登録記憶することができるようになっており、この個人識別情報は、適宜のタイミングでヒューマンインターフェイス３４を介して入力される情報に基づいて人物メモリ３１から呼び出されると共に、登録された個人識別情報として通信以外の場合でも表示可能な構成とされている。

次に、図１に示す復号化器２において、伝送路を介して送信される画像信号データの符号化されたビットストリームを受信する通信路復号化部３５は、階層的符号化属性（マクロブロックタイプなど）を復号化して出力するもので、Ｈ．２６１規定に準じた基本構成をなす復号化処理部３６に接続されている。また、誤り訂正機能を実行するための構成として、パターン・信号レベルの誤り訂正部３７、認識レベルの処理部３８および各種データを記憶するための記憶手段としてのメモリ３９から構成されている。また、復号化処理に当たっては前述のモード制御部３３が上述した各部と信号のやり取りを行うことにより制御するようになっており、最終的に復号化された画像信号は切換スイッチ４０およびＤ／Ａ変換器４１を介して出力されるようになっている。

上記した通信路復号化部３５において、外部の通信路あるいは空中等の伝送路１２を介して送信される画像信号の符号化ビットストリームデータは、ＦＩＦＯバッファ４２に入力され、少なくとも１フレーム分のデータが蓄積されるようになっている。ＦＩＦＯバッファ４２に蓄積された符号化ビットストリームデータは、パーザ４３において符号レベルの文法的な解釈がなされるようになっている。ファジイマッチング部４４は、ＦＩＦＯバッファ４２内に蓄積されているビットストリームデータをグローバルに検索し特定コードで記述されたＰＳＣ，ＧＢＳＣをファジイマッチング処理により特定すると共に、同じく特定コードで記述されたＥＳＣ，ＥＯＢなどを検索して特定し、それらの位置を記憶部４５に記憶し、後述するように誤り訂正機能の実行時に利用するようになっている。

また、パーザ４３は、ファジイマッチング部４４にて検索された特定コードの位置を基準として他のコードやデータの検索や文法解釈を行うようになっており、その際には、可変長符号（ＶＬＣ）の対照表４６を参照する。誤り判定部４７は、ファジイマッチング部４４により特定された特定コードの位置に基づいてパーザ４３において文法的解釈を行う場合に、誤りがあるか否かを判定し、誤りを検出した場合にはこれを符号レベルで訂正して出力するようになっている。そして、パーザ４３は、ビットストリームデータの復号化処理により得られたモード情報をモード制御部３３に出力するようになっている。

復号化処理部３６において、逆量子化部４８は、パーザ４３から復号出力が与えられるようになっており、量子化されている画像信号のデータを逆量子化変換して逆変換部４９に出力する。逆変換部４９は、画像信号に含まれる周波数信号に対応した直交変換データを位置信号に対応したデータに逆変換することにより復号データとして出力する。

逆変換部４９の出力は、パターン・信号レベルの誤り訂正部３７の誤り判定・補正部５０に入力される経路と、切換スイッチ５１および加算器５２を介して誤り判定・補正部５０に入力される経路とが設けられている。予測メモリ５３は、誤り判定・補正部５０および動き補償部５４からデータが与えられるようになっており、ループフィルタ５５および切換スイッチ５６を介して加算器５２の加算入力に接続される。

パターン・信号レベルの誤り訂正部３７において、誤り判定・補正部５０は、フレームメモリ５７にデータを与え、画素値推定部５８，画像推定部５９を介して推定画像データが与えられるようになっている。動ベクトル推定部６０はメモリ３９からデータを得て動き補償部５４に推定された動ベクトルデータを出力する。また、属性推定部６１は、メモリ３９に記憶された過去の属性データを読出して復号化処理部３６の復号化制御部６２に与えて逆量子化部４８および逆変換部４９の復号動作に関する情報を与える。

メモリ３９は、モード情報部３９ａ，領域情報部３９ｂ，パターン属性部３９ｃ，２Ｄ（二次元）動ベクトル部３９ｄおよび個人識別情報部３９ｅの各記憶部から構成される。
認識レベルの処理部３８において、モデルベース予測部６３は、三次元形状データベース６４から３Ｄ（三次元）形状データ６４ａが与えられ、人物画像データベース６５から人物画像のデータが与えられるもので、モデルベース予測を行って誤り判定・補正部５０にデータを出力する。人物画像データベース６５および三次元形状データベース６４はメモリ３９からデータが与えられる。

背景情報記憶手段としての背景メモリ６６および人物情報記憶手段としての人物メモリ６７は、Ｄ／Ａ変換器４１に出力される画像信号のうちの背景情報および人物情報が記憶可能に構成されており、フレームメモリ５７にデータを出力すると共に、人物画像データベース６５との間でデータの授受を行う。領域再生部６８は、メモリ３９からのデータに基づいてテンプレートデータベース６９にて選択された２Ｄ（二次元）テンプレート６９ａが与えられ、領域再生を行ってフレームメモリ５７に出力するようになっている。

次に本実施例の作用について図３ないし図６８を参照して説明する。なお、以下の説明においては、［Ａ］符号化器にて符号化器１における画像信号の符号化処理の動作内容について説明し、［Ｂ］復号化器にて復号化器２における符号化ビットストリームの復号化処理の動作内容について説明する。そして、［Ａ］符号化器においては、符号化処理過程における符号量の超低レート化のための各種の手法を項目別に列挙する（［Ａ−１］〜［Ａ−４］の項）と共に、その動作説明を符号化処理プログラムのフローチャート（図５〜図７）を中心として説明し（［Ａ−５］の項）、［Ｂ］復号化器においては、復号化処理過程における復号誤りの検出と訂正の各種の手法を項目別に列挙する（［Ｂ−１］〜［Ｂ−８］の項）と共に、その動作説明を復号化処理プログラムのフローチャート（図８〜図１１）を中心として説明する（［Ｂ−９］の項）。

［Ａ］符号化器
［Ａ−１］基本動作
符号化器１の動作について、まず、基本動作について説明する。符号化器１においては、その基本動作として、カメラ３により撮影した画像のデータを取り込んで、その画像信号の符号化処理を行って符号化ビットストリームのデータとして通信路１２に出力するようになっており、この場合に、第１フレームの符号化処理と、第２フレーム以降の符号化処理とに分けて実施するようになっている。

まず、第１フレームでは、カメラ３により撮影された対象物を含むシーンを供給する映像ソースをＡ／Ｄ変換部５でデジタル信号に変換し、この後、Ｈ．２６１の規格に準じてＣＩＦ形式に沿ったマクロブロック単位でフレーム内符号化（ＩＮＴＲＡ）を実行し、これをＩＮＴＲＡピクチャーとして伝送する。

また、第２フレーム以降では、第１フレームに対する動き補償予測差分のみが２次元直交変換（ここではＨ．２６１に準拠したＤＣＴ（離散コサイン変換））を受けた後に、符号化制御部２１によりバッファ量や符号化レートその他の符号化器１の状態値に応じた適応量子化を受けた後に通信路符号化部１０を経て出力ＦＩＦＯバッファ１１に一時的に蓄積記憶されるようになる。この出力ＦＩＦＯバッファ１１によって、フレーム単位で情報量が異なる符号化ビットストリームが所定の符号化レートに合わせて通信路に送出されるようになる。

なお、符号化ビットストリームは、後述するようにＣＩＦ（common intermediate format；共通中間フォーマット）形式の基準にしたがって、ＰＩＣＴＵＲＥ／ＧＯＢ／ＭＢＫ／ＢＬＫ（図３０参照）の４階層構造としたデータに変換されており、ＢＬＫ（ブロック）階層のＤＣＴ有意係数の列を表現する可変長符号の集合に対して各階層毎に属性ヘッダを付した状態で生成される。一方、動き補償予測フレームは、図１のフレーム加算ループの出力として生成され、原画像と比較されて新たな差分情報を符号化機構に送り込むようになっている。

さて、上述の符号化過程において、本実施例の符号化器１では、以下に示すごとくの独自な処理を実施することにより、超低ビットレートの符号化処理を実行するようになっている。

すなわち、本実施例においては、既存のＴＶ会議，ＴＶ電話用動画像圧縮国際標準であるＨ．２６１規格をベースとした前提において、独自な処理過程として、モード制御機能および領域抽出機能を付加した構成としている。そして、このような構成のもとで、符号化制御，シンタックス変更等の処理を、信号，パターン，符号，認識の各レベルで実行し、最終的に６４ｋｂｐｓ〜４．８ｋｂｐｓ程度の超低レート画像符号化の実現を行ったものである。なお、これらの制御内容の概念的な相関関係を図３に示している。

そして、以下においては、［Ａ−２］モード制御，［Ａ−３］対象領域の抽出，［Ａ−４］符号化制御動作，［Ａ−５］符号化処理プログラムに従った動作の説明の大項目に分け、各大項目中においてさらに小項目に分類して符号化方式の原理と方法について説明する。

［Ａ−２］モード制御
図３は本実施例における符号化の超低レート化の内容について概念的に示しているもので、本実施例で行うモード制御については、例えば（１）使用環境，（２）被写体，（３）符号化制御の３つのカテゴリーでそれぞれモード制御を行うように構成されており、この場合に、それぞれのモード制御におけるモードの進行は全く独立に行われるとは限らず、例えば、各カテゴリー内で同時に２つ以上のモードを用いて符号化を行うこともあり得る。

そして、これらの遷移関係は符号化器１や復号化器２の状態つまり、ＦＩＦＯバッファ１１のバッファ量，現在設定されているモード状態，符号化レートあるいは動き発生量などの状態や判定情報によって支配される場合と、確率的状態遷移に依存する場合との２つのケースがある。以下においては、これらのカテゴリー（１）〜（３）および状態遷移の違いによるモード制御の動作についてそれぞれ説明する。

（１）使用環境
使用環境のモード制御については、以下に示すように、自動車，屋内，屋外の各場所に対応して固定，可動の各態様を考えて、（ａ）自動車内固定モード，（ｂ）自動車内可動モード，（ｃ）屋内固定モード，（ｄ）屋内可動モード，（ｅ）屋外固定モード，（ｆ）屋外可動モードの６つのモードに分類することができる。

（ａ）自動車内固定モード
自動車用ＴＶ電話として最も考えやすい後部座席の使用環境を設定するもので、これは、例えば図１２，図１３に示すように、その位置関係から種々の条件を限定することができる特徴がある。これをまとめると、以下のようになる。

１）背景のうちの自動車内の部分はほぼ固定可能で、窓から見える車外の風景は走行中には動領域となる。
２）カメラ３から人物Ｐまでの距離Ｌを限定できる（図１２参照）。実際的な値としては距離Ｌは例えば１ｍ以内の程度に設定可能である。
３）次の被写体モードの項で説明するように、この使用環境では被写体としては人物を中心とした人物モードが大半であり（図１３参照）、動領域抽出の結果では、最も面積比率の大きい領域が人物である確率が非常に高くなる。
４）後部座席を対象として使用する場合には、撮影すべき人物Ｐの数は一人である確率が最も高くなる。
５）乗用車の場合には、カメラ３の視野内に入り得る人物Ｐの数は最大で４人程度と考えられる。

（ｂ）自動車内可動モード
このモードにおいては、人物モードに加えて、被写体モードとしての風景モードが使用される可能性が高くなる。
（ｃ）屋内固定モード
自動車内固定モードとほぼ同じであるが、窓から見える外の風景は固定的である可能性が高く、情報量の削減には利点となる。
（ｄ）屋内可動モード
人物モードの他に風景モードも使用される可能性が高い。
（ｅ）屋外固定モード
このモードでは、交通監視，セキュリティ，ペットの監視などへの応用が考えられる。また、この場合にはカメラ３を固定設置することから、有線系の伝送が可能となり、伝送誤り率の低下は少ない。
（ｆ）屋外可動モード
使用環境としては最も過酷な条件であり、この場合には、可動であることから無線系の超低ビットレート伝送を行うことが前提条件となる。また、携帯型の装置を使用する場合には、人物モードの他に風景モードも使用される可能性が高くなる。加えて、通話中の手ぶれ等によりカメラ３の振動が多くなることが想定され、実際上は準動画モードあるいは静止画モードの動作が中心になることが想定される。

（２）被写体
この場合には、符号化対象および用途に応じて以下のように４つの符号化モードを切り換え設定するようになっている。

（ａ）人物モード
この人物モードは通常の通信においては最優先で使用されるデフォルトモードに設定されている。そして、この人物モードにおいては、図１４にも示すように、背景や使用環境に応じてさらに以下に示すようなモード切り換えを行うようになっている。なお、この場合のモード切り換えの条件は、通常、対象領域の抽出結果と距離判定により自動的に設定して切り換えるようになっている。
ア）頭部モード（対象とする人物Ｐがひとりの場合）
イ）上半身モード（対象とする人物Ｐがひとりの場合）
ウ）全身モード（対象とする人物Ｐがひとりの場合）
エ）複数人物モード
例えば、図１４に示す各使用環境においては、（ａ）自動車内ではア）の頭部モードが、（ｂ）屋内ではイ）の上半身モードが、そして、（ｃ）屋外ではイ）の上半身モードかあるいはウ）の全身モードに設定される。また、エ）の複数人物モードでは、特に詳細なテンプレート（図２５参照、後述するテンプレートの説明参照）は用意されず、また、シーンとしても過渡的な短時間であることが想定されるので、符号化情報量の発生具合に応じた他の制御に委ねられる。

（ｂ）風景モード
例えば、走行中の自動車内においては、会話時には被写体が人物であることが多く、モード判定木では人物モードが設定される確率が高い。一方、ユーザが意図的に車外の風景や事物を画像として伝送したいと考えた場合、動きの有無やテクスチャーの細かさに起因する情報発生量の多さおよび人物の有無から判断して、符号化モードを準動画か静止画モードに移行させる。

（ｃ）静止物体モード
静止物体を対象とする場合には、比較的符号化情報の発生量は少ないため、符号化モードとしては通常の動画モードを選択することができる。
（ｄ）図面・文字モード
高解像度静止画モードを符号化モードとして選択することができる。

（３）符号化制御
（ａ）画像中心優先モード
このモードは、画面中の対象物に対して何ら先見情報がなく、しかもこれに優先してマニュアルで設定した初期設定モードがない場合に設定される。すなわち、状況としては、ただ漫然と撮影したいものにカメラ３を向けているような場合が想定される。この場合には、通常、カメラ３を向けることによって対象物が画像中心に位置する場合には、注視する領域も画像中心に近い部分であることが仮定できる（つまり、対象物中心に対するカメラ３の姿勢の水平および垂直角度α，βはゼロに近い値となることが仮定できる）。

したがって、画像中心付近に優先的にビット量を割り当てて符号化し、周囲に向けて徐々に割当量を減らすという符号化制御操作を行う。これは、具体的には後述する［Ａ−３］符号化制御の領域別量子化制御，背景メモリの使用および有意変換係数の最大個数の制御などによって行う。また、このモードにおいては、他のモードへの移行の条件を次の３つの場合に対応して設定している。

１）対象領域の移動を検出した場合
対象領域が抽出されていれば、対象領域優先モードに移行する。ここで、次の場合には対象領域の追従が行えないので、その対象領域優先モードの中の領域重心モードを選択するようになっている。
ア）２Ｄ（二次元）テンプレートが定まっていない場合
イ）２Ｄテンプレートの適合が完了していない場合
ウ）２Ｄテンプレートを持たない風景モードの場合
（なお、２Ｄテンプレートについては後述する。）

２）被写体モードが人物モードである場合
対象領域優先モードで且つ人物モードの場合、正面像から外れなければ２Ｄテンプレートは適合する。この場合、さらに、頭部、目、口など各部の同定を開始する。

３）対象領域抽出と動き解析結果による対象物カテゴリーの特定
動き情報や領域情報がない場合には、画面中心領域を優先して詳細に符号化する。この場合、画面中心領域を優先するとは、図１５に示すように、画面中心から一定距離として例えば平均距離Ｄａｖとして計算された値の範囲内のブロックを対象領域とみなすことに相当する。

また、ここでは、平均距離Ｄａｖを計算するにあたり、距離尺度として同図（ａ）に示すユークリッド（Eucrid）距離Ｄ（ｎ）あるいは同図（ｂ）に示す絶対値距離Ｄ（ｎ）を用い、次式（１）に示すように、画面に設定されたブロック（たて１８個×よこ２２個）について距離Ｄ（ｎ）［この場合には絶対値距離を基準としている］の平均値Ｄａｖを演算して求めており、この計算結果として平均距離Ｄａｖは約１２となり、同図（ｂ）中で斜めの矩形で示す斜線領域部分が画面中心領域となる。

ただし、Ｎ＝２２×１８＝３９６、ｄｄ（ｉ，ｊ）は、絶対値距離では、
ｄｄ（ｉ，ｊ）＝｜ｉ−１１｜＋｜ｊ−９｜
となる。

（ｂ）対象領域優先モード
１）背景メモリ使用モード
後述する［Ａ−２］対象領域の抽出の領域抽出で得る領域情報に基づいて、人物モードにおいては、あらかじめ用意している背景画像あるいは第１フレームにて伝送した背景画像を用いて背景メモリ６６に記憶した背景情報を利用することにより次のようにして制御するモードである。
ア）その後は全く背景に関する情報を伝送しないようにする。
イ）背景情報は伝送するが、周期的に分散して背景の変化情報を送り、徐々に背景を更新していく。
２）領域重心モード
この領域重心モードでは、前述の画像中心モードの画像中心が対象領域の重心であると考え、それを中心とした領域別量子化制御を駆動するモードである。なお、領域別量子化制御については後述の［Ａ−３］符号化制御の項で説明するのでここでは省略する。
３）対象領域追従モード
このモードは、対象領域が画像面上で移動した場合に、時々刻々と変化する対象領域の重心位置を検出することにより、上述した２）領域重心モードを適用できるようにしたモードである。

（ｃ）動き優先モード
動きブロック数や動きの絶対値量が増えた場合にもフレームレートを落とさないようにしたモードである。ここで、動きの激しさは、後述の［Ａ−３］符号化制御の項の情報発生量に応じた適応制御の説明中で動きの激しさを示す指標ＡＭ（式（１０）参照）を用いて判定することにより、対象領域優先モード、画面中心優先モード、あるいは後述するモデルベースモードなどを駆動することにより伝送レートを維持するように制御する。

（ｄ）準動画（ＩＮＴＲＡピクチャー）モード
これは、情報量を削減するために、フレームレートを低下させることによって画質を保持しつつ伝送レートを維持するモードである。この場合、動き量によってはフレーム間の相関を利用した圧縮が困難になる場合があるので、その場合にはＩＮＴＲＡピクチャーのみを伝送するようになっている。

（ｅ）静止画伝送モード
これは、次の２つの場合が想定されている。
１）符号化制御が破綻する場合
この場合には、まず、符号化器１側でピクチャーフリーズさせた画像信号とし、新たに強制イントラフレームを伝送する。そして、これが完了した後には、動画伝送モードに移行し、動画伝送を再開するモードである。
２）誤り等の理由により復号化器２側から再送要求がある場合
復号化器２側でピクチャーフリーズした状態となり、符号化器１側は再送要求に応じて強制イントラフレームを伝送し、この後、動画伝送モードに移行することで上記と同様に動画伝送を再開するモードである。

（ｆ）モデルベース予測モード
１）テクスチャーソースの切り出し
テクスチャーソースは通話開始以前に撮影した最初の正面画像に対して後述する（［Ａ−３］対象領域の抽出における）動領域の解析結果によって得た人物領域の画像情報に基づいて行う。
２）モデルの選択と適応化
３Ｄ（三次元）モデルはあらかじめ各々の２Ｄテンプレート６９ａ（正面像）に対して奥行き情報を与えることで定義しておく。

３）２Ｄテンプレートを用いたモデルベース予測と伝送
距離情報については、正面像について２Ｄテンプレート６９ａのテンプレート番号とスケーリング値を用いてカメラ特性を用いて計算したテーブルで算出することができる。この正面像については、領域抽出結果に基づく距離情報と画像面上の２Ｄ移動量を用いることにより、人物像のモデルベース予測画像を生成することができる。また、電波条件が良好でない場合などにも、２Ｄのモデルベース画像伝送を行うこともできる。

４）３Ｄ運動情報を用いたモデルベース予測
例えば、人物の正面像の２Ｄテンプレート６９ａの特徴領域をあらかじめ図１６のように定めておき、その２Ｄ動き情報に基づいて上半身のテンプレートについて頭部と肩から下の２つの部分をそれぞれ剛体とみなし、Ｎ個の特徴領域の２Ｄ位置の組から３Ｄ位置姿勢を表わす透視変換行列を求めることができる。なお、このように透視変換行列を求めることは、周知技術である空間量子化法などを用いることにより実施可能である。
さらに、このようなことは、この場合においては、事前にテーブル化して記憶しておいても良い程度のもので、このような通信用の位置姿勢推定は、工場内のロボットの制御で行う場合などの位置姿勢認識に比べて高い精度が要求されないことから、視覚的に見て違和感を感じなければ良いという前提があるという根拠に基づくものである。

５）背景メモリ
カメラ３の設置位置が固定されていて通常撮影される背景画像が固定的である場合で、例えば自動車内にカメラ３を固定しているような状況においては、対象領域優先モードの背景メモリ使用モードを用いることができる。

６）モデルベースによる強制イントラフレーム伝送遅れ時間の補償
図１７に示すように、自動車電話などの場合においては、通話開始までに実質的に通常１０秒以上のセッション準備時間がある。したがって、このようなセッション準備時間中を利用して、セッション開始時点（通話開始時点ではない）で、正面顔を強制イントラフレーム（約３０ｋビット）で伝送する。同時に動き領域の解析やテンプレート修正、３Ｄモデルの適応化などを通話開始までに完了させる。

また、距離情報Ｌと２Ｄ動き情報に基づく概略の３Ｄ動ベクトルを計算する。これにより、通話開始直前のフレームをモデルベースで予測する。これを元にして、通話開始後に第１フレームを動画伝送モードで符号化すれば、強制イントラフレームとして伝送する際に比べて符号量が削減できるため（少なくとも背景領域には効果があると考えられる。）フリーズやフレームレートの低下および画質低下を大幅に緩和することができる。

（４）Ｈ．２６１規格のものとの互換性
本実施例における符号化器１では、プロトコルによる６４ｋｂｐｓ以下のビットストリームは、容易にＨ．２６１規格のプロトコルに変換することができ、これによって、例えば図１８に示すようなプロトコル変換器７０，７１を構成して互換性を保持することができるようになる。

なお、Ｈ．２６１規格の画像信号のビットストリームから本実施例の復号化器２におけるプロトコルに変換することは現状においては、画一的に変換する手段がないが、例えばイントラピクチャーによる準動画あるいは静止画モードにおいては接続可能となっている。

図１８の構成においては、例えば、符号化器１から送信される符号化ビットストリームを受信すると、プロトコル変換器７０は、ＭＢＳＴＵＦＦなどの冗長コードを付加することにより、９．６ｋｂｐｓのデータ量をＨ．２６１規格の６４ｋｂｐｓ以上のデータ量となるように変換したり、符号量削減のために可変長符号のシンタックスを変更したものをＨ．２６１規格に適合するものに置き換えるなどの符号レベルで実施可能な単純な変換制御を行ってＨ．２６１符号化器Ｓａに与えるようになっている。

一方、プロトコル変換器７１においては、上述したように、画一的に変換する手段がないが、イントラピクチャーを伝送すべく、カメラ３の画像信号をＨ．２６１復号化器ＳｂによりＨ．２６１規格の符号化ビットストリームに変換した出力をシンタックスの変更やモード情報などを付加し、フレームレートを落とすことにより伝送符号量を削減して９．６ｋｂｐｓの伝送レートに適合するように変換して出力する。

このようにすることによって、Ｈ．２６１規格の符号化器Ｓａ，復号化器Ｓｂと本実施例の符号化器１，復号化器２との間での画像信号の相互変換が可能となり、従来のＨ．２６１規格の装置との間でも同様にして画像通信を可能とすることができるようになる。

（５）状態の判定とモードの遷移
（ａ）強制設定
例えば、前述の符号化モードにおいて、１）テクスチャーソースの切り出しのモードと２）モデルの選択と適応化のモードとの間のモード切り換えは、対象領域抽出結果が人物であるかそうでないかによって自動的に切り換えることができるが、これは、ユーザーのマニュアル設定により強制的に切り換えることもできる。

（ｂ）対象領域のカテゴリーの判定
この判定動作に当たっては、図１９に示すような使用環境と被写体に関するモード制御の状態遷移図に沿って、各条件を考慮しながらモード進行するようになっている。
１）確率的状態遷移
状態遷移に必要な判定情報が不足している場合には、デフォルトで与えた確率または不完全な情報のもとで選択した遷移確率テーブルを用いて自律的な状態遷移や探索を実行する。これは、例えば次の場合に対応して実行される。
ア）外部から与えられる強制モードがない場合
イ）動領域解析に基づく領域抽出が完了していない場合
ウ）色信号などの信号解析結果が完了していない場合
２）判定情報に基づく決定的状態遷移
これは、図１９に示しているように、確率的な基準によらないで、原画像から３フレーム時間程度にわたる動領域解析を後述するように実施し、これによって動き領域や動き発生状況を抽出した後、人物領域を抽出し、形状パラメータの抽出によりテンプレートの選択を行う。テンプレートの適合具合を評価計算で求め、基準を満たせば終了する。満たさない場合は次のテンプレートを選び、同様のプロセスを繰り返す。

（ｃ）状態遷移に基づく判定結果の伝播に基づく遷移確率値の更新
ある判定結果がその後の評価計算において著しい誤差を生み出す場合には、動領域解析モジュールを介した移動体判定の初期節点に戻る際に遷移確率（図中では、移動体ｎの分岐として、人物側に「０．９」，他の物体側に「０．１」を設定している）を更新する。例えば、初期判定で純然たる確率状態遷移に基づいて人物と判定した領域がその後の２Ｄテンプレート照合や色解析結果、速度・加速度評価などにより人物とは考えにくい評価関数値を出力する場合、「人らしい」と判断する遷移確率は、「０．９」から「０．２」程度に下げるように変更設定する。

（６）モード選択に至るヒューマンインターフェース
上記で述べた状態判定とモード遷移でも最適な符号化制御は可能だが、モード制御部３３により、ヒューマンインターフェース３４を介した誘導により、誤った判定を下す確率を激減させることができる。例えば、セッション開始までの準備時間の間にモード制御部３４により次に示すようなプロセスを完了しておけば、その後の符号化制御に関するモード移行を順調に実施することができるようになる。

１）ユーザが人物モードを選択してカメラ３の位置方向を見る。
２）ヒューマンインターフェイス３４を介して、「正面におすわりください。」というメッセージを音声あるいは表示で通知する。
３）人物が画面中心からずれている場合には、ヒューマンインターフェイス３４を介して、「少し右／左にお寄りください。」というメッセージを音声あるいは表示で通知する。（表示方法として、画面隅に子画面を設けて位置を示すこともできる。）
４）第１フレームを強制イントラとして送出する。
５）ヒューマンインターフェイス３４を介して、「先方とつながりました。お話しください。」というメッセージを音声あるいは表示で通知する（通話開始可能になる）。

（７）モード情報の伝送
モード情報とそれに伴うテンプレート情報は超低レート伝送に際して支障のない程度の情報量であるので伝送可能であり、この場合には、その伝送は、ＰＩＣ階層のユーザーデータエリアであるＰＳＰＡＲＥに記述された状態で伝送されるようになっている（図３０および図５０参照）。

［Ａ−３］対象領域の抽出
人物などの注視の対象となる対象物領域を動きベクトルやカメラ設定に基づいて抽出する。ここでは演算量を削減するために、その計算はマクロブロック（ＭＢＫ）単位で行うようになっている。この演算動作と各種モードとの因果関係は、前述したように、図１９に示すようになっている。

（１）動ベクトル発生に基づく領域抽出
ここでは、図２３に示す動き領域抽出のルーチンのフローチャートにしたがって、最終的に最適テンプレートの決定が行われるプロセスである。また、図２４の領域解析の説明図と図２５の基本テンプレートの図が参照される。

（ａ）最大動ベクトルの検出と主領域の推定
Ｈ．２６１などの符号化の規格においては、そのＭＢＫの属性を示すデータとしてのＭＴＰ（マクロブロックタイプ）に、動きベクトル発生の有無が情報として含まれている。この場合、Ｈ．２６１規格では、ＭＴＰ値が２，３，６，８，１０の値を示すときが動きベクトルが発生していることを示すデータである（図３３参照）。したがって、Ｈ．２６１符号化の動きベクトル検出結果として、例えば図２０ないし図２２に示すようなＭＢＫ属性（ＭＢＡ，ＭＴＰ，ＣＢＰ）の配列ができる。これらの図２０ないし２２は、２列６段のＧＯＢ１２個を配列し、各ＧＯＢに１１列３段のＭＢＫ３３個を配列してなる画面の各ＭＢＫ位置に対応した部分にそれぞれＭＢＡ値，ＭＴＰ値，ＣＢＰ値を示したものである。

ここで最も動きベクトルの大きさが大きいブロックを含む領域を主領域とする。なお、動きベクトルの大きさの評価においては、あらかじめカメラ３の移動に伴う動き成分であるパニングベクトルを差し引いておく。このパニングベクトルについては、周知の色々な計算方法があるが、例えば、簡易計算方法として画面周辺部の動きベクトルの平均を計算することにより得ることができる。

（ｂ）時間方向の解析
上述の場合に、ただ１フレームについてのみ上記のブロック属性配列を調べたのでは対象物領域を特定することは困難である。そこで、図２４（ａ），（ｂ）に示すように、３フレーム時間程度に渡って時間方向の解析を行う（図１９も参照，図２３ステップＤ１）。特に動きベクトルの発生領域については、３フレーム分を重ね合わせた状態で得られるパターン（図２３ステップＤ２）について、その重心位置を求めて（ステップＤ３）各ブロック位置に関する動きベクトルを次に示すように設定された判定回数に基づいて判定する（ステップＤ４）。
ア）重心からの距離があるしきい値を超えるブロックについては３回に２回以上のとき
イ）重心からの距離があるしきい値以下のブロックについては３回に１回以上のとき

次に、得られた動きベクトルによる対象領域の中から孤立点領域や雑音領域の除去を行い（ステップＤ５）、残った対象領域の重心を再度計算し（ステップＤ６）、さらに対象領域の高さｈと幅ｗを求める。この後、例えば、人物頭部であるならば２Ｄテンプレート頭部を（ｈ，ｗ）でスケーリングしてカメラ３までの概略距離Ｌ０を求める（ステップＤ７）。この後、さらに高精度にテンプレート当てはめを行うためには、以下に示すようにする（ステップＤ８）。

（ｃ）２Ｄテンプレートの照合とスケーリング
まず、動きブロックで構成されるブロックパターンを判別し、特徴量を抽出する。ここで、人物モードがあらかじめマニュアルで選択されていれば、図２５に示すように２Ｄパターンデータベース２７から人物モードの基本テンプレートを選択することができるようになる。

ここで、基本テンプレートとしては、判定木（図１９参照）であらかじめ予想されるモードに応じて人物上半身，全身，頭部のみなどの正面像の２Ｄテンプレートがデフォルトパターンとして用意されている。次に選択したテンプレートを適応的に形状を修正する。この修正には、重心合わせ、スケーリング、局所的伸縮（図２４（ｃ）参照）が含まれる。ここで、最適テンプレートの選択と修正において、後述する式（２）に示す評価関数Ｆの値を計算する。

ア）時間方向の解析で求めたテンプレートよりも若干小さいテンプレートＬ（＜Ｌ０）から開始する。
イ）動きブロックのみを抽出した画像にテンプレートをオーバレイし、その領域内に含まれる動ベクトルブロックの個数Ｎ_ＭＢＫ（Ｌ）を計算する。
ウ）スケールを大きくする（距離Ｌを小さくする）。
エ）Ｌが一定値Ｌmin 以下になれば次に進む。それ以外の場合にはイ）に戻る。
オ）次の評価関数Ｆが最大値Ｆmax を取るところを最適なＬとする。
Ｆ＝−Ｂ×Ｎ_ＭＢＫ（Ｌ） …（２）
ここで、ＢはＮ_ＭＢＫ（Ｌ）の曲線のＬに関する二次微分値である。
あるいは、これを離散的表現になおすと、
Ｆ＝−Ｂ（ｎ）×Ｎ_ＭＢＫ（Ｌn ） …（２ａ）
Ｂ（ｎ）＝Ａ（ｎ）−Ａ（ｎ−１）
Ａ（ｎ）＝Ｎ_ＭＢＫ（Ｌn ）−Ｎ_ＭＢＫ（Ｌn-1 ）
となる。

（ｄ）量子化スケール情報を含む２Ｄテンプレート
２Ｄテンプレートは二値表現も可能であるが、後述するように、各ＭＢＫ属性配列値をあらかじめモデルに対応してテンプレートで表現することもできる。これは、後述するように、例えば、図４２，４３に示すような量子化スケールが考えられる。

（ｅ）２Ｄ移動パターンの分析
画面から人物が移動するパターンとしては、図２５にも示しているように、水平横移動（図中横方向に並べた図に対応），カメラ光軸方向の移動（図中縦方向に並べた図に対応）が考えられる。

（２）３Ｄモデルに基づく２Ｄテンプレートの生成
図１２，図１３に示したように、限定された環境下における人物モードでは、３Ｄモデルの透視変換により図２５と同等の２Ｄテンプレートを作成することができる。これにより、上半身、頭部、目、口、鼻などの部位の獲得をすることができるようになる。ただし、正面像以外では、対象人物のカメラ３に対する位置姿勢を求めることが必要となるが、ここでは一般的な方法に依存することとしてその内容まで言及しない。

（３）対象領域のカテゴリーの判定
（ａ）状態遷移グラフに基づく判定
図１９に示したモード制御の状態遷移図では、対象領域のカテゴリーを特定する判定木が部分図として含まれている。この判定木上の節点間の遷移は、前述のデフォルト確率に基づく確率探索と判定情報に基づく確率探索との２通りの探索を使用して行うようになっている。

（ｂ）ＭＢＫ属性を利用した判定
変化のあったブロックの内で、特に細かいテクスチャー変化のあったブロックについては、ＣＢＰのスコア値が高くなることが予想されるので、例えば、人物上半身モードにおける頭部領域の判定の根拠として用いることができる。

（４）背景メモリ
強制イントラフレームが伝送された時点では、常に領域抽出処理を行い、これによって、特に背景部分の情報を背景メモリ３２に格納するという処理を符号化器１において行うようになっており、このような処理は復号化器２の背景メモリ６６においても行うようになっている。これは、動きや色の変化が激しくなったと判断したときにデータ伝送量を増やさないために、そのフレームにおける背景情報を背景メモリ３２に記憶したデータで代用しようとするものである。

すなわち、図２６，図２７，２８に示すように、現在符号化中の背景領域をすべてＦＩＸＤに設定し、ユーザーデータエリアにおいて背景メモリ使用を宣言しておくのである。そして、これに基づいて、復号化器２側では背景メモリ６６から最新の背景情報を呼び出し、伝送されてきた人物画像などの対象領域情報とオーバレイさせて画像を再現するのである。

図２６においては、超低レート化を図るための符号化制御の概略を示しており、複数フレームの画像信号に基づいて動き領域を分析して領域を抽出し、背景領域と人物領域を得れば、これに基づいて領域別量子化制御を行うと共に有意係数の個数制御を行う。また、一方で符号化レートの設定とモード情報の付加を行いながらバッファ量に応じて符号化制御を行うようになっている。人物領域を抽出する場合には、図２７（ａ）に示すようなＣＩＦ形式におけるＧＯＢのＭＢＫの単位で領域を特定するので、背景領域についても同様にして得ることができる（同図（ｂ）参照）。

図２８は背景メモリ３２に記憶したデータを用いる場合の概念的なものを示しており、符号化器１側で領域解析を行って得た背景領域のデータが背景メモリ３２（図では背景メモリ１）に記憶され、動画モードを開始して動画を送信している途中では随時新しい背景領域のデータを取り入れて記憶するようにしている。そして、復号化器２側でも同様にして背景領域のデータを記憶するようにしており、通信中に通信路の悪化などによりデータの送信が中断する場合などには復号化器２側で背景メモリに記憶した背景領域のデータにより画面を再生すると共に、再送要求を符号化器１側に送信するなどして動画伝送が復帰までの間の画像再現を補うものである。

［Ａ−４］符号化制御動作
この符号化制御動作については、図２９に全体の概略的な動作内容について示されている。図３０はＨ．２６１規格における符号化ビットストリームのシンタックスを示す一般的なものである。以下においては、これらの図２９，３０に基づいた符号化制御動作の詳細について項目別に説明する。

（１）ビットストリームシンタックスの変更
Ｈ．２６１のシンタックス（図３０参照）における冗長なヘッダを、超低レート化のために削除する。このために、ＣＩＦ構造におけるＧＯＢの配置は変更しないが、図３１に示すような画面を構成する１２個のＧＯＢに対して、ＧＯＢの開始ヘッダとしてのＧＢＳＣ（１６ビット）とＧＯＢ番号コード（４ビット）の個数を左側のＧＯＢのみに付して右側半分については無くすことによりデータの量を半分に減らす（図３２参照）。これにより、１フレーム当たりに２０×６＝１２０ビットを削減することができるようになる。

（２）可変長符号化（ＶＬＣ）テーブルの適応切り換え
（ａ）符号語の置換
図３３にＨ．２６１規格のＭＴＰ（マクロブロックタイプ）属性の可変長符号を示す。例えば、超低レートにおける発明者の実験結果によると、人物画像に対する各ＭＴＰの値の発生確率は図３４に示す順序となっている。したがって、図３４に示す順序に応じてＭＴＰ値に対する可変長符号を置換することにより、属性記述のためのビット数を削減することができるようになる。この置換パターンは、例えば数個に限定しておくことにより、どれを選ぶかをユーザーデータエリアに書き込むことにしておけば、復号化器２側においても状況に応じて変更するなどの適応化を柔軟に行うことができるようになる。

なお、実験結果では、対象物領域においてＭＴＰの値が２または３になることが大半であり、人物上半身のモードの場合、双方の合計は１００〜１５０個程度に達するため、それぞれ符号長を１と２（現在は２と３）に変更することにより、１フレームあたりで２００〜３００ビット程度のビット数の削減が行えることがわかった。

（３）属性の判定特性の適応制御
（ａ）領域情報を用いたＭＴＰ判定の適応制御
１）背景領域については、領域情報を用いてＦＩＸ（固定）あるいはＮＯＭＣ（動き補償なし）とすることができる。
２）対象領域については、人物特に顔についてはＭＣ−ＣＯ（動き補償と符号化）と判定する。

（ｂ）ＩＮＴＥＲ／ＩＮＴＲＡ判定の適応制御
通常、６４ｋｂｐｓ以上のＨ．２６１規格で推奨されるＩＮＴＥＲ／ＩＮＴＲＡ判定の特性曲線は、図３５に示すようになる。この場合において、ＰＶＡＲはＭＢＫの４つのＹブロックに関するフレーム間予測誤差電力和を示し、ＱＶＡＲはＭＢＫの４つのＹブロックに関する入力画像のフレーム内分散の値を表している。そして、６４ｋｂｐｓ以下のレートにおいては、以下のように判定する。
１）誤りの伝播を防止するために周期的に分散して強制ＩＮＴＲＡを入れる。
２）しきい値ＴＨ＿ＩＮＴＲＡを例えば次のように設定する。ＦＩＦＯバッファ１１の充填率ＲＢを次式（３）により求め、その充填率ＲＢに対して比較基準値ＲＢ１，ＲＢ２などで判定してしきい値ＴＨ＿ＩＮＴＲＡを設定する。
ＲＢ＝ＢＵＦＦ／ＢＵＦＦ＿ＭＡＸ …（３）

この場合、ＲＢ，ＢＵＦＦ，ＢＵＦＦ＿ＭＡＸは、それぞれＦＩＦＯバッファ１１に関して、現在の充填率，現在の使用ビット数，最大ビット容量を示しており、以下の３つのケースに別けて判定する。
〈ケース１〉０ ≦ＲＢ＜ＲＢ１
〈ケース２〉ＲＢ１≦ＲＢ＜ＲＢ２
〈ケース３〉ＲＢ２≦ＲＢ
判定結果に応じて各ケースに対応してしきい値ＴＨ＿ＩＮＴＲＡを下記のように設定する。
〈ケース１〉ＴＨ＿ＩＮＴＲＡ＝64×256
〈ケース２〉ＴＨ＿ＩＮＴＲＡ＝64×256 （対象領域の主要部）
ＴＨ＿ＩＮＴＲＡ＝64×512 （対象領域の主要部以外）
ＴＨ＿ＩＮＴＲＡ＝64×1024（背景領域）
〈ケース３〉ＴＨ＿ＩＮＴＲＡ＝64×256 （対象領域の主要部）
ＴＨ＿ＩＮＴＲＡ＝64×1024（対象領域の主要部以外）
ＴＨ＿ＩＮＴＲＡ＝64×2048（背景領域）

なお、上述の場合で、領域情報が明確でない場合には、画像中心優先モードあるいは対象領域重心モードの項で示したように、重心からの距離が一定範囲の領域を対象領域として定義する。そして、以下のようにしてしきい値ＴＨ＿ＩＮＴＲＡを制御する。
Ｒ＿ＩＲ＝ＩＲ＿ＭＢＫ／ＩＲＭＢＫ＿ＭＥＡＮ …（４）
ＮＴＨ＝ＴＨ＿ＩＮＴＲＡ×（Ｒ０＋Ｒ＿ＩＲ） …（５）
ＲＰＱ＝ＰＶＡＲ／（ＱＶＡＲ×Ｒ＿ＩＲ） …（６）
ここで、ＩＲ＿ＭＢＫは対象領域の重心から現在符号化中のＭＢＫまでの距離を示し、ＩＲＭＢＫ＿ＭＥＡＮは対象領域の重心からすべてのＭＢＫまでの平均距離を示している。

そして、上述の式から得られる値に対して、
ＰＶＡＲ≦ＮＴＨまたはＲＰＱ＿ＶＡＲ≦１．００
である場合には、ＩＮＴＥＲと判定し、これ以外の場合にはＩＮＴＲＡと判定する。この場合に、例えば、Ｒ０の値は０．５と設定する。

（ｃ）動き補償の有無判定
通常、６４ｋｂｐｓ以上のＨ．２６１規格で推奨される動き判定の特性曲線は図３６に示すようになる。この図３６において、横軸は動き補償のない場合のフレーム間の誤差和ＦＤＳＵＭの値を示しており、縦軸は動き補償をした場合の誤差和ＭＶＳＵＭの値を示している。この場合、図中、動き補償（ＭＣ＿ＯＮ）がある領域は２個の直線の傾きを示すパラメータＧＤ１，ＧＤ２と２個のＦＤＳＵＭに対するしきい値を示すパラメータＩＥＶ１，ＩＥＶ２とにより囲まれる領域に設定されている。６４ｋｂｐｓ以下のレートにおいては、バッファ量と領域により以下のように特性曲線のパラメータセット（GD1,GD2,IEV1,IEV2 ）の各値を変更する。なお、バッファ充填率ＲＢは前述の式（３）で表現される。
ＲＢ＝ＢＵＦＦ／ＢＵＦＦ＿ＭＡＸ …（３）
この場合、ＲＢ，ＢＵＦＦ，ＢＵＦＦ＿ＭＡＸは、それぞれＦＩＦＯバッファ１１に関して、現在の充填率，現在の使用ビット数，最大ビット容量を示している。

〈ケース１〉０ ≦ＲＢ＜ＲＢ１
この場合には、すべての領域について従来の動き判定を用いる。したがって、判定特性のパラメータセットの各値は次のように設定される。
（GD1,GD2,IEV1,IEV2 ）＝（ 0.50, 0.91, 256, 256 ×3 ）
〈ケース２〉ＲＢ１≦ＲＢ＜ＲＢ２
この場合には、対象領域を囲む一回り大きな矩形領域（フレーム間の動き範囲を考慮してテンプレート毎に自動的に設定）ＲＭの内部では通常の動き判定特性を用いる。したがって、判定特性のパラメータセットの各値は次のように設定される。
（GD1,GD2,IEV1,IEV2 ）＝（ 0.50, 0.91, 256, 256 ×3 ）
また、上記以外の領域（背景領域に相当）ＱＭでは動き判定のしきい値を高く設定する。
（GD1,GD2,IEV1,IEV2 ）＝（ 0.40, 0.80, 256×2, 256×4 ）
〈ケース３〉ＲＢ２≦ＲＢ≦ＲＢ３
この場合には、ＲＭの主領域では、
（GD1,GD2,IEV1,IEV2 ）＝（ 0.50, 0.91, 256, 256 ×3 ）
ＲＭの主領域以外では、
（GD1,GD2,IEV1,IEV2 ）＝（ 0.40, 0.80, 256×2, 256×4 ）
ＱＭでは、
（GD1,GD2,IEV1,IEV2 ）＝（ 0.20, 0.50, 256×4, 256×8 ）
〈ケース４〉ＲＢ３＜ＲＢ
この場合には、次のいずれかを選択する。
１）準動画モードに移行し、フレームレートを落とす
２）モデルベースモードに移行する
３）ピクチャーフリーズモードにする

（４）過去の符号化属性の利用
（ａ）ＭＢＫレイヤの各符号化属性の特徴
属性メモリ２２に格納される各フレームのＭＢＫ属性はＣＩＦ上のＭＢＫ位置に対応して示すと１フレーム当たり２２×１８の配列となる。

１）ＭＢＡ（マクロブロックアドレス）
３フレーム目あたりから対象領域に相当するところが有意な符号化ブロックとしてＭＢＡが付与されるようになる。特に、ＭＢＡが２以上の値を示すＭＢＫ（マクロブロック）は対象領域の輪郭部分に相当することが多い。そこで、図３７のフローチャートおよび図３８，図３９に示すように、１フレーム前のＭＢＡパターンをＮＯＴ＿ＦＩＸＥＤ（ＮＦＸ）パターンに変換することにより（図３７中ステップＥ１，図３８（ａ），（ｂ）参照）、領域情報の平均動きベクトルとテンプレート情報を用いて１フレーム先のＭＢＡ配列を推定して表現することができるようになる（ステップＥ２〜Ｅ６，図３９参照）。

そして、このようなＭＢＡパターンの推定値を用いて符号化を制御すると共に、テンプレート情報および動きベクトルを符号化して伝送する（ステップＥ７，Ｅ８）。これに対して、復号化器２側においては、テンプレート情報と動きベクトルにより、一意的に１フレーム分のＭＢＡ配列が再現できるようになる。

２）ＭＴＰ（マクロブロックタイプ）
ア）ＩＮＴＥＲ／ＩＮＴＲＡ混在（通常のフレーム）
超低レートでは実験により、動きを有する対象領域（人物など）の大半がＭＴＰ＝２，３でラベリングされることがわかっている。そこで、後述する情報発生量に応じた適応制御における判定に基づいて、図４０のフローチャートおよび図４１に示すように、特に激しい動きの発生がなければ、領域情報の平均動きベクトルとテンプレート情報を用いて１フレーム先のＭＴＰ配列を表現することができる（図４０中ステップＦ１〜Ｆ３，図４１参照）。

そして、その予測したＭＴＰ値に基づいて１フレーム分の符号化を進め（ステップＦ４）、テンプレート情報と領域別の動きベクトルを符号化して伝送する（ステップＦ５）。一方、復号化器２側においては、テンプレート情報と動きベクトルにより、一意的に１フレーム分のＭＴＰ配列を再現することができるようになる。

イ）強制イントラフレーム
強制イントラフレームは、ユーザーデータで宣言してあれば、その後においては、ＭＴＰ＝４とするデータやＭＢＡ＝１とするデータの記述は不要となる。したがって、これによって、5 ×22×18＝1980ビットつまり約２ｋビットの節約をすることができるようになる。

３）ＱＳＣ（量子化スケール）
ＱＳＣは３２ｋｂｐｓ以下ではすべて３１（量子化ステップ６２）に固定し、領域分析から決定される主領域のみ１６（量子化ステップ３２）とする。したがって、超低レートの内でも特に１６ｋｂｐｓ以下の人物モードにおいてはＱＳＣ情報は伝送しないようにする。したがって、ＧＯＢレイヤにおけるＱＳＣ情報の記述は不要になり、これによって、情報量としては12×5 ＝60ビットの削減をすることができる。加えて、ＭＢＫ単位の量子化スケールの変更情報を伝送することも不要となる。

この場合において、人物モードの領域別量子化については図４２（ａ）にその例を示し、量子化テンプレートは同図（ｂ）に例を示している。また、図４３には、量子化テンプレートのモデルベース伝送を行う場合の符号化器１と復号化器２との間のデータのやり取りについてその概要を示しており、図４４のフローチャートにおいては、量子化スケールＱＳＣの値の設定に関する流れのルーチンを示している。

４）ＭＶＤ（差分動きベクトル）
ＭＶＤはフレーム内の水平方向の動きベクトル変化であるので、非剛体運動あるいは回転運動において「０」でない値が発生する。人物に対しては顔の表情変化に起因する動きや頭部，上半身のエッジ部分の三次元回転などがそれに相当する。これらは瞬時に発生するため、差分ベクトルの形で予測する場合の予測効率はあまり良くない。そこで、このような差分ベクトルを動きベクトルになおした形でしかも領域単位の平均２Ｄ動きベクトルとして予測する。

ここで、ＭＶＤの発生位置はＭＴＰで動き補償があると宣言されているＭＢＫに限る。通常、この大半は、ＭＴＰ＝２，３で表される。これにより、２フレームに１回程度はＭＶＤ情報を抑制することができるようになる。なお、図４５は領域別平均動きベクトルによる符号量の削減のためのルーチンのフローチャートを示しており、図４６はその内容の概略をパターンの推移図で示している。

５）ＣＢＰ（符号化ブロックパターン）
ＣＢＰはＭＢＫに含まれる６個のＢＬＫ（ブロック）の各々について符号化するか否かをビット情報で示すものである。そこで、このＣＢＰの値をＹＵＶベクトルに変換することにより、領域情報の平均動きベクトルとテンプレート情報を用いて１フレーム先のＣＢＰ配列を表現することができる。一方、復号化器２側ではテンプレート情報と動きベクトルにより一意的に１フレーム分のＣＢＰ配列が再現できるようになる。なお、図４７は領域別動き補償予測のルーチンのフローチャートを示しており、図４８はその内容の概略をパターンの推移図で示している。

（ｂ）領域情報を用いたＭＢＫ属性の符号量削減
１）２フレームに１回の属性符号化
以上のように、テンプレート情報と領域別の平均動きベクトルを用いた動き補償により、１フレーム分のパターン属性の予測を行うことができ、復号化器２側でも一意的に再現することができるようになる。なお、予測したパターン属性は復号化器２のみならず符号化器１側においてもすべて確実に符号化制御に反映させることができる。

２）上下の交互予測あるいはインタリーブ
２フレームに１回、完全に予測のみのパターン属性を入れる代わりに、図４９（ａ）（あるいは同図（ｂ））に示すようにＧＯＢ単位で上部と下部と（あるいは右側と左側と）を交互に予測パターンに置き換えることもできる。ＧＯＢライン毎のインタリーブ（同図（ｃ）〜（ｅ）参照）も考えられるが、パターンを表す輪郭に不連続が生ずる恐れがあるので、対象領域が大きい時は採用しないようにする。

（５）量子化制御
量子化制御は原則として量子化ステップの制御により行う。ここで、量子化ステップの設定方法についてはＨ．２６１規定には定められておらず、その制約条件としては、２〜６２（量子化スケール値が１〜３１）の偶数で、且つ５ビットで表現できる範囲であるというものである。したがって、本実施例においては、以下に示すようにして量子化ステップを制御することにより量子化制御をするようになっている。

（ａ）領域別量子化制御
１）対象領域優先モード
このモードにおいては、抽出した対象領域については、小さい量子化ステップを割り当てる。また、背景領域については量子化ステップを６２に固定している。そして、被写体が人物モードである場合には、頭部領域のみ６２以下を採用し、他は原則的には６２に設定するようになっている（図４２（ａ）参照）。

２）画面中心優先モード
このモードにおいては、画面中心に近いほど量子化ステップを細かく取る。ただし、量子化ステップの制御式を一本化するために、現状のバッファ容量を、現在のＭＢＫまでの距離を用いてステップ計算用に修正するという方法を採用し、このために、次式（７），（８）を用いて計算する。

Ｒ＿ＩＲ＝ＩＲ＿ＭＢＫ／ＩＲＭＢＫ＿ＭＥＡＮ …（７）
ＢＵＦ＿Ｒ＝ＢＵＦＦ＿ＭＢ
×(5.00＋real(ＩＲ＿ＭＢＫ)／real(ＩＲＭＢＫ＿ＭＥＡＮ)) …（８）
ここで、
ＢＵＦＦ＿ＭＢ：ＭＢＫ単位で監視したバッファ量
ＢＵＦＦ＿Ｒ：距離計算に基づく仮想バッファ量
ＩＲ＿ＭＢＫ：対象重心から現在符号化中のＭＢＫまでの距離
ＩＲＭＢＫ＿ＭＥＡＮ：対象重心からすべてのＭＢＫまでの平均距離
この仮想的な修正バッファ量ＢＵＦＦ＿ＭＢの値は後述する符号化レートに応じた制御の式に使用する。

（ｂ）バッファ量に応じた制御
通常、上述のような場合には量子化制御を行っているが、強制イントラフレームの送信の場合については、バッファ量による量子化制御は行わないようになっている。なお、強制イントラフレームは、通常以下の場合に伝送することとしている。

１）動画モード開始または再送時の第１ピクチャー
２）準動画モード
３）静止画モード（ピクチャーフリーズ）
４）モデルベースモードにおけるテクスチャーソース画像
量子化ステップについては、後述の符号化レートに応じた制御の式に依存している。

（ｃ）符号化レートに応じた制御
符号化レート（RATE）に応じた量子化ステップ（STEP FPIC ）の決定式は次のように設定されている。

１）強制イントラフレームの量子化ステップ
1152kbps＜RATE のとき → STEP＿FPIC＝12.0，
384kbps＜RATE＜1152kbpsのとき → STEP＿FPIC＝14.0，
64kbps＜RATE＜ 384kbpsのとき → STEP＿FPIC＝16.0，
RATE＜ 64kbpsのとき → STEP＿FPIC＝32.0
２）通常の量子化ステップ
ＩＳＴＥＰ＝２×ＩＮＴ（ＢＵＦＦ＿ＭＢ／（200.0 ×ＱＸ64）＋2 …（９）
ＢＵＦＦ＿ＭＢ：バッファ中の現在データ量
ＱＸ64：符号化レート＝ＱＸ64×64.00 ［kbps］を満たす値
なお、符号化レートが１６ｋｂｐｓ以下の場合には、頻繁に量子化スケールの変更を行うことは、逆に必要ビット数の増大につながる。したがって、１０ｋｂｐｓ以下の場合には量子化ステップを６２に固定している。

（ｄ）情報発生量に応じた適応制御
動き量と色変化の度合に基づき、量子化とフレームレートの制御を行うようになっている。

１）動きの激しさの判定
過去のフレームに対する現在フレームの動きの激しさの度合として、次式（１０）で定義されるＡＭという指標の値を計算により求め、この値に基づいて判定した結果で量子化とフレームの制御を行う。

ただし、
Ｎｍｂ；動きの発生したブロックの数
Ｌ（Ｘ）；ベクトルＸのノルム関数．絶対距離，ユークリッド距離など
Ｖｉ；動きベクトル
Ｒｄ；伝送データレート
ＴＨＶ（Ｒｄ）；データレートに依存したしきい値定数
式（１０）で計算されるＡＭの値を用いて、新たに尺度ＡＭＴを計算する。この場合において、ＡＭＴは次のようにして計算される。

ア）ＡＭ≦ＴＨＶ（Ｒｄ）のとき、ＡＭＴ＝０
イ）ＡＭ＞ＴＨＶ（Ｒｄ）のとき、ＡＭＴ＝ＡＭ
ここで、Ｎｍｂの対象範囲とそれに対応するＴＨＶは符号化プロセッサの計算能力に応じて以下のように変更する。

ａ）現在のフレームの第１ＭＢＫから現在復号中のＭＢＫまで
ｂ）現在のＧＯＢ中の第１ＭＢＫから現在復号中のＭＢＫまで
ｃ）現在のＧＯＢ中のすべてのＭＢＫ
ｄ）現在フレーム中のすべてのＭＢＫ
上記ａ），ｂ）の場合、グローバルな演算が不要なため、計算量も少なく処理遅延もないが、判定の信頼性が低い。一方、ｃ），ｄ）はグローバルな計算を行うため、計算量は多くなるが処理遅延は最大１フレーム時間となる。しかし判定の信頼度は高い。

２）色変化の激しさの判定
過去のフレームに対する現在フレームの色変化の激しさの度合として、次式（１１）で定義されるＡＣという指標の値を計算により求め、この値に基づいて判定した結果で量子化とフレームの制御を行う。

ただし、
Ｎｃｂ：ＣＢＰのブロック属性が１になったブロックの数
Ｃ（ｉ）：ｉ番目のマクロブロックに関してＤＣＴ係数のＤＣ成分の変化とＣＢＰに基づいてＹＵＶベクトルから色変化を計算する関数
ＴＨＣ（Ｒｄ）：データレートに依存したしきい値定数
式（１１）で計算されるＡＣの値を用いて、新たに尺度ＡＣＴを計算する。この場合において、ＡＣＴは次のようにして計算される。

ア）ＡＣ≦ＴＨＣ（Ｒｄ）のとき、ＡＣＴ＝０
イ）ＡＣ＞ＴＨＣ（Ｒｄ）のとき、ＡＣＴ＝ＡＣ
ここで、Ｎｃｂの対象範囲とそれに対応するＴＨＣは符号化プロセッサの計算能力に応じて以下のように変更する。

３）仮想バッファの計算
イ）動き量に基づく仮想バッファの増分
ａ）動きのない対象領域のＭＢＫ： BUF＿M ＝16×(AMT／aM)
ｂ）動きのある対象領域のＭＢＫ： BUF＿M ＝0
ｃ）背景領域のＭＢＫ： BUF＿M ＝32×(AMT／aM)
aMは１ＭＢＫあたりの平均的な動き量に相当する数であり、例えばaM＝16とする。

ロ）色変化量に基づく仮想バッファの増分
ａ）色変化のない対象領域のＭＢＫ： BUF＿c ＝BMBK×(ACT／aC)
ｂ）色変化のある対象領域のＭＢＫ： BUF＿c ＝0
ｃ）背景領域のＭＢＫ： BUF＿c ＝ 2×BMBK×(ACT／aC)
aC ：１ＭＢＫあたりの平均的な色変化に相当する数，例えばaC＝128
BMBK：１ＭＢＫあたりの平均符号量の予想値，次式で与えられる
BMBK＝ＱＸ64×64000 ／（Ｆrate×NMBK）
Ｆrate：現在のフレームレート
NMBK ：１フレーム中のＭＢＫの個数
（６）有意係数の個数の制御
Ｈ．２６１では量子化変換後のＤＣＴ変換係数をブロック単位でジグザグスキャンし、得られる一次元の量子化係数列を非零のレベルとその後に続くゼロランの長さの二項組（イベントと呼ぶ）で表現している。ここでは、高周波成分の係数は超低レートにおいてあまり視覚的に寄与しないとみなすこととし、ブロックあたりのイベント数を制限することにより、それに対応するＶＬＣの個数を減らし、全体としてビット数の削減を図ることができる。

すなわち、ジグザグスキャンによって低周波成分から順に得られるＤＣＴ有意係数（非零）が一定個数を超えた場合には、残りのＤＣＴ係数をすべて強制的にゼロとみなすように制御するものである。このとき、そのしきい値としての上限個数Ｎｃｆ（≦６４）を符号化レート、領域、動き発生量、バッファ量、符号化モードのそれぞれに応じて切り換えるように制御する。なお、この上限個数に関する情報については、復号化器２側に送る必要がないため、符号化することはない。

上述のＤＣＴ有意係数個数の制御については、実際には以下のようにして行う。なお、ここでは、例えば、次の状態を仮定して実施する。
符号化モード：人物モード
符号化レート：８ｋｂｐｓ
ＲＢ＝Ｖ＿ＢＵＦＦ／ＢＵＦＦ＿ＭＡＸ
Ｖ＿ＢＵＦＦ＝ＢＵＦ＿Ｒ＋ＢＵＦ＿Ｍ＋ＢＵＦ＿Ｃ
ＢＵＦＦ：現在のバッファ量
ＢＵＦＦ＿ＭＡＸ：バッファの最大容量
（RB１，RB２，RB３，RB４，RB５）＝（0.2 ，0.3 ，0.5 ，0.8 ，1.0 ）
（Ncf0，Ncf1）＝（16，8 ）
判定に当たっては、バッファ充填率ＢＦの値によって、次の６つのケースに分けて制御する。なお、ＲＢ１〜ＲＢ５で示す値は判定のしきい値で、制御内容に対応した値があらかじめ設定されている。

〈ケース１〉０≦ＲＢ＜ＲＢ１
すべての領域について最大６４個の有意係数個数とする
〈ケース２〉ＲＢ１≦ＲＢ＜ＲＢ２
対象領域について最大６４個，背景領域では最大Ｎｃｆ０個の有意係数個数とする
〈ケース３〉ＲＢ２≦ＲＢ＜ＲＢ３
すべての領域について最大Ｎｃｆ０個の有意係数個数とする
〈ケース４〉ＲＢ３≦ＲＢ＜ＲＢ４
すべての領域について最大Ｎｃｆ１個の有意係数個数とする
〈ケース５〉ＲＢ４≦ＲＢ＜ＲＢ５
背景は背景メモリを使用し、メモリにない部分はＤＣ成分のみで表現する。対象領域について最大Ｎｃｆ１個の有意係数個数とする
〈ケース６〉ＲＢ５＜ＲＢ
次の≪１≫〜≪３≫のいずれかを他の条件などによって選択する
≪１≫準動画モードに移行する
≪２≫モデルベースモードに移行する
≪３≫ピクチャーフリーズする

（７）フレームレートの適応切り換え
（ａ）フレームレートの変更指示の記述
Ｈ．２６１規格のビットストリームシンタックス（図３０参照）においては、ＰＩＣレイヤのＴＲＥＦ（temporal reference）の値の設定により、復号化器２に対するフレームレート変更の指示を記述できるようになっている。しかし、フレームレート変更については、この実施例においては超低レート化のための従属手段として取り扱っている。以下の、その方法と実施の要因について示す。

（ｂ）フレームレート変更の方法
符号化器１側において動画像をＡ／Ｄ変換した後に、フレーム単位で生の画像データを符号化ループに送るか送らないかを選択することによる間引き操作によりフレームレートは変更される。したがって、この間引き情報が上記のＴＲＥＦに反映されることになる。

（ｃ）フレームレート変更を駆動する要因
フレームレート変更の駆動要因については、以下のようにまとめることができる。
１）バッファ容量に応じた切り換え
２）伝送レートに応じた切り換え（例：8kbps →5frame／sec など）
動画像モードにおいては伝送レートに応じて初期フレームレートを設定する。例えば符号化レートＱＸ64に対して、以下に示すようなフレームレートに設定するようになっている。

・ＱＸ64≧18 →30 frame／sec
・18≧ＱＸ64≧10 →30 frame／sec または15 frame／sec
・10＞ＱＸ64≧6 →15 frame／sec
・ 6＞ＱＸ64≧1 →15 frame／sec または10 frame／sec
・64＞ＱＸ64×64≧32 →10〜7frame／sec
・32＞ＱＸ64×64 →10 frame／sec 以下
３）動き発生量に応じた切り換え
４）モードの変更

［Ａ−５］符号化処理プログラムに従った動作の説明
さて、以上のように、符号化処理に当たって実施される超低レート化の機能について、実際の符号化処理過程においては、各機能を図５ないし図７に示すプログラムのフローチャートにしたがって実施するようになる。以下、全体の流れの概略について説明する。

すなわち、まず、強制モードの設定を行い（ステップＡ１）、この設定状態の下で、対象領域抽出部２６，テンプレートデータベース２７，２Ｄテンプレートマッチング部２８，モデルベース予測部２９および三次元形状データベース３０などにより、動領域の解析，動き領域抽出（ステップＡ２，Ａ３）を行う。次に、モード制御部３３により、状態遷移図による探索と判定を行い、続いて、使用環境モードの設定、被写体モードの設定、状態遷移確率の更新処理、符号化制御モードの決定（ステップＡ４〜Ａ８）を順次実行する。

この後、今のフレームが強制イントラフレームであるか否かを判定し（ステップＡ９）、「ＹＥＳ」の場合には符号化制御部２１における量子化ステップの決定を行うと共に、直交変換部７，量子化部８，通信路符号化部１０などによりＨ．２６１規格のＩＮＴＲＡ符号化処理を行い（ステップＡ１０，Ａ１１）、「ＮＯ」の場合には、直接次の仮想バッファ計算（ステップＡ１２）に進み、符号化制御部２１により仮想バッファの計算を行う。

次に、現在のフレームが動画モードである場合にはフレームレートを決定し（ステップＡ１３，Ａ１４）、モデルベースモードである場合には、領域抽出・認識処理部２５にて３Ｄモデルによる２Ｄテンプレートの生成を行い（ステップＡ１５，Ａ１６）、２Ｄテンプレートの照合を行って対象領域の抽出処理を行う（ステップＡ１７，Ａ１８）。また、背景メモリモードが設定されている場合には背景メモリ３２を使用するようになる（ステップＡ１９，Ａ２０）。

続いて、属性予測フレームであるか否かの判定を行い（ステップＡ２１）、「ＮＯ」の場合には、ステップＡ２２〜Ａ２８の一連の処理を実行し、「ＹＥＳ」の場合にはステップＡ２９〜Ａ３５の一連の処理を実行する。ステップＡ２２〜Ａ２８では、符号化制御部２１および対象領域抽出部２６により、イントラフレームの判定，動き補償有無の判定，動き量の判定，色変化量の判定，仮想バッファの計算，量子化ステップの決定，最大係数個数の計算が実行される。また、ステップＡ２９〜Ａ３５では、符号化制御部２１および属性メモリ２２などにより、ＭＴＰ，ＭＢＡ，ＱＳＣ，ＭＶＤ，ＣＢＰの各配列の予測を行うと共に、ＭＢＫ属性の符号化抑制処理，ＭＢＫ属性配列のモデルベース伝送が行われる。

この後、ＢＬＫ単位でＨ．２６１ベースの動き補償，ＤＣＴ計算を実行し（ステップＡ３６）、直交変換部７，量子化部９，逆量子化部１３，逆変換部１４および通信路符号化部１０などにより、領域別量子化制御および有意係数個数制御を実施した後、ＢＬＫレイヤのビットストリームを生成する（ステップＡ３７，Ａ３８，Ａ３９）。ＢＬＫレイヤの終了後、属性予測フレームである場合にはＭＢＫ属性判定制御を実行し（ステップＡ４０〜Ａ４２）、この後、属性メモリ２２にＭＢＫ属性データを格納して記憶させるようになる（ステップＡ４３）。以下、ステップＡ４４〜Ａ５４にしたがって、１フレーム分の符号化ビットストリームデータを生成する。

［Ｂ］復号化器
次に、復号化器２において受信する符号化ビットストリームの復号化処理の内容について説明する。図４は、復号化処理内容を概念的に示すもので、大きく分類すると、復号化処理は、符号レベル，パターンレベル，画像信号レベルの３段階に実施され、この処理過程で種々のモード制御を行うと共に誤り訂正機能を実施して超低レートの伝送による復号化処理と無線通信レベルでの誤り率に対応した誤り訂正機能を実現する構成である。以下においては、この図４に示す概念的な構成をベースとして各機能に対応した詳細な説明を項目別に行う。

なお、この復号化器２の特徴である自律的誤り訂正の機能を実現するに至る経緯について簡単に説明する。すなわち、通常、有線伝送系では平均ビット誤り率は１０の−６〜−８乗程度であるが、これに対して無線系においては１０の−２〜−３乗程度と大きい値が想定されている。

一方、ＭＰＥＧやＨ．２６１規格のように可変長符号をベースとしたシンタックス（図３０参照）で発生したビットストリームでは、ほんの１ビットの誤りでも最悪の場合には復号誤りが伝播し、それ以降のデータが復号不能となる場合が想定される。しかし、従来の有線系ＴＶ会議システムではデマンドリフレッシュ（フリーズと再送要求の組み合わせ）と誤り訂正符号（ＢＨＣ符号など）の組み合わせにより、実用上で問題のない程度の誤り訂正が実現化されていた。

また、ビデオＣＤなどの蓄積系においては誤り訂正符号で充分であったが、無線系では誤り率が高い上に電波事情によっては数ビット単位で欠落，反転，挿入などの伝送誤りが発生する可能性があるため、通常の符号理論的なアプローチだけでは完全な誤り訂正が困難となるものであった。そこで、本実施例の復号化器２においては、少なくとも復号化処理が中断せずに、しかもできるだけ原信号に近い信号値を復元できるような自律的な誤り修復手段を講じることにより解決を図っているのである。

以下においては、その自律的な誤りの訂正機能の内容について次の各項目に分けて説明する。［Ｂ−１］符号化ビットストリームのグローバルなチェック，［Ｂ−２］符号とシンタックスのレベルの誤り訂正，［Ｂ−３］パターンレベルの誤り訂正，［Ｂ−４］信号レベルの誤り訂正，［Ｂ−５］モード情報を用いた誤り訂正の戦略制御，［Ｂ−６］認識レベルの誤り訂正，［Ｂ−７］人物メモリと３Ｄモデルベース手法，［Ｂ−８］誤り訂正戦略，［Ｂ−９］復号化処理プログラムに従った動作の説明の大項目に分け、各大項目中においてさらに小項目に分類して各原理と方法について説明する。

［Ｂ−１］符号化ビットストリームのグローバルなチェック
（１）ビット誤りの発生形態
まず、復号化処理におけるビット誤りの訂正を行うにあたって、通信路を経由して受信する画像信号のビット誤りがどのようにして発生するのか、その発生形態について以下に簡単に説明する。

（ａ）単発的な「０／１」の反転誤り：ある確率でランダムにビット値が反転する誤りの発生形態である
（ｂ）バーストエラー：ある区間のデータがマスクされる誤りの発生形態で、その間の値は次の≪１≫，≪２≫のいずれかである。≪１≫０あるいは１の固定値を連続して出力する，≪２≫全くランダムな値を出力する
（ｃ）ビットの挿入，欠落：これによって時間的な伸縮が発生する

（２）誤り訂正の基本方針
本実施例においては、誤り訂正の基本方針として、誤り発生の形態については特に限定するものではない。しかし、上述の（ａ）の場合には比較的安定して対処できるが、（ｂ），（ｃ）のような場合には完全な訂正は極めて困難なものとなるため、復号化処理の結果を視覚的にはそれほどおかしくない推定値で修復するが、その後の誤差伝播による誤差の累積が予想されるので、これを抑制する手段を設けている。また、この場合に、最悪時にはピクチャーフリーズと再送要求（ＡＲＱ：automatic repeat request）を行使する。

また、復号化器２側での能動的な訂正手段を行使する以前に、復号化処理上で影響力の大きい情報（所要ビット数などのデータ）については、前述したように、符号化器１側において冗長的に付加することで訂正能力の向上が図れるようにしている。

（３）所要ビット数の伝送
プロトコルシンタックス中のユーザーデータエリアを用いて、データ欠落時に画像再生に与える影響が大きいデータについては、前述のように符号化器１側から冗長的に伝送している。本実施例においては、図５０に示すように、ＰＩＣレイヤにＰＩＣ単位の所要ビット数を、ＧＯＢレイヤにＧＯＢ単位の所要ビット数を各々のユーザーデータエリアに１６ビット（６４ｋビットまで表現可能）程度で記述しておく。これにより、復号化器２側においてビットの欠落や挿入があったか否かを判定できる。また、この所要ビット数データ自体に誤りがあるか否かについては次のようにして判定する。

（ａ）次の項［Ｂ−２］符号とシンタックスのレベルの誤り訂正で説明するように、ＰＳＣ（ピクチャースタートコード）とＧＢＳＣ（ＧＯＢスタートコード）の定位をバッファ内のグローバルなヘッダチェックで行っておく。そして、この結果をもとに、ＰＳＰＡＲＥやＧＳＰＡＲＥに記述された符号量をチェックする。
（ｂ）ＧＯＢレイヤの符号量記述の和がＰＩＣレイヤの符号量に一致していない場合、どれかの記述に誤りがあると判定する。また、一致していれば誤りはないと判定して終了する。
（ｃ）伝送レートとフレームレートから１フレームあたりの平均符号量と１ＧＯＢあたりの平均符号量を計算する。強制イントラフレーム以外の場合で、この値からあるしきい値以上外れる符号量を記述誤り箇所の候補とする。
（ｄ）上記（ｂ）の項で抽出した候補に対して、過去の数フレームにわたる符号量から線形予測との比較を行い、その値とのずれが一定範囲内に収まっていない場合は誤りと判定する。

（４）フォワード型データチェック
上記した（ａ）のように符号化器１側で記述した１フレーム中の所要ビット数のデータを１フレームの復号化処理の開始以前にすべて検出しておくために、復号化器２側の入力バッファ（ＦＩＦＯバッファ４２）に蓄積されたビットストリームデータを数ｋビットオーダーでグローバルにチェックする。そのためには、次の項［Ｂ−２］でも説明するように、ＰＳＣとＧＢＳＣとの定位が必要になる。そこで、その定位処理について次のようにして行う。

（ａ）あるバッファ領域に対して、図５１に示すように、ファジイマッチング処理により完全にスキャンする。伝送レートが高い場合には、この方法で定位が完了するのに多くのマッチング計算を必要とするが、超低レートにおいては１フレームあたりのデータ量が数ｋビット以下であるので、このようにグローバルにスキャンする処理を行っても実用上問題がない程度である。

この場合において、ファジイマッチング処理では、検索するコードのビットパターンと符号化ビットストリーム中のビットパターンとのビット一致率で示す類似度Ｓ（図５１中の式参照）が例えば０．９（９０％）以上であれば、ほぼ間違いないと判断するといった基準を設けている。これによって、例えばＰＳＣが２０ビットであるから、２ビット分の誤りを許容してマッチングしたことを判定できるようになる。なお、この類似度Ｓの値は、好ましくは０．９であるが、実用上においては０．８程度まで低い値に設定しても実施可能なものである。

（ｂ）ＰＳＣと最初のＧＢＳＣを検索した後、平均符号量と１フレーム前の符号量を用いた推定符号量を根拠としておおまかな位置を見当付ける。その後、その位置を中心としたある範囲内でスキャンを行う。そして、次のフレームのＰＳＣまでの間にあるＧＢＳＣの数が正しければチェック処理を終了する。また、正しくない場合には、ＧＮ（グループナンバー）コードの値をチェックして欠落しているＧＢＳＣを割り出し、そのＧＢＳＣの１つ前のＧＢＳＣからスキャンを行い、これによって検出できれば終了する。

［Ｂ−２］符号とシンタックスのレベル誤り訂正
（１）ＰＩＣとＧＢＳＣの定位
ビットストリームをシーケンシャルに復号するのみでは、次の（２）項で述べるようなビット誤りに起因してＰＩＣデータおよびＧＯＢデータの範囲を知ることができなくなる恐れがある。そこで、上述したようなファジイマッチング処理により比較的安定して検出し、定位できるＰＳＣおよびＧＯＢヘッダを起点としてパターンレベル（ＭＢＫ属性）や画像信号レベル（ＢＬＫ）による誤り訂正に追い込んでいく階層的処理を設けている。そして、その後は、符号と文法とに依存した以下の誤り訂正に連結されるようになっている。

（２）ビット誤りによる文法的復号停止の発生形態
ビット誤りを含むビットストリームをシーケンシャルに復号化処理すると、文法エラーによりパーザ４３は復号化処理を停止する。しかし、そのときの停止位置とビット誤りの発生位置とが一致するとは限らず、場合によってはビット誤り位置が停止位置よりも数十ビット手前まで遡っていることもある。そこで、以下においては、どのような誤りの発生形態が存在するかを説明する。

（ａ）ビット誤り位置で即座に停止する場合
固定長ヘッダにビット誤りが混入し、マッチング不能になる場合には、シンタックス上で他への分岐条件がない限り、即座に復号停止となる。
（ｂ）ビット誤り位置からしばらく復号を続けた後に停止する場合
１）可変長符号（ＶＬＣ）においてビット誤りが生じた場合

ビットストリームとは、図５２に示すように、異なる２進木構造を持つ符号木の結合で得られるグラフにおいて各節点間を論理条件や数値条件に基づいて遷移することによって得られる出力シンボルの時系列である。したがって、ＶＬＣの内の１ビットでも反転すると符号化器１側で発生した事象（符号化属性や画像信号の値に対応）の時系列が復号化器２側において再生できなくなって全く別の事象列を復号化結果として出力する結果に至る恐れがある。

しかし、このような誤りについては、純粋に符号のみを判断する文法的制約だけでは検出できない。つまり、後述する信号レベルあるいはパターンレベルにおける誤り検出条件あるいは画像データ形式に基づく数値条件を介した文法的制約でのみ検出されるものである。換言すれば、このような誤り検出プロセスにかかるまで誤ったビットストリーム復号を継続してしまうため、復号停止位置はビット誤り位置よりも後ろになるということである。

また、このような誤りが存在していても必ずしも復号停止に至るとは限らず、例えば、ビット反転を受けても同一の符号長の他の符号語に置き換えられた場合には、状態出力として異なる値を出力するだけであり、その値がその後の条件分岐に悪影響を与えなければ、それ以後のＶＬＣ復号化処理における同期ずれは発生しない。それゆえに、この場合、例えばある画素ブロックの色やテクスチャーデータのみが変更されて再生される可能性があっても、復号停止には至らないのである。

２）固定長符号においてビット誤りが生じた場合
この場合は、上記した符号長が不変のビット反転の場合と同様であり、復号出力の数値または属性が符号化時と異なるが、その後の条件分岐に悪影響を与えなければ復号停止には至らない。

（３）文法的復号誤りの検出
次に、Ｈ．２６１のプロトコルシンタックス（図３０参照）に基づき、ビット誤りが発生する位置を次のように分類して説明する。

（ａ）常に現れる固定長ヘッダ
１）ＰＳＣ（picture start code；２０ビット）
ファジイマッチング処理を行う限り、２ビット程度のビット誤りがＰＳＣ中に発生してもシンタックスやそれまでの復号化結果に依存せずにＰＳＣを検出できる。したがって、ＰＳＣの検出と定位は他の位置のビット誤りを検出するために必要な初期プロセスとなっている。
２）ＧＢＳＣ（group of blocks start code；１６ビット）
ＰＳＣと同様に、ファジイマッチング処理により安定して検出できるが、ＰＳＣの定位が行われていないと定位を誤る可能性もある。

（ｂ）常に現れる固定長データ
１）ＴＲ（temporal reference；５ビット）
ＰＳＣの定位が行われていれば、続く５ビットのデータであるので、その値をチェックすることは容易である。次のように復号化器２側のモード設定状態に応じて誤りの判定が異なる。
ア）通常の動画再生モード（固定フレームレート）であれば、伝送レートに応じたフレームレートに相当する値だけ前回のＴＲよりも増えているはずである。３２ｋｂｐｓ以下の超低レート動画モードならば、３〜５程度の増分になるため、それ以外は誤りと判定できる。
イ）準動画モードならば、１０〜３１程度の増分になるため、それを外れると誤りである。
２）ＰＥＩ（picture extra insertion information ；１ビット）
データが１であれば次に続くユーザーデータＰＳＰＡＲＥ（８ビット）が存在する。データが０であればＧＢＳＣが続く。

３）ＧＮ（group number；４ビット）
ＧＢＳＣの定位プロセスで誤りを判定する。以下の条件≪１≫，≪２≫を満たさない場合には誤りである。≪１≫ＣＩＦ構造では１≦ＧＮ≦１２，≪２≫１つ前のＧＮよりも１つ数値が増えている場合
４）ＧＱＵＡＮＴ（GOB layer quantizer infomation；５ビット）
超低レート伝送での量子化スケール（ＱＳＣ）は、対象領域優先モードにおいてはすべて３１（量子化ステップ６２）に固定し、領域分析から決定される主領域のみ１６（量子化ステップ３２）と設定する。したがって、人物モードではＱＳＣ情報は伝送しないようになっている。これによりＧＱＵＡＮＴ（ＧＯＢレイヤのＱＳＣ情報）とＭＱＵＡＮＴ（ＭＢＫ単位の量子化スケール変更情報）は不要となるため、このデータに関する誤りは生じない。他のモードではＭＱＵＡＮＴを用いる場合は後述のパターンレベルの誤り訂正におけるＣＢＰと同様にして値を推測し、誤りを判定する。

５）ＧＥＩ（GOB extra insertion information ；１ビット）
ア）データが「１」であれば次にユーザーデータＧＳＰＡＲＥ（８ビット）が続く。したがってＧＢＳＣの定位とＧＳＰＡＲＥの定義および数値から正しくない（同期ずれか誤り）と判定する。
イ）データが「０」であればＭＢＡが続く。したがって、誤りの判定はＭＢＫレイヤまで持ち越される。

（ｃ）条件付きで現れる固定長データ／ヘッダ
１）ＰＳＰＡＲＥ（picture layer spare infomation；８ビット）
ピクチャーレイヤ単位でのユーザーデータを記述可能なエリアで、本実施例においては、モード情報（８ビット），所要ビット数の情報（８ビット×２）に用いている。これによって、所要ビット量の誤りを判定することができる。

２）ＧＳＰＡＲＥ（GOB layer spare infomation；８ビット）
ＧＯＢレイヤ単位でのユーザーデータを記述可能なエリアで、本実施例においては、ＧＯＢ内での所要ビット数を記述している。なお、ＧＯＢレイヤでの所要ビット数は８ビット以内に収まる確率が高いので、所要ビット数のデータのビットパターンを上位（ＭＳＢ）側と下位（ＬＳＢ）側とで順序を入れ替えた反転パターンとして記述するようになっている。したがって、ＧＯＢレイヤの所要ビット数が８ビットを超える場合にのみ、次のＧＳＰＡＲＥが必要になる。

３）ＭＢＳＴＵＦＦ（macroblock address stuffing ；１１ビット）
超低レート伝送では用いない。６４ｋｂｐｓ以上のＨ．２６１規格においては用いられる可能性はあるが、図５３にも示すように、１ビットの誤り発生でも、文法的に異なる解釈結果となる場合があるので、ファジイマッチング処理を行うことは危険である。したがって、本実施例においてはＭＢＳＴＵＦＦコードは使用していない。

４）ＭＱＵＡＮＴ（MBK layer quantizer infomation；５ビット）
ＧＱＵＡＮＴで説明したように、本実施例における超低レートの伝送の人物モードにおいては、ＭＱＵＡＮＴを用いない。他のモードでＭＱＵＡＮＴを用いる場合は後述のパターンレベルの誤り訂正におけるＣＢＰと同様にして値を推測し、誤りを判定する。

５）ＩＮＴＲＡ−ＤＣ（８ビット）
文法的にはＭＴＰがＩＮＴＲＡを示す時のみ最初のＤＣＴ係数データとして現れる。この判定については、後述する信号レベルの誤り訂正プロセスに委ねられる。

６）ＥＳＣ（６）＋ＲＵＮ（６）＋ＬＥＶＥＬ（８ビット）
ＥＳＣに誤りが入ると、その後のＢＬＫレイヤの復号化処理において別の解釈が生じるため、文法的に誤り位置を特定して訂正することはかなり困難である。そこで次の方策を講じている。
ア）ＤＣＴ係数の復号化処理において常にＥＳＣとの類似度Ｓesc を計算し、Ｓesc ＝５／６（６ビット中５ビットがＥＳＣと一致）の時にその位置Ｐesc をすべて記憶し、その後の復号化処理を進める。
イ）ＥＯＢを見付ける以前に以下の条件≪１≫，≪２≫を満たさない場合には、誤りと判定し、上述のＰesc に戻ってそれをＥＳＣと解釈し直して再度復号化処理を行う。≪１≫有意係数の個数≦Ｎcoefの制約，≪２≫ＢＬＫ内の量子化ＤＣＴ係数の累積個数≦６４
ウ）画像信号レベルの誤り訂正プロセス（ＢＬＫレイヤ）で誤りを検出すれば、同じくＰesc に戻ってそれをＥＳＣと解釈し直して再度復号化処理を行う。
エ）パターンレベルの誤り訂正プロセス（ＭＢＫレイヤ）で誤りを検出すれば、Ｐesc に戻ってＥＳＣと解釈し直して再度復号化処理を行う。
７）ＥＯＢ（end of block；２ビット）
語長が短いため、類似度で候補を判定することは困難である。しかし、出現回数は多いので、ランダムな誤りがＥＯＢ内に発生する確率は小さくない。そこで、以下の条件≪１≫〜≪３≫を満たさない場合にＥＯＢに誤りが生じたと判定する。

≪１≫有意係数の個数≦Ｎcoefの制約
≪２≫ＢＬＫ内の量子化ＤＣＴ係数の累積個数≦６４
≪３≫（ＭＢＫ内のＢＬＫ個数）≦（ＣＢＰで記述されるＢＬＫ個数）
この場合に、訂正方法は次のア），イ）の２通りがあるが、通常は、計算の簡略化のためにイ）の方法を選択する。
ア）１つ前のＥＯＢの直後からビットを順に反転してゆき、ＥＯＢパターン「１０」を検出する。そして、検出したＥＯＢパターンをＥＯＢと見なして復号化処理を行い、上記した３つの条件≪１≫，≪２≫，≪３≫をすべて満たせばこれが正しいＥＯＢと判定する。
イ）ＧＯＢ中の残りのＭＢＫのすべてについてパターンレベルの誤り訂正を適用する。前述の３つの条件≪１≫，≪２≫，≪３≫で検出できない場合は信号レベルかパターンレベルの誤り訂正に委ねる。

（ｄ）常に現れる可変長符号（ＶＬＣ）
１）ＭＢＡ（macroblock address；１〜１１ビット）
ＭＢＡは以下の条件≪１≫，≪２≫で出現するため、この条件でＶＬＣ表の照合を行い、あとはパターンレベルの誤り訂正に委ねる。
≪１≫復号完了したＭＢＫ個数≦３２のとき，ＥＯＢの直後
≪２≫ＧＥＩ＝０の直後
２）ＭＴＰ（macroblock type ；１〜１０ビット）
ＭＴＰは『ＭＢＡの直後』という条件で出現するため、この条件でＶＬＣ表の照合を行い、あとはパターンレベルの誤り訂正に委ねる。

（ｅ）条件付きで現れる可変長符号（ＶＬＣ）
１）ＭＶＤ（motion vector data；１〜１１ビット）
ＭＶＤは以下の条件≪１≫，≪２≫で出現するため、この条件でＶＬＣ表の照合を行い、あとはパターンレベルの誤り訂正に委ねる。
≪１≫ＭＴＰ＝２，３，６，８，９，１０のとき，ＭＴＰの直後
≪２≫ＭＶＤはｘ成分，ｙ成分の順番で２個のＶＬＣが連続して現れる
２）ＣＢＰ（coded block pattern ；３〜９ビット）
ＣＢＰは以下の条件で出現するため、この条件でＶＬＣ表の照合を行い、あとはパターンレベルの誤り訂正に委ねる。

３）ＴＣＯＥＦ（ＩＮＴＥＲ）（transform coefficients；２〜１７）
ＢＬＫレイヤのＩＮＴＥＲブロックに対するＤＣＴ係数のＶＬＣは以下の条件≪１≫，≪２≫で出現する。この誤り訂正は信号レベルの誤り訂正に委ねる。
≪１≫ＭＴＰが４か７のとき（ＩＮＴＲＡブロック），ＢＬＫレイヤ内で２番目の係数以降
≪２≫ＭＴＰが４，７以外のとき，ＢＬＫレイヤナイで次の符号がＥＳＣでない場合
［Ｂ−３］パターンレベルの誤り訂正
階層的な符号化属性におけるフレーム間の連続性を用いる。

（１）過去のＭＢＫ復号属性の利用
すでに復号化した過去のＭＢＫレイヤについては、属性メモリ３９ｃ内に、ＭＢＡ，ＭＴＰ，ＱＳＣ，ＭＶＤ，ＣＢＰの５つの属性データがフレーム単位の配列データとして記憶されている。これらの属性データはフレーム間でかなりの連続性を有しているので、シーンチェンジや強制イントラフレーム以外では、それほど激しく変化することはないという性質を持つ。特に、人物領域など対象領域の存続に関して時間的連続性がある場合には、このことが良く成り立つ（図５４，図５５参照）。

ブロック画素の単位で信号レベルのエラーが検出されたときに、そのエラーの原因は、ＤＣＴ係数に対するＶＬＣの伝送エラーでない場合には、ＭＢＫ属性のエラーである可能性が高くなる。このとき、ＭＴＰ，ＱＳＣ，ＣＢＰを１フレーム前の属性のＭＢＫ単位の動き補償位置に隣接したｋ個のＭＢＫからなる領域の範囲内で比較して著しく異なる場合には、その属性に過去の属性値を当てはめることで誤り訂正を行う。この場合における比較の評価関数については、以下に説明する通りである。

（ａ）ＭＢＡの誤り検出と訂正
まず、ＭＢＡは対象領域の左側の輪郭部では時間的連続性が出るが、対象領域内では変化が多くなることが予想される。しかし、逆に、前述したようなＦＩＸＥＤ／ＮＯＴ＿ＦＩＸＥＤのパターンについては、領域の動きからほぼ予測がつくようになる。そこで、図５６のフローチャートおよび図５７，図５８に示すように、以下においては、領域の平均動きベクトルを利用して領域をシフトさせることにより、ＭＢＡパターンに一意的に対応するＮＯＴ＿ＦＩＸＥＤ（以後、ＮＦＸと称する）パターンの予測計算を行い、ＧＯＢ単位で現在の復号結果によるＮＦＸパターンと予測結果に基づくＮＦＸパターンとの間の類似度ＳNFX を次式（１２），（１３）にしたがって計算する。

ここで、
L ；現在復号中のＭＢＡ値ａのＭＢＫアドレス（既に復号が完了した１つ前のＭＢＡ値のＭＢＫアドレスL0にａを加えた値）
Ls； NFXパターン比較の開始位置
ｓ(A,B) ； A=B のとき「１」，それ以外は「０」
NFXM(k) ；ＧＯＢの１番目のＭＢＫのＭＢＡ値が「１」以上ならば「１」，「０」なら「０」
NFXM＿(k) ；１フレーム前の NFXパターンから予測した NFXパターン
次に、上述の計算結果について信頼度ＲNFX を式（１４），（１５）にしたがって計算する。

上述の結果に基づいて、例えば次のような４つの条件によりＭＢＡの検出と誤り訂正を行う。

１）ＲNFX0 ＜０．５
この場合には、ＮＦＸ予測の信頼度が低いと判断して保留する。すなわち、とりあえずは現状のＮＦＸパターンを正しいと判定し、次の属性の判定に進む。

２）ＲNFX0 ≧ ０．５且つＳNFX ＜ＴNFX1
現在のＮＦＸパターンは復号誤りであると判定する。予測パターンからＮＦＸ値をコピーしてＭＢＡパターンに変換する。（ＴNFX1は、例えば０．３程度の値とする）
３）ＲNFX0 ≧ ０．５且つＴNFX1 ≦ ＳNFX ＜ＴNFX2
現在のＭＢＡ値が復号誤りであることは判定できないため保留する。すなわち、とりあえずＮＦＸ値を正しいと判定し、次の属性の判定に進む。（ＴNFX2は、例えば０．７程度の値とする）
４）ＲNFX0 ≧ ０．５且つＴNFX2 ≦ ＳNFX
現在のＮＦＸ値は正しい復号結果であると判定する。

（ｂ）ＭＴＰの誤り検出と訂正
１０ frame／sec では、フレーム間の動きベクトルはビデオレートにおける３フレームベクトルなので、最大の大きさはプラス４５画素程度もある。これは最大ＭＢＫ３個の変位に相当する。そこで、１フレーム前のＭＴＰパターンに対して対象領域の動きベクトルをＭＢＫ単位に換算した動き量（ｍｘ，ｍｙ）で動き補償し、そのＭＢＫ位置を基準として既に復号したＭＢＫで構成される比較領域を図５９，図６０のように設定し、動き補償によって対応する領域と各ＭＴＰ値を比較する。ここで、次式（１６）に基づいて類似度ＳMTP を計算し、さらに、それまでのＭＴＰ予測の信頼度を評価するために式（１７），（１８）を用いて信頼度評価値ＲMTP0を計算する。

ここで、
ｓmtp(A,B)；２つのＭＴＰの間の類似度を計算する関数で、ＭＴＰの含む６種類の各情報の一致に対して、以下のスコア値を設定して合計する
ＩＮＴＲＡ属性の一致 → ３点
ＭＱＵＡＮＴ属性の一致 → １点
ＭＶＤ属性の一致 → ２点
ＣＢＰ属性の一致 → ２点
ＴＣＯＥＦＦ属性の一致 → １点
ＦＩＬ属性の一致 → １点
ＬMTP ；スコア設定の合計値（ここでは「１０」）
Ｋ；比較領域に含まれるＭＢＫの個数，１番目は現在復号中のＭＢＫ
Ｋ０；ＭＴＰ予測の信頼度の計算領域に含まれるＭＢＫの個数でＫ以上の値
MTP(i)；ＧＯＢの１番目のＭＢＫのＭＴＰ値，ＦＩＸＥＤでは０
MTP ＿(i) ；１フレーム前のＭＴＰパターンから予測したＭＴＰパターン，通常は動き補償による比較領域のＭＴＰパターンをそのまま予測パターンとする
上述の設定により、例えばＭＴＰ＝１とＭＴＰ＝２との間の類似度は、ＭＶＤとＦＩＬ以外ではすべて一致しているので、
３＋１＋０＋２＋１＋０＝７（点）
となる。したがって、その場合には、
ｓmtp(1,2)＝ｓmtp(2,1)＝７
となる。同様にして、他の組み合わせについても計算することができる。

次に、上述の結果に基づいて、例えば次のような４つの条件によりＭＴＰの検出と誤り訂正を行う。
１）ＲMTP0 ＜０．５
ＭＴＰ予測の信頼度が低いと判断して保留する。すなわち、とりあえずは現状のＭＴＰ値を正しいと判定し、次の属性の判定に進む。
２）ＲMTP0 ≧ ０．５且つＳMTP ＜ＴMTP1
≪１≫現在のＭＴＰパターンＭＴＰ（Ｌ）は復号誤りであると判定する。予測パターンからＭＴＰ値をコピーする。（ＴNFX1は、例えば０．３程度の値とする）
≪２≫これに対して、類似度が８以上（相違度が２以下）のＭＴＰをすべて参照し、該当するＶＬＣを参照する。
≪３≫参照したいＶＬＣとビットストリーム列をファジイマッチング処理により比較して最も照合度の高いＶＬＣを選択する。
≪４≫その照合度がある基準（０．８以上）を満たせば、そのＶＬＣとＭＴＰを採用する。満たさない場合には最初の推定値のＭＴＰを採用する。

３）ＲMTP0 ≧ ０．５且つＴMTP1 ≦ ＳMTP ＜ＴMTP2
現在のＭＴＰ値が復号誤りであるとは判定できないので保留する。すなわち、とりあえず現状のＭＴＰ値を正しいと判定して次の属性の判定に進む。（ＴMBA2は、例えば０．７程度の値とする）
４）ＲMTP0 ≧ ０．５且つＴMTP2 ≦ ＳMTP
現在のＭＴＰ値は正しい復号結果であると判定する。

（ｃ）ＱＳＣの誤り検出と訂正
ＱＳＣは３２ｋｂｐｓ以下の伝送レートではすべて３１（量子化ステップ６２）に固定し、対象領域優先モードにおいて領域分析から決定される主領域のみ１６（量子化ステップ３２）とする。したがって、人物モードではＱＳＣ情報は伝送しない。これにより、ＧＯＢレイヤのＱＳＣ情報とＭＢＫ単位の量子化スケール変更情報が不要となるため、ＱＳＣの誤りは生じないようになる。

（ｄ）ＭＶＤの誤り検出と訂正
ＭＶＤはフレーム内において隣接するＭＢＫ間の差分動きベクトルで表現されているので、このままのデータ形式では誤りを判定することは困難である。そこで、ＭＶＤデータを本来の動きベクトルＭＶの形に戻してから評価する手法を取る。なお、ＭＶＤ属性データについては、他のＭＢＫ属性の値に比べて時間的にも空間的にも連続な統計的性質を持つ信号値とみなせるので、過去のフレームからの線形予測と周囲ＭＢＫからの線形補間が可能となる。そこで、まず、領域情報がない場合について、動きベクトルＭＶを次の式（１９）にしたがって計算する。

上式において、
ｖx(L,M)；Ｍフレーム時刻におけるＬ番目のＭＢＫに関する水平方向の動きベクトル
ｖy(L,M)；Ｍフレーム時刻におけるＬ番目のＭＢＫに関する垂直方向の動きベクトル
Ａ；ｘまたはｙを表す添字
ｖA ＿(L,M) ；Ｍフレーム時刻におけるＬ番目のＭＢＫに関する動きベクトルの推定値
ａ(i) ；フレーム内の線形補間係数
ｂ(m) ；フレーム間の線形予測係数
ｕ；フレーム内補間とフレーム間予測の比率（０≦ｕ≦１）
Ｋ；復号中のＭＢＫを含む周囲のＭＢＫ領域のＭＢＫ個数
ｐ；線形予測を行うための過去のフレーム数
そして、周囲ＭＢＫの設定の仕方は、前述のＭＴＰの比較領域の場合に準ずる。このようにして得た推定ベクトルの値について次式（２０）の誤差評価の式を用いて評価する。

式（２０）により得られた誤差評価の値Ｅにより次のように判定する。

１）Ｅ≧２０
≪１≫復号したＭＶＤは誤りであると判定しｖＡをｖＡ＿で置き換える。
≪２≫これに相当するＭＶＤを計算し、それを中心値として±５の範囲で該当するＶＬＣを参照する。
≪３≫参照したＶＬＣとビットストリーム列をファジイマッチング処理により比較し、最も照合度の高いＶＬＣを選択する。
≪４≫その照合度がある基準（０．８以上）を満たせば、そのＶＬＣとＭＶＤを採用する。満たさない場合は、最初の中心値のＭＶＤを採用する。

２）２０＞Ｅ≧１０
保留する。とりあえず復号したＭＶＤを保持する。
３）１０＞Ｅ≧０
復号したＭＶＤは正しいと判定する。

次に、領域情報がある場合には、動きベクトルの計算に当たっては、式（１９）に代えて、次に示す式（２１）に基づいて行い、評価については上述と同様にして行う。

ここで、
ｖRA(L,M-m) ；ｍフレーム前の時刻における領域の平均動きベクトル

（ｅ）ＣＢＰの誤り検出と訂正
１）領域情報がない場合
動き補償予測符号化処理においてＣＢＰデータはテクスチャーや色の時間的変化の度合いを示す数値と考えることができる。しかし、このＣＢＰデータは、ＭＶＤのような線形補間計算が行えるような代数構造とはなっていないので、図６１〜６４に示すように、ＣＢＰ値をいったんＹＵＶベクトルに変換してからＭＶＤと同様の評価計算を実施する。そこで、まずＹＵＶベクトルへの変換に際しては、次式（２２）にしたがって計算する。

ここで、
c(L,M) ；Ｍフレーム時刻におけるＬ番目のＭＢＫに関するＹＵＶベクトル
c ＿(L,M) ；Ｍフレーム時刻におけるＬ番目のＭＢＫに関するＹＵＶベクトルの推定値
ac(i) ；フレーム内の線形補間係数
bc(m) ；フレーム間の線形予測係数
uc；フレーム内補間とフレーム間予測の比率（０≦uc≦１）
Kc；復号中のＭＢＫを含む周囲のＭＢＫ領域のＭＢＫ個数
pc；線形予測を行うための過去のフレーム数
LN(i,m) ；Ｍフレーム時刻における比較領域中のｉ番目のＭＢＫがＧＯＢ中のアドレスで何番目であるかを示す番号対応付けの関数，比較領域を設定すれば一意的に決めることができる
そして、周囲ＭＢＫの設定の仕方は、前述のＭＴＰの比較領域の場合に準ずる。このようにして得た推定ベクトルの値について次式（２３）の誤差評価の式を用いて評価する。

ｄ１(A,B) ；ベクトルＡとベクトルＢとの間の絶対値距離
式（２３）により得られた誤差評価の値Ｅにより次のように判定する。なお、ＹＵＶベクトルの定義から、
１２≧Ｅｃ≧０
であるので、以下のような判定を行う。

ア）Ｅｃ≧７
≪１≫復号したＣＢＰは誤りであると判定し、ｃ＿をｃとして置き換える。
≪２≫その置き換えたｃを中心値として±１の範囲内でＣＢＰを計算（１つのｃに対して複数のＣＢＰが存在し得る）し、該当するＶＬＣを参照する。
≪３≫参照したＶＬＣとビットストリーム列をファジイマッチング処理により比較し、最も照合度の高いＶＬＣを選択する。
≪４≫その照合度がある基準（０．８以上）を満たせば、そのＶＬＣとＣＢＰを採用する。満たさない場合には最初の中心値のＣＢＰを採用する。

イ）７＞Ｅｃ≧４
保留する。とりあえず、復号したＣＢＰを保持する。
ウ）４＞Ｅｃ≧０
復号したＣＢＰは正しいと判定する。

２）領域情報がある場合
次に、領域情報がある場合には、ＹＵＶベクトルの計算に当たっては、式（２２）に代えて、次に示す式（２４）に基づいて行い、評価については上述と同様にして行う。

cR(L,M-m) ；ｍフレーム前の時刻における動き補償領域のＹＵＶベクトル
ただし、ｕｃの値は、領域情報がない場合の値よりも若干小さい値に設定することが望ましい。また、ｐｃは逆に少し大きく設定する。

（ｆ）保留事項の処理
さて、上述のようにして５つの属性の検出と誤りの評価を行った結果、例えば、保留とする属性が３個以上発生した場合には、その保留が現れた属性に限り、誤り訂正した属性値に入れ替え、ＶＬＣを参照した上で、再度評価する。

［Ｂ−４］信号レベルの誤り訂正
これまで説明したパターンレベルの誤り訂正については、ＭＢＫ単位の符号化属性に依存している誤り訂正であって、画像信号の値そのものを評価する手段ではない。そして、画像信号はＢＬＫレイヤのビットストリームデータが符号レベルで復号化され、量子化ＤＣＴ係数ブロックとして復元された時点で初めて可能となるものである。そこで、このように復元された画像信号のレベルにおける誤り訂正について次に説明する。

（１）ブロック画素の性質に基づく誤り訂正
（ａ）誤りの検出
通常、ＢＬＫレイヤにおける復号誤りは、文法的制約とＶＬＣの木符号としての性質によって、量子化ＤＣＴ係数ブロックのＤＣ成分の復号誤りに通じる。このことにより、仮にＭＢＫが文法的に復号化が完了したとしてもその色（ＵＶブロックのＤＣ成分が支配的）やテクスチャーは周囲とは非常に異なるものになる可能性が高くなる（図６６参照）。

一方、正常な画像信号として図６５（ｂ）に示すように、画素ブロックの格子（同図（ａ）も参照）に乗ったタイル状の画素においてのみその周囲ブロックと異なる色が偶然に発生するという確率は非常に少ないと考えられる。この考え方は、対象とするＭＢＫのＭＴＰがＩＮＴＥＲを示すときには、尚更信頼度が高くなることが言える。なぜなら、画素値の変化が大きいＭＢＫである場合には通常ＩＮＴＲＡと判断される可能性が高いからである。そこで、ここでは、色信号に着目して以下のようにして誤りを検出する。

１）最もストレートな方法として、逆量子化、逆ＤＣＴを行って画像信号ブロックに復元した後に色を評価する。この評価では、周囲ＭＢＫからの線形補間と過去フレームのＭＢＫから動き補償線形予測によって推測したＭＢＫと、現時点でビットストリームから復元したＭＢＫとの間の比較に基づく。具体的には、次式（２５）〜（２９）にしたがって、誤差評価計算を行う。

ただし、各記号は以下の通りである。
ｄ１(A,B) ；ベクトルＡとベクトルＢとの間の絶対値距離
Ｃｂ；ビットストリームに基づく復元ＭＢＫの色ベクトル
Ｃｅ；推定したＭＢＫの色ベクトル
Ｙ＄；Ｙブロックの平均画素値
Ｕ＄；Ｕブロックの平均画素値
Ｖ＄；Ｖブロックの平均画素値
YBLK$(n,k)；ＭＢＫ中のｎ番目のＹブロックのｋ番目の画素値（ n=1〜4, k=1〜64）
UBLK$(k)；ＭＢＫ中のＵブロックのｋ番目の画素値
VBLK$(k)；ＭＢＫ中のＶブロックのｋ番目の画素値
以上の計算の結果得られる誤差評価値Ｅｃに対して、
７６５（＝２５５×３）≧Ｅｃ≧０
という条件があるので、この範囲内で、例えば、Ｅｃ＞４００である場合に誤りであると判定する。なお、ＭＢＫの予測推定計算については、次の２）と同様にして行う。

２）量子化ＤＣ係数ブロックのＤＣ成分のみを用いてＹＵＶベクトルを構成し、周囲ＭＢＫからの線形予測と過去のフレームからの動き補償予測によって推定したＹＵＶベクトルとの誤差を次式（３０）にしたがって計算して評価する。

ただし、
c(L,M) ；Ｍフレーム時刻におけるＬ番目のＭＢＫに関するＹＵＶベクトル
c(L,M)＝(Y,U,V) であり、Ｙは４つのＢＬＫのＤＣ成分の平均、
Ｕ，ＶはそれぞれＵＢＬＫ，ＶＢＬＫのＤＣ成分
cR(L,M-m) ；領域情報がある場合はｍフレーム前の時刻における動き補償領域のＹＵＶベクトルであり、領域情報がない場合はc(L,M)と同等
c ＿(L,M) ；Ｍフレーム時刻におけるＬ番目のＭＢＫに関するＹＵＶベクトルの推定値
ac(i) ；フレーム内の線形補間係数
bc(m) ；フレーム間の線形予測係数
uc；フレーム内補間とフレーム間予測の比率（０≦uc≦１）
Kc；復号中のＭＢＫを含む周囲のＭＢＫ領域のＭＢＫ個数
pc；線形予測を行うための過去のフレーム数
そして、周囲ＭＢＫの設定の仕方は、次項のＭＢＫ属性の比較領域の取り方に準ずる。このようにして得た推定ベクトルの値について次式（３１）の誤差評価の式を用いて評価する。なお、誤りの判定条件は、１）の場合と同じである。

（ｂ）誤りの訂正
復号したＢＬＫが誤りであると判定した場合には、推定値で置き換えるようにする。一方、次のＢＬＫの復号を行うには、符号レベルでビットストリーム復号再開位置を決める必要がある。このためには符号レベルの誤り訂正におけるＥＯＢ検出プロセスを起動する。このとき、もし、再生した（訂正も含む）ＭＢＫの数がＧＯＢ中で２２以上であるならば（ＧＯＢをなす３列のブロックのうちの２列分の個数が２２個である）、残りのＭＢＫについてはすべて領域情報を利用した動き補償予測に置き換えるようになっている。

（２）周期的強制イントラによる誤り伝播の防止
前項で示したような誤り訂正を行った後でも、そのままフレーム加算による復号化処理を継続すると、誤差伝播の累積により正常な画像再生が困難になる。そこで、次のような誤差伝播防止策を考慮している。
（ａ）領域情報をもとにして、周期的に強制イントラＭＢＫを挿入することにより、重要部分の画像破綻を防止することができる。特に、図６７にも示すように、顔部分では口と耳に強制イントラブロックを集中的に割り当てて、周期的に巡回することによりデータ量の増大を抑制しながら行う。
（ｂ）復号化器２側で誤り訂正を行った後に、領域ベースの強制イントラを今後あるい時間範囲で分散して送るように符号化器１側に要求する。この場合、フレーム単位のＡＲＱ（要求信号）に比べて情報量の著しい増加は避けられるため、ピクチャーフリーズを行う必要はない。

［Ｂ−５］モード情報を用いた誤り訂正の戦略制御
符号化器１において設定するモード情報は、前述したように、使用環境，被写体，符号化制御の３つのカテゴリーに渡っているが、そのモード情報を用いることにより、復号化器２側において誤り訂正のルートを特定することができるようになる。

（１）使用環境
（ａ）自動車内固定
背景メモリ６６と人物モードの設定により、認識，パターン，信号のすべてのレベルの誤り訂正機能を起動することができる。
（ｂ）自動車内可動
人物モードと風景モードとの両方の可能性があるが、人物モードの場合には、上述の自動車内固定の場合と同様である。ただし、背景メモリ６６のデータは常に更新記憶する必要がある。
（ｃ）屋内固定
背景メモリ６６を使用可能である。被写体が人物でない場合も目的によってはテンプレートまたは３Ｄモデルを特別に設定できるため、人物モードと同様の領域情報を利用した誤り訂正を起動できる。
（ｄ）屋内可動
人物モードのみ誤り訂正機能の起動が可能となる。

（２）被写体
上記した使用環境で説明したように、人物モードと風景モードとに分けられ、風景モードは形状や色彩が特定困難であるため、背景メモリ６６に頼る以外に誤り訂正機能の起動は難しい。人物モードでは、テンプレート，３Ｄモデル，人物画像テクスチャー，目鼻口耳・髪・肌色などの特徴量を用いることができるため、全レベルの訂正機能を起動させることができる。

（３）符号化制御モード
通常の実時間動画像再生要求とは異なるモード、例えば静止画モードやビデオメールモードなどでは実時間で誤り訂正をする必要がないため、ＡＲＱを起動すれば十分である。

（４）通信路における誤り発生状態の判定
画像がその他の誤り訂正手段によっても訂正できずに、復号が停止してしまった場合に、強制的に復号化器２側から符号化器１側に次のいずれかの要求信号を送信する。なお、このような要求信号の送信は、通信路の状況におうじて、自動的にレベルの選択設定をすることもできるし、あるいは、ユーザーの好みによって設定することも可能で、そのレベル設定はヒューマンインターフェイス３４を介して行うようになっている。

（ａ）強制イントラピクチャーから始まる動画伝送の再送要求
これは、既存方式で用いられている再送（ＡＲＱ）と同じである。しかし、超低レート伝送では、遅延時間の著しい増大と頻繁なピクチャーフリーズにつながるため、特に３２ｋｂｐｓ以下の実時間伝送ではあまり用いない。一方、ビデオメールモードのように非実時間伝送の場合はこの要求を適用する。
（ｂ）強制イントラピクチャーから始まる動画伝送の新規再開
復号化処理が停止した時点で残りのＭＢＫについて過去のフレームから予測画像を生成し、ピクチャーフリーズする。正常に強制イントラピクチャーが送られてくる（ＰＳＣヘッダで開始位置を確認）までは、入力バッファのデータを廃棄し続ける。
（ｃ）強制イントラピクチャーのみによる準動画の送出要求。
（ｄ）モデルベース符号化における動きパラメータの送出要求。

［Ｂ−６］認識レベルの誤り訂正
（１）対象領域の特定
符号化器１側にて設定された対象領域検出結果およびモード制御情報については、ユーザーデータエリア（ＰＳＰＡＲＥ，ＧＳＰＡＲＥ）に記述した状態で画像信号として伝送されるので、これを復号化器２側で復号化処理を行って検出する。そして、これらの情報に基づいてテンプレート（２Ｄ情報）の選択と変形を行い、符号化器１側で抽出した領域情報を再現する（図６８参照）。

（ａ）基本テンプレートの選択
符号化器１と復号化器２との間では、あらかじめ同一の２値テンプレートのセットが設けられているので、テンプレートを指定する識別番号を検出することにより双方で共通のテンプレートを用いることができる。

（ｂ）基本テンプレートの変形
１）中心あわせ
テンプレート中心の水平および垂直のシフト量を画素単位で表現した２Ｄベクトル（ｍｘ，ｍｙ）で中心合わせを行う。
２）スケーリング
上記のようにして得られた中心を原点として基本テンプレートを比率ｒで拡大縮小する。
３）修正
各々の基本テンプレートに固有の形状パラメータにより幅や高さ、姿勢角などの修正を部分的に加える。

（ｃ）部位の特定
モード情報とテンプレート選択情報により対象物のカテゴリーがわかっている場合には、さらにテンプレート中のどの部分が対象物のどういう部分に対応するかを知ることができる。例えば、人物モードで人物上半身のテンプレートを選択した場合、符号化器１の説明で用いた図１６に示しているように、人物頭部，顔，口，目，鼻などに相当する細かい画像領域を特定することができる。

（２）誤り判定の起動
本実施例においては、誤りの発生原因を符号レベルのビット誤りに特定して画像の修正プロセスを記述している。したがって、誤り検出そのものは認識レベルでは行わず、信号レベルか符号レベル，またはパターンレベルで行う。認識レベルの誤り訂正は、特にそれらで誤りを評価する場合の、領域情報とそれに基づく対象物体の画像に反映される種々の性質を提供することにある。したがって、認識レベルにおける誤り訂正プロセスの起動は、他のレベルのモジュールによって行われることになる。

（３）領域情報を用いた誤り訂正
（ａ）領域情報の利用による２Ｄ動き補償
現在復号中のＭＢＫがどの領域に含まれるかがわかれば、パターンレベルの誤り訂正の説明で述べたように、既に復号が完了した領域内のＭＢＫの動きベクトルを用いて動き補償を行うことができる。例えば、復号化処理中のＭＢＫが頭部の顔領域に含まれると判定されれば、頭部の平均動きベクトルを用いて動き補償予測ＭＢＫを作ることができる。

（ｂ）部位の情報を利用した修正
領域がわかれば、動きのみならず色や輝度，テクスチャーの誤りを修正することもできる。例えば、前フレームまでに顔の領域情報から肌色の解析をしておけば、信号レベルやパターンレベルの項で述べたような線形推定値と誤差評価により、誤りの判定と修正を行うことができるようになる。

（ｃ）領域情報の表現
領域情報の表現は、符号化器１側の説明で述べたと同様のテンプレートの表現方法に準ずる。例えば、人物モードでは被写体は全身像を基準として上半身，頭部，顔という４階層でテンプレートを作成する。また、顔は、口，目，鼻，頬，額を主要部位とし、正面顔における相対位置を設定する。上述の肌色解析は口と目を除く部分をもとにして平均色を計算することにより算出する。

（ｄ）人物領域中の相対位置の計算
変形を施す前の基本テンプレートは、前述したように、図２５のように記述されている。これにより、基本テンプレート中の二次元座標としてすべての部位の位置が表現できる。

（４）背景メモリによる誤り訂正
領域情報が明確になれば、背景領域を特定することができる。そこで、背景領域の画像情報を復号化器２の背景メモリ６６に記憶させる。これにより、背景領域の復号化処理中にビット誤りが発生したときも上記と同様の誤り訂正を行うことができるようになる。

［Ｂ−７］人物メモリと３Ｄモデルベース手法
（１）人物画像の登録
最初のイントラピクチャーを人物名によってラベリングし、人物画像データとして人物メモリ６７に記憶しておくことができる。こおこで、人物識別名は、ヒューマンインターフェイス３４を利用することにより、符号化時に認証番号と同じ意味合いでラベルとして付与して登録する。また、イントラピクチャー中の領域情報はテンプレート番号と変形情報で記憶させる。さらに、同時にその人物とコンタクト（通話）した日時も同時に記憶させたり、あるいはメモリ容量が許す限りの範囲内において、音声情報についても同一ラベルで記憶させることにより、さらに機能を向上させることができる。

（２）人物画像の呼出し
人物メモリ６７に登録することにより記憶されている人物画像情報は、ユーザーによって人物識別名に基づいて名刺画像として適宜のタイミングで呼び出すことができる。これにより、一度通話を行った相手の顔を思い出すことができるようになり、例えば、再度通話を行う際に相手の認証手段として用いることもできる。また、伝送誤りが激しくなったときのモデルベース復号モードのテクスチャー画像としても利用することができる。

（３）モデルベース復号モード
人物の３Ｄモデルに上記の人物画像をテクスチャーマッピングし、３Ｄ動き情報を付与することにより、伝送誤りが激しくなった場合の補助的な画像再生手段として人物象を生成する。この３Ｄ動き情報は復号化器２が適当に人物の動きらしく見えるように与えるようにしても良い。また、符号化器１側で抽出した３Ｄ動き情報を用いて制御することもできる。

（４）３Ｄモデルに基づく空間的限定
符号化器１側から３Ｄ動き情報が与えられるならば、前述の２Ｄテンプレート情報だけでは表現しきれなかった正面像以外の場合の領域予測が行える。すなわち、図１３にも示したように、３Ｄモデルの透視投影により、画像面上で２Ｄ領域を特定することができる。

［Ｂ−８］誤り訂正戦略
以上の各レベルにおける誤り判定結果に基づいて、最終的に行使される誤り訂正機能は次のようにまとめることができる。各レベル数は、再生動画像の原画像に対する忠実さの度合いを予想した値になっている。

〈レベル０〉３Ｄモデルベース再生
〈レベル１〉ピクチャーフリーズ
〈レベル２〉モデルベース推定
〈レベル３〉領域情報に基づくＧＯＢ単位の線形推定・動き補償
〈レベル４〉領域情報に基づくＭＢＫ単位の線形推定・動き補償
〈レベル５〉符号レベルの訂正
［Ｂ−９］フローチャートにしたがった復号動作の説明
さて、以上のように、復号化処理に当たって実施される誤り訂正の機能について、実際の復号化処理過程においては、各機能を図８ないし図１１に示すプログラムのフローチャートにしたがって実施するようになる。以下、全体の流れの概略について説明する。

すなわち、まず、ＦＩＦＯバッファ４２に蓄積されたビットストリームデータについて通信路復号化部３５のファジイマッチング部４４にてファジイマッチング処理を行ってＰＳＣを検索し（ステップＢ１）、その検索位置に基づいてパーザ４３により所要ビット数，モード情報，領域情報の復号化処理を行う（ステップＢ２〜Ｂ４）。そして、これらのデータに基づいて再びグローバルチェックを行って１フレーム内におけるＧＢＳＣを定位するようになる（ステップＢ５）。この後、図１１に示す誤りの総合判定のルーチンによって符号レベルの誤りに対する判定動作を行う（ステップＢ６）。

次に、モード制御部３３により、得られたモード情報に基づいて使用環境，対象物（被写体）および復号化モードを設定する（ステップＢ７〜Ｂ９）。そして、人物モードである場合には、基本テンプレートの選択，修正・変形・スケーリングの処理を行って領域パターンの再生を行い（ステップＢ１０〜Ｂ１３）、以下、ステップＢ１４〜Ｂ１７を経てパターンレベルの誤り訂正機能を実施する。

まず、属性推定部６１にて、ＭＢＡ，ＭＴＰの誤り検出と訂正を行い（ステップＢ１８，Ｂ１９）、人物モードが設定されている場合には誤り判定・補正部５０によりＱＳＣの抑制を行った後、ＭＶＤの誤り検出と訂正を行い（ステップＢ２０〜Ｂ２２）、続いて、属性推定部６１によりＣＢＰの誤り検出と訂正を行う（ステップＢ２３）。これらの結果から、誤り判定・補正部５０により、図１１に示すルーチンにしたがって誤りの総合判定を実施し（ステップＢ２４）、続いて、上述の過程のいずれかにおいて属性の誤り検出をした場合には、再びそのステップに戻って誤り検出を実行し（ステップＢ２５〜Ｂ２８）、これらが終了すると、復号完了した属性配列のデータを属性メモリであるパターン属性部３９ｃに記憶するようになる。

この後、ステップＢ３０〜Ｂ３３を経ると、上記した属性配列のデータに基づいて復号化処理部３６にて、Ｈ．２６１規格ベースに従ったＢＬＫ復号化処理を行う（ステップＢ３４）。次に、人物モードが設定されている場合には、パターン・信号レベルの誤り訂正部３７にて、部位情報，特徴量に基づくテクスチャーと色の推定，周囲と過去のＭＢＫに基づく色ベクトルの線形推定，色ベクトルの評価を行う（ステップＢ３６〜Ｂ３８）。

ここで、誤りが発生していて且つＬＢＬＫが２２以上である場合には、ＧＯＢ中の残るＭＢＫについて動き補償推定を行って、以後そのＧＯＢについては終了し（ステップＢ４０，Ｂ４１）、誤りが発生していてもＬＢＬＫが２２以下であるか誤りが発生していない場合には、ＥＳＣの検出と訂正およびＥＯＢの検出と訂正を行ってから図１１に示す誤りの総合判定ルーチンを実行し（ステップＢ４２〜Ｂ４４）、以下これを繰り返すことにより復号化処理を継続していくようになっている。

このような本実施例によれば、復号化器２側においては、伝送誤り率の高いデジタル通信路を介して動画像の画像信号を受信して復号化処理を行う場合に、既存の動画像圧縮標準Ｈ．２６１に超低レート化の改良を施した符号化ビットストリームを受信するようにし、これを復号化処理の段階で、プロトコルをベースとして符号，文法，パターン，信号，認識の各レベルにおいて誤り訂正機能を有機的に実行し、さらに、所要ビット量を考慮した符号化ビットストリームのグローバルチェックによって、パターン，信号，文法の誤り検出を駆動し、モード情報と２Ｄテンプレートに基づく領域情報（人物等）を用いて認識レベルの評価に基づく誤り訂正を行うことができるものである。

また、本実施例によれば、符号化器１側においては、シンタックスの変更と符号語の置換，過去の符号化属性に基づく現フレームの符号化属性の予測と属性判定の適応制御，動きとモデルによる対象物領域抽出と領域別量子化制御，使用モードや伝送レートおよび動き発生量に応じた変換係数の有意個数の制御などを総合的に用いることにより、超低レート画像伝送を実現できるようになるものである。そして、本実施例の符号化器１では、現行の画像圧縮標準規格（Ｈ．２６１）に僅かの変更を実施するのみで実現できるレベルのものであるから、その実施に当たってはプロトコル変換器を付設する簡単な構成で実現できる。

本発明の一実施例を示す符号化器のブロック構成図復号化器のブロック構成図符号化処理過程の概念図復号化処理過程の概念図符号化処理プログラムのフローチャート（その１）符号化処理プログラムのフローチャート（その２）符号化処理プログラムのフローチャート（その３）復号化処理プログラムのフローチャート（その１）復号化処理プログラムのフローチャート（その２）復号化処理プログラムのフローチャート（その３）誤りの総合判定ルーチンのフローチャート使用環境としてカメラを車内に固定した場合の説明図車内の人物の三次元的な位置関係の説明図人物を含む自動車内，屋内および屋外のカメラ画像の例距離尺度による領域の設定の作用説明図人物正面図のテンプレートと特徴領域の説明図モデルベースモードにおける伝送遅延の補償を行う場合の説明図Ｈ．２６１端末との間の通信を行うための構成の説明図使用環境と被写体に関するモード制御の状態遷移図Ｈ．２６１シンタックスに基づくマクロブロック属性の配列の例（その１）Ｈ．２６１シンタックスに基づくマクロブロック属性の配列の例（その２）Ｈ．２６１シンタックスに基づくマクロブロック属性の配列の例（その３）動領域の抽出とテンプレート決定のルーチンのフローチャート動領域の抽出とテンプレート決定の作用説明図基本テンプレートとその変形の作用説明図人物領域の抽出に基づく超低レート化の原理説明図（ａ）ＣＩＦ形式におけるＧＯＢ，ＭＢＫ格子と（ｂ）背景メモリ画像の例背景メモリの使用と更新の作用説明図符号化制御全体の概念を説明するためのチャートＨ．２６１規格のビットストリームシンタックスＧＯＢ番号とヘッダ（ＧＢＳＣ）の付加部の説明図ＧＯＢヘッダを削減した場合と削減しない場合との比較説明図Ｈ．２６１規格におけるＭＴＰの可変長符号（ＶＬＣ）の対照表人物画像に対する各ＭＴＰ値の発生確率と符号長との対応表ＩＮＴＥＲ／ＩＮＴＲＡ判定特性図動きブロック判定特性図ＭＢＡ予測ルーチンのフローチャートＭＢＡとＮＦＸとの対応関係を示す説明図前フレームからのＭＢＡパターンの予測の説明図ＭＴＰ情報の削減をするためのルーチンのフローチャート領域別平均動きベクトルによるＭＴＰ符号量削減の説明図人物モードにおける領域別量子化と量子化テンプレートの説明図量子化テンプレートのモデルベース伝送の説明図ＱＳＣの設定のルーチンのフローチャートＭＶＤ情報の削減をするためのルーチンのフローチャート領域別平均動きベクトルによるＭＶＤ符号量削減の説明図ＣＢＰの予測と評価のルーチンのフローチャートＣＢＰの領域別動き補償予測の説明図ＭＢＫ属性予測のインターリーブを行う場合の説明図所要ビット数の伝送形態とグローバルチェックの説明図ＰＳＣのファジイマッチング過程の説明図シンタックスによる２進木の結合とビットストリームの生成の説明図ＭＢＳＴＵＦＦを使用した場合にビット誤りで発生する誤解釈の例階層的符号化属性におけるフレーム間の連続性の説明図（符号化器側）階層的符号化属性におけるフレーム間の連続性の説明図（復号化器側）ＭＢＡの誤り検出と訂正のルーチンのフローチャートＭＢＡとＮＦＸとの対応関係を示す説明図前フレームからのＭＢＡパターンの予測の説明図ＭＴＰの類似計算に基づく復号結果の評価の説明図評価計算におけるスキャン順序の例を示す説明図ＣＢＰの誤り検出と訂正のルーチンのフローチャートＣＢＰの定義を示す説明図ＣＢＰ値からＹＵＶベクトルへの変換過程を示す説明図ＹＵＶベクトルの予測の説明図（ａ）ＣＩＦ形式におけるＧＯＢ，ＭＢＫ格子と（ｂ）ブロック状をなすエラーパターの例を示す説明図画像信号レベルにおけるビット誤りに起因したビットストリームの解釈誤りと信号エラーへの影響を示す説明図領域別周期分散型強制ＩＮＴＲＡの例を示す説明図領域再生あるいは疑似領域設定のルーチンのフローチャート

符号の説明

１は符号化器（符号化装置）、２は復号化器（復号化装置）、３はカメラ、５はＡ／Ｄ変換器、７は直交変換部、８は減算器、９は量子化部、１０は通信路符号化部、１１はＦＩＦＯバッファ、１２は通信路、１３は逆量子化部、１４は逆変換部、１５は加算器、１６は予測メモリ、１７はループフィルタ、２０は動き検出部、２１は符号化制御部、２２は属性メモリ、２３は属性予測部、２４は符号化処理部、２５は領域抽出・認識処理部、２６は対象領域抽出部、２７はテンプレートデータベース、２８は２Ｄテンプレートマッチング部、２９はモデルベース予測部、３０は三次元形状データベース、３１は人物メモリ（人物情報記憶手段）、３２は背景メモリ（背景情報記憶手段）、３３はモード制御部、３４はヒューマンインターフェイス、３５は通信路復号化部、３６は復号化処理部、３７はパターン・信号レベルの誤り訂正部、３８は認識レベルの処理部、３９はメモリ（記憶手段）、３９ａはモード情報部、３９ｂは領域情報部、３９ｃはパターン属性部、３９ｄは２Ｄ動ベクトル部、３９ｅは個人識別情報部、４１はＤ／Ａ変換器、４２はＦＩＦＯバッファ、４３はパーザ、４４はファジイマッチング部、４５は記憶部、４６は対照表、４７は誤り判定部、４８は逆量子化部、４９は逆変換部、５０は誤り判定・補正部、５２は加算器、５３は予測メモリ、５４は動き補償部、５５はループフィルタ、５７はフレームメモリ、５８は画素値推定部、５９は画像推定部、６０は動ベクトル推定部、６１は属性推定部、６２は復号化制御部、６３はモデルベース予測部、６４は三次元形状データベース、６４ａは３Ｄ形状データ、６５は人物画像データベース、６６は背景メモリ（背景情報記憶手段）、６７は人物メモリ（人物情報記憶手段）、６８は領域再生部、６９はテンプレートデータベース、６９ａは２Ｄテンプレートである。

Claims

画像信号を符号化処理する過程で、画像信号を解析してフレーム中の領域に存在する対象物を認識する画像の認識装置において、
あらかじめ決められた送信側の使用環境および符号化制御のうち少なくとも１つに関する付帯状況を表すモード情報に基づいて前記対象物の認識を行うモード制御手段と、
画面中に存在する対象の領域を抽出する対象領域抽出手段と、
この対象領域抽出手段により抽出された対象領域の属性データを設定することにより符号化処理の際に情報量を削減する属性データ生成手段と、を設けてなり、
前記モード制御手段は、
あらかじめ対象形状を三次元の概略的なモデルで示す三次元モデルデータの設定処理を行うことができるものであって、
この三次元モデルデータから得た前記モデルにおける各部位の三次元位置情報、前記三次元位置情報と符号化対象画像の色情報とを対応づけた情報、および前記符号化対象画像にテンプレートを当てはめて得られた前記符号化対象画像における各部位の二次元位置情報の符号化データを生成するモデルベースモードを設定し、
前記対象領域抽出手段は、
前記対象領域の抽出を、動ベクトル発生領域の有無に基づいて前記対象領域の候補となる領域を求め、前記モード制御手段により設定されたモデルベースモードを適用することにより定まる前記モデルの位置姿勢における各部位を候補となる領域に透視投影した場合の位置関係に基づいて、前記候補となる領域から前記対象領域を特定することにより行う構成であることを特徴とする画像の認識装置。
前記モード制御手段は、
前記モデルベースモードにおいて、対象のモデルベース予測画像の生成にあたって使用環境及び／又は被写体を考慮した上であらかじめ選択されたモード情報で指定される二次元テンプレートに基づいてカメラと対象物との間の距離を算出するように構成されていることを特徴とする請求項１記載の画像の認識装置。
前記モード制御手段は、
前記モデルベースモードにおいて、前記二次元テンプレートの特徴領域をあらかじめ設定しておき、二次元動き情報に基づいてその特徴領域の動いた位置データから前記三次元モデルの位置姿勢を概略推定することにより、モデルベース予測を行うように構成されていることを特徴とする請求項１記載の画像の認識装置。
前記モード制御手段は、
設定しているモード状態から他のモード状態への遷移を、画像信号の解析の状態に応じた判定に必要な情報が不足するときまたは処理が完了していない場合には、その各々の状態に応じてあらかじめ設定された遷移確率値によって決定するように構成されていることを特徴とする請求項１ないし３のいずれかに記載の画像の認識装置。
前記モード制御手段は、
前記遷移確率値を用いたモード間の遷移判定を実行したときに、その判定結果に対する評価計算を行って誤差値が大きくなる場合には、その誤差を小さくするように前記遷移確率値を更新設定することを特徴とする請求項４記載の画像の認識装置。
前記モード制御手段は、
前記判定結果に対する評価計算を、二次元テンプレートまたは色解析結果あるいは速度・加速度評価によって行うように構成されていることを特徴とする請求項５記載の画像の認識装置。
前記対象領域抽出手段は、
３フレーム以上に渡って動ベクトルの発生領域を検出することにより前記対象領域の抽出を行うように構成されていることを特徴とする請求項１ないし６のいずれかに記載の画像の認識装置。
前記対象領域抽出手段は、
前記対象領域を、最大動ベクトルが発生しているブロックを検出すると共に、その最大動ベクトルの発生ブロックを含む領域を主領域として推定することを特徴とする請求項１ないし７のいずれかに記載の画像の認識装置。
前記対象領域抽出手段は、
画面全体の動き量を示すパニングベクトルを画面周辺部の動きベクトルの平均値に基づいて演算するパニングベクトル演算手段を備え、
前記最大動ベクトルの検出に際して、前記パニングベクトル演算手段により計算されたパニングベクトルを差し引いた上で検出を行うように構成されていることを特徴とする請求項８記載の画像の認識装置。
前記対象領域抽出手段は、
動きブロックを判別し、対象領域の重心、高さ、幅を表す特徴量の算出を行い、その算出結果に基づく動きブロックのブロックパターンおよび／またはあらかじめ選択されたモード情報で指定されるテンプレート情報をもとに対応するテンプレートを選択し、スケーリングすることにより前記テンプレートの最適化を行うように構成されていることを特徴とする請求項１ないし９のいずれかに記載の画像の認識装置。
前記対象領域抽出手段は、
前記テンプレート情報として、ブロック単位の属性情報を示すデータをモデルに対応してモデルベース伝送するように構成されていることを特徴とする請求項１０記載の画像の認識装置。
前記対象領域抽出手段は、
前記対象領域の抽出に際して、画面中の対象が二次元的に移動するパターンを分析することにより簡易的に動きを検出するように構成されていることを特徴とする請求項１１記載の画像の認識装置。
前記対象領域抽出手段は、
前記対象領域の抽出に際して、三次元モデルに基づいて二次元テンプレートを生成するように構成されていることを特徴とする請求項１２記載の画像の認識装置。
前記対象領域抽出手段は、
送信側の使用環境、被写体、符号化制御のうち少なくとも１つに関する付帯状況をあらかじめ決められた符号化データで設定するモード情報に従った制御状態に基づいて対象領域が何の対象物であるかを示すカテゴリーを判定するように構成されていることを特徴とする請求項１ないし１３のいずれかに記載の画像の認識装置。
前記対象領域抽出手段は、
ブロック単位で設定される属性情報に基づいて対象領域の前記カテゴリーを判定するように構成されていることを特徴とする請求項１４記載の画像の認識装置。
前記対象領域抽出手段は、
強制イントラフレームが伝送された時点で常に領域抽出処理を行うと共に、そのときに対象領域から推定される背景領域の情報を指定して伝送するように構成されていることを特徴とする請求項１ないし１５のいずれかに記載の画像の認識装置。
前記対象領域抽出手段は、
前記背景領域情報を指定することにより、情報の伝送量に応じてその背景領域の伝送を選択的に実施するように構成されていることを特徴とする請求項１６記載の画像の認識装置。
前記対象領域抽出手段は、
情報の伝送量を制限した場合に、前記背景領域情報として指定した情報を伝送中の人物情報に合成させるデータを送信することを特徴とする請求項１７記載の画像の認識装置。