JP4687658B2 - 画像の認識装置 - Google Patents
画像の認識装置 Download PDFInfo
- Publication number
- JP4687658B2 JP4687658B2 JP2007018110A JP2007018110A JP4687658B2 JP 4687658 B2 JP4687658 B2 JP 4687658B2 JP 2007018110 A JP2007018110 A JP 2007018110A JP 2007018110 A JP2007018110 A JP 2007018110A JP 4687658 B2 JP4687658 B2 JP 4687658B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- mode
- region
- target area
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Mobile Radio Communication Systems (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
図1には符号化装置としての符号化器1を、図2には復号化装置としての復号化器2の機能的なブロック構成をそれぞれ示している。以下、図1および図2を参照して全体構成について概略的に説明する。
認識レベルの処理部38において、モデルベース予測部63は、三次元形状データベース64から3D(三次元)形状データ64aが与えられ、人物画像データベース65から人物画像のデータが与えられるもので、モデルベース予測を行って誤り判定・補正部50にデータを出力する。人物画像データベース65および三次元形状データベース64はメモリ39からデータが与えられる。
[A−1]基本動作
符号化器1の動作について、まず、基本動作について説明する。符号化器1においては、その基本動作として、カメラ3により撮影した画像のデータを取り込んで、その画像信号の符号化処理を行って符号化ビットストリームのデータとして通信路12に出力するようになっており、この場合に、第1フレームの符号化処理と、第2フレーム以降の符号化処理とに分けて実施するようになっている。
図3は本実施例における符号化の超低レート化の内容について概念的に示しているもので、本実施例で行うモード制御については、例えば(1)使用環境,(2)被写体,(3)符号化制御の3つのカテゴリーでそれぞれモード制御を行うように構成されており、この場合に、それぞれのモード制御におけるモードの進行は全く独立に行われるとは限らず、例えば、各カテゴリー内で同時に2つ以上のモードを用いて符号化を行うこともあり得る。
使用環境のモード制御については、以下に示すように、自動車,屋内,屋外の各場所に対応して固定,可動の各態様を考えて、(a)自動車内固定モード, (b)自動車内可動モード,(c)屋内固定モード,(d)屋内可動モード, (e)屋外固定モード,(f)屋外可動モードの6つのモードに分類することができる。
自動車用TV電話として最も考えやすい後部座席の使用環境を設定するもので、これは、例えば図12,図13に示すように、その位置関係から種々の条件を限定することができる特徴がある。これをまとめると、以下のようになる。
2)カメラ3から人物Pまでの距離Lを限定できる(図12参照)。実際的な値としては距離Lは例えば1m以内の程度に設定可能である。
3)次の被写体モードの項で説明するように、この使用環境では被写体としては人物を中心とした人物モードが大半であり(図13参照)、動領域抽出の結果では、最も面積比率の大きい領域が人物である確率が非常に高くなる。
4)後部座席を対象として使用する場合には、撮影すべき人物Pの数は一人である確率が最も高くなる。
5)乗用車の場合には、カメラ3の視野内に入り得る人物Pの数は最大で4人程度と考えられる。
このモードにおいては、人物モードに加えて、被写体モードとしての風景モードが使用される可能性が高くなる。
(c)屋内固定モード
自動車内固定モードとほぼ同じであるが、窓から見える外の風景は固定的である可能性が高く、情報量の削減には利点となる。
(d)屋内可動モード
人物モードの他に風景モードも使用される可能性が高い。
(e)屋外固定モード
このモードでは、交通監視,セキュリティ,ペットの監視などへの応用が考えられる。また、この場合にはカメラ3を固定設置することから、有線系の伝送が可能となり、伝送誤り率の低下は少ない。
(f)屋外可動モード
使用環境としては最も過酷な条件であり、この場合には、可動であることから無線系の超低ビットレート伝送を行うことが前提条件となる。また、携帯型の装置を使用する場合には、人物モードの他に風景モードも使用される可能性が高くなる。加えて、通話中の手ぶれ等によりカメラ3の振動が多くなることが想定され、実際上は準動画モードあるいは静止画モードの動作が中心になることが想定される。
この場合には、符号化対象および用途に応じて以下のように4つの符号化モードを切り換え設定するようになっている。
この人物モードは通常の通信においては最優先で使用されるデフォルトモードに設定されている。そして、この人物モードにおいては、図14にも示すように、背景や使用環境に応じてさらに以下に示すようなモード切り換えを行うようになっている。なお、この場合のモード切り換えの条件は、通常、対象領域の抽出結果と距離判定により自動的に設定して切り換えるようになっている。
ア)頭部モード (対象とする人物Pがひとりの場合)
イ)上半身モード (対象とする人物Pがひとりの場合)
ウ)全身モード (対象とする人物Pがひとりの場合)
エ)複数人物モード
例えば、図14に示す各使用環境においては、(a)自動車内ではア)の頭部モードが、(b)屋内ではイ)の上半身モードが、そして、(c)屋外ではイ)の上半身モードかあるいはウ)の全身モードに設定される。また、エ)の複数人物モードでは、特に詳細なテンプレート(図25参照、後述するテンプレートの説明参照)は用意されず、また、シーンとしても過渡的な短時間であることが想定されるので、符号化情報量の発生具合に応じた他の制御に委ねられる。
例えば、走行中の自動車内においては、会話時には被写体が人物であることが多く、モード判定木では人物モードが設定される確率が高い。一方、ユーザが意図的に車外の風景や事物を画像として伝送したいと考えた場合、動きの有無やテクスチャーの細かさに起因する情報発生量の多さおよび人物の有無から判断して、符号化モードを準動画か静止画モードに移行させる。
静止物体を対象とする場合には、比較的符号化情報の発生量は少ないため、符号化モードとしては通常の動画モードを選択することができる。
(d)図面・文字モード
高解像度静止画モードを符号化モードとして選択することができる。
(a)画像中心優先モード
このモードは、画面中の対象物に対して何ら先見情報がなく、しかもこれに優先してマニュアルで設定した初期設定モードがない場合に設定される。すなわち、状況としては、ただ漫然と撮影したいものにカメラ3を向けているような場合が想定される。この場合には、通常、カメラ3を向けることによって対象物が画像中心に位置する場合には、注視する領域も画像中心に近い部分であることが仮定できる(つまり、対象物中心に対するカメラ3の姿勢の水平および垂直角度α,βはゼロに近い値となることが仮定できる)。
対象領域が抽出されていれば、対象領域優先モードに移行する。ここで、次の場合には対象領域の追従が行えないので、その対象領域優先モードの中の領域重心モードを選択するようになっている。
ア)2D(二次元)テンプレートが定まっていない場合
イ)2Dテンプレートの適合が完了していない場合
ウ)2Dテンプレートを持たない風景モードの場合
(なお、2Dテンプレートについては後述する。)
対象領域優先モードで且つ人物モードの場合、正面像から外れなければ2Dテンプレートは適合する。この場合、さらに、頭部、目、口など各部の同定を開始する。
動き情報や領域情報がない場合には、画面中心領域を優先して詳細に符号化する。この場合、画面中心領域を優先するとは、図15に示すように、画面中心から一定距離として例えば平均距離Davとして計算された値の範囲内のブロックを対象領域とみなすことに相当する。
1)背景メモリ使用モード
後述する[A−2]対象領域の抽出の領域抽出で得る領域情報に基づいて、人物モードにおいては、あらかじめ用意している背景画像あるいは第1フレームにて伝送した背景画像を用いて背景メモリ66に記憶した背景情報を利用することにより次のようにして制御するモードである。
ア)その後は全く背景に関する情報を伝送しないようにする。
イ)背景情報は伝送するが、周期的に分散して背景の変化情報を送り、徐々に背景を更新していく。
2)領域重心モード
この領域重心モードでは、前述の画像中心モードの画像中心が対象領域の重心であると考え、それを中心とした領域別量子化制御を駆動するモードである。なお、領域別量子化制御については後述の[A−3]符号化制御の項で説明するのでここでは省略する。
3)対象領域追従モード
このモードは、対象領域が画像面上で移動した場合に、時々刻々と変化する対象領域の重心位置を検出することにより、上述した2)領域重心モードを適用できるようにしたモードである。
動きブロック数や動きの絶対値量が増えた場合にもフレームレートを落とさないようにしたモードである。ここで、動きの激しさは、後述の[A−3]符号化制御の項の情報発生量に応じた適応制御の説明中で動きの激しさを示す指標AM(式(10)参照)を用いて判定することにより、対象領域優先モード、画面中心優先モード、あるいは後述するモデルベースモードなどを駆動することにより伝送レートを維持するように制御する。
これは、情報量を削減するために、フレームレートを低下させることによって画質を保持しつつ伝送レートを維持するモードである。この場合、動き量によってはフレーム間の相関を利用した圧縮が困難になる場合があるので、その場合にはINTRAピクチャーのみを伝送するようになっている。
これは、次の2つの場合が想定されている。
1)符号化制御が破綻する場合
この場合には、まず、符号化器1側でピクチャーフリーズさせた画像信号とし、新たに強制イントラフレームを伝送する。そして、これが完了した後には、動画伝送モードに移行し、動画伝送を再開するモードである。
2)誤り等の理由により復号化器2側から再送要求がある場合
復号化器2側でピクチャーフリーズした状態となり、符号化器1側は再送要求に応じて強制イントラフレームを伝送し、この後、動画伝送モードに移行することで上記と同様に動画伝送を再開するモードである。
1)テクスチャーソースの切り出し
テクスチャーソースは通話開始以前に撮影した最初の正面画像に対して後述する([A−3]対象領域の抽出における)動領域の解析結果によって得た人物領域の画像情報に基づいて行う。
2)モデルの選択と適応化
3D(三次元)モデルはあらかじめ各々の2Dテンプレート69a(正面像)に対して奥行き情報を与えることで定義しておく。
距離情報については、正面像について2Dテンプレート69aのテンプレート番号とスケーリング値を用いてカメラ特性を用いて計算したテーブルで算出することができる。この正面像については、領域抽出結果に基づく距離情報と画像面上の2D移動量を用いることにより、人物像のモデルベース予測画像を生成することができる。また、電波条件が良好でない場合などにも、2Dのモデルベース画像伝送を行うこともできる。
例えば、人物の正面像の2Dテンプレート69aの特徴領域をあらかじめ図16のように定めておき、その2D動き情報に基づいて上半身のテンプレートについて頭部と肩から下の2つの部分をそれぞれ剛体とみなし、N個の特徴領域の2D位置の組から3D位置姿勢を表わす透視変換行列を求めることができる。なお、このように透視変換行列を求めることは、周知技術である空間量子化法などを用いることにより実施可能である。
さらに、このようなことは、この場合においては、事前にテーブル化して記憶しておいても良い程度のもので、このような通信用の位置姿勢推定は、工場内のロボットの制御で行う場合などの位置姿勢認識に比べて高い精度が要求されないことから、視覚的に見て違和感を感じなければ良いという前提があるという根拠に基づくものである。
カメラ3の設置位置が固定されていて通常撮影される背景画像が固定的である場合で、例えば自動車内にカメラ3を固定しているような状況においては、対象領域優先モードの背景メモリ使用モードを用いることができる。
図17に示すように、自動車電話などの場合においては、通話開始までに実質的に通常10秒以上のセッション準備時間がある。したがって、このようなセッション準備時間中を利用して、セッション開始時点(通話開始時点ではない)で、正面顔を強制イントラフレーム(約30kビット)で伝送する。同時に動き領域の解析やテンプレート修正、3Dモデルの適応化などを通話開始までに完了させる。
本実施例における符号化器1では、プロトコルによる64kbps以下のビットストリームは、容易にH.261規格のプロトコルに変換することができ、これによって、例えば図18に示すようなプロトコル変換器70,71を構成して互換性を保持することができるようになる。
(a)強制設定
例えば、前述の符号化モードにおいて、1)テクスチャーソースの切り出しのモードと2)モデルの選択と適応化のモードとの間のモード切り換えは、対象領域抽出結果が人物であるかそうでないかによって自動的に切り換えることができるが、これは、ユーザーのマニュアル設定により強制的に切り換えることもできる。
この判定動作に当たっては、図19に示すような使用環境と被写体に関するモード制御の状態遷移図に沿って、各条件を考慮しながらモード進行するようになっている。
1)確率的状態遷移
状態遷移に必要な判定情報が不足している場合には、デフォルトで与えた確率または不完全な情報のもとで選択した遷移確率テーブルを用いて自律的な状態遷移や探索を実行する。これは、例えば次の場合に対応して実行される。
ア)外部から与えられる強制モードがない場合
イ)動領域解析に基づく領域抽出が完了していない場合
ウ)色信号などの信号解析結果が完了していない場合
2)判定情報に基づく決定的状態遷移
これは、図19に示しているように、確率的な基準によらないで、原画像から3フレーム時間程度にわたる動領域解析を後述するように実施し、これによって動き領域や動き発生状況を抽出した後、人物領域を抽出し、形状パラメータの抽出によりテンプレートの選択を行う。テンプレートの適合具合を評価計算で求め、基準を満たせば終了する。満たさない場合は次のテンプレートを選び、同様のプロセスを繰り返す。
ある判定結果がその後の評価計算において著しい誤差を生み出す場合には、動領域解析モジュールを介した移動体判定の初期節点に戻る際に遷移確率(図中では、移動体nの分岐として、人物側に「0.9」,他の物体側に「0.1」を設定している)を更新する。例えば、初期判定で純然たる確率状態遷移に基づいて人物と判定した領域がその後の2Dテンプレート照合や色解析結果、速度・加速度評価などにより人物とは考えにくい評価関数値を出力する場合、「人らしい」と判断する遷移確率は、「0.9」から「0.2」程度に下げるように変更設定する。
上記で述べた状態判定とモード遷移でも最適な符号化制御は可能だが、モード制御部33により、ヒューマンインターフェース34を介した誘導により、誤った判定を下す確率を激減させることができる。例えば、セッション開始までの準備時間の間にモード制御部34により次に示すようなプロセスを完了しておけば、その後の符号化制御に関するモード移行を順調に実施することができるようになる。
2)ヒューマンインターフェイス34を介して、「正面におすわりください。」というメッセージを音声あるいは表示で通知する。
3)人物が画面中心からずれている場合には、ヒューマンインターフェイス34を介して、「少し右/左にお寄りください。」というメッセージを音声あるいは表示で通知する。(表示方法として、画面隅に子画面を設けて位置を示すこともできる。)
4)第1フレームを強制イントラとして送出する。
5)ヒューマンインターフェイス34を介して、「先方とつながりました。お話しください。」というメッセージを音声あるいは表示で通知する(通話開始可能になる)。
モード情報とそれに伴うテンプレート情報は超低レート伝送に際して支障のない程度の情報量であるので伝送可能であり、この場合には、その伝送は、PIC階層のユーザーデータエリアであるPSPAREに記述された状態で伝送されるようになっている(図30および図50参照)。
人物などの注視の対象となる対象物領域を動きベクトルやカメラ設定に基づいて抽出する。ここでは演算量を削減するために、その計算はマクロブロック(MBK)単位で行うようになっている。この演算動作と各種モードとの因果関係は、前述したように、図19に示すようになっている。
ここでは、図23に示す動き領域抽出のルーチンのフローチャートにしたがって、最終的に最適テンプレートの決定が行われるプロセスである。また、図24の領域解析の説明図と図25の基本テンプレートの図が参照される。
H.261などの符号化の規格においては、そのMBKの属性を示すデータとしてのMTP(マクロブロックタイプ)に、動きベクトル発生の有無が情報として含まれている。この場合、H.261規格では、MTP値が2,3,6,8,10の値を示すときが動きベクトルが発生していることを示すデータである(図33参照)。したがって、H.261符号化の動きベクトル検出結果として、例えば図20ないし図22に示すようなMBK属性(MBA,MTP,CBP)の配列ができる。これらの図20ないし22は、2列6段のGOB12個を配列し、各GOBに11列3段のMBK33個を配列してなる画面の各MBK位置に対応した部分にそれぞれMBA値,MTP値,CBP値を示したものである。
上述の場合に、ただ1フレームについてのみ上記のブロック属性配列を調べたのでは対象物領域を特定することは困難である。そこで、図24(a),(b)に示すように、3フレーム時間程度に渡って時間方向の解析を行う(図19も参照,図23ステップD1)。特に動きベクトルの発生領域については、3フレーム分を重ね合わせた状態で得られるパターン(図23ステップD2)について、その重心位置を求めて(ステップD3)各ブロック位置に関する動きベクトルを次に示すように設定された判定回数に基づいて判定する(ステップD4)。
ア)重心からの距離があるしきい値を超えるブロックについては3回に2回以上のとき
イ)重心からの距離があるしきい値以下のブロックについては3回に1回以上のとき
まず、動きブロックで構成されるブロックパターンを判別し、特徴量を抽出する。ここで、人物モードがあらかじめマニュアルで選択されていれば、図25に示すように2Dパターンデータベース27から人物モードの基本テンプレートを選択することができるようになる。
イ)動きブロックのみを抽出した画像にテンプレートをオーバレイし、その領域内に含まれる動ベクトルブロックの個数NMBK(L)を計算する。
ウ)スケールを大きくする(距離Lを小さくする)。
エ)Lが一定値Lmin 以下になれば次に進む。それ以外の場合にはイ)に戻る。
オ)次の評価関数Fが最大値Fmax を取るところを最適なLとする。
F=−B×NMBK(L) …(2)
ここで、BはNMBK(L)の曲線のLに関する二次微分値である。
あるいは、これを離散的表現になおすと、
F=−B(n)×NMBK(Ln ) …(2a)
B(n)=A(n)−A(n−1)
A(n)=NMBK(Ln )−NMBK(Ln-1 )
となる。
2Dテンプレートは二値表現も可能であるが、後述するように、各MBK属性配列値をあらかじめモデルに対応してテンプレートで表現することもできる。これは、後述するように、例えば、図42,43に示すような量子化スケールが考えられる。
画面から人物が移動するパターンとしては、図25にも示しているように、水平横移動(図中横方向に並べた図に対応),カメラ光軸方向の移動(図中縦方向に並べた図に対応)が考えられる。
図12,図13に示したように、限定された環境下における人物モードでは、3Dモデルの透視変換により図25と同等の2Dテンプレートを作成することができる。これにより、上半身、頭部、目、口、鼻などの部位の獲得をすることができるようになる。ただし、正面像以外では、対象人物のカメラ3に対する位置姿勢を求めることが必要となるが、ここでは一般的な方法に依存することとしてその内容まで言及しない。
(a)状態遷移グラフに基づく判定
図19に示したモード制御の状態遷移図では、対象領域のカテゴリーを特定する判定木が部分図として含まれている。この判定木上の節点間の遷移は、前述のデフォルト確率に基づく確率探索と判定情報に基づく確率探索との2通りの探索を使用して行うようになっている。
変化のあったブロックの内で、特に細かいテクスチャー変化のあったブロックについては、CBPのスコア値が高くなることが予想されるので、例えば、人物上半身モードにおける頭部領域の判定の根拠として用いることができる。
強制イントラフレームが伝送された時点では、常に領域抽出処理を行い、これによって、特に背景部分の情報を背景メモリ32に格納するという処理を符号化器1において行うようになっており、このような処理は復号化器2の背景メモリ66においても行うようになっている。これは、動きや色の変化が激しくなったと判断したときにデータ伝送量を増やさないために、そのフレームにおける背景情報を背景メモリ32に記憶したデータで代用しようとするものである。
この符号化制御動作については、図29に全体の概略的な動作内容について示されている。図30はH.261規格における符号化ビットストリームのシンタックスを示す一般的なものである。以下においては、これらの図29,30に基づいた符号化制御動作の詳細について項目別に説明する。
H.261のシンタックス(図30参照)における冗長なヘッダを、超低レート化のために削除する。このために、CIF構造におけるGOBの配置は変更しないが、図31に示すような画面を構成する12個のGOBに対して、GOBの開始ヘッダとしてのGBSC(16ビット)とGOB番号コード(4ビット)の個数を左側のGOBのみに付して右側半分については無くすことによりデータの量を半分に減らす(図32参照)。これにより、1フレーム当たりに20×6=120ビットを削減することができるようになる。
(a)符号語の置換
図33にH.261規格のMTP(マクロブロックタイプ)属性の可変長符号を示す。例えば、超低レートにおける発明者の実験結果によると、人物画像に対する各MTPの値の発生確率は図34に示す順序となっている。したがって、図34に示す順序に応じてMTP値に対する可変長符号を置換することにより、属性記述のためのビット数を削減することができるようになる。この置換パターンは、例えば数個に限定しておくことにより、どれを選ぶかをユーザーデータエリアに書き込むことにしておけば、復号化器2側においても状況に応じて変更するなどの適応化を柔軟に行うことができるようになる。
(a)領域情報を用いたMTP判定の適応制御
1)背景領域については、領域情報を用いてFIX(固定)あるいはNOMC(動き補償なし)とすることができる。
2)対象領域については、人物特に顔についてはMC−CO(動き補償と符号化)と判定する。
通常、64kbps以上のH.261規格で推奨されるINTER/INTRA判定の特性曲線は、図35に示すようになる。この場合において、PVARはMBKの4つのYブロックに関するフレーム間予測誤差電力和を示し、QVARはMBKの4つのYブロックに関する入力画像のフレーム内分散の値を表している。そして、64kbps以下のレートにおいては、以下のように判定する。
1)誤りの伝播を防止するために周期的に分散して強制INTRAを入れる。
2)しきい値TH_INTRAを例えば次のように設定する。FIFOバッファ11の充填率RBを次式(3)により求め、その充填率RBに対して比較基準値RB1,RB2などで判定してしきい値TH_INTRAを設定する。
RB=BUFF/BUFF_MAX …(3)
〈ケース1〉 0 ≦RB<RB1
〈ケース2〉 RB1≦RB<RB2
〈ケース3〉 RB2≦RB
判定結果に応じて各ケースに対応してしきい値TH_INTRAを下記のように設定する。
〈ケース1〉 TH_INTRA=64×256
〈ケース2〉 TH_INTRA=64×256 (対象領域の主要部)
TH_INTRA=64×512 (対象領域の主要部以外)
TH_INTRA=64×1024(背景領域)
〈ケース3〉 TH_INTRA=64×256 (対象領域の主要部)
TH_INTRA=64×1024(対象領域の主要部以外)
TH_INTRA=64×2048(背景領域)
R_IR=IR_MBK/IRMBK_MEAN …(4)
NTH=TH_INTRA×(R0+R_IR) …(5)
RPQ=PVAR/(QVAR×R_IR) …(6)
ここで、IR_MBKは対象領域の重心から現在符号化中のMBKまでの距離を示し、IRMBK_MEANは対象領域の重心からすべてのMBKまでの平均距離を示している。
PVAR≦NTH または RPQ_VAR≦1.00
である場合には、INTERと判定し、これ以外の場合にはINTRAと判定する。この場合に、例えば、R0の値は0.5と設定する。
通常、64kbps以上のH.261規格で推奨される動き判定の特性曲線は図36に示すようになる。この図36において、横軸は動き補償のない場合のフレーム間の誤差和FDSUMの値を示しており、縦軸は動き補償をした場合の誤差和MVSUMの値を示している。この場合、図中、動き補償(MC_ON)がある領域は2個の直線の傾きを示すパラメータGD1,GD2と2個のFDSUMに対するしきい値を示すパラメータIEV1,IEV2とにより囲まれる領域に設定されている。64kbps以下のレートにおいては、バッファ量と領域により以下のように特性曲線のパラメータセット(GD1,GD2,IEV1,IEV2 )の各値を変更する。なお、バッファ充填率RBは前述の式(3)で表現される。
RB=BUFF/BUFF_MAX …(3)
この場合、RB,BUFF,BUFF_MAXは、それぞれFIFOバッファ11に関して、現在の充填率,現在の使用ビット数,最大ビット容量を示している。
この場合には、すべての領域について従来の動き判定を用いる。したがって、判定特性のパラメータセットの各値は次のように設定される。
(GD1,GD2,IEV1,IEV2 )=( 0.50, 0.91, 256, 256 ×3 )
〈ケース2〉 RB1≦RB<RB2
この場合には、対象領域を囲む一回り大きな矩形領域(フレーム間の動き範囲を考慮してテンプレート毎に自動的に設定)RMの内部では通常の動き判定特性を用いる。したがって、判定特性のパラメータセットの各値は次のように設定される。
(GD1,GD2,IEV1,IEV2 )=( 0.50, 0.91, 256, 256 ×3 )
また、上記以外の領域(背景領域に相当)QMでは動き判定のしきい値を高く設定する。
(GD1,GD2,IEV1,IEV2 )=( 0.40, 0.80, 256×2, 256×4 )
〈ケース3〉 RB2≦RB≦RB3
この場合には、RMの主領域では、
(GD1,GD2,IEV1,IEV2 )=( 0.50, 0.91, 256, 256 ×3 )
RMの主領域以外では、
(GD1,GD2,IEV1,IEV2 )=( 0.40, 0.80, 256×2, 256×4 )
QMでは、
(GD1,GD2,IEV1,IEV2 )=( 0.20, 0.50, 256×4, 256×8 )
〈ケース4〉 RB3<RB
この場合には、次のいずれかを選択する。
1)準動画モードに移行し、フレームレートを落とす
2)モデルベースモードに移行する
3)ピクチャーフリーズモードにする
(a)MBKレイヤの各符号化属性の特徴
属性メモリ22に格納される各フレームのMBK属性はCIF上のMBK位置に対応して示すと1フレーム当たり22×18の配列となる。
3フレーム目あたりから対象領域に相当するところが有意な符号化ブロックとしてMBAが付与されるようになる。特に、MBAが2以上の値を示すMBK (マクロブロック)は対象領域の輪郭部分に相当することが多い。そこで、図37のフローチャートおよび図38,図39に示すように、1フレーム前のMBAパターンをNOT_FIXED(NFX)パターンに変換することにより(図37中ステップE1,図38(a),(b)参照)、領域情報の平均動きベクトルとテンプレート情報を用いて1フレーム先のMBA配列を推定して表現することができるようになる(ステップE2〜E6,図39参照)。
ア)INTER/INTRA混在(通常のフレーム)
超低レートでは実験により、動きを有する対象領域(人物など)の大半がMTP=2,3でラベリングされることがわかっている。そこで、後述する情報発生量に応じた適応制御における判定に基づいて、図40のフローチャートおよび図41に示すように、特に激しい動きの発生がなければ、領域情報の平均動きベクトルとテンプレート情報を用いて1フレーム先のMTP配列を表現することができる(図40中ステップF1〜F3,図41参照)。
強制イントラフレームは、ユーザーデータで宣言してあれば、その後においては、MTP=4とするデータやMBA=1とするデータの記述は不要となる。したがって、これによって、5 ×22×18=1980ビットつまり約2kビットの節約をすることができるようになる。
QSCは32kbps以下ではすべて31(量子化ステップ62)に固定し、領域分析から決定される主領域のみ16(量子化ステップ32)とする。したがって、超低レートの内でも特に16kbps以下の人物モードにおいてはQSC情報は伝送しないようにする。したがって、GOBレイヤにおけるQSC情報の記述は不要になり、これによって、情報量としては12×5 =60ビットの削減をすることができる。加えて、MBK単位の量子化スケールの変更情報を伝送することも不要となる。
MVDはフレーム内の水平方向の動きベクトル変化であるので、非剛体運動あるいは回転運動において「0」でない値が発生する。人物に対しては顔の表情変化に起因する動きや頭部,上半身のエッジ部分の三次元回転などがそれに相当する。これらは瞬時に発生するため、差分ベクトルの形で予測する場合の予測効率はあまり良くない。そこで、このような差分ベクトルを動きベクトルになおした形でしかも領域単位の平均2D動きベクトルとして予測する。
CBPはMBKに含まれる6個のBLK(ブロック)の各々について符号化するか否かをビット情報で示すものである。そこで、このCBPの値をYUVベクトルに変換することにより、領域情報の平均動きベクトルとテンプレート情報を用いて1フレーム先のCBP配列を表現することができる。一方、復号化器2側ではテンプレート情報と動きベクトルにより一意的に1フレーム分のCBP配列が再現できるようになる。なお、図47は領域別動き補償予測のルーチンのフローチャートを示しており、図48はその内容の概略をパターンの推移図で示している。
1)2フレームに1回の属性符号化
以上のように、テンプレート情報と領域別の平均動きベクトルを用いた動き補償により、1フレーム分のパターン属性の予測を行うことができ、復号化器2側でも一意的に再現することができるようになる。なお、予測したパターン属性は復号化器2のみならず符号化器1側においてもすべて確実に符号化制御に反映させることができる。
2フレームに1回、完全に予測のみのパターン属性を入れる代わりに、図49(a)(あるいは同図(b))に示すようにGOB単位で上部と下部と(あるいは右側と左側と)を交互に予測パターンに置き換えることもできる。GOBライン毎のインタリーブ(同図(c)〜(e)参照)も考えられるが、パターンを表す輪郭に不連続が生ずる恐れがあるので、対象領域が大きい時は採用しないようにする。
量子化制御は原則として量子化ステップの制御により行う。ここで、量子化ステップの設定方法についてはH.261規定には定められておらず、その制約条件としては、2〜62(量子化スケール値が1〜31)の偶数で、且つ5ビットで表現できる範囲であるというものである。したがって、本実施例においては、以下に示すようにして量子化ステップを制御することにより量子化制御をするようになっている。
1)対象領域優先モード
このモードにおいては、抽出した対象領域については、小さい量子化ステップを割り当てる。また、背景領域については量子化ステップを62に固定している。そして、被写体が人物モードである場合には、頭部領域のみ62以下を採用し、他は原則的には62に設定するようになっている(図42(a)参照)。
このモードにおいては、画面中心に近いほど量子化ステップを細かく取る。ただし、量子化ステップの制御式を一本化するために、現状のバッファ容量を、現在のMBKまでの距離を用いてステップ計算用に修正するという方法を採用し、このために、次式(7),(8)を用いて計算する。
BUF_R=BUFF_MB
×(5.00+real(IR_MBK)/real(IRMBK_MEAN)) …(8)
ここで、
BUFF_MB:MBK単位で監視したバッファ量
BUFF_R :距離計算に基づく仮想バッファ量
IR_MBK :対象重心から現在符号化中のMBKまでの距離
IRMBK_MEAN:対象重心からすべてのMBKまでの平均距離
この仮想的な修正バッファ量BUFF_MBの値は後述する符号化レートに応じた制御の式に使用する。
通常、上述のような場合には量子化制御を行っているが、強制イントラフレームの送信の場合については、バッファ量による量子化制御は行わないようになっている。なお、強制イントラフレームは、通常以下の場合に伝送することとしている。
2)準動画モード
3)静止画モード(ピクチャーフリーズ)
4)モデルベースモードにおけるテクスチャーソース画像
量子化ステップについては、後述の符号化レートに応じた制御の式に依存している。
符号化レート(RATE)に応じた量子化ステップ(STEP FPIC )の決定式は次のように設定されている。
1152kbps<RATE のとき → STEP_FPIC=12.0,
384kbps<RATE<1152kbpsのとき → STEP_FPIC=14.0,
64kbps<RATE< 384kbpsのとき → STEP_FPIC=16.0,
RATE< 64kbpsのとき → STEP_FPIC=32.0
2)通常の量子化ステップ
ISTEP=2×INT(BUFF_MB/(200.0 ×QX64)+2 …(9)
BUFF_MB:バッファ中の現在データ量
QX64:符号化レート=QX64×64.00 [kbps]を満たす値
なお、符号化レートが16kbps以下の場合には、頻繁に量子化スケールの変更を行うことは、逆に必要ビット数の増大につながる。したがって、10kbps以下の場合には量子化ステップを62に固定している。
動き量と色変化の度合に基づき、量子化とフレームレートの制御を行うようになっている。
過去のフレームに対する現在フレームの動きの激しさの度合として、次式(10)で定義されるAMという指標の値を計算により求め、この値に基づいて判定した結果で量子化とフレームの制御を行う。
Nmb;動きの発生したブロックの数
L(X);ベクトルXのノルム関数.絶対距離,ユークリッド距離など
Vi;動きベクトル
Rd;伝送データレート
THV(Rd);データレートに依存したしきい値定数
式(10)で計算されるAMの値を用いて、新たに尺度AMTを計算する。この場合において、AMTは次のようにして計算される。
イ)AM>THV(Rd)のとき、AMT=AM
ここで、Nmbの対象範囲とそれに対応するTHVは符号化プロセッサの計算能力に応じて以下のように変更する。
b)現在のGOB中の第1MBKから現在復号中のMBKまで
c)現在のGOB中のすべてのMBK
d)現在フレーム中のすべてのMBK
上記a),b)の場合、グローバルな演算が不要なため、計算量も少なく処理遅延もないが、判定の信頼性が低い。一方、c),d)はグローバルな計算を行うため、計算量は多くなるが処理遅延は最大1フレーム時間となる。しかし判定の信頼度は高い。
過去のフレームに対する現在フレームの色変化の激しさの度合として、次式(11)で定義されるACという指標の値を計算により求め、この値に基づいて判定した結果で量子化とフレームの制御を行う。
Ncb:CBPのブロック属性が1になったブロックの数
C(i):i番目のマクロブロックに関してDCT係数のDC成分の変化とCBPに基づいてYUVベクトルから色変化を計算する関数
THC(Rd):データレートに依存したしきい値定数
式(11)で計算されるACの値を用いて、新たに尺度ACTを計算する。この場合において、ACTは次のようにして計算される。
イ)AC>THC(Rd)のとき、ACT=AC
ここで、Ncbの対象範囲とそれに対応するTHCは符号化プロセッサの計算能力に応じて以下のように変更する。
b)現在のGOB中の第1MBKから現在復号中のMBKまで
c)現在のGOB中のすべてのMBK
d)現在フレーム中のすべてのMBK
上記a),b)の場合、グローバルな演算が不要なため、計算量も少なく処理遅延もないが、判定の信頼性が低い。一方、c),d)はグローバルな計算を行うため、計算量は多くなるが処理遅延は最大1フレーム時間となる。しかし判定の信頼度は高い。
イ)動き量に基づく仮想バッファの増分
a)動きのない対象領域のMBK: BUF_M =16×(AMT/aM)
b)動きのある対象領域のMBK: BUF_M =0
c)背景領域のMBK : BUF_M =32×(AMT/aM)
aMは1MBKあたりの平均的な動き量に相当する数であり、例えばaM=16とする。
a)色変化のない対象領域のMBK: BUF_c =BMBK×(ACT/aC)
b)色変化のある対象領域のMBK: BUF_c =0
c)背景領域のMBK : BUF_c = 2×BMBK×(ACT/aC)
aC :1MBKあたりの平均的な色変化に相当する数,例えばaC=128
BMBK:1MBKあたりの平均符号量の予想値,次式で与えられる
BMBK=QX64×64000 /(Frate×NMBK)
Frate:現在のフレームレート
NMBK :1フレーム中のMBKの個数
(6)有意係数の個数の制御
H.261では量子化変換後のDCT変換係数をブロック単位でジグザグスキャンし、得られる一次元の量子化係数列を非零のレベルとその後に続くゼロランの長さの二項組(イベントと呼ぶ)で表現している。ここでは、高周波成分の係数は超低レートにおいてあまり視覚的に寄与しないとみなすこととし、ブロックあたりのイベント数を制限することにより、それに対応するVLCの個数を減らし、全体としてビット数の削減を図ることができる。
符号化モード:人物モード
符号化レート:8kbps
RB=V_BUFF/BUFF_MAX
V_BUFF=BUF_R+BUF_M+BUF_C
BUFF :現在のバッファ量
BUFF_MAX:バッファの最大容量
(RB1,RB2,RB3,RB4,RB5)=(0.2 ,0.3 ,0.5 ,0.8 ,1.0 )
(Ncf0,Ncf1)=(16,8 )
判定に当たっては、バッファ充填率BFの値によって、次の6つのケースに分けて制御する。なお、RB1〜RB5で示す値は判定のしきい値で、制御内容に対応した値があらかじめ設定されている。
すべての領域について最大64個の有意係数個数とする
〈ケース2〉 RB1≦RB<RB2
対象領域について最大64個,背景領域では最大Ncf0個の有意係数個数とする
〈ケース3〉 RB2≦RB<RB3
すべての領域について最大Ncf0個の有意係数個数とする
〈ケース4〉 RB3≦RB<RB4
すべての領域について最大Ncf1個の有意係数個数とする
〈ケース5〉 RB4≦RB<RB5
背景は背景メモリを使用し、メモリにない部分はDC成分のみで表現する。対象領域について最大Ncf1個の有意係数個数とする
〈ケース6〉 RB5<RB
次の≪1≫〜≪3≫のいずれかを他の条件などによって選択する
≪1≫準動画モードに移行する
≪2≫モデルベースモードに移行する
≪3≫ピクチャーフリーズする
(a)フレームレートの変更指示の記述
H.261規格のビットストリームシンタックス(図30参照)においては、PICレイヤのTREF(temporal reference)の値の設定により、復号化器2に対するフレームレート変更の指示を記述できるようになっている。しかし、フレームレート変更については、この実施例においては超低レート化のための従属手段として取り扱っている。以下の、その方法と実施の要因について示す。
符号化器1側において動画像をA/D変換した後に、フレーム単位で生の画像データを符号化ループに送るか送らないかを選択することによる間引き操作によりフレームレートは変更される。したがって、この間引き情報が上記のTREFに反映されることになる。
フレームレート変更の駆動要因については、以下のようにまとめることができる。
1)バッファ容量に応じた切り換え
2)伝送レートに応じた切り換え(例:8kbps →5frame/sec など)
動画像モードにおいては伝送レートに応じて初期フレームレートを設定する。例えば符号化レートQX64に対して、以下に示すようなフレームレートに設定するようになっている。
・18≧QX64≧10 →30 frame/sec または15 frame/sec
・10>QX64≧6 →15 frame/sec
・ 6>QX64≧1 →15 frame/sec または10 frame/sec
・64>QX64×64≧32 →10〜7frame/sec
・32>QX64×64 →10 frame/sec 以下
3)動き発生量に応じた切り換え
4)モードの変更
さて、以上のように、符号化処理に当たって実施される超低レート化の機能について、実際の符号化処理過程においては、各機能を図5ないし図7に示すプログラムのフローチャートにしたがって実施するようになる。以下、全体の流れの概略について説明する。
次に、復号化器2において受信する符号化ビットストリームの復号化処理の内容について説明する。図4は、復号化処理内容を概念的に示すもので、大きく分類すると、復号化処理は、符号レベル,パターンレベル,画像信号レベルの3段階に実施され、この処理過程で種々のモード制御を行うと共に誤り訂正機能を実施して超低レートの伝送による復号化処理と無線通信レベルでの誤り率に対応した誤り訂正機能を実現する構成である。以下においては、この図4に示す概念的な構成をベースとして各機能に対応した詳細な説明を項目別に行う。
(1)ビット誤りの発生形態
まず、復号化処理におけるビット誤りの訂正を行うにあたって、通信路を経由して受信する画像信号のビット誤りがどのようにして発生するのか、その発生形態について以下に簡単に説明する。
(b)バーストエラー:ある区間のデータがマスクされる誤りの発生形態で、その間の値は次の≪1≫,≪2≫のいずれかである。≪1≫0あるいは1の固定値を連続して出力する,≪2≫全くランダムな値を出力する
(c)ビットの挿入,欠落:これによって時間的な伸縮が発生する
本実施例においては、誤り訂正の基本方針として、誤り発生の形態については特に限定するものではない。しかし、上述の(a)の場合には比較的安定して対処できるが、(b),(c)のような場合には完全な訂正は極めて困難なものとなるため、復号化処理の結果を視覚的にはそれほどおかしくない推定値で修復するが、その後の誤差伝播による誤差の累積が予想されるので、これを抑制する手段を設けている。また、この場合に、最悪時にはピクチャーフリーズと再送要求(ARQ:automatic repeat request)を行使する。
プロトコルシンタックス中のユーザーデータエリアを用いて、データ欠落時に画像再生に与える影響が大きいデータについては、前述のように符号化器1側から冗長的に伝送している。本実施例においては、図50に示すように、PICレイヤにPIC単位の所要ビット数を、GOBレイヤにGOB単位の所要ビット数を各々のユーザーデータエリアに16ビット(64kビットまで表現可能)程度で記述しておく。これにより、復号化器2側においてビットの欠落や挿入があったか否かを判定できる。また、この所要ビット数データ自体に誤りがあるか否かについては次のようにして判定する。
(b)GOBレイヤの符号量記述の和がPICレイヤの符号量に一致していない場合、どれかの記述に誤りがあると判定する。また、一致していれば誤りはないと判定して終了する。
(c)伝送レートとフレームレートから1フレームあたりの平均符号量と1GOBあたりの平均符号量を計算する。強制イントラフレーム以外の場合で、この値からあるしきい値以上外れる符号量を記述誤り箇所の候補とする。
(d)上記(b)の項で抽出した候補に対して、過去の数フレームにわたる符号量から線形予測との比較を行い、その値とのずれが一定範囲内に収まっていない場合は誤りと判定する。
上記した(a)のように符号化器1側で記述した1フレーム中の所要ビット数のデータを1フレームの復号化処理の開始以前にすべて検出しておくために、復号化器2側の入力バッファ(FIFOバッファ42)に蓄積されたビットストリームデータを数kビットオーダーでグローバルにチェックする。そのためには、次の項[B−2]でも説明するように、PSCとGBSCとの定位が必要になる。そこで、その定位処理について次のようにして行う。
(1)PICとGBSCの定位
ビットストリームをシーケンシャルに復号するのみでは、次の(2)項で述べるようなビット誤りに起因してPICデータおよびGOBデータの範囲を知ることができなくなる恐れがある。そこで、上述したようなファジイマッチング処理により比較的安定して検出し、定位できるPSCおよびGOBヘッダを起点としてパターンレベル(MBK属性)や画像信号レベル(BLK)による誤り訂正に追い込んでいく階層的処理を設けている。そして、その後は、符号と文法とに依存した以下の誤り訂正に連結されるようになっている。
ビット誤りを含むビットストリームをシーケンシャルに復号化処理すると、文法エラーによりパーザ43は復号化処理を停止する。しかし、そのときの停止位置とビット誤りの発生位置とが一致するとは限らず、場合によってはビット誤り位置が停止位置よりも数十ビット手前まで遡っていることもある。そこで、以下においては、どのような誤りの発生形態が存在するかを説明する。
固定長ヘッダにビット誤りが混入し、マッチング不能になる場合には、シンタックス上で他への分岐条件がない限り、即座に復号停止となる。
(b)ビット誤り位置からしばらく復号を続けた後に停止する場合
1)可変長符号(VLC)においてビット誤りが生じた場合
この場合は、上記した符号長が不変のビット反転の場合と同様であり、復号出力の数値または属性が符号化時と異なるが、その後の条件分岐に悪影響を与えなければ復号停止には至らない。
次に、H.261のプロトコルシンタックス(図30参照)に基づき、ビット誤りが発生する位置を次のように分類して説明する。
1)PSC(picture start code;20ビット)
ファジイマッチング処理を行う限り、2ビット程度のビット誤りがPSC中に発生してもシンタックスやそれまでの復号化結果に依存せずにPSCを検出できる。したがって、PSCの検出と定位は他の位置のビット誤りを検出するために必要な初期プロセスとなっている。
2)GBSC(group of blocks start code;16ビット)
PSCと同様に、ファジイマッチング処理により安定して検出できるが、PSCの定位が行われていないと定位を誤る可能性もある。
1)TR(temporal reference;5ビット)
PSCの定位が行われていれば、続く5ビットのデータであるので、その値をチェックすることは容易である。次のように復号化器2側のモード設定状態に応じて誤りの判定が異なる。
ア)通常の動画再生モード(固定フレームレート)であれば、伝送レートに応じたフレームレートに相当する値だけ前回のTRよりも増えているはずである。32kbps以下の超低レート動画モードならば、3〜5程度の増分になるため、それ以外は誤りと判定できる。
イ)準動画モードならば、10〜31程度の増分になるため、それを外れると誤りである。
2)PEI(picture extra insertion information ;1ビット)
データが1であれば次に続くユーザーデータPSPARE(8ビット)が存在する。データが0であればGBSCが続く。
GBSCの定位プロセスで誤りを判定する。以下の条件≪1≫,≪2≫を満たさない場合には誤りである。≪1≫CIF構造では1≦GN≦12,≪2≫1つ前のGNよりも1つ数値が増えている場合
4)GQUANT(GOB layer quantizer infomation;5ビット)
超低レート伝送での量子化スケール(QSC)は、対象領域優先モードにおいてはすべて31(量子化ステップ62)に固定し、領域分析から決定される主領域のみ16(量子化ステップ32)と設定する。したがって、人物モードではQSC情報は伝送しないようになっている。これによりGQUANT(GOBレイヤのQSC情報)とMQUANT(MBK単位の量子化スケール変更情報)は不要となるため、このデータに関する誤りは生じない。他のモードではMQUANTを用いる場合は後述のパターンレベルの誤り訂正におけるCBPと同様にして値を推測し、誤りを判定する。
ア)データが「1」であれば次にユーザーデータGSPARE(8ビット)が続く。したがってGBSCの定位とGSPAREの定義および数値から正しくない(同期ずれか誤り)と判定する。
イ)データが「0」であればMBAが続く。したがって、誤りの判定はMBKレイヤまで持ち越される。
1)PSPARE(picture layer spare infomation;8ビット)
ピクチャーレイヤ単位でのユーザーデータを記述可能なエリアで、本実施例においては、モード情報(8ビット),所要ビット数の情報(8ビット×2)に用いている。これによって、所要ビット量の誤りを判定することができる。
GOBレイヤ単位でのユーザーデータを記述可能なエリアで、本実施例においては、GOB内での所要ビット数を記述している。なお、GOBレイヤでの所要ビット数は8ビット以内に収まる確率が高いので、所要ビット数のデータのビットパターンを上位(MSB)側と下位(LSB)側とで順序を入れ替えた反転パターンとして記述するようになっている。したがって、GOBレイヤの所要ビット数が8ビットを超える場合にのみ、次のGSPAREが必要になる。
超低レート伝送では用いない。64kbps以上のH.261規格においては用いられる可能性はあるが、図53にも示すように、1ビットの誤り発生でも、文法的に異なる解釈結果となる場合があるので、ファジイマッチング処理を行うことは危険である。したがって、本実施例においてはMBSTUFFコードは使用していない。
GQUANTで説明したように、本実施例における超低レートの伝送の人物モードにおいては、MQUANTを用いない。他のモードでMQUANTを用いる場合は後述のパターンレベルの誤り訂正におけるCBPと同様にして値を推測し、誤りを判定する。
文法的にはMTPがINTRAを示す時のみ最初のDCT係数データとして現れる。この判定については、後述する信号レベルの誤り訂正プロセスに委ねられる。
ESCに誤りが入ると、その後のBLKレイヤの復号化処理において別の解釈が生じるため、文法的に誤り位置を特定して訂正することはかなり困難である。そこで次の方策を講じている。
ア)DCT係数の復号化処理において常にESCとの類似度Sesc を計算し、Sesc =5/6(6ビット中5ビットがESCと一致)の時にその位置Pesc をすべて記憶し、その後の復号化処理を進める。
イ)EOBを見付ける以前に以下の条件≪1≫,≪2≫を満たさない場合には、誤りと判定し、上述のPesc に戻ってそれをESCと解釈し直して再度復号化処理を行う。≪1≫有意係数の個数≦Ncoefの制約,≪2≫BLK内の量子化DCT係数の累積個数≦64
ウ)画像信号レベルの誤り訂正プロセス(BLKレイヤ)で誤りを検出すれば、同じくPesc に戻ってそれをESCと解釈し直して再度復号化処理を行う。
エ)パターンレベルの誤り訂正プロセス(MBKレイヤ)で誤りを検出すれば、Pesc に戻ってESCと解釈し直して再度復号化処理を行う。
7)EOB(end of block;2ビット)
語長が短いため、類似度で候補を判定することは困難である。しかし、出現回数は多いので、ランダムな誤りがEOB内に発生する確率は小さくない。そこで、以下の条件≪1≫〜≪3≫を満たさない場合にEOBに誤りが生じたと判定する。
≪2≫BLK内の量子化DCT係数の累積個数≦64
≪3≫(MBK内のBLK個数)≦(CBPで記述されるBLK個数)
この場合に、訂正方法は次のア),イ)の2通りがあるが、通常は、計算の簡略化のためにイ)の方法を選択する。
ア)1つ前のEOBの直後からビットを順に反転してゆき、EOBパターン「10」を検出する。そして、検出したEOBパターンをEOBと見なして復号化処理を行い、上記した3つの条件≪1≫,≪2≫,≪3≫をすべて満たせばこれが正しいEOBと判定する。
イ)GOB中の残りのMBKのすべてについてパターンレベルの誤り訂正を適用する。前述の3つの条件≪1≫,≪2≫,≪3≫で検出できない場合は信号レベルかパターンレベルの誤り訂正に委ねる。
1)MBA(macroblock address;1〜11ビット)
MBAは以下の条件≪1≫,≪2≫で出現するため、この条件でVLC表の照合を行い、あとはパターンレベルの誤り訂正に委ねる。
≪1≫復号完了したMBK個数≦32のとき,EOBの直後
≪2≫GEI=0の直後
2)MTP(macroblock type ;1〜10ビット)
MTPは『MBAの直後』という条件で出現するため、この条件でVLC表の照合を行い、あとはパターンレベルの誤り訂正に委ねる。
1)MVD(motion vector data;1〜11ビット)
MVDは以下の条件≪1≫,≪2≫で出現するため、この条件でVLC表の照合を行い、あとはパターンレベルの誤り訂正に委ねる。
≪1≫MTP=2,3,6,8,9,10のとき,MTPの直後
≪2≫MVDはx成分,y成分の順番で2個のVLCが連続して現れる
2)CBP(coded block pattern ;3〜9ビット)
CBPは以下の条件で出現するため、この条件でVLC表の照合を行い、あとはパターンレベルの誤り訂正に委ねる。
BLKレイヤのINTERブロックに対するDCT係数のVLCは以下の条件≪1≫,≪2≫で出現する。この誤り訂正は信号レベルの誤り訂正に委ねる。
≪1≫MTPが4か7のとき(INTRAブロック),BLKレイヤ内で2番目の係数以降
≪2≫MTPが4,7以外のとき,BLKレイヤナイで次の符号がESCでない場合
[B−3]パターンレベルの誤り訂正
階層的な符号化属性におけるフレーム間の連続性を用いる。
すでに復号化した過去のMBKレイヤについては、属性メモリ39c内に、MBA,MTP,QSC,MVD,CBPの5つの属性データがフレーム単位の配列データとして記憶されている。これらの属性データはフレーム間でかなりの連続性を有しているので、シーンチェンジや強制イントラフレーム以外では、それほど激しく変化することはないという性質を持つ。特に、人物領域など対象領域の存続に関して時間的連続性がある場合には、このことが良く成り立つ(図54,図55参照)。
まず、MBAは対象領域の左側の輪郭部では時間的連続性が出るが、対象領域内では変化が多くなることが予想される。しかし、逆に、前述したようなFIXED/NOT_FIXEDのパターンについては、領域の動きからほぼ予測がつくようになる。そこで、図56のフローチャートおよび図57,図58に示すように、以下においては、領域の平均動きベクトルを利用して領域をシフトさせることにより、MBAパターンに一意的に対応するNOT_FIXED(以後、NFXと称する)パターンの予測計算を行い、GOB単位で現在の復号結果によるNFXパターンと予測結果に基づくNFXパターンとの間の類似度SNFX を次式(12),(13)にしたがって計算する。
L ;現在復号中のMBA値aのMBKアドレス(既に復号が完了した1つ前のMBA値のMBKアドレスL0にaを加えた値)
Ls; NFXパターン比較の開始位置
s(A,B) ; A=B のとき「1」,それ以外は「0」
NFXM(k) ;GOBの1番目のMBKのMBA値が「1」以上ならば「1」,「0」なら「0」
NFXM_(k) ;1フレーム前の NFXパターンから予測した NFXパターン
次に、上述の計算結果について信頼度RNFX を式(14),(15)にしたがって計算する。
この場合には、NFX予測の信頼度が低いと判断して保留する。すなわち、とりあえずは現状のNFXパターンを正しいと判定し、次の属性の判定に進む。
現在のNFXパターンは復号誤りであると判定する。予測パターンからNFX値をコピーしてMBAパターンに変換する。(TNFX1は、例えば0.3程度の値とする)
3)RNFX0 ≧ 0.5 且つ TNFX1 ≦ SNFX < TNFX2
現在のMBA値が復号誤りであることは判定できないため保留する。すなわち、とりあえずNFX値を正しいと判定し、次の属性の判定に進む。(TNFX2は、例えば0.7程度の値とする)
4)RNFX0 ≧ 0.5 且つ TNFX2 ≦ SNFX
現在のNFX値は正しい復号結果であると判定する。
10 frame/sec では、フレーム間の動きベクトルはビデオレートにおける3フレームベクトルなので、最大の大きさはプラス45画素程度もある。これは最大MBK3個の変位に相当する。そこで、1フレーム前のMTPパターンに対して対象領域の動きベクトルをMBK単位に換算した動き量(mx,my)で動き補償し、そのMBK位置を基準として既に復号したMBKで構成される比較領域を図59,図60のように設定し、動き補償によって対応する領域と各MTP値を比較する。ここで、次式(16)に基づいて類似度SMTP を計算し、さらに、それまでのMTP予測の信頼度を評価するために式(17),(18)を用いて信頼度評価値RMTP0を計算する。
smtp(A,B);2つのMTPの間の類似度を計算する関数で、MTPの含む6種類の各情報の一致に対して、以下のスコア値を設定して合計する
INTRA 属性の一致 → 3点
MQUANT属性の一致 → 1点
M V D 属性の一致 → 2点
C B P 属性の一致 → 2点
TCOEFF属性の一致 → 1点
F I L 属性の一致 → 1点
LMTP ;スコア設定の合計値(ここでは「10」)
K ;比較領域に含まれるMBKの個数,1番目は現在復号中のMBK
K0 ;MTP予測の信頼度の計算領域に含まれるMBKの個数でK以上の値
MTP(i);GOBの1番目のMBKのMTP値,FIXEDでは0
MTP _(i) ;1フレーム前のMTPパターンから予測したMTPパターン,通常は動き補償による比較領域のMTPパターンをそのまま予測パターンとする
上述の設定により、例えばMTP=1とMTP=2との間の類似度は、MVDとFIL以外ではすべて一致しているので、
3+1+0+2+1+0=7(点)
となる。したがって、その場合には、
smtp(1,2)=smtp(2,1)=7
となる。同様にして、他の組み合わせについても計算することができる。
1)RMTP0 < 0.5
MTP予測の信頼度が低いと判断して保留する。すなわち、とりあえずは現状のMTP値を正しいと判定し、次の属性の判定に進む。
2)RMTP0 ≧ 0.5 且つ SMTP < TMTP1
≪1≫現在のMTPパターンMTP(L)は復号誤りであると判定する。予測パターンからMTP値をコピーする。(TNFX1は、例えば0.3程度の値とする)
≪2≫これに対して、類似度が8以上(相違度が2以下)のMTPをすべて参照し、該当するVLCを参照する。
≪3≫参照したいVLCとビットストリーム列をファジイマッチング処理により比較して最も照合度の高いVLCを選択する。
≪4≫その照合度がある基準(0.8以上)を満たせば、そのVLCとMTPを採用する。満たさない場合には最初の推定値のMTPを採用する。
現在のMTP値が復号誤りであるとは判定できないので保留する。すなわち、とりあえず現状のMTP値を正しいと判定して次の属性の判定に進む。(TMBA2は、例えば0.7程度の値とする)
4)RMTP0 ≧ 0.5 且つ TMTP2 ≦ SMTP
現在のMTP値は正しい復号結果であると判定する。
QSCは32kbps以下の伝送レートではすべて31(量子化ステップ62)に固定し、対象領域優先モードにおいて領域分析から決定される主領域のみ16(量子化ステップ32)とする。したがって、人物モードではQSC情報は伝送しない。これにより、GOBレイヤのQSC情報とMBK単位の量子化スケール変更情報が不要となるため、QSCの誤りは生じないようになる。
MVDはフレーム内において隣接するMBK間の差分動きベクトルで表現されているので、このままのデータ形式では誤りを判定することは困難である。そこで、MVDデータを本来の動きベクトルMVの形に戻してから評価する手法を取る。なお、MVD属性データについては、他のMBK属性の値に比べて時間的にも空間的にも連続な統計的性質を持つ信号値とみなせるので、過去のフレームからの線形予測と周囲MBKからの線形補間が可能となる。そこで、まず、領域情報がない場合について、動きベクトルMVを次の式(19)にしたがって計算する。
vx(L,M);Mフレーム時刻におけるL番目のMBKに関する水平方向の動きベクトル
vy(L,M);Mフレーム時刻におけるL番目のMBKに関する垂直方向の動きベクトル
A ;xまたはyを表す添字
vA _(L,M) ;Mフレーム時刻におけるL番目のMBKに関する動きベクトルの推定値
a(i) ;フレーム内の線形補間係数
b(m) ;フレーム間の線形予測係数
u ;フレーム内補間とフレーム間予測の比率(0≦u≦1)
K ;復号中のMBKを含む周囲のMBK領域のMBK個数
p ;線形予測を行うための過去のフレーム数
そして、周囲MBKの設定の仕方は、前述のMTPの比較領域の場合に準ずる。このようにして得た推定ベクトルの値について次式(20)の誤差評価の式を用いて評価する。
≪1≫復号したMVDは誤りであると判定しvAをvA_で置き換える。
≪2≫これに相当するMVDを計算し、それを中心値として±5の範囲で該当するVLCを参照する。
≪3≫参照したVLCとビットストリーム列をファジイマッチング処理により比較し、最も照合度の高いVLCを選択する。
≪4≫その照合度がある基準(0.8以上)を満たせば、そのVLCとMVDを採用する。満たさない場合は、最初の中心値のMVDを採用する。
保留する。とりあえず復号したMVDを保持する。
3)10>E≧0
復号したMVDは正しいと判定する。
1)領域情報がない場合
動き補償予測符号化処理においてCBPデータはテクスチャーや色の時間的変化の度合いを示す数値と考えることができる。しかし、このCBPデータは、MVDのような線形補間計算が行えるような代数構造とはなっていないので、図61〜64に示すように、CBP値をいったんYUVベクトルに変換してからMVDと同様の評価計算を実施する。そこで、まずYUVベクトルへの変換に際しては、次式(22)にしたがって計算する。
c(L,M) ;Mフレーム時刻におけるL番目のMBKに関するYUVベクトル
c _(L,M) ;Mフレーム時刻におけるL番目のMBKに関するYUVベクトルの推定値
ac(i) ;フレーム内の線形補間係数
bc(m) ;フレーム間の線形予測係数
uc;フレーム内補間とフレーム間予測の比率(0≦uc≦1)
Kc;復号中のMBKを含む周囲のMBK領域のMBK個数
pc;線形予測を行うための過去のフレーム数
LN(i,m) ;Mフレーム時刻における比較領域中のi番目のMBKがGOB中のアドレスで何番目であるかを示す番号対応付けの関数,比較領域を設定すれば一意的に決めることができる
そして、周囲MBKの設定の仕方は、前述のMTPの比較領域の場合に準ずる。このようにして得た推定ベクトルの値について次式(23)の誤差評価の式を用いて評価する。
式(23)により得られた誤差評価の値Eにより次のように判定する。なお、YUVベクトルの定義から、
12≧Ec≧0
であるので、以下のような判定を行う。
≪1≫復号したCBPは誤りであると判定し、c_をcとして置き換える。
≪2≫その置き換えたcを中心値として±1の範囲内でCBPを計算(1つのcに対して複数のCBPが存在し得る)し、該当するVLCを参照する。
≪3≫参照したVLCとビットストリーム列をファジイマッチング処理により比較し、最も照合度の高いVLCを選択する。
≪4≫その照合度がある基準(0.8以上)を満たせば、そのVLCとCBPを採用する。満たさない場合には最初の中心値のCBPを採用する。
保留する。とりあえず、復号したCBPを保持する。
ウ)4>Ec≧0
復号したCBPは正しいと判定する。
次に、領域情報がある場合には、YUVベクトルの計算に当たっては、式(22)に代えて、次に示す式(24)に基づいて行い、評価については上述と同様にして行う。
ただし、ucの値は、領域情報がない場合の値よりも若干小さい値に設定することが望ましい。また、pcは逆に少し大きく設定する。
さて、上述のようにして5つの属性の検出と誤りの評価を行った結果、例えば、保留とする属性が3個以上発生した場合には、その保留が現れた属性に限り、誤り訂正した属性値に入れ替え、VLCを参照した上で、再度評価する。
これまで説明したパターンレベルの誤り訂正については、MBK単位の符号化属性に依存している誤り訂正であって、画像信号の値そのものを評価する手段ではない。そして、画像信号はBLKレイヤのビットストリームデータが符号レベルで復号化され、量子化DCT係数ブロックとして復元された時点で初めて可能となるものである。そこで、このように復元された画像信号のレベルにおける誤り訂正について次に説明する。
(a)誤りの検出
通常、BLKレイヤにおける復号誤りは、文法的制約とVLCの木符号としての性質によって、量子化DCT係数ブロックのDC成分の復号誤りに通じる。このことにより、仮にMBKが文法的に復号化が完了したとしてもその色(UVブロックのDC成分が支配的)やテクスチャーは周囲とは非常に異なるものになる可能性が高くなる(図66参照)。
d1(A,B) ;ベクトルAとベクトルBとの間の絶対値距離
Cb;ビットストリームに基づく復元MBKの色ベクトル
Ce;推定したMBKの色ベクトル
Y$;Yブロックの平均画素値
U$;Uブロックの平均画素値
V$;Vブロックの平均画素値
YBLK$(n,k);MBK中のn番目のYブロックのk番目の画素値( n=1〜4, k=1〜64)
UBLK$(k);MBK中のUブロックのk番目の画素値
VBLK$(k);MBK中のVブロックのk番目の画素値
以上の計算の結果得られる誤差評価値Ecに対して、
765(=255×3)≧Ec≧0
という条件があるので、この範囲内で、例えば、Ec>400である場合に誤りであると判定する。なお、MBKの予測推定計算については、次の2)と同様にして行う。
c(L,M) ;Mフレーム時刻におけるL番目のMBKに関するYUVベクトル
c(L,M)=(Y,U,V) であり、Yは4つのBLKのDC成分の平均、
U,VはそれぞれUBLK,VBLKのDC成分
cR(L,M-m) ;領域情報がある場合はmフレーム前の時刻における動き補償領域のYUVベクトルであり、領域情報がない場合はc(L,M)と同等
c _(L,M) ;Mフレーム時刻におけるL番目のMBKに関するYUVベクトルの推定値
ac(i) ;フレーム内の線形補間係数
bc(m) ;フレーム間の線形予測係数
uc;フレーム内補間とフレーム間予測の比率(0≦uc≦1)
Kc;復号中のMBKを含む周囲のMBK領域のMBK個数
pc;線形予測を行うための過去のフレーム数
そして、周囲MBKの設定の仕方は、次項のMBK属性の比較領域の取り方に準ずる。このようにして得た推定ベクトルの値について次式(31)の誤差評価の式を用いて評価する。なお、誤りの判定条件は、1)の場合と同じである。
復号したBLKが誤りであると判定した場合には、推定値で置き換えるようにする。一方、次のBLKの復号を行うには、符号レベルでビットストリーム復号再開位置を決める必要がある。このためには符号レベルの誤り訂正におけるEOB検出プロセスを起動する。このとき、もし、再生した(訂正も含む)MBKの数がGOB中で22以上であるならば(GOBをなす3列のブロックのうちの2列分の個数が22個である)、残りのMBKについてはすべて領域情報を利用した動き補償予測に置き換えるようになっている。
前項で示したような誤り訂正を行った後でも、そのままフレーム加算による復号化処理を継続すると、誤差伝播の累積により正常な画像再生が困難になる。そこで、次のような誤差伝播防止策を考慮している。
(a)領域情報をもとにして、周期的に強制イントラMBKを挿入することにより、重要部分の画像破綻を防止することができる。特に、図67にも示すように、顔部分では口と耳に強制イントラブロックを集中的に割り当てて、周期的に巡回することによりデータ量の増大を抑制しながら行う。
(b)復号化器2側で誤り訂正を行った後に、領域ベースの強制イントラを今後あるい時間範囲で分散して送るように符号化器1側に要求する。この場合、フレーム単位のARQ(要求信号)に比べて情報量の著しい増加は避けられるため、ピクチャーフリーズを行う必要はない。
符号化器1において設定するモード情報は、前述したように、使用環境,被写体,符号化制御の3つのカテゴリーに渡っているが、そのモード情報を用いることにより、復号化器2側において誤り訂正のルートを特定することができるようになる。
(a)自動車内固定
背景メモリ66と人物モードの設定により、認識,パターン,信号のすべてのレベルの誤り訂正機能を起動することができる。
(b)自動車内可動
人物モードと風景モードとの両方の可能性があるが、人物モードの場合には、上述の自動車内固定の場合と同様である。ただし、背景メモリ66のデータは常に更新記憶する必要がある。
(c)屋内固定
背景メモリ66を使用可能である。被写体が人物でない場合も目的によってはテンプレートまたは3Dモデルを特別に設定できるため、人物モードと同様の領域情報を利用した誤り訂正を起動できる。
(d)屋内可動
人物モードのみ誤り訂正機能の起動が可能となる。
上記した使用環境で説明したように、人物モードと風景モードとに分けられ、風景モードは形状や色彩が特定困難であるため、背景メモリ66に頼る以外に誤り訂正機能の起動は難しい。人物モードでは、テンプレート,3Dモデル,人物画像テクスチャー,目鼻口耳・髪・肌色などの特徴量を用いることができるため、全レベルの訂正機能を起動させることができる。
通常の実時間動画像再生要求とは異なるモード、例えば静止画モードやビデオメールモードなどでは実時間で誤り訂正をする必要がないため、ARQを起動すれば十分である。
画像がその他の誤り訂正手段によっても訂正できずに、復号が停止してしまった場合に、強制的に復号化器2側から符号化器1側に次のいずれかの要求信号を送信する。なお、このような要求信号の送信は、通信路の状況におうじて、自動的にレベルの選択設定をすることもできるし、あるいは、ユーザーの好みによって設定することも可能で、そのレベル設定はヒューマンインターフェイス34を介して行うようになっている。
これは、既存方式で用いられている再送(ARQ)と同じである。しかし、超低レート伝送では、遅延時間の著しい増大と頻繁なピクチャーフリーズにつながるため、特に32kbps以下の実時間伝送ではあまり用いない。一方、ビデオメールモードのように非実時間伝送の場合はこの要求を適用する。
(b)強制イントラピクチャーから始まる動画伝送の新規再開
復号化処理が停止した時点で残りのMBKについて過去のフレームから予測画像を生成し、ピクチャーフリーズする。正常に強制イントラピクチャーが送られてくる(PSCヘッダで開始位置を確認)までは、入力バッファのデータを廃棄し続ける。
(c)強制イントラピクチャーのみによる準動画の送出要求。
(d)モデルベース符号化における動きパラメータの送出要求。
(1)対象領域の特定
符号化器1側にて設定された対象領域検出結果およびモード制御情報については、ユーザーデータエリア(PSPARE,GSPARE)に記述した状態で画像信号として伝送されるので、これを復号化器2側で復号化処理を行って検出する。そして、これらの情報に基づいてテンプレート(2D情報)の選択と変形を行い、符号化器1側で抽出した領域情報を再現する(図68参照)。
符号化器1と復号化器2との間では、あらかじめ同一の2値テンプレートのセットが設けられているので、テンプレートを指定する識別番号を検出することにより双方で共通のテンプレートを用いることができる。
1)中心あわせ
テンプレート中心の水平および垂直のシフト量を画素単位で表現した2Dベクトル(mx,my)で中心合わせを行う。
2)スケーリング
上記のようにして得られた中心を原点として基本テンプレートを比率rで拡大縮小する。
3)修正
各々の基本テンプレートに固有の形状パラメータにより幅や高さ、姿勢角などの修正を部分的に加える。
モード情報とテンプレート選択情報により対象物のカテゴリーがわかっている場合には、さらにテンプレート中のどの部分が対象物のどういう部分に対応するかを知ることができる。例えば、人物モードで人物上半身のテンプレートを選択した場合、符号化器1の説明で用いた図16に示しているように、人物頭部,顔,口,目,鼻などに相当する細かい画像領域を特定することができる。
本実施例においては、誤りの発生原因を符号レベルのビット誤りに特定して画像の修正プロセスを記述している。したがって、誤り検出そのものは認識レベルでは行わず、信号レベルか符号レベル,またはパターンレベルで行う。認識レベルの誤り訂正は、特にそれらで誤りを評価する場合の、領域情報とそれに基づく対象物体の画像に反映される種々の性質を提供することにある。したがって、認識レベルにおける誤り訂正プロセスの起動は、他のレベルのモジュールによって行われることになる。
(a)領域情報の利用による2D動き補償
現在復号中のMBKがどの領域に含まれるかがわかれば、パターンレベルの誤り訂正の説明で述べたように、既に復号が完了した領域内のMBKの動きベクトルを用いて動き補償を行うことができる。例えば、復号化処理中のMBKが頭部の顔領域に含まれると判定されれば、頭部の平均動きベクトルを用いて動き補償予測MBKを作ることができる。
領域がわかれば、動きのみならず色や輝度,テクスチャーの誤りを修正することもできる。例えば、前フレームまでに顔の領域情報から肌色の解析をしておけば、信号レベルやパターンレベルの項で述べたような線形推定値と誤差評価により、誤りの判定と修正を行うことができるようになる。
領域情報の表現は、符号化器1側の説明で述べたと同様のテンプレートの表現方法に準ずる。例えば、人物モードでは被写体は全身像を基準として上半身,頭部,顔という4階層でテンプレートを作成する。また、顔は、口,目,鼻,頬,額を主要部位とし、正面顔における相対位置を設定する。上述の肌色解析は口と目を除く部分をもとにして平均色を計算することにより算出する。
変形を施す前の基本テンプレートは、前述したように、図25のように記述されている。これにより、基本テンプレート中の二次元座標としてすべての部位の位置が表現できる。
領域情報が明確になれば、背景領域を特定することができる。そこで、背景領域の画像情報を復号化器2の背景メモリ66に記憶させる。これにより、背景領域の復号化処理中にビット誤りが発生したときも上記と同様の誤り訂正を行うことができるようになる。
(1)人物画像の登録
最初のイントラピクチャーを人物名によってラベリングし、人物画像データとして人物メモリ67に記憶しておくことができる。こおこで、人物識別名は、ヒューマンインターフェイス34を利用することにより、符号化時に認証番号と同じ意味合いでラベルとして付与して登録する。また、イントラピクチャー中の領域情報はテンプレート番号と変形情報で記憶させる。さらに、同時にその人物とコンタクト(通話)した日時も同時に記憶させたり、あるいはメモリ容量が許す限りの範囲内において、音声情報についても同一ラベルで記憶させることにより、さらに機能を向上させることができる。
人物メモリ67に登録することにより記憶されている人物画像情報は、ユーザーによって人物識別名に基づいて名刺画像として適宜のタイミングで呼び出すことができる。これにより、一度通話を行った相手の顔を思い出すことができるようになり、例えば、再度通話を行う際に相手の認証手段として用いることもできる。また、伝送誤りが激しくなったときのモデルベース復号モードのテクスチャー画像としても利用することができる。
人物の3Dモデルに上記の人物画像をテクスチャーマッピングし、3D動き情報を付与することにより、伝送誤りが激しくなった場合の補助的な画像再生手段として人物象を生成する。この3D動き情報は復号化器2が適当に人物の動きらしく見えるように与えるようにしても良い。また、符号化器1側で抽出した3D動き情報を用いて制御することもできる。
符号化器1側から3D動き情報が与えられるならば、前述の2Dテンプレート情報だけでは表現しきれなかった正面像以外の場合の領域予測が行える。すなわち、図13にも示したように、3Dモデルの透視投影により、画像面上で2D領域を特定することができる。
以上の各レベルにおける誤り判定結果に基づいて、最終的に行使される誤り訂正機能は次のようにまとめることができる。各レベル数は、再生動画像の原画像に対する忠実さの度合いを予想した値になっている。
〈レベル1〉 ピクチャーフリーズ
〈レベル2〉 モデルベース推定
〈レベル3〉 領域情報に基づくGOB単位の線形推定・動き補償
〈レベル4〉 領域情報に基づくMBK単位の線形推定・動き補償
〈レベル5〉 符号レベルの訂正
[B−9]フローチャートにしたがった復号動作の説明
さて、以上のように、復号化処理に当たって実施される誤り訂正の機能について、実際の復号化処理過程においては、各機能を図8ないし図11に示すプログラムのフローチャートにしたがって実施するようになる。以下、全体の流れの概略について説明する。
Claims (18)
- 画像信号を符号化処理する過程で、画像信号を解析してフレーム中の領域に存在する対象物を認識する画像の認識装置において、
あらかじめ決められた送信側の使用環境および符号化制御のうち少なくとも1つに関する付帯状況を表すモード情報に基づいて前記対象物の認識を行うモード制御手段と、
画面中に存在する対象の領域を抽出する対象領域抽出手段と、
この対象領域抽出手段により抽出された対象領域の属性データを設定することにより符号化処理の際に情報量を削減する属性データ生成手段と、を設けてなり、
前記モード制御手段は、
あらかじめ対象形状を三次元の概略的なモデルで示す三次元モデルデータの設定処理を行うことができるものであって、
この三次元モデルデータから得た前記モデルにおける各部位の三次元位置情報、前記三次元位置情報と符号化対象画像の色情報とを対応づけた情報、および前記符号化対象画像にテンプレートを当てはめて得られた前記符号化対象画像における各部位の二次元位置情報の符号化データを生成するモデルベースモードを設定し、
前記対象領域抽出手段は、
前記対象領域の抽出を、動ベクトル発生領域の有無に基づいて前記対象領域の候補となる領域を求め、前記モード制御手段により設定されたモデルベースモードを適用することにより定まる前記モデルの位置姿勢における各部位を候補となる領域に透視投影した場合の位置関係に基づいて、前記候補となる領域から前記対象領域を特定することにより行う構成であることを特徴とする画像の認識装置。 - 前記モード制御手段は、
前記モデルベースモードにおいて、対象のモデルベース予測画像の生成にあたって使用環境及び/又は被写体を考慮した上であらかじめ選択されたモード情報で指定される二次元テンプレートに基づいてカメラと対象物との間の距離を算出するように構成されていることを特徴とする請求項1記載の画像の認識装置。 - 前記モード制御手段は、
前記モデルベースモードにおいて、前記二次元テンプレートの特徴領域をあらかじめ設定しておき、二次元動き情報に基づいてその特徴領域の動いた位置データから前記三次元モデルの位置姿勢を概略推定することにより、モデルベース予測を行うように構成されていることを特徴とする請求項1記載の画像の認識装置。 - 前記モード制御手段は、
設定しているモード状態から他のモード状態への遷移を、画像信号の解析の状態に応じた判定に必要な情報が不足するときまたは処理が完了していない場合には、その各々の状態に応じてあらかじめ設定された遷移確率値によって決定するように構成されていることを特徴とする請求項1ないし3のいずれかに記載の画像の認識装置。 - 前記モード制御手段は、
前記遷移確率値を用いたモード間の遷移判定を実行したときに、その判定結果に対する評価計算を行って誤差値が大きくなる場合には、その誤差を小さくするように前記遷移確率値を更新設定することを特徴とする請求項4記載の画像の認識装置。 - 前記モード制御手段は、
前記判定結果に対する評価計算を、二次元テンプレートまたは色解析結果あるいは速度・加速度評価によって行うように構成されていることを特徴とする請求項5記載の画像の認識装置。 - 前記対象領域抽出手段は、
3フレーム以上に渡って動ベクトルの発生領域を検出することにより前記対象領域の抽出を行うように構成されていることを特徴とする請求項1ないし6のいずれかに記載の画像の認識装置。 - 前記対象領域抽出手段は、
前記対象領域を、最大動ベクトルが発生しているブロックを検出すると共に、その最大動ベクトルの発生ブロックを含む領域を主領域として推定することを特徴とする請求項1ないし7のいずれかに記載の画像の認識装置。 - 前記対象領域抽出手段は、
画面全体の動き量を示すパニングベクトルを画面周辺部の動きベクトルの平均値に基づいて演算するパニングベクトル演算手段を備え、
前記最大動ベクトルの検出に際して、前記パニングベクトル演算手段により計算されたパニングベクトルを差し引いた上で検出を行うように構成されていることを特徴とする請求項8記載の画像の認識装置。 - 前記対象領域抽出手段は、
動きブロックを判別し、対象領域の重心、高さ、幅を表す特徴量の算出を行い、その算出結果に基づく動きブロックのブロックパターンおよび/またはあらかじめ選択されたモード情報で指定されるテンプレート情報をもとに対応するテンプレートを選択し、スケーリングすることにより前記テンプレートの最適化を行うように構成されていることを特徴とする請求項1ないし9のいずれかに記載の画像の認識装置。 - 前記対象領域抽出手段は、
前記テンプレート情報として、ブロック単位の属性情報を示すデータをモデルに対応してモデルベース伝送するように構成されていることを特徴とする請求項10記載の画像の認識装置。 - 前記対象領域抽出手段は、
前記対象領域の抽出に際して、画面中の対象が二次元的に移動するパターンを分析することにより簡易的に動きを検出するように構成されていることを特徴とする請求項11記載の画像の認識装置。 - 前記対象領域抽出手段は、
前記対象領域の抽出に際して、三次元モデルに基づいて二次元テンプレートを生成するように構成されていることを特徴とする請求項12記載の画像の認識装置。 - 前記対象領域抽出手段は、
送信側の使用環境、被写体、符号化制御のうち少なくとも1つに関する付帯状況をあらかじめ決められた符号化データで設定するモード情報に従った制御状態に基づいて対象領域が何の対象物であるかを示すカテゴリーを判定するように構成されていることを特徴とする請求項1ないし13のいずれかに記載の画像の認識装置。 - 前記対象領域抽出手段は、
ブロック単位で設定される属性情報に基づいて対象領域の前記カテゴリーを判定するように構成されていることを特徴とする請求項14記載の画像の認識装置。 - 前記対象領域抽出手段は、
強制イントラフレームが伝送された時点で常に領域抽出処理を行うと共に、そのときに対象領域から推定される背景領域の情報を指定して伝送するように構成されていることを特徴とする請求項1ないし15のいずれかに記載の画像の認識装置。 - 前記対象領域抽出手段は、
前記背景領域情報を指定することにより、情報の伝送量に応じてその背景領域の伝送を選択的に実施するように構成されていることを特徴とする請求項16記載の画像の認識装置。 - 前記対象領域抽出手段は、
情報の伝送量を制限した場合に、前記背景領域情報として指定した情報を伝送中の人物情報に合成させるデータを送信することを特徴とする請求項17記載の画像の認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007018110A JP4687658B2 (ja) | 2007-01-29 | 2007-01-29 | 画像の認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007018110A JP4687658B2 (ja) | 2007-01-29 | 2007-01-29 | 画像の認識装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004169174A Division JP4052285B2 (ja) | 2004-06-07 | 2004-06-07 | 画像信号の符号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007189704A JP2007189704A (ja) | 2007-07-26 |
JP4687658B2 true JP4687658B2 (ja) | 2011-05-25 |
Family
ID=38344509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007018110A Expired - Lifetime JP4687658B2 (ja) | 2007-01-29 | 2007-01-29 | 画像の認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4687658B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8660175B2 (en) | 2007-12-10 | 2014-02-25 | Qualcomm Incorporated | Selective display of interpolated or extrapolated video units |
JP5246248B2 (ja) | 2010-11-29 | 2013-07-24 | 株式会社デンソー | 予測装置 |
JP5267596B2 (ja) | 2011-02-23 | 2013-08-21 | 株式会社デンソー | 移動体検出装置 |
WO2013128396A1 (en) * | 2012-02-28 | 2013-09-06 | Smart Applications Limited | Inspection and repair module |
CN111275045B (zh) * | 2020-02-28 | 2024-02-06 | Oppo广东移动通信有限公司 | 图像的主体识别方法、装置、电子设备和介质 |
CN112388678B (zh) * | 2020-11-04 | 2023-04-18 | 公安部第三研究所 | 一种基于低功耗模式识别技术的行为检测机器人 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03253190A (ja) * | 1990-03-02 | 1991-11-12 | Kokusai Denshin Denwa Co Ltd <Kdd> | 動画像のハイブリッド符号化方法及びその装置 |
JPH05304662A (ja) * | 1992-04-24 | 1993-11-16 | Seiko Epson Corp | 画像符号化伝送装置 |
JPH07170523A (ja) * | 1993-03-04 | 1995-07-04 | Toshiba Corp | 動画像符号化装置と動画像復号化装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2864015B2 (ja) * | 1987-06-30 | 1999-03-03 | ケイディディ株式会社 | 画像信号の知的符号化方式 |
-
2007
- 2007-01-29 JP JP2007018110A patent/JP4687658B2/ja not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03253190A (ja) * | 1990-03-02 | 1991-11-12 | Kokusai Denshin Denwa Co Ltd <Kdd> | 動画像のハイブリッド符号化方法及びその装置 |
JPH05304662A (ja) * | 1992-04-24 | 1993-11-16 | Seiko Epson Corp | 画像符号化伝送装置 |
JPH07170523A (ja) * | 1993-03-04 | 1995-07-04 | Toshiba Corp | 動画像符号化装置と動画像復号化装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2007189704A (ja) | 2007-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5959672A (en) | Picture signal encoding system, picture signal decoding system and picture recognition system | |
EP0731608B1 (en) | Image encoder and decoder with area selection | |
JP4261630B2 (ja) | 画像符号化装置及び方法、画像符号化プログラムが記録されたコンピュータ可読記録媒体 | |
JP4611640B2 (ja) | ビデオシーケンス内の動きを符号化する方法 | |
JP4687658B2 (ja) | 画像の認識装置 | |
JP2008054335A (ja) | イメージをコード化する方法およびイメージコーダ | |
JP2010534015A (ja) | 画像処理方法及び対応する電子装置 | |
JP5560009B2 (ja) | 動画像符号化装置 | |
JP3769786B2 (ja) | 画像信号の復号化装置 | |
US20070274687A1 (en) | Video Signal Encoder, A Video Signal Processor, A Video Signal Distribution System And Methods Of Operation Therefor | |
JP4013921B2 (ja) | 画像信号の復号化装置 | |
CN102804783B (zh) | 图像编码装置和相机系统 | |
JPH0998416A (ja) | 画像信号の符号化装置および画像の認識装置 | |
JP2008153907A (ja) | 画像符号化装置及びそれらを含む情報端末ならびに画像符号化方法 | |
JPH09172378A (ja) | モデルベースの局所量子化を使用する画像処理のための方法および装置 | |
JP4052285B2 (ja) | 画像信号の符号化装置 | |
JP5938424B2 (ja) | 画像ブロックを再構成および符号化する方法 | |
JP4341078B2 (ja) | 動画像情報の符号化装置 | |
JP4508029B2 (ja) | 動画像情報の符号化装置 | |
JP3115866B2 (ja) | 画像符号化装置及び画像復号装置 | |
JP4795141B2 (ja) | 映像符号化合成装置、映像符号化合成方法及び映像伝送システム | |
JPH10224779A (ja) | 動画像のシーン変化検出方法及び装置 | |
JPH06233292A (ja) | 画像信号伝送装置 | |
JP2002171530A (ja) | スーパーインポーズ機能を備えた再符号化装置および方法 | |
JP4136403B2 (ja) | 画像処理装置、画像処理方法、プログラム、記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100405 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100720 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100910 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101208 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20101216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110118 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110131 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140225 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |