JP4687658B2 - 画像の認識装置 - Google Patents

画像の認識装置 Download PDF

Info

Publication number
JP4687658B2
JP4687658B2 JP2007018110A JP2007018110A JP4687658B2 JP 4687658 B2 JP4687658 B2 JP 4687658B2 JP 2007018110 A JP2007018110 A JP 2007018110A JP 2007018110 A JP2007018110 A JP 2007018110A JP 4687658 B2 JP4687658 B2 JP 4687658B2
Authority
JP
Japan
Prior art keywords
information
mode
region
target area
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2007018110A
Other languages
English (en)
Other versions
JP2007189704A (ja
Inventor
美樹男 笹木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2007018110A priority Critical patent/JP4687658B2/ja
Publication of JP2007189704A publication Critical patent/JP2007189704A/ja
Application granted granted Critical
Publication of JP4687658B2 publication Critical patent/JP4687658B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は、画像信号を可変長符号を用いて圧縮した符号化ビットストリームとして符号化して送信するようにした画像信号の符号化処理に適した画像の認識装置に関する。
近年、情報通信端末のマルチメディア化が急速に進んでおり、電話においてもデジタルデータ伝送に基づく様々な付加価値を創成していくことが今後のビジネス展開において必須である。特に、PHS(personal handy phone system )では、既に従来の音声,文字情報のみならず、自然静止画さらには動画をも伝送することが本格的に検討されており、電話機のマルチメディア化はごく近い将来に当たり前のことになることが予想される。
しかし、このような画像信号を伝送するにあたって、無圧縮状態では約166Mbpsに相当する信号量のTV映像をどうやってPHS(384kbpsの内、画像の割り当ては32kbpsあるいは48kbps)や既存の電話回線の伝送レート(10kbps程度)で伝送するかという問題がある。
ここで、従来のTV会議やビデオCDに用いられている動画像圧縮技術が要求される。しかし、この規格においても、例えば現行のTV会議用規格ITU−T/H.261では、64kbps〜2Mbps、ISO/MPEG1では1.5Mbps程度を対象としており、64kbps以下の超低レート伝送には対応するようになっていない。なお、1995年11月に勧告されるH.263規格は4.8kbps〜64kbpsを対象としているが、内容が未公開となっているので、その方式を認識することができない実情である。また、その規格では、H.261との接続性が補償されていないものである。
さらには、このような動画像圧縮技術は、有線系を対象としたものが主であり、例えば、移動体通信における無線系の通信において発生するデータ伝送誤りのレベル(10の−2〜−3乗程度)に対する対策が完全に施されておらず、無線系においては、通常は、ARQ(automatic repeat request)による再送要求を用いたデマンドリフレッシュと呼ばれる方法が用いられる。ところが、このようなARQを用いる場合には、受信側においては、画像情報の再送が完了するまでは、ピクチャーがフリーズすることが避けられない。したがって、電波事情が悪い所ではピクチャーがフリーズした状態が継続してしまうということになって実質的に動画伝送が不可能になる不具合がある。
一方で、静止画伝送では、データを重要度に応じてグループ分割し、レート制御するという方法が提案されてはいるが、実用には至っていない。また、384kbps程度の伝送レートではデータ伝送順序の変更と誤り訂正符号により伝送誤りに対処した例が報告されているが、64kbps以下の超低レート無線伝送における報告はまだない。
本発明は、上記事情に鑑みてなされたもので、その目的は、画像信号の符号化処理に適した機能として、PHSやデジタル携帯電話などの超低レート伝送での動画像の伝送を可能としながら、データ再送モードの発生やピクチャーフリーズの発生を極力抑制することができるようにした画像の認識装置を提供することにある。
画像の認識装置について、請求項1のようにすることにより、符号化制御モードとして、モデルベースモードを設定することで、三次元モデルに基づいてその動きに対応する位置情報や色情報を符号化データとして伝送することにより符号発生量を極力抑制した符号化制御を行うことができるようになる。また、対象領域抽出手段によって画面中に存在する対象の領域を抽出し、その対象領域情報を属性データとして符号化手段により画像信号に付加して伝送するので、伝送量の低減を図ることができるようになる。さらに対象領域をブロック単位で指定される属性情報としての動ベクトルの発生領域を検出することにより抽出することができるようになる。この場合において、請求項2では、二次元テンプレートを用いることにより距離情報を算出可能となり、請求項3では、二次元動き情報に基づいて特徴領域の位置データから三次元モデルの位置姿勢を推定することができるようになる。
請求項4のようにすることにより、画像信号の解析によるモードの判定に情報が不足する場合に、あらかじめ設定された遷移確率値に基づいて実用上において確率の高い側のモードに自動的に遷移させることができるようになる。この場合において、請求項5では、遷移確率値に基づいて遷移した結果を評価してその誤差値が大きくなるときにはその誤差を抑制するように遷移確率値を更新設定させるので、使用するにしたがって使用形態に適合したモード間遷移を達成できるようになる。そして、請求項6では、上述の評価に当たっては、二次元テンプレート,色解析結果あるいは速度・加速度評価などによって確実に行うことができるようになる。
また請求項では、3フレーム以上に渡る時間方向の解析を行って動ベクトルの発生領域を検出するので、対象領域を確実に検出することができるようになり、請求項では、対象領域を最大動ベクトルが発生しているブロックを検出してそれを含む領域を主領域として推定するので、高い確率で対象領域を抽出することができるようになる。さらに、請求項では、最大動ベクトルの検出に際して、パニングベクトル演算手段により計算されたパニングベクトルを差し引いた上で対象領域を抽出することができるようになる。
また、請求項10では、対象領域の抽出に際して、動きブロックで構成されるブロックパターンからその特徴量を算出し、テンプレート情報の有無に応じてスケーリングを行うので、テンプレートの選択と適合化処理を迅速に行うことができるようになる。この場合において、請求項11では、テンプレート情報をブロック単位の属性情報としてモデルベース伝送することができる。また、請求項12では、画面中の対象が二次元的に移動するパターンを分析することにより簡易的に動きを検出することができるようになる。
請求項13では、限定された環境下の人物モードにおいては、三次元モデルの透視変換を行うことによって二次元テンプレートを生成することができるようになる。そして、請求項14では、モード情報に従った制御状態に基づいて対象領域のカテゴリーを判定し、これによって、状態遷移を行うための判定条件に移行することができるようになる。また、請求項15では、上述の対象領域のカテゴリーの判定をブロック単位で設定される属性情報に基づいて行うことができるようになる。
請求項16のようにすることにより、対象領域抽出手段により、強制イントラフレームが伝送された時点では領域抽出処理を行って、対象領域から推定される背景領域の情報を指定して伝送するので、復号化装置側でこの情報を利用して復号化処理を的確に行うことができるようになる。この場合において、請求項17では、復号化装置側で指定された情報に基づいて背景情報を記憶しておくことにより、対象領域部分の情報量が増えたときに背景領域の情報については記憶した情報を参照して再生することができるようになり、符号発生量の増加を防止しながら、動画再生を保持できるようになる。そして、請求項18では、符号化処理する際に、背景領域情報として指定した情報に伝送中の人物情報に合成するデータを付すことで、復号化装置側では、対象領域部分の人物情報により再生される人物画像と、過去のフレームで復号化処理した背景領域情報とを合成することにより、背景領域の画像を付加した画像を再生させることができるようになる。
以下、本発明を自動車電話を想定した構成に適用した場合の一実施例について図面を参照しながら説明する。
図1には符号化装置としての符号化器1を、図2には復号化装置としての復号化器2の機能的なブロック構成をそれぞれ示している。以下、図1および図2を参照して全体構成について概略的に説明する。
図1に示す符号化器1において、撮像手段としてのカメラ3は対象物を撮影して画像データを通常のアナログ信号で映像ソースとして出力するようになっている。この場合、映像ソースとしては、カメラ3のような撮像手段によるものに限らずあらかじめ記憶されたビデオ信号などを用いることも利用可能である。このカメラ3により撮影された画像データによる映像ソースは、切換スイッチ4を介してA/D変換器5に入力され、デジタル信号に変換されるようになっている。A/D変換器5は切換スイッチ6を介して直交変換部7に接続されている。また、この場合、A/D変換器5は減算器8および切換スイッチ6を介した状態でも直交変換部7に接続されている。そして、切換スイッチ6の切換設定により減算器8を介在させるか否かを切換制御するようになっている。
直交変換部7は、H.261規格のものと同様にCIF形式に沿ってブロック単位で原画像または予測差分画像に二次元直交変換(この実施例ではH.261規格に従うので離散コサイン変換(DCT))を施すもので、その変換出力を量子化部9に出力するようになっている。量子化部9は、直交変換部7から与えられる変換係数データを直線量子化またはデッドゾーン付き量子化により9ビット精度で量子化変換するようになっており、通信路符号化部10に出力する。通信路符号化部10は、所定の変換ルールにしたがって量子化部9からの量子化変換された画像信号を符号化ビットストリームに変換するもので、FIFOバッファ11に一旦蓄積した後、有線路あるいは無線路などの通信路12に出力するようになっている。
さて、逆量子化部13は、量子化部9により変換された量子化信号が与えられるもので、量子化部9にて量子化した画像信号を再び量子化前のデジタルデータに変換して逆変換部14に出力する。逆変換部14は、デジタルデータをアナログデータに変換して映像ソースから取り込んだときの画像データとほぼ同じになるように復元して加算器15を介して予測メモリ16に出力する。予測メモリ16は、映像ソースから取り込んだ画像データに基づいて次のフレームにおける画像データの予測を行うためのもので、ループフィルタ17および切換スイッチ18を介して減算器8に減算信号として出力するようになっている。
ループフィルタ17は、隣接するブロックとの間の色や輝度の急激な変化を抑制するためにスムージングを行う空間的ローパスフィルタの働きをするもので、その出力は、切換スイッチ18から他の切換スイッチ19を介して加算器15に加算信号として与えるようになっている。また、予測メモリ16の出力は動き検出部20に与えられるようになっており、この動き検出部20は、A/D変換器5から与えられる映像ソースの画像データとの両者のデータから、フレーム間の動きを補償するように量子化部9に信号を与えると共に通信路符号化部10に信号を与える。
また、符号化制御部21は、符号化処理の各種の制御を実行するもので、直交変換部7から変換情報が与えられると共にFIFOバッファ11からバッファ使用率などのデータが与えられるようになっており、これらのデータに基づいて、量子化部9の量子化変換のレベルを設定する適応量子化制御を行うと共に、適応レート制御を行うようになっている。また、符号化した結果得られる画像信号の属性データを記憶する属性メモリ22は、符号化制御部21から記憶すべき属性データが入力されるようになっており、属性予測部23はその属性メモリ22に記憶されている過去の属性データに基づいて現在符号化処理中の属性データを予測して符号化制御部21に与えるようになっている。そして、以上により、H.261規格をベースとした符号化処理部24が構成されている。
次に、本実施例において付加されている特徴的な構成について説明する。すなわち、領域抽出・認識処理部25は、次のように構成される。対象領域抽出部26は、動き検出部20から与えられる動きベクトルの情報に基づいて後述するような対象領域抽出処理を実行するもので、テンプレートデータベース27に情報を出力する。2D(二次元)テンプレートマッチング部28はテンプレートデータベース27からのデータに基づいてマッチング処理を行い、対象領域抽出部26および通信路符号化部10に処理結果を出力する。
モデルベース予測部29は、三次元形状データベース30からデータを呼び出すと共に人物メモリ31および背景メモリ32の記憶データに基づいてモデルベースモードにおける画像再生の処理を行うもので、その処理結果を通信路符号化部10および切換スイッチ18を介して減算器8に減算入力として与えるようになっている。人物メモリ31および背景メモリ32は、対象領域抽出部26から記憶すべき人物データおよび背景データが入力されるようになっている。
さらに、この符号化器1には、これのモード制御を行うためのモード制御部33が接続されており、後述するようにして種々のモード制御の詳細な内容が実施されるようになっている。また、このモード制御部33には、使用者との間の情報の授受を行うためのヒューマンインターフェイス34が接続されている。ヒューマンインターフェイス34は、具体的には、表示部,音声入出力部あるいは操作入力部等を備えたもので、モード制御を迅速且つ適切に実施するために制御されるようになっている。モード制御部33は、復号化器2側とも接続されており、作用の項にて説明するように、復号化器2の各部のモード制御についても同様に行うようになっており、同様にして復号化器2においてもヒューマンインターフェイス34を利用することができるようになっている。
なお、このヒューマンインターフェイス34を通じて人物画像情報を人物メモリ31内に個人識別情報として登録記憶することができるようになっており、この個人識別情報は、適宜のタイミングでヒューマンインターフェイス34を介して入力される情報に基づいて人物メモリ31から呼び出されると共に、登録された個人識別情報として通信以外の場合でも表示可能な構成とされている。
次に、図1に示す復号化器2において、伝送路を介して送信される画像信号データの符号化されたビットストリームを受信する通信路復号化部35は、階層的符号化属性(マクロブロックタイプなど)を復号化して出力するもので、H.261規定に準じた基本構成をなす復号化処理部36に接続されている。また、誤り訂正機能を実行するための構成として、パターン・信号レベルの誤り訂正部37、認識レベルの処理部38および各種データを記憶するための記憶手段としてのメモリ39から構成されている。また、復号化処理に当たっては前述のモード制御部33が上述した各部と信号のやり取りを行うことにより制御するようになっており、最終的に復号化された画像信号は切換スイッチ40およびD/A変換器41を介して出力されるようになっている。
上記した通信路復号化部35において、外部の通信路あるいは空中等の伝送路12を介して送信される画像信号の符号化ビットストリームデータは、FIFOバッファ42に入力され、少なくとも1フレーム分のデータが蓄積されるようになっている。FIFOバッファ42に蓄積された符号化ビットストリームデータは、パーザ43において符号レベルの文法的な解釈がなされるようになっている。ファジイマッチング部44は、FIFOバッファ42内に蓄積されているビットストリームデータをグローバルに検索し特定コードで記述されたPSC,GBSCをファジイマッチング処理により特定すると共に、同じく特定コードで記述されたESC,EOBなどを検索して特定し、それらの位置を記憶部45に記憶し、後述するように誤り訂正機能の実行時に利用するようになっている。
また、パーザ43は、ファジイマッチング部44にて検索された特定コードの位置を基準として他のコードやデータの検索や文法解釈を行うようになっており、その際には、可変長符号(VLC)の対照表46を参照する。誤り判定部47は、ファジイマッチング部44により特定された特定コードの位置に基づいてパーザ43において文法的解釈を行う場合に、誤りがあるか否かを判定し、誤りを検出した場合にはこれを符号レベルで訂正して出力するようになっている。そして、パーザ43は、ビットストリームデータの復号化処理により得られたモード情報をモード制御部33に出力するようになっている。
復号化処理部36において、逆量子化部48は、パーザ43から復号出力が与えられるようになっており、量子化されている画像信号のデータを逆量子化変換して逆変換部49に出力する。逆変換部49は、画像信号に含まれる周波数信号に対応した直交変換データを位置信号に対応したデータに逆変換することにより復号データとして出力する。
逆変換部49の出力は、パターン・信号レベルの誤り訂正部37の誤り判定・補正部50に入力される経路と、切換スイッチ51および加算器52を介して誤り判定・補正部50に入力される経路とが設けられている。予測メモリ53は、誤り判定・補正部50および動き補償部54からデータが与えられるようになっており、ループフィルタ55および切換スイッチ56を介して加算器52の加算入力に接続される。
パターン・信号レベルの誤り訂正部37において、誤り判定・補正部50は、フレームメモリ57にデータを与え、画素値推定部58,画像推定部59を介して推定画像データが与えられるようになっている。動ベクトル推定部60はメモリ39からデータを得て動き補償部54に推定された動ベクトルデータを出力する。また、属性推定部61は、メモリ39に記憶された過去の属性データを読出して復号化処理部36の復号化制御部62に与えて逆量子化部48および逆変換部49の復号動作に関する情報を与える。
メモリ39は、モード情報部39a,領域情報部39b,パターン属性部39c,2D(二次元)動ベクトル部39dおよび個人識別情報部39eの各記憶部から構成される。
認識レベルの処理部38において、モデルベース予測部63は、三次元形状データベース64から3D(三次元)形状データ64aが与えられ、人物画像データベース65から人物画像のデータが与えられるもので、モデルベース予測を行って誤り判定・補正部50にデータを出力する。人物画像データベース65および三次元形状データベース64はメモリ39からデータが与えられる。
背景情報記憶手段としての背景メモリ66および人物情報記憶手段としての人物メモリ67は、D/A変換器41に出力される画像信号のうちの背景情報および人物情報が記憶可能に構成されており、フレームメモリ57にデータを出力すると共に、人物画像データベース65との間でデータの授受を行う。領域再生部68は、メモリ39からのデータに基づいてテンプレートデータベース69にて選択された2D(二次元)テンプレート69aが与えられ、領域再生を行ってフレームメモリ57に出力するようになっている。
次に本実施例の作用について図3ないし図68を参照して説明する。なお、以下の説明においては、[A]符号化器にて符号化器1における画像信号の符号化処理の動作内容について説明し、[B]復号化器にて復号化器2における符号化ビットストリームの復号化処理の動作内容について説明する。そして、[A]符号化器においては、符号化処理過程における符号量の超低レート化のための各種の手法を項目別に列挙する([A−1]〜[A−4]の項)と共に、その動作説明を符号化処理プログラムのフローチャート(図5〜図7)を中心として説明し([A−5]の項)、[B]復号化器においては、復号化処理過程における復号誤りの検出と訂正の各種の手法を項目別に列挙する([B−1]〜[B−8]の項)と共に、その動作説明を復号化処理プログラムのフローチャート(図8〜図11)を中心として説明する([B−9]の項)。
[A]符号化器
[A−1]基本動作
符号化器1の動作について、まず、基本動作について説明する。符号化器1においては、その基本動作として、カメラ3により撮影した画像のデータを取り込んで、その画像信号の符号化処理を行って符号化ビットストリームのデータとして通信路12に出力するようになっており、この場合に、第1フレームの符号化処理と、第2フレーム以降の符号化処理とに分けて実施するようになっている。
まず、第1フレームでは、カメラ3により撮影された対象物を含むシーンを供給する映像ソースをA/D変換部5でデジタル信号に変換し、この後、H.261の規格に準じてCIF形式に沿ったマクロブロック単位でフレーム内符号化(INTRA)を実行し、これをINTRAピクチャーとして伝送する。
また、第2フレーム以降では、第1フレームに対する動き補償予測差分のみが2次元直交変換(ここではH.261に準拠したDCT(離散コサイン変換))を受けた後に、符号化制御部21によりバッファ量や符号化レートその他の符号化器1の状態値に応じた適応量子化を受けた後に通信路符号化部10を経て出力FIFOバッファ11に一時的に蓄積記憶されるようになる。この出力FIFOバッファ11によって、フレーム単位で情報量が異なる符号化ビットストリームが所定の符号化レートに合わせて通信路に送出されるようになる。
なお、符号化ビットストリームは、後述するようにCIF(common intermediate format;共通中間フォーマット)形式の基準にしたがって、PICTURE/GOB/MBK/BLK(図30参照)の4階層構造としたデータに変換されており、BLK(ブロック)階層のDCT有意係数の列を表現する可変長符号の集合に対して各階層毎に属性ヘッダを付した状態で生成される。一方、動き補償予測フレームは、図1のフレーム加算ループの出力として生成され、原画像と比較されて新たな差分情報を符号化機構に送り込むようになっている。
さて、上述の符号化過程において、本実施例の符号化器1では、以下に示すごとくの独自な処理を実施することにより、超低ビットレートの符号化処理を実行するようになっている。
すなわち、本実施例においては、既存のTV会議,TV電話用動画像圧縮国際標準であるH.261規格をベースとした前提において、独自な処理過程として、モード制御機能および領域抽出機能を付加した構成としている。そして、このような構成のもとで、符号化制御,シンタックス変更等の処理を、信号,パターン,符号,認識の各レベルで実行し、最終的に64kbps〜4.8kbps程度の超低レート画像符号化の実現を行ったものである。なお、これらの制御内容の概念的な相関関係を図3に示している。
そして、以下においては、[A−2]モード制御,[A−3]対象領域の抽出,[A−4]符号化制御動作,[A−5]符号化処理プログラムに従った動作の説明の大項目に分け、各大項目中においてさらに小項目に分類して符号化方式の原理と方法について説明する。
[A−2]モード制御
図3は本実施例における符号化の超低レート化の内容について概念的に示しているもので、本実施例で行うモード制御については、例えば(1)使用環境,(2)被写体,(3)符号化制御の3つのカテゴリーでそれぞれモード制御を行うように構成されており、この場合に、それぞれのモード制御におけるモードの進行は全く独立に行われるとは限らず、例えば、各カテゴリー内で同時に2つ以上のモードを用いて符号化を行うこともあり得る。
そして、これらの遷移関係は符号化器1や復号化器2の状態つまり、FIFOバッファ11のバッファ量,現在設定されているモード状態,符号化レートあるいは動き発生量などの状態や判定情報によって支配される場合と、確率的状態遷移に依存する場合との2つのケースがある。以下においては、これらのカテゴリー(1)〜(3)および状態遷移の違いによるモード制御の動作についてそれぞれ説明する。
(1)使用環境
使用環境のモード制御については、以下に示すように、自動車,屋内,屋外の各場所に対応して固定,可動の各態様を考えて、(a)自動車内固定モード, (b)自動車内可動モード,(c)屋内固定モード,(d)屋内可動モード, (e)屋外固定モード,(f)屋外可動モードの6つのモードに分類することができる。
(a)自動車内固定モード
自動車用TV電話として最も考えやすい後部座席の使用環境を設定するもので、これは、例えば図12,図13に示すように、その位置関係から種々の条件を限定することができる特徴がある。これをまとめると、以下のようになる。
1)背景のうちの自動車内の部分はほぼ固定可能で、窓から見える車外の風景は走行中には動領域となる。
2)カメラ3から人物Pまでの距離Lを限定できる(図12参照)。実際的な値としては距離Lは例えば1m以内の程度に設定可能である。
3)次の被写体モードの項で説明するように、この使用環境では被写体としては人物を中心とした人物モードが大半であり(図13参照)、動領域抽出の結果では、最も面積比率の大きい領域が人物である確率が非常に高くなる。
4)後部座席を対象として使用する場合には、撮影すべき人物Pの数は一人である確率が最も高くなる。
5)乗用車の場合には、カメラ3の視野内に入り得る人物Pの数は最大で4人程度と考えられる。
(b)自動車内可動モード
このモードにおいては、人物モードに加えて、被写体モードとしての風景モードが使用される可能性が高くなる。
(c)屋内固定モード
自動車内固定モードとほぼ同じであるが、窓から見える外の風景は固定的である可能性が高く、情報量の削減には利点となる。
(d)屋内可動モード
人物モードの他に風景モードも使用される可能性が高い。
(e)屋外固定モード
このモードでは、交通監視,セキュリティ,ペットの監視などへの応用が考えられる。また、この場合にはカメラ3を固定設置することから、有線系の伝送が可能となり、伝送誤り率の低下は少ない。
(f)屋外可動モード
使用環境としては最も過酷な条件であり、この場合には、可動であることから無線系の超低ビットレート伝送を行うことが前提条件となる。また、携帯型の装置を使用する場合には、人物モードの他に風景モードも使用される可能性が高くなる。加えて、通話中の手ぶれ等によりカメラ3の振動が多くなることが想定され、実際上は準動画モードあるいは静止画モードの動作が中心になることが想定される。
(2)被写体
この場合には、符号化対象および用途に応じて以下のように4つの符号化モードを切り換え設定するようになっている。
(a)人物モード
この人物モードは通常の通信においては最優先で使用されるデフォルトモードに設定されている。そして、この人物モードにおいては、図14にも示すように、背景や使用環境に応じてさらに以下に示すようなモード切り換えを行うようになっている。なお、この場合のモード切り換えの条件は、通常、対象領域の抽出結果と距離判定により自動的に設定して切り換えるようになっている。
ア)頭部モード (対象とする人物Pがひとりの場合)
イ)上半身モード (対象とする人物Pがひとりの場合)
ウ)全身モード (対象とする人物Pがひとりの場合)
エ)複数人物モード
例えば、図14に示す各使用環境においては、(a)自動車内ではア)の頭部モードが、(b)屋内ではイ)の上半身モードが、そして、(c)屋外ではイ)の上半身モードかあるいはウ)の全身モードに設定される。また、エ)の複数人物モードでは、特に詳細なテンプレート(図25参照、後述するテンプレートの説明参照)は用意されず、また、シーンとしても過渡的な短時間であることが想定されるので、符号化情報量の発生具合に応じた他の制御に委ねられる。
(b)風景モード
例えば、走行中の自動車内においては、会話時には被写体が人物であることが多く、モード判定木では人物モードが設定される確率が高い。一方、ユーザが意図的に車外の風景や事物を画像として伝送したいと考えた場合、動きの有無やテクスチャーの細かさに起因する情報発生量の多さおよび人物の有無から判断して、符号化モードを準動画か静止画モードに移行させる。
(c)静止物体モード
静止物体を対象とする場合には、比較的符号化情報の発生量は少ないため、符号化モードとしては通常の動画モードを選択することができる。
(d)図面・文字モード
高解像度静止画モードを符号化モードとして選択することができる。
(3)符号化制御
(a)画像中心優先モード
このモードは、画面中の対象物に対して何ら先見情報がなく、しかもこれに優先してマニュアルで設定した初期設定モードがない場合に設定される。すなわち、状況としては、ただ漫然と撮影したいものにカメラ3を向けているような場合が想定される。この場合には、通常、カメラ3を向けることによって対象物が画像中心に位置する場合には、注視する領域も画像中心に近い部分であることが仮定できる(つまり、対象物中心に対するカメラ3の姿勢の水平および垂直角度α,βはゼロに近い値となることが仮定できる)。
したがって、画像中心付近に優先的にビット量を割り当てて符号化し、周囲に向けて徐々に割当量を減らすという符号化制御操作を行う。これは、具体的には後述する[A−3]符号化制御の領域別量子化制御,背景メモリの使用および有意変換係数の最大個数の制御などによって行う。また、このモードにおいては、他のモードへの移行の条件を次の3つの場合に対応して設定している。
1)対象領域の移動を検出した場合
対象領域が抽出されていれば、対象領域優先モードに移行する。ここで、次の場合には対象領域の追従が行えないので、その対象領域優先モードの中の領域重心モードを選択するようになっている。
ア)2D(二次元)テンプレートが定まっていない場合
イ)2Dテンプレートの適合が完了していない場合
ウ)2Dテンプレートを持たない風景モードの場合
(なお、2Dテンプレートについては後述する。)
2)被写体モードが人物モードである場合
対象領域優先モードで且つ人物モードの場合、正面像から外れなければ2Dテンプレートは適合する。この場合、さらに、頭部、目、口など各部の同定を開始する。
3)対象領域抽出と動き解析結果による対象物カテゴリーの特定
動き情報や領域情報がない場合には、画面中心領域を優先して詳細に符号化する。この場合、画面中心領域を優先するとは、図15に示すように、画面中心から一定距離として例えば平均距離Davとして計算された値の範囲内のブロックを対象領域とみなすことに相当する。
また、ここでは、平均距離Davを計算するにあたり、距離尺度として同図 (a)に示すユークリッド(Eucrid)距離D(n)あるいは同図(b)に示す絶対値距離D(n)を用い、次式(1)に示すように、画面に設定されたブロック(たて18個×よこ22個)について距離D(n)[この場合には絶対値距離を基準としている]の平均値Davを演算して求めており、この計算結果として平均距離Davは約12となり、同図(b)中で斜めの矩形で示す斜線領域部分が画面中心領域となる。
Figure 0004687658
ただし、N=22×18=396、dd(i,j)は、絶対値距離では、
dd(i,j)=|i−11|+|j−9|
となる。
(b)対象領域優先モード
1)背景メモリ使用モード
後述する[A−2]対象領域の抽出の領域抽出で得る領域情報に基づいて、人物モードにおいては、あらかじめ用意している背景画像あるいは第1フレームにて伝送した背景画像を用いて背景メモリ66に記憶した背景情報を利用することにより次のようにして制御するモードである。
ア)その後は全く背景に関する情報を伝送しないようにする。
イ)背景情報は伝送するが、周期的に分散して背景の変化情報を送り、徐々に背景を更新していく。
2)領域重心モード
この領域重心モードでは、前述の画像中心モードの画像中心が対象領域の重心であると考え、それを中心とした領域別量子化制御を駆動するモードである。なお、領域別量子化制御については後述の[A−3]符号化制御の項で説明するのでここでは省略する。
3)対象領域追従モード
このモードは、対象領域が画像面上で移動した場合に、時々刻々と変化する対象領域の重心位置を検出することにより、上述した2)領域重心モードを適用できるようにしたモードである。
(c)動き優先モード
動きブロック数や動きの絶対値量が増えた場合にもフレームレートを落とさないようにしたモードである。ここで、動きの激しさは、後述の[A−3]符号化制御の項の情報発生量に応じた適応制御の説明中で動きの激しさを示す指標AM(式(10)参照)を用いて判定することにより、対象領域優先モード、画面中心優先モード、あるいは後述するモデルベースモードなどを駆動することにより伝送レートを維持するように制御する。
(d)準動画(INTRAピクチャー)モード
これは、情報量を削減するために、フレームレートを低下させることによって画質を保持しつつ伝送レートを維持するモードである。この場合、動き量によってはフレーム間の相関を利用した圧縮が困難になる場合があるので、その場合にはINTRAピクチャーのみを伝送するようになっている。
(e)静止画伝送モード
これは、次の2つの場合が想定されている。
1)符号化制御が破綻する場合
この場合には、まず、符号化器1側でピクチャーフリーズさせた画像信号とし、新たに強制イントラフレームを伝送する。そして、これが完了した後には、動画伝送モードに移行し、動画伝送を再開するモードである。
2)誤り等の理由により復号化器2側から再送要求がある場合
復号化器2側でピクチャーフリーズした状態となり、符号化器1側は再送要求に応じて強制イントラフレームを伝送し、この後、動画伝送モードに移行することで上記と同様に動画伝送を再開するモードである。
(f)モデルベース予測モード
1)テクスチャーソースの切り出し
テクスチャーソースは通話開始以前に撮影した最初の正面画像に対して後述する([A−3]対象領域の抽出における)動領域の解析結果によって得た人物領域の画像情報に基づいて行う。
2)モデルの選択と適応化
3D(三次元)モデルはあらかじめ各々の2Dテンプレート69a(正面像)に対して奥行き情報を与えることで定義しておく。
3)2Dテンプレートを用いたモデルベース予測と伝送
距離情報については、正面像について2Dテンプレート69aのテンプレート番号とスケーリング値を用いてカメラ特性を用いて計算したテーブルで算出することができる。この正面像については、領域抽出結果に基づく距離情報と画像面上の2D移動量を用いることにより、人物像のモデルベース予測画像を生成することができる。また、電波条件が良好でない場合などにも、2Dのモデルベース画像伝送を行うこともできる。
4)3D運動情報を用いたモデルベース予測
例えば、人物の正面像の2Dテンプレート69aの特徴領域をあらかじめ図16のように定めておき、その2D動き情報に基づいて上半身のテンプレートについて頭部と肩から下の2つの部分をそれぞれ剛体とみなし、N個の特徴領域の2D位置の組から3D位置姿勢を表わす透視変換行列を求めることができる。なお、このように透視変換行列を求めることは、周知技術である空間量子化法などを用いることにより実施可能である。
さらに、このようなことは、この場合においては、事前にテーブル化して記憶しておいても良い程度のもので、このような通信用の位置姿勢推定は、工場内のロボットの制御で行う場合などの位置姿勢認識に比べて高い精度が要求されないことから、視覚的に見て違和感を感じなければ良いという前提があるという根拠に基づくものである。
5)背景メモリ
カメラ3の設置位置が固定されていて通常撮影される背景画像が固定的である場合で、例えば自動車内にカメラ3を固定しているような状況においては、対象領域優先モードの背景メモリ使用モードを用いることができる。
6)モデルベースによる強制イントラフレーム伝送遅れ時間の補償
図17に示すように、自動車電話などの場合においては、通話開始までに実質的に通常10秒以上のセッション準備時間がある。したがって、このようなセッション準備時間中を利用して、セッション開始時点(通話開始時点ではない)で、正面顔を強制イントラフレーム(約30kビット)で伝送する。同時に動き領域の解析やテンプレート修正、3Dモデルの適応化などを通話開始までに完了させる。
また、距離情報Lと2D動き情報に基づく概略の3D動ベクトルを計算する。これにより、通話開始直前のフレームをモデルベースで予測する。これを元にして、通話開始後に第1フレームを動画伝送モードで符号化すれば、強制イントラフレームとして伝送する際に比べて符号量が削減できるため(少なくとも背景領域には効果があると考えられる。)フリーズやフレームレートの低下および画質低下を大幅に緩和することができる。
(4)H.261規格のものとの互換性
本実施例における符号化器1では、プロトコルによる64kbps以下のビットストリームは、容易にH.261規格のプロトコルに変換することができ、これによって、例えば図18に示すようなプロトコル変換器70,71を構成して互換性を保持することができるようになる。
なお、H.261規格の画像信号のビットストリームから本実施例の復号化器2におけるプロトコルに変換することは現状においては、画一的に変換する手段がないが、例えばイントラピクチャーによる準動画あるいは静止画モードにおいては接続可能となっている。
図18の構成においては、例えば、符号化器1から送信される符号化ビットストリームを受信すると、プロトコル変換器70は、MBSTUFFなどの冗長コードを付加することにより、9.6kbpsのデータ量をH.261規格の64kbps以上のデータ量となるように変換したり、符号量削減のために可変長符号のシンタックスを変更したものをH.261規格に適合するものに置き換えるなどの符号レベルで実施可能な単純な変換制御を行ってH.261符号化器Saに与えるようになっている。
一方、プロトコル変換器71においては、上述したように、画一的に変換する手段がないが、イントラピクチャーを伝送すべく、カメラ3の画像信号をH.261復号化器SbによりH.261規格の符号化ビットストリームに変換した出力をシンタックスの変更やモード情報などを付加し、フレームレートを落とすことにより伝送符号量を削減して9.6kbpsの伝送レートに適合するように変換して出力する。
このようにすることによって、H.261規格の符号化器Sa,復号化器Sbと本実施例の符号化器1,復号化器2との間での画像信号の相互変換が可能となり、従来のH.261規格の装置との間でも同様にして画像通信を可能とすることができるようになる。
(5)状態の判定とモードの遷移
(a)強制設定
例えば、前述の符号化モードにおいて、1)テクスチャーソースの切り出しのモードと2)モデルの選択と適応化のモードとの間のモード切り換えは、対象領域抽出結果が人物であるかそうでないかによって自動的に切り換えることができるが、これは、ユーザーのマニュアル設定により強制的に切り換えることもできる。
(b)対象領域のカテゴリーの判定
この判定動作に当たっては、図19に示すような使用環境と被写体に関するモード制御の状態遷移図に沿って、各条件を考慮しながらモード進行するようになっている。
1)確率的状態遷移
状態遷移に必要な判定情報が不足している場合には、デフォルトで与えた確率または不完全な情報のもとで選択した遷移確率テーブルを用いて自律的な状態遷移や探索を実行する。これは、例えば次の場合に対応して実行される。
ア)外部から与えられる強制モードがない場合
イ)動領域解析に基づく領域抽出が完了していない場合
ウ)色信号などの信号解析結果が完了していない場合
2)判定情報に基づく決定的状態遷移
これは、図19に示しているように、確率的な基準によらないで、原画像から3フレーム時間程度にわたる動領域解析を後述するように実施し、これによって動き領域や動き発生状況を抽出した後、人物領域を抽出し、形状パラメータの抽出によりテンプレートの選択を行う。テンプレートの適合具合を評価計算で求め、基準を満たせば終了する。満たさない場合は次のテンプレートを選び、同様のプロセスを繰り返す。
(c)状態遷移に基づく判定結果の伝播に基づく遷移確率値の更新
ある判定結果がその後の評価計算において著しい誤差を生み出す場合には、動領域解析モジュールを介した移動体判定の初期節点に戻る際に遷移確率(図中では、移動体nの分岐として、人物側に「0.9」,他の物体側に「0.1」を設定している)を更新する。例えば、初期判定で純然たる確率状態遷移に基づいて人物と判定した領域がその後の2Dテンプレート照合や色解析結果、速度・加速度評価などにより人物とは考えにくい評価関数値を出力する場合、「人らしい」と判断する遷移確率は、「0.9」から「0.2」程度に下げるように変更設定する。
(6)モード選択に至るヒューマンインターフェース
上記で述べた状態判定とモード遷移でも最適な符号化制御は可能だが、モード制御部33により、ヒューマンインターフェース34を介した誘導により、誤った判定を下す確率を激減させることができる。例えば、セッション開始までの準備時間の間にモード制御部34により次に示すようなプロセスを完了しておけば、その後の符号化制御に関するモード移行を順調に実施することができるようになる。
1)ユーザが人物モードを選択してカメラ3の位置方向を見る。
2)ヒューマンインターフェイス34を介して、「正面におすわりください。」というメッセージを音声あるいは表示で通知する。
3)人物が画面中心からずれている場合には、ヒューマンインターフェイス34を介して、「少し右/左にお寄りください。」というメッセージを音声あるいは表示で通知する。(表示方法として、画面隅に子画面を設けて位置を示すこともできる。)
4)第1フレームを強制イントラとして送出する。
5)ヒューマンインターフェイス34を介して、「先方とつながりました。お話しください。」というメッセージを音声あるいは表示で通知する(通話開始可能になる)。
(7)モード情報の伝送
モード情報とそれに伴うテンプレート情報は超低レート伝送に際して支障のない程度の情報量であるので伝送可能であり、この場合には、その伝送は、PIC階層のユーザーデータエリアであるPSPAREに記述された状態で伝送されるようになっている(図30および図50参照)。
[A−3]対象領域の抽出
人物などの注視の対象となる対象物領域を動きベクトルやカメラ設定に基づいて抽出する。ここでは演算量を削減するために、その計算はマクロブロック(MBK)単位で行うようになっている。この演算動作と各種モードとの因果関係は、前述したように、図19に示すようになっている。
(1)動ベクトル発生に基づく領域抽出
ここでは、図23に示す動き領域抽出のルーチンのフローチャートにしたがって、最終的に最適テンプレートの決定が行われるプロセスである。また、図24の領域解析の説明図と図25の基本テンプレートの図が参照される。
(a)最大動ベクトルの検出と主領域の推定
H.261などの符号化の規格においては、そのMBKの属性を示すデータとしてのMTP(マクロブロックタイプ)に、動きベクトル発生の有無が情報として含まれている。この場合、H.261規格では、MTP値が2,3,6,8,10の値を示すときが動きベクトルが発生していることを示すデータである(図33参照)。したがって、H.261符号化の動きベクトル検出結果として、例えば図20ないし図22に示すようなMBK属性(MBA,MTP,CBP)の配列ができる。これらの図20ないし22は、2列6段のGOB12個を配列し、各GOBに11列3段のMBK33個を配列してなる画面の各MBK位置に対応した部分にそれぞれMBA値,MTP値,CBP値を示したものである。
ここで最も動きベクトルの大きさが大きいブロックを含む領域を主領域とする。なお、動きベクトルの大きさの評価においては、あらかじめカメラ3の移動に伴う動き成分であるパニングベクトルを差し引いておく。このパニングベクトルについては、周知の色々な計算方法があるが、例えば、簡易計算方法として画面周辺部の動きベクトルの平均を計算することにより得ることができる。
(b)時間方向の解析
上述の場合に、ただ1フレームについてのみ上記のブロック属性配列を調べたのでは対象物領域を特定することは困難である。そこで、図24(a),(b)に示すように、3フレーム時間程度に渡って時間方向の解析を行う(図19も参照,図23ステップD1)。特に動きベクトルの発生領域については、3フレーム分を重ね合わせた状態で得られるパターン(図23ステップD2)について、その重心位置を求めて(ステップD3)各ブロック位置に関する動きベクトルを次に示すように設定された判定回数に基づいて判定する(ステップD4)。
ア)重心からの距離があるしきい値を超えるブロックについては3回に2回以上のとき
イ)重心からの距離があるしきい値以下のブロックについては3回に1回以上のとき
次に、得られた動きベクトルによる対象領域の中から孤立点領域や雑音領域の除去を行い(ステップD5)、残った対象領域の重心を再度計算し(ステップD6)、さらに対象領域の高さhと幅wを求める。この後、例えば、人物頭部であるならば2Dテンプレート頭部を(h,w)でスケーリングしてカメラ3までの概略距離L0を求める(ステップD7)。この後、さらに高精度にテンプレート当てはめを行うためには、以下に示すようにする(ステップD8)。
(c)2Dテンプレートの照合とスケーリング
まず、動きブロックで構成されるブロックパターンを判別し、特徴量を抽出する。ここで、人物モードがあらかじめマニュアルで選択されていれば、図25に示すように2Dパターンデータベース27から人物モードの基本テンプレートを選択することができるようになる。
ここで、基本テンプレートとしては、判定木(図19参照)であらかじめ予想されるモードに応じて人物上半身,全身,頭部のみなどの正面像の2Dテンプレートがデフォルトパターンとして用意されている。次に選択したテンプレートを適応的に形状を修正する。この修正には、重心合わせ、スケーリング、局所的伸縮(図24(c)参照)が含まれる。ここで、最適テンプレートの選択と修正において、後述する式(2)に示す評価関数Fの値を計算する。
ア)時間方向の解析で求めたテンプレートよりも若干小さいテンプレートL(<L0)から開始する。
イ)動きブロックのみを抽出した画像にテンプレートをオーバレイし、その領域内に含まれる動ベクトルブロックの個数NMBK(L)を計算する。
ウ)スケールを大きくする(距離Lを小さくする)。
エ)Lが一定値Lmin 以下になれば次に進む。それ以外の場合にはイ)に戻る。
オ)次の評価関数Fが最大値Fmax を取るところを最適なLとする。
F=−B×NMBK(L) …(2)
ここで、BはNMBK(L)の曲線のLに関する二次微分値である。
あるいは、これを離散的表現になおすと、
F=−B(n)×NMBK(Ln ) …(2a)
B(n)=A(n)−A(n−1)
A(n)=NMBK(Ln )−NMBK(Ln-1 )
となる。
(d)量子化スケール情報を含む2Dテンプレート
2Dテンプレートは二値表現も可能であるが、後述するように、各MBK属性配列値をあらかじめモデルに対応してテンプレートで表現することもできる。これは、後述するように、例えば、図42,43に示すような量子化スケールが考えられる。
(e)2D移動パターンの分析
画面から人物が移動するパターンとしては、図25にも示しているように、水平横移動(図中横方向に並べた図に対応),カメラ光軸方向の移動(図中縦方向に並べた図に対応)が考えられる。
(2)3Dモデルに基づく2Dテンプレートの生成
図12,図13に示したように、限定された環境下における人物モードでは、3Dモデルの透視変換により図25と同等の2Dテンプレートを作成することができる。これにより、上半身、頭部、目、口、鼻などの部位の獲得をすることができるようになる。ただし、正面像以外では、対象人物のカメラ3に対する位置姿勢を求めることが必要となるが、ここでは一般的な方法に依存することとしてその内容まで言及しない。
(3)対象領域のカテゴリーの判定
(a)状態遷移グラフに基づく判定
図19に示したモード制御の状態遷移図では、対象領域のカテゴリーを特定する判定木が部分図として含まれている。この判定木上の節点間の遷移は、前述のデフォルト確率に基づく確率探索と判定情報に基づく確率探索との2通りの探索を使用して行うようになっている。
(b)MBK属性を利用した判定
変化のあったブロックの内で、特に細かいテクスチャー変化のあったブロックについては、CBPのスコア値が高くなることが予想されるので、例えば、人物上半身モードにおける頭部領域の判定の根拠として用いることができる。
(4)背景メモリ
強制イントラフレームが伝送された時点では、常に領域抽出処理を行い、これによって、特に背景部分の情報を背景メモリ32に格納するという処理を符号化器1において行うようになっており、このような処理は復号化器2の背景メモリ66においても行うようになっている。これは、動きや色の変化が激しくなったと判断したときにデータ伝送量を増やさないために、そのフレームにおける背景情報を背景メモリ32に記憶したデータで代用しようとするものである。
すなわち、図26,図27,28に示すように、現在符号化中の背景領域をすべてFIXDに設定し、ユーザーデータエリアにおいて背景メモリ使用を宣言しておくのである。そして、これに基づいて、復号化器2側では背景メモリ66から最新の背景情報を呼び出し、伝送されてきた人物画像などの対象領域情報とオーバレイさせて画像を再現するのである。
図26においては、超低レート化を図るための符号化制御の概略を示しており、複数フレームの画像信号に基づいて動き領域を分析して領域を抽出し、背景領域と人物領域を得れば、これに基づいて領域別量子化制御を行うと共に有意係数の個数制御を行う。また、一方で符号化レートの設定とモード情報の付加を行いながらバッファ量に応じて符号化制御を行うようになっている。人物領域を抽出する場合には、図27(a)に示すようなCIF形式におけるGOBのMBKの単位で領域を特定するので、背景領域についても同様にして得ることができる(同図(b)参照)。
図28は背景メモリ32に記憶したデータを用いる場合の概念的なものを示しており、符号化器1側で領域解析を行って得た背景領域のデータが背景メモリ32(図では背景メモリ1)に記憶され、動画モードを開始して動画を送信している途中では随時新しい背景領域のデータを取り入れて記憶するようにしている。そして、復号化器2側でも同様にして背景領域のデータを記憶するようにしており、通信中に通信路の悪化などによりデータの送信が中断する場合などには復号化器2側で背景メモリに記憶した背景領域のデータにより画面を再生すると共に、再送要求を符号化器1側に送信するなどして動画伝送が復帰までの間の画像再現を補うものである。
[A−4]符号化制御動作
この符号化制御動作については、図29に全体の概略的な動作内容について示されている。図30はH.261規格における符号化ビットストリームのシンタックスを示す一般的なものである。以下においては、これらの図29,30に基づいた符号化制御動作の詳細について項目別に説明する。
(1)ビットストリームシンタックスの変更
H.261のシンタックス(図30参照)における冗長なヘッダを、超低レート化のために削除する。このために、CIF構造におけるGOBの配置は変更しないが、図31に示すような画面を構成する12個のGOBに対して、GOBの開始ヘッダとしてのGBSC(16ビット)とGOB番号コード(4ビット)の個数を左側のGOBのみに付して右側半分については無くすことによりデータの量を半分に減らす(図32参照)。これにより、1フレーム当たりに20×6=120ビットを削減することができるようになる。
(2)可変長符号化(VLC)テーブルの適応切り換え
(a)符号語の置換
図33にH.261規格のMTP(マクロブロックタイプ)属性の可変長符号を示す。例えば、超低レートにおける発明者の実験結果によると、人物画像に対する各MTPの値の発生確率は図34に示す順序となっている。したがって、図34に示す順序に応じてMTP値に対する可変長符号を置換することにより、属性記述のためのビット数を削減することができるようになる。この置換パターンは、例えば数個に限定しておくことにより、どれを選ぶかをユーザーデータエリアに書き込むことにしておけば、復号化器2側においても状況に応じて変更するなどの適応化を柔軟に行うことができるようになる。
なお、実験結果では、対象物領域においてMTPの値が2または3になることが大半であり、人物上半身のモードの場合、双方の合計は100〜150個程度に達するため、それぞれ符号長を1と2(現在は2と3)に変更することにより、1フレームあたりで200〜300ビット程度のビット数の削減が行えることがわかった。
(3)属性の判定特性の適応制御
(a)領域情報を用いたMTP判定の適応制御
1)背景領域については、領域情報を用いてFIX(固定)あるいはNOMC(動き補償なし)とすることができる。
2)対象領域については、人物特に顔についてはMC−CO(動き補償と符号化)と判定する。
(b)INTER/INTRA判定の適応制御
通常、64kbps以上のH.261規格で推奨されるINTER/INTRA判定の特性曲線は、図35に示すようになる。この場合において、PVARはMBKの4つのYブロックに関するフレーム間予測誤差電力和を示し、QVARはMBKの4つのYブロックに関する入力画像のフレーム内分散の値を表している。そして、64kbps以下のレートにおいては、以下のように判定する。
1)誤りの伝播を防止するために周期的に分散して強制INTRAを入れる。
2)しきい値TH_INTRAを例えば次のように設定する。FIFOバッファ11の充填率RBを次式(3)により求め、その充填率RBに対して比較基準値RB1,RB2などで判定してしきい値TH_INTRAを設定する。
RB=BUFF/BUFF_MAX …(3)
この場合、RB,BUFF,BUFF_MAXは、それぞれFIFOバッファ11に関して、現在の充填率,現在の使用ビット数,最大ビット容量を示しており、以下の3つのケースに別けて判定する。
〈ケース1〉 0 ≦RB<RB1
〈ケース2〉 RB1≦RB<RB2
〈ケース3〉 RB2≦RB
判定結果に応じて各ケースに対応してしきい値TH_INTRAを下記のように設定する。
〈ケース1〉 TH_INTRA=64×256
〈ケース2〉 TH_INTRA=64×256 (対象領域の主要部)
TH_INTRA=64×512 (対象領域の主要部以外)
TH_INTRA=64×1024(背景領域)
〈ケース3〉 TH_INTRA=64×256 (対象領域の主要部)
TH_INTRA=64×1024(対象領域の主要部以外)
TH_INTRA=64×2048(背景領域)
なお、上述の場合で、領域情報が明確でない場合には、画像中心優先モードあるいは対象領域重心モードの項で示したように、重心からの距離が一定範囲の領域を対象領域として定義する。そして、以下のようにしてしきい値TH_INTRAを制御する。
R_IR=IR_MBK/IRMBK_MEAN …(4)
NTH=TH_INTRA×(R0+R_IR) …(5)
RPQ=PVAR/(QVAR×R_IR) …(6)
ここで、IR_MBKは対象領域の重心から現在符号化中のMBKまでの距離を示し、IRMBK_MEANは対象領域の重心からすべてのMBKまでの平均距離を示している。
そして、上述の式から得られる値に対して、
PVAR≦NTH または RPQ_VAR≦1.00
である場合には、INTERと判定し、これ以外の場合にはINTRAと判定する。この場合に、例えば、R0の値は0.5と設定する。
(c)動き補償の有無判定
通常、64kbps以上のH.261規格で推奨される動き判定の特性曲線は図36に示すようになる。この図36において、横軸は動き補償のない場合のフレーム間の誤差和FDSUMの値を示しており、縦軸は動き補償をした場合の誤差和MVSUMの値を示している。この場合、図中、動き補償(MC_ON)がある領域は2個の直線の傾きを示すパラメータGD1,GD2と2個のFDSUMに対するしきい値を示すパラメータIEV1,IEV2とにより囲まれる領域に設定されている。64kbps以下のレートにおいては、バッファ量と領域により以下のように特性曲線のパラメータセット(GD1,GD2,IEV1,IEV2 )の各値を変更する。なお、バッファ充填率RBは前述の式(3)で表現される。
RB=BUFF/BUFF_MAX …(3)
この場合、RB,BUFF,BUFF_MAXは、それぞれFIFOバッファ11に関して、現在の充填率,現在の使用ビット数,最大ビット容量を示している。
〈ケース1〉 0 ≦RB<RB1
この場合には、すべての領域について従来の動き判定を用いる。したがって、判定特性のパラメータセットの各値は次のように設定される。
(GD1,GD2,IEV1,IEV2 )=( 0.50, 0.91, 256, 256 ×3 )
〈ケース2〉 RB1≦RB<RB2
この場合には、対象領域を囲む一回り大きな矩形領域(フレーム間の動き範囲を考慮してテンプレート毎に自動的に設定)RMの内部では通常の動き判定特性を用いる。したがって、判定特性のパラメータセットの各値は次のように設定される。
(GD1,GD2,IEV1,IEV2 )=( 0.50, 0.91, 256, 256 ×3 )
また、上記以外の領域(背景領域に相当)QMでは動き判定のしきい値を高く設定する。
(GD1,GD2,IEV1,IEV2 )=( 0.40, 0.80, 256×2, 256×4 )
〈ケース3〉 RB2≦RB≦RB3
この場合には、RMの主領域では、
(GD1,GD2,IEV1,IEV2 )=( 0.50, 0.91, 256, 256 ×3 )
RMの主領域以外では、
(GD1,GD2,IEV1,IEV2 )=( 0.40, 0.80, 256×2, 256×4 )
QMでは、
(GD1,GD2,IEV1,IEV2 )=( 0.20, 0.50, 256×4, 256×8 )
〈ケース4〉 RB3<RB
この場合には、次のいずれかを選択する。
1)準動画モードに移行し、フレームレートを落とす
2)モデルベースモードに移行する
3)ピクチャーフリーズモードにする
(4)過去の符号化属性の利用
(a)MBKレイヤの各符号化属性の特徴
属性メモリ22に格納される各フレームのMBK属性はCIF上のMBK位置に対応して示すと1フレーム当たり22×18の配列となる。
1)MBA(マクロブロックアドレス)
3フレーム目あたりから対象領域に相当するところが有意な符号化ブロックとしてMBAが付与されるようになる。特に、MBAが2以上の値を示すMBK (マクロブロック)は対象領域の輪郭部分に相当することが多い。そこで、図37のフローチャートおよび図38,図39に示すように、1フレーム前のMBAパターンをNOT_FIXED(NFX)パターンに変換することにより(図37中ステップE1,図38(a),(b)参照)、領域情報の平均動きベクトルとテンプレート情報を用いて1フレーム先のMBA配列を推定して表現することができるようになる(ステップE2〜E6,図39参照)。
そして、このようなMBAパターンの推定値を用いて符号化を制御すると共に、テンプレート情報および動きベクトルを符号化して伝送する(ステップE7,E8)。これに対して、復号化器2側においては、テンプレート情報と動きベクトルにより、一意的に1フレーム分のMBA配列が再現できるようになる。
2)MTP(マクロブロックタイプ)
ア)INTER/INTRA混在(通常のフレーム)
超低レートでは実験により、動きを有する対象領域(人物など)の大半がMTP=2,3でラベリングされることがわかっている。そこで、後述する情報発生量に応じた適応制御における判定に基づいて、図40のフローチャートおよび図41に示すように、特に激しい動きの発生がなければ、領域情報の平均動きベクトルとテンプレート情報を用いて1フレーム先のMTP配列を表現することができる(図40中ステップF1〜F3,図41参照)。
そして、その予測したMTP値に基づいて1フレーム分の符号化を進め(ステップF4)、テンプレート情報と領域別の動きベクトルを符号化して伝送する (ステップF5)。一方、復号化器2側においては、テンプレート情報と動きベクトルにより、一意的に1フレーム分のMTP配列を再現することができるようになる。
イ)強制イントラフレーム
強制イントラフレームは、ユーザーデータで宣言してあれば、その後においては、MTP=4とするデータやMBA=1とするデータの記述は不要となる。したがって、これによって、5 ×22×18=1980ビットつまり約2kビットの節約をすることができるようになる。
3)QSC(量子化スケール)
QSCは32kbps以下ではすべて31(量子化ステップ62)に固定し、領域分析から決定される主領域のみ16(量子化ステップ32)とする。したがって、超低レートの内でも特に16kbps以下の人物モードにおいてはQSC情報は伝送しないようにする。したがって、GOBレイヤにおけるQSC情報の記述は不要になり、これによって、情報量としては12×5 =60ビットの削減をすることができる。加えて、MBK単位の量子化スケールの変更情報を伝送することも不要となる。
この場合において、人物モードの領域別量子化については図42(a)にその例を示し、量子化テンプレートは同図(b)に例を示している。また、図43には、量子化テンプレートのモデルベース伝送を行う場合の符号化器1と復号化器2との間のデータのやり取りについてその概要を示しており、図44のフローチャートにおいては、量子化スケールQSCの値の設定に関する流れのルーチンを示している。
4)MVD(差分動きベクトル)
MVDはフレーム内の水平方向の動きベクトル変化であるので、非剛体運動あるいは回転運動において「0」でない値が発生する。人物に対しては顔の表情変化に起因する動きや頭部,上半身のエッジ部分の三次元回転などがそれに相当する。これらは瞬時に発生するため、差分ベクトルの形で予測する場合の予測効率はあまり良くない。そこで、このような差分ベクトルを動きベクトルになおした形でしかも領域単位の平均2D動きベクトルとして予測する。
ここで、MVDの発生位置はMTPで動き補償があると宣言されているMBKに限る。通常、この大半は、MTP=2,3で表される。これにより、2フレームに1回程度はMVD情報を抑制することができるようになる。なお、図45は領域別平均動きベクトルによる符号量の削減のためのルーチンのフローチャートを示しており、図46はその内容の概略をパターンの推移図で示している。
5)CBP(符号化ブロックパターン)
CBPはMBKに含まれる6個のBLK(ブロック)の各々について符号化するか否かをビット情報で示すものである。そこで、このCBPの値をYUVベクトルに変換することにより、領域情報の平均動きベクトルとテンプレート情報を用いて1フレーム先のCBP配列を表現することができる。一方、復号化器2側ではテンプレート情報と動きベクトルにより一意的に1フレーム分のCBP配列が再現できるようになる。なお、図47は領域別動き補償予測のルーチンのフローチャートを示しており、図48はその内容の概略をパターンの推移図で示している。
(b)領域情報を用いたMBK属性の符号量削減
1)2フレームに1回の属性符号化
以上のように、テンプレート情報と領域別の平均動きベクトルを用いた動き補償により、1フレーム分のパターン属性の予測を行うことができ、復号化器2側でも一意的に再現することができるようになる。なお、予測したパターン属性は復号化器2のみならず符号化器1側においてもすべて確実に符号化制御に反映させることができる。
2)上下の交互予測あるいはインタリーブ
2フレームに1回、完全に予測のみのパターン属性を入れる代わりに、図49(a)(あるいは同図(b))に示すようにGOB単位で上部と下部と(あるいは右側と左側と)を交互に予測パターンに置き換えることもできる。GOBライン毎のインタリーブ(同図(c)〜(e)参照)も考えられるが、パターンを表す輪郭に不連続が生ずる恐れがあるので、対象領域が大きい時は採用しないようにする。
(5)量子化制御
量子化制御は原則として量子化ステップの制御により行う。ここで、量子化ステップの設定方法についてはH.261規定には定められておらず、その制約条件としては、2〜62(量子化スケール値が1〜31)の偶数で、且つ5ビットで表現できる範囲であるというものである。したがって、本実施例においては、以下に示すようにして量子化ステップを制御することにより量子化制御をするようになっている。
(a)領域別量子化制御
1)対象領域優先モード
このモードにおいては、抽出した対象領域については、小さい量子化ステップを割り当てる。また、背景領域については量子化ステップを62に固定している。そして、被写体が人物モードである場合には、頭部領域のみ62以下を採用し、他は原則的には62に設定するようになっている(図42(a)参照)。
2)画面中心優先モード
このモードにおいては、画面中心に近いほど量子化ステップを細かく取る。ただし、量子化ステップの制御式を一本化するために、現状のバッファ容量を、現在のMBKまでの距離を用いてステップ計算用に修正するという方法を採用し、このために、次式(7),(8)を用いて計算する。
R_IR=IR_MBK/IRMBK_MEAN …(7)
BUF_R=BUFF_MB
×(5.00+real(IR_MBK)/real(IRMBK_MEAN)) …(8)
ここで、
BUFF_MB:MBK単位で監視したバッファ量
BUFF_R :距離計算に基づく仮想バッファ量
IR_MBK :対象重心から現在符号化中のMBKまでの距離
IRMBK_MEAN:対象重心からすべてのMBKまでの平均距離
この仮想的な修正バッファ量BUFF_MBの値は後述する符号化レートに応じた制御の式に使用する。
(b)バッファ量に応じた制御
通常、上述のような場合には量子化制御を行っているが、強制イントラフレームの送信の場合については、バッファ量による量子化制御は行わないようになっている。なお、強制イントラフレームは、通常以下の場合に伝送することとしている。
1)動画モード開始または再送時の第1ピクチャー
2)準動画モード
3)静止画モード(ピクチャーフリーズ)
4)モデルベースモードにおけるテクスチャーソース画像
量子化ステップについては、後述の符号化レートに応じた制御の式に依存している。
(c)符号化レートに応じた制御
符号化レート(RATE)に応じた量子化ステップ(STEP FPIC )の決定式は次のように設定されている。
1)強制イントラフレームの量子化ステップ
1152kbps<RATE のとき → STEP_FPIC=12.0,
384kbps<RATE<1152kbpsのとき → STEP_FPIC=14.0,
64kbps<RATE< 384kbpsのとき → STEP_FPIC=16.0,
RATE< 64kbpsのとき → STEP_FPIC=32.0
2)通常の量子化ステップ
ISTEP=2×INT(BUFF_MB/(200.0 ×QX64)+2 …(9)
BUFF_MB:バッファ中の現在データ量
QX64:符号化レート=QX64×64.00 [kbps]を満たす値
なお、符号化レートが16kbps以下の場合には、頻繁に量子化スケールの変更を行うことは、逆に必要ビット数の増大につながる。したがって、10kbps以下の場合には量子化ステップを62に固定している。
(d)情報発生量に応じた適応制御
動き量と色変化の度合に基づき、量子化とフレームレートの制御を行うようになっている。
1)動きの激しさの判定
過去のフレームに対する現在フレームの動きの激しさの度合として、次式(10)で定義されるAMという指標の値を計算により求め、この値に基づいて判定した結果で量子化とフレームの制御を行う。
Figure 0004687658
ただし、
Nmb;動きの発生したブロックの数
L(X);ベクトルXのノルム関数.絶対距離,ユークリッド距離など
Vi;動きベクトル
Rd;伝送データレート
THV(Rd);データレートに依存したしきい値定数
式(10)で計算されるAMの値を用いて、新たに尺度AMTを計算する。この場合において、AMTは次のようにして計算される。
ア)AM≦THV(Rd)のとき、AMT=0
イ)AM>THV(Rd)のとき、AMT=AM
ここで、Nmbの対象範囲とそれに対応するTHVは符号化プロセッサの計算能力に応じて以下のように変更する。
a)現在のフレームの第1MBKから現在復号中のMBKまで
b)現在のGOB中の第1MBKから現在復号中のMBKまで
c)現在のGOB中のすべてのMBK
d)現在フレーム中のすべてのMBK
上記a),b)の場合、グローバルな演算が不要なため、計算量も少なく処理遅延もないが、判定の信頼性が低い。一方、c),d)はグローバルな計算を行うため、計算量は多くなるが処理遅延は最大1フレーム時間となる。しかし判定の信頼度は高い。
2)色変化の激しさの判定
過去のフレームに対する現在フレームの色変化の激しさの度合として、次式(11)で定義されるACという指標の値を計算により求め、この値に基づいて判定した結果で量子化とフレームの制御を行う。
Figure 0004687658
ただし、
Ncb:CBPのブロック属性が1になったブロックの数
C(i):i番目のマクロブロックに関してDCT係数のDC成分の変化とCBPに基づいてYUVベクトルから色変化を計算する関数
THC(Rd):データレートに依存したしきい値定数
式(11)で計算されるACの値を用いて、新たに尺度ACTを計算する。この場合において、ACTは次のようにして計算される。
ア)AC≦THC(Rd)のとき、ACT=0
イ)AC>THC(Rd)のとき、ACT=AC
ここで、Ncbの対象範囲とそれに対応するTHCは符号化プロセッサの計算能力に応じて以下のように変更する。
a)現在のフレームの第1MBKから現在復号中のMBKまで
b)現在のGOB中の第1MBKから現在復号中のMBKまで
c)現在のGOB中のすべてのMBK
d)現在フレーム中のすべてのMBK
上記a),b)の場合、グローバルな演算が不要なため、計算量も少なく処理遅延もないが、判定の信頼性が低い。一方、c),d)はグローバルな計算を行うため、計算量は多くなるが処理遅延は最大1フレーム時間となる。しかし判定の信頼度は高い。
3)仮想バッファの計算
イ)動き量に基づく仮想バッファの増分
a)動きのない対象領域のMBK: BUF_M =16×(AMT/aM)
b)動きのある対象領域のMBK: BUF_M =0
c)背景領域のMBK : BUF_M =32×(AMT/aM)
aMは1MBKあたりの平均的な動き量に相当する数であり、例えばaM=16とする。
ロ)色変化量に基づく仮想バッファの増分
a)色変化のない対象領域のMBK: BUF_c =BMBK×(ACT/aC)
b)色変化のある対象領域のMBK: BUF_c =0
c)背景領域のMBK : BUF_c = 2×BMBK×(ACT/aC)
aC :1MBKあたりの平均的な色変化に相当する数,例えばaC=128
BMBK:1MBKあたりの平均符号量の予想値,次式で与えられる
BMBK=QX64×64000 /(Frate×NMBK)
Frate:現在のフレームレート
NMBK :1フレーム中のMBKの個数
(6)有意係数の個数の制御
H.261では量子化変換後のDCT変換係数をブロック単位でジグザグスキャンし、得られる一次元の量子化係数列を非零のレベルとその後に続くゼロランの長さの二項組(イベントと呼ぶ)で表現している。ここでは、高周波成分の係数は超低レートにおいてあまり視覚的に寄与しないとみなすこととし、ブロックあたりのイベント数を制限することにより、それに対応するVLCの個数を減らし、全体としてビット数の削減を図ることができる。
すなわち、ジグザグスキャンによって低周波成分から順に得られるDCT有意係数(非零)が一定個数を超えた場合には、残りのDCT係数をすべて強制的にゼロとみなすように制御するものである。このとき、そのしきい値としての上限個数Ncf(≦64)を符号化レート、領域、動き発生量、バッファ量、符号化モードのそれぞれに応じて切り換えるように制御する。なお、この上限個数に関する情報については、復号化器2側に送る必要がないため、符号化することはない。
上述のDCT有意係数個数の制御については、実際には以下のようにして行う。なお、ここでは、例えば、次の状態を仮定して実施する。
符号化モード:人物モード
符号化レート:8kbps
RB=V_BUFF/BUFF_MAX
V_BUFF=BUF_R+BUF_M+BUF_C
BUFF :現在のバッファ量
BUFF_MAX:バッファの最大容量
(RB1,RB2,RB3,RB4,RB5)=(0.2 ,0.3 ,0.5 ,0.8 ,1.0 )
(Ncf0,Ncf1)=(16,8 )
判定に当たっては、バッファ充填率BFの値によって、次の6つのケースに分けて制御する。なお、RB1〜RB5で示す値は判定のしきい値で、制御内容に対応した値があらかじめ設定されている。
〈ケース1〉 0≦RB<RB1
すべての領域について最大64個の有意係数個数とする
〈ケース2〉 RB1≦RB<RB2
対象領域について最大64個,背景領域では最大Ncf0個の有意係数個数とする
〈ケース3〉 RB2≦RB<RB3
すべての領域について最大Ncf0個の有意係数個数とする
〈ケース4〉 RB3≦RB<RB4
すべての領域について最大Ncf1個の有意係数個数とする
〈ケース5〉 RB4≦RB<RB5
背景は背景メモリを使用し、メモリにない部分はDC成分のみで表現する。対象領域について最大Ncf1個の有意係数個数とする
〈ケース6〉 RB5<RB
次の≪1≫〜≪3≫のいずれかを他の条件などによって選択する
≪1≫準動画モードに移行する
≪2≫モデルベースモードに移行する
≪3≫ピクチャーフリーズする
(7)フレームレートの適応切り換え
(a)フレームレートの変更指示の記述
H.261規格のビットストリームシンタックス(図30参照)においては、PICレイヤのTREF(temporal reference)の値の設定により、復号化器2に対するフレームレート変更の指示を記述できるようになっている。しかし、フレームレート変更については、この実施例においては超低レート化のための従属手段として取り扱っている。以下の、その方法と実施の要因について示す。
(b)フレームレート変更の方法
符号化器1側において動画像をA/D変換した後に、フレーム単位で生の画像データを符号化ループに送るか送らないかを選択することによる間引き操作によりフレームレートは変更される。したがって、この間引き情報が上記のTREFに反映されることになる。
(c)フレームレート変更を駆動する要因
フレームレート変更の駆動要因については、以下のようにまとめることができる。
1)バッファ容量に応じた切り換え
2)伝送レートに応じた切り換え(例:8kbps →5frame/sec など)
動画像モードにおいては伝送レートに応じて初期フレームレートを設定する。例えば符号化レートQX64に対して、以下に示すようなフレームレートに設定するようになっている。
・QX64≧18 →30 frame/sec
・18≧QX64≧10 →30 frame/sec または15 frame/sec
・10>QX64≧6 →15 frame/sec
・ 6>QX64≧1 →15 frame/sec または10 frame/sec
・64>QX64×64≧32 →10〜7frame/sec
・32>QX64×64 →10 frame/sec 以下
3)動き発生量に応じた切り換え
4)モードの変更
[A−5]符号化処理プログラムに従った動作の説明
さて、以上のように、符号化処理に当たって実施される超低レート化の機能について、実際の符号化処理過程においては、各機能を図5ないし図7に示すプログラムのフローチャートにしたがって実施するようになる。以下、全体の流れの概略について説明する。
すなわち、まず、強制モードの設定を行い(ステップA1)、この設定状態の下で、対象領域抽出部26,テンプレートデータベース27,2Dテンプレートマッチング部28,モデルベース予測部29および三次元形状データベース30などにより、動領域の解析,動き領域抽出(ステップA2,A3)を行う。次に、モード制御部33により、状態遷移図による探索と判定を行い、続いて、使用環境モードの設定、被写体モードの設定、状態遷移確率の更新処理、符号化制御モードの決定(ステップA4〜A8)を順次実行する。
この後、今のフレームが強制イントラフレームであるか否かを判定し(ステップA9)、「YES」の場合には符号化制御部21における量子化ステップの決定を行うと共に、直交変換部7,量子化部8,通信路符号化部10などによりH.261規格のINTRA符号化処理を行い(ステップA10,A11)、「NO」の場合には、直接次の仮想バッファ計算(ステップA12)に進み、符号化制御部21により仮想バッファの計算を行う。
次に、現在のフレームが動画モードである場合にはフレームレートを決定し (ステップA13,A14)、モデルベースモードである場合には、領域抽出・認識処理部25にて3Dモデルによる2Dテンプレートの生成を行い(ステップA15,A16)、2Dテンプレートの照合を行って対象領域の抽出処理を行う(ステップA17,A18)。また、背景メモリモードが設定されている場合には背景メモリ32を使用するようになる(ステップA19,A20)。
続いて、属性予測フレームであるか否かの判定を行い(ステップA21)、「NO」の場合には、ステップA22〜A28の一連の処理を実行し、「YES」の場合にはステップA29〜A35の一連の処理を実行する。ステップA22〜A28では、符号化制御部21および対象領域抽出部26により、イントラフレームの判定,動き補償有無の判定,動き量の判定,色変化量の判定,仮想バッファの計算,量子化ステップの決定,最大係数個数の計算が実行される。また、ステップA29〜A35では、符号化制御部21および属性メモリ22などにより、MTP,MBA,QSC,MVD,CBPの各配列の予測を行うと共に、MBK属性の符号化抑制処理,MBK属性配列のモデルベース伝送が行われる。
この後、BLK単位でH.261ベースの動き補償,DCT計算を実行し(ステップA36)、直交変換部7,量子化部9,逆量子化部13,逆変換部14および通信路符号化部10などにより、領域別量子化制御および有意係数個数制御を実施した後、BLKレイヤのビットストリームを生成する(ステップA37,A38,A39)。BLKレイヤの終了後、属性予測フレームである場合にはMBK属性判定制御を実行し(ステップA40〜A42)、この後、属性メモリ22にMBK属性データを格納して記憶させるようになる(ステップA43)。以下、ステップA44〜A54にしたがって、1フレーム分の符号化ビットストリームデータを生成する。
[B]復号化器
次に、復号化器2において受信する符号化ビットストリームの復号化処理の内容について説明する。図4は、復号化処理内容を概念的に示すもので、大きく分類すると、復号化処理は、符号レベル,パターンレベル,画像信号レベルの3段階に実施され、この処理過程で種々のモード制御を行うと共に誤り訂正機能を実施して超低レートの伝送による復号化処理と無線通信レベルでの誤り率に対応した誤り訂正機能を実現する構成である。以下においては、この図4に示す概念的な構成をベースとして各機能に対応した詳細な説明を項目別に行う。
なお、この復号化器2の特徴である自律的誤り訂正の機能を実現するに至る経緯について簡単に説明する。すなわち、通常、有線伝送系では平均ビット誤り率は10の−6〜−8乗程度であるが、これに対して無線系においては10の−2〜−3乗程度と大きい値が想定されている。
一方、MPEGやH.261規格のように可変長符号をベースとしたシンタックス(図30参照)で発生したビットストリームでは、ほんの1ビットの誤りでも最悪の場合には復号誤りが伝播し、それ以降のデータが復号不能となる場合が想定される。しかし、従来の有線系TV会議システムではデマンドリフレッシュ(フリーズと再送要求の組み合わせ)と誤り訂正符号(BHC符号など)の組み合わせにより、実用上で問題のない程度の誤り訂正が実現化されていた。
また、ビデオCDなどの蓄積系においては誤り訂正符号で充分であったが、無線系では誤り率が高い上に電波事情によっては数ビット単位で欠落,反転,挿入などの伝送誤りが発生する可能性があるため、通常の符号理論的なアプローチだけでは完全な誤り訂正が困難となるものであった。そこで、本実施例の復号化器2においては、少なくとも復号化処理が中断せずに、しかもできるだけ原信号に近い信号値を復元できるような自律的な誤り修復手段を講じることにより解決を図っているのである。
以下においては、その自律的な誤りの訂正機能の内容について次の各項目に分けて説明する。[B−1]符号化ビットストリームのグローバルなチェック, [B−2]符号とシンタックスのレベルの誤り訂正,[B−3]パターンレベルの誤り訂正,[B−4]信号レベルの誤り訂正,[B−5]モード情報を用いた誤り訂正の戦略制御,[B−6]認識レベルの誤り訂正,[B−7]人物メモリと3Dモデルベース手法,[B−8]誤り訂正戦略,[B−9]復号化処理プログラムに従った動作の説明の大項目に分け、各大項目中においてさらに小項目に分類して各原理と方法について説明する。
[B−1]符号化ビットストリームのグローバルなチェック
(1)ビット誤りの発生形態
まず、復号化処理におけるビット誤りの訂正を行うにあたって、通信路を経由して受信する画像信号のビット誤りがどのようにして発生するのか、その発生形態について以下に簡単に説明する。
(a)単発的な「0/1」の反転誤り:ある確率でランダムにビット値が反転する誤りの発生形態である
(b)バーストエラー:ある区間のデータがマスクされる誤りの発生形態で、その間の値は次の≪1≫,≪2≫のいずれかである。≪1≫0あるいは1の固定値を連続して出力する,≪2≫全くランダムな値を出力する
(c)ビットの挿入,欠落:これによって時間的な伸縮が発生する
(2)誤り訂正の基本方針
本実施例においては、誤り訂正の基本方針として、誤り発生の形態については特に限定するものではない。しかし、上述の(a)の場合には比較的安定して対処できるが、(b),(c)のような場合には完全な訂正は極めて困難なものとなるため、復号化処理の結果を視覚的にはそれほどおかしくない推定値で修復するが、その後の誤差伝播による誤差の累積が予想されるので、これを抑制する手段を設けている。また、この場合に、最悪時にはピクチャーフリーズと再送要求(ARQ:automatic repeat request)を行使する。
また、復号化器2側での能動的な訂正手段を行使する以前に、復号化処理上で影響力の大きい情報(所要ビット数などのデータ)については、前述したように、符号化器1側において冗長的に付加することで訂正能力の向上が図れるようにしている。
(3)所要ビット数の伝送
プロトコルシンタックス中のユーザーデータエリアを用いて、データ欠落時に画像再生に与える影響が大きいデータについては、前述のように符号化器1側から冗長的に伝送している。本実施例においては、図50に示すように、PICレイヤにPIC単位の所要ビット数を、GOBレイヤにGOB単位の所要ビット数を各々のユーザーデータエリアに16ビット(64kビットまで表現可能)程度で記述しておく。これにより、復号化器2側においてビットの欠落や挿入があったか否かを判定できる。また、この所要ビット数データ自体に誤りがあるか否かについては次のようにして判定する。
(a)次の項[B−2]符号とシンタックスのレベルの誤り訂正で説明するように、PSC(ピクチャースタートコード)とGBSC(GOBスタートコード)の定位をバッファ内のグローバルなヘッダチェックで行っておく。そして、この結果をもとに、PSPAREやGSPAREに記述された符号量をチェックする。
(b)GOBレイヤの符号量記述の和がPICレイヤの符号量に一致していない場合、どれかの記述に誤りがあると判定する。また、一致していれば誤りはないと判定して終了する。
(c)伝送レートとフレームレートから1フレームあたりの平均符号量と1GOBあたりの平均符号量を計算する。強制イントラフレーム以外の場合で、この値からあるしきい値以上外れる符号量を記述誤り箇所の候補とする。
(d)上記(b)の項で抽出した候補に対して、過去の数フレームにわたる符号量から線形予測との比較を行い、その値とのずれが一定範囲内に収まっていない場合は誤りと判定する。
(4)フォワード型データチェック
上記した(a)のように符号化器1側で記述した1フレーム中の所要ビット数のデータを1フレームの復号化処理の開始以前にすべて検出しておくために、復号化器2側の入力バッファ(FIFOバッファ42)に蓄積されたビットストリームデータを数kビットオーダーでグローバルにチェックする。そのためには、次の項[B−2]でも説明するように、PSCとGBSCとの定位が必要になる。そこで、その定位処理について次のようにして行う。
(a)あるバッファ領域に対して、図51に示すように、ファジイマッチング処理により完全にスキャンする。伝送レートが高い場合には、この方法で定位が完了するのに多くのマッチング計算を必要とするが、超低レートにおいては1フレームあたりのデータ量が数kビット以下であるので、このようにグローバルにスキャンする処理を行っても実用上問題がない程度である。
この場合において、ファジイマッチング処理では、検索するコードのビットパターンと符号化ビットストリーム中のビットパターンとのビット一致率で示す類似度S(図51中の式参照)が例えば0.9(90%)以上であれば、ほぼ間違いないと判断するといった基準を設けている。これによって、例えばPSCが20ビットであるから、2ビット分の誤りを許容してマッチングしたことを判定できるようになる。なお、この類似度Sの値は、好ましくは0.9であるが、実用上においては0.8程度まで低い値に設定しても実施可能なものである。
(b)PSCと最初のGBSCを検索した後、平均符号量と1フレーム前の符号量を用いた推定符号量を根拠としておおまかな位置を見当付ける。その後、その位置を中心としたある範囲内でスキャンを行う。そして、次のフレームのPSCまでの間にあるGBSCの数が正しければチェック処理を終了する。また、正しくない場合には、GN(グループナンバー)コードの値をチェックして欠落しているGBSCを割り出し、そのGBSCの1つ前のGBSCからスキャンを行い、これによって検出できれば終了する。
[B−2]符号とシンタックスのレベル誤り訂正
(1)PICとGBSCの定位
ビットストリームをシーケンシャルに復号するのみでは、次の(2)項で述べるようなビット誤りに起因してPICデータおよびGOBデータの範囲を知ることができなくなる恐れがある。そこで、上述したようなファジイマッチング処理により比較的安定して検出し、定位できるPSCおよびGOBヘッダを起点としてパターンレベル(MBK属性)や画像信号レベル(BLK)による誤り訂正に追い込んでいく階層的処理を設けている。そして、その後は、符号と文法とに依存した以下の誤り訂正に連結されるようになっている。
(2)ビット誤りによる文法的復号停止の発生形態
ビット誤りを含むビットストリームをシーケンシャルに復号化処理すると、文法エラーによりパーザ43は復号化処理を停止する。しかし、そのときの停止位置とビット誤りの発生位置とが一致するとは限らず、場合によってはビット誤り位置が停止位置よりも数十ビット手前まで遡っていることもある。そこで、以下においては、どのような誤りの発生形態が存在するかを説明する。
(a)ビット誤り位置で即座に停止する場合
固定長ヘッダにビット誤りが混入し、マッチング不能になる場合には、シンタックス上で他への分岐条件がない限り、即座に復号停止となる。
(b)ビット誤り位置からしばらく復号を続けた後に停止する場合
1)可変長符号(VLC)においてビット誤りが生じた場合
ビットストリームとは、図52に示すように、異なる2進木構造を持つ符号木の結合で得られるグラフにおいて各節点間を論理条件や数値条件に基づいて遷移することによって得られる出力シンボルの時系列である。したがって、VLCの内の1ビットでも反転すると符号化器1側で発生した事象(符号化属性や画像信号の値に対応)の時系列が復号化器2側において再生できなくなって全く別の事象列を復号化結果として出力する結果に至る恐れがある。
しかし、このような誤りについては、純粋に符号のみを判断する文法的制約だけでは検出できない。つまり、後述する信号レベルあるいはパターンレベルにおける誤り検出条件あるいは画像データ形式に基づく数値条件を介した文法的制約でのみ検出されるものである。換言すれば、このような誤り検出プロセスにかかるまで誤ったビットストリーム復号を継続してしまうため、復号停止位置はビット誤り位置よりも後ろになるということである。
また、このような誤りが存在していても必ずしも復号停止に至るとは限らず、例えば、ビット反転を受けても同一の符号長の他の符号語に置き換えられた場合には、状態出力として異なる値を出力するだけであり、その値がその後の条件分岐に悪影響を与えなければ、それ以後のVLC復号化処理における同期ずれは発生しない。それゆえに、この場合、例えばある画素ブロックの色やテクスチャーデータのみが変更されて再生される可能性があっても、復号停止には至らないのである。
2)固定長符号においてビット誤りが生じた場合
この場合は、上記した符号長が不変のビット反転の場合と同様であり、復号出力の数値または属性が符号化時と異なるが、その後の条件分岐に悪影響を与えなければ復号停止には至らない。
(3)文法的復号誤りの検出
次に、H.261のプロトコルシンタックス(図30参照)に基づき、ビット誤りが発生する位置を次のように分類して説明する。
(a)常に現れる固定長ヘッダ
1)PSC(picture start code;20ビット)
ファジイマッチング処理を行う限り、2ビット程度のビット誤りがPSC中に発生してもシンタックスやそれまでの復号化結果に依存せずにPSCを検出できる。したがって、PSCの検出と定位は他の位置のビット誤りを検出するために必要な初期プロセスとなっている。
2)GBSC(group of blocks start code;16ビット)
PSCと同様に、ファジイマッチング処理により安定して検出できるが、PSCの定位が行われていないと定位を誤る可能性もある。
(b)常に現れる固定長データ
1)TR(temporal reference;5ビット)
PSCの定位が行われていれば、続く5ビットのデータであるので、その値をチェックすることは容易である。次のように復号化器2側のモード設定状態に応じて誤りの判定が異なる。
ア)通常の動画再生モード(固定フレームレート)であれば、伝送レートに応じたフレームレートに相当する値だけ前回のTRよりも増えているはずである。32kbps以下の超低レート動画モードならば、3〜5程度の増分になるため、それ以外は誤りと判定できる。
イ)準動画モードならば、10〜31程度の増分になるため、それを外れると誤りである。
2)PEI(picture extra insertion information ;1ビット)
データが1であれば次に続くユーザーデータPSPARE(8ビット)が存在する。データが0であればGBSCが続く。
3)GN(group number;4ビット)
GBSCの定位プロセスで誤りを判定する。以下の条件≪1≫,≪2≫を満たさない場合には誤りである。≪1≫CIF構造では1≦GN≦12,≪2≫1つ前のGNよりも1つ数値が増えている場合
4)GQUANT(GOB layer quantizer infomation;5ビット)
超低レート伝送での量子化スケール(QSC)は、対象領域優先モードにおいてはすべて31(量子化ステップ62)に固定し、領域分析から決定される主領域のみ16(量子化ステップ32)と設定する。したがって、人物モードではQSC情報は伝送しないようになっている。これによりGQUANT(GOBレイヤのQSC情報)とMQUANT(MBK単位の量子化スケール変更情報)は不要となるため、このデータに関する誤りは生じない。他のモードではMQUANTを用いる場合は後述のパターンレベルの誤り訂正におけるCBPと同様にして値を推測し、誤りを判定する。
5)GEI(GOB extra insertion information ;1ビット)
ア)データが「1」であれば次にユーザーデータGSPARE(8ビット)が続く。したがってGBSCの定位とGSPAREの定義および数値から正しくない(同期ずれか誤り)と判定する。
イ)データが「0」であればMBAが続く。したがって、誤りの判定はMBKレイヤまで持ち越される。
(c)条件付きで現れる固定長データ/ヘッダ
1)PSPARE(picture layer spare infomation;8ビット)
ピクチャーレイヤ単位でのユーザーデータを記述可能なエリアで、本実施例においては、モード情報(8ビット),所要ビット数の情報(8ビット×2)に用いている。これによって、所要ビット量の誤りを判定することができる。
2)GSPARE(GOB layer spare infomation;8ビット)
GOBレイヤ単位でのユーザーデータを記述可能なエリアで、本実施例においては、GOB内での所要ビット数を記述している。なお、GOBレイヤでの所要ビット数は8ビット以内に収まる確率が高いので、所要ビット数のデータのビットパターンを上位(MSB)側と下位(LSB)側とで順序を入れ替えた反転パターンとして記述するようになっている。したがって、GOBレイヤの所要ビット数が8ビットを超える場合にのみ、次のGSPAREが必要になる。
3)MBSTUFF(macroblock address stuffing ;11ビット)
超低レート伝送では用いない。64kbps以上のH.261規格においては用いられる可能性はあるが、図53にも示すように、1ビットの誤り発生でも、文法的に異なる解釈結果となる場合があるので、ファジイマッチング処理を行うことは危険である。したがって、本実施例においてはMBSTUFFコードは使用していない。
4)MQUANT(MBK layer quantizer infomation;5ビット)
GQUANTで説明したように、本実施例における超低レートの伝送の人物モードにおいては、MQUANTを用いない。他のモードでMQUANTを用いる場合は後述のパターンレベルの誤り訂正におけるCBPと同様にして値を推測し、誤りを判定する。
5)INTRA−DC(8ビット)
文法的にはMTPがINTRAを示す時のみ最初のDCT係数データとして現れる。この判定については、後述する信号レベルの誤り訂正プロセスに委ねられる。
6)ESC(6)+RUN(6)+LEVEL(8ビット)
ESCに誤りが入ると、その後のBLKレイヤの復号化処理において別の解釈が生じるため、文法的に誤り位置を特定して訂正することはかなり困難である。そこで次の方策を講じている。
ア)DCT係数の復号化処理において常にESCとの類似度Sesc を計算し、Sesc =5/6(6ビット中5ビットがESCと一致)の時にその位置Pesc をすべて記憶し、その後の復号化処理を進める。
イ)EOBを見付ける以前に以下の条件≪1≫,≪2≫を満たさない場合には、誤りと判定し、上述のPesc に戻ってそれをESCと解釈し直して再度復号化処理を行う。≪1≫有意係数の個数≦Ncoefの制約,≪2≫BLK内の量子化DCT係数の累積個数≦64
ウ)画像信号レベルの誤り訂正プロセス(BLKレイヤ)で誤りを検出すれば、同じくPesc に戻ってそれをESCと解釈し直して再度復号化処理を行う。
エ)パターンレベルの誤り訂正プロセス(MBKレイヤ)で誤りを検出すれば、Pesc に戻ってESCと解釈し直して再度復号化処理を行う。
7)EOB(end of block;2ビット)
語長が短いため、類似度で候補を判定することは困難である。しかし、出現回数は多いので、ランダムな誤りがEOB内に発生する確率は小さくない。そこで、以下の条件≪1≫〜≪3≫を満たさない場合にEOBに誤りが生じたと判定する。
≪1≫有意係数の個数≦Ncoefの制約
≪2≫BLK内の量子化DCT係数の累積個数≦64
≪3≫(MBK内のBLK個数)≦(CBPで記述されるBLK個数)
この場合に、訂正方法は次のア),イ)の2通りがあるが、通常は、計算の簡略化のためにイ)の方法を選択する。
ア)1つ前のEOBの直後からビットを順に反転してゆき、EOBパターン「10」を検出する。そして、検出したEOBパターンをEOBと見なして復号化処理を行い、上記した3つの条件≪1≫,≪2≫,≪3≫をすべて満たせばこれが正しいEOBと判定する。
イ)GOB中の残りのMBKのすべてについてパターンレベルの誤り訂正を適用する。前述の3つの条件≪1≫,≪2≫,≪3≫で検出できない場合は信号レベルかパターンレベルの誤り訂正に委ねる。
(d)常に現れる可変長符号(VLC)
1)MBA(macroblock address;1〜11ビット)
MBAは以下の条件≪1≫,≪2≫で出現するため、この条件でVLC表の照合を行い、あとはパターンレベルの誤り訂正に委ねる。
≪1≫復号完了したMBK個数≦32のとき,EOBの直後
≪2≫GEI=0の直後
2)MTP(macroblock type ;1〜10ビット)
MTPは『MBAの直後』という条件で出現するため、この条件でVLC表の照合を行い、あとはパターンレベルの誤り訂正に委ねる。
(e)条件付きで現れる可変長符号(VLC)
1)MVD(motion vector data;1〜11ビット)
MVDは以下の条件≪1≫,≪2≫で出現するため、この条件でVLC表の照合を行い、あとはパターンレベルの誤り訂正に委ねる。
≪1≫MTP=2,3,6,8,9,10のとき,MTPの直後
≪2≫MVDはx成分,y成分の順番で2個のVLCが連続して現れる
2)CBP(coded block pattern ;3〜9ビット)
CBPは以下の条件で出現するため、この条件でVLC表の照合を行い、あとはパターンレベルの誤り訂正に委ねる。
3)TCOEF(INTER)(transform coefficients;2〜17)
BLKレイヤのINTERブロックに対するDCT係数のVLCは以下の条件≪1≫,≪2≫で出現する。この誤り訂正は信号レベルの誤り訂正に委ねる。
≪1≫MTPが4か7のとき(INTRAブロック),BLKレイヤ内で2番目の係数以降
≪2≫MTPが4,7以外のとき,BLKレイヤナイで次の符号がESCでない場合
[B−3]パターンレベルの誤り訂正
階層的な符号化属性におけるフレーム間の連続性を用いる。
(1)過去のMBK復号属性の利用
すでに復号化した過去のMBKレイヤについては、属性メモリ39c内に、MBA,MTP,QSC,MVD,CBPの5つの属性データがフレーム単位の配列データとして記憶されている。これらの属性データはフレーム間でかなりの連続性を有しているので、シーンチェンジや強制イントラフレーム以外では、それほど激しく変化することはないという性質を持つ。特に、人物領域など対象領域の存続に関して時間的連続性がある場合には、このことが良く成り立つ(図54,図55参照)。
ブロック画素の単位で信号レベルのエラーが検出されたときに、そのエラーの原因は、DCT係数に対するVLCの伝送エラーでない場合には、MBK属性のエラーである可能性が高くなる。このとき、MTP,QSC,CBPを1フレーム前の属性のMBK単位の動き補償位置に隣接したk個のMBKからなる領域の範囲内で比較して著しく異なる場合には、その属性に過去の属性値を当てはめることで誤り訂正を行う。この場合における比較の評価関数については、以下に説明する通りである。
(a)MBAの誤り検出と訂正
まず、MBAは対象領域の左側の輪郭部では時間的連続性が出るが、対象領域内では変化が多くなることが予想される。しかし、逆に、前述したようなFIXED/NOT_FIXEDのパターンについては、領域の動きからほぼ予測がつくようになる。そこで、図56のフローチャートおよび図57,図58に示すように、以下においては、領域の平均動きベクトルを利用して領域をシフトさせることにより、MBAパターンに一意的に対応するNOT_FIXED(以後、NFXと称する)パターンの予測計算を行い、GOB単位で現在の復号結果によるNFXパターンと予測結果に基づくNFXパターンとの間の類似度SNFX を次式(12),(13)にしたがって計算する。
Figure 0004687658
ここで、
L ;現在復号中のMBA値aのMBKアドレス(既に復号が完了した1つ前のMBA値のMBKアドレスL0にaを加えた値)
Ls; NFXパターン比較の開始位置
s(A,B) ; A=B のとき「1」,それ以外は「0」
NFXM(k) ;GOBの1番目のMBKのMBA値が「1」以上ならば「1」,「0」なら「0」
NFXM_(k) ;1フレーム前の NFXパターンから予測した NFXパターン
次に、上述の計算結果について信頼度RNFX を式(14),(15)にしたがって計算する。
Figure 0004687658
上述の結果に基づいて、例えば次のような4つの条件によりMBAの検出と誤り訂正を行う。
1)RNFX0 < 0.5
この場合には、NFX予測の信頼度が低いと判断して保留する。すなわち、とりあえずは現状のNFXパターンを正しいと判定し、次の属性の判定に進む。
2)RNFX0 ≧ 0.5 且つ SNFX < TNFX1
現在のNFXパターンは復号誤りであると判定する。予測パターンからNFX値をコピーしてMBAパターンに変換する。(TNFX1は、例えば0.3程度の値とする)
3)RNFX0 ≧ 0.5 且つ TNFX1 ≦ SNFX < TNFX2
現在のMBA値が復号誤りであることは判定できないため保留する。すなわち、とりあえずNFX値を正しいと判定し、次の属性の判定に進む。(TNFX2は、例えば0.7程度の値とする)
4)RNFX0 ≧ 0.5 且つ TNFX2 ≦ SNFX
現在のNFX値は正しい復号結果であると判定する。
(b)MTPの誤り検出と訂正
10 frame/sec では、フレーム間の動きベクトルはビデオレートにおける3フレームベクトルなので、最大の大きさはプラス45画素程度もある。これは最大MBK3個の変位に相当する。そこで、1フレーム前のMTPパターンに対して対象領域の動きベクトルをMBK単位に換算した動き量(mx,my)で動き補償し、そのMBK位置を基準として既に復号したMBKで構成される比較領域を図59,図60のように設定し、動き補償によって対応する領域と各MTP値を比較する。ここで、次式(16)に基づいて類似度SMTP を計算し、さらに、それまでのMTP予測の信頼度を評価するために式(17),(18)を用いて信頼度評価値RMTP0を計算する。
Figure 0004687658
ここで、
smtp(A,B);2つのMTPの間の類似度を計算する関数で、MTPの含む6種類の各情報の一致に対して、以下のスコア値を設定して合計する
INTRA 属性の一致 → 3点
MQUANT属性の一致 → 1点
M V D 属性の一致 → 2点
C B P 属性の一致 → 2点
TCOEFF属性の一致 → 1点
F I L 属性の一致 → 1点
LMTP ;スコア設定の合計値(ここでは「10」)
K ;比較領域に含まれるMBKの個数,1番目は現在復号中のMBK
K0 ;MTP予測の信頼度の計算領域に含まれるMBKの個数でK以上の値
MTP(i);GOBの1番目のMBKのMTP値,FIXEDでは0
MTP _(i) ;1フレーム前のMTPパターンから予測したMTPパターン,通常は動き補償による比較領域のMTPパターンをそのまま予測パターンとする
上述の設定により、例えばMTP=1とMTP=2との間の類似度は、MVDとFIL以外ではすべて一致しているので、
3+1+0+2+1+0=7(点)
となる。したがって、その場合には、
smtp(1,2)=smtp(2,1)=7
となる。同様にして、他の組み合わせについても計算することができる。
次に、上述の結果に基づいて、例えば次のような4つの条件によりMTPの検出と誤り訂正を行う。
1)RMTP0 < 0.5
MTP予測の信頼度が低いと判断して保留する。すなわち、とりあえずは現状のMTP値を正しいと判定し、次の属性の判定に進む。
2)RMTP0 ≧ 0.5 且つ SMTP < TMTP1
≪1≫現在のMTPパターンMTP(L)は復号誤りであると判定する。予測パターンからMTP値をコピーする。(TNFX1は、例えば0.3程度の値とする)
≪2≫これに対して、類似度が8以上(相違度が2以下)のMTPをすべて参照し、該当するVLCを参照する。
≪3≫参照したいVLCとビットストリーム列をファジイマッチング処理により比較して最も照合度の高いVLCを選択する。
≪4≫その照合度がある基準(0.8以上)を満たせば、そのVLCとMTPを採用する。満たさない場合には最初の推定値のMTPを採用する。
3)RMTP0 ≧ 0.5 且つ TMTP1 ≦ SMTP < TMTP2
現在のMTP値が復号誤りであるとは判定できないので保留する。すなわち、とりあえず現状のMTP値を正しいと判定して次の属性の判定に進む。(TMBA2は、例えば0.7程度の値とする)
4)RMTP0 ≧ 0.5 且つ TMTP2 ≦ SMTP
現在のMTP値は正しい復号結果であると判定する。
(c)QSCの誤り検出と訂正
QSCは32kbps以下の伝送レートではすべて31(量子化ステップ62)に固定し、対象領域優先モードにおいて領域分析から決定される主領域のみ16(量子化ステップ32)とする。したがって、人物モードではQSC情報は伝送しない。これにより、GOBレイヤのQSC情報とMBK単位の量子化スケール変更情報が不要となるため、QSCの誤りは生じないようになる。
(d)MVDの誤り検出と訂正
MVDはフレーム内において隣接するMBK間の差分動きベクトルで表現されているので、このままのデータ形式では誤りを判定することは困難である。そこで、MVDデータを本来の動きベクトルMVの形に戻してから評価する手法を取る。なお、MVD属性データについては、他のMBK属性の値に比べて時間的にも空間的にも連続な統計的性質を持つ信号値とみなせるので、過去のフレームからの線形予測と周囲MBKからの線形補間が可能となる。そこで、まず、領域情報がない場合について、動きベクトルMVを次の式(19)にしたがって計算する。
Figure 0004687658
上式において、
vx(L,M);Mフレーム時刻におけるL番目のMBKに関する水平方向の動きベクトル
vy(L,M);Mフレーム時刻におけるL番目のMBKに関する垂直方向の動きベクトル
A ;xまたはyを表す添字
vA _(L,M) ;Mフレーム時刻におけるL番目のMBKに関する動きベクトルの推定値
a(i) ;フレーム内の線形補間係数
b(m) ;フレーム間の線形予測係数
u ;フレーム内補間とフレーム間予測の比率(0≦u≦1)
K ;復号中のMBKを含む周囲のMBK領域のMBK個数
p ;線形予測を行うための過去のフレーム数
そして、周囲MBKの設定の仕方は、前述のMTPの比較領域の場合に準ずる。このようにして得た推定ベクトルの値について次式(20)の誤差評価の式を用いて評価する。
Figure 0004687658
式(20)により得られた誤差評価の値Eにより次のように判定する。
1)E≧20
≪1≫復号したMVDは誤りであると判定しvAをvA_で置き換える。
≪2≫これに相当するMVDを計算し、それを中心値として±5の範囲で該当するVLCを参照する。
≪3≫参照したVLCとビットストリーム列をファジイマッチング処理により比較し、最も照合度の高いVLCを選択する。
≪4≫その照合度がある基準(0.8以上)を満たせば、そのVLCとMVDを採用する。満たさない場合は、最初の中心値のMVDを採用する。
2)20>E≧10
保留する。とりあえず復号したMVDを保持する。
3)10>E≧0
復号したMVDは正しいと判定する。
次に、領域情報がある場合には、動きベクトルの計算に当たっては、式(19)に代えて、次に示す式(21)に基づいて行い、評価については上述と同様にして行う。
Figure 0004687658
ここで、
vRA(L,M-m) ;mフレーム前の時刻における領域の平均動きベクトル
(e)CBPの誤り検出と訂正
1)領域情報がない場合
動き補償予測符号化処理においてCBPデータはテクスチャーや色の時間的変化の度合いを示す数値と考えることができる。しかし、このCBPデータは、MVDのような線形補間計算が行えるような代数構造とはなっていないので、図61〜64に示すように、CBP値をいったんYUVベクトルに変換してからMVDと同様の評価計算を実施する。そこで、まずYUVベクトルへの変換に際しては、次式(22)にしたがって計算する。
Figure 0004687658
ここで、
c(L,M) ;Mフレーム時刻におけるL番目のMBKに関するYUVベクトル
c _(L,M) ;Mフレーム時刻におけるL番目のMBKに関するYUVベクトルの推定値
ac(i) ;フレーム内の線形補間係数
bc(m) ;フレーム間の線形予測係数
uc;フレーム内補間とフレーム間予測の比率(0≦uc≦1)
Kc;復号中のMBKを含む周囲のMBK領域のMBK個数
pc;線形予測を行うための過去のフレーム数
LN(i,m) ;Mフレーム時刻における比較領域中のi番目のMBKがGOB中のアドレスで何番目であるかを示す番号対応付けの関数,比較領域を設定すれば一意的に決めることができる
そして、周囲MBKの設定の仕方は、前述のMTPの比較領域の場合に準ずる。このようにして得た推定ベクトルの値について次式(23)の誤差評価の式を用いて評価する。
Figure 0004687658
d1(A,B) ;ベクトルAとベクトルBとの間の絶対値距離
式(23)により得られた誤差評価の値Eにより次のように判定する。なお、YUVベクトルの定義から、
12≧Ec≧0
であるので、以下のような判定を行う。
ア)Ec≧7
≪1≫復号したCBPは誤りであると判定し、c_をcとして置き換える。
≪2≫その置き換えたcを中心値として±1の範囲内でCBPを計算(1つのcに対して複数のCBPが存在し得る)し、該当するVLCを参照する。
≪3≫参照したVLCとビットストリーム列をファジイマッチング処理により比較し、最も照合度の高いVLCを選択する。
≪4≫その照合度がある基準(0.8以上)を満たせば、そのVLCとCBPを採用する。満たさない場合には最初の中心値のCBPを採用する。
イ)7>Ec≧4
保留する。とりあえず、復号したCBPを保持する。
ウ)4>Ec≧0
復号したCBPは正しいと判定する。
2)領域情報がある場合
次に、領域情報がある場合には、YUVベクトルの計算に当たっては、式(22)に代えて、次に示す式(24)に基づいて行い、評価については上述と同様にして行う。
Figure 0004687658
cR(L,M-m) ;mフレーム前の時刻における動き補償領域のYUVベクトル
ただし、ucの値は、領域情報がない場合の値よりも若干小さい値に設定することが望ましい。また、pcは逆に少し大きく設定する。
(f)保留事項の処理
さて、上述のようにして5つの属性の検出と誤りの評価を行った結果、例えば、保留とする属性が3個以上発生した場合には、その保留が現れた属性に限り、誤り訂正した属性値に入れ替え、VLCを参照した上で、再度評価する。
[B−4]信号レベルの誤り訂正
これまで説明したパターンレベルの誤り訂正については、MBK単位の符号化属性に依存している誤り訂正であって、画像信号の値そのものを評価する手段ではない。そして、画像信号はBLKレイヤのビットストリームデータが符号レベルで復号化され、量子化DCT係数ブロックとして復元された時点で初めて可能となるものである。そこで、このように復元された画像信号のレベルにおける誤り訂正について次に説明する。
(1)ブロック画素の性質に基づく誤り訂正
(a)誤りの検出
通常、BLKレイヤにおける復号誤りは、文法的制約とVLCの木符号としての性質によって、量子化DCT係数ブロックのDC成分の復号誤りに通じる。このことにより、仮にMBKが文法的に復号化が完了したとしてもその色(UVブロックのDC成分が支配的)やテクスチャーは周囲とは非常に異なるものになる可能性が高くなる(図66参照)。
一方、正常な画像信号として図65(b)に示すように、画素ブロックの格子(同図(a)も参照)に乗ったタイル状の画素においてのみその周囲ブロックと異なる色が偶然に発生するという確率は非常に少ないと考えられる。この考え方は、対象とするMBKのMTPがINTERを示すときには、尚更信頼度が高くなることが言える。なぜなら、画素値の変化が大きいMBKである場合には通常INTRAと判断される可能性が高いからである。そこで、ここでは、色信号に着目して以下のようにして誤りを検出する。
1)最もストレートな方法として、逆量子化、逆DCTを行って画像信号ブロックに復元した後に色を評価する。この評価では、周囲MBKからの線形補間と過去フレームのMBKから動き補償線形予測によって推測したMBKと、現時点でビットストリームから復元したMBKとの間の比較に基づく。具体的には、次式(25)〜(29)にしたがって、誤差評価計算を行う。
Figure 0004687658
ただし、各記号は以下の通りである。
d1(A,B) ;ベクトルAとベクトルBとの間の絶対値距離
Cb;ビットストリームに基づく復元MBKの色ベクトル
Ce;推定したMBKの色ベクトル
Y$;Yブロックの平均画素値
U$;Uブロックの平均画素値
V$;Vブロックの平均画素値
YBLK$(n,k);MBK中のn番目のYブロックのk番目の画素値( n=1〜4, k=1〜64)
UBLK$(k);MBK中のUブロックのk番目の画素値
VBLK$(k);MBK中のVブロックのk番目の画素値
以上の計算の結果得られる誤差評価値Ecに対して、
765(=255×3)≧Ec≧0
という条件があるので、この範囲内で、例えば、Ec>400である場合に誤りであると判定する。なお、MBKの予測推定計算については、次の2)と同様にして行う。
2)量子化DC係数ブロックのDC成分のみを用いてYUVベクトルを構成し、周囲MBKからの線形予測と過去のフレームからの動き補償予測によって推定したYUVベクトルとの誤差を次式(30)にしたがって計算して評価する。
Figure 0004687658
ただし、
c(L,M) ;Mフレーム時刻におけるL番目のMBKに関するYUVベクトル
c(L,M)=(Y,U,V) であり、Yは4つのBLKのDC成分の平均、
U,VはそれぞれUBLK,VBLKのDC成分
cR(L,M-m) ;領域情報がある場合はmフレーム前の時刻における動き補償領域のYUVベクトルであり、領域情報がない場合はc(L,M)と同等
c _(L,M) ;Mフレーム時刻におけるL番目のMBKに関するYUVベクトルの推定値
ac(i) ;フレーム内の線形補間係数
bc(m) ;フレーム間の線形予測係数
uc;フレーム内補間とフレーム間予測の比率(0≦uc≦1)
Kc;復号中のMBKを含む周囲のMBK領域のMBK個数
pc;線形予測を行うための過去のフレーム数
そして、周囲MBKの設定の仕方は、次項のMBK属性の比較領域の取り方に準ずる。このようにして得た推定ベクトルの値について次式(31)の誤差評価の式を用いて評価する。なお、誤りの判定条件は、1)の場合と同じである。
Figure 0004687658
(b)誤りの訂正
復号したBLKが誤りであると判定した場合には、推定値で置き換えるようにする。一方、次のBLKの復号を行うには、符号レベルでビットストリーム復号再開位置を決める必要がある。このためには符号レベルの誤り訂正におけるEOB検出プロセスを起動する。このとき、もし、再生した(訂正も含む)MBKの数がGOB中で22以上であるならば(GOBをなす3列のブロックのうちの2列分の個数が22個である)、残りのMBKについてはすべて領域情報を利用した動き補償予測に置き換えるようになっている。
(2)周期的強制イントラによる誤り伝播の防止
前項で示したような誤り訂正を行った後でも、そのままフレーム加算による復号化処理を継続すると、誤差伝播の累積により正常な画像再生が困難になる。そこで、次のような誤差伝播防止策を考慮している。
(a)領域情報をもとにして、周期的に強制イントラMBKを挿入することにより、重要部分の画像破綻を防止することができる。特に、図67にも示すように、顔部分では口と耳に強制イントラブロックを集中的に割り当てて、周期的に巡回することによりデータ量の増大を抑制しながら行う。
(b)復号化器2側で誤り訂正を行った後に、領域ベースの強制イントラを今後あるい時間範囲で分散して送るように符号化器1側に要求する。この場合、フレーム単位のARQ(要求信号)に比べて情報量の著しい増加は避けられるため、ピクチャーフリーズを行う必要はない。
[B−5]モード情報を用いた誤り訂正の戦略制御
符号化器1において設定するモード情報は、前述したように、使用環境,被写体,符号化制御の3つのカテゴリーに渡っているが、そのモード情報を用いることにより、復号化器2側において誤り訂正のルートを特定することができるようになる。
(1)使用環境
(a)自動車内固定
背景メモリ66と人物モードの設定により、認識,パターン,信号のすべてのレベルの誤り訂正機能を起動することができる。
(b)自動車内可動
人物モードと風景モードとの両方の可能性があるが、人物モードの場合には、上述の自動車内固定の場合と同様である。ただし、背景メモリ66のデータは常に更新記憶する必要がある。
(c)屋内固定
背景メモリ66を使用可能である。被写体が人物でない場合も目的によってはテンプレートまたは3Dモデルを特別に設定できるため、人物モードと同様の領域情報を利用した誤り訂正を起動できる。
(d)屋内可動
人物モードのみ誤り訂正機能の起動が可能となる。
(2)被写体
上記した使用環境で説明したように、人物モードと風景モードとに分けられ、風景モードは形状や色彩が特定困難であるため、背景メモリ66に頼る以外に誤り訂正機能の起動は難しい。人物モードでは、テンプレート,3Dモデル,人物画像テクスチャー,目鼻口耳・髪・肌色などの特徴量を用いることができるため、全レベルの訂正機能を起動させることができる。
(3)符号化制御モード
通常の実時間動画像再生要求とは異なるモード、例えば静止画モードやビデオメールモードなどでは実時間で誤り訂正をする必要がないため、ARQを起動すれば十分である。
(4)通信路における誤り発生状態の判定
画像がその他の誤り訂正手段によっても訂正できずに、復号が停止してしまった場合に、強制的に復号化器2側から符号化器1側に次のいずれかの要求信号を送信する。なお、このような要求信号の送信は、通信路の状況におうじて、自動的にレベルの選択設定をすることもできるし、あるいは、ユーザーの好みによって設定することも可能で、そのレベル設定はヒューマンインターフェイス34を介して行うようになっている。
(a)強制イントラピクチャーから始まる動画伝送の再送要求
これは、既存方式で用いられている再送(ARQ)と同じである。しかし、超低レート伝送では、遅延時間の著しい増大と頻繁なピクチャーフリーズにつながるため、特に32kbps以下の実時間伝送ではあまり用いない。一方、ビデオメールモードのように非実時間伝送の場合はこの要求を適用する。
(b)強制イントラピクチャーから始まる動画伝送の新規再開
復号化処理が停止した時点で残りのMBKについて過去のフレームから予測画像を生成し、ピクチャーフリーズする。正常に強制イントラピクチャーが送られてくる(PSCヘッダで開始位置を確認)までは、入力バッファのデータを廃棄し続ける。
(c)強制イントラピクチャーのみによる準動画の送出要求。
(d)モデルベース符号化における動きパラメータの送出要求。
[B−6]認識レベルの誤り訂正
(1)対象領域の特定
符号化器1側にて設定された対象領域検出結果およびモード制御情報については、ユーザーデータエリア(PSPARE,GSPARE)に記述した状態で画像信号として伝送されるので、これを復号化器2側で復号化処理を行って検出する。そして、これらの情報に基づいてテンプレート(2D情報)の選択と変形を行い、符号化器1側で抽出した領域情報を再現する(図68参照)。
(a)基本テンプレートの選択
符号化器1と復号化器2との間では、あらかじめ同一の2値テンプレートのセットが設けられているので、テンプレートを指定する識別番号を検出することにより双方で共通のテンプレートを用いることができる。
(b)基本テンプレートの変形
1)中心あわせ
テンプレート中心の水平および垂直のシフト量を画素単位で表現した2Dベクトル(mx,my)で中心合わせを行う。
2)スケーリング
上記のようにして得られた中心を原点として基本テンプレートを比率rで拡大縮小する。
3)修正
各々の基本テンプレートに固有の形状パラメータにより幅や高さ、姿勢角などの修正を部分的に加える。
(c)部位の特定
モード情報とテンプレート選択情報により対象物のカテゴリーがわかっている場合には、さらにテンプレート中のどの部分が対象物のどういう部分に対応するかを知ることができる。例えば、人物モードで人物上半身のテンプレートを選択した場合、符号化器1の説明で用いた図16に示しているように、人物頭部,顔,口,目,鼻などに相当する細かい画像領域を特定することができる。
(2)誤り判定の起動
本実施例においては、誤りの発生原因を符号レベルのビット誤りに特定して画像の修正プロセスを記述している。したがって、誤り検出そのものは認識レベルでは行わず、信号レベルか符号レベル,またはパターンレベルで行う。認識レベルの誤り訂正は、特にそれらで誤りを評価する場合の、領域情報とそれに基づく対象物体の画像に反映される種々の性質を提供することにある。したがって、認識レベルにおける誤り訂正プロセスの起動は、他のレベルのモジュールによって行われることになる。
(3)領域情報を用いた誤り訂正
(a)領域情報の利用による2D動き補償
現在復号中のMBKがどの領域に含まれるかがわかれば、パターンレベルの誤り訂正の説明で述べたように、既に復号が完了した領域内のMBKの動きベクトルを用いて動き補償を行うことができる。例えば、復号化処理中のMBKが頭部の顔領域に含まれると判定されれば、頭部の平均動きベクトルを用いて動き補償予測MBKを作ることができる。
(b)部位の情報を利用した修正
領域がわかれば、動きのみならず色や輝度,テクスチャーの誤りを修正することもできる。例えば、前フレームまでに顔の領域情報から肌色の解析をしておけば、信号レベルやパターンレベルの項で述べたような線形推定値と誤差評価により、誤りの判定と修正を行うことができるようになる。
(c)領域情報の表現
領域情報の表現は、符号化器1側の説明で述べたと同様のテンプレートの表現方法に準ずる。例えば、人物モードでは被写体は全身像を基準として上半身,頭部,顔という4階層でテンプレートを作成する。また、顔は、口,目,鼻,頬,額を主要部位とし、正面顔における相対位置を設定する。上述の肌色解析は口と目を除く部分をもとにして平均色を計算することにより算出する。
(d)人物領域中の相対位置の計算
変形を施す前の基本テンプレートは、前述したように、図25のように記述されている。これにより、基本テンプレート中の二次元座標としてすべての部位の位置が表現できる。
(4)背景メモリによる誤り訂正
領域情報が明確になれば、背景領域を特定することができる。そこで、背景領域の画像情報を復号化器2の背景メモリ66に記憶させる。これにより、背景領域の復号化処理中にビット誤りが発生したときも上記と同様の誤り訂正を行うことができるようになる。
[B−7]人物メモリと3Dモデルベース手法
(1)人物画像の登録
最初のイントラピクチャーを人物名によってラベリングし、人物画像データとして人物メモリ67に記憶しておくことができる。こおこで、人物識別名は、ヒューマンインターフェイス34を利用することにより、符号化時に認証番号と同じ意味合いでラベルとして付与して登録する。また、イントラピクチャー中の領域情報はテンプレート番号と変形情報で記憶させる。さらに、同時にその人物とコンタクト(通話)した日時も同時に記憶させたり、あるいはメモリ容量が許す限りの範囲内において、音声情報についても同一ラベルで記憶させることにより、さらに機能を向上させることができる。
(2)人物画像の呼出し
人物メモリ67に登録することにより記憶されている人物画像情報は、ユーザーによって人物識別名に基づいて名刺画像として適宜のタイミングで呼び出すことができる。これにより、一度通話を行った相手の顔を思い出すことができるようになり、例えば、再度通話を行う際に相手の認証手段として用いることもできる。また、伝送誤りが激しくなったときのモデルベース復号モードのテクスチャー画像としても利用することができる。
(3)モデルベース復号モード
人物の3Dモデルに上記の人物画像をテクスチャーマッピングし、3D動き情報を付与することにより、伝送誤りが激しくなった場合の補助的な画像再生手段として人物象を生成する。この3D動き情報は復号化器2が適当に人物の動きらしく見えるように与えるようにしても良い。また、符号化器1側で抽出した3D動き情報を用いて制御することもできる。
(4)3Dモデルに基づく空間的限定
符号化器1側から3D動き情報が与えられるならば、前述の2Dテンプレート情報だけでは表現しきれなかった正面像以外の場合の領域予測が行える。すなわち、図13にも示したように、3Dモデルの透視投影により、画像面上で2D領域を特定することができる。
[B−8]誤り訂正戦略
以上の各レベルにおける誤り判定結果に基づいて、最終的に行使される誤り訂正機能は次のようにまとめることができる。各レベル数は、再生動画像の原画像に対する忠実さの度合いを予想した値になっている。
〈レベル0〉 3Dモデルベース再生
〈レベル1〉 ピクチャーフリーズ
〈レベル2〉 モデルベース推定
〈レベル3〉 領域情報に基づくGOB単位の線形推定・動き補償
〈レベル4〉 領域情報に基づくMBK単位の線形推定・動き補償
〈レベル5〉 符号レベルの訂正
[B−9]フローチャートにしたがった復号動作の説明
さて、以上のように、復号化処理に当たって実施される誤り訂正の機能について、実際の復号化処理過程においては、各機能を図8ないし図11に示すプログラムのフローチャートにしたがって実施するようになる。以下、全体の流れの概略について説明する。
すなわち、まず、FIFOバッファ42に蓄積されたビットストリームデータについて通信路復号化部35のファジイマッチング部44にてファジイマッチング処理を行ってPSCを検索し(ステップB1)、その検索位置に基づいてパーザ43により所要ビット数,モード情報,領域情報の復号化処理を行う(ステップB2〜B4)。そして、これらのデータに基づいて再びグローバルチェックを行って1フレーム内におけるGBSCを定位するようになる(ステップB5)。この後、図11に示す誤りの総合判定のルーチンによって符号レベルの誤りに対する判定動作を行う(ステップB6)。
次に、モード制御部33により、得られたモード情報に基づいて使用環境,対象物(被写体)および復号化モードを設定する(ステップB7〜B9)。そして、人物モードである場合には、基本テンプレートの選択,修正・変形・スケーリングの処理を行って領域パターンの再生を行い(ステップB10〜B13)、以下、ステップB14〜B17を経てパターンレベルの誤り訂正機能を実施する。
まず、属性推定部61にて、MBA,MTPの誤り検出と訂正を行い(ステップB18,B19)、人物モードが設定されている場合には誤り判定・補正部50によりQSCの抑制を行った後、MVDの誤り検出と訂正を行い(ステップB20〜B22)、続いて、属性推定部61によりCBPの誤り検出と訂正を行う(ステップB23)。これらの結果から、誤り判定・補正部50により、図11に示すルーチンにしたがって誤りの総合判定を実施し(ステップB24)、続いて、上述の過程のいずれかにおいて属性の誤り検出をした場合には、再びそのステップに戻って誤り検出を実行し(ステップB25〜B28)、これらが終了すると、復号完了した属性配列のデータを属性メモリであるパターン属性部39cに記憶するようになる。
この後、ステップB30〜B33を経ると、上記した属性配列のデータに基づいて復号化処理部36にて、H.261規格ベースに従ったBLK復号化処理を行う(ステップB34)。次に、人物モードが設定されている場合には、パターン・信号レベルの誤り訂正部37にて、部位情報,特徴量に基づくテクスチャーと色の推定,周囲と過去のMBKに基づく色ベクトルの線形推定,色ベクトルの評価を行う(ステップB36〜B38)。
ここで、誤りが発生していて且つLBLKが22以上である場合には、GOB中の残るMBKについて動き補償推定を行って、以後そのGOBについては終了し(ステップB40,B41)、誤りが発生していてもLBLKが22以下であるか誤りが発生していない場合には、ESCの検出と訂正およびEOBの検出と訂正を行ってから図11に示す誤りの総合判定ルーチンを実行し(ステップB42〜B44)、以下これを繰り返すことにより復号化処理を継続していくようになっている。
このような本実施例によれば、復号化器2側においては、伝送誤り率の高いデジタル通信路を介して動画像の画像信号を受信して復号化処理を行う場合に、既存の動画像圧縮標準H.261に超低レート化の改良を施した符号化ビットストリームを受信するようにし、これを復号化処理の段階で、プロトコルをベースとして符号,文法,パターン,信号,認識の各レベルにおいて誤り訂正機能を有機的に実行し、さらに、所要ビット量を考慮した符号化ビットストリームのグローバルチェックによって、パターン,信号,文法の誤り検出を駆動し、モード情報と2Dテンプレートに基づく領域情報(人物等)を用いて認識レベルの評価に基づく誤り訂正を行うことができるものである。
また、本実施例によれば、符号化器1側においては、シンタックスの変更と符号語の置換,過去の符号化属性に基づく現フレームの符号化属性の予測と属性判定の適応制御,動きとモデルによる対象物領域抽出と領域別量子化制御,使用モードや伝送レートおよび動き発生量に応じた変換係数の有意個数の制御などを総合的に用いることにより、超低レート画像伝送を実現できるようになるものである。そして、本実施例の符号化器1では、現行の画像圧縮標準規格(H.261)に僅かの変更を実施するのみで実現できるレベルのものであるから、その実施に当たってはプロトコル変換器を付設する簡単な構成で実現できる。
本発明の一実施例を示す符号化器のブロック構成図 復号化器のブロック構成図 符号化処理過程の概念図 復号化処理過程の概念図 符号化処理プログラムのフローチャート(その1) 符号化処理プログラムのフローチャート(その2) 符号化処理プログラムのフローチャート(その3) 復号化処理プログラムのフローチャート(その1) 復号化処理プログラムのフローチャート(その2) 復号化処理プログラムのフローチャート(その3) 誤りの総合判定ルーチンのフローチャート 使用環境としてカメラを車内に固定した場合の説明図 車内の人物の三次元的な位置関係の説明図 人物を含む自動車内,屋内および屋外のカメラ画像の例 距離尺度による領域の設定の作用説明図 人物正面図のテンプレートと特徴領域の説明図 モデルベースモードにおける伝送遅延の補償を行う場合の説明図 H.261端末との間の通信を行うための構成の説明図 使用環境と被写体に関するモード制御の状態遷移図 H.261シンタックスに基づくマクロブロック属性の配列の例(その1) H.261シンタックスに基づくマクロブロック属性の配列の例(その2) H.261シンタックスに基づくマクロブロック属性の配列の例(その3) 動領域の抽出とテンプレート決定のルーチンのフローチャート 動領域の抽出とテンプレート決定の作用説明図 基本テンプレートとその変形の作用説明図 人物領域の抽出に基づく超低レート化の原理説明図 (a)CIF形式におけるGOB,MBK格子と(b)背景メモリ画像の例 背景メモリの使用と更新の作用説明図 符号化制御全体の概念を説明するためのチャート H.261規格のビットストリームシンタックス GOB番号とヘッダ(GBSC)の付加部の説明図 GOBヘッダを削減した場合と削減しない場合との比較説明図 H.261規格におけるMTPの可変長符号(VLC)の対照表 人物画像に対する各MTP値の発生確率と符号長との対応表 INTER/INTRA判定特性図 動きブロック判定特性図 MBA予測ルーチンのフローチャート MBAとNFXとの対応関係を示す説明図 前フレームからのMBAパターンの予測の説明図 MTP情報の削減をするためのルーチンのフローチャート 領域別平均動きベクトルによるMTP符号量削減の説明図 人物モードにおける領域別量子化と量子化テンプレートの説明図 量子化テンプレートのモデルベース伝送の説明図 QSCの設定のルーチンのフローチャート MVD情報の削減をするためのルーチンのフローチャート 領域別平均動きベクトルによるMVD符号量削減の説明図 CBPの予測と評価のルーチンのフローチャート CBPの領域別動き補償予測の説明図 MBK属性予測のインターリーブを行う場合の説明図 所要ビット数の伝送形態とグローバルチェックの説明図 PSCのファジイマッチング過程の説明図 シンタックスによる2進木の結合とビットストリームの生成の説明図 MBSTUFFを使用した場合にビット誤りで発生する誤解釈の例 階層的符号化属性におけるフレーム間の連続性の説明図(符号化器側) 階層的符号化属性におけるフレーム間の連続性の説明図(復号化器側) MBAの誤り検出と訂正のルーチンのフローチャート MBAとNFXとの対応関係を示す説明図 前フレームからのMBAパターンの予測の説明図 MTPの類似計算に基づく復号結果の評価の説明図 評価計算におけるスキャン順序の例を示す説明図 CBPの誤り検出と訂正のルーチンのフローチャート CBPの定義を示す説明図 CBP値からYUVベクトルへの変換過程を示す説明図 YUVベクトルの予測の説明図 (a)CIF形式におけるGOB,MBK格子と(b)ブロック状をなすエラーパターの例を示す説明図 画像信号レベルにおけるビット誤りに起因したビットストリームの解釈誤りと信号エラーへの影響を示す説明図 領域別周期分散型強制INTRAの例を示す説明図 領域再生あるいは疑似領域設定のルーチンのフローチャート
符号の説明
1は符号化器(符号化装置)、2は復号化器(復号化装置)、3はカメラ、5はA/D変換器、7は直交変換部、8は減算器、9は量子化部、10は通信路符号化部、11はFIFOバッファ、12は通信路、13は逆量子化部、14は逆変換部、15は加算器、16は予測メモリ、17はループフィルタ、20は動き検出部、21は符号化制御部、22は属性メモリ、23は属性予測部、24は符号化処理部、25は領域抽出・認識処理部、26は対象領域抽出部、27はテンプレートデータベース、28は2Dテンプレートマッチング部、29はモデルベース予測部、30は三次元形状データベース、31は人物メモリ(人物情報記憶手段)、32は背景メモリ(背景情報記憶手段)、33はモード制御部、34はヒューマンインターフェイス、35は通信路復号化部、36は復号化処理部、37はパターン・信号レベルの誤り訂正部、38は認識レベルの処理部、39はメモリ(記憶手段)、39aはモード情報部、39bは領域情報部、39cはパターン属性部、39dは2D動ベクトル部、39eは個人識別情報部、41はD/A変換器、42はFIFOバッファ、43はパーザ、44はファジイマッチング部、45は記憶部、46は対照表、47は誤り判定部、48は逆量子化部、49は逆変換部、50は誤り判定・補正部、52は加算器、53は予測メモリ、54は動き補償部、55はループフィルタ、57はフレームメモリ、58は画素値推定部、59は画像推定部、60は動ベクトル推定部、61は属性推定部、62は復号化制御部、63はモデルベース予測部、64は三次元形状データベース、64aは3D形状データ、65は人物画像データベース、66は背景メモリ(背景情報記憶手段)、67は人物メモリ(人物情報記憶手段)、68は領域再生部、69はテンプレートデータベース、69aは2Dテンプレートである。

Claims (18)

  1. 画像信号を符号化処理する過程で、画像信号を解析してフレーム中の領域に存在する対象物を認識する画像の認識装置において、
    あらかじめ決められた送信側の使用環境および符号化制御のうち少なくとも1つに関する付帯状況を表すモード情報に基づいて前記対象物の認識を行うモード制御手段と、
    画面中に存在する対象の領域を抽出する対象領域抽出手段と、
    この対象領域抽出手段により抽出された対象領域の属性データを設定することにより符号化処理の際に情報量を削減する属性データ生成手段と、を設けてなり、
    前記モード制御手段は、
    あらかじめ対象形状を三次元の概略的なモデルで示す三次元モデルデータの設定処理を行うことができるものであって、
    この三次元モデルデータから得た前記モデルにおける各部位の三次元位置情報、前記三次元位置情報と符号化対象画像の色情報を対応づけた情報および前記符号化対象画像にテンプレートを当てはめて得られた前記符号化対象画像における各部位の二次元位置情報の符号化データを生成するモデルベースモードを設定し、
    前記対象領域抽出手段は、
    前記対象領域の抽出を、動ベクトル発生領域の有無に基づいて前記対象領域の候補となる領域を求め、前記モード制御手段により設定されたモデルベースモードを適用することにより定まる前記モデルの位置姿勢における各部位を候補となる領域に透視投影した場合の位置関係に基づいて、前記候補となる領域から前記対象領域を特定することにより行う構成であることを特徴とする画像の認識装置。
  2. 前記モード制御手段は、
    前記モデルベースモードにおいて、対象のモデルベース予測画像の生成にあたって使用環境及び/又は被写体を考慮した上であらかじめ選択されたモード情報で指定される二次元テンプレートに基づいてカメラと対象物との間の距離を算出するように構成されていることを特徴とする請求項1記載の画像の認識装置。
  3. 前記モード制御手段は、
    前記モデルベースモードにおいて、前記二次元テンプレートの特徴領域をあらかじめ設定しておき、二次元動き情報に基づいてその特徴領域の動いた位置データから前記三次元モデルの位置姿勢を概略推定することにより、モデルベース予測を行うように構成されていることを特徴とする請求項1記載の画像の認識装置。
  4. 前記モード制御手段は、
    設定しているモード状態から他のモード状態への遷移を、画像信号の解析の状態に応じた判定に必要な情報が不足するときまたは処理が完了していない場合には、その各々の状態に応じてあらかじめ設定された遷移確率値によって決定するように構成されていることを特徴とする請求項1ないし3のいずれかに記載の画像の認識装置。
  5. 前記モード制御手段は、
    前記遷移確率値を用いたモード間の遷移判定を実行したときに、その判定結果に対する評価計算を行って誤差値が大きくなる場合には、その誤差を小さくするように前記遷移確率値を更新設定することを特徴とする請求項4記載の画像の認識装置。
  6. 前記モード制御手段は、
    前記判定結果に対する評価計算を、二次元テンプレートまたは色解析結果あるいは速度・加速度評価によって行うように構成されていることを特徴とする請求項5記載の画像の認識装置。
  7. 前記対象領域抽出手段は、
    3フレーム以上に渡って動ベクトルの発生領域を検出することにより前記対象領域の抽出を行うように構成されていることを特徴とする請求項1ないし6のいずれかに記載の画像の認識装置。
  8. 前記対象領域抽出手段は、
    前記対象領域を、最大動ベクトルが発生しているブロックを検出すると共に、その最大動ベクトルの発生ブロックを含む領域を主領域として推定することを特徴とする請求項1ないし7のいずれかに記載の画像の認識装置。
  9. 前記対象領域抽出手段は、
    画面全体の動き量を示すパニングベクトルを画面周辺部の動きベクトルの平均値に基づいて演算するパニングベクトル演算手段を備え、
    前記最大動ベクトルの検出に際して、前記パニングベクトル演算手段により計算されたパニングベクトルを差し引いた上で検出を行うように構成されていることを特徴とする請求項8記載の画像の認識装置。
  10. 前記対象領域抽出手段は、
    動きブロックを判別し、対象領域の重心、高さ、幅を表す特徴量の算出を行い、その算出結果に基づく動きブロックのブロックパターンおよび/またはあらかじめ選択されたモード情報で指定されるテンプレート情報をもとに対応するテンプレートを選択し、スケーリングすることにより前記テンプレートの最適化を行うように構成されていることを特徴とする請求項1ないし9のいずれかに記載の画像の認識装置。
  11. 前記対象領域抽出手段は、
    前記テンプレート情報として、ブロック単位の属性情報を示すデータをモデルに対応してモデルベース伝送するように構成されていることを特徴とする請求項10記載の画像の認識装置。
  12. 前記対象領域抽出手段は、
    前記対象領域の抽出に際して、画面中の対象が二次元的に移動するパターンを分析することにより簡易的に動きを検出するように構成されていることを特徴とする請求項11記載の画像の認識装置。
  13. 前記対象領域抽出手段は、
    前記対象領域の抽出に際して、三次元モデルに基づいて二次元テンプレートを生成するように構成されていることを特徴とする請求項12記載の画像の認識装置。
  14. 前記対象領域抽出手段は、
    送信側の使用環境、被写体、符号化制御のうち少なくとも1つに関する付帯状況をあらかじめ決められた符号化データで設定するモード情報に従った制御状態に基づいて対象領域が何の対象物であるかを示すカテゴリーを判定するように構成されていることを特徴とする請求項1ないし13のいずれかに記載の画像の認識装置。
  15. 前記対象領域抽出手段は、
    ブロック単位で設定される属性情報に基づいて対象領域の前記カテゴリーを判定するように構成されていることを特徴とする請求項14記載の画像の認識装置。
  16. 前記対象領域抽出手段は、
    強制イントラフレームが伝送された時点で常に領域抽出処理を行うと共に、そのときに対象領域から推定される背景領域の情報を指定して伝送するように構成されていることを特徴とする請求項1ないし15のいずれかに記載の画像の認識装置。
  17. 前記対象領域抽出手段は、
    前記背景領域情報を指定することにより、情報の伝送量に応じてその背景領域の伝送を選択的に実施するように構成されていることを特徴とする請求項16記載の画像の認識装置。
  18. 前記対象領域抽出手段は、
    情報の伝送量を制限した場合に、前記背景領域情報として指定した情報を伝送中の人物情報に合成させるデータを送信することを特徴とする請求項17記載の画像の認識装置。

JP2007018110A 2007-01-29 2007-01-29 画像の認識装置 Expired - Lifetime JP4687658B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007018110A JP4687658B2 (ja) 2007-01-29 2007-01-29 画像の認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007018110A JP4687658B2 (ja) 2007-01-29 2007-01-29 画像の認識装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2004169174A Division JP4052285B2 (ja) 2004-06-07 2004-06-07 画像信号の符号化装置

Publications (2)

Publication Number Publication Date
JP2007189704A JP2007189704A (ja) 2007-07-26
JP4687658B2 true JP4687658B2 (ja) 2011-05-25

Family

ID=38344509

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007018110A Expired - Lifetime JP4687658B2 (ja) 2007-01-29 2007-01-29 画像の認識装置

Country Status (1)

Country Link
JP (1) JP4687658B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8660175B2 (en) 2007-12-10 2014-02-25 Qualcomm Incorporated Selective display of interpolated or extrapolated video units
JP5246248B2 (ja) 2010-11-29 2013-07-24 株式会社デンソー 予測装置
JP5267596B2 (ja) 2011-02-23 2013-08-21 株式会社デンソー 移動体検出装置
WO2013128396A1 (en) * 2012-02-28 2013-09-06 Smart Applications Limited Inspection and repair module
CN111275045B (zh) * 2020-02-28 2024-02-06 Oppo广东移动通信有限公司 图像的主体识别方法、装置、电子设备和介质
CN112388678B (zh) * 2020-11-04 2023-04-18 公安部第三研究所 一种基于低功耗模式识别技术的行为检测机器人

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03253190A (ja) * 1990-03-02 1991-11-12 Kokusai Denshin Denwa Co Ltd <Kdd> 動画像のハイブリッド符号化方法及びその装置
JPH05304662A (ja) * 1992-04-24 1993-11-16 Seiko Epson Corp 画像符号化伝送装置
JPH07170523A (ja) * 1993-03-04 1995-07-04 Toshiba Corp 動画像符号化装置と動画像復号化装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2864015B2 (ja) * 1987-06-30 1999-03-03 ケイディディ株式会社 画像信号の知的符号化方式

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03253190A (ja) * 1990-03-02 1991-11-12 Kokusai Denshin Denwa Co Ltd <Kdd> 動画像のハイブリッド符号化方法及びその装置
JPH05304662A (ja) * 1992-04-24 1993-11-16 Seiko Epson Corp 画像符号化伝送装置
JPH07170523A (ja) * 1993-03-04 1995-07-04 Toshiba Corp 動画像符号化装置と動画像復号化装置

Also Published As

Publication number Publication date
JP2007189704A (ja) 2007-07-26

Similar Documents

Publication Publication Date Title
US5959672A (en) Picture signal encoding system, picture signal decoding system and picture recognition system
EP0731608B1 (en) Image encoder and decoder with area selection
JP4261630B2 (ja) 画像符号化装置及び方法、画像符号化プログラムが記録されたコンピュータ可読記録媒体
JP4611640B2 (ja) ビデオシーケンス内の動きを符号化する方法
JP4687658B2 (ja) 画像の認識装置
JP2008054335A (ja) イメージをコード化する方法およびイメージコーダ
JP2010534015A (ja) 画像処理方法及び対応する電子装置
JP5560009B2 (ja) 動画像符号化装置
JP3769786B2 (ja) 画像信号の復号化装置
US20070274687A1 (en) Video Signal Encoder, A Video Signal Processor, A Video Signal Distribution System And Methods Of Operation Therefor
JP4013921B2 (ja) 画像信号の復号化装置
CN102804783B (zh) 图像编码装置和相机系统
JPH0998416A (ja) 画像信号の符号化装置および画像の認識装置
JP2008153907A (ja) 画像符号化装置及びそれらを含む情報端末ならびに画像符号化方法
JPH09172378A (ja) モデルベースの局所量子化を使用する画像処理のための方法および装置
JP4052285B2 (ja) 画像信号の符号化装置
JP5938424B2 (ja) 画像ブロックを再構成および符号化する方法
JP4341078B2 (ja) 動画像情報の符号化装置
JP4508029B2 (ja) 動画像情報の符号化装置
JP3115866B2 (ja) 画像符号化装置及び画像復号装置
JP4795141B2 (ja) 映像符号化合成装置、映像符号化合成方法及び映像伝送システム
JPH10224779A (ja) 動画像のシーン変化検出方法及び装置
JPH06233292A (ja) 画像信号伝送装置
JP2002171530A (ja) スーパーインポーズ機能を備えた再符号化装置および方法
JP4136403B2 (ja) 画像処理装置、画像処理方法、プログラム、記憶媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100910

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101208

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20101216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110131

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140225

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term