JP2015519785A - 画像処理方法 - Google Patents

画像処理方法 Download PDF

Info

Publication number
JP2015519785A
JP2015519785A JP2015504871A JP2015504871A JP2015519785A JP 2015519785 A JP2015519785 A JP 2015519785A JP 2015504871 A JP2015504871 A JP 2015504871A JP 2015504871 A JP2015504871 A JP 2015504871A JP 2015519785 A JP2015519785 A JP 2015519785A
Authority
JP
Japan
Prior art keywords
image
matrix
principal points
binary matrix
principal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015504871A
Other languages
English (en)
Other versions
JP5962937B2 (ja
Inventor
ジョヴァンニ・コルダラ
イメド・ボウアジジ
ルーカス・コンドラド
Original Assignee
ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ホアウェイ・テクノロジーズ・カンパニー・リミテッド filed Critical ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Publication of JP2015519785A publication Critical patent/JP2015519785A/ja
Application granted granted Critical
Publication of JP5962937B2 publication Critical patent/JP5962937B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/129Scanning of coding units, e.g. zig-zag scan of transform coefficients or flexible macroblock ordering [FMO]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/467Embedding additional information in the video signal during the compression process characterised by the embedded information being invisible, e.g. watermarking

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

本発明は画像処理方法に関する。当該方法は、画像から1組の主要点を提供するステップ(101)と、前記1組の主要点の位置情報を二値行列の形で記述するステップ(103)と、前記二値行列を所定の順序に従って走査することによって、前記1組の主要点の前記位置情報の新規表現を生成するステップ(105)と、を含む。

Description

本発明は、コンピュータ・ビジョンの分野における画像処理技術に関し、特に、通常は視覚探索または拡張現実と呼ばれるトピックに関する。視覚探索や拡張現実のアプリケーションでは、画像または画像シーケンスから抽出された情報がサーバに送信され、サーバで、当該情報が、認識されるオブジェクトのモデルを表す参照画像または画像シーケンスのデータベースから抽出した情報と比較される。この状況において、本発明は、サーバに送信される画像または画像シーケンスから抽出した情報の圧縮、特に、画像または画像シーケンスから抽出した関心点の位置の圧縮に関する。
視覚探索(VS)とは、テキスト記述、メタデータ等のような外部データを利用することなく、画像または画像シーケンスの視覚的態様のみを分析することによって、画像または画像シーケンスで表された1つまたは複数のオブジェクトを特定する自動化システムの能力をいう。拡張現実(AR)はVSの高度な利用とみなすことができ、特に、モバイルの分野に適用される。画像シーケンスに示したオブジェクトが特定された後、追加のコンテンツ、通常は合成オブジェクトが現実のシーンに重ね合わされて、現実のコンテンツを現実のオブジェクトと一貫した位置で「拡張」する。画像シーケンス内に表されたオブジェクトの特定を実現する技術は同じである。以下では、イメージという用語と画像という用語を同義的に使用する。
今日、主要な視覚探索方法では所謂局所的特徴の決定が利用されている。局所的特徴を以下では特徴または記述子とも称する。一般的な方法は、非特許文献1に開示のSIFT(Scale−Invariant Feature Transforms)と、非特許文献2に開示のSURF(Speeded Up Robust Features)である。これらの技術の多数の変形を見出すことができる。当該変形を、これら2つのオリジナルな技術の改良と考えることができる。
図13から分かるように、局所的特徴はコンパクトな記述であり、例えば、画像1301内の点1305を囲むパッチ1303のSIFTにおける特徴ごとに128バイトである。図13は、局所的特徴の抽出(図13の上部)と表現(図13の下部)の1例を示す。図13の上部には、局所的特徴が計算される点の位置が、画像1301内の点1305を表す円で示され、当該円が有向パッチ1303を表す正方形で囲まれている。図13の下部には、パッチ1303のグリッド1309の再分割が、当該局所的特徴のヒストグラム成分1311を含む。局所的特徴を計算するために、点1305の主方位1307が、点1305の囲み内の主勾配成分に基づいて計算される。この方位1307から開始して、主方位1307に向かって配向されたパッチ1303が抽出される。次いで、当該パッチ1303が長方形または放射状のグリッド1309に再分割される。グリッド1309の要素ごとに、局所勾配のヒストグラム1311が計算される。グリッド1309の要素に対して計算したヒストグラム1311は局所的特徴の成分を表す。図13の下部に示したグリッド1309の要素のヒストグラム1311を含む記述子1313の特徴は、回転、照射、および投影歪みに対して不変である。
画像1301では、記述子1313が計算される点1305は、通常、例えば角や特定のパターン等のシーンの特有の要素に関連する。かかる点は通常は主要点1305と呼ばれ、図13の上部で示した円である。主要点1305の計算のプロセスは、マルチスケール画像1301の表現における局所的な極値の特定に基づく。
2つの画像1301と1401を比較するとき、図14に示すように、第1の画像1301の各記述子1313を第2の画像1401の各記述子と比較する。図14は、画像1301と1401のみを示し記述子は示していない。距離測定値を使用し、様々な主要点の間で、例えば第1の画像1301内の第1の主要点1305と第2の画像1401内の第2の主要点1405の間で、マッチングを特定する。正確なマッチングは、通常はインライア1407と呼ばれ、画像1301と1401における拡大縮小、回転、投影歪みがあったとしても一貫した相対的位置を有する必要がある。マッチング段階における誤差は、主要点抽出に対して使用した統計的アプローチに起因して生ずる可能性があり、幾何的一貫性チェックと呼ばれる段階により排除される。幾何的一貫性チェックでは、様々な主要点の位置の一貫性が推定される。当該誤差は、通常はアウトライナ1409と呼ばれ、図14の点線で示すように取り除かれる。残存するインライア1407の数に従って、2つの画像1301、1401における同一のオブジェクトの存在に関する推定を実施することができる。
図15に示すように、典型的なクライアント・サーバ型のサービス・アーキテクチャを表すVSパイプライン・システム1500では、記述子は、主要点識別1505、特徴計算1507、後述の特徴選択1509、およびエンコーディング1511の手続きによりクライアント装置1501で計算され、これらの記述子1519をサーバ1503に送信する。サーバ1503は、当該記述子、即ち、データベース上の参照画像から抽出した参照記述子1521に対してマッチする(1513)。詳細には、クライアント1501からのデータ・ストリーム1515を復号化して(1517)、当該データベース上の参照画像から主要点識別1523と特徴計算1525により計算された参照記述子1521に対してマッチされる(1513)原画像の記述子1519を取得する。マッチング1513の後、幾何的一貫性チェック1527を適用して再構築画像の幾何的一貫性をチェックする。
何千もの特徴を1つの画像から抽出することができ、その結果、画像あたり数キロバイトの大量の情報がネットワークで送信されることとなる。幾つかのシナリオでは、記述子を送信するのに必要なビットレートは圧縮画像自体よりも大きくなりうる。
これは、クライアント/サーバ接続におけるネットワーク遅延の可能性と、無数の参照画像の記述子をメモリに同時に保持しなければならないサーバ側で必要なメモリの量に起因する、リアルタイム・アプリケーションに関する課題を意味する。したがって、圧縮したバージョンの記述子の必要性が生じる。未圧縮の記述子から始めて記述子を圧縮できるようにするステップが必要である。最初のステップは、以下のような主要点選択の機構である。即ち、画像から抽出された全ての記述子がサーバに送信されるわけではなく、統計分析に従って、マッチング段階であまりエラーを発生させず、かつ、描画されたオブジェクトに対してより典型的と考えられる点を示すもののみがサーバに送信される。当該第2のステップは、残りの記述子に適用される圧縮アルゴリズムである。
MPEG(Moving Pictures Experts Group)標準化委員会は現在、新たな標準MPEG−7(ISO/IEC 15938−Multimedia content description interface)のパート、即ち、パート13を定義しており、圧縮記述子の標準形式の開発に専念している。新たな標準の圧縮機能をテストするために、画像から抽出した全ての記述子を格納または送信するのに必要なビットレートを表す6つの動作点が512−1024−2048−4096−8192−16384バイトとして特定されている。当該テスト段階は、これらの動作点を参照として用いて行われる。主要点選択機構の適用のため、これらの動作点で、様々な数の主要点がサーバに送信され、この数は最小の動作点にある114個の主要点から最高動作点にある970個の主要点に及ぶ。
記述子圧縮を記述子に適用するとき、2つの異なる種類の情報が圧縮される。1つ目は記述子の値に関するものである。2つ目は、画像内の主要点のデカルト座標である記述子の位置情報、即ち、x/y位置である。
現在のVS標準の参照モデル(RM)ならびに当業界に存在する大多数のVSアルゴリズムでは、記述子抽出段階の前に、画像が640×480画素であるVGA(Video Graphic Array)解像度に拡大される。VGA解像度を以降では最大解像度と称する。
したがって、画像内の単一の主要点の位置を記述する固有のx/yの組が19ビットを占有しうる。これは、特に最小の動作点では許容できないものである。したがって、位置情報を圧縮し、より多くの記述子を挿入するかまたはあまり制限的でない圧縮アルゴリズムを記述子に適用するために、より多くのビットを割り当てる必要がある。
主要点の座標は、元の拡大されていない画像解像度の浮動小数点値で表される。全ての画像に適用される第1の操作はVGA解像度への縮小であるので、当該主要点の座標は、本来19ビットであるVGA解像度の整数値に丸められる。したがって、幾つかの点が同一の座標に丸められる可能性がある。2つの記述子が2つの異なる方位を有する同一の主要点で計算される可能性もある。この最初の丸めが抽出性能に及ぼす影響は無視できる。
図16はかかる丸め操作の1例を示し、各正方セル1603、1605が最大解像度の1×1画素セルに対応する。非空要素が主要点の位置に対応する画像1600を生成することができ、行列表現1602で表せる画素セル表現1601に分割することができる。これらの正方セル1603、1605の値、例えば、図16に示すように第1の正方セル1603に対して2および第2の正方セル1605に対して1が行列1602で表される。ここで、非空セル1607、1609は主要点の位置を表す。例えば第1の非空セル1607は第1の正方セル1603に対応し、第2の非空セル1609は第2の正方セル1605に対応する。その結果、上記の課題を、最高動作点においても極めて疎、即ち、非空セルが100個未満であるという特性を有する640×480要素の行列1602を圧縮する必要性として再構成することができる。当該行列を圧縮するために、2種類の異なる情報を表す必要がある。当該2種類の情報とは、空セルと非空セルから成る二値マップであるヒストグラム・マップと、ヒストグラム数、即ち、各非空セル内の発生数を含むベクトルである。ヒストグラム・マップは、図16に示す画素セル表現1601の二値形式により表され、ヒストグラム数は、図16に示す行列表現1602の非空要素で生成されたベクトルで表される。圧縮効率を高めるために、当業界では、これらの2つの要素が常に別々にエンコードされる。
既存の技術では、ブロック量子化を含むロッシ技術をヒストグラム・マップに適用して圧縮効率を高める。即ち、通常は4×4ブロックまたは8×8ブロックが使用され、ヒストグラム・マップとヒストグラム数の生成機構を不変とする。当該操作の結果として、行列の次元は大幅に減少する。即ち、4×4ブロックが適用されるときは140×120画素に、8×8ブロックが適用されるときは70×60画素に減少する。それでも、縮小した行列には依然として非常に疎な行列が残る。このケースでは、図16の表現が依然として有効であり、セルの次元のみが変化している。本明細書の残りの部分では、ヒストグラム・マップ行列の要素を行列セルと称する。当該セルは、その想定する次元に関わらず、最大解像度での1×1から、圧縮された場合はN>1であるN×N(例えば8×8)までである。
当業界では、3つの主要な文献が、位置情報圧縮の分野における最新の進展をもたらしている。1番目の文献は、以降では[RM]と称するが、MPEG参照モデルである非特許文献3である。2番目の文献は、以降では[Stanford1]と称するが、MPEG入力コントリビューション(MPEG input contribution)である非特許文献4である。3番目の文献は、以降では[Stanford2]と称するが、学会論文である非特許文献5である。
これらの3つの文献の全ては、異なるアプローチから得られながらも同じ問題を提示している。即ち、座標は最大解像度では表されず、量子化領域、即ち、4×4、6×6、8×8ブロックで表されている。
ブロック量子化のヒストグラム・マップへの適用は、ロッシ圧縮にも関わらず、抽出精度の点で性能低下が限定的であるのを保証できる。何れにせよ、クエリ画像内の認識オブジェクトを局所化する必要があるとき、例えば拡張現実アプリケーションにおいて、オブジェクトを局所化し一連の画像にわたって追跡する必要がある場合には、これらの量子化されたブロックを適用することにより性能が大幅に低下する。例えば、[Stanford1]によれば、局所化精度は、4×4ブロックを最小動作点で適用するときには5%低下し、ブロックが8×8の次元を有するときには10%低下する。
最大解像度まで拡大するとき、先行技術には幾つかの問題がある。ヒストグラム数圧縮は非常に単純であるので、考慮には入れられない。ヒストグラム・マップ行列の圧縮に関して生ずる問題を以下で提示する。
文献[RM]は、主要点が出現しない、空の行と列をヒストグラム・マップから削除して行列の疎性を減少させることを目的とした方法を使用している。行および列ごとに1ビットを費やして、完全な行または列が空かどうかを示す。最大解像度での問題は、480×640行列では、この情報を圧縮ビット・ストリームに埋め込むのに1120ビットが必要であるということである。これは、許容できない量のビットであり、最小動作点(114個の点)で主要点ごとにほぼ10ビットが生じる。
[Stanford1]では、以下の2つの改善により、バイナリ・エントロピ符号化を行列全体に対して使用している。マクロブロック分析が適用されている。即ち、以降ではskip−Macroblockと称するが、行列がマクロブロックに再分割され、マクロブロックごとに、当該ブロックが空かどうかを示す1ビットが割り当てられる。ブロックが完全に空である場合には、その要素にはエントロピ符号化プロセスを行わない。また、コンテキスト・モデリングがエントロピ符号化に適用される。当該コンテキスト・モデリングは、エンコードすべきものを囲むセルに基づく。特に、10個の近傍が考慮され、結果として45個のコンテキストが生ずる。その複雑さに加えて、特に、生成される45個のコンテキストを有するトレーニング段階に対し、このアプローチを最大解像度のケースに効果的に適用することはできない。この場合、行列は非常に疎であるので、10個の最も近接するセルの中で非空セルに遭遇するのは非常に稀である。
文献[Stanford2]によれば、2つの方法が適用される。1つ目は、文献[Stanford1]で提供されたものと非常に類似し、同じ問題を提示しているので、ここではこれ以上論じない。2つ目は、四分木に基づくものである。四分木は、行列が密であるときには非常に効果的な表現をもたらすが、行列が非常に疎であるときには、最大解像度のケースと同様、当該木の構築には大量のビットを消費し、性能が劣化することとなる可能性がある。
本発明の目的は、上述の先行技術の概念と比べて位置情報の圧縮率が高く複雑度が非常に低い画像処理に関する概念を提供することである。本発明の目的は、添付の独立請求項の特徴により実現される。さらなる実施形態については、それらの従属請求項、発明の詳細な説明、および添付図面から明らかである。
画像のヒストグラム・マップの圧縮作業を、非常に疎な行列の圧縮として考えることができる。本発明は、特に低いビットレートにおいて、この疎性にも関わらず主要点が画像にわたって均一に分散しないという知見に基づく。これは特に、主要点のサブセットを全ての抽出した主要点から特定するために適用される主要点選択機構に起因する。一般的に、関心点は画像の中心に描かれるので、当該主要点選択機構は画像中心から近い距離を特別に扱う。例えば関心領域(ROI)に基づいて、代替的な主要点選択方法を適用するとき、画像内の主要点の分布は依然として均一ではない。その結果、より密集した領域が通常は画像の中心周辺に存在し、行列の側面には非常に多数の零が存在することとなる。したがって、反対にブロック表現を画像にわたって均一に適用する[Stanford1]のアプローチで利用されるskip−Macroblock情報の適合的な利用を考慮して、当該機能を利用することが可能である。行列の中心には、空の領域は殆ど生じない。したがって、このようにskip−Macroblock情報送信に関して殆どビットを使用しない、非常に大規模なマクロブロックの適用が想定される。他方、行列の側面では、小規模なマクロブロックを適用して高い精度で空の領域を特定するのが有利である。
本発明の諸態様では、位置情報圧縮アルゴリズムの性能を高める画像処理の概念を提供する。本発明を詳細に説明するために、以下の用語、略語、および記法を使用する。
VS:視覚探索。VSは、テキスト記述、メタデータ等のような外部データを利用することなく、画像または画像シーケンスの視覚的態様のみを分析することによって当該画像または画像シーケンス内で示された1つまたは複数のオブジェクトを特定する自動化システムの能力をいう。
AR:拡張現実。ARとは、特にモバイルの領域に適用されるVSの高度な利用と考えることができる。フレーム・シーケンスで示されたオブジェクトを特定した後、追加のコンテンツ、通常は合成オブジェクトを現実のシーンに重ね合わせて、現実のコンテンツを現実のオブジェクトに一貫した位置で「補強」する。
SIFT:スケール不変特徴変換(Scale−Invariant Feature Transforms)
SURF:高速化ロバスト特徴(Speeded Up Robust Features)
MPEG−7:Moving Pictures Expert Group No.7は、視覚探索の標準の開発に特化した、ISO/IEC15938に従うマルチメディア・コンテンツ記述インタフェースを定義する。
ROI:関心領域
RM:参照モデル
VGA:ビデオ・グラフィック・アレイ。最大解像度とも呼ばれる。
局所的特徴:局所的特徴は、回転、照射、および投影歪みに対して不変な、画像内の主要点を囲むパッチのコンパクトな記述である。
記述子:局所的特徴
主要点:画像において、記述子が計算される点は通常はシーンの特定の要素、例えば隅、特定のパターン等に関連する。かかる点は通常、主要点と呼ばれる。主要点の計算のプロセスは、マルチスケール画像表現における局所的極値の特定に基づく。
skip−Macroblock:非空値を含まない画像のヒストグラム・マップを表す行列セグメント
第1の態様によれば、本発明は画像処理方法に関する。当該方法は、1組の主要点を当該画像から提供するステップと、当該1組の主要点の位置情報を二値行列の形で記述するステップと、当該二値行列を所定の順序に従って走査することによって、当該1組の主要点の位置情報の新規表現を生成するステップとを含む。
本発明の第1の態様により、特にヒストグラム・マップ行列の圧縮に使用される、画像から抽出された記述子(局所的特徴)の位置情報を処理するための新たな方法を提供する。当該方法は、当分野の技術の状態と比較したときの改善された圧縮率により特徴づけられる。当該方法を最大解像度レベルでの固有の問題に遭遇することなく適用することができる。本発明の主要な要素は、データの新規表現に基づき、より効率的なブロック・ベースの分析および表現を可能とする。適合的ブロック・ベース分析を当該新規表現に対して適用することができ、データの性質をより良く利用して改善された圧縮率を達成することができる。複雑な操作に遭遇しないので、提供した方法の複雑性は極めて限定的である。
第1の態様に従う方法の第1の可能な実施形態では、当該二値行列を所定の順序に従って走査するステップは、当該二値行列を、当該画像の関心領域またはその周囲に配置された主要点から開始して当該画像の外縁に位置する主要点に向かって走査するか、または、当該画像の外縁に位置する主要点から開始して当該画像の関心領域またはその周囲に配置された主要点に向かって走査するステップを含む。
画像の関心領域は一般的には画像の中心領域に配置される。したがって、走査によって関心領域またはその周囲に配置された主要点と画像周囲の非関心領域が区別されるとき、処理を改善することができる。
第1の態様の第1の実施形態に従う方法の第2の可能な実施形態では、画像の関心領域は当該画像の中心にあるかまたは当該画像の中心の周囲にある。
通常、画像の最も関連する情報を、画像の中心からまたは画像の中心周りから抽出することができる。処理が画像の中心と周囲を区別する場合には、当該処理とそれによる圧縮を改善することができる。
第1の態様に従う方法または第1の態様の上述の実施形態の何れかに従う方法の第3の可能な実施形態では、当該二値行列の走査は反時計回りまたは時計回りに実施される。反時計回りまたは時計回りの走査によって、処理を改善することができる。
第1の態様に従う方法または第1の態様の第1の実施形態に従う方法の第4の可能な実施形態では、当該二値行列の走査は画像の同心円環内の部分で実行される。
最も本質的な特徴は画像の中心に配置されているので、画像の中心に向かう小環が大部分の情報を保持し、画像の周辺に向かう大環が少ない情報を保持する。周辺に向かう大環は疎に占有され、空の領域が発生し、これをskip−Macroblock情報で特定することができる。
第1の態様に従う方法または第1の態様の上述の実施形態の何れかに従う方法の第5の可能な実施形態では、1組の主要点の位置情報の新規表現は別の二値行列の形をとる。
第1の態様の第5の実施形態に従う方法の第6の可能な実施形態では、当該別の二値行列は列方向または行方向に生成される。
したがって、本質的な情報を保持する領域が新たな行列表現の近傍領域に配置され、以下の適合的ブロック分析を使用することができる。
第1の態様の第5の実施形態に従う方法または第1の態様の第6の実施形態に従う第7の可能な実施形態では、当該1組の主要点の中の主要点ごとに、記述子が当該主要点を囲む有向パッチから計算される。
記述子は通常、画像の特定の要素、例えば、隅、特定のパターン等に関する。したがって、画像処理に関する記述子を利用することによって、オブジェクトの認識と追跡の性能が高まる。
第1の態様の第5乃至第7の実施形態の何れかに従う方法の第8の可能な実施形態では、当該二値行列は空セルと非空セルから成るヒストグラム・マップであり、非空セルは当該画像における主要点の位置を表す。
第1の態様の第5乃至第8の実施形態の何れかに従う方法の第9の可能な実施形態では、当該方法はさらに、1組の主要点の位置情報の新規表現を圧縮するステップを含む。
当該1組の主要点の位置情報の新規表現が第1の態様に従う方法または第1の態様の上述の実施形態の何れかに従って生成されるとき、関連情報の大部分、即ち、非空要素が行列の1つの領域に集中するので、圧縮が改善される。上記別の二値行列は、位置情報密度が高い部分と位置情報密度が低い部分を含む。様々な圧縮技術をこれらの部分に対して使用して、圧縮を改善することができる。
第1の態様の第9の実施形態に従う方法の第10の可能な実施形態では、1組の主要点の位置情報の新規表現を圧縮するステップは、位置情報を有しない二値行列の外縁部を排除することによって当該二値行列のサイズを縮小するステップを含み、当該縮小するステップは当該二値行列を走査する前に実施される。
したがって、走査を実施する前に非本質的な情報を除去することができ、したがって、圧縮すべき情報の量が減り、画像処理方法の性能が速度と記憶の点で改善される。
第1の態様の第9の実施形態に従う方法の第11の可能な実施形態では、1組の主要点の位置情報の新規表現を圧縮するステップは、位置情報を保持しない当該二値行列の同心円環に対応する別の二値行列の空要素を排除するステップを含む。
したがって、走査を実施した後に非本質的な情報を除去することができ、したがって、圧縮すべき情報の量が減り、画像処理方法の性能が速度と記憶の点で改善される。
第1の態様の第5乃至第11の実施形態の何れかに従う方法の第12の可能な実施形態では、当該別の二値行列は様々なサイズのマクロブロックに分割され、当該画像の関心領域またはその周囲に配置された主要点の位置情報を有するマクロブロックのサイズは、当該画像の外縁に位置する主要点の位置情報を有するマクロブロックよりも大きい。したがって、画像の中心からの情報が大規模なマクロブロックに格納され、画像の周辺からの情報が小規模なマクロブロックに格納される。したがって、さらなる処理から排除できる空要素のみを保持する一部の小規模なマクロブロックを特定することができ、画像処理の性能が改善される。
第1の態様の第12の実施形態に従う方法の第13の可能な実施形態では、エントロピ符号化が上記別の二値行列のskip−Macroblock情報と当該別の二値行列の非空マクロブロックに適用される。
第1の態様の第13の実施形態に従う方法の第14の可能な実施形態では、エントロピ符号化を適用するときにコンテキスト・モデリングが適用される。
第1の態様の第12乃至第14の実施形態の何れかに従う方法の第15の可能な実施形態では、上記別の二値行列は、画像の中心とその周囲に配置された位置情報を保持する第1の数の特定のサイズ(以降、MB_Sizeとして示す)のマクロブロックと、画像の周辺に配置された位置情報を保持する第2の数のMB_Size分の何分の1かのマクロブロックを含む。
MB_Sizeの大きさのマクロブロックとその一部を用いることで、上述の方法の実施が単純になる。異なるメモリ・サイズの複雑なメモリ割当てを適用する必要はない。メモリ構造は極めて単純である。
第1の態様の第15の実施形態に従う方法の第16の可能な実施形態では、第1の数のMB_Sizeの大きさのマクロブロックは全ての画像にわたって固定され、または、別の行列表現の大きさに依存する。
第1の態様の第5乃至第16の実施形態に従う方法の第17の可能な実施形態では、当該方法は、skip−Macroblockビット・シーケンスを使用して、位置情報を保持しない別の二値行列の空のマクロブロックを示すステップをさらに含む。
位置情報を保持しない当該別の二値行列の空のマクロブロックを示すことによって、当該方法は、これらのマクロブロックをさらに圧縮するステップを考慮しないでおくことができ、それにより、圧縮率が高まる。
第1の態様の第17の実施形態に従う方法の第18の可能な実施形態では、上記1組の主要点の位置情報の新規表現は、上記別の二値行列の非空マクロブロックのエントロピ符号化したskip−Macroblockビット・シーケンスとエントロピ符号化した位置情報を結合することによって圧縮される。
第1の態様の第18の実施形態に従う方法の第19の可能な実施形態では、当該位置情報は、トレーニング・セットにわたって計算された非空マクロブロック内の平均的な数の非空要素を利用するコンテキスト・モデルを用いてエントロピ符号化される。
当該コンテキストでは、余分な情報を送信する必要がなく、当該別の二値行列内のマクロブロックの平均密度に従ってエントロピ符号化器を最適化することができる。
第1の態様の第5乃至第19の実施形態の何れかに従う方法の第20の可能な実施形態では、メモリ占有を最小化するために、上記別の二値行列全体ではなく、当該別の二値行列の非空要素のみまたは非空のマクロブロックの順序リストを記憶する。
大量のリソースを消費する操作はコンテキスト・モデリングであり、これは任意のものである。それにも関わらず、コンテキスト・モデリングを適用するときには、新たなコンテキスト・モデリング方法が提案され、これは先行技術で適用されるものより簡単である。提供するコンテキスト・モデリング方法では非常に限られた数のコンテキストを利用する。さらに、マクロブロック情報は本来新たなデータ表現において運搬されるので、余分なビットがコンテキスト・モデリングに対して使用されない。
第2の態様によれば、本発明は、画像の局所的特徴を当該画像の1組の主要点の位置情報の行列表現から再構築するための方法に関し、当該方法は、当該画像の当該1組の主要点の位置情報の行列表現を所定の順序に従って解凍するステップを含み、当該画像の当該局所的特徴は当該主要点を囲む有向パッチから計算される。当該解凍方法は、圧縮方法の逆の操作を逆順に実施するものであり、したがって、上述の圧縮方法と同じ利点をもたらす。
第3の態様によれば、本発明は、1組の主要点を画像から提供し、当該1組の主要点の位置情報を二値行列の形で記述し、当該二値行列を所定の順序に従って走査することによって、当該1組の主要点の位置情報の新規表現を生成するように構成されたプロセッサを備える、位置情報符号化器に関する。当該位置情報符号化器は、上述の低い複雑度の位置情報圧縮方法を実施するので、複雑度が極めて限定的である。
第4の態様によれば、本発明は、画像の1組の主要点の位置情報の行列表現を所定の順序に従って解凍することによって当該画像の局所的特徴を当該画像の1組の主要点の位置情報の行列表現から再構築するように構成されたプロセッサであって、当該画像の当該局所的特徴は当該主要点を囲む有向パッチから計算されるプロセッサを備える、位置情報復号器に関する。当該位置情報復号器は、上述の低い複雑度の画像処理方法を実施するので、複雑度が極めて限定的である。
第5の態様によれば、本発明は、第1の態様に従う方法もしくは第1の態様の上述の実施形態の何れかに従う方法を実施するためのプログラム・コードを有するコンピュータ・プログラムに関し、または、当該プログラム・コードがコンピュータで実行されるときには第2の態様に従う方法を実施するためのプログラム・コードを有するコンピュータ・プログラムに関する。
本明細書で説明する方法を、デジタル信号プロセッサ(DSP)、マイクロ・コントローラ、もしくは他の任意のプロセッサにおけるソフトウェアとして、または特殊用途向け集積回路(ASIC)内のハードウェア回路として実装してもよい。
本発明をデジタル電子回路で、または、コンピュータハードウェア、ファームウェア、ソフトウェア、もしくはそれらの組合せとして実装することができる。
本発明のさらなる諸実施形態を、以下の図面と関連して説明する。
1実施形態に従う画像処理方法の略図である。 1実施形態に従う位置情報圧縮方法の略図である。 画像内の主要点分布を示すグラフの図である。 新たな行列表現を生成するための行列走査方法の略図である。 1実施形態に従う別の行列表現の略図である。 1実施形態に従う図5に示した別の行列表現の適合的ブロック・ベース分析の略図である。 1実施形態に従う位置情報圧縮方法の略図である。 1実施形態に従う位置情報圧縮方法の略図である。 1実施形態に従う位置情報圧縮方法の略図である。 1実施形態に従う位置情報解凍方法の略図である。 1実施形態に従う位置情報符号化器のブロック図である。 1実施形態に従う位置情報復号器のブロック図である。 視覚探索のための局所的特徴の抽出および表現の例を示す図である。 2つの画像の従来の比較における特徴マッチングおよびアウトライナ排除の例を示す図である。 典型的なクライアント−サーバサービス・アーキテクチャで使用される視覚探索パイプラインのブロック図である。 従来のヒストグラム・マップおよびヒストグラム数生成方法の略図である。
図1は、1実施形態に従う画像処理方法100の略図を示す。画像処理方法100は、1組の主要点を画像から提供するステップ(101)と、当該1組の主要点の位置情報を二値行列の形で記述するステップ(103)と、当該二値行列を所定の順序に従って走査することによって、当該1組の主要点の位置情報の新規表現を生成するステップ(105)とを含む。1実施形態では当該1組の主要点の位置情報の当該新規表現は別の二値行列の形である。
図2は、1実施形態に従う位置情報圧縮方法201の略図を示す。画像圧縮方法201は、ヒストグラム・マップおよびヒストグラム数の生成(200)と、ヒストグラム・マップの圧縮(210)と、ヒストグラム数の圧縮(220)と、圧縮された記述子(230)に応じた符号化されたビット・ストリームの生成(240)を含む。当該ヒストグラム・マップは、図16に示す説明に従う画素セル表現1601における画像1600の空セルと非空セルから成る二値マップである。画像1600を、行列表現1602で表せる画像セル表現1601に分割することができる。当該ヒストグラム数は、図16に示す説明に従う行列表現1602において画像1600の各非空セルが出現する数である。1実施形態では、ヒストグラム・マップの圧縮(210)とヒストグラム数の圧縮(220)を並列に行う。1実施形態では、ヒストグラム・マップの圧縮(210)とヒストグラム数の圧縮(220)を互いに独立に実施する。1実施形態では、ヒストグラム・マップの圧縮(210)のみを実施し、ヒストグラム数の圧縮(220)は実施しない。
1実施形態では、ヒストグラム・マップおよびヒストグラム数の生成(200)は、1組の局所的特徴を画像から決定するステップ(101)と各主要点を記述子により記述するステップ(103)に対応し、ヒストグラム・マップの圧縮(210)は、走査(105)による主要点の行列表現の生成と、以下の211乃至217の操作に対応する。
本発明の諸態様は、画像から抽出した記述子(局所的特徴)の位置情報の圧縮、特に、図2に示したヒストグラム・マップ行列の圧縮に対する新たな方法を提供する。当該方法は、最新の技術と比較して改善された圧縮により特徴づけられる。当該方法を、最大解像度レベルでの固有の問題に遭遇することなく適用することができる。
本発明の諸態様はデータの新規表現に基づくものであり、より効率的なブロック・ベースの分析と表現を可能とする。図7、8、および9に関して後述するように、適合的ブロック・ベース分析を当該新規表現に適用して、当該データの性質をより良く利用して圧縮率の向上を実現することができる。
複雑な操作が含まれないので、当該方法の複雑性は極めて限られている。大部分のリソース消費操作はコンテキスト・モデリングであり、これは任意のものである。それにも関わらず、図9に関して後述するようにコンテキスト・モデリングを適用するときには、先行技術で使用されているものよりも単純な新たなコンテキスト・モデリング方法を使用する。1実施形態では、当該コンテキスト・モデリング方法は非常に限定的な数のコンテキストを利用する。さらに、マクロブロック情報が本来当該新たなデータ表現で運搬されるので、当該コンテキスト・モデリングに対して余分なビットは使用されない。
本発明の諸実施形態では広範囲の削除をもたらす。即ち、行列の側面にある完全に空の領域が削除される。本発明の実施形態では、従来のようにRMで使用される空の行および列を識別するのではなく、空の領域を識別するための新たな方法を提供する。
図3は、画像300における主要点301の分布を表すグラフを示す。後述するように、ヒストグラム・マップの圧縮作業を非常に疎な行列の圧縮と考えることができる。本発明の基本的な考え方は、図3から分かるように、特に低いビットレートにおいて、この疎性にも関わらず、主要点301が画像に均一に分布しないことである。これは、特に主要点選択機構を適用して主要点のサブセットを全ての抽出した主要点から特定するときに生ずる。一般に関心のあるオブジェクトは画像の中心に描画されるので、主要点選択機構は画像中心から短い距離を特別に扱う。その結果、ヒストグラム・マップ行列の中心はより密になり、行列の側面は零で支配される。代替的な主要点選択方法を例えば関心領域(ROI)に基づいて適用するとき、画像内の主要点の分布は依然として均一ではない。したがって、諸実施形態では、(ブロック表現を画像にわたって反対方向に均一に適用する)[Stanford1]のアプローチで利用されるskip−Macroblock情報を適合的に用いて、当該特徴を使用する。行列の中心では、空の領域が発生するのは非常に稀である。したがって、本発明の諸実施形態では、非常に大きなマクロブロックを使用し、skip−Macroblock情報の送信に対してはビットを殆ど使用しない。行列の側面では、より小規模なマクロブロックを適用して、より正確に空の領域を特定する。
図4では、1実施形態に従う、新たな行列表現の生成に関する走査段階の略図を示す。本図は、図1に関して説明した走査ステップ105を示す。ヒストグラム・マップ行列の要素を要素1、2、3、・・・、42で表す。
図4に示す1実施形態では、画像401を、画像の中心に配置された要素1、2、3、4、5、6(円)から当該画像の外縁に配置された要素21、22、・・・、41、42(三角形)へと走査する。走査した要素を、新たな行列表現を表す行列402に再マップする。図4に示す1実施形態では、行列402において行列要素を列方向に配置する。この走査手続きにより、画像401の中心に配置された要素1、2、3、4、5、6(円)が行列402の左に格納され、画像401の中心と周辺の間に配置された要素7、8、9、・・・、20(正方形)は行列402の中央に格納され、画像401の周辺に配置された要素21、22、・・・、41、42(三角形)は行列402の右に格納される。
図4には示していない中心から周辺へ走査する代替的な実施形態では、要素は行列402において行方向に配置される。この走査手続きにより、画像401の中心に配置された要素1、2、3、4、5、6(円)は行列402の上部に格納され、画像401の中心と周辺の間に配置された要素7、8、9、・・・、20(正方形)は行列402の中央部に格納され、画像401の周辺に配置された要素21、22、・・・、41、42(三角形)は行列402の下部に配置される。
図4に示した1実施形態では、画像401を、当該画像の外縁に配置された要素21、22、・・・、41、42(三角形)から画像の中心に配置された要素1、2、3、4、5、6(円)へと走査する。走査された要素は、新たな行列表現を表す行列402で提供される。1実施形態では、当該要素は行列402において列方向に配置される。この走査手続きにより、画像401の周辺に配置された要素21、22、・・・、41、42(三角形)は行列402の左に格納され、画像401の中心と周辺の間に配置された要素7、8、9、・・・、20(正方形)は行列402の中央に格納され、画像401の中心に配置された要素1、2、3、4、5、6(円)は行列402の右に配置される。
周辺から中心へと走査する代替的な実施形態では、主要点は行列402において行方向に配置される。この走査手続きにより、画像401の周辺に配置された要素21、22、・・・、41、42(三角形)は行列402の上部に格納され、画像401の中心と周辺の間に配置された要素7、8、9、・・・、20(正方形)は行列402の中央部に格納され、画像401の中心に配置された要素1、2、3、4、5、6(円)は行列402の下部に格納される。
行列402は、記述子の位置情報の表現を提供する。主要点は画像の中心から1つの側へ、即ち、別の行列表現の左、右、上、または下にマップされる。したがって、画像の中心に通常配置される画像の関連情報が当該行列の1つの側にマップされる。したがって、当該行列は1つの側で密に占有された部分を有し、他方で疎に占有された部分を有する。当該行列構造または行列形式により、効率的な圧縮技術を適用することができる。
当該新たな行列形式は完全に可逆であり、この適合的なブロック表現を都合よく適用することができる。1実施形態では、当該新たな行列表現を以下のように生成する。
・マクロブロックの大きさを選ぶ(例えば、後述する図5と図6の例では128)。
・行列の空の境界を任意の操作として削除する。
・行列の中心から開始して、同心円環で実施する反時計回りまたは時計回りの走査によって、全ての画素を走査し、図4に示すように新たな行列形式で列方向または行方向に格納する。
1実施形態では、図4に示すように画素を同心の長方形で走査する。1実施形態では、画素を、同心の円、三角形、五角形、または他の幾何学的形状の上で走査する。
図1乃至4に関して説明した方法の1実施形態では、画像の走査は反時計回りまたは時計回りに実施される。図1乃至4に関して説明した方法の1実施形態では、画像の走査は当該画像の同心円環内の部分で実行される。図1乃至4に関して説明した方法の1実施形態では、別の行列表現が列方向または行方向で提供される。
図5は、1実施形態に従う、行列により表された1つの画像から抽出された1組の主要点の別の行列表現500の略図を示す。図から分かるように、図1乃至4に関して説明した方法に従って得られる新たな行列表現の左側は、元の行列の中央の要素を含み、右側よりも非常に密になっている。
図6は、1実施形態に従う、図5に示した別の行列表現500の適合的なブロック・ベースの行列分析600の略図を示す。
この新たな行列表現500から開始して、適合的ブロック・ベース分析を適用する。新たな行列表現500の左側に対して、MB_Sizeの大きさのマクロブロック、例えば、行列表現600の大きさに従い128画素×128画素のマクロブロックを適用する。新たな行列表現500の右側に対しては、MB_Sizeの大きさの一部(一般的には、MB_Size/2)のマクロブロック、例えば、行列表現600の大きさに従い64画素×64画素のマクロブロックを適用する。このように、空のマクロブロックに遭遇する確率が増大する。当該空のマクロブロックは、後続の圧縮技術を適用することにより排除することができる。1実施形態では、MB_Sizeの大きさのマクロブロックの数は画像にわたって固定されている。代替的な実施形態では、MB_Sizeの大きさのマクロブロックの数は行列内の列または行の数に従って変化している。次に、skip−Macroblockに関する0/1の指示をエントロピ符号化する。
図7は、1実施形態に従う位置情報圧縮方法202の略図を示し、以下では第1の実施形態と称する。第1の実施形態では図1乃至6に関して説明した動作の流れを使用する。
任意のステップである境界削除(211)の後、新たな行列表現(代替的な行列表現と称する)を、中心から同心円へと生成し(212)、図6に関する説明に従って適合的ブロック分析214を適用する。当該分析の結果、即ち、skip−Macroblockと非空マクロブロックの行列要素に関する情報を後続のステップ216と217でエントロピ符号化する。圧縮された情報をヒストグラム数の圧縮(220)と結合して、位置情報の圧縮段階を完了する。ビット・ストリーム生成(240)を当該圧縮された情報で実施する。
1実施形態では、境界排除(211)は、局所的特徴が決定されていない画像の外縁部を排除することによって画像のサイズを縮小するステップを含む。当該縮小は、別の行列表現の生成(212)に対応する画像の走査の前に実施される。
1実施形態では、適合的ブロック・ベース分析214により、図6に関して説明したように、別の行列表現を様々なサイズのマクロブロックに分割する。画像の中心またはその周りに配置された主要点を保持するマクロブロックのサイズは、画像の周辺に配置された主要点を保持するマクロブロックよりも大きい。1実施形態では、位置情報の行列表現が、画像の中心およびその周りに配置された主要点を提供するための、第1の数、例えば図6の説明によれば3個、または、他の任意の数のMB_Sizeの大きさのマクロブロックと、画像の周辺に配置された主要点を提供するための、第2の数、例えば図6の説明によれば14個、または、他の任意の数の、マクロブロックの一部、例えば、図6の説明によればMB_Sizeの4分の1またはMB_Sizeの任意の割合のマクロブロックとを含む。1実施形態では、第1の数のMB_Sizeの大きさのマクロブロックを画像にわたって固定する。代替的な実施形態では、第1の数のMB_Sizeの大きさのマクロブロックは圧縮画像の行列表現のサイズ、特に、行列表現の列または行の数に依存する。
1実施形態では、skip−Macroblockビット・シーケンスを使用して、位置情報を保持しない行列表現の空のマクロブロックを特定する。図6によれば、skip−Macroblockビット・シーケンス{1、0、1、1、1、1、1、1、1、1、0、0、1、1}は、MB_Sizeの何分の1かの大きさの第2の数のマクロブロックのうち空のマクロブロックを示し、「1」は非空マクロブロックを、「0」は空のマクロブロックを示す。
復号器は、逆の操作を逆順に適用する。1実施形態では、復号器は、画像の外縁に位置する主要点から画像の中心に配置された主要点へまたはその逆に行列表現の要素を逐次的に通過する1組の主要点の位置情報の行列表現を解凍する。当該画像の各主要点は記述子により記述され、当該記述子は、画像内の主要点の位置を示す位置情報を含み、局所的特徴が当該主要点を囲む有向パッチから計算される。
図8は、1実施形態に従う位置情報圧縮方法203の略図を示し、以下では第2の実施形態と称する。
画像圧縮方法203は、図7に関して説明したステップ211、212、214、216、217、220および240を含み、別の行列表現の生成ステップ212と適合的ブロック・ベース分析214の間に空要素を排除する任意のステップ213をさらに含む。
別の行列表現を生成するステップ212の後、空の領域を排除するための新たな方法を適用する。空の行と列が排除される上述のような参照モデルの解決策と対称的に、ここで説明する方法は、新たな行列表現の構築中に空の同心円環を特定することである。符号化されたビット・ストリームでは、同心円環が空であるか否かを示すために1ビットを使用する。ここで提供するアプローチの利点は、画像内の行および列ごとに1ビットを使用するのではなく、(その数が、小さい行列次元の半分に等しい)同心円環ごとに1ビットのみが使用されるということである。
図8から分かるように、空要素を排除する追加のステップ213では、空の同心円環の排除が上述のように行われる。1実施形態では、空要素を排除するステップ213では、図3の説明に従って空要素が局所的特徴を保持しない画像の同心円環に対応する圧縮画像の行列表現の空要素を排除する。復号器は、逆の操作を逆順に適用する。
図9は、1実施形態に従う位置情報圧縮方法204の略図を示し、以下では第3の実施形態と称する。
画像圧縮方法204は、図8に関して説明したステップ211、212、213、214、216、217、220および240を含み、さらに、適合的ブロック・ベース分析のステップ214の後にブロックごとの非空要素の数に基づくコンテキストを生成する任意のステップ215を含む。コンテキストを生成するステップ215の結果が、行列要素の算術エントロピ符号化のステップ217に入力される。
第3の実施形態では、コンテキスト・モデリングを適用して、緩やかな複雑度の増大を犠牲にして圧縮効率を優先する。2つの異なるコンテキスト・モデルを適用することができる。第1の実施形態では、コンテキスト・モデリングをマクロブロックに対して、新たな行列表現の同一位置にあるマクロブロックに対応するトレーニング・セット内の非空セルの平均数に基づいて適用する。当該アプローチは、位置が予め分かっているので、圧縮されたビット・ストリーム内に余分なビットは不要であるという利点がある。第2の実施形態では、コンテキスト・モデリングが、現在分析されているマクロブロック内の要素の数に基づいて適用される。このケースでは、各マクロブロック内の非空セルの数を送信するために、圧縮されたビット・ストリームにおいて余分なビットを費やす必要がある。
1実施形態では、図7に関して説明したエントロピ符号化したskip−Macroblockビット・シーケンスと圧縮画像の行列表現の非空マクロブロックのエントロピ符号化した位置情報を結合することによって、圧縮行列を提供する。当該位置情報は、図9のステップ215で示したように非空マクロブロック内の非空要素の平均数を利用するコンテキスト・モデルを用いることによってエントロピ符号化される。復号器は逆の操作を逆順に適用する。
図10は、1実施形態に従う、画像の位置情報を当該画像の1組の主要点の位置情報の行列表現から再構築するための方法1000の略図を示す。
方法1000は、当該画像の1組の主要点の位置情報の行列表現を所定の順序に従って解凍するステップ1001を含む。当該画像の局所的特徴は当該主要点を囲む有向パッチから計算される。
1実施形態では、方法1000はさらに、skip−Macroblockビットをエントロピ復号化するステップを含む。1実施形態では、方法1000はさらに、非空セルに関連する位置情報をエントロピ復号化するステップを含む。
図11は、1実施形態に従う位置情報符号化器1100のブロック図を示す。位置情報符号化器1100は、図1乃至9に関して説明した方法の1つを実施する、即ち、1組の主要点を当該画像から提供し、当該1組の主要点の位置情報を二値行列の形で記述し、当該二値行列を所定の順序に従って走査することによって、当該1組の主要点の当該位置情報の新規表現を生成するように構成されたプロセッサ1101を備える。1実施形態では、プロセッサ1101は、当該1組の主要点の位置情報の当該新規表現を別の二値行列の形または別の適切な形で出力するように構成される。
1実施形態では位置情報符号化器1100は、画像の中心に配置された要素から始まり当該画像の外縁に配置された要素へまたはその逆へ向かってヒストグラム・マップ行列を走査して新たな行列表現を提供し、以下のステップ、即ち、適合的ブロック分析とエントロピ符号化を適用して圧縮された記述子の位置情報を取得するようにさらに構成される。
図11は、画像をその入力1103で受信し位置情報のみをその出力1105で提供する位置情報符号化器1100を示す。しかし、他の様々な情報、例えば記述子等をその出力1105で提供することができる。
図12は、1実施形態に従う位置情報復号器1200のブロック図を示す。画像復号器1200は、図10に関して説明した方法を実施する、即ち、当該画像の1組の主要点の位置情報の行列表現を所定の順序に従って解凍することによって当該画像の局所的特徴を当該画像の1組の主要点の位置情報の行列表現から再構築するように構成されたプロセッサ1201を備える。当該画像の当該局所的特徴は当該主要点を囲む有向パッチから計算される。
図12は位置情報をその入力1203で受信するのみである位置情報復号器1200を示す。しかし、他の様々な情報、例えば、記述子等をその入力で受信することができる。
以上から、様々な方法、システム、記録媒体上のコンピュータ・プログラム等が提供されることは当業者には明らかである。
本発明はまた、実行されたときに少なくとも1つのコンピュータに本明細書で説明した諸ステップの実施と計算を実行させる、コンピュータ実行可能コードまたはコンピュータ実行可能命令を含むコンピュータ・プログラム製品もサポートする。
本発明はまた、本明細書で説明した諸ステップの実施と計算を実行するように構成されたシステムもサポートする。
以上の教示事項に鑑みて、多数の代替物、修正物、および変形は当業者には明らかである。勿論、本明細書の開示事項を超える多数の本発明の適用があることは当業者には容易に理解される。1つまたは複数の特定の実施形態を参照して本発明を説明したが、本発明の範囲を逸脱しない多数の変更を加えうることは当業者には理解される。したがって、添付の特許請求の範囲およびその均等物において、本発明を本明細書で具体的に説明したもの以外で実施してもよいことは理解される。
1501 クライアント
1503 サーバ
1505 主要点識別
1507 特徴計算
1509 特徴選択
1511 符号化
1513 マッチング
1519 復号化
1523 主要点識別
1525 特徴計算
1527 幾何的一貫性チェック

Claims (18)

  1. 画像を処理するための方法(100)であって、
    1組の主要点を前記画像から提供するステップ(100)と、
    前記1組の主要点の位置情報を二値行列の形で記述するステップ(103)と、
    前記二値行列を所定の順序に従って走査することによって、前記1組の主要点の前記位置情報の新規表現を生成するステップ(105)と、
    を含む、方法(100)。
  2. 前記二値行列を所定の順序に従って走査するステップ(105)は、
    前記二値行列を、前記画像の関心領域またはその周囲に配置された主要点から開始して前記画像の外縁に位置する主要点に向かって走査するか、または、前記画像の外縁に位置する主要点から開始して前記画像の関心領域またはその周囲に配置された主要点に向かって走査するステップ(105)と、
    を含む、請求項1に記載の方法(100)。
  3. 前記画像の前記関心領域は前記画像の中心にあるかまたは前記画像の中心の周囲にある、請求項2に記載の方法(100)。
  4. 前記二値行列(401)を走査するステップ(105)は反時計回りまたは時計回りに実施される、請求項1乃至3の何れか1項に記載の方法(100)。
  5. 前記二値行列(401)を走査するステップ(105)は同心円環内の部分で実行される、請求項1乃至4の何れか1項に記載の方法(100)。
  6. 前記1組の主要点の位置情報の前記新規表現は別の二値行列(402)の形態をとる、請求項1乃至5の何れか1項に記載の方法(100)。
  7. 前記別の二値行列(402)は列方向または行方向に生成される、請求項6に記載の方法(100)。
  8. 前記1組の主要点の主要点ごとに、記述子が前記主要点を囲む有向パッチから計算される、請求項6または7に記載の方法(100)。
  9. 前記二値行列は空セルと非空セルから成るヒストグラム・マップであり、非空セルは前記画像における主要点の位置を表す、請求項6乃至8の何れか1項に記載の方法(100)。
  10. 前記1組の主要点の位置情報の前記新規表現を圧縮するステップをさらに含む、請求項6乃至9の何れか1項に記載の方法(100)。
  11. 前記1組の主要点の位置情報の前記新規表現を圧縮するステップは、
    位置情報を有しない前記二値行列の外縁部を排除することによって前記二値行列のサイズを縮小するステップ(211)であって、前記縮小するステップ(211)は前記二値行列を走査するステップ(105、212)の前に実施されるステップ
    を含む、請求項10に記載の方法(100)。
  12. 前記1組の主要点の位置情報の前記新規表現を圧縮するステップは、
    非空値を有さない前記二値行列の同心円環に対応する前記別の二値行列の空要素を排除するステップ(213)
    を含む、請求項10に記載の方法(100)。
  13. 前記別の二値行列(402)は様々なサイズのマクロブロックに分割され、前記画像の関心領域またはその周囲に配置された主要点の位置情報を有するマクロブロックのサイズは、前記画像の外縁に位置する主要点の位置情報を有するマクロブロックよりも大きい、請求項6乃至12の何れか1項に記載の方法(100)。
  14. エントロピ符号化が、前記別の二値行列(402、212)のskip−Macroblock情報(216)に適用され、前記別の二値行列(402、212)の非空マクロブロック(217)に適用される、請求項13に記載の方法(100)。
  15. エントロピ符号化を適用するときにコンテキスト生成(215)を適用する、請求項14に記載の方法(100)。
  16. 画像の局所的特徴を前記画像の1組の主要点の位置情報の行列表現から再構築するための方法(1000)であって、
    前記画像の前記1組の主要点の位置情報の前記行列表現を所定の順序に従って解凍するステップ(1001)であって、前記画像の前記局所的特徴は前記主要点を囲む有向パッチから計算されるステップ
    を含む、方法。
  17. 1組の主要点を画像(1103)から提供し(101)、
    前記1組の主要点の位置情報を二値行列の形で記述し(103)、
    前記二値行列を所定の順序に従って走査することによって、前記1組の主要点の前記位置情報の新規表現(1105)を生成する(105)
    ように構成されたプロセッサ(1101)を備えた、位置情報符号化器(1100)。
  18. 画像の1組の主要点の位置情報の行列表現を所定の順序に従って解凍する(1001)ことによって前記画像の前記1組の主要点の前記位置情報の前記行列表現(1203)から前記画像の局所的特徴(1205)を再構築するように構成されたプロセッサ(1201)を備えた、位置情報復号器(1200)。
JP2015504871A 2012-04-20 2012-04-20 画像処理方法 Active JP5962937B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/057300 WO2013156084A1 (en) 2012-04-20 2012-04-20 Method for processing an image

Publications (2)

Publication Number Publication Date
JP2015519785A true JP2015519785A (ja) 2015-07-09
JP5962937B2 JP5962937B2 (ja) 2016-08-03

Family

ID=46046135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015504871A Active JP5962937B2 (ja) 2012-04-20 2012-04-20 画像処理方法

Country Status (6)

Country Link
US (1) US9420299B2 (ja)
EP (1) EP2801190B1 (ja)
JP (1) JP5962937B2 (ja)
KR (1) KR101605173B1 (ja)
CN (1) CN104012093B (ja)
WO (1) WO2013156084A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014105385A1 (en) * 2012-12-27 2014-07-03 The Regents Of The University Of California Anamorphic stretch image compression
US9147132B2 (en) * 2013-09-11 2015-09-29 Digitalglobe, Inc. Classification of land based on analysis of remotely-sensed earth images
CN105934757B (zh) * 2014-01-30 2019-06-07 华为技术有限公司 一种用于检测第一图像的关键点和第二图像的关键点之间的不正确关联关系的方法和装置
AU2016262259B2 (en) * 2015-05-12 2019-01-17 Samsung Electronics Co., Ltd. Image decoding method for performing intra prediction and device thereof, and image encoding method for performing intra prediction and device thereof
EP3110153A1 (en) * 2015-06-22 2016-12-28 Technische Universität München Keypoint data encoding
US10163227B1 (en) * 2016-12-28 2018-12-25 Shutterstock, Inc. Image file compression using dummy data for non-salient portions of images
US20180181844A1 (en) * 2016-12-28 2018-06-28 Facebook, Inc. Systems and methods for presenting content based on unstructured visual data
US10298837B2 (en) 2016-12-28 2019-05-21 Facebook, Inc. Systems and methods for presenting content based on unstructured visual data
CN107340460A (zh) * 2017-05-11 2017-11-10 国家电网公司 一种状态检测数据特征参数提取及规范化转换的方法
CN107229935B (zh) * 2017-05-16 2020-12-11 大连理工大学 一种三角形特征的二进制描述方法
US10739461B2 (en) 2017-12-11 2020-08-11 Ford Global Technologies, Llc Lidar point cloud compression
CN115841486B (zh) * 2023-02-20 2023-04-25 深圳市特安电子有限公司 一种气体感知红外图像处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006222982A (ja) * 2006-03-20 2006-08-24 Toshiba Corp 動画像信号処理装置
JP2008172810A (ja) * 2001-11-26 2008-07-24 Electronics & Communications Research Inst 画像画質向上因子を利用した知能型波紋スキャン装置及びその方法と、それを利用した画像符号化/復号化装置及びその方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3071205B2 (ja) * 1990-01-23 2000-07-31 オリンパス光学工業株式会社 画像データの符号化装置および符号化方法
ZA959491B (en) * 1994-12-21 1996-06-29 Eastman Kodak Co Method for compressing and decompressing standardized portait images
JP2009545935A (ja) * 2006-08-04 2009-12-24 トムソン ライセンシング 符号化及び復号方法、その方法を実行する装置、並びにビットストリーム
KR101323439B1 (ko) 2008-11-12 2013-10-29 보드 오브 트러스티스 오브 더 리랜드 스탠포드 주니어 유니버시티 특징 디스크립터를 표현하고 식별하는 방법, 장치 및 컴퓨터 판독가능 저장 매체
US8639034B2 (en) * 2010-11-19 2014-01-28 Ricoh Co., Ltd. Multimedia information retrieval system with progressive feature selection and submission
US8571306B2 (en) * 2011-08-10 2013-10-29 Qualcomm Incorporated Coding of feature location information
US8866924B2 (en) * 2011-10-28 2014-10-21 Hewlett-Packard Development Company, L.P. Local image feature descriptors according to circular distribution information
US9204112B2 (en) * 2012-02-07 2015-12-01 Stmicroelectronics S.R.L. Systems, circuits, and methods for efficient hierarchical object recognition based on clustered invariant features
KR101912748B1 (ko) * 2012-02-28 2018-10-30 한국전자통신연구원 확장성을 고려한 특징 기술자 생성 및 특징 기술자를 이용한 정합 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008172810A (ja) * 2001-11-26 2008-07-24 Electronics & Communications Research Inst 画像画質向上因子を利用した知能型波紋スキャン装置及びその方法と、それを利用した画像符号化/復号化装置及びその方法
JP2006222982A (ja) * 2006-03-20 2006-08-24 Toshiba Corp 動画像信号処理装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JPN5015005417; Blaszak, L., et.al.: '"Spiral Coding Order of Macroblicks with Applications to SNR-Scalable Video Compression"' Proc. of the IEEE Int. Conf. on Image Processing 2005 (ICIP 2005) Vol.3, 20050914, p.688-691 *
JPN6015047892; Lowe, D.G.: '"Distinctive Image Features from Scale-Invariant Keypoints"' International Journal of Computer Vision Vol.60, No.2, 2004, p.91-110 *
JPN6015047893; Bay, H., et.al.: '"Speeded-Up Robust Features (SURF)"' Computer Vision and Image Understanding (CVIU) Vol.110, No.3, 2008, p.346-359 *
JPN7015003354; Sam S. Tsai, et.al.: '"Location Coding for Mobile Image Retrieval"' Proc. of the 5th International ICST Mobile Multimedia Communication Conference (Mobimedia '09) , 20090909 *

Also Published As

Publication number Publication date
CN104012093B (zh) 2018-02-02
JP5962937B2 (ja) 2016-08-03
US9420299B2 (en) 2016-08-16
US20150036939A1 (en) 2015-02-05
KR20140142272A (ko) 2014-12-11
EP2801190B1 (en) 2018-08-15
KR101605173B1 (ko) 2016-03-21
WO2013156084A1 (en) 2013-10-24
EP2801190A1 (en) 2014-11-12
CN104012093A (zh) 2014-08-27

Similar Documents

Publication Publication Date Title
JP5962937B2 (ja) 画像処理方法
Tsai et al. Location coding for mobile image retrieval
US8855437B1 (en) Image compression and decompression using block prediction
Javed et al. A review on document image analysis techniques directly in the compressed domain
Duan et al. Compact descriptors for visual search
US7860328B2 (en) Compression processing apparatus and compression processing method
JP2014525183A (ja) 2dマトリクスにエンコーディングパラメータを保存する画像圧縮のための方法および装置
EP2742486A2 (en) Coding of feature location information
US20170026665A1 (en) Method and device for compressing local feature descriptor, and storage medium
Yue et al. SIFT-based image compression
Vázquez et al. Using normalized compression distance for image similarity measurement: an experimental study
Kumar et al. Near lossless image compression using parallel fractal texture identification
EP3343445A1 (en) Method and apparatus for encoding and decoding lists of pixels
US20140133550A1 (en) Method of encoding and decoding flows of digital video frames, related systems and computer program products
Park et al. RGB no more: Minimally-decoded JPEG Vision Transformers
Chu et al. A digital image watermarking method based on labeled bisecting clustering algorithm
EP2946362B1 (en) Context based histogram map coding for visual search
Agarwal et al. Blind robust watermarking of 3d motion data
CN113422965A (zh) 一种基于生成对抗网络的图像压缩方法及装置
Sodsong et al. JParEnt: Parallel entropy decoding for JPEG decompression on heterogeneous multicore architectures
US20240121439A1 (en) Point cloud attribute information encoding method and apparatus, point cloud attribute information decoding method and apparatus, and related device
US20240005562A1 (en) Point cloud encoding method and apparatus, electronic device, medium and program product
Kim et al. A novel image retrieval scheme using DCT filter-bank of weighted color components
Kim et al. Area-ware adaptive image compression
US9800876B2 (en) Method of extracting error for peak signal to noise ratio (PSNR) computation in an adaptive scalable texture compression (ASTC) encoder

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160614

R150 Certificate of patent or registration of utility model

Ref document number: 5962937

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250