JP2019514100A - イメージベースオブジェクト認識のための画像特徴組み合わせ - Google Patents
イメージベースオブジェクト認識のための画像特徴組み合わせ Download PDFInfo
- Publication number
- JP2019514100A JP2019514100A JP2018546693A JP2018546693A JP2019514100A JP 2019514100 A JP2019514100 A JP 2019514100A JP 2018546693 A JP2018546693 A JP 2018546693A JP 2018546693 A JP2018546693 A JP 2018546693A JP 2019514100 A JP2019514100 A JP 2019514100A
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature
- features
- computers
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 68
- 239000002131 composite material Substances 0.000 claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 238000001514 detection method Methods 0.000 claims description 16
- 238000003384 imaging method Methods 0.000 claims description 12
- 238000005286 illumination Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 6
- 101100126955 Arabidopsis thaliana KCS2 gene Proteins 0.000 claims description 4
- 241000132023 Bellis perennis Species 0.000 claims description 4
- 235000005633 Chrysanthemum balsamita Nutrition 0.000 claims description 4
- 210000001525 retina Anatomy 0.000 claims description 4
- 238000002591 computed tomography Methods 0.000 claims description 3
- 238000002604 ultrasonography Methods 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims 8
- 230000001131 transforming effect Effects 0.000 abstract description 3
- 238000012795 verification Methods 0.000 abstract description 2
- 238000004590 computer program Methods 0.000 description 16
- 230000000694 effects Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 14
- 230000015654 memory Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 230000002085 persistent effect Effects 0.000 description 4
- 238000009877 rendering Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000002059 diagnostic imaging Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000002595 magnetic resonance imaging Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- 108010068977 Golgi membrane glycoproteins Proteins 0.000 description 1
- 208000004547 Hallucinations Diseases 0.000 description 1
- 241000282320 Panthera leo Species 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010428 oil painting Methods 0.000 description 1
- 238000007557 optical granulometry Methods 0.000 description 1
- 230000003647 oxidation Effects 0.000 description 1
- 238000007254 oxidation reaction Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/10—Selection of transformation methods according to the characteristics of the input images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/28—Indexing scheme for image data processing or generation, in general involving image processing hardware
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
画像認識検索を改善する方法、システム、および製品を開示する。実施形態において、既知オブジェクトの第1文書イメージを用いて、1以上の画像合成技術を適用することにより、同じオブジェクトの1以上の他文書イメージを生成する。合成画像は、クエリイメージ候補をキャプチャする可能性がある条件における変動に対応する。既知オブジェクトの初期画像から抽出した特徴と1以上の合成画像から抽出した特徴を、これらの位置とともに、既知オブジェクトの共通モデルの一部として格納する。他実施形態において、同じ既知オブジェクトの複数画像の特徴位置を共通座標系へ変換することにより、画像認識検索効率を改善する。これにより、例えば幾何的検証などを含む既存の画像検索/認識技術のある側面の精度を向上させることができる。【選択図】図3
Description
<関連出願への相互参照>
本願は、2016年3月8日に出願された米国仮特許出願第62/305,525号の優先権を主張する。同文献の全内容は参照により本願に組み込まれる。
本願は、2016年3月8日に出願された米国仮特許出願第62/305,525号の優先権を主張する。同文献の全内容は参照により本願に組み込まれる。
本開示は、イメージベースオブジェクト認識に関する。様々な特徴検出アルゴリズムが、イメージベースオブジェクト認識のために用いられている。最も基本的なレベルにおいて、特徴検出アルゴリズムは、イメージベースオブジェクト認識、検索、および取得のために画像の特徴(例:形状、オブジェクト、など)を特徴付け、要約し、インデックス化する手段を提供する記述子を生成する。イメージベースオブジェクト認識のための特徴検出アルゴリズムの1例は、スケール不変特徴変換(SIFT)特徴検出アルゴリズムであり、例えばLoweの米国特許6,711,293号に記載されているものである。例えばSIFT特徴検出アルゴリズムを画像に適用して、当該画像内の複数の特徴の記述表現を生成することができる。
マシンベースオブジェクト認識は一般に2つのステップを有する。第1に、特徴検出アルゴリズム(例:SIFT特徴検出アルゴリズム)を用いて既知オブジェクトのトレーニングイメージを分析するステップであり、これは画像データ内の特徴に対応する記述表現を生成する。異なるオブジェクトに対応する記述表現は、認識デバイス(例:スマートフォン)へ配信するために、認識ライブラリまたはデータベースとしてパッケージ化することができる。既知オブジェクトに対応する画像および/または記述表現データは、本明細書において“文書イメージ”と呼ぶ場合がある。これは単に任意の画像情報を参照するラベルであり、例えば既知オブジェクトに対応する特徴記述表現である。第2に、認識デバイスはオブジェクトの新たな“クエリ”画像をキャプチャする。認識デバイスはクエリイメージに対して同じ画像処理アルゴリズムを適用し、これによりクエリイメージ記述表現を生成する。デバイスは次に、クエリイメージ記述表現を認識ライブラリ内のトレーニングイメージ記述表現と比較する。十分合致すれば(通常は最も近接する合致)、クエリイメージは既知オブジェクトのうち数なくとも1つの記述表現を含んでいるとみなされる。
最良の認識アルゴリズムは、1以上の画像パラメータに対して不変であることを指向しているが、実際には計算した特徴記述表現は例えば照明、方向、その他要因に基づき変化する。これにより、正確で高速な認識は困難となる。特定のオブジェクトを含むクエリイメージは、画像特徴をオブジェクト認識データベースに格納する同じオブジェクトの画像とは異なる条件下でキャプチャされる場合があるからである。したがって同じ特徴記述表現は、異なる条件でキャプチャされた同じオブジェクトの別画像において、ある程度異なる値を有する場合がある。同じオブジェクト認識データベース内に同じ既知オブジェクトの複数の画像を格納することが知られている。この複数の画像は、異なる条件(例:照明、方向、など)でキャプチャされたものである。しかし本願発明者等は、同じオブジェクトの様々なキャプチャ条件を反映するオブジェクト認識データベースの利点を得るために、同じオブジェクトの複数のキャプチャ画像を有する必要はないことを見出した。本願発明者等は、画像キャプチャに対応する現実世界の条件変化に対応する変動を有する複数の画像を合成する既存技術を用いて、画像認識データベースのオブジェクトモデルを充填できることを見出した。
したがって本発明の実施形態は、既知オブジェクト(本明細書において文書イメージと呼ぶ場合もある)の第1画像を用いて、前記第1文書イメージから画像を合成する1以上の技術を適用することにより、同じオブジェクトの1以上の他文書イメージを生成する、方法、システム、製品を含む。前記1以上の合成した他文書イメージは、クエリイメージ候補がキャプチャされる条件の変動に対応する。この変動の例としては、照明条件(例えば時刻および/または天候変動)や撮影地点(すなわち、同じオブジェクトを異なる視点から撮影する)の変動が含まれるが、これらに限らない。変動の中には特定の文脈に固有のものもある。例えば医療画像の文脈において、組織密度の変動は同じ既知オブジェクトの異なる画像をもたらす。変動の例としては撮像機器(例:X線、MRI、CATスキャン、超音波、など)の変動も含まれる。既知オブジェクトの初期画像から抽出した特徴と1以上の合成画像から抽出した特徴を、既知オブジェクトの共通モデルの一部として、その場所とともに格納する。望ましい実施形態において、合成文書イメージ内の特徴の場所は、合成文書イメージを生成した初期文書イメージの特徴の場所と同じ座標系において表される。これにより座標変換を実施する必要がなくなる。
本願発明者等は、2以上の個別にキャプチャした同じ既知オブジェクトの文書イメージを利用できるとき、複数画像の特徴の場所を共通座標系へ変換することにより、画像認識検索効率を改善できることを見出した。したがって本発明の他実施形態において、複数のキャプチャ文書イメージから抽出した特徴の場所は、複数文書イメージのうちいずれかに対応する座標システムへ変換される。この共通座標系における抽出した特徴とその位置は、既知オブジェクトのモデルの一部として格納される。これにより、既存の画像検索/認識技術(例えば幾何的検証)のある側面の精度を向上させることができる。
本発明の他の側面は、以下の詳細説明と図面からより明らかになるであろう。図面において同様の符号は同様のコンポーネントを表している。
上記図面を参照して本発明を記載したが、これら図面は説明目的を意図しており、他実施形態も本発明の要旨に整合するとともに本発明の範囲内である。
以下に図面を参照しながら様々な実施形態を説明する。図面は本願の一部を形成し、本実施形態を実施する具体例を例示する。ただし本明細書は様々な形態で実施することができ、本明細書が記載する実施形態に限定して解釈すべきではない。むしろこれら実施形態は、本明細書が包括的かつ完全なものとなるように提供され、当業者に対して本発明の範囲を完全に伝えるものである。本明細書は方法またはデバイスとして実施することができる。したがって本明細書の様々な実施形態は、完全にハードウェア実装した形態、完全にソフトウェア実装した形態、またはソフトウェアとハードウェアを組み合わせた形態をとることができる。したがって以下の説明は、限定的に解釈すべきではない。
図1は、画像認識ネットワーク1000の文脈における特徴組み合わせデバイス110を示す。文書イメージデータ103は、画像キャプチャデバイス101によって特徴組み合わせデバイス110に対して提供される。文書イメージデータ103は、既知オブジェクトのメタデータを含む画像データを有する。実施形態において文書イメージデータは、メタデータとともに表示可能画像ファイルを含む。ただし他実施形態において、画像データは表示可能デジタル画像から導出した画像データを含んでもよい。この導出画像データはそれ自体は画像表示のために用いることはできないものである。例えば画像認識検索において用いることができる1以上の特徴識別アルゴリズムに基づく画像特徴の記述表現である。
実施形態において、文書イメージデータ103に対応する文書イメージは、オブジェクトの2次元(2D)画像を表す。これは通常の写真、画像、ビデオフレームにおいて見られるものである。これに代えて対応する文書イメージは、非定型フィルタやレンズ(例:魚眼レンズ)を利用して生成した歪画像であってもよい。さらに文書イメージは、赤外(IR)フィルタ、X線、360度ビュー、などに基づくオブジェクトの機械ビューまたはロボットビューであってもよい。このように文書イメージデータ103に対応する文書イメージは、3次元オブジェクトの歪んでいないイメージ、赤外フィルタイメージ、X線イメージ、360度ビューイメージ、機械ビューイメージ、ビデオデータフレーム、画像レンダリング、および斜視ビューのうちいずれかであってよく、例えば画像キャプチャデバイス101などを介してビデオストリームのビデオフレームをキャプチャすることにより取得することができる。
実施形態において、画像キャプチャデバイス101のうちいずれかは、特徴組み合わせデバイス110の外部デバイス(図示している通り)または内部デバイスであってもよい。例えば画像キャプチャデバイス101は、通信ネットワークを介して特徴組み合わせデバイス110と接続されたリモートサーバ(例:Platform as a Service(PaaS)サーバ、Infrastructure as a Service(IaaS)サーバ、Software as a Service(SaaS)サーバ、クラウドベースサーバ)またはリモート画像データベースを備えていてもよい。他実施形態において画像キャプチャデバイス101は、画像および/またはビデオデータのフレームをキャプチャするように構成されたデジタル静止画像または映像カメラを備える。他実施形態において画像キャプチャデバイス101は、画像レンダリングエンジン(例:ゲームシステム、画像レンダリングソフトウェア、など)を備え、この場合における文書イメージはオブジェクトのキャプチャ画像ではなく生成した画像である。
画像特徴の記述表現は例えば、画像の1以上の識別可能特徴(例:形状、オブジェクト、など)に対応するベクトルである(表現上の効率のため、本命明細書における用語“画像特徴”は、表示可能画像に出現する特徴そのものではなく、画像特徴に対応する記述表現セットを暗黙的に指す場合がある)。画像特徴を検出して記述表現を生成する様々な方法が存在する。例えばスケール不変特徴変換(SIFT)は、画像特徴を検出して表現するために現在よく用いられている画像認識アルゴリズムである。SIFT記述子は128次元を有して識別性が高く(すなわち、マッチング目的のために識別可能である)、少なくとも部分的には変動に対して耐性を有する。ここでいう変動は例えば、照明、3次元(3D)視点、などである。例えばSIFT記述子を生成することに関する1つの参考文献は、D.Loweの“Distinctive Image Features from Scale−Invariant Keypoints”,International Journal of Computer Vision 60(2),pages91−110(2004)である。SIFT記述子に加えて、代替記述子としては以下が挙げられる:Fast Retina Keypoint(FREAK)記述子、Histograms of Oriented Gradient(HOG)記述子、Speeded Up Robust Features(SURF)記述子、DAISY記述子、Binary Robust Invariant Scalable Keypoints(BRISK)記述子、FAST記述子、Binary Robust Independent Elementary Features(BRIEF)記述子、Harris Corners記述子、Edges記述子、Gradient Location and Orientation Histogram(GLOH)記述子、Energy of image Gradient(EOG)記述子、Transform Invariant Low−rank Textures(TILT)記述子。
特徴組み合わせデバイス110は、同じ既知オブジェクトの異なる画像からの特徴を組み合わせ、その組み合わせ特徴をそのオブジェクトの共通モデルの一部として格納する。実施形態において、特徴を導出する複数の文書イメージは、キャプチャした画像である第1画像と、キャプチャ画像から合成した1以上の第2画像とを含む。詳細は以下で説明する。他実施形態において、特徴を導出する複数の文書イメージは、第1キャプチャ画像と、同じ既知オブジェクトの別途キャプチャした1以上の第2画像とを含む。これら実施形態において、個別キャプチャした1以上の第2画像からの特徴の場所は、既知オブジェクトの3次元モデルを用いて、第1キャプチャ画像の座標系へ変換される。詳細は以下で説明する。同じオブジェクトの個別にキャプチャした複数画像からの特徴(より正確にはこれら特徴の記述表現)は、共通座標系(例:第1キャプチャ画像の座標系)を参照する特徴場所情報とともに、既知オブジェクトの共通モデルの一部として、オブジェクト認識システム120内のオブジェクト認識データベース121内の組み合わせ特徴データ106として格納される。
画像キャプチャデバイス102はクエリイメージをキャプチャし、クエリイメージデータ104をオブジェクト認識システム120へ送信する。オブジェクト認識システム120は、クエリイメージデータ102内のまたはクエリイメージデータ102から導き出した画像特徴記述子を用いてオブジェクト認識データベースを検索し、画像キャプチャデバイス102がキャプチャした画像における1以上のオブジェクトとの1以上の合致を識別することを試みる。1以上の合致が存在する場合、これは画像キャプチャデバイス102に対して検索結果107として戻される。代替実施例において、クエリイメージデータは画像をキャプチャするデバイス以外のデバイスから送信することもできる。
図2は、既知オブジェクト200の第1キャプチャ画像201と第2合成画像202を示す。第2合成画像202は、画像201に対応するまたは画像201から導き出した画像データに対してアルゴリズムを適用することにより、第1画像201から生成したものである。選択するアルゴリズムは、画像をキャプチャする条件において予測される変動の効果を複製することを意図している。図2に示す例において、画像202は、別時刻において撮影したとすれば画像201がどのように見えるかの予測を表している。すなわち別時刻において予測される別の照明条件において撮影したときの予測である。別時刻に対応する修正画像を生成する既知のアルゴリズムは下記文献に記載されている:“Data Driven Hallucination of Different Times of day from a Single Outdoor Photo”,YiChang Shih,Sylvain Paris,Fredo Durand,and William T.Freeman,published in ACM Transactions on Graphics(TOG)−Proceedings of ACM SIGGRAPH Asia 2013,Volume32 Issue6,November 2013,Article No.200。図2に示す例において、オブジェクト200の画像202は、Shih et al.のアルゴリズムなどを画像201に対して適用することにより取得される。
様々な既知のアルゴリズムを用いて、キャプチャ画像から合成画像を生成することができる。合成画像は、様々な画像キャプチャ条件の予測変動の効果を効果的に複製することができる。この変動の例としては以下が挙げられるがこれに限らない:照明条件の変動(例えば時刻変化および/または天候変化によるもの)と撮影地点の変動(すなわち、同じオブジェクトを異なる視点から撮影する);撮影機器の変動(特に医療画像の文脈において関連するもの(例:X線、MRI、CATスキャン、超音波、など))。医療画像の文脈において、既知の技術により、第1撮影機器の画像から第2撮影機器の画像を合成することができる。例えば下記を参照:“Using image synthesis for multi−channel registration of different image modalities”,Min Chen et al.,Proc SPIE Int Soc Opt Eng.2015 February 21;“Unsupervised Cross−modal Synthesis of Subject−specific Scans”,Raviteja Vemulapalli et al.,2015 IEEE International Conference on Computer Vision(ICCV)。
実施形態において、共通オブジェクトモデルの一部として組み合わせ特徴セットのサブセットを選択して格納してもよい。これは例えば、共通ピクセル位置を有する第1画像と1以上の第2合成画像(第1画像を用いて導き出したもの)から共通位置特徴を判定することにより、組み合わせ特徴のロバスト特徴を識別するステップ、および、識別したロバスト特徴のみを選択して格納し、コンピュータオブジェクト認識検索において用いるステップによる。ロバスト特徴を識別するステップはさらに、第1画像と1以上の第2合成画像から特徴を抽出する特徴検出アルゴリズムの多次元特徴空間において規定距離内にある特徴を共通位置特徴から選択することにより、高ロバスト特徴を識別するステップを有してもよい。この実施形態において、識別した高ロバスト特徴は、コンピュータオブジェクト識別検索において用いるために選択される。ロバスト特徴を識別し用いるより効率的な蓄積および検索については、以下に記載されている:米国特許出願14/696,202号、2015年4月24日出願、発明の名称“ROBUST FEATURE IDENTIFICATION FOR IMAGE−BASED OBJECT RECOGNITION”。同出願の全内容は参照により本願に組み込まれる。
図3は、1以上の画像キャプチャデバイス101とオブジェクト認識システム120とともに動作して特徴組み合わせデバイス110が実施するプロセス300を示す。ステップ301において、第1文書イメージを受信する。これは実施形態において、既知オブジェクトのキャプチャ画像または上述のような既知オブジェクトのその他タイプの画像である。ステップ302において、第1文書イメージから1以上の合成画像を生成することにより、既知オブジェクトの1以上の第2文書イメージを生成する。1以上の第2イメージは、画像キャプチャ条件において予測される変動を複製するように合成される。ステップ303において、第1文書イメージ(例:キャプチャ画像)と1以上の第2合成画像から画像特徴を抽出する。ステップ304において、第1文書イメージからの特徴と1以上の合成画像からの特徴を、文書イメージの既知オブジェクトに対応する共通モデルの一部として格納する。
上述のように、既知オブジェクト画像が様々な条件下で撮影されていない場合であっても、この技術を用いて、画像認識データベース内のオブジェクトモデルに対してロバスト性を付与することができる。これは特定のアプリケーションにおいて特に有用である。医療画像において認識検索を実施する文脈については既に述べた。他例として、時間に対して繊細な活動および/または制御不能もしくは高速変化する文脈においても、本技術の利点を得ることができる。例えば探索/救助活動において、レスキュー隊は既知の人物または既知のオブジェクトの画像を有している場合があり、この画像は例えば特定の条件下でキャプチャされたものである。しかし、オブジェクトのリアルタイム画像は、全く異なる条件下でキャプチャされたものである場合があり、同じオブジェクトであることもあればそうでない場合もある。検索可能データベース内のオブジェクトモデルに格納するために用いる既知オブジェクトのキャプチャ画像を画像合成して、様々な条件下における既知オブジェクトの画像を複製する第2画像を生成することができる。例えば異なる照明条件、背景条件、天候条件、などである。オブジェクトに影響し得る他の要因も、1以上の合成画像生成プロセスを介して複製することができる。これは例えば、減衰、経年劣化、水分ダメージ、火ダメージ、酸化、その他オブジェクトに対する変化を複製するものである。1以上の合成画像からの特徴を用いて、既知オブジェクトのモデルをよりロバストにし、ユーザはクエリイメージが既知オブジェクトに対応するものであるか否かをより効率的に判定できる。
セキュリティ関連アプリケーションにおいて、様々なアルゴリズムを利用することができる。例えば、文書イメージ内のオブジェクトを、ビデオフレームにおいて見えるものと同様にぼかす(例:ガウシアンぼかし)、ぼかしフィルタを適用することができる。さらに文書イメージをダウンサンプリングして、粗画像効果をシミュレートすることができる。これら技術を救助関連アプリケーションにおいて用いて、移動車両や移動人物をトラッキングし、野生生物をトラッキングし、または移動中のその他物体をトラッキングすることができる。
このようなバリエーションにより、様々な文脈においてオブジェクト認識を向上させることができる。例えば家族写真分析、ソーシャルメディア認識、トラフィック分析である。またこの技術は、高ダイナミックレンジレンダリング(HDR)の文脈において用いることができる。例えばHDRを用いずにキャプチャした既知オブジェクト画像を合成して、様々な条件下におけるオブジェクトのHDR画像を模擬することができる。これを用いて、HDRクエリイメージを認識する際に用いるオブジェクトモデルを構築することができる。HDRクエリイメージは例えば、ビデオゲームなどにおいて生成されるものである。これとは反対に、既知オブジェクトのHDR画像を用いて、様々な条件下におけるオブジェクトの非HDR画像を合成することができる。これを非HDRクエリイメージによって検索するデータベース内のオブジェクトモデルとして格納することができる。さらに、バリエーションの例としては、画像編集ソフトウェア(例:PhotoShop(登録商標)、GIMP、など)などにおける1以上の人工フィルタを文書イメージに対して適用して、合成画像を生成することが挙げられる。人工フィルタの例としては以下が挙げられる:テクスチャフィルタ(例:キャンバス効果、色糸効果、など)、cartoon効果、キューブ化効果、印象派効果、ガラスタイル効果、油絵効果、フォトコピー効果、メディアタイプ効果(例:色鉛筆、パステル、水彩絵の具、など)、レリーフ効果、など。これら技術は、極限環境において撮影されるオブジェクトを認識しようとするとき有用である。例えばガラスタイルウインドウを介するときまたは極端に変更された著作権画像である。
図4は、2つの個別にキャプチャされた(または個別に生成された)既知オブジェクト400(この例においてはエッフェル塔)の画像からの特徴を組み合わせる特徴組み合わせプロセスを概念的に示す。第1文書イメージ410は、第2文書イメージ430とは別にキャプチャされたものである。既存技術を適用して、各画像内の区別可能特徴を識別することができる。このような特徴は、オブジェクト400の画像を他オブジェクトの画像から区別する際に有用であることが期待できる。説明目的のみのため、画像410においてそのような特徴を識別している。例えば特徴411、412、413、414である。画像430においてもそのような特徴を識別している。例えば特徴431、432、433である。先に述べた既存アルゴリズムを用いて、画像ベースオブジェクト認識検索のために特徴記述子を計算し、蓄積することができる。
画像内のこのような特徴の位置も、記述表現とともに格納することができる。この位置は、特定のピクセル座標を基準として格納することができる。個別にキャプチャした(または個別に生成した)画像は通常、個別のピクセル座標基準システムを有する。これを画像410の隣にXY座標によって示し、画像430の隣にVW座標によって示す。
本発明の実施形態において、既知オブジェクトの第2個別画像の特徴位置は、第1個別画像の特徴を表すために用いる同じ座標系において表している。両画像の特徴を組み合わせて、オブジェクトの共通モデルの一部として格納する。第2画像に配置されている特徴の第1画像座標系における適切な位置は、3Dモデルを用いた座標変換を介して取得される。図示する例において、3Dモデル420はオブジェクト400(エッフェル塔)を3D座標ABCで表している。画像430において座標VWで表している位置は、既存技術を用いて、座標ABCで表す3Dモデル420へ投影することができる。次に3Dモデル420において座標ABCを用いて表している位置は、既存技術を用いて、座標XYで表す画像410内の位置へ投影することができる。例えば画像430において、特徴431は座標VWにおいて(V1,W1)として表される位置L1を有する。位置L1を3Dモデル420へ投影すると、モデル上で位置L1’となり、これは座標ABCにおいて(A1,B1,C1)として表すことができる。次に、3Dモデル420における位置L1’を画像410へ投影する。これは画像410において位置L’’を有し、座標XYにおいて(X1,Y1)として表すことができる。このように、同じ既知オブジェクトの複数の個別画像における特徴位置は、単一の座標系において表すことができる。この例においては画像410のXY座標系である。よって、画像430における特徴431の記述子が計算されると、これを座標系XYにおける位置(X1,Y1)として格納できる。画像410と430からの特徴は、画像410の座標を用いてこのように格納され、これはオブジェクト認識システム120のオブジェクト認識データベース121内のオブジェクト400の共通モデルの一部となる。オブジェクト400の任意個数のその他個別画像における位置に対応する特徴位置は、以下の同様のプロセスにしたがって画像410のXY座標へ変換することができる:(1)別画像の特徴位置をABC座標で表される3Dモデル420の位置へ投影する;(2)モデル420におけるその3D位置を画像410のXY座標で表される位置へ投影する。
図5は、1以上の画像キャプチャデバイス101とオブジェクト認識システム120とともに動作する特徴組み合わせデバイス110が実施するプロセス500を示す。プロセス500は、第2画像の座標系から第1画像の座標系で表される位置へ特徴位置を変換することにより、同じ既知オブジェクトの2以上の個別キャプチャした画像からの特徴を組み合わせるプロセスを実装している(図4で概念的に示したもの)。ステップ501において、同じ既知オブジェクトの2以上の個別キャプチャ画像または個別生成画像を受信する。ステップ502において、各画像の区別可能特徴(記述子を計算することができるもの)を識別する。各特徴の対応する位置も判定される。ステップ503において、既知オブジェクトの3Dモデルを用いて、第2個別画像における特徴位置を第1個別画像の座標系における位置へ変換する。例えば、同じ既知オブジェクトの第1画像、第2画像、第3画像が存在し、第1画像、第2画像、第3画像における特徴位置が第1座標系、第2座標系、第3座標系において表されている場合、第2画像における特徴位置は3Dモデルを用いて第1画像の座標系における位置へ変換される。同様に第3画像における特徴位置も、3Dモデルを用いて、第1画像の座標系における位置へ変換される。ステップ504において、複数の個別画像からの全ての特徴(より正確には、これら特徴から計算した記述子)を、(共通座標系において表される特徴位置とともに)既知オブジェクトの共通モデルの一部として格納する。この方法を適用して、同じ既知オブジェクトの任意個数の個別キャプチャ(または個別生成)画像からの特徴を組み合わせることができる。
図3の方法300と図5の方法500は、他方から独立して用いることができ、あるいは一緒に用いることができる。換言すると本発明の実施形態は、方法300を用いて、第1画像からの特徴を1以上の第2画像の特徴と組み合わせ、1以上の第2画像は第1画像から合成することができる。本発明の他実施形態は、方法500を用いて、特徴位置を共通座標系へ変換することにより、同じ既知オブジェクトの個別キャプチャ画像からの特徴を組み合わせることができる。他実施形態は、同じ既知オブジェクトの共通モデルを構築する際に両方法を用い、これを画像ベースオブジェクト認識において用いることができる。例えばモデルは、同じ既知オブジェクトの5つの画像(画像1、画像2、画像3、画像4、画像5)からの特徴記述子を含む。画像1、画像2、画像3は例えば個別キャプチャ(または個別生成)画像である。画像2と画像3からの特徴は、方法500を用いてこれら画像の特徴位置を画像1に対応する座標系における座標として表される特徴位置へ変換することにより、画像1の特徴と組み合わせることができる。ただし、画像4と画像5は画像1から合成することができ、これら画像内の特徴位置は画像1の座標系によって既に表されていることになる。5画像からの特徴は、方法300と方法500の組み合わせを用いて、同じオブジェクトモデルの一部として格納することができる。第1アルゴリズムの次に第2アルゴリズムを適用することにより、必ずしもその反対順序で適用したときと同じ記述子セットが生成されるわけではないことを、理解されたい。したがって本発明の実施形態は、2以上のアルゴリズムを特定の順序で適用して画像を合成することも含んでいるといえる。
本明細書が記載するシステム、装置、および方法は、デジタル回路を用いて実装することができ、あるいは既知のコンピュータプロセッサ、メモリユニット、ストレージデバイス、コンピュータソフトウェア、その他コンポーネントを用いる1以上のコンピュータを用いて実装することができる。コンピュータは通常、命令を実行するプロセッサと、命令およびデータを格納する1以上のメモリを備える。コンピュータはさらに、1以上の大容量記憶デバイスを備えまたはこれと接続することができる。例えば1以上の磁気ディスク、内部ハードディスク、リムーバブルディスク、磁気光ディスク、光ディスク、などである。
本明細書が記載するシステム、装置、および方法は、クライアント−サーバ形式で動作するコンピュータを用いて実装することができる、このようなシステムにおいては通常、クライアントコンピュータはサーバコンピュータから離れて配置されており、ネットワークを介してやり取りする。クライアント−サーバ関係は、クライアントコンピュータとサーバコンピュータそれぞれで実行されるコンピュータプログラムによって定義され制御される。
本明細書が記載するシステム、装置、および方法は、情報搬送体に組み込まれたコンピュータプログラム製品を用いて実装することができる。情報搬送体は例えば、プログラム可能プロセッサが実行する非一時的機械読取可能記憶デバイスである。図3および/または図5の1以上のステップを含む本明細書が記載する方法は、プロセッサが実行する1以上のコンピュータプログラムを用いて実装することができる。コンピュータプログラムは、コンピュータにおいて直接または間接に用いることができるコンピュータプログラム命令セットであり、これにより特定の動作を実施しまたは特定の結果をもたらすものである。コンピュータプログラムは、任意形態のプログラミング言語で記述することができる。これはコンパイル言語でもよいしインタプリタ言語でもよい。コンピュータプログラムは、任意形態で配信することができる。例えばスタンドアロンプログラム、モジュール、コンポーネント、サブルーチン、その他コンピュータ環境において用いるのに適したユニットである。
図6は、コンピュータシステム6000の例を示す(図1のネットワーク1000のコンポーネントのうち1以上を提供する。すなわち、特徴組み合わせデバイス110、画像キャプチャデバイス101、画像キャプチャデバイス102、および/またはオブジェクト認識システム120を含む)。コンピュータシステム6000を用いて、本発明の実施形態に係るコンピュータプログラム製品6060に含まれる命令コードを実行することができる。コンピュータプログラム製品6060は、電子的読取可能媒体内の実行可能コードを含む。実行可能コードは、コンピュータシステム6000などの1以上のコンピュータに対して、本明細書の実施形態によって実施される方法ステップを実現する処理を実施するように指示することができる。電子的読取可能媒体は、情報を電子的に格納する任意の非一時的媒体であり、ローカルアクセスすることもできるし、例えばネットワーク接続を介してリモートアクセスすることもできる。代替実施形態において、この媒体は一時的媒体であってもよい。記憶媒体は、異なる場所および/または異なる時刻において実行可能コードの一部を格納するように構成された、複数の地理的に分散した媒体を含む。電子的読取可能媒体内の実行可能命令コードは、図示するコンピュータシステム6000に対して、本明細書が記載する様々なタスクを実施するように指示する。本明細書が記載するタスクを実施するよう指示する実行可能コードは通常、ソフトウェアに実装されている。ただし、コンピュータその他電子デバイスは、ハードウェアに実装されたコードを利用して本発明から逸脱することなく全てのタスクを実施できることを、当業者は理解するであろう。実行可能コードの変形も本発明の要旨と範囲に含まれる方法を実装できることを、当業者は理解するであろう。
コンピュータプログラム製品6060に含まれるコードまたはそのコピーは、システム6000に接続された1以上の永続記憶媒体(図示せず)に格納されて読み出され、永続記憶デバイス6070および/またはメモリ6010に格納されてプロセッサ6020が実行する。コンピュータシステム6000は、I/Oサブシステム6030と周辺デバイス6040を備える。I/Oサブシステム6030、周辺デバイス6040、プロセッサ6020、メモリ6010、永続記憶デバイス6060は、バス6050を介して接続されている。永続記憶デバイス6070およびコンピュータプログラム製品6060を格納するその他永続ストレージと同様に、メモリ6010は非一時的媒体である(通常の揮発性コンピュータメモリデバイスとして実装されていたとしても)。さらに、本明細書が記載するプロセスを実施するためにコンピュータプログラム製品6060を格納することに加えて、メモリ6010および/または永続記憶デバイス6060は本明細書が記載する様々なデータ要素を格納するように構成できることを、当業者は理解するであろう。
コンピュータシステム6000は、本発明の実施形態に係るコンピュータプログラム製品を実装するシステムの1例に過ぎないことを、当業者は理解するであろう。代替実施形態として、本発明の実施形態に係るコンピュータプログラム製品に含まれる命令の実行は、複数コンピュータにわたって分散してもよい。例えば分散コンピュータネットワークの各コンピュータである。
実際のコンピュータまたはコンピュータシステムの実装は、他の構造を有してもよいし他のコンポーネントを含んでもよく、図6は説明のためのコンピュータのコンポーネントのうち一部を高レベルに抽象化したものであることを、当業者は認識するであろう。
本明細書と特許請求範囲の全体にわたって、以下の用語は文脈上明らかに異なる意味を有する場合を除き、以下の意味を有する。
本明細書におけるフレーズ“実施形態において”は、必ずしも同じ実施形態を指しているものではないが、同じ実施形態であってもよい。よって以下に記載するように、本発明の様々な実施形態は、本発明の範囲と要旨から逸脱することなく、容易に組み合わせることができる。
本明細書において、用語“または”は包含的“or”演算子であり、文脈上明らかに異なる意味である場合を除いて、“および/または”と等価である。
用語“基づき”は排他的なものではなく、文脈上明らかに異なる意味である場合を除いて、記載していない要素に基づくことも許される。
本明細書において、文脈上明らかに異なる意味である場合を除いて、用語“接続されている”は、直接接続(接続された2つの要素が互いに接触している)と間接接続(少なくとも1つの別要素が2つの要素間に配置されている)をともに含むことを意図している。したがって用語“へ接続されている”と“に接続されている”は、同義である。2以上のコンポーネントまたはデバイスがデータ交換することができるネットワーク環境の文脈において、用語“へ接続されている”と“に接続されている”は、1以上の中間デバイスを介して“通信可能に接続されている”ことを意味する。
本明細書全体にわたって、“a”、“an”、“the”は複数のものを指す場合を含み、“内”の意味は“なか”と“上”を含む。
本明細書の様々な実施形態は発明要素の単一の組み合わせを構成するが、本発明は本明細書の全ての可能な組み合わせを包含することを、理解されたい。したがって、ある実施形態が要素ABCを備え、他実施形態が要素BDを備える場合、本明細書において明示していないとしても、本発明はABCDのその他組み合わせを含む。
本明細書と特許請求範囲において、システム、エンジン、サーバ、デバイス、モジュール、その他コンピュータ要素がメモリ内のデータに対して機能を実施するように構成されている場合、“構成されている”または“プログラムされている”の意味は、コンピュータ要素のメモリに格納されているソフトウェア命令セットによって、メモリ内の格納されているターゲットデータまたはデータオブジェクトに対して機能セットを実行するように、コンピュータ要素の1以上のプロセッサまたはコアがプログラムされていることである。
コンピュータに関連する任意の用語は、コンピュータデバイス、サーバ、インターフェース、システム、データベース、エージェント、ピア、エンジン、コントローラ、モジュール、その他タイプの個別動作または一括動作するコンピュータデバイス構造の任意の適当な組み合わせを含むように理解されたい。コンピュータデバイスは、非一時的コンピュータ読取可能記憶媒体(例:ハードドライブ、FPGA、PLA、ソリッドステートドライブ、RAM、フラッシュ、ROM、など)に格納されたソフトウェア命令を実行するように構成されたプロセッサを備えることを、理解されたい。ソフトウェア命令は、本明細書の装置に関して説明する役割、責任、その他機能を提供するように、コンピュータデバイスを構成またはプログラムする。さらに本技術は、コンピュータベースのアルゴリズム、プロセス、方法、その他命令の実装に関する本技術のステップをプロセッサに実行させるソフトウェア命令を格納する非一時的コンピュータ読取可能媒体を含むコンピュータプログラム製品として実装できる。実施形態において、サーバ、システム、データベース、またはインターフェースは、標準プロトコルまたはアルゴリズムを用いてデータを交換する。例えば、HTTP、HTTPS、AES、公開鍵交換、webサービスAPI、既知の金融取引プロトコル、その他電子情報交換方法に基づくものである。デバイス間のデータ交換は、パケット交換ネットワーク、インターネット、LAN、WAN、VPN、その他タイプのパケット交換ネットワーク、回路スイッチネットワーク、セルスイッチネットワーク、その他タイプのネットワーク上で実施することができる。
本発明は、コンピュータデバイスが人間の能力を超えて大量のデジタルデータを処理できるようにするものである。実施形態においてデジタルデータは画像である場合があるが、デジタルデータは画像の1以上のデジタルモデルであってもよく、必ずしも画像そのものでなくともよいことを理解されたい。コンピュータデバイスのメモリ上でそのデジタルデータをインスタンス化することにより、コンピュータデバイスは、そのユーザがツールを有していないユーティリティを提要するように、デジタルデータまたはモデルを管理することができる。
デジタル画像ベースオブジェクト認識および取得技術の範囲、精度、小型性、効率、スピードを向上させる多くの有利な技術的効果を本技術が提供することを、理解されたい。本明細書は広範な概観として意図しているものではなく、明確性と簡潔性のために簡略化できることを理解されたい。
以上の説明は、説明と例示のためのものであり限定目的ではなく、本明細書が記載する本発明の範囲は本明細書から規定されるものではなく、特許法が許容する最大限の解釈にしたがって特許請求範囲から規定されることを理解されたい。本明細書が記載する実施形態は、本発明の原理を説明するためのみのものであり、当業者は本発明の範囲と要旨から逸脱することなく様々な変形をなすことができることを、理解されたい。当業者は、本発明の範囲と要旨から逸脱することなく、様々な組み合わせを実装することができる。
Claims (22)
- コンピュータ化オブジェクト認識システムにおいて用いるように構成されたコンピュータ化画像認識データベースに格納される画像特徴組み合わせを生成する方法であって、
1以上の生成コンピュータを用いて、オブジェクトの第1画像から前記オブジェクトの合成画像を生成するステップであって、前記合成画像は、前記オブジェクトの前記第1画像に対応する第1画像キャプチャ条件とは異なる第2画像キャプチャ条件の下で前記オブジェクトが有すると予測される外観を有する前記オブジェクトの画像に対応する、ステップ、
1以上の導出コンピュータを用いて、前記合成画像から特徴検出アルゴリズムを用いて第2画像特徴セットを導出するステップ、
特徴組み合わせデバイスにおいて、前記第1画像から導出した第1画像特徴セットを取得するステップ、
前記特徴組み合わせデバイスにおいて、前記第1画像特徴セットと前記第2画像特徴セットを有する組み合わせ特徴セットを指定するステップ、
コンピュータ化オブジェクト認識検索において用いるように構成された電子データベースに格納するために、前記オブジェクトを識別するメタデータと前記組み合わせ特徴セットを対応付けるステップ、
を有することを特徴とする方法。 - 前記第1画像キャプチャ条件は第1照明条件に対応し、前記第2画像キャプチャ条件は第2照明条件に対応する
ことを特徴とする請求項1記載の方法。 - 前記第1照明条件は前記オブジェクトの前記位置における第1時刻に対応し、前記第2照明条件は前記オブジェクトの前記位置における第2時刻において予測される照明条件に対応する
ことを特徴とする請求項2記載の方法。 - 前記第1画像キャプチャ条件は第1オブジェクト視野に対応し、前記第2キャプチャ条件は第2オブジェクト視野に対応する
ことを特徴とする請求項1記載の方法。 - 前記第1画像キャプチャ条件は第1撮像機器に対応し、前記第2画像キャプチャ条件は第2撮像機器に対応する
ことを特徴とする請求項1記載の方法。 - 前記第1撮像機器は、写真、赤外線画像、歪画像、フィルタリング後画像を含むグループから選択されており、
前記第2撮像機器は、前記第1撮像機器とは異なる
ことを特徴とする請求項5記載の方法。 - 前記第1撮像機器は、X線、磁気共鳴画像、CATスキャン、超音波を含むグループから選択されており、
前記第2撮像機器は、前記第1撮像機器とは異なる
ことを特徴とする請求項5記載の方法。 - 前記第1画像特徴セットと前記第2画像特徴セットは、特徴検出アルゴリズムを用いて前記第1画像と前記合成画像からそれぞれ取得される
ことを特徴とする請求項1記載の方法。 - 前記特徴検出アルゴリズムは、
スケール不変特徴変換(SIFT)、Fast Retina Keypoint(FREAK)、Histograms of Oriented Gradient(HOG)、Speeded Up Robust Features(SURF)、DAISY、Binary Robust Invariant Scalable Keypoints(BRISK)、FAST、Binary Robust Independent Elementary Features(BRIEF)、Harris Corners、Edges、Gradient Location and Orientation Histogram(GLOH)、Energy of image Gradient(EOG)、Transform Invariant Low−rank Textures(TILT)、
のうち少なくともいずれかを含む
ことを特徴とする請求項8記載の方法。 - 前記方法はさらに、
共通ピクセル位置を有する共通位置特徴を前記第1画像と前記合成画像から判定することにより、前記組み合わせ特徴のロバスト特徴を識別するステップ、
前記コンピュータ化オブジェクト認識検索において用いるために前記識別したロバスト特徴のみを選択するステップ、
を有することを特徴とする請求項1記載の方法。 - 前記ロバスト特徴を識別するステップはさらに、前記第1デジタル画像と前記第2デジタル画像から特徴を抽出するために用いる特徴検出アルゴリズムの多次元特徴空間において規定距離以内にある特徴を前記共通位置特徴から選択することにより、高ロバスト特徴を識別するステップを有し、
前記コンピュータ化オブジェクト認識検索において用いるために、前記識別した高ロバスト特徴のみを選択する
ことを特徴とする請求項10記載の方法。 - 前記特徴検出アルゴリズムは、
スケール不変特徴変換(SIFT)、Fast Retina Keypoint(FREAK)、Histograms of Oriented Gradient(HOG)、Speeded Up Robust Features(SURF)、DAISY、Binary Robust Invariant Scalable Keypoints(BRISK)、FAST、Binary Robust Independent Elementary Features(BRIEF)、Harris Corners、Edges、Gradient Location and Orientation Histogram(GLOH)、Energy of image Gradient(EOG)、Transform Invariant Low−rank Textures(TILT)、
のうち少なくともいずれかを含む
ことを特徴とする請求項11記載の方法。 - 前記特徴組み合わせデバイスは、前記1以上の生成コンピュータと前記1以上の導出コンピュータを備える
ことを特徴とする請求項1記載の方法。 - 前記1以上の導出コンピュータ、前記1以上の生成コンピュータ、および前記特徴組み合わせデバイスは、単一のコンピュータとして構成されている
ことを特徴とする請求項1記載の方法。 - コンピュータ化オブジェクト認識検索において用いるように構成されたコンピュータ化画像認識データベースに格納する組み合わせ画像特徴を生成する方法であって、
特徴組み合わせデバイスにおいて、第1画像特徴セットと第2画像特徴セットのうち少なくともいずれかに対して座標変換を実施して、前記第1画像特徴セットと前記第2画像特徴セットそれぞれの特徴に共通する共通座標系において表される特徴位置を取得するステップであって、前記第1画像特徴セットはオブジェクトの第1画像から導出され、前記第2画像特徴セットは前記オブジェクトの第2画像から導出され、前記第1画像は第1オブジェクト視野に対応し、前記第2画像は前記第1オブジェクト視野とは異なる第2オブジェクト視野に対応する、ステップ、
前記特徴組み合わせデバイスにおいて、前記共通座標系において表される特徴位置とともに前記第1画像特徴セットと前記第2画像特徴セットを有する組み合わせ特徴セットを指定するステップ、
前記コンピュータ化画像認識データベースに格納するために、前記組み合わせ特徴セットを前記オブジェクトのIDと対応付けるステップ、
を有することを特徴とする方法。 - 前記第1画像特徴セットと前記第2画像特徴セットは、特徴検出アルゴリズムを用いて前記第1画像と前記第2画像からそれぞれ取得される
ことを特徴とする請求項15記載の方法。 - 前記特徴検出アルゴリズムは、
スケール不変特徴変換(SIFT)、Fast Retina Keypoint(FREAK)、Histograms of Oriented Gradient(HOG)、Speeded Up Robust Features(SURF)、DAISY、Binary Robust Invariant Scalable Keypoints(BRISK)、FAST、Binary Robust Independent Elementary Features(BRIEF)、Harris Corners、Edges、Gradient Location and Orientation Histogram(GLOH)、Energy of image Gradient(EOG)、Transform Invariant Low−rank Textures(TILT)、
のうち少なくともいずれかを含む
ことを特徴とする請求項15記載の方法。 - 前記特徴組み合わせデバイスは、前記1以上の生成コンピュータと前記1以上の導出コンピュータを備える
ことを特徴とする請求項15記載の方法。 - 前記1以上の導出コンピュータ、前記1以上の生成コンピュータ、および前記特徴組み合わせデバイスは、単一のコンピュータとして構成されている
ことを特徴とする請求項15記載の方法。 - コンピュータ化オブジェクト認識システムにおいて用いるように構成されたコンピュータ化画像認識データベースに格納される画像特徴組み合わせを生成するシステムであって、
オブジェクトの第1画像から前記オブジェクトの合成画像を生成するように構成された1以上の生成コンピュータであって、前記合成画像は、前記オブジェクトの前記第1画像に対応する第1画像キャプチャ条件とは異なる第2画像キャプチャ条件の下で前記オブジェクトが有すると予測される外観を有する前記オブジェクトの画像に対応する、生成コンピュータ、
前記合成画像から特徴検出アルゴリズムを用いて第2画像特徴セットを導出するように構成された1以上の導出コンピュータ、
前記第1画像から導出した第1画像特徴セットを取得するように構成されるとともに、前記第1画像特徴セットと前記第2画像特徴セットを有する組み合わせ特徴セットを指定するように構成された、特徴組み合わせデバイス、
コンピュータによるオブジェクト認識検索において用いるように構成された電子データベースに格納するために、前記オブジェクトを識別するメタデータと前記組み合わせ特徴セットを対応付ける、コンピュータ化オブジェクト認識システム、
を備えることを特徴とするシステム。 - 前記特徴組み合わせデバイスは、前記1以上の生成コンピュータと前記1以上の導出コンピュータを備える
ことを特徴とする請求項20記載のシステム。 - 前記1以上の導出コンピュータ、前記1以上の生成コンピュータ、および前記特徴組み合わせデバイスは、単一のコンピュータとして構成されている
ことを特徴とする請求項20記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662305525P | 2016-03-08 | 2016-03-08 | |
US62/305,525 | 2016-03-08 | ||
PCT/US2017/021220 WO2017156043A1 (en) | 2016-03-08 | 2017-03-07 | Image feature combination for image-based object recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019514100A true JP2019514100A (ja) | 2019-05-30 |
Family
ID=59788083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018546693A Pending JP2019514100A (ja) | 2016-03-08 | 2017-03-07 | イメージベースオブジェクト認識のための画像特徴組み合わせ |
Country Status (9)
Country | Link |
---|---|
US (4) | US10861129B2 (ja) |
EP (1) | EP3427165B1 (ja) |
JP (1) | JP2019514100A (ja) |
KR (1) | KR20180114232A (ja) |
CN (1) | CN109074369B (ja) |
AU (1) | AU2017229500A1 (ja) |
CA (1) | CA3014670A1 (ja) |
TW (1) | TWI656510B (ja) |
WO (1) | WO2017156043A1 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107148632B (zh) | 2014-04-24 | 2020-10-27 | 河谷控股Ip有限责任公司 | 用于基于图像的目标识别的稳健特征识别 |
CA3014670A1 (en) | 2016-03-08 | 2017-09-14 | Nant Holdings Ip, Llc | Image feature combination for image-based object recognition |
KR102257226B1 (ko) * | 2017-02-16 | 2021-05-28 | 현대자동차주식회사 | 픽토그램 인식 장치, 픽토그램 인식 시스템 및 픽토그램 인식 방법 |
US10546054B1 (en) * | 2018-02-28 | 2020-01-28 | Intuit Inc. | System and method for synthetic form image generation |
US11210573B2 (en) | 2018-03-20 | 2021-12-28 | Nant Holdings Ip, Llc | Volumetric descriptors |
US11126257B2 (en) * | 2018-04-17 | 2021-09-21 | Toyota Research Institute, Inc. | System and method for detecting human gaze and gesture in unconstrained environments |
US10452959B1 (en) * | 2018-07-20 | 2019-10-22 | Synapse Tehnology Corporation | Multi-perspective detection of objects |
US11144998B2 (en) | 2018-09-20 | 2021-10-12 | The Toronto-Dominion Bank | Dynamic provisioning of data exchanges based on detected relationships within processed image data |
CN109726306B (zh) * | 2018-12-29 | 2022-06-14 | 上海联影医疗科技股份有限公司 | 患者数据存储方法、装置、设备和存储介质 |
KR102057713B1 (ko) | 2019-05-21 | 2019-12-19 | 주식회사 코어닷투데이 | 인식 영역의 스타일을 트랜스퍼하는 시스템 및 방법 |
US11139142B2 (en) * | 2019-05-23 | 2021-10-05 | Applied Materials, Inc. | High-resolution three-dimensional profiling of features in advanced semiconductor devices in a non-destructive manner using electron beam scanning electron microscopy |
US11010605B2 (en) | 2019-07-30 | 2021-05-18 | Rapiscan Laboratories, Inc. | Multi-model detection of objects |
US11334617B2 (en) * | 2019-09-25 | 2022-05-17 | Mercari, Inc. | Paint-based image search |
CN111026896B (zh) * | 2019-11-15 | 2023-09-01 | 浙江大华技术股份有限公司 | 特征值存储、处理方法、设备及存储装置 |
CN111461203A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 跨模态处理方法、装置、电子设备和计算机存储介质 |
KR102378742B1 (ko) * | 2020-07-30 | 2022-03-28 | 한국과학기술연구원 | 사용자의 x-ray 영상 판독을 지원하는 시스템 및 방법 |
EP4193297A4 (en) * | 2020-09-11 | 2024-03-27 | Siemens Aktiengesellschaft | METHOD AND SYSTEM FOR OBJECT IDENTIFICATION |
US11900662B2 (en) * | 2020-12-16 | 2024-02-13 | Here Global B.V. | Method, apparatus, and computer program product for training a signature encoding module and a query processing module to identify objects of interest within an image utilizing digital signatures |
US11829192B2 (en) | 2020-12-23 | 2023-11-28 | Here Global B.V. | Method, apparatus, and computer program product for change detection based on digital signatures |
US11830103B2 (en) | 2020-12-23 | 2023-11-28 | Here Global B.V. | Method, apparatus, and computer program product for training a signature encoding module and a query processing module using augmented data |
US20220382763A1 (en) * | 2021-05-25 | 2022-12-01 | Dell Products, Lp | Populating search results with intent and context-based images |
CN113868453B (zh) * | 2021-09-28 | 2024-02-27 | 北京百度网讯科技有限公司 | 对象推荐方法和装置 |
US11991295B2 (en) | 2021-12-07 | 2024-05-21 | Here Global B.V. | Method, apparatus, and computer program product for identifying an object of interest within an image from a digital signature generated by a signature encoding module including a hypernetwork |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6526156B1 (en) | 1997-01-10 | 2003-02-25 | Xerox Corporation | Apparatus and method for identifying and tracking objects with view-based representations |
US6711293B1 (en) | 1999-03-08 | 2004-03-23 | The University Of British Columbia | Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image |
GB0607143D0 (en) | 2006-04-08 | 2006-05-17 | Univ Manchester | Method of locating features of an object |
US9063952B2 (en) | 2006-07-31 | 2015-06-23 | Ricoh Co., Ltd. | Mixed media reality recognition with image tracking |
US8150098B2 (en) | 2007-12-20 | 2012-04-03 | Eastman Kodak Company | Grouping images by location |
GB0807411D0 (en) | 2008-04-23 | 2008-05-28 | Mitsubishi Electric Inf Tech | Scale robust feature-based indentfiers for image identification |
WO2009148731A1 (en) | 2008-06-02 | 2009-12-10 | Massachusetts Institute Of Technology | Fast pattern classification based on a sparse transform |
US8233716B2 (en) | 2008-06-27 | 2012-07-31 | Palo Alto Research Center Incorporated | System and method for finding stable keypoints in a picture image using localized scale space properties |
JP5183392B2 (ja) | 2008-09-25 | 2013-04-17 | キヤノン株式会社 | 画像処理装置、画像処理方法およびプログラム |
JP5305031B2 (ja) | 2009-08-31 | 2013-10-02 | トヨタ自動車株式会社 | 特徴量抽出装置及び方法、並びに位置推定装置及び方法 |
EP2502184A4 (en) | 2009-11-19 | 2017-03-22 | Nokia Corporation | Method and apparatus for tracking and recognition with rotation invariant feature descriptors |
CN102782708A (zh) | 2009-12-02 | 2012-11-14 | 高通股份有限公司 | 用于图像辨识的描述符小块的快速子空间投影 |
CN102763123B (zh) | 2009-12-02 | 2015-03-25 | 高通股份有限公司 | 通过使查询图像和模型图像中的检测到的关键点成群集而进行特征匹配 |
US8971610B2 (en) * | 2010-04-28 | 2015-03-03 | Osaka Prefecture University Public Corporation | Method and apparatus of compiling image database for three-dimensional object recognition |
US8542905B2 (en) | 2010-12-29 | 2013-09-24 | Cognex Corporation | Determining the uniqueness of a model for machine vision |
US8542912B2 (en) | 2010-12-29 | 2013-09-24 | Cognex Corporation | Determining the uniqueness of a model for machine vision |
JP5820236B2 (ja) | 2011-10-28 | 2015-11-24 | キヤノン株式会社 | 画像処理装置及びその制御方法 |
US9569695B2 (en) | 2012-04-24 | 2017-02-14 | Stmicroelectronics S.R.L. | Adaptive search window control for visual search |
CN102693542B (zh) | 2012-05-18 | 2015-02-11 | 中国人民解放军信息工程大学 | 一种影像特征匹配方法 |
KR101303124B1 (ko) | 2012-05-31 | 2013-09-09 | 삼성에스디에스 주식회사 | 특징점 기술자에 의한 객체 추적장치 및 방법, 그리고 에러 특징점 제거장치 및 방법 |
EP2875471B1 (en) * | 2012-07-23 | 2021-10-27 | Apple Inc. | Method of providing image feature descriptors |
US20140185924A1 (en) | 2012-12-27 | 2014-07-03 | Microsoft Corporation | Face Alignment by Explicit Shape Regression |
US9355123B2 (en) * | 2013-07-19 | 2016-05-31 | Nant Holdings Ip, Llc | Fast recognition algorithm processing, systems and methods |
WO2015026874A1 (en) * | 2013-08-19 | 2015-02-26 | Nant Holdings Ip, Llc | Metric based recognition, systems and methods |
CN104424466B (zh) | 2013-08-21 | 2018-05-15 | 佳能株式会社 | 对象检测方法、对象检测设备及图像拾取设备 |
US9204018B2 (en) * | 2014-01-21 | 2015-12-01 | Carbon Objects, Inc. | System and method of adjusting the color of image objects based on chained reference points, gradient characterization, and pre-stored indicators of environmental lighting conditions |
WO2015131206A1 (en) | 2014-02-28 | 2015-09-03 | Nant Vision, Inc. | Object recognition trait analysis systems and methods |
CN107148632B (zh) | 2014-04-24 | 2020-10-27 | 河谷控股Ip有限责任公司 | 用于基于图像的目标识别的稳健特征识别 |
CN106062774B (zh) * | 2014-11-15 | 2020-01-03 | 北京旷视科技有限公司 | 使用机器学习进行面部检测 |
US10180950B2 (en) * | 2015-06-10 | 2019-01-15 | Flir Systems Ab | Image retrieval and processing systems and methods |
CA3014670A1 (en) | 2016-03-08 | 2017-09-14 | Nant Holdings Ip, Llc | Image feature combination for image-based object recognition |
-
2017
- 2017-03-07 CA CA3014670A patent/CA3014670A1/en not_active Abandoned
- 2017-03-07 CN CN201780015847.9A patent/CN109074369B/zh active Active
- 2017-03-07 AU AU2017229500A patent/AU2017229500A1/en not_active Abandoned
- 2017-03-07 US US15/452,644 patent/US10861129B2/en active Active
- 2017-03-07 JP JP2018546693A patent/JP2019514100A/ja active Pending
- 2017-03-07 WO PCT/US2017/021220 patent/WO2017156043A1/en active Search and Examination
- 2017-03-07 EP EP17763938.2A patent/EP3427165B1/en active Active
- 2017-03-07 KR KR1020187028888A patent/KR20180114232A/ko not_active Application Discontinuation
- 2017-03-08 TW TW106107643A patent/TWI656510B/zh active
-
2020
- 2020-08-31 US US17/008,434 patent/US11551329B2/en active Active
-
2022
- 2022-12-15 US US18/082,560 patent/US11842458B2/en active Active
-
2023
- 2023-11-03 US US18/386,999 patent/US20240070802A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN109074369B (zh) | 2022-03-04 |
US11842458B2 (en) | 2023-12-12 |
US11551329B2 (en) | 2023-01-10 |
US20170263019A1 (en) | 2017-09-14 |
US20230123624A1 (en) | 2023-04-20 |
US20200394751A1 (en) | 2020-12-17 |
AU2017229500A1 (en) | 2018-08-30 |
TW201734953A (zh) | 2017-10-01 |
TWI656510B (zh) | 2019-04-11 |
EP3427165A4 (en) | 2019-11-06 |
EP3427165B1 (en) | 2023-06-07 |
CN109074369A (zh) | 2018-12-21 |
US10861129B2 (en) | 2020-12-08 |
CA3014670A1 (en) | 2017-09-14 |
US20240070802A1 (en) | 2024-02-29 |
WO2017156043A1 (en) | 2017-09-14 |
EP3427165A1 (en) | 2019-01-16 |
KR20180114232A (ko) | 2018-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11842458B2 (en) | Image feature combination for image-based object recognition | |
JP6616862B2 (ja) | エッジベクトルを利用した画像特徴検出 | |
CN107148632B (zh) | 用于基于图像的目标识别的稳健特征识别 | |
Chen et al. | Emotion recognition in the wild with feature fusion and multiple kernel learning | |
Proenca et al. | SHREC’15 Track: Retrieval of Oobjects captured with kinect one camera | |
Stennett et al. | Towards Individual Grevy's Zebra Identification via Deep 3D Fitting and Metric Learning | |
Zhang et al. | BAGS: Building Animatable Gaussian Splatting from a Monocular Video with Diffusion Priors | |
Moise | A new approach to face recognition based on generalized Hough transform and local image descriptors | |
Banerjee et al. | To frontalize or not to frontalize: Do we really need elaborate pre-processing to improve face recognition performance? | |
Hernandez | 3D Inference and Registration with Application to Retinal and Facial Image Analysis | |
Kopernický et al. | 3d scene reconstruction using partial RGB+ Depth maps | |
Wan et al. | Shadow Vanishing Point Detection Via Combined Human/Shadow |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20180905 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20190111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190111 |