JP2012108961A - 画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法 - Google Patents
画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法 Download PDFInfo
- Publication number
- JP2012108961A JP2012108961A JP2012048628A JP2012048628A JP2012108961A JP 2012108961 A JP2012108961 A JP 2012108961A JP 2012048628 A JP2012048628 A JP 2012048628A JP 2012048628 A JP2012048628 A JP 2012048628A JP 2012108961 A JP2012108961 A JP 2012108961A
- Authority
- JP
- Japan
- Prior art keywords
- image
- comparison
- image recognition
- recognition algorithm
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000000007 visual effect Effects 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000008901 benefit Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000001914 filtration Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000004744 fabric Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
【課題】カメラの視野内にある人の位置および物体を示すパラメータである文脈情報(位置および方向のような)に基づいて、画像および映像内に対象物体を提供し、かつ一致させる。
【解決手段】画像認識アルゴリズムは、キーポイントに基づく比較および領域に基づく色彩比較を含む。画像認識アルゴリズムを用いて目標画像を識別する方法は、処理装置で入力を受信する段階であって、その入力は、目標画像に関連するデータを含む段階、画像を画像データベースから検索することを含む検索ステップを実行する段階であって、その画像が受理または拒絶されるまで、その画像を候補画像として指定する。画像認識アルゴリズム出力を得るために、目標画像および候補画像上で画像認識アルゴリズムを実行するために、処理装置を使用することを含む画像認識ステップを実行する。
【選択図】図1
【解決手段】画像認識アルゴリズムは、キーポイントに基づく比較および領域に基づく色彩比較を含む。画像認識アルゴリズムを用いて目標画像を識別する方法は、処理装置で入力を受信する段階であって、その入力は、目標画像に関連するデータを含む段階、画像を画像データベースから検索することを含む検索ステップを実行する段階であって、その画像が受理または拒絶されるまで、その画像を候補画像として指定する。画像認識アルゴリズム出力を得るために、目標画像および候補画像上で画像認識アルゴリズムを実行するために、処理装置を使用することを含む画像認識ステップを実行する。
【選択図】図1
Description
本発明の開示された実施例は、一般に画像認識に関し、より詳しくは、モバイル拡張現実の制約に基づく画像認識技術に関する。
モバイル・インターネット装置(MID)は、急成長する世界市場を代表するものである。これらのモバイル・コンピューティング装置は、小型であること、インターネットに広く接続可能であること、および強力な演算処理能力によって特徴づけられる。これらの特徴は、MIDに搭載されたカメラの視野内にある人の位置および物体のようなパラメータに基づき、追加の文脈情報を提供することによって、人の知覚および経験を増強するためのモバイル用拡張現実アプリケーションを可能にする。この使用モデルを可能にする鍵となる技術は、文脈情報(位置および方向のような)に基づいて、画像および映像内に対象物体を提供し、かつ一致させることである。
薄 充孝 Mitsutaka Susuki,「複合現実感4」特集 ランドマークデータベースに基づく静止画像からのカメラ位置・姿勢推定,日本バーチャルリアリティ学会論文誌第13巻第2号Transactions of the Virtual Reality Society of Japan,日本,特定非営利活動法人日本バーチャルリアリティ学会The Virtual Reality Society of Japan,2008年6月30日,第13巻第2号,161〜170ページ
村林 昇 Noboru Murabayashi,画像のグループ化処理を適用した類似画像検索の性能改善PerformanceImprovement of Similar Image Retrieval by the Image Grouping Method,第70回(平成20年)全国大会講演論文集(1)アーキテクチャソフトウェア科学・工学 データベースとメディア,日本,社団法人情報処理学会 Information Processing Society of Japan,2008年3月13日,1−389〜1−390
劉 謳南,多種類特徴の統合による大規模映像認識,第70回(平成20年)全国大会講演論文集(1)アーキテクチャ ソフトウェア科学・工学データベースとメディア,日本,社団法人情報処理学会 Information Processing Society ofJapan,2008年3月13日,1−545〜1−546ページ
開示された実施例は、以下の詳細な記述を添付図面と共に読むことにより、より一層理解されるであろう。
本発明の実施例に従った、制約に基づく画像認識システム・フローの概要図である。
本発明の実施例に従った、画像認識アルゴリズムの概要図である。
本発明の実施例に従った、画像認識アルゴリズムの概要図である。
本発明の実施例に従った、図1の制約に基づく画像認識システム・フローの概要図である。
本発明の実施例に従った、目標画像を識別する方法を示すフローチャートである。
本発明の実施例に従った、携帯用電子装置へ送信するためにデータを選択する方法を示すフローチャートである。
図面を単純化および明瞭化するために、図示された形状は一般的な構造方法を示し、周知の特徴および技術に関する記述および詳細事項は、本発明について記述された実施例に関する議論を必要以上に不明瞭化しないために省略される。さらに、図中の要素は、必ずしも同一縮尺で描かれない。例えば、本発明の実施例を理解しやすくするために、図中のいくつかの要素の大きさが、他の要素に比べて拡大される場合がある。異なる図中の同一の参照番号は同一の要素を示し、また、必ずというわけではないが、類似の参照番号が類似の要素を示す場合もある。
明細書および特許請求の範囲において、用語「第1」、「第2」、「第3」、「第4」等は、必要に応じて類似する要素を識別するために用いられるが、必ずしも特別な連続的または年代的順序を示すために用いられるわけではない。そのように用いられる用語は、適切な状況下では入れ替えが可能であり、したがって、例えば、ここに記載された本発明の実施例は、ここに図示または記載された以外の順序でも動作可能であると理解すべきである。同様に、ここで、一連の段階を含むような方法について記載されている場合、ここに示されたような段階の順序は、必ずしもそのような段階を実行するための唯一の順序ではなく、ここに記載されているある段階が省略されてもよく、および/または、ここに記載されていない他の段階が本方法に追加されてもよい。さらに、用語「包含する」、「含む」、「有する」、および、それらのあらゆるバリエーションは、非排他的な包含を含むことを意図しており、したがって、要素のリストを含む、プロセス、方法、物品、または機器は、それらの要素に必ずしも制限されず、明白には列挙されていない他の要素、あるいは、そのようなプロセス、方法、物品または機器に固有である他の要素を含んでもよい。
明細書および特許請求の範囲において、用語「左」、「右」、「前」、「後」、「上部」、「底部」、「上に」、「下に」等は、必要に応じて記述上の目的で用いられているが、必ずしも永久的な相対的位置について記述するために用いられるわけではない。そのように用いられる用語は、適切な状況下では入れ替えが可能であり、したがって、例えば、ここに記載された本発明の実施例は、ここに図示または記載された以外の方向でも動作可能であると理解すべきである。ここで使用される用語「結合された」は、電気的または非電気的な方法で、直接的または間接的に接続されることを意味する。ここで、相互に「隣接」していると記載された物体は、その語句が用いられる文脈に応じて、互いに物理的に接触している場合、互いに極めて近接している場合、または互いに同一の一般的な領域または場所内にある場合をいう。ここで、「一実施例において」という語句が使用される場合は、必ずしも全ての場合において、同一の実施例を指すものではない。
本発明の一実施例では、画像認識アルゴリズムは、キーポイントに基づく比較(keypoints−based comparison)および領域に基づく色彩比較(region−based color comparison)を含む。このアルゴリズムは、さらに、ビジュアル・シンボル比較(visual symbol comparison)を含んでもよい。本発明の一実施例では、画像認識アルゴリズムを用いて目標画像(target image)を識別する方法は、以下の段階を含む。すなわち、処理装置で入力を受信する段階であって、その入力は、目標画像に関連するデータを含む段階、画像を画像データベースから検索することを含む検索ステップを実行する段階であって、その画像が受理または拒絶されるまで、その画像を候補画像として指定する段階、目標画像および候補画像上で画像認識アルゴリズムを実行するために、処理装置を使用することを含む画像認識ステップを実行し、画像認識アルゴリズム出力する段階、および、比較ステップを実行する段階であって、画像認識アルゴリズム出力が予め選択された範囲内にある場合は、目標画像としてその候補画像を受理し、また、画像認識アルゴリズム出力が予め選択された範囲内にない場合は、候補画像を拒絶し、検索ステップ、画像認識ステップ、および比較ステップを繰り返す段階を含む。
従って、本発明の実施例は、モバイル拡張現実のための制約に基づく画像認識を可能にする。場所または目的物についてより認識することに関心のあるユーザは、MIDまたは他のモバイル装置を用いて場所または目的物の画像を捕らえ(キャプチャ)、その捕らえた場所または目的物に関連する情報を、可能ならモバイル装置上でその捕らえた画像上に重ねられた拡張情報の形式で受信する。ある実施例では、ユーザは、MIDまたは他の装置に搭載された自動領域分割アルゴリズムを実行することにより、クエリに対する関心領域を選択する。このようなアルゴリズムにおいて、ユーザは、描画ツールを使用することによってではなく、予め選択された領域に分割されたタッチ・スクリーン上に自動的に生成された領域セグメントを触れることにより、関心のある領域を容易に選択することができる。
リアルタイム応答および良好な情報検索精度は、モバイル装置のアプリケーションにとって2つの重要な構成要素である。しかしながら、ほとんどの画像認識アルゴリズムにとって、画像データベースのサイズが大きくなるにつれて、マッチングの速度および精度の両方が減少する。さらに、現在のコンピュータの視覚およびパターン認識技術は、異なる照明条件、視覚的な透視、回転、解像度、遮蔽下で捕らえられた画像を完全に識別することができないので、ビジュアル・コンテントのみに基づく画像認識は、非常に挑戦的であることが分かってきた。
本発明の実施例は、画像サーチの複雑さを減少させるために、位置システム・データ、3Dアクセロメータ・データ、ならびに、ジャイロスコープおよびデジタル・コンパス情報を利用する。位置システム・データは、全地球測位システム(GPS)、広域ネットワーク(WAN)、ワイヤレス・ネットワーク等からのデータを含めることも可能である。例えば、クエリ画像のGPS位置が、「ニューヨーク、マンハッタンのミッドタウン、33丁目と34丁目との間、5番街350」(エンパイア・ステート・ビルディングの所在地)に近い場合、そのクエリ画像を著しく異なるGPS位置の画像と比較する必要はない。したがって、例えば、そのクエリ画像は、シカゴのシアーズ・タワーまたはフランクフルトのコメルツバンク・タワー(両者は、他の多くの超高層ビルの中で、少なからずエンパイア・ステート・ビルに似ているように見える)の画像と混同することはないであろう。
さらに、本発明の実施例は、その場面に現われるテキストおよびロゴによって、および、光学的文字認識(OCR)および音声認識技術を用いたユーザ入力からのスピーチ・キーワードによって、画像認識を補足する。テキストに基づく検索には、計算コストが安価、格納要求が少ない、および送信帯域幅が低いという長所がある。これらのテキストに基づく入力によって、その探索システムは、縮小された検索スペース内にリアルタイムでズーミングすることができる。さらに、テキスト情報は、類似する外観を有する目的物を識別するために有用である。上述のように、ある実施例は、さらに、領域に基づく色彩比較およびキーポイントに基づく比較を組み合わせた高度な画像認識アルゴリズムを使用する。両者の視覚的特徴空間の一致する結果を組み合わせることにより、両方の特徴から利点を取り出し、異なる照明条件、視覚的な透視、回転などに対処するための強健な画像認識システムを提供する。
ここで図面を参照すると、図1は、本発明の実施例に従う制約に基づく画像認識システム・フロー100の概要図である。図1に示されるように、システム・フロー100は、入力110を有し、図示されるように、ビジュアル・コンテント111、センサ・モダリティ112、および、オーディオ・コンテント113を含み、画像データベース120から検索された情報と共に、一致およびランキング手続130を実行し、検索結果140に至る。システム・フロー100については、以下より詳細に記述される。
図2は、本発明の実施例に従った、画像認識アルゴリズム200の概要図である。図2に示されるように、画像認識アルゴリズム200は、キーポイントに基づく比較210および領域に基づく色彩比較220を含む。
キーポイントに基づく比較は、画像の大きさおよび画像の回転に対して不変であり、視点および照明の変化に対して部分的に不変である。したがって、同一の目的物に関する複数の画像は、画像がキーポイントに基づく比較技術を用いて処理された場合には、それらの画像が、異なる角度および距離などから、異なる照明条件の下で得られた場合にさえ、誤って不一致であると識別されるようなことが少ない。例えば、キーポイントに基づく比較210は、顕著なキーポイントの抽出手続211を含み、その結果キーポイント212が識別される。キーポイント特徴抽出213は、1セット(組)のキーポイント特徴ベクトル214を生成する。これらは、ペアワイズ比較(pairwaise comparison)215を用いて処理されるが、それについては以下でより詳しく述べる。その比較は、アウトライア(異常値)と一致するキーポイントを削除し、かつ、関心のある特定の目的物を表わす特徴ポイントの幾何学的な共通位置を強化するために、当業者間で知られているエピポーラ幾何拘束216または他の射影幾何技術を利用することによって、より改善することができる。
一実施例によれば、ペアワイズ比較215は、各画像からのキーポイントを使用して、2つの画像を直接比較することを含む。例えば、画像1がキーポイントA,Bを有し、画像2がキーポイントC,Dを有する場合、その際ペアワイズ比較215は、距離A−C,A−D、B−C、B−Dを含む2部グラフを構築する。距離がランク付けされ、最も小さい距離が決定され、その後、最も小さい距離からのポイントのいずれにも関係していない、その次に最も小さい距離が識別される。前記の例に関する小さいサンプル・サイズを使用すると、一旦A−Cが最も小さな距離であると認められると、次に、AもCも含まない唯一の残りの距離として、B−Dが残される。その後、距離A−CおよびB−Dは、合計を得るために共に加算される。この合計が「小さい」場合、すなわち、予め選択されたある範囲内である場合、そのとき、画像1および画像2は、同一の目的物の画像であると識別することができる。この予め選択された範囲は、アプリケーションに依存しており、要求に応じて、より大きい数またはより小さい数に一致する画像を識別するために、上下に調整されてもよい。
ペアワイズ比較215は、対称であるという長所を有する。他の比較は、対称ではない、すなわち、どの画像が第1の画像として識別されるかに依存し、最も近い一致を見出す試みのために、画像の各キーポイントを、データベースからの複数の画像のキーポイント(一度に1つの画像ではなく)と比較することを含む。
領域に基づく色彩比較は、単一のピクセルよりもピクセルの領域がノイズおよび歪みに関してより安定しており、また、複数の目的物を含む全体的な画像よりも精緻なので、強力な比較戦略である。様々な実施例では、領域に基づく色彩比較220は、色彩のコレログラム(correlogram)、色の三原色(RGB)のヒストグラム、または他の適切な色彩に関連する特性の使用を含むことができる。例えば、領域に基づく色彩比較220は、領域分割手続221を含み、その結果、領域222を識別することができる。色彩特徴抽出223は、当技術分野において知られているようなアース・ムーバーズ・ディスタンス(EMD:earth mover‘s distance)比較225を使用して処理される1セットの色彩特徴ベクトル224を生成する。
図2でさらに示されるように、画像認識アルゴリズム200は、さらにビジュアル・シンボル比較230を含めることができる。一例として、ビジュアル・シンボル比較230は、画像内の目的物上または目的物に関連して現われるテキスト、ロゴ、英数字、および他の文字およびシンボルを比較することができる。他の例として、ビジュアル・シンボル比較230は、OCRおよび音声認識のような技術231を利用して、キーワード232に到達する。これらは、当技術分野で知られている技術に従って、余弦比較233と比較される。ビジュアル・シンボル比較230、キーポイントに基づく比較210、および、領域に基づく色彩比較220は、一致およびランキング手続130に類似したプロセスにおいて250で結合され、検索結果140に達する(図1を参照)。
画像認識アルゴリズム200は、入力201上で動作するが、それは図示された実施例において、ビジュアル・コンテント205およびオーディオ・コンテント206を含む。一例では、キーポイントに基づく比較210、領域に基づく色彩比較220、およびビジュアル・シンボル比較230は、ビジュアル・コンテント205から入力することができる。他の例では、オーディオ・コンテント206は、音声コマンド、画像コンテントの可聴記述、または同種のものを含んでもよい。画像認識アルゴリズム200は、さらに、オーディオ・コンテント206の分析を含んでもよい。従来の音声認識技術は、オーディオ・コンテント206からキーワードを得るために使用されてもよい。
一実施例では、画像認識アルゴリズム200は、さらに、センサ・モダリティ分析を含む。それは、本発明の実施例に従った画像認識アルゴリズム200の概要図である図3に示される。単純化するために、図2に表された画像認識アルゴリズム200のいくつかの要素は、図3では省略される。
図3に示されるように、画像認識アルゴリズム200の入力201は、さらに、センサ・モダリティ305を含むことができる。これらは、GPSデータ310または他の適切な位置センサ・データ、アラインメント情報311、時間320、視認角および方向データ330などを含む。したがって、画像認識の精度および効率を改善するために、一実施例では、画像コンテント(例えば、ビジュアル・コンテント205およびオーディオ・コンテント206)をセンサ・モダリティ(305)と組み合わせる。一例では、GPS位置、視認角、方向等が与えられると、異なる視認角および方向から得られる同一の目的物である2つの画像が、キーポイント抽出前に、視認角および方向データ330を使用して調整される。そうすることによって、異なる回転331、視認遠近などで捕らえられた同一の目的物を、より正確に一致させることができる。他の例では、ある画像が昼間に得られ、他の画像が夕方の時間に得られたことをキャプチャ時間(320)が示す場合、色彩比較はマッチング(一致)誤りを低減させるために全く使用されず、そうでなければ、昼/夕方および昼/夜の照明の違いによってもたらされる大きな色彩変化の結果として誤りが発生するであろう。さらに、OCR精度は、テキストが水平位置にあることを必要とする。視認角、方向などのようなセンサ情報330の支援を用いて、必要であれば、OCR処理(231)の精度を向上させるために、画像を水平位置へ回転することができる。
図3に示されるように、センサ・モダリティ305は、画像認識アルゴリズム200の第一段階として生じる。センサ・モダリティ305は、画像識別プロセスにおいて追加の精製層としての役割を果たし、画像検索スペースのサイズを縮小することができる。それは、本発明の実施例による制約に基づく画像認識システム・フロー100の概要図である図4に示される。図4は、センサ・モダリティ112(図3におけるセンサ・モダリティ305に相当する)を含む入力110を示す。センサ・モダリティ112は、フィルタリング・スキーム420を用いて(例えば、前述および図示されたように)、画像サーチ・スペースに接近する410ために使用される(例えば、図3に示され、上述されたように)。これは、サーチされるべき画像データベース120中の候補グループ430を生じるが、グループ430は、画像データベース120中の画像の数より著しく少ない。
図5は、本発明の実施例に従った目標画像を識別する方法500を示すフローチャートである。上述のように、目標画像は、モバイル・コンピューティング装置によって捕らえられた、ユーザが生成した画像である。例えば、ユーザは、クエリとして全体の画像を提出する代わりに、関心のある領域を任意に指定することができる。画像ビジュアル・コンテント自体、テキストと共に、音声キーワード、および、GPSのようなセンサ・モダリティ、アクセロメータ、ジャイロスコープ、およびデジタル・コンパス情報は、画像一致サービスに転送される。計算/帯域幅資源に依存して、この画像一致サービスは、モバイル・コンピューティング装置上に存在してもよく、または、モバイル・コンピューティング装置にワイヤレスに接続されたバックエンド・サービスとして実行することもできる。
方法500のステップ510では、処理装置で、目標画像に関連するデータを含む入力を受信する。例えば、入力は、図1で最初に示された入力110に類似するものである。一実施例では、ステップ510は、ビジュアル・コンテント・データ、センサ・モダリティ・データ、およびオーディオ・コンテント・データのうちの少なくとも1つを受信することを含む。同一または他の実施例において、ステップ510は、MIDのような携帯用電子装置、携帯電話、または同種のものからの入力を受信することを含む。一実施例では、ステップ510は、GPS、アクセロメータまたは他の適切なモーション・センサ、ジャイロスコープ、およびコンパスのうちの少なくとも1つからのデータを含むセンサ・モダリティ・データを受信することを含む。一実施例では、アクセロメータは3Dアクセロメータでもよい。
例えば、処理装置は、サーバまたは他のバックエンド・サービスに、MIDまたは他のポータブル・コンピューティング装置に、あるいは同様の場所に配置することができる。処理装置は、他のタスク、目的物検出および認識のような画像/ビデオ処理タスク、ユーザ・インターフェイス、および画像/ビデオ・レンダリングの中で、実行しているソフトウェア・アルゴリズムを走らせるコンピューティング・プラットフォームの一部でもよい。例えば、そのようなアルゴリズムは、画像認識アルゴリズム200に類似するものである。ビデオ・ディスプレイは、処理の結果を、画像データベースによって提供された実画像/ビデオ・データ、および追加情報と任意に組み合わせて表示するために使用される。
コンピューティング・プラットフォームは、さらに、静止画像およびビデオを取り込み、処理することができるピクセル・プロセッサに接続された画像センサを含む。ピクセル・プロセッサは、ヒストグラム計算、2Dフィルタリング、およびピクセルのアレイ上の算術演算のような単純な動作の特性から、オブジェクト検出、3Dフィルタリング等のより複雑なタスクの特性に及ぶ機能を有するようにプログラムすることができる。ホスト中央処理装置(CPU)は、全体的なプラットフォーム動作を調整し、また、ソフトウェア・アルゴリズムの一部を実行してもよい。改善された電力および性能は、ピクセル・プロセッサに加えてプラットフォームに複数のアクセロメータを含めることにより得られてもよい。これらは、ビデオ・コーデック、画像/ビデオ安定化ブロック、および他の画像処理ブロックを含んでもよい。
相互接続ファブリックは、ホストCPUおよび画像処理ブロックを、メイン・メモリ、ディスプレイ、および格納装置に接続する。これに加えて、相互接続ファブリックによって、個々の画像処理ブロックが、あるタスクを実行するために相互に直接的に接続される。この場合、未使用のプラットフォーム・コンポーネントは、プラットフォームの電力/性能を改善するために低電力状態に入ることができるであろう。全てのプラットフォーム・コンポーネントは、プラットフォーム・クロックにアクセスし、検出動作、計算動作、および始動動作を同期させる。プラットフォームは、割込み、メールボックス、および他の方法に基づいて、直接的なコンポーネント対コンポーネントの通信メカニズムのためのハードウェア・サポートを含んでもよい。
方法500のステップ520では、複数の潜在的に一致する画像をフィルタするために、センサ・モダリティ・データを使用する。例えば、上述のように、この(任意の)フィルタリングは、画像サーチ空間を削減し、出力を獲得する速度と同様に、画像認識アルゴリズムの出力の精度を増加させる。
方法500のステップ530では、複数の潜在的に一致する画像を含む画像データベースから画像を検索すること、および、画像が受理または拒絶されるまで、候補画像として画像を指定することを含む、検索ステップを実行する。例えば、画像データベースは、画像データベース120(図1を参照)、またはグループ430(図4を参照)のような画像データベース120のサブセットに類似する。
方法500のステップ540では、画像認識アルゴリズムの出力を得るために、処理装置を使用して目標画像および候補画像上で画像認識アルゴリズムを実行することを含む、画像認識ステップを実行する。例えば、画像認識アルゴリズムは、図2で最初に示された画像認識アルゴリズム200に類似する。従って、一実施例において、ステップ540は、処理装置を使用して、キーポイントに基づく比較、領域に基づく色彩比較、およびビジュアル・シンボル比較を実行することを含む。特定の実施例では、キーポイントに基づく比較の実行は、少なくとも2つのキーポイント特徴ベクトルのペアワイズ比較を実行することを含み、領域に基づく色彩比較の実行は、少なくとも2つの色彩特徴ベクトルのEMD比較を実行することを含み、ビジュアル・シンボル比較の実行は、余弦比較(cosine comparison)を実行することを含む。
方法500のステップ550は、比較ステップを実行するステップであり、画像認識アルゴリズム出力が予め選択された範囲内(したがって、希望する質の一致を示す)にある場合、候補画像は目標画像として受理され、また、画像認識アルゴリズム出力が予め選択された範囲内(希望する質の一致が達成されなかったことを示す)にない場合、候補画像は拒絶され、検索ステップ、画像認識ステップ、および比較ステップが繰り返される。
図6は、本発明の実施例に従った携帯用電子装置への送信のためのデータを選択する方法600を示すフローチャートである。
方法600のステップ610では、処理装置で、目標画像に関連する携帯用電子装置からの情報を受信する。一実施例では、ステップ610は、ビジュアル・コンテント・データ、センサ・モダリティ・データ、およびオーディオ・コンテント・データの少なくとも1つを受信することを含む。一実施例では、ステップ610は、GPS、3D(または他の)アクセロメータあるいは他の運動センサ、ジャイロスコープ、およびコンパスのうちの少なくとも1つからのデータを含む、センサ・モダリティ・データを受信することを含む。一実施例では、方法600は、さらに、複数の潜在的に一致する画像をフィルタするために、センサ・モダリティ・データを使用することを含む。
方法600のステップ620では、複数の潜在的に一致する画像を含む画像データベースからの画像に関連する情報を検索すること、および、画像が受理または拒絶されるまで、候補画像として画像を指定することを含む、検索ステップを実行する。例えば、検索された情報は、色彩特徴または他のビジュアル・コンテント・データ等を含む。
方法600のステップ630では、画像認識アルゴリズム出力を得るために、処理装置を使用して、目標画像および候補画像に関連する情報上で画像認識アルゴリズムを実行することを含む画像認識ステップを実行する。一実施例では、ステップ630は、キーポイントに基づく比較、領域に基づく色彩比較、およびビジュアル・シンボル比較を実行するために、処理装置を使用することを含む。様々な実施例では、キーポイントに基づく比較による実行は、少なくとも2つのキーポイント特徴ベクトルのペアワイズ比較を実行することを含み、領域に基づく色彩比較の実行は、少なくとも2つの色彩特徴ベクトルのEMD比較を実行することを含み、ビジュアル・シンボル比較の実行は、余弦比較を実行することを含む。
方法600のステップ640では、比較ステップを実行し、ここで、画像認識アルゴリズム出力が予め選択された範囲内(したがって、希望する質を示す)にある場合は、候補画像は、目標画像として受理され、また、画像認識アルゴリズム出力が予め選択された範囲内(希望する質の一致が達成されなかったことを示す)に無い場合は、候補画像は拒絶され、検索ステップ、画像認識ステップ、および比較ステップが繰り返される。
方法600のステップ650では、候補画像が目標画像として受理された後、目標画像に関連するデータ・セットをパーソナル電子装置へ送信する。
本発明は、特定の実施例に関して記述されたが、当業者であれば、本発明の精神または範囲から逸脱することなく、様々な変更を行なうことが可能であることを理解できるであろう。従って、本発明の実施例の開示は、本発明の範囲の例示であることが意図され、制限するものであることは意図されない。本発明の範囲は、添付された請求項によって要求される程度までにのみ、制限されたものとすることが意図される。例えば、当該技術分野において通常の知識を有する者には、ここに議論された画像認識アルゴリズムおよび関連する方法は、様々な実施例において実施可能であること、また、これらの実施例に関する先の議論は、必ずしもあらゆる実施例について完全な記述を表わさないことは容易に明白であろう。
さらに、利益、他の利点、および問題の解決策が特定の実施例に関して記述された。しかしながら、利益、利点、問題の解決策、および、あらゆる要素は、あらゆる利益、利点、または解決策を利点、利点、問題の解決策を生じさせ、またはより明確にさせるかもしれないが、いずれかの重大な特徴、要求された特徴、あるいは本質的な特徴、要素、あるいは請求項の全てとして解釈されるべきではない。
さらに、ここに示された実施例および制限は、その実施例および/または制限が、(1)明らかに請求項で規定されていない場合、および、(2)均等理論の下において、請求項に明記された要素および/または制限の潜在的な均等物である場合、公共供与主義の下で公に提供されるものではない。
110 入力
111 ビジュアル・コンテント
112 センサ・モダリティ
113 オーディオ・コンテント
120 画像データベース
200 画像認識アルゴリズム
205 ビジュアル・コンテント
206 オーディオ・コンテント
210 キーポイントに基づく比較
211 顕著なキーポイントの抽出
212 キーポイント
213 キーポイント特徴抽出
214 1セットのキーポイント特徴ベクトル
215 ペアワイズ比較
220 領域に基づく色彩比較
221 領域分割
223 色彩特徴抽出
224 1セットの色彩特徴ベクトル
225 EMD比較
231 OCR,音声認識
232 キーワード
233 余弦比較
305 センサ・モダリティ
310 GPSデータ
311 アラインメント
330 視認角および方向データ
111 ビジュアル・コンテント
112 センサ・モダリティ
113 オーディオ・コンテント
120 画像データベース
200 画像認識アルゴリズム
205 ビジュアル・コンテント
206 オーディオ・コンテント
210 キーポイントに基づく比較
211 顕著なキーポイントの抽出
212 キーポイント
213 キーポイント特徴抽出
214 1セットのキーポイント特徴ベクトル
215 ペアワイズ比較
220 領域に基づく色彩比較
221 領域分割
223 色彩特徴抽出
224 1セットの色彩特徴ベクトル
225 EMD比較
231 OCR,音声認識
232 キーワード
233 余弦比較
305 センサ・モダリティ
310 GPSデータ
311 アラインメント
330 視認角および方向データ
Claims (13)
- 目標画像を識別する方法において、前記方法は、
処理装置で入力を受信する段階であって、前記入力は、前記目標画像に関連するデータを含む、段階と、
検索ステップを実行する段階であって、前記検索ステップは、画像データベースから画像を検索することを含み、前記画像データベースは、複数の潜在的に一致する画像を含み、前記画像が受理または拒絶されるまで、前記画像を候補画像として指定する、段階と、
画像認識ステップを実行する段階であって、前記画像認識ステップは、画像認識アルゴリズム出力を得るために、前記目標画像および前記候補画像上で画像認識アルゴリズムを実行するために前記処理装置を使用する段階を含む、段階と、
比較ステップを実行する段階であって、前記比較ステップは、
前記画像認識アルゴリズム出力が予め選択された範囲内にある場合は、前記目標画像として前記候補画像を受理し、
前記画像認識アルゴリズム出力が前記予め選択された範囲内にない場合は、前記候補画像を拒絶し、前記検索ステップ、前記画像認識ステップ、および前記比較ステップを繰り返す、段階と、
から構成されることをと特徴とする方法。 - 前記画像認識アルゴリズムを実行するために前記処理装置を使用する段階は、キーポイントに基づく比較、領域に基づく色彩比較、およびビジュアル・シンボル比較のうちの少なくとも1つを実行するために前記処理装置を使用する段階を含むことを特徴とする請求項1記載の方法。
- 前記キーポイントに基づく比較を実行する段階は、少なくとも2つのキーポイント特徴ベクトルのペアワイズ比較を実行する段階を含むことを特徴とする請求項2記載の方法。
- 前記領域に基づく色彩比較を実行する段階は、少なくとも2つの色彩特徴ベクトルのアース・ムーバーズ・ディスタンス(EMD)比較を実行する段階を含むことを特徴とする請求項2記載の方法。
- 前記ビジュアル・シンボル比較を実行する段階は、余弦比較を実行する段階を含むことを特徴とする請求項2記載の方法。
- 前記処理装置で前記入力を受信する段階は、センサ・モダリティ・データを受信する段階を含み、
前記センサ・モダリティ・データは、位置システム、運動センサ、ジャイロスコープ、およびコンパスのうちの少なくとも1つからのデータを含む、
ことを特徴とする請求項1記載の方法。 - 前記複数の潜在的に一致する画像をフィルタするために、前記センサ・モダリティ・データを使用する段階をさらに含むことを特徴とする請求項6記載の方法。
- 前記処理装置で前記入力を受信する段階は、ビジュアル・コンテント・データ、センサ・モダリティ・データ、およびオーディオ・コンテント・データのうちの少なくとも1つを受信する段階を含むことを特徴とする請求項1記載の方法。
- 前記処理装置で前記入力を受信する段階は、携帯用電子装置から前記入力を受信する段階を含むことを特徴とする請求項1記載の方法。
- 携帯用電子装置への送信のためにデータを選択する方法において、前記方法は、
処理装置で目標画像に関連する情報を受信する段階であって、前記情報は前記携帯用電子装置から送信される、段階と、
検索ステップを実行する段階であって、前記検索ステップは、画像データベースからの画像に関連する情報を検索する段階を含み、前記画像データベースは、複数の潜在的に一致する画像を含み、前記画像が受理または拒絶されるまで、候補画像として前記画像を指定する、段階と、
画像認識ステップを実行する段階であって、前記画像認識ステップは、画像認識アルゴリズム出力を得るために、前記目標画像および前記候補画像に関連する前記情報上で画像認識アルゴリズムを実行するために前記処理装置を使用することを含む、段階と、
比較ステップを実行する段階であって、前記比較ステップは、
前記画像認識アルゴリズム出力が予め選択された範囲内にある場合は、前記目標画像として前記候補画像を受理し、
前記画像認識アルゴリズム出力が前記予め選択された範囲内にない場合は、前記候補画像を拒絶し、検索ステップ、前記画像認識ステップ、および前記比較ステップを繰り返す、段階と、
前記目標画像として前記候補画像を受理した後、前記目標画像に関連するデータ・セットを前記携帯用電子装置へ送信する段階と、
から構成されることを特徴とする方法。 - 前記画像認識アルゴリズムを実行するために前記処理装置を使用する段階は、キーポイントに基づく比較、領域に基づく色彩比較、およびビジュアル・シンボル比較のうちの少なくとも1つを実行するために前記処理装置を使用する段階を含み、
前記キーポイントに基づく比較を実行する段階は、少なくとも2つのキーポイント特徴ベクトルのペアワイズ比較を実行する段階を含み、
前記領域に基づく色彩比較を実行する段階は、少なくとも2つの色彩特徴ベクトルのアース・ムーバーズ・ディスタンス(EMD)比較を実行する段階を含み、
前記ビジュアル・シンボル比較を実行する段階は、余弦比較を実行する段階を含むことを特徴とする請求項10記載の方法。 - 前記処理装置で前記目標画像に関連する前記情報を受信する段階は、センサ・モダリティ・データを受信する段階を含み、
前記センサ・モダリティ・データは、位置システム、アクセロメータ、ジャイロスコープ、およびコンパスの少なくとも1つのからのデータを含み、
前記方法は、前記複数の潜在的に一致する画像をフィルタするために、前記センサ・モダリティ・データを使用する段階をさらに含む、
ことを特徴とする請求項10記載の方法。 - 前記処理装置で前記目標画像に関連する前記情報を受信する段階は、ビジュアル・コンテント・データ、センサ・モダリティ・データ、およびオーディオ・コンテント・データのうちの少なくとも1つを受信する段階を含むことを特徴とする請求項10記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/315,405 US8391615B2 (en) | 2008-12-02 | 2008-12-02 | Image recognition algorithm, method of identifying a target image using same, and method of selecting data for transmission to a portable electronic device |
US12/315,405 | 2008-12-02 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009271250A Division JP2010152884A (ja) | 2008-12-02 | 2009-11-30 | 画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012108961A true JP2012108961A (ja) | 2012-06-07 |
Family
ID=42222845
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009271250A Pending JP2010152884A (ja) | 2008-12-02 | 2009-11-30 | 画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法 |
JP2012048628A Pending JP2012108961A (ja) | 2008-12-02 | 2012-03-05 | 画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009271250A Pending JP2010152884A (ja) | 2008-12-02 | 2009-11-30 | 画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8391615B2 (ja) |
JP (2) | JP2010152884A (ja) |
CN (1) | CN101950351B (ja) |
TW (1) | TWI443588B (ja) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100101204A (ko) * | 2009-03-09 | 2010-09-17 | 한국전자통신연구원 | 관심영역 기반의 유씨씨 영상 검색 방법 및 그 장치 |
US8175617B2 (en) * | 2009-10-28 | 2012-05-08 | Digimarc Corporation | Sensor-based mobile search, related methods and systems |
US9031971B2 (en) | 2010-07-23 | 2015-05-12 | Qualcomm Incorporated | Flexible data download models for augmented reality |
KR101293776B1 (ko) * | 2010-09-03 | 2013-08-06 | 주식회사 팬택 | 객체 리스트를 이용한 증강 현실 제공 장치 및 방법 |
CN103168294A (zh) * | 2010-10-22 | 2013-06-19 | 瑞典爱立信有限公司 | 图像匹配装置和图像匹配方法 |
WO2012100819A1 (en) | 2011-01-25 | 2012-08-02 | Telecom Italia S.P.A. | Method and system for comparing images |
CN102292707B (zh) * | 2011-05-11 | 2014-01-08 | 华为终端有限公司 | 实现增强现实应用的方法及系统 |
JP5830784B2 (ja) * | 2011-06-23 | 2015-12-09 | サイバーアイ・エンタテインメント株式会社 | 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム |
CN104115161B (zh) | 2012-01-02 | 2017-07-14 | 意大利电信股份公司 | 用于比较图像的方法和系统 |
ITVI20120041A1 (it) * | 2012-02-22 | 2013-08-23 | St Microelectronics Srl | Rilevazione di caratteristiche di un'immagine |
US9495591B2 (en) * | 2012-04-13 | 2016-11-15 | Qualcomm Incorporated | Object recognition using multi-modal matching scheme |
US9269011B1 (en) * | 2013-02-11 | 2016-02-23 | Amazon Technologies, Inc. | Graphical refinement for points of interest |
WO2014132250A1 (en) * | 2013-02-26 | 2014-09-04 | Adience SER LTD | Generating user insights from images and other data |
US9311640B2 (en) | 2014-02-11 | 2016-04-12 | Digimarc Corporation | Methods and arrangements for smartphone payments and transactions |
JP6105092B2 (ja) * | 2013-03-06 | 2017-03-29 | インテル コーポレイション | 光学式文字認識を用いて拡張現実を提供する方法と装置 |
US9672223B2 (en) * | 2013-04-25 | 2017-06-06 | Google Inc. | Geo photo searching based on current conditions at a location |
US10331733B2 (en) | 2013-04-25 | 2019-06-25 | Google Llc | System and method for presenting condition-specific geographic imagery |
IL229860A0 (en) * | 2013-12-08 | 2014-01-30 | Shop Cloud Ltd | System and method for intrastructural navigation |
KR101713197B1 (ko) * | 2015-04-01 | 2017-03-09 | 주식회사 씨케이앤비 | 서버 컴퓨팅 장치 및 이를 이용한 콘텐츠 인식 기반의 영상 검색 시스템 |
US20170004410A1 (en) * | 2015-07-03 | 2017-01-05 | Christopher William Paran | Standardized process to quantify the value of research manuscripts |
US9654618B2 (en) | 2015-07-08 | 2017-05-16 | International Business Machines Corporation | Adjusting a volume level of a phone for a detected hearing aid |
KR20170015115A (ko) | 2015-07-30 | 2017-02-08 | 삼성전자주식회사 | 자율 주행 차량 및 자율 주행 차량 제어 방법 |
US10063751B2 (en) | 2015-09-24 | 2018-08-28 | Qualcomm Incorporated | System and method for accessing images with a captured query image |
CZ2015919A3 (cs) * | 2015-12-18 | 2017-09-13 | Vysoké Učení Technické V Brně | Způsob kontroly barvy oděvu a/nebo pokrývky hlavy osoby |
US9702717B1 (en) | 2016-02-19 | 2017-07-11 | International Business Machines Corporation | Creating route based on image analysis or reasoning |
CN105788603B (zh) * | 2016-02-25 | 2019-04-16 | 深圳创维数字技术有限公司 | 一种基于经验模态分解的音频识别方法及系统 |
US10187216B2 (en) | 2016-04-14 | 2019-01-22 | Honeywell International Inc. | Connecting a portable computing device to a vehicle by comparing a captured image of a vehicle indicator with stored images of known vehicle indicators |
US10347249B2 (en) * | 2016-05-02 | 2019-07-09 | The Regents Of The University Of California | Energy-efficient, accelerometer-based hotword detection to launch a voice-control system |
US9959792B2 (en) | 2016-09-29 | 2018-05-01 | GM Global Technology Operations LLC | System and method to place subjective messages on a vehicle |
US20180157681A1 (en) * | 2016-12-06 | 2018-06-07 | Ebay Inc. | Anchored search |
CN108428242B (zh) * | 2017-02-15 | 2022-02-08 | 宏达国际电子股份有限公司 | 图像处理装置及其方法 |
US10169549B2 (en) * | 2017-03-30 | 2019-01-01 | Adobe Inc. | Digital image processing including refinement layer, search context data, or DRM |
US10339642B2 (en) | 2017-03-30 | 2019-07-02 | Adobe Inc. | Digital image processing through use of an image repository |
US20180339730A1 (en) * | 2017-05-26 | 2018-11-29 | Dura Operating, Llc | Method and system for generating a wide-area perception scene graph |
TWI640931B (zh) | 2017-11-23 | 2018-11-11 | 財團法人資訊工業策進會 | 影像目標追蹤方法及裝置 |
CN108347685A (zh) * | 2018-02-05 | 2018-07-31 | 四川东鼎里智信息技术有限责任公司 | 一种视觉识别转化为骨传导的精密算法 |
US10650233B2 (en) | 2018-04-25 | 2020-05-12 | International Business Machines Corporation | Identifying discrete elements of a composite object |
CN110765821B (zh) * | 2018-07-27 | 2022-08-16 | 杭州海康威视数字技术股份有限公司 | 图像识别的方法及装置 |
CN109271902B (zh) * | 2018-08-31 | 2021-12-24 | 西安电子科技大学 | 复杂背景下基于时域经验模态分解的红外弱小目标检测方法 |
CN110019960A (zh) * | 2018-09-05 | 2019-07-16 | 深圳市商汤科技有限公司 | 数据处理方法及装置、电子设备和存储介质 |
CN109359660A (zh) * | 2018-10-16 | 2019-02-19 | 深圳市热度网络科技有限公司 | 一种图像识别的高维数据模型算法 |
CN111161458A (zh) * | 2019-12-13 | 2020-05-15 | 上海聪育智能科技有限公司 | 一种基于人像识别的教学门禁管理系统及方法 |
CN111353470B (zh) * | 2020-03-13 | 2023-08-01 | 北京字节跳动网络技术有限公司 | 图像的处理方法、装置、可读介质和电子设备 |
CN113297408A (zh) * | 2021-06-09 | 2021-08-24 | 上海电机学院 | 基于Sift算法的图像匹配以及场景识别系统及方法 |
CN113806552B (zh) * | 2021-08-30 | 2022-06-14 | 北京百度网讯科技有限公司 | 信息提取方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005182350A (ja) * | 2003-12-18 | 2005-07-07 | Olympus Corp | 情報呈示システム、情報呈示装置、及びサーバ |
JP2005234994A (ja) * | 2004-02-20 | 2005-09-02 | Fujitsu Ltd | 類似度判定プログラム、マルチメディアデータ検索プログラム、類似度判定方法、および類似度判定装置 |
JP2007316950A (ja) * | 2006-05-25 | 2007-12-06 | Nippon Telegr & Teleph Corp <Ntt> | 画像処理方法及び装置及びプログラム |
JP2008146510A (ja) * | 2006-12-12 | 2008-06-26 | Sony Computer Entertainment Inc | コンテンツ案内装置、コンテンツ案内方法及びプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06274547A (ja) | 1993-03-22 | 1994-09-30 | Nippon Telegr & Teleph Corp <Ntt> | 複合語認識装置 |
JPH08255223A (ja) | 1995-03-16 | 1996-10-01 | Fuji Electric Co Ltd | 文字認識装置における類似文字判別方法 |
US6941321B2 (en) * | 1999-01-26 | 2005-09-06 | Xerox Corporation | System and method for identifying similarities among objects in a collection |
JP2002007413A (ja) | 2000-06-20 | 2002-01-11 | Fujitsu Ltd | 画像検索装置 |
US7697792B2 (en) * | 2003-11-26 | 2010-04-13 | Yesvideo, Inc. | Process-response statistical modeling of a visual image for use in determining similarity between visual images |
JP4471802B2 (ja) | 2004-09-30 | 2010-06-02 | 三洋電機株式会社 | 文書処理装置 |
US7966327B2 (en) | 2004-11-08 | 2011-06-21 | The Trustees Of Princeton University | Similarity search system with compact data structures |
US7809722B2 (en) * | 2005-05-09 | 2010-10-05 | Like.Com | System and method for enabling search and retrieval from image files based on recognized information |
JP5170961B2 (ja) * | 2006-02-01 | 2013-03-27 | ソニー株式会社 | 画像処理システム、画像処理装置および方法、プログラム、並びに記録媒体 |
US7860317B2 (en) * | 2006-04-04 | 2010-12-28 | Microsoft Corporation | Generating search results based on duplicate image detection |
EP1906339B1 (en) * | 2006-09-01 | 2016-01-13 | Harman Becker Automotive Systems GmbH | Method for recognizing an object in an image and image recognition device |
EP2092449A1 (en) | 2006-11-14 | 2009-08-26 | Koninklijke Philips Electronics N.V. | Method and apparatus for identifying an object captured by a digital image |
-
2008
- 2008-12-02 US US12/315,405 patent/US8391615B2/en not_active Expired - Fee Related
-
2009
- 2009-11-25 TW TW098140104A patent/TWI443588B/zh not_active IP Right Cessation
- 2009-11-30 JP JP2009271250A patent/JP2010152884A/ja active Pending
- 2009-12-02 CN CN2009110002286A patent/CN101950351B/zh not_active Expired - Fee Related
-
2012
- 2012-03-05 JP JP2012048628A patent/JP2012108961A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005182350A (ja) * | 2003-12-18 | 2005-07-07 | Olympus Corp | 情報呈示システム、情報呈示装置、及びサーバ |
JP2005234994A (ja) * | 2004-02-20 | 2005-09-02 | Fujitsu Ltd | 類似度判定プログラム、マルチメディアデータ検索プログラム、類似度判定方法、および類似度判定装置 |
JP2007316950A (ja) * | 2006-05-25 | 2007-12-06 | Nippon Telegr & Teleph Corp <Ntt> | 画像処理方法及び装置及びプログラム |
JP2008146510A (ja) * | 2006-12-12 | 2008-06-26 | Sony Computer Entertainment Inc | コンテンツ案内装置、コンテンツ案内方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
TWI443588B (zh) | 2014-07-01 |
US8391615B2 (en) | 2013-03-05 |
TW201030633A (en) | 2010-08-16 |
US20100135527A1 (en) | 2010-06-03 |
CN101950351A (zh) | 2011-01-19 |
CN101950351B (zh) | 2013-11-13 |
JP2010152884A (ja) | 2010-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2012108961A (ja) | 画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法 | |
Xu et al. | Geolocalized modeling for dish recognition | |
US11501514B2 (en) | Universal object recognition | |
JP6961363B2 (ja) | 情報処理システム、情報処理方法及びプログラム | |
KR102285915B1 (ko) | 모바일 디바이스를 위한 실시간 3d 제스처 인식 및 트랙킹 시스템 | |
US9626585B2 (en) | Composition modeling for photo retrieval through geometric image segmentation | |
CN113704531A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
US20190197133A1 (en) | Shape-based graphics search | |
WO2022033111A1 (zh) | 图像信息提取方法、训练方法及装置、介质和电子设备 | |
Cheng et al. | Hierarchical visual localization for visually impaired people using multimodal images | |
JP6615225B2 (ja) | 画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法 | |
Min et al. | Mobile landmark search with 3D models | |
WO2022016803A1 (zh) | 视觉定位方法及装置、电子设备和计算机可读存储介质 | |
Park et al. | Estimating the camera direction of a geotagged image using reference images | |
KR20040054901A (ko) | 동영상 검색 시스템 및 방법 | |
JP2013186478A (ja) | 画像処理システム及び画像処理方法 | |
Li et al. | 3d room reconstruction from a single fisheye image | |
Santos et al. | RECOGNIZING AND EXPLORING AZULEJOS ON HISTORIC BUILDINGS’FACADES BY COMBINING COMPUTER VISION AND GEOLOCATION IN MOBILE AUGMENTED REALITY APPLICATIONS | |
Hettiarachchi et al. | Depth as attention to learn image representations for visual localization, using monocular images | |
Alletto et al. | Wearable vision for retrieving architectural details in augmented tourist experiences | |
Yang et al. | Point cloud semantic segmentation of grotto scenes using the knowledge-guided deep learning method | |
Ren et al. | Loop closure detection based on feature pyramids and NetVLAD | |
Ekstrand et al. | High-speed segmentation-driven high-resolution matching | |
CN113656616B (zh) | 一种基于异构孪生神经网络的三维模型草图检索方法 | |
CN107103084A (zh) | 一种质量保证的渐进式并行图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120305 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121025 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130415 |