JP5721233B2 - 画像認識システム - Google Patents

画像認識システム Download PDF

Info

Publication number
JP5721233B2
JP5721233B2 JP2011547721A JP2011547721A JP5721233B2 JP 5721233 B2 JP5721233 B2 JP 5721233B2 JP 2011547721 A JP2011547721 A JP 2011547721A JP 2011547721 A JP2011547721 A JP 2011547721A JP 5721233 B2 JP5721233 B2 JP 5721233B2
Authority
JP
Japan
Prior art keywords
image
category
mdb
information
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011547721A
Other languages
English (en)
Other versions
JPWO2011081192A1 (ja
Inventor
久夛良木 健
健 久夛良木
隆 薄
隆 薄
靖彦 横手
靖彦 横手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CYBER AI ENTERTAINMENT Inc
Original Assignee
CYBER AI ENTERTAINMENT Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CYBER AI ENTERTAINMENT Inc filed Critical CYBER AI ENTERTAINMENT Inc
Priority to JP2011547721A priority Critical patent/JP5721233B2/ja
Publication of JPWO2011081192A1 publication Critical patent/JPWO2011081192A1/ja
Application granted granted Critical
Publication of JP5721233B2 publication Critical patent/JP5721233B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Description

本発明は、広く画像認識システムに関し、特に、データベースを備えた画像認識システムに関する。
[画像認識技術]
画像認識の研究のはじまりは、一般に40年以上前に遡ることができる。以来、計算機の高速化と機械学習技術の進歩とともに、線画解釈(1970年代)、人手によるルールや幾何形状モデルによって構築された知識データベースに基づく認知モデル、及び3次元モデル表現(1980年代)といった研究が進み、1990年代に入ると、特に顔画像の認識や学習による認識に関する研究が盛んになった。
画像認識研究は、顔画像の認識から一般的な物体への認識へと発展した。2000年代になると、計算機能力の一層の向上により、統計処理や学習処理のために必要な膨大な計算量が処理可能になったため、一般物体認識に関する研究が進んだ。一般物体認識とは、実世界のシーンを撮影した画像に対して、計算機がその画像中に含まれる物体を一般的な名称で認識する技術である。80年代には、人手によってルールやモデルの構築がなされていたのに対し、大量のデータを高速に処理可能になったこの時期には統計的機械学習によるアプローチが注目され、近年の一般物体認識ブームのきっかけとなった。一般物体認識技術によれば、画像に対するキーワードを自動的に付与することが可能になり、画像をその意味内容によって分類及び検索することが可能になる。計算機によって人間の認識機能を実現することが究極の目標とされている(非特許文献1)。
一般物体認識技術は、画像データベースからのアプローチと統計的確率手法の導入によって進歩した。その中でも先駆的な研究として、画像に人手でキーワードを付与したデータから対応付けを学習し物体認識を行なう手法(非特許文献2)や、局所特徴量に基づく手法(非特許文献3)がある。また、局所特徴量による特定物体認識に関する研究にSIFT法(非特許文献4)、及びVideo Google(非特許文献5)がある。
そして、2004年に、"Bag-of-Keypoints"あるいは"Bag-of-Features"と呼ばれる手法が発表された。この手法は、画像をビジュアル・ワード(visual word)と呼ばれる代表的な局所パターン画像片の出現頻度ヒストグラムで表現する。具体的には、SIFT法に基づいた特徴点抽出を行い、あらかじめ求められた複数のビジュアル・ワードに基づいてSIFT特徴ベクトルをベクトル量子化し、画像ごとにヒストグラムを生成するものである。このように生成されたヒストグラムの次元数は、数百〜数千次元のスパース(sparse)なベクトルになる。そして、これらのベクトルは、多次元ベクトルの分類問題として処理されることにより画像認識処理が行われる(非特許文献6)。
[画像及び物体モデルから生成される擬似リアル空間]
計算機能力の向上は、コンピュータによる表現の世界においても大きな進展をもたらした。例えば、高速演算による物体の三次元モデリング処理や画像レンダリング処理がある。近年のコンピュータゲーム機は、ハードウェアが有する高い計算機能力によって3次元物体の描画を軽快に処理するようになっている。さらに、ネットワーク通信容量の増大により、サーバ上に蓄積された3次元物体モデルデータをクライアント端末から回転自在に閲覧することにもコンピュータに対する負担は生じなくなってきた。こうした画像処理技術及びネットワーク通信技術の進展により、2000年以降には、メタバースやバーチャル世界と呼ばれる擬似リアル空間が構築されるに至った。
柳井啓司, "一般物体認識の現状と今後", 情報処理学会論文誌, Vol.48, No.SIG16(CVIM19), pp.1-24, 2007 Pinar Duygulu, Kobus Barnard, Nando de Freitas, David Forsyth, "Object Recognition as Machine Translation: Learning a lexicon for a fixed image vocabulary," European Conference on Computer Vision (ECCV), pp.97-112, 2002. R. Fergus, P. Perona, and A. Zisserman, "Object Class Recognition by Unsupervised Scale-invariant Learning," IEEE Conf. on Computer Vision and Pattern Recognition, pp.264-271, 2003. David G.Lowe, "Object Recognition from Local Scale-Invariant Features," Proc. IEEE International Conference on Computer Vision, pp.1150-1157, 1999. J. Sivic and A. Zisserman, "Video google: A text retrieval approach to object matching in videos," Proc. ICCV2003, Vol. 2, pp.1470-1477, 2003. G. Csurka, C. Bray, C. Dance, and L. Fan, "Visual categorization with bags of keypoints," Proc. ECCV Workshop on Statistical Learning in Computer Vision, pp.1-22, 2004.
しかしながら、従来の画像認識技術においては画像中の文字や画像に付与されたメタデータといったテキストに依存する部分、及び分析や学習において人手を介した処理部分があり、AI(Artificial Intelligence)の観点から根本的な改善の余地が残されていた。
また、従来の画像認識技術においては、認識に利用するデータを生成するための学習に多くのサンプル画像を必要とする。しかし、いくら多数の写真や動画を集めてきても、これら写真や動画の有する情報量の限界までしか識別できず、画像認識の精度を上げることができない。さらには、写真や動画には通常多種のノイズや欠損及びエラーが含まれている。したがって、写真や動画に写し出された物体の特徴が埋もれてしまうことが多い。ここに、従来におけるテンプレートマッチング技術やBag-of-Feature手法の限界があったと言える。
したがって、画像認識において元画像に対して比較する元データの精度/精細度を含む情報量を極限まで上げることが望ましい。
また、従来の擬似リアル空間は、はじめから実世界とは異なる仮想空間として割り切って作り込まれており、限りなく精細度を高めた時空間を実現するものではなかった。
そこで、本発明では、限りなく精度/精細度を高めた時空間を構築可能なデータベースを備えた画像認識システムを提供することを目的とする。
ここで、発明者らが追求する時空間について述べておく。
われわれ人間は、認知空間に生きている。
人間が認知できる様々な情報(写真や動画、音など)は、対象物それ自体は十分詳細な情報は有していない場合であっても、人間が蓄積した知識や経験をもとに脳により知識処理をすることにより瞬時に補完され、対象物が正確に何者であるか判断することが可能である。
本発明では、このような人間が有する特徴をコンピュータに適用する方法を提供する。個々の人間の知識データベースは、脳内に収納可能な量に限定される。また、人類全体の知識は遥かに大きいものの、即時に包括して参照し的確な判断を行うことはできない(例えば、地球上の70億人+過去の全ての人類の知識)。
これらの知識は、コンピュータシステム上の膨大なデータベースとして時間をかけて集積し、学習(AI)により進化可能である。
これらにより、将来、人間の認知能力・判断能力を遥かに超える人工知能システムの誕生が期待できる。この基本となるデータベースに、時間軸情報を含ませることにより、4次元の時空間を参照や移動が可能となる。
この基本となるデータベースを「マザーデータベース」(以下、「MDB」と略す)と呼ぶ。
われわれの日常をよく観察してみると、広範な時代の広範な地域の事物を高度な情報伝達によって見知ることができるようになったが、そこには、常に資料の精細度や物体の保存状態に起因する情報密度の限界が存在していた。われわれが追求する世界は、人間の五感や知識で捕捉可能な情報量を超えた"The object"であり、"The space"であり、"The world"である。これらは現実世界の詳細を記述したものであり、メタバースやバーチャル世界といった擬似現実とは全くその本質を異とするものである。
博物館は様々な事物を現物として収集しているが、上記システムは、それらをいつの時点でも認識・再構築可能なAIシステム上の「マザーデータベース」として蓄積・成長させるものである。
仮に、多くの物体が千年後に消失してしまっても、AIシステム上の「マザーデータベース」に物体は存在し続ける。未来の考古学は、地層を掘ったり、アイソトープによる年代測定をすること以外に、マザーデータベースを未来人がマイニングすることで実践されることになるだろう。そうした意味においても、マザーデータベースは、人類にとって最も重要な記憶であり、財産となる。
本発明に係る画像認識システムは、物体を構成するためのデータベースから生成されたマザーデータベース(MDB)と、一般物体認識部と、特定物体認識部とを備えた画像認識システムであって、入力画像から得られる特徴量を用いてカテゴリ群を推定する一般物体認識部、及び、前記一般物体認識部により絞り込まれたカテゴリ内に属する1以上のMDBから抽出された物体の特徴データであらわされた特徴量と入力画像から抽出された特徴量とを、前記入力画像の構造を含む複数の部位ごとに比較して物体を同定する特定物体認識部を有することを特徴とする。
また、前記同定された物体に対し、入力画像から直接得られる情報もしくは入力画像のリンク先からさらに詳細な物体に関するデータが得られる場合は、前記データに基づいてMDBを成長・更新・分割・統合・拡張・修正させることを特徴とする。
また、前記一般物体認識部でカテゴリを特定できず、前記特定物体認識部で物体が同定される場合、MDBから生成する特徴量を前記一般物体認識部におけるカテゴリ識別情報として追加登録することを特徴とする。
また、新たな未登録の物体のデータベースが発見された場合、当該物体に関わる詳細なデータベースをMDBに登録するとともに、前記一般物体認識部におけるカテゴリ識別情報として追加登録することを特徴とする。
また、前記特定物体認識部で物体を同定できない場合、入力画像から得られる画像以外の情報及び/又は集合知に基づいて物体を判別し、当該物体に関わる詳細なデータベースをMDBに登録するとともに、前記一般物体認識部におけるカテゴリ識別情報として追加登録することを特徴とする。
また、前記一般物体認識部及び前記特定物体認識部で物体を同定できず、かつ前記入力画像から得られる画像以外の情報及び/又は集合知を以ってしても前記物体が不明な場合、不明物体として登録し、その後の他の物体の特定物体認識により新規カテゴリもしくは新規物体が登録された場合に前記不明物体を再度検証することを特徴とする。
本発明に係る画像認識システムによれば、次のような効果を奏する。
(1)画像中の文字や、メタデータ等に頼らずに物体を同定する画像認識が可能になる。
(2)認知対象の物体はCAD等の設計データが存在している物を含む広範な物体が対象であり、ユーザは手元の画像や動画などを元に、本発明に係る画像認識システムにより認識される物体に関するより詳細なデータに基づいた様々な情報を得ることができる。
(3)本発明に係る画像認識システムにおけるデータベースは、回帰的学習により個々の物体の詳細なデータについて自律的な登録・更新による成長を続け、限りなく精度/精細度の高い時空間を構築可能なデータベースを備えることにより、膨大な数及び種類の物体の画像認識を可能にするシステムを提供することができる。
本発明に係る画像認識システムの一実施形態におけるシステム構成図を説明する説明図である。 本発明に係る画像認識機能ベースシステムの一実施形態におけるサーバ及びMDBの機能ブロックを説明する説明図である。 本発明に係る画像認識システムの一実施形態における端末装置の機能ブロックを説明する説明図である。 本発明に係る画像認識機能システムの一実施形態における画像認識フローを説明する説明図である。 本発明に係る画像認識機能システムの一実施形態における他の画像認識フローを説明する説明図である。 本発明に係る画像認識機能システムの一実施形態における処理概念を説明する説明図である。 本発明に係る画像認識機能システムの一実施形態における処理概念を説明する説明図である。 本発明に係る画像認識機能システムの一実施形態における特定物体認識処理を説明する説明図である。 本発明に係る画像認識機能システムの一実施形態における特定物体認識処理を説明する説明図である。 本発明に係る画像認識機能システムの一実施形態における特定物体認識処理を説明する説明図である。 本発明に係る画像認識機能システムの一実施形態における処理概念を説明する説明図である。
以下、本発明に係る画像認識システムを実施するための形態について詳述する。
図1に、本発明に係る画像認識システムの一実施形態を示す。画像認識システム100は、サーバ101と、MDB102と、ユーザが使用する端末装置105a〜105dとからなり、サーバ101とMDB102とは接続103で接続され、サーバ101及び装置105はネットワークないしインターネット104に接続されている。
ここで、サーバとは、クライアントからの要求に対して何らかのサービスを提供するコンピュータシステムであり、複数のサーバ群が結合したサーバーシステムを構成したり、複数のサーバシステムが結合したコンピュータ群を意味し、複数のソフトウェアにより駆動される。したがって、本明細書では、サーバの意義を上記のとおり位置付ける。
また、ハードウェアとしてのコンピュータは、最も基本的な構成としては、命令バス及びデータバスで接続された算術論理演算ユニットと制御ユニットと記憶装置と入出力装置とを備えた電子計算機である。入出力インタフェースを介して入出力装置から入力された情報(ビットデータ)に基づき算術論理演算ユニットにおいて算術演算や論理演算、比較演算、シフト演算等が実行される。実行されたデータは必要に応じて記憶装置に記憶され、入出力装置から出力される。これら一連の処理は、記憶装置に記憶されたソフトウェアプログラムによって制御される。本発明における各サーバマシンも、上記のとおりのコンピュータとしての基本機能を最低限備えたハードウェアであり、オペレーティングシステムやデバイスドライバ、そしてアプリケーションソフトウェアといったプログラム群によって制御されている。
図2に、本発明に係る画像認識機能システムの一実施形態におけるサーバ101及びMDB102の機能ブロックを示す。サーバ101は、ソフトウェア機能ブロックとして、領域処理部201と、一般物体認識部202と、特定物体認識部203と、設計データ再構成部204と、構造データ照合部205と、MDB検索部206と、MDB学習部207と、MDBマネージメント部208とからなる。サーバ101の機能ブロックは必ずしもこれらに限定されるものではないが、これら代表的な機能について簡単に説明する。
領域処理部201は、画像内の領域分割や部分画像の切出しなどを行う。一般物体認識部202は、画像中に含まれる物体の一般的な名称(カテゴリ)を認識する。また、特定物体認識部203は、MDBに登録された情報と照合し、物体を同定する。ネットワーク通信制御部204は、画像の入力出力処理や、端末との情報通信制御などを行う。データ検索処理部205は、リンク先から情報を収集したり、集合知の問合せや、収集、ならびに検索などを行う。MDB検索部206は、物体の名称等のタグデータ等をMDBから検索する。MDB学習部207は、新規設計データの追加や詳細情報の追加、時間情報の登録、付帯情報の登録、更新、追加などを行う。MDBマネージメント部208は、設計データ251から特徴点や特徴量を抽出し特徴量データ253への登録、付帯情報からカテゴリ情報を抽出しカテゴリデータ254への登録や、カテゴリデータ254内のカテゴリ分類の拡張、分割、更新、統合、修正、新規カテゴリの登録などを行う。
また、MDB102は、設計データ251と、付帯情報データ252と、特徴量データ253と、カテゴリデータ254と、不特定物体データ255とからなる。MDB102は必ずしもこれらに限定されるものではないが、これら代表的な機能について簡単に説明する。
設計データ251は、物体を構成ないし製造するためのデータベースから生成された、物体の構造や形状、寸法、部品の接続情報、配置図、可動部、可動範囲、重量、剛性など、物体を構成ないし製造するのに必要な基本情報を保持している。
付加情報データ252は、物体の名称、製造者、部品番号、日時、素材、組成、加工情報など物体に関する付加的なあらゆる情報を保持している。
特徴量データ253は、設計データ251に基づいて生成される個々の物体の特徴点や特徴量情報を保持している。
カテゴリデータ254は、一般物体認識部において物体のカテゴリ分類を行う際に使用する情報を保持している。
不特定物体データ255は、特定物体認識が出来ない物体情報を格納する。MDBの学習が進み特定物体認識が出来たときには、ここから削除される。
図3に、本発明に係る画像認識システムの一実施形態における端末装置を示す。端末装置105a〜105dは、広くユーザが使用するクライアント端末装置であり、コンピュータ、携帯情報端末(PDA)、携帯電話機等が含まれる。つまり、端末装置105a〜105dは、多様な種類の多数の電子情報機器がインターネットなどのネットワークに接続されている様子をあらわしている。以下、端末装置105と記載した場合にはネットワークに接続された端末装置105a〜105dのいずれか1台をさす。当然のことながら、端末装置105a〜105dはすべて同一機種である必要はない。同等の機能(あるいは実施可能な最低限の機能)を備えた端末装置であればよい。ここでは端末装置105の代表的な機能ブロックについて説明する。
端末装置105a〜105dは、入出力部301と、ネットワーク接続部302と、CPU303と、記憶部304と、電源部305とからなる。入出力部301は、例えば、キーボード、マウス、ペン、ジョグダイヤル、ジョイスティック、タッチパッド(ディスプレイに内蔵されるものを含む)、音声認識用のマイクなどの入力デバイスと、ディスプレイ、スピーカ、バイブレーターなどの出力デバイスとで構成される。ネットワーク接続部302は、インターネットなどのネットワークに接続するためのインタフェースであって、有線/無線を問わない。
CPU303は、中央処理装置であり、記憶部304は、ハードディスク、メモリ等の記憶装置であり、電源部305は、バッテリー等である。
このほか、必要に応じて傾きや加速度を検出するセンサ、GPS受信機などを搭載することもできる。
次に、図4に従って、本発明に係る画像認識機能システムの一実施形態における全体的な画像認識フローを説明する。
[一般物体認識]
画像認識処理の開始(S401)は、まず、端末装置105における元画像の入力からはじまる(S402)。元画像は、2次元画像であるか3次元画像であるかを問わない。また、元画像の入力に際しては、その元画像におけるどの物体の着目領域の指示がポインティングデバイス等のデバイス(不図示)を通じてなされる場合と、着目点の指示がなく元画像全体が処理対象として入力される場合がある。次に、S404において一般物体認識処理が行われる。一般物体認識処理には、例えば、BOF(Bag-Of-Features)の手法を採用することができる。この一般物体認識処理では、検出された物体のカテゴリ(物体の一般名称)の認識まで行われる。ただし、着目点の指示がされた場合は、カテゴリの認識ができた場合とできなかった場合とで処理が分岐し、その判断はS405で行われる。カテゴリ認識ができなかった場合には、S406へ進み、既存のカテゴリの取り扱いについて判断がなされる(S407)が、着目点に指示の有無に関わらず物体のカテゴリ認識が出来た場合には、特定物体認識処理へ進むべくS409へ進む。
[特定物体認識]
S405の判断において特定物体認識処理へ進む場合は、まず、S409において個別物体画像の切り出し処理が行われる。そして、切り出された個別物体画像について、特定物体認識処理が行われる(S410)。特定物体認識処理では、MDB102に登録された設計データ251から抽出された特徴量データ253に基づく一致度を算出する評価関数によって物体の同定が試みられる。
[学習処理(1)]
一方で、S405の判断において一般物体認識ができなかった場合には、S406へ進み、着目物体の持つ特徴量と、MDB102が把握している既存のカテゴリに属する物体の特徴量との情報距離に基づいて、その着目物体を含む新たなカテゴリを登録するか(S407)、その着目物体に近接する既存カテゴリの拡張を検討するか(S408)の判断が行われる。新たなカテゴリを登録する(S407)場合にはS404に復帰し、既存のカテゴリを拡張する(S408)場合にはS409へ進む。
[特定物体認識後 学習処理(2)]
S411においては、特定物体の同定ができたかどうかが判断される。特定物体の同定ができた場合には、S413に進み、S409において切り出された個別物体画像にMDB102に登録されている物体の詳細データよりもさらに精細な情報が含まれるかが判断される。もし、S413においてYesと判断された場合には、S414に進み、MDB102におけるその物体の詳細データはMDB学習部207により更新され、より精細な情報を有するようになる。一方で、S413においてNoと判断された場合には、S415に進み、次の判断がなされる。
S415は、S405において一般物体認識ができなかったと判断された場合であって、S406の判断でS408、S409、S410へ進み、特定物体の認識ができた(S411でYes)場合に判断される。S415において、特定された物体が既存のカテゴリであった場合には、MDB102に登録されているその既存カテゴリの定義を拡張、あるいは拡張によりカテゴリ内の物体の情報距離が分散する場合には分割(図11(A))、あるいは近接カテゴリとの情報距離が前記カテゴリ内の物体間の情報距離と同程度以下になった場合には統合(図11(B))、あるいは特定された物体の登録により既存の物体の情報の齟齬を発見した場合には修正を施し(図11(C))、カテゴリデータ254をアップデートする(S416)。一方で、S415において、特定された物体が既存のカテゴリでなかった場合には、S407へ遷移し、新規カテゴリとして登録する。
S411において、特定物体の認識ができなかった場合は、MDB102においてその物体は「未確認物体」として登録され、将来の処理に備えて認識処理を終了する(S417)。S416において既存カテゴリを拡張してアップデートされた場合も認識処理を終了する(S417)。
図5は、図4における特定物体認識処理及び学習処理の一部について、他の実施形態を示すフロー図である。以下、詳細に説明する。
まず、S501より特定物体認識処理が開始される。ここで入力されるデータは、単一物体の画像のほか、同レイヤの設計データを使用することができる。さらに、画像にリンクされた設計データや、設計データそれ自体(製品全体のみならず、部品であってもよい)を使用することもできる。
次に、S502において元画像内の特徴点及び特徴量が抽出され、MDBより生成される特徴量データと比較される。ここで、MDBより特徴量データを生成・比較する方法には、以下の2種類がある。
1つ目は、物体を構成する最小単位(設計データなどで表されている)ごとの3次元情報を元に、あらゆる角度から2次元平面に写像し、その写像画像から物体の特定に用いる特徴量などを生成する。比較する際には、その特徴量を元に入力画像から特徴量を抽出し、出現部位や頻度などを比較する方法である(S504)。なお、ここでの特徴量は、一例として輪郭抽出法やSURF法などに基づいて生成される。
2つ目は、物体を構成する最小単位(設計データなど)の集合からなる3次元形状情報を投影角度や拡大率などを変えながら2次元平面に写像するプロセスを評価関数として、物体の特徴点および特徴量との差異を一致度として判定する方法(チューン方式)である(S505)。
なお、従来は、サンプルとなる画像そのものをとにかくたくさん集めて特徴量あるいは評価関数による同定処理(S502)を行なっていたことに鑑みれば、S504やS505で説明したMDBより生成する方法(S503)は、同定の確度を上げるという点で従来技術より有利な効果を奏する。
次に、S506において、物体の同定ができたかが判断される。もし、同定されたと判断された場合には、S510に進み、同定に使用したデータがMDBのデータよりも詳細であるか、最新であるかが判断され、これらの判断に基づいて、物体固有の情報(設計データなど)や時間情報(物体の型式、バージョン情報)がMDBに更新登録され、特定物体認識処理を抜ける。つまり、情報の登録及びMDB更新が、データベース学習処理となる。
一方で、S506において、物体の同定ができなかったと判断されると、画像情報以外の情報(画像中の文字やロゴ)を抽出して物体同定処理を行う。例えば、画像中の物体に製造元を示すロゴが映し出されてさえいれば、物体の大半がフレームから外れていたとしても同定が容易に行える場合がある。そうして、S509に進み、再び物体の同定ができたかどうかが判断される。物体の同定ができていれば(S509においてYes)、S510に進み、同定に使用したデータがMDBのデータよりも詳細であるか、最新であるかが判断され、これらの判断に基づいて、物体固有の情報(設計データなど)や時間情報(物体の型式、バージョン情報)がMDBに更新登録され、特定物体認識処理を抜ける。
一方で、物体の同定ができなかったならば(S509においてNo)、不特定物体としてMDBに登録され、将来の更新や新カテゴリの生成に備え(S511)、特定物体認識処理を終了する。
なお、S507で示した、画像情報以外の情報による同定処理とともに、あるいはこれに替えて、集合知を利用して物体の同定に役立てることもできる(S508)。このS508の処理は、例えば、ネット上の百科事典を検索したり、Q&A掲示板に自動投稿することで実施される。ネット上の百科事典をシステムが自ら検索するには、一般物体認識で得られたカテゴリとともにMDBより生成された特徴量を用いて検索クエリを作成し検索を実行する。そして返送されてきた内容から新たな特徴量を抽出して物体の同定が可能か再度試みる。また、Q&A掲示板に自動投稿する場合は、一般物体認識で得られたカテゴリとともに元画像を掲示板にアップロードする。このとき、あらかじめ用意された定型文を自動編集して、「この○○について、型式を教えてください」とか、「この△△△について、設計情報を公開されているウェブサイトを教えてください」といったクエリを投稿する。そうして、他のユーザ(人間を含む)から「それは、xx−xxxxです」とか、「その△△△の設計データは、http://www.aaabbb.com/cad/data.dxfから入手可能です」といったアドバイスが寄せられる。システムは、これらのアドバイスを分析及び評価し、指定されたURLへアクセスし物体の設計データ等のダウンロードを試みる。新たに得られた設計データに基づいて物体の同定に成功すれば、得られた新たなデータがMDBに追加され、データベースが更新される。
図6及び図7は、図4のS406、S407、及びS408の処理例を詳細に説明する処理概念図である。図6(A)において、MDB102にはすでに登録済みの既存カテゴリA及びカテゴリBが存在し、S405において一般物体認識できなかったと判断されたオブジェクトObj1をどのカテゴリに分類すべきかが判断されようとしているものとする。ここでは、Obj1の特徴量と、カテゴリA及びカテゴリBの特徴量との情報距離が算出される(L1、L2)。そして、L1及びL2は十分に離れていると判断されるので、Obj1は新しいカテゴリに属すべきものとして、新カテゴリCが生成され登録される(図6(B))。
一方で、図7(A)においては、MDB102にはすでに登録済みの既存カテゴリA及びカテゴリBと、S405において一般物体認識できなかったと判断されたオブジェクトObj2とが存在し、それぞれの特徴量からみてObj2はカテゴリAに近接している関係にある。この場合、カテゴリAとObj2との情報距離は十分に近い(一方で、カテゴリBとObj2との情報距離は十分に遠い)。この場合には、Obj2について新たなカテゴリCを生成しようとすると、他のオブジェクトについてカテゴリAとカテゴリCとの両方に含まれる場合などが発生し、カテゴリ分類上好ましくないことがある。したがって、図7(A)のような関係にあるときは、カテゴリAの定義を最低限拡張して、Obj2を含むようにアップデートされる(図7(B))。
なお、情報距離の算出アルゴリズムには、符号理論上の種々のアルゴリズム(ハミング、フィッシャー等)や他の情報理論に基づく距離計算アルゴリズムを採用することができる。
なお、MDB102に物体の詳細データとして登録される設計データのフォーマットには種々のフォーマットを使用することができる。例えば、.DXF形式,.DWG形式,.3DS形式がある。そして、これら設計データから特徴量を算出し、同様の次元で元画像から算出した特徴量と照合して認識を行う方法についてはすでに述べたとおりである。
次に、図8及び図9に基づき、本発明にかかる画像認識システムにおいて元画像における長いすの特徴量と、MDBに登録されている長いすのCADデータの特徴量との比較によって特定物体認識を行う処理例を説明する。なお、図8は、物体認識(照合)の結果、一致した場合であり、図9は、物体認識(照合)の結果、不一致となる場合である。
[一致の場合]
図8(A)において、800は長いすの元画像である。ここでは、5つの特徴点が抽出されている。801は図中向かって左の背もたれ角の特徴点である。802は図中手前の左肘掛の角の特徴点である。803は左手前脚部の特徴点。804は右手前脚部の特徴点である。806は向かって右の背もたれの角の特徴点である。805は特徴点として抽出されなかった部位であるが、説明のため番号を付ける(丸印は付していない)。
図8(B)において、850は長いすの比較CADデータからの描画像である。ここでは、6つの特徴点が抽出されている。851は向かって左の背もたれの特徴点である。852は手前の左肘掛の角の特徴点である。853は左手前脚部の特徴点である。854は右手前脚部の特徴点である。855は手前の右肘掛の特徴点である。856は向かって右の背もたれの角の特徴点である。
比較は、特徴点801と851、特徴点802と852、特徴点803と853、特徴点804と854、特徴点805と855、特徴点806と856とで後述の手法(図10)を用いて行われる。特徴点805は検出できてないが、ここでは、他の5点が一致しているので、800の長いすは850の長いすと特定することが出来る。つまり、特徴点のうち、全ての特徴点あるいは一定の割合以上の特徴点が一致すれば物体が特定できたと判断することができる。
あるいは、物体の一部が隠れていた場合(関数検出できない場合)であっても、その他の特徴点でよく一致していれば同定できたとすることができる。
[不一致の場合]
図9(C)は、図8の(A)に示した長いす800と同じである。
図9(D)において、950は別の長いすの比較CADデータからの描画像である。ここでは、6つの特徴点が抽出されている。951は向かって左の背もたれの特徴点である。952は手前の左肘掛の角の特徴点である。953は左手前脚部の特徴点である。954は右手前脚部の特徴点である。955は手前の右肘掛の特徴点である。956は向かって右の背もたれの角の特徴点である。
比較は、特徴点801と951、特徴点802と952、特徴点803と953、特徴点804と954、特徴点805と955、特徴点806と956で行われる。後述の手法(図10)により802と952が一致してないので、800と850が別の物体と判断される。
[比較判断手法の例示]
図10(K)において、横軸には位相(角度、距離、色などを包含する)、縦軸には元画像と比較CAD画像の一致度を取る。比較CAD画像を偏位させ特徴点を比較することで、元画像との一致度が0と1の間の値を取る。一致すれば0であり、不一致であれば1である。CAD画像同士であれば、比較CAD画像の1つの位相で、元CAD画像が完全に一致する。しかし、元画像にはノイズが含まれているので、完全な一致にはなり得ない。結果、比較CAD画像の位相に従って1002の線となる。また、もし、完全に一致しない場合には、1003の直線になる。
図10(L)において、図8の一致の場合と図9の不一致の場合をあらわす。図10(L)Aにおいて、特徴点1は803、特徴点2は801、特徴点3は802、特徴点4は806、特徴点5は805、特徴点6は804に対応する。図Aではある同一位相値において抽出されてない特徴点805以外は極小値となっている。ゆえに、元画像は比較CAD画像と一致したと判断する。一方、図10(L)Bにおいては、同様の比較を行った結果、802に対応する特徴点3が他とは違う比較CAD画像の位相値で一致度の極小値となっている。結果、元画像は比較CAD画像とは不一致であると判断する。
100 画像認識システム
101 サーバ
102 マザーデータベース(MDB)
103 接続
104 ネットワーク(あるいはインターネット)
105a〜105d 端末装置

Claims (6)

  1. 物体の設計情報及びカテゴリ群を少なくとも記録しているマザーデータベース(MDB)と、一般物体認識部と、特定物体認識部とを備えた画像認識システムであって、
    入力画像から得られる1以上の特徴量を用いてカテゴリ群を推定する一般物体認識部、及び、
    前記推定されたカテゴリ群に属する前記MDBに記録されている物体の設計情報に基づいて、1以上の特徴量を計算し、当該計算された1以上の特徴量、前記入力画像から得られる前記1以上の特徴量とを比較して物体を同定する特定物体認識部
    を有する画像認識システム。
  2. 前記同定された物体に対し、入力画像から直接得られる情報もしくは入力画像のリンク先からさらに詳細な物体に関するデータが得られる場合は、前記データに基づいてMDBを成長・更新・分割・統合・拡張・修正させることを特徴とする請求項1に記載の画像認識システム。
  3. 前記一般物体認識部でカテゴリを特定できず、前記特定物体認識部で物体が同定される場合、MDBから生成する特徴量を前記一般物体認識部におけるカテゴリ識別情報として追加登録することを特徴とする請求項1〜2のいずれか1項に記載の画像認識システム。
  4. 新たな未登録の物体のデータベースが発見された場合、当該物体に関わる詳細なデータベースをMDBに登録するとともに、前記一般物体認識部におけるカテゴリ識別情報として追加登録することを特徴とする請求項1〜3のいずれか1項に記載の画像認識システム。
  5. 前記特定物体認識部で物体を同定できない場合、入力画像から得られる画像以外の情報及び/又は集合知に基づいて物体を判別し、当該物体に関わる詳細なデータベースをMDBに登録するとともに、前記一般物体認識部におけるカテゴリ識別情報として追加登録することを特徴とする請求項1〜4のいずれか1項に記載の画像認識システム。
  6. 前記一般物体認識部及び前記特定物体認識部で物体を同定できず、かつ前記入力画像から得られる画像以外の情報及び/又は集合知を以ってしても前記物体が不明な場合、不明物体として登録し、その後の他の物体の特定物体認識により新規カテゴリもしくは新規物体が登録された場合に前記不明物体を再度検証することを特徴とする請求項1〜5のいずれか1項に記載の画像認識システム。
JP2011547721A 2009-12-28 2010-12-28 画像認識システム Active JP5721233B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011547721A JP5721233B2 (ja) 2009-12-28 2010-12-28 画像認識システム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009297906 2009-12-28
JP2009297906 2009-12-28
JP2011547721A JP5721233B2 (ja) 2009-12-28 2010-12-28 画像認識システム
PCT/JP2010/073743 WO2011081192A1 (ja) 2009-12-28 2010-12-28 画像認識システム

Publications (2)

Publication Number Publication Date
JPWO2011081192A1 JPWO2011081192A1 (ja) 2013-05-13
JP5721233B2 true JP5721233B2 (ja) 2015-05-20

Family

ID=44226594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011547721A Active JP5721233B2 (ja) 2009-12-28 2010-12-28 画像認識システム

Country Status (4)

Country Link
US (1) US20120287304A1 (ja)
EP (1) EP2521092A1 (ja)
JP (1) JP5721233B2 (ja)
WO (1) WO2011081192A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5758831B2 (ja) * 2012-03-30 2015-08-05 楽天株式会社 情報提供装置、情報提供方法、情報提供プログラム、及びそのプログラムを記録するコンピュータ読み取り可能な記録媒体
US9424472B2 (en) * 2012-11-26 2016-08-23 Ebay Inc. Augmented reality information system
DE102014113817A1 (de) * 2013-10-15 2015-04-16 Electronics And Telecommunications Research Institute Vorrichtung und Verfahren zur Erkennung eines Objekts in Einem Bild
US10083368B2 (en) 2014-01-28 2018-09-25 Qualcomm Incorporated Incremental learning for dynamic feature database management in an object recognition system
GB2532075A (en) 2014-11-10 2016-05-11 Lego As System and method for toy recognition and detection based on convolutional neural networks
CN104486649B (zh) * 2014-12-18 2018-05-04 北京百度网讯科技有限公司 视频内容评级方法及装置
JP6540742B2 (ja) * 2017-03-29 2019-07-10 本田技研工業株式会社 物体認識装置および物体認識方法
JP6909657B2 (ja) * 2017-07-12 2021-07-28 株式会社日立製作所 映像認識システム
JP6985132B2 (ja) * 2017-12-20 2021-12-22 株式会社ダスキン 施設特定装置及びそのプログラム
US10890979B2 (en) * 2018-04-23 2021-01-12 Industrial Technology Research Institute Controlling system and controlling method for virtual display
US10650233B2 (en) 2018-04-25 2020-05-12 International Business Machines Corporation Identifying discrete elements of a composite object
CN109766915A (zh) * 2018-12-14 2019-05-17 深圳壹账通智能科技有限公司 基于图像识别的测试方法、装置、计算机设备及存储介质
WO2021070505A1 (ja) * 2019-10-07 2021-04-15 パナソニックIpマネジメント株式会社 分類システム、分類方法、及びプログラム
JP7082239B1 (ja) 2021-06-09 2022-06-07 京セラ株式会社 認識装置、端末装置、認識器構築装置、認識器修正装置、構築方法、及び修正方法
JP7148689B1 (ja) 2021-06-09 2022-10-05 京セラ株式会社 認識器学習装置、認識装置、電子機器、及び学習方法
KR102662978B1 (ko) * 2021-09-23 2024-05-03 광주과학기술원 실환경 물체 인식 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011543A (ja) * 1996-06-27 1998-01-16 Matsushita Electric Ind Co Ltd パターン認識用辞書作成装置及びパターン認識装置
JP2001118073A (ja) * 1999-10-20 2001-04-27 Fuji Xerox Co Ltd パターン認識装置及び認識方法
WO2006073081A1 (ja) * 2005-01-05 2006-07-13 Nec Corporation 識別用データ学習システム、学習装置、識別装置及び学習方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5479570A (en) * 1992-10-06 1995-12-26 Matsushita Electric Industrial Co., Ltd. Learning and recognition machine
DE69425166T2 (de) * 1993-02-26 2001-03-15 Canon Kk Verfahren und Gerät zur Mustererkennung
US5542086A (en) * 1993-07-06 1996-07-30 Novell, Inc. Document type metamorphosis in an object-oriented operating system having a graphical user interface
US6014461A (en) * 1994-11-30 2000-01-11 Texas Instruments Incorporated Apparatus and method for automatic knowlege-based object identification
EP0905644A3 (en) * 1997-09-26 2004-02-25 Matsushita Electric Industrial Co., Ltd. Hand gesture recognizing device
JP4624594B2 (ja) * 2000-06-28 2011-02-02 パナソニック株式会社 物体認識方法および物体認識装置
US20020165839A1 (en) * 2001-03-14 2002-11-07 Taylor Kevin M. Segmentation and construction of segmentation classifiers
US7327390B2 (en) * 2003-02-04 2008-02-05 Eastman Kodak Company Method for determining image correction parameters
DE10347123B4 (de) * 2003-10-02 2005-07-28 Petra Dr.-Ing. Perner Verfahren zur automatischen Bestimmung auf einem Träger gesammelter luftgetragener Partikel insbesondere Pilzsporen
US7564994B1 (en) * 2004-01-22 2009-07-21 Fotonation Vision Limited Classification system for consumer digital images using automatic workflow and face detection and recognition
US7697026B2 (en) * 2004-03-16 2010-04-13 3Vr Security, Inc. Pipeline architecture for analyzing multiple video streams
US20060120686A1 (en) * 2004-12-03 2006-06-08 Frank Liebenow Method, apparatus and system for storage and retrieval of images
US7711157B2 (en) * 2006-08-01 2010-05-04 California Institute Of Technology Artificial intelligence systems for identifying objects
US20080144068A1 (en) * 2006-12-13 2008-06-19 Xerox Corporation. Printer with image categorization capability
JP4467583B2 (ja) * 2007-01-17 2010-05-26 富士通株式会社 設計支援プログラム、設計支援方法および設計支援装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011543A (ja) * 1996-06-27 1998-01-16 Matsushita Electric Ind Co Ltd パターン認識用辞書作成装置及びパターン認識装置
JP2001118073A (ja) * 1999-10-20 2001-04-27 Fuji Xerox Co Ltd パターン認識装置及び認識方法
WO2006073081A1 (ja) * 2005-01-05 2006-07-13 Nec Corporation 識別用データ学習システム、学習装置、識別装置及び学習方法

Also Published As

Publication number Publication date
JPWO2011081192A1 (ja) 2013-05-13
US20120287304A1 (en) 2012-11-15
WO2011081192A1 (ja) 2011-07-07
EP2521092A1 (en) 2012-11-07

Similar Documents

Publication Publication Date Title
JP5721233B2 (ja) 画像認識システム
JP6831769B2 (ja) 画像検索装置、画像検索方法、及び、それに用いる設定画面
CN107038751B (zh) 从2d图像进行3d建模对象的识别的方法、介质与系统
JP5131072B2 (ja) 三次元モデル検索装置、三次元モデル検索方法及びプログラム
Choi et al. Retrieval and visualization of human motion data via stick figures
Agathos et al. 3D articulated object retrieval using a graph-based representation
JP4516957B2 (ja) 3次元オブジェクトについて検索を行なうための方法、システムおよびデータ構造
Iyer et al. A reconfigurable 3D engineering shape search system: Part I—Shape representation
CN110019914B (zh) 一种支持三维场景交互的三维模型数据库检索方法
KR101626384B1 (ko) 3차원 모델 데이터 검색 장치 및 방법
JP6888484B2 (ja) 検索プログラム、検索方法、及び、検索プログラムが動作する情報処理装置
JP2009080796A5 (ja)
JP5696996B2 (ja) 画像表示システム
Zhao et al. Character‐object interaction retrieval using the interaction bisector surface
JP6173754B2 (ja) 画像検索システム、画像検索装置および画像検索方法
Kolonias et al. Fast content-based search of VRML models based on shape descriptors
CN111354076A (zh) 一种基于嵌入空间的单幅图像三维零件组合式建模方法
Theologou et al. A review on 3D object retrieval methodologies using a part-based representation
JP2004185626A (ja) 知覚的に認識可能な3次元形状の記述方法と、それを利用した3次元グラフィックモデルのデータベース検索方法及び装置
CN116089639A (zh) 一种辅助三维建模方法、系统、装置和介质
Wang et al. Query-by-sketch image retrieval using homogeneous painting style characterization
Hou et al. Dynamic query interface for 3D shape search
CN109272013B (zh) 基于学习的相似性度量方法
CN114708449B (zh) 相似视频的确定方法、实例表征模型的训练方法及设备
Nayef et al. Efficient symbol retrieval by building a symbol index from a collection of line drawings

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150320

R150 Certificate of patent or registration of utility model

Ref document number: 5721233

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250