JP5830784B2 - 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム - Google Patents

画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム Download PDF

Info

Publication number
JP5830784B2
JP5830784B2 JP2013521387A JP2013521387A JP5830784B2 JP 5830784 B2 JP5830784 B2 JP 5830784B2 JP 2013521387 A JP2013521387 A JP 2013521387A JP 2013521387 A JP2013521387 A JP 2013521387A JP 5830784 B2 JP5830784 B2 JP 5830784B2
Authority
JP
Japan
Prior art keywords
user
image
graph
relevance
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013521387A
Other languages
English (en)
Other versions
JPWO2012176317A1 (ja
Inventor
久夛良木 健
健 久夛良木
隆 薄
隆 薄
靖彦 横手
靖彦 横手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CYBER AI ENTERTAINMENT Inc
Original Assignee
CYBER AI ENTERTAINMENT Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CYBER AI ENTERTAINMENT Inc filed Critical CYBER AI ENTERTAINMENT Inc
Publication of JPWO2012176317A1 publication Critical patent/JPWO2012176317A1/ja
Application granted granted Critical
Publication of JP5830784B2 publication Critical patent/JP5830784B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7635Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks based on graphs, e.g. graph cuts or spectral clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Discrete Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は、ネットワーク経由でサーバ側に構築されている画像認識エンジンを備えた関連性検索システムを利用する事で、上記画像認識エンジンによって認識可能となった画像構成要素群、及び上記関連性検索システムによって上記各画像構成要素に関連付けられたその他の要素間の繋がりと、繋がりの深さを視覚化してユーザのネットワーク端末上に提示する事で、ユーザによる視覚的な対象物の検索や探索を可能にするシステムを提供すると共に、その過程を通じてユーザの関心の在り所やその関心の推移をサーバ側で分析し、それらをユーザ毎の、あるいは特定のユーザ群毎の、或いはユーザ全体に亘るインタレスト・グラフとしてサーバ側で収集するシステムに関する。
旧来、ユーザ毎の関心を把握する代表的な手段として、書面或いはそれに代わる方法でユーザにアンケートを送付し、いくつかの選択可能な候補群の中からユーザにとって特に関心のあるジャンル、さらには特定の商品・サービスに関する認知度等を段階的な評価尺度と共に求め、それらの回答を集計してマーケティング活動に利用する方法が多用されていた。また近年ではインターネットを活用した各種サービスの登場により、契約開始時のユーザ登録の一環として、ユーザにとって特に関心のあるジャンル等の記入を求める事等により、ユーザ毎の嗜好を反映した関連商品やサービスの提供が可能となっている。
また、インターネットを活用した物品販売を行ういくつかのサイトでは、ユーザの購入履歴やサイトの閲覧履歴から、お勧めの商品や関連するサービス群を追加的に提示したり、同一商品を購入した他のユーザが他に何を購入したかの履歴情報を基に、それら同様の商品のリコメンデーションをまだ未購入のユーザの端末上に提示したりするなど、より多様に分化するユーザ群に向けて、より適合精度の高い商品やサービスの提供が可能となっている(特許文献1)。
さらに、近年のソーシャルネットワーク・サービスの拡大に伴い、それぞれのユーザ・プロファイルに対しユーザ自身で自らの関心領域や好み等を記載したり、他のユーザが投稿した文章や写真或いは動画等に対して「いいね!(LIKE)」釦をクリックする事により、当該ユーザからの好意的な反応をサイトに反映させると共に、これらLIKE情報に基づいた新たな試みも既に始まっている(特許文献2)。また、140文字以内というような短いつぶやきをインターネット上で発信するサービスでは、特定の発信者や特定の話題に対し、関心のある多数のユーザがフォローするという特性を活用して、その主たる話題の内容やテーマを分類・解析して、ユーザの関心の在り所を効果的に求めようというアイデアも提案されている。
ユーザの関心の在り所を求めようとする例として、ユーザの閲覧したファイル間を伝播している語から、ユーザの変わりゆく興味をリアルタイムに推定するアルゴリズムを実装した装置がある(特許文献3)。
すなわち、特許文献3に開示された装置は、ユーザが閲覧した履歴から複数のファイルに含まれる語をファイル毎にテキストとして入力する手段と、そのテキストから単語単位に分割する手段と、ユーザが閲覧した複数のファイル間でユーザが参照した「伝播する語」を抽出する手段と、一または複数の前記「伝播する語」を記憶する手段と、前記「伝播する語」の全てのファイルに対する出現頻度から所定の「影響度」と、「伝播する語」の特定のファイル内に出現する程度を表す所定のiDF値を求める手段と、「影響度」と前記iDF値との関数である「影響度iDF値」に応じてユーザの興味ある語の集合をユーザ・プロファイル情報として抽出する手段とを備える。
また、コンテンツ体系をユーザとアイテムの関係からなるグラフ体系で表現し、ユーザが意味情報に依拠して興味の向くコンテンツを容易且つ的確に探索することを可能にする装置等も開示されている(特許文献4)。
すなわち、特許文献4に開示された装置等は、各個人毎の興味がクラス階層化された興味オントロジを表す興味オントロジデータの供給を受けて供給された興味オントロジ間の近似度を計測することによりユーザ間の興味の近似度を計測する近似度計測手段と、上記近似度計測手段による計測結果に基づいて興味オントロジ間の近似度が所定の範囲内にあるユーザコミュニティを識別可能なユーザグラフのデータを形成するユーザグラフ形成手段と、上記ユーザグラフ形成手段によって形成されたユーザグラフのデータを管理すると共に当該ユーザグラフのデータに基づくグラフの各ノードを成す複数のユーザ間を結ぶエッジにタクソノミによる意味情報を付与してユーザ間の関係をグラフベースで再構築するユーザグラフ再構築手段とを備えたことを特徴とする。
特開2001−222586号公報 米国特許第7788260号明細書 特開2007−264718号公報 特開2009−205289号公報
しかしながらユーザの興味がある領域の取得という点では、旧来のアンケートやユーザ登録時のプロファイル記入による手法では、個々のユーザにとっては大雑把な領域に対する好みや関心の表明に止まり、また、近年のソーシャルネットワーク・サービス中で多用される「LIKE!」釦にしても、自分の関心領域であるというより友人の関心領域を間接的にフォローしているに過ぎないとも言える。そもそも友人リスト自体が必ずしも自分の友人全体を包括的に指し示すものでもなかった。また140文字以内のネットワーク上の様々なつぶやきに対してフォローが可能なサービスにおいては、そのつぶやきの頻度、リアルタイム性、話題の新規性という点からも、従来のネットワーク・サービスに比べてより新鮮なユーザの関心領域の取得が可能になると期待されているものの、自分の何気ないつぶやきや他の人のつぶやきをフォローする事で、ユーザ自身の持つ関心領域が網羅的かつ的確に取得可能かというと、その対象となる領域自体が極めて限定的なものとなっていた。
また、特許文献3や特許文献4に開示された技術においても、文書や単語を前提とした処理が行われている。そもそも文字による表意的な表現には、その背景となる文化や慣習の相違が色濃く反映しており、世界中の人々にとって直観的かつ共通のコミュニケーション手段であるとは、およそ言えない。古来、「百聞は一見にしかず」の諺にあるように、数多の言葉よりたった一枚の映像の方が的確に状況を表わしているケースが多い。映像はその中に主題や状況の描写と共に様々なオブジェクトを内包しており、どのような国の人々であってもおよそ認識可能である。人間以外の動物も、かなりの部分の情報を視覚から獲得していて、瞬時に周囲の状況を把握し次の行動判断を行っている。しかるに、従来の文字主体の方法では多言語であるが故の表現上の曖昧さが残ると同時に、刻々と遷り変るユーザの関心の在り所や好奇心の行き先等を効果的かつリアルタイムに獲得する、もしくはインタラクティブに獲得しようとする事は困難であった。
さらには、膨大な数の人々を対象とし、それら個々の人々の関心のある領域、或いはありそうな領域を効果的かつ網羅的に獲得する事は時間的にも方法論的にも従来は極めて困難で、一定の範囲内における関心の捕捉に止まり、ユーザの関心の在り所をより広範な領域に拡げ効果的に探索し獲得する方法が待ち望まれていた。
そこで本発明では、文字を介さず主題や周囲状況と共に様々なオブジェクトを内包する画像情報を活用し、ユーザの刻々と遷り変る関心の在り所を、ユーザによる興味のある画像の検索および探索という過程で効果的に捕捉する為に、それらの画像に含まれる個々の画像構成要素を画像認識エンジンの助けを借りてリアルタイムに検出し、それら認識された個々の画像構成要素とさらに関連性の高い他の関連要素群を、関連性検索システムの助けを借りて、併せて可視化する事で、ユーザが視覚的かつインタラクティブに興味のある対象を検索したり探索可能とさせる事で、従来に比べ効果的にユーザ固有の関心の対象や領域を、サーバ側でユーザ毎の、或いは特定のユーザ群の、或いはユーザ全体に共通のインタレスト・グラフとして、網羅的、かつ効果的に獲得する事を目的としている。
本発明に係るインタレスト・グラフ収集システムは、一形態として、キーワードやメタデータ、或いは文章といったような表意的な文字による入力手段によらず、様々な物体(object)や主題(subject)を内包する画像情報を入力手段として用いる検索システムであって、インターネット上或いは専用ネットワーク上に存在する多数の画像群、或いはネットワーク端末経由でユーザがインターネット上にアップロードした画像の中から、ユーザが関心を持った画像全体、或いは画像の特定の領域をユーザがネットワーク端末上で選択し、それら選択した画像をネットワークを経由してサーバ側の画像認識エンジンに問い合わせる事により、インターネットを介してサーバ側の画像認識エンジンが、選択された画像全体、或いは指定された画像領域に含まれる様々な一般物体・特定物体・人・顔・シーン・文字・記号・イラストレーション、ロゴ、ファビコン(等)をリアルタイムに抽出・認識し、それら認識された入力画像に含まれる画像構成要素群を、画像認識エンジン経由でサーバ側の関連性検索エンジンに通知する事で、関連性検索エンジンが個々の画像構成要素群それぞれに対し直接的及び間接的に一定以上の関連があると判断したその他の関連要素群を、関連性検索エンジン内の関連性知識データベース上に学習可能な状態で収納されている要素間の直接関連性を記述した多次元特徴ベクトルを基に抽出し、上記画像認識エンジンにより認識された画像構成要素群及び関連性検索エンジンにより抽出された関連要素群それぞれをノードとする関連性グラフとして、各ノード間の関連性の深さと共に、ユーザのネットワーク端末上に二次元画像、或いは奥行きを持った三次元画像、或いは上記関連性グラフの観察時間としての時間軸変数を加えた四次元時空間画像として視覚的に表現する事を可能にしたことを特徴とする。
また、他の形態として、本発明に係るインタレスト・グラフ収集システムは、上記関連性検索操作において、ネットワーク端末上に表示されている関連性グラフ上の任意のノードを、ユーザがタッチスクリーン上でタップ或いはタッチして選択するか、ポインタのカーソルを任意のノード上に移動し選択する、或いは関連性グラフ上の任意の領域に向けてユーザがタッチスクリーン上でフリックするか、ポインタのカーソルを関連性グラフ上の任意の領域に移動し画面全体をドラグしスクロールする、或いは方向キー等による同様の操作、或いはユーザによるジェスチャーや視線、音声、或いは脳波を用いた同様の効果を及ぼす入力操作を用いる事により、当該選択されたノード、或いは移動後の領域を中心とする新たな関連性グラフを、そこに至る途中経過も含めて関連性検索エンジンがネットワーク端末に向け追加的に送出する事で、ユーザにとって関心のあるノード或いは領域をユーザが関連性グラフ上でシームレスに辿りながら、複数のノード間にまたがる広範な関連性として視覚的に認識する事が可能に構成されたことを特徴とする。
また、他の形態として、本発明に係るインタレスト・グラフ収集システムは、上記関連性検索操作において、上記画像認識エンジンが提示した複数の画像構成要素群の中から、ユーザが選択した特定の画像構成要素、或いはネットワーク端末上に表示されている関連性グラフ上の特定のノードをユーザがタッチスクリーン上でダブルタップするかピンチアウトする操作、或いはポインタ等の操作による当該ノードの選択と当該ノードを中心とする領域の拡大、或いはユーザによるジェスチャーや視線、音声、或いは脳波を用いた同様の効果を及ぼす入力操作を用いる事により、当該ノードを中心とするより詳細な関連性グラフをユーザのネットワーク端末上に視覚的に表現する事を可能にした上で、それらの一連の操作を当該ノードに対するユーザの一定の関心の存在であるとし、当該ユーザを中心ノードとする各要素間の直接関連性を記述した多次元特徴ベクトル上で、当該ノードに係るユーザの関心の深さを表わす特徴ベクトル値を適応的に強める事で、当該ユーザを中心ノードとする個々のユーザに対応したインタレスト・グラフとして獲得可能にすると共に、当該インタレスト・グラフを広範なユーザに拡大して獲得する事により、特定のユーザクラスタ、或いはユーザ全体にまたがる統計的な広義のインタレスト・グラフとして収集可能に構成されたことを特徴とする。
また、他の形態として、本発明に係るインタレスト・グラフ収集システムは、上記関連性検索操作において、ユーザが着目し選択したノードを関連性グラフ上で辿る事なく、それらノード画像をネットワークを経由してサーバ側の画像認識エンジンに再び問い合わせる事により、画像認識エンジンの助けを借りて当該ノードに関する新たな画像構成要素群を獲得し、それら画像構成要素群を起点とする新たな関連要素群を関連性検索エンジンからネットワーク端末に向け送出する事で、ユーザが当該ノードに対する新たな関連性をそれら相互の関連性の深さと共に関連性グラフ上で視覚的に認識する事を可能にした上で、直前の同様の操作において当該ノードへの起点となっている画像構成要素から当該ノードに至る一連のノード間の関連性の存在をユーザが認識し利用していると関連性検索エンジンが推測し、各要素間の直接関連性を記述した多次元特徴ベクトル上で、それら一連の関連性を構成するそれぞれのノード間の直接的な関係性の深さを表わす特徴ベクトル値を適応的に強める事で、関連性検索エンジン内の関連性知識データベースの追加学習が更に可能になるよう構成されたことを特徴とする。
また、他の形態として、本発明に係るインタレスト・グラフ収集システムは、上記関連性検索操作において、画像認識エンジンにより認識可能となった画像構成要素群、及びそれら画像構成要素群それぞれに対応する各関連要素群に対し、それらを代表する写真、イラストレーション、文字、記号、ロゴ、ファビコン等から生成した縮小画像サムネイルを関連性検索エンジンが元画像に代えてネットワーク端末に向け送出する事により、関連性グラフ上のノードとして画像サムネイル単位での表示・選択が更に可能になるよう構成されたことを特徴とする。
また、他の形態として、本発明に係るインタレスト・グラフ収集システムは、上記関連性検索操作において、複数のノードをサーバ側の画像認識エンジンに問い合わせる事を可能にした上で、画像認識プロセスに備わる入力条件選択機能として、論理的な演算子(AND、OR)を導入し、ANDを選択した場合はそれぞれのノード間で共通かつ直接的に関連するノードを、ORを選択した場合はそれぞれのノードのいずれか一つ以上に直接的に関連するノードを、相互の関連度の深さと共にネットワーク端末上に視覚的に表現する事が更に可能になるよう構成されたことを特徴とする。
また、他の形態として、本発明に係るインタレスト・グラフ収集システムは、上記関連性検索操作において、複数のノードをサーバ側の画像認識エンジンに問い合わせる事を可能にした上で、画像認識プロセスに備わる入力条件選択機能として、関連性探索演算子(Connection Search)を導入し、一見全く関連性がないと思われるような複数のノード間の関係を、それぞれの入力ノード群に対し直接的及び間接的に関連するその他のノードを経由する一連の関連性として探索する事で、異なるレイヤ(階層)に及ぶノード間の間接的な関係を発見し、それらノード間の最短パスを含む関連性グラフとしてネットワーク端末上に表示する事を可能にすると同時に、上記関連性探索プロセスにおいて、発見された複数のノード間にまたがる上記間接的関係を、関連性検索エンジン内の関連性知識データベース内に学習の上獲得する事で、以降の同様或いは類似の関連性探索要求に備える事が更に可能になるよう構成されたことを特徴とする。
また、他の形態として、本発明に係るインタレスト・グラフ収集システムは、上記関連性検索操作において、ユーザと間接的な関係にあるノード、或いはユーザとの関連性が凡そないとされているその他のノードに対し、それらノードを当該ユーザとの直接的な関係として結び付ける接続演算子(LIKE)、及び既に結びつけられている当該ノードとユーザ間の直接的な関係を切断する切断演算子(DISLIKE)を導入する事で、当該ユーザを中心ノードとする各要素間の直接関連性を記述した多次元特徴ベクトル上で、当該ノードに係るユーザの関心の深さを表わす値を増加、或いは減少、或いは滅消させる事で、当該ユーザを中心ノードとする、個々のユーザに対応したインタレスト・グラフの更新が更に可能になるよう構成されたことを特徴とする。
また、他の形態として、本発明に係るインタレスト・グラフ収集システムは、上記関連性検索操作において、ユーザ以外のノードを対象にした新たな直接的関係の存在及び非存在の可能性を、それらの複数のノードが直接的に結び付けられるべきだとして提起する参照演算子(REFERENCE)、及び既に直接的に結び付いているもののその直接的な関連の存在が疑わしいとして直接的関係の非存在を提起する非参照演算子(UNREFERENCE)を導入する事で、それらの新たなノード間の直接関連性の存在、或いは非存在の可能性を関連性検索エンジンがユーザに対し喚起する事を可能にした上で、特定の権限を有するスーパーバイザ或いは一定数以上のユーザから関連がある或いはないと判断されたノード間の関連性に係る特徴ベクトルの値を関連性検索エンジンが更新可能にした上で、当該ノード群に係る更新された関連性グラフとしてネットワーク端末上に反映可能にすると共に、それらの新たな直接関連性の存在或いは非存在に係る更新情報を、全てのユーザに通知する事が更に可能になるよう構成されたことを特徴とする。
本発明に係るシステムによって、文字による検索という多言語対応が必要となる情報検索手段から、文字によらず画像そのものを入力手段とする情報検索処理が可能となる事で、より広範な国と地域のユーザを対象とする言語フリーの検索システムが提供可能となる。また、検索入力と検索結果の双方を従来の文字から画像情報に置き換える事で、人間にとってより直観的な情報の検索・発見が可能となる。併せて、表示画面サイズの比較的小さなネットワーク端末群であっても、入出力操作を文字から画像サムネイルやアイコン等の画像ベースのユーザ・インターフェース(UI)に移行させる事で、指先一つ或いはユーザによる簡単なポインティング操作で高度な検索操作を可能にするなど、従来に比べより軽快な検索環境を提供出来る事から、従来より頻度の高い検索や探索を喚起する事が可能となり、それらをサーバ側で統計的に処理する事で、より鮮度の高いダイナミックなインタレスト・グラフの取得が可能になるという効果を奏する。
本発明に係るシステムの一実施形態におけるシステム構成を説明する説明図である。 本発明に係るシステムの一実施形態におけるサーバ及びMDBの機能ブロックを説明する説明図である。 本発明に係るシステムの一実施形態におけるネットワーク端末装置の機能ブロックを説明する説明図である。 本発明に係るシステムの一実施形態における画像認識フローを説明する説明図である。 本発明に係るシステムの一実施形態における他の画像認識フローを説明する説明図である。 本発明に係るシステムの他の実施形態における画像認識システムの機能ブロックを説明する説明図である。 本発明に係るシステムの他の実施形態における一般物体認識部の機能ブロックを説明する説明図である。 本発明に係るシステムの他の実施形態における局所特徴量抽出部の機能を説明する説明図である。 本発明に係るシステムの他の実施形態におけるカテゴリ認識部の機能ブロックを説明する説明図である。 本発明に係るシステムの他の実施形態におけるシーン認識部の機能ブロックを説明する説明図である。 本発明に係るシステムの他の実施形態におけるシーン分類の一例を説明する説明図である。 本発明に係るシステムの他の実施形態における特定物体認識部の機能ブロックを説明する説明図である。 本発明に係るシステムの一実施形態におけるユーザインタフェースを説明する説明図である。 本発明に係るシステムの他の実施形態におけるユーザインタフェースを説明する説明図である。 本発明に係るシステムの他の実施形態におけるユーザインタフェースを説明する説明図である。 本発明に係るシステムの他の実施形態におけるユーザインタフェースを説明する説明図である。 本発明に係るシステムの他の実施形態におけるユーザインタフェースを説明する説明図である。 本発明に係るシステムのグラフ演算部の機能ブロックを説明する説明図である。 本発明に係るシステムの一実施形態におけるグラフを表現するための基本的データ構造を説明する説明図である。 本発明に係るシステムの一実施形態におけるノードデータとリンクデータとを操作する為のオペレーションを説明する説明図である。 本発明に係るシステムの一実施形態におけるグラフ構造及びリンク表現を説明する説明図である。 本発明に係るシステムの一実施形態における関連画像とのリンク構造例及び動作例を説明する説明図である。 本発明に係るシステムの一実施形態におけるシナリオと対応するグラフ構造等を説明する説明図である。 本発明に係るシステムの一実施形態におけるシナリオと対応するグラフ構造等を説明する説明図である。 本発明に係るシステムの一実施形態における関連性導出演算の例を説明する説明図である。 本発明に係るシステムの一実施形態におけるインタレスト・グラフ獲得例を説明する説明図である。 本発明に係るシステムの一実施形態におけるグラフ構造の表示例を説明する説明図である。 本発明に係るシステムの他の実施形態におけるグラフ構造の表示例を説明する説明図である。 本発明に係るシステムの他の実施形態におけるグラフ構造の表示例を説明する説明図である。 本発明に係るシステムの他の実施形態における動作例を説明する説明図である。 本発明に係るシステムの他の実施形態における動作例を説明する説明図である。 本発明に係るシステムの他の実施形態における具体的な連想関係を説明する説明図である。 本発明に係るシステムの他の実施形態における動作例を説明する説明図である。 本発明に係るシステムの他の実施形態における動作例を説明する説明図である。 本発明に係るシステムの他の実施形態における動作例を説明する説明図である。 本発明に係るシステムの他の実施形態における動作例を説明する説明図である。 本発明に係るシステムの一実施形態における統計情報処理部の機能ブロックを説明する説明図である。 本発明に係るシステムの一実施形態における特定ユーザフィルター処理部の機能ブロックを説明する説明図である。 本発明に係るシステムの一実施形態における表現例を説明する説明図である。 本発明に係るシステムの他の実施形態における動作例を説明する説明図である。 本発明に係るシステムの一実施形態におけるインタレスト・グラフの構成例を説明する説明図である。 本発明に係るシステムの他の実施形態におけるインタレスト・グラフの表示例を説明する説明図である。 本発明に係るシステムの一実施形態におけるソーシャル・グラフ獲得処理を説明する説明図である。 本発明に係るシステムの一実施形態におけるインタレスト・グラフ収集プロセスを説明する説明図である。 本発明に係るシステムの他の実施形態におけるユーザ毎のインタレスト・グラフに対応する多次元特徴ベクトルを説明する説明図である。
以下、本発明に係るシステムを実施するための形態について、図を参照しながら詳述する。
図1に、本発明に係るシステムの一実施形態を示す。システム100は、サーバ101と、グラフデータベース(以下、「GDB」ともいう)102Aと、マザーデータベース(以下、「MDB」ともいう)102Bと、ユーザが使用する複数台のネットワーク端末装置105a〜105dとからなり、サーバ101とGDB102A及びMDB102Bとは接続103で接続され、サーバ101及びネットワーク装置105はネットワーク或いはインターネット104に接続されている。
ここで、サーバとは、クライアントからの要求に応じてデータを処理し、その結果をサービスとして提供する1又は複数のコンピュータプログラムであり、1台のコンピュータシステム上に実装することも、複数のコンピュータからなるシステム群に分散して実装することもできる。また、他のサーバ機能と並列して1又は複数のコンピュータシステム上に実装することもできる。さらに、独立した複数の処理機能を有するように構成することもできる。以下、本明細書では、サーバの意義を上記のとおり位置付ける。
また、ハードウェアとしてのコンピュータシステムは、最も基本的な構成としては、命令バス及びデータバスで接続された算術論理演算ユニットと制御ユニットと記憶装置と入出力装置とを備えた電子計算機である。入出力インタフェースを介して入出力装置から入力された情報(ビットデータ)に基づき算術論理演算ユニットにおいて算術演算や論理演算、比較演算、シフト演算等が実行される。実行されたデータは必要に応じて記憶装置に記憶され、入出力装置から出力される。これら一連の処理は、記憶装置に記憶されたソフトウェアプログラムによって制御される。本発明の実施形態において使用される各サーバマシンも、上記のとおりのコンピュータとしての基本機能を最低限備えたハードウェアであり、オペレーティングシステムやデバイスドライバ、ミドルウェア、そしてアプリケーションソフトウェアといったプログラム群によって制御されている。
図2に、本発明に係るシステムの一実施形態におけるサーバ101、ならびに、GDB102A及びMDB102Bの機能ブロックを示す。サーバ101は、ソフトウェア機能ブロックとして、領域処理部201と、一般物体認識部202と、特定物体認識部203と、MDB検索部206と、MDB学習部207と、MDBマネージメント部208と、ネットワーク通信制御部204と、データ検索処理部205と、グラフ演算部221と、グラフ記憶部222と、グラフ管理部223と、関連性演算部224と、統計情報処理部209と、特定ユーザフィルター処理部210とからなる。
なお、領域処理部201、一般物体認識部202、特定物体認識部203、MDB検索部206、MDB学習部207、及びMDBマネージメント208は、画像認識エンジン200を構成している。画像認識エンジン200は後述の図6A記載の画像認識システムに置き換えても良い。また、グラフ演算部221、グラフ記憶部222、グラフ管理部223、及び関連性演算部224は、関連性検索エンジン220を構成している。
サーバ101の機能ブロックは必ずしもこれらに限定されるものではないが、これら代表的な機能について簡単に説明する。
領域処理部201は、画像内の領域分割や部分画像の切出しなどを行う。一般物体認識部202は、画像中に含まれる物体を一般的な名称(カテゴリ)で認識する。また、物体認識部203は、MDBに登録された情報と照合し、物体を同定する。
ネットワーク通信制御部204は、画像の入力出力処理や、ネットワーク端末との情報通信制御などを行う。データ検索処理部205は、リンク先から情報を収集したり、集合知の問合せや、収集、ならびに検索などを行う。
MDB検索部206は、物体の名称等のタグデータ等を検索する。MDB学習部207は、新規設計データの追加や詳細情報の追加、時間情報の登録、付帯情報の登録、更新、追加などを行う。MDBマネージメント部208は、設計データから特徴点や特徴量の抽出、付帯情報からカテゴリ情報を抽出しカテゴリデータへの登録や、カテゴリデータ内のカテゴリ分類の拡張、分割、更新、統合、修正、新規カテゴリの登録などを行う。
関連性検索エンジン220は、上述したとおり、少なくともグラフ演算部221と、グラフ記憶部222と、グラフ管理部223と、関連性演算部224とを含む。グラフ演算部221は、サーバ上で実行される各種グラフ演算を処理し、グラフ記憶部222は、グラフデータベースに格納されたノードデータやリンクデータを用いたグラフ構造をメモリ上に展開し、後段の処理が行いやすいようにデータ形式を整え、グラフ管理部223は、グラフ演算部221で実行される多数のグラフ演算の管理・調停を行う。さらに、関連性演算部224では、ノード間の関連性をグラフマイニング手法を用いて計算する。
統計情報処理部209は、GDB102Aに蓄積されたグラフデータを用いた統計情報処理を行う。特定ユーザフィルター処理部210は、ユーザの主観に基づいた検索結果のフィルタリングを行う。例えば、各ノードに付与されたタイプ情報から部分グラフを抽出してグラフマイニング処理をすることで共起確率に基づくユーザの興味を処理することができる。
また、GDB102Aは、ノードデータ231と、リンクデータ232とからなる。GDB102Aは必ずしもこれらに限定されるものではないが、これら代表的な機能について簡単に説明する。
ノードデータ231は、ノードに関するデータを格納する。データ構造の一例については、図14A(D)に基づいて後述する。
リンクデータ232は、リンクに関するデータを格納する。リンク構造の一例については、図14A(E)に基づいて後述する。
また、MDB102Bは、設計データ251と、付帯情報データ252と、特徴量データ253と、カテゴリデータ254と、不特定物体データ255とからなる。MDB102Bは必ずしもこれらに限定されるものではないが、これら代表的な機能について簡単に説明する。
設計データ251は、物体を製造するためのデータベースから生成された、物体の構造や形状、寸法、部品の接続情報、配置図、可動部、可動範囲、重量、剛性など、物体を構成し、製造するのに必要な基本情報を保持している。
付加情報データ252は、物体の名称、製造者、部品番号、日時、素材、組成、加工情報など物体に関するあらゆる情報を保持している。
特徴量データ253は、設計情報に基づいて生成される個々の物体の特徴点や特徴量情報を保持している。
カテゴリデータ254は、一般物体認識部において物体のカテゴリ分類を行う際に使用する情報を保持している。
不特定物体データ255は、現時点で特定物体認識不能の物体に関しての情報を保持しており、その後に類似の特徴を有する物体が頻繁に検出されれば、新たな特定物体として新規登録処理される。
図3に、本発明に係るシステムの一実施形態におけるネットワーク端末装置を示す。ネットワーク端末装置105a〜105dは、広くユーザが使用するクライアント端末装置であり、コンピュータ、携帯情報端末(PDAやパッド)、携帯電話機等が含まれる。つまり、ネットワーク端末装置105a〜105dは、多様な種類の電子情報機器が多数インターネットなどのネットワークに接続されている様子をあらわしている。以下、ネットワーク端末装置105と記載した場合にはネットワークに接続されたネットワーク端末装置105a〜105dのいずれか1台をさす。ネットワーク端末装置105a〜105dはすべて同一機種である必要はない。同等の機能(あるいは実施可能な最低限の機能)を備えた端末装置であればよい。ここではネットワーク端末装置105の代表的な機能ブロックについて説明する。
図3のネットワーク端末105の事例として、動画像入力機能と表示機能が一体で存在する場合と、それぞれが別体で存在する場合とがある。前者では携帯電話や最新のスマートフォンのように、ネットワーク端末105には、操作部105−01と、表示部105−02と、音声入出力部105−03と、画像送受信部105−04と、カメラ部105−05と、ネットワーク通信部105−06と、CPU105−07と、記憶部105−08と、電源部105−09と、位置情報取得部105−10と、各種センサ群105−11とが一体として備わっており、後者では動画撮影カメラとTVのように、入出力機能がそれぞれ別体のものとして存在している。
本発明においては、これら入出力部が一体となったネットワーク端末を事例にとり説明を行う。操作部105−01は、例えばタッチパッド(ディスプレイに内蔵されるものを含む)、キー入力部、ポインティングデバイス、ジョグダイアル等の入力デバイスで構成される。表示部105−02は、各出力機器に応じた解像度及びビデオメモリを備えたディスプレイ部である。音声入出力部105−03は、音声認識用のマイク、スピーカ等の入出力デバイスで構成される。画像送受信部105−04は、ネットワーク端末105で撮影した動画像データをサーバに送信し、あるいはサーバから配信されて来る動画像データを受信するために必要なコーデック部、メモリユニット等が含まれる。なお、動画像データには、静止画像も含まれる。カメラ部105−05はCCDやMOSセンサ等の撮像デバイスを含む動画像撮影手段である。ネットワーク通信部105−06はインターネット等のネットワークに接続するためのインタフェースであって、有線/無線のいずれかである事を問わない。CPU105−07は中央処理装置であり、記憶部105−08はフラッシュメモリ等の一時記憶装置であり、電源部105−09はネットワーク端末全体に電力を供給する為の電池等を指す。位置データ検出部105−10はGPS等の位置情報検出デバイスであり、各種センサ群105−11には加速度センサ、傾きセンサ、磁気センサなどが含まれる。
A.画像認識処理
次に、図4に従って、本発明に係るシステムの一実施形態における画像認識システムの全体的なフローを説明する。
画像認識処理の開始(S401)は、一例として、ネットワーク端末装置105からアップロードされたり、サーバからクローリングして収集されることによる元画像の入力からはじまる(S402)。元画像は、もともとサーバ上に存在するものを使用してもよい。元画像は、2次元画像であるか3次元画像であるかを問わない。また、元画像の入力に際しては、その元画像におけるどの物体の着目領域の指示がポインティングデバイス等のデバイス(不図示)を通じてなされる場合と、着目点の指示がなく元画像全体が処理対象として入力される場合がある。次に、S404において一般物体認識処理が行われる。一般物体認識処理には、例えば、BoF(Bag-of-Features)の手法を採用することができる。この一般物体認識処理では、検出された物体のカテゴリ(物体の一般名称)の認識まで行われる。ただし、着目点の指示がされた場合は、カテゴリの認識ができた場合とできなかった場合とで処理が分岐し、その判断はS405で行われる。カテゴリ認識ができなかった場合には、S406へ進み、既存のカテゴリの取り扱いについて判断がなされる(S407或いはS408)が、着目点に指示の有無に関わらず物体のカテゴリ認識が出来た場合には、特定物体認識処理へ進むべくS409へ進む。
S405の判断において特定物体認識処理へ進む場合は、まず、S409において個別物体画像の切り出し処理が行われる。そして、切り出された個別物体画像について、特定物体認識処理が行われる(S410)。特定物体認識処理では、MDB102Bに登録された設計データ251から抽出された特徴量データ253に基づく一致度を算出する評価関数によって物体の同定が試みられる。
一方で、S405の判断において一般物体認識ができなかった場合には、S406へ進み、着目物体の持つ特徴量と、MDB102Bが把握している既存のカテゴリに属する物体の特徴量との情報距離に基づいて、その着目物体を含む新たなカテゴリを登録するか(S407)、その着目物体に近接する既存カテゴリの拡張を検討するか(S408)の判断が行われる。新たなカテゴリを登録する(S407)場合にはS404に復帰し、既存のカテゴリを拡張する(S408)場合にはS409へ進む。
S411においては、特定物体の同定ができたかどうかが判断される。特定物体の同定ができた場合には、S413に進み、S409において切り出された個別物体画像にMDB102Bに登録されている物体の詳細データよりもさらに精細な情報が含まれるかが判断される。もし、S413においてYesと判断された場合には、S414に進み、MDB102Bにおけるその物体の詳細データはMDB学習部207により更新され、より精細な情報を有するようになる。一方で、S413においてNoと判断された場合には、S415に進み、次の判断がなされる。
S415は、S405において一般物体認識ができなかったと判断された場合であって、S406の判断でS408、S409、S410へ進み、特定物体の認識ができた(S411でYes)場合に判断される。S415において、特定された物体が既存のカテゴリであった場合には、MDB102Bに登録されているその既存カテゴリの定義を拡張、あるいは拡張によりカテゴリ内の物体の情報距離が分散する場合には分割、あるいは近接カテゴリとの情報距離が前記カテゴリ内の物体間の情報距離と同程度以下になった場合には統合、あるいは特定された物体の登録により既存の物体の情報の齟齬を発見した場合には修正を施し、カテゴリデータ254をアップデートする(S416)。一方で、S415において、特定された物体が既存のカテゴリでなかった場合には、S407へジャンプし、新規カテゴリとして登録する。
S411において、特定物体の認識ができなかった場合は、MDB102Bにおいてその物体はいったん「未確認物体」として登録され、将来の処理に備えて認識処理を終了する(S417)。S416において既存カテゴリを拡張してアップデートされた場合も認識処理を終了する(S417)。
図5は、図4における特定物体認識処理及び学習処理の一部について、他の実施形態を示すフロー図である。以下、詳細に説明する。
まず、S501より特定物体認識処理が開始される。ここで入力されるデータは、単一物体の画像のほか、同レイヤの設計データを使用することができる。さらに、画像にリンクされた設計データや、設計データそれ自体(製品全体のみならず、部品であってもよい)を使用することもできる。
次に、S502においてMDBで生成された特徴量データ253を元に、元画像内の特徴点及び特徴量が抽出され、MDBより生成される特徴量データと比較される。ここで、MDBより特徴量データを生成・比較する方法には、以下の2種類がある。
1つ目は、物体を構成する最小単位(設計データなどで表されている)ごとの3次元情報を元に、あらゆる角度から2次元平面に写像し、その写像画像から物体の特定に用いる特徴量などを生成する。比較する際には、その特徴量を元に入力画像から特徴量を抽出し、出現部位や頻度などを比較する方法である(S504)。なお、ここでの特徴量は、一例として輪郭抽出法やSURF法やなどに基づいて生成される。
2つ目は、物体を構成する最小単位(設計データなど)の集合からなる3次元形状情報を投影角度や拡大率などを変えながら2次元平面に写像するプロセスを評価関数として、物体の特徴点および特徴量との差異を一致度として判定する方法(チューン方式)である(S505)。
なお、従来は、サンプルとなる画像そのものをとにかくたくさん集めて特徴量あるいは評価関数による同定処理(S502)を行なっていたことに鑑みれば、S504やS505で説明したMDBより生成する方法(S503)は、同定の確度を上げるという点で従来技術より有利な効果を奏する。
次に、S506において、物体の同定ができたかが判断される。もし、同定されたと判断された場合には、S510に進み、同定に使用したデータがMDBのデータよりも詳細であるか、最新であるかが判断され、これらの判断に基づいて、物体固有の情報(設計データなど)や時間情報(物体の型式、バージョン情報)がMDBに更新登録され、特定物体認識処理を抜ける。つまり、情報の登録及びMDB更新が、データベース学習処理となる。
一方で、S506において、物体の同定ができなかったと判断されると、画像情報以外の情報(画像中の文字やロゴ)を抽出して物体同定処理を行う。例えば、画像中の物体に非常に有名なメーカのロゴが映し出されてさえいれば、物体の大半がフレームから外れていたとしても同定が容易に行える場合がある。そうして、S509に進み、再び物体の同定ができたかどうかが判断される。物体の同定ができていれば(S509においてYes)、S510に進み、同定に使用したデータがMDBのデータよりも詳細であるか、最新であるかが判断され、これらの判断に基づいて、物体固有の情報(設計データなど)や時間情報(物体の型式、バージョン情報)がMDBに更新登録され、特定物体認識処理を抜ける。
一方で、物体の同定ができなかったならば(S509においてNo)、不特定物体としてMDBに登録され、将来の更新や新カテゴリの生成に備え(S511)、特定物体認識処理を終了する(S512)。
なお、S507で示した、画像情報以外の情報による同定処理とともに、あるいはこれに替えて、集合知を利用して物体の同定に役立てることもできる(S508)。このS508の処理は、例えば、ネット上の百科事典を検索したり、Q&A掲示板に自動投稿したりすることで実施される。ネット上の百科事典をシステムが自ら検索するには、一般物体認識で得られたカテゴリとともにMDBより生成された特徴量を用いて検索クエリを作成し検索を実行する。そして返送されてきた内容から新たな特徴量を抽出して物体の同定が可能か再度試みる。また、Q&A掲示板に自動投稿する場合は、一般物体認識で得られたカテゴリとともに元画像を掲示板にアップロードする。このとき、あらかじめ用意された定型文を自動編集して、「この○○について、型式を教えてください」とか、「この△△△について、設計情報を公開されているウェブサイトを教えてください」といったクエリを投稿する。そうして、他のユーザ(人間を含む)から「それは、xx−xxxxです」とか、「その△△△の設計データは、http://www.aaabbb.com/cad/data.dxfから入手可能です」といったアドバイスが寄せられる。システムは、これらのアドバイスを分析及び評価し、指定されたURLへアクセスし物体の設計データ等のダウンロードを試みる。新たに得られた設計データに基づいて物体の同定に成功すれば、得られた新たなデータがMDBに追加され、データベースが更新される。
[画像認識システム]
ここで、図6Aに、本発明に係るシステムの他の実施形態における画像認識システムの機能ブロックを示す。図6Aに示す画像認識システム202は、サーバ101の一部として運用することも可能であるし、あるいは、サーバ101とは独立したサーバシステムとしても運用可能である。画像認識システム202は、サーバ101における一般物体認識部や特定物体認識部に対応する一般物体認識システム及び特定物体認識システムに加え、シーンを認識するためのシーン認識システムをも備えている。サーバ101における画像認識機能部の別形態あるいは応用例として、以下に詳述する。
画像認識システム202は、ネットワーク通信制御部204と、領域処理部201と、データ検索処理部205と、一般物体認識システム106と、シーン認識システム108と、特定物体認識システム110と、画像カテゴリデータベース107と、シーン構成要素データベース109と、MDB111で構成される。一般物体認識システム106は、一般物体認識部106−01と、カテゴリ認識部106−02と、カテゴリ学習部106−03と、新規カテゴリ登録部106−04とで構成され、シーン認識システム108は、領域抽出部108−01と、特徴抽出部108−02と、重み学習部108−03と、シーン認識部108−04とで構成され、特定物体認識システム110は、特定物体認識部110−01と、MDB検索部110−02と、MDB学習部110−03と、新規MDB登録部110−04とで構成され、画像カテゴリデータベース107は、カテゴリ分類データベース107−01と、不特定カテゴリデータ107−02で構成され、シーン構成要素データベース109は、シーン要素データベース109−01と、メタデータ辞書109−02とで構成され、MDB111は、詳細設計データ111−01と、付帯情報データ111−02と、特徴量データ111−03と、不特定物体データ111−04とで構成される。画像認識システム202の機能ブロックは必ずしもこれらに限定されるものではないが、これら代表的な機能について簡単に説明する。
一般物体認識システム106は、画像中に含まれる物体を一般的な名称、あるいはカテゴリで認識する。ここでいうカテゴリは階層的であり、同じ一般物体として認識されているものでも、さらに細分化されたカテゴリ(同じ椅子でも4本足の「椅子」もあれば、全く足の無い「座椅子」のようなものまで含まれる)や、さらに大枠的なカテゴリ(椅子も机もタンスも含めて「家具」のカテゴリとして大分類される)としても分類及び認識が可能である。カテゴリ認識は、この分類を意味するClassification、即ち既知のクラスに物体を分類するという命題であり、カテゴリはまたクラスとも呼ばれる。
一般物体認識プロセスにおいて、入力画像中の物体と参照物体画像との比較照合を行った結果、それらが同一形状であるか類似形状である場合、あるいは極めて類似した特徴を併せ持ち他のカテゴリとも主要な特徴において明らかに類似度が低いと認められる場合に、認識された物体に対し対応する既知のカテゴリ(クラス)を意味する一般名称を付与する。それらの各カテゴリを特徴付ける必須要素を詳細に記述したデータベースがカテゴリ分類データベース107−01であり、それらのいずれにも分類する事ができない物体は、不特定カテゴリデータ107−02として一旦分類し、将来の新たなカテゴリ登録、あるいは既存カテゴリの定義範囲の拡大に備える。
一般物体認識部106−01では、入力された画像中の物体の特徴点から局所特徴量を抽出し、それらの局所特徴量が予め学習によって得られた所定の特徴量の記述と似ているか似ていないかを比較して、当該物体が既知の一般物体であるかどうかを判別するプロセスを実行する。
カテゴリ認識部106−02では、一般物体認識可能となった物体がどのカテゴリ(クラス)に属するかを、カテゴリ分類データベース107−01との照合において特定あるいは推定し、その結果、特定カテゴリにおいてデータベースに追加あるいは修正を加えるような追加の特徴量が見出された場合には、カテゴリ学習部106−03において再学習した上で、カテゴリ分類データベース107−01の当該一般物体に関する記述をアップデートする。また一旦、不特定カテゴリデータとされた物体とその特徴量が別に検出された他の不特定物体の特徴量と極めて類似であると判定された場合には、それらは新たに発見された同一の未知のカテゴリ物体である可能性が高いとして、新規カテゴリ登録部106−04において、カテゴリ分類データベース107−01にそれらの特徴量が新規登録され新たな一般名称が付与される。
シーン認識システム108では、入力画像全体あるいは一部を支配している特徴的な構成要素を、性質の異なる複数の特徴抽出システムを用いて検出し、それらをシーン構成要素データベース109に記載されているシーン要素データベース109−01と多次元空間上で参照する事で、それぞれの入力要素群が特定シーン内に検出されるパターンを統計処理により求め、画像全体あるいは一部を支配している領域が特定のシーンであるかどうかを認識する。併せて、入力画像に付帯しているメタデータ群と、シーン構成要素データベース109に予め登録済みの、メタデータ辞書109−02に記載されている構成要素とを照合し、シーン検出の精度を一段と向上させる事も可能となる。領域抽出部108−01では、画像全体を必要に応じて複数の領域に分割して、領域毎にシーン判別を可能にする。例えば、都市空間内のビルの屋上に設置した高解像度の監視カメラからは、交差点や数多くの店舗のエントランス等の複数のシーンを見渡す事ができる。特徴抽出部108−02は、指定した画像領域内における検出された複数の特徴点の局所特徴量、色情報や物体の形状等、利用可能な様々な特徴量から得られる認識結果を後段の重み学習部108−03に入力し、それぞれの要素が特定シーンにおいて共起する確率を求め、シーン認識部108−04に入力して最終的な入力画像に対するシーン判別を行う。
特定物体認識システム110は、入力された画像から検出された物体の特徴を、予めMDB内に収納されている特定物体群の特徴と逐次照合し、最終的に物体を同定(Identification)処理する。地球上に存在する特定物体の総数は膨大で、それら全ての特定物体との照合を行う事はおよそ現実的ではない。従って、後述するように特定物体認識システムの前段において、予め一定の範囲内に物体のカテゴリや探索範囲を絞り込んでおく必要がある。特定物体認識部110−01では、検出された特徴点における局所特徴量と、学習によって得られたMDB内の特徴パラメータ群とを比較し、当該物体がどの特定物体に当て嵌まるかの判別を統計処理により判別する。MDBには、その時点で入手可能な特定物体に関する詳細なデータが記載されている。一例としてそれらが工業製品であるのならば、設計データ111−01として設計図やCADデータ等から抽出された、物体の構造、形状、寸法、配置図、可動部、可動範囲、重量、剛性、仕上げなど、物体を構成し製造するのに必要な基本情報がMDB内に保持される。付帯情報データ111−02には、物体の名称、製造者、部品番号、日時、素材、組成、加工情報など物体に関するあらゆる情報が保持される。特徴量データ111−03には、設計情報に基づいて生成される個々の物体の特徴点や特徴量情報が保持される。不特定物体データ111−04は、その時点ではどの特定物体にも属していない物体等のデータとして、将来の解析に備えMDB内に暫定的に収納される。MDM検索部110−02は特定物体に対応する詳細データを検索する機能を提供し、MDB学習部110−03は適応的かつ動的な学習プロセスを通して、MDBの記載内容に対し追加・修正を行う。また一旦、不特定物体として不特定物体データ111−04とされた物体も、その後に類似の特徴を有する物体が頻繁に検出されれば、新規MDB登録部110−04により新たな特定物体として新規登録処理される。
図6Bに、一般物体認識部106−01のシステム構成例及び機能ブロックの実施例を示す。一般物体認識部106−01の機能ブロックは必ずしもこれらに限定されるものではないが、代表的な特徴抽出手法としてBag-of-Features(以下、BoFと呼称する)を適用した場合の一般物体認識手法について、以下に簡単に説明する。一般物体認識部106−01は、学習部106−01aと、Visual Word辞書(CodeBook)106−01eと、ベクトル量子化部106−01fと、ベクトル量子化ヒストグラム部106−01gと、ベクトル量子化ヒストグラム識別部106−01hで構成され、学習部106−01aは、局所特徴量抽出部106−01bと、クラスタリング部106−01cと、Visual Word作成部106−01dで構成され、ベクトル量子化ヒストグラム識別部106−01hは、Support Vector Machine(以下、SVMと呼称する)部106−01iで構成される。
BoFは、画像中に現れる特徴点を様々な方法で抽出し、その相対位置関係を用いずに多数の局所特徴量(Visual Word)の集合体として表現し、それらを学習によって得られた、様々な物体から抽出されたVisual Word辞書(CodeBook)106−01eと比較照合して、それら局所特徴量の出現頻度がどの物体に最も近いかを判別する代表的な物体認識手法として広く知られている。
図7(A)に、局所特徴量抽出の代表的な事例として、Scale Invariant Feature Transform(以下、SIFTと呼称する)を用いた事例を示す。SIFTは、画像の大きさ・回転・照明の変化に頑健な特徴点検出及び特徴量抽出アルゴリズムの一つであり、一枚の画像の中から複数の特徴的な輝度勾配の分布を原画像に対する異なる平滑化画像の差分(一例としてDifference-of-Gaussian、以下DoGと呼称する)を用いて検出し、その代表点である極値(重心位置)を求め特徴点(キーポイント)として抽出する手法である。DoGを求める過程において、得られるガウス窓(Gaussian Window)の開口量からそれぞれの各特徴点におけるスケールを求め、その支配範囲における局所特徴量を計算する。キーポイント検出プロセスにおいて、画像中に頻出するエッジ上では開口が極端に小さく、有用な特徴量とはなりにくい事からキーポイントから除外される。同様にDoG出力の小さい点(コントラスト比の小さい領域)も、原画像に含まれるノイズの影響を受ける可能性が高い事からキーポイントから除外される。図7(A)では、それらのプロセスを用いて検出された複数のキーポイントと、そのスケールを白い円で示す。
次に、検出されたそれぞれの特徴点に対して、代表するオリエンテーション(主成分の方向)を求める。オリエンテーションは10度刻みに全36方向について輝度勾配強度を求め、それが最大値となるオリエンテーションを、そのキーポイントを代表するオリエンテーションとして採用する。次に、各キーポイント周りの検出されたスケール領域において、主要な輝度勾配の代表点を求め、それを各キーポイントの主たるオリエンテーションとする。その上で、各キーポイントのスケールに基づく周辺領域全体を、上記で求めたオリエンテーションに従い回転させながら4×4の計16領域に分割し、各ブロック内で45度ずつ8方向の勾配方向ヒストグラムを生成して、それらの結果から16ブロック×8方向=計128次元の特徴ベクトルを求める。これらの操作により、画像の回転及びスケールに頑健なSIFT特徴量を得る事が可能になる。最終的に、それら128次元の特徴ベクトルの大きさを正規化して、照明変化にも頑健な局所特徴量を得る。
図6Bにおいて、学習部106−01aを構成する局所特徴量抽出部106−01bによって得られた128次元の特徴ベクトルは、後段のクラスタリング部106−01cによって多次元の特徴ベクトル群にクラスタ分割され、Visual Word作成部106−01dで、それぞれの重心ベクトルを元に特徴ベクトル毎にVisual Wordが生成される。クラスタリングの手法として、k-means法やmean-shift法が知られている。生成されたVisual Wordは、Visual Word辞書(CodeBook)106−01eに収納され、それを元に入力画像から抽出されたVisual Wordを照合し、ベクトル量子化部106−01fで特徴毎にベクトル量子化を行う。その後、ベクトル量子化ヒストグラム部106−01gにおいて、各次元に対するヒストグラムを生成する。
図7(B)に、生成されたVisual Word(CodeBook)、図7(C)に抽出されたベクトル量子化ヒストグラム例を示す。ヒストグラムの各ビンの総数(次元数)は数千〜数万と多く、入力画像によっては特徴の一致が全くないヒストグラムのビンも数多く存在する一方、特徴の一致が顕著なビンもあり、それらを一括してヒストグラムの全ビンの値の総和が1になるように正規化処理が行われる。得られたベクトル量子化ヒストグラムは、後段のベクトル量子化ヒストグラム識別部106−01hへと入力され、代表的な識別器であるSupport Vector Machine(以下SVMと呼称する)106−01iにおいて、物体の属するクラス(一般物体)を認識処理する。ここでの認識結果は、Visual Word辞書に対する学習プロセスとしても利用可能である。また、他の手法(メタデータや集合知)も含めた認識判断も、同様にVisual Word辞書に対する学習フィードバックとして利用可能で、同一クラスの特徴を最も適切に記述し他のクラスとの分離度を良好に保つように、アダプティブな修正・校正を継続する事が可能となる。
図8に、前記の一般物体認識部106−01を含む、一般物体認識システム106全体の概略ブロック図を示す。一般物体(クラス)は様々なカテゴリに属していて、それらは多重的な階層構造を成している。一例を挙げると、人間は「哺乳類」という上位カテゴリに属し、哺乳類は「動物」というさらに上位のカテゴリに属しているといった具合である。人間はまた、髪の色や目の色、大人か子供か?といった別のカテゴリでも認識が可能である。これらの認識判断を行うには、カテゴリ分類データベース107−01の存在が欠かせない。これは現在までの人類の「知」の集積庫であり、今後の学習や発見によって、さらに新たな「知」が補充され継続的に進化して行くものでもある。一般物体認識部106−01で同定されたクラス(究極的には、人類がこれまでに識別している、全ての名詞の総数)は、様々な多次元的かつ階層的な構造を以ってこのカテゴリ分類データベース107−01内に記述されている。学習過程において、認識された一般物体はカテゴリ分類データベース107−01と照合され、カテゴリ検出部106−02で所属カテゴリが認識される。その後、カテゴリ学習部106−03に認識結果が引き渡され、カテゴリ分類データベース107−01内の記述との整合性が詳細にチェックされる。通常一般物体認識された物体は、複数の認識結果を内包する場合が多い。例えば「昆虫」であると認識した場合に、目の構造や手足の数、触角の有無、全体の骨格構造や羽の大きさ、胴体の色彩や表面のテクスチャ等でも認識・分類可能で、カテゴリ分類データベース107−01内の当該一般物体詳細記述と共に照合される。カテゴリ学習部106−03では、これらの照合結果を基に、カテゴリ分類データベース107−01への追加・修正が必要に応じて適応的に行われる。その結果、既存カテゴリのいずれにも分類できず、「新種の昆虫」ではないか?と推測される場合には、新規カテゴリ登録部106−04が、これらの情報をカテゴリ分類データベース107−01内に登録する。一方、その時点では不明な物体は、不特定カテゴリデータ107−02として、将来の解析や照合に備え一時的にカテゴリ分類データベース107−01内に収納される。
図9に、入力画像に含まれるシーンを認識判別するシーン認識システム108の本発明における代表的な実施例をブロック図で示す。学習画像及び入力画像からは、一般に複数の物体が認識可能となるケースが多い。例えば、「空」「太陽」「地面」などの領域と同時に「木」や「草」そして「動物」等の物体が認識可能となる場合、それらが「動物園」なのか「アフリカ」なのかは全体の景色や、それ以外に発見される物体との共起関係等から類推する事になる。例えば、柵や掲示板等が同時に発見され多くの見物客で賑わっていれば「動物園」である可能性が高まるが、全体のスケールが大きく、遠くに「キリマンジャロ」のような大きな山を臨み、様々な動物が混在して草原上にいるような場合には、そこが「アフリカ」である可能性が一気に高まる。このような場合、さらに認識可能な物体や状況、共起関係等を知識データベースであるシーン構成要素データベース109に照合し、より総合的に判断を下す必要も出てくる。例えば、全画面の9割が「アフリカ」を指し示していると推定されても、それらが四角枠内に切り取られ壁に張り付いていれば、実際はポスターや写真である確率が極めて高くなる。
シーン認識システム108は、領域抽出部108−01と、特徴抽出部108−02と、強識別部108−03と、シーン認識部108−04と、シーン構成要素データベース109から構成され、特徴抽出部108−02は、一般物体認識部108−05と、色情報抽出部108−06と、物体形状抽出部と、コンテキスト抽出部と、弱識別器108−09〜12とで構成され、シーン認識部108−04は、シーン分類部108−13と、シーン学習部108−14と、新規シーン登録部108−15で構成され、シーン構成要素データベース109は、シーン要素データベース109−01と、メタデータ109−02で構成される。
領域抽出部108−01は、背景や他の物体の影響を受けずに目的とする物体の特徴を効果的に抽出するために、対象画像の領域抽出を行う。領域抽出手法の例として、グラフベースの領域分割法(Graph-Based Image Segmentation)等が知られている。抽出された物体画像は、局所特徴量抽出部108−05、色情報抽出部108−06、物体形状抽出部108−07、コンテキスト抽出部108−08にそれぞれ入力され、それらの各抽出部から得られた特徴量が弱識別器108−09〜12において識別処理され、多次元の特徴量群として統合モデリングされる。それらモデリング化された特徴量群を、重み付け学習機能を有する強識別器108−03に入力し、最終的な物体画像に対する認識判定結果を得る。前記の弱識別器の例としてSVM、強識別器の例としてAdaBoost等が上げられる。
一般に入力画像には複数の物体や、それらの上位概念である複数のカテゴリが含まれている場合が多く、人間はそこから一目で特定のシーンや状況(コンテキスト)を思い浮かべる事ができる。一方、単独の物体や単一のカテゴリのみを提示された場合、それだけで入力画像がどういうシーンを表わしているのかを、直接的に判断するのは困難である。通常は、それらの物体が存在している状況や相互の位置関係、またそれぞれの物体やカテゴリが同時に出現する確率(共起関係)が、その後のシーン判別に対して重要な意味を持ってくる。前項で画像認識可能となった物体群やカテゴリ群は、シーン要素データベース109−01内に記述されている、シーン毎の各要素群の頻出確率を基に照合処理され、後段のシーン認識部108−04において、入力画像がいかなるシーンを表現しているのかが統計的手法を用いて決定される。これとは別の判断材料として、画像に付帯しているメタデータ109−02も有用な情報となり得る。しかし、時には人間が付したメタデータ自体が、思い込みや明らかな誤り、あるいは比喩として画像を間接的に捉えている場合等もあり、必ずしも入力画像中の物体やカテゴリを正しく表わしているとは限らない場合がある。このような場合にも、画像認識システムで得られる結果や、知識情報システムで共起関係等を基に得られる結果を勘案して、最終的に物体やカテゴリの認識処理が行われる事が望ましい。また、一つの画像からは複数のシーンが得られる場合も多い(「海」であると同時に「海水浴場」であったりもする)。その場合は、複数のシーン名が共に付される。さらに画像に付すべきシーン名として、例えば「海」あるいは「海水浴場」のいずれがより相応しいかは、当該画像のみからでは判断が難しく、前後の文脈(コンテキスト)や全体との相関関係やそれぞれの出現共起関係を基に、知識データベースの助けを借りて最終的に判断する必要も出てくる。
図10(A)にシーン要素データベース109−01の記述例を示す。シーン(A)は複数のカテゴリ、カテゴリmとカテゴリnを含み、カテゴリmの構成要素として一般物体αと一般物体βが、カテゴリnの構成要素として一般物体γと特定物体δと特定物体εが、それぞれの出現確率と共に記述されている。
図10(B)にシーン『交差点』の構成要素例を示す。『交差点』を構成するカテゴリとして『道路』を考えた場合、そこには複数車線からなる「幹線道路」や片側一車線の「一般道路」、あるいは「歩道」といったような様々な道路が存在する。『道路』上に「車線分離表示」や「横断歩道表示」「進行方向指示」のような『路面表示』が同時に見つかれば、かなりの確率でそこは『交差点』か『交差点』に近い場所であろうと推測できる。その上で複数の道路が交差し、『信号機』がそれぞれにあり、そこに「進行表示」や「歩行者専用表示」等も見つかれば、間違いなくそこは『交差点』であると断定できるだろう。その上で、信号機に「交差点名表示」があり文字が認識可能な場合には、『交差点』はその場所の特定までされた事になる。道路上には他にも「速度規制表示」や「駐停車規制表示」あるいは「一時停止表示」のような『道路標識』カテゴリがあるだろうし、歩道や横断歩道上に『人』がいれば、それぞれの「体型」や「服装」のみならず、「顔」も特定できる可能性もある。車道には「乗用車」や「大型車」のような様々な形態の『車』があり、それぞれの「ナンバープレート」も認識可能かも知れない。また歩道や車道には「自転車」や「オートバイ」等の『二輪車』が走っている場合が多く、「ナンバープレート」が付されていれば「自動二輪」や「オートバイ」であると認識する事も可能となるだろう。歩道には「犬」や「猫」などの『動物』が発見される場合もある。紐で「人」と繋がっている場合は「犬」の確率が高まる。単独でうろうろしている小型動物の場合は「猫」かもしれないし、空を飛んでいれば「鳥」であろうと推察できる。視界内には「店の看板」や「電柱の看板」あるいは車体やガラス窓に張ってある「車の看板」のようなカテゴリ『看板』が見つかる可能性が高い。『交差点』の周囲には「建物」があり、時には「歩道橋」や「橋」等の『建造物』を見る事ができるだろうし、道路上には「電柱」や「街路灯」「街路樹」のような一般物体だけではなく、「道路工事」中の臨時のガードレールや看板のような『路上構築物』も見つかるかも知れない。そういった中で、例えば物体が「不明瞭」であるとかオクルージョン(隠蔽)等により「不完全」であるような場合には、『不明』カテゴリとして将来の認識処理に委ねられる事になる。
図11に、特定物体認識システム110のシステム全体の構成例、及び機能ブロックを示す。特定物体認識システム110は、一般物体認識システム106と、シーン認識システム108と、MDB111と、特定物体認識部110−01と、MDB検索部110−02と、MDB学習部110−03と、新規MDB登録部110−04とで構成され、特定物体認識部110−01は、二次元写像部110−05と、個別画像切り出し部110−06と、局所特徴量抽出部110−07と、クラスタリング部110−08と、Visual Word作成部110−09と、Visual Word辞書(Code Book)110−10と、ベクトル量子化110−11と、ベクトル量子化ヒストグラム部110−12と、ベクトル量子化ヒストグラム識別部110−13と、SVM部110−14と、形状特徴量抽出部110−15と、形状比較部110−16と、色情報抽出部110−17と、色彩比較部110−18とで構成される。
一般物体認識システム106により、対象物体の属するクラス(カテゴリ)が認識可能になった時点で、物体がさらに特定の物体としても認識可能か?という絞り込みのプロセスに移る事が出来る。クラスがある程度特定されないと、無数の特定物体群からの検索を余儀なくされ、時間的にもコスト的にもとても実用的とは言えない。これらの絞り込みプロセスには、一般物体認識システム106によるクラスの絞り込み以外にも、シーン認識システム108の認識結果から対象の絞り込みを進める事も可能となる。また特定物体認識システムから得られる有用な特徴量を用いて、さらなる絞り込みが可能になるだけではなく、物体の一部にユニークな識別情報(商品名とか、特定の商標やロゴ)等が認識可能な場合、あるいは有用なメタデータ等が付されているケースでは、さらなるピンポイントの絞り込みも可能となる。
それら絞り込まれたいくつかの可能性の中から、複数の物体候補の詳細データや設計データをMDB検索部110−02がMDB111内から順次引き出し、それらを基に入力画像とのマッチングプロセスに移る。物体が人工物体でない場合や、詳細な設計データ自体が存在していない場合においても、写真等があればそれぞれの特徴を詳細に突き合わせる事で、或る程度の特定物体認識も可能となる。しかし、入力画像と比較画像の見え方がほとんど同じというケースは稀で、それぞれを違う物体として認識してしまうケースある。反面、物体が人工物体でありCAD等の詳細なデータベースも存在している場合には、二次元写像部110―05が入力画像の見え方に応じMDB内の三次元データを可視化(レンダリング)する事により、極めて高精度の特徴量のマッチングを行う事が可能になる。この場合、二次元写像部110―05における全方向の詳細レンダリングを行う事は計算時間とコストの不要な増大を招く事から、入力画像の見え方に応じた絞り込みが必要となる。一方、MDBを用いた高精度のレンダリング画像から得られる物体の様々な特徴量群は、予め学習プロセスにおいて十分時間をかけて求めておく事も可能となり、実用システムを構築する上でより効果的となる。
特定物体認識部110−01では、物体の局所特徴量を局所特徴量抽出部110−07で検出し、クラスタリング部110−08でそれぞれの特徴量を複数の類似特徴群に分離した後、Visual Word作成部110−09で多次元の特徴量セットに変換して、それらをVisual Word辞書110−10に登録する。これらは、多数の学習画像に対し十分な認識精度が得られるまで継続して行われる。学習画像が写真である場合は、画像の解像度不足やノイズの影響、オクルージョンの影響、対象物体画像以外の物体から受ける影響等が避けられないが、MDBを基にしている場合は、対象画像の抜き出しも理想的に行う事が可能で、従来の手法に比べて大幅に分解能を高めた特定物体認識システムを構成する事が可能となる。入力画像は、個別画像切り出し部110−06で目的とする特定物体の凡その領域が切り出された後に、局所特徴量抽出部110−07で特徴点及び特徴量を求め、予め学習により用意されたVisual Word辞書110−10を用い、個々の特徴量毎にベクトル量子化された後にベクトル量子化ヒストグラム部110−12にて多次元の特徴量に展開され、ベクトル量子化ヒストグラム識別部110−13にて物体が参照物体と同一か判断される。識別器の例として、SVM(Support Vector Machine)110−14が知られているが、他にも判断の重みを学習の上で可能にするAdaBoost等も有効な識別器として利用するケースが多い。これらの識別結果は、MDB学習部110−03を通じて、MDB自体への修正と項目追加というフィードバックループにも利用可能で、依然として未確認物体である場合には新規MDB登録部110−04に保留され、将来の類似物体の出現や、新たなMDBの登録に備える。
また、局所特徴量のみならず、検出精度をさらに向上させる目的で物体の形状特徴を利用する事も可能となる。入力画像から切り出された物体は、形状特徴量抽出部110−15を経由して形状比較部110−16に入力され、物体の形状的な特徴を用いた識別が行われる。その結果はMDB検索部110−02にフィードバックされ、可能性のある特定物体に対応したMDBへの絞り込みが行われる。形状特徴量抽出手段の例として、HoG(Histograms of Oriented Gradients)が知られている。形状特徴量は、またMDBを用いた二次元写像を得るための不要なレンダリング処理を減らす目的でも有用となる。
また、物体の色彩的な特徴や表面処理(テクスチャ)も、画像認識精度を上げる目的で有用である。切り出された入力画像は、色情報抽出部110−17に入力され、色彩比較部110−18で物体の色情報、あるいはテクスチャ等の抽出が行われ、その結果をMDB検索部110−02にフィードバックする事で、比較対象となるMDBのさらなる絞り込みを行う事が可能となる。これら、一連のプロセスを通じて、特定物体認識が効果的に行われる。
B.インタレスト・グラフ収集処理
次に、図12〜図36に基づいて、本発明に係るシステムの一実施形態におけるインタレスト・グラフ収集処理について説明する。
図12A乃至図12Eは、本発明に係るシステムの一実施形態におけるユーザインタフェースを説明している。図12A(A)において、ネットワーク端末装置105上のディスプレイには、画像1201、1202のほか、何枚かの画像と、関連性検索窓1203と、出力窓(OUTPUT)1205とが表示されている。
画像1201、1202は、上記画像認識エンジン200により認識可能となった画像構成要素群、及びそれら画像構成要素群それぞれに対応する関連要素群に対し、それらを代表する写真、イラストレーション、文字、記号、ロゴ、ファビコン等から生成した縮小画像サムネイルを関連性検索エンジンが元画像に代えてネットワーク端末に向け送出した画像タイルであり、ユーザの指(1206)などの操作により、画面上の任意の位置にドラグ可能となっている。
また、関連性検索窓1203は、ネットワーク端末装置105に係るホーム画面、或いはその上で動作する特定のアプリケーションが管理する画面など、任意の画面上に配置させることができる。典型的な実施形態としては、ネットワーク端末装置105の起動後のホーム画面上に常駐させて、いつでもユーザが関連性検索窓1203に対して検索対象となる画像全体、或いは画像の特定領域を選択した後にドラグ&ドロップして画像認識及びそれに引き続く関連性検索プロセスを開始する事が出来るように構成する事が可能となる。一例として、図12A(A)においては、ユーザは画像1201を関連性検索窓1203にドラグ&ドロップする操作を示している。
なお、関連性検索窓1203を特に用意せず、ユーザが関心を持った画像全体、或いは画像の特定の領域をユーザがネットワーク端末105上で選択し、それら選択した画像をネットワーク経由でサーバ側の画像認識エンジン200に問い合わせることができるように構成されたインタフェースであれば、どのようなインタフェースを採用してもよい。
例えば、関連性検索窓への検索対象画像の投入という操作に代えて、検索の対象となる画像全体、或いは特定の画像領域を明示的にネットワーク端末105の表示スクリーン上でダブルタップする等の操作により、サーバ側の画像認識エンジン200に当該選択画像の認識処理を問い合わせる事も可能である。
またPC等では、図12A(B)のように、タッチパネルでの入力操作に代わりマウス等のポインティングデバイス1204を用い、カーソル1207を画像1201上に移動させ、対象画像1201を関連性検索窓1203a(あるいは、関連性検索に結び付けられたアイコン1203b)に直接ドラグ&ドロップしたり、マウスのカーソルを画像1201上に合わせダブルクリックしたりする事により、サーバ側の画像認識エンジン200に当該選択画像の認識処理を問い合わせる事も可能である。
図12B(A)は、上記選択画像1201に対する関連性検索結果としてサーバ101からネットワーク端末105に向けて送出される画像構成要素群、及びそれらとさらに関連性の高いその他の関連要素群とをノードとした関連性グラフをネットワーク端末105のスクリーン全体に表示し、それらの各ノードをユーザがタッチスクリーン上でフリック(1210)することで、関連性グラフ上の各ノードを左から右にシームレスに辿っている様子を示す。また、ノードとなっている画像を選択的にユーザがタップ或いはタッチする事により、当該ノードを中心とした関連性グラフの表示となるようにネットワーク端末105側で全体の表示を自動的にスクロールさせる事も可能である。図12B(A)の領域1209は、関連性グラフの一例を示し、その一部が切り取られてネットワーク端末105上に描かれている様子を図示している。実際の関連性グラフの大きさは当例示よりも遥かに大きくなるケースが多く、ネットワーク端末105上に表示しきれない領域1209に属するノード、及びそれら相互の関連性であるリンク情報を関連性検索エンジン220がネットワーク端末105に向けユーザのスクロール操作に伴い追加的に送出することで、ユーザにとって関心のあるノード或いは領域を関連性グラフ上でシームレスに辿りながら、複数のノード間にまたがる広範な関連性としてユーザに視覚的に提示する事が可能となる。
図12B(A)では、フリックした結果、グレープジュース1220の関連要素としてのオレンジジュース1221及びグレープ1222が表示され、さらに、グレープ122の関連要素としてのフルーツ群1223〜1226が表示されている。
また、図12B(B)においては、図12B(A)において、グレープジュース1220を明示的に選択(2回以上のタップやタッチ等)し、これをネットワーク経由してサーバ側の画像認識エンジン200に問い合わせる事により、画像認識エンジン200において認識された画像構成要素群であるボトルキャップ1231、ボトル1232、及び製造元会社のロゴ1233が表示されている。
なお、上記スクロール操作はユーザによるジェスチャーや視線、音声、或いは脳波等を用いた同様の効果を及ぼす入力操作を用いても良い(図には描かれていないが、ピンチイン/ピンチアウトを含むジェスチャーの検知や、視線或いは脳波の検知等は、既に用いられている多くのセンシング技術を導入することができる)。また、二次元的なスクロール操作に限らず、関連性グラフを三次元空間やさらに多次元の空間内に配置する事も可能となる。
図12Cに事例として示すように、関連性グラフの表現を、複数のノード群とそれら相互の関連性と関連性の強さを視覚的に表わした幾何学的なグラフとしてだけではなく、限られた画像表示サイズとならざるを得ない携帯端末等に向けて、タイル状に並べた等しいサイズの画像タイルの集合として表現する方法も有用となる。この場合は、(1)最初の入力画像(1501)、(2)画像認識エンジンにより検出・認識された複数の画像構成要素候補群(1251)、(3)それら個々の画像構成群それぞれと関連する他の関連要素群(1252或いは1253)を、それぞれ異なる要素群としてネットワーク端末105の表示画面上の割り当てられたエリアに並べて表示する方法が有用となる。(3)(1252或いは1253)の関連要素群は、それぞれ一次繋がり、二次繋がり、三次繋がり…という関連性の度合いに応じたレイヤ毎の表示とする事で、ユーザによるタッチパネル上のフリック操作で、高速に画面をスクロール(1254)可能にして全体の関連性を効果的に閲覧可能させる事が出来る。この様なタイル状のノードをマトリックス状に配列した場合、それぞれのノード間の関連性の強さは、各ノード近傍に数値や記号等のデータとして附記する事が可能である。
これらタイル状に表現された関連性グラフの任意のノード画像を、再びネットワークを経由してサーバ側の画像認識エンジン200に問い合わせ、入力された画像から新たな画像構成要素群を得る操作により、それらを起点とする新たな関連性グラフを関連性検索エンジン220経由で取得する事が可能となる。このユーザインタフェースの一実装例として、任意のノード画像をユーザが明示的にダブルタップする事により、当該画像に対する新たな画像構成要素の検出及び画像認識要請をネットワーク端末105からサーバ101に対して行ない、画像認識エンジン200が新たな画像構成要素群をサーバ側で検出・認識し、結果をネットワーク端末105に返す事で、ネットワーク端末105側の表示画面に当該画像認識要素群として再提示する事が可能となる(図12B(B))。これら新たな画像構成要素群は、従来の関連性グラフに代えて表示しても良いし、半透明表示機能等を用いて従来の関連性グラフ上に重畳して表示しても良い。これら画像構成要素候補群にユーザが関心を示さない場合は、元の関連性グラフに復帰させる。或いは、ユーザが新たに検出された画像構成要素に関心を示した場合は、当該画像構成要素を表わすノードをユーザがダブルタップする事により、当該画像構成要素を中心とする新たな関連性グラフに係る新たな関連ノード群がサーバ側からネットワーク端末105に向けて送出され、ユーザは新たな関連性グラフを獲得する事が可能になる。
インタレスト・グラフの収集には、画像認識エンジン200、関連性検索エンジン220、統計情報処理部209、及び特定ユーザフィルター処理部210が関係する。これらは、すべてサーバ101の一部として運用することも可能であるし、あるいは、それぞれサーバ101とは独立したサーバシステムとしても運用可能である。
図13に、関連性検索エンジン220におけるグラフ演算部221の詳細機能ブロックの一構成例を示す。グラフ演算部221は、部分グラフ生成部1301と、多次元特徴ベクトル生成部1302と、関連要素ノード抽出部1303とからなり、必要に応じて、グラフデータベース102A及び関連性知識データベース1310からデータの授受を行う。
部分グラフ構成部1301は、画像認識エンジン200により抽出された画像構成要素に対応するノードを入力とし、GDB102Aにアクセスしながら当該ノードの部分グラフを生成する。
多次元特徴ベクトル生成部1302は、部分グラフから関連性演算部224での計算(後述の図18)によって多次元特徴ベクトルを生成する。
関連要素ノード抽出部1303は、得られた複数の多次元特徴ベクトルの距離を、例えば、ユークリッド距離を計ったり、マハラノビス距離を計ったりして求め、関連要素ノードを抽出する。
図14Aに、本発明に係るシステムの一実施形態におけるグラフを表現するための基本的データ構造を示す。
[基本的なグラフ演算]
図14A(A)に示す通り、生成時刻及びvalue(1402)にhash演算1404を施すことでkey(1401)を得る。例えば、hash演算1404がハッシュアルゴリズムSHA−1を用いた場合には、keyは160ビット長になる。Key(1401)はlocate演算1403によってvalue(1402)を得る。例えばlocate演算1403には分散ハッシュテーブル(Distributed Hash Table)方が利用できる。本実施例では、このkeyとvalueの関係を”(key, {value})”で表現し(図14A(B)))、ノードデータ及びリンクデータとしてGDB102Aに格納する単位とする。
例えば、図14A(C)の2つのノードがリンクされている場合、ノードn1(1410)は、”(n1, {ノードn1})”で、ノードn2(1411)は、”(n2, {ノードn2})”で表現する。n1やn2はそれぞれノードn1(1410)、ノードn2(1411)のkeyであり、ノード実体ノードn1(1410)、ノードn2(1411)をそれぞれhash演算しそれぞれのkeyを得る。また、リンクl1(1412)は、ノードと同様に“(l1, {n1, n2})”で表現し、{n1, n2}をhash演算することでそのkey(l1)1412を得る。
図14A(D)にノードが保持するデータの構造を示す。タイプ欄には、ノードの保持するデータのタイプが格納される。タイプには、”USER”、”OBJECT”、”META”、”URI”、”EXT”の4種類を定義している。”USER”はノードがユーザを表現していることを、”OBJECT”はノードがオブジェクトを表現していることを示している。”META”はノードがユーザ或いはオブジェクトのメタデータを、”SUBJECT”(Subjectivity)はノードがユーザの主観を、”URI”はノードがユーザ或いはオブジェクトへのURIを示している。”EXT”はタイプの拡張の為に用意されており、拡張されたデータはデータ欄に格納される。
図14A(E)に、リンクが保持するデータの構造を示す。タイプ欄には、リンクのタイプが格納される。タイプには、”UNDIRECTED”、”DIRECTED”、の2種類が定義されている。”UNDIRECTED”は当該リンクが無向リンクであることを、””DIRECTED”は当該リンクが有向リンクであることを示している。また、データ欄には、左ノードのkey、右ノードのkey、重み(w)及び関数(f)が格納される。重みにはリンクの太さを表現する値を使っても良いし、後述する多次元特徴ベクトルを圧縮した値を使っても良い。
これらノードやリンクの”(key, {value})”で表現されるデータはimmutable(データ不変)という性質を有しており、すなわちwrite-once-read-manyのセマンティクス(書き込みは一回のみだが読み出しは複数回可能)を有するが、そのセマンティクスには限定されない。例えば、write-many-read-many(書き込み読み出し共に複数回可能)のセマンティクスでも良い。その場合には、ノード及びリンク共に修正時刻の欄が追加される。
図14Aに示したノードデータとリンクデータはGDB102Aに格納される。図14Bにそれらのデータを操作する為のGDB102Aのオペレーションを示す。図中、典型的なオペレーションセットとして、”CREATE”、”CONNECT”、”NODE”、”LINK”、”SUBGRAPH”の5つのオペレーションを定義するが、拡張しても良い。例えば、データのセマンティクスがwrite-many-read-manyの場合には、”DESTROY”や”UPDATE”のオペレーションがあっても良い。
“CREATE”は指定したタイプのノードを生成する。”CONNECT”は、指定した2個のノードを指定したタイプでつなげるリンクを生成する。”NODE”はkeyに対応するノードデータを取得する。”LINK”はkeyに対応するリンクデータを取得する。”SUBGRAPH”は指定したノードの部分グラフを取得する。
図14Cに、本発明に係るシステムの一実施形態におけるグラフ構造及びリンク表現を示す。
まず、図14C(A)に簡単なグラフ構造を示す。4つのノード1401、1402、1403、1404とそれらのリンクl1(1405)、l2(1406)、l4(1407)、l3(1408)がある。それらの表現を図14C(B)に示す。リンクは特に示さない限り無向リンクである。”(l1, {n1, n2})”は、ノードn1(1501)とノードn2(1502)との間のリンクである。ノードn1(1501)からノードn2(1502)への有向リンクを表す場合には、”(l1, {n1, n2}’)”と表現する。
また、図14C(C)には、リンクが静的ではなく、動的な関数で表現される場合が示されている。”(n1, {f(n1, n2)})”は、ノードn1(1401)とノードn2(1402)との間のリンクが、関数”f(n1, n2)”で計算される。例えば、ノードn1(1401)がある画像の多次元特徴量ベクトルであり、ノードn2(1402)が別の画像の多次元特徴量ベクトルである時には、”f(n1, n2)”はその情報距離を比較する演算になる。また、ノード間リンクの確率であってもよい。
図15に、本発明に係るシステムの一実施形態における検索関連画像と画像構成要素、及び関連要素画像群の視覚的リンク構造例、および動作例を図示する。
[視覚的グラフ表現]
図15は、画像1501を関連性検索窓1203にドラグ&ドロップした後の関連性グラフを示している。画像1501は画像認識エンジン200、または、画像認識システム202で処理され、3個の画像構成要素が抽出されている。すわなち、画像構成要素Wine(1502)、Wine Glass(1503)、Wine Bottle(1504)の3個である。図中では、それらにWine, Wine Glass, Wine Bottleというラベルが付されているが、これらは画面に出力されることはなく、あくまで本発明における説明を容易にするためのものである。これらの画像構成要素は関連検索エンジン220で処理され、それぞれ1505から1518の関連要素群が抽出されている。例えば、画像1502は5個の関連要素群の画像と関連がある。それらは、Olive(1505)、Cheese(1506)、Bread(1507)、Fine Dish(1508)、Wine Glass(1508)の5個である。Wine Glass(1503)はDecanter(1509)を関連要素とし関連がある。Wine Bottle(1504)は8個の関連要素群の画像と関連がある。それらは、Wine(1502)、Wine Glass(1503)、Decanter(1509)、Cork(1511)、Grape(1513)、DRC(1515)、Wine Cellar(1516)、Oak Barrel(1517)の8個である。
また、画像間のリンク線の太さにも意味を持たせている。太いリンク線は細いリンク線よりも強い関連度を表す。例えば、Wine(1502)は、Olive(1505)とCheese(1506)とにリンクがあるが、Cheese(1506)とのリンクの方がOlive(1505)のリンクよりも本事例では太い。つまり、Wine(1502)とCheese(1506)との関係の方が強いという関係を表している。
このような関連性は、図15に描かれた範囲を超えて大きく広がっているが、図15では例示的にその一部を表示している。これら広範な関連性グラフは、ノード間の関連度を基準にして、一定以上の関連性を有するもの同士を選択的に表示することもできる。
次に、例えば、Decanter(1509)を関連性検索窓に再投入する。この場合には、画像認識エンジン200が画像Decanter(1509)を処理して、新たな画像構成要素群を抽出し、それに関連した新たな関連要素群を関連性検索エンジン220から抽出して表示する事で、図15とは異なる関連性グラフが展開される。
図16(A)に、図15のシナリオに対応するグラフ構造との関係を示す。ここでは、画像1501とその画像構成要素1502から1504の画像に対応するグラフ構造を示している。4個のノード1601、1602、1603、1604は、それぞれの画像構成要素に対応している。
これらの関係を表現するために、GDB102Aにはデータセット1605が格納されている。
画像構成要素には様々のノードがリンクされているが、一例として、図16(B)にそれぞれの画像構成要素に対するメタデータの一部を示す。ノード1602にはノード1610(red)とノード1611(white)の2個のメタデータが、ノード1603にはノード1612(crystal)、ノード1613(company name)、ノード1614(creator name)の3個のメタデータが、ノード1604にはノード1615(name)、ノード1616(vintage)、ノード1617(winery)の3個のメタデータがある。さらにこれらのメタデータはさらなる関連ノードとリンクしている(不図示)。
図17(A)に、図15のシナリオに対応する関連要素に関するグラフ構造を示す。ここでは、画像1502とその関連要素1501、1503、1504及び1505から1508の画像に対するグラフ構造を示す。7個のノード1601〜1604、及び1701〜1704がそれぞれ関連要素に対応している。
これらの関係を表現するために、GDB102Aにはデータセット1705が格納されている。
図17(B)に関連要素それぞれに対するグラフ構造を示す。図ではスペースの関係上一部のグラフ構造を示している。例えば、ノード1604にはメタデータに対応したノード群1710とさらなる関連リンク群1711とのリンクがある。同様なリンクは他の関連要素のノード1601から1603にも存在している。
[関連性導出演算]
図18は本発明に係わる関連性導出演算の一例で、関連性検索エンジン220における関連性演算部224での処理を示したものである。図17で見たように、画像構成要素の画像と関連要素を構成しているノードとの間には複雑なグラフ構造が存在している。例えば、図18(A)のグラフが与えられているとする。これは、2つのノード間のグラフ構造から抽出された部分グラフである。ここで、それぞれのノード間のリンクのfを計算する(図14(E)の関数fを計算する)。関数fは確率であったりベクトルであったりとノードとリンクのタイプによって変わる。例えば,リンク1801のfを計算し得られた値を行の一要素とし、これをすべてのリンクに繰り返すと、図18(B)の行列(v1)を得る。図18(C)は行列(v1)の各行をビンに対応させたヒストグラム図として描いた。この行列(v1)を多次元特徴ベクトルとしてノード間の関連性の計算に用いる。つまり、この多次元特徴ベクトルはノード間の直接的な関係性の強さを表している。図18ではノード1801(n1)とノード1809(n2)の間の関連性を当該多次元特徴ベクトルで表し、関連性知識データベース1310に記録する。また、GDB102Aにはノードn1とノードn2との間にリンクが生成されたことになるので、すなわち、”(ln1-n2, {f(v1)})”(ここでf(v1)は関連性知識データベースへのアクセス関数/メソッドである)なるリンクデータをGDB102Aに格納する。この様にして、ノード間の関連性を学習していく。
なお、f(v1)による多次元特徴ベクトルを次元圧縮した値をリンク線の太さに割り当ててもよい。この場合、多次元特徴ベクトルの次元圧縮値が大きくなるほど、リンク線は太いものとしてグラフ上に表現することができる。次元圧縮には、公知の演算方法を用いることができる。
[基本的なインタレスト・グラフの獲得]
図19に、本発明に係わるインタレスト・グラフ獲得の一例を示す。図19(A)は関連性グラフをユーザに対応するノード1903(当該ノードのタイプが”USER”である)を中心に簡略化して描いた。ノード1903は3つのオブジェクトに対応したノード1904、1905、1906(それらのノードはタイプが”OBJECT”である)と繋がっている。図18に記載の手順でノード1903とノード1904、ノード1905、及びノード1906の間のそれぞれの多次元特徴ベクトルを計算し合計したものが図19(A)中の多次元特徴ベクトル1901である。
ここで、2つのオブジェクトがノード1903に追加されたとする(図19(B))。ノード1913とノード1914である。同様にノード1903とノード1913、ノード1914の間のそれぞれの多次元特徴ベクトルを計算し合計した結果、図19(B)中の多次元特徴ベクトル1911が得られる。点線円1902と点線円1912における特徴ベクトルの違いに注意されたい。この様に多次元特徴ベクトルを適応的に強めることで当該ユーザ1903を中心ノードとするインタレスト・グラフを獲得する。
前記操作をGDB102Aに格納されたタイプが”USER”のノードそれぞれに適応する事で、個々のユーザに対応したインタレスト・グラフを獲得することができる。
また、関連性差分部224による計算を特定のユーザの集まりに対して適応すれば、当該グループのユーザ(いわゆるユーザクラスタ)に関する特徴を表したものになるし、ユーザ全体の当該計算を適応すれば、ユーザ全体に関する特徴を表したものになる。そして、詳細は後述するが統計情報処理部209により当該ユーザを中心とした多次元特徴ベクトル群は統計的なインタレスト・グラフを表現する。
[グラフ構造の表示例]
図20A乃至図20Cに、本発明に係るシステムの一実施形態におけるグラフ構造の表示例を示す。
図20Aにおいて、グラフ構造におけるノードに対応する画像には、画像2001(例えば、イラストレーション)を使用することもできるし、ロゴ2002や画像サムネイル2003を使用することもできる。さらには、MDB102Bから公式の画像(2004)を使用することもできる。
ここで、会社のロゴの場合には、一例として複数の意味が含まれることに留意されたい。具体的には、会社そのものを指し示し、かつ、その会社の商品も指し示すことがあり得る。
図20Bに、関連性グラフを観察時間としての時間軸変数と併せて視覚的に表示する例を示す。
図20B(A)は、関連性グラフを横軸として時間軸を、左が過去で右が未来になるように表示した例である。ユーザは表示面をフリップしてもよい(1210)。その場合、時間軸の表示は一昨日、3日前、等々の過去、或いは明後日、3日後、等々の未来の時間軸になり対応するグラフ表示も変化する。図20B(B)は、時間軸を変化させるスクロールバー2011を用意し、ある時刻での関連性グラフを表示し(2012)、スクロールバーを移動させることで別の時間軸での関連性グラフを表示した(2013)例である。
なお、図20Bの時間軸に加えて、位置情報を元に地図上、或いは地球儀上に紐付けられた関連性グラフを表示しても良い。
図20Cは、あるノードを中心とする、より詳細な関連性グラフを表示する例である。表示2021において、ノード2022をダブルタップする(2023)か、ピンチアウトする(図では非表示)事により(図20C(A))、当該ノード2022を中心とした関連性グラフがより詳細化(2031)されて表示される。
例えば、図20C(B)では、ノード2024のさらなるつながりのあるノード2032や、新しいノード2033が追加表示されている。
[インタレスト・グラフ成長のための演算子]
図21に、本発明に係るシステムの他の実施形態における動作例を示す。図21(A)において、関連性検索窓1203には、入力検索条件として論理演算子(AND2101及びOR2102)が導入される。ここで、AND(2101)を指定した場合、画像2104と画像2105とから始まるノード間で共通かつ直接的に関連するノード群が選択される。すなわち、ノード2104とノード2105からの直接リンクのあるノード群が選ばれる。一方、OR(2102)の場合、それぞれのノードのいずれか1つ以上に直接的に関連するノード群が選択される。すなわち、ノード2104から直接リンクのあるノードとノード2105から直接リンクのあるノードの両方が選ばれる。
図21(B)は、AND演算子2101の動作例を示している。グラフデータベース102A上の関連性グラフを探索することで、画像2104に対応するノード2106と画像2105に対応するノード2107から共通かつ直接的に関連するノード2108とノード2109とが選択される。図21(B)では、ノード2108はイタリアのトスカーナ地方に関するノードを表しており、ノード2109は、ワイナリーに関するノードが表示されている。
図22に、本発明に係るシステムの他の実施形態における動作例を示す。
図22(A)は、関連性検索窓の検索条件としてCONNECTION SEARCH(2103)を選んだときの動作を示している。図では2個の画像(2201と2203)を関連性検索窓にドラグ&ドロップしている状態を表している。図22(B)において、画像2201に対応するノード2202からノード2206(something 1)は到達可能な状態を表し、画像2203に対応するノード2204からのど2209(something 2)も到達可能な状態を表している。ここで、GDB102Aを検索することで、ノード2206とノード2209のグラフ構造中のリンクを検索し、両ノード間に直接的、或いは間接的リンクが存在する場合には、当該ノードが表示されることになる。
直接的なリンクが存在する場合には、GDB102Aから該当する複数のリンクを取り出し、画像へのURIを保持するノードに到達するたびに当該画像を表示していく。
また間接的リンクが存在する場合には、後述の統計情報処理部209を利用して、ノード2202をルートとする部分グラフをGDB102Aから抽出し多次元特徴ベクトル生成部1302で生成された多次元特徴ベクトルを対象として、例えば、当該多次元ベクトルの共起確率よりも大きな確率を持つ多次元特徴ベクトルをもつノード群を選び出し、ノード2201とノード2203を間接的につないでいく。この方法の場合、当該ノード間をつなぐパスは複数存在する場合があるが、その時には、当該パス上のノードの数が最小になるパス、あるいは、当該パス上のノード間の重みが最小になるパスを最短パスとして、それを含む関連性グラフを表示しても良い。
CONNECTION SEARCH(2103)の変形としては、1つの画像、例えば画像2201のみを関連性検索窓にドラグ&ドロップして前記手法により選び出されたリンクをつないでいっても良い。
なお、この後には、ノード2202とノード2204との間に直接のリンク(2210)を生成しても良い。
前記間接的リンクが存在する場合には、CONNECTION SEACH演算子2103により図23に示した具体的な連想関係を導く事が可能になる。すなわち、画像2301のワインボトルは、ワインという材料を介して画像2302のワイングラスとの関連が抽出され、さらにグラスという種類の物品を介して高級ワイングラス社製のワイングラスの画像2303との関連が抽出され、さらに同じ材質の椅子の画像2304との関連が抽出され、さらに同じ椅子という種類の物品を介して画像2305との関連が抽出され、さらに同じ作者であるという事実を介して画像2306との関連が抽出され、さらに同じ材質であることを介して画像2307との関連が抽出され、さらに同じ形状であるということを介して画像2308との関連が抽出され、さらに、同じ色であることを介して画像2309との関連が抽出され、さらに同じアパレル業者であるという事実を介して画像2310との関連が抽出されている。
このような非直接的なパスが複数発見される場合、前記したように、最も中継ノード数の少ない、或いは、当該パス上のノード間の重みが最小となるような間接関連性を抽出する事が可能である。
さらには、これら複数の非直接的なパスを辿る事により、思いもよらないノード間の関連を発見することができる。
図24Aに、本発明に係るシステムの他の実施形態における動作例を示す。
図24Aにおいて、ユーザ2401に対応したノード2402には、2つのオブジェクト2403と2404とが関連付けられているとする。例えば、図22に示した操作によって新しいオブジェクト2410が見つかった場合、それに対して接続演算子LIKE(2420)を適用すると(図24A(A))、ユーザのノード2402とオブジェクトのノード2410との間にリンク2411が生成され、直接的な関連付けが行われる(図24A(B))。結果、”(2411, {user A, object C})”なるリンクデータが、新たにGDB102Aに登録される。
また、上記更新が行われると、この更新による新たな直接関連性の存在(リンク2411の存在)をユーザ2402とユーザ2402に直接的に関連するユーザ2405とに通知するよう構成することもできる。すわなち、図24A(C)に示すように、ユーザ2402のネットワーク端末(不図示)及びユーザ2405のネットワーク端末105上に新たな直接関連性の存在(リンク2411の存在)が通知されている。
また、図24B(A)においてオブジェクト2410に対して切断演算子DISLIKE(2421)を適用すると、リンク2411が切断され、リンクデータ”(2412, {object C, user A}’)”という有向リンクを生成しGDB102Aに登録する(図24B(B))。
これらの接続演算子LIKEや切断演算子DISLIKEによって、ユーザに対応したノードと他のノードとの間の直接的な関連性が変化することで、相当するグラフ構造も変化する。ここで、あるノードを中心にリンクのあるユーザのノードとの間のリンクを関連性演算部224で図18及び図19と同様の手段で計算することにより得られた多次元特徴ベクトルは、当該ノードに対するユーザの関心の深さを表すことになる。
図25に、本発明に係るシステムの他の実施形態における動作例を示す。
図25において、ユーザ2501に対応したノード2502には、2つのオブジェクト2503と2504とが関連付けられているとする(図25(A))。一方で、ユーザ2511に対応したノード2512には、3つのオブジェクト2513、2514、2515が関連付けられているとする(図25(B))。
ここでまずオブジェクト2504とオブジェクト2515との間には直接的リンク2510は存在しないとする。しかし本発明における関連性検索エンジン220は図23にみてきたような間接的な関連性を見つけ出す可能性がある。そこで、ユーザ2501のネットワーク端末上にオブジェクト2515の存在の可能性がユーザ2501に対して喚起された場合(図25(C))、当該ユーザは、それらを直接に結びつける演算子Reference(2506)を実行することができる。これにより、オブジェクト2504とオブジェクト2515の間のリンクが提起され、関連性差分部224の処理により新たな多次元特徴ベクトルが生成される。このリンク生成の要請が複数発生し所定の閾値を超えた場合、或いは特定の権限を有するスーパーバイザにより、オブジェクト2504とオブジェクト2515を直接関連付けるリンクを図14Bの”CONNECT”オペレーションによって生成する。
また、ユーザには特定の権限を付与しても良い。その場合、演算子Referenceによるリンク生成の要請は即実行され、オブジェクト2504とオブジェクト2515を直接関連付けるリンクを図14Bの”CONNECT”オペレーションによって生成する。
上記と同様に、Olive Tree(1519)とGrape(1513)との間に点線の暫定的なリンク(1520)が描かれている(図15)。当初の関連性グラフの観点からは両者の距離は離れているが、演算子Referenceによって、ユーザが直接関連付けることを提案することができる。その際に、当該関連性の有無についての提案をきっかけにしたユーザ間のコミュニケーションを誘発してもよい。その結果、当該提案が正当である場合には、リンク1520は実線(直接的関係として確立された)のリンクとして更新することができる。
図26に、本発明に係るシステムの他の実施形態における動作例を示す。
図26では、図24と同様に、ユーザ2301に対応したノード2302には、2つオブジェクト2303と2304とが関連付けられている(図26(A))。一方で、ユーザ2401に対応したノード2402には、3つのオブジェクト2403、2404、2405が関連付けられ(図26(B))、オブジェクト2304とオブジェクト2405との間には直接の関連付けリンク2501が存在している状態を表している。ユーザ2301は、それらの関連付けが疑わしいとして演算子Unreference(2406)を実行する。この直接的関係の非存在を提起する要請が複数発生し所定の閾値を超えた場合、例えば、一定数を超えたユーザがUnreference演算を実行した場合には、オブジェクト2304とオブジェクト2405との間の直接的関連は誤認として切断処理される。或いはスーパーバイザの権限によって、この要請が確定した場合には、オブジェクト2304とオブジェクト2405との間の直接的関連は同様に切断され得る。
[統計情報処理部]
図27を用いて、統計情報処理部209の一実施形態における機能ブロック構成を説明する。
統計情報処理部209は3つの要素から構成される。グラフ・ベクトル構成部2701、推論エンジン部2702、およびグラフマイニング処理部2703の3つであり、推論エンジン部2703はさらに決定木処理部2710、ベイジアンネットワーク処理部2711から、グラフマイニング処理部2703はパターンマイニング処理部2712、RWR(Random Walk with Restarts)処理部2713から構成されている。なお、グラフマイニングの処理手順はこれらに限らない。
図27のグラフ・ベクトル構成部2701で、GDB102Aからのデータ、及び/乃至統計情報データベース2704からのデータを用いて、入力ノードに関係した部分グラフを抽出し、関連性演算部224での処理から多次元特徴ベクトルを得て、推論エンジン部2702の入力とする。推論エンジン部2702では、知識データベース2705の情報を参考に、確率的推論モデルの1つである決定木法による処理を実行する決定木処理部2710で処理されたり、あるいは、ベイジアンネットワーク構成部2711で処理されたりして、頻出主要部分抽出のためのグラフマイニング処理部2703に送られる。グラフマイニング処理部2703では、パターンマイニング手法やRWR手法をもちいたグラフマイニング処理を行った結果の部分グラフを(図28(C))を生成する。
[ユーザの主観によるフィルター処理]
図28に本発明に係るシステムの一実施形態における特定ユーザフィルター処理部210の構成を示す。当該処理部は3個の要素から構成される。多次元ベクトル構成部2801、主観フィルター構成部2802、及び多次元ベクトル処理部2803である。GDB102Aから取り出され、例えば統計情報処理部209で処理された結果の部分グラフは、多次元ベクトル構成部2801にて多次元ベクトルとして再構成される。ユーザ情報は主観フィルター処理部2802において、ユーザデータベース2804の情報を用いてユーザの主観的評価フィルターを多次元特徴ベクトル(図28(B))として生成する。これら2個の構成部(2801と2802)からの出力の多次元特徴ベクトルが、多次元特徴ベクトル処理部2803で処理され、図28(C)のユーザの主観的評価を反映したノード間のつながりの深さを表した多次元特徴ベクトルとして再構成される。
ユーザデータベース2804からはユーザとリンクのあるノードの評価が数値化されている。当該数値化は、学習によるプロセス、或いはユーザにより直接的に階指定しても良いし、ユーザと当該ノードとの間のリンク数を用いて求めても良い。当該多次元特徴ベクトルの該当ビンの値と当該評価を演算することで、それぞれのユーザの好みに即した重み付け処理が可能である。
また、前記プロセスをより広範なユーザに対応するプレファレンスとして一般化する一手法として、広範なユーザの共通する主観として、次のような要素として表現することも可能である。
これらはユーザデータベース2804に登録可能であると同時に、これら主観が”SUBJECT”として汎用的に適用可能となる。前記主観フィルター構成部2802は上記主観要素を構成する部分グラフから多次元特徴ベクトル(図28(B))を生成する。当該多次元特徴ベクトルの各ビンの値は、上記主観要素を反映した数値として利用可能である。
図29に、前記ユーザ毎に異なる主観性を視覚的に関連性グラフとして表現する事例を示す。図29(A)ではユーザ2901はオブジェクト2902はじめとする6個のオブジェクトが直接的・間接的に繋がっている状態を示している。それぞれの関連性の深さは2次まで表示されている。それぞれのリンク線の太さは関連性の強さを表している。前記に関わる処理を経由することでユーザ2901がオブジェクト2906に特別な関心を持っていることが判れば、当該オブジェクトを強調表示(2908)しても良い。
一方で、図29(B)ではユーザ2911はユーザ2901と類似の関連性グラフを共有しているが、その興味の対象がオブジェクト2902である場合、当該オブジェクトをハイライトや特別な装飾効果を含む視覚効果(2912)を施して表示しても良い。
図28(A)における主観フィルター構成部2802の入力に、代わりにユーザが検索しようとしている時間帯や、日時、季節、時代、場所といった時間軸や位置情報を反映した環境フィルターを構成する多次元ベクトルを用いても良い。
図30に、本発明に係るシステムの他の実施形態における動作例を示す。
図30(A)に示す画像3001に対応したノード3002とグラフ構造3003のメタデータが既に存在していた場合、図30(B)に示すように画像認識エンジン200が上記メタデータの正当性を優先的に比較処理することで図30(A)に示すメタデータのグラフ構造と、図30(B)に示すメタデータのグラフ構造との一致を確認する事が可能となる。これにより、大幅な処理時間の短縮が実現できる。
図31(A)にインタレスト・グラフの一例を示す。図では簡略化の為にノードとしてユーザとオブジェクト(モノ)のみを描いているが、実際には画像からは画像認識システム202によってコンテキストやシーンのようなモノ以外の情報も抽出されているのでインタレスト・グラフの要素になる。
図には、3人のユーザ3101から3103と6個のオブジェクト3110から3115の関係が描かれている。ユーザ3101はオブジェクト3110、3111、3112に興味があり、ユーザ3102はオブジェクト3111、3113、3114に興味があり、ユーザ3103はオブジェクト3110、3111、3113、3115に興味があることが描かれている。
このインタレスト・グラフはGDB102Aのデータからユーザと関連のあるノードであり、グラフ演算部221が抽出したものであり、関連性検索エンジン220におけるグラフ記憶部222に存在している。
上記接続演算子LIKE、切断演算子DISLIKE、参照演算子Reference、非参照演算子UnreferenceによってGDB102Aの情報は時々刻々と変化しているので、この図31(A)のインタレスト・グラフも動的なインタレスト・グラフとして獲得できる。
図31(B)では、ユーザ3102が例えば接続演算子LIKEによってオブジェクト3112と新しい関係(リンク3201)を結んでいる。この様な操作が多くのユーザによって行われ、サーバにおけるオブジェクト3112へのリンク数が変化(図31(B)では1から2に変化した)する。その際に、リンク数に所定の閾値を設定し、それを超えることを、当該ノードに対する着目点の大幅な変化としてとらえ、当該ノード(3112)に関係するノード(3104)にその変化を通知する。例えば、図ではノード3104は広告主を例示しており、広告主に対してオブジェクト3112へのリンク数が閾値を超えて変化したとして通知する事が可能となる。
また、上記通知はオブジェクト3112と直接関係のあるユーザ3101や3102に対して行っても良い。また、上記通知は、広告主による、対象オブジェクト関する購買意欲を喚起する広告やリコメンデーションの提示を可能にするものであっても良い。例えば、図31(B)では、ノード3104が広告主の場合を例示しており、オブジェクト3112(対応画像は3120)に関しての広告をユーザ3101やユーザ3102に通知する事が可能となる。
図32では、ユーザ自身を中心ノードとするインタレスト・グラフを表示する際に、プライバシー保護の観点から当該ユーザのみに限定してインタレスト・グラフを表示する例を示している。図32では、ユーザ3201を中心にインタレスト・グラフが表示されているが、ユーザ3202を中心にしたインタレスト・グラフ(灰色の囲み3210)はユーザ3202のプライバシーに係わることであり、ユーザ3201の観点からは表示されないことが要件となる。これらは、ノードのタイプ”USER”をサーバ側で区別することで表示・非表示を制御できる。
図33に、ソーシャル・グラフ獲得の一実施例を示す。本発明における画像認識エンジン200或いは画像認識システム202を組み込んだ一連の関連性検索エンジン220を利用した視覚的な関連性検索の過程を通じて獲得した包括的なインタレスト・グラフから、特定のユーザにノードのタイプが”USER”である人を表すノードを抜き出して平面3301に写像する事で、人と人との関連性を含むソーシャル・グラフを獲得することができる。
図34にインタレスト・グラフ収集に関するプロセス図の概略を示す。プロセス全体の系は、リアルタイム系とバックグラウンド系とに分かれ、グラフ記憶部222が両者を繋いでいる。バックグラウンド系にはGDB102A、関連性演算部224、統計情報処理部209を配する。リアルタイム系には、画像認識システム202(或いは画像認識エンジン200(不図示))、グラフ演算部221、ネットワーク通信制御部204を配する。ネットワーク通信英魚部204はインターネットを含むネットワークを介してネットワーク端末105に繋がっている。
インタレスト・グラフは、ユーザと一次繋がりのノード群の中から、ユーザとの関連度の大きい順に所定数の要素群を多次元ベクトルを選択抽出し、ユーザ固有の有限長の多次元特徴ベクトルとして求める。
図35はユーザ毎のインタレスト・グラフに対応する多次元特徴ベクトルのイメージである。全てのノードに対応するインタレスト・グラフの総候補次元数は、GDB102Aに登録されている網羅的なノード数のオーダーに達する事から、当該ユーザとの関連性の大きい順に一定数を候補から抽出し、図35で示すように、有限長の多次元特徴ベクトルとしてユーザデータベース2804に収納される。図35(A)では、Aさんの、図35(B)ではBさんの多次元特徴ベクトルを例示している。この2つの多次元特徴ベクトルを相互に比較することで、AさんとBさんが共通に関心を示す対象を検出することができる。例えば、点線円3601と点線円3602には同じ対象物に対する関心のベクトル値が表現されており、これらが共通に大きいことが判明すれば、双方の当該対象物に対するインタレストが似通っていることを知ることができる。
100 インタレスト・グラフ収集システム
101 サーバ
102A グラフデータベース(GDB)
102B マザーデータベース(MDB)
103 接続
104 ネットワーク(あるいはインターネット)
105a〜105d ネットワーク端末装置
106 一般物体認識システム
107 画像カテゴリデータベース
108 シーン認識システム
109 シーン構成要素データベース
110 特定物体認識システム
200 画像認識エンジン
209 統計情報処理部
210 特定ユーザフィルター処理部
220 関連性検索エンジン
221 グラフ演算部
222 グラフ記憶部
223 グラフ管理部
224 関連性演算部

Claims (16)

  1. 1以上の物体(object)及び主題(subject)の少なくとも一方を含む画像情報を入力手段として用いる検索システムを含む、又は当該検索システムに接続されているインタレスト・グラフ収集システムであって、
    ネットワーク上に存在する多数の画像群、及び端末経由でユーザがネットワーク上にアップロードした画像群の少なくとも一方から、前記ユーザが関心を持った画像全体、或いは画像の特定領域を前記ユーザにより端末上で選択され、
    前記選択した画像を、ネットワークを介してサーバ側の画像認識エンジンに問い合わせることにより、前記画像認識エンジンが、前記選択された画像全体、或いは前記特定領域に含まれる様々な一般物体・特定物体・人・顔・シーン・文字・記号・イラストレーション、ロゴ、ファビコンを含む画像構成要素群を抽出及び認識し、
    前記認識された入力画像に含まれる前記画像構成要素群を、前記画像認識エンジンを介してサーバ側の関連性検索エンジンに通知することにより、
    前記関連性検索エンジンが前記画像構成要素群における画像構成要素それぞれに対し、直接的及び間接的に一定以上の関連があると判断したその他の要素群を、関連性検索エンジン内の関連性知識データベースに学習可能な状態で記憶されている要素間の直接関連性を記述した情報を基に抽出し、
    前記画像認識エンジンにより認識された前記画像構成要素群における要素及び前記関連性検索エンジンにより抽出された前記要素群における要素それぞれをノードとする関連性グラフを、前記ノードのそれぞれの間の関連性の深さと共に、前記ユーザの端末に二次元画像、或いは三次元画像、或いは前記関連性グラフの観察時間としての時間軸変数を加えた四次元時空間画像として視覚的に表現し、
    前記画像認識エンジンが提示した複数の画像構成要素群の中から、前記ユーザが選択した特定の画像構成要素、或いは端末に表現されている関連性グラフ上の特定のノードの選択と当該ノードを中心とする領域の拡大操作、或いは前記ユーザによるジェスチャー、視線、音声、及び脳波の少なくとも1つを用いた拡大操作を用いることにより得られた入力を、前記端末を介して前記インタレスト・グラフ収集システムが受け取り、
    前記ノードを中心とするより詳細な関連性グラフを前記ユーザの前記端末に視覚的に表現し、
    それらの一連の操作を前記ノードに対する前記ユーザの一定の関心の存在であるとし、前記ユーザを中心ノードとする各要素間の直接関連性を記述した情報で、前記ノードに係るユーザの関心の深さを表わす値を変更することで、
    前記ユーザを中心ノードとするインタレスト・グラフとして獲得すること、及び、当該インタレスト・グラフを広範なユーザに拡大して獲得することの少なくとも一方により、特定のユーザ、特定のユーザクラスタ、或いはユーザ全体にまたがる統計的なインタレスト・グラフとして収集すること
    を特徴とするインタレスト・グラフ収集システム。
  2. 前記端末に表現されている前記関連性グラフの任意のノードを、前記ユーザがタッチスクリーン上でタップ或いはタッチして選択するか、ポインタのカーソルを任意のノードに移動し選択する操作、
    或いは前記関連性グラフの任意の領域に向けて前記ユーザがタッチスクリーン上でフリックするか、ポインタのカーソルを前記関連性グラフの任意の領域に移動し画面全体をドラグしスクロールする操作、
    或いは方向キーを含む入力キーによる前記選択又は前記スクロールの操作、
    或いは前記ユーザによるジェスチャーや視線、音声、或いは脳波を用いた前記選択又は前記スクロールの操作を用いることにより得られた入力を、前記端末を介して前記インタレスト・グラフ収集システムが受け取り、
    前記選択されたノード、或いは移動後の領域を中心とする新たな関連性グラフを、前記関連性検索エンジンが前記端末に追加的に送ることで、前記ユーザにとって関心のあるノード或いは領域を、前記ユーザが前記関連性グラフをシームレスに辿りながら、複数のノード間にまたがる広範な関連性として視覚的に認識する、
    請求項1に記載のインタレスト・グラフ収集システム。
  3. 前記ユーザが着目し選択したノードを表す画像を、ネットワークを介して前記画像認識エンジンに再び問い合わせることにより、
    前記画像認識エンジンを用いて前記ノードに関する新たな画像構成要素群を獲得し、当該画像構成要素群を起点とする新たな関連要素群を前記関連性検索エンジンから前記端末に送信することで、
    前記ユーザが前記ノードに対する新たな関連性をそれら相互の関連性の深さと共に関連性グラフにおいて視覚的に認識することを可能にした上で、
    直前の同様の操作において前記ノードへの起点となっている画像構成要素から当該ノードに至る一連のノード間の関連性の存在を前記ユーザが認識し利用していることを関連性検索エンジンが推測し、
    各要素間の直接関連性を記述した情報を用いて、前記一連のノード間の関連性を変更することよって、前記関連性検索エンジン内の関連性知識データベースの追加学習をする、請求項1に記載のインタレスト・グラフ収集システム。
  4. 前記画像認識エンジンにより認識可能となった画像構成要素群、及び当該画像構成要素群における画像構成要素それぞれに対応する関連要素群に対し、当該関連要素群のそれぞれを代表する写真、イラストレーション、文字、記号、ロゴ、ファビコンを含む情報から生成した縮小画像サムネイルを前記関連性検索エンジンが元画像に代えて端末に送信することにより、
    前記関連性グラフのノードとして前記サムネイル単位での表示・選択を可能にする、請求項1に記載のインタレスト・グラフ収集システム。
  5. 画像認識プロセスに備わる入力条件選択機能として、関連性探索演算子(Connection Search)を導入して、複数のノードを前記画像認識エンジンに問い合わせ、
    関連性探索プロセスにおいて、複数のノード間の関係を、それぞれの入力ノード群に対し直接的及び間接的に関連するその他のノードを経由する一連の関連性として探索することで、異なるレイヤ(階層)に及ぶノード間の間接的な関係を発見し、
    前記ノード間の最短パスを含む関連性グラフとして端末に表現し、
    前記関連性探索プロセスにおいて、発見された前記間接的な関係を、関連性検索エンジン内の関連性知識データベースに学習可能な状態で追加記憶することで、
    以降の同様或いは類似の関連性探索要求に備える、
    請求項1に記載のインタレスト・グラフ収集システム。
  6. ユーザと間接的な関係にあるノード、或いはユーザとの関連性が低い若しくはないとされているその他のノードに対し、前記ノードを前記ユーザとの直接的な関係として結び付ける接続演算子(LIKE)、及び既に結びつけられているノードとユーザ間の直接的な関係を切断する切断演算子(DISLIKE)を導入することで、
    前記ユーザを中心ノードとする各要素間の直接関連性を記述した情報において、ノードに係るユーザの関心の深さを表わす値を増加、或いは減少、或いは滅消させ、
    前記ユーザを中心ノードとする、個々のユーザに対応したインタレスト・グラフの更新を行う、請求項1に記載のインタレスト・グラフ収集システム。
  7. 複数のノードを対象にした新たな直接的関連性の存在及び非存在の可能性を、前記複数のノードが直接的に結び付けられるべきだとして提起する参照演算子(REFERENCE)、及び既に直接的に結び付いているもののその直接的な関連の存在が疑わしいとして直接的関係の非存在を提起する非参照演算子(UNREFERENCE)を導入することで、
    前記新たな直接関連性の存在或いは非存在の可能性を、前記関連性検索エンジンが広範なユーザ若しくは特定のユーザ群に対し喚起し、
    特定の権限を有するスーパーバイザ或いは一定数以上の他のユーザから関連がある或いはないと判断されたノード群におけるノード間の関連性を表す値を、前記関連性検索エンジンが更新し、
    前記ノード群に係る更新された関連性グラフとして端末に反映すると共に、
    前記新たな直接関連性の存在或いは非存在に係る更新情報を、前記広範なユーザ若しくは前記特定のユーザ群に通知する、
    請求項1に記載のインタレスト・グラフ収集システム。
  8. 前記関連性検索エンジン内に関連性知識データベースとして記憶されている要素間の直接関連性を記述した情報に対し、前記ユーザの主観的な評価が反映される重み付け操作をし、
    前記重み付け操作された情報を基に、各ノード間相互の関連性及び関連性の深さを、前記ユーザの端末上に、前記ユーザが持つ、広範なユーザ若しくは特定のユーザ群との感じ方の違いという要因を反映した関連性グラフとして視覚的に表現する、
    請求項1に記載のインタレスト・グラフ収集システム。
  9. 前記関連性検索エンジン内に関連性知識データベースとして記憶されている要素間の直接関連性を記述した情報に対し、前記ユーザが検索しようとする時間帯や日時、季節、時代、場所を含む環境フィルターを適用し、
    前記環境フィルターが適用された情報を基に、各ノード間相互の関連性及び関連性の深さを、前記ユーザの端末上に、観察時間や地域(Location)特性といった時空間要因を反映した関連性グラフとして視覚的に表現する、
    請求項1に記載のインタレスト・グラフ収集システム。
  10. 複数のユーザによる関連性検索の過程を通じて、複数のノードに対する特定のユーザクラスタ或いはユーザ全体集団に及ぶ視覚的な関心の在り所や関心の遷移が一定以上変化した時点で、前記複数のノードそれぞれに対する着目度の大幅な変化を統計情報化し、
    前記関連性グラフ上で前記複数のノードに直接的に関わるユーザ、或いはユーザクラスタ、或いはユーザ全体、或いは特定の第三者に速やかに通知する、
    請求項1に記載のインタレスト・グラフ収集システム。
  11. 前記インタレスト・グラフを活用して、特定のノードが表わす商品或いはサービスに対し一定以上の関心を示した特定のユーザ或いはユーザ群に対し、前記商品或いは前記サービスへの購買意欲を喚起する広告、リコメンデーションを含む情報の提示、又は当該情報を提供する第三者への繋ぎ込みを行い、
    前記特定のユーザ或いはユーザ群の属性、及び前記特定のユーザ或いはユーザ群の属する時空間要因の少なくとも一方を加味した前記関連性グラフを活用して、前記商品或いは前記サービスと直接的或いは間接的に関連する他の商品或いはサービスに対する広告及びリコメンデーションの少なくとも1つを含む情報の提示、又は当該情報を提供する第三者への繋ぎ込みを行う、
    請求項1に記載のインタレスト・グラフ収集システム。
  12. 前記インタレスト・グラフを活用することにより提示可能になる広告、サービス、或いはリコメンデーションを表わす視覚情報及びリンク情報の少なくとも一方を、対象となるユーザの端末に表現されている関連性グラフ上に、表示/非表示を選択可能な状態で提示する、
    請求項1に記載のインタレスト・グラフ収集システム。
  13. 前記画像認識エンジンを組み込んだ関連性検索の過程を通じて獲得したインタレスト・グラフを活用して、同様の関心を持つ広範なユーザ間のコミュニケーションを、前記関連性検索を通じて喚起し、
    前記インタレスト・グラフに加えて人と人、人と人以外の関係性を包含する、広義の動的なソーシャル・グラフを、ネットワークを介して獲得する、
    請求項1に記載のインタレスト・グラフ収集システム。
  14. 1以上の物体(object)及び主題(subject)の少なくとも一方を含む画像情報を入力手段として用いる検索システムを含む、又は当該検索システムに接続されているサーバであって、
    ネットワーク上に存在する多数の画像群、及び端末経由でユーザがネットワーク上にアップロードした画像群の少なくとも一方から、前記ユーザが関心を持った画像全体、或いは画像の特定領域を前記ユーザにより端末上で選択され、
    前記選択した画像を、ネットワークを介してサーバ側の画像認識エンジンに問い合わせることにより、前記画像認識エンジンが、前記選択された画像全体、或いは前記特定領域に含まれる様々な一般物体・特定物体・人・顔・シーン・文字・記号・イラストレーション、ロゴ、ファビコンを含む画像構成要素群を抽出及び認識し、
    前記認識された入力画像に含まれる前記画像構成要素群を、前記画像認識エンジンを介してサーバ側の関連性検索エンジンに通知することにより、
    前記関連性検索エンジンが前記画像構成要素群における画像構成要素それぞれに対し、直接的及び間接的に一定以上の関連があると判断したその他の要素群を、関連性検索エンジン内の関連性知識データベースに学習可能な状態で記憶されている要素間の直接関連性を記述した情報を基に抽出し、
    前記画像認識エンジンにより認識された前記画像構成要素群における要素及び前記関連性検索エンジンにより抽出された前記要素群における要素それぞれをノードとする関連性グラフを、前記ノードのそれぞれの間の関連性の深さと共に、前記ユーザの端末に二次元画像、或いは三次元画像、或いは前記関連性グラフの観察時間としての時間軸変数を加えた四次元時空間画像として視覚的に表現し、
    前記画像認識エンジンが提示した複数の画像構成要素群の中から、前記ユーザが選択した特定の画像構成要素、或いは端末に表現されている関連性グラフ上の特定のノードの選択と当該ノードを中心とする領域の拡大操作、或いは前記ユーザによるジェスチャー、視線、音声、及び脳波の少なくとも1つを用いた拡大操作を用いることにより得られた入力を、前記端末を介して前記サーバが受け取り、
    前記ノードを中心とするより詳細な関連性グラフを前記ユーザの前記端末に視覚的に表現し、
    それらの一連の操作を前記ノードに対する前記ユーザの一定の関心の存在であるとし、前記ユーザを中心ノードとする各要素間の直接関連性を記述した情報で、前記ノードに係るユーザの関心の深さを表わす値を変更することで、
    前記ユーザを中心ノードとするインタレスト・グラフとして獲得すること、及び、当該インタレスト・グラフを広範なユーザに拡大して獲得することの少なくとも一方により、特定のユーザ、特定のユーザクラスタ、或いはユーザ全体にまたがる統計的なインタレスト・グラフとして収集するよう構成されているサーバ。
  15. 1以上の物体(object)及び主題(subject)の少なくとも一方を含む画像情報を入力手段として用いる検索システムを含む、又は当該検索システムに接続されているサーバに、
    ネットワーク上に存在する多数の画像群、及び端末経由でユーザがネットワーク上にアップロードした画像群の少なくとも一方から、前記ユーザが関心を持った画像全体、或いは画像の特定領域を前記ユーザにより端末上で選択され、
    前記選択した画像を、ネットワークを介してサーバ側の画像認識エンジンに問い合わせることにより、前記画像認識エンジンが、前記選択された画像全体、或いは前記特定領域に含まれる様々な一般物体・特定物体・人・顔・シーン・文字・記号・イラストレーション、ロゴ、ファビコンを含む画像構成要素群を抽出及び認識し、
    前記認識された入力画像に含まれる前記画像構成要素群を、前記画像認識エンジンを介してサーバ側の関連性検索エンジンに通知することにより、
    前記関連性検索エンジンが前記画像構成要素群における画像構成要素それぞれに対し、直接的及び間接的に一定以上の関連があると判断したその他の要素群を、関連性検索エンジン内の関連性知識データベースに学習可能な状態で記憶されている要素間の直接関連性を記述した情報を基に抽出し、
    前記画像認識エンジンにより認識された前記画像構成要素群における要素及び前記関連性検索エンジンにより抽出された前記要素群における要素それぞれをノードとする関連性グラフを、前記ノードのそれぞれの間の関連性の深さと共に、前記ユーザの端末に二次元画像、或いは三次元画像、或いは前記関連性グラフの観察時間としての時間軸変数を加えた四次元時空間画像として視覚的に表現し、
    前記画像認識エンジンが提示した複数の画像構成要素群の中から、前記ユーザが選択した特定の画像構成要素、或いは端末に表現されている関連性グラフ上の特定のノードの選択と当該ノードを中心とする領域の拡大操作、或いは前記ユーザによるジェスチャー、視線、音声、及び脳波の少なくとも1つを用いた拡大操作を用いることにより得られた入力を、前記端末を介して前記サーバが受け取り、
    前記ノードを中心とするより詳細な関連性グラフを前記ユーザの前記端末に視覚的に表現し、
    それらの一連の操作を前記ノードに対する前記ユーザの一定の関心の存在であるとし、前記ユーザを中心ノードとする各要素間の直接関連性を記述した情報で、前記ノードに係るユーザの関心の深さを表わす値を変更することで、
    前記ユーザを中心ノードとするインタレスト・グラフとして獲得すること、及び、当該インタレスト・グラフを広範なユーザに拡大して獲得することの少なくとも一方により、特定のユーザ、特定のユーザクラスタ、或いはユーザ全体にまたがる統計的なインタレスト・グラフとして収集すること
    を実行させるためのコンピュータプログラム。
  16. 請求項15に記載のコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2013521387A 2011-06-23 2011-06-23 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム Active JP5830784B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/064463 WO2012176317A1 (ja) 2011-06-23 2011-06-23 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム

Publications (2)

Publication Number Publication Date
JPWO2012176317A1 JPWO2012176317A1 (ja) 2015-02-23
JP5830784B2 true JP5830784B2 (ja) 2015-12-09

Family

ID=47422192

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013521387A Active JP5830784B2 (ja) 2011-06-23 2011-06-23 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム

Country Status (3)

Country Link
US (1) US9600499B2 (ja)
JP (1) JP5830784B2 (ja)
WO (1) WO2012176317A1 (ja)

Families Citing this family (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013058608A2 (ko) * 2011-10-20 2013-04-25 아주대학교산학협력단 트리맵 가시화 시스템 및 방법
US9054876B1 (en) * 2011-11-04 2015-06-09 Google Inc. Fast efficient vocabulary computation with hashed vocabularies applying hash functions to cluster centroids that determines most frequently used cluster centroid IDs
US10360706B2 (en) * 2012-05-22 2019-07-23 Sony Corporation Device method and program for adjusting a display state of a superimposed image
CN104321802B (zh) * 2012-05-24 2017-04-26 株式会社日立制作所 图像分析装置、图像分析系统、图像分析方法
JP2015531909A (ja) * 2012-07-20 2015-11-05 インタートラスト テクノロジーズ コーポレイション 情報ターゲティングシステムおよび方法
US9124545B2 (en) * 2013-02-14 2015-09-01 Facebook, Inc. Lock screen with socialized applications
CN105027162B (zh) * 2013-02-27 2018-02-02 株式会社日立制作所 图像解析装置、图像解析系统、图像解析方法
EP2973044A2 (en) * 2013-03-15 2016-01-20 James Webber Graph database devices and methods for partitioning graphs
US10740396B2 (en) 2013-05-24 2020-08-11 Sap Se Representing enterprise data in a knowledge graph
US20140351241A1 (en) * 2013-05-24 2014-11-27 Sap Ag Identifying and invoking applications based on data in a knowledge graph
US9158599B2 (en) 2013-06-27 2015-10-13 Sap Se Programming framework for applications
WO2014208575A1 (ja) * 2013-06-28 2014-12-31 日本電気株式会社 映像監視システム、映像処理装置、映像処理方法および映像処理プログラム
JP6220179B2 (ja) * 2013-07-25 2017-10-25 日本放送協会 番組検索装置及び番組検索プログラム
US9348947B2 (en) 2013-07-26 2016-05-24 Helynx, Inc. Systems and methods for visualizing and manipulating graph databases
US10776965B2 (en) * 2013-07-26 2020-09-15 Drisk, Inc. Systems and methods for visualizing and manipulating graph databases
WO2015017868A1 (en) * 2013-08-02 2015-02-05 Emotient Filter and shutter based on image emotion content
US10152495B2 (en) * 2013-08-19 2018-12-11 Qualcomm Incorporated Visual search in real world using optical see-through head mounted display with augmented reality and user interaction tracking
AU2014321165B2 (en) * 2013-09-11 2020-04-09 See-Out Pty Ltd Image searching method and apparatus
KR102120864B1 (ko) 2013-11-06 2020-06-10 삼성전자주식회사 영상 처리 방법 및 장치
TWI536186B (zh) 2013-12-12 2016-06-01 三緯國際立體列印科技股份有限公司 三維圖檔搜尋方法與三維圖檔搜尋系統
US10885095B2 (en) * 2014-03-17 2021-01-05 Verizon Media Inc. Personalized criteria-based media organization
JP5926755B2 (ja) * 2014-03-19 2016-05-25 国立大学法人京都大学 関係性グラフ用オブジェクト表示システム
JP6320112B2 (ja) 2014-03-27 2018-05-09 キヤノン株式会社 情報処理装置、情報処理方法
JP6558364B2 (ja) 2014-05-22 2019-08-14 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US10091411B2 (en) * 2014-06-17 2018-10-02 Lg Electronics Inc. Mobile terminal and controlling method thereof for continuously tracking object included in video
US20160203137A1 (en) * 2014-12-17 2016-07-14 InSnap, Inc. Imputing knowledge graph attributes to digital multimedia based on image and video metadata
WO2016103651A1 (ja) * 2014-12-22 2016-06-30 日本電気株式会社 情報処理システム、情報処理方法、及び、記録媒体
US20160292247A1 (en) * 2015-03-31 2016-10-06 Kenneth Scott Kaufman Method of retrieving categorical data entries through an interactive graphical abstraction
KR101713197B1 (ko) * 2015-04-01 2017-03-09 주식회사 씨케이앤비 서버 컴퓨팅 장치 및 이를 이용한 콘텐츠 인식 기반의 영상 검색 시스템
US10078651B2 (en) * 2015-04-27 2018-09-18 Rovi Guides, Inc. Systems and methods for updating a knowledge graph through user input
US10402446B2 (en) 2015-04-29 2019-09-03 Microsoft Licensing Technology, LLC Image entity recognition and response
JP2016218950A (ja) * 2015-05-26 2016-12-22 株式会社神戸デジタル・ラボ インタレスト情報生成システム
US9934327B2 (en) 2015-06-01 2018-04-03 International Business Machines Corporation Mining relevant approximate subgraphs from multigraphs
US20160357366A1 (en) * 2015-06-07 2016-12-08 Apple Inc. Navigating Through Documents in a Document Viewing Application
KR20170004450A (ko) * 2015-07-02 2017-01-11 엘지전자 주식회사 이동단말기 및 그 제어방법
US9396400B1 (en) * 2015-07-30 2016-07-19 Snitch, Inc. Computer-vision based security system using a depth camera
US11048779B2 (en) 2015-08-17 2021-06-29 Adobe Inc. Content creation, fingerprints, and watermarks
US10878021B2 (en) 2015-08-17 2020-12-29 Adobe Inc. Content search and geographical considerations
US10475098B2 (en) 2015-08-17 2019-11-12 Adobe Inc. Content creation suggestions using keywords, similarity, and social networks
US9881226B1 (en) * 2015-09-24 2018-01-30 Amazon Technologies, Inc. Object relation builder
EP3357019A4 (en) * 2015-09-30 2019-03-27 The Nielsen Company (US), LLC. INTERACTIVE EXAMINATION OF PRODUCTS WITH A MOBILE DEVICE
CN105354550B (zh) * 2015-11-03 2018-09-28 华东师范大学 一种基于图像局部特征点配准的表单内容提取方法
US10956948B2 (en) * 2015-11-09 2021-03-23 Anupam Madiratta System and method for hotel discovery and generating generalized reviews
CN106779791B (zh) * 2015-11-25 2021-01-15 阿里巴巴集团控股有限公司 一种搭配对象图片组合的生成方法及装置
US10872114B2 (en) * 2015-12-17 2020-12-22 Hitachi, Ltd. Image processing device, image retrieval interface display device, and method for displaying image retrieval interface
JP2017117335A (ja) * 2015-12-25 2017-06-29 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
US10185755B2 (en) * 2015-12-28 2019-01-22 Business Objects Software Limited Orchestration of data query processing in a database system
US20170249325A1 (en) * 2016-02-26 2017-08-31 Microsoft Technology Licensing, Llc Proactive favorite leisure interest identification for personalized experiences
US10049267B2 (en) 2016-02-29 2018-08-14 Toyota Jidosha Kabushiki Kaisha Autonomous human-centric place recognition
US10452874B2 (en) 2016-03-04 2019-10-22 Disney Enterprises, Inc. System and method for identifying and tagging assets within an AV file
JP6645879B2 (ja) * 2016-03-16 2020-02-14 株式会社東芝 関係可視化装置、方法およびプログラム
US10783382B2 (en) * 2016-04-06 2020-09-22 Semiconductor Components Industries, Llc Systems and methods for buffer-free lane detection
US10740385B1 (en) * 2016-04-21 2020-08-11 Shutterstock, Inc. Identifying visual portions of visual media files responsive to search queries
US20170337293A1 (en) * 2016-05-18 2017-11-23 Sisense Ltd. System and method of rendering multi-variant graphs
US11550455B2 (en) * 2016-06-07 2023-01-10 Palo Alto Research Center Incorporated Localized visual graph filters for complex graph queries
US10339708B2 (en) * 2016-11-01 2019-07-02 Google Inc. Map summarization and localization
EP3491504A4 (en) * 2016-11-16 2019-07-17 Samsung Electronics Co., Ltd. IMAGE MANAGEMENT PROCESS AND DEVICE THEREFOR
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN110192386B (zh) * 2017-01-31 2021-06-11 株式会社Ntt都科摩 信息处理设备和信息处理方法
JP6811645B2 (ja) * 2017-02-28 2021-01-13 株式会社日立製作所 画像検索装置及び画像検索方法
US10394987B2 (en) 2017-03-21 2019-08-27 International Business Machines Corporation Adaptive bug-search depth for simple and deep counterexamples
US20180339730A1 (en) * 2017-05-26 2018-11-29 Dura Operating, Llc Method and system for generating a wide-area perception scene graph
GB201709845D0 (en) * 2017-06-20 2017-08-02 Nchain Holdings Ltd Computer-implemented system and method
US10572743B1 (en) * 2017-08-28 2020-02-25 Ambarella, Inc. Real-time color classification for street vehicles
JP7006059B2 (ja) * 2017-09-12 2022-01-24 凸版印刷株式会社 画像処理装置、画像処理方法、及びプログラム
JP7104779B2 (ja) * 2017-09-15 2022-07-21 達闥科技(北京)有限公司 対象認識方法、装置及びインテリジェント端末
KR102599947B1 (ko) * 2017-10-27 2023-11-09 삼성전자주식회사 관련 이미지를 검색하기 위한 전자 장치 및 이의 제어 방법
JP6989450B2 (ja) * 2018-06-21 2022-01-05 株式会社東芝 画像解析装置、画像解析方法及びプログラム
JP7131195B2 (ja) * 2018-08-14 2022-09-06 日本電信電話株式会社 物体認識装置、物体認識学習装置、方法、及びプログラム
US11436215B2 (en) 2018-08-20 2022-09-06 Samsung Electronics Co., Ltd. Server and control method thereof
US11507099B2 (en) 2018-09-10 2022-11-22 Drisk, Inc. Systems and methods for graph-based AI training
WO2020054067A1 (ja) * 2018-09-14 2020-03-19 三菱電機株式会社 画像情報処理装置、画像情報処理方法、及び画像情報処理プログラム
RU2707710C1 (ru) * 2018-10-13 2019-11-28 Анатолий Васильевич Попов Способ выделения вектора признаков для распознавания изображений объектов
US11205050B2 (en) * 2018-11-02 2021-12-21 Oracle International Corporation Learning property graph representations edge-by-edge
US10896493B2 (en) * 2018-11-13 2021-01-19 Adobe Inc. Intelligent identification of replacement regions for mixing and replacing of persons in group portraits
CN111382628B (zh) * 2018-12-28 2023-05-16 成都云天励飞技术有限公司 同行判定方法及装置
JP7272626B2 (ja) * 2019-01-09 2023-05-12 i-PRO株式会社 照合システム、照合方法およびカメラ装置
US11755925B2 (en) * 2019-03-13 2023-09-12 Fair Isaac Corporation Computer-implemented decision management systems and methods
US11720621B2 (en) * 2019-03-18 2023-08-08 Apple Inc. Systems and methods for naming objects based on object content
US10853983B2 (en) * 2019-04-22 2020-12-01 Adobe Inc. Suggestions to enrich digital artwork
US11107098B2 (en) 2019-05-23 2021-08-31 Content Aware, Llc System and method for content recognition and data categorization
US11861863B2 (en) * 2019-06-17 2024-01-02 Faro Technologies, Inc. Shape dependent model identification in point clouds
JP7155074B2 (ja) * 2019-07-03 2022-10-18 富士フイルム株式会社 情報提案システム、情報提案方法、プログラムおよび記録媒体
CN110795569B (zh) 2019-10-08 2021-06-15 北京百度网讯科技有限公司 知识图谱的向量表示生成方法、装置及设备
US11475065B2 (en) * 2019-10-29 2022-10-18 Neo4J Sweden Ab Pre-emptive graph search for guided natural language interactions with connected data systems
CN111582152A (zh) * 2020-05-07 2020-08-25 微特技术有限公司 一种识别图像中复杂事件的方法及系统
JP7428271B2 (ja) 2020-06-18 2024-02-06 日本電気株式会社 少なくとも1人の潜在的対象とターゲット対象とを適応的に表示する方法及び装置
CN111967467B (zh) * 2020-07-24 2022-10-04 北京航空航天大学 图像目标检测方法、装置、电子设备和计算机可读介质
US20220092105A1 (en) * 2020-09-18 2022-03-24 Google Llc Intelligent Systems and Methods for Visual Search Queries
CN117610105B (zh) * 2023-12-07 2024-06-07 上海烜翊科技有限公司 一种面向系统设计结果自动生成的模型视图结构设计方法

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6038333A (en) * 1998-03-16 2000-03-14 Hewlett-Packard Company Person identifier and management system
EP1129417A4 (en) * 1998-12-04 2004-06-30 Technology Enabling Company Ll DATA ORGANIZATION SYSTEMS AND METHODS
GB2375212B (en) * 1999-04-29 2003-06-11 Mitsubishi Electric Inf Tech Method and apparatus for searching for an object using shape
US6598043B1 (en) * 1999-10-04 2003-07-22 Jarg Corporation Classification of information sources using graph structures
KR100353798B1 (ko) * 1999-12-01 2002-09-26 주식회사 코난테크놀로지 영상 객체 모양 정보 추출 방법 및 그를 이용한 내용기반 이미지 검색 시스템 및 그 방법
JP2001222586A (ja) * 2000-02-09 2001-08-17 Sony Corp オンラインショッピング装置、オンラインショピング方法とそのシステムおよびその端末装置
US6691126B1 (en) * 2000-06-14 2004-02-10 International Business Machines Corporation Method and apparatus for locating multi-region objects in an image or video database
WO2002008948A2 (en) * 2000-07-24 2002-01-31 Vivcom, Inc. System and method for indexing, searching, identifying, and editing portions of electronic multimedia files
TW501035B (en) * 2001-03-20 2002-09-01 Ulead Systems Inc Interactive image searching method based on local object
US7773800B2 (en) * 2001-06-06 2010-08-10 Ying Liu Attrasoft image retrieval
US7512612B1 (en) * 2002-08-08 2009-03-31 Spoke Software Selecting an optimal path through a relationship graph
US7788260B2 (en) * 2004-06-14 2010-08-31 Facebook, Inc. Ranking search results based on the frequency of clicks on the search results by members of a social network who are within a predetermined degree of separation
US7672911B2 (en) * 2004-08-14 2010-03-02 Hrl Laboratories, Llc Graph-based cognitive swarms for object group recognition in a 3N or greater-dimensional solution space
EP1916957A1 (en) * 2005-08-09 2008-05-07 Koninklijke Philips Electronics N.V. System and method for spatially enhancing structures in noisy images with blind de-convolution
JP2007264718A (ja) * 2006-03-27 2007-10-11 Yafoo Japan Corp ユーザ興味分析装置、方法、プログラム
US8085995B2 (en) * 2006-12-01 2011-12-27 Google Inc. Identifying images using face recognition
US8719105B2 (en) * 2007-02-01 2014-05-06 7 Billion People, Inc. Dynamic reconfiguration of web pages based on user behavioral portrait
JP2010525431A (ja) * 2007-04-19 2010-07-22 ディー−ウェイブ システムズ,インコーポレイテッド 自動画像認識用のシステム、方法、および装置
EP2147392A1 (en) * 2007-05-08 2010-01-27 Eidgenössische Technische Zürich Method and system for image-based information retrieval
JP5154975B2 (ja) 2008-02-26 2013-02-27 日本電信電話株式会社 興味体系グラフ形成装置、興味体系グラフ形成方法、および、興味体系グラフ形成プログラム
US8364528B2 (en) * 2008-05-06 2013-01-29 Richrelevance, Inc. System and process for improving product recommendations for use in providing personalized advertisements to retail customers
US8417698B2 (en) * 2008-05-06 2013-04-09 Yellowpages.Com Llc Systems and methods to provide search based on social graphs and affinity groups
US8386486B2 (en) * 2008-07-02 2013-02-26 Palo Alto Research Center Incorporated Method for facilitating social networking based on fashion-related information
US8145521B2 (en) * 2008-07-15 2012-03-27 Google Inc. Geographic and keyword context in embedded applications
WO2010006367A1 (en) * 2008-07-16 2010-01-21 Imprezzeo Pty Ltd Facial image recognition and retrieval
US8972410B2 (en) * 2008-07-30 2015-03-03 Hewlett-Packard Development Company, L.P. Identifying related objects in a computer database
US8391615B2 (en) * 2008-12-02 2013-03-05 Intel Corporation Image recognition algorithm, method of identifying a target image using same, and method of selecting data for transmission to a portable electronic device
US8320617B2 (en) 2009-03-27 2012-11-27 Utc Fire & Security Americas Corporation, Inc. System, method and program product for camera-based discovery of social networks
JP5199939B2 (ja) * 2009-04-15 2013-05-15 ヤフー株式会社 画像検索装置、画像検索方法及びプログラム
US20110145327A1 (en) * 2009-06-19 2011-06-16 Moment Usa, Inc. Systems and methods of contextualizing and linking media items
US9135277B2 (en) * 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
US8670597B2 (en) * 2009-08-07 2014-03-11 Google Inc. Facial recognition with social network aiding
US8781231B1 (en) * 2009-08-25 2014-07-15 Google Inc. Content-based image ranking
KR101657565B1 (ko) * 2010-04-21 2016-09-19 엘지전자 주식회사 증강 원격제어장치 및 그 동작 방법
US8818049B2 (en) * 2011-05-18 2014-08-26 Google Inc. Retrieving contact information based on image recognition searches

Also Published As

Publication number Publication date
JPWO2012176317A1 (ja) 2015-02-23
US9600499B2 (en) 2017-03-21
US20140149376A1 (en) 2014-05-29
WO2012176317A1 (ja) 2012-12-27

Similar Documents

Publication Publication Date Title
JP5830784B2 (ja) 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム
KR101768521B1 (ko) 이미지에 포함된 객체에 대한 정보 데이터를 제공하는 방법 및 시스템
Liu et al. Classifying urban land use by integrating remote sensing and social media data
US8837831B2 (en) Method and system for managing digital photos
US7917514B2 (en) Visual and multi-dimensional search
US9563623B2 (en) Method and apparatus for correlating and viewing disparate data
US11036790B1 (en) Identifying visual portions of visual media files responsive to visual portions of media files submitted as search queries
US20080005091A1 (en) Visual and multi-dimensional search
CN113939813A (zh) 生成和应用针对图像的对象级关系索引
CN106255968A (zh) 自然语言图像搜索
CN111125422A (zh) 一种图像分类方法、装置、电子设备及存储介质
US10740385B1 (en) Identifying visual portions of visual media files responsive to search queries
JP6787831B2 (ja) 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法
CN114329069A (zh) 视觉搜索查询的智能系统和方法
Maihami et al. Automatic image annotation using community detection in neighbor images
Ma et al. An application of metadata-based image retrieval system for facility management
JP6173754B2 (ja) 画像検索システム、画像検索装置および画像検索方法
Khanwalkar et al. Exploration of large image corpuses in virtual reality
US20220198771A1 (en) Discovery, Management And Processing Of Virtual Real Estate Content
Kitamura et al. Tourist spot recommendation applying generic object recognition with travel photos
Lei et al. A new clothing image retrieval algorithm based on sketch component segmentation in mobile visual sensors
Guo et al. Object discovery in high-resolution remote sensing images: a semantic perspective
Shekhar et al. An object centric image retrieval framework using multi-agent model for retrieving non-redundant web images
US10783398B1 (en) Image editor including localized editing based on generative adversarial networks
CN114489434A (zh) 一种显示方法、显示装置及计算机存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150902

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151002

R150 Certificate of patent or registration of utility model

Ref document number: 5830784

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150