JP6314071B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP6314071B2
JP6314071B2 JP2014206556A JP2014206556A JP6314071B2 JP 6314071 B2 JP6314071 B2 JP 6314071B2 JP 2014206556 A JP2014206556 A JP 2014206556A JP 2014206556 A JP2014206556 A JP 2014206556A JP 6314071 B2 JP6314071 B2 JP 6314071B2
Authority
JP
Japan
Prior art keywords
image
index
document
similarity
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014206556A
Other languages
English (en)
Other versions
JP2016076115A (ja
Inventor
俊樹 酒井
俊樹 酒井
隼 赤塚
隼 赤塚
杉村 利明
利明 杉村
吉村 健
健 吉村
大我 吉田
大我 吉田
島村 潤
潤 島村
行信 谷口
行信 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Nippon Telegraph and Telephone Corp
Original Assignee
NTT Docomo Inc
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc, Nippon Telegraph and Telephone Corp filed Critical NTT Docomo Inc
Priority to JP2014206556A priority Critical patent/JP6314071B2/ja
Publication of JP2016076115A publication Critical patent/JP2016076115A/ja
Application granted granted Critical
Publication of JP6314071B2 publication Critical patent/JP6314071B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ユーザが指定した文字列に関連する画像を収集する技術に関するものである。
ユーザが指定した文字列に関連する画像を収集する技術が知られている。例えば、その文字列を検索キーとして画像に対応付けられたタグと比較することで、検索キーに関連する画像を検索して収集する技術や、画像が掲載されているWebページのテキスト情報と検索キーとを比較することで、検索キーに関連する画像を検索して収集する技術が知られている。このような技術を用いて提供されている画像検索サービスとして、"Google(登録商標)画像検索"や"Yahoo!(登録商標)検索(画像)"などが知られている。
また、画像を検索キーとしてこれに類似する画像を検索して収集する技術が知られている。画像の類似度を算出する手法として、特許文献1及び非特許文献1で開示されているSIFT(Scale Invariant Feature Transform)に代表される、画像の局所特徴量に基づいた類似度算出手法が知られている。この方法では、画像から局所的に特徴的になっている特徴点(エッジやコーナーなど)を1つ以上抽出し、その抽出された特徴点のそれぞれに関して、特徴点の周辺の特徴を記述した特徴量(例えば勾配の方向のヒストグラムや周辺画素間の輝度値の差など)を算出する。また、特許文献2には、BoF(Bag of Features)法と呼ばれる、画像の局所特徴量を簡略化した特徴を用いて、画像検索を行う技術が開示されている。
また、非特許文献1では、ある物体が写っている画像と画像群とを比較し、同じ物体が写っている画像を画像群から抽出する技術が開示されている。この技術では、物体が写っている画像と画像群の各画像の間で、幾何拘束の条件に基づいて局所特徴量の対応関係を取得し、その対応関係の確からしさに基づいて、同じ物体が写っている画像を抽出する。
米国特許第6711293号明細書 特開2011−113197号公報
avid G. Lowe著、「Distinctive image features from scale-invariant keypoints」、(米国)、International Journal of Computer Vision、60(2)、2004年、p. 91-110
上記の技術は、目当ての物体が表された画像をユーザが収集したい場合に用いられることがある。その場合、ユーザは、その物体の名称を表す文字列を検索キーとして指定することで、目当ての物体が表された画像の収集を試みる。しかし、検索キーと画像に対応付けられているテキスト情報とを比較する技術では、テキスト情報と検索キーが類似していれば、画像の内容にかかわらず検索されるため、目当ての物体が表されていない画像も収集されやすい。また、画像に対応付けられたタグを用いて画像を検索する技術では、タグが付いていない画像は収集できない。また、検索キーとして画像を用いる技術では、その画像に目当ての物体が表されていなければ、その物体が表された画像を収集することが難しい。
そこで本発明は、ユーザが指定した文字列を名称とする物体が表された画像をより高い精度で収集することを目的とする。
上記目的を達成するために、本発明は、ユーザが指定した文字列に基づく検索で得られた当該文字列に関連する画像と、当該画像に対応付けられた文書との組を複数取得する取得手段と、取得された前記画像に対応付けられた前記文書の特徴に基づいて当該画像に前記文字列を名称とする物体が表されている可能性の高さを表す第1の指標を算出する第1算出手段と、取得された複数の前記画像を画像同士の類似度に基づいて1以上のグループに分類する分類手段と、分類された前記グループに属する画像について算出された前記第1の指標に基づいて、前記物体が表されている画像が当該グループに含まれている可能性の高さを表す第2の指標を算出する第2算出手段と、分類された前記グループのうち算出された前記第2の指標が比較的大きい前記グループのそれぞれについて、当該グループに属する画像のうち前記名称の物体が表されている可能性が比較的高い画像を抽出する画像抽出手段とを備える情報処理装置を提供する。
また、前記第1算出手段は、取得された前記文書のテキスト情報または当該文書のメタ情報を用いて前記第1の指標を算出してもよい。
さらに、前記第1算出手段は、前記文書のテキスト情報を用いる場合、あらかじめ作成された単語リストに含まれる単語の当該テキスト情報内での出現頻度に基づいて前記第1の指標を算出してもよい。
また、前記単語リストは、前記取得手段により取得された文書において出現する頻度が閾値以上である単語のリストまたは当該文書においてTFIDF(term frequency-inverse document frequency)値が閾値以上である単語のリストであってもよい。
また、前記画像及び文書は、インターネット上で公開されている画像及び当該画像が掲載されているWebページのHTMLファイルであり、前記第1算出手段は、前記文書のメタ情報を用いる場合、前記文字列に関連する画像及び当該画像に対応付けられた文書の前記検索における順位、当該画像及び当該文書のURL(Uniform Resource Locator)、当該画像のファイル名、当該文書に特定の単語が含まれているか否かを示す指標、または、当該文書の所定の位置に前記文字列が含まれているか否かを示す指標に基づいて前記第1の指標を算出してもよい。
また、前記分類手段は、取得された前記画像の局所特徴点の局所特徴量の類似度、当該画像の色ヒストグラムの類似度、当該画像のエッジヒストグラムの類似度、または、これらの類似度のうちの2以上を結合したものを、前記画像同士の類似度として用いてもよい。
さらに、前記分類手段は、前記局所特徴量の類似度を用いる場合、取得された前記画像同士の局所特徴点の対応関係から、当該画像同士の幾何的な対応関係を求め、当該幾何的な対応関係を求めるために使用した特徴点の数に基づいて当該局所特徴量の類似度を算出してもよい。
また、前記画像抽出手段は、分類された前記グループに属する画像の当該グループ内での代表度であって、当該画像と当該グループに属する他の画像との類似度の和によって表される代表度に基づいて画像を抽出してもよい。
さらに、前記画像抽出手段は、前記第1の指標が閾値未満の画像、分類された前記グループに属する画像の当該グループ内での代表度であって、当該画像と当該グループに属する他の画像との類似度の和によって表される代表度が閾値未満の画像、または、当該第1の指標及び当該代表度がどちらも閾値未満の画像を、抽出対象から除外してもよい。
また、前記画像抽出手段は、前記第2の指標が閾値以上である前記グループに属する画像から、前記第1の指標が比較的大きい画像、分類された前記グループに属する第1画像と当該グループに属する他の画像である第2画像との類似度の和によって表される当該第1画像の当該グループ内での代表度が比較的大きい画像、または、当該第1の指標及び当該代表度の両方が比較的大きい画像を抽出してもよい。
また、本発明は、情報処理装置が、ユーザが指定した文字列に基づく検索で得られた当該文字列に関連する画像と、当該画像に対応付けられた文書との組を複数取得する取得ステップと、前記情報処理装置が、取得された前記画像に対応付けられた前記文書の特徴に基づいて当該画像に前記文字列を名称とする物体が表されている可能性の高さを表す第1の指標を算出する第1算出ステップと、前記情報処理装置が、取得された複数の前記画像を画像同士の類似度に基づいて1以上のグループに分類する分類ステップと、前記情報処理装置が、分類された前記グループに属する画像について算出された前記第1の指標に基づいて、前記物体が表されている画像が当該グループに含まれている可能性の高さを表す第2の指標を算出する第2算出ステップと、前記情報処理装置が、分類された前記グループのうち算出された前記第2の指標が比較的大きい前記グループのそれぞれについて、当該グループに属する画像のうち前記名称の物体が表されている可能性が比較的高い画像を抽出する画像抽出ステップとを備える情報処理方法を提供する。
また、本発明は、コンピュータを、上記の情報処理装置が備える各手段として機能させるためのプログラムを提供する。
本発明によれば、ユーザが指定した文字列を名称とする物体が表された画像をより高い精度で収集することができる。
画像収集システムの全体構成を表す図 画像収集装置の機能構成を表す図 記憶部におけるディレクトリ構造の一例を表す図 クローリング結果ファイルのテーブル構造の一例を表す図 画像スコア算出手段の機能構成の詳細を表す図 画像クラスタリング手段の機能構成の詳細を表す図 画像抽出手段の機能構成の詳細を表す図 画像収集装置の動作を表すフロー図
[1]実施形態
[1−1]全体構成
図1は実施形態に係る画像収集システム1の全体構成を表す。画像収集システム1は、ユーザが目当ての画像を収集するためのシステムである。ここでいう目当ての画像には、少なくとも、ユーザが見てみたいと考える物体(乗り物や食べ物、身の回りの物など)が表された画像が含まれる。
画像収集システム1では、ユーザは、その物体の名称を表す文字列を指定することで、指定した文字列(以下「指定文字列」という)を名称とする物体を表す画像の収集を試みる。この画像はユーザが収集の目的とする物体が表された画像であり、以下では「目的物画像」という。目的物画像には、その物体の全体が表されているものだけでなく、その一部が表されているものも含まれる。また、目的物画像には、その物体をカメラ等で撮影した写真の他、人がその物体を描いた絵をスキャナ等で読み取った画像や、コンピュータのプログラムを使ってその物体が描画された画像なども含まれる。
画像収集システム1は、画像収集装置10と、インターネット2と、画像検索サービス3とを備える。インターネット2は、TCP(Transmission Control Protocol)/IP(Internet Protocol)などのプロトコルに基づき装置間の通信を仲介するシステムである。インターネット2上では、例えばWebページに掲載するという形で様々な画像が公開されている。また、インターネット2では、それに接続する装置に対して様々なサービスが提供されている。
画像検索サービス3は、そのようなサービスの1つであり、インターネット2上で公開されている画像やWebページから、ユーザが指定した指定文字列に関連する画像及びその画像が掲載されたWebページを検索し、その検索結果をユーザに提供するサービスである。画像検索サービス3としては、例えば、”Google(登録商標)画像検索”や、”Yahoo(登録商標)検索(画像)”などが知られている。これらの画像検索サービス3では、例えば各サービスの事業者が所有するアルゴリズムにより指定文字列と公開されている画像との関連の度合い(以下「関連度」という)を求め、関連度が大きいものから順番に検索結果として提供するが、提供された検索結果の全てが目的物画像であるとは限らない。
なお、これらの画像検索サービス3は、画像収集装置10を提供する提供者とは別のサービス事業者が提供することが多いが、その提供者が提供するサービスであってもよい。また、画像検索サービス3の代わりに、例えば画像収集装置10を提供する提供者が同様の検索を行う画像検索装置を本システム専用に設置し、その画像検索装置によって画像の検索が行われてもよい。
画像収集装置10は、ユーザによる文字列の指定を受け付け、画像検索サービス3による検索を活用しつつ、その検索結果よりも高い精度で目的物画像を収集するための装置である。画像収集装置10は、例えばスマートフォンやタブレット端末、パーソナルコンピュータなどである。画像収集装置10は、操作部11と、表示部12と、制御部13と、通信部14と、記憶部15とを備える。操作部11は、タッチセンサ等を有し、例えばユーザが文字列を指定する操作を受け付ける。表示部12は、液晶ディスプレイ等を有し、制御部13からの制御に基づいて画像を表示する。
制御部13は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)及びリアルタイムクロックを備え、CPUが、RAMをワークエリアとして用いてROMや記憶部15に記憶されたプログラムを実行することによって各部の動作を制御する。リアルタイムクロックは、現在の日時を算出してCPUに通知する。通信部14は、有線(無線でもよい)での通信を行うための通信回路を有し、インターネット2を介した通信を行う。記憶部15は、フラッシュメモリ等を有し、制御部13が制御に用いるデータやOS(Operating System:基本ソフトウェア)等のプログラムを記憶する。
[1−2]機能構成
画像収集装置10の制御部13がプログラムを実行して各部を制御することで、以下に述べる各機能が実現される。
図2は画像収集装置10の機能構成を表す。画像収集装置10は、クローリング手段101と、画像スコア算出手段102と、画像クラスタリング手段103と、クラスタスコア算出手段104と、画像抽出手段105と、画像出力手段106とを備える。各手段の詳細について以下に説明する。
[1−2−1]クローリング手段
クローリング手段101は、指定文字列(ユーザが指定した文字列)に基づく検索で得られたその指定文字列に関連する画像(以下「関連画像」という)と、その関連画像に対応付けられた文書(以下「関連文書」という)との組を複数取得する取得手段の一例である。クローリング手段101は、例えば、ユーザが操作部11を操作して文字列を指定すると、指定された指定文字列に関連する画像(すなわち関連画像)を画像検索サービス3に要求する。
画像検索サービス3は、その検索結果として関連画像及びWebページを示すデータを画像収集装置10に送信してくる。このデータは、例えば、関連画像のサムネイル画像と、その関連画像及びWebページのURL(Uniform Resource Locator)とを示すデータである。クローリング手段101は、検索における順位の上位N(Nは例えば操作部11の操作で指定される自然数)件について、そのデータが示すURLに記憶されている関連画像を示す画像データとWebページのHTML(HyperText Markup Language)ファイルデータとを取得して記憶部15に保存する。
検索結果として提供されるWebページは、同じく検索結果として提供される関連画像を掲載したページであり、HTML形式の文書(HTMLファイルデータが示す文書)により表される。このHTML文書内では、関連画像へのハイパーリンクが記述されている。つまり、Webページは、関連画像と対応付けられた文書、すなわち前述した関連文書の一例である。このように、クローリング手段101は、インターネット2で公開されている画像及びそれに対応付けられた文書(例えばWebページ)を示すデータ群から、画像データ及びHTMLファイルデータを検索結果に基づいて取得することで、関連画像及び関連文書を取得する。
クローリング手段101は、クローリングの結果として関連画像及び関連文書を取得すると、クローリング結果ファイルを作成して記憶部15に保存する。クローリング結果ファイルは、画像データ及びHTMLファイルデータの取得結果をまとめて示すファイルである。このクローリング結果ファイルでは、各種の情報がテーブル構造で示されている。
図3はクローリング結果ファイルのテーブル構造の一例を表す。この例では、処理ID(Identifier)31、指定文字列32、検索結果ID33、画像データのパス34、HTMLファイルデータのパス35、検索順位36、画像データのURL37及びHTMLファイルデータのURL38が互いに対応付けられて1つのレコードとして記録されたテーブル構造になっている。処理ID31は、ユーザにより指定された指定文字列に付与されるIDである。指定文字列が受け付けられてから目的物画像が収集されるまでは、一貫して同じIDが用いられる。指定文字列32は処理ID31に対応する指定文字列である。
検索結果ID33は、クローリングで取得された画像データ及びHTMLファイルデータの組を、処理ID内で識別するためのIDであり、同一処理ID31の各レコードで重複しないように付与される。画像データのパス34及びHTMLファイルデータのパス35は、検索結果ID33に対応する画像データ及びHTMLファイルデータの、記憶部15上での保存場所へのパスである。検索順位36は、検索結果ID33に対応する検索結果について定められた前述した検索の順位(例えば指定文字列との関連度が大きいものから順番に定められる順位)である。
クローリング手段101は、画像データ、HTMLファイルデータ及びクローリング結果ファイルを、例えば図4に示すようなディレクトリ構造で記憶部15に保存する。
図4はディレクトリ構造の一例を表す。この例では、「上位ディレクトリ」の下位に「処理IDに対応するディレクトリ」が存在し、その下位には「画像ディレクトリ」及び「HTMLディレクトリ」が存在する。「画像ディレクトリ」には複数の画像データ41(この例では「画像データ1−1」、「画像データ1−2」、・・・、「画像データ1−N」)が保存されている。「HTMLディレクトリ」には複数のHTMLファイルデータ42(この例では「HTMLファイルデータ1−1」、「HTMLファイルデータ1−2」、・・・、「画HTMLファイルデータ1−N」)が保存されている。また、「処理IDに対応するディレクトリ」には、クローリング結果ファイル43が保存されている。
[1−2−2]画像スコア算出手段
画像スコア算出手段102は、取得された関連画像を評価するための指標である画像スコアを算出する。画像スコア算出手段102は、取得された関連画像に対応付けられた文書の特徴に基づいてその関連画像に指定文字列を名称とする物体が表されている可能性の高さを表す指標(以下「第1の指標」という)を、画像スコアとして算出する。第1の指標は、例えば0から1まで(または0%から100%まで)の確率を表す数値で表される。
なお、第1の指標は、このように確率を表す際によく用いられる値以外にも、例えば1点からN点(Nは2以上の整数)までの得点で表されてもよい。また、「小」、「中」、「大」や「×」、「△」、「○」といった可能性の高さの大小関係を相対的に表した文字や記号などで第1の指標が表されてもよい(例えばこれらの文字や記号は、25%未満は「小」、25%以上75%未満は「中」、75%以上は「大」というように、可能性の高さを表す数値に対応付けられていてもよい)。この第1の指標を算出する画像スコア算出手段102は、本発明の「第1算出手段」の一例である。
前述したように、関連画像、すなわち指定文字列に基づく検索で得られた画像は、必ずしも目的物画像、すなわちその指定文字列を名称とする物体が表されている画像だとは限らない。例えば指定文字列が「自動車」であっても、自動車を表す画像だけでなく、自動車の形を用いた標識や自動車のおもちゃなどが関連画像として取得される場合がある。そのため、第1の指標(画像スコア)は100%になるとは限らない。以下では、関連画像のうち目的物画像でない画像のことを「非目的物画像」という。画像スコア算出手段102は、クローリング手段101が記憶部15に保存したHTMLファイルデータ42及びクローリング結果ファイル43を用いて画像スコアを算出する。
図5は画像スコア算出手段102の機能構成の詳細を表す。画像スコア算出手段102は、Webデータ読み出し手段201、テキスト特徴量算出手段202、Web特徴量算出手段203、スコア算出手段204を備える。
Webデータ読み出し手段201は、クローリング結果ファイル43を読み出し、各レコードについて、HTMLファイルデータのパス35に対応する領域に保存されたHTMLファイルデータ42を読み出し、このパス35に対応付けられた検索結果ID33とともにテキスト特徴量算出手段202及びWeb特徴量算出手段203に供給する。
テキスト特徴量算出手段202は、Webデータ読み出し手段201から供給されたHTMLファイルデータ42を例えばパースして(構造を分析して)、そこからテキスト情報を取り出す。テキスト特徴量算出手段202は、取り出したテキスト情報の特徴をベクトル量で表現したデータ(以下「テキスト特徴データ」という)を生成し、生成したテキスト特徴データを、HTMLファイルデータ42とともに供給された検索結果ID33に対応付けてスコア算出手段204に供給する。
テキスト特徴量算出手段202は、テキスト情報の特徴を例えばそのテキスト情報に含まれている単語の出現数を用いて表現する。テキスト特徴量算出手段202は、前述のとおりHTMLファイルデータ42から取り出したテキスト情報に対して形態素解析を行って複数の単語に分割する。テキスト特徴量算出手段202は、分割した各単語のうち、あらかじめ作成された単語リスト(単語の一覧)に含まれているものについて、その単語のテキスト情報での出現数を計数する。テキスト特徴量算出手段202は、こうして計数した出現数を要素とするベクトルを示したテキスト特徴データを生成する。
単語リストとしては、例えば画像収集装置10を提供する提供者により選出された任意の単語を表すリストが用いられる。なお、これに限らず、クローリング手段101が取得する関連文書群から出現頻度の高い単語を取り出して作成されたリストが単語リストとして用いられてもよい。この場合、例えば、前述の提供者が文字列を複数指定し、それら複数の指定文字列に関連する関連画像と関連文書をクローリング手段101にあらかじめ一定数取得させておき、それらの取得結果に基づいて単語リストが作成される。
また、クローリング手段101が取得する関連文書群から算出されるTFIDF(term frequency-inverse document frequency)値が高い単語を取り出したリストが単語リストとして用いられてもよい。TFIDF値とは、関連画像と対応付けられている関連文書群での単語の出現数の和を、全関連文書での単語の出現数の和で割った値である。TFIDF値は、取得された関連画像群を、上述した目的物画像(指定文字列を名称とする物体が表された画像)とそれ以外の非目的物画像とに分けた上で、目的物画像に対応付けられている文書であるWebページでの単語の出現数の和を、全文書中でのその単語の出現数の和で割ることで算出される。
以上のように出現頻度もしくはTFIDF値が高い単語を一定数以上リストアップすることで単語リストが作成される。なお、上述した任意の単語の選出や文字列の指定、目的物画像と非目的物画像との分別などは、人の判断に基づいて行われるが、単語リストは予め作成しておけばよいので、このように人の判断を要する作業が必要であっても、画像収集装置10が画像を収集する際に人の作業を待たなければならないといったことは生じない。
Web特徴量算出手段203は、Webデータ読み出し手段201から供給されたHTMLファイルデータ42からWebページのメタ情報を取り出し、取り出したメタ情報の特徴をベクトル量で表現したデータ(以下「Web特徴データ」という)を生成し、生成したWeb特徴データを、HTMLファイルデータ42とともに供給された検索結果ID33に対応付けてスコア算出手段204に供給する。メタ情報の特徴としては、例えば、図3に示す検索順位36(画像検索サービス3が行った検索における順位)を0から1の値に標準化した評価点が用いられる。
他にも、WebページのURLがwikipedia.orgやamazon.co.jp、rakuten.comなどの特定ドメイン及び特定サイトに部分一致する場合を1、部分一致しない場合を0とする評価点や、WebページのHTMLファイル中にNG(no good)ワードとして定められた文字列を含む場合を1、含まない場合を0とする評価点が用いられてもよい。また、画像ファイル名に指定文字列32を含む否か、HTMLファイルデータ42の画像が含まれていたタグ内に指定文字列32を含むか否か、HTMLファイルデータ42の画像が含まれていたタグの周辺に指定文字列32を含むか否か、HTMLファイルデータ42のtitle,meta name='description',meta name='title'タグに指定文字列32を含むか否か、に基づき、指定文字列32を含むWebページほど点数が高くなるような評価点が用いられてもよい。Web特徴量算出手段203は、以上の各評価点を要素とするベクトルを示したWeb特徴データとして生成する。
スコア算出手段204は、テキスト特徴データ及びWeb特徴データに基づき、検索結果ID33に関連付いている画像の画像スコアを算出し、検索結果ID33と対応付けて記憶部15に保存する。スコア算出手段204は、同じ検索結果IDに対応付けられたテキスト特徴データとWeb特徴データを連結し、1つのベクトル構造を持つWebページ特徴データを生成する。スコア算出手段204は、例えば、Webページ特徴データを入力とし、目的物画像であるか否かのフラグを表すフラグデータを教師信号として機械学習を行った機械学習器を備え、この機械学習器を用いて画像スコアを算出する。
スコア算出手段204は、機械学習のアルゴリズムとして、Random Forest(登録商標)、Support Vector Machine、Neural Networkなど、公知の機械学習手法を用いる。スコア算出手段204は、これらのアルゴリズムを用いて、Webページ特徴データの全てのレコードに対して、それぞれ目的物画像である確率を算出したものを画像スコアとして、検索結果ID33に対応付けて記憶部15に保存する。
以上のとおり、画像スコア算出手段102は、クローリング手段101により取得された関連文書のテキスト情報及びメタ情報を用いて画像スコアを算出する。画像スコア算出手段102は、関連文書のテキスト情報を用いる場合、あらかじめ作成された単語リストに含まれる単語のテキスト情報内での出現頻度に基づいて画像スコアを算出する。画像スコア算出手段102は、この単語リストとして、取得された関連文書において出現する頻度が閾値以上である単語のリストまたはその関連文書においてTFIDF値が閾値以上である単語のリストを用いる。
また、画像スコア算出手段102は、関連文書のメタ情報として、関連画像及び関連文書の検索における順位(上記検索順位36)、関連画像及び関連文書のURL、関連画像のファイル名、関連文書に特定の単語(上記NGワードなど)が含まれているか否かを示す指標、及び、関連文書の所定の位置(関連画像が含まれたタグなど)に指定文字列が含まれているか否かを示す指標に基づいて画像スコアを算出する。
[1−2−3]画像クラスタリング手段
画像クラスタリング手段103は、クローリング手段101により取得された複数の関連画像を画像同士の類似度に基づいて1以上のグループに分類する分類手段の一例である。画像クラスタリング手段103は、クローリング手段101が図4に示すように記憶部15に保存した画像データ41及びクローリング結果ファイル43を用いてクラスタリングを行う。ここでいうクラスタリングとは、画像データが示す画像を複数のクラスタに分割すること(すなわち複数のグループに分類すること)をいう。
図6は画像クラスタリング手段103の機能構成の詳細を表す。画像クラスタリング手段103は、画像データ読み出し手段301と、局所特徴量算出手段302と、局所特徴量類似度算出手段303と、色ヒストグラム算出手段304と、色ヒストグラム類似度算出手段305と、エッジヒストグラム算出手段306と、エッジヒストグラム類似度算出手段307と、類似度結合手段308と、クラスタリング手段309と、代表度算出手段310とを備える。
画像データ読み出し手段301は、クローリング結果ファイル43を読み出し、そのクローリング結果ファイル43に示されているパス34で表された記憶部15の領域に記憶されている画像データ41を読み出す。画像データ読み出し手段301は、読み出した画像データ41を、対応する検索結果ID33に対応付けて、局所特徴量算出手段302、色ヒストグラム算出手段304、エッジヒストグラム算出手段306に供給する。画像データ41は、画像の縦方向のピクセル数×横方向のピクセル数×画像のチャンネル数の行列の構造を持ち、行列の各要素に画像の各要素の値が格納された形で保持される。
局所特徴量算出手段302は、画像データ読み出し手段301から供給された画像データ41が示す画像の局所特徴量を算出する。局所特徴量は、各画像に対して、1以上の特徴点が対応付けられ、各特徴点に対して特徴量のデータが対応付けられた構造で表される。局所特徴量算出手段302は、SIFTやSURF(Speeded Up Robust Features)、ORB(Oriented FAST and Rotated BRIEF)、BRISK(Binary Robust Invariant Scalable Keypoints)、BRIEF(Binary Robust Independent Elementary Features)、KAZE、AKAZEなどの公知の技術を用いて局所特徴量を算出する。局所特徴量算出手段302は、算出した局所特徴量を検索結果IDに対応付けて、局所特徴量類似度算出手段303に供給する。
局所特徴量類似度算出手段303は、局所特徴量算出手段302から供給された局所特徴量に基づき、関連画像同士の局所特徴量の類似度を算出し、算出した類似度を示す局所特徴量類似度データを類似度結合手段308に供給する。画像データ読み出し手段301により読み出された検索結果ID33の数がM(Mは1以上の整数)個である場合、局所特徴量類似度算出手段303は、関連画像同士の局所特徴量の類似度をM行及びM列の行列形式で表す局所特徴量類似度データを生成する。この行列の各列及び各行はM個の検索結果ID33にそれぞれ対応する。行列の各要素には、それらの要素の行番号、列番号に対応した検索結果ID33に対応する2つの関連画像同士の局所特徴量の類似度が格納される。
局所特徴量類似度算出手段303は、例えば、局所特徴量類似度データの要素(i,j)に格納される類似度を求める場合(i,jは1以上M以下の整数)、まず、行iに対応する検索結果IDの画像データの局所特徴点の各々に対して、列jに対応する検索結果IDの画像データ41の局所特徴点の中から対応するものを求め、局所特徴点の組を複数作成する。ここで、局所特徴点aに対応する局所特徴点bとは、局所特徴点aの特徴量と似通った特徴量を有する局所特徴点をいう。局所特徴量類似度算出手段303は、例えば非特許文献1の技術を用いて、局所特徴点同士の特徴量の距離を算出し、距離が最も近いもの同士を局所特徴点の組とする。なお、局所特徴量類似度算出手段303は、ノイズ除去のため、非特許文献1に開示されているような誤対応を防ぐための公知の技術を用いてもよい。
局所特徴量類似度算出手段303は、作成した局所特徴点の組に基づき、画像i、j間の幾何的な対応関係を求める。局所特徴量類似度算出手段303は、例えば、非特許文献1で開示されているような、一般化ハフ変換を用いた投票により幾何的な対応関係を表す変換行列を求める公知の技術を用いてこの対応関係を求める。この技術では、複数の変換行列が算出されるため、求めた変換行列群は、ベイズ推定により、その変換行列の確からしさが求められ、閾値以上の変換行列は棄却される。局所特徴量類似度算出手段303は、棄却されなかった変換行列群を求める際の一般化ハフ変換において、投票された投票数の和を正規化したものを、関連画像同士の局所特徴量の類似度として算出し、局所特徴量類似度データの要素(i,j)に格納する。より詳細には、局所特徴量類似度算出手段303は、局所特徴量類似度データの全要素に対してこの類似度を算出し、正規化した上で格納する。行列の対角成分の類似度は1とする。
このように、局所特徴量類似度算出手段303は、関連画像同士の局所特徴点の対応関係から、関連画像同士の幾何的な対応関係を求め、この幾何的な対応関係を求めるために使用した特徴点の数から、関連画像同士の類似度を算出する。これにより、関連画像同士で局所特徴点の特徴量が偶然似ていたために局所特徴量類似度が上昇する事を防ぎ、誤対応を低減することができる。また、関連画像同士の幾何的な対応関係を求めることにより、個々の局所特徴点同士の類似だけではなく、関連画像同士での特徴点全体の類似に基づいて局所特徴量類似度を算出することができる。
色ヒストグラム算出手段304は、画像データ読み出し手段301により読み出された画像データ41が示す関連画像の色ヒストグラムを算出する。色ヒストグラム算出手段304は、関連画像をグリッド状の複数のブロック(例えば3×3のブロックなど)に分割し、各ブロックについて色ヒストグラムを作成し、連結することでその関連画像の色ヒストグラムを算出する。色ヒストグラム算出手段304は、RGBやHSVなどの色空間上でbinを区切り、各ブロックでの色ヒストグラムを作成する。色ヒストグラム算出手段304は、作成した各ブロックの色ヒストグラムを1次元のベクトルに形状を変換した上で連結し、ベクトルデータとして表現する。その際、色ヒストグラム算出手段304は、色ヒストグラムに正規化を施す。色ヒストグラム算出手段304は、算出した色ヒストグラムを検索結果IDに対応付けて色ヒストグラム類似度算出手段305に供給する。
色ヒストグラム類似度算出手段305は、色ヒストグラム算出手段304から供給された色ヒストグラムに基づき関連画像同士の色ヒストグラムの類似度を算出し、算出した類似度を示す色ヒストグラム類似度データを類似度結合手段308に供給する。色ヒストグラム類似度算出手段305は、局所特徴量類似度データと同様の行列形式の色ヒストグラム類似度データを生成する。色ヒストグラム類似度算出手段305は、Histogram intersection等の公知の技術を用いて色ヒストグラムの類似度を算出する。色ヒストグラム類似度算出手段305は、色ヒストグラム類似度データの要素(i,j)に格納される色ヒストグラム類似度を求める場合、行iの検索結果IDに対応する関連画像と列jの検索結果IDに対応する関連画像との間でHistogram intersectionを求め、要素(i,j)に格納する。
エッジヒストグラム算出手段306は、画像データ読み出し手段301により読み出された画像データ41が示す関連画像のエッジヒストグラムを算出する。エッジヒストグラム算出手段306は、関連画像をグレースケールに変換した上で、グリッド状に複数のブロック(例えば3×3のブロックなど)に分割し、各ブロックについてエッジヒストグラムを作成し、連結することでその関連画像のエッジヒストグラムを算出する。エッジヒストグラム算出手段306は、ブロック内の各要素における勾配方向と勾配強度を算出し、勾配方向をbinに区切ったものに、勾配強度を投票することで各ブロックのエッジヒストグラムを作成する。エッジヒストグラム算出手段306は、作成した各ブロックのヒストグラムを1次元のベクトルに形状を変換した上で連結し、ベクトルデータとして表現する。その際、エッジヒストグラム算出手段306は、エッジヒストグラムに正規化を施す。エッジヒストグラム算出手段306は、算出したエッジヒストグラムに検索結果IDを対応付けてエッジヒストグラム類似度算出手段307に供給する。
エッジヒストグラム類似度算出手段307は、色ヒストグラム類似度算出手段305と同様の手順で類似度を求め、局所特徴量類似度データと同様の行列形式のエッジヒストグラム類似度データを生成する。エッジヒストグラム類似度算出手段307は、生成したエッジヒストグラム類似度データを類似度結合手段308に供給する。
類似度結合手段308は、局所特徴量類似度算出手段303、色ヒストグラム類似度算出手段305及びエッジヒストグラム類似度算出手段307から供給された各データが示す類似度のそれぞれに重みをつけて加算して、局所特徴量類似度データと同様の行列形式で表される画像類似度データを生成する。より詳細には、類似度結合手段308は、局所特徴量類似度データ、色ヒストグラム類似度データ、エッジヒストグラム類似度データの要素(i,j)の各数値に、それぞれに重みを付けて加算し、その和を要素(i,j)に格納したものを画像類似度データとして生成する。類似度結合手段308は、生成した画像類似度データをクラスタリング手段309に供給する。
クラスタリング手段309では、類似度結合手段308から供給された画像類似度データを用いて関連画像群のクラスタリングを行い、その結果を示すクラスタデータを生成する。クラスタリング手段309は、例えば、検索結果ID及びクラスタIDが1つのレコードで対応付けられたテーブル構造を有するデータをクラスタデータとして生成する。クラスタIDとは、クラスタリングの結果作成された複数のクラスタのうち、検索結果IDに対応する関連画像が属するクラスタを表すIDである。クラスタリング手段309は、spectral clusteringや階層的クラスタリングなどの公知のクラスタリング技術を用いてクラスタリングを行う。クラスタリング手段309は、生成したクラスタデータを代表度算出手段310に供給する。
代表度算出手段310は、画像データ読み出し手段301により読み出された検索結果ID33に対応する各関連画像について、それらの関連画像が属するクラスタにおける代表度を算出し、算出した代表度をクラスタデータに付加する。代表度とは、関連画像が属するクラスタの傾向、特徴にその関連画像がどの程度合致しているかを表す指標である。代表度算出手段310は、例えば、代表度を算出する対象である対象関連画像と、対象関連画像と同じクラスタに属している他の関連画像との類似度の和を、その対象関連画像の代表度として算出する。代表度算出手段310は、代表度を付加したクラスタデータを記憶部15に保存する。
[1−2−4]クラスタスコア算出手段
クラスタスコア算出手段104は、画像クラスタリング手段103により記憶部15に保存されたクラスタデータと、画像スコア算出手段102により算出された画像スコアとに基づいて、クラスタスコアを算出する。クラスタスコア算出手段104は、例えば、クラスタに属する関連画像の画像スコアの平均値を線形変換することにより算出した値をクラスタスコアとして算出する。この場合、クラスタスコア算出手段104は、クラスタに含まれる正解画像の画像スコアの平均値を説明変数とし、クラスタスコアを従属変数とする回帰分析によって予め求められた関数を線形変換に用いる。なお、回帰分析においては最小二乗法などの公知の回帰分析手法が用いられればよい。
クラスタスコア算出手段104は、算出したクラスタスコアをクラスタIDに対応付けて記憶部15に保存する。こうして算出されたクラスタスコアは、分類手段(画像クラスタリング手段103)により分類されたグループ(クラスタ)に属する画像について第1算出手段(画像スコア算出手段102)により算出された第1の指標(画像スコア)に基づいて、指定文字列を名称とする物体が表されている画像(目的物画像)がグループに含まれている可能性の高さを表す指標(以下「第2の指標」という)を表す。この第2の指標も、第1の指標と同様に(例えば0から1までの数値などで)表されればよい。この第2の指標を算出するクラスタスコア算出手段104は、本発明の「第2算出手段」の一例である。
[1−2−5]画像抽出手段
画像抽出手段105は、記憶部15に保存されたクラスタデータ、クラスタスコア、画像スコアに基づいて画像を抽出する。
図7は画像抽出手段105の機能構成の詳細を表す。画像抽出手段105は、クラスタ選出手段501、外れ値除去手段502、抽出手段503を備える。
クラスタ選出手段501は、画像クラスタリング手段103により分割された複数のクラスタから、算出されたクラスタスコアが比較的大きいクラスタを選出する。ここでいう「比較的」とは、複数のクラスタをクラスタスコアの大きさで順番に並べた場合に、クラスタスコアが比較的大きいものと比較的小さいものとの境目を定め、その境目よりも上位にあるものを比較的クラスタスコアが高いクラスタとし、その境目よりも下位にあるものを比較的クラスタスコアが低いクラスタとすることである。本実施形態では、クラスタ選出手段501は、クラスタスコアが最も大きいクラスタと、クラスタスコアの最大値からクラスタスコアの標準偏差を引いた値より大きいクラスタスコアが算出されたクラスタを、クラスタスコアが比較的大きいクラスタとして選出する。この場合、クラスタスコアの最大値からクラスタスコアの標準偏差を引いた値が境目として定められている。
クラスタ選出手段501は、選出したクラスタのクラスタIDと、記憶部に保存されたクラスタデータとを突合し、選出したクラスタに属する関連画像の検索結果IDを読み出す。クラスタ選出手段501は、選出したクラスタIDと、読み出した検索結果IDを対応付けた表1のようなテーブル構造の選出クラスタデータを記憶部15に保存する。表1の例では、クラスタスコアが比較的高いクラスタとしてクラスタID「1」、「2」、「3」が付与されたクラスタが選出されている。
Figure 0006314071
外れ値除去手段502は、選出クラスタデータとクラスタスコアを読み出し、選出クラスタデータ内の検索結果ID33とクラスタスコアの代表度とを突合させ、代表度が閾値以下の検索結果ID33を選出クラスタデータから除去したフィルタリングデータを生成し、記憶部15に保存する。この閾値は、例えばユーザが操作部11を操作して設定する。なお、これに限らず、大津の二値化手法などの公知の閾値算出手法を用いて算出された閾値が用いられてもよい。
抽出手段503は、フィルタリングデータを用いて関連画像を抽出する。抽出手段503は、フィルタリングデータの各クラスタに属する検索結果ID33に対して、クラスタスコアの代表度及び画像スコアを突合させ、各検索結果IDに対して、代表度と画像スコアの重みづけ和を算出する。抽出手段503は、同じクラスタIDに対応付けられた検索結果IDから、この重みづけ和が比較的大きい検索結果IDを処理IDに対応付けた抽出結果データを生成し、記憶部15に保存する。
抽出手段503は、前述したクラスタ選出手段501と同様に、重みづけ和が比較的大きいものと比較的小さいものとの境目を定め、その境目よりも上位にあるものを重みづけ和が比較的大きい検索結果IDとし、その境目よりも下位にあるものを重みづけ和が比較的小さい検索結果IDとする。本実施形態では、抽出手段503は、重みづけ和が最大の検索結果IDとその次に重みづけ和が大きい検索結果IDとの間に境目を定める。つまり、抽出手段503は、1つのクラスタに属する画像群からは、重みづけ和が最も大きい検索結果IDが付与された1つの関連画像を抽出する。表2は、そうして保存された抽出結果データの一例である。
Figure 0006314071
表2の例では、「0001」という処理IDに「0001」、「0004」という検索結果IDが対応付けられている。これらは表1の「1」、「2」というクラスタIDが付与されたクラスタに分割された関連画像のうち、重みづけ和が最大であった関連画像の検索結果IDである。なお、この例では、「3」というクラスタIDが付与されたクラスタに分割された関連画像は、外れ値除去手段502によって除去されている。
以上のとおり、画像抽出手段105は、分類手段(画像クラスタリング手段103)により分類されたグループ(クラスタ)のうち、第2算出手段(クラスタスコア算出手段104)により算出された第2の指標(クラスタスコア)が比較的大きいグループのそれぞれについて、そのグループに属する関連画像のうち指定文字列を名称とする物体が表されている可能性が比較的高い関連画像を抽出する。
また、本実施形態では、分類されたグループ(クラスタ)に属する関連画像の代表度が、その関連画像とそのグループに属する他の画像との類似度の和によって表される。画像抽出手段105は、そのような代表度(詳細には代表度及び画像スコアの重みづけ和)に基づいて、そのグループに属する関連画像に指定文字列を名称とする物体が表されている可能性の高さを判断して画像を抽出する。
このように、クローリング手段101が取得した関連画像から画像抽出手段105が上記のとおり抽出を行うことで、画像収集装置10は、インターネット2で公開されている画像から目的物画像である可能性が比較的高い画像(表2の検索結果IDが付与された画像)を収集することになる。
[1−2−6]画像出力手段
画像出力手段106は、記憶部15に保存された抽出結果データが示す抽出結果を出力する。画像出力手段106は、例えば、図1に示す表示部12に抽出結果を出力し、抽出結果を表示させる。なお、画像抽出手段105は、これに限らず、例えば通信部14を介して外部装置や外部の表示手段、記憶媒体などに抽出結果を出力してもよいし、ユーザの電子メールアドレスやSNS(Social Networking Service)のアカウントなどに抽出結果を出力してもよい。
画像出力手段106は、例えば抽出結果データが示す処理ID及び検索結果ID33に基づいて処理結果IDに対応するクローリング結果ファイル43を読み出す。画像出力手段106は、読み出したクローリング結果ファイル43から、収集結果データにおいて処理IDと対応付けられている検索結果IDに対応する画像データ41のパス34を読み取る。画像出力手段106は、読み取ったパス34が示す領域に保存された画像データ41を読み込み、例えば表示部12に出力する。
[1−3]動作
画像収集装置10は、以上の構成に基づいて、上述した目的物画像を、画像及び文書が互いに対応付けられたデータ群(本実施形態ではインターネット2上に公開されている画像及びWebページを示すデータ群)から抽出する抽出処理を行う。
図8は抽出処理における画像収集装置10の動作フローを表す。抽出処理は、ユーザが指定する文字列を入力する操作を画像収集装置10に対して行うことを契機に開始される。
画像収集装置10は、まず、入力された文字列を指定文字列として受け付ける(ステップS11)。次に、画像収集装置10は、受け付けた指定文字列に基づいてクローリングを行い、その指定文字列に関連する関連画像及び関連文書の組を複数取得する(ステップS12)。続いて、画像収集装置10は、取得した各関連画像に対して、各々に対応付けられている関連文書の特徴に基づき画像スコアを算出する(ステップS13)。また、画像収集装置10は、取得した関連画像を画像同士の類似度に基づいてクラスタリング、すなわち1つ以上のクラスタへの分割を行う(ステップS14)。ステップS13及びS14の動作は並行して行われる。
次に、画像収集装置10は、ステップS13で算出した画像スコアに基づいて、ステップS14で分割した各クラスタについて、それらのクラスタに目的物画像(指定文字列を名称とする物体が表された画像)が含まれている確率を表すクラスタスコアを算出する(ステップS15)。続いて、画像収集装置10は、算出したクラスタスコアが比較的大きいクラスタに属する画像のうち、目的物画像である可能性が比較的高い画像を抽出する(ステップS16)。そして、画像収集装置10は、抽出された画像を例えば表示手段に出力する(ステップS17)。
[1−4]作用効果
画像収集装置10が行う動作は、画像を大まかに収集する収集動作(ステップS11及びS12)と、収集した画像を絞り込む絞り込み動作(ステップS13からS16)とに大きく分けられる。本実施形態ではこの収集動作が行われることにより、インターネット2に存在する画像群から、検索キーとして入力された指定文字列に関連する画像を広く簡便に収集することができる。
また、絞り込み動作において、関連画像が含まれていたWebページの特徴と関連画像それ自体の特徴の両方を用いて画像収集装置10が画像の抽出を行うことで、簡便に集めた画像を効率よく絞り込むことができる。また、その絞り込みに関連画像が掲載されていたWebページ(関連文書)の特徴と関連画像それ自体の特徴の両方を用いることで、これらの特徴を用いない場合に比べて目的物画像を高い精度で抽出することができる。
また、画像収集装置10が似た関連画像同士を同じクラスタに分割することで、簡便に集めた画像を、同じ物体が表された関連画像のグループに分類することができる。各クラスタに属する関連画像の画像スコアに基づき算出されるクラスタスコアは、収集対象となる目的物画像が含まれたクラスタでは高くなり、収集対象となる目的物画像が含まれていないクラスタまたはノイズの多いクラスタでは低くなる。
このクラスタスコアが比較的大きいクラスタを選出することで、画像スコアにノイズが生じている場合(非目的物画像なのに画像スコアが大きい関連画像が含まれている場合)でも、ノイズが生じているクラスタは選出されないので、目的物画像である可能性が比較的高い画像を複数抽出することができる。言い換えると、画像スコアの不正確さを、同じ物体が表されていると思われる画像同士を集め、画像スコアを加算することで相殺することができる。よって、クラスタスコアが比較的大きいクラスタに属する画像のうちさらに目的物画像である可能性が比較的高い画像を抽出することで、クラスタスコアを用いない場合に比べて、目的物画像を高い精度で抽出することができる。
また、文書の特徴として、従来から利用されてきたテキスト情報に加えてメタ情報を用いることにより、テキスト情報だけを用いる場合に比べて、画像スコアの精度を向上させることができ、その結果目的物画像をより高い精度で抽出することができる。
また、文書のテキスト情報として、あらかじめ作成された単語リストに含まれる単語の文書中での出現頻度を用いることで、文書の特徴を離散化した数値ベクトルという比較可能な指標で表すことができる。
また、単語リストとして、収集される文書群の中で出現頻度の高い単語をあらかじめ取り出したリストを用いることで、文書群中でほとんど出現せず出現頻度が多くの文書において0となる単語、すなわち画像スコアの算出において与える影響の小さい単語を、単語リストから除外することができる。また、単語リストとして、TFIDF値が高い単語をあらかじめ取り出したリストを用いることで、多くの文書に出現し、かつ、その出現頻度に偏りのある単語の出現頻度に基づいて画像スコアを算出することになり、画像スコアの感度を向上させることができる。
また、本実施形態では、分類されたグループ、すなわち分割されたクラスタに属する関連画像のそのクラスタ内での代表度を、その関連画像とそのクラスタに属する他の画像との類似度の和として算出することで、クラスタ内の外れ画像を定量的に除外するためのスコアを得ることができる。また、代表度の低い画像を除外することで、はずれ値となる画像を除去することでノイズを低減することができる。
[2]変形例
上述した実施形態は、本発明の実施の一例に過ぎず、以下のように変形させてもよい。また、実施形態及び以下に示す各変形例は、必要に応じて組み合わせて実施してもよい。
[2−1]クローリング手段
クローリング手段101は、実施形態では、インターネット2で公開されているデータ群から関連画像及び関連文書を取得したが、これに限らず、例えば画像収集装置10が接続されているLAN(Local Area Network)などのイントラネットで公開されているデータ群から関連画像及び関連文書を取得してもよい。また、クローリング手段101は、例えば、そのようなデータ群を記憶するモバイルコンピュータ、パーソナルコンピュータ、サーバが画像収集装置10と接続していれば、それらの装置から関連画像及び関連文書を取得してもよい。
[2−2]画像スコア算出手段
画像スコア算出手段102は、実施形態では、文書のテキスト情報及びメタ情報の両方を用いて画像スコアを算出したが、いずれか一方だけを用いてもよく、文書のテキスト情報または文書のメタ情報画像を用いてスコアを算出してもよい。その場合でも、各情報に基づく文書の特徴を用いることで、それを用いない場合に比べて画像スコアの精度を向上させることができる。
また、画像スコア算出手段102は、文書のメタ情報として、実施形態で述べた関連画像及び関連文書の検索における順位や関連画像及び関連文書のURLなどを用いたが、これら全てを用いる必要はなく、少なくともいずれか1つのメタ情報を用いて画像スコアを算出すればよい。それにより、そのメタ情報を用いない場合に比べて画像スコアの感度を向上させることができる。
[2−3]画像クラスタリング手段
画像クラスタリング手段103は、実施形態では、画像の局所特徴量に基づく局所特徴量類似度、画像の色ヒストグラムに基づく色ヒストグラム類似度、画像のエッジヒストグラムに基づくエッジヒストグラム類似度の3つの類似度を全て用いたが、これら全てを用いる必要はなく、少なくともいずれか1つの類似度を関連画像同士の類似度として用いてクラスタリングを行えばよい。そして、画像クラスタリング手段103は、2以上の類似度を用いる場合には、それらの類似度を実施形態のように結合して用いればよい。
局所特徴量類似度を用いた場合、局所特徴点の抽出及び局所特徴量の算出に用いるアルゴリズムとして適切なものを選択することによって、関連画像の回転や照度変化があっても精度の高い類似度を算出することができる。また、局所特徴量類似度には遮蔽に強いという特徴がある。これにより、遮蔽、回転、照度変化の加わった関連画像同士であっても、より人間の感覚に近い形で類似度を算出することができる。
色ヒストグラム類似度を用いた場合、色の分布及び画像上での配置が似ている画像同士で類似度が大きくなる特性により、色の似た画像同士が同じクラスタに分割されやすくなり、その結果、同じ物体を表す関連画像が同じクラスタに分割されやすくなるようにすることができる。
エッジヒストグラム類似度を用いた場合、画像全体でエッジの強度と分布の似た画像同士の類似度が高くなる特性により、形状の似た画像同士の類似度が高くなりやすい。これにより、関連画像に表されている物体の形状の似たものが同じクラスタに分割されやすく、その結果、同じ物体を表す関連画像が同じクラスタに分割されやすくなるようにすることができる。
また、2つ以上の類似度を結合して用いた場合、複数の類似度の特性を併せ持つより人間の感覚に近い類似度を算出することができる。言い換えると、局所的に似ており、かつ色の分布も似ており、かつ、その画像が表している物体の全体的な形状も似ている関連画像同士を集めることができ、その結果、同じ物体を表す関連画像が同じクラスタに分割されやすくなるようにすることができる。
[2−4]画像抽出手段
画像抽出手段105は、実施形態では、代表度が閾値未満の関連画像を抽出対象から除外したが、これに限らない。例えば、画像抽出手段105は、画像スコアが閾値未満の関連画像を抽出対象から除外してもよいし、画像スコア及び代表度がどちらも閾値未満の関連画像を抽出対象から除外してもよい。いずれの場合も、除外される関連画像は目的物画像でない可能性が除外されなかった関連画像に比べて高いものであるから、抽出対象からの除外を行わなかった場合に比べて、目的物画像を抽出する精度を向上させることができる。
また、画像抽出手段105は、実施形態では、上述した代表度及び画像スコアの重みづけ和によってこの可能性の高さを判断することで、代表度及び画像スコアの両方が比較的大きい関連画像を抽出したが、これに限らない。画像抽出手段105は、例えば、画像スコアだけが比較的大きい関連画像を抽出してもよいし、代表度だけが比較的大きい関連画像を抽出してもよい。いずれの場合も、クラスタ内で代表的であるか、または、Webページの特徴から目的物画像である可能性が高い関連画像が抽出され、目的物画像を抽出する精度を向上させることができる。
また、画像抽出手段105は、この比較的大きいか否かを、所定の閾値以上であるか否かによって判断してもよいし、図7に示すクラスタ選出手段501のように上記の重みづけ和(代表度、画像スコアだけの場合も同様)の最大値から標準偏差を引いた値よりも大きいか否かで判断してもよい。他にも、重みづけ和が大きい方から所定の数(例えばクラスタに属する画像の数の半分や3分の1など)までの関連画像を、重みづけ和が比較的大きいものと判断してもよい。これらの判断方法は、クラスタ選出手段501がクラスタを選出する場合においても同様に用いることができる。
[2−5]発明のカテゴリ
本発明は、上述した画像収集装置のような情報処理装置の他、情報処理装置及び画像検索システムを含む情報処理システムとしても捉えられる。この情報処理システムは、画像検索システムの代わりに上述した画像検索装置が含まれていてもよい。他にも、情報処理装置が実施する処理を実現するための情報処理方法や、情報処理装置のようなコンピュータを上述した各手段として機能させるためのプログラムとしても捉えられる。このプログラムは、それを記憶させた光ディスク等の記録媒体の形態で提供されてもよいし、インターネット等のネットワークを介してコンピュータにダウンロードさせ、それをインストールして利用可能にするなどの形態で提供されてもよい。
1…画像収集システム、2…インターネット、3…画像検索サービス、10…画像収集装置、101…クローリング手段、102…画像スコア算出手段、103…画像クラスタリング手段、104…クラスタスコア算出手段、105…画像抽出手段、106…画像出力手段、201…Webデータ読み出し手段、202…テキスト特徴量算出手段、203…Web特徴量算出手段、204…スコア算出手段、301…画像データ読み出し手段、302…局所特徴量算出手段、303…局所特徴量類似度算出手段、304…色ヒストグラム算出手段、305…色ヒストグラム類似度算出手段、306…エッジヒストグラム算出手段、307…エッジヒストグラム類似度算出手段、308…類似度結合手段、309…クラスタリング手段、310…代表度算出手段、501…クラスタ選出手段、502…外れ値除去手段、503…抽出手段

Claims (10)

  1. ユーザが指定した文字列に基づく検索で得られた当該文字列に関連する画像と、当該画像に対応付けられた文書との組を複数取得する取得手段と、
    取得された前記画像に対応付けられた前記文書の特徴に基づいて当該画像に前記文字列を名称とする物体が表されている可能性の高さを表す第1の指標を算出する第1算出手段と、
    取得された複数の前記画像を画像同士の類似度に基づいて1以上のグループに分類する分類手段と、
    分類された前記グループに属する画像について算出された前記第1の指標に基づいて、前記物体が表されている画像が当該グループに含まれている可能性の高さを表す第2の指標を算出する第2算出手段と、
    分類された前記グループのうち算出された前記第2の指標が比較的大きい前記グループのそれぞれについて、当該グループに属する画像のうち前記名称の物体が表されている可能性が比較的高い画像を抽出する画像抽出手段と
    を備え
    前記第1算出手段は、取得された前記文書のテキスト情報または当該文書のメタ情報を用いて前記第1の指標を算出し、
    前記第1算出手段は、前記文書のテキスト情報を用いる場合、あらかじめ作成された単語リストに含まれる単語の当該テキスト情報内での出現頻度に基づいて前記第1の指標を算出する
    情報処理装置。
  2. 前記単語リストは、前記取得手段により取得された文書において出現する頻度が閾値以上である単語のリストまたは当該文書においてTFIDF(term frequency-inverse document frequency)値が閾値以上である単語のリストである
    請求項に記載の情報処理装置。
  3. 前記画像及び文書は、インターネット上で公開されている画像及び当該画像が掲載されているWebページのHTMLファイルであり、
    前記第1算出手段は、前記文書のメタ情報を用いる場合、前記文字列に関連する画像及び当該画像に対応付けられた文書の前記検索における順位、当該画像及び当該文書のURL(Uniform Resource Locator)、当該画像のファイル名、当該文書に特定の単語が含まれているか否かを示す指標、または、当該文書の所定の位置に前記文字列が含まれているか否かを示す指標に基づいて前記第1の指標を算出する
    請求項1又は2に記載の情報処理装置。
  4. 前記分類手段は、取得された前記画像の局所特徴点の局所特徴量の類似度、当該画像の色ヒストグラムの類似度、当該画像のエッジヒストグラムの類似度、または、これらの類似度のうちの2以上を結合したものを、前記画像同士の類似度として用いる
    請求項1からまでのいずれか1項に記載の情報処理装置。
  5. 前記分類手段は、前記局所特徴量の類似度を用いる場合、取得された前記画像同士の局所特徴点の対応関係から、当該画像同士の幾何的な対応関係を求め、当該幾何的な対応関係を求めるために使用した特徴点の数に基づいて当該局所特徴量の類似度を算出する
    請求項に記載の情報処理装置。
  6. 前記画像抽出手段は、分類された前記グループに属する画像の当該グループ内での代表度であって、当該画像と当該グループに属する他の画像との類似度の和によって表される代表度に基づいて画像を抽出する
    請求項1からまでのいずれか1項に記載の情報処理装置。
  7. 前記画像抽出手段は、前記第1の指標が閾値未満の画像、分類された前記グループに属する画像の当該グループ内での代表度であって、当該画像と当該グループに属する他の画像との類似度の和によって表される代表度が閾値未満の画像、または、当該第1の指標及び当該代表度がどちらも閾値未満の画像を、抽出対象から除外する
    請求項1からまでのいずれか1項に記載の情報処理装置。
  8. 前記画像抽出手段は、前記第2の指標が閾値以上である前記グループに属する画像から、前記第1の指標が比較的大きい画像、分類された前記グループに属する第1画像と当該グループに属する他の画像である第2画像との類似度の和によって表される当該第1画像の当該グループ内での代表度が比較的大きい画像、または、当該第1の指標及び当該代表度の両方が比較的大きい画像を抽出する
    請求項1からまでのいずれか1項に記載の情報処理装置。
  9. 情報処理装置が、ユーザが指定した文字列に基づく検索で得られた当該文字列に関連する画像と、当該画像に対応付けられた文書との組を複数取得する取得ステップと、
    前記情報処理装置が、取得された前記画像に対応付けられた前記文書の特徴に基づいて当該画像に前記文字列を名称とする物体が表されている可能性の高さを表す第1の指標を算出する第1算出ステップと、
    前記情報処理装置が、取得された複数の前記画像を画像同士の類似度に基づいて1以上のグループに分類する分類ステップと、
    前記情報処理装置が、分類された前記グループに属する画像について算出された前記第1の指標に基づいて、前記物体が表されている画像が当該グループに含まれている可能性の高さを表す第2の指標を算出する第2算出ステップと、
    前記情報処理装置が、分類された前記グループのうち算出された前記第2の指標が比較的大きい前記グループのそれぞれについて、当該グループに属する画像のうち前記名称の物体が表されている可能性が比較的高い画像を抽出する画像抽出ステップと
    を備え
    前記第1算出ステップは、取得された前記文書のテキスト情報または当該文書のメタ情報を用いて前記第1の指標を算出するステップであり、
    前記第1算出ステップは、前記文書のテキスト情報を用いる場合、あらかじめ作成された単語リストに含まれる単語の当該テキスト情報内での出現頻度に基づいて前記第1の指標を算出するステップである
    情報処理方法。
  10. コンピュータを、請求項1からまでのいずれか1項に記載の情報処理装置が備える各手段として機能させるためのプログラム。
JP2014206556A 2014-10-07 2014-10-07 情報処理装置、情報処理方法及びプログラム Active JP6314071B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014206556A JP6314071B2 (ja) 2014-10-07 2014-10-07 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014206556A JP6314071B2 (ja) 2014-10-07 2014-10-07 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016076115A JP2016076115A (ja) 2016-05-12
JP6314071B2 true JP6314071B2 (ja) 2018-04-18

Family

ID=55951452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014206556A Active JP6314071B2 (ja) 2014-10-07 2014-10-07 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6314071B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6765667B2 (ja) * 2016-07-13 2020-10-07 国立大学法人京都大学 クラスタ評価装置、クラスタ数算出装置、クラスタ装置、クラスタ評価方法、およびプログラム
JP7134593B2 (ja) * 2017-02-27 2022-09-12 大日本印刷株式会社 画像検索装置、画像検索方法、およびプログラム
JP7082287B2 (ja) * 2018-10-11 2022-06-08 富士通株式会社 画像検索プログラム、画像検索装置、及び画像検索方法
CN113204664B (zh) * 2021-04-25 2022-11-04 北京三快在线科技有限公司 一种图像聚类方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287670A (ja) * 2003-03-20 2004-10-14 Dainippon Printing Co Ltd 画像データベース作成装置、画像データベース作成方法、プログラム、及び記録媒体
JP5098559B2 (ja) * 2007-10-11 2012-12-12 富士ゼロックス株式会社 類似画像検索装置、及び類似画像検索プログラム
JP5164901B2 (ja) * 2009-03-17 2013-03-21 ヤフー株式会社 画像検索装置
JP2011180793A (ja) * 2010-03-01 2011-09-15 Saitama Univ 3次元オブジェクト検索システム、3次元オブジェクト検索方法、3次元オブジェクト検索プログラム、および、当該プログラムを記録したコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP2016076115A (ja) 2016-05-12

Similar Documents

Publication Publication Date Title
US10922350B2 (en) Associating still images and videos
Papadopoulos et al. Cluster-based landmark and event detection for tagged photo collections
US9489401B1 (en) Methods and systems for object recognition
Demner-Fushman et al. Design and development of a multimodal biomedical information retrieval system
CN105027162B (zh) 图像解析装置、图像解析系统、图像解析方法
CN104685501B (zh) 响应于可视化查询标识文本词汇
US11550856B2 (en) Artificial intelligence for product data extraction
US8582872B1 (en) Place holder image detection via image clustering
JP5212610B2 (ja) 代表画像又は代表画像群の表示システム、その方法、およびそのプログラム並びに、代表画像又は代表画像群の選択システム、その方法およびそのプログラム
US20160188633A1 (en) A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image
JP6033697B2 (ja) 画像評価装置
JP5346756B2 (ja) 画像分類装置
KR20070009338A (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
JP6767342B2 (ja) 検索装置、検索方法および検索プログラム
JP6314071B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN104463177A (zh) 相似人脸图片获取方法和装置
JP2014093058A (ja) 画像管理装置、画像管理方法、プログラム及び集積回路
Zhang et al. Image retrieval of wool fabric. Part I: Based on low-level texture features
JP6377917B2 (ja) 画像検索装置及び画像検索プログラム
KR100876214B1 (ko) 문맥기반 광고 장치와 그 방법 및 이를 구현할 수 있는컴퓨터로 읽을 수 있는 기록 매체
JP2022003486A (ja) 侵害情報抽出システム、方法及びプログラム
JP2012079186A (ja) 画像検索装置、画像検索方法及びプログラム
US9516089B1 (en) Identifying and processing a number of features identified in a document to determine a type of the document
JP2013041599A (ja) 画像検索エンジン
JP6062981B2 (ja) 映像検索装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180326

R150 Certificate of patent or registration of utility model

Ref document number: 6314071

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250