JP2020140488A

JP2020140488A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2020140488A
Application number: JP2019036033A
Authority: JP
Inventors: 侑吾西川; Yugo Nishikawa; 拓也生駒; Takuya Ikoma; 昌希内田; Masaki Uchida; 伊藤　直之; Naoyuki Ito; 直之伊藤
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2020-09-03
Also published as: JP2023130409A

Abstract

【課題】対象物を含む画像を適切に抽出することが可能な情報処理装置等を提供すること。【解決手段】一つの側面に係る情報処理装置は、ネットワークを介して対象物に関連する画像を検索する検索部と、検索された各画像の特徴量を抽出する抽出部と、前記特徴量に基づき前記各画像を複数のクラスタに分類する分類部と、前記クラスタ夫々に分類された画像数に応じて、前記画像を抽出する画像抽出部とを備える。これにより、対象物を含む画像を適切に抽出することが可能となる。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

画像認識技術に基づき、多数の画像から所望の画像を抽出する技術がある。例えば、特許文献１には、タブレット端末等の情報処理端末からインターネットを介してサーバにアクセスし、所望の写真を注文する写真注文システムが開示されている。当該写真注文システムでは、ユーザが予め特定人物を登録しておくことで、サーバから取得した複数の写真の中から特定人物が写っている写真が抽出され、ユーザ端末に表示される。

特開２０１３−１６１３９４号公報

しかしながら、特許文献１に係る発明は、特定人物と特徴が類似する人物の写真も抽出されてしまう恐れがある。

一つの側面では、対象物を含む画像を適切に抽出することが可能な情報処理装置等を提供することにある。

一つの側面に係る情報処理装置は、ネットワークを介して対象物に関連する画像を検索する検索部と、検索された各画像の特徴量を抽出する抽出部と、前記特徴量に基づき前記各画像を複数のクラスタに分類する分類部と、前記クラスタ夫々に分類された画像数に応じて、前記画像を抽出する画像抽出部とを備えることを特徴とする。

一つの側面では、対象物を含む画像を適切に抽出することが可能となる。

画像抽出システムの概要を示す説明図である。サーバの構成例を示すブロック図である。検索履歴ＤＢのレコードレイアウトの一例を示す説明図である。抽出画像ＤＢのレコードレイアウトの一例を示す説明図である。画像特徴量を抽出する動作を説明する説明図である。画像特徴量に基づくクラスタリング処理を示す説明図である。画像特徴量に基づくクラスタ分類により所望画像を抽出する際の処理手順を示すフローチャートである。実施形態２のサーバの構成例を示すブロック図である。頻度集計ＤＢのレコードレイアウトの一例を示す説明図である。各種類の物体の出現頻度に応じて所望画像を抽出する動作を説明する説明図である。各種類の物体の出現頻度に応じて所望画像を抽出する際の処理手順を示すフローチャートである。実施形態３のサーバの構成例を示すブロック図である。類語辞書のレコードレイアウトの一例を示す説明図である。類語を用いて所望画像を抽出する際の処理手順を示すフローチャートである。上述した形態のサーバの動作を示す機能ブロック図である。

以下、本発明をその実施形態を示す図面に基づいて詳述する。

（実施形態１）
実施形態１は、多数の画像から画像特徴量に基づくクラスタ分類により所望画像を抽出する形態に関する。図１は、画像抽出システムの概要を示す説明図である。本実施形態のシステムは、情報処理装置１及び情報共有サーバ２を含み、各装置はインターネット等のネットワークＮを介して情報の送受信を行う。

情報処理装置１は、種々の情報に対する処理、記憶及び送受信を行う情報処理装置である。情報処理装置１は、例えばサーバ装置、パーソナルコンピュータ等である。本実施形態において、情報処理装置１はサーバ装置であるものとし、以下では簡潔のためサーバ１と読み替える。

情報共有サーバ２は、ＳＮＳ（Social Networking Service：ソーシャル・ネットワーク・サービス）を管理するサーバ装置、またはウェブ検索エンジンとして機能するサーバ装置である。なお、本実施形態において、情報共有サーバ２はＳＮＳを管理するサーバ装置であるものとし、以下では簡潔のためＳＮＳサーバ２と読み替える。ＳＮＳサーバ２は、ユーザの登録・管理、ユーザが投稿したテキスト情報または画像の管理等、種々の情報に対する処理、記憶及び送受信を行う情報処理装置である。

本実施形態に係るサーバ１は、不特定多数の人物がネットワークＮを介してＳＮＳサーバ２にアップロードした各投稿記事に含まれる画像から、ある対象物が被写体として含まれる画像を収集する。例えばマーケティングへの応用を想定して、サーバ１は、商品名（対象物の名称）を検索クエリとして検索を行い、ある商品が撮像された画像を収集する。

一方で、商品名を検索クエリとした画像検索を行った場合であっても、商品名と同表記の異義語や検索テキストを含む商品に関係ない被写体の画像が検索される恐れがある。この場合、例えばディープラーニング、パターンマッチング等による画像認識を行い、画像から対象商品を認識して所望の画像を抽出することが考えられる。

しかし、ＳＮＳから収集する画像群から特定の対象物（個体）のみを認識して抽出することには困難が伴う。例えば不特定多数の画像群から特定の「犬」の画像を抽出する場合、犬らしい被写体を含む画像を抽出することは容易であっても、その中から特定の犬（個体）の画像を抽出することは容易ではない。この場合、例えば該当する犬のみの特徴をディープラーニング等で学習したモデルや、あるいは該当する犬を認識するためのパターンマッチングのモデル（ルール）を事前に用意しなければならず、困難が伴う。

そこで本実施形態では、ＳＮＳから検索した画像群のクラスタリングを行い、クラスタリング結果から、対象商品が含まれるものと推定される画像を推定して抽出する。具体的には、サーバ１は、後述するように機械学習によって構築したモデルを用いて各画像の特徴量を抽出し、抽出した特徴量を複数のクラスタに分割する。なお、特徴量抽出処理の詳細については後述する。

サーバ１は、各クラスタに分割した特徴量のうち、同一クラスタ内の同じ元画像の複数の特徴量は１つとしてカウントした画像数を集計する。そしてサーバ１は、集計した各クラスタの画像数に基づき、いずれかのクラスタに分類された画像群が対象物を含む画像群であるものとして抽出する。例えばサーバ１は、画像数が最多のクラスタに分類された画像群を抽出する。

上述の如く、サーバ１は対象物の名称（商品名）を検索クエリとして画像検索を行っている。従って、検索された画像では、対象物が被写体として含まれる画像が、その他の物体を含む画像よりも多いと推定される。そこで本実施形態では、上記のようにクラスタリングを行い、画像数が最多のクラスタに属する画像群を抽出する。これにより、対象物自体を認識せずとも、対象物が含まれるものと推定される画像群を抽出する。

図２は、サーバ１の構成例を示すブロック図である。サーバ１は、制御部１１、記憶部１２、通信部１３、入力部１４、表示部１５、読取部１６及び大容量記憶部１７を含む。各構成はバスＢで接続されている。

制御部１１はＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の演算処理装置を含み、記憶部１２に記憶された制御プログラム１Ｐを読み出して実行することにより、サーバ１に係る種々の情報処理、制御処理等を行う。なお、図２では制御部１１を単一のプロセッサであるものとして説明するが、マルチプロセッサであっても良い。

記憶部１２はＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等のメモリ素子を含み、制御部１１が処理を実行するために必要な制御プログラム１Ｐ又はデータ等を記憶している。また、記憶部１２は、制御部１１が演算処理を実行するために必要なデータ等を一時的に記憶する。通信部１３は通信に関する処理を行うための通信モジュールであり、ネットワークＮを介して、ＳＮＳサーバ２との間で情報の送受信を行う。

入力部１４は、マウス、キーボード、タッチパネル、ボタン等の入力デバイスであり、受け付けた操作情報を制御部１１へ出力する。表示部１５は、液晶ディスプレイ又は有機ＥＬ（electroluminescence）ディスプレイ等であり、制御部１１の指示に従い各種情報を表示する。

読取部１６は、ＣＤ（Compact Disc）−ＲＯＭ又はＤＶＤ（Digital Versatile Disc）−ＲＯＭを含む可搬型記憶媒体１ａを読み取る。制御部１１が読取部１６を介して、制御プログラム１Ｐを可搬型記憶媒体１ａより読み取り、大容量記憶部１７に記憶しても良い。また、ネットワークＮ等を介して他のコンピュータから制御部１１が制御プログラム１Ｐをダウンロードし、大容量記憶部１７に記憶しても良い。さらにまた、半導体メモリ１ｂから、制御部１１が制御プログラム１Ｐを読み込んでも良い。

大容量記憶部１７は、例えばハードディスク等を含む大容量の記憶装置である。大容量記憶部１７は、検索履歴ＤＢ１７１、抽出画像ＤＢ１７２及び物体検出モデル１７３を含む。検索履歴ＤＢ１７１は、ＳＮＳサーバ２から検索した対象物に関連する画像の情報を記憶している。抽出画像ＤＢ１７２は、検索された画像の内、対象物を含むものとして抽出した画像に関する情報を記憶している。物体検出モデル１７３は、画像内の物体を検出する検出器であり、機械学習により生成された学習済みモデルである。

なお、本実施形態において記憶部１２及び大容量記憶部１７は一体の記憶装置として構成されていても良い。また、大容量記憶部１７は複数の記憶装置により構成されていても良い。更にまた、大容量記憶部１７はサーバ１に接続された外部記憶装置であっても良い。

なお、本実施形態では、サーバ１は一台の情報処理装置であるものとして説明するが、複数台により分散して処理させても良く、または仮想マシンにより構成されていても良い。

図３は、検索履歴ＤＢ１７１のレコードレイアウトの一例を示す説明図である。検索履歴ＤＢ１７１は、検索ＩＤ列、検索クエリ列、検索日時列及び検索画像列を含む。検索ＩＤ列は、各検索の履歴データを識別するために、一意に特定される検索の履歴データのＩＤを記憶している。検索クエリ列は、対象物を検索する際の使われる検索クエリを記憶している。検索クエリは、例えばキーワード検索、ハッシュタグ検索等に用いる単語である。検索日時列は、対象物に関連する画像を検索した日時情報を記憶している。検索画像列は、検索された対象物に関連する画像を記憶している。

図４は、抽出画像ＤＢ１７２のレコードレイアウトの一例を示す説明図である。抽出画像ＤＢ１７２は、検索ＩＤ列及び抽出画像列を含む。検索ＩＤ列は、対象物に関連する画像を検索した履歴データのＩＤを記憶している。抽出画像列は、収集対象外の画像を取り除いて収集対象の画像を記憶している。

図５は、画像特徴量を抽出する動作を説明する説明図である。サーバ１の制御部１１は、対象物を表す検索クエリ（例えば、対象物の固有名称）を入力部１４により受け付ける。制御部１１は、受け付けた検索クエリに基づき、不特定多数の人物がネットワークＮを介してＳＮＳサーバ２にアップロードした各投稿記事に含まれる画像から、対象物に関連する画像群を通信部１３により検索する。

制御部１１は、検索した対象物に関連する画像群を大容量記憶部１７の検索履歴ＤＢ１７１に記憶する。具体的には、制御部１１は、検索ＩＤを振って、検索クエリ、検索日時、及び検索された対象物に関連する画像群を一つのレコードとして検索履歴ＤＢ１７１に記憶する。

制御部１１は、検索した画像ごとに、画像内に含まれる各被写体（物体）に対応する画像領域の特徴量を抽出する。例えば制御部１１は、画像内の物体を検出する物体検出モデル１７３であって、ディープラーニングにより構築された物体検出モデル１７３の一部を用いて画像特徴量を抽出する。

サーバ１の制御部１１は、所定の教師データを用いて教師用画像の特徴量を学習するディープラーニングを行うことで物体検出モデル１７３を構築（生成）する。例えば、物体検出モデル１７３はＣＮＮ（Convolution Neural Network）であり、画像の入力を受け付ける入力層と、画像内の物体を検出した検出結果を出力する出力層と、各物体に対応する画像領域の特徴量を抽出する中間層とを有する。

入力層は、検索された対象物に関する画像群に含まれる各画像の画素の画素値の入力を受け付ける複数のニューロンを有し、入力された画素値を中間層に受け渡す。中間層は、画像特徴量を抽出する複数のニューロンを有し、抽出した画像領域の特徴量を出力層に受け渡す。例えば物体検出モデル１７３がＣＮＮである場合、中間層は、入力層から入力された各画素の画素値を畳み込むコンボリューション層と、コンボリューション層で畳み込んだ画素値をマッピングするプーリング層とが交互に連結された構成を有する。中間層は、領域の画素情報を圧縮しながら最終的に画像特徴量を抽出する。出力層は、中間層から出力された画像特徴量に基づいて、画像内の物体を検出した検出結果を出力する。

例えば制御部１１は、物体検出モデル１７３として、ＣＮＮの一種であるＲ−ＣＮＮ（Regins with CNN）、セマンティックセグメンテーション、ＹＯＬＯ（You Look Only Once）、ＳＳＤ（Single Shot MultiBox Detector）等のニューラルネットワークを構築してある。Ｒ−ＣＮＮ、セマンティックセグメンテーション等はいずれも、画像内に含まれる各物体の画像領域を特定して、特定した画像領域毎に各物体が何であるかを識別するニューラルネットワークである。物体検出モデル１７３は、図５に示すように、入力層において画像の入力を受け付けた場合、中間層にて画像内の各物体に対応する画像領域を特定して各領域の特徴量を抽出し、各画像領域に含まれる物体が何であるかを識別した識別結果が出力層から出力されるよう構成されている。

しかしながら、既に述べたように、特定の対象物（個体）を検出可能な物体検出モデル１７３を構築することは難しく、物体検出モデル１７３は画像内の物体の一般名称（種類）を検出するに留まる。そこで本実施の形態では、物体検出モデル１７３を用いて対象物を直接検出するのではなく、物体検出モデル１７３から出力層を除去して入力層及び中間層のみを用いることで、物体検出モデル１７３の一部を、各物体に対応する画像領域の特徴量を抽出するための抽出モデルとして用いる（図５下側参照）。制御部１１は物体検出モデル１７３（の入力層及び中間層）を用いて、ＳＮＳから検索した各画像から、画像内に含まれる各物体に対応する画像領域の特徴量を抽出する。

なお、本実施の形態において制御部１１は、ディープラーニングによって構築された物体検出モデル１７３を用いて画像特徴量を抽出するものとするが、例えば制御部１１は、Ａ−ＫＡＺＥ（Accelerated KAZE）、ＳＩＦＴ（Scale Invariant Feature Transform）、ＳＵＲＦ（Speeded-Up Robust Features）、ＯＲＢ（Oriented FAST and Rotated BRIEF）、ＨＯＧ(Histograms of Oriented Gradients)等の局所特徴量抽出方法を用いて特徴量を抽出しても良い。すなわち制御部１１は、検索した各画像の特徴量を抽出可能であればよく、その抽出方法は特に限定されない。

図６は、画像特徴量に基づくクラスタリング処理を示す説明図である。サーバ１の制御部１１は、抽出した各画像領域の特徴量に応じて、クラスタ分類（クラスタリング）を行う。クラスタリング処理に関しては、例えば、Ｋ−ｍｅａｎｓ法（ｋ平均法）、Ｘ−ｍｅａｎｓ法を利用しても良い。Ｋ−ｍｅａｎｓ法は、非階層型クラスタリングのアルゴリズムであり、予め決められたクラスタ数「ｋ」個に分類する。Ｘ−ｍｅａｎｓ法は、Ｋ−ｍｅａｎｓ法の変形であり、最適なクラスタ数「ｋ」を自動的に推定するアルゴリズムである。制御部１１は、各物体に対応する画像領域ごとに行い、各画像領域をいずれかのクラスタに分類する。

制御部１１は、各クラスタに分類した画像領域の数を集計する。そして、制御部１１は、集計した各クラスタの画像領域の数に基づき、複数のクラスタのいずれかを選択する。例えば制御部１１は、画像数が最多のクラスタを選択しても良い。制御部１１は、選択したクラスタに分類された画像領域を有する画像群を抽出する。

図６では、画像Ａ、画像Ｂ、画像Ｃ及び画像Ｄのクラスタリングを行う様子を図示している。例えば、サーバ１の制御部１１は、上述したクラスタリング処理によりクラスタ分類を行い、「クラスタ１」、「クラスタ２」及び「クラスタ３」に分類する。制御部１１は、それぞれの「クラスタ１」、「クラスタ２」及び「クラスタ３」に分類した画像領域の数を集計し、集計した画像領域の数が多いクラスタを選択する。例えば、クラスタそれぞれに分類された画像領域の数が多いクラスタがクラスタ１である場合、制御部１１は、対象物に対し画像領域の特徴量がクラスタ１に多く含まれることを推定してクラスタ１を選択する。これにより、制御部１１は、選択したクラスタ１に分類された画像領域を有する画像群（画像Ａ、画像Ｂ及び画像Ｃ）を抽出する。

制御部１１は、抽出した対象物の画像群を検索ＩＤに対応付けて大容量記憶部１７の抽出画像ＤＢ１７２に記憶する。また、制御部１１は、上記で抽出した対象物の画像群に対して対象物の情報をラベリングすることで、対象物の画像を学習するための教師データを生成する。具体的には、制御部１１は、抽出した画像において、上記で選択したクラスタ（上述の例では「クラスタ１」）に分類された画像領域に対して対象物の固有名称（例えば商品名）を関連付けた教師データを生成する。これにより、例えば制御部１１は当該教師データを用いて物体検出モデル１７３の再学習を行うことで、特定の対象物（個体）を検出可能なモデルを構築することができる。

図７は、画像特徴量に基づくクラスタ分類により所望画像を抽出する際の処理手順を示すフローチャートである。サーバ１の制御部１１は、対象物を表す検索クエリ（例えば、対象物の固有名称）を入力部１４により受け付ける（ステップＳ１０１）。制御部１１は、受け付けた検索クエリに基づき、不特定多数の人物がネットワークＮを介してＳＮＳサーバ２にアップロードした各投稿記事に含まれる画像から、対象物に関連する画像群を通信部１３により検索する（ステップＳ１０２）。制御部１１は、検索した対象物に関連する画像群を大容量記憶部１７の検索履歴ＤＢ１７１に記憶する（ステップＳ１０３）。

制御部１１は、検索した対象物に関連する画像ごとに、画像内に含まれる各物体に対応する画像領域の特徴量を抽出する（ステップＳ１０４）。制御部１１は、抽出した各画像領域の特徴量に応じて、クラスタ分類を行う（ステップＳ１０５）。制御部１１は、各クラスタに分類した画像領域の数を集計する（ステップＳ１０６）。制御部１１は、集計した各クラスタに分類した画像領域の数に基づき、複数のクラスタのいずれかを選択する（ステップＳ１０７）。例えば制御部１１は、画像領域の数が最多のクラスタを選択しても良い。制御部１１は、選択したクラスタに分類された画像領域を有する画像群を抽出する（ステップＳ１０８）。

制御部１１は、抽出した画像群を検索ＩＤに対応付けて大容量記憶部１７の抽出画像ＤＢ１７２に記憶する（ステップＳ１０９）。制御部１１は、ステップＳ１０８で抽出した画像群に対し、ステップＳ１０７で選択した画像領域に対象物の情報と関連付けた教師データを生成する（ステップＳ１１０）。

本実施形態によると、画像特徴量におけるクラスタリング処理を利用し、収集対象外の画像を取り除いて対象物の画像を抽出することができる。よって、対象物と無関係な画像を排除するため、抽出の精度を向上することが可能となる。

（実施形態２）
実施形態２は、物体検出モデル１７３によって、画像内の物体の種類（一般名称）を検出し、ＳＮＳから検索された画像群全体での各種類の物体の出現頻度に基づき、所望画像を抽出する形態に関する。なお、実施形態１と重複する内容については説明を省略する。

図８は、実施形態２のサーバ１の構成例を示すブロック図である。なお、図２と重複する内容については同一の符号を付して説明を省略する。大容量記憶部１７は、頻度集計ＤＢ１７４を含む。頻度集計ＤＢ１７４は、複数の画像の中から検出した各種類の物体の出現頻度を記憶している。

図９は、頻度集計ＤＢ１７４のレコードレイアウトの一例を示す説明図である。頻度集計ＤＢ１７４は、検索ＩＤ列、種類列及び頻度列を含む。検索ＩＤ列は、画像を検索した履歴データのＩＤを記憶している。種類列は、画像の中から検出された物体の種類を記憶している。頻度列は、種類ごとの物体の出現回数を記憶している。

図１０は、各種類の物体の出現頻度に応じて所望画像を抽出する動作を説明する説明図である。図１０に基づき、本実施形態の概要を説明する。

本実施形態でサーバ１の制御部１１は、物体検出モデル１７３から出力層を除去せず、本来の物体検出用のモデルとして機能させる。制御部１１は、ＳＮＳサーバ２から取得した画像群を物体検出モデル１７３に入力し、各画像に含まれる物体の普通名称、たとえば物体の種類を示す検出結果を物体検出モデル１７３から取得する。これにより、図１０に示すように、各物体の画像領域ごとに物体の種類を識別した結果が出力される。

制御部１１は、各画像の検出結果に基づき、ＳＮＳサーバ２から取得した画像群全体での各種類の物体の出現頻度を集計する。制御部１１は、集計した各種類の物体の出現頻度を検索ＩＤに対応付け、検索ＩＤ、種類及び出現頻度を一つのレコードとして頻度集計ＤＢ１７４に記憶する。制御部１１は、頻度が一番高い物体の種類を判定し、判定した種類の物体を含む画像群を、対象物を含む画像群として取得する。

図１１は、各種類の物体の出現頻度に応じて所望画像を抽出する際の処理手順を示すフローチャートである。なお、図７と重複する内容については同一の符号を付して説明を省略する。制御部１１は、物体検出モデル１７３を用いて、ＳＮＳサーバ２から検索した対象物に関する画像群から各画像内の物体を検出する（ステップＳ１３１）。制御部１１は、検出した各画像に含まれる物体の種類に応じて、各物体の種類の出現頻度を集計する（ステップＳ１３２）。制御部１１は、集計した種類ごとの出現頻度を検索ＩＤに対応付けて頻度集計ＤＢ１７４に記憶する（ステップＳ１３３）。制御部１１は、頻度が一番高い物体の種類を取得し、取得した種類に基づき、物体検出モデル１７３から出力された該種類に対応付けた画像群を抽出する（ステップＳ１３４）。制御部１１は、抽出した画像群を大容量記憶部１７の抽出画像ＤＢ１７２に記憶する（ステップＳ１３５）。

本実施形態によると、各種類の物体の出現頻度を集計し、集計した頻度に応じて画像を抽出する。これによって、例えば実施形態１の処理によって、対象物と異なる物体が誤って最多のクラスタに分類されたような場合でも、誤抽出を防止することができ、画像抽出の精度を向上することが可能となる。

（実施形態３）
実施形態３は、物体検出モデル１７３で検出した物体の普通名称と、対象物の名称とが類似するか否かを判定することで、所望画像を抽出する形態に関する。なお、実施形態２と重複する内容については説明を省略する。

サーバ１は、対象物に関する画像群を検索した際の検索クエリ（例えば、対象物の名称）の類語を抽出し、抽出した類語の類似度が所定閾値以上である場合、該類語に対応する画像を抽出する。類語の抽出処理に関しては、類語辞書またはＷｏｒｄ２Ｖｅｃ等のベクトル化されたデータを利用して抽出しても良い。なお、本実施形態では、類語辞書を用いた例をあげて説明する。

図１２は、実施形態３のサーバ１の構成例を示すブロック図である。なお、図８と重複する内容については同一の符号を付して説明を省略する。大容量記憶部１７は、類語辞書１７５を含む。類語辞書１７５は、同じような意味を持つ言葉をまとめた辞書である。

図１３は、類語辞書１７５のレコードレイアウトの一例を示す説明図である。類語辞書１７５は、テキスト列及び類似度列を含む。テキスト列は、物体の名称（一般名称または固有名称）に相当するテキストを記憶している。類似度列は、各テキストの類似度を記憶している。

図１４は、類語を用いて所望画像を抽出する際の処理手順を示すフローチャートである。なお、図１１と重複する内容については同一の符号を付して説明を省略する。制御部１１は、ステップＳ１３１で検出した物体の種類の名称と、対象物に関する画像群を検索した際の検索クエリ（対象物の名称）との類似度を類語辞書１７５から取得する（ステップＳ１４１）。制御部１１は、取得した類似度に応じて、ステップＳ１０２で検索した画像群から対象物を含む画像を抽出する（ステップＳ１４２）。例えば、制御部１１は、取得した各物体の種類の名称と対象物の名称との類似度が所定の閾値以上であると判定した場合、該当物体を含む画像を抽出する。

本実施形態によると、検出された画像内の物体の種類の名称と対象物の名称との類似度により画像を抽出することで、画像抽出の精度を向上することが可能となる。

（実施形態４）
図１５は、上述した形態のサーバ１の動作を示す機能ブロック図である。制御部１１が制御プログラム１Ｐを実行することにより、サーバ１は以下のように動作する。

検索部１０ａは、ネットワークＮを介して対象物に関連する画像群を検索する。抽出部１０ｂは、検索された各画像の特徴量を抽出する。分類部１０ｃは、画像特徴量に基づき、各画像を複数のクラスタのいずれかに分類する。画像抽出部１０ｄは、クラスタに分類された画像領域を有する画像を抽出する。生成部１０ｅは、抽出部１０ｂが抽出した画像に対し、該画像領域に対象物の情報を関連付けたデータを生成する。検出部１０ｆは、画像に含まれる物体を検出する。

本実施の形態４は以上の如きであり、その他は実施の形態１から３と同様であるので、対応する部分には同一の符号を付してその詳細な説明を省略する。

今回開示された実施形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１情報処理装置（サーバ）
１１制御部
１２記憶部
１３通信部
１４入力部
１５表示部
１６読取部
１７大容量記憶部
１７１検索履歴ＤＢ
１７２抽出画像ＤＢ
１７３物体検出モデル
１７４頻度集計ＤＢ
１７５類語辞書
１ａ可搬型記憶媒体
１ｂ半導体メモリ
１Ｐ制御プログラム
２情報共有サーバ（ＳＮＳサーバ）
１０ａ検索部
１０ｂ抽出部
１０ｃ分類部
１０ｄ画像抽出部
１０ｅ生成部
１０ｆ検出部

Claims

ネットワークを介して対象物に関連する画像をテキストを用いて検索する検索部と、
検索された各画像の特徴量を抽出する抽出部と、
各画像の特徴量をクラスタリングする分類部と、
前記特徴量のクラスタを構成する画像の数に応じて、前記画像を抽出する画像抽出部と
を備えることを特徴とする情報処理装置。
前記抽出部は、前記画像内の各画像領域の前記特徴量を抽出し、
前記分類部は、前記画像領域毎にクラスタリングを行い、
前記画像抽出部は、
前記特徴量のクラスタを構成する前記画像領域の数に応じて、前記複数のクラスタのいずれかを選択し、
選択した前記クラスタを構成する前記画像領域を有する前記画像を抽出する
ことを特徴とする請求項１に記載の情報処理装置。
前記画像抽出部が抽出した前記画像に対し、前記画像領域に前記対象物の情報を関連付けたデータを生成する生成部を備える
ことを特徴とする請求項２に記載の情報処理装置。
前記画像に含まれる物体を検出する検出部を備え、
前記画像抽出部は、検出された前記物体の種類に応じて前記画像を抽出する
ことを特徴とする請求項１〜３のいずれか１項に記載の情報処理装置。
前記画像抽出部は、前記検索部が検索した全ての前記画像における各種類の前記物体の出現頻度に応じて前記画像を抽出する
ことを特徴とする請求項４に記載の情報処理装置。
前記検出部は、前記物体の種類名を特定し、
前記画像抽出部は、前記対象物の名称と、前記物体の種類名との類似度に応じて前記画像を抽出する
ことを特徴とする請求項４又は５に記載の情報処理装置。
ネットワークを介して対象物に関連する画像を検索し、
検索された各画像の特徴量を抽出し、
前記特徴量に基づき前記各画像をクラスタリングし、
前記クラスタ夫々を構成する画像の数に応じて、前記画像を抽出する
情報処理方法。
コンピュータに、
ネットワークを介して対象物に関連する画像を検索し、
検索された各画像の特徴量を抽出し、
前記特徴量に基づき前記各画像をクラスタリングし、
前記クラスタ夫々を構成する画像の数に応じて、前記画像を抽出する
処理を実行させるプログラム。