JP6005837B2

JP6005837B2 - 画像解析装置、画像解析システム、画像解析方法

Info

Publication number: JP6005837B2
Application number: JP2015502616A
Authority: JP
Inventors: 裕樹渡邉; 廣池　敦; 敦廣池
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2013-02-27
Filing date: 2013-02-27
Publication date: 2016-10-12
Anticipated expiration: 2033-02-27
Also published as: CN105027162A; US20160005171A1; WO2014132349A1; JPWO2014132349A1; US10438050B2; CN105027162B; SG11201506229RA

Description

本発明は、画像データに含まれる任意のオブジェクト領域を検出する技術に関するものである。

ＩＴインフラの発展に伴い、大量のマルチメディアデータ（文書、映像・画像、音声、種々のログデータなど）が大規模なストレージに蓄積されるようになった。蓄積された大量のデータから効率的に情報を引き出すために、個々のメディアデータに関しては、様々な情報抽出／検索技術が考案され、実用化されてきた。

マルチメディアデータに対する情報抽出の例として、画像内に含まれるオブジェクト（抽出したい対象物やその部分等を示す）や特定の領域を検出することが考えられる。画像中のオブジェクト検出や領域特定は、文書解析における形態素解析（文書を単語に区切り、品詞を判定する手段）に相当し、画像の意味を解析する上では重要な要素技術である。

画像中のオブジェクト検出手法としては、非特許文献１の手法が広く知られており、デジタルカメラや監視システムにおける顔領域検出機能として、広く製品化されている。非特許文献１の手法においては、検出対象のオブジェクトのサンプル画像を大量に集め、機械学習によって、画像の輝度値に基づく弱識別器を複数生成する。この弱識別器を連結させたロバストな判別器を用いて、画像中の部分領域をしらみ潰しに探索することにより、オブジェクト領域を特定する。

検出対象となるオブジェクトのカテゴリとしては、現在のところ人物の正面顔が最も一般的である。しかし、ストレージに蓄積される幅広いコンテンツを対象とした場合、例えば、車両、動物、建物、図形、種々の物品など、多様なカテゴリを検出対象とすることが望まれている。また、大規模なデータを処理するために、解析処理効率の向上が必要とされている。

解析処理効率の向上に関して、下記特許文献１には、オブジェクトの存在確率を利用して、オブジェクト領域を検出するための画像処理を実施する領域を限定する手法が開示されている。特許文献１の手法は、焦点距離や解像度など、撮像系の静的な情報を利用して、画像処理を実施する領域を決定するものであり、車載カメラのように撮影環境や撮影機器が限定され、構造化されたデータが管理される環境においては有効であると考えられる。

特開２０１０−００３２５４号

Ｐ．ＶｉｏｌａａｎｄＭ．Ｊｏｎｅｓ， "Ｒｏｂｕｓｔｒｅａｌ−ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ"，ＩＪＣＶ２００１，Ｖｏｌ．５７，Ｎｏ．２，ｐｐ．１３７−１５４，２００２．

特許文献１に記載されている技術は、撮影環境がある程度特定され、画像処理の対象となるデータが構造化されていることを前提としている。しかし一般的には、撮影環境や被写体の位置は必ずしも事前に予測できるとは限らない。また、画像処理の対象となるデータがアドホックに生じる環境においては、そのデータは構造化されてないことになる。かかる環境においては、特許文献１に記載されている手法はオブジェクトを検出する時間を短縮するために有効ではないと考えられる。

非特許文献１に記載されている技術は、例えば顔検出のように検出対象物があらかじめ定まっている場合には有効であるが、検出対象物をユーザが逐次指定するような用途においては、サンプルの収集や機械学習を都度実施する必要があるので、処理時間の観点で現実的でない。

本発明は、上記のような課題に鑑みてなされたものであり、画像データのなかから検出対象物を高速に検出することができる画像解析技術を提供することを目的とする。

上記課題を解決するために、例えば請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、画像解析装置であって、画像と画像に含まれる検出済オブジェクトの情報とを記憶する画像記憶部と、オブジェクトを検出する対象となる対象画像を受け取る画像入力部と、対象画像から抽出した特徴量と類似する特徴量を有する類似画像と、類似画像に含まれる検出済オブジェクトの情報と、を画像記憶部から検索する類似画像検索部と、類似画像に含まれる検出済オブジェクトの情報から、対象画像に対して行われる検出処理に使用するパラメータを決定する検出パラメータ決定部と、決定されたパラメータに従って対象画像からオブジェクトを検出する任意オブジェクト検出部と、検出されたオブジェクトおよび対象画像を画像記憶部に蓄積する画像登録部と、検出されたオブジェクトの情報を出力するデータ出力部と、を備えることを特徴とする。

あるいは、入力された対象画像からオブジェクトを検出する画像解析方法であって、対象画像の特徴量を抽出する抽出ステップと、抽出した対象画像の特徴量と類似する特徴量を持つ類似画像を画像記憶部から検索する検索ステップと、検索された類似画像に含まれる検出済オブジェクトの情報をもとに、対象画像に対する検出処理で用いるパラメータを決定する決定ステップと、決定したパラメータに基づいて、対象画像に対し検出処理を行いオブジェクトを検出する検出ステップと、対象画像から検出されたオブジェクトを出力するステップと、対象画像および検出されたオブジェクトを、画像記憶部に記憶する記憶ステップと、を有する画像解析方法。

本発明に係る画像解析装置によれば、画像中から任意のオブジェクトを高速に抽出することができる。上記した以外の課題、構成、および効果は、以下の実施形態の説明により明らかになるであろう。

実施形態１に係る画像解析システム１００の構成図である。画像データベース１０８の構成とデータ例を示す図である。類似画像検索部１０９における画像特徴量の抽出処理と類似画像検索について説明するための図である。任意オブジェクト検出部１１１が、画像中のオブジェクトを検出する方法を説明する図である。任意オブジェクト検出部１１１が、画像中のオブジェクトを検出する処理手順を説明するフローチャートである。検出パラメータ決定部１１０が、シーン判別を用いてオブジェクト検出処理に使用するパラメータを決定する方法を説明するための図である。画像解析装置１０５が、シーン判別に基づくオブジェクト検出を行う処理を説明するためのフローチャートである。検出パラメータ決定部１１０が、シーン判別を用いてオブジェクト検出処理に使用するテンプレートを決定する方法を説明するための図である。検出パラメータ決定部１１０が、シーン判別を用いてオブジェクト検出処理に使用するテンプレートを決定する処理を説明するためのフローチャートである。画像解析システム１００が、シーン判別を用いて画像中のオブジェクトを検出する処理における各機能部間の処理シーケンスを説明するための図である。任意オブジェクト検出部１１１で使用するテンプレートを登録するための操作画面の構成例を示す図である。シーン判別を用いたオブジェクト検出処理を制御するための操作画面の構成例を示す図である。画像解析装置１０５が、解析対象の画像集合をグループ化して一括処理する様子を説明するための図である。画像解析装置１０５が、解析対象の画像集合をグループ化して一括処理する手順を説明するためのフローチャートである。実施形態３に係るコンテンツクラウドシステム１５００の概略図である。

＜システム構成＞
図１は、本発明の実施形態１に係る画像解析システム１００の構成図である。画像解析システム１００は、蓄積された大量の画像から、ユーザが登録したテンプレート画像に類似したオブジェクトの領域を検出することを目的とするシステムである。画像解析システム１００は、画像・映像記憶装置１０１、入力装置１０２、表示装置１０３、データ格納装置１０４、画像解析装置１０５を備える。また、図1には図示していないが、監視カメラからの映像を直接解析できるよう、カメラを備えていてもよい。

画像・映像記憶装置１０１は、画像データや映像（動画像）データを保存する記憶媒体であり、コンピュータに直接接続されたハードディスクドライブ、ＮＡＳ（ＮｅｔｗｏｒｋＡｔｔａｃｈｅｄＳｔｏｒａｇｅ）やＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）などのネットワークで接続されたストレージシステムを用いて構成することができる。また、例えば、カメラから継続的に入力される映像データを一時的に保持するキャッシュメモリであっても良い。画像解析システム１００が処理対象の規模は、例えば、画像であれば数十万件以上、映像であれば数千時間以上の大規模データを想定している。

入力装置１０２は、マウス、キーボード、タッチデバイスなど、ユーザ操作を画像解析装置１０５に伝えるための入力インタフェースである。表示装置１０３は、液晶ディスプレイなどの出力インタフェースであり、画像解析装置１０５の画像解析結果の表示、ユーザとの対話的操作などのために用いられる。データ格納装置１０４は、画像解析装置１０５の解析結果を記録するストレージであり、解析結果を上位のアプリケーションで利用するために用いられる。

画像解析装置１０５は、入力画像中のオブジェクト領域を検出する装置であり、類似画像検索を用いたシーン判別によって検出時のパラメータを決定する。類似画像検索の方法については後述する。シーンとは、画像に映っている場面を説明する単語であり、例えば「室内」、「風景」、「街中」などである。本実施例におけるシーン判別とは、入力画像の画像特徴量と類似した画像特徴量を持つ画像をデータベースから検索することである。本実施例では、検索の結果得られた画像そのものから検出時のパラメータを決定するため、シーンを単語化する必要はない。検出対象は、ユーザがテンプレート画像を登録することで、自由に変更することができる。テンプレート画像とは、検出対象の典型的な画像であり、検出処理ではテンプレート画像と類似したオブジェクトが検出される。画像解析装置１０５は、画像入力部１０６、ユーザ操作入力部１０７、画像データベース１０８、類似画像検索部１０９、検出パラメータ決定部１１０、任意オブジェクト検出部１１１、画像登録部１１２、データ出力部１１３、を備える。

画像入力部１０６は、画像・映像記憶装置１０１から、画像・映像データを読み出し、画像解析装置１０５内部で使用するデータ形式に変換する。この際、映像データは複数のフレーム画像データに分解される。読み込まれたデータは、ユーザがテンプレートを登録する際に画像登録部１１２に送られ、解析処理を行う際には類似画像検索部１０９に送られる。

ユーザ操作入力部１０７は、ユーザによる入力装置１０２の操作を検知し、その信号を類似画像検索部１０９、検出パラメータ決定部１１０、画像登録部１１２に伝え、各部の処理の実行を制御したり、処理に用いるパラメータを変更したりする。

画像データベース１０８は、画像データとその特徴量、オブジェクトの情報と特徴量を保存するデータベースである。画像データベース１０８は、類似画像検索部１０９、任意オブジェクト検出部１１１、画像登録部１１２からアクセスされ、登録済みデータに対する検索／読み出しと、新規データの登録操作が行われる。画像データベースの構造について、詳しくは図２の説明として後述する。

類似画像検索部１０９は、入力画像と見た目の類似した画像を、画像データベース１０８から取得する。検索クエリとして、入力画像から抽出した画像特徴量を用いる。画像特徴量は、例えば、固定長のベクトルで表され、検索処理ではベクトル間のユークリッド距離が近い画像を探索する。通常、類似画像検索は、類似画像のＩＤと類似度のリストを返す操作であるが、類似画像検索部１０９においては、類似画像に含まれるオブジェクトの情報もデータベースから読み出す。類似画像検索について、詳しくは図３の説明として後述する。

検出パラメータ決定部１１０は、類似画像検索部１０９から得られた類似画像に含まれるオブジェクトの情報から、任意オブジェクト検出部１１１の画像認識処理で用いられるパラメータを決定する。パラメータは、例えば、検出したいオブジェクトのサイズ、画像中の位置、種類、特徴量である。類似画像を用いたパラメータの決定について詳しくは、図６と図８を用いて後述する。画像解析装置１０５は、検出パラメータ決定部１１０で決定されたパラメータをそのまま用いても良いし、データ出力部１１３を介して推定したパラメータの候補をユーザに伝え、ユーザ操作入力部１０７を介してユーザからの使用するパラメータを受け取ってもよい。

任意オブジェクト検出部１１１は、画像認識処理によって、画像中からオブジェクトの存在する領域の座標を特定する。任意オブジェクトの検出手法について詳しくは、図４の説明として後述する。図４の手法では、テンプレート画像を入れ替えることで、検出対象を柔軟に変えることができる。また、複数のテンプレート画像を使うことで、同時に複数カテゴリ（例えば、人の顔、車、星マーク、など）を検出対象とすることができる。検出結果は、オブジェクトの外接矩形の座標（例えば、［矩形の左上隅の水平座標，矩形の左上隅の垂直座標，矩形の右下隅の水平座標，矩形の右下隅の垂直座標］）と「物体らしさ」を表す信頼度として、画像登録部１１２とデータ出力部１１３に送られる。

画像解析装置１０５は、ユーザからの指示によって、シーン判別を無効にすることもできる。ユーザ操作入力部１０７から、シーン判別を無効とする指示が出された場合は、類似画像検索部１０９と検出パラメータ決定部１１０での処理はスキップされ、任意オブジェクト検出部１１１の処理が実行される。

画像登録部１１２は、入力画像と任意オブジェクト検出部１１１で検出されたオブジェクトの画像特徴量を抽出し、画像データベース１０８に登録する。入力画像の画像特徴量については、類似画像検索部１０９で抽出済みであれば、改めて抽出する必要はない。また、必ずしも任意オブジェクト検出部１１１で出力された全てのオブジェクトを登録する必要はなく、信頼度が一定以上のオブジェクトのみを登録してもよいし、ユーザとの対話操作によって、登録対象を決定してもよい。登録された画像は、以降に入力される画像を解析する際に、類似画像検索部１０９や任意オブジェクト検出部１１１で利用される。

データ出力部１１３は、検出パラメータ決定部１１０から得られたパラメータ、任意オブジェクト検出部１１１で検出されたオブジェクトの情報を必要に応じて整形／データ変換し、表示装置１０３とデータ格納装置１０４に出力する。

図２は、画像データベース１０８の構成とデータ例を示す図である。ここではテーブル形式の構成例を示すが、データ形式は任意でよい。画像データベース１０８は、画像テーブル２００と、オブジェクトテーブル２１０から構成され、画像と画像中のオブジェクトの情報を関連付けて記録する。

画像テーブル２００は、画像ＩＤフィールド２０１、画像データフィールド２０２、画像特徴量フィールド２０３、画像サイズフィールド２０４を有する。必要に応じて、書誌情報（カテゴリ分類、日時、場所など）を保持するフィールドを追加しても良い。

画像ＩＤフィールド２０１は、各画像データの識別番号を保持する。画像データフィールド２０２は、画像データをバイナリ形式で保持するフィールドであり、ユーザが解析結果を確認する際に用いられる。画像特徴量フィールド２０３は、画像特徴量データを保持する。画像特徴量は、画像そのものの持つ色や形状などの特徴を数値化した、固定長の数値ベクトルデータである。画像特徴量フィールドを複数用意し、例えば、形状特徴量と色特徴を別のフィールドで管理しても良い。画像サイズフィールド２０４は、画像のサイズを保持する。画像のサイズは、例えば、２次元のベクトル［水平方向のピクセル数，垂直方向のピクセル数］で表現する。図２では一例として、全て同じサイズの場合を示しているが、サイズの異なる画像であっても構わない。サイズが異なる画像の場合には、後述する正規化処理を行う。

オブジェクトテーブル２１０は、オブジェクトＩＤフィールド２１１、画像ＩＤフィールド２１２、領域座標フィールド２１３、画像特徴量フィールド２１４を有する。必要に応じて、オブジェクトのカテゴリ（人、マーク、車、などの抽象概念を表すラベル）を保持するフィールドを追加しても良い。

オブジェクトＩＤフィールド２１１は、各画像データの識別番号を保持する。画像ＩＤフィールド２１２は、該当オブジェクトの映っている画像のＩＤを保持する。画像ＩＤは、画像テーブル２００で管理されるＩＤを使用する。領域座標フィールド２１３は、オブジェクトの外接矩形の情報を保持する。外接矩形の情報は、例えば、４次元のベクトル［矩形の左上隅の水平座標，矩形の左上隅の垂直座標，矩形の右下隅の水平座標，矩形の右下隅の垂直座標］で表現する。画像特徴量フィールド２１４は、オブジェクト領域の画像特徴量データを保持する。オブジェクト領域の画像特徴量は、必ずしも画像全体の特徴量と同じアルゴリズムで計算しなくてもよい。

画像テーブル２００には、画像に含まれるオブジェクトの情報を高速に読み出すために、オブジェクトＩＤのリストを保持するフィールドを追加しても良い。

＜各部の動作＞
以上、画像解析システム１００の全体構成を説明した。以下では画像解析システム１００の動作原理を概説した上で、各機能部の詳細動作を説明する。

（類似画像検索の説明）
図３は、画像解析システム１００で用いる画像特徴量の抽出手順の一例である。本手法では、まず入力画像から複数の解像度の画像を生成する。次に、各解像度の画像を領域分割する。各領域に含まれる特徴的なエッジパターンの数を集計することでヒストグラムをつくり、これを多次元のベクトルとする。パターン毎の分布の偏りを補正するための正規化を行い、得られた数千次元のベクトルを主成分分析などにより次元圧縮することで、システムが扱いやすい数百次元程度の固定長ベクトルデータとして保存する。このようにして得られたベクトルデータは、見た目の似た画像間で近い値になるため、類似画像検索に用いることができる。なお、画像の見た目の特徴を表すベクトルデータであれば、一般に広く知られているＭＰＥＧ−７で規定されているエッジヒストグラム特徴など、他の特徴量を用いてもよい。

類似画像検索は、画像特徴量のベクトル間の類似度を評価することで、似たデータを探索する処理である。２つのｎ次元ベクトルＸとＹの非類似度ｄは、例えば、数１のように、ユークリッド距離の２乗で求めることができる。ＸｉとＹｉは、それぞれベクトルＸとベクトルＹのｉ番目の要素である。

・・・数１
類似画像を得るには、基本的には、データベース内の全ての画像に対して、数１を用いてクエリ画像の特徴量との非類似度を求め、非類似度の小さい順にソーティングして出力すればよい。しかし、データ量に応じて処理時間が線形に増加するため、大規模なデータベースを検索することは困難である。そこで、予め似たデータを集めたグループを生成するクラスタリング処理を事前に行なっておく。クラスタリングの手法として、例えば、Ｋ−ｍｅａｎｓ法が知られている。Ｋ−ｍｅａｎｓ法は、クラスタの平均値を用いて、データ集合を与えられたクラスタ数Ｋ個のクラスタに自動分割する。検索時には、まず、クラスタの平均ベクトルとの距離を求め、距離の近いクラスタに所属する画像に対してのみ、類似度を評価する。クラスタリング済みのデータベースを用いることで、大規模データベースに対する高速類似画像検索を実現することができる。例えば、２００次元の特徴量を用いて、４００万件の画像データベースから１０００枚の類似画像を検索する処理は、一般的なＰＣサーバを用いた場合でも、１０ミリ秒程度で実行できる。

以上に述べた手順に従うと、画像の見た目の特徴を表す固定長ベクトルの特徴量表現であれば、どのような特徴量を用いても類似画像検索を実現することができるが、データベース画像とクエリ画像の特徴量は同一のアルゴリズムで抽出される必要がある。
（任意オブジェクト検出の説明）
図４は、任意オブジェクト検出部１１１におけるオブジェクト領域の検出方法の一例について説明する図である。本手法は、検出したいオブジェクトの典型的な画像（テンプレート画像）を複数枚用意しておき、いずれかのテンプレートと見た目の類似する領域を探索することにより、画像内においてオブジェクトが存在する領域を検出するものである。

まず、検出したいオブジェクトのテンプレート画像の画像特徴量を抽出し、あらかじめテンプレートデータベース４０４に保存しておく。テンプレートデータベース４０４は、例えば複数のオブジェクトを検出したい場合は、それら各オブジェクトに対応する複数のテンプレート（検出対象物の画像）を保持することができる。画像解析システム１００において、テンプレートの特徴量とは、画像データベース１０８に蓄積されたオブジェクトの特徴量そのものである。解析処理を実行する際には効率化のため、あらかじめ画像データベース１０８からオブジェクトの特徴量を読み出し、計算機のメモリ上にテンプレートデータベースとして記憶しておく。

任意オブジェクト検出部１１１は、入力画像４０１が与えられると、走査窓４０２の位置やサイズを変動させ、オブジェクトの候補領域４０３を抽出する。画像の撮影条件に制約がない場合、画像中のオブジェクトの相対的なサイズは不定であるため、図４のように様々なサイズの操作窓を用いて、大量の候補領域を抽出する必要がある。

次に、全ての候補領域４０３に対して、テンプレートデータベース４０４内の複数のテンプレートの中から、特徴量ベクトルが候補領域４０３の特徴量ベクトルと最も近いもの（最近傍テンプレート）を探索する。最近傍テンプレートの距離が所定閾値以下であれば、候補領域４０３にはそのテンプレートのオブジェクトが含まれていると判定し、その候補領域４０３を検出結果に加える。検出結果４０７は、オブジェクト領域の座標と、最近傍テンプレートとの距離のリストで出力される。このとき、最近傍テンプレートとの距離を、検出結果の信頼度として用いることができる。

最近傍テンプレートの探索処理は、テンプレートデータベース４０４に登録されるテンプレート数に応じて遅くなる。類似画像検索の説明で述べたとおり、予め特徴量ベクトルのクラスタリング処理を実施しておけば、テンプレート数の増加に伴う速度劣化をある程度は抑えることができるが、高速化のためには比較されるテンプレート数を極力減らすことが望ましい。

図５は、任意オブジェクト検出部１１１がオブジェクトを検出する処理を説明するフローチャートである。以下、図５の各ステップについて説明する。
（図５：ステップＳ５００）
任意オブジェクト検出部１１１は、画像データベース１０８からユーザーがテンプレートとして指定したオブジェクトの特徴量を読み出し、テンプレートデータベースとしてメモリに保持する。複数の入力画像に対して、同じ条件で検出処理を行う場合は、本ステップは最初の１回のみ実施すれば良い。
（図５：ステップＳ５０１）
任意オブジェクト検出部１１１は、入力画像４０１内の候補領域４０３を抽出する。候補領域４０３は、走査窓をステップ毎に移動し、またはサイズ変更することにより、機械的に抽出される。
（図５：ステップＳ５０２〜Ｓ５０６）
任意オブジェクト検出部１１１は、全ての候補領域４０３について、ステップＳ５０２〜ステップＳ５０６を実施する。
（図５：ステップＳ５０３）
任意オブジェクト検出部１１１は、候補領域４０３の信頼度を算出する。信頼度の算出方法としては、例えば図４で述べたように、最近傍テンプレートの特徴量と候補領域４０３の特徴量の間の距離を用いることができる。
（図５：ステップＳ５０４〜Ｓ５０５）
ステップＳ５０３で求めた候補領域４０３の信頼度が所定閾値以下であればステップＳ５０５に移動し、それ以外であればステップＳ５０５をスキップする（Ｓ５０４）。任意オブジェクト検出部１１１は、信頼度が所定閾値である候補領域４０３を、検出結果リストに追加する（Ｓ５０５）。
（図５：ステップＳ５０７）
任意オブジェクト検出部１１１は、検出結果リストを出力し、本処理フローを終了する。検出結果は、入力画像４０１内の座標情報（例えば、［矩形の左上隅の水平座標，矩形の左上隅の垂直座標，矩形の右下隅の水平座標，矩形の右下隅の垂直座標］）と信頼度の組として出力される。

図４の手法は、入力画像に対する事前知識となる情報（例えば、特定の地点を撮影した固定カメラ映像、など）がない場合は、あらゆるサイズの候補領域に対して、全てのテンプレートを対象とした最近傍テンプレート探索を行う必要があるため、非常に計算コストが高い。

例えば、１００００枚のテンプレートを使用して、横幅６４０、縦幅４８０の画像から横幅３２、縦幅３２以上のオブジェクトを検出するという条件での処理時間は、一般的なＰＣサーバを用いた場合、平均６００ミリ秒程度となる。監視映像の解析などのように、リアルタイムの応答が必要になる場合や、ストレージに蓄積され続ける大量の画像データを対象とした場合は、実用上の課題になる。

また、精度面においても、画像の見た目の特徴を用いた判定を行なっているため、サイズが小さく、特徴が安定しない領域は、誤検出の原因になりやすい。
そこで、本システムでは、蓄積された画像とオブジェクトの情報を用いて、入力画像のシーンを自動判定し、シーンに適応した検出パラメータを推定することで、効率的な検出処理を実現する。

図６は、シーン判定を用いた検出パラメータの決定方法を説明する図である。本手法では、まず、入力画像６０１をクエリとした類似画像検索を行い、画像データベース１０８から画像全体の見た目が類似した画像６０２を取得する。特徴量抽出および類似画像検索の方法は、図３の説明として前述したとおりである。

通常の類似画像検索では、類似画像とその類似度が出力となるが、本実施例の画像解析システム１００では、画像データベース１０８に、過去にオブジェクトを検出済の画像を蓄積しておくことにより、類似画像６０２およびその中に含まれるオブジェクトの位置とサイズとを合わせて取得することができる。図６において、類似画像６０２の点線の矩形がオブジェクトの位置を表している。

類似画像６０２が得られると、検出パラメータ決定部１１０では、類似画像６０２に含まれるオブジェクトの情報から、検出処理の対象となる領域のマスキング処理６０３と、走査窓の種類の決定処理６０４を行う。

領域のマスキング処理６０３では、各類似画像に含まれるオブジェクトの領域を２次元座標上に投影することで、領域の加算処理を行う。この際、画像間でサイズの違いがあるため、座標の正規化を行う。画像データベース１０８に十分な数の画像が蓄積されており、類似画像６０２が多数得られる場合は、単純に領域の重なりを求め、類似画像にオブジェクトが存在する場所を検出処理対象の領域にすればよい。類似画像の数が少ない場合は、例えば、各オブジェクト領域をガウス分布で近似し、検出対象領域をオブジェクト領域より広げてもよい。

走査窓の決定処理６０４では、オブジェクトの矩形毎に出現数を集計し、出現数が所定閾値以上になった大きさの矩形を、走査窓として用いる。この際、類似した矩形については同一のものとして集計する。例えば、３２×３２ピクセルの矩形と３２×３０ピクセルの矩形は、同一の矩形と考える。

このように、類似画像６０２中にオブジェクトの情報をもとに、入力画像におけるオブジェクト検出する検出対象領域と走査窓の大きさを有る程度限定することで、オブジェクト検出に係る処理負荷を低減することができる。

図７は、画像解析装置１０５が、シーン判定を用いたオブジェクト検出を行う処理手順を表したフローチャートである。以下、図７の各ステップについて説明する。
（図７：ステップＳ７０１）
画像入力部１０６は、画像・映像記憶装置１０１から画像データを読み出し、装置内で利用可能なデータ形式に変換する。映像データの場合は、複数のフレーム画像に分割し、それぞれを以降のステップで処理する。
（図７：ステップＳ７０２）
ユーザ操作入力部１０７は、シーン判別処理を行うか否かの判断をユーザから受け取り、シーン判別処理を行う場合はステップＳ７０３へ移動し、行わない場合は、ステップＳ７０３〜Ｓ７０５をスキップし、ステップＳ７０６へ移動する。
（図７：ステップＳ７０３）
類似画像検索部１０９は、ステップＳ７０１で読み込まれた入力画像をクエリとして画像データベース１０８に対して類似画像検索を行い、類似画像のＩＤと類似度のリストを得る。
（図７：ステップＳ７０４）
類似画像検索部１０９は、類似画像のＩＤから類似画像中に含まれるオブジェクトの情報（画像中に占めるオブジェクトの位置、サイズ）を、画像データベース１０８から読み出す。
（図７：ステップＳ７０５）
検出パラメータ決定部１１０は、類似画像に含まれるオブジェクトの情報を用いて、オブジェクト検出に用いるパラメータを決定する。パラメータの決定方法は図６で述べたとおりであり、解析対象となる領域や走査窓の種類が決定される。
（図７：ステップＳ７０６）
任意オブジェクト検出部１１１は、決定された検出パラメータに従って、入力画像中から任意のオブジェクト領域を検出する。検出方法の一例と手順は、それぞれ図４と図５の説明として記載したとおりである。シーン判別を行わない場合は、パラメータを絞りこまず網羅的に探索する。
（図７：ステップＳ７０７）
画像登録部１１２は、ユーザ操作入力部１０７から、検出結果をデータベースに蓄積するか否かの指示を受け取り、蓄積する場合はステップＳ７０８を実施し、蓄積しない場合にはＳ７０８をスキップする。
（図７：ステップＳ７０８）
画像登録部１１２は、入力画像と検出されたオブジェクトを関連付けて画像データベース１０８に登録する。入力画像については類似画像検索部１０９で類似画像検索処理に用いるための特徴量を抽出し、オブジェクト領域については任意オブジェクト検出部１１１でオブジェクト検出処理に用いるための特徴量を抽出する。
（図７：ステップＳ７０９）
データ出力部１１３は、外部のデバイスに出力して本処理フローを終了する。アプリケーションに応じて、表示装置１０３に表示しても良いし、データ格納装置１０４に出力しても良い。

図８は、シーン判定を用いた検出対象の絞り込み処理を説明するための図である。本手法では、図６と同様に、入力画像６０１をクエリとした類似画像検索を行い、画像データベース１０８から画像全体の見た目が類似した画像６０２を取得する。

類似画像６０２が得られると、検出パラメータ決定部１１０では、類似画像６０２に含まれるオブジェクトのＩＤを取得し、オブジェクトＩＤのリストを任意オブジェクト検出部１１１に渡す。

任意オブジェクト検出部１１１は、図４で説明したとおり、入力画像から候補領域を抽出し、各候補領域に対してテンプレートデータベース内の各画像との距離計算を行い、最近傍テンプレートを求める。ここで使用するテンプレートとは、画像データベース１０８に登録された、オブジェクトの特徴量に他ならない。そのため、オブジェクトのＩＤを指定することで、使用するテンプレートを限定することが可能である。

そこで、本手法では、検出パラメータ決定部１１０から送られてきたオブジェクトＩＤのリストを利用し、リストに含まれるオブジェクトをテンプレートとし、類似画像６０２中のオブジェクトとのみ距離計算を行う。概念的には、図８に示すように、テンプレートデータベース全体の特徴量空間４０４から、シーンに適応した部分特徴量空間８０１を切り出して、候補領域４０３の判定に用いていることになる。

この際に、類似画像６０２中に含まれるオブジェクトだけでなく、各オブジェクトに類似するオブジェクトを取得し、テンプレートを増やしてもよい。また、画像データベース１０８のオブジェクトテーブル２１０にオブジェクトのカテゴリの情報が含まれている場合には、同一カテゴリのオブジェクトをテンプレートに加えても良い。

図４の方法では、最近傍テンプレートを求めるために全てのテンプレートとの距離計算が必要になるため、テンプレートの数に応じて処理速度が劣化する。一方、図８の手法では、シーンに応じてテンプレートの数を限定する事ができるため、高速な処理が可能となる。また、本手法は、オブジェクトの誤検出を防止する効果も期待できる。例えば、航空写真が入力された場合、顔のテンプレートを用いると誤って顔のパターンに似た地形の領域が検出される可能性がある。予めシーン判定によって、「航空写真には顔が存在することはありえない」という情報を暗に与えてやることにより、シーンに不適当なテンプレートを除去することができる。

図９は、画像解析装置１０５が、シーン判定を用いた検出対象の絞り込みを行う処理手順を表したフローチャートである。本処理は、図７のステップＳ７０５の検出パラメータの決定処理に追加される処理であり、類似画像検索を用いたシーン判別処理は、図７のステップＳ７０３〜Ｓ７０４と同様である。
以下、図９の各ステップについて説明する。
（図９：開始（図７のステップＳ７０３〜Ｓ７０４））
類似画像検索部１０９は、入力画像と類似する画像を画像データベース１０８から取得し、各類似画像のＩＤから類似画像に含まれるオブジェクトのＩＤを取得する。
（図９：ステップＳ９０１）
検出パラメータ決定部１１０は、類似画像に含まれるオブジェクトのＩＤのリストを生成する。
（図９：ステップＳ９０２）
ユーザ操作入力部１０７は、類似テンプレートを使用するか否かの判断をユーザから受け取り、使用する場合はステップＳ９０２〜Ｓ９０６の処理を実施し、使用しない場合はＳ９０７に移動する。
（図９：ステップＳ９０３〜Ｓ９０６）
検出パラメータ決定部１１０は、ステップＳ９０１で生成したリストの含まれる全てのオブジェクトＩＤに対して、ステップＳ９０３〜Ｓ９０６を実施する。
（図９：ステップＳ９０４）
検出パラメータ決定部１１０は、オブジェクトＩＤを指定して、画像データベース１０８から類似オブジェクトを取得する。類似オブジェクトの検索は、入力画像をクエリとした類似画像検索と同様に、類似特徴量ベクトルの検索処理である。画像データベース１０８にはオブジェクト領域の特徴量が登録済みであるため、改めて特徴量を抽出する必要はなく、特徴量の比較処理のみが実施される。
（図９：ステップＳ９０５）
検出パラメータ決定部１１０は、検索結果から類似度が所定範囲に収まるオブジェクトをリストに加える。
画像データベース１０８のオブジェクトテーブル２１０にオブジェクトのカテゴリの情報が含まれるなら、Ｓ９０４〜Ｓ９０５は、同一カテゴリのオブジェクトを検索し、リストに加える処理に置き換えても良い。
（図９：ステップＳ９０７）
任意オブジェクト検出部１１１は、リストに含まれるオブジェクトの特徴量を画像データベースから読み出し、テンプレートデータベースとする。ステップＳ９０７は、図５のステップＳ５００を置き換える処理である。

図１０は、画像解析システム１００が、画像中の物体領域を特定する処理における、ユーザ１００１、計算機１００２、画像データベース１０８の処理シーケンスを説明する図である。以下、図１０の各ステップについて説明する。
［シーン判定処理］（図１０：ステップＳ１００３〜Ｓ１００５）
ユーザ１００１は画像・映像記憶装置１０１に格納されている画像からオブジェクト検出する画像を選択し、入力装置１０２を介してシーン判定の有無を計算機１００２に入力する（Ｓ１００３）。計算機１００２は、類似画像検索部１０９において、入力された画像から特徴量を抽出し（Ｓ７０３）、その特徴量ベクトルをクエリとして画像データベース１０８に対して、類似画像検索の実行を要求する（Ｓ１００４）。画像データベース１０８は、類似画像のＩＤと類似度のリストを返却する（Ｓ１００５）。
［パラメータ決定処理］（図１０：ステップＳ１００６〜Ｓ１００９）
計算機１００２は、類似画像のＩＤをクエリとした書誌情報検索を画像データベース１０８に対して要求する（Ｓ１００６）。画像データベース１０８は、各オブジェクトの情報をリストとして返却する（Ｓ１００７）。計算機１００２は、検出パラメータ決定部１１０において、オブジェクト検出に用いるパラメータとテンプレートを決定する（Ｓ７０５）。計算機１００２は、表示装置１０３を介して、ユーザ１００１にパラメータを伝える（Ｓ１００８）。ユーザ１００１は、計算機から提示されたパラメータを確認し、必要であればパラメータの調整指示を、入力装置１０２を介して計算機１００２に伝える（Ｓ１００９）。
［オブジェクト検出処理］（図１０：ステップＳ１０１０〜Ｓ１０１２）
計算機１００２は、任意オブジェクト検出部１１１において、オブジェクトのＩＤリストを指定して、テンプレートとして使用するオブジェクトの特徴量を画像データベース１０８に要求する（Ｓ１０１０）。画像データベース１０８は、リストに含まれるオブジェクトの特徴量を計算機１００２に返却する（Ｓ１０１１）。計算機１００２は、任意オブジェクト検出部１１１において、取得したテンプレートのデータベースを用いて、入力画像からオブジェクトの領域を検出する（Ｓ７０６）。検出結果は、表示装置１０３を介して、ユーザ１００１に提示される（Ｓ１０１２）。
［登録処理］（図１０：ステップＳ１０１３〜Ｓ１０１６）
ユーザ１００１は、表示された検索結果を確認し、登録指示を計算機１００２に伝える（Ｓ１０１３）。計算機１００２は、画像登録部１１２において、入力画像のオブジェクト領域における画像特徴量を抽出する（Ｓ７０８）。画像登録部１１２は、入力画像、入力画像の特徴量、オブジェクトの情報、オブジェクトの特徴量を関連付けて、画像データベース１０８に登録する（Ｓ１０１４）。画像データベース１０８は、登録の成否を計算機１００２に伝え（Ｓ１０１５）、計算機１００２は表示装置１０３を介して、その結果をユーザに提示する（Ｓ１０１６）。

上記の通り、画像解析装置１０５は、検出されたオブジェクトを画像データベース１０８に登録することで、テンプレートを拡充し、認識精度を向上させることができる。しかし、初期状態で画像データベース１０８に画像が登録されていない場合は、オブジェクトを検出することができない。そのため、システム導入時には、人手でテンプレートを登録する必要がある。また、運用時に新しいカテゴリのオブジェクトを検出したくなった場合も、テンプレートの追加処理が必要になる。

図１１は、画像データベース１０８に新規にデータを追加する際に使用する操作画面の構成例を示す図である。本画面は、表示装置１０３上で提供することができる。ユーザは、入力装置１０２を用いて、画面に表示されたカーソル１１０７を操作することにより、ユーザ操作入力部１０７に操作情報を送る。
図１１の操作画面は、ファイルパス入力領域１１０１、画像読込ボタン１１０２、画像表示領域１１０３、画像登録ボタン１１０４、登録済みオブジェクト表示領域１１０５、検出テストボタン１１０６を有する。

ユーザは、まず、画像・映像記憶装置１０１に保存された画像のファイルパスを、ファイルパス入力領域１１０１に入力し、画像読込ボタン１１０２をクリックする。入力方法は、例えば、ファイルシステムのファイルパスを指定するダイアログを用いてもよいし、ドラッグ＆ドロップによる直感的な入力操作にしてもよい。読み込まれた画像は、画像表示領域１１０３に表示される。

次に、画像表示領域１１０３に表示された画像中から、カーソル１１０７を操作して、オブジェクトの外接矩形を指定する。画像中に複数のオブジェクトが含まれる場合は、この操作を繰り返し行う。図１１では、選択済みのオブジェクトを点線の矩形で、選択中のオブジェクトを太枠の矩形で表している。

画像に含まれるすべてのオブジェクトを選択した後、画像登録ボタン１１０４をクリックする。この結果、入力画像とオブジェクト領域の矩形情報が、画像解析装置１０５に送られる。送られたデータは、画像登録部１１２によって、画像データベース１０８に登録される。

登録されたデータは、登録済みオブジェクト表示領域１１０５に表示される。登録済みのオブジェクトを選択して、削除したり、オブジェクトに関連付けられたシーンの画像を表示させたりする機能を加えても良い。また、検出テストボタン１１０６をクリックすることで、登録済みのオブジェクトをテンプレートとしたオブジェクト検出を試すことができる。

画像解析装置１０５は、画像データベース１０８に十分なオブジェクトが登録されると、与えられた画像中から登録データに類似したオブジェクトを自動的に検出できるようになる。

図１２は、オブジェクト検出を実行するために使用する操作画面の構成例を表す図である。本画面は、表示装置１０３上で提供することができる。ユーザは、入力装置１０２を用いて、画面に表示されたカーソル１１０７を操作することにより、ユーザ操作入力部１０７に操作情報を送る。

図１２の操作画面は、ファイルパス入力領域１２０１、画像読込ボタン１２０２、シーン判定ボタン１２０３、オブジェクト検出ボタン１２０４、検出結果登録ボタン１２０５、シーン判定の設定フィールド１２０６、オブジェクト検出の設定フィールド１２０７、検出パラメータ表示フィールド１２０８、画像表示領域１２０９を有する。

ユーザは、まず、画像・映像記憶装置１０１に保存された画像のファイルパスを、ファイルパス入力領域１２０１に入力し、画像読込ボタン１２０２をクリックする。入力方法は、例えば、ファイルシステムのファイルパスを指定するダイアログを用いてもよいし、ドラッグ＆ドロップによる直感的な入力操作にしてもよい。読み込まれた画像は、画像表示領域１２０９に表示される。

次に、シーン判定の設定フィールド１２０６を用いて、シーン判定処理に関するパラメータをシステムに入力する。シーン判定の設定フィールド１２０６は、例えば、シーン判定処理を行うか否かを指定するラジオボタン、シーン判定に用いる類似画像の距離の閾値を指定するフィールド、推定結果を画面に表示するか否かを指定するチェックボックスを有する。類似度ｓは、特徴量空間内での距離が小さいほど大きい値となる。例えば、（数２）で計算すると、類似度ｓは０〜１の値域の実数値であり、ｓが大きいほどテンプレートとオブジェクトとが似ている、と解釈できる。ここで、ｅは自然対数の底である。

…数２
ユーザが、シーン判定ボタン１２０３をクリックすると、入力された設定がユーザ操作入力部１０７を経由して、類似画像検索部１０９および検出パラメータ決定部１１０に伝わり、シーン判定による検出パラメータの推定処理が実行される。推定されたパラメータは検出パラメータ表示フィールド１２０８および画像表示領域１２０９に表示される。例えば、画面において走査窓の種類、検出対象の種類については、使用されないパラメータ／テンプレートは灰色で表示されている。また、画像表示領域１２０９において、検出処理の対象外領域は灰色で表示されている。ユーザは、提示されたパラメータを確認し、パラメータを調整することができる。また、オブジェクト検出の設定フィールド１２０７において、最近傍テンプレートとの距離の閾値を入力する。

ユーザがオブジェクト検出ボタン１２０４をクリックすると、推定されたパラメータを使用して、任意オブジェクト検出部１１１が画像中のオブジェクトを検出する。検出結果は、画像表示領域１２０９にオブジェクトの外接矩形として重畳表示される。矩形に加えて、非信頼度の数値を表示しても良い。

ユーザが検出結果登録ボタン１２０５をクリックすると、以上の操作で検出されたオブジェクトが画像データベース１０８に登録される。

図１２の画面例は、画像解析装置１０５の各処理の過程を確認しながら順次実行するための画面であり、大量の画像を処理する際には、各ボタンのクリック操作を省略して一括実行する画面を使用する。

以上を踏まえ、本実施例に記載の画像解析装置は、画像と画像に含まれる検出済オブジェクトの情報とを記憶する画像記憶部と、オブジェクトを検出する対象となる対象画像を受け取る画像入力部と、対象画像から抽出した特徴量と類似する特徴量を有する類似画像と、類似画像に含まれる検出済オブジェクトの情報と、を画像記憶部から検索する類似画像検索部と、類似画像に含まれる検出済オブジェクトの情報から、対象画像に対して行われる検出処理に使用するパラメータを決定するパラメータ決定部と、決定されたパラメータに従って対象画像からオブジェクトを検出する検出部と、検出されたオブジェクトおよび対象画像を画像記憶部に蓄積する画像登録部と、検出されたオブジェクトの情報を出力するデータ出力部と、を備えることを特徴とする。

また、本実施例に記載の画像解析方法は、入力された対象画像からオブジェクトを検出する画像解析方法であって、対象画像の特徴量を抽出する抽出ステップと、抽出した対象画像の特徴量と類似する特徴量を持つ類似画像を画像記憶部から検索する検索ステップと、検索された類似画像に含まれる検出済オブジェクトの情報をもとに、対象画像に対する検出処理で用いるパラメータを決定する決定ステップと、決定したパラメータに基づいて、対象画像に対し検出処理を行いオブジェクトを検出する検出ステップと、対象画像から検出されたオブジェクトを出力するステップと、対象画像および検出されたオブジェクトを、画像記憶部に記憶する記憶ステップと、を有することを特徴とする。

係る特徴によれば、オブジェクト検出を行う入力画像を用いて類似画像検索をおこない、蓄積されたオブジェクト検出済の類似画像に基づいてオブジェクト検出のパラメータを決定することで、処理負荷・処理時間を低減することができる。

実施例１では、画像解析装置１０５に一枚の画像が入力された場合の動作について説明した。一方で、本発明の画像解析システム１００では、画像・映像記憶装置１０１に蓄積された大量の画像を解析することを目的としており、大量の画像を一括で処理することで効率的な処理が実現可能である。以下、本実施例では、大量の入力画像を解析対象とした際の処理手順について説明する。

図１３は、解析対象のグループ化を用いた一括処理を説明するための図である。
解析対象の画像集合１３０１が与えられると、画像解析装置１０５は、画像特徴量を用いて画像集合を複数のグループに分割する（１３０２）。グループの分割方法としては、図３の類似画像検索の説明で述べたＫ−ｍｅａｎｓ法を用いることができる。

グループが形成されると、類似画像検索部１０９と検出パラメータ決定部１１０において、各グループの画像を解析するための検出パラメータの推定処理が行われる。この時、類似画像検索のクエリとして、グループの平均特徴量ベクトルや、グループ内の代表的な画像の特徴量を用いる（１３０３）。また、代表画像を複数枚選んで、類似画像検索の結果を統合して用いても良い。この結果、各グループについてひとつの検出パラメータが推定される（１３０４）。

任意オブジェクト検出部１１１は、各グループに属する全画像に対して、そのグループ用に推定されたパラメータを用いて検出処理を行う（１３０５）。本手法では、画像毎にパラメータ推定やテンプレートの読み出しを行う必要がないため、大量の画像に対して効率的な処理が可能になる。

図１４は、画像解析装置１０５が、入力画像のグループ化を用いた一括処理を行う手順を表したフローチャートである。
以下、図１４の各ステップについて説明する。［解析対象の画像集合の読み出し］
（図１４：ステップＳ１４０１）
画像入力部１０６は、画像・映像記憶装置１０１から複数枚の画像を読み出す。解析対象が映像（動画像）の場合は、複数のフレーム画像に分解する。
［画像集合のグループ化］
（図１４：ステップＳ１４０２）
類似画像検索部１０９は、読み込まれた複数の画像それぞれから画像特徴量を抽出する。
（図１４：ステップＳ１４０３）
類似画像検索部１０９は、画像特徴量に関して画像集合を複数のグループに分割する。
（図１４：ステップＳ１４０４〜Ｓ１４１２）
画像解析装置１０５は、ステップＳ１４０３で生成された各グループに対して、ステップＳ１４０４〜Ｓ１４１２を実施する。
［代表画像または特徴量の平均値算出］
（図１４：ステップＳ１４０５）
類似画像検索部１０９は、グループの平均特徴量を計算する。特徴量が固定長ベクトルで表現される場合、ベクトルの要素毎の平均値を計算することで、平均特徴量ベクトルが得られる。
［グループ毎の検出パラメータの決定］（図１４：ステップＳ１４０６）
類似画像検索部１０９は、平均特徴量ベクトルをクエリとして、画像データベース１０８から類似画像を取得する。
（図１４：ステップＳ１４０７）
類似画像検索部１０９は、類似画像のＩＤから類似画像中に含まれるオブジェクトの情報（画像中の位置、サイズ）を、画像データベース１０８から読み出す。
（図１４：ステップＳ１４０８）
検出パラメータ決定部１１０は、類似画像に含まれるオブジェクトの情報を用いて、オブジェクト検出に用いるパラメータを決定する。パラメータの決定方法は図６で述べたとおりであり、解析対象となる領域や走査窓の種類が決定される。また、図８で述べたように、オブジェクト検出処理に使用するテンプレートを決定する。
［グループ内の全画像に対する検出処理］
（図１４：ステップＳ１４０９〜Ｓ１４１１）
画像解析装置１０５は、ステップＳ１４０８で決定されたパラメータおよびテンプレートを用いて、グループ内の全画像に対してオブジェクト検出処理を行い、結果を出力／データベースに登録する。詳細な処理手順は図７と同様である。

本発明の実施形態３では、画像解析システム１００をコンテンツクラウドシステムへ組み込んだ構成例について説明する。以下ではまず、コンテンツクラウドシステムの概要を説明し、その後、画像解析システム１００を解析モジュールとしてコンテンツクラウドシステムへ組み込む方法について説明する。画像解析システム１００の構成は実施形態１〜２と同様である。

図１５は、本実施形態３に係るコンテンツクラウドシステム１５００の概略図である。コンテンツクラウドシステム１５００は、ＥｘｔｒａｃｔＴｒａｎｓｆｏｒｍＬｏａｄ（ＥＴＬ）モジュール１５０３、コンテンツストレージ１５０４、検索エンジン１５０５、メタデータサーバ１５０６、マルチメディアサーバ１５０７を有する。コンテンツクラウドシステムは１つ以上のＣＰＵ、メモリ、記憶装置を備えた一般的な計算機上で動作し、システム自体は様々なモジュールで構成されている。また、それぞれのモジュールが独立した計算機で実行されることもあり、その場合、各ストレージとモジュール間はネットワーク等で接続されおり、それらを介してデータ通信を行う分散処理で実現される。

アプリケーションプログラム１５０８は、ネットワーク等を経由してコンテンツクラウドシステム１５００に対してリクエストを送り、コンテンツクラウドシステム１５００はリクエストに応じた情報をアプリケーションプログラム１５０８に送信する。

コンテンツクラウドシステム１５００は、入力として映像データ、画像データ、文書データ、音声データなどの任意の形式のデータ１５０１を受け取る。データ１５０１は、例えば、図形商標とその広報文書、ウェブサイトの画像とＨＴＭＬ文書、クローズドキャプションまたは音声付き映像データなどであり、構造化されたデータでもよいし非構造化データでもよい。コンテンツクラウドシステム１５００へ入力されるデータはストレージ１５０２に一時的に蓄えられる。

ＥＴＬ１５０３は、ストレージ１５０２を監視しており、ストレージ１５０２へデータ１５０１が格納されると、ファイルシステムから得られる情報（メタデータ）をコンテンツストレージ１５０４にアーカイブ化して保存する。

コンテンツストレージ１５０４は、ＥＴＬ１５０３が抽出した情報およびストレージ１５０２に一時的に蓄えられている処理前のデータ１５０１を保存する。

検索エンジン１５０５は、アプリケーションプログラム１５０８からのリクエストがあると、例えばテキスト検索であれば、ＥＴＬ１５０３が作成したインデックスを元にテキスト検索を実施し、検索結果をアプリケーションプログラム１５０８に送信する。検索エンジン１５０５のアルゴリズムに関しては、公知の技術を適用することができる。検索エンジン１５０５はテキストだけでなく、画像、音声などのデータを検索するモジュールを搭載することもできる。

メタデータサーバ１５０６は、ＲＤＢ（ＲｅｌａｔｉｏｎａｌＤａｔａＢａｓｅ）に蓄えられたメタデータを管理する。例えば、ＥＴＬ１５０３が抽出した、データのファイル名、データ登録年月日、元データの種類、メタデータテキスト情報、などがＲＤＢに登録されていると仮定する。アプリケーションプログラム１５０８からリクエストの要求があると、メタデータサーバ１５０６はそのリクエストに従って、ＲＤＢ内の情報をアプリケーションプログラム１５０８に送信する。

マルチメディアサーバ１５０７は、コンテンツストレージ１５０４にアーカイブ化されたデータに対して、そのデータに合わせた情報抽出処理モジュール１５０９を動作させ、データの内容に関するメタデータを抽出する。

情報抽出処理モジュール１５０９は、例えば、テキストのインデックスモジュール、画像認識モジュールなどで構成されている。メタデータの例としては、時刻、Ｎ−ｇｒａｍインデックス、画像認識結果（物体名、画像中の領域座標）、画像特徴量とその関連語、音声認識結果、などが該当する。情報抽出処理モジュール１５０９として、何らかの情報（メタデータ）抽出を行うプログラムすべてを用いることができ、公知の技術を採用することができるので、ここでは情報抽出処理モジュール１５０９の説明を省略する。

各メディアデータから抽出されたメタデータは、互いに関連付けられ、グラフ形式で構造化されたグラフＤＢ１５１１に蓄積される。関連図付けの一例としては、コンテンツストレージ１５０４に蓄えられた「リンゴ」という音声認識結果に対して、元の音声ファイル、画像データ、関連語などの対応関係をネットワーク形式で表現することができる。マルチメディアサーバ１５０７は、アプリケーション１５０８からのリクエストがあると、それに応じたメタ情報をアプリケーション１５０８に送信する。例えば、「リンゴ」というリクエストがあると、構築されたグラフ構造に基づき、リンゴを含む画像、平均相場、アーティストの曲名、などのネットワークグラフ上で関連付けられたメタ情報を提供する。

上記のコンテンツクラウドシステム１５００において、画像解析システム１００は、マルチメディアサーバ１５０７における情報抽出処理モジュール１５０９として機能する。図１における画像・映像記憶装置１０１、データ格納装置１０４は、図１５においては、それぞれコンテンツストレージ１５０４、グラフＤＢ１５１１に対応する。また、画像解析装置１０５は情報抽出処理モジュール１５０９に相当する。マルチメディアサーバ１５０７に複数の情報抽出処理モジュール１５０９が組み込まれる場合は、１台の計算機のリソースをシェアしてもよいし、モジュール毎に独立した計算機を用いてもよい。図１の画像データベース１０８は、マルチメディアサーバ１５０７が情報抽出する際に必要な辞書データ１５１０に相当する。
＜実施の形態３：まとめ＞
以上のように、本発明に係る画像解析システム１００は、コンテンツクラウドシステム１５００の構成要素として適用することができる。コンテンツクラウドシステム１５００は、各メディアデータに共通して利用可能なメタデータを生成することにより、メディア間にまたがって情報を統合することができる。これにより、付加価値がより高い情報をユーザへ提供することが期待される。

本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。上記実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることもできる。また、ある実施形態の構成に他の実施形態の構成を加えることもできる。また、各実施形態の構成の一部について、他の構成を追加・削除・置換することもできる。

上記各構成、機能、処理部、処理手段等は、それらの一部や全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に格納することができる。

１００：画像解析システム、
１０１：画像・映像記憶装置、
１０２：入力装置、
１０３：表示装置、
１０４：データ格納装置、
１０５：画像解析装置、
１０６：画像入力部、
１０７：ユーザ操作入力部、
１０８：画像データベース、
１０９：類似画像検索部、
１１０：検出パラメータ決定部、
１１１：任意オブジェクト検出部、
１１２：画像登録部、
１１３：データ出力部、
１５００：コンテンツクラウドシステム。

Claims

画像と前記画像に含まれる検出済オブジェクトの情報とを記憶する画像記憶部と、
オブジェクトを検出する対象となる対象画像を受け取る画像入力部と、
前記対象画像から抽出した特徴量と類似する特徴量を有する類似画像と、前記類似画像に含まれる前記検出済オブジェクトの情報と、を前記画像記憶部から検索する類似画像検索部と、
前記類似画像に含まれる前記検出済オブジェクトの情報から、前記対象画像に対して行われる検出処理に使用するパラメータを決定するパラメータ決定部と、
決定されたパラメータに従って前記対象画像からオブジェクトを検出する検出部と、
検出されたオブジェクトおよび前記対象画像を前記画像記憶部に蓄積する画像登録部と、
検出されたオブジェクトの情報を出力するデータ出力部と、を備え、
前記パラメータ決定部は、前記類似画像に含まれる前記検出済オブジェクトのＩＤのリストを生成して前記検出部に渡し、
前記検出部は、前記リストに含まれるオブジェクトのＩＤに対し、前記画像記憶部から類似する特徴量を有する類似オブジェクトの情報を取得して前記リストに追加し、
前記検出部は、前記リストに含まれるオブジェクトの特徴量に基づいて、前記対象画像に含まれるオブジェクトを検出すること
を特徴とする画像解析装置。
請求項１に記載の画像解析装置であって、
前記画像記憶部に記憶される情報は、前記画像から抽出した特徴量と、前記検出済オブジェクトの位置情報と、前記検出済オブジェクトから抽出した特徴量であること
を特徴とする画像解析装置。
請求項２に記載の画像解析装置であって、
前記パラメータ決定部は、前記類似画像に含まれる前記検出済オブジェクトの位置情報から、前記検出処理で使用する走査窓のサイズと走査範囲を決定するパラメータ推定処理を行うこと
を特徴とする画像解析装置。
請求項３に記載の画像解析装置であって、
前記パラメータ決定部は、ユーザからの入力に従って、前記パラメータ推定処理を行うこと
を特徴とする画像解析装置。
請求項２に記載の画像解析装置であって、
前記検出部は、前記類似画像に含まれる前記検出済オブジェクトの特徴量に類似する特徴量を持つ領域を前記対象画像に含まれるオブジェクトとして検出すること
を特徴とする画像解析装置。
請求項２に記載の画像解析装置であって、
前記画像入力部は、複数の前記対象画像が入力された際に、前記対象画像の特徴量に基づいて複数の前記対象画像をグループ化する処理を行い、
前記パラメータ決定部は、前記画像入力部においてグループ化されたグループに対して１のパラメータを決定し、
前記検出部は、前記グループに対して、前記１のパラメータを用いて検出を行うこと
を特徴とする画像解析装置。
画像を撮影するカメラと、
画像と前記画像に含まれる検出済オブジェクトの情報とを記憶する画像記憶部と、
オブジェクトを検出する対象となる対象画像を受け取る画像入力部と、
前記対象画像から抽出した特徴量と類似する特徴量を有する類似画像と、前記類似画像に含まれる前記検出済オブジェクトの情報と、を前記画像記憶部から検索する類似画像検索部と、
前記類似画像に含まれる前記検出済オブジェクトの情報から、前記対象画像に対して行われる検出処理に使用するパラメータを決定するパラメータ決定部と、
決定されたパラメータに従って前記対象画像からオブジェクトを検出する検出部と、
検出されたオブジェクトおよび前記対象画像を前記画像記憶部に蓄積する画像登録部と、
検出されたオブジェクトの情報を表示する表示部と、を備え、
前記パラメータ決定部は、前記類似画像に含まれる前記検出済オブジェクトのＩＤのリストを生成して前記検出部に渡し、
前記検出部は、前記リストに含まれるオブジェクトのＩＤに対し、前記画像記憶部から類似する特徴量を有する類似オブジェクトの情報を取得して前記リストに追加し、
前記検出部は、前記リストに含まれるオブジェクトの特徴量に基づいて、前記対象画像に含まれるオブジェクトを検出すること
を特徴とする画像解析システム。
請求項７に記載の画像解析システムであって、
前記画像記憶部に記憶される情報は、前記画像から抽出した特徴量と、前記検出済オブジェクトの位置情報と、前記検出済オブジェクトから抽出した特徴量であること
を特徴とする画像解析システム。
請求項８に記載の画像解析システムであって、
前記パラメータ決定部は、前記類似画像に含まれる前記検出済オブジェクトの位置情報から、前記検出処理で使用する走査窓のサイズと走査範囲を決定するパラメータ推定処理を行うこと
を特徴とする画像解析システム。
請求項９に記載の画像解析システムであって、
ユーザからの入力を受け付ける外部入力部をさらに有し、
前記パラメータ決定部は、前記外部入力部からの入力に従って、前記パラメータ推定処理を行うこと
を特徴とする画像解析システム。
請求項８に記載の画像解析システムであって、
前記検出部は、前記類似画像に含まれる前記検出済オブジェクトの特徴量に類似する特徴量を持つ領域を前記対象画像に含まれるオブジェクトとして検出すること
を特徴とする画像解析システム。
請求項８に記載の画像解析システムであって、
前記画像入力部は、複数の前記対象画像が入力された際に、前記対象画像の特徴量に基づいて複数の前記対象画像をグループ化する処理を行い、
前記パラメータ決定部は、前記画像入力部においてグループ化されたグループに対して１のパラメータを決定し、
前記検出部は、前記グループに対して、前記１のパラメータを用いて検出を行うこと
を特徴とする画像解析システム。
入力された対象画像からオブジェクトを検出する画像解析方法であって、
前記対象画像の特徴量を抽出する抽出ステップと、
抽出した前記対象画像の特徴量と類似する特徴量を持つ類似画像を画像記憶部から検索する検索ステップと、
検索された前記類似画像に含まれる検出済オブジェクトの情報をもとに、前記対象画像に対する検出処理で用いるパラメータを決定する決定ステップと、
決定した前記パラメータに基づいて、前記対象画像に対し検出処理を行いオブジェクトを検出する検出ステップと、
前記対象画像から検出されたオブジェクトを出力するステップと、
前記対象画像および検出されたオブジェクトを、前記画像記憶部に記憶する記憶ステップと、を有し、
前記パラメータの決定ステップでは、前記類似画像に含まれる前記検出済オブジェクトのＩＤのリストを生成して前記検出ステップに渡し、
前記検出ステップでは、前記リストに含まれるオブジェクトのＩＤに対し、前記画像記憶部から類似する特徴量を有する類似オブジェクトの情報を取得して前記リストに追加し、
前記検出ステップでは、前記リストに含まれるオブジェクトの特徴量に基づいて、前記対象画像に含まれるオブジェクトを検出すること
を特徴とする画像解析方法。