JP6787831B2

JP6787831B2 - 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法

Info

Publication number: JP6787831B2
Application number: JP2017069170A
Authority: JP
Inventors: 将也吉田; 吉原　貴仁; 貴仁吉原
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2020-11-18
Anticipated expiration: 2037-03-30
Also published as: JP2018169972A

Description

本発明は、検出すべき検出対象を含み得る対象データから、対象検出器を用いて当該検出対象を検出する技術に関する。

従来、画像に写っている人物等の物体を検出する技術が存在する。例えば、監視カメラで撮影された画像から不審者を検出するセキュリティシステムは公知である。また、車載カメラで撮影された画像から障害物や歩行者等を検出する技術は、自動車の自動運転を実現するための主要技術として開発が盛んに進められている。

さらに、飛行するドローン（小型無人航空機）に搭載したカメラで撮影された画像や映像と物体検出技術とを組み合わせることによって、様々なサービスが提供可能となる。例えば、街の上空の飛行により撮影された画像から人物を検出することによって行方不明者の捜索を支援することもできる。また、上空から田畑を撮影した映像から農作物を検出することによって、経験だけに頼らない農作物の好適な管理、例えば必要な時期に適量の農薬を必要とする農作物にのみ散布すること等、を実現する。

このように、種々の対象を検出可能であって広範な応用分野を有する物体検出技術であるが、その解析手段の観点から２つに大別される。１つはデータベースを用いたものである。例えば、特許文献１に記載の技術では、検出対象となる人物や農作物等の物体が写った画像と、この画像の特徴量とを対応付けて登録したデータベースを構築し、カメラ等で撮影された入力画像の特徴量と、登録された画像の特徴量との類似度に基づいて、検出対象の物体を検出している。

ここで、このような画像の特徴量として、例えばＭＰＥＧ−７で規定されているエッジヒストグラム特徴が周知である。いずれにしても、データベースを用いる物体検出は、機械学習におけるような学習処理を必要としないので、高速な処理が可能となる。

一方、他の１つはこの機械学習を用いたものである。近年、機械学習の一種である深層学習（Deep Learning）を用いた物体検出技術が、その精度の高さと実用性から大いに注目されている。深層学習では、ニューラルネットワーク（ＮＮ，Neural Network）と呼ばれる脳神経系を模したシステムに対し、画像とそのラベルとを含む学習データを与えることによって、画像の特徴を学習させる。次いで、学習済みのＮＮに対し、例えばカメラ等で撮影された画像である入力画像を入力することにより、入力画像を学習済みのラベルに分類するのである。

この深層学習を用いた物体検出では、通常、数百から数万枚といった膨大な数の画像をＮＮに学習させる必要がある。これに対し、非特許文献１に記載された技術は、相当数の学習データ（画像及びそのラベル）と、画像検索サービス提供事業者の画像検索エンジンとを組み合わせることによって、学習用画像を収集する労力の低減を図っている。

また、非特許文献２に記載された技術は、複数の画像の視覚的類似度を用いて各画像にラベル付けを行い、実際に画像検索サービス提供事業者の画像検索エンジンを用いて、２億枚の画像に対し30万個のラベルを付与したデータセットを生成し、提供している。

国際公開２０１４／１３２３４９号公報

Martin Kolar, et al. "Deep learning on small datasets using online image search." Proceedings of the 32nd Spring Conference on Computer Graphics 2016 (SCCG '16), ２０１６年，８７〜９３頁 Tsai, David, et al. "Large-scale image annotation using visual synset." Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, ２０１１年，６１１〜６１８頁

しかしながら、上記の文献に記載された技術を含めた従来技術では、なお、データベース構築用の又は学習用の画像を収集し、さらにそのラベルを用意するのに多大な労力が必要となってしまう。またそれ故、多種多様な物体等が検出対象となり得る中で、それに合わせて適宜、好適な学習済みの検出モデルを生成して検出に利用することは、依然として困難である。

例えば、特許文献１に記載された技術は、データベースを構築するため、検出の対象となる人物や農作物等の物体の画像とそのラベルとを人手で準備しなければならない。またそれ故、任意の物体を検出できるようにするためには、検出対象が変更される度に、画像収集とラベル付けや、特徴量抽出を行い、多大な手間をかけてデータベースを更新する必要が生じてしまう。

また、非特許文献１に記載された技術は、たしかに画像検索エンジンを用いることによって多少、画像収集の手間を低減し得る。しかしながら、検出対象が変更される度に、相当数の学習データ（画像及びそのラベル）を人手で用意しなければならないことに変わりはない。

さらに、非特許文献２に記載された技術は、たしかに多数の画像に対して自動でラベル付けすることを可能にする。しかしながら、１枚の画像に対し複数のラベルが付与されてしまう。一般に、機械学習（深層学習）の学習用データは、１つの学習対象のオブジェクトに対し１つのラベルを指定する必要があるので、非特許文献２でラベル付けした画像をそのまま学習用データとして利用することは困難である。また、付与された複数のラベルから１つのラベルを選択するとしても当然、それにより人手による手間を増大させてしまう。

ちなみに、このような問題は、画像からの物体検出を実施する場合に限定されるものではなく、検出すべき検出対象を含み得る対象データから対象検出器を用いて当該検出対象を検出する際にはしばしば生じ得るものである。

そこで、本発明は、任意の検出対象の検出について、対象検出器の学習用データを収集する労力を低減し、良好な検出を行うことを可能にする装置、プログラム及び方法を提供することを目的とする。

本発明によれば、検出すべき検出対象を含み得る対象データから、当該対象データの属するクラスに係る情報を出力する対象検出器を用いて、当該検出対象を検出可能な対象検出装置であって、
当該検出対象に係る情報を検索キーとして実施された検索の結果としての複数の対象データと、当該対象データの検索順位とを含む検索結果情報を取得する検索結果取得手段と、
取得された複数の対象データを、類似の度合いに基づいて複数のクラスに分類するクラスタリング手段と、
当該対象データと該対象データの属するクラスとを前記対象検出器に入力し、該対象検出器を学習させる検出器学習手段と、
当該クラス毎に、前記対象検出器の出力に対する重みであって、当該クラスに属する対象データの検索順位の和について単調減少関数となる重みを決定する重み決定手段と
を有する対象検出装置が提供される。
また、この本発明による対象検出装置の一実施形態として、重み決定手段は、当該クラスに属する対象データの数について単調増加関数となる重みを決定することも好ましい。

さらに、本発明による対象検出装置は、対象検出器から出力されるクラスに係る情報を、決定された重みをもって重み付けした重み付き出力を算出し、当該重み付き出力が所定条件を満たす場合に、当該検出対象の検出を決定する検出判定手段を更に有することも好ましい。

また、本発明による対象検出装置の更なる他の実施形態として、当該対象データは、当該検出対象に係る画像領域を含み得る画像データであり、クラスタリング手段は、画像分類用に学習されたＣＮＮ（Convolutional Neural Network）に当該画像データを入力した際に、このＣＮＮの隠れ層から出力される情報から生成される特徴量の間の類似度に基づいてクラスタリングを行うことも好ましい。

さらに、本発明による対象検出装置の更なる他の実施形態として、当該対象データは、当該検出対象に係る画像領域を含み得る画像データであり、対象検出器は、入力された当該画像データから当該画像領域の候補を抽出し、当該画像領域の候補についてのクラスに係る情報を出力することも好ましい。

本発明の対象検出装置、検出モデル生成装置、プログラム及び方法によれば、任意の検出対象の検出について、対象検出器の学習用データを収集する労力を低減し、良好な検出を行うことができる。

本発明による対象検出装置の一実施形態における機能構成を示す機能ブロック図である。ＣＮＮの隠れ層からの出力を用いた類似度の算出を、概略的に説明するための模式図である。対象検出器での対象画像領域候補の決定を説明するための模式図である。本発明による対象検出方法の一実施形態の概略を示すフローチャートである。本発明に係る対象検出器に対する学習処理の一実施例を説明するための模式図である。本発明による対象検出方法の一実施例を説明するための模式図である。本発明による対象検出方法における他の実施例を説明するための模式図である。本発明による対象検出方法の更なる他の実施例を説明するための模式図である。本発明による検出モデル生成装置の一実施形態を示す機能ブロック図である。

以下、本発明の実施形態について、図面を用いて詳細に説明する。

［状態識別装置］
図１は、本発明による対象検出装置の一実施形態における機能構成を示す機能ブロック図である。

図１によれば、本発明による対象検出装置の一実施形態であるスマートフォン１は、公知の構成を有するカメラ１０３を内蔵しており、このカメラ１０３で撮影して生成した写真画像に、所定の検出対象（例えば犬）が写っているか否かを判定して、写っている検出対象（犬）の画像領域を指し示すことができる。例えば、タッチパネル・ディスプレイ（ＴＰ・ＤＰ）１０２上に判定結果及び検出対象（犬）の画像領域を表示することが可能である。なお当然に、このような検出対象を含み得る画像を、外部から通信ネットワーク経由で通信インタフェース部１０１を介して取得し、対象検出処理を行うこともできる。

さらに、１つの応用例として、スマートフォン１のアプリケーション１２２が、この対象検出結果を利用して、写真の分類・加工処理、例えば検出対象（犬）の飼育アルバムの作成等、を行うことも可能になる。

また、スマートフォン１は、本実施形態において、ユーザによってタッチパネル・ディスプレイ１０２を介し入力された所定の検出対象（例えば犬）に係る文字列、例えば検索対象の名称（例えば「犬」や「イヌ」等）を受け付け、この文字列を検索ワードとした検索エンジンによる検索結果を取得することができる。ここで、検索エンジンは外部の検索サーバ２に備えられたものを利用し、この文字列による検索処理は、通信インタフェース部１０１を介し検索サーバ２と通信を行うことによって実施される。

スマートフォン１は、この取得された検索結果を利用して、対象検出器の学習処理を自動的に実行し、さらに、この学習させた対象検出器の出力から高い精度の判定を行う検出処理を実行するのである。例えば、ユーザが検出対象の名称（「犬」）を指定した入力を行った際、指定された「犬」が入力画像に写っている旨の検出結果や、写っている犬に対応する画像領域を提示することが可能となる。

具体的に、スマートフォン１は、検出すべき検出対象（例えば犬）を含み得る対象データ（例えば画像データ）から、対象データ（画像データ）の属するクラスに係る情報を出力する対象検出器を用いて、検出対象（犬）を検出可能な対象検出装置であって、
（Ａ）検出対象（犬）に係る文字列（例えば「犬」）等の情報を検索キー（例えば検索ワード）として実施された検索の結果としての複数の対象データ（画像データ）を含む「検索結果情報」を取得する検索結果取得部１１１と、
（Ｂ）取得された複数の対象データ（画像データ）を、類似の度合いに基づいて複数のクラスに分類するクラスタリング部１１２と、
（Ｃ）対象データ（画像データ）とこの対象データの属するクラスとを対象検出器に入力し、この対象検出器を学習させる検出器学習部１１４と、
（Ｄ）クラス毎に、当該クラスに属する対象データ（画像データ）に係る「検索結果情報」に基づいて、対象検出器の出力に対する「重み」を決定する重み決定部１１３と
を有することを特徴としている。

ここで、「検索結果情報」は、検索された対象データ（画像データ）の検索順位を含んでいてもよく、重み決定部１１３は、後に詳細に説明するように、当該クラスに属する対象データの検索順位の和について単調減少関数となる「重み」を決定することも好ましい。さらに、当該クラスに属する対象データの数について単調増加関数となる「重み」を決定することも好ましい。

このように、スマートフォン１は、検出対象に係る文字列等の情報による検索結果である「検索結果情報」を利用して、例えば人手による学習用データ収集といった多大な労力をかけることなく、対象検出器を自動的に学習させることができるのである。また、この「検索結果情報」に基づき対象検出器の出力に対する「重み」を決定して、対象検出器の出力からより高精度の判定を行う。

すなわち、スマートフォン１は、任意の検出対象の検出について、その検出対象に係る文字列等の情報による検索結果を利用して自動的に学習処理を行うので、対象検出器の学習にかかる労力を大幅に低減し、しかも良好な検出を行うことを可能にする。例えば、カメラ１０３で撮影された画像から、指定した任意の物体をより確実に検出することも可能となるのである。

なお当然に、本発明による対象検出装置が取り扱う対象データは、静止画像データに限定に限定されるものではない。例えば、動画像データであってもよく、さらには、ニュース記事や論文、評論等のテキストデータとすることもできる。この場合、検出対象は例えば、このテキストデータにおける所定のトピックに対するコメント部分等とすることができる。いずれにしても、検出すべき検出対象を含む可能性があり、対象検出器を用いて当該検出対象を検出することができるデータであれば、種々のものが対象データとして採用可能である。

また、上記の「検索結果情報」を取得するための検索処理は、例えば、検索サービス提供事業者や個人等が提供する検索エンジンや同様の検索システム、さらには画像データベースによっても実施することができる。

さらに、本発明による対象検出装置は、当然にスマートフォンに限定されるものではない。例えば、タブレット型コンピュータ、ノート型コンピュータ、パーソナルコンピュータ（ＰＣ）、セットトップボックス（ＳＴＢ）、ロボット、デジタルサイネージであってもよい。また、端末ではなくサーバとすることも可能である。さらに、検索エンジンを自ら備え、「検索結果情報」を自ら生成する端末、サーバ又はスタンドアローン装置であってもよい。また、カメラ１０３も装置内蔵のものに限定されず、例えば、外部の監視カメラや車載カメラ、さらにはドローンに搭載されたカメラ等とすることもできる。

［装置構成］
以下、同じく図１を用いて、本発明による対象検出装置の具体的構成について説明を行う。同図の機能ブロック図に示すように、対象検出装置（物体検出装置）である本実施形態のスマートフォン１は、通信インタフェース部１０１と、タッチパネル・ディスプレイ（ＴＰ・ＤＰ）１０２と、カメラ１０３と、画像データベース１０４と、検出結果保存部１０５と、プロセッサ・メモリとを有する。ここで、プロセッサ・メモリは、スマートフォン１のコンピュータを機能させるプログラムを実行することによって、対象検出機能（物体検出機能）を実現させる。

ちなみに、通信インタフェース部１０１を介し、本発明に係る対象検出プログラム（アプリ）や、この対象検出結果を利用したサービスを提供可能なアプリケーション・プログラム、例えば対象画像のアルバム作成アプリ等、がスマートフォン１にダウンロード可能となっていてもよい。

さらに、上記のプロセッサ・メモリは、機能構成部として、対象検出器１１と、検索結果取得部１１１と、クラスタリング部１１２と、重み決定部１１３と、検出器学習部１１４と、検出判定部１１５と、画像管理部１２１と、アプリケーション１２２と、入出力制御部１２３とを有する。ここで、図１におけるスマートフォン１の機能構成部間を矢印で接続して示した処理の流れは、本発明による対象検出方法（物体検出方法）の一実施形態としても理解される。

上記の機能構成部のうち、検索結果取得部１１１は、
（ａ）タッチパネル・ディスプレイ１０２を介して入力された検出対象に係る文字列を取得し、
（ｂ）通信インタフェース部１０１を介した通信によって、検索サーバ２の検索エンジンに対し、取得した文字列を検索ワードとした検索を実施させ、
（ｃ）検索サーバ２から通信インタフェース部１０１を介して、実施させた検索処理の結果である検索結果情報を取得する。

ここで、この検索結果情報には、検索された複数の画像データであって、画像データ毎に当該データの検索順位が紐づけられた複数の画像データと、検索された画像データの総数とが含まれている。

なお、検索ワードとなる文字列は、検出対象の名称とすることができる。または、検出対象と高い関連性のある物体や事象等を表すワードを合わせて、この文字列として入力してもよい。また、この文字列は、画像検索エンジンの検索ワードとして入力可能であれば、日本語でも他の言語でもよく、各種記号等を含むものであってもよい。さらに、文字を用いず各種記号等のみで検索キーを構成することも可能である。また、画像検索エンジンの制約に従い、文字・記号数や文字・記号の種類が限定されたものとすることもできる。さらには、検索キーとして検出対象を含む画像そのものを採用し、画像検索を行うことも可能である。

また、上記の検索ワードとなる文字列の入力方法も、上述したものに限定されるものではない。検索のためのプログラムのソースコードに文字列を直接記入してもくよく、特定の入力フォームから文字列を入力してもよい。本実施形態では、入力された文字列は通信ネットワークを介して検索サーバ２の画像検索エンジンに渡される。

ここで、画像検索エンジンは具体的に、入力された文字列を検索ワードとした検索処理を行い、ウェブ（Web）上から該当するN枚の画像I_i（i＝1, 2, ・・・, N）を取得し、取得画像毎に当該画像I_iの検索順位R_i（i＝1, 2, ・・・, N）を決定する。検索順位の算出方法は、一般に画像検索エンジンによるが、通常、順位が上位の（R_iがより小さい）画像ほど、検索ワードとの関連がより強い画像となる。ちなみに、Google（登録商標）画像検索やBing（登録商標）画像検索では、事業者より提供されているＡＰＩ（Application Programming Interface）を用いることによって検索画像及び検索順位を取得することができる。

クラスタリング部１１２は、検索によって取得された複数の画像データを、画像の類似度に基づいて複数のクラスに分類する。具体的に、クラスタリング部１１２は、検索結果取得部１１１によって取得されたN枚の画像I_i（i＝1, 2, ・・・, N）と、その検索順位R_i（i＝1, 2, ・・・, N）とを受け付け、これらN枚の画像を、画像間の類似度によってD個のグループ（クラスタ）に分類（クラスタリング）する。

ここで、類似度を用いた画像のクラスタリングは、Ｋ−ｍｅａｎｓ法等の公知の方法を用いて実施することができる。例えば、上述した特許文献１に記載されたように、画像の特徴量ベクトルの間のユークリッド距離の２乗に基づき類似度の判定を行い、この判定結果に従って画像を分類してもよい。また他の方法として、クラスタリング部１１２は、画像分類用に学習されたＣＮＮ（Convolutional Neural Network）に当該画像データを入力した際に、このＣＮＮの隠れ層から出力される情報から生成される特徴量の間の類似度に基づいて、クラスタリングを行ってもよい。

図２は、ＣＮＮの隠れ層からの出力を用いた類似度の算出を、概略的に説明するための模式図である。同図において、ＣＮＮの浅い層の出力は輪郭等の低レベルの視覚的特徴を有するのに対し、ＣＮＮのより深い隠れ層の出力は、画像における抽象化された意味的情報を含んでいる。このような隠れ層の出力を用いて画像の特徴量を決定し、画像間においてこの特徴量の類似度を算出することができるのである。このようなＣＮＮを用いた画像類似度の算出については、例えば、非特許文献：［online］、［平成２９年３月２７日検索］、インターネット＜URL: https://www.slideshare.net/ToshinoriHanya/deep-learning-ohs5＞において詳細に説明されている。

図１に戻って、クラスタリング部１１２は、上述したように、画像クラスタリング処理によって、検索された画像をD個のグループ（画像のクラスタ）に分類する。本実施形態では、クラスタリング部１１２で分類されたD個のグループを、機械学習の学習クラスとして利用する。以後、これらのD個のグループ（クラス）をC_j（j＝1, 2, ・・・, D）として表す。また、クラスC_jに含まれる画像の枚数をM_jで表す。このM_jは、後述するように、対象検出判定の際に用いる重みの算出に使用される重要な量であるが、次式
（１） Σ_j=1 ^D M_j＝N
を満たす。ここで、Σ_j=1 ^Dはｊ＝1〜Dについての総和（summation）である。

さらに、同じく重みの算出において、クラスC_jに含まれる画像の検索順位の和S_jを使用することができる。S_jは、次式
（２） S_j＝Σ_Cj R_i
によって算出される。ここで、Σ_Cj R_iはクラスC_jに含まれる全ての画像I_i（I_i∈C_j）についての検索順位R_iの総和である。

検出器学習部１１４は、検索された複数の対象データの各々に、当該対象データの属するクラスが紐づけられた情報を対象検出器１１に入力し、対象検出器１１を学習させる。具体的には、上述したN枚の画像I_i（i＝1, 2, ・・・, N）と、各画像の属するクラスCj（j=1〜D）とをクラスタリング部１１２から取得して対象検出器１１に入力し、トレーニングを行う。

ここで本実形態において、対象検出器１１は、入力された画像データから画像領域の候補を抽出し、当該画像領域候補についてのクラスに係る情報を出力する。具体的には、対象検出器１１として、ＳＳＤ（Single Shot MultiBox Detector）や、Faster Ｒ−ＣＮＮ（Region-based Convolutional Neural Network）等の深層学習を用いた検出器を採用することができる。これらの検出器は、ニューラルネットワークを用いて入力画像から学習済みの物体を高速で検出する。

ちなみに、ＳＳＤ及びFaster Ｒ−ＣＮＮは、いずれもウェブ上にライブラリが公開されており、それぞれ非特許文献：Liu, Wei, et al. "SSD: Single shot multibox detector." European Conference on Computer Vision. Springer International Publishing，２０１６年、及び非特許文献：Ren, Shaoqing, et al. "Faster r-cnn: Towards real-time object detection with region proposal networks." Advances in neural information processing systems.，２０１５年、において詳細に説明されている。ただし当然に、対象検出器１１は以上に述べたものに限定されず、その他様々な検出器や識別器が対象検出器１１として採用可能である。

物体検出器１１は、学習する各クラスC_j（j＝1, 2, ・・・, D）に対応する出力O_j（j＝1, 2, ・・・, D）を有する。この出力O_jは、通常、正規化されていて0から1の間の値をとり、次式が成り立つ。
（３） Σ_j=1 ^D O_j＝1

ここで、この物体検出器１１の学習においては、あるクラスC_pに属する検索画像が与えられた際に、このクラスC_pに対応する出力O_pがより大きな値を示す一方、他の出力O_j（j≠p）はより小さな値を示すようになるまで、画像入力とニューラルネットワークのパラメータ更新とが繰り返されるのである。このような処理が所定回数（所定数のエポック（epoch））だけ繰り返されることによって学習を完了した（学習済みの）物体検出器１１は、後に詳細に説明する検出判定部１１５に渡される。

同じく図１において、カメラ１０３は、例えば検出対象である人物を撮影し、この人物（の画像領域）を含む画像データを、画像管理部１２１に出力する。画像管理部１２１は、通信インタフェース部１０１やカメラ１０３から画像データを取得し、画像データベース１０４に保存して管理する。また、ユーザ等によるタッチパネル・ディスプレイ１０２を介した指示や装置内処理からの要請等に応じて、検出判定対象である画像データを検出判定部１１５に出力する。

重み決定部１１３は、クラスタリング部１１２で分類されたクラス毎に、当該クラスに属する画像データに係る検索結果情報に基づいて、対象検出器の出力に対する重みを決定する。本実施形態では、
（ａ）クラスC_j（j＝1, 2, ・・・, D）に含まれる画像の検索順位の和S_jと、
（ｂ）クラスタリング部１１２で分類されたクラスC_j（j＝1, 2, ・・・, D）に含まれる画像の枚数M_jと
を用いて、クラスC_jに対応する出力O_jの重みW_j（j＝1, 2, ・・・, D）を導出する。

具体的には、以下の２つの判断基準（ア）及び（イ）に基づき、S_j及びM_jを用いて重みW_jを算出する。
（ア）検索順位が上位の画像を多く含むクラス（S_jがより小さいC_j）ほど、検出対象を含む可能性が高い。
（イ）多くの類似画像を含むクラス（M_jがより大きいC_j）ほど、検出対象を含む可能性が高い。

ここで、検出対象を含む可能性の高いクラスC_jほど、それに対応する出力O_jの値はより高く評価されるべきである。したがって、クラスC_jに対応する出力O_jに対する重みW_jは、上記の判断基準（ア）及び（イ）に従い、例えば次式
（４） W_j＝(1／S_j)×M_j （j＝1, 2, ・・・, D）
で定義された上で、この式を用いて算出することができる。

このように、検索順位及び画像枚数といった検索結果に関連する情報を利用し、検索された画像を学習した対象検出器からの出力に対して重み付けを行うことによって、より精度の高い対象検出の判定を行うことが可能となるのである。

なお当然、重みW_jは上式（４）の形に限定されるものではない。S_j及びM_jのいずれか一方のみの関数、例えば、W_j＝1／S_jや、W_j＝M_jとすることも可能である。いずれにしても、重み決定部１１３は、上記判断基準（ア）に基づき、クラスC_jに係る検索順位の和S_jについては単調減少関数となる重みを決定することが好ましい。さらに、上記判断基準（イ）に基づき、クラスC_jの画像数M_jについては単調増加関数となる重みを決定することが好ましい。

また、クラスC_j内の検索順位の和S_jの代わりに、例えば検索順位の平均等、他の値を使用して重みW_jを算出してもよい。当然、同じくクラスC_jの画像数M_jの代わりに、例えば画像数比等、他の値を使用することもできる。さらに、重みを算出する基準となる検索結果情報として、検索された画像が紐づいているウェブページのタイトルや、検索された画像のタイトル等も採用することも可能である。例えば、重みW_jを、これらのタイトルと検索ワードとなった文字列との類似度についての単調増加関数としてもよい。

同じく図１において、検出判定部１１５は、検出判定の対象となる画像を対象検出器に入力し、この対象検出器から出力されるクラスに係る情報を、決定された重みをもって重み付けした重み付き出力を算出し、この重み付き出力が所定条件を満たす場合に、検出対象の検出を決定する。本実施形態においては具体的に、
（判定処理１）画像管理部１２１から取得された検出判定対象の画像を対象検出部１１に入力し、
（判定処理２）対象検出器１１からのクラスC_j毎の出力O_j（j＝1, 2, ・・・, D）を、重み決定部１１３で決定された重みW_jをもって重み付けした重み付き出力O_Wを算出し、
（判定処理３）算出された重み付き出力O_Wが所定閾値T_Hよりも大きい値であれば、検出対象の検出を決定する。

ここで、上記の判定処理１では、カメラ１０３等で取得した画像データを、学習済みの物体検出器１１に入力として与えることになるが、その際例えば、この画像の各ピクセルの値（輝度値）を与えてもよい。カラー画像であれば、1ピクセルにつきＲＧＢの３つの入力を与えることことができる。当然、画像データの与え方として他のやり方を採用してもよい。また、必要に応じて、入力する画像の輝度や彩度を変更した上で入力する等、下準備としての画像加工を実施することも可能である。次に、対象検出部１１内での処理について説明する。

図３は、対象検出器１１での対象画像領域候補の決定を説明するための模式図である。

図３に示すように、対象検出器１１は、例えば上述したＳＳＤやFaster Ｒ−ＣＮＮの検出器である場合、入力された画像から、検出対象の写った画像領域の候補を見つけ出し、見つけ出した画像領域候補の位置情報、例えば領域左上隅のピクセルの座標(x₁, y₁)と領域右下隅のピクセルの座標(x₂, y₂)との組、を決定する。

次に、検出判定部１１５は、上記の判定処理２として、対象検出器１１から、
（ａ）画像領域候補の位置情報と、
（ｂ）当該画像領域候補についての（各クラスC_jに対応する）D個の出力O₁, O₂, ・・・, O_Dと
の組を取得し、これらに基づいて当該画像領域候補についての重み付き出力O_Wを算出する。具体的には、重み決定部１１３で決定された各クラスC_jに対応する出力O_jの重みW_jを用い、当該画像領域候補毎に、次式
（５） O_W＝Σ_j=1 ^D O_j×W_j
によって重み付き出力O_Wを算出する。

ここで、重みW_jとして上式（４）で算出されたものを採用した場合、上式（５）のO_Wは結局、入力画像が属する可能性の高いクラスC_jにおける検索順位の和S_jが小さいほど大きくなり、且つ当該クラスC_jにおける画像の枚数M_jが大きいほど大きくなる。このように、上式（５）で算出される重み付き出力O_Wは、検索結果で学習した対象検出器の出力を調整した結果として合理的であって、それ故より精度の高い値となっているのである。

最後に、検出判定部１１５は、上記の判定処理３として、算出した重み付き出力O_Wと、所定の出力閾値T_Hを比較し、重み付き出力O_Wが、次式
（６） O_W＞T_H
を満たせば、当該画像領域候補において検出対象の物体を検出したと判定する。検出判定部１１５は、当該画像領域候補の位置を対象検出位置とし、この対象検出位置と、重み付き出力O_W値（と、検出対象（の種別））とを含む検出結果情報を生成し、出力する。

このように出力された検出結果情報は、直接例えばアプリケーション１２２に入力されて使用されてもよく、または、検出結果保存部１０５に保存され、その後適宜、例えばアプリケーション１２２によって読み出されて使用されることも好ましい。アプリケーション１２２は、取得した検出結果情報を、例えば所定のアプリケーション・プログラムにおける画像認識データとして利用することができる。

さらに、この利用結果（処理結果）や元の対象検出結果は、入出力制御部１２３を介して、タッチパネル・ディスプレイ１０２に表示されてもよく、通信インタフェース部１０１を通して外部の情報処理装置へ送信されてもよい。タッチパネル・ディスプレイ１０２に表示する場合、例えば、図３に示すように、判定対象となった画像上において検出対象（例えば犬）に枠を付し、検索ワードや重み付き出力O_Wの値を併せて表示してもよい。また、物体が検出された際には、（図示していない）スピーカを用いて検出されたことを示す音を鳴らしたり、通信インタフェース１０１を介して予め設定された外部の端末宛てに電子メールで検出通知を送信する等、所定の動作を実行したりしてもよい。

［対象検出方法］
図４は、本発明による対象検出方法の一実施形態の概略を示すフローチャートである。本実施形態において、検出対象を含み得る対象データは画像データであって、検出対象は１つの画像データ内に複数含まれ得るとする。すなわち、検出対象の画像領域候補は１つの画像内に複数存在し得る。

（Ｓ１０１）（検出対象を含み得る）検出判定対象の画像が、学習済みの対象検出器１１へ入力される。
（Ｓ１０２）対象検出器１１は、入力された画像内において、検出対象の含まれている画像領域の候補を決定する。

次いで、以下、決定された画像領域候補毎に、検出判定処理であるステップＳ１０３〜Ｓ１０７を繰り返すループに入る。
（Ｓ１０３）検出判定部１１５は、対象検出器１１から、現ループで対象となっている画像領域候補についてのD個の出力O₁, O₂, ・・・, O_Dを取得する。
（Ｓ１０４）検出判定部１１５は、取得された出力O₁, O₂, ・・・, O_Dと、重み決定部１１３で決定された重みW₁, W₂, ・・・, W_Dとを用いて、重み付き出力O_Wを算出する。

（Ｓ１０５）検出判定部１１５は、算出した重み付き出力O_Wが所定の閾値T_Hよりも大きな値であるか否かを判定する。ここで、偽（O_W≦T_H）の判定が行われた際、現ループで対象となっている画像領域候補には検出対象は含まれていないと判断し、ステップＳ１０７に移行する。
（Ｓ１０６）一方、ステップＳ１０５で真（O_W＞T_H）の判定が行われた際、検出判定部１１５は、現ループで対象となっている画像領域候補に検出対象が含まれていると判断し、検出対象の検出を決定する。

（Ｓ１０７）現ループで対象となっている画像領域候補が処理を受ける最後の候補であるか否かを判断し、なお、未処理の画像領域候補が残っていれば、そのうちの１つに係るループとして、再度上記のステップＳ１０３〜Ｓ１０７を繰り返す。
（Ｓ１０８）一方、ステップＳ１０７で未処理の画像領域候補が残っていなければ、検出結果として、検出対象の検出された画像領域候補の位置（座標情報）と、重み付き出力O_Wと、検出対象の種別とを対応付けた検出結果情報を生成して出力し、本フローを終了する。ここで、何も検出されなかった場合、検出結果情報は、その旨を示す（−1等の）値を含むものであってもよい。

ちなみに、検出対象が入力画像に少なくとも1つ含まれるか否かを判定するといった用途の場合、上述したステップＳ１０３〜Ｓ１０７を繰り返すループは、最初の検出対象を検出した時点で終了してもよい。

［実施例１］
図５は、本発明に係る対象検出器に対する学習処理の一実施例を説明するための模式図である。また、図６は、本発明による対象検出方法の一実施例を説明するための模式図である。

最初に、ユーザが、スマートフォン１に表示された入力フォームに、検出したい「犬」という文字列を入力する。スマートフォン１は「犬」という文字列を受け取ると、Bing（登録商標）画像検索のＡＰＩを利用して「犬」を検索ワードとした画像検索を行い、検索結果として100枚（N＝100）の画像を取得する。なお、以下に示す実施例の図においては、各画像の検索順位の値が当該画像の左上に付されている。図５（Ａ）に示すように、この検索順位の上位には犬の写った画像が含まれている。一方、検索順位の下位には、犬の飼育数を示すグラフや、猫の写った画像が含まれている。

次に、スマートフォン１は、これら100枚の画像に対し、類似度に基づいてクラスタリング処理を行う。その結果、図５（Ｂ）に示す実施例では、犬の種別等についての類似度合いも反映した形で、C1, C2, C3, C4, C5の5つのクラスに分類される。ここで、「犬」を検索ワードとしたことにより、クラスC2及びC3には「犬」の写った画像が複数含まれるのに対し、例えばグラフや猫の写った画像は多く検索されることはないので、クラスC4及びC5には画像が少数しか含まれない。

次いで、スマートフォン１は、100枚の画像の各々と属するクラス（C1〜C5のいずれか）とを対応付けた学習用データをもって、物体検出器１１であるＳＳＤを学習させる。この学習が進むにつれてＳＳＤのパラメータが更新される。この学習用データの入力とパラメータ更新とを所定回数繰り返し、学習を完了させる。

次に、スマートフォン１は、ユーザがカメラ１０３で撮影した画像を検出判定対象の対象データとして取得し、図６に示すように、この画像（入力画像）を学習済みのＳＳＤへ入力する。ＳＳＤはこの入力を受けて、検出対象である「犬」の写った可能性のある画像領域候補を決定し、同じく図６に示すように、この画像領域候補についてのクラスC1〜C5に対応する出力O1〜O5を出力する。ここで、入力画像に類似する画像を多く含むクラスC2に対応する出力O2が、最も高い値（0.4）となっている。一方、グラフ画像のみを含むクラスC4に対応する出力O4は最低値（0.0）となっている。

次いで、スマートフォン１は、上式（４）を用いて重みW_j（j＝1, 2, 3, 4, 5）を算出し、さらに上式（５）を用いて重み付き出力O_Wを算出する。具体的には、上式（４）及び（５）をまとめて、次のように計算可能である。
O_W＝0.2*((1/1)*1)＋0.4*((1/11)*3)＋0.3*((1/9)*2)
＋0.0*((1/99)*1)＋0.1*((1/100)*1)
＝0.376757576

最後に、スマートフォン１は、算出した重み付き出力O_Wと、予め設定された出力閾値T_H（＝0.35）とを比較し、O_W（≒0.38）＞T_H（＝0.35）であることから、入力画像における画像領域候補に「犬」が写っていること（「犬」の検出）を決定する。

［実施例２］
図７は、本発明による対象検出方法における他の実施例を説明するための模式図である。上記の図６に示した実施例（実施例１）では検出対象である「犬」が検出されたが、以下、図７を用いて「犬」が検出されない実施例２を示す。

本実施例２では、キャベツの写った画像（「犬」以外の画像）が入力画像としてＳＳＤに入力される。ここで、このＳＳＤは、（実施例１と同じく）図５を用いて説明した学習処理を受けたものである。図７に示すように、このＳＳＤによる出力O1〜O5は、いずれのクラス（C1〜C5）にも入力画像と類似した画像が含まれていないので、いずれも低い値（0.2）を示している。

そのため、これらの出力O1〜O5だけでは、クラスに差が見られず、入力画像が「犬」を含むか否かを判定することは困難である。これに対し、本実施例２では、検索結果情報を勘案した重みW_j（j＝1, 2, 3, 4, 5）を用いて重み付き出力O_Wを算出するので、より精度の高い検出判定が可能となるのである。この重み付き出力O_Wは、具体的に、次のように算出される。
O_W＝0.2*((1/1)*1)＋0.2*((1/11)*3)＋0.2*((1/9)*2)
＋0.2*((1/99)*1)＋0.2*((1/100)*1)
＝0.303010101

ここで、スマートフォン１は、算出した重み付き出力O_Wと、予め設定された出力閾値T_H（＝0.35）とを比較し、O_W（≒0.30）＜T_H（＝0.35）であることから、入力画像における画像領域候補に「犬」は写っていないこと（「犬」の非検出）を決定する。このように、検索結果情報に基づく重み付き出力を導出して判断することによって、より的確な検出の判定が可能となるのである。

［実施例３］
図８は、本発明による対象検出方法の更なる他の実施例を説明するための模式図である。以下、図８を用いて（上記の実施例２と同じく）「犬」が検出されない実施例３を示す。

本実施例３では、グラフの画像（「犬」以外の画像）が入力画像としてＳＳＤに入力される。ここでも、ＳＳＤは、（実施例１と同じく）図５を用いて説明した学習処理を受けたものであって、犬の飼育数を表すグラフの画像を学習しており、グラフの画像を含むクラスC4に対応する出力（O₄）も有するものである。図８に示すように、このＳＳＤによる出力O1〜O5においては、出力O₄が最も高い値（0.7）となっている。

そのため、これらの出力O1〜O5だけから判断すると、例えば、最も高い出力O₄（0.7）が所定の出力閾値T_H（＝0.35）を超えていることから、入力画像に「犬」が写っているとの誤判定を行ってしまう可能性も生じてしまう。これに対し、本実施例３では、検索結果情報を勘案した重みW_j（j＝1, 2, 3, 4, 5）を用いて重み付き出力O_Wを算出するので、そのような誤判定が回避され、より確度の高い検出判定が可能となるのである。この重み付き出力O_Wは、具体的に、次のように算出される。
O_W＝0.1*((1/1)*1)＋0.0*((1/11)*3)＋0.1*((1/9)*2)
＋0.7*((1/99)*1)＋0.1*((1/100)*1)
＝0.130292929

ここで、スマートフォン１は、算出した重み付き出力O_Wと、予め設定された出力閾値T_H（＝0.35）とを比較し、O_W（≒0.13）＜T_H（＝0.35）であることから、入力画像における画像領域候補に「犬」は写っていないこと（「犬」の非検出）を決定する。このように、検索結果情報に基づく重み付き出力を導出して判断することによって、誤検出の問題を回避し、より正確な検出の判定が可能となるのである。

［検出モデル生成装置］
図９は、本発明による検出モデル生成装置の一実施形態を示す機能ブロック図である。

図９によれば、本発明による検出モデル生成装置の一実施形態としての検出モデル生成サーバ３は、要求した検索処理の結果を検索サーバ２から受け取り可能となっており、また、対象検出装置であるスマートフォン４とも通信可能となっている。

具体的に、検出モデル生成サーバ３は、通信インタフェース部３０１と、ディスプレイ・キーボード（ＤＰ・ＫＢ）３０２と、画像データベース３０４と、対象検出器３１と、検索結果取得部３１１と、クラスタリング部３１２と、重み決定部３１３と、検出器学習部３１４と、入出力制御部３２３とを有している。このうち、ディスプレイ・キーボード３０２は、図１に示したスマートフォン１のタッチパネル・ディスプレイ１０２に対応した入出力手段であり、また、その他の機能構成部は、同じく図１に示したスマートフォン１における同名の機能構成部と同様の機能を果たす。

ここで、この検出モデル生成サーバ３の検出器学習部３１４は、対象検出器３１を学習させ、ＮＮのパラメータを含む検出モデルを生成する。検出モデル生成サーバ３は、この検出モデルと、重み決定部３１３で決定された重みとを含む検出器情報をスマートフォン４に送信し、スマートフォン４に学習済みの対象検出器４１を構成させるのである。

一方、スマートフォン４は、通信インタフェース部を介して検出器情報を受信し、取得した検出モデルを適用して学習済みの対象検出器４１を構成する。また、スマートフォン４は検出判定部４１５及びアプリケーション４２２を有しているが、これらの機能構成部も、図１に示した同名の機能構成部と同様の機能を果たす。例えば、検出判定部４１５は、（サーバ３より）取得された重みから重み付き出力を算出し、検出判定を実施するのである。

以上説明したように、本実施形態では、検出モデルの構築、すなわち学習処理は、検出モデル生成サーバ３が実施している。したがって、スマートフォン４は、学習用の多量の検索画像を取得しなくてもよく、また、処理負担の大きい検出モデル構築処理（学習処理）を実施する必要もない。その結果、スマートフォン４では、装置内で実行する情報処理量、及び装置内に取り込むべき情報量が格段に小さくて済む。言い換えれば、スマートフォン４は、携帯端末レベルのサイズ及び処理能力をもって好適な対象検出を実現可能とするのである。

ちなみに、上述したような、サーバ（検出モデル生成装置）３から送信された検出モデル及び重みを利用して検出判定を実施する端末は、当然にスマートフォンに限定されるものではない。例えば、タブレット型コンピュータ、ノート型コンピュータ、ＰＣや、ＩＯＴ（Internet Of Things）環境での使用に適したデバイスとしてのシンクライアント（Thin client）端末であってもよく、さらには、ＳＴＢ、サイネージ、ロボット等、種々の形態の端末を採用することが可能である。

以上、詳細に説明したように、本発明によれば、検出対象に係る文字列等の情報による検索結果である検索結果情報を利用して、例えば人手による学習用データ収集といった多大な労力をかけることなく、対象検出器を自動的に学習させることができる。また、この検索結果情報に基づき対象検出器の出力に対する重みを決定して、対象検出器の出力からより高精度の判定を行うこともできる。

このように、本発明においては、任意の検出対象の検出について、その検出対象に係る文字列等の情報による検索結果を利用して自動的に学習処理を行うので、対象検出器の学習にかかる労力を大幅に低減し、しかも良好な検出を行うことができるのである。例えば、入力画像から、指定した任意の物体をより確実に検出することも可能となる。さらに、用途に応じて検出対象を任意の物体に変更することも容易となるのである。

以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲内での種々の変更、修正及び省略は、当業者によれば容易に行うことができる。以上に述べた説明はあくまで例示であって、何ら制約を意図するものではない。本発明は、特許請求の範囲及びその均等物によってのみ制約される。

１、４スマートフォン（対象検出装置）
１０１、３０１通信インタフェース部
１０２タッチパネル・ディスプレイ（ＴＰ・ＤＰ）
１０３カメラ
１０４、３０４画像データベース
１０５検出結果保存部
１１、３１、４１対象検出器
１１１、３１１検索結果取得部
１１２、３１２クラスタリング部
１１３、３１３重み決定部
１１４、３１４検出器学習部
１１５、４１５検出判定部
１２１画像管理部
１２２、４２２アプリケーション
１２３、３２３入出力制御部
２検索サーバ
３検出モデル生成サーバ（検出モデル生成装置）
３０２ディスプレイ・キーボード（ＤＰ・ＫＢ）

Claims

検出すべき検出対象を含み得る対象データから、当該対象データの属するクラスに係る情報を出力する対象検出器を用いて、当該検出対象を検出可能な対象検出装置であって、
当該検出対象に係る情報を検索キーとして実施された検索の結果としての複数の対象データと、当該対象データの検索順位とを含む検索結果情報を取得する検索結果取得手段と、
取得された複数の対象データを、類似の度合いに基づいて複数のクラスに分類するクラスタリング手段と、
当該対象データと該対象データの属するクラスとを前記対象検出器に入力し、該対象検出器を学習させる検出器学習手段と、
当該クラス毎に、前記対象検出器の出力に対する重みであって、当該クラスに属する対象データの検索順位の和について単調減少関数となる重みを決定する重み決定手段と
を有することを特徴とする対象検出装置。
前記重み決定手段は、当該クラスに属する対象データの数について単調増加関数となる重みを決定することを特徴とする請求項１に記載の対象検出装置。
前記対象検出器から出力されるクラスに係る情報を、決定された重みをもって重み付けした重み付き出力を算出し、当該重み付き出力が所定条件を満たす場合に、当該検出対象の検出を決定する検出判定手段を更に有することを特徴とする請求項１又は２に記載の対象検出装置。
当該対象データは、当該検出対象に係る画像領域を含み得る画像データであり、
前記クラスタリング手段は、画像分類用に学習されたＣＮＮ（Convolutional Neural Network）に当該画像データを入力した際に、該ＣＮＮの隠れ層から出力される情報から生成される特徴量の間の類似度に基づいてクラスタリングを行う
ことを特徴とする請求項１から３のいずれか１項に記載の対象検出装置。
当該対象データは、当該検出対象に係る画像領域を含み得る画像データであり、
前記対象検出器は、入力された当該画像データから当該画像領域の候補を抽出し、当該画像領域の候補についてのクラスに係る情報を出力することを特徴とする請求項１から４のいずれか１項に記載の対象検出装置。