JP2018169972A - 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法 - Google Patents

検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法 Download PDF

Info

Publication number
JP2018169972A
JP2018169972A JP2017069170A JP2017069170A JP2018169972A JP 2018169972 A JP2018169972 A JP 2018169972A JP 2017069170 A JP2017069170 A JP 2017069170A JP 2017069170 A JP2017069170 A JP 2017069170A JP 2018169972 A JP2018169972 A JP 2018169972A
Authority
JP
Japan
Prior art keywords
target
detection
class
detector
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017069170A
Other languages
English (en)
Other versions
JP6787831B2 (ja
Inventor
将也 吉田
Masaya Yoshida
将也 吉田
吉原 貴仁
Takahito Yoshihara
貴仁 吉原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2017069170A priority Critical patent/JP6787831B2/ja
Publication of JP2018169972A publication Critical patent/JP2018169972A/ja
Application granted granted Critical
Publication of JP6787831B2 publication Critical patent/JP6787831B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】任意の検出対象の検出について、対象検出器の学習用データを収集する労力を低減し、良好な検出を行うことを可能にする装置を提供する。【解決手段】検出すべき検出対象を含み得る対象データから、この対象データの属するクラスに係る情報を出力する対象検出器を用いて、検出対象を検出可能な本対象検出装置は、検出対象に係る情報を検索キーとして実施された検索の結果としての複数の対象データを含む検索結果情報を取得する検索結果取得手段と、取得された複数の対象データを、類似の度合いに基づいて複数のクラスに分類するクラスタリング手段と、対象データとこの対象データの属するクラスとを対象検出器に入力し、この対象検出器を学習させる検出器学習手段と、クラス毎に当該クラスに属する対象データに係る検索結果情報に基づいて、対象検出器の出力に対する重みを決定する重み決定手段とを有する。【選択図】図1

Description

本発明は、検出すべき検出対象を含み得る対象データから、対象検出器を用いて当該検出対象を検出する技術に関する。
従来、画像に写っている人物等の物体を検出する技術が存在する。例えば、監視カメラで撮影された画像から不審者を検出するセキュリティシステムは公知である。また、車載カメラで撮影された画像から障害物や歩行者等を検出する技術は、自動車の自動運転を実現するための主要技術として開発が盛んに進められている。
さらに、飛行するドローン(小型無人航空機)に搭載したカメラで撮影された画像や映像と物体検出技術とを組み合わせることによって、様々なサービスが提供可能となる。例えば、街の上空の飛行により撮影された画像から人物を検出することによって行方不明者の捜索を支援することもできる。また、上空から田畑を撮影した映像から農作物を検出することによって、経験だけに頼らない農作物の好適な管理、例えば必要な時期に適量の農薬を必要とする農作物にのみ散布すること等、を実現する。
このように、種々の対象を検出可能であって広範な応用分野を有する物体検出技術であるが、その解析手段の観点から2つに大別される。1つはデータベースを用いたものである。例えば、特許文献1に記載の技術では、検出対象となる人物や農作物等の物体が写った画像と、この画像の特徴量とを対応付けて登録したデータベースを構築し、カメラ等で撮影された入力画像の特徴量と、登録された画像の特徴量との類似度に基づいて、検出対象の物体を検出している。
ここで、このような画像の特徴量として、例えばMPEG−7で規定されているエッジヒストグラム特徴が周知である。いずれにしても、データベースを用いる物体検出は、機械学習におけるような学習処理を必要としないので、高速な処理が可能となる。
一方、他の1つはこの機械学習を用いたものである。近年、機械学習の一種である深層学習(Deep Learning)を用いた物体検出技術が、その精度の高さと実用性から大いに注目されている。深層学習では、ニューラルネットワーク(NN,Neural Network)と呼ばれる脳神経系を模したシステムに対し、画像とそのラベルとを含む学習データを与えることによって、画像の特徴を学習させる。次いで、学習済みのNNに対し、例えばカメラ等で撮影された画像である入力画像を入力することにより、入力画像を学習済みのラベルに分類するのである。
この深層学習を用いた物体検出では、通常、数百から数万枚といった膨大な数の画像をNNに学習させる必要がある。これに対し、非特許文献1に記載された技術は、相当数の学習データ(画像及びそのラベル)と、画像検索サービス提供事業者の画像検索エンジンとを組み合わせることによって、学習用画像を収集する労力の低減を図っている。
また、非特許文献2に記載された技術は、複数の画像の視覚的類似度を用いて各画像にラベル付けを行い、実際に画像検索サービス提供事業者の画像検索エンジンを用いて、2億枚の画像に対し30万個のラベルを付与したデータセットを生成し、提供している。
国際公開2014/132349号公報
Martin Kolar, et al. "Deep learning on small datasets using online image search." Proceedings of the 32nd Spring Conference on Computer Graphics 2016 (SCCG '16), 2016年,87〜93頁 Tsai, David, et al. "Large-scale image annotation using visual synset." Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011年,611〜618頁
しかしながら、上記の文献に記載された技術を含めた従来技術では、なお、データベース構築用の又は学習用の画像を収集し、さらにそのラベルを用意するのに多大な労力が必要となってしまう。またそれ故、多種多様な物体等が検出対象となり得る中で、それに合わせて適宜、好適な学習済みの検出モデルを生成して検出に利用することは、依然として困難である。
例えば、特許文献1に記載された技術は、データベースを構築するため、検出の対象となる人物や農作物等の物体の画像とそのラベルとを人手で準備しなければならない。またそれ故、任意の物体を検出できるようにするためには、検出対象が変更される度に、画像収集とラベル付けや、特徴量抽出を行い、多大な手間をかけてデータベースを更新する必要が生じてしまう。
また、非特許文献1に記載された技術は、たしかに画像検索エンジンを用いることによって多少、画像収集の手間を低減し得る。しかしながら、検出対象が変更される度に、相当数の学習データ(画像及びそのラベル)を人手で用意しなければならないことに変わりはない。
さらに、非特許文献2に記載された技術は、たしかに多数の画像に対して自動でラベル付けすることを可能にする。しかしながら、1枚の画像に対し複数のラベルが付与されてしまう。一般に、機械学習(深層学習)の学習用データは、1つの学習対象のオブジェクトに対し1つのラベルを指定する必要があるので、非特許文献2でラベル付けした画像をそのまま学習用データとして利用することは困難である。また、付与された複数のラベルから1つのラベルを選択するとしても当然、それにより人手による手間を増大させてしまう。
ちなみに、このような問題は、画像からの物体検出を実施する場合に限定されるものではなく、検出すべき検出対象を含み得る対象データから対象検出器を用いて当該検出対象を検出する際にはしばしば生じ得るものである。
そこで、本発明は、任意の検出対象の検出について、対象検出器の学習用データを収集する労力を低減し、良好な検出を行うことを可能にする装置、プログラム及び方法を提供することを目的とする。
本発明によれば、検出すべき検出対象を含み得る対象データから、当該対象データの属するクラスに係る情報を出力する対象検出器を用いて、当該検出対象を検出可能な対象検出装置であって、
当該検出対象に係る情報を検索キーとして実施された検索の結果としての複数の対象データを含む検索結果情報を取得する検索結果取得手段と、
取得された複数の対象データを、類似の度合いに基づいて複数のクラスに分類するクラスタリング手段と、
当該対象データと該対象データの属するクラスとを対象検出器に入力し、この対象検出器を学習させる検出器学習手段と、
当該クラス毎に、当該クラスに属する対象データに係る検索結果情報に基づいて、対象検出器の出力に対する重みを決定する重み決定手段と
を有する対象検出装置が提供される。
この本発明による対象検出装置の一実施形態として、重み決定手段は、当該クラスに属する対象データの数について単調増加関数となる重みを決定することも好ましい。
また、本発明による対象検出装置の他の実施形態として、検索結果取得手段は、当該検索結果情報として当該対象データの検索順位を含む情報を取得し、重み決定手段は、当該クラスに属する対象データの検索順位の和について単調減少関数となる重みを決定することも好ましい。
さらに、本発明による対象検出装置は、対象検出器から出力されるクラスに係る情報を、決定された重みをもって重み付けした重み付き出力を算出し、当該重み付き出力が所定条件を満たす場合に、当該検出対象の検出を決定する検出判定手段を更に有することも好ましい。
また、本発明による対象検出装置の更なる他の実施形態として、当該対象データは、当該検出対象に係る画像領域を含み得る画像データであり、クラスタリング手段は、画像分類用に学習されたCNN(Convolutional Neural Network)に当該画像データを入力した際に、このCNNの隠れ層から出力される情報から生成される特徴量の間の類似度に基づいてクラスタリングを行うことも好ましい。
さらに、本発明による対象検出装置の更なる他の実施形態として、当該対象データは、当該検出対象に係る画像領域を含み得る画像データであり、対象検出器は、入力された当該画像データから当該画像領域の候補を抽出し、当該画像領域の候補についてのクラスに係る情報を出力することも好ましい。
本発明によれば、また、検出すべき検出対象を含み得る対象データから、当該対象データの属するクラスに係る情報を出力する対象検出器の検出モデルを生成する検出モデル生成装置であって、
当該検出対象に係る情報を検索キーとして実施された検索の結果としての複数の対象データを含む検索結果情報を取得する検索結果取得手段と、
取得された複数の対象データを、類似の度合いに基づいて複数のクラスに分類するクラスタリング手段と、
当該対象データと該対象データの属するクラスとを対象検出器に入力してこの対象検出器を学習させ、当該検出モデルを生成する検出器学習手段と、
当該クラス毎に、当該クラスに属する対象データに係る検索結果情報に基づいて、対象検出器の出力に対する重みを決定する重み決定手段と
を有する検出モデル生成装置が提供される。
本発明によれば、さらに、以上に述べた検出モデル生成装置から、生成された当該検出モデルと決定された当該重みとを受信する通信インタフェースと、
検出すべき検出対象を含み得る対象データから、当該対象データの属するクラスに係る情報を出力する対象検出器であって、受信された当該検出モデルが適用される対象検出器と、
対象検出器から出力されるクラスに係る情報を、受信された当該重みをもって重み付けした重み付き出力を算出し、当該重み付き出力が所定条件を満たす場合に、当該検出対象の検出を決定する検出判定手段と
を有する対象検出装置が提供される。
本発明によれば、さらにまた、検出すべき検出対象を含み得る対象データから、当該対象データの属するクラスに係る情報を出力する対象検出器を用いて、当該検出対象を検出可能な装置に搭載されたコンピュータを機能させる対象検出プログラムであって、
当該検出対象に係る情報を検索キーとして実施された検索の結果としての複数の対象データを含む検索結果情報を取得する検索結果取得手段と、
取得された複数の対象データを、類似の度合いに基づいて複数のクラスに分類するクラスタリング手段と、
当該対象データと該対象データの属するクラスとを対象検出器に入力し、この対象検出器を学習させる検出器学習手段と、
当該クラス毎に、当該クラスに属する対象データに係る検索結果情報に基づいて、対象検出器の出力に対する重みを決定する重み決定手段と
してコンピュータを機能させる対象検出プログラムが提供される。
本発明によれば、さらに、検出すべき検出対象を含み得る対象データから、当該対象データの属するクラスに係る情報を出力する対象検出器を用いて、当該検出対象を検出可能な装置に搭載されたコンピュータにおいて実施される対象検出方法であって、
当該検出対象に係る情報を検索キーとして実施された検索の結果としての複数の対象データを含む検索結果情報を取得するステップと、
取得された複数の対象データを、類似の度合いに基づいて複数のクラスに分類するステップと、
当該対象データと該対象データの属するクラスとを対象検出器に入力し、この対象検出器を学習させるステップと、
当該クラス毎に、当該クラスに属する対象データに係る検索結果情報に基づいて、対象検出器の出力に対する重みを決定するステップと
を有する対象検出方法が提供される。
本発明の対象検出装置、検出モデル生成装置、プログラム及び方法によれば、任意の検出対象の検出について、対象検出器の学習用データを収集する労力を低減し、良好な検出を行うことができる。
本発明による対象検出装置の一実施形態における機能構成を示す機能ブロック図である。 CNNの隠れ層からの出力を用いた類似度の算出を、概略的に説明するための模式図である。 対象検出器での対象画像領域候補の決定を説明するための模式図である。 本発明による対象検出方法の一実施形態の概略を示すフローチャートである。 本発明に係る対象検出器に対する学習処理の一実施例を説明するための模式図である。 本発明による対象検出方法の一実施例を説明するための模式図である。 本発明による対象検出方法における他の実施例を説明するための模式図である。 本発明による対象検出方法の更なる他の実施例を説明するための模式図である。 本発明による検出モデル生成装置の一実施形態を示す機能ブロック図である。
以下、本発明の実施形態について、図面を用いて詳細に説明する。
[状態識別装置]
図1は、本発明による対象検出装置の一実施形態における機能構成を示す機能ブロック図である。
図1によれば、本発明による対象検出装置の一実施形態であるスマートフォン1は、公知の構成を有するカメラ103を内蔵しており、このカメラ103で撮影して生成した写真画像に、所定の検出対象(例えば犬)が写っているか否かを判定して、写っている検出対象(犬)の画像領域を指し示すことができる。例えば、タッチパネル・ディスプレイ(TP・DP)102上に判定結果及び検出対象(犬)の画像領域を表示することが可能である。なお当然に、このような検出対象を含み得る画像を、外部から通信ネットワーク経由で通信インタフェース部101を介して取得し、対象検出処理を行うこともできる。
さらに、1つの応用例として、スマートフォン1のアプリケーション122が、この対象検出結果を利用して、写真の分類・加工処理、例えば検出対象(犬)の飼育アルバムの作成等、を行うことも可能になる。
また、スマートフォン1は、本実施形態において、ユーザによってタッチパネル・ディスプレイ102を介し入力された所定の検出対象(例えば犬)に係る文字列、例えば検索対象の名称(例えば「犬」や「イヌ」等)を受け付け、この文字列を検索ワードとした検索エンジンによる検索結果を取得することができる。ここで、検索エンジンは外部の検索サーバ2に備えられたものを利用し、この文字列による検索処理は、通信インタフェース部101を介し検索サーバ2と通信を行うことによって実施される。
スマートフォン1は、この取得された検索結果を利用して、対象検出器の学習処理を自動的に実行し、さらに、この学習させた対象検出器の出力から高い精度の判定を行う検出処理を実行するのである。例えば、ユーザが検出対象の名称(「犬」)を指定した入力を行った際、指定された「犬」が入力画像に写っている旨の検出結果や、写っている犬に対応する画像領域を提示することが可能となる。
具体的に、スマートフォン1は、検出すべき検出対象(例えば犬)を含み得る対象データ(例えば画像データ)から、対象データ(画像データ)の属するクラスに係る情報を出力する対象検出器を用いて、検出対象(犬)を検出可能な対象検出装置であって、
(A)検出対象(犬)に係る文字列(例えば「犬」)等の情報を検索キー(例えば検索ワード)として実施された検索の結果としての複数の対象データ(画像データ)を含む「検索結果情報」を取得する検索結果取得部111と、
(B)取得された複数の対象データ(画像データ)を、類似の度合いに基づいて複数のクラスに分類するクラスタリング部112と、
(C)対象データ(画像データ)とこの対象データの属するクラスとを対象検出器に入力し、この対象検出器を学習させる検出器学習部114と、
(D)クラス毎に、当該クラスに属する対象データ(画像データ)に係る「検索結果情報」に基づいて、対象検出器の出力に対する「重み」を決定する重み決定部113と
を有することを特徴としている。
ここで、「検索結果情報」は、検索された対象データ(画像データ)の検索順位を含んでいてもよく、重み決定部113は、後に詳細に説明するように、当該クラスに属する対象データの検索順位の和について単調減少関数となる「重み」を決定することも好ましい。さらに、当該クラスに属する対象データの数について単調増加関数となる「重み」を決定することも好ましい。
このように、スマートフォン1は、検出対象に係る文字列等の情報による検索結果である「検索結果情報」を利用して、例えば人手による学習用データ収集といった多大な労力をかけることなく、対象検出器を自動的に学習させることができるのである。また、この「検索結果情報」に基づき対象検出器の出力に対する「重み」を決定して、対象検出器の出力からより高精度の判定を行う。
すなわち、スマートフォン1は、任意の検出対象の検出について、その検出対象に係る文字列等の情報による検索結果を利用して自動的に学習処理を行うので、対象検出器の学習にかかる労力を大幅に低減し、しかも良好な検出を行うことを可能にする。例えば、カメラ103で撮影された画像から、指定した任意の物体をより確実に検出することも可能となるのである。
なお当然に、本発明による対象検出装置が取り扱う対象データは、静止画像データに限定に限定されるものではない。例えば、動画像データであってもよく、さらには、ニュース記事や論文、評論等のテキストデータとすることもできる。この場合、検出対象は例えば、このテキストデータにおける所定のトピックに対するコメント部分等とすることができる。いずれにしても、検出すべき検出対象を含む可能性があり、対象検出器を用いて当該検出対象を検出することができるデータであれば、種々のものが対象データとして採用可能である。
また、上記の「検索結果情報」を取得するための検索処理は、例えば、検索サービス提供事業者や個人等が提供する検索エンジンや同様の検索システム、さらには画像データベースによっても実施することができる。
さらに、本発明による対象検出装置は、当然にスマートフォンに限定されるものではない。例えば、タブレット型コンピュータ、ノート型コンピュータ、パーソナルコンピュータ(PC)、セットトップボックス(STB)、ロボット、デジタルサイネージであってもよい。また、端末ではなくサーバとすることも可能である。さらに、検索エンジンを自ら備え、「検索結果情報」を自ら生成する端末、サーバ又はスタンドアローン装置であってもよい。また、カメラ103も装置内蔵のものに限定されず、例えば、外部の監視カメラや車載カメラ、さらにはドローンに搭載されたカメラ等とすることもできる。
[装置構成]
以下、同じく図1を用いて、本発明による対象検出装置の具体的構成について説明を行う。同図の機能ブロック図に示すように、対象検出装置(物体検出装置)である本実施形態のスマートフォン1は、通信インタフェース部101と、タッチパネル・ディスプレイ(TP・DP)102と、カメラ103と、画像データベース104と、検出結果保存部105と、プロセッサ・メモリとを有する。ここで、プロセッサ・メモリは、スマートフォン1のコンピュータを機能させるプログラムを実行することによって、対象検出機能(物体検出機能)を実現させる。
ちなみに、通信インタフェース部101を介し、本発明に係る対象検出プログラム(アプリ)や、この対象検出結果を利用したサービスを提供可能なアプリケーション・プログラム、例えば対象画像のアルバム作成アプリ等、がスマートフォン1にダウンロード可能となっていてもよい。
さらに、上記のプロセッサ・メモリは、機能構成部として、対象検出器11と、検索結果取得部111と、クラスタリング部112と、重み決定部113と、検出器学習部114と、検出判定部115と、画像管理部121と、アプリケーション122と、入出力制御部123とを有する。ここで、図1におけるスマートフォン1の機能構成部間を矢印で接続して示した処理の流れは、本発明による対象検出方法(物体検出方法)の一実施形態としても理解される。
上記の機能構成部のうち、検索結果取得部111は、
(a)タッチパネル・ディスプレイ102を介して入力された検出対象に係る文字列を取得し、
(b)通信インタフェース部101を介した通信によって、検索サーバ2の検索エンジンに対し、取得した文字列を検索ワードとした検索を実施させ、
(c)検索サーバ2から通信インタフェース部101を介して、実施させた検索処理の結果である検索結果情報を取得する。
ここで、この検索結果情報には、検索された複数の画像データであって、画像データ毎に当該データの検索順位が紐づけられた複数の画像データと、検索された画像データの総数とが含まれている。
なお、検索ワードとなる文字列は、検出対象の名称とすることができる。または、検出対象と高い関連性のある物体や事象等を表すワードを合わせて、この文字列として入力してもよい。また、この文字列は、画像検索エンジンの検索ワードとして入力可能であれば、日本語でも他の言語でもよく、各種記号等を含むものであってもよい。さらに、文字を用いず各種記号等のみで検索キーを構成することも可能である。また、画像検索エンジンの制約に従い、文字・記号数や文字・記号の種類が限定されたものとすることもできる。さらには、検索キーとして検出対象を含む画像そのものを採用し、画像検索を行うことも可能である。
また、上記の検索ワードとなる文字列の入力方法も、上述したものに限定されるものではない。検索のためのプログラムのソースコードに文字列を直接記入してもくよく、特定の入力フォームから文字列を入力してもよい。本実施形態では、入力された文字列は通信ネットワークを介して検索サーバ2の画像検索エンジンに渡される。
ここで、画像検索エンジンは具体的に、入力された文字列を検索ワードとした検索処理を行い、ウェブ(Web)上から該当するN枚の画像Ii(i=1, 2, ・・・, N)を取得し、取得画像毎に当該画像Iiの検索順位Ri(i=1, 2, ・・・, N)を決定する。検索順位の算出方法は、一般に画像検索エンジンによるが、通常、順位が上位の(Riがより小さい)画像ほど、検索ワードとの関連がより強い画像となる。ちなみに、Google(登録商標)画像検索やBing(登録商標)画像検索では、事業者より提供されているAPI(Application Programming Interface)を用いることによって検索画像及び検索順位を取得することができる。
クラスタリング部112は、検索によって取得された複数の画像データを、画像の類似度に基づいて複数のクラスに分類する。具体的に、クラスタリング部112は、検索結果取得部111によって取得されたN枚の画像Ii(i=1, 2, ・・・, N)と、その検索順位Ri(i=1, 2, ・・・, N)とを受け付け、これらN枚の画像を、画像間の類似度によってD個のグループ(クラスタ)に分類(クラスタリング)する。
ここで、類似度を用いた画像のクラスタリングは、K−means法等の公知の方法を用いて実施することができる。例えば、上述した特許文献1に記載されたように、画像の特徴量ベクトルの間のユークリッド距離の2乗に基づき類似度の判定を行い、この判定結果に従って画像を分類してもよい。また他の方法として、クラスタリング部112は、画像分類用に学習されたCNN(Convolutional Neural Network)に当該画像データを入力した際に、このCNNの隠れ層から出力される情報から生成される特徴量の間の類似度に基づいて、クラスタリングを行ってもよい。
図2は、CNNの隠れ層からの出力を用いた類似度の算出を、概略的に説明するための模式図である。同図において、CNNの浅い層の出力は輪郭等の低レベルの視覚的特徴を有するのに対し、CNNのより深い隠れ層の出力は、画像における抽象化された意味的情報を含んでいる。このような隠れ層の出力を用いて画像の特徴量を決定し、画像間においてこの特徴量の類似度を算出することができるのである。このようなCNNを用いた画像類似度の算出については、例えば、非特許文献:[online]、[平成29年3月27日検索]、インターネット<URL: https://www.slideshare.net/ToshinoriHanya/deep-learning-ohs5>において詳細に説明されている。
図1に戻って、クラスタリング部112は、上述したように、画像クラスタリング処理によって、検索された画像をD個のグループ(画像のクラスタ)に分類する。本実施形態では、クラスタリング部112で分類されたD個のグループを、機械学習の学習クラスとして利用する。以後、これらのD個のグループ(クラス)をCj(j=1, 2, ・・・, D)として表す。また、クラスCjに含まれる画像の枚数をMjで表す。このMjは、後述するように、対象検出判定の際に用いる重みの算出に使用される重要な量であるが、次式
(1) Σj=1 D Mj=N
を満たす。ここで、Σj=1 Dはj=1〜Dについての総和(summation)である。
さらに、同じく重みの算出において、クラスCjに含まれる画像の検索順位の和Sjを使用することができる。Sjは、次式
(2) Sj=ΣCj Ri
によって算出される。ここで、ΣCj RiはクラスCjに含まれる全ての画像Ii(Ii∈Cj)についての検索順位Riの総和である。
検出器学習部114は、検索された複数の対象データの各々に、当該対象データの属するクラスが紐づけられた情報を対象検出器11に入力し、対象検出器11を学習させる。具体的には、上述したN枚の画像Ii(i=1, 2, ・・・, N)と、各画像の属するクラスCj(j=1〜D)とをクラスタリング部112から取得して対象検出器11に入力し、トレーニングを行う。
ここで本実形態において、対象検出器11は、入力された画像データから画像領域の候補を抽出し、当該画像領域候補についてのクラスに係る情報を出力する。具体的には、対象検出器11として、SSD(Single Shot MultiBox Detector)や、Faster R−CNN(Region-based Convolutional Neural Network)等の深層学習を用いた検出器を採用することができる。これらの検出器は、ニューラルネットワークを用いて入力画像から学習済みの物体を高速で検出する。
ちなみに、SSD及びFaster R−CNNは、いずれもウェブ上にライブラリが公開されており、それぞれ非特許文献:Liu, Wei, et al. "SSD: Single shot multibox detector." European Conference on Computer Vision. Springer International Publishing,2016年、及び非特許文献:Ren, Shaoqing, et al. "Faster r-cnn: Towards real-time object detection with region proposal networks." Advances in neural information processing systems.,2015年、において詳細に説明されている。ただし当然に、対象検出器11は以上に述べたものに限定されず、その他様々な検出器や識別器が対象検出器11として採用可能である。
物体検出器11は、学習する各クラスCj(j=1, 2, ・・・, D)に対応する出力Oj(j=1, 2, ・・・, D)を有する。この出力Ojは、通常、正規化されていて0から1の間の値をとり、次式が成り立つ。
(3) Σj=1 D Oj=1
ここで、この物体検出器11の学習においては、あるクラスCpに属する検索画像が与えられた際に、このクラスCpに対応する出力Opがより大きな値を示す一方、他の出力Oj(j≠p)はより小さな値を示すようになるまで、画像入力とニューラルネットワークのパラメータ更新とが繰り返されるのである。このような処理が所定回数(所定数のエポック(epoch))だけ繰り返されることによって学習を完了した(学習済みの)物体検出器11は、後に詳細に説明する検出判定部115に渡される。
同じく図1において、カメラ103は、例えば検出対象である人物を撮影し、この人物(の画像領域)を含む画像データを、画像管理部121に出力する。画像管理部121は、通信インタフェース部101やカメラ103から画像データを取得し、画像データベース104に保存して管理する。また、ユーザ等によるタッチパネル・ディスプレイ102を介した指示や装置内処理からの要請等に応じて、検出判定対象である画像データを検出判定部115に出力する。
重み決定部113は、クラスタリング部112で分類されたクラス毎に、当該クラスに属する画像データに係る検索結果情報に基づいて、対象検出器の出力に対する重みを決定する。本実施形態では、
(a)クラスCj(j=1, 2, ・・・, D)に含まれる画像の検索順位の和Sjと、
(b)クラスタリング部112で分類されたクラスCj(j=1, 2, ・・・, D)に含まれる画像の枚数Mj
を用いて、クラスCjに対応する出力Ojの重みWj(j=1, 2, ・・・, D)を導出する。
具体的には、以下の2つの判断基準(ア)及び(イ)に基づき、Sj及びMjを用いて重みWjを算出する。
(ア)検索順位が上位の画像を多く含むクラス(Sjがより小さいCj)ほど、検出対象を含む可能性が高い。
(イ)多くの類似画像を含むクラス(Mjがより大きいCj)ほど、検出対象を含む可能性が高い。
ここで、検出対象を含む可能性の高いクラスCjほど、それに対応する出力Ojの値はより高く評価されるべきである。したがって、クラスCjに対応する出力Ojに対する重みWjは、上記の判断基準(ア)及び(イ)に従い、例えば次式
(4) Wj=(1/Sj)×Mj (j=1, 2, ・・・, D)
で定義された上で、この式を用いて算出することができる。
このように、検索順位及び画像枚数といった検索結果に関連する情報を利用し、検索された画像を学習した対象検出器からの出力に対して重み付けを行うことによって、より精度の高い対象検出の判定を行うことが可能となるのである。
なお当然、重みWjは上式(4)の形に限定されるものではない。Sj及びMjのいずれか一方のみの関数、例えば、Wj=1/Sjや、Wj=Mjとすることも可能である。いずれにしても、重み決定部113は、上記判断基準(ア)に基づき、クラスCjに係る検索順位の和Sjについては単調減少関数となる重みを決定することが好ましい。さらに、上記判断基準(イ)に基づき、クラスCjの画像数Mjについては単調増加関数となる重みを決定することが好ましい。
また、クラスCj内の検索順位の和Sjの代わりに、例えば検索順位の平均等、他の値を使用して重みWjを算出してもよい。当然、同じくクラスCjの画像数Mjの代わりに、例えば画像数比等、他の値を使用することもできる。さらに、重みを算出する基準となる検索結果情報として、検索された画像が紐づいているウェブページのタイトルや、検索された画像のタイトル等も採用することも可能である。例えば、重みWjを、これらのタイトルと検索ワードとなった文字列との類似度についての単調増加関数としてもよい。
同じく図1において、検出判定部115は、検出判定の対象となる画像を対象検出器に入力し、この対象検出器から出力されるクラスに係る情報を、決定された重みをもって重み付けした重み付き出力を算出し、この重み付き出力が所定条件を満たす場合に、検出対象の検出を決定する。本実施形態においては具体的に、
(判定処理1)画像管理部121から取得された検出判定対象の画像を対象検出部11に入力し、
(判定処理2)対象検出器11からのクラスCj毎の出力Oj(j=1, 2, ・・・, D)を、重み決定部113で決定された重みWjをもって重み付けした重み付き出力OWを算出し、
(判定処理3)算出された重み付き出力OWが所定閾値THよりも大きい値であれば、検出対象の検出を決定する。
ここで、上記の判定処理1では、カメラ103等で取得した画像データを、学習済みの物体検出器11に入力として与えることになるが、その際例えば、この画像の各ピクセルの値(輝度値)を与えてもよい。カラー画像であれば、1ピクセルにつきRGBの3つの入力を与えることことができる。当然、画像データの与え方として他のやり方を採用してもよい。また、必要に応じて、入力する画像の輝度や彩度を変更した上で入力する等、下準備としての画像加工を実施することも可能である。次に、対象検出部11内での処理について説明する。
図3は、対象検出器11での対象画像領域候補の決定を説明するための模式図である。
図3に示すように、対象検出器11は、例えば上述したSSDやFaster R−CNNの検出器である場合、入力された画像から、検出対象の写った画像領域の候補を見つけ出し、見つけ出した画像領域候補の位置情報、例えば領域左上隅のピクセルの座標(x1, y1)と領域右下隅のピクセルの座標(x2, y2)との組、を決定する。
次に、検出判定部115は、上記の判定処理2として、対象検出器11から、
(a)画像領域候補の位置情報と、
(b)当該画像領域候補についての(各クラスCjに対応する)D個の出力O1, O2, ・・・, OD
の組を取得し、これらに基づいて当該画像領域候補についての重み付き出力OWを算出する。具体的には、重み決定部113で決定された各クラスCjに対応する出力Ojの重みWjを用い、当該画像領域候補毎に、次式
(5) OW=Σj=1 D Oj×Wj
によって重み付き出力OWを算出する。
ここで、重みWjとして上式(4)で算出されたものを採用した場合、上式(5)のOWは結局、入力画像が属する可能性の高いクラスCjにおける検索順位の和Sjが小さいほど大きくなり、且つ当該クラスCjにおける画像の枚数Mjが大きいほど大きくなる。このように、上式(5)で算出される重み付き出力OWは、検索結果で学習した対象検出器の出力を調整した結果として合理的であって、それ故より精度の高い値となっているのである。
最後に、検出判定部115は、上記の判定処理3として、算出した重み付き出力OWと、所定の出力閾値THを比較し、重み付き出力OWが、次式
(6) OW>TH
を満たせば、当該画像領域候補において検出対象の物体を検出したと判定する。検出判定部115は、当該画像領域候補の位置を対象検出位置とし、この対象検出位置と、重み付き出力OW値(と、検出対象(の種別))とを含む検出結果情報を生成し、出力する。
このように出力された検出結果情報は、直接例えばアプリケーション122に入力されて使用されてもよく、または、検出結果保存部105に保存され、その後適宜、例えばアプリケーション122によって読み出されて使用されることも好ましい。アプリケーション122は、取得した検出結果情報を、例えば所定のアプリケーション・プログラムにおける画像認識データとして利用することができる。
さらに、この利用結果(処理結果)や元の対象検出結果は、入出力制御部123を介して、タッチパネル・ディスプレイ102に表示されてもよく、通信インタフェース部101を通して外部の情報処理装置へ送信されてもよい。タッチパネル・ディスプレイ102に表示する場合、例えば、図3に示すように、判定対象となった画像上において検出対象(例えば犬)に枠を付し、検索ワードや重み付き出力OWの値を併せて表示してもよい。また、物体が検出された際には、(図示していない)スピーカを用いて検出されたことを示す音を鳴らしたり、通信インタフェース101を介して予め設定された外部の端末宛てに電子メールで検出通知を送信する等、所定の動作を実行したりしてもよい。
[対象検出方法]
図4は、本発明による対象検出方法の一実施形態の概略を示すフローチャートである。本実施形態において、検出対象を含み得る対象データは画像データであって、検出対象は1つの画像データ内に複数含まれ得るとする。すなわち、検出対象の画像領域候補は1つの画像内に複数存在し得る。
(S101)(検出対象を含み得る)検出判定対象の画像が、学習済みの対象検出器11へ入力される。
(S102)対象検出器11は、入力された画像内において、検出対象の含まれている画像領域の候補を決定する。
次いで、以下、決定された画像領域候補毎に、検出判定処理であるステップS103〜S107を繰り返すループに入る。
(S103)検出判定部115は、対象検出器11から、現ループで対象となっている画像領域候補についてのD個の出力O1, O2, ・・・, ODを取得する。
(S104)検出判定部115は、取得された出力O1, O2, ・・・, ODと、重み決定部113で決定された重みW1, W2, ・・・, WDとを用いて、重み付き出力OWを算出する。
(S105)検出判定部115は、算出した重み付き出力OWが所定の閾値THよりも大きな値であるか否かを判定する。ここで、偽(OW≦TH)の判定が行われた際、現ループで対象となっている画像領域候補には検出対象は含まれていないと判断し、ステップS107に移行する。
(S106)一方、ステップS105で真(OW>TH)の判定が行われた際、検出判定部115は、現ループで対象となっている画像領域候補に検出対象が含まれていると判断し、検出対象の検出を決定する。
(S107)現ループで対象となっている画像領域候補が処理を受ける最後の候補であるか否かを判断し、なお、未処理の画像領域候補が残っていれば、そのうちの1つに係るループとして、再度上記のステップS103〜S107を繰り返す。
(S108)一方、ステップS107で未処理の画像領域候補が残っていなければ、検出結果として、検出対象の検出された画像領域候補の位置(座標情報)と、重み付き出力OWと、検出対象の種別とを対応付けた検出結果情報を生成して出力し、本フローを終了する。ここで、何も検出されなかった場合、検出結果情報は、その旨を示す(−1等の)値を含むものであってもよい。
ちなみに、検出対象が入力画像に少なくとも1つ含まれるか否かを判定するといった用途の場合、上述したステップS103〜S107を繰り返すループは、最初の検出対象を検出した時点で終了してもよい。
[実施例1]
図5は、本発明に係る対象検出器に対する学習処理の一実施例を説明するための模式図である。また、図6は、本発明による対象検出方法の一実施例を説明するための模式図である。
最初に、ユーザが、スマートフォン1に表示された入力フォームに、検出したい「犬」という文字列を入力する。スマートフォン1は「犬」という文字列を受け取ると、Bing(登録商標)画像検索のAPIを利用して「犬」を検索ワードとした画像検索を行い、検索結果として100枚(N=100)の画像を取得する。なお、以下に示す実施例の図においては、各画像の検索順位の値が当該画像の左上に付されている。図5(A)に示すように、この検索順位の上位には犬の写った画像が含まれている。一方、検索順位の下位には、犬の飼育数を示すグラフや、猫の写った画像が含まれている。
次に、スマートフォン1は、これら100枚の画像に対し、類似度に基づいてクラスタリング処理を行う。その結果、図5(B)に示す実施例では、犬の種別等についての類似度合いも反映した形で、C1, C2, C3, C4, C5の5つのクラスに分類される。ここで、「犬」を検索ワードとしたことにより、クラスC2及びC3には「犬」の写った画像が複数含まれるのに対し、例えばグラフや猫の写った画像は多く検索されることはないので、クラスC4及びC5には画像が少数しか含まれない。
次いで、スマートフォン1は、100枚の画像の各々と属するクラス(C1〜C5のいずれか)とを対応付けた学習用データをもって、物体検出器11であるSSDを学習させる。この学習が進むにつれてSSDのパラメータが更新される。この学習用データの入力とパラメータ更新とを所定回数繰り返し、学習を完了させる。
次に、スマートフォン1は、ユーザがカメラ103で撮影した画像を検出判定対象の対象データとして取得し、図6に示すように、この画像(入力画像)を学習済みのSSDへ入力する。SSDはこの入力を受けて、検出対象である「犬」の写った可能性のある画像領域候補を決定し、同じく図6に示すように、この画像領域候補についてのクラスC1〜C5に対応する出力O1〜O5を出力する。ここで、入力画像に類似する画像を多く含むクラスC2に対応する出力O2が、最も高い値(0.4)となっている。一方、グラフ画像のみを含むクラスC4に対応する出力O4は最低値(0.0)となっている。
次いで、スマートフォン1は、上式(4)を用いて重みWj(j=1, 2, 3, 4, 5)を算出し、さらに上式(5)を用いて重み付き出力OWを算出する。具体的には、上式(4)及び(5)をまとめて、次のように計算可能である。
OW=0.2*((1/1)*1)+0.4*((1/11)*3)+0.3*((1/9)*2)
+0.0*((1/99)*1)+0.1*((1/100)*1)
=0.376757576
最後に、スマートフォン1は、算出した重み付き出力OWと、予め設定された出力閾値TH(=0.35)とを比較し、OW(≒0.38)>TH(=0.35)であることから、入力画像における画像領域候補に「犬」が写っていること(「犬」の検出)を決定する。
[実施例2]
図7は、本発明による対象検出方法における他の実施例を説明するための模式図である。上記の図6に示した実施例(実施例1)では検出対象である「犬」が検出されたが、以下、図7を用いて「犬」が検出されない実施例2を示す。
本実施例2では、キャベツの写った画像(「犬」以外の画像)が入力画像としてSSDに入力される。ここで、このSSDは、(実施例1と同じく)図5を用いて説明した学習処理を受けたものである。図7に示すように、このSSDによる出力O1〜O5は、いずれのクラス(C1〜C5)にも入力画像と類似した画像が含まれていないので、いずれも低い値(0.2)を示している。
そのため、これらの出力O1〜O5だけでは、クラスに差が見られず、入力画像が「犬」を含むか否かを判定することは困難である。これに対し、本実施例2では、検索結果情報を勘案した重みWj(j=1, 2, 3, 4, 5)を用いて重み付き出力OWを算出するので、より精度の高い検出判定が可能となるのである。この重み付き出力OWは、具体的に、次のように算出される。
OW=0.2*((1/1)*1)+0.2*((1/11)*3)+0.2*((1/9)*2)
+0.2*((1/99)*1)+0.2*((1/100)*1)
=0.303010101
ここで、スマートフォン1は、算出した重み付き出力OWと、予め設定された出力閾値TH(=0.35)とを比較し、OW(≒0.30)<TH(=0.35)であることから、入力画像における画像領域候補に「犬」は写っていないこと(「犬」の非検出)を決定する。このように、検索結果情報に基づく重み付き出力を導出して判断することによって、より的確な検出の判定が可能となるのである。
[実施例3]
図8は、本発明による対象検出方法の更なる他の実施例を説明するための模式図である。以下、図8を用いて(上記の実施例2と同じく)「犬」が検出されない実施例3を示す。
本実施例3では、グラフの画像(「犬」以外の画像)が入力画像としてSSDに入力される。ここでも、SSDは、(実施例1と同じく)図5を用いて説明した学習処理を受けたものであって、犬の飼育数を表すグラフの画像を学習しており、グラフの画像を含むクラスC4に対応する出力(O4)も有するものである。図8に示すように、このSSDによる出力O1〜O5においては、出力O4が最も高い値(0.7)となっている。
そのため、これらの出力O1〜O5だけから判断すると、例えば、最も高い出力O4(0.7)が所定の出力閾値TH(=0.35)を超えていることから、入力画像に「犬」が写っているとの誤判定を行ってしまう可能性も生じてしまう。これに対し、本実施例3では、検索結果情報を勘案した重みWj(j=1, 2, 3, 4, 5)を用いて重み付き出力OWを算出するので、そのような誤判定が回避され、より確度の高い検出判定が可能となるのである。この重み付き出力OWは、具体的に、次のように算出される。
OW=0.1*((1/1)*1)+0.0*((1/11)*3)+0.1*((1/9)*2)
+0.7*((1/99)*1)+0.1*((1/100)*1)
=0.130292929
ここで、スマートフォン1は、算出した重み付き出力OWと、予め設定された出力閾値TH(=0.35)とを比較し、OW(≒0.13)<TH(=0.35)であることから、入力画像における画像領域候補に「犬」は写っていないこと(「犬」の非検出)を決定する。このように、検索結果情報に基づく重み付き出力を導出して判断することによって、誤検出の問題を回避し、より正確な検出の判定が可能となるのである。
[検出モデル生成装置]
図9は、本発明による検出モデル生成装置の一実施形態を示す機能ブロック図である。
図9によれば、本発明による検出モデル生成装置の一実施形態としての検出モデル生成サーバ3は、要求した検索処理の結果を検索サーバ2から受け取り可能となっており、また、対象検出装置であるスマートフォン4とも通信可能となっている。
具体的に、検出モデル生成サーバ3は、通信インタフェース部301と、ディスプレイ・キーボード(DP・KB)302と、画像データベース304と、対象検出器31と、検索結果取得部311と、クラスタリング部312と、重み決定部313と、検出器学習部314と、入出力制御部323とを有している。このうち、ディスプレイ・キーボード302は、図1に示したスマートフォン1のタッチパネル・ディスプレイ102に対応した入出力手段であり、また、その他の機能構成部は、同じく図1に示したスマートフォン1における同名の機能構成部と同様の機能を果たす。
ここで、この検出モデル生成サーバ3の検出器学習部314は、対象検出器31を学習させ、NNのパラメータを含む検出モデルを生成する。検出モデル生成サーバ3は、この検出モデルと、重み決定部313で決定された重みとを含む検出器情報をスマートフォン4に送信し、スマートフォン4に学習済みの対象検出器41を構成させるのである。
一方、スマートフォン4は、通信インタフェース部を介して検出器情報を受信し、取得した検出モデルを適用して学習済みの対象検出器41を構成する。また、スマートフォン4は検出判定部415及びアプリケーション422を有しているが、これらの機能構成部も、図1に示した同名の機能構成部と同様の機能を果たす。例えば、検出判定部415は、(サーバ3より)取得された重みから重み付き出力を算出し、検出判定を実施するのである。
以上説明したように、本実施形態では、検出モデルの構築、すなわち学習処理は、検出モデル生成サーバ3が実施している。したがって、スマートフォン4は、学習用の多量の検索画像を取得しなくてもよく、また、処理負担の大きい検出モデル構築処理(学習処理)を実施する必要もない。その結果、スマートフォン4では、装置内で実行する情報処理量、及び装置内に取り込むべき情報量が格段に小さくて済む。言い換えれば、スマートフォン4は、携帯端末レベルのサイズ及び処理能力をもって好適な対象検出を実現可能とするのである。
ちなみに、上述したような、サーバ(検出モデル生成装置)3から送信された検出モデル及び重みを利用して検出判定を実施する端末は、当然にスマートフォンに限定されるものではない。例えば、タブレット型コンピュータ、ノート型コンピュータ、PCや、IOT(Internet Of Things)環境での使用に適したデバイスとしてのシンクライアント(Thin client)端末であってもよく、さらには、STB、サイネージ、ロボット等、種々の形態の端末を採用することが可能である。
以上、詳細に説明したように、本発明によれば、検出対象に係る文字列等の情報による検索結果である検索結果情報を利用して、例えば人手による学習用データ収集といった多大な労力をかけることなく、対象検出器を自動的に学習させることができる。また、この検索結果情報に基づき対象検出器の出力に対する重みを決定して、対象検出器の出力からより高精度の判定を行うこともできる。
このように、本発明においては、任意の検出対象の検出について、その検出対象に係る文字列等の情報による検索結果を利用して自動的に学習処理を行うので、対象検出器の学習にかかる労力を大幅に低減し、しかも良好な検出を行うことができるのである。例えば、入力画像から、指定した任意の物体をより確実に検出することも可能となる。さらに、用途に応じて検出対象を任意の物体に変更することも容易となるのである。
以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲内での種々の変更、修正及び省略は、当業者によれば容易に行うことができる。以上に述べた説明はあくまで例示であって、何ら制約を意図するものではない。本発明は、特許請求の範囲及びその均等物によってのみ制約される。
1、4 スマートフォン(対象検出装置)
101、301 通信インタフェース部
102 タッチパネル・ディスプレイ(TP・DP)
103 カメラ
104、304 画像データベース
105 検出結果保存部
11、31、41 対象検出器
111、311 検索結果取得部
112、312 クラスタリング部
113、313 重み決定部
114、314 検出器学習部
115、415 検出判定部
121 画像管理部
122、422 アプリケーション
123、323 入出力制御部
2 検索サーバ
3 検出モデル生成サーバ(検出モデル生成装置)
302 ディスプレイ・キーボード(DP・KB)

Claims (10)

  1. 検出すべき検出対象を含み得る対象データから、当該対象データの属するクラスに係る情報を出力する対象検出器を用いて、当該検出対象を検出可能な対象検出装置であって、
    当該検出対象に係る情報を検索キーとして実施された検索の結果としての複数の対象データを含む検索結果情報を取得する検索結果取得手段と、
    取得された複数の対象データを、類似の度合いに基づいて複数のクラスに分類するクラスタリング手段と、
    当該対象データと該対象データの属するクラスとを前記対象検出器に入力し、該対象検出器を学習させる検出器学習手段と、
    当該クラス毎に、当該クラスに属する対象データに係る検索結果情報に基づいて、前記対象検出器の出力に対する重みを決定する重み決定手段と
    を有することを特徴とする対象検出装置。
  2. 前記重み決定手段は、当該クラスに属する対象データの数について単調増加関数となる重みを決定することを特徴とする請求項1に記載の対象検出装置。
  3. 前記検索結果取得手段は、当該検索結果情報として当該対象データの検索順位を含む情報を取得し、
    前記重み決定手段は、当該クラスに属する対象データの検索順位の和について単調減少関数となる重みを決定することを特徴とする請求項1又は2に記載の対象検出装置。
  4. 前記対象検出器から出力されるクラスに係る情報を、決定された重みをもって重み付けした重み付き出力を算出し、当該重み付き出力が所定条件を満たす場合に、当該検出対象の検出を決定する検出判定手段を更に有することを特徴とする請求項1から3のいずれか1項に記載の対象検出装置。
  5. 当該対象データは、当該検出対象に係る画像領域を含み得る画像データであり、
    前記クラスタリング手段は、画像分類用に学習されたCNN(Convolutional Neural Network)に当該画像データを入力した際に、該CNNの隠れ層から出力される情報から生成される特徴量の間の類似度に基づいてクラスタリングを行う
    ことを特徴とする請求項1から4のいずれか1項に記載の対象検出装置。
  6. 当該対象データは、当該検出対象に係る画像領域を含み得る画像データであり、
    前記対象検出器は、入力された当該画像データから当該画像領域の候補を抽出し、当該画像領域の候補についてのクラスに係る情報を出力することを特徴とする請求項1から5のいずれか1項に記載の対象検出装置。
  7. 検出すべき検出対象を含み得る対象データから、当該対象データの属するクラスに係る情報を出力する対象検出器の検出モデルを生成する検出モデル生成装置であって、
    当該検出対象に係る情報を検索キーとして実施された検索の結果としての複数の対象データを含む検索結果情報を取得する検索結果取得手段と、
    取得された複数の対象データを、類似の度合いに基づいて複数のクラスに分類するクラスタリング手段と、
    当該対象データと該対象データの属するクラスとを前記対象検出器に入力して該対象検出器を学習させ、当該検出モデルを生成する検出器学習手段と、
    当該クラス毎に、当該クラスに属する対象データに係る検索結果情報に基づいて、前記対象検出器の出力に対する重みを決定する重み決定手段と
    を有することを特徴とする検出モデル生成装置。
  8. 請求項7に記載の検出モデル生成装置から、生成された当該検出モデルと決定された当該重みとを受信する通信インタフェースと、
    検出すべき検出対象を含み得る対象データから、当該対象データの属するクラスに係る情報を出力する対象検出器であって、受信された当該検出モデルが適用される対象検出器と、
    前記対象検出器から出力されるクラスに係る情報を、受信された当該重みをもって重み付けした重み付き出力を算出し、当該重み付き出力が所定条件を満たす場合に、当該検出対象の検出を決定する検出判定手段と
    を有することを特徴とする対象検出装置。
  9. 検出すべき検出対象を含み得る対象データから、当該対象データの属するクラスに係る情報を出力する対象検出器を用いて、当該検出対象を検出可能な装置に搭載されたコンピュータを機能させる対象検出プログラムであって、
    当該検出対象に係る情報を検索キーとして実施された検索の結果としての複数の対象データを含む検索結果情報を取得する検索結果取得手段と、
    取得された複数の対象データを、類似の度合いに基づいて複数のクラスに分類するクラスタリング手段と、
    当該対象データと該対象データの属するクラスとを前記対象検出器に入力し、該対象検出器を学習させる検出器学習手段と、
    当該クラス毎に、当該クラスに属する対象データに係る検索結果情報に基づいて、前記対象検出器の出力に対する重みを決定する重み決定手段と
    してコンピュータを機能させることを特徴とする対象検出プログラム。
  10. 検出すべき検出対象を含み得る対象データから、当該対象データの属するクラスに係る情報を出力する対象検出器を用いて、当該検出対象を検出可能な装置に搭載されたコンピュータにおいて実施される対象検出方法であって、
    当該検出対象に係る情報を検索キーとして実施された検索の結果としての複数の対象データを含む検索結果情報を取得するステップと、
    取得された複数の対象データを、類似の度合いに基づいて複数のクラスに分類するステップと、
    当該対象データと該対象データの属するクラスとを前記対象検出器に入力し、該対象検出器を学習させるステップと、
    当該クラス毎に、当該クラスに属する対象データに係る検索結果情報に基づいて、前記対象検出器の出力に対する重みを決定するステップと
    を有することを特徴とする対象検出方法。

JP2017069170A 2017-03-30 2017-03-30 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法 Active JP6787831B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017069170A JP6787831B2 (ja) 2017-03-30 2017-03-30 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017069170A JP6787831B2 (ja) 2017-03-30 2017-03-30 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2018169972A true JP2018169972A (ja) 2018-11-01
JP6787831B2 JP6787831B2 (ja) 2020-11-18

Family

ID=64018223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017069170A Active JP6787831B2 (ja) 2017-03-30 2017-03-30 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP6787831B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084642A (zh) * 2019-04-19 2019-08-02 哈尔滨新中新电子股份有限公司 基于目标检测和图像检索的菜品识别方法
JP2020102204A (ja) * 2018-12-20 2020-07-02 三星ディスプレイ株式會社Samsung Display Co.,Ltd. ノイズラベルに対する敵対的学習システムおよび方法
CN111461211A (zh) * 2020-03-31 2020-07-28 中国科学院计算技术研究所 一种用于轻量级目标检测的特征提取方法及相应检测方法
JP2021110962A (ja) * 2019-12-31 2021-08-02 株式会社テクノ・スクエア 捜索支援システムにおける探索方法および装置
JP2022050251A (ja) * 2020-09-17 2022-03-30 ヤフー株式会社 学習装置、学習方法、及び学習プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012022419A (ja) * 2010-07-13 2012-02-02 Yahoo Japan Corp 学習データ作成装置、学習データ作成方法及びプログラム
JP2015166978A (ja) * 2014-03-04 2015-09-24 日本放送協会 画像検索装置及び画像検索プログラム
JP2015204030A (ja) * 2014-04-15 2015-11-16 キヤノン株式会社 認識装置及び認識方法
JP2016040650A (ja) * 2014-08-12 2016-03-24 株式会社Screenホールディングス 分類器構築方法、画像分類方法および画像分類装置
JP2016110232A (ja) * 2014-12-02 2016-06-20 エヌ・ティ・ティ・コムウェア株式会社 対象認識装置、対象認識方法、およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012022419A (ja) * 2010-07-13 2012-02-02 Yahoo Japan Corp 学習データ作成装置、学習データ作成方法及びプログラム
JP2015166978A (ja) * 2014-03-04 2015-09-24 日本放送協会 画像検索装置及び画像検索プログラム
JP2015204030A (ja) * 2014-04-15 2015-11-16 キヤノン株式会社 認識装置及び認識方法
JP2016040650A (ja) * 2014-08-12 2016-03-24 株式会社Screenホールディングス 分類器構築方法、画像分類方法および画像分類装置
JP2016110232A (ja) * 2014-12-02 2016-06-20 エヌ・ティ・ティ・コムウェア株式会社 対象認識装置、対象認識方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鈴木聡志,外2名: "びまん性肺疾患識別におけるDeep Convolutional Neural Network特徴の解", 電子情報通信学会技術研究報告 VOL.115 NO.111, vol. 第115巻, JPN6020006145, 2015, JP, ISSN: 0004304620 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020102204A (ja) * 2018-12-20 2020-07-02 三星ディスプレイ株式會社Samsung Display Co.,Ltd. ノイズラベルに対する敵対的学習システムおよび方法
US11830240B2 (en) 2018-12-20 2023-11-28 Samsung Display Co., Ltd. Adversarial training method for noisy labels
JP7443033B2 (ja) 2018-12-20 2024-03-05 三星ディスプレイ株式會社 ノイズラベルに対する敵対的学習システムおよび方法
CN110084642A (zh) * 2019-04-19 2019-08-02 哈尔滨新中新电子股份有限公司 基于目标检测和图像检索的菜品识别方法
JP2021110962A (ja) * 2019-12-31 2021-08-02 株式会社テクノ・スクエア 捜索支援システムにおける探索方法および装置
CN111461211A (zh) * 2020-03-31 2020-07-28 中国科学院计算技术研究所 一种用于轻量级目标检测的特征提取方法及相应检测方法
JP2022050251A (ja) * 2020-09-17 2022-03-30 ヤフー株式会社 学習装置、学習方法、及び学習プログラム
JP7348150B2 (ja) 2020-09-17 2023-09-20 ヤフー株式会社 学習装置、学習方法、及び学習プログラム

Also Published As

Publication number Publication date
JP6787831B2 (ja) 2020-11-18

Similar Documents

Publication Publication Date Title
Shi et al. Can a machine generate humanlike language descriptions for a remote sensing image?
EP3267362B1 (en) Machine learning image processing
CN110046586B (zh) 一种数据处理方法、设备及存储介质
JP6787831B2 (ja) 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法
CN112348117B (zh) 场景识别方法、装置、计算机设备和存储介质
US10459975B1 (en) Method and system for creating an automatic video summary
CN111598164B (zh) 识别目标对象的属性的方法、装置、电子设备和存储介质
WO2023020005A1 (zh) 神经网络模型的训练方法、图像检索方法、设备和介质
JP2015219904A (ja) ユーザの人口統計学特性を推定する方法、コンピュータ・システム、及びプログラム
CN110245564B (zh) 一种行人检测方法、系统及终端设备
JPWO2012073421A1 (ja) 画像分類装置、画像分類方法、プログラム、記録媒体、集積回路、モデル作成装置
CN113434716B (zh) 一种跨模态信息检索方法和装置
US20210326646A1 (en) Automated generation of training data for contextually generated perceptions
CN111368789B (zh) 图像识别方法、装置、计算机设备和存储介质
EP3765995B1 (en) Systems and methods for inter-camera recognition of individuals and their properties
Werner et al. DeepMoVIPS: Visual indoor positioning using transfer learning
US20240037142A1 (en) Systems and methods for filtering of computer vision generated tags using natural language processing
EP2874102A2 (en) Generating models for identifying thumbnail images
US20170235793A1 (en) Retrieval device, retrieval method, and retrieval system
CN113657087A (zh) 信息的匹配方法及装置
CN112580750A (zh) 图像识别方法、装置、电子设备及存储介质
CN115131604A (zh) 一种多标签图像分类方法、装置、电子设备及存储介质
Venegas et al. Automatic ladybird beetle detection using deep-learning models
US8498978B2 (en) Slideshow video file detection
US11810177B2 (en) Clothing collocation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200323

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200916

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201028

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201029

R150 Certificate of patent or registration of utility model

Ref document number: 6787831

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150