JP6977513B2 - 機械学習方法及び装置 - Google Patents

機械学習方法及び装置 Download PDF

Info

Publication number
JP6977513B2
JP6977513B2 JP2017231837A JP2017231837A JP6977513B2 JP 6977513 B2 JP6977513 B2 JP 6977513B2 JP 2017231837 A JP2017231837 A JP 2017231837A JP 2017231837 A JP2017231837 A JP 2017231837A JP 6977513 B2 JP6977513 B2 JP 6977513B2
Authority
JP
Japan
Prior art keywords
recognition
image
learning model
learning
general
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017231837A
Other languages
English (en)
Other versions
JP2019101740A (ja
Inventor
文平 田路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2017231837A priority Critical patent/JP6977513B2/ja
Publication of JP2019101740A publication Critical patent/JP2019101740A/ja
Application granted granted Critical
Publication of JP6977513B2 publication Critical patent/JP6977513B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、特定の認識対象物を認識するための機械学習方法及び装置に関する。
従来、監視又はマーケティング等を目的として、固定カメラで撮影された画像に認識対象物(例えば人)が含まれているか否かを認識する技術が提案されている。一般に、認識対象物を検出する検出器は、多数の正例画像データと負例画像データとを使用して、学習することによって作成される。正例画像データは、例えば、認識対象物を含む矩形画像と、その矩形を表す座標情報とを含む。負例画像データは、例えば、認識対象物を含まない矩形画像と、その矩形を表す座標情報とを含む。例えば特許文献1に記載の技術では、動き検出を行って、動きのないシーンが負例画像データとして学習用データに付加される。また、動きが検出されたシーンは、正例画像データとして選択される。
特開2011−253528号公報
上記特許文献1に記載の技術では、上述のように、動きが検出されたシーンは、正例画像データとして選択される。しかし、動きが検出されたシーンであっても、認識対象物が含まれないことはあり得る。このため、認識対象物を含まない画像が正例画像データとされることを排除するのは困難であった。その結果、上記特許文献1に記載の技術に対し、認識対象物の認識精度を向上することが望まれていた。
本発明は、上記課題に鑑みてなされたもので、認識対象物の認識精度を向上することが可能な機械学習方法及び装置を提供することを目的とする。
本発明の第1態様は、
認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像を生成する背景画像生成ステップと、
予め蓄積された前記認識対象物の画像を前記背景画像に重畳して合成画像を生成する合成画像生成ステップと、
前記合成画像から切り出された切出し画像と、前記切出し画像における前記認識対象物の有無情報とに基づき、学習用データセットを構築する構築ステップと、
前記学習用データセットを用いて前記認識処理の学習を行うことにより、前記背景画像に対応する特定学習モデルを生成する特定学習モデル生成ステップと、
前記特定学習モデル生成ステップより前に実行され、前記認識対象物を含む領域の画像を切り出した正例画像と、前記認識対象物を含まない領域の画像を切り出した負例画像と、を用いて、前記認識処理の学習を行うことにより、汎用学習モデルを生成する汎用学習モデル生成ステップとを備え、
前記汎用学習モデル生成ステップは
前記正例画像又は前記負例画像に含まれる汎用入力画像から汎用特徴マップを抽出し、抽出された前記汎用特徴マップを用いて前記汎用入力画像に前記認識対象物が存在するか否かを識別した結果と前記汎用入力画像とに基づき、前記認識処理の学習を行うことにより、前記汎用学習モデルを生成し
前記特定学習モデル生成ステップは
前記汎用学習モデルを用いて前記学習用データセットに含まれる学習用入力画像から学習用特徴マップを抽出し、抽出された前記学習用特徴マップを用いて前記学習用入力画像に前記認識対象物が存在するか否かを識別した結果と、前記学習用入力画像とに基づき、前記認識処理の学習を行うことにより、前記特定学習モデルを生成するものである。
本発明の第2態様は、
認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像を生成する背景画像生成部と、
予め蓄積された前記認識対象物の画像を前記背景画像に重畳して合成画像を生成する合成画像生成部と、
前記合成画像から切り出された切出し画像と、前記切出し画像における前記認識対象物の有無情報とに基づき、学習用データセットを構築する構築部と、
前記学習用データセットを用いて前記認識処理の学習を行うことにより、前記背景画像に対応する特定学習モデルを生成する特定学習モデル生成部と、
前記特定学習モデルを生成する前に実行され、前記認識対象物を含む領域の画像を切り出した正例画像と、前記認識対象物を含まない領域の画像を切り出した負例画像と、を用いて、前記認識処理の学習を行うことにより、汎用学習モデルを生成する汎用学習モデル生成部とを備え、
前記汎用学習モデル生成部は
前記正例画像又は前記負例画像に含まれる汎用入力画像から汎用特徴マップを抽出し、抽出された前記汎用特徴マップを用いて前記汎用入力画像に前記認識対象物が存在するか否かを識別した結果と前記汎用入力画像とに基づき、前記認識処理の学習を行うことにより、前記汎用学習モデルを生成し
前記特定学習モデル生成部は
前記汎用学習モデルを用いて前記学習用データセットに含まれる学習用入力画像から学習用特徴マップを抽出し、抽出された前記学習用特徴マップを用いて前記学習用入力画像に前記認識対象物が存在するか否かを識別した結果と、前記学習用入力画像とに基づき、前記認識処理の学習を行うことにより、前記特定学習モデルを生成するものである。
第1態様及び第2態様では、認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像に、認識対象物の画像が重畳されて、合成画像が生成される。合成画像から切り出された切出し画像と、その切出し画像における認識対象物の有無情報とに基づき構築された学習用データセットを用いて、認識処理の学習を行うことにより、背景画像に対応する特定学習モデルが生成される。したがって、第1態様及び第2態様によれば、特定学習モデルとして、認識対象物が存在するか否かを認識する場所に適切なモデルを生成することができる。第1態様及び第2態様では、特定学習モデルの生成において、汎用学習モデルを用いて学習用入力画像から抽出された学習用特徴マップを用いて学習用入力画像に認識対象物が存在するか否かを識別した結果と、学習用入力画像とに基づき、認識処理の学習を行うことにより、特定学習モデルが生成されるこのように、汎用学習モデルを用いて抽出された学習用特徴マップが用いられるので、学習用入力画像に認識対象物が存在するか否かを識別する機能のみが学習されるしたがって、本態様によれば、特定学習モデルを効率良く生成することができる
上記第1態様において、例えば、前記認識処理を行う場所の画像である認識対象画像に対して、前記特定学習モデルを用いて、前記認識処理を行う認識ステップ、をさらに備えてもよい。
本態様では、認識対象物が存在するか否かを認識する認識処理を行う場所の画像である認識対象画像に対して、特定学習モデルを用いて、認識処理が行われる。したがって、本態様によれば、特定学習モデルが、認識対象物が存在するか否かを認識する場所に適切なモデルであるため、認識処理を精度良く行うことができる。
上記第1態様において、例えば、前記認識対象物を含む領域の画像を切り出した正例画像と、前記認識対象物を含まない領域の画像を切り出した負例画像と、を用いて、前記認識処理の学習を行うことにより、汎用学習モデルを生成する汎用学習モデル生成ステップ、をさらに備えてもよい。前記特定学習モデル生成ステップは、前記汎用学習モデルのモデルパラメータを初期値として、前記特定学習モデルの生成を開始してもよい。
本態様では、認識対象物を含む領域の画像を切り出した正例画像と、認識対象物を含まない領域の画像を切り出した負例画像と、を用いて、認識処理の学習を行うことにより、汎用学習モデルが生成される。したがって、本態様によれば、認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像が用いられないため、汎用学習モデルとして、認識対象物が存在するか否かを認識する場所に限られない、汎用のモデルを生成することができる。また、特定学習モデル生成ステップでは、汎用学習モデルのモデルパラメータを初期値として、特定学習モデルの生成が開始される。したがって、本態様によれば、特定学習モデルを効率良く生成することができる。
上記第1態様において、例えば、前記認識処理を行う場所の画像である認識対象画像に対して、前記汎用学習モデルを用いて、前記認識処理を行う第1認識ステップと、前記認識対象画像に対して、前記特定学習モデルを用いて、前記認識処理を行う第2認識ステップと、前記第1認識ステップにおける認識結果と前記第2認識ステップにおける認識結果とを統合して、前記認識処理の最終認識結果を出力する統合ステップと、をさらに備えてもよい。
特定学習モデルは、認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像を用いて生成されているため、認識処理を行う場所に特化され過ぎたモデルとなる可能性がある。これに対して、本態様では、汎用学習モデルを用いた認識処理の結果と、特定学習モデルを用いた認識処理の結果とが統合されて、最終認識結果が出力される。したがって、本態様によれば、汎用学習モデルも用いているため、特定学習モデルが認識処理を行う場所に特化され過ぎたモデルとなった場合でも、そのことによる弊害を軽減することが可能である。
上記第1態様において、例えば、前記認識処理を行う場所の画像である認識対象画像に対して、前記汎用学習モデルを用いて、前記認識処理を行う第1認識ステップと、前記認識対象画像に対して、前記特定学習モデルを用いて、前記認識処理を行う第2認識ステップと、前記第1認識ステップにおける認識結果と前記第2認識ステップにおける認識結果とを統合して、前記認識処理の最終認識結果を出力する統合ステップと、をさらに備えてもよい。前記第1認識ステップは、前記汎用学習モデルを用いて前記認識対象画像から抽出された認識用特徴マップと、前記汎用学習モデルと、を用いて、前記認識対象画像に前記認識対象物が存在するか否かを識別してもよい。前記第2認識ステップは、前記認識用特徴マップと、前記特定学習モデルと、を用いて、前記認識対象画像に前記認識対象物が存在するか否かを識別してもよい。
特定学習モデルは、認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像を用いて生成されているため、認識処理を行う場所に特化され過ぎたモデルとなる可能性がある。これに対して、本態様では、汎用学習モデルを用いた認識処理の結果と、特定学習モデルを用いた認識処理の結果とが統合されて、最終認識結果が出力される。したがって、本態様によれば、汎用学習モデルも用いているため、特定学習モデルが認識処理を行う場所に特化され過ぎたモデルとなった場合でも、そのことによる弊害を軽減することが可能である。
また、第1認識ステップでは、汎用学習モデルを用いて認識対象画像から抽出された認識用特徴マップと、汎用学習モデルと、を用いて、認識対象画像に認識対象物が存在するか否かが識別される。一方、第2認識ステップでは、認識用特徴マップと、特定学習モデルと、を用いて、認識対象画像に認識対象物が存在するか否かが識別される。このように、本態様によれば、認識用特徴マップが共用されているので、認識処理を効率良く行うことができる。
上記第1態様において、例えば、前記背景画像を保存する背景画像保存ステップと、前記背景画像の保存後に、前記背景画像を再び生成する第2背景画像生成ステップと、前記保存されている背景画像と前記再び生成された背景画像との背景画像の差分を算出する差分計算ステップと、をさらに備えてもよい。前記背景画像の差分が予め定められた閾値を超える場合は、前記再び生成された背景画像を用いて、前記合成画像生成ステップと、前記構築ステップと、前記特定学習モデル生成ステップと、を再び実行してもよい。
本態様では、保存されている背景画像と再び生成された背景画像との背景画像の差分が予め定められた閾値を超える場合は、再び生成された背景画像を用いて、合成画像生成ステップと、構築ステップと、特定学習モデル生成ステップと、が再び実行される。したがって、本態様によれば、背景画像の変化に対応することができる。
本発明によれば、認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像を用いているため、特定学習モデルとして、認識対象物が存在するか否かを認識する場所に適切なモデルを生成することができる。
本実施形態の認識装置の構成を示すブロック図である。 汎用学習モデル生成の際の学習部の構成例を示すブロック図である。 汎用学習モデル生成の際に用いられる汎用画像の一例を示す図である。 汎用学習モデル生成の手順例を示すフローチャートである。 背景画像生成の手順例を示すフローチャートである。 背景画像の一例を概略的に示す図である。 合成データ生成の手順例を示すフローチャートである。 認識対象物の画像である対象物画像の一例を概略的に示す図である。 認識対象物の画像である対象物画像の一例を概略的に示す図である。 合成画像の一例を概略的に示す図である。 正例画像の一例を概略的に示す図である。 正例画像の一例を概略的に示す図である。 負例画像の一例を概略的に示す図である。 負例画像の一例を概略的に示す図である。 特定学習モデル生成の際の学習部の構成例を示すブロック図である。 特定学習モデル生成の手順例を示すフローチャートである。 認識処理の際の認識部の構成例を示すブロック図である。 認識処理の手順例を示すフローチャートである。 特定学習モデル生成の際の学習部の構成の第2例を示すブロック図である。 特定学習モデルの再生成の手順例を示すフローチャートである。 認識処理動作の第2例における認識部の構成例を示すブロック図である。 認識処理動作の第2例における手順を示すフローチャートである。 認識処理動作の第3例における認識部の構成例を示すブロック図である。
(本発明の基礎となった知見)
まず、本発明の基礎となった知見が説明される。上述のように、上記特許文献1に記載の技術では、正例画像データに、認識対象物を含まない画像が含まれることを排除するのは困難であった。このため、上記特許文献1に記載の技術では、認識対象物の認識精度が十分ではなかった。
一般に、機械学習方法では、汎用性が高くなるように、大量の正例画像データ及び負例画像データを用いて学習している。しかし、学習するデータを増やしても、どのような状況でも精度が高い万能な識別器を生成することは、困難である。
これらの知見に基づいて、本発明者は、識別器が設置される現場に適合するように、識別器を学習させることにより、識別器による認識処理の精度を向上する発明を想到するに至った。
(実施の形態)
以下、本発明にかかる実施の一形態を図面に基づいて説明する。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し、個別の構成を指す場合には添え字を付した参照符号で示す。
(構成)
図1は、本実施形態の認識装置1の構成を示すブロック図である。本実施形態の認識装置1は、認識対象画像に認識対象物(本実施形態では人)が存在する改あんかを認識する認識処理を行う。認識装置1は、例えば、交通機関の駅、道路の交差点、小売店舗の内部などに設置される。認識装置1は、図1に示されるように、カメラ100と、表示部200と、記憶装置300と、中央演算処理装置(CPU)400と、メモリ500と、を備える。
カメラ100は、CPU400に接続され、CPU400の制御に従って、認識装置1の認識対象を撮像して、認識対象画像を生成する。カメラ100は、撮像したフレーム画像を例えば1/60秒ごとにCPU400に出力して動画を生成する。代替的に、カメラ100は、撮像したフレーム画像を例えば1秒ごとにCPU400に出力して静止画を生成してもよい。
メモリ500は、例えば半導体メモリ等により構成される。メモリ500は、例えばリードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、電気的に消去書き換え可能なROM(EEPROM)などを含む。メモリ500のROMは、CPU400を動作させる本実施形態の制御プログラムを記憶する。メモリ500のROM又はEEPROMは、汎用学習モデル(後述)を生成する際に用いられる正例画像及び負例画像を含む汎用画像(後述の図3)を表す画像データを記憶する。
CPU400は、メモリ500に記憶された本実施形態の制御プログラムにしたがって動作することによって、制御部401、背景画像生成部402、画像合成部403、学習部404、及び認識部405の機能を有する。制御部401は、認識装置1の全体を制御する。例えば、制御部401は、カメラ100、表示部200、記憶装置300、メモリ500を制御する。また、制御部401は、背景画像生成部402、画像合成部403、学習部404、及び認識部405と、カメラ100、表示部200、記憶装置300、メモリ500との間の情報の送受信を仲介する。
背景画像生成部402は、カメラ100により撮像された画像に基づき、認識処理を行う場所の背景画像を生成する。画像合成部403は、背景画像と対象物情報(後述)に含まれる対象物画像とを合成して合成画像を生成し、生成した合成画像を用いて学習用データセットを構築する。学習部404は、汎用学習モデル(後述)及び特定学習モデル(後述)を生成する。認識部405は、認識対象画像に認識対象物(本実施形態では人)が存在するか否かを認識する認識処理を行う。CPU400の各機能の詳細は、後述される。
表示部200は、例えば液晶ディスプレイパネルを含む。表示部200は、CPU400により制御されて、例えばCPU400の認識部405による認識結果を表示する。なお、表示部200は、液晶ディスプレイパネルに限られない。表示部200は、有機EL(electroluminescence)パネルなどの他のパネルを含んでもよい。
記憶装置300は、例えばハードディスク又は半導体メモリ等により構成される。記憶装置300は、合成データ記憶部301、学習モデル記憶部302、対象物情報記憶部303、背景画像記憶部304を含む。各記憶部301〜304は、互いに別の媒体で構成されてもよい。代替的に、各記憶部301〜304は、記憶領域が分けられた一つの媒体で構成されてもよい。
合成データ記憶部301は、背景画像と対象物画像とが合成された合成画像を含む合成データ(後述)を記憶する。学習モデル記憶部302は、生成された汎用学習モデル及び特定学習モデル(後述)を記憶する。対象物情報記憶部303は、特定学習モデルを生成する際に用いられる対象物画像(後述の図8、図9)を含む対象物情報を記憶する。背景画像記憶部304は、背景画像生成部402により生成された背景画像を記憶する。各記憶部301〜304の記憶内容の詳細は、後述される。
(汎用学習モデルの生成)
図2は、汎用学習モデル生成の際の学習部404の構成例を示すブロック図である。図3は、汎用学習モデル生成の際に用いられる汎用画像の一例を示す図である。図4は、汎用学習モデル生成の手順例を示すフローチャートである。図1〜図4を参照して、汎用学習モデルの生成が説明される。
図2に示されるように、学習部404は、畳み込みニューラルネットワーク(CNN)410を含む。汎用学習モデル生成の際には、CNN410には、汎用画像310が入力される。具体的には、汎用画像310に含まれる、図3に示されるような正例画像311と負例画像312とが、CNN410に入力される。なお、図3には正例画像311と負例画像312との一例が示されているだけであり、周知のように、汎用学習モデル生成の際には、CNN410に多数の正例画像及び負例画像が入力されて、学習が行われる。
正例画像311を表す画像データは、認識対象物(本実施形態では人)を囲む矩形領域を表す4個の頂点座標と、その矩形領域内の各画素値と、を含む。負例画像312を表す画像データは、認識対象物(本実施形態では人)を含まない矩形領域を表す4個の頂点座標と、その矩形領域内の各画素値と、を含む。
CNN410は、特徴抽出部411と識別部412とを備える公知の構成を有する。特徴抽出部411は、畳み込み層421−1,・・・,421−kと、プーリング層422−1,・・・,422−kと、を含む。
畳み込み層421−1,・・・,421−kは、入力された画像に対して、予め定められたサイズの画像フィルタにより畳み込み演算を行って、入力された画像の特徴を表す特徴マップを算出する。畳み込み層421−1,・・・,421−kが多いほど(つまり添え字kの数値が大きいほど)、入力された画像の種々の特徴を抽出することができる。畳み込み層421−1,・・・,421−kで用いられる画像フィルタのサイズは、畳み込み層ごとに、予め設定される。
プーリング層422−1,・・・,422−kは、それぞれ、入力データ(ここでは畳み込み層421−1,・・・,421−kにより算出された特徴マップ)に対して、マックスプーリング(max pooling)を行って、特徴マップの情報を圧縮する。マックスプーリングでは、特徴マップの複数要素を含む部分領域ごとに、複数要素中の最大値が、その部分領域の値とされることによって、特徴マップの情報が圧縮される。例えば、224×224の要素を持つ特徴マップにおいて、2×2の要素を含む部分領域ごとに、2×2の要素中の最大値が、その部分領域の値とされると、特徴マップは、112×112に圧縮される。この圧縮の度合いは、プーリング層422−1,・・・,422−kごとに、予め設定される。
図2において、添え字kは、1以上の整数である。すなわち、畳み込み層及びプーリング層のセットは、単数でも複数でもよい。プーリング層の次段に畳み込み層が接続されている場合は、圧縮された特徴マップは、次段の畳み込み層に入力される。一方、最終段のプーリング層422−kで圧縮された特徴マップは、識別部412に入力される。
識別部412は、本実施形態では、全結合層により構成される。全結合層では、各層のユニットは、次の層のユニットと全て接続されており、例えば、入力は1次元のベクトルで、出力も1次元のベクトルとなる。全結合層におけるそれぞれのユニットとの接続は、重み付け係数を持って接続されている。識別部412は、入力された汎用画像310に対する認識結果を出力する。
図4のステップS400において、正例画像311又は負例画像312と、教師信号(ラベル)とが、CNN410の特徴抽出部411に入力される。学習部404では、正例画像311が入力されると「真」の教師信号(ラベル)が入力され、負例画像312が入力されると「偽」の教師信号(ラベル)が入力される。
ステップS405において、入力された正例画像311又は負例画像312に対する識別処理が行われて、学習が行われる。なお、実際には、例えば1つの正例画像が入力され(ステップS400)、その正例画像に対する識別処理が行われて(ステップS405)、ステップS400,S405が交互に繰り返されることによって学習が行われる。
学習部404では、正例画像311又は負例画像312が入力されたときに、識別部412から正しい認識結果(つまり教師信号(ラベル)と同じ結果)が出力されるように、畳み込み層421−1,・・・,421−kで用いられる画像フィルタの各要素の値、識別部412の重み付け係数が調整される。
ステップS410(汎用学習モデル生成ステップの一例に相当)において、学習部404は、学習の終了に伴って、汎用学習モデルを生成する。学習の終了時点における、調整された各パラメータ(画像フィルタの各要素の値、重み付け係数)の値は、モデルパラメータと称される。汎用学習モデルは、モデルパラメータによって表される。ステップS415において、学習部404は、モデルパラメータを、汎用学習モデルとして、学習モデル記憶部302に格納する。
(背景画像の生成)
図5は、背景画像生成の手順例を示すフローチャートである。図6は、背景画像の一例を概略的に示す図である。図1、図5、図6を参照して背景画像の生成が説明される。
図5のステップS500(背景画像生成ステップの一例に相当)において、CPU400の背景画像生成部402は、カメラ100により撮像された画像を用いて、認識装置1が設置される場所(すなわち、認識対象画像に認識対象物が存在するか否かを認識する認識処理を行う場所)の背景画像を生成する。背景画像生成部402は、カメラ100により撮像された、例えば連続するフレーム画像の間における画素値の差分を算出して動き情報を解析する。背景画像生成部402は、長時間(例えば数分〜数十分)にわたって変動領域がないフレーム画像群のうち一枚のフレーム画像を無人とみなして背景画像とする。
代替的に、背景画像生成部402は、長時間(例えば数分〜数十分)のフレーム画像群の平均画像又は中間画像を背景画像としてもよい。平均画像は、フレーム画像群の各画素における画素値の平均値を画素値とする画像である。中間画像は、フレーム画像群の各画素における画素値の中央値を画素値とする画像である。
ステップS505(背景画像保存ステップの一例に相当)において、背景画像生成部402は、生成した背景画像を記憶装置300の背景画像記憶部304に格納する。背景画像生成部402は、例えば図6に示される背景画像331を生成して背景画像記憶部304に格納する。図6には、住居、樹木、街灯などが並ぶ住宅地の画像からなる背景画像331が示されている。
(合成データの生成)
図7は、合成データ生成の手順例を示すフローチャートである。図8、図9は、それぞれ、認識対象物(本実施形態では人)の画像である対象物画像の一例を概略的に示す図である。図10は、合成画像の一例を概略的に示す図である。図11、図12は、それぞれ、正例画像の一例を概略的に示す図である。図13、図14は、それぞれ、負例画像の一例を概略的に示す図である。図1、図6〜図14等を参照して、合成データの生成が説明される。
図7のステップS700において、CPU400の画像合成部403は、背景画像記憶部304に格納されている背景画像331(図6)を取得する。ステップS705において、画像合成部403は、対象物情報記憶部303に格納されている対象物情報を取得する。
対象物情報記憶部303には、対象物情報が予め格納されている。対象物情報は、認識対象物(本実施形態では人)の画像である対象物画像と、その対象物画像に対して予め付与された正解ラベル(「真」のラベル)とを含む。例えば、図8に示される対象物画像332は、荷物を抱えた人物が右向きに歩行する画像を表す。例えば、図9に示される対象物画像333は、携帯機器を保持する人物が左向きに歩行する画像を表す。図8、図9にそれぞれ示される対象物画像332,333は、予め認識対象物の輪郭が抽出されて切り出された上で、予め付与された「真」のラベルと対応付けられて、対象物情報記憶部303に格納されている。
図7に戻って、ステップS710(合成画像生成ステップの一例に相当)において、画像合成部403(合成画像生成部の一例に相当)は、背景画像331に対象物画像332,333を重畳して、合成画像334(図10)を生成する。画像合成部403は、対象物画像332,333に回転など幾何変換を加えた上で背景画像331に重畳してもよい。例えば図10に示される合成画像334は、対象物画像332a,333aを含む。対象物画像332aは、対象物画像332(図8)が左右反転された上で、背景画像331に重畳されている。対象物画像333aは、対象物画像333(図9)が左右反転されて傾斜された上で、背景画像331に重畳されている。これによって、対象物画像の種類より多い種類の合成画像を生成することができる。
また、例えば、対象物画像の輪郭抽出が行われずに、対象物画像を含む矩形領域が切り出されている場合には、画像合成部403は、矩形領域内における対象物画像の周囲を例えば半透明にしてぼかした上で、矩形領域を背景画像にアルファブレンドしてもよい。これによって、対象物画像を背景画像に重畳したときに対象物画像の周囲に違和感が生じるのを抑制することができる。
図7に戻って、ステップS715(構築ステップの一例に相当)において、画像合成部403(構築部の一例に相当)は、正例画像群、負例画像群、及びラベル群を含む合成データを生成する。ステップS720において、画像合成部403は、生成した合成データを合成データ記憶部301に格納する。
図11、図12に示される正例画像335,336は、それぞれ、合成画像334(図10)から対象物画像332a,333aを含む矩形領域が切り出されて、生成されている。正例画像335,336には、それぞれ、対象物画像332a,333aに予め付与されていた「真」のラベルが付与されている。図13、図14に示される負例画像337,338は、それぞれ、合成画像334(図10)から対象物画像を含まない矩形領域が切り出されて、生成されている。負例画像337,338には、それぞれ、予め「真」のラベルが付与されていないので、「偽」のラベルが付与されることになる。
この実施形態において、正例画像335と「真」のラベルとのデータセット、正例画像336と「真」のラベルとのデータセット、負例画像337と「偽」のラベルとのデータセット、負例画像338と「偽」のラベルとのデータセットは、それぞれ、学習用データセットの一例に相当する。
(特定学習モデルの生成)
図15は、特定学習モデル生成の際の学習部404の構成例を示すブロック図である。図16は、特定学習モデル生成の手順例を示すフローチャートである。図1、図15、図16等を参照して、特定学習モデルの生成が説明される。
図15に示されるように、汎用学習モデル生成の際と同様に、学習部404は、CNN410を含む。但し、特定学習モデル生成の際には、汎用学習モデル生成の際の汎用画像310(図2)と異なり、CNN410には、合成画像334が入力される。具体的には、合成画像334から生成された正例画像335,336、負例画像337,338等が、CNN410に入力される。
図16のステップS1600において、正例画像335,336又は負例画像337,338と、教師信号(ラベル)とが、CNN410の特徴抽出部411に入力される。学習部404では、正例画像335,336が入力されると「真」の教師信号(ラベル)が入力され、負例画像337,338が入力されると「偽」の教師信号(ラベル)が入力される。
ステップS1605において、入力された正例画像又は負例画像に対する識別処理が行われて、上述の汎用学習モデルの場合と同様に学習が行われる。なお、実際には、例えば1つの正例画像が入力され(ステップS1600)、その正例画像に対する識別処理が行われて(ステップS1605)、ステップS1600,S1605が交互に繰り返されることによって学習が行われる。
ステップS1605では、学習部404は、学習モデル記憶部302から、汎用学習モデル430のモデルパラメータを読み出し、読み出したモデルパラメータをCNN410の各パラメータの初期値として学習を開始する。このように、汎用学習モデルが生成された後で、特定学習モデルを生成する動作が実行される。このため、学習部404は、汎用学習モデル生成と、特定学習モデル生成とで、CNN410を共用してもよい。但し、モデルの構造が異なる場合には、汎用学習モデル生成と特定学習モデル生成とで、別のCNN410が用いられる。
ステップS1610(特定学習モデル生成ステップの一例に相当)において、学習部404(特定学習モデル生成部の一例に相当)は、学習の終了に伴って、特定学習モデルを生成する。学習の終了時点における、調整された各パラメータ(画像フィルタの各要素の値、重み付け係数)の値は、モデルパラメータと称される。特定学習モデルは、モデルパラメータによって表される。ステップS1615において、学習部404は、モデルパラメータを、特定学習モデルとして、学習モデル記憶部302に格納する。
特定学習モデルは、認識装置1の設置現場の背景画像331(図6)を含む合成画像334(図10)を用いて学習が行われて生成されている。したがって、特定学習モデルは、汎用学習モデルに比べて、認識装置1が設置された場所に適合した学習モデルになっている。
(認識処理動作)
図17は、認識処理の際の認識部405の構成例を示すブロック図である。図18は、認識処理の手順例を示すフローチャートである。図1、図17、図18等を参照して、認識処理動作が説明される。
図17に示されるように、認識部405は、CNN410を含む。図18のステップS1800において、認識部405は、学習モデル記憶部302から特定学習モデル440のモデルパラメータを読み出し、CNN410の各パラメータを特定学習モデル440のモデルパラメータに設定する。このように、認識部405は、特定学習モデルが生成された後で、認識処理を実行する。このため、認識部405は、学習部404で特定学習モデルの生成に用いられたCNN410を共用してもよい。
ステップS1805において、認識部405は、カメラ100により撮像された認識対象画像350(図17)を取得し、取得した認識対象画像350をCNN410の特徴抽出部411に入力する。認識対象画像350は、認識部405が、認識対象物(本実施形態では人)が存在するか否かを認識する認識処理を行う対象の画像である。
ステップS1810(認識ステップの一例に相当)において、認識部405は、入力された認識対象画像350の認識処理を実行する。ステップS1815において、認識部405は、識別部412から出力された認識結果を、例えばメモリ500に保存する。ステップS1820において、認識部405は、認識処理を終了するか否かを判定する。例えば、認識装置1が小売店舗の内部に設置されている場合には、予め定められた当該小売店舗の閉店時刻になると、認識部405は、認識処理を終了すると判定してもよい。
認識部405が認識処理を終了しないと判定すると(ステップS1820でNO)、処理はステップS1805に戻って、以上のステップが繰り返される。一方、認識部405が認識処理を終了すると判定すると(ステップS1820でYES)、図18の動作は終了する。
(効果)
以上説明されたように、この実施形態では、対象物画像と正解ラベルとを対象物情報記憶部303に予め格納しておき、認識部405が認識処理を行う場所(認識装置1が設置された場所)の背景画像331と対象物画像332,333とを合成した合成画像334とラベルとを含む学習用データセットを用いて学習して、特定学習モデル440が生成されている。したがって、認識装置1が設置された場所において、正例画像335,336に対して正解ラベルを付与する作業が不要になるという利点がある。
また、この実施形態では、認識部405が認識処理を行う場所の背景画像331を用いて、特定学習モデル440が生成されているため、認識処理を行う場所に適合した学習モデルを生成することができる。また、この特定学習モデル440を用いて、認識部405により認識処理が行われているため、認識処理を行う場所の環境に特化した誤認識の少ない認識処理を行うことができる。
(変形された実施形態)
学習部404、認識部405等の構成及び動作は、上記実施形態に限られない。以下では、上記実施形態の一部が変形された実施形態が説明される。
(特定学習モデル生成の第2例)
図19は、特定学習モデル生成の際の学習部404の構成の第2例を示すブロック図である。図1、図19等を参照して、特定学習モデル生成の第2例が説明される。
図19に示されるように、特定学習モデル生成の第2例では、学習部404は、汎用学習モデル生成の際に用いられたCNN410とは別に、識別部412aを備える。識別部412aは、識別部412と同じ構成を有する。学習部404は、識別部412aの重み付け係数の初期値として、汎用学習モデルのモデルパラメータを設定する。また、学習部404は、特徴抽出部411の画像フィルタの各要素の値として、汎用学習モデルのモデルパラメータを設定する。そして、学習部404は、汎用学習モデルのモデルパラメータが設定された特徴抽出部411により抽出された特徴マップを、識別部412aに入力して、識別部412aの学習を行う。
このように、特定学習モデル生成の第2例では、特徴抽出部411は、汎用学習モデルの生成に用いられたものが使用され、識別部412aのみが学習される。その結果、特定学習モデル生成のための学習を効率良く行うことができる。
(特定学習モデルの再生成)
図20は、特定学習モデルの再生成の手順例を示すフローチャートである。図1、図20等を参照して、特定学習モデルの再生成が説明される。
CPU400の背景画像生成部402は、図20の動作を、例えば1回/日の頻度で実行する。認識装置1が、例えば小売店舗の内部に設置されている場合には、背景画像生成部402は、図20の動作を、毎日、当該小売店舗の閉店時刻後に実行してもよい。
図20のステップS2000(第2背景画像生成ステップの一例に相当)において、背景画像生成部402は、カメラ100から入力される画像を用いて、認識装置1が設置される現場における背景画像を生成する。ステップS2000では、図5のステップS500と同様の動作が行われる。ステップS2005(差分計算ステップの一例に相当)において、背景画像生成部402は、ステップS2000で生成された背景画像と、背景画像記憶部304に格納されている背景画像との、各画素の画素値の差である画素差を算出する。そして、背景画像生成部402は、画素差を累積した累積値である背景画像の差分を算出する。ステップS2010において、背景画像生成部402は、算出された背景画像の差分が、予め定められた閾値を超えるか否かを判断する。算出された背景画像の差分が閾値以下であれば(ステップS2010でNO)、図20の動作は終了する。
一方、算出された背景画像の差分が閾値を超えていれば(ステップS2010でYES)、ステップS2015において、背景画像生成部402は、背景画像記憶部304に格納されている背景画像を、ステップS2000で生成された背景画像に更新する。ステップS2020において、画像合成部403は、図7等を用いて説明された手順で、合成データを再び生成して、合成データ記憶部301に格納されている合成データを、再生成した合成データに更新する。ステップS2025において、学習部404は、図16等を用いて説明された手順で、特定学習モデルを再び生成して、学習モデル記憶部302に格納されている特定学習モデルを、再生成した特定学習モデルに更新する。
このように、背景画像が変化しても、特定学習モデルを再生成することにより、認識対象物の認識結果の精度が低下するような事態を避けることができる。例えば、認識装置1が小売店舗の内部に設置されており、陳列棚における商品の配置が頻繁に変化する場合であっても、商品の配置の変化に柔軟に対応して、認識対象物の認識結果の精度を維持することができる。
なお、ステップS2010で背景画像の差分と比較される閾値は、背景画像の差分が閾値を超えると背景画像が変化したと判断できる程度の適切な値に予め設定すればよい。
(認識処理動作の第2例)
図21は、認識処理動作の第2例における認識部405の構成例を示すブロック図である。図22は、認識処理動作の第2例における手順を示すフローチャートである。図1、図21、図22等を参照して、認識処理動作の第2例が説明される。
図21に示されるように、認識部405は、図17と同じCNN410に加えて、CNN410aと、統合処理部450と、を含む。CNN410aは、CNN410と同じ構成を有する。認識部405は、図17と同様に、CNN410の各パラメータとして、特定学習モデル440のモデルパラメータを設定する。一方、認識部405は、CNN410aの各パラメータとして、汎用学習モデル430のモデルパラメータを設定する。
CNN410aの識別部412は、認識対象画像350の認識結果として、第1認識結果を出力する。CNN410の識別部412は、認識対象画像350の認識結果として、第2認識結果を出力する。統合処理部450は、CNN410aの識別部412から出力された第1認識結果と、CNN410の識別部412から出力された第2認識結果と、を統合して、最終認識結果を出力する。統合処理部450は、最終認識結果を、例えばメモリ500に保存する。
統合処理部450による、第1認識結果と第2認識結果との統合の手法については、種々の手法が考えられる。例えば、統合処理部450は、以下の手法(A)〜(C)を用いてもよい。
(A)両者の認識結果の論理積に基づき最終認識結果を判定する。
(B)両者の認識結果の存在確率(信頼度)を乗算し、閾値処理により最終認識結果を判定する。
(C)両者の認識結果の存在確率の重み付け和に対し、閾値処理により最終認識結果を判定する。
以下では、例えば第1認識結果及び第2認識結果として、認識対象物(本実施形態では人)が存在するか否かの存在確率が得られる場合について、上記手法(A)、(B)、(C)が、それぞれ説明される。ここでは、第1認識結果として存在確率90%が得られ、第2認識結果として存在確率40%が得られ、判定の閾値が50%に設定されているものとする。
(A)論理積
閾値が50%であるので、第1認識結果では認識対象物が「存在する」となり、第2認識結果では「存在しない」となる。両者の論理積を算出すると、最終認識結果は「存在しない」となる。
(B)存在確率の乗算
それぞれの存在確率を乗算すると、
90%×40%
=36%となる。閾値が50%であるので、最終認識結果は「存在しない」となる。
(C)存在確率の重み付け和
第1認識結果に対する重み付け係数を0.1、第2認識結果に対する重み付け係数を0.9とすると、
重み付け和
=90%×0.1+40%×0.9
=9+36=45%となる。閾値が50%であるので、最終認識結果は「存在しない」となる。
図22において、ステップS1800は、図18のステップS1800と同じである。すなわち、認識部405は、学習モデル記憶部302から特定学習モデル440のモデルパラメータを読み出し、CNN410の各パラメータとして、特定学習モデル440のモデルパラメータを設定する。ステップS2200において、認識部405は、学習モデル記憶部302から汎用学習モデル430のモデルパラメータを読み出し、CNN410aの各パラメータとして、汎用学習モデル430のモデルパラメータを設定する。
ステップS2205において、認識部405は、カメラ100により撮像された認識対象の画像である認識対象画像350を取得し、取得した認識対象画像350をCNN410の特徴抽出部411と、CNN410aの特徴抽出部411と、にそれぞれ入力する。ステップS2210(第1認識ステップ、第2認識ステップの一例に相当)において、CNN410と、CNN410aとは、入力された認識対象画像350の認識処理をそれぞれ実行する。
ステップS2215において、認識部405は、CNN410aの識別部412から出力された第1認識結果と、CNN410の識別部412から出力された第2認識結果とを、例えばメモリ500にそれぞれ保存する。ステップS2220(統合ステップの一例に相当)において、統合処理部450は、第1認識結果と第2認識結果とを統合して最終認識結果を出力し、最終認識結果を例えばメモリ500に保存する。ステップS1820は、図18のステップS1820と同じである。
上記実施形態の認識処理動作(図17、図18)では、認識部405は、特定学習モデル440のみを用いている。特定学習モデル440は、認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像331を用いて生成されているため、認識処理を行う場所に特化され過ぎたモデルになる可能性がある。一般に、特定学習モデル440が認識処理を行う場所に特化され過ぎたモデルになると、誤認識は少なくなるが、認識漏れが発生し易くなる傾向がある。ここで、「誤認識」は、認識対象物体が存在しないのに、認識対象物体が存在すると認識することを意味する。「認識漏れ」は、認識対象物体が存在するのに、認識対象物体が存在しないと認識することを意味する。
これに対して、認識処理動作の第2例では、汎用学習モデル430を用いた第1認識結果と、特定学習モデル440を用いた第2認識結果とを統合処理部450により統合して、最終認識結果を出力している。したがって、認識処理動作の第2例によれば、汎用学習モデル430も用いているため、特定学習モデル440が認識処理を行う場所に特化され過ぎたモデルになった場合でも、そのことによる弊害を軽減することが可能となる。
なお、認識装置1が設置された場所に、人形などの認識対象物と紛らわしい物体が存在する場合、汎用学習モデル430が設定されたCNN410aでは、認識対象物が存在すると誤認識してしまう可能性がある。この場合には、認識装置1が設置された場所の画像を基に負例画像として学習用データセットに追加することにより、認識対象物と紛らわしい物体を除外するようにしてもよい。
また、上記手法(C)では、特定学習モデル440を用いた第2認識結果の重み付け係数の方が、汎用学習モデル430を用いた第1認識結果の重み付け係数よりも、大きい値に設定されてもよい。
代替的に、汎用学習モデル430を用いたCNN410aによって十分な性能が発揮できると判断される場合には、特定学習モデル440を用いた第2認識結果の重み付け係数よりも、汎用学習モデル430を用いた第1認識結果の重み付け係数の方が、大きい値に設定されるように、重み付け係数を調整可能としてもよい。
例えば、特定学習モデル440を用いた第2認識結果の方が、必ずしも高精度であるとは限らない。一方、背景画像を使用せずに事前に生成された汎用学習モデル430を用いたCNN410aの性能は、予め把握可能である。このため、重み付け係数を調整可能とすることにより、認識装置1が製品として一定度合の性能を予め担保できるという効果がある。
また、例えば、認識装置1が設置され、背景画像が生成された後で、試験的に、汎用学習モデル430を用いたCNN410aによる第1認識処理の認識対象として背景画像を適用してもよい。このとき、誤識別が少なければ(つまり認識対象物が存在しないと認識すれば)、特定学習モデル440を用いた第2認識結果の重み付け係数よりも、汎用学習モデル430を用いた第1認識結果の重み付け係数の方が大きい値に設定されるように、重み付け係数を調整してもよい。
(認識処理動作の第3例)
図23は、認識処理動作の第3例における認識部405の構成例を示すブロック図である。なお、認識処理動作の第3例は、認識部405の構成が、認識処理動作の第2例と一部異なるが、動作手順は、図22に示される認識処理動作の第2例と同じである。図1、図23等を参照して、認識処理動作の第3例が説明される。
図23に示されるように、認識部405は、CNN410aと、識別部412aと、統合処理部450と、を含む。すなわち、図23の認識部405は、図21に示される認識処理動作の第2例の認識部405に対して、CNN410に代えて、識別部412aを備える。識別部412aは、図19の特定学習モデル生成の第2例で用いられた識別部412aである。
認識処理動作の第3例では、図23に示されるように、認識部405は、認識対象画像350を、CNN410aの特徴抽出部411にのみ入力する。また、認識部405は、CNN410aの特徴抽出部411から出力される特徴マップを、CNN410aの識別部412だけでなく、識別部412aにも入力する。また、認識部405は、識別部412aの重み付け係数として、特定学習モデル440のモデルパラメータを設定する。
このように、認識処理動作の第3例では、図19の特定学習モデル生成の第2例で用いられた識別部412aを備え、特徴抽出部411を共用化することにより、認識部405の構成の簡素化を図ることができる。また、認識処理を効率的に、かつ高速に実行することができる。
(認識処理の変形形態)
上記実施形態では、認識対象物(具体的には人)が存在するか否かを認識する認識処理を行っているが、認識処理の種類は、これに限られない。
例えば、人物の姿勢を推定する姿勢推定を目的とした認識処理でもよい。姿勢推定の場合には、例えば、頭頂、首、左右の肩、左右の肘、左右の手首、腰、左右の膝、左右の足首等の関節の座標値が正解ラベルとされてもよい。そして、人物画像と背景画像とを合成した合成画像と、正解ラベルとを用いて、学習用データセットの正例データが作成されてもよい。
例えば、人物の行動を推定する行動推定を目的とした認識処理でもよい。この場合、直接、行動を推定してもよく、姿勢から行動を推定してもよい。行動推定の場合には、「立っている」、「座っている」、「歩いている」等が正解ラベルとされてもよい。そして、人物画像と背景画像とを合成した合成画像と、正解ラベルとを用いて、学習用データセットの正例データが作成されてもよい。
例えば、人物の属性を推定する属性推定を目的とした認識処理でもよい。人物の属性として、例えば性別であれば「男性」、「女性」というラベル、例えば年齢であれば「20代」、「30代」というラベル又は「大人」、「子供」というラベルが正解ラベルとされてもよい。そして、人物画像と背景画像とを合成した合成画像と、正解ラベルとを用いて、学習用データセットの正例データが作成されてもよい。
(構成の変形形態)
上記実施形態では、図1に示される構成で、認識装置1において学習モデルが生成されているが、これに限られない。例えば、認識装置1とネットワークで通信可能に接続された外部のサーバー装置が、学習モデルを生成してもよい。この場合には、認識装置1に代えてサーバー装置が、図1に示される画像合成部403、学習部404、対象物情報記憶部303を備えてもよい。
背景画像生成部402は、生成した背景画像を、制御部401を介してサーバー装置に送信してもよい。サーバー装置は、合成データを用いて学習を行うことにより生成した特定学習モデルを認識装置1に送信してもよい。認識装置1は、送信された特定学習モデルを学習モデル記憶部302に格納してもよい。このように、学習をサーバー装置で行うことにより、認識装置1のCPU400の負荷を低減することができる。
(特定学習モデルの変形形態)
上記実施形態では、時間帯に関係なく1個の特定学習モデル440を用いているが、これに限られない。例えば、朝、昼、夜等のように、時間帯ごとに異なる特定学習モデルを適用してもよい。この場合、背景画像生成部402は、朝、昼、夜に背景画像をそれぞれ生成し、生成した背景画像を、それぞれ時間帯に対応付けて、背景画像記憶部304に格納してもよい。画像合成部403は、時間帯ごとに、合成データをそれぞれ生成してもよい。学習部404は、それぞれの合成データを用いて、時間帯ごとに特定学習モデルを生成して、それぞれ時間帯に対応付けて、学習モデル記憶部302に格納してもよい。認識部405は、CPU400のタイマー機能に基づき、使用する特定学習モデルを時間帯ごとに切り替えて、認識処理を実行してもよい。
背景画像の画素値は、太陽光等の入射度合いで、時間帯によって大きく変化する可能性がある。このため、時間帯に関係なく1個の特定学習モデルを用いると、時間帯によって認識精度が変化することもあり得る。これに対して、時間帯ごとに異なる特定学習モデルを適用すると、太陽光等による認識精度への影響を低減することが可能になる。
(その他)
本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更および/または改良することは容易に為し得ることであると認識すべきである。したがって、当業者が実施する変更形態または改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態または当該改良形態は、当該請求項の権利範囲に包括されると解釈される。
1 認識装置
100 カメラ
301 合成データ記憶部
302 学習モデル記憶部
303 対象物情報記憶部
304 背景画像記憶部
402 背景画像生成部
403 画像合成部
404 学習部
405 認識部
410,410a CNN
411 特徴抽出部
412,412a 識別部
430 汎用学習モデル
440 特定学習モデル
450 統合処理部

Claims (7)

  1. 認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像を生成する背景画像生成ステップと、
    予め蓄積された前記認識対象物の画像を前記背景画像に重畳して合成画像を生成する合成画像生成ステップと、
    前記合成画像から切り出された切出し画像と、前記切出し画像における前記認識対象物の有無情報とに基づき、学習用データセットを構築する構築ステップと、
    前記学習用データセットを用いて前記認識処理の学習を行うことにより、前記背景画像に対応する特定学習モデルを生成する特定学習モデル生成ステップと、
    前記特定学習モデル生成ステップより前に実行され、前記認識対象物を含む領域の画像を切り出した正例画像と、前記認識対象物を含まない領域の画像を切り出した負例画像と、を用いて、前記認識処理の学習を行うことにより、汎用学習モデルを生成する汎用学習モデル生成ステップとを備え、
    前記汎用学習モデル生成ステップは
    前記正例画像又は前記負例画像に含まれる汎用入力画像から汎用特徴マップを抽出し、抽出された前記汎用特徴マップを用いて前記汎用入力画像に前記認識対象物が存在するか否かを識別した結果と前記汎用入力画像とに基づき、前記認識処理の学習を行うことにより、前記汎用学習モデルを生成し
    前記特定学習モデル生成ステップは
    前記汎用学習モデルを用いて前記学習用データセットに含まれる学習用入力画像から学習用特徴マップを抽出し、抽出された前記学習用特徴マップを用いて前記学習用入力画像に前記認識対象物が存在するか否かを識別した結果と、前記学習用入力画像とに基づき、前記認識処理の学習を行うことにより、前記特定学習モデルを生成する
    機械学習方法。
  2. 前記認識処理を行う場所の画像である認識対象画像に対して、前記特定学習モデルを用いて、前記認識処理を行う認識ステップ、
    をさらに備える請求項1に記載の機械学習方法。
  3. 記特定学習モデル生成ステップは、前記汎用学習モデルのモデルパラメータを初期値として、前記特定学習モデルの生成を開始する、
    請求項1に記載の機械学習方法。
  4. 前記認識処理を行う場所の画像である認識対象画像に対して、前記汎用学習モデルを用いて、前記認識処理を行う第1認識ステップと、
    前記認識対象画像に対して、前記特定学習モデルを用いて、前記認識処理を行う第2認識ステップと、
    前記第1認識ステップにおける認識結果と前記第2認識ステップにおける認識結果とを統合して、前記認識処理の最終認識結果を出力する統合ステップと、
    をさらに備える請求項3に記載の機械学習方法。
  5. 前記認識処理を行う場所の画像である認識対象画像に対して、前記汎用学習モデルを用いて、前記認識処理を行う第1認識ステップと、
    前記認識対象画像に対して、前記特定学習モデルを用いて、前記認識処理を行う第2認識ステップと、
    前記第1認識ステップにおける認識結果と前記第2認識ステップにおける認識結果とを
    統合して、前記認識処理の最終認識結果を出力する統合ステップと、をさらに備え、
    前記第1認識ステップは、
    前記汎用学習モデルを用いて前記認識対象画像から抽出された認識用特徴マップと、前記汎用学習モデルと、を用いて、前記認識対象画像に前記認識対象物が存在するか否かを識別し、
    前記第2認識ステップは、前記認識用特徴マップと、前記特定学習モデルと、を用いて、前記認識対象画像に前記認識対象物が存在するか否かを識別する、
    請求項に記載の機械学習方法。
  6. 前記背景画像を保存する背景画像保存ステップと、
    前記背景画像の保存後に、前記背景画像を再び生成する第2背景画像生成ステップと、
    前記保存されている背景画像と前記再び生成された背景画像との背景画像の差分を算出する差分計算ステップと、をさらに備え、
    前記背景画像の差分が予め定められた閾値を超える場合は、前記再び生成された背景画像を用いて、前記合成画像生成ステップと、前記構築ステップと、前記特定学習モデル生成ステップと、を再び実行する、
    請求項1〜のいずれか1項に記載の機械学習方法。
  7. 認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像を生成する背景画像生成部と、
    予め蓄積された前記認識対象物の画像を前記背景画像に重畳して合成画像を生成する合成画像生成部と、
    前記合成画像から切り出された切出し画像と、前記切出し画像における前記認識対象物の有無情報とに基づき、学習用データセットを構築する構築部と、
    前記学習用データセットを用いて前記認識処理の学習を行うことにより、前記背景画像に対応する特定学習モデルを生成する特定学習モデル生成部と、
    前記特定学習モデルを生成する前に実行され、前記認識対象物を含む領域の画像を切り出した正例画像と、前記認識対象物を含まない領域の画像を切り出した負例画像と、を用いて、前記認識処理の学習を行うことにより、汎用学習モデルを生成する汎用学習モデル生成部とを備え、
    前記汎用学習モデル生成部は
    前記正例画像又は前記負例画像に含まれる汎用入力画像から汎用特徴マップを抽出し、抽出された前記汎用特徴マップを用いて前記汎用入力画像に前記認識対象物が存在するか否かを識別した結果と前記汎用入力画像とに基づき、前記認識処理の学習を行うことにより、前記汎用学習モデルを生成し
    前記特定学習モデル生成部は
    前記汎用学習モデルを用いて前記学習用データセットに含まれる学習用入力画像から学習用特徴マップを抽出し、抽出された前記学習用特徴マップを用いて前記学習用入力画像に前記認識対象物が存在するか否かを識別した結果と、前記学習用入力画像とに基づき、前記認識処理の学習を行うことにより、前記特定学習モデルを生成する
    機械学習装置。
JP2017231837A 2017-12-01 2017-12-01 機械学習方法及び装置 Active JP6977513B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017231837A JP6977513B2 (ja) 2017-12-01 2017-12-01 機械学習方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017231837A JP6977513B2 (ja) 2017-12-01 2017-12-01 機械学習方法及び装置

Publications (2)

Publication Number Publication Date
JP2019101740A JP2019101740A (ja) 2019-06-24
JP6977513B2 true JP6977513B2 (ja) 2021-12-08

Family

ID=66977001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017231837A Active JP6977513B2 (ja) 2017-12-01 2017-12-01 機械学習方法及び装置

Country Status (1)

Country Link
JP (1) JP6977513B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529206B (zh) * 2019-09-18 2024-05-17 华为技术有限公司 一种模型运行方法和系统
JP7445856B2 (ja) * 2019-09-30 2024-03-08 パナソニックIpマネジメント株式会社 物体認識装置、物体認識システムおよび物体認識方法
JP6744536B1 (ja) * 2019-11-01 2020-08-19 株式会社アップステアーズ 目線撮像方法及び目線撮像システム
WO2021149091A1 (ja) * 2020-01-20 2021-07-29 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
JP7531578B2 (ja) * 2020-03-13 2024-08-09 富士フイルム株式会社 学習データ作成装置、方法、プログラム、及び記録媒体
IT202100032969A1 (it) * 2021-12-29 2023-06-29 Sony Interactive Entertainment Inc Sistema di elaborazione di informazione, metodo di elaborazione di informazione, e programma

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6000602B2 (ja) * 2012-03-30 2016-09-28 キヤノン株式会社 体検出方法及び物体検出装置

Also Published As

Publication number Publication date
JP2019101740A (ja) 2019-06-24

Similar Documents

Publication Publication Date Title
JP6977513B2 (ja) 機械学習方法及び装置
CN107358149B (zh) 一种人体姿态检测方法和装置
US11478169B2 (en) Action recognition and pose estimation method and apparatus
EP3644277B1 (en) Image processing system, image processing method, and program
US11315266B2 (en) Self-supervised depth estimation method and system
EP3510561B1 (en) Predicting depth from image data using a statistical model
JP6814673B2 (ja) 移動経路予測装置、及び移動経路予測方法
US11113526B2 (en) Training methods for deep networks
CN106570453B (zh) 用于行人检测的方法、装置和系统
CN107808111B (zh) 用于行人检测和姿态估计的方法和装置
US20190287139A1 (en) Generating a shoppable video
TWI708209B (zh) 使用卷積神經網絡模型的物件偵測方法及物件偵測設備
CN105447529A (zh) 一种服饰检测及其属性值识别的方法和系统
CN102227749B (zh) 移动体检测方法及移动体检测装置
JP7499280B2 (ja) 人物の単眼深度推定のための方法およびシステム
EP3182369A1 (en) Stereo matching method, controller and system
CN113591872A (zh) 一种数据处理系统、物体检测方法及其装置
CN111696196B (zh) 一种三维人脸模型重建方法及装置
EP3992908A1 (en) Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching
CN109740416B (zh) 目标跟踪方法及相关产品
CN111767867B (zh) 文本检测方法、模型训练方法及对应装置
CN103065302B (zh) 一种基于离群数据挖掘的图像显著性检测方法
JP2020149086A (ja) 学習用データ生成装置、学習用データ生成方法、および学習用データ生成プログラム
Li et al. GRAN: graph recurrent attention network for pedestrian orientation classification
CN111783791B (zh) 图像分类方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200618

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210810

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211025

R150 Certificate of patent or registration of utility model

Ref document number: 6977513

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150