JP2019101740A

JP2019101740A - 機械学習方法及び装置

Info

Publication number: JP2019101740A
Application number: JP2017231837A
Authority: JP
Inventors: 文平田路; Bunpei Taji
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2019-06-24
Anticipated expiration: 2037-12-01
Also published as: JP6977513B2

Abstract

【課題】認識対象物の認識精度を向上する。【解決手段】認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像を生成する背景画像生成ステップと、予め蓄積された認識対象物の画像を背景画像に重畳して合成画像を生成する合成画像生成ステップと、合成画像から切り出された切出し画像と、切出し画像における認識対象物の有無情報とに基づき、学習用データセットを構築する構築ステップと、学習用データセットを用いて認識処理の学習を行うことにより、背景画像に対応する特定学習モデルを生成する特定学習モデル生成ステップと、を備える。【選択図】図１

Description

本発明は、特定の認識対象物を認識するための機械学習方法及び装置に関する。

従来、監視又はマーケティング等を目的として、固定カメラで撮影された画像に認識対象物（例えば人）が含まれているか否かを認識する技術が提案されている。一般に、認識対象物を検出する検出器は、多数の正例画像データと負例画像データとを使用して、学習することによって作成される。正例画像データは、例えば、認識対象物を含む矩形画像と、その矩形を表す座標情報とを含む。負例画像データは、例えば、認識対象物を含まない矩形画像と、その矩形を表す座標情報とを含む。例えば特許文献１に記載の技術では、動き検出を行って、動きのないシーンが負例画像データとして学習用データに付加される。また、動きが検出されたシーンは、正例画像データとして選択される。

特開２０１１−２５３５２８号公報

上記特許文献１に記載の技術では、上述のように、動きが検出されたシーンは、正例画像データとして選択される。しかし、動きが検出されたシーンであっても、認識対象物が含まれないことはあり得る。このため、認識対象物を含まない画像が正例画像データとされることを排除するのは困難であった。その結果、上記特許文献１に記載の技術に対し、認識対象物の認識精度を向上することが望まれていた。

本発明は、上記課題に鑑みてなされたもので、認識対象物の認識精度を向上することが可能な機械学習方法及び装置を提供することを目的とする。

本発明の第１態様は、
認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像を生成する背景画像生成ステップと、
予め蓄積された前記認識対象物の画像を前記背景画像に重畳して合成画像を生成する合成画像生成ステップと、
前記合成画像から切り出された切出し画像と、前記切出し画像における前記認識対象物の有無情報とに基づき、学習用データセットを構築する構築ステップと、
前記学習用データセットを用いて前記認識処理の学習を行うことにより、前記背景画像に対応する特定学習モデルを生成する特定学習モデル生成ステップと、
を備えるものである。

本発明の第２態様は、
認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像を生成する背景画像生成部と、
予め蓄積された前記認識対象物の画像を前記背景画像に重畳して合成画像を生成する合成画像生成部と、
前記合成画像から切り出された切出し画像と、前記切出し画像における前記認識対象物の有無情報とに基づき、学習用データセットを構築する構築部と、
前記学習用データセットを用いて前記認識処理の学習を行うことにより、前記背景画像に対応する特定学習モデルを生成する特定学習モデル生成部と、
を備えるものである。

第１態様及び第２態様では、認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像に、認識対象物の画像が重畳されて、合成画像が生成される。合成画像から切り出された切出し画像と、その切出し画像における認識対象物の有無情報とに基づき構築された学習用データセットを用いて、認識処理の学習を行うことにより、背景画像に対応する特定学習モデルが生成される。したがって、第１態様及び第２態様によれば、特定学習モデルとして、認識対象物が存在するか否かを認識する場所に適切なモデルを生成することができる。

上記第１態様において、例えば、前記認識処理を行う場所の画像である認識対象画像に対して、前記特定学習モデルを用いて、前記認識処理を行う認識ステップ、をさらに備えてもよい。

本態様では、認識対象物が存在するか否かを認識する認識処理を行う場所の画像である認識対象画像に対して、特定学習モデルを用いて、認識処理が行われる。したがって、本態様によれば、特定学習モデルが、認識対象物が存在するか否かを認識する場所に適切なモデルであるため、認識処理を精度良く行うことができる。

上記第１態様において、例えば、前記認識対象物を含む領域の画像を切り出した正例画像と、前記認識対象物を含まない領域の画像を切り出した負例画像と、を用いて、前記認識処理の学習を行うことにより、汎用学習モデルを生成する汎用学習モデル生成ステップ、をさらに備えてもよい。前記特定学習モデル生成ステップは、前記汎用学習モデルのモデルパラメータを初期値として、前記特定学習モデルの生成を開始してもよい。

本態様では、認識対象物を含む領域の画像を切り出した正例画像と、認識対象物を含まない領域の画像を切り出した負例画像と、を用いて、認識処理の学習を行うことにより、汎用学習モデルが生成される。したがって、本態様によれば、認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像が用いられないため、汎用学習モデルとして、認識対象物が存在するか否かを認識する場所に限られない、汎用のモデルを生成することができる。また、特定学習モデル生成ステップでは、汎用学習モデルのモデルパラメータを初期値として、特定学習モデルの生成が開始される。したがって、本態様によれば、特定学習モデルを効率良く生成することができる。

上記第１態様において、例えば、前記認識処理を行う場所の画像である認識対象画像に対して、前記汎用学習モデルを用いて、前記認識処理を行う第１認識ステップと、前記認識対象画像に対して、前記特定学習モデルを用いて、前記認識処理を行う第２認識ステップと、前記第１認識ステップにおける認識結果と前記第２認識ステップにおける認識結果とを統合して、前記認識処理の最終認識結果を出力する統合ステップと、をさらに備えてもよい。

特定学習モデルは、認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像を用いて生成されているため、認識処理を行う場所に特化され過ぎたモデルとなる可能性がある。これに対して、本態様では、汎用学習モデルを用いた認識処理の結果と、特定学習モデルを用いた認識処理の結果とが統合されて、最終認識結果が出力される。したがって、本態様によれば、汎用学習モデルも用いているため、特定学習モデルが認識処理を行う場所に特化され過ぎたモデルとなった場合でも、そのことによる弊害を軽減することが可能である。

上記第１態様において、例えば、前記特定学習モデル生成ステップより前に実行され、前記認識対象物を含む領域の画像を切り出した正例画像と、前記認識対象物を含まない領域の画像を切り出した負例画像と、を用いて、前記認識処理の学習を行うことにより、汎用学習モデルを生成する汎用学習モデル生成ステップ、をさらに備えてもよい。前記汎用学習モデル生成ステップは、前記正例画像又は前記負例画像に含まれる汎用入力画像から汎用特徴マップを抽出し、抽出された前記汎用特徴マップを用いて前記汎用入力画像に前記認識対象物が存在するか否かを識別した結果と前記汎用入力画像とに基づき、前記認識処理の学習を行うことにより、前記汎用学習モデルを生成してもよい。前記特定学習モデル生成ステップは、前記汎用学習モデルを用いて前記学習用データセットに含まれる学習用入力画像から学習用特徴マップを抽出し、抽出された前記学習用特徴マップを用いて前記学習用入力画像に前記認識対象物が存在するか否かを識別した結果と、前記学習用入力画像とに基づき、前記認識処理の学習を行うことにより、前記特定学習モデルを生成してもよい。

本態様では、特定学習モデル生成ステップにおいて、汎用学習モデルを用いて学習用入力画像から抽出された学習用特徴マップを用いて学習用入力画像に認識対象物が存在するか否かを識別した結果と、学習用入力画像とに基づき、認識処理の学習を行うことにより、特定学習モデルが生成される。このように、汎用学習モデルを用いて抽出された学習用特徴マップが用いられるので、学習用入力画像に認識対象物が存在するか否かを識別する機能のみが学習される。したがって、本態様によれば、特定学習モデルを効率良く生成することができる。

上記第１態様において、例えば、前記認識処理を行う場所の画像である認識対象画像に対して、前記汎用学習モデルを用いて、前記認識処理を行う第１認識ステップと、前記認識対象画像に対して、前記特定学習モデルを用いて、前記認識処理を行う第２認識ステップと、前記第１認識ステップにおける認識結果と前記第２認識ステップにおける認識結果とを統合して、前記認識処理の最終認識結果を出力する統合ステップと、をさらに備えてもよい。前記第１認識ステップは、前記汎用学習モデルを用いて前記認識対象画像から抽出された認識用特徴マップと、前記汎用学習モデルと、を用いて、前記認識対象画像に前記認識対象物が存在するか否かを識別してもよい。前記第２認識ステップは、前記認識用特徴マップと、前記特定学習モデルと、を用いて、前記認識対象画像に前記認識対象物が存在するか否かを識別してもよい。

また、第１認識ステップでは、汎用学習モデルを用いて認識対象画像から抽出された認識用特徴マップと、汎用学習モデルと、を用いて、認識対象画像に認識対象物が存在するか否かが識別される。一方、第２認識ステップでは、認識用特徴マップと、特定学習モデルと、を用いて、認識対象画像に認識対象物が存在するか否かが識別される。このように、本態様によれば、認識用特徴マップが共用されているので、認識処理を効率良く行うことができる。

上記第１態様において、例えば、前記背景画像を保存する背景画像保存ステップと、前記背景画像の保存後に、前記背景画像を再び生成する第２背景画像生成ステップと、前記保存されている背景画像と前記再び生成された背景画像との背景画像の差分を算出する差分計算ステップと、をさらに備えてもよい。前記背景画像の差分が予め定められた閾値を超える場合は、前記再び生成された背景画像を用いて、前記合成画像生成ステップと、前記構築ステップと、前記特定学習モデル生成ステップと、を再び実行してもよい。

本態様では、保存されている背景画像と再び生成された背景画像との背景画像の差分が予め定められた閾値を超える場合は、再び生成された背景画像を用いて、合成画像生成ステップと、構築ステップと、特定学習モデル生成ステップと、が再び実行される。したがって、本態様によれば、背景画像の変化に対応することができる。

本発明によれば、認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像を用いているため、特定学習モデルとして、認識対象物が存在するか否かを認識する場所に適切なモデルを生成することができる。

本実施形態の認識装置の構成を示すブロック図である。汎用学習モデル生成の際の学習部の構成例を示すブロック図である。汎用学習モデル生成の際に用いられる汎用画像の一例を示す図である。汎用学習モデル生成の手順例を示すフローチャートである。背景画像生成の手順例を示すフローチャートである。背景画像の一例を概略的に示す図である。合成データ生成の手順例を示すフローチャートである。認識対象物の画像である対象物画像の一例を概略的に示す図である。認識対象物の画像である対象物画像の一例を概略的に示す図である。合成画像の一例を概略的に示す図である。正例画像の一例を概略的に示す図である。正例画像の一例を概略的に示す図である。負例画像の一例を概略的に示す図である。負例画像の一例を概略的に示す図である。特定学習モデル生成の際の学習部の構成例を示すブロック図である。特定学習モデル生成の手順例を示すフローチャートである。認識処理の際の認識部の構成例を示すブロック図である。認識処理の手順例を示すフローチャートである。特定学習モデル生成の際の学習部の構成の第２例を示すブロック図である。特定学習モデルの再生成の手順例を示すフローチャートである。認識処理動作の第２例における認識部の構成例を示すブロック図である。認識処理動作の第２例における手順を示すフローチャートである。認識処理動作の第３例における認識部の構成例を示すブロック図である。

（本発明の基礎となった知見）
まず、本発明の基礎となった知見が説明される。上述のように、上記特許文献１に記載の技術では、正例画像データに、認識対象物を含まない画像が含まれることを排除するのは困難であった。このため、上記特許文献１に記載の技術では、認識対象物の認識精度が十分ではなかった。

一般に、機械学習方法では、汎用性が高くなるように、大量の正例画像データ及び負例画像データを用いて学習している。しかし、学習するデータを増やしても、どのような状況でも精度が高い万能な識別器を生成することは、困難である。

これらの知見に基づいて、本発明者は、識別器が設置される現場に適合するように、識別器を学習させることにより、識別器による認識処理の精度を向上する発明を想到するに至った。

（実施の形態）
以下、本発明にかかる実施の一形態を図面に基づいて説明する。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し、個別の構成を指す場合には添え字を付した参照符号で示す。

（構成）
図１は、本実施形態の認識装置１の構成を示すブロック図である。本実施形態の認識装置１は、認識対象画像に認識対象物（本実施形態では人）が存在する改あんかを認識する認識処理を行う。認識装置１は、例えば、交通機関の駅、道路の交差点、小売店舗の内部などに設置される。認識装置１は、図１に示されるように、カメラ１００と、表示部２００と、記憶装置３００と、中央演算処理装置（ＣＰＵ）４００と、メモリ５００と、を備える。

カメラ１００は、ＣＰＵ４００に接続され、ＣＰＵ４００の制御に従って、認識装置１の認識対象を撮像して、認識対象画像を生成する。カメラ１００は、撮像したフレーム画像を例えば１／６０秒ごとにＣＰＵ４００に出力して動画を生成する。代替的に、カメラ１００は、撮像したフレーム画像を例えば１秒ごとにＣＰＵ４００に出力して静止画を生成してもよい。

メモリ５００は、例えば半導体メモリ等により構成される。メモリ５００は、例えばリードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、電気的に消去書き換え可能なＲＯＭ（ＥＥＰＲＯＭ）などを含む。メモリ５００のＲＯＭは、ＣＰＵ４００を動作させる本実施形態の制御プログラムを記憶する。メモリ５００のＲＯＭ又はＥＥＰＲＯＭは、汎用学習モデル（後述）を生成する際に用いられる正例画像及び負例画像を含む汎用画像（後述の図３）を表す画像データを記憶する。

ＣＰＵ４００は、メモリ５００に記憶された本実施形態の制御プログラムにしたがって動作することによって、制御部４０１、背景画像生成部４０２、画像合成部４０３、学習部４０４、及び認識部４０５の機能を有する。制御部４０１は、認識装置１の全体を制御する。例えば、制御部４０１は、カメラ１００、表示部２００、記憶装置３００、メモリ５００を制御する。また、制御部４０１は、背景画像生成部４０２、画像合成部４０３、学習部４０４、及び認識部４０５と、カメラ１００、表示部２００、記憶装置３００、メモリ５００との間の情報の送受信を仲介する。

背景画像生成部４０２は、カメラ１００により撮像された画像に基づき、認識処理を行う場所の背景画像を生成する。画像合成部４０３は、背景画像と対象物情報（後述）に含まれる対象物画像とを合成して合成画像を生成し、生成した合成画像を用いて学習用データセットを構築する。学習部４０４は、汎用学習モデル（後述）及び特定学習モデル（後述）を生成する。認識部４０５は、認識対象画像に認識対象物（本実施形態では人）が存在するか否かを認識する認識処理を行う。ＣＰＵ４００の各機能の詳細は、後述される。

表示部２００は、例えば液晶ディスプレイパネルを含む。表示部２００は、ＣＰＵ４００により制御されて、例えばＣＰＵ４００の認識部４０５による認識結果を表示する。なお、表示部２００は、液晶ディスプレイパネルに限られない。表示部２００は、有機ＥＬ（ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）パネルなどの他のパネルを含んでもよい。

記憶装置３００は、例えばハードディスク又は半導体メモリ等により構成される。記憶装置３００は、合成データ記憶部３０１、学習モデル記憶部３０２、対象物情報記憶部３０３、背景画像記憶部３０４を含む。各記憶部３０１〜３０４は、互いに別の媒体で構成されてもよい。代替的に、各記憶部３０１〜３０４は、記憶領域が分けられた一つの媒体で構成されてもよい。

合成データ記憶部３０１は、背景画像と対象物画像とが合成された合成画像を含む合成データ（後述）を記憶する。学習モデル記憶部３０２は、生成された汎用学習モデル及び特定学習モデル（後述）を記憶する。対象物情報記憶部３０３は、特定学習モデルを生成する際に用いられる対象物画像（後述の図８、図９）を含む対象物情報を記憶する。背景画像記憶部３０４は、背景画像生成部４０２により生成された背景画像を記憶する。各記憶部３０１〜３０４の記憶内容の詳細は、後述される。

（汎用学習モデルの生成）
図２は、汎用学習モデル生成の際の学習部４０４の構成例を示すブロック図である。図３は、汎用学習モデル生成の際に用いられる汎用画像の一例を示す図である。図４は、汎用学習モデル生成の手順例を示すフローチャートである。図１〜図４を参照して、汎用学習モデルの生成が説明される。

図２に示されるように、学習部４０４は、畳み込みニューラルネットワーク（ＣＮＮ）４１０を含む。汎用学習モデル生成の際には、ＣＮＮ４１０には、汎用画像３１０が入力される。具体的には、汎用画像３１０に含まれる、図３に示されるような正例画像３１１と負例画像３１２とが、ＣＮＮ４１０に入力される。なお、図３には正例画像３１１と負例画像３１２との一例が示されているだけであり、周知のように、汎用学習モデル生成の際には、ＣＮＮ４１０に多数の正例画像及び負例画像が入力されて、学習が行われる。

正例画像３１１を表す画像データは、認識対象物（本実施形態では人）を囲む矩形領域を表す４個の頂点座標と、その矩形領域内の各画素値と、を含む。負例画像３１２を表す画像データは、認識対象物（本実施形態では人）を含まない矩形領域を表す４個の頂点座標と、その矩形領域内の各画素値と、を含む。

ＣＮＮ４１０は、特徴抽出部４１１と識別部４１２とを備える公知の構成を有する。特徴抽出部４１１は、畳み込み層４２１−１，・・・，４２１−ｋと、プーリング層４２２−１，・・・，４２２−ｋと、を含む。

畳み込み層４２１−１，・・・，４２１−ｋは、入力された画像に対して、予め定められたサイズの画像フィルタにより畳み込み演算を行って、入力された画像の特徴を表す特徴マップを算出する。畳み込み層４２１−１，・・・，４２１−ｋが多いほど（つまり添え字ｋの数値が大きいほど）、入力された画像の種々の特徴を抽出することができる。畳み込み層４２１−１，・・・，４２１−ｋで用いられる画像フィルタのサイズは、畳み込み層ごとに、予め設定される。

プーリング層４２２−１，・・・，４２２−ｋは、それぞれ、入力データ（ここでは畳み込み層４２１−１，・・・，４２１−ｋにより算出された特徴マップ）に対して、マックスプーリング（ｍａｘｐｏｏｌｉｎｇ）を行って、特徴マップの情報を圧縮する。マックスプーリングでは、特徴マップの複数要素を含む部分領域ごとに、複数要素中の最大値が、その部分領域の値とされることによって、特徴マップの情報が圧縮される。例えば、２２４×２２４の要素を持つ特徴マップにおいて、２×２の要素を含む部分領域ごとに、２×２の要素中の最大値が、その部分領域の値とされると、特徴マップは、１１２×１１２に圧縮される。この圧縮の度合いは、プーリング層４２２−１，・・・，４２２−ｋごとに、予め設定される。

図２において、添え字ｋは、１以上の整数である。すなわち、畳み込み層及びプーリング層のセットは、単数でも複数でもよい。プーリング層の次段に畳み込み層が接続されている場合は、圧縮された特徴マップは、次段の畳み込み層に入力される。一方、最終段のプーリング層４２２−ｋで圧縮された特徴マップは、識別部４１２に入力される。

識別部４１２は、本実施形態では、全結合層により構成される。全結合層では、各層のユニットは、次の層のユニットと全て接続されており、例えば、入力は１次元のベクトルで、出力も１次元のベクトルとなる。全結合層におけるそれぞれのユニットとの接続は、重み付け係数を持って接続されている。識別部４１２は、入力された汎用画像３１０に対する認識結果を出力する。

図４のステップＳ４００において、正例画像３１１又は負例画像３１２と、教師信号（ラベル）とが、ＣＮＮ４１０の特徴抽出部４１１に入力される。学習部４０４では、正例画像３１１が入力されると「真」の教師信号（ラベル）が入力され、負例画像３１２が入力されると「偽」の教師信号（ラベル）が入力される。

ステップＳ４０５において、入力された正例画像３１１又は負例画像３１２に対する識別処理が行われて、学習が行われる。なお、実際には、例えば１つの正例画像が入力され（ステップＳ４００）、その正例画像に対する識別処理が行われて（ステップＳ４０５）、ステップＳ４００，Ｓ４０５が交互に繰り返されることによって学習が行われる。

学習部４０４では、正例画像３１１又は負例画像３１２が入力されたときに、識別部４１２から正しい認識結果（つまり教師信号（ラベル）と同じ結果）が出力されるように、畳み込み層４２１−１，・・・，４２１−ｋで用いられる画像フィルタの各要素の値、識別部４１２の重み付け係数が調整される。

ステップＳ４１０（汎用学習モデル生成ステップの一例に相当）において、学習部４０４は、学習の終了に伴って、汎用学習モデルを生成する。学習の終了時点における、調整された各パラメータ（画像フィルタの各要素の値、重み付け係数）の値は、モデルパラメータと称される。汎用学習モデルは、モデルパラメータによって表される。ステップＳ４１５において、学習部４０４は、モデルパラメータを、汎用学習モデルとして、学習モデル記憶部３０２に格納する。

（背景画像の生成）
図５は、背景画像生成の手順例を示すフローチャートである。図６は、背景画像の一例を概略的に示す図である。図１、図５、図６を参照して背景画像の生成が説明される。

図５のステップＳ５００（背景画像生成ステップの一例に相当）において、ＣＰＵ４００の背景画像生成部４０２は、カメラ１００により撮像された画像を用いて、認識装置１が設置される場所（すなわち、認識対象画像に認識対象物が存在するか否かを認識する認識処理を行う場所）の背景画像を生成する。背景画像生成部４０２は、カメラ１００により撮像された、例えば連続するフレーム画像の間における画素値の差分を算出して動き情報を解析する。背景画像生成部４０２は、長時間（例えば数分〜数十分）にわたって変動領域がないフレーム画像群のうち一枚のフレーム画像を無人とみなして背景画像とする。

代替的に、背景画像生成部４０２は、長時間（例えば数分〜数十分）のフレーム画像群の平均画像又は中間画像を背景画像としてもよい。平均画像は、フレーム画像群の各画素における画素値の平均値を画素値とする画像である。中間画像は、フレーム画像群の各画素における画素値の中央値を画素値とする画像である。

ステップＳ５０５（背景画像保存ステップの一例に相当）において、背景画像生成部４０２は、生成した背景画像を記憶装置３００の背景画像記憶部３０４に格納する。背景画像生成部４０２は、例えば図６に示される背景画像３３１を生成して背景画像記憶部３０４に格納する。図６には、住居、樹木、街灯などが並ぶ住宅地の画像からなる背景画像３３１が示されている。

（合成データの生成）
図７は、合成データ生成の手順例を示すフローチャートである。図８、図９は、それぞれ、認識対象物（本実施形態では人）の画像である対象物画像の一例を概略的に示す図である。図１０は、合成画像の一例を概略的に示す図である。図１１、図１２は、それぞれ、正例画像の一例を概略的に示す図である。図１３、図１４は、それぞれ、負例画像の一例を概略的に示す図である。図１、図６〜図１４等を参照して、合成データの生成が説明される。

図７のステップＳ７００において、ＣＰＵ４００の画像合成部４０３は、背景画像記憶部３０４に格納されている背景画像３３１（図６）を取得する。ステップＳ７０５において、画像合成部４０３は、対象物情報記憶部３０３に格納されている対象物情報を取得する。

対象物情報記憶部３０３には、対象物情報が予め格納されている。対象物情報は、認識対象物（本実施形態では人）の画像である対象物画像と、その対象物画像に対して予め付与された正解ラベル（「真」のラベル）とを含む。例えば、図８に示される対象物画像３３２は、荷物を抱えた人物が右向きに歩行する画像を表す。例えば、図９に示される対象物画像３３３は、携帯機器を保持する人物が左向きに歩行する画像を表す。図８、図９にそれぞれ示される対象物画像３３２，３３３は、予め認識対象物の輪郭が抽出されて切り出された上で、予め付与された「真」のラベルと対応付けられて、対象物情報記憶部３０３に格納されている。

図７に戻って、ステップＳ７１０（合成画像生成ステップの一例に相当）において、画像合成部４０３（合成画像生成部の一例に相当）は、背景画像３３１に対象物画像３３２，３３３を重畳して、合成画像３３４（図１０）を生成する。画像合成部４０３は、対象物画像３３２，３３３に回転など幾何変換を加えた上で背景画像３３１に重畳してもよい。例えば図１０に示される合成画像３３４は、対象物画像３３２ａ，３３３ａを含む。対象物画像３３２ａは、対象物画像３３２（図８）が左右反転された上で、背景画像３３１に重畳されている。対象物画像３３３ａは、対象物画像３３３（図９）が左右反転されて傾斜された上で、背景画像３３１に重畳されている。これによって、対象物画像の種類より多い種類の合成画像を生成することができる。

また、例えば、対象物画像の輪郭抽出が行われずに、対象物画像を含む矩形領域が切り出されている場合には、画像合成部４０３は、矩形領域内における対象物画像の周囲を例えば半透明にしてぼかした上で、矩形領域を背景画像にアルファブレンドしてもよい。これによって、対象物画像を背景画像に重畳したときに対象物画像の周囲に違和感が生じるのを抑制することができる。

図７に戻って、ステップＳ７１５（構築ステップの一例に相当）において、画像合成部４０３（構築部の一例に相当）は、正例画像群、負例画像群、及びラベル群を含む合成データを生成する。ステップＳ７２０において、画像合成部４０３は、生成した合成データを合成データ記憶部３０１に格納する。

図１１、図１２に示される正例画像３３５，３３６は、それぞれ、合成画像３３４（図１０）から対象物画像３３２ａ，３３３ａを含む矩形領域が切り出されて、生成されている。正例画像３３５，３３６には、それぞれ、対象物画像３３２ａ，３３３ａに予め付与されていた「真」のラベルが付与されている。図１３、図１４に示される負例画像３３７，３３８は、それぞれ、合成画像３３４（図１０）から対象物画像を含まない矩形領域が切り出されて、生成されている。負例画像３３７，３３８には、それぞれ、予め「真」のラベルが付与されていないので、「偽」のラベルが付与されることになる。

この実施形態において、正例画像３３５と「真」のラベルとのデータセット、正例画像３３６と「真」のラベルとのデータセット、負例画像３３７と「偽」のラベルとのデータセット、負例画像３３８と「偽」のラベルとのデータセットは、それぞれ、学習用データセットの一例に相当する。

（特定学習モデルの生成）
図１５は、特定学習モデル生成の際の学習部４０４の構成例を示すブロック図である。図１６は、特定学習モデル生成の手順例を示すフローチャートである。図１、図１５、図１６等を参照して、特定学習モデルの生成が説明される。

図１５に示されるように、汎用学習モデル生成の際と同様に、学習部４０４は、ＣＮＮ４１０を含む。但し、特定学習モデル生成の際には、汎用学習モデル生成の際の汎用画像３１０（図２）と異なり、ＣＮＮ４１０には、合成画像３３４が入力される。具体的には、合成画像３３４から生成された正例画像３３５，３３６、負例画像３３７，３３８等が、ＣＮＮ４１０に入力される。

図１６のステップＳ１６００において、正例画像３３５，３３６又は負例画像３３７，３３８と、教師信号（ラベル）とが、ＣＮＮ４１０の特徴抽出部４１１に入力される。学習部４０４では、正例画像３３５，３３６が入力されると「真」の教師信号（ラベル）が入力され、負例画像３３７，３３８が入力されると「偽」の教師信号（ラベル）が入力される。

ステップＳ１６０５において、入力された正例画像又は負例画像に対する識別処理が行われて、上述の汎用学習モデルの場合と同様に学習が行われる。なお、実際には、例えば１つの正例画像が入力され（ステップＳ１６００）、その正例画像に対する識別処理が行われて（ステップＳ１６０５）、ステップＳ１６００，Ｓ１６０５が交互に繰り返されることによって学習が行われる。

ステップＳ１６０５では、学習部４０４は、学習モデル記憶部３０２から、汎用学習モデル４３０のモデルパラメータを読み出し、読み出したモデルパラメータをＣＮＮ４１０の各パラメータの初期値として学習を開始する。このように、汎用学習モデルが生成された後で、特定学習モデルを生成する動作が実行される。このため、学習部４０４は、汎用学習モデル生成と、特定学習モデル生成とで、ＣＮＮ４１０を共用してもよい。但し、モデルの構造が異なる場合には、汎用学習モデル生成と特定学習モデル生成とで、別のＣＮＮ４１０が用いられる。

ステップＳ１６１０（特定学習モデル生成ステップの一例に相当）において、学習部４０４（特定学習モデル生成部の一例に相当）は、学習の終了に伴って、特定学習モデルを生成する。学習の終了時点における、調整された各パラメータ（画像フィルタの各要素の値、重み付け係数）の値は、モデルパラメータと称される。特定学習モデルは、モデルパラメータによって表される。ステップＳ１６１５において、学習部４０４は、モデルパラメータを、特定学習モデルとして、学習モデル記憶部３０２に格納する。

特定学習モデルは、認識装置１の設置現場の背景画像３３１（図６）を含む合成画像３３４（図１０）を用いて学習が行われて生成されている。したがって、特定学習モデルは、汎用学習モデルに比べて、認識装置１が設置された場所に適合した学習モデルになっている。

（認識処理動作）
図１７は、認識処理の際の認識部４０５の構成例を示すブロック図である。図１８は、認識処理の手順例を示すフローチャートである。図１、図１７、図１８等を参照して、認識処理動作が説明される。

図１７に示されるように、認識部４０５は、ＣＮＮ４１０を含む。図１８のステップＳ１８００において、認識部４０５は、学習モデル記憶部３０２から特定学習モデル４４０のモデルパラメータを読み出し、ＣＮＮ４１０の各パラメータを特定学習モデル４４０のモデルパラメータに設定する。このように、認識部４０５は、特定学習モデルが生成された後で、認識処理を実行する。このため、認識部４０５は、学習部４０４で特定学習モデルの生成に用いられたＣＮＮ４１０を共用してもよい。

ステップＳ１８０５において、認識部４０５は、カメラ１００により撮像された認識対象画像３５０（図１７）を取得し、取得した認識対象画像３５０をＣＮＮ４１０の特徴抽出部４１１に入力する。認識対象画像３５０は、認識部４０５が、認識対象物（本実施形態では人）が存在するか否かを認識する認識処理を行う対象の画像である。

ステップＳ１８１０（認識ステップの一例に相当）において、認識部４０５は、入力された認識対象画像３５０の認識処理を実行する。ステップＳ１８１５において、認識部４０５は、識別部４１２から出力された認識結果を、例えばメモリ５００に保存する。ステップＳ１８２０において、認識部４０５は、認識処理を終了するか否かを判定する。例えば、認識装置１が小売店舗の内部に設置されている場合には、予め定められた当該小売店舗の閉店時刻になると、認識部４０５は、認識処理を終了すると判定してもよい。

認識部４０５が認識処理を終了しないと判定すると（ステップＳ１８２０でＮＯ）、処理はステップＳ１８０５に戻って、以上のステップが繰り返される。一方、認識部４０５が認識処理を終了すると判定すると（ステップＳ１８２０でＹＥＳ）、図１８の動作は終了する。

（効果）
以上説明されたように、この実施形態では、対象物画像と正解ラベルとを対象物情報記憶部３０３に予め格納しておき、認識部４０５が認識処理を行う場所（認識装置１が設置された場所）の背景画像３３１と対象物画像３３２，３３３とを合成した合成画像３３４とラベルとを含む学習用データセットを用いて学習して、特定学習モデル４４０が生成されている。したがって、認識装置１が設置された場所において、正例画像３３５，３３６に対して正解ラベルを付与する作業が不要になるという利点がある。

また、この実施形態では、認識部４０５が認識処理を行う場所の背景画像３３１を用いて、特定学習モデル４４０が生成されているため、認識処理を行う場所に適合した学習モデルを生成することができる。また、この特定学習モデル４４０を用いて、認識部４０５により認識処理が行われているため、認識処理を行う場所の環境に特化した誤認識の少ない認識処理を行うことができる。

（変形された実施形態）
学習部４０４、認識部４０５等の構成及び動作は、上記実施形態に限られない。以下では、上記実施形態の一部が変形された実施形態が説明される。

（特定学習モデル生成の第２例）
図１９は、特定学習モデル生成の際の学習部４０４の構成の第２例を示すブロック図である。図１、図１９等を参照して、特定学習モデル生成の第２例が説明される。

図１９に示されるように、特定学習モデル生成の第２例では、学習部４０４は、汎用学習モデル生成の際に用いられたＣＮＮ４１０とは別に、識別部４１２ａを備える。識別部４１２ａは、識別部４１２と同じ構成を有する。学習部４０４は、識別部４１２ａの重み付け係数の初期値として、汎用学習モデルのモデルパラメータを設定する。また、学習部４０４は、特徴抽出部４１１の画像フィルタの各要素の値として、汎用学習モデルのモデルパラメータを設定する。そして、学習部４０４は、汎用学習モデルのモデルパラメータが設定された特徴抽出部４１１により抽出された特徴マップを、識別部４１２ａに入力して、識別部４１２ａの学習を行う。

このように、特定学習モデル生成の第２例では、特徴抽出部４１１は、汎用学習モデルの生成に用いられたものが使用され、識別部４１２ａのみが学習される。その結果、特定学習モデル生成のための学習を効率良く行うことができる。

（特定学習モデルの再生成）
図２０は、特定学習モデルの再生成の手順例を示すフローチャートである。図１、図２０等を参照して、特定学習モデルの再生成が説明される。

ＣＰＵ４００の背景画像生成部４０２は、図２０の動作を、例えば１回／日の頻度で実行する。認識装置１が、例えば小売店舗の内部に設置されている場合には、背景画像生成部４０２は、図２０の動作を、毎日、当該小売店舗の閉店時刻後に実行してもよい。

図２０のステップＳ２０００（第２背景画像生成ステップの一例に相当）において、背景画像生成部４０２は、カメラ１００から入力される画像を用いて、認識装置１が設置される現場における背景画像を生成する。ステップＳ２０００では、図５のステップＳ５００と同様の動作が行われる。ステップＳ２００５（差分計算ステップの一例に相当）において、背景画像生成部４０２は、ステップＳ２０００で生成された背景画像と、背景画像記憶部３０４に格納されている背景画像との、各画素の画素値の差である画素差を算出する。そして、背景画像生成部４０２は、画素差を累積した累積値である背景画像の差分を算出する。ステップＳ２０１０において、背景画像生成部４０２は、算出された背景画像の差分が、予め定められた閾値を超えるか否かを判断する。算出された背景画像の差分が閾値以下であれば（ステップＳ２０１０でＮＯ）、図２０の動作は終了する。

一方、算出された背景画像の差分が閾値を超えていれば（ステップＳ２０１０でＹＥＳ）、ステップＳ２０１５において、背景画像生成部４０２は、背景画像記憶部３０４に格納されている背景画像を、ステップＳ２０００で生成された背景画像に更新する。ステップＳ２０２０において、画像合成部４０３は、図７等を用いて説明された手順で、合成データを再び生成して、合成データ記憶部３０１に格納されている合成データを、再生成した合成データに更新する。ステップＳ２０２５において、学習部４０４は、図１６等を用いて説明された手順で、特定学習モデルを再び生成して、学習モデル記憶部３０２に格納されている特定学習モデルを、再生成した特定学習モデルに更新する。

このように、背景画像が変化しても、特定学習モデルを再生成することにより、認識対象物の認識結果の精度が低下するような事態を避けることができる。例えば、認識装置１が小売店舗の内部に設置されており、陳列棚における商品の配置が頻繁に変化する場合であっても、商品の配置の変化に柔軟に対応して、認識対象物の認識結果の精度を維持することができる。

なお、ステップＳ２０１０で背景画像の差分と比較される閾値は、背景画像の差分が閾値を超えると背景画像が変化したと判断できる程度の適切な値に予め設定すればよい。

（認識処理動作の第２例）
図２１は、認識処理動作の第２例における認識部４０５の構成例を示すブロック図である。図２２は、認識処理動作の第２例における手順を示すフローチャートである。図１、図２１、図２２等を参照して、認識処理動作の第２例が説明される。

図２１に示されるように、認識部４０５は、図１７と同じＣＮＮ４１０に加えて、ＣＮＮ４１０ａと、統合処理部４５０と、を含む。ＣＮＮ４１０ａは、ＣＮＮ４１０と同じ構成を有する。認識部４０５は、図１７と同様に、ＣＮＮ４１０の各パラメータとして、特定学習モデル４４０のモデルパラメータを設定する。一方、認識部４０５は、ＣＮＮ４１０ａの各パラメータとして、汎用学習モデル４３０のモデルパラメータを設定する。

ＣＮＮ４１０ａの識別部４１２は、認識対象画像３５０の認識結果として、第１認識結果を出力する。ＣＮＮ４１０の識別部４１２は、認識対象画像３５０の認識結果として、第２認識結果を出力する。統合処理部４５０は、ＣＮＮ４１０ａの識別部４１２から出力された第１認識結果と、ＣＮＮ４１０の識別部４１２から出力された第２認識結果と、を統合して、最終認識結果を出力する。統合処理部４５０は、最終認識結果を、例えばメモリ５００に保存する。

統合処理部４５０による、第１認識結果と第２認識結果との統合の手法については、種々の手法が考えられる。例えば、統合処理部４５０は、以下の手法（Ａ）〜（Ｃ）を用いてもよい。
（Ａ）両者の認識結果の論理積に基づき最終認識結果を判定する。
（Ｂ）両者の認識結果の存在確率（信頼度）を乗算し、閾値処理により最終認識結果を判定する。
（Ｃ）両者の認識結果の存在確率の重み付け和に対し、閾値処理により最終認識結果を判定する。

以下では、例えば第１認識結果及び第２認識結果として、認識対象物（本実施形態では人）が存在するか否かの存在確率が得られる場合について、上記手法（Ａ）、（Ｂ）、（Ｃ）が、それぞれ説明される。ここでは、第１認識結果として存在確率９０％が得られ、第２認識結果として存在確率４０％が得られ、判定の閾値が５０％に設定されているものとする。

（Ａ）論理積
閾値が５０％であるので、第１認識結果では認識対象物が「存在する」となり、第２認識結果では「存在しない」となる。両者の論理積を算出すると、最終認識結果は「存在しない」となる。

（Ｂ）存在確率の乗算
それぞれの存在確率を乗算すると、
９０％×４０％
＝３６％となる。閾値が５０％であるので、最終認識結果は「存在しない」となる。

（Ｃ）存在確率の重み付け和
第１認識結果に対する重み付け係数を０．１、第２認識結果に対する重み付け係数を０．９とすると、
重み付け和
＝９０％×０．１＋４０％×０．９
＝９＋３６＝４５％となる。閾値が５０％であるので、最終認識結果は「存在しない」となる。

図２２において、ステップＳ１８００は、図１８のステップＳ１８００と同じである。すなわち、認識部４０５は、学習モデル記憶部３０２から特定学習モデル４４０のモデルパラメータを読み出し、ＣＮＮ４１０の各パラメータとして、特定学習モデル４４０のモデルパラメータを設定する。ステップＳ２２００において、認識部４０５は、学習モデル記憶部３０２から汎用学習モデル４３０のモデルパラメータを読み出し、ＣＮＮ４１０ａの各パラメータとして、汎用学習モデル４３０のモデルパラメータを設定する。

ステップＳ２２０５において、認識部４０５は、カメラ１００により撮像された認識対象の画像である認識対象画像３５０を取得し、取得した認識対象画像３５０をＣＮＮ４１０の特徴抽出部４１１と、ＣＮＮ４１０ａの特徴抽出部４１１と、にそれぞれ入力する。ステップＳ２２１０（第１認識ステップ、第２認識ステップの一例に相当）において、ＣＮＮ４１０と、ＣＮＮ４１０ａとは、入力された認識対象画像３５０の認識処理をそれぞれ実行する。

ステップＳ２２１５において、認識部４０５は、ＣＮＮ４１０ａの識別部４１２から出力された第１認識結果と、ＣＮＮ４１０の識別部４１２から出力された第２認識結果とを、例えばメモリ５００にそれぞれ保存する。ステップＳ２２２０（統合ステップの一例に相当）において、統合処理部４５０は、第１認識結果と第２認識結果とを統合して最終認識結果を出力し、最終認識結果を例えばメモリ５００に保存する。ステップＳ１８２０は、図１８のステップＳ１８２０と同じである。

上記実施形態の認識処理動作（図１７、図１８）では、認識部４０５は、特定学習モデル４４０のみを用いている。特定学習モデル４４０は、認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像３３１を用いて生成されているため、認識処理を行う場所に特化され過ぎたモデルになる可能性がある。一般に、特定学習モデル４４０が認識処理を行う場所に特化され過ぎたモデルになると、誤認識は少なくなるが、認識漏れが発生し易くなる傾向がある。ここで、「誤認識」は、認識対象物体が存在しないのに、認識対象物体が存在すると認識することを意味する。「認識漏れ」は、認識対象物体が存在するのに、認識対象物体が存在しないと認識することを意味する。

これに対して、認識処理動作の第２例では、汎用学習モデル４３０を用いた第１認識結果と、特定学習モデル４４０を用いた第２認識結果とを統合処理部４５０により統合して、最終認識結果を出力している。したがって、認識処理動作の第２例によれば、汎用学習モデル４３０も用いているため、特定学習モデル４４０が認識処理を行う場所に特化され過ぎたモデルになった場合でも、そのことによる弊害を軽減することが可能となる。

なお、認識装置１が設置された場所に、人形などの認識対象物と紛らわしい物体が存在する場合、汎用学習モデル４３０が設定されたＣＮＮ４１０ａでは、認識対象物が存在すると誤認識してしまう可能性がある。この場合には、認識装置１が設置された場所の画像を基に負例画像として学習用データセットに追加することにより、認識対象物と紛らわしい物体を除外するようにしてもよい。

また、上記手法（Ｃ）では、特定学習モデル４４０を用いた第２認識結果の重み付け係数の方が、汎用学習モデル４３０を用いた第１認識結果の重み付け係数よりも、大きい値に設定されてもよい。

代替的に、汎用学習モデル４３０を用いたＣＮＮ４１０ａによって十分な性能が発揮できると判断される場合には、特定学習モデル４４０を用いた第２認識結果の重み付け係数よりも、汎用学習モデル４３０を用いた第１認識結果の重み付け係数の方が、大きい値に設定されるように、重み付け係数を調整可能としてもよい。

例えば、特定学習モデル４４０を用いた第２認識結果の方が、必ずしも高精度であるとは限らない。一方、背景画像を使用せずに事前に生成された汎用学習モデル４３０を用いたＣＮＮ４１０ａの性能は、予め把握可能である。このため、重み付け係数を調整可能とすることにより、認識装置１が製品として一定度合の性能を予め担保できるという効果がある。

また、例えば、認識装置１が設置され、背景画像が生成された後で、試験的に、汎用学習モデル４３０を用いたＣＮＮ４１０ａによる第１認識処理の認識対象として背景画像を適用してもよい。このとき、誤識別が少なければ（つまり認識対象物が存在しないと認識すれば）、特定学習モデル４４０を用いた第２認識結果の重み付け係数よりも、汎用学習モデル４３０を用いた第１認識結果の重み付け係数の方が大きい値に設定されるように、重み付け係数を調整してもよい。

（認識処理動作の第３例）
図２３は、認識処理動作の第３例における認識部４０５の構成例を示すブロック図である。なお、認識処理動作の第３例は、認識部４０５の構成が、認識処理動作の第２例と一部異なるが、動作手順は、図２２に示される認識処理動作の第２例と同じである。図１、図２３等を参照して、認識処理動作の第３例が説明される。

図２３に示されるように、認識部４０５は、ＣＮＮ４１０ａと、識別部４１２ａと、統合処理部４５０と、を含む。すなわち、図２３の認識部４０５は、図２１に示される認識処理動作の第２例の認識部４０５に対して、ＣＮＮ４１０に代えて、識別部４１２ａを備える。識別部４１２ａは、図１９の特定学習モデル生成の第２例で用いられた識別部４１２ａである。

認識処理動作の第３例では、図２３に示されるように、認識部４０５は、認識対象画像３５０を、ＣＮＮ４１０ａの特徴抽出部４１１にのみ入力する。また、認識部４０５は、ＣＮＮ４１０ａの特徴抽出部４１１から出力される特徴マップを、ＣＮＮ４１０ａの識別部４１２だけでなく、識別部４１２ａにも入力する。また、認識部４０５は、識別部４１２ａの重み付け係数として、特定学習モデル４４０のモデルパラメータを設定する。

このように、認識処理動作の第３例では、図１９の特定学習モデル生成の第２例で用いられた識別部４１２ａを備え、特徴抽出部４１１を共用化することにより、認識部４０５の構成の簡素化を図ることができる。また、認識処理を効率的に、かつ高速に実行することができる。

（認識処理の変形形態）
上記実施形態では、認識対象物（具体的には人）が存在するか否かを認識する認識処理を行っているが、認識処理の種類は、これに限られない。

例えば、人物の姿勢を推定する姿勢推定を目的とした認識処理でもよい。姿勢推定の場合には、例えば、頭頂、首、左右の肩、左右の肘、左右の手首、腰、左右の膝、左右の足首等の関節の座標値が正解ラベルとされてもよい。そして、人物画像と背景画像とを合成した合成画像と、正解ラベルとを用いて、学習用データセットの正例データが作成されてもよい。

例えば、人物の行動を推定する行動推定を目的とした認識処理でもよい。この場合、直接、行動を推定してもよく、姿勢から行動を推定してもよい。行動推定の場合には、「立っている」、「座っている」、「歩いている」等が正解ラベルとされてもよい。そして、人物画像と背景画像とを合成した合成画像と、正解ラベルとを用いて、学習用データセットの正例データが作成されてもよい。

例えば、人物の属性を推定する属性推定を目的とした認識処理でもよい。人物の属性として、例えば性別であれば「男性」、「女性」というラベル、例えば年齢であれば「２０代」、「３０代」というラベル又は「大人」、「子供」というラベルが正解ラベルとされてもよい。そして、人物画像と背景画像とを合成した合成画像と、正解ラベルとを用いて、学習用データセットの正例データが作成されてもよい。

（構成の変形形態）
上記実施形態では、図１に示される構成で、認識装置１において学習モデルが生成されているが、これに限られない。例えば、認識装置１とネットワークで通信可能に接続された外部のサーバー装置が、学習モデルを生成してもよい。この場合には、認識装置１に代えてサーバー装置が、図１に示される画像合成部４０３、学習部４０４、対象物情報記憶部３０３を備えてもよい。

背景画像生成部４０２は、生成した背景画像を、制御部４０１を介してサーバー装置に送信してもよい。サーバー装置は、合成データを用いて学習を行うことにより生成した特定学習モデルを認識装置１に送信してもよい。認識装置１は、送信された特定学習モデルを学習モデル記憶部３０２に格納してもよい。このように、学習をサーバー装置で行うことにより、認識装置１のＣＰＵ４００の負荷を低減することができる。

（特定学習モデルの変形形態）
上記実施形態では、時間帯に関係なく１個の特定学習モデル４４０を用いているが、これに限られない。例えば、朝、昼、夜等のように、時間帯ごとに異なる特定学習モデルを適用してもよい。この場合、背景画像生成部４０２は、朝、昼、夜に背景画像をそれぞれ生成し、生成した背景画像を、それぞれ時間帯に対応付けて、背景画像記憶部３０４に格納してもよい。画像合成部４０３は、時間帯ごとに、合成データをそれぞれ生成してもよい。学習部４０４は、それぞれの合成データを用いて、時間帯ごとに特定学習モデルを生成して、それぞれ時間帯に対応付けて、学習モデル記憶部３０２に格納してもよい。認識部４０５は、ＣＰＵ４００のタイマー機能に基づき、使用する特定学習モデルを時間帯ごとに切り替えて、認識処理を実行してもよい。

背景画像の画素値は、太陽光等の入射度合いで、時間帯によって大きく変化する可能性がある。このため、時間帯に関係なく１個の特定学習モデルを用いると、時間帯によって認識精度が変化することもあり得る。これに対して、時間帯ごとに異なる特定学習モデルを適用すると、太陽光等による認識精度への影響を低減することが可能になる。

（その他）
本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更および／または改良することは容易に為し得ることであると認識すべきである。したがって、当業者が実施する変更形態または改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態または当該改良形態は、当該請求項の権利範囲に包括されると解釈される。

１認識装置
１００カメラ
３０１合成データ記憶部
３０２学習モデル記憶部
３０３対象物情報記憶部
３０４背景画像記憶部
４０２背景画像生成部
４０３画像合成部
４０４学習部
４０５認識部
４１０，４１０ａＣＮＮ
４１１特徴抽出部
４１２，４１２ａ識別部
４３０汎用学習モデル
４４０特定学習モデル
４５０統合処理部

Claims

認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像を生成する背景画像生成ステップと、
予め蓄積された前記認識対象物の画像を前記背景画像に重畳して合成画像を生成する合成画像生成ステップと、
前記合成画像から切り出された切出し画像と、前記切出し画像における前記認識対象物の有無情報とに基づき、学習用データセットを構築する構築ステップと、
前記学習用データセットを用いて前記認識処理の学習を行うことにより、前記背景画像に対応する特定学習モデルを生成する特定学習モデル生成ステップと、
を備える機械学習方法。
前記認識処理を行う場所の画像である認識対象画像に対して、前記特定学習モデルを用いて、前記認識処理を行う認識ステップ、
をさらに備える請求項１に記載の機械学習方法。
前記認識対象物を含む領域の画像を切り出した正例画像と、前記認識対象物を含まない領域の画像を切り出した負例画像と、を用いて、前記認識処理の学習を行うことにより、汎用学習モデルを生成する汎用学習モデル生成ステップ、をさらに備え、
前記特定学習モデル生成ステップは、前記汎用学習モデルのモデルパラメータを初期値として、前記特定学習モデルの生成を開始する、
請求項１に記載の機械学習方法。
前記認識処理を行う場所の画像である認識対象画像に対して、前記汎用学習モデルを用いて、前記認識処理を行う第１認識ステップと、
前記認識対象画像に対して、前記特定学習モデルを用いて、前記認識処理を行う第２認識ステップと、
前記第１認識ステップにおける認識結果と前記第２認識ステップにおける認識結果とを統合して、前記認識処理の最終認識結果を出力する統合ステップと、
をさらに備える請求項３に記載の機械学習方法。
前記特定学習モデル生成ステップより前に実行され、前記認識対象物を含む領域の画像を切り出した正例画像と、前記認識対象物を含まない領域の画像を切り出した負例画像と、を用いて、前記認識処理の学習を行うことにより、汎用学習モデルを生成する汎用学習モデル生成ステップ、をさらに備え、
前記汎用学習モデル生成ステップは、
前記正例画像又は前記負例画像に含まれる汎用入力画像から汎用特徴マップを抽出し、抽出された前記汎用特徴マップを用いて前記汎用入力画像に前記認識対象物が存在するか否かを識別した結果と前記汎用入力画像とに基づき、前記認識処理の学習を行うことにより、前記汎用学習モデルを生成し、
前記特定学習モデル生成ステップは、
前記汎用学習モデルを用いて前記学習用データセットに含まれる学習用入力画像から学習用特徴マップを抽出し、抽出された前記学習用特徴マップを用いて前記学習用入力画像に前記認識対象物が存在するか否かを識別した結果と、前記学習用入力画像とに基づき、前記認識処理の学習を行うことにより、前記特定学習モデルを生成する、
請求項１に記載の機械学習方法。
前記認識処理を行う場所の画像である認識対象画像に対して、前記汎用学習モデルを用いて、前記認識処理を行う第１認識ステップと、
前記認識対象画像に対して、前記特定学習モデルを用いて、前記認識処理を行う第２認識ステップと、
前記第１認識ステップにおける認識結果と前記第２認識ステップにおける認識結果とを統合して、前記認識処理の最終認識結果を出力する統合ステップと、をさらに備え、
前記第１認識ステップは、
前記汎用学習モデルを用いて前記認識対象画像から抽出された認識用特徴マップと、前記汎用学習モデルと、を用いて、前記認識対象画像に前記認識対象物が存在するか否かを識別し、
前記第２認識ステップは、前記認識用特徴マップと、前記特定学習モデルと、を用いて、前記認識対象画像に前記認識対象物が存在するか否かを識別する、
請求項５に記載の機械学習方法。
前記背景画像を保存する背景画像保存ステップと、
前記背景画像の保存後に、前記背景画像を再び生成する第２背景画像生成ステップと、
前記保存されている背景画像と前記再び生成された背景画像との背景画像の差分を算出する差分計算ステップと、をさらに備え、
前記背景画像の差分が予め定められた閾値を超える場合は、前記再び生成された背景画像を用いて、前記合成画像生成ステップと、前記構築ステップと、前記特定学習モデル生成ステップと、を再び実行する、
請求項１〜６のいずれか１項に記載の機械学習方法。
認識対象物が存在するか否かを認識する認識処理を行う場所の背景画像を生成する背景画像生成部と、
予め蓄積された前記認識対象物の画像を前記背景画像に重畳して合成画像を生成する合成画像生成部と、
前記合成画像から切り出された切出し画像と、前記切出し画像における前記認識対象物の有無情報とに基づき、学習用データセットを構築する構築部と、
前記学習用データセットを用いて前記認識処理の学習を行うことにより、前記背景画像に対応する特定学習モデルを生成する特定学習モデル生成部と、
を備える機械学習装置。