JP2022029125A

JP2022029125A - 分類ユニット、生成ユニット、データセット生成装置、フレーム画像分類方法、およびフレーム画像分類プログラム

Info

Publication number: JP2022029125A
Application number: JP2020132290A
Authority: JP
Inventors: 俊酒井; Shun Sakai; 佐和平井; Sawa Hirai
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2022-02-17

Abstract

【課題】アングルを自在に変化させられるように設置された移動カメラによって撮像されたフレーム画像を基にして、機械学習に用いるデータセットの生成が行える技術を提供する。【解決手段】画像入力部には、撮像装置によって撮像されたフレーム画像が入力される。分離処理部は、画像入力部に入力されたフレーム画像から選択した処理対象フレーム画像毎に、その処理対象フレーム画像に撮像されているオブジェクトを抽出し、抽出したオブジェクトにかかる前景画像と、抽出したオブジェクト以外の背景画像とに分離する。グループ処理部は、分離処理部によって分離された背景画像に基づいて、処理対象フレーム画像のグループ分けを行う。【選択図】図２

Description

この発明は、画像認識モデルの作成、評価にかかる機械学習で用いるデータセットを生成する技術に関し、特に教師付き学習用画像データからなるデータセットを生成する技術に関する。

従来、カメラ（撮像装置）によって撮像されたフレーム画像を処理し、このフレーム画像に撮像されている、人、車両、放置物等のオブジェクト（物体）を検出する画像認識モデルの作成、および作成した画像認識モデル評価を機械学習で行っている。この機械学習で用いるデータセットを自動的に生成する技術が提案されている（例えば、特許文献１、２参照）。

データセットは、大量の教師付き学習用画像データからなる。教師付き学習用画像データは、オブジェクトが撮像されている画像（学習用画像）と、その学習用画像上におけるオブジェクトの位置、このオブジェクトの種類等を示す正解ラベル（教師データ）と、を対応付けたものである。

特許文献１、２に記載された装置は、アングルが固定されたカメラ（以下、ここでは、固定カメラと言う。）によって撮像されたフレーム画像を、以下に示す手順で処理することによって、機械学習で用いる教師付き学習用画像データを生成している。
（１）複数のフレーム画像を用いて、オブジェクトが撮像されていない背景画像を生成する。
（２）フレーム画像毎に、撮像されているオブジェクトの画像を抽出する。
（３）（１）で生成した背景画像に、（２）で抽出したオブジェクトの画像を貼り付けた合成画像を生成する。ここで生成される合成画像が、学習用画像である。
（４）（３）でオブジェクトの画像を貼り付けた位置、このオブジェクトの種類等を示す正解ラベルを作成する。
（５）（３）で生成した学習用画像（合成画像）と、（４）で作成した正解ラベルとを対応付けた、教師付き学習用画像データを生成する。
背景画像に対するオブジェクトの画像の貼り付け位置を異ならせたり、背景画像に貼り付けるオブジェクトの画像を異ならせたりしながら、上記（３）～（５）の処理を繰り返すことによって、大量の教師付き学習用画像データ（すなわち、データセット）を生成できる。

特開２０１４－５９７２９号公報特開２０１９－１０１７４０号公報

しかしながら、特許文献１、２は、固定カメラによって撮像されたフレーム画像を基にしてデータセットを生成する構成を開示したものである。したがって、特許文献１、２に開示された構成では、アングルが自在に変化させられるように設置されたカメラ（以下、ここでは、固定カメラと対比させるために移動カメラと言う。）によって撮像されたフレーム画像を基にしてデータセットを生成することができない。

なお、ここで言う移動カメラは、例えば、直交する２つの軸を中心にして回動する雲台に取り付けられ、アングルがパン方向、およびチルト方向に変化させられるＰＴＺカメラである。撮像倍率Ｚは、移動カメラ本体の制御部によって調整される。

この発明の目的は、アングルを自在に変化させられるように設置された移動カメラによって撮像されたフレーム画像を基にして、機械学習で用いるデータセットの生成が行える技術を提供することにある。

この発明の分類ユニットは、上記目的を達成するため以下に示すように構成している。

画像入力部には、撮像装置によって撮像されたフレーム画像が入力される。分離処理部が、画像入力部に入力されたフレーム画像から選択した処理対象フレーム画像毎に、その処理対象フレーム画像に撮像されているオブジェクトを抽出し、抽出したオブジェクトにかかる前景画像と、抽出したオブジェクト以外の背景画像とに分離する。分離処理部は、撮像装置によって撮像されたフレーム画像を順番に処理対象フレーム画像として選択する構成であってもよいし、処理対象フレーム画像を所定フレーム数間隔で（例えば、２～５フレーム間隔で、）選択してもよいし、処理対象フレーム画像をランダムに選択してもよい。

グループ処理部は、分離処理部によって分離された背景画像に基づいて、処理対象フレーム画像のグループ分けを行う。例えば、グループ処理部は、分離処理部によって分離された背景画像の特徴量の類似度に基づき、背景画像が類似している処理対象フレーム画像を同じグループに分類する。背景画像は、撮像装置のアングルが近似しているフレーム画像間で類似する。したがって、処理対象フレーム画像は、グループ処理部によって、撮像装置のアングルに応じてグループ分けされる。これにより、グループ毎に、そのグループに属する処理対象フレーム画像は、アングルを固定して設置したカメラ（固定カメラ）によって撮像されたフレーム画像であるとみなすことができる。

また、グループ処理部は、処理対象フレーム画像を分類するグループに対して、背景画像の代表特徴量を設定し、背景画像の特徴量と代表特徴量との類似度が第１の閾値を超えるフレーム画像を同じグループに分類する構成にしてもよい。

この場合、グループ処理部は、グループ間における代表特徴量の類似度が第１の閾値よりも小さい第２の閾値を超えるグループを１つのグループに統合する構成にすれば、フレーム画像を分類するグループの総数を適正にできる。

撮像装置は、例えば、直交する２つの軸を中心にして、回動する雲台に取り付けられ、雲台の回動に応じて撮像方向が変化させられる。

また、この発明にかかる学習用画像データ生成ユニットは、分類ユニットが処理対象フレーム画像を分類したいずれかのグループを選択し、選択した対象グループに属する処理対象フレーム画像を基に、特定背景画像を生成する特定背景画像生成部と、特定背景画像生成部が生成した特定背景画像にオブジェクトにかかる画像を貼り付けた合成画像を生成する合成画像生成部と、合成画像に対し、この合成画像におけるオブジェクトにかかる画像の貼り付け位置、およびこのオブジェクトの種類を含む教師データを生成する教師データ生成部と、を備えている。

この構成によれば、アングルを変化させられるカメラによって撮像されたフレーム画像を用いて、機械学習に用いるデータセットの生成が簡単に行える。

例えば、合成画像生成部は、分類ユニットの分離部が対応するグループに分類された処理対象フレーム画像を処理して抽出したオブジェクトにかかる画像を加工して学習用背景画像に貼り付ける構成にしてもよい。

この発明によれば、アングルを自在に変化させられるように設置された移動カメラによって撮像されたフレーム画像を基にして、機械学習で用いるデータセットの生成が行える。

データセット生成装置の主要部の構成を示すブロック図である。分類ユニットの主要部の構成を示すブロック図である。図３（Ａ）は、処理対象フレーム画像を示す図であり、図３（Ｂ）は、検出したオブジェクト画像を示す図であり、図３（Ｃ）は、背景画像を示す図である。生成ユニットの主要部の構成を示すブロック図である。分類ユニットが実行する分離処理を示すフローチャートである。分類ユニットが実行する分類処理を示すフローチャートである。データセット生成処理を示すフローチャートである。

以下、この発明の実施形態について説明する。

＜１．適用例＞
図１は、この例にかかるデータセット生成装置の主要部の構成を示すブロック図である。この例にかかるデータセット生成装置１は、分類ユニット２、および生成ユニット３を備えている。また、データセット生成装置１は、フレーム画像データベース４（フレーム画像ＤＢ４）、背景画像データベース５（背景画像ＤＢ５）、前景画像データベース６（前景画像ＤＢ６）、グループデータベース７（グループＤＢ７）、およびデータセットデータベース８（データセットＤＢ８）を備えている。

この例では、撮像装置であるカメラ１０が、データセット生成装置１に接続されている。カメラ１０は、フレームレートが数十フレーム／ｓｅｃ（例えば、１０～３０フレーム／ｓｅｃ）であるビデオカメラである。カメラ１０は、撮像した動画像を接続されているデータセット生成装置１に出力する。

また、カメラ１０は、雲台１１に取り付けられている。雲台１１は、取り付けられているカメラ１０本体を直交する２つの軸を中心にして回動させる。カメラ１０は、雲台１１の回動に応じて、撮像方向（アングル）がパン方向、およびチルト方向に変化する。パン方向と、チルト方向とは直交する方向である。ＰＴＺ制御装置１５が、雲台１１の動きを制御し、カメラ１０のアングルを変化させる。また、ＰＴＺ制御装置１５は、カメラ１０に対して、撮像倍率（Ｚｏｏｍ）の指示も行える。

なお、この例では、カメラ１０が、データセット生成装置１に接続されている場合を例にしているが、カメラ１０が撮像した動画像をＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等の記録媒体に記録し、この記録媒体をデータセット生成装置１に接続する構成であってもよい。また、カメラ１０が撮像した動画像をクラウドサーバ等にアップロードし、データセット生成装置１がカメラ１０によってアップロードされた動画像をダウンロードする構成であってもよい。

分類ユニット２は、カメラ１０が撮像した動画像にかかるフレーム画像をフレーム画像ＤＢ４に記憶させる。フレーム画像ＤＢ４は、フレーム番号と、フレーム画像とを対応付けて記憶するデータベースである。フレーム番号は、フレーム画像を特定できるコードであればよく、例えばそのフレーム画像の撮像日時を示すコードをフレーム番号にしてもよいし、そのフレーム画像が撮像された順番を示すシリアル番号にしてもよいし、その他の手法で決定した番号にしてもよい。

分類ユニット２は、フレーム画像ＤＢ４に記憶されているフレーム画像の中から、処理対象フレーム画像を選択する。分類ユニット２は、カメラ１０によって撮像された動画像にかかるフレーム画像を撮像された順番に処理対象フレーム画像として選択する構成であってもよいし、所定フレーム数間隔で（例えば、２～５フレーム間隔で、）処理対象フレーム画像を選択する構成であってもよいし、処理対象フレーム画像をランダムに選択する構成であってもよい。

分類ユニット２は、選択した処理対象フレーム画像に撮像されている人、車両、放置物等のオブジェクト（物体）を抽出（検出）し、その処理対象フレーム画像を検出したオブジェクトにかかる前景画像と、オブジェクト以外の背景画像とに分離する。

分類ユニット２は、分離した処理対象フレーム画像の背景画像を背景画像ＤＢ５に記憶させるとともに、分離した処理対象フレーム画像の前景画像を前景画像ＤＢ６に記憶させる。背景画像ＤＢ５は、処理対象フレーム画像のフレーム番号と、この処理対象フレーム画像の背景画像と、を対応付けて記憶する。また、前景画像ＤＢ６は、処理対象フレーム画像のフレーム番号と、処理対象フレーム画像の前景画像と、この前景画像にかかるオブジェクトの種類と、処理対象フレーム画像上における前景画像の位置と、を対応付けて記憶する。

また、分類ユニット２は、処理対象フレーム画像をグループに分ける。分類ユニット２は、背景画像ＤＢ５に記憶している処理対象フレーム画像の背景画像を基にして、背景画像が類似しているフレーム画像を同じグループに分ける分類処理を行う。例えば、分類ユニット２は、背景画像の特徴量の類似度の大きさによって、処理対象フレーム画像のグループ分けを行う。

カメラ１０によって撮像されたフレーム画像間においては、カメラ１０のアングルの差が小さいほど（すなわち、カメラ１０のアングルが同じであるほど）、背景画像の特徴量の類似度が大きくなる。言い換えれば、カメラ１０によって撮像されたフレーム画像間においては、カメラ１０のアングルの差が大きいほど、背景画像の特徴量の類似度が小さくなる。

分類ユニット２は、カメラ１０のアングルの差がある程度の範囲内に収まる処理対象フレーム画像の集まりを１つにグループにする。すなわち、グループ毎に、そのグループに属する処理対象フレーム画像間においては、カメラ１０のアングルの差が比較的小さい。グループＤＢ７は、グループ毎に、そのグループに分類した処理対象フレーム画像のフレーム番号を登録したグループデータを記憶する。

なお、分類ユニット２は、処理対象フレーム画像の分類において、いずれのグループにも属さないと判断した処理対処フレーム画像があってもよいし、２つ以上のグループに属すると判断した処理対処フレーム画像があってもよい。すなわち、分類ユニット２は、処理対処フレーム画像を、必ず１つのグループに属するように分類するわけではない。

このように、分類ユニット２によって処理対象フレーム画像がグループに分類される。各グループは、カメラ１０のアングルの差がある程度の範囲内に収まっている処理対象フレーム画像の集まりである。すなわち、各グループは、固定カメラで撮像されたフレーム画像の集まりである、とみなすことができる。

生成ユニット３は、分類ユニット２が処理対象フレーム画像を分類したグループを順番に選択し、選択したグループ（以下、対象グループと言う。）に分類された処理対象フレーム画像を用いて、教師付き学習用画像データを生成する。生成ユニット３は、対象グループに属する複数の処理対象フレーム画像を用いて、そのグループの特定背景画像を生成する。例えば、生成ユニット３は、背景画像ＤＢ５に記憶されている対象グループに属する複数の処理対象フレーム画像の背景画像（分類ユニット２によって分離された背景画像）を基にして、前景画像である部分が存在しない背景画像を、特定背景画像として生成する。

生成ユニット３は、対象グループについて生成した特定背景画像に対して、この対象グループに属する処理対象フレーム画像から分離した前景画像（前景画像ＤＢ６に記憶している前景画像）を適当な位置に貼り付けた合成画像を生成する。このとき、生成ユニット３は、前景画像を貼り付け位置に応じて加工する。前景画像の加工は、例えば、拡大、縮小、縦横比（アスペクト比）の変更、回転である。

また、生成ユニット３は、この合成画像に対する教師データを生成する。教師データは、特定背景画像における前景画像の貼り付け位置、前景画像にかかるオブジェクトの種類等を示すデータである。生成ユニット３は、合成画像と教師データとを対応付けた教師付き学習用画像データを生成する。

このように、データセット生成装置１は、アングルをカメラ１０によって撮像されたフレーム画像を用いて、機械学習に用いるデータセットの生成が行える。特に、データセット生成装置１は、特定背景画像に対する前景画像の貼り付け位置を異ならせたり、学習用背景画像に貼り付ける前景画像を異ならせたりすることにより、大量の教師付き学習用画像データを生成することができる。したがって、データセット生成装置１は、大量の教師付き学習用画像データからなるデータセットの作成にかかる人手、および時間を大幅に抑制できる。

また、フレーム画像ＤＢ４、背景画像ＤＢ５、前景画像ＤＢ６、グループＤＢ７、およびデータセットＤＢ８は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等の記録媒体で構成すればよい。

＜２．構成例＞
図２は、分類ユニットの主要部の構成を示すブロック図である。この例の分類ユニット２は、制御部２１、および画像入力部２２を備えている。

制御部２１は、分離処理部２１ａ、およびグループ処理部２１ｂを有する。制御部２１は、分類ユニット２の動作を制御する。分離処理部２１ａ、およびグループ処理部２１ｂについては後述する。

画像入力部２２には、カメラ１０によって撮像された動画像が入力される。画像入力部２２に入力された動画像は、フレーム画像ＤＢ４に記憶される。画像入力部２２に入力される動画像のフレームレートは、数十フレーム／ｓｅｃ（例えば、１０～３０フレーム／ｓｅｃ）である。フレーム画像ＤＢ４には、上記したように、フレーム番号と、フレーム画像とが対応付けて記憶される。

なお、画像入力部２２に入力された動画像にかかる全てのフレーム画像を、フレーム画像ＤＢ４に記憶させなくてもよい。例えば、画像入力部２２に入力された動画像にかかるフレーム画像から、所定フレーム数間隔で（例えば、２～５フレーム間隔で、）抽出したフレーム画像をフレーム画像ＤＢ４に記憶させてもよい。このように構成すれば、フレーム画像ＤＢ４の記憶容量を抑えることができる。

次に、制御部２１が有する分離処理部２１ａ、およびグループ処理部２１ｂについて説明する。

分離処理部２１ａは、フレーム画像ＤＢ４に記憶されているフレーム画像の中から、処理対象フレーム画像を選択する。分離処理部２１ａは、フレーム画像ＤＢ４に記憶されているフレーム画像を撮像された順番に、１つずつ処理対象フレーム画像として選択する構成であってもよいし、所定フレーム数間隔で（例えば、２～５フレーム間隔で、）選択する構成であってもよいし、さらには、処理対象フレーム画像をランダムに選択する構成であってもよい。

分離処理部２１ａは、選択した処理対象フレーム画像に対して、撮像されているオブジェクト（人、車両、放置物等）を検出するオブジェクト検出処理を行う。このオブジェクト検出処理は、例えば公知のＭａｓｋＲ-ＣＮＮによる手法で処理対象フレーム画像に撮像されているオブジェクトを検出する。また、分離処理部２１ａは、公知のパターンマッチングによる手法で、処理対象フレーム画像に撮像されているオブジェクトを検出する構成であってもよい。また、分離処理部２１ａは、これら以外の手法で、処理対象フレーム画像に撮像されているオブジェクトを検出する構成であってもよい。

分離処理部２１ａは、処理対象フレーム画像を、検出したオブジェクトにかかる前景画像と、前景画像以外の背景画像に分離する。分離処理部２１ａは、処理対象フレーム画像のフレーム番号と、処理対象フレーム画像の前景画像と、この前景画像にかかるオブジェクトの種類と、処理対象フレーム画像上における前景画像（オブジェクト）の位置と、を対応付けて、前景画像ＤＢ６に記憶させる。分離処理部２１ａは、処理対象フレーム画像に撮像されているオブジェクトを複数検出した場合、検出したオブジェクト毎に、前景画像、オブジェクト種類、処理対象フレーム画像上における位置を前景画像ＤＢ６に記憶させる。

また、分離処理部２１ａは、処理対象フレーム画像のフレーム番号と、処理対象フレーム画像の背景画像とを対応づけて、背景画像ＤＢ５に記憶させる。

例えば、分離処理部２１ａは、図３（Ａ）に示すフレーム画像を処理対象フレーム画像として選択した場合、この処理対象フレーム画像に撮像されている車両１００をオブジェクトして検出する。分離処理部２１ａは、図３（Ｂ）に示す車両１００の画像を前景画像として前景画像ＤＢ６に記憶させるとともに、図３（Ｃ）に示す背景画像を背景画像ＤＢ５に記憶させる。背景画像は、図３（Ｃ）に示すように、前景画像（車両１００）が撮像されていた領域２００（図３（Ｃ）においてハッチングで示す領域２００）が欠落した画像である。

グループ処理部２１ｂは、背景画像ＤＢ５に記憶されている背景画像に基づいて、フレーム画像ＤＢ４に記憶されているフレーム画像をグループに分ける分類処理を行う。この例では、グループ処理部２１ｂは、背景画像ＤＢ５に記憶されている背景画像毎に、背景画像の特徴量を算出する。グループ処理部２１ｂは、背景画像の特徴量が類似しているフレーム画像をまとめた仮のグループに分ける。カメラ１０のアングルが略同じであるフレーム画像間では、背景画像の特徴量が類似する。

例えば、グループ処理部２１ｂは、背景画像の特徴量がある程度類似しているフレーム画像群を検出し、検出したフレーム画像群を１つのグループ（仮グループ）とする仮のグループ分けを行う。

グループ処理部２１ｂは、仮グループ毎に、その仮グループに対する背景画像の代表特徴量を決定する。この背景画像の代表特徴量は、仮グループに属するフレーム画像について算出した、背景画像の特徴量の中央値や平均値等にすればよい。また、グループ処理部２１ｂは、背景画像の代表特徴量の類似度がグループ間閾値を超えている仮グループがあれば、これらのグループを１つの仮グループに統合し、統合した仮グループに対する背景画像の代表特徴量を決定する。このグループ間閾値が、この発明で言う第２の閾値に相当する。

グループ処理部２１ｂは、仮グループ毎に、対応する本グループを生成する。グループ処理部２１ｂは、仮グループ毎に、その仮グループに属するフレーム画像について、背景画像の特徴量と、この仮グループの代表特徴量との類似度を算出し、ここで算出した類似度がグループ閾値を超えているフレーム画像を抽出する。グループ処理部２１ｂは、ここで抽出したフレーム画像からなるグループを、本グループにする。言い換えれば、本グループは、仮グループに属するフレーム画像の中から、代表特徴量との類似度がグループ閾値を超えていない特徴量である背景画像のフレーム画像を取り除いたものである。

したがって、グループ処理部２１ｂによってグループに分類された本グループに属するフレーム画像は、代表特徴量との類似度がグループ閾値を超えている。このグループ閾値が、この発明で言う第１の閾値に相当する。

グループＤＢ７は、グループ処理部２１ｂによって分類された本グループ毎に、その本グループに属するフレーム画像のフレーム番号を対応付けたグループデータを記憶する。

分類ユニット２の制御部２１は、ハードウェアＣＰＵ、メモリ、その他の電子回路によって構成されている。ハードウェアＣＰＵが、この発明にかかるフレーム画像分類プログラムを実行したときに、分離処理部２１ａ、およびグループ処理部２１ｂとして動作する。また、メモリは、この発明にかかるフレーム画像分類プログラムを展開する領域や、このフレーム画像分類プログラムの実行時に生じたデータ等を一時記憶する領域を有している。制御部２１は、ハードウェアＣＰＵ、メモリ等を一体化したＬＳＩであってもよい。また、ハードウェアＣＰＵが、この発明にかかるフレーム画像分類方法を実行するコンピュータである。

図４は、生成ユニットの主要部の構成を示すブロック図である。生成ユニット３は、背景画像生成部３１、合成画像生成部３２、および教師データ生成部３３を有している。

背景画像生成部３１は、分類ユニット２によってグループ分けされた本グループ毎に、特定背景画像を生成する。背景画像生成部３１が、この発明で言う特定背景画像生成部に相当する。背景画像生成部３１は、特定背景画像を生成する本グループを選択し、選択した本グループに属するフレーム画像であって、分類ユニット２によって分離された背景画像を複数フレーム用い、図３（Ｃ）に示した欠落した領域２００のない背景画像を生成する。

例えば、背景画像生成部３１は、あるフレーム画像を基準画像とし、この基準画像において欠落している領域２００を、他の１、または複数のフレーム画像に撮像されている当該領域２００の背景画像を用いて補完することにより、特定背景画像を生成する。例えば、選択した本グループに属するフレーム画像であって、背景画像の特徴量と、分類ユニット２において決定された背景画像の代表特徴量との類似度が最大であるフレーム画像を基準画像にすればよい。

合成画像生成部３２は、本グループ毎に、背景画像生成部３１が生成した特定背景画像に対して、その本グループに属するフレーム画像から分離された前景画像を貼り付けた合成画像を生成する。合成画像生成部３２は、前景画像を貼り付ける位置に応じて加工する。前景画像の加工は、拡大、縮小、アスペクト比の変更、回転等である。

教師データ生成部３３は、前景画像を貼り付けた合成画像について、貼り付けた前景画像にかかるオブジェクトの位置、種類、大きさ等を示す教師データを生成する。

生成ユニット３は、合成画像と教師データとを対応付けた教師付き学習用画像データをデータセットＤＢ８に記憶させる。

生成ユニット３は、ハードウェアＣＰＵ、メモリ、その他の電子回路によって構成されている。ハードウェアＣＰＵが、教師付き学習用画像データ生成プログラムを実行したときに、背景画像生成部３１、合成画像生成部３２、および教師データ生成部３３として動作する。また、メモリは、教師付き学習用画像データ生成プログラムを展開する領域や、この教師付き学習用画像データ生成プログラムの実行時に生じたデータ等を一時記憶する領域を有している。制御部２１は、ハードウェアＣＰＵ、メモリ等を一体化したＬＳＩであってもよい。

なお、データセット生成装置１は、１つのハードウェアＣＰＵが、分類ユニット２および生成ユニット３として動作する構成であってもよい。

＜３．動作例＞
まず、分類ユニット２の動作について説明する。分類ユニット２は、フレーム画像記憶処理、分離処理、および分類処理を実行する。

フレーム画像記憶処理は、画像入力部２２に入力された動画像にかかるフレーム画像をフレーム画像ＤＢ４に記憶させる処理である。フレーム画像ＤＢ４は、フレーム番号と、フレーム画像とを対応付けて記憶する。

図５は、分類ユニットが実行する分離処理を示すフローチャートである。分類ユニット２は、フレーム画像記憶処理でフレーム画像ＤＢ４に記憶させたフレーム画像を、前景画像と、前景画像以外の背景画像とに分離する処理である。分離処理部２１ａが、この分離処理を実行する。

分離処理部２１ａは、フレーム画像ＤＢ４に記憶されているフレーム画像の中から、処理対象フレーム画像を選択する（ｓ１）。分離処理部２１ａは、カメラ１０によって撮像された動画像にかかるフレーム画像を撮像された順番に処理対象フレーム画像として選択してもよいし、所定フレーム数間隔で（例えば、２～５フレーム間隔で、）処理対象フレーム画像を選択してもよいし、処理対象フレーム画像をランダムに選択してもよい。

分離処理部２１ａは、ｓ１で選択した処理対象フレーム画像に対して、撮像されているオブジェクトを抽出（検出）するオブジェクト検出処理を行う（ｓ２）。ｓ２のオブジェクト検出処理は、例えば公知のＭａｓｋＲ-ＣＮＮによる手法で処理対象フレーム画像に撮像されているオブジェクトを検出する処理であってもよいし、公知のパターンマッチングによる手法で、処理対象フレーム画像に撮像されているオブジェクトを検出する処理であってもよいし、これら以外の手法で、処理対象フレーム画像に撮像されているオブジェクトを検出する処理であってもよい。

分離処理部２１ａは、ｓ２で検出したオブジェクトにかかる前景画像を前景画像ＤＢ６に記憶させる（ｓ３）。ｓ３では、処理対象フレーム画像のフレーム番号、検出したオブジェクトにかかる前景画像、オブジェクト種類、処理対象フレーム画像上におけるオブジェクトの位置を対応付けて前景画像ＤＢ６に記憶させる。

また、分離処理部２１ａは、ｓ２で検出した前景画像の領域が欠落した背景画像を、背景画像ＤＢ５に記憶させる（ｓ４）。ｓ４では、処理対象フレーム画像のフレーム番号と、この処理対象フレーム画像の背景画像と、を対応付けて背景画像ＤＢ５に記憶させる。

なお、分離処理部２１ａは、ｓ３、ｓ４にかかる処理を、上記とは逆の順番で行ってもよいし、並行して行ってもよい。

分離処理部２１ａは、未処理のフレーム対象画像の有無を判定し（ｓ５）、未処理のフレーム対象画像があれば、ｓ１に戻って、上記処理を繰り返す。また、分離処理部２１ａは、ｓ５で未処理のフレーム画像が無いと判定すると、本処理を終了する。

分離処理部２１ａが、この図５に示した分離処理を実行することにより、フレーム画像ＤＢ４に記憶されているフレーム画像の中から選択した処理対象フレーム画像毎に、その処理対象フレーム画像の背景画像が背景画像ＤＢ５に記憶されるとともに、選択された処理対象フレーム画像の前景画像が前景画像ＤＢ６に記憶される。

次に、分類処理について説明する。図６は、分類ユニットが実行する分類処理を示すフローチャートである。グループ処理部２１ｂが、この分類処理を実行する。

グループ処理部２１ｂは、背景画像ＤＢ５に記憶されている背景画像を順番に選択し、選択した背景画像の特徴量を算出する（ｓ１１～ｓ１３）。グループ処理部２１ｂは、背景画像ＤＢ５に記憶されている背景画像について特徴量の分布を検出する（ｓ１４）。ｓ１４で検出する特徴量の分布は、例えば、背景画像の特徴量とフレーム数との関係を示す分布である。

グループ処理部２１ｂは、ｓ１４で検出した特徴量の分布に基づき、背景画像ＤＢ５に記憶されている背景画像を仮グループに分類する（ｓ１５）。ｓ１５では、ｓ１４で検出した特徴量の分布から、特徴量がある程度類似しており、且つ所定フレーム数を超えている背景画像群を抽出し、抽出した背景画像群を１つの仮グループにする。ｓ１５で抽出される背景画像群（仮グループ）は、１つ以上である。

なお、背景画像ＤＢ５に記憶されている背景画像の中には、ｓ１５で抽出された背景画像群のいずれにも属さない背景画像があってもよいし、２つ以上の仮グループに属する背景画像があってもよい。

グループ処理部２１ｂは、ｓ１５で分類した仮グループ毎に、その仮グループにおける背景画像の代表特徴量を算出する（ｓ１６）。この仮グループにおける背景画像の代表特徴量は、当該仮グループに属する背景画像群について算出した、背景画像の特徴量の中央値や平均値等にすればよい。

また、グループ処理部２１ｂは、仮グループ毎に、ｓ１６で算出した背景画像の代表特徴量を基にして、１つに統合すべき仮グループの有無を判定し（ｓ１７）、１つに統合すべき仮グループがあれば、これらの仮グループを統合する（ｓ１８）。ｓ１７では、ｓ１６で算出した背景画像の代表特徴量の類似度が、予め定めたグループ間閾値（この発明で言う第２の閾値）超えている仮グループがあれば、これらのグループを１つに統合すべき仮グループであると判定する。グループ処理部２１ｂは、ｓ１８で統合した仮グループについて、背景画像の代表特徴量を算出し（ｓ１９）、ｓ１７に戻る。ｓ１９では、ｓ１６と同様の手法で、統合した仮グループについて、背景画像の代表特徴量を算出する。

グループ処理部２１ｂは、ｓ１７～ｓ１９の処理を繰り返すことによって、背景画像の特徴量がある程度類似している背景画像群を１つの仮グループに分類することができる。同じ仮グループに属している背景画像間においては、特徴量がある程度類似している。

グループ処理部２１ｂは、ｓ１７で統合する仮グループがないと判定すると、仮グループ毎に、その仮グループに対応する本グループを形成することにより、背景画像ＤＢ５に記憶されている背景画像を本グループに分類する（ｓ２０）。ｓ２０では、仮グループ毎に、その仮グループに属する背景画像について代表特徴量との類似度がグループ閾値（この発明で言う第１の閾値）を超えている背景画像を抽出し、ここで抽出した背景画像群を１つの本グループにする。グループ閾値は、グループ間閾値よりも大きい。

上記の説明から明らかなように、本グループは、対応する仮グループに属する背景画像を絞り込んだグループである。同じ本グループに属する背景画像の特徴量は、そのグループの代表特徴量との類似度が大きい。したがって、同じ本グループに属する背景画像間においても、特徴量の類似度が大きい。

カメラ１０のアングルが略同じであるフレーム画像間では、背景画像の特徴量が類似する。したがって、同じ本グループに背景画像が属するフレーム画像は、カメラ１０が略同じアングルで撮像したフレーム画像である。すなわち、グループ処理部２１ｂは、カメラ１０が撮像した動画像のフレーム画像を、撮像時におけるカメラ１０のアングルで分類した本グループに分類することができる。

グループ処理部２１ｂは、分類した本グループ毎に、その本グループに属する各フレーム画像のフレーム番号を対応付けたグループデータをグループＤＢ７に記憶させ（ｓ２１）、本処理を終了する。

次に、生成ユニット３が、機械学習で用いるデータセットを生成する処理について説明する。データセットは、大量の教師付き学習用画像データからなる。上記したように、分類ユニット２が、撮像時におけるカメラ１０のアングルよって、フレーム画像ＤＢ４に記憶されているフレーム画像をグループに分類している。背景画像ＤＢ５には、処理対象フレーム画像として選択したフレーム画像毎に、そのフレーム画像から前景画像を取り除いた背景画像が記憶されている。また、前景画像ＤＢ６には、処理対象フレーム画像として選択したフレーム画像毎に、そのフレーム画像に撮像されていたオブジェクトにかかる前景画像が記憶されている。グループＤＢ７には、分類ユニット２によって分類された本グループ毎に、その本グループに属するフレーム画像を対応付けたグループデータが記憶されている。

図７は、生成ユニットにおけるデータセット生成処理を示すフローチャートである。

生成ユニット３は、分類ユニット２によって分類された本グループの中から、対象グループを選択する（ｓ３１）。生成ユニット３は、ｓ３１で選択した対象グループについて、特定背景画像を生成する（ｓ３２）。ｓ３２では、背景画像ＤＢ５に記憶されている、今回選択した対象グループに属する複数の背景画像を用いて、欠落した領域２００が無い背景画像を生成する。

例えば、生成ユニット３は、特徴量が、今回選択した対象グループの代表値と最も類似している背景画像を基準背景画像にする。生成ユニット３は、この基準背景画像と同じグループに属し、且つこの基準背景画像において欠落している領域２００（この基準背景画像にかかるフレーム画像において、オブジェクト（例えば、車両１００）が撮像されていた領域）が撮像されている１または複数の背景画像（以下、補完用背景画像と言う。）を抽出する。生成ユニット３は、抽出した補完用背景画像を用いて、基準背景画像において欠落している領域２００の背景画像を生成する。生成ユニット３は、ここで生成した基準背景画像において欠落している領域２００の背景画像を、基準背景画像の該当する領域２００に合成した画像を、今回選択した対象グループの特定背景画像として生成する。背景画像生成部３１が、このｓ３２にかかる処理を実行する。

生成ユニット３は、ｓ３２で生成した特定背景画像を用いて、学習用画像を生成する（ｓ３３）。生成ユニット３は、ｓ３２で生成した特定背景画像にオブジェクトにかかる前景画像を貼り付けた画像を、学習用画像として生成する。ｓ３２で生成した特定背景画像に貼り付ける前景画像は、前景画像ＤＢ６に記憶されている前景画像であって、今回選択した対象グループに属するフレーム画像から分離した前景画像である。ｓ３２で生成した特定背景画像に対して前景画像を貼り付ける位置は、ランダムに設定される。また、ｓ３２で生成した特定背景画像に対して貼り付ける前景画像も、ランダムに決定される。また、ｓ３２で生成した特定背景画像に対して貼り付ける前景画像は、１つであるとは限らない。

また、生成ユニット３は、ｓ３２で生成した特定背景画像に対して前景画像を貼り付けるとき、この前景画像が撮像されていたフレーム画像上の位置と、この前景画像を貼り付けるｓ３２で生成した特定背景画像上の位置とに基づいて、この前景画像を加工する。前景画像の加工は、例えば、拡大、縮小、縦横比（アスペクト比）の変更、回転である。合成画像生成部３２が、このｓ３３にかかる処理を実行する。

また、生成ユニット３は、ｓ３３で生成した学習用画像の教師データを生成する（ｓ３４）。教師データ生成部３３が、このｓ３４にかかる処理を実行する。教師データは、ｓ３３で生成した学習用画像上におけるオブジェクトの位置（ｓ３２で生成した特定背景画像に対して前景画像を貼り付けた位置）、このオブジェクトの種類等を示すデータである。

生成ユニット３は、ｓ３３で生成した学習用画像と、ｓ３４で生成した教師データとを対応付けた教師付き学習用画像データをデータセットＤＢ８に登録する（ｓ３５）。ｓ３５では、生成ユニット３は、今回選択した対象グループの教師付き学習用画像データとして、データセットＤＢ８に登録する。生成ユニット３は、データセットＤＢ８に登録した教師付き学習用画像データが必要フレーム数に達したかどうかを判定し（ｓ３６）、必要フレーム数に達していなければ、ｓ３３に戻って、上記した処理を繰り返す。必要フレーム数は、予め設定されている。

また、生成ユニット３は、ｓ３６で、データセットＤＢ８に登録した教師付き学習用画像データが必要フレーム数に達したと判定すると、未処理のグループがあるかどうかを判定する（ｓ３７）。生成ユニット３は、ｓ３７で未処理のグループがあると判定すると、ｓ３１に戻って、上記した処理を繰り返す。また、生成ユニット３は、ｓ３７で未処理のグループが無いと判定すると、本処理を終了する。

このように、データセット生成装置１は、アングルを自在に変化させられるように設置されたカメラ１０によって撮像されたフレーム画像を基にして、機械学習で用いるデータセットの生成が行える。

また、データセット生成装置１は、カメラ１０のアングルによって分類された本グループ毎に、機械学習で用いるデータセットを生成する。したがって、データセット生成装置１は、カメラ１０のアングル別に機械学習が行えるデータセットを生成できる。

＜４．変形例＞
グループ処理部２１ｂにおける背景画像のグループ分けは、上記した手法に限らず、他の手法で行ってもよい。

例えば、ＰＴＺ制御装置１５からカメラ１０を取り付けた雲台１１のパン方向の角度、およびチルト方向の角度を取得できる構成であれば、雲台１１のパン方向の角度、およびチルト方向の角度に基づいて、カメラ１０によって撮像された動画像にかかるフレーム画像をグループに分類してもよい。

また、ランダムに選択したフレーム画像を代表画像とし、その代表画像の背景画像の特徴量を、代表特徴量にする。そして、代表特徴量との類似度が、上記したグループ閾値を超えている背景画像にかかるフレーム画像を抽出し、ここで抽出したフレーム画像が所定フレーム数以上であれば、これらのフレーム画像（ランダムに選択したフレーム画像を含む）を１つのグループとして分類する。

また、代表画像の選択を、繰り返すことによって、カメラ１０によって撮像されたフレーム画像を、カメラ１０のアングルに応じた複数のグループに分類することができる。

また、図５に示した分離処理、図６に示した分類処理、および図７に示したデータセット生成処理における各処理ステップの順番は、一例であり、適宜、その順番を入れ替えてもよい。

なお、この発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

さらに、この発明に係る構成と上述した実施形態に係る構成との対応関係は、以下の付記のように記載できる。
＜付記＞
撮像装置（１０）によって撮像されたフレーム画像が入力される画像入力部（２２）と、
前記画像入力部（２２）に入力されたフレーム画像から選択した処理対象フレーム画像毎に、その処理対象フレーム画像に撮像されているオブジェクトを抽出し、抽出したオブジェクトにかかる前景画像と、抽出したオブジェクト以外の背景画像とに分離する分離処理部（２１ａ）と、
前記分離処理部（２１ａ）によって分離された背景画像に基づいて、処理対象フレーム画像のグループ分けを行うグループ処理部（２１ｂ）と、を備えた分類ユニット（２）。

１…データセット生成装置
２…分類ユニット
３…生成ユニット
４…フレーム画像データベース（フレーム画像ＤＢ）
５…背景画像データベース（背景画像ＤＢ）
６…前景画像データベース（前景画像ＤＢ）
７…グループデータベース（グループＤＢ）
８…データセットデータベース（データセットＤＢ）
１０…カメラ
１１…雲台
１５…ＰＴＺ制御装置
２１…制御部
２１ａ…分離処理部
２１ｂ…グループ処理部
２２…画像入力部
３１…背景画像生成部
３２…合成画像生成部
３３…教師データ生成部

Claims

撮像装置によって撮像されたフレーム画像が入力される画像入力部と、
前記画像入力部に入力されたフレーム画像から選択した処理対象フレーム画像毎に、その処理対象フレーム画像に撮像されているオブジェクトを抽出し、抽出したオブジェクトにかかる前景画像と、抽出したオブジェクト以外の背景画像とに分離する分離処理部と、
前記分離処理部によって分離された背景画像に基づいて、処理対象フレーム画像のグループ分けを行うグループ処理部と、を備えた分類ユニット。
前記グループ処理部は、前記分離処理部によって分離された背景画像の特徴量の類似度に基づいて、処理対象フレーム画像のグループ分けを行う、請求項１に記載の分類ユニット。
前記グループ処理部は、処理対象フレーム画像を分類するグループに対して、背景画像の代表特徴量を設定し、背景画像の特徴量と前記代表特徴量との類似度が第１の閾値を超えるフレーム画像を同じグループに分類する、請求項１、または２に記載の分類ユニット。
前記グループ処理部は、グループ間における前記代表特徴量の類似度が前記第１の閾値よりも小さい第２の閾値を超えるグループを１つのグループに統合する、請求項３に記載の分類ユニット。
前記撮像装置は、直交する２つの軸を中心にして、回動する雲台に取り付けられ、前記雲台の回動に応じて撮像方向が変化する、請求項１、または２に記載の分類ユニット。
請求項１～５のいずれかに記載の分類ユニットが処理対象フレーム画像を分類したいずれかのグループを選択し、選択した対象グループに属する処理対象フレーム画像を基に、特定背景画像を生成する特定背景画像生成部と、
前記特定背景画像生成部が生成した前記特定背景画像にオブジェクトにかかる画像を貼り付けた合成画像を生成する合成画像生成部と、
前記合成画像に対し、この合成画像におけるオブジェクトにかかる画像の貼り付け位置、およびこのオブジェクトの種類を含む教師データを生成する教師データ生成部と、を備えた生成ユニット。
前記合成画像生成部は、前記分類ユニットの前記分離部が対応するグループに属性する処理対象フレーム画像を処理して抽出したオブジェクトにかかる前景画像を加工して前記学習用背景画像に貼り付ける、請求項６に記載の生成ユニット。
請求項１～５のいずれかに記載の分類ユニットと、
請求項６、または７に記載の生成ユニットと、を備えるデータセット生成装置。
撮像装置によって撮像され、画像入力部に入力されたフレーム画像から選択した処理対象フレーム画像毎に、その処理対象フレーム画像に撮像されているオブジェクトを抽出し、抽出したオブジェクトにかかる前景画像と、抽出したオブジェクト以外の背景画像とに分離する分離処理ステップと、
前記分離処理ステップで分離した背景画像に基づいて、処理対象フレーム画像のグループ分けを行うグループ処理ステップと、をコンピュータが実行するフレーム画像分類方法。
撮像装置によって撮像され、画像入力部に入力されたフレーム画像から選択した処理対象フレーム画像毎に、その処理対象フレーム画像に撮像されているオブジェクトを抽出し、抽出したオブジェクトにかかる前景画像と、抽出したオブジェクト以外の背景画像とに分離する分離処理ステップと、
前記分離処理ステップで分離した背景画像に基づいて、処理対象フレーム画像のグループ分けを行うグループ処理ステップと、をコンピュータに実行させるフレーム画像分類プログラム。