JP2022029125A - 分類ユニット、生成ユニット、データセット生成装置、フレーム画像分類方法、およびフレーム画像分類プログラム - Google Patents

分類ユニット、生成ユニット、データセット生成装置、フレーム画像分類方法、およびフレーム画像分類プログラム Download PDF

Info

Publication number
JP2022029125A
JP2022029125A JP2020132290A JP2020132290A JP2022029125A JP 2022029125 A JP2022029125 A JP 2022029125A JP 2020132290 A JP2020132290 A JP 2020132290A JP 2020132290 A JP2020132290 A JP 2020132290A JP 2022029125 A JP2022029125 A JP 2022029125A
Authority
JP
Japan
Prior art keywords
image
group
frame
unit
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020132290A
Other languages
English (en)
Inventor
俊 酒井
Shun Sakai
佐和 平井
Sawa Hirai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2020132290A priority Critical patent/JP2022029125A/ja
Publication of JP2022029125A publication Critical patent/JP2022029125A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】アングルを自在に変化させられるように設置された移動カメラによって撮像されたフレーム画像を基にして、機械学習に用いるデータセットの生成が行える技術を提供する。【解決手段】画像入力部には、撮像装置によって撮像されたフレーム画像が入力される。分離処理部は、画像入力部に入力されたフレーム画像から選択した処理対象フレーム画像毎に、その処理対象フレーム画像に撮像されているオブジェクトを抽出し、抽出したオブジェクトにかかる前景画像と、抽出したオブジェクト以外の背景画像とに分離する。グループ処理部は、分離処理部によって分離された背景画像に基づいて、処理対象フレーム画像のグループ分けを行う。【選択図】図2

Description

この発明は、画像認識モデルの作成、評価にかかる機械学習で用いるデータセットを生成する技術に関し、特に教師付き学習用画像データからなるデータセットを生成する技術に関する。
従来、カメラ(撮像装置)によって撮像されたフレーム画像を処理し、このフレーム画像に撮像されている、人、車両、放置物等のオブジェクト(物体)を検出する画像認識モデルの作成、および作成した画像認識モデル評価を機械学習で行っている。この機械学習で用いるデータセットを自動的に生成する技術が提案されている(例えば、特許文献1、2参照)。
データセットは、大量の教師付き学習用画像データからなる。教師付き学習用画像データは、オブジェクトが撮像されている画像(学習用画像)と、その学習用画像上におけるオブジェクトの位置、このオブジェクトの種類等を示す正解ラベル(教師データ)と、を対応付けたものである。
特許文献1、2に記載された装置は、アングルが固定されたカメラ(以下、ここでは、固定カメラと言う。)によって撮像されたフレーム画像を、以下に示す手順で処理することによって、機械学習で用いる教師付き学習用画像データを生成している。
(1)複数のフレーム画像を用いて、オブジェクトが撮像されていない背景画像を生成する。
(2)フレーム画像毎に、撮像されているオブジェクトの画像を抽出する。
(3)(1)で生成した背景画像に、(2)で抽出したオブジェクトの画像を貼り付けた合成画像を生成する。ここで生成される合成画像が、学習用画像である。
(4)(3)でオブジェクトの画像を貼り付けた位置、このオブジェクトの種類等を示す正解ラベルを作成する。
(5)(3)で生成した学習用画像(合成画像)と、(4)で作成した正解ラベルとを対応付けた、教師付き学習用画像データを生成する。
背景画像に対するオブジェクトの画像の貼り付け位置を異ならせたり、背景画像に貼り付けるオブジェクトの画像を異ならせたりしながら、上記(3)~(5)の処理を繰り返すことによって、大量の教師付き学習用画像データ(すなわち、データセット)を生成できる。
特開2014- 59729号公報 特開2019-101740号公報
しかしながら、特許文献1、2は、固定カメラによって撮像されたフレーム画像を基にしてデータセットを生成する構成を開示したものである。したがって、特許文献1、2に開示された構成では、アングルが自在に変化させられるように設置されたカメラ(以下、ここでは、固定カメラと対比させるために移動カメラと言う。)によって撮像されたフレーム画像を基にしてデータセットを生成することができない。
なお、ここで言う移動カメラは、例えば、直交する2つの軸を中心にして回動する雲台に取り付けられ、アングルがパン方向、およびチルト方向に変化させられるPTZカメラである。撮像倍率Zは、移動カメラ本体の制御部によって調整される。
この発明の目的は、アングルを自在に変化させられるように設置された移動カメラによって撮像されたフレーム画像を基にして、機械学習で用いるデータセットの生成が行える技術を提供することにある。
この発明の分類ユニットは、上記目的を達成するため以下に示すように構成している。
画像入力部には、撮像装置によって撮像されたフレーム画像が入力される。分離処理部が、画像入力部に入力されたフレーム画像から選択した処理対象フレーム画像毎に、その処理対象フレーム画像に撮像されているオブジェクトを抽出し、抽出したオブジェクトにかかる前景画像と、抽出したオブジェクト以外の背景画像とに分離する。分離処理部は、撮像装置によって撮像されたフレーム画像を順番に処理対象フレーム画像として選択する構成であってもよいし、処理対象フレーム画像を所定フレーム数間隔で(例えば、2~5フレーム間隔で、)選択してもよいし、処理対象フレーム画像をランダムに選択してもよい。
グループ処理部は、分離処理部によって分離された背景画像に基づいて、処理対象フレーム画像のグループ分けを行う。例えば、グループ処理部は、分離処理部によって分離された背景画像の特徴量の類似度に基づき、背景画像が類似している処理対象フレーム画像を同じグループに分類する。背景画像は、撮像装置のアングルが近似しているフレーム画像間で類似する。したがって、処理対象フレーム画像は、グループ処理部によって、撮像装置のアングルに応じてグループ分けされる。これにより、グループ毎に、そのグループに属する処理対象フレーム画像は、アングルを固定して設置したカメラ(固定カメラ)によって撮像されたフレーム画像であるとみなすことができる。
また、グループ処理部は、処理対象フレーム画像を分類するグループに対して、背景画像の代表特徴量を設定し、背景画像の特徴量と代表特徴量との類似度が第1の閾値を超えるフレーム画像を同じグループに分類する構成にしてもよい。
この場合、グループ処理部は、グループ間における代表特徴量の類似度が第1の閾値よりも小さい第2の閾値を超えるグループを1つのグループに統合する構成にすれば、フレーム画像を分類するグループの総数を適正にできる。
撮像装置は、例えば、直交する2つの軸を中心にして、回動する雲台に取り付けられ、雲台の回動に応じて撮像方向が変化させられる。
また、この発明にかかる学習用画像データ生成ユニットは、分類ユニットが処理対象フレーム画像を分類したいずれかのグループを選択し、選択した対象グループに属する処理対象フレーム画像を基に、特定背景画像を生成する特定背景画像生成部と、特定背景画像生成部が生成した特定背景画像にオブジェクトにかかる画像を貼り付けた合成画像を生成する合成画像生成部と、合成画像に対し、この合成画像におけるオブジェクトにかかる画像の貼り付け位置、およびこのオブジェクトの種類を含む教師データを生成する教師データ生成部と、を備えている。
この構成によれば、アングルを変化させられるカメラによって撮像されたフレーム画像を用いて、機械学習に用いるデータセットの生成が簡単に行える。
例えば、合成画像生成部は、分類ユニットの分離部が対応するグループに分類された処理対象フレーム画像を処理して抽出したオブジェクトにかかる画像を加工して学習用背景画像に貼り付ける構成にしてもよい。
この発明によれば、アングルを自在に変化させられるように設置された移動カメラによって撮像されたフレーム画像を基にして、機械学習で用いるデータセットの生成が行える。
データセット生成装置の主要部の構成を示すブロック図である。 分類ユニットの主要部の構成を示すブロック図である。 図3(A)は、処理対象フレーム画像を示す図であり、図3(B)は、検出したオブジェクト画像を示す図であり、図3(C)は、背景画像を示す図である。 生成ユニットの主要部の構成を示すブロック図である。 分類ユニットが実行する分離処理を示すフローチャートである。 分類ユニットが実行する分類処理を示すフローチャートである。 データセット生成処理を示すフローチャートである。
以下、この発明の実施形態について説明する。
<1.適用例>
図1は、この例にかかるデータセット生成装置の主要部の構成を示すブロック図である。この例にかかるデータセット生成装置1は、分類ユニット2、および生成ユニット3を備えている。また、データセット生成装置1は、フレーム画像データベース4(フレーム画像DB4)、背景画像データベース5(背景画像DB5)、前景画像データベース6(前景画像DB6)、グループデータベース7(グループDB7)、およびデータセットデータベース8(データセットDB8)を備えている。
この例では、撮像装置であるカメラ10が、データセット生成装置1に接続されている。カメラ10は、フレームレートが数十フレーム/sec(例えば、10~30フレーム/sec)であるビデオカメラである。カメラ10は、撮像した動画像を接続されているデータセット生成装置1に出力する。
また、カメラ10は、雲台11に取り付けられている。雲台11は、取り付けられているカメラ10本体を直交する2つの軸を中心にして回動させる。カメラ10は、雲台11の回動に応じて、撮像方向(アングル)がパン方向、およびチルト方向に変化する。パン方向と、チルト方向とは直交する方向である。PTZ制御装置15が、雲台11の動きを制御し、カメラ10のアングルを変化させる。また、PTZ制御装置15は、カメラ10に対して、撮像倍率(Zoom)の指示も行える。
なお、この例では、カメラ10が、データセット生成装置1に接続されている場合を例にしているが、カメラ10が撮像した動画像をHDD(Hard Disk Drive)、SSD(Solid State Drive)等の記録媒体に記録し、この記録媒体をデータセット生成装置1に接続する構成であってもよい。また、カメラ10が撮像した動画像をクラウドサーバ等にアップロードし、データセット生成装置1がカメラ10によってアップロードされた動画像をダウンロードする構成であってもよい。
分類ユニット2は、カメラ10が撮像した動画像にかかるフレーム画像をフレーム画像DB4に記憶させる。フレーム画像DB4は、フレーム番号と、フレーム画像とを対応付けて記憶するデータベースである。フレーム番号は、フレーム画像を特定できるコードであればよく、例えばそのフレーム画像の撮像日時を示すコードをフレーム番号にしてもよいし、そのフレーム画像が撮像された順番を示すシリアル番号にしてもよいし、その他の手法で決定した番号にしてもよい。
分類ユニット2は、フレーム画像DB4に記憶されているフレーム画像の中から、処理対象フレーム画像を選択する。分類ユニット2は、カメラ10によって撮像された動画像にかかるフレーム画像を撮像された順番に処理対象フレーム画像として選択する構成であってもよいし、所定フレーム数間隔で(例えば、2~5フレーム間隔で、)処理対象フレーム画像を選択する構成であってもよいし、処理対象フレーム画像をランダムに選択する構成であってもよい。
分類ユニット2は、選択した処理対象フレーム画像に撮像されている人、車両、放置物等のオブジェクト(物体)を抽出(検出)し、その処理対象フレーム画像を検出したオブジェクトにかかる前景画像と、オブジェクト以外の背景画像とに分離する。
分類ユニット2は、分離した処理対象フレーム画像の背景画像を背景画像DB5に記憶させるとともに、分離した処理対象フレーム画像の前景画像を前景画像DB6に記憶させる。背景画像DB5は、処理対象フレーム画像のフレーム番号と、この処理対象フレーム画像の背景画像と、を対応付けて記憶する。また、前景画像DB6は、処理対象フレーム画像のフレーム番号と、処理対象フレーム画像の前景画像と、この前景画像にかかるオブジェクトの種類と、処理対象フレーム画像上における前景画像の位置と、を対応付けて記憶する。
また、分類ユニット2は、処理対象フレーム画像をグループに分ける。分類ユニット2は、背景画像DB5に記憶している処理対象フレーム画像の背景画像を基にして、背景画像が類似しているフレーム画像を同じグループに分ける分類処理を行う。例えば、分類ユニット2は、背景画像の特徴量の類似度の大きさによって、処理対象フレーム画像のグループ分けを行う。
カメラ10によって撮像されたフレーム画像間においては、カメラ10のアングルの差が小さいほど(すなわち、カメラ10のアングルが同じであるほど)、背景画像の特徴量の類似度が大きくなる。言い換えれば、カメラ10によって撮像されたフレーム画像間においては、カメラ10のアングルの差が大きいほど、背景画像の特徴量の類似度が小さくなる。
分類ユニット2は、カメラ10のアングルの差がある程度の範囲内に収まる処理対象フレーム画像の集まりを1つにグループにする。すなわち、グループ毎に、そのグループに属する処理対象フレーム画像間においては、カメラ10のアングルの差が比較的小さい。グループDB7は、グループ毎に、そのグループに分類した処理対象フレーム画像のフレーム番号を登録したグループデータを記憶する。
なお、分類ユニット2は、処理対象フレーム画像の分類において、いずれのグループにも属さないと判断した処理対処フレーム画像があってもよいし、2つ以上のグループに属すると判断した処理対処フレーム画像があってもよい。すなわち、分類ユニット2は、処理対処フレーム画像を、必ず1つのグループに属するように分類するわけではない。
このように、分類ユニット2によって処理対象フレーム画像がグループに分類される。各グループは、カメラ10のアングルの差がある程度の範囲内に収まっている処理対象フレーム画像の集まりである。すなわち、各グループは、固定カメラで撮像されたフレーム画像の集まりである、とみなすことができる。
生成ユニット3は、分類ユニット2が処理対象フレーム画像を分類したグループを順番に選択し、選択したグループ(以下、対象グループと言う。)に分類された処理対象フレーム画像を用いて、教師付き学習用画像データを生成する。生成ユニット3は、対象グループに属する複数の処理対象フレーム画像を用いて、そのグループの特定背景画像を生成する。例えば、生成ユニット3は、背景画像DB5に記憶されている対象グループに属する複数の処理対象フレーム画像の背景画像(分類ユニット2によって分離された背景画像)を基にして、前景画像である部分が存在しない背景画像を、特定背景画像として生成する。
生成ユニット3は、対象グループについて生成した特定背景画像に対して、この対象グループに属する処理対象フレーム画像から分離した前景画像(前景画像DB6に記憶している前景画像)を適当な位置に貼り付けた合成画像を生成する。このとき、生成ユニット3は、前景画像を貼り付け位置に応じて加工する。前景画像の加工は、例えば、拡大、縮小、縦横比(アスペクト比)の変更、回転である。
また、生成ユニット3は、この合成画像に対する教師データを生成する。教師データは、特定背景画像における前景画像の貼り付け位置、前景画像にかかるオブジェクトの種類等を示すデータである。生成ユニット3は、合成画像と教師データとを対応付けた教師付き学習用画像データを生成する。
このように、データセット生成装置1は、アングルをカメラ10によって撮像されたフレーム画像を用いて、機械学習に用いるデータセットの生成が行える。特に、データセット生成装置1は、特定背景画像に対する前景画像の貼り付け位置を異ならせたり、学習用背景画像に貼り付ける前景画像を異ならせたりすることにより、大量の教師付き学習用画像データを生成することができる。したがって、データセット生成装置1は、大量の教師付き学習用画像データからなるデータセットの作成にかかる人手、および時間を大幅に抑制できる。
また、フレーム画像DB4、背景画像DB5、前景画像DB6、グループDB7、およびデータセットDB8は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の記録媒体で構成すればよい。
<2.構成例>
図2は、分類ユニットの主要部の構成を示すブロック図である。この例の分類ユニット2は、制御部21、および画像入力部22を備えている。
制御部21は、分離処理部21a、およびグループ処理部21bを有する。制御部21は、分類ユニット2の動作を制御する。分離処理部21a、およびグループ処理部21bについては後述する。
画像入力部22には、カメラ10によって撮像された動画像が入力される。画像入力部22に入力された動画像は、フレーム画像DB4に記憶される。画像入力部22に入力される動画像のフレームレートは、数十フレーム/sec(例えば、10~30フレーム/sec)である。フレーム画像DB4には、上記したように、フレーム番号と、フレーム画像とが対応付けて記憶される。
なお、画像入力部22に入力された動画像にかかる全てのフレーム画像を、フレーム画像DB4に記憶させなくてもよい。例えば、画像入力部22に入力された動画像にかかるフレーム画像から、所定フレーム数間隔で(例えば、2~5フレーム間隔で、)抽出したフレーム画像をフレーム画像DB4に記憶させてもよい。このように構成すれば、フレーム画像DB4の記憶容量を抑えることができる。
次に、制御部21が有する分離処理部21a、およびグループ処理部21bについて説明する。
分離処理部21aは、フレーム画像DB4に記憶されているフレーム画像の中から、処理対象フレーム画像を選択する。分離処理部21aは、フレーム画像DB4に記憶されているフレーム画像を撮像された順番に、1つずつ処理対象フレーム画像として選択する構成であってもよいし、所定フレーム数間隔で(例えば、2~5フレーム間隔で、)選択する構成であってもよいし、さらには、処理対象フレーム画像をランダムに選択する構成であってもよい。
分離処理部21aは、選択した処理対象フレーム画像に対して、撮像されているオブジェクト(人、車両、放置物等)を検出するオブジェクト検出処理を行う。このオブジェクト検出処理は、例えば公知のMask R-CNNによる手法で処理対象フレーム画像に撮像されているオブジェクトを検出する。また、分離処理部21aは、公知のパターンマッチングによる手法で、処理対象フレーム画像に撮像されているオブジェクトを検出する構成であってもよい。また、分離処理部21aは、これら以外の手法で、処理対象フレーム画像に撮像されているオブジェクトを検出する構成であってもよい。
分離処理部21aは、処理対象フレーム画像を、検出したオブジェクトにかかる前景画像と、前景画像以外の背景画像に分離する。分離処理部21aは、処理対象フレーム画像のフレーム番号と、処理対象フレーム画像の前景画像と、この前景画像にかかるオブジェクトの種類と、処理対象フレーム画像上における前景画像(オブジェクト)の位置と、を対応付けて、前景画像DB6に記憶させる。分離処理部21aは、処理対象フレーム画像に撮像されているオブジェクトを複数検出した場合、検出したオブジェクト毎に、前景画像、オブジェクト種類、処理対象フレーム画像上における位置を前景画像DB6に記憶させる。
また、分離処理部21aは、処理対象フレーム画像のフレーム番号と、処理対象フレーム画像の背景画像とを対応づけて、背景画像DB5に記憶させる。
例えば、分離処理部21aは、図3(A)に示すフレーム画像を処理対象フレーム画像として選択した場合、この処理対象フレーム画像に撮像されている車両100をオブジェクトして検出する。分離処理部21aは、図3(B)に示す車両100の画像を前景画像として前景画像DB6に記憶させるとともに、図3(C)に示す背景画像を背景画像DB5に記憶させる。背景画像は、図3(C)に示すように、前景画像(車両100)が撮像されていた領域200(図3(C)においてハッチングで示す領域200)が欠落した画像である。
グループ処理部21bは、背景画像DB5に記憶されている背景画像に基づいて、フレーム画像DB4に記憶されているフレーム画像をグループに分ける分類処理を行う。この例では、グループ処理部21bは、背景画像DB5に記憶されている背景画像毎に、背景画像の特徴量を算出する。グループ処理部21bは、背景画像の特徴量が類似しているフレーム画像をまとめた仮のグループに分ける。カメラ10のアングルが略同じであるフレーム画像間では、背景画像の特徴量が類似する。
例えば、グループ処理部21bは、背景画像の特徴量がある程度類似しているフレーム画像群を検出し、検出したフレーム画像群を1つのグループ(仮グループ)とする仮のグループ分けを行う。
グループ処理部21bは、仮グループ毎に、その仮グループに対する背景画像の代表特徴量を決定する。この背景画像の代表特徴量は、仮グループに属するフレーム画像について算出した、背景画像の特徴量の中央値や平均値等にすればよい。また、グループ処理部21bは、背景画像の代表特徴量の類似度がグループ間閾値を超えている仮グループがあれば、これらのグループを1つの仮グループに統合し、統合した仮グループに対する背景画像の代表特徴量を決定する。このグループ間閾値が、この発明で言う第2の閾値に相当する。
グループ処理部21bは、仮グループ毎に、対応する本グループを生成する。グループ処理部21bは、仮グループ毎に、その仮グループに属するフレーム画像について、背景画像の特徴量と、この仮グループの代表特徴量との類似度を算出し、ここで算出した類似度がグループ閾値を超えているフレーム画像を抽出する。グループ処理部21bは、ここで抽出したフレーム画像からなるグループを、本グループにする。言い換えれば、本グループは、仮グループに属するフレーム画像の中から、代表特徴量との類似度がグループ閾値を超えていない特徴量である背景画像のフレーム画像を取り除いたものである。
したがって、グループ処理部21bによってグループに分類された本グループに属するフレーム画像は、代表特徴量との類似度がグループ閾値を超えている。このグループ閾値が、この発明で言う第1の閾値に相当する。
グループDB7は、グループ処理部21bによって分類された本グループ毎に、その本グループに属するフレーム画像のフレーム番号を対応付けたグループデータを記憶する。
分類ユニット2の制御部21は、ハードウェアCPU、メモリ、その他の電子回路によって構成されている。ハードウェアCPUが、この発明にかかるフレーム画像分類プログラムを実行したときに、分離処理部21a、およびグループ処理部21bとして動作する。また、メモリは、この発明にかかるフレーム画像分類プログラムを展開する領域や、このフレーム画像分類プログラムの実行時に生じたデータ等を一時記憶する領域を有している。制御部21は、ハードウェアCPU、メモリ等を一体化したLSIであってもよい。また、ハードウェアCPUが、この発明にかかるフレーム画像分類方法を実行するコンピュータである。
図4は、生成ユニットの主要部の構成を示すブロック図である。生成ユニット3は、背景画像生成部31、合成画像生成部32、および教師データ生成部33を有している。
背景画像生成部31は、分類ユニット2によってグループ分けされた本グループ毎に、特定背景画像を生成する。背景画像生成部31が、この発明で言う特定背景画像生成部に相当する。背景画像生成部31は、特定背景画像を生成する本グループを選択し、選択した本グループに属するフレーム画像であって、分類ユニット2によって分離された背景画像を複数フレーム用い、図3(C)に示した欠落した領域200のない背景画像を生成する。
例えば、背景画像生成部31は、あるフレーム画像を基準画像とし、この基準画像において欠落している領域200を、他の1、または複数のフレーム画像に撮像されている当該領域200の背景画像を用いて補完することにより、特定背景画像を生成する。例えば、選択した本グループに属するフレーム画像であって、背景画像の特徴量と、分類ユニット2において決定された背景画像の代表特徴量との類似度が最大であるフレーム画像を基準画像にすればよい。
合成画像生成部32は、本グループ毎に、背景画像生成部31が生成した特定背景画像に対して、その本グループに属するフレーム画像から分離された前景画像を貼り付けた合成画像を生成する。合成画像生成部32は、前景画像を貼り付ける位置に応じて加工する。前景画像の加工は、拡大、縮小、アスペクト比の変更、回転等である。
教師データ生成部33は、前景画像を貼り付けた合成画像について、貼り付けた前景画像にかかるオブジェクトの位置、種類、大きさ等を示す教師データを生成する。
生成ユニット3は、合成画像と教師データとを対応付けた教師付き学習用画像データをデータセットDB8に記憶させる。
生成ユニット3は、ハードウェアCPU、メモリ、その他の電子回路によって構成されている。ハードウェアCPUが、教師付き学習用画像データ生成プログラムを実行したときに、背景画像生成部31、合成画像生成部32、および教師データ生成部33として動作する。また、メモリは、教師付き学習用画像データ生成プログラムを展開する領域や、この教師付き学習用画像データ生成プログラムの実行時に生じたデータ等を一時記憶する領域を有している。制御部21は、ハードウェアCPU、メモリ等を一体化したLSIであってもよい。
なお、データセット生成装置1は、1つのハードウェアCPUが、分類ユニット2および生成ユニット3として動作する構成であってもよい。
<3.動作例>
まず、分類ユニット2の動作について説明する。分類ユニット2は、フレーム画像記憶処理、分離処理、および分類処理を実行する。
フレーム画像記憶処理は、画像入力部22に入力された動画像にかかるフレーム画像をフレーム画像DB4に記憶させる処理である。フレーム画像DB4は、フレーム番号と、フレーム画像とを対応付けて記憶する。
図5は、分類ユニットが実行する分離処理を示すフローチャートである。分類ユニット2は、フレーム画像記憶処理でフレーム画像DB4に記憶させたフレーム画像を、前景画像と、前景画像以外の背景画像とに分離する処理である。分離処理部21aが、この分離処理を実行する。
分離処理部21aは、フレーム画像DB4に記憶されているフレーム画像の中から、処理対象フレーム画像を選択する(s1)。分離処理部21aは、カメラ10によって撮像された動画像にかかるフレーム画像を撮像された順番に処理対象フレーム画像として選択してもよいし、所定フレーム数間隔で(例えば、2~5フレーム間隔で、)処理対象フレーム画像を選択してもよいし、処理対象フレーム画像をランダムに選択してもよい。
分離処理部21aは、s1で選択した処理対象フレーム画像に対して、撮像されているオブジェクトを抽出(検出)するオブジェクト検出処理を行う(s2)。s2のオブジェクト検出処理は、例えば公知のMask R-CNNによる手法で処理対象フレーム画像に撮像されているオブジェクトを検出する処理であってもよいし、公知のパターンマッチングによる手法で、処理対象フレーム画像に撮像されているオブジェクトを検出する処理であってもよいし、これら以外の手法で、処理対象フレーム画像に撮像されているオブジェクトを検出する処理であってもよい。
分離処理部21aは、s2で検出したオブジェクトにかかる前景画像を前景画像DB6に記憶させる(s3)。s3では、処理対象フレーム画像のフレーム番号、検出したオブジェクトにかかる前景画像、オブジェクト種類、処理対象フレーム画像上におけるオブジェクトの位置を対応付けて前景画像DB6に記憶させる。
また、分離処理部21aは、s2で検出した前景画像の領域が欠落した背景画像を、背景画像DB5に記憶させる(s4)。s4では、処理対象フレーム画像のフレーム番号と、この処理対象フレーム画像の背景画像と、を対応付けて背景画像DB5に記憶させる。
なお、分離処理部21aは、s3、s4にかかる処理を、上記とは逆の順番で行ってもよいし、並行して行ってもよい。
分離処理部21aは、未処理のフレーム対象画像の有無を判定し(s5)、未処理のフレーム対象画像があれば、s1に戻って、上記処理を繰り返す。また、分離処理部21aは、s5で未処理のフレーム画像が無いと判定すると、本処理を終了する。
分離処理部21aが、この図5に示した分離処理を実行することにより、フレーム画像DB4に記憶されているフレーム画像の中から選択した処理対象フレーム画像毎に、その処理対象フレーム画像の背景画像が背景画像DB5に記憶されるとともに、選択された処理対象フレーム画像の前景画像が前景画像DB6に記憶される。
次に、分類処理について説明する。図6は、分類ユニットが実行する分類処理を示すフローチャートである。グループ処理部21bが、この分類処理を実行する。
グループ処理部21bは、背景画像DB5に記憶されている背景画像を順番に選択し、選択した背景画像の特徴量を算出する(s11~s13)。グループ処理部21bは、背景画像DB5に記憶されている背景画像について特徴量の分布を検出する(s14)。s14で検出する特徴量の分布は、例えば、背景画像の特徴量とフレーム数との関係を示す分布である。
グループ処理部21bは、s14で検出した特徴量の分布に基づき、背景画像DB5に記憶されている背景画像を仮グループに分類する(s15)。s15では、s14で検出した特徴量の分布から、特徴量がある程度類似しており、且つ所定フレーム数を超えている背景画像群を抽出し、抽出した背景画像群を1つの仮グループにする。s15で抽出される背景画像群(仮グループ)は、1つ以上である。
なお、背景画像DB5に記憶されている背景画像の中には、s15で抽出された背景画像群のいずれにも属さない背景画像があってもよいし、2つ以上の仮グループに属する背景画像があってもよい。
グループ処理部21bは、s15で分類した仮グループ毎に、その仮グループにおける背景画像の代表特徴量を算出する(s16)。この仮グループにおける背景画像の代表特徴量は、当該仮グループに属する背景画像群について算出した、背景画像の特徴量の中央値や平均値等にすればよい。
また、グループ処理部21bは、仮グループ毎に、s16で算出した背景画像の代表特徴量を基にして、1つに統合すべき仮グループの有無を判定し(s17)、1つに統合すべき仮グループがあれば、これらの仮グループを統合する(s18)。s17では、s16で算出した背景画像の代表特徴量の類似度が、予め定めたグループ間閾値(この発明で言う第2の閾値)超えている仮グループがあれば、これらのグループを1つに統合すべき仮グループであると判定する。グループ処理部21bは、s18で統合した仮グループについて、背景画像の代表特徴量を算出し(s19)、s17に戻る。s19では、s16と同様の手法で、統合した仮グループについて、背景画像の代表特徴量を算出する。
グループ処理部21bは、s17~s19の処理を繰り返すことによって、背景画像の特徴量がある程度類似している背景画像群を1つの仮グループに分類することができる。同じ仮グループに属している背景画像間においては、特徴量がある程度類似している。
グループ処理部21bは、s17で統合する仮グループがないと判定すると、仮グループ毎に、その仮グループに対応する本グループを形成することにより、背景画像DB5に記憶されている背景画像を本グループに分類する(s20)。s20では、仮グループ毎に、その仮グループに属する背景画像について代表特徴量との類似度がグループ閾値(この発明で言う第1の閾値)を超えている背景画像を抽出し、ここで抽出した背景画像群を1つの本グループにする。グループ閾値は、グループ間閾値よりも大きい。
上記の説明から明らかなように、本グループは、対応する仮グループに属する背景画像を絞り込んだグループである。同じ本グループに属する背景画像の特徴量は、そのグループの代表特徴量との類似度が大きい。したがって、同じ本グループに属する背景画像間においても、特徴量の類似度が大きい。
カメラ10のアングルが略同じであるフレーム画像間では、背景画像の特徴量が類似する。したがって、同じ本グループに背景画像が属するフレーム画像は、カメラ10が略同じアングルで撮像したフレーム画像である。すなわち、グループ処理部21bは、カメラ10が撮像した動画像のフレーム画像を、撮像時におけるカメラ10のアングルで分類した本グループに分類することができる。
グループ処理部21bは、分類した本グループ毎に、その本グループに属する各フレーム画像のフレーム番号を対応付けたグループデータをグループDB7に記憶させ(s21)、本処理を終了する。
次に、生成ユニット3が、機械学習で用いるデータセットを生成する処理について説明する。データセットは、大量の教師付き学習用画像データからなる。上記したように、分類ユニット2が、撮像時におけるカメラ10のアングルよって、フレーム画像DB4に記憶されているフレーム画像をグループに分類している。背景画像DB5には、処理対象フレーム画像として選択したフレーム画像毎に、そのフレーム画像から前景画像を取り除いた背景画像が記憶されている。また、前景画像DB6には、処理対象フレーム画像として選択したフレーム画像毎に、そのフレーム画像に撮像されていたオブジェクトにかかる前景画像が記憶されている。グループDB7には、分類ユニット2によって分類された本グループ毎に、その本グループに属するフレーム画像を対応付けたグループデータが記憶されている。
図7は、生成ユニットにおけるデータセット生成処理を示すフローチャートである。
生成ユニット3は、分類ユニット2によって分類された本グループの中から、対象グループを選択する(s31)。生成ユニット3は、s31で選択した対象グループについて、特定背景画像を生成する(s32)。s32では、背景画像DB5に記憶されている、今回選択した対象グループに属する複数の背景画像を用いて、欠落した領域200が無い背景画像を生成する。
例えば、生成ユニット3は、特徴量が、今回選択した対象グループの代表値と最も類似している背景画像を基準背景画像にする。生成ユニット3は、この基準背景画像と同じグループに属し、且つこの基準背景画像において欠落している領域200(この基準背景画像にかかるフレーム画像において、オブジェクト(例えば、車両100)が撮像されていた領域)が撮像されている1または複数の背景画像(以下、補完用背景画像と言う。)を抽出する。生成ユニット3は、抽出した補完用背景画像を用いて、基準背景画像において欠落している領域200の背景画像を生成する。生成ユニット3は、ここで生成した基準背景画像において欠落している領域200の背景画像を、基準背景画像の該当する領域200に合成した画像を、今回選択した対象グループの特定背景画像として生成する。背景画像生成部31が、このs32にかかる処理を実行する。
生成ユニット3は、s32で生成した特定背景画像を用いて、学習用画像を生成する(s33)。生成ユニット3は、s32で生成した特定背景画像にオブジェクトにかかる前景画像を貼り付けた画像を、学習用画像として生成する。s32で生成した特定背景画像に貼り付ける前景画像は、前景画像DB6に記憶されている前景画像であって、今回選択した対象グループに属するフレーム画像から分離した前景画像である。s32で生成した特定背景画像に対して前景画像を貼り付ける位置は、ランダムに設定される。また、s32で生成した特定背景画像に対して貼り付ける前景画像も、ランダムに決定される。また、s32で生成した特定背景画像に対して貼り付ける前景画像は、1つであるとは限らない。
また、生成ユニット3は、s32で生成した特定背景画像に対して前景画像を貼り付けるとき、この前景画像が撮像されていたフレーム画像上の位置と、この前景画像を貼り付けるs32で生成した特定背景画像上の位置とに基づいて、この前景画像を加工する。前景画像の加工は、例えば、拡大、縮小、縦横比(アスペクト比)の変更、回転である。合成画像生成部32が、このs33にかかる処理を実行する。
また、生成ユニット3は、s33で生成した学習用画像の教師データを生成する(s34)。教師データ生成部33が、このs34にかかる処理を実行する。教師データは、s33で生成した学習用画像上におけるオブジェクトの位置(s32で生成した特定背景画像に対して前景画像を貼り付けた位置)、このオブジェクトの種類等を示すデータである。
生成ユニット3は、s33で生成した学習用画像と、s34で生成した教師データとを対応付けた教師付き学習用画像データをデータセットDB8に登録する(s35)。s35では、生成ユニット3は、今回選択した対象グループの教師付き学習用画像データとして、データセットDB8に登録する。生成ユニット3は、データセットDB8に登録した教師付き学習用画像データが必要フレーム数に達したかどうかを判定し(s36)、必要フレーム数に達していなければ、s33に戻って、上記した処理を繰り返す。必要フレーム数は、予め設定されている。
また、生成ユニット3は、s36で、データセットDB8に登録した教師付き学習用画像データが必要フレーム数に達したと判定すると、未処理のグループがあるかどうかを判定する(s37)。生成ユニット3は、s37で未処理のグループがあると判定すると、s31に戻って、上記した処理を繰り返す。また、生成ユニット3は、s37で未処理のグループが無いと判定すると、本処理を終了する。
このように、データセット生成装置1は、アングルを自在に変化させられるように設置されたカメラ10によって撮像されたフレーム画像を基にして、機械学習で用いるデータセットの生成が行える。
また、データセット生成装置1は、カメラ10のアングルによって分類された本グループ毎に、機械学習で用いるデータセットを生成する。したがって、データセット生成装置1は、カメラ10のアングル別に機械学習が行えるデータセットを生成できる。
<4.変形例>
グループ処理部21bにおける背景画像のグループ分けは、上記した手法に限らず、他の手法で行ってもよい。
例えば、PTZ制御装置15からカメラ10を取り付けた雲台11のパン方向の角度、およびチルト方向の角度を取得できる構成であれば、雲台11のパン方向の角度、およびチルト方向の角度に基づいて、カメラ10によって撮像された動画像にかかるフレーム画像をグループに分類してもよい。
また、ランダムに選択したフレーム画像を代表画像とし、その代表画像の背景画像の特徴量を、代表特徴量にする。そして、代表特徴量との類似度が、上記したグループ閾値を超えている背景画像にかかるフレーム画像を抽出し、ここで抽出したフレーム画像が所定フレーム数以上であれば、これらのフレーム画像(ランダムに選択したフレーム画像を含む)を1つのグループとして分類する。
また、代表画像の選択を、繰り返すことによって、カメラ10によって撮像されたフレーム画像を、カメラ10のアングルに応じた複数のグループに分類することができる。
また、図5に示した分離処理、図6に示した分類処理、および図7に示したデータセット生成処理における各処理ステップの順番は、一例であり、適宜、その順番を入れ替えてもよい。
なお、この発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
さらに、この発明に係る構成と上述した実施形態に係る構成との対応関係は、以下の付記のように記載できる。
<付記>
撮像装置(10)によって撮像されたフレーム画像が入力される画像入力部(22)と、
前記画像入力部(22)に入力されたフレーム画像から選択した処理対象フレーム画像毎に、その処理対象フレーム画像に撮像されているオブジェクトを抽出し、抽出したオブジェクトにかかる前景画像と、抽出したオブジェクト以外の背景画像とに分離する分離処理部(21a)と、
前記分離処理部(21a)によって分離された背景画像に基づいて、処理対象フレーム画像のグループ分けを行うグループ処理部(21b)と、を備えた分類ユニット(2)。
1…データセット生成装置
2…分類ユニット
3…生成ユニット
4…フレーム画像データベース(フレーム画像DB)
5…背景画像データベース(背景画像DB)
6…前景画像データベース(前景画像DB)
7…グループデータベース(グループDB)
8…データセットデータベース(データセットDB)
10…カメラ
11…雲台
15…PTZ制御装置
21…制御部
21a…分離処理部
21b…グループ処理部
22…画像入力部
31…背景画像生成部
32…合成画像生成部
33…教師データ生成部

Claims (10)

  1. 撮像装置によって撮像されたフレーム画像が入力される画像入力部と、
    前記画像入力部に入力されたフレーム画像から選択した処理対象フレーム画像毎に、その処理対象フレーム画像に撮像されているオブジェクトを抽出し、抽出したオブジェクトにかかる前景画像と、抽出したオブジェクト以外の背景画像とに分離する分離処理部と、
    前記分離処理部によって分離された背景画像に基づいて、処理対象フレーム画像のグループ分けを行うグループ処理部と、を備えた分類ユニット。
  2. 前記グループ処理部は、前記分離処理部によって分離された背景画像の特徴量の類似度に基づいて、処理対象フレーム画像のグループ分けを行う、請求項1に記載の分類ユニット。
  3. 前記グループ処理部は、処理対象フレーム画像を分類するグループに対して、背景画像の代表特徴量を設定し、背景画像の特徴量と前記代表特徴量との類似度が第1の閾値を超えるフレーム画像を同じグループに分類する、請求項1、または2に記載の分類ユニット。
  4. 前記グループ処理部は、グループ間における前記代表特徴量の類似度が前記第1の閾値よりも小さい第2の閾値を超えるグループを1つのグループに統合する、請求項3に記載の分類ユニット。
  5. 前記撮像装置は、直交する2つの軸を中心にして、回動する雲台に取り付けられ、前記雲台の回動に応じて撮像方向が変化する、請求項1、または2に記載の分類ユニット。
  6. 請求項1~5のいずれかに記載の分類ユニットが処理対象フレーム画像を分類したいずれかのグループを選択し、選択した対象グループに属する処理対象フレーム画像を基に、特定背景画像を生成する特定背景画像生成部と、
    前記特定背景画像生成部が生成した前記特定背景画像にオブジェクトにかかる画像を貼り付けた合成画像を生成する合成画像生成部と、
    前記合成画像に対し、この合成画像におけるオブジェクトにかかる画像の貼り付け位置、およびこのオブジェクトの種類を含む教師データを生成する教師データ生成部と、を備えた生成ユニット。
  7. 前記合成画像生成部は、前記分類ユニットの前記分離部が対応するグループに属性する処理対象フレーム画像を処理して抽出したオブジェクトにかかる前景画像を加工して前記学習用背景画像に貼り付ける、請求項6に記載の生成ユニット。
  8. 請求項1~5のいずれかに記載の分類ユニットと、
    請求項6、または7に記載の生成ユニットと、を備えるデータセット生成装置。
  9. 撮像装置によって撮像され、画像入力部に入力されたフレーム画像から選択した処理対象フレーム画像毎に、その処理対象フレーム画像に撮像されているオブジェクトを抽出し、抽出したオブジェクトにかかる前景画像と、抽出したオブジェクト以外の背景画像とに分離する分離処理ステップと、
    前記分離処理ステップで分離した背景画像に基づいて、処理対象フレーム画像のグループ分けを行うグループ処理ステップと、をコンピュータが実行するフレーム画像分類方法。
  10. 撮像装置によって撮像され、画像入力部に入力されたフレーム画像から選択した処理対象フレーム画像毎に、その処理対象フレーム画像に撮像されているオブジェクトを抽出し、抽出したオブジェクトにかかる前景画像と、抽出したオブジェクト以外の背景画像とに分離する分離処理ステップと、
    前記分離処理ステップで分離した背景画像に基づいて、処理対象フレーム画像のグループ分けを行うグループ処理ステップと、をコンピュータに実行させるフレーム画像分類プログラム。
JP2020132290A 2020-08-04 2020-08-04 分類ユニット、生成ユニット、データセット生成装置、フレーム画像分類方法、およびフレーム画像分類プログラム Pending JP2022029125A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020132290A JP2022029125A (ja) 2020-08-04 2020-08-04 分類ユニット、生成ユニット、データセット生成装置、フレーム画像分類方法、およびフレーム画像分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020132290A JP2022029125A (ja) 2020-08-04 2020-08-04 分類ユニット、生成ユニット、データセット生成装置、フレーム画像分類方法、およびフレーム画像分類プログラム

Publications (1)

Publication Number Publication Date
JP2022029125A true JP2022029125A (ja) 2022-02-17

Family

ID=80271544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020132290A Pending JP2022029125A (ja) 2020-08-04 2020-08-04 分類ユニット、生成ユニット、データセット生成装置、フレーム画像分類方法、およびフレーム画像分類プログラム

Country Status (1)

Country Link
JP (1) JP2022029125A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7262689B1 (ja) * 2022-07-06 2023-04-21 三菱電機株式会社 情報処理装置、生成方法、及び生成プログラム
WO2024034388A1 (ja) * 2022-08-08 2024-02-15 ソニーグループ株式会社 画像処理装置、画像処理方法、およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7262689B1 (ja) * 2022-07-06 2023-04-21 三菱電機株式会社 情報処理装置、生成方法、及び生成プログラム
WO2024009427A1 (ja) * 2022-07-06 2024-01-11 三菱電機株式会社 情報処理装置、生成方法、及び生成プログラム
WO2024034388A1 (ja) * 2022-08-08 2024-02-15 ソニーグループ株式会社 画像処理装置、画像処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
Singh et al. Sniper: Efficient multi-scale training
Cozzolino et al. Image forgery detection through residual-based local descriptors and block-matching
Cai et al. Learning meta pattern for face anti-spoofing
Najibi et al. Fa-rpn: Floating region proposals for face detection
US20070058856A1 (en) Character recoginition in video data
JP6639523B2 (ja) 学習画像自動選別装置、学習画像自動選別方法および学習画像自動選別プログラム
CN108875481B (zh) 用于行人检测的方法、装置、系统及存储介质
JP2010108476A (ja) 学習装置および方法、認識装置および方法、プログラム、並びに記録媒体
WO2017088537A1 (zh) 一种元件分类方法及装置
CN108491794A (zh) 面部识别的方法和装置
JP2022029125A (ja) 分類ユニット、生成ユニット、データセット生成装置、フレーム画像分類方法、およびフレーム画像分類プログラム
Giraldo et al. Graph CNN for moving object detection in complex environments from unseen videos
CN111079816A (zh) 图像的审核方法、装置和服务器
JP2019016298A5 (ja) 画像処理装置、学習方法、学習済モデル、画像処理方法
KR101752742B1 (ko) 가우시안 스케일 공간 생성 단순화를 기반으로 한 특징점 추출 방법 및 장치
US11507784B2 (en) Device and method of digital image content recognition, training of the same
CN111797762A (zh) 一种场景识别方法和系统
Kim et al. Real-time anomaly detection in packaged food X-ray images using supervised learning
CN108810319B (zh) 图像处理装置和图像处理方法
Khalid et al. Image de-fencing using histograms of oriented gradients
JP6194260B2 (ja) 画像分類装置、画像分類方法及び画像分類プログラム
Mustafa et al. Dense multi-focus fusion net: A deep unsupervised convolutional network for multi-focus image fusion
Bhattacharya HybridFaceMaskNet: A novel face-mask detection framework using hybrid approach
Srivastava et al. An efficient image classification using bag-of-words based on SURF and texture features
JP2015133085A (ja) 情報処理装置およびその方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240321

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240402