JP7528637B2

JP7528637B2 - 機械学習装置及び遠赤外線撮像装置

Info

Publication number: JP7528637B2
Application number: JP2020142706A
Authority: JP
Inventors: 晋吾木田; 英樹竹原; 尹誠楊
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2024-08-06
Anticipated expiration: 2040-08-26
Also published as: JP2022038285A; WO2022044367A1; US20230196739A1

Description

本発明は、転移学習技術に関する。

可視光がない夜間では、可視光カメラの代わりに赤外線カメラを用いて物体を撮影し、遠赤外線画像から人物など特定の物体を検出することになるが、遠赤外線画像に適した汎用の物体検出の学習済みモデルは入手が困難である。そこで、ＲＧＢ画像を用いた汎用の物体検出の学習済みモデルに対して、赤外線画像を教師データとして学習し直す転移学習が行われている。

特許文献１には、ＲＧＢ映像とそれに対応する発話内容を教師データとして学習された学習済みのＲＧＢ映像モデルに対して、赤外線画像とそれに対応する発話内容を教師データとして用いて、転移学習を行い、赤外線映像モデルを生成する学習装置が開示されている。

特開２０１９－２０４１４７号公報

ＲＧＢ画像を用いた物体検出モデルに対して、遠赤外線画像を教師データとした転移学習を行うと、転移学習時に色情報が損失するため、転移学習後の物体検出モデルの推論の認識率が低くなるという問題があった。

本発明はこうした状況に鑑みてなされたものであり、その目的は、推論精度の高い転移学習技術を提供することにある。

上記課題を解決するために、本発明のある態様の機械学習装置は、遠赤外線画像を取得する遠赤外線画像取得部と、前記取得された遠赤外線画像を可視光画像に変換する画像変換部と、可視光画像を教師データとして学習された第１の可視光画像学習済みモデルを記憶する可視光画像学習済みモデル記憶部と、前記変換された可視光画像を教師データとして用いて前記第１の可視光画像学習済みモデルを転移学習させて、第２の可視光画像学習済みモデルを生成する転移学習部とを含む。

本発明の別の態様は、遠赤外線撮像装置である。この装置は、遠赤外線画像を取得する遠赤外線画像取得部と、前記取得された遠赤外線画像を可視光画像に変換する画像変換部と、遠赤外線画像を可視光画像に変換した画像を教師データとして用いて第１の可視光画像学習済みモデルを転移学習させて生成された第２の可視光画像学習済みモデルを用いて、前記変換された可視光画像から物体を検出する物体検出部とを含む。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、推論精度の高い転移学習技術を提供することができる。

実施の形態に係る機械学習装置の構成図である。実施の形態に係る遠赤外線撮像装置の構成図である。別の実施の形態に係る機械学習装置の構成図である。さらに別の実施の形態に係る機械学習装置の構成図である。図１の機械学習装置による転移学習手順を説明するフローチャートである。図２の遠赤外線撮像装置による物体検出手順を説明するフローチャートである。

図１は、実施の形態に係る機械学習装置１００の構成図である。機械学習装置１００は、遠赤外線画像取得部１０、画像変換部２０、転移学習部３０、可視光画像学習済みモデル記憶部４０、および遠赤外線可視光化画像学習済みモデル記憶部５０を含む。

遠赤外線画像取得部１０は、遠赤外線撮像装置により撮影された遠赤外線画像を取得し、画像変換部２０に供給する。

画像変換部２０は、遠赤外線画像と可視光画像を教師データとして機械学習された画像変換モデルにもとづいて遠赤外線画像を可視光画像に変換する。

画像変換部２０は、遠赤外線画像と可視光画像を教師データとして機械学習し、遠赤外線画像から可視光画像を生成する生成モデルを生成する生成部を含み、取得された遠赤外線画像を生成モデルに入力して可視光画像に変換する。

機械学習の一例として、敵対的生成ネットワーク（ＧＡＮ（Generative Adversarial Networks））を用いる。敵対的生成ネットワークでは、生成器（Generator）と識別器（Discriminator）という二つのニューラルネットワークが互いに敵対的な学習を行う。敵対的生成ネットワークを用いて画像から画像への変換を学習する方法として、ＣｙｃｌｅＧＡＮと呼ばれる手法と、Ｐｉｘ２Ｐｉｘと呼ばれる手法がある。Ｐｉｘ２Ｐｉｘでは、訓練データセットとして与える変換前後の画像が１対１に対応するペアとなっている必要があるが、ＣｙｃｌｅＧＡＮでは厳密なペアではない画像の組み合わせを訓練データセットとして用いて学習することができる。

可視光画像学習済みモデル記憶部４０は、可視光画像を教師データとして学習された物体検出用の第１の可視光画像学習済みモデルを記憶する。

転移学習部３０は、画像変換部２０により変換された可視光画像を教師データとして用いて第１の可視光画像学習済みモデルを転移学習させて、第２の可視光画像学習済みモデルを生成する。

転移学習では、第１の可視光画像学習済みモデルのニューラルネットワークに新たな層を追加して、遠赤外線画像から変換された可視光画像を教師データとして学習することにより、第２の可視光画像学習済みモデルのニューラルネットワークを生成する。

遠赤外線可視光化画像学習済みモデル記憶部５０は、転移学習後の第２の可視光画像学習済みモデルを記憶する。

遠赤外線画像を可視光画像に変換した画像を教師データとするため、色情報を損失することなく、第１の可視光画像学習済みモデルを第２の可視光画像学習済みモデルに転移させることができる。

第１の可視光画像学習済みモデルは、可視光画像を教師データとして学習された物体検出モデルであるため、遠赤外線画像を教師データとして再学習するより、遠赤外線画像から変換された可視光画像を教師データとして再学習する方が学習済みモデルとの親和性が高く、転移学習後の第２の可視光画像学習済みモデルは物体検出の精度がより高くなる。

図２は、実施の形態に係る遠赤外線撮像装置２００の構成図である。遠赤外線撮像装置２００は、遠赤外線可視光化画像学習済みモデル記憶部５０、遠赤外線画像取得部６０、画像変換部７０、物体検出部８０、および検出結果表示部９０を含む。遠赤外線可視光化画像学習済みモデル記憶部５０は、図１の遠赤外線可視光化画像学習済みモデル記憶部５０の構成と同じであり、転移学習部３０により生成された第２の可視光画像学習済みモデルが格納されている。

遠赤外線画像取得部６０は、遠赤外線撮像装置により撮影された遠赤外線画像を取得し、画像変換部７０に供給する。

画像変換部７０は、遠赤外線画像と可視光画像を教師データとして機械学習された画像変換モデルにもとづいて遠赤外線画像を可視光画像に変換する。画像変換部７０は、図１の画像変換部２０の構成と同じである。

物体検出部８０は、遠赤外線可視光化画像学習済みモデル記憶部５０に記憶された第２の可視光画像学習済みモデルを用いて、変換された可視光画像から物体を検出する。

ここで、第２の可視光画像学習済みモデルは、遠赤外線画像を可視光画像に変換した画像を教師データとして用いて第１の可視光画像学習済みモデルを転移学習させて生成された物体検出モデルである。転移学習後の第２の可視光画像学習済みモデルを用いることにより、遠赤外線画像を変換した可視光画像から物体を検出する際の認識精度が向上する。

検出結果表示部９０は、変換後の可視光画像または変換前の遠赤外線画像において、検出された物体を枠で囲むなどにより検出結果を表示する。

図３は、別の実施の形態に係る機械学習装置１００の構成図である。図３の機械学習装置１００は学習済みモデル選択部１５を含む点が図１の機械学習装置１００とは異なる。ここでは、図１の機械学習装置１００と異なる構成について説明し、図１の機械学習装置１００と同じ構成については適宜説明を省略する。

学習済みモデル選択部１５は、複数の第１の可視光画像学習済みモデルの内、画像変換部２０により変換された可視光画像から物体検出するのに最も適した第１の可視光画像学習済みモデルを選択し、選択された第１の可視光画像学習済みモデルを可視光画像学習済みモデル記憶部４０に保存する。

最適な第１の可視光画像学習済みモデルを選択する方法をより具体的に説明する。複数の第１の可視光画像学習済みモデルとして学習済みモデルＡ、Ｂ、Ｃの３つがあり、学習済みモデルＡ、Ｂ、Ｃの教師データとして用いられた可視光画像を教師データＡ、Ｂ、Ｃとする。画像変換部２０により変換された可視光画像を教師データＸとする。教師データＸに対する教師データＡ、Ｂ、Ｃの類似度を算出し、学習済みモデルＡ、Ｂ、Ｃの内、類似度が最も高い学習済みモデルを最適な第１の可視光画像学習済みモデルとして選択する。

学習済みモデルＡ、Ｂ、Ｃに教師データＡ、Ｂ、Ｃを入力した場合の中間出力であるニューラルネットワークの後段の中間層の特徴量Ａ’、Ｂ’、Ｃ’と、学習済みモデルＡ、Ｂ、Ｃに教師データＸを入力した場合の中間出力であるニューラルネットワークの後段の中間層の特徴量Ｘ_Ａ’、Ｘ_Ｂ’、Ｘ_Ｃ’との差分から教師データの類似度を算出する。差分が小さいほど類似度は高い。学習済みモデルＡ、Ｂ、Ｃの内、差分が最小である学習済みモデルを最適な第１の可視光画像学習済みモデルとして選択する。

転移学習部３０は、最適な第１の可視光画像学習済みモデルを可視光画像学習済みモデル記憶部４０から読み出して、画像変換部２０により変換された可視光画像を教師データとして用いて最適な第１の可視光画像学習済みモデルを転移学習させて、第２の可視光画像学習済みモデルを生成する。

転移学習は、学習済みモデルの重みや係数などのパラメータをそのまま活用するため、教師データの類似度が高い学習済みモデルを選択して転移学習することにより、推論精度を向上させることができる。

図４は、さらに別の実施の形態に係る機械学習装置１００の構成図である。図４の画像変換部２０の構成と動作が図１の機械学習装置１００の画像変換部２０とは異なり、それ以外の構成は図１の機械学習装置１００と同じであるから重複する説明は適宜省略する。

画像変換部２０の生成部は、遠赤外線画像取得部１０により取得された遠赤外線画像と、可視光画像学習済みモデル記憶部４０に記憶された第１の可視光画像学習済みモデルの教師データとして用いられた可視光画像とを教師データとして用いて生成モデルを機械学習により生成する。画像変換部２０は、第１の可視光画像学習済みモデルで使用した可視光画像を教師データとして用いて生成された生成モデルを用いて、遠赤外線画像を可視光画像に変換する。

遠赤外線画像取得部１０により取得された遠赤外線画像と第１の可視光画像学習済みモデルの教師データとして用いられた可視光画像とは１対１に対応するペアではない。そのため、機械学習として敵対的生成ネットワークを利用する場合は、厳密なペアではない画像の組み合わせを訓練データセットとして用いて学習することのできるＣｙｃｌｅＧＡＮを用いる必要がある。

物体検出用の第１の可視光画像学習済みモデルの教師データとして用いられた可視光画像を画像変換部２０による生成モデルの機械学習に用いることにより、画像変換部２０により遠赤外線画像から変換される可視光画像が物体検出モデルに適したものになる。

画像変換部２０の生成部は、遠赤外線画像と可視光画像を教師データとして敵対的生成ネットワークで機械学習し、遠赤外線画像から可視光画像を生成する生成モデルを生成する。この可視光画像として、転移学習部３０による転移学習で用いる第１の可視光画像学習済みモデルの教師データとして用いられた可視光画像を教師データＹとして用いる。これにより画像変換部２０により遠赤外線画像から変換された可視光画像Ｚは教師データＹの特徴を反映したものとなり、可視光画像Ｚは、後段の転移学習部３０の入力として有効な教師データＺとなる。

転移学習は、学習済みモデルの重みや係数などのパラメータをそのまま活用するため、教師データＹと教師データＺの相関性が高ければ、転移学習済みモデルを高精度化することができ、推論精度を向上させることができる。

図５は、機械学習装置１００によって、第１の可視光画像学習済みモデルを転移学習させて、第２の可視光画像学習済みモデルを生成する手順を説明するフローチャートである。

遠赤外線カメラにより撮影された夜間赤外線画像を取得する（Ｓ１０）。

夜間遠赤外線画像と昼間可視光画像を教師データとして機械学習された生成モデルを用いて、取得された夜間遠赤外線画像を昼間可視光画像に変換する（Ｓ２０）。

変換された昼間可視光画像を教師データとして用いて、物体検出用の第１の可視光画像学習済みモデルを転移学習させて、第２の可視光画像学習済みモデルを生成する（Ｓ３０）。

図６は、遠赤外線撮像装置２００によって、第１の可視光画像学習済みモデルを転移学習させて生成された第２の可視光画像学習済みモデルを用いて、可視光画像から物体を検出する手順を説明するフローチャートである。

遠赤外線撮像装置２００により撮影された夜間遠赤外線画像を取得する（Ｓ５０）。

夜間遠赤外線画像と昼間可視光画像を教師データとして機械学習された生成モデルを用いて、取得された夜間遠赤外線画像を昼間可視光画像に変換する（Ｓ６０）。

第１の可視光画像学習済みモデルを転移学習させて生成された第２の可視光画像学習済みモデルを用いて、変換された昼間可視光画像から物体を検出する（Ｓ７０）。

変換後の昼間可視光画像において、検出された物体を枠で囲むなどにより強調表示する（Ｓ８０）。変換前の夜間遠赤外線画像において、検出された物体を枠で囲んで強調表示してもよい。

以上説明した機械学習装置１００および遠赤外線撮像装置２００の各種の処理は、ＣＰＵやメモリ等のハードウェアを用いた装置として実現することができるのは勿論のこと、ＲＯＭ（リード・オンリ・メモリ）やフラッシュメモリ等に記憶されているファームウェアや、コンピュータ等のソフトウェアによっても実現することができる。そのファームウェアプログラム、ソフトウェアプログラムをコンピュータ等で読み取り可能な記録媒体に記録して提供することも、有線あるいは無線のネットワークを通してサーバと送受信することも、地上波あるいは衛星ディジタル放送のデータ放送として送受信することも可能である。

以上述べたように、汎用の学習済み物体検出モデルは、可視光画像を教師データとして学習されているため、転移学習時に遠赤外線画像のような白黒画像を教師データとして用いて再学習すると、色情報の欠如のため、学習済みモデルにおいて色情報を反映していたパラメータがうまく適応されず、推論精度が低下する。それに対して、本発明の実施の形態によれば、遠赤外線画像を可視光画像に変換してから、可視光画像を教師データとして学習済みの汎用の物体検出モデルを転移学習させるため、学習済みモデルにおいて色情報を反映していたパラメータが損なわれることなく、変換後の可視光画像で再学習されるため、推論精度が向上する。

物体検出モデルは、遠赤外線画像よりも可視光画像の場合に検出精度が高い。また、汎用の学習済み物体検出モデルを利用する場合、可視光画像用の学習済み物体検出モデルは一般に公開されており入手しやすいが、遠赤外線画像用の学習済みモデルは入手困難である。本発明の実施の形態によれば、遠赤外線画像から変換された可視光画像を教師データとして汎用の可視光画像用の学習済み物体検出モデルを転移学習させるため、遠赤外線画像から変換された可視光画像において、画像の色情報を用いて人物や物体をより高い精度で検出することができる。

以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

１０遠赤外線画像取得部、１５学習済みモデル選択部、２０画像変換部、３０転移学習部、４０可視光画像学習済みモデル記憶部、５０遠赤外線可視光化画像学習済みモデル記憶部、６０遠赤外線画像取得部、７０画像変換部、８０物体検出部、９０検出結果表示部、１００機械学習装置、２００遠赤外線撮像装置。

Claims

遠赤外線画像を取得する遠赤外線画像取得部と、
前記取得された遠赤外線画像を可視光画像に変換する画像変換部と、
可視光画像を教師データとして学習された第１の可視光画像学習済みモデルを記憶する可視光画像学習済みモデル記憶部と、
前記変換された可視光画像を教師データとして用いて前記第１の可視光画像学習済みモデルを転移学習させて、第２の可視光画像学習済みモデルを生成する転移学習部と、
複数の第１の可視光画像学習済みモデルの内、前記変換された可視光画像を各第１の可視光画像学習済みモデルに入力した場合の中間出力と、各第１の可視光画像学習済みモデルの教師データとして用いられた可視光画像を各第１の可視光画像学習済みモデルに入力した場合の中間出力との差分が最小である第１の可視光画像学習済みモデルを選択し、選択された第１の可視光画像学習済みモデルを可視光画像学習済みモデル記憶部に保存する学習済みモデル選択部とを含むことを特徴とする機械学習装置。
前記画像変換部は、遠赤外線画像と可視光画像を教師データとして機械学習し、遠赤外線画像から可視光画像を生成する生成モデルを生成する生成部を含み、前記取得された遠赤外線画像を前記生成モデルに入力して可視光画像に変換することを特徴とする請求項１に記載の機械学習装置。
前記生成部は、遠赤外線画像と前記第１の可視光画像学習済みモデルの教師データとして用いられた可視光画像を教師データとして敵対的生成ネットワークで機械学習し、遠赤外線画像から可視光画像を生成する前記生成モデルを生成することを特徴とする請求項２に記載の機械学習装置。
遠赤外線画像を取得する遠赤外線画像取得部と、
前記取得された遠赤外線画像を可視光画像に変換する画像変換部と、
遠赤外線画像を可視光画像に変換した画像を教師データとして用いて第１の可視光画像学習済みモデルを転移学習させて生成された第２の可視光画像学習済みモデルを用いて、前記変換された可視光画像から物体を検出する物体検出部と、
複数の第１の可視光画像学習済みモデルの内、前記変換された可視光画像を各第１の可視光画像学習済みモデルに入力した場合の中間出力と、各第１の可視光画像学習済みモデルの教師データとして用いられた可視光画像を各第１の可視光画像学習済みモデルに入力した場合の中間出力との差分が最小である第１の可視光画像学習済みモデルを選択する学習済みモデル選択部とを含むことを特徴とする遠赤外線撮像装置。