JP2021051530A

JP2021051530A - 画像処理プログラム及び画像処理装置

Info

Publication number: JP2021051530A
Application number: JP2019173772A
Authority: JP
Inventors: 原　英之; Hideyuki Hara; 英之原
Original assignee: Isuzu Motors Ltd
Current assignee: Isuzu Motors Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2021-04-01

Abstract

【課題】処理負荷を軽減しつつ、従来と同程度以上の精度で領域分割及び物体検出を同時に行う画像処理プログラム及び画像処理装置を提供する。【解決手段】画像処理装置において制御部は、第１の層数の層を有するダウンサンプリングネットワークを構成し、第１の層数の層のそれぞれに対応して、入力された撮像画像の特徴を示す複数の第１特徴情報を抽出するエンコーダ、第２の層数の層を有するアップサンプリングネットワークを構成し、複数の第１特徴情報の入力に対して、第２の層数の層の夫々に対応して、撮像画像を、検出対象の物体を示す物体領域を含む複数の領域に分割するために用いられる複数の第２特徴情報を生成し、撮像画像を複数の領域に分割した分割領域画像を生成して出力するデコーダ及びデコーダが第２の層数の層のそれぞれに対して生成した複数の第２特徴情報に基づいて、検出対象の物体を示す矩形領域を検出する領域検出部を有する。【選択図】図２

Description

本発明は、画像処理プログラム及び画像処理装置に関する。

近年、深層学習モデルを用いて撮像画像を解析することが行われている。例えば、非特許文献１及び非特許文献２には、撮像画像から、深層学習モデルを用いて検出対象の物体を検出することが開示されている。また、非特許文献３には、撮像画像を複数の領域に分割することで、検出対象の領域を検出することが開示されている。

W. Liu, et al. "SSD: Single Shot Multibox Detector" European Conference on Computer Vision (ECCV), 2016, p.21-37 T. Lin, et al. "Focal Loss for Dense Object Detection" The IEEE International Conference on Computer Vision, 2017, p.2980-2988 O. Ronneberger, et al."U-net:Convolutional Networks for Biomedical Image Segmentation" Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2015, p.234-241

図４は、従来の領域分割及び物体検出に係るシングルタスク深層学習モデルを示す図である。図５は、図４の二つのタスクの深層学習モデルを組み合わせた、従来の領域分割及び物体検出に係るマルチタスク深層学習モデルを示す図である。従来の領域分割及び物体検出は、図４に示すように、領域分割及び物体検出のそれぞれに対応するシングルタスク深層学習モデルを個別に実行するか、図５に示すように、撮像画像の特徴情報を抽出するエンコーダのみを共通化したマルチタスク深層学習モデルを実行することで行われる。しかしながら、従来の領域分割及び物体検出に係るタスク実行手法では双方の結果を得るのに、多くの計算資源が必要となる又は物体検出の精度を向上させにくいという問題があった。

そこで、本発明はこれらの点に鑑みてなされたものであり、処理負荷を軽減しつつ従来の手法と同程度以上の精度で領域分割及び物体検出を同時に行うことができる画像処理プログラム及び画像処理装置を提供することを目的とする。

本発明の第１の態様に係る画像処理プログラムは、コンピュータを、第１の層数の層を有するダウンサンプリングネットワークを構成し、前記ダウンサンプリングネットワークにより、撮像装置が撮像した撮像画像の入力に対して、前記第１の層数の層のそれぞれに対応して、前記撮像画像の特徴を示す複数の第１特徴情報を抽出する抽出部、第２の層数の層を有するアップサンプリングネットワークを構成し、前記アップサンプリングネットワークにより、前記抽出部が抽出した前記複数の第１特徴情報の入力に対して、前記第２の層数の層のそれぞれに対応して、前記撮像画像を、検出対象の物体を示す物体領域と、前記物体領域とは異なる非物体領域とを含む複数の領域に分割するために用いられる複数の第２特徴情報を生成し、前記複数の第２特徴情報に基づいて、前記撮像画像を前記複数の領域に分割した分割領域画像を生成して出力する画像生成部、及び、前記画像生成部が前記第２の層数の層のそれぞれに対応して生成した前記複数の第２特徴情報に基づいて、前記検出対象の物体を示す矩形領域を検出する領域検出部、として機能させる。

前記画像生成部は、前記アップサンプリングネットワークにより、前記複数の第２特徴情報に基づいて前記分割領域画像を生成して出力するとともに、前記複数の第２特徴情報に基づいて、前記撮像画像を構成する複数の画素のそれぞれについて、当該画素に対応する被写体と、前記撮像装置との距離を推測した距離画像を生成して出力してもよい。

前記領域検出部は、前記抽出部が前記第１の層数の層のそれぞれに対応して抽出した前記複数の第１特徴情報と、前記画像生成部が前記第２の層数の層のそれぞれに対応して生成した前記複数の第２特徴情報とに基づいて、前記検出対象の物体を示す矩形領域を検出してもよい。

本発明の第２の態様に係る画像処理装置は、第１の層数の層を有するダウンサンプリングネットワークを構成し、前記ダウンサンプリングネットワークにより、撮像装置が撮像した撮像画像の入力に対して、前記第１の層数の層のそれぞれに対応して、前記撮像画像の特徴を示す複数の第１特徴情報を抽出する抽出部と、第２の層数の層を有するアップサンプリングネットワークを構成し、前記アップサンプリングネットワークにより、前記抽出部が抽出した前記複数の第１特徴情報の入力に対して、前記第２の層数の層のそれぞれに対応して、前記撮像画像を、検出対象の物体を示す物体領域と、前記物体領域とは異なる非物体領域とを含む複数の領域に分割するために用いられる複数の第２特徴情報を生成し、前記複数の第２特徴情報に基づいて、前記撮像画像を前記複数の領域に分割した分割領域画像を生成して出力する画像生成部と、前記画像生成部が前記第２の層数の層のそれぞれに対応して生成した前記複数の第２特徴情報に基づいて、前記検出対象の物体を示す矩形領域を検出する領域検出部と、を備える。

本発明によれば、処理負荷を軽減しつつ、従来の手法と同程度以上の精度で領域分割及び物体検出を同時に行うことができるという効果を奏する。

第１実施形態に係るマルチタスク深層学習モデルを説明する図である。第１実施形態に係る画像処理装置の構成を示す図である。第２実施形態に係るマルチタスク深層学習モデルを説明する図である。従来の領域分割及び物体検出に係るシングルタスク深層学習モデルを示す図である。従来の領域分割及び物体検出に係るマルチタスク深層学習モデルを示す図である。

＜第１実施形態＞
図１は、第１実施形態に係るマルチタスク深層学習モデルＭを説明する図である。マルチタスク深層学習モデルＭは、例えば、乗用車、バス、トラック等の車両に搭載された撮像装置が撮像した撮像画像に対して、領域分割処理及び物体検出処理を同時に実行する画像処理プログラムである。

領域分割処理は、撮像画像を、検出対象の物体を示す物体領域と、当該物体領域とは異なる領域である非物体領域とを含む複数の領域に分割した分割領域画像を生成する処理である。ここで、検出対象の物体は、車両の周辺を走行する他の車両や、当該車両の周辺に存在する障害物等であり、物体領域は、これらの他の車両及び障害物を示す領域である。図１に示す例では、分割領域画像における黒色の領域が、物体領域を示している。非物体領域には、例えば、車両が走行可能な道路を示す道路領域、道路上の白線を示す白線領域、歩道を示す歩道領域、風景を示す風景領域などが含まれる。

物体検出処理は、撮像画像から、検出対象の物体の少なくとも一部を囲む矩形領域を検出する処理である。図１に示す例では、矩形領域として、３つの矩形領域Ｏｂｊ１〜Ｏｂｊ３が検出されている。

図１に示すように、マルチタスク深層学習モデルＭは、抽出部としてのエンコーダ１１、画像生成部としてのデコーダ１２、及び領域検出部１３として機能する。なお、マルチタスク深層学習モデルＭは、予め収集された、領域分割及び物体検出用の学習データセットにより、予め学習されているものとする。また、図１に示すマルチタスク深層学習モデルＭでは、説明を簡単にするために、エンコーダ１１及びデコーダ１２が多数の層から構成される５つのブロックを有し、領域検出部１３が３つのブロックを有するものとする。なお、エンコーダ１１、デコーダ１２、及び、領域検出部１３は、実際には図１に示すよりも多くの層又は少ない層を有してもよい。

エンコーダ１１は、第１の層数の層を有し、複数の畳み込み層及び複数のプーリング層を重ねたダウンサンプリングネットワークを構成している。エンコーダ１１は、ダウンサンプリングネットワークにより、撮像装置が撮像した撮像画像の入力に対して、畳み込み及びプーリングを行うことにより、撮像画像の特徴抽出及びダウンサンプリングを行う。エンコーダ１１は、第１の層数の層のそれぞれに対応して、撮像画像の特徴を示す複数の第１特徴情報を抽出する。

デコーダ１２は、第２の層数の層を有し、エンコーダ１１のダウンサンプリングネットワークと対称になるように複数の畳み込み層及び複数のアップサンプリング層（アンプーリング層）を重ねたアップサンプリングネットワークを構成している。なお、第１実施形態において、エンコーダとデコーダが対称であり、第１の層数と、第２の層数とは同じ層数であるものとするが、これに限らず、第２の層数が、第１の層数に比べて少なくてもよい。また、エンコーダとデコーダが非対称な形状であってもよい。例えば、デコーダ１２の上位層側の複数の処理ブロック又は層を削除することにより、第２の層数を第１の層数よりも少なくしてもよい。このようにすることで、デコーダ１２における計算時間を短縮することができる。

デコーダ１２は、アップサンプリングネットワークにより、エンコーダ１１から入力された第１特徴情報について、畳み込み及びアップサンプリング（アンプーリング）を行うことにより、撮像画像を複数の領域に分割するために用いられる複数の第２特徴情報を生成する。なお、第１実施形態において、アップサンプリングを実施する手段は畳み込み及びアンプーリングに限らない。例えば、畳み込み及びアンプーリングの代わりに転置畳み込み処理を適用してもよい。そして、デコーダ１２は、複数の第２特徴情報に基づいて、撮像画像を複数の領域に分割した分割領域画像を生成して出力する。

具体的には、アップサンプリングネットワークにおける最も低解像度の層には、エンコーダ１１が有するダウンサンプリングネットワークの最も低解像度の層において抽出された第１特徴情報が入力される。アップサンプリングネットワークにおける最も低解像度の層では、第１特徴情報に基づいて第２特徴情報を生成し、生成した第２特徴情報を最も低解像度の層よりも１つ上位の解像度の層に出力する。

アップサンプリングネットワークにおける最も低解像度の層以外の層には、エンコーダ１１が有するダウンサンプリングネットワークの同様の解像度の階層の層において抽出された第１特徴情報と、一つ下の解像度の層において生成された第２特徴情報とが入力される。アップサンプリングネットワークにおける最も低解像度の層以外の層では、入力された第１特徴情報と第２特徴情報とを統合し、畳み込み又はアップサンプリングを行うことにより、新たに第２特徴情報を生成し、１つ上位の解像度の層に出力する。アップサンプリングネットワークの最上位の解像度の層は、撮像画像を複数の領域に分割した分割領域画像を出力する。

領域検出部１３は、第１の層数及び第２の層数とは異なる第３の層数の層を有するニューラルネットワークである。領域検出部１３は、第３の層数の層の畳み込み層により構成されており、デコーダ１２が有するアップサンプリングネットワークにおける第２の層数の層のそれぞれに対応して生成した複数の第２特徴情報の少なくともいずれかに基づいて、検出対象の物体を示す矩形領域を検出することにより、検出対象の物体を検出する。

マルチタスク深層学習モデルＭでは、デコーダ１２が、領域分割と物体検出とに共用される。これにより、マルチタスク深層学習モデルＭは、図４に示す従来のシングルタスク深層学習モデル、又は図５に示す従来のマルチタスク深層学習モデルを用いる場合に比べて、処理負荷を軽減して、領域分割及び物体検出を行うことができる。また、領域分割及び物体検出は、いずれも同一の検出対象の物体を検出することから、デコーダ１２が生成する第２特徴情報に基づいて物体検出を行っても、図４に示す従来の物体検出のシングルタスク深層学習モデルにおいて物体検出を行う場合と同等以上の精度で物体が検出されることが期待できる。したがって、マルチタスク深層学習モデルＭは、処理負荷を軽減しつつ従来の手法と同程度以上の精度で物体の検出及び領域の分割を行うことができる。

［画像処理装置１の構成］
続いて、マルチタスク深層学習モデルＭを用いた領域分割及び物体検出を行うためのハードウェア構成及び当該ハードウェア構成を用いた場合の領域分割及び物体検出の実行例について説明する。本実施形態において、マルチタスク深層学習モデルＭは、画像処理装置１において実行される。図２は、第１実施形態に係る画像処理装置１の構成を示す図である。画像処理装置１は、記憶部２と、制御部３とを備えている。

記憶部２は、例えば、ＲＯＭ（Read Only Memory）又はＲＡＭ（Random Access Memory）である。記憶部２は、制御部３を機能させるための各種のプログラムを記憶する。記憶部２は、制御部３を、エンコーダ１１、デコーダ１２及び領域検出部１３として機能させる画像処理プログラムとして、マルチタスク深層学習モデルＭを記憶する。

制御部３は、図示しないＣＰＵ（Central Processing Unit）又はＧＰＵ（Graphics Processing Unit）等のプロセッサを含む計算リソースである。制御部３は、記憶部２に記憶されているプログラムを実行することにより、取得部１４として機能する。また、制御部３は、記憶部２に記憶されているマルチタスク深層学習モデルＭとしての画像処理プログラムを実行することにより、エンコーダ１１、デコーダ１２及び領域検出部１３として機能する。

取得部１４は、車両に搭載され、当該車両の周辺を撮像する撮像装置２０から、予め定められたタイムステップで撮像画像を取得する。取得部１４は、予め定められたタイムステップで撮像画像を取得すると、当該撮像画像をエンコーダ１１に入力する。

エンコーダ１１は、上述したように、第１の層数の層を有するダウンサンプリングネットワークを構成している。エンコーダ１１は、ダウンサンプリングネットワークにより、撮像装置２０が撮像した撮像画像の入力に対して、第１の層数の層のそれぞれに対応して、撮像画像の特徴を示す複数の第１特徴情報を抽出する。エンコーダ１１は、第１の層数の層のそれぞれに対して抽出した第１特徴情報をデコーダ１２に出力する。

デコーダ１２は、上述したように、第２の層数の層を有するアップサンプリングネットワークを構成している。デコーダ１２は、エンコーダ１１から複数の第１特徴情報が入力されると、第２の層数の層のそれぞれに対応して複数の第２特徴情報を生成する。デコーダ１２は、生成した複数の第２特徴情報を領域検出部１３に出力するとともに、当該複数の第２特徴情報に基づいて、撮像画像を複数の領域に分割した分割領域画像を生成して出力する。

領域検出部１３は、デコーダ１２から複数の第２特徴情報が入力されると、当該複数の第２特徴情報に基づいて、検出対象の物体を示す矩形領域を検出する。領域検出部１３は、矩形領域の位置及びサイズを示す矩形領域情報を出力する。

［第１実施形態の効果］
以上説明したように、第１実施形態に係るマルチタスク深層学習モデルＭは、コンピュータを、第１の層数の層を有するダウンサンプリングネットワークを構成し、撮像装置２０が撮像した撮像画像の入力に対して、第１の層数の層のそれぞれに対応して、撮像画像の特徴を示す複数の第１特徴情報を抽出するエンコーダ１１、第２の層数の層を有するアップサンプリングネットワークを構成し、エンコーダ１１が抽出した複数の第１特徴情報の入力に対して、第２の層数の層のそれぞれに対応して複数の第２特徴情報を生成し、複数の第２特徴情報に基づいて、撮像画像を複数の領域に分割した分割領域画像を生成して出力するデコーダ１２、及び、デコーダ１２が第２の層数の層のそれぞれに対応して生成した複数の第２特徴情報に基づいて、検出対象の物体を示す矩形領域を検出する領域検出部１３として機能させる。このようにすることで、デコーダ１２が生成した複数の第２特徴情報には、画素単位の解像度で検出対象物体の領域分割を実施するための情報が含まれていることから、領域検出部１３による同一の検出対象の物体の矩形領域の検出の精度が向上することが期待できる。同時に、マルチタスク深層学習モデルＭは、物体検出及び領域分割のタスクでエンコーダ１１とデコーダ１２の双方を共有しているため、処理負荷を軽減しつつ、従来の手法と同程度以上の精度で領域分割及び物体検出を同時に行うことができる。

＜第２実施形態＞
［距離画像をさらに生成する］
続いて、第２実施形態について説明する。第２実施形態に係るマルチタスク深層学習モデルＭは、撮像画像を構成する複数の画素のそれぞれについて、当該画素に対応する被写体と、撮像装置２０との距離を推測した距離画像を生成して出力する点で第１実施形態と異なる。

第２実施形態に係るマルチタスク深層学習モデルＭは、予め収集された、領域分割、物体検出、距離画像生成用の学習データセットにより、予め学習されているものとする。

図３は、第２実施形態に係るマルチタスク深層学習モデルＭを説明する図である。図３に示すように、マルチタスク深層学習モデルＭのデコーダ１２は、アップサンプリングネットワークにより、複数の第２特徴情報に基づいて分割領域画像を生成して出力するとともに、複数の第２特徴情報に基づいて、撮像画像を構成する複数の画素のそれぞれについて、当該画素に対応する被写体と撮像装置２０との距離を推測した距離画像を生成して出力する。

ここで、例えば、車両として領域分割された撮像画像の領域の複数の画素は撮像装置２０から同一の距離に位置している可能性が高いことが推測される。同様に、道路面として領域分割された撮像画像の領域は、撮像画像上部の領域ほど撮像装置２０から遠ざかっていくと推測される。このように、分割領域画像に含まれる複数の領域のそれぞれと、これらの領域に対応する距離とは、相関関係を有しているといえる。したがって、デコーダ１２を領域分割と、距離画像の生成とで共通化しても、領域分割及び距離画像の生成における精度を維持できることが期待できる。さらに、撮像画像を構成する複数の画素のそれぞれにおける被写体と撮像装置２０との位置関係を推測する情報がデコーダ１２によって生成される複数の第２特徴情報に含有されることによって、複数の第２特徴情報に基づいて実施される領域検出部１３による物体検出の精度が向上することが期待できる。よって、第２実施形態に係るマルチタスク深層学習モデルＭは、処理負荷を軽減しつつ、従来の手法と同程度以上の精度で領域分割、物体検出、及び距離画像の生成を同時に行うことができる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、上述の実施形態では、領域検出部１３は、デコーダ１２が生成した複数の第２特徴情報に基づいて検出対象の物体を示す矩形領域を検出したが、これに限らない。領域検出部１３は、エンコーダ１１が第１の層数の層のそれぞれに対応して抽出した複数の第１特徴情報と、デコーダ１２が生成した複数の第２特徴情報とに基づいて検出対象の物体を示す矩形領域を検出してもよい。

また、例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。

１画像処理装置
２記憶部
３制御部
１１エンコーダ
１２デコーダ
１３領域検出部
１４取得部
２０撮像装置
Ｍマルチタスク深層学習モデル

Claims

コンピュータを、
第１の層数の層を有するダウンサンプリングネットワークを構成し、前記ダウンサンプリングネットワークにより、撮像装置が撮像した撮像画像の入力に対して、前記第１の層数の層のそれぞれに対応して、前記撮像画像の特徴を示す複数の第１特徴情報を抽出する抽出部、
第２の層数の層を有するアップサンプリングネットワークを構成し、前記アップサンプリングネットワークにより、前記抽出部が抽出した前記複数の第１特徴情報の入力に対して、前記第２の層数の層のそれぞれに対応して、前記撮像画像を、検出対象の物体を示す物体領域と、前記物体領域とは異なる非物体領域とを含む複数の領域に分割するために用いられる複数の第２特徴情報を生成し、前記複数の第２特徴情報に基づいて、前記撮像画像を前記複数の領域に分割した分割領域画像を生成して出力する画像生成部、及び、
前記画像生成部が前記第２の層数の層のそれぞれに対応して生成した前記複数の第２特徴情報に基づいて、前記検出対象の物体を示す矩形領域を検出する領域検出部、
として機能させる画像処理プログラム。
前記画像生成部は、前記アップサンプリングネットワークにより、前記複数の第２特徴情報に基づいて前記分割領域画像を生成して出力するとともに、前記複数の第２特徴情報に基づいて、前記撮像画像を構成する複数の画素のそれぞれについて、当該画素に対応する被写体と、前記撮像装置との距離を推測した距離画像を生成して出力する、
請求項１に記載の画像処理プログラム。
前記領域検出部は、前記抽出部が前記第１の層数の層のそれぞれに対応して抽出した前記複数の第１特徴情報と、前記画像生成部が前記第２の層数の層のそれぞれに対応して生成した前記複数の第２特徴情報とに基づいて、前記検出対象の物体を示す矩形領域を検出する、
請求項１又は２に記載の画像処理プログラム。
第１の層数の層を有するダウンサンプリングネットワークを構成し、前記ダウンサンプリングネットワークにより、撮像装置が撮像した撮像画像の入力に対して、前記第１の層数の層のそれぞれに対応して、前記撮像画像の特徴を示す複数の第１特徴情報を抽出する抽出部と、
第２の層数の層を有するアップサンプリングネットワークを構成し、前記アップサンプリングネットワークにより、前記抽出部が抽出した前記複数の第１特徴情報の入力に対して、前記第２の層数の層のそれぞれに対応して、前記撮像画像を、検出対象の物体を示す物体領域と、前記物体領域とは異なる非物体領域とを含む複数の領域に分割するために用いられる複数の第２特徴情報を生成し、前記複数の第２特徴情報に基づいて、前記撮像画像を前記複数の領域に分割した分割領域画像を生成して出力する画像生成部と、
前記画像生成部が前記第２の層数の層のそれぞれに対応して生成した前記複数の第２特徴情報に基づいて、前記検出対象の物体を示す矩形領域を検出する領域検出部と、
を備える画像処理装置。