JP2022153857A

JP2022153857A - 画像処理装置、画像処理方法、移動装置、及びコンピュータプログラム

Info

Publication number: JP2022153857A
Application number: JP2021056596A
Authority: JP
Inventors: 成緒兒玉; Naruo Kodama
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2022-10-13
Also published as: KR20220136196A; EP4068220A1; US20220319145A1; CN115147580A

Abstract

【課題】処理負荷を抑制しつつ、高精度な領域分割結果を得られる画像処理装置を実現する画像処理装置を提供する。【解決手段】画像処理装置において、画像処理部は、画像データから物体を検出するオブジェクト検出部２０１と、オブジェクト検出部による検出結果に応じて、画素にカテゴリを付与する対象とする対象領域を設定する領域設定部２０２と、領域設定部にて設定した対象領域のカテゴリに属する画素にカテゴリを付与するカテゴリ付与部（セマンティックセグメンテーション部）２０４と、を具備する。【選択図】図２

Description

本発明は、画像処理装置、画像処理方法、移動装置、及びコンピュータプログラム等に関する。

車の自動運転や自走ロボットの周囲環境理解のための技術開発が進んでおり、中でも、機械学習を利用した対象物体までの距離推定技術が進展している。例えば、車両走行中に信号機までの距離を推定するため、規格で定められた信号機の発光部分の実際のサイズと、機械学習モデルにて領域分割した画像上の発光部分の直径の画素数や面積とを比較することで、信号機までの距離を推定する技術がある。領域分割の手法として、機械学習モデルが、画像上の信号機を識別（カテゴリ分類）しその物体を含む矩形（検出領域）を設定するオブジェクト検出がある。又、画素単位でカテゴリ分類することで意味的な領域分割を行うセマンティックセグメンテーションという手法がある。

非特許文献１においては、これらの領域分割を高精度化させるため、オブジェクト検出結果から物体の存在範囲を推定し、この推定した範囲に対し、物体である可能性を底上げした上で、セマンティックセグメンテーションする技術が開示されている。

又、特許文献１において、画像から対象が存在する領域を検出し、画像から前記領域を拡大して第１の画像を切り出し、前記領域内の対象から第２の画像を生成し、前記第１の画像と前記第２の画像を用いて、機械学習を行う技術が開示されている。

ＬｕｂｏｒＬａｄｉｃｋｙ，ＰａｕｌＳｔｕｒｇｅｓｓ，ＫａｒｔｅｅｋＡｌａｈａｒｉ，ＣｈｒｉｓＲｕｓｓｅｌｌ，ａｎｄＰｈｉｌｉｐＨ．Ｓ．Ｔｏｒｒ，Ｗｈａｔ，Ｗｈｅｒｅ＆ＨｏｗＭａｎｙ？ＣｏｍｂｉｎｉｎｇＯｂｊｅｃｔＤｅｔｅｃｔｏｒｓａｎｄＣＲＦｓ，ＥＣＣＶ２０１０

オブジェクト検出は、高速に処理可能なニューラルネットワーク構成が複数提案されている。一方で、セマンティックセグメンテーションは、高精度に領域分割可能である反面、オブジェクト検出と比較して必要な演算量が多い傾向が知られている。非特許文献１に記載の技術は、これらの機械学習モデルを夫々実施するため、自動運転などのリアルタイム性の必要な処理には処理負荷が高すぎる課題がある。

そこで、本発明の目的は、処理負荷を抑制しつつ、高精度な領域分割結果が得られる画像処理装置等を提供することにある。

画像処理装置において、
画像データから物体を検出するオブジェクト検出部と、
前記オブジェクト検出部による検出結果に応じて、画素にカテゴリを付与する対象とする対象領域を設定する領域設定部と、
前記領域設定部にて設定した前記対象領域の前記カテゴリに属する画素に前記カテゴリを付与するカテゴリ付与部と、
を具備することを特徴とする。

本発明によれば、処理負荷を抑制しつつ、高精度な領域分割結果が得られる画像処理装置等を得ることができる。

本発明の実施形態１の画像処理装置の構成例を示すブロック図である。実施形態１における画像処理部の構成例を示す機能ブロック図である。実施形態１における画像処理部の動作例を示すフローチャートである。実施形態１における画像データの例を説明する図である。実施形態１における対象領域設定を説明する図である。実施形態１における領域ズレ推定を説明する図である。実施形態２における画像処理部の構成例を示すブロック図である。実施形態２における画像処理部の動作例を示すフローチャートである。図８の続きの動作例を示すフローチャートである。実施形態２における変倍率の決定方法を説明する図である。実施形態３における画像合成方法を説明する図である。実施形態３におけるモデル学習に使用する学習画像の作成方法を示すフローチャートである。

以下、添付図面を参照して、本発明の好適な実施の形態について実施形態を用いて説明する。尚、各図において、同一の部材ないし要素については同一の参照番号を付し、重複する説明は省略ないし簡略化する。

又、実施形態においては、画像処理装置として車載カメラに適用した例について説明する。しかし、画像処理装置はデジタルスチルカメラ、デジタルムービーカメラ、カメラ付きのスマートフォン、カメラ付きのタブレットコンピュータ、ネットワークカメラ、ドローンカメラ、ロボットに搭載されたカメラなどの撮像機能を有する電子機器等を含む。
又、実施形態では移動装置としての自動車に搭載された画像処理装置の例を用いて説明するが、移動装置は自動車に限定されず、飛行機、船舶、ロボット、ドローン等移動可能な装置を含む。
（実施形態１）

本発明の実施形態１では、画像データをオブジェクト検出し、カテゴリとその検出領域を特定する。更に、当該オブジェクト検出によって特定された検出領域における、予想される正解領域との乖離度を基に、検出領域を拡大した画像データを切り出し、その拡大した画像データに対してセマンティックセグメンテーションする例について説明する。本実施形態のセマンティックセグメンテーションで扱う検出対象のカテゴリは、人物・動物・自動車・二輪車・建物・道路・信号機・交通標識などの自然物及び人工物等の物体である。

（画像処理装置の構成）
図１は、本実施形態に係る画像処理装置の構成例を示すブロック図である。画像処理装置は、ＣＰＵ１００、ＲＡＭ１０１、ＲＯＭ１０２、撮影部１０３、画像処理部１０４、Ｉ／Ｆ（インターフェース）部１０５、バス１０６を備える。

ＣＰＵ１００は、ＲＡＭ１０１やＲＯＭ１０２に格納されているコンピュータプログラムやデータを用いて、画像処理装置全体の動作制御をおこなう。

ＲＡＭ１０１は、Ｉ／Ｆ部１０５を介してロードされたコンピュータプログラムや最新数フレーム分の画像データ、画像処理部１０４で使用する処理パラメータなど、を一時的に記憶するための記憶領域を有する。又、ＣＰＵ１００が各種の処理を実行する際に用いる記憶領域や、画像処理部１０４が画像処理を実施する際に用いる記憶領域を有する。従って、ＲＡＭ１０１は、各種の記憶領域を適宜提供することができる。

ＲＯＭ１０２には、本装置の設定データやブートプログラムなどが格納されている。
撮影部１０３は、光学レンズやＣＭＯＳイメージセンサなどから構成されるカメラで、撮影対象の映像データを取得する。本実施形態では、一般的なセンサ補正やデモザイク処理を施して、ＲＧＢカラー画像に変換したものを、ＲＡＭ１０１に格納する構成とする。

画像処理部１０４は、ＲＯＭ１０２等に記憶されたコンピュータプログラムを実行可能なプロセッサや専用の画像処理回路として実現され、本実施形態の画像処理方法を実施する。例えば、ＣＰＵ１００から画像処理を実行する指示を受け付けると、ＲＡＭ１０１に格納された画像データを処理し、検出対象を含む領域をセマンティックセグメンテーションした領域分割マップを出力する。又、画像処理の際には、ＲＡＭ１０１に記憶された処理パラメータを適宜読み出しながら処理を実施する。尚、セマンティックセグメンテーションにより形成される領域分割マップとは、画素毎（例えば１画素毎或いは複数画素毎）にカテゴリ情報を付与したマップを指す。

Ｉ／Ｆ部１０５は、外部記憶装置やインターネットに本装置を接続するためのインターフェースとして機能するものである。
上記の各部はいずれも、バス１０６に接続されている。
尚、本実施形態の画像処理装置の構成は図１に示した構成に限るものではない。

（画像処理部の構成）
次に、図２は、実施形態１における画像処理部の構成例を示す機能ブロック図であり、画像処理部１０４を専用の画像処理回路として実現する場合には、図２に示した機能ブロックにより構成すればよい。
本実施形態では、画像処理部１０４を、ＲＯＭ１０２等に記憶されたコンピュータプログラムを実行可能なプロセッサとし、図３に示した処理フローチャートに従って、処理を実行することで図２の各ブロックの機能を実現している。

図２に示すように、画像処理部１０４は、画像取得部２００、オブジェクト検出部２０１、領域設定部２０２、対象画像取得部２０３、セマンティックセグメンテーション部２０４、領域ズレ推定部２０５を備える。２００～２０５は夫々プロセッサにより実現される機能ブロックである。

画像取得部２００は、ＲＡＭ１０１に格納された処理対象の画像データを取得する。
オブジェクト検出部２０１は、画像データから所定の方法で複数の物体を検出して、それらの物体のカテゴリ及び物体が検出された検出領域を同定して出力する。

領域設定部２０２は、検出領域に対して実際に正解領域が存在する可能性がある領域とのずれに応じて前記検出領域を修正した所定の検出領域を、セマンティックセグメンテーションを実施するための対象領域として設定する。即ち、領域設定部は、オブジェクト検出部による検出結果に応じて、画素にカテゴリを付与する対象とする対象領域を設定する。
対象画像取得部２０３は、領域設定部２０２で設定された領域の画像データをＲＡＭ１０１から取得する。

セマンティックセグメンテーション部は、領域設定部２０２で設定された対象領域の画像データを、対象画像取得部２０３を介して入力し、物体と背景とをカテゴリに応じて領域分割する。ここで、セマンティックセグメンテーション部は、対象領域の画像データ内の所定のカテゴリに属する画素にそのカテゴリを付与するカテゴリ付与部として機能している。

尚、画素毎にカテゴリを付与する際に、画素毎ではなく複数画素毎にカテゴリを付与しも良い。
領域ズレ推定部２０５は、オブジェクト検出部２０１とセマンティックセグメンテーション部２０４の出力結果を比較して、オブジェクト検出部２０１で発生する領域ズレ量を推定する。

（画像処理部の動作説明）
図３は、実施形態１における画像処理部の動作例を示すフローチャートである。画像処理部１０４内のプロセッサがコンピュータプログラムを実行することで、図２に示す各ブロックの機能を実現すると共に、図３の各ステップの処理を行う。
処理をスタートすると、まず、ステップＳ３００において、画像取得部２００により、ＲＡＭ１０１から画像データを取得する。
図４は実施形態１における画像データの例を説明する図であり、図４（Ａ）に示す画像データは、道路上に対象物体として人、自動車及び交通標識が存在する例である。

ステップＳ３０１において、オブジェクト検出部２０１は、画像データ中の物体を検出し、物体のカテゴリ情報と物体が検出された検出領域を同定して出力する（オブジェクト検出工程）。オブジェクト検出の手法は、従来手法と同等の処理で良い。比較的処理負荷が低く、高いロバスト性でオブジェクト検出可能なニューラルネットワークとして、Ｒ－ＣＮＮ（Ｒｅｇｉｏｎ－ｂａｓｅｄＣＮＮ）、ＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）、ＳＳＤ（ＳｉｎｇｌｅＳｈｏｔＤｅｔｅｃｔｏｒ）などが知られている。

本実施形態では、これらの一般的なニューラルネットワークに対し、カテゴリ（人、車、標識）と、そのカテゴリ毎の検出領域の正解データを紐づけられた学習画像データセットによって機械学習したモデルを用いてオブジェクト検出する。検出領域が、正解領域と所定の重複率以上となった上で、検出したカテゴリが正解と正しい場合に検出成功とみなして、オブジェクト検出における検出精度を示す検出率が算出される。検出領域と正解領域の重複率の基準としては、ＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）などが使用される。また、所定の重複率の一例としては、５０％や７５％などが考えられる。

本実施形態において、オブジェクト検出を行った場合の模式図を図４（Ｂ）に示す。オブジェクト検出のニューラルネットワークは、学習データからオブジェクト検出に必要な特徴を自動的に定義し、これらの局所的な特徴を次第にまとめて大局的な判定を得る。従って、例えば、対象物体の同定に必要な特徴を表現できるだけのネットワーク規模がない場合や、学習データと実際に推論を行う画像データ間で、特徴的な差異がある場合などにおいて、十分にオブジェクト検出の性能を発揮できない場合がある。

従って、画像データをオブジェクト検出した場合に出力される検出領域は、正解と考えられる検出領域と領域ズレが生じてしまう。本実施形態では、この領域ズレを考慮しつつセマンティックセグメンテーションのための領域を設定することで、セマンティックセグメンテーションの精度を向上させている。

ステップＳ３０２において、未処理の物体があるか否かにより分岐する。未処理の物体がある場合はステップＳ３０３に進み、未検出及び検出した物体に対し全て処理した場合は処理を完了する。

ステップＳ３０３において、領域設定部２０２は、オブジェクト検出部２０１で出力される検出領域を検出領域に対して実際に正解領域が存在する可能性がある領域とのずれに応じて修正する。それにより、セマンティックセグメンテーションを実施する対象領域を最適化するように設定する（領域設定工程）。図５を用いて、領域設定の方法について説明する。
図５は実施形態１における対象領域設定を説明する図であり、図５（Ａ）は、車を検出した場合の検出領域（図中、破線の枠）と、正解と想定される領域（図中、実線の枠）を示している。正解と想定される領域は、対象となる物体に外接する矩形を想定している。

図中で示すように検出領域は、正解領域との領域ズレを生じる可能性がある。従って、本実施形態では、検出領域を正解領域との領域ズレに応じて修正することでセマンティックセグメンテーションを実施するための領域を設定する。図５（Ｂ）に、ＩｏＵ＝５０％の場合の、検出領域と正解領域の関係の例を挙げる。図５（Ｂ）の左側２つは、正解領域に内包されるように検出領域が出力される場合を示し、図５（Ｂ）の右側２つは、検出領域が正解領域を内包するように出力される場合を示している。

図５（Ｂ）からＩｏＵ＝５０％を想定すると、検出領域の幅ｗ１はｗ０／２～ｗ０＊２の範囲、検出領域の高さｈ１はｈ１／２～ｈ１＊２の範囲になることが分かる。従って、ＩｏＵ＝５０％を基準にした検出率を得るオブジェクト検出モデルにより検出された検出領域に対して、実際の正解領域は、上記の範囲で存在することが想定される。図５（Ｃ）に、検出領域の変動率Ｉを０．５（ＩｏＵ＝５０％相当）とした場合の修正した領域（図中、外側の矩形）を示す。検出領域は、図５（Ｂ）に示す正解領域と検出領域の関係から、左右方向に夫々（１／Ｉ－１）＊ｗ１の領域を拡張し、上下方向に夫々（１／Ｉ－１）＊ｈ１の領域を拡張することで、正解領域を含む領域に修正することができる。

修正した領域は、検出領域がＩｏＵ＝５０％以上で正解領域と重複するという想定のもと、検出領域の幅及び高さを３倍に拡大したものである。検出領域が変動した場合であっても、修正領域内には、物体が内包され、確実に領域分割することができる。一方で、領域の拡大を必要最低限にすることにより、その後のセマンティックセグメンテーションの処理量を抑制することができる。

本実施形態ではこのようにして、検出領域に対して実際に正解領域が存在する可能性がある領域とのずれに応じて例えば拡大することにより修正された検出領域をセマンティックセグメンテーションの対象領域として設定する。尚、オブジェクト検出による変動率は、左右方向と上下方向で異なる変動率を用いてもよいし、カテゴリ値に応じて異なる変動率を用いても良い。即ち、領域設定部は、カテゴリに応じて検出領域を修正して対象領域を設定しても良い。
更に、検出領域内に正解領域を内包するようなオブジェクト検出を行う場合には、検出領域を拡張することなく、セマンティックセグメンテーションをおこなってもよい。

ステップＳ３０４において、対象画像取得部２０３は、ステップＳ３０３で設定された対象領域の画像データをＲＡＭ１０１から取得する。ここで取得する画像データは、対象領域に限定されているため、ＲＡＭ１０１へのアクセス回数を減らすことができる。又、よりＲＡＭ１０１へのアクセス回数を削減するため、画像取得部２００に一時的に画像データを保持する記憶領域を確保し、この記憶領域に対象領域の画像データが存在する場合は記憶領域から画像データを読み出すキャッシュ構成にしても良い。

ステップＳ３０５において、セマンティックセグメンテーション部２０４は、対象領域の画像データ内の所定のカテゴリに属する画素に夫々カテゴリを付与することで、カテゴリに基づく画素毎の領域分割を実施する（カテゴリ付与工程）。セマンティックセグメンテーションの手法は、従来手法と同等の処理で良い。高い精度で領域分割可能なニューラルネットワークとして、ＳｅｇＮｅｔやＵ－Ｎｅｔなどが知られている。

これらのネットワークは、Ｅｎｃｏｄｅｒ－Ｄｅｃｏｄｅｒ型と呼ばれており、前半のＥｎｃｏｄｅｒ側でプーリングを行いながら、カテゴリ分類に必要な特徴を大局的にまとめいく。次に、後半のＤｅｃｏｄｅｒ側でアップサンプリングしながら領域単位のカテゴリ判定から画素単位のカテゴリ判定に段階的に領域分割（カテゴリ分類）を実現する。

本実施形態では、これらの一般的なニューラルネットワークに対し、画素毎のカテゴリ（人、車、標識）判定と紐づけられた学習画像データセットによって機械学習したモデルを用いてセマンティックセグメンテーションする。図４（Ｃ）に、画像データに対するセマンティックセグメンテーション結果を示す。本実施形態では、オブジェクト検出における検出領域（破線の枠で図示）からＩｏＵ等に基づき拡大した対象領域（実線の枠で図示）を設定し、この対象領域に対して、セマンティックセグメンテーションを実施している。従って、物体（人、車、標識）と背景部分を高精度に領域分割することができる。

次に、ステップＳ３０６において、領域ズレ推定部２０５は、検出領域に含まれる領域ズレ量を推定する。上記ステップＳ３０３にて、ＩｏＵ＝５０％を想定した場合の領域ズレ量の推定方法について説明した。これは、事前にオブジェクト検出の検出精度が分かっている場合の領域ズレ量の想定方法として有効である。但し、実際にオブジェクト検出の検出精度は、撮影環境、対象物体の多様性によって変動する。従って、領域ズレ量は実際に検出している物体のカテゴリや、撮影環境からリアルタイムにフィードバックによって推定していくことが望ましく、本実施形態ではそのように構成している。

本実施形態の、オブジェクト検出による検出領域と、セマンティックセグメンテーションの結果から、カテゴリ毎の領域ズレ量を推定する方法を、図６を用いて説明する。
図６は実施形態１における領域ズレ推定を説明する図であり、図６（Ａ）では人、図６（Ｂ）では道路標識をセマンティックセグメンテーションした例を示している。夫々、破線の枠はオブジェクト検出による検出領域を示しており、図６（Ａ）の斜線部分は人、図６（Ｂ）の黒塗り部分は道路標識をセマンティックセグメンテーションによりカテゴリに基づき領域分割した例を示している。

まず、夫々セマンティックセグメンテーションによりカテゴリに基づき領域分割した物体について、正解領域を推定する。正解領域は上記の領域分割した物体に対し、外接する矩形領域とする。具体的には、領域分割マップ上のオブジェクト検出領域から上下左右方向に十分拡張した矩形領域を徐々に縮小方向に狭めていき、上下左右夫々の辺で最初に検出対象のカテゴリ値（人、車、標識）に接触した辺について縮小を停止することで得ることができる。このようにして、カテゴリが付与された物体の正解領域（実線の枠で図示）の位置とオブジェクト検出領域の位置との差分を算出することで対象領域のズレを推定する。

検出領域の左側差分をＥｘ０、右側差分をＥｘ１、上側差分をＥｙ０、下側差分をＥｙ１とする。夫々、検出領域の幅、もしくは、高さとの比によって、領域ズレ量を推定する。具体的には、検出領域と正解領域の左側のズレ量はＥｘ０／ｗ１、右側のズレ量はＥｘ１／ｗ１、上側のズレ量はＥｙ０／ｈ１、下側のズレ量はＥｙ１／ｈ１と推定される。夫々、正負付きの割合で推定され、正の割合の場合は検出領域を拡大する方向、負の割合の場合は検出領域を縮小する方向を示す。

ここで推定した領域ズレ量は、領域設定部２０２にフィードバックされ、領域設定時に検出領域を修正する場合に、上下左右に増減させる割合として参照される。尚、オブジェクト検出、及び、セマンティックセグメンテーションは、画像データに応じて変動を含んだ結果を出力する。従って、領域ズレ量の推定においては、各方向の複数の領域ズレ量を平滑化して領域ズレ量を算出した方が、精度良く領域ズレ量を推定することができる。従ってそのように構成しても良い。

又、突発的に領域ズレ量が大きくなることもあるため、推定した領域ズレ量に対し、検出領域を拡大する方向にマージンをもたせても良い。更に、検出するカテゴリに応じて、領域ズレ量は傾向が異なる。例えば、図６（Ａ）に示すカテゴリが人の検出領域は、人の体型や服装、姿勢など多くの変動要因を持つため、領域ズレ量は大きくなる傾向がある。一方で、図６（Ｂ）に示す標識は、交通規格などにより、サイズや色、形がある程度決まっているため、検出領域のズレ量は比較的小さい。

従って、領域ズレ量を推定する際に、カテゴリに応じた領域ズレ量を推定し、領域設定部２０２において、カテゴリに応じた領域ズレ量を用いて、検出領域を修正しても良い。
上記の処理により、オブジェクト検出によってロバスト性高く検出した物体に対し、必要最低限の領域をセマンティックセグメンテーションすることで、処理負荷を抑制した状態で高精度な領域分割を実現することが可能となる。

（画像処理部の変形例１）
上記では、オブジェクト検出により検出した物体に対し、１つ１つに対象領域を設定し、セマンティックセグメンテーションを行う例を示した。この変形例として、複数の検出物体に対し、これらを包含する１つの対象領域を設定し、セマンティックセグメンテーションを実施しても良い。

図４（Ｄ）は、個別の物体毎に修正された検出領域を算出した上で、それらの修正された複数の検出領域を包含するような領域４００をセマンティックセグメンテーションの対象領域として設定し、セマンティックセグメンテーションを行う例である。検出する物体が増加し、密度が増えてくると、互いの領域が重複していくことが考えられる。そのような場合には、領域４００のような包括的な領域を対象領域として設定しセマンティックセグメンテーションを実施した方が、全体的な処理負荷を低減できる場合がある

（画像処理部の変形例２）
上記では、セマンティックセグメンテーションの機械学習モデルとして、カテゴリ（人、車、標識）に基づき領域を分割可能なように学習したモデルを使用する例を説明した。一方で、オブジェクト検出により検出した物体に対し、１つ１つ対象領域を設定し、セマンティックセグメンテーションを実施する例を説明した。即ち、セマンティックセグメンテーションを実施する対象領域は、領域分割しようとするカテゴリが予めわかっている。従って、カテゴリに応じて、セマンティックセグメンテーションの手法を切替えても良い。

例えば、道路標識であれば、予め規格で決まる標準的な標識画像をテンプレートとして保持し、このテンプレートとのマッチング処理により領域分割を実施した方が処理負荷を抑制できる場合がある。又、車の領域分割についてみると、車種の推定などを一旦行い、この車種情報を付加情報とするセマンティックセグメンテーションを実施した方が領域分割精度を向上させることができる。

予めカテゴリに応じて別々に学習しておいたモデル、又は、学習内容を定義する夫々異なるパラメータセットを切り替えてセマンティックセグメンテーションを実施するように決めても良い。それにより、個別のカテゴリにおける領域分割の学習効率を高めたり、後から領域分割するカテゴリを追加したりすることが容易にできる。
（実施形態２）

本発明の実施形態２として、画像データをオブジェクト検出しカテゴリとその検出領域を特定する。更に、検出した対象物体を含む領域を、セマンティックセグメンテーションの分割精度が最も高くなると予想される領域サイズに変倍して処理する例について説明する。
本実施形態の画像処理装置の構成は、図１に示す実施形態１と同一の構成で良いので説明を省略する。

（画像処理部の構成）
図７は、実施形態２における画像処理部の構成例を示すブロック図である。
又、図８は実施形態２における画像処理部１０４の動作を示すフローチャートである。尚、前述してきた同名、同符号の構成要素については、その詳細説明を省略し、差異がある場合のみ説明を行う。

実施形態２の画像処理部１０４は、画像取得部２００、オブジェクト検出部２０１、領域設定部２０２、対象画像取得部２０３、セマンティックセグメンテーション部２０４を備える。更に、第１変倍部２０６、画像合成部２０７、画像切出し部２０８、第２変倍部２０９を備える。そして、領域設定部にて設定した対象領域の画像データをセマンティックセグメンテーション部に供給する前に、第１変倍部によって第１変倍率にて変倍する。

又、第１の変倍部で変倍された対象領域の画像データを、画像合成部２０７で他の対象領域の画像データと合成してからセマンティックセグメンテーション部に供給する。又、セマンティックセグメンテーション部にてカテゴリに属する画素にカテゴリを付与した後の画像データを第２変倍部２０９により第２変倍率にて変倍する。尚、図７には図示していないが、実施形態１と同様の領域ズレ推定部２０５を第２変倍部２０９の後ろ等に設けても良い。
又、実施形態２において、２００～２０９等は夫々プロセッサにより実現される機能ブロックである。

第１変倍部２０６は、検出対象の画像上の大きさが、セマンティックセグメンテーションに好適なサイズになるような変倍率で、対象領域の画像データを拡大縮小する。画像合成部２０７は、複数の対象領域の画像データを合成し、セマンティックセグメンテーションを実施する画像データを生成する。

画像切出し部２０８は、セマンティックセグメンテーションを実施した領域分割マップから、対象物体の領域を切り出す。即ち、セマンティックセグメンテーション部にて各カテゴリに属する画素にカテゴリを付与した後の画像データを第２変倍部に供給する前に、対象領域毎に画像データを切出す。
第２変倍部２０９は、上記第１変倍部２０６における変倍率の逆数となる変倍率で、領域分割マップを拡大縮小し、入力画像データ中の対象物体と同等の解像度を持つ領域分割マップを得る。

（画像処理部の動作説明）
図８は実施形態２における画像処理部の動作例を示すフローチャート、図９は図８の続きの動作例を示すフローチャートである。画像処理部１０４内のプロセッサがコンピュータプログラムを実行することで、図７に示す各ブロックの機能を実現すると共に、図８、図９の各ステップの処理を行う。尚、前述してきた同名・同符号のステップについては、詳細説明を省略し、差異がある場合に説明を追加する。

処理をスタートすると、ステップＳ３００～Ｓ３０１で、画像データに対してオブジェクト検出を行い、物体のカテゴリ情報と検出領域を得る。又、ステップＳ３０２で、未処理の物体があれば、ステップＳ３０３で、各物体の検出領域を実施形態１と同様の方法で適応的に修正し、修正した検出領域に対応する対象領域を設定し、ステップＳ３０４で対象領域の画像データを得る。ステップＳ３０２で、未処理の物体が無ければ処理を終了する。

ステップＳ３０７において、後段のセマンティックセグメンテーション部にて好適な画像サイズになるように、対象領域の画像データの変倍率を決定する。機械学習を用いたニューラルネットワーク構造では、画像中の検出物体サイズのロバスト性を高めるため、プーリング層を多段に設け、夫々の解像度において特徴を抽出している。

これにより、物体の輪郭が明瞭な場合には画像上のサイズに依存しないオブジェクト検出、及び領域分割が可能となる。しかしながら、隠れ層の段数が増加するに従って推論のための演算量やパラメータセットを保持するメモリ量が急激に増加するため、隠れ層の段数は対応する検出物体サイズの変動量に応じて適切に設定される必要がある。

図１０は、実施形態２における変倍率の決定方法を説明する図である。
実施形態２では、セマンティックセグメンテーションの入力画像サイズとしてＶＧＡ画像（幅６４０画素、高さ４８０画素）を想定し、領域分割を行う最適な物体サイズは、約１００画素×約１００画素程度を目安とする。このように、セマンティックセグメンテーションの最適な物体サイズをある程度の大きさに決めることで、ネットワーク構成の隠れ層を省略し、処理負荷を低減することが可能となる。

又、隠れ層を削減可能な基準としては、ＮとＭを正の整数とすると、物体サイズがＮ画素×Ｍ画素～Ｎ／２画素×Ｍ／２画素の範囲に収まるように変倍することが好ましい。これは、プーリング処理がデータ量を縦横２分の１にしていくことが多く、物体サイズの変動に対し、有効な特徴をプーリング回数によって切り替えているためである。又、領域分割を行うための最適な物体サイズが不明のモデルであっても、大きさを変化させた物体画像を実際に処理し分割精度を確認することで、最適な物体サイズを事前に決定することができる。

この最適な物体サイズの目安と、オブジェクト検出における検出領域が変動分を含むことを考慮し、ＶＧＡ画像を縦横１６分割した幅１６０画素、高さ１２０画素のサイズに小領域に分割する。そして、この小領域に物体を含む検出領域（変動分を考慮され拡大された領域）が入るように変倍率を設定する。検出物体の幅をＷ画素、高さをＨ画素とすると、（Ｗ／１６０）倍及び（Ｈ／１２０）倍による変倍結果のうち、小領域に格納できるサイズ（幅、高さ）に変倍できた方の変倍率を選択することで、物体のアスペクト比を変更せずに第１変倍率を決定できる。

ステップＳ３０８において、第１変倍部２０６は、上記の第１変倍率を用いて第１変倍処理を実施する（第１変倍工程）。変倍処理の方法は、公知の方法で良い。尚、変倍率によって縮小する場合と拡大する場合において、変倍処理の方法を変更しても良い。セマンティックセグメンテーションによる領域分割においては、物体の形状の明瞭度が領域分割の精度に大きく影響するが、縮小する場合は、元の画像データの形状が劣化しづらいため低次の補間方法（バイリニア補間）を用いても良い。一方で、拡大する場合には形状が劣化しやすいため高次の補間方法（バイキュービック補間、ランチョス補間など）を用いることで、演算量と領域分割精度のバランスをとることが可能である。

ステップＳ３０９において、画像合成部２０７は、セマンティックセグメンテーション部２０４に入力するための合成された画像データを生成する（画像合成工程）。本実施形態では、図９に示すように、ＶＧＡ画像を１６分割した小領域夫々に、異なる変倍率によってサイズを調整された物体を含む領域を順に合成することで画像データを生成する。

尚、物体の検出数が１６に満たない場合には、空白の小領域が存在する状態でセマンティックセグメンテーションを実施しても良い。後段の画像切出し部２０８において、空白の小領域は切り出されることはないため、空白の小領域があっても影響を受けることはない。尚、ステップＳ３０９で合成を行うのは、セマンティックセグメンテーション部２０４における処理効率を向上するためである。

ステップＳ３１０において、合成画像が完成したか否かを判別して分岐する。合成画像が完成していない場合は、ステップＳ３０３に戻り、次の物体に対する処理領域を合成する。又、合成画像が完成した場合には、図９のステップＳ３０５に進み、合成画像のセマンティックセグメンテーションを実施することで、合成画像の領域分割マップを得る。
ステップＳ３１１において、合成画像の領域分割マップにおいて、未出力の小領域があるか否かを判別して分岐する。未出力の小領域がある場合は、ステップＳ３１２に進み、全ての小領域を出力済みの場合は、ステップＳ３０２に進む。

ステップＳ３１２において、画像切出し部２０８は、合成画像の領域分割マップから、１物体に対する領域分割マップを切り出す。本実施形態では、合成画像は１６分割された小領域から構成されるため、順に小領域を切り出す。
ステップＳ３１３において、第２変倍率を算出する。第２変倍率は、合成画像の小領域を元の解像度に戻すための変倍率である。従って、第１変倍率の逆数を計算することで算出する。

ステップＳ３１４において、第２変倍部２０９は、第２変倍率をもとに第２変倍処理を実施する（第２変倍工程）。第２変倍処理は、領域分割マップに施される。領域分割マップは、通常の画像データとは異なり、画素値に対してカテゴリを示す値が付加されて格納されている。尚、補間処理によって、カテゴリ値と異なる値が出ることは好ましくないので本実施形態では第２変倍処理として、ニアレストネイバー補間などのように、補間後のマップにカテゴリ値しか出現しないような補間補法を用いる。

上記の処理によって、セマンティックセグメンテーションの処理負荷を低減しつつ、効率良く、高精度に領域分割が可能となる。尚、本実施形態に示した合成画像は処理効率を向上するためのものであり、少なくとも領域分割に適切な第１変倍処理と、入力解像度に戻すための第２変倍処理を用いることで、本実施形態の効果を得ることができる。
（実施形態３）

実施形態３では、オブジェクト検出で検出したカテゴリに応じて予め定められた所定の画像位置、又は複数のカテゴリで共有する予め定められた位置のいずれか一方に前記対象領域の画像データを配置して合成画像を生成する。そしてその合成画像をセマンティックセグメンテーションする。

実施形態３を適用する画像処理装置の構成は、実施形態１及び実施形態２と同一の構成で良く、説明を省略する。又、画像処理部１０４の構成についても実施形態２の構成で実現可能なので説明を省略する。
本実施形態では、図７に示す画像合成部２０７、及び、画像切出し部２０８の動作により、セマンティックセグメンテーションの学習効率を高めるようにしている。
図１１は、実施形態３における画像合成方法を説明する図であり、画像合成部２０７によって合成する合成画像１０００を示している。合成画像１０００は、カテゴリに応じて予め位置が固定された小領域と、カテゴリ共通の小領域に分割されている。

又、オブジェクト検出によって検出した物体のカテゴリと検出領域に基づき、実際に正解領域が存在する可能性がある領域とのずれ等を考慮して拡大した対象領域を、カテゴリに応じてどの画像位置に配置して合成するかを矢印で示している。
物体のカテゴリに応じて予め物体の存在する画像の領域を限定することで、セマンティックセグメンテーションを実現する際のモデルにおいて、大局的な特徴の学習を省略することが可能となる。特に、ボトルネック層と呼ばれる、画像の大部分に影響を与える隠れ層があるネットワーク構成において、高い学習効率効果を得ることができる。

モデル学習時は、一般的には、画像上のどの位置に物体が出現するかは分からないため、物体のカテゴリと出現する位置の組合せにおいて、様々なパターンを想定し学習を行う必要がある。しかし実施形態３のように、オブジェクト検出を組み合わせることで、物体のカテゴリと物体が出現する位置を固定化することが可能であり、学習を行うパターンを限定し学習効率を高めることができる。また、小領域間の境界が必ず存在することで、必要な特徴の範囲は小領域間に限定され、ボトルネック層の学習を省略することが可能となる。

図１２は、実施形態３におけるモデル学習に使用する学習画像の作成方法を示すフローチャートであり、図８のステップＳ３０９の合成処理に対応している。画像処理部１０４内のプロセッサがコンピュータプログラムを実行することで、図７に示す各ブロックの機能を実現すると共に、図１２の各ステップの処理を行う。
本実施形態における学習画像の作成方法は、一般的なデータセット（入力画像と、入力画像内に存在する物体のカテゴリ毎に分割された領域分割マップのセット）を予め用意（設定）しておくことが前提となる。

そのため、ステップＳ１１００において、領域分割マップに、画像中の物体（カテゴリ値）毎の検出領域を設定する。検出領域は、物体に外接する矩形領域を設定する。領域分割マップは、同一の物体は、同一のカテゴリ値によって互いに連結されているため、物体の上下左右方向から徐々に矩形領域を狭めていき、カテゴリ値に接触した辺を固定する方法で、ある程度自動的に設定することが可能である。

ステップＳ１１０１において、ステップＳ１１００による検出領域に対し、オブジェクト検出で変動することを考慮して検出領域を拡大する。検出領域の拡大方法に関しては、実施形態１で説明した方法によって拡大可能である。
ステップＳ１１０２において、カテゴリ値に応じた位置の小領域に対して、ステップＳ１１０１にて拡大した検出領域を配置する。このとき、小領域のサイズに合わせて、拡大した検出領域は変倍を行ってから配置する。このステップＳ１１０２では、学習時に入力データとなる画像データと、画像データに紐づく領域分割マップの両方を生成する。

ステップＳ１１０３では、共有位置の小領域に対して、ステップＳ１１０１にて拡大した検出領域を配置する。このとき、共有位置の小領域のサイズに合わせて、変倍処理を行うが、ステップＳ１１０２におけるカテゴリ毎の小領域サイズと異なる場合には、異なる変倍率によって変倍を行う。このステップＳ１１０３でも、学習時に入力データとなる画像データと、画像データに紐づく領域分割マップの両方を生成するが、ステップＳ１１０２にて生成したデータに上書きする形で生成しても良い。

ステップＳ１１０４において、データセットの入力画像中の全物体に対して処理したか分岐する。
ステップＳ１１０５において、データセットの全画像に対して処理したか分岐する。
上記の処理により、本実施形態における学習時の入力画像データと、正解となる領域分割マップを得ることができる。これらのデータセットを利用して、セマンティックセグメンテーションのモデルを効率的に学習させることができる。

又、実施形態３のように、小領域の使用カテゴリを予め決めることで、物体の出現に偏りがある場合、例えば車カテゴリの物体が大量に存在する場合などは、セマンティックセグメンテーションの実行効率が下がってしまうことがある。これに対し、本実施形態では共有の小領域を設定することにより、物体の出現頻度によって実行効率が下がるようなことを回避することができる。尚、共有の小領域を設定することは、学習効率とはトレードオフの関係にある。

又、小領域の使用カテゴリに応じて、予め定められたアスペクト比の領域に検出領域の画像データを配置して合成画像を生成することで、より効率的に合成画像を生成することができる。例えば、車カテゴリであれば正方形に近い小領域を設定し、人カテゴリであれば縦長の小領域を設定することで、効率的に小領域を敷き詰めることが可能となり、セマンティックセグメンテーションの実行効率を高めることができる。
以上のように、予め物体のカテゴリに応じて配置位置を定めた画像データを合成し、その合成画像データに対してセマンティックセグメンテーションを実施することで、ロバスト性が高く高精度な領域分割を効率よく実現することが可能となる。

又、実施形態における、画像処理装置を有する撮像装置や画像処理装置を、自動車等の移動装置に搭載した場合には例えば以下のような構成を有する。即ち、セマンティックセグメンテーション部２０４にて前記カテゴリに属する画素に前記カテゴリを付与した後の画像データに基づき、障害物に関する警告や移動装置の方向や速度等の移動動作を制御する制御部を設ける。
本実施形態の画像処理装置では、処理負荷を抑制しつつ、ロバスト性が高く、高精度な領域分割結果が得られるので、例えば遠くの前方車や障害物等をより早く認識することができ、事故を速やかに回避できる等の優れた効果が得られる。

以上、本発明をその好適な実施形態に基づいて詳述してきたが、本発明は上記実施形態に限定されるものではなく、本発明の主旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。

尚、本実施形態における制御の一部又は全部を上述した実施形態の機能を実現するコンピュータプログラムをネットワーク又は各種記憶媒体を介して画像処理装置や移動装置等に供給するようにしてもよい。そしてその画像処理装置や移動装置等におけるコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行するようにしてもよい。その場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することとなる。

１００ＣＰＵ
１０１ＲＡＭ
１０２ＲＯＭ
１０３撮影部
１０４画像処理部
１０５Ｉ／Ｆ部
２００画像取得部
２０１オブジェクト検出部
２０２領域設定部
２０３対象画像取得部
２０４セマンティックセグメンテーション部
２０５領域ズレ推定部
２０６第１変倍部
２０７画像合成部
２０８画像切出し部
２０９第２変倍部

Claims

画像データから物体を検出するオブジェクト検出部と、
前記オブジェクト検出部による検出結果に応じて、画素にカテゴリを付与する対象とする対象領域を設定する領域設定部と、
前記領域設定部にて設定した前記対象領域の前記カテゴリに属する画素に前記カテゴリを付与するカテゴリ付与部と、
を具備することを特徴とする画像処理装置。
前記領域設定部は、前記オブジェクト検出部が前記物体を検出した検出領域を拡大することにより前記対象領域を設定することを特徴とする請求項１に記載の画像処理装置。
前記領域設定部は、前記カテゴリに応じて前記検出領域を修正して前記対象領域を設定することを特徴とする請求項２に記載の画像処理装置。
前記カテゴリ付与部において前記カテゴリを付与された前記物体の位置に基づき前記対象領域のズレを推定する領域ズレ推定部を有することを特徴とする請求項１に記載の画像処理装置。
前記領域設定部は、前記領域ズレ推定部によって推定された領域ズレを参照して前記対象領域を設定することを特徴とする請求項４に記載の画像処理装置。
前記領域ズレ推定部は、前記カテゴリ付与部により前記カテゴリが付与された前記物体の位置と、前記オブジェクト検出部が前記物体を検出した検出領域の位置を比較して前記領域ズレを推定することを特徴とする請求項５に記載の画像処理装置。
前記領域ズレ推定部は、前記カテゴリに応じて、領域ズレ量を推定することを特徴とする請求項４に記載の画像処理装置。
前記領域設定部は、前記オブジェクト検出部にて検出される複数の前記検出領域の夫々を修正し、修正された複数の前記検出領域を含む領域を前記対象領域として設定することを特徴とする請求項２又は３に記載の画像処理装置。
前記カテゴリ付与部は、前記オブジェクト検出部にて検出される前記物体の前記カテゴリに応じて、異なるパラメータセットを用いて前記カテゴリの付与をすることを特徴とする請求項１から７のいずれか１項に記載の画像処理装置。
画像データから物体を検出すると共に、前記物体のカテゴリと前記物体が検出された所定の検出領域を出力するオブジェクト検出部と、
前記検出領域の前記画像データ内の前記カテゴリに属する画素に前記カテゴリを付与するカテゴリ付与部と、
前記検出領域の前記画像データを、前記カテゴリ付与部に供給する前に、第１変倍率にて変倍する第１変倍部を有することを特徴とする画像処理装置。
前記カテゴリ付与部にて前記カテゴリに属する画素に前記カテゴリを付与した後の前記画像データを第２変倍率にて変倍する第２変倍部を有することを特徴とする請求項１０に記載の画像処理装置。
前記第２変倍率は前記第１変倍率の逆数であることを特徴とする請求項１１に記載の画像処理装置。
前記第１変倍部で変倍された前記検出領域の前記画像データを、他の検出領域の画像データと合成してから前記カテゴリ付与部に供給する画像合成部を有することを特徴とする請求項１０に記載の画像処理装置。
前記画像合成部は、前記カテゴリに応じて予め定められた位置、又は複数の前記カテゴリで共有する予め定められた位置のいずれか一方に前記検出領域の前記画像データを配置して合成画像を生成することを特徴とする請求項１３に記載の画像処理装置。
前記画像合成部は、前記カテゴリに応じて予め定められた位置に前記検出領域の前記画像データを配置して合成画像を生成することを特徴とする請求項１３に記載の画像処理装置。
前記画像合成部は、前記カテゴリに応じて予め定められたアスペクト比の領域に前記検出領域の前記画像データを配置して合成画像を生成することを特徴とする請求項１３に記載の画像処理装置。
前記カテゴリ付与部にて前記カテゴリに属する画素に前記カテゴリを付与した後の前記画像データを前記第２変倍部に供給する前に、前記対象領域毎に前記画像データを切出す切出し部を有することを特徴とする請求項１１又は１２に記載の画像処理装置。
前記カテゴリ付与部は、前記検出領域の画像データ内の前記カテゴリに属する画素に前記カテゴリを付与する機械学習モデルを含むことを特徴とする請求項１０～１７のいずれか１項に記載の画像処理装置。
前記カテゴリ付与部は、前記検出領域に対してセマンティックセグメンテーションを行うことを特徴とする請求項１８に記載の画像処理装置。
画像データから物体を検出するオブジェクト検出工程、
前記オブジェクト検出工程による検出結果に応じて、画素にカテゴリを付与する対象とする対象領域を設定する領域設定工程と、
前記領域設定工程にて設定した前記対象領域の前記カテゴリに属する画素に前記カテゴリを付与するカテゴリ付与工程と、
を具備することを特徴とする画像処理方法。
前記領域設定工程にて設定した前記対象領域の前記画像データを、前記カテゴリ付与工程に供給する前に、第１変倍率にて変倍する第１変倍工程と、
前記カテゴリ付与工程にて前記カテゴリに属する画素に前記カテゴリを付与した後の前記画像データを第２変倍率にて変倍する第２変倍工程と、を有することを特徴とする請求項２０に記載の画像処理方法。
前記第２変倍率は前記第１変倍率の逆数であることを特徴とする請求項２１に記載の画像処理方法。
前記第１変倍工程で変倍された前記対象領域の前記画像データを、他の対象領域の画像データと合成してから前記カテゴリ付与工程に供給する画像合成工程を有することを特徴とする請求項２１又は２２に記載の画像処理方法。
請求項１～１９のいずれか１項に記載の画像処理装置が搭載され、
前記カテゴリ付与部にて前記カテゴリに属する画素に前記カテゴリを付与した後の前記画像データに基づき警告又は移動装置の移動動作を制御する制御部と、を有することを特徴とする移動装置。
請求項１～１９のいずれか１項に記載の画像処理装置又は請求項２４に記載の移動装置の各部をコンピュータにより制御するためのコンピュータプログラム。