JP2022044155A

JP2022044155A - 画像処理装置

Info

Publication number: JP2022044155A
Application number: JP2020149643A
Authority: JP
Inventors: 將馬坂本; Shoma Sakamoto
Original assignee: Subaru Corp
Current assignee: Subaru Corp
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2022-03-17
Also published as: US20220076045A1

Abstract

【課題】演算量を低減することができる画像処理装置を提供する。【解決手段】画像処理装置１は、撮像画像に含まれる第１の特徴量を抽出する第１の抽出部である特徴抽出部４３と、第１の特徴量に基づいて物体を識別する第１の物体識別部である物体識別部４５と、撮像画像において画像領域を設定する領域設定部３２と、画像領域の画像に含まれる第２の特徴量を抽出する第２の抽出部である特徴抽出部３３と、領域設定部３２が設定した画像領域についての情報に基づいて、特徴抽出部４３が抽出した第１の特徴量のうちの一部を選択する特徴量選択部２２と、第２の特徴量及び第１の特徴量のうちの特徴量選択部２２により選択された特徴量に基づいて物体を識別する第２の物体識別部３５と、を備える。【選択図】図１

Description

本開示は、撮像装置により得られた撮像画像に基づいて物体を識別する画像処理装置に関する。

撮像装置により得られた撮像画像には、様々な物体の画像が含まれる。特許文献１には、被写体を判別する画像認識装置が開示されている。

特開２０１１－１６５００８号公報

物体を識別する画像処理装置では、識別精度を高めつつ演算量を低減することが望まれており、さらなる演算量の低減が期待されている。

演算量を低減することができる画像処理装置を提供することが望ましい。

本開示の一実施の形態に係る画像処理装置は、第１の抽出部と、第１の物体識別部と、領域設定部と、第２の抽出部と、選択部と、第２の物体識別部とを備えている。第１の抽出部は、撮像画像に含まれる第１の特徴量を抽出するように構成される。第１の物体識別部は、第１の特徴量に基づいて物体を識別するように構成される。領域設定部は、撮像画像において画像領域を設定するように構成される。第２の抽出部は、画像領域の画像に含まれる第２の特徴量を抽出するように構成される。選択部は、領域設定部が設定した画像領域についての情報に基づいて、第１の抽出部が抽出した第１の特徴量のうちの一部を選択するように構成される。第２の物体識別部は、第２の特徴量、および第１の特徴量のうちの選択部により選択された特徴量に基づいて物体を識別するように構成される。

本開示の一実施の形態に係る画像処理装置によれば、演算量を低減することができる。

本開示の一実施の形態に係る画像処理装置の一構成例を表すブロック図である。図１に示したステレオカメラが生成した左画像および右画像の一例を表す説明図である。図１に示した領域設定部が設定した画像領域の一例を表す説明図である。図１に示した特徴量抽出部におけるニューラルネットワークの一構成例を表す説明図である。図１に示した特徴量抽出部の一動作例を表す説明図である。図１に示した特徴量抽出部の一動作例を表す説明図である。変形例に係る画像処理装置の一構成例を表すブロック図である。他の変形例に係る画像処理装置の一構成例を表すブロック図である。

以下、本開示の実施の形態について、図面を参照して詳細に説明する。

＜実施の形態＞
［構成例］
図１は、一実施の形態に係る画像処理装置（画像処理装置１）の一構成例を表すものである。画像処理装置１は、ステレオカメラ１１と、処理部２０とを有している。画像処理装置１は、自動車等の車両１０に搭載される。

ステレオカメラ１１は、車両１０の前方を撮像することにより、互いに視差を有する一組の画像（左画像ＰＬおよび右画像ＰＲ）を生成するように構成される。ステレオカメラ１１は、左カメラ１１Ｌと、右カメラ１１Ｒとを有する。左カメラ１１Ｌおよび右カメラ１１Ｒのそれぞれは、レンズとイメージセンサとを含んでいる。左カメラ１１Ｌおよび右カメラ１１Ｒは、例えば、車両１０の車両内において、車両１０のフロントガラスの上部近傍に、車両１０の幅方向に所定距離だけ離間して配置される。左カメラ１１Ｌおよび右カメラ１１Ｒは、互いに同期して撮像動作を行う。左カメラ１１Ｌは左画像ＰＬを生成し、右カメラ１１Ｒは右画像ＰＲを生成する。左画像ＰＬは複数の画素値を含み、右画像ＰＲは複数の画素値を含む。左画像ＰＬおよび右画像ＰＲは、ステレオ画像ＰＩＣを構成する。

図２は、ステレオ画像ＰＩＣの一例を表すものであり、図３（Ａ）は左画像ＰＬの一例を示し、図３（Ｂ）は右画像ＰＲの一例を示す。この例では、車両１０が走行している走行路における車両１０の前方に、他車両（先行車両９０）が走行している。左カメラ１１Ｌはこの先行車両９０を撮像することにより左画像ＰＬを生成し、右カメラ１１Ｒはこの先行車両９０を撮像することにより右画像ＰＲを生成する。

ステレオカメラ１１は、このような左画像ＰＬおよび右画像ＰＲを含むステレオ画像ＰＩＣを生成する。ステレオカメラ１１は、所定のフレームレート（例えば６０［ｆｐｓ］）で撮像動作を行うことにより、一連のステレオ画像ＰＩＣを生成するようになっている。

処理部２０（図１）は、ステレオカメラ１１から供給されたステレオ画像ＰＩＣに基づいて、車両１０の前方の物体を識別するように構成される。車両１０では、例えば、処理部２０が識別した物体についての情報に基づいて、例えば、車両１０の走行制御を行い、あるいは、識別した物体についての情報をコンソールモニタに表示することができるようになっている。処理部２０は、例えば、プログラムを実行するＣＰＵ（Central Processing Unit）、処理データを一時的に記憶するＲＡＭ（Random Access Memory）、プログラムを記憶するＲＯＭ（Read Only Memory）などにより構成される。処理部２０は、画像メモリ２１と、識別部３０，４０と、特徴量選択部２２と、バッファ２３と、合成部２４とを有している。

画像メモリ２１は、ステレオ画像ＰＩＣに含まれる左画像ＰＬおよび右画像ＰＲを一旦記憶するように構成される。そして、画像メモリ２１は、記憶された左画像ＰＬおよび右画像ＰＲを、順次、識別部３０，４０に供給するようになっている。

識別部３０は、画像メモリ２１から読み出された左画像ＰＬおよび右画像ＰＲに基づいて、１または複数の画像領域Ｒを設定し、これらの１または複数の画像領域Ｒのそれぞれの画像における物体を識別するように構成される。具体的には、識別部３０は、以下に示すように、例えば、ＤＮＮ（Deep Neural Network）の学習済みモデルを用いて、矩形領域である画像領域Ｒの画像における物体を識別することにより、画像領域Ｒのそれぞれに対して、物体が何であるかを示すカテゴリを付与するようになっている。識別部３０は、距離画像生成部３１と、領域設定部３２と、特徴量抽出部３３と、特徴量結合部３４と、物体識別部３５とを有している。

距離画像生成部３１は、画像メモリ２１から読み出された左画像ＰＬおよび右画像ＰＲに基づいて、ステレオマッチング処理やフィルタリング処理などを含む所定の画像処理を行うことにより、距離画像ＰＺを生成するように構成される。距離画像ＰＺは、複数の画素値を含む。複数の画素値のそれぞれは、この例では視差値である。言い換えれば、複数の画素値のそれぞれは、３次元の実空間における、各画素に対応する点までの距離に対応する。なお、これに限定されるものではなく、例えば、複数の画素値のそれぞれは、３次元の実空間における、各画素に対応する点までの距離を示す距離値であってもよい。

領域設定部３２は、距離画像ＰＺに基づいて、１または複数の画像領域Ｒを設定するように構成される。具体的には、領域設定部３２は、距離画像ＰＺに基づいて、画像内において互いに近くに位置し、視差値がほぼ同じである複数の画素を特定し、その複数の画素を含む矩形領域を画像領域Ｒとして設定する。すなわち、物体がある場合には、距離画像ＰＺにおける、その物体に対応する領域の画素は互いに近くに位置し、視差値はほぼ同じである。よって、領域設定部３２は、このようにして画像領域Ｒを設定することにより、物体を囲むように画像領域Ｒを設定するようになっている。

図３は、左画像ＰＬおよび右画像ＰＲのうちの一方である画像Ｐの一例を表すものである。この例では、２つの車両にそれぞれ画像領域Ｒが設定されている。なお、領域設定部３２は、この例では車両に画像領域Ｒを設定したが、これに限定されるものではなく、例えば、人、ガードレール、壁などにも画像領域Ｒを設定することができる。そして、領域設定部３２は、設定した１または複数の画像領域Ｒについての情報を特徴量抽出部３３および特徴量選択部２２に供給するようになっている。

特徴量抽出部３３（図１）は、例えば左画像ＰＬおよび右画像ＰＲのうちの一方である画像Ｐにおける、１または複数の画像領域Ｒのそれぞれの画像に基づいて、その画像に含まれる特徴量ＦＡを抽出するように構成される。特徴量抽出部３３は、ＤＮＮの学習済みモデルを用いて特徴量ＦＡを抽出するようになっている。

図４は、特徴量抽出部３３におけるニューラルネットワーク１００Ａの一構成例を模式的に表すものである。ニューラルネットワーク１００Ａは、複数（Ｎ個）の畳み込み層ＬＣ（畳み込み層ＬＣ₁～ＬＣ_N）と、複数（Ｎ個）のプーリング層ＬＰ（プーリング層ＬＰ₁～ＬＰ_N）とを有している。畳み込み層ＬＣおよびプーリング層ＬＰは交互に配置される。

特徴量抽出部３３は、まず、画像領域Ｒの画像をニューラルネットワーク１００Ａに入力する。特徴量抽出部３３は、この入力された画像に基づいて、畳み込み層ＬＣ₁により畳み込み処理を行い、プーリング層ＬＰ₁によりプーリング処理を行う。

図５Ａ，５Ｂは、畳み込み層ＬＣ１による畳み込み処理、およびプーリング層ＬＰ１によるプーリング処理の一例を表すものである。

まず、特徴量抽出部３３は、画像データ１０１に基づいて畳み込み処理を行う。具体的には、特徴量抽出部３３は、画像データ１０１において所定の大きさ（この例では３画素×３画素）の領域Ｗ１を設定し、この領域Ｗ１における９つの画素値を、フィルタ１０３における９つのフィルタ値を重み係数として重みづけ加算することにより、画像データ１０２における画素値を算出する。この例では、フィルタ１０３における９つのフィルタ値をそれぞれ“１／９”にしているが、これに限定されるものではない。この９つのフィルタ値は、予め機械学習を行うことにより生成される。特徴量抽出部３３は、画像データ１０１において、この領域Ｗ１を１画素分ずつずらしながら順次設定し、設定された複数の領域Ｗ１のそれぞれにおいて重みづけ加算を行うことにより画素値を算出する。このようにして、特徴量抽出部３３は、画像データ１０２を生成する。

例えば図５Ａの例では、特徴量抽出部３３は、互いに異なる複数（この例では４つ）のフィルタ１０３を用いて、複数（この例では４つ）の画像データ１０２をそれぞれ生成する。この場合には、複数の画像データ１０２のそれぞれにおける複数の画素値が、特徴量ＦＡ₁である。また、例えば図５Ｂの例では、特徴量抽出部３３は、１つのフィルタ１０３を用いて、１つの画像データ１０２を生成する。この場合には、１つの画像データ１０２における複数の画素値が、特徴量ＦＡ₁である。

そして、特徴量抽出部３３は、畳み込み処理により生成された画像データ１０２に基づいてプーリング処理を行う。具体的には、特徴量抽出部３３は、画像データ１０２において所定の大きさ（この例では２画素×２画素）の領域Ｗ２を設定し、この領域Ｗ２における４つの画素値のうちの値が一番大きい画素値を選択し、その画素値を画像データ１０４における画素値とする。特徴量抽出部３３は、画像データ１０２において、この領域Ｗ２を順次設定し、設定された複数の領域Ｗ２のそれぞれにおいて、一番大きい画素値を選択する。このようにして、特徴量抽出部３３は、画像データ１０４を生成する。

例えば図５Ａの例では、特徴量抽出部３３は、複数（この例では４つ）の画像データ１０２に基づいて、複数（この例では４つ）の画像データ１０４をそれぞれ生成する。この場合には、複数の画像データ１０４のそれぞれにおける複数の画素値が、特徴量ＦＡ₂である。また、例えば図５Ｂの例では、特徴量抽出部３３は、１つの画像データ１０２に基づいて、１つの画像データ１０４を生成する。この場合には、１つの画像データ１０４における複数の画素値が、特徴量ＦＡ₂である。

このようにして畳み込み処理およびプーリング処理を１回行うことにより、画像データにおける画素数は、この例では約１／４になる。特徴量抽出部３３は、図４に示したように、畳み込み処理およびプーリング処理を、複数回（Ｎ回）繰り返す。特徴量抽出部３３は、例えば互いに異なるフィルタ１０３を用いて、Ｎ回の畳み込み処理を行う。Ｎ回の畳み込み処理のそれぞれにおけるフィルタ１０３の数は、個別に設定される。フィルタ１０３の数画像領域Ｒの画像が車両である場合には、このように畳み込み処理を複数回行うことにより、画像データは、例えば、車両の輪郭がより明確になるなど、車両の特徴を含むようになる。特徴量抽出部３３が、最初に畳み込み処理を行うことにより生成された画像データの複数の画素値は特徴量ＦＡ₁であり、その後にプーリング処理を行うことにより生成された画像データの複数の画素値は特徴量ＦＡ₂であり、その後に畳み込み処理を行うことにより生成された画像データの複数の画素値は特徴量ＦＡ₃であり、その後にプーリング処理を行うことにより生成された画像データの複数の画素値は特徴量ＦＡ₄である。その後も同様である。このようにして、特徴量抽出部３３は、複数の特徴量ＦＡ₁，ＦＡ₂，ＦＡ₃，ＦＡ₄，…を、特徴量ＦＡとして抽出するようになっている。なお、この例では、全ての畳み込み処理およびプーリング処理による処理結果を特徴量ＦＡとしたが、これに限定されるものではなく、一部の畳み込み処理およびプーリング処理による処理結果を特徴量ＦＡとしてもよい。具体的には、最後のＮ回目の畳み込み処理およびプーリング処理による処理結果のみを特徴量ＦＡとしてもよい。

特徴量結合部３４（図１）は、特徴量抽出部３３により抽出された特徴量ＦＡと、識別部４０から特徴量選択部２２およびバッファ２３を介して供給された特徴量とを結合するように構成される。

物体識別部３５は、特徴量結合部３４により結合された特徴量に基づいて、１または複数の画像領域Ｒのそれぞれにおける物体を識別するように構成される。すなわち、例えば、画像領域Ｒの画像が車両を示す場合には、特徴量は車両の特徴を含み、画像領域Ｒの画像が人を示す場合には、特徴量は人の特徴を含むので、物体識別部３５は、この特徴量に基づいて、画像領域Ｒにおける物体を識別することができる。そして、物体識別部３５は、画像領域Ｒのそれぞれに対して、物体が何であるかを示すカテゴリを付与する。具体的には、物体識別部３５は、画像領域Ｒの画像における物体が車両である場合には、その画像領域Ｒに、車両を示すカテゴリを付与し、画像領域Ｒの画像における物体が人である場合には、その画像領域Ｒに、人を示すカテゴリを付与するようになっている。

識別部４０は、画像メモリ２１から読み出された、例えば左画像ＰＬおよび右画像ＰＲのうちの一方である画像Ｐにおける物体を識別するように構成される。具体的には、識別部４０は、識別部３０と同様に、例えばＤＮＮの学習済みモデルを用いて、全体画像である画像Ｐにおける物体を識別する。そして、識別部４０は、いわゆるセマンティックセグメンテーションの処理を行うことにより、画像Ｐの各画素に対して、その画素が何の物体の画像に属しているかを示すラベルを付与するようになっている。識別部４０は、特徴量抽出部４３と、物体識別部４５とを有している。

特徴量抽出部４３は、例えば左画像ＰＬおよび右画像ＰＲのうちの一方である画像Ｐに含まれる特徴量ＦＢを抽出するように構成される。特徴量抽出部４３は、識別部３０の特徴量抽出部３３と同様に、ＤＮＮの学習済みモデルを用いて特徴量ＦＢを抽出するようになっている。特徴量抽出部４３におけるニューラルネットワーク１００Ｂは、特徴量抽出部３３におけるニューラルネットワーク１００Ａ（図４）と同様に、複数（Ｍ個）の畳み込み層ＬＣ（畳み込み層ＬＣ₁～ＬＣ_M）と、複数（Ｍ個）のプーリング層ＬＰ（プーリング層ＬＰ₁～ＬＰ_M）とを有している。

特徴量抽出部４３は、まず、全体画像である画像Ｐを、例えば横方向および縦方向においてそれぞれ半分に縮小し、縮小された画像をニューラルネットワーク１００Ｂに入力する。そして、特徴量抽出部４３は、特徴量抽出部３３の場合（図４）と同様に、畳み込み処理およびプーリング処理を、複数回（Ｍ回）繰り返す。このようにして、特徴量抽出部３３は、複数の特徴量ＦＢ₁，ＦＢ₂，ＦＢ₃，ＦＢ₄，…を、特徴量ＦＢとして抽出するようになっている。なお、この例では、全ての畳み込み処理およびプーリング処理による処理結果を特徴量ＦＢとしたが、これに限定されるものではなく、一部の畳み込み処理およびプーリング処理による処理結果を特徴量ＦＢとしてもよい。

物体識別部４５は、特徴量ＦＢに基づいて、画像Ｐにおける物体を識別するように構成される。そして、物体識別部４５は、識別結果に基づいて、画像Ｐの各画素に対して、その画素が何の物体の画像に属しているかを示すラベルを付与する。具体的には、物体識別部４５は、ある画素が車両の画像に属している場合には、その画素に、車両の画像に属している旨のラベルを付与し、ある画素が人の画像に属している場合には、その画素に、人の画像に属している旨のラベルを付与し、ある画素が道路などの地面の画像に属している場合には、その画素に、地面の画像に属している旨のラベルを付与するようになっている。

特徴量選択部２２は、領域設定部３２から供給された、１または複数の画像領域Ｒについての情報に基づいて、特徴量ＦＢのうち、識別部３０に供給する特徴量を選択するように構成される。具体的には、特徴量選択部２２は、画像Ｐにおける、１または複数の画像領域Ｒのそれぞれの位置や、距離画像ＰＺにおける、１または複数の画像領域Ｒでの視差値などに基づいて、特徴量ＦＢのうち、識別部３０に供給する特徴量を選択するようになっている。

バッファ２３は、特徴量選択部２２から供給された特徴量を一旦記憶するように構成される。そして、バッファ２３は、記憶した特徴量を、識別部３０の特徴量結合部３４に供給するようになっている。

合成部２４は、識別部３０における物体識別部３５の処理結果と、識別部４０における物体識別部４５の処理結果とを合成し、合成した処理結果を識別結果ＲＥＳとして出力するように構成される。

この構成により、画像処理装置１では、識別部４０が、全体画像である画像Ｐに基づいて物体を識別し、識別部３０が、領域設定部３２が設定した１または複数の画像領域Ｒの画像に基づいて物体を識別する。その際、画像処理装置１では、特徴量選択部２２が、識別部４０における特徴量ＦＢのうちの一部を、バッファ２３を介して識別部３０に供給する。これにより、画像処理装置１では、識別部３０が、識別部４０により抽出された特徴量ＦＢの一部を流用することができるので、演算量を減らすことができ、その結果、限られた演算リソースを有効に利用して識別処理を行うことができるようになっている。

ここで、特徴量抽出部４３は、本開示における「第１の抽出部」の一具体例に対応する。特徴量ＦＢは、本開示における「第１の特徴量」の一具体例に対応する。物体識別部４５は、本開示における「第１の物体識別部」の一具体例に対応する。領域設定部３２は、本開示における「領域設定部」の一具体例に対応する。画像領域Ｒは、本開示における「画像領域」の一具体例に対応する。特徴量抽出部３３は、本開示における「第２の抽出部」の一具体例に対応する。特徴量ＦＡは、本開示における「第２の特徴量」の一具体例に対応する。特徴量選択部２２は、本開示における「選択部」の一具体例に対応する。物体識別部３５は、本開示における「第２の物体識別部」の一具体例に対応する。

［動作および作用］
続いて、本実施の形態の画像処理装置１の動作および作用について説明する。

（全体動作概要）
まず、図１を参照して、画像処理装置１の全体動作概要を説明する。ステレオカメラ１１は、車両１０の前方を撮像することにより、左画像ＰＬおよび右画像ＰＲを含むステレオ画像ＰＩＣを生成する。処理部２０において、画像メモリ２１は、ステレオ画像ＰＩＣに含まれる左画像ＰＬおよび右画像ＰＲを一旦記憶する。識別部４０は、画像メモリ２１から読み出された、例えば左画像ＰＬおよび右画像ＰＲのうちの一方である画像Ｐにおける物体を識別する。具体的には、識別部４０は、例えばＤＮＮの学習済みモデルを用いて、全体画像である画像Ｐにおける物体を識別する。そして、識別部４０は、いわゆるセマンティックセグメンテーションの処理を行うことにより、画像Ｐの各画素に対して、その画素が何の物体の画像に属しているかを示すラベルを付与する。識別部３０は、画像メモリ２１から読み出された左画像ＰＬおよび右画像ＰＲに基づいて、１または複数の画像領域Ｒを設定し、これらの１または複数の画像領域Ｒのそれぞれの画像における物体を識別する。具体的には、識別部３０は、ＤＮＮの学習済みモデルを用いて、矩形領域である画像領域Ｒの画像における物体を識別することにより、画像領域Ｒのそれぞれに対して、物体が何であるかを示すカテゴリを付与する。合成部２４は、識別部３０における物体識別部３５の処理結果と、識別部４０における物体識別部４５の処理結果とを合成し、合成した処理結果を識別結果ＲＥＳとして出力する。

（詳細動作）
次に、処理部２０（図１）の動作について、詳細に説明する。

処理部２０の識別部４０において、特徴量抽出部４３は、例えば左画像ＰＬおよび右画像ＰＲのうちの一方である画像Ｐに含まれる特徴量ＦＢを抽出する。具体的には、特徴量抽出部４３は、全体画像である画像Ｐを縮小し、縮小された画像をニューラルネットワーク１００Ｂに入力し、畳み込み処理およびプーリング処理を、複数回（Ｍ回）繰り返すことにより、複数の特徴量ＦＢ₁，ＦＢ₂，ＦＢ₃，ＦＢ₄，…を特徴量ＦＢとして抽出する。物体識別部４５は、これらの特徴量ＦＢに基づいて、画像Ｐにおける物体を識別する。そして、物体識別部４５は、いわゆるセマンティックセグメンテーションの処理を行うことにより、画像Ｐの各画素に対して、その画素が何の物体の画像に属しているかを示すラベルを付与する。

識別部３０において、距離画像生成部３１は、画像メモリ２１から読み出された左画像ＰＬおよび右画像ＰＲに基づいて、ステレオマッチング処理やフィルタリング処理などを含む所定の画像処理を行うことにより、距離画像ＰＺを生成する。領域設定部３２は、距離画像ＰＺに基づいて、１または複数の画像領域Ｒを設定する。具体的には、領域設定部３２は、距離画像ＰＺに基づいて、画像内において互いに近くに位置し、視差値がほぼ同じである複数の画素を特定し、その複数の画素を含む領域を画像領域Ｒとして設定する。特徴量抽出部３３は、画像Ｐにおける、１または複数の画像領域Ｒのそれぞれの画像に基づいて、その画像に含まれる特徴量ＦＡを抽出する。具体的には、特徴量抽出部３３は、画像領域Ｒの画像をニューラルネットワーク１００Ａに入力し、畳み込み処理およびプーリング処理を、複数回（Ｎ回）繰り返すことにより、複数の特徴量ＦＡ₁，ＦＡ₂，ＦＡ₃，ＦＡ₄，…を特徴量ＦＡとして抽出する。

特徴量選択部２２は、領域設定部３２から供給された、１または複数の画像領域Ｒについての情報に基づいて、特徴量抽出部４３により抽出された特徴量ＦＢのうち、識別部３０に供給する特徴量を選択する。具体的には、特徴量選択部２２は、画像Ｐにおける、１または複数の画像領域Ｒのそれぞれの位置や、距離画像ＰＺにおける、１または複数の画像領域Ｒでの視差値などに基づいて、特徴量ＦＢのうち、識別部３０に供給する特徴量を選択する。例えば、特徴量選択部２２は、画像領域Ｒの位置に基づいて、特徴量ＦＢのうち、その画像領域Ｒに対応する領域の特徴量を選択する。すなわち、特徴量ＦＢは、図４，５Ａ，５Ｂに示したように画像データであるので、特徴量選択部２２は、画像領域Ｒに対応する領域の特徴量を選択することができる。また、例えば、特徴量選択部２２は、画像領域Ｒでの視差値に基づいて、複数の特徴量ＦＢ₁，ＦＢ₂，ＦＢ₃，ＦＢ₄，…のうちの、画像領域Ｒの画像における物体の特徴が顕著に表れている特徴量を選択することができる。具体的には、例えば、視差値が小さい場合には、物体までの距離が遠いので、畳み込み処理およびプーリング処理を多く行うと画像がつぶれるおそれがあるため、複数の特徴量ＦＢ₁，ＦＢ₂，ＦＢ₃，ＦＢ₄，…のうちの最後の方の特徴量を選択しないようにすることができる。

バッファ２３は、特徴量選択部２２から供給された特徴量を一旦記憶する。そして、バッファ２３は、記憶した特徴量を、識別部３０の特徴量結合部３４に供給する。

識別部３０において、特徴量結合部３４は、特徴量抽出部３３により抽出された特徴量ＦＡと、識別部４０から特徴量選択部２２およびバッファ２３を介して供給された特徴量とを結合する。物体識別部３５は、特徴量結合部３４により結合された特徴量に基づいて、１または複数の画像領域Ｒのそれぞれにおける物体を識別する。そして、物体識別部３５は、画像領域Ｒのそれぞれに対して、物体が何であるかを示すカテゴリを付与する。

そして、合成部２４は、識別部３０における物体識別部３５の処理結果と、識別部４０における物体識別部４５の処理結果とを合成し、合成した処理結果を識別結果ＲＥＳとして出力する。

このように、画像処理装置１では、特徴量抽出部４３が、画像Ｐに含まれる特徴量ＦＢを抽出するとともに、特徴量抽出部３３が、画像領域Ｒの画像に含まれる特徴量ＦＡを抽出するようにした。これにより、全体画像である画像Ｐに基づいて物体を識別するとともに、画像領域Ｒの画像に基づいて物体を識別することができるので、識別精度を高めつつ演算量を低減することができる。すなわち、例えば、全体画像である画像Ｐに基づいて物体を識別することのみを行うようにした場合には、演算リソースが限られているので、全体画像を詳細にかつリアルタイムに解析することが難しいため、識別精度が低下するおそれがある。特に、特徴量抽出部４３のように、演算量を抑えるため、全体画像である画像Ｐを縮小し、縮小された画像に基づいて畳み込み処理およびプーリング処理を複数回行うようにした場合には、例えば遠方の物体の画像がつぶれてしまうので、このような物体を識別しにくくなってしまう。一方、画像処理装置１では、全体画像である画像Ｐに基づいて物体を識別するとともに、１または複数の画像領域Ｒの画像に基づいて物体を識別するようにした。これにより、画像処理装置１では、例えば遠方の物体に画像領域Ｒを設定することにより、遠方の物体を個別に識別することができるので、識別精度を高めつつ演算量を低減することができる。

また、画像処理装置１では、特徴量抽出部４３が、画像Ｐに含まれる特徴量ＦＢを抽出するとともに、特徴量抽出部３３が、画像領域Ｒの画像に含まれる特徴量ＦＡを抽出し、物体識別部３５が、特徴量ＦＢのうちの一部および特徴量ＦＡに基づいて、この画像領域Ｒにおける物体を識別するようにした。これにより、画像処理装置１では、物体識別部３５は、特徴量ＦＡに加え、特徴量ＦＢのうちの一部を流用して物体を識別することができるので、識別精度を高めつつ演算量を低減することができる。その結果、画像処理装置１では、限られた演算リソースを有効に利用して、物体を識別することができる。

また、画像処理装置１では、特徴量選択部２２は、領域設定部３２が設定した画像領域Ｒについての情報に基づいて、特徴量ＦＢのうちの一部を選択するようにしたので、識別部３０の識別精度を向上できるような特徴量を選択的に識別部３０に供給することができ、識別精度の向上に寄与しない特徴量を識別部３０に供給しないようにすることができる。これにより、画像処理装置１では、識別部３０の演算量を抑えることができる。

［効果］
以上のように本実施の形態では、画像Ｐに含まれる特徴量を抽出するとともに、画像領域の画像に含まれる特徴量を抽出するようにしたので、識別精度を高めつつ演算量を低減することができる。

本実施の形態では、画像Ｐに含まれる特徴量ＦＢを抽出するとともに、画像領域の画像に含まれる特徴量ＦＡを抽出し、特徴量ＦＢのうちの一部および特徴量ＦＡに基づいて、この画像領域における物体を識別するようにしたので、識別精度を高めつつ演算量を低減することができる。

本実施の形態では、領域設定部が設定した画像領域についての情報に基づいて、特徴量ＦＢのうちの一部を選択するようにしたので、演算量を抑えることができる。

［変形例１］
上記実施の形態では、識別部４０の物体識別部４５は、特徴量抽出部４３が抽出した特徴量ＦＢに基づいて物体を識別したが、これに限定されるものではない。これに代えて、物体識別部は、例えば、特徴量ＦＢのうちの、識別部３０に供給する特徴量以外の特徴量に基づいて、物体を識別してもよい。以下に、本変形例について詳細に説明する。

図６は、本変形例に係る画像処理装置１Ａの一構成例を表すものである。画像処理装置１Ａは、処理部２０Ａを備えている。処理部２０Ａは、識別部４０Ａを有している。識別部４０Ａは、特徴量選択部４４Ａを有している。特徴量選択部４４Ａは、上記実施の形態に係る特徴量選択部２２と同様に、領域設定部３２から供給された、１または複数の画像領域Ｒについての情報に基づいて、特徴量ＦＢのうち、識別部３０に供給する特徴量を選択するように構成される。また、特徴量選択部４４Ａは、特徴量ＦＢのうち、識別部３０に供給する特徴量以外の特徴量を、物体識別部４５に供給するようになっている。これにより、物体識別部４５は、特徴量ＦＢのうち、識別部３０に供給する特徴量以外の特徴量に基づいて、物体を識別する。言い換えれば、物体識別部４５は、識別部３０に供給する特徴量と同じ特徴量に基づく処理を行わない。これにより、物体識別部４５における演算量を抑えることができる。

［変形例２］
上記実施の形態では、領域設定部３２は、距離画像ＰＺに基づいて１または複数の画像領域Ｒを設定したが、これに限定されるものではない。これに代えて、領域設定部は、例えば、車両１０の走行情報に基づいて１または複数の画像領域Ｒを設定してもよい。以下に、本変形例について詳細に説明する。

図７は、本変形例に係る画像処理装置１Ｂの一構成例を表すものである。画像処理装置１Ｂは、カメラ１１Ｂと、処理部２０Ｂとを備えている。

カメラ１１Ｂは、レンズとイメージセンサとを含み、画像Ｐを生成するように構成される。すなわち、上記実施の形態では、ステレオカメラを用いたが、本変形例では、単眼のカメラを用いている。

処理部２０Ｂは、識別部３０Ｂを有している。識別部３０Ｂは、走行情報取得部３１Ｂと、領域設定部３２Ｂとを有している。

走行情報取得部３１Ｂは、例えば、車両１０の車両制御装置から、ＣＡＮ（Controller Area Network）を介して、車両１０の走行情報を取得するように構成される。走行情報は、例えば、車両１０の走行速度、ヨーレートなどの情報を含んでいる。

領域設定部３２Ｂは、走行情報取得部３１Ｂが取得した走行情報に基づいて、車両１０の進路予測を行うことにより、１または複数の画像領域Ｒを設定するように構成される。具体的には、領域設定部３２Ｂは、車両１０の走行情報に基づいて、車両１０がどの方向にどれだけ進むかを予測することにより、画像Ｐにおける、車両１０が進行する領域を特定し、その特定された領域付近に、１または複数の画像領域Ｒを設定する。すなわち、例えば、画像Ｐにおける、車両１０が進行する領域の近くでは、例えば車両１０との衝突を避けるために、物体を識別する必要性が高く、一方、車両が進行する領域から離れた領域では、車両１０が衝突する恐れが低いので、物体を識別する必要性が低い。よって、領域設定部３２Ｂは、画像Ｐにおける、車両１０が進行する領域付近に、１または複数の画像領域Ｒを設定するようになっている。

このように構成しても、上記実施の形態と同様の効果を得ることができる。

以上、実施の形態および変形例を挙げて本技術を説明したが、本技術はこれらの実施の形態等には限定されず、種々の変形が可能である。

例えば、上記実施の形態では、ステレオカメラ１１やカメラ１１Ｂは車両１０の前方を撮像するようにしたが、これに限定されるものではなく、例えば、車両１０の側方や後方を撮像してもよい。

なお、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、また、他の効果があってもよい。

１，１Ａ，１Ｂ…画像処理装置、１１…ステレオカメラ、１１Ｂ…カメラ、１１Ｌ…左カメラ、１１Ｒ…右カメラ、２０，２０Ａ，２０Ｂ…処理部、２１…画像メモリ、２２、４４Ａ…特徴量選択部、２３…バッファ、２４…合成部、３０，３０Ｂ…識別部、３１…距離画像生成部、３１Ｂ…走行情報取得部、３２，３２Ｂ…領域設定部、３３…特徴量抽出部、３４…特徴量結合部、３５…物体識別部、４０，４０Ａ…識別部、４３…特徴量抽出部、４５…物体識別部、１００Ａ，１００Ｂ…ニューラルネットワーク、１０１，１０２，１０４…画像データ、１０３…フィルタ、ＦＡ，ＦＢ…特徴量、ＬＣ…畳み込み層、ＬＰ…プーリング層、Ｐ…画像、ＰＩＣ…ステレオ画像、ＰＬ…左画像、ＰＲ…右画像、ＰＺ…距離画像、Ｒ…画像領域、ＲＥＳ…識別結果。

Claims

撮像画像に含まれる第１の特徴量を抽出する第１の抽出部と、
前記第１の特徴量に基づいて物体を識別する第１の物体識別部と、
前記撮像画像において画像領域を設定する領域設定部と、
前記画像領域の画像に含まれる第２の特徴量を抽出する第２の抽出部と、
前記領域設定部が設定した前記画像領域についての情報に基づいて、前記第１の抽出部が抽出した前記第１の特徴量のうちの一部を選択する選択部と、
前記第２の特徴量、および前記第１の特徴量のうちの前記選択部により選択された特徴量に基づいて物体を識別する第２の物体識別部と
を備えた画像処理装置。
距離画像生成部をさらに備え、
前記撮像画像は、左画像および右画像を含み、
前記距離画像生成部は、前記左画像および前記右画像に基づいて距離画像を生成し、
前記領域設定部は、前記距離画像に基づいて、前記画像領域を設定する
請求項１に記載の画像処理装置。
前記画像処理装置は移動体に搭載され、
前記領域設定部は、前記移動体の走行情報に基づいて、前記画像領域を設定する
請求項１に記載の画像処理装置。
前記第１の抽出部は、前記撮像画像に基づいて、畳み込み演算を複数回繰り返し行うことにより複数の部分特徴量をそれぞれ抽出し、前記複数の部分特徴量を前記第１の特徴量として出力し、
前記選択部は、前記画像領域についての情報に基づいて、前記第１の特徴量における前記複数の部分特徴量のうちの１以上の部分特徴量を選択する
請求項１から請求項３のいずれか一項に記載の画像処理装置。
前記選択部は、前記第１の特徴量のうちの前記画像領域に応じた特徴量を選択する
請求項１から請求項３のいずれか一項に記載の画像処理装置。