JP2022044155A - 画像処理装置 - Google Patents

画像処理装置 Download PDF

Info

Publication number
JP2022044155A
JP2022044155A JP2020149643A JP2020149643A JP2022044155A JP 2022044155 A JP2022044155 A JP 2022044155A JP 2020149643 A JP2020149643 A JP 2020149643A JP 2020149643 A JP2020149643 A JP 2020149643A JP 2022044155 A JP2022044155 A JP 2022044155A
Authority
JP
Japan
Prior art keywords
image
feature amount
unit
feature
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020149643A
Other languages
English (en)
Inventor
將馬 坂本
Shoma Sakamoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Subaru Corp
Original Assignee
Subaru Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Subaru Corp filed Critical Subaru Corp
Priority to JP2020149643A priority Critical patent/JP2022044155A/ja
Priority to US17/465,017 priority patent/US20220076045A1/en
Publication of JP2022044155A publication Critical patent/JP2022044155A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R1/00Optical viewing arrangements; Real-time viewing arrangements for drivers or passengers using optical image capturing systems, e.g. cameras or video systems specially adapted for use in or on vehicles
    • B60R1/20Real-time viewing arrangements for drivers or passengers using optical image capturing systems, e.g. cameras or video systems specially adapted for use in or on vehicles
    • B60R1/31Real-time viewing arrangements for drivers or passengers using optical image capturing systems, e.g. cameras or video systems specially adapted for use in or on vehicles providing stereoscopic vision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mechanical Engineering (AREA)
  • Image Analysis (AREA)

Abstract

【課題】演算量を低減することができる画像処理装置を提供する。【解決手段】画像処理装置1は、撮像画像に含まれる第1の特徴量を抽出する第1の抽出部である特徴抽出部43と、第1の特徴量に基づいて物体を識別する第1の物体識別部である物体識別部45と、撮像画像において画像領域を設定する領域設定部32と、画像領域の画像に含まれる第2の特徴量を抽出する第2の抽出部である特徴抽出部33と、領域設定部32が設定した画像領域についての情報に基づいて、特徴抽出部43が抽出した第1の特徴量のうちの一部を選択する特徴量選択部22と、第2の特徴量及び第1の特徴量のうちの特徴量選択部22により選択された特徴量に基づいて物体を識別する第2の物体識別部35と、を備える。【選択図】図1

Description

本開示は、撮像装置により得られた撮像画像に基づいて物体を識別する画像処理装置に関する。
撮像装置により得られた撮像画像には、様々な物体の画像が含まれる。特許文献1には、被写体を判別する画像認識装置が開示されている。
特開2011-165008号公報
物体を識別する画像処理装置では、識別精度を高めつつ演算量を低減することが望まれており、さらなる演算量の低減が期待されている。
演算量を低減することができる画像処理装置を提供することが望ましい。
本開示の一実施の形態に係る画像処理装置は、第1の抽出部と、第1の物体識別部と、領域設定部と、第2の抽出部と、選択部と、第2の物体識別部とを備えている。第1の抽出部は、撮像画像に含まれる第1の特徴量を抽出するように構成される。第1の物体識別部は、第1の特徴量に基づいて物体を識別するように構成される。領域設定部は、撮像画像において画像領域を設定するように構成される。第2の抽出部は、画像領域の画像に含まれる第2の特徴量を抽出するように構成される。選択部は、領域設定部が設定した画像領域についての情報に基づいて、第1の抽出部が抽出した第1の特徴量のうちの一部を選択するように構成される。第2の物体識別部は、第2の特徴量、および第1の特徴量のうちの選択部により選択された特徴量に基づいて物体を識別するように構成される。
本開示の一実施の形態に係る画像処理装置によれば、演算量を低減することができる。
本開示の一実施の形態に係る画像処理装置の一構成例を表すブロック図である。 図1に示したステレオカメラが生成した左画像および右画像の一例を表す説明図である。 図1に示した領域設定部が設定した画像領域の一例を表す説明図である。 図1に示した特徴量抽出部におけるニューラルネットワークの一構成例を表す説明図である。 図1に示した特徴量抽出部の一動作例を表す説明図である。 図1に示した特徴量抽出部の一動作例を表す説明図である。 変形例に係る画像処理装置の一構成例を表すブロック図である。 他の変形例に係る画像処理装置の一構成例を表すブロック図である。
以下、本開示の実施の形態について、図面を参照して詳細に説明する。
<実施の形態>
[構成例]
図1は、一実施の形態に係る画像処理装置(画像処理装置1)の一構成例を表すものである。画像処理装置1は、ステレオカメラ11と、処理部20とを有している。画像処理装置1は、自動車等の車両10に搭載される。
ステレオカメラ11は、車両10の前方を撮像することにより、互いに視差を有する一組の画像(左画像PLおよび右画像PR)を生成するように構成される。ステレオカメラ11は、左カメラ11Lと、右カメラ11Rとを有する。左カメラ11Lおよび右カメラ11Rのそれぞれは、レンズとイメージセンサとを含んでいる。左カメラ11Lおよび右カメラ11Rは、例えば、車両10の車両内において、車両10のフロントガラスの上部近傍に、車両10の幅方向に所定距離だけ離間して配置される。左カメラ11Lおよび右カメラ11Rは、互いに同期して撮像動作を行う。左カメラ11Lは左画像PLを生成し、右カメラ11Rは右画像PRを生成する。左画像PLは複数の画素値を含み、右画像PRは複数の画素値を含む。左画像PLおよび右画像PRは、ステレオ画像PICを構成する。
図2は、ステレオ画像PICの一例を表すものであり、図3(A)は左画像PLの一例を示し、図3(B)は右画像PRの一例を示す。この例では、車両10が走行している走行路における車両10の前方に、他車両(先行車両90)が走行している。左カメラ11Lはこの先行車両90を撮像することにより左画像PLを生成し、右カメラ11Rはこの先行車両90を撮像することにより右画像PRを生成する。
ステレオカメラ11は、このような左画像PLおよび右画像PRを含むステレオ画像PICを生成する。ステレオカメラ11は、所定のフレームレート(例えば60[fps])で撮像動作を行うことにより、一連のステレオ画像PICを生成するようになっている。
処理部20(図1)は、ステレオカメラ11から供給されたステレオ画像PICに基づいて、車両10の前方の物体を識別するように構成される。車両10では、例えば、処理部20が識別した物体についての情報に基づいて、例えば、車両10の走行制御を行い、あるいは、識別した物体についての情報をコンソールモニタに表示することができるようになっている。処理部20は、例えば、プログラムを実行するCPU(Central Processing Unit)、処理データを一時的に記憶するRAM(Random Access Memory)、プログラムを記憶するROM(Read Only Memory)などにより構成される。処理部20は、画像メモリ21と、識別部30,40と、特徴量選択部22と、バッファ23と、合成部24とを有している。
画像メモリ21は、ステレオ画像PICに含まれる左画像PLおよび右画像PRを一旦記憶するように構成される。そして、画像メモリ21は、記憶された左画像PLおよび右画像PRを、順次、識別部30,40に供給するようになっている。
識別部30は、画像メモリ21から読み出された左画像PLおよび右画像PRに基づいて、1または複数の画像領域Rを設定し、これらの1または複数の画像領域Rのそれぞれの画像における物体を識別するように構成される。具体的には、識別部30は、以下に示すように、例えば、DNN(Deep Neural Network)の学習済みモデルを用いて、矩形領域である画像領域Rの画像における物体を識別することにより、画像領域Rのそれぞれに対して、物体が何であるかを示すカテゴリを付与するようになっている。識別部30は、距離画像生成部31と、領域設定部32と、特徴量抽出部33と、特徴量結合部34と、物体識別部35とを有している。
距離画像生成部31は、画像メモリ21から読み出された左画像PLおよび右画像PRに基づいて、ステレオマッチング処理やフィルタリング処理などを含む所定の画像処理を行うことにより、距離画像PZを生成するように構成される。距離画像PZは、複数の画素値を含む。複数の画素値のそれぞれは、この例では視差値である。言い換えれば、複数の画素値のそれぞれは、3次元の実空間における、各画素に対応する点までの距離に対応する。なお、これに限定されるものではなく、例えば、複数の画素値のそれぞれは、3次元の実空間における、各画素に対応する点までの距離を示す距離値であってもよい。
領域設定部32は、距離画像PZに基づいて、1または複数の画像領域Rを設定するように構成される。具体的には、領域設定部32は、距離画像PZに基づいて、画像内において互いに近くに位置し、視差値がほぼ同じである複数の画素を特定し、その複数の画素を含む矩形領域を画像領域Rとして設定する。すなわち、物体がある場合には、距離画像PZにおける、その物体に対応する領域の画素は互いに近くに位置し、視差値はほぼ同じである。よって、領域設定部32は、このようにして画像領域Rを設定することにより、物体を囲むように画像領域Rを設定するようになっている。
図3は、左画像PLおよび右画像PRのうちの一方である画像Pの一例を表すものである。この例では、2つの車両にそれぞれ画像領域Rが設定されている。なお、領域設定部32は、この例では車両に画像領域Rを設定したが、これに限定されるものではなく、例えば、人、ガードレール、壁などにも画像領域Rを設定することができる。そして、領域設定部32は、設定した1または複数の画像領域Rについての情報を特徴量抽出部33および特徴量選択部22に供給するようになっている。
特徴量抽出部33(図1)は、例えば左画像PLおよび右画像PRのうちの一方である画像Pにおける、1または複数の画像領域Rのそれぞれの画像に基づいて、その画像に含まれる特徴量FAを抽出するように構成される。特徴量抽出部33は、DNNの学習済みモデルを用いて特徴量FAを抽出するようになっている。
図4は、特徴量抽出部33におけるニューラルネットワーク100Aの一構成例を模式的に表すものである。ニューラルネットワーク100Aは、複数(N個)の畳み込み層LC(畳み込み層LC1~LCN)と、複数(N個)のプーリング層LP(プーリング層LP1~LPN)とを有している。畳み込み層LCおよびプーリング層LPは交互に配置される。
特徴量抽出部33は、まず、画像領域Rの画像をニューラルネットワーク100Aに入力する。特徴量抽出部33は、この入力された画像に基づいて、畳み込み層LC1により畳み込み処理を行い、プーリング層LP1によりプーリング処理を行う。
図5A,5Bは、畳み込み層LC1による畳み込み処理、およびプーリング層LP1によるプーリング処理の一例を表すものである。
まず、特徴量抽出部33は、画像データ101に基づいて畳み込み処理を行う。具体的には、特徴量抽出部33は、画像データ101において所定の大きさ(この例では3画素×3画素)の領域W1を設定し、この領域W1における9つの画素値を、フィルタ103における9つのフィルタ値を重み係数として重みづけ加算することにより、画像データ102における画素値を算出する。この例では、フィルタ103における9つのフィルタ値をそれぞれ“1/9”にしているが、これに限定されるものではない。この9つのフィルタ値は、予め機械学習を行うことにより生成される。特徴量抽出部33は、画像データ101において、この領域W1を1画素分ずつずらしながら順次設定し、設定された複数の領域W1のそれぞれにおいて重みづけ加算を行うことにより画素値を算出する。このようにして、特徴量抽出部33は、画像データ102を生成する。
例えば図5Aの例では、特徴量抽出部33は、互いに異なる複数(この例では4つ)のフィルタ103を用いて、複数(この例では4つ)の画像データ102をそれぞれ生成する。この場合には、複数の画像データ102のそれぞれにおける複数の画素値が、特徴量FA1である。また、例えば図5Bの例では、特徴量抽出部33は、1つのフィルタ103を用いて、1つの画像データ102を生成する。この場合には、1つの画像データ102における複数の画素値が、特徴量FA1である。
そして、特徴量抽出部33は、畳み込み処理により生成された画像データ102に基づいてプーリング処理を行う。具体的には、特徴量抽出部33は、画像データ102において所定の大きさ(この例では2画素×2画素)の領域W2を設定し、この領域W2における4つの画素値のうちの値が一番大きい画素値を選択し、その画素値を画像データ104における画素値とする。特徴量抽出部33は、画像データ102において、この領域W2を順次設定し、設定された複数の領域W2のそれぞれにおいて、一番大きい画素値を選択する。このようにして、特徴量抽出部33は、画像データ104を生成する。
例えば図5Aの例では、特徴量抽出部33は、複数(この例では4つ)の画像データ102に基づいて、複数(この例では4つ)の画像データ104をそれぞれ生成する。この場合には、複数の画像データ104のそれぞれにおける複数の画素値が、特徴量FA2である。また、例えば図5Bの例では、特徴量抽出部33は、1つの画像データ102に基づいて、1つの画像データ104を生成する。この場合には、1つの画像データ104における複数の画素値が、特徴量FA2である。
このようにして畳み込み処理およびプーリング処理を1回行うことにより、画像データにおける画素数は、この例では約1/4になる。特徴量抽出部33は、図4に示したように、畳み込み処理およびプーリング処理を、複数回(N回)繰り返す。特徴量抽出部33は、例えば互いに異なるフィルタ103を用いて、N回の畳み込み処理を行う。N回の畳み込み処理のそれぞれにおけるフィルタ103の数は、個別に設定される。フィルタ103の数画像領域Rの画像が車両である場合には、このように畳み込み処理を複数回行うことにより、画像データは、例えば、車両の輪郭がより明確になるなど、車両の特徴を含むようになる。特徴量抽出部33が、最初に畳み込み処理を行うことにより生成された画像データの複数の画素値は特徴量FA1であり、その後にプーリング処理を行うことにより生成された画像データの複数の画素値は特徴量FA2であり、その後に畳み込み処理を行うことにより生成された画像データの複数の画素値は特徴量FA3であり、その後にプーリング処理を行うことにより生成された画像データの複数の画素値は特徴量FA4である。その後も同様である。このようにして、特徴量抽出部33は、複数の特徴量FA1,FA2,FA3,FA4,…を、特徴量FAとして抽出するようになっている。なお、この例では、全ての畳み込み処理およびプーリング処理による処理結果を特徴量FAとしたが、これに限定されるものではなく、一部の畳み込み処理およびプーリング処理による処理結果を特徴量FAとしてもよい。具体的には、最後のN回目の畳み込み処理およびプーリング処理による処理結果のみを特徴量FAとしてもよい。
特徴量結合部34(図1)は、特徴量抽出部33により抽出された特徴量FAと、識別部40から特徴量選択部22およびバッファ23を介して供給された特徴量とを結合するように構成される。
物体識別部35は、特徴量結合部34により結合された特徴量に基づいて、1または複数の画像領域Rのそれぞれにおける物体を識別するように構成される。すなわち、例えば、画像領域Rの画像が車両を示す場合には、特徴量は車両の特徴を含み、画像領域Rの画像が人を示す場合には、特徴量は人の特徴を含むので、物体識別部35は、この特徴量に基づいて、画像領域Rにおける物体を識別することができる。そして、物体識別部35は、画像領域Rのそれぞれに対して、物体が何であるかを示すカテゴリを付与する。具体的には、物体識別部35は、画像領域Rの画像における物体が車両である場合には、その画像領域Rに、車両を示すカテゴリを付与し、画像領域Rの画像における物体が人である場合には、その画像領域Rに、人を示すカテゴリを付与するようになっている。
識別部40は、画像メモリ21から読み出された、例えば左画像PLおよび右画像PRのうちの一方である画像Pにおける物体を識別するように構成される。具体的には、識別部40は、識別部30と同様に、例えばDNNの学習済みモデルを用いて、全体画像である画像Pにおける物体を識別する。そして、識別部40は、いわゆるセマンティックセグメンテーションの処理を行うことにより、画像Pの各画素に対して、その画素が何の物体の画像に属しているかを示すラベルを付与するようになっている。識別部40は、特徴量抽出部43と、物体識別部45とを有している。
特徴量抽出部43は、例えば左画像PLおよび右画像PRのうちの一方である画像Pに含まれる特徴量FBを抽出するように構成される。特徴量抽出部43は、識別部30の特徴量抽出部33と同様に、DNNの学習済みモデルを用いて特徴量FBを抽出するようになっている。特徴量抽出部43におけるニューラルネットワーク100Bは、特徴量抽出部33におけるニューラルネットワーク100A(図4)と同様に、複数(M個)の畳み込み層LC(畳み込み層LC1~LCM)と、複数(M個)のプーリング層LP(プーリング層LP1~LPM)とを有している。
特徴量抽出部43は、まず、全体画像である画像Pを、例えば横方向および縦方向においてそれぞれ半分に縮小し、縮小された画像をニューラルネットワーク100Bに入力する。そして、特徴量抽出部43は、特徴量抽出部33の場合(図4)と同様に、畳み込み処理およびプーリング処理を、複数回(M回)繰り返す。このようにして、特徴量抽出部33は、複数の特徴量FB1,FB2,FB3,FB4,…を、特徴量FBとして抽出するようになっている。なお、この例では、全ての畳み込み処理およびプーリング処理による処理結果を特徴量FBとしたが、これに限定されるものではなく、一部の畳み込み処理およびプーリング処理による処理結果を特徴量FBとしてもよい。
物体識別部45は、特徴量FBに基づいて、画像Pにおける物体を識別するように構成される。そして、物体識別部45は、識別結果に基づいて、画像Pの各画素に対して、その画素が何の物体の画像に属しているかを示すラベルを付与する。具体的には、物体識別部45は、ある画素が車両の画像に属している場合には、その画素に、車両の画像に属している旨のラベルを付与し、ある画素が人の画像に属している場合には、その画素に、人の画像に属している旨のラベルを付与し、ある画素が道路などの地面の画像に属している場合には、その画素に、地面の画像に属している旨のラベルを付与するようになっている。
特徴量選択部22は、領域設定部32から供給された、1または複数の画像領域Rについての情報に基づいて、特徴量FBのうち、識別部30に供給する特徴量を選択するように構成される。具体的には、特徴量選択部22は、画像Pにおける、1または複数の画像領域Rのそれぞれの位置や、距離画像PZにおける、1または複数の画像領域Rでの視差値などに基づいて、特徴量FBのうち、識別部30に供給する特徴量を選択するようになっている。
バッファ23は、特徴量選択部22から供給された特徴量を一旦記憶するように構成される。そして、バッファ23は、記憶した特徴量を、識別部30の特徴量結合部34に供給するようになっている。
合成部24は、識別部30における物体識別部35の処理結果と、識別部40における物体識別部45の処理結果とを合成し、合成した処理結果を識別結果RESとして出力するように構成される。
この構成により、画像処理装置1では、識別部40が、全体画像である画像Pに基づいて物体を識別し、識別部30が、領域設定部32が設定した1または複数の画像領域Rの画像に基づいて物体を識別する。その際、画像処理装置1では、特徴量選択部22が、識別部40における特徴量FBのうちの一部を、バッファ23を介して識別部30に供給する。これにより、画像処理装置1では、識別部30が、識別部40により抽出された特徴量FBの一部を流用することができるので、演算量を減らすことができ、その結果、限られた演算リソースを有効に利用して識別処理を行うことができるようになっている。
ここで、特徴量抽出部43は、本開示における「第1の抽出部」の一具体例に対応する。特徴量FBは、本開示における「第1の特徴量」の一具体例に対応する。物体識別部45は、本開示における「第1の物体識別部」の一具体例に対応する。領域設定部32は、本開示における「領域設定部」の一具体例に対応する。画像領域Rは、本開示における「画像領域」の一具体例に対応する。特徴量抽出部33は、本開示における「第2の抽出部」の一具体例に対応する。特徴量FAは、本開示における「第2の特徴量」の一具体例に対応する。特徴量選択部22は、本開示における「選択部」の一具体例に対応する。物体識別部35は、本開示における「第2の物体識別部」の一具体例に対応する。
[動作および作用]
続いて、本実施の形態の画像処理装置1の動作および作用について説明する。
(全体動作概要)
まず、図1を参照して、画像処理装置1の全体動作概要を説明する。ステレオカメラ11は、車両10の前方を撮像することにより、左画像PLおよび右画像PRを含むステレオ画像PICを生成する。処理部20において、画像メモリ21は、ステレオ画像PICに含まれる左画像PLおよび右画像PRを一旦記憶する。識別部40は、画像メモリ21から読み出された、例えば左画像PLおよび右画像PRのうちの一方である画像Pにおける物体を識別する。具体的には、識別部40は、例えばDNNの学習済みモデルを用いて、全体画像である画像Pにおける物体を識別する。そして、識別部40は、いわゆるセマンティックセグメンテーションの処理を行うことにより、画像Pの各画素に対して、その画素が何の物体の画像に属しているかを示すラベルを付与する。識別部30は、画像メモリ21から読み出された左画像PLおよび右画像PRに基づいて、1または複数の画像領域Rを設定し、これらの1または複数の画像領域Rのそれぞれの画像における物体を識別する。具体的には、識別部30は、DNNの学習済みモデルを用いて、矩形領域である画像領域Rの画像における物体を識別することにより、画像領域Rのそれぞれに対して、物体が何であるかを示すカテゴリを付与する。合成部24は、識別部30における物体識別部35の処理結果と、識別部40における物体識別部45の処理結果とを合成し、合成した処理結果を識別結果RESとして出力する。
(詳細動作)
次に、処理部20(図1)の動作について、詳細に説明する。
処理部20の識別部40において、特徴量抽出部43は、例えば左画像PLおよび右画像PRのうちの一方である画像Pに含まれる特徴量FBを抽出する。具体的には、特徴量抽出部43は、全体画像である画像Pを縮小し、縮小された画像をニューラルネットワーク100Bに入力し、畳み込み処理およびプーリング処理を、複数回(M回)繰り返すことにより、複数の特徴量FB1,FB2,FB3,FB4,…を特徴量FBとして抽出する。物体識別部45は、これらの特徴量FBに基づいて、画像Pにおける物体を識別する。そして、物体識別部45は、いわゆるセマンティックセグメンテーションの処理を行うことにより、画像Pの各画素に対して、その画素が何の物体の画像に属しているかを示すラベルを付与する。
識別部30において、距離画像生成部31は、画像メモリ21から読み出された左画像PLおよび右画像PRに基づいて、ステレオマッチング処理やフィルタリング処理などを含む所定の画像処理を行うことにより、距離画像PZを生成する。領域設定部32は、距離画像PZに基づいて、1または複数の画像領域Rを設定する。具体的には、領域設定部32は、距離画像PZに基づいて、画像内において互いに近くに位置し、視差値がほぼ同じである複数の画素を特定し、その複数の画素を含む領域を画像領域Rとして設定する。特徴量抽出部33は、画像Pにおける、1または複数の画像領域Rのそれぞれの画像に基づいて、その画像に含まれる特徴量FAを抽出する。具体的には、特徴量抽出部33は、画像領域Rの画像をニューラルネットワーク100Aに入力し、畳み込み処理およびプーリング処理を、複数回(N回)繰り返すことにより、複数の特徴量FA1,FA2,FA3,FA4,…を特徴量FAとして抽出する。
特徴量選択部22は、領域設定部32から供給された、1または複数の画像領域Rについての情報に基づいて、特徴量抽出部43により抽出された特徴量FBのうち、識別部30に供給する特徴量を選択する。具体的には、特徴量選択部22は、画像Pにおける、1または複数の画像領域Rのそれぞれの位置や、距離画像PZにおける、1または複数の画像領域Rでの視差値などに基づいて、特徴量FBのうち、識別部30に供給する特徴量を選択する。例えば、特徴量選択部22は、画像領域Rの位置に基づいて、特徴量FBのうち、その画像領域Rに対応する領域の特徴量を選択する。すなわち、特徴量FBは、図4,5A,5Bに示したように画像データであるので、特徴量選択部22は、画像領域Rに対応する領域の特徴量を選択することができる。また、例えば、特徴量選択部22は、画像領域Rでの視差値に基づいて、複数の特徴量FB1,FB2,FB3,FB4,…のうちの、画像領域Rの画像における物体の特徴が顕著に表れている特徴量を選択することができる。具体的には、例えば、視差値が小さい場合には、物体までの距離が遠いので、畳み込み処理およびプーリング処理を多く行うと画像がつぶれるおそれがあるため、複数の特徴量FB1,FB2,FB3,FB4,…のうちの最後の方の特徴量を選択しないようにすることができる。
バッファ23は、特徴量選択部22から供給された特徴量を一旦記憶する。そして、バッファ23は、記憶した特徴量を、識別部30の特徴量結合部34に供給する。
識別部30において、特徴量結合部34は、特徴量抽出部33により抽出された特徴量FAと、識別部40から特徴量選択部22およびバッファ23を介して供給された特徴量とを結合する。物体識別部35は、特徴量結合部34により結合された特徴量に基づいて、1または複数の画像領域Rのそれぞれにおける物体を識別する。そして、物体識別部35は、画像領域Rのそれぞれに対して、物体が何であるかを示すカテゴリを付与する。
そして、合成部24は、識別部30における物体識別部35の処理結果と、識別部40における物体識別部45の処理結果とを合成し、合成した処理結果を識別結果RESとして出力する。
このように、画像処理装置1では、特徴量抽出部43が、画像Pに含まれる特徴量FBを抽出するとともに、特徴量抽出部33が、画像領域Rの画像に含まれる特徴量FAを抽出するようにした。これにより、全体画像である画像Pに基づいて物体を識別するとともに、画像領域Rの画像に基づいて物体を識別することができるので、識別精度を高めつつ演算量を低減することができる。すなわち、例えば、全体画像である画像Pに基づいて物体を識別することのみを行うようにした場合には、演算リソースが限られているので、全体画像を詳細にかつリアルタイムに解析することが難しいため、識別精度が低下するおそれがある。特に、特徴量抽出部43のように、演算量を抑えるため、全体画像である画像Pを縮小し、縮小された画像に基づいて畳み込み処理およびプーリング処理を複数回行うようにした場合には、例えば遠方の物体の画像がつぶれてしまうので、このような物体を識別しにくくなってしまう。一方、画像処理装置1では、全体画像である画像Pに基づいて物体を識別するとともに、1または複数の画像領域Rの画像に基づいて物体を識別するようにした。これにより、画像処理装置1では、例えば遠方の物体に画像領域Rを設定することにより、遠方の物体を個別に識別することができるので、識別精度を高めつつ演算量を低減することができる。
また、画像処理装置1では、特徴量抽出部43が、画像Pに含まれる特徴量FBを抽出するとともに、特徴量抽出部33が、画像領域Rの画像に含まれる特徴量FAを抽出し、物体識別部35が、特徴量FBのうちの一部および特徴量FAに基づいて、この画像領域Rにおける物体を識別するようにした。これにより、画像処理装置1では、物体識別部35は、特徴量FAに加え、特徴量FBのうちの一部を流用して物体を識別することができるので、識別精度を高めつつ演算量を低減することができる。その結果、画像処理装置1では、限られた演算リソースを有効に利用して、物体を識別することができる。
また、画像処理装置1では、特徴量選択部22は、領域設定部32が設定した画像領域Rについての情報に基づいて、特徴量FBのうちの一部を選択するようにしたので、識別部30の識別精度を向上できるような特徴量を選択的に識別部30に供給することができ、識別精度の向上に寄与しない特徴量を識別部30に供給しないようにすることができる。これにより、画像処理装置1では、識別部30の演算量を抑えることができる。
[効果]
以上のように本実施の形態では、画像Pに含まれる特徴量を抽出するとともに、画像領域の画像に含まれる特徴量を抽出するようにしたので、識別精度を高めつつ演算量を低減することができる。
本実施の形態では、画像Pに含まれる特徴量FBを抽出するとともに、画像領域の画像に含まれる特徴量FAを抽出し、特徴量FBのうちの一部および特徴量FAに基づいて、この画像領域における物体を識別するようにしたので、識別精度を高めつつ演算量を低減することができる。
本実施の形態では、領域設定部が設定した画像領域についての情報に基づいて、特徴量FBのうちの一部を選択するようにしたので、演算量を抑えることができる。
[変形例1]
上記実施の形態では、識別部40の物体識別部45は、特徴量抽出部43が抽出した特徴量FBに基づいて物体を識別したが、これに限定されるものではない。これに代えて、物体識別部は、例えば、特徴量FBのうちの、識別部30に供給する特徴量以外の特徴量に基づいて、物体を識別してもよい。以下に、本変形例について詳細に説明する。
図6は、本変形例に係る画像処理装置1Aの一構成例を表すものである。画像処理装置1Aは、処理部20Aを備えている。処理部20Aは、識別部40Aを有している。識別部40Aは、特徴量選択部44Aを有している。特徴量選択部44Aは、上記実施の形態に係る特徴量選択部22と同様に、領域設定部32から供給された、1または複数の画像領域Rについての情報に基づいて、特徴量FBのうち、識別部30に供給する特徴量を選択するように構成される。また、特徴量選択部44Aは、特徴量FBのうち、識別部30に供給する特徴量以外の特徴量を、物体識別部45に供給するようになっている。これにより、物体識別部45は、特徴量FBのうち、識別部30に供給する特徴量以外の特徴量に基づいて、物体を識別する。言い換えれば、物体識別部45は、識別部30に供給する特徴量と同じ特徴量に基づく処理を行わない。これにより、物体識別部45における演算量を抑えることができる。
[変形例2]
上記実施の形態では、領域設定部32は、距離画像PZに基づいて1または複数の画像領域Rを設定したが、これに限定されるものではない。これに代えて、領域設定部は、例えば、車両10の走行情報に基づいて1または複数の画像領域Rを設定してもよい。以下に、本変形例について詳細に説明する。
図7は、本変形例に係る画像処理装置1Bの一構成例を表すものである。画像処理装置1Bは、カメラ11Bと、処理部20Bとを備えている。
カメラ11Bは、レンズとイメージセンサとを含み、画像Pを生成するように構成される。すなわち、上記実施の形態では、ステレオカメラを用いたが、本変形例では、単眼のカメラを用いている。
処理部20Bは、識別部30Bを有している。識別部30Bは、走行情報取得部31Bと、領域設定部32Bとを有している。
走行情報取得部31Bは、例えば、車両10の車両制御装置から、CAN(Controller Area Network)を介して、車両10の走行情報を取得するように構成される。走行情報は、例えば、車両10の走行速度、ヨーレートなどの情報を含んでいる。
領域設定部32Bは、走行情報取得部31Bが取得した走行情報に基づいて、車両10の進路予測を行うことにより、1または複数の画像領域Rを設定するように構成される。具体的には、領域設定部32Bは、車両10の走行情報に基づいて、車両10がどの方向にどれだけ進むかを予測することにより、画像Pにおける、車両10が進行する領域を特定し、その特定された領域付近に、1または複数の画像領域Rを設定する。すなわち、例えば、画像Pにおける、車両10が進行する領域の近くでは、例えば車両10との衝突を避けるために、物体を識別する必要性が高く、一方、車両が進行する領域から離れた領域では、車両10が衝突する恐れが低いので、物体を識別する必要性が低い。よって、領域設定部32Bは、画像Pにおける、車両10が進行する領域付近に、1または複数の画像領域Rを設定するようになっている。
このように構成しても、上記実施の形態と同様の効果を得ることができる。
以上、実施の形態および変形例を挙げて本技術を説明したが、本技術はこれらの実施の形態等には限定されず、種々の変形が可能である。
例えば、上記実施の形態では、ステレオカメラ11やカメラ11Bは車両10の前方を撮像するようにしたが、これに限定されるものではなく、例えば、車両10の側方や後方を撮像してもよい。
なお、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、また、他の効果があってもよい。
1,1A,1B…画像処理装置、11…ステレオカメラ、11B…カメラ、11L…左カメラ、11R…右カメラ、20,20A,20B…処理部、21…画像メモリ、22、44A…特徴量選択部、23…バッファ、24…合成部、30,30B…識別部、31…距離画像生成部、31B…走行情報取得部、32,32B…領域設定部、33…特徴量抽出部、34…特徴量結合部、35…物体識別部、40,40A…識別部、43…特徴量抽出部、45…物体識別部、100A,100B…ニューラルネットワーク、101,102,104…画像データ、103…フィルタ、FA,FB…特徴量、LC…畳み込み層、LP…プーリング層、P…画像、PIC…ステレオ画像、PL…左画像、PR…右画像、PZ…距離画像、R…画像領域、RES…識別結果。

Claims (5)

  1. 撮像画像に含まれる第1の特徴量を抽出する第1の抽出部と、
    前記第1の特徴量に基づいて物体を識別する第1の物体識別部と、
    前記撮像画像において画像領域を設定する領域設定部と、
    前記画像領域の画像に含まれる第2の特徴量を抽出する第2の抽出部と、
    前記領域設定部が設定した前記画像領域についての情報に基づいて、前記第1の抽出部が抽出した前記第1の特徴量のうちの一部を選択する選択部と、
    前記第2の特徴量、および前記第1の特徴量のうちの前記選択部により選択された特徴量に基づいて物体を識別する第2の物体識別部と
    を備えた画像処理装置。
  2. 距離画像生成部をさらに備え、
    前記撮像画像は、左画像および右画像を含み、
    前記距離画像生成部は、前記左画像および前記右画像に基づいて距離画像を生成し、
    前記領域設定部は、前記距離画像に基づいて、前記画像領域を設定する
    請求項1に記載の画像処理装置。
  3. 前記画像処理装置は移動体に搭載され、
    前記領域設定部は、前記移動体の走行情報に基づいて、前記画像領域を設定する
    請求項1に記載の画像処理装置。
  4. 前記第1の抽出部は、前記撮像画像に基づいて、畳み込み演算を複数回繰り返し行うことにより複数の部分特徴量をそれぞれ抽出し、前記複数の部分特徴量を前記第1の特徴量として出力し、
    前記選択部は、前記画像領域についての情報に基づいて、前記第1の特徴量における前記複数の部分特徴量のうちの1以上の部分特徴量を選択する
    請求項1から請求項3のいずれか一項に記載の画像処理装置。
  5. 前記選択部は、前記第1の特徴量のうちの前記画像領域に応じた特徴量を選択する
    請求項1から請求項3のいずれか一項に記載の画像処理装置。
JP2020149643A 2020-09-07 2020-09-07 画像処理装置 Pending JP2022044155A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020149643A JP2022044155A (ja) 2020-09-07 2020-09-07 画像処理装置
US17/465,017 US20220076045A1 (en) 2020-09-07 2021-09-02 Image processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020149643A JP2022044155A (ja) 2020-09-07 2020-09-07 画像処理装置

Publications (1)

Publication Number Publication Date
JP2022044155A true JP2022044155A (ja) 2022-03-17

Family

ID=80470722

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020149643A Pending JP2022044155A (ja) 2020-09-07 2020-09-07 画像処理装置

Country Status (2)

Country Link
US (1) US20220076045A1 (ja)
JP (1) JP2022044155A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022217354A1 (en) * 2021-04-15 2022-10-20 BicDroid Inc. System and method for protecting deep image classifiers

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3866328B2 (ja) * 1996-06-06 2007-01-10 富士重工業株式会社 車両周辺立体物認識装置
WO2015037340A1 (ja) * 2013-09-10 2015-03-19 ソニー株式会社 画像処理装置、画像処理方法、プログラム
JP7147420B2 (ja) * 2018-09-26 2022-10-05 トヨタ自動車株式会社 物体検出装置、物体検出方法及び物体検出用コンピュータプログラム
JP7052663B2 (ja) * 2018-09-26 2022-04-12 トヨタ自動車株式会社 物体検出装置、物体検出方法及び物体検出用コンピュータプログラム
US11288507B2 (en) * 2019-09-27 2022-03-29 Sony Corporation Object detection in image based on stochastic optimization
JP7366702B2 (ja) * 2019-11-15 2023-10-23 株式会社熊谷組 合成距離画像の作成方法、土砂採取モニター用画像の作成方法、及び、合成距離画像の作成装置
CN113128303A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 一种自动驾驶方法、相关设备及计算机可读存储介质
JP7388971B2 (ja) * 2020-04-06 2023-11-29 トヨタ自動車株式会社 車両制御装置、車両制御方法及び車両制御用コンピュータプログラム
CN111476306B (zh) * 2020-04-10 2023-07-28 腾讯科技(深圳)有限公司 基于人工智能的物体检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20220076045A1 (en) 2022-03-10

Similar Documents

Publication Publication Date Title
US20210350168A1 (en) Image segmentation method and image processing apparatus
US10891715B2 (en) Deep neural network for image enhancement
JP2020071862A (ja) コンピュータビジョンシステム及び方法
JP2022515895A (ja) 物体認識方法及び装置
US11017542B2 (en) Systems and methods for determining depth information in two-dimensional images
EP4006773A1 (en) Pedestrian detection method, apparatus, computer-readable storage medium and chip
US10896542B2 (en) Moving body image generation recording display device and program product
CN107886043B (zh) 视觉感知的汽车前视车辆和行人防碰撞预警系统及方法
CN105006175B (zh) 主动识别交通参与者的动作的方法和系统及相应的机动车
EP1830320A1 (en) Image processor
KR20200060194A (ko) 차선들의 깊이값을 예측하는 방법, 3차원 차선들을 출력하는 방법 및 그 장치
CN104918033A (zh) 图像处理装置和图像处理方法
CN108292367B (zh) 图像处理装置、半导体装置、图像识别装置、移动体装置以及图像处理方法
Yeol Baek et al. Scene understanding networks for autonomous driving based on around view monitoring system
JP2022044155A (ja) 画像処理装置
CN115937819A (zh) 基于多模态融合的三维目标检测方法及系统
JP5073700B2 (ja) 物体検出装置
JP7122721B2 (ja) 物体検出システム、物体検出方法及び物体検出プログラム
CN113569896A (zh) 基于图像和深度数据进行对象3d定位的计算机实现方法
JP6683245B2 (ja) 画像処理装置、画像処理方法、画像処理プログラム、物体認識装置及び機器制御システム
WO2018143277A1 (ja) 画像特徴量出力装置、画像認識装置、画像特徴量出力プログラム、及び画像認識プログラム
CN115880662A (zh) 利用异类传感器的协同作用进行自主驾驶的3d目标检测方法
da Silva Vieira et al. Stereo vision methods: from development to the evaluation of disparity maps
RU2383925C2 (ru) Способ выделения контуров объектов изображения и устройство для его реализации
DE102018114229A1 (de) Verfahren zum Bestimmen eines Bewegungszustands eines Objekts in Abhängigkeit einer erzeugten Bewegungsmaske und eines erzeugten Begrenzungsrahmens, Fahrerassistenzsystem sowie Kraftfahrzeug

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230810