JP2022153857A - 画像処理装置、画像処理方法、移動装置、及びコンピュータプログラム - Google Patents
画像処理装置、画像処理方法、移動装置、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2022153857A JP2022153857A JP2021056596A JP2021056596A JP2022153857A JP 2022153857 A JP2022153857 A JP 2022153857A JP 2021056596 A JP2021056596 A JP 2021056596A JP 2021056596 A JP2021056596 A JP 2021056596A JP 2022153857 A JP2022153857 A JP 2022153857A
- Authority
- JP
- Japan
- Prior art keywords
- category
- area
- unit
- image processing
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 117
- 238000004590 computer program Methods 0.000 title claims description 11
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000001514 detection method Methods 0.000 claims abstract description 150
- 230000011218 segmentation Effects 0.000 claims abstract description 95
- 238000000034 method Methods 0.000 claims description 49
- 238000006073 displacement reaction Methods 0.000 claims description 15
- 230000002194 synthesizing effect Effects 0.000 claims description 15
- 238000010801 machine learning Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 239000002131 composite material Substances 0.000 description 7
- 238000003384 imaging method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000002250 progressing effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
- G06T7/001—Industrial image inspection using an image reference approach
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
【課題】処理負荷を抑制しつつ、高精度な領域分割結果を得られる画像処理装置を実現する画像処理装置を提供する。【解決手段】画像処理装置において、画像処理部は、画像データから物体を検出するオブジェクト検出部201と、オブジェクト検出部による検出結果に応じて、画素にカテゴリを付与する対象とする対象領域を設定する領域設定部202と、領域設定部にて設定した対象領域のカテゴリに属する画素にカテゴリを付与するカテゴリ付与部(セマンティックセグメンテーション部)204と、を具備する。【選択図】図2
Description
本発明は、画像処理装置、画像処理方法、移動装置、及びコンピュータプログラム等に関する。
車の自動運転や自走ロボットの周囲環境理解のための技術開発が進んでおり、中でも、機械学習を利用した対象物体までの距離推定技術が進展している。例えば、車両走行中に信号機までの距離を推定するため、規格で定められた信号機の発光部分の実際のサイズと、機械学習モデルにて領域分割した画像上の発光部分の直径の画素数や面積とを比較することで、信号機までの距離を推定する技術がある。領域分割の手法として、機械学習モデルが、画像上の信号機を識別(カテゴリ分類)しその物体を含む矩形(検出領域)を設定するオブジェクト検出がある。又、画素単位でカテゴリ分類することで意味的な領域分割を行うセマンティックセグメンテーションという手法がある。
非特許文献1においては、これらの領域分割を高精度化させるため、オブジェクト検出結果から物体の存在範囲を推定し、この推定した範囲に対し、物体である可能性を底上げした上で、セマンティックセグメンテーションする技術が開示されている。
又、特許文献1において、画像から対象が存在する領域を検出し、画像から前記領域を拡大して第1の画像を切り出し、前記領域内の対象から第2の画像を生成し、前記第1の画像と前記第2の画像を用いて、機械学習を行う技術が開示されている。
Lubor Ladicky, Paul Sturgess, Karteek Alahari, Chris Russell, and Philip H.S. Torr, What,Where & How Many? Combining Object Detectors and CRFs, ECCV2010
オブジェクト検出は、高速に処理可能なニューラルネットワーク構成が複数提案されている。一方で、セマンティックセグメンテーションは、高精度に領域分割可能である反面、オブジェクト検出と比較して必要な演算量が多い傾向が知られている。非特許文献1に記載の技術は、これらの機械学習モデルを夫々実施するため、自動運転などのリアルタイム性の必要な処理には処理負荷が高すぎる課題がある。
そこで、本発明の目的は、処理負荷を抑制しつつ、高精度な領域分割結果が得られる画像処理装置等を提供することにある。
画像処理装置において、
画像データから物体を検出するオブジェクト検出部と、
前記オブジェクト検出部による検出結果に応じて、画素にカテゴリを付与する対象とする対象領域を設定する領域設定部と、
前記領域設定部にて設定した前記対象領域の前記カテゴリに属する画素に前記カテゴリを付与するカテゴリ付与部と、
を具備することを特徴とする。
画像データから物体を検出するオブジェクト検出部と、
前記オブジェクト検出部による検出結果に応じて、画素にカテゴリを付与する対象とする対象領域を設定する領域設定部と、
前記領域設定部にて設定した前記対象領域の前記カテゴリに属する画素に前記カテゴリを付与するカテゴリ付与部と、
を具備することを特徴とする。
本発明によれば、処理負荷を抑制しつつ、高精度な領域分割結果が得られる画像処理装置等を得ることができる。
以下、添付図面を参照して、本発明の好適な実施の形態について実施形態を用いて説明する。尚、各図において、同一の部材ないし要素については同一の参照番号を付し、重複する説明は省略ないし簡略化する。
又、実施形態においては、画像処理装置として車載カメラに適用した例について説明する。しかし、画像処理装置はデジタルスチルカメラ、デジタルムービーカメラ、カメラ付きのスマートフォン、カメラ付きのタブレットコンピュータ、ネットワークカメラ、ドローンカメラ、ロボットに搭載されたカメラなどの撮像機能を有する電子機器等を含む。
又、実施形態では移動装置としての自動車に搭載された画像処理装置の例を用いて説明するが、移動装置は自動車に限定されず、飛行機、船舶、ロボット、ドローン等移動可能な装置を含む。
(実施形態1)
又、実施形態では移動装置としての自動車に搭載された画像処理装置の例を用いて説明するが、移動装置は自動車に限定されず、飛行機、船舶、ロボット、ドローン等移動可能な装置を含む。
(実施形態1)
本発明の実施形態1では、画像データをオブジェクト検出し、カテゴリとその検出領域を特定する。更に、当該オブジェクト検出によって特定された検出領域における、予想される正解領域との乖離度を基に、検出領域を拡大した画像データを切り出し、その拡大した画像データに対してセマンティックセグメンテーションする例について説明する。本実施形態のセマンティックセグメンテーションで扱う検出対象のカテゴリは、人物・動物・自動車・二輪車・建物・道路・信号機・交通標識などの自然物及び人工物等の物体である。
(画像処理装置の構成)
図1は、本実施形態に係る画像処理装置の構成例を示すブロック図である。画像処理装置は、CPU100、RAM101、ROM102、撮影部103、画像処理部104、I/F(インターフェース)部105、バス106を備える。
図1は、本実施形態に係る画像処理装置の構成例を示すブロック図である。画像処理装置は、CPU100、RAM101、ROM102、撮影部103、画像処理部104、I/F(インターフェース)部105、バス106を備える。
CPU100は、RAM101やROM102に格納されているコンピュータプログラムやデータを用いて、画像処理装置全体の動作制御をおこなう。
RAM101は、I/F部105を介してロードされたコンピュータプログラムや最新数フレーム分の画像データ、画像処理部104で使用する処理パラメータなど、を一時的に記憶するための記憶領域を有する。又、CPU100が各種の処理を実行する際に用いる記憶領域や、画像処理部104が画像処理を実施する際に用いる記憶領域を有する。従って、RAM101は、各種の記憶領域を適宜提供することができる。
ROM102には、本装置の設定データやブートプログラムなどが格納されている。
撮影部103は、光学レンズやCMOSイメージセンサなどから構成されるカメラで、撮影対象の映像データを取得する。本実施形態では、一般的なセンサ補正やデモザイク処理を施して、RGBカラー画像に変換したものを、RAM101に格納する構成とする。
撮影部103は、光学レンズやCMOSイメージセンサなどから構成されるカメラで、撮影対象の映像データを取得する。本実施形態では、一般的なセンサ補正やデモザイク処理を施して、RGBカラー画像に変換したものを、RAM101に格納する構成とする。
画像処理部104は、ROM102等に記憶されたコンピュータプログラムを実行可能なプロセッサや専用の画像処理回路として実現され、本実施形態の画像処理方法を実施する。例えば、CPU100から画像処理を実行する指示を受け付けると、RAM101に格納された画像データを処理し、検出対象を含む領域をセマンティックセグメンテーションした領域分割マップを出力する。又、画像処理の際には、RAM101に記憶された処理パラメータを適宜読み出しながら処理を実施する。尚、セマンティックセグメンテーションにより形成される領域分割マップとは、画素毎(例えば1画素毎或いは複数画素毎)にカテゴリ情報を付与したマップを指す。
I/F部105は、外部記憶装置やインターネットに本装置を接続するためのインターフェースとして機能するものである。
上記の各部はいずれも、バス106に接続されている。
尚、本実施形態の画像処理装置の構成は図1に示した構成に限るものではない。
上記の各部はいずれも、バス106に接続されている。
尚、本実施形態の画像処理装置の構成は図1に示した構成に限るものではない。
(画像処理部の構成)
次に、図2は、実施形態1における画像処理部の構成例を示す機能ブロック図であり、画像処理部104を専用の画像処理回路として実現する場合には、図2に示した機能ブロックにより構成すればよい。
本実施形態では、画像処理部104を、ROM102等に記憶されたコンピュータプログラムを実行可能なプロセッサとし、図3に示した処理フローチャートに従って、処理を実行することで図2の各ブロックの機能を実現している。
次に、図2は、実施形態1における画像処理部の構成例を示す機能ブロック図であり、画像処理部104を専用の画像処理回路として実現する場合には、図2に示した機能ブロックにより構成すればよい。
本実施形態では、画像処理部104を、ROM102等に記憶されたコンピュータプログラムを実行可能なプロセッサとし、図3に示した処理フローチャートに従って、処理を実行することで図2の各ブロックの機能を実現している。
図2に示すように、画像処理部104は、画像取得部200、オブジェクト検出部201、領域設定部202、対象画像取得部203、セマンティックセグメンテーション部204、領域ズレ推定部205を備える。200~205は夫々プロセッサにより実現される機能ブロックである。
画像取得部200は、RAM101に格納された処理対象の画像データを取得する。
オブジェクト検出部201は、画像データから所定の方法で複数の物体を検出して、それらの物体のカテゴリ及び物体が検出された検出領域を同定して出力する。
オブジェクト検出部201は、画像データから所定の方法で複数の物体を検出して、それらの物体のカテゴリ及び物体が検出された検出領域を同定して出力する。
領域設定部202は、検出領域に対して実際に正解領域が存在する可能性がある領域とのずれに応じて前記検出領域を修正した所定の検出領域を、セマンティックセグメンテーションを実施するための対象領域として設定する。即ち、領域設定部は、オブジェクト検出部による検出結果に応じて、画素にカテゴリを付与する対象とする対象領域を設定する。
対象画像取得部203は、領域設定部202で設定された領域の画像データをRAM101から取得する。
対象画像取得部203は、領域設定部202で設定された領域の画像データをRAM101から取得する。
セマンティックセグメンテーション部は、領域設定部202で設定された対象領域の画像データを、対象画像取得部203を介して入力し、物体と背景とをカテゴリに応じて領域分割する。ここで、セマンティックセグメンテーション部は、対象領域の画像データ内の所定のカテゴリに属する画素にそのカテゴリを付与するカテゴリ付与部として機能している。
尚、画素毎にカテゴリを付与する際に、画素毎ではなく複数画素毎にカテゴリを付与しも良い。
領域ズレ推定部205は、オブジェクト検出部201とセマンティックセグメンテーション部204の出力結果を比較して、オブジェクト検出部201で発生する領域ズレ量を推定する。
領域ズレ推定部205は、オブジェクト検出部201とセマンティックセグメンテーション部204の出力結果を比較して、オブジェクト検出部201で発生する領域ズレ量を推定する。
(画像処理部の動作説明)
図3は、実施形態1における画像処理部の動作例を示すフローチャートである。画像処理部104内のプロセッサがコンピュータプログラムを実行することで、図2に示す各ブロックの機能を実現すると共に、図3の各ステップの処理を行う。
処理をスタートすると、まず、ステップS300において、画像取得部200により、RAM101から画像データを取得する。
図4は実施形態1における画像データの例を説明する図であり、図4(A)に示す画像データは、道路上に対象物体として人、自動車及び交通標識が存在する例である。
図3は、実施形態1における画像処理部の動作例を示すフローチャートである。画像処理部104内のプロセッサがコンピュータプログラムを実行することで、図2に示す各ブロックの機能を実現すると共に、図3の各ステップの処理を行う。
処理をスタートすると、まず、ステップS300において、画像取得部200により、RAM101から画像データを取得する。
図4は実施形態1における画像データの例を説明する図であり、図4(A)に示す画像データは、道路上に対象物体として人、自動車及び交通標識が存在する例である。
ステップS301において、オブジェクト検出部201は、画像データ中の物体を検出し、物体のカテゴリ情報と物体が検出された検出領域を同定して出力する(オブジェクト検出工程)。オブジェクト検出の手法は、従来手法と同等の処理で良い。比較的処理負荷が低く、高いロバスト性でオブジェクト検出可能なニューラルネットワークとして、R-CNN(Region-based CNN)、YOLO(You Only Look Once)、SSD(Single Shot Detector)などが知られている。
本実施形態では、これらの一般的なニューラルネットワークに対し、カテゴリ(人、車、標識)と、そのカテゴリ毎の検出領域の正解データを紐づけられた学習画像データセットによって機械学習したモデルを用いてオブジェクト検出する。検出領域が、正解領域と所定の重複率以上となった上で、検出したカテゴリが正解と正しい場合に検出成功とみなして、オブジェクト検出における検出精度を示す検出率が算出される。検出領域と正解領域の重複率の基準としては、IoU(Intersection over Union)などが使用される。また、所定の重複率の一例としては、50%や75%などが考えられる。
本実施形態において、オブジェクト検出を行った場合の模式図を図4(B)に示す。オブジェクト検出のニューラルネットワークは、学習データからオブジェクト検出に必要な特徴を自動的に定義し、これらの局所的な特徴を次第にまとめて大局的な判定を得る。従って、例えば、対象物体の同定に必要な特徴を表現できるだけのネットワーク規模がない場合や、学習データと実際に推論を行う画像データ間で、特徴的な差異がある場合などにおいて、十分にオブジェクト検出の性能を発揮できない場合がある。
従って、画像データをオブジェクト検出した場合に出力される検出領域は、正解と考えられる検出領域と領域ズレが生じてしまう。本実施形態では、この領域ズレを考慮しつつセマンティックセグメンテーションのための領域を設定することで、セマンティックセグメンテーションの精度を向上させている。
ステップS302において、未処理の物体があるか否かにより分岐する。未処理の物体がある場合はステップS303に進み、未検出及び検出した物体に対し全て処理した場合は処理を完了する。
ステップS303において、領域設定部202は、オブジェクト検出部201で出力される検出領域を検出領域に対して実際に正解領域が存在する可能性がある領域とのずれに応じて修正する。それにより、セマンティックセグメンテーションを実施する対象領域を最適化するように設定する(領域設定工程)。図5を用いて、領域設定の方法について説明する。
図5は実施形態1における対象領域設定を説明する図であり、図5(A)は、車を検出した場合の検出領域(図中、破線の枠)と、正解と想定される領域(図中、実線の枠)を示している。正解と想定される領域は、対象となる物体に外接する矩形を想定している。
図5は実施形態1における対象領域設定を説明する図であり、図5(A)は、車を検出した場合の検出領域(図中、破線の枠)と、正解と想定される領域(図中、実線の枠)を示している。正解と想定される領域は、対象となる物体に外接する矩形を想定している。
図中で示すように検出領域は、正解領域との領域ズレを生じる可能性がある。従って、本実施形態では、検出領域を正解領域との領域ズレに応じて修正することでセマンティックセグメンテーションを実施するための領域を設定する。図5(B)に、IoU=50%の場合の、検出領域と正解領域の関係の例を挙げる。図5(B)の左側2つは、正解領域に内包されるように検出領域が出力される場合を示し、図5(B)の右側2つは、検出領域が正解領域を内包するように出力される場合を示している。
図5(B)からIoU=50%を想定すると、検出領域の幅w1はw0/2~w0*2の範囲、検出領域の高さh1はh1/2~h1*2の範囲になることが分かる。従って、IoU=50%を基準にした検出率を得るオブジェクト検出モデルにより検出された検出領域に対して、実際の正解領域は、上記の範囲で存在することが想定される。図5(C)に、検出領域の変動率Iを0.5(IoU=50%相当)とした場合の修正した領域(図中、外側の矩形)を示す。検出領域は、図5(B)に示す正解領域と検出領域の関係から、左右方向に夫々(1/I-1)*w1の領域を拡張し、上下方向に夫々(1/I-1)*h1の領域を拡張することで、正解領域を含む領域に修正することができる。
修正した領域は、検出領域がIoU=50%以上で正解領域と重複するという想定のもと、検出領域の幅及び高さを3倍に拡大したものである。検出領域が変動した場合であっても、修正領域内には、物体が内包され、確実に領域分割することができる。一方で、領域の拡大を必要最低限にすることにより、その後のセマンティックセグメンテーションの処理量を抑制することができる。
本実施形態ではこのようにして、検出領域に対して実際に正解領域が存在する可能性がある領域とのずれに応じて例えば拡大することにより修正された検出領域をセマンティックセグメンテーションの対象領域として設定する。尚、オブジェクト検出による変動率は、左右方向と上下方向で異なる変動率を用いてもよいし、カテゴリ値に応じて異なる変動率を用いても良い。即ち、領域設定部は、カテゴリに応じて検出領域を修正して対象領域を設定しても良い。
更に、検出領域内に正解領域を内包するようなオブジェクト検出を行う場合には、検出領域を拡張することなく、セマンティックセグメンテーションをおこなってもよい。
更に、検出領域内に正解領域を内包するようなオブジェクト検出を行う場合には、検出領域を拡張することなく、セマンティックセグメンテーションをおこなってもよい。
ステップS304において、対象画像取得部203は、ステップS303で設定された対象領域の画像データをRAM101から取得する。ここで取得する画像データは、対象領域に限定されているため、RAM101へのアクセス回数を減らすことができる。又、よりRAM101へのアクセス回数を削減するため、画像取得部200に一時的に画像データを保持する記憶領域を確保し、この記憶領域に対象領域の画像データが存在する場合は記憶領域から画像データを読み出すキャッシュ構成にしても良い。
ステップS305において、セマンティックセグメンテーション部204は、対象領域の画像データ内の所定のカテゴリに属する画素に夫々カテゴリを付与することで、カテゴリに基づく画素毎の領域分割を実施する(カテゴリ付与工程)。セマンティックセグメンテーションの手法は、従来手法と同等の処理で良い。高い精度で領域分割可能なニューラルネットワークとして、SegNetやU-Netなどが知られている。
これらのネットワークは、Encoder-Decoder型と呼ばれており、前半のEncoder側でプーリングを行いながら、カテゴリ分類に必要な特徴を大局的にまとめいく。次に、後半のDecoder側でアップサンプリングしながら領域単位のカテゴリ判定から画素単位のカテゴリ判定に段階的に領域分割(カテゴリ分類)を実現する。
本実施形態では、これらの一般的なニューラルネットワークに対し、画素毎のカテゴリ(人、車、標識)判定と紐づけられた学習画像データセットによって機械学習したモデルを用いてセマンティックセグメンテーションする。図4(C)に、画像データに対するセマンティックセグメンテーション結果を示す。本実施形態では、オブジェクト検出における検出領域(破線の枠で図示)からIoU等に基づき拡大した対象領域(実線の枠で図示)を設定し、この対象領域に対して、セマンティックセグメンテーションを実施している。従って、物体(人、車、標識)と背景部分を高精度に領域分割することができる。
次に、ステップS306において、領域ズレ推定部205は、検出領域に含まれる領域ズレ量を推定する。上記ステップS303にて、IoU=50%を想定した場合の領域ズレ量の推定方法について説明した。これは、事前にオブジェクト検出の検出精度が分かっている場合の領域ズレ量の想定方法として有効である。但し、実際にオブジェクト検出の検出精度は、撮影環境、対象物体の多様性によって変動する。従って、領域ズレ量は実際に検出している物体のカテゴリや、撮影環境からリアルタイムにフィードバックによって推定していくことが望ましく、本実施形態ではそのように構成している。
本実施形態の、オブジェクト検出による検出領域と、セマンティックセグメンテーションの結果から、カテゴリ毎の領域ズレ量を推定する方法を、図6を用いて説明する。
図6は実施形態1における領域ズレ推定を説明する図であり、図6(A)では人、図6(B)では道路標識をセマンティックセグメンテーションした例を示している。夫々、破線の枠はオブジェクト検出による検出領域を示しており、図6(A)の斜線部分は人、図6(B)の黒塗り部分は道路標識をセマンティックセグメンテーションによりカテゴリに基づき領域分割した例を示している。
図6は実施形態1における領域ズレ推定を説明する図であり、図6(A)では人、図6(B)では道路標識をセマンティックセグメンテーションした例を示している。夫々、破線の枠はオブジェクト検出による検出領域を示しており、図6(A)の斜線部分は人、図6(B)の黒塗り部分は道路標識をセマンティックセグメンテーションによりカテゴリに基づき領域分割した例を示している。
まず、夫々セマンティックセグメンテーションによりカテゴリに基づき領域分割した物体について、正解領域を推定する。正解領域は上記の領域分割した物体に対し、外接する矩形領域とする。具体的には、領域分割マップ上のオブジェクト検出領域から上下左右方向に十分拡張した矩形領域を徐々に縮小方向に狭めていき、上下左右夫々の辺で最初に検出対象のカテゴリ値(人、車、標識)に接触した辺について縮小を停止することで得ることができる。このようにして、カテゴリが付与された物体の正解領域(実線の枠で図示)の位置とオブジェクト検出領域の位置との差分を算出することで対象領域のズレを推定する。
検出領域の左側差分をEx0、右側差分をEx1、上側差分をEy0、下側差分をEy1とする。夫々、検出領域の幅、もしくは、高さとの比によって、領域ズレ量を推定する。具体的には、検出領域と正解領域の左側のズレ量はEx0/w1、右側のズレ量はEx1/w1、上側のズレ量はEy0/h1、下側のズレ量はEy1/h1と推定される。夫々、正負付きの割合で推定され、正の割合の場合は検出領域を拡大する方向、負の割合の場合は検出領域を縮小する方向を示す。
ここで推定した領域ズレ量は、領域設定部202にフィードバックされ、領域設定時に検出領域を修正する場合に、上下左右に増減させる割合として参照される。尚、オブジェクト検出、及び、セマンティックセグメンテーションは、画像データに応じて変動を含んだ結果を出力する。従って、領域ズレ量の推定においては、各方向の複数の領域ズレ量を平滑化して領域ズレ量を算出した方が、精度良く領域ズレ量を推定することができる。従ってそのように構成しても良い。
又、突発的に領域ズレ量が大きくなることもあるため、推定した領域ズレ量に対し、検出領域を拡大する方向にマージンをもたせても良い。更に、検出するカテゴリに応じて、領域ズレ量は傾向が異なる。例えば、図6(A)に示すカテゴリが人の検出領域は、人の体型や服装、姿勢など多くの変動要因を持つため、領域ズレ量は大きくなる傾向がある。一方で、図6(B)に示す標識は、交通規格などにより、サイズや色、形がある程度決まっているため、検出領域のズレ量は比較的小さい。
従って、領域ズレ量を推定する際に、カテゴリに応じた領域ズレ量を推定し、領域設定部202において、カテゴリに応じた領域ズレ量を用いて、検出領域を修正しても良い。
上記の処理により、オブジェクト検出によってロバスト性高く検出した物体に対し、必要最低限の領域をセマンティックセグメンテーションすることで、処理負荷を抑制した状態で高精度な領域分割を実現することが可能となる。
上記の処理により、オブジェクト検出によってロバスト性高く検出した物体に対し、必要最低限の領域をセマンティックセグメンテーションすることで、処理負荷を抑制した状態で高精度な領域分割を実現することが可能となる。
(画像処理部の変形例1)
上記では、オブジェクト検出により検出した物体に対し、1つ1つに対象領域を設定し、セマンティックセグメンテーションを行う例を示した。この変形例として、複数の検出物体に対し、これらを包含する1つの対象領域を設定し、セマンティックセグメンテーションを実施しても良い。
上記では、オブジェクト検出により検出した物体に対し、1つ1つに対象領域を設定し、セマンティックセグメンテーションを行う例を示した。この変形例として、複数の検出物体に対し、これらを包含する1つの対象領域を設定し、セマンティックセグメンテーションを実施しても良い。
図4(D)は、個別の物体毎に修正された検出領域を算出した上で、それらの修正された複数の検出領域を包含するような領域400をセマンティックセグメンテーションの対象領域として設定し、セマンティックセグメンテーションを行う例である。検出する物体が増加し、密度が増えてくると、互いの領域が重複していくことが考えられる。そのような場合には、領域400のような包括的な領域を対象領域として設定しセマンティックセグメンテーションを実施した方が、全体的な処理負荷を低減できる場合がある
(画像処理部の変形例2)
上記では、セマンティックセグメンテーションの機械学習モデルとして、カテゴリ(人、車、標識)に基づき領域を分割可能なように学習したモデルを使用する例を説明した。一方で、オブジェクト検出により検出した物体に対し、1つ1つ対象領域を設定し、セマンティックセグメンテーションを実施する例を説明した。即ち、セマンティックセグメンテーションを実施する対象領域は、領域分割しようとするカテゴリが予めわかっている。従って、カテゴリに応じて、セマンティックセグメンテーションの手法を切替えても良い。
上記では、セマンティックセグメンテーションの機械学習モデルとして、カテゴリ(人、車、標識)に基づき領域を分割可能なように学習したモデルを使用する例を説明した。一方で、オブジェクト検出により検出した物体に対し、1つ1つ対象領域を設定し、セマンティックセグメンテーションを実施する例を説明した。即ち、セマンティックセグメンテーションを実施する対象領域は、領域分割しようとするカテゴリが予めわかっている。従って、カテゴリに応じて、セマンティックセグメンテーションの手法を切替えても良い。
例えば、道路標識であれば、予め規格で決まる標準的な標識画像をテンプレートとして保持し、このテンプレートとのマッチング処理により領域分割を実施した方が処理負荷を抑制できる場合がある。又、車の領域分割についてみると、車種の推定などを一旦行い、この車種情報を付加情報とするセマンティックセグメンテーションを実施した方が領域分割精度を向上させることができる。
予めカテゴリに応じて別々に学習しておいたモデル、又は、学習内容を定義する夫々異なるパラメータセットを切り替えてセマンティックセグメンテーションを実施するように決めても良い。それにより、個別のカテゴリにおける領域分割の学習効率を高めたり、後から領域分割するカテゴリを追加したりすることが容易にできる。
(実施形態2)
(実施形態2)
本発明の実施形態2として、画像データをオブジェクト検出しカテゴリとその検出領域を特定する。更に、検出した対象物体を含む領域を、セマンティックセグメンテーションの分割精度が最も高くなると予想される領域サイズに変倍して処理する例について説明する。
本実施形態の画像処理装置の構成は、図1に示す実施形態1と同一の構成で良いので説明を省略する。
本実施形態の画像処理装置の構成は、図1に示す実施形態1と同一の構成で良いので説明を省略する。
(画像処理部の構成)
図7は、実施形態2における画像処理部の構成例を示すブロック図である。
又、図8は実施形態2における画像処理部104の動作を示すフローチャートである。尚、前述してきた同名、同符号の構成要素については、その詳細説明を省略し、差異がある場合のみ説明を行う。
図7は、実施形態2における画像処理部の構成例を示すブロック図である。
又、図8は実施形態2における画像処理部104の動作を示すフローチャートである。尚、前述してきた同名、同符号の構成要素については、その詳細説明を省略し、差異がある場合のみ説明を行う。
実施形態2の画像処理部104は、画像取得部200、オブジェクト検出部201、領域設定部202、対象画像取得部203、セマンティックセグメンテーション部204を備える。更に、第1変倍部206、画像合成部207、画像切出し部208、第2変倍部209を備える。そして、領域設定部にて設定した対象領域の画像データをセマンティックセグメンテーション部に供給する前に、第1変倍部によって第1変倍率にて変倍する。
又、第1の変倍部で変倍された対象領域の画像データを、画像合成部207で他の対象領域の画像データと合成してからセマンティックセグメンテーション部に供給する。又、セマンティックセグメンテーション部にてカテゴリに属する画素にカテゴリを付与した後の画像データを第2変倍部209により第2変倍率にて変倍する。尚、図7には図示していないが、実施形態1と同様の領域ズレ推定部205を第2変倍部209の後ろ等に設けても良い。
又、実施形態2において、200~209等は夫々プロセッサにより実現される機能ブロックである。
又、実施形態2において、200~209等は夫々プロセッサにより実現される機能ブロックである。
第1変倍部206は、検出対象の画像上の大きさが、セマンティックセグメンテーションに好適なサイズになるような変倍率で、対象領域の画像データを拡大縮小する。画像合成部207は、複数の対象領域の画像データを合成し、セマンティックセグメンテーションを実施する画像データを生成する。
画像切出し部208は、セマンティックセグメンテーションを実施した領域分割マップから、対象物体の領域を切り出す。即ち、セマンティックセグメンテーション部にて各カテゴリに属する画素にカテゴリを付与した後の画像データを第2変倍部に供給する前に、対象領域毎に画像データを切出す。
第2変倍部209は、上記第1変倍部206における変倍率の逆数となる変倍率で、領域分割マップを拡大縮小し、入力画像データ中の対象物体と同等の解像度を持つ領域分割マップを得る。
第2変倍部209は、上記第1変倍部206における変倍率の逆数となる変倍率で、領域分割マップを拡大縮小し、入力画像データ中の対象物体と同等の解像度を持つ領域分割マップを得る。
(画像処理部の動作説明)
図8は実施形態2における画像処理部の動作例を示すフローチャート、図9は図8の続きの動作例を示すフローチャートである。画像処理部104内のプロセッサがコンピュータプログラムを実行することで、図7に示す各ブロックの機能を実現すると共に、図8、図9の各ステップの処理を行う。尚、前述してきた同名・同符号のステップについては、詳細説明を省略し、差異がある場合に説明を追加する。
図8は実施形態2における画像処理部の動作例を示すフローチャート、図9は図8の続きの動作例を示すフローチャートである。画像処理部104内のプロセッサがコンピュータプログラムを実行することで、図7に示す各ブロックの機能を実現すると共に、図8、図9の各ステップの処理を行う。尚、前述してきた同名・同符号のステップについては、詳細説明を省略し、差異がある場合に説明を追加する。
処理をスタートすると、ステップS300~S301で、画像データに対してオブジェクト検出を行い、物体のカテゴリ情報と検出領域を得る。又、ステップS302で、未処理の物体があれば、ステップS303で、各物体の検出領域を実施形態1と同様の方法で適応的に修正し、修正した検出領域に対応する対象領域を設定し、ステップS304で対象領域の画像データを得る。ステップS302で、未処理の物体が無ければ処理を終了する。
ステップS307において、後段のセマンティックセグメンテーション部にて好適な画像サイズになるように、対象領域の画像データの変倍率を決定する。機械学習を用いたニューラルネットワーク構造では、画像中の検出物体サイズのロバスト性を高めるため、プーリング層を多段に設け、夫々の解像度において特徴を抽出している。
これにより、物体の輪郭が明瞭な場合には画像上のサイズに依存しないオブジェクト検出、及び領域分割が可能となる。しかしながら、隠れ層の段数が増加するに従って推論のための演算量やパラメータセットを保持するメモリ量が急激に増加するため、隠れ層の段数は対応する検出物体サイズの変動量に応じて適切に設定される必要がある。
図10は、実施形態2における変倍率の決定方法を説明する図である。
実施形態2では、セマンティックセグメンテーションの入力画像サイズとしてVGA画像(幅640画素、高さ480画素)を想定し、領域分割を行う最適な物体サイズは、約100画素×約100画素程度を目安とする。このように、セマンティックセグメンテーションの最適な物体サイズをある程度の大きさに決めることで、ネットワーク構成の隠れ層を省略し、処理負荷を低減することが可能となる。
実施形態2では、セマンティックセグメンテーションの入力画像サイズとしてVGA画像(幅640画素、高さ480画素)を想定し、領域分割を行う最適な物体サイズは、約100画素×約100画素程度を目安とする。このように、セマンティックセグメンテーションの最適な物体サイズをある程度の大きさに決めることで、ネットワーク構成の隠れ層を省略し、処理負荷を低減することが可能となる。
又、隠れ層を削減可能な基準としては、NとMを正の整数とすると、物体サイズがN画素×M画素~N/2画素×M/2画素の範囲に収まるように変倍することが好ましい。これは、プーリング処理がデータ量を縦横2分の1にしていくことが多く、物体サイズの変動に対し、有効な特徴をプーリング回数によって切り替えているためである。又、領域分割を行うための最適な物体サイズが不明のモデルであっても、大きさを変化させた物体画像を実際に処理し分割精度を確認することで、最適な物体サイズを事前に決定することができる。
この最適な物体サイズの目安と、オブジェクト検出における検出領域が変動分を含むことを考慮し、VGA画像を縦横16分割した幅160画素、高さ120画素のサイズに小領域に分割する。そして、この小領域に物体を含む検出領域(変動分を考慮され拡大された領域)が入るように変倍率を設定する。検出物体の幅をW画素、高さをH画素とすると、(W/160)倍及び(H/120)倍による変倍結果のうち、小領域に格納できるサイズ(幅、高さ)に変倍できた方の変倍率を選択することで、物体のアスペクト比を変更せずに第1変倍率を決定できる。
ステップS308において、第1変倍部206は、上記の第1変倍率を用いて第1変倍処理を実施する(第1変倍工程)。変倍処理の方法は、公知の方法で良い。尚、変倍率によって縮小する場合と拡大する場合において、変倍処理の方法を変更しても良い。セマンティックセグメンテーションによる領域分割においては、物体の形状の明瞭度が領域分割の精度に大きく影響するが、縮小する場合は、元の画像データの形状が劣化しづらいため低次の補間方法(バイリニア補間)を用いても良い。一方で、拡大する場合には形状が劣化しやすいため高次の補間方法(バイキュービック補間、ランチョス補間など)を用いることで、演算量と領域分割精度のバランスをとることが可能である。
ステップS309において、画像合成部207は、セマンティックセグメンテーション部204に入力するための合成された画像データを生成する(画像合成工程)。本実施形態では、図9に示すように、VGA画像を16分割した小領域夫々に、異なる変倍率によってサイズを調整された物体を含む領域を順に合成することで画像データを生成する。
尚、物体の検出数が16に満たない場合には、空白の小領域が存在する状態でセマンティックセグメンテーションを実施しても良い。後段の画像切出し部208において、空白の小領域は切り出されることはないため、空白の小領域があっても影響を受けることはない。尚、ステップS309で合成を行うのは、セマンティックセグメンテーション部204における処理効率を向上するためである。
ステップS310において、合成画像が完成したか否かを判別して分岐する。合成画像が完成していない場合は、ステップS303に戻り、次の物体に対する処理領域を合成する。又、合成画像が完成した場合には、図9のステップS305に進み、合成画像のセマンティックセグメンテーションを実施することで、合成画像の領域分割マップを得る。
ステップS311において、合成画像の領域分割マップにおいて、未出力の小領域があるか否かを判別して分岐する。未出力の小領域がある場合は、ステップS312に進み、全ての小領域を出力済みの場合は、ステップS302に進む。
ステップS311において、合成画像の領域分割マップにおいて、未出力の小領域があるか否かを判別して分岐する。未出力の小領域がある場合は、ステップS312に進み、全ての小領域を出力済みの場合は、ステップS302に進む。
ステップS312において、画像切出し部208は、合成画像の領域分割マップから、1物体に対する領域分割マップを切り出す。本実施形態では、合成画像は16分割された小領域から構成されるため、順に小領域を切り出す。
ステップS313において、第2変倍率を算出する。第2変倍率は、合成画像の小領域を元の解像度に戻すための変倍率である。従って、第1変倍率の逆数を計算することで算出する。
ステップS313において、第2変倍率を算出する。第2変倍率は、合成画像の小領域を元の解像度に戻すための変倍率である。従って、第1変倍率の逆数を計算することで算出する。
ステップS314において、第2変倍部209は、第2変倍率をもとに第2変倍処理を実施する(第2変倍工程)。第2変倍処理は、領域分割マップに施される。領域分割マップは、通常の画像データとは異なり、画素値に対してカテゴリを示す値が付加されて格納されている。尚、補間処理によって、カテゴリ値と異なる値が出ることは好ましくないので本実施形態では第2変倍処理として、ニアレストネイバー補間などのように、補間後のマップにカテゴリ値しか出現しないような補間補法を用いる。
上記の処理によって、セマンティックセグメンテーションの処理負荷を低減しつつ、効率良く、高精度に領域分割が可能となる。尚、本実施形態に示した合成画像は処理効率を向上するためのものであり、少なくとも領域分割に適切な第1変倍処理と、入力解像度に戻すための第2変倍処理を用いることで、本実施形態の効果を得ることができる。
(実施形態3)
(実施形態3)
実施形態3では、オブジェクト検出で検出したカテゴリに応じて予め定められた所定の画像位置、又は複数のカテゴリで共有する予め定められた位置のいずれか一方に前記対象領域の画像データを配置して合成画像を生成する。そしてその合成画像をセマンティックセグメンテーションする。
実施形態3を適用する画像処理装置の構成は、実施形態1及び実施形態2と同一の構成で良く、説明を省略する。又、画像処理部104の構成についても実施形態2の構成で実現可能なので説明を省略する。
本実施形態では、図7に示す画像合成部207、及び、画像切出し部208の動作により、セマンティックセグメンテーションの学習効率を高めるようにしている。
図11は、実施形態3における画像合成方法を説明する図であり、画像合成部207によって合成する合成画像1000を示している。合成画像1000は、カテゴリに応じて予め位置が固定された小領域と、カテゴリ共通の小領域に分割されている。
本実施形態では、図7に示す画像合成部207、及び、画像切出し部208の動作により、セマンティックセグメンテーションの学習効率を高めるようにしている。
図11は、実施形態3における画像合成方法を説明する図であり、画像合成部207によって合成する合成画像1000を示している。合成画像1000は、カテゴリに応じて予め位置が固定された小領域と、カテゴリ共通の小領域に分割されている。
又、オブジェクト検出によって検出した物体のカテゴリと検出領域に基づき、実際に正解領域が存在する可能性がある領域とのずれ等を考慮して拡大した対象領域を、カテゴリに応じてどの画像位置に配置して合成するかを矢印で示している。
物体のカテゴリに応じて予め物体の存在する画像の領域を限定することで、セマンティックセグメンテーションを実現する際のモデルにおいて、大局的な特徴の学習を省略することが可能となる。特に、ボトルネック層と呼ばれる、画像の大部分に影響を与える隠れ層があるネットワーク構成において、高い学習効率効果を得ることができる。
物体のカテゴリに応じて予め物体の存在する画像の領域を限定することで、セマンティックセグメンテーションを実現する際のモデルにおいて、大局的な特徴の学習を省略することが可能となる。特に、ボトルネック層と呼ばれる、画像の大部分に影響を与える隠れ層があるネットワーク構成において、高い学習効率効果を得ることができる。
モデル学習時は、一般的には、画像上のどの位置に物体が出現するかは分からないため、物体のカテゴリと出現する位置の組合せにおいて、様々なパターンを想定し学習を行う必要がある。しかし実施形態3のように、オブジェクト検出を組み合わせることで、物体のカテゴリと物体が出現する位置を固定化することが可能であり、学習を行うパターンを限定し学習効率を高めることができる。また、小領域間の境界が必ず存在することで、必要な特徴の範囲は小領域間に限定され、ボトルネック層の学習を省略することが可能となる。
図12は、実施形態3におけるモデル学習に使用する学習画像の作成方法を示すフローチャートであり、図8のステップS309の合成処理に対応している。画像処理部104内のプロセッサがコンピュータプログラムを実行することで、図7に示す各ブロックの機能を実現すると共に、図12の各ステップの処理を行う。
本実施形態における学習画像の作成方法は、一般的なデータセット(入力画像と、入力画像内に存在する物体のカテゴリ毎に分割された領域分割マップのセット)を予め用意(設定)しておくことが前提となる。
本実施形態における学習画像の作成方法は、一般的なデータセット(入力画像と、入力画像内に存在する物体のカテゴリ毎に分割された領域分割マップのセット)を予め用意(設定)しておくことが前提となる。
そのため、ステップS1100において、領域分割マップに、画像中の物体(カテゴリ値)毎の検出領域を設定する。検出領域は、物体に外接する矩形領域を設定する。領域分割マップは、同一の物体は、同一のカテゴリ値によって互いに連結されているため、物体の上下左右方向から徐々に矩形領域を狭めていき、カテゴリ値に接触した辺を固定する方法で、ある程度自動的に設定することが可能である。
ステップS1101において、ステップS1100による検出領域に対し、オブジェクト検出で変動することを考慮して検出領域を拡大する。検出領域の拡大方法に関しては、実施形態1で説明した方法によって拡大可能である。
ステップS1102において、カテゴリ値に応じた位置の小領域に対して、ステップS1101にて拡大した検出領域を配置する。このとき、小領域のサイズに合わせて、拡大した検出領域は変倍を行ってから配置する。このステップS1102では、学習時に入力データとなる画像データと、画像データに紐づく領域分割マップの両方を生成する。
ステップS1102において、カテゴリ値に応じた位置の小領域に対して、ステップS1101にて拡大した検出領域を配置する。このとき、小領域のサイズに合わせて、拡大した検出領域は変倍を行ってから配置する。このステップS1102では、学習時に入力データとなる画像データと、画像データに紐づく領域分割マップの両方を生成する。
ステップS1103では、共有位置の小領域に対して、ステップS1101にて拡大した検出領域を配置する。このとき、共有位置の小領域のサイズに合わせて、変倍処理を行うが、ステップS1102におけるカテゴリ毎の小領域サイズと異なる場合には、異なる変倍率によって変倍を行う。このステップS1103でも、学習時に入力データとなる画像データと、画像データに紐づく領域分割マップの両方を生成するが、ステップS1102にて生成したデータに上書きする形で生成しても良い。
ステップS1104において、データセットの入力画像中の全物体に対して処理したか分岐する。
ステップS1105において、データセットの全画像に対して処理したか分岐する。
上記の処理により、本実施形態における学習時の入力画像データと、正解となる領域分割マップを得ることができる。これらのデータセットを利用して、セマンティックセグメンテーションのモデルを効率的に学習させることができる。
ステップS1105において、データセットの全画像に対して処理したか分岐する。
上記の処理により、本実施形態における学習時の入力画像データと、正解となる領域分割マップを得ることができる。これらのデータセットを利用して、セマンティックセグメンテーションのモデルを効率的に学習させることができる。
又、実施形態3のように、小領域の使用カテゴリを予め決めることで、物体の出現に偏りがある場合、例えば車カテゴリの物体が大量に存在する場合などは、セマンティックセグメンテーションの実行効率が下がってしまうことがある。これに対し、本実施形態では共有の小領域を設定することにより、物体の出現頻度によって実行効率が下がるようなことを回避することができる。尚、共有の小領域を設定することは、学習効率とはトレードオフの関係にある。
又、小領域の使用カテゴリに応じて、予め定められたアスペクト比の領域に検出領域の画像データを配置して合成画像を生成することで、より効率的に合成画像を生成することができる。例えば、車カテゴリであれば正方形に近い小領域を設定し、人カテゴリであれば縦長の小領域を設定することで、効率的に小領域を敷き詰めることが可能となり、セマンティックセグメンテーションの実行効率を高めることができる。
以上のように、予め物体のカテゴリに応じて配置位置を定めた画像データを合成し、その合成画像データに対してセマンティックセグメンテーションを実施することで、ロバスト性が高く高精度な領域分割を効率よく実現することが可能となる。
以上のように、予め物体のカテゴリに応じて配置位置を定めた画像データを合成し、その合成画像データに対してセマンティックセグメンテーションを実施することで、ロバスト性が高く高精度な領域分割を効率よく実現することが可能となる。
又、実施形態における、画像処理装置を有する撮像装置や画像処理装置を、自動車等の移動装置に搭載した場合には例えば以下のような構成を有する。即ち、セマンティックセグメンテーション部204にて前記カテゴリに属する画素に前記カテゴリを付与した後の画像データに基づき、障害物に関する警告や移動装置の方向や速度等の移動動作を制御する制御部を設ける。
本実施形態の画像処理装置では、処理負荷を抑制しつつ、ロバスト性が高く、高精度な領域分割結果が得られるので、例えば遠くの前方車や障害物等をより早く認識することができ、事故を速やかに回避できる等の優れた効果が得られる。
本実施形態の画像処理装置では、処理負荷を抑制しつつ、ロバスト性が高く、高精度な領域分割結果が得られるので、例えば遠くの前方車や障害物等をより早く認識することができ、事故を速やかに回避できる等の優れた効果が得られる。
以上、本発明をその好適な実施形態に基づいて詳述してきたが、本発明は上記実施形態に限定されるものではなく、本発明の主旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。
尚、本実施形態における制御の一部又は全部を上述した実施形態の機能を実現するコンピュータプログラムをネットワーク又は各種記憶媒体を介して画像処理装置や移動装置等に供給するようにしてもよい。そしてその画像処理装置や移動装置等におけるコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行するようにしてもよい。その場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することとなる。
100 CPU
101 RAM
102 ROM
103 撮影部
104 画像処理部
105 I/F部
200 画像取得部
201 オブジェクト検出部
202 領域設定部
203 対象画像取得部
204 セマンティックセグメンテーション部
205 領域ズレ推定部
206 第1変倍部
207 画像合成部
208 画像切出し部
209 第2変倍部
101 RAM
102 ROM
103 撮影部
104 画像処理部
105 I/F部
200 画像取得部
201 オブジェクト検出部
202 領域設定部
203 対象画像取得部
204 セマンティックセグメンテーション部
205 領域ズレ推定部
206 第1変倍部
207 画像合成部
208 画像切出し部
209 第2変倍部
Claims (25)
- 画像データから物体を検出するオブジェクト検出部と、
前記オブジェクト検出部による検出結果に応じて、画素にカテゴリを付与する対象とする対象領域を設定する領域設定部と、
前記領域設定部にて設定した前記対象領域の前記カテゴリに属する画素に前記カテゴリを付与するカテゴリ付与部と、
を具備することを特徴とする画像処理装置。 - 前記領域設定部は、前記オブジェクト検出部が前記物体を検出した検出領域を拡大することにより前記対象領域を設定することを特徴とする請求項1に記載の画像処理装置。
- 前記領域設定部は、前記カテゴリに応じて前記検出領域を修正して前記対象領域を設定することを特徴とする請求項2に記載の画像処理装置。
- 前記カテゴリ付与部において前記カテゴリを付与された前記物体の位置に基づき前記対象領域のズレを推定する領域ズレ推定部を有することを特徴とする請求項1に記載の画像処理装置。
- 前記領域設定部は、前記領域ズレ推定部によって推定された領域ズレを参照して前記対象領域を設定することを特徴とする請求項4に記載の画像処理装置。
- 前記領域ズレ推定部は、前記カテゴリ付与部により前記カテゴリが付与された前記物体の位置と、前記オブジェクト検出部が前記物体を検出した検出領域の位置を比較して前記領域ズレを推定することを特徴とする請求項5に記載の画像処理装置。
- 前記領域ズレ推定部は、前記カテゴリに応じて、領域ズレ量を推定することを特徴とする請求項4に記載の画像処理装置。
- 前記領域設定部は、前記オブジェクト検出部にて検出される複数の前記検出領域の夫々を修正し、修正された複数の前記検出領域を含む領域を前記対象領域として設定することを特徴とする請求項2又は3に記載の画像処理装置。
- 前記カテゴリ付与部は、前記オブジェクト検出部にて検出される前記物体の前記カテゴリに応じて、異なるパラメータセットを用いて前記カテゴリの付与をすることを特徴とする請求項1から7のいずれか1項に記載の画像処理装置。
- 画像データから物体を検出すると共に、前記物体のカテゴリと前記物体が検出された所定の検出領域を出力するオブジェクト検出部と、
前記検出領域の前記画像データ内の前記カテゴリに属する画素に前記カテゴリを付与するカテゴリ付与部と、
前記検出領域の前記画像データを、前記カテゴリ付与部に供給する前に、第1変倍率にて変倍する第1変倍部を有することを特徴とする画像処理装置。 - 前記カテゴリ付与部にて前記カテゴリに属する画素に前記カテゴリを付与した後の前記画像データを第2変倍率にて変倍する第2変倍部を有することを特徴とする請求項10に記載の画像処理装置。
- 前記第2変倍率は前記第1変倍率の逆数であることを特徴とする請求項11に記載の画像処理装置。
- 前記第1変倍部で変倍された前記検出領域の前記画像データを、他の検出領域の画像データと合成してから前記カテゴリ付与部に供給する画像合成部を有することを特徴とする請求項10に記載の画像処理装置。
- 前記画像合成部は、前記カテゴリに応じて予め定められた位置、又は複数の前記カテゴリで共有する予め定められた位置のいずれか一方に前記検出領域の前記画像データを配置して合成画像を生成することを特徴とする請求項13に記載の画像処理装置。
- 前記画像合成部は、前記カテゴリに応じて予め定められた位置に前記検出領域の前記画像データを配置して合成画像を生成することを特徴とする請求項13に記載の画像処理装置。
- 前記画像合成部は、前記カテゴリに応じて予め定められたアスペクト比の領域に前記検出領域の前記画像データを配置して合成画像を生成することを特徴とする請求項13に記載の画像処理装置。
- 前記カテゴリ付与部にて前記カテゴリに属する画素に前記カテゴリを付与した後の前記画像データを前記第2変倍部に供給する前に、前記対象領域毎に前記画像データを切出す切出し部を有することを特徴とする請求項11又は12に記載の画像処理装置。
- 前記カテゴリ付与部は、前記検出領域の画像データ内の前記カテゴリに属する画素に前記カテゴリを付与する機械学習モデルを含むことを特徴とする請求項10~17のいずれか1項に記載の画像処理装置。
- 前記カテゴリ付与部は、前記検出領域に対してセマンティックセグメンテーションを行うことを特徴とする請求項18に記載の画像処理装置。
- 画像データから物体を検出するオブジェクト検出工程、
前記オブジェクト検出工程による検出結果に応じて、画素にカテゴリを付与する対象とする対象領域を設定する領域設定工程と、
前記領域設定工程にて設定した前記対象領域の前記カテゴリに属する画素に前記カテゴリを付与するカテゴリ付与工程と、
を具備することを特徴とする画像処理方法。 - 前記領域設定工程にて設定した前記対象領域の前記画像データを、前記カテゴリ付与工程に供給する前に、第1変倍率にて変倍する第1変倍工程と、
前記カテゴリ付与工程にて前記カテゴリに属する画素に前記カテゴリを付与した後の前記画像データを第2変倍率にて変倍する第2変倍工程と、を有することを特徴とする請求項20に記載の画像処理方法。 - 前記第2変倍率は前記第1変倍率の逆数であることを特徴とする請求項21に記載の画像処理方法。
- 前記第1変倍工程で変倍された前記対象領域の前記画像データを、他の対象領域の画像データと合成してから前記カテゴリ付与工程に供給する画像合成工程を有することを特徴とする請求項21又は22に記載の画像処理方法。
- 請求項1~19のいずれか1項に記載の画像処理装置が搭載され、
前記カテゴリ付与部にて前記カテゴリに属する画素に前記カテゴリを付与した後の前記画像データに基づき警告又は移動装置の移動動作を制御する制御部と、を有することを特徴とする移動装置。 - 請求項1~19のいずれか1項に記載の画像処理装置又は請求項24に記載の移動装置の各部をコンピュータにより制御するためのコンピュータプログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021056596A JP2022153857A (ja) | 2021-03-30 | 2021-03-30 | 画像処理装置、画像処理方法、移動装置、及びコンピュータプログラム |
US17/703,545 US20220319145A1 (en) | 2021-03-30 | 2022-03-24 | Image processing device, image processing method, moving device, and storage medium |
KR1020220037828A KR20220136196A (ko) | 2021-03-30 | 2022-03-28 | 화상 처리 장치, 화상 처리 방법, 이동 장치, 및 저장 매체 |
EP22164942.9A EP4068220A1 (en) | 2021-03-30 | 2022-03-29 | Image processing device, image processing method, moving device, and storage medium |
CN202210328099.2A CN115147580A (zh) | 2021-03-30 | 2022-03-30 | 图像处理装置、图像处理方法、移动装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021056596A JP2022153857A (ja) | 2021-03-30 | 2021-03-30 | 画像処理装置、画像処理方法、移動装置、及びコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022153857A true JP2022153857A (ja) | 2022-10-13 |
Family
ID=80979071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021056596A Pending JP2022153857A (ja) | 2021-03-30 | 2021-03-30 | 画像処理装置、画像処理方法、移動装置、及びコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220319145A1 (ja) |
EP (1) | EP4068220A1 (ja) |
JP (1) | JP2022153857A (ja) |
KR (1) | KR20220136196A (ja) |
CN (1) | CN115147580A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7500895B1 (ja) | 2023-09-21 | 2024-06-17 | 株式会社 日立産業制御ソリューションズ | 作業管理装置、作業管理システム、および、作業管理方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024113363A1 (zh) * | 2022-12-02 | 2024-06-06 | 华为技术有限公司 | 一种图像处理的方法、装置和智能驾驶设备 |
CN115965927B (zh) * | 2023-03-16 | 2023-06-13 | 杭州枕石智能科技有限公司 | 一种路面信息提取方法、装置、电子设备及可读存储介质 |
CN117409077B (zh) * | 2023-10-18 | 2024-04-05 | 无锡九霄科技有限公司 | 基于多尺度残差UNet分割的芯片姿态检测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9858496B2 (en) * | 2016-01-20 | 2018-01-02 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
JP6901386B2 (ja) * | 2017-12-08 | 2021-07-14 | 株式会社東芝 | 勾配推定装置、勾配推定方法、プログラムおよび制御システム |
CN110443159A (zh) * | 2019-07-17 | 2019-11-12 | 新华三大数据技术有限公司 | 数字识别方法、装置、电子设备及存储介质 |
JP7375425B2 (ja) | 2019-09-27 | 2023-11-08 | セイコーエプソン株式会社 | 情報処理システム、サービスシステム及び電子機器 |
-
2021
- 2021-03-30 JP JP2021056596A patent/JP2022153857A/ja active Pending
-
2022
- 2022-03-24 US US17/703,545 patent/US20220319145A1/en active Pending
- 2022-03-28 KR KR1020220037828A patent/KR20220136196A/ko unknown
- 2022-03-29 EP EP22164942.9A patent/EP4068220A1/en active Pending
- 2022-03-30 CN CN202210328099.2A patent/CN115147580A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7500895B1 (ja) | 2023-09-21 | 2024-06-17 | 株式会社 日立産業制御ソリューションズ | 作業管理装置、作業管理システム、および、作業管理方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20220136196A (ko) | 2022-10-07 |
EP4068220A1 (en) | 2022-10-05 |
US20220319145A1 (en) | 2022-10-06 |
CN115147580A (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022153857A (ja) | 画像処理装置、画像処理方法、移動装置、及びコンピュータプログラム | |
JP7383870B2 (ja) | デバイス、方法、システムおよびコンピュータプログラム | |
CN110782490B (zh) | 一种具有时空一致性的视频深度图估计方法及装置 | |
US11270492B2 (en) | Graphics processing systems | |
CN112016614B (zh) | 光学图像目标检测模型的构建方法、目标检测方法及装置 | |
CA2875426C (en) | Resizing an image | |
CN112184585B (zh) | 一种基于语义边缘融合的图像补全方法及系统 | |
JP5653141B2 (ja) | 画像処理方法、画像処理装置、及び、プログラム | |
US20220230327A1 (en) | Graphics processing systems | |
US9317909B2 (en) | Image subsystem including image feature detection hardware component and image processing system including the same | |
WO2024001360A1 (zh) | 绿幕抠图方法、装置及电子设备 | |
CN115546027B (zh) | 图像缝合线确定方法、装置以及存储介质 | |
CN114332250A (zh) | 使用时间累积来对动态光线追踪场景进行去噪的历史箝位 | |
KR102628115B1 (ko) | 영상 처리 방법, 장치, 기록 매체 및 전자 장치 | |
US20220375160A1 (en) | Depth buffer dilation for remote rendering | |
WO2022046725A1 (en) | Spatiotemporal recycling network | |
WO2021161513A1 (ja) | 画像処理装置、画像処理システム、画像処理方法、および画像処理プログラム | |
CN112132753B (zh) | 多尺度结构引导图像的红外图像超分辨率方法及系统 | |
CN113506305A (zh) | 三维点云数据的图像增强方法、语义分割方法及装置 | |
JP2023079211A (ja) | イメージ処理装置及び方法 | |
US11423308B1 (en) | Classification for image creation | |
JP2024521816A (ja) | 無制約画像手ぶれ補正 | |
CN108109107B (zh) | 视频数据处理方法及装置、计算设备 | |
US9092840B2 (en) | Image processing apparatus, control method of the same and non-transitory computer-readable storage medium | |
US20200202140A1 (en) | Method and device for evaluating images, operating assistance method, and operating device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240326 |