JP2021152826A

JP2021152826A - 情報処理装置、被写体分類方法、及び被写体分類プログラム

Info

Publication number: JP2021152826A
Application number: JP2020053505A
Authority: JP
Inventors: 慎也生田目; Shinya Namatame
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2021-09-30

Abstract

【課題】撮像装置によって撮像された被写体をより正確に特定できる、情報処理装置、被写体分類方法及び被写体分類プログラムを提供する。【解決手段】情報処理装置としての被写体分類装置１０は、カメラ２０が取得した第１画像データ及び第２画像データを細分化した第１基準単位毎に被写体の分類を判定する第１クラス判定部３２と、第１基準単位より広い第２基準単位毎に被写体の分類を判定する第２クラス判定部３４と、同じ被写体であるにもかかわらず第１基準単位に基づいた第１画像データと第２画像データとの分類結果が異なる場合、第２基準単位に基づいた第１画像データと第２画像データとの分類結果を用いて、第１基準単位を含む被写体の分類を特定するクラス特定部３６と、を備える。【選択図】図１

Description

本発明は、情報処理装置、被写体分類方法、及び被写体分類プログラムに関する。

近年、車両等にカメラが搭載され、カメラで取得された画像データに基づいて車両周囲の物体等を認識する技術の開発が進んでいる（特許文献１）。

画像認識技術として特許文献２に記載されているように、入力画像の各ピクセルを意味付けされたクラスに分類するセマンティックセグメンテーション（以下「ＳＳ」という。）によって、被写体を認識する手法が挙げられる。このＳＳは、例えば、ディープラーニングによって実現される。

特許第５３１０７２号公報特開２０１９−１９４８２１号公報

ここで、実機に対する実装の制約のためディープラーニングネットワーク（Deep Learning Network、以下「ＤＮＮ」という。)に入力されるデータのサイズは小さくされることが好ましい。そこで、一例として、図７に示されるように、元の画像データ１００からＮｅａｒ画像データ１０２とＦａｒ画像データ１０４を抽出し、これらをＤＮＮへ入力されることが行われる。

Ｎｅａｒ画像データ１０２は、元の画像データ１００を縮小した画像データである。Ｎｅａｒ画像データ１０２は相対的に広い画角の画像データであり、車両の近傍を認識する場合に用いられる。一方、カメラに映る遠方の物体を認識したいときに、元の画像データ１００を縮小すると被写体につぶれが生じたり、被写体が小さくなり過ぎるため、正確な画像認識が難しくなる。そこで、遠方の物体を認識する場合には、元の画像の一部、すなわち画像認識の対象となる物体の周囲を切り取ったＦａｒ画像データ１０４がＤＮＮへ入力される。なお、Ｎｅａｒ画像データ１０２とＦａｒ画像データ１０４とは、重複した領域、すなわち同じ被写体が含まれる領域が存在している。

一例として、車両を駐車する場合における周辺監視では、車両近傍では広角で画像認識する必要がある。一方、車両の進行方向や後退方向に対しては、車両に対して遠方の領域も画像認識する必要がある。このため、車両においては、Ｎｅａｒ画像データ１０２とＦａｒ画像データ１０４とを併用し、Ｎｅａｒ画像データ１０２とＦａｒ画像データ１０４とで別々で画像認識処理が行われる。

しかしながら、Ｎｅａｒ画像データ１０２とＦａｒ画像データ１０４とで重複した領域であるものの、画像認識の結果（被写体の分類結果）が異なる場合があり、このような場合には被写体の正確な特定（分類）が難しい。

本発明は上記背景に鑑み、撮像装置によって撮像された被写体をより正確に特定できる、情報処理装置、被写体分類方法、及び被写体分類プログラムを提供することを目的とする。

本発明は上記課題を解決するために以下の技術的手段を採用する。特許請求の範囲及びこの項に記載した括弧内の符号は、ひとつの態様として後述する実施形態に記載の具体的手段との対応関係を示す一例であって、本発明の技術的範囲を限定するものではない。

本発明の一態様の情報処理装置（１０）は、撮像装置（２０）で取得された第１画像データ及び第２画像データに含まれる一又は複数の被写体の分類を特定する情報処理装置であって、前記第１画像データ及び前記第２画像データを複数に細分化した第１基準単位毎に、前記第１基準単位を含む前記被写体の分類を判定する第１判定手段（３２）と、前記第１基準単位より広い第２基準単位毎に、前記第２基準単位を含む前記被写体の分類を判定する第２判定手段（３４）と、同じ前記被写体であるにもかかわらず前記第１基準単位に基づいた前記第１画像データと前記第２画像データとの分類結果が異なる場合、前記第２基準単位に基づいた前記第１画像データと前記第２画像データとの分類結果を用いて、前記第１基準単位を含む前記被写体の分類を特定する特定手段（３６）と、を備える。

本発明によれば、撮像装置によって撮像された被写体をより正確に特定できる。

本実施形態の被写体分類装置の概略構成図である。本実施形態のピクセルの分類結果とエントロピーとの関係を示す模式図である。本実施形態のピクセル単位での分類結果の傾向を示す模式図である。本実施形態のグリッドを示す模式図である。本実施形態のクラス指標の算出結果を示す模式図である。本実施形態の分類処理の流れを示すフローチャートである。Ｎｅａｒ画像データとＦａｒ画像データとを示す図である。

以下、図面を参照して本発明の実施形態を説明する。なお、以下に説明する実施形態は、本発明を実施する場合の一例を示すものであって、本発明を以下に説明する具体的構成に限定するものではない。本発明の実施にあたっては、実施形態に応じた具体的構成が適宜採用されてよい。

図１は、本実施形態の被写体分類装置１０の概略構成図である。被写体分類装置１０は、いわゆる情報処理装置であり、撮像装置であるカメラ２０で取得された画像データに含まれる一又は複数の被写体（認識対象物）を認識する。なお、本実施形態の被写体分類装置１０は、被写体を構成するピクセル毎に被写体の種類を分類することで、被写体が何であるかを特定（認識）する。

本実施形態では、一例として、被写体分類装置１０は車両に搭載される。また、カメラ２０は車両の前部、後部、又は側部に一又は複数備えられ、車両の前方や後方等を撮像する車載カメラである。本実施形態のカメラ２０は、一例として魚眼レンズ（広角レンズ）を備えているが、これに限られない。また、車両は、一例として、被写体分類装置１０による画像認識結果に基づいて自動運転を行う。

本実施形態の被写体分類装置１０は、被写体の種類として、予め定められた複数のクラスに分類する。例えば、車両が駐車場内に進入して駐車を行う場合には、被写体は道路クラス、立体物クラス、縁石クラス、及び輪止めクラスの何れかに分類される。すなわち、道路クラスに分類された被写体は道路であると特定され、立体物クラスに分類された被写体は駐車場内に存在する車両等の立体物であると特定され、縁石クラスに分類された被写体は縁石であると特定され、輪止めクラスに分類された被写体は縁石であると特定される。

上記クラスの種類や数は一例であり、車両の走行環境（走行場所）に応じて変化してもよい。例えば、車両の走行場所が一般道であれば、歩道や横断歩道、自転車、歩行者等を示すクラスが含まれてもよい。なお、車両の走行環境によるクラスの切替は、例えば、車両の位置情報（ＧＰＳ情報）等に基づいて行われる。

本実施形態の被写体分類装置１０は、一例として、セマンティックセグメンテーション（以下「ＳＳ」ともいう。）によって、画像データに含まれる被写体の分類を特定する。より具体的には、被写体分類装置１０は、画像データをピクセル単位に分割し、ＳＳによってピクセル単位で被写体の分類を判定する。なお、ピクセルは、画像データにおけるｘｙ座標によりその位置が特定される。

本実施形態の被写体分類装置１０は、一例として、ＳＳのためのディープラーニングのニューラルネットワーク（以下「ＤＮＮ」という。)に画像データを入力し、被写体を分類するクラス毎の信頼度（以下「確率」又は「クラス確率」という。）をピクセル毎に算出し、クラス確率が最大となったクラスを当該ピクセルを含む被写体のクラスとして特定する。

クラス確率について具体的に説明する。一例として、車両が駐車を行う場合にカメラ２０が撮像する被写体のクラス（分類）として、予め道路クラス、立体物クラス、縁石クラス、及び輪止めクラスのような候補クラスが予め定義される。そして、ＳＳによって、あるピクセルの道路クラスの確率が０．５、輪止めクラスの確率が０．３、立体物クラスの確率が０．２、縁石クラスが確率を０と算出された場合には、当該ピクセルは最も確率の高い道路クラスであると特定される。

また、ＤＮＮに入力されるデータのサイズは、小さいことが好ましい。そこで、本実施形態の被写体分類装置１０は、一例として、元の画像データのサイズに対して縮小された画像データ（以下「Ｎｅａｒ画像データ」という。）と元の画像データの一部のみを切り取った画像データ（以下「Ｆａｒ画像データ」という。）とをＤＮＮへ入力する。このように、Ｎｅａｒ画像データとＦａｒ画像データとは、同じ画像データから得られ、同一の被写体を含む画像データであり、重複する画像領域、換言すると同一の被写体が含む画像データである。このように、本実施形態のＮｅａｒ画像データ及びＦａｒ画像データは、詳細を後述するように元の画像における認識したい被写体を含む画像であり、以下の説明ではＲＯＩ（Region Of Interest）画像ともいう。

Ｎｅａｒ画像データは、Ｆａｒ画像データよりも広い画角で車両近傍の被写体の認識に用いられる画像データである。一方、Ｆａｒ画像データは、車両遠方の被写体の認識に用いられる画像データであり、Ｎｅａｒ画像データよりも狭い画角の画像データである。本実施形態の被写体分類装置１０は、Ｎｅａｒ画像データとＦａｒ画像データとに対して、これらに含まれる被写体の分類を特定する。

ここで、ＳＳのＤＮＮは、ピクセルのクラス間における大小関係のみを学習しているので、例えば、複数のピクセル同士でのクラス確率の比較や、Ｎｅａｒ画像データとＦａｒ画像データとのように異なるＤＮＮでのクラス確率の比較はできない。

そこで、被写体分類装置１０は、上述のように、ピクセル（被写体）の分類を複数の異なる分類に対する確率として算出し、算出した確率のばらつきを示す評価値を求める。この評価値は、ＳＳによってピクセル毎に算出されたクラス確率のばらつきを示すエントロピー（例えばシャノンのエントロピー）である。このエントロピーの値が低いほど、ＳＳによって算出されたクラスの信頼度は高い。

そして、被写体分類装置１０は、ピクセルのエントロピーをＮｅａｒ画像データとＦａｒ画像データとで重複した位置のピクセル毎に比較する。なお、同じ位置のピクセルとは、元画像データにおける同じ位置のピクセルである。すなわち、被写体分類装置１０は、Ｎｅａｒ画像データとＦａｒ画像データとでエントロピーが低くなった算出結果、換言するとクラス確率のばらつきが小さい結果が信頼度の高い画像認識結果と判定し、当該ピクセルのクラスを特定する。

図２は、本実施形態のピクセルの分類結果とエントロピーとの関係を示す模式図であり、ピクセルに対する複数のクラス毎の確率と、これらの確率に基づいたピクセル毎のエントロピーとをケース１〜４で例示したものである。

ケース１は、４つのクラスの確率が各々０．２５であり、ばらつきが大きいためエントロピーが他のケースに比べて最も高い。一方で、ケース３は、道路クラスの確率が０．７であり、立体物クラスの確率が０．３であり、他のクラスの確率が０であり、エントロピーが約０．８８となり、４つのケースのうち最もエントロピーが低い。ケース４は、道路クラスと立体物クラスの確率が０．５であり、他のクラスの確率が０であり、エントロピーは１である。ケース２では、道路クラスの確率が０．７であり、他のクラスの確率が０．１であり、エントロピーは約１．３６である。

一例として、Ｎｅａｒ画像データに対するＳＳの結果がケース２であり、Ｆａｒ画像データに対するＳＳの結果がケース４であるとする。図２の例では、ケース４、すなわちＦａｒ画像データの方がエントロピーが低いため、この結果が当該ピクセルのクラスとして採用される。しかしながら、ケース４とケース２とにおける各クラスの確率を比較すると、ケース２における道路クラスの確率が０．７であり他のクラスの確率が０．１であるため、直感的には、ケース２のＮｅａｒ画像データに対する結果が採用される方が適しているとも思われる。

このように、Ｎｅａｒ画像データとＦａｒ画像データとの分類結果を用いると、何れの分類結果を採用するべきか判然としない場合がある。

そこで、本実施形態の被写体分類装置１０は、ピクセル単位よりも広い領域毎に被写体の分類を判定した結果も用いる。具体的には本実施形態の被写体分類装置１０は、同じ被写体であるにもかかわらず、ピクセル単位に基づいたＮｅａｒ画像データとＦａｒ画像データとの分類結果が異なる場合、より広い画像領域に基づいたＮｅａｒ画像データとＦａｒ画像データとの分類結果を用いて被写体を分類する被写体分類処理を行う。

すなわち、本実施形態の被写体分類処理は、Ｎｅａｒ画像データとＦａｒ画像データとでピクセル単位に基づいた分類結果にばらつきが生じた場合、当該ピクセルを含みかつ当該ピクセルよりも広い領域における被写体の分類傾向を把握し、より広い空間における情報を利用して被写体の分類を特定する。これにより、本実施形態の被写体分類装置１０は、被写体をより正確に特定できる。

次に、本実施形態の被写体分類処理について図３，４を参照して説明する。図３（Ａ）及び図４（Ａ）は、駐車を行う車両に搭載されたカメラ２０の撮像画像であり、図３（Ｂ）及び図４（Ｂ）は、当該撮像画像を示す画像データに含まれる被写体をピクセル単位で分類した結果の一例である。図３（Ｂ）及び図４（Ｂ）では、同じクラスは同色で表されている。より具体的には、図３（Ｂ）及び図４（Ｂ）において色の黒い領域は立体物クラスと分類され、灰色の領域は道路クラスと分類されている。なお、図３（Ｃ）は、被写体の分類の正解値であり、色の濃い領域の被写体が立体物クラスであると判定されている。

すなわち、図３（Ｂ）の領域Ａ，Ｂは共に立体物（車両）に対応する領域であるが、領域Ａ及びその周囲は立体物クラスと分類されたものの、領域Ｂ及びその周辺は立体物クラスと道路クラスとが混在して分類されている。このように、ピクセル単位での分類の信頼性が高い領域は、領域Ａで示されるように同じクラスが相対的に大きな塊となって表される。一方、信頼性の低い領域は、領域Ｂで示されるように分類にばらつきが生じており、異なる分類結果となった数ドットの小さい塊が複数存在する傾向にある。すなわち、領域Ｂ及びその周辺のようなピクセルが、Ｎｅａｒ画像データとＦａｒ画像データとで異なる分類結果となり得る。

そこで、被写体分類装置１０は、図４（Ａ），（Ｂ）に示されるように画像データを複数のグリッド４０に分割する。図４（Ａ），（Ｂ）では、一例として、縦に３つ横に４つのグリッド４０に分割される。そして、本実施形態の被写体分類装置１０は、ピクセル単位よりも大きな領域であるグリッド４０毎にクラスを判定する。

すなわち、グリッド４０のクラスは、ピクセル単位でのクラスの出力傾向に基づいたより広い領域のクラスの確からしさを示す指標（以下「クラス指標」という。）である。そして、Ｎｅａｒ画像データとＦａｒ画像データとで同じ位置であるにもかかわらず、ピクセル単位に基づいた分類結果が異なった場合、被写体分類装置１０は、当該ピクセルに対応するクラス指標を用いて当該ピクセルを含む被写体の分類を特定する。

なお、図４に示されるグリッド４０の大きさは一例であり、少なくとも、ＲＯＩ画像（Ｎｅａｒ画像データ、Ｆａｒ画像データ）よりも小さく設定されればよい。

例えば、グリッド４０は、ＲＯＩ画像であるＮｅａｒ画像データ及びＦａｒ画像データに含まれ、画像認識するべき被写体（認識対象物）の大きさの最小値に相当する大きさに設定されてもよい。より具体的にはグリッド４０は、例えば、車両にとって遠方でありカメラ２０で撮像された場合に認識されるべき車両や人等の大きさに相当し、この大きさ（縦横のピクセル数）は予め設定されている。また、グリッド４０の大きさは、ＲＯＩ画像毎に異なってもよい。

次に、本実施形態の被写体分類装置１０の構成について図１を参照して説明する。被写体分類装置１０は、ＣＰＵ（Central Processing Unit）等の演算部１２、各種プログラム及び各種データ等が予め記憶されたＲＯＭ（Read Only Memory）１４、演算部１２による各種プログラムの実行時のワークエリア等として用いられるＲＡＭ（Random Access Memory）１６、ＳＳを行うためのＤＮＮやカメラ２０で取得された画像データ、その他の各種データを記憶する記憶装置１８を備えている。

本実施形態の演算部１２は、画像抽出部３０、第１クラス判定部３２、第２クラス判定部３４、及びクラス特定部３６を備える。

画像抽出部３０は、カメラ２０で取得された画像データから、Ｎｅａｒ画像データとＦａｒ画像データとを抽出する。

第１クラス判定部３２は、Ｎｅａｒ画像データ及びＦａｒ画像データを複数に細分化した第１基準単位毎に、第１基準単位を含む被写体の分類を判定する。なお、本実施形態の第１基準単位は、一例として、上述のようにピクセル単位であるが、これに限らず、第２基準単位よりも狭い領域であれば、複数のピクセルで構成される領域を第１基準単位としてもよい。第１クラス判定部３２は、ピクセル毎の被写体の分類を上述のようにＳＳを用いて判定する。

また、本実施形態の第１クラス判定部３２は、ピクセルを含む被写体の分類（クラス）を複数の異なる分類（候補クラス）に対する確率として算出すると共に、算出した確率のばらつきを示す第１評価値をピクセル毎に算出する。この第１評価値は、一例として、上述したエントロピーである。

第２クラス判定部３４は、ピクセル単位である第１基準単位より広い第２基準単位毎に、第２基準単位を含む被写体の分類をＳＳによって判定する。なお、本実施形態の第２基準単位は、上述のようにグリッド４０であり、第２クラス判定部３４は、グリッド４０毎の被写体の分類を上述のようにＳＳを用いて判定する。

また、本実施形態の第２クラス判定部３４は、被写体の分類を判定するための第２評価値をグリッド４０毎に算出する。この第２評価値は、上述したクラス指標である。クラス指標は、一例として、（１）式のようにグリッド４０に含まれるクラス毎の塊の数の逆数と塊の面積との積として算出される。なお、クラス指標は、（１）式で示される算出方法に限られず、例えば、グリッド４０に含まれるクラスの割り合いに基づいて算出される等、他の算出方法でもよい。

図５は、グリッド４０毎に算出されたクラス指標の一例を示す模式図である。クラス指標は、Ｎｅａｒ画像データとＦａｒ画像データとにおける対応するグリッド４０毎に算出される。図５の例では、Ｎｅａｒ画像データのクラス指標として立体物クラスが最も大きな値を示し、Ｆａｒ画像データのクラス指標として道路クラスが最も大きな値を示している。そして、Ｆａｒ画像データの道路クラスのクラス指標がＮｅａｒ画像データの立体物クラスのクラス指標よりも大きいので、当該グリッド４０のクラスは道路クラスとなる。

クラス特定部３６は、第１クラス判定部３２及び第２クラス判定部３４の判定結果に基づいて、ピクセルを含む被写体の分類を特定する。本実施形態のクラス特定部３６は、第１クラス判定部３２においてＮｅａｒ画像データとＦａｒ画像データとで同じ位置のピクセルの分類結果が同じであれば、当該分類結果により示されるクラスを当該ピクセルを含む被写体のクラスとする。

一方で、同じ位置（同じ被写体）であるにもかかわらずピクセル単位に基づいたＮｅａｒ画像データとＦａｒ画像データとの分類結果が異なる場合、クラス特定部３６は、グリッド４０に基づいたＮｅａｒ画像データとＦａｒ画像データとの分類結果を用いて、ピクセルを含む被写体の分類を特定する。

より具体的にはクラス特定部３６は、ピクセル単位に基づいたＮｅａｒ画像データとＦａｒ画像データとの被写体の分類結果が異なり、かつＮｅａｒ画像データのエントロピー及びＦａｒ画像データのエントロピーの少なくとも一方が所定値を超える場合、クラス特定部３６は、グリッド４０に基づいた分類結果を用いてピクセルを含む被写体の分類を特定する。すなわち、エントロピーが上記所定値を超える場合には、このピクセル単位に基づいたクラス分類の信頼度は低いと考えられる。従って、グリッド４０に基づいた分類結果を用いてピクセルを含む被写体の分類を特定することで、より正確に被写体が特定され得る。

なお、グリッド４０に基づいた分類結果とは、第２クラス判定部３４によって算出されたクラス指標を用いた分類結果である。

一方で、ピクセル単位に基づいたＮｅａｒ画像データとＦａｒ画像データとの被写体の分類結果が異なっても、Ｎｅａｒ画像データのエントロピー及びＦａｒ画像データのエントロピーの両方が所定値以下の場合、クラス特定部３６は、エントロピーが相対的に低い分類結果を用いてピクセルを含む被写体の分類を特定する。すなわち、エントロピーが上記所定値以下である場合には、このピクセル単位に基づいたクラス分類の信頼度は高いと考えられる。従って、所定値以下となったエントロピーに基づいてピクセルを含む被写体の分類を特定することで、より正確に被写体が特定され得る。

なお、上記所定値は、予め定められた任意の値であり、クラス数や車両の走行環境（走行場所）等によって動的に変化してもよい。このため、本実施形態の記憶装置１８には、クラス数や走行環境に応じた複数の所定値が予め記憶されている。

図６は、演算部１２による被写体分類処理の流れを示すフローチャートである。被写体分類処理は、被写体分類装置１０が備える記憶装置１８又はＲＯＭ１４に格納されたプログラムによって実行される。このプログラムが実行されることで、プログラムに対応する方法が実行される。なお、被写体分類処理は、カメラ２０によって画像データが取得される毎に行われてもよいし、所定の間隔毎（例えば０．１秒）の画像データ毎に行われてもよい。

まず、ステップＳ１００では、画像抽出部３０がカメラ２０で取得された画像データから、Ｎｅａｒ画像データ及びＦａｒ画像データを抽出する。なお、抽出されたＮｅａｒ画像データ及びＦａｒ画像データは、ＲＡＭ１６に記憶される。

次のステップＳ１０２では、第１クラス判定部３２がＮｅａｒ画像データ及びＦａｒ画像データに対して、ＳＳによってピクセル単位でクラスを算出する。

次のステップＳ１０４では、Ｎｅａｒ画像データ及びＦａｒ画像データにおける同位置でのピクセルの分類結果が異なるか否かをクラス特定部３６が判定し、肯定判定の場合はステップＳ１０６へ移行し、否定判定の場合はステップＳ１１２へ移行する。

ステップＳ１０６では、Ｎｅａｒ画像データのエントロピー及びＦａｒ画像データのエントロピーの少なくとも一方が所定値を超えるか否かをクラス特定部３６が判定し、肯定判定の場合はステップＳ１０８へ移行し、否定判定の場合はステップＳ１１２へ移行する。

ステップＳ１０８では、第２クラス判定部３４がＮｅａｒ画像データ及びＦａｒ画像データに対して、ＳＳによってグリッド４０毎にクラス指標を算出する。

次のステップＳ１１０では、分類結果が異なるピクセルに対応するグリッド４０のクラス指標に基づいて、クラス特定部３６が当該ピクセルのクラスを特定し、ステップＳ１１４へ移行する。

ステップＳ１１２では、ピクセルの分類結果に基づいて、クラス特定部３６が当該ピクセルを含む被写体の分類を特定し、ステップＳ１１４へ移行する。具体的には、ステップＳ１０４からステップＳ１１２へ移行した場合は、Ｎｅａｒ画像データの分類結果とＦａｒ画像データの分類結果が同じであるため、この分類結果を当該ピクセルのクラスとして特定する。また、ステップＳ１０６からステップＳ１１２へ移行した場合は、Ｎｅａｒ画像データのピクセルのエントロピーとＦａｒ画像データのピクセルのエントロピーのうち、相対的にエントロピーが小さい分類結果を用いて当該ピクセルのクラスを特定する。

ステップＳ１１４では、Ｎｅａｒ画像データ及びＦａｒ画像データを構成する全てのピクセルのクラスの特定が終了したか否かをクラス特定部３６が判定し、肯定判定の場合は本被写体分類処理を終了し、否定判定の場合にはステップＳ１０２へ戻る。

以上、本発明を、上記実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。発明の要旨を逸脱しない範囲で上記実施形態に多様な変更又は改良を加えることができ、該変更又は改良を加えた形態も本発明の技術的範囲に含まれる。

上記実施形態では、カメラ２０で撮像された同じ画像データから、Ｎｅａｒ画像データとＦａｒ画像データとを抽出する形態について説明したが、本発明は、これに限定されるものではない。２つのカメラ２０で撮像された２つの画像データを結合させて１つの画像データとし、この画像データからＮｅａｒ画像データとＦａｒ画像データとが抽出されてもよい。

また、本実施形態の被写体分類処理の対象となる２つの画像は、各々異なるカメラ２０で撮像され、同一の被写体を含む画像データでもよい。例えば、車両の異なる位置に搭載された２つのカメラ２０が同一の被写体を撮像し、これらのカメラ２０で取得された２つの画像データに対して被写体分類処理が行われ、被写体の分類が特定されてもよい。なお、この形態の場合、２つの画像データで各々重複する画像領域が予め特定されており、この特定された画像領域に含まれる被写体に対して被写体分類処理が行われる。

上記実施形態では、カメラ２０及び被写体分類装置１０を車両に搭載する形態について説明したが、本発明は、これに限定されるものではない。例えば、カメラ２０及び被写体分類装置１０はロボットやドローン等の自動運転を行う装置に搭載されてもよい。

上記実施形態では、カメラ２０及び被写体分類装置１０を車両等の同一の装置に搭載する形態について説明したが、本発明は、これに限定されるものではない。例えば、カメラ２０は車両等の装置に搭載されるものの、被写体分類装置１０はこの装置に搭載されずにサーバー等に搭載されてもよい。この形態の場合、通信回線を介して装置から送信された画像データに基づいて被写体分類装置１０が被写体の分類を特定し、その分類結果を被写体分類装置１０からカメラ２０を搭載した装置へ送信する。

上記実施形態では、セマンティックセグメンテーション（ＳＳ）によって、画像データに含まれる被写体の分類を特定する形態について説明したが、本発明は、これに限定されるものではない。第１基準単位及び第２基準単位で被写体を分類することができる処理方法であれば、他の処理方法が用いられてもよい。

上記実施形態では、Ｎｅａｒ画像データ及びＦａｒ画像データのピクセルのエントロピー少なくとも一方が所定値を超えた場合に、グリッド４０の分類結果を用いる形態について説明したが、本発明は、これに限定されるものではない。同じ被写体であるにもかかわらずピクセルに基づいたＮｅａｒ画像データとＦａｒ画像データとの分類結果が異なる場合、常にグリッド４０の分類結果を用いるとしてもよい。

また、上記実施形態で説明した処理の流れも一例であり、本発明の主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。

１０・・・被写体分類装置、２０・・・カメラ、３２・・・第１クラス判定部、
３４・・・第２クラス判定部、３６・・・クラス特定部

Claims

撮像装置（２０）で取得された第１画像データ及び第２画像データに含まれる一又は複数の被写体の分類を特定する情報処理装置（１０）であって、
前記第１画像データ及び前記第２画像データを複数に細分化した第１基準単位毎に、前記第１基準単位を含む前記被写体の分類を判定する第１判定手段（３２）と、
前記第１基準単位より広い第２基準単位毎に、前記第２基準単位を含む前記被写体の分類を判定する第２判定手段（３４）と、
同じ前記被写体であるにもかかわらず前記第１基準単位に基づいた前記第１画像データと前記第２画像データとの分類結果が異なる場合、前記第２基準単位に基づいた前記第１画像データと前記第２画像データとの分類結果を用いて、前記第１基準単位を含む前記被写体の分類を特定する特定手段（３６）と、
を備える情報処理装置。
前記第１判定手段は、前記第１基準単位を含む前記被写体の前記分類を複数の異なる前記分類に対する確率として算出すると共に、算出した前記確率のばらつきを示す第１評価値を前記第１基準単位毎に算出し、
前記特定手段は、前記第１基準単位に基づいた前記第１画像データと前記第２画像データとの前記被写体の分類結果が異なり、かつ前記第１画像データ及び前記第２画像データの前記第１評価値の少なくとも一方が所定値を超える場合、前記第２基準単位に基づいた分類結果を用いて前記第１基準単位を含む前記被写体の分類を特定する、請求項１記載の情報処理装置。
前記第１判定手段は、前記第１基準単位を含む前記被写体の前記分類を複数の異なる前記分類に対する確率として算出すると共に、算出した前記確率のばらつきを示す第１評価値を前記第１基準単位毎に算出し、
前記特定手段は、前記第１基準単位に基づいた前記第１画像データと前記第２画像データとの前記被写体の分類結果が異なっても、前記第１画像データ及び前記第２画像データの前記第１評価値の両方が所定値以下の場合、前記第１評価値が相対的に低い分類結果を用いて前記第１基準単位を含む前記被写体の分類を特定する、請求項１又は請求項２記載の情報処理装置。
前記第２判定手段は、前記第２基準単位を含む前記被写体の分類を判定するための第２評価値を前記第２基準単位毎に算出し、
前記特定手段は、前記第２基準単位に基づいた前記第１画像データと前記第２画像データとの前記被写体の分類結果が異なる場合、前記第２評価値を用いて前記第１基準単位を含む前記被写体の分類を特定する、請求項１から請求項３の何れか１項記載の情報処理装置。
前記第１画像データと前記第２画像データとは、同じ画像データから得られ、同一の前記被写体を含む画像データである、請求項１から請求項４の何れか１項記載の情報処理装置。
前記第１画像データと前記第２画像データとは、各々異なる前記撮像装置で撮像され、同一の前記被写体を含む画像データである、請求項１から請求項４の何れか１項記載の情報処理装置。
撮像装置で取得された第１画像データ及び第２画像データに含まれる一又は複数の被写体の分類を特定する被写体分類方法であって、
前記第１画像データ及び前記第２画像データを複数に細分化した第１基準単位毎に、前記第１基準単位を含む前記被写体の分類を判定する第１工程と、
前記第１基準単位より広い第２基準単位毎に、前記第２基準単位を含む前記被写体の分類を判定する第２工程と、
同じ前記被写体であるにもかかわらず前記第１基準単位に基づいた前記第１画像データと前記第２画像データとの分類結果が異なる場合、前記第２基準単位に基づいた前記第１画像データと前記第２画像データとの分類結果を用いて、前記第１基準単位を含む前記被写体の分類を特定する第３工程と、
を有する被写体分類方法。
撮像装置で取得された第１画像データ及び第２画像データに含まれる一又は複数の被写体の分類を特定する情報処理装置が備えるコンピュータを、
前記第１画像データ及び前記第２画像データを複数に細分化した第１基準単位毎に、前記第１基準単位を含む前記被写体の分類を判定する第１判定手段と、
前記第１基準単位より広い第２基準単位毎に、前記第２基準単位を含む前記被写体の分類を判定する第２判定手段と、
同じ前記被写体であるにもかかわらず前記第１基準単位に基づいた前記第１画像データと前記第２画像データとの分類結果が異なる場合、前記第２基準単位に基づいた前記第１画像データと前記第２画像データとの分類結果を用いて、前記第１基準単位を含む前記被写体の分類を特定する特定手段と、
して機能させるための被写体分類プログラム。