JP6992099B2

JP6992099B2 - 情報処理装置、車両、車両の制御方法、プログラム、情報処理サーバ、情報処理方法

Info

Publication number: JP6992099B2
Application number: JP2020005391A
Authority: JP
Inventors: 裕司安井; 斗紀知有吉; 英樹松永
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2022-01-13
Anticipated expiration: 2040-01-16
Also published as: JP2021114048A; US20210224554A1; CN113139567A; US11860627B2

Description

本発明は、情報処理装置、車両、車両の制御方法、プログラム、情報処理サーバ、情報処理方法に関する。

近年、車両に備えられたカメラで撮影した画像をニューラルネットワークに入力し、ニューラルネットワークの推定処理により物体認識（オブジェクト検出ともいう）を行う技術が知られている（特許文献１）。

特表２０１８－５２７６６０号公報

ところで、撮影された画像を用いて物体認識処理を行い、その物体認識処理の結果から車両の行動制御を行う場合、車両が走行する際に発生し得る様々な状況においてロバストな認識結果を得ることが求められる。一方、あらゆる状況を撮影した画像を学習データとして確保することは困難であるため、コンピュータグラフィックス（ＣＧ）で描かれたＣＧ画像を学習データとして用いる場合もある。

実際に撮影された画像（実画像ともいう）とＣＧ画像とでは、オブジェクトや背景の配置等が同じように存在するシーンであっても、画像の特性が異なる。このため、実画像とＣＧ画像とを混ぜ合わせた学習データを使用して学習モデルを学習させても、実際の撮影画像を用いた推定処理の際に認識精度が十分に上がらない場合がある。

特許文献１では、よりロバストな認識結果を得るために、物体認識処理の前処理としてモノクロ変換、コントラスト調整を行うことが開示されているものの、学習データとしてＣＧ画像を用いる場合については何ら考慮していなかった。

本発明は、上記課題に鑑みてなされ、その目的は、装置における画像認識処理において、学習データとしてＣＧ画像を用いる場合であっても実画像に対する推定をよりロバストにすることが可能な技術を提供することである。

本発明によれば、
撮像手段によって撮像された実画像に所定の画像処理を施す処理手段と、
前記所定の画像処理の施された画像を用いて、前記撮像された画像内の物標を認識する認識手段と、を有し、
前記処理手段は、前記実画像の階調に、同一のシーンを表すコンピュータグラフィックスで表されたＣＧ画像の階調との差を低減させる前記所定の画像処理を施す、ことを特徴とする情報処理装置が提供される。

本発明によれば、装置における画像認識処理において、学習データとしてＣＧ画像を用いる場合であっても実画像に対する推定をよりロバストにすることが可能になる。

実施形態１に係る車両の機能構成例を示すブロック図実施形態１に係る車両の走行制御のための主な構成を説明する図実施形態１に係るＣＧ化処理部とモデル処理部のニューラルネットワークの構成例を説明する図実施形態１に係るモデル処理部の出力の一例を表す図実施形態１に係るＣＧ化処理部とモデル処理部における学習段階における一連の動作を示すフローチャート実施形態１に係るＣＧ化処理部における学習段階における一連の動作を示すフローチャート実施形態１に係るＣＧ化処理部及びモデル処理部における推定段階における一連の動作を示すフローチャート実施形態２に係るＣＧ化処理部とモデル処理部の構成例を説明する図実施形態２に係るＣＧ化処理部から出力される画像信号の特性の一例を示す図実施形態３に係る情報処理サーバの機能構成例を示すブロック図

（実施形態１）
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでするものでなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴うち二つ以上の特徴が任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。また、以下の例では、制御部２００が車両１００に組み込まれている制御手段である場合を例に説明するが、制御部２００は車両１００に搭載された情報処理装置であってよい。すなわち、車両１００は、制御部２００に含まれるＣＰＵ２１０やＣＧ化処理部２１３などの構成を備える情報処理装置を搭載した車両であってもよい。

＜車両の構成＞
まず、図１を参照して、本実施形態に係る車両１００の機能構成例について説明する。なお、以降の図を参照して説明する機能ブロックの各々は、統合されまたは分離されてもよく、また説明する機能が別のブロックで実現されてもよい。また、ハードウェアとして説明するものがソフトウェアで実現されてもよく、その逆であってもよい。

センサ部１０１は、車両の前方（或いは、更に後方方向や周囲）を撮影した撮影画像を出力するカメラ（撮像手段）を含む。センサ部１０１は、更に、車両の前方（或いは、更に後方方向や周囲）の距離を計測して得られる距離画像を出力するＬｉｄａｒ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）を含んでよい。撮影された実画像は、例えば、後述する制御部２００による物体認識処理等において用いられる。また、車両１００の加速度、位置情報、操舵角などを出力する各種センサを含んでよい。

通信部１０２は、例えば通信用回路等を含む通信デバイスであり、例えばＬＴＥやＬＴＥ－Ａｄｖａｎｃｅｄ等或いは所謂５Ｇとして規格化された移動体通信を介して外部のサーバや周囲の交通システムなどと通信する。地図データの一部又は全部を外部サーバから受信したり、他の交通システムから交通情報などを受信し得る。

操作部１０３は、車両１００内に取り付けられたボタンやタッチパネルなどの操作部材のほか、ステアリングやブレーキペダルなどの、車両１００を運転するための入力を受け付ける部材を含む。電源部１０４は、例えばリチウムイオンバッテリ等で構成されるバッテリを含み、車両１００内の各部に電力を供給する。動力部１０５は、例えば車両を走行させるための動力を発生させるエンジンやモータを含む。

走行制御部１０６は、制御部２００から出力される物体認識の結果に基づいて、例えば同一レーンにおける走行を維持したり、前方車両を追従して走行するように、車両１００の走行を制御する。なお、本実施形態では、この走行制御は既知の方法を用いて行うことができる。

記憶部１０７は、半導体メモリなどの不揮発性の大容量のストレージデバイスを含む。センサ部１０１から出力された実画像やその他、センサ部１０１から出力された各種センサデータを一時的に格納する。また、例えば外部サーバなどの外部装置から有線又は無線通信を介して受信した、モデル処理部２１４の学習に用いる学習データを一時的に格納してもよい。

制御部２００は、例えば、ＣＰＵ２１０、ＲＡＭ２１１、ＲＯＭ２１２を含み、車両１００の各部の動作を制御する。また、制御部２００は、センサ部１０１から実画像を取得して、物体認識処理を実行する。制御部２００は、ＣＰＵ２１０がＲＯＭ２１２に格納されたコンピュータプログラムを、ＲＡＭ２１１に展開、実行することにより、制御部２００が有するモデル処理部２１４等の各部の機能を発揮させる。

ＣＰＵ２１０は、１つ以上のプロセッサを含む。ＲＡＭ２１１は、例えばＤＲＡＭ等の揮発性の記憶媒体で構成され、ＣＰＵ２１０のワークメモリとして機能する。ＲＯＭ２１２は、不揮発性の記憶媒体で構成され、ＣＰＵ２１０によって実行されるコンピュータプログラムや制御部２００を動作させる際の設定値などを記憶する。なお、以下の実施形態では、ＣＰＵ２１０がモデル処理部２１４の処理を実行する場合を例に説明するが、モデル処理部２１４の処理は不図示の１つ以上の他のプロセッサ（例えばＧＰＵ）で実行されてもよい。

ＣＧ化処理部２１３は、センサ部１０１から出力された実画像や、学習データに含まれる画像（実画像およびＣＧ画像）を取得して、取得した画像に対して所定の画像処理（ＣＧ化処理という）を行う。ＣＧ化処理については後述する。

モデル処理部２１４は、例えば、深層学習（ディープニューラルネットワーク）を用いた機械学習アルゴリズムの演算を行って、例えば、画像内の物標を認識する。物標は、画像内に含まれる通行人、車両、二輪車、看板、標識、道路、道路上に白色又は黄色で描かれた線などを含む。なお、以下の説明では、物標を単に物体などという場合がある。

本実施形態では、ニューラルネットワークが、例えば１以上の畳み込み層、プーリング層および全結合層を含む、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）と呼ばれるネットワーク構造を含む場合を例に説明する。しかし、ネットワーク構造はＣＮＮに限らず、他の構成であってもよい。また、ＲｅｓＮｅｔ（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ）のようにスキップコネクションを更に有する構成であってもよい。或いは、例えば、オートエンコーダーのように、ＣＮＮの構造を有するエンコーダの構成に加えて、更にデコーダの構成を有してもよい。もちろん、これらの構造に限らず、画像のような空間的に分布する信号に対して用いられるニューラルネットワークの構造であれば、他の構造であってもかまわない。

＜車両の走行制御のための主な構成＞
次に、図２を参照して、車両１００の走行制御のための主な構成について説明する。センサ部１０１が、例えば車両１００の前方を撮影し、撮影した実画像を毎秒所定の枚数で出力する。制御部２００のＣＧ化処理部２１３は、センサ部１０１から出力された実画像に後述するＣＧ化処理を適用して、ＣＧ化した画像を制御部２００のモデル処理部２１４に出力する。ＣＧ化処理部２１３を通過した実画像は、ＣＧ画像に類似の特性を有するように、画像信号の特性が変換される。

モデル処理部２１４は、入力されたＣＧ化画像を用いて、例えばニューラルネットワークによる物体認識処理を実行し、認識結果を走行制御部１０６に出力する。認識結果の詳細については後述するが、例えば、入力画像を分割したグリッドごとに、物体の有無、認識された物体領域の位置や大きさ、認識された物体の種別などの情報を出力する。

走行制御部１０６は、物体認識の結果及びセンサ部１０１から得られる車両の加速度や操舵角などの各種センサ情報に基づいて、例えば動力部１０５への制御信号を出力して、車両１００の車両制御を行う。上述したように、走行制御部１０６で行う車両制御は公知の方法を用いて行うことができるため、本実施形態では詳細は省略する。動力部１０５は、走行制御部１０６による制御信号に応じて、動力の発生を制御する。

＜ＣＧ化処理部とモデル処理部のニューラルネットワークの構成例＞
次に、図３を参照して、物体認識処理に係るＣＧ化処理部とモデル処理部のニューラルネットワークの構成例について説明する。図３は、ＣＧ化処理部２１３とモデル処理部２１４のそれぞれが実施するニューラルネットワークの構成例を模式的に示している。

ＣＧ化処理部２１３は、ディープニューラルネットワークと呼ばれる、複数の隠れ層を有するニューラルネットワークの構成を有し、主に入力層３１０と隠れ層３１１と出力層３１２とを含む。例えば、撮影された１枚の実画像３３０の各画素値は入力層３１０の各ニューロンに入力される。

図３に示す実画像３３０は、車両の前方を撮影した実画像を模式的に示している。実画像３３０は、道路の中央に配置されている線３３１と、車両１００の前方の第１の被写体３３２（例えば車両）と、第２の被写体３３３（例えば二輪車）とが存在する様子を撮影したものである。

入力層３１０は、例えば、実画像の画像サイズ×３ｃｈの数のニューロンを有する。入力層３１０から入力された信号は、入力層から出力層へ順に伝播し、出力層３１２では、ＣＧ化した画像（ＣＧ化画像）を出力するように構成されている。本実施形態では、出力層３１２は入力層と同じサイズの画像を出力するようにし、例えば、出力層３１２のニューロン数は、入力層と同一である。

ＣＧ化処理部２１３の出力層から出力されるＣＧ化画像は、モデル処理部２１４の入力層３２０に入力される。モデル処理部２１４の入力層３２０のニューロン数は、例えば、ＣＧ化処理部２１３の出力層３１２のニューロン数と同じである。

モデル処理部２１４もディープニューラルネットワークの構成を有する。隠れ層３２１の構成は、上述したように、例えば、畳み込み層とプーリング層と全結合層とを含むＣＮＮの構成であってよい。

出力層３２３は、実画像を複数のグリッド（例えば１９×１９）に分割し、各グリッドに認識結果が格納されるような、図４に示すデータを出力する数のニューロンで構成される。図４では、モデル処理部２１４が物体認識処理を行った認識結果の出力例として、グリッドごとに、認識結果を出力する例を示している。

認識結果４０１は、例えば、グリッド位置が（０、０）、すなわち左上のグリッド、である場合の認識結果を格納するための出力例である。このグリッドの物体の有無（例えば、物体が存在する場合には１、存在しない場合には０が設定される）、物体領域の中心位置や大きさが出力される。また、物体種別では、例えば、歩行者が認識された場合、存在が認識された物体種別（歩行者）の値は１に設定され、存在が識別されていない他の物体種別の値は０に設定される。物体種別の出力値は、各物体が存在する確率として出力されてもよい。

＜ＣＧ化処理部とモデル処理部に係る学習段階における一連の動作＞
次に、図５を参照して、ＣＧ化処理部とモデル処理部における学習段階における一連の動作について説明する。なお、本処理は、制御部２００のＣＰＵ２１０がＲＯＭ２１２に記憶されたプログラムをＲＡＭ２１１に展開、実行することにより実現される。また、本処理は、予めＣＧ化処理部２１３のニューラルネットワークが学習済みの状態（すなわちニューロン間の重み付けが決定されている）であるものとする。他方、モデル処理部２１４のニューラルネットワークは学習済みでなく、本処理により学習済みの状態となる。また、車両１００の記憶部１０７には、外部装置から転送された学習データが一時的に記憶されており、制御部２００は、当該学習データのうちの所定の学習データを本処理における学習に用いるものとする。

Ｓ５０１において、制御部２００は、学習データを記憶部１０７から取得する。ここで、学習データは、実際に車両において撮影された実画像とアノテーションとを１組としたデータ、或いは、ＣＧ画像とアノテーションとを１組としたデータである。アノテーションは、実画像或いはＣＧ画像内の物体の有無やその位置を記載したデータであり、人手（場合によっては機械）によって与えられた正解を表す。アノテーションデータの形式は、図４で説明したグリッドごとの認識結果と同じでよく、例えば、物体の有無、物体領域の中心位置、物体領域の大きさ、物体の種別（当てはまるものに１が付与され、他の物体種別には０が付与される）が記載されればよい。

Ｓ５０２において、ＣＧ化処理部２１３は、学習データの入力画像に対して（現時点のニューラルネットワークによる）ＣＧ化処理を適用する。ＣＧ画像は、実画像と比較すると、一般に、輝度或いはＲＧＢ値におけるエッジ部分が強く、エッジ部分でない領域ではノイズや濃淡変化が少ない。このため、ＣＧ化処理では、実画像の階調特性と、同一のシーンを表すＣＧ画像の階調特性との差を低減するように、例えば、画像におけるエッジ成分を保持しながら、ランダムノイズを除去する処理を指す。例えば、図９には、当該ＣＧ化処理が適用された際の入力信号の変化を模式的に示している。図９に示す例では、信号９０１は入力される実画像の信号を示しており、エッジの両側に高周波のノイズや濃淡変化がある様子を示している。一方、信号９０２は、ＣＧ化処理後の特性を示しており、エッジ部分を保持しつつ、エッジ部分でない領域ではノイズや濃淡変化が少なくなっていることを示している。

ＣＧ化処理部２１３は、入力画像である実画像と、その実画像を人手でＣＧ化した正解データとの組み合わせである、ＣＧ化用学習データを用いて学習されており、入力された実画像データをＣＧ化画像に変換するフィルタを構成するようにニューラルネットワークが構成されている。

ＣＧ化処理部２１３における処理の変換特性として、実画像データの輝度或いはＲＧＢ値におけるエッジ部分を保持しながら、ランダムノイズを除去する特性をもつ場合、ＣＧ化処理部２１３にＣＧ画像を入力してもＣＧ画像はほとんど影響を受けない。この場合、ＣＧ画像と実画像を区別なくＣＧ化処理部２１３に入力しても、ＣＧ画像はほぼそのまま出力され、実画像の特性のみが変換される。

なお、ＣＧ化処理を適用するにあたって、学習データに含まれるＣＧ画像と実画像とが区別なくＣＧ化処理部２１３に入力される場合、ＣＧ化処理部２１３は、入力画像がＣＧ画像であるか実画像であるかを判定する構成（ＣＧ画像判別部）を有してもよい。例えば、ＣＧ画像判定部は、入力画像が実画像であるかＣＧ画像であるかを判定するように学習させたニューラルネットワークで構成されてよい。そして、ＣＧ化処理部２１３は、ＣＧ画像判定部が実画像であると判定した画像にＣＧ化処理を施す。一方、ＣＧ画像判定部が実画像でないと判定した画像には処理を施さずに、直接、モデル処理部２１４に入力するようにしてもよい。

このようにすれば、ＣＧ化処理が入力画像のエッジを強調するような、実画像だけでなくＣＧ画像の特性を変化させるような特性を持つ場合であっても、実画像とＣＧ画像とを区別することなくＣＧ化処理部２１３に入力することができる。

Ｓ５０３において、モデル処理部２１４は、ＣＧ化画像又はＣＧ画像をモデル処理部２１４に入力して、（学習中の）ニューラルネットワークによる推定結果（すなわち図４に示した出力）を出力する。Ｓ５０４において、モデル処理部２１４は、当該推定結果と学習データに含まれるアノテーションとの差異に基づいて、損失関数の出力を算出する。例えば、モデル処理部２１４は、推定結果とアノテーションとの差異（予測誤差）の２乗和で定義される損失関数を用いて、損失関数の出力を算出する。

Ｓ５０５において、モデル処理部２１４は、学習データのうちの予め定められたデータサンプルの全てを用いて損失関数の出力を算出したかを判定する。モデル処理部２１４は、学習データのうちの予め定められたデータサンプルの全てについて処理を実行した場合、１エポックの処理が終了したと判定してＳ５０６に処理を進め、そうでない場合にはＳ５０２に処理を戻す。

Ｓ５０６において、モデル処理部２１４は、損失関数の出力の総和が減少するように、学習モデルの重みを変更する。例えば、モデル処理部２１４は、バックプロパゲーションといわれる公知の方法を用いて、損失関数の偏微分値に基づき、出力層から入力層に向かって順にニューロン間の重みを変更する。

Ｓ５０７において、モデル処理部２１４は、所定のエポック数の処理を終了したかを判定する。すなわち、Ｓ５０２～Ｓ５０６の処理を予め定めた回数だけ繰り返したかを判定する。Ｓ５０２～Ｓ５０７の処理を繰り返すことによりニューラルネットワークの重みが徐々に最適値に収束するように変更される。モデル処理部２１４は、所定のエポック数を終了していないと判定した場合には処理をＳ５０２に戻し、そうでない場合には、本一連の処理を終了する。このように、モデル処理部２１４の学習段階における一連の動作を完了すると、モデル処理部２１４におけるニューラルネットワークが学習済みの状態となる。

＜ＣＧ化処理部に係る学習段階における一連の動作＞
次に、図６を参照して、ＣＧ化処理部２１３における学習段階における一連の動作について説明する。なお、本処理は、制御部２００のＣＰＵ２１１がＲＯＭ２１２に記憶されたプログラムをＲＡＭ２１１に展開、実行することにより実現される。また、本処理では、ＣＧ化処理部２１３のニューラルネットワークは学習済みではなく、本処理により学習済みの状態となる。また、車両１００の記憶部１０７には、外部装置から転送されたＣＧ化用学習データが一時的に記憶されており、制御部２００は、当該ＣＧ化用学習データのうちの所定の学習データを本処理における学習に用いるものとする。

Ｓ６０１において、制御部２００は、ＣＧ化用学習データを記憶部１０７から取得する。ここで、ＣＧ化用学習データは、実画像と、その実画像を人手でＣＧ化した正解ＣＧ化データとの組み合わせである。

Ｓ６０２において、ＣＧ化処理部２１３は、学習データの実画像に対して、（現時点でのニューラルネットワークによる）ＣＧ化処理を適用してＣＧ化画像を出力する。

Ｓ６０３において、ＣＧ化処理部２１３は、ＣＧ化画像と学習データに含まれる正解ＣＧ化データとの差異に基づいて、損失関数の出力を算出する。例えば、ＣＧ化処理部２１３は、ＣＧ化画像と正解ＣＧ化データとの差異（予測誤差）の２乗和で定義される損失関数を用いて、損失関数の出力を算出する。

Ｓ６０４において、ＣＧ化処理部２１３は、学習データのうちの予め定められたデータサンプルの全てを用いて損失関数の出力を算出したかを判定する。ＣＧ化処理部２１３は、学習データのうちの予め定められたデータサンプルの全てについて処理を実行した場合、１エポックの処理が終了したと判定してＳ６０５に処理を進め、そうでない場合にはＳ６０２に処理を戻す。

Ｓ６０５において、ＣＧ化処理部２１３は、損失関数の出力の総和が減少するように、学習モデルの重みを変更する。例えば、モデル処理部２１４は、バックプロパゲーションといわれる公知の方法を用いて、損失関数の偏微分値に基づき、出力層から入力層に向かって順にニューロン間の重みを変更する。

Ｓ６０６において、ＣＧ化処理部２１３は、所定のエポック数の処理を終了したかを判定する。すなわち、Ｓ６０２～Ｓ６０５の処理を予め定めた回数だけ繰り返したかを判定する。Ｓ６０２～Ｓ６０６の処理を繰り返すことによりニューラルネットワークの重みが徐々に最適値に収束するように変更される。ＣＧ化処理部２１３は、所定のエポック数を終了していないと判定した場合には処理をＳ６０２に戻し、そうでない場合には、本一連の処理を終了する。このように、ＣＧ化処理部２１３における学習段階の一連の動作を完了すると、ＣＧ化処理部２１３におけるニューラルネットワークが学習済みの状態となる。

＜モデル処理部１２４における推定段階の一連の動作＞
次に、図７を参照して、モデル処理部１２４における推定段階の一連の動作について説明する。本処理は、車両１００において、実際に撮影された実画像に対して、物体認識処理を行って、対象物体の種類や物体の位置等を推定する処理である。なお、本処理は、制御部２００のＣＰＵ２１１がＲＯＭ２１２に記憶されたプログラムをＲＡＭ２１１に展開、実行することにより実現される。また、本処理は、予めＣＧ化処理部２１３のニューラルネットワークとモデル処理部２１４のニューラルネットワークとが、学習済みの状態（すなわちニューロン間の重み付けが決定されている）である。

Ｓ７０１において、制御部２００は、センサ部１０１から出力された実画像を取得する。Ｓ７０２において、ＣＧ化処理部２１３は、上述したＣＧ化処理を実画像に適用して、ＣＧ化した画像を出力する。

Ｓ７０３において、モデル処理部２１４は、ＣＧ化された画像に対して、学習済みの学習モデル（ニューラルネットワーク）を適用して、画像内の物標を認識する処理を実行し、処理により得られた推定結果を（図４に示した形式で）出力する。制御部２００は、推定処理が終了すると、本処理に係る一連の動作を終了する。

以上説明したように、本実施形態では、車両において取得された実画像データに、ＣＧ化処理としての変換処理を行ったうえで、変換されたＣＧ化画像に対して、画像内の物標を認識する画像認識処理を行うようにした。このようにすることで、学習段階の学習データにおける実画像も、推定段階で入力される実画像も、ＣＧ画像と特性の近似した画像となり、ＣＧ画像と実画像との相違による誤学習や誤検出の割合を低下させることができる。従って、装置における画像認識処理において、学習データとしてＣＧ画像を用いる場合であっても実画像に対する推定をよりロバストにすることが可能になる。

（実施形態２）
次に、本発明の実施形態２について説明する。上述の実施形態では、ニューラルネットワークを用いて実装されたＣＧ化処理部２１３を用いて、ＣＧ化処理を行った。これに対し、本実施形態では、ルールベースによるＣＧ化処理を実行する例について説明する。従って、本実施形態は、上述の実施形態１とはＣＧ化処理部の内部構成のみが異なる。従って、上述の実施形態と実質的に同一である構成については同一の参照番号を付してその説明は省略する。

＜ＣＧ化処理部と、モデル処理部のニューラルネットワークの構成例＞
図８を参照して、本実施形態に係るＣＧ化処理部とモデル処理部の構成例について説明する。なお、図８では、モデル処理部２１４は実施形態１と同様であるため、同一の符号を付して同一の構成を示している。一方、ＣＧ化処理部８０１は、ルールベースの処理により実現される。

ＣＧ化処理部８０１は、例えば、例えば、εフィルタによりＣＧ化処理を実行する。イプシロンフィルタは、例えば、実画像における注目画素Ｘ_ｉを中心とした５×５の画素ブロック領域に含まれる全ての画素（周辺画素Ｘ_{（ｉ、ｊ）}という）について、以下のフィルタ処理を行う。以下の処理は注目画素を順次移動させて実画像における全ての注目画素に対して行う。

フィルタ処理では、まず、画素ブロック内の周辺画素Ｘ_{（ｉ、ｊ）}について、注目画素Ｘ_ｉとの画素値の差分（階調差ΔＸ_{（ｉ、ｊ）}）を算出する。画素ブロック内の画素のうち、算出した差分の絶対値が所定の閾値（ε値）よりも小さい画素の画素値（|ΔＸ_{（ｉ、ｊ）}|＜εを満たすＸ_{（ｉ、ｊ）}）を平均して得られた値を注目画素の画素値とする。すなわち、注目画像の画素値は、Σ（該当するＸ_{（ｉ、ｊ）}）を該当する画素数で平均化した値となる。従って、εフィルタでは、実画像におけるエッジ成分を保ちながら、ランダムノイズを除去することが可能になる。

＜物体認識処理に係る一連の動作＞
上述のＣＧ化処理部８０１の構成において、制御部２００は、図５及び図７に示した学習段階での画像認識処理（Ｓ５０１～Ｓ５０７）及び推定段階での画像認識処理（Ｓ７０１～Ｓ７０３）を、実施形態１と同様に行うことができる。

なお、本実施形態のＣＧ化処理部８０１はニューラルネットワークによって構成されていないため、図６に示した学習段階の処理を行う必要はない。

以上説明したように、本実施形態では、本実施形態では、車両において取得された実画像データに、εフィルタを用いたＣＧ化処理を行ったうえで、変換されたＣＧ化画像に対して、画像内の物標を認識する画像認識処理を行うようにした。このようにすることで、モデル処理部２１４が学習段階である場合の学習データにおける実画像も、モデル処理部２１４が推定段階である場合の実画像も、ＣＧ画像と特性の近似した画像となる。このため、ＣＧ画像と実画像との相違による誤学習や誤検出の割合を低下させることができる。従って、装置における画像認識処理において、学習データとしてＣＧ画像を用いる場合であっても実画像に対する推定をよりロバストにすることが可能になる。

（実施形態３）
上述の実施形態では、車両１００において画像認識処理を実行する場合を例に説明した。しかし、本実施形態は、画像認識を車両において実行する場合に限らず、情報処理サーバにおいて実行する場合にも適用可能である。すなわち、車両１００において取得された実画像を情報処理サーバが受信して、受信した実画像に対して画像認識処理を実行し、その認識結果を車両１００の送信するようにしてもよい。以下、このような実施形態における情報処理サーバの機能構成例について説明する。

＜情報処理サーバの構成＞
次に、情報処理サーバの機能構成例について、図１０を参照して説明する。なお、以降の図を参照して説明する機能ブロックの各々は、統合されまたは分離されてもよく、また説明する機能が別のブロックで実現されてもよい。また、ハードウェアとして説明するものがソフトウェアで実現されてもよく、その逆であってもよい。

制御部１００４は、例えば、ＣＰＵ１０１０、ＲＡＭ１０１１、ＲＯＭ１０１２を含み、データ収集サーバ１１０の各部の動作を制御する。制御部１００４は、ＣＰＵ１０１０がＲＯＭ１０１２に格納されたコンピュータプログラムを、ＲＡＭ１０１１に展開、実行することにより、制御部１００４を構成する各部の機能を発揮させる。

ＣＧ化処理部１０１３は、例えば、ＣＧ化処理部２１３と同様の構成を有してよい。すなわち、ディープニューラルネットワークの構成を有し、例えば、図３を参照して説明した、入力層３１０と、隠れ層３１１と、出力層３１２とを有する。例えば、図６において上述した学習段階と同様の処理（Ｓ６０１～Ｓ６０６）により、学習済みの状態となる。なお、ＣＧ化用学習データは、記憶部１００３に予め記憶されていてよい。

モデル処理部１０１４は、例えば、モデル処理部２１４と同様の構成を有してよい。すなわち、ディープニューラルネットワークの構成を有し、例えば、図３を参照して説明した、入力層３２０と、隠れ層３２１及び３２２と、出力層３２３とを有する。例えば、図５において上述した学習段階と同様の処理（Ｓ５０１～Ｓ５０７）により、学習済みの状態となる。なお、学習データは、記憶部１００３に予め記憶されていてよい。

通信部１００１は、例えば通信用回路等を含む通信デバイスであり、例えばインターネットなどのネットワークを通じて、車両１００と通信する。通信部１００１は、車両１００から送信される実画像を受信し、上述の制御部１００４における画像認識の結果を車両１００に送信する。電源部１００２は、データ収集サーバ１１０内の各部に電力を供給する。記憶部１００３は、ハードディスクや半導体メモリなどの不揮発性メモリである。記憶部１００３は、上述した学習データの情報を格納する。

また、情報処理サーバ１０００は、サーバ側で画像認識処理を行う代わりに、学習済みのモデルを車両１００に送信して、車両１００内でも画像認識処理を行わせるようにしてもよい。この場合、情報処理サーバ１０００は、学習済みモデルの情報を車両１００に送信するためのモデル提供部１０１５を更に有する。

モデル提供部１０１５は、情報処理サーバ１０００において、Ｓ５０１～Ｓ５０７、Ｓ６０１～Ｓ６０６と同様の処理により学習された学習済みモデルを、車両１００のモデル処理部２１４をバージョンアップするために、車両１００に提供する。この学習済みモデルの情報は、当該学習モデルのバージョン情報や学習済みのニューラルネットワークの重み付けパラメータなどを含む。

情報処理サーバでは、車両と比べて、多種多用な状況における（ＣＧ画像を含む）学習データをより容易に収集することができるため、より多くの状況に対応した学習が可能になる。このため、サーバ上に収集された学習データを用いて学習した学習済みモデルを車両１００に提供することができれば、車両における画像に対する推定をよりロバストにすることが可能になる。

（その他の実施形態）
なお、上述の実施形態では、制御部２００或いは制御部１００４がＣＧ画像及び実画像を用いて学習したうえで、実画像を用いて物体認識処理を実行する場合を例に説明した。しかし、上述の実施形態は、画像認識処理に係る他の処理を実施する場合にも適用可能である。すなわち、本実施形態は、例えば、走路認識、シーン理解、交通参加者行動予測などの画像に基づく認識処理にも適用することができる。例えば、モデル処理部１０１４がシーン理解のために上述の処理を行ってもよい。

また、予めＣＧ画像と実画像とを用いて学習を行った物体認識用の学習モデルを用いて、特定の物標の領域を認識したうえで、認識された物標の種別に応じて、ＣＧ化処理部１０１３による処理が異なるようにしてもよい。例えば、車両や道路上に存在する物標については、それ以外の領域よりもεフィルタのε値を大きくしたり、エッジを強調する処理を加えるようにしてもよい。或いは、特定の種別の物標が認識された場合に、ＣＧ化処理を行うようにしてもよい。

＜実施形態のまとめ＞
１．上記実施形態の情報処理装置（例えば、車両１００に含まれる情報処理装置）は、
撮像手段によって撮像された実画像に所定の画像処理を施す処理手段（例えば、２１３）と、
所定の画像処理の施された画像を用いて、撮像された画像内の物標を認識する認識手段（例えば、２１４）と、を有し、
処理手段は、実画像の階調に、同一のシーンを表すコンピュータグラフィックスで表されたＣＧ画像の階調との差を低減させる所定の画像処理を施す。

この実施形態によれば、装置における画像認識処理において、学習データとしてＣＧ画像を用いる場合であっても実画像に対する推定をよりロバストにすることが可能になる。

２．上記実施形態によれば、
認識手段は第１の学習モデル（例えば、３２０、３２１、３２２、３２３）を含み、
第１の学習モデルを学習させるための学習データは、実画像とＣＧ画像とを含む。

この実施形態によれば、実画像では収集することが難しい学習データをＣＧ画像を用いることによって補うことが可能になる。

３．上記実施形態によれば、
処理手段は、更に学習データに所定の画像処理を施すことが可能であり、
処理手段は、所定の画像処理を施そうとする画像がＣＧ画像であると判定した場合には、該画像に所定の画像処理を施さない。

この実施形態によれば、学習データを用いる場合に、実画像に対してのみ所定の画像処理を施すことができる。

４．上記実施形態によれば、
認識手段は、更に、所定の画像処理が施されていないＣＧ画像を用いて、ＣＧ画像内の物標を認識する。

この実施形態によれば、学習データを用いる場合に、ＣＧ画像を用いた認識処理を実行することができる。

５．上記実施形態によれば、
処理手段は、画像におけるエッジ成分を保持しながら、ランダムノイズを除去する特性を有する所定の画像処理を施す（例えば、Ｓ５０２）。

この実施形態によれば、実画像をＣＧと類似した画像に変換することができる。

６．上記実施形態によれば、
処理手段は、εフィルタを用いて所定の画像処理を施す（例えば、Ｓ５０２）。

この実施形態によれば、εフィルタを用いてＣＧ化処理を行うことができる。

７．上記実施形態によれば、
処理手段は、第２の学習モデルによって所定の画像処理を施すように構成され、第２の学習モデルは、実画像と、当該実画像をＣＧ化した正解データとの組み合わせを学習データとして用いて学習される。

この実施形態によれば、学習モデルを用いてＣＧ化処理を行うことができる。

８．上記実施形態によれば、
処理手段は、実画像に特定の物標が存在する場合、特定の物標の領域と他の領域とに対する所定の画像処理を異ならせる。

この実施形態によれば、特定の物標をよりロバストに処理することが可能になる。

発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。

１００…車両、２００…制御部、２１３…ＣＧ化処理部、２１４…モデル処理部、１０６…走行制御部

Claims

撮像手段によって撮像された実画像に所定の画像処理を施す処理手段と、
前記所定の画像処理の施された画像を用いて、前記撮像された画像内の物標を認識する認識手段と、を有し、
前記処理手段は、前記実画像の階調に、同一のシーンを表すコンピュータグラフィックスで表されたＣＧ画像の階調との差を低減させる前記所定の画像処理を施す、ことを特徴とする情報処理装置。
前記認識手段は第１の学習モデルを含み、
前記第１の学習モデルを学習させるための学習データは、前記実画像と前記ＣＧ画像とを含む、ことを特徴とする請求項１に記載の情報処理装置。
前記処理手段は、更に前記学習データに前記所定の画像処理を施すことが可能であり、
前記処理手段は、前記所定の画像処理を施そうとする画像が前記ＣＧ画像であると判定した場合には、該画像に前記所定の画像処理を施さない、ことを特徴とする請求項２に記載の情報処理装置。
前記認識手段は、更に、前記所定の画像処理が施されていない前記ＣＧ画像を用いて、前記ＣＧ画像内の物標を認識する、ことを特徴とする請求項３に記載の情報処理装置。
前記処理手段は、前記画像におけるエッジ成分を保持しながら、ランダムノイズを除去する特性を有する前記所定の画像処理を施す、ことを特徴とする請求項１から４のいずれか１項に記載の情報処理装置。
前記処理手段は、εフィルタを用いて前記所定の画像処理を施す、ことを特徴とする請求項１から５のいずれか１項に記載の情報処理装置。
前記処理手段は、第２の学習モデルによって前記所定の画像処理を施すように構成され、前記第２の学習モデルは、前記実画像と、当該実画像をＣＧ化した正解データとの組み合わせを学習データとして用いて学習される、ことを特徴とする請求項１から６のいずれか１項に記載の情報処理装置。
前記処理手段は、前記実画像に特定の物標が存在する場合、前記特定の物標の領域と他の領域とに対する前記所定の画像処理を異ならせる、ことを特徴とする請求項１から７のいずれか１項に記載の情報処理装置。
請求項１から８のいずれか１項に記載の情報処理装置を備える、ことを特徴とする車両。
情報処理装置の制御方法であって、
撮像手段によって撮像された実画像に所定の画像処理を施す処理工程と、
前記所定の画像処理の施された画像を用いて、前記撮像された画像内の物標を認識する認識工程と、を有し、
前記処理工程では、前記実画像の階調に、同一のシーンを表すコンピュータグラフィックスで表されたＣＧ画像の階調との差を低減させる前記所定の画像処理を施す、ことを特徴とする情報処理装置の制御方法。
コンピュータを、請求項１から８のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。
情報処理サーバであって、
撮像手段によって撮像された実画像に所定の画像処理を施す処理手段と、
前記所定の画像処理の施された画像を用いて、前記撮像された画像内の物標を認識する認識手段と、を有し、
前記処理手段は、前記実画像の階調に、同一のシーンを表すコンピュータグラフィックスで表されたＣＧ画像の階調との差を低減させる前記所定の画像処理を施す、ことを特徴とする情報処理サーバ。
情報処理サーバによって実行される情報処理方法であって、
撮像手段によって撮像された実画像に所定の画像処理を施す処理工程と、
前記所定の画像処理の施された画像を用いて、前記撮像された画像内の物標を認識する認識工程と、を有し、
前記処理工程では、前記実画像の階調に、同一のシーンを表すコンピュータグラフィックスで表されたＣＧ画像の階調との差を低減させる前記所定の画像処理を施す、ことを特徴とする情報処理方法。