JP6992099B2 - 情報処理装置、車両、車両の制御方法、プログラム、情報処理サーバ、情報処理方法 - Google Patents

情報処理装置、車両、車両の制御方法、プログラム、情報処理サーバ、情報処理方法 Download PDF

Info

Publication number
JP6992099B2
JP6992099B2 JP2020005391A JP2020005391A JP6992099B2 JP 6992099 B2 JP6992099 B2 JP 6992099B2 JP 2020005391 A JP2020005391 A JP 2020005391A JP 2020005391 A JP2020005391 A JP 2020005391A JP 6992099 B2 JP6992099 B2 JP 6992099B2
Authority
JP
Japan
Prior art keywords
image
processing
information processing
predetermined image
actual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020005391A
Other languages
English (en)
Other versions
JP2021114048A (ja
Inventor
裕司 安井
斗紀知 有吉
英樹 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2020005391A priority Critical patent/JP6992099B2/ja
Priority to CN202011589363.5A priority patent/CN113139567A/zh
Priority to US17/143,521 priority patent/US11860627B2/en
Publication of JP2021114048A publication Critical patent/JP2021114048A/ja
Application granted granted Critical
Publication of JP6992099B2 publication Critical patent/JP6992099B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Electromagnetism (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、情報処理装置、車両、車両の制御方法、プログラム、情報処理サーバ、情報処理方法に関する。
近年、車両に備えられたカメラで撮影した画像をニューラルネットワークに入力し、ニューラルネットワークの推定処理により物体認識(オブジェクト検出ともいう)を行う技術が知られている(特許文献1)。
特表2018-527660号公報
ところで、撮影された画像を用いて物体認識処理を行い、その物体認識処理の結果から車両の行動制御を行う場合、車両が走行する際に発生し得る様々な状況においてロバストな認識結果を得ることが求められる。一方、あらゆる状況を撮影した画像を学習データとして確保することは困難であるため、コンピュータグラフィックス(CG)で描かれたCG画像を学習データとして用いる場合もある。
実際に撮影された画像(実画像ともいう)とCG画像とでは、オブジェクトや背景の配置等が同じように存在するシーンであっても、画像の特性が異なる。このため、実画像とCG画像とを混ぜ合わせた学習データを使用して学習モデルを学習させても、実際の撮影画像を用いた推定処理の際に認識精度が十分に上がらない場合がある。
特許文献1では、よりロバストな認識結果を得るために、物体認識処理の前処理としてモノクロ変換、コントラスト調整を行うことが開示されているものの、学習データとしてCG画像を用いる場合については何ら考慮していなかった。
本発明は、上記課題に鑑みてなされ、その目的は、装置における画像認識処理において、学習データとしてCG画像を用いる場合であっても実画像に対する推定をよりロバストにすることが可能な技術を提供することである。
本発明によれば、
撮像手段によって撮像された実画像に所定の画像処理を施す処理手段と、
前記所定の画像処理の施された画像を用いて、前記撮像された画像内の物標を認識する認識手段と、を有し、
前記処理手段は、前記実画像の階調に、同一のシーンを表すコンピュータグラフィックスで表されたCG画像の階調との差を低減させる前記所定の画像処理を施す、ことを特徴とする情報処理装置が提供される。
本発明によれば、装置における画像認識処理において、学習データとしてCG画像を用いる場合であっても実画像に対する推定をよりロバストにすることが可能になる。
実施形態1に係る車両の機能構成例を示すブロック図 実施形態1に係る車両の走行制御のための主な構成を説明する図 実施形態1に係るCG化処理部とモデル処理部のニューラルネットワークの構成例を説明する図 実施形態1に係るモデル処理部の出力の一例を表す図 実施形態1に係るCG化処理部とモデル処理部における学習段階における一連の動作を示すフローチャート 実施形態1に係るCG化処理部における学習段階における一連の動作を示すフローチャート 実施形態1に係るCG化処理部及びモデル処理部における推定段階における一連の動作を示すフローチャート 実施形態2に係るCG化処理部とモデル処理部の構成例を説明する図 実施形態2に係るCG化処理部から出力される画像信号の特性の一例を示す図 実施形態3に係る情報処理サーバの機能構成例を示すブロック図
(実施形態1)
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでするものでなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴うち二つ以上の特徴が任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。また、以下の例では、制御部200が車両100に組み込まれている制御手段である場合を例に説明するが、制御部200は車両100に搭載された情報処理装置であってよい。すなわち、車両100は、制御部200に含まれるCPU210やCG化処理部213などの構成を備える情報処理装置を搭載した車両であってもよい。
<車両の構成>
まず、図1を参照して、本実施形態に係る車両100の機能構成例について説明する。なお、以降の図を参照して説明する機能ブロックの各々は、統合されまたは分離されてもよく、また説明する機能が別のブロックで実現されてもよい。また、ハードウェアとして説明するものがソフトウェアで実現されてもよく、その逆であってもよい。
センサ部101は、車両の前方(或いは、更に後方方向や周囲)を撮影した撮影画像を出力するカメラ(撮像手段)を含む。センサ部101は、更に、車両の前方(或いは、更に後方方向や周囲)の距離を計測して得られる距離画像を出力するLidar(Light Detection and Ranging)を含んでよい。撮影された実画像は、例えば、後述する制御部200による物体認識処理等において用いられる。また、車両100の加速度、位置情報、操舵角などを出力する各種センサを含んでよい。
通信部102は、例えば通信用回路等を含む通信デバイスであり、例えばLTEやLTE-Advanced等或いは所謂5Gとして規格化された移動体通信を介して外部のサーバや周囲の交通システムなどと通信する。地図データの一部又は全部を外部サーバから受信したり、他の交通システムから交通情報などを受信し得る。
操作部103は、車両100内に取り付けられたボタンやタッチパネルなどの操作部材のほか、ステアリングやブレーキペダルなどの、車両100を運転するための入力を受け付ける部材を含む。電源部104は、例えばリチウムイオンバッテリ等で構成されるバッテリを含み、車両100内の各部に電力を供給する。動力部105は、例えば車両を走行させるための動力を発生させるエンジンやモータを含む。
走行制御部106は、制御部200から出力される物体認識の結果に基づいて、例えば同一レーンにおける走行を維持したり、前方車両を追従して走行するように、車両100の走行を制御する。なお、本実施形態では、この走行制御は既知の方法を用いて行うことができる。
記憶部107は、半導体メモリなどの不揮発性の大容量のストレージデバイスを含む。センサ部101から出力された実画像やその他、センサ部101から出力された各種センサデータを一時的に格納する。また、例えば外部サーバなどの外部装置から有線又は無線通信を介して受信した、モデル処理部214の学習に用いる学習データを一時的に格納してもよい。
制御部200は、例えば、CPU210、RAM211、ROM212を含み、車両100の各部の動作を制御する。また、制御部200は、センサ部101から実画像を取得して、物体認識処理を実行する。制御部200は、CPU210がROM212に格納されたコンピュータプログラムを、RAM211に展開、実行することにより、制御部200が有するモデル処理部214等の各部の機能を発揮させる。
CPU210は、1つ以上のプロセッサを含む。RAM211は、例えばDRAM等の揮発性の記憶媒体で構成され、CPU210のワークメモリとして機能する。ROM212は、不揮発性の記憶媒体で構成され、CPU210によって実行されるコンピュータプログラムや制御部200を動作させる際の設定値などを記憶する。なお、以下の実施形態では、CPU210がモデル処理部214の処理を実行する場合を例に説明するが、モデル処理部214の処理は不図示の1つ以上の他のプロセッサ(例えばGPU)で実行されてもよい。
CG化処理部213は、センサ部101から出力された実画像や、学習データに含まれる画像(実画像およびCG画像)を取得して、取得した画像に対して所定の画像処理(CG化処理という)を行う。CG化処理については後述する。
モデル処理部214は、例えば、深層学習(ディープニューラルネットワーク)を用いた機械学習アルゴリズムの演算を行って、例えば、画像内の物標を認識する。物標は、画像内に含まれる通行人、車両、二輪車、看板、標識、道路、道路上に白色又は黄色で描かれた線などを含む。なお、以下の説明では、物標を単に物体などという場合がある。
本実施形態では、ニューラルネットワークが、例えば1以上の畳み込み層、プーリング層および全結合層を含む、CNN(Convolutional Neural Network)と呼ばれるネットワーク構造を含む場合を例に説明する。しかし、ネットワーク構造はCNNに限らず、他の構成であってもよい。また、ResNet(Residual Network)のようにスキップコネクションを更に有する構成であってもよい。或いは、例えば、オートエンコーダーのように、CNNの構造を有するエンコーダの構成に加えて、更にデコーダの構成を有してもよい。もちろん、これらの構造に限らず、画像のような空間的に分布する信号に対して用いられるニューラルネットワークの構造であれば、他の構造であってもかまわない。
<車両の走行制御のための主な構成>
次に、図2を参照して、車両100の走行制御のための主な構成について説明する。センサ部101が、例えば車両100の前方を撮影し、撮影した実画像を毎秒所定の枚数で出力する。制御部200のCG化処理部213は、センサ部101から出力された実画像に後述するCG化処理を適用して、CG化した画像を制御部200のモデル処理部214に出力する。CG化処理部213を通過した実画像は、CG画像に類似の特性を有するように、画像信号の特性が変換される。
モデル処理部214は、入力されたCG化画像を用いて、例えばニューラルネットワークによる物体認識処理を実行し、認識結果を走行制御部106に出力する。認識結果の詳細については後述するが、例えば、入力画像を分割したグリッドごとに、物体の有無、認識された物体領域の位置や大きさ、認識された物体の種別などの情報を出力する。
走行制御部106は、物体認識の結果及びセンサ部101から得られる車両の加速度や操舵角などの各種センサ情報に基づいて、例えば動力部105への制御信号を出力して、車両100の車両制御を行う。上述したように、走行制御部106で行う車両制御は公知の方法を用いて行うことができるため、本実施形態では詳細は省略する。動力部105は、走行制御部106による制御信号に応じて、動力の発生を制御する。
<CG化処理部とモデル処理部のニューラルネットワークの構成例>
次に、図3を参照して、物体認識処理に係るCG化処理部とモデル処理部のニューラルネットワークの構成例について説明する。図3は、CG化処理部213とモデル処理部214のそれぞれが実施するニューラルネットワークの構成例を模式的に示している。
CG化処理部213は、ディープニューラルネットワークと呼ばれる、複数の隠れ層を有するニューラルネットワークの構成を有し、主に入力層310と隠れ層311と出力層312とを含む。例えば、撮影された1枚の実画像330の各画素値は入力層310の各ニューロンに入力される。
図3に示す実画像330は、車両の前方を撮影した実画像を模式的に示している。実画像330は、道路の中央に配置されている線331と、車両100の前方の第1の被写体332(例えば車両)と、第2の被写体333(例えば二輪車)とが存在する様子を撮影したものである。
入力層310は、例えば、実画像の画像サイズ×3chの数のニューロンを有する。入力層310から入力された信号は、入力層から出力層へ順に伝播し、出力層312では、CG化した画像(CG化画像)を出力するように構成されている。本実施形態では、出力層312は入力層と同じサイズの画像を出力するようにし、例えば、出力層312のニューロン数は、入力層と同一である。
CG化処理部213の出力層から出力されるCG化画像は、モデル処理部214の入力層320に入力される。モデル処理部214の入力層320のニューロン数は、例えば、CG化処理部213の出力層312のニューロン数と同じである。
モデル処理部214もディープニューラルネットワークの構成を有する。隠れ層321の構成は、上述したように、例えば、畳み込み層とプーリング層と全結合層とを含むCNNの構成であってよい。
出力層323は、実画像を複数のグリッド(例えば19×19)に分割し、各グリッドに認識結果が格納されるような、図4に示すデータを出力する数のニューロンで構成される。図4では、モデル処理部214が物体認識処理を行った認識結果の出力例として、グリッドごとに、認識結果を出力する例を示している。
認識結果401は、例えば、グリッド位置が(0、0)、すなわち左上のグリッド、である場合の認識結果を格納するための出力例である。このグリッドの物体の有無(例えば、物体が存在する場合には1、存在しない場合には0が設定される)、物体領域の中心位置や大きさが出力される。また、物体種別では、例えば、歩行者が認識された場合、存在が認識された物体種別(歩行者)の値は1に設定され、存在が識別されていない他の物体種別の値は0に設定される。物体種別の出力値は、各物体が存在する確率として出力されてもよい。
<CG化処理部とモデル処理部に係る学習段階における一連の動作>
次に、図5を参照して、CG化処理部とモデル処理部における学習段階における一連の動作について説明する。なお、本処理は、制御部200のCPU210がROM212に記憶されたプログラムをRAM211に展開、実行することにより実現される。また、本処理は、予めCG化処理部213のニューラルネットワークが学習済みの状態(すなわちニューロン間の重み付けが決定されている)であるものとする。他方、モデル処理部214のニューラルネットワークは学習済みでなく、本処理により学習済みの状態となる。また、車両100の記憶部107には、外部装置から転送された学習データが一時的に記憶されており、制御部200は、当該学習データのうちの所定の学習データを本処理における学習に用いるものとする。
S501において、制御部200は、学習データを記憶部107から取得する。ここで、学習データは、実際に車両において撮影された実画像とアノテーションとを1組としたデータ、或いは、CG画像とアノテーションとを1組としたデータである。アノテーションは、実画像或いはCG画像内の物体の有無やその位置を記載したデータであり、人手(場合によっては機械)によって与えられた正解を表す。アノテーションデータの形式は、図4で説明したグリッドごとの認識結果と同じでよく、例えば、物体の有無、物体領域の中心位置、物体領域の大きさ、物体の種別(当てはまるものに1が付与され、他の物体種別には0が付与される)が記載されればよい。
S502において、CG化処理部213は、学習データの入力画像に対して(現時点のニューラルネットワークによる)CG化処理を適用する。CG画像は、実画像と比較すると、一般に、輝度或いはRGB値におけるエッジ部分が強く、エッジ部分でない領域ではノイズや濃淡変化が少ない。このため、CG化処理では、実画像の階調特性と、同一のシーンを表すCG画像の階調特性との差を低減するように、例えば、画像におけるエッジ成分を保持しながら、ランダムノイズを除去する処理を指す。例えば、図9には、当該CG化処理が適用された際の入力信号の変化を模式的に示している。図9に示す例では、信号901は入力される実画像の信号を示しており、エッジの両側に高周波のノイズや濃淡変化がある様子を示している。一方、信号902は、CG化処理後の特性を示しており、エッジ部分を保持しつつ、エッジ部分でない領域ではノイズや濃淡変化が少なくなっていることを示している。
CG化処理部213は、入力画像である実画像と、その実画像を人手でCG化した正解データとの組み合わせである、CG化用学習データを用いて学習されており、入力された実画像データをCG化画像に変換するフィルタを構成するようにニューラルネットワークが構成されている。
CG化処理部213における処理の変換特性として、実画像データの輝度或いはRGB値におけるエッジ部分を保持しながら、ランダムノイズを除去する特性をもつ場合、CG化処理部213にCG画像を入力してもCG画像はほとんど影響を受けない。この場合、CG画像と実画像を区別なくCG化処理部213に入力しても、CG画像はほぼそのまま出力され、実画像の特性のみが変換される。
なお、CG化処理を適用するにあたって、学習データに含まれるCG画像と実画像とが区別なくCG化処理部213に入力される場合、CG化処理部213は、入力画像がCG画像であるか実画像であるかを判定する構成(CG画像判別部)を有してもよい。例えば、CG画像判定部は、入力画像が実画像であるかCG画像であるかを判定するように学習させたニューラルネットワークで構成されてよい。そして、CG化処理部213は、CG画像判定部が実画像であると判定した画像にCG化処理を施す。一方、CG画像判定部が実画像でないと判定した画像には処理を施さずに、直接、モデル処理部214に入力するようにしてもよい。
このようにすれば、CG化処理が入力画像のエッジを強調するような、実画像だけでなくCG画像の特性を変化させるような特性を持つ場合であっても、実画像とCG画像とを区別することなくCG化処理部213に入力することができる。
S503において、モデル処理部214は、CG化画像又はCG画像をモデル処理部214に入力して、(学習中の)ニューラルネットワークによる推定結果(すなわち図4に示した出力)を出力する。S504において、モデル処理部214は、当該推定結果と学習データに含まれるアノテーションとの差異に基づいて、損失関数の出力を算出する。例えば、モデル処理部214は、推定結果とアノテーションとの差異(予測誤差)の2乗和で定義される損失関数を用いて、損失関数の出力を算出する。
S505において、モデル処理部214は、学習データのうちの予め定められたデータサンプルの全てを用いて損失関数の出力を算出したかを判定する。モデル処理部214は、学習データのうちの予め定められたデータサンプルの全てについて処理を実行した場合、1エポックの処理が終了したと判定してS506に処理を進め、そうでない場合にはS502に処理を戻す。
S506において、モデル処理部214は、損失関数の出力の総和が減少するように、学習モデルの重みを変更する。例えば、モデル処理部214は、バックプロパゲーションといわれる公知の方法を用いて、損失関数の偏微分値に基づき、出力層から入力層に向かって順にニューロン間の重みを変更する。
S507において、モデル処理部214は、所定のエポック数の処理を終了したかを判定する。すなわち、S502~S506の処理を予め定めた回数だけ繰り返したかを判定する。S502~S507の処理を繰り返すことによりニューラルネットワークの重みが徐々に最適値に収束するように変更される。モデル処理部214は、所定のエポック数を終了していないと判定した場合には処理をS502に戻し、そうでない場合には、本一連の処理を終了する。このように、モデル処理部214の学習段階における一連の動作を完了すると、モデル処理部214におけるニューラルネットワークが学習済みの状態となる。
<CG化処理部に係る学習段階における一連の動作>
次に、図6を参照して、CG化処理部213における学習段階における一連の動作について説明する。なお、本処理は、制御部200のCPU211がROM212に記憶されたプログラムをRAM211に展開、実行することにより実現される。また、本処理では、CG化処理部213のニューラルネットワークは学習済みではなく、本処理により学習済みの状態となる。また、車両100の記憶部107には、外部装置から転送されたCG化用学習データが一時的に記憶されており、制御部200は、当該CG化用学習データのうちの所定の学習データを本処理における学習に用いるものとする。
S601において、制御部200は、CG化用学習データを記憶部107から取得する。ここで、CG化用学習データは、実画像と、その実画像を人手でCG化した正解CG化データとの組み合わせである。
S602において、CG化処理部213は、学習データの実画像に対して、(現時点でのニューラルネットワークによる)CG化処理を適用してCG化画像を出力する。
S603において、CG化処理部213は、CG化画像と学習データに含まれる正解CG化データとの差異に基づいて、損失関数の出力を算出する。例えば、CG化処理部213は、CG化画像と正解CG化データとの差異(予測誤差)の2乗和で定義される損失関数を用いて、損失関数の出力を算出する。
S604において、CG化処理部213は、学習データのうちの予め定められたデータサンプルの全てを用いて損失関数の出力を算出したかを判定する。CG化処理部213は、学習データのうちの予め定められたデータサンプルの全てについて処理を実行した場合、1エポックの処理が終了したと判定してS605に処理を進め、そうでない場合にはS602に処理を戻す。
S605において、CG化処理部213は、損失関数の出力の総和が減少するように、学習モデルの重みを変更する。例えば、モデル処理部214は、バックプロパゲーションといわれる公知の方法を用いて、損失関数の偏微分値に基づき、出力層から入力層に向かって順にニューロン間の重みを変更する。
S606において、CG化処理部213は、所定のエポック数の処理を終了したかを判定する。すなわち、S602~S605の処理を予め定めた回数だけ繰り返したかを判定する。S602~S606の処理を繰り返すことによりニューラルネットワークの重みが徐々に最適値に収束するように変更される。CG化処理部213は、所定のエポック数を終了していないと判定した場合には処理をS602に戻し、そうでない場合には、本一連の処理を終了する。このように、CG化処理部213における学習段階の一連の動作を完了すると、CG化処理部213におけるニューラルネットワークが学習済みの状態となる。
<モデル処理部124における推定段階の一連の動作>
次に、図7を参照して、モデル処理部124における推定段階の一連の動作について説明する。本処理は、車両100において、実際に撮影された実画像に対して、物体認識処理を行って、対象物体の種類や物体の位置等を推定する処理である。なお、本処理は、制御部200のCPU211がROM212に記憶されたプログラムをRAM211に展開、実行することにより実現される。また、本処理は、予めCG化処理部213のニューラルネットワークとモデル処理部214のニューラルネットワークとが、学習済みの状態(すなわちニューロン間の重み付けが決定されている)である。
S701において、制御部200は、センサ部101から出力された実画像を取得する。S702において、CG化処理部213は、上述したCG化処理を実画像に適用して、CG化した画像を出力する。
S703において、モデル処理部214は、CG化された画像に対して、学習済みの学習モデル(ニューラルネットワーク)を適用して、画像内の物標を認識する処理を実行し、処理により得られた推定結果を(図4に示した形式で)出力する。制御部200は、推定処理が終了すると、本処理に係る一連の動作を終了する。
以上説明したように、本実施形態では、車両において取得された実画像データに、CG化処理としての変換処理を行ったうえで、変換されたCG化画像に対して、画像内の物標を認識する画像認識処理を行うようにした。このようにすることで、学習段階の学習データにおける実画像も、推定段階で入力される実画像も、CG画像と特性の近似した画像となり、CG画像と実画像との相違による誤学習や誤検出の割合を低下させることができる。従って、装置における画像認識処理において、学習データとしてCG画像を用いる場合であっても実画像に対する推定をよりロバストにすることが可能になる。
(実施形態2)
次に、本発明の実施形態2について説明する。上述の実施形態では、ニューラルネットワークを用いて実装されたCG化処理部213を用いて、CG化処理を行った。これに対し、本実施形態では、ルールベースによるCG化処理を実行する例について説明する。従って、本実施形態は、上述の実施形態1とはCG化処理部の内部構成のみが異なる。従って、上述の実施形態と実質的に同一である構成については同一の参照番号を付してその説明は省略する。
<CG化処理部と、モデル処理部のニューラルネットワークの構成例>
図8を参照して、本実施形態に係るCG化処理部とモデル処理部の構成例について説明する。なお、図8では、モデル処理部214は実施形態1と同様であるため、同一の符号を付して同一の構成を示している。一方、CG化処理部801は、ルールベースの処理により実現される。
CG化処理部801は、例えば、例えば、εフィルタによりCG化処理を実行する。イプシロンフィルタは、例えば、実画像における注目画素Xを中心とした5×5の画素ブロック領域に含まれる全ての画素(周辺画素X(i、j)という)について、以下のフィルタ処理を行う。以下の処理は注目画素を順次移動させて実画像における全ての注目画素に対して行う。
フィルタ処理では、まず、画素ブロック内の周辺画素X(i、j)について、注目画素Xとの画素値の差分(階調差ΔX(i、j))を算出する。画素ブロック内の画素のうち、算出した差分の絶対値が所定の閾値(ε値)よりも小さい画素の画素値(|ΔX(i、j)|<εを満たすX(i、j))を平均して得られた値を注目画素の画素値とする。すなわち、注目画像の画素値は、Σ(該当するX(i、j))を該当する画素数で平均化した値となる。従って、εフィルタでは、実画像におけるエッジ成分を保ちながら、ランダムノイズを除去することが可能になる。
<物体認識処理に係る一連の動作>
上述のCG化処理部801の構成において、制御部200は、図5及び図7に示した学習段階での画像認識処理(S501~S507)及び推定段階での画像認識処理(S701~S703)を、実施形態1と同様に行うことができる。
なお、本実施形態のCG化処理部801はニューラルネットワークによって構成されていないため、図6に示した学習段階の処理を行う必要はない。
以上説明したように、本実施形態では、本実施形態では、車両において取得された実画像データに、εフィルタを用いたCG化処理を行ったうえで、変換されたCG化画像に対して、画像内の物標を認識する画像認識処理を行うようにした。このようにすることで、モデル処理部214が学習段階である場合の学習データにおける実画像も、モデル処理部214が推定段階である場合の実画像も、CG画像と特性の近似した画像となる。このため、CG画像と実画像との相違による誤学習や誤検出の割合を低下させることができる。従って、装置における画像認識処理において、学習データとしてCG画像を用いる場合であっても実画像に対する推定をよりロバストにすることが可能になる。
(実施形態3)
上述の実施形態では、車両100において画像認識処理を実行する場合を例に説明した。しかし、本実施形態は、画像認識を車両において実行する場合に限らず、情報処理サーバにおいて実行する場合にも適用可能である。すなわち、車両100において取得された実画像を情報処理サーバが受信して、受信した実画像に対して画像認識処理を実行し、その認識結果を車両100の送信するようにしてもよい。以下、このような実施形態における情報処理サーバの機能構成例について説明する。
<情報処理サーバの構成>
次に、情報処理サーバの機能構成例について、図10を参照して説明する。なお、以降の図を参照して説明する機能ブロックの各々は、統合されまたは分離されてもよく、また説明する機能が別のブロックで実現されてもよい。また、ハードウェアとして説明するものがソフトウェアで実現されてもよく、その逆であってもよい。
制御部1004は、例えば、CPU1010、RAM1011、ROM1012を含み、データ収集サーバ110の各部の動作を制御する。制御部1004は、CPU1010がROM1012に格納されたコンピュータプログラムを、RAM1011に展開、実行することにより、制御部1004を構成する各部の機能を発揮させる。
CG化処理部1013は、例えば、CG化処理部213と同様の構成を有してよい。すなわち、ディープニューラルネットワークの構成を有し、例えば、図3を参照して説明した、入力層310と、隠れ層311と、出力層312とを有する。例えば、図6において上述した学習段階と同様の処理(S601~S606)により、学習済みの状態となる。なお、CG化用学習データは、記憶部1003に予め記憶されていてよい。
モデル処理部1014は、例えば、モデル処理部214と同様の構成を有してよい。すなわち、ディープニューラルネットワークの構成を有し、例えば、図3を参照して説明した、入力層320と、隠れ層321及び322と、出力層323とを有する。例えば、図5において上述した学習段階と同様の処理(S501~S507)により、学習済みの状態となる。なお、学習データは、記憶部1003に予め記憶されていてよい。
通信部1001は、例えば通信用回路等を含む通信デバイスであり、例えばインターネットなどのネットワークを通じて、車両100と通信する。通信部1001は、車両100から送信される実画像を受信し、上述の制御部1004における画像認識の結果を車両100に送信する。電源部1002は、データ収集サーバ110内の各部に電力を供給する。記憶部1003は、ハードディスクや半導体メモリなどの不揮発性メモリである。記憶部1003は、上述した学習データの情報を格納する。
また、情報処理サーバ1000は、サーバ側で画像認識処理を行う代わりに、学習済みのモデルを車両100に送信して、車両100内でも画像認識処理を行わせるようにしてもよい。この場合、情報処理サーバ1000は、学習済みモデルの情報を車両100に送信するためのモデル提供部1015を更に有する。
モデル提供部1015は、情報処理サーバ1000において、S501~S507、S601~S606と同様の処理により学習された学習済みモデルを、車両100のモデル処理部214をバージョンアップするために、車両100に提供する。この学習済みモデルの情報は、当該学習モデルのバージョン情報や学習済みのニューラルネットワークの重み付けパラメータなどを含む。
情報処理サーバでは、車両と比べて、多種多用な状況における(CG画像を含む)学習データをより容易に収集することができるため、より多くの状況に対応した学習が可能になる。このため、サーバ上に収集された学習データを用いて学習した学習済みモデルを車両100に提供することができれば、車両における画像に対する推定をよりロバストにすることが可能になる。
(その他の実施形態)
なお、上述の実施形態では、制御部200或いは制御部1004がCG画像及び実画像を用いて学習したうえで、実画像を用いて物体認識処理を実行する場合を例に説明した。しかし、上述の実施形態は、画像認識処理に係る他の処理を実施する場合にも適用可能である。すなわち、本実施形態は、例えば、走路認識、シーン理解、交通参加者行動予測などの画像に基づく認識処理にも適用することができる。例えば、モデル処理部1014がシーン理解のために上述の処理を行ってもよい。
また、予めCG画像と実画像とを用いて学習を行った物体認識用の学習モデルを用いて、特定の物標の領域を認識したうえで、認識された物標の種別に応じて、CG化処理部1013による処理が異なるようにしてもよい。例えば、車両や道路上に存在する物標については、それ以外の領域よりもεフィルタのε値を大きくしたり、エッジを強調する処理を加えるようにしてもよい。或いは、特定の種別の物標が認識された場合に、CG化処理を行うようにしてもよい。
<実施形態のまとめ>
1.上記実施形態の情報処理装置(例えば、車両100に含まれる情報処理装置)は、
撮像手段によって撮像された実画像に所定の画像処理を施す処理手段(例えば、213)と、
所定の画像処理の施された画像を用いて、撮像された画像内の物標を認識する認識手段(例えば、214)と、を有し、
処理手段は、実画像の階調に、同一のシーンを表すコンピュータグラフィックスで表されたCG画像の階調との差を低減させる所定の画像処理を施す。
この実施形態によれば、装置における画像認識処理において、学習データとしてCG画像を用いる場合であっても実画像に対する推定をよりロバストにすることが可能になる。
2.上記実施形態によれば、
認識手段は第1の学習モデル(例えば、320、321、322、323)を含み、
第1の学習モデルを学習させるための学習データは、実画像とCG画像とを含む。
この実施形態によれば、実画像では収集することが難しい学習データをCG画像を用いることによって補うことが可能になる。
3.上記実施形態によれば、
処理手段は、更に学習データに所定の画像処理を施すことが可能であり、
処理手段は、所定の画像処理を施そうとする画像がCG画像であると判定した場合には、該画像に所定の画像処理を施さない。
この実施形態によれば、学習データを用いる場合に、実画像に対してのみ所定の画像処理を施すことができる。
4.上記実施形態によれば、
認識手段は、更に、所定の画像処理が施されていないCG画像を用いて、CG画像内の物標を認識する。
この実施形態によれば、学習データを用いる場合に、CG画像を用いた認識処理を実行することができる。
5.上記実施形態によれば、
処理手段は、画像におけるエッジ成分を保持しながら、ランダムノイズを除去する特性を有する所定の画像処理を施す(例えば、S502)。
この実施形態によれば、実画像をCGと類似した画像に変換することができる。
6.上記実施形態によれば、
処理手段は、εフィルタを用いて所定の画像処理を施す(例えば、S502)。
この実施形態によれば、εフィルタを用いてCG化処理を行うことができる。
7.上記実施形態によれば、
処理手段は、第2の学習モデルによって所定の画像処理を施すように構成され、第2の学習モデルは、実画像と、当該実画像をCG化した正解データとの組み合わせを学習データとして用いて学習される。
この実施形態によれば、学習モデルを用いてCG化処理を行うことができる。
8.上記実施形態によれば、
処理手段は、実画像に特定の物標が存在する場合、特定の物標の領域と他の領域とに対する所定の画像処理を異ならせる。
この実施形態によれば、特定の物標をよりロバストに処理することが可能になる。
発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。
100…車両、200…制御部、213…CG化処理部、214…モデル処理部、106…走行制御部

Claims (13)

  1. 撮像手段によって撮像された実画像に所定の画像処理を施す処理手段と、
    前記所定の画像処理の施された画像を用いて、前記撮像された画像内の物標を認識する認識手段と、を有し、
    前記処理手段は、前記実画像の階調に、同一のシーンを表すコンピュータグラフィックスで表されたCG画像の階調との差を低減させる前記所定の画像処理を施す、ことを特徴とする情報処理装置。
  2. 前記認識手段は第1の学習モデルを含み、
    前記第1の学習モデルを学習させるための学習データは、前記実画像と前記CG画像とを含む、ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記処理手段は、更に前記学習データに前記所定の画像処理を施すことが可能であり、
    前記処理手段は、前記所定の画像処理を施そうとする画像が前記CG画像であると判定した場合には、該画像に前記所定の画像処理を施さない、ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記認識手段は、更に、前記所定の画像処理が施されていない前記CG画像を用いて、前記CG画像内の物標を認識する、ことを特徴とする請求項3に記載の情報処理装置。
  5. 前記処理手段は、前記画像におけるエッジ成分を保持しながら、ランダムノイズを除去する特性を有する前記所定の画像処理を施す、ことを特徴とする請求項1から4のいずれか1項に記載の情報処理装置。
  6. 前記処理手段は、εフィルタを用いて前記所定の画像処理を施す、ことを特徴とする請求項1から5のいずれか1項に記載の情報処理装置。
  7. 前記処理手段は、第2の学習モデルによって前記所定の画像処理を施すように構成され、前記第2の学習モデルは、前記実画像と、当該実画像をCG化した正解データとの組み合わせを学習データとして用いて学習される、ことを特徴とする請求項1から6のいずれか1項に記載の情報処理装置。
  8. 前記処理手段は、前記実画像に特定の物標が存在する場合、前記特定の物標の領域と他の領域とに対する前記所定の画像処理を異ならせる、ことを特徴とする請求項1から7のいずれか1項に記載の情報処理装置。
  9. 請求項1から8のいずれか1項に記載の情報処理装置を備える、ことを特徴とする車両。
  10. 情報処理装置の制御方法であって、
    撮像手段によって撮像された実画像に所定の画像処理を施す処理工程と、
    前記所定の画像処理の施された画像を用いて、前記撮像された画像内の物標を認識する認識工程と、を有し、
    前記処理工程では、前記実画像の階調に、同一のシーンを表すコンピュータグラフィックスで表されたCG画像の階調との差を低減させる前記所定の画像処理を施す、ことを特徴とする情報処理装置の制御方法。
  11. コンピュータを、請求項1から8のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
  12. 情報処理サーバであって、
    撮像手段によって撮像された実画像に所定の画像処理を施す処理手段と、
    前記所定の画像処理の施された画像を用いて、前記撮像された画像内の物標を認識する認識手段と、を有し、
    前記処理手段は、前記実画像の階調に、同一のシーンを表すコンピュータグラフィックスで表されたCG画像の階調との差を低減させる前記所定の画像処理を施す、ことを特徴とする情報処理サーバ。
  13. 情報処理サーバによって実行される情報処理方法であって、
    撮像手段によって撮像された実画像に所定の画像処理を施す処理工程と、
    前記所定の画像処理の施された画像を用いて、前記撮像された画像内の物標を認識する認識工程と、を有し、
    前記処理工程では、前記実画像の階調に、同一のシーンを表すコンピュータグラフィックスで表されたCG画像の階調との差を低減させる前記所定の画像処理を施す、ことを特徴とする情報処理方法。
JP2020005391A 2020-01-16 2020-01-16 情報処理装置、車両、車両の制御方法、プログラム、情報処理サーバ、情報処理方法 Active JP6992099B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020005391A JP6992099B2 (ja) 2020-01-16 2020-01-16 情報処理装置、車両、車両の制御方法、プログラム、情報処理サーバ、情報処理方法
CN202011589363.5A CN113139567A (zh) 2020-01-16 2020-12-29 信息处理装置及其控制方法、车辆、记录介质、信息处理服务器、信息处理方法
US17/143,521 US11860627B2 (en) 2020-01-16 2021-01-07 Image processing apparatus, vehicle, control method for information processing apparatus, storage medium, information processing server, and information processing method for recognizing a target within a captured image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020005391A JP6992099B2 (ja) 2020-01-16 2020-01-16 情報処理装置、車両、車両の制御方法、プログラム、情報処理サーバ、情報処理方法

Publications (2)

Publication Number Publication Date
JP2021114048A JP2021114048A (ja) 2021-08-05
JP6992099B2 true JP6992099B2 (ja) 2022-01-13

Family

ID=76809816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020005391A Active JP6992099B2 (ja) 2020-01-16 2020-01-16 情報処理装置、車両、車両の制御方法、プログラム、情報処理サーバ、情報処理方法

Country Status (3)

Country Link
US (1) US11860627B2 (ja)
JP (1) JP6992099B2 (ja)
CN (1) CN113139567A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102159052B1 (ko) * 2020-05-12 2020-09-23 주식회사 폴라리스쓰리디 영상 분류 방법 및 장치
WO2024069886A1 (ja) * 2022-09-29 2024-04-04 株式会社ニコン 演算装置、演算システム、ロボットシステム、演算方法及びコンピュータプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014137756A (ja) 2013-01-17 2014-07-28 Canon Inc 画像処理装置および画像処理方法
JP2014229115A (ja) 2013-05-23 2014-12-08 キヤノン株式会社 情報処理装置および方法、プログラム、記憶媒体
JP2018060512A (ja) 2016-10-06 2018-04-12 株式会社アドバンスド・データ・コントロールズ 画像生成システム、プログラム及び方法並びにシミュレーションシステム、プログラム及び方法
JP2018163444A (ja) 2017-03-24 2018-10-18 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
WO2018198233A1 (ja) 2017-04-26 2018-11-01 株式会社ソニー・インタラクティブエンタテインメント 学習装置、画像認識装置、学習方法及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4152340B2 (ja) * 2004-03-26 2008-09-17 富士フイルム株式会社 画像処理システムおよびその方法
JP2005332054A (ja) * 2004-05-18 2005-12-02 Konica Minolta Photo Imaging Inc 画像処理方法、画像処理装置、画像記録装置及び画像処理プログラム
JP6316074B2 (ja) * 2013-10-22 2018-04-25 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
CN107851195B (zh) * 2015-07-29 2022-02-11 诺基亚技术有限公司 利用神经网络进行目标检测

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014137756A (ja) 2013-01-17 2014-07-28 Canon Inc 画像処理装置および画像処理方法
JP2014229115A (ja) 2013-05-23 2014-12-08 キヤノン株式会社 情報処理装置および方法、プログラム、記憶媒体
JP2018060512A (ja) 2016-10-06 2018-04-12 株式会社アドバンスド・データ・コントロールズ 画像生成システム、プログラム及び方法並びにシミュレーションシステム、プログラム及び方法
JP2018163444A (ja) 2017-03-24 2018-10-18 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
WO2018198233A1 (ja) 2017-04-26 2018-11-01 株式会社ソニー・インタラクティブエンタテインメント 学習装置、画像認識装置、学習方法及びプログラム

Also Published As

Publication number Publication date
JP2021114048A (ja) 2021-08-05
US20210224554A1 (en) 2021-07-22
CN113139567A (zh) 2021-07-20
US11860627B2 (en) 2024-01-02

Similar Documents

Publication Publication Date Title
WO2019230339A1 (ja) 物体識別装置、移動体用システム、物体識別方法、物体識別モデルの学習方法及び物体識別モデルの学習装置
US11940803B2 (en) Method, apparatus and computer storage medium for training trajectory planning model
US11783593B2 (en) Monocular depth supervision from 3D bounding boxes
JP6798860B2 (ja) 境界線推定装置
KR20210025942A (ko) 종단간 컨볼루셔널 뉴럴 네트워크를 이용한 스테레오 매칭 방법
WO2018168539A1 (ja) 学習方法およびプログラム
CN111696196B (zh) 一种三维人脸模型重建方法及装置
JP6992099B2 (ja) 情報処理装置、車両、車両の制御方法、プログラム、情報処理サーバ、情報処理方法
US11727588B2 (en) Depth estimation based on ego-motion estimation and residual flow estimation
US11847837B2 (en) Image-based lane detection and ego-lane recognition method and apparatus
CN114418030A (zh) 图像分类方法、图像分类模型的训练方法及装置
US20230326055A1 (en) System and method for self-supervised monocular ground-plane extraction
US11062141B2 (en) Methods and apparatuses for future trajectory forecast
CN113496194B (zh) 信息处理装置、信息处理方法、车辆、信息处理服务器和记录介质
US20230033466A1 (en) Information processing method and storage medium for estimating camera pose using machine learning model
CN111144361A (zh) 一种基于二值化cgan网络的公路车道检测方法
US11915487B2 (en) System and method for self-supervised depth and ego-motion overfitting
JP7158515B2 (ja) 学習装置、学習方法及びプログラム
JP7501481B2 (ja) 距離推定装置、距離推定方法、および距離推定用コンピュータプログラム
US20220351399A1 (en) Apparatus and method for generating depth map using monocular image
US20230230395A1 (en) Method of detecting at least one traffic lane marking and/or road marking in at least one digital image representation
KR102538225B1 (ko) 센서 퓨전 기반의 시맨틱 세그멘테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
US20230401733A1 (en) Method for training autoencoder, electronic device, and storage medium
US20210407115A1 (en) System and method for self-supervised monocular depth regularization from surface normals

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200929

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20210103

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211208

R150 Certificate of patent or registration of utility model

Ref document number: 6992099

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150