JP7374001B2

JP7374001B2 - 学習モデルの生成方法、プログラム及び情報処理装置

Info

Publication number: JP7374001B2
Application number: JP2020004562A
Authority: JP
Inventors: パヌメートチェトプラユン; 倩穎戴
Original assignee: Ｇｏ株式会社
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2023-11-06
Anticipated expiration: 2040-01-15
Also published as: JP2021111273A

Description

本技術は、学習モデルの生成方法、プログラム及び情報処理装置に関する。

従来、車両等の移動体の前方を撮像した画像から各種の情報を検出する検出方法が提案されている。特許文献１には、車両に搭載され、その車両が走行する路上の白線をより正確に検出することが出来る車両用白線検出装置が開示されている。

特開２００７－２２００１３号公報

しかしながら、特許文献１の手法では、撮像画像から検出対象である白線を検出する能力は十分ではないという問題がある。

本開示の目的は、撮像画像から対象物に関する情報を精度よく出力する学習モデルの生成方法、プログラム及び情報処理装置を提供することにある。

本開示の一態様における学習モデルの生成方法は、移動体に載置される撮像装置により撮像された対象物を含む撮像画像を取得し、前記対象物を抽出した複数の対象物抽出画像を前記撮像画像に関連付けて取得し、取得した撮像画像及び複数の対象物抽出画像と対象物に関する情報とを含む訓練データに基づき、撮像画像及び複数の対象物抽出画像を入力した場合に対象物に関する情報を出力する学習モデルを生成する。

本開示によれば、撮像画像から対象物に関する情報を精度よく出力することができる。

第１実施形態における学習モデル生成システムの概要図である。情報処理装置の構成例を示すブロック図である。制御ユニットの構成例を示すブロック図である。ユニットグループ値の生成方法を示す概念図である。データユニットの内容を説明する説明図である。白線抽出画像の結合方法の一例を説明する説明図である。学習モデルの構成を説明する説明図である。ｎ及びｍに対応するグループＩＤをマトリクス状に記憶したテーブル例を示す図である。学習モデルの生成処理手順の一例を示すフローチャートである。ユニットグループ値取得の詳細な手順の一例を示すフローチャートである。第２実施形態における学習モデルの生成処理手順の一例を示すフローチャートである。第２実施形態におけるユニットグループ値取得の詳細な手順の一例を示すフローチャートである。第３実施形態における推定システムの構成例を示すブロック図である。推定処理方法を示す概念図である。学習モデルを用いた推定処理手順の一例を示すフローチャートである。第３実施形態におけるユニットグループ値取得の詳細な手順の一例を示すフローチャートである。表示装置で表示される画面例を示す図である。第４実施形態における学習モデルを用いた推定処理手順の一例を示すフローチャートである。第４実施形態におけるユニットグループ値取得の詳細な手順の一例を示すフローチャートである。

本発明をその実施の形態を示す図面を参照して具体的に説明する。

（第１実施形態）
図１は、第１実施形態における学習モデル生成システム１００の概要図である。学習モデル生成システム１００は、情報処理装置１、移動体２の制御ユニット２００及び撮像装置３１を含む。情報処理装置１及び制御ユニット２００は例えばインターネット又は公衆回線網等のネットワークＮ１を介して通信可能に接続されている。

移動体２は、例えば車両、オートバイ、ヘリコプター、船舶、ドローン等の移動機構を備えるものであり、移動体２に載置される撮像装置３１により、移動中の移動体２の外部を撮影する。以下では移動体２は車両であるものとして説明する。撮像装置３１は、例えばドライブレコーダーであり、移動体２の外部をカメラにより撮影し、撮影した映像データをＳＤカード等の記録媒体に記録する装置である。なお撮像装置３１は、カメラ等のイメージセンサに加えて、例えばレーダ又はライダー（LIDAR: Laser Imaging Detection and Ranging）等の測距センサを備えていてもよい。測距センサは、送信波を出力し、物体からの反射波を受け取ることにより、反射波の受信状態から物体の位置や速度を算出することができる。撮像装置３１は、制御ユニット２００に接続される。制御ユニット２００は、撮像装置３１により撮影された動画を情報処理装置１に送信する。

情報処理装置１は、例えばサーバコンピュータである。情報処理装置１は、制御ユニット２００から取得した情報に基づき、撮像画像に含まれる対象物に関する情報を出力する学習モデルを生成する。第１実施形態において、情報処理装置１は１台のサーバコンピュータとして説明するが、複数のサーバコンピュータで機能又は処理を分散させてもよいし、１台の大型コンピュータに仮想的に生成される複数のサーバコンピュータ（インスタンス）の内の１つであってもよい。なお、情報処理装置１は、移動体２の内部に設置されていてもよい。

このような学習モデル生成システム１００の構成及び詳細な処理内容について以下に説明する。

図２は、情報処理装置１の構成例を示すブロック図である。情報処理装置１は、制御部１０、記憶部１１、通信部１２及び操作部１３を含む。制御部１０は、一又は複数のＣＰＵ（Central Processing Unit ）、ＧＰＵ（Graphics Processing Unit）等を用いたプロセッサであり、内蔵するＲＯＭ（Read Only Memory）又はＲＡＭ（Random Access Memory）等のメモリを用い、各構成部を制御して処理を実行する。制御部１０は、記憶部１１に記憶されているプログラム１Ｐを読み出して実行することにより、種々の情報処理、制御処理等を行う。

記憶部１１には、例えばハードディスク又はＳＳＤ（Solid State Drive ）等の不揮発性メモリを含む。記憶部１１には、プログラム１Ｐを含む制御部１０が参照するプログラム及びデータが記憶される。記憶部１１に記憶されるプログラム１Ｐは、記録媒体にコンピュータ読み取り可能に記録されている態様であってもよい。記憶部１１は、図示しない読出装置によって記録媒体１Ａから読み出されたプログラム１Ｐを記憶する。また、図示しない通信網に接続されている図示しない外部コンピュータからプログラム１Ｐをダウンロードし、記憶部１１に記憶させたものであってもよい。なお記憶部１１は、複数の記憶装置により構成されていてもよく、情報処理装置１に接続された外部記憶装置であってもよい。

記憶部１１には、更に複数の学習モデル１Ｍが記憶される。学習モデル１Ｍは、撮像画像に含まれる対象物に関する情報を識別する識別器であり、機械学習により生成された学習モデルである。学習モデル１Ｍは、その定義情報によって定義される。学習モデル１Ｍの定義情報は、例えば、学習モデル１Ｍの構造情報や層の情報、各層が備えるチャネルの情報、学習済みのパラメータを含む。記憶部１１には、学習モデル１Ｍに関する定義情報が記憶される。学習モデル１Ｍの詳細については後述する。

通信部１２は、ネットワークＮ１を介した通信を実現する通信インタフェースである。制御部１０は、通信部１２によりネットワークＮ１を介して制御ユニット２００と通信接続が可能である。

操作部１３は、ユーザの操作を受け付けるインタフェースであり、物理ボタン、マウス、ディスプレイ内蔵のタッチパネルデバイスを含む。操作部１３は、ユーザからの操作入力を受け付け、操作内容に応じた制御信号を制御部１０へ送出する。

図３は、制御ユニット２００の構成例を示すブロック図である。制御ユニット２００は、例えば移動体２の装備品を制御するためのＥＣＵ（Electronic Control Unit）であり、制御部２０、記憶部２１、第１通信部２２及び第２通信部２３等を備える。

制御部２０は、一又は複数のＣＰＵ、ＧＰＵ等を用いたプロセッサであり、内蔵するＲＯＭ及びＲＡＭ等のメモリを用いて各構成部を制御して処理を実行する。制御部２０は、内蔵するタイマーによって逐次、時間情報を取得することができる。制御部２０は、記憶部２１に記憶されているプログラムに基づく情報処理を実行する。

記憶部２１は、ＥＥＰＲＯＭ（Electronically Erasable Programmable Read Only Memory）などの不揮発性メモリを備える。記憶部２１には、制御部２０により実行されるプログラム及び当該プログラムの実行に必要なデータ等が記憶される。記憶部２１は、制御部２０に内蔵のタイマーによって得られる時刻情報を対応付けて移動体２の移動中における速度のログを記憶するとよい。

第１通信部２２は、ＣＡＮ（Control Area Network）又はＥｔｈｅｒｎｅｔ（登録商標）等の通信プロトコルを用いた通信インタフェースであり、制御部２０は、第１通信部２２を介して移動体内通信回線Ｎ２に接続されている各種機器、他のＥＣＵ等と相互に通信する。移動体内通信回線Ｎ２を介して第１通信部２２に接続される機器には、撮像装置３１が含まれる。

第２通信部２３は、３Ｇ、ＬＴＥ、４Ｇ、５Ｇ、ＷｉＦｉ等の移動体通信のプロトコルを用いて無線通信をするための通信インタフェースであり、第２通信部に接続されたアンテナを介して情報処理装置１とデータの送受信を行う。第２通信部２３と情報処理装置１との通信は、例えば公衆回線網又はインターネット等の外部ネットワークＮ１を介して行われる。

上述のように構成される学習モデル生成システム１００において、情報処理装置１は、取得した撮像画像に基づき、撮像画像データを含む複数のデータの組み合わせからなるユニットグループ値Ｘを生成する。情報処理装置１は、生成したユニットグループ値Ｘを含む訓練データセットを用いて後述の学習モデル１Ｍを生成する。

学習モデルは、対象物を含む撮像画像の特徴量を抽出することで各種の情報を判定する。対象物を高精度に検出可能な撮像画像を用いた場合には高い精度の推定結果が得られる可能性が高い。一方で、例えば対象物が不明瞭である、対象物の一部が欠けている等の撮像画像を用いた場合には、低い精度で検出された対象物に関する情報に基づくことにより、学習モデルの推定精度が低くなる虞がある。本学習モデル生成システム１００では、対象物の検出精度を高めた複数のデータの組み合わせからなるユニットグループ値Ｘを用いて訓練データを生成することで、対象物に関する学習モデルの推定精度を向上させる。

図４は、ユニットグループ値Ｘの生成方法を示す概念図である。ユニットグループ値Ｘは、撮像画像に基づき、データユニット生成及びユニットグループ生成の処理を経て取得される。図４を用いて、時刻ｔにおける撮像画像に基づくユニットグループ値Ｘ（ｔ）の生成に関して、具体的に説明する。

情報処理装置１は、初めに、撮像画像に関連付けてグレースケール撮像画像及び対象物抽出画像を取得する。撮像画像は、撮像装置３１により撮影され制御ユニット２００を介して情報処理装置１で取得される。撮像画像は、動画像で得られ、例えば１秒間に６０フレーム等の所定のフレームレートに基づき取得された複数のフレームの静止画像から構成される。なお、撮像画像は所定間隔で取得された複数枚の静止画像の組であってもよい。

情報処理装置１は、ＲＧＢ（Red Green Blue）値を含む撮像画像から、グレースケールの画像に変換したグレースケール撮像画像を生成する。グレースケール撮像画像は、０から２５５の画素値を含むものであってもよく、０から１までの連続値に正規化された値を含むものであってもよい。なお撮像装置３１から取得する撮像画像そのものがグレースケール画像であってもよい。

さらに、ＲＧＢ画像又はグレースケール画像いずれかの撮像画像に基づき、対象物抽出画像を生成する。第１実施形態では、対象物抽出画像とは、撮像画像から対象物を抽出した画像データであり、２値化画像である。撮像画像から抽出される対象物とは、例えば、走行路上の白線、ガードレール、中央分離帯、信号機、道路標識、車両、周辺の広告物、人等である。第１実施形態では、撮像画像は、移動体２の走行路を示す白線を撮影した画像であり、対象物抽出画像は、対象物として白線を抽出した２値の白線抽出画像である例を説明する。

撮像画像から白線抽出画像を生成する方法は公知の方法を用いてよい。例えば、情報処理装置１は、機械学習モデルにより、ＬａｎｅＮｅｔ、Ｕ－Ｎｅｔ等のアルゴリズムを用いて対象物を抽出した画像を生成してよい。ＬａｎｅＮｅｔモデルは、画像のセグメンテーションを行う学習モデルであり、撮像画像に基づき対象物である白線を抽出した２値化画像を生成する。情報処理装置１は、撮像画像の各フレームについて上記の処理を行い、各撮像画像に対応する白線抽出画像を生成する。

白線抽出画像は、例えばパターンマッチング等の手法を用いて生成してもよい。この場合、情報処理装置１は、初めに撮像画像から局所特徴量を検出し、当該検出した局所特徴量と予め保持している対象物の特徴量とをパターンマッチングすることにより、対象物を含む領域を特定し白線抽出画像を生成する。さらに、情報処理装置１は、生成された白線抽出画像に対し、撮像画像の輝度値に基づいて２値化する処理を実行し、２値化画像を生成するとよい。画像の２値化処理の方法は公知の方法を用いてよい。例えば、グレースケールに変換した白線抽出画像中の画素毎に、画素の輝度値（画素値）と所定の方法により算出された閾値とを比較する。情報処理装置１は、画素の画素値が閾値よりも大きい場合、該画素を黒画素と判定し、画素値を１にする。一方、画素値が閾値以下の場合、該画素を白画素と判定し、画素値を０にする。情報処理装置１は、各画素について上記の処理を行い、２値の白線抽出画像を生成する。

なお、上記では撮像画像から対象物抽出画像を生成する例を説明したが、対象物抽出画像は撮像画像から生成されるものに限定されない。ライダー等により対象物を抽出したセンサデータを取得した場合には、情報処理装置１は、取得したセンサデータを画像データに変換し対象物抽出画像を生成してもよい。

次に、情報処理装置１は、グレースケール撮像画像と複数の対象物抽出画像（白線抽出画像）とで構成されるデータユニットを生成する。図５は、データユニットの内容を説明する説明図である。時刻ｔにおける時刻ｔデータユニットは、時刻ｔにおけるグレースケール撮像画像と、時刻ｔ及び時刻ｔの前後夫々ｎ個の時刻における対象物抽出画像とを含む。すなわち、時刻ｔデータユニットには、時刻ｔのグレースケール撮像画像と、時刻ｔ、時刻ｔ-1、時刻ｔ+1、時刻ｔ-2、時刻ｔ+2、…、時刻ｔ-n、時刻ｔ+nの各白線抽出画像（合計２ｎ＋１個）とが含まれる。ｎは正の自然数である。図５の例では、ｎ＝１であり、時刻ｔデータユニットには、時刻ｔのグレースケール撮像画像と、時刻ｔ、時刻ｔ+1及び時刻ｔ-1の白線抽出画像とが含まれる。同様に、時刻ｔ-1データユニットには、時刻ｔ-1のグレースケール撮像画像と、時刻ｔ-2、時刻ｔ-1及び時刻ｔの白線抽出画像とが含まれる。時刻ｔ+1データユニットには、時刻ｔ+1のグレースケール撮像画像と、時刻ｔ、時刻ｔ+1及び時刻ｔ+2の白線抽出画像とが含まれる。本実施形態においてはｎは正の自然数として説明するが、ｎは０であってもよい。なお、結合白線抽出画像は、時刻ｔを中心に前後同数のｎ個づつの白線抽出画像を結合するものに限定されない。結合される白線抽出画像の時刻ｔの前後における個数、すなわち、過去側の個数と未来側の個数は異なるものであってもよい。

各時刻におけるデータユニットからは、夫々１個のデータユニット値が生成される。１個のデータユニット値は、例えば、グレースケール撮像画像及び結合白線抽出画像夫々の画素値を一次元又は二次元配列形式に変換し連結して得られる１個のデータとして記憶され処理される。第１実施形態では、データユニット値は、グレースケール撮像画像の画像データと、２ｎ＋１個の白線抽出画像を結合した結合白線抽出画像の画像データとの２チャンネルデータの組み合わせからなる１個のマトリクスデータである。

図６は、白線抽出画像の結合方法の一例を説明する説明図である。情報処理装置１は、時刻ｔの白線抽出画像と、時刻ｔの前後夫々ｎ個の時刻における白線抽出画像夫々とを結合し結合白線抽出画像を生成する。図６の下部では、一例としてｎ＝１の場合における、時刻ｔ、時刻ｔ+1及び時刻ｔ-1の３個の白線抽出画像を結合した結合白線抽出画像を生成する例を説明する。各白線抽出画像は、例えば同じ画素数の画像データであり、各画素の画素値を夫々有する。情報処理装置１は、各白線抽出画像の対応する画素を結合し、１個の画像データを生成する。例えば、各白線抽出画像における同じ配列（画素番号）の画素が全て０である場合、結合白線抽出画像における該配列の画素値を０にする。各白線抽出画像における同じ配列の画素が０、０、１である場合、結合白線抽出画像における該配列の画素値を１にする。このように、前後の複数データの情報を結合することで、１個の対象物抽出画像では検出されなかった情報を補填したデータを生成する。なお、複数画像の結合方法は一例であり上記の例に限定されるものではない。

図４に戻り説明を続ける。情報処理装置１は、さらに上述のデータユニットの一又は複数個の組み合わせで構成される、１個のユニットグループを生成する。時刻ｔにおけるユニットグループは、時刻ｔ及び時刻ｔの前後夫々ｍ個の時刻におけるデータユニットで構成される。すなわち、時刻ｔにおけるユニットグループには、時刻ｔデータユニット、時刻ｔ-1データユニット、時刻ｔ+1データユニット、…、時刻ｔ-mデータユニット、及び時刻ｔ+mデータユニット（合計２ｍ＋１個）が含まれる。ｍは、０又は正の自然数である。なお、ユニットグループは、時刻ｔを中心に前後同数のｍ個づつのデータユニットを組み合わせたものに限定されない。組み合わせられるデータユニットの時刻ｔの前後における個数、すなわち、過去側の個数と未来側の個数は異なるものであってもよい。

上述のように生成された時刻ｔにおけるユニットグループから、１個のユニットグループ値Ｘが生成される。１個のユニットグループ値Ｘは、２ｍ＋１個のデータユニット値を組み合わせて得られる値であり、例えば、２ｍ＋１個のグレースケール撮像画像及び結合白線抽出画像夫々の画素値を一次元又は二次元配列形式に変換し連結して得られる１個のデータとして記憶され処理される。第１実施形態では、ユニットグループ値Ｘは、２ｍ＋１個のグレースケール撮像画像の画像データと、２ｍ＋１個の結合白線抽出画像の画像データとの４ｍ＋２チャンネルの組み合わせからなる、１個のマトリクスデータである。

なお、上記ではデータユニット値及びユニットグループ値Ｘは夫々、グレースケールの撮像画像データと白線抽出画像データとを組み合わせたものである例を説明したが、データユニット値及びユニットグループ値Ｘに含まれるデータは上記の例に限定されるものではない。データユニット値及びユニットグループ値Ｘは夫々、ＲＧＢ値を含む撮像画像データと白線抽出画像データとを組み合わせたものであってもよい。

上記のユニットグループ値Ｘを用いて、情報処理装置１は学習モデル１Ｍを生成する。図７は、学習モデル１Ｍの構成を説明する説明図である。学習モデル１Ｍは、ニューラルネットワークを用いた深層学習によって、生成され、学習される。学習モデル１Ｍは、例えばＣＮＮ（Convolution Neural Network）である。図７に示す例では、学習モデル１Ｍは、撮像画像に基づくユニットグループ値Ｘを入力する入力層と、対象物に関する情報を出力する出力層と、画像データの特徴量を抽出する中間層（隠れ層）とを備える。

制御部１０は、撮像画像に対し、上述のようにグレースケール撮像画像及び対象物抽出画像を生成し、これらを組み合わせてなるデータユニット及びユニットグループに基づきユニットグループ値Ｘを生成する前処理を実行する。第１実施形態における学習モデル１Ｍとは、狭義の学習モデル１Ｍと、上述の前処理を含めた広義の学習モデルモジュールとを含む。

学習モデル１Ｍの入力層へ入力される入力データは、ユニットグループ値Ｘである。第１実施形態では、ユニットグループ値Ｘは、移動体２の走行路を示す白線を撮影したグレースケール撮像画像データと、対象物である白線を抽出した白線抽出画像データとの２チャンネルのデータを含む。白線抽出画像は、撮像画像に掛け合わせられるマスク画像としての機能を有する。

中間層は、例えば、畳み込み層、プーリング層及び全結合層により構成される。畳み込み層及びプーリング層は交互に複数設けられてもよい。畳み込み層及びプーリング層は、各層のチャネルを用いた演算によって、入力層を通じて入力される撮像画像データ及び白線抽出画像データの特徴を抽出する。全結合層は、畳み込み層及びプーリング層によって特徴部分が抽出されたデータを１つのノードに結合し、活性化関数によって変換された特徴量を出力する。特徴量は、全結合層を通じて出力層へ出力される。

学習モデル１Ｍの出力層から出力される出力データは、対象物に関する情報である。第１実施形態では、対象物に関する情報として、移動体２が所在する走行路上の位置を示す、移動体２の所在車線を出力する。出力層は、設定されている所在車線に各々対応するチャネルを含み、各所在車線に対する確度をスコアとして出力する。情報処理装置１は、スコアが最も高い所在車線、あるいはスコアが閾値以上である所在車線を出力層の出力値とすることができる。なお出力層は、それぞれの所在車線の確度を出力する複数の出力チャネルを有する代わりに、最も確度の高い所在車線を出力する１個の出力チャネルを有してもよい。このように、学習モデル１Ｍは、ユニットグループ値Ｘが入力された場合に、対象物に関する情報を出力する。

上記の学習モデル１Ｍは、上述したｎ及びｍの値に応じて異なる学習モデル１Ｍが用意される。すなわち、学習モデル１Ｍに入力するユニットグループ値Ｘを生成するための、結合白線抽出画像に含める白線抽出画像の枚数及び組み合わせるデータユニット値の個数に応じて、異なる学習モデル１Ｍが生成される。各学習モデル１Ｍの構成は、同じ構成を有するものであってもよく、中間層の層数が異なる構成であってもよい。情報処理装置１は、例えばユーザの入力を受け付ける等によりｎ及びｍの値を決定する。情報処理装置１は、決定したｎ及びｍの組み合わせにより特定されるグループ毎に撮像画像を分別し、該グループ別に学習モデル１Ｍを生成する。図８は、ｎ及びｍに対応するグループＩＤをマトリクス状に記憶したテーブル例を示す図である。例えば、ｎ＝１且つｍ＝０の場合はグループ１、ｎ＝１且つｍ＝１の場合はグループ２、…が記憶される。情報処理装置１は、グループＩＤ別に異なる訓練データを用いて学習モデル１Ｍを生成する。

上記では学習モデル１ＭがＣＮＮであるものとして説明したが、学習モデル１ＭはＣＮＮに限定されるものではない。時系列データを取得した場合にはＣＮＮ以外のニューラルネットワーク、例えばリカレントニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）、ＬＳＴＭ（Long Short Term Memory）ネットワークを用いてもよい。またニューラルネットワークを用いないサポートベクタマシン、回帰木等、他のアルゴリズムによって学習されたモデルであってもよい。

なお、学習モデル１Ｍの内容例が図７に示した例に限られないことは勿論である。学習モデル１Ｍは、撮像画像に含まれる対象物に応じて適宜入力情報に応じた出力情報を出力するように学習されるとよい。例えば、学習モデル１Ｍは、対象物である広告に応じて広告の分類又は広告数を出力としてもよい。学習モデル１Ｍは、対象物である人に応じて人数を出力としてもよい。学習モデル１Ｍは、対象物である車両に応じて車両数を出力としてもよい。

図９は、学習モデル１Ｍの生成処理手順の一例を示すフローチャートである。以下の処理は、情報処理装置１の記憶部１１に記憶してあるプログラム１Ｐに従って制御部１０によって実行される。処理の実行タイミングは、例えば定期的なタイミングであってもよく、撮像装置３１により新たな撮像画像が記録され制御ユニット２００から送信されたタイミングであってもよい。

情報処理装置１の制御部１０は、制御ユニット２００から撮像画像を取得し（ステップＳ１１）、取得した撮像画像を一時的に記憶部１１に記憶する。撮像画像は、撮像装置３１により撮影し記録された移動体２の外部を撮影した画像であり、移動体２の走行路を示す白線が含まれる。

制御部１０は、記憶部１１にアクセスし、撮像画像を取得する。制御部１０は、撮像画像をグレースケールに変換し、グレースケール撮像画像を取得する（ステップＳ１２）。なお、制御部１０は、制御ユニット２００からグレースケールの撮像画像を取得してもよい。制御部１０は、例えばＬａｎｅＮｅｔ等の機械学習モデルを用いて、撮像画像から対象物の抽出を行い、対象物抽出画像である白線抽出画像を取得する（ステップＳ１３）。白線抽出画像は、２値化画像である。制御部１０は、グレースケール撮像画像と白線抽出画像とを関連付けて記憶する。制御部１０は撮像画像に含まれる全フレームに対して上記の処理を実行する。

なお、制御部１０は、ライダー等の測距センサによるセンサデータを取得した場合には、撮像画像に基づく白線抽出画像の生成に代えて、センサデータにより白線抽出画像を生成してよい。この場合において、撮像画像及びセンサデータは夫々取得時点に関する情報が付随しており、制御部１０は、撮像画像に同一時点のセンサデータを対応付けて取得するとよい。

制御部１０は、取得したグレースケール撮像画像及び白線抽出画像に基づき、ユニットグループ値Ｘを取得する（ステップＳ１４）。図１０は、ユニットグループ値Ｘ取得の詳細な手順の一例を示すフローチャートである。図１０のフローチャートに示す処理手順は、図９のフローチャートにおけるステップＳ１４の詳細に対応する。

制御部１０は、例えば操作部１３によりユーザの入力を受け付ける等により、ユニットグループ値Ｘを生成するためのｎ及びｍの値を決定する（ステップＳ１４１）。制御部１０は、決定したｎの値に基づき、時刻ｔにおけるグレースケール撮像画像と、時刻ｔ及び時刻ｔの前後ｎ個の時刻、すなわち時刻ｔ-nから時刻ｔ+nまでの各時刻における白線抽出画像（合計２ｎ＋１個）とで構成される時刻ｔデータユニットを生成する（ステップＳ１４２）。制御部１０は、生成した時刻ｔデータユニットにおけるグレースケール撮像画像データと、各時刻の白線抽出画像に基づく結合白線抽出画像データとを組み合わせたデータユニット値を取得する（ステップＳ１４３）。

制御部１０は、決定したｍの値に基づき、時刻ｔ及び時刻ｔの前後ｍ個の時刻、すなわち時刻ｔ-mから時刻ｔ+mまでの各時刻におけるデータユニット（合計２ｍ＋１個）で構成されるユニットグループを生成する（ステップＳ１４４）。制御部１０は、生成したユニットグループの各時刻におけるデータユニット値を組み合わせたユニットグループ値Ｘを取得し（ステップＳ１４５）、図９のフローチャートにおけるステップＳ１５へ処理を戻す。

図９に戻り説明を続ける。制御部１０は、取得したユニットグループ値Ｘに、対象物に関する情報（例えば移動体２の所在車線）をラベル付けした訓練データセットを生成する（ステップＳ１５）。制御部１０は、撮像画像の各フレームに対し上述の処理を行い、ユニットグループ値Ｘに所在車線を夫々ラベル付けした複数の訓練データセットを生成する。制御部１０は、大量の撮像画像に基づくユニットグループ値Ｘとラベルデータとを収集し、収集したデータを訓練データセットとして不図示のデータベースに記憶する。この場合において、ユニットグループ値Ｘは、ｎ及びｍの値を付随させて記憶される。

制御部１０は、ユニットグループ値Ｘに付随するｎ及びｍの値に基づき、図８に示したテーブルを参照して、ｎ及びｍの値の組み合わせにより特定されるグループＩＤを取得し、ユニットグループ値Ｘをグループに分別する（ステップＳ１６）。

制御部１０は、生成した訓練データセットを用いて、時刻ｔにおけるユニットグループ値Ｘを入力した場合に、時刻ｔにおける所在車線を出力する学習モデル１Ｍを生成する（ステップＳ１７）。具体的には、制御部１０は、データベースにアクセスし、学習モデル１Ｍの生成に用いる１組の訓練データセットを取得する。訓練データセットは、ユニットグループ値Ｘと所在車線とを含む。制御部１０は、ユニットグループ値Ｘを学習モデル１Ｍの入力層に入力する。この場合において、制御部１０は、ユニットグループの構成に応じたグループＩＤ別に異なる学習モデル１Ｍ、１Ｍ、１Ｍ…を生成するため、分別したユニットグループ値Ｘのグループ別に対応する学習モデル１Ｍに訓練データを入力する。

制御部１０は、所在車線の予測値を出力層から取得する。学習が開始される前の段階では、学習モデル１Ｍを記述する定義情報には、初期設定値が与えられているものとする。制御部１０は、例えば誤差逆伝播法を用いて、所在車線の予測値と正解値である所在車線とを比較し、差分が小さくなるように中間層におけるパラメータ及び重み等を学習する。差分の大きさ、学習回数が所定基準を満たすことによって学習が完了すると、最適化されたパラメータが得られる。制御部１０は、各グループ別に生成した学習モデル１Ｍ、１Ｍ、１Ｍ…を記憶部１１に格納し、一連の処理を終了する。

本実施形態によれば、撮像画像から生成される複数のデータを組み合わせたユニットグループ値Ｘを含む訓練データセットを用いて学習モデル１Ｍが生成される。学習モデル１Ｍは、マスク画像となる対象物の抽出精度を高めた対象物抽出画像と、撮像画像とを含む入力データを用いることにより、１フレームの画像をそのまま使用する場合に比べて精度の高い推定処理が可能となる。

学習モデル１Ｍは、データの組み合わせ内容に応じて複数の学習モデル１Ｍが用意される。各学習モデル１Ｍは、個々に固定されたｎ及びｍの値に基づくユニットグループ値Ｘを含む訓練データにより学習することができ、検出精度を高めることが可能となる。

（第２実施形態）
第２実施形態では、撮像画像に応じた各種の情報に基づき、ｎ及びｍの値が決定される。以下では、第２実施形態について、第１実施形態と異なる点を説明する。後述する構成を除く他の構成については第１実施形態の学習モデル生成システム１００と同様であるので、共通する構成については同一の符号を付してその詳細な説明を省略する。第２実施形態における情報処理装置１は、制御ユニット２００から、移動体の速度及び撮像画像のフレームレート等を含む付加情報と、撮像装置３１により撮影された動画とを受信する。

第２実施形態におけるｎの値は、対象物抽出画像における対象物の検出精度に基づき決定される。検出精度は、例えばＬａｎｅＮｅｔから得られる出力精度、又は対象物抽出画像におけるパターンマッチングの相関値等により導出されてよい。検出精度は、例えば精度が高い順に高/中/低等の複数の段階に分別される。情報処理装置１は、予め検出精度の各段階とｎの値とを関連付けた不図示のテーブルを記憶している。対象物の検出精度が低い場合にはｎの値は大きくなるよう設定される。すなわち、対象物の検出精度が低い場合には、より多くの前後の対象物抽出画像を使用することで学習モデルの検出精度を向上させる。一方、対象物の検出精度が高い場合にはｎの値は小さくなるよう設定される。対象物の検出精度が高い場合には、少ない数の対象物抽出画像であっても学習モデルから高い検出精度が得られるからである。なお、検出精度の導出方法は上記の例に限定されるものでない。検出精度は、その他対象物抽出画像と該対象物抽出画像における対象物の検出精度とを学習した機械学習モデル等を用いて推定されてもよい。

第２実施形態におけるｍの値は、撮像画像の１フレームの移動距離に基づき決定される。１フレームの移動距離は、移動体２の速度を撮像画像のフレームレートで除算することで得られ、例えば大/中/小等の複数の段階に分別される。情報処理装置１は、予め移動距離とｍの値とを関連付けた不図示のテーブルを記憶している。移動距離が大きい程、ｍの値は大きくなるよう設定される。速度が速い程移動距離は大きくなるため、ｍの値を大きく、すなわちより多くのデータユニットを組み合わせるよう設定することで、学習モデル１Ｍの検出精度を向上させる。フレームレートが低い程移動距離は大きくなるため、ｍの値は大きくなるよう設定される。なお、移動距離が所定の閾値を超える場合には、連続するフレームが大きく異なる画像である虞があるため、ｍの値は小さく、例えば０に設定されるとよい。

図１１は、第２実施形態における学習モデル１Ｍの生成処理手順の一例を示すフローチャートである。以下の処理は、情報処理装置１の記憶部１１に記憶してあるプログラム１Ｐに従って制御部１０によって実行される。第１実施形態における図９と共通する処理については同一のステップ番号を付してその詳細な説明を省略する。

情報処理装置１の制御部１０は、制御ユニット２００から撮像画像及び付加情報を取得し（ステップＳ２１）、取得した撮像画像及び付加情報を一時的に記憶部１１に記憶する。撮像画像には、移動体２の走行路を示す白線が含まれる。付加情報は、例えば移動体２の速度の履歴データ及び撮像画像のフレームレート等が含まれる。付加情報には、時刻情報が対応付けられている。なお、速度データは、移動体２のスピードメータから取得してもよく、移動体２のＧＰＳ（Global Positioning System）データ等の位置情報に基づき取得してもよい。

制御部１０は、撮像画像から、グレースケール撮像画像を取得し（ステップＳ１２）、対象物である白線を抽出した２値の対象物抽出画像（白線抽出画像）を取得する（ステップＳ１３）。制御部１０は、取得したグレースケール撮像画像及び白線抽出画像に基づき、ユニットグループ値Ｘを取得する（ステップＳ１４）。図１２は、第２実施形態におけるユニットグループ値Ｘ取得の詳細な手順の一例を示すフローチャートである。図１２のフローチャートに示す処理手順は、図１１のフローチャートにおけるステップＳ１４の詳細に対応する。第１実施形態における図１０と共通する処理については同一のステップ番号を付してその詳細な説明を省略する。

制御部１０は、例えばＬａｎｅＮｅｔの検出精度を示すスコア等に基づき、時刻ｔにおける白線抽出画像に対応する対象物の検出精度を取得する（ステップＳ２４１）。ついで、制御部１０は、付加情報として取得した移動体２の速度及び撮像画像のフレームレートに基づき、時刻ｔにおける移動距離を取得する（ステップＳ２４２）。制御部１０は、不図示のテーブルを夫々参照して、取得した検出精度及び移動距離に基づき、時刻ｔデータユニットを生成するためのｎ及びｍの値を決定する（ステップＳ１４１）。

制御部１０は、特定したｎの値に基づき、時刻ｔにおけるグレースケール撮像画像と白線抽出画像（合計２ｎ＋１個）とで構成される時刻ｔデータユニットを生成する（ステップＳ１４２）。制御部１０は、生成した時刻ｔデータユニットの結合白線抽出画像データと、グレースケール撮像画像データとを組み合わせたデータユニット値を取得する（ステップＳ１４３）。

制御部１０は、特定したｍの値に基づき、時刻ｔ及び時刻ｔの前後ｍ個の時刻におけるデータユニット（合計２ｍ＋１個）で構成されるユニットグループを生成する（ステップＳ１４４）。制御部１０は、生成したユニットグループのデータユニット値を組み合わせたユニットグループ値Ｘを取得し（ステップＳ１４５）、図１１のフローチャートにおけるステップＳ１５へ処理を戻す。

図１１に戻り説明を続ける。制御部１０は、取得したユニットグループ値Ｘに、対象物に関する情報をラベル付けした訓練データセットを生成する（ステップＳ１５）。制御部１０は、ユニットグループ値Ｘに付随するｎ及びｍの値に基づき、図８に示したテーブルを参照して、ｎ及びｍの値の組み合わせにより特定されるグループＩＤを取得し、ユニットグループ値Ｘをグループに分別する（ステップＳ１６）。

制御部１０は、生成した訓練データセットを用いて、時刻ｔにおけるユニットグループ値Ｘを入力した場合に、時刻ｔにおける所在車線を出力する学習モデル１Ｍを生成する（ステップＳ１７）。制御部１０は、各グループ別に生成した学習モデル１Ｍを記憶部１１に格納し、一連の処理を終了する。

なお、上記の各実施形態ではｎ及びｍに基づきユニットグループ値Ｘがグループに分別される例を説明したが、グループ分別はｎ及びｍに基づくものに限定されるものではない。ユニットグループ値Ｘは、ｎ又はｍの一方、すなわち、例えば検出精度又は移動速度のいずれか一方に基づきグループに分別されてもよい。

本実施形態によれば、撮像画像に応じた検出精度及び移動距離に応じてユニットグループを構成するデータの組み合わせ内容が決定される。撮像画像に含まれる対象物の状態に応じた学習モデル１Ｍを生成することにより、より精度の高い推定処理が可能となる。

（第３実施形態）
第３実施形態では、学習モデルを用いて推定した対象物に関する情報を提供する。図１３は、第３実施形態における推定システム１１０の構成例を示すブロック図である。以下では、第３実施形態について、第１実施形態と異なる点を説明する。後述する構成を除く他の構成については第１実施形態の学習モデル生成システム１００と同様であるので、共通する構成については同一の符号を付してその詳細な説明を省略する。推定システム１１０は、移動体２の制御ユニット２００及び撮像装置３１を含む。

第３実施形態の制御ユニット２００は、記憶部２１に、プログラム２Ｐ、複数の学習モデル１Ｍを含む制御部２０が参照するプログラム及びデータを記憶する。記憶部２１に記憶されるプログラム２Ｐは、記録媒体にコンピュータ読み取り可能に記録されている態様であってもよい。記憶部２１は、図示しない読出装置によって記録媒体２Ａから読み出されたプログラム２Ｐを記憶する。また、図示しない通信網に接続されている図示しない外部コンピュータからプログラム２Ｐをダウンロードし、記憶部２１に記憶させたものであってもよい。制御部２０は、プログラム２Ｐを読み出して実行することにより、撮像画像に基づき対象物に関する情報を推定する情報処理装置として機能する。

第１通信部２２には、移動体内通信回線Ｎ２を介して表示装置３２が更に接続される。表示装置３２は、例えば液晶ディスプレイなどであり、制御ユニット２００から出力される情報を表示する。また表示装置３２は、タッチパネル等の操作部３３を有しており、操作部３３に対するユーザの操作を受け付けて、制御ユニット２００へ受け付けた操作内容を通知する。表示装置３２は、例えばカーナビゲーション装置と共用のものであってよい。

上記のように構成される推定システム１１０にて、学習モデル１Ｍを用いた推定処理が実行される。第３実施形態では、学習モデル１Ｍを用いて、移動体２の走行路を示す白線を含む撮像画像に応じた走行路上の位置の推定結果を出力する。移動体２が所在する走行路上の位置は、例えば移動体２の所在車線で示される。図１４は、推定処理方法を示す概念図である。図１４では、例えばＡ地点からＢ地点までの２地点間における所在車線の推定結果を出力する処理に関して説明する。

移動体２の制御ユニット２００は、初めに、撮像装置３１にて記録された２地点間の撮像画像を取得する。制御ユニット２００は、ユーザの入力を受け付ける等により、学習モデル１Ｍに対するｎ及びｍの値を決定する。制御ユニット２００は、図８に示したテーブルを参照し、決定された各時点におけるｎ及びｍの組み合わせに応じたグループＩＤを特定する。特定されたグループＩＤに応じて、撮像画像の各フレームがグループに分別される。

分別された撮像画像の各フレームは、各グループに応じたｎ及びｍの値に基づきフレームからユニットグループ値Ｘを生成する前処理が施された後、グループＩＤに対応する学習モデル１Ｍに入力される。各学習モデル１Ｍからは、各時点におけるフレームに対応する所在車線の推定結果が出力される。各時点における推定結果は、時系列に組み合わせられ、一連の推定結果データとして表示装置３２等を介して出力される。

図１５は、学習モデル１Ｍを用いた推定処理手順の一例を示すフローチャートである。以下の処理は、制御ユニット２００の記憶部２１に記憶してあるプログラム２Ｐに従って制御部２０によって実行される。処理の実行タイミングは、例えば撮像装置３１により新たな動画が記録されたタイミングである。

制御部２０は、撮像装置３１により撮影し記録された撮像画像を取得する（ステップＳ３１）。撮像画像は、例えばＡ地点からＢ地点までの２地点間における移動体２の外部を撮影した動画像であり、移動体２の走行路を示す白線が含まれる。撮像画像には、撮影時点に関する情報が付随している。

制御部２０は、撮像画像をグレースケールに変換し、グレースケール撮像画像を取得する（ステップＳ３２）。なお、制御部２０は、撮像装置３１からグレースケールで撮影された撮像画像を取得してもよい。制御部２０は、例えばＬａｎｅＮｅｔ等の機械学習モデルを用いて、撮像画像から対象物の抽出を行い、対象物抽出画像を取得する（ステップＳ３３）。第３実施形態では、抽出する対象物は白線であり、対象物抽出画像は２値の白線抽出画像である。制御部２０は、グレースケール撮像画像と白線抽出画像とを関連付けて記憶する。

制御部２０は、取得したグレースケール撮像画像及び白線抽出画像に基づき、ユニットグループ値Ｘを取得する（ステップＳ３４）。図１６は、第３実施形態におけるユニットグループ値Ｘ取得の詳細な手順の一例を示すフローチャートである。図１６のフローチャートに示す処理手順は、図１５のフローチャートにおけるステップＳ３４の詳細に対応する。

制御部２０は、操作部３３によりユーザの入力を受け付ける等によりユニットグループ値Ｘを生成するためのｎ及びｍの値を決定する（ステップＳ３４１）。ｎ及びｍは夫々、結合する白線抽出画像の枚数及び組み合わせるデータユニット値の個数を決定するための値である。

制御部２０は、決定したｎの値に基づき、時刻ｔにおけるグレースケール撮像画像と、時刻ｔ及び時刻ｔの前後ｎ個の時刻における白線抽出画像（合計２ｎ＋１個）とで構成される時刻ｔデータユニットを生成する（ステップＳ３４２）。制御部１０は、生成した時刻ｔデータユニットにおけるグレースケール撮像画像データと、各時刻の白線抽出画像に基づく結合白線抽出画像データとを組み合わせたデータユニット値を取得する（ステップＳ３４３）。

制御部１０は、決定したｍの値に基づき、時刻ｔ及び時刻ｔの前後ｍ個の時刻、すなわち時刻ｔ-mから時刻ｔ+mまでの各時刻におけるデータユニット（合計２ｍ＋１個）で構成されるユニットグループを生成する（ステップＳ３４４）。制御部１０は、生成したユニットグループの各時刻におけるデータユニット値を組み合わせたユニットグループ値Ｘを取得し（ステップＳ３４５）、図１５のフローチャートにおけるステップＳ３５へ処理を戻す。なおユニットグループ値Ｘは、ｎ及びｍの値を付随させて取得される。

図１５に戻り説明を続ける。制御部２０は、ユニットグループ値Ｘに付随するｎ及びｍの値に基づき、図８で説明したｎ及びｍの値とグループＩＤとを関連付けたテーブルを参照し、ｎ及びｍの値の組み合わせにより特定されるグループＩＤを取得する。制御部２０は、取得したグループＩＤに基づき、撮像画像の各フレームをグループに分別する（ステップＳ３５）。

制御部２０は、記憶する複数の学習モデル１Ｍから、取得したグループＩＤに対応する学習モデル１Ｍを選択する（ステップＳ３６）。制御部２０は、撮像画像に上述の前処理を施して得られたユニットグループ値Ｘを、選択した学習モデル１Ｍに入力情報として入力する（ステップＳ３７）。制御部２０は、学習モデル１Ｍから出力される対象物に関する情報を取得する（ステップＳ３８）。出力情報は、例えば各フレームに対応する所在車線である。制御部２０は、取得した各時点における推定結果を時系列に組み合わせた一連の推定結果データを生成する（ステップＳ３９）。制御部２０は、生成した推定結果データを撮像画像に関連付けて記憶部１１に記憶するとともに、表示装置３２等を介して推定結果データを出力し（ステップＳ４０）、一連の処理を終了する。

上記では、一連の動画像を取得した後に学習モデル１Ｍによる推定処理を実行する例を説明したが、推定処理を実行するタイミングは限定されるものではない。制御部２０は、撮像装置３１で撮影が開始されたタイミングで上述の処理を実行し、リアルタイムで取得した撮像画像に基づき推定結果データを出力してもよい。この場合においては、推定結果データは、一連のデータとして生成されるものでなく随時出力されてよい。

更に、制御部２０は、推定結果データに応じた情報を出力してもよい。例えば、所在車線の推定結果の推移により車両が走行車線から逸脱していると判定される場合には、制御部２０は、表示装置３２又は不図示のスピーカー等を介して画像、警報、音声、振動等による支援情報を出力するものであってよい。制御部２０は、移動体２の装備品に制御信号を出力するものであってもよい。

図１７は、表示装置３２で表示される画面例を示す図である。図１７は、推定結果データを含む推定結果画面３２０の一例を示す図である。推定結果画面３２０には、一の時刻における撮像画像３２１と、該撮像画像３２１に対応付けられた推定結果３２２及び推定情報３２３とが含まれる。

撮像画像３２１は、記録された動画像から切り出した１フレームの静止画像である。推定結果３２２は、学習モデル１Ｍにより出力された対象物に関する情報であり、例えば所在車線、車両台数、広告数等である。図１７の例では、推定結果３２２は所在車線であり、歩道に近い順に１、２、３等の車線番号を用いて示される。推定情報３２３は、撮像画像に基づく推定処理に関する情報である。図１７の例では、推定情報３２３には、撮像画像のファイル名、撮影時刻、推定に用いたｎ及びｍの値、推定確度の数値を夫々示すテキストデータが含まれている。なお、推定情報３２３は、テキストデータによるものに限定されず、イラスト、音声等によるものであってもよい。なお、推定確度は、確度に応じて、例えば数値の色、大きさ、点滅／点灯、表示状態を変化させて強調表示を行ってもよい。制御部２０は、撮像画像３２１に対応付けて同時点における推定結果３２２及び推定情報３２３を取得する。制御部２０は、取得した撮像画像３２１と、推定結果３２２及び推定情報３２３のテキストデータ等とを含む推定結果画面３２０の画面データを生成し、表示装置３２を介して出力する。ユーザは、表示装置３２により学習モデル１Ｍの推定結果を認識することができる。

上記では、学習モデル１Ｍは、制御ユニット２００にて処理に用いられるとして説明した。しかしながらこれに限らず、学習モデル１Ｍは、制御ユニット２００と通信可能に接続された他の情報処理装置に記憶されており、制御ユニット２００から得られる撮像画像に基づいて、他の情報処理装置にて推定結果を出力する処理に用いられてもよい。

また、学習モデル１Ｍは制御ユニット２００とは直接通信接続されていないサーバ等の解析装置にて用いられてもよい。解析装置は、制御ユニット２００と通信可能に接続された他の情報処理装置を介して、制御ユニット２００で録画された撮像画像を取得し、取得した撮像画像に基づき学習モデル１Ｍを用いて対象物に関する情報の解析処理を実行してもよい。さらに、解析処理により取得した新たなデータに等に基づき、学習モデル１Ｍは再学習を実行してもよい。解析装置は、新たな修正情報を用いて訓練データを更に作成し、当該訓練データを用いて学習モデル１Ｍの再学習を行う。再学習を行うことにより、学習モデル１Ｍの推定の精度を更に向上させることができる。

本実施形態によれば、撮像画像のフレーム毎に異なる学習モデル１Ｍを用いて推定処理が実行される。各フレームに応じた学習モデル１Ｍを使用することで、高い推定精度の出力情報を取得することができる。

（第４実施形態）
第４実施形態では、撮像画像に応じた検出精度及び移動速度を取得し、ｎ及びｍの値を決定する。以下では、第４実施形態について、第３実施形態と異なる点を説明する。後述する構成を除く他の構成については第３実施形態の推定システム１１０と同様であるので、共通する構成については同一の符号を付してその詳細な説明を省略する。

図１８は、第４実施形態における学習モデル１Ｍを用いた推定処理手順の一例を示すフローチャートである。以下の処理は、制御ユニット２００の記憶部２１に記憶してあるプログラム２Ｐに従って制御部２０によって実行される。第３実施形態の図１５と共通する処理については同一のステップ番号を付してその詳細な説明を省略する。

制御部２０は、撮像装置３１により撮影し記録された撮像画像及び付加情報を取得する（ステップＳ５１）。撮像画像には、移動体２の走行路を示す白線が含まれる。付加情報は、例えば移動体２の速度の履歴データ及び撮像画像のフレームレート等が含まれる。付加情報には、時点に関する情報が対応付けられている。

制御部２０は、撮像画像をグレースケールに変換し、グレースケール撮像画像を取得する（ステップＳ３２）。制御部２０は、例えばＬａｎｅＮｅｔ等の機械学習モデルを用いて、撮像画像から対象物の抽出を行い、対象物抽出画像を取得する（ステップＳ３３）。第４実施形態では、抽出する対象物は白線であり、対象物抽出画像は２値の白線抽出画像である。制御部２０は、グレースケール撮像画像と白線抽出画像とを関連付けて記憶する。

制御部２０は、取得したグレースケール撮像画像及び白線抽出画像に基づき、ユニットグループ値Ｘを取得する（ステップＳ３４）。図１９は、第４実施形態におけるユニットグループ値Ｘ取得の詳細な手順の一例を示すフローチャートである。図１９のフローチャートに示す処理手順は、図１８のフローチャートにおけるステップＳ３４の詳細に対応する。第３実施形態の図１６と共通する処理については同一のステップ番号を付してその詳細な説明を省略する。

制御部２０は、操作部３３によりユーザの入力を受け付ける等により、学習モデル１Ｍに対し要求する検出精度を取得する（ステップＳ４４１）。制御部２０は、その他機械学習モデル等を用いて判定した検出精度を取得してもよい。

制御部２０は、付加情報として取得した移動体２の速度及び撮像画像のフレームレートに基づき、時刻ｔにおける移動距離を取得する（ステップＳ４４２）。制御部２０は、不図示のテーブルを夫々参照して、検出精度及び移動距離に基づき、ユニットグループ値Ｘを生成するためのｎ及びｍの値を決定する（ステップＳ３４１）。

制御部１０は、決定したｍの値に基づき、時刻ｔ及び時刻ｔの前後ｍ個の時刻におけるデータユニット（合計２ｍ＋１個）で構成されるユニットグループを生成する（ステップＳ３４４）。制御部１０は、生成したユニットグループの各時刻におけるデータユニット値を組み合わせたユニットグループ値Ｘを取得し（ステップＳ３４５）、図１８のフローチャートにおけるステップＳ３５へ処理を戻す。

図１８に戻り説明を続ける。制御部２０は、ユニットグループ値Ｘに付随するｎ及びｍの値に基づき、図８で説明したｎ及びｍの値とグループＩＤとを関連付けたテーブルを参照し、ｎ及びｍの値の組み合わせにより特定されるグループＩＤを取得する。制御部２０は、取得したグループＩＤに基づき、撮像画像の各フレームをグループに分別する（ステップＳ３５）。

制御部２０は、記憶する複数の学習モデル１Ｍから、取得したグループＩＤに対応する学習モデル１Ｍを選択する（ステップＳ３６）。制御部２０は、撮像画像に上述の前処理を施して得られたユニットグループ値Ｘを、選択した学習モデル１Ｍに入力情報として入力する（ステップＳ３７）。制御部２０は、学習モデル１Ｍから出力される対象物に関する情報を取得する（ステップＳ３８）。制御部２０は、取得した各時点における推定結果を時系列に組み合わせた一連の推定結果データを生成する（ステップＳ３９）。制御部２０は、生成した推定結果データを撮像画像に関連付けて記憶部１１に記憶するとともに、表示装置３２等を介して推定結果データを出力し（ステップＳ４０）、一連の処理を終了する。

本実施形態によれば、要求する検出精度及び移動距離に応じて、撮像画像のフレーム毎に異なる学習モデル１Ｍを用いて推定処理が実行される。撮像画像の状態に応じて用いる学習モデル１Ｍが選択されるため、より高い推定精度の出力情報を取得することができる。

なお、上述の各実施形態で説明した各処理シーケンスは限定されるものではなく、その性質に反しない限り、手順の変更を許容し得る。上述の処理シーケンスに対して、例えば各処理ステップの実行順序を変更してもよく、複数の処理ステップを同時に実行させてもよく、一連の処理シーケンスを実行する毎に、各処理ステップの順序が異なるようにしてもよい。

なお、上述のように開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。各実施例にて記載されている技術的特徴は互いに組み合わせることができ、本発明の範囲は、特許請求の範囲内での全ての変更及び特許請求の範囲と均等の範囲が含まれることが意図される。

１情報処理装置
２移動体
２００制御ユニット
３１撮像装置
３２表示装置
１０，２０制御部
１１，２１記憶部
１Ｐ，２Ｐプログラム
１Ｍ学習モデル

Claims

移動体に載置される撮像装置により撮像された対象物を含む撮像画像を取得し、
前記対象物を抽出した複数の対象物抽出画像を前記撮像画像に関連付けて取得し、
取得した撮像画像及び複数の対象物抽出画像と対象物に関する情報とを含む訓練データに基づき、撮像画像及び複数の対象物抽出画像を入力した場合に対象物に関する情報を出力する学習モデルを生成する
学習モデルの生成方法。
前記撮像画像及び該撮像画像と時系列で隣接する撮像画像それぞれから前記対象物を抽出した複数の２値化画像を取得する
請求項１に記載の学習モデルの生成方法。
移動体の走行路を示す白線を含む撮像画像を取得し、
前記白線を抽出した複数の白線抽出画像を前記撮像画像に関連付けて取得し、
取得した撮像画像及び複数の白線抽出画像と、前記移動体が所在する走行路における位置とを含む訓練データに基づき、移動体の走行路を示す白線を含む撮像画像及び前記白線を抽出した複数の白線抽出画像を入力した場合に、移動体が所在する走行路における位置を出力する前記学習モデルを生成する
請求項１又は請求項２に記載の学習モデルの生成方法。
第１時刻における撮像画像と、前記第１時刻及び該第１時刻の前後複数の時刻における複数の対象物抽出画像とを取得し、
取得した第１時刻及び該第１時刻の前後複数の時刻における複数の対象物抽出画像並びに前記第１時刻における撮像画像と、対象物に関する情報とを含む訓練データに基づき、前記学習モデルを生成する
請求項１から請求項３のいずれか１項に記載の学習モデルの生成方法。
前記第１時刻における対象物抽出画像に含まれる対象物の検出精度に基づき、前記対象物抽出画像の数を決定する
請求項４に記載の学習モデルの生成方法。
前記第１時刻における撮像画像と、前記第１時刻及び該第１時刻の前後複数の時刻における複数の対象物抽出画像とで構成されるデータユニットを含む、前記第１時刻及び該第１時刻の前後複数の時刻における複数のデータユニットにおける撮像画像及び複数の対象物抽出画像を取得し、
取得した複数のデータユニットにおける撮像画像及び複数の対象物抽出画像と対象物に関する情報とを含む訓練データに基づき、複数のデータユニットにおける撮像画像及び複数の対象物抽出画像を入力した場合に対象物に関する情報を出力する前記学習モデルを生成する
請求項４又は請求項５に記載の学習モデルの生成方法。
前記第１時刻における前記移動体の移動速度及び前記撮像画像のフレームレートに基づき前記データユニットの数を決定する
請求項６に記載の学習モデルの生成方法。
移動体に載置される撮像装置により撮像された対象物を含む撮像画像を取得し、
前記対象物を抽出した複数の対象物抽出画像を前記撮像画像に関連付けて取得し、
撮像画像及び複数の対象物抽出画像と対象物に関する情報とを含む訓練データに基づき、撮像画像及び複数の対象物抽出画像を入力した場合に対象物に関する情報を出力するよう学習された学習モデルに、取得した撮像画像及び複数の対象物抽出画像を入力して、前記対象物に関する情報を出力する
処理をコンピュータに実行させるためのプログラム。
前記撮像画像及び該撮像画像と時系列で隣接する撮像画像それぞれから前記対象物を抽出した複数の２値化画像を取得する
処理をコンピュータに実行させるための請求項８に記載のプログラム。
移動体の走行路を示す白線を含む撮像画像を取得し、
前記白線を抽出した複数の白線抽出画像を前記撮像画像に関連付けて取得し、
撮像画像及び複数の白線抽出画像と、前記移動体が所在する走行路における位置とを含む訓練データに基づき、移動体の走行路を示す白線を含む撮像画像及び前記白線を抽出した複数の白線抽出画像を入力した場合に、移動体が所在する走行路における位置を出力するよう学習された前記学習モデルに、取得した移動体の走行路を示す白線を含む撮像画像及び前記白線を抽出した複数の白線抽出画像を入力して、前記移動体が所在する走行路における位置を出力する
処理をコンピュータに実行させるための請求項８又は請求項９に記載のプログラム。
前記学習モデルは、第１時刻及び該第１時刻の前後複数の時刻における複数の対象物抽出画像並びに前記第１時刻における撮像画像と、対象物に関する情報とを含む訓練データに基づき学習されている
請求項８から請求項１０のいずれか１項に記載のプログラム。
第１時刻における対象物抽出画像に含まれる対象物の検出精度を取得し、
検出精度に応じて用意された複数種類の前記学習モデルから、取得した検出精度に対応する学習モデルを選択する
処理をコンピュータに実行させるための請求項１１に記載のプログラム。
前記第１時刻における撮像画像と、前記第１時刻及び該第１時刻の前後複数の時刻における複数の対象物抽出画像とで構成されるデータユニットを含む、前記第１時刻及び該第１時刻の前後複数の時刻における複数のデータユニットにおける撮像画像及び複数の対象物抽出画像を取得し、
複数のデータユニットにおける撮像画像及び複数の対象物抽出画像と対象物に関する情報とを含む訓練データに基づき、複数のデータユニットにおける撮像画像及び複数の対象物抽出画像を入力した場合に対象物に関する情報を出力するよう学習された前記学習モデルに、取得した複数のデータユニットにおける撮像画像及び複数の対象物抽出画像を入力して、前記対象物に関する情報を出力する
処理をコンピュータに実行させるための請求項１１又は請求項１２のいずれか１項に記載のプログラム。
前記第１時刻における前記移動体の移動速度及び前記撮像画像のフレームレートを取得し、
移動速度及びフレームレートに応じて用意された複数種類の前記学習モデルから、取得した移動速度及びフレームレートに対応する学習モデルを選択する
処理をコンピュータに実行させるための請求項１３に記載のプログラム。
移動体に載置される撮像装置により撮像された対象物を含む撮像画像を取得する第１取得部と、
前記対象物を抽出した複数の対象物抽出画像を前記撮像画像に関連付けて取得する第２取得部と、
前記第１取得部が取得した撮像画像及び前記第２取得部が取得した複数の対象物抽出画像と、対象物に関する情報とを含む訓練データに基づき、撮像画像及び複数の対象物抽出画像を入力した場合に対象物に関する情報を出力する学習モデルを生成する生成部と
を備える情報処理装置。
移動体に載置される撮像装置により撮像された対象物を含む撮像画像を取得する第１取得部と、
前記対象物を抽出した複数の対象物抽出画像を前記撮像画像に関連付けて取得する第２取得部と、
撮像画像及び複数の対象物抽出画像と対象物に関する情報とを含む訓練データに基づき、撮像画像及び複数の対象物抽出画像を入力した場合に対象物に関する情報を出力するよう学習された学習モデルと、
前記学習モデルに、前記第１取得部が取得した撮像画像及び前記第２取得部が取得した複数の対象物抽出画像を入力して、前記対象物に関する情報を出力する出力部と
を備える情報処理装置。