JP2019008519A

JP2019008519A - 移動体検出方法、移動体学習方法、移動体検出装置、移動体学習装置、移動体検出システム、および、プログラム

Info

Publication number: JP2019008519A
Application number: JP2017123137A
Authority: JP
Inventors: 谷川　徹; Toru Tanigawa; 徹谷川; 幸恵庄田; Yukie Shoda; 征矢芋本; Seiya Imomoto
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2017-06-23
Filing date: 2017-06-23
Publication date: 2019-01-17
Also published as: EP3418947A1; US20180373943A1; CN109117706A

Abstract

【課題】車両の走行の障害になり得る移動体を、より高い精度で検出する。【解決手段】少なくとも１つのコンピュータによって、対象車両の走行の障害になり得る移動体である対象移動体を検出する移動体検出方法は、対象車両に搭載されたカメラによる撮影によって生成される撮影画像を取得し（Ｓ３０１）、移動体が撮影された画像における当該移動体と、当該移動体の種別を示す種別情報と、歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報とを認識する認識モデルに前記撮影画像を入力データとして入力することで出力される、前記撮影画像における移動体の種別情報及び位置情報を取得することで、前記撮影画像における前記対象移動体を検出する（Ｓ３０２）。【選択図】図１６

Description

本発明は、移動体検出方法、移動体学習方法、移動体検出装置、移動体学習装置、移動体検出システム、および、プログラムに関する。

自動車の運転支援技術、及び、自動運転技術が開発されつつある。これらの技術では、車載カメラにより車両の周囲を撮影し、車両の周囲にある物体を認識し、車両の走行の障害になり得る移動体を検出する技術が必要とされる。

特許文献１は、歩行者などの移動体の速度変化を誘発する事象、及び、移動体の速度変化を検出する。そして、速度変化が検出された移動体が、車両の走行の障害になり得る移動体として検出される。

特許第４９６７０１５号公報

しかしながら、特許文献１に開示される技術により速度変化が検出された移動体が、必ずしも車両の走行の障害になるとは限らない。つまり、特許文献１に開示される技術では、車両の走行の障害になり得る移動体の検出精度が低いという問題がある。

そこで、本発明は、車両の走行の障害になり得る移動体を、より高い精度で検出し得る移動体検出方法を提供する。

本発明の一態様に係る移動体検出方法は、少なくとも１つのコンピュータによって、対象車両の走行の障害になり得る移動体である対象移動体を検出する移動体検出方法であって、前記対象車両に搭載されたカメラによる撮影によって生成される撮影画像を取得し、移動体が撮影された画像における当該移動体と、当該移動体の種別を示す種別情報と、歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報とを認識する認識モデルに前記撮影画像を入力データとして入力することで出力される、前記撮影画像における移動体の種別情報及び位置情報を取得することで、前記撮影画像における前記対象移動体を検出する。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

本発明の移動体検出方法は、車両の走行の障害になり得る移動体を、より高い精度で検出することができる。

図１は、実施の形態１における移動体検出システムの構成を示す図である。図２は、実施の形態１におけるサーバの機能構成を示すブロック図である。図３は、実施の形態１における画像格納部に格納される画像の一例を示す説明図である。図４は、実施の形態１における訓練データを示す説明図である。図５は、実施の形態１におけるアノテーション付与部が付与するアノテーションを示す説明図である。図６は、実施の形態１における移動体の学習の概念を示す説明図である。図７は、実施の形態１における車両の機能構成を示すブロック図である。図８は、実施の形態１におけるサーバの処理を示すフロー図である。図９は、実施の形態１における車載機器の処理を示すフロー図である。図１０は、実施の形態２における移動体検出システムの検出対象を示す説明図である。図１１は、実施の形態２におけるアノテーション付与部が付与するアノテーションを示す説明図である。図１２は、実施の形態２におけるサーバの処理を示すフロー図である。図１３は、実施の形態２における車載機器の処理を示すフロー図である。図１４は、各実施の形態の変形例に係る移動体学習方法を示すフロー図である。図１５は、各実施の形態の変形例に係る移動体学習装置を示すブロック図である。図１６は、各実施の形態の変形例に係る移動体検出方法を示すフロー図である。図１７は、各実施の形態の変形例に係る移動体検出装置を示すブロック図である。図１８は、各実施の形態の変形例に係る移動体検出方法を示すフロー図である。図１９は、各実施の形態の変形例に係る移動体検出システムを示すブロック図である。

上記態様によれば、認識モデルに基づいて、撮像画像における対象移動体が検出される。この認識モデルは、移動体が示された画像における当該移動体と、当該移動体の種別及び位置とを認識することができるものであるので、この認識モデルに撮影画像を入力することで、撮影画像における対象移動体がより高精度に検出され得る。このように、この移動体検出方法によれば、車両の走行の障害になり得る対象移動体を、より高い精度で検出できる。

例えば、前記認識モデルは、移動体が撮影された画像に対して、（ａ）当該画像における当該移動体の座標と、（ｂ）当該移動体の種別を示す種別情報と、（ｃ）歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報と、を含む情報であるアノテーションが付与された訓練データを取得し、前記訓練データを用いて、前記画像における当該移動体の種別情報及び位置情報を学習することによって構築されたものであってもよい。

上記態様によれば、アノテーションを付与された訓練データを用いて構築された認識モデル、つまり、移動体が示された画像における当該移動体の種別及び位置の学習が行われることによって構築された認識モデルが用いられる。つまり、画像に示されている移動体の種別及び位置が認識モデルに教え込まれている。例えば、画像に示されている移動体の形状若しくは色彩等の特徴、又は、移動体の背景の画像等に基づいて、移動体の種別及び位置が学習されたものである。従って、認識モデルに撮影画像を入力することで、入力された撮影画像における移動体の種別及び位置が適切に検出され、対象移動体のより高精度の検出に貢献し得る。

例えば、前記対象移動体を検出する際には、前記撮影画像における前記移動体が人であることを示す前記種別情報と、前記移動体が車道に存在していることを示す前記位置情報とを取得することで、前記撮影画像における前記対象移動体を検出してもよい。

上記態様によれば、車両の走行の障害になり得る対象移動体として、より具体的に、撮影画像において車道に位置している人が検出される。

例えば、前記対象移動体を検出する際には、前記撮影画像における前記移動体が自動車、自動二輪車又は自転車であることを示す前記種別情報と、前記移動体が歩道に存在していることを示す前記位置情報とを取得することで、前記撮影画像における前記対象移動体を検出してもよい。

上記態様によれば、車両の走行の障害になり得る対象移動体として、より具体的に、撮影画像において歩道に位置している自動車、自動二輪車又は自転車が検出される。

例えば、前記撮影画像を取得する際には、時系列で連続して撮影された撮影された複数の前記撮影画像を取得し、前記訓練データを取得する際には、さらに（ｄ）当該移動体の識別情報を含む前記アノテーションが付与された前記訓練データを取得し、前記認識モデルは、前記訓練データを用いて、当該移動体が車両の走行の障害になる所定時間前に当該移動体が行う所定動作である事前動作をさらに学習することによって構築され、前記移動体を検出する際には、前記認識モデルに複数の前記撮影画像を入力データとして入力することで出力される、複数の前記撮影画像における当該移動体の前記事前動作の有無を示す動作情報をさらに取得することで、複数の前記撮影画像における前記対象移動体を検出してもよい。

上記態様によれば、移動体の事前動作をさらに用いて学習することで構築された認識モデルに基づいて、撮影画像における対象移動体が検出される。この認識モデルは、移動体の識別情報がさらに付与されているので、複数の画像に亘る移動体の動作に基づいて事前動作の学習が行われることによって構築されたものとなる。つまり、画像に示されている移動体の種別及び位置に加えて、移動体の事前動作が認識モデルに教え込まれている。例えば、複数の画像に亘って示されている移動体の事前動作（より具体的には、人の首振り動作、歩行又は走行の減速又は一旦停止、又は、自動車のランプの点滅など）、及び、移動体の移動（より具体的には、歩道にいる人が車道に近づく移動、他の走行レーンから車両の走行レーンへの自動車の移動など）が教え込まれている。従って、認識モデルに撮影画像を入力することで、入力された撮影画像における移動体の種別、位置及び事前動作の有無が適切に検出され、対象移動体のより高精度の検出に貢献し得る。

例えば、前記対象移動体を検出する際には、前記撮影画像における前記移動体が人であることを示す前記種別情報と、前記移動体が歩道に存在していることを示す前記位置情報と、前記移動体が歩道から車道に移る前記所定時間前に行う前記事前動作をしていることを示す前記動作情報とを取得することで、前記撮影画像における前記対象移動体を検出してもよい。

上記態様によれば、車両の走行の障害になり得る対象移動体として、より具体的に、撮影画像において歩道から車道に移動しようとする人が検出される。

例えば、前記対象移動体を検出する際には、前記撮影画像における前記移動体が自動車又は自動二輪車であることを示す前記種別情報と、前記移動体が車道に存在していることを示す前記位置情報と、前記移動体が前記対象車両の前方で前記対象車両の走行レーンに侵入する前記所定時間前に行う前記事前動作をしていることを示す前記動作情報とを取得することで、前記撮影画像における前記対象移動体を検出してもよい。

上記態様によれば、車両の走行の障害になり得る対象移動体として、より具体的に、撮影画像において対象車両の走行レーンに侵入しようとする自動車等が検出される。

例えば、前記認識モデルは、ニューラルネットワークモデルであってもよい。

上記態様によれば、認識モデルとしてニューラルネットワークモデルを用いて、より具体的に、車両の走行の障害になり得る移動体をより高い精度で検出できる。

例えば、前記アノテーションが示す移動体の種別を示す情報は、人、自動車、自動二輪車、又は、自転車のいずれかを示す情報であってもよい。

上記態様によれば、アノテーションが示す移動体の種別を示す情報として、人、自動車、自動二輪車、又は、自転車のいずれかを示す情報を用いて、より具体的に、車両の走行の障害になり得る対象移動体をより高い精度で検出できる。

また、本実施の形態に係る移動体学習方法は、少なくとも１つのコンピュータによって、対象車両の走行の障害になり得る移動体である対象移動体を検出するための移動体学習方法であって、移動体が撮影された画像に対して、（ａ）当該画像における当該移動体の座標と、（ｂ）当該移動体の種別を示す種別情報と、（ｃ）歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報と、を含む情報であるアノテーションが付与された訓練データを取得し、前記訓練データを用いて、前記画像における当該移動体の種別情報及び位置情報を学習することによって、認識モデルを構築する。

上記態様によれば、アノテーションを付与された訓練データを用いて、移動体が示された画像における当該移動体の種別及び位置の学習が行われることによって認識モデルが構築される。つまり、画像に示されている移動体の種別及び位置が教え込まれた認識モデルが構築される。よって、この認識モデルを用いることで、車両の走行の障害になり得る対象移動体を、より高い精度で検出することができる。

例えば、前記訓練データを取得する際には、移動体が撮影された複数の前記画像それぞれに対して、（ａ）前記座標と、（ｂ）前記種別情報と、（ｃ）前記位置情報と、（ｄ）当該移動体を一意に識別し得る識別情報とを含む前記アノテーションが付与された前記訓練データを取得し、前記認識モデルを構築する際には、前記訓練データを用いて、当該移動体が車両の走行の障害になる所定時間前に当該移動体が行う事前動作をさらに学習することによって、前記認識モデルを構築してもよい。

上記態様によれば、移動体の事前動作をさらに用いて学習することで認識モデルが構築される。この認識モデルは、移動体の識別情報がさらに付与されているので、複数の画像に亘る移動体の動作に基づいて事前動作の学習が行われることによって構築される。よって、この認識モデルを用いることで、車両の走行の障害になり得る対象移動体を、より高い精度で検出することができる。

例えば、前記訓練データに含まれる複数の前記画像のうち、走行レーンを横切る人が撮影された画像は、事前動作をしている移動体を含むことを示す事前動作情報をさらに含むアノテーションが付与されたものであってもよい。

上記態様によれば、移動体の種別、位置及び事前動作の学習の際に、走行レーンを横切る人を含む画像に事前動作情報を含むアノテーションが付された訓練データを用いた学習を行うことで認識モデルを構築する。これにより、車道に出ようとする人物の挙動を認識することにより、車道への飛び出しを事前に予測することが可能になる。

例えば、前記訓練データに含まれる前記アノテーションに含まれる前記位置情報は、歩道及び車道を含む位置のうち当該移動体が存在している２以上の位置を示してもよい。

上記態様によれば、アノテーションが示す移動体の位置として複数の位置を用いることで、複数の位置に跨って存在する移動体の位置情報をより高精度に学習することができる。

例えば、前記移動体の座標は、前記画像における前記移動体を背景を含んで取り囲む領域を示す座標を含んでもよい。

上記態様によれば、アノテーションが示す移動体の位置として移動体と背景を取り囲む領域が用いられ、背景を含む移動体の画像に基づいて移動体の位置が学習される。移動体の背景には、移動体の位置を示す情報が含まれているので、背景を含む移動体の画像に基づいて移動体の位置を学習することで、移動体の位置情報をより高精度に学習することができる。

また、本実施の形態に係る移動体検出装置は、少なくとも１つのコンピュータによって、対象車両の走行の障害になり得る移動体である対象移動体を検出する移動体検出装置であって、前記対象車両に搭載されたカメラによる撮影によって生成される撮影画像を取得する撮影画像取得部と、移動体が撮影された画像における当該移動体と、当該移動体の種別を示す種別情報と、歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報とを認識する認識モデルに前記撮影画像を入力データとして入力することで出力される、前記撮影画像における当該移動体の種別情報及び位置情報を取得することで、前記撮影画像における前記対象移動体を検出する検出部とを備える。

上記態様によれば、上記移動体検出方法と同様の効果を奏する。

また、本実施の形態に係る移動体学習装置は、少なくとも１つのコンピュータが車両の走行の障害になり得る移動体である対象移動体を学習する移動体学習装置であって、移動体が撮影された画像に対して、（ａ）当該画像における当該移動体の座標と、（ｂ）当該移動体の種別を示す種別情報と、（ｃ）歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報と、を含む情報であるアノテーションが付与された訓練データを取得する訓練データ取得部と、前記訓練データを用いて、前記画像における当該移動体の種別情報及び位置情報を学習することによって、認識モデルを構築する学習部とを備える。

上記態様によれば、上記移動体学習方法と同様の効果を奏する。

また、本実施の形態に係る移動体検出システムは、少なくとも１つのコンピュータによって、対象車両の走行の障害になり得る移動体である対象移動体を検出する移動体検出システムであって、移動体が撮影された画像に対して、（ａ）当該画像における当該移動体の座標と、（ｂ）当該移動体の種別を示す種別情報と、（ｃ）歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報と、を含む情報であるアノテーションが付与された訓練データを取得する訓練データ取得部と、前記訓練データを用いて、前記画像における当該移動体の種別情報及び位置情報を学習することによって、認識モデルを構築する学習部と、前記対象車両に搭載されたカメラによる撮影によって生成される撮影画像を取得する撮影画像取得部と、車両の走行の障害になり得る移動体と、当該移動体の種別を示す種別情報と、歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報とを認識する認識モデルに前記撮影画像を入力データとして入力することで出力される、前記撮影画像における当該移動体の種別情報及び位置情報を取得することで、前記撮影画像における前記移動体を検出する検出部とを備える。

上記態様によれば、上記移動体検出システムと同様の効果を奏する。

また、本実施の形態に係るプログラムは、コンピュータが車両の走行の障害になり得る移動体を学習するためのプログラムであって、移動体が撮影された画像に対して、（ａ）当該画像における当該移動体の座標と、（ｂ）当該移動体の種別を示す種別情報と、（ｃ）歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報と、を含む情報であるアノテーションが付与された訓練データを取得し、前記訓練データを用いて、前記画像における当該移動体の種別情報及び位置情報を学習することによって、認識モデルを構築することを前記コンピュータに実行させるプログラムである。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。

以下、実施の形態について、図面を参照しながら具体的に説明する。

なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

（実施の形態１）
実施の形態１において、車両の走行の障害になり得る移動体を、より高い精度で検出できる移動体検出装置、及び、移動体検出システムなどについて説明する。

図１は、本実施の形態における移動体検出システムの構成を示すブロック図である。

本実施の形態における移動体検出システム１０は、少なくとも１つのコンピュータからなるシステムであって、対象車両である車両１１の周囲に存在する移動体のうち、車両１１の走行の障害になり得る移動体（対象移動体ともいう）を検出する。具体的には、移動体検出システム１０は、車両１１に備えられている車載機器と、その車載機器にインターネットなどの通信網１３を介して接続されるサーバ１２とを備える。なお、移動体検出システム１０が、車両１１の周囲として、車両１１の進行方向である前方に存在する対象移動体を検出する技術を例として説明するが、車両１１の後方又は左右方向に本技術を採用することも可能である。

車両１１の車載機器は、カメラを備え、そのカメラによる撮影によって画像を生成する。そして、車載機器は、その画像に移動体が映し出されている場合に、映し出されている移動体のうちの対象移動体を検出する。移動体は、例えば、人、自動車、自動二輪車、又は、自転車などである。車載機器は、認識モデルを用いた認識に基づいて対象移動体を検出する。認識に用いる認識モデルは、サーバ１２から通信網１３を介して取得される。

サーバ１２は、表示装置１４および入力デバイス１５に有線通信または無線通信によって接続されている。表示装置１４は、液晶ディスプレイまたは有機ＥＬ（ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイを有し、サーバ１２からの制御に応じた画像を表示する。入力デバイス１５は、例えばキーボードおよびマウスなどを備え、ユーザによる入力操作に応じた操作信号をサーバ１２に出力する。

また、サーバ１２は、例えば、複数の端末装置（不図示）から通信網１３を介して送信される画像を取得して保存する。具体的には、端末装置は、例えば車両１１、又は、車両１１以外の車両に備えられたカメラによる撮像によって得られた画像をサーバ１２に通信網１３を介して送信する。そして、サーバ１２は、このように送信された画像を訓練用画像として用いて、訓練用画像における移動体の種別と位置とを学習することによって、認識モデルを構築する。そして、サーバ１２は、その構築された認識モデルを通信網１３を介して車両１１に送信する。

図２は、本実施の形態におけるサーバ１２の機能構成を示すブロック図である。

図２に示されるように、サーバ１２は、訓練データ取得部１２０と、学習部１２７と、モデル格納部１２８と、制御部１２９とを備える。

訓練データ取得部１２０は、対象移動体の検出の学習に用いられる訓練データを取得する。具体的には、訓練データ取得部１２０は、移動体が示された画像に対して、当該移動体の座標、種別及び位置を示すアノテーションを付与することによって訓練データを取得する。

訓練データ取得部１２０は、画像格納部１２１と、アノテーション付与部１２２と、訓練データ格納部１２３とを備える。

画像格納部１２１は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）またはハードディスクなどのデータを記録するための記録媒体である。画像格納部１２１には、例えばカメラによる撮像によって生成された複数の画像が複数の訓練用画像として格納される。

アノテーション付与部１２２は、訓練用画像に対してアノテーションを付与する。アノテーションは、移動体の座標と、種別情報と、位置情報とを含む。移動体の座標は、訓練用画像における移動体の座標（Ｘ，Ｙ）であり、例えば画像の左上隅を（０，０）とし、右方向をＸ軸正方向とし、下方向をＹ軸正方向とする座標系に対する座標である。種別情報は、移動体の種別を示す情報であり、具体的には、人、自動車、自動二輪車、又は、自転車などのいずれかを示す情報である。位置情報は、歩道及び車道を含む複数の位置のうち移動体が存在している位置を示す情報である。車道の場合、さらに、路側帯、自車両走行レーン（言い換えれば車両１１が走行する走行レーン）、対向車両走行レーン（言い換えれば車両１１の対向車両が走行する走行レーン）、横断歩道、車道内にある駐車場（言い換えればパーキングメータが併設された駐車場）に細分化され得る。アノテーション付与部１２２は、入力デバイス１５から制御部１２９を介して操作信号を取得し、その操作信号に応じて、アノテーションを訓練用画像に付与する。

なお、アノテーション付与部１２２は、訓練用画像へのアノテーションの付与を、画像解析技術等に基づいて自動的に行ってもよく、ユーザからの操作に応じて行ってもよい。つまり、アノテーション付与部１２２は、訓練用画像を解析することによって自動的に訓練用画像における移動体の座標と種別と位置とを決定してもよい。また、アノテーション付与部１２２は、表示装置１４により訓練用画像を表示し、訓練用画像を視認したユーザにより入力デバイス１５に入力された操作信号を取得することで、移動体の座標と種別と位置とを決定してもよい。なお、以降では、アノテーション付与部１２２が、訓練用画像を視認したユーザによる操作信号の入力に基づいてアノテーションを付与する場合を例として説明する。

なお、アノテーション付与部１２２は、歩道及び車道を含む位置のうち移動体が存在している２以上の位置を示す位置情報を含むアノテーションを訓練用画像に付してもよい。言い換えれば、訓練データに含まれるアノテーションに含まれる位置情報は、歩道及び車道を含む位置のうち当該移動体が存在している２以上の位置を示す位置情報であってもよい。このようにすることで、複数の位置に跨って存在する移動体の位置情報を適切に表現することができ、後述する学習部１２７による学習の精度を向上することができる。

訓練データ格納部１２３は、ＲＡＭまたはハードディスクなどのデータを記録するための記録媒体である。訓練データ格納部１２３には、アノテーションが付与された訓練用画像が訓練データとして格納される。

学習部１２７は、訓練データを用いて移動体の種別及び位置を学習する。すなわち、学習部１２７は、訓練データ格納部１２３に格納されている訓練データを用いて、訓練用画像における移動体の種別及び位置を学習することによって、認識モデルを構築する。学習部１２７は、構築した認識モデルをモデル格納部１２８に格納する。

学習部１２７による学習は、ＤｅｅｐＬｅａｒｎｉｎｇ（ＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＲａｎｄｏｍＦｏｒｅｓｔ、またはＧｅｎｅｔｉｃＰｒｏｇｒａｍｍｉｎｇなどの機械学習である。また、画像中の物体の認識およびセグメンテーションには、グラフカットなどを用いることができる。あるいは、ＲａｎｄｏｍＦｏｒｅｓｔまたはＧｅｎｅｔｉｃＰｒｏｇｒａｍｍｉｎｇによって作成された認識器などを用いてもよい。また、学習部１２７が構築する認識モデルは、ニューラルネットワークモデルであってもよい。

学習部１２７が構築する認識モデルは、移動体が撮影された画像における移動体と、当該移動体の種別を示す種別情報と、歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報とを認識する認識モデルである。認識モデルは、より具体的には、例えば、移動体が撮影された画像に対して、（ａ）当該画像における当該移動体の座標と、（ｂ）当該移動体の種別を示す種別情報と、（ｃ）歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報と、を含む情報であるアノテーションが付与された訓練データを取得し、取得した訓練データを用いて、車両１１の走行の障害になり得る移動体の種別情報及び位置情報を学習することによって構築されたものである。

モデル格納部１２８は、ＲＡＭまたはハードディスクなどのデータを記録するための記録媒体である。このモデル格納部１２８には、学習部１２７によって構築された認識モデルが格納される。モデル格納部１２８に格納された認識モデルは、制御部１２９を介して車載機器１１０に提供される。

制御部１２９は、入力デバイス１５からの操作信号を取得し、その操作信号に応じて訓練データ取得部１２０、学習部１２７および表示装置１４を制御する。また、モデル格納部１２８に格納されている認識モデルを車載機器１１０に提供する。

次に、訓練データ取得部１２０が訓練用画像を取得してから、訓練用画像にアノテーションを付与することで訓練データを生成し、訓練データ格納部１２３に格納する処理について詳しく説明する。

図３は、本実施の形態における画像格納部１２１に格納される画像の一例を示す説明図である。図４は、本実施の形態における訓練データを示す説明図である。図５は、本実施の形態におけるアノテーション付与部１２２が付与するアノテーションを示す説明図である。

図３に示される画像は、移動体が撮影された画像（訓練用画像）の一例である。この画像は、予め車両１１に搭載されたカメラによって過去に実際に撮影された画像であってもよいし、一般のカメラによって撮影された画像であってもよいし、コンピュータを用いた描画により生成された画像、いわゆるＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）であってもよい。なお、車両１１に搭載されるカメラは、画角を広げるために魚眼レンズを採用することもある。魚眼レンズを採用するカメラが取得した画像は、当該画像内の一部が歪曲していることもあるが、歪曲した画像であっても同様の説明が成立する。

図３に示される画像には、移動体としての人２１、２２、２３及び２４、並びに、自動車２５が撮影されている。移動体のうち、車道に位置している人２２、及び、歩道に位置している自動車２５は、車両１１の進路の妨害になり得る、つまり、車両１１の走行の障害になり得る対象移動体であると考えられる。一方、人２１、２３及び２４は、歩道に位置しており、車両１１の走行の障害になる蓋然性が比較的低いと考えられる。

図３に示される訓練用画像は、アノテーション付与部１２２に提供される。そして、アノテーション付与部１２２は、訓練用画像に対してアノテーションを付与する。

図３に示される訓練用画像に対するアノテーションの付与について図４を参照しながら説明する。

アノテーション付与部１２２は、制御部１２９を通じて図３に示される画像を表示装置１４に表示し、ユーザに視認させる。

ユーザは、図３に示される画像を視認して、画像に示されている移動体として、人２１、２２、２３及び２４、並びに、自動車２５を認識する。また、歩道３１及び車道３２を認識する。

ユーザは、認識した移動体それぞれについて、当該移動体を囲む枠を設定する。ユーザは、例えば移動体である人２１に対して枠４１を入力デバイス１５を介して設定する。ユーザは、同様に、その他の移動体である人２２、２３及び２４、並びに、自動車２５について、それぞれ、枠４２、４３、４４、及び、４５を設定する。なお、枠４１等の形状は特に限定されないが、矩形、又は、多角形とすれば、比較的少ない情報量で枠４１の位置及び形状を規定できる利点がある。例えば、矩形の枠であれば、矩形の左上の頂点と右下の頂点との２つの座標（二次元座標）により規定され、多角形の枠であれば複数の頂点それぞれの座標により規定され得る。ユーザが枠を設定すると、アノテーション付与部１２２は、ユーザが設定した枠に対応する座標を、画像における移動体の座標として取得する。

また、ユーザは、認識した移動体それぞれについて、当該移動体の種別と、当該移動体が存在している位置とを入力デバイス１５を介して設定する。例えば、移動体である人２１は、歩道にいる人であるので、移動体の種別を「人」と設定し、位置を「歩道」と設定する。また、移動体である人２２については、移動体の種別を「人」と設定し、位置を「車道」と設定する。移動体である人２３及び２４、並びに、自動車２５についても同様に設定する。

アノテーション付与部１２２は、移動体それぞれの種別及び位置についてのユーザによる設定を制御部１２９を通じて受け取る。アノテーション付与部１２２が受け取る移動体それぞれの座標、種別及び位置を図５を参照しながら説明する。

図５は、移動体それぞれについての、訓練用画像における当該移動体の座標、当該移動体の種別、及び、当該移動体の位置を示している。例えば、移動体である人２１については、座標が、枠の左上頂点の座標（ｘ１１，ｙ１１）及び右下頂点の座標（ｘ１２，ｙ１２）であり、種別が「人」であり、位置が「歩道」であることが示されている。

次に、学習部１２７の学習処理について概念的に説明する。

図６は、本実施の形態における移動体の学習の概念を示す説明図である。図６の（ａ）は、図５の人２１を取り囲む枠４１を拡大して示すものであり、図６の（ｂ）は、図５の人２２を取り囲む枠４２を拡大して示すものである。

学習部１２７は、訓練データ、つまり、訓練用画像と、移動体の座標と、種別と、位置とから、訓練用画像における移動体の種別と位置とをＤｅｅｐＬｅａｒｎｉｎｇなどの機械学習により学習する。以下で機械学習による学習の方法の一例を示すが、学習の方法には、さまざまなものが検討されており、他の方法を採用することも可能である。

例えば、学習部１２７は、訓練用画像における移動体を取り囲む枠内の画像と、移動体の種別とにより、移動体の種別を学習する。このとき、例えば、訓練用画像に含まれる移動体の画像の特徴が用いられ得る。また、学習部１２７は、訓練用画像における移動体を取り囲む枠内の画像と、移動体の位置とにより移動体の位置を学習する。ここで、移動体の位置は、歩道及び車道を含む複数の位置のいずれかである。なお、車道は、路側帯、自車両走行レーン、対向車両走行レーン、横断歩道、車道内にある駐車場に細分化され得る。移動体の位置の学習には、例えば、訓練用画像に含まれる、移動体の背景の画像の特徴が用いられ得る。ここで、車道に存在する移動体の背景の画像には、車道又は歩道の地面（例えば、アスファルト舗装、コンクリート舗装、舗装上に設けられる白線塗料、砂利など）の模様、及び、空（青空、雲など）の模様が含まれることが比較的多いこと、及び、歩道に存在する移動体の背景の画像には、道路の周辺の建造物及び施設の模様が含まれることが比較的多いという特徴が用いられ得る。

次に、移動体検出を行う車載機器１１０、及び、車載機器１１０を搭載した車両１１について説明する。

なお、移動体を取り囲む枠は、訓練用画像における移動体を、背景を含んで取り囲むように設定されてもよい。言い換えれば、移動体の座標は、訓練用画像における移動体を背景を含んで取り囲む領域を示す座標を含むように設定されてもよい。移動体の背景には、移動体の位置を示す情報が含まれているので、背景を含む移動体の画像に基づいて移動体の位置を学習することで、移動体の位置情報をより高精度に学習することができる。

図７は、車両１１の機能構成を示すブロック図である。

車両１１は、車載機器１１０と、車両駆動機構１１５とを備える。

車載機器１１０は、カメラ１１１と、認識器１１２と、提示装置１１３と、車両制御装置１１４とを備える。

カメラ１１１は、車両１１の周囲を撮影するように車両１１に搭載されている。具体的には、カメラ１１１は、車両１１の前方を撮影できる位置及び向きで車両１１に搭載されている。カメラ１１１は、車両１１の前方を撮影したときには、その撮影によって生成される画像である撮影画像を認識器１１２に出力する。

認識器１１２は、サーバ１２から通信網１３を介して認識モデルを取得して保持している。ここで、認識器１１２が取得する認識モデルは、移動体が撮影された画像における移動体と、当該移動体の種別を示す種別情報と、歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報とを認識する認識モデルである。また、認識器１１２は、車両１１に搭載されたカメラ１１１による車両１１の前方の撮影によって生成される画像である撮影画像を取得する。そして、認識器１１２は、その撮影画像を入力データとして認識モデルに入力することによって、撮影画像における移動体を検出する。具体的には、認識器１１２は、撮影画像における移動体の種別情報及び位置情報を取得することで、撮影画像における対象移動体を検出する。

より具体的には、認識器１１２は、撮影画像における移動体の種別情報及び位置情報を取得し、取得した種別情報及び位置情報が、当該移動体が対象移動体である場合に満たす予め定められた条件を満たすか否かを判定する。そして、その判定結果に基づいて、撮影画像における移動体を対象移動体として検出する。

例えば、認識器１１２は、撮影画像における対象移動体を検出する際には、移動体が人であることを示す種別情報と、移動体が車道に存在していることを示す位置情報とを取得することで、撮影画像における対象移動体を検出する。

また、例えば、認識器１１２は、撮影画像における対象移動体を検出する際には、移動体が自動車、自動二輪車又は自転車であることを示す種別情報と、移動体が歩道に存在していることを示す位置情報とを取得することで、撮影画像における対象移動体を検出する。

なお、車道は、路側帯、自車両走行レーン、対向車両走行レーン、横断歩道、車道内にある駐車場に細分化され得る。例えば、認識器１１２は、自車両走行レーンに存在する人を対象移動体として検出する一方、対向車両走行レーンに存在する人を対象移動体として検出しないことにしてもよい。自車両走行レーンに存在する人の方が、車両１１の走行の障害になる蓋然性が比較的高いからである。

さらに、認識器１１２は、その特定された移動体を示す出力データを提示装置１１３と車両制御装置１１４とに出力する。出力データは、例えば、撮影画像に対して、その特定された移動体を指し示す図形（枠、矢印など）が重畳された画像である提示画像を含む。

提示装置１１３は、情報を提示する提示装置であり、例えば、液晶ディスプレイ若しくは有機ＥＬディスプレイ等の表示装置、又は、スピーカ等の音出力装置を含む。ここでは、提示装置１１３が表示装置である場合を例として説明する。

提示装置１１３は、認識器１１２から出力データを取得すると、その出力データを画像として表示する。具体的には、提示装置１１３は、撮影画像に対して、その特定された対象移動体を指し示す図形が重畳された提示画像を表示する。これにより、カメラ１１１によって撮影された撮影画像における、検出された対象移動体の位置が、提示画像によって車両１１の運転者に提示される。

車両制御装置１１４は、車両１１の駆動、特に、車両１１の加速及び減速を制御する制御装置である。車両制御装置１１４は、認識器１１２から出力データを取得すると、その出力データに基づいて、車両制御装置１１４は、例えば車両１１を減速させる制御を行う。車両１１の駆動の制御は、車両駆動機構１１５によりなされる。

車両駆動機構１１５は、車両１１の駆動を制御する制御装置である。車両駆動機構１１５は、車両制御装置１１４からの制御の下で、車両１１の駆動、具体的には、加減速及び操舵などの制御を行う。

以上のように構成された移動体検知システムが実行する処理について説明する。

図８は、本実施の形態におけるサーバ１２が行う移動体学習方法に係る処理を示すフロー図である。

ステップＳ１２１において、サーバ１２のアノテーション付与部１２２は、画像格納部１２１から訓練用画像を取得する。

ステップＳ１２２において、アノテーション付与部１２２は、ステップＳ１２１で取得した訓練用画像に移動体が示されているかを、操作信号または画像処理に基づいて判定する。アノテーション付与部１２２は、移動体が示されていると判定した場合（ステップＳ１２２でＹｅｓ）、ステップＳ１２３に進み、そうでない場合（ステップＳ１２２でＮｏ）、ステップＳ１２５に進む。

ステップＳ１２３において、アノテーション付与部１２２は、ステップＳ１２１で取得した訓練用画像に対してアノテーションを付与する。アノテーションは、訓練用画像における移動体の座標と、種別情報と、位置情報とを含む。

ステップＳ１２４において、アノテーション付与部１２２は、アノテーションを付与した訓練用画像を、訓練データとして訓練データ格納部１２３に格納する。

ステップＳ１２５において、訓練データ取得部１２０は、移動体が示されているか否かについての判定が行われていない訓練用画像、すなわち未処理の訓練用画像が画像格納部１２１にあるか否かを判定する。未処理の訓練用画像があると判定した場合（ステップＳ１２５でＹｅｓ）、未処理の訓練用画像に対してステップＳ１２１からの処理を実行する。一方、未処理の訓練用画像がないと判定した場合（ステップＳ１２５でＮｏ）、ステップＳ１２６に進む。

ステップＳ１２６において、学習部１２７は、訓練データ格納部１２３に格納されている訓練データを用いて訓練画像における移動体の種別と位置とを学習する。これにより、学習部１２７は、移動体の種別と位置との認識モデルを構築し、その認識モデルをモデル格納部１２８に格納する。

図９は、本実施の形態における車載機器１１０が行う移動体検出方法に係る処理を示すフローチャートである。

ステップＳ１１１において、車載機器１１０のカメラ１１１は、撮影によって撮影画像を生成する。

ステップＳ１１２において、認識器１１２は、ステップＳ１１１でカメラ１１１が生成した撮影画像を入力データとして認識モデルに入力する。

ステップＳ１１３において、認識器１１２は、ステップＳ１１２で撮影画像を認識モデルに入力したことにより出力される情報を得る。認識モデルから出力される情報は、ステップＳ１１２で認識モデルに入力された撮影画像における移動体の種別情報と位置情報とを含む。認識器１１２は、認識モデルから出力される情報を得ることで、撮影画像における対象移動体を検出する。

ステップＳ１１４において、車載機器１１０は、ステップＳ１１３で得た、撮影画像における移動体の種別情報と位置情報とに基づいて対象移動体に関する情報の提示、又は、車両１１の制御を行う。移動体に関する情報の提示は、提示装置１１３により行われる。すなわち、提示装置１１３は、例えば、対象移動体の種別情報と位置情報とを示す画像データを生成し、生成した画像データに基づいて画像を提示する。なお、提示装置１１３は、種別情報と位置情報とをユーザに知らせるための音声データを生成し、生成した音声データに基づいて音声を出力してもよい。

また、車両１１の制御は、車両制御装置１１４により行われる。すなわち、車両制御装置１１４は、例えば、対象移動体との衝突を回避すべく、車両１１を減速させる制御を行う。

このようにすることで、移動体検出システム１０では、サーバ１２による機械学習により生成した移動体の種別及び位置に関する認識モデルを用いて、車載機器１１０により車両１１の前方にある、車両１１の走行の障害になり得る対象移動体をより高い精度で検出することができる。

以上のように、本実施の形態の移動体検出方法によれば、認識モデルに基づいて、撮像画像における対象移動体が検出される。この認識モデルは、移動体が示された画像における当該移動体と、当該移動体の種別及び位置とを認識することができるものであるので、この認識モデルに撮影画像を入力することで、撮影画像における対象移動体がより高精度に検出され得る。このように、この移動体検出方法によれば、車両の走行の障害になり得る対象移動体を、より高い精度で検出できる。

また、アノテーションを付与された訓練データを用いて構築された認識モデル、つまり、移動体が示された画像における当該移動体の種別及び位置の学習が行われることによって構築された認識モデルが用いられる。つまり、画像に示されている移動体の種別及び位置が認識モデルに教え込まれている。例えば、画像に示されている移動体の形状若しくは色彩等の特徴、又は、移動体の背景の画像等に基づいて、移動体の種別及び位置が学習されたものである。従って、認識モデルに撮影画像を入力することで、入力された撮影画像における移動体の種別及び位置が適切に検出され、対象移動体のより高精度の検出に貢献し得る。

また、車両の走行の障害になり得る対象移動体として、より具体的に、撮影画像において車道に位置している人が検出される。

また、車両の走行の障害になり得る対象移動体として、より具体的に、撮影画像において歩道に位置している自動車、自動二輪車又は自転車が検出される。

また、認識モデルとしてニューラルネットワークモデルを用いて、より具体的に、車両の走行の障害になり得る移動体をより高い精度で検出できる。

また、アノテーションが示す移動体の種別を示す情報として、人、自動車、自動二輪車、又は、自転車のいずれかを示す情報を用いて、より具体的に、車両の走行の障害になり得る対象移動体をより高い精度で検出できる。

また、アノテーションを付与された訓練データを用いて、移動体が示された画像における当該移動体の種別及び位置の学習が行われることによって認識モデルが構築される。つまり、画像に示されている移動体の種別及び位置が教え込まれた認識モデルが構築される。よって、この認識モデルを用いることで、車両の走行の障害になり得る対象移動体を、より高い精度で検出することができる。

また、アノテーションが示す移動体の位置として複数の位置を用いることで、複数の位置に跨って存在する移動体の位置情報をより高精度に学習することができる。

また、アノテーションが示す移動体の位置として移動体と背景を取り囲む領域が用いられ、背景を含む移動体の画像に基づいて移動体の位置が学習される。移動体の背景には、移動体の位置を示す情報が含まれているので、背景を含む移動体の画像に基づいて移動体の位置を学習することで、移動体の位置情報をより高精度に学習することができる。

（実施の形態２）
実施の形態２において、車両の走行の障害になり得る移動体を、より高い精度で検出できる移動体検出装置、及び、移動体検出システムなどにおいて、移動体の位置をより詳細に識別し、詳細に識別した位置に基づいて移動体を検出し得る移動体検出装置などについて説明する。

まず、本実施の形態の移動体検出装置が検出し得る検出対象について図１０を参照しながら説明する。

図１０は、本実施の形態における移動体検出システムの検出対象を示す説明図である。

図１０には、車両１１から見た人２１が示されている。人２１は、当初歩道に存在しており、その後、歩道から車道に移動する人の一例である。図１０において、人を指す矢印に付した「Ｔ０」、「Ｔ２０」などの符号は、時刻を示している。ここで、時刻は、Ｔ０、Ｔ１、Ｔ２、Ｔ３・・・というように進行するものとし、図１０には、そのうちのいくつかの時刻における人２１を示されている。

図１０に示されるように、人２１は、時刻Ｔ５０より過去の時点では歩道に位置しており、時刻Ｔ５０に歩道から車道に移り、その後、車道を横切って歩行したとする。

人は、一般に、歩道から車道に移るときに左右確認のための首振り動作、歩行又は走行の減速又は一旦停止などの動作（以降、事前動作ともいう）を行う。そこで、移動体検出システムは、人が歩道から車道に移る直前の所定時間の動作を学習することで、事前動作を検出し得る学習データを生成する。そして、本実施の形態の移動体検出システムは、車両１１の走行中に撮影する画像において、事前動作をしている移動体を検出し、運転者への提示又は車両１１の制御を行う。

本実施の形態の移動体検出システムは、実施の形態１における移動体検出システム１０と、概ね同様の構成を有するが、サーバ１２におけるアノテーション付与部１２２及び学習部１２７の処理が異なる。また、車載機器１１０における認識器１１２の処理が異なる。以降において、実施の形態１における移動体検出システム１０と異なる部分について説明する。

本実施の形態では、訓練用画像は、時系列で連続して撮影された、移動体が撮影された複数の撮影画像を含む。画像格納部１２１は、時系列で連続して撮影された、移動体が撮影された複数の撮影画像を取得する。

本実施の形態のアノテーション付与部１２２が訓練用画像に付与するアノテーションは、移動体に固有の識別情報を含む。すなわち、本実施の形態のアノテーション付与部１２２が付与するアノテーションは、移動体の座標と、種別情報と、位置情報とに加えて、識別情報を含む。そして、アノテーション付与部１２２がアノテーションを付与した訓練画像が訓練データとして訓練データ格納部１２３に格納される。

識別情報とは、一の移動体（例えば、人２１）を、他の移動体から識別し得る識別子である。識別情報がアノテーションとして訓練用画像に付与されることで、時系列で連続して撮影された複数の撮影画像に亘って同一の移動体が特定され得る。

また、アノテーション付与部１２２は、訓練データ格納部１２３に格納された訓練データに基づいて、歩道から車道に移る移動体を含む画像について、移動体が歩道から車道に移る時刻の直前の所定時間内の画像に事前動作情報を付与する。ここで、事前動作情報は、当該移動体が事前動作をしていることを示す情報である。

なお、アノテーション付与部１２２が事前動作情報を付与する画像は、車両１１が走行している走行レーンを横切る人のみを含むもの、言い換えれば、走行レーンを横切らない人を含まないものであってもよい。すなわち、訓練データに含まれる複数の画像のうち、走行レーンを横切る人が撮影された画像は、事前動作情報をさらに含むアノテーションが付与されたものであってもよい。これにより、移動体検出システム１０は、車道に出ようとする人物の挙動を認識することにより、車道への飛び出しを事前に予測することが可能になる。

本実施の形態の学習部１２７は、訓練データを用いて移動体の種別、位置、及び、事前動作の有無を学習する。すなわち、学習部１２７は、訓練データ格納部１２３に格納されている訓練データを用いて、訓練用画像における移動体の種別、位置及び事前動作を学習することによって、認識モデルを構築する。ここで、訓練データには、識別情報を含むアノテーションがアノテーション付与部１２２により付与されているので、複数の訓練データに亘って同一の移動体が特定され、当該移動体の移動及び動作を認識し得る。これにより、当該移動体が歩道から車道に移る時刻を学習し、その時刻の直前の所定時間内の移動体の動作を事前動作として学習し得る。

本実施の形態の認識器１１２は、カメラ１１１による車両の前方の撮影によって撮影画像を取得し、撮影画像を入力データとして認識モデルに入力することによって、撮影画像における移動体を検出する。認識器１１２が用いる認識モデルは、学習部１２７による学習によって生成されたものであり、移動体の事前動作の有無を認識し得る認識モデルである。よって、認識器１１２は、撮影画像における移動体の種別情報、位置情報、及び動作情報を取得することで、撮影画像における移動体の種別及び位置、並びに、移動体が事前動作をしているか否かに基づいて、対象移動体を検出する。

なお、対象移動体を検出する際には、移動体が人であることを示す種別情報と、移動体が歩道に存在していることを示す位置情報と、移動体が歩道から車道に移る所定時間前に行う事前動作をしていることを示す動作情報とを取得することで、撮影画像における対象移動体を検出してもよい。

また、対象移動体を検出する際には、移動体が自動車又は自動二輪車であることを示す種別情報と、移動体が車道に存在していることを示す位置情報と、移動体が対象車両の前方で対象車両の走行レーンに侵入する所定時間前に行う事前動作をしていることを示す動作情報とを取得することで、撮影画像における対象移動体を検出してもよい。

図１１は、本実施の形態におけるアノテーション付与部１２２が訓練用画像に付与するアノテーションを示す説明図である。

アノテーション付与部１２２は、移動体それぞれの識別子、種別、画像における座標、及び位置についてのユーザによる入力を制御部１２９を通じて受け取る。アノテーション付与部１２２が受け取った移動体それぞれの識別子、種別、画像における座標、及び位置を図１１を参照しながら説明する。なお、移動体である人２１の識別子が、その符号と同じ「２１」であるとして説明する。

図１１は、移動体それぞれについての識別子、種別、画像における座標、及び位置を示している。例えば、時刻Ｔ４９において、移動体の識別子は「２１」であり、種別が「人」であり、位置が「車道」であることが示されている。座標については、図５と同様に、画像における左上の頂点の座標と右上の頂点の座標とで指定される（図面上は省略）。

また、時刻Ｔ５０において、移動体の識別子は「２１」であり、種別が「人」であり、位置が「車道」であることが示されている。

また、アノテーション付与部１２２は、歩道から車道に移る移動体を含む画像について、移動体が歩道から車道に移る時刻の直前の所定時間内の画像に事前動作情報を付与する。ここでは、事前動作をしている移動体を含む画像に事前動作「有」との情報を付与し、そうでない画像に事前動作「無」との情報を付与する例を示している。具体的には、時刻Ｔ４７から時刻Ｔ４９までの時間内の各画像に事前動作「有」との情報が付される。ここで、移動体が歩道から車道に移る時刻の直前の所定時間は、時刻Ｔ４７から時刻Ｔ４９までの時間に相当している。

学習部１２７は、このようなアノテーションが付与された訓練データを訓練データ格納部１２３から読み取る。そして、識別子を用いて複数の撮影画像に亘って一の移動体としての人２１を特定し、その移動及び動作を取得することで、移動体の事前動作を学習する。なお、学習部１２７は、実施の形態１の学習部１２７と同様、移動体の種別及び位置も学習する。このようにして、学習部１２７は、認識モデルを構築し、モデル格納部１２８に格納する。

図１２は、本実施の形態におけるサーバ１２の処理を示すフロー図である。

図１２のフロー図において、ステップＳ１２３ＡとＳ１２６Ａが実施の形態１のサーバ１２の処理（図８参照）におけるステップＳ１２３及びＳ１２６と異なる。それ以外の点では、実施の形態１のサーバ１２の処理と同様である。

ステップＳ１２３Ａにおいて、アノテーション付与部１２２は、ステップＳ１２３と同様に、ステップＳ１２１で取得した訓練用画像に対してアノテーションを付与して訓練データ格納部１２３に一旦格納する。また、アノテーション付与部１２２は、さらに、訓練データ格納部１２３に格納された訓練データに基づいて、歩道から車道に移る移動体を含む画像について、移動体が歩道から車道に移る時刻の直前の所定時間内の画像に事前動作情報を付与する。

ステップＳ１２６Ａにおいて、学習部１２７Ａは、訓練データ格納部１２３に格納されている訓練データを用いて移動体の種別、位置及び事前動作を学習する。これにより、学習部１２７Ａは、移動体の種別、位置及び事前動作の認識モデルを構築し、その認識モデルをモデル格納部１２８に格納する。

図１３は、本実施の形態における車載機器１１０の処理を示すフロー図である。

図１３のフロー図において、ステップＳ１１３Ａが実施の形態１の車載機器１１０の処理（図９参照）におけるステップＳ１１３と異なる。それ以外の点では、実施の形態１の車載機器１１０の処理と同様である。

ステップＳ１１３Ａにおいて、認識器１１２は、ステップＳ１１２で撮影画像を認識モデルに入力したことにより出力される情報を得る。認識モデルから出力される情報は、ステップＳ１１２で認識モデルに入力された撮影画像における移動体の種別情報と位置情報と事前動作の有無とを含む。認識器１１２は、認識モデルから出力される情報を得ることで、撮影画像における対象移動体を検出する。

以上のように、本実施の形態の移動体検出方法によれば、移動体の事前動作をさらに用いて学習することで構築された認識モデルに基づいて、撮影画像における対象移動体が検出される。この認識モデルは、移動体の識別情報がさらに付与されているので、複数の画像に亘る移動体の動作に基づいて事前動作の学習が行われることによって構築されたものとなる。つまり、画像に示されている移動体の種別及び位置に加えて、移動体の事前動作が認識モデルに教え込まれている。例えば、複数の画像に亘って示されている移動体の事前動作（より具体的には、人の首振り動作、歩行又は走行の減速又は一旦停止、又は、自動車のランプの点滅など）、及び、移動体の移動（より具体的には、歩道にいる人が車道に近づく移動、他の走行レーンから車両の走行レーンへの自動車の移動など）が教え込まれている。従って、認識モデルに撮影画像を入力することで、入力された撮影画像における移動体の種別、位置及び事前動作の有無が適切に検出され、対象移動体のより高精度の検出に貢献し得る。

また、車両の走行の障害になり得る対象移動体として、より具体的に、撮影画像において歩道から車道に移動しようとする人が検出される。

また、車両の走行の障害になり得る対象移動体として、より具体的に、撮影画像において対象車両の走行レーンに侵入しようとする自動車等が検出される。

また、本実施の形態の移動体検出方法によれば、移動体の事前動作をさらに用いて学習することで認識モデルが構築される。この認識モデルは、移動体の識別情報がさらに付与されているので、複数の画像に亘る移動体の動作に基づいて事前動作の学習が行われることによって構築される。よって、この認識モデルを用いることで、車両の走行の障害になり得る対象移動体を、より高い精度で検出することができる。

また、移動体の種別、位置及び事前動作の学習の際に、走行レーンを横切る人を含む画像に事前動作情報を含むアノテーションが付された訓練データを用いた学習を行うことで認識モデルを構築する。これにより、車道に出ようとする人物の挙動を認識することにより、車道への飛び出しを事前に予測することが可能になる。

（各実施の形態の変形例）
上記各実施の形態の移動体検出システム等の一部又は全部は、以下のようにも記載され得るが、以下の記載に限定されない。

図１４は、各実施の形態の変形例に係る移動体学習方法を示すフロー図である。

図１４に示されるように、各実施の形態の変形例に係る移動体学習方法は、少なくとも１つのコンピュータによって対象車両の走行の障害になり得る対象移動体を検出するための移動体学習方法であって、移動体が撮影された画像に対して、（ａ）当該画像における当該移動体の座標と、（ｂ）当該移動体の種別を示す種別情報と、（ｃ）歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報と、を含む情報であるアノテーションが付与された訓練データを取得し（ステップＳ２０１）、訓練データを用いて、前記画像における当該移動体の種別情報及び位置情報を学習することによって、認識モデルを構築する（ステップＳ２０２）移動体学習方法である。

図１５は、各実施の形態の変形例に係る移動体学習装置２００を示すブロック図である。

図１５に示されるように、各実施の形態の変形例に係る移動体学習装置２００は、少なくとも１つのコンピュータが車両の走行の障害になり得る対象移動体を学習する移動体学習装置２００であって、移動体が撮影された画像に対して、（ａ）当該画像における当該移動体の座標と、（ｂ）当該移動体の種別を示す種別情報と、（ｃ）歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報と、を含む情報であるアノテーションが付与された訓練データを取得する訓練データ取得部２０１と、訓練データを用いて、前記画像における当該移動体の種別情報及び位置情報を学習することによって、認識モデルを構築する学習部２０２とを備える移動体学習装置２００である。

図１６は、各実施の形態の変形例に係る移動体検出方法を示すフロー図である。

図１６に示されるように、各実施の形態の変形例に係る移動体検出方法は、少なくとも１つのコンピュータによって、対象車両の走行の障害になり得る対象移動体を検出する移動体検出方法であって、対象車両に搭載されたカメラによる、対象車両の前方の撮影によって生成される撮影画像を取得し（ステップＳ３０１）、移動体が撮影された画像における、当該移動体と、当該移動体の種別を示す種別情報と、歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報とを認識する認識モデルに撮影画像を入力データとして入力することで出力される、撮影画像における移動体の種別情報及び位置情報を取得することで、撮影画像における対象移動体を検出する（ステップＳ３０２）移動体検出方法である。

図１７は、各実施の形態の変形例に係る移動体検出装置３００を示すブロック図である。

図１７に示されるように、各実施の形態の変形例に係る移動体検出装置３００は、少なくとも１つのコンピュータによって、対象車両の走行の障害になり得る対象移動体を検出する移動体検出装置３００であって、対象車両に搭載されたカメラによる、対象車両の前方の撮影によって生成される撮影画像を取得する撮影画像取得部３０１と、移動体が撮影された画像における当該移動体と、当該移動体の種別を示す種別情報と、歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報と認識する認識モデルに撮影画像を入力データとして入力することで出力される、撮影画像における当該移動体の種別情報及び位置情報を取得することで、撮影画像における移動体を検出する検出部３０２とを備える移動体検出装置３００である。

図１８は、各実施の形態の変形例に係る移動体検出方法を示すフロー図である。

図１８に示されるように、各実施の形態の変形例に係る移動体検出方法は、少なくとも１つのコンピュータによって車両の走行の障害になり得る対象移動体を検出する移動体検出方法であって、移動体が撮影された画像に対して、（ａ）当該画像における当該移動体の座標と、（ｂ）当該移動体の種別を示す種別情報と、（ｃ）歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報と、を含む情報であるアノテーションが付与された訓練データを取得し（ステップＳ２０１）、訓練データを用いて、前記画像における当該移動体の種別情報及び位置情報を学習することによって、認識モデルを構築し（ステップＳ２０２）、対象車両に搭載されたカメラによる、対象車両の前方の撮影によって生成される撮影画像を取得し（ステップＳ３０１）、車両の走行の障害になり得る移動体と、当該移動体の種別を示す種別情報と、歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報とを認識する認識モデルに撮影画像を入力データとして入力することで出力される、撮影画像における当該移動体の種別情報及び位置情報を取得することで、撮影画像における移動体を検出する（ステップＳ３０２）移動体検出方法である。

図１９は、各実施の形態の変形例に係る移動体検出システムを示すブロック図である。

図１９に示されるように、各実施の形態の変形例に係る移動体検出システムは、少なくとも１つのコンピュータによって、対象車両の走行の障害になり得る移動体を検出する移動体検出システムであって、移動体が撮影された画像に対して、（ａ）当該画像における当該移動体の座標と、（ｂ）当該移動体の種別を示す種別情報と、（ｃ）歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報と、を含む情報であるアノテーションが付与された訓練データを取得する訓練データ取得部２０１と、訓練データを用いて、前記画像における当該移動体の種別情報及び位置情報を学習することによって、認識モデルを構築する学習部２０２と、対象車両に搭載されたカメラによる、対象車両の前方の撮影によって生成される撮影画像を取得する撮影画像取得部３０１と、車両の走行の障害になり得る移動体と、当該移動体の種別を示す種別情報と、歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報とを認識する認識モデルに撮影画像を入力データとして入力することで出力される、撮影画像における当該移動体の種別情報及び位置情報を取得することで、撮影画像における移動体を検出する検出部３０２とを備える移動体検出システムである。

なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の移動体学習装置及び移動体検出装置などを実現するソフトウェアは、次のようなプログラムである。

すなわち、このプログラムは、コンピュータに、少なくとも１つのコンピュータによって、対象車両の走行の障害になり得る移動体である対象移動体を検出する移動体検出方法であって、前記対象車両に搭載されたカメラによる撮影によって生成される撮影画像を取得し、移動体が撮影された画像における当該移動体と、当該移動体の種別を示す種別情報と、歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報とを認識する認識モデルに前記撮影画像を入力データとして入力することで出力される、前記撮影画像における移動体の種別情報及び位置情報を取得することで、前記撮影画像における前記対象移動体を検出する移動体検出方法を実行させる。

また、このプログラムは、コンピュータに、少なくとも１つのコンピュータによって、対象車両の走行の障害になり得る移動体である対象移動体を検出するための移動体学習方法であって、移動体が撮影された画像に対して、（ａ）当該画像における当該移動体の座標と、（ｂ）当該移動体の種別を示す種別情報と、（ｃ）歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報と、を含む情報であるアノテーションが付与された訓練データを取得し、前記訓練データを用いて、前記画像における当該移動体の種別情報及び位置情報を学習することによって、認識モデルを構築する移動体学習方法を実行させる。

以上、一つまたは複数の態様に係る移動体検出方法などについて、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

本発明は、車両の走行の障害になり得る移動体を、より高い精度で検出し得る移動体検出方法に利用可能である。より具体的には、自動運転車両に搭載される制御装置等に利用可能である。

１０、４００移動体検出システム
１１車両
１２サーバ
１３通信網
１４表示装置
１５入力デバイス
２１、２２、２３、２４人
２５自動車
３１歩道
３２車道
４１、４２、４３、４４、４５枠
１１０車載機器
１１１カメラ
１１２認識器
１１３提示装置
１１４車両制御装置
１１５車両駆動機構
１２０、２０１訓練データ取得部
１２１画像格納部
１２２アノテーション付与部
１２３訓練データ格納部
１２７、１２７Ａ、２０２学習部
１２８モデル格納部
１２９制御部
２００移動体学習装置
３００移動体検出装置
３０１撮影画像取得部
３０２検出部

Claims

少なくとも１つのコンピュータによって、対象車両の走行の障害になり得る移動体である対象移動体を検出する移動体検出方法であって、
前記対象車両に搭載されたカメラによる撮影によって生成される撮影画像を取得し、
移動体が撮影された画像における当該移動体と、当該移動体の種別を示す種別情報と、歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報とを認識する認識モデルに前記撮影画像を入力データとして入力することで出力される、前記撮影画像における移動体の種別情報及び位置情報を取得することで、前記撮影画像における前記対象移動体を検出する
移動体検出方法。
前記認識モデルは、
移動体が撮影された画像に対して、（ａ）当該画像における当該移動体の座標と、（ｂ）当該移動体の種別を示す種別情報と、（ｃ）歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報と、を含む情報であるアノテーションが付与された訓練データを取得し、
前記訓練データを用いて、前記画像における当該移動体の種別情報及び位置情報を学習することによって構築されたものである
請求項１に記載の移動体検出方法。
前記対象移動体を検出する際には、前記撮影画像における前記移動体が人であることを示す前記種別情報と、前記移動体が車道に存在していることを示す前記位置情報とを取得することで、前記撮影画像における前記対象移動体を検出する
請求項１又は２に記載の移動体検出方法。
前記対象移動体を検出する際には、前記撮影画像における前記移動体が自動車、自動二輪車又は自転車であることを示す前記種別情報と、前記移動体が歩道に存在していることを示す前記位置情報とを取得することで、前記撮影画像における前記対象移動体を検出する
請求項１又は２に記載の移動体検出方法。
前記撮影画像を取得する際には、
時系列で連続して撮影された撮影された複数の前記撮影画像を取得し、
前記訓練データを取得する際には、
さらに（ｄ）当該移動体の識別情報を含む前記アノテーションが付与された前記訓練データを取得し、
前記認識モデルは、
前記訓練データを用いて、当該移動体が車両の走行の障害になる所定時間前に当該移動体が行う所定動作である事前動作をさらに学習することによって構築され、
前記移動体を検出する際には、
前記認識モデルに複数の前記撮影画像を入力データとして入力することで出力される、複数の前記撮影画像における当該移動体の前記事前動作の有無を示す動作情報をさらに取得することで、複数の前記撮影画像における前記対象移動体を検出する
請求項２に記載の移動体検出方法。
前記対象移動体を検出する際には、前記撮影画像における前記移動体が人であることを示す前記種別情報と、前記移動体が歩道に存在していることを示す前記位置情報と、前記移動体が歩道から車道に移る前記所定時間前に行う前記事前動作をしていることを示す前記動作情報とを取得することで、前記撮影画像における前記対象移動体を検出する
請求項５に記載の移動体検出方法。
前記対象移動体を検出する際には、前記撮影画像における前記移動体が自動車又は自動二輪車であることを示す前記種別情報と、前記移動体が車道に存在していることを示す前記位置情報と、前記移動体が前記対象車両の前方で前記対象車両の走行レーンに侵入する前記所定時間前に行う前記事前動作をしていることを示す前記動作情報とを取得することで、前記撮影画像における前記対象移動体を検出する
請求項５に記載の移動体検出方法。
前記認識モデルは、ニューラルネットワークモデルである
請求項１〜７のいずれか１項に記載の移動体検出方法。
前記アノテーションが示す移動体の種別を示す情報は、人、自動車、自動二輪車、又は、自転車のいずれかを示す情報である
請求項２に記載の移動体検出方法。
少なくとも１つのコンピュータによって、対象車両の走行の障害になり得る移動体である対象移動体を検出するための移動体学習方法であって、
移動体が撮影された画像に対して、（ａ）当該画像における当該移動体の座標と、（ｂ）当該移動体の種別を示す種別情報と、（ｃ）歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報と、を含む情報であるアノテーションが付与された訓練データを取得し、
前記訓練データを用いて、前記画像における当該移動体の種別情報及び位置情報を学習することによって、認識モデルを構築する
移動体学習方法。
前記訓練データを取得する際には、
移動体が撮影された複数の前記画像それぞれに対して、（ａ）前記座標と、（ｂ）前記種別情報と、（ｃ）前記位置情報と、（ｄ）当該移動体を一意に識別し得る識別情報とを含む前記アノテーションが付与された前記訓練データを取得し、
前記認識モデルを構築する際には、
前記訓練データを用いて、当該移動体が車両の走行の障害になる所定時間前に当該移動体が行う事前動作をさらに学習することによって、前記認識モデルを構築する
請求項１０に記載の移動体学習方法。
前記訓練データに含まれる複数の前記画像のうち、走行レーンを横切る人が撮影された画像は、事前動作をしている移動体を含むことを示す事前動作情報をさらに含むアノテーションが付与されたものである
請求項１１に記載の移動体学習方法。
前記訓練データに含まれる前記アノテーションに含まれる前記位置情報は、歩道及び車道を含む位置のうち当該移動体が存在している２以上の位置を示す
請求項１０〜１２のいずれか１項に記載の移動体学習方法。
前記移動体の座標は、前記画像における前記移動体を背景を含んで取り囲む領域を示す座標を含む
請求項１０〜１３のいずれか１項に記載の移動体学習方法。
少なくとも１つのコンピュータによって、対象車両の走行の障害になり得る移動体である対象移動体を検出する移動体検出装置であって、
前記対象車両に搭載されたカメラによる撮影によって生成される撮影画像を取得する撮影画像取得部と、
移動体が撮影された画像における当該移動体と、当該移動体の種別を示す種別情報と、歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報とを認識する認識モデルに前記撮影画像を入力データとして入力することで出力される、前記撮影画像における当該移動体の種別情報及び位置情報を取得することで、前記撮影画像における前記対象移動体を検出する検出部とを備える
移動体検出装置。
少なくとも１つのコンピュータが車両の走行の障害になり得る移動体である対象移動体を学習する移動体学習装置であって、
移動体が撮影された画像に対して、（ａ）当該画像における当該移動体の座標と、（ｂ）当該移動体の種別を示す種別情報と、（ｃ）歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報と、を含む情報であるアノテーションが付与された訓練データを取得する訓練データ取得部と、
前記訓練データを用いて、前記画像における当該移動体の種別情報及び位置情報を学習することによって、認識モデルを構築する学習部とを備える
移動体学習装置。
少なくとも１つのコンピュータによって、対象車両の走行の障害になり得る移動体である対象移動体を検出する移動体検出システムであって、
移動体が撮影された画像に対して、（ａ）当該画像における当該移動体の座標と、（ｂ）当該移動体の種別を示す種別情報と、（ｃ）歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報と、を含む情報であるアノテーションが付与された訓練データを取得する訓練データ取得部と、
前記訓練データを用いて、前記画像における当該移動体の種別情報及び位置情報を学習することによって、認識モデルを構築する学習部と、
前記対象車両に搭載されたカメラによる撮影によって生成される撮影画像を取得する撮影画像取得部と、
車両の走行の障害になり得る移動体と、当該移動体の種別を示す種別情報と、歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報とを認識する認識モデルに前記撮影画像を入力データとして入力することで出力される、前記撮影画像における当該移動体の種別情報及び位置情報を取得することで、前記撮影画像における前記移動体を検出する検出部とを備える
移動体検出システム。
コンピュータが車両の走行の障害になり得る移動体を学習するためのプログラムであって、
移動体が撮影された画像に対して、（ａ）当該画像における当該移動体の座標と、（ｂ）当該移動体の種別を示す種別情報と、（ｃ）歩道及び車道を含む複数の位置のうち当該移動体が存在している位置を示す位置情報と、を含む情報であるアノテーションが付与された訓練データを取得し、
前記訓練データを用いて、前記画像における当該移動体の種別情報及び位置情報を学習することによって、認識モデルを構築する
ことを前記コンピュータに実行させるプログラム。