JP7553754B2

JP7553754B2 - 学習プログラム、学習装置及び学習方法

Info

Publication number: JP7553754B2
Application number: JP2020142016A
Authority: JP
Inventors: 洋一富岡; 強福趙; 魁星志村
Original assignee: Alps Electric Co Ltd; University of Aizu; Alps Alpine Co Ltd
Current assignee: University of Aizu; Alps Alpine Co Ltd
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2024-09-19
Anticipated expiration: 2040-08-25
Also published as: JP2022037733A

Description

本発明は、学習プログラム、学習装置及び学習方法に関する。

近年、高齢者の生活活動を支援することを目的とした電動カート（以下、シニアカーとも呼ぶ）の利用が広がっている。高齢者は、例えば、シニアカーに乗車して買い物等の外出を行うことで、外出に伴う身体への負担を軽減させることが可能になる。

ここで、上記のようなシニアカーは、例えば、悪路等の影響によって走行中に転倒する可能性がある。そして、高齢者は、この場合、自力で立ち上がることができない可能性がある。

そのため、シニアカーは、例えば、特に走行を慎重に行う必要がある場所（例えば、走行経路上にある踏切）の存在を検出しながら走行を行う。そして、シニアカーは、例えば、走行経路上における踏切の存在を検知した場合、存在を検知した踏切についての情報を運転者（高齢者）に通知する。これにより、シニアカーは、走行時における運転者（高齢者）の安全を確保することが可能になる（特許文献１乃至３を参照）。

特開２０２０－０４２８５３号公報特開２０１７－０１６６０４号公報特開平１１－３３９１９７号公報

しかしながら、上記のような踏切の存在有無についての情報は、シニアカーの運転者の安全性を確保するための情報として不十分である場合がある。そのため、シニアカーの分野では、走行経路上に存在する踏切についてのさらなる情報を提供が求められている。

そこで、本発明の目的は、走行経路上における踏切についての情報を提供することを可能とする学習プログラム、学習装置及び学習方法を提供することにある。

上記目的を達成するための本発明における学習プログラムは、撮像装置によって撮像された複数の学習用画像データを取得したことに応じて、前記複数の学習用画像データごとに、各学習用画像データに映る所定種類の物体を検出し、前記複数の学習用画像データごとに、各学習用画像データにおける前記所定種類の物体の位置情報に対して、前記撮像装置から前記所定種類の物体までの距離情報を付加することによって、複数の学習データを生成し、前記複数の学習データを用いた機械学習を行うことによって、学習モデルを生成する、処理をコンピュータに実行させることを特徴とする。

また、上記目的を達成するための本発明における学習プログラムは、一つの態様では、前記複数の学習用画像データごとに、各学習用画像データと各学習用画像データに対応する前記位置情報とに対して、前記撮像装置から前記所定種類の物体までの前記距離情報を付加することによって、前記複数の学習データの生成を行う、ことを特徴とする。

また、上記目的を達成するための本発明における学習プログラムは、一つの態様では、撮像装置によって撮像された第１検出用画像データを取得したことに応じて、前記第１検出用画像データに映る前記所定種類の物体を検出し、検出した前記所定種類の物体の前記第１検出用画像データにおける位置情報の入力に伴って前記学習モデルから出力される値を、前記第１検出用画像データを撮像した前記撮像装置から前記所定種類の物体までの第１距離情報として特定し、特定した前記第１距離情報を出力する、処理をコンピュータに実行させることを特徴とする。

また、上記目的を達成するための本発明における学習プログラムは、一つの態様では、前記所定種類の物体を検出する処理において複数の前記所定種類の物体を検出した場合、前記複数の所定種類の物体ごとに、前記第１検出用画像データを撮像した前記撮像装置から各所定種類の物体までの前記第１距離情報を特定し、特定した前記第１距離情報における最小値を出力する、ことを特徴とする。

また、上記目的を達成するための本発明における学習プログラムは、一つの態様では、前記第１距離情報における最大値と前記最小値との差を算出し、前記第１検出用画像データの後に撮像された第２検出用画像データを取得したことに応じて、前記第２検出用画像データから前記所定種類の物体を検出し、前記最小値に対応する第１物体が検出されない場合、前記最大値に対応する第２物体の前記第２検出用画像データにおける位置情報の入力に伴って前記学習モデルから出力される値を、前記第２検出用画像データを撮像した前記撮像装置から前記第２物体までの前記第２距離情報として特定し、特定した前記第２距離情報から前記差を減算することによって算出した第３距離情報を出力する、処理をコンピュータに実行させることを特徴とする。

また、上記目的を達成するための本発明における学習プログラムは、一つの態様では、前記複数の所定種類の物体ごとに、各所定種類の物体のサイズと前記所定種類と異なる他の種類の物体のサイズとの関係を特定し、前記第１検出用画像データの後に撮像された第２検出用画像データを取得したことに応じて、前記第２検出用画像データから前記所定種類の物体と前記他の種類の物体とを検出し、前記最小値に対応する第１物体が検出されない場合、前記第２検出用画像データから検出した前記他の種類の物体のサイズと前記関係とから前記第１物体のサイズを算出し、前記第１物体のサイズの入力に伴って前記学習モデルから出力される値を、前記第２検出用画像データを撮像した前記撮像装置から前記第１物体までの第４距離情報として特定し、特定した前記第４距離情報を出力する、処理をコンピュータに実行させることを特徴とする。

また、上記目的を達成するための本発明における学習プログラムは、一つの態様では、前記複数の所定種類の物体ごとに、前記他の種類の物体のサイズに対する各所定種類の物体のサイズの割合を算出し、前記第１物体が検出されない場合、前記第２検出用画像データから検出した前記他の種類の物体のサイズと前記割合とを乗算することによって前記第１物体のサイズを算出する、ことを特徴とする。

また、上記目的を達成するための本発明における学習装置は、撮像装置によって撮像された複数の学習用画像データを取得したことに応じて、前記複数の学習用画像データごとに、各学習用画像データに映る所定種類の物体を検出する物体検出部と、前記複数の学習用画像データごとに、各学習用画像データにおける前記所定種類の物体の位置情報に対して、前記撮像装置から前記所定種類の物体までの距離情報を付加することによって、複数の学習データを生成する学習データ生成部と、前記複数の学習データを用いた機械学習を行うことによって、学習モデルを生成するモデル生成部と、を有する、ことを特徴とする。

また、上記目的を達成するための本発明における学習方法は、撮像装置によって撮像された複数の学習用画像データを取得したことに応じて、前記複数の学習用画像データごとに、各学習用画像データに映る所定種類の物体を検出し、前記複数の学習用画像データごとに、各学習用画像データにおける前記所定種類の物体の位置情報に対して、前記撮像装置から前記所定種類の物体までの距離情報を付加することによって、複数の学習データを生成し、前記複数の学習データを用いた機械学習を行うことによって、学習モデルを生成する、処理をコンピュータに実行させることを特徴とする。

本発明における学習プログラム、学習装置、学習方法によれば、走行経路上における踏切についての情報の提供を容易に行うことが可能になる。

図１は、第１の実施の形態における情報処理装置１の構成例を示す図である。図２は、シニアカー３と踏切４との関係を説明する図である。図３は、第１の実施の形態における検出端末２の構成例を示す図である。図４は、第１の実施の形態における学習処理の概略について説明する図である。図５は、第１の実施の形態における推論処理の概略について説明する図である。図６は、第１の実施の形態における学習処理の詳細を説明するフローチャート図である。図７は、第１の実施の形態における推論処理の詳細を説明するフローチャート図である。図８は、第１の実施の形態における推論処理の詳細を説明するフローチャート図である。図９は、第１の実施の形態における推論処理の詳細を説明するフローチャート図である。図１０は、第１の実施の形態における推論処理の詳細を説明するフローチャート図である。図１１は、踏切４の具体例について説明する図である。図１２は、第１の学習モデルの具体例について説明する図である。図１３は、第１の学習モデルの具体例について説明する図である。

以下、図面を参照して本発明の実施の形態について説明する。しかしながら、かかる実施の形態例が、本発明の技術的範囲を限定するものではない。

初めに、第１の実施の形態における情報処理装置１（以下、学習装置１とも呼ぶ）の構成例について説明を行う。図１は、第１の実施の形態における情報処理装置１の構成例を示す図である。

情報処理装置１は、コンピュータ装置であって、例えば、汎用的なＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）である。そして、情報処理装置１は、図２に示すように、シニアカー３とシニアカー３の走行経路上に存在する踏切４との間における距離の算出（推定）を行う学習モデルの学習処理（以下、単に学習処理とも呼ぶ）を行う。

情報処理装置１は、汎用的なコンピュータ装置のハードウエア構成を有し、例えば、図１に示すように、プロセッサであるＣＰＵ１０１と、メモリ１０２と、通信インタフェース１０３と、記憶媒体１０４とを有する。各部は、バス１０５を介して互いに接続される。

記憶媒体１０４は、例えば、学習処理を行うためのプログラム（図示しない）を記憶するプログラム格納領域（図示しない）を有する。

また、記憶媒体１０４は、例えば、学習処理を行う際に用いられる情報を記憶する記憶部１１０（以下、記憶領域１１０とも呼ぶ）を有する。なお、記憶媒体１０４は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）であってよい。

ＣＰＵ１０１は、記憶媒体１０４からメモリ１０２にロードされたプログラムを実行して学習処理を行う。

通信インタフェース１０３は、例えば、インターネット網等のネットワークＮＷを介して検出端末２と通信を行う。

次に、第１の実施の形態における検出端末２の構成例について説明を行う。図３は、第１の実施の形態における検出端末２の構成例を示す図である。

検出端末２は、コンピュータ装置であって、例えば、スマートフォン等の携帯端末である。そして、検出端末２は、図２に示すように、例えば、シニアカー３の進行方向前方付近に取り付けられる機器であって、情報処理装置１が生成した学習モデルを用いることによる推論処理（以下、単に推論処理とも呼ぶ）を行う。

検出端末２は、汎用的なコンピュータ装置のハードウエア構成を有し、例えば、図３に示すように、プロセッサであるＣＰＵ２０１と、メモリ２０２と、通信インタフェース２０３と、記憶媒体２０４とを有する。各部は、バス２０５を介して互いに接続される。

記憶媒体２０４は、例えば、学習処理を行うためのプログラム（図示しない）を記憶するプログラム格納領域（図示しない）を有する。

また、記憶媒体２０４は、例えば、情報処理装置１が生成した学習モデルを用いることによる推論処理を行う際に用いられる情報を記憶する記憶部２１０（以下、記憶領域２１０とも呼ぶ）を有する。なお、記憶媒体２０４は、例えば、ＨＤＤやＳＳＤであってよい。

ＣＰＵ２０１は、記憶媒体２０４からメモリ２０２にロードされたプログラムを実行して学習処理を行う。

通信インタフェース２０３は、例えば、インターネット網等のネットワークＮＷを介して情報処理装置１と通信を行う。なお、情報処理装置１と検出端末２との間における情報の移動は、例えば、作業者がＵＳＢメモリ等の記憶媒体等を用いることによって手動で行うものであってもよい。

具体的に、検出端末２は、例えば、シニアカー３の走行時において、カメラ等の撮像装置２ａが撮像した走行経路についての動画データに含まれる画像データを、情報処理装置１から予め受信した学習モデルに対して連続的に入力する。そして、検出端末２は、学習モデルから出力された値を用いることにより、シニアカー３とシニアカー３の走行経路上に存在する踏切４との間における距離の算出を連続的に行う。さらに、検出端末２は、例えば、シニアカー３の運転手（高齢者）に対して、シニアカー３と踏切４との接近状況を示す情報やシニアカー３と踏切４の間における距離についての通知を行う。

なお、検出端末２は、走行経路についての動画データを撮像する撮像装置２ａを内蔵するものであってもよい。

また、以下、学習処理が情報処理装置１において行われる場合について説明を行うが、学習処理は、検出端末２において行われるものであってもよい。すなわち、検出端末２は、自装置において生成した学習モデルを用いることによって推論処理を行うものであってもよい。

［第１の実施の形態の概略］
次に、第１の実施の形態における学習処理及び推論処理の概略について説明を行う。

初めに、第１の実施の形態における学習処理の概略について説明を行う。図４は、第１の実施の形態における学習処理の概略について説明する図である。

情報処理装置１の画像取得部１１１は、例えば、学習モデルの生成に用いられる複数の画像データ（以下、学習用画像データとも呼ぶ）を取得する。

具体的に、画像取得部１１１は、例えば、作業者によって予め記憶領域１１０に記憶された動画データ（例えば、撮像装置２ａによって予め撮像された動画データ）を構成する複数の画像データを取得する。

そして、情報処理装置１の物体検出部１１２は、画像取得部１１１が取得した複数の画像データごとに、各画像データに映る所定種類の物体を検出する。

具体的に、シニアカー３の走行経路上に存在する踏切４は、図２に示すように、踏切警標４ａを有している場合が多い。そのため、物体検出部１１２は、例えば、画像取得部１１１が取得した複数の画像データごとに、各画像データに含まれる踏切警標４ａの検出を行う。

続いて、情報処理装置１の学習データ生成部１１３は、画像取得部１１１が取得した複数の画像データごとに、各画像データにおける所定種類の物体の位置及びサイズについての情報（以下、これらを総称して単に位置情報とも呼ぶ）に対して、撮像装置２ａから所定種類の物体までの距離情報（正解ラベル）を付加することによって、複数の学習データを生成する。

具体的に、学習データ生成部１１３は、例えば、画像取得部１１１が取得した複数の画像データごとに、各画像データと、各画像データに映る踏切警標４ａのＸ座標、Ｙ座標、縦幅、横幅、面積及びアスペクト比等のうちの少なくとも一部と、撮像装置２ａから各画像データに映る踏切警標４ａまでの距離情報とを対応付けることによって、複数の学習データの生成を行う。

なお、学習データ生成部１１３は、例えば、画像取得部１１１が取得した複数の画像データごとに、各画像データと各画像データにおける所定種類の物体に対応する位置情報とに対して、撮像装置２ａから所定種類の物体までの距離情報を付加することによって、複数の学習データを生成するものであってもよい。

また、学習データ生成部１１３は、例えば、踏切警標４ａの縦幅と横軸のうちの最大値を位置情報として用いて複数の学習データの生成を行うものであってもよい。これにより、学習データ生成部１１３は、例えば、踏切警標４ａの一部が障害物等の存在によって映っていない画像データが多い場合であっても、判定精度の高い学習モデルを生成可能な学習データを生成することが可能になる。

その後、情報処理装置１のモデル生成部１１４は、学習データ生成部１１３が生成した複数の学習データを用いた機械学習を行うことによって、学習モデルを生成する。

次に、第１の実施の形態における推論処理の概略について説明を行う。図５は、第１の実施の形態における推論処理の概略について説明する図である。

検出端末２の画像取得部２１１は、例えば、撮像装置２ａによって撮像された動画データに含まれる画像データ（以下、検出用画像データとも呼ぶ）を取得する。具体的に、画像取得部２１１は、例えば、検出端末２から送信された画像データを受信する。

そして、検出端末２の物体検出部２１２は、画像取得部２１１が取得した画像データに映る所定種類の物体を検出する。

具体的に、物体検出部２１２は、例えば、画像取得部２１１が取得した画像データに含まれる踏切警標４ａの検出を行う。

続いて、検出端末２の距離特定部２１３は、物体検出部２１２が検出した所定種類の物体の画像データにおける位置情報の入力に伴って学習モデルから出力される値を、撮像装置２ａから所定種類の物体までの距離情報として特定する。

具体的に、距離特定部２１３は、例えば、画像取得部２１１が取得した画像データと、その画像データにおける踏切警標４ａのＸ座標、Ｙ座標、縦幅、横幅、面積及びアスペクト比等のうちの少なくとも一部の入力に伴って学習モデルから出力される値を、撮像装置２ａ（シニアカー３）から踏切警標４ａまでの距離情報として特定する。

その後、検出端末２の情報出力部２１４は、例えば、距離特定部２１３が特定した距離情報をシニアカー３の運転者（高齢者）に対して通知する。

すなわち、本実施の形態における情報処理装置１は、例えば、シニアカー３の走行経路上における踏切４の存在有無についての情報だけでなく、シニアカー３と踏切４との間における距離情報についても運転者に通知する。

これにより、情報処理装置１は、シニアカー３の走行中における運転者の安全性をより確保することが可能になる。

［第１の実施の形態の詳細］
次に、第１の実施の形態における学習処理及び推論処理の詳細について説明を行う。図６から図１０は、第１の実施の形態における学習処理及び推論処理の詳細を説明するフローチャート図である。また、図１１から図１３は、第１の実施の形態における学習処理及び推論の詳細を説明する図である。

［学習処理の詳細］
初めに、第１の実施の形態における学習処理の詳細について説明を行う。図６は、学習処理の詳細について説明する図である。

画像取得部１１１は、図６に示すように、例えば、学習タイミングになるまで待機する（Ｓ１１のＮＯ）。学習タイミングは、例えば、作業者が操作端末（図示しない）を介して学習モデルの学習処理を開始する旨の情報を入力したタイミングであってよい。

そして、学習タイミングになった場合（Ｓ１１のＹＥＳ）、画像取得部１１１は、記憶領域１１０に記憶された動画データを構成する複数の画像データを取得する（Ｓ１２）。

続いて、物体検出部１１２は、Ｓ１２の処理で取得した複数の画像データごとに、各画像データに映る踏切警標４ａを検出する（Ｓ１３）。

具体的に、例えば、Ｓ１２の処理において図１１に示す画像データを取得した場合、物体検出部１１２は、踏切４に含まれる踏切警標４１ａと踏切警標４２ａとをそれぞれ検出する。

なお、物体検出部１１２は、この場合、例えば、学習済の学習モデル（ＹＯＬＯ（ＹｏｕＯｎｌｙＬｉｖｅＯｎｃｅ）やＳＳＤ（ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉｂｏｘＤｅｔｅｃｔｏｒ）等による学習モデル）を用いることによって、踏切警標４ａの検出を行うものであってよい。

さらに、学習データ生成部１１３は、Ｓ１２の処理で取得した複数の画像データごとに、各画像データと、各画像データに映る踏切警標４ａの位置情報とに対して、撮像装置２ａから踏切警標４ａまでの距離情報を付加することによって、複数の学習データを生成する（Ｓ１４）。そして、学習データ生成部１１３は、例えば、生成した複数の学習データを記憶領域１１０に記憶する。

具体的に、作業者は、例えば、操作端末（図示しない）を介して、Ｓ１２の処理で取得した複数の画像データごとに、撮像装置２ａと各画像データに映る踏切警標４ａとの間における距離情報を正解ラベルとして入力する。そして、学習データ生成部１１３は、Ｓ１２の処理で取得した複数の画像データごとに、各画像データと各画像データにおける踏切警標４ａの位置情報とに対して、作業者によって入力された距離情報を付加することによって、複数の学習データの生成を行う。

その後、モデル生成部１１４は、Ｓ１４の処理で生成した複数の学習データを用いた機械学習を行うことによって、学習モデルを生成する（Ｓ１５）。以下、Ｓ１５の処理で生成される学習モデルの具体例について説明を行う。

［学習モデルの具体例（１）］
図１２は、第１の学習モデルの具体例について説明する図である。具体的に、図１２は、最小二乗法を用いることによる学習モデルの具体例である。

学習データ生成部１１３は、Ｓ１４の処理において、例えば、Ｓ１２の処理で取得した複数の画像データごとに、各画像データにおける踏切警標４ａの縦幅に対して撮像装置２ａから踏切警標４ａまでの距離情報を正解ラベルとして付加することによって、複数の学習データを生成する。

そして、モデル生成部１１４は、Ｓ１５の処理において、Ｓ１４の処理で生成した複数の学習データのそれぞれを対象とした最小二乗法を行うことにより、学習モデルを生成する。

具体的に、モデル生成部１１４は、この場合、図１２に示すように、例えば、各学習データに含まれる踏切警標４ａの逆数と各学習データに含まれる距離情報とに対応する点を平面上にプロットする。そして、モデル生成部１１４は、各点と回帰直線との差の二乗が最小になるように、以下の式（１）における係数Ａ及び係数Ｂを算出することによって、学習モデルとして機能する回帰直線を生成する。

式（１）において、「推定距離」は、撮像装置２ａから踏切警標４ａまでの距離情報に対応し、「踏切警標の縦幅」は、踏切警標４ａの縦幅に対応する。

なお、学習データ生成部１１３は、Ｓ１４の処理において、例えば、Ｓ１２の処理で取得した複数の画像データごとに、各画像データにおける踏切警標４ａの面積に対して撮像装置２ａから踏切警標４ａまでの距離情報を正解ラベルとして付加することによって、複数の学習データを生成するものであってもよい。

［学習モデルの具体例（２）］
図１３は、第２の学習モデルの具体例について説明する図である。具体的に、図１３は、ニューラルネットワークの具体例である。

学習データ生成部１１３は、Ｓ１４の処理において、例えば、Ｓ１２の処理で取得した複数の画像データごとに、各画像データにおける踏切警標４ａのＸ座標、Ｙ座標、縦幅、横幅及び面積に対して撮像装置２ａから踏切警標４ａまでの距離情報を正解ラベルとして付加することによって、複数の学習データを生成する。

そして、モデル生成部１１４は、Ｓ１５の処理において、Ｓ１３の処理で生成した複数の学習データのそれぞれを用いることによって、ニューラルネットワークの学習を行う。

具体的に、モデル生成部１１４は、この場合、図１３に示すように、例えば、ニューラルネットワークの入力層から踏切警標４ａのＸ座標、Ｙ座標、縦幅、横幅及び面積のそれぞれに対応する値を入力することによって出力層から出力される値と、撮像装置２ａから踏切警標４ａまでの距離情報（正解ラベル）との差が小さくなるように、ニューラルネットワークの中間層に対応する重みのそれぞれを学習する。

［推論処理の詳細（１）］
次に、第１の実施の形態における推論処理の詳細について説明を行う。図７及び図８は、推論処理の詳細について説明する図である。

画像取得部２１１は、図７に示すように、例えば、推論タイミングになるまで待機する（Ｓ２１のＮＯ）。推論タイミングは、例えば、走行中のシニアカー３に搭載された撮像装置２ａによって画像データが撮像されたタイミングであってよい。すなわち、推論タイミングは、シニアカー３に搭載された撮像装置２ａが進行方向前方についての画像データ（フレーム）を撮影するごとに訪れるタイミングであってよい。具体的に、撮像装置２ａが撮影する動画データのフレーム数が３０フレームである場合、推論タイミングは、１秒間に３０回訪れるタイミングであってよい。

そして、推論タイミングになった場合（Ｓ２１のＹＥＳ）、画像取得部２１１は、撮像装置２ａによって撮像された画像データを取得する（Ｓ２２）。

続いて、物体検出部２１２は、Ｓ２２の処理で取得した画像データに映る踏切警標４ａを検出する（Ｓ２３）。

具体的に、例えば、Ｓ２２の処理において図１１に示す画像データを取得した場合、物体検出部２１２は、踏切４における踏切警標４１ａと踏切警標４２ａとのそれぞれを検出する。

その結果、前回までに行われたＳ２３の処理において検出された踏切警標４ａのうち、撮像装置２ａ（シニアカー３）から最も近い踏切警標４ａ（以下、第１踏切警標４ａとも呼ぶ）が、今回行われたＳ２３の処理においても検出された場合（Ｓ２４のＮＯ）、距離特定部２１３は、Ｓ２３の処理で検出した踏切警標４ａごとに、各踏切警標４ａの位置情報の入力に伴って学習モデルから出力される値を、撮像装置２ａ（シニアカー３）から各踏切警標４ａまでの距離情報として特定する（Ｓ２５）。

そして、距離特定部２１３は、Ｓ２５の処理で特定した距離情報における最大値と最小値との差を算出する（Ｓ２６）。

具体的に、Ｓ２２の処理において図１１に示す画像データを取得した場合、距離特定部２１３は、撮像装置２ａと踏切警標４２ａ（踏切４における奥側の踏切警標４ａ）との間における距離情報を、Ｓ２５の処理で特定した距離情報における最大値として特定する。また、距離特定部２１３は、この場合、撮像装置２ａと踏切警標４１ａ（踏切４における手前側の踏切警標４ａ）との間における距離情報を、Ｓ２５の処理で特定した距離情報における最小値として特定する。そして、距離特定部２１３は、撮像装置２ａと踏切警標４２ａとの間における距離情報と、撮像装置２ａと踏切警標４１ａとの間における距離情報との差を算出する。すなわち、距離特定部２１３は、この場合、踏切４の奥行のついての距離情報を算出する。

その後、距離特定部２１３は、図８に示すように、Ｓ２５の処理で特定した距離情報を出力する（Ｓ３３）。

具体的に、情報出力部２１４は、Ｓ２５の処理で特定した距離情報をシニアカー３の運転者（高齢者）に通知する。

なお、情報出力部２１４は、この場合、例えば、Ｓ２５の処理で特定した距離情報を音声によって通知するものであってもよい。

そして、Ｓ２２の処理において全ての画像データを取得していない場合（Ｓ３４のＮＯ）、画像取得部２１１は、Ｓ２２以降の処理を再度行う。

一方、Ｓ２２の処理において全ての画像データを取得した場合（Ｓ３４のＹＥＳ）、検出端末２は、推論処理を終了する。

また、Ｓ２４の処理において、前回までに行われたＳ２３の処理において検出された踏切警標４ａのうち、撮像装置２ａ（シニアカー３）から最も近い第１踏切警標４ａが、今回行われたＳ２３の処理において検出されなかった場合（Ｓ２４のＹＥＳ）、距離特定部２１３は、図８に示すように、Ｓ２５の処理で算出した距離が最大の踏切警標４ａ（以下、第２踏切警標４ａとも呼ぶ）の位置情報の入力に伴って学習モデルから出力される値を、撮像装置２ａから第２踏切警標４ａまでの距離情報として特定する（Ｓ３１）。

そして、距離特定部２１３は、Ｓ３１の処理で特定した距離情報から、Ｓ２６の処理で算出した差を減算して距離情報を算出する（Ｓ３２）。

すなわち、例えば、撮像装置２ａと第１踏切警標４ａとの間において障害物が存在する場合や撮像装置２ａが踏切４に近接した場合、Ｓ２３の処理において、第１踏切警標４ａが検出されない可能性がある。

そのため、距離特定部２１３は、この場合、撮像装置２ａと第２踏切警標４ａとの間における距離情報と踏切４の奥行についての距離情報とから、撮像装置２ａと第１踏切警標４ａとの間における距離情報の算出を行う。

これにより、距離特定部２１３は、Ｓ２３の処理において第１踏切警標４ａが検出されない場合であっても、撮像装置２ａと第１踏切警標４ａとの間における距離情報の算出を行うことが可能になる。

その後、情報出力部２１４は、Ｓ３２の処理で算出した距離情報を出力する（Ｓ３３）。

［推論処理の詳細（２）］
次に、第１の実施の形態における他の推論処理の詳細について説明を行う。図９及び図１０は、他の推論処理の詳細について説明する図である。

画像取得部２１１は、図９に示すように、例えば、推論タイミングになるまで待機する（Ｓ４１のＮＯ）。

そして、推論タイミングになった場合（Ｓ４１のＹＥＳ）、画像取得部２１１は、撮像装置２ａによって撮像された画像データを取得する（Ｓ４２）。

続いて、物体検出部２１２は、Ｓ２２の処理で取得した画像データに映る踏切警標４ａと他の物体とを検出する（Ｓ４３）。

具体的に、例えば、Ｓ４２の処理において図１１に示す画像データを取得した場合、物体検出部２１２は、踏切４における踏切警標４１ａと踏切警標４２ａとを検出するとともに、踏切４における信号機４１ｂ、方向指示器４１ｃ、注意柵４１ｄ及び信号機４２ｂのうちの少なくとも１つを検出する。

その結果、前回までに行われたＳ４３の処理において検出された踏切警標４ａのうち、撮像装置２ａ（シニアカー３）から最も近い第１踏切警標４ａが、今回行われたＳ４３の処理においても検出された場合（Ｓ４４のＮＯ）、距離特定部２１３は、Ｓ４３の処理で検出した踏切警標４ａの位置情報の入力に伴って学習モデル（例えば、図１３で説明した学習モデル）から出力される値を、撮像装置２ａから踏切警標４ａまでの距離情報として特定する（Ｓ４５）。

そして、距離特定部２１３は、Ｓ４３で検出した踏切警標のサイズと他の物体のサイズとの関係を特定する（Ｓ４６）。

具体的に、例えば、Ｓ４２の処理において図１１に示す画像データを取得した場合、距離特定部２１３は、例えば、信号機４２ｂのサイズに対する踏切警標４１ａ（第１踏切警標４ａ）のサイズの割合を算出する。

さらに具体的に、距離特定部２１３は、この場合、例えば、信号機４２ｂの縦幅に対する踏切警標４１ａ（第１踏切警標４ａ）の縦幅の割合を算出する。

その後、情報出力部２１４は、図１０に示すように、Ｓ４５の処理で特定した距離情報を出力する（Ｓ５３）。

具体的に、情報出力部２１４は、Ｓ４５の処理で特定した距離情報をシニアカー３の運転者（高齢者）に通知する。

そして、Ｓ４２の処理において全ての画像データを取得していない場合（Ｓ５４のＮＯ）、画像取得部２１１は、Ｓ４２以降の処理を再度行う。

一方、Ｓ４２の処理において全ての画像データを取得した場合（Ｓ５４のＹＥＳ）、検出端末２は、推論処理を終了する。

また、Ｓ４４の処理において、前回までに行われたＳ４３の処理において検出された踏切警標４ａのうち、撮像装置２ａ（シニアカー３）から最も近い第１踏切警標４ａが、今回行われたＳ４３の処理において検出されなかった場合（Ｓ４４のＹＥＳ）、距離特定部２１３は、図１０に示すように、Ｓ４２の処理で取得した画像データから検出した他の物体のサイズと、Ｓ４６の処理で特定した関係とから、第１踏切警標４ａのサイズを算出する（Ｓ５１）。

具体的に、例えば、Ｓ４２の処理において図１１に示す画像データを取得した場合、距離特定部２１３は、信号機４２ｂのサイズと、Ｓ４６の処理で算出した割合（信号機４２ｂのサイズに対する踏切警標４１ａのサイズの割合）とを乗算することにより、踏切警標４１ａ（第１踏切警標４ａ）のサイズを算出する。

さらに具体的に、距離特定部２１３は、この場合、例えば、信号機４２ｂの縦幅と、Ｓ４６の処理で算出した割合（信号機４２ｂの縦幅に対する踏切警標４１ａの縦幅の割合）とを乗算することにより、踏切警標４１ａ（第１踏切警標４ａ）の縦幅を算出する。

そして、距離特定部２１３は、Ｓ５１の処理で算出したサイズの入力に伴って学習モデル（例えば、図１２で説明した学習モデル）から出力される値を、撮像装置２ａから第１踏切警標４ａまでの距離情報として特定する（Ｓ５２）。

すなわち、Ｓ４３の処理において、第１踏切警標４ａが検出されなくなった場合、距離特定部２１３は、Ｓ４２の処理で取得した画像データから検出した他の物体のサイズと、他の物体のサイズに対する第１踏切警標４ａのサイズの割合とから、第１踏切警標４ａのサイズを算出する。そして、距離特定部２１３は、算出した第１踏切警標４ａのサイズを用いることによって、撮像装置２ａから第１踏切警標４ａまでの距離情報として特定する。

これにより、距離特定部２１３は、Ｓ４３の処理において第１踏切警標４ａが検出されない場合であっても、撮像装置２ａと第１踏切警標４ａとの間における距離情報の算出を行うことが可能になる。

なお、上記の例では、情報処理装置１及び検出端末２がシニアカー３と踏切４との間における距離の特定を行う場合について説明を行ったが、情報処理装置１及び検出端末２は、シニアカー３と踏切４以外の場所（例えば、交差点や歩道橋）との間における距離の特定を行うものであってもよい。

１：情報処理装置
２：検出端末
１０１：ＣＰＵ
１０２：メモリ
１０３：通信インタフェース
１０４：記憶媒体
１０５：バス

Claims

撮像装置によって撮像された複数の学習用画像データを取得したことに応じて、前記複数の学習用画像データごとに、各学習用画像データに映る踏切警標、交差点または歩道橋を検出し、
前記複数の学習用画像データごとに、各学習用画像データにおける前記踏切警標、交差点または歩道橋の位置情報に対して、前記撮像装置から前記踏切警標、交差点または歩道橋までの距離情報を付加することによって、複数の学習データを生成し、
前記複数の学習データを用いた機械学習を行うことによって、学習モデルを生成する、
処理をコンピュータに実行させることを特徴とする学習プログラム。
請求項１において、
前記複数の学習データを生成する処理では、前記複数の学習用画像データごとに、各学習用画像データと各学習用画像データに対応する前記位置情報とに対して、前記撮像装置から前記踏切警標、交差点または歩道橋までの前記距離情報を付加することによって、前記複数の学習データの生成を行う、
ことを特徴とする学習プログラム。
請求項１において、
前記位置情報は、前記踏切警標、交差点または歩道橋のサイズを示す情報を含む、
ことを特徴とする学習プログラム。
請求項１において、
前記位置情報は、前記学習用画像データにおける前記踏切警標、交差点または歩道橋の座標を示す情報と、前記踏切警標、交差点または歩道橋のサイズを示す情報とを含む、
ことを特徴とする学習プログラム。
請求項１において、さらに、
撮像装置によって撮像された第１検出用画像データを取得したことに応じて、前記第１検出用画像データに映る前記踏切警標、交差点または歩道橋を検出し、
検出した前記踏切警標、交差点または歩道橋の前記第１検出用画像データにおける位置情報の入力に伴って前記学習モデルから出力される値を、前記第１検出用画像データを撮像した前記撮像装置から前記踏切警標、交差点または歩道橋までの第１距離情報として特定し、
特定した前記第１距離情報を出力する、
処理をコンピュータに実行させることを特徴とする学習プログラム。
請求項５において、
前記第１距離情報を特定する処理では、前記踏切警標、交差点または歩道橋を検出する処理において複数の前記踏切警標、交差点または歩道橋を検出した場合、前記複数の踏切警標、交差点または歩道橋ごとに、前記第１検出用画像データを撮像した前記撮像装置から各踏切警標、交差点または歩道橋までの前記第１距離情報を特定し、
前記第１距離情報を出力する処理では、特定した前記第１距離情報における最小値を出力する、
ことを特徴とする学習プログラム。
請求項６において、
前記第１距離情報を特定する処理では、前記第１距離情報における最大値と前記最小値との差を算出し、さらに、
前記第１検出用画像データの後に撮像された第２検出用画像データを取得したことに応じて、前記第２検出用画像データから前記踏切警標、交差点または歩道橋を検出し、
前記最小値に対応する第１物体が検出されない場合、前記最大値に対応する第２物体の前記第２検出用画像データにおける位置情報の入力に伴って前記学習モデルから出力される値を、前記第２検出用画像データを撮像した前記撮像装置から前記第２物体までの第２距離情報として特定し、
特定した前記第２距離情報から前記差を減算することによって算出した第３距離情報を出力する、
処理をコンピュータに実行させることを特徴とする学習プログラム。
請求項６において、
前記第１距離情報を特定する処理では、前記複数の踏切警標、交差点または歩道橋ごとに、各踏切警標、交差点または歩道橋のサイズと前記踏切警標、交差点または歩道橋と異なる他の種類の物体のサイズとの関係を特定し、さらに、
前記第１検出用画像データの後に撮像された第２検出用画像データを取得したことに応じて、前記第２検出用画像データから前記踏切警標、交差点または歩道橋と前記他の種類の物体とを検出し、
前記最小値に対応する第１物体が検出されない場合、前記第２検出用画像データから検出した前記他の種類の物体のサイズと前記関係とから前記第１物体のサイズを算出し、
前記第１物体のサイズの入力に伴って前記学習モデルから出力される値を、前記第２検出用画像データを撮像した前記撮像装置から前記第１物体までの第４距離情報として特定し、
特定した前記第４距離情報を出力する、
処理をコンピュータに実行させることを特徴とする学習プログラム。
請求項８において、
前記関係を特定する処理では、前記複数の踏切警標、交差点または歩道橋ごとに、前記他の種類の物体のサイズに対する各踏切警標、交差点または歩道橋のサイズの割合を算出し、
前記第１物体のサイズを算出する処理では、前記第１物体が検出されない場合、前記第２検出用画像データから検出した前記他の種類の物体のサイズと前記割合とを乗算することによって前記第１物体のサイズを算出する、
ことを特徴とする学習プログラム。
請求項９において、
前記他の種類の物体は、踏切警標に取り付けられた信号機、方向指示器または注意柵である、
ことを特徴とする学習プログラム。
撮像装置によって撮像された複数の学習用画像データを取得したことに応じて、前記複数の学習用画像データごとに、各学習用画像データに映る所定種類の物体を検出し、
前記複数の学習用画像データごとに、各学習用画像データにおける前記所定種類の物体の位置情報に対して、前記撮像装置から前記所定種類の物体までの距離情報を付加することによって、複数の学習データを生成し、
前記複数の学習データを用いた機械学習を行うことによって、学習モデルを生成し、
撮像装置によって撮像された第１検出用画像データを取得したことに応じて、前記第１検出用画像データに映る前記所定種類の物体を検出し、
検出した前記所定種類の物体の前記第１検出用画像データにおける位置情報の入力に伴って前記学習モデルから出力される値を、前記第１検出用画像データを撮像した前記撮像装置から前記所定種類の物体までの第１距離情報として特定し、
特定した前記第１距離情報を出力する、
処理をコンピュータに実行させ、
前記第１距離情報を特定する処理では、前記所定種類の物体を検出する処理において複数の前記所定種類の物体を検出した場合、前記複数の所定種類の物体ごとに、前記第１検出用画像データを撮像した前記撮像装置から各所定種類の物体までの前記第１距離情報を特定し、
前記第１距離情報を出力する処理では、特定した前記第１距離情報における最小値を出力することを特徴とする学習プログラム。
撮像装置によって撮像された複数の学習用画像データを取得したことに応じて、前記複数の学習用画像データごとに、各学習用画像データに映る踏切警標、交差点または歩道橋を検出する物体検出部と、
前記複数の学習用画像データごとに、各学習用画像データにおける前記踏切警標、交差点または歩道橋の位置情報に対して、前記撮像装置から前記踏切警標、交差点または歩道橋までの距離情報を付加することによって、複数の学習データを生成する学習データ生成部と、
前記複数の学習データを用いた機械学習を行うことによって、学習モデルを生成するモデル生成部と、を有する、
ことを特徴とする学習装置。
撮像装置によって撮像された複数の学習用画像データを取得したことに応じて、前記複数の学習用画像データごとに、各学習用画像データに映る所定種類の物体を検出する物体検出部と、
前記複数の学習用画像データごとに、各学習用画像データにおける前記所定種類の物体の位置情報に対して、前記撮像装置から前記所定種類の物体までの距離情報を付加することによって、複数の学習データを生成する学習データ生成部と、
前記複数の学習データを用いた機械学習を行うことによって、学習モデルを生成するモデル生成部と、
撮像装置によって撮像された第１検出用画像データを取得したことに応じて、前記第１検出用画像データに映る前記所定種類の物体を検出する物体検出部と、
検出した前記所定種類の物体の前記第１検出用画像データにおける位置情報の入力に伴って前記学習モデルから出力される値を、前記第１検出用画像データを撮像した前記撮像装置から前記所定種類の物体までの第１距離情報として特定する距離特定部と、
特定した前記第１距離情報を出力する情報出力部と、を有し、
前記距離特定部は、前記所定種類の物体を検出する処理において複数の前記所定種類の物体を検出した場合、前記複数の所定種類の物体ごとに、前記第１検出用画像データを撮像した前記撮像装置から各所定種類の物体までの前記第１距離情報を特定し、
前記情報出力部は、特定した前記第１距離情報における最小値を出力することを特徴とする学習装置。
撮像装置によって撮像された複数の学習用画像データを取得したことに応じて、前記複数の学習用画像データごとに、各学習用画像データに映る踏切警標、交差点または歩道橋を検出し、
前記複数の学習用画像データごとに、各学習用画像データにおける前記踏切警標、交差点または歩道橋の位置情報に対して、前記撮像装置から前記踏切警標、交差点または歩道橋までの距離情報を付加することによって、複数の学習データを生成し、
前記複数の学習データを用いた機械学習を行うことによって、学習モデルを生成する、
処理をコンピュータに実行させることを特徴とする学習方法。
撮像装置によって撮像された複数の学習用画像データを取得したことに応じて、前記複数の学習用画像データごとに、各学習用画像データに映る所定種類の物体を検出し、
前記複数の学習用画像データごとに、各学習用画像データにおける前記所定種類の物体の位置情報に対して、前記撮像装置から前記所定種類の物体までの距離情報を付加することによって、複数の学習データを生成し、
前記複数の学習データを用いた機械学習を行うことによって、学習モデルを生成し、
撮像装置によって撮像された第１検出用画像データを取得したことに応じて、前記第１検出用画像データに映る前記所定種類の物体を検出し、
検出した前記所定種類の物体の前記第１検出用画像データにおける位置情報の入力に伴って前記学習モデルから出力される値を、前記第１検出用画像データを撮像した前記撮像装置から前記所定種類の物体までの第１距離情報として特定し、
特定した前記第１距離情報を出力する、
処理をコンピュータに実行させ、
前記第１距離情報を特定する処理では、前記所定種類の物体を検出する処理において複数の前記所定種類の物体を検出した場合、前記複数の所定種類の物体ごとに、前記第１検出用画像データを撮像した前記撮像装置から各所定種類の物体までの前記第１距離情報を特定し、
前記第１距離情報を出力する処理では、特定した前記第１距離情報における最小値を出力することを特徴とする学習方法。