JP2016126436A

JP2016126436A - 画像認識評価システム及び画像認識評価装置

Info

Publication number: JP2016126436A
Application number: JP2014265286A
Authority: JP
Inventors: 健栗原; Takeshi Kurihara
Original assignee: Hitachi Industry and Control Solutions Co Ltd
Current assignee: Hitachi Industry and Control Solutions Co Ltd
Priority date: 2014-12-26
Filing date: 2014-12-26
Publication date: 2016-07-11

Abstract

【課題】従来、映像を解析し、目的とする対象物を抽出するアルゴリズムを評価するためには、オペレータが目視で対象物を認識しなければならず、オペレータ工数が掛かっていた。【解決手段】画像認識評価装置２は、画像処理部３２と、シーン特定部３６と、比較部３８と、を備える。画像処理部３２は、アルゴリズムを用いて、映像から取り出した画像内の対象物毎に認識したシーンを示す認識結果データ３３を出力する。シーン特定部３６は、シーン情報に基づいて特定したシーンを示すシーン識別データ３７を出力する。比較部３８は、認識結果データ３３とシーン識別データ３７とを比較して、画像処理部３２が用いたアルゴリズムの妥当性を評価した比較結果データ４３を出力する。【選択図】図３

Description

本発明は、例えば、カメラが撮影した画像内の標識等を認識する画像認識評価システム及び画像認識評価装置に関する。

近年、カメラが撮影した映像（動画像）に基づいて対象物の特徴を認識することが可能な画像認識システムが提供されつつある。そして、車両の運転者の安全運転を支援するために、車両に設置されたカメラが連続して撮影した映像の内、特定のタイミングの画像（静止画像）に含まれる対象物やその状態をコンピュータ装置で認識することが可能な画像認識システムが求められている。このような画像認識システムは、例えば、信号機の色の変化や速度標識等を認識し、警告音等を発することで運転者に安全運転を促す機能を持つ。

画像認識システムで用いられる概念として「シーン」がある。シーンとは、画像認識システムが映像から取り出した画像を解析して、画像に含まれる対象物が何であるか、その対象物がどのような状態であるかを対象物毎に認識する期間である。ここで、シーンについて、図２０を参照して説明する。

図２０は、シーンの概念図である。図２０Ａは対象物が含まれる画像の第１例であり、図２０Ｂは対象物が含まれる画像の第２例である。また、図２０Ｃはシーンの内容を示している。図２０Ａと図２０Ｂには、それぞれ車載カメラが撮影した映像から取り出された画像が示されている。

図２０Ａに示す画像には、交差点の手前で車載カメラが撮影した対象物として青信号が点灯する信号機１０１が表示され、信号機１０１の奥行き方向に標識１０２（この例では、速度標識）の下部が表示される。しかし、標識１０２は手前の木に遮られており、車載カメラが図２０Ａに示す画像を撮影した時点では画像認識システムが標識１０２を認識することができない。

図２０Ｂに示す画像には、図２０Ａに示す画像を撮影した後、前方に進んだ車両の車載カメラが撮影した対象物が表示される。このとき、車載カメラが図２０Ａに示す画像を撮影した時点から所定時間だけ経過している。そして、画像認識システムは、赤信号が点灯する信号機１０１と共に、図２０Ａでは木に隠れていた標識１０２を認識することができる。

図２０Ｃに示すように、画像認識システムが信号機１０１の青信号が点灯していることを認識する期間（時刻ｔ１〜ｔ２の間）を、青信号を検出するシーンとする。また、画像認識システムが信号機１０１の赤信号が点灯していることを認識する期間（時刻ｔ３〜ｔ４の間）を、赤信号を検出するシーンとする。また、画像認識システムが標識１０２を認識する期間（時刻ｔ５〜ｔ６の間）を、標識１０２を検出するシーンとする。このように画像認識システムが注目する対象物に応じて複数のシーンが同時に存在しうる。

画像認識システムを実用化するには、運転者に誤った情報を提供しないようにするため、画像認識システムで用いられるアルゴリズムが画像を認識する性能を評価することが必要となる。このような評価を行うための尺度の一つとして「認識率」がある。認識率とは、あるシーンにおいて画像認識システムが認識している対象物やその状態が、現実に設置されている対象物と比べてどの程度正しいかを示す尺度である。このため、認識率は、実際のシーンに対して、画像認識システムが認識したシーンの正答率として求められる。例えば、図２０Ｃに示したように、運転者が時刻ｔ１〜ｔ２の間で青信号を認識しているにも関わらず、画像認識システムが青信号を認識する期間が時刻ｔ１〜ｔ２の期間の半分であれば、認識率は５０％のように算出される。

このため、画像認識システムでは、シーン毎の認識率が高い程、対象物を認識する精度が良いアルゴリズムを用いていると言える。そして、この画像認識システムが認識した対象物をデータ化すると共に、適切なアルゴリズムを用いて道路上の標識等の存在を運転者に知らせることで、ナビゲーションシステムの安全性を高めることができる。

従来、画像認識システムが認識率を算出するためには、主に２つの作業が必要であった。１つ目は、オペレータが映像を見ながら映像内の標識を解析し、映像内のシーンを特定する作業である。２つ目は、オペレータが映像を見ながら特定したシーンと、画像認識システムが映像から取り出した画像に基づいて特定したシーンとを対話型認識編集システムを用いて確認する作業である。このように映像内の標識を解析するための技術として特許文献１に開示されたものが知られている。

特許文献１には、標識の認識とその位置を測量計算する機能とを、対話型認識編集システムのメニューから起動できるように構成し、認識処理を編集の前に実施してその標識候補の評価をアイコンの大きさで地図上に表示する技術が開示されている。

特開２００８−２８７３７９号公報

ところで、特許文献１に開示された標識データベースを構築するためには、オペレータが映像を解析する作業が依然として必須である。このため、特許文献１の手法を用いても、解析作業を行うオペレータの工数削減は見込めなかった。

また、画像認識システムが自動的に認識した画像から特定したシーンが実際のシーンに一致するかどうかについてもオペレータが目視確認しなければならない。そして、多くの対象物が存在する環境で画像認識システムがシーンを特定するために用いたアルゴリズムの妥当性を判断することは容易でなかった。

本発明はこのような状況に鑑みて成されたものであり、シーンを識別するために用いられるアルゴリズムの妥当性を容易に判断することを目的とする。

本発明に係る画像認識評価システムは、車両に搭載されるカメラが撮影した映像を収集する車両映像収集装置と、車両映像収集装置から取得する映像から取り出した画像内の対象物を認識するアルゴリズムを評価する画像認識評価装置と、を備える。
車両映像収集装置は、カメラから映像を収集すると共に、車両の乗員が対象物を認識する期間、又は対象物の状態が変化するまでの期間をシーンとして、シーンに対応して乗員が行う動作に基づくシーン情報を収集する。
画像認識評価装置は、画像処理部と、シーン特定部と、比較部と、を有する。
画像処理部は、アルゴリズムを用いて、映像から取り出した画像内の対象物毎に認識したシーンを示す認識結果データを出力する。
シーン特定部は、シーン情報に基づいて特定したシーンを示すシーン識別データを出力する。
比較部は、認識結果データとシーン識別データとを比較して、画像処理部が用いたアルゴリズムの妥当性を評価した比較結果データを出力する。

本発明によれば、シーン識別データと認識結果データとを比較することにより、画像処理部で用いられたアルゴリズムの妥当性を容易に判断できる。また、オペレータが映像を目視しながらシーンを認識していたような作業が自動化されるため、オペレータ工数を削減することができる。
上記した以外の課題、構成及び効果は、以下の実施の形態例の説明により明らかにされる。

本発明の第１の実施の形態例に係る画像認識評価システムの内部構成例を示すブロック図である。本発明の第１の実施の形態例に係る車両映像収集装置の内部構成例を示すブロック図である。本発明の第１の実施の形態例に係る情報処理装置の内部構成例を示すブロック図である。本発明の第１の実施の形態例に係る計算機のハードウェア構成例を示すブロック図である。本発明の第１の実施の形態例に係る初期曲ファイルの構成図である。本発明の第１の実施の形態例に係る操作ＩＤテーブルの構成図である。本発明の第１の実施の形態例に係る曲テーブルの構成図である。本発明の第１の実施の形態例に係る車両情報ファイルの構成図である。本発明の第１の実施の形態例に係る認識結果データの構成図である。本発明の第１の実施の形態例に係るシーン識別データの構成図である。本発明の第１の実施の形態例に係る比較結果データの構成図である。本発明の第１の実施の形態例に係る運転者がシーンを識別する際に行う操作の例を示すフローチャートである。本発明の第１の実施の形態例に係るシーン情報が車両情報ファイルである場合におけるシーン特定部の処理例を示すフローチャートである。本発明の第１の実施の形態例に係る運転者が行う曲選択の操作の例を示す説明図である。本発明の第１の実施の形態例に係るシーン情報が音声データである場合におけるシーン特定部の処理例を示すフローチャートである。本発明の第１の実施の形態例に係るシーン特定部が運転者の発声内容で曲を確定する際の説明図である。本発明の第１の実施の形態例に係る比較部の処理例を示すフローチャートである。本発明の第１の実施の形態の変形例に係る画像認識評価システムの内部構成例を示すブロック図である。本発明の第２の実施の形態例に係る画像認識評価装置の内部構成例を示すブロック図である。シーンの概念図を示す。図２０Ａは対象物が含まれる画像の第１例であり、図２０Ｂは対象物が含まれる画像の第２例である。また、図２０Ｃはシーンの内容を示している。

［１−１．第１の実施の形態例］
以下、本発明の第１の実施の形態例に係る画像認識評価システムについて、図１〜図１７を参照して説明する。
本明細書及び図面において、実質的に同一の機能又は構成を有する構成要素については、同一の符号を付することにより重複する説明を省略する。

＜画像認識評価システムの構成例＞
図１は、本発明の第１の実施の形態例に係る画像認識評価システム１０の内部構成例を示す。
画像認識評価システム１０は、車両１に設けられる車両映像収集装置１７と、画像認識評価装置２に設けられる情報処理装置３０を組み合わせて構成される。この画像認識評価システム１０は、カメラ１１が撮影した画像から特定の対象物を認識してシーンを検出するだけでなく、車両映像収集装置１７から取得する映像から取り出した画像内の対象物を認識する画像認識アルゴリズムを評価することもできる。以下の説明では、この画像認識アルゴリズムを、「アルゴリズム」と略記する。

車両１は、カメラ１１、マイクロフォン１２（図中では「マイク」と表記する。）、遠隔制御装置１３、オーディオ装置１４、スピーカ１５、車両映像収集装置１７、車載ＬＡＮ１８を備える。この車両映像収集装置１７は、カメラ１１から映像を収集し、マイクロフォン１２、遠隔制御装置１３又はオーディオ装置１４からシーン情報１６を収集する。このシーン情報１６は、車両映像収集装置１７が、車両の乗員が対象物を認識する期間、又はこの対象物の状態が変化するまでの期間をシーンとして、シーンに対応して乗員が行う動作に基づいて収集する情報である。

カメラ１１は、車両１の不図示のインサイドミラーの裏面、ダッシュボード等に取付けられ、車両１の進行方向の対象物を撮影し、映像を車両映像収集装置１７に出力する。
マイクロフォン１２は、車両１の車内に取付けられ、運転者（乗員の一例）がシーンを識別して発声した音声、又はオーディオ装置１４がスピーカ１５を通じて放音した音声のいずれかを集音して得た音声情報を車両映像収集装置１７に出力する。なお、乗員には、運転者以外に、車両１の同乗者であって運転を行っていない者も含まれる。

遠隔制御装置１３は、車両１の不図示のステアリング・ホイールに取付けられる。遠隔制御装置１３は小さいため、運転者は運転中であっても、例えば親指だけで遠隔制御装置１３を操作し、オーディオ装置１４に指示を与えることができる。遠隔制御装置１３は、運転者が行った操作内容が含まれる車両情報を車載ＬＡＮ１８に出力する。
オーディオ装置１４は、不図示のメディアから読み出して再生した曲をスピーカ１５より放音する。ここで、曲とは、画像認識評価を行うために用意された音声であるが、旋律等であってもよい。

車両映像収集装置１７は、カメラ１１から入力する映像と、音声情報又は車両情報を収集し、これらの情報を記録媒体Ｍに記録する。
シーン情報１６は、記録媒体Ｍに記録される情報の一部である。このシーン情報１６には、マイクロフォン１２が集音した音声情報、又は遠隔制御装置１３から車載ＬＡＮ１８を介して入力する車両情報のいずれかが含まれる。

画像認識評価装置２は、情報処理装置３０を備える。この情報処理装置３０は、初期曲ファイル４０、操作ＩＤテーブル４１、曲テーブル４２から読込んだ情報と、記録媒体Ｍから読込んだ情報とに基づき、比較結果データ４３を出力する。ここで、初期曲ファイル４０には、オーディオ装置１４の再生開始時にスピーカ１５より放音される曲の曲番号（トラック番号）が記録され、操作ＩＤテーブル４１には、運転者によってなされた操作を識別するための操作ＩＤが記録される。そして、曲テーブル４２には、曲番号毎に曲の情報が記録される。

そして、比較結果データ４３には、情報処理装置３０がカメラ１１から入力した映像（後述する映像データＭ１）に基づいて特定したシーンと、シーン情報１６により特定したシーンとを比較して算出したシーンの認識率が含まれる。このため、画像認識評価装置２を操作するユーザは、情報処理装置３０が出力した比較結果データ４３により、情報処理装置３０がシーンを認識するために用いたアルゴリズムの妥当性を判断することができる。

＜車両映像収集装置の構成例＞
図２は、車両映像収集装置１７の内部構成例を示す。
車両映像収集装置１７は、カメラ入力インタフェース（以下、Ｉ／Ｆ（Inter Face）と記載する。）１９、映像記録部２０、音声入力Ｉ／Ｆ２１、音声記録部２２、車両情報Ｉ／Ｆ２３、車両情報選択部２４を備える。また、記録媒体Ｍには、映像データＭ１、音声データＭ２、車両情報ファイルＭ３が記録される。

カメラ入力Ｉ／Ｆ１９には、カメラ１１から映像が入力される。そして、映像記録部２０は、カメラ入力Ｉ／Ｆ１９に入力した映像を記録媒体Ｍに映像データＭ１として記録する。

音声入力Ｉ／Ｆ２１には、マイクロフォン１２から音声情報が入力される。そして、音声記録部２２は、音声入力Ｉ／Ｆ２１に入力した音声情報を記録媒体Ｍに音声データＭ２として記録する。車両映像収集装置１７が音声情報を収集すると、この音声情報が記録媒体Ｍに音声データＭ２として記録され、音声データＭ２がシーン情報１６として用いられる。

車両情報Ｉ／Ｆ２３には、遠隔制御装置１３から車載ＬＡＮ１８を介して車両情報が入力される。この車両情報には、運転者が遠隔制御装置１３を用いて操作した曲順の変更を示す操作内容の他、スピーカ１５から放音される音声の音量調整といった本実施の形態例においてシーンの特定に使用しない操作内容も含まれる。

このため、車両情報選択部２４は、車両情報Ｉ／Ｆ２３に入力した車両情報から運転者がシーンを識別して行った操作を含む車両情報（例えば、曲順の変更を示す操作内容）を選択し、この選択した車両情報を記録媒体Ｍに車両情報ファイルＭ３として記録する。車両映像収集装置１７が車両情報を収集すると、この車両情報が記録媒体Ｍに車両情報ファイルＭ３として記録され、車両情報ファイルＭ３がシーン情報１６として用いられる。車両情報ファイルＭ３は、後述する図８で示される形式のファイルであり、車両情報のＩＤと内容、タイムスタンプが記録される。

＜情報処理装置の構成例＞
図３は、情報処理装置３０の内部構成例を示す。
情報処理装置３０は、映像入力部３１、画像処理部３２、認識結果データ３３、音声入力部３４、車両情報入力部３５、シーン特定部３６、シーン識別データ３７及び比較部３８を備える。

記録媒体Ｍに記録された映像データＭ１、音声データＭ２、車両情報ファイルＭ３は、それぞれ映像入力部３１、音声入力部３４、車両情報入力部３５へ入力される。

画像処理部３２は、映像入力部３１を通じて入力する映像データＭ１を解析することで、所定タイミングで映像から画像を取り出す。そして、この画像内の対象物を認識してシーンを特定するアルゴリズムを用いて、対象物毎に認識したシーンを示す認識結果データ３３を出力する。このアルゴリズムが、画像認識評価システム１０において評価対象となる。画像処理部３２で用いられるアルゴリズムとしては、例えば、標識に対してはパターンマッチングを行うもの、信号機に対しては形状と色の変化を識別するもの、車線や縁石に対しては２値化とベクトル演算の処理を行うものがある。

シーン特定部３６は、シーン情報１６に基づいて特定したシーンを示すシーン識別データ３７を出力する。具体的には、シーン特定部３６は、音声入力部３４を通じて入力する音声データＭ２、又は車両情報入力部３５を通じて入力する車両情報ファイルＭ３を解析し、識別したシーンを特定するためのシーン識別データ３７を出力する。後述する図９と図１０に示すように、認識結果データ３３とシーン識別データ３７は、同じ形式で構成されており、シーン毎にタイムスタンプと、シーンとが記録される。このため、比較部３８は、認識結果データ３３とシーン識別データ３７を比較しやすい。

比較部３８は、認識結果データ３３とシーン識別データ３７とを比較し、シーン毎に認識率を算出する。本実施の形態例において、認識率とは、シーン識別データ３７に示される対象物、又は対象物の状態に対する、認識結果データ３３に示される対象物、又は対象物の状態の正しさの度合いである。この認識率は、例えば、認識結果データ３３によって示されるシーンの期間に対する、シーン識別データ３７によって示されるシーンの期間の比率で表される。この比較部３８は、認識率をシーン毎に算出することで、画像処理部３２が用いたアルゴリズムの妥当性を評価した比較結果データ４３を出力する。

そして、ユーザは、比較結果データ４３に基づき、画像処理部３２が採用したアルゴリズムでは正確に画像を認識できなかったと判断した場合、認識率が所定値に達するまで、画像処理部３２に別のアルゴリズムを読み込ませ、再び画像を認識させる。これにより、画像認識評価システム１０は、シーン毎に適切なアルゴリズムを選択することができる。

＜計算機のハードウェア構成例＞
次に、画像認識評価システム１０の各装置を構成する計算機５０のハードウェア構成を説明する。
図４は、計算機５０のハードウェア構成例を示すブロック図である。

計算機５０は、いわゆるコンピュータとして用いられるハードウェアである。この計算機５０は、画像認識評価装置２、車両映像収集装置１７として用いられる。計算機５０は、バス５４にそれぞれ接続されたＣＰＵ（Central Processing Unit：中央処理装置）５１、ＲＯＭ（Read Only Memory）５２、ＲＡＭ（Random Access Memory）５３を備える。さらに、計算機５０は、表示部５５、操作部５６、不揮発性ストレージ５７、ネットワークインタフェース５８、記録媒体インタフェース５９とを備える。

ＣＰＵ５１は、本実施の形態例に係る各機能を実現するソフトウェアのプログラムコードをＲＯＭ５２から読み出して実行する。ＲＡＭ５３には、演算処理の途中に発生した変数やパラメータ等が一時的に書き込まれる。表示部５５は、例えば、液晶ディスプレイモニタであり、計算機５０で行われる処理の結果等をユーザに表示する。操作部５６には、例えば、キーボード、マウス等が用いられ、これらを用いてユーザは所定の操作入力、指示を行うことが可能である。ただし、車両映像収集装置１７には、表示部５５、操作部５６を設けなくてもよい。

不揮発性ストレージ５７としては、例えば、ＨＤＤ（Hard disk drive）、ＳＳＤ（Solid State Drive）、フレキシブルディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード等が用いられる。この不揮発性ストレージ５７には、ＯＳ（Operating System）、各種のパラメータの他に、計算機５０を機能させるためのプログラム、各種のファイル、テーブル等も記録されている。

ネットワークインタフェース５８には、例えば、ＮＩＣ（Network Interface Card）等が用いられ、端子が接続されたＬＡＮ、専用線、ネットワークのいずれかを介して各種のデータを送受信することが可能である。
記録媒体インタフェース５９には、図１に示した記録媒体Ｍが差込まれる。そして、ＣＰＵ５１は、記録媒体インタフェース５９を介して記録媒体Ｍにアクセス可能となる。

＜ファイル及びテーブルの構成例＞
次に、ファイル及びテーブルの構成例について、図５〜図１１を参照して説明する。

図５は、初期曲ファイル４０の構成例を示す。
初期曲ファイル４０は、曲番号のフィールドを有する。この例では、曲番号に“１”が格納されているため、曲テーブル４２から初期曲として読み出される曲の音声は無音となる。

図６は、操作ＩＤテーブル４１の構成例を示す。
操作ＩＤテーブル４１は、操作ＩＤと操作内容のフィールドを有しており、運転者が遠隔制御装置１３を用いて行う操作内容を格納する。操作ＩＤが“１２３”であれば、運転者が遠隔制御装置１３を用いて行う操作は、「オーディオ装置オン」であって、オーディオ装置１４の電源をオンしたことを示す。また、操作ＩＤが“２４６”であれば、運転者が遠隔制御装置１３を用いて行う操作は、「次曲選択」又は「前曲選択」のいずれかである。運転者が行った操作が「次曲選択」又は「前曲選択」のいずれであるかは、図８の車両情報ファイルＭ３の操作の内容によって示される。

図７は、曲テーブル４２の構成例を示す。
曲テーブル４２は、曲番号、音声、対応シーンのフィールドを有しており、シーンに対応する音声情報を格納する。曲番号には、曲テーブル４２に格納される曲を特定するための連番が格納される。音声には、オーディオ装置１４によって再生される音声の内容が格納される。対応シーンには、オーディオ装置１４によって再生される音声に対応するシーンの内容が格納される。例えば、曲番号が“１”であれば、オーディオ装置１４は無音を再生する。また、曲番号が“２”であれば、オーディオ装置１４は、「青信号を検出しました。」という音声を再生し、スピーカ１５より再生した音声を放音する。

図８は、車両情報ファイルＭ３の構成例を示す。
車両情報ファイルＭ３は、タイムスタンプ、操作ＩＤ、内容のフィールドを有する。タイムスタンプには、運転者によって操作が行われた瞬間の日時が記録され、操作ＩＤには操作ＩＤテーブル４１に定義づけられる値が記録される。そして、内容には、運転者によって行われた具体的な操作の内容が記録される。例えば、運転者が遠隔制御装置１３を用いてオーディオ装置１４に指示を与えると、操作ＩＤフィールドに“１２３”が格納され、オーディオ装置１４の電源をオンしたことが内容フィールドの英数字によって表される。また、例えば、運転者が遠隔制御装置１３を用いて曲を変更すると、操作ＩＤフィールドに“２４６”が格納され、運転者が遠隔制御装置１３を用いて曲選択を行ったことが内容フィールドの英数字によって表される。

図９は、認識結果データ３３の構成例を示す。
認識結果データ３３は、タイムスタンプ、シーンのフィールドを有する。認識結果データ３３に格納されるタイムスタンプ毎のデータは、図８に示した車両情報ファイルＭ３に格納されるタイムスタンプ毎のデータと同じである。そして、シーンフィールドには、画像処理部３２がアルゴリズムを用いて映像データＭ１を解析して認識したシーンが格納される。この例において画像処理部３２は、青信号を検出した後、赤信号を検出したことが分かる。

図１０は、シーン識別データ３７の構成例を示す。
シーン識別データ３７は、認識結果データ３３と同様にタイムスタンプ、シーンのフィールドを有する。シーンフィールドには、シーン特定部３６が音声情報又は車両情報に基づいて特定したシーンが格納される。この例では、シーン識別データ３７に格納されるデータは、図９に示す認識結果データ３３に格納されたデータと同じである。しかし、画像処理部３２が用いたアルゴリズムの認識率が低ければ、シーン識別データ３７と認識結果データ３３に格納されるタイムスタンプやシーンは異なる。

図１１は、比較結果データ４３の構成例を示す。
比較結果データ４３は、タイムスタンプ、シーン、認識率のフィールドを有する。比較結果データ４３に格納されるタイムスタンプとシーンは、認識結果データ３３に格納されていたタイムスタンプとシーンと同じである。認識率には、シーン毎に比較部３８が算出した認識率が格納される。この例では、認識結果データ３３とシーン識別データ３７が同じであるため、シーン毎の認識率も１００％となっている。

＜運転者が行う操作の例＞
次に、運転者が行う操作について、図１２を参照して説明する。この操作は、画像認識評価を行うために基準となる情報（この例では、曲）を運転者が確定するために行われる。
図１２は、運転者がシーンを識別する際に行う操作の例を示す。

始めに、運転者は、オーディオ装置１４を操作して初期曲を再生する（Ｓ１）。このオーディオ装置１４は、不図示のメディアから読み出した初期曲をリピート再生する。なお、運転者がシーンを認識する前には、例えば、曲番号が“１”である無音の初期曲がオーディオ装置１４によってリピート再生される。

次に、運転者は、車両１を運転しながら、車両１の進行方向の景色の中に認識すべきシーンがあるか否かを判断する（Ｓ２）。運転者は、景色の中に認識すべきシーンがなければ、シーンを認識するまで待つ。

一方、運転者は、景色の中に認識すべきシーンがあると判断すると、遠隔制御装置１３を用いて曲選択の操作を行い、運転者が認識したシーンに対応する目的の曲を選択する（Ｓ３）。そして、運転者は、選択した曲がオーディオ装置１４によって再生されると、この曲を聴いて内容を確認し（Ｓ４）、運転者が認識したシーンに対応する目的の曲が再生されているか否かを判断する（Ｓ５）。

運転者は、再生された曲が目的の曲ではないと判断すれば、ステップＳ４に戻って、曲選択をやり直す。一方、運転者は、再生された曲が目的の曲であると判断すれば、確定待ち時間として一定時間（例えば、５秒間）以上、操作を止め、曲を確定する（Ｓ６）。このとき、オーディオ装置１４がビープ音を再生する等によって、運転者に曲の確定を通知しても良い。そして、オーディオ装置１４はリピート再生する設定となっているため、運転者が次のシーンを認識するまで、運転者が確定した同じ曲が繰り返し再生される。

そして、図２に示したように、運転者が行った一連の遠隔制御装置１３の操作内容は車両情報ファイルＭ３として記録媒体Ｍに記録され、オーディオ装置１４によって再生された音声は音声データＭ２として記録媒体Ｍに記録される。なお、記録媒体Ｍには、車両情報ファイルＭ３又は音声データＭ２のいずれかのみを記録しても良い。また、音声データＭ２には運転者が自ら発声した音声（例えば、「赤信号を検出しました。」といった音声）が記録されても良い。

＜情報処理装置の処理例＞
次に、情報処理装置３０内の各部が行う処理例について説明する。
ここでは、シーン情報１６が車両情報ファイルＭ３である場合と、音声データＭ２である場合とに分けて順に説明する。

図１３は、シーン情報１６が車両情報ファイルＭ３である場合におけるシーン特定部３６の処理例を示す。この車両情報ファイルＭ３には、運転者が遠隔制御装置１３を用いて車両１に搭載されるオーディオ装置１４に放音させる曲を選択する操作の内容が含まれるものとする。

始めに、シーン特定部３６は、初期曲が記述された初期曲ファイル４０を読み込み（Ｓ１１）、続いて車両情報ファイルＭ３を読み込む（Ｓ１２）。次に、シーン特定部３６は、ステップＳ１２で読み込んだ車両情報ファイルＭ３に、シーンの識別に用いられる車両情報が含まれているか否かを判断する（Ｓ１３）。

シーン特定部３６は、車両情報ファイルＭ３にシーンの識別に用いられる車両情報が含まれていないと判断すると、処理を終了する。一方、シーン特定部３６は、車両情報ファイルＭ３にシーンの識別に用いられる車両情報が含まれていると判断すると、曲確定処理を行う（Ｓ１４）。この曲確定処理において、シーン特定部３６は、車両情報ファイルＭ３に含まれる操作内容を判別する。そして、シーン特定部３６は、判別した運転者の操作内容と、操作ＩＤテーブル４１を参照して読み出した操作内容とを照合して、運転者が遠隔制御装置１３を用いて選択した曲の曲番号を算出する。

次に、シーン特定部３６は、算出した曲番号と、曲テーブル４２の曲番号とを照合し、曲テーブル４２から曲番号に対応するシーンを特定することで、運転者が認識したシーンを識別する。そして、シーン特定部３６は、識別したシーンをシーン識別データ３７にタイムスタンプと共に書込んで出力する（Ｓ１５）。

ここで、シーン特定部３６は、乗員によって行われた操作とは異なる操作が所定期間内に行われていないと判断した場合に、操作によって選択された曲番号を、シーンを特定するための曲番号として確定する。例えば、確定待ち時間が５秒間であれば、選択曲番号が“３”のまま操作が行われず、５秒間が経過すると、シーン特定部３６は、曲番号を“３”で確定する。このとき、シーン特定部３６は、赤信号検出というシーンを特定する。

図１４は、運転者が行う曲選択の操作の例を示す。
運転者が遠隔制御装置１３を用いて次曲を選択する操作は「＋」で表示され、前曲を選択する操作は「−」で表示される。初期曲の曲番号が“１”である場合に、次曲の選択操作がなされる度に、選択曲番号が“１”ずつ増加する。そして、選択曲番号が“３”のまま操作が行われず、例えば、５秒間が経過すると、曲番号が“３”で確定する。曲番号の確定は、例えば、５秒間を経過すると、オーディオ装置１４がビープ音を再生する等によって、運転者に通知しても良い。その後、オーディオ装置１４はリピート再生した「赤信号を検出しました。」との音声をスピーカ１５より放音する。

図１５は、シーン情報１６が音声データＭ２である場合におけるシーン特定部３６の処理例を示す。この音声データＭ２には、車両１に搭載されるマイクロフォン１２が集音した音声の音声情報が含まれるものとする。

始めに、シーン特定部３６は、記録媒体Ｍから読み込んだ音声データＭ２の音声認識を行い、マイクロフォン１２が集音した音声の音声部分（音声情報の一例）を抽出する。合わせて、シーン特定部３６は、曲テーブル４２を参照して、この曲テーブル４２で定義されている音声部分を抽出する（Ｓ２１）。

そして、シーン特定部３６は、音声データＭ２から抽出した音声部分と、曲テーブル４２から抽出した音声部分とを照合してシーンを特定し、この特定したシーンを含む照合結果をシーン識別データ３７として出力する（Ｓ２２）。上述したように、運転者がシーンを認識した後は、オーディオ装置１４によって音声がリピート再生される。例えば、赤信号であれば、曲テーブル４２にて定義される「赤信号を検出しました。」という音声が再生される。

そして、運転者が別のシーン、例えば、信号機の点灯が赤信号から青信号に変わったことを認識し、運転者が「青信号を検出しました。」と発声すると、曲テーブル４２で定義される「赤信号を検出しました。」との音声と異なる。これにより、シーン特定部３６は、シーンが変わったことを識別できる。

このとき、運転者は目的の曲が再生されるまで曲選択操作を繰り返す。そして、シーン特定部３６は、マイクロフォン１２が集音した音声とは異なる音声を所定期間内に集音していないと判断した場合に、マイクロフォン１２が集音した音声に基づいてシーンを特定する。例えば、シーン特定部３６は、同じ音声が５秒間以上再生され続けると、曲が確定したものと判断する。

図１６は、シーン特定部３６が運転者の発声内容で曲を確定する例を示す。
運転者が「赤信号を検出しました。」と発声した後、「青信号を検出しました。」と発声し、さらに「赤信号を検出しました。」と発声したとする。運転者が最後に発声してから５秒間が経過すると、シーン特定部３６は、曲番号“３”を確定する。そして、シーン特定部３６は、確定した曲番号に基づいて特定したシーンを赤信号検出としてシーン識別データ３７を出力する。

図１７は、比較部３８の処理例を示す。
始めに、比較部３８は、認識結果データ３３を読み込み（Ｓ３１）、シーン識別データ３７を読み込む（Ｓ３２）。そして、比較部３８は、読み込んだ認識結果データ３３とシーン識別データ３７とを比較し（Ｓ３３）、シーン識別データ３７に対する認識結果データ３３の認識率を算出する。その後、比較部３８は、算出した認識率を比較結果データ４３に出力する。

以上説明した画像認識評価システム１０では、運転者が認識したシーンと、画像処理部３２がアルゴリズムを用いて映像データＭ１を解析して認識したシーンとを比較し、画像処理部３２が認識したシーンの認識率を求めることができる。また、ユーザは、比較結果データ４３に含まれるシーン毎の認識率の高低により、画像処理部３２が用いたアルゴリズムの妥当性を評価することができる。このため、従来はオペレータが映像を見ながらシーンを特定していたような解析作業を簡素化し、オペレータの工数を削減することができる。また、従来は人手を必要としていたアルゴリズムの評価を自動化し、評価手順を簡略化することで、製品（例えば、ナビゲーションシステム）の開発コストを抑えることができる。

また、あるシーンで認識率が低ければ、別のアルゴリズムを画像処理部３２に用いさせることで、画像処理部３２に再びシーンの認識を行わせる。このようにユーザは、シーンの認識率が高いアルゴリズムを選択することができる。

また、車両１の運転者は、運転に支障を来さない程度のわずかな動作、例えば、運転者が発声し、又は運転者が遠隔制御装置１３を操作することによって、運転者が認識したシーンを画像認識評価装置２に示すことができる。このように運転者は、シーン情報を取得するトリガとなる動作を行うために運転者自身の身体の一部を大きく動かすような動作が不要であるため、車両１の運転に支障を来さない。

また、画像認識評価システム１０によって評価されたアルゴリズムを用いることで、例えば、車両の進行方向に設置されている標識等を自動的に認識し、適切な情報を運転者に与えることができる。これにより例えば、ナビゲーションシステムに応用するだけでなく、車両の自動運転装置を実現することも可能となる。

［１−２．第１の実施の形態の変形例］
次に、上述した第１の実施の形態の変形例に係る画像認識評価装置２Ａについて、図１８を参照して説明する。

図１８は、画像認識評価装置２Ａの構成例を示す。
この画像認識評価装置２Ａは、上述した第１の実施の形態例に係る画像認識評価装置２とほぼ同じ構成としているが、比較結果データ４３にアクセスするフィードバック部３９を備える点が異なる。

このフィードバック部３９は、比較結果データ４３にアクセスし、画像処理部３２が選択したアルゴリズムの妥当性を判断する。そして、比較結果データ４３に示されるシーンの認識率が所定値より低い場合に、画像処理部３２で始めに用いられたアルゴリズムとは異なるアルゴリズムを用いた処理を画像処理部３２に行わせる。画像処理部３２が画像処理を行って出力した認識結果データ３３は、再び比較部３８でシーン識別データ３７と比較され、認識率が算出される。これにより、画像認識評価装置２Ａは、フィードバック部３９を用いてアルゴリズムを選択し、比較部３８に認識率を算出させる処理を繰り返すことで、認識率が高いアルゴリズムをシーン毎に選択することができる。そして、画像認識評価装置２Ａは、評価の高いアルゴリズムを用いた処理を画像処理部３２に行わせることができる。

［２．第２の実施の形態例］
次に、本発明の第２の実施の形態例に係る画像認識評価装置２Ｂについて、図１９を参照して説明する。

図１９は、画像認識評価装置２Ｂの構成例を示す。
この画像認識評価装置２Ｂは、上述した第１の実施の形態例に係る画像認識評価装置２とほぼ同じ構成としているが、車両１に搭載されている点が異なる。

そして、画像認識評価装置２Ｂが備える情報処理装置３０Ａは、上述した第１の実施の形態例に係る車両映像収集装置１７が有する各機能を含む。このため、情報処理装置３０Ａは単独でカメラ１１から映像を収集すると共に、マイクロフォン１２、遠隔制御装置１３、オーディオ装置１４からシーン情報１６を収集することができる。そして、情報処理装置３０Ａは、収集した映像と、シーン情報１６とに基づいて、所定の処理を行い、比較結果データ４３を出力することができる。

このような画像認識評価装置２Ｂを用いれば、記録媒体Ｍの介在が不要となる。このため、画像処理部３２が画像処理に用いるアルゴリズムの評価をリアルタイムで行うことが可能である。また、記録媒体Ｍの紛失といったリスクを低減できる。

［３．変形例］
なお、オーディオ装置１４は、スピーカ１５より放音される音声に対応する曲番号を車両情報として車載ＬＡＮ１８に出力することもできる。そして、シーン特定部３６は、この車両情報に基づいてシーンを特定してもよい。また、シーン特定部３６は曲番号が切り替わった瞬間を正確に求めることが可能となる。

また、運転者以外の乗員が遠隔制御装置１３を用いるのであれば、車両１のピラー、ダッシュボード等に遠隔制御装置１３を取付けても良い。また、例えば、スマートフォン等の携帯端末に、遠隔制御装置１３と同じ機能を持たせても良い。

また、カメラ１１は、車両１の前方だけでなく、車両１の側方を撮影可能に設置されても良いし、車両１の車外に設置されても良い。また、例えば、半球レンズを備えたカメラ１１を用いて、パノラマ撮影を行っても良い。

また、車両１に運転者と同乗する乗員がシーンを認識したときに、この乗員が発声し、又は遠隔制御装置１３を操作しても良い。これにより運転者は集中して運転することができる。

また、車両１としては、自動車以外にも、オートバイ、自転車等であってもよい。

また、上述した第１の実施の形態例に係る画像認識評価システム１０では、記録媒体Ｍにデータ及びファイルを記録させていたが、車両映像収集装置１７が収集したデータ及びファイルを情報処理装置３０に無線送信してもよい。これにより車両１の外部にある施設にて画像処理に用いられたアルゴリズムの評価をリアルタイムで行うことも可能となる。

また、運転者がシーンを認識し、所定の動作を開始する時間と、画像処理部３２が映像データＭ１を読込んでシーンの認識を開始する時間にはズレが生じることも想定される。このため、比較部３８は、例えば、運転者が所定の動作を開始する時間に前後して数秒間以内で画像処理部３２がシーンの認識を開始すれば、画像処理部３２が認識したシーンと、シーン情報１６とを比較してもよい。

また、認識結果データ３３と、比較結果データ４３には、画像処理部３２が認識したシーン毎に用いたアルゴリズムの名称等を含めても良い。また、比較結果データ４３には、一定期間（例えば、３０分毎）に算出したシーン毎の認識率の平均値と、画像処理部３２が用いたアルゴリズムを併記しても良い。これにより、画像処理部３２で用いられたアルゴリズムの良否を判断しやすくなる。

また、本発明は上述した実施の形態例に限られるものではなく、特許請求の範囲に記載した本発明の要旨を逸脱しない限りその他種々の応用例、変形例を取り得ることは勿論である。
例えば、上述した実施の形態例は本発明を分かりやすく説明するために装置及びシステムの構成を詳細且つ具体的に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることは可能であり、さらにはある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、置換をすることも可能である。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１…車両、２…画像認識評価装置、１０…画像認識評価システム、１６…シーン情報、１７…車両映像収集装置、３０…情報処理装置、３１…映像入力部、３２…画像処理部、３３…認識結果データ、３４…音声入力部、３５…車両情報入力部、３６…シーン特定部、３７…シーン識別データ、３８…比較部

Claims

車両に搭載されるカメラが撮影した映像を収集する車両映像収集装置と、前記車両映像収集装置から取得する前記映像から取り出した画像内の対象物を認識するアルゴリズムを評価する画像認識評価装置と、を備え、
前記車両映像収集装置は、前記カメラから前記映像を収集すると共に、前記車両の乗員が前記対象物を認識する期間、又は前記対象物の状態が変化するまでの期間をシーンとして、前記シーンに対応して前記乗員が行う動作に基づくシーン情報を収集し、
前記画像認識評価装置は、
前記アルゴリズムを用いて、前記映像から取り出した画像内の前記対象物毎に認識したシーンを示す認識結果データを出力する画像処理部と、
前記シーン情報に基づいて特定したシーンを示すシーン識別データを出力するシーン特定部と、
前記認識結果データと前記シーン識別データとを比較して、前記画像処理部が用いた前記アルゴリズムの妥当性を評価した比較結果データを出力する比較部と、を備える
画像認識評価システム。
前記比較部は、前記認識結果データに示される前記対象物、又は前記対象物の状態に対する、前記シーン識別データに示される前記対象物、又は前記対象物の状態の正しさの度合いである認識率を前記シーン毎に算出する
請求項１に記載の画像認識評価システム。
前記画像認識評価装置は、
前記シーンに対応する音声情報が格納される曲テーブルと、
遠隔制御装置を用いて行われる操作内容が格納される操作テーブルと、を有し、
前記シーン特定部は、前記シーン情報が、前記乗員が遠隔制御装置を用いて前記車両に搭載されるオーディオ装置に放音させる曲を選択する操作の内容を含む車両情報である場合に、前記車両情報に含まれる前記操作内容と、前記操作テーブルから読み出した前記操作内容とを照合して、前記乗員が選択した曲の曲番号を特定し、前記曲テーブルから前記曲番号に対応する前記シーンを特定する
請求項２に記載の画像認識評価システム。
前記シーン特定部は、前記乗員によって行われた操作とは異なる操作が所定期間内に行われていないと判断した場合に、前記操作によって選択された前記曲番号を、前記シーンを特定するための曲番号として確定する
請求項３に記載の画像認識評価システム。
前記画像認識評価装置は、前記シーンに対応する音声情報が格納される曲テーブルを有し、
前記シーン特定部は、前記シーン情報が、前記車両に搭載されるマイクロフォンが集音した音声の音声情報である場合に、前記マイクロフォンが集音した音声の前記音声情報と、前記曲テーブルから読み出した前記音声情報とを照合して、前記シーンを特定する
請求項２に記載の画像認識評価システム。
前記シーン特定部は、前記マイクロフォンが集音した音声とは異なる音声を所定期間内に集音していないと判断した場合に、前記マイクロフォンが集音した音声に基づいて前記シーンを特定する
請求項５に記載の画像認識評価システム。
前記車両映像収集装置は、
前記映像を映像データとして記録媒体に記録する映像記録部と、
前記車両に搭載されるマイクロフォンが集音した音声情報を音声データとして記録媒体に記録する音声記録部と、
前記乗員が前記シーンを識別して行った操作を選択して、前記操作の内容を車両情報として記録媒体に記録する車両情報選択部と、を備え、
前記画像認識評価装置は、前記記録媒体より、前記映像データを読み出すと共に、前記音声データ又は前記車両情報のいずれかを読み出す
請求項２に記載の画像認識評価システム。
さらに、前記比較結果データに示される前記シーンの認識率が所定値より低い場合に、前記画像処理部で用いられた前記アルゴリズムとは異なるアルゴリズムを用いた処理を前記画像処理部に行わせるフィードバック部を備える
請求項１〜７のいずれか１項に記載の画像認識評価システム。
車両に搭載されるカメラが撮影した映像から取り出した画像内の対象物毎に認識するアルゴリズム用いて、シーンを示す認識結果データを出力する画像処理部と、
前記車両の乗員が前記対象物を認識する期間、又は前記対象物の状態が変化するまでの期間を前記シーンとして、前記シーンに対応して前記乗員が行う動作に基づくシーン情報に基づいて特定したシーンを示すシーン識別データを出力するシーン特定部と、
前記認識結果データと前記シーン識別データとを比較して、前記画像処理部が用いた前記アルゴリズムの妥当性を評価した比較結果データを出力する比較部と、を備える
画像認識評価装置。