JP2016126436A - 画像認識評価システム及び画像認識評価装置 - Google Patents

画像認識評価システム及び画像認識評価装置 Download PDF

Info

Publication number
JP2016126436A
JP2016126436A JP2014265286A JP2014265286A JP2016126436A JP 2016126436 A JP2016126436 A JP 2016126436A JP 2014265286 A JP2014265286 A JP 2014265286A JP 2014265286 A JP2014265286 A JP 2014265286A JP 2016126436 A JP2016126436 A JP 2016126436A
Authority
JP
Japan
Prior art keywords
scene
vehicle
image
information
image recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014265286A
Other languages
English (en)
Inventor
健 栗原
Takeshi Kurihara
健 栗原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Industry and Control Solutions Co Ltd
Original Assignee
Hitachi Industry and Control Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Industry and Control Solutions Co Ltd filed Critical Hitachi Industry and Control Solutions Co Ltd
Priority to JP2014265286A priority Critical patent/JP2016126436A/ja
Publication of JP2016126436A publication Critical patent/JP2016126436A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

【課題】従来、映像を解析し、目的とする対象物を抽出するアルゴリズムを評価するためには、オペレータが目視で対象物を認識しなければならず、オペレータ工数が掛かっていた。【解決手段】画像認識評価装置2は、画像処理部32と、シーン特定部36と、比較部38と、を備える。画像処理部32は、アルゴリズムを用いて、映像から取り出した画像内の対象物毎に認識したシーンを示す認識結果データ33を出力する。シーン特定部36は、シーン情報に基づいて特定したシーンを示すシーン識別データ37を出力する。比較部38は、認識結果データ33とシーン識別データ37とを比較して、画像処理部32が用いたアルゴリズムの妥当性を評価した比較結果データ43を出力する。【選択図】図3

Description

本発明は、例えば、カメラが撮影した画像内の標識等を認識する画像認識評価システム及び画像認識評価装置に関する。
近年、カメラが撮影した映像(動画像)に基づいて対象物の特徴を認識することが可能な画像認識システムが提供されつつある。そして、車両の運転者の安全運転を支援するために、車両に設置されたカメラが連続して撮影した映像の内、特定のタイミングの画像(静止画像)に含まれる対象物やその状態をコンピュータ装置で認識することが可能な画像認識システムが求められている。このような画像認識システムは、例えば、信号機の色の変化や速度標識等を認識し、警告音等を発することで運転者に安全運転を促す機能を持つ。
画像認識システムで用いられる概念として「シーン」がある。シーンとは、画像認識システムが映像から取り出した画像を解析して、画像に含まれる対象物が何であるか、その対象物がどのような状態であるかを対象物毎に認識する期間である。ここで、シーンについて、図20を参照して説明する。
図20は、シーンの概念図である。図20Aは対象物が含まれる画像の第1例であり、図20Bは対象物が含まれる画像の第2例である。また、図20Cはシーンの内容を示している。図20Aと図20Bには、それぞれ車載カメラが撮影した映像から取り出された画像が示されている。
図20Aに示す画像には、交差点の手前で車載カメラが撮影した対象物として青信号が点灯する信号機101が表示され、信号機101の奥行き方向に標識102(この例では、速度標識)の下部が表示される。しかし、標識102は手前の木に遮られており、車載カメラが図20Aに示す画像を撮影した時点では画像認識システムが標識102を認識することができない。
図20Bに示す画像には、図20Aに示す画像を撮影した後、前方に進んだ車両の車載カメラが撮影した対象物が表示される。このとき、車載カメラが図20Aに示す画像を撮影した時点から所定時間だけ経過している。そして、画像認識システムは、赤信号が点灯する信号機101と共に、図20Aでは木に隠れていた標識102を認識することができる。
図20Cに示すように、画像認識システムが信号機101の青信号が点灯していることを認識する期間(時刻t1〜t2の間)を、青信号を検出するシーンとする。また、画像認識システムが信号機101の赤信号が点灯していることを認識する期間(時刻t3〜t4の間)を、赤信号を検出するシーンとする。また、画像認識システムが標識102を認識する期間(時刻t5〜t6の間)を、標識102を検出するシーンとする。このように画像認識システムが注目する対象物に応じて複数のシーンが同時に存在しうる。
画像認識システムを実用化するには、運転者に誤った情報を提供しないようにするため、画像認識システムで用いられるアルゴリズムが画像を認識する性能を評価することが必要となる。このような評価を行うための尺度の一つとして「認識率」がある。認識率とは、あるシーンにおいて画像認識システムが認識している対象物やその状態が、現実に設置されている対象物と比べてどの程度正しいかを示す尺度である。このため、認識率は、実際のシーンに対して、画像認識システムが認識したシーンの正答率として求められる。例えば、図20Cに示したように、運転者が時刻t1〜t2の間で青信号を認識しているにも関わらず、画像認識システムが青信号を認識する期間が時刻t1〜t2の期間の半分であれば、認識率は50%のように算出される。
このため、画像認識システムでは、シーン毎の認識率が高い程、対象物を認識する精度が良いアルゴリズムを用いていると言える。そして、この画像認識システムが認識した対象物をデータ化すると共に、適切なアルゴリズムを用いて道路上の標識等の存在を運転者に知らせることで、ナビゲーションシステムの安全性を高めることができる。
従来、画像認識システムが認識率を算出するためには、主に2つの作業が必要であった。1つ目は、オペレータが映像を見ながら映像内の標識を解析し、映像内のシーンを特定する作業である。2つ目は、オペレータが映像を見ながら特定したシーンと、画像認識システムが映像から取り出した画像に基づいて特定したシーンとを対話型認識編集システムを用いて確認する作業である。このように映像内の標識を解析するための技術として特許文献1に開示されたものが知られている。
特許文献1には、標識の認識とその位置を測量計算する機能とを、対話型認識編集システムのメニューから起動できるように構成し、認識処理を編集の前に実施してその標識候補の評価をアイコンの大きさで地図上に表示する技術が開示されている。
特開2008−287379号公報
ところで、特許文献1に開示された標識データベースを構築するためには、オペレータが映像を解析する作業が依然として必須である。このため、特許文献1の手法を用いても、解析作業を行うオペレータの工数削減は見込めなかった。
また、画像認識システムが自動的に認識した画像から特定したシーンが実際のシーンに一致するかどうかについてもオペレータが目視確認しなければならない。そして、多くの対象物が存在する環境で画像認識システムがシーンを特定するために用いたアルゴリズムの妥当性を判断することは容易でなかった。
本発明はこのような状況に鑑みて成されたものであり、シーンを識別するために用いられるアルゴリズムの妥当性を容易に判断することを目的とする。
本発明に係る画像認識評価システムは、車両に搭載されるカメラが撮影した映像を収集する車両映像収集装置と、車両映像収集装置から取得する映像から取り出した画像内の対象物を認識するアルゴリズムを評価する画像認識評価装置と、を備える。
車両映像収集装置は、カメラから映像を収集すると共に、車両の乗員が対象物を認識する期間、又は対象物の状態が変化するまでの期間をシーンとして、シーンに対応して乗員が行う動作に基づくシーン情報を収集する。
画像認識評価装置は、画像処理部と、シーン特定部と、比較部と、を有する。
画像処理部は、アルゴリズムを用いて、映像から取り出した画像内の対象物毎に認識したシーンを示す認識結果データを出力する。
シーン特定部は、シーン情報に基づいて特定したシーンを示すシーン識別データを出力する。
比較部は、認識結果データとシーン識別データとを比較して、画像処理部が用いたアルゴリズムの妥当性を評価した比較結果データを出力する。
本発明によれば、シーン識別データと認識結果データとを比較することにより、画像処理部で用いられたアルゴリズムの妥当性を容易に判断できる。また、オペレータが映像を目視しながらシーンを認識していたような作業が自動化されるため、オペレータ工数を削減することができる。
上記した以外の課題、構成及び効果は、以下の実施の形態例の説明により明らかにされる。
本発明の第1の実施の形態例に係る画像認識評価システムの内部構成例を示すブロック図である。 本発明の第1の実施の形態例に係る車両映像収集装置の内部構成例を示すブロック図である。 本発明の第1の実施の形態例に係る情報処理装置の内部構成例を示すブロック図である。 本発明の第1の実施の形態例に係る計算機のハードウェア構成例を示すブロック図である。 本発明の第1の実施の形態例に係る初期曲ファイルの構成図である。 本発明の第1の実施の形態例に係る操作IDテーブルの構成図である。 本発明の第1の実施の形態例に係る曲テーブルの構成図である。 本発明の第1の実施の形態例に係る車両情報ファイルの構成図である。 本発明の第1の実施の形態例に係る認識結果データの構成図である。 本発明の第1の実施の形態例に係るシーン識別データの構成図である。 本発明の第1の実施の形態例に係る比較結果データの構成図である。 本発明の第1の実施の形態例に係る運転者がシーンを識別する際に行う操作の例を示すフローチャートである。 本発明の第1の実施の形態例に係るシーン情報が車両情報ファイルである場合におけるシーン特定部の処理例を示すフローチャートである。 本発明の第1の実施の形態例に係る運転者が行う曲選択の操作の例を示す説明図である。 本発明の第1の実施の形態例に係るシーン情報が音声データである場合におけるシーン特定部の処理例を示すフローチャートである。 本発明の第1の実施の形態例に係るシーン特定部が運転者の発声内容で曲を確定する際の説明図である。 本発明の第1の実施の形態例に係る比較部の処理例を示すフローチャートである。 本発明の第1の実施の形態の変形例に係る画像認識評価システムの内部構成例を示すブロック図である。 本発明の第2の実施の形態例に係る画像認識評価装置の内部構成例を示すブロック図である。 シーンの概念図を示す。図20Aは対象物が含まれる画像の第1例であり、図20Bは対象物が含まれる画像の第2例である。また、図20Cはシーンの内容を示している。
[1−1.第1の実施の形態例]
以下、本発明の第1の実施の形態例に係る画像認識評価システムについて、図1〜図17を参照して説明する。
本明細書及び図面において、実質的に同一の機能又は構成を有する構成要素については、同一の符号を付することにより重複する説明を省略する。
<画像認識評価システムの構成例>
図1は、本発明の第1の実施の形態例に係る画像認識評価システム10の内部構成例を示す。
画像認識評価システム10は、車両1に設けられる車両映像収集装置17と、画像認識評価装置2に設けられる情報処理装置30を組み合わせて構成される。この画像認識評価システム10は、カメラ11が撮影した画像から特定の対象物を認識してシーンを検出するだけでなく、車両映像収集装置17から取得する映像から取り出した画像内の対象物を認識する画像認識アルゴリズムを評価することもできる。以下の説明では、この画像認識アルゴリズムを、「アルゴリズム」と略記する。
車両1は、カメラ11、マイクロフォン12(図中では「マイク」と表記する。)、遠隔制御装置13、オーディオ装置14、スピーカ15、車両映像収集装置17、車載LAN18を備える。この車両映像収集装置17は、カメラ11から映像を収集し、マイクロフォン12、遠隔制御装置13又はオーディオ装置14からシーン情報16を収集する。このシーン情報16は、車両映像収集装置17が、車両の乗員が対象物を認識する期間、又はこの対象物の状態が変化するまでの期間をシーンとして、シーンに対応して乗員が行う動作に基づいて収集する情報である。
カメラ11は、車両1の不図示のインサイドミラーの裏面、ダッシュボード等に取付けられ、車両1の進行方向の対象物を撮影し、映像を車両映像収集装置17に出力する。
マイクロフォン12は、車両1の車内に取付けられ、運転者(乗員の一例)がシーンを識別して発声した音声、又はオーディオ装置14がスピーカ15を通じて放音した音声のいずれかを集音して得た音声情報を車両映像収集装置17に出力する。なお、乗員には、運転者以外に、車両1の同乗者であって運転を行っていない者も含まれる。
遠隔制御装置13は、車両1の不図示のステアリング・ホイールに取付けられる。遠隔制御装置13は小さいため、運転者は運転中であっても、例えば親指だけで遠隔制御装置13を操作し、オーディオ装置14に指示を与えることができる。遠隔制御装置13は、運転者が行った操作内容が含まれる車両情報を車載LAN18に出力する。
オーディオ装置14は、不図示のメディアから読み出して再生した曲をスピーカ15より放音する。ここで、曲とは、画像認識評価を行うために用意された音声であるが、旋律等であってもよい。
車両映像収集装置17は、カメラ11から入力する映像と、音声情報又は車両情報を収集し、これらの情報を記録媒体Mに記録する。
シーン情報16は、記録媒体Mに記録される情報の一部である。このシーン情報16には、マイクロフォン12が集音した音声情報、又は遠隔制御装置13から車載LAN18を介して入力する車両情報のいずれかが含まれる。
画像認識評価装置2は、情報処理装置30を備える。この情報処理装置30は、初期曲ファイル40、操作IDテーブル41、曲テーブル42から読込んだ情報と、記録媒体Mから読込んだ情報とに基づき、比較結果データ43を出力する。ここで、初期曲ファイル40には、オーディオ装置14の再生開始時にスピーカ15より放音される曲の曲番号(トラック番号)が記録され、操作IDテーブル41には、運転者によってなされた操作を識別するための操作IDが記録される。そして、曲テーブル42には、曲番号毎に曲の情報が記録される。
そして、比較結果データ43には、情報処理装置30がカメラ11から入力した映像(後述する映像データM1)に基づいて特定したシーンと、シーン情報16により特定したシーンとを比較して算出したシーンの認識率が含まれる。このため、画像認識評価装置2を操作するユーザは、情報処理装置30が出力した比較結果データ43により、情報処理装置30がシーンを認識するために用いたアルゴリズムの妥当性を判断することができる。
<車両映像収集装置の構成例>
図2は、車両映像収集装置17の内部構成例を示す。
車両映像収集装置17は、カメラ入力インタフェース(以下、I/F(Inter Face)と記載する。)19、映像記録部20、音声入力I/F21、音声記録部22、車両情報I/F23、車両情報選択部24を備える。また、記録媒体Mには、映像データM1、音声データM2、車両情報ファイルM3が記録される。
カメラ入力I/F19には、カメラ11から映像が入力される。そして、映像記録部20は、カメラ入力I/F19に入力した映像を記録媒体Mに映像データM1として記録する。
音声入力I/F21には、マイクロフォン12から音声情報が入力される。そして、音声記録部22は、音声入力I/F21に入力した音声情報を記録媒体Mに音声データM2として記録する。車両映像収集装置17が音声情報を収集すると、この音声情報が記録媒体Mに音声データM2として記録され、音声データM2がシーン情報16として用いられる。
車両情報I/F23には、遠隔制御装置13から車載LAN18を介して車両情報が入力される。この車両情報には、運転者が遠隔制御装置13を用いて操作した曲順の変更を示す操作内容の他、スピーカ15から放音される音声の音量調整といった本実施の形態例においてシーンの特定に使用しない操作内容も含まれる。
このため、車両情報選択部24は、車両情報I/F23に入力した車両情報から運転者がシーンを識別して行った操作を含む車両情報(例えば、曲順の変更を示す操作内容)を選択し、この選択した車両情報を記録媒体Mに車両情報ファイルM3として記録する。車両映像収集装置17が車両情報を収集すると、この車両情報が記録媒体Mに車両情報ファイルM3として記録され、車両情報ファイルM3がシーン情報16として用いられる。車両情報ファイルM3は、後述する図8で示される形式のファイルであり、車両情報のIDと内容、タイムスタンプが記録される。
<情報処理装置の構成例>
図3は、情報処理装置30の内部構成例を示す。
情報処理装置30は、映像入力部31、画像処理部32、認識結果データ33、音声入力部34、車両情報入力部35、シーン特定部36、シーン識別データ37及び比較部38を備える。
記録媒体Mに記録された映像データM1、音声データM2、車両情報ファイルM3は、それぞれ映像入力部31、音声入力部34、車両情報入力部35へ入力される。
画像処理部32は、映像入力部31を通じて入力する映像データM1を解析することで、所定タイミングで映像から画像を取り出す。そして、この画像内の対象物を認識してシーンを特定するアルゴリズムを用いて、対象物毎に認識したシーンを示す認識結果データ33を出力する。このアルゴリズムが、画像認識評価システム10において評価対象となる。画像処理部32で用いられるアルゴリズムとしては、例えば、標識に対してはパターンマッチングを行うもの、信号機に対しては形状と色の変化を識別するもの、車線や縁石に対しては2値化とベクトル演算の処理を行うものがある。
シーン特定部36は、シーン情報16に基づいて特定したシーンを示すシーン識別データ37を出力する。具体的には、シーン特定部36は、音声入力部34を通じて入力する音声データM2、又は車両情報入力部35を通じて入力する車両情報ファイルM3を解析し、識別したシーンを特定するためのシーン識別データ37を出力する。後述する図9と図10に示すように、認識結果データ33とシーン識別データ37は、同じ形式で構成されており、シーン毎にタイムスタンプと、シーンとが記録される。このため、比較部38は、認識結果データ33とシーン識別データ37を比較しやすい。
比較部38は、認識結果データ33とシーン識別データ37とを比較し、シーン毎に認識率を算出する。本実施の形態例において、認識率とは、シーン識別データ37に示される対象物、又は対象物の状態に対する、認識結果データ33に示される対象物、又は対象物の状態の正しさの度合いである。この認識率は、例えば、認識結果データ33によって示されるシーンの期間に対する、シーン識別データ37によって示されるシーンの期間の比率で表される。この比較部38は、認識率をシーン毎に算出することで、画像処理部32が用いたアルゴリズムの妥当性を評価した比較結果データ43を出力する。
そして、ユーザは、比較結果データ43に基づき、画像処理部32が採用したアルゴリズムでは正確に画像を認識できなかったと判断した場合、認識率が所定値に達するまで、画像処理部32に別のアルゴリズムを読み込ませ、再び画像を認識させる。これにより、画像認識評価システム10は、シーン毎に適切なアルゴリズムを選択することができる。
<計算機のハードウェア構成例>
次に、画像認識評価システム10の各装置を構成する計算機50のハードウェア構成を説明する。
図4は、計算機50のハードウェア構成例を示すブロック図である。
計算機50は、いわゆるコンピュータとして用いられるハードウェアである。この計算機50は、画像認識評価装置2、車両映像収集装置17として用いられる。計算機50は、バス54にそれぞれ接続されたCPU(Central Processing Unit:中央処理装置)51、ROM(Read Only Memory)52、RAM(Random Access Memory)53を備える。さらに、計算機50は、表示部55、操作部56、不揮発性ストレージ57、ネットワークインタフェース58、記録媒体インタフェース59とを備える。
CPU51は、本実施の形態例に係る各機能を実現するソフトウェアのプログラムコードをROM52から読み出して実行する。RAM53には、演算処理の途中に発生した変数やパラメータ等が一時的に書き込まれる。表示部55は、例えば、液晶ディスプレイモニタであり、計算機50で行われる処理の結果等をユーザに表示する。操作部56には、例えば、キーボード、マウス等が用いられ、これらを用いてユーザは所定の操作入力、指示を行うことが可能である。ただし、車両映像収集装置17には、表示部55、操作部56を設けなくてもよい。
不揮発性ストレージ57としては、例えば、HDD(Hard disk drive)、SSD(Solid State Drive)、フレキシブルディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード等が用いられる。この不揮発性ストレージ57には、OS(Operating System)、各種のパラメータの他に、計算機50を機能させるためのプログラム、各種のファイル、テーブル等も記録されている。
ネットワークインタフェース58には、例えば、NIC(Network Interface Card)等が用いられ、端子が接続されたLAN、専用線、ネットワークのいずれかを介して各種のデータを送受信することが可能である。
記録媒体インタフェース59には、図1に示した記録媒体Mが差込まれる。そして、CPU51は、記録媒体インタフェース59を介して記録媒体Mにアクセス可能となる。
<ファイル及びテーブルの構成例>
次に、ファイル及びテーブルの構成例について、図5〜図11を参照して説明する。
図5は、初期曲ファイル40の構成例を示す。
初期曲ファイル40は、曲番号のフィールドを有する。この例では、曲番号に“1”が格納されているため、曲テーブル42から初期曲として読み出される曲の音声は無音となる。
図6は、操作IDテーブル41の構成例を示す。
操作IDテーブル41は、操作IDと操作内容のフィールドを有しており、運転者が遠隔制御装置13を用いて行う操作内容を格納する。操作IDが“123”であれば、運転者が遠隔制御装置13を用いて行う操作は、「オーディオ装置オン」であって、オーディオ装置14の電源をオンしたことを示す。また、操作IDが“246”であれば、運転者が遠隔制御装置13を用いて行う操作は、「次曲選択」又は「前曲選択」のいずれかである。運転者が行った操作が「次曲選択」又は「前曲選択」のいずれであるかは、図8の車両情報ファイルM3の操作の内容によって示される。
図7は、曲テーブル42の構成例を示す。
曲テーブル42は、曲番号、音声、対応シーンのフィールドを有しており、シーンに対応する音声情報を格納する。曲番号には、曲テーブル42に格納される曲を特定するための連番が格納される。音声には、オーディオ装置14によって再生される音声の内容が格納される。対応シーンには、オーディオ装置14によって再生される音声に対応するシーンの内容が格納される。例えば、曲番号が“1”であれば、オーディオ装置14は無音を再生する。また、曲番号が“2”であれば、オーディオ装置14は、「青信号を検出しました。」という音声を再生し、スピーカ15より再生した音声を放音する。
図8は、車両情報ファイルM3の構成例を示す。
車両情報ファイルM3は、タイムスタンプ、操作ID、内容のフィールドを有する。タイムスタンプには、運転者によって操作が行われた瞬間の日時が記録され、操作IDには操作IDテーブル41に定義づけられる値が記録される。そして、内容には、運転者によって行われた具体的な操作の内容が記録される。例えば、運転者が遠隔制御装置13を用いてオーディオ装置14に指示を与えると、操作IDフィールドに“123”が格納され、オーディオ装置14の電源をオンしたことが内容フィールドの英数字によって表される。また、例えば、運転者が遠隔制御装置13を用いて曲を変更すると、操作IDフィールドに“246”が格納され、運転者が遠隔制御装置13を用いて曲選択を行ったことが内容フィールドの英数字によって表される。
図9は、認識結果データ33の構成例を示す。
認識結果データ33は、タイムスタンプ、シーンのフィールドを有する。認識結果データ33に格納されるタイムスタンプ毎のデータは、図8に示した車両情報ファイルM3に格納されるタイムスタンプ毎のデータと同じである。そして、シーンフィールドには、画像処理部32がアルゴリズムを用いて映像データM1を解析して認識したシーンが格納される。この例において画像処理部32は、青信号を検出した後、赤信号を検出したことが分かる。
図10は、シーン識別データ37の構成例を示す。
シーン識別データ37は、認識結果データ33と同様にタイムスタンプ、シーンのフィールドを有する。シーンフィールドには、シーン特定部36が音声情報又は車両情報に基づいて特定したシーンが格納される。この例では、シーン識別データ37に格納されるデータは、図9に示す認識結果データ33に格納されたデータと同じである。しかし、画像処理部32が用いたアルゴリズムの認識率が低ければ、シーン識別データ37と認識結果データ33に格納されるタイムスタンプやシーンは異なる。
図11は、比較結果データ43の構成例を示す。
比較結果データ43は、タイムスタンプ、シーン、認識率のフィールドを有する。比較結果データ43に格納されるタイムスタンプとシーンは、認識結果データ33に格納されていたタイムスタンプとシーンと同じである。認識率には、シーン毎に比較部38が算出した認識率が格納される。この例では、認識結果データ33とシーン識別データ37が同じであるため、シーン毎の認識率も100%となっている。
<運転者が行う操作の例>
次に、運転者が行う操作について、図12を参照して説明する。この操作は、画像認識評価を行うために基準となる情報(この例では、曲)を運転者が確定するために行われる。
図12は、運転者がシーンを識別する際に行う操作の例を示す。
始めに、運転者は、オーディオ装置14を操作して初期曲を再生する(S1)。このオーディオ装置14は、不図示のメディアから読み出した初期曲をリピート再生する。なお、運転者がシーンを認識する前には、例えば、曲番号が“1”である無音の初期曲がオーディオ装置14によってリピート再生される。
次に、運転者は、車両1を運転しながら、車両1の進行方向の景色の中に認識すべきシーンがあるか否かを判断する(S2)。運転者は、景色の中に認識すべきシーンがなければ、シーンを認識するまで待つ。
一方、運転者は、景色の中に認識すべきシーンがあると判断すると、遠隔制御装置13を用いて曲選択の操作を行い、運転者が認識したシーンに対応する目的の曲を選択する(S3)。そして、運転者は、選択した曲がオーディオ装置14によって再生されると、この曲を聴いて内容を確認し(S4)、運転者が認識したシーンに対応する目的の曲が再生されているか否かを判断する(S5)。
運転者は、再生された曲が目的の曲ではないと判断すれば、ステップS4に戻って、曲選択をやり直す。一方、運転者は、再生された曲が目的の曲であると判断すれば、確定待ち時間として一定時間(例えば、5秒間)以上、操作を止め、曲を確定する(S6)。このとき、オーディオ装置14がビープ音を再生する等によって、運転者に曲の確定を通知しても良い。そして、オーディオ装置14はリピート再生する設定となっているため、運転者が次のシーンを認識するまで、運転者が確定した同じ曲が繰り返し再生される。
そして、図2に示したように、運転者が行った一連の遠隔制御装置13の操作内容は車両情報ファイルM3として記録媒体Mに記録され、オーディオ装置14によって再生された音声は音声データM2として記録媒体Mに記録される。なお、記録媒体Mには、車両情報ファイルM3又は音声データM2のいずれかのみを記録しても良い。また、音声データM2には運転者が自ら発声した音声(例えば、「赤信号を検出しました。」といった音声)が記録されても良い。
<情報処理装置の処理例>
次に、情報処理装置30内の各部が行う処理例について説明する。
ここでは、シーン情報16が車両情報ファイルM3である場合と、音声データM2である場合とに分けて順に説明する。
図13は、シーン情報16が車両情報ファイルM3である場合におけるシーン特定部36の処理例を示す。この車両情報ファイルM3には、運転者が遠隔制御装置13を用いて車両1に搭載されるオーディオ装置14に放音させる曲を選択する操作の内容が含まれるものとする。
始めに、シーン特定部36は、初期曲が記述された初期曲ファイル40を読み込み(S11)、続いて車両情報ファイルM3を読み込む(S12)。次に、シーン特定部36は、ステップS12で読み込んだ車両情報ファイルM3に、シーンの識別に用いられる車両情報が含まれているか否かを判断する(S13)。
シーン特定部36は、車両情報ファイルM3にシーンの識別に用いられる車両情報が含まれていないと判断すると、処理を終了する。一方、シーン特定部36は、車両情報ファイルM3にシーンの識別に用いられる車両情報が含まれていると判断すると、曲確定処理を行う(S14)。この曲確定処理において、シーン特定部36は、車両情報ファイルM3に含まれる操作内容を判別する。そして、シーン特定部36は、判別した運転者の操作内容と、操作IDテーブル41を参照して読み出した操作内容とを照合して、運転者が遠隔制御装置13を用いて選択した曲の曲番号を算出する。
次に、シーン特定部36は、算出した曲番号と、曲テーブル42の曲番号とを照合し、曲テーブル42から曲番号に対応するシーンを特定することで、運転者が認識したシーンを識別する。そして、シーン特定部36は、識別したシーンをシーン識別データ37にタイムスタンプと共に書込んで出力する(S15)。
ここで、シーン特定部36は、乗員によって行われた操作とは異なる操作が所定期間内に行われていないと判断した場合に、操作によって選択された曲番号を、シーンを特定するための曲番号として確定する。例えば、確定待ち時間が5秒間であれば、選択曲番号が“3”のまま操作が行われず、5秒間が経過すると、シーン特定部36は、曲番号を“3”で確定する。このとき、シーン特定部36は、赤信号検出というシーンを特定する。
図14は、運転者が行う曲選択の操作の例を示す。
運転者が遠隔制御装置13を用いて次曲を選択する操作は「+」で表示され、前曲を選択する操作は「−」で表示される。初期曲の曲番号が“1”である場合に、次曲の選択操作がなされる度に、選択曲番号が“1”ずつ増加する。そして、選択曲番号が“3”のまま操作が行われず、例えば、5秒間が経過すると、曲番号が“3”で確定する。曲番号の確定は、例えば、5秒間を経過すると、オーディオ装置14がビープ音を再生する等によって、運転者に通知しても良い。その後、オーディオ装置14はリピート再生した「赤信号を検出しました。」との音声をスピーカ15より放音する。
図15は、シーン情報16が音声データM2である場合におけるシーン特定部36の処理例を示す。この音声データM2には、車両1に搭載されるマイクロフォン12が集音した音声の音声情報が含まれるものとする。
始めに、シーン特定部36は、記録媒体Mから読み込んだ音声データM2の音声認識を行い、マイクロフォン12が集音した音声の音声部分(音声情報の一例)を抽出する。合わせて、シーン特定部36は、曲テーブル42を参照して、この曲テーブル42で定義されている音声部分を抽出する(S21)。
そして、シーン特定部36は、音声データM2から抽出した音声部分と、曲テーブル42から抽出した音声部分とを照合してシーンを特定し、この特定したシーンを含む照合結果をシーン識別データ37として出力する(S22)。上述したように、運転者がシーンを認識した後は、オーディオ装置14によって音声がリピート再生される。例えば、赤信号であれば、曲テーブル42にて定義される「赤信号を検出しました。」という音声が再生される。
そして、運転者が別のシーン、例えば、信号機の点灯が赤信号から青信号に変わったことを認識し、運転者が「青信号を検出しました。」と発声すると、曲テーブル42で定義される「赤信号を検出しました。」との音声と異なる。これにより、シーン特定部36は、シーンが変わったことを識別できる。
このとき、運転者は目的の曲が再生されるまで曲選択操作を繰り返す。そして、シーン特定部36は、マイクロフォン12が集音した音声とは異なる音声を所定期間内に集音していないと判断した場合に、マイクロフォン12が集音した音声に基づいてシーンを特定する。例えば、シーン特定部36は、同じ音声が5秒間以上再生され続けると、曲が確定したものと判断する。
図16は、シーン特定部36が運転者の発声内容で曲を確定する例を示す。
運転者が「赤信号を検出しました。」と発声した後、「青信号を検出しました。」と発声し、さらに「赤信号を検出しました。」と発声したとする。運転者が最後に発声してから5秒間が経過すると、シーン特定部36は、曲番号“3”を確定する。そして、シーン特定部36は、確定した曲番号に基づいて特定したシーンを赤信号検出としてシーン識別データ37を出力する。
図17は、比較部38の処理例を示す。
始めに、比較部38は、認識結果データ33を読み込み(S31)、シーン識別データ37を読み込む(S32)。そして、比較部38は、読み込んだ認識結果データ33とシーン識別データ37とを比較し(S33)、シーン識別データ37に対する認識結果データ33の認識率を算出する。その後、比較部38は、算出した認識率を比較結果データ43に出力する。
以上説明した画像認識評価システム10では、運転者が認識したシーンと、画像処理部32がアルゴリズムを用いて映像データM1を解析して認識したシーンとを比較し、画像処理部32が認識したシーンの認識率を求めることができる。また、ユーザは、比較結果データ43に含まれるシーン毎の認識率の高低により、画像処理部32が用いたアルゴリズムの妥当性を評価することができる。このため、従来はオペレータが映像を見ながらシーンを特定していたような解析作業を簡素化し、オペレータの工数を削減することができる。また、従来は人手を必要としていたアルゴリズムの評価を自動化し、評価手順を簡略化することで、製品(例えば、ナビゲーションシステム)の開発コストを抑えることができる。
また、あるシーンで認識率が低ければ、別のアルゴリズムを画像処理部32に用いさせることで、画像処理部32に再びシーンの認識を行わせる。このようにユーザは、シーンの認識率が高いアルゴリズムを選択することができる。
また、車両1の運転者は、運転に支障を来さない程度のわずかな動作、例えば、運転者が発声し、又は運転者が遠隔制御装置13を操作することによって、運転者が認識したシーンを画像認識評価装置2に示すことができる。このように運転者は、シーン情報を取得するトリガとなる動作を行うために運転者自身の身体の一部を大きく動かすような動作が不要であるため、車両1の運転に支障を来さない。
また、画像認識評価システム10によって評価されたアルゴリズムを用いることで、例えば、車両の進行方向に設置されている標識等を自動的に認識し、適切な情報を運転者に与えることができる。これにより例えば、ナビゲーションシステムに応用するだけでなく、車両の自動運転装置を実現することも可能となる。
[1−2.第1の実施の形態の変形例]
次に、上述した第1の実施の形態の変形例に係る画像認識評価装置2Aについて、図18を参照して説明する。
図18は、画像認識評価装置2Aの構成例を示す。
この画像認識評価装置2Aは、上述した第1の実施の形態例に係る画像認識評価装置2とほぼ同じ構成としているが、比較結果データ43にアクセスするフィードバック部39を備える点が異なる。
このフィードバック部39は、比較結果データ43にアクセスし、画像処理部32が選択したアルゴリズムの妥当性を判断する。そして、比較結果データ43に示されるシーンの認識率が所定値より低い場合に、画像処理部32で始めに用いられたアルゴリズムとは異なるアルゴリズムを用いた処理を画像処理部32に行わせる。画像処理部32が画像処理を行って出力した認識結果データ33は、再び比較部38でシーン識別データ37と比較され、認識率が算出される。これにより、画像認識評価装置2Aは、フィードバック部39を用いてアルゴリズムを選択し、比較部38に認識率を算出させる処理を繰り返すことで、認識率が高いアルゴリズムをシーン毎に選択することができる。そして、画像認識評価装置2Aは、評価の高いアルゴリズムを用いた処理を画像処理部32に行わせることができる。
[2.第2の実施の形態例]
次に、本発明の第2の実施の形態例に係る画像認識評価装置2Bについて、図19を参照して説明する。
図19は、画像認識評価装置2Bの構成例を示す。
この画像認識評価装置2Bは、上述した第1の実施の形態例に係る画像認識評価装置2とほぼ同じ構成としているが、車両1に搭載されている点が異なる。
そして、画像認識評価装置2Bが備える情報処理装置30Aは、上述した第1の実施の形態例に係る車両映像収集装置17が有する各機能を含む。このため、情報処理装置30Aは単独でカメラ11から映像を収集すると共に、マイクロフォン12、遠隔制御装置13、オーディオ装置14からシーン情報16を収集することができる。そして、情報処理装置30Aは、収集した映像と、シーン情報16とに基づいて、所定の処理を行い、比較結果データ43を出力することができる。
このような画像認識評価装置2Bを用いれば、記録媒体Mの介在が不要となる。このため、画像処理部32が画像処理に用いるアルゴリズムの評価をリアルタイムで行うことが可能である。また、記録媒体Mの紛失といったリスクを低減できる。
[3.変形例]
なお、オーディオ装置14は、スピーカ15より放音される音声に対応する曲番号を車両情報として車載LAN18に出力することもできる。そして、シーン特定部36は、この車両情報に基づいてシーンを特定してもよい。また、シーン特定部36は曲番号が切り替わった瞬間を正確に求めることが可能となる。
また、運転者以外の乗員が遠隔制御装置13を用いるのであれば、車両1のピラー、ダッシュボード等に遠隔制御装置13を取付けても良い。また、例えば、スマートフォン等の携帯端末に、遠隔制御装置13と同じ機能を持たせても良い。
また、カメラ11は、車両1の前方だけでなく、車両1の側方を撮影可能に設置されても良いし、車両1の車外に設置されても良い。また、例えば、半球レンズを備えたカメラ11を用いて、パノラマ撮影を行っても良い。
また、車両1に運転者と同乗する乗員がシーンを認識したときに、この乗員が発声し、又は遠隔制御装置13を操作しても良い。これにより運転者は集中して運転することができる。
また、車両1としては、自動車以外にも、オートバイ、自転車等であってもよい。
また、上述した第1の実施の形態例に係る画像認識評価システム10では、記録媒体Mにデータ及びファイルを記録させていたが、車両映像収集装置17が収集したデータ及びファイルを情報処理装置30に無線送信してもよい。これにより車両1の外部にある施設にて画像処理に用いられたアルゴリズムの評価をリアルタイムで行うことも可能となる。
また、運転者がシーンを認識し、所定の動作を開始する時間と、画像処理部32が映像データM1を読込んでシーンの認識を開始する時間にはズレが生じることも想定される。このため、比較部38は、例えば、運転者が所定の動作を開始する時間に前後して数秒間以内で画像処理部32がシーンの認識を開始すれば、画像処理部32が認識したシーンと、シーン情報16とを比較してもよい。
また、認識結果データ33と、比較結果データ43には、画像処理部32が認識したシーン毎に用いたアルゴリズムの名称等を含めても良い。また、比較結果データ43には、一定期間(例えば、30分毎)に算出したシーン毎の認識率の平均値と、画像処理部32が用いたアルゴリズムを併記しても良い。これにより、画像処理部32で用いられたアルゴリズムの良否を判断しやすくなる。
また、本発明は上述した実施の形態例に限られるものではなく、特許請求の範囲に記載した本発明の要旨を逸脱しない限りその他種々の応用例、変形例を取り得ることは勿論である。
例えば、上述した実施の形態例は本発明を分かりやすく説明するために装置及びシステムの構成を詳細且つ具体的に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることは可能であり、さらにはある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、置換をすることも可能である。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
1…車両、2…画像認識評価装置、10…画像認識評価システム、16…シーン情報、17…車両映像収集装置、30…情報処理装置、31…映像入力部、32…画像処理部、33…認識結果データ、34…音声入力部、35…車両情報入力部、36…シーン特定部、37…シーン識別データ、38…比較部

Claims (9)

  1. 車両に搭載されるカメラが撮影した映像を収集する車両映像収集装置と、前記車両映像収集装置から取得する前記映像から取り出した画像内の対象物を認識するアルゴリズムを評価する画像認識評価装置と、を備え、
    前記車両映像収集装置は、前記カメラから前記映像を収集すると共に、前記車両の乗員が前記対象物を認識する期間、又は前記対象物の状態が変化するまでの期間をシーンとして、前記シーンに対応して前記乗員が行う動作に基づくシーン情報を収集し、
    前記画像認識評価装置は、
    前記アルゴリズムを用いて、前記映像から取り出した画像内の前記対象物毎に認識したシーンを示す認識結果データを出力する画像処理部と、
    前記シーン情報に基づいて特定したシーンを示すシーン識別データを出力するシーン特定部と、
    前記認識結果データと前記シーン識別データとを比較して、前記画像処理部が用いた前記アルゴリズムの妥当性を評価した比較結果データを出力する比較部と、を備える
    画像認識評価システム。
  2. 前記比較部は、前記認識結果データに示される前記対象物、又は前記対象物の状態に対する、前記シーン識別データに示される前記対象物、又は前記対象物の状態の正しさの度合いである認識率を前記シーン毎に算出する
    請求項1に記載の画像認識評価システム。
  3. 前記画像認識評価装置は、
    前記シーンに対応する音声情報が格納される曲テーブルと、
    遠隔制御装置を用いて行われる操作内容が格納される操作テーブルと、を有し、
    前記シーン特定部は、前記シーン情報が、前記乗員が遠隔制御装置を用いて前記車両に搭載されるオーディオ装置に放音させる曲を選択する操作の内容を含む車両情報である場合に、前記車両情報に含まれる前記操作内容と、前記操作テーブルから読み出した前記操作内容とを照合して、前記乗員が選択した曲の曲番号を特定し、前記曲テーブルから前記曲番号に対応する前記シーンを特定する
    請求項2に記載の画像認識評価システム。
  4. 前記シーン特定部は、前記乗員によって行われた操作とは異なる操作が所定期間内に行われていないと判断した場合に、前記操作によって選択された前記曲番号を、前記シーンを特定するための曲番号として確定する
    請求項3に記載の画像認識評価システム。
  5. 前記画像認識評価装置は、前記シーンに対応する音声情報が格納される曲テーブルを有し、
    前記シーン特定部は、前記シーン情報が、前記車両に搭載されるマイクロフォンが集音した音声の音声情報である場合に、前記マイクロフォンが集音した音声の前記音声情報と、前記曲テーブルから読み出した前記音声情報とを照合して、前記シーンを特定する
    請求項2に記載の画像認識評価システム。
  6. 前記シーン特定部は、前記マイクロフォンが集音した音声とは異なる音声を所定期間内に集音していないと判断した場合に、前記マイクロフォンが集音した音声に基づいて前記シーンを特定する
    請求項5に記載の画像認識評価システム。
  7. 前記車両映像収集装置は、
    前記映像を映像データとして記録媒体に記録する映像記録部と、
    前記車両に搭載されるマイクロフォンが集音した音声情報を音声データとして記録媒体に記録する音声記録部と、
    前記乗員が前記シーンを識別して行った操作を選択して、前記操作の内容を車両情報として記録媒体に記録する車両情報選択部と、を備え、
    前記画像認識評価装置は、前記記録媒体より、前記映像データを読み出すと共に、前記音声データ又は前記車両情報のいずれかを読み出す
    請求項2に記載の画像認識評価システム。
  8. さらに、前記比較結果データに示される前記シーンの認識率が所定値より低い場合に、前記画像処理部で用いられた前記アルゴリズムとは異なるアルゴリズムを用いた処理を前記画像処理部に行わせるフィードバック部を備える
    請求項1〜7のいずれか1項に記載の画像認識評価システム。
  9. 車両に搭載されるカメラが撮影した映像から取り出した画像内の対象物毎に認識するアルゴリズム用いて、シーンを示す認識結果データを出力する画像処理部と、
    前記車両の乗員が前記対象物を認識する期間、又は前記対象物の状態が変化するまでの期間を前記シーンとして、前記シーンに対応して前記乗員が行う動作に基づくシーン情報に基づいて特定したシーンを示すシーン識別データを出力するシーン特定部と、
    前記認識結果データと前記シーン識別データとを比較して、前記画像処理部が用いた前記アルゴリズムの妥当性を評価した比較結果データを出力する比較部と、を備える
    画像認識評価装置。
JP2014265286A 2014-12-26 2014-12-26 画像認識評価システム及び画像認識評価装置 Pending JP2016126436A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014265286A JP2016126436A (ja) 2014-12-26 2014-12-26 画像認識評価システム及び画像認識評価装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014265286A JP2016126436A (ja) 2014-12-26 2014-12-26 画像認識評価システム及び画像認識評価装置

Publications (1)

Publication Number Publication Date
JP2016126436A true JP2016126436A (ja) 2016-07-11

Family

ID=56359557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014265286A Pending JP2016126436A (ja) 2014-12-26 2014-12-26 画像認識評価システム及び画像認識評価装置

Country Status (1)

Country Link
JP (1) JP2016126436A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420631A (zh) * 2021-06-17 2021-09-21 广联达科技股份有限公司 一种基于图像识别的安全报警方法及装置
CN115690641A (zh) * 2022-05-25 2023-02-03 中仪英斯泰克进出口有限公司 一种基于图像显示的屏幕控制方法及系统
WO2024014414A1 (ja) * 2022-07-14 2024-01-18 三菱重工機械システム株式会社 データ処理アルゴリズム評価装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420631A (zh) * 2021-06-17 2021-09-21 广联达科技股份有限公司 一种基于图像识别的安全报警方法及装置
CN115690641A (zh) * 2022-05-25 2023-02-03 中仪英斯泰克进出口有限公司 一种基于图像显示的屏幕控制方法及系统
WO2024014414A1 (ja) * 2022-07-14 2024-01-18 三菱重工機械システム株式会社 データ処理アルゴリズム評価装置

Similar Documents

Publication Publication Date Title
Takeda et al. International large-scale vehicle corpora for research on driver behavior on the road
JP3892410B2 (ja) 音楽データ選曲装置、音楽データ選曲方法、並びに、音楽データの選曲プログラムおよびそれを記録した情報記録媒体
JPWO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
JP2007271876A (ja) 音声認識装置および音声認識用のプログラム
JP2016103142A (ja) データ処理装置、画像処理方法、及び、プログラム
CN106537492A (zh) 具有用于语音识别的校正策略的机动车操作装置
JP2004029270A (ja) 音声制御装置
JP2016126436A (ja) 画像認識評価システム及び画像認識評価装置
US11837250B2 (en) Audio playout report for ride-sharing session
CN117678017A (zh) 用于场景-感知音频-视频表示的方法和系统
CN115079989A (zh) 车辆及其控制方法
US10289919B2 (en) Vehicle and method of controlling the same
JP2004302902A (ja) 運転支援システム
JP2005049773A (ja) 音楽再生装置
WO2014087571A1 (ja) 情報処理装置および情報処理方法
JP2006208483A (ja) 聴取者の関心事項の調査を支援する装置,方法,プログラム及び記録媒体
CN113573096A (zh) 视频处理方法、装置、电子设备及介质
CN113691382A (zh) 会议记录方法、装置、计算机设备及介质
JP4722787B2 (ja) データ呼出制御装置、データ呼出システム、データ呼出制御装置の音声認識語彙登録方法および車両
CN110764054A (zh) 一种紧急声音方位辨识方法及装置
JP6833322B2 (ja) 探索装置、探索方法、探索プログラム及び記録媒体、並びにナビゲーション装置
JP7452000B2 (ja) 録画装置、録画方法、及びプログラム
JP2009204872A (ja) 音声認識用辞書生成システム
US20200012094A1 (en) Log information collection method and information processing apparatus
CN114710733A (zh) 语音播放方法、装置、计算机可读存储介质及电子设备