JP2010262424A

JP2010262424A - 車載カメラシステム

Info

Publication number: JP2010262424A
Application number: JP2009111777A
Authority: JP
Inventors: Shun Iwama; 駿岩間
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2009-05-01
Filing date: 2009-05-01
Publication date: 2010-11-18

Abstract

【課題】カーナビゲーションシステムに対し、口形の変形量から識別される目的地を示す言葉を送信可能な車載カメラシステムを提供する。
【解決手段】車内に着座する人物を撮像する撮像部６，８と、前記撮像部６，８により撮像される前記人物の口形及び前記口形の変形量を検出する検出部２０と、前記検出部２０の検出結果から前記人物の発した言葉を識別する識別部２０と、前記識別部２０の識別結果をカーナビゲーションシステムに対して送信する送信部２２とを備える。
【選択図】図１

Description

本発明は、車載カメラシステムに関するものである。

マイクから入力される音声を認識する間、オーディオ用スピーカからの音量を０にする音声認識装置が提案されている（例えば、特許文献１参照）。

特開平１１−１５４９４号公報

ところで、上述のような音声認識装置において認識された音声に基づいて目的地を設定可能なカーナビゲーションシステムが存在するが、雑音等の混在により正確に音声認識されず、目的地を設定するのに時間を要する場合があった。

本発明の目的は、カーナビゲーションシステムに対し、口形の変形量から識別される目的地を示す言葉を送信可能な車載カメラシステムを提供することである。

本発明の車載カメラシステムは、車内に着座する人物を撮像する撮像部と、前記撮像部により撮像される前記人物の口形及び前記口形の変形量を検出する検出部と、前記検出部の検出結果から前記人物の発した言葉を識別する識別部と、前記識別部の識別結果をカーナビゲーションシステムに対して送信する送信部とを備えることを特徴とする。

本発明の車載カメラシステムによれば、カーナビゲーションシステムに対し、口形の変形量から識別される目的地を示す言葉を送信することができる。

実施の形態に係る車載カメラシステムのシステム構成を示すブロック図である。実施の形態に係る車載カメラシステムにおいて運転手の口形及び口形の変形量から言葉を識別する際の処理について説明するためのフローチャートである。実施の形態に係る車載カメラシステムにおいて運転手の口形及び口形の変形量から警告を行うか否かを判別する際の処理について説明するためのフローチャートである。

以下、図面を参照して、本発明の実施の形態に係る車載カメラシステムについて説明する。図１は、実施の形態に係る車載カメラシステム２及びカーナビゲーションシステム（以下、カーナビという。）４のシステム構成を示すブロック図である。車載カメラシステム２は、自動車内の、例えばバックミラー近傍に設けられ、運転手及び助手席に着座する人の口形を撮像し、口形の変化量を検出することにより運転手または助手席に着座する人が発音した言葉を識別するためのシステムである。カーナビ４は、現在地から目的地までのルートを検索し、検索結果を表示し、検索結果に基づいて現在地から目的地までの道案内を行うシステムである。

図１に示すように、車載カメラシステム２は、２つの異なる方向から同時に撮像することにより両眼視差を再現可能なステレオカメラシステムとして機能し、ＣＣＤまたはＣＭＯＳ等により構成される左側撮像素子６及び右側撮像素子８を備えている。左側撮像素子６は、右側撮像素子８に対して左側に配置され、図示しない左側撮影レンズを透過した被写体光を撮像して被写体像に応じた撮像信号を出力する。右側撮像素子８は、左側撮像素子６に対して右側に配置され、左側レンズに対して右側に配置される図示しない右側撮影レンズを透過した被写体光を撮像して被写体像に応じた撮像信号を出力する。なお、左側撮像素子６及び右側撮像素子８は、被写体として運転手及び助手席に着座する人の口形を撮像する。

また、車載カメラシステム２は、左側Ａ／Ｄ変換部１０、左側フレームバッファ１２、右側Ａ／Ｄ変換部１４、右側フレームバッファ１６、口形テンプレート記憶部１８、制御部２０、及び通信部２２を備えている。左側Ａ／Ｄ変換部１０は、左側撮像素子６からの撮像信号をアナログ信号からデジタル信号に変換し、左側フレームバッファ１２は、左側Ａ／Ｄ変換部１０から出力されるデジタル信号に基づく画像データを一時的に記憶する。同様に、右側Ａ／Ｄ変換部１４は、右側撮像素子８からの撮像信号をアナログ信号からデジタル信号に変換し、右側フレームバッファ１６は、右側Ａ／Ｄ変換部１４からのデジタル信号に基づく画像データを一時的に記憶する。

口形テンプレート記憶部１８は、ある言葉、例えば「あ」と発音する際の人物の口形及び口形の変形量のパターン、及び他の音（い、う、え、お・・・）を発音する際の人物の口形及び口形の変形量のパターンをテンプレートとして記憶する。制御部２０は、ＣＰＵ等により構成され、車載カメラシステム２の各部を統括的に制御する。通信部２２は、制御部２０からの指示に従いカーナビ４に対して各種データを送信し、また、カーナビ４の後述する通信部３２から送信される各種データを受信し、受信した各種データを制御部２０に対して出力する。

この実施の形態では、制御部２０は、左側フレームバッファ１２及び右側フレームバッファ１６に記憶されている画像データを読み込み、読み込んだ画像データから人物の口形及び口形の変形量を後述するＳｎａｋｅｓの原理を用いて検出し、検出された口形及び口形の変形量に合致するパターンを口形テンプレート記憶部１８に記憶されている様々なパターンの中から抽出し、発音している言葉を識別する。

また、カーナビ４は、制御部２４、マイク２６、スピーカ２８、音声記憶部３０、及び通信部３２を備えている。制御部２４は、ＣＰＵ等により構成され、カーナビ４の各部を統括的に制御する。マイク２６は、目的地を設定する際に運転手または助手席に着座する人が発する音声（目的地を示す言葉）を集音し、集音した音声を制御部２４に対して出力する。スピーカ２８は、制御部２４からの指示に従い、後述する警告音を出力する。音声記憶部３０は、マイク２６から出力される音声に基づく音声データを記憶する。通信部３２は、制御部２４からの指示に従い車載カメラシステム２に対して音声データ等を送信し、また、車載カメラシステム２から送信される各種データを受信し、受信した各種データを制御部２４に対して出力する。

次に、図２に示すフローチャートを参照して、この実施の形態に係る車載カメラシステム２において人物の口形及び口形の変形量から言葉を識別する際の処理について説明する。

まず、運転手等のカーナビ４への操作により、カーナビ４において目的地を設定する目的地設定モードへの移行がなされた場合、カーナビ４の制御部２４は、通信部３２を介して目的地設定モードに移行した旨を示す情報を車載カメラシステム２に対して送信する。車載カメラシステム２の制御部２０は、通信部２２を介して、目的地設定モードに移行した旨を示す情報をカーナビ４から受信すると（ステップＳ１０）、左側撮像素子６及び右側撮像素子８に対して撮像を開始する指示を出力し、被写体光の撮像を開始する（ステップＳ１１）。

次に、制御部２０は、左側フレームバッファ１２及び右側フレームバッファ１６に記憶される画像データを読み込み、読み込んだ画像データから運転手または助手席に着座する人の口形を検出する（ステップＳ１２）。なお、この実施の形態では、運転手の口形を検出したとする。具体的には、Ｓｎａｋｅｓの原理を用いて運転手の唇の輪郭（以下、唇輪郭という。）を抽出する。Ｓｎａｋｅｓの原理とは、制御点の集合として表される閉曲線Ｖ（ｓ）＝（ｘ（ｓ），ｙ（ｓ））上で、形状エネルギＥｉｎｔと画像エネルギＥｉｍａｇｅの線形和として数１で表されるエネルギ関数Ｅｓｎａｋｅｓを定義し、エネルギ関数Ｅｓｎａｋｅｓが最小となるように輪郭線の形状を順次修正し、輪郭線（この実施の形態では唇輪郭）の抽出を行うモデルである。

ここで、形状エネルギＥｉｎｔは曲線の滑らかさを示す関数、画像エネルギＥｉｍａｇｅは画像のエッジポテンシャルの強さを示す関数、Ｅｃｏｍは外部エネルギでユーザーが必要に応じて組み込む関数である。

次に、制御部２０は、ステップＳ１２において検出された口形（唇輪郭）に基づいて、画像データ内に唇が存在するか否かを判別する（ステップＳ１３）。即ち、制御部２０は、ステップＳ１２においてＳｎａｋｅｓの原理を用いて唇輪郭が抽出されなかった場合には、画像データ内に唇が存在しないと判別し（ステップＳ１３、Ｎｏ）、ステップＳ１１の処理に戻り、ステップＳ１３において唇が存在すると判別されるまでステップＳ１１〜ステップＳ１３の処理を繰り返す。

一方、制御部２０は、ステップＳ２０においてＳｎａｋｅｓの原理を用いて唇輪郭が抽出された場合には、画像データ内に唇が存在すると判別し（ステップＳ１３、Ｙｅｓ）、左側フレームバッファ１２及び右側フレームバッファ１６から読み込んだ画像データから運転手の口形の変形量を検出する（ステップＳ１４）。具体的には、ステップＳ１２において唇輪郭を抽出した後に、Ｓｎａｋｅｓの原理を用いて再び唇輪郭の抽出を行い、ステップＳ１２において抽出された唇輪郭と、その後に抽出された唇輪郭との差分を検出することにより、唇輪郭（口形）の変形量を検出する。

次に、制御部２０は、ステップＳ１４において検出された口形の変形量に合致するパターンを、口形テンプレート記憶部１８に記憶されている様々なパターンの中から抽出し、運転手が発音している言葉を識別する（ステップＳ１５）。例えば、ステップＳ１４において検出された口形の変形量が、「あ」と発音する際の口形の変形量のパターンと合致する場合には、制御部２０は、運転手が「あ」と発音したものとして認識する。このように、制御部２０は、ステップＳ１４において検出された口形の変形量と、口形テンプレート記憶部１８に記憶されているパターンとを比較し、運転手が発音した単語を順次識別することにより、運転手が発音した地名等の目的地を特定する。なお、この実施の形態では、Ｓｎａｋｅｓの原理を用いて運転手の唇輪郭及び唇輪郭の変形量を検出しているが、例えば画像処理を行い、差分を算出する等の他の公知の技術を用いて運転手の口形及び口形の変形量を検出してもよい。

なお、車載カメラシステム２の制御部２０がステップＳ１１〜ステップＳ１５の処理を行っている間、カーナビ４の制御部２４は、運転手が発した目的地を示す音声をマイク２６から取得し、取得した音声に基づく音声データを音声記憶部３０に記憶させておく。

ステップＳ１５の処理の後、車載カメラシステム２の制御部２０は、通信部２２を介して、制御部２０がステップＳ１１〜ステップＳ１５の処理を行っている間に音声記憶部３０に記憶された音声データをカーナビ４から取得する（ステップＳ１６）。

次に、制御部２０は、ステップＳ１５において識別された言葉と、ステップＳ１６において取得した音声データから形成される音声とを比較する（ステップＳ１７）。即ち、車載カメラシステム２において運転手の口形及び口形の変形量に基づき判別された目的地と、カーナビ４において運転手の音声に基づき判別された目的地とを比較する。ステップＳ１５において識別された言葉と、ステップＳ１６において取得した音声データから形成される音声とが同一である場合（ステップＳ１８、Ｙｅｓ）、制御部２０は、ステップＳ１５において運転手の口形及び口形の変形量に基づき識別された言葉が、運転手が指示した目的地であると確定する。一方、ステップＳ１５において識別された言葉と、ステップＳ１６において取得した音声データから形成される音声とが異なる場合、音声の音量が小さいためマイク２６が音声を集音できず音声データを取得できない場合、音声が曖昧なためマイク２６により集音した音声から音声データを形成できない場合（ステップＳ１８、Ｎｏ）、制御部２０は、ステップＳ１５において運転手の口形及び口形の変形量に基づき識別された言葉を、運転手が指示した目的地として採用する（ステップＳ１９）。

なお、制御部２０は、口形の変形量が０である場合等、ステップＳ１５において運転手の口形及び口形の変形量に基づき言葉を識別できなかった場合には、ステップＳ１６において取得した音声データから形成される音声を、運転手が指示した目的地として採用する。

次に、制御部２０は、通信部２２を介して、結果、即ち運転手が指示した目的地を示すデータをカーナビ４に対して送信する（ステップＳ２０）。カーナビ４の制御部２４は、通信部３２を介して、車載カメラシステム２から送信されたデータ（運転手が指示した目的地を示すデータ）を取得し、取得したデータに基づく目的地が正しいか否かを運転手に問う。例えば、スピーカ２８から「・・・で設定しますか。」等の音声の出力、または、図示しない表示部に「・・・で設定しますか？」等の表示を行う。

そして、制御部２４は、運転手により例えば「はい」等が選択され、取得したデータに基づく目的地が正しいと確認した場合には、その目的地までのルートを検索し、検索結果を表示する。一方、制御部２４は、運転手により例えば「いいえ」等が選択され、取得したデータに基づく目的地が誤っていると確認した場合には、車載カメラシステム２に対してその旨を示す情報を送信し、再びマイク２６から音声の集音を開始する。車載カメラシステム２は、カーナビ４からその旨を示す情報を受信した場合には、ステップＳ１１〜ステップＳ２０の処理を繰り返す。

ところで、この実施の形態に係る車載カメラシステム２では、運転手の口形の変形量から、居眠りや度重なる欠伸等を検出し、カーナビ４に対し、居眠り運転等に対する警告を示す情報を送信することができる。図３は、実施の形態に係る車載カメラシステム２において運転手の口形及び口形の変形量から警告を行うか否かを判別する際の処理について説明するためのフローチャートである。

まず、制御部２０は、カーナビ４において目的地が設定されてから所定時間が経過したか否かを判別し（ステップＳ３０）、所定時間が経過したと判別された場合には（ステップＳ３０、Ｙｅｓ）、左側撮像素子６及び右側撮像素子８に対して撮像を開始する指示を出力し、被写体光の撮像を開始する（ステップＳ３１）。ここで、所定時間は、１０分、３０分、１時間、２時間等、変更可能に構成されており、予め設定されている値が図示しないメモリ等に記憶されている。なお、カーナビ４が起動してから所定時間が経過したか否かを判別してもよい。また、カーナビ４における目的地設定時やカーナビ４の起動から所定時間経過後でなく、常時撮像を行うようにしてもよく、または、所定時間間隔で撮像を行うようにしてもよい。なお、ステップＳ３１〜Ｓ３４の処理は、図２に示すステップＳ１１〜Ｓ１４の処理と同一のため、説明を省略する。

次に、制御部２０は、ステップＳ３４において検出された口形の変形量が０であるか否か、または、口形の変形量が一定であるか否かを判別する（ステップＳ３５）。即ち、運転手の口形が変化していないか否か、または、運転手の口形が何度も同一の形に変化しているか否かを判別する。例えば、運転手の口形が変化していない場合には、運転手がガムをかむ等の行為及び言葉を発している等の行為がなされていないと判別することができ、制御部２０は、運転手が居眠りをしている可能性があると判別する。また、運転手の口形が何度も同一の形に変化している場合には、運転手が欠伸を何度も行っていると判別することができ、制御部２０は、運転手が眠気を催している可能性があると判別する。

ステップＳ３４において検出された口形の変形量が０、または、口形の変形量が一定であると判別された場合には（ステップＳ３５、Ｙｅｓ）、制御部２０は、通信部２２を介して、居眠りや度重なる欠伸等に対する警告を示す情報をカーナビ４に対して送信する（ステップＳ３６）。カーナビ４の制御部２４は、通信部３２を介して、車載カメラシステム２から送信された警告を示す情報を取得すると、スピーカ２８から警告音を出力する。運転手は、スピーカ２８から出力される警告音を聞くことにより、居眠りや度重なる欠伸を認識することができる。

一方、ステップＳ３４において検出された口形の変形量が０でない、または、口形の変形量が一定でないと判別された場合には（ステップＳ３５、Ｎｏ）、制御部２０は、居眠りや度重なる欠伸等に対する警告を発する必要がないと判断し、ステップＳ３０の処理に戻り、ステップＳ３０〜Ｓ３５の処理を繰り返す。

なお、この実施の形態では、車載カメラシステム２がカーナビ４に対して警告を示す情報を送信し、カーナビ４が警告音を出力しているが、車載カメラシステム２がスピーカ等を備えている場合には警告音を出力してもよい。

この実施の形態に係る車載カメラシステム２によれば、目的地を示す言葉を口形の変形量から識別することができ、識別された言葉をカーナビ４に対して送信することができるため、カーナビ４においてマイク２６により音声が集音できない場合においても目的地の設定を行うことができる。したがって、カーナビ４における運転手や助手席に着座する人の音声による目的地設定の精度を向上させることができる。また、従来のように、雑音等により音声が認識されない場合等においても、または目的地設定の度にオーディオ用スピーカの音量を０にしなくとも、運転手や助手席に着座する人の口形の変形量により目的地を設定することができる。

また、運転手の口形の変形量から、居眠りや度重なる欠伸等を検出し、カーナビ４に対し、居眠り運転等に対する警告を示す情報を送信することができるため、居眠り運転による事故を予防することができる。また、従来技術として運転手の目の動き（瞬き）から居眠り等を検出する技術が開示されているが、運転手がサングラスやメガネ等を着用している場合には従来技術では居眠り等を検出することができない。しかしながら、この実施の形態によれば、運転手の口形の変形量から居眠りや度重なる欠伸等を検出するため、運転手がサングラスやメガネ等を着用している場合でも、従来技術と比較して居眠りや度重なる欠伸等の検出精度を向上させることができる。

また、この実施の形態に係る車載カメラシステム２によれば、ステレオカメラシステムとして機能しているため、広領域撮像が可能であり、助手席に着座する人の口形も撮像することができる。したがって、助手席に着座する人の口形の変形量に基づき目的地を設定することもできる。

なお、この実施の形態においては、カーナビ４から音声データを取得し、車載カメラシステム２において運転手の口形及び口形の変形量に基づき識別された言葉と、カーナビ４において記録された運転手の音声とを比較しているが、比較することなく、車載カメラシステム２において運転手の口形及び口形の変形量に基づき識別された言葉の情報のみで目的地を確定してもよい。

２…車載カメラシステム、４…カーナビゲーションシステム、６…左側撮像素子、８…右側撮像素子、１０…左側Ａ／Ｄ変換部、１２…左側フレームバッファ、１４…右側Ａ／Ｄ変換部、１６…右側フレームバッファ、１８…口形テンプレート記憶部、２０…制御部、２２…通信部。

Claims

車内に着座する人物を撮像する撮像部と、
前記撮像部により撮像される前記人物の口形及び前記口形の変形量を検出する検出部と、
前記検出部の検出結果から前記人物の発した言葉を識別する識別部と、
前記識別部の識別結果をカーナビゲーションシステムに対して送信する送信部と、
を備えることを特徴とする車載カメラシステム。
前記カーナビゲーションシステムから前記人物の音声を取得する取得部と、
前記識別結果と前記取得部の取得結果とを比較する比較部とを備え、
前記送信部は、前記比較部の比較結果を送信することを特徴とする請求項１記載の車載カメラシステム。
前記検出部の検出結果に基づいて前記人物に対して警告を行うか否かを判別する判別部を備えることを特徴とする請求項１または請求項２記載の車載カメラシステム。