JP2002182680A

JP2002182680A - 操作指示装置

Info

Publication number: JP2002182680A
Application number: JP2000385021A
Authority: JP
Inventors: Koichi Sato; 幸一佐藤; Takashi Tokuyama; 孝徳山
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2000-12-19
Filing date: 2000-12-19
Publication date: 2002-06-26
Anticipated expiration: 2020-12-19
Also published as: JP4294853B2

Abstract

(57)【要約】【課題】操作指示の認識精度を高めることができる操
作指示装置を提供すること。【解決手段】コマンド解析部１２は、カメラ１０によ
って撮影された画像に基づいて利用者のジェスチャーの
内容を特定し、複数のコマンド（操作指示）候補を出力
する。コマンド解析部１８は、マイクロホン１６によっ
て集音される音声に基づいて利用者の発声した音声の内
容を特定し、複数のコマンド候補を出力する。コマンド
作成部２２は、各コマンド解析部１２、１８のそれぞれ
から出力されるコマンド候補を統合して一のコマンドを
設定し、このコマンドをナビゲーション装置２に出力す
る。コマンド作成部２２から出力されたコマンドの内容
が利用者の意図に合致していない場合には、各コマンド
解析部１２、１８による解析処理に用いられる画像ＤＢ
１４と音声ＤＢ２０の内容がそれぞれ修正される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、操作者が音声やジ
ェスチャーによって操作対象装置に対して操作指示を行
う操作指示装置に関する。

【０００２】

【従来の技術】従来、電子レンジ等の家電装置やナビゲ
ーション装置等、各種装置を使用する場合には、装置本
体等に備わっている操作ボタン、あるいはリモートコン
トロールユニット等を用いて操作指示が行われていた。

【０００３】また最近では、音声認識技術や画像認識技
術など各種認識技術の発達により、音声やジェスチャー
等により操作指示を行う手法が提案されている。例え
ば、特開平１０−０３１５５１号公報には、音声認識に
よる認識結果と画像認識による認識結果とを統合するこ
とにより認識結果の精度向上を図った「ヒューマンイン
ターフェースシステム」が開示されている。このヒュー
マンインターフェースシステムでは、人口網膜チップや
ＣＣＤからなる画像センサにより人間のジェスチャーを
画像情報として入力するとともに、マイク等からなる音
声入力装置により人間の音声を音声情報として入力し、
所定の認識アルゴリズムにしたがってジェスチャーおよ
び音声の内容を認識し、これらに基づいて家電製品やゲ
ーム装置等からなる操作対象装置に対して操作指示を入
力している。

【０００４】

【発明が解決しようとする課題】ところで、音声やジェ
スチャー等には各利用者の個性が含まれるために、認識
技術そのものの精度が向上しても、認識結果に基づいて
設定される操作指示の内容の精度を向上させることは難
しい。例えば、「手を左右に振る」というジェスチャー
を考えると、ある利用者はこのジェスチャーにより「違
う」という意思を示しているが、別の利用者は「停止」
という意思を示している、というような場合がある。す
なわち、同じジェスチャーであっても、利用者の意図す
る操作指示の内容は、各利用者の個性によって差が生じ
る。このような場合には、画像認識技術の進展により
「手を左右に振る」というジェスチャー自体を認識する
精度が向上したとしても、その認識結果から各利用者の
所望する操作指示の内容を精度良く判断して、的確な操
作指示を設定することが難しいという問題がある。

【０００５】本発明は、このような点に鑑みて創作され
たものであり、その目的は、操作指示の認識精度を高め
ることができる操作指示装置を提供することにある。

【０００６】

【課題を解決するための手段】上述した課題を解決する
ために、本発明の操作指示装置は、操作者が操作対象装
置に対して行った操作指示の内容を判定するために、音
声入力手段、操作音声解析手段、撮影手段、操作動作解
析手段、操作指示決定手段、操作指示判定手段、学習手
段を備えている。音声入力手段は、操作者による操作音
声を取り込む。操作音声解析手段は、操作音声の内容を
解析する。撮影手段は、操作者の身体を撮影する。操作
動作解析手段は、撮影手段によって撮影された画像を解
析することにより、操作者が身体を動かすことによって
表現した操作動作（ジェスチャー）の内容を解析する。
操作指示決定手段は、操作音声解析手段および操作動作
解析手段のそれぞれの解析結果に基づいて、操作指示の
内容を決定する。操作指示判定手段は、操作指示決定手
段によって決定された操作指示の内容の適否を判定す
る。学習手段は、操作指示判定手段による判定結果を操
作音声解析手段および操作動作解析手段のそれぞれの解
析動作に反映させる。

【０００７】音声認識処理によって解析された操作音声
の内容と、画像認識処理によって解析された操作動作の
内容とに基づいて操作指示内容が決定され、その操作指
示に応じた操作対象装置の動作が実行された場合に、操
作指示内容の適否が判定されて各解析動作に反映させる
学習処理が行われるため、操作指示の認識精度を高める
ことができる。

【０００８】また、操作者の感情を判定する感情判定手
段をさらに備え、上述した操作指示判定手段は、感情判
定手段によって判定された操作者の感情に基づいて操作
指示の内容の適否を判定することが望ましい。誤って認
識された操作指示に基づいて操作対象装置が動作する
と、操作者は感情を害することが多い。したがって、操
作者の感情を判定することにより、認識した操作指示内
容が妥当なものであるか否かを判定することができ、操
作部を操作するなどの特別な操作を行うことなく認識結
果に対する学習処理を行うことができる。

【０００９】また、上述した操作指示判定手段は、連続
して与えられた操作指示の内容が操作のやり直しを指示
するものである場合に、否定的な判定を行うことが望ま
しい。誤って認識された操作指示に基づいて操作対象装
置が動作した場合に、操作者は、正しい動作を操作対象
装置に行わせるために、再度内容が異なる操作のやり直
しを指示することが多い。したがって、このような操作
状況に基づいて、認識結果の誤りを判断することがで
き、認識結果の適否のみを指示するための特別な操作を
行うことなく学習処理を行うことができる。

【００１０】また、操作者の個人を識別する個人識別手
段をさらに備え、上述した個人識別手段によって識別さ
れた個人毎に、操作音声解析手段、操作動作解析手段、
学習手段のそれぞれにおける動作を行うことが望まし
い。個人毎に異なる発声状態や動作の癖等を学習させる
ことができるため、操作指示の認識精度を高めることが
できる。

【００１１】また、上述した操作音声解析手段および操
作動作解析手段のそれぞれは、複数の操作指示候補とそ
れぞれに対応する該当確率を抽出する解析動作を行い、
操作指示決定手段は、操作音声解析手段および操作動作
解析手段のそれぞれによって抽出された操作指示候補と
該当確率とに基づいて、最も該当確率が高い操作指示の
内容を決定することが望ましい。該当確率が付加された
複数の操作指示候補が操作音声解析手段と操作動作解析
手段のそれぞれにより抽出され、これらに基づいて最も
該当確率が高い操作指示の内容が決定されるので、操作
者の意図に合致している可能性の高い操作指示の内容を
決定することができる。

【００１２】

【発明の実施の形態】以下、本発明を適用した一実施形
態のコマンド入力装置について、図面を参照しながら説
明する。図１は、本実施形態のコマンド入力装置１の構
成を示す図である。本実施形態のコマンド入力装置１
は、利用者（操作者）が音声およびジェスチャーによっ
てナビゲーション装置２に対して各種のコマンド（操作
指示）を入力するためのものであり、カメラ１０、コマ
ンド解析部１２、１８、画像データベース（ＤＢ）１
４、マイクロホン１６、音声データベース（ＤＢ）２
０、コマンド作成部２２、コマンド判定部２４、画像Ｄ
Ｂ修正部２６、音声ＤＢ修正部２８、個人認証装置３０
を含んで構成されている。

【００１３】カメラ１０は、利用者が行うジェスチャー
を撮影して画像信号に変換する。コマンド解析部１２
は、カメラ１０によって撮影された画像に基づいて利用
者が行ったジェスチャーの内容を特定し、そのジェスチ
ャーにより指示される可能性のある複数のコマンド候補
を出力する。これらのコマンド候補のそれぞれには、各
コマンド候補が利用者の意図した操作指示内容に一致す
る確率（以後、この確率を「該当確率」と称する）が付
加されている。例えば、あるジェスチャーに対して、コ
マンドａの該当確率が５０％、コマンドｂの該当確率が
３０％、コマンドｃの該当確率が２０％というような形
式でコマンド候補と該当確率が出力される。

【００１４】画像ＤＢ１４は、コマンド解析部１２によ
り行われる画像認識処理に必要な画像解析用データを格
納している。この画像ＤＢ１４には、複数の利用者に対
応する複数の画像解析用データが格納されており、上述
したコマンド解析部１２による解析処理は、個人認証装
置３０による認証結果に基づいて各利用者毎に画像解析
用データを使い分けて行われる。

【００１５】マイクロホン１６は、利用者が発声した音
声を集音し、音声信号を出力する。コマンド解析部１８
は、マイクロホン１６によって集音される音声に対して
所定の音声認識処理を行って利用者の発声した操作音声
の内容を特定し、その操作音声の内容により指示される
可能性のある複数のコマンド候補を出力する。これらの
コマンド候補のそれぞれについても、上述したコマンド
解析部１２から出力されるコマンド候補と同様に、各コ
マンドに対して該当確率が付加されている。

【００１６】音声ＤＢ２０は、コマンド解析部１８によ
り行われる音声認識処理に必要な音声解析用データを格
納している。この音声ＤＢ２０についても、複数の利用
者に対応する複数の音声解析用データが格納されてお
り、上述したコマンド解析部１８による解析処理は、個
人認証装置３０による認証結果に基づいて各利用者毎に
音声解析用データを使い分けて行われる。

【００１７】コマンド作成部２２は、コマンド解析部１
２から出力されるコマンド候補とコマンド解析部１８か
ら出力されるコマンド候補を統合して、利用者の意図に
合致していると考えられる一のコマンドを判断し、この
コマンドをナビゲーション装置２に出力する。

【００１８】ここで、一のコマンドを決定する方法につ
いて具体的に説明する。例えば、あるジェスチャーに対
応して、コマンド解析部１２から３つのコマンド候補が
「コマンドａ：５０％、コマンドｂ：３０％、コマンド
ｃ：２０％」と出力され、同様に、ある操作音声に対応
して、コマンド解析部１８から３つのコマンド候補が
「コマンドａ：５０％、コマンドｄ：３０％、コマンド
ｂ：２０％」と出力された場合を考える。この場合に
は、コマンド解析部１２から出力された第１優先候補
（該当確率の値が最も高いコマンド候補）とコマンド解
析部１８から出力された第１優先候補とが「コマンド
ａ」で一致していることから、コマンド作成部２２は、
このコマンドａをナビゲーション装置２に向けて出力す
る。

【００１９】また、あるジェスチャーに対応して、コマ
ンド解析部１２から３つのコマンド候補が「コマンド
ａ：５０％、コマンドｄ：４０％、コマンドｂ：１０
％」と出力され、同様に、ある操作音声に対応して、コ
マンド解析部１８から３つのコマンド候補が「コマンド
ｄ：５０％、コマンドａ：３０％、コマンドｃ：２０
％」と出力された場合を想定する。このように第１優先
候補同士が一致していない場合には、コマンド作成部２
２は、コマンド解析部１２から出力されたコマンド候補
とコマンド解析部１８から出力されたコマンド候補の両
方に共通に含まれるコマンドを探し、コマンドに付加さ
れている該当確率どうしの積を求める。上述した例で
は、コマンドａとコマンドｄが共通に含まれているの
で、コマンドａについては該当確率の積が１５００（＝
５０×３０）、コマンドｄについては該当確率の積が２
０００（＝４０×５０）と求められる。そして、コマン
ド作成部２２は、これらの該当確率の積を比較し、その
値が最も大きいコマンド（上述した例ではコマンドｄ）
をナビゲーション装置２に向けて出力する。

【００２０】コマンド判定部２４は、コマンド作成部２
２からナビゲーション装置２に対して出力されたコマン
ドの内容が利用者の意図に合致していたか否かを判定
し、否定的な判定結果が得られた場合には、画像ＤＢ修
正部２６に対して画像ＤＢ１４の内容を修正するよう指
示するとともに、音声ＤＢ修正部２８に対して音声ＤＢ
２０の内容を修正するよう指示する。本実施形態のコマ
ンド判定部２４は、コマンド作成部２２からナビゲーシ
ョン装置２に対してコマンドが出力されてから比較的に
短い所定時間（例えば、数秒間）内に、このコマンドと
異なる内容のコマンドの入力がナビゲーション装置２に
備わった操作部（図示せず）を用いて行われた場合に、
コマンド作成部２２から出力されたコマンドの内容が利
用者の意図に合致していなかったと判定する。

【００２１】画像ＤＢ修正部２６は、コマンド判定部２
４から指示があった場合に、画像ＤＢ１４に格納された
画像解析用データの内容を修正する学習処理を行う。例
えば、画像ＤＢ修正部２６は、利用者が行ったジェスチ
ャーＡに対応してコマンド作成部２２からコマンドａが
出力され、このコマンドａが利用者の意図に合致しなか
った場合には、このコマンドａの該当確率を低い値に修
正する。このような学習処理を行うことにより、利用者
が次にジェスチャーＡを行った場合には、コマンドａが
選択される可能性が低くなる。すなわち、学習処理を行
うことにより、各利用者の個性を反映して画像解析用デ
ータの内容を更新することができる。

【００２２】音声ＤＢ修正部２８は、コマンド判定部２
４から指示があった場合に、音声ＤＢ２０に格納された
音声解析用データの内容を修正する学習処理を行う。例
えば、音声ＤＢ修正部２８は、利用者が発声した操作音
声Ｂに対応してコマンド作成部２２からコマンドｂが出
力され、このコマンドｂが利用者の意図に合致しなかっ
た場合には、このコマンドｂの該当確率を低い値に修正
する。このような学習処理を行うことにより、利用者が
次に操作音声Ｂを発声した場合には、コマンドｂが選択
される可能性が低くなる。すなわち、学習処理を行うこ
とにより、各利用者の個性を反映して音声解析用データ
の内容を更新することができる。

【００２３】個人認証装置３０は、あらかじめ登録され
ている候補者の中から、コマンド入力を行う利用者を特
定する所定の個人認証処理を行う。個人認証処理の具体
的な方法としては、指紋認識や網膜認識などのバイオメ
トリクス技術を使う方法や、所定のパスワードを入力す
る方法、磁気カード等を用いる方法など各種の方法が考
えられるが、いずれの方法を採用してもよい。個人認証
装置３０による認証結果、すなわち「コマンド入力を行
う利用者が誰であるか」を示す情報は、各コマンド解析
部１２、１８に出力される。

【００２４】図２は、個人認証装置３０の構成の一例を
示す図である。同図に示す個人認証装置３０は、指紋認
識技術を用いて利用者の特定を行うものであり、指紋読
取部３２、指紋ＤＢ３４、指紋認識部３６を含んで構成
されている。指紋読取部３２は、所定の読み取り面上に
置かれた利用者の指から指紋を読み取ってデジタルデー
タ（指紋データ）に変換し、指紋認識部３６に出力す
る。

【００２５】指紋ＤＢ３４は、所定の候補者の指（例え
ば、人差し指）から採取した指紋データをその候補者に
関する情報（氏名など）と関連付けて格納している。指
紋認識部３６は、指紋読取部３２から出力される指紋デ
ータと、指紋ＤＢ３４に予め登録されている各候補者の
指紋データとを比較し、入力された指紋を有する人を特
定する所定の指紋認識処理を行い、認識結果を各コマン
ド解析部１２、１８に出力する。

【００２６】上述したマイクロホン１６が音声入力手段
に、コマンド解析部１８、音声ＤＢ２０が操作音声解析
手段に、カメラ１０が撮影手段に、コマンド解析部１
２、画像ＤＢ１４が操作動作解析手段に、コマンド作成
部２２が操作指示決定手段に、コマンド判定部２４が操
作指示判定手段に、画像ＤＢ修正部２６、音声ＤＢ修正
部２８が学習手段に、個人認証装置３０が個人識別手段
にそれぞれ対応している。

【００２７】本実施形態のコマンド入力装置１はこのよ
うな構成を有しており、次にその動作を説明する。図３
は、コマンド入力装置１の動作手順を示す流れ図であ
る。コマンド解析部１２は、画像ＤＢ１４に格納された
画像解析用データを用いて、カメラ１０によって撮影さ
れた画像に対して所定の画像認識処理を行い、利用者の
行ったジェスチャーの内容を特定し、対応する複数のコ
マンド候補を抽出する（ステップ１００）。

【００２８】またコマンド解析部１８は、音声ＤＢ２０
に格納された音声解析用データを用いて、マイクロホン
１６によって集音される音声に対して所定の音声認識処
理を行い、利用者の発声した操作音声の内容を特定し、
対応する複数のコマンド候補を抽出する（ステップ１０
１）。なお、ステップ１００の動作とステップ１０１の
動作は、並行して行ったり、順番を入れ替えるようにし
てもよい。

【００２９】各コマンド解析部１２、１８により複数の
コマンド候補がそれぞれ抽出されると、コマンド作成部
２２は、コマンド解析部１２により抽出された第１優先
候補のコマンドと、コマンド解析部１８から出力された
第１優先候補のコマンドとでその内容が一致しているか
否かを判定する（ステップ１０２）。

【００３０】第１優先候補のコマンド同士が一致してい
る場合には、ステップ１０２で肯定判断が行われ、コマ
ンド作成部２２は、この第１優先候補のコマンドをナビ
ゲーション装置２に向けて出力する（ステップ１０
３）。また、第１優先候補のコマンドが一致していない
場合には、ステップ１０２で否定判断が行われ、コマン
ド作成部２２は、各コマンド候補の該当確率を考慮して
上述した所定の計算を行って一のコマンドを選択し、こ
のコマンドをナビゲーション装置２に向けて出力する
（ステップ１０４）。

【００３１】例えば、（１）利用者が「顔を左右に振
る」というジェスチャーを行い、このジェスチャーに対
応したコマンド候補として、第１優先候補が「いやだ：
５０％」、第２優先候補が「違う：３０％」、第３優先
候補が「停止：２０％」とそれぞれ出力され、（２）上
述したジェスチャーとともに利用者が「ストップ」とい
う操作音声を発声し、この操作音声に対応したコマンド
候補として、第１優先候補が「停止：９０％」、第２優
先候補が「違う：７％」、第３優先候補が「いやだ：３
％」とそれぞれ出力された場合を考える。この場合に各
コマンドについての該当確率の積は、コマンド「いや
だ」については１５０（＝５０×３）、コマンド「違
う」については２１０（３０×７）、コマンド「停止」
については１８００（９０×２０）とそれぞれ計算され
るため、コマンド作成部２２は、該当確率の積が最も大
きいコマンドである「停止」を選択して出力する。

【００３２】ナビゲーション装置２に対してコマンドが
出力されると、次に、コマンド判定部２４は、利用者が
ナビゲーション装置２に備わった操作部（図示せず）を
用いて、コマンド作成部２２から出力されたコマンドと
異なる内容のコマンドの入力を行ったか否かを判定する
（ステップ１０５）。

【００３３】利用者によるコマンド入力が行われない場
合には、ステップ１０５で否定判断が行われ、コマンド
判定部２４は、所定時間（例えば、数秒間）が経過した
か否かを判定する（ステップ１０６）。所定時間が経過
しない間は、ステップ１０６で否定判断が行われ、上述
したステップ１０５に戻り、以降の処理が繰り返され
る。

【００３４】所定時間内に利用者によるコマンド入力が
行われた場合には、ステップ１０５で肯定判断が行わ
れ、コマンド判定部２４は、画像ＤＢ修正部２６に対し
て画像ＤＢ１４の内容を修正するよう指示するととも
に、音声ＤＢ修正部２８に対して音声ＤＢ２０の内容を
修正するように指示する。

【００３５】指示を受けた画像ＤＢ修正部２６は、コマ
ンド作成部２２から出力されたコマンドに対応して、画
像ＤＢ１４の内容を修正する（ステップ１０７）。具体
的には、画像ＤＢ修正部２６は、コマンド作成部２２か
ら出力されたコマンドに対応する該当確率を所定量だけ
低い値に設定する。これにより、以降の処理において
は、同じジェスチャーが行われた場合にも、このコマン
ドが選択される確率が低くなり、利用者の個性を反映さ
せることができる。なお、一つのコマンドの該当確率だ
けを低くすると、各コマンドの該当確率の合計が１００
％にならなくなってしまうため、実際には一つのコマン
ドの該当確率を下げると同時に、他のコマンドの該当確
率を上げる必要がある。

【００３６】同様に、音声ＤＢ修正部２８は、コマンド
作成部２２から出力されたコマンドに対応して、音声Ｄ
Ｂ２０の内容を修正する（ステップ１０８）。具体的に
は、音声ＤＢ修正部２８は、コマンド作成部２２から出
力されたコマンドに対応する該当確率を所定量だけ低い
値に設定する。これにより、以降の処理においては、同
じ音声が入力された場合にも、このコマンドが選択され
る確率が低くなり、利用者の個性を反映させることがで
きる。

【００３７】このようにして、利用者の音声およびジェ
スチャーに対応して、ナビゲーション装置２に対して各
種のコマンドを入力するとともに、コマンドの内容の適
否に応じた学習処理を行う一連の処理が終了する。とこ
ろで、上述した実施形態では、コマンド作成部２２から
コマンドが出力されてから所定時間内にこのコマンドと
異なる内容のコマンドの入力が利用者により行われた場
合に、コマンド入力装置１からナビゲーション装置２に
対して出力されたコマンドの内容が利用者の意図に合致
していないと判断していたが、この判断を利用者の感情
に基づいて行うようにしてもよい。

【００３８】図４は、利用者の感情に基づいてコマンド
内容の判定を行う場合のコマンド入力装置１ａの構成を
示す図である。図４に示すコマンド入力装置１ａは、カ
メラ１０、コマンド解析部１２、１８、画像ＤＢ１４、
マイクロホン１６、音声ＤＢ２０、コマンド作成部２
２、コマンド判定部２４ａ、画像ＤＢ修正部２６、音声
ＤＢ修正部２８、感情認識装置４０を含んで構成されて
いる。図１に示したコマンド入力装置１との相違点は、
（１）個人認証機能を備えた感情認識装置４０が追加さ
れた点と、（２）これに伴って個人認証装置３０が省略
された点と、（３）コマンド判定部２４が感情認識結果
に基づいて処理を行うコマンド判定部２４ａに置き換え
られた点である。以下、主に両者の相違点に着目して、
コマンド入力装置１ａの構成および動作を説明する。

【００３９】感情認識装置４０は、利用者の感情を認識
する処理を行い、感情認識結果として、「喜」、
「怒」、「哀」、「楽」のいずれかを出力する。また、
感情認識装置４０は、個人認証機能も備えており、個人
認証結果に基づいて複数の利用者についてそれぞれの個
性を考慮した感情認識処理を行う。この感情認識装置４
０が感情判定手段に対応している。感情認識装置４０の
詳細構成については後述する。

【００４０】コマンド判定部２４ａは、コマンド作成部
２２からナビゲーション装置２に対して出力されたコマ
ンドの内容が利用者の意図に合致していたか否かを判定
し、否定的な判定結果が得られた場合には、画像ＤＢ１
４および音声ＤＢ２０の内容を修正するよう画像ＤＢ修
正部２６と音声ＤＢ修正部２８に指示する。具体的に
は、コマンド判定部２４ａは、感情認識装置４０から出
力される感情認識結果が否定的な内容、具体的には
「怒」または「哀」である場合にコマンドの内容が利用
者の意図に合致していなかったと判定する。

【００４１】次に、上述した感情認識装置４０の詳細構
成を説明する。図５は、感情認識装置４０の詳細構成を
示す図である。感情認識装置４０は、マイクロホン５
０、音声認識部５２、カメラ５４、画像認識部５６、セ
ンサ５８、動作認識部６０、個性ＤＢ６２、個性認識部
６４、感情認識部６６、７０、７４、音声ＤＢ６８、画
像ＤＢ７２、動作ＤＢ７６、重み付け処理部７８、個性
データ修正部８０を含んで構成されている。

【００４２】マイクロホン５０は、利用者が発声した音
声を集音して電気信号に変換する。音声認識部５２は、
マイクロホン５０によって集音された利用者の音声信号
を解析して音声認識を行い、利用者が発声した言葉を特
定する。また、音声認識部５２は、音声認識を行った結
果に基づいて、利用者の音声の特徴量を抽出する。音声
認識部５２によって抽出される特徴量としては、例え
ば、声の高さや大きさ、話す際の一文字毎の発声間隔等
が考えられる。

【００４３】カメラ５４は、利用者の表情を撮影する。
画像認識部５６は、カメラ５４によって撮影された利用
者の表情を解析して特徴量を抽出する。画像認識部５６
によって抽出される特徴量としては、例えば、顔に含ま
れる目、眉毛、口等の各要素の位置や大きさ、あるいは
これらの要素の動きが考えられる。具体的には、目の輪
郭、目の角度、眉の角度、口の開き具合、あるいは、単
位時間当たりの瞬きの回数などが考えられる。

【００４４】センサ５８は、利用者の動作を検出して電
気信号に変換する。ここで、本明細書では、利用者の手
足や頭部等の身体の各部位の位置や動きに加えて、体
温、発汗量等、利用者の身体の状態に関して測定可能な
物理量を全て含めて「動作」と表現するものとする。し
たがって、本実施形態のセンサ５８は、温度センサ、圧
力センサ、位置センサ等の各種のセンサから構成されて
いる。本実施形態におけるセンサ５８の具体的な設置場
所としては、運転席のハンドルやシート、その他運転席
周辺の空間が考えられる。

【００４５】動作認識部６０は、センサ５８を用いて検
出された利用者の動作を解析して特徴量を抽出する。具
体的には、例えば、ハンドルに圧力センサを設置し、こ
れに加わる圧力の変化を調べることによって手の動きを
調べることができ、これより手を頻繁に動かしているか
どうかや、ハンドルを強く握っているかどうか等の情報
が得られる。また、シートやその他の場所に位置センサ
を設置することにより、利用者の座高、頭の位置、肩の
位置等の情報を得ることもできる。

【００４６】個性ＤＢ６２は、利用者の有する個性に基
づいて個人を特定する、すなわち、個人認証を行うため
の個人特定用データと、利用者の感情を認識する際の判
断基準とするための個性データグループを格納してい
る。個人特定用データとしては、例えば、利用者が所定
の言葉を発声した際の音声の波形パターンや、あごの輪
郭、座高等の要素、すなわち、感情の変化によらず値が
ほぼ一定であるような要素が考慮されており、各利用者
に対応するデータが登録されている。

【００４７】また、個性ＤＢ６２は、利用者が特定の感
情を有していない状態、言い換えると利用者がどの感情
を有している可能性も同じ確率であると見なすことがで
きる状態において、音声、表情、動作の各々に関して有
している特徴量をまとめたデータグループが格納されて
いる。このデータグループが上述した「個性データグル
ープ」に対応する。また、個性データグループに含まれ
る各特徴量を「個性データ」と称することとする。

【００４８】個性認識部６４は、上述した音声認識部５
２、画像認識部５６、動作認識部６０のそれぞれによっ
て抽出される各特徴量の一部または全部を取得し、個性
ＤＢ６２に格納された個人特定用データを検索して、取
得した特徴量と一致する個人特定用データがあるか否か
を調べる。取得した特徴量と一致する個人特定用データ
が見つかった場合には、個性認識部６４は、この個人特
定用データを有する利用者に対応する個性データグルー
プを読み出して各感情認識部６６、７０、７４に向けて
出力する。例えば、個人特定用データを検索した結果、
利用者Ａのものと一致した場合であれば、利用者Ａに対
応する個性データグループが読み出される。

【００４９】感情認識部６６は、音声認識部５２によっ
て抽出された音声に関する特徴量と個性認識部６４から
入力される個性データグループに基づいて利用者の音声
の状態を判断し、判断した音声の状態と音声ＤＢ６８に
格納されたデータテーブルに基づいて利用者の感情
（喜、怒、哀、楽）を認識する。感情認識部６６（感情
認識部７２、７４も同様）による感情認識結果は、例え
ば、「喜」が３０％、「怒」が５５％、「哀」が１０
％、「楽」が５％というように、各感情を利用者が有す
る可能性を確率で表すことにより与えられる。上述した
例であれば、利用者が有している可能性の高い感情は
「怒」ということになる。音声ＤＢ６８は、感情認識部
６６によって判断される利用者の音声の状態と上述した
４つの感情との関係を示すデータテーブルを格納してい
る。

【００５０】感情認識部７０は、画像認識部５６によっ
て抽出された表情に関する特徴量と個性認識部６４から
入力される個性データグループに基づいて利用者の表情
の状態を判断するとともに、判断した表情の状態と画像
ＤＢ７２に格納されたデータテーブルに基づいて利用者
の感情を認識する。画像ＤＢ７２は、感情認識部７０に
よって判断される利用者の表情の状態と上述した４つの
感情との関係を示すデータテーブルを格納している。

【００５１】感情認識部７４は、動作認識部６０によっ
て抽出された動作に関する特徴量と個性認識部６４から
入力される個性データグループに基づいて利用者の動作
の状態を判断するとともに、判断した動作の状態と動作
ＤＢ７６に格納されたデータテーブルに基づいて利用者
の感情を認識する。動作ＤＢ７６は、感情認識部７４に
よって判断される利用者の表情の状態と上述した４つの
感情との関係を示すデータテーブルを格納している。

【００５２】重み付け処理部７８は、各感情認識部６
６、７０、７４から出力された感情認識結果に対して所
定の重み付け処理を行って統合し、最終的な感情認識結
果を求める。具体的には、音声情報に基づいて得られた
感情認識結果を｛Ａｈ、Ａａ、Ａｓ、Ａｅ｝、画像情報
に基づいて得られた感情認識結果を｛Ｖｈ、Ｖａ、Ｖ
ｓ、Ｖｅ｝、動作情報に基づいて得られた感情認識結果
を｛Ｍｈ、Ｍａ、Ｍｓ、Ｍｅ｝とおき、これらに対応す
る重み付け係数をそれぞれ、｛Ｐｈ、Ｐａ、Ｐｓ、Ｐ
ｅ｝、｛Ｑｈ、Ｑａ、Ｑｓ、Ｑｅ｝、｛Ｒｈ、Ｒａ、Ｒ
ｓ、Ｒｅ｝とおくと、各感情認識結果に対する重み付け
処理は、以下に示した（１）〜（４）式によって求めら
れる。ここで、各感情認識結果および各重み付け係数に
付加された添え字は、「ｈ」が「喜」に対応し、「ａ」
が「怒」に対応し、「ｓ」が「哀」に対応し、「ｅ」が
「楽」に対応しているものとする。

【００５３】喜＝Ｐｈ・Ａｈ＋Ｑｈ・Ｖｈ＋Ｒｈ・Ｍｈ …（１）怒＝Ｐａ・Ａａ＋Ｑａ・Ｖａ＋Ｒａ・Ｍａ …（２）哀＝Ｐｓ・Ａｓ＋Ｑｓ・Ｖｓ＋Ｒｓ・Ｍｓ …（３）楽＝Ｐｅ・Ａｅ＋Ｑｅ・Ｖｅ＋Ｒｅ・Ｍｅ …（４）なお、各重み付け係数は、適切な認識結果が得られるよ
うに実験的に決定される。

【００５４】上述した（１）〜（４）式に基づいて、音
声、画像、動作のそれぞれから得られた感情認識結果を
統合した感情認識結果が得られる。その後、重み付け処
理部７８は、（１）〜（４）式によって得られた感情認
識結果の中で、最も値の大きい感情を選択し、これを最
終的な感情認識結果として出力する。具体的には、例え
ば、“利用者が「Ａ」であり、感情認識結果が「喜」で
ある”といった情報が重み付け処理部７８から出力され
る。重み付け処理部７８によって求められた感情認識結
果は、感情認識装置４０からの出力として、コマンド判
定部２４ａへ出力される。また、個人認証結果は、各コ
マンド解析部１２、１８にそれぞれ出力される。

【００５５】個性データ修正部８０は、個性認識部６４
から出力された個性データグループと音声認識部５２、
画像認識部５６、動作認識部６０のそれぞれによって抽
出された各特徴量に基づいて、個性データグループに含
まれる各個性データを利用者の個性に対応して修正する
処理を行う。

【００５６】コマンド入力装置１ａは上述したような構
成を有しており、次にその動作を説明する。図６は、利
用者の感情に基づいてコマンド内容の判定を行う場合の
コマンド入力装置１ａの部分的な動作手順を示す流れ図
である。コマンド入力装置１ａの基本的な動作手順は、
上述したコマンド入力装置１における動作手順と同様で
あり、上述した図３に示したステップ１０５の処理をス
テップ１０９の処理に置き換えた点が異なっている。

【００５７】コマンド判定部２４ａは、感情認識装置４
０から否定的な感情認識結果（「怒」または「哀」）が
出力されたか否かを判定する（ステップ１０９）。否定
的な感情認識結果が出力されない場合には、ステップ１
０９で否定判断が行われ、次にコマンド判定部２４ａ
は、所定時間（例えば、数秒間）が経過したか否かを判
定する（ステップ１０６）。所定時間が経過しない間
は、ステップ１０６で否定判断が行われ、上述したステ
ップ１０５に戻り、以降の処理が繰り返される。

【００５８】所定時間内に否定的な感情認識結果が出力
された場合には、ステップ１０９で肯定判断が行われ、
コマンド判定部２４ａは、画像ＤＢ修正部２６に対して
画像ＤＢ１４の内容を修正するよう指示するとともに、
音声ＤＢ修正部２８に対して音声ＤＢ２０の内容を修正
するように指示する。その後、ステップ１０７以降の処
理が行われることにより、画像ＤＢ１４および音声ＤＢ
２０の内容が修正され、一連の処理が終了する。

【００５９】このように、本実施形態のコマンド入力装
置では、各コマンド解析部１２、１８により解析された
操作音声およびジェスチャー（操作動作）の内容に基づ
いてコマンドの内容が決定され、そのコマンドに応じて
ナビゲーション装置２の動作が実行された場合にコマン
ドの内容の適否が判定され、否定的な判定結果が得られ
た場合には画像ＤＢ１４および音声ＤＢ２０の内容を修
正する学習処理が行われるため、コマンドの認識精度を
高めることができる。

【００６０】特に、所定時間内におけるコマンド入力の
有無、または、利用者の感情認識結果のいずれかを調べ
ることにより、コマンドの内容が利用者の意図に合致し
ているか否かが判定されるため、利用者に特別な操作を
行わせることなく認識結果に対する学習処理を行うこと
ができる。また、該当確率が付加された複数のコマンド
が各コマンド解析部１２、１８のそれぞれから出力さ
れ、これらに基づいて最も該当確率が高い操作指示の内
容が決定されるので、操作者の意図に合致している可能
性の高い操作指示の内容を決定することができるという
利点もある。

【００６１】なお、本発明は上記実施形態に限定される
ものではなく、本発明の要旨の範囲内において種々の変
形実施が可能である。例えば、感情認識装置４０を備え
たコマンド入力装置１ａ（図４参照）においては、カメ
ラ１０と感情認識装置４０内のカメラ５４、マイクロホ
ン１６と感情認識装置４０内のマイクロホン５０のそれ
ぞれを共用にして構成の簡略化を図るようにしてもよ
い。同様に、各コマンド解析部１２および１８には、音
声認識機能や画像認識機能が含まれているので、感情認
識装置４０内の音声認識部５２および画像認識部５６に
より行われる処理を各コマンド解析部１２および１８で
行うようにして、構成の簡略化を図ることもできる。

【００６２】また、上述した実施形態では、所定時間内
におけるコマンド入力の有無、または、利用者の感情認
識結果のいずれかを調べることにより、コマンドの内容
が利用者の意図に合致しているか否かを判定していた
が、コマンド入力の有無と感情認識結果の両者を併用し
て判定を行ってもよい。

【００６３】また、上述した実施形態では、複数の利用
者による使用を考慮して、個人認証装置３０等の個人認
証手段を設けて、各利用者の個性に対応したコマンド作
成処理を行っていたが、一の利用者だけが使用する場合
などには、個人認証装置３０等の個人認証手段を省略し
てコストダウンを図るようにしてもよい。

【００６４】また、コマンドを入力する対象となる装置
は、上述したナビゲーション装置２に限定されるもので
はなく、他の各種装置であってもよい。例えば、電子レ
ンジ等の家電装置をコマンド入力の対象とした場合に
は、調理等の作業中においても、家電装置に備わった操
作ボタン等を操作することなく各種の操作指示を入力す
ることができる。同様に、車載用のＣＤプレーヤ等のオ
ーディオ装置をコマンド入力の対象とした場合には、オ
ーディオ装置に備わった操作ボタン等を操作することな
く、選局や音量調整等の操作指示を入力することができ
る。

【００６５】

【発明の効果】上述したように、本発明によれば、操作
音声および操作動作の内容の解析結果に基づいて操作指
示内容が決定されており、その操作指示に応じた操作対
象装置の動作が実行された場合に、操作指示内容の適否
が判定され、各解析動作に反映させる学習処理が行われ
るため、操作指示の認識精度を高めることができる。

【図面の簡単な説明】

【図１】一実施形態のコマンド入力装置の構成を示す図
である。

【図２】個人認証装置の構成の一例を示す図である。

【図３】コマンド入力装置の動作手順を示す流れ図であ
る。

【図４】利用者の感情に基づいてコマンド内容の判定を
行う場合のコマンド入力装置の構成を示す図である。

【図５】感情認識装置の詳細構成を示す図である。

【図６】利用者の感情に基づいてコマンド内容の判定を
行う場合のコマンド入力装置の部分的な動作手順を示す
流れ図である。

【符号の説明】

１、１ａコマンド入力装置２ナビゲーション装置１０カメラ１２、１８コマンド解析部１４画像ＤＢ（データベース）１６マイクロホン２０音声ＤＢ２２コマンド作成部２４コマンド判定部２６画像ＤＢ修正部２８音声ＤＢ修正部３０個人認証装置４０感情認識装置

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/06 Ｇ１０Ｌ 3/00 ５２１Ｍ 15/10 ５３１Ｎ 17/00 ５４５Ａ 15/24 ５５１Ｆ５７１ＱＦターム(参考） 5B047 AA25 CB22 DC09 5B057 BA02 BA04 CA08 CA12 CA16 CB08 CB12 CB16 CC01 DA12 DB02 DB09 DC33 5D015 AA03 AA06 GG01 GG06 HH04 KK01 LL07

Claims

【特許請求の範囲】

【請求項１】操作者が操作対象装置に対して行った操
作指示の内容を判定する操作指示装置であって、前記操作者による操作音声を取り込む音声入力手段と、前記操作音声の内容を解析する操作音声解析手段と、前記操作者の身体を撮影する撮影手段と、前記撮影手段によって撮影された画像を解析することに
より、前記操作者が身体を動かすことによって表現され
た操作動作の内容を解析する操作動作解析手段と、前記操作音声解析手段および前記操作動作解析手段のそ
れぞれの解析結果に基づいて、前記操作指示の内容を決
定する操作指示決定手段と、前記操作指示決定手段によって決定された前記操作指示
の内容の適否を判定する操作指示判定手段と、前記操作指示判定手段による判定結果を前記操作音声解
析手段および前記操作動作解析手段のそれぞれの解析動
作に反映させる学習手段と、を備えることを特徴とする操作指示装置。
【請求項２】請求項１において、前記操作者の感情を判定する感情判定手段をさらに備
え、前記操作指示判定手段は、前記感情判定手段によって判
定された前記操作者の感情に基づいて前記操作指示の内
容の適否を判定することを特徴とする操作指示装置。
【請求項３】請求項１において、前記操作指示判定手段は、連続して与えられた前記操作
指示の内容が操作のやり直しを指示するものである場合
に、否定的な判定を行うことを特徴とする操作指示装
置。
【請求項４】請求項１〜３のいずれかにおいて、前記操作者の個人を識別する個人識別手段をさらに備
え、前記個人識別手段によって識別された個人毎に、前記操
作音声解析手段、前記操作動作解析手段、前記学習手段
のそれぞれにおける動作を行うことを特徴とする操作指
示装置。
【請求項５】請求項１〜４のいずれかにおいて、前記操作音声解析手段および前記操作動作解析手段のそ
れぞれは、複数の操作指示候補とそれぞれに対応する該
当確率を抽出する解析動作を行い、前記操作指示決定手段は、前記操作音声解析手段および
前記操作動作解析手段のそれぞれによって抽出された前
記操作指示候補と前記該当確率とに基づいて、最も該当
確率が高い前記操作指示の内容を決定することを特徴と
する操作指示装置。