JP4294853B2

JP4294853B2 - 操作指示装置

Info

Publication number: JP4294853B2
Application number: JP2000385021A
Authority: JP
Inventors: 幸一佐藤; 孝徳山
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2000-12-19
Filing date: 2000-12-19
Publication date: 2009-07-15
Anticipated expiration: 2020-12-19
Also published as: JP2002182680A

Description

【０００１】
【発明の属する技術分野】
本発明は、操作者が音声やジェスチャーによって操作対象装置に対して操作指示を行う操作指示装置に関する。
【０００２】
【従来の技術】
従来、電子レンジ等の家電装置やナビゲーション装置等、各種装置を使用する場合には、装置本体等に備わっている操作ボタン、あるいはリモートコントロールユニット等を用いて操作指示が行われていた。
【０００３】
また最近では、音声認識技術や画像認識技術など各種認識技術の発達により、音声やジェスチャー等により操作指示を行う手法が提案されている。例えば、特開平１０−０３１５５１号公報には、音声認識による認識結果と画像認識による認識結果とを統合することにより認識結果の精度向上を図った「ヒューマンインターフェースシステム」が開示されている。このヒューマンインターフェースシステムでは、人口網膜チップやＣＣＤからなる画像センサにより人間のジェスチャーを画像情報として入力するとともに、マイク等からなる音声入力装置により人間の音声を音声情報として入力し、所定の認識アルゴリズムにしたがってジェスチャーおよび音声の内容を認識し、これらに基づいて家電製品やゲーム装置等からなる操作対象装置に対して操作指示を入力している。
【０００４】
【発明が解決しようとする課題】
ところで、音声やジェスチャー等には各利用者の個性が含まれるために、認識技術そのものの精度が向上しても、認識結果に基づいて設定される操作指示の内容の精度を向上させることは難しい。例えば、「手を左右に振る」というジェスチャーを考えると、ある利用者はこのジェスチャーにより「違う」という意思を示しているが、別の利用者は「停止」という意思を示している、というような場合がある。すなわち、同じジェスチャーであっても、利用者の意図する操作指示の内容は、各利用者の個性によって差が生じる。このような場合には、画像認識技術の進展により「手を左右に振る」というジェスチャー自体を認識する精度が向上したとしても、その認識結果から各利用者の所望する操作指示の内容を精度良く判断して、的確な操作指示を設定することが難しいという問題がある。
【０００５】
本発明は、このような点に鑑みて創作されたものであり、その目的は、操作指示の認識精度を高めることができる操作指示装置を提供することにある。
【０００６】
【課題を解決するための手段】
上述した課題を解決するために、本発明の操作指示装置は、操作者が操作対象装置に対して行った操作指示の内容を判定するために、音声入力手段、操作音声解析手段、撮影手段、操作動作解析手段、操作指示決定手段、操作指示判定手段、学習手段を備えている。音声入力手段は、操作者による操作音声を取り込む。操作音声解析手段は、操作音声の内容を解析する。撮影手段は、操作者の身体を撮影する。操作動作解析手段は、撮影手段によって撮影された画像を解析することにより、操作者が身体を動かすことによって表現した操作動作（ジェスチャー）の内容を解析する。操作指示決定手段は、操作音声解析手段および操作動作解析手段のそれぞれの解析結果に基づいて、操作指示の内容を決定する。操作指示判定手段は、操作指示決定手段によって決定された操作指示の内容の適否を判定する。学習手段は、操作指示判定手段による判定結果を操作音声解析手段および操作動作解析手段のそれぞれの解析動作に反映させる。
【０００７】
音声認識処理によって解析された操作音声の内容と、画像認識処理によって解析された操作動作の内容とに基づいて操作指示内容が決定され、その操作指示に応じた操作対象装置の動作が実行された場合に、操作指示内容の適否が判定されて各解析動作に反映させる学習処理が行われるため、操作指示の認識精度を高めることができる。
【０００８】
また、操作者の感情を判定する感情判定手段をさらに備え、上述した操作指示判定手段は、感情判定手段によって判定された操作者の感情に基づいて操作指示の内容の適否を判定することが望ましい。誤って認識された操作指示に基づいて操作対象装置が動作すると、操作者は感情を害することが多い。したがって、操作者の感情を判定することにより、認識した操作指示内容が妥当なものであるか否かを判定することができ、操作部を操作するなどの特別な操作を行うことなく認識結果に対する学習処理を行うことができる。
【０００９】
また、上述した操作指示判定手段は、連続して与えられた操作指示の内容が操作のやり直しを指示するものである場合に、否定的な判定を行うことが望ましい。誤って認識された操作指示に基づいて操作対象装置が動作した場合に、操作者は、正しい動作を操作対象装置に行わせるために、再度内容が異なる操作のやり直しを指示することが多い。したがって、このような操作状況に基づいて、認識結果の誤りを判断することができ、認識結果の適否のみを指示するための特別な操作を行うことなく学習処理を行うことができる。
【００１０】
また、操作者の個人を識別する個人識別手段をさらに備え、上述した個人識別手段によって識別された個人毎に、操作音声解析手段、操作動作解析手段、学習手段のそれぞれにおける動作を行うことが望ましい。個人毎に異なる発声状態や動作の癖等を学習させることができるため、操作指示の認識精度を高めることができる。
【００１１】
また、上述した操作音声解析手段および操作動作解析手段のそれぞれは、複数の操作指示候補とそれぞれに対応する該当確率を抽出する解析動作を行い、操作指示決定手段は、操作音声解析手段および操作動作解析手段のそれぞれによって抽出された操作指示候補と該当確率とに基づいて、最も該当確率が高い操作指示の内容を決定することが望ましい。該当確率が付加された複数の操作指示候補が操作音声解析手段と操作動作解析手段のそれぞれにより抽出され、これらに基づいて最も該当確率が高い操作指示の内容が決定されるので、操作者の意図に合致している可能性の高い操作指示の内容を決定することができる。
【００１２】
【発明の実施の形態】
以下、本発明を適用した一実施形態のコマンド入力装置について、図面を参照しながら説明する。
図１は、本実施形態のコマンド入力装置１の構成を示す図である。本実施形態のコマンド入力装置１は、利用者（操作者）が音声およびジェスチャーによってナビゲーション装置２に対して各種のコマンド（操作指示）を入力するためのものであり、カメラ１０、コマンド解析部１２、１８、画像データベース（ＤＢ）１４、マイクロホン１６、音声データベース（ＤＢ）２０、コマンド作成部２２、コマンド判定部２４、画像ＤＢ修正部２６、音声ＤＢ修正部２８、個人認証装置３０を含んで構成されている。
【００１３】
カメラ１０は、利用者が行うジェスチャーを撮影して画像信号に変換する。
コマンド解析部１２は、カメラ１０によって撮影された画像に基づいて利用者が行ったジェスチャーの内容を特定し、そのジェスチャーにより指示される可能性のある複数のコマンド候補を出力する。これらのコマンド候補のそれぞれには、各コマンド候補が利用者の意図した操作指示内容に一致する確率（以後、この確率を「該当確率」と称する）が付加されている。例えば、あるジェスチャーに対して、コマンドａの該当確率が５０％、コマンドｂの該当確率が３０％、コマンドｃの該当確率が２０％というような形式でコマンド候補と該当確率が出力される。
【００１４】
画像ＤＢ１４は、コマンド解析部１２により行われる画像認識処理に必要な画像解析用データを格納している。この画像ＤＢ１４には、複数の利用者に対応する複数の画像解析用データが格納されており、上述したコマンド解析部１２による解析処理は、個人認証装置３０による認証結果に基づいて各利用者毎に画像解析用データを使い分けて行われる。
【００１５】
マイクロホン１６は、利用者が発声した音声を集音し、音声信号を出力する。コマンド解析部１８は、マイクロホン１６によって集音される音声に対して所定の音声認識処理を行って利用者の発声した操作音声の内容を特定し、その操作音声の内容により指示される可能性のある複数のコマンド候補を出力する。これらのコマンド候補のそれぞれについても、上述したコマンド解析部１２から出力されるコマンド候補と同様に、各コマンドに対して該当確率が付加されている。
【００１６】
音声ＤＢ２０は、コマンド解析部１８により行われる音声認識処理に必要な音声解析用データを格納している。この音声ＤＢ２０についても、複数の利用者に対応する複数の音声解析用データが格納されており、上述したコマンド解析部１８による解析処理は、個人認証装置３０による認証結果に基づいて各利用者毎に音声解析用データを使い分けて行われる。
【００１７】
コマンド作成部２２は、コマンド解析部１２から出力されるコマンド候補とコマンド解析部１８から出力されるコマンド候補を統合して、利用者の意図に合致していると考えられる一のコマンドを判断し、このコマンドをナビゲーション装置２に出力する。
【００１８】
ここで、一のコマンドを決定する方法について具体的に説明する。例えば、あるジェスチャーに対応して、コマンド解析部１２から３つのコマンド候補が「コマンドａ：５０％、コマンドｂ：３０％、コマンドｃ：２０％」と出力され、同様に、ある操作音声に対応して、コマンド解析部１８から３つのコマンド候補が「コマンドａ：５０％、コマンドｄ：３０％、コマンドｂ：２０％」と出力された場合を考える。この場合には、コマンド解析部１２から出力された第１優先候補（該当確率の値が最も高いコマンド候補）とコマンド解析部１８から出力された第１優先候補とが「コマンドａ」で一致していることから、コマンド作成部２２は、このコマンドａをナビゲーション装置２に向けて出力する。
【００１９】
また、あるジェスチャーに対応して、コマンド解析部１２から３つのコマンド候補が「コマンドａ：５０％、コマンドｄ：４０％、コマンドｂ：１０％」と出力され、同様に、ある操作音声に対応して、コマンド解析部１８から３つのコマンド候補が「コマンドｄ：５０％、コマンドａ：３０％、コマンドｃ：２０％」と出力された場合を想定する。このように第１優先候補同士が一致していない場合には、コマンド作成部２２は、コマンド解析部１２から出力されたコマンド候補とコマンド解析部１８から出力されたコマンド候補の両方に共通に含まれるコマンドを探し、コマンドに付加されている該当確率どうしの積を求める。上述した例では、コマンドａとコマンドｄが共通に含まれているので、コマンドａについては該当確率の積が１５００（＝５０×３０）、コマンドｄについては該当確率の積が２０００（＝４０×５０）と求められる。そして、コマンド作成部２２は、これらの該当確率の積を比較し、その値が最も大きいコマンド（上述した例ではコマンドｄ）をナビゲーション装置２に向けて出力する。
【００２０】
コマンド判定部２４は、コマンド作成部２２からナビゲーション装置２に対して出力されたコマンドの内容が利用者の意図に合致していたか否かを判定し、否定的な判定結果が得られた場合には、画像ＤＢ修正部２６に対して画像ＤＢ１４の内容を修正するよう指示するとともに、音声ＤＢ修正部２８に対して音声ＤＢ２０の内容を修正するよう指示する。本実施形態のコマンド判定部２４は、コマンド作成部２２からナビゲーション装置２に対してコマンドが出力されてから比較的に短い所定時間（例えば、数秒間）内に、このコマンドと異なる内容のコマンドの入力がナビゲーション装置２に備わった操作部（図示せず）を用いて行われた場合に、コマンド作成部２２から出力されたコマンドの内容が利用者の意図に合致していなかったと判定する。
【００２１】
画像ＤＢ修正部２６は、コマンド判定部２４から指示があった場合に、画像ＤＢ１４に格納された画像解析用データの内容を修正する学習処理を行う。例えば、画像ＤＢ修正部２６は、利用者が行ったジェスチャーＡに対応してコマンド作成部２２からコマンドａが出力され、このコマンドａが利用者の意図に合致しなかった場合には、このコマンドａの該当確率を低い値に修正する。このような学習処理を行うことにより、利用者が次にジェスチャーＡを行った場合には、コマンドａが選択される可能性が低くなる。すなわち、学習処理を行うことにより、各利用者の個性を反映して画像解析用データの内容を更新することができる。
【００２２】
音声ＤＢ修正部２８は、コマンド判定部２４から指示があった場合に、音声ＤＢ２０に格納された音声解析用データの内容を修正する学習処理を行う。例えば、音声ＤＢ修正部２８は、利用者が発声した操作音声Ｂに対応してコマンド作成部２２からコマンドｂが出力され、このコマンドｂが利用者の意図に合致しなかった場合には、このコマンドｂの該当確率を低い値に修正する。このような学習処理を行うことにより、利用者が次に操作音声Ｂを発声した場合には、コマンドｂが選択される可能性が低くなる。すなわち、学習処理を行うことにより、各利用者の個性を反映して音声解析用データの内容を更新することができる。
【００２３】
個人認証装置３０は、あらかじめ登録されている候補者の中から、コマンド入力を行う利用者を特定する所定の個人認証処理を行う。個人認証処理の具体的な方法としては、指紋認識や網膜認識などのバイオメトリクス技術を使う方法や、所定のパスワードを入力する方法、磁気カード等を用いる方法など各種の方法が考えられるが、いずれの方法を採用してもよい。個人認証装置３０による認証結果、すなわち「コマンド入力を行う利用者が誰であるか」を示す情報は、各コマンド解析部１２、１８に出力される。
【００２４】
図２は、個人認証装置３０の構成の一例を示す図である。同図に示す個人認証装置３０は、指紋認識技術を用いて利用者の特定を行うものであり、指紋読取部３２、指紋ＤＢ３４、指紋認識部３６を含んで構成されている。
指紋読取部３２は、所定の読み取り面上に置かれた利用者の指から指紋を読み取ってデジタルデータ（指紋データ）に変換し、指紋認識部３６に出力する。
【００２５】
指紋ＤＢ３４は、所定の候補者の指（例えば、人差し指）から採取した指紋データをその候補者に関する情報（氏名など）と関連付けて格納している。
指紋認識部３６は、指紋読取部３２から出力される指紋データと、指紋ＤＢ３４に予め登録されている各候補者の指紋データとを比較し、入力された指紋を有する人を特定する所定の指紋認識処理を行い、認識結果を各コマンド解析部１２、１８に出力する。
【００２６】
上述したマイクロホン１６が音声入力手段に、コマンド解析部１８、音声ＤＢ２０が操作音声解析手段に、カメラ１０が撮影手段に、コマンド解析部１２、画像ＤＢ１４が操作動作解析手段に、コマンド作成部２２が操作指示決定手段に、コマンド判定部２４が操作指示判定手段に、画像ＤＢ修正部２６、音声ＤＢ修正部２８が学習手段に、個人認証装置３０が個人識別手段にそれぞれ対応している。
【００２７】
本実施形態のコマンド入力装置１はこのような構成を有しており、次にその動作を説明する。
図３は、コマンド入力装置１の動作手順を示す流れ図である。コマンド解析部１２は、画像ＤＢ１４に格納された画像解析用データを用いて、カメラ１０によって撮影された画像に対して所定の画像認識処理を行い、利用者の行ったジェスチャーの内容を特定し、対応する複数のコマンド候補を抽出する（ステップ１００）。
【００２８】
またコマンド解析部１８は、音声ＤＢ２０に格納された音声解析用データを用いて、マイクロホン１６によって集音される音声に対して所定の音声認識処理を行い、利用者の発声した操作音声の内容を特定し、対応する複数のコマンド候補を抽出する（ステップ１０１）。なお、ステップ１００の動作とステップ１０１の動作は、並行して行ったり、順番を入れ替えるようにしてもよい。
【００２９】
各コマンド解析部１２、１８により複数のコマンド候補がそれぞれ抽出されると、コマンド作成部２２は、コマンド解析部１２により抽出された第１優先候補のコマンドと、コマンド解析部１８から出力された第１優先候補のコマンドとでその内容が一致しているか否かを判定する（ステップ１０２）。
【００３０】
第１優先候補のコマンド同士が一致している場合には、ステップ１０２で肯定判断が行われ、コマンド作成部２２は、この第１優先候補のコマンドをナビゲーション装置２に向けて出力する（ステップ１０３）。
また、第１優先候補のコマンドが一致していない場合には、ステップ１０２で否定判断が行われ、コマンド作成部２２は、各コマンド候補の該当確率を考慮して上述した所定の計算を行って一のコマンドを選択し、このコマンドをナビゲーション装置２に向けて出力する（ステップ１０４）。
【００３１】
例えば、（１）利用者が「顔を左右に振る」というジェスチャーを行い、このジェスチャーに対応したコマンド候補として、第１優先候補が「いやだ：５０％」、第２優先候補が「違う：３０％」、第３優先候補が「停止：２０％」とそれぞれ出力され、（２）上述したジェスチャーとともに利用者が「ストップ」という操作音声を発声し、この操作音声に対応したコマンド候補として、第１優先候補が「停止：９０％」、第２優先候補が「違う：７％」、第３優先候補が「いやだ：３％」とそれぞれ出力された場合を考える。この場合に各コマンドについての該当確率の積は、コマンド「いやだ」については１５０（＝５０×３）、コマンド「違う」については２１０（３０×７）、コマンド「停止」については１８００（９０×２０）とそれぞれ計算されるため、コマンド作成部２２は、該当確率の積が最も大きいコマンドである「停止」を選択して出力する。
【００３２】
ナビゲーション装置２に対してコマンドが出力されると、次に、コマンド判定部２４は、利用者がナビゲーション装置２に備わった操作部（図示せず）を用いて、コマンド作成部２２から出力されたコマンドと異なる内容のコマンドの入力を行ったか否かを判定する（ステップ１０５）。
【００３３】
利用者によるコマンド入力が行われない場合には、ステップ１０５で否定判断が行われ、コマンド判定部２４は、所定時間（例えば、数秒間）が経過したか否かを判定する（ステップ１０６）。所定時間が経過しない間は、ステップ１０６で否定判断が行われ、上述したステップ１０５に戻り、以降の処理が繰り返される。
【００３４】
所定時間内に利用者によるコマンド入力が行われた場合には、ステップ１０５で肯定判断が行われ、コマンド判定部２４は、画像ＤＢ修正部２６に対して画像ＤＢ１４の内容を修正するよう指示するとともに、音声ＤＢ修正部２８に対して音声ＤＢ２０の内容を修正するように指示する。
【００３５】
指示を受けた画像ＤＢ修正部２６は、コマンド作成部２２から出力されたコマンドに対応して、画像ＤＢ１４の内容を修正する（ステップ１０７）。具体的には、画像ＤＢ修正部２６は、コマンド作成部２２から出力されたコマンドに対応する該当確率を所定量だけ低い値に設定する。これにより、以降の処理においては、同じジェスチャーが行われた場合にも、このコマンドが選択される確率が低くなり、利用者の個性を反映させることができる。なお、一つのコマンドの該当確率だけを低くすると、各コマンドの該当確率の合計が１００％にならなくなってしまうため、実際には一つのコマンドの該当確率を下げると同時に、他のコマンドの該当確率を上げる必要がある。
【００３６】
同様に、音声ＤＢ修正部２８は、コマンド作成部２２から出力されたコマンドに対応して、音声ＤＢ２０の内容を修正する（ステップ１０８）。具体的には、音声ＤＢ修正部２８は、コマンド作成部２２から出力されたコマンドに対応する該当確率を所定量だけ低い値に設定する。これにより、以降の処理においては、同じ音声が入力された場合にも、このコマンドが選択される確率が低くなり、利用者の個性を反映させることができる。
【００３７】
このようにして、利用者の音声およびジェスチャーに対応して、ナビゲーション装置２に対して各種のコマンドを入力するとともに、コマンドの内容の適否に応じた学習処理を行う一連の処理が終了する。
ところで、上述した実施形態では、コマンド作成部２２からコマンドが出力されてから所定時間内にこのコマンドと異なる内容のコマンドの入力が利用者により行われた場合に、コマンド入力装置１からナビゲーション装置２に対して出力されたコマンドの内容が利用者の意図に合致していないと判断していたが、この判断を利用者の感情に基づいて行うようにしてもよい。
【００３８】
図４は、利用者の感情に基づいてコマンド内容の判定を行う場合のコマンド入力装置１ａの構成を示す図である。図４に示すコマンド入力装置１ａは、カメラ１０、コマンド解析部１２、１８、画像ＤＢ１４、マイクロホン１６、音声ＤＢ２０、コマンド作成部２２、コマンド判定部２４ａ、画像ＤＢ修正部２６、音声ＤＢ修正部２８、感情認識装置４０を含んで構成されている。図１に示したコマンド入力装置１との相違点は、（１）個人認証機能を備えた感情認識装置４０が追加された点と、（２）これに伴って個人認証装置３０が省略された点と、（３）コマンド判定部２４が感情認識結果に基づいて処理を行うコマンド判定部２４ａに置き換えられた点である。以下、主に両者の相違点に着目して、コマンド入力装置１ａの構成および動作を説明する。
【００３９】
感情認識装置４０は、利用者の感情を認識する処理を行い、感情認識結果として、「喜」、「怒」、「哀」、「楽」のいずれかを出力する。また、感情認識装置４０は、個人認証機能も備えており、個人認証結果に基づいて複数の利用者についてそれぞれの個性を考慮した感情認識処理を行う。この感情認識装置４０が感情判定手段に対応している。感情認識装置４０の詳細構成については後述する。
【００４０】
コマンド判定部２４ａは、コマンド作成部２２からナビゲーション装置２に対して出力されたコマンドの内容が利用者の意図に合致していたか否かを判定し、否定的な判定結果が得られた場合には、画像ＤＢ１４および音声ＤＢ２０の内容を修正するよう画像ＤＢ修正部２６と音声ＤＢ修正部２８に指示する。具体的には、コマンド判定部２４ａは、感情認識装置４０から出力される感情認識結果が否定的な内容、具体的には「怒」または「哀」である場合にコマンドの内容が利用者の意図に合致していなかったと判定する。
【００４１】
次に、上述した感情認識装置４０の詳細構成を説明する。図５は、感情認識装置４０の詳細構成を示す図である。感情認識装置４０は、マイクロホン５０、音声認識部５２、カメラ５４、画像認識部５６、センサ５８、動作認識部６０、個性ＤＢ６２、個性認識部６４、感情認識部６６、７０、７４、音声ＤＢ６８、画像ＤＢ７２、動作ＤＢ７６、重み付け処理部７８、個性データ修正部８０を含んで構成されている。
【００４２】
マイクロホン５０は、利用者が発声した音声を集音して電気信号に変換する。音声認識部５２は、マイクロホン５０によって集音された利用者の音声信号を解析して音声認識を行い、利用者が発声した言葉を特定する。また、音声認識部５２は、音声認識を行った結果に基づいて、利用者の音声の特徴量を抽出する。音声認識部５２によって抽出される特徴量としては、例えば、声の高さや大きさ、話す際の一文字毎の発声間隔等が考えられる。
【００４３】
カメラ５４は、利用者の表情を撮影する。画像認識部５６は、カメラ５４によって撮影された利用者の表情を解析して特徴量を抽出する。画像認識部５６によって抽出される特徴量としては、例えば、顔に含まれる目、眉毛、口等の各要素の位置や大きさ、あるいはこれらの要素の動きが考えられる。具体的には、目の輪郭、目の角度、眉の角度、口の開き具合、あるいは、単位時間当たりの瞬きの回数などが考えられる。
【００４４】
センサ５８は、利用者の動作を検出して電気信号に変換する。ここで、本明細書では、利用者の手足や頭部等の身体の各部位の位置や動きに加えて、体温、発汗量等、利用者の身体の状態に関して測定可能な物理量を全て含めて「動作」と表現するものとする。したがって、本実施形態のセンサ５８は、温度センサ、圧力センサ、位置センサ等の各種のセンサから構成されている。本実施形態におけるセンサ５８の具体的な設置場所としては、運転席のハンドルやシート、その他運転席周辺の空間が考えられる。
【００４５】
動作認識部６０は、センサ５８を用いて検出された利用者の動作を解析して特徴量を抽出する。具体的には、例えば、ハンドルに圧力センサを設置し、これに加わる圧力の変化を調べることによって手の動きを調べることができ、これより手を頻繁に動かしているかどうかや、ハンドルを強く握っているかどうか等の情報が得られる。また、シートやその他の場所に位置センサを設置することにより、利用者の座高、頭の位置、肩の位置等の情報を得ることもできる。
【００４６】
個性ＤＢ６２は、利用者の有する個性に基づいて個人を特定する、すなわち、個人認証を行うための個人特定用データと、利用者の感情を認識する際の判断基準とするための個性データグループを格納している。個人特定用データとしては、例えば、利用者が所定の言葉を発声した際の音声の波形パターンや、あごの輪郭、座高等の要素、すなわち、感情の変化によらず値がほぼ一定であるような要素が考慮されており、各利用者に対応するデータが登録されている。
【００４７】
また、個性ＤＢ６２は、利用者が特定の感情を有していない状態、言い換えると利用者がどの感情を有している可能性も同じ確率であると見なすことができる状態において、音声、表情、動作の各々に関して有している特徴量をまとめたデータグループが格納されている。このデータグループが上述した「個性データグループ」に対応する。また、個性データグループに含まれる各特徴量を「個性データ」と称することとする。
【００４８】
個性認識部６４は、上述した音声認識部５２、画像認識部５６、動作認識部６０のそれぞれによって抽出される各特徴量の一部または全部を取得し、個性ＤＢ６２に格納された個人特定用データを検索して、取得した特徴量と一致する個人特定用データがあるか否かを調べる。取得した特徴量と一致する個人特定用データが見つかった場合には、個性認識部６４は、この個人特定用データを有する利用者に対応する個性データグループを読み出して各感情認識部６６、７０、７４に向けて出力する。例えば、個人特定用データを検索した結果、利用者Ａのものと一致した場合であれば、利用者Ａに対応する個性データグループが読み出される。
【００４９】
感情認識部６６は、音声認識部５２によって抽出された音声に関する特徴量と個性認識部６４から入力される個性データグループに基づいて利用者の音声の状態を判断し、判断した音声の状態と音声ＤＢ６８に格納されたデータテーブルに基づいて利用者の感情（喜、怒、哀、楽）を認識する。感情認識部６６（感情認識部７２、７４も同様）による感情認識結果は、例えば、「喜」が３０％、「怒」が５５％、「哀」が１０％、「楽」が５％というように、各感情を利用者が有する可能性を確率で表すことにより与えられる。上述した例であれば、利用者が有している可能性の高い感情は「怒」ということになる。音声ＤＢ６８は、感情認識部６６によって判断される利用者の音声の状態と上述した４つの感情との関係を示すデータテーブルを格納している。
【００５０】
感情認識部７０は、画像認識部５６によって抽出された表情に関する特徴量と個性認識部６４から入力される個性データグループに基づいて利用者の表情の状態を判断するとともに、判断した表情の状態と画像ＤＢ７２に格納されたデータテーブルに基づいて利用者の感情を認識する。画像ＤＢ７２は、感情認識部７０によって判断される利用者の表情の状態と上述した４つの感情との関係を示すデータテーブルを格納している。
【００５１】
感情認識部７４は、動作認識部６０によって抽出された動作に関する特徴量と個性認識部６４から入力される個性データグループに基づいて利用者の動作の状態を判断するとともに、判断した動作の状態と動作ＤＢ７６に格納されたデータテーブルに基づいて利用者の感情を認識する。動作ＤＢ７６は、感情認識部７４によって判断される利用者の表情の状態と上述した４つの感情との関係を示すデータテーブルを格納している。
【００５２】
重み付け処理部７８は、各感情認識部６６、７０、７４から出力された感情認識結果に対して所定の重み付け処理を行って統合し、最終的な感情認識結果を求める。具体的には、音声情報に基づいて得られた感情認識結果を｛Ａｈ、Ａａ、Ａｓ、Ａｅ｝、画像情報に基づいて得られた感情認識結果を｛Ｖｈ、Ｖａ、Ｖｓ、Ｖｅ｝、動作情報に基づいて得られた感情認識結果を｛Ｍｈ、Ｍａ、Ｍｓ、Ｍｅ｝とおき、これらに対応する重み付け係数をそれぞれ、｛Ｐｈ、Ｐａ、Ｐｓ、Ｐｅ｝、｛Ｑｈ、Ｑａ、Ｑｓ、Ｑｅ｝、｛Ｒｈ、Ｒａ、Ｒｓ、Ｒｅ｝とおくと、各感情認識結果に対する重み付け処理は、以下に示した（１）〜（４）式によって求められる。ここで、各感情認識結果および各重み付け係数に付加された添え字は、「ｈ」が「喜」に対応し、「ａ」が「怒」に対応し、「ｓ」が「哀」に対応し、「ｅ」が「楽」に対応しているものとする。
【００５３】
喜＝Ｐｈ・Ａｈ＋Ｑｈ・Ｖｈ＋Ｒｈ・Ｍｈ …（１）
怒＝Ｐａ・Ａａ＋Ｑａ・Ｖａ＋Ｒａ・Ｍａ …（２）
哀＝Ｐｓ・Ａｓ＋Ｑｓ・Ｖｓ＋Ｒｓ・Ｍｓ …（３）
楽＝Ｐｅ・Ａｅ＋Ｑｅ・Ｖｅ＋Ｒｅ・Ｍｅ …（４）
なお、各重み付け係数は、適切な認識結果が得られるように実験的に決定される。
【００５４】
上述した（１）〜（４）式に基づいて、音声、画像、動作のそれぞれから得られた感情認識結果を統合した感情認識結果が得られる。その後、重み付け処理部７８は、（１）〜（４）式によって得られた感情認識結果の中で、最も値の大きい感情を選択し、これを最終的な感情認識結果として出力する。具体的には、例えば、“利用者が「Ａ」であり、感情認識結果が「喜」である”といった情報が重み付け処理部７８から出力される。重み付け処理部７８によって求められた感情認識結果は、感情認識装置４０からの出力として、コマンド判定部２４ａへ出力される。また、個人認証結果は、各コマンド解析部１２、１８にそれぞれ出力される。
【００５５】
個性データ修正部８０は、個性認識部６４から出力された個性データグループと音声認識部５２、画像認識部５６、動作認識部６０のそれぞれによって抽出された各特徴量に基づいて、個性データグループに含まれる各個性データを利用者の個性に対応して修正する処理を行う。
【００５６】
コマンド入力装置１ａは上述したような構成を有しており、次にその動作を説明する。図６は、利用者の感情に基づいてコマンド内容の判定を行う場合のコマンド入力装置１ａの部分的な動作手順を示す流れ図である。コマンド入力装置１ａの基本的な動作手順は、上述したコマンド入力装置１における動作手順と同様であり、上述した図３に示したステップ１０５の処理をステップ１０９の処理に置き換えた点が異なっている。
【００５７】
コマンド判定部２４ａは、感情認識装置４０から否定的な感情認識結果（「怒」または「哀」）が出力されたか否かを判定する（ステップ１０９）。
否定的な感情認識結果が出力されない場合には、ステップ１０９で否定判断が行われ、次にコマンド判定部２４ａは、所定時間（例えば、数秒間）が経過したか否かを判定する（ステップ１０６）。所定時間が経過しない間は、ステップ１０６で否定判断が行われ、上述したステップ１０５に戻り、以降の処理が繰り返される。
【００５８】
所定時間内に否定的な感情認識結果が出力された場合には、ステップ１０９で肯定判断が行われ、コマンド判定部２４ａは、画像ＤＢ修正部２６に対して画像ＤＢ１４の内容を修正するよう指示するとともに、音声ＤＢ修正部２８に対して音声ＤＢ２０の内容を修正するように指示する。その後、ステップ１０７以降の処理が行われることにより、画像ＤＢ１４および音声ＤＢ２０の内容が修正され、一連の処理が終了する。
【００５９】
このように、本実施形態のコマンド入力装置では、各コマンド解析部１２、１８により解析された操作音声およびジェスチャー（操作動作）の内容に基づいてコマンドの内容が決定され、そのコマンドに応じてナビゲーション装置２の動作が実行された場合にコマンドの内容の適否が判定され、否定的な判定結果が得られた場合には画像ＤＢ１４および音声ＤＢ２０の内容を修正する学習処理が行われるため、コマンドの認識精度を高めることができる。
【００６０】
特に、所定時間内におけるコマンド入力の有無、または、利用者の感情認識結果のいずれかを調べることにより、コマンドの内容が利用者の意図に合致しているか否かが判定されるため、利用者に特別な操作を行わせることなく認識結果に対する学習処理を行うことができる。また、該当確率が付加された複数のコマンドが各コマンド解析部１２、１８のそれぞれから出力され、これらに基づいて最も該当確率が高い操作指示の内容が決定されるので、操作者の意図に合致している可能性の高い操作指示の内容を決定することができるという利点もある。
【００６１】
なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。例えば、感情認識装置４０を備えたコマンド入力装置１ａ（図４参照）においては、カメラ１０と感情認識装置４０内のカメラ５４、マイクロホン１６と感情認識装置４０内のマイクロホン５０のそれぞれを共用にして構成の簡略化を図るようにしてもよい。同様に、各コマンド解析部１２および１８には、音声認識機能や画像認識機能が含まれているので、感情認識装置４０内の音声認識部５２および画像認識部５６により行われる処理を各コマンド解析部１２および１８で行うようにして、構成の簡略化を図ることもできる。
【００６２】
また、上述した実施形態では、所定時間内におけるコマンド入力の有無、または、利用者の感情認識結果のいずれかを調べることにより、コマンドの内容が利用者の意図に合致しているか否かを判定していたが、コマンド入力の有無と感情認識結果の両者を併用して判定を行ってもよい。
【００６３】
また、上述した実施形態では、複数の利用者による使用を考慮して、個人認証装置３０等の個人認証手段を設けて、各利用者の個性に対応したコマンド作成処理を行っていたが、一の利用者だけが使用する場合などには、個人認証装置３０等の個人認証手段を省略してコストダウンを図るようにしてもよい。
【００６４】
また、コマンドを入力する対象となる装置は、上述したナビゲーション装置２に限定されるものではなく、他の各種装置であってもよい。例えば、電子レンジ等の家電装置をコマンド入力の対象とした場合には、調理等の作業中においても、家電装置に備わった操作ボタン等を操作することなく各種の操作指示を入力することができる。同様に、車載用のＣＤプレーヤ等のオーディオ装置をコマンド入力の対象とした場合には、オーディオ装置に備わった操作ボタン等を操作することなく、選局や音量調整等の操作指示を入力することができる。
【００６５】
【発明の効果】
上述したように、本発明によれば、操作音声および操作動作の内容の解析結果に基づいて操作指示内容が決定されており、その操作指示に応じた操作対象装置の動作が実行された場合に、操作指示内容の適否が判定され、各解析動作に反映させる学習処理が行われるため、操作指示の認識精度を高めることができる。
【図面の簡単な説明】
【図１】一実施形態のコマンド入力装置の構成を示す図である。
【図２】個人認証装置の構成の一例を示す図である。
【図３】コマンド入力装置の動作手順を示す流れ図である。
【図４】利用者の感情に基づいてコマンド内容の判定を行う場合のコマンド入力装置の構成を示す図である。
【図５】感情認識装置の詳細構成を示す図である。
【図６】利用者の感情に基づいてコマンド内容の判定を行う場合のコマンド入力装置の部分的な動作手順を示す流れ図である。
【符号の説明】
１、１ａコマンド入力装置
２ナビゲーション装置
１０カメラ
１２、１８コマンド解析部
１４画像ＤＢ（データベース）
１６マイクロホン
２０音声ＤＢ
２２コマンド作成部
２４コマンド判定部
２６画像ＤＢ修正部
２８音声ＤＢ修正部
３０個人認証装置
４０感情認識装置

Claims

操作者が操作対象装置に対して行った操作指示の内容を判定する操作指示装置であって、
前記操作者による操作音声を取り込む音声入力手段と、
前記操作音声の内容を解析する操作音声解析手段と、
前記操作者の身体を撮影する撮影手段と、
前記撮影手段によって撮影された画像を解析することにより、前記操作者が身体を動かすことによって表現された操作動作の内容を解析する操作動作解析手段と、
前記操作音声解析手段および前記操作動作解析手段のそれぞれの解析結果に基づいて、前記操作指示の内容を決定する操作指示決定手段と、
前記操作指示決定手段によって決定された前記操作指示の内容の適否を判定する操作指示判定手段と、
前記操作指示判定手段による判定結果を前記操作音声解析手段および前記操作動作解析手段のそれぞれにおける次回の解析動作に反映させる学習手段と、
前記操作者の感情として喜怒哀楽のいずれかを判定する感情判定手段と、を備え、
前記操作音声解析手段および前記操作動作解析手段のそれぞれは、複数の操作指示候補とそれぞれに対応する該当確率を抽出する解析動作を行い、
前記操作指示決定手段は、前記操作音声解析手段および前記操作動作解析手段のそれぞれによって抽出された前記操作指示候補と前記該当確率とに基づいて、最も該当確率が高い前記操作指示の内容を決定し、
前記操作指示判定手段は、前記感情判定手段によって判定された前記操作者の感情が喜または楽であるときに前記操作指示の内容が前記操作者の意図に合致していると肯定的な判定を行い、怒または哀であるときに前記操作指示の内容が前記操作者の意図に合致していないと否定的な判定を行い、
前記学習手段は、前記操作指示判定手段による判定結果が否定的な場合に、前記操作音声解析手段および前記操作動作解析手段のそれぞれによって抽出されて前記操作指示判定手段によって否定的な判定がなされた前記操作指示候補の前記該当確率を低い値に修正することを特徴とする操作指示装置。
請求項１において、
前記操作者の個人を識別する個人識別手段をさらに備え、
前記個人識別手段によって識別された個人毎に、前記操作音声解析手段、前記操作動作解析手段、前記学習手段のそれぞれにおける動作を行うことを特徴とする操作指示装置。