JP4294853B2 - 操作指示装置 - Google Patents
操作指示装置 Download PDFInfo
- Publication number
- JP4294853B2 JP4294853B2 JP2000385021A JP2000385021A JP4294853B2 JP 4294853 B2 JP4294853 B2 JP 4294853B2 JP 2000385021 A JP2000385021 A JP 2000385021A JP 2000385021 A JP2000385021 A JP 2000385021A JP 4294853 B2 JP4294853 B2 JP 4294853B2
- Authority
- JP
- Japan
- Prior art keywords
- command
- unit
- operation instruction
- voice
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
- Image Input (AREA)
Description
【発明の属する技術分野】
本発明は、操作者が音声やジェスチャーによって操作対象装置に対して操作指示を行う操作指示装置に関する。
【0002】
【従来の技術】
従来、電子レンジ等の家電装置やナビゲーション装置等、各種装置を使用する場合には、装置本体等に備わっている操作ボタン、あるいはリモートコントロールユニット等を用いて操作指示が行われていた。
【0003】
また最近では、音声認識技術や画像認識技術など各種認識技術の発達により、音声やジェスチャー等により操作指示を行う手法が提案されている。例えば、特開平10−031551号公報には、音声認識による認識結果と画像認識による認識結果とを統合することにより認識結果の精度向上を図った「ヒューマンインターフェースシステム」が開示されている。このヒューマンインターフェースシステムでは、人口網膜チップやCCDからなる画像センサにより人間のジェスチャーを画像情報として入力するとともに、マイク等からなる音声入力装置により人間の音声を音声情報として入力し、所定の認識アルゴリズムにしたがってジェスチャーおよび音声の内容を認識し、これらに基づいて家電製品やゲーム装置等からなる操作対象装置に対して操作指示を入力している。
【0004】
【発明が解決しようとする課題】
ところで、音声やジェスチャー等には各利用者の個性が含まれるために、認識技術そのものの精度が向上しても、認識結果に基づいて設定される操作指示の内容の精度を向上させることは難しい。例えば、「手を左右に振る」というジェスチャーを考えると、ある利用者はこのジェスチャーにより「違う」という意思を示しているが、別の利用者は「停止」という意思を示している、というような場合がある。すなわち、同じジェスチャーであっても、利用者の意図する操作指示の内容は、各利用者の個性によって差が生じる。このような場合には、画像認識技術の進展により「手を左右に振る」というジェスチャー自体を認識する精度が向上したとしても、その認識結果から各利用者の所望する操作指示の内容を精度良く判断して、的確な操作指示を設定することが難しいという問題がある。
【0005】
本発明は、このような点に鑑みて創作されたものであり、その目的は、操作指示の認識精度を高めることができる操作指示装置を提供することにある。
【0006】
【課題を解決するための手段】
上述した課題を解決するために、本発明の操作指示装置は、操作者が操作対象装置に対して行った操作指示の内容を判定するために、音声入力手段、操作音声解析手段、撮影手段、操作動作解析手段、操作指示決定手段、操作指示判定手段、学習手段を備えている。音声入力手段は、操作者による操作音声を取り込む。操作音声解析手段は、操作音声の内容を解析する。撮影手段は、操作者の身体を撮影する。操作動作解析手段は、撮影手段によって撮影された画像を解析することにより、操作者が身体を動かすことによって表現した操作動作(ジェスチャー)の内容を解析する。操作指示決定手段は、操作音声解析手段および操作動作解析手段のそれぞれの解析結果に基づいて、操作指示の内容を決定する。操作指示判定手段は、操作指示決定手段によって決定された操作指示の内容の適否を判定する。学習手段は、操作指示判定手段による判定結果を操作音声解析手段および操作動作解析手段のそれぞれの解析動作に反映させる。
【0007】
音声認識処理によって解析された操作音声の内容と、画像認識処理によって解析された操作動作の内容とに基づいて操作指示内容が決定され、その操作指示に応じた操作対象装置の動作が実行された場合に、操作指示内容の適否が判定されて各解析動作に反映させる学習処理が行われるため、操作指示の認識精度を高めることができる。
【0008】
また、操作者の感情を判定する感情判定手段をさらに備え、上述した操作指示判定手段は、感情判定手段によって判定された操作者の感情に基づいて操作指示の内容の適否を判定することが望ましい。誤って認識された操作指示に基づいて操作対象装置が動作すると、操作者は感情を害することが多い。したがって、操作者の感情を判定することにより、認識した操作指示内容が妥当なものであるか否かを判定することができ、操作部を操作するなどの特別な操作を行うことなく認識結果に対する学習処理を行うことができる。
【0009】
また、上述した操作指示判定手段は、連続して与えられた操作指示の内容が操作のやり直しを指示するものである場合に、否定的な判定を行うことが望ましい。誤って認識された操作指示に基づいて操作対象装置が動作した場合に、操作者は、正しい動作を操作対象装置に行わせるために、再度内容が異なる操作のやり直しを指示することが多い。したがって、このような操作状況に基づいて、認識結果の誤りを判断することができ、認識結果の適否のみを指示するための特別な操作を行うことなく学習処理を行うことができる。
【0010】
また、操作者の個人を識別する個人識別手段をさらに備え、上述した個人識別手段によって識別された個人毎に、操作音声解析手段、操作動作解析手段、学習手段のそれぞれにおける動作を行うことが望ましい。個人毎に異なる発声状態や動作の癖等を学習させることができるため、操作指示の認識精度を高めることができる。
【0011】
また、上述した操作音声解析手段および操作動作解析手段のそれぞれは、複数の操作指示候補とそれぞれに対応する該当確率を抽出する解析動作を行い、操作指示決定手段は、操作音声解析手段および操作動作解析手段のそれぞれによって抽出された操作指示候補と該当確率とに基づいて、最も該当確率が高い操作指示の内容を決定することが望ましい。該当確率が付加された複数の操作指示候補が操作音声解析手段と操作動作解析手段のそれぞれにより抽出され、これらに基づいて最も該当確率が高い操作指示の内容が決定されるので、操作者の意図に合致している可能性の高い操作指示の内容を決定することができる。
【0012】
【発明の実施の形態】
以下、本発明を適用した一実施形態のコマンド入力装置について、図面を参照しながら説明する。
図1は、本実施形態のコマンド入力装置1の構成を示す図である。本実施形態のコマンド入力装置1は、利用者(操作者)が音声およびジェスチャーによってナビゲーション装置2に対して各種のコマンド(操作指示)を入力するためのものであり、カメラ10、コマンド解析部12、18、画像データベース(DB)14、マイクロホン16、音声データベース(DB)20、コマンド作成部22、コマンド判定部24、画像DB修正部26、音声DB修正部28、個人認証装置30を含んで構成されている。
【0013】
カメラ10は、利用者が行うジェスチャーを撮影して画像信号に変換する。
コマンド解析部12は、カメラ10によって撮影された画像に基づいて利用者が行ったジェスチャーの内容を特定し、そのジェスチャーにより指示される可能性のある複数のコマンド候補を出力する。これらのコマンド候補のそれぞれには、各コマンド候補が利用者の意図した操作指示内容に一致する確率(以後、この確率を「該当確率」と称する)が付加されている。例えば、あるジェスチャーに対して、コマンドaの該当確率が50%、コマンドbの該当確率が30%、コマンドcの該当確率が20%というような形式でコマンド候補と該当確率が出力される。
【0014】
画像DB14は、コマンド解析部12により行われる画像認識処理に必要な画像解析用データを格納している。この画像DB14には、複数の利用者に対応する複数の画像解析用データが格納されており、上述したコマンド解析部12による解析処理は、個人認証装置30による認証結果に基づいて各利用者毎に画像解析用データを使い分けて行われる。
【0015】
マイクロホン16は、利用者が発声した音声を集音し、音声信号を出力する。コマンド解析部18は、マイクロホン16によって集音される音声に対して所定の音声認識処理を行って利用者の発声した操作音声の内容を特定し、その操作音声の内容により指示される可能性のある複数のコマンド候補を出力する。これらのコマンド候補のそれぞれについても、上述したコマンド解析部12から出力されるコマンド候補と同様に、各コマンドに対して該当確率が付加されている。
【0016】
音声DB20は、コマンド解析部18により行われる音声認識処理に必要な音声解析用データを格納している。この音声DB20についても、複数の利用者に対応する複数の音声解析用データが格納されており、上述したコマンド解析部18による解析処理は、個人認証装置30による認証結果に基づいて各利用者毎に音声解析用データを使い分けて行われる。
【0017】
コマンド作成部22は、コマンド解析部12から出力されるコマンド候補とコマンド解析部18から出力されるコマンド候補を統合して、利用者の意図に合致していると考えられる一のコマンドを判断し、このコマンドをナビゲーション装置2に出力する。
【0018】
ここで、一のコマンドを決定する方法について具体的に説明する。例えば、あるジェスチャーに対応して、コマンド解析部12から3つのコマンド候補が「コマンドa:50%、コマンドb:30%、コマンドc:20%」と出力され、同様に、ある操作音声に対応して、コマンド解析部18から3つのコマンド候補が「コマンドa:50%、コマンドd:30%、コマンドb:20%」と出力された場合を考える。この場合には、コマンド解析部12から出力された第1優先候補(該当確率の値が最も高いコマンド候補)とコマンド解析部18から出力された第1優先候補とが「コマンドa」で一致していることから、コマンド作成部22は、このコマンドaをナビゲーション装置2に向けて出力する。
【0019】
また、あるジェスチャーに対応して、コマンド解析部12から3つのコマンド候補が「コマンドa:50%、コマンドd:40%、コマンドb:10%」と出力され、同様に、ある操作音声に対応して、コマンド解析部18から3つのコマンド候補が「コマンドd:50%、コマンドa:30%、コマンドc:20%」と出力された場合を想定する。このように第1優先候補同士が一致していない場合には、コマンド作成部22は、コマンド解析部12から出力されたコマンド候補とコマンド解析部18から出力されたコマンド候補の両方に共通に含まれるコマンドを探し、コマンドに付加されている該当確率どうしの積を求める。上述した例では、コマンドaとコマンドdが共通に含まれているので、コマンドaについては該当確率の積が1500(=50×30)、コマンドdについては該当確率の積が2000(=40×50)と求められる。そして、コマンド作成部22は、これらの該当確率の積を比較し、その値が最も大きいコマンド(上述した例ではコマンドd)をナビゲーション装置2に向けて出力する。
【0020】
コマンド判定部24は、コマンド作成部22からナビゲーション装置2に対して出力されたコマンドの内容が利用者の意図に合致していたか否かを判定し、否定的な判定結果が得られた場合には、画像DB修正部26に対して画像DB14の内容を修正するよう指示するとともに、音声DB修正部28に対して音声DB20の内容を修正するよう指示する。本実施形態のコマンド判定部24は、コマンド作成部22からナビゲーション装置2に対してコマンドが出力されてから比較的に短い所定時間(例えば、数秒間)内に、このコマンドと異なる内容のコマンドの入力がナビゲーション装置2に備わった操作部(図示せず)を用いて行われた場合に、コマンド作成部22から出力されたコマンドの内容が利用者の意図に合致していなかったと判定する。
【0021】
画像DB修正部26は、コマンド判定部24から指示があった場合に、画像DB14に格納された画像解析用データの内容を修正する学習処理を行う。例えば、画像DB修正部26は、利用者が行ったジェスチャーAに対応してコマンド作成部22からコマンドaが出力され、このコマンドaが利用者の意図に合致しなかった場合には、このコマンドaの該当確率を低い値に修正する。このような学習処理を行うことにより、利用者が次にジェスチャーAを行った場合には、コマンドaが選択される可能性が低くなる。すなわち、学習処理を行うことにより、各利用者の個性を反映して画像解析用データの内容を更新することができる。
【0022】
音声DB修正部28は、コマンド判定部24から指示があった場合に、音声DB20に格納された音声解析用データの内容を修正する学習処理を行う。例えば、音声DB修正部28は、利用者が発声した操作音声Bに対応してコマンド作成部22からコマンドbが出力され、このコマンドbが利用者の意図に合致しなかった場合には、このコマンドbの該当確率を低い値に修正する。このような学習処理を行うことにより、利用者が次に操作音声Bを発声した場合には、コマンドbが選択される可能性が低くなる。すなわち、学習処理を行うことにより、各利用者の個性を反映して音声解析用データの内容を更新することができる。
【0023】
個人認証装置30は、あらかじめ登録されている候補者の中から、コマンド入力を行う利用者を特定する所定の個人認証処理を行う。個人認証処理の具体的な方法としては、指紋認識や網膜認識などのバイオメトリクス技術を使う方法や、所定のパスワードを入力する方法、磁気カード等を用いる方法など各種の方法が考えられるが、いずれの方法を採用してもよい。個人認証装置30による認証結果、すなわち「コマンド入力を行う利用者が誰であるか」を示す情報は、各コマンド解析部12、18に出力される。
【0024】
図2は、個人認証装置30の構成の一例を示す図である。同図に示す個人認証装置30は、指紋認識技術を用いて利用者の特定を行うものであり、指紋読取部32、指紋DB34、指紋認識部36を含んで構成されている。
指紋読取部32は、所定の読み取り面上に置かれた利用者の指から指紋を読み取ってデジタルデータ(指紋データ)に変換し、指紋認識部36に出力する。
【0025】
指紋DB34は、所定の候補者の指(例えば、人差し指)から採取した指紋データをその候補者に関する情報(氏名など)と関連付けて格納している。
指紋認識部36は、指紋読取部32から出力される指紋データと、指紋DB34に予め登録されている各候補者の指紋データとを比較し、入力された指紋を有する人を特定する所定の指紋認識処理を行い、認識結果を各コマンド解析部12、18に出力する。
【0026】
上述したマイクロホン16が音声入力手段に、コマンド解析部18、音声DB20が操作音声解析手段に、カメラ10が撮影手段に、コマンド解析部12、画像DB14が操作動作解析手段に、コマンド作成部22が操作指示決定手段に、コマンド判定部24が操作指示判定手段に、画像DB修正部26、音声DB修正部28が学習手段に、個人認証装置30が個人識別手段にそれぞれ対応している。
【0027】
本実施形態のコマンド入力装置1はこのような構成を有しており、次にその動作を説明する。
図3は、コマンド入力装置1の動作手順を示す流れ図である。コマンド解析部12は、画像DB14に格納された画像解析用データを用いて、カメラ10によって撮影された画像に対して所定の画像認識処理を行い、利用者の行ったジェスチャーの内容を特定し、対応する複数のコマンド候補を抽出する(ステップ100)。
【0028】
またコマンド解析部18は、音声DB20に格納された音声解析用データを用いて、マイクロホン16によって集音される音声に対して所定の音声認識処理を行い、利用者の発声した操作音声の内容を特定し、対応する複数のコマンド候補を抽出する(ステップ101)。なお、ステップ100の動作とステップ101の動作は、並行して行ったり、順番を入れ替えるようにしてもよい。
【0029】
各コマンド解析部12、18により複数のコマンド候補がそれぞれ抽出されると、コマンド作成部22は、コマンド解析部12により抽出された第1優先候補のコマンドと、コマンド解析部18から出力された第1優先候補のコマンドとでその内容が一致しているか否かを判定する(ステップ102)。
【0030】
第1優先候補のコマンド同士が一致している場合には、ステップ102で肯定判断が行われ、コマンド作成部22は、この第1優先候補のコマンドをナビゲーション装置2に向けて出力する(ステップ103)。
また、第1優先候補のコマンドが一致していない場合には、ステップ102で否定判断が行われ、コマンド作成部22は、各コマンド候補の該当確率を考慮して上述した所定の計算を行って一のコマンドを選択し、このコマンドをナビゲーション装置2に向けて出力する(ステップ104)。
【0031】
例えば、(1)利用者が「顔を左右に振る」というジェスチャーを行い、このジェスチャーに対応したコマンド候補として、第1優先候補が「いやだ:50%」、第2優先候補が「違う:30%」、第3優先候補が「停止:20%」とそれぞれ出力され、(2)上述したジェスチャーとともに利用者が「ストップ」という操作音声を発声し、この操作音声に対応したコマンド候補として、第1優先候補が「停止:90%」、第2優先候補が「違う:7%」、第3優先候補が「いやだ:3%」とそれぞれ出力された場合を考える。この場合に各コマンドについての該当確率の積は、コマンド「いやだ」については150(=50×3)、コマンド「違う」については210(30×7)、コマンド「停止」については1800(90×20)とそれぞれ計算されるため、コマンド作成部22は、該当確率の積が最も大きいコマンドである「停止」を選択して出力する。
【0032】
ナビゲーション装置2に対してコマンドが出力されると、次に、コマンド判定部24は、利用者がナビゲーション装置2に備わった操作部(図示せず)を用いて、コマンド作成部22から出力されたコマンドと異なる内容のコマンドの入力を行ったか否かを判定する(ステップ105)。
【0033】
利用者によるコマンド入力が行われない場合には、ステップ105で否定判断が行われ、コマンド判定部24は、所定時間(例えば、数秒間)が経過したか否かを判定する(ステップ106)。所定時間が経過しない間は、ステップ106で否定判断が行われ、上述したステップ105に戻り、以降の処理が繰り返される。
【0034】
所定時間内に利用者によるコマンド入力が行われた場合には、ステップ105で肯定判断が行われ、コマンド判定部24は、画像DB修正部26に対して画像DB14の内容を修正するよう指示するとともに、音声DB修正部28に対して音声DB20の内容を修正するように指示する。
【0035】
指示を受けた画像DB修正部26は、コマンド作成部22から出力されたコマンドに対応して、画像DB14の内容を修正する(ステップ107)。具体的には、画像DB修正部26は、コマンド作成部22から出力されたコマンドに対応する該当確率を所定量だけ低い値に設定する。これにより、以降の処理においては、同じジェスチャーが行われた場合にも、このコマンドが選択される確率が低くなり、利用者の個性を反映させることができる。なお、一つのコマンドの該当確率だけを低くすると、各コマンドの該当確率の合計が100%にならなくなってしまうため、実際には一つのコマンドの該当確率を下げると同時に、他のコマンドの該当確率を上げる必要がある。
【0036】
同様に、音声DB修正部28は、コマンド作成部22から出力されたコマンドに対応して、音声DB20の内容を修正する(ステップ108)。具体的には、音声DB修正部28は、コマンド作成部22から出力されたコマンドに対応する該当確率を所定量だけ低い値に設定する。これにより、以降の処理においては、同じ音声が入力された場合にも、このコマンドが選択される確率が低くなり、利用者の個性を反映させることができる。
【0037】
このようにして、利用者の音声およびジェスチャーに対応して、ナビゲーション装置2に対して各種のコマンドを入力するとともに、コマンドの内容の適否に応じた学習処理を行う一連の処理が終了する。
ところで、上述した実施形態では、コマンド作成部22からコマンドが出力されてから所定時間内にこのコマンドと異なる内容のコマンドの入力が利用者により行われた場合に、コマンド入力装置1からナビゲーション装置2に対して出力されたコマンドの内容が利用者の意図に合致していないと判断していたが、この判断を利用者の感情に基づいて行うようにしてもよい。
【0038】
図4は、利用者の感情に基づいてコマンド内容の判定を行う場合のコマンド入力装置1aの構成を示す図である。図4に示すコマンド入力装置1aは、カメラ10、コマンド解析部12、18、画像DB14、マイクロホン16、音声DB20、コマンド作成部22、コマンド判定部24a、画像DB修正部26、音声DB修正部28、感情認識装置40を含んで構成されている。図1に示したコマンド入力装置1との相違点は、(1)個人認証機能を備えた感情認識装置40が追加された点と、(2)これに伴って個人認証装置30が省略された点と、(3)コマンド判定部24が感情認識結果に基づいて処理を行うコマンド判定部24aに置き換えられた点である。以下、主に両者の相違点に着目して、コマンド入力装置1aの構成および動作を説明する。
【0039】
感情認識装置40は、利用者の感情を認識する処理を行い、感情認識結果として、「喜」、「怒」、「哀」、「楽」のいずれかを出力する。また、感情認識装置40は、個人認証機能も備えており、個人認証結果に基づいて複数の利用者についてそれぞれの個性を考慮した感情認識処理を行う。この感情認識装置40が感情判定手段に対応している。感情認識装置40の詳細構成については後述する。
【0040】
コマンド判定部24aは、コマンド作成部22からナビゲーション装置2に対して出力されたコマンドの内容が利用者の意図に合致していたか否かを判定し、否定的な判定結果が得られた場合には、画像DB14および音声DB20の内容を修正するよう画像DB修正部26と音声DB修正部28に指示する。具体的には、コマンド判定部24aは、感情認識装置40から出力される感情認識結果が否定的な内容、具体的には「怒」または「哀」である場合にコマンドの内容が利用者の意図に合致していなかったと判定する。
【0041】
次に、上述した感情認識装置40の詳細構成を説明する。図5は、感情認識装置40の詳細構成を示す図である。感情認識装置40は、マイクロホン50、音声認識部52、カメラ54、画像認識部56、センサ58、動作認識部60、個性DB62、個性認識部64、感情認識部66、70、74、音声DB68、画像DB72、動作DB76、重み付け処理部78、個性データ修正部80を含んで構成されている。
【0042】
マイクロホン50は、利用者が発声した音声を集音して電気信号に変換する。音声認識部52は、マイクロホン50によって集音された利用者の音声信号を解析して音声認識を行い、利用者が発声した言葉を特定する。また、音声認識部52は、音声認識を行った結果に基づいて、利用者の音声の特徴量を抽出する。音声認識部52によって抽出される特徴量としては、例えば、声の高さや大きさ、話す際の一文字毎の発声間隔等が考えられる。
【0043】
カメラ54は、利用者の表情を撮影する。画像認識部56は、カメラ54によって撮影された利用者の表情を解析して特徴量を抽出する。画像認識部56によって抽出される特徴量としては、例えば、顔に含まれる目、眉毛、口等の各要素の位置や大きさ、あるいはこれらの要素の動きが考えられる。具体的には、目の輪郭、目の角度、眉の角度、口の開き具合、あるいは、単位時間当たりの瞬きの回数などが考えられる。
【0044】
センサ58は、利用者の動作を検出して電気信号に変換する。ここで、本明細書では、利用者の手足や頭部等の身体の各部位の位置や動きに加えて、体温、発汗量等、利用者の身体の状態に関して測定可能な物理量を全て含めて「動作」と表現するものとする。したがって、本実施形態のセンサ58は、温度センサ、圧力センサ、位置センサ等の各種のセンサから構成されている。本実施形態におけるセンサ58の具体的な設置場所としては、運転席のハンドルやシート、その他運転席周辺の空間が考えられる。
【0045】
動作認識部60は、センサ58を用いて検出された利用者の動作を解析して特徴量を抽出する。具体的には、例えば、ハンドルに圧力センサを設置し、これに加わる圧力の変化を調べることによって手の動きを調べることができ、これより手を頻繁に動かしているかどうかや、ハンドルを強く握っているかどうか等の情報が得られる。また、シートやその他の場所に位置センサを設置することにより、利用者の座高、頭の位置、肩の位置等の情報を得ることもできる。
【0046】
個性DB62は、利用者の有する個性に基づいて個人を特定する、すなわち、個人認証を行うための個人特定用データと、利用者の感情を認識する際の判断基準とするための個性データグループを格納している。個人特定用データとしては、例えば、利用者が所定の言葉を発声した際の音声の波形パターンや、あごの輪郭、座高等の要素、すなわち、感情の変化によらず値がほぼ一定であるような要素が考慮されており、各利用者に対応するデータが登録されている。
【0047】
また、個性DB62は、利用者が特定の感情を有していない状態、言い換えると利用者がどの感情を有している可能性も同じ確率であると見なすことができる状態において、音声、表情、動作の各々に関して有している特徴量をまとめたデータグループが格納されている。このデータグループが上述した「個性データグループ」に対応する。また、個性データグループに含まれる各特徴量を「個性データ」と称することとする。
【0048】
個性認識部64は、上述した音声認識部52、画像認識部56、動作認識部60のそれぞれによって抽出される各特徴量の一部または全部を取得し、個性DB62に格納された個人特定用データを検索して、取得した特徴量と一致する個人特定用データがあるか否かを調べる。取得した特徴量と一致する個人特定用データが見つかった場合には、個性認識部64は、この個人特定用データを有する利用者に対応する個性データグループを読み出して各感情認識部66、70、74に向けて出力する。例えば、個人特定用データを検索した結果、利用者Aのものと一致した場合であれば、利用者Aに対応する個性データグループが読み出される。
【0049】
感情認識部66は、音声認識部52によって抽出された音声に関する特徴量と個性認識部64から入力される個性データグループに基づいて利用者の音声の状態を判断し、判断した音声の状態と音声DB68に格納されたデータテーブルに基づいて利用者の感情(喜、怒、哀、楽)を認識する。感情認識部66(感情認識部72、74も同様)による感情認識結果は、例えば、「喜」が30%、「怒」が55%、「哀」が10%、「楽」が5%というように、各感情を利用者が有する可能性を確率で表すことにより与えられる。上述した例であれば、利用者が有している可能性の高い感情は「怒」ということになる。音声DB68は、感情認識部66によって判断される利用者の音声の状態と上述した4つの感情との関係を示すデータテーブルを格納している。
【0050】
感情認識部70は、画像認識部56によって抽出された表情に関する特徴量と個性認識部64から入力される個性データグループに基づいて利用者の表情の状態を判断するとともに、判断した表情の状態と画像DB72に格納されたデータテーブルに基づいて利用者の感情を認識する。画像DB72は、感情認識部70によって判断される利用者の表情の状態と上述した4つの感情との関係を示すデータテーブルを格納している。
【0051】
感情認識部74は、動作認識部60によって抽出された動作に関する特徴量と個性認識部64から入力される個性データグループに基づいて利用者の動作の状態を判断するとともに、判断した動作の状態と動作DB76に格納されたデータテーブルに基づいて利用者の感情を認識する。動作DB76は、感情認識部74によって判断される利用者の表情の状態と上述した4つの感情との関係を示すデータテーブルを格納している。
【0052】
重み付け処理部78は、各感情認識部66、70、74から出力された感情認識結果に対して所定の重み付け処理を行って統合し、最終的な感情認識結果を求める。具体的には、音声情報に基づいて得られた感情認識結果を{Ah、Aa、As、Ae}、画像情報に基づいて得られた感情認識結果を{Vh、Va、Vs、Ve}、動作情報に基づいて得られた感情認識結果を{Mh、Ma、Ms、Me}とおき、これらに対応する重み付け係数をそれぞれ、{Ph、Pa、Ps、Pe}、{Qh、Qa、Qs、Qe}、{Rh、Ra、Rs、Re}とおくと、各感情認識結果に対する重み付け処理は、以下に示した(1)〜(4)式によって求められる。ここで、各感情認識結果および各重み付け係数に付加された添え字は、「h」が「喜」に対応し、「a」が「怒」に対応し、「s」が「哀」に対応し、「e」が「楽」に対応しているものとする。
【0053】
喜=Ph・Ah+Qh・Vh+Rh・Mh …(1)
怒=Pa・Aa+Qa・Va+Ra・Ma …(2)
哀=Ps・As+Qs・Vs+Rs・Ms …(3)
楽=Pe・Ae+Qe・Ve+Re・Me …(4)
なお、各重み付け係数は、適切な認識結果が得られるように実験的に決定される。
【0054】
上述した(1)〜(4)式に基づいて、音声、画像、動作のそれぞれから得られた感情認識結果を統合した感情認識結果が得られる。その後、重み付け処理部78は、(1)〜(4)式によって得られた感情認識結果の中で、最も値の大きい感情を選択し、これを最終的な感情認識結果として出力する。具体的には、例えば、“利用者が「A」であり、感情認識結果が「喜」である”といった情報が重み付け処理部78から出力される。重み付け処理部78によって求められた感情認識結果は、感情認識装置40からの出力として、コマンド判定部24aへ出力される。また、個人認証結果は、各コマンド解析部12、18にそれぞれ出力される。
【0055】
個性データ修正部80は、個性認識部64から出力された個性データグループと音声認識部52、画像認識部56、動作認識部60のそれぞれによって抽出された各特徴量に基づいて、個性データグループに含まれる各個性データを利用者の個性に対応して修正する処理を行う。
【0056】
コマンド入力装置1aは上述したような構成を有しており、次にその動作を説明する。図6は、利用者の感情に基づいてコマンド内容の判定を行う場合のコマンド入力装置1aの部分的な動作手順を示す流れ図である。コマンド入力装置1aの基本的な動作手順は、上述したコマンド入力装置1における動作手順と同様であり、上述した図3に示したステップ105の処理をステップ109の処理に置き換えた点が異なっている。
【0057】
コマンド判定部24aは、感情認識装置40から否定的な感情認識結果(「怒」または「哀」)が出力されたか否かを判定する(ステップ109)。
否定的な感情認識結果が出力されない場合には、ステップ109で否定判断が行われ、次にコマンド判定部24aは、所定時間(例えば、数秒間)が経過したか否かを判定する(ステップ106)。所定時間が経過しない間は、ステップ106で否定判断が行われ、上述したステップ105に戻り、以降の処理が繰り返される。
【0058】
所定時間内に否定的な感情認識結果が出力された場合には、ステップ109で肯定判断が行われ、コマンド判定部24aは、画像DB修正部26に対して画像DB14の内容を修正するよう指示するとともに、音声DB修正部28に対して音声DB20の内容を修正するように指示する。その後、ステップ107以降の処理が行われることにより、画像DB14および音声DB20の内容が修正され、一連の処理が終了する。
【0059】
このように、本実施形態のコマンド入力装置では、各コマンド解析部12、18により解析された操作音声およびジェスチャー(操作動作)の内容に基づいてコマンドの内容が決定され、そのコマンドに応じてナビゲーション装置2の動作が実行された場合にコマンドの内容の適否が判定され、否定的な判定結果が得られた場合には画像DB14および音声DB20の内容を修正する学習処理が行われるため、コマンドの認識精度を高めることができる。
【0060】
特に、所定時間内におけるコマンド入力の有無、または、利用者の感情認識結果のいずれかを調べることにより、コマンドの内容が利用者の意図に合致しているか否かが判定されるため、利用者に特別な操作を行わせることなく認識結果に対する学習処理を行うことができる。また、該当確率が付加された複数のコマンドが各コマンド解析部12、18のそれぞれから出力され、これらに基づいて最も該当確率が高い操作指示の内容が決定されるので、操作者の意図に合致している可能性の高い操作指示の内容を決定することができるという利点もある。
【0061】
なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。例えば、感情認識装置40を備えたコマンド入力装置1a(図4参照)においては、カメラ10と感情認識装置40内のカメラ54、マイクロホン16と感情認識装置40内のマイクロホン50のそれぞれを共用にして構成の簡略化を図るようにしてもよい。同様に、各コマンド解析部12および18には、音声認識機能や画像認識機能が含まれているので、感情認識装置40内の音声認識部52および画像認識部56により行われる処理を各コマンド解析部12および18で行うようにして、構成の簡略化を図ることもできる。
【0062】
また、上述した実施形態では、所定時間内におけるコマンド入力の有無、または、利用者の感情認識結果のいずれかを調べることにより、コマンドの内容が利用者の意図に合致しているか否かを判定していたが、コマンド入力の有無と感情認識結果の両者を併用して判定を行ってもよい。
【0063】
また、上述した実施形態では、複数の利用者による使用を考慮して、個人認証装置30等の個人認証手段を設けて、各利用者の個性に対応したコマンド作成処理を行っていたが、一の利用者だけが使用する場合などには、個人認証装置30等の個人認証手段を省略してコストダウンを図るようにしてもよい。
【0064】
また、コマンドを入力する対象となる装置は、上述したナビゲーション装置2に限定されるものではなく、他の各種装置であってもよい。例えば、電子レンジ等の家電装置をコマンド入力の対象とした場合には、調理等の作業中においても、家電装置に備わった操作ボタン等を操作することなく各種の操作指示を入力することができる。同様に、車載用のCDプレーヤ等のオーディオ装置をコマンド入力の対象とした場合には、オーディオ装置に備わった操作ボタン等を操作することなく、選局や音量調整等の操作指示を入力することができる。
【0065】
【発明の効果】
上述したように、本発明によれば、操作音声および操作動作の内容の解析結果に基づいて操作指示内容が決定されており、その操作指示に応じた操作対象装置の動作が実行された場合に、操作指示内容の適否が判定され、各解析動作に反映させる学習処理が行われるため、操作指示の認識精度を高めることができる。
【図面の簡単な説明】
【図1】一実施形態のコマンド入力装置の構成を示す図である。
【図2】個人認証装置の構成の一例を示す図である。
【図3】コマンド入力装置の動作手順を示す流れ図である。
【図4】利用者の感情に基づいてコマンド内容の判定を行う場合のコマンド入力装置の構成を示す図である。
【図5】感情認識装置の詳細構成を示す図である。
【図6】利用者の感情に基づいてコマンド内容の判定を行う場合のコマンド入力装置の部分的な動作手順を示す流れ図である。
【符号の説明】
1、1a コマンド入力装置
2 ナビゲーション装置
10 カメラ
12、18 コマンド解析部
14 画像DB(データベース)
16 マイクロホン
20 音声DB
22 コマンド作成部
24 コマンド判定部
26 画像DB修正部
28 音声DB修正部
30 個人認証装置
40 感情認識装置
Claims (2)
- 操作者が操作対象装置に対して行った操作指示の内容を判定する操作指示装置であって、
前記操作者による操作音声を取り込む音声入力手段と、
前記操作音声の内容を解析する操作音声解析手段と、
前記操作者の身体を撮影する撮影手段と、
前記撮影手段によって撮影された画像を解析することにより、前記操作者が身体を動かすことによって表現された操作動作の内容を解析する操作動作解析手段と、
前記操作音声解析手段および前記操作動作解析手段のそれぞれの解析結果に基づいて、前記操作指示の内容を決定する操作指示決定手段と、
前記操作指示決定手段によって決定された前記操作指示の内容の適否を判定する操作指示判定手段と、
前記操作指示判定手段による判定結果を前記操作音声解析手段および前記操作動作解析手段のそれぞれにおける次回の解析動作に反映させる学習手段と、
前記操作者の感情として喜怒哀楽のいずれかを判定する感情判定手段と、を備え、
前記操作音声解析手段および前記操作動作解析手段のそれぞれは、複数の操作指示候補とそれぞれに対応する該当確率を抽出する解析動作を行い、
前記操作指示決定手段は、前記操作音声解析手段および前記操作動作解析手段のそれぞれによって抽出された前記操作指示候補と前記該当確率とに基づいて、最も該当確率が高い前記操作指示の内容を決定し、
前記操作指示判定手段は、前記感情判定手段によって判定された前記操作者の感情が喜または楽であるときに前記操作指示の内容が前記操作者の意図に合致していると肯定的な判定を行い、怒または哀であるときに前記操作指示の内容が前記操作者の意図に合致していないと否定的な判定を行い、
前記学習手段は、前記操作指示判定手段による判定結果が否定的な場合に、前記操作音声解析手段および前記操作動作解析手段のそれぞれによって抽出されて前記操作指示判定手段によって否定的な判定がなされた前記操作指示候補の前記該当確率を低い値に修正することを特徴とする操作指示装置。 - 請求項1において、
前記操作者の個人を識別する個人識別手段をさらに備え、
前記個人識別手段によって識別された個人毎に、前記操作音声解析手段、前記操作動作解析手段、前記学習手段のそれぞれにおける動作を行うことを特徴とする操作指示装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000385021A JP4294853B2 (ja) | 2000-12-19 | 2000-12-19 | 操作指示装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000385021A JP4294853B2 (ja) | 2000-12-19 | 2000-12-19 | 操作指示装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002182680A JP2002182680A (ja) | 2002-06-26 |
JP4294853B2 true JP4294853B2 (ja) | 2009-07-15 |
Family
ID=18852365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000385021A Expired - Fee Related JP4294853B2 (ja) | 2000-12-19 | 2000-12-19 | 操作指示装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4294853B2 (ja) |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004240154A (ja) * | 2003-02-06 | 2004-08-26 | Hitachi Ltd | 情報認識装置 |
JP4311190B2 (ja) | 2003-12-17 | 2009-08-12 | 株式会社デンソー | 車載機器用インターフェース |
KR20060070280A (ko) | 2004-12-20 | 2006-06-23 | 한국전자통신연구원 | 손 제스처 인식을 이용한 사용자 인터페이스 장치 및 그방법 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
JP5055781B2 (ja) * | 2006-02-14 | 2012-10-24 | 株式会社日立製作所 | 会話音声分析方法、及び、会話音声分析装置 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
JP5030580B2 (ja) * | 2006-12-27 | 2012-09-19 | タカタ株式会社 | 車両用作動システム、車両 |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
JP2010128015A (ja) * | 2008-11-25 | 2010-06-10 | Toyota Central R&D Labs Inc | 音声認識の誤認識判定装置及び音声認識の誤認識判定プログラム |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
TWI408675B (zh) * | 2009-12-22 | 2013-09-11 | Ind Tech Res Inst | 結合語意辨識功能之食品製造裝置 |
TWI423144B (zh) * | 2009-11-10 | 2014-01-11 | Inst Information Industry | Combined with the audio and video behavior identification system, identification methods and computer program products |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
JP6044819B2 (ja) | 2012-05-30 | 2016-12-14 | 日本電気株式会社 | 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
EP2863385B1 (en) * | 2012-06-19 | 2019-03-06 | NTT Docomo, Inc. | Function execution instruction system, function execution instruction method, and function execution instruction program |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
JP6244643B2 (ja) * | 2013-04-15 | 2017-12-13 | オムロン株式会社 | 表情推定装置、制御方法、制御プログラム、および記録媒体 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US10048761B2 (en) * | 2013-09-30 | 2018-08-14 | Qualcomm Incorporated | Classification of gesture detection systems through use of known and yet to be worn sensors |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
KR20190025549A (ko) * | 2016-05-06 | 2019-03-11 | 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티 | 정신 장애들의 치료를 위한 이동 및 착용 가능한 비디오 캡처 및 피드백 플랫-폼들 |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
JP6657048B2 (ja) | 2016-09-30 | 2020-03-04 | 本田技研工業株式会社 | 処理結果異常検出装置、処理結果異常検出プログラム、処理結果異常検出方法及び移動体 |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
JP6494828B1 (ja) * | 2018-03-07 | 2019-04-03 | ヤフー株式会社 | 管理装置、管理方法および管理プログラム |
JP2020141235A (ja) * | 2019-02-27 | 2020-09-03 | パナソニックIpマネジメント株式会社 | 機器制御システム、機器制御方法及びプログラム |
US11263198B2 (en) * | 2019-09-05 | 2022-03-01 | Soundhound, Inc. | System and method for detection and correction of a query |
JP7254682B2 (ja) * | 2019-11-22 | 2023-04-10 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
-
2000
- 2000-12-19 JP JP2000385021A patent/JP4294853B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002182680A (ja) | 2002-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4294853B2 (ja) | 操作指示装置 | |
JP6465077B2 (ja) | 音声対話装置および音声対話方法 | |
JP4481663B2 (ja) | 動作認識装置、動作認識方法、機器制御装置及びコンピュータプログラム | |
US8819596B2 (en) | Gesture control system | |
WO2016150001A1 (zh) | 语音识别的方法、装置及计算机存储介质 | |
US7373301B2 (en) | Method for detecting emotions from speech using speaker identification | |
US10482872B2 (en) | Speech recognition apparatus and speech recognition method | |
CN111033611A (zh) | 使嘴部图像与输入指令关联的系统和方法 | |
WO2021135685A1 (zh) | 身份认证的方法以及装置 | |
US20110235870A1 (en) | Information processing device, information processing method, and program | |
EP2384465A1 (en) | Method to control media with face detection and hot spot motion | |
JP6866715B2 (ja) | 情報処理装置、感情認識方法、及び、プログラム | |
US20170282380A1 (en) | Humanoid robot | |
JP2001083984A (ja) | インタフェース装置 | |
KR102208256B1 (ko) | 리딩 기능을 수행하는 스마트 인형 | |
JP2006268563A (ja) | 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体 | |
JP6819633B2 (ja) | 個人識別装置および特徴収集装置 | |
US20230073265A1 (en) | Information processing device and action mode setting method | |
US20020089413A1 (en) | Authentication of a person by hand recognition | |
JP2829014B2 (ja) | 音声認識装置及び方法 | |
WO2019235190A1 (ja) | 情報処理装置、情報処理方法、プログラム及び対話システム | |
JPH0728488A (ja) | 情報処理方法及び装置 | |
KR20120125802A (ko) | 다중 생체정보를 이용하는 점진적 개인인증 시스템 및 방법 | |
JP2016143050A (ja) | 音声認識装置および音声認識方法 | |
JP4254400B2 (ja) | 画像生成装置およびその画像生成方法、ならびにコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060131 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080722 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090407 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090409 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120417 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120417 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130417 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130417 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140417 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |