JP2007142957A

JP2007142957A - 遠隔対話方法及び装置

Info

Publication number: JP2007142957A
Application number: JP2005336002A
Authority: JP
Inventors: Atsushi Yoshimoto; 淳善本
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2005-11-21
Filing date: 2005-11-21
Publication date: 2007-06-07
Anticipated expiration: 2025-11-21
Also published as: JP4845183B2

Abstract

【課題】装置に軽負荷でありながらも、コマンドを正確に認識できると共に、コマンドを対話相手と共有もでき、自然な対話を行える遠隔対話方法及び装置を提供すること。
【解決手段】少なくとも、音声及び画像の入出力手段及び認識手段、通信手段、コンピュータを有する端末と、その複数の端末間でデータ授受を介するネットワークとを備え、各端末間で音声及び映像を送受信して遠隔対話を行うシステムにおいて、画像入力手段によって撮像された被写体に関して、予め定められた被写体の特定動作が、画像認識手段により認識されたら、その特定動作認識をトリガとして、音声認識手段におけるコマンド音声認識手段を起動し、音声入力手段によって収音される音声から、コマンド音声認識手段によりコマンドを認識する。
【選択図】図３

Description

本発明は、ネットワークを介して接続された端末間で、音声及び映像を送受信して遠隔対話を行う方法と装置に関する。

ＶＣ（ヴィデオチャット）やテレビ電話など、音声と共に映像を送受信して遠隔対話に用いるシステムが普及しつつある。
現状の一般的なＶＣ用機材一式によると、被写体の顔の位置の認識や、目が開いているか閉じているか程度の追跡は可能である。しかし、画素数や、精度、ＰＣの計算力などの点から、被写体の視線の方向を追跡できるようなレベルには実際には達していない。

ＶＣでは、対話中は基本的にバストアップの画像を双方で共有している。そのため、対話中に、相手の手がキーボードやマウスをどのように操作しているかはわからない。また、それら機材の操作時に下を向いてしまうことも少なくないので、対話の場が停滞し「しらけ」を招くことがある。
ＰＣの機能を呼び出すことや、また何を呼び出しているのかに関する情報を、双方で共有できれば、円滑で有効な対話に役立つ。しかし、これを積極的に可能せしめる従来技術はない。

関連する従来技術に、下記のような文献がある。
特許文献１は、テレビ会議システムに関するものであり、受信したデータをＲＧＢ表示するディスプレイパネルと、受信した映像情報をディスプレイパネル上にスーパーインポーズ表示する回路とを備えることを特徴としている。
特開２００２−２７１７６３「テレビ会議システム」

これは、プレゼンなどで使う装置に使用され、プレゼンテータの音声を常時音声認識させ、特定のキーワードをコマンドとして受理し、そのコマンドに応じて特定の動作を実行するという内容である。
例えば、プレゼンテータは、遷移させたい場面で「それでは」と発話し、予め決められたタイミング範囲で、カメラに向かって特定のゼスチャーを行う。これにより、「それでは」の音声がトリガとなり画像認識手段が起動し、予め決められたタイミング範囲で受信画像の中からスーパーインポーズ指示のゼスチャーコマンドが認識される。

この方法によると、常時音声認識をしておく必要があるので、必然的に音声を解析する装置はプレゼンテータの発話全てを分析することになる。装置をプレゼンテータから離れた位置に設置するならば、その装置の大きさ、消費電力量、装置から発生する熱や騒音等はあまり問われないであろうが、一般的にはプレゼンテータのそばに設置し、小型で省電力型、発熱は少なく無騒音ならばさらに良いだろう。そのためには、装置が行う分析の総演算量の低減化、簡素化などの工夫が必要となる。
また、音声認識には、今、何という母音と子音が発話されたのかというような解析が必要である。音声認識のアルゴリズムを簡略にして軽負担化すると、肝心のコマンドを誤認してしまう可能性が高くなる。
また、音声認識に依存すると、意識しないで適当に話した言葉が、コマンドとして誤認される恐れがあるので、利用者は常に正しい発音を心がけねばならない。そのため、プレゼンなどフォーマルな発言等には向いているが、インフォーマルなチャット等には不向きである。
以上より、音声認識を常時行なうことも、音声をトリガとして用いることも、ＶＣには好適と言い難い。

常時演算が必要な場合、アルゴリズム次第で極めて軽い負荷で実行することが可能である。幾つかの方法があるが、例えば単位時間当たりに処理する情報量を減らす、また、主な演算そのものを単純な加減算で構成させる方法などがある。
音声認識の場合、単位時間当たりに処理する情報量を減らすには、サンプリング周波数やそのビット量を減らす方法がある。この方法では、発話内容そのものがやや不鮮明になり我々人間でも聞き間違いが多くなる。「声量の変化」や「声の高さ（周波数）の変化」のみに着眼するならばまだ良いが、発話内容（単語など）を識別・抽出するのは難しくなる。また単語認識には単純な加減算だけでは難しいだろう。
動作認識の場合、単位時間当たりに処理する情報量を減らすには、１秒あたりのフレーム数やフレームのサイズを減らし、色情報を破棄して輝度情報のみに、またその輝度情報のビット量を減らす方法がある。この方法では細かい動作は破棄されてしまうが、大きな動作や予測が容易な動作ならば、かなりの量にまで絞り込むことができる。また、動作認識は一般的に、前後フレーム間の単純な加減算を基本とする場合が多い。
故に動作認識は、アルゴリズム次第で極めて軽い負荷で実行することが可能である。
本人が意図しない限り発生し難い特殊な動作をトリガとして用いれば、誤認も抑制できる利点がある。

動作をトリガに利用する従来技術には、特許文献２がある。
特許３１６０１０８「運転支援システム」

これは、自動車等の運転を支援するシステムに関するものであり、種々の車外情報と、視線検出回路で検出した運転者の視線とから、運転者の注視物を認識し、所望の車外情報をＣＲＴに出力することを特徴としている。
運転者に車外の状況を提示して安全運転に寄与させるに当たって、運転者に対する情報提示のトリガに、運転者の特定な動作を利用している。
自動車の運転というのはある程度の動作拘束条件下にあり、視線情報を取得し続けるのには向いているが、これを直接ＶＣに応用することは困難である。また既存技術である視線抽出は原理的には可能だが未だ高価であり、同時に視線を厳密に追えば追うほど一般的に装置が利用者を侵襲する場合が多い。これは一般的なＶＣ利用者に受け入れられやすいと考えることは難しく、より一層の工夫が必要である。

VCで、通常とは異なる様態の音声をトリガに用いる従来技術に、非特許文献１がある。
Proceedings of the European Conference onSpeech Communication and Technology (Eurospeech 2003), 1201-1204, Sep. 2003

これは、声の高さをトリガとするものであり、普通に発声した発話はそのまま放置し、意図的に高く発声した発話をコマンドとすることを特徴としている。
音声認識装置をＰＣ上で動作させておき、通常の音声での発話内容は音声認識し、テキスト化する。そして、意図的に高い声での「保存」などの発話があれば、その「保存」をコマンドであると認識し、そのコマンドをしかるべきソフトに転送する。この場合、「保存」と発話されるまでのテキスト化されたデータは、ＰＣに「保存」される。

しかし、VCなどのように２人以上での対話の場合は、意図的に声の高さなどの音質をコントロールすることは困難である。例えば、２者間の対話では、盛り上がって声が裏返ることがあったり、笑いなどの感情表出があるので、それがコマンドと誤認される恐れがある。
そのため、一人で静かな部屋で独白するような場合には有効であるが、対話には不向きである。
また、音声認識を常時行ない、音声をトリガとして用いている点でも、トリガ単語を避けるという心的な音声拘束をされているようなものなので、自由対話を主とするＶＣには好適と言い難い。

そこで、本発明は、装置に軽負荷でありながらも、コマンドを正確に認識できると共に、ＶＣに適するためにコマンドを対話相手と共有もでき、自然な対話を行える遠隔対話方法と、その方法を実施する装置を提供することを課題とする。

上記課題を解決するために、本発明の遠隔対話方法は、少なくとも、音声及び画像の入出力手段及び認識手段、通信手段、コンピュータを有する端末と、その複数の端末間でデータ授受を介するネットワークとを備え、各端末間で音声及び映像を送受信して遠隔対話を行うシステムにおいて、画像入力手段によって撮像された被写体に関して、予め定められた被写体の特定動作が、画像認識手段により認識されたら、その特定動作認識をトリガとして、音声認識手段におけるコマンド音声認識手段を起動し、音声入力手段によって収音される音声から、コマンド音声認識手段によりコマンドを認識することを特徴とする。

ここで、コマンド音声認識手段によりコマンドと認識する音声を、予め定められたキーワードとしてもよい。

特定動作を時間継続する動作とし、その開始から終了までの間に収音される音声をコマンドとみなしてもよい。

コマンドを、端末に備わるソフトウェアへ出力し、そのソフトウェアでコマンド内容を実行してもよい。

コマンドを、対話相手の端末側へ送信し、その相手端末に備わるソフトウェアでコマンド内容を実行して、情報の共有化に寄与させてもよい。

特定動作を、被写体本人が意図しない限り発生し難い特殊な様態の動作として、誤認の抑制に寄与させてもよい。

特定動作の違いに応じて、同一音声コマンドに対するコマンド内容を変化させてもよい。

特定動作としては、ウインクが有用である。

右ウインクを、自分の端末で、後続のコマンドを実行することを指定する特定動作とすると共に、左ウインクを、対話相手の端末で、後続のコマンドを実行することを指定する特定動作としてもよい。

特定動作としては、片方の目が画像入力手段によって撮像されない範囲まで頭部を回転させる動作も有用である。

また、指を頭部の所定部位に当てる特定動作も有用である。

更に、ウインクの代わりに手のひらで特定の目を覆う動作で代用することも有用である。他に、特定の肩を上げる、手の特定の爪を見せる、特定の鼻孔を覆う動作も有用である。より精密さを増すためには、光学的に識別しやすいように再帰性反射部材を利用したヘッドセット（頭部に装着して使用するマイク及びスピーカ）や、イヤホン、メガネ、指輪、腕輪、ネックレス、イヤリング、耳等のピアス、加工した爪等の装着品や装着品の一部を、見せたり、隠したり、動かしたりする動作などを特定動作とすることも有用である。
このように、特定動作としては、相手端末に現れていなかった身体の所定部位や装着品を見せたり、相手端末に現れていた身体の所定部位や装着品を隠す動作が利用できる。

本発明の遠隔対話装置は、少なくとも、音声及び画像の入出力手段及び認識手段、通信手段、コンピュータを有する端末と、その複数の端末間でデータ授受を介するネットワークとを備え、各端末間で音声及び映像を送受信して遠隔対話を行うシステムにおいて、画像入力手段によって撮像された被写体に関して、予め定められた被写体の特定動作が、画像認識手段により認識された時、その特定動作認識をトリガとして起動し、音声入力手段によって収音される音声からコマンドを認識するコマンド音声認識手段を備えることを特徴とする。

音声の入出力手段としては、頭部に装着して使用するマイク及びスピーカとし、その装着時における耳近傍位置に発光部材を付設してもよい。

音声の入出力手段は、肩部に装着して使用するマイク及びスピーカとし、その装着時における両肩位置に発光部材が付設したものも有用である。

本発明によると、特定の動作をコマンド入力用のトリガとするので、装置に軽負荷であり、コマンドの誤認を抑制できる。また、コマンドを自然な形態で対話相手と共有できるので、対話の円滑な進行にも寄与する。

以下に、図面を基に本発明の実施形態を説明する。
図１は、ＶＣのシステムの概要を示す説明図である。
ＰＣ本体には、音声認識や画像認識、通信などの各種アプリケーションが搭載され、マウスやキーボードなどの入力デバイスと、モニタなどの出力デバイスが接続され、マイクやスピーカ、ビデオカメラなどのＶＣ用機材が設けられている。このような各端末はインターネット等の通信回線を介して、他の端末と接続され、リアルタイムでのＶＣを可能にしている。

本発明では、通常では意図しない限り発生し難く予め定められた特殊な様態の動作を、コマンド入力用のトリガとすることを基本としている。これは、前記非特許文献１と比較するならば、声の高さの変化の代わりに特定動作によって、コマンド入力モードに移行することに対応する。
図２は、非特許文献１による従来のＶＣのシステムの要部を示す説明図である。
通信回線の他方には同様の装置があり２者間でVCを実行している。通信手段には、ネットーワークカードやネットワーク用ソフトウェア等が含まれる。その通信手段に対してVC用ソフトウェアが、相手及び自分の動画及び音声をやりとりしている。
なお、図中の他ソフトは、具体的にはブラウザでネットを介して検索している様子などを示すものである。
これに対し、図３は、本発明のＶＣのシステムの要部を示す説明図である。
本発明構成では、VC用ソフトウェアで利用している動画像音声を活用する形態になっている。また、通信手段や他ソフトウェアとも直接やりとりをしている。
このように、非特許文献１は、例えば高い声で「保存」と発話するように、声の高さが変化した発話で、高い声のコマンド入力モードと、「保存」というコマンドと、高い声が終わるコマンド入力モード終了とを同時に行っている。対して本発明では、動作（の維持）がコマンドモード状態のon/offを表し、発話がコマンドとなる点が異なっている。

図４は、本発明においてコマンド音声を認識するためのシステム概要を示すフローチャートである。
カメラ等の画像入力装置と画像認識ソフトウェアが起動している状態で、カメラに対向した対話者である被写体が撮像される。予め定められた被写体の特定動作が、画像認識ソフトウェアによって認識された時、その特定動作認識をトリガとして、マイク等の音声入力装置と音声認識ソフトウェアが起動する。そして、音声入力装置によって収音される音声から、コマンド音声認識ソフトウェアでコマンド音声を認識する。そして、コマンド音声からコマンドを生成して出力する。

同様に図５は、別実施例のシステム概要を示すフローチャートである。
図４における例では、特定動作認識をトリガとしてのみ利用しているが、本例では、特定動作認識をコマンド生成にも反映している。
すなわち、例えば右目ウインクと左目ウインクとの差異など、特定動作の内容差異と、特定音声とを組み合わせて、それぞれに応じて異なった内容のコマンドを生成する。

図６も、別実施例のシステム概要を示すフローチャートである。
本例では、相手も自分も両方認識させている。逐次割込式のプログラムにより相手の認識割込処理と自分の認識割込処理とを行ない、相手と自分の動作を並行して処理する。

図７は、従来技術のシステム概要を示すフローチャートである。
音声入力装置が当初から起動している点が、本発明とは異なる。
従来技術の多くが明確な音声待ちループであるのに対し、本発明は演算処理の軽減が図れる大雑把な動作待ちのループとなっている。

同様に図８も、従来技術のシステム概要を示すフローチャートである。
図７における例では、特定音声認識をトリガとして利用しているが、本例では、音声の特定の変化認識をトリガとしている。

いずれの場合でも、本発明では、通常では意図しない限り発生し難い特定動作と、予め定められた明瞭なキーワード等の特定の音声によるコマンドとの組み合わせによって、そのコマンドが出力されるステップへ移行するので、低負荷で正確にコマンドを中継することが可能である。
出力されたコマンドは、そのコマンド音声の入力された端末、または、通信回線を介した対話相手の端末に備わるソフトウェアに入力され、そのソフトウェアでコマンド内容が実行される。

特定動作の例としては、ウインクが挙げられる。
ウインクは、通常の対話では、本人が意図しない限り表出され難い動作である。ましてウインク状態を数秒間維持する動作は、非常に稀である。
このように時間継続する動作を特定動作に選定すると、その動作の開始から終了までの間に収音される音声をコマンドとみなすなど、コマンド音声の認識に寄与させることができる。

図９ないし１１は、ウインクの様態に応じたコマンド転送の様態を示す説明図であり、図９は、右目のウインクによって自分の端末へコマンドを出力し、図１０は、左目のウインクによって相手の端末へコマンドを出力し、図１１は、両目のウインクによって自分及び相手の両端末へコマンドを出力することを示している。
特定動作としてのウインクは、片目を閉じる動作とすることが好ましい。
すると、特定動作の違いに応じて、同一音声コマンドに対するコマンド内容を変化させることが可能になり、容易にコマンドに多様性を与えられる。
例えば、右ウインクであれば、自分の端末で、後続のコマンドを実行することを指定する特定動作を意味し、左ウインクであれば、対話相手の端末で、後続のコマンドを実行することを指定する特定動作を意味するなどして、左右の目のウインクに別の意味付けを付与できる。
この場合は、自分の装置では、自分の左ウインクは無視し、相手の左ウインクは有効で、その際のコマンドは相手の音声とする、という設定にすればよい。
また反対に、誤認識を低減させたい場合には、自分の装置でも相手の装置でも同様に解釈されたコマンドのみを、真正なコマンドとして認識する、という設定にすればよい。このように、認識処理を並列して多重化すると、認識精度を向上させられる。

実際にＶＣを使っていない状態でも、既存のＶＣ装置を個人単体で利用することもできる。例えば、各目のウインクに対する意味付けは、例えば、右ウインクが、「デスクトップの〜」を意味し、左ウインクが、「インターネットの〜」を意味するなど、適宜設定変更できる。
なお、ウインクとは、片目を時間ｔ以上閉じる動作とする。ｔは例えば０．５秒など適宜設定し、これより短い動作は無視する。瞬きは両目同時に短時間繰り返して行なうので、誤認される危惧はない。

ウインクを特定動作として用いると、例えば次のように利用できる。
通常の動作時での発話は、音声認識装置では無視される。片目だけ閉じ続けると、音声認識装置が起動し、次に両目を開くまでに行われた発話が音声認識される。そして音声認識されたコマンドが、認識内容に従って所定のソフトウェアに送信される。
例えば両目を開いた通常対話の途中で、片目を閉じ続けて「検索
福沢諭吉」と言い、その後に目を開ける。この場合では、検索エンジンで「福沢諭吉」が検索され、その検索結果がモニタに表示される。

このシステムによると、対話相手も、こちらが何をしているのか認識できるので、状況を共有することができる利点がある。下を向いてキーボードで「福沢諭吉」と入力する従来の場合では、対話相手が何をしているのかわからない。すると、その数秒間にしらけが生じて退屈してしまう。また通例では「少し待って・・・（カタカタカタとキーボードを叩く音）」「今、何をしたの？」「福沢諭吉を検索してみた。１つ目が・・・」というような冗長な対話が必要となってしまう。
ウインクのような動作であると、手がマウスやキーボードで埋まっていても、コマンドの入力を妨げない利点がある。
また、対話相手が目を閉じたら、コマンド入力モードに入ったということを理解できるので、続いて発話されるコマンド内容を理解しやすくなり、臨場感も維持できる。
そして、対話相手側も同様のアプリケーションが搭載されているとすると、対話相手側でも「福沢諭吉」を検索しその検索結果を見ることができるので、それを資料として話を続けることにも寄与する。これは、ＰＣの電源は投入できるものの操作に不慣れなお年寄り等を相手に、そのＰＣの機能を遠隔地から解説することや、アプリケーションソフトと組み合わせた通信教育などに応用することも可能になる。

特定動作を、片方の目がカメラに撮像されない範囲まで、頭部を回転させる動作と設定することも有効である。
図１２ないし１４は、別実施例の特定動作を示す説明図であり、図１２は、頭部の右回転によって自分の端末へコマンドを出力し、図１３は、左回転によって相手の端末へコマンドを出力し、図１４は、上方への回転によって自分及び相手の両端末へコマンドを出力することを示している。
このような大雑把な動きならば、現時点の廉価な装置で十分に認識可能である。また、モニタは通常ほぼ平面なので、片目でもモニタに映し出された絵や文字を、短時間なら負荷なく認識することが可能である。そのため、発話によるコマンドが正しく認識されているかどうかをリアルタイムで知ることができる。

特定動作を、特定の指を、頭部の特定の部位に当てる動作と設定することも有効である。
図１５ないし１７は、別実施例の特定動作を示す説明図であり、図１５は、右こめかみに指を当てる動作によって自分の端末へコマンドを出力し、図１６は、左こめかみに指を当てる動作によって相手の端末へコマンドを出力し、図１７は、額に指を当てる動作によって自分及び相手の両端末へコマンドを出力することを示している。

図１８ないし２０は、別実施例の特定動作を示す説明図であり、図１８は、右手の指を鼻に当てる動作によって自分の端末へコマンドを出力し、図１９は、左手の指を鼻に当てる動作によって相手の端末へコマンドを出力し、図２０は、複数本の指を鼻に当てる動作によって自分及び相手の両端末へコマンドを出力することを示している。
このように、指等の当てる部位や、当てられる部位は、多様に設定可能なので、それに応じて、特定動作の違いに伴うコマンド内容の変化も、多様かつ容易に設定変更可能である。

頭部等に光を発する部材を装着して、特定動作の認識に寄与させることもできる。
図２１は、耳近傍位置に発光部材を装着した状態を示す説明図であり、図２２は、その状態で頭部を回転させた状況を示す説明図である。
図示の例では、ＬＥＤの連設されたスピーカを左耳に装着している。
これによると、ＬＥＤの光によって、顔に照明が当たっていない状態でも動作を認識できる。頭部を左回転させると、自分の鼻や右頬でＬＥＤ光がカメラに届かなくなるので、一定時間以上ＬＥＤ光の入力がなければコマンド入力モードの開始などと設定できる。

図２３は、両肩位置に発光部材を装着した状態を示す説明図であり、図２４は、その状態で右肩を上昇させた状況を示す説明図である。
図示の例では、両肩位置にＬＥＤの付設されたマイク及びスピーカのセットを装着している。
通常は、２つのＬＥＤ光はほぼ水平にカメラに映っているとする。図示のように右肩を上げたり、上半身を左に傾けると、右肩部のＬＥＤ光の方が上昇する。このように複数のＬＥＤ光の位置関係によって、特定動作の認識を行うことができる。
なお、この肩に掛けるタイプの音声入出力装置を用いると、長時間使用しても従来のヘッドホンように耳部に痛みを生じることがない。電池内蔵型として音声をワイヤレスで送受信するようにすれば、そのまま席を離れることもでき便利である。

また、ＬＥＤの発光波長を複数用意し、それをＩＤとして用いれば、カメラの前に複数人いても各人の顔を認識することなく識別できる。
各人専用の機能の割り当て情報をサーバーに記憶させておけば、所定のネットワーク内のどのＰＣでも、同じ機能割り当てを使うことができる。

本発明によると、既存の装置を組み合わせて軽負荷で構成できながらも、コマンドを正確に中継し、自然な形態で対話相手と共有もできるので、円滑に対話を進めることができる。
自然に使えるインターフェースであるので、高齢者などＰＣ操作に不慣れな者も容易に習得でき、アプリケーションを擬人化して生活空間に浸透させることも可能である。
また、通信教育等にも応用でき、用途が広く産業上非常に有用である。

ＶＣのシステムの概要を示す説明図非特許文献１による従来のＶＣのシステムの要部を示す説明図本発明のＶＣのシステムの要部を示す説明図コマンド音声を認識するためのシステム概要を示すフローチャート同、別実施例図同、別実施例図従来技術のシステム概要を示すフローチャート同、別例図ウインクの様態に応じたコマンド転送の様態を示す説明図同、別状態図同、別状態図頭部の回転を用いた別実施例の特定動作を示す説明図同、別状態図同、別状態図指で指示する別実施例の特定動作を示す説明図同、別状態図同、別状態図鼻を指示する別実施例の特定動作を示す説明図同、別状態図同、別状態図耳近傍位置に発光部材を装着した状態を示す説明図同、別状態図両肩位置に発光部材を装着した状態を示す説明図同、別状態図

Claims

少なくとも、音声及び画像の入出力手段及び認識手段、通信手段、コンピュータを有する端末と、その複数の端末間でデータ授受を介するネットワークとを備え、各端末間で音声及び映像を送受信して遠隔対話を行うシステムにおいて、
画像入力手段によって撮像された被写体に関して、予め定められた被写体の特定動作が、画像認識手段により認識されたら、
その特定動作認識をトリガとして、音声認識手段におけるコマンド音声認識手段を起動し、
音声入力手段によって収音される音声から、コマンド音声認識手段によりコマンドを認識する
ことを特徴とする遠隔対話方法。
コマンド音声認識手段によりコマンドと認識する音声が、予め定められたキーワードである
請求項１に記載の遠隔対話方法。
特定動作が時間継続する動作であり、その開始から終了までの間に収音される音声をコマンドとみなす
請求項１または２に記載の遠隔対話方法。
コマンドを、端末に備わるソフトウェアへ出力し、そのソフトウェアでコマンド内容を実行する
請求項１ないし３に記載の遠隔対話方法。
コマンドを、対話相手の端末側へ送信し、その相手端末に備わるソフトウェアでコマンド内容を実行する
請求項１ないし４に記載の遠隔対話方法。
特定動作が、被写体本人が意図しない限り発生し難い特殊な様態の動作である
請求項１ないし５に記載の遠隔対話方法。
特定動作の違いに応じて、同一音声コマンドに対するコマンド内容を変化させる
請求項１ないし６に記載の遠隔対話方法。
特定動作がウインクである
請求項１ないし７に記載の遠隔対話方法。
右ウインクが、自分の端末で、後続のコマンドを実行することを指定する特定動作であり、
左ウインクが、対話相手の端末で、後続のコマンドを実行することを指定する特定動作である
請求項７または８に記載の遠隔対話方法。
特定動作が、片方の目が画像入力手段によって撮像されない範囲まで頭部を回転させる動作である
請求項１ないし７に記載の遠隔対話方法。
特定動作が、指を頭部の所定部位に当てる動作である
請求項１ないし７に記載の遠隔対話方法。
特定動作が、現れていなかった身体の所定部位を見せる動作である
請求項１ないし７に記載の遠隔対話方法。
特定動作が、現れていた身体の所定部位を隠す動作である
請求項１ないし７に記載の遠隔対話方法。
特定動作が、現れていなかった身体の装着品を見せる動作である
請求項１ないし７に記載の遠隔対話方法。
特定動作が、現れていた身体の装着品を隠す動作である
請求項１ないし７に記載の遠隔対話方法。
少なくとも、音声及び画像の入出力手段及び認識手段、通信手段、コンピュータを有する端末と、その複数の端末間でデータ授受を介するネットワークとを備え、各端末間で音声及び映像を送受信して遠隔対話を行うシステムにおいて、
画像入力手段によって撮像された被写体に関して、予め定められた被写体の特定動作が、画像認識手段により認識された時、
その特定動作認識をトリガとして起動し、音声入力手段によって収音される音声からコマンドを認識するコマンド音声認識手段を備える
ことを特徴とする遠隔対話装置。
音声の入出力手段が、頭部に装着して使用するマイク及びスピーカであり、その装着時における耳近傍位置に発光部材が付設された
請求項１２に記載の遠隔対話装置。
音声の入出力手段が、肩部に装着して使用するマイク及びスピーカであり、その装着時における両肩位置に発光部材が付設された
請求項１２に記載の遠隔対話装置。