JP2007142957A - 遠隔対話方法及び装置 - Google Patents

遠隔対話方法及び装置 Download PDF

Info

Publication number
JP2007142957A
JP2007142957A JP2005336002A JP2005336002A JP2007142957A JP 2007142957 A JP2007142957 A JP 2007142957A JP 2005336002 A JP2005336002 A JP 2005336002A JP 2005336002 A JP2005336002 A JP 2005336002A JP 2007142957 A JP2007142957 A JP 2007142957A
Authority
JP
Japan
Prior art keywords
command
voice
specific
remote
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005336002A
Other languages
English (en)
Other versions
JP4845183B2 (ja
Inventor
Atsushi Yoshimoto
淳 善本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2005336002A priority Critical patent/JP4845183B2/ja
Publication of JP2007142957A publication Critical patent/JP2007142957A/ja
Application granted granted Critical
Publication of JP4845183B2 publication Critical patent/JP4845183B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】 装置に軽負荷でありながらも、コマンドを正確に認識できると共に、コマンドを対話相手と共有もでき、自然な対話を行える遠隔対話方法及び装置を提供すること。
【解決手段】 少なくとも、音声及び画像の入出力手段及び認識手段、通信手段、コンピュータを有する端末と、その複数の端末間でデータ授受を介するネットワークとを備え、各端末間で音声及び映像を送受信して遠隔対話を行うシステムにおいて、画像入力手段によって撮像された被写体に関して、予め定められた被写体の特定動作が、画像認識手段により認識されたら、その特定動作認識をトリガとして、音声認識手段におけるコマンド音声認識手段を起動し、音声入力手段によって収音される音声から、コマンド音声認識手段によりコマンドを認識する。
【選択図】 図3

Description

本発明は、ネットワークを介して接続された端末間で、音声及び映像を送受信して遠隔対話を行う方法と装置に関する。
VC(ヴィデオチャット)やテレビ電話など、音声と共に映像を送受信して遠隔対話に用いるシステムが普及しつつある。
現状の一般的なVC用機材一式によると、被写体の顔の位置の認識や、目が開いているか閉じているか程度の追跡は可能である。しかし、画素数や、精度、PCの計算力などの点から、被写体の視線の方向を追跡できるようなレベルには実際には達していない。
VCでは、対話中は基本的にバストアップの画像を双方で共有している。そのため、対話中に、相手の手がキーボードやマウスをどのように操作しているかはわからない。また、それら機材の操作時に下を向いてしまうことも少なくないので、対話の場が停滞し「しらけ」を招くことがある。
PCの機能を呼び出すことや、また何を呼び出しているのかに関する情報を、双方で共有できれば、円滑で有効な対話に役立つ。しかし、これを積極的に可能せしめる従来技術はない。
関連する従来技術に、下記のような文献がある。
特許文献1は、テレビ会議システムに関するものであり、受信したデータをRGB表示するディスプレイパネルと、受信した映像情報をディスプレイパネル上にスーパーインポーズ表示する回路とを備えることを特徴としている。
特開2002−271763「テレビ会議システム」
これは、プレゼンなどで使う装置に使用され、プレゼンテータの音声を常時音声認識させ、特定のキーワードをコマンドとして受理し、そのコマンドに応じて特定の動作を実行するという内容である。
例えば、プレゼンテータは、遷移させたい場面で「それでは」と発話し、予め決められたタイミング範囲で、カメラに向かって特定のゼスチャーを行う。これにより、「それでは」の音声がトリガとなり画像認識手段が起動し、予め決められたタイミング範囲で受信画像の中からスーパーインポーズ指示のゼスチャーコマンドが認識される。
この方法によると、常時音声認識をしておく必要があるので、必然的に音声を解析する装置はプレゼンテータの発話全てを分析することになる。装置をプレゼンテータから離れた位置に設置するならば、その装置の大きさ、消費電力量、装置から発生する熱や騒音等はあまり問われないであろうが、一般的にはプレゼンテータのそばに設置し、小型で省電力型、発熱は少なく無騒音ならばさらに良いだろう。そのためには、装置が行う分析の総演算量の低減化、簡素化などの工夫が必要となる。
また、音声認識には、今、何という母音と子音が発話されたのかというような解析が必要である。音声認識のアルゴリズムを簡略にして軽負担化すると、肝心のコマンドを誤認してしまう可能性が高くなる。
また、音声認識に依存すると、意識しないで適当に話した言葉が、コマンドとして誤認される恐れがあるので、利用者は常に正しい発音を心がけねばならない。そのため、プレゼンなどフォーマルな発言等には向いているが、インフォーマルなチャット等には不向きである。
以上より、音声認識を常時行なうことも、音声をトリガとして用いることも、VCには好適と言い難い。
常時演算が必要な場合、アルゴリズム次第で極めて軽い負荷で実行することが可能である。幾つかの方法があるが、例えば単位時間当たりに処理する情報量を減らす、また、主な演算そのものを単純な加減算で構成させる方法などがある。
音声認識の場合、単位時間当たりに処理する情報量を減らすには、サンプリング周波数やそのビット量を減らす方法がある。この方法では、発話内容そのものがやや不鮮明になり我々人間でも聞き間違いが多くなる。「声量の変化」や「声の高さ(周波数)の変化」のみに着眼するならばまだ良いが、発話内容(単語など)を識別・抽出するのは難しくなる。また単語認識には単純な加減算だけでは難しいだろう。
動作認識の場合、単位時間当たりに処理する情報量を減らすには、1秒あたりのフレーム数やフレームのサイズを減らし、色情報を破棄して輝度情報のみに、またその輝度情報のビット量を減らす方法がある。この方法では細かい動作は破棄されてしまうが、大きな動作や予測が容易な動作ならば、かなりの量にまで絞り込むことができる。また、動作認識は一般的に、前後フレーム間の単純な加減算を基本とする場合が多い。
故に動作認識は、アルゴリズム次第で極めて軽い負荷で実行することが可能である。
本人が意図しない限り発生し難い特殊な動作をトリガとして用いれば、誤認も抑制できる利点がある。
動作をトリガに利用する従来技術には、特許文献2がある。
特許3160108「運転支援システム」
これは、自動車等の運転を支援するシステムに関するものであり、種々の車外情報と、視線検出回路で検出した運転者の視線とから、運転者の注視物を認識し、所望の車外情報をCRTに出力することを特徴としている。
運転者に車外の状況を提示して安全運転に寄与させるに当たって、運転者に対する情報提示のトリガに、運転者の特定な動作を利用している。
自動車の運転というのはある程度の動作拘束条件下にあり、視線情報を取得し続けるのには向いているが、これを直接VCに応用することは困難である。また既存技術である視線抽出は原理的には可能だが未だ高価であり、同時に視線を厳密に追えば追うほど一般的に装置が利用者を侵襲する場合が多い。これは一般的なVC利用者に受け入れられやすいと考えることは難しく、より一層の工夫が必要である。
VCで、通常とは異なる様態の音声をトリガに用いる従来技術に、非特許文献1がある。
Proceedings of the European Conference onSpeech Communication and Technology (Eurospeech 2003), 1201-1204, Sep. 2003
これは、声の高さをトリガとするものであり、普通に発声した発話はそのまま放置し、意図的に高く発声した発話をコマンドとすることを特徴としている。
音声認識装置をPC上で動作させておき、通常の音声での発話内容は音声認識し、テキスト化する。そして、意図的に高い声での「保存」などの発話があれば、その「保存」をコマンドであると認識し、そのコマンドをしかるべきソフトに転送する。この場合、「保存」と発話されるまでのテキスト化されたデータは、PCに「保存」される。
しかし、VCなどのように2人以上での対話の場合は、意図的に声の高さなどの音質をコントロールすることは困難である。例えば、2者間の対話では、盛り上がって声が裏返ることがあったり、笑いなどの感情表出があるので、それがコマンドと誤認される恐れがある。
そのため、一人で静かな部屋で独白するような場合には有効であるが、対話には不向きである。
また、音声認識を常時行ない、音声をトリガとして用いている点でも、トリガ単語を避けるという心的な音声拘束をされているようなものなので、自由対話を主とするVCには好適と言い難い。
そこで、本発明は、装置に軽負荷でありながらも、コマンドを正確に認識できると共に、VCに適するためにコマンドを対話相手と共有もでき、自然な対話を行える遠隔対話方法と、その方法を実施する装置を提供することを課題とする。
上記課題を解決するために、本発明の遠隔対話方法は、少なくとも、音声及び画像の入出力手段及び認識手段、通信手段、コンピュータを有する端末と、その複数の端末間でデータ授受を介するネットワークとを備え、各端末間で音声及び映像を送受信して遠隔対話を行うシステムにおいて、画像入力手段によって撮像された被写体に関して、予め定められた被写体の特定動作が、画像認識手段により認識されたら、その特定動作認識をトリガとして、音声認識手段におけるコマンド音声認識手段を起動し、音声入力手段によって収音される音声から、コマンド音声認識手段によりコマンドを認識することを特徴とする。
ここで、コマンド音声認識手段によりコマンドと認識する音声を、予め定められたキーワードとしてもよい。
特定動作を時間継続する動作とし、その開始から終了までの間に収音される音声をコマンドとみなしてもよい。
コマンドを、端末に備わるソフトウェアへ出力し、そのソフトウェアでコマンド内容を実行してもよい。
コマンドを、対話相手の端末側へ送信し、その相手端末に備わるソフトウェアでコマンド内容を実行して、情報の共有化に寄与させてもよい。
特定動作を、被写体本人が意図しない限り発生し難い特殊な様態の動作として、誤認の抑制に寄与させてもよい。
特定動作の違いに応じて、同一音声コマンドに対するコマンド内容を変化させてもよい。
特定動作としては、ウインクが有用である。
右ウインクを、自分の端末で、後続のコマンドを実行することを指定する特定動作とすると共に、左ウインクを、対話相手の端末で、後続のコマンドを実行することを指定する特定動作としてもよい。
特定動作としては、片方の目が画像入力手段によって撮像されない範囲まで頭部を回転させる動作も有用である。
また、指を頭部の所定部位に当てる特定動作も有用である。
更に、ウインクの代わりに手のひらで特定の目を覆う動作で代用することも有用である。他に、特定の肩を上げる、手の特定の爪を見せる、特定の鼻孔を覆う動作も有用である。より精密さを増すためには、光学的に識別しやすいように再帰性反射部材を利用したヘッドセット(頭部に装着して使用するマイク及びスピーカ)や、イヤホン、メガネ、指輪、腕輪、ネックレス、イヤリング、耳等のピアス、加工した爪等の装着品や装着品の一部を、見せたり、隠したり、動かしたりする動作などを特定動作とすることも有用である。
このように、特定動作としては、相手端末に現れていなかった身体の所定部位や装着品を見せたり、相手端末に現れていた身体の所定部位や装着品を隠す動作が利用できる。
本発明の遠隔対話装置は、少なくとも、音声及び画像の入出力手段及び認識手段、通信手段、コンピュータを有する端末と、その複数の端末間でデータ授受を介するネットワークとを備え、各端末間で音声及び映像を送受信して遠隔対話を行うシステムにおいて、画像入力手段によって撮像された被写体に関して、予め定められた被写体の特定動作が、画像認識手段により認識された時、その特定動作認識をトリガとして起動し、音声入力手段によって収音される音声からコマンドを認識するコマンド音声認識手段を備えることを特徴とする。
音声の入出力手段としては、頭部に装着して使用するマイク及びスピーカとし、その装着時における耳近傍位置に発光部材を付設してもよい。
音声の入出力手段は、肩部に装着して使用するマイク及びスピーカとし、その装着時における両肩位置に発光部材が付設したものも有用である。
本発明によると、特定の動作をコマンド入力用のトリガとするので、装置に軽負荷であり、コマンドの誤認を抑制できる。また、コマンドを自然な形態で対話相手と共有できるので、対話の円滑な進行にも寄与する。
以下に、図面を基に本発明の実施形態を説明する。
図1は、VCのシステムの概要を示す説明図である。
PC本体には、音声認識や画像認識、通信などの各種アプリケーションが搭載され、マウスやキーボードなどの入力デバイスと、モニタなどの出力デバイスが接続され、マイクやスピーカ、ビデオカメラなどのVC用機材が設けられている。このような各端末はインターネット等の通信回線を介して、他の端末と接続され、リアルタイムでのVCを可能にしている。
本発明では、通常では意図しない限り発生し難く予め定められた特殊な様態の動作を、コマンド入力用のトリガとすることを基本としている。これは、前記非特許文献1と比較するならば、声の高さの変化の代わりに特定動作によって、コマンド入力モードに移行することに対応する。
図2は、非特許文献1による従来のVCのシステムの要部を示す説明図である。
通信回線の他方には同様の装置があり2者間でVCを実行している。通信手段には、ネットーワークカードやネットワーク用ソフトウェア等が含まれる。その通信手段に対してVC用ソフトウェアが、相手及び自分の動画及び音声をやりとりしている。
なお、図中の他ソフトは、具体的にはブラウザでネットを介して検索している様子などを示すものである。
これに対し、図3は、本発明のVCのシステムの要部を示す説明図である。
本発明構成では、VC用ソフトウェアで利用している動画像音声を活用する形態になっている。また、通信手段や他ソフトウェアとも直接やりとりをしている。
このように、非特許文献1は、例えば高い声で「保存」と発話するように、声の高さが変化した発話で、高い声のコマンド入力モードと、「保存」というコマンドと、高い声が終わるコマンド入力モード終了とを同時に行っている。対して本発明では、動作(の維持)がコマンドモード状態のon/offを表し、発話がコマンドとなる点が異なっている。
図4は、本発明においてコマンド音声を認識するためのシステム概要を示すフローチャートである。
カメラ等の画像入力装置と画像認識ソフトウェアが起動している状態で、カメラに対向した対話者である被写体が撮像される。予め定められた被写体の特定動作が、画像認識ソフトウェアによって認識された時、その特定動作認識をトリガとして、マイク等の音声入力装置と音声認識ソフトウェアが起動する。そして、音声入力装置によって収音される音声から、コマンド音声認識ソフトウェアでコマンド音声を認識する。そして、コマンド音声からコマンドを生成して出力する。
同様に図5は、別実施例のシステム概要を示すフローチャートである。
図4における例では、特定動作認識をトリガとしてのみ利用しているが、本例では、特定動作認識をコマンド生成にも反映している。
すなわち、例えば右目ウインクと左目ウインクとの差異など、特定動作の内容差異と、特定音声とを組み合わせて、それぞれに応じて異なった内容のコマンドを生成する。
図6も、別実施例のシステム概要を示すフローチャートである。
本例では、相手も自分も両方認識させている。逐次割込式のプログラムにより相手の認識割込処理と自分の認識割込処理とを行ない、相手と自分の動作を並行して処理する。
図7は、従来技術のシステム概要を示すフローチャートである。
音声入力装置が当初から起動している点が、本発明とは異なる。
従来技術の多くが明確な音声待ちループであるのに対し、本発明は演算処理の軽減が図れる大雑把な動作待ちのループとなっている。
同様に図8も、従来技術のシステム概要を示すフローチャートである。
図7における例では、特定音声認識をトリガとして利用しているが、本例では、音声の特定の変化認識をトリガとしている。
いずれの場合でも、本発明では、通常では意図しない限り発生し難い特定動作と、予め定められた明瞭なキーワード等の特定の音声によるコマンドとの組み合わせによって、そのコマンドが出力されるステップへ移行するので、低負荷で正確にコマンドを中継することが可能である。
出力されたコマンドは、そのコマンド音声の入力された端末、または、通信回線を介した対話相手の端末に備わるソフトウェアに入力され、そのソフトウェアでコマンド内容が実行される。
特定動作の例としては、ウインクが挙げられる。
ウインクは、通常の対話では、本人が意図しない限り表出され難い動作である。ましてウインク状態を数秒間維持する動作は、非常に稀である。
このように時間継続する動作を特定動作に選定すると、その動作の開始から終了までの間に収音される音声をコマンドとみなすなど、コマンド音声の認識に寄与させることができる。
図9ないし11は、ウインクの様態に応じたコマンド転送の様態を示す説明図であり、図9は、右目のウインクによって自分の端末へコマンドを出力し、図10は、左目のウインクによって相手の端末へコマンドを出力し、図11は、両目のウインクによって自分及び相手の両端末へコマンドを出力することを示している。
特定動作としてのウインクは、片目を閉じる動作とすることが好ましい。
すると、特定動作の違いに応じて、同一音声コマンドに対するコマンド内容を変化させることが可能になり、容易にコマンドに多様性を与えられる。
例えば、右ウインクであれば、自分の端末で、後続のコマンドを実行することを指定する特定動作を意味し、左ウインクであれば、対話相手の端末で、後続のコマンドを実行することを指定する特定動作を意味するなどして、左右の目のウインクに別の意味付けを付与できる。
この場合は、自分の装置では、自分の左ウインクは無視し、相手の左ウインクは有効で、その際のコマンドは相手の音声とする、という設定にすればよい。
また反対に、誤認識を低減させたい場合には、自分の装置でも相手の装置でも同様に解釈されたコマンドのみを、真正なコマンドとして認識する、という設定にすればよい。このように、認識処理を並列して多重化すると、認識精度を向上させられる。
実際にVCを使っていない状態でも、既存のVC装置を個人単体で利用することもできる。例えば、各目のウインクに対する意味付けは、例えば、右ウインクが、「デスクトップの〜」を意味し、左ウインクが、「インターネットの〜」を意味するなど、適宜設定変更できる。
なお、ウインクとは、片目を時間t以上閉じる動作とする。tは例えば0.5秒など適宜設定し、これより短い動作は無視する。瞬きは両目同時に短時間繰り返して行なうので、誤認される危惧はない。
ウインクを特定動作として用いると、例えば次のように利用できる。
通常の動作時での発話は、音声認識装置では無視される。片目だけ閉じ続けると、音声認識装置が起動し、次に両目を開くまでに行われた発話が音声認識される。そして音声認識されたコマンドが、認識内容に従って所定のソフトウェアに送信される。
例えば両目を開いた通常対話の途中で、片目を閉じ続けて「検索
福沢諭吉」と言い、その後に目を開ける。この場合では、検索エンジンで「福沢諭吉」が検索され、その検索結果がモニタに表示される。
このシステムによると、対話相手も、こちらが何をしているのか認識できるので、状況を共有することができる利点がある。下を向いてキーボードで「福沢諭吉」と入力する従来の場合では、対話相手が何をしているのかわからない。すると、その数秒間にしらけが生じて退屈してしまう。また通例では「少し待って・・・(カタカタカタとキーボードを叩く音)」「今、何をしたの?」「福沢諭吉を検索してみた。1つ目が・・・」というような冗長な対話が必要となってしまう。
ウインクのような動作であると、手がマウスやキーボードで埋まっていても、コマンドの入力を妨げない利点がある。
また、対話相手が目を閉じたら、コマンド入力モードに入ったということを理解できるので、続いて発話されるコマンド内容を理解しやすくなり、臨場感も維持できる。
そして、対話相手側も同様のアプリケーションが搭載されているとすると、対話相手側でも「福沢諭吉」を検索しその検索結果を見ることができるので、それを資料として話を続けることにも寄与する。これは、PCの電源は投入できるものの操作に不慣れなお年寄り等を相手に、そのPCの機能を遠隔地から解説することや、アプリケーションソフトと組み合わせた通信教育などに応用することも可能になる。
特定動作を、片方の目がカメラに撮像されない範囲まで、頭部を回転させる動作と設定することも有効である。
図12ないし14は、別実施例の特定動作を示す説明図であり、図12は、頭部の右回転によって自分の端末へコマンドを出力し、図13は、左回転によって相手の端末へコマンドを出力し、図14は、上方への回転によって自分及び相手の両端末へコマンドを出力することを示している。
このような大雑把な動きならば、現時点の廉価な装置で十分に認識可能である。 また、モニタは通常ほぼ平面なので、片目でもモニタに映し出された絵や文字を、短時間なら負荷なく認識することが可能である。そのため、発話によるコマンドが正しく認識されているかどうかをリアルタイムで知ることができる。
特定動作を、特定の指を、頭部の特定の部位に当てる動作と設定することも有効である。
図15ないし17は、別実施例の特定動作を示す説明図であり、図15は、右こめかみに指を当てる動作によって自分の端末へコマンドを出力し、図16は、左こめかみに指を当てる動作によって相手の端末へコマンドを出力し、図17は、額に指を当てる動作によって自分及び相手の両端末へコマンドを出力することを示している。
図18ないし20は、別実施例の特定動作を示す説明図であり、図18は、右手の指を鼻に当てる動作によって自分の端末へコマンドを出力し、図19は、左手の指を鼻に当てる動作によって相手の端末へコマンドを出力し、図20は、複数本の指を鼻に当てる動作によって自分及び相手の両端末へコマンドを出力することを示している。
このように、指等の当てる部位や、当てられる部位は、多様に設定可能なので、それに応じて、特定動作の違いに伴うコマンド内容の変化も、多様かつ容易に設定変更可能である。
頭部等に光を発する部材を装着して、特定動作の認識に寄与させることもできる。
図21は、耳近傍位置に発光部材を装着した状態を示す説明図であり、図22は、その状態で頭部を回転させた状況を示す説明図である。
図示の例では、LEDの連設されたスピーカを左耳に装着している。
これによると、LEDの光によって、顔に照明が当たっていない状態でも動作を認識できる。頭部を左回転させると、自分の鼻や右頬でLED光がカメラに届かなくなるので、一定時間以上LED光の入力がなければコマンド入力モードの開始などと設定できる。
図23は、両肩位置に発光部材を装着した状態を示す説明図であり、図24は、その状態で右肩を上昇させた状況を示す説明図である。
図示の例では、両肩位置にLEDの付設されたマイク及びスピーカのセットを装着している。
通常は、2つのLED光はほぼ水平にカメラに映っているとする。図示のように右肩を上げたり、上半身を左に傾けると、右肩部のLED光の方が上昇する。このように複数のLED光の位置関係によって、特定動作の認識を行うことができる。
なお、この肩に掛けるタイプの音声入出力装置を用いると、長時間使用しても従来のヘッドホンように耳部に痛みを生じることがない。電池内蔵型として音声をワイヤレスで送受信するようにすれば、そのまま席を離れることもでき便利である。
また、LEDの発光波長を複数用意し、それをIDとして用いれば、カメラの前に複数人いても各人の顔を認識することなく識別できる。
各人専用の機能の割り当て情報をサーバーに記憶させておけば、所定のネットワーク内のどのPCでも、同じ機能割り当てを使うことができる。
本発明によると、既存の装置を組み合わせて軽負荷で構成できながらも、コマンドを正確に中継し、自然な形態で対話相手と共有もできるので、円滑に対話を進めることができる。
自然に使えるインターフェースであるので、高齢者などPC操作に不慣れな者も容易に習得でき、アプリケーションを擬人化して生活空間に浸透させることも可能である。
また、通信教育等にも応用でき、用途が広く産業上非常に有用である。
VCのシステムの概要を示す説明図 非特許文献1による従来のVCのシステムの要部を示す説明図 本発明のVCのシステムの要部を示す説明図 コマンド音声を認識するためのシステム概要を示すフローチャート 同、別実施例図 同、別実施例図 従来技術のシステム概要を示すフローチャート 同、別例図 ウインクの様態に応じたコマンド転送の様態を示す説明図 同、別状態図 同、別状態図 頭部の回転を用いた別実施例の特定動作を示す説明図 同、別状態図 同、別状態図 指で指示する別実施例の特定動作を示す説明図 同、別状態図 同、別状態図 鼻を指示する別実施例の特定動作を示す説明図 同、別状態図 同、別状態図 耳近傍位置に発光部材を装着した状態を示す説明図 同、別状態図 両肩位置に発光部材を装着した状態を示す説明図 同、別状態図

Claims (18)

  1. 少なくとも、音声及び画像の入出力手段及び認識手段、通信手段、コンピュータを有する端末と、その複数の端末間でデータ授受を介するネットワークとを備え、各端末間で音声及び映像を送受信して遠隔対話を行うシステムにおいて、
    画像入力手段によって撮像された被写体に関して、予め定められた被写体の特定動作が、画像認識手段により認識されたら、
    その特定動作認識をトリガとして、音声認識手段におけるコマンド音声認識手段を起動し、
    音声入力手段によって収音される音声から、コマンド音声認識手段によりコマンドを認識する
    ことを特徴とする遠隔対話方法。
  2. コマンド音声認識手段によりコマンドと認識する音声が、予め定められたキーワードである
    請求項1に記載の遠隔対話方法。
  3. 特定動作が時間継続する動作であり、その開始から終了までの間に収音される音声をコマンドとみなす
    請求項1または2に記載の遠隔対話方法。
  4. コマンドを、端末に備わるソフトウェアへ出力し、そのソフトウェアでコマンド内容を実行する
    請求項1ないし3に記載の遠隔対話方法。
  5. コマンドを、対話相手の端末側へ送信し、その相手端末に備わるソフトウェアでコマンド内容を実行する
    請求項1ないし4に記載の遠隔対話方法。
  6. 特定動作が、被写体本人が意図しない限り発生し難い特殊な様態の動作である
    請求項1ないし5に記載の遠隔対話方法。
  7. 特定動作の違いに応じて、同一音声コマンドに対するコマンド内容を変化させる
    請求項1ないし6に記載の遠隔対話方法。
  8. 特定動作がウインクである
    請求項1ないし7に記載の遠隔対話方法。
  9. 右ウインクが、自分の端末で、後続のコマンドを実行することを指定する特定動作であり、
    左ウインクが、対話相手の端末で、後続のコマンドを実行することを指定する特定動作である
    請求項7または8に記載の遠隔対話方法。
  10. 特定動作が、片方の目が画像入力手段によって撮像されない範囲まで頭部を回転させる動作である
    請求項1ないし7に記載の遠隔対話方法。
  11. 特定動作が、指を頭部の所定部位に当てる動作である
    請求項1ないし7に記載の遠隔対話方法。
  12. 特定動作が、現れていなかった身体の所定部位を見せる動作である
    請求項1ないし7に記載の遠隔対話方法。
  13. 特定動作が、現れていた身体の所定部位を隠す動作である
    請求項1ないし7に記載の遠隔対話方法。
  14. 特定動作が、現れていなかった身体の装着品を見せる動作である
    請求項1ないし7に記載の遠隔対話方法。
  15. 特定動作が、現れていた身体の装着品を隠す動作である
    請求項1ないし7に記載の遠隔対話方法。
  16. 少なくとも、音声及び画像の入出力手段及び認識手段、通信手段、コンピュータを有する端末と、その複数の端末間でデータ授受を介するネットワークとを備え、各端末間で音声及び映像を送受信して遠隔対話を行うシステムにおいて、
    画像入力手段によって撮像された被写体に関して、予め定められた被写体の特定動作が、画像認識手段により認識された時、
    その特定動作認識をトリガとして起動し、音声入力手段によって収音される音声からコマンドを認識するコマンド音声認識手段を備える
    ことを特徴とする遠隔対話装置。
  17. 音声の入出力手段が、頭部に装着して使用するマイク及びスピーカであり、その装着時における耳近傍位置に発光部材が付設された
    請求項12に記載の遠隔対話装置。
  18. 音声の入出力手段が、肩部に装着して使用するマイク及びスピーカであり、その装着時における両肩位置に発光部材が付設された
    請求項12に記載の遠隔対話装置。
JP2005336002A 2005-11-21 2005-11-21 遠隔対話方法及び装置 Expired - Fee Related JP4845183B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005336002A JP4845183B2 (ja) 2005-11-21 2005-11-21 遠隔対話方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005336002A JP4845183B2 (ja) 2005-11-21 2005-11-21 遠隔対話方法及び装置

Publications (2)

Publication Number Publication Date
JP2007142957A true JP2007142957A (ja) 2007-06-07
JP4845183B2 JP4845183B2 (ja) 2011-12-28

Family

ID=38205248

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005336002A Expired - Fee Related JP4845183B2 (ja) 2005-11-21 2005-11-21 遠隔対話方法及び装置

Country Status (1)

Country Link
JP (1) JP4845183B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194898A (ja) * 2011-03-17 2012-10-11 Mizuho Information & Research Institute Inc プレゼンテーション支援システム、プレゼンテーション支援方法及びプレゼンテーション支援プログラム
CN102945672A (zh) * 2012-09-29 2013-02-27 深圳市国华识别科技开发有限公司 一种多媒体设备语音控制系统及方法
CN103188549A (zh) * 2011-12-28 2013-07-03 宏碁股份有限公司 视频播放装置及其操作方法
JP2014191386A (ja) * 2013-03-26 2014-10-06 Seiko Epson Corp 頭部装着型表示装置、および、頭部装着型表示装置の制御方法
JPWO2017104207A1 (ja) * 2015-12-16 2018-11-08 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2021077142A (ja) * 2019-11-11 2021-05-20 株式会社ブイキューブ 情報処理装置、情報処理方法及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728488A (ja) * 1993-06-24 1995-01-31 Canon Inc 情報処理方法及び装置
JPH1173297A (ja) * 1997-08-29 1999-03-16 Hitachi Ltd 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法
JPH11219421A (ja) * 1998-01-30 1999-08-10 Toshiba Corp 画像認識装置及び画像認識装置方法
JP2006276283A (ja) * 2005-03-28 2006-10-12 Matsushita Electric Works Ltd 宅内システム
JP2007121579A (ja) * 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 操作装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728488A (ja) * 1993-06-24 1995-01-31 Canon Inc 情報処理方法及び装置
JPH1173297A (ja) * 1997-08-29 1999-03-16 Hitachi Ltd 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法
JPH11219421A (ja) * 1998-01-30 1999-08-10 Toshiba Corp 画像認識装置及び画像認識装置方法
JP2006276283A (ja) * 2005-03-28 2006-10-12 Matsushita Electric Works Ltd 宅内システム
JP2007121579A (ja) * 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 操作装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194898A (ja) * 2011-03-17 2012-10-11 Mizuho Information & Research Institute Inc プレゼンテーション支援システム、プレゼンテーション支援方法及びプレゼンテーション支援プログラム
CN103188549A (zh) * 2011-12-28 2013-07-03 宏碁股份有限公司 视频播放装置及其操作方法
CN102945672A (zh) * 2012-09-29 2013-02-27 深圳市国华识别科技开发有限公司 一种多媒体设备语音控制系统及方法
US9955210B2 (en) 2012-09-29 2018-04-24 Shenzhen Prtek Co. Ltd. Multimedia device voice control system and method, and computer storage medium
JP2014191386A (ja) * 2013-03-26 2014-10-06 Seiko Epson Corp 頭部装着型表示装置、および、頭部装着型表示装置の制御方法
JPWO2017104207A1 (ja) * 2015-12-16 2018-11-08 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2021077142A (ja) * 2019-11-11 2021-05-20 株式会社ブイキューブ 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP4845183B2 (ja) 2011-12-28

Similar Documents

Publication Publication Date Title
JP7100092B2 (ja) ワードフロー注釈
CN111492328B (zh) 虚拟助手的非口头接合
EP3465680B1 (en) Automatic audio attenuation on immersive display devices
JP2021044001A (ja) 情報処理システム、制御方法、およびプログラム
US20140129207A1 (en) Augmented Reality Language Translation
US20180077095A1 (en) Augmentation of Communications with Emotional Data
US20230045237A1 (en) Wearable apparatus for active substitution
CN110785735A (zh) 用于语音命令情景的装置和方法
JP4845183B2 (ja) 遠隔対話方法及び装置
KR102098734B1 (ko) 대화 상대의 외형을 반영한 수어 영상 제공 방법, 장치 및 단말
US10409324B2 (en) Glass-type terminal and method of controlling the same
US10275021B2 (en) Display apparatus of front-of-the-eye mounted type
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
JPWO2018155026A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2020148920A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
KR102351008B1 (ko) 감정 인식 장치 및 감정 인식 방법
JP2009166184A (ja) ガイドロボット
US11368664B2 (en) Information processing apparatus, information processing method, and program
JPWO2018135304A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
Keskin et al. A multimodal 3D healthcare communication system
JP2018149625A (ja) コミュニケーションロボット、プログラム及びシステム
US20210200500A1 (en) Telepresence device action selection
JP2019086858A (ja) 顧客応対システム及び顧客応対方法
WO2023058393A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN111310530A (zh) 手语与语音转换的方法、装置、存储介质和终端设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110915

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111004

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111007

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141021

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees