JP6410346B2

JP6410346B2 - 遠隔意思疎通装置及びプログラム

Info

Publication number: JP6410346B2
Application number: JP2014173171A
Authority: JP
Inventors: 建鋒徐; 茂之酒澤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2014-08-27
Filing date: 2014-08-27
Publication date: 2018-10-24
Anticipated expiration: 2034-08-27
Also published as: JP2016048855A

Description

本発明は、ネットワークを介して遠隔で行われる意思疎通において遅延の影響を回避することができる遠隔意思疎通装置及びプログラムに関する。

二酸化炭素排出量を低減する環境保護や出張費など経費削減というメリットがあり、テレビ電話で遠隔会議を行うことは仕事の場で増えてきた。但し、市販の大半のテレビ電話システムでは、遠隔地それぞれで撮影した映像を録音した音声と共にそのまま相手側で表示するという構成を取るため、視線が合わせにくい課題と匿名発言できない課題とがある。匿名発言が好ましい場面として例えば、クライアント企業が製品についてグループインタビューを行う時に、パネリストが遠隔で参加できると、より柔軟な対応ができる。更に、クライアント企業も議論に参加するために、匿名参加が望ましい。

上記の二つの課題に関連して、遠隔会議において視線を反映して匿名参加を可能とする従来技術として、特許文献１がある。特許文献１では、出席者を表す３次元コンピュータモデル（アバター）を、現実の世界の出席者の動きに従ってアニメ化する。以下、当該アニメ化による遠隔会議を、アバター遠隔会議と呼ぶ。

アバター遠隔会議では具体的には、各ユーザー・ステーションにおいて、出席者を表すアバターを含む３次元コンピュータモデルの画像が表示される。一対のカメラを使用して、ボディ・マーカーとライトが取り付けられたヘッドホンを着用したユーザの画像データを処理して、ユーザの動きと注視している表示画像中の点とを決定する。この情報はその他のユーザー・ステーションへ伝送され、アバターの頭部の動きがユーザの頭部の換算された動きに対応するようにアニメ化される。

一方、Face-to-faceの、すなわち、面と向かった人間同士による現実のコミュニケーションは、相槌（あいづち）その他の、相手のフィードバックを見ながら進行する。非特許文献１においてその問題が検討されているように、遠隔会議のようにコミュニケーションが遠隔で実施される場合、ネット伝送や計算処理で遅延が発生するので、フィードバックなど反応が遅れる。当該遅延は、『コミュニケーションに違和感がある』、『コミュニケーションが妨害されている』、『相手の話がわかりにくい』、『会話が盛り上がらない』等といったように、コミュニケーションの円滑さを妨げる原因になると言われている。

遅延による遠隔会議の円滑進行の妨げを低減するため、特許文献２では、テレビ電話における相手側で反応信号を検出すると、相手側からは反応信号があるというメッセージだけを送って、前記メッセージを受信すると、ストリーミング画像に割り込んで事前に用意した反応時画像を表示させる。

特開２０００−２４４８８６号公報特開２０１０−１５４３８７号公報特開２０１３−０８９１７０号公報

Karen Ruhleder, Brigitte Jordan, Meaning-Making Across Remote Sites: How Delays in Transmission Affect Interaction, ECSCW'99, pp 411-429, 1999 Thibaut Weise, Sofien Bouaziz, Hao Li, and Mark Pauly. 2011. Realtime performance-based facial animation. ACM Trans. Graph. 30, 4, Article 77 (July 2011), 10 pages.

ここで、特許文献１のようなアバター遠隔会議の遅延を分析すると、遅延は、双方向のネット伝送時間に加えて、頷きなど反応を検出する時間とアバターの表示時間の合計となる。図１に、当該遅延のイメージ図を示す。

図１はすなわち、場所LAの参加者Aが発言開始した瞬間t1から、当該発言開始に対して遠隔地の場所LAにおける参加者Bの反応が場所L1の参加者Aに表示されることで伝わる瞬間t9までの合計の遅延DL7が、要素としての遅延DL1〜DL6の足し合わせとなることを、両者A,Bの時間軸上に表している。具体的には、次の通りである。

まず、参加者Aは時刻t1に発言開始して、時刻t3に至るまで発言SA1を行う。当該発言開始の瞬間t1の参加者Aの状態をネットワーク伝送するためのデータ（場所LBにてアバター表示させるためのデータ）に変換するための遅延として、反応検出遅延DL1が発生し、時刻t2から当該データの送信が開始される。矢印AR2として示すように、当該データは場所LAから場所LBへ送信される際にネット遅延DL2が発生し、時刻t4に場所LBに参加者Aの発言開始瞬間t1のデータが到達する。

次いで、当該到達したデータを場所LBにおいてアバター表示するために表示遅延DL3が発生し、時刻t5で初めて場所LBの参加者Bに対して、場所LAの参加者Aの発言開始の瞬間t1の様子がアバター表示される。従って、参加者Aの発言SA1に対して、参加者Bは時刻t5から時刻t7に至るまでの間、相槌その他の応答RB1を行う。当該応答RB1の開始瞬間t5のデータは場所LAでアバター表示するためのデータに変換するのに、反応検出遅延DL4を伴い、時刻t6に当該データが場所LAへ向けて送信開始される。

さらに、矢印AR5として示すように、当該時刻t6に送信されたデータはネット遅延DL5を伴い、時刻t8に場所LAに到達した後、アバター表示するための表示遅延DL6を伴うことで、時刻t9に初めて、場所LAの参加者Aが時刻t1に発言開始した瞬間に対する参加者Bの応答が、場所LAにおける参加者Aに表示されて伝わることとなる。従って、以上の遅延D1〜D6を合計した遅延D7が、時刻t1〜t9の一連の期間として発生することとなる。

なお、図１では参加者Aの発言SA1は、当該時刻t9においては既に終了しているような長さとして描かれているが、当該長さは実際の発言に応じて任意に変動しうるものである。従って、自身の発言SA1に対する参加者Bからの応答の様子が参加者Aに初めて見えるようになった時刻t9においても発言SA1が継続している場合もある。

以上、特許文献１のようなアバター遠隔会議における遅延を図１のように分析すると、アバター遠隔会議に対して特許文献２の手法を適用しても、遅延低減の効果が少ないという課題が浮上する。すなわち、特許文献２の手法は、実写画像のようなテレビ電話に適用すると、伝送データの大幅削減及び画像のエンコードとデコード時間の省略によって遅延低減の効果があるが、アバター遠隔会議において、当該効果は十分ではない。

当該効果が十分でない理由は、アバター遠隔会議で伝送するデータとして人の関節の動きデータのみになり、画像データより十分小さいためであり、画像のエンコードとデコードも存在しないためである。つまり、アバター遠隔会議に特許文献２の手法を適用した場合を考えると、当該適用による変更点は、場所LBから場所LAへの送信データが参加者Bの関節の動きデータから参加者Bに反応がある旨のデータに置き換わることのみである。従って、その効果は、データ量がわずかに削減されることによって図１のネット遅延DL5を若干短くするだけであり、トータル遅延の短縮に効果が薄い。

またそもそも、アバター遠隔会議に特許文献２の手法を適用したとしても、参加者Aの関節の動きデータを送信するための図１のネット遅延DL2自体は、当該データは画像に比べ小さいとはいえ、回避することができない。

すなわち、特許文献２の手法は、映像という大きなデータを双方向に送受することに代えてデータ量の小さい反応信号を送受し、実際の反応があるまで事前に用意してある反応自画像で表示を代替することで映像の場合と比べて遅延の影響を低減している。しかしながら、図１に示すような互いに遠隔の場所LA,LB間で何らかの信号（すなわち、データ量の小さい反応信号）を交換する必要があるという点では、特許文献２の手法においても、映像を送受する場合と同種類の遅延（すなわち、ネット遅延DL2,DL5）それ自体を回避することはできない。

上記従来技術の課題に鑑み、本発明は、アバター遠隔会議その他といったような遠隔の意思疎通における遅延の影響を回避することができる遠隔意思疎通装置及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は、他ユーザの装置との間で双方向に音声及び動作データを送受することで、他ユーザと自ユーザとの意思疎通を仲介する遠隔意思疎通装置であって、自ユーザより音声及び動作をデータとして取得する解析部と、他ユーザの装置より送信された動作のデータに従って他ユーザを動作表示する提示部と、前記解析部で取得したデータに基づき、自ユーザが発言開始したか否かを判定し、当該発言開始したと判定した場合に、前記提示部における他ユーザの動作表示を所定の予測動作に置き換えるよう制御する予測動作部と、前記所定の予測動作に置き換えられた後に、前記提示部における他ユーザの動作表示を、他ユーザの装置より送信された動作のデータに従う表示に戻すよう制御する反応制御部と、を備えることを特徴とする。

また、本発明は、コンピュータを前記遠隔意思疎通装置として機能させるプログラムであることを特徴とする。

本発明によれば、自ユーザが発言開始したと判断された際に、他ユーザの動作表示を所定の予測動作に切り替えることができる。ここで、自ユーザが発言開始したか否かは、ネットワークを介して情報を送受せずに自ユーザの遠隔意思疎通装置において単独で判断可能な情報であるため、遅延の影響を回避することが可能となる。

特許文献１におけるアバター遠隔会議での遅延を分析したイメージ図である。一実施形態に係る遠隔意思疎通システムの構成例を示す図である。ある参加者が利用する遠隔意思疎通装置において提示される画面の例を示す図である。一実施形態に係る遠隔意思疎通装置の機能ブロック図である。提示部における他ユーザの動作表示に対する、予測動作部及び反応制御部による割り込み処理のフローチャートである。割り込み処理において利用される他ユーザの動作データの例を時間軸上に概念的に示す図である。 2台の遠隔意思疎通装置の間で双方向にやりとりする際のデータ授受を含めて描いた機能ブロック図である。発言内容に応じて複数の予測動作を定義しておく例を表形式で示す図である。ブレンディング処理を説明するための概念図である。

図２は、一実施形態に係る遠隔意思疎通システムの構成例を示す図である。遠隔意思疎通システム10は、遠隔会議等の遠隔での意思疎通を各ユーザA〜Dが互いに行うための複数の遠隔意思疎通装置1A〜1Dを備える。図示するように、各ユーザA〜Dはそれぞれ遠隔地LA〜LDに存在し、自身の遠隔意思疎通装置1A〜1Dを利用することにより、ネットワークNを介して相互に意思疎通を行う。

なお、図２では一例として4人のユーザA〜Dがそれぞれ遠隔意思疎通装置1A〜1Dを利用する例を示しているが、任意数の遠隔意思疎通装置によって遠隔意思疎通システム10を実現することができる。また、1つの遠隔地に存在する1台の遠隔意思疎通装置を、2人以上のユーザで共有して利用するようにしてもよい。

当該遠隔における相互の意思疎通の実現のため、各々の遠隔意思疎通装置1A〜1Dにおいては、自ユーザの音声及び動作の情報を他ユーザの装置へ向けて送信すると共に、他ユーザの装置から他ユーザの音声及び動作の情報を受信することを継続的に実施する。例えば図示するように、ユーザAが利用する遠隔意思疎通装置1Aでは、自ユーザAの音声及び動作の情報を他ユーザB〜Dの遠隔意思疎通装置1B〜1Dへ向けて送信すると共に、当該他ユーザB〜Dの遠隔意思疎通装置1B〜1Dから他ユーザB〜Dのそれぞれの音声及び動作の情報を受け取る。

図３は、図２のユーザAの遠隔意思疎通装置1Aにおいて他ユーザB〜Dとの間で遠隔の意思疎通を実現するために、遠隔意思疎通装置1AがユーザAに対して表示する画面の例である。図示するように、画面D[A]には、遠隔で意思疎通する各ユーザA〜DがそれぞれアバターAB[A]〜AB[D]として表示される。当該画面D[A]において自ユーザAのアバターAB[A]は、遠隔意思疎通装置1Aが取得した自ユーザAの動きに従って動き、他ユーザB〜DのアバターAB[B]〜AB[D]は、それぞれの遠隔意思疎通装置1B〜1Dにて取得され送信された他ユーザB〜Dの動きに従って動く。

こうして、ユーザAにおいては自身のアバターAB[A]と遠隔ユーザB〜DのアバターAB[B]〜AB[D]が画面D[A]において一堂に会し、各ユーザの実際の動きに従って動く様子を見ながら、遠隔での意思疎通を行うことができる。その他のユーザB〜Dにおいても画面D[A]と同様の画面が提供され、遠隔での意思疎通を行うことができる。またこの際、図２で説明したように、画面と共に音声（各ユーザの発言）も各ユーザの装置において再生されることで、遠隔での意思疎通を行うことができる。

ここで、図１を参照して説明したように、図２のような構成の遠隔意思疎通システムにおけるそれぞれの遠隔意思疎通装置を仮に従来技術で構成したとすると、遠隔のユーザから送信される動作及び音声に不可避な遅延が発生してしまうという課題が存在する。例えば、図３のような画面D[A]において自ユーザAと連動するアバターAB[A]が発言開始しているのに、他ユーザB〜DのアバターAB[B]〜AB[D]は当該発言に対して何らの反応を示していないという状況が生まれ、画面D[A]を見ている自ユーザAが違和感を覚える等の意思疎通上の不都合が生ずる。本発明によれば、当該不都合を回避することができる。以下、その詳細を説明する。

図４は、一実施形態に係る遠隔意思疎通装置1の機能ブロック図である。図２にて説明したように、遠隔意思疎通装置1は当該装置を利用する1人あるいは2人以上のユーザ毎に存在するが、図４ではそのうちの任意の1台として「遠隔意思疎通装置1」を説明する。遠隔意思疎通装置1は、解析部2、予測動作部3、反応制御部4及び提示部5を備える。当該各部の概要は以下の通りである。

解析部2は、マイクやカメラ、センサ等を含んで構成されることで、自ユーザ（遠隔意思疎通装置1の利用ユーザ）の音声及び体の動作等をデータとして取得し、当該データを予測動作部3と、提示部5と、他ユーザの装置（他ユーザの遠隔意思疎通装置）と、にそれぞれ渡す。なお、他ユーザの装置へ渡す際は、図２で説明したようにネットワークNを介してデータ送信が行われる。

提示部5は、解析部2から送られる自ユーザの音声及び動作等のデータと、1名以上の他ユーザの遠隔意思疎通装置から送られる他ユーザの音声及び動作等のデータと、を受け取ることで、自ユーザが他ユーザとの間で遠隔意思疎通を行うための情報を提示する。

遠隔の意思疎通として遠隔会議を実現する場合であれば、提示部5は図３で説明したようなアバター遠隔会議を行うための画面及び音声等を自ユーザに提示することができる。この場合、画面内の各アバターを対応するユーザ（自ユーザ又は他ユーザ）の動作データに従って動作させるように、提示部5は制御処理を行う。また、当該画面表示と連動させて、各ユーザの発言している音声を再生する処理を提示部5は実施する。なお、以下では、当該アバター遠隔会議を実現する場合を例として本発明の説明を行うこととする。

予測動作部3及び反応制御部4では、上記の提示部5における他ユーザの動作表示すなわちアバター動作表示に対して、自ユーザの立場から遅延の影響があると判定される場合に、自ユーザの立場で遅延の影響が感じられないような所定の動作表示を割り込みで実施させるよう、提示部5における他ユーザの動作表示処理を制御する。当該割り込みの処理が実施されていない間は、提示部5では上記のように、各時点で得られている自ユーザ及び他ユーザの動作データに従って対応するアバターを動作表示する。

当該割り込みの処理の概要は次の通りである。まず、予測動作部3は、提示部5における他ユーザの動作表示に、自ユーザの立場で遅延の影響があるか否かを判定する。具体的には、解析部2より送られる自ユーザのデータを調べることで、自ユーザが発言を開始すると判定された場合に、以降の所定期間を自ユーザの立場で遅延の影響があるものとして判定する。

当該判定は具体的には、図１を参照して説明したような意思疎通上の不都合な状況の発生を事前検出するというものである。すなわち、自ユーザが発言開始しているのにもかかわらず、遅延を伴うデータを仮にそのまま用いて提示部5で他ユーザの動作を表示したとすると、最初の所定期間は自ユーザの発言に対して他ユーザが何も反応を示していない画面が表示される、という不都合な状況である。なお、自ユーザが発言を開始したか否かの判定処理の詳細は後述する。

予測動作部3はさらに、上記のように自ユーザが発言開始した旨を判定した場合、他ユーザの遠隔意思疎通装置から送られてくる動作をそのまま表示させることに代えて、所定の予測動作を一時的に表示させるように、提示部5における他ユーザの表示処理を制御する。こうして、自ユーザの立場では、自身が発言開始するとただちに、提示部5に表示される他ユーザが所定の予測動作を行うことで、自身の発言に対する応答の様子を見て取ることができるので、不自然な感じを受けることなく発言を継続することができる。

ここで特に、当該所定の予測動作の表示は、実際の他ユーザからの応答の動作を待つことなく、また、他ユーザの遠隔意思疎通装置と自ユーザの遠隔意思疎通装置1との間で前掲の特許文献２における反応信号の送受といったような、特定の情報の送受を行うことなく、ただちに実施することができるので、本発明ではネットワーク遅延の影響を回避することができる。すなわち、自ユーザが発言を開始したか否かという情報は、自ユーザの側の遠隔意思疎通装置1内で単独に判断可能な情報であり、当該判断にはネットワークを介して他ユーザの遠隔意思疎通装置との間でやりとりを行うことは不要な情報である。本発明ではこのような情報をトリガとして、予測動作の表示を実施するため、ネットワーク遅延の影響を回避することができる。

次いで、反応制御部4は、自ユーザが発言開始したことに対する他ユーザからの実際の応答の動作が（ネットワーク遅延等を伴って）受信されるようになった場合に、予測動作部3によって提示部5において所定の予測動作に従って動くように制御されている他ユーザの動作を、受信されるようになった実際の他ユーザの動作へと切り替えるように、提示部5を制御する。当該切り替えられた後は、他ユーザの実際の動作に従って提示部5で他ユーザの動作が表示されるようになる。また、当該切り替える際は、予測動作と実際の動作とが滑らかに接続する処理が行われるが、その詳細は後述する。

図５は、提示部5における他ユーザの動作表示に対する、予測動作部3及び反応制御部4による以上説明した割り込み処理を、フローチャートとして示す図である。また、図６は、当該割り込み処理において利用される他ユーザの動作データの例を時間軸上に概念的に示す図である。

以下、図６を適宜参照しながら、図５の各ステップを説明する。なお、図６では、説明のため、自ユーザをユーザAとし、その動作表示に関して割り込み処理が行われる他ユーザをユーザBとする。図６にて(1)が自ユーザAにおいて表示される他ユーザBのデータの時系列D1,D2,P1,D7,D8であり、(2)が当該表示する元データとなる他ユーザBの実動作データの時系列D1〜D8である。

図６において、割り込み処理で表示されるデータは(1)のP1であるが、当該データP1は割り込み処理を簡潔に説明するための例であり、割り込むタイミング（時刻T5,T9）でただちに動作表示を切り替えているため、自ユーザAにおいて他ユーザBの動作が自然に連続して見えるようにするための処理が省略されている例である。当該自然に見えるようにする処理を省略せずに施すことで、データP1を一部分修正したものが、(3)のデータP10である。すなわち、動作が自然に見えるという観点からは、データP10が実際に割り込み処理によって表示するのに好ましいものである。

図５のフローにおいては、時刻をカウンタ変数tにより時刻tとして参照する。当該フローの全体構造は次の通りである。すなわち、各時刻tにおいて置かれた状況により場合分けがなされることで、各時刻tではステップS11、S20又はS30のいずれかにおいて、提示部5が当該時刻tにおいて表示すべき他ユーザの動作に応じたフレーム画像を表示するということを、時刻tを次の最新の時点へと更新しながら継続するという全体構造である。

当該フローはステップS1で開始されると、まずステップS10において、予測動作部3が当該時刻tにおける解析部2の自ユーザのデータを解析して、自ユーザが発言を開始したか否かを判定する。開始していると判定されればステップS20へ進み、開始していないと判定されればステップS11へ進む。当該ステップS10における判定の詳細は後述する。

ステップS11では、提示部5が現在時刻tにおいて受信され表示可能となっている他ユーザの実データにより、他ユーザを表示して、ステップS12へと進む。ステップS12では時刻tを次の最新時点へと更新してから、ステップS10に戻る。

こうして、ステップS10,S11,S12のループ内に留まって各時刻tの他ユーザを連続的に表示している間は、他ユーザから送信される実際の動作がそのまま提示部5において表示され続けることとなる。アバター遠隔会議であれば、実際の動作がアバターを介して表示され続ける。

図６の例では、(1)における時刻T3〜T5の一連の区間におけるデータD1,D2で他ユーザの動作を表示している状態が、図５におけるステップS10,S11,S12のループ内に留まる状態に対応する。この場合、(2)に示すように、他ユーザが当該データD1,D2の動きを行ったのは時刻T3〜T5間より前の時刻T1〜T3間であり、ネットワーク遅延等の遅延を伴って提示部5に他ユーザの動作が表示されているが、自ユーザは発言開始しておらず、他ユーザからの即座の応答を見て取る必要はない状態にあるので、特に意思疎通上の問題は生じない。

図５に戻り、ステップS20では、提示部5は予測動作部3からの制御を受けて、予測動作に移行しながら、又は、既に予測動作に移行済みの状態にあれば当該移行後の予測動作に即した形で、当該時刻tにおける他ユーザのフレーム画像（アバター遠隔会議であればアバター画像となる。）を表示して、ステップS21へ進む。当該ステップS20での表示処理の詳細は後述する。

ステップS21では、当該時刻tにおいて反応制御部4が他ユーザからの応答の受信があったか否かを判定し、応答受信があった場合はステップS30へ進み、なかった場合にはステップS22へ進む。ステップS22では時刻tを次の最新時点へと更新してから、ステップS20に戻る。

なお、ステップS21において反応制御部4が他ユーザからの応答受信の有無を判定するためには、次のようにすればよい。すなわち、直近のステップS10において予測動作部3が自ユーザの発言開始を判定した場合、当該時刻t100において解析部2から他ユーザの遠隔意思疎通装置へと向けて送信する自ユーザの動作データ等に、自ユーザにおいて発言開始の判定がされた旨のフラグ情報を追加しておく。そして、他ユーザの遠隔意思疎通装置においては、遅延ΔT1を伴って時刻t100+ΔT1において表示することとなる自ユーザ（他ユーザにとっての他ユーザ）の動作データに当該フラグ情報が追加されている場合に、当該時刻t100+ΔT1における他ユーザ自身の動作データに、返信用のフラグ情報として、自ユーザの発言開始に対する応答が他ユーザにおいて開始された旨のフラグ情報を追加して、自ユーザの遠隔意思疎通装置1に返信する。さらに遅延ΔT2を伴って、当該応答が開始された旨のフラグ情報が追加された他ユーザの動作データを時刻t100+ΔT1+ΔT2において受け取った自ユーザの反応制御部4は、当該時刻t100+ΔT1+ΔT2においてステップS21における上記の肯定の判断を下すことが可能となる。

以上のフラグ情報の送受は、図６において矢印AR10及びAR11として例示されている。自ユーザAは時刻T5においてステップS10の肯定判断すなわち発言開始の旨の判定を下し、他ユーザBに向けて送信する当該時刻T5における自身の動作データに発言開始フラグを追加する。矢印AR10として示すように、他ユーザBにおいては当該発言開始フラグ付与された自ユーザAの動作を受信後、実際に時刻T7において当該フラグ付与された自ユーザAの動作データを表示する。従って、当該時刻T7において送信する他ユーザB自身の動作データD7に応答開始した旨のフラグを追加して、送信する。矢印AR11に示すように、時刻T9において当該応答開始された旨のフラグ追加された他ユーザBの動作データD7を表示する自ユーザAは、当該時刻T9においてステップS21における肯定の判断を下すことができる。

図５に戻り、ステップS30では、提示部5は反応制御部4からの制御を受けて、直近のステップS20,S21,S22のループ内で実現されていた予測動作による表示から、他ユーザの遠隔意思疎通装置より逐次的に送信されている他ユーザの実際の動作データに従う形での表示へと徐々に戻る形で、当該時刻tにおける他ユーザのフレーム画像を表示して、ステップS31へ進む。当該ステップS30での表示処理の詳細は後述する。

ステップS31では、直近のステップS30において徐々に他ユーザの実際の動作に戻って表示する処理が完全に完了しているか否かを反応制御部4が判断し、完了していればステップS10に戻り、完了していなければステップS32へ進む。ステップS32では時刻tを次の最新時点へと更新してから、ステップS30に戻る。

以上、図５の各ステップを説明したが、ステップS20,S21,S22のループ内又はステップS30,S31,S32内のループ内に留まっている間の提示部5による他ユーザの動作の表示処理が、割り込み処理によって所定の予測動作に置き換えられている状態に（概ね）対応している。ここで、提示部5は前者のステップS20,S21,S22のループ内にある際は予測動作部3による制御を受けており、後者のS30,S31,S32内のループ内にある際は反応制御部4による制御を受けている。

特に、他ユーザの動作表示を滑らかに自然に実現する観点からは好ましくない実施形態であるが、ステップS10からステップS20に至った時点でただちに実際の他ユーザの動きデータによる表示から予測動作による表示に切り替え、同様にして逆に、ステップS21からステップS30に至った時点でただちに予測動作による表示から実際の他ユーザの動きデータによる表示に切り替えるようにする場合、図６の(1)におけるデータP1が、当該割り込み処理によって表示する他ユーザの動作データ（予測動作のデータ）となる。

しかしながら、当該瞬間的に表示データを切り替える実施形態では動作表示が不連続となる可能性が高いので、滑らかに切り替わるようにした実施形態における表示データの例が、図６の(3)におけるデータP10である。

データP10の場合、データP1におけるように時刻T5（図５のステップS10で肯定判断を得た時刻）でただちに切り替えるのではなく、時刻T5の後に滑らかに切り替え可能な時刻T51を検出したうえで、当該時刻T51より予測動作を開始させるようにしている。同様に、データP1におけるように時刻T9（図５のステップS21で肯定判断を得た時刻）でただちに切り替えるのではなく、その後の時刻T91までの間は予測動作と実際の他ユーザの動作D7とのハイブリッド状態の動作を設定するようにして、時刻T91において完全に動作D7に戻るようにしている。当該データP10の構成の詳細は後述する。

図７は、2ユーザA,B間でそれぞれの遠隔意思疎通装置が双方向にやりとりをする際のデータ授受を含めて描いた遠隔意思疎通装置1A,1Bの機能ブロック図である。各装置1A,1Bの構成は図７に示すように、図４で示したものと共通である。ただし、ユーザA,Bの装置1A,1Bの区別を設けるため、機能部の参照番号の最後にA,Bを付与してある。すなわち、自ユーザAの音声及び動作データを取得した解析部2Aは、当該データを自身の提示部5A及び予測動作部3Aに渡すと共に、相手側の他ユーザBの予測動作部3B及び反応制御部4Bへも渡す。他ユーザBの解析部2Bも図示するようにこれと対称なデータ授受を行う。

例えば、図６の矢印AR10,AR11として説明したフラグ情報は、解析部2Aの動作データ等に追加されたうえで遠隔意思疎通装置1Bの該当機能部へ、また解析部2Bの動作データ等に追加されたうえで遠隔意思疎通装置1Aの該当機能部へ、それぞれ送信されることとなる。

また、本発明における遠隔会議等の遠隔意思疎通は、自ユーザに対する相手となる他ユーザが1名以上であっても実現可能であるが、この場合、複数の他ユーザのそれぞれの遠隔意思疎通装置との間で、図７に示すような双方向のデータ授受が行われることとなる。こうして、例えば合計4人のユーザがそれぞれ1台の遠隔意思疎通装置を利用して遠隔会議等を行う場合であれば、各ユーザの遠隔意思疎通装置1の提示部5において図３のような画面を表示することができる。

以上、遠隔意思疎通装置1の全体的な動作について説明した。以下では、当該全体的な動作を実現している要素技術の詳細に関して、図４の各部を説明する。特に、図３のような画面に表示するための、動作データの詳細について説明する。

＜解析部2について＞
解析部2はデバイスでユーザの音声とモーションを求める。複数ユーザが存在する場合は、ユーザ毎に当該データを求める。利用できるデバイスはカメラとマイク、またはKinect（登録商標）、またはGoogle Glass（登録商標）などが挙げられる。

例えばKinectを利用する実施形態では、頭の姿勢、表情、上半身のモーション、音声の有無と対象者が発言しているかどうかを推定する。それと同時に、Kinectで映像、音声、深度データを収録する。Microsoft（登録商標）が提供しているSDK（ソフトウェア開発キット）でKinectのデータから頭のPitch, yaw, roll（ピッチ、ヨー、ロール）という姿勢と顔のパーツAU（AU0〜AU5）（アクションユニット）を追跡する。更に、表情は顔のパーツAUで判定する。例えば、AU4 （Lip Corner Depressor）を利用すると、0=neutral、-1=pos、+1=negと三種類に判定する。なお、以上の頭の姿勢及び顔のパーツAUの追跡は以下のURLに開示されている。
[URL] http://msdn.microsoft.com/en-us/library/jj130970.aspx

また、Microsoftが提供しているSDKでKinectのデータから人のモーションを取得する。会議の場合は下半身のモーションを取りにくいが、重要ではないので、Seatedのモードで上半身のモーションのみを取得すればよい。当該モーション取得の詳細は以下のURLに開示されている。
[URL] http://msdn.microsoft.com/en-us/library/hh973077.aspx

また、Kinectの音声データで対象者の発言有無を判定する。まず、音量がしきい値を超えると、発言有りと判定し、逆にしきい値以下の場合、発言無しと判定する。ここで、1台の遠隔意思疎通装置1を複数のユーザで利用している場合は、発言有りの場合にさらに、声紋の照合に基づく周知の話者照合技術を利用し、いずれのユーザの発言かどうかを判定する。ここで、各ユーザの声紋データ等は予め登録しておく。

また、当該いずれのユーザの発言であるかを特定することについての別実施例として、ユーザごとにマイクを持っておくようにして、その音量の相対差から行う方法も可能である。すなわち、各時刻において複数のマイクの録音を解析して、最大音量であるマイクを利用しているユーザがその時点における発言者であると判定してもよい。

＜提示部5について＞
提示部5では、以上の解析部2からのデータを受け取り、自ユーザ及び他ユーザのアバターをそれぞれアニメーション動作させる。ここで、他ユーザのアバターを動作させる際の制御に関しては、図５や図６で説明したように所定条件が満たされた場合に、本発明特有の予測動作部3及び反応制御部4による制御に従うこととなる。しかし、当該制御に従う場合と従わない場合のいずれにおいても、アバターをアニメーション動作させる技術自体には、周知技術を利用することができる。

例えば、Kinectを用いてリアルタイムでアバターの表情及び動作をアニメーション動作させることができる。Kinectを用いたリアルタイムでアバターの表情をアニメーション動作させる技術は例えば、前掲の非特許文献２のような手法が知られている。また、Kinectを用いたリアルタイムでアバターの上半身をアニメ化させるSDKはMicrosoftが提供しており、以下のURL等に開示されている。
[URL] http://msdn.microsoft.com/en-us/library/hh973077.aspx

なお、自ユーザの提示部5でアニメーション動作させる他ユーザのアバターに関して、その「リアルタイム」のデータにどのようなものを用いるかを制御するのが、予測動作部3及び反応制御部4である。自ユーザの提示部5における自ユーザのアバターのアニメーション動作は、常に自ユーザ立場における「リアルタイム」のデータを利用することとなる。

＜予測動作部3について＞
予測動作部3は、図５や図６で説明したように、自ユーザが発言開始したと判定された場合に、提示部5で表示する他ユーザのアバターを、自ユーザの立場で不自然に見えないように、所定の予測動作に従うアニメーション動作へと移行させる。

当該発言開始の判定に関しては、上記の解析部2における閾値判断による発言有無に従って判定すればよい。例えば、発言が無いと判定されることが所定期間以上継続した後、発言有りの判定が得られた時点で、または発言有の判定が所定期間以上継続した時点で、発言開始の旨を判定すればよい。

当該所定の予測動作のデータに関しては、解析部2で取得されるデータと同種類のデータを、発言開始した自ユーザの立場で不自然に見えないような所定動作より予め抽出しておけばよい。予測動作部3では当該予め抽出されているデータを用いて、提示部5での他ユーザのアニメーション動作を制御する。

所定の予測動作は具体的には、次のようなものを採用することができる。例えば、発言開始後において、発言や意図的な凝視をしていない時でも自然に見えるように、表示される他ユーザのアバターを自動的に頷かせたり、考える姿勢をさせるような予測動作を採用してよい。

ただし、頷きや考える姿勢について具体的なモーションデータはその人の個性があるため、他ユーザごとに事前に個性があるモーションを取得しておくことが好ましい。例えば、過去の会議に他ユーザが参加していれば、その際に取得したモーションデータにおいて手動で頷きや考える姿勢を切り出せばよい。また、そうした会議等のデータがなければ、参加者に指示し、頷きや考える姿勢のデータを収録すればよい。

また、予測動作部3において発言開始判定後に、提示部5での他ユーザのアバター動作を実データに従うものから予測動作のデータに従うものに切り替えるタイミングは、次のように決定すればよい。

一実施形態では、予測動作のデータの開始フレームと最も距離が小さいフレームを、当該時点において受信済みだが提示部5における表示処理待ちとなっている他ユーザの動作データ内（いわゆるバッファーのデータ内）から探索し、当該探索された時点から、予測動作のデータに切り替えるようにしてよい。

例えば、図６の(3)の例であれば、発言開始時点T5でバッファーのデータがD3であったとすると、当該データD3内のフレームで予測動作の開示フレームと最も距離の小さいフレームが時刻T51のものであると探索されることで、時刻T51より予測動作による表示P10を開始する。

別の一実施形態では、予測動作部3において発言開始判定した時点でただちに、予測動作による表示に切り替えるようにしてよい。ただし、当該切り替えられる予測動作の再生開始位置を、当該判定した時点で表示対象となっている他ユーザの姿勢に最も距離が近いものとして、決定する。この場合、図６の例であれば(1)のように、判定時刻T5でただちに予測動作による表示P1が開示される。

なお、以上の各実施形態では、予測動作データ内のフレームにおける姿勢と、他ユーザの実データにおけるフレームの姿勢と、の距離を計算している。当該距離の計算については、後述する反応制御部4の説明における式(1)と同様にして計算することが可能である。

なお、予測動作は他ユーザごとに1種類のみ用意しておいてもよいし、発言開始した自ユーザの発言内容に応じた適切な予測動作を2種類以上用意しておいてもよい。例えば、図８に表形式で示すように、2種類の予測動作「考える」及び「頷く」を用意しておき、発言開始した自ユーザの発言内容が質問しているものである場合は「考える」予測動作を利用し、質問以外のものである場合は「頷く」予測動作を利用するようにしてもよい。

ここで、図８における質問しているか否か等の発言内容の判定に関しては、解析部2で取得した自ユーザの発言音声に対し、予測動作部3が周知の発言内容解析手法（音声解析及びテキスト解析）を適用することで判定すればよい。

＜反応制御部4について＞
反応制御部4は、実際の聞き手（他ユーザ）の応答信号が得られたとき、前記予測動作と、実際の応答動作の間を滑らかにつなげるよう、提示部5での他ユーザの動作表示を制御する。なお、反応信号については、図６で説明した矢印AR11における応答のあった旨のフラグ情報として取得することができる。

当該滑らかにつなげる処理に関して、予測動作部3において図８で説明したように、発言内容に応じて複数の予測動作が設定されている場合に関してまず説明する。

まず、反応信号を受信した時、複数の中から決定された予測動作と実際の応答動作が異なる場合（ケース１：予測動作部3の結果が間違った場合）と同種の場合（ケース２：予測動作部3の結果が当たった場合）という二つのケースを分ける。

具体的に、予測動作部3による制御で提示部5にて再生された予測動作において現時点から一定時間のモーション（以下モーションデータM１）と他ユーザの解析部から受信した他ユーザの実際の応答動作（以下モーションデータM２）において各フレームの距離を以下の式(1)で算出し、最も小さい距離を求める。なお、モーションデータM2は、応答信号を得ている時点から所定長のものを利用すればよい。

ここで、モーションデータM１のあるフレームＦ^ｉ _ＢとモーションデータM2のあるフレームＦ^ｊ _Ｂとの距離ｄ（Ｆ^ｉ _Ｂ，Ｆ^ｊ _Ｂ）は以下の式（１）で算出することができる。

但し、ｑ_ｉ，ｋはフレームＦ^ｉ _Ｂのｋ番目のジョイントの四元数（quaternion）であり、前掲の特許文献３に開示されるように姿勢を表すものである。ｗ_ｋはｋ番目のジョイントに係る重みである。重みｗ_ｋは予め設定される。

上記の式(1)の全(i, j)の組み合わせの中における最小距離が一定値以上になると、ケース１に判定する。ケース１の場合は、モーションデータM１がしばらく予測動きを続けて、ニュートラルなポーズに到達した時点で、モーションデータM2をニュートラルなポーズから再生するようにすればよい。

なお、ニュートラルなポーズについても、上記式(1)と同様に、ジョイントの四元数として所定値で定義しておくことで、モーションデータM1,M2内からそれぞれ、ニュートラルなポーズと判定可能なデータを式(1)と同様に最小距離のものとして決定することができる。

また、上記の式(1)の全(i, j)の組み合わせの中における最小距離が一定値未満の場合はケース２に判定する。ケース２では、上記式(1)における最も距離が小さいフレームペア(i, j)を最適な分岐点（繋がりポイント）として選ぶ。そして、当該最適な分岐点を中心に一定時間のフレームをモーションブレンディング（以下、ブレンディングとする）すればよい。なお、ブレンディングは、前掲の特許文献３等に開示された周知手法であり、異なる動作同士を滑らかに繋げる手法である。

図９は、ブレンディング処理を説明するための概念図である。ブレンディング処理では、フレームｉを有するモーションデータM１とフレームｊを有するモーションデータM２に対して、動きのつながりが不自然にならないように、両者のモーションデータの接続部分を混合した補間データ（ブレンディングデータ）MB１＿２を生成する。

一実施形態では、一定時間分のフレームを使用しクォータニオンによる球面線形補間を利用して連結部分を補間することができる。具体的には、図９に示すように、モーションデータM１とモーションデータM２を接続する接続区間（区間長ｍ、但し、ｍは所定値）のブレンディングデータMB１＿２を、モーションデータM１のフレームｉを中心に周りの区間長ｍのデータM１＿ｍとモーションデータM２のノードｊを中心に区間長ｍのデータM２＿ｍを用いて生成する。（当該データM１＿ｍ及びM２＿ｍは図９には不図示である。）

このとき、接続区間の区間長ｍに対する接続区間の先頭からの距離ｕの比（ｕ／ｍ）に応じて、データM１＿ｍのうち距離ｕに対応するフレームｉとデータM２＿ｍのうち距離ｕに対応するフレームｊを混合する。具体的には、以下の式(2)および式(3)により、ブレンディングデータMB１＿２を構成する各フレームを生成する。なお、式(2)は、ある一つの骨についての式となっている。

但し、ｍはブレンディング動きデータMB１＿２を構成するフレーム（ブレンディングフレーム）の総数（所定値）、ｕはブレンディングフレームの先頭からの順番（１≦ｕ≦ｍ）、ｑ（ｋ，ｕ）はｕ番目のブレンディングフレームにおける第ｋ骨の四元数、ｑ（ｋ，ｉ）はフレームｉにおける第ｋ骨の四元数、ｑ（ｊ）はフレームｊにおける第k骨の四元数、である。但し、ルートにはブレンディングを行わない。なお、式(3)はslerp（spherical linear interpolation；球面線形補間）の算出式である。

ブレンディングデータMB１＿２は、モーションデータM１とモーションデータM２の接続部分のデータとする。こうして、最終的に再生されるデータは、図９におけるM1_[前方]、MB1_2及びM2_[後方]となる。

以下、本発明における補足事項を説明する。

（１）他ユーザから送られる音声データについては、自ユーザの提示部5で再生する際に、他ユーザから送られる同時刻の動作データの表示と同時に再生すればよい。ここで、予測動作部3及び反応制御部4が他ユーザの動作表示を制御している場合であっても、当該制御とは独立に常に当該時点で受信されている音声データを再生するようにしてもよいし、動作表示で所定の予測動作を割り込ませるのと同様に、所定の予測音声を再生するようにしてもよい。

（２）本発明はアバター遠隔会議を実現する場合を例として説明したが、自ユーザの発言に対して他ユーザの応答動作を表示する際の遅延による不自然さを解消することが必要となるような、任意の遠隔意思疎通において本発明は適用可能である。すなわち、業務その他における会議に限らず、ネットワークを介した遠隔の教育における教師・生徒間の意思疎通や、遠隔に存在する参加者同士でゲーム等を実行する場合等にも、本発明は適用可能である。

（３）また同様に、アニメーション表示に基づくアバター表示に限らず、ユーザを実写で表示する場合にも本発明は適用可能である。この場合、予測動作部3及び反応制御部4が提示部5の表示を割り込み制御する場合のみに、アバター表示で利用する際の動作情報を利用することで、他ユーザの「実写アバター」を表示し、その他の場合には他ユーザの実写映像を表示するようにすればよい。ただし、割り込み表示の切り替え処理の際には、実写映像においてもアバターとしての動作情報を紐付けるようにすることで、前述の式(1)を利用する各種の切り替え処理を実現すればよい。

こうして例えば生放送における遠隔地との中継の際に、遠隔地に存在する相手側を画面表示する際に、当該「実写アバター」を表示することで、相手側に質問を発した際の不自然さを解消するようにしてもよい。

なお、実写表示を実現する際は、相手側からは画像情報が送信されてくることとなるが、当該画像情報を受信することで、相手の動作データも受信していることとなる。また、割り込み表示を行う際は、画像情報に紐付ける形で、アバターをアニメーション動作させるための動作データを利用する必要がある。従って、解析部2においては当該紐付処理を行ったうえで、他ユーザの装置へと自身の動作データを送信することとなる。

（４）アバター遠隔会議の例では、提示部5においてリアルタイムで常に自ユーザのアバターを動作表示させるものとしたが、本発明を適用するその他の用途等に応じて、自ユーザを画面に表示することは省略してもよい。例えば上記生放送における遠隔地の相手の画面表示では、自ユーザは表示しなくともよい。

（５）遠隔意思疎通装置1で実現する「遠隔」の意思疎通は、その物理的な距離の大小を問わない。装置間でネットワークを介して双方向に音声及び動作データが授受される任意の場合に本発明の遠隔意思疎通装置1が利用可能である。例えば同一建物内の隣部屋同士の間でLANを介して意思疎通するような、物理的な距離が十分に小さいような場合にも、本発明の遠隔意思疎通装置1が利用可能であり、ユーザ同士の意思疎通を仲介する。

（６）予測動作部3で利用する予測動作のデータは、所定の単位動作を繰り返し再生可能なようなデータとして用意しておくことが好ましい。例えば「頷く」動作であれば、1回又は複数回の頷き動作を単位動作として、繰り返し滑らかに再生可能なデータとして用意しておくことが好ましい。

また同様に、自ユーザの発言が継続することが想定される所定の最大長に渡って、予測動作データを用意しておいてもよい。この場合、予測動作データ内に周期的にニュートラルと判定されるポーズが現れるようにしておくことが好ましい。

（７）本発明は、コンピュータを遠隔意思疎通装置1として機能させるプログラムとしても提供可能である。当該コンピュータは、CPU(中央演算装置)、メモリ及び各種I/Fといった周知のハードウェアで構成することができ、当該プログラムを読み込んで実行するCPUが遠隔意思疎通装置1の各部として機能することとなる。

1…遠隔意思疎通装置、2…解析部、3…予測動作部、4…反応制御部、5…提示部

Claims

他ユーザの装置との間で双方向に音声及び動作データを送受することで、他ユーザと自ユーザとの意思疎通を仲介する遠隔意思疎通装置であって、
自ユーザより音声及び動作をデータとして取得する解析部と、
他ユーザの装置より送信された動作のデータに従って他ユーザを動作表示する提示部と、
前記解析部で取得したデータに基づき、自ユーザが発言開始したか否かを判定し、当該発言開始したと判定した場合に、前記提示部における他ユーザの動作表示を所定の予測動作に置き換えるよう制御する予測動作部と、
前記所定の予測動作に置き換えられた後に、前記提示部における他ユーザの動作表示を、他ユーザの装置より送信された動作のデータに従う表示に戻すよう制御する反応制御部と、を備え、
前記予測動作部は、前記判定した場合に、当該判定した時点以降において前記提示部が表示している他ユーザの姿勢に最も近いと判定される姿勢にある状態から、前記所定の予測動作を再生開始させるようにすることで、前記提示部における他ユーザの動作表示を所定の予測動作に置き換えるよう制御することを特徴とする遠隔意思疎通装置。
他ユーザの装置との間で双方向に音声及び動作データを送受することで、他ユーザと自ユーザとの意思疎通を仲介する遠隔意思疎通装置であって、
自ユーザより音声及び動作をデータとして取得する解析部と、
他ユーザの装置より送信された動作のデータに従って他ユーザを動作表示する提示部と、
前記解析部で取得したデータに基づき、自ユーザが発言開始したか否かを判定し、当該発言開始したと判定した場合に、前記提示部における他ユーザの動作表示を所定の予測動作に置き換えるよう制御する予測動作部と、
前記所定の予測動作に置き換えられた後に、前記提示部における他ユーザの動作表示を、他ユーザの装置より送信された動作のデータに従う表示に戻すよう制御する反応制御部と、を備え、
前記反応制御部は、他ユーザの装置より送信された動作のデータであって、前記自ユーザが発言開始したことに対する他ユーザの応答がある旨を表す応答情報が紐付けられているデータを受信した時点以降に、前記提示部における他ユーザの動作表示を、他ユーザの装置より送信された動作のデータに従う表示に戻し、
前記反応制御部は、前記応答情報を受信した時点以降に前記予測動作部の制御により動作表示されることとなる一定期間の予測動作のデータ内の各フレームと、当該時点以降の一定期間に他ユーザの装置より受信した動作のデータ内の各フレームと、を比較することで、姿勢が最も近いフレーム同士を特定し、当該特定されたフレームを、前記戻すよう制御する際の繋がりポイントとすることを特徴とする遠隔意思疎通装置。
前記反応制御部は、前記繋がりポイントを中心として、前記一定期間の予測動作のデータと前記時点以降の一定期間に他ユーザの装置より受信した動作のデータとをモーションブレンディングすることを特徴とする請求項２に記載の遠隔意思疎通装置。
他ユーザの装置との間で双方向に音声及び動作データを送受することで、他ユーザと自ユーザとの意思疎通を仲介する遠隔意思疎通装置であって、
自ユーザより音声及び動作をデータとして取得する解析部と、
他ユーザの装置より送信された動作のデータに従って他ユーザを動作表示する提示部と、
前記解析部で取得したデータに基づき、自ユーザが発言開始したか否かを判定し、当該発言開始したと判定した場合に、前記提示部における他ユーザの動作表示を所定の予測動作に置き換えるよう制御する予測動作部と、
前記所定の予測動作に置き換えられた後に、前記提示部における他ユーザの動作表示を、他ユーザの装置より送信された動作のデータに従う表示に戻すよう制御する反応制御部と、を備え、
前記反応制御部は、他ユーザの装置より送信された動作のデータであって、前記自ユーザが発言開始したことに対する他ユーザの応答がある旨を表す応答情報が紐付けられているデータを受信した時点以降に、前記提示部における他ユーザの動作表示を、他ユーザの装置より送信された動作のデータに従う表示に戻し、
前記反応制御部は、前記応答情報を受信した時点以降に前記予測動作部の制御により動作表示されることとなる予測動作のデータにおいてその姿勢がニュートラルと判定される時点を特定し、当該特定した時点より、前記提示部における他ユーザの動作表示を、他ユーザの装置より送信された動作のデータに従う表示に戻すことを特徴とする遠隔意思疎通装置。
前記所定の予測動作は予め複数種類が用意されており、
前記予測動作部は、前記判定した場合に、前記発言開始したと判定された自ユーザの発言内容に応じた所定の予測動作を前記複数種類の中から選択したうえで、前記提示部における他ユーザの動作表示を、当該選択した所定の予測動作に置き換えるよう制御することを特徴とする請求項１ないし４のいずれかに記載の遠隔意思疎通装置。
前記所定の予測動作は予め他ユーザごとに用意されており、
前記予測動作部は、前記判定した場合に、前記提示部における他ユーザの動作表示を当該他ユーザに対応する所定の予測動作に置き換えるよう制御することを特徴とする請求項１ないし５のいずれかに記載の遠隔意思疎通装置。
前記反応制御部は、他ユーザの装置より送信された動作のデータであって、前記自ユーザが発言開始したことに対する他ユーザの応答がある旨を表す応答情報が紐付けられているデータを受信した時点以降に、前記提示部における他ユーザの動作表示を、他ユーザの装置より送信された動作のデータに従う表示に戻すことを特徴とする請求項１に記載の遠隔意思疎通装置。
前記提示部は、他ユーザの装置より送信された動作のデータに従って他ユーザをアバターとして動作表示することを特徴とする請求項１ないし７のいずれかに記載の遠隔意思疎通装置。
コンピュータを請求項１ないし８のいずれかに記載の遠隔意思疎通装置として機能させることを特徴とするプログラム。