JP2001307138A

JP2001307138A - コミュニケーション場の生成システム

Info

Publication number: JP2001307138A
Application number: JP2000128148A
Authority: JP
Inventors: Tomio Watanabe; 富夫渡辺
Original assignee: INTERROBOT Inc
Current assignee: INTERROBOT Inc
Priority date: 2000-04-27
Filing date: 2000-04-27
Publication date: 2001-11-02

Abstract

(57)【要約】【課題】集団と時間的又は距離的に隔てられた本人
が、この集団が形成するコミュニケーション場に参加で
きるようにする。【解決手段】集団中本人を代表する本人人格モデル
と、この集団中本人以外の人間を代表する他者人格モデ
ルと、この本人人格モデル及び他者人格モデルを同一空
間内に表現する表現部３と、この集団からの音声又は音
響を取り込む入力部６と、取り込んだ音声又は音響から
各人格モデルの表現部内での挙動を決定して各人格モデ
ルを駆動する制御部７とからなり、表現部３に表現され
た各人格モデルの頭の頷き動作、頭の振り動作、口の開
閉動作、目の瞬き動作又は身体の身振り動作を本人が見
ることにより、コミュニケーション場中に本人が存在す
るような感覚を与えるシステムである。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声又は音響の発
信源に複数の人間が対峙する集団と時間的又は距離的に
隔てられた本人が、この集団が形成するコミュニケーシ
ョン場に参加できるようにするシステムに関する。

【０００２】「音声又は音響の発信源に複数の人間が対
峙する集団」とは、基本的には、(1)１人の人間が多数
の聴衆に向かって話す環境(講議や講演)を想定してい
る。しかし、このほか(2)特定の音源から発せられる音
響を多数の聴衆が聴いている環境(映画やコンサート、
ビデオやCDを含む。実際には音源が多数あるが、通常聴
衆は特定のスクリーンや歌手に向いているから、本願発
明の適用対象となりうる)、(3)多数の人間が相互に話す
環境(討論会や会議、発信源が入れ替わったり複数にな
る)や、(4)集団とは無関係に発信源がある環境(雑踏)
も、本発明の適用分野に含まれる。これから、「コミュ
ニケーション場」とは、前記各集団が形成する意思疎通
空間と定義できる。

【０００３】また、「時間的又は距離的に隔てられた本
人が、集団が形成するコミュニケーション場に参加でき
るようにする」とは、(a)集団が存在する時間とは異な
る時間でありながら、本人にはその集団のコミュニケー
ション場中にいるかのような雰囲気を感じさせること、
(b)集団が存在する距離から離れていながら、本人には
その集団のコミュニケーション場中にいるかのような雰
囲気を感じさせること、のいずれか一方又は両方の場合
を含み、更には(c)現実には存在しない集団でありなが
ら、本人にはその集団が存在し、その集団のコミュニケ
ーション場中にいるかのような雰囲気を感じさせるこ
と、を意味する。

【０００４】

【従来の技術】例示として、講議の場合を挙げて、説明
をする。学校における講議は、１人の先生を音声の発信
源とし、多数の学生が先生に対峙する格好で集団を形成
している。この集団では、先生の講議内容に学生それぞ
れが反応を示し、その反応によって先生の講議に対する
熱意や学生の理解度も変化する。このため、先生は学生
が集中して聴講してもらえるような講議のやり方をいろ
いろと模索するが、講議の内容によっては講議のやり方
だけではどうにもならず、どうしても学生が集中しない
講議になってしまうことが多々見られている。

【０００５】この講議は、通常、先生と学生とが同一空
間内で併存して存在するため、先生も学生からの反応を
リアルタイムに掴みながら講議のやり方を適宜修正でき
る。しかし、近年では、一部の学校や予備校でテレビ会
議システムを利用した講議が始まっており、こうしたテ
レビ会議を用いた講議では、先生と学生とが距離的に離
れてしまい、一般に学生からの反応を先生は見ることが
できないので、一層講議の一体感が減少し、先生にあっ
ては講議が難しく、学生も集中できない事態が現れがち
だった。更には、ビデオテープを用いた学習教材にあっ
ては、先生と学生とが時間的及び空間的に隔てられるこ
ととなり、一体感の欠如はより一層強く見られるように
なっていた。

【０００６】

【発明が解決しようとする課題】講議における一体感の
欠如は、先生及び学生側それぞれにおける会話リズムの
ズレに起因する。例えば、先生側から見れば、自分が話
す会話の中で適宜学生が頷いてくれれば話し甲斐を感
じ、それだけ講議内容に真剣味が増す。また、学生側か
ら見れば、講議に臨む先生の姿勢が真剣であれば、その
講議姿勢に呼応して真剣に聴講するようになる。また、
学生が複数人いる場合には、本人の周囲の学生が真剣に
聴講していれば、その周囲の雰囲気に引き込まれ、次第
に真剣に聴講するようになる。

【０００７】これらは、いずれも会話の共有に基づく
「身体的引き込み現象(以下、引き込み現象と略する)」
と呼ばれるもので、頭の頷き動作、口の開閉動作、目の
瞬き動作又は身体の身振り動作を視覚的に捉えること
で、一体感あるコミュニケーション場を作り出す働きに
一役かっている。従来のテレビ会議システムやビデオテ
ープによる講議に一体感が欠如して見られたのは、引き
込み現象がなかったためである。講議という集団から時
間的又は空間的に隔てられていては、集団が形成するコ
ミュニケーション場を各人が個別に作り出さなければな
らず、これでは引き込み現象が発現できなかった。引き
込み現象は、あくまで適切な挙動を示す相手がいてこそ
発現するからである。

【０００８】こうしたコミュニケーション場における一
体感の欠如は、なにも講議に限ったものではなく、各種
集団でも起こりうる。一例だけでも、講議同様の形態を
有する講演、映画、コンサート、討論会、会議やその他
雑踏等がある。いずれも、集団を構成する各人に一体感
が感じられれば、その集団を構成する目的をよりよく達
成できたり(講演、討論会や会議)、集団だからこそ発揮
する効果(映画、コンサートやその他雑踏等、映画やコ
ンサートでは人気が上昇する、雑踏では仮想現実体験)
が得られる。そこで、コミュニケーション場における一
体感が欠如しやすい状態でも、一体感を感じられる雰囲
気を作り出すことで、集団と時間的又は距離的に隔てら
れた本人が、この集団が形成するコミュニケーション場
に参加できるようにするシステムを開発するため、検討
した。

【０００９】

【課題を解決するための手段】検討の結果開発したもの
が、音声又は音響の発信源に複数の人間が対峙する集団
と時間的又は距離的に隔てられた本人が、この集団が形
成するコミュニケーション場に参加できるようにする装
置であって、この集団中本人を代表する本人人格モデル
と、この集団中本人以外の人間を代表する他者人格モデ
ルと、この本人人格モデル及び他者人格モデルを同一空
間内に表現する表現部と、この集団からの音声又は音響
を取り込む入力部と、取り込んだ音声又は音響から各人
格モデルの表現部内での挙動を決定して各人格モデルを
駆動する制御部とからなり、表現部に表現された各人格
モデルの頭の頷き動作、頭の振り動作、口の開閉動作、
目の瞬き動作又は身体の身振り動作を本人が見ることに
より、擬似的に集団が形成するコミュニケーション場中
に本人が存在するような感覚を与えるコミュニケーショ
ン場の生成システムである。

【００１０】本発明は、表現部において他者と同一空間
内に表現される本人人格モデルに本人が自分を重ねるこ
とにより、集団が形成するコミュニケーション場を感得
できるようにして、あたかもコミュニケーション場中に
本人が存在するような感覚を与えるシステムである。各
人格モデルは、ロボット又は画像表示装置に写し出すCG
(実写又は合成アニメーションを含む)である。ロボット
の場合、表現部は複数のロボット群自体を意味する。CG
の場合、表現部は画像表示装置であり、ロボットに比べ
て複数表示が容易であり、本発明により適している。画
像表示装置においては、視点を左右上下させたり、視線
を水平回転、垂直回転させたり視線を軸線とする自転や
奥行き方向に変化させることができ、画像表示装置を見
る本人の好みにCG、すなわち各人格モデルの大きさや向
きを調節可能である利点もある。また、奥行き方向に本
人人格モデルと他者人格モデルとを重ねて表示する場
合、手前に位置する人格モデル(通常本人人格モデル)を
半透明にすると、より多くの人格モデルを視覚的に捉え
ることができ、集団が存在する空間の広がりを捉えやす
くてよい。ロボットでは半透明は難しいことから、画像
表示装置によるCGが本発明に適している。

【００１１】人格モデルは、基本的には人間を模した形
態が好ましいが、擬人化した動植物やその他無機物や想
像上の生物や物であってもよい。後述するように、本発
明は、音声のON/OFFに従い、人間の話し手に対して会話
のリズムを共有する挙動を作り出すので、こうした挙動
をする限り、人格モデルは本来無機物の乗り物や建物、
その他想像上の生物や物でも構わないわけである。

【００１２】本人(又は本人以外の人間)を「代表する」
とは、本人(又は本人以外の人間)が発言又は音響を発す
る場合には、集団中で割り当てられた人格モデルが話し
手として振る舞うことを意味する。本人(又は本人以外
の人間)を代表する人格モデルであっても、本人(又は本
人以外の人間)が発言又は音響を発することがなく、本
人以外の人間(又は本人)が発言又は音響を発する場合に
は、割り当てられた人格モデルは、聞き手として振る舞
う。このように、本人人格モデルと他者人格モデルと
は、本人を中心とした相対的定義でしかなく、本システ
ムを利用する各人が本人であり、各人以外又は合成され
た架空の人間がすべて本人以外となる。表現部では、本
人人格モデルは背面で表現するのを基本とし、他者人格
モデルは集団における標準的な向きに揃える。例えば、
講議において、本人が先生であれば、本人人格モデルを
背面で表現し、残る他者人格モデルはすべて本人人格モ
デルに向かって並ぶことになる。これに対し、本人が学
生であれば、本人人格モデルを背面で表現する点は同じ
でありながら、他の学生を代表する他者人格モデルは本
人人格モデルと同方向を向き、先生を代表する他者人格
モデルのみが本人人格モデルに対して正面を向くことに
なる。いずれの場合も、手前に位置する人格モデルを半
透明にすると、より好ましい。

【００１３】本願発明において重要となるのは、本人人
格モデル及び他者人格モデルを同一空間内に表現する表
現部における各人格モデルの挙動であり、各人格モデル
を視覚的に捉えた本人に、引き込み現象を発現させうる
挙動を各人格モデルにさせなければならない。この挙動
は、人格モデルを聞き手として振る舞わせるのか、話し
手として動かすのかで異なる。聞き手として重要な挙動
は、頭の頷き動作(主として前後方向の頭の動き)、目の
瞬き動作、腕、胴部又は腰等の各部又は全部からなる身
振り動作である。話し手として重要な挙動は、頭の振り
動作(主として左右方向や頭の動き)、口の開閉動作、目
の瞬き動作、腕、胴又は腰等の各部又は全部からなる身
振り動作である。

【００１４】(a)制御部が決定する聞き手としての人格
モデルの挙動は、頭の頷き動作、目の瞬き動作又は身体
の身振り動作の選択的な組み合わせからなり、頷き動作
は音声又は音響のON/OFFから推定される頷き予測値が頷
き閾値を越えた頷き動作タイミングで実行し、瞬き動作
は前記頷き動作タイミングを起点として経時的に指数分
布させた瞬き動作タイミングで実行し、身体の身振り動
作は音声のON/OFFから推定される頷き予測値が身振り閾
値を越えた身振り動作タイミングで実行する。

【００１５】(b)制御部が決定する話し手としての人格
モデルの挙動は、頭の振り動作、口の開閉動作、目の瞬
き動作又は身体の身振り動作の選択的な組み合わせから
なり、振り動作は音声又は音響のON/OFFから推定される
振り予測値が振り閾値を越えた振り動作タイミングで実
行し、瞬き動作は音声又は音響のON/OFFから推定される
目の瞬き予測値が瞬き閾値を越えた瞬き動作タイミング
で実行し、身体の身振り動作は音声のON/OFFから推定さ
れる振り予測値又は身振り予測値が身振り閾値を超えた
身振り動作タイミングで実行する。特に、人格モデルが
話し手の場合、音声又は音響の変化に比例する口の開閉
動作又は身体の身振り動作を加えるとよい。

【００１６】制御部が決定する挙動の組み合わせは、自
由である。例えば、身体の身振り動作は、頷き動作タイ
ミングを得るアルゴリズムにおいて、頷き閾値より低い
値の身振り閾値を用いて身振り動作タイミングを得る。
また、身振り動作は音声又は音響の変化に従って可動部
位を駆動したり、音声又は音響に応じて身体の可動部位
を選択する又は予め定めた動作パターン(可動部位の組
み合わせ及び各部の動作量)を選択するとよい。身振り
動作における可動部位又は動作パターンの選択は、頷き
動作と身振り動作との連繋を自然なものにする。このよ
うに、本発明では、口の開閉動作や音声又は音響の振幅
に基づく身体各部の動作を除き、頷き動作タイミングを
中心に他者人格モデルの挙動を決定する。

【００１７】引き込み現象の発現において重要となる頷
き動作タイミングや身振り動作タイミングは、音声又は
音響と頷き動作又は身振り動作とを線形又は非線形に結
合する予測モデル(MAモデル(Moving-Average Model)や
ニューラルネットワークモデル)から頷き予測値、振り
予測値又は身振り予測値を算出し、予め定めた頷き閾値
又は身振り閾値と比較するアルゴリズムにより決定でき
る。より具体的に言えば、音声又は音響を経時的な電気
信号のON/OFFとして捉え、この経時的な電気信号のON/O
FFから得た予測値を閾値と比較して、各動作タイミング
を導き出す。単なる電気信号のON/OFFを基礎とするた
め、計算量が少なく、リアルタイムな挙動の決定に比較
的安価で低処理能力のパソコンを用いても即応性を失わ
ない。このように、本発明は音声又は音響をON/OFFのあ
る電気信号とみなし、リアルタイムに決定した人格モデ
ルの挙動によって引き込み現象を発現させる点に特徴が
ある。更に、前記ON/OFFという情報に加えて、経時的な
電気信号の変化を示す韻律や抑揚をも併せて考慮しても
よい。

【００１８】本人の音声又は音響は直接に、時間的又は
距離的に隔てられた集団を構成する人間の音声又は音響
は通信回線を介して、それぞれ入力部に入力する。入力
部は、集団に参加する各人毎又は数人毎に設けてもよい
(分散処理型)し、１基の入力部に集中して音声又は音響
を入力して、ソフトウェアにより各音声又は音響を個別
に処理する(集中処理型)ようにしてもよい。音声又は音
響は各種記録媒体に記憶されたデータであれば、入力部
の前段にデータ入力部及びデータ変換部を付設するとよ
い。データ入力部は外部から音声又は音響以外のデータ
の入力を担い、データ変換部は音声又は音響以外のデー
タを音声又は音響へと変換し、入力部へ音声又は音響を
受け渡す。データ入力部で取り込むデータの記録媒体に
は、既存の各種記録媒体(CD-ROM,CD-R,CD-RW,DVD-ROM,M
O,FD,HD,磁気テープ等)があり、広義にはビデオや音楽C
Dも含まれる。

【００１９】制御部は、既述したアルゴリズムに従っ
て、音声又は音響から各人格モデルの挙動を決定する
が、ON/OFFを有する電気信号に変換できれば、必ずしも
意味が判別できる音声又は音響でなくても制御部を動作
させることができる。制御部は、入力部毎又は数基の入
力部毎に設けて対応する人格モデルを駆動又は表示して
もよい(分散処理型)し、多数又は全基の入力部に対して
１基の制御部を設け、ソフトウェアにより各人格モデル
を個別に駆動又は表示する(集中処理型)ようにしてもよ
い。制御信号は、ロボット又は表示装置へ、直接又は通
信回線を通じて送られる。制御部は、コンピュータ又は
専用処理チップ等により構成し、ロボットや画像表示装
置の駆動回路を接続して、ロボット又はCGを駆動又は動
画する。コンピュータを用いた場合、制御部のみなら
ず、入力部、データ入力部やデータ変換部をハード的又
はソフト的に構築しやすく、制御仕様の変更も容易であ
る。

【００２０】

【発明の実施の形態】以下、本発明の実施形態につい
て、図を参照しながら説明する。図１は先生Ｔ及び複数
の学生Ａ〜Ｅがそれぞれ隔てられた状態での講議に適用
したコミュニケーション場の生成システムのハードウェ
ア構成図、図２は図１の各人単位における処理を説明す
るハードウェア構成図、図３は各人格モデル１,２につ
いての聞き手制御フローシート、図４は各人格モデル
１,２についての話し手制御フローシート、図５は学生
Ａを本人とした場合の画像表示装置３の表示態様を示し
た正面図であり、図６は図５の状態において先生Ｔを本
人とした場合の画像表示装置３の表示態様を示した正面
図である。

【００２１】本例に示す講議は、本発明が最も効果的に
現れる適用例である。先生Ｔ及び各学生Ａ〜Ｅに、図１
に見られるように、それぞれ通信回線(インターネット)
４で結ばれたパソコン５を割り当て、図２に見られるよ
うに、本人の音声は直接、他者の音声は通信回線４を通
じてパソコン５へ取り込み、各パソコン５で各音声に基
づいた動作を逐次決定して、それぞれのパソコン５の画
像表示装置(モニタ)３上に本人人格モデル１を中心とし
て複数の他者人格モデル２を表示する。他者人格モデル
２は、必ずしも集団を構成する全員ではなくてもよい
(図５又は図６参照)。

【００２２】先生Ｔ及び学生Ａ〜Ｅが、すべて互いに隔
てられた環境にあれば、各人に１台ずつパソコン５を割
り当てることになる。しかし、本例の講議の場合、例え
ば先生と少数の学生が１台のパソコンを共用し、また残
る学生も数人毎に１台のパソコンを共用してもよい。こ
の場合でも、先生又は学生毎に入力部(マイク)６を割り
当て、各パソコン５の内部処理においては、各人別に制
御部７を構成する必要がある。画像表示装置３内に表示
される各人格モデル１,２はあくまで先生Ｔ又は各学生
Ａ〜Ｅを代表しているのであり、各人格モデル１,２を
個別に制御するには、音声の入力の段階から峻別するほ
うが簡単である。

【００２３】制御部７は、個別に割り当てたパソコン５
内部において、ソフトウェア的に構成している。具体的
には、図２に見られるように、音声を直接入力する本人
に対応した本人人格モデル制御部８と、集団を構成する
本人以外の人間の人数分(つまり複数ある、図示略)の他
者人格モデル制御部９とを有する。パソコンの処理能力
が高ければ、入力信号及び制御信号にラベルを付して識
別し、単一の制御部を切り替えて用いるようにしてもよ
い(TSS処理)。各制御部８,９は、内部的に聞き手制御部
10と話し手制御部11とに分かれる。両制御部10,11の使
い分けとしては、(1)選択的に作動させて聞き手又は話
し手を区別して挙動指せる、(2)挙動に対する重み付け
をして割合的に挙動を合成する、又は(3)挙動に対する
重み付けを等しくして単純に挙動を合成する、が考えら
れる。制御部10,11の切り替え(前記(1))又は重み付け
(前記(2))は、切り替え閾値を用いたり、重み関数を用
いて、自由に決定することができる。実際には、特に話
し手又は聞き手を区別せず、両制御部10,11を同時に作
動させて単純に挙動を合成するほうが、より自然な人格
モデルを表現できる。

【００２４】本人人格モデル制御部８においては、入力
部６から直接入力する本人の音声は話し手制御部11へ、
入力部６から通信回線４を通じて送られてくる他者の音
声は聞き手制御部10へ送られ、リアルタイムに本人人格
モデルの話し手又は聞き手を切り替えて、画像表示装置
上で本人人格モデルを頷き動作や身振り動作させる。ま
た、他者人格モデル制御部９においては、入力部６から
直接入力する本人の音声は聞き手制御部10へ、入力部６
から通信回線４を通じて送られてくる他者の音声は話し
手制御部11へ送られ、リアルタイムに他者人格モデルの
話し手又は聞き手を切り替えて、画像表示装置上で他者
人格モデルを頷き動作や身振り動作させる。

【００２５】聞き手制御部10では、図２及び図３に見ら
れるように、各人格モデルの頭の頷き動作、目の瞬き動
作と身体の身振り動作を決定し、各人格モデルを制御、
動作させる。必要により、口の開閉動作を用いてもよ
い。また、頭の振り動作は、聞き手として頷き動作を採
用しているので本例では外しているが、頷き動作と併用
しても構わない。具体的なフローは次の例による。ま
ず、頷き予測値Ｎ0と予め設定した頷き閾値Ｎaとを比較
し、頷き予測値Ｎ0が頷き閾値Ｎaを越えた場合を頷き動
作タイミングとし、この頷き動作タイミングに画像表示
装置上の本人人格モデルに頷き動作を実行する。頷き動
作の動作量は一定量でも、音声の強弱に比例した量でも
よい。瞬き動作タイミングは、最初に求めた頷き動作タ
イミングを起点とし、経時的な指数分布に従って以後の
瞬き動作タイミングを決定する。こうした頷き動作に関
係する瞬き動作は、会話における自然な聞き手の反応ら
しくみえるので、話し掛ける人間に話しやすい雰囲気を
作り出す(引き込み現象の発現)。

【００２６】話し手制御部11では、図２及び図４に見ら
れるように、各人格モデルの頭の振り動作、口の開閉動
作、目の瞬き動作と身体の身振り動作を決定し、各人格
モデルを制御、動作させる。頭の頷き動作は、話し手と
して不自然であるために通常用いないが、適宜振り動作
と併用しても構わない。具体的なフローは次の例によ
る。まず、振り予測値Ｍ0と予め設定した振り閾値Ｍaと
を比較し、振り予測値Ｍ0が振り閾値Ｍaを越えた場合を
振り動作タイミングとし、この振り動作タイミングに画
像表示装置上の本人人格モデルに振り動作を実行する。
振り動作の動作量は一定量でも、音声の強弱に比例した
量でもよい。瞬き動作タイミングは、瞬き予測値Ｅ0と
予め設定した瞬き閾値Ｅaとを比較し、瞬き予測値Ｅ0が
瞬き閾値Ｅaを越えた場合を瞬き動作タイミングとし、
この瞬き動作タイミングに目の瞬きを実行する。こうし
た頷き動作に関係する瞬き動作は、会話における自然な
聞き手の反応らしくみえるので、話し掛ける人間に話し
やすい雰囲気を作り出す(引き込み現象の発現)。

【００２７】聞き手制御フロー及び話し手制御フローに
おける身振り動作は、基本的には頷き推定又は振り推定
と同じアルゴリズムを用いるが、頷き閾値Ｎa又は振り
閾値Ｍaよりも低い身振り閾値Ｇa(Gesture a)を用いる
ことで、頷き動作又は振り動作より頻繁な動作となるよ
うにしている。本例では、身振り動作を担う可動部位
(例えば首、腕、腰等)を組み合わせた動作パターンを予
め複数作っておき、これら複数の動作パターンの中から
身振り動作タイミング毎に動作パターンを選択し、入力
した音声の強弱に比例した動作量で実行している。特
に、音声の強弱に従って腕を振ると、身振り動作に強弱
をつけることができる。このような動作パターンの選択
は、機械的な繰り返しでない自然な身振り動作を実現す
る。このほか、可動部位を選択して個別又は連係して作
動させたり、音声信号を言語解析して言葉の意味付けに
よる身振り動作の制御も考えられる。

【００２８】制御フローの各動作タイミングの決定にお
いて重要なのが、頷き動作タイミングである。口の開閉
動作を除き、瞬き動作は頷き動作タイミングを基礎し、
頭の振り動作や身振り動作は同様のアルゴリズムを利用
している。本例では、音声と頷き動作とを線形結合する
予測モデルにMAモデルを用い、経時的に変化する音声か
ら、刻々と変化する頷き予測値Ｎ0をリアルタイムに計
算している。各人格モデルの動きを特徴付ける閾値は、
全部共通でもよいし、個別に定めてもよい。また、同様
に、各予測値を各人格モデルにおいて全部共通又は個別
に定めることもできる。何れか一方を個別に定めれば、
各人格モデルの動きに違いが出る。

【００２９】こうして先生Ｔ又は学生Ａ〜Ｅに割り当て
たパソコン５の画像表示装置３上には、先生Ｔ又は学生
Ａ〜Ｅを本人として、本人人格モデル１といくつかの他
者人格モデル２が集団から抜粋される形で表示される。
この集団の中に話し手がいて、その他は聞き手となる。
話し手となる人格モデルが必ずしも画像表示装置上に表
示されていることは必須要件ではないが、本発明の趣旨
に従えば、話し手となる人格モデルが常に画面上(でき
れば画面中心)にあり、その人格モデルに対して聞き手
となる複数の人格モデルを表示する画面構成が好まし
い。

【００３０】学生Ａから見た場合は、図５に示すよう
に、話し手となる先生Ｔを表した他者人格モデル２を正
面に捉え、本人人格モデル１を先生Ｔの他者人格モデル
２の手前側に背面を向けて配置し、本人人格モデル１の
周囲に幾人かの学生Ｂ〜Ｅを表す他者人格モデル２を複
数並べている。これに対し、先生Ｔから見た場合は、図
６に示すように、話し手となる先生Ｔを表した本人人格
モデル１を背面に向けて手前に配置し、学生Ａ〜Ｅ及び
他の学生を表す他者人格モデル２を本人人格モデル１の
奥側に正面を向けて配列している。いずれの場合も、本
人人格モデル１(図５では先生Ｔ、図６では学生Ａ)を半
透明モデルとして描いている。本来、本人であれば、表
示された本人モデルの向こう側も見ることができるはず
であるから、半透明表示とすることで、より現実に近い
視界を得られるようにしている。

【００３１】このように、あくまで本人を含めた集団の
一部を本人の視線方向に揃えて表示することが、本発明
は重要である。これにより、先生Ｔは自分の話に頷く学
生Ａ〜Ｅを代表する他者人格モデル２を見て、学生Ａは
先生Ｔの話に頷く自分を取り囲む他者人格モデル２を見
て、それぞれ引き込み現象を受けて集団との一体感を感
じるようになり、先生Ｔは講議がしやすく、学生Ａ〜Ｅ
はより講議に集中できるようになる。

【００３２】本発明の特殊な応用例として、音楽CDを再
生して得られる信号に基づいて他者人格モデルを動かす
コミュニケーション場の生成システムがある(図５及び
図６参照)。これは、音楽CDを用いてコンサートの雰囲
気を再現するもので、音楽に合わせて動く他者人格モデ
ルに本人人格モデルが囲まれることにより、コンサート
に参加しているかのような雰囲気を本人に与える。従来
から、音楽CDに合わせて体を動かす人形やおもちゃは多
くあるが、本発明を応用すれば、視覚的に人間を音楽へ
と引き込むことができる。また、RPG(ロールプレイング
ゲーム)等のゲームにおいて、ゲームのキャラクタの動
きに本発明を適用し、本人を代表する操作キャラクター
を本人人格モデルとし、NPC(ノンプレイヤーキャラクタ
ー)を他者人格モデルとすれば、より臨場感のあるゲー
ムを楽しむことができる。このように、本発明は応用分
野が多岐にわたる。

【００３３】

【発明の効果】本発明によって、たとえ時間的又は空間
的に隔てられた本人であっても、集団が形成するコミュ
ニケーション場に参加して、一体感を持つことができる
ようになる。上記講議の例で言えば、先生は話し甲斐を
感じ、それだけ講議内容に真剣味が増す。また、学生
は、より真剣に聴講するようになる。これから、本発明
は、集団が形成するコミュニケーション場を本人に対し
て生成するシステムと見ることができる。このような場
の雰囲気を伝達する装置は従来見られなかったことか
ら、本発明には新規性が存在する。

【００３４】コミュニケーション場を生成する観点から
見れば、本発明の適用分野は多岐にわたる。講議に類似
する講演においてはもちろんのこと、互いに意見を交わ
す討論会や会議においても、より白熱した議論を展開で
きるようになる。映画やコンサートでは、鑑賞する聴衆
や観客からなる集団の一体感が増し、より熱狂的に鑑賞
できたりする。コンサートには、ビデオコンサートとい
った提供態様も見られるが、このビデオコンサートを中
心に表示し、周囲に観客を模した本人人格モデル及び他
者人格モデルを併せて表示すれば、より現実に近い感覚
でビデオコンサートを楽しむことができる。また、従来
味気なかった仮想現実体験においても、より場の雰囲気
を感じることのできるシステムの提供が可能になる。こ
のように、本発明は単独使用においても意義があるが、
既存の映像提供形態と併用することで、より効果を発揮
する。

【図面の簡単な説明】

【図１】講議に適用したコミュニケーション場の生成シ
ステムのハードウェア構成図である。

【図２】図１の各人単位における処理を説明するハード
ウェア構成図である。

【図３】各人格モデルについての聞き手制御フローシー
トである。

【図４】各人格モデルについての話し手制御フローシー
トである。

【図５】学生Ａを本人とした場合の画像表示装置の表示
態様を示した正面図である。

【図６】図５の状態において先生を本人とした場合の画
像表示装置の表示態様を示した正面図である。

【符号の説明】

１本人人格モデル２他者人格モデル３画像表示装置４通信回線(インターネット) ５パソコン６入力部(マイク) ７制御部８本人人格モデル制御部９他者人格モデル制御部 10 聞き手制御部 11 話し手制御部Ｔ先生Ａ〜Ｅ学生

Claims

【特許請求の範囲】

【請求項１】音声又は音響の発信源に複数の人間が対
峙する集団と時間的又は距離的に隔てられた本人が、該
集団が形成するコミュニケーション場に参加できるよう
にする装置であって、該集団中本人を代表する本人人格
モデルと、該集団中本人以外の人間を代表する他者人格
モデルと、該本人人格モデル及び他者人格モデルを同一
空間内に表現する表現部と、該集団からの音声又は音響
を取り込む入力部と、取り込んだ音声又は音響から各人
格モデルの表現部内での挙動を決定して該各人格モデル
を駆動する制御部とからなり、表現部に表現された各人
格モデルの頭の頷き動作、頭の振り動作、口の開閉動
作、目の瞬き動作又は身体の身振り動作を本人が見るこ
とにより、擬似的に集団が形成するコミュニケーション
場中に本人が存在するような感覚を与えてなるコミュニ
ケーション場の生成システム。
【請求項２】制御部が決定する聞き手としての人格モ
デルの挙動は、頭の頷き動作、目の瞬き動作又は身体の
身振り動作の選択的な組み合わせからなり、頷き動作は
音声又は音響のON/OFFから推定される頷き予測値が頷き
閾値を越えた頷き動作タイミングで実行し、瞬き動作は
前記頷き動作タイミングを起点として経時的に指数分布
させた瞬き動作タイミングで実行し、身体の身振り動作
は、音声のON/OFFから推定される頷き予測値が身振り閾
値を越えた身振り動作タイミングで実行する請求項１記
載のコミュニケーション場の生成システム。
【請求項３】制御部が決定する話し手としての人格モ
デルの挙動は、頭の振り動作、口の開閉動作、目の瞬き
動作又は身体の身振り動作の選択的な組み合わせからな
り、振り動作は音声又は音響のON/OFFから推定される振
り予測値が振り閾値を越えた振り動作タイミングで実行
し、瞬き動作は音声又は音響のON/OFFから推定される目
の瞬き予測値が瞬き閾値を越えた瞬き動作タイミングで
実行し、身体の身振り動作は音声のON/OFFから推定され
る振り予測値又は身振り予測値が身振り閾値を超えた身
振り動作タイミングで実行する請求項１記載のコミュニ
ケーション場の生成システム。
【請求項４】音声又は音響の変化に比例する口の開閉
動作又は身体の身振り動作を加えた請求項３記載のコミ
ュニケーション場の生成システム。