JP2000184345A

JP2000184345A - マルチモーダルコミュニケーション支援装置

Info

Publication number: JP2000184345A
Application number: JP35520698A
Authority: JP
Inventors: Atsushi Chazono; 篤茶園; Kazuo Kunieda; 和雄國枝
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1998-12-14
Filing date: 1998-12-14
Publication date: 2000-06-30

Abstract

(57)【要約】【課題】分散型コミュニケーション環境において、参
加ユーザの共有情報に対し、注目する相手及び対象の注
目情報を共有情報に反映させて出力する。【解決手段】各通信端末1-1〜1-nの音声入力部11、映
像入力部12から入力されたユーザの音声情報、映像情報
から、ユーザの発言単語、視線方向等を検出した解析結
果が通信回線４を介して対話管理部３へ入力される。対
話管理部３は、各通信端末1-1〜1-nからの解析結果か
ら、各ユーザの話題、ユーザの視線等の対話状態を解析
し各通信端末1-1〜1-nへ入力する。注目情報解析伝達部
23は、対話管理部３からの解析結果と、現時点でのユー
ザの音声及び映像に関する解析結果から、各ユーザの注
目情報を検出し、出力制御信号を生成し注目情報伝達音
声生成部24及び注目情報伝達映像生成部25へ出力する。
このようにして、共有情報に対してユーザの注目情報を
反映したフィードバックを実現する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コミュニケーショ
ン支援装置に関し、特にテレビ会議装置等の分散環境で
の参加ユーザ間のコミュニケーション支援に用いられる
コミュニケーション支援装置で、同時に且つ同一の情報
を、もしくは同一の情報に音声、映像などの加工を施し
た情報を出力することができる複数の端末の出力装置、
あるいは複数の端末で共有する少なくとも１台の出力装
置を有するコミュニケーション支援システムにおいて、
複数ユーザの注目情報を反映させた出力制御によるコミ
ュニケーション支援装置に関する。

【０００２】

【従来の技術】従来、テレビ会議装置などに用いられる
コミュニケーション支援装置として、共通の表示画面を
複数の端末の表示装置に表示し、共通情報の表示(共有
情報表示)を妨げることなく、共有情報表示の指示手段
としてアイコンを設け、各ユーザのアイコン指示をユー
ザの注目状態として表示させるコミュニケーション支援
装置がある。広く一般に知られているコミュニケーショ
ン支援装置は、図１３に示すように、通信回線４を介し
て複数の端末１−１〜１−ｎが接続され、例えば、対話
の対象となるドキュメントを共有情報として、各端末１
−１〜１−ｎの表示装置の表示画面上に表示させるとと
もに、全ての参加ユーザが各表示画面上の指示手段であ
る指示アイコンを用いて、共有情報に対する操作、指示
及び変更等の処理を行い、全ての表示画面上に、全ての
ユーザの指示アイコンをユーザの注目情報として表示し
ている。

【０００３】このようなコミュニケーション支援装置を
改良した形態として、例えば、特開平９−２３１１５４
号公報が開示されている。この公報のコミュニケーショ
ン支援装置は、図１４に示すように、通信回線４を介し
て、前述の従来技術と同様に、各端末１−１〜１−ｎの
全ての表示画面上にユーザの指示アイコンを表示する。
しかし、全てのユーザの指示アイコンを表示するのでは
なく、表示制御部５において、マイク等の音声入力装置
から検出される音声信号の音圧(音声レベル)によりユー
ザの能動度を検出する。そして、音声レベルが大きい場
合に能動度が高いと判断し、この能動度の高さに応じて
必要最小限のユーザの指示アイコンを選択し、これら選
択されたユーザの指示アイコンを注目情報として、共有
情報表示を妨げることなく表示するものである。

【０００４】

【発明が解決しようとする課題】しかしながら、共有情
報を表示している表示画面上の指示手段として用意され
ている指示アイコンを表示するだけでは，例えば、指示
アイコンの動作が止まっている場合に、ユーザが指示ア
イコンで指し示されている表示画面上の位置に注目して
いるのか、若しくは話を聞いている際に手を休めている
ことで指示アイコンの動作が止まっているのかなどの、
ユーザが何に注目しているのかという状態を正確に把握
することができないという問題点がある。

【０００５】また、共有情報への指示手段であるユーザ
の指示アイコンの表示は、全てのユーザに対して同一の
表示しか提供していない。このため、例えば、各ユーザ
が何を見たいのか、何を知りたいのかといった観点に応
じて、各ユーザ毎に共有情報への指示アイコンの表示の
方式を変更するなどして、各ユーザが必要としている情
報を中心に表示することができない。これにより、各ユ
ーザにとって不必要な情報が多く含まれた状態になって
しまい、必要としている情報の把握が容易ではないとい
う問題を生じる。

【０００６】さらに、マイク等の音声入力装置により入
力されるユーザの音声の大きさをユーザの能動度として
検出し、能動度が高いと判断されたユーザの指示アイコ
ンを優先的に表示するという制御を行うことは、例え
ば、特定のユーザの指示アイコンの位置を知りたい場合
に、その特定のユーザの能動度が高いことが前提となっ
ている。このため、特定のユーザの注目情報を知りたい
にも関わらず、ユーザが注目情報を知りたいと思った時
点で、その特定のユーザの能動度が高いことを期待する
か、その都度どこに注目しているのかを問い合わせする
ような状況になり、ユーザが本当に知りたい注目情報を
常に把握できるとは限らないという問題もある。

【０００７】さらに、相手ユーザの注目情報として表示
されている前述の指示アイコンの表示は、共有情報を表
示している画面に対して重畳表示されているだけであ
り、例えば、特定の指示アイコンが指し示している対象
に対して、話の流れに沿って再度その対象を指示するこ
となしに再利用することにより操作することができな
い。このため、ユーザは、再度その対象へ指示アイコン
を移動させ操作する必要が生じてしまい、ユーザにとっ
ては操作負担となり、円滑なコミュニケーションを図る
ことができないという問題も生じる。

【０００８】本発明は、このような事情に鑑みてなされ
たものであり、その目的は、検出手段を工夫してユーザ
の注目情報を正確に把握し、且つ情報を正確に解析した
り再利用することにより、円滑なコミニュケーションを
実現することにある。

【０００９】

【課題を解決するための手段】すなわち、本発明のコミ
ニュケーション支援装置は、ユーザの注目情報を正確に
把握できないという問題点に対しては、マイクなどの音
声入力装置から入力される音声情報から発言単語などを
検出し、且つカメラなどの映像入力装置から入力される
映像情報からユーザの視線などを検出することによっ
て、ユーザが共有情報のどの部分に、誰に、どのような
話題に注目しているのかなどを検出する。そして、これ
らの検出結果を共有情報に反映させることにより、注目
情報を正確に把握することができるようにする。

【００１０】また、各ユーザにとって不必要な注目情報
が多く含まれて表示されることにより、ユーザにとって
必要な注目情報の把握が困難になるという問題点に対し
ては、ユーザの音声、映像から検出されるユーザ固有の
注目情報に応じて、共有情報へのフィードバックを生成
することによって、各ユーザが必要としている情報を中
心に出力することが出来るようにする。さらに、ユーザ
が本当に知りたい注目情報を常に把握できるとは限らな
いという問題点に対しては、ユーザの映像からユーザの
視線方向を検出するなどして、例えば、特定のユーザが
何に注目しているのかを知りたい場合には、ユーザは通
常の対話と同様にその相手ユーザへ視線を向けるなどを
することによって、特別な操作負担を生じることなし
に、相手ユーザの注目情報を把握することが出来るよう
にする。

【００１１】さらに、相手ユーザの注目情報を再利用す
ることが出来ないという問題点に対しては、各ユーザの
発言内容や視線位置及び対象の指示などの情報を統合的
に解析することにより、どのユーザ間で対話が成立して
いるのかなどの状態を把握し、例えば、相手ユーザが共
有情報の表示画面上の対象を指示した場合に、ユーザは
再度指定することなく、「これは大きすぎるんじゃない
ですか」等の発言によって、ユーザがその対象を指示し
たり、その注目しているという情報を相手ユーザにフィ
ードバックすることが出来るようにする。

【００１２】すなわち、請求項１に係るマルチモーダル
コミュニケーション支援装置は、複数の端末の出力装
置、あるいは複数の端末が共有する１以上の出力装置
に、同時に且つ同一の共有情報を出力可能であるととも
に、ユーザの注目情報を共有情報に反映させ出力するこ
とが可能なコミュニケーション支援装置において、注目
情報を検出するために、ユーザの音声を入力し音声信号
として出力するマイクなどの音声入力部と、ユーザの映
像を撮影し映像信号として出力するカメラなどの映像入
力部と、音声信号からユーザの発言している単語などを
識別し音声解析信号を出力する音声解析部と、映像信号
からユーザの視線などを検出し映像解析信号を出力する
映像解析部と、コミュニケーション支援装置を利用して
いる全てのユーザの音声解析信号および映像解析信号か
ら、各ユーザが他のどのユーザから視線を向けられた
り、話しかけられたりしているのかなどを解析し、対話
解析信号として出力する対話管理部と、音声解析信号、
映像解析信号および対話解析信号から各ユーザが誰の話
を聞いているのかなどの注目情報を検出し、この注目情
報に応じて音声出力制御信号および映像表示制御信号を
生成し出力する手段を有する注目情報解析伝達部と、音
声出力制御信号の内容に応じて、音声信号の音声レベ
ル、合成音声の生成などを制御し、音声信号として出力
する出力音声生成部と、映像表示制御信号の内容に応じ
て、映像データを読み出すなどの処理を制御し、映像信
号として出力する映像生成部とを備えていることを特徴
とする。

【００１３】請求項２に係るマルチモーダルコミュニケ
ーション支援装置は、請求項１記載の支援装置におい
て、対話管理部が、複数ユーザごとに出力される音声解
析信号から、特定の単語に関する話題に参加しているユ
ーザが誰かなどを解析し、これを音声解析結果管理信号
として出力する音声解析結果管理部と、同じく複数ユー
ザごとに出力される映像解析信号からユーザが誰を見て
いるのか、また、誰から見られているのかなどを解析し
映像解析結果管理信号として出力する映像解析結果管理
部と、音声解析結果管理信号および映像解析結果管理信
号から統合的にユーザの対話状態を解析し対話解析信号
として出力する対話解析部とを備えていることを特徴と
する。

【００１４】請求項３に係るマルチモーダルコミュニケ
ーション支援装置は、請求項１または請求項２記載の支
援装置において、注目情報伝達音声生成部が、注目情報
解析伝達部から出力される音声出力制御信号の内容に応
じて、コミュニケーション支援のための合成音声を生成
し出力する音声信号の音声レベルを調整するなどの制御
し、音声信号として出力する音声出力制御部と、合成音
声を生成し音声信号として出力する合成音声生成部と、
合成音声に多様な効果を施す場合に有用となる人物の音
声データ、各種の効果音データ等を蓄積する音声データ
蓄積部とを備えていることを特徴とする。

【００１５】請求項４に係るマルチモーダルコミュニケ
ーション支援装置は、請求項１〜請求項３の何れか１項
記載の支援装置において、注目情報伝達映像生成部が、
注目領域の強調表示、関連情報の重畳表示などの各種の
映像効果を施すための画像データを蓄積する映像データ
蓄積部と、画像データを合成したり映像の特定箇所を拡
大したりするなどの処理を施し、映像信号として出力す
る映像合成部と、注目情報解析伝達部からの映像解析信
号の内容に応じて、映像データ蓄積部および映像合成部
とを制御する映像表示制御部とを備えていることを特徴
とする。

【００１６】

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。図１は、本発明の第
１の実施の形態であるマルチモーダルコミュニケーショ
ン支援装置の構成を示す図である。図１において、マル
チモーダルコミュニケーション支援装置は、ユーザの音
声や映像などの入力、複数ユーザ間の注目情報を反映し
た共有情報の出力を実現する通信端末１−１〜１−ｎ
と、各ユーザの対話状態を管理する対話管理部３とが通
信回線４を介して接続されている。

【００１７】ここで、注目情報とは、あるユーザ自身と
他のユーザの音声や映像などの状態や変化から、例え
ば、誰を見ているのか、共有情報中の何を見ているの
か、何を操作しているのか、または何を話しているのか
などを抽出した情報を統合することによって検出される
情報である。また、共有情報とは、複数のユーザによっ
て共有され、複数の出力装置に同時に出力可能な同一の
情報である。ただし、各通信端末１−１〜１−ｎへは、
共有情報に一切の加工をせずに出力する場合だけではな
く、注目情報を反映して共有情報を加工した上で出力す
る場合もあり得る。

【００１８】通信端末１−１〜１−ｎは、音声入力部１
１、映像入力部１２、音声出力部１３、映像表示部１
４、通信制御部１５および注目情報反映出力生成部２を
有する。音声入力部１１は、マイクなどの音声入力装置
からユーザの音声情報を取り込み、音声信号１０１とし
て、注目情報反映出力生成部２内の音声解析部２１、お
よび音声信号１０１と同一の音声信号１０２を通信制御
部１５へ出力する。音声解析部２１は、音声信号１０１
の振幅、周波数などの状態や変化などを利用することに
より、例えば、発言単語、発言時間、音声の音圧(音量)
である音声レベルなどを検出する機能を有している。特
定の発言単語を検出する方式としては、例えば、連続動
的計画法を利用した不特定話者の連続発話認識方法を用
いる。

【００１９】また、音声レベルを算出する方式として
は、例えば、音声信号の振幅や周波数の変化を検出する
方法を用いる。音声解析部２１は、検出した発言単語
を、例えば、特定の識別番号に変換したものを音声解析
信号として記述し、音声解析信号１０３として注目情報
解析伝達部２３内の注目情報解析部２３１へ、および音
声解析信号１０３と同一の音声解析信号１０４として通
信制御部１５へ出力する。これにより、あるユーザがど
のような話題に関する話をしているのかを特定でき、注
目情報の１つである発言単語に関連する情報を付加する
などした共有情報を他のユーザに出力することが可能と
なる。

【００２０】一方、映像入力部１２は、音声入力と同時
にＣＣＤカメラなどの映像入力装置からユーザの映像情
報を取り込み、映像信号１０５として注目情報反映出力
生成部２内の映像解析部２２へ出力し、さらに映像信号
１０５と同一の映像信号１０６として通信制御部１５へ
出力する。

【００２１】映像解析部２２は，映像信号１０５の濃淡
や色彩の差とその変化などを利用することにより、例え
ば、ユーザの動作、視線、姿勢、位置、表情などを検出
する機能を有する。顔の位置や手の位置などを特定する
方式としては、例えば、画像から人物の肌色の領域を抽
出することで頭や手等の位置を検出する方法を用いる。
また、顔領域から眼、鼻、口などの顔の各部位を特定す
る方式としては、例えば、顔であると特定した肌色の領
域から、濃淡や色の差や変化、および眼、鼻、口などの
人物の顔の構造をモデルとして利用することにより部位
を特定する方法を用いる。さらに、ユーザの顔の向きを
特定する方式としては、例えば、顔の各部位の位置関係
を利用することにより特定する方法を用いる。さらに、
ユーザの視線方向を特定する方式としては、例えば、眼
であると特定された領域の中から画像の色彩や濃淡の差
や変化などから瞳孔の位置を特定する方法を用いる。

【００２２】また、映像解析部２２は、検出した視線方
向の変化を、例えば、ユーザが見ている画面上の座標値
に変換したものを映像解析信号として記述する。そし
て、映像解析信号１０７として注目情報解析伝達部２３
内の注目情報解析部２３１へ出力し、さらに映像解析信
号１０７と同一の映像解析信号１０８として通信制御部
１５へ出力する。これにより、あるユーザが共有情報の
何を見ているのかを特定でき、注目情報の１つである視
線方向を反映した共有情報を他のユーザに出力すること
が可能となる。

【００２３】ここで，図１に示すマルチモーダルコミュ
ニケーション支援装置の各通信端末１−１〜１−ｎと対
話管理部３との間、および各通信端末１−１〜１−ｎ間
の通信は、通信回線４を介してメッセージを利用し通信
している。そこで、通信される情報の伝送に用いられる
メッセージのフォーマットについて説明する。

【００２４】図２は、伝送メッセージのフォーマットの
一例を示している。伝送メッセージは、伝送される情報
が音声情報なのか、映像情報なのか、音声解析情報なの
か、映像解析情報なのかあるいは対話解析情報なのかを
識別するための情報種別識別番号と、伝送される情報を
生成したユーザ(通信端末)を識別するため、もしくはど
のユーザに関する情報であるのかを識別するためのユー
ザ識別番号と、対話解析信号のように関連するユーザの
情報が必要な場合の任意の数の関連ユーザ識別番号と、
情報内容とによって構成されている。尚、伝送メッセー
ジは、固定長もしくは可変長のメッセージである。ま
た、伝送メッセージ内での、情報種別識別番号、ユーザ
識別番号、関連ユーザ識別番号、および情報内容の配置
は、図２の形には限定されることはなく、時間情報など
の他の情報が伝送メッセージ内に含まれる構成にしても
よい。

【００２５】次に、図３は通信制御部１５の詳細な構成
を示す図である。図１で示した各通信端末１−１〜１−
ｎの通信制御部１５は、通信回線４を介して、伝送メッ
セージを各通信端末１−１〜１−ｎおよび対話管理部３
との間で送受信する機能を有する。図３において、通信
制御部１５は、音声信号１０２、音声解析信号１０４、
映像信号１０６および映像解析信号１０８を伝送メッセ
ージに変換し送信メッセージ２０１としてメッセージ送
受信部１５２へ出力するメッセージ変換部１５１と、送
信メッセージ２０１を通信回線４を介して各通信端末１
−１〜１−ｎ、および対話管理部３へ送信する機能を有
する。また、通信回線４を介して伝送されるメッセージ
を受信メッセージ２０２としてメッセージ分配出力部１
５３へと出力する機能を有するメッセージ送受信部１５
２と、受信メッセージ２０２を情報種別に応じて分配し
各信号へ変換し、音声信号１０９として注目情報反映出
力生成部２内の注目情報伝達音声生成部２４へ出力し、
映像信号１１０として注目情報伝達映像生成部２５へ出
力し、対話解析信号１１１として注目情報解析伝達部２
３内の注目情報解析部２３１へ出力する機能を有するメ
ッセージ分配出力部１５３とによって構成されている。

【００２６】次に、図４は対話管理部３の詳細な構成を
示す図である。図４において、対話管理部３は，通信制
御部３１、音声解析結果管理部３２、映像解析結果管理
部３３および対話解析部３４とにより構成されている。
対話管理部３内の通信制御部３１は、通信端末１−１〜
１−ｎ内の通信制御部１５と同様の構成及び機能を有し
ており、通信回線４を介して各通信端末１−１〜１−ｎ
からメッセージとして、音声解析信号および映像解析信
号を受信し，受信したメッセージを分配し、音声解析信
号３０１として音声解析結果管理部３２へ出力し、およ
び映像解析信号３０２として映像解析結果管理部３３へ
出力する。また、対話解析部３４からの対話解析信号３
０３を通信回線４を介して、各通信端末１−１〜１−ｎ
へメッセージとして送信する機能を有している。

【００２７】音声解析結果管理部３２は、各ユーザの音
声解析結果から、各ユーザが何の話題に関して話してい
るのか、誰と話しているのかなど分類管理する機能を有
している。例えば、音声解析信号３０１から、発言単語
別に分類し時間順に並べ替えて管理する。また、発言時
間に一定の時間枠を設けることで、一定時間内にどのユ
ーザが発言に参加しているのかを特定する。音声解析結
果管理部３２は、発言単語別に分類管理した音声解析結
果を、例えば、単語の識別番号と参加ユーザの識別番号
とを音声解析結果管理信号３０４として記述し、対話解
析部３４へ出力する。これにより、ある話題に参加して
いるユーザを特定することが可能である。

【００２８】映像解析結果管理部３３は、各ユーザの映
像解析結果から、各ユーザが何を見ているのか、誰を見
ているのか、何を操作しているのかなどを分類管理する
機能を有している。例えば、映像解析信号３０２から、
各ユーザの視線情報を相互に利用することで、あるユー
ザが他のどのユーザから視線を向けられているのかを管
理する。さらに、映像解析結果管理部３３は、各ユーザ
がどのユーザから視線を向けられているのかを、例え
ば、ユーザの識別番号と、そのユーザに視線を向けてい
るユーザの識別番号とを、映像解析結果管理信号３０５
として記述し、対話解析部３４へ出力する。これによ
り、各ユーザが他のどのユーザから注目されているの
か、視線を向けられているのかを把握することができ
る。

【００２９】対話解析部３４は、音声解析結果管理部３
２からの音声解析結果管理信号３０４、および映像解析
結果管理部３３からの映像解析結果管理信号３０５か
ら、参加ユーザ間の対話状態を解析する機能を有する。
ここで対話状態とは、あるユーザと同じ話題に関して話
しているのは他のどのユーザであるのか、また、その同
一の話題に関して話している中で誰に視線を向けて話を
聞いているのか、もしくは話をしているのかなどの、ユ
ーザがどのような対話をしているのかという状態のこと
である。

【００３０】対話状態は相手側からの視点に重点を置い
た注目情報という意味合いも有している。例えば、特開
平９−２３１１５４による従来技術では、発言内容が似
通っており、指示アイコンが近い場所に表示されている
場合には、実際には単に発言内容が似通っているだけで
違う人に注目していたり、違う場所を注目していたりす
る場合にも、対話が成立していると判断されがちにな
り、コミュニケーションを図る上で障害になる場合があ
る。

【００３１】しかし、本発明の方式では、例えば、音声
解析結果管理信号３０４から、話題別の参加ユーザの情
報を、映像解析結果管理信号３０５から、ユーザ間で互
いに視線が合っており対面状態にあるユーザの情報を、
統合的に利用する。これによって、発言単語などから推
測される話題としては似通っており、ユーザ間で対話が
成立していると判断されがちな場合でも、対面状態にあ
るか否かによって実際の対話が成立しているか否かを判
断することが可能となる。よって、ユーザ間でコミュニ
ケーションを図る上で重要となる互いの対話状態の把握
を実現することができる。例えば、対話成立状態にある
ユーザの識別番号、ユーザの視線方向の数値情報、およ
びユーザの発言単語の識別番号を、対話解析信号３０３
として記述する。そして、この信号を通信制御部３１へ
出力し、通信回線４を介して、各通信端末１−１〜１−
ｎへメッセージとして出力する。これにより、各ユーザ
の対話状態が把握でき、話題が似通ってはいても、実際
には同一のグループでの対話であるのか、異なるグルー
プでの対話であるのかを検出することが可能となり、円
滑なコミュニケーションを実現することができる。

【００３２】次に、図５は注目情報反映出力生成部２内
の注目情報解析伝達部２３の詳細な構成を示す図であ
る。注目情報解析伝達部２３は、注目情報解析部２３１
と出力制御決定部２３２とから構成されている。注目情
報解析部２３１は、通信制御部１５からの対話解析信号
１１１、音声解析部２１からの音声解析信号１０３、お
よび映像解析部２２からの映像解析信号１０７とから、
ユーザ自身、および他のユーザの注目情報を検出し、例
えば、どのような発言単語に注目しているのか、共有情
報の表示画面上のどの位置に注目しているのかなどを記
述した注目情報解析信号２０１を出力決定制御部２３２
へ出力する。

【００３３】出力決定制御部２３２は、注目情報解析信
号２０１から注目情報を反映した音声によるフィードバ
ックを実現するための音声出力制御信号１１２を、注目
情報伝達音声生成部２４内の音声出力制御部２４１へ出
力し、さらに、映像によるフィードバックを実現するた
めの映像表示制御命令信号１１３を、注目情報伝達映像
生成部２５内の映像表示制御部２５１へ出力する。例え
ば、対話解析信号１１１から、ユーザがどのような話題
に関して話をしているのか、他のどのユーザから注目さ
れているのかなどを解析することが出来る。また、対話
解析信号１１１から検出される対話状態だけではなく、
現時点のユーザに関する音声解析信号１０３、および映
像解析信号１０７から、現在、ユーザが何を話している
のか、何を操作しているのか、誰を見ているのかなどを
特定することもできる。これにより、ユーザが現時点で
は注目していない場合でも、他のどのユーザから注目さ
れているのかなどを特定することも可能となる。

【００３４】注目情報解析伝達部２３は、注目情報解析
部２３１により検出される出力を制御するための情報で
ある注目情報解析信号２０１を、出力制御決定部２３２
において、例えば、発言単語の内容、合成音声を生成す
るか否か、生成する合成音声の内容、および音声レベル
などを音声出力制御信号１１２として記述する。そし
て、音声出力制御信号１１２を注目情報伝達音声生成部
２４内の音声出力制御部２４１へ出力する。また、注目
している領域の位置情報やユーザを見ている他のユーザ
の識別番号、位置情報、注目情報伝達映像生成部２５内
の映像蓄積部２５２から読み出す映像データの指定、お
よび拡大、縮小、変形などの映像効果を施すか否かなど
を映像表示制御信号１１３として記述し、この映像表示
制御信号１１３を注目情報伝達映像生成部２５内の映像
表示制御部２５１へ出力する。これにより、ユーザが現
時点で注目している特定のユーザや対象に関する情報を
検出することが可能となり、ユーザの注目度合いに応じ
た音声、および映像によるフィードバックを利用したコ
ミュニケーション支援が実現可能となる。

【００３５】次に、図６は注目情報伝達音声生成部２４
の詳細な構成を示す図である。図６において、注目情報
伝達音声生成部２４は、音声出力制御部２４１と、人工
の合成音声を生成する合成音声生成部２４２と、人物の
音声データ、各種の効果音データなどを蓄積管理してい
る音声データ蓄積部２４３とから構成されている。音声
出力制御部２４１は、注目情報解析伝達部２３からの音
声出力制御信号１１２に応じて、通信制御部１５からの
音声信号１０９の音声レベルを調整する。そして、音声
レベルを調整された音声信号１０９は、音声データ蓄積
部２４３に蓄積されている人物の音声データや各種の効
果音データなどを利用して、コミュニケーション支援の
ための合成音声を生成する合成音声生成部２４２によっ
て制御され、音声信号１１４として音声出力部１３へ出
力される。

【００３６】例えば、注目情報解析伝達部２３で、ユー
ザＡがユーザＢと視線を合わせて対話しており、その一
方で、ユーザＣがユーザＡの方向を一定時間以上見てい
ると判断された場合には、ユーザＣがずっと視線を向け
ているという情報を、合成音声としてユーザＡへ出力す
る。また、注意喚起のために効果音を出力することも可
能である。これにより、あまりユーザが注目していなか
った他のユーザからのコミュニケーションの働きかけに
気づくことが可能となる。また、ユーザＣからの注目情
報を音声ではなく、映像を利用してフィードバックする
ことも可能であるし、音声、および映像の両方を利用し
てフィードバックすることも可能である。

【００３７】図７は注目情報伝達映像生成部２５の詳細
な構成を示す図である。図７において、注目情報伝達映
像生成部２５は、映像表示制御部２５１と、映像データ
を蓄積管理している映像データ蓄積部２５２と、映像合
成部２５３とによって構成されている。注目情報伝達映
像生成部２５は、注目情報解析伝達部２３からの映像表
示制御信号１１３に応じて、映像データ蓄積部２５２か
ら画像データを読み出し、映像信号として映像合成部２
５３へ出力する。映像データ蓄積部２５２は、例えば、
相手ユーザの注目領域を強調表示するための指示矢印、
動作情報を持ったキャラクタなどの各種の画像データを
蓄積管理している。映像合成部２５３は、映像表示制御
部２５１からの制御信号に応じて、通信制御部１５から
の映像信号１１０に、映像蓄積部２５２から読み出した
画像データを重畳表示する機能や、映像信号１１０を拡
大、縮小、および変形するなどの機能を有する。

【００３８】映像合成部２５３は、映像表示制御部２５
１からの制御信号に応じて、これらの機能を利用するこ
とにより合成映像を生成し、映像信号１１５として映像
表示部１４へ出力する。例えば、注目している他のユー
ザが共有空間中のある対象を指示した場合に、どの対象
が指示されたのかを容易に理解できるように、対象に指
示矢印を重畳表示したり対象を枠で囲み点滅させるなど
の映像フィードバックを実現する。これにより、ユーザ
は相手が何を見ているのか、何に関して話しているのか
などを即座に把握することができ、ユーザ間での円滑な
コミュニケーションを実現することが可能となる。

【００３９】図８は、本発明のマルチモーダルコミュニ
ケーション支援システムにおける画面例を示す図面であ
る。この図は、ユーザ３０１が共有情報の表示画面上の
ユーザ２０５の方向へ視線を向けており、ユーザ２０５
の発言内容に注意を払っている場合の画面例である。こ
の場合、ユーザ３０１が視線４０１を向けている先にい
る、ユーザ２０５の視線４０２の先にある対象への強調
枠２０１、その対象強調枠２０１に関しての補足情報２
０２、ユーザ２０５自身の名前や所属などの補足情報２
０３、およびユーザ２０５との対話における発言内容２
０４などが共有情報に対してフィードバックされる。も
ちろん、音声を利用することによって、さらに、フィー
ドバック効果を高めることも可能である。

【００４０】また、ユーザ３０１自身はユーザ２０６に
視線を向けてはいないが、例えば、ユーザ２０６がある
一定時間以上の間ユーザ３０１に視線４０３を向けてい
るようであれば、ユーザ２０６がユーザ３０１に対して
注目していると考えることができ、ユーザ２０６に関す
る補足情報２０７やユーザ２０６がユーザ３０１に視線
４０３を向けていることに対して、ユーザ３０１に注意
を促す音声２０８などがフィードバックされる。これに
より、ユーザ３０１は自身の注目情報に対するフィード
バック、さらに、自身に対しての注目情報のフィードバ
ックを適切に得ることが可能であり、ユーザ間で円滑な
コミュニケーションを図ることができる。また、ここで
視線方向４０１〜４０３は説明のために示したものであ
り、実際には表示されてはいない。しかし、視線方向４
０１〜４０３を共有情報に対して反映させて出力するこ
とも可能である。

【００４１】また，前述の注目情報に応じて出力された
共有情報への音声、特に、映像によるフィードバック
は、各ユーザによって２次利用することが可能である。
例えば、相手のユーザが話題にしている共有情報中の対
象に枠が重畳表示され点滅する等して強調表示されてい
る場合に、各ユーザは強調表示されている対象を再度指
示することなく、例えば、「このデザインはなかなかい
いですねぇ」などの発言から、同一の対象に注目してい
るという情報を相手の通信端末上の共有情報に反映させ
て出力することなどが可能となる。

【００４２】ところで、上述した第１の実施の形態にお
いて、ユーザの注目情報を検出するために、マイクなど
の音声入力装置から入力される音声情報およびカメラな
どの映像入力装置から入力される映像情報を利用してい
るが、ユーザの注目情報を検出するために利用する情報
は、音声情報、映像情報に限られるものではない。例え
ば、共有情報の中のメニュー等の選択手段として、マウ
ス等のポインティングデバイスから入力されるメニュー
選択情報を、ユーザの注目情報の検出のための情報とし
て利用してもよい。

【００４３】次に、本発明のマルチモーダルコミュニケ
ーション支援装置の第２の実施形態について説明する。
図９は、本発明の第２の実施の形態のマルチモーダルコ
ミュニケーション支援装置の構成を示す図である。第２
の実施の形態では、図１に示すマルチモーダルコミュニ
ケーション支援装置の対話管理部３を、各通信端末１−
１〜１−ｎ内に設けている。すなわち、図９において、
対話管理部５３を各通信端末１−１〜１−ｎ内に設けて
いる。対話管理部５３の機能及び構成は図１に示す対話
管理部３とほぼ同様であるが、図１に示す対話管理部３
内の通信制御部３１に相当する機能を、図９に示す対話
管理部５３内にではなく、各通信端末１−１〜１−ｎ内
の通信制御部１５により実現している。

【００４４】図１０は、図９に示す各通信端末１−１〜
１−ｎ内の対話管理部５３の詳細を示す図である。対話
管理部５３は、音声解析結果管理部５３１と、映像解析
結果管理部５３２と、対話解析部５３３とによって構成
されている。前記音声解析結果管理部５３１、前記映像
解析結果管理部５３２の機能は、図１及び図４に示す対
話管理部３内の音声解析結果管理部３２及び映像解析結
果管理部３３と同様である。前記対話解析部５３３に関
しても、図１及び図４に示す対話管理部３内の対話解析
部３４とほぼ同様であるが、対話解析信号２０５を各通
信端末１−１〜１−ｎ内の注目情報解析伝達部５４へ出
力する部分が異なる。

【００４５】従って、各通信端末１−１〜１−ｎにおけ
る音声解析信号２０１、映像解析信号２０２は、通信制
御部１５から通信回線４を介して、各通信端末１−１〜
１−ｎへと伝送される。そして、各通信端末１−１〜１
−ｎ内の通信制御部１５は、受信した音声解析信号２０
３を対話管理部５３内の音声解析結果管理部５３１へ出
力し、受信した映像解析信号２０４を対話管理部５３内
の映像解析結果管理部５３２へと出力する。前記音声解
析結果管理部５３１は、各通信端末１−１〜１−ｎから
の音声解析結果信号２０３から発言単語別の参加ユーザ
などを解析し、音声解析結果管理信号３０１として対話
解析部５３３へと出力する。

【００４６】また、前記映像解析結果管理部５３２は、
各通信端末１−１〜１−ｎからの映像解析結果信号２０
４から視線が合っており対面状態にあるユーザなどを解
析し、映像解析結果管理信号３０２として対話解析部２
１３へ出力する。対話解析部５３３は、前記音声解析結
果管理信号３０１と前記映像解析結果管理信号３０２か
ら、ユーザがどのような話題に関して話をしており、他
のどのユーザから視線を向けられているのかなどのユー
ザの対話状態を解析し、対話解析信号２０５として注目
情報解析伝達部５４へと出力する。

【００４７】このように、各通信端末１−１〜１−ｎ内
に対話管理部５３を設けることにより、図１に示す対話
管理部３が通信回線４を介して、各通信端末１−１〜１
−ｎから音声解析信号、映像解析信号を受け取り、前記
音声解析信号および前記映像解析信号から対話状態を解
析し、再び通信回線４を介して各通信端末１−１〜１−
ｎへ対話解析信号として出力する場合よりも、通信遅延
の影響が減少することによる応答性能の向上を実現させ
ることが可能となる。

【００４８】次に、本発明のマルチモーダルコミュニケ
ーション支援装置の第３の実施形態について説明する。
図１１は、本発明の第３の実施の形態であるマルチモー
ダルコミュニケーション支援装置の構成を示す図であ
る。図１に示すマルチモーダルコミュニケーション支援
装置においては、注目情報解析伝達部２３から出力され
る音声出力制御信号１１２および映像表示制御信号１１
３に応じて、注目情報伝達音声生成部２４および注目情
報伝達映像生成部２５により、音声出力および映像表示
の制御を実現することを可能としている。しかし、図１
に示す第１の実施形態では，これらの出力間での厳密な
同期制御は行っていない。ところが、図１１に示す第３
の実施の形態では、図１に示すマルチモーダルコミュニ
ケーション支援システムの注目情報反映出力生成部２内
に、さらに、音声出力および映像表示の同期制御を実現
する機能を有する出力同期制御部６４を付加した構成と
なっており、より効果的なフィードバックを実現するこ
とを可能とする。

【００４９】図１１に示す注目情報解析伝達部６３は、
図１に示す注目情報解析伝達部２３と同様の機能及び構
成を有しているが、例えば、音声出力もしくは映像表示
に関する情報種別識別番号、各制御信号を区別するため
の制御信号識別番号、制御内容、同期制御を行うか否か
に関する状態識別番号、および同期制御を行う場合の制
御信号識別番号などを記述した注目情報解析信号２０１
として出力同期制御部６４へと出力する機能を有してい
る点が異なる。

【００５０】出力同期制御部６４は、注目情報解析伝達
部６３から出力される注目情報解析信号２０１に応じ
て、同期制御を行う必要があるか否か、同期制御を行う
場合にどの制御信号との間で同期制御を実現するのかな
どを管理し制御する機能と、音声出力制御信号２０２と
して注目情報伝達音声生成部６５へ出力し、映像表示制
御信号２０３として注目情報伝達映像生成部６６へ出力
する機能とを有している。これにより、例えば、擬人化
キャラクタなどの映像表示と音声出力とを正確に同期さ
せることが可能となり、より効果的なフィードバックを
実現することにより円滑なコミュニケーションを実現す
ることを可能とする。

【００５１】次に、本発明の第４の実施形態について説
明する。図１２は、本発明の第４の実施の形態であるマ
ルチモーダルコミュニケーション支援装置の構成を示す
図である。第４の実施の形態では、図１に示すマルチモ
ーダルコミュニケーション支援装置と同様の機能及び構
成を有しているが、第１の実施の形態の構成に対して、
さらに、対話管理部３から出力される対話解析信号を蓄
積管理する機能を有する対話履歴蓄積部５を有している
点が異なる。

【００５２】対話履歴蓄積部５は、対話管理部３におい
て出力される対話解析信号を蓄積管理する機能を有して
おり、例えば、蓄積している対話解析信号をユーザ別に
管理したり、時間により並べ替えて管理することなどに
より、ユーザ指定や時間指定などにより任意の対話解析
信号を逐次読み出すことが可能となる。これにより、対
話状態の遷移を把握することができ、現在の対話状態だ
けではなく、過去の対話状態を参照した上で注目情報を
解析することが可能となり、より対話の流れに沿った注
目情報のフィードバックを実現することで、さらに円滑
なコミュニケーションを図ることができる。また、図１
に示すマルチモーダルコミュニケーション支援装置の、
音声解析部２１、映像解析部２２、注目情報解析伝達部
２３に関して、各解析信号の履歴を蓄積管理する部分を
付加する形態もあり得る。

【００５３】ところで、上述した第２、第３、および第
４の実施の形態においても、第１の実施の形態の場合と
同様に、ユーザの注目情報を検出するための情報とし
て、マウスなどのポインティングデバイスから入力され
るメニュー選択情報を利用してもよい。

【００５４】

【発明の効果】以上説明したように、本発明の第１の実
施の形態のマルチモーダルコミュニケーション支援装置
によれば、ユーザの注目情報、例えば、マイクなどの音
声入力装置から入力される音声から音声解析部で発言単
語を識別し、カメラなどの映像入力装置から入力される
映像から映像解析部でユーザが現在どの部分に視線を向
けているのかを検出し、対話管理部でユーザがどのよう
な話題に関して話をしており、誰から視線を向けられて
いるのかなどの対話状態を解析し、注目情報解析伝達部
でこれらの情報を利用して前記注目情報を検出し、それ
に応じた出力制御信号を生成して出力する。これによっ
て、出力音声生成部及び映像生成部を制御し、共有情報
に対して各ユーザの注目情報に応じた音声及び映像効果
を利用したフィードバックが可能である。しかも、ユー
ザの注目情報は、各ユーザ個別に検出されるものであ
り、各ユーザによって異なったフィードバックを実現す
ることが可能となる。

【００５５】従って、ユーザがコミュニケーションを図
る上で重要な情報を、コミュニケーションを図る土台に
なっている共有情報を介して、もしくは共有情報に付加
することによって、各ユーザにフィードバックすること
が可能となる。特に、ユーザによって注目している情報
が異なっている場合が多々あるが、各ユーザに関して個
々の注目情報を検出しているので、各ユーザの注目して
いる情報に応じて各ユーザへフィードバックすることが
可能であり、他のユーザの注目情報に左右されることな
く適切なフィードバックを実現することができる。これ
により、多くのユーザが参加している場合にも、フィー
ドバックされる情報は煩雑になることはなく、各ユーザ
が注目している必要な情報に関するフィードバックを実
現することが可能となる。

【００５６】また、本発明の第２の実施の形態のマルチ
モーダルコミュニケーション支援装置によれば、対話管
理部は、各ユーザの音声解析結果、もしくは各ユーザの
映像解析結果だけではなく、各ユーザの音声解析結果と
映像解析結果の両方を統合的に利用し解析することによ
り、例えば、各ユーザがどのような話題に関して話して
いるグループに属しているのか、しかも、そのグループ
内でユーザは誰から視線を向けられているのか、視線は
向けられていても視線を向けているユーザとは異なる話
題に関して話しているのかなどの対話状態を解析するこ
とが可能であり、ユーザの注目情報を検出する上で各ユ
ーザの対話状態の解析は重要な情報となる。

【００５７】従って、各ユーザは自分が対話している状
態を維持したままで、特別なフィードバック制御を行わ
ずに、各ユーザの対話の進行に応じて、適宜フィードバ
ックを得ることが可能となる。これにより、各ユーザは
フィードバックを得るために、特別な操作をする必要が
なくなりコミュニケーションに専念することが可能とな
る。特に、テレビ会議のように各ユーザが分散している
ような環境では、各ユーザはコミュニケーションとは関
係ない部分の操作をすることで、相手の状態を把握する
ことが困難になることがあるが、各ユーザの対話状態を
利用して注目情報を検出し、対話状態および注目情報に
応じたフィードバックを、特別な操作なしに実現するこ
とにより、円滑なコミュニケーションを実現することが
可能となる。

【００５８】また、第３、第４の実施の形態では，ユー
ザの注目情報に応じて、例えば、ユーザが視線を向けて
いる相手ユーザが何を見ているのか、どの対象に関して
話しているのかなどを、音声及び映像を利用した各ユー
ザへのフィードバックを実現することが可能である。し
かも、フィードバックする際には、単に合成音声を生成
し出力する、キャラクタなどの動画像と一緒に合成音声
を出力する、他にも音声でなく、例えば、文章を文字映
像として出力する、共有情報の特定箇所を強調するため
に枠などを重畳表示した上で点滅させるなどの各種の効
果を利用したフィードバックを実現することが可能であ
る。これにより、各ユーザは相手ユーザの注目情報が反
映された共有情報を介して、コミュニケーションを図る
ことが可能となる。

【００５９】従って、各ユーザは共有情報に反映される
相手ユーザの注目状態を適宜把握しながら、また、その
注目情報を利用することで円滑なコミュニケーションを
実現することが可能となる。相手ユーザの注目情報を利
用するとは、例えば、相手ユーザが注目している対象が
フィードバック情報により把握可能であり、その対象を
ユーザが再度指定することなく、「これはなかなかいい
ですね」等の発言によって、ユーザがその対象を指示し
たり、注目しているという情報を相手ユーザにフィード
バックすることも可能となる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態のマルチモーダル
コミュニケーション支援装置の構成を示す図。

【図２】本発明の第１の実施の形態のマルチモーダル
コミュニケーション支援装置における伝送メッセージの
フォーマットの一例を示す図。

【図３】図１にけるマルチモーダルコミュニケーショ
ン支援装置の構成の一部である通信制御部の詳細な構成
を示す図。

【図４】図１にけるマルチモーダルコミュニケーショ
ン支援装置の構成の一部である対話管理部の詳細な構成
を示す図。

【図５】図１にけるマルチモーダルコミュニケーショ
ン支援装置の構成の一部である注目情報解析伝達部の詳
細な構成を示す図。

【図６】図１にけるマルチモーダルコミュニケーショ
ン支援装置の構成の一部である注目情報伝達音声生成部
の詳細な構成を示す図。

【図７】図１にけるマルチモーダルコミュニケーショ
ン支援装置の構成の一部である注目情報伝達映像生成部
の詳細な構成を示す図。

【図８】本発明のマルチモーダルコミュニケーション
支援装置の画面例を示す図。

【図９】本発明の第２の実施の形態のマルチモーダル
コミュニケーション支援装置の構成を示す図。

【図１０】図９におけるマルチモーダルコミュニケー
ション支援装置の構成の一部である対話管理部の詳細な
構成を示す図。

【図１１】本発明の第３の実施の形態のマルチモーダ
ルコミュニケーション支援装置の構成を示す図。

【図１２】本発明の第４の実施の形態のマルチモーダ
ルコミュニケーション支援装置の構成を示す図。

【図１３】従来のコミュニケーション支援装置の構成
の一例を示す図。

【図１４】従来のコミュニケーション支援装置の構成
の他の例を示す図。

【符号の説明】

１−１〜１−ｎ…通信端末、１１…音声入力部、１２…
映像入力部、１３…音声出力部、１４…映像表示部、１
５，３１…通信制御部、１０１，１０２，１０９，１１
４…音声信号、１０３，１０４…音声解析信号、１０
５，１０６，１１０，１１５…映像信号、１０７，１０
８…映像解析信号、１１１…対話解析信号、１１２…音
声出力制御信号、１１３…映像表示制御信号、２…注目
情報反映出力生成部、２１…音声解析部、２２…映像解
析部、２３…注目情報解析伝達部、２４…注目情報伝達
音声生成部、２５…注目情報伝達映像生成部、３…対話
管理部、３２…音声解析結果管理部、３３…映像解析結
果管理部、３４…対話解析部、４…通信回線

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5C064 AA01 AA02 AB02 AC02 AC06 AC08 AC09 AC15 AD08 AD09 AD14 5E501 AA04 AA13 AB19 AC14 BA03 BA09 CA02 CA08 CC08 DA03 EA21 FA04 FA15 FA32 FA43 FA46 FB44

Claims

【特許請求の範囲】

【請求項１】複数の端末の出力装置、もしくは複数の
端末で共有する少なくとも１台の出力装置に、同時にか
つ同一の共有情報を出力可能であるとともに、ユーザの
注目情報を前記共有情報に反映させ出力することが可能
なコミュニケーション支援装置において、前記注目情報を検出するために、ユーザの入力する音声
から単語を識別するなどの機能を有する音声解析部と、ユーザの映像からユーザの視線などを検出する機能を有
する映像解析部と、前記コミュニケーション支援装置を利用している全ての
ユーザ毎に出力され、且つ、前記音声解析部及び前記映
像解析部の各々の解析結果から、各ユーザが他のどのユ
ーザから視線を向けられているのか、話し掛けられてい
るのかなどの注目情報を検出する要素となる対話の状態
を解析する対話管理部と、各ユーザの前記音声解析部、前記映像解析部及び前記対
話管理部からの解析結果を統合し、各ユーザがどの相手
ユーザの話を聞いており、その相手ユーザは何を見てい
るのかなどの注目情報を検出し、さらに、該注目情報を
前記共有情報に反映させるために、音声及び映像の制御
信号を出力する注目情報解析伝達部と、前記注目情報解析伝達部からの音声に関する制御信号に
応じて、合成音声を生成するなどの機能を有する注目情
報伝達音声生成部と、前記注目情報解析伝達部からの映像に関する制御信号に
応じて、相手ユーザの注目領域を強調表示するなどの機
能を有する注目情報伝達映像生成部と、を備えていることを特徴とするマルチモーダルコミュニ
ケーション支援装置。
【請求項２】前記対話管理部は、前記端末を操作する各ユーザが入力する音声から発言単
語、音声レベルなどを解析した音声解析信号と、各ユーザの映像から共有情報中の注目位置等を解析した
映像解析信号とから、前記ユーザ間での対話を解析して対話解析信号として検
出することを特徴とする請求項１記載のマルチモーダル
コミュニケーション支援装置。
【請求項３】前記注目情報解析伝達部は、前記対話管理部から検出された対話解析信号と、各ユー
ザの音声情報および映像情報との解析結果とから、現時点での各ユーザの必要としている情報である注目情
報を検出して、音声出力制御信号と映像表示制御信号と
を生成することを特徴とする請求項１または請求項２記
載のマルチモーダルコミュニケーション支援装置。
【請求項４】前記注目情報は、音声および映像により、前記共有情報を介して出力され
るか、または前記共有情報に付加する形で出力され、出力された前記注目情報は、各ユーザにより再利用が可
能であることを特徴とする請求項１ないし請求項３の何
れか１項記載のマルチモーダルコミュニケーション支援
装置。