JP2004194009A

JP2004194009A - 利用者映像提示用サーバ装置及び利用者用端末装置並びに両者を用いた利用者映像提示方法

Info

Publication number: JP2004194009A
Application number: JP2002359934A
Authority: JP
Inventors: Takashi Yagi; 貴史八木; Minoru Kobayashi; 稔小林; Satoshi Ishibashi; 聡石橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-12-11
Filing date: 2002-12-11
Publication date: 2004-07-08

Abstract

【課題】多地点テレビ会議システムにおいて、各地点に1台のカメラ、１台のディスプレイという簡易な端末装置で、ネットワークに大きな負担をかけずに、会議における合意形成の過程を円滑に推進する。
【解決手段】複数の端末をネットワークで接続し、端末利用者の画像や音声を送受信しあうことにより、多地点に分散した複数の利用者によるコミュニケーションを実現する多地点テレビ会議システムにおいて、各端末で自端末利用者映像を含む全ての端末利用者映像を表示する段階と、全端末の利用者入力の有無を判定する段階と、前記判定する段階で判定された利用者入力の有無に基づき、全ての端末で同期して各端末の利用者映像を順次強調表示していく段階とを具備する利用者映像提示方法である。
【選択図】図３

Description

【０００１】
【発明の属する技術分野】
本発明は、複数の端末をネットワークで接続し、端末利用者の画像や音声を送受信しあうことにより、多地点に分散した複数の利用者によるコミュニケーションを実現する多地点テレビ会議システムの利用者映像提示方法に関する。
【０００２】
【従来の技術】
従来、複数の端末をネットワークで接続し、端末利用者の画像や音声を送受信しあうことにより、多地点に分散した複数の利用者によるコミュニケーションを実現する多地点テレビ会議システムがある。
【０００３】
典型的な多地点テレビ会議システムでは、1つの地点に１台のカメラと１台のディスプレイを配置し、各地点の利用者映像を画面にタイル状に並べて表示する。発言者の識別を容易にするために、画像枠の色を変えるなどして、タイル状に並べて表示する。
【０００４】
接続相手ごとに撮影装置と表示装置を用意することで視線の一致を表現する多地点テレビ会議システムがある。トロント大学のHydraはカメラとディスプレイを一体にした小型の装置をある程度の間隔を開けて机上に配置する。ディスプレイが小型で、かつカメラと一体になっているため、利用者映像とカメラの位置関係を厳密に調整する必要がなく、装置を適度な間隔をあけて配置するだけで、自然に視線の一致が実現されるようになっている。
【０００５】
Hydraの詳細については、文献１(Sellen A. Buxton W.A Arnott J. "Using spatial cues to improve videoconferencing"、Proceedings of CHI '92 pp.651-652 1992)などに記述されている。
【０００６】
より高い臨場感を提伏する多地点テレビ会議システムとして、慶應義塾大学のMAJICがある。MAJICは半透過型のスクリーンを曲面状に設置し、遠隔２地点の利用者の等身大画像を投影する。スクリーンに投影される利用者映像の後方にそれぞれの対地用のカメラを設置することにより、３地点の利用者間での視線一致を実現している。異なった地点から送られてくる背景を実現し臨場感を高める工夫をしている。
【０００７】
MAJICの詳細については、文献２(岡田謙一、松下温、"臨場感のある多地点テレビ会議システム:MAJIC"、信号（情報）処理学会論文誌、Voｌ.36 No.3 pp.775-783 1995)などに記述されている。
【０００８】
視線検知器を使用して利用者の視線方向を伝達するシステムがある。クィーンズ大学のGAZE-2は、ハーフミラーを用いてディスプレイと複数台のカメラを光学的に共役な位置に設置する。視線検知器より得られた信号（情報）を用いて、利用者映像をとらえるカメラを選択するとともに、利用者映像を貼り付けた仮想の板をディスプレイ上で回転させることで利用者の視線方向を伝達する。
【０００９】
GAZE-2の詳細については、文献3（VertegaaI R.Weevers I.Shon.C.、"GAZE-2:An Attentive Video Conferencing System"、Extended Abstracts of CH1 2002
pp.736-737 2002)などに記述されている。
【００１０】
【発明が解決しようとする課題】
視線は会議を円滑に進めるための重要な要素である。特に、多人数の会議において、発言に対する同意を求める過程で重要な役割を担っている。例えば、我々は会議の中で、相手を見ることによりその人に同意を求めるということを自然に行っている。見られたほうは見られることにより意見を返すタイミングを容易に得ることができる。また、うなずきのようなノンバーバルな信号（情報）が相手に伝わっているかどうかも、相手が自分を見ているかどうかが分かれば容易に判断することができる。
【００１１】
このように視線信号（情報）の中でも、特に、自分が相手を見ているときに、相手が見られていることを把握できれば、会議における合意形成の過程を円滑に進めることができると期待される。
【００１２】
１地点に１台のカメラと１台のディスプレイを配置する典型的な多地点テレビ会システムでは、利用者の顔映像がタイル状に表示されるだけで、前述のような会議において重要な要素である利用者の視線信号（情報）が伝わらない。
【００１３】
そのため、発言者は発言に対する合意を他の利用者に促すことが容易に行えない。他の利用者は発言のタイミングをうまく得ることができない。さらには、うなずきなどのノンバーバルな信号（情報）が相手利用者に伝わっているのか分からず、結局ノンバーパルな信号（情報）伝達を利用することができないといった問題がある。
【００１４】
前記Hydra、MAJIC、GAZE-2などの多地点会義システムでは、視線信号（情報）を相手に伝えることができるので、自分が相手を見ていること、相手が自分を見ていることが分かり、会議における合意形成の過程を円滑に進めることができる。
【００１５】
しかしながら、これらのシステムでは、視線信号（情報）の伝達を実現するために、利用者から見た相手利用者の映像とカメラの位置が光学的に一致している必要があるなど、カメラとディスプレイの設置位置や、装置に対する利用者の位置に制約がある。そのため、システムの設置が容易でなかったり、利用者の位置が変わると視線信号（情報）がうまく伝わらなくなるといった問題がある。
【００１６】
また、対地数が増えるごとにカメラなどの装置が増え、端末装置が大掛かりになるという問題がある。また、設置位置の物理的な制約により、対地数にも自ずと限界がある。
【００１７】
前記GAZ-2は複数のカメラを用いながらも視線検知器を利用することにより、他の地点に伝達する画像を1つとしてネットワークトラフィックの増大を回避しているが、前記HydraやMAJICでは、各地点ごとに別々の映像を伝達する必要があり、ネットワークトラフィックが増大するという問題がある。
【００１８】
本発明の目的は、複数の端末をネットワークで接続し、端末利用者の画像や音声を送受信しあうことにより、多地点に分数した複数の利用者によるコミュニケーションを実現する多地点テレビ会議システムにおいて、各地点に１台のカメラ、１台のディスプレイという簡易な端末装置で、ネットワーに大きな負担をかけずに、会議における合意形成の過程を円滑に推進することが可能な技術を提供することにある。
【００１９】
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述及び添付図面によって明らかにする。
【００２０】
【課題を解決するための手段】
本願において開示される発明の概要を簡単に説明すれば、以下のとおりである。
【００２１】
第１の発明は、複数の端末をネットワークで接続し、端末利用者の映像や音声を送受信しあうことにより、多地点に分散した複数の利用者によるコミュニケーションを実現する多地点テレビ会議システムに用いる利用者映像提示用サーバ装置であって、前記ネットワークに接続するネットワーク接続部と、前記ネットワーク接続部から入力される信号を復号する復号部と、該復号部で復号された復号信号中の画像信号から映像を合成する画像合成部と、前記復号信号中の音声信号から音声を合成する音声合成部と、前記復号信号から全端末の利用者入力の有無を判定する入力判定部と、前記入力判定部で判定された利用者入力の有無に基づき、全ての端末で同期して各端末の利用者画像を順次強調表示していく強調表示指示信号発生部を具備することを特徴とする。
【００２２】
第２の発明は、複数の端末をネットワークで接続し、端末利用者の画像や音声を送受信しあうことにより、多地点に分散した複数の利用者によるコミュニケーションを実現する多地点テレビ会議システムに用いる利用者用端末装置であって、前記ネットワークに接続するネットワーク接続部と、カメラからの画像信号（画像情報）を入力する画像入力部と、マイクからの音声信号（音声情報）を入力する音声入力部と、利用者が情報をキーボード、マウス等により入力する利用者入力部と、前記画像入力部、音声入力部、及び利用者入力部のそれぞれの出力である画像信号、音声信号、及び利用者信号を符号化してネットワーク接続部に入力する符号化部と、利用者入力の有無に基づき、全ての端末で同期して各端末の利用者画像を順次強調表示していくための強調表示指示信号発生部と、前記復号部及び強調表示指示信号発生部のそれぞれの出力信号から利用者映像を再生する利用者映像再生部とを具備することを特徴とする。
【００２３】
第３の発明は、複数の端末をネットワークで接続し、端末利用者の画像や音声を送受信しあうことにより、多地点に分散した複数の利用者によるコミュニケーションを実現する多地点テレビ会議システムに用いる利用者用端末装置であって、前記ネットワークに接続するネットワーク接続部と、カメラからの画像信号（画像情報）を入力する画像入力部と、マイクからの音声信号（音声情報）を入力する音声入力部と、利用者が情報をキーボード、マウス等により入力する利用者入力部と、前記画像入力部、音声入力部、及び利用者入力部のそれぞれの出力である画像信号、音声信号、及び利用者信号（利用者情報）を符号化してネットワーク接続部に入力する符号化部と、前記ネットワーク接続部から入力される信号を復号する復号部と、前記復号部で復号された信号中の映像信号から映像を合成する画像合成部と、前記復号信号から全端末の利用者入力の有無を判定する入力判定部と、前記復号信号から会議出席者の発言の有無を判定する発言判定部と、前記入力判定部で判定された利用者入力の有無、もしくは発言判定部で判定された利用者（会議出席者）の発言の有無に基づき、全ての端末で同期して各端末の利用者画像を順次強調表示していく強調表示指示信号発生部と、前記画像合成部及び強調表示指示信号発生部のそれぞれの出力信号（情報）から利用者映像を再生する利用者映像再生部とを具備することを特徴とする。
【００２４】
第４の発明は、複数の端末をネットワークで接続し、端末利用者の画像や音声を送受信しあうことにより、多地点に分散した複数の利用者によるコミュニケーションを実現する多地点テレビ会議システムにおいて、各端末で自端末利用者映像を含む全ての端末利用者映像を表示する段階と、全端末の利用者入力の有無を判定する段階と、前記判定する段階で判定された利用者入力の有無に基づき、全ての端末で同期して各端末の利用者映像を順次強調表示していく段階とを具備する利用者映像提示方法である。
【００２５】
第５の発明は、前記第４の発明の利用者映像提示方法において、全端末のキーボード、マウス等による入力を検知する段階を具備し、前記キーボード、マウス等による入力があった場合に、全ての端末で同期して各端末の利用者映像を順次強調表示していくことを特徴とする。
【００２６】
第６の発明は、前記第４又は５の発明の利用者映像提示方法において、全端末の利用者の発言を検知する段階を具備し、利用者入力として発言を用いて、あらかじめ定められた一定の時間間隔、全ての端末で利用者の発言がなかった場合、全ての端末で同期して各端末の利用者映像を順次強調表示していくことを特徴とする。
【００２７】
第７の発明は、前記第４乃至第６のうちいずれか１つの利用者映像提示方法において、端末利用者映像の強調表示として、利用者映像の拡大表示を用いることを特徴とする。
【００２８】
第８の発明は、前記第４乃至第７のうちいずれか１つの利用者映像提示方法において、各端末の利用者映像を順次強調表示していく段階として、あらかじめ定められた規則に従って強調表示する利用者映像を選択する段階と、あらかじめ定められた一定時間の間、選択された利用者映像を強調表示する段階と、次の利用者映像の選択の継続を判定する段階とを具備することを特徴とする。
【００２９】
第９の発明は、前記第８の発明の利用者映像提示方法において、各端末利用者の発言を個別に判定する段階を具備し、各端末利用者映像のリストを保持し、直前に発言した利用者の次の利用者映像を先頭として、リストの順番に従って強調表示する利用者映像を選択することを特徴とする。
【００３０】
第１０の発明は、前記第８又は第９の発明の利用者映像提示方法において、各端末利用者の発言の有無を個別に判定する段階を具備し、利用者の発言があった場合に、利用者映像の選択を終了することを特徴とする。
【００３１】
第１１の発明は、前記第４乃至第１０のうちいずれか１つの利用者映像提示方法において、各端末利用者の発言の有無を個別に判定する段階を具備し、前記発言の有無を個別に判定する段階で判定された個別の発言に基づき、全ての端末で同期して発言中の利用者映像を強調表示することを特徴とする。
【００３２】
第１２の発明は、前記第４乃至第１０のうちいずれか１つの利用者映像提示方法におけるステップをコンピュータに実行させるための利用者映像提示プログラムである。
【００３３】
第１３の発明は、前記第４乃至第１０のうちいずれか１つの利用者映像提示方法におけるステップをコンピュータに実行させためのプログラムとして、前記プログラムを前記コンピュータで読取り可能な記録媒体に記録した利用者映像提示プログラム記録媒体である。
【００３４】
【発明の実施形態】
以下、図面を参照して、本発明についてその実施形態（実施例）の説明とともに詳細に説明する。
本発明の実施形態を説明するための全図において、同一機能を具備するものは符号を付け、その繰り返しの説明は省略する。
【００３５】
（実施例１）
図１は本発明の実施例１の多地点テレビ会議システムにおける利用者映像提示方法を実施するためのサーバ装置の概略構成を示すブロック構成図である。
【００３６】
本実施例１のサーバ装置は、複数の端末をネットワークで接続し、端末利用者の映像や音声を送受信しあうことにより、多地点に分散した複数の利用者によるコミュニケーションを実現する多地点テレビ会議システムに用いる本実施例１の利用者映像提示方法を実施するためのものである。
【００３７】
図１に示すように、本実施例１のサーバ装置１００は、図１に示すように、ネットワーク１０１に接続するネットワーク接続部１と、前記前記ネットワークから入力される信号（情報）を復号する復号部２と、前記復号信号から映像を合成する画像合成部３と、前記復号信号から音声を合成する音声合成部４と、前記復号信号から全端末の利用者入力の有無を判定する入力判定部５と、利用者（会議出者）の誰が発言したかを判定する発言判定部６と、前記入力判定部５で判定された利用者入力の有無に基づき、全ての端末で同期して各端末の利用者画像を順次強調表示していく強調表示指示信号発生部７と、全ての端末を同期させるための同期信号生成部８と、前記画像合成部３、音声合成部４、及び強調表示指示信号発生部７のそれぞれの出力を符号化して前記ネットワーク接続部１に入力する符号化部とを備えている。
【００３８】
前記同期信号生成部８において、前記全ての端末で同期して各端末の利用者画像を順次強調表示していく場合、各端末装置間で、予め時計を同期させておくなどの方法により、同期信号生成部８で生成される同期信号を同期させる。
【００３９】
前記サーバ装置１００は、前記ネットワーク１０１からの信号をネットワーク接続部１で受信する。この受信された信号は、復号部２で復号され、この復号信号中の画像信号は画像合成部３で映像に合成される。また、前記復号信号中の音声信号は音声合成部４で音声に合成される。前記復号信号中の全端末の利用者入力の有無が入力判定部５で判定される。この場合の利用者入力としては各端末でのマウス・キーボード入力などの他に、音声入力を用いることもできる。前記入力判定部５で判定された利用者入力の有無に基づき、全ての端末は、同期信号生成部８により同期させて強調表示指示信号発生部７で各端末の利用者画像を順次強調表示していく。前記画像合成部３、音声合成部４、及び強調表示指示信号発生部７のそれぞれの出力を符号化部で符号化して前記ネットワーク接続部１に入力される。なお、前記会議出者の誰が発言したかを判定する発言判定部６は、この実施例１では不要の場合もある。
【００４０】
図２は本発明の実施例１の多地点テレビ会議システムにおける利用者映像提示方法を実施するための利用者用端末装置の概略構成を示すブロック構成図である。
【００４１】
本実施例１の利用者用端末装置は、複数の端末をネットワークで接続し、端末利用者の映像や音声を送受信しあうことで、多地点に分散した複数の利用者によるコミュニケーションを実現する多地点テレビ会議システムに用いる本実施例１の利用者映像提示方法を実施するためのものである。
【００４２】
図２に示すように、本実施例１の利用者用端末装置２００は、前記ネットワーク１０１に接続するネットワーク接続部１１と、カメラからの画像信号（画像情報）を入力する画像入力部１２と、マイクからの音声信号（音声情報）を入力する音声入力部１３と、キーボード、マウス等から情報（信号）を入力する利用者入力部１４と、前記画像入力部１２、音声入力部１３、及び利用者入力部１４のそれぞれの出力である画像信号、音声信号、及び利用者信号を符号化してネットワーク接続部に入力する符号化部１５と、前記ネットワーク接続部１１からの出力信号を復号する復号部１６と、各端末の利用者画像を順次強調表示していくための強調表示指示信号発生部１７と、前記復号部１６及び強調表示指示信号発生部１７のそれぞれの出力信号から利用者映像を再生する利用者映像再生部１８と、前記復号信号中の音声信号から音声を合成する音声再生部１９とを備えている。
【００４３】
前記利用者用端末装置２００は、カメラ２０１から画像入力部１２に画像信号が入力され、マイク２０２から音声入力部１３に音声信号が入力され、キーボード、マウス等から利用者入力部１４にキーボード、マウス等から入力される。前記画像入力部１２、音声入力部１３、及び利用者入力部１４のそれぞれの出力である画像信号、音声信号、及び利用者信号は、符号化部１５で符号化されてネットワーク接続部１１に入力されネットワーク１０１に送信される。また、ネットワーク１０１からの信号をネットワーク接続部１１で受信する。ネットワーク接続部１１で受信された信号は、復号部１６で復号される。この復号された信号は、強調表示指示信号発生部１７に入力され、前記復号信号中の画像信号対する、各端末の利用者画像を順次強調表示していくための強調表示指示信号が発生される。この強調表示指示信号は、前記利用者映像再生部１８に入力される。前記利用者映像再生部１８では、前記復号信号中の画像信号に対する前記各端末の利用者画像を順次強調表示した利用者映像が再生される。この再生された利用者映像は表示装置２０４に表示される。また、前記復号信号中の音声信号は、前記音声再生部１９で再生されてスピーカ２０５で発声される。
【００４４】
図３は本実施例１の多地点テレビ会議システムにおける利用者映像提示方法の処理手順を示すフローチャートである。
【００４５】
次に、本実施例１の多地点テレビ会議システムにおける利用者映像提示方法について説明する。
【００４６】
本実施例１の利用者映像提示方法は、図３に示すように、初めに、ステップＳ１０１の段階で各端末で全ての端末利用者映像を表示する。この際、自端末利用者の画像も同様に表示する。
【００４７】
ここで、端末利用者映像の表示方法としては、各端末利用者映像を、図４に示すように同じ大きさでタイル状に配置する方法や、図５に示すように同じ大きさで円周上に配置する方法が考えられる。
【００４８】
続いて、ステップＳ１０２の段階で全ての端末の利用者入力の有無を判定する。その判定の結果がＡの場合はＳ１０２の段階を繰り返し実行する。前記判定の結果がＢの場合はステップＳ１０３の段階へ進む。
【００４９】
ここで、利用者入力としてはキーボード入力や発言が考えられる。利用者入力がキーボード入力の場合、キーボード入力があった場合にＢと判定してステップＳ１０３の段階へ進み、キーボード入力がない場合はＡと判定してステップＳ１０２の段階を繰り返す。これにより利用者は発言に対する同意を得たい場合などに、意図的にステップＳ１０３の段階を実行することができる。キーボードの替わりにマウスや何らかのボタンを用いることも可能である。
【００５０】
一方、利用者入力が発言の場合は、別途定められた一定の時間の間、全ての端末で発言がなかった場合にＢと判定し、それ以外の場合はＡと判定する。
【００５１】
発言としては、利用者の会話音声を用いることができる。例えば、各端末で利用者の会話音声のマイク入力の音庄を測定し、音圧が別途定められた一定レベルを超えた場合に発言有りとし、それ以外の場合に発言無しとする。
【００５２】
これにより一定時間、利用者間の会話がなかった場合に、自動的にステップＳ１０３の段階に進み、発言後の合意過程を円滑に進めたり、利用者の発言を促進することができる。勿論、この場合の音圧の測定は、全ての端末からの会話音声を合成してから行う方法も考えられる。
【００５３】
ここで、利用者入力の判定は全ての端末の入力信号（情報）をサーバ装置に集めて行うのが一般的である。勿論、サーバ装置を用いることなく、各端末の入力信号（情報）を全端末に同報して各端末で判定を行うことも可能である。
【００５４】
前記ステップＳ１０３の段階では全ての端末で同期して各端末の利用者映像を順次強調表示する。
【００５５】
同期の方法としては、前述の入力信号（情報）をサーバ装置に集め、サーバ装置から順次強調表示開始の指示を全端末へ同報するのが容易である。同期の精度をあげる方法としては、順次強調表示開始の指示を時刻信号（情報）つきで行うことが考えられる。
【００５６】
各端末の時計をＮＴＰｖ３（Network Time Protcol v3）などを用いて同期させ、絶対時刻で開始指示を行うことで同期の精度を高めることができる。ＮＴＰｖ３は一般的には１msec以下の精度で時刻あわせが可能である。
【００５７】
また、強調表示の例としては、強調する画像を拡大表示したり、強調する画像の枠の色や幅を変更したり、あるいは強調しない画像の表示を半透明状にしたり、強調しない画像の色を薄くしたり、強調しない画像のフレームレートを落としたりすることなどが考えられる。
【００５８】
図６に拡大表示の例を示す。６０１が通常時の画面イメージで、６０２が右上の利用者画像を拡大強調表示したときの画面イメージである。
【００５９】
図７にもう１つの拡大表示の例を示す。７０１が通常時の画面イメージで、７０２が右上の利用者映像を拡大強調表示したときの画面イメージである。図６では画像そのものを拡大表示しているが、図７では表示領域を拡大している。
【００６０】
図８に枠の幅と色の変更の例を示す。８０１が通常時の画面イメージで、８０２が右上の利用者映像を枠の幅と色の変更強調表示したときの画面イメージである。右上の利用者映像の枠の幅を太くし、他の利用者映像の枠の色を変えることで強調表示を行っている。
【００６１】
図９に強調しない画像の表示を半透明状にした例を示す。９０１が通常時の画面イメージで、９０２が右上の利用者映像を強調表示するために、他の３つの利用者映像を半透明状にしたときの画面イメージである。
【００６２】
図１０に強調しない画像の色を薄くした例を示す。１００１が通常時のカラー表示の画面イメージで、１００２が右上の利用者映像を強調表示するために、右上の利用者映像のみカラー表示とし、他の３つはモノクロ表示にしたときの画面イメージである。すなわち、前記１００２において、強調しない画像の色を完全にモノクロにしている。
【００６３】
図１１は、前記図３に示すステップＳ１０３の段階の一実施例の処理手順を示すフローチャートである。
【００６４】
前記ステップＳ１０３の処理は、まず、図１１に示すステップＳ４０１の段階であらかじめ定められた規則に従って、強調表示する利用者画像を選択する。
【００６５】
ここで、あらかじめ定められた規則の例としては、各端末利用者映像に整数値などの一意な値を振った画像リストに基づき、最も小さな値から昇順に選択する方法や、前記画像リストを循環的なリストとして、前記ステップＳ１０３の段階に入る直前の発言者を知る手段を持つことにより、その発言者画像の値の次に小さな値から昇順（この場合、最も大きな値の次に最も小さな値が来る）に選択する方法が考えられる。
【００６６】
次に、ステップＳ４０２の段階で、あらかじめ定められた一定時間の間、選択された利用者画像を強調表示する。一定時間経過後、利用者映像は通常表示に戻す。そして、ステップＳ４０３の段階で、次の利用者映像の選択の継続を判定する。終了（継続判定＝Ｎｏ）の条件としては、キーボード入力などにより利用者から明示的に指示された場合、前述の画像リストが終了（循環リストの場合はリストが１周）した場合、利用者の発言があった場合、強調表示中以外の利用者から発言があった場合などが考えられる。また、これらの組み合わせとして、循環リストが１周以上しており、かつ、強調表示中以外の利用者から発言があった場合などの条件も考えられる。
【００６７】
前記ステップＳ４０３の段階で、終了条件が満たされなかった場合、前記ステップＳ４０１の段階へ戻り、強調表示する利用者映像の選択を繰り返し、満たされた場合は、前記ステップＳ１０３の段階を終了する。
【００６８】
（実施例２）
図１２は本発明の実施例２の多地点テレビ会議システムにおける利用者映像提示方法を実施するための利用者用端末装置の概略構成を示すブロック構成図である。
【００６９】
本実施例２の利用者用端末装置は、前記多地点テレビ会議システムに用いる、利用者用端末装置側において、入力判定(及び発言判定)を行い、強調表示指示信号を生成し、この信号の指示に従って、同期信号に基づき同期を取りつつ、利用者映像を表示するものである。
【００７０】
図１２に示すように、本実施例２の利用者用端末装置２００Ａは、ネットワーク１０１に接続するネットワーク接続部１１と、カメラからの画像信号（画像情報）を入力する画像入力部１２と、マイクからの音声信号（音声情報）を入力する音声入力部１３と、キーボード、マウス等から信号（情報）を入力する利用者入力部１４と、前記画像入力部１２、音声入力部１３、及び利用者入力部１４のそれぞれの出力である画像信号、音声信号、及び利用者信号を符号化してネットワーク接続部１１に入力する符号化部１５と、前記ネットワークから入力される信号を復号する復号部１６と、前記復号部で復号された復号信号中の画像信号から利用者映像を合成する画像合成部３と、前記復号信号から全端末の利用者入力の有無を判定する入力判定部５と、前記復号信号から利用者（会議出席者）の誰が発言したかを知るための利用者発言の有無を判定する発言判定部６と、前記入力判定部５で判定された利用者入力の有無もしくは利用者発言の有無に基づき、全ての端末で同期して各端末の利用者画像を順次強調表示していく強調表示指示信号発生部７と、前記復号部の出力信号（情報）から画像を合成する画像合成部３と、前記画像合成部３及び強調表示指示信号発生部７のそれぞれの出力信号（情報）から利用者映像を再生する利用者映像再生部１７とを備えている。
【００７１】
前記全ての端末で同期して各端末の利用者画像を順次強調表示していく場合、各端末装置間で、予め時計を同期させておくなどの方法により、同期信号生成部８で生成される同期信号を同期させる。
【００７２】
図１３は本実施例２の多地点テレビ会議システムにおける利用者映像提示方法の処理手順を示すフローチャートである。
【００７３】
次に、本実施例２の多地点テレビ会議システムにおける利用者映像提示方法について説明する。
【００７４】
本実施例１の利用者映像提示方法は、図１３に示すように、ステップＳ５０１、Ｓ５０２、Ｓ５０３の段階は、それぞれ前述した図３のステップＳ１０１、Ｓ１０２、Ｓ１０３の段階と同等である。
【００７５】
ステップＳ５０４の段階で、各端末利用者の発言の有無を個別に判定し、発言が合った場合はステップＳ５０５の段階に進み、なかった場合はステップＳ５０２の段階に進む。ここで、発言としては、前記ステップＳ１０２の段階の説明で前述したように、利用者の会話音声を用いることができる。
【００７６】
ステップＳ５０５の段階では、全ての端末で同期して発言中の利用者映像を強調表示する。
【００７７】
なお、この場合は、ステップＳ５０５の段階における図１１に示す前記ステップＳ４０３の段階において、終了の条件として、前述のように、「利用者の発言があった場合」を含めておくことにより、より迅速に（リアルタイムに近い形で）発言中の利用映像を強調表示することができる。
【００７８】
以上、本発明者によってなされた発明を、前記実施例に基づき具体的に説明したが、本発明は、前記実施例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
【００７９】
【発明の効果】
本願において開示される発明によって得られる効果を簡単に説明する。
【００８０】
本発明によれば、利用者映像を全端末で同期して順次強調表示することにより、強調表示された利用者映像に利用者の視線を誘導することができる。
【００８１】
また、自分の画像が強調表示された利用者に反応を返すタイミングを与えることを、強調表示された利用者映像に利用者の視線を誘導すると同時に引き起こすことができる。
【００８２】
これにより、相手を見ているときに相手が反応を返してくれるので、１つの部屋で行われる多人数会議で発言の後に参加者を眺め回すような行為を模擬することができるので、他の利用者に同意を求めたりすることが容易になる。
【００８３】
また、相手が自分を見ているときに自分が強調表示されるので、意見を返すタイミングを容易に得ることができる。自分の画像が強調表示されることにより、発言促進の効果も期待される。
【００８４】
さらには、相手が自分を見ているかどうかの推測が容易になり、うなずきなどのノンバーバルな信号（情報）を用いたコミュニケーションも容易になる。
【００８５】
このような利点を持った多地点テレビ会議システムを、カメラやディスプレイの台数及び設置位置にほとんど制約なく、手軽な端末装置で構成することができる。
【００８６】
カメラ付きのノートパソコンなどを用いることにより、どこでも簡単にシステムを利用できるようになる。端末装置と利用者の位置関係の制約もほとんどないので、気付かないうちに視線信号（情報）が伝わらなくなり、混乱を招くこともない。そのため、大きく動いてはいけないという心理的な負担もなく、利用者は気軽にシステムを利用することができるようになる。
【００８７】
また、端末から送信する画像は１つなので、従来の視線伝達型テレビ会議システムと比べてネットワーク帯域を抑制することができる。
【図面の簡単な説明】
【図１】本発明の実施例１の多地点テレビ会議システムにおける利用者映像提示方法を実施するためのサーバ装置の概略構成を示すブロック構成図である。
【図２】本実施例１の利用者用端末装置の概略構成を示すブロック図である。
【図３】本実施例１の多地点テレビ会議システムにおける利用者映像提示方法の処理手順を示すフローチャートである。
【図４】本実施例１の各端末利用者映像を同じ大きさでタイル状に配置する方法を説明するための図である。
【図５】本実施例１の各端末利用者映像を同じ大きさで円周上に配置する方法を説明するための図である。
【図６】本実施例１の拡大表示の例を説明するための図である。
【図７】本実施例１のもう１つの拡大表示の例を説明するための図である。
【図８】本実施例１の枠の幅と色の変更の例を説明するための図である。
【図９】本実施例１の強調しない画像の表示を半透明状にした例を説明するための図である。
【図１０】本実施例１の通常時の画面イメージとその右上の利用者映像を強調表示したときの画面イメージを説明するための図である。
【図１１】本実施例１の図３に示すステップＳ１０３の段階の一実施例の処理手順を示すフローチャートである。
【図１２】本発明の実施例２の多地点テレビ会議システムにおける利用者映像提示方法を実施するための利用者用端末装置の概略構成を示すブロック構成図である。
【図１３】本実施例２の多地点テレビ会議システムにおける利用者映像提示方法の処理手順を示すフローチャートである。
【符号の説明】
１００…サーバ装置１０１…ネットワーク
１…ネットワーク接続部２…復号部
３…画像合成部４…音声合成部
５…入力判定部６…発言判定部
７…強調表示指示信号発生部８…同期信号生成部
２００…利用者用端末装置２０１…カメラ
２０２…マイク２０３…キーボード、マウス等
２０４表示装置２０５…スピーカ
１１…ネットワーク接続部１２…画像入力部
１３…音声入力部１４…利用者入力部
１５…符号化部１６…復号部
１７…強調表示指示信号発生部１８…利用者映像再生部
１９…音声再生部２００Ａ…利用者用端末装置

Claims

複数の端末をネットワークで接続し、端末利用者の映像や音声を送受信しあうことにより、多地点に分散した複数の利用者によるコミュニケーションを実現する多地点テレビ会議システムに用いる利用者映像提示用サーバ装置であって、
前記ネットワークに接続するネットワーク接続部と、前記ネットワーク接続部から入力される信号を復号する復号部と、
該復号部で復号された復号信号中の画像信号から映像を合成する画像合成部と、
前記復号信号中の音声信号から音声を合成する音声合成部と、
前記復号信号から全端末の利用者入力の有無を判定する入力判定部と、
前記入力判定部で判定された利用者入力の有無に基づき、全ての端末で同期して各端末の利用者画像を順次強調表示していく強調表示指示信号発生部を具備することを特徴とする利用者映像提示用サーバ装置。
複数の端末をネットワークで接続し、端末利用者の画像や音声を送受信しあうことにより、多地点に分散した複数の利用者によるコミュニケーションを実現する多地点テレビ会議システムに用いる利用者用端末装置であって、
前記ネットワークに接続するネットワーク接続部と、
カメラからの画像信号（画像情報）を入力する画像入力部と、
マイクからの音声信号（音声情報）を入力する音声入力部と、
利用者が情報をキーボード、マウス等により入力する利用者入力部と、
前記画像入力部、音声入力部、及び利用者入力部のそれぞれの出力である画像信号、音声信号、及び利用者信号を符号化してネットワーク接続部に入力する符号化部と、
利用者入力の有無に基づき、全ての端末で同期して各端末の利用者画像を順次強調表示していくための強調表示指示信号発生部と、前記復号部及び強調表示指示信号発生部のそれぞれの出力信号から利用者映像を再生する利用者映像再生部とを具備することを特徴とする利用者用端末装置。
複数の端末をネットワークで接続し、端末利用者の画像や音声を送受信しあうことにより、多地点に分散した複数の利用者によるコミュニケーションを実現する多地点テレビ会議システムに用いる利用者用端末装置であって、
前記ネットワークに接続するネットワーク接続部と、
カメラからの画像信号（画像情報）を入力する画像入力部と、
マイクからの音声信号（音声情報）を入力する音声入力部と、
利用者が情報をキーボード、マウス等により入力する利用者入力部と、
前記画像入力部、音声入力部、及び利用者入力部のそれぞれの出力である画像信号、音声信号、及び利用者信号（利用者情報）を符号化してネットワーク接続部に入力する符号化部と、
前記ネットワーク接続部から入力される信号を復号する復号部と、
前記復号部で復号された信号中の映像信号から映像を合成する画像合成部と、
前記復号信号から全端末の利用者入力の有無を判定する入力判定部と、
前記復号信号から会議出席者の発言の有無を判定する発言判定部と、
前記入力判定部で判定された利用者入力の有無、もしくは発言判定部で判定された利用者（会議出席者）の発言の有無に基づき、全ての端末で同期して各端末の利用者画像を順次強調表示していく強調表示指示信号発生部と、
前記画像合成部及び強調表示指示信号発生部のそれぞれの出力信号（情報）から利用者映像を再生する利用者映像再生部とを具備することを特徴とする利用者用端末装置。
複数の端末をネットワークで接続し、端末利用者の画像や音声を送受信しあうことにより、多地点に分散した複数の利用者によるコミュニケーションを実現する多地点テレビ会議システムにおいて、
各端末で自端末利用者映像を含む全ての端末利用者映像を表示する段階と、
全端末の利用者入力の有無を判定する段階と、
前記判定する段階で判定された利用者入力の有無に基づき、全ての端末で同期して各端末の利用者映像を順次強調表示していく段階とを具備することを特徴とする利用者映像提示方法。
全端末のキーボード、マウス等による入力を検知する段階を具備し、前記キーボード、マウス等による入力があった場合に、全ての端末で同期して各端末の利用者映像を順次強調表示していくことを特徴とする請求項４に記載の利用者映像提示方法。
全端末の利用者の発言を検知する段階を具備し、利用者入力として発言を用いて、あらかじめ定められた一定の時間間隔、全ての端末で利用者の発言がなかった場合、全ての端末で同期して各端末の利用者映像を順次強調表示していくことを特徴とする請求項４又は５に記載の利用者映像提示方法。
端末利用者映像の強調表示として、利用者映像の拡大表示を用いることを特徴とする請求項４乃至６のうちいずれか１項に記載の利用者映像提示方法。
各端末の利用者映像を順次強調表示していく段階として、
あらかじめ定められた規則に従って強調表示する利用者映像を選択する段階と、あらかじめ定められた一定時間の間、選択された利用者映像を強調表示する段階と、
次の利用者映像の選択の継続を判定する段階と、
を具備することを特徴とする請求項４乃至７のうちいずれか１項に記載の利用者映像提示方法。
各端末利用者の発言を個別に判定する段階を具備し、各端末利用者映像のリストを保持し、直前に発言した利用者の次の利用者映像を先頭として、リストの順番に従って強調表示する利用者映像を選択することを特徴とする請求項８に記載の利用者映像提示方法。
各端末利用者の発言の有無を個別に判定する段階を具備し、利用者の発言があった場合に、利用者映像の選択を終了することを特徴とする請求項８又は９に記載の利用者映像提示方法。
各端末利用者の発言の有無を個別に判定する段階を具備し、前記発言の有無を個別に判定する段階で判定された個別の発言に基づき、全ての端末で同期して発言中の利用者映像を強調表示することを特徴とする請求項４乃至１０のうちいずれか１項に記載の利用者映像提示方法。
請求項４乃至１０のうちいずれか１項に記載の利用者映像提示方法におけるステップをコンピュータに実行させるための利用者映像提示プログラム。
請求項４乃至１０のうちいずれか１項に記載の利用者映像提示方法におけるステップをコンピュータに実行させためのプログラムとして、前記プログラムを前記コンピュータで読取り可能な記録媒体に記録したことを特徴とする利用者映像提示プログラム記録媒体。