JP2023020331A

JP2023020331A - 遠隔会議方法、及び遠隔会議システム

Info

Publication number: JP2023020331A
Application number: JP2021125635A
Authority: JP
Inventors: 明日香米田; Asuka Yoneda
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2023-02-09
Also published as: US20230035219A1; US11764984B2

Abstract

【課題】遠隔会議の進行を妨げることなく、一部の参加者同士で会話を行い得る技術を提供する。【解決手段】遠隔会議方法は、第１生成ステップ、第２生成ステップ、表示ステップ、決定ステップ、及び送信ステップを含む。第１生成ステップは、遠隔会議に参加する少なくとも３人以上の参加者の会議端末ごとに、参加者の音声を取得し、取得した音声から音量情報を含む音声データを生成する。第２生成ステップは、参加者の会議端末ごとに、参加者の会議中の映像を取得して映像データを生成する。表示ステップは、参加者の会議端末ごとに、参加者ごとの仮想空間上の座席を示す座席情報を表示する。決定ステップは、参加者の会議端末ごとに、座席情報と、当該参加者の前記音声データの音量情報及び映像データとに基づいて、当該参加者の音声データの送信先を決定する。送信ステップは、参加者の会議端末ごとに、当該参加者の前記音声データに対して決定された送信先に基づいて、当該参加者の前記音声データを送信する。【選択図】図５Ａ

Description

本発明は、遠隔会議方法、及び遠隔会議システムに関する。

近年、インターネットや専用回線等の通信回線を介したテレビ会議システムの利用が高まっている。下記特許文献１には、離れた場所にいる複数（３人以上）の人が電話回線などを使って音声による会議を行う場合の会話制御方法が開示されている。この会話制御方法は、仮想のレイアウトにおける会議の参加者の位置と、参加者の向き等とに基づいて、参加者ごとに立体音声データを生成することで、各参加者が、誰が誰に向かって話しているのか等の状況を掴みやすくする。

特開２００１－２７４９１２号公報

ところで、対面で行う会議の場においては、隣にいる参加者同士が小声で会話する場合がある。テレビ会議等の遠隔会議においても、会議に参加しながら一部の参加者同士で会話したいというニーズがある。

本発明は、遠隔会議の進行を妨げることなく、一部の参加者同士で会話を行い得る技術を提供することを目的とする。

本発明に係る遠隔会議方法は、第１生成ステップ、第２生成ステップ、表示ステップ、決定ステップ、及び送信ステップを含む。第１生成ステップは、遠隔会議に参加する少なくとも３人以上の参加者の会議端末ごとに、参加者の音声を取得し、取得した音声から音量情報を含む音声データを生成する。第２生成ステップは、参加者の会議端末ごとに、参加者の会議中の映像を取得して映像データを生成する。表示ステップは、参加者の会議端末ごとに、参加者ごとの仮想空間上の座席を示す座席情報を表示する。決定ステップは、参加者の会議端末ごとに、座席情報と、当該参加者の前記音声データの音量情報及び映像データとに基づいて、当該参加者の音声データの送信先を決定する。送信ステップは、参加者の会議端末ごとに、当該参加者の前記音声データに対して決定された送信先に基づいて、当該参加者の前記音声データを送信する。

また、本発明に係る遠隔会議システムは、会議端末とサーバとを備える。会議端末は、遠隔会議に参加する少なくとも３人以上の参加者ごとの会議端末である。サーバは、参加者ごとの会議端末と通信回線を介して接続される。会議端末は、記憶部、表示部、音声データ生成部、映像データ生成部、決定部、及び第１送信部を備える。記憶部は、参加者ごとの仮想空間上の座席を示す座席情報を記憶する。表示部は、座席情報を表示する。音声データ生成部は、参加者の音声を取得し、取得した音声から音量情報を含む音声データを生成する。映像データ生成部は、参加者の会議中の映像を取得して映像データを生成する。決定部は、座席情報と、音声データの前記音量情報及び前記映像データとに基づいて、音声データの送信先を決定する。第１送信部は、決定された送信先を示す送信先情報を対応づけた音声データを含む音声情報と、映像データを含む映像情報とを、自端末を示す送信元情報とともにサーバへ送信する。サーバは、取得部と第２送信部とを備える。取得部は、各会議端末から前記音声情報、前記映像情報及び前記送信元情報を取得する。第２送信部は、各会議端末に対し、取得した各会議端末からの音声情報の前記送信先情報に基づき、当該会議端末に対する音声情報を送信する。

本発明に係る遠隔会議方法、及び遠隔会議システムによれば、遠隔会議の進行を妨げることなく、一部の参加者同士で会話を行うことができる。

図１は、実施形態におけるテレビ会議システムの構成を示す模式図である。図２は、実施形態における会議端末の概略構成を示すブロック図である。図３Ａは、座席表の一例を示す図である。図３Ｂは、座席情報の一例を示す図である。図４は、実施形態におけるサーバの概略構成を示すブロック図である。図５Ａは、会議端末及びサーバにおける音声データ及び映像データの送受信処理を示す動作フローである。図５Ｂは、会議端末におけるサーバから送信された映像データ及び音声データの再生処理を示す動作フローである。

以下、図面を参照して、実施形態に係る遠隔会議システム及び遠隔会議方法について説明する。なお、図中、同一又は相当部分については同一の参照符号を付して説明を繰り返さない。

図１は、本実施形態におけるテレビ会議システム１（遠隔会議システムの一例）の構成を示す模式図である。図１に示すように、テレビ会議システム１は、テレビ会議に参加する複数の参加者それぞれの会議端末１０とサーバ２０とを備える。本実施形態において、テレビ会議には、４人の参加者Ａ～Ｄが参加するものとする。参加者Ａ～Ｄの会議端末１０を区別する場合、会議端末１０Ａ～１０Ｄと記載する。なお、テレビ会議の参加者の人数は４人に限定されず、少なくとも３人以上であればよい。

会議端末１０とサーバ２０とは、公衆回線又は専用回線等の通信回線Ｎに接続されている。参加者は、会議端末１０を用い、離れた場所にいる他の参加者と通信し、テレビ会議を行う。各参加者は、予め設定された仮想空間上の座席表で指定された座席に着座しているものとしてテレビ会議に参加する。以下、テレビ会議システム１の構成について具体的に説明する。

（会議端末１０（１０Ａ～１０Ｄ））
図２は、会議端末１０の概略構成を示すブロック図である。会議端末１０は、本実施形態において、ＰＣ（Personal Computer）、タブレット端末、又はスマートフォン等の装置であってもよい。以下、参加者Ａの会議端末１０Ａを例に会議端末１０の構成を説明する。

会議端末１０Ａは、図２に示すように、マイク１１、カメラ１２、スピーカ１３、通信部１４（第１送信部及び受信部の一例）、操作部１５（選択受付部の一例）、記憶部１６、表示部１７、及び制御部１８を備える。

マイク１１は、参加者Ａの音声を集音し、集音した音声の音声信号を制御部１８へ出力する。

カメラ１２は、被写体として参加者Ａを撮像し、撮像信号を制御部１８へ出力する。

スピーカ１３は、制御部１８から出力された音声信号をＤ／Ａ変換し、増幅して放音する。

通信部１４は、通信回線Ｎを介してサーバ２０と通信するための通信インタフェースである。通信部１４は、制御部１８の制御の下、例えばＲＴＰ（Real-time Transport Protocol）等の通信プロトコルを用い、サーバ２０との間で通信を確立し、映像データ及び音声データを送受信する。具体的には、通信部１４は、サーバ２０から受信した映像データ及び音声データを制御部１８へ出力する。また、通信部１４は、制御部１８から入力される映像データ及び音声データをサーバ２０へ送信する。

操作部１５は、マウス、キーボード、又はタッチパネル等を含む。操作部１５は、参加者Ａの操作を受け付け、受け付けた操作を示す操作信号を制御部１８へ出力する。

記憶部１６は、ハードディスク等の不揮発性記憶媒体を含む。記憶部１６は、座席表１００ａ及び座席情報１００ｂを記憶する。図３Ａは、座席表１００ａの一例を示す図である。座席表１００ａは、仮想空間上の参加者Ａ～Ｄの座席を示す。具体的には、座席表１００ａは、円形の仮想テーブルＴを囲む座席Ｓ１～Ｓ４に参加者を識別する識別情報（例えば氏名）が記載されている。参加者Ａ～Ｄの座席は、参加者Ａ～Ｄと同じアルファベットが付された座席である。座席表１００ａは、テレビ会議の間、表示部１７に表示される。

図３Ｂは、座席情報１００ｂの一例を示す図である。座席情報１００ｂは、参加者Ａ～Ｄの仮想空間上の位置を示す情報であり、図３Ａに示す座席表１００ａ対応している。図３Ｂに示すように、座席情報１００ｂは、参加者ごとに、参加者の左側及び右側に着席する参加者の会議端末１０を示す情報（ＩＰアドレス等）が記憶される。

表示部１７は、表示パネルと、表示パネルを駆動する駆動回路とを含む（いずれも図示略）。駆動回路は、制御部１８の制御の下、座席表１００ａ及び参加者Ａ～Ｄの映像等の各種画像を表示するための駆動信号を表示パネルに供給する。

制御部１８は、ＣＰＵ（Central Processing Unit）及びメモリ（ＲＯＭ(Read Only Memory)及びＲＡＭ(Random Access Memory)）を含む。制御部１８は、ＣＰＵがＲＯＭに記憶された制御プログラムを実行することにより、音声・映像処理部１８１（音声データ生成部及び映像データ生成部の一例）、決定部１８２、表示制御部１８３、及び音量調整部１８４として機能する。

音声・映像処理部１８１は、ＣＯＤＥＣを含む。音声・映像処理部１８１は、通信部２１を介して、テレビ会議中の映像データ及び音声データのパケット（映像情報及び音声情報の一例）をサーバ２０との間で逐次送受信する。

具体的には、音声・映像処理部１８１は、マイク１１から入力される一定時間ごとの音声信号と、カメラ１２から入力される一定時間ごとの映像信号とを、テレビ会議システムの規格（例えばＨ．３２３）に従ってデジタルデータに変換する。そして、音声・映像処理部１８１は、このデジタルデータをエンコードして音声データ及び映像データを生成し、決定部１８２へ出力する。

また、音声・映像処理部１８１は、通信部１４から逐次入力されるサーバ２０からの映像データ及び音声データをデコードする。サーバ２０からの映像データ及び音声データは、他の会議端末Ｂ～Ｄの映像データ及び音声データが多重化されている。音声・映像処理部１８１は、サーバ２０からの映像データ及び音声データをデコードし、会議端末Ｂ～Ｄそれぞれの映像データ及び音声データのパケットに分離する。会議端末Ｂ～Ｄの音声データには音量情報が含まれ、音声データには送信先情報、送信元情報、タイムスタンプ等の情報が付加されている。送信元情報は、音声データの送信元である会議端末１０のＩＰアドレスである。送信先情報は、第１送信先情報と第２送信先情報のいずれかを含む。第１送信先情報は、自端末を除く全ての会議端末１０のＩＰアドレスであり、第２送信先情報は、他の一の会議端末１０のＩＰアドレスである。

以下、第１送信先情報を含む音声データを第１音声データ、第２送信先情報を含む音声データを第２音声データと記載する場合がある。

音声・映像処理部１８１は、デコードして分離された会議端末１０ごとの音声データをタイムスタンプの順に並べて音量調整部１８４へ出力する。

音量調整部１８４は、会議端末１０ごとの音声データに含まれる送信先情報及び音量情報に基づいて、各音声データに対してゲイン調整を行った各音声信号をミキシングしてスピーカ１３から出力する。具体的には、音量調整部１８４は、会議端末Ｂ～Ｄからの各音声データ（以下、音声データＢ～Ｄ）がいずれも第１音声データである場合、通常モードで動作する。通常モードは、各音声データの音量情報を基に、全体の音声を均一な音量に調整した音声信号をミキシングしてスピーカ１３に入力するモードである。また、音量調整部１８４は、音声データＢ～Ｄのいずれかが第２音声データである場合、すなわち、第１音声データと第２音声データとが含まれる場合、特定モードで動作する。特定モードは、第１音声データの音量が第２音声データの音量より小さくなるようにゲイン調整を行った音声信号をミキシングしてスピーカ１３に入力するモードである。本実施形態において、音声・映像処理部１８１、音量調整部１８４、及びスピーカ１３は、再生部の一例である。

決定部１８２は、音声・映像処理部１８１から入力される映像データ及び音声データと、座席情報１００ｂとに基づいて、音声データの送信先を決定する。そして、決定部１８２は、決定した送信先を示す送信先情報等を含むヘッダ情報を付加した音声データのパケットと、他の全ての会議端末１０を示す送信先情報等を含むヘッダ情報を付加した映像データのパケットを生成して通信部１４へ出力する。

具体的には、決定部１８２は、音声・映像処理部１８１から入力された参加者Ａの音声データ（以下、音声データＡ）の音量が閾値以上である場合、音声データＡの送信先情報として、他の全ての会議端末１０のＩＰアドレスを示す第１送信先情報を設定する。

また、音声データＡの音量が閾値未満の場合、決定部１８２は、音声データＡと略同じタイミングで入力された映像データの画像解析を行い、音声データＡの送信先情報として、一の会議端末１０のＩＰアドレスを示す第２送信先情報を設定する。一の会議端末１０は、映像データに映る参加者Ａの顔の向き及び座席情報１００ｂに基づいて決定される。つまり、決定部１８２は、参加者Ａの隣の参加者Ｂ又は参加者Ｄのうち、参加者Ａの顔が向いている方向（左又は右）に着座する参加者の会議端末１０Ｂ又は１０Ｄを送信先として決定する。例えば、参加者Ａが右隣の参加者Ｄ（図３Ａ参照）の方に顔を向け、音量が閾値未満となる小声で話かけた場合、第２送信先情報として会議端末１０ＤのＩＰアドレスが設定される。

表示制御部１８３は、音声・映像処理部１８１から入力される参加者Ａ～Ｄの各映像データを表示部１７に出力し、表示部１７に参加者Ａ～Ｄの映像を表示させる。また、表示制御部１８３は、テレビ会議の間、図３Ａに示す座席表１００ａを表示部１７に表示させる。なお、参加者Ａ～Ｄの映像は、座席表１００ａにおける参加者Ａ～Ｄの配置と同じ配置となるように表示されてもよい。本実施形態において、表示制御部１８３及び表示部１７は、再生部の一例である。

（サーバ２０）
図４は、サーバ２０の概略構成を示すブロック図である。図４に示すように、サーバ２０は、通信部２１（取得部及び第２送信部の一例）、制御部２２、及び記憶部２３を備える。

通信部２１は、通信回線Ｎを介して会議端末１０Ａ～１０Ｄと通信する通信インタフェースである。通信部２１は、制御部２２の制御の下、ＲＴＰ等の所定の通信プロトコルを用い、会議端末１０Ａ～１０Ｄとの間で通信を確立し、映像データ及び音声データを送受信する。

記憶部２３は、ハードディスク等の不揮発性記憶媒体を含む。記憶部２３は、会議端末１０Ａ～１０Ｄの識別情報（ＩＰアドレス等）を含む会議端末情報（図示略）を記憶する。

制御部２２は、ＣＰＵ及びメモリ（ＲＯＭ及びＲＡＭ）を含む。制御部２２は、ＣＰＵが、ＲＯＭに記憶された制御プログラムを実行することにより、通信部２１を介して、各会議端末１０との間で通信する。具体的には、制御部２２は、各会議端末１０から送信された音声データ（第１音声データ又は第２音声データ）及び映像データのパケットを取得し、音声データ及び映像データのパケットの送信元と異なる他の会議端末１０に対して送信する。

つまり、会議端末１０Ａに送信される映像データは、会議端末１０Ｂ～１０Ｄから送信される映像データＢ～Ｄが多重化された映像データである。また、会議端末１０Ａ～１０Ｄから取得した音声データＡ～Ｄが第１音声データである場合、会議端末１０Ａには、音声データＢ～Ｄを多重化した音声データが送信される。また、音声データＡ～Ｄのうち、例えば音声データＡが第２音声データあり、音声データＡに会議端末１０Ｄを示す第２送信先情報が含まれる場合、会議端末１０Ｄに対し、音声データＢ、Ｃ（第１音声データ）と、音声データＡ（第２音声データ）とが多重化された音声データが送信される。この場合、会議端末１０Ａには、音声データＢ～Ｄ（第１音声データ）を多重化した音声データが送信される。会議端末１０Ｂには、音声データＣ、Ｄ（第１音声データ）を多重化した音声データが送信される。会議端末１０Ｃには、音声データＢ、Ｄ（第１音声データ）を多重化した音声データが送信される。

（動作）
図５Ａは、会議端末１０Ａ及びサーバ２０における音声データ及び映像データの送受信処理を示す動作フローである。図５Ｂは、会議端末１０Ｄにおけるサーバ２０からの映像データ及び音声データの再生処理を示す動作フローである。なお、図５Ａ及び図５Ｂにおいて、各会議端末１０の表示部１７には、図３Ａに示す座席表１００ａが表示されているものとする。

図５Ａにおいて、会議端末１０Ａは、テレビ会議の間、マイク１１により参加者Ａの音声を集音し、カメラ１２により参加者Ａを撮影する。会議端末１０Ａにおける制御部１８は、マイク１１で集音された音声信号と、カメラ１２で撮影された映像信号とを音声・映像処理部１８１でＡ／Ｄ変換してエンコードすることにより、音声データＡと映像データＡとを逐次取得する（ステップＳ１１）。

制御部１８は、音声データＡの音量が閾値以上である場合（ステップＳ１２：Ｙｅｓ）、決定部１８２により、会議端末１０Ｂ～１０Ｄを示す第１送信先情報、自端末を示す送信元情報等を付加した音声データＡ(第１音声データ)及び映像データＡのパケットを生成し、通信部１４を介してサーバ２０に送信する（ステップＳ１３）。

また、制御部１８は、音声データＡの音量が閾値以上でない場合（ステップＳ１２：Ｎｏ）、決定部１８２により、第２音声データ及び映像データＡのパケットを生成し、通信部１４を介してサーバ２０へ送信する（ステップＳ１４）。

具体的には、決定部１８２は、座席情報１００ｂ（図３Ｂ）を参照し、取得した映像データの画像解析を行って、参加者Ａの顔の向きに対応する会議端末１０を送信先として決定する。そして、決定部１８２は、決定した会議端末１０のＩＰアドレスを示す第２送信先情報、及び自端末を示す送信元情報等を付加した音声データＡ（第２音声データ）のパケットを生成する。また、決定部１８２は、他の全ての会議端末１０のＩＰアドレスを示す送信先情報、及び自端末を示す送信元情報等を付加した映像データＡのパケットを生成する。決定部１８２は、音声データＡ及び映像データＡのパケットを通信部１４に入力する。通信部１４は、決定部１８２から入力された音声データＡ（第２音声データ）及び映像データＡのパケットをサーバ２０に送信する。

つまり、例えば、テレビ会議中に、参加者Ａが参加者Ｄに話しかけたい場合、参加者Ａは顔を右側に向けて小声で話しかける。この場合、参加者Ａの音声データ（音声データＡ）に対する送信先として会議端末１０Ｄが決定され、会議端末１０ＤのＩＰアドレスを示す第２送信先情報等が付加された音声データＡ（第２音声データ）のパケットが、映像データＡのパケットとともにサーバ２０に送信される。

制御部１８は、テレビ会議が終了されるまで（ステップＳ１５：Ｎｏ）、ステップＳ１１以下の処理を繰り返し、テレビ会議が終了されると（ステップＳ１５：Ｙｅｓ）、処理を終了する。

サーバ２０は、通信部２１を介して会議端末１０Ａ～１０Ｄから音声データ（音声データＡ～Ｄ）及び映像データ（映像データＡ～Ｄ）を逐次取得する（ステップＳ２１）。

制御部２２は、取得した音声データＡ～Ｄの中に第２音声データのパケットが含まれる場合（ステップＳ２２：Ｙｅｓ）、第２音声データのパケットにおける第２送信先情報が示す会議端末１０に対し、第２音声データ及び第１音声データのパケットを多重化して送信し、他の会議端末１０に対し、第１音声データのパケットを多重化して送信する（ステップＳ２３）。

つまり、音声データＡのパケットに会議端末１０ＤのＩＰアドレスを示す第２送信先情報が含まれている場合、会議端末１０Ｄには、音声データＡ（第２音声データ）のパケットと音声データＢ～Ｄ（第１音声データ）のパケットとが多重化された音声データと、映像データＡ～Ｃのパケットが多重化された映像データとが送信される。会議端末１０Ａには、音声データＢ～Ｄ及び映像データＢ～Ｄのパケットをそれぞれ多重化した音声データ及び映像データが送信される。会議端末１０Ｂには、音声データＣ、Ｄ及び映像データＡ、Ｃ、Ｄのパケットをそれぞれ多重化した音声データ及び映像データが送信される。会議端末１０Ｃには、音声データＢ、Ｄ、及び映像データＡ、Ｂ、Ｄのパケットをそれぞれ多重化した音声データ及び映像データが送信される。このように、第２音声データの送信先でない会議端末１０には、自端末以外の会議端末１０からの第１音声データのパケットのみが多重化されて送信される。

そして、制御部２２は、各会議端末１０に対し、他の会議端末１０から取得した映像データのパケットを多重化した映像データを、通信部２１を介して送信する（ステップＳ２４）。つまり、会議端末１０Ａには、映像データＢ～Ｄのパケットを多重化した映像データが送信され、会議端末１０Ｂには、映像データＡ、Ｃ、Ｄのパケットを多重化した映像データが送信される。また、会議端末１０Ｃには、映像データＡ、Ｂ、Ｄのパケットを多重化した映像データが送信され、会議端末１０Ｄには、映像データＡ～Ｃのパケットを多重化した映像データが送信される。

また、制御部２２は、取得した音声データＡ～Ｄのパケットの中に第２音声データのパケットが含まれない場合（ステップＳ２２：Ｎｏ）、すなわち、第１音声データのパケットのみを取得した場合、各会議端末１０に対し、他の会議端末１０から取得した音声データのパケットを多重化した音声データを、通信部２１を介して送信する（ステップＳ２５）。つまり、会議端末１０Ａには、音声データＢ～Ｄのパケットを多重化した音声データが送信され、会議端末１０Ｂには、音声データＡ、Ｃ、Ｄのパケットを多重化した音声データが送信される。また、会議端末１０Ｃには、音声データＡ、Ｂ、Ｄのパケットを多重化した音声データが送信され、会議端末１０Ｄには、音声データＡ～Ｃのパケットを多重化した音声データが送信される。

制御部２２は、テレビ会議が終了するまで（ステップＳ２６：Ｎｏ）、ステップＳ２１以下の処理を繰り返し、テレビ会議が終了されると（ステップＳ２６：Ｙｅｓ）、処理を終了する。

なお、図５Ａでは、説明の便宜上、会議端末１０Ａを例に説明したが、会議端末１０Ｂ～１０Ｄも、参加者Ｂ～Ｄの発話に応じて、会議端末１０Ａと同様の処理を行う。

続いて、図５Ｂを参照し、会議端末１０Ｄにおける音声及び映像の再生処理について説明する。会議端末１０Ｄは、通信部１４を介して、サーバ２０から多重化された音声データ及び映像データを逐次取得する（ステップＳ３１）。

会議端末１０Ｄの制御部１８は、音声・映像処理部１８１において、取得した音声データ及び映像データをデコードし、音声データＡ～Ｃ及び映像データＡ～Ｃのパケットをそれぞれ分離する（ステップＳ３２）。

音声データＡ～Ｃのパケットに第１音声データのパケットのみが含まれる場合（ステップＳ３３：Ｙｅｓ）、制御部１８は、音量調整部１８４を通常モードで動作させる（ステップＳ３３）。つまり、音量調整部１８４は、音声データＡ～Ｃの各音量が均一となるように各音声データのゲインを調整した音声信号をミキシングしてスピーカ１３から出力する。

ステップＳ３３において、音声データＡ～Ｃのパケットに第２音声データのパケットが含まれる場合（ステップＳ３３：Ｎｏ）、制御部１８は、音量調整部１８４を特定モードで動作させる（ステップＳ３５）。音声データＡは、会議端末Ｄを送信先とする第２音声データである。音量調整部１８４は、音声データＢ及びＣの音量が音声データＡの音量よりも小さくなるように音声データＡ～Ｃのゲイン調整を行った音声信号をミキシングし、スピーカ１３に入力する。スピーカ１３は、音量調整部１８４から入力された音声信号を増幅して出力する。これにより、参加者Ｄは、参加者Ａの音声を聞き取りやすく、参加者Ａ以外の参加者Ｂ及びＣの音声も聞くことができる。

そして、制御部１８は、音声・映像処理部１８１により各映像データＡ～Ｃを表示制御部１８３へ出力し、表示部１７に参加者Ａ～Ｃの映像をそれぞれ表示させる（ステップＳ３６）。

制御部１８は、テレビ会議が終了するまで（ステップＳ３７：Ｎｏ）、ステップＳ３１以下の処理を繰り返し、テレビ会議が終了した場合（ステップＳ３７：Ｙｅｓ）、再生処理を終了する。

図５Ｂでは、説明の便宜上、会議端末１０Ｄを例に説明したが、会議端末１０Ａ～１０Ｃも、サーバ２０から取得する音声データに応じて、会議端末１０Ｄと同様の処理を行う。

本実施形態では、テレビ会議中に、各参加者は、仮想空間における隣の参加者の方に顔を向けて小声で話すことで、その音声を特定の参加者のみに送ることができる。そのため、テレビ会議の進行を妨げることなく、一部の会議参加者同士で会話することができる。また、一部の参加者同士の会話の音声よりも他の参加者の音声が小さく再生されるため、一部の参加者同士の会話が聞き取りやすい。テレビ会議中の音声も聞きながら、一部の会議参加者同士で会話ができるため、テレビ会議中の音声が全く聞こえない場合と比べ、実際に対面で行う会議のような臨場感を得ることができる。

以上、本発明に係る遠隔会議システム及び遠隔会議方法の実施形態について説明した。但し、遠隔会議システム及び遠隔会議方法は、上記の実施形態に限られるものではなく、その要旨を逸脱しない範囲で種々の態様において実施することが可能である。図面は、理解しやすくするために、それぞれの構成要素を主体に模式的に示しており、図示された各構成要素の厚み、長さ、個数等は、図面作成の都合上から実際とは異なる。また、上記の実施形態で示す各構成要素の形状、寸法等は一例であって、特に限定されるものではなく、本発明の効果から実質的に逸脱しない範囲で種々の変更が可能である。以下、上記実施形態の変形例を説明する。

［変形例］
（１）会議端末１０において、第２音声データを再生する際、第２音声データの送信元を認識できるように、表示部１７に表示された各参加者の映像の表示態様を変えてもよい。つまり、例えば、第２音声データの送信元に対応する参加者の映像を他の参加者の映像より大きく表示させてもよいし、第２音声データの送信元に対応する参加者の映像に、第２音声データの再生中であることを示すマークを重畳して表示させてもよい。

（２）決定部１８２は、音声データの音量が閾値以下である場合、映像データに映る参加者の顔の向きに加え、操作部１５を介した参加者の操作に基づいて、音声データの送信先を決定してもよい。参加者の操作は、例えば、表示部１７に表示された座席表１００ａにおける座席Ｓ１～Ｓ４のいずれかをマウス等で指定する操作であってもよい。このように構成することで、音声データの送信先をより確実且つ柔軟に決定することができる。

（３）サーバ２０から会議端末１０に送信される音声データに、互いに異なる複数の会議端末１０から送信された第２音声データが含まれていてもよい。例えば、参加者Ａと参加者Ｃがそれぞれ参加者Ｄに小声で話しかけた場合、会議端末１０Ｄに対し、サーバ２０から、音声データＡ及び音声データＣ（第２音声データ）の各パケットと、音声データＢ（第１音声データ）のパケットとを多重化した音声データが送信される。会議端末１０Ｄは、音量調整部１８４において、音声データＢの音量が音声データＡと音声データＣの各音量よりも小さくなるようにゲイン調整し、ゲイン調整した音声データＡ～Ｃの音声信号をミキシングしてスピーカ１３から出力する。なお、音声データＡと音声データＣのいずれか一方の音量を、予め定めた優先度に従って他方の音量よりも大きくしてもよい。

（４）会議端末１０における音量調整をサーバ２０で行い、音量調整後の音声データを多重化して各会議端末１０に送信してもよい。

（５）テレビ会議システム１は、インターネットを介して会議端末１０とサーバ２０とが接続されたＷＥＢ会議システム（遠隔会議システムの一例）に適用されてもよい。この場合、各会議端末１０は、テレビ会議を行う他の会議端末１０との間でＲＴＰセッションを確立し、映像データ及び音声データをエンコードして所定の暗号化処理を行った映像データ及び音声データを含むＲＴＰパケットをサーバ２０へ送信する。各会議端末１０は、サーバ２０からの多重化された音声データ及び映像データをデコードして分離し、復号化処理を行って音声データ及び映像データを再生する。

（６）会議端末１０において、音声データのパケットを生成する際、音声データの音声が無音である場合、無音であることを示す無音情報を音声データに付加してもよい。この場合、例えば、会議端末１０Ｄは、ステップＳ３３において、会議端末１０Ａからの第２音声データを含む音声データをサーバ２０から受信した後、無音情報が付加された第２音声データのパケットを連続して所定数受信するまで特定モードで動作してもよい。会議端末１０Ａは、無音情報が付加された第２音声データのパケットを連続して所定数受信した場合、特定モードを終了する。

（７）会議端末１０において、例えば、参加者により、サーバ２０に映像を送信しないビデオオフ操作がなされた場合、会議端末１０は、参加者又は会議端末１０を示す識別情報を含む所定の画像信号、もしくはビデオオフを示すビデオオフ信号をサーバ２０に送信してもよい。サーバ２０は、会議端末１０から受信した所定の画像信号又はビデオオフ信号を他の会議端末１０に対して送信し、他の会議端末１０において、所定の画像信号又はビデオオフ信号に応じた画像を表示させてもよい。

本発明は、少なくとも３人以上の参加者の端末を用いたテレビ会議やＷＥＢ会議等の遠隔会議に利用可能である。

１テレビ会議システム
１０，１０Ａ～１０Ｄ会議端末
１１マイク
１２カメラ
１３スピーカ
１４、２１通信部
１５操作部
１６、２３記憶部
１７表示部
１８、２２制御部
２０サーバ
１８１音声・映像処理部
１８２決定部
１８３表示制御部
１８４音量調整部

Claims

遠隔会議に参加する少なくとも３人以上の参加者の会議端末ごとに、前記参加者の音声を取得し、取得した音声から音量情報を含む音声データを生成する第１生成ステップと、
前記参加者の会議端末ごとに、前記参加者の会議中の映像を取得して映像データを生成する第２生成ステップと、
前記参加者の会議端末ごとに、前記参加者ごとの仮想空間上の座席を示す座席情報を表示する表示ステップと、
前記参加者の会議端末ごとに、前記座席情報と、当該参加者の前記音声データの前記音量情報及び前記映像データとに基づいて、当該参加者の音声データの送信先を決定する決定ステップと、
前記参加者の会議端末ごとに、当該参加者の前記音声データに対して決定された前記送信先に基づいて、当該参加者の前記音声データを送信する送信ステップと
を含む遠隔会議方法。
前記送信ステップは、前記参加者ごとの前記音声データの送信元に基づき、前記各参加者の会議端末に対し、当該参加者以外の他の参加者の会議端末からの前記映像データを送信する、請求項１に記載の遠隔会議方法。
前記決定ステップは、前記音声データの送信先として、全ての前記参加者の会議端末を示す第１送信先と、前記全ての参加者の会議端末うち一の参加者の会議端末を示す第２送信先とのいずれか一方を設定し、
前記第１送信先は、前記音声データの前記音量情報が所定の閾値より大きい場合に設定され、
前記第２送信先は、前記音声データの前記音量情報が前記所定の閾値以下の場合に設定され、
前記一の参加者の会議端末は、前記座席情報において、前記音声データと共に取得された前記映像データに映る前記参加者の顔の向きに対応する会議端末である、請求項２に記載の遠隔会議方法。
前記参加者の会議端末ごとに、他の前記参加者の前記音声データを受信して前記音声データを再生する再生ステップをさらに含み、
前記再生ステップにおいて受信した前記音声データの中に、前記第１送信先を含む音声データと、前記第２送信先を含む音声データとが含まれる場合、前記再生ステップは、前記第１送信先を含む音声データを、前記第２送信先を含む音声データよりも音量を小さくして再生する、請求項３に記載の遠隔会議方法。
前記再生ステップは、前記他の会議端末の前記映像データを受信し、
前記表示ステップは、前記座席情報に基づいて、前記第２生成ステップで生成された前記映像データと、前記再生ステップで受信された前記他の会議端末の前記映像データとを表示する、請求項４に記載の遠隔会議方法。
前記再生ステップは、前記他の会議端末の前記音声データとともに、当該音声データの送信元を示す送信元情報を受信し、
前記表示ステップは、前記再生ステップで受信された前記音声データに前記第２送信先が含まれる場合、前記第２送信先を含む音声データの前記送信元情報に対応する前記映像データと、他の前記映像データとを識別可能に表示する、請求項５に記載の遠隔会議方法。
前記参加者の会議端末ごとに、前記表示ステップで表示された前記座席情報において前記参加者の選択を受け付ける選択受付ステップをさらに含み、
前記決定ステップは、前記選択受付ステップで受け付けられた前記参加者の選択と前記映像データとに基づいて、前記音声データの送信先を決定する、請求項１から６のいずれか一項に記載の遠隔会議方法。
遠隔会議に参加する少なくとも３人以上の参加者ごとの会議端末と、
前記参加者ごとの前記会議端末と通信回線を介して接続されたサーバと
を備え、
前記会議端末は、
前記参加者ごとの仮想空間上の座席を示す座席情報を記憶する記憶部と、
前記座席情報を表示する表示部と、
前記参加者の音声を取得し、取得した音声から音量情報を含む音声データを生成する音声データ生成部と、
前記参加者の会議中の映像を取得して映像データを生成する映像データ生成部と、
前記座席情報と、前記音声データの前記音量情報及び前記映像データとに基づいて、前記音声データの送信先を決定する決定部と、
決定された前記送信先を示す送信先情報を対応づけた前記音声データを含む音声情報と、前記映像データを含む映像情報とを、自端末を示す送信元情報とともに前記サーバへ送信する第１送信部と、
を含み、
前記サーバは、
各会議端末から前記音声情報、前記映像情報及び前記送信元情報を取得する取得部と、
前記各会議端末に対し、取得した前記各会議端末からの前記音声情報の前記送信先情報に基づき、当該会議端末に対する前記音声情報を送信する第２送信部と
を含む、遠隔会議システム。