JP2013192139A

JP2013192139A - 多地点ビデオ会議システム及び画面配置割当て方法

Info

Publication number: JP2013192139A
Application number: JP2012058341A
Authority: JP
Inventors: Takayuki Hashimoto; 孝幸橋本; Hirotoshi Kato; 弘敏加藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2012-03-15
Filing date: 2012-03-15
Publication date: 2013-09-26

Abstract

【課題】
発話時間が互いに近い２地点の音像を分離すること。
【解決手段】
サーバ装置は、各会議端末から受信した音声データに発話有無情報を付加して各会議端末に送信する音声中継部と、各会議端末からの映像データを中継して各会議端末に送信する映像中継部とから構成され、各会議端末は、画面上の複数の表示領域に、映像データから得られた映像信号による画像を、それぞれ異なる地点での会議画面として表示する画像表示部と、映像データを各表示領域に割り当てる映像データ処理部を有し、映像データ処理部は、各端末から得られた音声データを基に各地点の会議端末における会議参加者の発話時間を計測し、計測結果を基に、発話時間が互いに近い会議参加者が存在する複数地点の会議端末から得られた映像データを、互いに離れた位置の表示領域に割り当てる。
【選択図】図１

Description

本発明は、複数の地点に配置された各端末をネットワークを介してサーバ装置に接続し、各端末からの画像と音声をサーバ装置で中継し、各端末の画面上に会議画面を表示するとともに、発話地点からの音声を発生させる機能を有する多地点ビデオ会議システム及び画面配置割当て方法に関する。

多地点ビデオ会議システム、例えば、１つのサーバ装置と、複数の地点に配置された各端末とを有し、各端末は、音声と画像の伝達機能、画像表示機能、及び音声再生機能を有している。この際、各端末では、他の端末からの画像および音声を合成し、合成した画像を表示するとともに、合成された音声を再生する処理を行う。

この種の多地点ビデオ会議システムとして、例えば、発話地点からのビデオ画像に対応するレイアウト内の位置から音声ストリームが発せられる、という知覚を生成するように、２つ以上のチャンネルにおいて、音声を処理する方法が提案されている（特許文献１参照）。この際、特許文献１には、表示画像のレイアウト方法として、例えば、画像表示が４地点で、４地点を超える会議参加者がある場合、声が大きい上位４地点A、B、C、およびDの画像が表示されているときに、地点Eから、地点Bよりも大きな声が発せられた場合に、地点Bの会議出席者がレイアウトから除外され、地点Bの画像を、地点Eの画像に置き換える方法が記載されている。

また、画像表示のレイアウト方法として、現在に一番近い時点で発言した会議参加者から、順番に人数を限って表示し、表示されていない参加者が発言した場合には、新たに発言した参加者と、表示されている参加者のうち、１番前に発言した参加者とを入れ替えて表示する方法が提案されている（特許文献２参照）。

さらに、単位時間内の発言量に基づいて、発言量の多い端末を選択して画面に表示する方法が提案されている（特許文献３参照）。この特許文献３には、単位時間、例えば、１秒毎に、発言中か否かを判断し、引き続き発言中であれば、カウントテーブルの各カウント値を１つ増加し、発言中ではない場合には、そのまま保留し、ある一定時間、例えば、相手の発言を聴取していて、１０秒間以上発言が検出されなかった場合は、再度発言が検出されるまで、単位時間毎にカウントテーブルのカウント値を１つずつ減算し、カウントテーブルのカウント値の大きい地点順に、表示画像を選択する方法が記載されている。

特開２００９−１７７８２７号公報特開平９−３０７８６９号公報特開平８−１４９４４０号公報

多地点ビデオ会議システムでの音声の再生において、ある地点の端末で、他の複数の地点からの音声情報を加算して合成し、合成された音声情報を再生する場合、複数の地点で同時に発言していると、両者の聞き分けが困難な状況が生じる。この際、特許文献１に記載されているように、各地点からの音声を、地点毎に音像を分離する方法を採用することが考えられる。

しかし、特許文献１に記載されている方法は、臨場感を高め、ユーザの体験を高めることには適しているが、同時に発言している２地点の画像が、画面レイアウト上で近い位置にある場合には、２地点の発言を聞き分けるには十分ではない。

また、特許文献２に記載されている方法では、表示されていない参加者が発言した場合、発言した参加者が追加して表示されるが、新たに発言した参加者と、表示されている参加者のうち、１番前に発言した参加者とが入れ替えられるだけであり、追加される参加者の画像の位置を判別することは考慮されていない。このため、同時に発言している２地点の画像が、画面レイアウト上で近い位置に配置される場合、両者の発言の聞き分けが困難であり、音像分離という観点から十分ではない。

さらに、特許文献３に記載されている方法を用いた場合、発言の頻度に応じて、表示する地点を選択する方法を採用することができる。しかし、発言のない時間が続くとカウンタがアンダフローとなり、発言の有無を識別できなくなり、発言の頻度によっては、端末の画像を正常に選択して表示することができなくなる。

本発明の目的は、会議参加者の会議画面を表示すべき表示領域の画面上の位置を判別し、現在発話している会議参加者が存在する地点の表示領域と、現在発話している会議参加者に直近に発話した会議参加者が存在する地点の表示領域とを分離して表示し、２地点の音像を分離することができる多地点ビデオ会議システム及び画面配置割当て方法を提供することにある。

前記課題を解決するために、本発明は、複数の地点にそれぞれ配置され、会議参加者の音声から得られた音声データと前記会議参加者の映像から得られた映像データを含むデータを送受信の対象データとして管理する複数の会議端末と、前記各会議端末とネットワークを介して情報の授受を行うサーバ装置と、を有する多地点ビデオ会議システムであって、前記サーバ装置は、前記各会議端末から受信した音声データに、発話の有無を示す発話有無情報を付加して、前記各会議端末に送信する音声中継部と、前記各会議端末からの映像データを中継して、前記各会議端末に送信する映像中継部と、を有し、前記各会議端末は、前記会議参加者の音声を入力して音声信号に変換する音声入力部と、前記会議参加者の映像を撮像して映像信号に変換する映像入力部と、前記サーバ装置の音声中継部から送信された音声データであって前記発話有無情報が付加された音声データと、前記サーバ装置の映像中継部から送信された映像データをそれぞれ受信するデータ受信部と、前記音声入力部からの音声信号を音声データに変換すると共に、少なくとも前記データ受信部の受信による音声データを音声信号に変換する音声処理部と、前記音声処理部で変換された音声信号を音声として出力する音声出力部と、前記映像入力部からの映像信号を映像データに変換する共に、少なくとも前記データ受信部の受信による映像データを映像信号に変換する映像処理部と、前記音声処理部で変換された音声データと前記映像処理部で変換された映像データを前記サーバ装置に送信するデータ送信部と、前記データ受信部の受信による音声データと、前記音声処理部で変換された音声データとを合成して、会議音声用音声データを生成し、前記生成した会議音声用音声データを前記音声処理部に出力する音声合成部と、前記データ受信部の受信による映像データと、前記映像処理部で変換された映像データとを合成して、会議画面用映像データを生成し、前記生成した会議画面用映像データを前記映像処理部に出力する映像合成部と、前記音声合成部で生成された会議音声用音声データと前記映像合成部で生成された会議画面用映像データをそれぞれ前記各データの送信元となる前記各地点の会議端末に対応づけて記憶する情報記憶部と、画面上の複数の表示領域に、前記各表示領域に割り当てられた会議画面用映像データから得られた映像信号による画像を、それぞれ異なる地点での会議画面として表示する画像表示部と、前記会議音声用音声データを基に前記情報記憶部に記憶された会議画面用映像データを前記いずれかの表示領域に割り当て、前記割り当てた会議画面用映像データを前記映像処理部に出力する映像データ処理部と、から構成され、前記映像データ処理部は、前記情報記憶部に記憶された会議画面用映像データを前記いずれかの表示領域に割り当てる場合、前記情報記憶部に記憶された会議音声用音声データから、前記各地点の会議端末における会議参加者の発話時間を計測し、前記計測した各発話時間を基に、前記情報記憶部に記憶された会議画面用映像データの中から、前記発話時間の計測対象となる会議音声用音声データの送信元を示す地点と同一地点の会議端末から得られた会議画面用映像データを選択し、前記選択した会議画面用映像データのうち、前記計測した発話時間が互いに近い会議参加者が存在する複数地点の会議端末から得られた会議画面用映像データを、互いに離れた位置の表示領域に割り当てることを特徴とする。

本発明によれば、２地点の音像を分離することで、両者の発言をより聞き分けることができる。

第１実施例の多地点ビデオ会議システムの概略構成図である。サーバ装置の構成図である。ビデオ会議端末の構成図である。管理テーブルの構成図である。発話時間の加重平均値を算出する方法を説明するための説明図である。ビデオ会議端末の処理を説明するためのフローチャートである。会議画面の表示例を説明するための説明図である。第２実施例の主制御部に適用されるソフトウェアの構成図である。ビデオ会議端末の処理を説明するためのフローチャートである。会議画面の表示例を説明するための説明図である。

以下、本発明の一実施例を図面に基づいて説明する。

（第１実施例）
図１は、本発明の第１実施例を示す多地点ビデオ会議システムの概略構成図である。図１において、多地点ビデオ会議システムは、サーバ装置１と、複数の地点にそれぞれ配置された複数のビデオ会議端末（以下、会議端末と称することがある。）２と、ネットワーク３、及びLAN（Local Area Network）４を有し、サーバ装置１と、各会議端末２が、LAN４とネットワーク３を介して相互に接続される。

ネットワーク３としては、例えば、FC SAN（Fibre Channel Storage Area Network）、IP SAN（Internet Protocol Storage Area Network）、WAN（Wide Area Network）等を用いることができる。

次に、図２に、サーバ装置の構成図を示す。図２において、サーバ装置１は、LANインタフェース部１１と、音声中継部１２と、発話検出部１３と、音声バッファ部１４と、指示部１５と、中継情報記憶部１６と、映像中継部１７と、映像バッファ部１８から構成される。

LANインタフェース部１１は、サーバ装置１をLAN４に接続するためのインタフェースである。音声中継部１２は、音声収集部１２１と、音声配信部１２２を有し、各会議端末２から送信された音声データを受信するとともに、受信した音声データに、発話の有無を示す発話有無情報（フラグ）を付加し、発話有無情報が付加された音声データを各会議端末２に送信する。

この際、音声収集部１２１は、LANインタフェース部１１を介して各会議端末２から受信した音声データを、各会議端末２に対応付けて音声バッファ部１４にバッファリングする。音声配信部１２２は、音声バッファ部１４に格納された音声データを、各会議端末２毎に識別し、同じ会議に参加している他の会議端末２に、音声バッファ部１４に格納された音声データを、LANインタフェース部１１を介して配信する。

発話検出部１３は、音声収集部１２１が受信した音声データの音声レベルが所定レベル以上であるか否かを判断し、各会議端末２における会議に参加した参加者（以下、ユーザと称することがある。）による発話の有無を検出する。即ち、発話検出部１３は、音声収集部１２１が受信した音声データの音声レベルが、所定レベル以上である場合には、ユーザによる発話があることを検出する。

この際、発話検出部１３は、発話の有無を示す発話有無情報（フラグ）を音声データに付加する。例えば、発話検出部１３は、発話有りの場合には、「１」のフラグを音声データに付加し、発話無しの場合には、「０」のフラグを音声データに付加する。このため、音声配信部１２２が音声データを配信する際には、発話有無情報（フラグ）が付加された音声データが配信されることになる。

映像中継部１７は、映像収集部１７１と、映像配信部１７２を有し、各会議端末２から送信された映像データをLANインタフェース部１１を介して受信するとともに、受信した映像データを映像バッファ部１８に格納すると共に、各会議端末２に送信する。即ち、映像中継部１７は、各会議端末２間でやり取りされる映像データを中継する。この際、映像収集部１７１は、LANインタフェース部１１を介して、各会議端末２から送信された映像データを受信し、受信した映像データを各会議端末２に対応付けて映像バッファ部１８にバッファリングする。映像配信部１７２は、映像バッファ部１８に格納された映像データを、各会議端末２にLANインタフェース部１１を介して配信する。この場合、映像配信部１７２は、同じ会議に参加している他の会議端末２のうち、映像配信が要求された会議端末２のみに映像データを配信することもできる。

指示部１５は、音声中継部１２と映像中継部１７に対して、中継開始および中継終了の指示を行うとともに、会議に参加した会議端末２から受信した映像配信要求に従って中継情報記憶部１６の情報を更新する。なお、中継情報記憶部１６には、開催中の会議毎に、会議に参加した会議端末２の情報として、例えば、各会議端末２の音声データや映像データの配信情報が記憶される。

次に、図３に、端末の構成図を示す。図３において、会議端末２は、主制御部２１０と、LANインタフェース部２１と、情報記憶部２２と、音声合成部２３と、音声処理部２４と、音声入出力部２５と、映像合成部２６と、映像処理部２７と、映像入出力部２８と、操作受付部２９とから構成される。

主制御部２１０は、会議端末２全体を統括制御するコントローラとして機能し、LANインタフェース部２１と、情報記憶部２２と、音声合成部２３と、音声処理部２４と、音声合成部２６と、映像処理部２７、及び操作受付部２９に接続される。この際、主制御部２１０は、ユーザ（会議参加者）の音声から生成された音声データと、ユーザの映像から生成された映像データを含むデータを少なくともサーバ装置１に対する送受信対象のデータとして処理する。

LANインタフェース部２１は、会議端末２をLAN４に接続するためのインタフェースである。音声入出力部２５は、マイク２５１と、スピーカ２５２から構成される。マイク２５１は、ユーザの音声を入力して音声信号に変換する音声入力部として機能し、音声信号を音声処理部２４に出力する。スピーカ２５２は、音声処理部２４から出力される音声信号を音声として出力する音声出力部として機能する。

映像入出力部２８は、カメラ２８１と、ディスプレイ２８２から構成される。カメラ２８１は、ユーザの映像を撮像して映像信号に変換する映像入力部として機能し、映像信号を映像処理部２７に出力する。ディスプレイ２８２は、映像処理部２７から映像信号を取り込み、映像信号による画像を会議画面として表示する画像表示部として機能する。この際、ディスプレイ２８２の画面上の表示領域は、複数の表示領域に分割され、各表示領域には、例えば、会議画面用映像データから得られた映像信号による画像が、会議画面として表示する。

操作受付部２９は、マウス２９１と、キーボード２９２から構成される。マウス２９１とキーボード２９２は、ユーザの各種操作に応じた情報を入力し、入力した情報を主制御部２１０に転送する。

音声処理部２４は、マイク２５１からの音声信号を音声データに変換し、変換した音声データを主制御部２１０に転送し、主制御部２１０から転送される音声データを音声信号に変換し、変換した音声信号をスピーカ２５２に出力する。即ち、音声処理部２４は、音声信号の符号化および符号化を行うコーデックであり、マイク２５１で集音された音声信号を音声データに変換するための符号化を行うとともに、主制御部２１０から転送される音声データを音声信号に復号化し、復号化された音声信号をスピーカ２５２に出力する。

音声合成部２３は、主制御部２１０から転送される音声データであって、各会議端末２から送信された音声データを合成して、会議音声用音声データを生成し、生成された会議音声用音声データは、音声処理部２４で複合化され、会議音声用音声信号としてスピーカ２５２より出力される。

映像処理部２７は、カメラ２８１からの映像信号を映像データに変換し、変換した映像データを主制御部２１０に転送し、主制御部２１０から転送される映像データを映像信号に変換し、変換した映像信号をディスプレイ２８２に出力する。

映像合成部２６は、主制御部２１０から転送される映像信号であって、各会議端末２から送信された映像データを合成して、会議画面用映像データを生成し、生成された会議画面用映像データは、映像処理部２７で複合化され、会議画面用映像信号としてディスプレイ２８２に画像表示される。

情報記憶部２２は、会議画面情報記憶部２２１と、発話情報記憶部２２２から構成される。会議画面情報記憶部２２１には、ディスプレイ２８１の画面上に表示する会議画面の構成情報、例えば、画面レイアウトに関する構成情報と、映像合成部２６で生成された会議画面用映像データが記憶される。発話情報記憶部２２２には、自会議端末２と同じ会議に参加している会議端末（参加会議端末）毎に、各会議端末２から送信された音声データ又は音声合成部２３で生成された会議音声用音声データが、各会議端末２に対応付けて記憶される。この際、音声データに、発話有りのフラグが付加されている場合、音声データの最新の送信時刻あるいは受信時刻が、ユーザが発話した発話時刻として、発話情報記憶部２２２に登録される。

ここで、主制御部２１０は、音声合成部２３で生成された会議音声用音声データと、映像合成部２６で生成された会議画面用映像データを記憶部２２に登録する処理を行うとともに、会議音声用音声データを基に、情報記憶部２２に記憶された会議画面用映像データを、ディスプレイ２８２のいずれかの表示領域に割り当てる映像データ処理部として機能する。

この際、主制御部２１０は、会議音声用音声データのうち、発話有りのフラグが付加された会議音声用音声データを基に、ユーザの発話時間を計測し、この計測結果を基に、例えば、ユーザの発話時間が新しい順に、情報記憶部２２に記憶された会議画面用映像データの中から、発話時間の計測対象となる会議音声用音声データの送信元を示す地点と同一地点の会議端末２から得られた会議画面用映像データを選択する。

但し、選択した会議画面用映像データの中に、計測した発話時間が互いに近い複数地点の会議端末２から得られた会議画面用映像データが存在する場合、主制御部２１０は、計測した発話時間が互いに近い複数地点の会議端末２から得られた会議画面用映像データを、それぞれ互いに離れた位置の表示領域に割り当てる。この場合、主制御部２１０は、各会議画面用映像データを、互いに離れた位置の表示領域であって、互いに最遠端となる表示領域に割り当てることができる。また、画面上の各表示領域に割り当てられた会議画面用映像データは、映像処理部２７で映像信号に変換され、変換された映像信号による画像が、いずれかの会議端末２における会議画面として、ディスプレイ２８２の各表示領域に表示される。

また、主制御部２１０は、ディスプレイ２８２の複数の表示領域に対応する複数の会議画面から構成される画面レイアウトを作成し、画面レイアウト上の各会議画面に、いずれかの会議端末２で生成された会議画面用映像データを割り当てることもできる。この場合、画面レイアウト上の各会議画面に割り当てられた会議画面用映像データは、映像処理部２７で映像信号に変換され、変換された映像信号による画像が、いずれかの会議端末２における会議画面として、ディスプレイ２８２の各表示領域に表示される。

また、主制御部２１０は、サーバ装置１の音声中継部１２から送信された音声データであって、発話有無情報が付加された音声データと、映像中継部１７から送信された映像データをLANインタフェース部２１を介して受信するデータ受信部として機能し、音声処理部２４で処理された音声データと、映像処理部２７で処理された映像データを、LANインタフェース部２１を介してサーバ装置１に送信するデータ送信部として機能する。

図４に、管理テーブルの構成図を示す。図４において、管理テーブル６０は、主制御部２１０が、各会議端末２から送信された音声データおよび自会議端末２で生成された音声データから得られた情報を各端末に関連付けて管理するためのテーブルであって、会議拠点フィールド６１と、配置場所フィールド６２と、発話時刻フィールド６３と、発話状態フィールド６４と、発話加重平均フィールド６５と、累積発話時間フィールド６６から構成される。

会議拠点は、各地点に配置された各会議端末２の会議拠点を特定する識別子である。会議拠点フィールド６１のエントリには、各地点に配置された各会議端末２の会議拠点を特定する識別子として、例えば、「A」、「B」・・・「n」が格納される。

配置場所は、ディスプレイ２８２の画面上に割り当てられた表示領域を特定する場所に関する情報である。ディスプレイ２８２の表示画面が４つの表示領域で構成される場合、配置場所フィールド６２のエントリには、各表示領域を特定する配置場所の情報として、例えば、「P１」、「P２」、「P３」、「P４」が格納される。なお、配置場所が削除された場合には、配置場所６２には、「0」が格納される。

発話時刻は、各会議拠点でユーザが発話した場合、その発話時刻を示す情報である。発話時刻フィールド６３のエントリには、各会議拠点でユーザが発話した場合、その発話時刻が、時間・分・秒で格納される。

発話状態は、各会議拠点におけるユーザが発話状態にあるか否かを示す情報である。発話状態フィールド６４のエントリには、各会議拠点におけるユーザが発話状態にある場合には、「1」が格納され、ユーザが発話状態にない場合には、「0」が格納される。

発話加重平均は、各会議拠点におけるユーザが発話状態にある場合、音声データを基に算出された発話時間の加重平均値を示す情報である。この発話加重平均フィールド６５のエントリには、例えば、３分毎に計測された発話時間の加重平均値が格納される。

累積発話時間は、各拠点におけるユーザが発話した時間の累積値を示す時間に関する情報である。累積発話時間フィールド６６のエントリには、各拠点におけるユーザが発話した時間の累積値を示す時間が格納される。

次に、図５に、発話時間の加重平均値の算出例を示す。図５（a）に示すように、主制御部２１０は、発話有無情報が付加された音声データを基に１秒単位で１８０秒間、音声データをサンプリングし、サンプリングして得られた音声データの値を基に、図５（b）に示すように、１８０秒間の加重値を算出する。この際、主制御部２１０は、図５（c）に示すように、発話値hiと加重値Wiとを掛け算し、掛け算して得られた値を、それぞれ加算して加重平均値を算出する。なお、図５（ｄ）に、加重値Wiの実際の値を示す。

次に、主制御部２１０の処理を図６のフローチャートに従って説明する。

まず、主制御部２１０は、情報記憶部２２を参照し、会議拠点の発話順に会議画面を配置する（S３０１）。例えば、図７（a）に示すように、ディスプレイ２８２の画面に、会議画面を表示するための表示領域として、４つの表示領域５１、５２、５３、５４が割り当てられている場合、各表示領域に各会議拠点の会議画面を配置する。

ここで、会議拠点の発話順が、会議拠点C、D、E、Bの順番である場合、表示領域５１〜５４には、会議拠点B、C、D、Eの会議画面を配置する。この場合、表示領域５１に配置される会議画面は、会議拠点Bにおけるユーザの発話時刻（発話時間）が、他の会議拠点C、D、Eにおけるユーザの発話時刻よりも新しく、最新の発話時刻における会議画面であることを意味する。また、表示領域５２に配置される会議画面は、会議拠点Cにおけるユーザの発話時刻が、最も古く、最古の発話時刻における会議画面であることを意味する。

次に、主制御部２１０は、情報記憶部２２に格納された音声データを基に、ディスプレイ２８２の各表示領域に配置されていない会議拠点、例えば、会議拠点Fで発話があるか否かを判定する（S３０２）。

主制御部２１０は、ステップS３０２で否定の判定結果を得た場合には、ステップS３０２の処理を繰り返し、ステップS３０２で肯定の判定結果を得た場合には、ステップS３０３の処理に移行する。

主制御部２１０は、ステップS３０３において、ディスプレイ２８２のモニタ画面上に配置されている各会議拠点B、C、D、Eの単位時間当たりの加重平均値をチェックし、加重平均値が最上位と最下位の会議拠点を選定する。

この際、主制御部２１０は、管理テーブル６０を検索し、加重平均値が最上位となる会議拠点として、会議拠点Bを選定し、加重平均値が最下位の会議拠点として、会議拠点Cを選定する。この場合、各拠点B、C、D、Eにおける加重平均値を最上位５５〜最下位５８に分けて整理すると、図７（ｃ）に示すように、会議拠点B、E、D、Cの順に配置される。

次に、主制御部２１０は、新規の会議拠点Fの会議画面をいずれかの表示領域に割り当てるために、加重平均値が最下位の会議拠点Cが発話していないことを確認し、会議拠点Cを表示領域５２（配置場所P２）から削除する（S３０４）。

次に、主制御部２１０は、表示領域５４（配置場所P４）における会議拠点Eが発話していないことを確認し、表示領域５４における会議画面を表示領域５２に移動させる（S３０５）。

この後、主制御部２１０は、新規に発話された会議拠点Fの会議画面を表示領域５４に配置する（S３０６）。このときの表示例を図７（ｂ）に示す。この際、新規に発話された会議拠点Fの会議画面をいずれかの表示領域に配置する場合、会議拠点Fのユーザが発話する発話時刻に、最も近い発話時刻を示す会議拠点Bの会議画面が配置されていた表示領域５１から最も離れた表示領域であって、表示領域５１との間に、他の表示領域５２、５３が存在する表示領域５４に、新規に発話された会議拠点Fの会議画面を配置する。これにより、会議拠点Bと会議拠点Fの音像が分離され、発言の聞き分けがより容易となる。

この際、主制御部２１０は、各地点の会議端末２におけるユーザの発話時間を計測する場合、一定時間毎に、ユーザの発話時間の加重平均値を算出し、算出した加重平均値の高低を判別し、算出した加重平均値が高い程、ユーザの発言時期が新しく、算出した加重平均値が低い程、ユーザの発言時期が古いと判別し、算出した加重平均値が最も高い値を示す地点の会議端末２を、最新の発話時間が計測された地点の会議端末２と判別する。

主制御部２１０は、発話時間の加重平均値を基に、削除する会議拠点の会議画面や移動すべき会議拠点の会議画面を決定することで、各表示領域に各会議拠点の会議画面を割り当てる処理を少なくすることができる。

例えば、図７（b）に示すように、新規に発話した会議拠点Fの会議画面が表示領域５４に割り当てられ、各表示領域５１〜５４に各会議拠点B、E、D、Fの会議画面が割り当てられている状態で、会議画面が表示領域５２に表示されている会議拠点Eから、発話が生じた場合、表示領域５４と表示領域５２との間には、表示領域５３が存在するので、各表示領域５１〜５４に表示されている会議画面を変更することなく、各表示領域５１〜５４に割り当てられている会議画面をそのまま表示しても、会議拠点Eと会議拠点Fとおける音像が分離され、発言の聞き分けがより容易となる。

本実施例によれば、新規に発話された会議拠点Fの会議画面を表示領域５４に配置する場合、会議拠点Fのユーザが発話する発話時刻に、最も近い発話時刻を示す会議拠点Bの会議画面が配置されていた表示領域５１から最も離れた表示領域５４に、新規に発話された会議拠点Fの会議画面を配置するようにしたので、会議拠点Bと会議拠点Fの音像が分離され、発言の聞き分けがより容易となる。

また、新規に発話された会議拠点Fの会議画面を、会議拠点Fのユーザが発話する発話時刻に、最も近い発話時刻を示す会議拠点Bの会議画面が配置されていた表示領域５１から最も離れた表示領域（表示領域５４）に配置するが固定されているので、新規に発話された会議拠点Fの会議画面が一目瞭然となる。

（第２実施例）
本実施例は、音声データを一定時間毎にサンプリングして、発話時間の加重平均値を算出する代わりに、ユーザの一定時間内の発言量から発言量評価値を算出し、算出した発言量評価値を発話時間の加重平均値として利用するものである。各会議端末２の構成は、第１実施例と同様であり、主制御部２１０の処理内容のみが第１実施例とは異なる。

図８に、発言量評価値を算出するためのソフトウェアの構成図を示す。このソフトウェアは、主制御部２１０によって実行されるソフトウェアであって、複数のレジスタ８０A１、・・・、８０Anと、単位時間計測タイマ８１と、発言検出器８２と、乗算器８３と、加算器８４と、乗算係数８５と、加算定数８６と、セレクタ８７から構成される。

レジスタ８０A１〜８０Anは、各地点に配置された各会議端末２の発言量評価値を数値で格納する。なお、レジスタ８０A１〜８０Anに格納される発言量評価値の初期値は、０である。

各単位時間計測タイマ８１は、発言量評価値を算出するための実行タイミングを生成し、生成したタイミングで各レジスタ８０A１〜８０Anに格納された数値を更新すると共に、発言検出器８２に対して、発言有無を判定するタイミングを設定する。

発言検出器８２は、各地点に配置された各会議端末２からの音声データを基に、前回の発言有無判定タイミングから、今回の発言有無タイミングとの間に、一定量以上の発言があったか否かを検出し、検出結果をセレクタ８７に出力する。なお、発言検出器８２の検出結果は一定時間記憶された後、発言有無判定タイミングでリセットされる。

乗算器８３は、各レジスタ８０A１〜８０Anに格納された数値をそれぞれ取り込み、取り込んだ数値と事前に設定された乗算係数８５とを掛け算し、この掛け算して得られた数値を乗算器８３と加算器８４に出力する。加算器８４は、乗算器８３の出力と、事前に設定される加算定数８６との和を算出し、算出結果をセレクタ８７に出力する。

セレクタ８７は、各会議端末２からの音声データを基に発言検出器８２から、発言有りの検出結果を入力した場合、加算器８４の出力を選択し、発言検出器８２から発言無しの検出結果を入力した場合には、乗算器８３の出力を選択し、選択した数値を各レジスタ８０A１〜８０Anに出力し、各レジスタ８０A１〜８０Anに格納された数値を更新する。

例えば、発言有無判定タイミングが単位時間の１秒であって、乗算係数８５が０．９で、加算定数８６を１とした場合、あるタイミングで、レジスタ８０A１に対応する会議端末２で発言があった場合、そのタイミングでレジスタ８０A１のレジスタ値（数値）には１が加算される。一方、あるタイミングから、レジスタ８０A１に対応する会議端末２で５秒間発言がない場合には、レジスタ８０A１のレジスタ値に、乗算係数８５＝０．９が掛け算された値が、セレクタ８７によって選択されるので、５秒後には、レジスタ８０A１のレジスタ値は、０．９の５乗＝０．５９倍された値となる。即ち、会議端末２の会議拠点で発言がある間は、レジスタ値は１であるが、発言がない場合には、発言がない時間が長くなるほどレジスタ値が小さくなり、０に近づくことになる。なお、乗算器８３において、小数点第２位を切り捨てて計算することで、１０秒間発言がない場合には、レジスタ値は０となる。

次に、本実施例における主制御部の処理を図９のフローチャートに従って説明する。

まず、主制御部２１０は、情報記憶部２２に格納された各会議端末２の音声データと映像データを基に、会議拠点の発話順に会議画面を配置する（S９０１）。例えば、図１０（a）に示すように、会議拠点C、D、E、Bの順で発話があった場合、表示領域５１、５２、５３、５４に、会議拠点B、C、D、Eの会議画面を配置する。この場合、表示領域５１に会議画面が配置される会議拠点Bにおけるユーザの発話時間が最新の発話時間である。

次に、主制御部２１０は、情報記憶部２２に格納された各会議端末２の音声データを基に、現在、ディスプレイ２８０に会議画面が表示されている会議拠点Bで発話があるか否かを判定する（S９０２）。ステップS９０２で否定の判定結果を得た場合には、主制御部２１０は、ステップS９０２の処理を繰り返し、ステップS９０２で肯定の判定結果を得た場合には、ディスプレイ２８２に会議画面が表示されている会議拠点Cで発話があるか否かを判定する（S９０３）。

主制御部２１０は、ステップS９０３で否定の判定結果を得た場合には、ステップS９０２に戻り、ステップS９０２〜S９０３の処理を繰り返し、ステップS９０３で肯定の判定結果を得た場合には、情報記憶部２２に格納された各会議端末２の音声データを基に、会議拠点Bと会議拠点Cにおける音声の重なりは、設定時間、例えば、３秒以上か否かを判定する（S９０４）。

主制御部２１０は、ステップS９０４で否定の判定結果を得た場合には、ステップS９０２に戻り、ステップS９０２〜S９０４の処理を繰り返し、ステップS９０４で肯定の判定結果を得た場合には、ディスプレイ２８２に会議画面が表示されている各会議拠点B、C、D、Eの単位時間値の加重平均値（発言量評価値）をチェックし、加重平均値（発言量評価値）が、最上位と最下位の会議拠点を選定する（S９０５）。

この際、主制御部２１０は、各レジスタA１〜Anのレジスタ値を参照し、会議拠点B、C、D、Eの単位時間当たりの加重平均値（発言量評価値）をチェックし、単位時間当たりの加重平均値（発言量評価値）が、最上位と最下位の会議拠点を選定する。

主制御部２１０は、単位時間当たりの加重平均値（発言量評価値）が最上位の会議拠点として会議拠点Bを選定し、最下位の会議拠点として会議拠点Cを選定した場合、会議拠点Cの会議画面を、会議拠点Bの会議画面から最も離れた表示領域５４（配置場所P４）の位置に再配置する（S９０６）。

次に、主制御部２１０は、表示領域５４（配置場所P４）配置してあった会議拠点Eの会議画面を、表示領域５２（配置場所P２）の位置に再配置する（S９０７）。即ち、図１０（b）に示すように、会議拠点Cの会議画面を、表示領域５２から表示領域５４に再配置し、会議拠点Eの会議画面を、表示領域５４から表示領域５２に再配置する。

本実施例によれば、表示領域５１、５２、５３、５４に表示されている会議拠点B、C、D、Eの会議画面のうち、会議拠点B、Cにおけるユーザの発話が重なり、加重平均値が会議拠点Bよりも低い値を示す会議拠点Cの会議画面を再配置する場合、会議拠点Bの会議画面が配置されていた表示領域５１から最も離れた表示領域５４に、会議拠点Cの会議画面を配置するようにしたので、会議拠点Bと会議拠点Cの音像が分離され、発言の聞き分けがより容易となる。

また、本実施例によれば、既に、各表示領域に会議画面が表示されている会議拠点から発話が発生し、複数の会議拠点から発生した発話の重なりが３秒以上であることを条件に、会議画面の入れ替えを行っているので、複数の会議拠点から発生した発話の重なりが３秒未満の場合には、会議画面を入れ替える必要がなく、会議拠点で発話が発生する毎に会議画面と変更する処理を行う場合よりも、煩雑さを低減することができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。

また、上記の各構成、機能、処理部等は、それらの一部又は全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、または、ＩＣ（Integrated Circuit）カード、ＳＤ（Secure Digital）メモリカード、ＤＶＤ（Digital Versatile Disc）等の記録媒体に記録して置くことができる。

１サーバ装置、２ビデオ会議端末、３ネットワーク、１２音声中継部、１７映像中継部、２２情報記憶部、２３音声合成部、２４音声処理部、２５音声入出力部、２６映像合成部、２７映像処理部、２８映像入出力部、２１０主制御部、８０A１〜８０An レジスタ、８１単位時間計測タイマ、８２発言検出器、８３乗算器、８４加算器、８５乗算係数、８６加算定数、８７セレクタ。

Claims

複数の地点にそれぞれ配置され、会議参加者の音声から得られた音声データと前記会議参加者の映像から得られた映像データを含むデータを送受信の対象データとして管理する複数の会議端末と、
前記各会議端末とネットワークを介して情報の授受を行うサーバ装置と、を有する多地点ビデオ会議システムであって、
前記サーバ装置は、
前記各会議端末から送信された音声データを受信すると共に、前記受信した音声データに、発話の有無を示す発話有無情報を付加し、前記発話有無情報が付加された音声データを前記各会議端末に送信する音声中継部と、
前記各会議端末から送信された映像データを受信すると共に、前記受信した映像データを前記各会議端末に送信する映像中継部と、を有し、
前記各会議端末は、
前記会議参加者の音声を入力して音声信号に変換する音声入力部と、
前記会議参加者の映像を撮像して映像信号に変換する映像入力部と、
前記サーバ装置の音声中継部から送信された音声データであって前記発話有無情報が付加された音声データと、前記サーバ装置の映像中継部から送信された映像データをそれぞれ受信するデータ受信部と、
前記音声入力部からの音声信号を音声データに変換すると共に、少なくとも前記データ受信部の受信による音声データを音声信号に変換する音声処理部と、
前記音声処理部で変換された音声信号を音声として出力する音声出力部と、
前記映像入力部からの映像信号を映像データに変換する共に、少なくとも前記データ受信部の受信による映像データを映像信号に変換する映像処理部と、
前記音声処理部で変換された音声データと前記映像処理部で変換された映像データを前記サーバ装置に送信するデータ送信部と、
前記データ受信部の受信による音声データと、前記音声処理部で変換された音声データとを合成して、会議音声用音声データを生成し、前記生成した会議音声用音声データを前記音声処理部に出力する音声合成部と、
前記データ受信部の受信による映像データと、前記映像処理部で変換された映像データとを合成して、会議画面用映像データを生成し、前記生成した会議画面用映像データを前記映像処理部に出力する映像合成部と、
前記音声合成部で生成された会議音声用音声データと前記映像合成部で生成された会議画面用映像データをそれぞれ前記各データの送信元となる前記各地点の会議端末に対応づけて記憶する情報記憶部と、
画面上の複数の表示領域に、前記各表示領域に割り当てられた会議画面用映像データから得られた映像信号による画像を、それぞれ異なる地点での会議画面として表示する画像表示部と、
前記会議音声用音声データを基に前記情報記憶部に記憶された会議画面用映像データを前記いずれかの表示領域に割り当て、前記割り当てた会議画面用映像データを前記映像処理部に出力する映像データ処理部と、から構成され、
前記映像データ処理部は、
前記情報記憶部に記憶された会議画面用映像データを前記いずれかの表示領域に割り当てる場合、
前記情報記憶部に記憶された会議音声用音声データから、前記各地点の会議端末における会議参加者の発話時間を計測し、前記計測した各発話時間を基に、前記情報記憶部に記憶された会議画面用映像データの中から、前記発話時間の計測対象となる会議音声用音声データの送信元を示す地点と同一地点の会議端末から得られた会議画面用映像データを選択し、前記選択した会議画面用映像データのうち、前記計測した発話時間が互いに近い会議参加者が存在する複数地点の会議端末から得られた会議画面用映像データを、互いに離れた位置の表示領域に割り当てることを特徴とする多地点ビデオ会議システム。
請求項１に記載の多地点ビデオ会議システムであって、
前記映像データ処理部は、
前記各地点の会議端末における会議参加者の発話時間のうち、最新の発話時間が計測された地点の会議端末から得られた会議画面用映像データを、前記各表示領域に未割当の会議画面用映像データとして新規に選択した場合、
前記各表示領域に既に割り当てられている会議画面用映像データの送信元となる各地点の会議端末における会議参加者の発話時間の中から、前記最新の発話時間に最も近い発話時間を選択し、前記選択した発話時間が計測された地点の会議端末の会議画面が表示されている表示領域を特定し、前記各表示領域のうち、前記特定した表示領域から離れた表示領域であって、前記特定した表示領域との間に、前記特定した表示領域とは異なる他の表示領域が存在する表示領域に、前記新規に選択した会議画面用映像データを割り当てることを特徴とする多地点ビデオ会議システム。
請求項２に記載の多地点ビデオ会議システムであって、
前記映像データ処理部は、
前記各地点の会議端末における会議参加者の発話時間を計測する場合、一定時間毎に、前記会議参加者の発話時間の加重平均値を算出し、前記算出した加重平均値の高低を判別し、前記算出した加重平均値が高い程、前記会議参加者の発言時期が新しく、前記算出した加重平均値が低い程、前記会議参加者の発言時期が古いと判別し、前記算出した加重平均値が最も高い値を示す地点の会議端末を、前記最新の発話時間が計測された地点の会議端末と判別することを特徴とする多地点ビデオ会議システム。
請求項１に記載の多地点ビデオ会議システムであって、
前記映像データ処理部は、
前記各地点の会議端末における会議参加者の発言量評価値を記録する複数のレジスタと、前記各地点の会議端末における会議参加者の単位時間内の発言の有無を検出する発言検出器と、前記単位時間毎に前記各レジスタに記録された発言量評価値と乗算係数とを乗算する乗算器と、前記乗算器による乗算結果に加算定数を加算する加算器と、前記発言検出器で発言が検出された場合、前記加算器の加算結果で前記各レジスタの発言量評価値を更新して、前記各レジスタの発言量評価値を前記加算定数に保持し、前記発言検出器で発言が検出されない場合、前記乗算器の乗算結果で前記各レジスタの発言量評価値を更新して、前記各レジスタの発言量評価値を前記乗算係数に従って漸次減少させるセレクタと、を有し、前記各レジスタに格納された発言量評価値を、前記各地点の会議端末における会議参加者の発話時間の加重平均値として用いることを特徴とする多地点ビデオ会議システム。
請求項１に記載の多地点ビデオ会議システムであって、
前記映像データ処理部は、
前記計測した各発話時間を基に、前記各表示領域に会議画面が表示されている各地点の会議端末における会議参加者の発話時間の中に、設定時間以上互いに重なる発話時間が存在することを判別した場合、前記発話時間の重なりが計測された複数地点の会議端末から得られた会議画面用映像データを、互いに離れた位置の表示領域に割り当てることを特徴とする多地点ビデオ会議システム。
複数の地点にそれぞれ配置され、会議参加者の音声から得られた音声データと前記会議参加者の映像から得られた映像データを含むデータを送受信の対象データとして管理する複数の会議端末と、
前記各会議端末とネットワークを介して情報の授受を行うサーバ装置と、を有し、
前記サーバ装置は、
前記各会議端末から送信された音声データを受信すると共に、前記受信した音声データに、発話の有無を示す発話有無情報を付加し、前記発話有無情報が付加された音声データを前記各会議端末に送信する音声中継部と、
前記各会議端末から送信された映像データを受信すると共に、前記受信した映像データを前記各会議端末に送信する映像中継部と、から構成され、
前記各会議端末は、
前記会議参加者の音声を入力して音声信号に変換する音声入力部と、
前記会議参加者の映像を撮像して映像信号に変換する映像入力部と、
前記サーバ装置の音声中継部から送信された音声データであって前記発話有無情報が付加された音声データと、前記サーバ装置の映像中継部から送信された映像データをそれぞれ受信するデータ受信部と、
前記音声入力部からの音声信号を音声データに変換すると共に、少なくとも前記データ受信部の受信による音声データを音声信号に変換する音声処理部と、
前記音声処理部で変換された音声信号を音声として出力する音声出力部と、
前記映像入力部からの映像信号を映像データに変換する共に、少なくとも前記データ受信部の受信による映像データを映像信号に変換する映像処理部と、
前記音声処理部で変換された音声データと前記映像処理部で変換された映像データを前記サーバ装置に送信するデータ送信部と、
前記データ受信部の受信による音声データと、前記音声処理部で変換された音声データとを合成して、会議音声用音声データを生成し、前記生成した会議音声用音声データを前記音声処理部に出力する音声合成部と、
前記データ受信部の受信による映像データと、前記映像処理部で変換された映像データとを合成して、会議画面用映像データを生成し、前記生成した会議画面用映像データを前記映像処理部に出力する映像合成部と、
前記音声合成部で生成された会議音声用音声データと前記映像合成部で生成された会議画面用映像データをそれぞれ前記各データの送信元となる前記各地点の会議端末に対応づけて記憶する情報記憶部と、
画面上の複数の表示領域に、前記各表示領域に割り当てられた会議画面用映像データから得られた映像信号による画像を、それぞれ異なる地点での会議画面として表示する画像表示部と、
前記会議音声用音声データを基に前記情報記憶部に記憶された会議画面用映像データを前記いずれかの表示領域に割り当て、前記割り当てた会議画面用映像データを前記映像処理部に出力する映像データ処理部と、から構成される多地点ビデオ会議システムにおける画面配置割当て方法であって、
前記映像データ処理部は、
前記情報記憶部に記憶された会議画面用映像データを前記いずれかの表示領域に割り当てる場合、
前記情報記憶部に記憶された会議音声用音声データから、前記各地点の会議端末における会議参加者の発話時間を計測するステップと、
前記計測した各発話時間を基に、前記情報記憶部に記憶された会議画面用映像データの中から、前記発話時間の計測対象となる会議音声用音声データの送信元を示す地点と同一地点の会議端末から得られた会議画面用映像データを選択するステップと、
前記選択した会議画面用映像データのうち、前記計測した発話時間が互いに近い会議参加者が存在する複数地点の会議端末から得られた会議画面用映像データを、互いに離れた位置の表示領域に割り当てるステップと、を実行することを特徴とする画面配置割当て方法。
請求項６に記載の画面配置割当て方法であって、
前記映像データ処理部は、
前記各地点の会議端末における会議参加者の発話時間のうち、最新の発話時間が計測された地点の会議端末から得られた会議画面用映像データを、前記各表示領域に未割当の会議画面用映像データとして新規に選択した場合、
前記各表示領域に既に割り当てられている会議画面用映像データの送信元となる各地点の会議端末における会議参加者の発話時間の中から、前記最新の発話時間に最も近い発話時間を選択するステップと、
前記選択した発話時間が計測された地点の会議端末の会議画面が表示されている表示領域を特定するステップと、
前記各表示領域のうち、前記特定した表示領域から離れた表示領域であって、前記特定した表示領域との間に、前記特定した表示領域とは異なる他の表示領域が存在する表示領域に、前記新規に選択した会議画面用映像データを割り当てるステップと、を実行することを特徴とする画面配置割当て方法。
請求項７に記載の画面配置割当て方法であって、
前記映像データ処理部は、
前記各地点の会議端末における会議参加者の発話時間を計測する場合、一定時間毎に、前記会議参加者の発話時間の加重平均値を算出するステップと、
前記算出した加重平均値の高低を判別するステップと、
前記算出した加重平均値が高い程、前記会議参加者の発言時期が新しく、前記算出した加重平均値が低い程、前記会議参加者の発言時期が古いと判別するステップと、
前記算出した加重平均値が最も高い値を示す地点の会議端末を、前記最新の発話時間が計測された地点の会議端末と判別するステップと、を実行することを特徴とする画面配置割当て方法。
請求項６に記載の画面配置割当て方法であって、
前記映像データ処理部は、
前記各地点の会議端末における会議参加者の発言量評価値を記録する複数のレジスタと、前記各地点の会議端末における会議参加者の単位時間内の発言の有無を検出する発言検出器と、前記単位時間毎に前記各レジスタに記録された発言量評価値と乗算係数とを乗算する乗算器と、前記乗算器による乗算結果に加算定数を加算する加算器と、前記発言検出器で発言が検出された場合、前記加算器の加算結果で前記各レジスタの発言量評価値を更新して、前記各レジスタの発言量評価値を前記加算定数に保持し、前記発言検出器で発言が検出されない場合、前記乗算器の乗算結果で前記各レジスタの発言量評価値を更新して、前記各レジスタの発言量評価値を前記乗算係数に従って漸次減少させるセレクタと、を有し、前記各レジスタに格納された発言量評価値を、前記各地点の会議端末における会議参加者の発話時間の加重平均値として用いることを特徴とする画面配置割当て方法。
請求項６に記載の画面配置割当て方法であって、
前記映像データ処理部は、
前記計測した各発話時間を基に、前記各表示領域に会議画面が表示されている各地点の会議端末における会議参加者の発話時間の中に、設定時間以上互いに重なる発話時間が存在することを判別した場合、前記発話時間の重なりが計測された複数地点の会議端末から得られた会議画面用映像データを、互いに離れた位置の表示領域に割り当てるステップを実行することを特徴とする画面配置割当て方法。