JP2006229903A

JP2006229903A - 会議支援システム及び会議支援方法、並びにコンピュータ・プログラム

Info

Publication number: JP2006229903A
Application number: JP2005044818A
Authority: JP
Inventors: Atsushi Ito; 篤伊藤; Motofumi Fukui; 基文福井; Toshiya Yamada; 敏哉山田; Takahiko Kuwabara; 隆比古桑原; Takeshi Yoshioka; 健吉岡; Makoto Furuki; 真古木; Yoshihiro Masuda; 佳弘増田
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2005-02-21
Filing date: 2005-02-21
Publication date: 2006-08-31

Abstract

【課題】会議などにおけるコミュニケーション活動や、複数箇所を中継するテレビ会議システムにおいて、複数の参加者が同時に発言した場合や発言に重なりがあった場合に、それら発言を認識・理解することを容易にする。
【解決手段】複数の参加者が同時に発言した場合や発言に重なりがあった場合に、それぞれの発言にタイムラグを付けて提示する。加えて、内容に応じてカテゴライズし、内容毎に提示する。複数の参加者が同時に発言した場合や発言に重なりがあった場合に、それぞれの発言を音声と文字のどちらで提示するかを選択し、提示を行なう。
【選択図】図３

Description

本発明は、複数の参加者で構成される会議の円滑な運営を実現する会議支援システム及び会議支援方法、並びにコンピュータ・プログラムに係り、特に、遠隔に位置する複数の会議室を中継して遠隔会議の円滑な運営を実現する会議支援システム及び会議支援方法、並びにコンピュータ・プログラムに関する。

さらに詳しくは、本発明は、遠隔地における会議の状況を把握し易くして、遠隔会議の円滑な運営を実現する会議支援システム及び会議支援方法、並びにコンピュータ・プログラムに係り、特に、遠隔地間で各参加者がした発言の内容を認識し理解し易くする会議支援システム及び会議支援方法、並びにコンピュータ・プログラムに関する。

昨今のコンピューティング技術の発展に伴い、コンピュータがオフィスや一般家庭内に深く浸透してきている。これと相俟って、さまざまな適用業務はコンピュータの支援を受けることができるようになってきている。例えば、企業における産業活動やその他のさまざまに日常生活において、会議が頻繁に行なわれているが、会議室にコンピュータを取り込むことで、会議の運用を支援することができる。

会議支援システムの一例として、遠隔会議システムを取り上げることができる。遠隔会議システムによれば、遠隔に位置する複数の会議室において、カメラやマイクなどの画像・音声入力装置や、モニターやスピーカーなどの画像・音声出力装置を設置し、通信回線を利用して、離間した各会議室において行なわれる発言や質疑応答などのイベントを共有し、遠隔地間で議事を同期して進行させることができる。

例えば、複数のユーザが端末装置のネットワーク接続によって対話を可能とした会議システムとしての対話システム制御方式がある（例えば、特許文献１を参照のこと）。この方式によれば、各端末装置において対話への参加、参加者の離脱を処理することによって、自由な参加や離脱を可能にして会議に相当する対話をすることができる。

また、会議の進行上、会議の参加者を撮影した映像や、参加者の発言内容などの音声だけでなく、会議で使用されるホワイトボードや、スライドその他のプレゼンテーション資料など、会議に関連するさまざまな資料を会議室間で共有し、保管することができる。

例えば、会議に用いられる共有の資料などの用意や保管を容易に行なうことができる会議システムについて提案がなされている（例えば、特許文献２を参照のこと）。この場合、インターネット上の会議支援ウェブサイトを運営する情報提供装置によりＴＶ電話会議のサービスを提供する第１の工程と、会議参加者（ユーザ）が通信端末を用いるとともに、この情報提供装置を通し、共有資料を用いてリアルタイムで会議を行なう第２の工程とを備え、会議に用いられる共有の資料などの用意や保管を容易に行なうことができ、その場で資料などに書き込みを行なうこともでき、さらにはアプリケーションソフトの違いやバージョンの違いによる不具合も解消することができる。

このように、会議システムによれば、遠隔地間で会議の運営上で使用されるプレゼンテーション資料やその他の情報、会議の内容を記録した議事録や音声・映像情報の保存、管理、共有、配布などを好適に実現することができる。

他方、複数の地点を中継して運営される会議システムにおいては、他の地点で行なわれた発言の認識や理解が困難であったり、状況を把握することが困難であったりすることがある。

会議が単一の会議室で開催される場合、議長や司会者などにより議事の進行が司られ、議題に応じて発言権を各参加者に逐次与えるので、発言内容が聴き取り易く、且つ会議の状況も把握し易い。ところが、遠隔会議におけるコミュニケーション活動や、複数箇所を中継するテレビ会議システム、又は一対多のテレビ会議システムにおいては、複数の参加者が同時に発言した場合や、発言に重なりがあった場合に、それらの発言を認識・理解し応対することが困難になる。

遠隔地間で発言権の調停を行ない得る議長や司会者を設定することは難しい。設定していたとしても、指示のタイムラグなどにより複数の参加者が同時に発言を行なうことが頻発する。このような場合、他の参加者は、話者の特定が困難となり、会議の状況も理解しづらいものとなる。

例えば、会議参加者の話し方に応じた音声検出や発言の重要性に応じた話者特定を行ない、会議の運営状況の伝達に当たり、円滑に話者の画像を切り換えるテレビ会議用画面切り換え制御装置について提案がなされている（例えば、特許文献３を参照のこと）。しかしながら、同装置によれば、発言が重複した場合には発言者間の発言権の重み付けにより推定される唯一の話者の画面を表示することから、他の話者の発言内容を聴くことはできず、会議の状況が分かりにくくなる危険がある。

また、テレビ会議を通常の会議のように円滑に進行する多地点テレビ会議システムについて提案がなされている（例えば、特許文献４を参照のこと）。同システムによれば、複数地点で議論が行なわれたとき、議論している複数の地点の画像を同時に表示することで、発言地点の増減によって臨場感のある画像を表示することができる。しかしながら、複数の地点で同時に発言が行なわれたときにも同時に表示出力がなされることから、話者の特定が困難となり、会議の状況も理解しづらいものとなる。

また、発言者の音声レベルを対応する映像とともに表示することにより、複数の話者が同時に発言しても、どの話者が発言しているのかを瞬時に判別することができる通信システムについて提案がなされている（例えば、特許文献５を参照のこと）。しかしながら、このシステムは、発言の重なり自体を解決するものではない。

また、任意の１つの端末を議長に設定し、残りの端末をメンバとし、議長となる端末形の端末に発言権を与えたり奪ったりし、発言権を与えられた端末の音声のみ他の端末に転送することにより、複数の会議参加者の音声が同時に聞こえるのをなくすビデオ会議システムについて提案がなされている（例えば、特許文献６を参照のこと）。しかしながら、このシステムによれば、発言権を奪われた端末からの発言を聴くことはできなくなるので、その発言内容から会議の状況を認識し理解することができなくなる。

また、議論している複数の地点の画像を同時に表示するが、発言が検出されたときには発言地点の映像のみを１画面に表示する多地点テレビ会議システムについて提案がなされているが（例えば、特許文献７を参照のこと）、これは話者の重なりを本質的に解決するものではない。

また、議論している複数の地点の画像を同時に表示するが、各会議室において操作を行なった会議室の画像のみが指定された任意の会議室の画像に切り替わる多地点テレビ会議システムについて提案がなされているが（例えば、特許文献８を参照のこと）、これは話者の重なりを本質的に解決するものではない。

また、電話会議システムにおいて同時発言音声を各人に音声毎に分離して再生可能にする複数音声再生装置について提案がなされている（例えば、特許文献９を参照のこと）。しかしながら、この装置は、電話会議における音声情報の記録を単に扱うに過ぎず、同時に行なわれた発言を会議の状況に応じてどのように会議参加者に視聴させるかという問題については言及していない。

また、同時会話可能な遠隔会議において、会議参加者の発言機会を均等化することにより多くの意見を吸い上げ、会議時間内での討議をより活発化する遠隔会議システムについて提案がなされている（例えば、特許文献１０を参照のこと）。このシステムでは、同時に発言された複数人の発言機会をコントロールするものであるが、同時発言された音声データの処理に関するものではなく、同時に行なわれた発言を会議の状況に応じてどのように会議参加者に視聴させるかという問題については言及していない。

特開平３−１９２８４５号公報特開２００２−４１４２９号公報特開平５−１１１０２０号公報特開平６−２９６２７８号公報特開平７−４６５６５号公報特開平７−３２２２２９号公報特開平２００２−３１４９６４号公報特開平２００２−３３０４１２号公報特開平２００３−６０７９２号公報特開平２００３−３０４３３７号公報

本発明の目的は、遠隔に位置する複数の会議室を中継して遠隔会議の円滑な運営を実現する会議支援システム及び会議支援方法、並びにコンピュータ・プログラムを提供することにある。

本発明のさらなる目的は、遠隔地における会議の状況を把握し易くして、遠隔会議の円滑な運営を実現することができる会議支援システム及び会議支援方法、並びにコンピュータ・プログラムを提供することにある。

本発明のさらなる目的は、遠隔地間で各参加者がした発言の内容を認識し理解し易くすることができる会議支援システム及び会議支援方法、並びにコンピュータ・プログラムを提供することにある。

本発明は、上記課題を参酌してなされたものであり、その第１の側面は、拠点毎に参加者が参加する遠隔会議の運営を支援する会議支援システムであって、各拠点において、参加者がした発言の音声及び画像情報を取得する音声・画像情報取得部と、拠点毎に取得された音声及び画像情報を記憶する記憶部と、複数の参加者が同時に発言した又は発言に重なりがあったか否かを判定する話者判定部と、同時に行なわれ又は重なりのある複数の発言を提示する発言提示部とを具備することを特徴とする会議支援システムである。

複数箇所を中継する遠隔会議システムによれば、遠隔に位置する複数の会議室において、カメラやマイクなどの画像・音声入力装置や、モニターやスピーカーなどの画像・音声出力装置を設置し、通信回線を利用して、各会議室において行なわれる発言や質疑応答などのイベントを共有し、遠隔地間で議事を同期して進行させることができる。さらに、遠隔地間で会議の運営上で使用されるプレゼンテーション資料やその他の情報、会議の内容を記録した議事録や音声・映像情報の保存、管理、共有、配布などを好適に実現することができる。すなわち、システムを利用する遠隔ユーザ間では、物理的な距離に拘わらずトランスペアレントな会議環境を共有することができる。

ところが、複数の地点を中継して運営される会議システムにおいては、他の地点で行なわれた発言の認識や理解が困難であったり、状況を把握することが困難であったりすることがある。遠隔会議におけるコミュニケーション活動や、複数箇所を中継するテレビ会議システム、又は一対多のテレビ会議システムにおいては、複数の参加者が同時に発言した場合や、発言に重なりがあった場合に、それらの発言を認識・理解し応対することが困難になる。

これに対し、本発明に係る会議支援システムでは、複数の参加者が同時に発言した場合や発言に重なりがあった場合に、前記発言提示部はそれぞれの発言にタイムラグを付けて提示したり、後発の発言を文字情報に変換したりして、複数の発言が重ならないように提示する。加えて、内容に応じてカテゴライズし、内容毎に提示する。複数の参加者が同時に発言した場合や発言に重なりがあった場合に、それぞれの発言を音声と文字のどちらで提示するかを選択し、提示を行なう。

したがって、会議などにおけるコミュニケーション活動や、複数箇所を中継するテレビ会議システムにおいて、複数の参加者が同時に発言した場合や発言に重なりがあった場合に、それら発言を認識・理解することを容易にすることが可能である。

前記発言提示部は、同時に行なわれ又は重なりのある各発言に優先順位を付け、該優先順位に応じたタイムラグを付けてそれぞれの発言の音声及び画像情報を再生出力するようにする。優先順位付けの方法として、早期発言順に基づく方法や、これまでの発言のコンテクストを参照する方法などが考えられる。

また、前記発言提示部は、該優先順位が上位となる発言の音声及び画像情報を再生出力するとともに、該優先順位が下位となる発言については音声情報を文字情報に変換して提示するようにしてもよい。また、音声情報を文字情報に変換した発言を分類し、分類毎に提示するようにしてもよい。

文字情報の分類方法としては、変換後の各文字情報に関して形態素解析などの自然言語処理を施し、キーワード検索を行ない、このキーワード検索結果を参照しながら、各発言の文字情報の分類処理を行なうことができる。勿論、キーワード以外の情報に基づく方法により文字情報の分類処理を適用してもよいし、発言者間の関係などに基づいて重み付けして分類処理を施すようにしてもよい。

また、前記発言提示部は、同時に行なわれ又は重なりのある複数の発言を提示する際に、それぞれの発言者を示す表示を行なうようにしてもよい。このとき、会話セッション中の発言者同士を関連付け表示し、あるいは強調表示することで、参加者は、自分が参加しているセッションや、参加していない会話セッションに誰が参加しているのかが把握し易くなるという効果がある。

また、本発明の第２の側面は、拠点毎に参加者が参加する遠隔会議の運営を支援するための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、前記コンピュータ・システムに対し、各拠点において参加者がした発言の音声及び画像情報を取得する音声・画像情報取得ステップと、拠点毎に取得された音声及び画像情報を記憶する記憶ステップと、複数の参加者が同時に発言した又は発言に重なりがあったか否かを判定する話者判定ステップと、同時に行なわれ又は重なりのある複数の発言を提示する発言提示ステップを実行させることを特徴とするコンピュータ・プログラムである。

本発明の第２の側面に係るコンピュータ・プログラムは、コンピュータ・システム上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータ・プログラムを定義したものである。換言すれば、本発明の第２の側面に係るコンピュータ・プログラムをコンピュータ・システムにインストールすることによって、コンピュータ・システム上では協働的作用が発揮され、本発明の第１の側面に係る会議支援システムと同様の作用効果を得ることができる。

本発明によれば、遠隔に位置する複数の会議室を中継して遠隔会議の円滑な運営を実現することができる、優れた会議支援システム及び会議支援方法、並びにコンピュータ・プログラムを提供することができる。

また、本発明によれば、遠隔地における会議の状況を把握し易くして、遠隔会議の円滑な運営を実現することができる、優れた会議支援システム及び会議支援方法、並びにコンピュータ・プログラムを提供することができる。

また、本発明によれば、遠隔地間で各参加者がした発言の内容を認識し理解し易くすることができる、優れた会議支援システム及び会議支援方法、並びにコンピュータ・プログラムを提供することができる。

本発明に係る会議支援システムでは、複数の参加者が同時に発言した場合や発言に重なりがあった場合に、それぞれの発言にタイムラグを付けて提示する。加えて、内容に応じてカテゴライズし、内容毎に提示する。また、複数の参加者が同時に発言した場合や発言に重なりがあった場合に、それぞれの発言を音声と文字のどちらで提示するかを選択し、提示を行なう。

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

以下、図面を参照しながら本発明の実施形態について詳解する。

図１には、本発明の一実施形態に係る遠隔会議システム１の構成を模式的に示している。同図に示すように、遠隔会議システム１は、複数（図示の例では２つ）の拠点システム１０、２０…が、共有ワークスペース・サーバ３０によって相互接続された構成となっている。同図に示す例では、共有ワークスペース・サーバ３０は、図面の簡素化のため、２つの拠点（すなわち会議システム）を接続するように描かれているが、３地点以上の拠点を相互接続することができるものであると理解されたい。

共有ワークスペース・サーバ３０は、システム間を電話回線などの回線交換系の通信路を用いてスター型結合の中心として位置付けられる多地点接続装置とは異なる。勿論、共有ワークスペース・サーバ３０が存在せず、各拠点システムが互いに対等な立場で直接通信し合う遠隔会議システムを構築することも可能である。

拠点システム１０及び２０は、それぞれ独立して動作する会議システムに相当し、拠点毎に会議が運営されている。これら拠点システムは従来のテレビ会議システムをベースにして構成することができる。例えば、カメラ、マイクロフォン、モニタ・ディスプレイ、スピーカーなど映像や音声の入出力を行なう装置が装備されており、画像及び音声の符号化及び復号化して他の拠点システムとの間で送受信して、参加者の動作・振る舞いなどを各拠点で共有することができる。

また、双方の会議室に電子黒板を用意して、それぞれの拠点において書き込みを行なったりする。また、各拠点システム間でアプリケーションを共有して操作したりする。本実施形態では、電子黒板上に、共有ワークスペースによって提供されるグラフィカルなユーザ・インターフェース（ＧＵＩ）が提示され、会議の参加者はこれを操作することによって、マルチメディア通信会議システムへの接続を行なったり、会議に関連するファイルなどの情報にアクセスしたりすることができる。

各拠点における会議の参加者が、本遠隔会議システム１のユーザとなる。会議の参加者は、共有ワークスペースによって提供されるグラフィカルなユーザ・インターフェースを操作することによって、個々のマルチメディア通信会議システムの呼び出しを行なうので、ユーザはアドレスを意識することなくマルチメディア通信会議システムの接続を行ない、会議に関連するファイルなどの情報に会議システムから容易にアクセスすることができる。

図２には、それぞれの拠点に設置される拠点システムのハードウェア構成を模式的に示している。

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１は、拠点システムのオペレーションを統括的に制御する中央コントローラであり、各機能モジュールとはバス経由で相互接続されている。

操作部１０２は、キーボードやマウスなどのコンピュータに一般的なユーザ入力装置で構成されるが、その他、電子黒板などを含めることができる。

記憶部１０３は、ハード・ディスク装置などの大容量記憶装置や、ＣＤやＤＶＤなどのリムーバブル・メディアの記録再生装置で構成される。

画像入力部１０４は、拠点で行なわれている会議の様子を静止画又は動画などの画像データとして捕捉するデジタル・カメラで構成される。

画像表示部１０５は、ＣＲＴ又はＬＣＤなどのモニタ・ディスプレイで構成される。勿論、プレゼンテーション資料を投影するプロジェクタを画像表示部１０５に含めることもできる。

音声入力部１０６は、マイクロフォンなどで構成され、拠点における会議の音声や音響の録音に使用される。音声出力部１０７は、スピーカーなどで構成され、プレゼンテーションで使用される音響（効果音など）の出力や、録音データの再生などに使用される。

ネットワーク・インターフェース部１０８は、イーサネット（登録商標）などの通信プロトコルに従って動作し、外部ネットワーク経由で他の拠点システムや、共有ワークスペース、あるいはネットワーク上のその他の情報資源にアクセスするために使用される。

図２に示したシステムは、例えばパーソナル・コンピュータなどの一般的な計算機システムにネットワーク・インターフェース・カード（ＮＩＣ）及び音声・映像の入出力装置を装備することによって構成することができる。そして、オペレーティング・システム（ＯＳ）が提供する実況環境下でＣＰＵ１０１に所定の会議支援アプリケーションを起動することによって、遠隔地間で各参加者がした発言の内容を認識し理解し易くすることができる。

図１に示したような遠隔会議システムによれば、遠隔に位置する複数の会議室において、カメラやマイクなどの画像・音声入力装置や、モニターやスピーカーなどの画像・音声出力装置を設置し、通信回線を利用して、各会議室において行なわれる発言や質疑応答などのイベントを共有し、遠隔地間で議事を同期して進行させることができる。さらに、遠隔地間で会議の運営上で使用されるプレゼンテーション資料やその他の情報、会議の内容を記録した議事録や音声・映像情報の保存、管理、共有、配布などを好適に実現することができる。すなわち、システムを利用する遠隔ユーザ間では、物理的な距離に拘わらずトランスペアレントな会議環境を共有することができる。

ところが、複数の地点を中継して運営される会議システムにおいては、他の地点で行なわれた発言の認識や理解が困難であったり、状況を把握することが困難であったりする、という問題がある。具体的には、遠隔会議におけるコミュニケーション活動や、複数箇所を中継するテレビ会議システム、又は一対多のテレビ会議システムにおいては、複数の参加者が同時に発言した場合や、発言に重なりがあった場合に、それらの発言を認識・理解し応対することが困難になる。

そこで、本実施形態では、各拠点システムにおいて、複数の参加者が同時に発言した場合や発言に重なりがあった場合に、それぞれの発言にタイムラグを付けて提示する。加えて、内容に応じてカテゴライズし、内容毎に提示する。複数の参加者が同時に発言した場合や発言に重なりがあった場合に、それぞれの発言を音声と文字のどちらで提示するかを選択し、提示を行なう、といった会議支援オペレーションを行なう。勿論、このような会議支援オペレーションを拠点システム毎に行なうのではなく、共有ワークスペース・サーバ若しくはその他のセンター装置が遠隔会議全体において統括的に行なうようにしてもよい。

図３には、本実施形態に係る遠隔会議システムにおいて会議支援オペレーションを行なう機能構成の一例を模式的に示している。図示の例では、ある拠点システム内におけるＡ氏の発言と、他の拠点システムにおけるＢ氏、Ｃ氏、Ｄ氏の発言が同時に発生し、他の拠点システムから発言内容がネットワーク経由で到来しているという状況を想定している。

図示の機能構成では、当該拠点において音声入力部１０６及び画像入力部１０４から入力された発言の音声及び画像情報は符号化されて記憶部１０３に記憶される。また、ネットワーク経由で他の拠点システムから受信した発言の音声及び画像情報（但し、符号化済みのもの）も同様に記憶部１０３に記憶される。話者判定部は、記憶部１０３に記憶されている各発言の情報を復号化し、話者の判定を行なう。そして、当該拠点システムに音声及び画像入力されたＡ氏の発言と、ネットワーク経由で受信したＢ氏、Ｃ氏、Ｄ氏の発言が重なるときには、話者判定部は、早期発言順などの優先順位に基づいてそれぞれの発言にタイムラグを付けて、画像表示部１０５及び音声出力部１０６に復号した各データを出力し、発言が重ならないように音声及び画像出力するようになっている。話者判定部は、例えばＣＰＵが会話支援アプリケーションを実行するという形態で具現化される。

図４には、図３に示した会議支援オペレーションにおける処理手順をフローチャートの形式で示している。

まず、拠点システムにおいて、複数相手、又は一対多のテレビ会議システムの電源をオンにする。そして、会議メンバーを設定し、会議メンバーとの送受信接続を開始する（ステップＳ１）。

次いで、各拠点システムにおいて、マイクなどの音声入力装置１０６から入力された音声に基づいて、複数の参加者が同時に発言した場合、若しくは発言に重なりがあるか否かを判定する（ステップＳ２）。例えば、複数のマイクにおいて２つ以上のマイクにある閾値以上の音量の音声入力があったか否かにより、判定することができる。

ここで、複数の参加者による発言の重なりが判定されたときには、１つ目の発言に対してはリアルタイムで音声出力するが（ステップＳ３）、音声出力された発言以外の発言は記憶部１０３に一旦記憶する。２以上の発言を記憶するときには、これらの間で優先順位付けを行なう（ステップＳ４）。優先順位付けの方法として、早期発言順に基づく方法や、これまでの発言のコンテクストを参照する方法などが考えられる。

そして、１つ目の発言の終了した後に、記憶部１０６に記憶されている音声情報などの発言を音声出力装置１０７から再生出力する（ステップＳ５）。記憶部１０６に記憶されている発言が複数ある場合には、先行ステップＳ４において付与されている優先順位付け結果を参照しながら、順次に再生出力していく。

また、記憶部１０６に記憶された音声情報を音声出力装置１０７から再生出力するときに併せて、画像表示装置１０５から発言者を示す表示を行なう（ステップＳ６）。

ステップＳ５及びＳ６における、同時に発生した発言内容の音声情報及び画像情報の出力処理を、記憶部１０３に記憶された未処理の発言を確認しながら繰り返し行なう（ステップＳ７）。

図５には、本実施形態に係る遠隔会議システムにおいて会議支援オペレーションを行なう機能構成の他の例を模式的に示している。図示の例では、ある拠点システム内におけるＡ氏の発言と、他の拠点システムにおけるＢ氏、Ｃ氏、Ｄ氏の発言が同時に発生し、他の拠点システムから発言内容がネットワーク経由で到来しているという状況を想定している。

図示の機能構成では、当該拠点において音声入力部１０６及び画像入力部１０４から入力された発言の音声及び画像情報は符号化されて記憶部１０３に記憶される。また、ネットワーク経由で他の拠点システムから受信した発言の音声及び画像情報（但し、符号化後）も同様に記憶部１０３に記憶される。話者判定部は、記憶部１０３に記憶されている各発言の情報を復号化し、話者の判定を行なう。そして、当該拠点システムに音声及び画像入力されたＡ氏の発言と、ネットワーク経由で受信したＢ氏、Ｃ氏、Ｄ氏の発言が重なるときには、話者判定部は、早期発言順などの優先順位に基づいて、音声及び画像出力すべき話者を判定し、この発言についてのみ画像表示部１０５及び音声出力部１０６に復号した各データを出力する。また、これとは重なる他（後発）の発言については、音声及び画像出力せず、代わりに音声を文字情報に変換して、画像表示部１０５から表示出力のみを行なうようになっている。話者判定部及び音声−文字変換部は、例えばＣＰＵが会話支援アプリケーションを実行するという形態で具現化される。

図６には、図５に示した会議支援オペレーションにおける処理手順をフローチャートの形式で示している。

まず、拠点システムにおいて、複数相手、又は一対多のテレビ会議システムの電源をオンにする。そして、会議メンバーを設定し、会議メンバーとの送受信接続を開始する（ステップＳ１１）。

次いで、各拠点システムにおいて、マイクなどの音声入力装置１０６から入力された音声に基づいて、複数の参加者が同時に発言した場合、若しくは発言に重なりがあるか否かを判定する（ステップＳ１２）。例えば、複数のマイクにおいて２つ以上のマイクにある閾値以上の音量の音声入力があったか否かにより、判定することができる。

ここで、複数の参加者による発言の重なりが判定されたときには、１つ目の発言に対してはリアルタイムで音声出力するが（ステップＳ１３）、音声出力された発言以外の発言は記憶部１０３に一旦記憶する。２以上の発言を記憶するときには、これらの間で優先順位付けを行なう（ステップＳ１４）。優先順位付けの方法として、早期発言順に基づく方法や、これまでの発言のコンテクストを参照する方法などが考えられる。

そして、１つ目の発言の終了した後に、記憶部１０６に記憶されている音声情報などの発言を取り出し、これを文字情報に変換する（ステップＳ１５）。記憶部１０６に記憶されている発言が複数ある場合には、先行ステップＳ１４において付与されている優先順位付け結果を参照しながら、順次に文字情報に変換していく。

記憶部１０６に記憶された音声情報を文字情報に変換して画像表示装置１０５から表示出力するときに併せて、発言者を示す表示を行なう（ステップＳ１６）。

ステップＳ１５及びＳ１６における、同時に発生した発言内容を文字情報として出力する処理を、記憶部１０３に記憶された未処理の発言を確認しながら繰り返し行なう（ステップＳ１７）。

図７には、本実施形態に係る遠隔会議システムにおいて会議支援オペレーションを行なう機能構成についての他の例を模式的に示している。図示の例では、ある拠点システム内におけるＡ氏の発言と、他の拠点システムにおけるＢ氏、Ｃ氏、Ｄ氏の発言が同時に発生し、他の拠点システムから発言内容がネットワーク経由で到来しているという状況を想定している。

図示の機能構成では、当該拠点において音声入力部１０６及び画像入力部１０４から入力された発言の音声及び画像情報は符号化されて記憶部１０３に記憶される。また、ネットワーク経由で他の拠点システムから受信した発言の音声及び画像情報（但し、符号化後）も同様に記憶部１０３に記憶される。話者判定部は、記憶部１０３に記憶されている各発言の情報を復号化し、話者の判定を行なう。そして、当該拠点システムに音声及び画像入力されたＡ氏の発言と、ネットワーク経由で受信したＢ氏、Ｃ氏、Ｄ氏の発言が重なるときには、話者判定部は、早期発言順などの優先順位に基づいて、音声及び画像出力すべき話者を判定し、この発言についてのみ画像表示部１０５及び音声出力部１０６に復号した各データを出力する。また、これとは重なる他（後発）の発言については、音声及び画像出力せず、代わりに音声を文字情報に変換し、さらに自然言語処理部により各文字情報を内容に応じて分類してから画像表示部１０５から表示出力を行なうようになっている。話者判定部、音声−文字変換部並びに自然言語処理部は、例えばＣＰＵが会話支援アプリケーションを実行するという形態で具現化される。

図８には、図７に示した会議支援オペレーションにおける処理手順をフローチャートの形式で示している。

まず、拠点システムにおいて、複数相手、又は一対多のテレビ会議システムの電源をオンにする。そして、会議メンバーを設定し、会議メンバーとの送受信接続を開始する（ステップＳ２１）。

次いで、各拠点システムにおいて、マイクなどの音声入力装置１０６から入力された音声に基づいて、複数の参加者が同時に発言した場合、若しくは発言に重なりがあるか否かを判定する（ステップＳ２２）。例えば、複数のマイクにおいて２つ以上のマイクにある閾値以上の音量の音声入力があったか否かにより、判定することができる。

ここで、複数の参加者による発言の重なりが判定されたときには、すべての発言は記憶部１０３に一旦記憶する（ステップＳ２３）。

記憶部１０３に格納された各発言の音声情報を文字情報に変換する（ステップＳ２４）。次いで、変換された各文字情報に関して形態素解析などの自然言語処理を施し、キーワード検索を行ない、このキーワード検索結果を参照しながら、各発言の文字情報の分類処理を行なう（ステップＳ２５）。勿論、キーワード以外の情報に基づく方法により文字情報の分類処理を適用してもよいし、発言者間の関係などに基づいて重み付けして分類処理を施すようにしてもよい。

そして、各発言の文字情報を分類毎に表示するとともに、表示文字情報の発言者を表す表示を併せて行なう（ステップＳ２７）。

ステップＳ２７における、同時に発生した発言内容を文字情報として出力する処理を、記憶部１０３に記憶された未処理の発言を確認しながら繰り返し行なう（ステップＳ２８）。

図９には、本実施形態に係る遠隔会議システムにおいて会議支援オペレーションを行なう機能構成についての他の例を模式的に示している。同図に示すシステムは、図５に示したシステムと同様に、発言が重なる場合は後発の発言を文字情報として提示するようになっているが、この処理をセンター集中装置が行なう点で相違する。共有ワークスペース・サーバ（図１を参照のこと）にこのセンター集中装置の機能を装備してもよいし、ネットワーク上に専用のセンターを配設するようにしてもよい。あるいは１つの拠点サーバにセンター機能を実装するようにしてもよい。

図示の機能構成では、センター集中装置を構成する拠点において音声入力部１０６及び画像入力部１０４から入力された発言の音声及び画像情報は符号化されて記憶部１０３に記憶される。また、ネットワーク経由で他の拠点システムから受信した発言の音声及び画像情報（但し、符号化後）も同様に記憶部１０３に記憶される。話者判定部は、記憶部１０３に記憶されている各発言の情報を復号化し、話者の判定を行なう。そして、ネットワーク経由で受信したＡ氏、Ｂ氏、Ｃ氏、Ｄ氏の発言が重なるときには、話者判定部は、早期発言順などの優先順位に基づいて、音声及び画像出力すべき話者を判定し、この発言についてのみ画像表示部１０５及び音声出力部１０６に復号した各データを出力する。また、これとは重なる他（後発）の発言については、音声及び画像出力せず、代わりに音声を文字情報に変換して、画像表示部１０５から表示出力のみを行なうようになっている。センター集中装置における処理手順は図６に示したものと同様となるので、ここでは説明を省略する。

なお、図４に示したフローチャートのステップＳ６、図６に示したフローチャートのステップＳ１６、図８に示したフローチャートのステップＳ２７においてそれぞれ、後発の発言者の発言内容を提示する際には画像表示装置１０５から発言者を示す表示を併せて行なうようになっている。

複数の参加者を同時に表示する方法としてさまざまな形態が考えられる。その一例として、情報アクセス・グリッド技術を利用したコミュニケーション・システム（例えば、http://www.insors.com/を参照のこと）を挙げることができる。これは、複数拠点のカメラ映像を相互に通信し、ディスプレイ上に映像を並べて常時表示しながら、必要に応じてコミュニケーション回線を開いて会議などを行なうものである。しかしながら、映像ウインドウの位置や大きさはあらかじめ決められた枠で並べられるか、又はユーザによって任意に変えられるのみであり、多地点間相互の接続状況を把握することが難しいという問題がある。例えば、誰と誰が会話を行なっているのかといった状況把握するのが困難である。

これに対し、発言を行なう参加者の映像ウインドウを操作する（例えば、位置を変える、大きさを変える）ことにより、セッションへの参加・退出の指示の操作性を向上させることが可能である。

例えば、各拠点におけるカメラの映像とともにセッション状況を表示するようにする。具体的には、自分と直接コミュニケーションを行なっている、あるいは行おうとしている相手の映像ウインドウを強調表示する。また、会話セッションに参加しているユーザ・ウインドウを関連付けて表示する。

図１０には、Ａ氏、Ｂ氏、Ｃ氏、Ｄ氏の４人で構成される遠隔会議において、Ａ氏とＢ氏が会話セッション中であるときの各自に提示される参加者提示画面の構成例を示している。Ａ氏に提示される画面ではＢ氏と会話セッション中であることが強調表示され、また、Ｂ氏に提示される画面ではＡ氏と会話セッション中であることが強調表示されている。一方、会話セッション外に置かれているＣ氏に提示される画面では、会話セッション中のＡ氏とＢ氏が関連付け表示されている。

また、図１１には、さらにＤ氏がＡ氏とＢ氏の会話セッションに加わった場合の各自に提示される参加者提示画面の構成例を示している。Ａ氏に提示される画面ではＢ氏及びＤ氏と会話セッション中であることが強調表示され、また、Ｂ氏に提示される画面ではＡ氏及びＤ氏と会話セッション中であることが強調表示されている。一方、会話セッション外に置かれているＣ氏に提示される画面では、会話セッション中のＡ氏とＢ氏とＤ氏が関連付け表示されている。

図１０及び図１１に示すような会話セッション中の発言者同士を関連付け表示や強調表示を行なうことによって、参加者は、自分が参加しているセッションや、参加していない会話セッションに誰が参加しているのかが把握し易くなるという効果がある。

以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

本明細書では、遠隔の拠点間を接続する遠隔会議システムを例にとって説明してきたが、本発明の要旨は必ずしもこれに限定されるものではない。発言以外のイベントが同時又は重なって発生し得る作業環境において、これら発生したイベントを記憶・管理するとともにユーザに理解し易く提示する必要のあるその他の形態のシステムに対しても、本発明を同様に適用することができる。

要するに、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、特許請求の範囲を参酌すべきである。

図１は、本発明の一実施形態に係る遠隔会議システム１の構成を模式的に示した図である。図２は、拠点システムのハードウェア構成を模式的に示した図である。図３は、会議支援オペレーションを行なう機能構成の一例を模式的に示した図である。図４は、図３に示した会議支援オペレーションにおける処理手順を示したフローチャートである。図５は、会議支援オペレーションを行なう機能構成の他の例を模式的に示した図である。図６は、図５に示した会議支援オペレーションにおける処理手順を示したフローチャートである。図７は、会議支援オペレーションを行なう機能構成の他の例を模式的に示した図である。図８は、図７に示した会議支援オペレーションにおける処理手順を示したフローチャートである。図９は、会議支援オペレーションを行なう機能構成の他の例を模式的に示した図である。図１０は、Ａ氏、Ｂ氏、Ｃ氏、Ｄ氏の４人で構成される遠隔会議において、Ａ氏とＢ氏が会話セッション中であるときの各自に提示される参加者提示画面の構成例を示した図である。図１１は、さらにＤ氏がＡ氏とＢ氏の会話セッションに加わった場合の各自に提示される参加者提示画面の構成例を示した図である。

符号の説明

１０１…ＣＰＵ
１０２…操作部
１０３…記憶部
１０４…画像入力部
１０５…画像表示部
１０６…音声入力部
１０７…音声出力部
１０８…ネットワーク・インターフェース部

Claims

拠点毎に参加者が参加する遠隔会議の運営を支援する会議支援システムであって、
各拠点において、参加者がした発言の音声及び画像情報を取得する音声・画像情報取得部と、
拠点毎に取得された音声及び画像情報を記憶する記憶部と、
複数の参加者が同時に発言した又は発言に重なりがあったか否かを判定する話者判定部と、
同時に行なわれ又は重なりのある複数の発言を提示する発言提示部と、
を具備することを特徴とする会議支援システム。
前記発言提示部は、同時に行なわれ又は重なりのある各発言に優先順位を付け、該優先順位に応じたタイムラグを付けてそれぞれの発言の音声及び画像情報を再生出力する、
ことを特徴とする請求項１に記載の会議支援システム。
前記発言提示部は、同時に行なわれ又は重なりのある各発言に優先順位を付け、該優先順位が上位となる発言の音声及び画像情報を再生出力するとともに、該優先順位が下位となる発言については音声情報を文字情報に変換して提示する、
ことを特徴とする請求項１に記載の会議支援システム。
前記発言提示部は、音声情報を文字情報に変換した発言を分類し、分類毎に提示する、
ことを特徴とする請求項３に記載の会議支援システム。
前記発言提示部は、同時に行なわれ又は重なりのある複数の発言を提示する際に、それぞれの発言者を示す表示を行なう、
ことを特徴とする請求項１に記載の会議支援システム。
前記発言提示部は、会話セッション中の発言者同士を関連付け表示、又は強調表示する、
ことを特徴とする請求項５に記載の会議支援システム。
拠点毎に参加者が参加する遠隔会議の運営を支援する会議支援方法であって、
各拠点において、参加者がした発言の音声及び画像情報を取得する音声・画像情報取得ステップと、
拠点毎に取得された音声及び画像情報を記憶する記憶ステップと、
複数の参加者が同時に発言した又は発言に重なりがあったか否かを判定する話者判定ステップと、
同時に行なわれ又は重なりのある複数の発言を提示する発言提示ステップと、
を具備することを特徴とする会議支援方法。
前記発言提示ステップでは、同時に行なわれ又は重なりのある各発言に優先順位を付け、該優先順位に応じたタイムラグを付けてそれぞれの発言の音声及び画像情報を再生出力する、
ことを特徴とする請求項６に記載の会議支援方法。
前記発言提示ステップでは、同時に行なわれ又は重なりのある各発言に優先順位を付け、該優先順位が上位となる発言の音声及び画像情報を再生出力するとともに、該優先順位が下位となる発言については音声情報を文字情報に変換して提示する、
ことを特徴とする請求項６に記載の会議支援方法。
前記発言提示ステップでは、音声情報を文字情報に変換した発言を分類し、分類毎に提示する、
ことを特徴とする請求項９に記載の会議支援方法。
前記発言提示ステップでは、同時に行なわれ又は重なりのある複数の発言を提示する際に、それぞれの発言者を示す表示を行なう、
ことを特徴とする請求項６に記載の会議支援方法。
前記発言提示ステップでは、会話セッション中の発言者同士を関連付け表示、又は強調表示する、
ことを特徴とする請求項６に記載の会議支援方法。
拠点毎に参加者が参加する遠隔会議の運営を支援するための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、前記コンピュータ・システムに対し、
各拠点において、参加者がした発言の音声及び画像情報を取得する音声・画像情報取得ステップと、
拠点毎に取得された音声及び画像情報を記憶する記憶ステップと、
複数の参加者が同時に発言した又は発言に重なりがあったか否かを判定する話者判定ステップと、
同時に行なわれ又は重なりのある複数の発言を提示する発言提示ステップと、
を実行させることを特徴とするコンピュータ・プログラム。