JP2023046590A

JP2023046590A - 表示方法、表示装置、及び、表示システム

Info

Publication number: JP2023046590A
Application number: JP2021155267A
Authority: JP
Inventors: 美孝中進; Yoshitaka Nakashin
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2023-04-05
Also published as: CN115865875A; US20230100151A1

Abstract

【課題】複数の話者が同時に発話した場合であっても会議を円滑に進行できるようにする。【解決手段】第１端末１Ａに対応する第１画像と、第２端末１Ｂ末に対応する第２画像とを並べて第１領域に表示することと、第１端末１Ａが検出した第１音声と、第２端末１Ｂが検出した第２音声とが重複した場合に、第１音声の内容を示す第１テキスト画像を第１画像と対応付けて第１領域に表示し、かつ、第２音声の内容を示す第２テキスト画像を第２画像と対応付けて第１領域に表示することと、第１テキスト画像を、第１領域とは異なる第２領域に移動させる操作を受け付けた場合に、第１テキスト画像を第２領域に表示することと、を含む、表示方法。【選択図】図１

Description

本発明は、表示方法、表示装置、及び、表示システムに関する。

従来、コンピューターを利用する音声会議システムやビデオ会議システムが知られている。例えば、特許文献１は、音声会議システムにおいて複数の参加者が同時に喋った場合に音声が不明瞭になるという問題を解消するため、話者の優先度に応じて音声レベルを調整する構成を開示している。

特開２００７－９６５５５号公報

上述のように、複数の話者の発話が重複すると、音声が不明瞭になってしまい、発話の内容が聞き取りにくくなる。この問題に対し、特許文献１に開示された構成では、優先度が高い話者の発話が聞き取りやすくなるが、他の話者の発話は、より聞き取り難くなる。このため、複数の話者が同時に発話した場合には、いずれかの話者に再度の発話を求める必要があり、会議の効率が低下するという課題があった。

本開示の一態様は、第１端末に対応する第１画像と、第２端末に対応する第２画像とを並べて第１領域に表示することと、前記第１端末が検出した第１音声と、前記第２端末が検出した第２音声とが重複した場合に、前記第１音声の内容を示す第１テキスト画像を前記第１画像と対応付けて前記第１領域に表示し、かつ、前記第２音声の内容を示す第２テキスト画像を前記第２画像と対応付けて前記第１領域に表示することと、前記第１テキスト画像を、前記第１領域とは異なる第２領域に移動させる操作を受け付けた場合に、前記第１テキスト画像を前記第２領域に表示することと、を含む、表示方法である。

本開示の別の一態様は、ディスプレイと、前記ディスプレイを制御する制御回路と、を含み、前記制御回路は、前記ディスプレイを制御することによって、第１端末に対応する第１画像と、第２端末に対応する第２画像とを並べて第１領域に表示することと、前記第１端末が検出した第１音声と、前記第２端末が検出した第２音声とが重複した場合に、前記ディスプレイを制御することによって、前記第１音声の内容を示す第１テキスト画像を前記第１画像と対応付けて前記第１領域に表示し、かつ、前記第２音声の内容を示す第２テキスト画像を前記第２画像と対応付けて前記第１領域に表示することと、前記第１テキスト画像を、前記第１領域とは異なる第２領域に移動させる操作を受け付けた場合に、前記ディスプレイを制御することによって、前記第１テキスト画像を前記第２領域に表示することと、を実行する、表示装置である。

本開示の別の一態様は、第１マイクを有する第１端末と、第２マイクを有する第２端末と、ディスプレイを有する第３端末と、を含み、前記第３端末は、前記ディスプレイの第１領域に、前記第１端末に対応する第１画像と、前記第２端末に対応する第２画像とを並べて表示し、前記第１端末が第１マイクにより検出した第１音声の内容を示す第１テキスト画像を前記第１画像と対応付けて前記第１領域に表示し、かつ、前記第２端末が第２マイクにより検出した第２音声の内容を示す第２テキスト画像を前記第２画像と対応付けて表示し、前記第１テキスト画像を、前記第１領域から前記ディスプレイの第２領域に移動させる操作を受け付けた場合に、前記第２領域に前記第１テキスト画像を表示する、表示システムである。

実施形態に係る会議システムの構成の一例を示す図。会議システムの動作の概要を示す説明図。会議の実行状態の例を示す説明図。会議システムを構成する装置のブロック図。サーバーの動作を示すフローチャート。会議画面の一例を示す図。会議画面の一例を示す図。会議画面の一例を示す図。会議画面の一例を示す図。

［１．会議システムの概要］
以下、図面を参照して本実施形態について説明する。
図１は、本実施形態に係る会議システム１００の構成の一例を示す図である。
会議システム１００は、複数のユーザーＵがコンピューターを利用し、音声を共有して会議を行うシステムである。会議システム１００は、複数のユーザーＵがそれぞれ使用する複数の端末１、及び、サーバー５０を備える。端末１及びサーバー５０は、通信ネットワーク７により相互にデータ通信可能に接続される。会議システム１００は、表示システムの一例に対応する。

会議システム１００に含まれる端末１の数に制限はない。また、サーバー５０は、１台のコンピューターであってもよいし、複数のコンピューターで構成されてもよく、クラウドサーバーであってもよい。

本実施形態では、図１に示すように、３台の端末１を利用して会議を行う例を説明する。以下の説明では、３台の端末１を、第１端末１Ａ、第２端末１Ｂ、及び第３端末１Ｃと呼ぶ。これらを区別しない場合に端末１と記載する。第１端末１Ａ、第２端末１Ｂ、及び、第３端末１Ｃは、通信機能を有するコンピューターである。具体的には、デスクトップ型ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット型ＰＣ、スマートフォン等である。第３端末１Ｃは表示装置の一例に対応する。第１端末１Ａ及び第２端末１Ｂも同様である。

図１に示す例では、第１端末１Ａは拠点Ｓ１に設置され、第２端末１Ｂは拠点Ｓ２に設置され、第３端末１Ｃは拠点Ｓ３に設置される。拠点Ｓ１、Ｓ２、Ｓ３の地理的関係は制限されない。拠点Ｓ１、Ｓ２、Ｓ３は、互いに離れた場所であってもよいし、同一の建物内の場所であってもよいし、同一の室内において互いに仕切られた場所であってもよい。以下の説明において、拠点Ｓ１、Ｓ２、Ｓ３を区別しない場合は拠点Ｓと記載する。

端末１を使用するユーザーＵの人数に制限はない。例えば、１台の端末１を複数のユーザーＵが使用して会議に参加してもよい。端末１が、可搬型のコンピューターである場合、ユーザーＵは端末１を持ち運んで使用してもよい。本実施形態では、第１端末１Ａを１人のユーザーＵ１が使用し、第２端末１Ｂを２人のユーザーＵ２Ａ、Ｕ２Ｂが使用し、第３端末１Ｃを１人のユーザーＵ３が使用する。ユーザーＵ１、Ｕ２Ａ、Ｕ２Ｂ、Ｕ３を区別しない場合にユーザーＵと記載する。

通信ネットワーク７は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）であってもよいし、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）であってもよい。また、専用回線、公衆回線網、インターネット等を含んで構成されるグローバルネットワークであってもよい。

第１端末１Ａは、第１ディスプレイ１４、キーボード１５ａ、マウス１５ｂ、カメラ１６、マイク１７、及び、スピーカー１８を有する。これらの各機器は、第１端末１Ａの本体に有線または無線で接続される。各機器の少なくとも１つが、第１端末１Ａの本体に一体に組み込まれていてもよい。いずれの場合も、これらの機器を、第１端末１Ａの第１ディスプレイ１４、第１端末１Ａのマイク１７等と称する場合がある。第１ディスプレイ１４は、液晶ディスプレイパネル、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）パネル、プラズマディスプレイパネル等の表示パネルを有する表示装置である。キーボード１５ａ及びマウス１５ｂはユーザーＵ１が入力操作に使用する入力装置である。カメラ１６はユーザーＵ１を撮影する。マイク１７は、ユーザーＵ１の音声を集音する。スピーカー１８は、会議の音声を出力する。ユーザーＵ１は、これらの各機器を使用して会議に参加する。マイク１７は第１マイクの一例に対応する。

第２端末１Ｂは、第２ディスプレイ２４、キーボード２５ａ、カメラ２６、マイク２７、及び、スピーカー２８を備える。これらの各機器は、第２端末１Ｂの本体に有線または無線で接続される。第２ディスプレイ２４、キーボード２５ａ、カメラ２６、マイク２７、及び、スピーカー２８は、それぞれ、第１ディスプレイ１４、キーボード１５ａ、カメラ１６、マイク１７、及び、スピーカー１８と同様に構成される。マイク２７は第２マイクの一例に対応する。

カメラ２６はユーザーＵ２Ａ、Ｕ２Ｂを撮影する。マイク２７は、ユーザーＵ２Ａ、Ｕ２Ｂの音声を集音する。スピーカー２８は、会議の音声を出力する。ユーザーＵ２Ａ、Ｕ２Ｂは、これらの各機器を使用して会議に参加する。

第３端末１Ｃは、第３ディスプレイ３４、キーボード３５ａ、カメラ３６、マイク３７、及び、スピーカー３８を備える。これらの各機器は、第３端末１Ｃの本体に有線または無線で接続される。第３ディスプレイ３４、キーボード３５ａ、カメラ３６、マイク３７、及び、スピーカー３８は、それぞれ、第１ディスプレイ１４、キーボード１５ａ、カメラ１６、マイク１７、及び、スピーカー１８と同様に構成される。

カメラ３６はユーザーＵ３を撮影する。マイク３７は、ユーザーＵ３の音声を集音する。スピーカー３８は、会議の音声を出力する。ユーザーＵ３は、これらの各機器を使用して会議に参加する。

図２は、会議システム１００の動作の概要を示す説明図である。
会議システム１００を利用して実行される会議は、複数のユーザーＵが、少なくとも互いの音声を共有することによって行われる。また、会議システム１００は、カメラ１６、２６、３６によって撮影した画像や映像を共有して会議を行う構成であってもよい。本実施形態では、会議システム１００は、カメラ１６、２６、３６によって撮影した映像を共有して会議を行う。

図２には、第１端末１Ａ、第２端末１Ｂ、第３端末１Ｃからサーバー５０に送信されるデータとして、映像データＤ１Ａ、Ｄ１Ｂ、Ｄ１Ｃ、音声データＤ２Ａ、Ｄ２Ｂ、Ｄ２Ｃ、操作データＤ３Ａ、Ｄ３Ｂ、Ｄ３Ｃを示す。以下の説明では、映像データＤ１Ａ、Ｄ１Ｂ、Ｄ１Ｃを区別しない場合は映像データＤ１と記載する。同様に、音声データＤ２Ａ、Ｄ２Ｂ、Ｄ２Ｃを区別しない場合は音声データＤ２と記載し、操作データＤ３Ａ、Ｄ３Ｂ、Ｄ３Ｃを区別しない場合は操作データＤ３と記載する。

また、サーバー５０は、第１端末１Ａ、第２端末１Ｂ、及び第３端末１Ｃに、表示データＤ４Ａ、Ｄ４Ｂ、Ｄ４Ｃ、及び、統合音声データＤ５Ａ、Ｄ５Ｂ、Ｄ５Ｃを送信する。以下の説明において、表示データＤ４Ａ、Ｄ４Ｂ、Ｄ４Ｃを区別しない場合は表示データＤ４と記載し、統合音声データＤ５Ａ、Ｄ５Ｂ、Ｄ５Ｃを区別しない場合は統合音声データＤ５と記載する。

第１端末１Ａは、カメラ１６により撮影した映像に基づく映像データＤ１Ａ、及び、マイク１７により集音した音声に基づく音声データＤ２Ａを、サーバー５０に送信する。また、第１端末１Ａは、キーボード１５ａまたはマウス１５ｂによる操作を受け付けた場合に、受け付けた操作に基づく操作データＤ３Ａを、サーバー５０に送信する。

第２端末１Ｂは、第１端末１Ａと同様に、映像データＤ１Ｂ、音声データＤ２Ｂ、及び、操作データＤ３Ｂを、サーバー５０に送信する。第３端末１Ｃは、映像データＤ１Ｃ、音声データＤ２Ｃ、及び、操作データＤ３Ｃを、サーバー５０に送信する。

サーバー５０は、会議システム１００による会議の音声を各々の端末１に配信する。サーバー５０は、音声データＤ２Ａ、Ｄ２Ｂ、Ｄ２Ｃに基づいて統合音声データＤ５を生成する。統合音声データＤ５は、第１端末１Ａがマイク１７で検出した音声と、第２端末１Ｂがマイク２７で検出した音声と、第３端末１Ｃがマイク３７で検出した音声とを含む。第１端末１Ａ、第２端末１Ｂ、及び、第３端末１Ｃは、統合音声データＤ５に基づいて、スピーカー１８、２８、３８から音声を出力する。これにより、会議システム１００を利用する全てのユーザーＵが、他のユーザーＵの音声を聞くことができ、音声による会議を行うことができる。

サーバー５０は、拠点Ｓにおけるハウリングを防止するため、第１端末１Ａ、第２端末１Ｂ及び第３端末１Ｃに送信する統合音声データＤ５を異なるデータとしてもよい。例えば、サーバー５０は、音声データＤ２Ｂ、Ｄ２Ｃに基づく音声を含み、音声データＤ２Ａに基づく音声を含まない統合音声データＤ５Ａを、第１端末１Ａに送信してもよい。この場合、第１端末１Ａは、第２端末１Ｂが検出した音声と第３端末１Ｃが検出した音声とをスピーカー１８から出力する。ユーザーＵ１は、ユーザーＵ２Ａ、Ｕ２Ｂ、Ｕ３が発した音声を聞くことができる。また、第１端末１ＡはユーザーＵ１自身が発した音声をスピーカー１８から出力しないので、ユーザーＵ１に違和感を抱かせたり、ユーザーＵ１の声が反響したりすることがなく、スムーズに会議を行うことができる。

この場合、サーバー５０は、音声データＤ２Ａ、Ｄ２Ｃに基づく音声を含み、音声データＤ２Ｂに基づく音声を含まない統合音声データＤ５Ｂを、第２端末１Ｂに送信してもよい。また、サーバー５０は、音声データＤ２Ａ、Ｄ２Ｂに基づく音声を含み、音声データＤ２Ｃに基づく音声を含まない統合音声データＤ５Ｃを、第３端末１Ｃに送信してもよい。

サーバー５０は、第１端末１Ａに対して表示データＤ４Ａを送信する。第１端末１Ａは、表示データＤ４Ａに基づいて、第１ディスプレイ１４に画像を表示する。同様に、サーバー５０は、第２端末１Ｂに対して表示データＤ４Ｂを送信し、第３端末１Ｃに対して表示データＤ４Ｃを送信する。第２端末１Ｂは表示データＤ４Ｂに基づいて第２ディスプレイ２４に画像を表示し、第３端末１Ｃは表示データＤ４Ｃに基づいて第３ディスプレイ３４に画像を表示する。

図３は、会議の実行状態の例を示す説明図であり、拠点Ｓ３における会議の実行状態を示す。図３に示す例では、第３ディスプレイ３４に会議画面６１が表示される。会議画面６１は、第３ディスプレイ３４の表示領域３４ａに配置される画面である。

会議画面６１には、表示枠６１１ａ、及び表示枠６１１ｂが配置される。表示枠６１１ａ、６１１ｂは、第３端末１Ｃとは異なる端末１に関する画像が表示される領域である。表示枠６１１は第１端末１Ａに対応する領域であり、表示枠６１１ｂは第２端末１Ｂに対応する領域である。表示枠６１１ａ、６１１ｂ、及び後述する表示枠６１１ｃを区別しない場合は表示枠６１１と記載する。

表示枠６１１ａには、ユーザー画像６２１ａが表示される。ユーザー画像６２１ａは、第１端末１Ａを使用するユーザーＵ１に対応する画像である。ユーザー画像６２１ａはカメラ１６で撮像した画像に限定されない。ユーザー画像６２１ａは、ユーザーＵ１に対応する画像として、第１端末１Ａまたはサーバー５０が記憶する画像であってもよい。ユーザー画像６２１ａは、映像データＤ１Ａに基づいてサーバー５０が生成する画像であってもよい。

表示枠６１１ｂには、ユーザー画像６２１ｂ、６２１ｃが表示される。ユーザー画像６２１ｂは、第２端末１Ｂを使用するユーザーＵ２Ａに対応する画像であり、ユーザー画像６２１ｃはユーザーＵ２Ｂに対応する画像である。ユーザー画像６２１ｂ、６２１ｃは、第２端末１Ｂまたはサーバー５０が記憶する画像であってもよい。ユーザー画像６２１ｂ、６２１ｃは、映像データＤ１Ｂに基づいてサーバー５０が生成する画像であってもよい。ユーザー画像６２１ａ、６２１ｂ、６２１ｃ、及び後述するユーザー画像６２１ｄを区別しない場合はユーザー画像６２１と記載する。

本実施形態では、表示枠６１１ａに、タグ６３１ａが配置される。タグ６３１ａは、マイク１７が集音した音声の内容を示すテキストである。例えば、サーバー５０は、音声データＤ２Ａに対する音声認識処理を実行して、音声データＤ２Ａをテキストデータに変換することによって、タグ６３１ａを生成する。会議システム１００は、例えば、タグ６３１ａの内容を、ユーザーＵ１が音声を発する毎に更新する。この場合、タグ６３１ａは、ユーザーＵ１の１回の発話の内容を示すテキスト画像である。

また、表示枠６１１ｂにはタグ６３１ｂ、６３１ｃが配置される。タグ６３１ｂ、６３１ｃは、マイク２７が集音した音声の内容を示すテキストである。例えば、サーバー５０は、音声データＤ２Ｂに対する音声認識処理を実行して、音声データＤ２Ｂをテキストデータに変換することによって、タグ６３１ｂ、６３１ｃを生成する。マイク２７は、ユーザーＵ２Ａ、Ｕ２Ｂの音声を集音する。このため、音声データＤ２Ｂには複数の人物が発した音声が含まれる。タグ６３１ａ、６３１ｂ、６３１ｃ、及び後述するタグ６３１ｄを区別しない場合はタグ６３１と記載する。タグ６３１は、第１テキスト画像、及び、第２テキスト画像の一例に対応する。

会議システム１００では、音声データＤ２Ｂに含まれる音声が、ユーザーＵ毎に区別される。図３に示すタグ６３１ｂ、６３１ｃは、マイク２７が集音した音声の内容を示している。タグ６３１ｂは２人のユーザーＵ２Ａ、Ｕ２Ｂのいずれかの発話の内容を示し、タグ６３１ｃは、タグ６３１ｂとは異なるユーザーＵ２が発した音声の内容を示す。従って、タグ６３１ｂ、６３１ｃが対応する発話者が異なるため、タグ６３１ｂとタグ６３１ｃは、異なる表示態様で表示される。すなわち、タグ６３１ｂは第１の視覚表現で表示され、タグ６３１ｃは第２の視覚表現で表示される。この場合、タグ６３１ａは第１音声の内容を示す第１テキスト画像の一例であり、タグ６３１ｂは第３音声の内容を示す第３テキスト画像の一例である。

タグ６３１の視覚表現とは、ユーザーＵの視覚により認識可能な特徴を指す。具体的には、視覚表現とは、フォントの属性、枠の形態、及び、装飾の少なくともいずれかを含む。フォントの属性とは、例えば、フォント、フォントサイズ、フォントの色が挙げられる。枠の形態とは、枠の有無、枠の色、枠の太さ、枠の大きさが挙げられる。装飾とは、フォントの背景色、枠の外側の装飾、一時的に表示される装飾が挙げられる。タグ６３１ｂとタグ６３１ｃとは、視覚的に区別できるように異なる視覚表現で表示される。

第３ディスプレイ３４が会議画面６１を表示することによって、ユーザーＵ３は、会議の他の参加者であるユーザーＵ１、Ｕ２Ａ、Ｕ２Ｂの画像を見ることができる。ユーザーＵ３が会議画面６１を見ながら発話Ｖ１を行うことにより、ユーザーＵ１、Ｕ２Ａ、Ｕ２Ｂ、Ｕ３の相互の会話が可能となる。また、ユーザー画像６２１ａ、６２１ｂ、６２１ｃが、映像データＤ１Ａ、Ｄ１Ｂに基づく映像である場合、ユーザーＵ３は、表示枠６１１ａ、６１１ｂを見ることによって会議の他の参加者であるユーザーＵ１、Ｕ２Ａ、Ｕ２Ｂの状態を見ることができる。

図３に示す会議画面６１は一例であり、例えば、ユーザーＵ３に対応する表示枠６１１が配置されてもよい。具体的には、会議画面６１において、表示枠６１１ａ、６１１ｂと重ならない位置に、ユーザーＵ３に対応する表示枠６１１が配置される。そして、表示枠６１１に、ユーザーＵ３に対応するユーザー画像６２１と、ユーザーＵ３の発話の内容を示すタグ６３１とが表示される。

タグ６３１ａ、６３１ｂ、６３１ｃは、常時表示されてもよいし、所定の条件が成立するときにのみ表示されてもよい。所定の条件とは、例えば、ユーザーＵ３がタグ６３１ａ、６３１ｂ、６３１ｃを表示するよう設定を行うこと、或いは、複数のユーザーＵの発話が重なることが挙げられる。複数のユーザーＵが発話したタイミングが重複する場合、スピーカー３８から出力される音声が聞き取りにくくなる。このような場合にタグ６３１ａ、６３１ｂ、６３１ｃを表示することによって、発話の内容を目視により確認できるため、会議の円滑な進行を促すことができる。

会議システム１００により会議を実行する間、第１端末１Ａ及び第２端末１Ｂは、第３端末１Ｃと同様に会議画面６１を表示する。例えば、第１端末１Ａは、第２端末１Ｂ及び第３端末１Ｃに対応する表示枠６１１が配置される会議画面６１を、第１ディスプレイ１４により表示する。また、例えば、第２端末１Ｂは、第１端末１Ａ及び第３端末１Ｃに対応する表示枠６１１が配置される会議画面６１を、第２ディスプレイ２４により表示する。

［２．会議システムを構成する装置の構成］
図４は、会議システム１００を構成する装置のブロック図である。
図４に示すように、第１端末１Ａは、第１制御回路１１を有し、第１制御回路１１に第１ディスプレイ１４、入力装置１５、カメラ１６、マイク１７、スピーカー１８、及び通信装置１９が接続される。

入力装置１５は、ユーザーＵが入力操作に使用する装置であり、例えば、キーボード１５ａ及びマウス１５ｂである。入力装置１５は、第１ディスプレイ１４の表示パネルに重ねて設置されるタッチセンサーであってもよく、その他の装置であってもよい。

通信装置１９は、通信ネットワーク７に接続され、通信ネットワーク７を介してサーバー５０とデータ通信を実行する装置である。通信装置１９は、例えば、通信ケーブルを接続するコネクター及び通信インターフェイス回路を備える。通信装置１９は、アンテナ及び無線通信回路を備え、無線通信回線を通じて通信ネットワーク７に接続される構成であってもよい。

第１制御回路１１は、プロセッサー１２、及び、メモリー１３を備える。プロセッサー１２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉＴ）やＭＰＵ（Ｍｉｃｒｏ－ｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）等で構成される。プロセッサー１２は、プログラムを実行することにより、第１端末１Ａの各部を制御する。

メモリー１３は、プロセッサー１２が実行するプログラムやデータを不揮発的に記憶する記憶装置である。メモリー１３は、磁気的記憶装置、フラッシュＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の半導体記憶素子、或いはその他の種類の不揮発性記憶装置により構成される。メモリー１３は、プロセッサー１２のワークエリアを構成するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含んでもよい。メモリー１３は、第１制御回路１１により処理されるデータや、プロセッサー１２が実行する制御プログラムを記憶する。

プロセッサー１２は、カメラ１６の撮影データを取得し、撮影データに基づき映像データＤ１Ａを生成する。プロセッサー１２は、マイク１７が集音した音声をデジタル音声データに変換する。プロセッサー１２は、デジタル音声データに基づき音声データＤ２Ａを生成する。プロセッサー１２は、入力装置１５による入力を受け付けて、受け付けた入力に基づき操作データＤ３Ａを生成する。

プロセッサー１２は、通信装置１９を制御して、映像データＤ１Ａ、音声データＤ２Ａ、及び操作データＤ３Ａをサーバー５０に送信する。

プロセッサー１２は、サーバー５０が送信する表示データＤ４Ａ及び統合音声データＤ５Ａを、通信装置１９によって受信する。プロセッサー１２は、表示データＤ４Ａに基づいて第１ディスプレイ１４を制御することにより、第１ディスプレイ１４に会議画面６１を表示させる。プロセッサー１２は、統合音声データＤ５Ａに基づく音声をスピーカー１８から出力させる。

第２端末１Ｂ、及び、第３端末１Ｃは、第１端末１Ａと同様に構成される。第２端末１Ｂは、第２制御回路２１を有し、第２制御回路２１に第２ディスプレイ２４、入力装置２５、カメラ２６、マイク２７、スピーカー２８、及び通信装置２９が接続される。

入力装置２５は、ユーザーＵが入力操作に使用する装置であり、例えば、キーボード２５ａである。入力装置２５は、第２ディスプレイ２４の表示パネルに重ねて設置されるタッチセンサーであってもよく、その他の装置であってもよい。

通信装置２９は、通信装置１９と同様に構成される装置であり、通信ネットワーク７に接続され、通信ネットワーク７を介してサーバー５０とデータ通信を実行する。通信装置２９は、例えば、通信ケーブルを接続するコネクター及び通信インターフェイス回路を備える。通信装置２９は、アンテナ及び無線通信回路を備え、無線通信回線を通じて通信ネットワーク７に接続される構成であってもよい。

第２制御回路２１は、プロセッサー２２、及び、メモリー２３を備える。プロセッサー２２は、ＣＰＵやＭＰＵ等で構成される。プロセッサー２２は、プログラムを実行することにより、第２端末１Ｂの各部を制御する。プロセッサー２２の具体的構成はプロセッサー１２と同様であり、メモリー２３の具体的構成はメモリー１３と同様である。

プロセッサー２２は、カメラ２６の撮影データを取得し、撮影データに基づき映像データＤ１Ｂを生成する。プロセッサー２２は、マイク２７が集音した音声をデジタル音声データに変換する。プロセッサー２２は、デジタル音声データに基づき音声データＤ２Ｂを生成する。プロセッサー２２は、入力装置２５による入力を受け付けて、受け付けた入力に基づき操作データＤ３Ｂを生成する。

プロセッサー２２は、通信装置２９を制御して、映像データＤ１Ｂ、音声データＤ２Ｂ、及び操作データＤ３Ｂをサーバー５０に送信する。

プロセッサー２２は、サーバー５０が送信する表示データＤ４Ｂ及び統合音声データＤ５Ｂを、通信装置２９によって受信する。プロセッサー２２は、表示データＤ４Ｂに基づいて第２ディスプレイ２４を制御することにより、第２ディスプレイ２４に会議画面６１を表示させる。プロセッサー２２は、統合音声データＤ５Ｂに基づく音声をスピーカー２８から出力させる。

第３端末１Ｃは、第３制御回路３１を有し、第３制御回路３１に第３ディスプレイ３４、入力装置３５、カメラ３６、マイク３７、スピーカー３８、及び通信装置３９が接続される。第３ディスプレイ３４はディスプレイの一例に対応し、第３制御回路３１は制御回路の一例に対応する。

入力装置３５は、ユーザーＵが入力操作に使用する装置であり、例えば、キーボード２５ａである。入力装置３５は、第３ディスプレイ３４の表示パネルに重ねて設置されるタッチセンサーであってもよく、その他の装置であってもよい。

通信装置３９は、通信装置１９と同様に構成される装置であり、通信ネットワーク７に接続され、通信ネットワーク７を介してサーバー５０とデータ通信を実行する。通信装置３９は、例えば、通信ケーブルを接続するコネクター及び通信インターフェイス回路を備える。通信装置３９は、アンテナ及び無線通信回路を備え、無線通信回線を通じて通信ネットワーク７に接続される構成であってもよい。

第３制御回路３１は、プロセッサー３２、及び、メモリー３３を備える。プロセッサー３２は、ＣＰＵやＭＰＵ等で構成される。プロセッサー３２は、プログラムを実行することにより、第３端末１Ｃの各部を制御する。プロセッサー３２の具体的構成はプロセッサー１２と同様であり、メモリー３３の具体的構成はメモリー１３と同様である。

プロセッサー３２は、カメラ３６の撮影データを取得し、撮影データに基づき映像データＤ１Ｃを生成する。プロセッサー３２は、マイク３７が集音した音声をデジタル音声データに変換する。プロセッサー３２は、デジタル音声データに基づき音声データＤ２Ｃを生成する。プロセッサー３２は、入力装置３５による入力を受け付けて、受け付けた入力に基づき操作データＤ３Ｃを生成する。

プロセッサー３２は、通信装置３９を制御して、映像データＤ１Ｃ、音声データＤ２Ｃ、及び操作データＤ３Ｃをサーバー５０に送信する。

プロセッサー３２は、サーバー５０が送信する表示データＤ４Ｃ及び統合音声データＤ５Ｃを、通信装置３９によって受信する。プロセッサー３２は、表示データＤ４Ｃに基づいて第３ディスプレイ３４を制御することにより、第３ディスプレイ３４に会議画面６１を表示させる。プロセッサー３２は、統合音声データＤ５Ｃに基づく音声をスピーカー３８から出力させる。

サーバー５０は、サーバー制御回路５１を有し、サーバー制御回路５１に通信装置５４が接続される。通信装置５４は、通信ネットワーク７に接続され、通信ネットワーク７を介して端末１とデータ通信を実行する。通信装置５４は、例えば、通信ケーブルを接続するコネクター及び通信インターフェイス回路を備える。通信装置５４は、アンテナ及び無線通信回路を備え、無線通信回線を通じて通信ネットワーク７に接続される構成であってもよい。

サーバー制御回路５１は、プロセッサー５２、及び、メモリー５３を備える。プロセッサー５２は、ＣＰＵやＭＰＵ等で構成される。プロセッサー５２は、プログラムを実行することにより、第３端末１Ｃの各部を制御する。プロセッサー５２の具体的構成はプロセッサー１２と同様であり、メモリー５３の具体的構成はメモリー１３と同様である。

プロセッサー５２は、メモリー５３が記憶する制御プログラム５３１を実行することによって、通信制御部５２１、端末識別部５２２、音声解析部５２３、表示データ生成部５２４、及び、データ処理部５２５として機能する。

通信制御部５２１は、通信装置５４を制御して、端末１との間でデータ通信を実行させる。通信制御部５２１は、端末１が送信する映像データＤ１、音声データＤ２、及び、操作データＤ３を、通信装置５４によって受信させる。また、通信制御部５２１は、後述するようにプロセッサー５２が生成する表示データＤ４及び統合音声データＤ５を、端末１に送信する。

端末識別部５２２は、端末１から映像データＤ１を受信した場合に、映像データＤ１を送信した端末１を識別する。同様に、端末識別部５２２は、音声データＤ２を受信した場合に、音声データＤ２の送信元の端末１を識別し、端末１から操作データＤ３を受信した場合に、操作データＤ３の送信元の端末１を識別する。

音声解析部５２３は、通信装置５４により受信した音声データＤ２を解析し、音声データＤ２に含まれるユーザーＵの音声を、ユーザーＵの発話内容を示すテキストデータに変換する。音声解析部５２３は、音声データＤ２に含まれる音声が１人のユーザーＵの音声か、複数のユーザーＵの音声かを判定する。音声解析部５２３は、音声データＤ２が複数のユーザーＵの音声を含む場合に、音声データＤ２に含まれる音声をユーザーＵ毎に分類してから、各々のユーザーＵの発話内容を示すテキストデータを生成する。

音声解析部５２３は、複数の端末１から受信した音声データＤ２に基づいて、統合音声データＤ５を生成する。音声解析部５２３は、全ての端末１に共通する統合音声データＤ５を生成してもよい。また、音声解析部５２３は、互いに異なる音声を含む統合音声データＤ５Ａ、Ｄ５Ｂ、Ｄ５Ｃを生成してもよい。例えば、音声解析部５２３は、マイク１７で集音された音声を含まない統合音声データＤ５Ａと、マイク２７で集音された音声を含まない統合音声データＤ５Ｂと、マイク３７で集音された音声を含まない統合音声データＤ５Ｃとを生成してもよい。

表示データ生成部５２４は、表示データＤ４を生成する。表示データ生成部５２４は、会議に参加している各々のユーザーＵに対応するユーザー画像６２１を生成する。例えば、表示データ生成部５２４は、ユーザーＵ１に対応するユーザー画像６２１ａを、カメラ１６の撮影画像をもとに生成する。この場合、表示データ生成部５２４は、映像データＤ１Ａの解像度の調整等を実行することにより、ユーザー画像６２１ａを生成する。また、表示データ生成部５２４は、予めユーザーＵ１に対応付けて記憶された静止画像を、ユーザー画像６２１ａとしてもよい。表示データ生成部５２４は、会議システム１００を利用するユーザーＵ２Ａ、Ｕ２Ｂ、及びユーザーＵ３のそれぞれに対応するユーザー画像６２１を、同様に生成する。

表示データ生成部５２４は、会議システム１００を利用する会議に参加している各々のユーザーＵに対応するユーザー画像６２１を用いて、会議画面６１を表示するための表示データＤ４を生成する。表示データ生成部５２４は、会議に参加している各々の端末１に対応する表示枠６１１を配置し、表示枠６１１の中にユーザー画像６２１を配置することによって、表示データＤ４を生成する。

表示データ生成部５２４は、音声解析部５２３が生成したテキストデータを含む表示データＤ４を生成することが可能である。この場合、表示データ生成部５２４は、音声解析部５２３が生成したテキストデータを、テキストデータに対応するユーザーＵのユーザー画像６２１に重ねて配置し、表示データＤ４を生成する。さらに、表示データ生成部５２４は、テキストデータを、特定の視覚表現で表示するための表示データＤ４を生成してもよい。

表示データ生成部５２４は、会議に参加している全ての端末１に共通する表示データＤ４を生成してもよいし、端末１ごとに異なる表示データＤ４を生成してもよい。具体的には、表示データ生成部５２４は、互いに異なる表示データＤ４Ａ、Ｄ４Ｂ、Ｄ４Ｃを生成してもよい。この場合、表示データＤ４Ａは、ユーザーＵ１を除くユーザーＵのユーザー画像６２１を含み、ユーザーＵ１に対応するユーザー画像６２１ａを含まない。

また、表示データ生成部５２４は、操作データＤ３に基づいて、後述する第１領域６４と、第２領域６５とを含む会議画面６２を表示するための表示データＤ４を生成する。会議画面６２、第１領域６４及び第２領域６５については後述する。

データ処理部５２５は、操作データＤ３に基づき、議事録データ５３２を生成し、或いは議事録データ５３２を更新して、メモリー５３に記憶させる。

［３．会議システムの動作］
図５は、サーバー５０の動作を示すフローチャートである。本実施形態では、図２に示したように、端末１から映像データＤ１、音声データＤ２及び操作データＤ３を受信し、表示データＤ４及び統合音声データＤ５を生成および送信する機能を、サーバー５０が実行する例を説明する。図５に示す動作はサーバー５０が有するサーバー制御回路５１によって実行される。

図５は、１つの表示データＤ４を生成する処理を示す。この処理は、表示データＤ４Ａ、Ｄ４Ｂ、Ｄ４Ｃのいずれかを生成する場合に実行される。従って、サーバー５０が表示データＤ４Ａ、Ｄ４Ｂ、Ｄ４Ｃを生成する場合、表示データＤ４毎に図５の処理が実行される。また、サーバー５０が全ての端末１に共通の表示データＤ４を送信する場合は、図５の処理によって共通の表示データＤ４が生成される。

ステップＳＴ１１において、サーバー制御回路５１は、端末１から受信した音声データＤ２から音声を検出し、ユーザーＵの発話があったか否かを判定する。発話がないと判定した場合（ステップＳＴ１１；ＮＯ）、サーバー制御回路５１はステップＳＴ１１に戻り、ステップＳＴ１１の判定を所定時間後に実行する。発話があったと判定した場合（ステップＳＴ１１；ＹＥＳ）、サーバー制御回路５１はステップＳＴ１２に移行する。

ステップＳＴ１２において、サーバー制御回路５１は、音声データＤ２から検出した音声を解析する。例えば、サーバー制御回路５１は、ステップＳＴ１２において音声データＤ２の内容を示すテキストデータを生成する。ステップＳＴ１３において、サーバー制御回路５１は、発話を行ったユーザーＵと、発話を行ったユーザーＵが使用する端末１を特定する。ステップＳＴ１３で、サーバー制御回路５１は、少なくとも、ステップＳＴ１１で検出した音声を検出して音声データＤ２を送信した端末１を特定し、ステップＳＴ１１で検出した音声と端末１とを対応付ける。例えば、サーバー制御回路５１は、音声データＤ２に含まれる端末１の識別情報に基づいて、音声データＤ２を送信した端末１を識別し、識別した端末１と、音声データＤ２に含まれる音声とを対応付ける。

ステップＳＴ１４で、サーバー制御回路５１は、検出した音声において２人以上のユーザーＵの音声が重複しているか否かを判定する。２人以上のユーザーＵの音声が重複していないと判定した場合（ステップＳＴ１４；ＮＯ）、サーバー制御回路５１はステップＳＴ１５に移行する。ステップＳＴ１５で、サーバー制御回路５１は、表示データＤ４を受信する端末１においてテキスト表示の設定がＯＮにされているか否かを判定する。

第３端末１Ｃは、ユーザーＵ３が入力装置３５を操作することによって、テキスト表示のＯＮとＯＦＦを設定できる。テキスト表示がＯＮに設定された場合、第３端末１Ｃは、タグ６３１を含む会議画面６１を表示する。また、テキスト表示がＯＦＦにされた場合、タグ６３１は非表示となる。すなわち、タグ６３１を含まない会議画面６１が第３ディスプレイ３４に表示される。第３端末１Ｃは、第３端末１Ｃにおけるテキスト表示がＯＮまたはＯＦＦに設定された場合、テキスト表示の設定状態を示すデータを含む操作データＤ３Ｃを、サーバー５０に送信する。第１端末１Ａ、及び第２端末１Ｂも同様である。従って、サーバー制御回路５１は、端末１から送信された操作データＤ３に基づいて、テキスト表示の設定状態を判定できる。

ステップＳＴ１５で、テキスト表示の設定がＯＮでないと判定した場合（ステップＳＴ１５；ＮＯ）、サーバー制御回路５１は、後述するステップＳＴ１９に移行する。

ステップＳＴ１５で、テキスト表示の設定がＯＮであると判定した場合（ステップＳＴ１５；ＹＥＳ）、サーバー制御回路５１は、ステップＳＴ１６に移行する。ステップＳＴ１６で、サーバー制御回路５１は、ユーザーＵの発話の内容を示すテキストデータに基づき、タグ６３１の画像を生成する。ステップＳＴ１６で、サーバー制御回路５１は、さらに、ステップＳＴ１２で特定した端末１に対応するユーザー画像６２１にタグ６３１が重なるように、タグ６３１とユーザー画像６２１の配置を決定し、ステップＳＴ１９に移行する。

サーバー制御回路５１は、ステップＳＴ１４において２人以上のユーザーＵの音声が重複していると判定した場合（ステップＳＴ１４；ＹＥＳ）、ステップＳＴ１７に移行する。ステップＳＴ１７で、サーバー制御回路５１は、１つの端末１から送信された音声データＤ２に２人以上のユーザーＵの音声が含まれるか否かを判定する。

サーバー制御回路５１は、１つの端末１から送信された音声データＤ２に２人以上のユーザーＵの音声が含まれると判定した場合（ステップＳＴ１７；ＹＥＳ）、ステップＳＴ１８に移行する。ステップＳＴ１８で、サーバー制御回路５１は、１つの端末１から送信された音声データＤ２の内容を示すテキストデータに基づき、タグ６３１を生成する。サーバー制御回路５１は、ステップＳＴ１８で、２人以上のユーザーＵの発話のそれぞれに対応する、複数のタグ６３１を生成する。さらに、サーバー制御回路５１は、ステップＳＴ１８で生成した複数のタグ６３１に、異なる視覚表現を付与して、各々のタグ６３１の配置を決定する。詳細には、サーバー制御回路５１は、複数のタグ６３１が互いに重ならないように、各々のタグ６３１の表示位置を決定する。そして、これら複数のタグ６３１が、ステップＳＴ１３で識別した端末１に対応するユーザー画像６２１に重なるように、タグ６３１の配置を決定する。
ステップＳＴ１８の処理の後、サーバー制御回路５１はステップＳＴ１９に移行する。

サーバー制御回路５１は、ステップＳＴ１７において、１つの端末１から送信された音声データＤ２に２人以上のユーザーＵの音声が含まれないと判定した場合（ステップＳＴ１７；ＮＯ）、ステップＳＴ１６に移行する。

ステップＳＴ１９で、サーバー制御回路５１は、ステップＳＴ１６またはステップＳＴ１８において決定したユーザー画像６２１とタグ６３１との配置に基づいて、表示データＤ４を生成または更新し、端末１に送信する。これにより、端末１において、会議画面が表示され、或いは、会議画面が更新される。

ステップＳＴ２０において、サーバー制御回路５１は、端末１が送信した操作データＤ３を解析することにより、会議画面の表示中に、タグ６３１を第１領域６４の外に移動させる入力が行われたか否かを判定する。

ここで、タグ６３１に対する入力の詳細について、図６～図９を参照して説明する。
図６、図７、図８及び図９は、会議画面６２の一例を示す図である。図６～図９には、第３端末１Ｃが第３ディスプレイ３４に会議画面６２を表示する例を示す。

図６に示すように、会議画面６２は、第１領域６４及び第２領域６５を含む。第１領域６４には、ユーザーＵ１に対応するユーザー画像６２１ａ、及び、ユーザーＵ２Ａ、Ｕ２Ｂに対応するユーザー画像６２１ｂ、６２１ｃが配置される。ユーザー画像６２１ａは、第１端末１Ａに対応する表示枠６１１ａに配置される。また、ユーザー画像６２１ｂ、６２１ｃは、第２端末１Ｂに対応する表示枠６１１ｂに配置される。ユーザー画像６２１ａは第１画像の一例に対応し、ユーザー画像６２１ｂ及びユーザー画像６２１ｃを含む、第２端末１Ｂに対応する画像が、第２画像の一例に対応する。

図６には、第３端末１ＣにおいてユーザーＵ２がテキスト表示をＯＮに設定した場合、及び、複数のユーザーＵが発話したタイミングが重なった場合に表示される会議画面６２を示す。この会議画面６２には、タグ６３１ａ、６３１ｂ、６３１ｃが配置される。タグ６３１ａは、第１端末１Ａがマイク１７により集音した音声の内容を示す画像であるから、ユーザー画像６２１ａに重ねて配置される。タグ６３１ｂ、６３１ｃは、第２端末１Ｂがマイク２７により集音した音声の内容を示す画像であるから、ユーザー画像６２１ｂ、６２１ｃに重ねて配置される。タグ６３１ｂとタグ６３１ｃは、異なる視覚表現で表示される。サーバー制御回路５１は、タグ６３１ｂ、６３１ｃを、それぞれユーザー画像６２１ｂとユーザー画像６２１ｃのどちらに対応するかを特定せずに、表示枠６１１ｂに表示する。また、サーバー制御回路５１は、タグ６３１ｂ、６３１ｃを、それぞれユーザー画像６２１ｂとユーザー画像６２１ｃのどちらに対応するかを特定してもよい。

会議画面６２には、第３端末１Ｃに対応する表示枠６１１ｃが配置される。表示枠６１１ｃには、第３端末１Ｃを使用するユーザーＵ３に対応するユーザー画像６２１ｄ、及び、第３端末１Ｃがマイク３７により集音した音声の内容を示すタグ６３１ｄが配置される。表示枠６１１ｃを配置するか否かは、例えば、入力装置３５の入力により設定変更可能であってもよい。すなわち、図３のように第３ディスプレイ３４に表示する会議画面に、第３端末１Ｃに対応する表示を含めない構成と、図６のように第３端末１Ｃに対応する表示を含める構成とを、入力装置３５の入力により切り替え可能な構成であってもよい。

このように、第１領域６４は、会議システム１００を利用して会議に参加するユーザーＵに関する画像を表示する領域である。

会議画面６１、６２には、複数のユーザーＵの発話が重複した場合に、発話の内容を示すテキスト画像であるタグ６３１ａ～６３１ｄが表示される。これにより、会議における発話を聞き取りにくい状況が発生しても、ユーザーＵが、発話の内容を容易に知ることができる。このため、発話の内容を聞き返したり、発話を繰り返したりする場面が少ないため、会議を円滑に進行させることができる。

また、ユーザーＵは、テキスト表示をＯＮにする設定を行うことによって、発話が重複しないときにもタグ６３１ａ～６３１ｄを表示させることができる。これにより、発話の内容を視覚的に確認できる。

第２領域６５は、第１領域６４に表示されたタグ６３１ａ～６３１ｄのうち、選択されたタグ６３１を表示する領域である。図６に符号ＯＰ１で示すように、タグ６３１ａを第２領域６５に移動させる入力が行われると、タグ６３１ａと同じ内容の保留タグ６５１が第２領域６５に表示される。保留タグ６５１が第２領域６５に表示される状態を、図７に示す。入力ＯＰ１は、テキスト画像を第２領域に移動させる操作の一例に対応する。

第２領域６５には、１または複数の保留タグ６５１が表示可能である。図７の例では、第２領域６５に、タグ６３１ａと同じ内容を示すテキスト画像が保留タグ６５１ａとして表示される。保留タグ６５１ａ、及び後述する保留タグ６５１ｂを区別しない場合、保留タグ６５１と記載する。保留タグ６５１は、第１テキスト画像、及び、第２テキスト画像の一例に対応する。

第１領域６４に表示されるタグ６３１は、ユーザーＵが発話を行う毎に更新される。これに対し、保留タグ６５１は、タグ６３１の更新とは関係なく、第２領域６５に継続して表示される。このため、第２領域６５に保留タグ６５１を表示することによって、入力ＯＰ１により選択されたタグ６３１の内容を、ユーザーＵが継続して視認できるようにする効果が得られる。

入力ＯＰ１を受け付ける端末１は制限されず、会議に参加する全ての端末１において入力ＯＰ１を行うことが可能である。すなわち、図６の会議画面６２が表示された状態で、第１端末１Ａの入力装置１５により入力ＯＰ１が行われた場合、及び、第２端末１Ｂの入力装置２５により入力ＯＰ１が行われた場合も、保留タグ６５１が第２領域６５に表示される。

第２領域６５の表示は、会議システム１００の会議に参加する全ての端末１に表示される。このため、会議に参加する全てのユーザーＵが第２領域６５の表示を視認できる。例えば、ユーザーＵ３の操作により入力ＯＰ１が行われた場合、第１端末１Ａ、第２端末１Ｂ、及び第３端末１Ｃの全てが、第２領域６５を表示する。この動作は、サーバー制御回路５１が、表示データＤ４Ａ、Ｄ４Ｂ、Ｄ４Ｃの全てに、第２領域６５及び保留タグ６５１を配置することによって実現される。

端末１は、入力ＯＰ１が行われない間は第２領域６５を非表示としてもよい。具体的には、第１端末１Ａ、第２端末１Ｂ及び第３端末１Ｃのいずれかにおいて入力ＯＰ１が行われるまで、端末１は、第２領域６５を表示せず、第１領域６４のみを表示してもよい。この場合、会議画面６２は第１領域６４を有し、第２領域６５を有しない画面となる。この表示態様は、サーバー制御回路５１が第１領域６４の内容のみを含む表示データＤ４を生成して端末１に送信することにより実現できる。

この場合、第１端末１Ａ、第２端末１Ｂ及び第３端末１Ｃのいずれかにおいて入力ＯＰ１を受け付けた場合に、第２領域６５の表示が開始される。入力ＯＰ１の態様は、タグ６３１を第１領域６４から第２領域６５に移動させる操作に限らず、タグ６３１を第１領域６４の外に向けて移動させる操作であればよい。そして、入力ＯＰ１によってタグ６３１が第１領域６４の外に向けて移動された場合、サーバー制御回路５１は、第１領域６４及び第２領域６５を含み、選択されたタグ６３１に対応する保留タグ６５１が配置された表示データＤ４を生成し、端末１に送信する。

図８及び図９は、第２領域６５に対する入力を受け付けた場合の表示例を示す。
端末１では、図８に示すように、第２領域６５に表示された保留タグ６５１に対する入力ＯＰ２を受け付けることができる。入力ＯＰ２は、保留タグ６５１に対応付けて他の発話を第２領域６５に表示させるための入力である。入力ＯＰ２は、例えば、マウス１５ｂやタッチパネル等のポインティングデバイスによる操作である。具体的には、入力ＯＰ２は、保留タグ６５１をクリックする操作、保留タグ６５１に対するメニュー画面を用いて保留タグ６５１を選択する操作、等である。入力ＯＰ２は、選択操作の一例に対応する。

例えば、第２端末１Ｂが入力装置２５により入力ＯＰ２を受け付けた場合、図９に示すように、入力ＯＰ２の後にマイク２７により集音した音声の内容を示す保留タグ６５１ｂが、第２領域６５に表示される。図９には、マイク２７によって集音した音声の内容を示すタグ６３１ｂが、第１領域６４に表示される。さらに、タグ６３１ｂと同じ内容を示すテキスト画像である保留タグ６５１ｂが、第２領域６５に表示される。このように、端末１が保留タグ６５１ａに対する入力ＯＰ２を受け付けると、入力ＯＰ２の後に集音された音声の内容を示す保留タグ６５１ｂが、保留タグ６５１ａに対応付けて第２領域６５に表示される。

このように、第２領域６５に保留タグ６５１ａが配置された後は、ユーザーＵの発話の内容を示す保留タグ６５１ｂが、保留タグ６５１ａに対応付けて第２領域６５に配置される。ユーザーＵは、入力ＯＰ２を行うことによって、その後の自身の発話の内容を保留タグ６５１ｂとして第２領域６５に表示させることができる。その他のユーザーＵも、同様に、保留タグ６５１ａ或いは保留タグ６５１ｂに対して入力ＯＰ２を行うことによって、ユーザーＵ自身の発話の内容を示すテキスト画像を、新たな保留タグ６５１として第２領域６５に表示させることができる。

会議に参加する全てのユーザーＵは、入力ＯＰ２を行うことができる。例えば、ユーザーＵ１は、ユーザーＵ１を含む全てのユーザーＵに対応するタグ６３１に入力ＯＰ２を行うことができる。ユーザーＵ２Ａ、Ｕ２Ｂ、Ｕ３も同様である。これにより、会議に参加する全てのユーザーＵが、保留タグ６５１を選択することによって、自分の発言を保留タグ６５１に関連付けて第２領域６５に表示させることができる。

会議において特定の発話を第２領域６５に保留タグ６５１として表示させることによって、特定の話題に関する会話を継続することができる。例えば、会議に参加するユーザーＵの一部のみが特定の話題について議論を継続することができる。これにより、多くの話題を扱う会議をより円滑に進行させることができる。

さらに、第１領域６４には、端末１を使用するユーザーＵ自身に対応するユーザー画像６２１とタグ６３１を表示させてもよい。例えば、第３端末１Ｃは、表示枠６１１ｃにユーザーＵ３のユーザー画像６２１ｄとタグ６３１ｄを表示してもよい。この場合、ユーザーＵ３は、ユーザーＵ３の発話の内容を目視により確認できる。さらに、ユーザーＵ３は、タグ６３１ｄを第２領域６５に移動させる入力ＯＰ１を行うことによって、ユーザーＵ３の発話の内容を保留タグ６５１とすることができる。

図５のステップＳＴ２０で、サーバー制御回路５１は、入力ＯＰ１が実行されたか否かを判定する。サーバー制御回路５１は、タグ６３１を移動させる操作が行われたと判定した場合、すなわち、入力ＯＰ１が行われたと判定した場合（ステップＳＴ２０；ＹＥＳ）、ステップＳＴ２１に移行する。ステップＳＴ２１で、サーバー制御回路５１は、入力ＯＰ１の対象となったタグ６３１を第２領域６５に配置する。続いて、サーバー制御回路５１は、ステップＳＴ２２において、第２領域６５に移動されたタグ６３１の内容を議事録データ５３２に追加し、議事録データ５３２を更新し、ステップＳＴ２３に移行する。また、サーバー制御回路５１は、タグ６３１を移動させる操作が行われていないと判定した場合（ステップＳＴ２０；ＮＯ）、ステップＳＴ２３に移行する。

議事録データ５３２は、会議の内容を記録したデータである。サーバー制御回路５１は、会議システム１００によって行われた会議の記録として、保留タグ６５１に含まれるテキストデータを保存する。ステップＳＴ２１～ＳＴ２２で、サーバー制御回路５１は、第２領域６５に保留タグ６５１を配置する毎に、新たに配置した保留タグ６５１に含まれるテキストデータを議事録データ５３２に追加して、メモリー５３に記憶させる。

ステップＳＴ２３において、サーバー制御回路５１は、ステップＳＴ１２で解析した発話が、保留タグ６５１を選択する入力ＯＰ２の後に発話された音声であるか否かを判定する。入力ＯＰ２の後に発話された音声でないと判定した場合（ステップＳＴ２３；ＮＯ）、サーバー制御回路５１は、後述するステップＳＴ２６に移行する。

入力ＯＰ２の後に発話された音声であると判定した場合（ステップＳＴ２３；ＹＥＳ）、サーバー制御回路５１は、ステップＳＴ２４に移行する。ステップＳＴ２４で、サーバー制御回路５１は、ステップＳＴ１６またはステップＳＴ１８で配置したタグ６３１と同じ内容の保留タグ６５１を、入力ＯＰ２で選択された保留タグ６５１に並べて、第２領域６５に配置する。続くステップＳＴ２５で、サーバー制御回路５１は、ステップＳＴ２４で配置した保留タグ６５１の内容を議事録データ５３２に追加して、議事録データ５３２を更新し、ステップＳＴ２６に移行する。

ステップＳＴ２６で、サーバー制御回路５１は、表示データＤ４を更新し、更新した表示データＤ４を端末１に送信する。

図５のステップＳＴ２３－ＳＴ２４において、サーバー制御回路５１は、保留タグ６５１を選択する入力ＯＰ２の後に発話された音声については、発話の内容を示す保留タグ６５１を第２領域６５に表示する例を説明したが、この動作を解除可能であってもよい。例えば、第１端末１Ａ、第２端末１Ｂ、及び第３端末１Ｃにおいて、入力ＯＰ２の後に、保留タグ６５１の選択を解除する解除操作を受け付けてもよい。解除操作は、例えば、入力装置１５、２５、３５を利用してユーザーＵが行う操作である。具体的には、解除操作は、キーボード１５ａのＥＳＣキーの操作や、入力ＯＰ２と同じ操作が挙げられる。

第１端末１Ａが解除操作を受け付けた場合、その後にマイク１７によって検出されるユーザーＵ１の発話は、第２領域６５に保留タグ６５１として表示されない。このユーザーＵ１の発話の内容が、タグ６３１として第１領域６４に表示されてもよい。また、テキスト表示の設定がＯＦＦの場合、ユーザーＵ１の発話の内容は第１領域６４に表示されない。第２端末１Ｂ、及び、第３端末１Ｃにおいても同様である。

解除操作を受け付けることによって、入力ＯＰ２による保留タグ６５１の選択を解除可能である場合、会議の進行中に、発話の内容を保留タグ６５１として表示させる動作と、保留タグ６５１として表示させない動作とを切り替え可能である。これにより、特定の内容についての議論と、会議の全体の議論とを使い分けることができ、より一層の利便性の向上を図ることができる。

［４．実施形態の作用］
以上説明したように、会議システム１００において実行される表示方法は、第１端末１Ａに対応するユーザー画像６２１ａと、第２端末１Ｂに対応するユーザー画像６２１ｂとを並べて第１領域６４に表示することを含む。この表示方法は、第１端末１Ａが検出した第１音声と、第２端末１Ｂが検出した第２音声とが重複した場合に、特定の表示を行う。この特定の表示は、第１音声の内容を示すタグ６３１ａをユーザー画像６２１ａと対応付けて第１領域６４に表示し、かつ、第２音声の内容を示すタグ６３１ｂをユーザー画像６２１ｂと対応付けて第１領域６４に表示することを含む。また、タグ６３１ａを第１領域６４とは異なる第２領域６５に移動させる操作を受け付けた場合に、タグ６３１ａを第２領域６５に保留タグ６５１ａとして表示することと、を含む。

この表示方法によれば、第１端末１Ａが集音した音声と第２端末１Ｂが集音した音声とが重複した場合に、タグ６３１ａ、６３１ｂを表示することにより、発話が重複して聞きにくくなった場合であっても、発話の内容をユーザーＵが視覚により認識できる。このため、発話のやり直しの要求など、会議の遅延を招く事象を抑制できる。さらに、操作に応じて、発話の内容を示すタグ６３１ａが、ユーザー画像６２１が表示される第１領域６４とは別の第２領域６５に表示される。このため、会議で発話された内容のうち、特定の内容を他のユーザーＵに注目させることができる。これにより、会議システム１００を利用する会議を、円滑に進行させることができる。例えば、会議に参加するユーザーＵに、タグ６３１を見せることによって会議の内容を正確に認識させることができ、第２領域６５に保留タグ６５１ａを表示することによって、特定の内容についての議論を深めることができる。

上記表示方法において、第１端末１Ａが第１ディスプレイ１４の表示領域に第１領域６４および第２領域６５を表示させる。そして、第１端末１Ａが、第１ディスプレイ１４の第１領域６４に表示させたタグ６３１ａを第２領域６５に移動させる入力ＯＰ１を受け付けた場合に、第１ディスプレイ１４によってタグ６３１ａを第２領域６５に保留タグ６５１ａとして表示させてもよい。この場合、第１端末１Ａを使用するユーザーＵ１は、ユーザーＵ１の発話の内容を示すタグ６３１ａを第２領域６５に移動させ、他のユーザーＵ２Ａ、Ｕ２Ｂ、Ｕ３を、ユーザーＵ１の発話の内容に着目させることができる。これにより、ユーザーＵ１は、ユーザーＵ１が発話した内容を繰り返し発話することなく、その内容について議論を継続できるので、会議をより円滑に進行させることができる。

上記表示方法において、タグ６３１ａとタグ６３１ｂを第１領域６４に表示することは、第３端末１Ｃが有する第３ディスプレイ３４の表示領域に第１領域６４を表示することを含む。タグ６３１ａを第２領域６５に表示することは、第３端末１Ｃが、タグ６３１ａを第２領域６５に移動させる操作を受け付けた場合に、タグ６３１ａを第２領域６５に保留タグ６５１ａとして表示させることを含む。
この場合、第３端末１Ｃを使用するユーザーＵ３は、ユーザーＵ１の発話の内容を示すタグ６３１ａを第２領域６５に移動させ、他のユーザーＵ１、Ｕ２Ａ、Ｕ２Ｂを、ユーザーＵ１の発話の内容に着目させることができる。これにより、ユーザーＵ１が発話した内容をユーザーＵ１或いはユーザーＵ３が繰り返し発話しなくても、その内容について議論を継続できるので、会議をより円滑に進行させることができる。

上記表示方法において、第１端末１Ａがマイク１７により検出した第１音声と第２端末１Ｂがマイク２７により検出した第２音声とが重複しない場合に、第１領域６４にタグ６３１ａ、６３１ｂを表示しなくてもよい。この場合、第１領域６４における表示を簡素化することにより、ユーザーＵが音声の聞き取りに集中しやすくなる効果や、ユーザー画像６２１に注目しやすくなる効果が期待できる。

上記表示方法において、タグ６３１ａをユーザー画像６２１ａと対応付けて表示することは、ユーザー画像６２１ａにタグ６３１ａを重ねて表示することを含む。また、タグ６３１ｂをユーザー画像６２１ｂと対応付けて表示することは、ユーザー画像６２１ｂにタグ６３１ｂを重ねて表示することを含む。ユーザー画像６２１とタグ６３１とが重ねて表示されるので、発話の内容を示すタグ６３１と、発話を行ったユーザーＵのユーザー画像６２１との対応が、分かりやすいので、会議をより円滑に進行させることができる。

上記表示方法は、タグ６３１ａが表示された後、第１端末１Ａが新たな第１音声を検出した場合に、第１領域６４に表示されたタグ６３１ａを、新たな第１音声の内容に基づく新たなタグ６３１ａに更新することと、第２領域６５に表示された保留タグ６５１ａを更新しないことと、を含む。これにより、ユーザーＵの発話に応じて第１領域６４のタグ６３１を更新することにより、第１領域６４の表示を、会議の進行に追従させることができる。このため、会議をより円滑に進行させることができる。さらに、第２領域６５の保留タグ６５１を、発話に応じて更新しないので、特定の発話の内容を継続してユーザーＵに見せることができる。このため、特定の内容について議論を継続しやすくする効果が期待できる。

上記表示方法は、第２領域６５に表示された保留タグ６５１ａを選択する選択操作である入力ＯＰ２を第２端末１Ｂによって受け付けることを含む。また、第２端末１Ｂが入力ＯＰ２を受け付けた場合に、入力ＯＰ２の後に第２端末１Ｂがマイク２７によって検出する第２音声の内容を示す保留タグ６５１ｂを、第２領域６５に表示することを含む。これにより、第２領域６５に表示された保留タグ６５１に関連付けてユーザーＵが発話を行い、この発話の内容を第２領域６５に表示させることができる。従って、特定の内容について議論を行うことが容易であるため、会議をより円滑に進行させることができる。

上記表示方法は、選択操作の後に、第２領域６５に表示された保留タグ６５１ａの選択を解除する解除操作を第２端末１Ｂによって受け付ける。第２端末１Ｂによって解除操作を受け付けた場合に、解除操作の後に第２端末１Ｂが検出する第２音声の内容を示すタグ６３１ｂを、ユーザー画像６２１ｂと対応付けて第１領域６４に表示する。これにより、保留タグ６５１の選択を解除することができる。このため、会議の進行中に、発話の内容を保留タグ６５１として表示させる動作と、保留タグ６５１として表示させない動作とを切り替え可能である。これにより、特定の内容についての議論と、会議の全体の議論とを使い分けることができ、より一層の利便性の向上を図ることができる。

上記表示方法は、選択操作の後に、第２領域６５に表示された第１テキスト画像の選択を解除する解除操作を第２端末１Ｂによって受け付ける。上記表示方法は、第２端末１Ｂによって解除操作を受け付けた場合に、解除操作の後に第２端末１Ｂが検出する第２音声の内容を示すテキスト画像を表示しない方法であってもよい。この場合、保留タグ６５１の選択を解除することができる。このため、会議の進行中に、発話の内容を保留タグ６５１として表示させる動作と、保留タグ６５１として表示させない動作とを切り替え可能である。さらに、保留タグ６５１の選択を解除した後の会議画面６２の表示を簡素化できる。

上記表示方法において、タグ６３１を第１領域６４の外に向けて移動させる操作である入力ＯＰ１を受け付けた場合に、第２領域６５の表示を開始してもよい。この場合、入力ＯＰ１が行われるまで、第１ディスプレイ１４、第２ディスプレイ２４或いは第３ディスプレイ３４の表示領域を第１領域６４の表示に利用できる。従って、会議をより円滑に進行させることができる。

上記表示方法は、第２端末１Ｂがマイク２７によって第１音声と第３音声とを取得することを含む。さらに、上記表示方法は、第１音声の内容を示すタグ６３１ｂを第１の視覚表現で表示し、第３音声の内容を示すタグ６３１ｃを第１の視覚表現とは異なる第２の視覚表現で表示することを含む。このため、複数のユーザーＵの音声に対応するタグ６３１が、ユーザーＵ毎に、異なる視覚表現で表示される。このため、複数のタグ６３１が、異なるユーザーＵが発話した内容であるのか、１人のユーザーＵが発話した内容であるのかを、他のユーザーＵが視覚的に知ることができる。

表示装置としての第３端末１Ｃは、第３ディスプレイ３４と、第３ディスプレイ３４を制御する第３制御回路３１と、を含む。第３制御回路３１は、第３ディスプレイ３４を制御することによって、第１端末１Ａに対応するユーザー画像６２１ａと、第２端末１Ｂに対応するユーザー画像６２１ｂとを並べて第１領域６４に表示することと、第１端末１Ａが検出した第１音声と、第２端末１Ｂが検出した第２音声とが重複した場合に、第３ディスプレイ３４を制御することによって、第１音声の内容を示す第１テキスト画像であるタグ６３１ａをユーザー画像６２１ａと対応付けて表示し、かつ、第２音声の内容を示す第２テキスト画像であるタグ６３１ｂをユーザー画像６２１ｂと対応付けて第１領域６４に表示することと、タグ６３１ａを、第１領域６４とは異なる第２領域６５に移動させる入力ＯＰ１を受け付けた場合に、第３ディスプレイ３４を制御することによって、タグ６３１ａに対応する保留タグ６５１ａを第２領域６５に表示することと、を実行する。

これにより、第１端末１Ａが集音した音声と第２端末１Ｂが集音した音声とが重複した場合に、第３端末１Ｃの第３ディスプレイ３４に、ユーザー画像６２１ａと対応付けてタグ６３１ａが表示され、ユーザー画像６２１ｂと対応付けてタグ６３１ｂが表示される。このため、発話が重複して聞きにくくなった場合であっても、発話の内容をユーザーＵ３が視覚により認識できるので、発話のやり直しの要求など、会議の遅延を招く事象を抑制できる。さらに、入力ＯＰ１に応じて、発話の内容を示すタグ６３１ａが、ユーザー画像６２１が表示される第１領域６４とは別の第２領域６５に表示される。このため、ユーザーＵ３が入力ＯＰ１を行うことによって、会議で発話された特定の内容を、他のユーザーＵ１、Ｕ２Ａ、Ｕ２Ｂに注目させることができる。これにより、会議システム１００を利用する会議を、円滑に進行させることができる。例えば、会議に参加するユーザーＵに、タグ６３１を見せることによって会議の内容を正確に認識させることができ、第２領域６５に保留タグ６５１ａを表示することによって、特定の内容についての議論を深めることができる。

会議システム１００は、マイク１７を有する第１端末１Ａと、マイク２７を有する第２端末１Ｂと、第３ディスプレイ３４を有する第３端末１Ｃと、を含む。第３端末１Ｃは、第３ディスプレイ３４の第１領域６４に、第１端末１Ａに対応するユーザー画像６２１ａと、第２端末１Ｂに対応するユーザー画像６２１ｂとを並べて表示する。第３端末１Ｃは、第１端末１Ａがマイクにより検出した第１音声の内容を示すタグ６３１ａをユーザー画像６２１ａと対応付けて第１領域６４に表示し、かつ、第２端末１Ｂがマイク２７により検出した第２音声の内容を示すタグ６３１ｂをユーザー画像６２１ｂと対応付けて表示する。タグ６３１ａを第１領域６４から第３ディスプレイ３４の第２領域６５に移動させる操作である入力ＯＰ１を受け付けた場合に、第２領域６５に保留タグ６５１ａを表示する。

これにより、第１端末１Ａが集音した音声と第２端末１Ｂが集音した音声とが重複した場合に、第３ディスプレイ３４の第１領域６４に、ユーザー画像６２１ａと対応付けてタグ６３１ａが表示され、ユーザー画像６２１ｂと対応付けてタグ６３１ｂが表示される。このため、発話が重複して聞きにくくなった場合であっても、発話の内容をユーザーＵ３が視覚により認識できるので、発話のやり直しの要求など、会議の遅延を招く事象を抑制できる。さらに、入力ＯＰ１に応じて、発話の内容を示すタグ６３１ａが、ユーザー画像６２１が表示される第１領域６４とは別の第２領域６５に表示される。これにより、会議システム１００を利用する会議を、円滑に進行させることができる。例えば、会議に参加するユーザーＵに、タグ６３１を見せることによって会議の内容を正確に認識させることができ、第２領域６５に保留タグ６５１ａを表示することによって、特定の内容についての議論を深めることができる。

会議システム１００において、第３端末１Ｃがタグ６３１ａをユーザー画像６２１ａと対応付けて第１領域６４に表示し、かつ、第２端末１Ｂがマイク２７により検出した第２音声の内容を示すタグ６３１ｂをユーザー画像６２１ｂと対応付けて表示する場合に、第２端末１Ｂは、第２ディスプレイ２４の第１領域６４にユーザー画像６２１ａを表示し、第１端末１Ａが検出した第１音声の内容を示すタグ６３１ａを、ユーザー画像６２１ａと対応付けて第１領域６４に表示してもよい。
この場合、第３ディスプレイ３４の第１領域６４にユーザー画像６２１ａとタグ６３１ａとが表示され、第２ディスプレイ２４の第１領域６４にユーザー画像６２１ａとタグ６３１ａとが対応付けて表示される。これにより、会議システム１００による会議に参加する複数のユーザーＵが、ディスプレイの第１領域６４に表示されるユーザー画像６２１ａ及びタグ６３１ａにより、発話を行ったユーザーＵと、発話の内容とを視認できる。このため、会議で発話された内容を他のユーザーＵと共有できるので、会議を円滑に進行させることができる。

会議システム１００において、第３端末１Ｃによって、タグ６３１ａを第１領域６４から第３ディスプレイ３４の第２領域６５に移動させる操作である入力ＯＰ１を受け付けた場合に、第３端末１Ｃが第２領域６５に保留タグ６５１ａを表示し、第２端末１Ｂは第２ディスプレイ２４の第２領域６５にタグ６３１ａに対応する保留タグ６５１ａを表示してもよい。
この場合、入力ＯＰ１に応じて、発話の内容を示すタグ６３１ａが第３ディスプレイ３４の第２領域６５に表示され、タグ６３１ａが第２ディスプレイ２４の第２領域６５に表示される。このため、入力ＯＰ１を契機として、会議で発話された特定の内容を、会議システム１００の会議に参加する複数のユーザーＵで共有し、互いに注目させることができる。これにより、会議システム１００を利用する会議を、円滑に進行させることができる。例えば、会議に参加するユーザーＵに、タグ６３１を見せることによって会議の内容を正確に認識させることができ、第２領域６５に保留タグ６５１ａを表示することによって、特定の内容についての議論を深めることができる。

［５．他の実施形態］
上記各実施形態は本発明を適用した一具体例を示すものであり、本発明はこれに限定されるものではない。
例えば、上記実施形態では、図２に示したように、端末１から映像データＤ１、音声データＤ２及び操作データＤ３を受信し、表示データＤ４及び統合音声データＤ５を生成および送信する機能を、サーバー５０が実行する例を説明した。本開示の構成はこれに限定されない。例えば、第１端末１Ａ、第２端末１Ｂ、及び第３端末１Ｃのいずれかが、サーバー５０の機能を実行してもよい。すなわち、サーバー制御回路５１が有する通信制御部５２１、端末識別部５２２、音声解析部５２３、表示データ生成部５２４及びデータ処理部５２５と同等の機能部を、第１端末１Ａ、第２端末１Ｂ、及び第３端末１Ｃのいずれかが有する構成であってもよい。また、第１端末１Ａが音声解析部５２３と同様の機能を備え、マイク１７により検出した音声を解析してテキストデータを生成し、音声データＤ２Ａにテキストデータを含めてサーバー５０に送信する構成であってもよい。この場合、サーバー５０は、音声データＤ２Ａを解析してテキストデータを生成する処理を省略できる。また、第２端末１Ｂ、第３端末１Ｃも同様の構成とすることができる。

また、第２端末１Ｂが音声解析部５２３と同様の機能を備え、マイク２７により検出した音声に、ユーザーＵ２Ａが発話した音声とユーザーＵ２Ｂが発話した音声とが含まれるか否かを解析し、判定する構成であってもよい。この場合、第２端末１Ｂは、マイク２７により検出した音声からテキストデータを生成し、生成したテキストデータを、発話者であるユーザーＵ２ＡとユーザーＵ２Ｂに対応付ける処理を行う。第２端末１Ｂは、音声データＤ２Ｂに、マイク２７により検出した音声のテキストデータと、各々のテキストデータとユーザーＵ２Ａ、Ｕ２Ｂとの対応を示すデータとを含めてサーバー５０に送信する。この場合、サーバー５０は、音声データＤ２Ｂを解析して、発話したユーザーＵを識別する処理を省略できる。

サーバー５０が端末１に送信する表示データＤ４の内容やデータフォーマットは制限されない。例えば、表示データＤ４Ａは、第１ディスプレイ１４に表示される会議画面６１、６２のデータであってもよい。また、表示データＤ４Ａは、第１端末１Ａが会議画面６１、６２を表示するために必要なデータであり、第１端末１Ａは、表示データＤ４Ａに基づき会議画面６１、６２のデータを生成する処理を行ってもよい。表示データＤ４Ｂ、表示データＤ４Ｃについても同様である。

また、図４に示した各機能部は、機能的構成を示すものであって、具体的な実装形態を制限しない。例えば、サーバー５０が、サーバー制御回路５１の各機能部に個別に対応するハードウェアを実装する必要はなく、一つのプロセッサーがプログラムを実行することで複数の機能部の機能を実現する構成とすることも勿論可能である。また、上記施形態においてソフトウェアで実現される機能の一部をハードウェアで実現してもよく、或いは、ハードウェアで実現される機能の一部をソフトウェアで実現してもよい。その他、会議システム１００の他の各部の具体的な細部構成についても、趣旨を逸脱しない範囲で任意に変更可能である。

また、例えば、図５に示す動作のステップ単位は、会議システム１００の動作の理解を容易にするために、主な処理内容に応じて分割したものであり、処理単位の分割の仕方や名称によって、本開示が限定されることはない。処理内容に応じて、多くのステップ単位に分割してもよい。また、１つのステップ単位が多くの処理を含むように分割してもよい。また、そのステップの順番は、本開示の趣旨に支障のない範囲で適宜に入れ替えてもよい。

１…端末、１Ａ…第１端末、１Ｂ…第２端末、１Ｃ…第３端末（表示装置）、１１…第１制御回路、１２…プロセッサー、１３…メモリー、１４…第１ディスプレイ（ディスプレイ）、１５…入力装置、１５ａ…キーボード、１５ｂ…マウス、１６…カメラ、１７…マイク（第１マイク）、１８…スピーカー、１９…通信装置、２１…第２制御回路、２２…プロセッサー、２３…メモリー、２４…第２ディスプレイ（ディスプレイ）、２５…入力装置、２５ａ…キーボード、２６…カメラ、２７…マイク（第２マイク）、２８…スピーカー、２９…通信装置、３１…第３制御回路（制御回路）、３２…プロセッサー、３３…メモリー、３４…第３ディスプレイ（ディスプレイ）、３５…入力装置、３５ａ…キーボード、３６…カメラ、３７…マイク、３８…スピーカー、３９…通信装置、５０…サーバー、５１…サーバー制御回路、５２…プロセッサー、５３…メモリー、５４…通信装置、６１…会議画面、６２…会議画面、６４…第１領域、６５…第２領域、１００…会議システム（表示システム）、５３２…議事録データ、６２１、６２１ｃ、６２１ｄ…ユーザー画像、６２１ａ…ユーザー画像（第１画像）、６２１ｂ…ユーザー画像（第２画像）、６３１、６３１ａ、６３１ｂ、６３１ｃ、６３１ｄ…タグ（第１テキスト画像、第２テキスト画像）、６５１、６５１ａ、６５１ｂ…保留タグ（第１テキスト画像、第２テキスト画像）、Ｄ１、Ｄ１Ａ、Ｄ１Ｂ、Ｄ１Ｃ…映像データ、Ｄ２、Ｄ２Ａ、Ｄ２Ｂ、Ｄ２Ｃ…音声データ、Ｄ３、Ｄ３Ａ、Ｄ３Ｂ、Ｄ３Ｃ…操作データ、Ｄ４、Ｄ４Ａ、Ｄ４Ｂ、Ｄ４Ｃ…表示データ、Ｄ５、Ｄ５Ａ、Ｄ５Ｂ、Ｄ５Ｃ…統合音声データ、ＯＰ１…入力、ＯＰ２…入力（選択操作）、Ｓ、Ｓ１、Ｓ２、Ｓ３…拠点、Ｕ、Ｕ１、Ｕ２Ａ、Ｕ２Ｂ、Ｕ３…ユーザー、Ｖ１…発話。

Claims

第１端末に対応する第１画像と、第２端末に対応する第２画像とを並べて第１領域に表示することと、
前記第１端末が検出した第１音声と、前記第２端末が検出した第２音声とが重複した場合に、前記第１音声の内容を示す第１テキスト画像を前記第１画像と対応付けて前記第１領域に表示し、かつ、前記第２音声の内容を示す第２テキスト画像を前記第２画像と対応付けて前記第１領域に表示することと、
前記第１テキスト画像を、前記第１領域とは異なる第２領域に移動させる操作を受け付けた場合に、前記第１テキスト画像を前記第２領域に表示することと、
を含む、表示方法。
前記第１テキスト画像及び前記第２テキスト画像を前記第１領域に表示することは、第３端末が有するディスプレイに前記第１領域を表示することを含み、
前記第１テキスト画像を前記第２領域に表示することは、前記第３端末が、前記第１テキスト画像を前記第２領域に移動させる操作を受け付けた場合に、前記第１テキスト画像を前記第２領域に表示させることを含む、請求項１に記載の表示方法。
前記第１テキスト画像を前記第１画像と対応付けて表示することは、前記第１画像に前記第１テキスト画像を重ねて表示することを含み、
前記第２テキスト画像を前記第２画像と対応付けて表示することは、前記第２画像に前記第２テキスト画像を重ねて表示することを含む、請求項１または請求項２に記載の表示方法。
前記第１領域に前記第１テキスト画像が表示された後、前記第１端末が新たな前記第１音声を検出した場合に、前記第１領域に表示された前記第１テキスト画像を、前記新たな前記第１音声の内容に基づく新たな前記第１テキスト画像にすることと、
前記第２領域に表示された前記第１テキスト画像を更新しないことと、を含む、請求項１から請求項３のいずれか１項に記載の表示方法。
前記第２領域に表示された前記第１テキスト画像を選択する選択操作を前記第２端末によって受け付けた場合に、前記選択操作の後に前記第２端末が検出する前記第２音声の内容を示す前記第２テキスト画像を、前記第２領域に表示する、請求項１から請求項４のいずれか１項に記載の表示方法。
前記選択操作の後に、前記第２領域に表示された前記第１テキスト画像の選択を解除する解除操作を前記第２端末によって受け付けた場合に、前記解除操作の後に前記第２端末が検出する前記第２音声の内容を示す前記第２テキスト画像を、前記第２画像と対応付けて前記第１領域に表示する、請求項５に記載の表示方法。
前記選択操作の後に、前記第２領域に表示された前記第１テキスト画像の選択を解除する解除操作を前記第２端末によって受け付けた場合に、前記解除操作の後に前記第２端末が検出する前記第２音声の内容を示す前記第２テキスト画像を表示しない、請求項５に記載の表示方法。
前記第１テキスト画像を、前記第１領域の外に向けて移動させる操作を受け付けた場合に、前記第２領域の表示を開始する、請求項１から請求項７のいずれか１項に記載の表示方法。
前記第１端末がマイクによって第１音声と第３音声とを取得することと、
前記第１音声の内容を示す前記第１テキスト画像を第１の視覚表現で表示し、かつ、前記第３音声の内容を示す第３テキスト画像を前記第１の視覚表現とは異なる第２の視覚表現で表示することと、をさらに含む、請求項１から請求項８のいずれか１項に記載の表示方法。
ディスプレイと、
前記ディスプレイを制御する制御回路と、を含み、
前記制御回路は、
前記ディスプレイを制御することによって、第１端末に対応する第１画像と、第２端末に対応する第２画像とを並べて第１領域に表示することと、
前記第１端末が検出した第１音声と、前記第２端末が検出した第２音声とが重複した場合に、前記ディスプレイを制御することによって、前記第１音声の内容を示す第１テキスト画像を前記第１画像と対応付けて前記第１領域に表示し、かつ、前記第２音声の内容を示す第２テキスト画像を前記第２画像と対応付けて前記第１領域に表示することと、
前記第１テキスト画像を、前記第１領域とは異なる第２領域に移動させる操作を受け付けた場合に、前記ディスプレイを制御することによって、前記第１テキスト画像を前記第２領域に表示することと、
を実行する、表示装置。
第１マイクを有する第１端末と、
第２マイクを有する第２端末と、
ディスプレイを有する第３端末と、を含み、
前記第３端末は、
前記ディスプレイの第１領域に、前記第１端末に対応する第１画像と、前記第２端末に対応する第２画像とを並べて表示し、
前記第１端末が第１マイクにより検出した第１音声の内容を示す第１テキスト画像を前記第１画像と対応付けて前記第１領域に表示し、かつ、前記第２端末が第２マイクにより検出した第２音声の内容を示す第２テキスト画像を前記第２画像と対応付けて表示し、
前記第１テキスト画像を、前記第１領域から前記ディスプレイの第２領域に移動させる操作を受け付けた場合に、前記第２領域に前記第１テキスト画像を表示する、表示システム。