JP2024072688A

JP2024072688A - 音声再生制御システム、音声再生制御方法および音声再生制御プログラム

Info

Publication number: JP2024072688A
Application number: JP2022183671A
Authority: JP
Inventors: 晃洋永田; Akihiro Nagata
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2024-05-28
Also published as: US20240163374A1

Abstract

【課題】複数の音声を識別可能な状態で並行して再生する。【解決手段】音声再生制御システムは、音声データを音声で再生する音声再生部１７と、音声データを文字に変換して再生する文字再生部１９と、第１音声データと第２音声データを並行して再生する並行再生制御部１５と、を備え、並行再生制御部１５は、第１音声データを文字再生部１９により再生するとともに音声再生部１７による再生をＯＦＦまたは第２音声データより小さい音量で再生し、第２音声データを音声再生部１７により再生する。【選択図】図４

Description

この発明は、音声再生制御システム、音声再生制御方法および音声再生制御プログラムに関し、特に、複数種類の音声を再生するのに適した音声再生制御システム、その音声再生制御システムで実行される音声再生制御方法およびその音声再生制御方法をコンピューターに実行させる音声再生制御プログラムに関する。

近年、離れた場所に位置する複数のユーザーがコンピューターを介して会議等の通話する音声通話システムが普及している。例えば、特開２０２１－１８４１８９号公報には、複数の端末とネットワークで接続され、前記端末間でのオンライン会議を実現するオンライン会議システムであって、複数の前記端末間で音声データおよび画像データを相互に配信する配信制御部を有し、前記配信制御部は、前記オンライン会議中に、いずれかの前記端末から、該端末を含む前記複数の端末の一部を特定端末として指定し、該特定端末の間でのみ会話を行う限定会話指示を受けた場合は、該特定端末との間で授受される音声データを、その他の端末で再生可能な状態で配信することを禁止する限定配信を行うオンライン会議システムが開示されている。

しかしながら、特開２０２１－１８４１８９号公報に記載のオンライン会議システムにおいては、限定会話を指示した参加者は、オンライン会議における会話を音声で聞かなければならず、限定会話の会話とオンライン会議の会話とのいずれであるかを音声で識別しなければならない。このため、限定会話を指示した参加者は、音声の識別が困難な場合は、限定会話の会話とオンライン会議の会話とを区別することが困難な場合がある。

特開２０２１－１８４１８９号公報

この発明の目的の１つは、複数の音声を識別可能な状態で並行して再生することが可能な音声再生制御システムを提供することである。

この発明の他の目的は、複数の音声を識別可能な状態で並行して再生することが可能な音声再生制御方法を提供することである。

この発明のさらに他の目的は、複数の音声を識別可能な状態で並行して再生することが可能な音声再生制御プログラムを提供することである。

この発明のある局面によれば、音声再生制御システムは、音声データを音声で再生する音声再生手段と、音声データを文字に変換して再生する文字再生手段と、第１音声データと第２音声データを並行して再生する並行再生制御手段と、を備え、並行再生制御手段は、第１音声データを文字再生手段により再生するとともに音声再生手段による再生をＯＦＦまたは第２音声データより小さい音量で再生し、第２音声データを音声再生手段により再生する。

この発明の他の局面によれば、音声再生制御方法は、音声データを音声で再生する音声再生ステップと、音声データを文字に変換して再生する文字再生ステップと、第１音声データと第２音声データを並行して再生する並行再生制御ステップと、を音声再生制御装置に実行させ、並行再生制御ステップは、第１音声データを文字再生ステップにおいて再生させるとともに音声再生ステップにおいて再生しないまたは第２音声データより小さい音量で再生させ、第２音声データを音声再生ステップにおいて再生させる。

この発明のさらに他の局面によれば、音声再生制御プログラムは、音声データを音声で再生する音声再生ステップと、音声データを文字に変換して再生する文字再生ステップと、第１音声データと第２音声データを並行して再生する並行再生制御ステップと、をコンピューターに実行させ、並行再生制御ステップは、第１音声データを文字再生ステップにおいて再生させるとともに音声再生ステップにおいて再生しないまたは第２音声データより小さい音量で再生させ、第２音声データを音声再生ステップにおいて再生させる。

本発明の実施の形態の１つにおけるリモート会議システムのシステム構成の一例を示す図である。サーバーのハードウェア構成の一例を示すブロック図である。ＰＣのハードウェア構成の一例を示すブロック図である。本実施の形態におけるサーバーが備えるＣＰＵが有する機能の一例を示す図である。本実施の形態におけるＰＣが備えるＣＰＵが有する機能の一例を示す図である。操作画面の一例を示す第１の図である。招待指示画面の一例を示す図である。招待受付画面の一例を示す第１の図である。並行再生画面の一例を示す第１の図である。並行再生画面の一例を示す第２の図である。並行再生画面の一例を示す第３の図である。並行再生画面の一例を示す第４の図である。操作画面の一例を示す第２の図である。並行再生画面の一例を示す第５の図である。招待受付画面の一例を示す第２の図である。音声再生制御処理の流れの一例を示すフローチャートである。第１並行通話制御処理の流れの一例を示すフローチャートである。第２並行通話制御処理の流れの一例を示すフローチャートである。変形例におけるサーバーが備えるＣＰＵが有する機能の一例を示す図である。変形例におけるＰＣが備えるＣＰＵが有する機能の一例を示す図である。

以下、本発明の実施の形態について図面を参照して説明する。以下の説明では同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがってそれらについての詳細な説明は繰返さない。

図１は、本発明の実施の形態の１つにおけるリモート会議システムのシステム構成の一例を示す図である。リモート会議システム１は、音声再生制御システムの一例である。図１を参照して、リモート会議システム１は、サーバー１００と、パーソナルコンピューター（以下「ＰＣ」という）２００－１，２００－２，２００－３，２００－４～２００－Ｎとを含む。但し、Ｎは、正の整数であり、ここでは５以上である。サーバー１００およびＰＣ２００－１～Ｎそれぞれは、インターネット５に接続され、互いに通信可能である。

ＰＣ２００－１～Ｎそれぞれは、カメラ、音声を集音するマイクロホン、音を出力するスピーカーを備えている。ＰＣ２００－１～Ｎそれぞれは、一般的なコンピューターであり、その主なハードウェア構成および機能は同じである。

なお、ＰＣ２００－１～Ｎに代えて、カメラ、マイクロホン、スピーカーおよび通信機能を備えた装置であれば、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｃｅ）またはスマートフォン等の情報通信装置であってもよい。また、インターネット５に限らず、サーバー１００およびＰＣ２００－１～Ｎが互いに通信可能であれば他のネットワークであってもよい。ネットワークとしては、例えば、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）であってもよい。

リモート会議システム１において、会議の参加者がＰＣ２００－１～Ｎのいずれかを操作して会議に参加する。以下、ＰＣ２００－１～Ｎのうち任意の１つをＰＣ２００という。

ＰＣ２００－１～Ｎそれぞれには、会議に参加するためのプログラムがインストールされており、ＰＣ２００－１～Ｎそれぞれがサーバー１００と通信することによって、会議が開催される。ＰＣ２００－１～Ｎそれぞれにインストールされるプログラムは、サーバー１００と通信するための専用のプログラムの他、サーバー１００がＷｅｂサービスを提供している場合には、一般的なブラウザプログラムであってもよい。

サーバー１００は、音声再生制御プログラムを実行することによりリモート会議システムが実現される。サーバー１００は、ＰＣ２００－１～Ｎと通信し、ＰＣ２００－１～Ｎそれぞれから受信するデータを他のＰＣ２００－１～Ｎそれぞれに送信する。

ＰＣ２００－１～Ｎそれぞれとサーバー１００との間で送受信されるデータは、音声を示す音声データ、画像を示す画像データおよびアプリケーションデータを含む。画像は、静止画像と動画像を含む。ＰＣ２００－１～Ｎそれぞれとサーバー１００との間で送受信されるデータは、圧縮されたデータであってもよいし、圧縮されていないデータであってもよい。

サーバー１００は、ＰＣ２００－１～Ｎそれぞれに送信するデータを統括する。例えば、サーバー１００は、ＰＣ２００－１～Ｎそれぞれから受信される音声のデータを、ＰＣ２００－１～Ｎすべてに送信することが可能である。また、サーバー１００は、画像データについては、ＰＣ２００－１～Ｎそれぞれから受信される画像のデータを集約し、ＰＣ２００－１～Ｎそれぞれに送信することが可能である。

サーバー１００は、ＰＣ２００－１～Ｎそれぞれからの要求に応じて、送信する音声データ、画像データおよびアプリケーションデータを決定し、送信する。したがって、ＰＣ２００－１～Ｎそれぞれに表示される画像は、同じ場合もあれば異なる場合があり、ＰＣ２００－１～Ｎそれぞれから出力される音声は、同じ場合もあれば異なる場合がある。なお、ＰＣ２００－１～Ｎそれぞれが、サーバー１００から受信される複数の音声データを加工して、出力してもよい。この場合、サーバー１００で音声データを加工する処理が不要になるので、負荷が低減する。また、ＰＣ２００－１～Ｎそれぞれが、サーバー１００から受信される複数の画像データを加工して、表示してもよい。この場合、サーバー１００で複数の画像データを加工する処理が不要になるので、負荷が低減する。

図２は、サーバーのハードウェア構成の一例を示すブロック図である。図２を参照して、サーバー１００は、演算処理を行うコンピューターであり、それぞれがバス１１３に接続された、サーバー１００の全体を制御するための中央演算装置（ＣＰＵ）１０１と、ＣＰＵ１０１が実行するためのプログラムを記憶するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０２と、ＣＰＵ１０１の作業領域として使用されるＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０３と、データを不揮発的に記憶するＨＤＤ１０４と、ＣＰＵ１０１をインターネット５に接続する通信部１０５と、画像を表示する表示部１０６と、操作の入力を受け付ける操作部１０７と、外部記憶装置１１０と、を含む。

通信部１０５は、サーバー１００をインターネット５に接続するためのインターフェースである。このため、ＣＰＵ１０１は、通信部１０５を介して、インターネット５に接続されたＰＣ２００－１～１００Ｎと通信可能である。

外部記憶装置１１０は、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１１１が装着される。ＣＰＵ１０１は、外部記憶装置１１０を制御して、ＣＤ－ＲＯＭ１１１に記憶されたデータを読み出す。

本実施の形態においては、ＣＰＵ１０１は、ＲＯＭ１０２またはＨＤＤ１０４に記憶されたプログラムを実行する。また、ＣＰＵ１０１は、外部記憶装置１１０を制御して、ＣＤ－ＲＯＭ１１１からＣＰＵ１０１が実行するためのプログラムを読出し、読み出したプログラムをＲＡＭ１０３に記憶して実行してもよい。

さらに、ＣＰＵ１０１は、インターネット５に接続されたコンピューターからプログラムをダウンロードしてＨＤＤ１０４に記憶する。また、インターネット５に接続されたコンピューターがプログラムをＨＤＤ１０４に書込みする場合に、ＨＤＤ１０４にプログラムが記憶される。ＣＰＵ１０１は、ＨＤＤ１０４に記憶されたプログラムをＲＡＭ１０３にロードして実行してもよい。

なお、ＣＰＵ１０１が実行するためのプログラムを記憶する記録媒体としては、ＣＤ－ＲＯＭ１１１に限られず、フレキシブルディスク、カセットテープ、光ディスク（ＭＯ（ＭａｇｎｅｔｉｃＯｐｔｉｃａｌＤｉｓｃ）／ＭＤ（ＭｉｎｉＤｉｓｃ）／ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ））、ＩＣカード、光カード、マスクＲＯＭ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）等の半導体メモリ等の媒体でもよい。ここでいうプログラムは、ＣＰＵ１０１により直接実行可能なプログラムだけでなく、ソースプログラム、圧縮処理されたプログラム、暗号化されたプログラム等を含む。

図３は、ＰＣのハードウェア構成の一例を示すブロック図である。図３を参照して、ＰＣ２００は、演算処理を行うコンピューターであり、それぞれがバス２１２に接続された、ＰＣ２００の全体を制御するためのＣＰＵ２０１と、ＣＰＵ２０１が実行するためのプログラムを記憶するＲＯＭ２０２と、ＣＰＵ２０１の作業領域として使用されるＲＡＭ２０３と、データを不揮発的に記憶するＨＤＤ２０４と、ＣＰＵ２０１をインターネット５に接続する通信部２０５と、画像を表示する表示部２０６と、ユーザーである参加者による操作の入力を受け付ける操作部２０７と、参加者を撮像するカメラ２０８と、音声を出力するスピーカー２０９と、操作者の音声を集音するマイクロホン２１０と、外部記憶装置２１１と、を含む。

外部記憶装置２１１は、ＣＤ－ＲＯＭ２１１Ａが装着される。ＣＰＵ２０１は、外部記憶装置２１１を制御して、ＣＤ－ＲＯＭ２１１Ａに記憶されたデータを読み出す。

カメラ２０８、スピーカー２０９およびマイクロホン２１０の少なくとも２つが一体となったモジュールがＰＣ２００に接続されてもよい。モジュールは、例えば、スピーカー２０９およびマイクロホン２１０が一体となったヘッドセットを含む。

図４は、本実施の形態におけるサーバーが備えるＣＰＵが有する機能の一例を示す図である。図４に示す機能は、サーバー１００が備えるＣＰＵ１０１が、ＲＯＭ１０２、ＨＤＤ１０４またはＣＤ－ＲＯＭ１１１に記憶された端末側音声再生制御プログラムを実行することにより、ＣＰＵ１０１により実現される機能である。端末側音声再生制御プログラムは、音声再生制御プログラムの一部である。図４を参照して、ＣＰＵ１０１は、通話部１１と、並行通話制御部１３と、並行再生制御部１５と、音声再生部１７と、文字再生部１９と、を含む。

通話部１１は、複数ユーザー間における通話を制御する。通話部１１は、２以上のユーザーからなるグループにおいて、グループに属する２以上のユーザー間における通話を可能とする。通話部１１は、グループに属する１のユーザーの音声をそのグループに属する他のすべてのユーザーに伝達する。通話部１１は、複数のグループそれぞれにおける通話を、別の通話とする。換言すれば、通話部１１は、１のグループにおける通話を、他のグループにおける通話と別の通話とする。したがって、１のグループにおける通話は、他のグループに属するユーザーには伝達されない。なお、複数のグループに同一のユーザーが含まれる場合がある。

通話部１１は、通話をするユーザーのグループを決定し、同一のグループに属する複数のユーザーがそれぞれ操作するＰＣを決定する。通話部１１は、同一グループに属する複数のＰＣ２００について、一のＰＣ２００から受信されるデータを、一のＰＣとは別の１以上のＰＣ２００に送信する。

以下の説明では、Ｎ人のユーザーＰ－１～ＮがＰＣ２００－１～Ｎをそれぞれ操作する場合を例に説明する。通信部１０５がＰＣ２００－１～Ｎとの間で送受信するデータは、音声データを少なくとも含む。通信部１０５がＰＣ２００－１～Ｎとの間で送受信するデータは、静止画または動画を含む画像データを含んでもよい。

例えば、ユーザーＰ－１～Ｍ（Ｍは、Ｎより小さい整数）が会議に参加する場合、通話部１１は、ユーザーＰ―１～Ｍがそれぞれ操作するＰＣ２００－１～Ｍを同一のグループに決定する。通話部１１は、通信部１０５を制御して、同一グループに属するＰＣ２００－１～Ｍのいずれか、例えばＰＣ２００－１から音声データを受信し、受信された音声データをＰＣ２００―１以外のすべてのＰＣ２００－２～Ｍに送信する。また、ユーザーＰ－１とユーザーＰ－２とが通話する場合、通話部１１は、ユーザーＰ―１，Ｐ－２がそれぞれ操作するＰＣ２００－１、２００－２を同一のグループに決定する。通話部１１は、ＰＣ２００－１とＰＣ２００－２とのいずれか一方から受信されたデータを他方に送信する。

並行通話制御部１３は、第１のグループにおける通話と第２のグループにおける通話を並行して実行する。並行通話制御部１３は、第１のグループと第２のグループとの双方に属する特定ユーザーが存在する場合に、その特定ユーザーについて、第１のグループにおける通話と第２のグループにおける通話とを並行して実行する。並行通話制御部１３は、第１グループにおける通話の音声データと、第２グループにおける通話の音声データとを、並行再生制御部１５に出力する。

なお、並行通話制御部１３は、第２のグループにおける通話を禁止する場合がる。例えば、第１のグループに属する複数のユーザーのいずれかにより、第２のグループにおける通話を禁止することが指定される場合に、第２のグループにおける通話が禁止される。並行通話制御部１３は、第２のグループにおける通話を禁止される場合、第２のグループにおける通話を禁止する。

並行再生制御部１５は、第１グループにおける通話の音声データと、第２グループにおける通話の音声データとを音声再生部１７および文字再生部１９に出力する。並行再生制御部１５は、音声再生部１７および文字再生部１９を制御して、第１のグループにおける通話の音声データと第２のグループにおける通話の音声データとを並行して再生する。

音声再生部１７は、音声データを音声で再生する。音声再生部１７は、再生した音声を並行通話制御部１３に出力する。

文字再生部１９は、音声データを文字に変換することにより音声データを再生する。具体的には、文字再生部１９は、音声データを音声認識することにより文字に変換する。文字再生部１９は、音声データから変換された文字からなる文字情報を並行通話制御部１３に出力する。文字再生部１９は、音声データから音声を発声しているユーザーを特定し、特定されたユーザーを識別するためのユーザー識別情報を付加した文字情報を並行通話制御部１３に出力してもよい。また、文字再生部１９は、音声データから変換された文字情報を他の言語に翻訳し、翻訳後の文字情報を並行通話制御部１３に出力してもよい。

並行再生制御部１５は、文字再生部１９を制御して、第１のグループにおける通話を示す第１音声データを再生させる。並行再生制御部１５は、文字再生部１９による第１音声データの再生と並行して、音声再生部１７を制御して、第２のグループにおける通話の第２音声データを再生させるとともに、第１音声データを再生させないかまたは第１音声データを第２音声データより小さい音量で再生させる。音声再生部１７は、特定ユーザーの音声については、第１のグループにおける通話ではなく、第２のグループにおける通話として扱う。このため、特定ユーザーが発声する音声は、第１音声データに含まれず、第２音声データに含まれる。

並行通話制御部１３は、特定ユーザーを識別するためのユーザー識別情報と、音声再生部１７により再生された音声の音声データと、文字再生部１９により再生された文字情報と、を通話部１１に出力する。

通話部１１は、特定ユーザーが操作するＰＣ２００に、音声データと文字情報とを送信する。なお、文字情報が送信されるのに変えて、特定ユーザーが操作するＰＣ２００に送信する画像データに文字情報が重畳されてもよい。

並行再生制御部１５は、通話部１１において第１のグループにおける通話が継続している間に、第２のグループにおける通話が開始されることに応じて、第１のグループにおける通話と第２のグループにおける通話を並行して実行する。なお、並行再生制御部１５は、通話部１１において第１のグループにおける通話が継続している間に、第２のグループにおける通話が開始された後に、特定ユーザーから並行通話の開始を示す開始指示を受け付けることに応じて、第１のグループにおける通話と第２のグループにおける通話を並行して実行してもよい。

さらに、並行再生制御部１５は、第１のグループにおける通話と第２のグループにおける通話を並行して実行している間に、特定ユーザーから切換指示を受け付ける場合に、第１グループにおける通話の再生と第２グループにおける通話の再生とを切り換えてもよい。具体的には、並行再生制御部１５は、切換指示を受け付けることに応じて、文字再生部１９を制御して第２音声データを再生させるとともに、音声再生部１７を制御して第１音声データを再生させるとともに、第２音声データを再生させないかまたは第２音声データを第１音声データより小さい音量で再生させる。

図５は、本実施の形態におけるＰＣが備えるＣＰＵが有する機能の一例を示す図である。図５に示す機能は、ＰＣ２００が備えるＣＰＵ２０１が、ＲＯＭ２０２、ＨＤＤ２０４またはＣＤ－ＲＯＭ２１１Ａに記憶された再生プログラムを実行することにより、ＣＰＵ２０１により実現される機能である。再生プログラムは、音声再生制御プログラムの一部である。図５を参照して、ＰＣ２００が備えるＣＰＵ２０１は、端末側通話部２５１と、音声入力制御部２５３と、音声出力制御部２５５と、表示制御部２５７と、画像入力制御部２５９と、を含む。

端末側通話部２５１は、ＰＣ２００を操作するユーザーと、他のユーザーとの間の通話を制御する。他のユーザーは、１以上である。端末側通話部２５１は、ＰＣ２００を操作するユーザーと１以上のユーザーからなるグループにおいて、ＰＣ２００を操作するユーザーと他の１以上のユーザーとの間の通話を可能にする。

端末側通話部２５１は、通信部２０５を制御して、サーバー１００から音声データと文字情報とを受信する。端末側通話部２５１は、サーバー１００から受信された音声データを音声出力制御部２５５に出力し、サーバー１００から受信された文字情報を表示制御部２５７に出力する。端末側通話部２５１は、サーバー１００から画像データが受信される場合、画像データの画像を表示制御部２５７に出力する。

表示制御部２５７は、端末側通話部２５１から文字情報が入力されることに応じて、表示部２０６に文字情報の画像を表示させる。表示制御部２５７は、端末側通話部２５１から画像データが入力されることに応じて、表示部２０６に画像データの画像を表示させる。また、表示制御部２５７は、端末側通話部２５１から文字情報と画像データとが入力されることに応じて、表示部２０６に文字情報の画像と画像データの画像とを表示させる。
文字情報の画像と画像データの画像とが別々に表示されてもよいし、画像データの画像に文字情報の画像が重畳して表示されてもよい。

音声出力制御部２５５は、音声データを再生する。具体的には、音声出力制御部２５５は、デジタル信号の音声データをアナログ信号に変換し、アナログの音声データをスピーカー２０９に出力する。これによりスピーカー２０９から音声データの音声が出力される。

音声入力制御部２５３は、マイクロホン２１０が出力するアナログの音声データが入力される。音声入力制御部２５３は、アナログの音声データをデジタルの音声データに変換し、変換後の音声データを端末側通話部２５１に出力する。なお、音声入力制御部２５３は、音声データを圧縮し、圧縮された音声データを端末側通話部２５１に出力してもよい。音声入力制御部２５３が端末側通話部２５１に出力する音声データは、ＰＣ２００を操作するユーザーが発した音声に対応する。

画像入力制御部２５９は、カメラ２０８が出力するアナログの画像データが入力される。画像入力制御部２５９は、アナログの画像データをデジタルの画像データに変換し、変換後の画像データを端末側通話部２５１に出力する。

端末側通話部２５１は、通信部２０５を制御して、音声入力制御部２５３から入力される音声データおよび画像入力制御部２５９から入力される画像データをサーバー１００に送信する。

以下、ユーザーＰ－１が操作するＰＣ２００－１を例に、音声再生システムの動作を説明する。

図６は、操作画面の一例を示す第１の図である。操作画面３００は、５人のユーザーＰ－１～５が会議を開催している場合にＰＣ２００―１の表示部２０６に表示される画面である。操作画面３００は、画像３０１－１～５が表示される。画像３０１－１～５は、ＰＣ２００―１～５それぞれが備えるカメラ２０８により撮像された画像である。画像３０１－１～５は、ユーザーＰ－１～５にそれぞれ対応する。この状態において、サーバー１００において、５人のユーザーＰ－１～５間の通話が第１のグループの通話として取り扱われる。

ＰＣ２００―１の表示部２０６に、操作画面３００が表示されている状態においては、サーバー１００、ＰＣ２００－１～５それぞれにおいて、再生モードは、通常モードである。ユーザーＰ－２～５それぞれが発声する音声が会議の音声として、ＰＣ２００－１のスピーカー２０９から出力される。また、ユーザーＰ－１が発声する音声はＰＣ２００―１のマイクロホン２１０で集音され、ＰＣ２００－２～５それぞれのスピーカー２０９から出力される。

ユーザーＰ－１に対応する画像３０１－１を除く他の画像３０１－２～５それぞれの右下に重畳して秘話の文字が表されたボタン３０３が表示される。ユーザーＰ－１が、画像３０１－２～５それぞれの右下に重畳して秘話の文字が表されたボタン３０３により、現在通話している会議の通話とは別の通話の相手を指定することができる。ここでは、ユーザーＰ－４に対応する画像３０１―４の右下に表示されたボタン３０３が指示された状態を、ハッチングで示している。

図７は、招待指示画面の一例を示す図である。図７を参照して、招待指示画面３０５は、ポップアップ画面であり、操作画面３００に重畳した状態で表示部２０６に表示される。招待指示画面３０５は、ユーザーＰ－１により、操作画面３００中の画像３０１―２～５それぞれの右下に表示されたボタン３０３が指示されることに応じて、表示される。図７においては、ユーザーＰ－１により、操作画面３００中の画像３０１―４の右下に表示されたボタン３０３が指示される場合に表示され招待指示画面３０５が示される。

招待指示画面３０５は、「Ｄさんと秘話を開始しますか？」のメッセージと、「はい」の文字が表されたボタンと、「いいえ」の文字が表されたボタンと、を含む。ユーザーＰ－１が「はい」の文字が表されたボタンを指示すると、ユーザーＰ－４が操作するＰＣ２００－４の表示部２０６に招待受付画面が表示される。

図８は、招待受付画面の一例を示す第１の図である。ここでは、ユーザーＰ－４が操作するＰＣ２００－４の表示部２０６に表示される操作画面３００および招待受付画面３０７が示される。図８を参照して、招待受付画面３０７は、ポップアップ画面であり、操作画面３００に重畳した状態で表示部２０６に表示される。招待受付画面３０７は、「Ａさんから秘話の要求があります。」のメッセージと、「許可」の文字が表されたボタンと、「拒否」の文字が表されたボタンと、を含む。ユーザーＰ－４が「許可」の文字が表されたボタンを指示すると、ユーザーＰ－１とユーザーＰ４との間の通話が可能になる。この場合、サーバー１００，ＰＣ２００―１およびＰＣ２００－４それぞれにおいて、再生モードが並行再生モードに切り換わる。並行再生モードの場合、サーバー１００において、ユーザーＰ－１とユーザーＰ－４との間の通話が第２のグループの通話として扱われる。ユーザーＰ－４が「拒否」の文字が表されたボタンを指示すると、ユーザーＰ－１とユーザーＰ４との間の通話は実現されないとともに、サーバー１００、ＰＣ２００―１およびＰＣ２００－４それぞれにおいて、再生モードは通常モードが維持され、並行再生モードに切り換わらない。

図９は、並行再生画面の一例を示す第１の図である。図９に示す並行再生画面３１０は、ユーザーＰ－１が操作するＰＣ２００－１の表示部２０６に表示される。並行再生画面３１０は、第１グループ表示領域３１３と、「会議に戻る」の文字列が表示されるボタン３１１と、「入れ替え」の文字列が表示されるボタン３１２と、を含む。並行再生モードにおいては、第１のグループにユーザーＰ－１～５が属し、第２のグループにユーザーＰ－１、４が属する。

第１グループ表示領域３１３には、第１のグループに属しかつ第２のグループに属しないユーザーＰ－２，３，５の通話が、文字情報として表示される。図９においては、ユーザーＰ－２，３，５それぞれの音声に対応する文字情報が表示される。また、文字情報は、音声が発声された順に、上から下に並んで表示される。また、音声を発声したユーザーを特定するための情報として、文字情報の先頭に、ユーザー識別情報が表示される。ここでは、ユーザーＰ－２，３，５をそれぞれ識別するユーザー識別情報Ｂ，Ｃ，Ｅとしている。

第２のグループに属するユーザーＰ－１，４の通話は、音声で再生される。図９においては、音声を吹き出しに文字で示される。なお、第２のグループに属するユーザーＰ－１，４の通話は、ユーザーＰ－２，３，５に伝達されない。

このように、ユーザーＰ－１は、第１グループ表示領域３１３に表示された文字情報で、ユーザーＰ－２，３，５それぞれの発話の内容を認識しながら、音声でユーザーＰ－４と通話することができる。

ユーザーＰ－１が、ボタン３１１を指示することにより、第２グループの通話が終了し、第１グループの通話のみに戻る。この場合、図６に示した操作画面３００が表示部２０６に表示されるとともに、第１のグループに属するユーザーＰ２００－１～５の通話が音声で再開される。

ユーザーＰ－１が、ボタン３１２を指示することにより、第１グループの再生と、第２グループの再生とが入れ替わる。

図１０は、並行再生画面の一例を示す第２の図である。図１０に示す並行再生画面３１０は、ユーザーＰ－１が図９に示した並行再生画面３１０のボタン３１２を指示することによりＰＣ２００－１の表示部２０６に表示される。図１０に示す並行再生画面３１０は、第２グループ表示領域３１４と、「会議に戻る」の文字列が表示されるボタン３１１と、「入れ替え」の文字列が表示されるボタン３１２と、を含む。並行再生モードにおいては、第１のグループにユーザーＰ２００－１～５が属し、第２のグループにユーザーＰ２００－１、４が属する。

第２グループ表示領域３１４は第２のグループの通話に関する領域である。第２グループ表示領域３１４には、第２のグループに属するユーザーＰ－１，４の通話が、文字情報として表示される。図１０においては、ユーザーＰ－１，４それぞれの音声に対応する文字情報が表示される。また、文字情報は、音声が発声された順に、上から下に並んで表示される。また、音声を発声したユーザーを特定するための情報として、文字情報の先頭に、ユーザー識別情報が表示される。ここでは、ユーザーＰ－１，４をそれぞれ識別するユーザー識別情報Ａ，Ｄとしている。

第１のグループに属しかつ第２のグループに属しないユーザーＰ－２，３，５の通話は、音声で再生される。図１０においては、音声を吹き出しに文字で示される。なお、第２のグループに属するユーザーＰ－１，４の通話は、ユーザーＰ－２，３，５に伝達されない。

このように、ユーザーＰ－１は、第２グループ表示領域３１４に表示された文字情報で、ユーザーＰ－１，４それぞれの発話の内容を認識しながら、ユーザーＰ－２，３，５による発生を音声で確認することができる。

ユーザーＰ－１が、ボタン３１１を指示することにより、第２グループの通話が終了し、第１グループの通話のみに戻る。この場合、図６に示した操作画面３００が表示部２０６に表示されるとともに、第１のグループに属するユーザーＰ－１～５の通話が音声で再開される。

ユーザーＰ－１が、ボタン３１２を指示することにより、第１グループの再生と、第２グループの再生とが入れ替わる。この場合、図９に示した並行再生画面３１０がＰＣ２００－１の表示部２０６に表示される。

図１１は、並行再生画面の一例を示す第３の図である。図１１に示す並行再生画面３１０が、図９に示した並行再生画面３１０と異なる点は、共有画面表示領域３１５が追加された点である。ここでは、共有画面表示領域３１５にユーザーＰ－２により第１のグループにおいて共有された画面が表示される。共有画面表示領域３１５に表示される画面は、ユーザーＰ－２が操作するＰＣ２００―２により第１のグループにおいて共有が指示された画面であり、ＰＣ２００―２の表示部２０６に表示される画面である。共有画面表示領域３１５に表示される画面は、ＰＣ２００―２からサーバー１００を経由して、ＰＣ２００１，３～５に送信される。

なお、第２のグループに属するユーザーＰ－１，４の通話は音声として出力され、図１０においては、吹き出しに文字で示される。

図１２は、並行再生画面の一例を示す第４の図である。図１２に示す並行再生画面３１０が、図９に示した並行再生画面３１０と異なる点は、第２グループ表示領域３１４が追加された点である。ここでは、第１グループ表示領域３１３と第２グループ表示領域３１４とが左右に並んで配置される。第１グループ表示領域３１３は第１のグループの通話に関する領域であるのに対して、第２グループ表示領域３１４は第２のグループの通話に関する領域である。ここでは、第２グループ表示領域３１４は、第２のグループに属するユーザーＰ－４を撮像した画像が表示される。なお、第２グループ表示領域３１４は、第２のグループで共有される画面であってもよい。

なお、第２のグループに属するユーザーＰ－１，４の通話は音声として出力され、図１１においては、吹き出しに文字で示される。

図１３は、操作画面の一例を示す第２の図である。図１３に示す操作画面３００が図６に示した操作画面３００と異なる点は、通話リスト３２０が追加された点である。通話リスト３２０は、ユーザーＰ－１が、通話可能なユーザーのユーザー識別情報を並へた表である。通話リスト３２０に含まれるユーザー識別情報は、第１のグループに属するユーザーＰ－１～５に加えて、他のユーザーＰ－６～Ｎを含む。

ユーザーＰ－１が、通話リスト３２０に表示されたユーザー識別情報の１以上を指示すると、再生モードが通常モードから並行再生モードに切り換わる。ここでは、ユーザーＰ－６のユーザー識別情報Ｆが指示される場合を例に説明する。

図１４は、並行再生画面の一例を示す第５の図である。図１４に示す並行再生画面３１０は、ユーザーＰ－１が図１３に示した操作画面３００の通話リスト３２０に表示されたユーザー識別情報Ｆを指示することによりＰＣ２００－１の表示部２０６に表示される。

図１４に示す並行再生画面３１０は、第１グループ表示領域３１３と、「会議に戻る」の文字列が表示されるボタン３１１と、「入れ替え」の文字列が表示されるボタン３１２と、を含む。並行再生モードにおいては、第１のグループにユーザーＰ２００－１～５が属し、第２のグループにユーザーＰ２００－１、６が属する。

第１グループ表示領域３１３には、第１のグループに属しかつ第２のグループに属しないユーザーＰ－２～５の通話が、文字情報として表示される。図１４においては、ユーザーＰ－２～５それぞれの音声に対応する文字情報が表示される。また、文字情報は、音声が発声された順に、上から下に並んで表示される。また、音声を発声したユーザーを特定するための情報として、文字情報の先頭に、ユーザー識別情報が表示される。ここでは、ユーザーＰ－２～５をそれぞれ識別するユーザー識別情報Ｂ，Ｃ，Ｄ，Ｅとしている。

第２のグループに属するユーザーＰ－１，６の通話は、音声で再生される。図１４においては、音声を吹き出しに文字で示される。なお、第２のグループに属するユーザーＰ－１，６の通話は、ユーザーＰ－２～５に伝達されない。

このように、ユーザーＰ－１は、第１グループ表示領域３１３に表示された文字情報で、ユーザーＰ－２～５それぞれの発話の内容を認識しながら、音声でユーザーＰ－６と通話することができる。

ユーザーＰ－１が、ボタン３１１を指示することにより、第２グループの通話が終了し、第１グループの通話のみに戻る。この場合、図１３に示した操作画面３００が表示部２０６に表示されるとともに、第１のグループに属するユーザーＰ２００－１～５の通話が音声で再開される。

図１５は、招待受付画面の一例を示す第２の図である。ここでは、ユーザーＰ－１に対して第１のグループに属しないユーザーＰ－６から通話の要求があった場合にＰＣ２００－１の表示部２０６に表示される招待受付画面３０８を示す。

図１５を参照して、招待受付画面３０８は、ポップアップ画面であり、図６に示した操作画面３００に重畳した状態で表示部２０６に表示される。招待受付画面３０８は、「Ｆさんから通話の要求があります。」のメッセージと、「許可」の文字が表されたボタンと、「拒否」の文字が表されたボタンと、を含む。ユーザーＰ－４が「許可」の文字が表されたボタンを指示すると、ユーザーＰ－１とユーザーＰ―６との間の通話が可能になるとともに、ＰＣ２００―１において、再生モードが並行再生モードに切り換わる。並行再生モードの場合、サーバー１００において、ユーザーＰ－１とユーザーＰ－６との間の通話が第２のグループの通話として扱われる。この場合、図１４に示した並行再生画面３１０が、ＰＣ２００－１の表示部２０６に表示される。

ユーザーＰ－１が「拒否」の文字が表されたボタンを指示すると、ユーザーＰ－１とユーザーＰ６との間の通話は実現されないとともに、ＰＣ２００―１において、再生モードは通常モードが維持され、並行再生モードに切り換わらない。

図１６は、音声再生制御処理の流れの一例を示すフローチャートである。音声再生制御処理は、サーバー１００が備えるＣＰＵ１０１が、ＲＯＭ１０２、ＨＤＤ１０４またはＣＤ－ＲＯＭ１１１に記憶された音声再生制御プログラムを実行することにより、ＣＰＵ１０１により実行される処理である。サーバー１００は、ＰＣ２００－１～Ｎそれぞれについて、送受信される音声データの切換を制御する。ＰＣ２００－１～Ｎそれぞれにおける音声データを切り換える制御は、すべて同じである。ここでは、サーバー１００がＰＣ２００―１との間で送受信する音声データを切り換える制御を例に説明する。

図１６を参照して、サーバー１００が備えるＣＰＵ１０１は、第１通話が開始されたか否かを判断する。第１通話が開始されるまで待機状態となり（ステップＳ０１でＮＯ）、第１通話が開始されたならば（ステップＳ０１でＹＥＳ）、処理はステップＳ０２に進む。第１通話は、ユーザーＰ―１と、他の１以上のユーザーとの間における通話である。ここでは、ユーザーＰ－１が、他の４人のユーザーＰ－２～５との間で通話する場合を例に説明する。また、第１通話において通話するユーザーＰ－１～５の集合は第１グループを構成する。

ステップＳ０２においては、第１通話が接続され、処理はステップＳ０３に進む。ユーザーＰ－１～５がそれぞれ操作するＰＣ２００－１～５を相互に接続し、ＰＣ２００－１～５間で音声データの送受信を可能にする。なお、音声データに加えて、画像データがＰＣ２００－１～５間で送受信が可能となる。

ステップＳ０３においては、第１音声データを再生し、処理をステップＳ０４に進める。第１音声データは、第１グループに属する他のユーザーＰ－２～５の音声である。サーバー１００は、ＰＣ２００－２～５のいずれかから受信される第１音声デーをＰＣ２００―１に送信する。ＰＣ２００―１においては、サーバー１００から受信される第１音声データを再生し、第１音声データの音声をスピーカー２０９から出力する。

ステップＳ０４においては、第１ウィンドウが生成され、処理はステップＳ０５に進む。第１ウィンドウは、第１通話に関連する画像を含む。第１通話に関連する画像は、例えば、他のユーザーＰ－２～５をカメラ２０８が撮像した動画像、第１グループで共有されるデータの画像を含む。ステップＳ０５においては、ＰＣ２００－１に第１ウィンドウが送信され、処理はステップＳ０６に進む。これにより、ＰＣ２００－１において、表示部２０６に第１ウィンドウが表示される。なお、ステップＳ０３とステップＳ０４と同時に実行される。

ステップＳ０６においては、第２通話の開始指示を受け付けたか否かが判断さる。ユーザーＰ－１により第２通話の相手としてユーザーが指定される場合、他のユーザーＰ－２～Ｎのいずれかから第２通話の相手としてユーザーＰ－１が指定される場合、第２通話の開始指示を受け付ける。また、第２通話の開始指示は、第１グループとは別のグループの通話に、ユーザーＰ－１を招待する指示を含む。第２通話の開始指示が受け付けられたならば処理はステップＳ０７に進むが、そうでなければ処理はステップＳ０３に戻る。ただし、第２通話が禁止されている場合は、第２通話の開始指示が受け付けられても、処理はステップＳ０３に戻る。第１通話における第１グループのいずれかが第２通話を禁止する指示をしている場合に、第２通話が禁止される。ここでは、第２通話が禁止されていない状態で、ユーザーＰ―１が、第２通話の相手としてユーザーＰ－４を指定した場合を例に説明する。

ステップＳ０７においては、第２通話が接続され、処理はステップＳ０８に進む。ユーザーＰ－１が操作するＰＣ２００－１とユーザーＰ－４が操作するＰＣ２００－４とを接続し、ＰＣ２００－１，４間で音声データの送受信を可能にする。サーバー１００は、ＰＣ２００－２から受信される第２音声データをＰＣ２００―１に送信する。ＰＣ２００―１においては、サーバー１００から受信される第２音声データを再生し、第２音声データの音声をスピーカー２０９から出力する。なお、音声データに加えて、画像データがＰＣ２００－１，４間で送受信が可能となる。

ユーザーＰ－１により第２通話の相手としてユーザーが指定される場合、指定されたユーザーが許可する場合に第２通話が接続されてもよい。また、他のユーザーＰ－２～Ｎのいずれかから第２通話の相手としてユーザーＰ－１が指定される場合、ユーザーＰ－１が許可する場合第２通話が接続されてもよい。また、第１グループとは別のグループの通話にユーザーＰ－１が招待される場合、ユーザーＰ－１が許可する場合第２通話が接続されてもよい。

ステップＳ０８においては、第１並行通話制御処理が実行され、処理はステップＳ０９に進む。第１並行通話制御処理の詳細は後述するが、ＰＣ２００―１において、第２通話の第２音声データが音声として再生され、第１通話の第１音声データが第２音声データの再生と異なる形態で再生されるように制御する処理である。

ステップＳ０９においては、切換指示を受け付けた否かが判断される。切換指示は、ユーザーＰ―１がＰＣ２００―１に入力する操作であり、第１通話と第２通話とで再生携帯の切り換えを指示する操作である。切換指示を受け付けたならば（ステップＳ０９でＹＥＳ）、処理はステップＳ１０に進むが、そうでなければ処理はステップＳ０８に戻る。

ステップＳ１０においては、第２並行通話制御処理が実行され、処理はステップＳ１１に進む。第２並行通話制御処理の詳細は後述するが、ＰＣ２００―１において、第１通話の第１音声データが音声として再生され、第２通話の第２音声データが第１音声データの再生と異なる形態で再生されるように制御する処理である。

ステップＳ１１においては、切換指示を受け付けた否かが判断される。切換指示は、ユーザーＰ―１がＰＣ２００―１に入力する操作であり、第１通話と第２通話とで再生形態の切り換えを指示する操作である。切換指示を受け付けたならば（ステップＳ１１でＹＥＳ）、処理はステップＳ０８に戻り、そうでなければ（ステップＳ１１でＮＯ）、処理はステップＳ１０に戻る。

なお、第２通話が終了した時点で、ステップＳ０２に戻り、第１通話が接続された状態となる。第１通話が終了した時点で、第２通話が接続された状態となる。この場合は、第２通話が第１通話に置き換わり、ステップＳ０２に戻る。第１通話および第２通話が終了した時点で、処理は終了する。

図１７は、第１並行通話制御処理の流れの一例を示すフローチャートである。第１並行通話制御処理は、音声再生制御処理のステップＳ０８で実行される処理である。図１７を参照して、サーバー１００が備えるＣＰＵ１０１は、第１音声データを文字に変換し（ステップＳ２１）、処理をステップＳ２２に進める。なお、第１音声データから文字に変換された文字情報を、別の言語に翻訳してもよい。第１音声データを文字に変換した後の文字情報は、第１音声データと同じ言語の文字情報と、その文字情報を別の言語に変換した後の文字情報とを含む。また、第１音声データが複数のユーザーの音声を含む場合、音声データから音声を発声したユーザーを識別し、音声に対応する文字情報に、その音声を発声したユーザーを識別するためのユーザー識別情報が付加されてもよい。

ステップＳ２２においては、第１ウィンドウが生成され、処理はステップＳ２３に進む。第１ウィンドウは、第１通話に関連する画像を含む。第１ウィンドウは、ステップＳ２１において生成された文字情報の画像を少なくとも含む。また、第１通話に関連する画像は、例えば、他のユーザーＰ－２～５をカメラ２０８が撮像した動画像、第１グループで共有されるデータの画像を含む。

ステップＳ２３においては、第２ウィンドウが生成され、処理はステップＳ２４に進む。第２ウィンドウは、第２通話に関連する画像を含む。第２通話に関連する画像は、例えば、他のユーザーＰ－４をカメラ２０８が撮像した動画像、第２グループで共有されるデータの画像を含む。

ステップＳ２４においては、第１音声データおよび第２音声データが再生される。第１音声データが音声で再生され、第２音声データが音声で再生される。この場合、第１音声データが再生される音声の音量は、第２音声データが再生される音声の音量よりも小さい。なお、第１音声データが音声で再生されることなく、第２音声データが音声で再生されてもよい。

ステップＳ２５においては、第１音声データを再生した音声と第２音声データを再生した音声とが合成され、合成データが生成される。第１音声データが音声で再生されない場合、合成データは、第２音声データの音声のみを含む。次のステップＳ２６においては、ＰＣ２００－１に音声データおよび画像データが送信され、処理は音声再生制御処理に戻る。画像データは、ステップＳ２２で生成された第１ウィンドウおよびステップＳ２３で生成された第２ウィンドウを含む画面の画像を示すデータを含む。音声データは、ステップＳ２５において生成された合成データを圧縮したデータを含む。

図１８は、第２並行通話制御処理の流れの一例を示すフローチャートである。第２並行通話制御処理は、音声再生制御処理のステップＳ１０で実行される処理である。図１８を参照して、サーバー１００が備えるＣＰＵ１０１は、第２音声データを文字に変換し（ステップＳ３１）、処理をステップＳ３２に進める。なお、第２音声データから文字に変換された文字情報を、別の言語に翻訳してもよい。第２音声データを文字に変換した後の文字情報は、第２音声データと同じ言語の文字情報と、その文字情報を別の言語に変換した後の文字情報とを含む。また、第２音声データが複数のユーザーの音声を含む場合、音声データから音声を発声したユーザーを識別し、音声に対応する文字情報に、その音声を発声したユーザーを識別するためのユーザー識別情報が付加されてもよい。

ステップＳ３２においては、第２ウィンドウが生成され、処理はステップＳ３３に進む。第２ウィンドウは、第２通話に関連する画像を含む。第２ウィンドウは、ステップＳ３１において生成された文字情報の画像を少なくとも含む。また、第２通話に関連する画像は、例えば、他のユーザーＰ－４をカメラ２０８が撮像した動画像、第２グループで共有されるデータの画像を含む。

ステップＳ３３においては、第１ウィンドウが生成され、処理はステップＳ３４に進む。第１ウィンドウは、第１通話に関連する画像を含む。第１通話に関連する画像は、例えば、他のユーザーＰ－２～５をカメラ２０８が撮像した動画像、第１グループで共有されるデータの画像を含む。

ステップＳ３４においては、第１音声データおよび第２音声データが再生される。第１音声データが音声で再生され、第２音声データが音声で再生される。この場合、第２音声データが再生される音声の音量は、第１音声データが再生される音声の音量よりも小さい。なお、第２音声データが音声で再生されることなく、第１音声データが音声で再生されてもよい。

ステップＳ３５においては、第１音声データを再生した音声と第２音声データを再生した音声とが合成され、合成データが生成される。第２音声データが音声で再生されない場合、合成データは、第１音声データの音声のみを含む。次のステップＳ３６においては、ＰＣ２００－１に音声データおよび画像データが送信され、処理は音声再生制御処理に戻る。画像データは、ステップＳ３２で生成された第２ウィンドウおよびステップＳ３３で生成された第１ウィンドウを含む画面を示すデータを含む。音声データは、ステップＳ３５において生成された合成データを圧縮したデータを含む。

＜変形例＞
上述したリモート会議システム１においては、サーバー１００が、ＰＣ２００―１～Ｎで出力される画像および音声を生成するようにした。変形例におけるリモート会議システムにおいては、サーバー１００の機能の一部をＰＣ２００－１～Ｎが備える。

図１９は、変形例におけるサーバーが備えるＣＰＵが有する機能の一例を示す図である。図１９に示す機能は、サーバー１００が備えるＣＰＵ１０１が、ＲＯＭ１０２、ＨＤＤ１０４またはＣＤ－ＲＯＭ１１１に記憶された変形例における音声再生制御プログラムを実行することにより、ＣＰＵ１０１により実現される機能である。図１９を参照して、図４に示した機能と異なる点は、並行再生制御部１５、音声再生部１７および文字再生部１９が削除された点、並行通話制御部１３が並行通話制御部１３Ａに変更された点である。このため、ＣＰＵ１０１は、通話部１１と、並行通話制御部１３Ａと、を含む。

並行通話制御部１３Ａは、第１のグループにおける通話と第２のグループにおける通話を並行して実行する。並行通話制御部１３Ａは、第１のグループと第２のグループとの双方に属する特定ユーザーが存在する場合に、その特定ユーザーについて、第１のグループにおける通話と第２のグループにおける通話とを並行して実行する。並行通話制御部１３Ａは、第１グループにおける通話の音声データと、第２グループにおける通話の音声データとが特定ユーザーが操作するＰＣ２００に送信されるように、通話部１１に指令を出力する。

図２０は、変形例におけるＰＣが備えるＣＰＵが有する機能の一例を示す図である。図２０に示す機能は、ＰＣ２００が備えるＣＰＵ２０１が、ＲＯＭ２０２、ＨＤＤ２０４またはＣＤ－ＲＯＭ２１１Ａに記憶された変形例における端末側再生制御プログラムを実行することにより、ＣＰＵ２０１により実現される機能である。端末側再生制御プログラムは、音声再生制御プログラムの一部である。図２０を参照して、図５に示した機能と異なる点は、並行再生制御部１５、音声再生部１７および文字再生部１９が追加された点、端末側通話部２５１が端末側通話部２５１Ａに変更された点である。その他の機能は、図５に示した機能と同じなので、ここでは説明を繰り返さない。

端末側通話部２５１Ａは、ＰＣ２００を操作するユーザーと、他のユーザーとの間の通話を制御する。他のユーザーは、１以上である。端末側通話部２５１Ａは、ＰＣ２００を操作するユーザーと１以上のユーザーからなるグループにおいて、ＰＣ２００を操作するユーザーと他の１以上のユーザーとの間の通話を可能にする。端末側通話部２５１Ａは、複数のグループにおける通話を別の通話として取り扱う。端末側通話部２５１Ａは、第１のグループにおける通話に関する情報をサーバー１００との間で送受信するとともに、第２のグループにおける通話に関する情報をサーバー１００との間で送受信する。

端末側通話部２５１Ａは、通信部２０５を制御して、サーバー１００から音声データを受信する。端末側通話部２５１は、サーバー１００から受信された音声データを並行再生制御部１５に出力する。端末側通話部２５１Ａは、サーバー１００から画像データが受信される場合、画像データを並行再生制御部１５に出力する。

音声再生部１７は、音声データを音声で再生する。音声再生部１７は、再生した音声を音声出力制御部２５５に出力する。

文字再生部１９は、音声データを文字に変換することにより音声データを再生する。具体的には、文字再生部１９は、音声データを音声認識することにより文字に変換する。文字再生部１９は、音声データから変換された文字からなる文字情報を表示制御部２５７に出力する。文字再生部１９は、音声データから音声を発声しているユーザーを特定し、特定されたユーザーを識別するためのユーザー識別情報を付加した文字情報を並行通話制御部１３に出力してもよい。また、文字再生部１９は、音声データから変換された文字情報を他の言語に翻訳し、翻訳後の文字情報を並行通話制御部１３に出力してもよい。

並行再生制御部１５は、文字再生部１９を制御して、第１のグループにおける通話の第１音声データを再生させる。並行再生制御部１５は、第１音声データの文字再生部１９による再生と並行して、音声再生部１７を制御して、第２のグループにおける通話の第２音声データを再生させるとともに、第１音声データを再生させないかまたは第１音声データを第２音声データより小さい音量で再生させる。

並行再生制御部１５は、音声入力制御部２５３から出力される音声データが、第２のグループにおける音声データとしてサーバー１００に送信され、第１のグループにおける音声データとして送信されないように、端末側通話部２５１Ａに指示する。これにより、ユーザーの音声は、第２のグループのユーザーに伝達されるが、第１のグループのユーザーには伝達されない。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

＜実施の形態の総括＞
（項１）音声データを音声で再生する音声再生手段と、
音声データを文字に変換して再生する文字再生手段と、
第１音声データと第２音声データを並行して再生する並行再生制御手段と、を備え、
前記並行再生制御手段は、前記第１音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をＯＦＦまたは前記第２音声データより小さい音量で再生し、前記第２音声データを前記音声再生手段により再生する、音声再生制御システム。

この局面に従えば、第２音声データが音声で再生され、第１音声データが文字に変換して再生されるとともに音声で再生されないか第２音声データより小さい音量で再生される。このため、ユーザーは、第２音声データを音声で確認しつつ、第１音声データを文字で確認できる。したがって、複数の音声が異なる形態で出力されるので、ユーザーは、複数の音声を区別して認識できる。その結果、複数の音声を識別可能な状態で並行して再生することが可能な音声再生制御システムを提供することができる。

（項２）前記並行再生制御手段は、前記第１音声データを前記音声再生手段により再生中に、前記第２音声データの再生が開始される場合に、前記第１音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をＯＦＦまたは前記第２音声データより小さい音量で再生し、前記第２音声データを前記音声再生手段により再生する、項１に記載の音声再生制御システム。

この局面に従えば、第１音声データの再生中に、第２音声データの再生が開始される場合に、第２音声データが音声で再生され、第１音声データが文字に変換して再生されるとともに音声で再生されないか第２音声データより小さい音量で再生される。このため、後から再生される第２音声データが第１音声データよりも優先して再生される。したがって、ユーザーは優先する音声データを指定する必要がないので、操作が容易になる。

（項３）前記並行再生制御手段は、前記第１音声データを前記音声再生手段により再生中に、前記第２音声データの再生が開始されることに応じて、前記第１音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をＯＦＦまたは前記第２音声データより小さい音量で再生し、前記第２音声データを前記音声再生手段により再生する、項２に記載の音声再生制御システム。

この局面に従えば、第１音声データの再生中に、第２音声データの再生が開始される場合に、第２音声データが音声で再生され、第１音声データが文字に変換して再生されるとともに音声で再生されないか第２音声データより小さい音量で再生される。このため、第２音声データの開始をトリガーとして第１の音声データと第２の音声データが再生されるので、切り換え操作が不要となる。したがって、操作が容易である。

（項４）前記並行再生制御手段は、前記第１音声データを前記音声再生手段により再生中に、前記第２音声データの再生が開始される場合に、ユーザーによる予め定められた指示に応じて、前記第１音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をＯＦＦまたは前記第２音声データより小さい音量で再生し、前記第２音声データを前記音声再生手段により再生する、項２に記載の音声再生制御システム。

この局面に従えば、第１音声データの再生中に、第２音声データの再生が開始される場合に、ユーザーによる予め定められた指示に応じて、第２音声データが音声で再生され、第１音声データが文字に変換して再生されるとともに音声で再生されないか第２音声データより小さい音量で再生される。このため、ユーザーは、複数の音声が異なる形態で出力されるタイミングを指定できる。したがって、利便性が向上する。

（項５）複数ユーザー間で通話を行う通話手段と、
前記通話手段により、第１通話と第２通話を並行して実行する並行通話制御手段と、をさらに備え、
前記第１音声データは、前記第１通話の音声データであり、
前記第２音声データは、前記第２通話の音声データであり、
前記並行通話制御手段は、前記並行再生制御手段により音声データを再生する、項１に記載の音声再生制御システム。

この局面に従えば、第２通話が音声で再生され、第１通話が文字に変換して再生されるとともに音声で再生されないか第２通話より小さい音量で再生される。このため、ユーザーは、第２通話を音声で確認しつつ、第１通話を文字で確認できる。したがって、複数の音声が異なる形態で出力されるので、ユーザーは、複数の音声を区別して認識できる。その結果、複数の通話を識別可能な状態で並行して再生することが可能な音声再生制御システムを提供することができる。

（項６）前記第１通話に関連する第１画像を含む第１ウィンドウと、前記第２通話に関連する第２画像を含む第２ウィンドウとを表示可能な表示制御手段を、さらに備えた、項５に記載の音声再生制御システム。

この局面に従えば、第１通話に関連する第１画像を含む第１ウィンドウと、第２通話に関連する第２画像を含む第２ウィンドウとが表示される。このため、第１画像と第２画像とを区別して表示することができる。

（項７）前記表示制御手段は、前記文字再生手段により前記第１音声データが再生された文字情報を前記第１ウィンドウに表示する、項６に記載の音声再生制御システム。

この局面に従えば、第１通話に関する音声および画像が第１ウィンドウに表示されるので、第１通話に関する情報を纏めて表示することができる。

（項８）前記第１通話は、操作者および１以上の第１ユーザー間での通話であり、
前記第２通話は、操作者および１以上の第２ユーザー間での通話である、項５に記載の音声再生制御システム。

この局面に従えば、ユーザーは、第１ユーザー間の通話と、第２ユーザーとの間の通話と、を並行してすることができる。

（項９）前記並行再生制御手段は、前記第１音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をＯＦＦまたは前記第２音声データより小さい音量で再生し、前記第２音声データを前記音声再生手段により再生する状態から、前記第２音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をＯＦＦまたは前記第１音声データより小さい音量で再生し、前記第１音声データを前記音声再生手段により再生する状態に切り換える、項１に記載の音声再生制御システム。

この局面に従えば、第１音声データを再生する形態と第２音声データを再生する形態とを異ならせるとともに、再生する形態が切り換えられる。このため、操作者は、第１音声データと第２音声データとで優先する一方を選択することができる。

（項１０）前記並行再生制御手段による再生を禁止する禁止手段を、さらに備えた項１に記載の音声再生制御システム。

この局面に従えば、第２音声データが音声で再生され、第１音声データが文字に変換して再生されるとともに音声で再生されないか第２音声データより小さい音量で再生されることが禁止される。このため、第１音声データの再生を優先させることができる。

（項１１）前記第２ユーザーは、前記１以上の第１ユーザーの少なくとも一人を含む、項８に記載の音声再生制御システム。

（項１２）前記第２ユーザーは、前記１以上の第１ユーザー以外の第３ユーザーの少なくとも一人を含む、項８に記載の音声再生制御システム。

（項１３）音声データを音声で再生する音声再生ステップと、
音声データを文字に変換して再生する文字再生ステップと、
第１音声データと第２音声データを並行して再生する並行再生制御ステップと、を音声再生制御装置に実行させ、
前記並行再生制御ステップは、前記第１音声データを前記文字再生ステップにおいて再生させるとともに前記音声再生ステップにおいて再生しないまたは前記第２音声データより小さい音量で再生させ、前記第２音声データを前記音声再生ステップにおいて再生させる、音声再生制御方法。

この局面に従えば、複数の音声を識別可能な状態で並行して再生することが可能な音声再生制御方法を提供することができる。

（項１４）音声データを音声で再生する音声再生ステップと、
音声データを文字に変換して再生する文字再生ステップと、
第１音声データと第２音声データを並行して再生する並行再生制御ステップと、をコンピューターに実行させ、
前記並行再生制御ステップは、前記第１音声データを前記文字再生ステップにおいて再生させるとともに前記音声再生ステップにおいて再生しないまたは前記第２音声データより小さい音量で再生させ、前記第２音声データを前記音声再生ステップにおいて再生させる、音声再生制御プログラム。

この局面に従えば、複数の音声を識別可能な状態で並行して再生することが可能な音声再生制御プログラムを提供することができる。

１リモート会議システム、５インターネット、１００サーバー、２００、２００－１～ＮＰＣ、１１通話部、１３，１３Ａ並行通話制御部、１５並行再生制御部、１７音声再生部、１９文字再生部、２５１，２５１Ａ端末側通話部、２５３音声入力制御部、２５５音声出力制御部、２５７表示制御部、２５９画像入力制御部、３００，３０１操作画面、３０１－１～４画像、３０３ボタン、３０５招待指示画面、３０７招待受付画面、３０８招待受付画面、３１０並行再生画面、３１１，３１２ボタン、３１３第１グループ表示領域、３１４第２グループ表示領域、３１５共有画面表示領域、３２０通話リスト。

Claims

音声データを音声で再生する音声再生手段と、
音声データを文字に変換して再生する文字再生手段と、
第１音声データと第２音声データを並行して再生する並行再生制御手段と、を備え、
前記並行再生制御手段は、前記第１音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をＯＦＦまたは前記第２音声データより小さい音量で再生し、前記第２音声データを前記音声再生手段により再生する、音声再生制御システム。
前記並行再生制御手段は、前記第１音声データを前記音声再生手段により再生中に、前記第２音声データの再生が開始される場合に、前記第１音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をＯＦＦまたは前記第２音声データより小さい音量で再生し、前記第２音声データを前記音声再生手段により再生する、請求項１に記載の音声再生制御システム。
前記並行再生制御手段は、前記第１音声データを前記音声再生手段により再生中に、前記第２音声データの再生が開始されることに応じて、前記第１音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をＯＦＦまたは前記第２音声データより小さい音量で再生し、前記第２音声データを前記音声再生手段により再生する、請求項２に記載の音声再生制御システム。
前記並行再生制御手段は、前記第１音声データを前記音声再生手段により再生中に、前記第２音声データの再生が開始される場合に、ユーザーによる予め定められた指示に応じて、前記第１音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をＯＦＦまたは前記第２音声データより小さい音量で再生し、前記第２音声データを前記音声再生手段により再生する、請求項２に記載の音声再生制御システム。
複数ユーザー間で通話を行う通話手段と、
前記通話手段により、第１通話と第２通話を並行して実行する並行通話制御手段と、をさらに備え、
前記第１音声データは、前記第１通話の音声データであり、
前記第２音声データは、前記第２通話の音声データであり、
前記並行通話制御手段は、前記並行再生制御手段により音声データを再生する、請求項１に記載の音声再生制御システム。
前記第１通話に関連する第１画像を含む第１ウィンドウと、前記第２通話に関連する第２画像を含む第２ウィンドウとを表示可能な表示制御手段を、さらに備えた、請求項５に記載の音声再生制御システム。
前記表示制御手段は、前記文字再生手段により前記第１音声データが再生された文字情報を前記第１ウィンドウに表示する、請求項６に記載の音声再生制御システム。
前記第１通話は、操作者および１以上の第１ユーザー間での通話であり、
前記第２通話は、操作者および１以上の第２ユーザー間での通話である、請求項５に記載の音声再生制御システム。
前記並行再生制御手段は、前記第１音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をＯＦＦまたは前記第２音声データより小さい音量で再生し、前記第２音声データを前記音声再生手段により再生する状態から、前記第２音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をＯＦＦまたは前記第１音声データより小さい音量で再生し、前記第１音声データを前記音声再生手段により再生する状態に切り換える、請求項１に記載の音声再生制御システム。
前記並行再生制御手段による再生を禁止する禁止手段を、さらに備えた請求項１に記載の音声再生制御システム。
音声データを音声で再生する音声再生ステップと、
音声データを文字に変換して再生する文字再生ステップと、
第１音声データと第２音声データを並行して再生する並行再生制御ステップと、を音声再生制御装置に実行させ、
前記並行再生制御ステップは、前記第１音声データを前記文字再生ステップにおいて再生させるとともに前記音声再生ステップにおいて再生しないまたは前記第２音声データより小さい音量で再生させ、前記第２音声データを前記音声再生ステップにおいて再生させる、音声再生制御方法。
音声データを音声で再生する音声再生ステップと、
音声データを文字に変換して再生する文字再生ステップと、
第１音声データと第２音声データを並行して再生する並行再生制御ステップと、をコンピューターに実行させ、
前記並行再生制御ステップは、前記第１音声データを前記文字再生ステップにおいて再生させるとともに前記音声再生ステップにおいて再生しないまたは前記第２音声データより小さい音量で再生させ、前記第２音声データを前記音声再生ステップにおいて再生させる、音声再生制御プログラム。