JP5533503B2

JP5533503B2 - 通信装置、通信方法、および通信プログラム

Info

Publication number: JP5533503B2
Application number: JP2010217505A
Authority: JP
Inventors: 裕章藤野
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2010-09-28
Filing date: 2010-09-28
Publication date: 2014-06-25
Anticipated expiration: 2030-09-28
Also published as: JP2012074872A; US20130176382A1; US8965760B2; WO2012043451A1

Description

本発明は、遠隔会議を実行するために他の通信装置との間で少なくとも音声データを送受信する通信装置、通信方法、および通信プログラムに関する。

従来、複数の通信装置を備えた通信システムにおいて遠隔会議を円滑に実行するための様々な技術が提案されている。例えば、特許文献１が開示している文字化装置は、会議の参加者が行った発話に対して音声認識処理を行い、発話内容を文字情報に変換する。文字化装置は、変換した文字情報に、参加者の発言量、発言の活発さ等を示す発言履歴情報を付加して表示手段に表示させる。その結果、会話の内容および状況が参加者に伝わり、遠隔会議が円滑に進行する。

特開２００２−３４４９１５号公報

遠隔会議中に共有資料を各拠点で共有することができれば、参加者全員が同一の共有資料の内容を同時に把握することができ、遠隔会議が円滑に進行する。しかし、音声を用いた遠隔会議で共有する共有資料に音声（資料音声）が含まれている場合、各拠点では、他の拠点の音声と資料音声とが同時に再生されることになる。従って、参加者は、再生された音声が他の拠点の音声なのか、資料音声なのかを区別し難くなり、共有すべき資料音声の内容を把握することが困難になるという問題がある。

本発明は、少なくとも音声を用いた遠隔会議中に、音声を含む共有資料が複数の拠点で共有される場合に、共有すべき資料音声の内容を参加者に正確に把握させることができる通信装置、通信方法、および通信プログラムを提供することを目的とする。

本発明の第一の態様に係る通信装置は、音声を入力する音声入力手段によって入力された拠点音声の音声データである拠点音声データと、画像を撮像する撮像手段によって撮像された画像の画像データである拠点画像データと、他の通信装置との間で共有する共有資料の資料データとを、前記他の通信装置との間で送受信することが可能な通信装置であって、前記資料データを送受信する場合に、送受信する前記資料データに音声データである資料音声データが含まれているか否かを判断する判断手段と、前記判断手段によって前記資料データに前記資料音声データが含まれていると判断された場合に、前記資料音声データの再生条件に応じて、音声を出力する音声出力手段に対する前記拠点音声データの出力を制御する出力制御手段と、前記判断手段によって前記資料データに前記資料音声データが含まれていると判断された場合に、前記拠点音声データに対して音声認識処理を行うことでテキストデータを生成するテキスト生成手段と、前記テキスト生成手段によって生成された前記テキストデータを、テキストを表示する表示手段に出力するテキスト出力手段とを備えている。

第一の態様に係る通信装置によると、共有資料の資料データに含まれる資料音声データが遠隔会議中に複数の拠点で共有されている最中に、資料音声データの再生条件に応じて拠点音声データの出力が制御される。つまり、資料音声データが共有されている最中に、他の拠点で発話等が行われた場合、拠点音声データの出力が適切に制御されるため、参加者は資料音声を容易に聞き取ることができる。従って、参加者は、他の参加者との間で共有する必要がある資料音声の内容を正確に把握し、遠隔会議を円滑に進行させることができる。参加者は、他の参加者との間で共有すべき資料音声を容易に聞き取りつつ、他の拠点で行われた発話の内容をテキストによって把握することができる。従って、参加者は、資料音声の内容と他の拠点の発話の内容とを共に把握することができ、遠隔会議を円滑に進行させることができる。

前記出力制御手段は、前記資料音声データを出力する間、音声を出力する音声出力手段に対し、前記拠点音声データを前記資料音声データよりも小さい音量で出力してもよい。この場合、資料音声データが共有されている最中に他の拠点で発話等が行われても、参加者は、拠点音声よりも大きい音量で資料音声を聞き取ることができる。よって、参加者は、資料音声の内容をより正確に把握することができる。

前記出力制御手段は、前記判断手段によって前記資料データに前記資料音声データが含まれていると判断された場合に、前記拠点音声データと前記資料音声データとをそれぞれ異なる前記音声出力手段に出力してもよい。この場合、１つの音声出力手段において２種類の音声データを出力する場合よりも、参加者は拠点音声と資料音声とを容易に聞き分けることができる。さらに、拠点音声データの音量を資料音声データの音量よりも小さくする場合には、２種類の音声データを異なる音声出力手段に出力するため、容易に音量を制御することができる。

前記出力制御手段は、前記拠点音声データと前記資料音声データとをそれぞれ異なるスピーカに出力してもよい。この場合、通信装置は、拠点音声と共有音声とを異なるスピーカから発生させることができる。従って、参加者は、拠点音声と共有音声とをより容易に聞き分けることができ、音声の内容を把握し易くなる。

前記通信装置は、データを記憶手段に記憶させる記憶制御手段をさらに備えてもよい。前記通信装置は、前記出力制御手段によって音量が制御された前記拠点音声データと、前記拠点画像データと、前記資料音声データを含む前記資料データと、前記テキスト生成手段によって前記拠点音声から生成された前記テキストデータとを、前記記憶制御手段によって記憶してもよい。ユーザは、記憶手段に記憶されたデータを再生させることで、拠点音声に含まれる発話をテキストで読むことができる。さらに、再生される拠点音声データの出力は、資料音声データの共有時において、出力制御手段によって適切に制御されている。従って、ユーザは、遠隔会議の後であっても正確に遠隔会議の内容を把握することができる。

前記出力制御手段は、前記資料データの送受信中において、前記資料音声データに音声を発生させる信号が存在する時間帯にのみ、前記音声出力手段に対する前記拠点音声データの出力を前記資料音声データの再生条件に応じて制御してもよい。この場合、資料音声を含む共有資料が共有されている場合であっても、資料音声が発生していない場合には、拠点音声データの出力が制御されることはない。従って、資料音声が発生していない場合には、参加者は、出力が制御されていない拠点音声を聞き取ることができ、遠隔会議を円滑に進行させることができる。

本発明の第二の態様に係る通信方法は、音声を入力する音声入力手段によって入力された拠点音声の音声データである拠点音声データと、画像を撮像する撮像手段によって撮像された画像の画像データである拠点画像データと、他の通信装置との間で共有する共有資料の資料データとを、前記他の通信装置との間で送受信することが可能な通信装置によって行われる通信方法であって、前記資料データを送受信する場合に、送受信する前記資料データに音声データである資料音声データが含まれているか否かを判断する判断ステップと、前記判断ステップにおいて前記資料データに前記資料音声データが含まれていると判断された場合に、前記資料音声データの再生条件に応じて、音声を出力する音声出力手段に対する前記拠点音声データの出力を制御する出力制御ステップと、前記判断ステップにおいて前記資料データに前記資料音声データが含まれていると判断された場合に、前記拠点音声データに対して音声認識処理を行うことでテキストデータを生成するテキスト生成ステップと、前記テキスト生成ステップにおいて生成された前記テキストデータを、テキストを表示する表示手段に出力するテキスト出力ステップとを備えている。

第二の態様に係る通信方法によると、共有資料の資料データに含まれる資料音声データが遠隔会議中に複数の拠点で共有されている最中に、資料音声データの再生条件に応じて拠点音声データの出力が制御される。つまり、資料音声データが共有されている最中に、他の拠点で発話等が行われた場合、拠点音声データの出力が適切に制御されるため、参加者は資料音声を容易に聞き取ることができる。従って、参加者は、他の参加者との間で共有する必要がある資料音声の内容を正確に把握し、遠隔会議を円滑に進行させることができる。参加者は、他の参加者との間で共有すべき資料音声を容易に聞き取りつつ、他の拠点で行われた発話の内容をテキストによって把握することができる。従って、参加者は、資料音声の内容と他の拠点の発話の内容とを共に把握することができ、遠隔会議を円滑に進行させることができる。

本発明の第三の態様に係る通信プログラムは、音声を入力する音声入力手段によって入力された拠点音声の音声データである拠点音声データと、画像を撮像する撮像手段によって撮像された画像の画像データである拠点画像データと、他の通信装置との間で共有する共有資料の資料データとを、前記他の通信装置との間で送受信することが可能な通信装置で用いられる通信プログラムであって、前記資料データを送受信する場合に、送受信する前記資料データに音声データである資料音声データが含まれているか否かを判断する判断ステップと、前記判断ステップにおいて前記資料データに前記資料音声データが含まれていると判断された場合に、前記資料音声データの再生条件に応じて、音声を出力する音声出力手段に対する前記拠点音声データの出力を制御する出力制御ステップと、前記判断ステップにおいて前記資料データに前記資料音声データが含まれていると判断された場合に、前記拠点音声データに対して音声認識処理を行うことでテキストデータを生成するテキスト生成ステップと、前記テキスト生成ステップにおいて生成された前記テキストデータを、テキストを表示する表示手段に出力するテキスト出力ステップとを前記通信装置のコントローラに実行させるための指示を含む。

第三の態様に係る通信プログラムによると、共有資料の資料データに含まれる資料音声データが遠隔会議中に複数の拠点で共有されている最中に、資料音声データの再生条件に応じて拠点音声データの出力が制御される。つまり、資料音声データが共有されている最中に、他の拠点で発話等が行われた場合、拠点音声データの出力が適切に制御されるため、参加者は資料音声を容易に聞き取ることができる。従って、参加者は、他の参加者との間で共有する必要がある資料音声の内容を正確に把握し、遠隔会議を円滑に進行させることができる。参加者は、他の参加者との間で共有すべき資料音声を容易に聞き取りつつ、他の拠点で行われた発話の内容をテキストによって把握することができる。従って、参加者は、資料音声の内容と他の拠点の発話の内容とを共に把握することができ、遠隔会議を円滑に進行させることができる。

通信システム１００のシステム構成を示す図である。ＰＣ１が表示装置３５に表示させる画像の一例を示す図である。ＰＣ１の電気的構成を示すブロック図である。第一の実施形態に係るＰＣ１が実行するテレビ会議処理のフローチャートである。第二の実施形態に係る通信システム２００のシステム構成を示す図である。第二の実施形態に係るＰＣ１０２が実行するテレビ会議処理のフローチャートである。第二の実施形態に係るサーバ１０１が実行するサーバ処理のフローチャートである。

以下、本発明の第一の実施形態について、図面を参照して説明する。参照する図面は、本発明が採用し得る技術的特徴を説明するために用いられるものである。図面に記載されている装置の構成、各種処理のフローチャート等は、それのみに限定する趣旨ではなく、単なる説明例である。

図１を参照して、通信システム１００のシステム構成について説明する。通信システム１００は、複数のＰＣ１を備える。各ＰＣ１は、インターネット等のネットワーク８を介して、他のＰＣ１との間でデータを送受信する。詳細には、ＰＣ１は、他のＰＣ１のそれぞれとの間で、Ｐ２Ｐ（ｐｅｅｒｔｏｐｅｅｒ）で画像、音声、テキスト等のデータを直接送受信することができる。なお、本発明における通信装置として用いることができるのはＰＣ１に限られない。例えば、テレビ会議を実行するために各拠点に配置される専用のテレビ会議端末等を、本発明における通信装置として用いることも可能である。

通信システム１００は、画像および音声を用いた遠隔会議（テレビ会議）を実行するためのテレビ会議システムである。各ＰＣ１は、自拠点のカメラ３４から入力した拠点画像のデータ、およびマイク３１（図３参照）から入力した拠点音声のデータを、他のＰＣ１に送信する。各ＰＣ１は、他のＰＣ１から受信した拠点画像データおよび拠点音声データに基づいて、他の拠点の撮影画像を表示装置３５に表示し、且つ他の拠点の音声をスピーカ３２，３３（図３参照）から出力させる。その結果、複数の拠点の拠点画像および拠点音声が、通信システム１００内で共有される。よって、通信システム１００によると、会議の参加者の全てが同一の拠点にいない場合でも、参加者は円滑に会議を実行することができる。１つの拠点にいる参加者は１人でもよいし、複数でもよい。

さらに、通信システム１００では、文書、図面、動画、静止画等の資料画像、および資料音声を、複数の参加者の間で共有しながらテレビ会議を行うこともできる。具体的には、まず、他のＰＣ１へ共有資料を配信する指示が、複数のＰＣ１のいずれかに入力される。配信指示が入力されたＰＣ１（以下、「配信元装置」という。）は、自拠点の表示装置３５に表示させる資料画像をキャプチャして符号化処理を行うことで、資料画像データを生成する。さらに、配信する共有資料に音声（資料音声）が含まれている場合には、配信元装置は、資料音声を符号化して資料音声データを生成する。配信元装置は、生成した資料画像データおよび資料音声データを、通信システム１００内の他のＰＣ１（以下、「配信先装置」という。）に送信する。配信先装置は、受信したデータを復号化し、共有資料を再生させる。従って、各参加者は、必要な共有資料を他の参加者との間で共有しながらテレビ会議を行うことができる。

本実施形態の通信システム１００では、画像のみからなる共有資料と、画像および音声からなる共有資料とを共有することができる。しかし、音声のみからなる共有資料を共有する通信システムにも本発明は適用できる。また、共有資料のデータは、あらかじめ配信元装置が記憶していてもよいし、テレビ会議中に配信元装置がネットワーク８等を介して取得してもよい。

図２を参照して、通信システム１００内で共有資料が共有されている場合に表示装置３５に表示される画像の一例について説明する。図２は、拠点Ａ，Ｂ，Ｃの３つの拠点でテレビ会議が実行されている場合に、拠点Ａに設置された表示装置３５に表示される画像の一例を示す。

表示装置３５の表示画面の右上側には、拠点Ａ表示部４１、拠点Ｂ表示部４２、および拠点Ｃ表示部４３が形成される。拠点ＡのＰＣ１は、自拠点のカメラ３４から入力した自拠点の拠点画像を拠点Ａ表示部４１に表示させる。拠点Ｂ表示部４２には、拠点ＢのＰＣ１から受信した拠点画像データに従って、拠点Ｂの拠点画像が表示される。拠点Ｃ表示部４３には、拠点ＣのＰＣ１から受信した拠点画像データに従って、拠点Ｃの拠点画像が表示される。さらに、前述したように、拠点ＡのＰＣ１は、他の拠点（拠点Ｂおよび拠点Ｃ）の拠点音声を再生させることができる。よって、拠点Ａの参加者は、表示装置３５に表示される画像と、再生される音声とによって、円滑にテレビ会議を実行することができる。

表示装置３５の左上側には、資料画像表示部４５が形成される。資料画像表示部４５には、共有されている資料画像が表示される。ＰＣ１は、共有資料を他のＰＣ１に配信する配信元装置として動作する場合、資料画像表示部４５に表示させる資料画像をキャプチャして資料画像データを生成し、他のＰＣ１に送信する。また、ＰＣ１は、共有資料が提供される配信先装置として動作する場合、配信元装置から受信した資料画像データに基づいて、資料画像表示部４５に資料画像を表示させる。さらに、前述したように、ＰＣ１は、共有資料に資料音声が含まれている場合、資料音声を再生させることができる。よって、参加者は、他の拠点の参加者との間で共有資料を共有しながらテレビ会議を行うことができる。

表示装置３５の下側には、テキスト表示部４６が形成される。テキスト表示部４６には、資料音声が共有されている場合に、拠点Ａ，Ｂ，Ｃで行われた発話内容がテキスト化されて表示される。

本実施形態では、テレビ会議の実行中に資料音声を共有することも可能である。資料音声の共有中には、参加者は、各拠点のマイク３１から入力された拠点音声の内容と、配信元装置が配信する資料音声とを同時に把握する必要がある。しかし、拠点音声と資料音声とが同一の音量で出力されると、参加者は、音声を聞き分けて内容を理解するのが難しい。ＰＣ１は、拠点音声および資料音声の音量の調整、拠点音声の内容のテキスト化等の処理を行うことで、それぞれの音声の内容を正確に参加者に把握させることができる。

図３を参照して、ＰＣ１の電気的構成について説明する。ＰＣ１は、ＰＣ１の制御を司るＣＰＵ１０を備える。ＣＰＵ１０には、ＲＯＭ１１、ＲＡＭ１２、ハードディスクドライブ（以下、「ＨＤＤ」という。）１３、および入出力インターフェース１９が、バス１８を介して接続されている。

ＲＯＭ１１は、ＰＣ１を動作させるためのＢＩＯＳ等のプログラム、および初期値等を記憶している。ＲＡＭ１２は、制御プログラムで使用される各種の情報を一時的に記憶する。ＨＤＤ１３は、不揮発性の記憶装置であり、後述するテレビ会議処理を実行させるための通信プログラム等の各種情報を記憶する。通信プログラムは、例えば、ＣＤ−ＲＯＭ等の記憶媒体、ネットワーク８等を介して、ＨＤＤ１３に記憶される。また、ＨＤＤ１３は、音声認識を行うための音響モデル、言語モデル、および単語辞書を記憶している。ＣＰＵ１０は、資料音声の共有中には、拠点音声データを分析し、特徴量を抽出した後、音響モデルと言語モデルとのマッチングを行う。その結果、言語モデルで受理可能な文毎に尤度が求まり、尤度が最も高い文が認識結果として得られる。マッチングの際、言語モデルは単語辞書を参照する。尤度が規定の閾値以下の値になった場合には、認識失敗として認識結果は得られない。ＰＣ１は、拠点音声データに対する音声認識処理を行いテキスト化することで、拠点音声の内容（発話の内容）を正確に参加者に把握させることができる。この詳細は後述する。なお、ＨＤＤ１３の代わりに、ＥＥＰＲＯＭまたはメモリカード等の記憶装置を用いてもよい。

入出力インターフェース１９には、音声入力処理部２１、音声出力処理部２２、画像入力処理部２３、画像出力処理部２４、操作入力処理部２５、および外部通信Ｉ／Ｆ２６が接続されている。音声入力処理部２１は、音声を入力するマイク３１からの音声データの入力を処理する。音声出力処理部２２は、音声を出力する２つのスピーカ３２，３３（第一スピーカ３２および第二スピーカ３３）に接続し、２つのスピーカ３２，３３の動作を処理する。画像入力処理部２３は、画像を撮影するカメラ３４からの画像データの入力を処理する。画像出力処理部２４は、画像を表示する表示装置３５の動作を処理する。操作入力処理部２５は、キーボードおよびマウス等の操作部３６からの操作入力を処理する。外部通信Ｉ／Ｆ２６は、ＰＣ１をネットワーク８に接続する。

図４を参照して、第一の実施形態に係るＰＣ１が実行するテレビ会議処理について説明する。テレビ会議の実行指示をＰＣ１が受け付けると、ＰＣ１のＣＰＵ１０は、ＨＤＤ１３に記憶されている通信プログラムに従って、図４に示すテレビ会議処理を実行する。

ＰＣ１は、配信元装置および配信先装置のいずれの動作も行うことができる。つまり、共有資料が参加者によって選択され、選択された共有資料の配信を開始させる指示が操作部３６から入力された場合には、ＰＣ１は配信元装置として動作する（Ｓ４〜Ｓ１３）。配信元装置は、他のＰＣ１（配信先装置）に送信するデータに、共有資料のデータを含める。一方、他のＰＣ１から共有資料のデータを受信した場合には、ＰＣ１は配信先装置として動作し、受信したデータに従って共有資料を再生させる。

ＣＰＵ１０は、テレビ会議処理を開始すると、自拠点のカメラ３４から入力された拠点画像データを符号化する（Ｓ１）。自拠点のマイク３１から入力された拠点音声データを符号化する（Ｓ２）。次いで、ＣＰＵ１０は、他のＰＣ１への共有資料の配信中であるか否か（自らが配信元装置であるか否か）を判断する（Ｓ３）。共有資料の配信の実行指示が操作部３６から入力されており、共有資料の配信中であると判断した場合には（Ｓ３：ＹＥＳ）、ＣＰＵ１０は、参加者によって選択された共有資料の資料画像データを符号化する（Ｓ４）。

次いで、ＣＰＵ１０は、配信する共有資料のデータ（資料データ）に資料音声データが含まれているか否かを判断する（Ｓ５）。Ｓ５では、ＣＰＵ１０は、ＨＤＤ１３に記憶されている資料データを共有する場合、資料データのデータファイルの拡張子によって、資料音声データが含まれているか否かを判断する。例えば、拡張子がｗａｖ，ｍｐ３，ｍｐ４等のデータファイルが存在すれば、資料音声データが含まれていると判断できる。また、音声を含むウェブサイトを共有する場合には、ＣＰＵ１０は、共有するウェブサイトのＵＲＬ、共有するウェブサイトで動作するアプリケーションの種類等に基づいて、資料音声データが含まれているか否かを判断してもよい。

資料画像データに加えて資料音声データが含まれている場合には（Ｓ５：ＹＥＳ）、ＣＰＵ１０は、資料音声データを符号化する（Ｓ６）。ＣＰＵ１０は、自拠点のマイク３１から入力された拠点音声データに対して音声認識処理を行うことで、自拠点で行われた発話のテキストデータを生成する（Ｓ７）。さらに、ＣＰＵ１０は、資料音声データと拠点音声データとを送信するにあたって、資料音声よりも拠点音声の方が音量が小さくなるように、それぞれの音量を設定する（Ｓ８）。

次いで、ＣＰＵ１０は、Ｓ７で生成した発話のテキストデータを、他のＰＣ１（配信先装置）に送信する（Ｓ９）。ＣＰＵ１０は、Ｓ１で符号化した拠点画像データと、Ｓ４で符号化した資料画像データとを、配信先装置に送信する（Ｓ１０）。さらに、ＣＰＵ１０は、資料音声データと拠点音声データとを配信先装置に送信する（Ｓ１１）。この場合、Ｓ２で符号化した拠点音声データと、Ｓ６で符号化した資料音声データとを、配信先装置の各々の異なるチャンネルへ送信することで、配信先装置において異なるスピーカから２つの音声のそれぞれを出力させる。例えば、拠点音声を第一スピーカ３２から、資料音声を第二スピーカ３３から出力させるように、２種類の音声データが配信先装置の各々に送信される。

自装置が配信元装置であり（Ｓ３：ＹＥＳ）、且つ資料データに資料音声データが含まれていない場合には（Ｓ５：ＮＯ）、ＣＰＵ１０は、Ｓ１で符号化した拠点画像データと、Ｓ４で符号化した資料画像データとを、配信先装置に送信する（Ｓ１２）。さらに、ＣＰＵ１０は、特別な処理を行うことなく、Ｓ２で符号化した自拠点の拠点音声データを配信先装置に送信する（Ｓ１３）。この場合、自拠点の音声が通常の音量で出力されることになる。本実施の形態における通常の音量とは、資料音声データが共有されていない場合の拠点音声の音量であり、資料音声データが共有されている場合の拠点音声の音量に比べて大きい。

自装置が配信元装置でない場合には（Ｓ３：ＮＯ）、ＣＰＵ１０は、他のＰＣ１から資料データを受信しているか否かを判断する（Ｓ１５）。資料データを受信している場合には（Ｓ１５：ＹＥＳ）、受信している資料データに資料音声データが含まれているか否かを判断する（Ｓ１６）。資料音声データが含まれている場合には（Ｓ１６：ＹＥＳ）、ＣＰＵ１０は、自拠点のマイク３１から入力された拠点音声データに対して音声認識処理を行うことでテキストデータを生成する（Ｓ１７）。ＣＰＵ１０は、配信元装置として動作する場合に符号化する資料音声データ（Ｓ５で符号化されるデータ）の音量よりも小さい音量となるように、自拠点のマイク３１から入力された拠点音声データの音量を設定する（Ｓ１８）。従って、資料音声データの共有中には、全ての拠点音声の音量が、資料音声の音量よりも小さくなる。次いで、ＣＰＵ１０は、Ｓ１で符号化した拠点画像データを他のＰＣ１に送信する（Ｓ１２）。Ｓ１８で設定した音量で、拠点音声データを他のＰＣ１に送信する（Ｓ１３）。なお、Ｓ１７で生成されたテキストデータは、画像データおよび音声データと共に他のＰＣ１へ送信される。

資料データを受信していない場合（Ｓ１５：ＮＯ）、あるいは、受信した資料データに資料音声データが含まれていない場合には（Ｓ１６：ＮＯ）、特別な処理は行われることなく、拠点画像データおよび拠点音声データを他のＰＣ１に送信する処理（Ｓ１２，Ｓ１３）へ移行する。

各種データを送信する処理が終了すると、ＣＰＵ１０は、他のＰＣ１に送信したデータをＨＤＤ１３に記憶する（Ｓ２０）。ＣＰＵ１０は、他のＰＣ１からデータを受信し、復号化する（Ｓ２１）。受信するデータには、他拠点の拠点音声データおよび拠点画像データが含まれており、且つ、資料音声データ、資料画像データ、およびテキストデータが含まれる場合がある。ＣＰＵ１０は、受信したデータをＨＤＤ１３に記憶する（Ｓ２２）。ユーザは、Ｓ２０およびＳ２２の処理によってＨＤＤ１３に記憶されたデータを再生させることで、テレビ会議の内容を会議終了後に確認することができる。次いで、ＣＰＵ１０は、受信したデータに基づいて、スピーカ３２，３３からの音声の出力、表示装置３５への画像の表示、および表示装置３５へのテキストの表示を行う（Ｓ２３）。なお、ＣＰＵ１０は、拠点音声データと資料音声データとを異なるチャンネルで受信した場合には、一方の音声を第一スピーカ３２から出力し、且つ他方の音声を第二スピーカ３３から出力する。また、資料音声データが共有されている場合には、拠点音声データは、資料音声データよりも小さい音量となるように設定されている。参加者は、操作部３６を操作することで、スピーカ３２，３３から発生する音声の音量を変化させることができるが、拠点音声の音量と資料音声の音量との大小関係は変化しない。従って、資料音声は、拠点音声とは異なるスピーカから、拠点音声よりも大きい音量で発生する。その後、処理はＳ１へ戻る。各拠点のＰＣ１においてＳ１〜Ｓ２３の処理が繰り返されることで、テレビ会議が実現される。なお、図示しないが、テレビ会議を終了させる指示がＰＣ１に入力されると、ＣＰＵ１０はテレビ会議処理を終了する。

以上説明したように、第一の実施形態に係るＰＣ１は、資料音声データを共有する場合に、資料音声データの再生条件に応じて拠点音声データの出力を制御する。つまり、資料音声データが共有されている最中に、他の拠点で発話等が行われた場合、拠点音声データの出力が適切に制御されるため、参加者は資料音声を容易に聞き取ることができる。詳細には、ＰＣ１は、他のＰＣ１に接続されたスピーカ３２，３３に対し、拠点音声データが資料音声データよりも小さい音量で出力されるように音声データを送信（出力）する。従って、テレビ会議において資料音声データが複数の拠点で共有されている最中に、参加者の発話等が入力された場合でも、参加者は、発話等の拠点音声よりも大きい音量で資料音声を聞き取ることができる。よって、参加者は、他の参加者との間で共有する必要がある資料音声の内容を正確に把握し、テレビ会議を円滑に進行させることができる。

ＰＣ１は、配信元装置として動作する場合に、拠点音声データと資料音声データとを、配信先装置に接続されたスピーカ３２，３３の各々に別々に出力することができる。従って、ＰＣ１は、配信元装置として動作する場合に、拠点音声データと資料音声データとを他の拠点で容易に異なる音量で出力させることができる。その結果、参加者は、異なるスピーカによって発生する拠点音声と資料音声とを容易に聞き分けることができ、音声の内容を把握し易くなる。

ＰＣ１は、資料音声を共有する場合に、自拠点のマイク３１から入力した拠点音声データからテキストデータを生成し、他のＰＣ１に接続された表示装置３５に送信（出力）する。従って、参加者は、他の参加者との間で共有すべき資料音声を容易に聞き取りつつ、他の拠点で行われた発話の内容をテキストによって把握することができる。よって、参加者は、資料音声の内容と他の拠点の発話の内容とを共に把握することができ、テレビ会議を円滑に進行させることができる。

ＰＣ１は、Ｓ８の処理で音量が制御された拠点音声データおよび資料音声データと、Ｓ７の処理で生成されたテキストデータとを、Ｓ２０およびＳ２２の処理においてＨＤＤ１３に記憶させる。従って、ユーザは、ＨＤＤ１３に記憶されたデータを再生させることで、テレビ会議の後であっても、資料音声を拠点音声よりも大きい音量で聞くことができ、且つ拠点音声に含まれる発話をテキストで読むことができる。よって、ユーザは正確に会議内容を把握することができる。また、ＰＣ１は、資料音声データが共有されている間は、資料音声データに音声信号が含まれるか否かに関わらず、拠点音声データの音量を小さくする。その結果、拠点音声データの音量が頻繁に変化することがなく、ユーザは容易に拠点音声を聞き取ることができる。なお、資料音声データに音声を発生させる信号が存在する時間帯にのみ、拠点音声データを資料音声データよりも小さい音量で出力してもよい。この場合、共有資料が共有されている場合であっても、資料音声データが発生していない間は拠点音声の音量が小さくなることはない。よって、参加者は拠点音声データを容易に聞き取ることができる。

第一の実施形態において、ＰＣ１が本発明の「通信装置」に相当する。マイク３１が本発明の「音声入力手段」に相当する。カメラ３４が「撮像手段」に相当する。図４のＳ５で資料データに資料音声データが含まれているか否かを判断するＣＰＵ１０が「判断手段」として機能する。第一スピーカ３２および第二スピーカ３３が「音声出力手段」に相当する。図４のＳ８，Ｓ１１で、拠点音声データを資料音声データよりも小さい音量に設定して配信先装置のスピーカ３２，３３に送信（出力）するＣＰＵ１０が、本発明の「出力制御手段」として機能する。図４のＳ７でテキストデータを生成するＣＰＵ１０が「テキスト生成手段」として機能する。図４のＳ９で、配信先装置の表示装置３５にテキストデータを送信（出力）するＣＰＵ１０が、本発明の「テキスト出力手段」として機能する。ＨＤＤ１３が「記憶手段」に相当する。図４のＳ２０およびＳ２２でデータをＨＤＤ１３に記憶させるＣＰＵ１０が「記憶制御手段」として機能する。

図４のＳ５で資料データに資料音声データが含まれているか否かを判断する処理が「判断ステップ」に相当する。図４のＳ８，Ｓ１１で、拠点音声データを資料音声データよりも小さい音量に設定して配信先装置のスピーカ３２，３３に送信（出力）する処理が、本発明の「出力制御ステップ」に相当する。

図５から図７を参照して、本発明の第二の実施形態について説明する。第二の実施形態に係る通信システム２００は、データがＰ２Ｐで送受信される通信システム１００（図１参照）とは異なり、テレビ会議を制御するためのサーバ１０１を備える。資料音声の内容を会議の参加者に正確に把握させるための処理は、サーバ１０１によって実行される。

図５を参照して、第二の実施形態に係る通信システム２００のシステム構成について説明する。通信システム２００は、サーバ１０１と、複数のＰＣ１０２とを備える。各ＰＣ１０２は、サーバ１０１を介して他のＰＣ１０２との間でデータを送受信する。その結果、各ＰＣ１０２が配置されている複数の拠点の音声および画像と、いずれかのＰＣ１０２が提供する共有資料とが、通信システム２００内で共有される。第二の実施形態においても、第一の実施形態と同様に、ＰＣ１０２の代わりにテレビ会議専用の端末等を使用することも可能である。

図５を参照して、サーバ１０１の電気的構成について説明する。サーバ１０１は、ＣＰＵ１１０を備える。ＣＰＵ１１０には、ＲＯＭ１１１、ＲＡＭ１１２、ＨＤＤ１１３、および入出力インターフェース１１９が、バス１１８を介して接続されている。さらに、入出力インターフェース１１９には、外部通信Ｉ／Ｆ１２６が接続されている。サーバ１０１は、外部通信Ｉ／Ｆ１２６によってネットワーク８に接続される。なお、ＰＣ１０２の電気的構成は、第一の実施形態に係るＰＣ１の電気的構成（図３参照）と同一であるため、この説明は省略する。

図６を参照して、第二の実施形態に係るＰＣ１０２が実行するテレビ会議処理について説明する。テレビ会議を実行する指示をユーザがＰＣ１０２に入力すると、ＰＣ１０２のＣＰＵは、図６に示すテレビ会議処理を実行する。ＣＰＵは、自拠点の拠点画像データを符号化し（Ｓ５１）、且つ、自拠点の拠点音声データを符号化する（Ｓ５２）。ＣＰＵは、他のＰＣ１０２への共有資料の配信中であるか否かを判断する（Ｓ５３）。共有資料の配信中でない場合には（Ｓ５３：ＮＯ）、処理はそのままＳ５７へ移行する。共有資料の配信中であれば（Ｓ５３：ＹＥＳ）、ＣＰＵは、共有資料の資料画像データを符号化する（Ｓ５４）。ＣＰＵは、配信する資料データに資料音声データが含まれているか否かを判断する（Ｓ５５）。資料音声データが含まれていなければ（Ｓ５５：ＮＯ）、処理はＳ５７へ移行する。資料音声データが含まれていれば（Ｓ５５：ＹＥＳ）、ＣＰＵは、資料音声データを符号化する（Ｓ５６）。

次いで、ＣＰＵは、符号化した画像データおよび音声データをサーバ１０１へ送信する（Ｓ５７）。Ｓ５７では、送信するデータに拠点音声データおよび資料音声データが共に含まれる場合、拠点音声データと資料音声データとが異なるチャンネルで送信される。次いで、サーバ１０１からデータを受信する（Ｓ５８）。ＣＰＵは、受信したデータに基づいて音声を出力し、画像を表示する（Ｓ５９）。なお、受信したデータにテキストデータが含まれている場合には、音声および画像に加えてテキストの表示も実行する。また、資料音声データと拠点音声データとを異なるチャンネルで受信した場合には、ＣＰＵは、それぞれの音声データを異なるスピーカから出力する。その結果、２種類の音声を聞き取り易くすることができる。その後、処理はＳ５１へ戻り、テレビ会議が終了するまでＳ５１〜Ｓ５９の処理が繰り返される。

図７を参照して、第二の実施形態に係るサーバ１０１が実行するサーバ処理について説明する。サーバ１０１のＣＰＵ１１０は、テレビ会議を実行する指示をＰＣ１０２のいずれかから受信すると、ＨＤＤ１１３に記憶されている通信プログラムに従ってサーバ処理を実行する。ＣＰＵ１１０は、各拠点のＰＣ１０２からデータを受信する（Ｓ６１）。各拠点の拠点画像データを合成して、表示装置３５に表示させる拠点画像のデータを生成し、符号化する（Ｓ６２）。資料が共有されている場合には、Ｓ６２の処理では、配信元装置から受信した資料画像データも含めて合成することで、表示装置３５に表示させる画像データを生成し、符号化してもよい。

ＣＰＵ１１０は、ＰＣ１０２から受信したデータに資料音声データが含まれるか否かを判断する（Ｓ６３）。つまり、通信システム２００において資料音声データが共有されているか否かを判断する。受信したデータに資料音声データが含まれている場合には（Ｓ６３：ＹＥＳ）、ＣＰＵ１１０は、各拠点から受信した拠点音声データに対して音声認識処理を行うことで、テキストデータを生成する（Ｓ６４）。各拠点から受信した拠点音声データを合成して符号化する（Ｓ６５）。さらに、ＣＰＵ１１０は、合成して符号化した各拠点の拠点音声データが、資料音声データよりも小さい音量となるように、各音声データの音量を設定する（Ｓ６６）。ＣＰＵ１１０は、生成したテキストデータを、複数のＰＣ１０２の各々に送信する（Ｓ６８）。資料画像データをＰＣ１０２に送信（転送）し（Ｓ６９）、Ｓ６２で合成した拠点画像データをＰＣ１０２に送信する（Ｓ７０）。さらに、ＣＰＵ１１０は、いずれかのＰＣ１０２から受信した資料音声データと、Ｓ６５で合成し符号化した各拠点の拠点音声データとを、複数のＰＣ１０２の各々の異なるチャンネルへ送信する（Ｓ７１）。これにより、ＣＰＵ１１０は、資料音声データと拠点音声データとを、複数のＰＣ１０２の各々に接続された異なるスピーカ３２，３３へ別々に出力することができる。その際、資料音声データと拠点音声データとを異なるチャンネルで送信するのではなく、Ｓ６６で音量を設定した上で、２つの音声データを合成して符号化し、１つのチャンネルで送信してもよい。処理はＳ６１へ戻る。

ＰＣ１０２から受信したデータに資料音声データが含まれていない場合（Ｓ６３：ＮＯ）、ＣＰＵ１１０は、特別な処理を行うことなく、各ＰＣ１０２にデータを送信する（Ｓ７２〜Ｓ７５）。詳細には、各拠点から受信した拠点音声データを合成して符号化する（Ｓ７２）。次いで、いずれかのＰＣ１０２から資料画像データを受信している場合に、受信した資料画像データを他のＰＣ１０２に転送する（Ｓ７３）。ＣＰＵ１１０は、Ｓ６２で合成した拠点画像データを各ＰＣ１０２に送信する（Ｓ７４）。Ｓ７２で合成し符号化した拠点音声データを、各ＰＣ１０２に送信する（Ｓ７５）。処理はＳ６１へ戻り、Ｓ６１〜Ｓ７５の処理が繰り返される。

以上説明したように、第二の実施形態に係るサーバ１０１は、通信システム２００内で資料音声データを共有させる場合に、資料音声データの再生条件に応じて拠点音声データの出力を制御する。つまり、資料音声データが共有されている最中に、少なくともいずれかの拠点で発話等が行われた場合、拠点音声データの出力が適切に制御されるため、参加者は資料音声を容易に聞き取ることができる。詳細には、サーバ１０１は、各拠点のＰＣ１０２の各々に接続しているスピーカ３２，３３に対し、拠点音声データを資料音声データよりも小さい音量で出力する。従って、参加者は、他の参加者との間で共有する必要がある資料音声の内容を正確に把握し、テレビ会議を円滑に進行させることができる。

第二の実施形態に例示したように、本発明は、Ｐ２Ｐ型の通信システム１００（図１参照）のみならず、サーバ型の通信システム２００にも適用できる。この場合、資料音声の内容を参加者に正確に把握させるための処理は、サーバ１０１で行うこともできる。

第二の実施形態において、サーバ１０１が本発明の「通信装置」に相当する。ＰＣ１０２が「他の通信装置」に相当する。図７のＳ６３で資料データに資料音声データが含まれているか否かを判断するＣＰＵ１１０が「判断手段」として機能する。図７のＳ６６，Ｓ７１で、ＰＣ１０２に接続されたスピーカ３２，３３に対し、拠点音声データを資料音声データよりも小さい音量で送信（出力）するＣＰＵ１１０が、本発明の「出力制御手段」として機能する。図７のＳ６４でテキストデータを生成するＣＰＵ１１０が「テキスト生成手段」として機能する。図７のＳ６８で、ＰＣ１０２に接続された表示装置３５にテキストデータを送信（出力）するＣＰＵ１０が、本発明の「テキスト出力手段」として機能する。図７のＳ６３で資料データに資料音声データが含まれているか否かを判断する処理が「判断ステップ」に相当する。図７のＳ６６，Ｓ７１で、ＰＣ１０２に接続されたスピーカ３２，３３に対し、拠点音声データを資料音声データよりも小さい音量で送信（出力）する処理が、本発明の「出力制御ステップ」に相当する。

本発明は上記実施形態に限定されることはなく、様々な変形が可能であることは言うまでもない。例えば、上記第一の実施形態のＰＣ１、および第二の実施形態のサーバ１０１は、資料音声データが共有されている間は常に、拠点音声データを資料音声データよりも小さい音量で出力している（図４のＳ５、および図７のＳ６３参照）。しかし、ＰＣ１およびサーバ１０１は、資料音声データに音声を発生させる信号が存在する時間帯にのみ、拠点音声データを資料音声データよりも小さい音量で出力してもよい。具体的には、図７のＳ６３で資料音声データの共有中であると判断された場合に（Ｓ６３：ＹＥＳ）、ＣＰＵ１０１は、資料音声データに音声を発生させる信号が存在するか否かを判断すればよい。信号が存在すると判断した場合にＳ６６の処理を行い、信号が存在しない場合にはＳ７２の処理へ移行すればよい。第一の実施形態においては、図４のＳ５で資料音声データを含むと判断された場合に上記の処理を行えばよい。この場合、資料音声を含む共有資料が共有されていても、資料音声が発生していない間は拠点音声データの音量が小さくなることはない。よって、参加者は、拠点音声データを容易に聞き取ることができる。

上記第一の実施形態では、資料音声の内容を参加者に正確に把握させるための特徴的な処理は、主に、共有資料のデータを配信する配信元装置としてＰＣ１が動作する場合に実行される。つまり、ＰＣ１は、資料音声の共有中であるか否かに応じて拠点音声データの音量を設定した後に、データを他のＰＣ１へ送信する。しかし、資料音声の内容を参加者に正確に把握させるための処理は、共有資料のデータを受信する配信先装置としてＰＣ１が動作する場合に実行してもよい。具体的には、ＰＣ１は、図４のＳ２３において、他のＰＣ１から受信したデータに資料音声データが含まれるか否かを判断する。資料音声データを受信したと判断した場合に、拠点音声に含まれる発話をテキスト化して表示し、且つ、拠点音声データを資料音声データよりも小さい音量で出力する。この場合、ＰＣ１は、自らに接続している２つのスピーカ３２，３３の各々に、拠点音声データと資料音声データとを別々に出力することが望ましい。以上のように、ＰＣ１は、他のＰＣ１から受信した資料音声データおよび拠点音声データを、自装置に接続しているスピーカ３２，３３に出力する際に、２つの音声データの音量を制御してもよい。また、ＰＣ１は、自拠点の拠点音声をテキスト化して他のＰＣ１に送信してもよいが、他のＰＣ１から受信した拠点音声データからテキストデータを生成してもよい。また、本発明は、画像を用いずに行われる遠隔会議にも適用できる。

上記第二の実施形態では、資料音声の内容を参加者に正確に把握させるための特徴的な処理がサーバ１０１によって行われる。しかし、上記の特徴的な処理の一部をＰＣ１０２が実行してもよい。例えば、各拠点の発話内容をテキスト化する処理は、ＰＣ１０２が実行することも可能である。また、サーバを備えた通信システムにおいても、サーバに接続したＰＣ等の通信装置が上記の特徴的な処理を行うことも可能である。

本発明に係る通信装置は、資料音声データの再生条件に応じて拠点音声データの出力を制御する。具体的には、上記実施形態のＰＣ１およびサーバ１０１は、資料音声データの出力中であるか否か（再生条件）を判断し、出力中であれば、拠点音声データを資料音声データよりも小さい音量で出力する（出力を制御する）。しかし、拠点音声データの制御方法は変更できる。例えば、通信装置は、資料音声データを通常の速度で再生する場合には、拠点音声データの音量を資料音声データの音量よりも小さくし、早送り再生およびスロー再生の場合にはそのままの音量で出力してもよい。つまり、通常速度の再生であるか否かを「再生条件」としてもよい。また、通信装置は、資料音声が発話音声であるか、発話音声以外の音声（例えば、音楽）であるかを判断し、発話音声である場合にのみ拠点音声データの音量を小さくしてもよい。通信装置は、共有中の資料音声の再生回数が１回目であれば拠点音声データの音量を小さくし、再生回数が２回目以降であればそのままの音量で出力してもよい。また、通信装置は、拠点音声データの音量を資料音声データの音量よりも小さくする上記方法と共に、または上記方法に代えて、資料音声データの明瞭度を拠点音声データの明瞭度よりも高くすることで、資料音声データを聞き取り易くしてもよい。

上記実施形態では、ＰＣ１，１０２には２つのスピーカ３２，３３が接続されている。資料音声が共有されている場合、２つのスピーカ３２，３３の一方から資料音声が出力され、且つ他方から拠点音声が出力される。しかし、音声出力手段として採用できるのはスピーカ３２，３３に限られない。例えば、スピーカと、ユーザが片耳に装着するイヤホンとを、ＰＣ１，１０２に接続する。ＰＣ１またはサーバ１０１は、スピーカおよびイヤホンの一方から資料音声を出力し、他方から拠点音声を出力してもよい。この場合でも、上記実施形態と同様に、会議の参加者は２つの音声を容易に聞き分けることができる。

上記実施形態で説明した処理の一部を実行しない場合でも、本発明は実現できる。例えば、ＰＣ１およびサーバ１０１は、発話内容をテキスト化して表示させた方が、テレビ会議をより円滑に進行させることができる。しかし、ＰＣ１およびサーバ１０１は、テキスト化の処理を行わない場合でも、拠点音声データの出力を適切に制御することができるため、テレビ会議を円滑に進行させることができる。また、ＰＣ１およびサーバ１０１は、特に発話内容をテキスト化して表示させる場合には、拠点音声を出力させないように処理を行ってもよい。つまり、「拠点音声データを資料音声データよりも小さい音量で出力する」とは、拠点音声の音量をゼロとする場合、および拠点音声データを出力しない場合も含む。また、上記第二の実施形態では、サーバ１０１は音声等のデータを記憶する処理を行わない。しかし、サーバ１０１がデータを記憶する処理を行ってもよいことは言うまでもない。この場合、サーバ１０１は、テレビ会議の終了後に、記憶したデータをＰＣ１０２に配信すればよい。

１ＰＣ
１０ＣＰＵ
１３ＨＤＤ
３１マイク
３２第一スピーカ
３３第二スピーカ
３４カメラ
３５表示装置
１００，２００通信システム
１０１サーバ
１０２ＰＣ
１１０ＣＰＵ
１１３ＨＤＤ

Claims

音声を入力する音声入力手段によって入力された拠点音声の音声データである拠点音声データと、画像を撮像する撮像手段によって撮像された画像の画像データである拠点画像データと、他の通信装置との間で共有する共有資料の資料データとを、前記他の通信装置との間で送受信することが可能な通信装置であって、
前記資料データを送受信する場合に、送受信する前記資料データに音声データである資料音声データが含まれているか否かを判断する判断手段と、
前記判断手段によって前記資料データに前記資料音声データが含まれていると判断された場合に、前記資料音声データの再生条件に応じて、音声を出力する音声出力手段に対する前記拠点音声データの出力を制御する出力制御手段と、
前記判断手段によって前記資料データに前記資料音声データが含まれていると判断された場合に、前記拠点音声データに対して音声認識処理を行うことでテキストデータを生成するテキスト生成手段と、
前記テキスト生成手段によって生成された前記テキストデータを、テキストを表示する表示手段に出力するテキスト出力手段と
を備えたことを特徴とする通信装置。
前記出力制御手段は、前記資料音声データを出力する間、前記音声出力手段に対し、前記拠点音声データを前記資料音声データよりも小さい音量で出力することを特徴とする請求項１に記載の通信装置。
前記出力制御手段は、前記判断手段によって前記資料データに前記資料音声データが含まれていると判断された場合に、前記拠点音声データと前記資料音声データとをそれぞれ異なる前記音声出力手段に出力することを特徴とする請求項１または２に記載の通信装置。
前記出力制御手段は、前記拠点音声データと前記資料音声データとをそれぞれ異なるスピーカに出力することを特徴とする請求項３に記載の通信装置。
データを記憶手段に記憶させる記憶制御手段をさらに備え、
前記出力制御手段によって出力が制御された前記拠点音声データと、前記拠点画像データと、前記資料音声データを含む前記資料データと、前記テキスト生成手段によって前記拠点音声から生成された前記テキストデータとを、前記記憶制御手段によって記憶することを特徴とする請求項１から４のいずれかに記載の通信装置。
前記出力制御手段は、前記資料データの送受信中において、前記資料音声データに音声を発生させる信号が存在する時間帯にのみ、前記音声出力手段に対する前記拠点音声データの出力を前記資料音声データの再生条件に応じて制御することを特徴とする請求項１から５のいずれかに記載の通信装置。
音声を入力する音声入力手段によって入力された拠点音声の音声データである拠点音声データと、画像を撮像する撮像手段によって撮像された画像の画像データである拠点画像データと、他の通信装置との間で共有する共有資料の資料データとを、前記他の通信装置との間で送受信することが可能な通信装置によって行われる通信方法であって、
前記資料データを送受信する場合に、送受信する前記資料データに音声データである資料音声データが含まれているか否かを判断する判断ステップと、
前記判断ステップにおいて前記資料データに前記資料音声データが含まれていると判断された場合に、前記資料音声データの再生条件に応じて、音声を出力する音声出力手段に対する前記拠点音声データの出力を制御する出力制御ステップと、
前記判断ステップにおいて前記資料データに前記資料音声データが含まれていると判断された場合に、前記拠点音声データに対して音声認識処理を行うことでテキストデータを生成するテキスト生成ステップと、
前記テキスト生成ステップにおいて生成された前記テキストデータを、テキストを表示する表示手段に出力するテキスト出力ステップと
を備えたことを特徴とする通信方法。
音声を入力する音声入力手段によって入力された拠点音声の音声データである拠点音声データと、画像を撮像する撮像手段によって撮像された画像の画像データである拠点画像データと、他の通信装置との間で共有する共有資料の資料データとを、前記他の通信装置との間で送受信することが可能な通信装置で用いられる通信プログラムであって、
前記資料データを送受信する場合に、送受信する前記資料データに音声データである資料音声データが含まれているか否かを判断する判断ステップと、
前記判断ステップにおいて前記資料データに前記資料音声データが含まれていると判断された場合に、前記資料音声データの再生条件に応じて、音声を出力する音声出力手段に対する前記拠点音声データの出力を制御する出力制御ステップと、
前記判断ステップにおいて前記資料データに前記資料音声データが含まれていると判断された場合に、前記拠点音声データに対して音声認識処理を行うことでテキストデータを生成するテキスト生成ステップと、
前記テキスト生成ステップにおいて生成された前記テキストデータを、テキストを表示する表示手段に出力するテキスト出力ステップと
を前記通信装置のコントローラに実行させるための指示を含む通信プログラム。