JP2005045737A

JP2005045737A - 通話装置及び通話方法、並びに通話システム

Info

Publication number: JP2005045737A
Application number: JP2003280429A
Authority: JP
Inventors: Akihiro Hokimoto; 晃弘保木本; Tadayuki Hattori; 忠幸服部; Satoru Kawabata; 哲川畑; Yoshiyuki Kunito; 義之國頭
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-07-25
Filing date: 2003-07-25
Publication date: 2005-02-17

Abstract

【課題】ＢＧＭ等の音量レベルを通話相手が制御する技術は想定されていなかった。
【解決手段】ＢＧＭ受信側端末は、ユーザからの入力に基づきＲＴＣＰアプリケーション固有情報に変更した音量、例えば音量を下げる場合には、現在の音量と、音量の変更量としてマイナスの値を付加し、受信者情報として送信側に送る。送信側は、ＲＴＣＰパケットから音量の変更量を取りだし、ゲイン調整部２１の係数ｋ３を下げる。
【選択図】図２

Description

本発明は高い音質環境下での通話を可能とする例えばインターネットのようなネットワークを用いた通話装置及び通話方法に関し、通話音声の他にバックグランドミュージック（Back ground music：ＢＧＭ）或いは効果音（Sound effect：ＳＥ）を送受信する通話装置及び通話方法、並びに通話システムに関する。

本件出願人は、特開２０００−４９９４８号公報にて、電話会議システム等の通話装置において、会話の中心となる相手の話の聞き分けを容易にし、使い勝手をよくするための技術を開示した。この技術は、通話中の各人の音声の重なりを判定し、音声の重なりに応じて通話中の各人の音声のレベルを調整するという構成である。

また、本件出願人は、特開２００２−３４４５７１号公報にて、音楽を聴きながら通話を行うことができるようにし、より楽しく通話を楽しむことができる通話装置及び通話方法等に関する技術を開示した。この通話装置は、ＢＧＭとして用いる音楽コンテンツデータを記憶手段に記憶しており、相手と通話する通話手段により通話が行われているとき、再生手段により記憶手段から音楽コンテンツを再生する。このとき、制御手段により、相手からの音声とコンテンツの再生音の両方が聞こえるように制御している。また、通話手段は、コンテンツの再生音を相手側にも送信する。なお、通話中にあってＢＧＭとして用いる音楽の再生レベルは、予め設定されている所定のレベルに低下させる。この技術により、ユーザは、通話しつつ、音楽をＢＧＭとして楽しむことが可能となる。

また、本件出願人は、特開平７−１４３２２１号公報にて、保留音として用いる複数の音楽コンテンツを外部から電話回線を介して取り込み、識別データに対応付けて光磁気ディスクに記録し、識別データに基づいたユーザの選択等に応じて保留音として再生することができる電話装置に関する技術を開示した。

特開２０００−４９９４８号公報特開２００２−３４４５７１号公報特開平７−１４３２２１号公報

ところで、前記特許文献１に開示された技術では、前記特許文献２や特許文献３で使用されるＢＧＭ等の音量レベルを通話相手が制御する技術は想定されていなかった。

もちろん、通話音とＢＧＭ等の音量レベルを別々に調節する技術も未だ開示されてはいなかった。

本発明に係る通話装置は、前記課題を解決するために、ネットワークを介して音声による対話のための双方向通信を行う通話装置において、送信系として、収音した音声を電気信号に変換する音声変換手段からの音声信号に可変のゲイン係数を乗じてゲインを調整する第１のゲイン調整手段と、音のデータをファイル単位で記憶している音データ記憶手段と、前記音データ記憶手段から読み出したファイル単位の音データをデコードするデコード手段と、前記デコード手段からのデコード出力に可変のゲイン係数を乗じてゲインを調整する第２のゲイン調整手段と、前記第１のゲイン調整手段からの第１の出力と前記第２のゲイン調整手段からの第２の出力とを合成する合成手段と、前記合成手段の合成出力をエンコードするエンコード手段と、前記エンコード手段からのエンコード出力を前記ネットワークに送信する送信手段とを備え、受信系として、前記ネットワークを介して他の通話装置の送信手段から送信されてきたエンコード出力を受信する受信手段と、前記受信手段で受信されたエンコードデータをデコードするデコード手段と、前記デコード手段からのデコード出力に可変のゲイン係数を乗じてゲインを調整する第３のゲイン調整手段と、前記第３のゲイン調整手段からの出力を音に変換して出力する音出力手段とを備え、さらに、送信側にて設定されて送信されてきた前記合成出力に含まれる音の音量調節を制御する制御手段とを備える。

ＲＴＰの受信側より、ＲＴＣＰを用いてＢＧＭの音量制御やＢＧＭ拒否の情報を送信側に通知する。通知された送信側は、その情報を基にＢＧＭの音量調節やＢＧＭのミキシングをやめる。

本発明の通話装置によれば、送信側の利用者だけでなく、受信側の利用者からも好みに合わせて、ＢＧＭの音量を適切に制御できるようになる。

本発明の通話方法によれば、送信側の利用者だけでなく、受信側の利用者からも好みに合わせて、ＢＧＭの音量を適切に制御できるようになる。

本発明の通話システムによれば、送信側の利用者だけでなく、受信側の利用者からも好みに合わせて、ＢＧＭの音量を適切に制御できるようになる。

以下、本発明を実施するための最良の形態としてボイス・オーバー・アイピー（Voice over IP：ＶｏＩＰ）と呼ばれるインターネット電話のプロトコルに従ったＶｏＩＰ通話システムに用いられるＶｏＩＰクライアントを挙げる。

ＶｏＩＰクライアントを詳細に説明する前に、先ず、ＶｏＩＰ通話システム１の概略について説明する。このＶｏＩＰ通話システムは、ＶｏＩＰクライアント間の通話音声の他にバックグランドミュージック（Back ground music：ＢＧＭ）或いは効果音（Sound effect：ＳＥ）を送受信する。

図１に示すように、ＶｏＩＰクライアント（Client）２は、例えば公衆回線等３によりインターネット４に接続され、同じくインターネット４に接続されている他のＶｏＩＰクライアント５と音声による対話のための双方向の通信を行う。インターネット４には、ＶｏＩＰサーバ（Server）６も接続されており、ＶｏＩＰに基づいた通信の制御等を行う。なお、このＶｏＩＰ通話システム１では、ＶｏＩＰクライアント２とＶｏＩＰクライアント５の二者間の通話を例に挙げるが、ＶｏＩＰクライアントは二つに限らず、よって通話システムへの参加者は２以上であることはもちろんである。

インターネット４は、一般公衆回線などの通信回線や、情報通信ネットワークを複数接続することによって世界中に拡がったネットワーク環境である。現在、広帯域、高速な通信回線の普及によってブロードバンド伝送（Broadband Transmission）を可能としている。光ファイバー、非対称ディジタル加入者線、無線等を用い、500kbps以上の通信回線でネットワークを構成している。

ＶｏＩＰサーバ６は、ＶｏＩＰ通話システム１にあって契約者のＩＰアドレスの管理や、認証、あるいは通信の制御を行う。ワークステーションのようなコンピュータより構成されている。もちろん、課金処理のためのサーバや、契約者のＩＰアドレス他管理情報を処理するサーバを別に設けてもよい。

ＶｏＩＰクライアント２は、マイクロフォンとスピーカ、又はマイクロフォン７ａとヘッドフォン７ｂとをセットにしてなり使用者が装着するヘッドセット７を接続した例えばパーソナルコンピュータ（Personal computer：ＰＣ）である。ＰＣがソフトウェアで実現されるＶｏＩＰクライアントプログラム２ａを実行することによりＶｏＩＰクライアント２になる。なお、以下では、ＶｏＩＰクライアント２がＶｏＩＰクライアント５に電話をかける場合、つまりＶｏＩＰクライアント２が始めに送信し、ＶｏＩＰクライアント５が受信するという状況を想定する。もちろん、ＶｏＩＰクライアント５も、ＶｏＩＰクライアントプログラム５ａを実行するＰＣよりなり、始めに送信側となるときには本発明に基づいて同様の動作を行う。

送信側であるＶｏＩＰクライアント２は、ＶｏＩＰ通話中に背景音として例えば数分間単位の連続した時間継続する音である音楽（Back ground music：ＢＧＭ）等や、例えば数秒間単位の効果音（Sound effect：ＳＥ）を通話音声にミキシングすることができる。

また、受信側であるＶｏＩｐクライアント５は、通話中において、送信側にて設定されて送信されてきたＢＧＭの拒否や音量調節を制御することができる。

以下、ＶｏＩＰクライアント２が背景音や効果音の音量レベルを個別に調整できる構成及び動作、またＶｏＩＰクライアント５が通話中において、送信側にて設定されて送信されてきたＢＧＭの拒否や音量調節を制御する構成及び動作について図２を参照して説明する。ＶｏＩＰクライアント２，５は、ＶｏＩＰクライアントプログラム２ａ，５ａを実行することにより、送信系、受信系がそれぞれ機能的に以下に説明するように構成される。先ず、送信系１０にあって、マイクロフォン７ａにて収音されて電気信号に変換されたユーザの音声に基づく電気信号はマイクキャプチャー部１１にて取り込まれる。マイクキャプチャー部１１が取り込んだ音声に基づく電気信号には、ユーザが設定するマイク音量レベルであるゲイン係数ｋ１がゲイン調整部１２により乗算される。このゲイン調整部１２の乗算出力は、加算部１３に供給される。

また、ＶｏＩＰクライアント２は、例えば、マシンガンの銃声、雷鳴、拍手音、笑い声など、数秒間単位の効果音を例えばＰＣＭデータにしてからそれぞれＭＰ３（MPEG-1 Audio Layer-III）や、MPEG4、あるいはＡＴＲＡＣ（Adaptive Transform Acoustic Coding）等の圧縮技術により予め圧縮し、ファイル単位のＳＥデータとしてＳＥファイル記憶部１４に複数ファイル分記憶している。ＳＥファイル記憶部１４としては、後述するようなハードディスクドライブ（ＨＤＤ）や、ＲＯＭ、光磁気ディスクが挙げられる。

また、ＶｏＩＰクライアント２は、例えば、波の音、小鳥のさえずり、或いは様々なジャンルの音楽などよりなる、数分間単位の背景音を例えばＰＣＭデータにしてからそれぞれＭＰ３や、MPEG4、あるいはＡＴＲＡＣ等の圧縮技術により予め圧縮し、ファイル単位のＢＧＭデータとしてＢＧＭファイル記憶部１５に複数ファイル分記憶している。

ＳＥファイル記憶部１４に記憶されているＳＥファイルは、使用者の所望によって選択されるとＳＥファイル読み出し部１６によって図示しないＲＡＭに読み出されながらデコード部１７にてデコードされてＰＣＭデータとなる。デコード部１７のデコード出力（ＰＣＭデータ）には、ユーザが設定するＳＥ音量レベルであるゲイン係数ｋ２がゲイン調整部１８により乗算される。このゲイン調整部１８の乗算出力は、加算部１３に供給される。

ＢＧＭファイル記憶部１５に記憶されているＢＧＭファイルも、使用者の所望によって選択されるとＢＧＭファイル読み出し部１７によって図示しないＲＡＭに読み出されながらデコード部２０にてデコードされてＰＣＭデータとなる。デコード部２０のデコード出力には、ユーザが設定するＢＧＭ音量レベルであるゲイン係数ｋ３がゲイン調整部２１により乗算される。このゲイン調整部２１の乗算出力は、加算部１３に供給される。加算部１３は、３つのゲイン調整部１２、１８、２１の乗算出力を飽和処理をしつつ加算し、加算出力をエンコード部２２に供給する。

エンコード部２２は、加算部１３の加算出力（ＰＣＭデータ）をＭＰ３や、MPEG4、あるいはＡＴＲＡＣ等の圧縮技術により数十ｋbps、例えば６４kbpsに圧縮する。このエンコード部２２が行う、ＭＰ３や、MPEG4、あるいはＡＴＲＡＣ等の圧縮技術は、ＣＤで採用されているＰＣＭオーディオデータ等に対して施される高能率の音響圧縮符号化復号化技術である。よって、パケット化されてからインターネットを介して伝送され、受信側にて再生されたオーディオは、ステレオ２チャンネル化が可能であり、また高音質である。

この圧縮データは、リアルタイム・トランスポート・プロトコル（Real-time Transport Protocol：ＲＴＰ）に従ってデータをパケット化するＲＴＰパケット化（packetize）部２３に供給される。ＲＴＰパケット化部２３は、前記圧縮データをＲＴＰのパケットに入れ、さらにＵＤＰ、ＩＰとパケッタイズする。ＲＴＰに従ったパケット化については詳細を後述する。パケット化されたパケットデータは送信処理部２４からインターネットに送られる。

受信系３０にあって、インターネット４を介して他のＶｏＩＰクライアント５から送信されてきたパケットデータは受信処理部３１によって受信される。受信処理部３１で受信されたパケット化データは、ＲＴＰデパケット化（depacketize）部３２にて解かれる。デジッタ（de-jitter）部３３は、ＲＴＰデパケット化部３２にてＩＰ、ＵＤＰから解かれたＲＴＰのタイムスタンプ、シーケンシャルナンバーを基に到着時間の補正を行う。

パケット補償（packet loss compensator）部３４は前記ＲＴＰのタイムスタンプ、シーケンシャルナンバーを基にパケット損失の補償を行い、補償データをデコード部３５に送る。デコード部３５は、到着時間の補正、パケットロスの補償が行われた圧縮データをＰＣＭデータにデコードし、ＰＣＭデータをゲイン調整部３６に送る。ゲイン調整部３６は、前記ＰＣＭデータに使用者が設定する再生音量レベルであるゲイン係数ｋ５を乗算する。このゲイン調整部３６の乗算出力は加算部３７に送られる。また、送信される音声を通話相手と共有するため、ゲイン調整部３８において送信音声データに使用者が設定するループバック音量レベルであるゲイン係数ｋ４を乗算する。ゲイン調整部３８の乗算出力も加算部３７に供給される。

さらに、このＶｏＩＰクライアント２は、着信音（Ring Tone）を例えばＰＣＭデータにしてからそれぞれＭＰ３や、MPEG4、あるいはＡＴＲＡＣ等の圧縮技術により予め圧縮し、ファイル単位の着信音データとして着信音ファイル記憶部３９に複数ファイル分記憶している。

着信音ファイル記憶部３９からの着信音ファイルは、使用者の所望によって予め選択されており、着信のタイミングに従ってリングトーン読み出し部４０によって図示しないＲＡＭに読み出され、デコード部４１にてＰＣＭデータにデコードされる。デコード部４１のデコード出力は、ゲイン調整部４２及びゲイン調整部４３に供給される。ゲイン調整部４２は、使用者が設定するヘッドフォン着信音量レベルであるゲイン係数ｋ６をリングトーンのデコード出力（ＰＣＭデータ）に乗算して加算部３７に供給する。加算部３７は、ゲイン調整部３６の乗算出力である通話音声と背景音等のミキシング出力（ＰＣＭデータ）にゲイン調整部３８の乗算出力である自分の通話音のＰＣＭデータとを加算し、加算出力をヘッドフォン再生部４４に供給する。ヘッドフォン再生部４４は、前記加算出力をアナログ信号に変換してから増幅し、ヘッドフォン７ｂに供給する。ヘッドフォン７ｂは、使用者の耳に前記ミキシング出力を発音する。

また、加算部３７は、他のＶｏＩＰクライアント５からの電話がかかってきたタイミングにて、リングトーンファイル読み出し部４０が読み出したリングトーンファイルのデコード出力（ＰＣＭデータ）に使用者が設定したヘッドフォン着信音量レベルであるゲイン係数ｋ６の乗算されたデータを、ヘッドフォン再生部４４に供給する。ヘッドフォン再生部４４は、前記ゲイン係数ｋ６の乗算されたリングトーンデータをアナログ信号に変換してからヘッドフォン７ｂに供給する。よって、ヘッドフォン７ｂは他のＶｏＩＰクライアント５からの電話がかかってきたタイミングで、使用者が設定したヘッドフォン着信音量レベルの着信音を使用者の耳に発音する。

ゲイン調整部４３は、デコード部４１からのデコード出力であるリングトーンのＰＣＭデータに使用者の設定するスピーカ着信音音量レベルであるゲイン係数ｋ７を乗算し、スピーカ再生部４５に供給する。スピーカ再生部４５は、前記乗算出力をアナログ信号に変換してから増幅しスピーカ４６に供給する。スピーカ４６は、使用者がスピーカ用に設定したスピーカ着信音音量レベルの着信音を発音する。

次に、ＲＴＰに基づいたパケット化及びデパケット化について説明しておく。ＲＴＰは、インターネット等のＩＰネットワークにおいて、リアルタイムに音声や動画を送信／受信するトランスポートプロトコルである。ＲＦＣ１８８９で勧告されている。ＲＴＰは、トランスポート層に位置し、一般にユーザ・データグラム・プトロコル（User Datagram Protocol：ＵＤＰ）上でリアルタイム・コントロール・プトロコル（Real-time Control Protcol）とともに用いられる。

ＲＴＰパケットは、図３に示すように、ＩＰヘッダ、ＵＤＰヘッダ、ＲＴＰヘッダ及びＲＴＰデータからなる。ＲＴＰヘッダには、バージョン情報（Verasion：Ｖ）、パディング（Padding：Ｐ）、拡張ヘッダ（extension：Ｘ）の有無、送信元（Contoributing source：ＣＲＳＣ）数、マーカ情報（Marker：Ｍ）、ペイロードタイプ（Payload Type：ＰＴ）、シーケンス番号（Sequence Number）、ＲＴＰタイムスタンプ、同期送信元（Sychronization Source：ＳＳＲＣ）識別子、及び寄与送信元（Contoributeing source：ＣＲＳＣ)識別子を格納する各フィールドが設けられている。

図２におけるＲＴＰパケット化部２３は、エンコード部２２の出力である圧縮データを、前述したＲＴＰに従ってパケット化する。圧縮データそのものは図３に示すＲＴＰデータ部分に含まれる。このＲＴＰパケットを送信処理部２４からインターネット４を介して他のＶｏＩＰクライアント（例えば図１のＶｏＩＰクライアント５）に送る。

他のＶｏＩＰクライアント５の受信系３０では、受信処理部３１により前記ＲＴＰパケットを受信する。ここでは、他のＶｏＩＰクライアント５の動作になるが、図２を用いて説明する。ＲＴＰデパケット化部３２は、ＲＴＰヘッダとＲＴＰデータをＩＰヘッダ、ＵＤＰヘッダから分離する。ＲＴＰヘッダに格納されているシーケンス番号及びタイプスタンプをデジッタ部３３に送る。

デジッタ部３３は、前記シーケンス番号及びタイプスタンプを基に到着時刻の不均等を補正する。ＲＴＰパケットは、他のデータが伝送されているインターネットによって送信されてくるので、伝送が込んでいるときの影響を受けたりし、その到着時刻は等間隔ではない。時間軸上で詰まったり、伸びたりして、通信間隔が不均等になることがある。そこで、デジッタ部３３は、前記シーケンス番号及びタイプスタンプを基に補正し、等間隔とする。

また、パケット補償部３４は、前記シーケンス番号及びタイプスタンプを基にパケットの損失を補正する。ＲＴＰパケットは、インターネットによって送受信されるので、パケットが欠落したり、受信不能になることがある。そこで、パケット補償部３４は、欠落したパケットの代わりにその前又は後ろのパケットと同じパケットを使用したり、欠落したデータを０にする等してパケットの損失を補償する。

そして、デコード部３５は、到着時刻が補正され、パケット損失が補償された前記通話音と背景音等のミキシングデータをデコードし、ＰＣＭデータにする。

このような機能構成のＶｏＩＰクライアント２にあって、特徴的となるのは、通話音はもちろん、背景音の音量レベルも個別に調整することができることである。

通話音の音量レベルの調整は、ゲイン調整部１２にて音声データにユーザが設定するマイク音量レベルであるゲイン係数ｋ１を乗算することによって行われる。また、効果音又はＢＧＭの音量レベルの調整は、ゲイン調整部１８、又はゲイン調整部２１にて各オーディオデータにユーザが設定するＳＥ音量レベルであるゲイン係数ｋ２、又はＢＧＭ音量レベルであるゲイン係数ｋ３を乗算することによって行われる。

各ゲイン調整部１２、ゲイン調整部１８、ゲイン調整部２１にて音量レベルが調整された後の、通話音データ、効果音又はＢＧＭのオーディオデータは加算部１３にて合成され、エンコード部２２にてエンコードされた後、ＲＴＰパケット化部２３にてパケット化され、送信処理部２４から通話相手の他のＶｏＩＰクライアント５に送信される。

通話相手のＶｏＩＰクライアント５は、インターネット４を介して伝送されてきたＲＴＰパケットを受信処理部３１にて受信し、ＲＴＰデパケット化部３２によりデパケット化し、デジッタ部３３により到着時刻の間隔を補正し、パケット補償部３４によりパケット損失を補償した後、デコード部３５にてＰＣＭデータにデコードする。デコードされた後のオーディオデータ（ＰＣＭデータ）には、受信側使用者により、音量レベルであるゲイン係数ｋ５がゲイン調整部３６により乗算されて、送信者からの通話音を、ＢＧＭ又はＳＥとミキシングした状態でヘッドフォン４４により聞くことができる。

また、このＶｏＩＰクライアント２，５は、通話中において、送信側にて設定されて送信されてきたＢＧＭの拒否や音量調節を制御するために、図２に示すように、ＢＧＭゲイン制御信号に応じてゲイン調整部２１の係数ｋ３を制御するとともに前記制御信号に基づいたゲインパラメータを生成するゲインコントローラ１２０と、このゲインコントローラ１２０から供給されたゲインパラメータを後述するＲＴＣＰ（Real-time Transport Control Protocol）パケット内に格納するためのアプリケーション固有情報とするＲＴＣＰ処理部１２１と、このＲＴＣＰ処理部１２１からのアプリケーション固有情報をＲＴＣＰパケット内に格納し、送信処理部２４に供給するＲＴＣＰパケット化部１２２とを備える。

また、このＶｏＩＰクライアント２，５は、受信処理部３１にて送信側の他のＶｏＩＰクライアントから送られてきたＲＴＣＰパケットをデパケット化し、アプリケーション固有情報を取り出してＲＴＣＰ処理部１２１に供給するするＲＴＣＰデパケット化部１２３を備える。ＲＴＣＰ処理部１２１は、アプリケーション固有情報からゲインパラメータを取りだしゲインコントローラ１２０に供給する。

ＲＴＣＰは、ＲＴＰが音声・動画像データそのものを送信／受信するプトロコルであるのに対し、周期的に、パケットロス、遅延ジッタ、ラウンドトリップ等の回線品質を評価し、その帯域に見合ったリアルタイム通信を実現するための情報を送信／受信するプロトコルである。

このＲＴＣＰを用いることにより、相手からフィードバックされている情報により、ネットワークの状態などを推測して送信レートを変更するなどの動的な処理を行うことができる。また、今誰がデータを送信していて、誰が受信しているかを示す情報もＲＴＣＰパケットで同時に送っているので、今現在の通話者の情報を知ることもできる。

ＲＴＣＰパケットは、図４に示すように、ＩＰヘッダ、ＵＤＰヘッダ、ＲＴＣＰヘッダ及びＲＴＣＰデータからなる。ＲＴＣＰヘッダには、バージョン情報（Verasion：Ｖ）、パディング（Padding：Ｐ）、サブタイプ（subtype）、パケットタイプ（PcketType）、レングス（Length）情報、ＳＳＲＣ／ＣＳＲＣ識別子、アスキー（ＡＳＣＩＩ）で記述されるＮａｍｅが記述されている。さらに、この後に、アプリケーション固有の情報が付加される。

このＶｏＩＰクライアント２，５にあっては、アプリケーション固有の情報には、ＢＧＭ音量制御のために、最大音量、現在の音量、音量の変更量（プラスの値：音量大、マイナスの値：音量小）がゲインパラメータに基づいて記述されている。

以上に説明したＲＴＰパケット、ＲＴＣＰパケットを用いたＶｏＩＰクライアント２とＶｏＩＰクライアント５間のＢＧＭ送受信動作について図５、図６を参照して説明する。ここでは、ＶｏＩＰクライアント２をＢＧＭ送信側端末、ＶｏＩＰクライアント５をＢＧＭ受信側端末とする。

先ず、通常の動作は、図５に示すように、ＢＧＭ送信側端末において、図２のＲＴＣＰ処理部１２１、ＲＴＣＰパケット化部１２２がＲＴＣＰ処理を行い、送信者情報をＲＴＣＰパケットにして送信処理部２４からＢＧＭ受信側端末に送る。そして、図２のＲＴＰパケット化部２３がＲＴＰ処理を行い、エンコードされたＢＧＭをＲＴＰパケットにして送信する。ＲＴＰパケットは、複数個任意の時間間隔で送信される。ＢＧＭ受信側端末は、受信したＲＴＣＰパケットに記述されているウォールクロックタイム（Wall Clock Time）を用いて送信端末のクロック速度を推定する。この推定したクロック速度を用いてパケットから取り出されたＲＴＰデータを繋ぎ合わせながら前記デジッタ処理や、パケット補償処理を行い、デコードしてゲイン調整部３６に渡す。また、受信したパケットからパケットの破棄率や、ジッタを計算し、受信側ＲＴＣＰで送信する。送信側では、前記受信側ＲＴＣＰから前記パケットの破棄率や、ジッタ情報を取りだし、次のＲＴＰパケット送信の制御に用いる。

次に、受信側がＢＧＭの音量を制御する処理について図６を参照して説明する。ＢＧＭ送信側端末から図２のＲＴＣＰ処理部１２１、ＲＴＣＰパケット化部１２２がＲＴＣＰ処理を行い、ＢＧＭの音量情報をＲＴＣＰアプリケーション固有情報として付加した送信者情報をＲＴＣＰパケットにして送信処理部２４からＢＧＭ受信側端末に送る。そして、図２のＲＴＰパケット化部２３がＲＴＰ処理を行い、エンコードされたＢＧＭをＲＴＰパケットにして送信する。ＲＴＰパケットは、複数個任意の時間間隔で送信される。ＢＧＭ受信側端末は、ユーザからの入力に基づきＲＴＣＰアプリケーション固有情報に変更した音量、例えば音量を下げる場合には、現在の音量と、音量の変更量としてマイナスの値を付加し、受信者情報として送信側に送る。送信側は、前記ＲＴＣＰパケットから音量の変更量を取りだし、ゲイン調整部２１の係数ｋ３を下げる。

このように、ＲＴＰの受信側より得られるＲＴＣＰにユーザ操作に基づいてＢＧＭの音量制御やＢＧＭ拒否の情報をアプリケーション固有情報内に入れ、送信側に通知する。通知された送信側は、その情報を基に、ゲイン調整部１８，あるいはゲイン調整部２１の係数ｋ２、ｋ３を制御し、ＢＧＭの音量やＳＥの音量を制御したり、ＢＧＭ、ＳＥのミキシングを停止する制御を行うことができる。

このＶｏＩＰクライアント２は、次の図７に示す開放型システム間相互接続（Open System Interconnection：ＯＳＩ）のアーキテクチャに基づく各階層のプロトコルに応じたソフトウェアモジュールを実行することにより前記図２に示した機能を達成する。

図７において下位層から上位層に向かって各階層を説明する。先ず、物理層としての機能にはユニバーサル・シリアル・バス（Universal Serial Bus：ＵＳＢ）カメラドライバー、ＵＳＢオーディオドライバ及び各種ドライバがある。カメラドライバからのビデオデータやオーディオドライバからのオーディオデータの伝送条件の物理的条件を合わせるレイヤである。次に、データリンク層としての機能には、オペレーティングシステム（Operating System：ＯＳ）がある。隣接ノード間の誤りのないデータ転送を実行するためのものである。

ネットワーク層としての機能には、インターネットプロトコル（Internet Protocol：ＩＰ）がある。ネットワーク層は、データ送受信に使用する通信経路を選択し、フロー制御・品質制御などの通信制御を行うところである。信頼性を追求しないコネクションレス（Conectionless)パケット転送プロトコルであるＩＰは、信頼性保証機能、フロー制御機能、エラー回復機能を上位階層（トランスポート層とアプリケーション層）に任せている。

トランスポート層としての機能には、トランスポート・コントロール・プロトコル（Transport Control Protocol）／ユーザ・データグラム・プロトコル（User Datagram Protocol）がある。トランスポート層では、ＩＰアドレスを使用してエンド・ツー・エンドの伝送を行う。ネットワークの種類に依存せず、要求される品質クラスに従ってフロー制御や順序制御を行う。ＴＣＰは信頼性保証機能を持ち、転送したデータの各バイトにシーケンス番号を付け、受信側から受け取り通知（ＡＣＫ）が送られてこなければデータを再送する。ＵＤＰは、アプリケーション間のデータグラムの送信機能を提供する。ＩＰネットワークを用いて、音声・動画像をストリーミング再生する場合、一般にエラー時に再送を行うＴＣＰのようなトランスポートプロトコルは使用できない。また、ＴＣＰは、１対１通信用のプロトコルであり、複数の相手に情報を送信することができない。そこで、このような用途には、ＵＤＰが用いられる。

ＵＤＰは、アプリケーションのプロセスがリモートマシン上の他のアプリケーションのプロセスへデータを転送することを、最小のオーバーヘッドで行えるように設計されている。そのため、ＵＤＰのヘッダに入る情報は、送信元ポート番号、宛先ポート番号、データ長、チェックサムのみであり、ＴＣＰにあるパケットの順序を表す番号を入れるフィールドがないので、ネットワーク上で異なる経路を介して伝送されるなどによりパケットの順序が入れ替わってしまった場合に、その順序を正しい状態に戻す処理を行うことができない。また、送信時のタイムスタンプ等の時間情報を入れるフィールドは、ＴＣＰにもＵＤＰにもない。

セッション層としての機能には、セッション・イニシエーション・プロトコル（Session Initiation Protocol：ＳＩＰ）と、本発明の要部となる前記通話音とＢＧＭ又はＳＥの合成処理ソフトウェアに必要とされるモジュールがある。保留音発生とＢＧＭ合成と着信音発生とコーデック（codec）とＲＴＰである。セッション層は、情報の転送制御を行う。アプリケーション間における対話モードを管理して会話単位の制御を行う。ＳＩＰは、ＩＰネットワーク上でマルチメディアセッションを確立・変更・終了するための、アプリケーション層のシグナリングプロトコルである。ＲＦＣ３２６１で標準化されている。

プレゼンテーション層としての機能には、ＶｏＩＰ通話制御がある。プレゼンテーション層では、アプリケーションで送受信する情報の表現形式を管理して、データの変換や暗号化を行う。

アプリケーション層としての機能には、グラフィカルユーザインターフェース（Graphical User Interface：ＧＵＩ）がある。アプリケーション層では、ユーザプログラムで使用する通信機能の外部仕様を管理して、それに基づく情報のやり取りを行う。

次に、実際に前記ソフトウェアモジュールを実行するＶｏＩＰクライアント２のハードウェア構成を説明する。図８はＶｏＩＰクライアント２の構成を表している。図８において、ＣＰＵ（Central Processing Unit）５１は、ＲＯＭ（Read Only Memory）５２に記憶されている前記ソフトウェアモジュールを構成する各種プログラム、または記憶部５８からＲＡＭ（Random Access Memory）５３にロードされた前記ソフトウェアモジュールを構成する各種プログラムに従って各種の処理を実行する。ＲＡＭ５３にはまた、ＣＰＵ５１が各種の処理を実行する上において必要なデータなども適宜記憶される。

ＣＰＵ５１，ＲＯＭ５２及びＲＡＭ５３は、バス５４を介して相互に接続されている。このバス５４にはまた、入出力インターフェース５５も接続されている。入出力インタフェース５５には、キーボード、マウスなどよりなる入力部５６、ＣＲＴ、ＬＣＤなどよりなるディスプレイ、並びに、ヘッドフォンやスピーカなどよりなる出力部５７、ハードディスクなどより構成される記憶部５８、モデム、ターミナルアダプタなどより構成される通信部５９が接続されている。ヘッドセット７のマイクロフォン７ａは入力部５６に含まれる。また、ヘッドフォン７ｂは出力部５７に含まれる。

通信部５９は、インターネット４を介しての通信処理を行う。ＣＰＵ５１から提供されたデータを送信する。また通信部５９は通信相手から受信したデータをＣＰＵ５１、ＲＡＭ５３、記憶部５８に出力する。記憶部５８はＣＰＵ５１との間でやり取りし、情報の保存・消去を行う。通信部５９はまた、他のクライアントとの間で、アナログ信号またはデジタル信号の通信処理を行う。

入出力インタフェース５５にはまた、必要に応じてドライブ６０が接続され、磁気ディスク６１、光ディスク６２、光磁気ディスク６３、或いは半導体メモリ６４などが適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部５８にインストールされる。

なお、記憶部５８は例えばＨＤＤであり、図２に示したＳＥファイル記憶部１４、ＢＧＭファイル記憶部１５、着信音ファイル記憶部３９を構成する。

以上のハードウェア構成は、ＶｏＩＰクライアント２及び５の構成を示すとともに、ＶｏＩＰサーバ６や、後述のＷｅｂサーバの構成を示すものでもある。

次に、出力部５７を構成するディスプレイに表示されるＧＵＩ（Graphical Use Interface）について図９を参照して説明する。このＧＵＩは、ＶｏＩＰクライアントのアプリケーション層に属する。ＰＣをユーザが視覚的に操作するためのインターフェースであり、ユーザの手入力情報をハンドリングする。送信側のＶｏＩＰクライアントはもちろん、受信側のＶｏＩＰクライアントにも表示される。このＧＵＩは、上部から下部に向かって、アプリケーション制御部７１、情報表示部７２、ダイヤル部７３、ヘッドセットボリューム部７４、スピーカボリューム部７５、効果音（ＳＥ）選択表示部７６、ＳＥ制御部７７、ＢＧＭ選択表示部７８、ＢＧＭ制御部７９を備えている。

アプリケーション制御部７１は、ＶｏＩＰクライアントアプリケーションの終了処理を行う。情報表示部７２は、ダイヤル番号、相手情報（話中等）を表示する。ダイヤル部７３は、ＶｏＩＰ相手先をダイヤルするテンキーである。ヘッドセットボリューム部７４は、ヘッドセット７のヘッドフォン７ｂから出力される音量を調節するためのものである。使用者がマウスを用いてスライダ７４ａを左右に移動することにより、ゲイン調整部３６におけるゲイン係数ｋ５を設定することになる。また、ヘッドフォン７ｂから出力される着信音の音量を調節するために用いてもよい。この場合には、使用者がマウスを用いてスライダ７４ａを左右に移動することにより、ゲイン調整部４２におけるゲイン係数ｋ６を設定することになる。

スピーカボリューム部７５は、スピーカ４６から出力される着信音のボリュームを調整するためのものである。使用者がマウスを用いてスライダ７５ａを左右に移動することにより、ゲイン調整部４３におけるゲイン係数ｋ７を設定することになる。

ＳＥ選択表示部７６は、ユーザに選択させる使用可能なＳＥ音源データファイル（ＳＥファイル記憶部１４に記憶されているＳＥファイル）を表示するものであり、例えば銃声音、雷音、拍手の音、歓声等の効果音を使用者に選択させるために表示する。ＳＥ制御部７７は、効果音の再生及び停止、並びに音量調整を、再生ボタン７７ｂ、停止ボタン７７ｃ及びスライダ７７ａを用いた使用者にマウス等の入力部を介して行わせる。

例えば、使用者がマウスを用いてＳＥ選択表示部７６にて所望のＳＥを選択し、スライダ７７ａを適切な位置に移動し、再生ボタン７７ｂをクリックしたとする。すると、デコード部１７は、ＳＥファイル読み出し部１６で読み出された所望のＳＥファイルをデコードし、ゲイン調整部１８にてスライダ７７ａに対応したＳＥ音量レベルであるゲイン係数ｋ２がＳＥファイルのＰＣＭデータに乗算され加算部１３に出力される。これにより、効果音の各種効果音で使用者が通話相手への気持ち等を表現することができる。

ＢＧＭ選択表示部７８は、ユーザに選択させる使用可能なＢＧＭ音源データファイルを表示する。ＢＧＭ制御部７９は、ＢＧＭの再生及び停止、並びに音量調整を、再生ボタン７９ｂ、停止ボタン７９ｃ及びスライダ７９ａを用いた使用者にマウス等の入力部を介して行わせる。例えば、使用者がマウスを用いてＢＧＭ選択表示部７８にて所望のＢＧＭを選択し、スライダ７９ａを適切な位置に移動し、再生ボタン７９ｂをクリックしたとする。すると、デコード部２０は、ＢＧＭファイル読み出し部１９で読み出された所望のＢＧＭファイルをデコードし、ゲイン調整部２１にてスライダ７９ａに対応したＢＧＭ音量レベルであるゲイン係数ｋ３がＢＧＭファイルのＰＣＭデータに乗算され加算部１３に出力される。これにより、ＳＥと同様、使用者自身が選択し、調節した音量により、使用者の気分やその場の雰囲気を通信相手へ伝えることができる。

したがって、ＶｏＩＰクライアント２は、前記ソフトウェアモジュールを構成する各種プログラムを実行することにより、従来、マイクロフォンより入力される通話音が固定の音量レベルとされた背景音によって聞きとりにくくなったり、逆に背景音としての効果が発揮できないという問題を解決することができる。また、送信側及び受信側にてＰＣＭデータを用い、これをＭＰ３や、MPEG4、あるいはＡＴＲＡＣ等の圧縮技術に圧縮しているので、高音質のオーディオデータの伝送を実現でき、また例えば２チャンネル再生を可能としている。よって、通話音と背景音等を適切にミキシングすることにより、送信者側からの通話音の定位を際だたせることができる。

本実施の形態は、前述したように、通話中において、送信側にて設定されて送信されてきたＢＧＭの拒否や音量調節を制御するために、以下の図１０、図１１、図１２に示すような処理手順を実行する。

ここでは、ＢＧＭ送信側から、既にＢＧＭが受信側に送信されてきていることを前提に説明する。ＢＧＭ受信側は、ゲインコントローラ１２０にてＢＧＭの音量をチェックする（ステップＳ４１）。受信側使用者が前記図９のＧＵＩのＢＧＭ音量制御部７９を用いて音量を変更したのをステップＳ４２にて判定すると、ＢＧＭゲインコントローラ１２０は、現在の音量をどのくらい変更するのかを検出（ステップＳ４３にてＹＥＳ）する。そして、ステップＳ４４に進んで、ＲＴＣＰ処理部１２１、ＲＴＣＰパケット化部１２２を通してＲＴＣＰパケットを生成する。ここでは、前述したように、アプリケーション固有の情報に、ＢＧＭ音量制御のために、現在の音量、音量の変更量（プラスの値：音量大、マイナスの値：音量小）を付加する。ステップＳ４５において、このパケットを送信処理部２４を介してＢＧＭ送信側に送信する。これらステップＳ４１〜ステップＳ４５までの処理は、ステップＳ４６にてストリーミングが終了したと判定するまで繰り返されることになる。

次に、受信者側では、受信処理部３１を通じてＲＴＣＰパケットを受信し（ステップＳ５１）、ＲＴＣＰデパケット化部１２３にてパケットを解き、アプリケーション固有の情報にＢＧＭ音量制御情報が入っているか否かをＲＴＣＰ処理部１２１でチェックする（ステップＳ５２）。そして、ゲインコントローラ１２０により、ＢＧＭ音量制御情報により音量値が０より大きいのか否かをチェックする（ステップＳ５３）。ゲインコントローラ１２０は、音量が０より大きくないと判定すればステップＳ５４に進んでゲイン調整部２１にてＢＧＭの係数を小さくして音量を小さくする。音量が０より大きいと判定すればステップＳ５５に進んでゲイン調整部２１にてＢＧＭの係数を大きくして音量を大きくする。これらステップＳ５１〜ステップＳ５５までの処理は、ステップＳ５６にてストリーミングが終了したと判定するまで繰り返されることになる。

以上の処理手順を実行することにより、ＶｏＩＰクライアント２，５は、ＢＧＭ受信側において使用されても、使用者の好みに合わせてＢＧＭ等の音量を適切に制御できる。また、音量制御の情報をＲＴＣＰパケットを使って送受するので専用のパケットを不要とする。

なお、以上の説明は、ＢＧＭの音量を受信者側にて制御する処理について説明してきたが、ＳＥの音量も同様に受信者側にて制御することができる。また、受信者側では送信者により音量が当初設定された保留音も制御することができる。

先ず、保留音発生の仕組みについて説明する。ＶｏＩＰクライアント２及び５は、ＢＧＭを保留音として用いることができる。以下、ＶｏＩＰクライアント２がＢＧＭファイル記憶部１５のＢＧＭファイルを保留音として再生する動作について説明する。

保留音は、図１３（１）のように保留者（ユーザＡ）が音源を持つ場合と、図１３（２）のように保留者（ユーザＡ）と会話中の話者（ユーザＡと通話中のユーザＢ）が持つ場合の２通りが考えられる。保留者が音源を持つ図１３（１）の場合は、図２に示したＢＧＭファイル記憶部１５と、ＢＧＭファイル読み出し部１９と、デコード部２０と、ゲイン調整部２１からなるＢＧＭ再生系と全く同じ仕組みで発信することができる。よって、ＢＧＭ再生系の仕組みそのままで保留音を実現することができる。

しかし、ＢＧＭはその利用形態から保留音としては、音量が小さく、適切な音量でない場合が多い。そこで、ＢＧＭを保留音として用いる場合には、音量を自動的に調整することが考えられる。

例えば、ＶｏＩＰクライアント２側から送信をしてＢＧＭとミキシングしながら通話中、使用者が図１４のＧＵＩ上の保留ボタン１００をクリックすると、ＢＧＭとして設定された音量に代わり、保留音に予めセットされた、より大きめの音量に係数ｋ３をゲイン調整部２１にて自動的に切り替えるようにする。

図１５には、保留音ルーチンの一例を示す。前記ＧＵＩの保留ボタン１００がクリックされ保留ＯＮとされたことをステップＳ１にて判定する（ＹＥＳ）と、ＶｏＩＰクライアント２は、再生ファイルをＢＧＭファイルから保留ファイルに切り替え（ステップＳ２）、通話中であったときのＢＧＭの係数ｋ３をＭ１（メモリ）に代入する（ステップＳ３）。そして、ＢＧＭの係数ｋ３を予めプリセットされている保留値のレベルに設定する（ステップＳ４）。これにより、保留音用にＢＧＭの音量レベルが大きくなる。次に、ＧＵＩにて保留ボタンがクリックされ、オフとされたと判定すると（ステップＳ５）、再生ファイルを保留ファイルからＢＧＭファイルに切り替え（ステップＳ６）、ＢＧＭ用にＭ１（メモリ）に代入していた値を係数ｋ３に代入してＢＧＭとして用いる。

また、保留音に切り替える際に同時にマイクロフォン７ａの音量をミュート（MUTE）するべくゲインを零にするようにしてもよい。この場合の保留ルーチンの一例を図１６に示す。前記ＧＵＩの保留ボタン１００がクリックされ保留ＯＮとされとことをステップＳ１１にて判定する（ＹＥＳ）と、ＶｏＩＰクライアント２は、再生ファイルをＢＧＭファイルから保留ファイルに切り替え（ステップＳ１２）、通話中であったときのＢＧＭの係数ｋ３をＭ１（メモリ）に代入し、かつマイクロフォン７ａ出力に乗算していた係数ｋ１の値をＭ２（メモリ）に代入する（ステップＳ１３）。そして、ＢＧＭの係数ｋ３を予めプリセットされている保留値のレベルに設定し、かつマイクロフォン７ａ用の係数ｋ１をヌル（NULL）に設定する（ステップＳ１４）。これにより、保留音用にＢＧＭの音量レベルが大きくなり、かつマイクロフォン７ａがオフとされる。次に、ＧＵＩにて保留ボタンがクリックされ、オフとされたと判定すると（ステップＳ１５）、再生ファイルを保留ファイルからＢＧＭファイルに切り替え（ステップＳ１６）、ＢＧＭ用にＭ１（メモリ）に代入していた値を係数ｋ３に代入してＢＧＭとして用い、かつマイクロフォン７ａ用の係数ｋ１をメモリ（Ｍ２）に記憶しておいた値にする（ステップＳ１７）。以上により、保留ボタンが押されるとＢＧＭの音量レベルを自動的に調整し、保留音として用いるとともに、マイクロフォン７ａをオフにする動作が可能となる。また、再度保留ボタンがクリックされ保留オフとされると、ＢＧＭ用の音量レベルに戻るとともにマイクロフォン７ａのスイッチがオンになる。

したがって、ＢＧＭを保留音として用いるときには、ＢＧＭの係数ｋ３を自動的にプリセットされた値にし、適切な音量の保留音として用いることができる。また、保留音としてＢＧＭを用いることにより、ＶｏＩＰクライアント２の構成をシンプルにすることができる。

このようにして設定された保留音も、前述の図６、図１０〜図１２に示した処理手順により、受信者側にて音量を制御することができる。

ＶｏＩＰ通話システムの構成図である。ＶｏＩＰクライアントの機能ブロック図である。ＲＴＰパケットのフォーマット図である。ＲＴＣＰパケットのフォーマット図である。ＲＴＰ／ＲＴＣＰの通常の役割を説明するためのシーケンス図である。ＲＴＰ／ＲＴＣＰのＢＧＭ制御時の役割を説明するためのシーケンス図である。ＶｏＩＰクライアントが実行するソフトウェアモジュール示す図である。ＶｏＩＰクライアントとなるＰＣのハードウェア構成図である。ＶｏＩＰクライアントの表示部に表示されるＧＵＩを示す図である。ＢＧＭ送信側とＢＧＭ受信側の機能を説明するための図である。ＢＧＭ受信側における音量制御処理手順を示すフローチャートである。ＢＧＭ送信側における音量制御処理手順を示すフローチャートである。保留音の音源を説明するための図である。ＧＵＩ上の保留ボタンを示す図である。保留音ルーチンの処理手順を示すフローチャートである。保留音ルーチンの他の処理手順を示すフローチャートである。

符号の説明

１ＶｏＩＰシステム、２，５ＶｏＩＰクライアント、４インターネット、６ＶｏＩＰサーバ、７ヘッドセット、１２ゲイン調整部、１３合成部、１４ＳＥファイル、１５ＢＧＭファイル、１７デコード部、１８ゲイン調整部、２１ゲイン調整部、２２エンコード、３６ゲイン調整部、４２ゲイン調整部、４３ゲイン調整部、１２０ゲインコントローラ、１２１ＲＴＣＰ処理部、１２２ＲＴＣＰパケット化部、１２３ＲＴＣＰデパケット化部

Claims

ネットワークを介して音声による対話のための双方向通信を行う通話装置において、
送信系として、
収音した音声を電気信号に変換する音声変換手段からの音声信号に可変のゲイン係数を乗じてゲインを調整する第１のゲイン調整手段と、
音のデータをファイル単位で記憶している音データ記憶手段と、
前記音データ記憶手段から読み出したファイル単位の音データをデコードするデコード手段と、
前記デコード手段からのデコード出力に可変のゲイン係数を乗じてゲインを調整する第２のゲイン調整手段と、
前記第１のゲイン調整手段からの第１の出力と前記第２のゲイン調整手段からの第２の出力とを合成する合成手段と、
前記合成手段の合成出力をエンコードするエンコード手段と、
前記エンコード手段からのエンコード出力を前記ネットワークに送信する送信手段とを備え、
受信系として、
前記ネットワークを介して他の通話装置の送信手段から送信されてきたエンコード出力を受信する受信手段と、
前記受信手段で受信されたエンコードデータをデコードするデコード手段と、
前記デコード手段からのデコード出力に可変のゲイン係数を乗じてゲインを調整する第３のゲイン調整手段と、
前記第３のゲイン調整手段からの出力を音に変換して出力する音出力手段とを備え、
さらに、
送信側にて設定されて送信されてきた前記合成出力に含まれる音の音量調節を制御する制御手段とを
備えることを特徴とする通話装置。
前記制御手段は、送信側から送信されてきた前記合成出力に含まれる数分間単位で継続する音である音楽や、数秒間単位の効果音のデータの音量調節を制御することを特徴とする請求項１記載の通話装置。
前記制御手段は、リアルタイム・トランスポート・コントロール・プロトコルのアプリケーション固有情報に音量制御データを記述して送信側に送信することを特徴とする請求項２記載の通話装置。
送信側にあっては前記アプリケーション固有情報に記述された音量制御データを基に前記第２のゲイン調整手段のゲインを可変して、数分間単位で継続する音である音楽や、数秒間単位の効果音のデータの音量調節を行うことを特徴とする請求項３記載の通話装置。
ネットワークを介して音声による対話のための双方向通信を行う通話方法において、
収音した音声を電気信号に変換する音声変換手段からの音声信号に可変のゲイン係数を乗じてゲインを調整する第１のゲイン調整工程と、
音のデータをファイル単位で記憶している音データ記憶手段から読み出したファイル単位の音データをデコードするデコード工程と、
前記デコード工程からのデコード出力に可変のゲイン係数を乗じてゲインを調整する第２のゲイン調整工程と、
前記第１のゲイン調整工程からの第１の出力と前記第２のゲイン調整工程からの第２の出力とを合成する合成工程と、
前記合成工程の合成出力をエンコードするエンコード工程と、
前記エンコード工程からのエンコード出力を前記ネットワークに送信する送信工程とを備え、
前記ネットワークを介して他の通話装置の送信手段から送信されてきたエンコード出力を受信する受信工程と、
前記受信工程で受信されたエンコードデータをデコードするデコード工程と、
前記デコード工程からのデコード出力に可変のゲイン係数を乗じてゲインを調整する第３のゲイン調整工程と、
前記第３のゲイン調整工程からの出力を音に変換して出力する音出力工程とを備え、
さらに、
送信側にて設定されて送信されてきた前記合成出力に含まれる音の音量調節を制御する制御工程とを
備えることを特徴とする通話方法。
前記制御工程は、送信側から送信されてきた前記合成出力に含まれる数分間単位で継続する音である音楽や、数秒間単位の効果音のデータの音量調節を制御することを特徴とする請求項５記載の通話方法。
前記制御工程は、リアルタイム・トランスポート・コントロール・プロトコルのアプリケーション固有情報に音量制御データを記述して送信側に送信することを特徴とする請求項６記載の通話方法。
送信側にあっては前記アプリケーション固有情報に記述された音量制御データを基に前記第２のゲイン調整手段のゲインを可変して、数分間単位で継続する音である音楽や、数秒間単位の効果音のデータの音量調節を行うことを特徴とする請求項７記載の通話方法。
ネットワークに接続された複数の通話装置を用いて音声による対話のための双方向通信を行う通話システムにおいて、
前記複数の通話装置は、送信系として、
収音した音声を電気信号に変換する音声変換手段からの音声信号に可変のゲイン係数を乗じてゲインを調整する第１のゲイン調整手段と、
音のデータをファイル単位で記憶している音データ記憶手段と、
前記音データ記憶手段から読み出したファイル単位の音データをデコードするデコード手段と、
前記デコード手段からのデコード出力に可変のゲイン係数を乗じてゲインを調整する第２のゲイン調整手段と、
前記第１のゲイン調整手段からの第１の出力と前記第２のゲイン調整手段からの第２の出力とを合成する合成手段と、
前記合成手段の合成出力をエンコードするエンコード手段と、
前記エンコード手段からのエンコード出力を前記ネットワークに送信する送信手段とを備え、
受信系として、
前記ネットワークを介して他の通話装置の送信手段から送信されてきたエンコード出力を受信する受信手段と、
前記受信手段で受信されたエンコードデータをデコードするデコード手段と、
前記デコード手段からのデコード出力に可変のゲイン係数を乗じてゲインを調整する第３のゲイン調整手段と、
前記第３のゲイン調整手段からの出力を音に変換して出力する音出力手段とを備え、
さらに、
送信側にて設定されて送信されてきた前記合成出力に含まれる音の音量調節を制御する制御手段とを
備えることを特徴とする通話システム。