JP2005044310A

JP2005044310A - 通話装置及び著作権保護方法、並びに通話システム

Info

Publication number: JP2005044310A
Application number: JP2003280432A
Authority: JP
Inventors: Satoru Kawabata; 哲川畑; Yoshiyuki Kunito; 義之國頭; Akihiro Hokimoto; 晃弘保木本; Tadayuki Hattori; 忠幸服部
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-07-25
Filing date: 2003-07-25
Publication date: 2005-02-17
Also published as: US20050050090A1

Abstract

【課題】ＢＧＭとして用いる音源データファイルには著作権や使用権が規定されているものがあり、使用者が入手した音源データファイルをサービス性を損なうことなく、かつコピー及び再配布を抑止する必要がある。
【解決手段】ＶｏＩＰクライアント２は、ダウンロードした音源データファイルを外部記憶装置内を構成するＨＤＤ内の既定のフォルダに書き込む。書き込みが正常に終了するとフォルダ内のハッシュ（Hash）値を計算する。この計算したハッシュ値を外部記憶装置内使用ユーザ対応のシステム情報に設定する。そして、ＶｏＩＰ通話を行うために、ＶｏＩＰクライアントを起動したとき、外部記憶装置内既定エリア内のハッシュ値を計算し、この計算したハッシュ値を、システム情報として記憶したハッシュ値と比較し、比較の結果、同値であると判定した場合には、外部記憶装置内既定エリアに記憶された音源データファイルをＧＵＩにて表示する。
【選択図】図２

Description

本発明は高い音質環境下での通話を可能とする例えばインターネットのようなネットワークを用いた通話装置及び通話方法に関し、通話音声の他にバックグランドミュージック（Back ground music：ＢＧＭ）或いは効果音（Sound effect：ＳＥ）を送受信する通話装置及びＢＧＭやＳＥのファイルの著作権保護方法、並びに通話システムに関する。

本件出願人は、特開２００１−１１８３３２号公報にて、例えば音楽著作物や映像著作物などの著作物に関わるデータなどの任意のデータを、シリアル世代とパラレル世代の両方に対して、適切なコピーコントロールを行いながら配信することのできるデータ配信システムを開示した。

また、本件出願人は、特開２００２−３４４５７１号公報にて、音楽を聴きながら通話を行うことができるようにし、より楽しく通話を楽しむことができる通話装置及び通話方法等に関する技術を開示した。この通話装置は、ＢＧＭとして用いる音楽コンテンツデータを記憶手段に記憶しており、相手と通話する通話手段により通話が行われているとき、再生手段により記憶手段から音楽コンテンツを再生する。このとき、制御手段により、相手からの音声とコンテンツの再生音の両方が聞こえるように制御している。また、通話手段は、コンテンツの再生音を相手側にも送信する。なお、通話中にあってＢＧＭとして用いる音楽の再生レベルは、予め設定されている所定のレベルに低下させる。この技術により、ユーザは、通話しつつ、音楽をＢＧＭとして楽しむことが可能となる。

また、本件出願人は、特開平７−１４３２２１号公報にて、保留音として用いる複数の音楽コンテンツを外部から電話回線を介して取り込み、識別データに対応付けて光磁気ディスクに記録し、識別データに基づいたユーザの選択等に応じて保留音として再生することができる電話装置に関する技術を開示した。

特開２００１−１１８３３２号公報特開２００２−３４４５７１号公報特開平７−１４３２２１号公報

しかし、前記特許文献１に開示された技術では、前記特許文献２や特許文献３で使用されるＢＧＭ等をコンテンツとすることは想定されていなかった。ＢＧＭとして用いるコンテンツは、音楽データであることが多く、その音楽データを電話通話時のＢＧＭとして或いは保留音として用いるということは、コンテンツをコピーした使用者の他、通話相手も聞くことになる。通話相手がＢＧＭとして流れていた音楽を気に入り、それを通話相手からコピーするということが規制なしに行われると著作権者に多大な損害を与えることになる。

このように、ＢＧＭとして用いる音源データファイルには著作権や使用権が規定されているものがあり、使用者が入手した音源データファイルをサービス性を損なうことなく、かつコピー及び再配布を抑止する必要がある。

本発明に係る通話装置は、前記課題を解決するために、ネットワークを介して音声による対話のための双方向通信を行う通話装置において、数分間単位で継続する音である音楽や、数秒間単位の効果音の音源データファイルを前記ネットワークに接続されたサーバからダウンロードを実施するダウンロード手段と、前記ダウンロード手段によってダウンロードされた前記ファイルを記憶する記憶手段と、前記記憶手段の所定のフォルダ内のハッシュ値を計算するハッシュ値計算手段と、前記ハッシュ値計算手段にて計算されたハッシュ値をシステム情報として設定する設定手段とを備え、前記設定手段で設定されたハッシュ値に基づいて音源データファイルの著作権を保護する。

ダウンロード手段によってダウンロードされた音源データファイルを記憶手段の所定のフォルダに記憶するときに、所定のフォルダ内のハッシュ値をハッシュ値計算手段にて計算し、ハッシュ値計算手段にて計算されたハッシュ値を設定手段がシステム情報として設定し、この設定手段で設定されたハッシュ値に基づいて音源データファイルの著作権を保護する。

この通話装置は、さらに、送話を開始するタイミングで、前記記憶手段の既定エリア内のハッシュ値を計算する送話時ハッシュ値計算手段と、前記送話時ハッシュ値計算手段にて計算された送話時のハッシュ値と前記設定手段によって設定されたシステム情報としてのハッシュ値とを比較する比較手段と、前記比較手段での比較によりハッシュ値が同値であると判定したときには前記記憶手段に記憶された音源データファイルを表示するユーザインターフェース手段とを備える。

送話時ハッシュ値計算手段は、送話を開始するタイミングで、記憶手段の既定エリア内のハッシュ値を計算し、比較手段は送話時ハッシュ値計算手段にて計算された送話時のハッシュ値と設定手段によって設定されたシステム情報としてのハッシュ値とを比較し、比較手段での比較によりハッシュ値が同値であると判定されたときには記憶手段に記憶された音源データファイルをユーザインターフェース手段に表示する。

本発明に係る著作権保護方法は、前記課題を解決するために、ネットワークを介して音声による対話のための双方向通信を行う通話方装置にあって数分間単位で継続する音である音楽や、数秒間単位の効果音の音源データファイルを前記ネットワークに接続されたサーバからダウンロードするダウンロード工程と、前記ダウンロード工程によってダウンロードされた前記ファイルを記憶手段に記憶する記憶工程と、前記記憶手段の所定のフォルダ内のハッシュ値を計算するハッシュ値計算工程と、前記ハッシュ値計算工程にて計算されたハッシュ値をシステム情報として設定する設定工程とを備え、前記設定工程で設定されたハッシュ値に基づいて音源データファイルの著作権を保護する。

また、送話を開始するタイミングで、前記記憶手段の既定エリア内のハッシュ値を計算する送話時ハッシュ値計算工程と、前記送話時ハッシュ値計算工程にて計算された送話時のハッシュ値と前記設定工程によって設定されたシステム情報としてのハッシュ値とを比較する比較工程と、前記比較工程での比較によりハッシュ値が同値であると判定したときには前記記憶手段に記憶された音源データファイルを表示するユーザインターフェース工程とを備える。

本発明に係る送話システムは、前記課題を解決するために、数分間単位で継続する音である音楽や、数秒間単位の効果音の音源データファイルを格納し、クライアントからの要求に応じてデータファイルを供給するデータファイルサーバと、前記データファイルサーバから所望のデータファイルの供給を受けると共にネットワークを介して音声による対話のための双方向通信を行うクライアントと、前記クライアントによる双方向通信を制御する制御サーバとを備え、前記データファイルサーバは前記クライアントから要求を受けた音源データファイル単位にクライアントのユーザ情報を記憶手段に記憶し、前記制御サーバは前記クライアントによって送られる認証情報を前記データファイルサーバに供給し、前記データファイルサーバは前記制御サーバからの前記認証情報に基づいて前記記憶手段に記憶したユーザ情報を検索し、使用可能な音源データファイル一覧を前記制御サーバを介して前記クライアントに送信し、前記クライアントは受信した音源データファイル一覧を元に、音源データファイルが格納される記憶装置内の既定エリアを検索し、一致した音源データファイルのみを視覚インターフェースに表示する。

本発明に係る著作権保護方法は、前記課題を解決するために、数分間単位で継続する音である音楽や、数秒間単位の効果音の音源データファイルを格納し、クライアントからの要求に応じてデータファイルを供給するデータファイルサーバと、前記データファイルサーバから所望のデータファイルの供給を受けると共にネットワークを介して音声による対話のための双方向通信を行うクライアントと、前記クライアントによる双方向通信を制御する制御サーバとを備える通話システムにおいて実行される著作権保護方法であって、前記データファイルサーバにあって前記クライアントから要求を受けた音源データファイル単位にクライアントのユーザ情報を記憶手段に記憶する工程と、前記制御サーバにあって前記クライアントにより送られる認証情報を前記データファイルサーバに供給する工程と、前記データファイルサーバにあって前記制御サーバからの前記認証情報に基づいて前記記憶手段に記憶したユーザ情報を検索し、使用可能な音源データファイル一覧を前記制御サーバを介して前記クライアントに送信する工程と、前記クライアントにあって受信した音源データファイル一覧を元に、音源データファイルが格納される記憶装置内の既定エリアを検索し、一致した音源データファイルのみを視覚インターフェースに表示する工程とを備える。

本発明の通話装置によれば、ダウンロード手段によってダウンロードされた音源データファイルを記憶手段の所定のフォルダに記憶するときに、所定のフォルダ内のハッシュ値をハッシュ値計算手段にて計算し、ハッシュ値計算手段にて計算されたハッシュ値を設定手段がシステム情報として設定し、この設定手段で設定されたハッシュ値に基づいて音源データファイルの著作権を保護するので、ＢＧＭとして用いる著作権や使用権が規定されている音源データファイルをサービス性を損なうことなく、かつコピー及び再配布を抑止することができる。

本発明の著作権保護方法によれば、ダウンロード工程によってダウンロードされたファイルを記憶手段に記憶し、記憶手段の所定のフォルダ内のハッシュ値を計算し、計算されたハッシュ値をシステム情報として設定し、設定されたハッシュ値に基づいて音源データファイルの著作権を保護するので、ＢＧＭとして用いる著作権や使用権が規定されている音源データファイルをサービス性を損なうことなく、かつコピー及び再配布を抑止することができる。

本発明の通話システムによれば、データファイルサーバがクライアントから要求を受けた音源データファイル単位にクライアントのユーザ情報を記憶手段に記憶し、制御サーバがクライアントによって送られる認証情報をデータファイルサーバに供給し、データファイルサーバは制御サーバからの認証情報に基づいて記憶手段に記憶したユーザ情報を検索し、使用可能な音源データファイル一覧を制御サーバを介してクライアントに送信し、クライアントは受信した音源データファイル一覧を元に、音源データファイルが格納される記憶装置内の既定エリアを検索し、一致した音源データファイルのみを視覚インターフェースに表示するので、ＢＧＭとして用いる著作権や使用権が規定されている音源データファイルをサービス性を損なうことなく、かつコピー及び再配布を抑止することができる。

本発明に係る著作権保護方法によれば、データファイルサーバにあってクライアントから要求を受けた音源データファイル単位にクライアントのユーザ情報を記憶手段に記憶し、制御サーバにあって前記クライアントにより送られる認証情報を前記データファイルサーバに供給し、前記データファイルサーバにあって制御サーバからの認証情報に基づいて記憶手段に記憶したユーザ情報を検索し、使用可能な音源データファイル一覧を制御サーバを介してクライアントに送信し、クライアントにあって受信した音源データファイル一覧を元に、音源データファイルが格納される記憶装置内の既定エリアを検索し、一致した音源データファイルのみを視覚インターフェースに表示するので、ＢＧＭとして用いる著作権や使用権が規定されている音源データファイルをサービス性を損なうことなく、かつコピー及び再配布を抑止することができる。

以下、本発明を実施するための最良の形態としてボイス・オーバー・アイピー（Voice over IP：ＶｏＩＰ）と呼ばれるインターネット電話のプロトコルに従ったＶｏＩＰ通話システムと、このＶｏＩＰ通話システムに用いられるＶｏＩＰクライアントを挙げる。ＶｏＩＰ通話システムは、ＶｏＩＰクライアント間の通話音声の他にバックグランドミュージック（Back ground music：ＢＧＭ）或いは効果音（Sound effect：ＳＥ）を送受信する。ＢＧＭとしては、例えば、波の音、小鳥のさえずり、或いは様々なジャンルの音楽などよりなる、数分間単位の背景音がある。また、ＳＥとしては、例えば、マシンガンの銃声、雷鳴、拍手音、笑い声など、数秒間単位の効果音がある。

先ず、ＶｏＩＰ通話システムの概略について説明する。図１に示すように、ＶｏＩＰ通話システム９０にあってＶｏＩＰクライアント（Client）２は、例えば公衆回線等３によりインターネット４に接続され、同じくインターネット４に接続されている他のＶｏＩＰクライアント５と音声による対話のための双方向の通信を行う。インターネット４には、ＶｏＩＰサーバ（Server）６も接続されており、ＶｏＩＰに基づいた通信の制御等を行う。また、ＶｏＩＰサーバ６と同じくセンタ内、或いは近傍に、ＶｏＩＰサーバ６と連携しているＷｅｂサーバ９１も接続している。

なお、このＶｏＩＰ通話システム９０では、ＶｏＩＰクライアント２とＶｏＩＰクライアント５の二者間の通話を例に挙げるが、ＶｏＩＰクライアントは二つに限らず、よって通話システムへの参加者は２以上であることはもちろんである。

インターネット４は、一般公衆回線などの通信回線や、情報通信ネットワークを複数接続することによって世界中に拡がったネットワーク環境である。現在、広帯域、高速な通信回線の普及によってブロードバンド伝送（Broadband Transmission）を可能としている。光ファイバー、非対称ディジタル加入者線、無線等を用い、500kbps以上の通信回線でネットワークを構成している。

ＶｏＩＰサーバ６は、ＶｏＩＰ通話システム１にあって契約者のＩＰアドレスの管理や、認証、あるいは通信の制御を行う。ワークステーションのようなコンピュータより構成されている。もちろん、課金処理のためのサーバや、契約者のＩＰアドレス他管理情報を処理するサーバを別に設けてもよい。

Ｗｅｂサーバ９１は、前記ＳＥファイルや、ＢＧＭファイル等を音源データとしてデータベース９２に格納している。つまり、ＳＥやＢＧＭを例えばＰＣＭデータにしてからそれぞれＭＰ３（MPEG-1 Audio Layer-III）や、MPEG4、あるいはＡＴＲＡＣ（Adaptive Transform Acoustic Coding）等の圧縮技術により予め圧縮したファイル単位のデータを記憶している。また、ＶｏＩＰクライアントから音源データのダウンロード要求を受けたときのユーザの情報をダウンロードユーザ情報としてデータベース９３に格納している。

ＶｏＩＰクライアント２は、マイクロフォンとスピーカ、又はマイクロフォン７ａとヘッドフォン７ｂとをセットにしてなる使用者が装着するヘッドセット７を接続した例えばパーソナルコンピュータ（Personal computer：ＰＣ）である。ＰＣがソフトウェアで実現されるＶｏＩＰクライアントプログラム２ａを実行することによりＶｏＩＰクライアント２になる。なお、以下では、ＶｏＩＰクライアント２がＶｏＩＰクライアント５に電話をかける場合、つまりＶｏＩＰクライアント２が始めに送信し、ＶｏＩＰクライアント５が受信するという状況を想定する。もちろん、ＶｏＩＰクライアント５も、ＶｏＩＰクライアントプログラム５ａを実行するＰＣよりなり、始めに送信側となるときには本発明に基づいて同様の動作を行う。

ＶｏＩＰクライアント２及び５は、Ｗｅｂブラウザ２ｃ及び５ｃを利用してＷｅｂサーバ７１にアクセスする機能を持っている。そして、ＳＥファイルや、ＢＧＭファイル等の音源データをＷｅｂサーバ９１を管理する業者に金銭を支払うことを条件に、データベース７２からダウンロードすることができる。ダウンロードした音源データファイルは、後述する記憶部５８のようなＨＤＤに形成される音源データ記憶部２ｂ及び５ｂ（ＳＥファイル記憶部１４とＢＧＭファイル記憶部１５からなる）に格納される。

以上のように構成されるＶｏＩＰ通話システム９０は、ＢＧＭとして用いる著作権や使用権が規定されている音源データファイルをサービス性を損なうことなく、かつコピー及び再配布を抑止するために、以下のような対策を採る。

先ず、第１の対策の概略は以下の通りである。ＶｏＩＰクライアントにおいて、Ｗｅｂサーバ９１よりダウンロードした音源データファイルを、既定のフォルダに格納し、ダウンロード終了時にフォルダ内のHash値を計算し、その値を、使用ユーザ対応のシステム情報として記憶しておく。そして、ＶｏＩＰ通話時にフォルダ内のハッシュ値を計算し、システム情報として記憶したハッシュ値と比較し、同値の場合のみ音源データファイルを指定（表示）可能とする。

この第１の対策の処理手順を図２及び図３を参照して詳細に説明する。ＶｏＩＰクライアント２は、Ｗｅｂブラウザ２ｃを起動し、Ｗｅｂサーバ９１にアクセスして、ダウンロード用のＧＵＩ上で所望の音源データファイルを指定し、ダウンロードを開始する（図２のステップＳ２１）。このとき、ダウンロードした音源データファイルを後述する外部記憶装置内を構成するＨＤＤ内の既定のフォルダに書き込む（ステップＳ２２）。ステップＳ２３にて書き込みが正常に終了したと判定するとステップＳ２４に移行する。ステップＳ２４では、ダウンロード終了時に前記フォルダ内のハッシュ（Hash）値を計算する。この計算したハッシュ値を外部記憶装置内使用ユーザ対応のシステム情報に設定する（ステップＳ２５）。

そして、ＶｏＩＰ通話を行うために、ＶｏＩＰクライアントを起動する（ステップＳ３１）。このとき、外部記憶装置内既定エリア内のハッシュ値を計算する（ステップＳ３２）。このステップＳ３２で計算したハッシュ値を、システム情報として記憶したハッシュ値と比較する（ステップＳ３３）。比較の結果、同値であると判定した場合（ステップＳ３４にてＹＥＳ）には、外部記憶装置内既定エリアに記憶された音源データファイルを後述するＧＵＩにて表示する（ステップＳ３５）。比較の結果、同値でないと判定した場合（ステップＳ３４にてＮＯ）には音源データファイルをＧＵＩに表示しない。

この第１の対策によれば、正式にダウンロードしてきた音源データファイル以外のファイル、例えば友人からコピーして貰ったようなファイルをフォルダに格納したところで、ハッシュ値が異なることになるので、そのようなファイルは再生できなくなり、よって著作権を保護することができる。

第２の対策の概略は以下の通りである。Ｗｅｂサーバは、音源データファイルをダウンロードしたユーザ情報（ID/Password）を音源データファイル単位に外部記憶装置内に記憶する。ＶｏＩＰ通話時にＶｏＩＰサーバは、ＶｏＩＰのユーザ認証で取得したユーザ情報をＷｅｂサーバへ転送する。Ｗｅｂサーバは、ＶｏＩＰ通話時にＶｏＩＰサーバよりユーザ情報（ID/Password）を受信すると、外部記憶装置内に記憶したユーザ情報を検索し、使用可能な音源データファイル一覧をＶｏＩＰサーバへ通知する。ＶｏＩＰサーバは、Ｗｅｂサーバより取得した音源データファイル一覧情報をユーザ認証の応答メッセージとしてＶｏＩＰクライアントへ転送する。ＶｏＩＰクライアントでは、受信した音源データファイル一覧を元に、音源データファイルが格納される外部記憶装置内の規定エリアを検索し、一致した音源データファイルのみをＧＵＩにおいて指定（表示）可能とする。

この第２の対策は、ＶｏＩＰ通話前の処理と、ＶｏＩＰ通話中の処理とでシーケンスが異なってくる。ＶｏＩＰ通話前の処理を第２の対策の処理手順Ａとし、またＶｏＩＰ通話中の処理を第２の対策の処理手順Ｂとして以下に説明する。

第２の対策の処理手順Ａにあって、図４、図５に示すように、ＶｏＩＰクライアント２の使用者がＷｅｂブラウザ２ｃを起動し、ＷｅｂアドレスをＵＲＬとして入力すると、Ｗｅｂサーバ９１から表示データが送られる。ＶｏＩＰクライアント２は、ＬＣＤ又はＣＲＴからなる表示部にＷｅｂサーバ９１から表示データを表示する。例えば、図４のダウンロード画面２ｄが表示される。使用者がダウンロード画面２ｄから所望のＢＧＭ用の音源データファイルを選択し、ダウンロード指示を出すと、使用者のユーザ情報（ID/Password）がＷｅｂサーバ９１側に送信される。Ｗｅｂサーバ９１は、音源データファイルをダウンロードしたユーザ情報（ID/Password）を音源データファイル単位に外部記憶装置９３内に記憶する。そして、使用者の所望の音源データファイルをデータベース９２からＶｏＩＰクライアント２に送る。ＶｏＩＰクライアント２は、所望の音源データファイルを外部記憶装置内の既定エリアに記憶する。

使用者がＶｏＩＰ通話を開始するためＶｏＩＰクライアント２を起動すると、ＶｏＩＰクライアント２はユーザ認証のためにユーザ情報（ID/Password）をＶｏＩＰサーバ６に送る。ＶｏＩＰサーバ６は、ＶｏＩＰのユーザ認証で取得したユーザ情報をＷｅｂサーバへ転送して音源データ取得指示を出す。Ｗｅｂサーバ９１は、ＶｏＩＰ通話時にＶｏＩＰサーバ６よりユーザ情報（ID/Password）を受信すると、外部記憶装置９３内に記憶したユーザ情報を検索し、使用可能な音源データファイル一覧をＶｏＩＰサーバ６へ通知する。

ＶｏＩＰサーバ６は、Ｗｅｂサーバ９１より取得した音源データファイル一覧情報をユーザ認証の応答メッセージとしてＶｏＩＰクライアント２へ転送する。ＶｏＩＰクライアント２では、受信した音源データファイル一覧を元に、音源データファイルが格納される外部記憶装置内の規定エリアを検索し、一致した音源データファイルのみをＧＵＩにおいて表示可能とする。この後、使用者がＧＵＩにおいて指定したＢＧＭ用又はＳＥ用の音源データファイルを用いることによって図６に示すようなＶｏＩＰ通話が行われる。

したがって、第２の対策の処理手順Ａにより、Ｗｅｂサーバからではなく、例えば違法に取得した音源データファイルをフォルダに入れても、ＧＵＩには表示されないので、使用者は正規にダウンロードした以外の音源データファイルを使用することができない。

次に、第２の対策の処理手順Ｂについて図７を参照して説明する。ＶｏＩＰクライアント２とＶｏＩＰクライアント５との間で既にＶｏＩＰクライアントプログラム２ａが起動され、ＶｏＩＰ通話が行われているときの処理手順である。通話中において、ＶｏＩＰクライアント２はＷｅｂブラウザ２ｃをマルチウィンドウにて起動する。

ＶｏＩＰクライアント２の使用者がＷｅｂブラウザ２ｃから、ＷｅｂアドレスをＵＲＬとして入力すると、Ｗｅｂサーバ９１から表示データが送られる。ＶｏＩＰクライアント２は、ＬＣＤ又はＣＲＴからなる表示部にＷｅｂサーバ９１からの表示データを表示する。例えば、図４のダウンロード画面２ｄが表示される。使用者がダウンロード画面２ｄから所望のＢＧＭ用の音源データファイルを選択し、ダウンロード指示を出すと、使用者のユーザ情報（ID/Password）がＷｅｂサーバ９１側に送信される。Ｗｅｂサーバ９１は、音源データファイルをダウンロードしたユーザ情報（ID/Password）を音源データファイル単位に外部記憶装置９３内に記憶する。そして、使用者の所望の音源データファイルをデータベース９２からＶｏＩＰクライアント２に送る。ＶｏＩＰクライアント２は、所望の音源データファイルを外部記憶装置内の既定エリアに記憶する。

ＶｏＩＰクライアント２は、Ｗｅｂサーバ９１からダウンロードした音源データファイルが、外部記憶装置内の既定エリアに格納し終わったことを、前記既定エリアを監視中に前記ファイルを検出することにより知ると、自動的にＶｏＩＰの認証処理を実行し、ユーザ認証のためにユーザ情報（ID/Password）をＶｏＩＰサーバ６に送る。ＶｏＩＰサーバ６は、ＶｏＩＰのユーザ認証で取得したユーザ情報をＷｅｂサーバへ転送して音源データ取得指示を出す。Ｗｅｂサーバ９１は、ＶｏＩＰサーバ６を経由して送られたユーザ情報（ID/Password）に対応するユーザ情報を外部記憶装置９３から検索し、そのユーザ情報に基づく音源データファイルをデータベース９２から検索し、使用可能な音源データファイル一覧をＶｏＩＰサーバ６へ通知する。

ＶｏＩＰサーバ６は、Ｗｅｂサーバ９１より取得した音源データファイル一覧情報をユーザ認証の応答メッセージとしてＶｏＩＰクライアント２へ転送する。ＶｏＩＰクライアント２では、受信した音源データファイル一覧を基に、音源データファイルが格納される外部記憶装置内の規定エリアを検索し、一致した音源データファイルのみをＧＵＩにおいて表示可能とする。

したがって、第２の対策の処理手順Ｂにより、Ｗｅｂサーバからではなく、例えば違法に取得した音源データファイルをフォルダに入れても、ＧＵＩには表示されないので、使用者は正規にダウンロードした以外の音源データファイルを使用することができない。よって、著作権、使用権を保護することができる。

なお、Ｗｅｂサーバから所定の処理手順によって記憶部５８に格納された前記ＳＥファイル、ＢＧＭファイルなどの音源データファイルは、ＰＣが備える例えばメディアプレーヤのような音楽再生機能によって容易に再生できないように、前記音楽再生機能では用いていないコーデック方法による、データフォーマットで圧縮するようにしてもよい。前記音源データファイルは、あくまでもＶｏＩＰ通話システムにおけるＢＧＭ、ＳＥとしての用途に用い、著作権の保護を図る。

前述したように、ＶｏＩＰシステム９０では、Ｗｅｂサーバ９１がインターネット４上に接続されていることにより、例えばＶｏＩＰクライアント２は、ＶｏＩＰ通話前はもちろん、通話中にも、使用可能な音源データを指定し、かつ入力音声データファイルとミキシングすることができる。ミキシングされた音源データファイルと入力音声データは、規定ＣＯＤＥＣによって、エンコード、パケット化され、周期的に通話相手のＶｏＩＰクライアントに送信される。

送信側であるＶｏＩＰクライアント２は、ＶｏＩＰ通話中に背景音として例えば数分間単位の連続した時間継続する音である音楽（Back ground music：ＢＧＭ）等や、例えば数秒間単位の効果音（Sound effect：ＳＥ）を通話音声にミキシングすることができる。ＶｏＩＰクライアント２は、通話音はもちろん、背景音や効果音の音量レベルも個別に調整する。

以下、ＶｏＩＰクライアント２が背景音や効果音の音量レベルを個別に調整できる構成、及び動作について図８を参照して説明する。ＶｏＩＰクライアント２は、ＶｏＩＰクライアントプログラム２ａを実行することにより、送信系、受信系がそれぞれ機能的に以下に説明するように構成される。先ず、送信系１０にあって、マイクロフォン７ａにて収音されて電気信号に変換されたユーザの音声に基づく電気信号はマイクキャプチャー部１１にて取り込まれる。マイクキャプチャー部１１が取り込んだ音声に基づく電気信号には、ユーザが設定するマイク音量レベルであるゲイン係数ｋ１がゲイン調整部１２により乗算される。このゲイン調整部１２の乗算出力は、加算部１３に供給される。

また、ＶｏＩＰクライアント２は、Ｗｅｂサーバ９１からダウンロードした音源データファイルとしてのＳＥファイルを記憶部１４に複数ファイル分記憶している。ＳＥファイル記憶部１４としては、後述するようなハードディスクドライブ（ＨＤＤ）や、ＲＯＭ、光磁気ディスクが挙げられる。

また、ＶｏＩＰクライアント２は、Ｗｅｂサーバ９１からダウンロードした音源データファイルとしてのＢＧＭファイルを記憶部１５に複数ファイル分記憶している。

ＳＥファイル記憶部１４に記憶されているＳＥファイルは、使用者の所望によって選択されるとＳＥファイル読み出し部１６によって図示しないＲＡＭに読み出されながらデコード部１７にてデコードされてＰＣＭデータとなる。デコード部１７のデコード出力（ＰＣＭデータ）には、ユーザが設定するＳＥ音量レベルであるゲイン係数ｋ２がゲイン調整部１８により乗算される。このゲイン調整部１８の乗算出力は、加算部１３に供給される。

ＢＧＭファイル記憶部１５に記憶されているＢＧＭファイルも、使用者の所望によって選択されるとＢＧＭファイル読み出し部１７によって図示しないＲＡＭに読み出されながらデコード部２０にてデコードされてＰＣＭデータとなる。デコード部２０のデコード出力には、ユーザが設定するＢＧＭ音量レベルであるゲイン係数ｋ３がゲイン調整部２１により乗算される。このゲイン調整部２１の乗算出力は、加算部１３に供給される。加算部１３は、３つのゲイン調整部１２、１８、２１の乗算出力を飽和処理をしつつ加算し、加算出力をエンコード部２２に供給する。

エンコード部２２は、加算部１３の加算出力（ＰＣＭデータ）をＭＰ３や、MPEG4、あるいはＡＴＲＡＣ等の圧縮技術により数十ｋbps、例えば６４kbpsに圧縮する。このエンコード部２２が行う、ＭＰ３や、MPEG4、あるいはＡＴＲＡＣ等の圧縮技術は、ＣＤで採用されているＰＣＭオーディオデータ等に対して施される高能率の音響圧縮符号化復号化技術である。よって、パケット化されてからインターネットを介して伝送され、受信側にて再生されたオーディオは、ステレオ２チャンネル化が可能であり、また高音質である。

この圧縮データは、リアルタイム・トランスポート・プロトコル（Real-time Transport Protocol：ＲＴＰ）に従ってデータをパケット化するＲＴＰパケット化（packetize）部２３に供給される。ＲＴＰパケット化部２３は、前記圧縮データをＲＴＰのパケットに入れ、さらにＵＤＰ、ＩＰとパケッタイズする。ＲＴＰに従ったパケット化については詳細を後述する。パケット化されたパケットデータは送信処理部２４からインターネットに送られる。

受信系３０にあって、インターネット４を介して他のＶｏＩＰクライアント５から送信されてきたパケットデータは受信処理部３１によって受信される。受信処理部３１で受信されたパケット化データは、ＲＴＰデパケット化（depacketize）部３２にて解かれる。デジッタ（de-jitter）部３３は、ＲＴＰデパケット化部３２にてＩＰ、ＵＤＰから解かれたＲＴＰのタイムスタンプ、シーケンシャルナンバーを基に到着時間の補正を行う。

パケット補償（packet loss compensator）部３４は前記ＲＴＰのタイムスタンプ、シーケンシャルナンバーを基にパケット損失の補償を行い、補償データをデコード部３５に送る。デコード部３５は、到着時間の補正、パケットロスの補償が行われた圧縮データをＰＣＭデータにデコードし、ＰＣＭデータをゲイン調整部３６に送る。ゲイン調整部３６は、前記ＰＣＭデータに使用者が設定する再生音量レベルであるゲイン係数ｋ５を乗算する。このゲイン調整部３６の乗算出力は加算部３７に送られる。また、送信される音声を通話相手と共有するため、ゲイン調整部３８において送信音声データに使用者が設定するループバック音量レベルであるゲイン係数ｋ４を乗算する。ゲイン調整部３８の乗算出力も加算部３７に供給される。

さらに、このＶｏＩＰクライアント２は、着信音（Ring Tone）を例えばＰＣＭデータにしてからそれぞれＭＰ３や、MPEG4、あるいはＡＴＲＡＣ等の圧縮技術により予め圧縮し、ファイル単位の着信音データとして着信音ファイル記憶部３９に複数ファイル分記憶している。

着信音ファイル記憶部３９からの着信音ファイルは、使用者の所望によって予め選択されており、着信のタイミングに従ってリングトーン読み出し部４０によって図示しないＲＡＭに読み出され、デコード部４１にてＰＣＭデータにデコードされる。デコード部４１のデコード出力は、ゲイン調整部４２及びゲイン調整部４３に供給される。ゲイン調整部４２は、使用者が設定するヘッドフォン着信音量レベルであるゲイン係数ｋ６をリングトーンのデコード出力（ＰＣＭデータ）に乗算して加算部３７に供給する。加算部３７は、ゲイン調整部３６の乗算出力である通話音声と背景音等のミキシング出力（ＰＣＭデータ）にゲイン調整部３８の乗算出力である自分の通話音のＰＣＭデータとを加算し、加算出力をヘッドフォン再生部４４に供給する。ヘッドフォン再生部４４は、前記加算出力をアナログ信号に変換してから増幅し、ヘッドフォン７ｂに供給する。ヘッドフォン７ｂは、使用者の耳に前記ミキシング出力を発音する。

また、加算部３７は、他のＶｏＩＰクライアント５からの電話がかかってきたタイミングにて、リングトーンファイル読み出し部４０が読み出したリングトーンファイルのデコード出力（ＰＣＭデータ）に使用者が設定したヘッドフォン着信音量レベルであるゲイン係数ｋ６の乗算されたデータを、ヘッドフォン再生部４４に供給する。ヘッドフォン再生部４４は、前記ゲイン係数ｋ６の乗算されたリングトーンデータをアナログ信号に変換してからヘッドフォン７ｂに供給する。よって、ヘッドフォン７ｂは他のＶｏＩＰクライアント５からの電話がかかってきたタイミングで、使用者が設定したヘッドフォン着信音量レベルの着信音を使用者の耳に発音する。

ゲイン調整部４３は、デコード部４１からのデコード出力であるリングトーンのＰＣＭデータに使用者の設定するスピーカ着信音音量レベルであるゲイン係数ｋ７を乗算し、スピーカ再生部４５に供給する。スピーカ再生部４５は、前記乗算出力をアナログ信号に変換してから増幅しスピーカ４６に供給する。スピーカ４６は、使用者がスピーカ用に設定したスピーカ着信音音量レベルの着信音を発音する。

次に、ＲＴＰに基づいたパケット化及びデパケット化について説明しておく。ＲＴＰは、インターネット等のＩＰネットワークにおいて、リアルタイムに音声や動画を送信／受信するトランスポートプロトコルである。ＲＦＣ１８８９で勧告されている。ＲＴＰは、トランスポート層に位置し、一般にユーザ・データグラム・プトロコル（User Datagram Protocol：ＵＤＰ）上でリアルタイム・コントロール・プトロコル（Real-time Control Protcol）とともに用いられる。

ＲＴＰパケットは、図９に示すように、ＩＰヘッダ、ＵＤＰヘッダ、ＲＴＰヘッダ及びＲＴＰペイロードからなる。ＲＴＰヘッダには、バージョン情報（Verasion：Ｖ）、パディング（Padding：Ｐ）、拡張ヘッダ（extension：Ｘ）の有無、送信元（Contoributing source：ＣＲＳＣ）数、マーカ情報（Marker：Ｍ）、ペイロードタイプ（Payload Type：ＰＴ）、シーケンス番号（Sequence Number）、ＲＴＰタイムスタンプ、同期送信元（Sychronization Source：ＳＳＲＣ）識別子、及び寄与送信元（Contoributeing source：ＣＲＳＣ)識別子を格納する各フィールドが設けられている。

図８におけるＲＴＰパケット化部２３は、エンコード部２２の出力である圧縮データを、前述したＲＴＰに従ってパケット化する。圧縮データそのものは図９に示すＲＴＰペイロード部分に含まれる。このＲＴＰパケットを送信処理部２４からインターネット４を介して他のＶｏＩＰクライアント（例えば図１のＶｏＩＰクライアント５）に送る。

他のＶｏＩＰクライアント５の受信系３０では、受信処理部３１により前記ＲＴＰパケットを受信する。ここでは、他のＶｏＩＰクライアント５の動作になるが、図８を用いて説明する。ＲＴＰデパケット化部３２は、ＲＴＰヘッダとＲＴＰデータをＩＰヘッダ、ＵＤＰヘッダから分離する。ＲＴＰヘッダに格納されているシーケンス番号及びタイプスタンプをデジッタ部３３に送る。

デジッタ部３３は、前記シーケンス番号及びタイプスタンプを基に到着時刻の不均等を補正する。ＲＴＰパケットは、他のデータが伝送されているインターネットによって送信されてくるので、伝送が込んでいるときの影響を受けたりし、その到着時刻は等間隔ではない。時間軸上で詰まったり、伸びたりして、通信間隔が不均等になることがある。そこで、デジッタ部３３は、前記シーケンス番号及びタイプスタンプを基に補正し、等間隔とする。

また、パケット補償部３４は、前記シーケンス番号及びタイプスタンプを基にパケットの損失を補正する。ＲＴＰパケットは、インターネットによって送受信されるので、パケットが欠落したり、受信不能になることがある。そこで、パケット補償部３４は、欠落したパケットの代わりにその前又は後ろのパケットと同じパケットを使用したり、欠落したデータを０にする等してパケットの損失を補償する。

そして、デコード部３５は、到着時刻が補正され、パケット損失が補償された前記通話音と背景音等のミキシングデータをデコードし、ＰＣＭデータにする。

このような機能構成のＶｏＩＰクライアント２にあって、特徴的となるのは、通話音はもちろん、背景音の音量レベルも個別に調整することができることである。

通話音の音量レベルの調整は、ゲイン調整部１２にて音声データにユーザが設定するマイク音量レベルであるゲイン係数ｋ１を乗算することによって行われる。また、効果音又はＢＧＭの音量レベルの調整は、ゲイン調整部１８、又はゲイン調整部２１にて各オーディオデータにユーザが設定するＳＥ音量レベルであるゲイン係数ｋ２、又はＢＧＭ音量レベルであるゲイン係数ｋ３を乗算することによって行われる。

各ゲイン調整部１２、ゲイン調整部１８、ゲイン調整部２１にて音量レベルが調整された後の、通話音データ、効果音又はＢＧＭのオーディオデータは加算部１３にて合成され、エンコード部２２にてエンコードされた後、ＲＴＰパケット化部２３にてパケット化され、送信処理部２４から通話相手の他のＶｏＩＰクライアント５に送信される。

通話相手のＶｏＩＰクライアント５は、インターネット４を介して伝送されてきたＲＴＰパケットを受信処理部３１にて受信し、ＲＴＰデパケット化部３２によりデパケット化し、デジッタ部３３により到着時刻の間隔を補正し、パケット補償部３４によりパケット損失を補償した後、デコード部３５にてＰＣＭデータにデコードする。デコードされた後のオーディオデータ（ＰＣＭデータ）には、受信側使用者により、音量レベルであるゲイン係数ｋ５がゲイン調整部３６により乗算されて、送信者からの通話音を、ＢＧＭ又はＳＥとミキシングした状態でヘッドフォン４４により聞くことができる。

このＶｏＩＰクライアント２は、次の図１０に示す開放型システム間相互接続（Open System Interconnection：ＯＳＩ）のアーキテクチャに基づく各階層のプロトコルに応じたソフトウェアモジュールを実行することにより前記図８に示した機能を達成する。

図１０において下位層から上位層に向かって各階層を説明する。先ず、物理層としての機能にはユニバーサル・シリアル・バス（Universal Serial Bus：ＵＳＢ）カメラドライバー、ＵＳＢオーディオドライバ及び各種ドライバがある。カメラドライバからのビデオデータやオーディオドライバからのオーディオデータの伝送条件の物理的条件を合わせるレイヤである。次に、データリンク層としての機能には、オペレーティングシステム（Operating System：ＯＳ）がある。隣接ノード間の誤りのないデータ転送を実行するためのものである。

ネットワーク層としての機能には、インターネットプロトコル（Internet Protocol：ＩＰ）がある。ネットワーク層は、データ送受信に使用する通信経路を選択し、フロー制御・品質制御などの通信制御を行うところである。信頼性を追求しないコネクションレス（Conectionless)パケット転送プロトコルであるＩＰは、信頼性保証機能、フロー制御機能、エラー回復機能を上位階層（トランスポート層とアプリケーション層）に任せている。

トランスポート層としての機能には、トランスポート・コントロール・プロトコル（Transport Control Protocol）／ユーザ・データグラム・プロトコル（User Datagram Protocol）がある。トランスポート層では、ＩＰアドレスを使用してエンド・ツー・エンドの伝送を行う。ネットワークの種類に依存せず、要求される品質クラスに従ってフロー制御や順序制御を行う。ＴＣＰは信頼性保証機能を持ち、転送したデータの各バイトにシーケンス番号を付け、受信側から受け取り通知（ＡＣＫ）が送られてこなければデータを再送する。ＵＤＰは、アプリケーション間のデータグラムの送信機能を提供する。ＩＰネットワークを用いて、音声・動画像をストリーミング再生する場合、一般にエラー時に再送を行うＴＣＰのようなトランスポートプロトコルは使用できない。また、ＴＣＰは、１対１通信用のプロトコルであり、複数の相手に情報を送信することができない。そこで、このような用途には、ＵＤＰが用いられる。

ＵＤＰは、アプリケーションのプロセスがリモートマシン上の他のアプリケーションのプロセスへデータを転送することを、最小のオーバーヘッドで行えるように設計されている。そのため、ＵＤＰのヘッダに入る情報は、送信元ポート番号、宛先ポート番号、データ長、チェックサムのみであり、ＴＣＰにあるパケットの順序を表す番号を入れるフィールドがないので、ネットワーク上で異なる経路を介して伝送されるなどによりパケットの順序が入れ替わってしまった場合に、その順序を正しい状態に戻す処理を行うことができない。また、送信時のタイムスタンプ等の時間情報を入れるフィールドは、ＴＣＰにもＵＤＰにもない。

セッション層としての機能には、セッション・イニシエーション・プロトコル（Session Initiation Protocol：ＳＩＰ）と、本発明の要部となる前記通話音とＢＧＭ又はＳＥの合成処理ソフトウェアに必要とされるモジュールがある。保留音発生とＢＧＭ合成と着信音発生とコーデック（codec）とＲＴＰである。セッション層は、情報の転送制御を行う。アプリケーション間における対話モードを管理して会話単位の制御を行う。ＳＩＰは、ＩＰネットワーク上でマルチメディアセッションを確立・変更・終了するための、アプリケーション層のシグナリングプロトコルである。ＲＦＣ３２６１で標準化されている。

プレゼンテーション層としての機能には、ＶｏＩＰ通話制御がある。プレゼンテーション層では、アプリケーションで送受信する情報の表現形式を管理して、データの変換や暗号化を行う。

アプリケーション層としての機能には、グラフィカルユーザインターフェース（Graphical User Interface：ＧＵＩ）がある。アプリケーション層では、ユーザプログラムで使用する通信機能の外部仕様を管理して、それに基づく情報のやり取りを行う。

次に、実際に前記ソフトウェアモジュールを実行するＶｏＩＰクライアント２のハードウェア構成を説明する。図１１はＶｏＩＰクライアント２の構成を表している。図１１において、ＣＰＵ（Central Processing Unit）５１は、ＲＯＭ（Read Only Memory）５２に記憶されている前記ソフトウェアモジュールを構成する各種プログラム、または記憶部５８からＲＡＭ（Random Access Memory）５３にロードされた前記ソフトウェアモジュールを構成する各種プログラムに従って各種の処理を実行する。ＲＡＭ５３にはまた、ＣＰＵ５１が各種の処理を実行する上において必要なデータなども適宜記憶される。

ＣＰＵ５１，ＲＯＭ５２及びＲＡＭ５３は、バス５４を介して相互に接続されている。このバス５４にはまた、入出力インターフェース５５も接続されている。入出力インタフェース５５には、キーボード、マウスなどよりなる入力部５６、ＣＲＴ、ＬＣＤなどよりなるディスプレイ、並びに、ヘッドフォンやスピーカなどよりなる出力部５７、ハードディスクなどより構成される記憶部５８、モデム、ターミナルアダプタなどより構成される通信部５９が接続されている。ヘッドセット７のマイクロフォン７ａは入力部５６に含まれる。また、ヘッドフォン７ｂは出力部５７に含まれる。

通信部５９は、インターネット４を介しての通信処理を行う。ＣＰＵ５１から提供されたデータを送信する。また通信部５９は通信相手から受信したデータをＣＰＵ５１、ＲＡＭ５３、記憶部５８に出力する。記憶部５８はＣＰＵ５１との間でやり取りし、情報の保存・消去を行う。通信部５９はまた、他のクライアントとの間で、アナログ信号またはデジタル信号の通信処理を行う。

入出力インタフェース５５にはまた、必要に応じてドライブ６０が接続され、磁気ディスク６１、光ディスク６２、光磁気ディスク６３、或いは半導体メモリ６４などが適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部５８にインストールされる。

なお、記憶部５８は例えばＨＤＤであり、図８に示したＳＥファイル記憶部１４、ＢＧＭファイル記憶部１５、着信音ファイル記憶部３９を構成する。

以上のハードウェア構成は、ＶｏＩＰクライアント２及び５の構成を示すとともに、ＶｏＩＰサーバ６や、Ｗｅｂサーバ９１の構成を示すものでもある。

次に、出力部５７を構成するディスプレイに表示されるＧＵＩ（Graphical Use Interface）について図１２を参照して説明する。このＧＵＩは、ＶｏＩＰクライアントのアプリケーション層に属する。ＰＣをユーザが視覚的に操作するためのインターフェースであり、ユーザの手入力情報をハンドリングする。このＧＵＩは、上部から下部に向かって、アプリケーション制御部７１、情報表示部７２、ダイヤル部７３、ヘッドセットボリューム部７４、スピーカボリューム部７５、効果音（ＳＥ）選択表示部７６、ＳＥ制御部７７、ＢＧＭ選択表示部７８、ＢＧＭ制御部７９を備えている。

アプリケーション制御部７１は、ＶｏＩＰクライアントアプリケーションの終了処理を行う。情報表示部７２は、ダイヤル番号、相手情報（話中等）を表示する。ダイヤル部７３は、ＶｏＩＰ相手先をダイヤルするテンキーである。ヘッドセットボリューム部７４は、ヘッドセット７のヘッドフォン７ｂから出力される音量を調節するためのものである。使用者がマウスを用いてスライダ７４ａを左右に移動することにより、ゲイン調整部３６におけるゲイン係数ｋ５を設定することになる。また、ヘッドフォン７ｂから出力される着信音の音量を調節するために用いてもよい。この場合には、使用者がマウスを用いてスライダ７４ａを左右に移動することにより、ゲイン調整部４２におけるゲイン係数ｋ６を設定することになる。

スピーカボリューム部７５は、スピーカ４６から出力される着信音のボリュームを調整するためのものである。使用者がマウスを用いてスライダ７５ａを左右に移動することにより、ゲイン調整部４３におけるゲイン係数ｋ７を設定することになる。

ＳＥ選択表示部７６は、ユーザに選択させる使用可能なＳＥ音源データファイル（ＳＥファイル記憶部１４に記憶されているＳＥファイル）を表示するものであり、例えば銃声音、雷音、拍手の音、歓声等の効果音を使用者に選択させるために表示する。ＳＥ制御部７７は、効果音の再生及び停止、並びに音量調整を、再生ボタン７７ｂ、停止ボタン７７ｃ及びスライダ７７ａを用いた使用者にマウス等の入力部を介して行わせる。

例えば、図１３に示すように、ＶｏＩＰクライアント２の使用者がマウスを用いてＳＥ選択表示部７６にて所望のＳＥを選択し、スライダ７７ａを適切な位置に移動し、再生ボタン７７ｂをクリックしたとする。すると、デコード部１７は、ＳＥファイル読み出し部１６で読み出された所望のＳＥファイルをデコードし、ゲイン調整部１８にてスライダ７７ａに対応したＳＥ音量レベルであるゲイン係数ｋ２がＳＥファイルのＰＣＭデータに乗算され加算部１３に出力される。これにより、効果音の各種効果音で使用者が通話相手への気持ち等を表現することができる。

ＢＧＭ選択表示部７８は、ユーザに選択させる使用可能なＢＧＭ音源データファイルを表示する。ＢＧＭ制御部７９は、ＢＧＭの再生及び停止、並びに音量調整を、再生ボタン７９ｂ、停止ボタン７９ｃ及びスライダ７９ａを用いた使用者にマウス等の入力部を介して行わせる。例えば、図１３において、ＶｏＩＰクライアント２の使用者がマウスを用いてＢＧＭ選択表示部７８にて所望のＢＧＭを選択し、スライダ７９ａを適切な位置に移動し、再生ボタン７９ｂをクリックしたとする。すると、デコード部２０は、ＢＧＭファイル読み出し部１９で読み出された所望のＢＧＭファイルをデコードし、ゲイン調整部２１にてスライダ７９ａに対応したＢＧＭ音量レベルであるゲイン係数ｋ３がＢＧＭファイルのＰＣＭデータに乗算され加算部１３に出力される。これにより、ＳＥと同様、使用者自身が選択し、調節した音量により、使用者の気分やその場の雰囲気を通信相手へ伝えることができる。

したがって、ＶｏＩＰクライアント２は、前記ソフトウェアモジュールを構成する各種プログラムを実行することにより、従来、マイクロフォンより入力される通話音が固定の音量レベルとされた背景音によって聞きとりにくくなったり、逆に背景音としての効果が発揮できないという問題を解決することができる。また、送信側及び受信側にてＰＣＭデータを用い、これをＭＰ３や、MPEG4、あるいはＡＴＲＡＣ等の圧縮技術に圧縮しているので、高音質のオーディオデータの伝送を実現でき、また例えば２チャンネル再生を可能としている。よって、通話音と背景音等を適切にミキシングすることにより、送信者側からの通話音の定位を際だたせることができる。

なお、Ｗｅｂサーバ９１のデータベース９２に格納されている音源データファイルには、個々のファイル内に図１４に示すようにデフォルト音量８３、及び音量幅８４の情報を持たせている。ファイル構成を詳細に説明すると、ファイルヘッド８１の後に、ＳＥ選択表示部７６や、ＢＧＭ選択表示部７８に表示するファイル名／画像８２が割り当てられる。次に、ファイル毎に適切に調整されたデフォルトの音量値８３、最小と最大の音量幅８４が続き、その後に音源データ８５が割り当てられる。ファイル名／画像８２、デフォルトの音量値８３、最小と最大の音量幅８４は、音源データ８５の付加情報８６である。

このように、Ｗｅｂサーバ９１のデータベース９２に格納されている音源データファイルには、個々にファイル内にデフォルト音量値８３及び、音量幅８４の情報を持たせるので、音源データ毎に適切な音量が設定できる。このため、使用者が予め音量調整を行わなくとも、背景音や、効果音を迅速に発揮できる。

また、ＶｏＩＰクライアント２及び５は、ＢＧＭを保留音として用いることができる。以下、ＶｏＩＰクライアント２がＢＧＭファイル記憶部１５のＢＧＭファイルを保留音として再生する動作について説明する。

保留音は、図１５（１）のように保留者（ユーザＡ）が音源を持つ場合と、図１５（２）のように保留者（ユーザＡ）と会話中の話者（ユーザＡと通話中のユーザＢ）が持つ場合の２通りが考えられる。保留者が音源を持つ図１５（１）の場合は、図１５に示したＢＧＭファイル記憶部１５と、ＢＧＭファイル読み出し部１９と、デコード部２０と、ゲイン調整部２１からなるＢＧＭ再生系と全く同じ仕組みで発信することができる。よって、ＢＧＭ再生系の仕組みそのままで保留音を実現することができる。

しかし、ＢＧＭはその利用形態から保留音としては、音量が小さく、適切な音量でない場合が多い。そこで、ＢＧＭを保留音として用いる場合には、音量を自動的に調整することが考えられる。

例えば、ＶｏＩＰクライアント２側から送信をしてＢＧＭとミキシングしながら通話中、使用者が図１６のＧＵＩ上の保留ボタン１００をクリックすると、ＢＧＭとして設定された音量に代わり、保留音に予めセットされた、より大きめの音量に係数ｋ３をゲイン調整部２１にて自動的に切り替えるようにする。

図１７には、保留音ルーチンの一例を示す。前記ＧＵＩの保留ボタン１００がクリックされ保留ＯＮとされとことをステップＳ１にて判定する（ＹＥＳ）と、ＶｏＩＰクライアント２は、再生ファイルをＢＧＭファイルから保留ファイルに切り替え（ステップＳ２）、通話中であったときのＢＧＭの係数ｋ３をＭ１（メモリ）に代入する（ステップＳ３）。そして、ＢＧＭの係数ｋ３を予めプリセットされている保留値のレベルに設定する（ステップＳ４）。これにより、保留音用にＢＧＭの音量レベルが大きくなる。次に、ＧＵＩにて保留ボタンがクリックされ、オフとされたと判定すると（ステップＳ５）、再生ファイルを保留ファイルからＢＧＭファイルに切り替え（ステップＳ６）、ＢＧＭ用にＭ１（メモリ）に代入していた値を係数ｋ３に代入してＢＧＭとして用いる。

また、保留音に切り替える際に同時にマイクロフォン７ａの音量をミュート（MUTE）するべくゲインを零にするようにしてもよい。この場合の保留ルーチンの一例を図１８に示す。前記ＧＵＩの保留ボタン１００がクリックされ保留ＯＮとされとことをステップＳ１１にて判定する（ＹＥＳ）と、ＶｏＩＰクライアント２は、再生ファイルをＢＧＭファイルから保留ファイルに切り替え（ステップＳ２）、通話中であったときのＢＧＭの係数ｋ３をＭ１（メモリ）に代入し、かつマイクロフォン７ａ出力に乗算していた係数ｋ１の値をＭ２（メモリ）に代入する（ステップＳ３）。そして、ＢＧＭの係数ｋ３を予めプリセットされている保留値のレベルに設定し、かつマイクロフォン７ａ用の係数ｋ１をヌル（NULL）に設定する（ステップＳ１４）。これにより、保留音用にＢＧＭの音量レベルが大きくなり、かつマイクロフォン７ａがオフとされる。次に、ＧＵＩにて保留ボタンがクリックされ、オフとされたと判定すると（ステップＳ１５）、再生ファイルを保留ファイルからＢＧＭファイルに切り替え（ステップＳ１６）、ＢＧＭ用にＭ１（メモリ）に代入していた値を係数ｋ３に代入してＢＧＭとして用い、かつマイクロフォン７ａ用の係数ｋ１をメモリ（Ｍ２）に記憶しておいた値にする（ステップＳ１７）。以上により、保留ボタンが押されるとＢＧＭの音量レベルを自動的に調整し、保留音として用いるとともに、マイクロフォン７ａをオフにする動作が可能となる。また、再度保留ボタンがクリックされ保留オフとされると、ＢＧＭ用の音量レベルに戻るとともにマイクロフォン７ａのスイッチがオンになる。

したがって、ＢＧＭを保留音として用いるときには、ＢＧＭの係数ｋ３を自動的にプリセットされた値にし、適切な音量の保留音として用いることができる。また、保留音としてＢＧＭを用いることにより、ＶｏＩＰクライアント２の構成をシンプルにすることができる。

次に、聴覚心理特性を利用した高能率音響圧縮符号化及び復号伸張方法の一具体例について説明する。これは、図８に示したエンコード部、デコード部にて用いられるデータのコーデック方法に適用できる。もちろん、音源データとして予めＨＤＤに格納されており、ＳＥファイル、ＢＧＭファイルもこのコーデック方法により圧縮、伸張される。図１９及び図２０は、夫々高能率音響圧縮符号化部及び高能率音響復号伸張部を示すブロック図である。高能率音響圧縮符号化部１１０は、図８に示すエンコード部２２に対応するものであり、図１９に示すように、時間周波数分解部１１１と、量子化部１１２と、聴覚心理モデル部１１３と、帯域割当て部１１４と、マルチプレクス１１５とを有する。

時間周波数分解部１１１は、時間軸の信号を所定時間単位でブロック化あるいはフレーム化してこのフレーム毎の時間軸の信号を周波数軸上の信号に変換（スペクトル変換）して複数の周波数帯域に分割する。

聴覚心理モデル部１１３は、一般に高域ほど帯域幅が広くなるような臨界帯域（クリティカルバンド）と呼ばれている帯域幅で、オーディオ信号を複数（例えば２５バント）の帯域に分割する等の処理を行い、帯域割当て部１１４は、各帯域毎に所定のビット配分或いは、各帯域毎に適応的なビット割当て（ビットアロケーション）を行う。例えば、モディファイド離散コサイン変換（modified discrete cosine transform：ＭＤＣＴ）処理されて得られた係数データをビットアロケーションによって符号化する際には、各フレーム毎のＭＤＣＴ処理により得られる各帯域毎のＭＤＣＴ係数データに対して、適応的なビット数が割当てられる。

量子化部１１２は、帯域毎に割り当てられたビット数に基づき、量子化ステップ又は量子化サイズを決定して量子化する。

マルチプレクス１１５は、量子化されたデータを、帯域割当て部により割り当てられたビット数等の副情報と共に多重化して出力する。

このような高能率符号化方法によれば、音響情報チャンネルの全てのチャンネルを合わせた総ビットレ−トを可変とし、かつ一定の最大値を越えないようなビット配分を行なわせることができる。

また、図２０に示すように、高能率音響復号伸張部１２０は、デマルチプレクス１２１と、逆量子化１２２と、時間周波数再構成部１２３とを有する。デマルチプレクス１２１は、高能率符号化されたデータが入力され、これをデマルチプレクスする。逆量子化部１２２は、出マルチプレクス１２１より取り出された帯域情報等の副情報に基づき量子化データを逆量子化し、時間周波数再構成部１２３は、時間軸上のデータを周波数軸上のデータに変換して出力する。

このような高能率音響圧縮符号化部１１０により、高品質の通話を可能とする。

なお、実施の形態では、ＶｏＩＰクライアントとして、ＰＣを挙げ、そのＰＣにてＶｏＩＰクライアントプログラムを実行するという構成としたが、ＶｏＩＰクライアントとしては図８に示したような機能を行う携帯電話、ＰＤＡ等でもよい。さらに、図８に示した機能部をハードウェアとして実現する装置でもよい。

ＶｏＩＰ通話システムの構成図である。ＶｏＩＰ通話システムの著作権保護対策を説明するフローチャートの前半である。ＶｏＩＰ通話システムの著作権保護対策を説明するフローチャートの後半である。ＶｏＩＰ通話システムにおける音源データのダウンロード手順を示す模式図である。ＶｏＩＰ通話システムにおける通話前の著作権保護対策を説明するシーケンス図である。ＶｏＩＰ通話システムにおける音声＋ＢＧＭの通話を模式的に示す図である。ＶｏＩＰ通話システムにおける通話中の著作権保護対策を説明するシーケンス図である。ＶｏＩＰクライアントの機能ブロック図である。ＲＴＰパケットのフォーマット図である。ＶｏＩＰクライアントが実行するソフトウェアモジュール示す図である。ＶｏＩＰクライアントとなるＰＣのハードウェア構成図である。ＶｏＩＰクライアントの表示部に表示されるＧＵＩを示す図である。ＶｏＩＰ通話システムにおける操作を示す図である。Ｗｅｂサーバのデータベースに格納されている音源データファイルのフォーマット図である。保留音の音源を説明するための図である。ＧＵＩ上の保留ボタンを示す図である。保留音ルーチンの処理手順を示すフローチャートである。保留音ルーチンの他の処理手順を示すフローチャートである。高能率音響圧縮符号化部を示すブロック図である。高能率音響圧縮復号伸張部を示すブロック図である。

符号の説明

２，５ＶｏＩＰクライアント、４インターネット、６ＶｏＩＰサーバ、７ヘッドセット、９０ＶｏＩＰシステム、９１Ｗｅｂサーバ、９２音源データ用データベース、９３ダウンロードユーザ情報用データベース

Claims

ネットワークを介して音声による対話のための双方向通信を行う通話装置において、
数分間単位で継続する音である音楽や、数秒間単位の効果音の音源データファイルを前記ネットワークに接続されたサーバからダウンロードするダウンロード手段と、
前記ダウンロード手段によってダウンロードされた前記ファイルを記憶する記憶手段と、
前記記憶手段の所定のフォルダ内のハッシュ値を計算するハッシュ値計算手段と、
前記ハッシュ値計算手段にて計算されたハッシュ値をシステム情報として設定する設定手段とを備え、
前記設定手段で設定されたハッシュ値に基づいて音源データファイルの著作権を保護することを特徴とする通話装置。
送話を開始するタイミングで、前記記憶手段の既定エリア内のハッシュ値を計算する送話時ハッシュ値計算手段と、
前記送話時ハッシュ値計算手段にて計算された送話時のハッシュ値と前記設定手段によって設定されたシステム情報としてのハッシュ値とを比較する比較手段と、
前記比較手段での比較によりハッシュ値が同値であると判定したときには前記記憶手段に記憶された音源データファイルを表示するユーザインターフェース手段とを備えることを特徴とする請求項１記載の通話装置。
ネットワークを介して音声による対話のための双方向通信を行う通話方装置にあって数分間単位で継続する音である音楽や、数秒間単位の効果音の音源データファイルを前記ネットワークに接続されたサーバからダウンロードするダウンロード工程と、
前記ダウンロード工程によってダウンロードされた前記ファイルを記憶手段に記憶する記憶工程と、
前記記憶手段の所定のフォルダ内のハッシュ値を計算するハッシュ値計算工程と、
前記ハッシュ値計算工程にて計算されたハッシュ値をシステム情報として設定する設定工程とを備え、
前記設定工程で設定されたハッシュ値に基づいて音源データファイルの著作権を保護することを特徴とする著作権保護方法。
送話を開始するタイミングで、前記記憶手段の既定エリア内のハッシュ値を計算する送話時ハッシュ値計算工程と、
前記送話時ハッシュ値計算工程にて計算された送話時のハッシュ値と前記設定工程によって設定されたシステム情報としてのハッシュ値とを比較する比較工程と、
前記比較工程での比較によりハッシュ値が同値であると判定したときには前記記憶手段に記憶された音源データファイルを表示するユーザインターフェース工程とを備えることを特徴とする請求項３記載の著作権保護方法。
数分間単位で継続する音である音楽や、数秒間単位の効果音の音源データファイルを格納し、クライアントからの要求に応じてデータファイルを供給するデータファイルサーバと、
前記データファイルサーバから所望のデータファイルの供給を受けると共にネットワークを介して音声による対話のための双方向通信を行うクライアントと、
前記クライアントによる双方向通信を制御する制御サーバとを備え、
前記データファイルサーバは前記クライアントから要求を受けた音源データファイル単位にクライアントのユーザ情報を記憶手段に記憶し、
前記制御サーバは前記クライアントによって送られる認証情報を前記データファイルサーバに供給し、
前記データファイルサーバは前記制御サーバからの前記認証情報に基づいて前記記憶手段に記憶したユーザ情報を検索し、使用可能な音源データファイル一覧を前記制御サーバを介して前記クライアントに送信し、
前記クライアントは受信した音源データファイル一覧を元に、音源データファイルが格納される記憶装置内の既定エリアを検索し、一致した音源データファイルのみを視覚インターフェースに表示することを特徴とする通話システム。
前記制御サーバは、前記クライアントから通話中に送られた前記認証情報を前記データファイルサーバに供給することを特徴とする請求項５記載の通話システム。
前記データファイルサーバが記憶している前記音楽や効果音のファイルには、デフォルト音量及び音量幅の情報が記述されていることを特徴とする請求項５記載の通話システム。
数分間単位で継続する音である音楽や、数秒間単位の効果音の音源データファイルを格納し、クライアントからの要求に応じてデータファイルを供給するデータファイルサーバと、前記データファイルサーバから所望のデータファイルの供給を受けると共にネットワークを介して音声による対話のための双方向通信を行うクライアントと、前記クライアントによる双方向通信を制御する制御サーバとを備える通話システムにおいて実行される著作権保護方法であって、
前記データファイルサーバにあって前記クライアントから要求を受けた音源データファイル単位にクライアントのユーザ情報を記憶手段に記憶する工程と、
前記制御サーバにあって前記クライアントにより送られる認証情報を前記データファイルサーバに供給する工程と、
前記データファイルサーバにあって前記制御サーバからの前記認証情報に基づいて前記記憶手段に記憶したユーザ情報を検索し、使用可能な音源データファイル一覧を前記制御サーバを介して前記クライアントに送信する工程と、
前記クライアントにあって受信した音源データファイル一覧を元に、音源データファイルが格納される記憶装置内の既定エリアを検索し、一致した音源データファイルのみを視覚インターフェースに表示する工程と
を備えることを特徴とする著作権保護方法。
前記制御サーバは、前記クライアントから通話中に送られた前記認証情報を前記データファイルサーバに供給することを特徴とする請求項８記載の著作権保護方法。
前記データファイルサーバが記憶している前記音楽や効果音のファイルには、デフォルト音量及び音量幅の情報が記述されていることを特徴とする請求項８記載の著作権保護方法。