JP2006217187A

JP2006217187A - 電話システムおよびその通話方法、電話端末、電話システム制御プログラム、および該プログラムを記録した記録媒体

Info

Publication number: JP2006217187A
Application number: JP2005027044A
Authority: JP
Inventors: Hiroshi Okubo; 宏大久保
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2005-02-02
Filing date: 2005-02-02
Publication date: 2006-08-17

Abstract

【課題】新規な音声通話機能を追加した電話システムを提供する。
【解決手段】電話システムは、互いに通話を行う２つの電話端末１ａ・１ｂを備える。一方の電話端末１ａは、複数の通話音を他方の電話端末に送信する。他方の電話端末１ｂは、一方の通信端末からの複数の通話音を受信して、複数の通話音を複数のスピーカー８ａ・８ｂからそれぞれ出力する。
【選択図】図１

Description

本発明は、互いに通話を行う２つの電話端末を備えた電話システムおよびその通話方法、電話端末、電話システム制御プログラム、および該プログラムを記録した記録媒体に関するものである。具体的には、テレビ電話機能を有する携帯電話端末を用いた携帯電話システムなどに関するものである。

近時、携帯電話の普及にともない、多種多様な機能が携帯電話端末に搭載されている。カメラによる画像撮影、画像の送信、動画のリアルタイム送信といった画像に関する機能や、音楽の録音再生、音楽データの通信配信などの音に関する機能を備え、それら用途に用いる為のＣＣＤ（Charge Coupled Devices）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）などを用いたカメラ、ＬＣＤ（Liquid Crystal Display）や有機ＥＬＤ（Electro Luminescence Display）などを用いた高輝度・高解像度表示装置、ステレオ音声を再生する為の複数のスピーカーなどを備えた携帯端末が市販され始めている。

テレビ電話機能を備えた携帯電話端末として、受信者には送信者の顔が表示されないように代替画像を表示する機能を搭載したものが開示されている（例えば、特許文献１参照）。

また、テレビ電話機能を用いた通話時に受信者に対して周囲の画像を送信せずに、現在の背景と異なる画像を自然に表示し、マイクからの入力音のうち周囲音を除去する機能を有するものが開示されている（例えば、特許文献２参照）。

また、２つのスピーカーによって背面からの音を仮想的に実現する、ヴァーチャルサラウンドと呼ばれる３次元音響の技術が知られている。
特開２００４−４０５２５号（平成１６年２月５日公開）特開２００３−３３３５５６号（平成１５年１１月２１日公開）

上記のように多種多様な機能を備えた携帯電話端末が市販されているにも関わらず、音声の通話機能に関しては多機能化しているとは言い難い。確かに、ＴＶ電話機能の追加や、通話音の音質の向上などが図られているが、前者は固定電話システムにも存在し、後者は固定電話システムの通話音の音質までには至っていない。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、音声の通話機能に関して、従来の電話システムには無い新規な機能を追加した電話システムなどを提供することにある。

本発明の電話システムは、上記課題を解決するために、互いに通話を行う２つの電話端末を備えた電話システムであって、一方の電話端末は、複数の通話音を他方の電話端末に送信する送信手段を備えており、前記他方の電話端末は、前記一方の通信端末からの複数の通話音を受信する受信手段と、該複数の通話音をそれぞれ出力する複数の音出力手段とを備えることを特徴としている。

上記の構成によれば、複数の通話音を一方の電話端末から他方の電話端末に送信して出力することができる。これにより、ステレオの通話音を出力したり、通話者など主音声と背景音とを別々に出力したりでき、音声の通話機能に新規な機能を追加することができる。

本発明の電話システムは、上記の構成において、前記送信手段は、前記複数の通話音に基づいて複数の音声信号を生成し、生成した複数の音声信号を音声チャネルおよびその他のチャネルを介して前記他方の電話端末に送信するものであり、前記受信手段は、前記複数の音声信号を、前記音声チャネルおよび前記その他のチャネルを介して受信し、受信した複数の音声信号に基づいて複数の通話音を生成するものであることを特徴としている。

ところで、従来の電話システムの場合、音声信号を送信する音声チャネルにおいて、複数の音声信号を送信することは困難である。これは、送信する音声信号としてモノラルの音声信号を想定しているためと考えられる。

これに対し、上記の構成によれば、１本の通信回線を複数のチャネルに分割した各チャネルにおいて、従来の音声信号を従来の音声チャネルを用いて送信するとともに、追加の音声信号を別のチャネルを用いて送信することにより、従来の音声に追加の音声を加えた通話を実現できる。

さらに、本発明の電話システムは、上記の構成において、前記複数の通話音は、左側の音および右側の音を含むことを特徴としている。

上記の構成によれば、ステレオ音声を用いた通話を実現することができる。

さらに、本発明の電話システムは、上記の構成において、前記送信手段は、前記左側の音の信号である左側音声信号と前記右側の音の信号である右側音声信号との和信号を生成するとともに、前記左側音声信号と前記右側音声信号との差信号を生成し、前記和信号を、前記音声チャネルを介して送信するとともに、前記差信号を、前記その他のチャネルを介して送信しており、前記受信手段は、前記音声チャネルを介して前記和信号を受信するとともに、前記その他のチャネルを介して前記差信号を受信することを特徴としている。

上記の構成によれば、他方の電話端末がステレオ音声の出力に対応していないものであっても、右側音声信号と左側音声信号との和信号を従来の音声チャネルを介して受け取ることで、モノラルではあるが両方の音を出力することが出来る。

また、本発明の電話システムは、上記の構成において、前記複数の通話音は、主音声および背景音を含み、前記主音声はモノラルであり、前記背景音は左側の背景音と右側の背景音とを含むステレオであることを特徴としている。

上記の構成によれば、主音声である会話音声をモノラルで送信するとともに、背景音をステレオで送信することで、聞き取りやすさが重視される会話音声と、音質や臨場感が重視される背景音を独立して送信する通話を実現することができる。

さらに、本発明の電話システムは、上記の構成において、前記送信手段は、前記主音声の信号である主音声信号と、前記左側の背景音の信号である左側音声信号と、前記右側の背景音の信号である右側音声信号とを含む和信号を生成するとともに、前記左側音声信号と前記右側音声信号との差信号を生成し、前記和信号を、前記音声チャネルを介して送信するとともに、前記差信号を、前記その他のチャネルを介して送信しており、前記受信手段は、前記音声チャネルを介して前記和信号を受信するとともに、前記その他のチャネルを介して前記差信号を受信することを特徴としている。

上記の構成によれば、ステレオ出力に対応している通信端末では、モノラルである主音声とステレオである背景音が合成された信号を受信し臨場感のある通話を実現するとともに、ステレオ出力に対応していない通話端末であっても、主音声信号と右側音声信号と左側音声信号との和信号を従来の音声チャネルを介して受け取ることで、会話音声および背景音が合成された音声の信号を受信しモノラルで出力する通信を実現できるという効果を奏する。

また、本発明の電話システムは、上記の構成において、前記送信手段は、前記主音声の信号である主音声信号を生成するとともに、音源データの選択に基づいて識別信号を生成し、前記主音声信号を、前記音声チャネルを介して送信するとともに、前記識別信号を、前記その他のチャネルを介して送信しており、前記他方の電話端末は、各種の背景音の音源データを記憶する記憶手段をさらに備えており、前記受信手段は、前記主音声信号を、前記音声チャネルを介して受信するとともに、前記識別信号を前記その他のチャネルを介して受信し、前記主音声信号に基づいて主音声を生成するとともに、前記識別信号に基づいて前記記憶手段から前記音源データを選択して前記背景音を生成することを特徴としている。

上記の構成によれば、主音声を実際に送信するとともに背景音については識別信号のみを送信し、受信端末において識別信号に基づいた背景音データを合成することで、通信するデータ量を減らすことが出来る。なお、主音声は従来の音声チャネルで送信されるため、背景音の出力に対応していない電話端末であっても、主音声のみの通話を問題なく行うことが出来る。

また、本発明の電話システムは、上記の構成において、前記背景音に対し、３次元音響を用いた音響エフェクトを施すことを特徴としている。

上記の構成によれば、背景音に音響エフェクトを施し臨場感ある背景音とするとともに、会話音声である主音声に音声エフェクトを適用することを回避できるので、音声エフェクトにより会話音声を聞き取りにくくしてしまうことを回避できる。

また、本発明の電話システムは、上記の構成において、前記一方の電話端末は、撮影を行う撮影手段をさらに備えており、前記送信手段は、さらに、前記撮影手段が撮影した撮影画像の信号である画像信号を、画像チャネルを介して送信しており、前記受信手段は、さらに、前記画像信号を、前記画像チャネルを介して受信し、受信した画像信号に基づいて画像を生成するものであり、前記他方の電話端末は、前記画像を表示する表示手段をさらに備えることを特徴としている。

上記の構成によれば、１本の通信回線を用いて複数の通話音を同時に送信するとともに、送信元の画像を送信することが出来、上記の臨場感ある音声通話を行う電話システムを、テレビ電話に対して好適に適用することができる。

さらに、本発明の電話システムは、上記の構成において、前記送信手段は、前記撮影画像に別の画像を合成した画像の信号である画像信号を、画像チャネルを介して送信することを特徴としている。

上記の構成によれば、送信元の人物の画像に任意の背景画像を合成したデータを他方の電話端末に表示するテレビ電話システムを実現することができる。

また、本発明の電話システムは、上記の構成において、前記送信手段は、さらに、画像データの選択に基づいて識別信号を生成し、該識別信号を前記音声チャネルおよび前記画像チャネルの他のチャネルを介して送信しており、前記他方の電話端末は、各種の画像データを記憶する記憶手段をさらに備えており、前記受信手段は、さらに、前記識別信号を前記他のチャネルを介して受信し、前記識別信号に基づいて前記記憶手段から前記画像データを選択し、選択した画像データの画像を前記画像信号の画像に合成しており、前記表示手段は、前記受信手段が合成した画像を表示することを特徴としている。

上記の構成によれば、音声および人物画像を実際に送信するとともに背景画像については識別信号のみを送信し、受信端末において画像データベースから識別信号に基づいた背景画像データを選択し合成することで、通信するデータ量を減らすことが出来る。

なお、上記電話システムにおいて一方または他方の電話端末として用いられる電話端末であれば、上述の効果を得ることができる。

本発明の電話システムの通話方法は、互いに通話を行う２つの電話端末を備えた電話システムの通話方法であって、一方の電話端末は、複数の通話音を他方の電話端末に送信し、前記他方の電話端末は、受信した複数の通話音をそれぞれ外部に出力することを特徴としている。

上記の方法によれば、複数の通話音を一方の電話端末から他方の電話端末に送信して出力することができる。これにより、ステレオの通話音を出力したり、通話者など主音声と背景音とを別々に出力したりでき、音声の通話機能に新規な機能を追加することができる。

なお、上記電話システムにおける通話方法を、電話システム制御によりコンピュータ上で実行させることができる。さらに、上記表電話システム制御プログラムをコンピュータ読取り可能な記録媒体に記憶させることにより、任意のコンピュータ上で上記電話システム制御プログラムを実行させることができる。

以上のように、本発明に係る電話システムは、複数の通話音を送受信する手段により、同時に複数の通話音を使用する通話を行い、複数の通話音を出力することが出来るので、ステレオ音声、会話音、背景音、画像データ、識別信号の送受信といった様々な情報のやりとりをそれぞれ独立した状態で同時に通信する電話システムを実現することができるという効果を奏する。

〔実施形態１〕
本発明の一実施形態について、図１ないし図４に基づいて説明すると以下の通りである。以下では、電話端末として好適な携帯電話機に本発明を適用した場合について説明するが、本発明はそれに留まるものではなく、電話通信機能を有するものであれば、ＰＨＳ（Personal Handyphone System）（登録商標）、固定電話などの任意の電話端末に適用することができる。

図１は、本実施形態における電話システムに利用される電話端末の概略構成を示したブロック図である。電話端末１は、主制御部（送信手段、受信手段）２、アンテナ（送信手段、受信手段）３、通信部（送信手段、受信手段）４、ディスプレイ（表示手段）５、マイク６、カメラ（撮影手段）７、左スピーカー（音出力手段）８ａ、右スピーカー（音出力手段）８ｂ、音源データベース（記憶手段）２０、画像データベース（記憶手段）２１、Ａ／Ｄ変換部３０、Ｄ／Ａ変換部３１、音声コーデック部３２、画像コーデック部３３、多重化部（送信手段）３４、多重化分離部（受信手段）３５、音声合成部（送信手段、受信手段）３６、音声分離部（受信手段）３７、画像合成部（送信手段、受信手段）３８、３次元音響処理部（送信手段、受信手段）３９を備える構成である。

主制御部２は、上記の各機能ブロックの統括的な制御を行うものである。主制御部２の機能は、例えばＲＡＭやフラッシュメモリなどの記憶装置に記憶されたプログラムをＣＰＵ（Central Processing Unit）が実行することによって実現される。

アンテナ３は、電波を外部に送り出すとともに外部から電波を受け取るためのものである。アンテナ３は、電話端末１の筐体内部にあってもよいし、筐体内部から引き出すロッドアンテナでもよい。通信部４はアンテナ３より受信した信号を主制御部２に送り、また、主制御部２より受け取ったデータを電波としてアンテナ３より送信する処理をするものである。

ディスプレイ５は、ＬＣＤや有機ＥＬＤなどを用いた表示装置である。ディスプレイ５は、電話端末１の各種機能を使用する際にさまざまなインフォメーションを表示するために用いるものである。本実施形態では、主としてテレビ電話機能において通信相手の顔などの人物画像を表示することに用いるものである。

カメラ６は、ＣＣＤやＣＭＯＳイメージセンサなど撮像素子を用いた撮影装置である。本実施形態では、主としてテレビ電話機能において通話元の顔画像を撮影することに用いるものである。

マイク７は、ダイナミックマイクやコンデンサマイクなどを用いた音声入力装置である。なお、本願において、「音声」は、サウンドおよびボイスを含む広い概念を意味している。本実施形態では、マイク７は、主としてテレビ電話機能において通話元の音声を取得するものである。また、本実施形態では、モノラル音声を入力するマイクを用いているが、ステレオ音声を入力するものであってもよい。

スピーカー８ａおよび８ｂは、音声や着信音などの音を出力する音声出力装置である。本実施形態では、主としてテレビ電話機能において送信側の通話者の音声データを出力することに用いるものである。

音源データベース２０は、各種の音データを記憶したメモリ装置である。本実施形態では、音源データベース２０は、主として背景音として用いる音データの記憶に用いるものである。音データの形式は、ＰＣＭ（Pulse Code Modulation）によってデジタル化されたデータであってもよいし、ＭＰ３（MPEG-1 Audio Layer-3）のようなフォーマットで圧縮された音データであってもよい。

画像データベース２１は、各種の画像データを記憶したメモリ装置である。本実施形態では、画像データベース２１は、主として通話元の顔画像といった人物画像の背景に合成することに用いる。画像データの形式は、ＪＰＥＧ（Joint Photographic Coding Experts Group）のような圧縮形式であってもよいし、無圧縮のものであってもよい。また、ＭｏｔｉｏｎＪＰＥＧのような動画形式でもよいし、ストリーミング送信に対応したデータフォーマットであってもよい。

Ａ／Ｄ変換部３０は、入力されたアナログ音声信号をデジタル音声信号に変換して出力する機能ブロックである。Ｄ／Ａ変換部３１は、入力されたデジタル音声信号をアナログ音声信号に変換して出力する機能ブロックである。

音声コーデック部３２は、音声フォーマットに従って圧縮やエラー訂正信号の付加といった音声データの符号化と、符号化された音声データの復号化とを行うものである。

画像コーデック部３３は、画像フォーマットに従って動画データの作成や圧縮やエラー訂正信号の付加といった画像データの符号化と、符号化された画像データの復号化とを行うものである。

多重化部３４は、複数チャネルからなるデータにヘッダ情報を付加したり、多重化を実行したりするものである。多重化分離部３５は、多重化されたデータをチャネルごとに多重化分離するものである。

音声合成部３６は、複数の音声信号を合成するものである。本実施形態では、音声合成部３６は、モノラル音声信号と左右のステレオ音声信号と合成し出力したり、入力された２つの音声信号の和信号および差信号の出力したりするものである。音声分離部３７は、複数の音声信号に処理を行い、別の複数の音声信号を出力するものである。本実施形態では、音声分離部３７は、音声信号の和信号および差信号からのステレオ音声を復号するものである。

画像合成部３８は、複数の入力画像を合成し出力する処理を行うものである。本実施形態では、画像合成部３８は、画像データベース２１より選択された背景画像とカメラ６から取得された送信元の顔画像とを合成するものである。

３次元音響処理部３９は、３次元音響の技術を用いた音響エフェクトが付加されたステレオ音声を作成するものである。本実施形態では、３次元音響処理部３９は、音源データベース２０より選択された背景音に、２つのスピーカーによって背面からの音を仮想的に実現するヴァーチャルサラウンドのような音響エフェクトの付加に用いるものである。

上記構成において、送信側の電話端末１ａがテレビ電話通話機能を用いて画像データと音声データとを受信側の電話端末１ｂへ送信する際の動作を、図２、３に基づき説明すると、以下の通りである。

図２は、本実施形態の電話システムにおいて、テレビ電話機能による通話を行う際に送信側の電話端末１ａにおいて実行される、入力処理と、画像および音声の処理と、多重化および送信する処理との流れを示している。

まず、送信する画像データの処理について説明を行う。始めに、カメラ６は、撮影した画像データを画像合成部３８に送信する。そして、画像合成部３８は、取得した送信元の画像データに対して、人物の画像部分と背景の画像部分との認識を行う。その後、画像合成部３８は、背景の画像部分と認識された部分に画像データベース２１から送信側の通話者が選択した画像を合成して、画像データＧを作成する。このとき、送信側の通話者が選択したマスク、キャラクター、マスコット、メッセージなどの画像を合成しても良い。最後に、画像コーデック部３３は、合成した画像データＧを符号化する。なお、送信元は、回線状況や電話端末１の処理能力になど応じて、任意のタイミングで以上の画像データの処理機能をＯＦＦにしても良い。

次に、送信する音声データの処理について説明を行う。始めに、送信側の通話者は、音源データベース２０から任意の背景音を選択する。送信する画像データの処理において画像データベース２１から選択した画像に対応した音源データを自動的に選択してもよい。例をあげると、海の背景画像に対して波の背景音などである。そして、３次元音響処理部３９は、３次元音響の技術を用いた音響エフェクトを付加してステレオ音声の背景音を作成する。ここで、左音をＬ、右音をＲとする。なお、送信元の通話者は、回線状況や電話端末１ａの処理能力になど応じて、任意のタイミングで以上の３次元音響の技術を用いた音響エフェクトを付加する機能をＯＦＦにしても良い。

その後、Ｄ／Ａ変換部３１は、作成されたステレオ音声の背景音ＬおよびＲをデジタル信号からアナログ信号へ変換する。本実実施形態では、音源データベース２０内の音源データはデジタルデータとしたが、アナログデータであってもよい。その場合、ステレオ音声の背景音をデジタル信号からアナログ信号に変換する必要はない。

さらに、音声合成部３６は、ステレオ音声の背景音ＬおよびＲのそれぞれに対し、マイク７から取得した主音声Ｖを合成した後、それらの和信号Ｌ＋Ｒ＋２Ｖと差信号Ｌ−Ｒとを合成する。このとき、マイク７から取得した主音声Ｖには、周囲の雑音を除去する処理を行うことが好ましい。

なお、送信元の通話者は、回線状況や電話端末１ａの処理能力になど応じて、任意のタイミングで以上の背景音の合成を行う機能をＯＦＦにしても良い。また、マイク７より取得される主音声Ｖはモノラル音声としたが、ステレオ音声であってもよい。ここで、和信号Ｌ＋Ｒ＋２Ｖと差信号Ｌ−Ｒを作成するのは、受信側の電話端末１ｂがステレオ音声の受信および再生に対応していない場合（例えば、モノラル出力の場合など）に、和信号Ｌ＋Ｒ＋２Ｖのみを使用して出力を行うためである。その後、Ａ／Ｄ変換部３０は、生成した和信号Ｌ＋Ｒ＋２Ｖおよび差信号Ｌ−Ｒをアナログ信号からデジタル信号に変換する。

最後に、音声コーデック部３２は、変換したデジタル信号の符号化を行う。そして、画像コーデック部３３が符号化した画像データＧと、音声コーデック部３２が符号化した和信号の音声データＬ＋Ｒ＋２Ｖおよび差信号の音声データＬ−Ｒとの３つのデータを多重化部３４に入力する。

多重化部３４は、入力されたデータを用いて多重化を行う。多重化には、例えば、ＩＴＵ−Ｔの勧告で規定されている多重化プロトコルであるＨ．２２３を利用する。Ｈ．２２３では、各データを各チャネルに割り当てて多重化を行う。本実施形態では、画像データＧは画像チャネルを利用し、和信号の音声データＬ＋Ｒ＋２Ｖは音声チャネルを利用し、差信号の音声データＬ−Ｒはデータチャネルを利用して通信を行う。多重化したデータは、通信部４およびアンテナ３を介して無線送信する。なお、多重化したデータのデータ構造については後述する。

図３は、本実施形態の電話システムにおいて、テレビ電話機能による通話を行う際に受信側の電話端末１ｂにおいて実行される、受信および多重化分離する処理と、画像および音声の処理と、出力処理との流れを示している。

まず、多重化分離部３７は、アンテナ３および通信部４を介して受信した多重化データを、画像データＧ、和信号の音声データＬ＋Ｒ＋２Ｖ、および差信号の音声データＬ−Ｒとの３つのデータに分離する。ここで、画像データＧは、送信側の通話者が撮影した画像に画像データベースから選択した背景画像を合成したものである。また、和信号の音声データＬ＋Ｒ＋２Ｖは、３次元音響の技術を用いた音響エフェクトを付加したステレオ音声の背景音Ｌ、Ｒにそれぞれ主音声Ｖを合成した２つの音Ｌ＋Ｖ、Ｒ＋Ｖの和である。また、差信号の音声データＬ−Ｒは、上記２つの音Ｌ＋Ｖ、Ｒ＋Ｖの差である。

まず、受信した画像データの処理について説明する。画像コーデック部３３は、多重化分離によって分離された画像データＧの復号化を行う。その後、複合化した画像をディスプレイ５に表示する。なお、受信側の通話者は、回線状況や電話端末１ｂの処理能力になど応じて、任意のタイミングで以上の処理を行う画像データ処理機能をＯＦＦにしても良い。

次に、分離した音声データの処理について説明する。始めに、音声コーデック部３２は、和信号Ｌ＋Ｒ＋２Ｖおよび差信号Ｌ−Ｒの音声データをそれぞれ復号化する。そして、Ｄ／Ａ変換部３１は、復号化した音声データをデジタル信号からアナログ信号へ変換する。その後、音声分離部３７は、アナログ信号に変換された音声データＬ＋Ｒ＋２ＶおよびＬ−Ｒを用いて、和信号の音声データＬ＋Ｒ＋２Ｖをステレオの音声データＬ＋Ｖ、Ｒ＋Ｖに分離する。

和信号Ｌ＋Ｒおよび差信号Ｌ−Ｒの和を取ることにより左音声Ｌを、和信号Ｌ＋Ｒおよび差信号Ｌ−Ｒの差を取ることにより右音声Ｒを得ることができる。さらに、Ａ／Ｄ変換部３０は、得られた左右の音声ＬおよびＲをデジタル信号に変換する。最後に、主制御部２は、デジタル信号に変換された左右の音声データＬおよびＲを、左右のスピーカー８ａおよび８ｂから出力する。出力された音声データの背景音は、３次元音響の技術を用いた音響エフェクトが付加されたステレオ音声となる。

以上のように、本実施形態の電話システムは、主音声である会話音声Ｖをモノラルで送信するとともに、背景音ＬおよびＲをステレオで送信することで、聞き取りやすさが重視される会話音声Ｖと、音質や臨場感が重視される背景音ＬおよびＲを独立して送信する通話を実現することができる。

また、本実施形態の電話システムは、ステレオ出力に対応している通信端末１では、モノラルである主音声Ｖとステレオである背景音ＬとＲとが合成された信号Ｌ＋Ｒ＋２ＶおよびＬ−Ｒを受信し臨場感のある通話を実現するとともに、ステレオ出力に対応していない通話端末であっても、主音声信号と右側音声信号と左側音声信号との和信号Ｌ＋Ｒ＋２Ｖを従来の音声チャネルを介して受け取ることで、会話音声Ｖおよび背景音ＬとＲとが合成された音声の信号Ｌ＋Ｒ＋２Ｖを受信しモノラルで出力する通信を実現できる。

また、本実施形態の電話システムは、背景音ＬおよびＲに音響エフェクトを施し臨場感ある背景音とするとともに、会話音声である主音声Ｖに音声エフェクトを適用することを回避できるので、音声エフェクトにより会話音声を聞き取りにくくしてしまうことを回避できる。

また、本実施形態の電話システムは、１本の通信回線を用いて複数の通話音Ｖ、Ｌ、Ｒを同時に送信するとともに、送信元の画像Ｇを送信することが出来、上記の臨場感ある音声通話を行う電話システムを、テレビ電話に対して好適に適用することができる。

また、本実施形態の電話システムは、送信元の人物の画像に任意の背景画像を合成したデータＧを他方の電話端末１ｂに表示するテレビ電話システムを実現することができる。

図４は、本実施形態における多重化されたデータのデータ構造である。本実施形態では、ＩＴＵ−Ｔの勧告で規定されている多重化プロトコルであるＨ．２２３に基づいて、各論理チャネルのデータを多重化して送信を行う。各チャネルは、音声、ビデオ、データのチャネルから構成される。本実施形態における多重化されたデータのフォーマットとして音声チャネルでは和信号の音声データＬ＋Ｒ＋２Ｖ、ビデオチャネルでは画像データＧ、データチャネルでは差信号の音声データＬ−Ｒを送信する。

音声チャネルのデータは２０ｍｓに一度送信しなければならないため、固定長のデータとなる。これにより、データチャネルの音声データＬ−Ｒも同じサイズのデータを送信することが望ましい。一度に送信できる多重化したデータのサイズは決まっているため、全体のサイズＴからヘッダのサイズｈと音声チャネルのサイズａとデータチャネルのサイズａとを差し引いたＴ−（ｈ＋２ａ）がビデオチャネルのデータ分となる。この割合は、所定の多重化テーブルによって決定する。音声データのサイズａは、送信する音声データの音質、および、送信する画像データの画質によって各チャネルのサイズが占める割合が決定される。それぞれの画質が許す範囲で、各チャネルのサイズの割合を変更しても良い。

図５は、多重化されたデータの別のデータ構造を示している。図示のように、音声チャネルで音声データＶを、ビデオチャネルで画像データＧを、データチャネルで音声データＬ＋ＲおよびＬ−Ｒを送信しても良い。この場合、音声データＬ＋ＲおよびＬ−Ｒに３次元音響の技術を用いた音響エフェクトを付加せずに送信し、受信先の電話端末１ｂに３次元音響処理部３９を備えることで、受信先の電話端末１ｂによって３次元音響の技術を用いた音響エフェクトを付加しても良い。また、受信先は、回線状況や電話１ｂの処理能力になど応じて、任意のタイミングで以上の３次元音響の技術を用いた音響エフェクトを付加する機能をＯＦＦにしても良い。

本実施形態では、デジタル回線を用いた通信について説明したが、これに限定されるものではなく、アナログ回線を用いた通信であっても良い。その場合、Ａ／Ｄ変換部３０およびＤ／Ａ変換部３１を省いた構成の電話端末１であってもよい。

〔実施の形態２〕
次に、本発明の別の実施形態について、図６〜図８を参照しつつ説明する。

本実施形態の電話システムでは、図２および図３に示されるシステムに比べて、送信側の電話端末１ａが行っていた背景音に３次元音響の技術を用いた音響エフェクトを付加する処理と、送信側の通話者が撮影した画像に背景画像を合成する処理とが、受信側の電話端末１ｂによって行われる構成となっている点が異なり、その他の構成は同様である。

このため、本実施形態では、送信側の電話端末１ａにおいて、Ｄ／Ａ変換部３１と音声合成部３８を省略する一方で（図２・図６参照）、識別信号生成部（送信手段）６０を追加する構成としている。また、受信側の電話端末１ｂにおいて、音源データベース２０と音源選択部（受信手段）５１と３次元音響処理部３９と音声合成部３６と画像データベース２１と画像選択部（受信手段）５０と画像合成部３８と識別信号処理部（受信手段）６１を追加する一方で、音声分離部３７を省略する構成（図３・図７参照）としている。

なお、上記実施形態で説明した構成と同様の機能を有する構成には同一の符号を付して、その説明を省略する。また、本実施形態を構成する場合、送信側の電話端末１ａと受信側の電話端末１ｂは同じ構成であることが好ましいが、これに限定されるものではない。上記構成において、送信側の電話端末１ａがテレビ電話通話機能を用いて画像データと音声データを受信側の電話端末１ｂへ送信する際の動作を、図６に基づき説明すると、以下の通りである。

図６は、本実施形態の電話システムにおいて、テレビ電話機能による通話を行う際に送信側の電話端末１ａにおいて実行される、入力処理と、画像および音声の処理と、多重化および送信する処理との流れを示している。

まず、送信する画像データの処理について説明を行う。始めに、カメラ６は撮影した画像データを画像選択部５１に送信する。そして、送信元の通話者は、画像データベース２１より背景画像を選択する。選択した背景画像に関する情報は、識別信号Ｉの生成に用いられる。なお、識別信号Ｉの生成については後述する。その後、画像コーデック部３３は、撮影した画像データＧを符号化する。また、音源選択部５０は、選択した背景画像を元に音源データベース２０から適切な背景音を選択する。同様に、選択した背景音に関する情報も、音源・画像データ識別信号Ｉの生成に用いられる。

次に、音源・画像データの識別信号の処理について説明を行う。上記送信する画像データの処理において、画像選択部５１は、画像データベース２１より背景画像を選択した。また、音源選択部５０は、画像選択部５１によって選択された背景画像を元に音源データベース２０から適切な背景音を選択した。識別信号生成部６０は、上記の選択されたデータを元に識別信号Ｉを生成する。なお、識別信号Ｉは、画像データベース２１および音源データベース２０内のデータ番号であってもよいし、それらのテーマやキーワードを検索キーに設定したものであってもよい。また、画像データベース２１および音源データベース２０の内容がまったく同一である場合は、各データを特定する具体的なＩＤ番号であってもよい。

最後に、送信する音声データの処理について説明を行う。始めに、マイク７は、取得した主音声ＶをＡ／Ｄ変換部３０に送信する。次に、Ａ／Ｄ変換部３０は、取得した主音声Ｖをアナログ信号からデジタル信号に変換する。そして、音声コーデック部３２は、変換したデジタル信号の符号化を行う。

上記送信する画像データの処理、識別信号の処理、送信する音声データの処理によって、送信側の通話者が撮影した画像データＧと、識別信号Ｉと、主音声の音声データＶとの３つのデータを多重化部３４に入力する。多重化部３４は、入力されたデータを用いて多重化を行う。本実施形態では、画像データＧは画像チャネルを利用し、識別信号Ｉはデータチャネルを利用し、主音声の音声データＶは音声チャネルを利用して通信を行う。多重化したデータは、通信部４およびアンテナ３を通して送信する。

図７は、本実施の形態の電話端末１において、テレビ電話通話機能による通話を行う際に受信側の電話端末１ｂにおいて実行される、受信および多重化分離離する処理と、画像および音声の処理と、画像データと音声データの出力処理との流れである。

まず、アンテナ３および通信部４を介して多重化したデータを、多重化分離部３７は、送信側の通話者が撮影した画像データＧと、識別信号Ｉと、主音声の音声データＶとの３つのデータに多重化分離する。受信した上記３つのデータの処理方法は、以下のとおりである。

まず、受信した画像データの処理について説明する。始めに、画像コーデック部３３は、多重化分離によって分離された画像データＧの復号化を行う。そして、画像合成部３８は、取得した送信元の画像データに対して、人物の画像部分と背景の画像部分の認識を行う。その後、画像合成部３８は、背景の画像部分と認識された部分に、識別信号Ｉを元に画像データベース２１から選択した画像を合成する。最後に、合成した画像をディスプレイ５に表示する。

次に、受信した音声データの処理について説明する。始めに、音声コーデック部３２は、受信した主音声Ｖの音声データを復号化する。そして、Ｄ／Ａ変換部３１ａは、復号化した音声データをデジタル信号からアナログ信号へ変換する。さらに、音源選択部５１は、識別信号Ｉを元に音源データベース２０から選択する。その後、３次元音響処理部３９は、選択した背景音に３次元音響の技術を用いた音響エフェクトを付加して、ステレオ音声の背景音を作成する。

ここで、左音をＬ、右音をＲとする。Ｄ／Ａ変換部３１ｂは、作成されたステレオ音声の背景音ＬおよびＲをデジタル信号からアナログ信号へ変換する。上記では、音源データベース内の音源データはデジタルデータとしたが、アナログデータであってもよい。その場合、ステレオ音声の背景音をデジタル信号からアナログ信号に変換する必要はない。また、Ｄ／Ａ変換部３１ａと３１ｂは同じであってもよいし、違ってもよい。最後に、音声合成部３６は、左の背景音Ｌと主音声Ｖ、および、右の背景音Ｒと主音声Ｖを合成する。合成されたデータは、左のスピーカー８ａおよび右のスピーカー８ｂより出力される。本実施形態において、スピーカーより出力される音声信号はアナログ信号としたが、実施形態１のようにデジタル信号による出力であってもよい。

図８は、本実施形態における多重化されたデータの構成である。音声チャネルでは音声データＶ、ビデオチャネルでは画像データＧ、データチャネルでは識別信号Ｉが送信される。各チャネルの占める割合は多重化テーブルによって決定するが、音声データの送信周期が許す範囲において音質・画質を変更し、各チャネルの割合を変更しても良い。本実施形態では、デジタル回線を用いた通信について説明したが、これに限定されるものではなく、アナログ回線を用いた通信であっても良い。

以上のように、本実施形態の電話システムは、実施形態１で述べた効果に加えてさらに、主音声Ｖを実際に送信するとともに背景音ＬおよびＲについては識別信号Ｇのみを送信し、受信端末１ｂにおいて識別信号Ｇに基づいた背景音データを合成することで、通信するデータ量を減らすことが出来るという効果を奏する。なお、主音声Ｖは従来の音声チャネルで送信されるため、背景音ＬおよびＲの出力に対応していない電話端末であっても、主音声Ｖのみの通話を問題なく行うことが出来る。

また、本実施形態の電話システムは、音声Ｖおよび人物画像Ｇを実際に送信するとともに背景画像については識別信号Ｉのみを送信し、受信端末１ｂにおいて画像データベースから識別信号Ｇに基づいた背景画像データを選択し合成することで、通信するデータ量を減らすことが出来る。

なお、本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

例えば、上記実施形態の電話端末１の各部や各処理ステップは、ＣＰＵなどの演算手段が、ＲＯＭ（Read Only Memory）やＲＡＭなどの記憶手段に記憶されたプログラムを実行し、キーボードなどの入力手段、ディスプレイなどの出力手段、あるいは、インターフェース回路などの通信手段を制御することにより実現することができる。したがって、これらの手段を有するコンピュータが、上記プログラムを記録した記録媒体を読取り、当該プログラムを実行するだけで、本実施形態の電話端末１の各種機能および各種処理を実現することができる。また、上記プログラムをリムーバブルな記録媒体に記録することにより、任意のコンピュータ上で上記の各種機能および各種処理を実現することができる。

この記録媒体としては、マイクロコンピュータで処理を行うために図示しないメモリ、例えばＲＯＭのようなものがプログラムメディアであっても良いし、また、図示していないが外部記憶装置としてプログラム読取り装置が設けられ、そこに記録媒体を挿入することにより読取り可能なプログラムメディアであっても良い。

また、何れの場合でも、格納されているプログラムは、マイクロプロセッサがアクセスして実行される構成であることが好ましい。さらに、プログラムを読み出し、読み出されたプログラムは、マイクロコンピュータのプログラム記憶エリアにダウンロードされて、そのプログラムが実行される方式であることが好ましい。なお、このダウンロード用のプログラムは予め本体装置に格納されているものとする。

また、上記プログラムメディアとしては、本体と分離可能に構成される記録媒体であり、磁気テープやカセットテープ等のテープ系、フレキシブルディスクやハードディスク等の磁気ディスクやＣＤ／ＭＯ／ＭＤ／ＤＶＤ等のディスクのディスク系、ＩＣカード（メモリカードを含む）等のカード系、あるいはマスクＲＯＭ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、フラッシュＲＯＭ等による半導体メモリを含めた固定的にプログラムを担持する記録媒体等がある。

また、インターネットを含む通信ネットワークを接続可能なシステム構成であれば、通信ネットワークからプログラムをダウンロードするように流動的にプログラムを担持する記録媒体であることが好ましい。

さらに、このように通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用のプログラムは予め本体装置に格納しておくか、あるいは別な記録媒体からインストールされるものであることが好ましい。

以上のように、本発明に係る電話システムは、複数の通話音を送受信する手段により、同時に複数の通話音を使用する通話を行い、複数の通話音を出力することが出来るので、携帯電話システム、固定電話システム、ＩＰ電話システムなどの任意の電話システムに適用できる。

本発明の一実施形態である電話システムに利用される電話端末の概略構成を示すブロック図である。上記電話端末において、テレビ電話機能による通話を行う場合における送信に関する構成を示すブロック図である。上記電話端末において、テレビ電話機能による通話を行う場合における受信に関する構成を示すブロック図である。上記電話端末が送信するデータのデータ構造の、一例を示す図である。上記電話端末が送信するデータのデータ構造の、別の例を示す図である。本発明の別の実施形態である電話システムに利用される電話端末において、テレビ電話機能による通話を行う場合における送信に関する構成を示すブロック図である。上記電話端末において、テレビ電話機能による通話を行う場合における受信に関する構成を示すブロック図である。上記電話端末が送信するデータのデータ構造の一例を示す図である。

符号の説明

１電話端末
２主制御部（送信手段、受信手段）
３アンテナ（送信手段、受信手段）
４通信部（送信手段、受信手段）
５ディスプレイ（表示手段）
６マイク
７カメラ（撮影手段）
８ａ左スピーカー（音出力手段）
８ｂ右スピーカー（音出力手段）
２０音源データベース（記憶手段）
２１背景画像データベース（記憶手段）
３０Ａ／Ｄ変換部
３１Ｄ／Ａ変換部
３２音声コーデック
３３画像コーデック
３４多重化部（送信手段）
３５多重化分離部（受信手段）
３６音声合成部（送信手段、受信手段）
３７音声分離部（受信手段）
３８画像合成部（送信手段、受信手段）
３９３次元音響処理部（送信手段、受信手段）
５０画像選択部（送信手段、受信手段）
５１音声選択部（送信手段、受信手段）
６０識別信生成部（送信手段）
６１識別信号処理部（受信手段）

Claims

互いに通話を行う２つの電話端末を備えた電話システムであって、
一方の電話端末は、複数の通話音を他方の電話端末に送信する送信手段を備えており、
前記他方の電話端末は、前記一方の通信端末からの複数の通話音を受信する受信手段と、上記複数の通話音をそれぞれ出力する複数の音出力手段とを備えることを特徴としている。
前記送信手段は、前記複数の通話音に基づいて複数の音声信号を生成し、生成した複数の音声信号を音声チャネルおよびその他のチャネルを介して前記他方の電話端末に送信するものであり、
前記受信手段は、前記複数の音声信号を、前記音声チャネルおよび前記その他のチャネルを介して受信し、受信した複数の音声信号に基づいて複数の通話音を生成するものであることを特徴とする請求項１に記載の電話システム。
前記複数の通話音は、左側の音および右側の音を含むことを特徴とする請求項２に記載の電話システム。
前記送信手段は、前記左側の音の信号である左側音声信号と前記右側の音の信号である右側音声信号との和信号を生成するとともに、前記左側音声信号と前記右側音声信号との差信号を生成し、前記和信号を、前記音声チャネルを介して送信するとともに、前記差信号を、前記その他のチャネルを介して送信しており、
前記受信手段は、前記音声チャネルを介して前記和信号を受信するとともに、前記その他のチャネルを介して前記差信号を受信することを特徴とする請求項３に記載の電話システム。
前記複数の通話音は、主音声および背景音を含み、前記主音声はモノラルであり、前記背景音は左側の背景音と右側の背景音とを含むステレオであることを特徴とする請求項２に記載の電話システム。
前記送信手段は、前記主音声の信号である主音声信号と、前記左側の背景音の信号である左側音声信号と、前記右側の背景音の信号である右側音声信号とを含む和信号を生成するとともに、前記左側音声信号と前記右側音声信号との差信号を生成し、前記和信号を、前記音声チャネルを介して送信するとともに、前記差信号を、前記その他のチャネルを介して送信しており、
前記受信手段は、前記音声チャネルを介して前記和信号を受信するとともに、前記その他のチャネルを介して前記差信号を受信することを特徴とする、請求項５に記載の電話システム。
前記送信手段は、前記主音声の信号である主音声信号を生成するとともに、音源データの選択に基づいて識別信号を生成し、前記主音声信号を、前記音声チャネルを介して送信するとともに、前記識別信号を、前記その他のチャネルを介して送信しており、
前記他方の電話端末は、各種の背景音の音源データを記憶する記憶手段をさらに備えており、
前記受信手段は、前記主音声信号を、前記音声チャネルを介して受信するとともに、前記識別信号を前記その他のチャネルを介して受信し、前記主音声信号に基づいて主音声を生成するとともに、前記識別信号に基づいて前記記憶手段から前記音源データを選択して前記背景音を生成することを特徴とする請求項５に記載の電話システム。
前記背景音に対し、３次元音響を用いた音響エフェクトを施すことを特徴とする請求項５ないし７の何れか１項に記載の電話システム。
前記一方の電話端末は、撮影を行う撮影手段をさらに備えており、
前記送信手段は、さらに、前記撮影手段が撮影した撮影画像の信号である画像信号を、画像チャネルを介して送信しており、
前記受信手段は、さらに、前記画像信号を、前記画像チャネルを介して受信し、受信した画像信号に基づいて画像を生成するものであり、
前記他方の電話端末は、前記画像を表示する表示手段をさらに備えることを特徴とする請求項１ないし８の何れか１項に記載の電話システム。
前記送信手段は、前記撮影画像に別の画像を合成した画像の信号である画像信号を、画像チャネルを介して送信することを特徴とする請求項９に記載の電話システム。
前記送信手段は、さらに、画像データの選択に基づいて識別信号を生成し、該識別信号を前記音声チャネルおよび前記画像チャネルの他のチャネルを介して送信しており、
前記他方の電話端末は、各種の画像データを記憶する記憶手段をさらに備えており、
前記受信手段は、さらに、前記識別信号を前記他のチャネルを介して受信し、前記識別信号に基づいて前記記憶手段から前記画像データを選択し、選択した画像データの画像を前記画像信号の画像に合成しており、
前記表示手段は、前記受信手段が合成した画像を表示することを特徴とする請求項９項に記載の電話システム。
請求項１ないし１１の何れか１項に記載の電話システムに利用される電話端末。
互いに通話を行う２つの電話端末を備えた電話システムの通話方法であって、
一方の電話端末は、複数の通話音を他方の電話端末に送信し、
前記他方の電話端末は、受信した複数の通話音をそれぞれ外部に出力することを特徴としている電話システムの通話方法。
請求項１ないし１１の何れか１項に記載の電話システムを動作させるための電話システム制御プログラムであって、コンピュータを上記送信手段または上記受信手段として機能させるための電話システム制御プログラム。
請求項１４に記載の電話システム制御プログラムが記録されたコンピュータ読取り可能な記録媒体。