JP2005057362A

JP2005057362A - 音声及び画像の送受信記録システム

Info

Publication number: JP2005057362A
Application number: JP2003206447A
Authority: JP
Inventors: Takeo Tomokane; 武郎友兼
Original assignee: Renesas Technology Corp
Current assignee: Renesas Technology Corp
Priority date: 2003-08-07
Filing date: 2003-08-07
Publication date: 2005-03-03

Abstract

【課題】テレビ電話装置において、相手側から送信された画像及び音声を記録すると共に、自装置から送出される画像及び音声を記録し、それらを同時に再生することで会話の録画を実現する。
【解決手段】相手の装置から受信した動画データと音声データを多重化したデータストリームを記録する受信記憶部と、自装置が相手の装置へ送信するデータストリームを記録する送信記憶部と、受信記憶部に記録されたデータストリームと送信記憶部に記録されたデータストリームを、符号化した音声データと符号化した動画データに分離する分離部と、２つに分離した音声データを復号化する音声復号化部と、２つの音声データを１つの音声データに合成する音声合成部を備える。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声及び画像の送受信記録システムに係り、特にテレビ電話装置における音声及び画像の録画再生機能に関するものである。
【０００２】
【従来の技術】
電話回線、ＩＳＤＮ、インターネットや携帯電話等の通信網を用いてテレビ電話をおこなうテレビ電話装置が一般的に知られている。このテレビ電話装置は、音声データと画像データを符号化（データ圧縮）して、通信網を介して送信すると共に、受信する音声データ及び画像データを復号化（データ伸長）し、送受信データを相手側と自分の両方の端末で出力することでテレビ電話機能を実現する。
また、従来のテレビ電話装置では、相手から送信された符号化画像と音声を受信側の端末で記録し、その記録した相手側の画像と音声を復号化する技術が知られている。例えば、特開平９−２００７１３公報（特許文献１）には、相手側から送信された圧縮画像と音声メッセージをメモリに記憶し、その圧縮画像と音声メッセージを再生することにより留守録画機能を実現する技術が開示されている。
【０００３】
【特許文献１】
特開平９−２００７１３号公報
【０００４】
【発明が解決しようとする課題】
この種の従来技術による、受信した情報の記録には、相手側から送信される画像と音声しか含まれていない。即ち、自分の端末から送信される画像と音声は記録されていないので、双方の会話の記録にはならない。
【０００５】
本発明の目的は、相手側から送信された画像及び音声と、自分側から送信される画像及び音声の記録を行い得るテレビ電話装置における音声及び画像の送受信記録システムを提供することにある。
【０００６】
【課題を解決するための手段】
上記目的を達成するために、本発明は、相手の装置から受信した動画データと音声データを多重化したデータストリームを記録する受信記憶部と、自装置が相手の装置へ送信するデータストリームを記録する送信記憶部と、受信記憶部に記録されたデータストリームと送信記憶部に記録されたデータストリームを、符号化した音声データと符号化した動画データに分離する分離部と、分離した音声データを復号化する音声復号化部と、音声データを１つの音声データに合成する音声合成部を備えて構成される。
【０００７】
また、他の例によれば、相手装置から受信されたデータを符号化した音声データと符号化した動画データに分離する分離部と、自装置から送信する符号化した音声データと、分離部で分離された符号化した音声データと符号化した動画データを１つのデータに多重化する多重化部と、多重化部で多重化されたデータを記録する記憶部を備えて構成される。
【０００８】
さらに他の例として、相手装置から受信されたデータを符号化した音声データと符号化した動画データに分離する分離部と、分離部で分離された符号化した音声データを復号化して音声データにする音声復号化部と、音声データを入力する音声入力部と、音声復号化部で復号化された音声データと音声入力部で入力された音声データを１つの音声データに合成する音声合成部と、音声合成部から出力される音声データを符号化する音声符号化部と、音声符号化部で符号化された音声データと符号化された動画データを多重化して１つのデータにする多重化部と、多重化部で多重化されたデータを記録する記憶部を有し、テレビ電話の会話の録画時に記憶部に記憶するようにしたものである。
【０００９】
【発明の実施の形態】
以下、図面を参照しながら本発明の実施の形態について説明する。
【００１０】
・第１の実施形態
図１は、一実施形態によるテレビ電話装置１００の構成を示すブロック図である。
図において、テレビ電話装置１００は、インターネット、ＩＳＤＮ、アナログ電話網や携帯電話網等の通信網１０１を介して、他のテレビ電話装置との間で通信される。
【００１１】
このテレビ電話装置１００は、通信制御部１０２により通信網１０１に接続される。記憶部１０３、１０４は、録画したデータを記憶するメモリであり、例えば半導体メモリやハードディスクのような記憶ユニットである。この記憶部１０３と記憶部１０４は同一の記憶装置或いは記憶媒体で構成してもよい。多重化部１０５は、符号化した音声データや動画データ等のデータを１つのデータストリームに多重化する。音声符号化部１０６は非符号化のデジタルの音声データを符号化する。Ａ／Ｄ変換部１０７は、アナログの音声データをデジタルの音声データへ変換する。音声入力部１０８は、マイクなどのアナログの音声データを入力する。動画符号化部１０９は、非符号化のデジタルの動画データを符号化する。画像入力部１１０は、非符号化のデジタルの動画データを取り込むための例えばカメラである。
【００１２】
分離部１１１は、１つのデータストリームから符号化した音声データや動画データを分離する。動画復号化部１１３、１１４は、符号化した動画データを復号化する。画像表示部１１５は、画像を表示するためのＬＣＤやディスプレイなどの表示器である。遅延バッファ１１６、１１７は、動画復号化部１１３、１１４で復号化される動画データと同期を取るために音声データを遅延させるためのバッファである。音声復号化部１１８、１１９は、符号化した音声データを復号化する。音声合成部１２０は、非符号化の２つのデジタル音声データを１つの音声データに合成する。セレクタ１２１は、２つ以上の音声データのうちどの音声データを出力するか選択する。Ｄ／Ａ変換部１２２はデジタルの音声データをアナログに変換する。音声出力部１２３はスピーカやイヤホンなどの出力機能である。
【００１３】
このテレビ電話装置１００内の各構成部は、制御部１２４により制御される。尚、制御部１２４と各部との間の制御線は、図示していない。ユーザ入力部１２５は、テレビ電話装置１００を使うためにユーザがテレビ電話開始などのコマンドを入力するためのキーなどの入力器である。ユーザ入力部１２５からの入力に応じて、制御部１２４はテレビ電話装置１００内の関係する構成部を制御して目的とする機能を実現する。
【００１４】
図１において、多重化部１０５、分離部１１１、１１２で用いられるデータを１つのストリームに多重化する方式には、例えばＩＴＵ−Ｔ（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ − ＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＳｔａｎｄａｒｄｉｚａｔｉｏｎＳｅｃｔｏｒ）の標準であるＨ．２２１、Ｈ．２２３やＩＥＴＦ（ＴｈｅＩｎｔｅｒｎｅｔＥｎｇｉｎｅｅｒｉｎｇＴａｓｋＦｏｒｃｅ）のＲＦＣ１８８９：ＲＴＰ（Ｒｅａｌ−ｔｉｍｅＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌ）等がある。
また、動画符号化部１０９や動画復号化部１１３、１１４で用いる動画符号化方式として、ＩＴＵ−Ｔの標準であるＨ．２６１、Ｈ．２６３、Ｈ．２６４やＭＰＥＧ−４などがある。また、音声符号化部１０６や音声復号化部１１８、１１９で用いる音声符号化方式として、ＩＴＵ−Ｔの標準であるＧ．７１１、Ｇ．７２３、Ｇ．７２９や３ＧＰＰ（３ｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ）の標準であるＡＭＲ（ＡｄａｐｔｉｖｅＭｕｌｔｉ−Ｒａｔｅ）等がある。
【００１５】
次に、図１に示すテレビ電話装置１００の動作について説明する。
まず、テレビ電話装置１００は、動画データ、音声データの送受信を開始する前に、お互いの動画符号化部１０９、動画復号化部１１３、１１４で使用する動画符号化方式を決定する。同様にして、音声符号化部１０６、音声復号化部１１７、１１９で使用する音声符号化方式、及び多重化部１０５や分離部１１１、１１２で用いる多重化方式やビットレート、イメージサイズ等のそれらの動作に必要なパラメータ等を決定する。これら方式及びパラメータの決定は、暗黙に決められた方式でもよい。例えば、動画符号化方式はＭＰＥＧ−４Ｖｉｓｕａｌ、音声符号化方式はＡＭＲ、ビットレートは６４ｋｂｐｓ、イメージサイズは１７６ラ１４４画素などのお互いにテレビ電話としての送受信に必要なパラメータを、通信の初段階でお互いの能力を交換したり、ネゴシエートして決定され得る。また、これらのパラメータのうち暗黙にあらかじめ決められたパラメータ、たとえばビットレート６４ｋｂｐｓでテレビ電話通信をおこなうようなパラメータに従ってもよい。
尚、最初の通信確立の段階で、お互いの能力を公開して一定のロジックを用いて決定した方式でもよい。それらの決められた方式に従って、本実施形態のテレビ電話装置１００は動作する。この方式の決定方法についての詳細な説明はここでは省略するが、ＩＴＵ−Ｔの標準であるＨ．２４５やＩＥＴＦのＳＩＰには、決定方式や通信プロトコルについて詳述な記載がある。通常のテレビ電話機能ではこれらが決定された後、テレビ電話装置１００は、相手のテレビ電話装置との間で動画データ及び音声データの送受信を開始する。
【００１６】
まず、送信手順について説明する。
すなわち、図１において、通常のテレビ電話機能が動作している場合の自分側のテレビ電話装置１００から相手側のテレビ電話装置へ動画データ及び音声データを送信する場合について説明する。
【００１７】
まず、音声入力部１０８から入力したアナログの音声データをＡ／Ｄ変換部１０７へ送る。Ａ／Ｄ変換部１０７で、アナログの音声データは任意の周波数でサンプリングされ、デジタルの音声データに変換されて、音声符号化部１０６へ送られる。このサンプリングの周波数は、音声符号化部１０６で採用された音声符号化方式で用いられているサンプリング周波数と同じであると望ましい。例えば、ＡＭＲでは８０００Ｈｚのサンプリング周波数が用いられる。音声符号化部１０６では、デジタルの音声データを、任意の音声符号化方式によって定められたサンプル数毎に符号化して作成する。例えば、ＡＭＲでは１６０サンプル毎に符号化するため、１秒間に５０回の符号化が必要となり、１フレームあたり２０ｍ秒分のデータとなる。ここで、このサンプル数毎に符号化された音声データを音声フレームと呼ぶ。符号化された音声データは音声フレーム毎に多重化部１０５に送られる。
【００１８】
また、画像入力部１１０では、デジタルの画像データを取り込む。ここで、取り込まれる画像データは静止画イメージであり、本実施形態ではこの１枚の静止画イメージを画像フレームと呼ぶ。このイメージ取りこみのサイズは、前述の手順で決定したサイズで取り込まれることが望ましい。例えば、テレビ電話では３５２×２８８画素や１７６×１４４画素などのサイズが用いられる場合が多い。
この画像入力部１１０では、動画符号化部１０９が符号化するフレーム数に応じて、例えば１５フレーム毎秒のように連続して取り込むことができる。このように画像フレームを連続で入力したデータを、本実施形態では動画データと呼ぶ。
この動画データは画像フレーム毎に動画符号化部１０９へ送られる。また同時に、画像入力部１１０から動画データを画像フレーム毎に、画像表示部１１５に送るようにしてもよい。この場合、画像表示部１１５では、送られてきた動画データをプレビュとして表示することができる。
【００１９】
動画符号化部１０９では、画像フレーム毎に前記の能力情報の交換で決定した動画符号化方式に応じて符号化をおこなう。この動画符号化の過程で、符号化された各画像フレームに画像入力部１０９で入力された時間を示すタイムスタンプを入れても良い。例えば、ＭＰＥＧ−４では各画像フレームにタイムスタンプを入れることが可能である。１５フレーム毎秒で取りこんだ場合は、例えば０ｍ秒、６６ｍ秒、１３３ｍ秒のように約６６ｍ秒毎にタイムスタンプが付けられる。
この符号化された動画データは画像フレーム毎に多重化部１０５へ送られる。
【００２０】
多重化部１０５では、符号化された音声データと符号化された動画データを１つのデータストリームに多重化する。この多重化処理は、相手側のテレビ電話装置１００´の分離部１１１´と、自装置１００の多重化部１０５の間で、動画データの送受信が始まる前に多重化に関する方式の情報を予めやりとりして共有しておき、その方式の情報に従って行う。この多重化処理では、方式に応じて多重化した音声データや動画データの各フレーム単位にタイムスタンプを付けることができる。例えばＲＴＰでは、画像フレームまたは音声フレーム毎に再生すべき時間のタイムスタンプを付けることができる。このタイムスタンプは、動画データの場合は画像入力部１１０で画像フレームを取り込んだ時間を付け、音声データの場合は音声入力部１０８で音声を入力した時間を付けることが望ましい。
【００２１】
また、多重化方式でタイムスタンプを入れることができない方式（例えばＨ．２３３）場合は、画像フレームと音声フレームの送った時間と実際の再生の時間差情報を別途データストリームに挿入して送ってもよい。これは、例えば音声符号化部１０６で符号化した音声フレームとその音声フレームの入力と同じ時間に画像入力部１１０で取りこんだ画像フレームを動画符号化部１０９から送出した時間の差分から算出することができる。動画データと音声データが多重化されたデータストリームは、通信制御部１０２へ送られる。通信制御部１０２では、このデータストリームを、通信網１０１を介して相手側のテレビ電話装置１００´に送出する。
【００２２】
次に、通常のテレビ電話機能が動作している場合のテレビ電話装置１００が相手側のテレビ電話装置からのデータ受信について説明する。
【００２３】
まず、相手側のテレビ電話装置が通信網１０１を介して動画データと音声データを含むデータストリームを通信制御部１０２に送る。通信制御部１０２では、受信したデータストリームを分離部１１１に送る。分離部１１１では、データストリームを分離し、符号化した音声データや動画データ等を得る。この分離は、テレビ電話の相手側テレビ電話装置の多重化部とこの分離部１１２の間で、動画データの送受信が始まる前に多重化に関する方式の情報をあらかじめやりとりして共有し、その方式の情報に応じておこなう。分離した音声データは音声フレーム毎に遅延バッファ１１６へ、動画データは画像フレーム毎に動画復号化部１１３へ送る。
【００２４】
動画復号化部１１３では、符号化された動画データを画像フレーム毎に復号化する。そして、復号化した画像フレームを表示するタイミングになった時に、復号化した画像フレームを画像表示部１１５に送る。この画像フレームの表示するタイミングは、例えば符号化された動画データの中に動画データの各フレームに符号化したタイムスタンプが格納されており、そのタイムスタンプを参照して表示する時間を決定することができる。また、例えば受信したデータストリームがＲＴＰを用いて多重化したような場合には、そのＲＴＰの中に各フレームのタイムスタンプを埋め込むことができ、分離部１０５においてそのタイムスタンプを取り出し、動画符号化部１１３に符号化した動画データを送るときに同時にタイムスタンプを送り、動画符号化部１１３では、そのタイムスタンプを元に表示時間を算出することができる。画像表示部１１５では、送られた画像フレームの表示をおこなう。
【００２５】
図２に画像表示の例を示す。
図２に示される２つの表示例おいて、２０１と２０４は画像入力部１１０から入力された前述のプレビュであり、２０２、２０３は相手側画像の表示である。表示例１では、相手画像２０１とプレビュ２０２が同時に表示される。この２つの表示２０１，２０２のうち、ユーザの選択によって、片方の表示を表示しないようにすることもできる。
また、表示例２のように、相手画像２０３の表示の中にプレビュ２０４を小さく表示をすることもできる。この表示とは逆に、ユーザの選択によってプレビュ２０４の表示の中に相手画像２０３を小さくして表示することもできる。
【００２６】
分離部１１１で分離された音声データは、遅延バッファ１１６へ送出される。
遅延バッファ１１６では、符号化した音声データの音声フレーム受け取ると、その音声フレームを動画データの表示と同期するために一時バッファリングする。
一般的に音声データと動画データでは、動画データの方が符号化に時間がかかり、またデータ量も多いためデータ転送にも時間がかかる。そのため、同時刻の音声データより動画データの方が後に届くので、両者間の同期をとるために音声データをバッファリングする。ここで、遅延バッファ１１６がデータを保持する時間は、同時刻の画像フレームと音声フレームの到着時間から算出することができる。
【００２７】
例えば、分離部１１１がＲＴＰを用いている場合は、ＲＴＰには各フレーム毎にタイムスタンプが格納されているため、画像フレームと音声フレームのタイムスタンプをチェックし、同時刻のタイムスタンプの画像フレームを動画復号化部１１３で復号化するまでの時間差分だけ遅延バッファ１１６で音声フレームを保持する。また、例えば相手側のテレビ電話装置が予め動画データと音声データの送出時間の差分情報をデータストリームに多重化して通知してくれる場合は、分離部１１１でその情報を分離し、遅延バッファ１１６に送出して差分情報を用いてデータ保持の時間を算出してもよい。これらの動画データと音声データの再生の時間差分は、後述する遅延情報として使うことができる。
【００２８】
また、例えば、最初に動画データが届くのまで遅延バッファ１１６は音声データを保持し、最初の届いた時点で音声データを保持はじめたときから動画データが届くまでの時間を時間差分として、音声データと動画データを同時に復号化開始してもよい。もし、同時刻の音声データと動画データが同じ時間に受信できるのであれば、この遅延バッファ１１６は構成からはずすこともできる。この場合、音声フレームはデータの到着順にすぐに復号化が行われる。もし、画像フレームと音声フレームが同時に到着すれば音声データと動画データの遅延時間は０とすることができる。遅延バッファ１１６は、保持する時間がすぎたら音声フレーム毎に音声データを音声復号化部１１８へ送る。音声復号化部１１８では、音声フレーム毎に符号化した音声データを復号化し、符号化方式に応じたサンプル数のデジタルの音声データを得る。このデジタル音声データを、セレクタ１２１を介してＤ／Ａ変換部１２２へ送る。Ｄ／Ａ変換部１２２では、デジタルの音声データを特定の周波数でアナログの音声データに変換して音声出力部１２３へ送る。音声出力部１２３では、アナログの音声データを再生することで相手の音声を鳴らすことができる。
上述ような動作を行うことにより、自分の動画と音声を相手のテレビ電話装置に送出し、相手の動画と音声を再生することで通常のテレビ電話機能を実現することができる。
【００２９】
次に、この通常のテレビ電話の機能を実行中にテレビ電話の録画を開始した場合の動作について説明する。
テレビ電話の録画は、ユーザ入力部１２５からの録画の指示が入り、制御部１２４で次のようにテレビ電話装置１００を制御することで実現する。制御部１２４による録画の制御として、例えば記憶部１０３、１０４に格納するデータストリームのサイズを設定し、そのサイズに達した時点で格納をやめるように制御する方法がある。また、例えば制御部１２４が録画開始からあらかじめ設定した時間に達した時点で格納をやめるように制御する方法もある。また、例えばユーザ入力部か１２５から録画停止の入力を受けて、制御部１２４が録画の停止することもできる。
【００３０】
ユーザ入力部１２５から録画の制御が制御部１２４に入ると、通信制御部１０２が分離部１１１に送っているデータストリームを記憶部１０４へも送る。記憶部１０４では、送られたデータストリームを録画データとして格納する。この時、この記憶部１０４にデータストリームを格納する場合は、例えば図３で示すような情報をデータストリームと同じデータに格納する。
【００３１】
図３において、３０１はデータストリームに多重化されている音声データの音声符号化方式に関する情報、３０２はデータストリームに多重化されている動画データの動画符号化方式に関する情報、３０３は分離部１１１で分離するために必要とされる多重化方式に関する情報、３０４はデータストリームに多重化されている音声データと画像データの遅延情報、３０５は音声データと動画データが多重化されているデータストリームである。３０１、３０２、３０３に関する情報は、再生するときに特に必要がない場合、例えば格納するデータストリームの符号化方式が既知である場合などは省くことができる。遅延情報３０４の詳細に関しては後述する。
【００３２】
また、記憶部１０３においても、記憶部１０４でデータストリームの格納と同様に多重化部１０５から通信制御部１０２へ送るデータストリームを録画データとして格納する。記憶するデータストリームの形式は、図３と同様な形式で格納される。この記憶部１０３に格納される録画データと、記憶部１０４に同時期に格納される録画データとは、関連付けられて記憶されることが望ましい。例えば、図４に示すような２つの録画データを関連つけるテーブルがあってもよい。
【００３３】
図４において、４０１は録画データのナンバー、４０２は受信側の記憶部１０４に格納される録画データのファイル名、４０３は送信側の記憶部１０３に格納される録画データのファイル名、４０４は受信側の録画データと送信側の録画データとの再生時の遅延情報である。図４では、受信側の録画データと送信側の録画データを便宜的にファイル名で表しているが、ファイルシステムが無い場合には、例えばメモリのアドレスであっても問題ない。このようなテーブルを例えば記憶部１０３や１０４に録画開始と同時に制御部１２３が記録して、管理することが望ましい。また、この受信側の録画データと送信側の録画データを録画後に１つの録画データとして結合して管理してもよい。尚、再生時遅延情報４０４の詳細については後述する。
この記憶部１０３に格納される録画データと、同じ時に記憶部１０４に格納される録画データに含まれる動画データと音声データとの間には、図５に示すような時間的関係がある。
【００３４】
図５は、再生すべき時間に対して、記憶部１０３、１０４で格納されるデータストリームの動画データと音声データの再生時間を示した図である。
図５において、５０１は相手端末から送られてくる動画データの再生すべき時間、５０１は相手端末から送られてくる音声データの再生すべき時間、５０３は自端末から相手端末に送る動画データの再生すべき時間、５０４は自端末から相手端末に送る音声データの再生すべき時間である。
５０１は記憶部１０４に格納したデータストリームが含む相手側の動画データであり、５０２は記憶部１０４に格納したデータストリームが含む相手側の音声データであり、５０３は記憶部１０３に格納したデータストリームが含む自装置側の動画データであり、５０４は記憶部１０３に格納したデータストリームが含む自装置側の音声データである。５０１と５０２は記憶装置１０４に格納するデータストリーム内に多重化されており、５０３と５０４は記憶装置１０３に格納するデータストリーム内に多重化されている。
【００３５】
例えば、記憶部１０３，１０４にそれぞれのデータストリームを同時に格納を開始したとすると、５０１から５０４のデータは図５のように再生すべき時間にずれが生じる。このずれのうち、動画データ５０１と音声データ５０２のずれＴ１は、前記した再生時に動画データと音声データの同期を取るために遅延バッファ１１６において音声フレームを保持する時間である。また、動画データ５０３と音声データ５０４のずれＴ２は、音声符号化部１０６と動画符号化部１０９のデータ送出の時間差である。また、Ｔ３は相手側のデータストリームと自装置のデータストリームの時間差であり、これは動画符号化部１０９、音声符号化部１０６、動画復号化部１１３、音声復号化部１１８によるＣＯＤＥＣ遅延や、多重化部１０５や分離部１１１等の処理時間による遅延、または記録開始の時間のずれ等の合計を示す。記憶部１０３に格納されるデータストリームの遅延情報４０４にはＴ２の遅延情報が格納され、記憶部１０４に格納されるデータストリームの遅延情報４０４にはＴ１の遅延情報が格納される。このＴ１の遅延情報は、前述した遅延バッファ１１６で音声データを遅延させる時間の情報から容易に導き出すことができる。またＴ２の遅延情報は、多重化部１０５において音声データを最初に多重化した時間と動画データを最初に多重化した時間の差分から容易に導き出すことができる。これらの時間が端末によって固定値である場合は、その固定値を用いてもよい。また、これらの遅延情報の値が十分に小さい場合は代わりに０を用いてもよい。また、もし相手側動画データ５０１と相手側音声データ５０２において、相手側画像データ５０１が早く送られてくる場合は、その時間差の情報をＴ１としてあつかえばよい。また、自装置動画データ５０３と自装置音声データ５０４のデータ送出が自装置動画データ５０３を早く送る場合のＴ２に関しても同様である。また、Ｔ３の時間情報は、例えば図４の再生時間遅延４０４として格納してもよい。
【００３６】
次に、記憶部１０３及び記憶部１０４に格納された録画データを再生する場合について説明する。
再生を開始するときには、ユーザ入力部１２５から録画データを再生するための指示が入力され、制御部１２４の制御の下、録画データの再生が行われる。図１０に、再生方法を指示するための表示画面を示す。再生の指示は、（ａ）再生ファイルの選択画面と、（ｂ）再生方法の選択画面の２つから対象を選択することで行える。例えば、（ａ）の画面からは目的とする再生ファイル１００１又は１００２などを指示し、（ｂ）の画面からは再生方法の選択項目１００３として、送信データのみ１００４、受信データのみ１００５、または送受信のデータを同時１００６を指示して選択できる。
【００３７】
まず、記憶部１０４に格納された録画データを再生する場合には、制御部１２４の制御により、記憶部１０４内の録画データから音声符号化方式情報３０１、動画符号化方式情報３０２、多重化情報３０３が取り出され、それぞれ音声復号化部１１８、動画復号化部１１３、分離部１１１へ送られ、これらの情報に基づいてそれぞれの処理の準備が行われる。また、遅延情報３０４を用いて遅延バッファ１１６での音声データの遅延時間が決定される。もし、遅延情報３０４が「０」でならば、遅延バッファ１１６は構成からはずしてもよい。
次に、分離部１１１は記憶部１０３から録画データを読み込み、音声データと画像データに分離し、画像データは画像フレーム毎に動画復号化部１１３へ、音声データは音声フレーム毎に遅延バッファ１１６へ送出される。この後の再生手順は、前述した通常のテレビ電話機能が動作している場合のテレビ電話装置１００が相手側のテレビ電話装置からのデータ受信の場合と同様である。ただし、音声復号化１１８が復号化した音声データは音声合成部１２０へも送られ、セレクタ１２１で再生する音声データを選択できる。
【００３８】
次に、記憶部１０３に格納された録画データを再生する場合は、記憶部１０４の場合と同様に、まず録画データから音声符号化方式情報３０１、動画符号化方式情報３０２、多重化情報３０３が取り出され、それぞれ音声復号化部１１９、動画復号化部１１４、分離部１１２へ送られ、これらの情報に基づいてそれぞれの処理の準備が行われる。また、遅延情報３０４を用いて遅延バッファ１１７での音声データの遅延時間が決定される。もし、遅延情報３０４が「０」であるなら、遅延バッファ１１７は構成からはずしてもよい。もし、図４の再生時間遅延４０４のような記憶部１０３と記憶部１０４に格納した録画データに再生遅延が必要な場合、前記の記憶部１０４の録画データ再生に対して、再生を開始する時間を遅延させてもよい。再生開始時間が着たら分離部１１２は記憶部１０３から録画データを読み込み、音声データと画像データに分離し、画像データは画像フレーム毎に動画復号化部１１４へ、音声データは音声フレーム毎に遅延バッファ１１７へ送出される。
【００３９】
動画復号化部１１４では、符号化された動画データが画像フレーム毎に復号化される。そして、画像フレームを表示するタイミングになった時に、復号化した画像データを画像表示部１１５に送られる。画像表示部１１５では、前記の動画復号化部１１３から送られてきた画像フレームと動画復号化部１１４から送られてきた画像フレームの表示をおこなう。この表示は、例えば図２で示すような通常のテレビ電話時の表示と同様におこなうことができる。ただし、図２においてプレビュ２０１とプレビュ２０４は、動画復号化部１１４が復号化した動画データとなる。この画像表示部１１５の表示は、動画復号化部１１３と動画復号化部１１４からの画像フレームを同時に表示しても、いずれか片方のみ表示しても、両方とも表示しなくてもよい。この選択は、例えばユーザ入力部１２５からユーザが表示する画像データを選択して、制御部１２４であらかじめ設定したものであっても良い。
【００４０】
遅延バッファ１１７では、音声復号化部１１９で音声データを復号化し、復号化した音声データを音声合成部１２０とセレクタ１２１に送出する。音声合成部１２０では、音声復号化部１１８で復号化した音声データと、音声復号化部１１９が復号化した音声データをミキシングして、２つの音声データを１つの音声データにし、それをセレクタ１２１へ送出する。セレクタ１２１では、音声復号化部１１８からの音声データと、音声合成部１２０からの音声データと、音声復号化部１１９からの音声データから１つの音声データを選択してＤ／Ａ変換部１２２へ送出する。この選択は、例えばユーザ入力部１２５からユーザが出力する音声データを選択して、制御部１２４で設定したものであっても良い。音声合成部１２０からの音声データを出力することで、自分の音声データと相手の音声データを同時に再生することができる。
以上のようにして、テレビ電話の会話中の自分と相手の双方の動画と音声が録画でき、同時に再生することで会話の記録が可能になる。
【００４１】
・第２の実施形態
図６は、この発明の第２の実施形態におけるテレビ電話装置１００の構成を示すブロック図である。
図６において、６０１、６０５は音声データや動画データを多重化する多重化部、６０２、６０６は録画データを格納するメモリなどの記憶部、６０３、６０７は多重化した録画データを音声データと動画データに分離する分離部、６０４は２つの動画データから１つの動画データを選択することができるセレクタ、６０８は２つの音声データをから１つの音声データを選択することができるセレクタである。その他図１と同じ符号を付した部分の構成及び動作に関しては、第１の実勢形態で説明したものと同様である。ただし、通常のテレビ電話中は、セレクタ６０４は分離部１１１が送った動画データを動画符号化部１１３へ送り、セレクタ６０８は分離部１１１が送った音声データを遅延バッファ１１６へ送るものとする。
【００４２】
次に、通常のテレビ電話の機能を実行中にテレビ電話の録画を開始した場合の動作について説明する。
テレビ電話の録画は、ユーザ入力部１２５からの録画の指示が入り、制御部１２４で次のようにテレビ電話装置１００を制御することで実行される。録画の制御信号が制御部１２４に入力すると、受信側の録画として次の制御が行われる。
まず、分離部１１１が分離した音声データと動画データをフレーム毎に多重化部６０５へ送る。多重化部６０５では、音声データと動画データを多重化し、１つのデータとして記憶部６０６へ送る。この多重化部６０５で用いられる多重化方式は分離部１１１や多重化部１０３で用いられる多重化方式と同じでもよいし、また異なる多重化方式でもよい。異なる多重化方式としては、例えばＭＰＥＧ−４のファイルフォーマットであるＭＰ４ＦＦ（ＭＰＥＧ−４ＦｉｌｅＦｏｒｍａｔ）などがある。この多重化において、各フレームにタイムスタンプを付けることができる場合は、付けることが望ましい。このタイムスタンプの情報は、例えば分離部１１１でＲＴＰが用いられているような場合には、そのＲＴＰに含まれるタイムスタンプを分離部１１１から受け取り、多重化時に各フレームに対応していれることができる。また、分離部１１１で用いられる多重化方式でタイムスタンプない場合は、例えば遅延バッファ１１６のデータの保持時間から各フレームのタイムスタンプを算出することが望ましい。また、多重化した録画データには再生時に必要な、音声データの音声符号化方式の情報、動画データの動画符号化方式の情報が録画データ内に入ることが望ましい。多重化された動画データは、記憶部６０６に格納される。
【００４３】
また、録画の制御信号が制御部１２４に入力すると、送信側の録画として次の制御が行われる。まず、音声符号化部１０６が多重化部１０３へ送る音声データと、動画符号化部１０９は多重化部１０３へ送る動画データを、フレーム毎に多重化部６０１へも同時に送る。多重化部６０１では、動画データと音声データを多重化して１つのデータとして記憶部６０２へ送る。この多重化部６０１で用いられる多重化方式は分離部１１１や多重化部１０３で用いられる多重化方式と同じでもよいし、異なる多重化方式でもよい。多重化部６０５における方式と同じ方式であることが望ましい。また、多重化する場合には各フレームにタイムスタンプが付くことが望ましい。このタイムスタンプは、例えば動画符号化部１０９や音声符号化部１０６が各フレームを同時に送ったタイムスタンプであることが望ましい。
【００４４】
制御部１２４から録画中止の指示が着たら上記動作を中止する。このような手順で、記憶部６０２に送信側の録画データ、記憶部６０６に受信側の録画データを記録することができる。記憶部６０２と記憶部６０６に記録されるデータは、関連付けられていられることが望ましい。例えば、第１の実施形態で説明したように、図４のテーブルをこの実施形態でもちいることができる。この場合、再生時間遅延４０４の時間は、動画符号化部１０９、音声符号化部１０６、動画復号化部１１３、音声復号化部１１８によるＣＯＤＥＣ遅延から算出することができる。このＣＯＤＥＣ遅延の値は端末で固定値を持ってもよいし、これが十分に小さいときは０とみなしてもよい。
【００４５】
次に、記憶部６０２と記憶部６０６に格納した録画データを再生する場合を説明する。
再生を開始する場合は、ユーザ入力部１２５から録画データの再生の指示が入力され、制御部１２４が録画データ再生を制御する。ユーザは例えば、図４の４０１で示した１番の録画データ再生開始を指示するとか、またはユーザが同時に再生する録画データを２つ選んで再生開始を指示してもよい。
【００４６】
まず、記憶部６０６に格納された録画データを再生する場合について説明する。
分離部６０７は、多重化部６０５で用いた多重化方式と同じ方式で録画データを分離することができる。まず分離部６０７は、記憶部６０６に格納された録画データから音声符号化方式の情報、動画符号化方式の情報を取りだし、それぞれ音声復号化部１１８、動画復号化部１１３送り、これらの情報に基づいてそれぞれの処理の準備を行う。また、録画データ内にタイムスタンプがある場合は、このタイムスタンプから音声データと動画データの遅延情報を算出し遅延バッファ１１６での音声データの遅延時間を決定する。もし、遅延が「０」であるなら、遅延バッファ１１６は構成からはずしてもよい。次に、分離部６０７は記憶部６０６から録画データを読み込み、音声データと動画データに分離し、動画データは画像フレーム毎にセレクタ６０４を介して動画復号化部１１３へ、音声データは音声フレーム毎にセレクタ６０８を介して遅延バッファ１１６へ送出する。この後の再生手順は、第１の実施形態で説明した動作と同様である。
【００４７】
次に、記憶部６０２に格納した録画データを再生する場合を説明する。
分離部６０３は、多重化部６０１で用いた多重化方式と同じ方式で録画データを分離することができる。まず分離部６０３は、記憶部６０２に格納した録画データから音声符号化方式の情報、動画符号化方式の情報を取りだし、それぞれ音声復号化部１１９、動画復号化部１１４送り、これらの情報に基づいてそれぞれの処理の準備をおこなう。また、録画データ内にタイムスタンプがある場合は、このタイムスタンプから音声データと動画データの遅延情報を算出し遅延バッファ１１７での音声データの遅延時間を決定する。もし、録画データの再生遅延情報が「０」でない場合は、この記憶部６０２で録画したデータの再生の開始は、記憶部６０６の録画データの再生より再生遅延情報で示された分遅く行う。再生が開始したら、分離部６０３は動画データを画像フレーム毎に動画復号化部１１３へ、音声データは音声フレーム毎に遅延バッファ１１６へ送出される。この後の再生手順は、第１の実施形態で説明した動作と同様である。
【００４８】
第２の実施形態において、もし通常のテレビ電話中に同時に多重化部６０１や６０５で多重化ができない場合は、録画が終わるまで音声データと動画データを記憶部６０２や６０６に一時蓄積をおこない、テレビ電話の通話が終了するなどの多重化がおこなえるタイミングになったら記憶部６０２や６０６に一時蓄積をおこなった音声データと動画データを多重化部６０１や６０５に送って多重化をおこない、その多重化した録画データを記憶部６０２や６０６に格納してもよい。
【００４９】
図６に示した例では、多重化部と分離部と記憶部が、それぞれ２つずつ必要になる。しかし、多重化方式によってはこれらを１つの系にすることができる。例えば、ＭＰ４ＦＦでは、複数の音声データと動画データを１つのデータに多重化することができる。これを用いて実現すると、図７で示すような構成となる。
【００５０】
図７において、７０１はＭＰ４ＦＦなどの複数の音声データと動画データを多重化する多重化部、７０２は録画データを格納する記憶部、７０３はＭＰ４ＦＦなどの方式で多重化されたデータを分離する分離部である。この構成において、録画をするときは、送信側の音声データと動画データ、受信側の音声データと動画データの各フレームに対して、データの再生時間に合わせたタイムスタンプを用いて多重化を行い、記憶部７０２に録画データを格納する。再生するときは、記憶部７０２に格納された録画データを分離部７０３で送信側の音声データと動画データ、受信側の音声データと動画データに分離し、それぞれ前述の例と同じように再生する。
【００５１】
この第２の実施形態によれば、多重化された動画データを記憶部に格納するにように構成したので、例えば多重化方式をＭＰＥＧ−４ファイルフォーマットのような共通のフォーマットに統一することにより、記憶部に記憶された動画データを他の用途、例えばパソコンや携帯電話での添付ファイルとして、第三者に転送することができる。
【００５２】
・第３の実施形態
図８は、第３の実施形態によるテレビ電話装置１００の構成を示すブロック図である。
図８において、８０１は音声データや動画データを多重化する多重化部、８０２は録画データを格納するメモリなどの記憶部、８０３は多重化した録画データから音声データと動画データに分離する分離部、８０４は音声データを符号化する音声符号化部、８０５は２つの音声データを１つの音声データに合成をおこなう音声合成部、８０６は動画データを動画符号化する動画符号化部、８０７は２つの画像フレームを合成する画像合成部である。その他の図１又は図６に示す符号と同じものは、上記した第１、第２の実施形態における機能、動作と同様である。
【００５３】
次に、通常のテレビ電話の機能を実行中にテレビ電話の録画を開始する場合の動作について説明する。
テレビ電話の録画は、ユーザ入力部１２５から録画の指示が入力され、制御部１２４で以下のようにテレビ電話装置１００の関連する部分を制御することで実行される。
録画の制御信号が制御部１２４に入力すると、受信側の録画として次の制御が行われる。まず、画像入力部１１０で取り込まれた画像フレームは画像合成部８０７へ送られと共に、動画復号化部１１３で復号化された画像フレームも画像合成部８０７へ送られる。画像合成部８０７では、送られてきた２枚の画像フレームから１枚の画像フレームが合成される。
【００５４】
例えば、図９に示すように画像合成例がある。図９において、９０１、９０４は相手端末からの画像、９０２、９０３は自端末の画像である。この例のようにお互いの動きがわかりやすいように合成することが望ましい。また、合成後の画像サイズは、合成前の画像フレームのサイズと同じであることが望ましい。この合成した画像フレーム毎に、動画符号化部８０６へ送られる。動画符号化部８０６では、送られてきた画像フレーム毎に動画符号化し、符号化した動画データを多重化部８０１へ送る。この動画符号化部８０６で用いられる動画符号化方式は、動画復号化部１１３等で用いられる動画符号化方式と同じ方式であることが望ましい。
【００５５】
一方、音声入力部１０８で入力し、Ａ／Ｄ変換部１０７でデジタル化された音声データは音声合成部８０５へ送られ、音声復号化部１１８で復号化された音声データも音声合成部８０５へ送られる。音声合成部８０５では、２つの音声データから１つの音声データを合成し、合成した音声データを音声符号化部８０４へ送る。音声符号化部８０４では音声フレーム毎に音声データを符号化し、符号化した音声データを多重化部８０１へ送る。この音声符号化部８０６で用いる音声符号化方式は音声符号化部１１８などで用いられる方式と同じであることが望ましい。
【００５６】
多重化部８０６では、まず動画符号化部１１３で用いられた動画符号化方式の情報と音声符号化方式の情報を録画データに記録する。そして、送られた符号化した音声データと符号化した動画データを多重化して１つの録画データにする。
このとき多重化部８０１がタイムスタンプ使用できる多重化方式であれば、画像フレームは動画復号化部１１３で合成の元になった画像フレームを復号化して表示をかけたときの時間を、音声フレームは音声復号化部１１８が音声合成の基となった音声フレームを復号化した時間をタイムスタンプとして用いることが望ましい。この多重化した録画データは記憶部８０２へ送られ、格納される。
尚、多重化部８０１において、入力として合成した画像フレームを用いたが、もし相手画像の動画データだけ録画データに残したい場合は、分離部１１１から分離された動画データを用いてもよい。上述のようにすることで会話を記録した録画データを格納できる。
【００５７】
次に、記憶部８０２に格納した録画データを再生する場合を説明する。再生を開始する場合は、ユーザ入力部１２５から録画データを再生するための指示が入力され、制御部１２４が録画データ再生を制御する。
【００５８】
まず、記憶部８０２に格納された録画データを再生する場合について説明する。
分離部８０３は、多重化部８０１で用いた多重化方式と同じ方式で録画データを分離することができる。まず分離部８０１は、記憶部８０２に格納した録画データから音声符号化方式の情報、動画符号化方式の情報を取り出し、それぞれ音声復号化部１１８、動画復号化部１１３送り、これらの情報に基づいてそれぞれの処理の準備を行う。また、録画データ内にタイムスタンプがある場合は、このタイムスタンプから音声データと動画データの遅延情報を算出し、遅延バッファ１１６での音声データの遅延時間を決定する。もし、遅延が「０」であるならば、遅延バッファ１１６を構成から外してもよい。次に、分離部８０３は記憶部８０２から録画データを読み出し、音声データと動画データに分離する。動画データは画像フレーム毎にセレクタ６０４を介して動画復号化部１１３へ送出され、音声データは音声フレーム毎にセレクタ６０８を介して遅延バッファ１１６へ送出される。この後の再生手順は、第１の実施形態で説明した動作と同様である。
【００５９】
上記した実施例、例えば図１において、記憶部１０３，１０４、及びＡ／Ｄ変換部１０７、Ｄ／Ａ変換部１２２などはハードウェアで構成するのが好ましいが、多重化部１０５、分離部１１１、１１２、音声符号化部１０６、動画符号化部１０９、音声復号化部１１８、１１９、動画復号化部１１３，１１４、音声合成部１２０、セレクタ１２１などはハードウェアで構成しても良いし、またファームウェアで構成しても良い。ハードウェアで構成する場合には、この部分は半導体回路にて構成される。
【００６０】
以上説明したいくつかの実施例によれば、複数のテレビ電話装置が互いにテレビ電話を行なっている最中に、片方のテレビ電話装置がテレビ電話の記録を残すため録画を開始したときに、双方の音声データ、動画データを録画でき、また双方の動画と音声を再生することができる。また、録画による遅延時間を用いて、ずらして再生することでテレビ電話中の会話と、再生時の会話がほぼ同じ遅延で再生することができ、違和感なく鑑賞することができる。
【００６１】
【発明の効果】
本発明によれば、相手側から送信された画像及び音声と、自分側から送信される画像及び音声の記録が行え、また、それらの情報の再生が可能な音声及び画像の送受信記録システムを実現できる。
【図面の簡単な説明】
【図１】本発明の１実施形態によるテレビ電話装置の構成例を示すブロック図。
【図２】画面の表示例を示す図。
【図３】録画データの構成例を示す図。
【図４】録画データ関連テーブルの構成例を示す図。
【図５】再生時間のずれの関係を示す図。
【図６】本発明の第２実施形態によるテレビ電話装置の構成例を示すブロック図。
【図７】本発明の第２実施形態におけるテレビ電話装置の代替例を示すブロック図。
【図８】本発明の第３実施形態によるテレビ電話装置の構成例を示すブロック図。
【図９】画像合成の例を示す図。
【図１０】再生方法を選択するための表示画面の例を示す図。
【符号の説明】
１００テレビ電話装置、１０１通信網
１０２・・・通信制御部、
１０３、１０４、６０２、６０６、７０２記憶部、
１０５、６０１、６０５、７０１多重化部、１０６、８０４音声符号化部
１０７Ａ／Ｄ変換部、１０８音声入力部
１０９、８０６動画符号化部、１１０画像入力部
１１１、１１２、６０３、６０７、７０３分離部、
１１３、１１４動画復号化部、１１５画像表示部
１１６、１１７遅延バッファ、１１８、１１９音声復号化部
１２０音声合成部、１２１、６０４、６０８セレクタ
１２２Ｄ／Ａ変換部、１２３音声出力部、１２４制御部
１２５ユーザ入力部、８０７画像合成部。

Claims

符号化された音声データ及び動画データを多重化し、通信網を介してこの多重化されたデータを送受信するテレビ電話装置において、
相手のテレビ電話装置から送信され、受信されたデータを記録する受信記憶部と、
自分のテレビ電話装置から相手のテレビ電話装置へ送信される多重化データを記録する送信記憶部と、
テレビ電話の会話の録画時に該受信記憶部、及び該送信記憶部に該多重化データの記録を行うように制御する制御部を有することを特徴とするテレビ電話装置。
請求項１に記載のテレビ電話装置において、
前記受信記憶部に記録されたデータを、符号化した音声データと符号化した動画データに分離する第１の分離部と、
該第１の分離部で分離された音声データを復号化する第１の音声復号化部と、
該送信記憶部のデータを、符号化した音声データと符号化した動画データに分離する第２の分離部と、
該第２の分離部で分離された音声データを復号化する第２の音声復号化部と、
該第１の音声復号化部で復号化された音声データと、該第２の音声復号化部で復号化された音声データを１つの音声データに合成する音声合成部とを有し、
該制御部は、該受信記憶部と送信記憶部に格納されたデータを、同時に再生するように制御することを特徴とするテレビ電話装置。
前記受信記憶部及び送信記憶部には、データストリームに多重化されている音声データの音声符号化方式に関する情報、データストリームに多重化されている動画データの動画符号化方式に関する情報、多重化方式に関する情報、及び多重化された音声データと動画データのデータストリームが格納されることを特徴とする請求項１に記載のテレビ電話装置。
前記受信記憶部及び送信記憶部には、データストリームに多重化されている音声データの音声符号化方式に関する情報、データストリームに多重化されている動画データの動画符号化方式に関する情報、前記分離部で分離するために必要とされる多重化方式に関する情報、データストリームに多重化されている音声データと画像データの遅延情報、及び多重化された音声データと動画データのデータストリームが格納されることを特徴とする請求項２に記載のテレビ電話装置。
前記受信記憶部及び送信記憶部には、録画データのファイル及び送信データのファイルを示す情報、及び再生時の遅延に関する情報が格納されることを特徴とする請求項１に記載のテレビ電話装置。
前記送信記憶部及び受信記憶部に記録された音声及び動画データを再生するための指示を入力する入力部を有し、該入力部より該記憶部に記憶されている再生の対象となるデータを選択し、かつ送信データを再生するか、受信データを再生するか、又は両方を再生するかを選択するための機能を有することを特徴とする請求項１に記載のテレビ電話装置。
通信網を介して符号化された音声データと符号化した動画データを１つのデータに多重化して送受信する送受信システムにおいて、
少なくとも相手装置から受信されたデータを第１の符号化した音声データと符号化した動画データに分離する第１の分離部と、
自装置から送信する第２の符号化した音声データと、該第１の分離部で分離された第１の符号化した音声データと符号化した動画データを１つのデータに多重化する多重化部と、
該多重化部で多重化されたデータを記録する記憶部と、を有することを特徴とする送受信記録システム。
請求項７のシステムにおいて、
前記記憶部に記録したデータを２つ以上の符号化した音声データと符号化した動画データに分離する第２の分離部と、
該第２の分離部で分離した音声データの１つを復号化する第１の音声復号化部と、
該第２の分離部で分離した音声データの他方を復号化する第２の音声復号化部と、
該第１の音声復号化部で復号化した音声データと該第２の音声復号化部で復号化した音声データを１つの音声データに合成する音声合成部と、
会話の録画時に、音声及び動画データを該記憶部に記録するように制御すると共に、該記憶部に格納されたデータを同時に再生するよう制御する制御部と、を有することを特徴とする送受信記録システム。
前記記憶部には、データストリームに多重化されている音声データの音声符号化方式に関する情報、データストリームに多重化されている動画データの動画符号化方式に関する情報、多重化方式に関する情報、及び多重化された音声データと動画データのデータストリームが格納されることを特徴とする請求項７に記載の送受信記録システム。
前記記憶部には、録画データのファイル及び送信データのファイルを示す情報、及び再生時の遅延に関する情報が格納されることを特徴とする請求項７に記載の送受信記録システム。
音声データ及び動画データは、フレーム化されて扱われ、各フレームにはタイムスタンプが付与されていることを特徴とする請求項１又は７記載のテレビ電話装置。
音声データ及び動画データは、ＭＰＥＧ−４のファイルフォーマットであることを特徴とする請求項１１記載のテレビ電話装置。
通信網を介して符号化した音声データと符号化した動画データを１つのデータに多重化して送受信するテレビ電話装置において、
少なくとも相手装置から受信されたデータを第１の符号化した音声データと符号化した動画データに分離する第１の分離部と、
該第１の分離部で分離された符号化した音声データを復号化して音声データにする音声復号化部と、
音声データを入力する音声入力部と、
該音声復号化部で復号化された音声データと該音声入力部で入力された音声データを１つの音声データに合成する音声合成部と、
該音声合成部から出力される音声データを符号化する音声符号化部と、
該音声符号化部で符号化された音声データと符号化された動画データを多重化して１つのデータにする多重化部と、
該多重化部で多重化されたデータを記録する記憶部を有し、
テレビ電話の会話の録画時に該記憶部に記録を行うことを特徴とするテレビ電話装置。
前記記憶部に記憶された音声及び動画データを再生するための指示をする入力部を有し、該入力部より該記憶部に記憶されている再生の対象となるデータを選択し、かつ送信データを再生するか、受信データを再生するか、又は両方を再生するかを選択するための機能を有することを特徴とする請求項７又は１３に記載のテレビ電話装置。
通信網を介して符号化された音声データと符号化した動画データを１つのデータに多重化して送受信する送受信方法において、
少なくとも相手装置から受信されたデータを第１の符号化した音声データと符号化した動画データに分離部で分離し、
自装置から送信する第２の符号化した音声データと、該分離部で分離された第１の符号化した音声データと符号化した動画データを１つのデータに多重化し、
該多重化されたデータをメモリに記憶することを特徴とする送受信方法。
入力部より該記憶部に記憶されている再生の対象となるデータを選択し、かつ送信データを再生するか、受信データを再生するか、又は両方を再生するかを選択することを特徴とする請求項１５に記載の送受信データの記録再生方法。