JP4511270B2

JP4511270B2 - 送信装置、受信装置、及び通信システム

Info

Publication number: JP4511270B2
Application number: JP2004213333A
Authority: JP
Inventors: 誠新開; 徹上田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2004-07-21
Filing date: 2004-07-21
Publication date: 2010-07-28
Anticipated expiration: 2024-07-21
Also published as: JP2006033743A

Description

本発明は、音声データと映像データとを符号化して送信する送信装置、符号化された音声データと映像データとを受信する受信装置、及びこれらを有する通信システムに関する。

従来、テレビ電話やテレビ会議等に用いられる通信システムでは、映像信号と音声信号とを符号化して通信を行っている。このような通信システムでは、送信側で送信したい映像と音声とを符号化し、受信側では受信した符号化された映像と音声とを復号化し、映像と音声とを出力する。

一般的に映像データは音声データに比べてデータ量が多く、また符号化や復号化の処理も複雑であるため、映像信号の符号化・復号化の処理にかかる時間は、音声信号の符号化・復号化の処理にかかる時間に比べて長くなる。

そのため、送信側で映像データと音声データとを独立に符号化し、独立に送信した場合、受信側でこの独立に符号化された映像データ及び音声データを復号化する際には、受信した映像データ及び音声データをそれぞれ独立に復号化してそのまま出力すると、音声の方が映像よりも時間的に早く出力されてしまうため、映像と音声との同期がとれないという問題があった。

すなわち、映像データの符号化処理にかかる時間をａ、その通信にかかる時間をｂ、当該符号化された映像データの復号化処理にかかる時間をｃとし、音声データの符号化処理にかかる時間をｘ、その通信にかかる時間をｙ、当該符号化された音声データの復号化処理にかかる時間をｚとすると、ａ＞ｘ、ｂ≒ｙ、ｃ＞ｚであるため、映像が送信側で入力されてから受信側で出力されるまでにかかる遅延時間（ａ＋ｂ＋ｃ）は、音声が送信側で入力されてから受信側で出力されるまでにかかる遅延時間（ｘ＋ｙ＋ｚ）よりも大きくなる。そのため、受信側では音声の出力よりも映像の出力が遅れてしまう。

この問題に対しては、送信側でそれぞれ符号化された映像及び音声の送信データに同期のための時間情報を付加する方法や、受信側で音声を一定時間遅延させて同期させる方法等が提案されている。例えば、送信側で時間情報を付加する方法として、ＭＰＥＧ-２（Moving Picture Experts Group-2）システムが挙げられる。非特許文献１に示されているように、ＭＰＥＧ-２システムでは、映像や音声の符号化の単位毎に付与される時刻情報ＰＴＳ（Presentation Time Stamp）及びＤＴＳ（Decoding Time Stamp）をそれぞれ符号化時に付加し、映像データと音声データとを多重化することで、復号化時に映像と音声とを同期して出力することができる。

しかし、前述したように、映像信号の符号化、複合化の処理にかかる時間は、音声信号の符号化、復号化の処理にかかる時間に比べて長いため、映像と音声とを同期させて出力するには結果として音声を遅延させることになる。すなわち、音声と映像とを同期させない場合には、音声の遅延時間は（ｘ＋ｙ＋ｚ）であり、映像の遅延時間は（ａ＋ｂ＋ｃ）となるのに対して、音声と映像とを同期させる場合には、音声、映像ともに遅延時間は（ｘ＋ｙ＋ｚ）となってしまう。
藤原洋監修、画像＆音声圧縮技術のすべて、TECH I Vol. 4、CQ出版社、2000

しかしながら、上述した映像と同期させるための音声の遅延は、テレビ放送のような片方向の通信であればそれほど問題とはならないが、テレビ電話のような双方向の通信を行う場合には、受け答えが間延びし、円滑なコミュニケーションの妨げとなる。したがって、映像と音声とを同期させる手法はテレビ放送のような片方向通信のアプリケーションに適した手法であり、テレビ電話のような双方向通信を行う際には、音声の遅延を出来るだけ少なくして出力する手法が望ましいと考えられる。

また、テレビ電話のような双方向通信を行っている際でも、手元にあるビデオコンテンツを相手に見せたいという状況がある。例えば、離れた所に住んでいる祖母とテレビ電話をしている途中で孫のビデオを見せるような状況が考えられる。つまり、テレビ電話の映像とビデオの映像とを適宜切り替えて送受信している状況である。

このとき、テレビ電話を行っているときは音声の遅延を出来るだけ少なくしたいが、コンテンツを送信しているときは映像と音声を同期させないと鑑賞に堪えない状況となってしまう。このように、テレビ電話とコンテンツ送信を両方とも１つのシステムで実現するためには、入力ソースに応じて符号化の処理を切り替える必要がある。

また、映像と音声を同期するために映像データと音声データを多重化して送信した場合、ネットワークの状況が悪化し、データを受信するまでに時間がかかってしまうと、映像だけでなく音声も大幅に遅れてしまうという問題がある。送信したコンテンツを見ながら会話するという場合には、多少の映像が途切れることはそれほど問題にならないが、音声が途切れることは会話に支障が生じるため、ネットワーク状況が悪化した場合には音声を優先させたいという希望があった。

本発明は、上記課題に基づいて創案されたもので、テレビ電話のような音声のレスポンスが要求されるケースと、コンテンツ送信のような映像と音声との同期が必要なケースとの両方に対応可能な送信装置、受信装置、及びこれらを有する通信システムを提供することを目的とする。

上記課題を解決するために、本発明に係る送信装置は、音声データと映像データとをネットワークを介して送信する送信装置であって、音声データと映像データの同期をとらずに送信する第１の動作モードと、音声データと映像データの同期をとって送信する第２の動作モードと、ユーザ入力に応じてこれらの動作モードの選択設定を行うユーザ入力処理部と、ユーザ入力処理部で選択された動作モードにしたがって音声データ及び映像データを送信するデータ送信部と、データ送信部から送信された音声データ及び映像データを受信した受信装置から送信されるネットワーク情報を基に、ネットワークの状況を解析するネットワーク情報解析部とを備え、ネットワーク情報解析部が、平常の場合に所定値より小さいネットワーク情報を基準としてネットワークの状況が悪化したと判断した場合には、データ送信部は、ユーザ入力処理部で選択設定された動作モードが第２の動作モードであった場合でも、入力される音声データ及び映像データを音声データと映像データの同期をとらずに送信することを特徴とする。

また、本発明に係る送信装置においては、ネットワーク情報解析部は、平常の場合に所定値より小さいネットワーク情報を基準として悪化したネットワークの状況が回復したと判断した場合には、データ送信部は、ユーザ入力処理部で選択された動作モードにしたがって音声データ及び映像データを送信することを特徴とする。

また、本発明に係る送信装置においては、データ送信部から送信された音声データ及び映像データを受信した受信装置から送信されるネットワークの遅延情報に基づいてネットワークの状況を判断することを特徴とする。
また、本発明に係る送信装置においては、第１の動作モードで音声データと映像データの同期をとらずに送信するときには、音声データを映像データに対して優先的に送信することを特徴とする。

また、本発明に係る送信装置は、音声データと映像データとをネットワークを介して送信する送信装置であって、第１の動作モード又は第２の動作モードのいずれか一方の動作モードのユーザ入力に応じて、第１の動作モードのユーザ入力が選択入力されたときには音声データと映像データの同期をとらずに送信する非同期モードの符号化設定を設定する一方、第２の動作モードのユーザ入力が選択入力されたときには音声データと映像データの同期をとって送信する同期モードの符号化設定を設定するユーザ入力処理部と、ユーザ入力処理部により選択設定された非同期モード又は同期モードの符号化設定にしたがって、入力される音声データ及び映像データを両者の同期をとらずに又は両者の同期をとって符号化して送信するデータ送信部と、データ送信部から送信された音声データ及び映像データを受信した受信装置から送信されるネットワーク情報を基に、ネットワークの状況を解析するネットワーク情報解析部とを備え、ネットワーク情報解析部は、第２の動作モードのユーザ入力に基づく通信中に、平常の場合に所定値より小さいネットワーク情報を基準としてネットワークの状況の悪化を検出したときには、ユーザ入力処理部によって設定された同期モードの符号化設定に代えて非同期モードの符号化設定を設定し、データ送信部は、第２の動作モードのユーザ入力に基づく通信中であった場合でも、当該設定変更された非同期モードの符号化設定に基づいて、入力される音声データ及び映像データを両者の同期をとらずに符号化して送信することを特徴とする。

また、本発明に係る送信装置においては、ネットワーク情報解析部は、第２の動作モードのユーザ入力に基づく通信中に、平常の場合に所定値より小さいネットワーク情報を基準として悪化したネットワークの状況の回復を検出したときには、当該設定変更した非同期モードの符号化設定に代えて再び同期モードの符号化設定を設定し、データ送信部は、第２の動作モードのユーザ入力に対応する同期モードの符号化設定に基づいて、入力される音声データ及び映像データを両者の同期をとって符号化して送信することを特徴とする。
また、本発明に係る送信装置においては、ネットワーク情報解析部は、データ送信部から同期モード又は非同期モードの符号化設定で送信した映像データ及び音声データを受信した受信装置から送信されるネットワークの遅延情報を受信し、当該遅延情報に基づいてネットワークの状況の悪化及び回復を判断することを特徴とする。

また、本発明に係る送信装置においては、そのデータ送信部は、非同期モードの符号化設定に基づいて、入力される音声データ及び映像データを両者の同期をとらずに符号化して送信するときには、入力される音声データを同じく入力される映像データに対して優先的に送信することを特徴とする。
また、本発明に係る送信装置においては、そのデータ送信部は、非同期モードの符号化設定に基づいて、入力される音声データを符号化する音声データ符号化部と、非同期モードの符号化設定に基づいて、入力される映像データを符号化する一方、同期モードの符号化設定に基づいて、入力される音声データ及び映像データを多重化して符号化する複合データ符号化部とを備えていることを特徴とする。

本発明に係る送信装置、受信装置、及び通信システムによれば、テレビ電話を行う際には音声の遅延ができるだけ少なくなるように音声を優先して送信し、コンテンツを送信する際には映像と音声を同期させて送信することが可能となる。また、ネットワークの遅延状況が悪化した場合には、音声を優先するように切り替えることが可能となる。

この結果、テレビ電話を行っている場合は音声の遅延をできるだけ少なくでき、受け答えが間延びすることがなく、円滑なコミュニケーションがはかれる。また、コンテンツを送信している場合は、映像と音声を同期させることができるので、コンテンツを忠実に再現視聴することができる。

本発明の一実施の形態による送信装置１について図面とともに説明する。
図１は、本発明の一実施の形態による送信装置及び受信装置を用いた通信システムの一実施例のシステム構成図である。
図１において、通信システム１００は、送信装置１と受信装置２とを備えて構成され、送信装置１と受信装置２とは例えば公衆電話回線等のネットワーク３を介してデータ接続されている。

送信装置１は、一対の映像入力端４Ａ，音声入力端４Ｂを備えた入力端４を複数組（図示の場合は入力端４-１，４-２の２組）備え、各入力端４にそれぞれ供給される映像データと音声データとを符号化し、映像と音声とのストリームデータを生成して、ネットワーク３を介して受信装置２に送信する。図示の例では、２組ある入力端４の中の一方の入力端４-１には、テレビ電話に用いるためのカメラ５とマイク６とが接続され、他方の入力端４-２には映像記録装置７の映像出力７Ａ及び音声出力７Ｂが接続されている。

受信装置２は、一対の映像出力端８Ａ，音声出力端８Ｂを備えた出力端８を１組備え、映像出力端８Ａには表示手段としてのディスプレイ９が接続され、音声出力端８Ｂには音声出力手段としてのスピーカ１０が接続されている。これにより、受信装置２は、送信装置１から受信したストリームデータを復号化し、映像及び音声をディスプレイ９及びスピーカ１０からそれぞれ出力する構成になっている。

図２は、本実施の形態に係る送信装置の構成を示した論理ブロック図である。
送信装置１は、入力部１１、入力選択部１２、符号化制御部１３、符号化情報生成部１４、符号化情報送信部１５、音声データ符号化部１６、複合データ符号化部１７、データ送信部１８、ユーザ入力処理部１９、設定保持部２０、ネットワーク情報解析部２１、ネットワーク情報受信部２２、及び通信部２３を備えた構成になっている。

入力部１１は、各入力端４-１，４-２に対応した第１入力部１１-１及び第２入力部１１-２を有して構成されている。第１入力部１１-１及び第２入力部１１-２は、それぞれ一対の映像入力部１１-１Ａ（１１-２Ａ）と音声入力部１１-１Ｂ（１１-２Ｂ）とを備えている。

本実施の形態では、第１入力部１１-１は受信装置２との間でのテレビ電話に使用するための部位として使用されている。そのため、第１入力部１１-１の映像入力部１１-１Ａはカメラ５と接続され、音声入力部１１-１Ｂはマイク６と接続されている。

また、第２入力部１１-１はビデオ、デジタルカメラ等の外部の映像記録装置５からの映像データを入力する部位として使用されている。そのために、第２入力部１１-２の映像入力部１１-２Ａは映像記録装置７の映像出力７Ａと接続され、音声入力部１１-１Ｂは映像記録装置７の音声出力７Ｂと接続されている。

そして、これら入力部１１の第１映像入力部１１-１Ａ，第１音声入力部１１-１Ｂ，第２映像入力部１１-２Ａ，第２音声入力部１１-２Ｂのそれぞれ出力は入力選択部１２に供給される。

入力選択部１２は、第１映像入力部１１-１Ａから入力された映像データと第１音声入力部１１-１Ｂから入力された音声データとの対、又は第２映像入力部１１-２Ａから入力された映像データと第２音声入力部１１-２Ｂから入力された音声データとの対の中、いずれか一方の映像データと音声データとの対を選択し、選択された対の映像データと音声データとを符号化制御部１３に出力する。

入力選択部１２は、第１入力部１１-１又は第２入力部１１-２からそれぞれ供給される映像データと音声データとの対の中、どちらの入力部１１-１，１１-２から供給される映像データと音声データとの対を選択するかを、設定保持部２０に保持されている設定情報に基づいて行う。

符号化制御部１３は、入力選択部１２で選択された一対の映像データ及び音声データの符号化に関し、その映像データと音声データとを多重化して符号化するか、その映像データと音声データとをそれぞれ独立に符号化するかを制御する。符号化制御部１３は、この選択制御を、設定保持部２０に保持されている設定情報に基づいて行う。

そのため、符号化制御部１３は、この設定保持部２０に保持されている設定情報に基づき、両者を多重化して符号化する場合は、入力選択部１２から供給される一対の映像データ及び音声データを複合データ符号化部１７に供給し、両者独立に符号化する場合は、入力選択部１２から供給される一対の映像データ及び音声データの中、映像データを複合データ符号化部１７に供給する一方で、音声データを音声データ符号化部１６に供給する。

符号化情報生成部１４は、符号化制御部１３の制御結果を受けて、入力選択部１２から供給される一対の映像データ及び音声データの符号化に用いたコーデック（CODEC）に関する情報（符号化情報）を生成し、生成した符号化情報を符号化情報送信部１５に供給する。この符号化情報は、前述した符号化制御部１３がその符号化処理方法を切り替えた際に、送信装置１側で符号化処理方法を切り替えたことを受信装置２に通知するために使用される。ここで、符号化情報生成部１４によって生成される符号化情報について説明する。

図３は、本実施の形態の送信装置における符号化情報生成部によって生成される符号化情報のデータ構造を示す図である。

符号化情報１１０は、メディアのタイプを表わしたメディアタイプ情報１１１と、符号化に用いたコーデック名を表わしたコーデック情報１１２とを備えて構成されている。この符号化情報１１０としては、例えばＳＤＰ（Session Description Protocol）が用いられる。この符号化情報１１０において、メディアタイプ情報１１１は、メディアが映像であるか、音声であるか、又は映像と音声とが多重化されたシステムであるかを表したものである。また、コーデック情報１１２は、符号化に用いたコーデック名を表したものである。このコーデック情報１１２には、コーデック名のような文字列、又はペイロードタイプ（Payload type）のような数値を用いることができる。

図２に戻り、符号化情報送信部１５は、符号化情報生成部１４から供給される符号化情報１１０から通信パケットを生成して、後述の通信部２３からネットワーク３を介して受信装置２に送信する。

音声データ符号化部１６は、前述の符号化制御部１３から供給される音声データを一連のストリームデータに符号化し、データ送信部１８に供給する。符号化に用いるコーデックとしては、例えばＩＴＵ−Ｔ（International Telecommunication Union-Telecommunication sector ）の音声符号化方式に関する勧告Ｇ.７１１が用いられる。

複合データ符号化部１７は、前述の符号化制御部１３から供給される映像データと音声データとを多重化して一連のストリームデータに符号化し、データ送信部１８に供給する。複合データ符号化部１７は、映像データと音声データとを多重化するに際しては、映像と音声とを同期させるための時刻情報も付加する。また、複合データ符号化部１７は、前述の符号化制御部１３から供給される入力データが映像データのみである場合でも符号化可能なように、音声データを多重化せず、映像データのみを符号化する処理も行える構成になっている。この複合データ符号化部１７では、映像データの符号化に用いるコーデックとして、例えばＭＰＥＧ-２やＭＰＥＧ-４が用いられる。

データ送信部１８は、音声データ符号化部１６と複合データ符号化部１７とで生成されたストリームデータから通信パケットを生成し、通信部２３からネットワーク３を介して受信装置２に送信する。データ送信部１８は、通信パケットを生成するに当たり、音声データ符号化部１６及び複合データ符号化部１７それぞれからストリームデータを受け取った場合には、音声ストリームデータ，映像ストリームデータ，映像データと音声データとが多重化された［映像＋音声］ストリームデータそれぞれに対応した別々の通信パケットを生成する。また、データ送信部１８は、音声ストリームデータと映像ストリームデータとの両方が入力されている場合には、音声ストリームデータを優先的に送信する構成になっている。

図４は、本実施の形態の送信装置によって通信されるストリーム通信データのデータ構造を示す図である。

ストリーム通信データ１２０は、符号化された映像，音声，又は多重化された［映像＋音声］の中の何れかよりなる符号化されたストリームデータ１２４に、シーケンス番号１２１、送信時のタイムスタンプ１２２、データ識別子１２３を付加した構成になっている。

シーケンス番号１２１は、符号化された音声ストリームデータ，映像ストリームデータ，又は［映像＋音声］ストリームデータ１２４の送信するパケットの順番を表したものである。このシーケンス番号１２１を基にして、受信装置２では、受信したパケットの並び替えや、パケット喪失の検出を行うことができる。

タイムスタンプ１２２は、パケットを送信したときの時刻情報であり、受信装置２でジッタ（jitter）値を得るために用いられる。

データ識別子１２３は、符号化されたストリームデータ１２４の種別、すなわち符号化されたストリームデータ１２４が、音声ストリームデータ，映像ストリームデータ，又は［映像＋音声］ストリームデータの中の何れであるかを識別するために用いられる。通信には、例えば音声や動画等のデータストリームをリアルタイムに配送するためのデータ転送プロトコルであるＲＴＰ（Realtime Transport Protocol）が用いられる。

図２に戻り、ユーザ入力処理部１９は、送信装置１へのユーザの指示を受け付け、設定保持部２０に保持されている設定情報を更新するための入力部である。ユーザ入力処理部１９には、図示せぬキーボード，マウス，リモコン操作器等といった入力操作部が有線又は無線接続されている。

設定保持部２０は、入力選択部１２及び符号化制御部１３それぞれの動作を決定する設定情報を保持する。設定保持部２０には、動作モード，入力設定，符号化設定の３種類の設定情報が保持される。

動作モードは、送信装置１の現在の各部に対しての動作モードについて、入力操作部のユーザによる操作に応じて「テレビ電話モード」か「コンテンツ送信モード」かの何れかに設定される。設定保持部２０の動作モード保持部２０ａには、この送信装置１各部に対しての現在の動作モード情報が保持されている。

入力設定は、入力操作部のユーザ操作に応じて「入力１」か「入力２」に設定され、「入力１」の場合は第１音声入力部１１-１Ｂ及び第１映像入力部１１-１Ａからなる第１入力部１１-１が入力選択部１２の入力として選択され、「入力２」の場合は第２音声入力部１１-２Ｂと第２映像入力部１１-２Ａからなる第２入力部１１-２が入力選択部１２の入力として選択される。設定保持部２０の入力設定保持部２０ｂには、この入力選択部１２に対する入力設定情報が保持されている。

符号化設定は、入力操作部のユーザ操作に応じて「同期なし」か「同期あり」かの何れかに設定され、「同期なし」の場合は符号化制御部１３に音声データと映像データとを別々に符号化するように制御させ、「同期あり」の場合は符号化制御部１３に音声データと映像データとを多重化して符号化させるように制御させる。設定保持部２０の符号化設定保持部２０ｃには、この符号化制御部１３に対する符号化設定情報が保持されている。

ネットワーク情報受信部２２は、受信装置２から送信されてくるネットワーク情報を、通信部２３を介して受信し、ネットワーク情報解析部２１に供給する。

図５は、本実施の形態の送信装置によって通信されるネットワーク情報のデータ構造を示す図である。

ネットワーク情報１３０は、ジッタ情報１３１とパケット喪失数情報１３２とを有する構成になっている。ジッタ情報１３１は、受信装置２が受信した送信装置１から送信されたパケットの到着時刻の揺らぎを表している。パケット喪失数情報１３２は、送信装置１から送信されたが受信装置２まで届かなかったパケットのパケット数を表している。このネットワーク情報１３０の通信には、例えばＲＴＰでデータを送受信するためのセッションを制御するプロトコルであるＲＴＣＰ（Realtime Transport Control Protocol）が用いられる。

その上で、図２に示されたネットワーク情報解析部２１は、このネットワーク情報受信部２２から供給される図５に示されたネットワーク情報１３０のジッタ情報１３１及びパケット喪失数情報１３２のそれぞれデータに基づいて、ネットワーク３の状態を判断する。

そして、ネットワーク情報解析部２１は、ネットワーク３の状態に応じて、設定保持部２０に保持されている設定情報（符号化設定）を更新する。

通信部２３は、ネットワーク３に接続され、受信装置２との間で通信を行う。具体的には、図４に示した映像，音声，又は［映像＋音声］の符号化されたストリームデータ１２４を含むストリーム通信データ１２０の送信、図３に示した符号化に用いたコーデック等に関しての符号化情報１１０の送信、及び図５に示した受信装置２からのネットワーク情報１３０の受信を行う。

図６は、本実施の形態による送信装置を用いた通信システムに適用される受信装置の一実施例のシステム構成図である。

受信装置２は、通信部３１、符号化情報受信部３２、符号化情報解析部３３、データ受信部３４、ネットワーク情報送信部３５、ネットワーク情報生成部３６、音声データ復号化部３７、複合データ復号化部３８、及び出力部３９を備えた構成になっている。

通信部３１は、ネットワーク３に接続され、送信装置１との間で通信を行う。具体的には、図４に示した映像，音声又は［映像＋音声］の符号化されたストリームデータ１２４を含むストリーム通信データ１２０の受信、図３に示した符号化に用いたコーデック等に間する情報（符号化情報）１１０の受信、及び送信装置１への図５に示したネットワーク情報１３０の送信を行う。

符号化情報受信部３２は、受信信号から送信装置１によって送信された図３に示した符号化情報１１０を受信し、符号化情報解析部３３に供給する。

符号化情報解析部３３は、符号化情報受信部３２から供給される符号化情報１１０からメディアタイプ情報１１１とコーデック情報１１２とを取得し、当該取得した符号化情報１１０に対応した映像および音声の復号化に必要な情報、すなわちメディアが映像であるか、音声であるか、映像と音声とが多重化されたシステムであるかといったメディアタイプと、符号化に用いられたコーデック名といった情報をデータ受信部３４に供給する。

データ受信部３４は、受信信号から送信装置１によって送信された図４に示したストリーム通信データ１２０を受信する。データ受信部３４は、この受信したストリーム通信データ１２０に含まれる映像，音声又は［映像＋音声］の符号化されたストリームデータ１２４について、符号化情報解析部３３から供給される上述の情報や当該受信したストリーム通信データ１２０に含まれているデータ識別子１２３に基づいて、音声データ復号化部３７又は複合データ復号化部３８の何れを使用して復号化するかを判断する。そして、データ受信部３４は、適切な復号化部３７，３８へ符号化されたストリームデータ１２４を供給する。

ネットワーク情報生成部３６は、データ受信部３４で受信したストリーム通信データ１２０中の情報を基に、ネットワーク３の通信状況に関する情報を生成する。

図４に示したように、データ受信部３４で受信したストリーム通信データ１２０のヘッダ情報１２１〜１２３には、シーケンス番号１２１と送信時タイムスタンプ１２２の情報が含まれているため、ネットワーク情報生成部３６は、これら情報を基にして、ジッタやパケット喪失数を得ることができる。

ネットワーク情報送信部３５は、ネットワーク情報生成部３６で得られたジッタやパケット喪失数から図５に示したネットワーク情報１３０の通信パケットを生成して通信部３１に供給する。これにより、通信部３１は、このネットワーク情報１３０を送信装置１にネットワーク３を介して送信する。

音声データ復号化部３７は、データ受信部３４から供給される音声ストリームデータからなるストリームデータ１２４を音声データに復号化し、音声出力部３９Ｂに出力する。

複合データ復号化部３８は、データ受信部３４から供給されるストリームデータ１２４が映像又は［映像＋音声］何れのストリームデータであるかを判別して、映像データのみを含むストリームデータ１２４であれば復号化した映像データを映像出力部３９Ａに出力し、映像データと音声データとが多重化された［映像＋音声］のストリームデータ１２４であれば、復号化した映像データを映像出力部３９Ａに出力すると共に、復号化した音声データをこの復号化した映像データと同期させて音声出力部３９Ｂに出力する。

出力部３９は、本実施例の場合は一対の映像出力部３９Ａと音声出力部３９Ｂとを備えて構成されている。

映像出力部３９Ａは、受信した映像データを例えばテレビ，ディスプレイ等に表示出力するためのもので、図１に示した映像出力端８Ａに対応する。また、音声出力部３９Ｂは、受信した音声データを例えばスピーカ等に音声出力するためのもので、図１に示した音声出力端８Ｂに対応する。

次に、送信装置１におけるユーザ入力に応じた設定保持部２０の設定変更について説明する。

図７は、本実施の形態の送信装置におけるユーザ入力による設定変更のフローチャートである。

送信装置１は、ユーザ入力処理部１９がユーザ入力を受信すると(ST101)、ユーザ入力処理部１９はそのユーザ入力の指示内容を判定する(ST102)。

ユーザ入力としては、テレビ電話を行うための「テレビ電話モード」と、手元にあるコンテンツを受信装置に送信するための「コンテンツ送信モード」との中のいずれか一方の動作モードを、入力操作部によって排他的に選択する構成になっている。

ユーザ入力処理部１９は、「テレビ電話モード」を指示された場合は、設定保持部２０の入力設定保持部２０ｂに保持されている現在の入力設定を「入力１」（第１入力部１１-１側）に更新設定し(ST103)、符号化設定保持部２０ｃに保持されている現在の符号化設定を「同期なし」に更新設定し(ST104)、動作モード保持部２０ａに保持されている現在の動作モードを「テレビ電話モード」に更新設定する(ST105)。

これに対し、ユーザ入力処理部１９は、「コンテンツ送信モード」を指示された場合は、設定保持部２０の入力設定保持部２０ｂに保持されている現在の入力設定を「入力２」（第２入力部１１-２側）に更新設定し(ST106)、符号化設定保持部２０ｃに保持されている現在の符号化設定を「同期あり」に更新設定し(ST107)、動作モード保持部２０ａに保持されている現在の動作モードを「コンテンツ送信モード」に更新設定する(ST108)。

次に、送信装置１における受信装置２から受信したネットワーク情報１３０に応じた設定保持部２０の設定変更について説明する。

図８は、本形態の送信装置における受信装置からのネットワーク情報による設定変更のフローチャートである。

送信装置１のネットワーク情報受信部２２が受信装置２から図５に示したネットワーク情報１３０を受信すると(ST201)、このネットワーク情報１３０が供給されたネットワーク情報解析部２１は、現在の動作モードを設定保持部２０の動作モード保持部２０ａから取得し(ST202)、現在の動作モードが「テレビ電話モード」であるか「コンテンツ送信モード」であるかを判定する(ST203)。

ネットワーク情報解析部２１は、この設定保持部２０の動作モード保持部２０ａに設定されている現在の動作モードが「テレビ電話モード」である場合は、今回の受信装置２から送信されたネットワーク情報１３０の受信に対しては何もせずに、再度ネットワーク情報受信部２２が受信装置２からのネットワーク情報１３０を受信するのを待つ。

これに対して、ネットワーク情報解析部２１は、設定保持部２０の動作モード保持部２０ａに設定されている現在の動作モードが「コンテンツ送信モード」である場合は、ネットワーク情報解析部２１はネットワーク情報１３０に基づいてネットワーク３における遅延の値を判定する(ST204)。

この遅延の値の判定は、ネットワーク情報１３０に含まれるジッタ情報１３１のジッタ値を用いて推測することより行われる。すなわち、ネットワーク情報解析部２１は、ジッタ値が“０”に近ければ平均的な時間がかかったということであるから遅延は小さいと判断し、このジッタ値が大きな値である場合には平均よりも時間がかかったということであるから遅延が大きいと判断する構成になっている。

このジッタ情報１３１のジッタ値に基づく遅延の程度判定によって、ネットワーク情報解析部２１は、ネットワーク３における遅延が小さいと判断した場合は、設定保持部２０の符号化設定保持部２０ｃに保持されている現在の符号化設定を「同期あり」に更新設定する(ST205)。これに対し、ネットワーク情報解析部２１は、ネットワーク３における遅延が大きいと判断した場合は、できるだけ音声の遅延を減らすために、設定保持部２０の符号化設定保持部２０ｃに保持されている現在の符号化設定を「同期なし」に更新設定する(ST206)。

したがって、図７に示したユーザ入力による設定変更によって、「コンテンツ送信モード」を指示され、設定保持部２０の入力設定保持部２０ｂに「入力２」（第２入力部１１-２側）が、符号化設定保持部２０ｃに「同期あり」が、動作モード保持部２０ａに「コンテンツ送信モード」が設定されている状態であっても(ST106〜ST108)、受信装置２側でネットワーク３における遅延が大きくなると、送信装置１側では、ネットワーク情報解析部２１によって、設定保持部２０の符号化設定保持部２０ｃは「同期あり」から「同期なし」にユーザ入力によらず自動的に設定変更される(ST204，ST206)。また、その後、受信装置２側でネットワーク３における遅延が小さくなり解消した場合は、ネットワーク情報解析部２１によって、再び設定保持部２０の符号化設定保持部２０ｃは「同期なし」から「同期あり」にユーザ入力によらず自動的に設定変更される(ST204，ST205)。

次に、送信装置１における受信装置２へのストリームデータの送信について説明する。
図９は、本実施の形態の送信装置によるストリームデータの送信フローチャートである。

まず、送信装置１においては、入力選択部１２が、設定保持部２０からその入力設定保持部２０ｂに保持されている入力設定を取得する(ST301)。そして、入力選択部１２は、この取得した入力設定の設定内容と、入力選択部１２自身が保持している現在の入力設定の設定内容と比較し(ST302)、両者の設定内容が異なり、映像データ及び音声データの供給元としての第１入力部１１-１と第２入力部１１-２とを切り替える必要があれば、入力選択部１２は自身が保持している現在の入力設定の設定内容を、設定保持部２０の入力設定保持部２０ｂから取得した入力設定の設定内容に変更して、第１入力部１１-１と第２入力部１１-２との間で現在の音声入力と映像入力との供給元を切り替える(ST303)。

続いて、符号化制御部１３が、設定保持部２０からその符号化設定保持部２０ｃに保持されている符号化設定を取得する(ST304)。そして、符号化制御部１３は、この取得した符号化設定の内容と、符号化制御部１３自身が保持している現在の符号化設定の設定内容と比較し(ST305)、両者の設定内容が異なり、送信時における映像データと音声データとの同期の有無を切り替える必要があれば、符号化制御部１３自身が保持している現在の符号化設定の設定内容を、設定保持部２０の符号化設定保持部２０ｃから取得した符号化設定の設定内容に変更して、符号化制御部１３自身が今まで行っていた符号化処理を、新たに取得した符号化設定の設定内容に対応する符号化処理に変更する(ST306)。そして、符号化制御部１３は、符号化処理を変更した場合は、符号化処理を切り替わったことを受信装置２に通知するため、符号化処理の変更と、自身の変更した符号化設定の設定内容を符号化情報生成部１４に供給する。符号化情報生成部１４は、符号化制御部１３から符号化処理の変更及び自身の変更した符号化設定の設定内容が供給されると、これに基づき符号化情報１１０を生成し、符号化情報送信部１５に供給する。これにより、符号化情報送信部１５はこの生成された符号化情報１１０の通信パケットを生成して、後述の通信部２３からネットワーク３を介して受信装置２に送信する(ST307)。

続いて、符号化制御部１３は、現在の符号化設定に基づいて、以下の処理のどちらを行うかを選択する(ST308)。

符号化設定が「同期なし」の場合、符号化制御部１３は、入力選択部１２から供給される音声データを音声データ符号化部１６に供給し、入力選択部１２から供給される映像データのみを複合データ符号化部１７に供給する。

これにより、入力選択部１２から供給される音声データは音声データ符号化部１６で符号化され(ST309)、同じく入力選択部１２から供給される映像データは複合データ符号化部１７で符号化される(ST310)。この場合、複合データ符号化部１７では映像データと音声データとの多重化は行わない。

生成された音声のストリームデータ及び映像のストリームデータはそれぞれデータ送信部１８に供給され、データ送信部１８は音声ストリームデータ，映像ストリームデータそれぞれに対応した別々のストリーム通信データ１２０の通信パケットを生成して、通信部２３を介して受信装置２に送信する(ST311)。

この際、通信部２３は、音声ストリームデータの通信パケットを映像ストリームデータの通信パケットに対して優先して送信することで、できるだけ音声の遅延が少なくなるようにする。

一方、符号化設定が「同期あり」の場合、符号化制御部１３は、入力選択部１２から供給される音声データ及び映像データを複合データ符号化部１７に供給する。

これにより、音声データは複合データ符号化部１７で符号化され(ST312)、映像データも複合データ符号化部１７で符号化され(ST313)、複合データ符号化部１７は共に符号化された映像データ及び音声データを多重化して一連の［映像＋音声］のストリームデータを生成し(ST314)、データ送信部１８に供給する。そして、データ送信部１８は、［映像＋音声］のストリームデータに対応したストリーム通信データ１２０の通信パケットを生成して、通信部２３を介して受信装置２に送信する(ST315)。

次に、受信装置２における送信装置１から上述のように送信された音声，映像，又は［映像＋音声］のストリームデータの受信について説明する。

受信装置２は、通信部３１が送信装置１からの送信信号を受信すると、通信部３１はその受信信号を符号化情報受信部３２及びデータ受信部３４に供給する。

図１０は、本実施の形態の送信装置からの符号化情報を受信する受信装置の受信フローチャートである。

符号化受信部３２は、通信部３１から供給される受信信号から符号化情報１１０の通信パケットを受信し、受信した符号化情報１１０を符号化情報解析部３３に供給する(SR101)。符号化情報解析部３３は、符号化受信部３２から供給される図３に示した符号化情報１１０を基に、送信装置１から受信装置２に送信されるストリーム通信データ１２０の符号化されたデータ１２４が音声ストリームデータと映像ストリームデータとで符号化を分けられたシステムによるものか、又は映像と音声とが多重化されて符号化されたシステムによるものであるかを、そのメディアのタイプ１１１により解析し、符号化されたデータ１２４についてのコーデックに関する情報をコーデック情報１１２により解析する。そして、符号化情報解析部３３は、その解析結果をデータ受信部３４に供給可能なように更新設定する(SR102)。

図１１は、本実施の形態の送信装置を適用した通信システムにおける受信装置のストリームデータの受信フローチャートである。

まず、受信装置２の通信部３１は、送信装置１から送信される通信パケットを受信し、データ受信部３４にストリーム通信データ１２０を供給する(SR201)。

データ受信部３４は、受信したこれらストリーム通信データ１２０をネットワーク情報生成部３６に供給するとともに、音声データ復号化部３７，複合データ復号化部３８にこれらストリーム通信データ１２０の符号化されたデータ１２４を供給制御する。

このデータ受信部３４からストリーム通信データ１２０が供給されるネットワーク情報生成部３６では、これら受信したストリーム通信データのパケット１２０に付加されているシーケンス番号１２１及び送信時タイムスタンプ１２２を基に、ジッタやパケット損失率等のネットワークの情報を取得する(SR202)。そして、ネットワーク情報生成部３６は、取得したジッタやパケット損失率等のネットワークの情報を、ネットワーク情報送信部３５に供給する。

ネットワーク情報送信部３５は、図５に示したネットワーク情報１３０を生成して、通信部３１を介して送信装置１に送信する。その頻度はデータ受信部３４がストリーム通信データ１２０のパケットを受信する頻度に比べて少なくてよいので、内部に備えられたタイマによって、ネットワーク情報の送信装置１への前回送信から一定時間経過したか否か判定し(SR203)、一定時間経過している場合は、ネットワーク情報生成部３６で得られたジッタやパケット喪失数からネットワーク情報１３０の通信パケットを生成し、通信部３１を介して送信装置１に送信する(SR204)。そして、ネットワーク情報送信部３５は、再び前述した一定時間の経過を判定する。

これに対して、ネットワーク情報１３０の送信装置１への前回送信から一定時間経過していない場合には、ネットワーク情報１３０を送信装置１へ送信しない構成になっている。これにより、送信装置１には、受信装置２から一定期間毎にネットワーク情報１３０が送信されるようになっている。

また、データ受信部３４では、上述したネットワーク情報生成部３６及びネットワーク情報送信部３５による送信装置１へのネットワーク情報１３０の生成処理及び送信処理と並行して、データ受信部３４から供給されるストリーム通信データ１２０の復号化制御処理を行う。

データ受信部３４は、送信装置１からのストリーム通信データ１２０が通信部３１から供給されると、上述の符号化情報解析部３３に設定保持されているコーデックに関する情報を読み込み(SR205)、このコーデックに関する情報（すなわち、メディアのタイプ及び符号化に用いたコーデック）に基づいて、ストリーム通信データ１２０が映像データ及び音声データをそれぞれ別々に送信するシステムによるものか、映像及び音声データを多重化して送信するシステムによるものか、受信したストリーム通信データ１２０の符号化されたデータ１２４に関してのシステムに応じた復号化処理の仕方を選択する(SR206)。

データ受信部３４は、ストリーム通信データ１２０が映像データ及び音声データをそれぞれ別々に送信するシステムによるものであると選択されている場合は、通信部３１から供給されたストリーム通信データ１２０に関して、そのデータ識別子１２３に応じて、音声データ復号化部３７又は復号データ復号化部３８に供給制御する。

これにより、ストリーム通信データ１２０がそのデータ識別子１２３により音声のストリームデータである場合には、ストリーム通信データ１２０は音声データ復号化部３７に供給されてその符号化されたデータ１２４が復号化される(SR207)。そして、音声データ復号化部３７から音声データが音声出力部３９Ｂに出力される(SR208)。

また、ストリーム通信データ１２０がそのデータ識別子１２３により映像のストリームデータである場合には、ストリーム通信データ１２０は複合データ復号化部３８に供給されてその符号化されたデータ１２４が復号化される(SR209)。そして、複合データ復号化部３８から映像データが映像出力部３９Ａに出力される(SR210)。

一方、データ受信部３４は、そのデータ識別子１２３によりストリーム通信データが映像及び音声データを多重化して送信するシステムによるものである場合は、通信部３１から供給されたストリーム通信データ１２０の符号化されたデータ１２４に関して、復号データ復号化部３８に供給制御する。

これにより、復号データ復号化部３８は、ストリーム通信データ１２０がそのデータ識別子１２３により映像及び音声データを多重化されたストリームデータである場合には、ストリーム通信データ１２０を、符号化された音声のストリームデータと符号化された映像のストリームデータとに分離した上(SR211)、分離した符号化された音声のストリームデータ及び符号化された映像のストリームデータそれぞれを復号化し(SR212，SR213)、得られた音声データと映像データとをそれぞれ音声出力部３９Ｂと映像出力部３９Ａとに同期して出力する(SR214)。

続いて、本実施の形態の送信装置１を適用した通信システム１００のより具体的なシーンを想定し、本実施の形態の送信装置１の作用について説明を行う。

まず、ユーザがテレビ電話をかける場合を想定し、送信装置１のユーザ入力処理部１９に無線接続されるリモコンのテレビ電話ボタンを操作した場合について説明する。

この場合、「テレビ電話モード」というユーザ入力を受信し、送信装置１のユーザ入力処理部２２は、図７に示したフローにしたがって、まず、設定保持部２０の入力設定保持部２０ｂにおける入力設定内容を、第１入力部１１-１の第１映像入力部１１-１Ａ及び第１音声入力部１１-１Ｂを入力とする「入力１」に設定する(ST103)。次に、ユーザ入力処理部２２は、設定保持部２０の符号化設定保持部２０ｃに保持されている現在の符号化設定を「同期なし」に更新設定し(ST104)、動作モード保持部２０ａを「テレビ電話モード」に更新設定する(ST105)。
その上で、送信装置１は、図９で示した送信フローにしたがって送信処理を行う。

まず、入力選択部１２は、上述のようにして設定保持部２０に設定保持された入力設定を取得し(ST301)、第１入力部１１-１の第１映像入力部１１-１Ａ及び第１音声入力部１１-１Ｂを入力として選択する(ST302，ST303)。この場合は、第１入力部１１-１の第１映像入力部１１-１Ａにはカメラ５が接続されており、第１音声入力部１１-１Ｂにはマイク６が接続されていることにより、送信装置１はテレビ電話が可能な状態となる。

一方、符号化制御部１３は、上述のようにして設定保持部２０に設定保持された符号化設定を読み込み(ST304)、音声データは音声データ符号化部１６で符号化し、映像データは複合データ符号化部１７で符号化する処理を選択する(ST305，ST306)。このとき、符号化情報生成部１４は、符号化制御部１３の制御が切り替えられた場合には、その切り替えを受信装置２に伝えるため、図１２に示すような符号化情報１１０を生成し、符号化情報送信部１５を介して通信部２３から送信する(ST307)。

図１２は、本実施の形態の送信装置において「テレビ電話モード」がユーザ入力された場合に生成される符号化情報の説明図である。

図１２に示した符号化情報１１０は、図３におけるメディアのタイプ１１１が音声（audio）の場合は、そのコーデック１１２としてＧ.７１１が用いられ、メディアのタイプ１１１が映像（video）の場合は、そのコーデック１１２としてＭＰＥＧ-４が用いられていることを表している。

したがって、「テレビ電話モード」の送信装置１では、マイク６から入力された通話音声信号は、入力選択部１２，符号化制御部１３により音声データ符号化部１６に供給されて符号化される。また、カメラ４から入力された撮影映像信号は、入力選択部１２，複合データ符号化部１７により供給されて符号化される。この際、複合データ符号化部１７は、音声との多重化は行われず、映像のみのストリームデータが出力される。

このようにして、それぞれ音声データ符号化部１６及び複合データ符号化部１７で生成された音声のストリームデータ及び映像のストリームデータはデータ送信部１８に供給され、データ送信部１８は音声ストリームデータ，映像ストリームデータそれぞれに対応した別々の通信パケットを生成して、通信部２３を介して受信装置２に送信する。その際、データ送信部１８は、音声の遅延をできるだけ少なくするために、音声のストリームデータを映像ストリームデータに対して優先して送信する。

これに対して、受信装置２は、図１１で示した受信フローにしたがって受信処理を行う。
受信装置２は、その符号化情報受信部３２が送信装置１から送信される符号化情報１１０をまず受信し(SR205)、受信した符号化情報１１０を符号化情報解析部３３に供給する。符号化情報解析部３３は供給される符号化情報１１０を解析し、この場合はＧ.７１１で符号化された音声ストリームデータとＭＰＥＧ-４で符号化された映像ストリームデータが、送信装置１から送信されることを理解する(SR206)。このＧ.７１１及びＭＰＥＧ-４といった符号化情報解析部３３による解析情報はデータ受信部３４に供給される。

データ受信部３４は、通信部３１を介して供給されるストリーム通信データ１２０のデータ識別子１２３に基づいて、受信したストリーム通信データ１２０が音声のストリームデータである場合はそのストリーム通信データ１２０の符号化されたデータ１２４を音声データ復号化部３７に供給する一方、映像のストリームデータである場合はそのストリーム通信データ１２０の符号化されたデータ１２４を複合データ復号化部３８に供給する。

これにより、音声データ復号化部３７では供給された符号化されたデータ１２４から音声データが復号化され(SR207)、音声出力部３９Ｂから送信側の通話音声が出力される(SR208)。また、複合データ複合部３８では供給された符号化されたデータ１２４から映像データが復号化され(SR209)、映像出力部３９Ａから送信側のカメラ撮影映像が出力される(SR210)。

上述したように、「テレビ電話モード」である場合には、送信機１から別々に送信され映像のストリームデータと音声のストリームデータとは、受信装置２の映像出力部３９Ａ及び音声出力部３９Ｂからそれぞれ出力される映像と音声は、通信部２３が音声ストリームデータの通信パケットを映像ストリームデータの通信パケットに対して優先して送信することによって同期していないが、代わりに送信装置１側に対する音声の遅延は極力少なくなっている。

次に、ユーザがテレビ電話による通話途中に自身の手元にあるビデオの映像を送信する場合を想定し、「テレビ電話モード」になっている送信装置１のユーザ入力処理部１９に無線接続されるリモコンのコンテンツ送信ボタンを押した場合について説明する。

この場合、「コンテンツ送信入力」というユーザ入力を受信し、送信装置１のユーザ入力処理部２２は、図７に示したフローにしたがって、まず、設定保持部２０の入力設定保持部２０ｂにおける入力設定内容を、第１入力部１１-２の第１映像入力部１１-２Ａ及び第２音声入力部１１-２Ｂを入力とする「入力２」に設定する(ST103)。次に、ユーザ入力処理部２２は、設定保持部２０の符号化設定保持部２０ｃに保持されている現在の符号化設定を音声と映像とを多重化して符号化する「同期あり」に更新設定し(ST104)、動作モード保持部２０ａを「コンテンツ送信入力」に更新設定する(ST105)。

送信装置１は、動作モードが「コンテンツ送信モード」に設定が変更されると、図９で示した送信フローにしたがって送信処理を行う。

まず、入力選択部１２は、上述のようにして設定保持部２０に設定保持された入力設定を取得し(ST301)、入力の切り替えが必要と判断され、第２入力部１１-２の第２映像入力部１１-２Ａ及び第２音声入力部１１-２Ｂを入力として選択する(ST302，ST303)。この場合は、第２入力部１１-２の第２映像入力部１１-２Ａには映像記憶装置７の映像出力７Ａが接続されており、第２音声入力部１１-２Ｂには映像記憶装置７の音声出力７Ｂが接続されていることにより、送信装置１は映像記憶装置７に記憶されているコンテンツの送信が可能な状態となる。

一方、符号化制御部１３は、設定保持部２０に設定保持された「同期あり」の符号化設定を読み込み、音声データ及び映像データを複合データ符号化部１７へ共に出力する状態になる。

一方、符号化制御部１３は、上述のようにして設定保持部２０に設定保持された「同期あり」の符号化設定を読み込み(ST304)、音声データ及び映像データを複合データ符号化部１７へ共に出力する処理を選択する(ST305，ST306)。このとき、符号化情報生成部１４は、符号化制御部１３の制御が切り替えられているので、その切り替えを受信装置２に伝えるため、図１３に示すような符号化情報１１０を生成し、符号化情報送信部１５を介して通信部２３から送信する(ST307)。

図１３は、本実施の形態の送信装置において「コンテンツ送信モード」がユーザ入力された場合に生成される符号化情報の説明図である。

図１３に示した符号化情報１１０は、図３におけるメディアのタイプ１１１が映像データ及び音声データを多重化した［映像＋音声］（system）の場合は、そのコーデック１１２としてＭＰＥＧ-２が用いられていることを表し、すなわち映像及び音声が同じ１本のストリームで送信されることを表わしている。

これにより、映像記憶装置７の映像出力７Ａから供給される映像声データ及び音声データは、複合データ符号化部１７に共に供給され、それぞれ符号化される(ST312，ST313)。複合データ符号化部１７では、さらにそれぞれ符号化された映像声データ及び音声データの多重化処理を行い、１本の［映像＋音声］のストリームデータを生成してデータ送信部１８に供給する(ST314)。データ送信部１８は、この複合データ符号化部１７から供給された１本の［映像＋音声］のストリームデータに対応した通信パケットを生成して、通信部２３を介して受信装置２に送信する(ST315)。

これに対して、受信装置２は、図１１で示した受信フローにしたがって送信処理を行う。

受信装置２は、その符号化情報受信部３２が送信装置１から送信される符号化情報１１０をまず受信し(SR205)、受信した符号化情報１１０を符号化情報解析部３３に供給する。符号化情報解析部３３は供給される符号化情報１１０を解析し、この場合は、ＭＰＥＧ-２によって映像及び音声が多重化された１本の［映像＋音声］のストリームデータが、送信装置１から送信されることを理解する(SR206)。このＭＰＥＧ-２といった符号化情報解析部３３による解析情報はデータ受信部３４に供給される。

データ受信部３４は、通信部３１を介して供給されるストリーム通信データ１２０のデータ識別子１２３に基づいて、受信したストリーム通信データ１２０の符号化されたデータ１２４を複合データ復号化部３８に供給する。

これにより、複合データ復号化部３８では、データ受信部３４から供給される［映像＋音声］の多重化されたデータ１２４を、符号化された音声ストリームデータと符号化された映像ストリームデータとに分離し(SR211)、分離された後のそれぞれ符号化された音声ストリームデータ及び映像ストリームデータはそれぞれ映像声データ及び音声データに復号化されてから(SR212，SR213)、同期して音声出力部３９Ｂと映像出力部３９Ａに出力される(SR214)。

このようにして、コンテンツを送信する際には、送信装置１から音声と映像とを多重化して送信し、受信装置２ではその映像及び音声をそれぞれ映像出力部３９Ａ及び音声出力部３９Ｂから同期をとって出力することが実現できる。

図１４は、本実施の形態の送信装置を適用した通信システムで、送信装置と受信装置との間で通信されるデータの模式図である。

ユーザによる「テレビ電話モード」のリモコン入力を送信装置１が受信すると、送信装置１は、従前の符号化処理が切り替えられた場合には、符号化情報Ｃ１１を受信装置２へ送信する（図９記載のST304〜ST307参照）。

この符号化情報Ｃ１１には、図１２に示した符号化情報１１０のように、音声と映像の２つのストリームデータを送信することが記述されている。

その後、送信装置１から受信装置２へは、図４に示したような、例えば、マイク６から入力された通話音声のストリームデータＡ１１，Ａ１２と、カメラ５によって撮影された映像のストリームデータＶ１１，Ｖ１２，Ｖ１３とが、順次送信される。

なお、この場合、一般的に音声のストリームデータＡに比べ、映像のストリームデータＶの方がデータ量が多いので、映像のストリームデータＶの方が音声のストリームデータＡに比して送信する回数が多くなっている。

また、送信装置１では、受信装置２から例えば所定時間ｔｎ間隔で送信される図３に示したようなネットワーク情報Ｎ１１の受信も行っている（図１１記載のSR203〜SR205、及び図８記載のST201〜ST206をそれぞれ参照）。

その後、ユーザによる「コンテンツ送信モード」のリモコン入力を受信すると、送信装置１は、従前の「テレビ電話モード」の符号化処理を「コンテンツ送信モード」の符号化処理に切り替えるために、符号化情報Ｃ２１を受信装置２へ送信する（図９記載のST304〜ST307参照）。

この符号化情報Ｃ２１には、図１３に示した符号化情報１１０のように、音声と映像を多重化したシステムのストリームデータＳを送信することが記述されている。

その後、送信装置１から受信装置２へは、図４に示したような、例えば、映像記録装置７から供給される音声データと映像データとを多重化したシステムのストリームデータＳ２１，Ｓ２２，・・・が、順次送信される。

また、送信装置１では、この間も、受信装置２から例えば所定時間ｔｎ間隔で送信される図３に示したようなネットワーク情報Ｎ２１，Ｎ２２，・・・の受信も行っている（図１１記載のSR203〜SR205、及び図８記載のST201〜ST206をそれぞれ参照）。なお、図１４においては、ネットワーク情報Ｎ２１，Ｎ２２，・・・は、ネットワーク３における遅延も小さく、図３に示したネットワーク情報１３０のジッダ情報１３１とパケット喪失数情報１３２のそれぞれ値は、予め定められた所定値よりも小さくなっているものとする。

以上、図１４に示した送信装置と受信装置との間で通信されるデータの模式図では、通信途中にネットワークの状況が悪化していない平常の場合を示したが、通信中にネットワークの状況が悪化した場合について、図１５により説明する。

図１５は、本実施の形態の送信装置を適用した通信システムで、通信途中にネットワークの状況が悪化した場合の、送信装置と受信装置との間で通信されるデータの模式図である。

先に図１１におけるステップSR203〜SR205で説明したように、受信装置２のネットワーク情報生成部３６では、受信したストリーム通信データ１２０のヘッダ情報１２１〜１２３を基にジッタやパケット喪失数といったネットワーク３の情報を生成し、ネットワーク情報送信部３５及び通信部３１を介して、図５に示したネットワーク情報１３０を定期的に送信装置１に送信している。これにより、送信装置１では、通信中にネットワーク３の状況が悪化した場合、例えばジッタ値の増加として検出することが可能である。

図１５は、ユーザによる「コンテンツ送信モード」の入力設定に基づき、それぞれ符号化された映像データと音声データとを多重化した［映像＋音声］のストリームデータＳ３１〜Ｓ４０の送信途中で、ネットワーク３の状況が悪化し、またその悪化したネットワーク３の状況が回復した場合の例を示したものである。

図１５に示すように、受信装置２から定期的に送信されるネットワーク情報Ｎ３１の受信に基づき、そのジッタ情報（図５記載のジッタ情報１３１）により送信装置１が［映像＋音声］ストリームデータＳ３１〜Ｓ３３の遅延が小さく、ネットワーク３の状況が悪化していないと判断した場合は、送信装置１は、それまで以前Ｓ３１〜Ｓ３３と同様に、例えば、映像記録装置７から供給される音声データと映像データとをそれぞれ符号化して多重化し、［映像＋音声］のストリームデータＳ３４〜Ｓ３６を生成して送信する。

ところが、図１５の［映像＋音声］のストリームデータＳ３６に関する受信装置２による受信タイミングに表わしたような大きな遅延が生じると、これにより受信装置２のネットワーク情報生成部３６で生成されるネットワーク３の情報としてのジッタ値は通常に対して増加することになる。

このジッタ値が通常に対して増加した大きな値からなる受信装置２からのネットワーク情報Ｎ３２を受信すると、送信装置１のネットワーク情報解析部２１は、図８に示した設定変更によって、ユーザによって入力設定された設定保持部２０における動作モード２０ａの「コンテンツ送信モード」に対応する符号化設定２０ｃの「同期あり」を、「同期なし」に切り替える必要があるか否かを判断して、これを切り替える。

これにより、送信装置１では、符号化制御部１３が、音声データは音声データ符号化部１６へ出力し、映像データは複合データ符号化部１７へ出力するよう制御開始する。また、符号化情報生成部１４は、図１２に示すようなＧ.７１１の音声ストリームとＭＰＥＧ４の映像ストリームとを送信することを示す符号化情報１１０を生成し、送信装置１はこれを図１５に示す符号化情報Ｃ３２として受信装置２に送信する。

したがって、ネットワーク３の状況が悪化した場合は、送信装置１は、映像記録装置７から供給される音声データと映像データとの多重化を行わずに、図９におけるステップST308〜ST311で説明したように、音声データは音声データ符号化部１６で符号化し、複合データ符号化部１７では、映像データのみを符号化するようになる。

これにより、図１５においては、送信装置１は、ネットワーク３の状況が悪化した場合には、符号化情報Ｃ３２を送信した後、音声のストリームデータＡ３７，Ａ３８，Ａ３９と、映像のストリームデータＶ３７，Ｖ３８とが、順次送信する。

また、その際には、送信装置１は、音声の遅延をできるだけ少なくするため、例えば、音声のストリームデータＡ３９を音声のストリームデータＡ３８に対応する映像のストリームデータＶに対して優先して送信する。

さらに、その後、例えば、受信装置２から供給されるネットワーク情報Ｎ３４に基づき、送信装置１のネットワーク情報解析部２１が上述の悪化したネットワーク３の状況が回復したと判断した場合は、送信装置１は、符号化設定２０ｃの「同期あり」を「同期なし」に切り替える図１３に示したような符号化情報Ｃ３３を受信装置２へ送信し、それぞれ符号化された映像データと音声データとを多重化した［映像＋音声］のストリームデータＳ４０を送信する。

このようにして、本実施の形態の送信装置１によれば、コンテンツを送信中にネットワーク３の状況が悪化した場合でも、音声の遅延をできるだけ少なくするように自動的に処理を切り替えることが可能となり、また、その後、ネットワーク３の状況が回復した場合には、再び映像と音声を同期させて送信する処理に自動的に復帰することが可能になる。

以上のように、本発明の一実施の形態による送信装置１について説明を行ったが、その具体的な構成及び制御手順についてはその例示された構成及び制御手順に限られるものではない。

また、上記実施の形態の送信装置１と当該送信装置１を利用した通信システム１００を構成する受信装置２を一体的に備えた送受信装置を構成することも可能である。

さらに、この送受信装置の場合は、送信装置部側のネットワーク情報受信部２２、及び受信装置部側のネットワーク情報送信部３５を廃して、送受信装置間で図５に示したネットワーク情報１３０の送受信を省略することも可能である。

図１６は、上述の送受信装置間で図５に示したネットワーク情報１３０の送受信を省略した、本発明の一実施の形態による送受信装置の構成を示した構成ブロック図である。

なお、本実施の形態の送受信装置４０の説明にあたって、前述の図２に示した送信装置１の構成、及び図６に示した受信装置２の構成と同一又は同様の構成について、同一符号を付し、その詳細な説明は省略する。

本実施の形態の送受信装置４０は、送受信共通の通信部４１を有し、受信装置部側のネットワーク情報生成部３６のネットワーク情報出力は、送信装置部側のネットワーク情報解析部２１に供給され、受信装置部側の符号化情報解析部３３の解析出力は、データ受信部３４に供給されているとともに、設定保持部２０にも供給され、設定保持部２０の符号化設定２０ｃの記憶内容を変更可能になっている。

本実施の形態の送受信装置４０によれば、相手方の送受信装置４０’による「コンテンツ送信モード」の入力設定に基づく、相手方の送受信装置４０’から送信された［映像＋音声］のストリームデータＳの受信中、受信した［映像＋音声］のストリームデータ１２０のヘッダ情報１２１〜１２３に基づき、ネットワーク情報生成部３６が前述の図５で説明した如くのジッダ情報１３１及びパケット喪失数１３２を生成し、ネットワーク情報解析部２１がこれらに基づきネットワーク３の状況が悪化していると判断した場合は、設定保持部２０の符号化設定２０ｃの記憶内容を「同期あり」から「同期なし」に切り替える。そして、符号化制御部１３が送信データの入力に関係なく定期的に設定保持部２０の記録内容を読み出す構成になっているため、この符号化制御部１３の符号化設定２０ｃの切り替えの検出に基づいて、符号化情報生成部１４により、前述の図３に示したような符号化情報１１０が生成され、符号化情報送信部１５及び通信部４１を介して相手方のコンテンツ送信側の送受信装置４０’に対して、符号化情報１１０が送信される。

これにより、この符号化情報１１０を受信した相手方のコンテンツ送信側の送受信装置４０’では、その符号化情報受信部３２及び符号化解析部３３によって、データ受信部３４，符号化保持部２０，及び符号化制御部１３における符号化設定２０ｃの内容が「同期あり」から「同期なし」に切り替わる。

したがって、本実施の形態の送受信装置４０によれば、コンテンツ受信側で、コンテンツ送信側の送受信装置４０’における符号化設定２０ｃの内容を切り替えることができる。

以上、本発明の送信装置、受信装置、及び通信システムの実施の形態について説明したが、その具体的構成及び制御手順は、上述した実施の形態に示した具体的構成及び制御手順に限られるものではなく、種々の変形例が可能である。

本発明の一実施の形態による送信装置及び受信装置を用いた通信システムの一実施例のシステム構成図である。本実施の形態に係る送信装置の構成を示した論理ブロック図である。本実施の形態の送信装置における符号化情報生成部によって生成される符号化情報のデータ構造を示す図である。本実施の形態の送信装置によって通信されるストリーム通信データのデータ構造を示す図である。本実施の形態の送信装置によって通信されるネットワーク情報のデータ構造を示す図である。本実施の形態による送信装置を用いた通信システムに適用される受信装置の一実施例のシステム構成図である。本実施の形態の送信装置におけるユーザ入力による設定変更のフローチャートである。本形態の送信装置における受信装置からのネットワーク情報による設定変更のフローチャートである。本実施の形態の送信装置によるストリームデータの送信フローチャートである。本実施の形態の送信装置からの符号化情報を受信する受信装置の受信フローチャートである。本実施の形態の送信装置を適用した通信システムにおける受信装置のストリームデータの受信フローチャートである。本実施の形態の送信装置において「テレビ電話モード」がユーザ入力された場合に生成される符号化情報の説明図である。本実施の形態の送信装置において「コンテンツ送信モード」がユーザ入力された場合に生成される符号化情報の説明図である。本実施の形態の送信装置を適用した通信システムで、送信装置と受信装置との間で通信されるデータの模式図である。本実施の形態の送信装置を適用した通信システムで、通信途中にネットワークの状況が悪化した場合の、送信装置と受信装置との間で通信されるデータの模式図である。本発明の一実施の形態による送受信装置の構成を示した構成ブロック図である。

符号の説明

１送信装置
２受信装置
３ネットワーク
４入力端
５カメラ
６マイク
７映像記録装置
８出力端
９ディスプレイ
１０スピーカ
１１入力部
１２入力選択部
１３符号化制御部
１４符号化情報生成部
１５符号化情報送信部
１６音声データ符号化部
１７複合データ符号化部
１８データ送信部
１９ユーザ入力処理部
２０設定保持部
２１ネットワーク情報解析部
２２ネットワーク情報受信部
２３通信部
３１通信部
３２符号化情報受信部
３３符号化情報解析部
３４データ受信部
３５ネットワーク情報送信部
３６ネットワーク情報生成部
３７音声データ復号化部
３８複合データ復号化部
３９出力部
４０送受信装置
１００通信システム

Claims

音声データと映像データとをネットワークを介して送信する送信装置であって、
音声データと映像データの同期をとらずに送信する第１の動作モードと、
音声データと映像データの同期をとって送信する第２の動作モードと、
ユーザ入力に応じてこれらの動作モードの選択設定を行うユーザ入力処理部と、
前記ユーザ入力処理部で選択された動作モードにしたがって音声データ及び映像データを送信するデータ送信部と、
該データ送信部から送信された音声データ及び映像データを受信した受信装置から送信されるネットワーク情報を基に、ネットワークの状況を解析するネットワーク情報解析部と
を備え、
前記ネットワーク情報解析部が、平常の場合に所定値より小さいネットワーク情報を基準としてネットワークの状況が悪化したと判断した場合には、前記データ送信部は、前記ユーザ入力処理部で選択設定された動作モードが第２の動作モードであった場合でも、入力される音声データ及び映像データを音声データと映像データの同期をとらずに送信する
ことを特徴とする送信装置。
前記ネットワーク情報解析部が、平常の場合に所定値より小さいネットワーク情報を基準として悪化したネットワークの状況が回復したと判断した場合には、前記データ送信部は、前記ユーザ入力処理部で選択された動作モードにしたがって音声データ及び映像データを送信する
ことを特徴とする請求項１に記載の送信装置。
前記ネットワーク情報解析部は、ネットワーク情報として、前記データ送信部から送信された音声データ及び映像データを受信した受信装置から送信されるネットワークの遅延情報に基づいてネットワークの状況を判断する
ことを特徴とする請求項１に記載の送信装置。
前記データ送信部は、第１の動作モードで音声データと映像データの同期をとらずに送信するときには、音声データを映像データに対して優先的に送信する
ことを特徴とする請求項１〜３のいずれか１項に記載の送信装置。
音声データと映像データとをネットワークを介して送信する送信装置であって、
第１の動作モード又は第２の動作モードのいずれか一方の動作モードのユーザ入力に応じて、第１の動作モードのユーザ入力が選択入力されたときには音声データと映像データの同期をとらずに送信する非同期モードの符号化設定を設定する一方、第２の動作モードのユーザ入力が選択入力されたときには音声データと映像データの同期をとって送信する同期モードの符号化設定を設定するユーザ入力処理部と、
該ユーザ入力処理部により選択設定された非同期モード又は同期モードの符号化設定にしたがって、入力される音声データ及び映像データを両者の同期をとらずに又は両者の同期をとって符号化して送信するデータ送信部と、
該データ送信部から送信された音声データ及び映像データを受信した受信装置から送信されるネットワーク情報を基に、ネットワークの状況を解析するネットワーク情報解析部と
を備え、
前記ネットワーク情報解析部は、第２の動作モードのユーザ入力に基づく通信中に、平常の場合に所定値より小さいネットワーク情報を基準としてネットワークの状況の悪化を検出したときには、前記ユーザ入力処理部によって設定された同期モードの符号化設定に代えて非同期モードの符号化設定を設定し、
前記データ送信部は、第２の動作モードのユーザ入力に基づく通信中であった場合でも、当該設定変更された非同期モードの符号化設定に基づいて、入力される音声データ及び映像データを両者の同期をとらずに符号化して送信する
ことを特徴とする送信装置。
前記ネットワーク情報解析部は、第２の動作モードのユーザ入力に基づく通信中に、平常の場合に所定値より小さいネットワーク情報を基準として悪化したネットワークの状況の回復を検出したときには、当該設定変更した非同期モードの符号化設定に代えて再び同期モードの符号化設定を設定し、
前記データ送信部は、第２の動作モードのユーザ入力に対応する同期モードの符号化設定に基づいて、入力される音声データ及び映像データを両者の同期をとって符号化して送信する
ことを特徴とする請求項５に記載の送信装置。
前記ネットワーク情報解析部は、ネットワーク情報として、前記データ送信部から同期モード又は非同期モードの符号化設定で送信した映像データ及び音声データを受信した受信装置から送信されるネットワークの遅延情報を受信し、当該遅延情報に基づいてネットワークの状況の悪化及び回復を判断する
ことを特徴とする請求項６に記載の送信装置。
前記データ送信部は、非同期モードの符号化設定に基づいて、入力される音声データ及び映像データを両者の同期をとらずに符号化して送信するときには、入力される音声データを同じく入力される映像データに対して優先的に送信する
ことを特徴とする請求項５に記載の送信装置。
前記データ送信部は、
非同期モードの符号化設定に基づいて、入力される音声データを符号化する音声データ符号化部と、
非同期モードの符号化設定に基づいて、入力される映像データを符号化する一方、同期モードの符号化設定に基づいて、入力される音声データ及び映像データを多重化して符号化する複合データ符号化部と
を備えていることを特徴とする請求項５に記載の送信装置。