JP6197211B2

JP6197211B2 - 映像音声配信システム、音声映像配信方法及びプログラム

Info

Publication number: JP6197211B2
Application number: JP2013203145A
Authority: JP
Inventors: 吉田　渉; 渉吉田; 永井　隆文; 隆文永井; 知明倉立; 公人山崎
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-09-30
Filing date: 2013-09-30
Publication date: 2017-09-20
Anticipated expiration: 2033-09-30
Also published as: JP2015070460A

Description

本発明は、映像音声配信システム、音声映像配信方法及びプログラムに関し、さらに詳細には、互いに遠隔地にある音楽スタジオやコンサートホールで収録された複数の映像信号及び音声信号を合成して配信するための映像音声配信システム、音声映像配信方法及びプログラムに関する。

近年、大画面ディスプレイ、スピーカ、カメラ及びマイクを備え、通信回線と接続されるビデオ通信端末を会議室等に設置し、同様の機能を備えた他のビデオ通信端末を設置した遠隔地の会議室等とをビデオ接続することにより、仮想会議室空間を生成するテレプレゼンスシステムが用いられるようになってきた。
このようなテレプレゼンスシステムとして、例えば特許文献１には、３以上の会議室の動画を合成して仮想会議室の映像を大画面ディスプレイに表示する映像表示装置が記載されている。

特開２０１０−１５７９０６号公報

しかしながら、特許文献１に記載の映像表示装置では、複数の遠隔地の会議室やスタジオで収録した映像信号と音声信号を合成することにより、あたかも一つの空間で行われているような臨場感を与えることが可能になるものの、エンコード、パケットの通信時間、あるいはデコードなどのデータ処理時間やデータ通信時間に起因して発生する遅延時間が、人が認識し得る長さの遅延時間（例えば、０．５秒〜２秒程度）となるため、違和感が発生する。

特に、リズム感が要求される音楽演奏においては、複数のスタジオ等で収録される音楽のリズムを合わせることが難しく、特に合成した映像信号と音声信号を第三者に配信する場合、第三者にとっては非常にリズム感のない音楽となって聞こえる。
この対策として、厳密に時間調整された時計とメトロノームなどを使うことによってリズムを合わせることが可能になるものの、コラボレーション演奏の基準となる奏者や指揮者の動きを遅延時間なしで遠隔地のスタジオに伝えることができないので、映像信号と音声信号の収録と合成にあたっては、きめ細かな予行演習など大掛かりな準備が必要となる課題があった。特に、コラボレーション演奏の間に、複数の遠隔地のスタジオ間で交わされる会話が交わるような場合、会話と演奏と両立させにくい。

本発明は、上記課題に鑑み、遠隔地にあるスタジオ等で収録される音楽演奏や会話の映像信号と音声信号を違和感なく合成し、合成した映像信号と音声信号を第三者に配信できる映像音声配信システム、映像音声配信方法及びプログラムを提供することを目的とする。

上記課題を解決するために、本発明の第１の技術手段は、第１通信端末、第２通信端末、及び映像音声合成装置が通信可能に備えられた映像音声配信システムであって、前記第１通信端末は、該第１通信端末が収録した映像信号及び音声信号を前記第２通信端末と前記映像音声合成装置に送信し、前記第２通信端末は、前記第１通信端末から送信された映像信号及び音声信号を再生し、該再生とともに収録した映像信号及び音声信号を前記映像音声合成装置に送信し、前記映像音声合成装置は、前記第１通信端末から送信された映像信号及び音声信号と、前記第１通信端末から送信された映像信号及び音声信号が第２通信端末で再生され、該再生と同時に収録された映像信号及び音声信号と、を同期させて、前記第１通信端末から送信された映像信号と前記第２通信端末から送信された映像信号とを合成するとともに、前記第１通信端末から送信された音声信号と前記第２通信端末から送信された音声信号とを合成する第１のモードを有することを特徴とするものである。
第２の技術手段は、第１の技術手段において、前記映像音声合成装置は、第１通信端末から送信された映像信号及び音声信号と、前記第２通信端末から送信された映像信号及び音声信号を、前記同期させることなくそれぞれ合成する第２のモードをさらに有し、前記第１のモードと前記第２のモードとを切り換えることを特徴とするものである。

第３の技術手段は、第１または２の技術手段において、前記映像音声合成装置が、前記第１のモードでは、前記第１通信端末で映像信号及び音声信号に対して付与されるタイムスタンプと、前記第１通信端末で映像信号及び音声信号に対して付与されたタイムスタンプを有する映像信号及び音声信号が前記第２通信端末で再生され、該再生と同時に収録された映像信号及び音声信号に対して前記第２通信端末で付与されたタイムスタンプとを一致させるように合成を行うことを特徴としたものである。

第４の技術手段は、第３の技術手段において、予め前記第１通信端末で収録された映像信号及び音声信号が、前記第２通信端末で再生されるまでの時間を測定しておき、前記第２通信端末は、前記第１のモードでは、第２通信端末で映像信号及び音声信号に付与されるタイムスタンプを、測定した前記時間だけ早くなるように補正することを特徴としたものである。

第５の技術手段は、第３の技術手段において、前記第２通信端末が、前記第１のモードでは、前記第１通信端末で映像信号及び音声信号を収録したときのタイムスタンプと、前記第１通信端末でタイムスタンプが付与された映像信号及び音声信号が前記第２通信端末で再生されたときの時刻に相当するタイムスタンプとの時間差を計算し、第２通信端末で映像信号及び音声信号に付与されるタイムスタンプを、前記時間差だけ早くなるように補正することを特徴としたものである。

第６の技術手段は、第２の技術手段において、前記第１通信端末で映像信号及び音声信号が収録されてから、前記映像音声合成装置で合成が行われるまでの時間を、前記第１のモードと前記第２のモードとで同じにすることを特徴としたものである。

第７の技術手段は、第２の技術手段において、前記映像音声合成装置が、前記第１のモードと前記第２のモードとが相互に切り換えられたときに、前記第１通信端末で映像信号及び音声信号が収録されてから、前記映像音声合成装置で合成が行われるまでの時間を徐々に変化させることを特徴としたものである。

第８の技術手段は、第１通信端末、第２通信端末、及び映像音声合成装置が通信可能に備えられた通信システムにより実行される音声映像配信方法であって、前記第１通信端末が、該第１通信端末が収録した映像信号及び音声信号を前記第２通信端末と前記映像音声合成装置に送信し、前記第２通信端末は、前記第１通信端末から送信された映像信号及び音声信号を再生し、該再生とともに収録した映像信号及び音声信号を前記映像音声合成装置に送信するステップと、前記映像音声合成装置が、前記第１通信端末から送信された映像信号及び音声信号と、前記第１の通信端末から送信された映像信号及び音声信号が第２通信端末で再生され、該再生と同時に収録された映像信号及び音声信号と、を同期させて、前記第１通信端末から送信された映像信号と前記第２通信端末から送信された映像信号とを合成するともに、前記第１通信端末から送信された音声信号と前記第２通信端末から送信された音声信号とを合成する第１のモードを有することを特徴としたものである。
第９の技術手段は、第８の技術手段において、前記映像音声合成装置は、前記第１通信端末から送信された映像信号及び音声信号と、前記第２通信端末から送信された映像信号及び音声信号を、前記同期させることなくそれぞれ合成する第２のモードをさらに有し、前記第１のモードと前記第２のモードとを切り換えるステップを有することを特徴としたものである。

第１０の技術手段は、第１〜７のいずれか１の技術手段の映像音声配信システムの機能をコンピュータに実現させるためのプログラムである。

本発明によれば、エンコード、パケットの通信時間、あるいはデコードなどのデータ処理時間やデータ通信時間によって、人が認識し得る程度の遅延時間が発生する場合であっても、遠隔地にあるスタジオ等で収録される音楽演奏や会話の映像信号と音声信号を違和感なく合成し、合成した映像信号と音声信号を第三者に配信できる映像音声配信システム、映像音声映像配信方法及びプログラムを提供することができる。

本発明に係る映像音声配信システムの構成を説明する図である。本発明による映像音声配信システムにおける第１通信端末、第２通信端末及び映像音声合成装置の要部の機能を説明する図である。図２に示す第１通信端末及び第２通信端末の映像音声処理部の具体的構成例を説明するための図である。第１通信端末及び第２通信端末から送信された映像信号及び音声信号を受信して合成する映像音声合成装置の要部構成例を説明する図である。本発明による音声映像システムで第１のモードにより映像信号及び音声信号を合成して配信するときの処理例を説明するためのタイミングチャートである。本発明による音声映像システムで第２のモードにより映像信号及び音声信号を合成して配信するときの処理例を説明するためのタイミングチャートである。本発明による映像音声配信システムに使用する通信端末の外観構成例を示す図である。映像音声配信システムで映像と音声の合成処理を行うときの様子の一例を示す図である。映像音声配信システムから出力された映像信号及び音声信号をユーザ通信端末で再生している様子の一例を示す図である。本発明の映像音声配信システムにおける処理の一例を説明するためのフローチャートである。

図１は、本発明に係る映像音声配信システムの構成を説明する図である。映像音声配信システムは、第１通信端末１０、第２通信端末２０、及び映像音声合成装置３０を備えていて、これらの間で通信回線を介して相互にデータ送受信が可能に構成される。
第１通信端末１０及び第２通信端末２０は、例えば音楽スタジオ等に配置することができ、音楽家や芸術家などの演奏やパフォーマンス等の映像信号及び音声信号を収録し、映像信号及び音声信号を相互に送信して表示部やスピーカから出力することができる。

また、第１通信端末１０及び第２通信端末２０で収録された映像信号及び音声信号は、映像音声合成装置３０に送信される。映像音声合成装置３０では、これら第１通信端末１０と第２通信端末２０とから送信された映像信号及び音声信号をそれぞれ合成する。つまり第１通信端末１０から送信された映像信号と、第２通信端末２０から送信された映像信号とを合成し、かつ、第１通信端末１０から送信された音声信号と、第２通信端末から送信された音声信号とを合成する。映像信号の合成は、例えば表示部に表示させる画面を二つに分割して、それぞれの分割領域に同時に第１通信端末１０で収録した映像と、第２通信端末２０で収録した映像と表示させる映像信号を生成することを指す。
そして映像音声合成装置３０は、合成した映像信号及び音声信号を通信回線を介して接続された複数のユーザ通信端末４０（第１ユーザ通信端末４０ａ〜第ｎユーザ通信端末４０ｎ）に送信可能とする。

上記の構成で、第１通信端末１０で収録された映像信号及び音声信号を第２通信端末２０に送信し、第２通信端末２０で表示及び音声出力させる。例えば第１スタジオで収録された演奏者等の映像及び音声を第２通信端末２０で出力させる。そして第２スタジオで待機する別の演奏者等は、第２通信端末２０で出力された映像及び音声に合わせて演奏等を行い、その演奏等を第２通信端末２０で収録して映像音声合成装置３０に送信する。
一方、第１通信端末１０で収録された映像信号及び音声信号は、映像音声合成装置３０にも送信される。そして、第１通信端末１０で収録された映像信号及び音声信号と、第２通信端末２０で収録された映像信号及び音声信号とを映像音声合成装置３０で合成することで、遠隔の二つの場所で演奏等がなされた映像と音声を合成して出力させることができる。

そして映像音声合成装置３０は、映像信号及び音声信号を合成するモードとして、二つのモードを切り換え可能に制御することができる。
第１のモードは、上記のような遠隔の場所で両者の演奏等を同期させて合成するためのモードであり、コラボレーション演奏／合成モードとして使用できるものである。第１のモードでは、映像音声合成装置３０は、第１通信端末１０から送信された映像信号及び音声信号と、第１通信端末１０から送信された映像信号及び音声信号が第２通信端末２０で再生され、再生と同時に収録された映像信号及び音声信号と、を同期させて、第１通信端末１０から送信された映像信号と第２通信端末２０から送信された映像信号とを合成するともに、第１通信端末１０から送信された音声信号と第２通信端末２０から送信された音声信号とを合成する。これにより演奏時におけるリズムズレや会話時における間延びを抑え、合成した音声映像に対する違和感を低減できる。
なお、本発明における同期とは、遠隔の場所でそれぞれ収録された映像音声を合成する際に、特別な遅延量を意識的に与えることによって、データ処理時間やデータ通信時間に起因して発生する（相対的な）ズレ時間を短くすることを示し、ズレ時間としては人が違和感を感じないレベル（あるいは、認識できない）の時間（例えば０．３秒以内）に収めることが好ましい。

また、第２のモードは、第１のモードのようなコラボレーション演奏等を意識することなく、遠隔の場所で収録された映像信号及び音声信号を、できるだけ遅延なくそのまま合成して出力させるモードである。このモードは、遠隔のユーザ同士が対話を行うときのトーク／合成モードとして使用できるものである。第１通信端末から送信された映像信号及び音声信号と、前記第２通信端末から送信された映像信号及び音声信号を、第１のモードのように同期させることなくそれぞれ合成する。

図２は、本発明による映像音声配信システムにおける第１通信端末、第２通信端末の要部の機能を説明する図である。
第１通信端末１０は、表示部１１と、ユーザを撮像する撮像部１２と、第２通信端末２０で取得された音声信号を出力するスピーカ１３と、ユーザの音声を取得するマイクロフォン１４と、ユーザによる操作入力を受け付ける操作部１９とを備える。

また、制御部１５は、ＣＰＵなどの制御プロセッサにより実現され、第１通信端末１０の各部を制御する。記憶部１６は、第１通信端末１０の各機能を実現するプログラム及びデータ等を記憶する各種メモリないしＨＤＤ（Hard Disk Drive）などの記憶手段である。
映像音声処理部１７は、撮像部１２で撮像された映像信号、及びマイクロフォン１４で取得した音声信号を圧縮符号化処理して出力する。また、通信相手となる第２通信端末２０から送信された映像信号及び音声信号を復号処理して、表示部１１及びスピーカ１３から出力可能とする。

通信処理部１８は、映像信号及び音声信号を送受信するための通信制御処理を行う。第１通信端末１０は、撮像部１２で撮像した映像信号とマイクロフォン１４で取得した音声信号とを第２通信端末２０に送信するとともに、これら映像信号及び音声信号を映像音声合成装置３０に送信する。

第２通信端末２０は、第１通信端末１０と同様の機能を有する。すなわち第２通信端末２０は、表示部２１と、ユーザを撮像する撮像部２２と、第１通信端末１０で取得された音声を出力するスピーカ２３と、ユーザの音声を取得するマイクロフォン２４と、ユーザによる操作入力を受け付ける操作部２９とを備える。

また、制御部２５は、ＣＰＵなどの制御プロセッサにより実現され、第２通信端末２０の各部を制御する。記憶部２６は、第２通信端末２０の各機能を実現するプログラム及びデータ等を記憶する各種メモリないしＨＤＤなどの記憶手段である。
映像音声処理部２７は、撮像部２２で撮像された映像信号、及びマイクロフォン２４で取得した音声信号を圧縮符号化処理して出力する。また、第１通信端末１０から送信された映像信号及び音声信号を復号処理して、表示部２１及びスピーカ２３から出力可能とする。通信処理部２８は、映像信号及び音声信号を送受信するための通信制御処理を行う。

第２通信端末２０は、第１のモードでは、第１通信端末１０で収録され送信された映像信号及び音声信号を再生して出力するとともに、第２通信端末２０で収録された映像信号及び音声信号を第１通信端末１０と映像音声合成装置３０に送信する。また、第２のモードでは、第１通信端末１０で収録され送信された映像信号及び音声信号を再生して出力するとともに、第２通信端末２０で収録された映像信号及び音声信号を第１通信端末１０及び映像音声合成装置３０に送信する。

映像音声合成装置３０は、第１通信端末１０から送信された映像信号及び音声信号と、第２通信端末２０から送信された映像信号及び音声信号とをそれぞれ合成して、合成した映像信号及び音声信号を生成する。そして生成した映像信号及び音声信号を通信回線を介して接続されたユーザ通信端末４０に配信することができる。ここで映像音声合成装置３０は、上述した第１のモードと第２のモードとのいずれかにより、映像信号及び音声信号を合成する。各モードの相互の切り換えは、映像音声合成装置３０が備える図示しない操作入力手段に対するユーザの操作入力によって実行することができる。あるいは、第１通信端末１０または第２通信端末２０からの切り換え指示、もしくはネットワーク内の他の情報処理装置からの指示により、モード切り換えを実行させるようにすることもできる。

図３は、図２に示す第１通信端末及び第２通信端末の映像音声処理部の具体的構成例を説明するための図で、第１通信端末１０で収録した映像信号及び音声信号を第２通信端末２０に送信し、第２通信端末２０で再生出力する機能を実現する要部を示すものである。
第１通信端末１０の映像音声処理部１７は、映像信号を入力して符号化（エンコード）するビデオエンコーダ１７１と、音声信号を入力して符号化（エンコード）するオーディオエンコーダ１７２を備える。映像信号は、図２に示す撮像部１２にて取得され、音声信号は、同じく図２のマイクロフォン１４で取得される。

ビデオエンコーダ１７１とオーディオエンコーダ１７２では、それぞれ映像信号と音声信号を数百分の一のデータ量に圧縮符号化し、パケット化する。マルチメディ多重化部１７３では、圧縮符号化された映像信号及び音声信号を１本のストリームに多重化して出力する。通信処理部１８は、マルチメディア多重化部１７３から出力された映像信号及び音声信号を送信する。通信処理部１８には適宜バッファが設けられ、帯域変動を吸収して途切れのない映像再生を可能とする。圧縮符号化の方式としては、例えば、国際標準方式であるＧ.７２３、Ｇ.７２８、ＭＰＥＧＡｕｄｉｏ等を適用することができる。映像信号と音声信号のビットストリームは、それぞれインターネット送出に適した形でパケット化され、同期多重されて送信される。

映像信号及び音声信号は、各メディアのパケットに付された時刻情報であるタイムスタンプを用いて再生同期がとられる。ビデオエンコーダ１７１とオーディオエンコーダ１７２では、メディアの同期をとるためのタイムスタンプを付与してパケットに含ませる。
例えば本映像音声配信システムには、ＲＴＰ（Real-time Transport Protocol）を用いてデータ配信を行うシステムを適用することができる。一般にＲＴＰは、音声や動画映像などのデータストリームをリアルタイムに配送するためのデータ転送プロトコルである。ＲＴＰパケットを受信したホストでは、各パケットの時間の情報から時間的な関係を把握し、データを再生することができる。ＲＴＰパケットは、通信端末の映像や音声についてそれぞれ決まったパケット送出間隔で送信する。ＲＴＰヘッダにはタイムスタンプを記述することができる。

ここでは第１通信端末１０、第２通信端末２０は、ＮＴＰ（Network Time Protocol）に従って時刻を経時する図示しないＮＴＰタイマを備え、ＮＴＰタイマの経時時刻によるＮＴＰタイムスタンプを使用することができる。ＮＴＰは通信時間による時刻値の誤差を小さくするために工夫された時刻同期のためのプロトコルであり、協定世界時（ＵＴＣ）を使用して時刻を送受信するものである。

タイムスタンプは、例えば３２ビットＲＴＰペイロードの最初のデータがサンプリングされた瞬間のタイムスタンプを記述する。タイムスタンプはクロックのカウント値で示され、例えば精度は１／９０Ｈｚとされる。受信側では再生時のタイミングをこれによって決定する。また、実際の時刻とは関係なく，固定周波数でサンプリングしている場合はサンプル数を設定することができる。例えばサンプリング周波が８ｋＨｚの音声を使用する場合には、マイクロフォンで取得したアナログ音声信号は１２５μｓに１度サンプリングされる。例えば１６ｍｓに１度ＲＴＰパケットを送信する場合は、１６［ｍｓ］／１２５［μｓ］＝１２８となり，１パケットごとに１２８ずつ値を増加させることになる。また、初期値は乱数にすることが推奨される。ここでは送受の双方でタイミングが一致するよう、クロックリファレンスを伝送してＰＬＬ（Phase Locked Loop）を制御する。

第２通信端末の通信処理部２８は、通信回線５０を介して第１通信端末１０からの映像信号及び音声信号を受信する。通信処理部２８には受信バッファが設けられ、バッファで一端保持した映像及び音声のビットストリームを映像音声処理部２７のマルチメディア分離部２７１に出力する。マルチメディア分離部２７１では、多重化された映像信号及び音声信号を分離し、映像信号をビデオデコーダ２７２に出力し、音声信号をオーディオデコーダ２７３に出力する。ビデオデコーダ２７２では、圧縮符号化された映像信号を復号（デコード）する。また、オーディオデコーダ２７３は、圧縮符号化された音声信号を復号する。復号された映像信号と音声信号はそれぞれ遅延メモリ２７４，２７５に保持される。

映像信号及び音声信号は、各メディアのパケットに付された時刻情報であるタイムスタンプを用いて再生同期がとられる。通信処理部２８は、多重化データからビデオタイムスタンプとオーディオタイムスタンプとを取り出し、タイムスタンプ比較部２７６に出力する。タイムスタンプ比較部２７６は、各メディアのタイムスタンプを比較し、同一時刻に再生が行われるように各遅延メモリ２７４，２７５を制御する。そして遅延メモリ２７４，２７５からは、映像と音声の同期がとられた状態で映像と音声が出力され、それぞれ表示部とスピーカから出力される。

図３の構成は、第１通信端末１０から第２通信端末２０に映像信号及び音声信号を送信して第２通信端末で再生出力するための構成例を示しているが、第２通信端末２０で収録した映像信号及び音声信号を第１通信端末１０に送信し、第１通信端末１０で再生出力するために、第１通信端末１０と第２通信端末２０で相互に同様の構成を備えるようにする。

図４は、第１通信端末及び第２通信端末から送信された映像信号及び音声信号を受信して合成する映像音声合成装置の要部構成例を説明する図である。
第１受信部３０１は、第１通信端末１０から送信された映像信号及び音声信号を多重化した多重化信号を受信する。受信した多重化信号は、マルチメディア分離部３０２で分離され、分離された映像信号が第１ビデオデコーダ３０３で復号されて、第１ビデオ遅延メモリ３０５に保持される。また、マルチメディア分離部３０２で分離された音声信号は、第１オーディオデコーダ３０４で復号され、第１オーディオ遅延メモリ３０６に保持される。

第２受信部３０７は、第２通信端末２０から送信された映像信号及び音声信号の多重化信号を受信する。受信した多重化信号は、マルチメディア分離部３０８で分離され、分離された映像信号は、第２ビデオデコーダ３０９で復号されて、第２ビデオ遅延メモリ３１２に保持される。また、マルチメディア分離部３０８で分離された音声信号は、第２オーディオデコーダ３１０で復号され、第２オーディオ遅延メモリ３１３に保持される。

また、第１受信部３０１では、第１通信端末１０から送信された多重化信号から、第１ビデオタイムスタンプと第１オーディオタイムスタンプを取り出し、第１／第２タイムスタンプ比較部３２０に出力する。
また、第２受信部３０７では、第１通信端末１０から送信された多重化データから、第２ビデオタイムスタンプと第２オーディオタイムスタンプを取り出し、第１／第２タイムスタンプ比較部３２０に出力する。

第１／第２タイムスタンプ比較部３２０は、第１受信部３０１及び第２受信部３０７で取り出された各タイムスタンプを比較して、映像信号及び音声信号がタイムスタンプにより同期されるように第１ビデオ遅延メモリ３０５、第１オーディオ遅延メモリ３０６、第２ビデオ遅延メモリ３１２、及び第２オーディオ遅延メモリ３１３の遅延量を制御する。

第１／第２タイムスタンプ比較部３２０でそれぞれ遅延量が制御され、第１ビデオ遅延メモリ３０５から出力された映像信号と、第２ビデオ遅延メモリ３１２から出力された映像信号とが映像合成部３１４で合成される。また第１オーディオ遅延メモリ３０６から出力された音声信号と、第２オーディオ遅延メモリ３１３から出力された音声信号とが音声合成部３１５で合成される。
映像合成部３１４で合成された映像信号は、ビデオエンコーダ３１６で符号化され、マルチメディア多重化部３１８に出力される。また音声合成部３１５から出力された音声信号は、オーディオエンコーダ３１７で符号化されてマルチメディア多重化部３１８に出力される。マルチメディア多重化部３１８は、入力した映像信号と音声信号を多重化し、合成動画送信部３１９からネットワーク上のユーザ通信端末に送信する。

以下に、上記のようなシステム構成を備えた映像音声配信システムにおける映像信号と音声信号の合成、配信処理に係る実施形態を説明する。
（第１の実施形態）
図５は、本発明による音声映像システムで第１のモードにより映像信号及び音声信号を合成して配信するときの処理例を説明するためのタイミングチャートである。
第１のモードは、上記のように第１通信端末１０から送信された映像信号及び音声信号と、第１通信端末１０から送信された映像信号及び音声信号が第２通信端末２０で再生され、再生と同時に収録された映像信号及び音声信号と、を同期させて、第１通信端末１０から送信された映像信号と第２通信端末２０から送信された映像信号とを合成するともに、第１通信端末１０から送信された音声信号と第２通信端末２０から送信された音声信号とを合成するモードである。

まず第１通信端末１０では、第１音声信号と第１映像信号とを収録する（Ｓ１，Ｓ２）。第１通信端末１０は、収録した第１音声信号と第１映像信号を符号化して多重化し、第２通信端末２０と映像音声合成装置３０に送信する。このとき、第１映像信号と第１音声信号にタイムスタンプを付与して含める。タイムスタンプのタイミングは、第１映像信号及び第１音声信号の収録時のタイミングに相当する。

第２通信端末２０では、第１通信端末１０から送信された音声信号及び映像信号の多重化信号を受信して復号し、スピーカ及び表示部により再生出力する（Ｓ３，Ｓ４）。このときの第１映像信号及び第１音声信号が第１通信端末１０で収録されてから第２通信端末２０で再生されるまでに遅延時間ｄ１が発生する。遅延時間ｄ１には、第１通信端末１０におけるサンプリング、符号化、多重化、送信までの処理時間と、第１通信端末１０から第２通信端末２０までのネットワーク遅延時間と、第２通信端末２０における受信、多重化分離、復号、再生までの処理時間が含まれる。

第１通信端末１０と第２通信端末２０との通信には、通信データ量が異なる二つのモードを採用することができる。例えば映像及び音声の音質及び画質を重視した音質・画質優先モードと、音質・画質優先モードのデータから間引きや削除等を行い、もしくは符号化方式を変更することで、相対的にデータ量を少なくした速度優先モードとを設定できる。
第１のモードでは、第１通信端末１０から第２通信端末２０への映像信号と音声信号の送信を音質・画質優先モードで実行するものとする。

第２通信端末２０では、第１通信端末１０から送信された第１映像信号及び第１音声信号の再生出力に合わせて、その再生出力にコラボレーションしながら別のユーザにより第２音声信号と第２映像信号が収録される（Ｓ５，Ｓ６）。第２通信端末２０では、第１通信端末１０で収録された音声と映像を再生させながら、さらに別のユーザによる音声及び映像を収録することができるので、例えば遠隔の二つの通信端末における演奏のリズムやテンポなどを合わせながら音声及び演奏を収録することができる。

第２通信端末２０で第２映像信号及び第２音声信号を収録すると、これら第２映像信号及び第２音声信号にタイムスタンプが付与されて、映像音声合成装置３０に送信される。タイムスタンプは、第２通信端末２０で第２映像信号及び第２音声信号の収録時のタイミングに相当する時刻が記述されるが、本発明に係る実施形態では、さらにこのタイムスタンプを補正して、第１通信端末１０の第１音声信号及び第１映像信号と同期させるようにする。

この実施形態では、第１通信端末１０で音声信号及び映像信信号を収録した時点から、その映像信号及び音声信号が第２通信端末２０で再生されるまでの遅延時間ｄ１を予め測定しておく。そして第２通信端末２０は、第２通信端末２０で第２映像信号及び第２音声信号が収録される時に付与されるタイムスタンプを、遅延時間ｄ１だけ早くなるように補正する。遅延時間ｄ１は、複数回の測定値の平均値を採用し、予め第２通信端末２０に登録しておくことができる。そして補正したタイムスタンプを第２音声信号及び第２映像信号に付与して第２通信端末２０から映像音声合成装置３０に送信する。

映像音声合成装置３０では、第１通信端末１０から送信された第１映像信号及び第１音声信号を受信し、復号して再生する（Ｓ７，Ｓ８）。また、映像音声合成装置３０では、第２通信端末２０から送信された第２映像信号及び第２音声信号を受信し、復号して再生する（Ｓ９，Ｓ１０）。このとき、映像音声合成装置３０では、それぞれの映像信号と音声信号のタイムスタンプを比較し、タイムスタンプが一致するように遅延量を制御して合成する。合成する映像信号及び音声信号の再生開始時刻は、第２通信端末２０から映像音声合成装置３０へ送信され再生されるまでの遅延時間以上経過した任意の時刻を設定できる。この場合、第１通信端末１０が第１映像信号及び第１音声信号を収録してから映像音声合成装置３０で各映像信号と音声信号が再生されるまでの時間はｄ２となる。

ここで第２通信端末２０から送信されたタイムスタンプは、第１通信端末１０における収録から第２通信端末２０で再生されるまでの遅延時間ｄ１だけ早くなるように補正されているので、第２通信端末２０における第２映像信号及び第２音声信号の収録タイミングは、第１通信端末１０における第１映像信号及び第１音声信号の収録タイミングにほぼ一致し、両者でコラボレーションにより収録された映像信号及び音声信号が違和感なく視聴できるように合成が行われる。

映像音声合成装置３０で合成された映像信号及び音声信号は、再度エンコードされる（Ｓ１１，Ｓ１２）。このとき、映像音声合成装置３０では、エンコードする処理の時間ｄ３だけ時間的に遅延する。
エンコードされた映像信号及び音声信号は、各ユーザ通信端末４０ａ〜４０ｎに配信されて再生される（Ｓ１３，Ｓ１４）。遅延時間ｄ４には、映像音声合成装置３０による映像信号及び音声信号の送信からネットワーク遅延時間、ユーザ通信端末における受信、デコード、再生までの時間が含まれる。

（第２の実施形態）
上記第１の実施形態では、第２通信端末２０でタイムスタンプを補正するときに、第１通信端末１０で第１映像信号及び第１音声信号を収録した時点から、その映像信号及び音声信号が第２通信端末２０で再生されるまでの遅延時間ｄ１を予め測定し、第２通信端末２０で第２映像信号及び第２音声信号の収録時に付与されるタイムスタンプを、遅延時間ｄ１だけ早くなるように補正した。
これに対してタイムスタンプを補正する第２実施形態では、第２通信端末２０は、第１通信端末１０で第１映像信号及び第１音声信号を収録したときの時刻を記録したタイムスタンプと、その第１映像信号及び第１音声信号を符号化した符号化信号が第２通信端末２０で再生されたときの時刻を示すタイムスタンプとに基づき、これらの時間差を計算して遅延時間ｄ１とする。そして映像音声合成装置３０では、第２通信端末２０で第２映像信号及び第２音声信号の収録時に付与されるタイムスタンプを、遅延時間ｄ１だけ早くなるように補正する。

これにより、映像音声合成装置３０で各映像信号と音声信号とをそれぞれタイムスタンプを一致させて合成したときに、第２通信端末２０における第２映像信号及び第２音声信号の収録タイミングが、第１通信端末１０における第１映像信号及び第１音声信号の収録タイミングにほぼ一致し、両者でコラボレーションにより収録された映像信号及び音声信号が違和感なく視聴できるように合成が行われる。

（第３の実施形態）
図６は、本発明による音声映像システムで第２のモードにより映像信号及び音声信号を合成して配信するときの処理例を説明するためのタイミングチャートである。
第２のモードは、上記のように第１通信端末１０から送信された第１映像信号及び第２音声信号と、第２通信端末２０から送信された第２映像信号及び第２音声信号を同期させることなくそれぞれ合成するモードである。第２のモードは、第１のモードのようなコラボレーション演奏等を意識することなく、遠隔の場所で収録された映像信号及び音声信号をできるだけ遅延なくそのまま合成して出力させるモードで、例えば遠隔のユーザ同士が対話を行うときのトーク／合成モードとして使用できるものである。

まず第１通信端末１０では、第１映像信号及び第１音声信号を収録する（Ｓ２１，Ｓ２２）。第１通信端末１０は、収録した第１映像信号と第１音声信号を符号化して多重化し、第２通信端末２０と映像音声合成装置３０に送信する。このとき、第１映像信号と第１音声信号にタイムスタンプを付与する。タイムスタンプのタイミングは、映像信号及び音声信号の収録時のタイミングに相当する。

一方、第２通信端末２０では、第２映像信号及び第２音声信号を収録する（Ｓ２５，Ｓ２６）。第２通信端末２０は、収録した第２映像信号と第２音声信号を符号化して多重化し、第１通信端末１０と映像音声合成装置３０に送信する。このとき、第２映像信号と第２音声信号にタイムスタンプを付与して含める。タイムスタンプのタイミングは、映像信号及び音声信号の収録時のタイミングに相当する。
つまり、第１通信端末１０における収録と、第２通信端末２０における収録が並行して行われ、収録された各映像信号及び音声信号が相手先の通信端末に送信される。

第１通信端末１０では、第２通信端末２０から送信された第２映像信号及び第２音声信号の多重化信号を受信して復号し、スピーカ及び表示部により再生出力する（Ｓ２３，Ｓ２４）。このときの第２映像信号及び第２音声信号が第２通信端末２０で収録されてから第１通信端末１０で再生されるまでにそれぞれ遅延時間ｄ１１，ｄ１２が発生する。遅延時間ｄ１１，ｄ１２には、第２通信端末２０におけるサンプリング、符号化、多重化、送信までの処理時間と、第２通信端末２０から第１通信端末１０までのネットワーク遅延時間と、第１通信端末１０における受信、多重化分離、復号、再生までの処理時間が含まれる。

この場合、映像信号と音声信号との間で符号化・復号化処理等の時間が異なるため、第１通信端末１０では、両者の同期をとらずに再生準備ができた段階で再生出力を開始する。
また、第１通信端末１０では、第２映像信号と第２音声信号とのタイムスタンプに基づき、これら第２映像信号と第２音声信号とを同期させて再生出力させるようにしてもよい。この場合、再生が遅くなる方のメディアに同期させてもう一方のメディの再生を行うことができる。

同様に、第２通信端末２０では、第１通信端末１０から送信された第１映像信号及び第１音声信号の多重化信号を受信して復号し、スピーカ及び表示部により再生出力する（Ｓ２７，Ｓ２８）。このときの第１映像信号及び第１音声信号が第１通信端末１０で収録されてから第２通信端末２０で再生されるまでにそれぞれ遅延時間ｄ１３、ｄ１４が発生する。遅延時間ｄ１３、ｄ１４には、第１通信端末１０におけるサンプリング、符号化、多重化、送信までの処理時間と、第１通信端末１０から第２通信端末２０までのネットワーク遅延時間と、第２通信端末２０における受信、多重化分離、復号、再生までの処理時間が含まれる。

この場合、音声信号と映像信号との間で符号化・復号化処理等の時間が異なるため、第２通信端末２０では、両者の同期をとらずに再生準備ができた段階で再生出力を開始する。
また、第２通信端末２０では、第１映像信号と第１音声信号とのタイムスタンプに基づき、これら第１映像信号と第１音声信号とを同期させて再生出力させるようにしてもよい。この場合、再生が遅くなる方のメディアに同期させてもう一方のメディの再生を行うことができる。

また、第１通信端末１０と第２通信端末２０との通信には、通信データ量が異なる二つのモードを採用することができる。例えば映像及び音声の音質及び画質を重視した音質・画質優先モードと、音質・画質優先モードのデータから間引きや削除等を行い、もしくは符号化方式を変更することで、相対的にデータ量を少なくした速度優先モードとを設定できる。第２のモードでは、第１通信端末１０から第２通信端末２０への映像信号と音声信号の送信を速度優先モードで実行するものとする。これにより、よりリアルタイムに近い状態で相互の通信を行うことができ、両者の対話等に好適となる。

映像音声合成装置３０では、第１通信端末１０から送信された第１映像信号及び第１音声信号を受信し、復号して再生する（Ｓ２９，Ｓ３０）。また、映像音声合成装置３０では、第２通信端末２０から送信された第２映像信号及び第２音声信号を受信し、復号して再生する（Ｓ３１，Ｓ３２）。そしてこれら映像信号と音声信号とをそれぞれタイムスタンプを一致させて合成する。合成させる各データの再生開始時刻は、第１通信端末１０（または第２通信端末２０）から映像音声合成装置３０へ送信され再生されるまでの遅延時間以上経過した任意の時刻を設定できる。この場合、第１通信端末１０が映像信号及び音声信号を収録してから映像音声合成装置３０で各映像信号と音声信号が再生されるまでの時間はｄ１５となる。

映像音声合成装置３０で合成された映像信号及び音声信号は、再度エンコードされる（Ｓ３３，Ｓ３４）。このときエンコードする処理の時間ｄ１６だけ時間的に遅延する。
エンコードされた映像音声合成信号は、各ユーザ通信端末４０に配信されて再生される（Ｓ３５，Ｓ３６）。遅延時間ｄ１７には、映像音声合成装置３０による映像信号及び音声信号の送信からネットワーク遅延時間、ユーザ通信端末における受信、デコード、再生までの時間が含まれる。

（第４の実施形態）
上記第３の実施形態では、映像音声合成装置３０では、第１通信端末１０から送信された第１映像信号及び第１音声信号と、第２通信端末２０から送信された第２映像信号及び第２音声信号とをタイムスタンプを使用して同期させて合成した。
これに対して第４の実施形態では、映像音声合成装置３０では、第１通信端末１０から送信された映像信号及び音声信号と、第２通信端末２０から送信された映像信号及び音声信号とをタイムスタンプにより同期させることなく、再生可能となった時点で随時再生し、再生された映像信号及び音声信号を合成してユーザ通信端末４０に送信する。この場合、第１通信端末１０から送信された第１映像信号及び第１音声信号をタイムスタンプにより同期させ、かつ第２通信端末２０から送信された第２映像信号及び第２音声信号をタイムスタンプにより同期させて再生し、第１通信端末１０と第２通信端末２０との間では同期を考慮することなく適宜再生するものであってもよい。

第１通信端末１０及び第２通信端末２０では、相手方の通信端末で収録された映像信号及び音声信号を、第１のモードのような同期を意識することなく再生させながらさらに映像及び音声を収録させることができるので、遠隔地でユーザが互いに対話するモードとして好適である。

（第５の実施形態）
本実施形態では、第１通信端末１０で第１映像信号及び第１音声信号が収録されてから、映像音声合成装置３０で合成が行われるまでの時間を、第１のモードと第２のモードとで同じにする。これにより、第１のモードと第２のモードとが相互に切り替えられたときにも、ユーザの違和感をできるだけ無くすようにすることができる。

例えば図５に示す第１のモードでは、第１通信端末１０で第１映像信号及び第１音声信号が収録されてから、映像音声合成装置３０で再生されて合成されるまでの遅延時間としてｄ２が設定される。一方、図６に示す第２のモードでは、第１通信端末１０で第１映像信号及び第１音声信号が収録されてから、映像音声合成装置３０で再生されて合成されるまでの遅延時間としてｄ１５が設定される。本実施形態では、映像音声合成装置３０は、第１のモードの遅延時間ｄ２と、第２のモードの遅延時間ｄ１５とを同じになるように設定する。
これにより、例えば音楽等のリズムの基準となる第１通信端末１０で収録された映像信号及び音声信号の合成タイミングが第１のモードと第２のモードとで変化しないため、モード切り替え時の違和感をできるだけ抑えることができる。

（第６の実施形態）
本実施形態では、第１通信端末１０で第１映像信号及び第１音声信号が収録されてから、映像音声合成装置３０で合成が行われるまでの時間を、第１のモードと第２のモードの切り換え時に徐々に切り替えるようにする。これにより、第１のモードと第２のモードとが相互に切り替えられたときにも、ユーザの違和感をできるだけ無くすようにすることができる。

例えば図５に示す第１のモードでは、第１通信端末１０で第１映像信号及び第１音声信号が収録されてから、映像音声合成装置３０で再生されて合成されるまでの遅延時間としてｄ２が設定される。一方、図６に示す第２のモードでは、第１通信端末１０で第１映像信号及び第１音声信号が収録されてから、映像音声合成装置３０で再生されて合成されるまでの遅延時間としてｄ１５が設定される。第１のモードの時間ｄ２と、第２のモードの時間ｄ１５とは異なる時間を設定できる。例えば第１のモードでは、第１通信端末１０で収録された第１映像信号及び第１音声信号が第２通信端末２０で再生されてから第２通信端末２０で収録が行われる。また、第２のモードでは、第１通信端末１０と第２通信端末２０とから並行して映像信号と音声信号とが映像音声合成装置３０に送信される。このため、第１のモードの遅延時間ｄ１５は、第２のモードの遅延時間ｄ２よりも長く設定される場合がある。

このとき、本実施形態では、映像音声合成装置３０は、第１のモードと第２のモードとが相互に切り換えられたとき、第１のモードの時間ｄ２と、第２のモードの時間ｄ１５とが徐々に切り換えられるように設定する。切り換えるときの変化の程度（例えば完全にもモードが切り換えられるまでの時間または変化率）は適宜定めることができる。
これにより、第１のモードと第２のモードとを切り換えたときに、モード切り替え時の映像と音声の間伸びや飛びによる違和感をできるだけ抑えることができる。

次に映像音声配信システムで映像信号及び音声信号を合成するときの外観の様子を説明する。
図７は、本発明による映像音声配信システムに使用する通信端末の外観構成例を示す図である。図７は第１通信端末１０を例とするが、第２通信端末２０も同様の構成とすることができる。第１通信端末１０は、表示部１１が備えられ、第２通信端末２０で撮像されたユーザの映像が表示される。また、スピーカ１３からは、第２通信端末２０で撮像されたユーザの音声が出力される。撮像部１２は、表示部１１の正面方向に画角を有するカメラからなり、第１通信端末１０を使用するユーザを撮像する。また、マイクロフォン１４は、第１通信端末１０を使用するユーザの音声を取得する。撮像部１２とマイクロフォン１４によりそれぞれ取得された映像信号及び音声信号は、映像音声合成装置３０及び第２通信端末２０に送信される。

図８は、映像音声配信システムで映像と音声の合成処理を行うときの様子の一例を示す図であり、図８（Ａ）は第１通信端末１０の表示画像の例を示す図、図８（Ｂ）は第２通信端末２０の表示画像の例を示す図である。
映像音声配信システムでは、コレボレーション演奏等が可能な第１のモードと、遠隔地のユーザが対話するときの第２のモードとが切り換え可能に設定される。
第１のモードは、遠隔の場所で両者の演奏等を同期させて合成するためのモードであり、例えば第１通信端末１０で取得された映像が、図８（Ｂ）に示すように第２通信端末２０の表示部２１に表示される。このときに第１通信端末１０で取得された音声信号も第２通信端末２０のスピーカ２３から音声出力される。

第２通信端末２０では、表示部２１に表示されている映像及びスピーカ２３から出力される音声に合わせて、演奏や踊りなどを演じることができる。この様子の映像は第２通信端末２０の撮像部２２で撮像され、その音声はマイクロフォン２４により取得される。
これにより、第２通信端末２０では、第１通信端末１０で演じられた音楽等に合わせたリズムやテンポ等でコラボレーション演奏等を行うことができる。
また、第２通信端末２０で撮影された映像信号は、第１通信端末１０で表示させることができるが、この場合、デコード及びエンコードによる遅延やネットワーク通信の遅延等が含まれるため、第１のモードでは参考とされる程度となる。この場合、第２通信端末１０で取得された音声は第１通信端末１０では出力しないようにすることができる。

また、同様に第２のモードでは、第１通信端末１０で取得された映像信号と音声信号は、第２通信端末２０の表示部２１とスピーカ２３からそれぞれ出力される。また、同時に第２通信端末２０で取得された映像信号及び音声信号は、第１通信端末１０の表示部１１とスピーカ１３からそれぞれ出力される。この場合には、第１通信端末１０では、第２通信端末２０から送信された映像信号と音声信とを同期させて、もしくは復号して再生可能となった時点で再生出力する。同様に第２通信端末２０では、第１通信端末１０から送信された映像信号と音声信号とを同期させて、もしくは復号して再生可能となった時点で再生出力する。
これにより、第１通信端末１０と第２通信端末２０のユーザは、できるだけリアルタイムに近い状態で相互に映像と音声をやりとりしながら対話等を行うことができる。

図９は、映像音声配信システムから出力された映像信号及び音声信号をユーザ通信端末で再生している様子の一例を示す図である。例えば図８の例で第１通信端末１０と第２通信端末２０で取得された映像信号及び音声信号は、それぞれ映像音声合成装置３０に送信され合成されてユーザ通信端末４０に配信される。図９はこのときにユーザ通信端末４０で再生される合成映像の例を示している。第１通信端末１０で撮影された映像と、第２通信端末２０で撮影された映像とが一画面内に合成されてユーザ通信端末４０の表示部４１に表示される。映像信号の合成は図９に示すようにマルチ画面による合成表示により行うことができる。また、音声信号については、第１通信端末１０と第２通信端末２０とでそれぞれ出取得された音声信号が同時にスピーカ４２から音声出力される。

ここでは第１のモードと第２のモードのいずれにおいても同様の表示及び音声出力を行うことができるが、第１のモードの場合には、第１通信端末１０における収録時の映像信号及び音声信号のタイムスタンプと、第１通信端末１０で収録された映像信号及び音声信号の再生出力に合わせて第２通信端末２０で収録された映像信号及び音声信号のタイムスタンプとが合わせて合成されているので、遠隔に離れた第１通信端末１０と第２通信端末２０の演奏等がほぼ違和感なく同期した状態で視聴することができる。
一方、第２のモードの場合には、第１通信端末１０と第２通信端末２０でできるだけリアルタイムに近い状態で収録された映像信号及び音声信号をユーザ通信端末で視聴することができる。

図１０は、本発明の映像音声配信システムにおける処理の一例を説明するためのフローチャートである。以下図１の構成例を参照しながら説明する。
映像配信システムでは、まず第１通信端末１０、第２通信端末２０、及び映像音声合成装置３０の通信接続を行う（ステップＳ１）。そして映像音声配信システムのトーク時合成スイッチがＯＮであるか判断する（ステップＳ２）。トーク時合成スイッチとは、遠隔のユーザ同士の対話の合成に好適な第２のモードを選択するためのスイッチであり、例えば映像音声合成装置３０、もしくは第１通信端末１０または第２通信端末２０のいずれかまたは複数の機器に設けられ、当該スイッチがＯＮであるかの判断はそのスイッチが操作された機器が行うことができる。なおこのスイッチは、ボタンなどのハードキーだけでなくソフトウェア上のボタンを含む。

トーク時合成スイッチがＯＮでなければ、映像音声配信システムでは、第１通信端末１０、第２通信端末２０、及び映像音声合成装置３０の通信接続を終了して（ステップＳ２２）、処理を終了する。
また、トーク時合成スイッチがＯＮであれば、さらにコラボ演奏時合成スイッチがＯＮであるかを判断する（ステップＳ３）。コラボ演奏時合成スイッチとは、遠隔のユーザ同士コラボレーションしながら演奏等を行う場合に好適な第１のモードを選択するためのスイッチであり、例えば映像音声合成装置３０、もしくは第１通信端末１０または第２通信端末２０のいずれかまたは複数の機器に設けられ、当該スイッチがＯＮであるかの判断はそのスイッチが操作された機器が行うことができる。なお第１のモード、及び第２のモードを選択するための手段は、上記のようなスイッチに限ることなく適宜設計できる。

ここでコラボ演奏時合成スイッチがＯＮであれば、第１のモードで動作を行う。ここではまず、第１通信端末１０の撮像部１２とマイクロフォン１４とにより、第１通信端末１０のユーザの映像信号及び音声信号を収録する（ステップＳ４）。そして、第１通信端末１０で収録した映像信号及び音声信号を符号化して第２通信端末２０と映像音声合成装置３０に送信する（ステップＳ５）。第２通信端末２０では、受信した映像信号及び音声信号を復号し、映像信号と音声信号とを同期させて表示部２１とスピーカ２３で再生出力させる（ステップＳ６）。

そして第２通信端末１０では、撮像部２２とマイクロフォン２４とにより、第２通信端末２０のユーザの映像信号及び音声信号を収録する（ステップＳ７）。第２通信端末２０は、第２通信端末２０で音声及び映像信号の収録時に付与されるタイムスタンプを遅延時間ｄ１だけ早くなるように補正して、第２通信端末２０で収録した映像信号及び音声信号を映像音声合成装置３０及び第１通信端末１０に送信する（ステップＳ８）。

映像音声合成装置３０は、第１通信端末１０から送信された映像信号及び音声信号と、第２通信端末２０から送信された映像信号及び音声信号とをタイムスタンプによりタイミングを同期させて再生し、再生した映像信号及び音声信号を合成して符号化する（ステップＳ９）。合成は、映像信号と音声信号とのそれぞれについて実行される。そして映像音声合成装置３０は、符号化した映像信号及び音声信号をユーザ通信端末４０に送信する（ステップＳ１０）。ユーザ通信端末４０は、受信した映像信号及び音声信号を復号して表示部とスピーカにより出力する（ステップＳ１１）。ユーザ通信端末４０における再生出力処理が終了するとステップＳ２戻る。

ステップＳ３でコラボ演奏時合成スイッチがＯＮでなければ、第２のモードで動作を行う。この例では、第２のモードはトーク合成スイッチがＯＮで、かつコラボ演奏合成スイッチがＯＮのときに設定されるものとする。
ここではまず、第１通信端末１０の撮像部１２とマイクロフォン１４とにより、第１通信端末１０のユーザの映像信号及び音声信号を収録する（ステップＳ１２）。また、第２通信端末２０では、撮像部２２とマイクロフォン２４とにより、第２通信端末２０のユーザの映像信号及び音声信号を収録する（ステップＳ１３）。ステップＳ１２とステップＳ１３とは並行して実行することができる。

そして、第１通信端末１０で収録した映像信号及び音声信号を符号化して第２通信端末２０と映像音声合成装置３０に送信する（ステップＳ１４）。また、第２通信端末２０で収録した映像信号及び音声信号を符号化して第１通信端末１０と映像音声合成装置３０に送信する（ステップＳ１５）。これらステップＳ１４とステップＳ１５についても並行して実行することができる。
第１通信端末１０では、受信した映像信号及び音声信号を復号し、映像信号と音声信号とを同期させて表示部１１とスピーカ１３で再生出力させる（ステップＳ１６）。また、第２通信端末２０では、受信した映像信号及び音声信号を復号し、映像信号と音声信号とを同期させて表示部２１とスピーカ２３で再生出力させる（ステップＳ１７）。ステップＳ１６とステップＳ１７の処理も並行して実行することができる。

映像音声合成装置３０は、第１通信端末１０から送信された映像信号及び音声信号と、第２通信端末２０から送信された映像信号及び音声信号とを再生し、再生した映像信号及び音声信号を合成して符号化する（ステップＳ１８）。合成は、映像信号と音声信号とのそれぞれについて実行される。また、このときの合成は、同期を目的とする特別の遅延量を与えることなく、再生可能な状態となった映像信号及び音声信号をそれぞれ合成する。あるいは第１通信端末１０と第２通信端末２０のそれぞれの映像と音声信号とは同期させ、第１通信端末から送信された映像信号及び音声信号と、第２通信端末２０から送信された映像信号及び音声信号との間では同期を意識することなく、順次再生可能となった時点で合成を行う。

そして映像音声合成装置３０は、符号化した映像信号及び音声信号をユーザ通信端末４０に送信する（ステップＳ１９）。ユーザ通信端末４０は、受信した映像信号及び音声信号を復号して表示部とスピーカにより出力する（ステップＳ２０）。ユーザ通信端末４０における再生出力処理が終了するとステップＳ２戻る。

上記本発明に係る映像音声配信システムの各要素、すなわち、第１通信端末１０、第２通信端末２０、及び映像音声合成装置３０は、プログラムによってそれらの機能を実現することができる。すなわち第１通信端末１０、第２通信端末２０、及び映像音声合成装置３０は、それぞれの装置の機能を実現する制御プログラムの命令を実行するＣＰＵなどの制御部と、そのプログラムを格納したＲＯＭおよびプログラムを展開するＲＡＭを備えた記憶部とを備えている。そして、本発明の目的は、上述した機能を実現するプログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を監視システムの各要素に供給し、そのコンピュータが記録媒体に記録されているプログラムコードを制御部が読み出して実行することによって達成可能である。また、上記監視システムの各要素を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。

１０…第１通信端末、１１…表示部、１２…撮像部、１３…スピーカ、１４…マイクロフォン、１５…制御部、１６…記憶部、１７…映像音声処理部、１８…通信処理部、１９…操作部、２０…第２通信端末、２１…表示部、２２…撮像部、２３…スピーカ、２４…マイクロフォン、２５…制御部、２６…記憶部、２７…映像音声処理部、２８…通信処理部、２９…操作部、３０…映像音声合成装置、４０，４０ａ〜４０ｎ…ユーザ通信端末、４１…表示部、４２…スピーカ、５０…通信回線、１７１…ビデオエンコーダ、１７２…オーディオエンコーダ、１７３…マルチメディ多重化部、２７１…マルチメディア分離部、２７２…ビデオデコーダ、２７３…オーディオデコーダ、２７４，２７５…遅延メモリ、２７６…タイムスタンプ比較部、３０１…第１受信部、３０２…マルチメディア分離部、３０３…第１ビデオデコーダ、３０４…第１オーディオデコーダ、３０５…第１ビデオ遅延メモリ、３０６…第１オーディオ遅延メモリ、３０７…第２受信部、３０８…マルチメディア分離部、３０９…第２ビデオデコーダ、３１０…第２オーディオデコーダ、３１２…第２ビデオ遅延メモリ、３１３…第２オーディオ遅延メモリ、３１４…映像合成部、３１５…音声合成部、３１６…ビデオエンコーダ、３１７…オーディオエンコーダ、３１８…マルチメディア多重化部、３１９…合成動画送信部、３２０…第１／第２タイムスタンプ比較部。

Claims

第１通信端末、第２通信端末、及び映像音声合成装置が通信可能に備えられた映像音声配信システムであって、
前記第１通信端末は、該第１通信端末が収録した映像信号及び音声信号を前記第２通信端末と前記映像音声合成装置に送信し、前記第２通信端末は、前記第１通信端末から送信された映像信号及び音声信号を再生し、該再生とともに収録した映像信号及び音声信号を前記映像音声合成装置に送信し、
前記映像音声合成装置は、
前記第１通信端末から送信された映像信号及び音声信号と、
前記第１通信端末から送信された映像信号及び音声信号が第２通信端末で再生され、該再生と同時に収録された映像信号及び音声信号と、を同期させて、
前記第１通信端末から送信された映像信号と前記第２通信端末から送信された映像信号とを合成するとともに、前記第１通信端末から送信された音声信号と前記第２通信端末から送信された音声信号とを合成する第１のモードを有することを特徴とする映像音声配信システム。
請求項１に記載の映像音声配信システムにおいて、前記映像音声合成装置は、前記第１通信端末から送信された映像信号及び音声信号と、前記第２通信端末から送信された映像信号及び音声信号を、前記同期させることなくそれぞれ合成する第２のモードをさらに有し、前記第１のモードと前記第２のモードとを切り換えることを特徴とする映像音声配信システム。
請求項１または２に記載の映像音声配信システムにおいて、
前記映像音声合成装置は、前記第１のモードでは、
前記第１通信端末で映像信号及び音声信号に対して付与されるタイムスタンプと、
前記第１通信端末で映像信号及び音声信号に対して付与されたタイムスタンプを有する映像信号及び音声信号が前記第２通信端末で再生され、該再生と同時に収録された映像信号及び音声信号に対して前記第２通信端末で付与されたタイムスタンプとを一致させるように合成を行うことを特徴とする映像音声配信システム。
請求項３に記載の映像音声配信システムにおいて、
予め前記第１通信端末で収録された映像信号及び音声信号が、前記第２通信端末で再生されるまでの時間を測定しておき、
前記第２通信端末は、前記第１のモードでは、
第２通信端末で映像信号及び音声信号に付与されるタイムスタンプを、測定した前記時間だけ早くなるように補正することを特徴とする映像音声配信システム。
請求項３に記載の映像音声配信システムにおいて、
前記第２通信端末は、前記第１のモードでは、
前記第１通信端末で映像信号及び音声信号を収録したときのタイムスタンプと、前記第１通信端末でタイムスタンプが付与された映像信号及び音声信号が前記第２通信端末で再生されたときの時刻に相当するタイムスタンプとの時間差を計算し、
第２通信端末で映像信号及び音声信号に付与されるタイムスタンプを、前記時間差だけ早くなるように補正することを特徴とする映像音声配信システム。
請求項２に記載の映像音声配信システムにおいて、
前記第１通信端末で映像信号及び音声信号が収録されてから、前記映像音声合成装置で合成が行われるまでの時間を、前記第１のモードと前記第２のモードとで同じにすることを特徴とする映像音声配信システム。
請求項２に記載の映像音声配信システムにおいて、
前記映像音声合成装置は、前記第１のモードと前記第２のモードとが相互に切り換えられたときに、前記第１通信端末で映像信号及び音声信号が収録されてから、前記映像音声合成装置で合成が行われるまでの時間を徐々に変化させることを特徴とする映像音声配信システム。
第１通信端末、第２通信端末、及び映像音声合成装置が通信可能に備えられた通信システムにより実行される音声映像配信方法であって、
前記第１通信端末が、該第１通信端末が収録した映像信号及び音声信号を前記第２通信端末と前記映像音声合成装置に送信し、前記第２通信端末は、前記第１通信端末から送信された映像信号及び音声信号を再生し、該再生とともに収録した映像信号及び音声信号を前記映像音声合成装置に送信するステップと、
前記映像音声合成装置が、
前記第１通信端末から送信された映像信号及び音声信号と、
前記第１通信端末から送信された映像信号及び音声信号が第２通信端末で再生され、該再生と同時に収録された映像信号及び音声信号と、を同期させて、
前記第１通信端末から送信された映像信号と前記第２通信端末から送信された映像信号とを合成するともに、前記第１通信端末から送信された音声信号と前記第２通信端末から送信された音声信号とを合成する第１のモードを有することを特徴とする映像音声配信方法。
請求項８に記載の映像音声配信方法において、前記映像音声合成装置は、前記第１通信端末から送信された映像信号及び音声信号と、前記第２通信端末から送信された映像信号及び音声信号を、前記同期させることなくそれぞれ合成する第２のモードをさらに有し、前記第１のモードと前記第２のモードとを切り換えるステップを有することを特徴とする音声映像配信方法。
請求項１〜７のいずれか１に記載の映像音声配信システムの機能をコンピュータに実現させるためのプログラム。