JP6197211B2 - 映像音声配信システム、音声映像配信方法及びプログラム - Google Patents

映像音声配信システム、音声映像配信方法及びプログラム Download PDF

Info

Publication number
JP6197211B2
JP6197211B2 JP2013203145A JP2013203145A JP6197211B2 JP 6197211 B2 JP6197211 B2 JP 6197211B2 JP 2013203145 A JP2013203145 A JP 2013203145A JP 2013203145 A JP2013203145 A JP 2013203145A JP 6197211 B2 JP6197211 B2 JP 6197211B2
Authority
JP
Japan
Prior art keywords
communication terminal
video
audio
signal
video signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013203145A
Other languages
English (en)
Other versions
JP2015070460A (ja
Inventor
吉田 渉
渉 吉田
永井 隆文
隆文 永井
知明 倉立
知明 倉立
公人 山崎
公人 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2013203145A priority Critical patent/JP6197211B2/ja
Publication of JP2015070460A publication Critical patent/JP2015070460A/ja
Application granted granted Critical
Publication of JP6197211B2 publication Critical patent/JP6197211B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、映像音声配信システム、音声映像配信方法及びプログラムに関し、さらに詳細には、互いに遠隔地にある音楽スタジオやコンサートホールで収録された複数の映像信号及び音声信号を合成して配信するための映像音声配信システム、音声映像配信方法及びプログラムに関する。
近年、大画面ディスプレイ、スピーカ、カメラ及びマイクを備え、通信回線と接続されるビデオ通信端末を会議室等に設置し、同様の機能を備えた他のビデオ通信端末を設置した遠隔地の会議室等とをビデオ接続することにより、仮想会議室空間を生成するテレプレゼンスシステムが用いられるようになってきた。
このようなテレプレゼンスシステムとして、例えば特許文献1には、3以上の会議室の動画を合成して仮想会議室の映像を大画面ディスプレイに表示する映像表示装置が記載されている。
特開2010−157906号公報
しかしながら、特許文献1に記載の映像表示装置では、複数の遠隔地の会議室やスタジオで収録した映像信号と音声信号を合成することにより、あたかも一つの空間で行われているような臨場感を与えることが可能になるものの、エンコード、パケットの通信時間、あるいはデコードなどのデータ処理時間やデータ通信時間に起因して発生する遅延時間が、人が認識し得る長さの遅延時間(例えば、0.5秒〜2秒程度)となるため、違和感が発生する。
特に、リズム感が要求される音楽演奏においては、複数のスタジオ等で収録される音楽のリズムを合わせることが難しく、特に合成した映像信号と音声信号を第三者に配信する場合、第三者にとっては非常にリズム感のない音楽となって聞こえる。
この対策として、厳密に時間調整された時計とメトロノームなどを使うことによってリズムを合わせることが可能になるものの、コラボレーション演奏の基準となる奏者や指揮者の動きを遅延時間なしで遠隔地のスタジオに伝えることができないので、映像信号と音声信号の収録と合成にあたっては、きめ細かな予行演習など大掛かりな準備が必要となる課題があった。特に、コラボレーション演奏の間に、複数の遠隔地のスタジオ間で交わされる会話が交わるような場合、会話と演奏と両立させにくい。
本発明は、上記課題に鑑み、遠隔地にあるスタジオ等で収録される音楽演奏や会話の映像信号と音声信号を違和感なく合成し、合成した映像信号と音声信号を第三者に配信できる映像音声配信システム、映像音声配信方法及びプログラムを提供することを目的とする。
上記課題を解決するために、本発明の第1の技術手段は、第1通信端末、第2通信端末、及び映像音声合成装置が通信可能に備えられた映像音声配信システムであって、前記第1通信端末は、該第1通信端末が収録した映像信号及び音声信号を前記第2通信端末と前記映像音声合成装置に送信し、前記第2通信端末は、前記第1通信端末から送信された映像信号及び音声信号を再生し、該再生とともに収録した映像信号及び音声信号を前記映像音声合成装置に送信し、前記映像音声合成装置は、前記第1通信端末から送信された映像信号及び音声信号と、前記第1通信端末から送信された映像信号及び音声信号が第2通信端末で再生され、該再生と同時に収録された映像信号及び音声信号と、を同期させて、前記第1通信端末から送信された映像信号と前記第2通信端末から送信された映像信号とを合成するともに、前記第1通信端末から送信された音声信号と前記第2通信端末から送信された音声信号とを合成する第1のモードを有することを特徴とするものである。
第2の技術手段は、第1の技術手段において、前記映像音声合成装置は、第1通信端末から送信された映像信号及び音声信号と、前記第2通信端末から送信された映像信号及び音声信号を、前記同期させることなくそれぞれ合成する第2のモードをさらに有し、前記第1のモードと前記第2のモードとを切り換えることを特徴とするものである。
の技術手段は、第1または2の技術手段において、前記映像音声合成装置が、前記第1のモードでは、前記第1通信端末で映像信号及び音声信号に対して付与されるタイムスタンプと、前記第1通信端末で映像信号及び音声信号に対して付与されたタイムスタンプを有する映像信号及び音声信号が前記第2通信端末で再生され、該再生と同時に収録された映像信号及び音声信号に対して前記第2通信端末で付与されたタイムスタンプとを一致させるように合成を行うことを特徴としたものである。
の技術手段は、第の技術手段において、予め前記第1通信端末で収録された映像信号及び音声信号が、前記第2通信端末で再生されるまでの時間を測定しておき、前記第2通信端末は、前記第1のモードでは、第2通信端末で映像信号及び音声信号に付与されるタイムスタンプを、測定した前記時間だけ早くなるように補正することを特徴としたものである。
の技術手段は、第の技術手段において、前記第2通信端末が、前記第1のモードでは、前記第1通信端末で映像信号及び音声信号を収録したときのタイムスタンプと、前記第1通信端末でタイムスタンプが付与された映像信号及び音声信号が前記第2通信端末で再生されたときの時刻に相当するタイムスタンプとの時間差を計算し、第2通信端末で映像信号及び音声信号に付与されるタイムスタンプを、前記時間差だけ早くなるように補正することを特徴としたものである。
第6の技術手段は、第2の技術手段において、前記第1通信端末で映像信号及び音声信号が収録されてから、前記映像音声合成装置で合成が行われるまでの時間を、前記第1のモードと前記第2のモードとで同じにすることを特徴としたものである。
第7の技術手段は、第2の技術手段において、前記映像音声合成装置が、前記第1のモードと前記2のモードとが相互に切り換えられたときに、前記第1通信端末で映像信号及び音声信号が収録されてから、前記映像音声合成装置で合成が行われるまでの時間を徐々に変化させることを特徴としたものである。
の技術手段は、第1通信端末、第2通信端末、及び映像音声合成装置が通信可能に備えられた通信システムにより実行される音声映像配信方法であって、前記第1通信端末が、該第1通信端末が収録した映像信号及び音声信号を前記第2通信端末と前記映像音声合成装置に送信し、前記第2通信端末は、前記第1通信端末から送信された映像信号及び音声信号を再生し、該再生とともに収録した映像信号及び音声信号を前記映像音声合成装置に送信するステップと、前記映像音声合成装置が、前記第1通信端末から送信された映像信号及び音声信号と、前記第の通信端末から送信された映像信号及び音声信号が第2通信端末で再生され、該再生と同時に収録された映像信号及び音声信号と、を同期させて、前記第1通信端末から送信された映像信号と前記第2通信端末から送信された映像信号とを合成するともに、前記第1通信端末から送信された音声信号と前記第2通信端末から送信された音声信号とを合成する第1のモードを有することを特徴としたものである。
第9の技術手段は、第8の技術手段において、前記映像音声合成装置は、前記第1通信端末から送信された映像信号及び音声信号と、前記第2通信端末から送信された映像信号及び音声信号を、前記同期させることなくそれぞれ合成する第2のモードをさらに有し、前記第1のモードと前記第2のモードとを切り換えるステップ有することを特徴としたものである。
10の技術手段は、第1〜7のいずれか1の技術手段の映像音声配信システムの機能をコンピュータに実現させるためのプログラムである。
本発明によれば、エンコード、パケットの通信時間、あるいはデコードなどのデータ処理時間やデータ通信時間によって、人が認識し得る程度の遅延時間が発生する場合であっても、遠隔地にあるスタジオ等で収録される音楽演奏や会話の映像信号と音声信号を違和感なく合成し、合成した映像信号と音声信号を第三者に配信できる映像音声配信システム、映像音声映像配信方法及びプログラムを提供することができる。
本発明に係る映像音声配信システムの構成を説明する図である。 本発明による映像音声配信システムにおける第1通信端末、第2通信端末及び映像音声合成装置の要部の機能を説明する図である。 図2に示す第1通信端末及び第2通信端末の映像音声処理部の具体的構成例を説明するための図である。 第1通信端末及び第2通信端末から送信された映像信号及び音声信号を受信して合成する映像音声合成装置の要部構成例を説明する図である。 本発明による音声映像システムで第1のモードにより映像信号及び音声信号を合成して配信するときの処理例を説明するためのタイミングチャートである。 本発明による音声映像システムで第2のモードにより映像信号及び音声信号を合成して配信するときの処理例を説明するためのタイミングチャートである。 本発明による映像音声配信システムに使用する通信端末の外観構成例を示す図である。 映像音声配信システムで映像と音声の合成処理を行うときの様子の一例を示す図である。 映像音声配信システムから出力された映像信号及び音声信号をユーザ通信端末で再生している様子の一例を示す図である。 本発明の映像音声配信システムにおける処理の一例を説明するためのフローチャートである。
図1は、本発明に係る映像音声配信システムの構成を説明する図である。映像音声配信システムは、第1通信端末10、第2通信端末20、及び映像音声合成装置30を備えていて、これらの間で通信回線を介して相互にデータ送受信が可能に構成される。
第1通信端末10及び第2通信端末20は、例えば音楽スタジオ等に配置することができ、音楽家や芸術家などの演奏やパフォーマンス等の映像信号及び音声信号を収録し、映像信号及び音声信号を相互に送信して表示部やスピーカから出力することができる。
また、第1通信端末10及び第2通信端末20で収録された映像信号及び音声信号は、映像音声合成装置30に送信される。映像音声合成装置30では、これら第1通信端末10と第2通信端末20とから送信された映像信号及び音声信号をそれぞれ合成する。つまり第1通信端末10から送信された映像信号と、第2通信端末20から送信された映像信号とを合成し、かつ、第1通信端末10から送信された音声信号と、第2通信端末から送信された音声信号とを合成する。映像信号の合成は、例えば表示部に表示させる画面を二つに分割して、それぞれの分割領域に同時に第1通信端末10で収録した映像と、第2通信端末20で収録した映像と表示させる映像信号を生成することを指す。
そして映像音声合成装置30は、合成した映像信号及び音声信号を通信回線を介して接続された複数のユーザ通信端末40(第1ユーザ通信端末40a〜第nユーザ通信端末40n)に送信可能とする。
上記の構成で、第1通信端末10で収録された映像信号及び音声信号を第2通信端末20に送信し、第2通信端末20で表示及び音声出力させる。例えば第1スタジオで収録された演奏者等の映像及び音声を第2通信端末20で出力させる。そして第2スタジオで待機する別の演奏者等は、第2通信端末20で出力された映像及び音声に合わせて演奏等を行い、その演奏等を第2通信端末20で収録して映像音声合成装置30に送信する。
一方、第1通信端末10で収録された映像信号及び音声信号は、映像音声合成装置30にも送信される。そして、第1通信端末10で収録された映像信号及び音声信号と、第2通信端末20で収録された映像信号及び音声信号とを映像音声合成装置30で合成することで、遠隔の二つの場所で演奏等がなされた映像と音声を合成して出力させることができる。
そして映像音声合成装置30は、映像信号及び音声信号を合成するモードとして、二つのモードを切り換え可能に制御することができる。
第1のモードは、上記のような遠隔の場所で両者の演奏等を同期させて合成するためのモードであり、コラボレーション演奏/合成モードとして使用できるものである。第1のモードでは、映像音声合成装置30は、第1通信端末10から送信された映像信号及び音声信号と、第1通信端末10から送信された映像信号及び音声信号が第2通信端末20で再生され、再生と同時に収録された映像信号及び音声信号と、を同期させて、第1通信端末10から送信された映像信号と第2通信端末20から送信された映像信号とを合成するともに、第1通信端末10から送信された音声信号と第2通信端末20から送信された音声信号とを合成する。これにより演奏時におけるリズムズレや会話時における間延びを抑え、合成した音声映像に対する違和感を低減できる。
なお、本発明における同期とは、遠隔の場所でそれぞれ収録された映像音声を合成する際に、特別な遅延量を意識的に与えることによって、データ処理時間やデータ通信時間に起因して発生する(相対的な)ズレ時間を短くすることを示し、ズレ時間としては人が違和感を感じないレベル(あるいは、認識できない)の時間(例えば0.3秒以内)に収めることが好ましい。
また、第2のモードは、第1のモードのようなコラボレーション演奏等を意識することなく、遠隔の場所で収録された映像信号及び音声信号を、できるだけ遅延なくそのまま合成して出力させるモードである。このモードは、遠隔のユーザ同士が対話を行うときのトーク/合成モードとして使用できるものである。第1通信端末から送信された映像信号及び音声信号と、前記第2通信端末から送信された映像信号及び音声信号を、第1のモードのように同期させることなくそれぞれ合成する。
図2は、本発明による映像音声配信システムにおける第1通信端末、第2通信端末の要部の機能を説明する図である。
第1通信端末10は、表示部11と、ユーザを撮像する撮像部12と、第2通信端末20で取得された音声信号を出力するスピーカ13と、ユーザの音声を取得するマイクロフォン14と、ユーザによる操作入力を受け付ける操作部19とを備える。
また、制御部15は、CPUなどの制御プロセッサにより実現され、第1通信端末10の各部を制御する。記憶部16は、第1通信端末10の各機能を実現するプログラム及びデータ等を記憶する各種メモリないしHDD(Hard Disk Drive)などの記憶手段である。
映像音声処理部17は、撮像部12で撮像された映像信号、及びマイクロフォン14で取得した音声信号を圧縮符号化処理して出力する。また、通信相手となる第2通信端末20から送信された映像信号及び音声信号を復号処理して、表示部11及びスピーカ13から出力可能とする。
通信処理部18は、映像信号及び音声信号を送受信するための通信制御処理を行う。第1通信端末10は、撮像部12で撮像した映像信号とマイクロフォン14で取得した音声信号とを第2通信端末20に送信するとともに、これら映像信号及び音声信号を映像音声合成装置30に送信する。
第2通信端末20は、第1通信端末10と同様の機能を有する。すなわち第2通信端末20は、表示部21と、ユーザを撮像する撮像部22と、第1通信端末10で取得された音声を出力するスピーカ23と、ユーザの音声を取得するマイクロフォン24と、ユーザによる操作入力を受け付ける操作部29とを備える。
また、制御部25は、CPUなどの制御プロセッサにより実現され、第2通信端末20の各部を制御する。記憶部26は、第2通信端末20の各機能を実現するプログラム及びデータ等を記憶する各種メモリないしHDDなどの記憶手段である。
映像音声処理部27は、撮像部22で撮像された映像信号、及びマイクロフォン24で取得した音声信号を圧縮符号化処理して出力する。また、第1通信端末10から送信された映像信号及び音声信号を復号処理して、表示部21及びスピーカ23から出力可能とする。通信処理部28は、映像信号及び音声信号を送受信するための通信制御処理を行う。
第2通信端末20は、第1のモードでは、第1通信端末10で収録され送信された映像信号及び音声信号を再生して出力するとともに、第2通信端末20で収録された映像信号及び音声信号を第1通信端末10と映像音声合成装置30に送信する。また、第2のモードでは、第1通信端末10で収録され送信された映像信号及び音声信号を再生して出力するとともに、第2通信端末20で収録された映像信号及び音声信号を第1通信端末10及び映像音声合成装置30に送信する。
映像音声合成装置30は、第1通信端末10から送信された映像信号及び音声信号と、第2通信端末20から送信された映像信号及び音声信号とをそれぞれ合成して、合成した映像信号及び音声信号を生成する。そして生成した映像信号及び音声信号を通信回線を介して接続されたユーザ通信端末40に配信することができる。ここで映像音声合成装置30は、上述した第1のモードと第2のモードとのいずれかにより、映像信号及び音声信号を合成する。各モードの相互の切り換えは、映像音声合成装置30が備える図示しない操作入力手段に対するユーザの操作入力によって実行することができる。あるいは、第1通信端末10または第2通信端末20からの切り換え指示、もしくはネットワーク内の他の情報処理装置からの指示により、モード切り換えを実行させるようにすることもできる。
図3は、図2に示す第1通信端末及び第2通信端末の映像音声処理部の具体的構成例を説明するための図で、第1通信端末10で収録した映像信号及び音声信号を第2通信端末20に送信し、第2通信端末20で再生出力する機能を実現する要部を示すものである。
第1通信端末10の映像音声処理部17は、映像信号を入力して符号化(エンコード)するビデオエンコーダ171と、音声信号を入力して符号化(エンコード)するオーディオエンコーダ172を備える。映像信号は、図2に示す撮像部12にて取得され、音声信号は、同じく図2のマイクロフォン14で取得される。
ビデオエンコーダ171とオーディオエンコーダ172では、それぞれ映像信号と音声信号を数百分の一のデータ量に圧縮符号化し、パケット化する。マルチメディ多重化部173では、圧縮符号化された映像信号及び音声信号を1本のストリームに多重化して出力する。通信処理部18は、マルチメディア多重化部173から出力された映像信号及び音声信号を送信する。通信処理部18には適宜バッファが設けられ、帯域変動を吸収して途切れのない映像再生を可能とする。圧縮符号化の方式としては、例えば、国際標準方式であるG.723、G.728、MPEG Audio等を適用することができる。映像信号と音声信号のビットストリームは、それぞれインターネット送出に適した形でパケット化され、同期多重されて送信される。
映像信号及び音声信号は、各メディアのパケットに付された時刻情報であるタイムスタンプを用いて再生同期がとられる。ビデオエンコーダ171とオーディオエンコーダ172では、メディアの同期をとるためのタイムスタンプを付与してパケットに含ませる。
例えば本映像音声配信システムには、RTP(Real-time Transport Protocol)を用いてデータ配信を行うシステムを適用することができる。一般にRTPは、音声や動画映像などのデータストリームをリアルタイムに配送するためのデータ転送プロトコルである。RTPパケットを受信したホストでは、各パケットの時間の情報から時間的な関係を把握し、データを再生することができる。RTPパケットは、通信端末の映像や音声についてそれぞれ決まったパケット送出間隔で送信する。RTPヘッダにはタイムスタンプを記述することができる。
ここでは第1通信端末10、第2通信端末20は、NTP(Network Time Protocol)に従って時刻を経時する図示しないNTPタイマを備え、NTPタイマの経時時刻によるNTPタイムスタンプを使用することができる。NTPは通信時間による時刻値の誤差を小さくするために工夫された時刻同期のためのプロトコルであり、協定世界時(UTC)を使用して時刻を送受信するものである。
タイムスタンプは、例えば32ビットRTPペイロードの最初のデータがサンプリングされた瞬間のタイムスタンプを記述する。タイムスタンプはクロックのカウント値で示され、例えば精度は1/90Hzとされる。受信側では再生時のタイミングをこれによって決定する。また、実際の時刻とは関係なく,固定周波数でサンプリングしている場合はサンプル数を設定することができる。例えばサンプリング周波が8kHzの音声を使用する場合には、マイクロフォンで取得したアナログ音声信号は125μsに1度サンプリングされる。例えば16msに1度RTPパケットを送信する場合は、16[ms]/125[μs]=128となり,1パケットごとに128ずつ値を増加させることになる。また、初期値は乱数にすることが推奨される。ここでは送受の双方でタイミングが一致するよう、クロックリファレンスを伝送してPLL(Phase Locked Loop)を制御する。
第2通信端末の通信処理部28は、通信回線50を介して第1通信端末10からの映像信号及び音声信号を受信する。通信処理部28には受信バッファが設けられ、バッファで一端保持した映像及び音声のビットストリームを映像音声処理部27のマルチメディア分離部271に出力する。マルチメディア分離部271では、多重化された映像信号及び音声信号を分離し、映像信号をビデオデコーダ272に出力し、音声信号をオーディオデコーダ273に出力する。ビデオデコーダ272では、圧縮符号化された映像信号を復号(デコード)する。また、オーディオデコーダ273は、圧縮符号化された音声信号を復号する。復号された映像信号と音声信号はそれぞれ遅延メモリ274,275に保持される。
映像信号及び音声信号は、各メディアのパケットに付された時刻情報であるタイムスタンプを用いて再生同期がとられる。通信処理部28は、多重化データからビデオタイムスタンプとオーディオタイムスタンプとを取り出し、タイムスタンプ比較部276に出力する。タイムスタンプ比較部276は、各メディアのタイムスタンプを比較し、同一時刻に再生が行われるように各遅延メモリ274,275を制御する。そして遅延メモリ274,275からは、映像と音声の同期がとられた状態で映像と音声が出力され、それぞれ表示部とスピーカから出力される。
図3の構成は、第1通信端末10から第2通信端末20に映像信号及び音声信号を送信して第2通信端末で再生出力するための構成例を示しているが、第2通信端末20で収録した映像信号及び音声信号を第1通信端末10に送信し、第1通信端末10で再生出力するために、第1通信端末10と第2通信端末20で相互に同様の構成を備えるようにする。
図4は、第1通信端末及び第2通信端末から送信された映像信号及び音声信号を受信して合成する映像音声合成装置の要部構成例を説明する図である。
第1受信部301は、第1通信端末10から送信された映像信号及び音声信号を多重化した多重化信号を受信する。受信した多重化信号は、マルチメディア分離部302で分離され、分離された映像信号が第1ビデオデコーダ303で復号されて、第1ビデオ遅延メモリ305に保持される。また、マルチメディア分離部302で分離された音声信号は、第1オーディオデコーダ304で復号され、第1オーディオ遅延メモリ306に保持される。
第2受信部307は、第2通信端末20から送信された映像信号及び音声信号の多重化信号を受信する。受信した多重化信号は、マルチメディア分離部308で分離され、分離された映像信号は、第2ビデオデコーダ309で復号されて、第2ビデオ遅延メモリ312に保持される。また、マルチメディア分離部308で分離された音声信号は、第2オーディオデコーダ310で復号され、第2オーディオ遅延メモリ313に保持される。
また、第1受信部301では、第1通信端末10から送信された多重化信号から、第1ビデオタイムスタンプと第1オーディオタイムスタンプを取り出し、第1/第2タイムスタンプ比較部320に出力する。
また、第2受信部307では、第1通信端末10から送信された多重化データから、第2ビデオタイムスタンプと第2オーディオタイムスタンプを取り出し、第1/第2タイムスタンプ比較部320に出力する。
第1/第2タイムスタンプ比較部320は、第1受信部301及び第2受信部307で取り出された各タイムスタンプを比較して、映像信号及び音声信号がタイムスタンプにより同期されるように第1ビデオ遅延メモリ305、第1オーディオ遅延メモリ306、第2ビデオ遅延メモリ312、及び第2オーディオ遅延メモリ313の遅延量を制御する。
第1/第2タイムスタンプ比較部320でそれぞれ遅延量が制御され、第1ビデオ遅延メモリ305から出力された映像信号と、第2ビデオ遅延メモリ312から出力された映像信号とが映像合成部314で合成される。また第1オーディオ遅延メモリ306から出力された音声信号と、第2オーディオ遅延メモリ313から出力された音声信号とが音声合成部315で合成される。
映像合成部314で合成された映像信号は、ビデオエンコーダ316で符号化され、マルチメディア多重化部318に出力される。また音声合成部315から出力された音声信号は、オーディオエンコーダ317で符号化されてマルチメディア多重化部318に出力される。マルチメディア多重化部318は、入力した映像信号と音声信号を多重化し、合成動画送信部319からネットワーク上のユーザ通信端末に送信する。
以下に、上記のようなシステム構成を備えた映像音声配信システムにおける映像信号と音声信号の合成、配信処理に係る実施形態を説明する。
(第1の実施形態)
図5は、本発明による音声映像システムで第1のモードにより映像信号及び音声信号を合成して配信するときの処理例を説明するためのタイミングチャートである。
第1のモードは、上記のように第1通信端末10から送信された映像信号及び音声信号と、第1通信端末10から送信された映像信号及び音声信号が第2通信端末20で再生され、再生と同時に収録された映像信号及び音声信号と、を同期させて、第1通信端末10から送信された映像信号と第2通信端末20から送信された映像信号とを合成するともに、第1通信端末10から送信された音声信号と第2通信端末20から送信された音声信号とを合成するモードである。
まず第1通信端末10では、第1音声信号と第1映像信号とを収録する(S1,S2)。第1通信端末10は、収録した第1音声信号と第1映像信号を符号化して多重化し、第2通信端末20と映像音声合成装置30に送信する。このとき、第1映像信号と第1音声信号にタイムスタンプを付与して含める。タイムスタンプのタイミングは、第1映像信号及び第1音声信号の収録時のタイミングに相当する。
第2通信端末20では、第1通信端末10から送信された音声信号及び映像信号の多重化信号を受信して復号し、スピーカ及び表示部により再生出力する(S3,S4)。このときの第1映像信号及び第1音声信号が第1通信端末10で収録されてから第2通信端末20で再生されるまでに遅延時間d1が発生する。遅延時間d1には、第1通信端末10におけるサンプリング、符号化、多重化、送信までの処理時間と、第1通信端末10から第2通信端末20までのネットワーク遅延時間と、第2通信端末20における受信、多重化分離、復号、再生までの処理時間が含まれる。
第1通信端末10と第2通信端末20との通信には、通信データ量が異なる二つのモードを採用することができる。例えば映像及び音声の音質及び画質を重視した音質・画質優先モードと、音質・画質優先モードのデータから間引きや削除等を行い、もしくは符号化方式を変更することで、相対的にデータ量を少なくした速度優先モードとを設定できる。
第1のモードでは、第1通信端末10から第2通信端末20への映像信号と音声信号の送信を音質・画質優先モードで実行するものとする。
第2通信端末20では、第1通信端末10から送信された第1映像信号及び第1音声信号の再生出力に合わせて、その再生出力にコラボレーションしながら別のユーザにより第2音声信号と第2映像信号が収録される(S5,S6)。第2通信端末20では、第1通信端末10で収録された音声と映像を再生させながら、さらに別のユーザによる音声及び映像を収録することができるので、例えば遠隔の二つの通信端末における演奏のリズムやテンポなどを合わせながら音声及び演奏を収録することができる。
第2通信端末20で第2映像信号及び第2音声信号を収録すると、これら第2映像信号及び第2音声信号にタイムスタンプが付与されて、映像音声合成装置30に送信される。タイムスタンプは、第2通信端末20で第2映像信号及び第2音声信号の収録時のタイミングに相当する時刻が記述されるが、本発明に係る実施形態では、さらにこのタイムスタンプを補正して、第1通信端末10の第1音声信号及び第1映像信号と同期させるようにする。
この実施形態では、第1通信端末10で音声信号及び映像信信号を収録した時点から、その映像信号及び音声信号が第2通信端末20で再生されるまでの遅延時間d1を予め測定しておく。そして第2通信端末20は、第2通信端末20で第2映像信号及び第2音声信号が収録される時に付与されるタイムスタンプを、遅延時間d1だけ早くなるように補正する。遅延時間d1は、複数回の測定値の平均値を採用し、予め第2通信端末20に登録しておくことができる。そして補正したタイムスタンプを第2音声信号及び第2映像信号に付与して第2通信端末20から映像音声合成装置30に送信する。
映像音声合成装置30では、第1通信端末10から送信された第1映像信号及び第1音声信号を受信し、復号して再生する(S7,S8)。また、映像音声合成装置30では、第2通信端末20から送信された第2映像信号及び第2音声信号を受信し、復号して再生する(S9,S10)。このとき、映像音声合成装置30では、それぞれの映像信号と音声信号のタイムスタンプを比較し、タイムスタンプが一致するように遅延量を制御して合成する。合成する映像信号及び音声信号の再生開始時刻は、第2通信端末20から映像音声合成装置30へ送信され再生されるまでの遅延時間以上経過した任意の時刻を設定できる。この場合、第1通信端末10が第1映像信号及び第1音声信号を収録してから映像音声合成装置30で各映像信号と音声信号が再生されるまでの時間はd2となる。
ここで第2通信端末20から送信されたタイムスタンプは、第1通信端末10における収録から第2通信端末20で再生されるまでの遅延時間d1だけ早くなるように補正されているので、第2通信端末20における第2映像信号及び第2音声信号の収録タイミングは、第1通信端末10における第1映像信号及び第1音声信号の収録タイミングにほぼ一致し、両者でコラボレーションにより収録された映像信号及び音声信号が違和感なく視聴できるように合成が行われる。
映像音声合成装置30で合成された映像信号及び音声信号は、再度エンコードされる(S11,S12)。このとき、映像音声合成装置30では、エンコードする処理の時間d3だけ時間的に遅延する。
エンコードされた映像信号及び音声信号は、各ユーザ通信端末40a〜40nに配信されて再生される(S13,S14)。遅延時間d4には、映像音声合成装置30による映像信号及び音声信号の送信からネットワーク遅延時間、ユーザ通信端末における受信、デコード、再生までの時間が含まれる。
(第2の実施形態)
上記第1の実施形態では、第2通信端末20でタイムスタンプを補正するときに、第1通信端末10で第1映像信号及び第1音声信号を収録した時点から、その映像信号及び音声信号が第2通信端末20で再生されるまでの遅延時間d1を予め測定し、第2通信端末20で第2映像信号及び第2音声信号の収録時に付与されるタイムスタンプを、遅延時間d1だけ早くなるように補正した。
これに対してタイムスタンプを補正する第2実施形態では、第2通信端末20は、第1通信端末10で第1映像信号及び第1音声信号を収録したときの時刻を記録したタイムスタンプと、その第1映像信号及び第1音声信号を符号化した符号化信号が第2通信端末20で再生されたときの時刻を示すタイムスタンプとに基づき、これらの時間差を計算して遅延時間d1とする。そして映像音声合成装置30では、第2通信端末20で第2映像信号及び第2音声信号の収録時に付与されるタイムスタンプを、遅延時間d1だけ早くなるように補正する。
これにより、映像音声合成装置30で各映像信号と音声信号とをそれぞれタイムスタンプを一致させて合成したときに、第2通信端末20における第2映像信号及び第2音声信号の収録タイミングが、第1通信端末10における第1映像信号及び第1音声信号の収録タイミングにほぼ一致し、両者でコラボレーションにより収録された映像信号及び音声信号が違和感なく視聴できるように合成が行われる。
(第3の実施形態)
図6は、本発明による音声映像システムで第2のモードにより映像信号及び音声信号を合成して配信するときの処理例を説明するためのタイミングチャートである。
第2のモードは、上記のように第1通信端末10から送信された第1映像信号及び第2音声信号と、第2通信端末20から送信された第2映像信号及び第2音声信号を同期させることなくそれぞれ合成するモードである。第2のモードは、第1のモードのようなコラボレーション演奏等を意識することなく、遠隔の場所で収録された映像信号及び音声信号をできるだけ遅延なくそのまま合成して出力させるモードで、例えば遠隔のユーザ同士が対話を行うときのトーク/合成モードとして使用できるものである。
まず第1通信端末10では、第1映像信号及び第1音声信号を収録する(S21,S22)。第1通信端末10は、収録した第1映像信号と第1音声信号を符号化して多重化し、第2通信端末20と映像音声合成装置30に送信する。このとき、第1映像信号と第1音声信号にタイムスタンプを付与する。タイムスタンプのタイミングは、映像信号及び音声信号の収録時のタイミングに相当する。
一方、第2通信端末20では、第2映像信号及び第2音声信号を収録する(S25,S26)。第2通信端末20は、収録した第2映像信号と第2音声信号を符号化して多重化し、第1通信端末10と映像音声合成装置30に送信する。このとき、第2映像信号と第2音声信号にタイムスタンプを付与して含める。タイムスタンプのタイミングは、映像信号及び音声信号の収録時のタイミングに相当する。
つまり、第1通信端末10における収録と、第2通信端末20における収録が並行して行われ、収録された各映像信号及び音声信号が相手先の通信端末に送信される。
第1通信端末10では、第2通信端末20から送信された第2映像信号及び第2音声信号の多重化信号を受信して復号し、スピーカ及び表示部により再生出力する(S23,S24)。このときの第2映像信号及び第2音声信号が第2通信端末20で収録されてから第1通信端末10で再生されるまでにそれぞれ遅延時間d11,d12が発生する。遅延時間d11,d12には、第2通信端末20におけるサンプリング、符号化、多重化、送信までの処理時間と、第2通信端末20から第1通信端末10までのネットワーク遅延時間と、第1通信端末10における受信、多重化分離、復号、再生までの処理時間が含まれる。
この場合、映像信号と音声信号との間で符号化・復号化処理等の時間が異なるため、第1通信端末10では、両者の同期をとらずに再生準備ができた段階で再生出力を開始する。
また、第1通信端末10では、第2映像信号と第2音声信号とのタイムスタンプに基づき、これら第2映像信号と第2音声信号とを同期させて再生出力させるようにしてもよい。この場合、再生が遅くなる方のメディアに同期させてもう一方のメディの再生を行うことができる。
同様に、第2通信端末20では、第1通信端末10から送信された第1映像信号及び第1音声信号の多重化信号を受信して復号し、スピーカ及び表示部により再生出力する(S27,S28)。このときの第1映像信号及び第1音声信号が第1通信端末10で収録されてから第2通信端末20で再生されるまでにそれぞれ遅延時間d13、d14が発生する。遅延時間d13、d14には、第1通信端末10におけるサンプリング、符号化、多重化、送信までの処理時間と、第1通信端末10から第2通信端末20までのネットワーク遅延時間と、第2通信端末20における受信、多重化分離、復号、再生までの処理時間が含まれる。
この場合、音声信号と映像信号との間で符号化・復号化処理等の時間が異なるため、第2通信端末20では、両者の同期をとらずに再生準備ができた段階で再生出力を開始する。
また、第2通信端末20では、第1映像信号と第1音声信号とのタイムスタンプに基づき、これら第1映像信号と第1音声信号とを同期させて再生出力させるようにしてもよい。この場合、再生が遅くなる方のメディアに同期させてもう一方のメディの再生を行うことができる。
また、第1通信端末10と第2通信端末20との通信には、通信データ量が異なる二つのモードを採用することができる。例えば映像及び音声の音質及び画質を重視した音質・画質優先モードと、音質・画質優先モードのデータから間引きや削除等を行い、もしくは符号化方式を変更することで、相対的にデータ量を少なくした速度優先モードとを設定できる。第2のモードでは、第1通信端末10から第2通信端末20への映像信号と音声信号の送信を速度優先モードで実行するものとする。これにより、よりリアルタイムに近い状態で相互の通信を行うことができ、両者の対話等に好適となる。
映像音声合成装置30では、第1通信端末10から送信された第1映像信号及び第1音声信号を受信し、復号して再生する(S29,S30)。また、映像音声合成装置30では、第2通信端末20から送信された第2映像信号及び第2音声信号を受信し、復号して再生する(S31,S32)。そしてこれら映像信号と音声信号とをそれぞれタイムスタンプを一致させて合成する。合成させる各データの再生開始時刻は、第1通信端末10(または第2通信端末20)から映像音声合成装置30へ送信され再生されるまでの遅延時間以上経過した任意の時刻を設定できる。この場合、第1通信端末10が映像信号及び音声信号を収録してから映像音声合成装置30で各映像信号と音声信号が再生されるまでの時間はd15となる。
映像音声合成装置30で合成された映像信号及び音声信号は、再度エンコードされる(S33,S34)。このときエンコードする処理の時間d16だけ時間的に遅延する。
エンコードされた映像音声合成信号は、各ユーザ通信端末40に配信されて再生される(S35,S36)。遅延時間d17には、映像音声合成装置30による映像信号及び音声信号の送信からネットワーク遅延時間、ユーザ通信端末における受信、デコード、再生までの時間が含まれる。
(第4の実施形態)
上記第3の実施形態では、映像音声合成装置30では、第1通信端末10から送信された第1映像信号及び第1音声信号と、第2通信端末20から送信された第2映像信号及び第2音声信号とをタイムスタンプを使用して同期させて合成した。
これに対して第4の実施形態では、映像音声合成装置30では、第1通信端末10から送信された映像信号及び音声信号と、第2通信端末20から送信された映像信号及び音声信号とをタイムスタンプにより同期させることなく、再生可能となった時点で随時再生し、再生された映像信号及び音声信号を合成してユーザ通信端末40に送信する。この場合、第1通信端末10から送信された第1映像信号及び第1音声信号をタイムスタンプにより同期させ、かつ第2通信端末20から送信された第2映像信号及び第2音声信号をタイムスタンプにより同期させて再生し、第1通信端末10と第2通信端末20との間では同期を考慮することなく適宜再生するものであってもよい。
第1通信端末10及び第2通信端末20では、相手方の通信端末で収録された映像信号及び音声信号を、第1のモードのような同期を意識することなく再生させながらさらに映像及び音声を収録させることができるので、遠隔地でユーザが互いに対話するモードとして好適である。
(第5の実施形態)
本実施形態では、第1通信端末10で第1映像信号及び第1音声信号が収録されてから、映像音声合成装置30で合成が行われるまでの時間を、第1のモードと第2のモードとで同じにする。これにより、第1のモードと第2のモードとが相互に切り替えられたときにも、ユーザの違和感をできるだけ無くすようにすることができる。
例えば図5に示す第1のモードでは、第1通信端末10で第1映像信号及び第1音声信号が収録されてから、映像音声合成装置30で再生されて合成されるまでの遅延時間としてd2が設定される。一方、図6に示す第2のモードでは、第1通信端末10で第1映像信号及び第1音声信号が収録されてから、映像音声合成装置30で再生されて合成されるまでの遅延時間としてd15が設定される。本実施形態では、映像音声合成装置30は、第1のモードの遅延時間d2と、第2のモードの遅延時間d15とを同じになるように設定する。
これにより、例えば音楽等のリズムの基準となる第1通信端末10で収録された映像信号及び音声信号の合成タイミングが第1のモードと第2のモードとで変化しないため、モード切り替え時の違和感をできるだけ抑えることができる。
(第6の実施形態)
本実施形態では、第1通信端末10で第1映像信号及び第1音声信号が収録されてから、映像音声合成装置30で合成が行われるまでの時間を、第1のモードと第2のモードの切り換え時に徐々に切り替えるようにする。これにより、第1のモードと第2のモードとが相互に切り替えられたときにも、ユーザの違和感をできるだけ無くすようにすることができる。
例えば図5に示す第1のモードでは、第1通信端末10で第1映像信号及び第1音声信号が収録されてから、映像音声合成装置30で再生されて合成されるまでの遅延時間としてd2が設定される。一方、図6に示す第2のモードでは、第1通信端末10で第1映像信号及び第1音声信号が収録されてから、映像音声合成装置30で再生されて合成されるまでの遅延時間としてd15が設定される。第1のモードの時間d2と、第2のモードの時間d15とは異なる時間を設定できる。例えば第1のモードでは、第1通信端末10で収録された第1映像信号及び第1音声信号が第2通信端末20で再生されてから第2通信端末20で収録が行われる。また、第2のモードでは、第1通信端末10と第2通信端末20とから並行して映像信号と音声信号とが映像音声合成装置30に送信される。このため、第1のモードの遅延時間d15は、第2のモードの遅延時間d2よりも長く設定される場合がある。
このとき、本実施形態では、映像音声合成装置30は、第1のモードと第2のモードとが相互に切り換えられたとき、第1のモードの時間d2と、第2のモードの時間d15とが徐々に切り換えられるように設定する。切り換えるときの変化の程度(例えば完全にもモードが切り換えられるまでの時間または変化率)は適宜定めることができる。
これにより、第1のモードと第2のモードとを切り換えたときに、モード切り替え時の映像と音声の間伸びや飛びによる違和感をできるだけ抑えることができる。
次に映像音声配信システムで映像信号及び音声信号を合成するときの外観の様子を説明する。
図7は、本発明による映像音声配信システムに使用する通信端末の外観構成例を示す図である。図7は第1通信端末10を例とするが、第2通信端末20も同様の構成とすることができる。第1通信端末10は、表示部11が備えられ、第2通信端末20で撮像されたユーザの映像が表示される。また、スピーカ13からは、第2通信端末20で撮像されたユーザの音声が出力される。撮像部12は、表示部11の正面方向に画角を有するカメラからなり、第1通信端末10を使用するユーザを撮像する。また、マイクロフォン14は、第1通信端末10を使用するユーザの音声を取得する。撮像部12とマイクロフォン14によりそれぞれ取得された映像信号及び音声信号は、映像音声合成装置30及び第2通信端末20に送信される。
図8は、映像音声配信システムで映像と音声の合成処理を行うときの様子の一例を示す図であり、図8(A)は第1通信端末10の表示画像の例を示す図、図8(B)は第2通信端末20の表示画像の例を示す図である。
映像音声配信システムでは、コレボレーション演奏等が可能な第1のモードと、遠隔地のユーザが対話するときの第2のモードとが切り換え可能に設定される。
第1のモードは、遠隔の場所で両者の演奏等を同期させて合成するためのモードであり、例えば第1通信端末10で取得された映像が、図8(B)に示すように第2通信端末20の表示部21に表示される。このときに第1通信端末10で取得された音声信号も第2通信端末20のスピーカ23から音声出力される。
第2通信端末20では、表示部21に表示されている映像及びスピーカ23から出力される音声に合わせて、演奏や踊りなどを演じることができる。この様子の映像は第2通信端末20の撮像部22で撮像され、その音声はマイクロフォン24により取得される。
これにより、第2通信端末20では、第1通信端末10で演じられた音楽等に合わせたリズムやテンポ等でコラボレーション演奏等を行うことができる。
また、第2通信端末20で撮影された映像信号は、第1通信端末10で表示させることができるが、この場合、デコード及びエンコードによる遅延やネットワーク通信の遅延等が含まれるため、第1のモードでは参考とされる程度となる。この場合、第2通信端末10で取得された音声は第1通信端末10では出力しないようにすることができる。
また、同様に第2のモードでは、第1通信端末10で取得された映像信号と音声信号は、第2通信端末20の表示部21とスピーカ23からそれぞれ出力される。また、同時に第2通信端末20で取得された映像信号及び音声信号は、第1通信端末10の表示部11とスピーカ13からそれぞれ出力される。この場合には、第1通信端末10では、第2通信端末20から送信された映像信号と音声信とを同期させて、もしくは復号して再生可能となった時点で再生出力する。同様に第2通信端末20では、第1通信端末10から送信された映像信号と音声信号とを同期させて、もしくは復号して再生可能となった時点で再生出力する。
これにより、第1通信端末10と第2通信端末20のユーザは、できるだけリアルタイムに近い状態で相互に映像と音声をやりとりしながら対話等を行うことができる。
図9は、映像音声配信システムから出力された映像信号及び音声信号をユーザ通信端末で再生している様子の一例を示す図である。例えば図8の例で第1通信端末10と第2通信端末20で取得された映像信号及び音声信号は、それぞれ映像音声合成装置30に送信され合成されてユーザ通信端末40に配信される。図9はこのときにユーザ通信端末40で再生される合成映像の例を示している。第1通信端末10で撮影された映像と、第2通信端末20で撮影された映像とが一画面内に合成されてユーザ通信端末40の表示部41に表示される。映像信号の合成は図9に示すようにマルチ画面による合成表示により行うことができる。また、音声信号については、第1通信端末10と第2通信端末20とでそれぞれ出取得された音声信号が同時にスピーカ42から音声出力される。
ここでは第1のモードと第2のモードのいずれにおいても同様の表示及び音声出力を行うことができるが、第1のモードの場合には、第1通信端末10における収録時の映像信号及び音声信号のタイムスタンプと、第1通信端末10で収録された映像信号及び音声信号の再生出力に合わせて第2通信端末20で収録された映像信号及び音声信号のタイムスタンプとが合わせて合成されているので、遠隔に離れた第1通信端末10と第2通信端末20の演奏等がほぼ違和感なく同期した状態で視聴することができる。
一方、第2のモードの場合には、第1通信端末10と第2通信端末20でできるだけリアルタイムに近い状態で収録された映像信号及び音声信号をユーザ通信端末で視聴することができる。
図10は、本発明の映像音声配信システムにおける処理の一例を説明するためのフローチャートである。以下図1の構成例を参照しながら説明する。
映像配信システムでは、まず第1通信端末10、第2通信端末20、及び映像音声合成装置30の通信接続を行う(ステップS1)。そして映像音声配信システムのトーク時合成スイッチがONであるか判断する(ステップS2)。トーク時合成スイッチとは、遠隔のユーザ同士の対話の合成に好適な第2のモードを選択するためのスイッチであり、例えば映像音声合成装置30、もしくは第1通信端末10または第2通信端末20のいずれかまたは複数の機器に設けられ、当該スイッチがONであるかの判断はそのスイッチが操作された機器が行うことができる。なおこのスイッチは、ボタンなどのハードキーだけでなくソフトウェア上のボタンを含む。
トーク時合成スイッチがONでなければ、映像音声配信システムでは、第1通信端末10、第2通信端末20、及び映像音声合成装置30の通信接続を終了して(ステップS22)、処理を終了する。
また、トーク時合成スイッチがONであれば、さらにコラボ演奏時合成スイッチがONであるかを判断する(ステップS3)。コラボ演奏時合成スイッチとは、遠隔のユーザ同士コラボレーションしながら演奏等を行う場合に好適な第1のモードを選択するためのスイッチであり、例えば映像音声合成装置30、もしくは第1通信端末10または第2通信端末20のいずれかまたは複数の機器に設けられ、当該スイッチがONであるかの判断はそのスイッチが操作された機器が行うことができる。なお第1のモード、及び第2のモードを選択するための手段は、上記のようなスイッチに限ることなく適宜設計できる。
ここでコラボ演奏時合成スイッチがONであれば、第1のモードで動作を行う。ここではまず、第1通信端末10の撮像部12とマイクロフォン14とにより、第1通信端末10のユーザの映像信号及び音声信号を収録する(ステップS4)。そして、第1通信端末10で収録した映像信号及び音声信号を符号化して第2通信端末20と映像音声合成装置30に送信する(ステップS5)。第2通信端末20では、受信した映像信号及び音声信号を復号し、映像信号と音声信号とを同期させて表示部21とスピーカ23で再生出力させる(ステップS6)。
そして第2通信端末10では、撮像部22とマイクロフォン24とにより、第2通信端末20のユーザの映像信号及び音声信号を収録する(ステップS7)。第2通信端末20は、第2通信端末20で音声及び映像信号の収録時に付与されるタイムスタンプを遅延時間d1だけ早くなるように補正して、第2通信端末20で収録した映像信号及び音声信号を映像音声合成装置30及び第1通信端末10に送信する(ステップS8)。
映像音声合成装置30は、第1通信端末10から送信された映像信号及び音声信号と、第2通信端末20から送信された映像信号及び音声信号とをタイムスタンプによりタイミングを同期させて再生し、再生した映像信号及び音声信号を合成して符号化する(ステップS9)。合成は、映像信号と音声信号とのそれぞれについて実行される。そして映像音声合成装置30は、符号化した映像信号及び音声信号をユーザ通信端末40に送信する(ステップS10)。ユーザ通信端末40は、受信した映像信号及び音声信号を復号して表示部とスピーカにより出力する(ステップS11)。ユーザ通信端末40における再生出力処理が終了するとステップS2戻る。
ステップS3でコラボ演奏時合成スイッチがONでなければ、第2のモードで動作を行う。この例では、第2のモードはトーク合成スイッチがONで、かつコラボ演奏合成スイッチがONのときに設定されるものとする。
ここではまず、第1通信端末10の撮像部12とマイクロフォン14とにより、第1通信端末10のユーザの映像信号及び音声信号を収録する(ステップS12)。また、第2通信端末20では、撮像部22とマイクロフォン24とにより、第2通信端末20のユーザの映像信号及び音声信号を収録する(ステップS13)。ステップS12とステップS13とは並行して実行することができる。
そして、第1通信端末10で収録した映像信号及び音声信号を符号化して第2通信端末20と映像音声合成装置30に送信する(ステップS14)。また、第2通信端末20で収録した映像信号及び音声信号を符号化して第1通信端末10と映像音声合成装置30に送信する(ステップS15)。これらステップS14とステップS15についても並行して実行することができる。
第1通信端末10では、受信した映像信号及び音声信号を復号し、映像信号と音声信号とを同期させて表示部11とスピーカ13で再生出力させる(ステップS16)。また、第2通信端末20では、受信した映像信号及び音声信号を復号し、映像信号と音声信号とを同期させて表示部21とスピーカ23で再生出力させる(ステップS17)。ステップS16とステップS17の処理も並行して実行することができる。
映像音声合成装置30は、第1通信端末10から送信された映像信号及び音声信号と、第2通信端末20から送信された映像信号及び音声信号とを再生し、再生した映像信号及び音声信号を合成して符号化する(ステップS18)。合成は、映像信号と音声信号とのそれぞれについて実行される。また、このときの合成は、同期を目的とする特別の遅延量を与えることなく、再生可能な状態となった映像信号及び音声信号をそれぞれ合成する。あるいは第1通信端末10と第2通信端末20のそれぞれの映像と音声信号とは同期させ、第1通信端末から送信された映像信号及び音声信号と、第2通信端末20から送信された映像信号及び音声信号との間では同期を意識することなく、順次再生可能となった時点で合成を行う。
そして映像音声合成装置30は、符号化した映像信号及び音声信号をユーザ通信端末40に送信する(ステップS19)。ユーザ通信端末40は、受信した映像信号及び音声信号を復号して表示部とスピーカにより出力する(ステップS20)。ユーザ通信端末40における再生出力処理が終了するとステップS2戻る。
上記本発明に係る映像音声配信システムの各要素、すなわち、第1通信端末10、第2通信端末20、及び映像音声合成装置30は、プログラムによってそれらの機能を実現することができる。すなわち第1通信端末10、第2通信端末20、及び映像音声合成装置30は、それぞれの装置の機能を実現する制御プログラムの命令を実行するCPUなどの制御部と、そのプログラムを格納したROMおよびプログラムを展開するRAMを備えた記憶部とを備えている。そして、本発明の目的は、上述した機能を実現するプログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を監視システムの各要素に供給し、そのコンピュータが記録媒体に記録されているプログラムコードを制御部が読み出して実行することによって達成可能である。また、上記監視システムの各要素を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。
10…第1通信端末、11…表示部、12…撮像部、13…スピーカ、14…マイクロフォン、15…制御部、16…記憶部、17…映像音声処理部、18…通信処理部、19…操作部、20…第2通信端末、21…表示部、22…撮像部、23…スピーカ、24…マイクロフォン、25…制御部、26…記憶部、27…映像音声処理部、28…通信処理部、29…操作部、30…映像音声合成装置、40,40a〜40n…ユーザ通信端末、41…表示部、42…スピーカ、50…通信回線、171…ビデオエンコーダ、172…オーディオエンコーダ、173…マルチメディ多重化部、271…マルチメディア分離部、272…ビデオデコーダ、273…オーディオデコーダ、274,275…遅延メモリ、276…タイムスタンプ比較部、301…第1受信部、302…マルチメディア分離部、303…第1ビデオデコーダ、304…第1オーディオデコーダ、305…第1ビデオ遅延メモリ、306…第1オーディオ遅延メモリ、307…第2受信部、308…マルチメディア分離部、309…第2ビデオデコーダ、310…第2オーディオデコーダ、312…第2ビデオ遅延メモリ、313…第2オーディオ遅延メモリ、314…映像合成部、315…音声合成部、316…ビデオエンコーダ、317…オーディオエンコーダ、318…マルチメディア多重化部、319…合成動画送信部、320…第1/第2タイムスタンプ比較部。

Claims (10)

  1. 第1通信端末、第2通信端末、及び映像音声合成装置が通信可能に備えられた映像音声配信システムであって、
    前記第1通信端末は、該第1通信端末が収録した映像信号及び音声信号を前記第2通信端末と前記映像音声合成装置に送信し、前記第2通信端末は、前記第1通信端末から送信された映像信号及び音声信号を再生し、該再生とともに収録した映像信号及び音声信号を前記映像音声合成装置に送信し、
    前記映像音声合成装置は、
    前記第1通信端末から送信された映像信号及び音声信号と、
    前記第1通信端末から送信された映像信号及び音声信号が第2通信端末で再生され、該再生と同時に収録された映像信号及び音声信号と、を同期させて、
    前記第1通信端末から送信された映像信号と前記第2通信端末から送信された映像信号とを合成するとともに、前記第1通信端末から送信された音声信号と前記第2通信端末から送信された音声信号とを合成する第1のモードを有することを特徴とする映像音声配信システム。
  2. 請求項1に記載の映像音声配信システムにおいて、前記映像音声合成装置は、前記第1通信端末から送信された映像信号及び音声信号と、前記第2通信端末から送信された映像信号及び音声信号を、前記同期させることなくそれぞれ合成する第2のモードをさらに有し、前記第1のモードと前記第2のモードとを切り換えることを特徴とする映像音声配信システム。
  3. 請求項1または2に記載の映像音声配信システムにおいて、
    前記映像音声合成装置は、前記第1のモードでは、
    前記第1通信端末で映像信号及び音声信号に対して付与されるタイムスタンプと、
    前記第1通信端末で映像信号及び音声信号に対して付与されたタイムスタンプを有する映像信号及び音声信号が前記第2通信端末で再生され、該再生と同時に収録された映像信号及び音声信号に対して前記第2通信端末で付与されたタイムスタンプとを一致させるように合成を行うことを特徴とする映像音声配信システム。
  4. 請求項3に記載の映像音声配信システムにおいて、
    予め前記第1通信端末で収録された映像信号及び音声信号が、前記第2通信端末で再生されるまでの時間を測定しておき、
    前記第2通信端末は、前記第1のモードでは、
    第2通信端末で映像信号及び音声信号に付与されるタイムスタンプを、測定した前記時間だけ早くなるように補正することを特徴とする映像音声配信システム。
  5. 請求項3に記載の映像音声配信システムにおいて、
    前記第2通信端末は、前記第1のモードでは、
    前記第1通信端末で映像信号及び音声信号を収録したときのタイムスタンプと、前記第1通信端末でタイムスタンプが付与された映像信号及び音声信号が前記第2通信端末で再生されたときの時刻に相当するタイムスタンプとの時間差を計算し、
    第2通信端末で映像信号及び音声信号に付与されるタイムスタンプを、前記時間差だけ早くなるように補正することを特徴とする映像音声配信システム。
  6. 請求項2に記載の映像音声配信システムにおいて、
    前記第1通信端末で映像信号及び音声信号が収録されてから、前記映像音声合成装置で合成が行われるまでの時間を、前記第1のモードと前記第2のモードとで同じにすることを特徴とする映像音声配信システム。
  7. 請求項2に記載の映像音声配信システムにおいて、
    前記映像音声合成装置は、前記第1のモードと前記第2のモードとが相互に切り換えられたときに、前記第1通信端末で映像信号及び音声信号が収録されてから、前記映像音声合成装置で合成が行われるまでの時間を徐々に変化させることを特徴とする映像音声配信システム。
  8. 第1通信端末、第2通信端末、及び映像音声合成装置が通信可能に備えられた通信システムにより実行される音声映像配信方法であって、
    前記第1通信端末が、該第1通信端末が収録した映像信号及び音声信号を前記第2通信端末と前記映像音声合成装置に送信し、前記第2通信端末は、前記第1通信端末から送信された映像信号及び音声信号を再生し、該再生とともに収録した映像信号及び音声信号を前記映像音声合成装置に送信するステップと、
    前記映像音声合成装置が、
    前記第1通信端末から送信された映像信号及び音声信号と、
    前記第1通信端末から送信された映像信号及び音声信号が第2通信端末で再生され、該再生と同時に収録された映像信号及び音声信号と、を同期させて、
    前記第1通信端末から送信された映像信号と前記第2通信端末から送信された映像信号とを合成するともに、前記第1通信端末から送信された音声信号と前記第2通信端末から送信された音声信号とを合成する第1のモードを有することを特徴とする映像音声配信方法。
  9. 請求項8に記載の映像音声配信方法において、前記映像音声合成装置は、前記第1通信端末から送信された映像信号及び音声信号と、前記第2通信端末から送信された映像信号及び音声信号を、前記同期させることなくそれぞれ合成する第2のモードをさらに有し、前記第1のモードと前記第2のモードとを切り換えるステップを有することを特徴とする音声映像配信方法。
  10. 請求項1〜7のいずれか1に記載の映像音声配信システムの機能をコンピュータに実現させるためのプログラム。
JP2013203145A 2013-09-30 2013-09-30 映像音声配信システム、音声映像配信方法及びプログラム Active JP6197211B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013203145A JP6197211B2 (ja) 2013-09-30 2013-09-30 映像音声配信システム、音声映像配信方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013203145A JP6197211B2 (ja) 2013-09-30 2013-09-30 映像音声配信システム、音声映像配信方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2015070460A JP2015070460A (ja) 2015-04-13
JP6197211B2 true JP6197211B2 (ja) 2017-09-20

Family

ID=52836748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013203145A Active JP6197211B2 (ja) 2013-09-30 2013-09-30 映像音声配信システム、音声映像配信方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6197211B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10158905B2 (en) * 2016-09-14 2018-12-18 Dts, Inc. Systems and methods for wirelessly transmitting audio synchronously with rendering of video
JP2018061181A (ja) * 2016-10-07 2018-04-12 万弘 坂入 情報処理システム
WO2019003357A1 (ja) * 2017-06-28 2019-01-03 株式会社オプティム コンピュータシステム、Web会議音声補助方法及びプログラム
JP7181173B2 (ja) 2019-09-13 2022-11-30 株式会社スクウェア・エニックス プログラム、情報処理装置、情報処理システム及び方法
JP7377352B2 (ja) * 2020-01-16 2023-11-09 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 複数メンバーでのインスタントメッセージング方法、システム、装置及び電子機器、並びにコンピュータプログラム
CN111405228A (zh) * 2020-04-30 2020-07-10 聚好看科技股份有限公司 一种实现视频通话流畅度自动优化的电视、装置及方法
JPWO2022137326A1 (ja) * 2020-12-22 2022-06-30

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4423790B2 (ja) * 2001-01-11 2010-03-03 ソニー株式会社 実演システム、ネットワークを介した実演方法
JP4511270B2 (ja) * 2004-07-21 2010-07-28 シャープ株式会社 送信装置、受信装置、及び通信システム
JP2008244888A (ja) * 2007-03-27 2008-10-09 Yamaha Corp 通信装置、通信方法およびプログラム
JP5109496B2 (ja) * 2007-06-20 2012-12-26 ヤマハ株式会社 データ配信装置、データ配信方法およびプログラム

Also Published As

Publication number Publication date
JP2015070460A (ja) 2015-04-13

Similar Documents

Publication Publication Date Title
JP6197211B2 (ja) 映像音声配信システム、音声映像配信方法及びプログラム
US8918541B2 (en) Synchronization of audio and video signals from remote sources over the internet
EP1690378B1 (en) Apparatus and method for transmitting synchronized the five senses with a/v data
US8301790B2 (en) Synchronization of audio and video signals from remote sources over the internet
JP4001091B2 (ja) 演奏システム及び楽音映像再生装置
EP2141690B1 (en) Generating a stream comprising synchronized content for multimedia interactive services.
KR100658222B1 (ko) 3차원 디지털 멀티미디어 방송 시스템
JP5761446B2 (ja) 符号化装置、復号化装置、符号化方法および復号化方法
CN108600815A (zh) 一种在线实时合唱的方法及系统
JP2011019224A (ja) デジタル放送システムのステレオスコピックビデオ送受信方法およびその装置
WO2011050690A1 (zh) 用于录制和回播多媒体会议的方法和系統
JP2009278381A (ja) 音像定位音響メタ情報を付加した音響信号多重伝送システム、制作装置及び再生装置
KR20100030663A (ko) 디코더 장치 및 디코드 방법
JP5841715B2 (ja) 映像音声出力装置、および映像音声出力システム、およびマスタ装置
JP2008079114A (ja) 同期再生システム
KR20060065436A (ko) 디지털 멀티미디어 방송 수신 장치에서의 오디오 및 비디오동기화 방법 및 장치
JP2002125203A (ja) メディア符号器及びメディア復号器
EP2695389B1 (en) Processing media streams for synchronised output at multiple end points
JP4534201B2 (ja) 情報コミュニケーション端末装置
CN101166264B (zh) 流媒体节目切换时的播放方法和系统
JP2002369163A (ja) マルチストリーム出力時刻制御方法及びその制御装置
WO2013150852A1 (ja) デジタルデータ配信装置及び方法、及びデジタルデータ再生装置及び方法、同期再生システム、プログラム、並びに記録媒体
WO2021111988A1 (ja) 動画再生装置、動画再生システム、および動画再生方法
JP5771098B2 (ja) 通信コンテンツ生成装置および通信コンテンツ生成プログラム
JP2007020095A (ja) 情報合成装置、情報合成システム、情報同期方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170228

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170516

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170801

R150 Certificate of patent or registration of utility model

Ref document number: 6197211

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150