JP2007020095A - 情報合成装置、情報合成システム、情報同期方法およびプログラム - Google Patents

情報合成装置、情報合成システム、情報同期方法およびプログラム Download PDF

Info

Publication number
JP2007020095A
JP2007020095A JP2005201951A JP2005201951A JP2007020095A JP 2007020095 A JP2007020095 A JP 2007020095A JP 2005201951 A JP2005201951 A JP 2005201951A JP 2005201951 A JP2005201951 A JP 2005201951A JP 2007020095 A JP2007020095 A JP 2007020095A
Authority
JP
Japan
Prior art keywords
information
time stamp
reception
terminal
transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2005201951A
Other languages
English (en)
Inventor
Naohisa Shibuya
谷 尚 久 渋
Shingo Tanaka
中 信 吾 田
Eiji Kamagata
形 映 二 鎌
Nobuhiko Sugasawa
沢 延 彦 菅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005201951A priority Critical patent/JP2007020095A/ja
Publication of JP2007020095A publication Critical patent/JP2007020095A/ja
Abandoned legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】 各ユーザの端末から送信されてきた第1および第2の情報をユーザごとに情報間で同期を取った上でそれぞれ合成する。
【解決手段】 本発明の情報合成装置は、第1の端末における第1の情報の再生時刻を示す第1のタイムスタンプと第1の情報とを含む第1の受信情報および第2の端末における第2の情報の再生時刻を示す第2のタイムスタンプと第2の情報とを含む第2の受信情報を受信する受信部と、第1の受信情報内の第1の情報と第2の受信情報内の第2の情報とが入力されて第1の合成情報と第2の合成情報とを生成する合成部と、第1の合成情報及び第1のタイムスタンプを含む第1の送信情報および第2の合成情報及び第2のタイムスタンプを含む第2の送信情報を生成するタイムスタンプ付加部と、第1の送信情報を第1の端末宛に送信し、第2の送信情報を第2の端末宛に送信し、第1及び第2のタイムスタンプを他の情報合成装置宛に送信する送信部と、を備える。
【選択図】 図2

Description

本発明は、情報合成装置、情報合成システム、情報同期方法およびプログラムに関し、例えば、多地点テレビ会議に用いられる、多地点テレビ会議制御装置及び映像音声同期手法に関する。
従来、ネットワークを介した多地点テレビ会議システムでは、各ユーザ(テレビ会議への参加者)が使用する端末間で相互に映像・音声データを送受信し合う形態と、多地点テレビ会議制御装置を介して映像・音声データを送受信する形態との2種類の形態が使用されている。会議へ参加するユーザが少ない(2ないし3の)場合には前者が適しているものの、ユーザ数が増えるにつれ、各ユーザ端末が送受信する映像音声データが対向のユーザ端末数分必要になるため、ネットワーク上を流れるトラフィックが増大するという欠点を持つ。一方、後者の場合、各ユーザ端末からの映像音声データはすべて多地点テレビ会議制御装置を介して送受信されるため、テレビ会議への参加ユーザ数によらず、ある一端末がやり取りする映像音声データは多地点テレビ会議制御装置との間の往復1ストリームのみとなり、端末で処理すべきデータ量を抑えることが可能となる。また、ネットワーク上を送受信するトラフィックも前者に比べて大幅に低減することが可能となり、ネットワークシステム全体に与える負荷を軽減できるという利点を持つ。
さて、テレビ会議システムでは、映像と音声の同期(メディア間同期)が重要な課題のひとつとなる。これはリップシンクとも呼ばれ、テレビ会議に参加しているユーザの口の動きと、話している声とを同期させて、表示・再生することを表す。リップシンクがない状態では、声と口の動きがずれるため、非常に違和感があるコミュニケーションとなり、意志疎通を行う上で、支障をきたす可能性がある。ITU−R規定の実験においては、リップシンクの許容限は音進み(映像に対して音声が早く再生される)の場合で約80ミリ秒、音遅れ(音声に対して映像が早く表示される)の場合で約180ミリ秒であるという結果が得られている。これは、ノンインタレース形式の映像フレームに換算すると、前者で約2.4フレーム分、後者で約5.5フレーム分となる。
テレビ会議では、参加しているユーザの映像と音声がネットワークを介して送受信されるが、ネットワークの帯域の制限から、一般的に映像および音声は圧縮符号化された形で送受信される。通常、映像の符号化・復号化処理に要する時間が、音声のそれに比較して大きいため、受信側での両者の再生時刻に時間差が生じる。また、インターネットのようなベストエフォート型のネットワークでは、ネットワーク上をパケットが転送される際に、転送される経路がパケット毎に異なったり、また転送経路中の各ルータでの輻輳状態やパケットの種類に応じた優先制御等によって、パケット毎に異なる遅延ジッタを受けることになる。今、テレビ会議に参加しているユーザからの映像・音声データがそれぞれ異なるパケットとして送信されるようなシステム構成、例えばあるユーザが音声専用端末と映像専用端末のふたつの端末を使用してテレビ会議に参加するような場合、受信側でのこれら音声データパケットと映像データパケットの到着時間にばらつきが生じ、結果、同期制御が行われないシステムでは再生音声と表示映像との間で、ずれが発生する。映像と音声が同一端末内で符号化・多重化されて送受信される場合は、送信側においてすでに映像と音声の同期が取られた形で音声・映像データが送信されるため、受信側では単に音声と映像のそれぞれのデコード遅延(固定遅延分)を考慮して再生を行うことで、リップシンクが可能となる。
特許文献1には、音声と映像が同一ユーザが操作する異なる端末(音声データ通信端末、テレビ電話)を通して送受信される場合は、音声データ通信端末・テレビ電話間で、例えば音声の再生を遅延させる時間をネットワークを介して通知するような同期処理を行いながら、映像音声の再生を行う方法が記載されている。
また、特許文献2の多地点テレビ会議システムでは、各ユーザ端末から別パケットとして送信されてきた映像データと音声データを多地点テレビ会議制御装置において合成・送信する手法に関して示されている。具体的には、映像データと音声データがそれぞれ異なるパケットとして送信されてきた場合に、シーケンス番号が付加されて送信されてきた特定の映像および音声データを基準として合成後の映像および音声の同期を取って同報する、または合成後の映像および音声に合成前のシーケンス番号をそのまま付加するとの手法が記載されており、シーケンス番号が付加されて送信されてきた特定の端末からの映像と音声に関してのみ同期を取ることが可能となるが、合成映像および合成音声に含まれる他の端末からの映像と音声に関しては、同期は保証されない。また、多地点テレビ会議制御装置が音声用と映像用で、それぞれ独立した装置として存在するようなシステム構成に関しては明記されていない。
特開平11−177954公報 特開平9−219851公報
上記したように、従来の多地点テレビ会議システムでは、多地点テレビ会議制御装置を用いたテレビ会議システムの形態において、映像と音声がそれぞれ異なるパケットとして各ユーザ端末(電話端末・映像端末装置)から多地点テレビ会議制御装置に送信されてきた場合に、複数の端末から送信されてきた映像および音声をそれぞれ合成する際に、特定の端末からの映像と音声に関してのみしか、同期をとることができなかった。また、音声用多地点テレビ会議制御装置、映像用多地点テレビ会議制御装置がそれぞれ独立して存在するような多地点テレビ会議システムに関しては、音声と映像の同期を取るための問題が解決されていない。
本発明は、上記事情を考慮してなされたもので、各ユーザの端末から送信されてきた第1および第2の情報をユーザごとに情報間で同期を取った上でそれぞれ合成することが可能とした情報合成装置、情報合成システム、情報同期方法およびプログラムを提供することを目的とする。
本発明の一態様としての情報合成装置は、第1の端末における第1の情報の再生時刻を示す第1のタイムスタンプと前記第1の情報とを含む第1の受信情報および第2の端末における第2の情報の再生時刻を示す第2のタイムスタンプと前記第2の情報とを含む第2の受信情報を受信する受信部と、前記第1の受信情報内の前記第1の情報と前記第2の受信情報内の前記第2の情報とが入力されて第1の合成情報と第2の合成情報とを生成する合成部と、前記第1の合成情報と前記第1のタイムスタンプとを含む第1の送信情報および前記第2の合成情報と前記第2のタイムスタンプとを含む第2の送信情報を生成するタイムスタンプ付加部と、前記第1の送信情報を前記第1の端末宛に送信し、前記第2の送信情報を前記第2の端末宛に送信し、前記第1のタイムスタンプと前記第2のタイムスタンプとを他の情報合成装置宛に送信する送信部と、を備える。
本発明の一態様としての情報合成装置は、第1の端末における第1の情報の再生時刻を示す第1のタイムスタンプと前記第1の情報とを含む第1の受信情報、第2の端末における第2の情報の再生時刻を示す第2のタイムスタンプと前記第2の情報とを含む第2の受信情報、前記第1の端末における第3の情報の再生時刻を示す第3のタイムスタンプと前記第3の情報とを含む第3の受信情報、前記第2の端末における第4の情報の再生時刻を示す第4のタイムスタンプと前記第4の情報とを含む第4の受信情報、第5のタイムスタンプ、および第6のタイムスタンプを受信する受信部と、前記第1の受信情報と前記第2の受信情報と前記第3の受信情報と前記第4の受信情報とをバッファリングするバッファ部と、前記第5のタイムスタンプに基づいて前記バッファ部がバッファリングしている前記第1の受信情報と前記第3の受信情報とのいずれか一方を選択し、前記第6のタイムスタンプに基づいて前記バッファ部がバッファリングしている前記第2の受信情報と前記第4の受信情報とのいずれか一方を選択する選択部と、選択された前記受信情報内の前記情報を合成して第1の合成情報と第2の合成情報とを生成する合成部と、前記第5のタイムスタンプに基づいて選択した受信情報が含む前記タイムスタンプと前記第1の合成情報とを含む第1の送信情報、および前記第6のタイムスタンプに基づいて選択した受信情報が含む前記タイムスタンプと前記第2の合成情報とを含む第2の送信情報を生成するタイムスタンプ付加部と、前記第1の送信情報を前記第1の端末宛に送信し、前記第2の送信情報を前記第2の端末宛に送信する送信部と、を備える。
本発明の一態様としての情報合成システムは、第1の情報合成装置と第2の情報合成装置とを備えた情報合成システムであって、前記第1の情報合成装置は、第1の端末における第1の情報の再生時刻を示す第1のタイムスタンプと前記第1の情報とを含む第1の受信情報および第2の端末における第2の情報の再生時刻を示す第2のタイムスタンプと前記第2の情報とを含む第2の受信情報を受信する第1の受信部と、前記第1の受信情報内の前記第1の情報と前記第2の受信情報内の前記第2の情報とが入力されて第1の合成情報と第2の合成情報とを生成する第1の合成部と、前記第1の合成情報と前記第1のタイムスタンプとを含む第1の送信情報および前記第2の合成情報と前記第2のタイムスタンプとを含む第2の送信情報を生成する第1のタイムスタンプ付加部と、前記第1の送信情報を前記第1の端末宛に送信し、前記第2の送信情報を前記第2の端末宛に送信し、前記第1のタイムスタンプと前記第2のタイムスタンプとを前記第2の情報合成装置宛に送信する第1の送信部と、を有し、前記第2の情報合成装置は、前記第1の端末における第3の情報の再生時刻を示す第3のタイムスタンプと前記第3の情報とを含む第3の受信情報、前記第2の端末における第4の情報の再生時刻を示す第4のタイムスタンプと前記第4の情報とを含む第4の受信情報、前記第1の端末における第5の情報の再生時刻を示す第5のタイムスタンプと前記第5の情報とを含む第5の受信情報、前記第2の端末における第6の情報の再生時刻を示す第6のタイムスタンプと前記第6の情報とを含む第6の受信情報、前記第1のタイムスタンプ、および前記第2のタイムスタンプを受信する第2の受信部と、前記第3の受信情報と前記第4の受信情報と前記第5の受信情報と前記第6の受信情報とをバッファリングするバッファ部と、前記第1のタイムスタンプに基づいて前記バッファ部がバッファリングしている前記第3の受信情報と前記第5の受信情報とのいずれか一方を選択し、前記第2のタイムスタンプに基づいて前記バッファ部がバッファリングしている前記第4の受信情報と前記第6の受信情報とのいずれか一方を選択する選択部と、選択された前記受信情報内の前記情報を合成して第3の合成情報と第4の合成情報とを生成する第2の合成部と、前記第1のタイムスタンプに基づいて選択した受信情報が含む前記タイムスタンプと前記第3の合成情報とを含む第3の送信情報、および前記第2のタイムスタンプに基づいて選択した受信情報が含む前記タイムスタンプと前記第4の合成情報とを含む第4の送信情報を生成する第2のタイムスタンプ付加部と、前記第3の送信情報を前記第1の端末宛に送信し、前記第4の送信情報を前記第2の端末宛に送信する第2の送信部と、を有する、ことを特徴とする。
本発明の一態様としての情報同期方法は、第1の端末における第1の情報の再生時刻を示す第1のタイムスタンプと前記第1の情報とを含む第1の受信情報および第2の端末における第2の情報の再生時刻を示す第2のタイムスタンプと前記第2の情報とを含む第2の受信情報を受信し、前記第1の受信情報内の前記第1の情報と前記第2の受信情報内の前記第2の情報とから第1の合成情報と第2の合成情報とを生成し、前記第1の合成情報と前記第1のタイムスタンプとを含む第1の送信情報および前記第2の合成情報と前記第2のタイムスタンプとを含む第2の送信情報を生成し、前記第1の送信情報を前記第1の端末宛に送信し、前記第2の送信情報を前記第2の端末宛に送信し、前記第1のタイムスタンプと前記第2のタイムスタンプとを記憶し、前記第1の端末における第3の情報の再生時刻を示す第3のタイムスタンプと前記第3の情報とを含む第3の受信情報、前記第2の端末における第4の情報の再生時刻を示す第4のタイムスタンプと前記第4の情報とを含む第4の受信情報、前記第1の端末における第5の情報の再生時刻を示す第5のタイムスタンプと前記第5の情報とを含む第5の受信情報、前記第2の端末における第6の情報の再生時刻を示す第6のタイムスタンプと前記第6の情報とを含む第6の受信情報を受信し、前記第3の受信情報と前記第4の受信情報と前記第5の受信情報と前記第6の受信情報とをバッファリングし、バッファリングされている前記第3の受信情報と前記第5の受信情報とのいずれか一方を前記第1のタイムスタンプに基づいて選択し、バッファリングされている前記第4の受信情報と前記第6の受信情報とのいずれか一方を前記第2のタイムスタンプに基づいて選択し、選択された前記受信情報内の前記情報を合成して第3の合成情報と第4の合成情報とを生成し、前記第1のタイムスタンプに基づいて選択した受信情報が含む前記タイムスタンプと前記第3の合成情報とを含む第3の送信情報、および前記第2のタイムスタンプに基づいて選択した受信情報が含む前記タイムスタンプと前記第4の合成情報とを含む第4の送信情報を生成し、前記第3の送信情報を前記第1の端末宛に送信し、前記第4の送信情報を前記第2の端末宛に送信する、ことを特徴とする。
本発明の一態様としてのプログラムは、第1の端末における第1の情報の再生時刻を示す第1のタイムスタンプと前記第1の情報とを含む第1の受信情報および第2の端末における第2の情報の再生時刻を示す第2のタイムスタンプと前記第2の情報とを含む第2の受信情報を受信するステップと、前記第1の受信情報内の前記第1の情報と前記第2の受信情報内の前記第2の情報とから第1の合成情報と第2の合成情報とを生成するステップと、前記第1の合成情報と前記第1のタイムスタンプとを含む第1の送信情報および前記第2の合成情報と前記第2のタイムスタンプとを含む第2の送信情報を生成するステップと、前記第1の送信情報を前記第1の端末宛に送信し、前記第2の送信情報を前記第2の端末宛に送信し、前記第1のタイムスタンプと前記第2のタイムスタンプとを他のコンピュータ宛に送信するステップと、をコンピュータに実行させる。
本発明の一態様としてのプログラムは、第1の端末における第1の情報の再生時刻を示す第1のタイムスタンプと前記第1の情報とを含む第1の受信情報、第2の端末における第2の情報の再生時刻を示す第2のタイムスタンプと前記第2の情報とを含む第2の受信情報、第1の端末における第3の情報の再生時刻を示す第3のタイムスタンプと前記第3の情報とを含む第3の受信情報、第2の端末における第4の情報の再生時刻を示す第4のタイムスタンプと前記第4の情報とを含む第4の受信情報、第5のタイムスタンプ、および第6のタイムスタンプを受信するステップと、前記第1の受信情報と前記第2の受信情報と前記第3の受信情報と前記第4の受信情報とをバッファリングするステップと、バッファリングされている前記第1の受信情報と前記第3の受信情報とのいずれか一方を前記第5のタイムスタンプに基づいて選択し、バッファリングされている前記第2の受信情報と前記第4の受信情報とのいずれか一方を前記第6のタイムスタンプに基づいて選択するステップと、選択された前記受信情報内の前記情報を合成して第1の合成情報と第2の合成情報とを生成するステップと、前記第5のタイムスタンプに基づいて選択した受信情報が含む前記タイムスタンプと前記第1の合成情報とを含む第1の送信情報、および前記第6のタイムスタンプに基づいて選択した受信情報が含む前記タイムスタンプと前記第2の合成情報とを含む第2の送信情報を生成するステップと、前記第1の送信情報を前記第1の端末宛に送信し、前記第2の送信情報を前記第2の端末宛に送信するステップと、をコンピュータに実行させる。
本発明によれば、各ユーザの端末から送信されてきた第1および第2の情報をユーザごとに情報間で同期を取った上でそれぞれ合成することが可能となる。
図1に、本発明の一実施形態に係る多地点テレビ会議システムの構成例を示す。
ネットワークNを介してテレビ会議に参加するユーザA・B・C・D・Eが示される。本システムは、それらユーザが使用する、主に映像信号の入出力およびネットワークNを介した映像データの送受信を行う映像端末装置A2・B2・C2・D2、主に音声信号の入出力およびネットワークNを介した音声データの送受信を行う音声端末装置A1・B1・C1・D1、音声信号・映像信号両方の入出力およびネットワークNを介した音声および映像データの送受信を行う音声映像端末装置Eを備える。また、本システムは、ユーザA・B・C・D・Eから送信された映像データを合成し、合成映像を各映像端末装置A2・B2・C2・D2および音声映像端末装置Eに送信する映像用多地点テレビ会議制御装置2を備える。また、本システムは、ユーザA・B・C・D・Eから送信された音声データを合成し、合成音声を各音声端末装置A1・B1・C1・D1および音声映像端末装置Eに送信する音声用多地点テレビ会議制御装置1を備える。
音声端末装置A1および映像端末装置A2はLAN(Local Area Network)3を介してネットワークNと接続されている。同様に、音声端末装置B1および映像端末装置B2はLAN4を介してネットワークNと接続され、音声端末装置C1および映像端末装置C2はLAN5を介してネットワークNと接続されている。
LAN3にはNTP(Network Time Protocol)サーバT1が接続され、LAN4にはNTPサーバT2が接続され、LAN5にはNTPサーバT3が接続され、ネットワークNにはNTPサーバT4が接続されている。
音声端末装置A1および映像端末装置A2はそれぞれNTPサーバT1を利用して各々の時刻管理を行うことにより互いの間で時刻同期を図る。音声端末装置B1および映像端末装置B2はそれぞれNTPサーバT2を利用して各々の時刻管理を行うことにより互いの間で時刻同期を図る。音声端末装置C1および映像端末装置C2はそれぞれNTPサーバT3を利用して各々の時刻管理を行うことにより互いの間で時刻同期を図る。音声端末装置D1および映像端末装置D2はそれぞれNTPサーバT4を利用して各々の時刻管理を行うことにより互いの間で時刻同期を図る。
ユーザEが使用する音声映像端末装置Eの存在は、本テレビ会議システムに接続するユーザ端末が単一装置において映像と音声の両方の入出力を扱えるものでもよいことを示している。また、図ではユーザA〜Eの5人のユーザが使用する端末のみを示しているが、テレビ会議に参加するユーザ数は、これに限定されるものではない。音声端末装置の例としていわゆるIP電話が、また映像端末装置または音声映像端末装置の例として専用のテレビ会議端末、またはパーソナルコンピュータにカメラやマイクを接続する形態が考えられる。さらに、音声・映像の両方の入出力を使用可能な装置であったとしても、別装置との組み合わせにおいて片方の機能のみ使用する形態も考えられる。例えば、映像と音声の両者の入出力を可能なパーソナルコンピュータにおいて音声のやり取りのみを行い、より大画面・高精細に表示が可能な映像端末装置を使って映像のやり取りを行うようなことも可能である。
以下、本実施形態におけるネットワークNの例として、インターネットのようなベストエフォート型のネットワークを例に説明を行うが、有線・無線問わず、これに限定されるものではない。
図2に、本発明の一実施形態に係る映像用多地点テレビ会議制御装置の構成例を示す。
映像用多地点テレビ会議制御装置は、概略的にはテレビ会議に参加する各ユーザが使用する端末装置(映像端末装置または音声映像端末装置)から映像データを受け、それらを合成後、合成映像を各ユーザ端末に送信する処理を実行する。
図2に示すように、本映像用多地点テレビ会議制御装置は、パケット送受信部10、バッファ部11(1)〜11(4)、映像復号化部12(1)〜12(4)、映像合成部13、映像符号化部14(1)〜14(4)、タイムスタンプ付加部15(1)〜15(4)、制御部16を備える。図中、映像復号化部をそれぞれ4個のみ示しているが、実際には本多地点テレビ会議制御装置が収容する最大ユーザ数の仕様に応じて決定されるもので、これに限定されるものではない。また、映像符号化部をそれぞれ独立に4個備えているのは、例えば合成映像の画面配置構成や、符号化時のビットレート・符号化方式(例えば、MPEG2・MPEG4・H.264等)を、ユーザ毎にカスタマイズできるようにするためであり、実際には本多地点テレビ会議制御装置がカスタマイズ可能な最大数の仕様に応じて決定されるもので、これに限定されるものではない。
図2の各部の機能は概ね次の通りである。
パケット送受信部10は、各ユーザの映像端末装置または映像音声端末装置からネットワークNを介して送信されてきた映像データパケットの受信処理、圧縮符号化した合成映像データを各端末にパケット化して送信するための送信処理、ある合成映像に使用した各ユーザからの元映像に付属のタイムスタンプ情報を音声用多地点テレビ会議制御装置に送信するための送信処理を行う。具体的には、インターネットのようなIPネットワーク上に映像データを送信する際の、TCP/UDP、IP、Ethernet(登録商標)をはじめとした通信プロトコル処理を行うが、使用するプロトコル構成に関してはシステム依存となる。
バッファ部11(1)〜11(4)は、各ユーザの映像端末装置または映像音声端末装置から送信された映像データパケットがネットワークNを介して転送される際に受けた遅延ジッタを平滑化して、後段の映像復号化部に渡すためのバッファである。受信した映像データは、各ユーザ毎に個別のバッファ部11(1)〜11(4)に、一定閾値までバッファリングする。また、一度閾値までバッファリングした後は、後段の映像復号化部12(1)〜12(4)に順次映像データの供給をはじめる。
映像復号化部12(1)〜12(4)は、バッファ部11(1)〜11(4)から渡された各ユーザからの映像データを、それぞれ対応する圧縮符号化方式で復号化する。
映像合成部13は、各ユーザからの復号化された映像データの合成処理を行う。
ネットワークN上を転送された際にパケット損が発生した場合は、直前に復号化された映像または適当な形で補間して得られた映像を使用して合成を行うことも可能である。また、制御部16からの制御により、図12に示すように、任意の配置パターンで各ユーザからの映像を合成してもよい。さらに、これら合成映像は、各ユーザ毎に好みの配置パターンにより配置した合成映像であってもよい。
映像符号化部14(1)〜14(4)は、各ユーザへの合成映像データを、それぞれ対応する圧縮符号化方式で符号化する。前述したように、各ユーザ毎に好みの配置パターンにより配置した各合成映像を、ユーザ毎にカスタマイズした符号化パラメータや符号化方式での符号化を可能とするために、映像符号化部14(1)〜14(4)が独立して存在する。
映像タイムスタンプ付加部15(1)〜15(4)は、圧縮符号化された各合成映像データに含まれるべきタイムスタンプを、合成映像データにそれぞれ付加する。
制御部16は、本映像用多地点テレビ会議制御装置の統括制御を行う。パケット送受信部10を介して、各ユーザ端末からの要求で合成映像の配置パターンを制御することをはじめ、映像符号化部14(1)〜14(4)のパラメータや方式等の各種設定・変更を実行するとともに、合成映像を生成する際に使用した各元映像のタイムスタンプ情報を、逐次音声多地点テレビ会議制御装置に送信したりする。
図3に、本発明の一実施形態に係る音声用多地点テレビ会議制御装置の構成例を示す。
音声用多地点テレビ会議制御装置は、概略的にはテレビ会議に参加する各ユーザが使用する端末装置(音声端末装置または音声映像端末装置)から音声データを受け、それらを合成後、合成音声データを各ユーザ端末に送信する処理を実行する。
図3に示すように、本音声用多地点テレビ会議制御装置は、パケット送受信部20、バッファ部21(1)〜21(4)、音声復号化部22(1)〜22(4)、音声合成部23、音声符号化部24(1)〜24(4)、タイムスタンプ付加部25(1)〜25(4)、制御部26を備える。図中、音声復号化部をそれぞれ4個のみ示しているが、実際には本多地点テレビ会議制御装置が一会議として収容する最大ユーザ数の仕様に応じて決定されるもので、これに限定されるものではない。また、音声符号化部をそれぞれ独立に4個備えているのは、それぞれのユーザ宛にユーザ自身の声を抜いた合成音声を送信するためである。また、これにより、あて先となるユーザ端末ごとにビットレートや符号化方式(例えば、MPEG1Audio、MPEG2 AAC、AC3等)を、カスタマイズできるようになる。
図3の各部の機能は概ね次の通りである。
パケット送受信部20は、各ユーザの音声端末装置または映像音声端末装置からネットワークNを介して送信されてきた音声データパケットの受信処理、映像用多地点テレビ会議制御装置から送信されてくるタイムスタンプ情報パケットの受信処理、ならびに各合成音声データを各ユーザ端末にパケット化して送信するための送信処理を行う。具体的には、インターネットのようなIPネットワーク上に音声データを送信する際の、TCP/UDP、IP、Ethernet等の通信プロトコル処理を行うが、使用するプロトコル構成に関してはシステム依存となる。
バッファ部21(1)〜21(4)は、合成映像に同期した合成音声を生成するために、映像用多地点テレビ会議制御装置から指令が来るまで音声データをバッファリングしておくためのものである。各ユーザから送信された音声データは、ユーザ毎に個別のバッファ部21(1)〜21(4)にバッファリングする。
音声復号化部22(1)〜22(4)は、各ユーザからの音声データを、それぞれ対応する圧縮符号化方式で復号化する。
音声合成部23は、各ユーザからの復号化された音声データの合成処理を行う。各ユーザごとに、あて先となるユーザ自身の声を除いた合成音声をそれぞれ生成する。
音声符号化部24(1)〜24(4)は、各ユーザへの音声データを、それぞれ対応する圧縮符号化方式で符号化する。前述したように、音声符号化部24(1)〜24(4)が独立して存在するため、ユーザ毎にカスタマイズした符号化パラメータでの符号化が可能となる。
タイムスタンプ付加部25(1)〜25(4)は、各圧縮符号化された合成音声データに含まれるべきタイムスタンプを、合成音声データに個別に付加する。
制御部26は、本音声用多地点テレビ会議制御装置の統括制御を行う。音声符号化部の符号化パラメータや方式の各種設定・変更を実行するとともに、映像用多地点テレビ会議制御装置から送られてきたタイムスタンプ構成情報を受けて、各バッファ部21(1)〜21(4)にバッファリングされている音声データのなかからタイムスタンプに対応する音声データを選択したり、また各合成音声に付加すべきタイムスタンプ値を指示したりする。
図4に、本発明の一実施形態に係る映像端末装置の構成例を示す。
映像端末装置は、概略的にはテレビ会議に参加する各ユーザが使用する映像入出力用の装置で、撮影部(カメラ)で撮影した映像信号を圧縮符号化した映像データとして映像用多地点テレビ会議制御装置へ送信すると共に、映像用多地点テレビ会議制御装置で合成・送信された映像データを受信・復号化し、表示部に表示する。
図4に示すように、本映像端末装置は、パケット送受信部30、撮影部31、A/D部32、映像符号化部33、タイムスタンプ付加部34、バッファ部35、映像復号化部36、D/A部37、表示部38、時刻管理部39、制御部40から構成される。
図4の各部の機能は概ね次の通りである。
撮影部31は、主にテレビ会議に参加するユーザを撮影する。
A/D部32は、撮影部31で撮影された映像信号を、例えばITU−RのBT.601/656仕様の信号としてデジタル化する。
映像符号化部33は、デジタル化された映像信号を、MPEG等の圧縮符号化方式で符号化する。
タイムスタンプ付加部34は、圧縮符号化された映像データに時刻管理部39から得たタイムスタンプを付加する。
バッファ部35は、映像用多地点テレビ会議制御装置から送信された映像データパケットがネットワークNを介して転送される際に受けた遅延ジッタを平滑化して、後段の映像復号化部36に渡すためのバッファである。受信した映像データは、バッファ部35に、一定閾値までバッファリングする。また、一度閾値までバッファリングした後は、後段の映像復号化部36に順次映像データの供給をはじめるが、これは各映像データのタイムスタンプを参照しつつ、時刻管理部39から指示されたタイミングで実行する。
映像復号化部36は、受信した合成映像データを対応する圧縮符号化方式で復号化する。
パケット送受信部30は、撮影部31で撮影し、圧縮符号化した映像データをパケット化してネットワークNへ送信するための送信処理と、逆にネットワークNを介して映像用多地点テレビ会議制御装置から送信されてきた映像データパケットの受信処理を行う。この際、映像用多地点テレビ会議制御装置との間で、対応するプロトコルでのパケットの送受信を行う。
時刻管理部39は、後述する音声端末装置の時刻管理部との間で時刻の同期処理を行う。具体的には、例えばIETFのRFC1305で標準化されているNTP(Network Time Protocol)等のプロトコルを使用して時刻同期を行う。RFC1128に示されているように、NTPを使用することによって数ミリ〜数十ミリ秒での時刻同期が可能となる。また、同期した時刻をもとに、送信する映像データに付加するタイムスタンプを生成すると共に、受信した合成映像データの再生時刻を管理する。
制御部40は、本映像端末装置の統括制御を行う。パケット送受信部30を介して、音声端末との間で時刻同期を行ったり、映像符号化部33のパラメータや方式等の各種設定・変更を実行する。
図5に、本発明の一実施形態に係る音声端末装置の構成例を示す。
音声端末装置は、概略的にはテレビ会議に参加する各ユーザが使用する音声入出力用の装置であり、集音部(マイク)で集音した音声信号を圧縮符号化して音声データとして音声用多地点テレビ会議制御装置へ送信すると共に、音声用多地点テレビ会議制御装置で合成・送信された音声データを受信・復号化し、再生部(スピーカー)で再生する。
図5に示すように、本音声端末装置は、パケット送受信部50、集音部51、A/D部52、音声符号化部53、タイムスタンプ付加部54、バッファ部55、音声復号化部56、D/A部57、音声再生部58、時刻管理部59、制御部60から構成される。
図5の各部の機能は概ね次の通りである。
集音部51は、主にテレビ会議に参加するユーザからの音声を集音する。
A/D部52は、集音部51で集音された映像信号を、例えばPCM信号としてデジタル化する。
音声符号化部53は、デジタル化された音声信号を、MPEG等の圧縮符号化方式で符号化する。
タイムスタンプ付加部54は、圧縮符号化された音声データに時刻管理部59から得たタイムスタンプを付加する。
バッファ部55は、音声用多地点テレビ会議制御装置から送信された音声データパケットがネットワークNを介して転送される際に受けた遅延ジッタを平滑化して、後段の音声復号化部56に渡すためのバッファである。受信した音声データは、バッファ部55に、一定閾値までバッファリングする。また、一度閾値までバッファリングした後は、後段の音声復号化部56に順次映像データの供給をはじめるが、これは各音声データのタイムスタンプを参照しつつ、時刻管理部59から指示されたタイミングで実行する。
音声復号化部56は、受信した合成音声データを対応する圧縮符号化方式で復号化する。
パケット送受信部50は、集音部51で集音し、圧縮符号化した音声データをパケット化してネットワークNへ送信するための送信処理と、逆にネットワークNを介して音声用多地点テレビ会議制御装置から送信されてきた音声データパケットの受信処理を行う。この際、多地点テレビ会議制御装置との間で、対応するプロトコルでのパケットの送受信を行う。
時刻管理部59は、前述の図4に示す映像端末装置の時刻管理部との間で時刻の同期処理を行う。具体的には、前述のNTP等のプロトコルを使用して時刻同期を行う。また、同期した時刻をもとに、送信する音声データに付加するタイムスタンプを生成すると共に、受信した合成音声データの再生時刻を管理する。
制御部60は、本音声端末装置の統括制御を行う。パケット送受信部50を介して、映像端末装置との間の時刻同期を行ったり、音声符号化部53のパラメータや方式等の各種設定・変更を実行する。
次に、図4および図8を参照しながら本発明の一実施形態に係る映像端末装置の動作手順について説明する。
図8は、映像端末装置の動作シーケンスを示す図である。
映像端末装置は、テレビ会議へ参加する場合は(S80のYes)、制御部40によって各種初期設定を行う(S81)。この初期設定には、テレビ会議を行う上で必要な制御情報(参加会議ID、ユーザID、パスワード、映像データを圧縮符号化する際の各種符号化パラメータ、セッション情報等)を映像用多地点テレビ会議制御装置および音声端末装置との間でやり取りすることをはじめ、その他映像端末装置内部の各種初期設定等を含む。
次に、制御部40はバッファ部35の初期化を行い(S82)、一方時刻管理部39は、制御部40・パケット送受信部30を介して、音声端末装置との間で時刻同期を行う(S83)。前述したように、NTPを用いることによって、リップシンクで許容される誤差範囲での時刻同期が可能となるが、時刻同期の方法はこれに限定されるものではない。また、随時誤差の補正を行うために、動作中は継続的に時刻同期を行う。
図8においては、S81〜S83は時系列的に実行されるように記載されているが、必要に応じてこれらの順番が入れ替わったり、または並列に実行されてもよい。
次に、映像端末装置は、テレビ会議からの離脱を行わない場合は(S84のNo)、映像データの送受信を開始し(S90〜S94,S100〜S108)、テレビ会議から離脱する場合は(S84のYes)、処理を停止する(S110)
送信処理において、撮影部(カメラ)31から映像が入力されると(S90)、映像信号をA/D部32によりデジタル化し(S91)、更に映像符号化部33により圧縮符号化処理を施す(S92)。圧縮符号化された映像データに、時刻管理部39から取得された時刻情報をタイムスタンプ付加部34においてタイムスタンプとして付加し(S93)、パケット送受信部30においてパケット化して送信する(S94)。S90〜S94の処理はテレビ会議参加中は、パイプライン的に継続的に実行する。
一方、受信処理において、パケット送受信部30が受信した(S100)多地点テレビ会議制御装置からの合成映像データは、規定の閾値に達するまでバッファ部35においてバッファリングされる(S100,S101)。これは、前述したように映像データパケットがネットワークN上を転送される際に受ける遅延ジッタを平滑化するためで、閾値に関しては仕様上許容する遅延ジッタの最大値に応じて決定する。
一旦、閾値分合成映像データのバッファリングが完了すると(S101のYes)、以後受信した合成映像データの復号化を開始する。受信許容時刻内に受信した合成映像データであれば(S102のYes)、バッファ部35へ格納し(S103)、ネットワーク転送中に受けた遅延により受信許容時刻を過ぎている(S102のNo)合成映像データは、破棄する(S108)。
再生時刻になると、合成映像データをバッファ部35から取り出し、映像復号化部36へ渡す(S104)。合成映像データは復号化された後(S105)、D/A変換後(S106)、表示部38により表示される(S107)。表示部の形態(例えばデジタル表示が可能なLCD)によっては、D/A変換を省略して、表示が可能となる場合もある。
再生時刻(各合成映像データを復号化する時刻)に関しては、予め音声端末装置との間で取り決めておく。
次に、図5および図9を参照しながら本発明の一実施形態に係る音声端末装置の動作手順について説明する。
図9は、音声端末装置の動作シーケンスを示す図である。
音声端末装置は、テレビ会議へ参加する場合は(S120のYes)、制御部60によって各種初期設定を行う(S121)。この初期設定には、テレビ会議を行う上で必要な制御情報(参加会議ID、ユーザID、パスワード、音声データを圧縮符号化する際の各種符号化パラメータ、その他セッション情報)を音声用多地点テレビ会議制御装置および映像端末装置との間でやり取りすることをはじめ、その他音声端末装置内部の各種初期設定等を含む。
次に、制御部60はバッファ部55の初期化を行い(S122)、一方時刻管理部59は、制御部60・パケット送受信部50を介して、映像端末装置との間で時刻同期を行う(S123)。前述したように、NTPを用いることによって、リップシンクで許容される誤差での時刻同期が可能となるが、時刻同期の方法はこれに限定されるものではない。また、随時誤差の補正を行うために、動作中は継続的に時刻同期を行う。
図9においては、S121〜S123は時系列的に実行されるように記載されているが、必要に応じてこれらの順番が入れ替わったり、または並列に実行されてもよい。
次に、音声端末装置は、テレビ会議からの離脱を行わない場合は(S124のNo)、音声データの送受信を開始し(S130〜S134、S140〜S148)、テレビ会議から離脱する場合は(S124のYes)、処理を停止する(S150)。
送信処理において、集音部(マイク)51から音声が入力されると(S130)、音声信号をA/D部52によりデジタル化し(S131)、更に音声符号化部53により圧縮符号化処理を行う(S132)。圧縮符号化された音声データに、時刻管理部59から取得された時刻情報をタイムスタンプ付加部54においてタイムスタンプとして付加し(S133)、パケット送受信部50においてパケット化して送信する(S134)。S130〜S134の処理はテレビ会議参加中は、パイプライン的に継続的に実行される。
一方、受信処理において、パケット送受信部50が受信した(S140)音声用多地点テレビ会議制御装置からの合成音声データは、規定の閾値に達するまでバッファ部55においてバッファリングされる(S141)。これは、前述したように音声データパケットがネットワークN上を転送される際に受ける遅延ジッタを平滑化するためで、閾値に関しては仕様上許容する遅延ジッタの最大値に応じて決定する。一旦、閾値分合成音声データのバッファリングが完了すると、以後受信した合成音声データは、受信許容時刻内であれば(S142のYes)、バッファ部55へ格納し(S143)、受信許容時刻を過ぎていれば(S142のNo)当該合成音声データを破棄する(S148)。
再生時刻になると、合成音声データをバッファ部55から取り出し、音声復号化部56へ渡す(S144)。合成音声データを復号化した後(S145)、D/A変換後(S146)、音声再生部(スピーカー)58により再生する(S147)。
再生時刻(各合成音声データを復号化する時刻)に関しては、予め映像端末装置との間で取り決めておく。
次に、図2および図6を参照しながら本発明の一実施形態に係る映像用多地点テレビ会議制御装置の動作手順について説明する。
図6は、映像用多地点テレビ会議制御装置の動作シーケンスを示す図である。
映像用多地点テレビ会議制御装置は、テレビ会議を開始する場合、制御部16によって各種初期設定を行う(S1)。この初期設定には、テレビ会議を行う上で必要な制御情報(参加会議ID、ユーザID、パスワード、映像データに関する各種符号化パラメータ、合成映像の画面配置構成情報、セッション情報等)を、各映像端末装置および音声用多地点テレビ会議制御装置との間でやり取りを行うことをはじめ、その他映像用多地点テレビ会議制御装置内部の各種初期設定等を行う。具体的な初期設定の詳細手順に関しては、使用するプロトコル依存である。
次に、制御部16はバッファ部11(1)〜11(4)の初期化を行う(S2)。
図6においては、S1、S2は順次実行されるように記載されているが、必要に応じてこれらの順番が入れ替わったり、または並列に実行されてもよい。
会議が終了しない間は(S3のNo)、映像データの送受信処理を開始し(S4〜S14)、会議が終了する場合は(S3のYes)処理を停止する(S20)。
パケット送受信部10が受信した映像端末装置からの映像データは、規定の閾値に達するまで、バッファ部11(1)〜11(4)において各ユーザデータ毎にバッファリングする(S4〜S6)。これは、前述したように映像パケットがネットワークN上を転送される際に受ける遅延ジッタを平滑化するためで、バッファリングの閾値に関しては、仕様上許容する遅延ジッタの最大値に応じて決定する。
一定閾値までバッファリングした後(S6のYes)、バッファ部11(1)〜11(4)に蓄積されている映像データは順次映像復号化部12(1)〜12(4)へ渡される(S7)。
この際、制御部16は、バッファ部11(1)〜11(4)から取り出された各ユーザからの映像データに付属の一連のタイムスタンプを記録し(S13)、これを合成タイムスタンプとして音声用多地点テレビ会議制御装置へパケット送受信部10を介して送信する(S14)。例えば、図10に示すようにバッファ部11(1)〜11(4)に映像データが蓄積されている場合、次のタイミングで各映像復号化部12(1)〜12(4)に渡される映像データはそれぞれ(TA_4、TB_7、TC_6、TD_9)のタイムスタンプが付加された映像データとなり、復号化されたユーザA〜Dの映像データを元に図11に示すような合成映像を映像合成部13にて生成する(S9)。音声用多地点テレビ会議制御装置には、(TA_4、TB_7、TC_6、TD_9)のようなタイムスタンプ情報(合成タイムスタンプ)が送信される。ある合成映像に含まれる元映像は同一のものであるが、各ユーザ毎に好みのパターンでそれぞれ異なる映像配置パターンの合成映像(例えば図12)を生成することも可能である。
各合成映像は映像符号化部14(1)〜14(4)において圧縮符号化され(S10)、タイムスタンプ付加部15(1)〜15(4)にてタイムスタンプが付加された後(S11)、パケット送受信部10にてパケット化して送信される(S12)。
圧縮符号化された合成映像データは各映像端末毎に用意するが、合成映像に含まれる合成前の映像データに付属のタイムスタンプを、各映像端末宛毎に付加して送信する。例えば、(TA_4、TB_7、TC_6、TD_9)のタイムスタンプの映像データを元に合成映像を生成した場合、映像端末A2宛の合成映像に付加するタイムスタンプはTA_4とし、また同様に映像端末B2宛の合成映像に付加するタイムスタンプはTB_7とする。映像端末C2宛、映像端末D2宛も、同様である。
もし、ネットワークN上でのパケットロス等の原因により、あるユーザの映像端末装置からの映像データが受信できておらず、所望の映像合成が行えない場合は、例えば直前の正しく受信できた映像を合成に使うことが考えられるが、この場合その映像端末装置宛の合成映像データには、直前に送信した合成映像データのタイムスタンプの時刻に、インタレース/ノンインタレースに応じて、1/30秒または1/60秒進めた時刻をタイムスタンプとして付加する。
次に、図3および図7を参照しながら本発明の一実施形態に係る音声用多地点テレビ会議制御装置の動作手順について説明する。
図7は、音声用多地点テレビ会議制御装置の動作シーケンスを示す図である。
音声用多地点テレビ会議制御装置は、テレビ会議を開始する場合、制御部26によって各種初期設定を行う(S30)。
この初期設定には、テレビ会議を行う上で必要な制御情報(参加会議ID、ユーザID、パスワード、音声データに関する各種符号化パラメータ、セッション情報等)を、各音声端末装置および映像用多地点テレビ会議制御装置との間でやり取りを行うことをはじめ、その他音声用多地点テレビ会議制御装置内部の各種初期設定等を行う。具体的な初期設定の詳細手順に関しては、使用するプロトコル依存である。
次に、制御部26はバッファ部21(1)〜21(4)の初期化を行う(S31)。
図7においては、S30、S31は順次実行されるように記載されているが、必要に応じてこれらの順番が入れ替わったり、または並列に実行されてもよい。
会議が終了しない間は(S32のNo)、音声データの送受信処理を開始し、(S40〜S56)、会議が終了する場合は(S32のYes)処理を停止する(S60)。
パケット送受信部20が受信した音声端末装置からの音声データは、バッファ部21(1)〜21(4)において各ユーザデータ毎にバッファリングされる(S40、S41)。以降、音声用多地点テレビ会議制御装置は、映像用多地点テレビ会議制御装置からタイムスタンプ情報を受信し始めるまでは、受信した音声データをバッファリングし続ける。
映像用多地点テレビ会議制御装置から合成タイムスタンプ情報を受信すると(S50)、合成タイムスタンプ情報に含まれるユーザA〜Dの各タイムスタンプに合致する各音声データをバッファ部21(1)〜21(4)から取り出し(S51)、音声データ復号化部23(1)〜23(4)にてそれぞれ復号化を行う(S52)。例えば、(TA_4、TB_7、TC_6、TD_9)の組み合わせのタイムスタンプ情報を受信した場合は、これらのタイムスタンプに合致する、または許容範囲内、例えば1/30秒間隔で合成が行われているのであれば、所望のタイムスタンプから1/30秒以内のずれに収まるタイムスタンプを持つ音声データをバッファ部21(1)〜21(4)から抽出し、復号化を行う。
音声復号化部22(1)〜22(4)において復号化された各音声データは、音声合成部23において合成される(S53)。この際、あるユーザ宛の合成音声には、該ユーザからの音声データは含めない。例えば、ユーザA宛の合成音声には、ユーザAからの音声データを含めないことになる。また、ネットワークN上でのパケットロスまたは遅延ジッタにより、ある音声端末装置からの音声データが合成のタイミングで用意できなかった場合は、無音として合成する。
それぞれのあて先毎に生成した合成音声データは、音声符号化部24(1)〜24(4)にてそれぞれ圧縮符号化し(S54)、タイムスタンプ付加部25(1)〜25(4)にてタイムスタンプを付加した後(S55)、パケット送受信部20にてパケット化し、各ユーザの音声端末装置へ送信する(S56)。
圧縮符号化された各合成音声データにはタイムスタンプを付加するが、音声合成に使用した各ユーザからの音声データに付属のタイムスタンプのうち、各ユーザ宛の合成音声データには合成前の該ユーザの音声データに付属のタイムスタンプを付加する。例えば、音声合成に使用する各ユーザからの音声データに付属のタイムスタンプが(TA_4、TB_7、TC_6、TD_9)であった場合、ユーザA宛の合成音声にはTA_4のタイムスタンプを、またユーザB宛の合成音声には、TB_7のタイムスタンプを付加する。他も、同様である。また、ネットワークN上でのパケットロスまたは遅延ジッタにより、ある音声端末装置からの音声データが合成のタイミングで用意できなかった場合は、事前に送信した合成音声データのタイムスタンプの時刻に、1/30秒または1/60秒進めた時刻をタイムスタンプとして付加する。
以上の手順により、各映像端末装置および音声端末装置から送信された映像データおよび音声データが映像用多地点テレビ会議制御装置および音声用多地点テレビ会議制御装置にてそれぞれ合成され、それらが各映像端末装置および音声端末装置に送信されるが、各合成映像に含まれる合成前の映像と、各合成音声に含まれる合成前の音声とは、それぞれ同一のタイムスタンプ構成をなす。よって、あるユーザの映像端末装置・音声端末装置がそれぞれ受信した合成映像データ・合成音声データを、合成映像データ・合成音声データに付加されたタイムスタンプに従って、あらかじめ取り決めた時刻に再生すれば、合成映像および合成音声に含まれる合成前の各ユーザからの映像信号および音声信号を、すべてリップシンクした状態で再生・表示することが可能となる。
以上まででは、映像用多地点テレビ会議制御装置からのタイムスタンプ情報を基準にして、音声用多地点テレビ会議制御装置での音声合成を行うことによって、合成映像と合成音声の同期(リップシンク)を実現しているが、仕組み上は音声用多地点テレビ会議制御装置からのタイムスタンプを基準にして映像用多地点テレビ会議制御装置での映像合成を行うことも可能である。この場合、映像用テレビ会議制御装置では音声用多地点テレビ会議制御装置からの音声合成に関するタイムスタンプ情報が来るまでは、映像データをバッファリングしておかなければならないため、本実施形態で述べた映像用テレビ会議制御装置を基準とする構成よりもより多くのバッファ領域(RAM)を用意しないといけないという欠点を持つ。これは、一般に映像の情報量が音声の情報量に比べて100倍程度多いという前提のもとである。また、本実施形態では、映像用多地点テレビ会議制御装置と音声用多地点テレビ会議制御装置を別個の装置として記載したが、これら装置がひとつの装置として集約されている構成においても、同様の手順にて実施することが可能である。具体的には、ネットワークを介したタイムスタンプ情報のやり取りが省略され、装置内に閉じて映像合成時のタイムスタンプ構成が音声合成時に適用されるだけである。
以上のように、本発明の実施形態によれば、多地点テレビ会議制御装置を用いたテレビ会議システムにおいて、複数のユーザの各々について映像および音声の同期(リップシンク)を実現することが可能となる。
以上の説明で用いた図2〜図5に示した各構成における各要素は、通常のプログラミング技法により生成したプログラムをコンピュータに実行させることによって得られる機能(プログラムモジュール)を表してもよいし、ハードウェアを表してもよいし、これらの組み合わせを表してもよい。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の一実施形態に係る多地点テレビ会議システムの構成例を示す図。 同実施形態に係る映像用多地点テレビ会議制御装置の構成例を示す図。 同実施形態に係る音声用多地点テレビ会議制御装置の構成例を示す図。 同実施形態に係る映像端末装置の構成例を示す図。 同実施形態に係る音声端末装置の構成例を示す図。 同実施形態に係る映像用多地点テレビ会議制御装置の動作シーケンスを示す図。 同実施形態に係る音声用多地点テレビ会議制御装置の動作シーケンスを示す図。 同実施形態に係る映像端末装置の動作シーケンスを示す図。 同実施形態に係る音声端末装置の動作シーケンスを示す図。 同実施形態に係る映像、または音声用多地点テレビ会議制御装置のバッファの状態の一例を示す図。 同実施形態に係る映像用多地点テレビ会議制御装置の映像合成の一例を示す図。 同実施形態に係る映像用多地点テレビ会議制御装置の映像合成の合成パターンの例を示す図。
符号の説明
1 音声用多地点テレビ会議制御装置
2 映像用多地点テレビ会議制御装置
3、4、5 LAN
10、20、30 パケット送受信部
11、21、35、55 バッファ部
12、36 映像復号化部
13 映像合成部
14、33 映像符号化部
15、25、34、54 タイムスタンプ付加部
16、26、40、60 制御部
22、56 音声復号化部
23 音声合成部
24 音声符号化部
31 撮影部
32、52 A/D部
37、57 D/A部
38 表示部
39、59 時刻管理部
51 集音部
53 音声符号化部
58 音声再生部
A1〜D1 音声端末装置
A2〜D2 映像端末装置
T1〜T4 NTPサーバ

Claims (11)

  1. 第1の端末における第1の情報の再生時刻を示す第1のタイムスタンプと前記第1の情報とを含む第1の受信情報および第2の端末における第2の情報の再生時刻を示す第2のタイムスタンプと前記第2の情報とを含む第2の受信情報を受信する受信部と、
    前記第1の受信情報内の前記第1の情報と前記第2の受信情報内の前記第2の情報とが入力されて第1の合成情報と第2の合成情報とを生成する合成部と、
    前記第1の合成情報と前記第1のタイムスタンプとを含む第1の送信情報および前記第2の合成情報と前記第2のタイムスタンプとを含む第2の送信情報を生成するタイムスタンプ付加部と、
    前記第1の送信情報を前記第1の端末宛に送信し、前記第2の送信情報を前記第2の端末宛に送信し、前記第1のタイムスタンプと前記第2のタイムスタンプとを他の情報合成装置宛に送信する送信部と、
    を備えた情報合成装置。
  2. 第1の端末における第1の情報の再生時刻を示す第1のタイムスタンプと前記第1の情報とを含む第1の受信情報、第2の端末における第2の情報の再生時刻を示す第2のタイムスタンプと前記第2の情報とを含む第2の受信情報、前記第1の端末における第3の情報の再生時刻を示す第3のタイムスタンプと前記第3の情報とを含む第3の受信情報、前記第2の端末における第4の情報の再生時刻を示す第4のタイムスタンプと前記第4の情報とを含む第4の受信情報、第5のタイムスタンプ、および第6のタイムスタンプを受信する受信部と、
    前記第1の受信情報と前記第2の受信情報と前記第3の受信情報と前記第4の受信情報とをバッファリングするバッファ部と、
    前記第5のタイムスタンプに基づいて前記バッファ部がバッファリングしている前記第1の受信情報と前記第3の受信情報とのいずれか一方を選択し、前記第6のタイムスタンプに基づいて前記バッファ部がバッファリングしている前記第2の受信情報と前記第4の受信情報とのいずれか一方を選択する選択部と、
    選択された前記受信情報内の前記情報を合成して第1の合成情報と第2の合成情報とを生成する合成部と、
    前記第5のタイムスタンプに基づいて選択した受信情報が含む前記タイムスタンプと前記第1の合成情報とを含む第1の送信情報、および前記第6のタイムスタンプに基づいて選択した受信情報が含む前記タイムスタンプと前記第2の合成情報とを含む第2の送信情報を生成するタイムスタンプ付加部と、
    前記第1の送信情報を前記第1の端末宛に送信し、前記第2の送信情報を前記第2の端末宛に送信する送信部と、
    を備えた情報合成装置。
  3. 前記選択部は、前記第1の受信情報と第3の受信情報とのうち前記第5のタイムスタンプが示す時刻に対して所定の許容時間内に入る時刻を示すタイムスタンプを含む前記受信情報を選択することを特徴とする請求項2記載の情報合成装置。
  4. 前記第1の情報および前記第2の情報は音声情報であり、前記他の情報合成装置が扱う情報は映像情報であり、
    前記受信部は、第3の端末における音声情報としての第3の情報の再生時刻を示す第3のタイムスタンプと前記第3の情報とを含む第3の受信情報を受信し、
    前記合成部は、前記第3の情報を除き前記第1の受信情報内の前記第1の情報と前記第2の受信情報内の前記第2の情報とを合成して第3の合成情報を生成し、
    前記タイムスタンプ付加部は、前記第3の合成情報と前記第3のタイムスタンプとを含む第3の送信情報を生成し、
    前記送信部は、前記第3の送信情報を前記第3の端末宛に送信し、前記第3のタイムスタンプを他の情報合成装置宛に送信することを特徴とする請求項1記載の情報合成装置。
  5. 前記第1の情報、前記第2の情報、前記第3の情報および前記第4の情報は音声情報であり、
    前記受信部は、第3の端末における音声情報としての第5の情報の再生時刻を示す第7のタイムスタンプと前記第5の情報とを含む第5の受信情報を受信し、前記第3の端末における音声情報としての第6の情報の再生時刻を示す第8のタイムスタンプと前記第6の情報とを含む第6の受信情報を受信し、第9のタイムスタンプを受信し、
    前記選択部は前記第9のタイムスタンプに基づいて前記バッファ部がバッファリングしている前記第5の受信情報と前記第6の受信情報とのいずれか一方を選択し、
    前記合成部は、選択された前記第5の受信情報または第6の受信情報を除き、選択された前記第1または第3の受信情報内の前記第1または第3の情報と、選択された前記第2または第4の受信情報内の前記第2または第4の情報とを合成して第3の合成情報を生成し、
    前記タイムスタンプ付加部は、前記第3の合成情報と、選択された前記第5の受信情報または前記第6の受信情報が含む前記第7または第8のタイムスタンプとを有する第3の送信情報を生成し、
    前記送信部は、前記第3の送信情報を前記第3の端末宛に送信することを特徴とする請求項2記載の情報合成装置。
  6. 前記第1の情報および前記第2の情報は映像情報であり、前記他の情報合成装置が扱う情報は音声情報であることを特徴とする請求項1記載の情報合成装置。
  7. 前記合成部は、あらかじめ与えられた端末毎の映像配置情報に基づいて合成を行うことを特徴とする請求項1ないし6のいずれかに記載の情報合成装置。
  8. 第1の情報合成装置と第2の情報合成装置とを備えた情報合成システムであって、
    前記第1の情報合成装置は、
    第1の端末における第1の情報の再生時刻を示す第1のタイムスタンプと前記第1の情報とを含む第1の受信情報および第2の端末における第2の情報の再生時刻を示す第2のタイムスタンプと前記第2の情報とを含む第2の受信情報を受信する第1の受信部と、
    前記第1の受信情報内の前記第1の情報と前記第2の受信情報内の前記第2の情報とが入力されて第1の合成情報と第2の合成情報とを生成する第1の合成部と、
    前記第1の合成情報と前記第1のタイムスタンプとを含む第1の送信情報および前記第2の合成情報と前記第2のタイムスタンプとを含む第2の送信情報を生成する第1のタイムスタンプ付加部と、
    前記第1の送信情報を前記第1の端末宛に送信し、前記第2の送信情報を前記第2の端末宛に送信し、前記第1のタイムスタンプと前記第2のタイムスタンプとを前記第2の情報合成装置宛に送信する第1の送信部と、を有し、
    前記第2の情報合成装置は、
    前記第1の端末における第3の情報の再生時刻を示す第3のタイムスタンプと前記第3の情報とを含む第3の受信情報、前記第2の端末における第4の情報の再生時刻を示す第4のタイムスタンプと前記第4の情報とを含む第4の受信情報、前記第1の端末における第5の情報の再生時刻を示す第5のタイムスタンプと前記第5の情報とを含む第5の受信情報、前記第2の端末における第6の情報の再生時刻を示す第6のタイムスタンプと前記第6の情報とを含む第6の受信情報、前記第1のタイムスタンプ、および前記第2のタイムスタンプを受信する第2の受信部と、
    前記第3の受信情報と前記第4の受信情報と前記第5の受信情報と前記第6の受信情報とをバッファリングするバッファ部と、
    前記第1のタイムスタンプに基づいて前記バッファ部がバッファリングしている前記第3の受信情報と前記第5の受信情報とのいずれか一方を選択し、前記第2のタイムスタンプに基づいて前記バッファ部がバッファリングしている前記第4の受信情報と前記第6の受信情報とのいずれか一方を選択する選択部と、
    選択された前記受信情報内の前記情報を合成して第3の合成情報と第4の合成情報とを生成する第2の合成部と、
    前記第1のタイムスタンプに基づいて選択した受信情報が含む前記タイムスタンプと前記第3の合成情報とを含む第3の送信情報、および前記第2のタイムスタンプに基づいて選択した受信情報が含む前記タイムスタンプと前記第4の合成情報とを含む第4の送信情報を生成する第2のタイムスタンプ付加部と、
    前記第3の送信情報を前記第1の端末宛に送信し、前記第4の送信情報を前記第2の端末宛に送信する第2の送信部と、を有する、
    ことを特徴とする情報合成システム。
  9. 第1の端末における第1の情報の再生時刻を示す第1のタイムスタンプと前記第1の情報とを含む第1の受信情報および第2の端末における第2の情報の再生時刻を示す第2のタイムスタンプと前記第2の情報とを含む第2の受信情報を受信し、
    前記第1の受信情報内の前記第1の情報と前記第2の受信情報内の前記第2の情報とから第1の合成情報と第2の合成情報とを生成し、
    前記第1の合成情報と前記第1のタイムスタンプとを含む第1の送信情報および前記第2の合成情報と前記第2のタイムスタンプとを含む第2の送信情報を生成し、
    前記第1の送信情報を前記第1の端末宛に送信し、前記第2の送信情報を前記第2の端末宛に送信し、
    前記第1のタイムスタンプと前記第2のタイムスタンプとを記憶し、
    前記第1の端末における第3の情報の再生時刻を示す第3のタイムスタンプと前記第3の情報とを含む第3の受信情報、前記第2の端末における第4の情報の再生時刻を示す第4のタイムスタンプと前記第4の情報とを含む第4の受信情報、前記第1の端末における第5の情報の再生時刻を示す第5のタイムスタンプと前記第5の情報とを含む第5の受信情報、前記第2の端末における第6の情報の再生時刻を示す第6のタイムスタンプと前記第6の情報とを含む第6の受信情報を受信し、
    前記第3の受信情報と前記第4の受信情報と前記第5の受信情報と前記第6の受信情報とをバッファリングし、
    バッファリングされている前記第3の受信情報と前記第5の受信情報とのいずれか一方を前記第1のタイムスタンプに基づいて選択し、バッファリングされている前記第4の受信情報と前記第6の受信情報とのいずれか一方を前記第2のタイムスタンプに基づいて選択し、
    選択された前記受信情報内の前記情報を合成して第3の合成情報と第4の合成情報とを生成し、
    前記第1のタイムスタンプに基づいて選択した受信情報が含む前記タイムスタンプと前記第3の合成情報とを含む第3の送信情報、および前記第2のタイムスタンプに基づいて選択した受信情報が含む前記タイムスタンプと前記第4の合成情報とを含む第4の送信情報を生成し、
    前記第3の送信情報を前記第1の端末宛に送信し、前記第4の送信情報を前記第2の端末宛に送信する、
    ことを特徴とする情報同期方法。
  10. 第1の端末における第1の情報の再生時刻を示す第1のタイムスタンプと前記第1の情報とを含む第1の受信情報および第2の端末における第2の情報の再生時刻を示す第2のタイムスタンプと前記第2の情報とを含む第2の受信情報を受信するステップと、
    前記第1の受信情報内の前記第1の情報と前記第2の受信情報内の前記第2の情報とから第1の合成情報と第2の合成情報とを生成するステップと、
    前記第1の合成情報と前記第1のタイムスタンプとを含む第1の送信情報および前記第2の合成情報と前記第2のタイムスタンプとを含む第2の送信情報を生成するステップと、
    前記第1の送信情報を前記第1の端末宛に送信し、前記第2の送信情報を前記第2の端末宛に送信し、前記第1のタイムスタンプと前記第2のタイムスタンプとを他のコンピュータ宛に送信するステップと、
    をコンピュータに実行させるためのプログラム。
  11. 第1の端末における第1の情報の再生時刻を示す第1のタイムスタンプと前記第1の情報とを含む第1の受信情報、第2の端末における第2の情報の再生時刻を示す第2のタイムスタンプと前記第2の情報とを含む第2の受信情報、第1の端末における第3の情報の再生時刻を示す第3のタイムスタンプと前記第3の情報とを含む第3の受信情報、第2の端末における第4の情報の再生時刻を示す第4のタイムスタンプと前記第4の情報とを含む第4の受信情報、第5のタイムスタンプ、および第6のタイムスタンプを受信するステップと、
    前記第1の受信情報と前記第2の受信情報と前記第3の受信情報と前記第4の受信情報とをバッファリングするステップと、
    バッファリングされている前記第1の受信情報と前記第3の受信情報とのいずれか一方を前記第5のタイムスタンプに基づいて選択し、バッファリングされている前記第2の受信情報と前記第4の受信情報とのいずれか一方を前記第6のタイムスタンプに基づいて選択するステップと、
    選択された前記受信情報内の前記情報を合成して第1の合成情報と第2の合成情報とを生成するステップと、
    前記第5のタイムスタンプに基づいて選択した受信情報が含む前記タイムスタンプと前記第1の合成情報とを含む第1の送信情報、および前記第6のタイムスタンプに基づいて選択した受信情報が含む前記タイムスタンプと前記第2の合成情報とを含む第2の送信情報を生成するステップと、
    前記第1の送信情報を前記第1の端末宛に送信し、前記第2の送信情報を前記第2の端末宛に送信するステップと、
    をコンピュータに実行させるためのプログラム。
JP2005201951A 2005-07-11 2005-07-11 情報合成装置、情報合成システム、情報同期方法およびプログラム Abandoned JP2007020095A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005201951A JP2007020095A (ja) 2005-07-11 2005-07-11 情報合成装置、情報合成システム、情報同期方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005201951A JP2007020095A (ja) 2005-07-11 2005-07-11 情報合成装置、情報合成システム、情報同期方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2007020095A true JP2007020095A (ja) 2007-01-25

Family

ID=37756813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005201951A Abandoned JP2007020095A (ja) 2005-07-11 2005-07-11 情報合成装置、情報合成システム、情報同期方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2007020095A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009100134A (ja) * 2007-10-15 2009-05-07 Yamaha Corp 情報処理装置及びプログラム
JP2010016449A (ja) * 2008-07-01 2010-01-21 Kddi Corp グループ通信装置及びグループ通信プログラム
JP2010016448A (ja) * 2008-07-01 2010-01-21 Kddi Corp 同期制御装置、及び同期制御プログラム
JP2013172193A (ja) * 2012-02-17 2013-09-02 Ntt Communications Kk 映像表示システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009100134A (ja) * 2007-10-15 2009-05-07 Yamaha Corp 情報処理装置及びプログラム
JP2010016449A (ja) * 2008-07-01 2010-01-21 Kddi Corp グループ通信装置及びグループ通信プログラム
JP2010016448A (ja) * 2008-07-01 2010-01-21 Kddi Corp 同期制御装置、及び同期制御プログラム
JP2013172193A (ja) * 2012-02-17 2013-09-02 Ntt Communications Kk 映像表示システム

Similar Documents

Publication Publication Date Title
KR100763269B1 (ko) 화상 부호화 데이터의 전환 방법 및 장치, 시스템 및 프로그램을 기록한 기록 매체
EP2728830B1 (en) Method and system for synchronizing audio and video streams in media relay conferencing
CN108206833B (zh) 音视频数据传输方法及其系统
US20070002902A1 (en) Audio and video synchronization
JP2001268080A (ja) データ伝送方法およびデータ伝送システム
JP6172610B2 (ja) テレビ会議用システム
US20070047590A1 (en) Method for signaling a device to perform no synchronization or include a synchronization delay on multimedia stream
US20110167174A1 (en) Method and System for In-Band Signaling of Multiple Media Streams
WO2011050690A1 (zh) 用于录制和回播多媒体会议的方法和系統
JPWO2008069160A1 (ja) Pttサーバ、ptt通信システム、ptt通信方法、及びプログラム
JP4155185B2 (ja) コンテンツ配信方法、コンテンツ配信サーバ、およびコンテンツ受信装置
US20120307913A1 (en) Content communication device, content processing device and content communication system
JP2008288974A (ja) ビデオ会議システム及びビデオ会議装置
JP2007020095A (ja) 情報合成装置、情報合成システム、情報同期方法およびプログラム
JP2012151555A (ja) テレビ会議システム、テレビ会議中継装置、テレビ会議中継方法および中継プログラム
JP3775455B2 (ja) 会議端末装置および会議関連情報の送信方法
WO2016147538A1 (ja) テレビ会議用通信装置
JP2013042492A (ja) 常駐表示式ビデオ会議においてビデオストリームを切替える方法およびシステム
JP2006033743A (ja) 送信装置、受信装置、及び送受信装置
JP2004289295A (ja) データ処理システム、データ処理装置及びデータ処理方法
JP4218456B2 (ja) 通話装置、通話方法及び通話システム
JP2008131591A (ja) リップシンク制御装置及びリップシンク制御方法
WO2007068139A1 (fr) Systeme et procede pour la commande de flux multimedias sur la communication video a plusieurs abonnes
JP5434390B2 (ja) 電子会議システム、多地点接続装置、データ通信方法、プログラム、記録媒体及び通信装置
JP2002290940A (ja) テレビ会議システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090903

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20100104