JP2008061010A - 映像音声送信装置 - Google Patents

映像音声送信装置 Download PDF

Info

Publication number
JP2008061010A
JP2008061010A JP2006236802A JP2006236802A JP2008061010A JP 2008061010 A JP2008061010 A JP 2008061010A JP 2006236802 A JP2006236802 A JP 2006236802A JP 2006236802 A JP2006236802 A JP 2006236802A JP 2008061010 A JP2008061010 A JP 2008061010A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
time
signal
video
audio
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006236802A
Other languages
English (en)
Inventor
Tatsuya Koretsu
Takeshi Nagai
Junichi Takahashi
達也 是津
剛 永井
淳一 高橋
Original Assignee
Toshiba Corp
株式会社東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Images

Abstract

【課題】 映像信号が実時間で撮影される映像と、記録済みの映像との間で切り替えられる際、映像音声再生装置が映像信号と、音声信号との同期を取ることが容易なタイムスタンプを送信する映像音声送信装置を提供する。
【解決手段】 時刻T1で映像と音声の送信が開始され、実時間で撮影される映像の最初のサンプルが得られる時刻T4と、音声の最初のサンプルが得られる時刻T2との間には、時間差Δがある。映像は、カメラが垂直同期等に従って周期的にサンプリングをしているためである。そこで、RTCPパケットの一種であるSRパケットにおいて、映像のタイムスタンプと、音声のタイムスタンプとの間に時間差Δを置き、時刻T8で記録済みの映像の送信に切り替えられた後も、この時間差Δを置く。
【選択図】 図9

Description

本発明は、映像音声送信装置に係り、特に、映像信号と、音声信号とにタイムスタンプを付す処理に関する。

映像と音声とによる実時間の通信のため、映像信号と音声信号とをそれぞれパケット化したストリームとして送信することが知られている。この通信に、例えば、RTP(Real-time Transport Protocol)プロトコルとそのプロトコルに関連したプロファイルが用いられる。ここで、実時間での通信には、双方向通信、例えば、テレビ電話システムによる通信も含まれる。

RTPパケットは、そのパケットに含まれる映像信号または音声信号を再生する時刻を決定するために用いられるタイムスタンプを含んで送信される。このタイムスタンプは、メディアクロックが示す時刻が設定されたものである。

なお、映像信号が含まれるパケットのタイムスタンプ(以後、映像信号のタイムスタンプと称する。)と、音声信号が含まれるパケットのタイムスタンプ(以後、音声信号のタイムスタンプと称する。)とは、それぞれに独立したタイムスタンプであり、それぞれに任意の初期値が選択されて用いられる。

また、例えば、映像信号が実時間で撮影される映像と、記録済みの映像との間で切り替えられる場合、映像信号のタイムスタンプに新たな初期値を選択し、切り替えの前後でそのタイムスタンプを不連続とすることが知られている。

そして、メディアクロックが示す2つの時刻は、送信側装置によって、同一の時間軸であるNTP(Network Time Protocol)形式のタイムスタンプに関連付けられる。この関連付けは、RTCP(RTP Control Protocol)の一種であるSR(Sender Report)パケットによって、映像信号のタイムスタンプと、音声信号のタイムスタンプとについて、それぞれNTP形式のタイムスタンプとの対応として送信される。

受信側装置は、このSRパケットを受信して、NTPタイムスタンプを介して、映像信号のタイムスタンプと、音声信号のタイムスタンプとを関連付ける。そして、映像信号と、音声信号とを同期を取って再生する。

映像信号のタイムスタンプと、音声信号のタイムスタンプとに、それぞれの信号の伝送に依存するずれがある場合、及び、受信側装置で映像信号を処理するための所要時間と、音声信号を処理するための所要時間とに差がある場合、受信側装置は、それらのずれ及び差を検出する。そして、NTPタイムスタンプを介して、映像信号のタイムスタンプと、音声信号のタイムスタンプとを関連付けることに加えて、これらのタイムスタンプのずれ及び差を補正の上、映像信号と、音声信号とを同期を取って再生する処理が知られている(例えば、特許文献1参照。)。
特開2005−286449号公報(第2−3頁、図10)

しかしながら、上述した特許文献1に開示されている方法では、映像信号が実時間で撮影される映像と、記録済みの映像との間で切り替えられる場合、受信側装置は、切り替えられてから映像信号と、音声信号との同期を改めて取って再生する。そこで、その再生までに複数のパケットを受信して、タイムスタンプのずれ及び差を補正する必要がある。そのため、映像信号と、音声信号との再生が遅れ、装置の使用者に違和感を与える可能性がある問題点があった。

一方、この遅れを避けるためには、受信側装置は、タイムスタンプのずれ及び差の補正及び同期が取れたことを待たずに映像信号と、音声信号との再生を行う。そのため、使用者に同期のずれを感じさせる可能性がある問題点があった。これらの問題点は、実時間の双方向通信において顕著である。

本発明は上記問題点を解決するためになされたもので、映像信号が実時間で撮影される映像と、記録済みの映像との間で切り替えられる際、映像音声再生装置が映像信号と、音声信号との同期を取ることが容易なタイムスタンプを送信する映像音声送信装置を提供することを目的とする。

上記目的を達成するために、本発明の映像音声送信装置は、映像信号と映像信号タイムスタンプとからなる映像信号パケットを送信する映像送信手段と、音声信号と音声信号タイムスタンプとからなる音声信号パケットを送信する音声送信手段と、前記映像信号タイムスタンプと共通タイムスタンプとの対応からなる映像信号タイムスタンプ対応パケット、及び、前記音声信号タイムスタンプと前記共通タイムスタンプとの対応からなる音声信号タイムスタンプ対応パケットを送信するタイムスタンプ対応パケット送信手段とを有し、前記タイムスタンプ対応パケット送信手段は、前記映像信号タイムスタンプ対応パケット及び/または前記音声信号タイムスタンプ対応パケットに含まれる2つのタイムスタンプの対応に所定の補正値の補正を施すことを特徴とする。

本発明によれば、映像信号が実時間で撮影される映像と、記録済みの映像との間で切り替えられる際、映像音声再生装置が映像信号と、音声信号との同期を取ることが容易なタイムスタンプを送信する映像音声送信装置を提供することができる。

以下に、本発明による映像音声送信装置の実施の形態を、図面を参照して説明する。

図1は、本発明の実施形態に係る映像音声送信装置が適用された映像音声通信システムの構成を示すブロック図である。この映像音声通信システムは、本発明の実施形態に係る映像音声送信装置10と、映像音声受信装置20とが通信網30を介して接続されている。ここで、映像音声受信装置20は、1台に限るものではない。通信網30は、映像音声送信装置10から送信された情報を映像音声受信装置20に伝送する。また、映像音声受信装置20から送信された情報を映像音声送信装置10に伝送する。

図2は、映像音声送信装置10の構成を示すブロック図である。映像音声送信装置10は、装置全体の制御を行う制御部11と、通信網30に接続される通信部12と、送受信部13と、表示部14と、入力装置15と、映像コンテンツ記憶部16と、エンコード部17と、送信される映像が入力されるカメラ17aと、送信される音声が入力されるマイクロフォン17bとからなる。

映像コンテンツ記憶部16には、映像コンテンツ16aが記憶される。映像コンテンツ16aは、映像信号が所定の方式によってエンコードされた信号である。この所定の方式は、後述する、エンコード部17がエンコードする際の方式と等しいことを必ずしも要しない。また、映像コンテンツ記憶部16は、取り外し可能な記憶媒体であっても良い。

図3は、送受信部13の詳細な構成を示すブロック図である。送受信部13は、制御部11と通信部12と映像コンテンツ記憶部16とエンコード部17とに接続される送信部13aと、クロック部13bと、制御部11と通信部12とに接続される受信部13cとからなる。

送信部13aは、映像コンテンツ記憶部16とエンコード部17とクロック部13bとに接続されるRTP送信部13dと、クロック部13bと接続されるRTCP送信部13eと、制御部11と通信部12とに接続される変調部13fとからなる。クロック部13bは、送信部13aと接続されるメディアクロック部13gと、送信部13aと接続されるNTP部13hとからなる。受信部13cは、制御部11と通信部12とに接続される復調部13iと、RTCP受信部13jとからなる。

図4は、映像音声受信装置20の構成を示すブロック図である。この映像音声受信装置20は、装置全体の制御を行う制御部21と、通信網30に接続される通信部22と、送受信部23と、表示部24と、入力装置25と、復号再生部26と、受信された音声情報再生用のスピーカ26aとからなる。

図5は、送受信部23の詳細な構成を示すブロック図である。送受信部23は、制御部21と通信部22とに接続される送信部23aと、制御部21と通信部22と復号再生部26とに接続される受信部23bとからなる。そして、送信部23aは、RTCP送信部23cと、制御部21と通信部22とに接続される変調部23dとからなる。受信部23bは、制御部21と通信部22とに接続される復調部23eと、復号再生部26に接続されるRTP受信部23fと、復号再生部26に接続されるRTCP受信部23gとからなる。

上記のように構成された、本発明の実施形態に係る映像音声送信装置が適用された映像音声通信システムの各部の動作を、映像音声送信装置10の各部の動作から、図2を参照して説明する。通信部12は、通信網30を介して受信された信号を送受信部13に出力し、また、送受信部13から出力される信号を通信網30を介して送信する。

送受信部13は、通信部12から出力された信号を復調し、それによって得られた制御信号を制御部11に送る。更には、制御部11から出力される信号、及び映像コンテンツ記憶部16またはエンコード部17から出力される映像信号と音声信号とを変調し、通信部12に送る。送受信部13の動作の詳細は、後述する。

表示部14は、制御部11に制御されることで、文字・数字や画像データの表示動作を行い、表示されているデータは、入力装置15からの入力操作や着信信号に応答して制御部11からの指示を受けることで切換わる。

入力装置15は、文字キーと数字キーと複数の機能キーとを含むキーからなる。そして、入力装置15のキーが操作されると、そのキーの識別子が制御部11に通知され、制御部11によって、表示部14に文字として表示され、または、映像音声送信装置10の各部の制御が行われる。

エンコード部17は、映像信号及び音声信号をエンコードする装置であり、制御部11の起動により動作を開始する。そして、カメラ17aから出力された映像を受信して、その映像から所定の間隔で連続する静止画を作成し、作成された静止画を所定の方式によってエンコードして送受信部13に送信する。また、エンコード部17は、マイクロフォン17bから出力された音声信号を受信して、その音声信号をデジタル信号に変換の上、所定の間隔で分割し、分割された音声信号を所定の方式によってエンコードして送受信部13に送信する。

次に、送受信部13の動作の詳細を図3、図6及び図7を参照して説明する。RTP送信部13dは、映像コンテンツ記憶部16に記憶された映像コンテンツ16aを読み込んで、または、エンコード部17から送信されたエンコードされた映像信号もしくはエンコードされた音声信号を受信して、読み込みまたは受信の毎に、RTPパケットを作成する。

図6は、RTPパケットの構成の一例を示す。このRTPパケット13mは、ストリーム識別子13nと、タイムスタンプ13oと、ストリームデータ13pとからなる。ストリーム識別子13nは、「映像」か、「音声」かのいずれかであって、それぞれストリームデータ13pが、映像情報であるか、音声情報であるかを示す。

タイムスタンプ13oは、そのRTPパケット13mのストリームデータ13pが再生される時刻を示す情報であり、上記読み込みまたは受信の際にメディアクロック部13gが示す時刻である。なお、メディアクロック部13gは、映像信号のための時刻と、音声信号のための時刻とを独立して示す。そこで、RTP送信部13dは、ストリーム識別子13nが「映像」である場合と、ストリーム識別子13nが「音声」である場合とで、それぞれ異なる時刻をメディアクロック部13gから受信してタイムスタンプ13oに設定する。

ストリームデータ13pは、映像コンテンツ記憶部16から読み込んだ映像コンテンツ16a、または、エンコード部17から受信したエンコードされた映像信号、またはエンコードされた音声信号である。

RTCP送信部13eは、所定の時間間隔でRTCPパケットの一種であるSRパケットを作成する。

図7は、SRパケットの構成の一例を示す。このSRパケット13rは、ストリーム識別子13sと、タイムスタンプ13tと、NTP13uとからなる。ストリーム識別子13sは、「映像」か、「音声」かのいずれかである。タイムスタンプ13tは、メディアクロック部13gが示す時刻であって、ストリーム識別子13sが、「映像」か「音声」かに従って、それぞれ映像信号のための時刻か、音声信号のための時刻である。なお、後述するように、RTCP送信部13eは、これらの時刻に補正を施した時刻をタイムスタンプ13tに設定する。NTP13uは、メディアクロック部13gが上記時刻を示す際にNTP部13hが示す時刻である。

変調部13fは、RTP送信部13dによって作成されたRTPパケット13mと、RTCP送信部13eによって作成されたSRパケット13rと、制御部11によって送信された制御信号とを変調して、通信部12に送る。

なお、RTP送信部13dによって作成されたRTPパケット13m及びRTCP送信部13eによって作成されたSRパケット13rは、パケット記憶部(図示せず)に記憶されるとしても良い。

メディアクロック部13gは、要求に応じて、要求された際の時刻を示す。この時刻は、映像信号のための時刻か、音声信号のための時刻かのいずれかが要求に応じて選択される。メディアクロック部13gは、これらの時刻の初期値をRTP送信部13dの制御に従って、設定する。そして、設定の後、それらの時刻を実時刻が進むことと対応させてそれぞれについて定められた所定の割合で進ませる。

NTP部13hは、要求に応じて、要求された際の時刻を示す。この時刻は、NTP形式のタイムスタンプであるが、これに限るものではない。NTP形式でなくとも良く、映像信号と、音声信号とで共通のタイムスタンプであれば良い。

復調部13iは、通信部12から出力された信号を受信して、復調し、得られた制御信号を制御部11に送り、また、RTCPパケットの一種であるRR(Receiver Reports)パケットをRTCP受信部13jに送る。RRパケットについては、後述する。RTCP受信部13jは、受信されたRRパケットに従って、送受信部13の各部を制御する(図示せず)。また、エンコード部17を制御して、エンコードされた信号のビット数を変化させる(図示せず)。

次に、映像音声受信装置20の各部の動作を、図4を参照して説明する。通信部22は、通信網30を介して受信した信号を送受信部23へ出力し、また、送受信部23から出力される信号を通信網30を介して送信する。

送受信部23は、通信部22からの信号を復調し、それによって得られた制御信号を制御部21に、また、映像信号と、音声信号とを復号再生部26に送る。更には、制御部21から出力される制御信号を変調して、通信部22に送る。送受信部23の動作の詳細は、後述する。

表示部24は、制御部21に制御されることで、文字・数字や画像データの表示動作を行い、表示されているデータは、入力装置25からの入力操作に応答して制御部21からの指示を受けることで切換わる。

入力装置25は、複数のキーからなる。そして、入力装置25のキーが操作されると、そのキーの識別子が制御部21に通知され、制御部21によって、表示部24に文字として表示され、または、映像音声受信装置20の各部の制御が行われる。

復号再生部26は、送受信部23から送信された映像信号と、音声信号とを受信する。これらの信号には、それぞれの信号が再生される時刻が付加されている。復号再生部26は、受信された情報を、映像情報と、音声情報とに分類し、映像情報と音声情報とは復号して、復号再生部26内のバッファ記憶部(図示せず)に記憶する。

そして、復号再生部26は、再生される時刻とクロック(図示せず)が示す時刻とによって、上記映像情報及び音声情報を再生する時刻になったか否かを判断し、再生する時刻になった映像情報を表示部24に表示する。また、再生する時刻になった音声情報をスピーカ26aから発生させる。

なお、復号再生部26は、送受信部23から送信された映像信号が再生される時刻と、音声が再生される時刻との同期を示す情報を受信して、上記2つの時刻の一方、または両方を補正して、再生する。

次に、送受信部23の動作の詳細を、図5〜図7を参照して説明する。RTCP送信部23cは、RTCPパケットの一種であるRRパケットを作成する。RRパケットは、受信された映像音声信号の受信品質を示すレポートであって、受信部23bによって計測されたデータである(図示せず)。

変調部23dは、制御部21から送信される制御信号と、RTCP送信部23cによって作成されたRTCPパケットとを変調し、通信部22に送る。

復調部23eは、通信部22からの信号を復調し、それによって得られた制御信号を制御部21に、RTPパケット13mをRTP受信部23fに、また、SRパケット13rをRTCP受信部23gに送信する。

RTP受信部23fは、復調部23eから送信されたRTPパケット13mを受信し、受信されたRTPパケット13mを、ストリーム識別子13nによって映像信号のパケットと、音声信号のパケットに分類する。そして、それぞれのパケットのストリームデータ13pを再生する時刻を指定して、復号再生部26に送って復号再生させる。

上記再生する時刻は、映像信号については、ストリーム識別子13nが「映像」であるRTPパケット13mのタイムスタンプ13oによる。音声信号については、ストリーム識別子13nが「音声」であるRTPパケット13mのタイムスタンプ13oによる。

RTCP受信部23gは、SRパケット13rを受信して、ストリーム識別子13sが「映像」であるタイムスタンプ13tと、ストリーム識別子13sが「音声」であるタイムスタンプ13tとを、共通のタイムスタンプであるNTP13uによって関連つけて、復号再生部26に送って、再生時刻の補正をさせる。

次に、上記のように本発明の実施形態に係る映像音声送信装置が適用された映像音声通信システムにおいて、映像音声送信装置10が送信する映像信号が実時間で撮影される映像と、記録済みの映像との間で切り替えられる際、映像音声受信装置20において、映像信号と、音声信号との同期を容易に取ることができるタイムスタンプを映像音声送信装置10が送信する動作を図8〜図10を参照して説明する。

図8は、カメラ17aによって実時間で撮影された映像と、マイクロフォン17bによって入力された音声とが映像音声送信装置10から送信を開始される際の映像音声送信装置10の各部の動作を示すシーケンス図である。この図を参照して、各部の処理時間と、最初に送信されるストリーム識別子13nが「映像」であるRTPパケット13mのタイムスタンプ13oと、最初に送信されるストリーム識別子13nが「音声」であるRTPパケット13mのタイムスタンプ13oとを説明する。

横軸は、時刻を示し、時刻T1で送信開始を示す入力装置15の所定のキー操作が行われ、制御部11によって送信開始が各部に指示される。すると、映像信号と音声信号のそれぞれについて、サンプリング開始遅延時間があり、映像信号は時刻T4に、音声信号は時刻T2にそれぞれサンプリングが開始される。ここで、映像は、カメラ17aが垂直同期等に従って周期的にサンプリングをしているため、次のサンプリング周期までサンプリングを開始できない。即ち、サンプリング開始遅延時間が長い。即ち、時刻T4<時刻T2であることが多い。この時間差Δ=時刻T4−時刻T2とする。

映像信号は、時刻T4にサンプリングが開始され、サンプリング遅延時間を経た時刻T5にサンプリングが終了する。そして、エンコード部17によるエンコードのためにエンコード時間が費やされ、時刻T7にエンコードが終了し、エンコードされた映像信号がRTP送信部13dに送信される。

この映像信号は、カメラ17aによって実時間で撮影された映像が処理されて最初にRTP送信部13dに送信された映像信号である。そこで、RTP送信部13dは、メディアクロック部13gにメディアクロック部13gが示す映像信号のための時刻を所定の初期値に設定させ、以後、その時刻を実時刻が進むことと対応させて進ませる。

そして、最初に送信されるストリーム識別子13nが「映像」であるRTPパケット13mのタイムスタンプ13oには、上記初期値の設定後、この時刻T7でのメディアクロック部13gが示す時刻が設定される。即ち、この時刻T7に関連付けられた時刻が設定される。

音声信号は、時刻T2にサンプリングが開始され、サンプリング遅延時間を経た時刻T3にサンプリングが終了する。そして、エンコード部17によるエンコードのためにエンコード時間が費やされ、時刻T6にエンコードが終了し、エンコードされた音声信号がRTP送信部13dに送信される。

この音声信号は、最初にRTP送信部13dに送信された音声信号である。そこで、RTP送信部13dは、メディアクロック部13gにメディアクロック部13gが示す音声信号のための時刻を所定の初期値に設定させ、以後、その時刻を実時刻が進むことと対応させて進ませる。

そして、最初に送信されるストリーム識別子13nが「音声」であるRTPパケット13mのタイムスタンプ13oには、上記初期値の設定後、この時刻T6でのメディアクロック部13gが示す時刻が設定される。即ち、この時刻T6に関連付けられた時刻が設定される。

ここで、タイムスタンプ13oには、エンコードが終了した時刻T6、時刻T7に関連付けられた時刻が設定されるとした。この処理によって、エンコード部17の動作と、RTP送信部13dの動作とが分離される利点がある。即ち、エンコード部17と、RTP送信部13dとの間には、エンコードされた信号の送受信のみが行われることになり、それぞれの処理部の独立性が増す。

上記時間差Δは、上記説明から明らかなように、送信開始の都度、異なる値となる。しかし、平均値は、映像音声送信装置10の機器構成と、カメラ17aによって映像が扱われる際のフレームレートから算出可能であり、事前に算出された時間差ΔがRTCP送信部13e内に記憶されているとする。

RTCP送信部13eは、ストリーム識別子13sが「映像」であるSRパケット13rと、ストリーム識別子13sが「音声」であるSRパケット13rの作成にあたり、以下のように、上記時間差Δを補正する処理を行う。

即ち、ストリーム識別子13sが「音声」であるSRパケット13rについては、既に説明した通り、メディアクロック部13gが示す音声信号のための時刻をタイムスタンプ13tに、そして、上記時刻が示された際にNTP部13hによって示された時刻をNTP13uに設定する。

一方、ストリーム識別子13sが「映像」であるSRパケット13rについては、メディアクロック部13gが示す映像信号のための時刻から時間差Δを減じた値をタイムスタンプ13tに、そして、上記時刻が示された際にNTP部13hによって示された時刻をNTP13uに設定する。このように、時間差Δを補正することにより、上記最初に送信されるストリーム識別子13nが「映像」であるRTPパケット13mのストリームデータ13pと、最初に送信されるストリーム識別子13nが「音声」であるRTPパケット13mのストリームデータ13pとを容易に同期を取って再生させることができる。

なお、上記補正は、ストリーム識別子13sが「映像」であるSRパケット13rのタイムスタンプ13tに施すとしたが、これに限らないことは言うまでもない。ストリーム識別子13sが「映像」であるSRパケット13rのタイムスタンプ13t、そのパケットのNTP13u、ストリーム識別子13sが「音声」であるSRパケット13rのタイムスタンプ13t、そのパケットのNTP13uのいずれか、または、複数に施しても同等の効果を得ることができる。

図9は、カメラ17aによって実時間で撮影された映像の送信から、映像コンテンツ記憶部16に記憶された映像コンテンツ16aの送信に切り替えられる際の、映像音声送信装置10の各部の動作を説明するシーケンス図である。ここで、音声の送信は、音源が切り替えられることなく続けられ、メディアクロック部13gが示す音声信号のための時刻は、実時刻が進むことと対応して連続して進むので、同じ説明を繰り返さない。

既に図8を参照して説明した通り、カメラ17aからの映像信号は時刻T4にサンプリングが開始される。そして、時刻T8に入力装置15からの所定のキー操作が行われ、制御部11によって、映像コンテンツ記憶部16に記憶された映像コンテンツ16aの送信への切り替えが指示される。この切り替えの後の映像信号は時刻T10に、音声信号は時刻T9にそれぞれサンプリングが開始される。

ここで、映像信号のサンプリングが開始されるまでの時間(時刻T8〜時刻T10)は、映像コンテンツ16aを読み込むための時間であり、映像コンテンツ記憶部16の仕様に依存するが、カメラ17aが垂直同期等によって周期的にサンプリングをしているためのサンプリング開始遅延時間より短いことが多い。

映像が切り替えられてから映像信号のサンプリングが開始されるまでの時間(時刻T8〜時刻T10)と、音声信号のサンプリングが開始されるまでの時間(時刻T8〜時刻T9)との間には、例えば、時刻T10が時刻T9より遅いとして、第2の時間差=時刻T10−時刻T9がある。

時刻T10に最初にサンプリングされた映像信号である映像コンテンツ16aは、エンコードされているため、直ちにRTP送信部13dに送信される。なお、映像コンテンツ16aのエンコード方式がエンコード部17によって行われるエンコード方式と異なれば、エンコード部17によって、エンコード部17が行うエンコード方式にエンコードがやり直され、そのためにエンコード時間が費やされる(図示せず)。なお、このエンコードのやり直しに要する時間は、新たなエンコードに要する時間より短いのが通例である。

この映像信号は、映像コンテンツ記憶部16から読み込まれた映像コンテンツ16aが処理されて最初にRTP送信部13dに送信された映像信号である。即ち、送信される映像源の切り替えが行われたので、既に述べた通り、RTP送信部13dは、メディアクロック部13gにメディアクロック部13gが示す映像信号のための時刻を所定の初期値に設定させ、以後、その時刻を実時刻が進むことと対応させて進ませる。そこで、メディアクロック部13gが示す映像信号のための時刻は、切り替え前とは不連続である。

そして、切り替え後に最初に送信されるストリーム識別子13nが「映像」であるRTPパケット13mのタイムスタンプ13oには、上記初期値の設定後、この時刻T10でのメディアクロック部13gが示す時刻が設定される。即ち、この時刻T10に関連付けられた時刻が設定される。

時刻T11に、切り替え後、最初のストリーム識別子13sが「映像」であるSRパケット13rが送信される。このSRパケット13rのストリーム識別子13sには、「映像」、NTP13uには、NTP部13hが示す時刻が設定される。そして、タイムスタンプ13tには、((T11−T10)+(時刻T10でメディアクロック部13gが上記切り替え後に示す時刻)−時間差Δ)が設定される。

このタイムスタンプ13tに設定される値は、上記切り替え前にメディアクロック部13gが示す時刻に時間差Δの補正がされていたことに対応する。そして、この補正を、切り替え後の最初のRTPパケット13mの作成時刻から、切り替え後の最初のSRパケット13rの作成時刻までの時間に加えたものである。

これは、このSRパケット13rについて、メディアクロック部13gが示す映像信号のための時刻から時間差Δを減じた値をタイムスタンプ13tに、そして、上記時刻が示された際にNTP部13hによって示された時刻をNTP13uに設定すると読み替えることができる。このように、第2の時間差を補正することなく、時間差Δを補正することによって、映像音声受信装置20は、映像の再生と音声の再生との同期を容易に取ることができる。

時刻T11以降、RTCP送信部13eは、既に述べた通り、所定の時間間隔で、上記タイムスタンプ13tに時間差Δの補正が施されたストリーム識別子13sが「映像」であるSRパケット13rを作成する。

図10は、映像コンテンツ記憶部16に記憶された映像コンテンツ16aの送信から、カメラ17aによって実時間で撮影された映像の送信に切り替えられた、言い替えると、カメラ17aによって実時間で撮影された映像の送信が再開された際の、映像音声送信装置10の各部の動作を説明するシーケンス図である。ここで、音声の送信は、音源が切り替えられることなく続けられるので、同じ説明を繰り返さない。

既に図9を参照して説明した通り、映像コンテンツ記憶部16に記憶された映像コンテンツ16aの読み込みが時刻T10に開始された。そして、時刻T12に入力装置15からの所定のキー操作が行われ、制御部11によって、カメラ17aによって実時間で撮影された映像の送信への切り替えが指示される。この切り替えの後の映像信号は時刻T14に、音声信号は時刻T13にそれぞれサンプリングが開始される。

ここで、映像信号のサンプリングが開始されるまでの時間(時刻T12〜時刻T14)は、図8を参照して説明した、カメラ17aが垂直同期等によって周期的にサンプリングをしているためのサンプリング開始遅延時間である。

映像が切り替えられてから映像信号のサンプリングが開始されるまでの時間(時刻T12〜時刻T14)と、音声信号のサンプリングが開始されるまでの時間(時刻T12〜時刻T13)との間には、例えば、時刻T14が時刻T13より遅いとして、第3の時間差=時刻T14−時刻T13がある。この第3の時間差は、既に説明したように、平均値としては、時間差Δと等しい。

時刻T14にサンプリングが開始された映像信号は、図8を参照して説明した通りエンコード時間を費やして、送信されるが、ここでは、エンコード時間についての説明を省略し、時刻T14にエンコードされた映像信号がRTP送信部13dに送信されるとして説明する。

この映像信号は、カメラ17aによって実時間で撮影された映像の処理に切り替えられて最初にRTP送信部13dに送信された映像信号である。そこで、RTP送信部13dは、メディアクロック部13gにメディアクロック部13gが示す映像信号のための時刻を所定の初期値に設定させ、以後、その時刻を実時刻が進むことと対応させて進ませる。

そして、上記切り替え後に最初に送信されるストリーム識別子13nが「映像」であるRTPパケット13mのタイムスタンプ13oには、上記初期値の設定後、この時刻T14でメディアクロック部13gが示す時刻が設定される。即ち、この時刻T14に関連付けられた時刻が設定される。

時刻T15で、カメラ17aによって実時間で撮影された映像の送信が再開されてから最初のストリーム識別子13sが「映像」であるSRパケット13rが、RTCP送信部13eによって作成される。このSRパケット13rのNTP13uには、時刻T15で、NTP部13hが示す時刻が設定される。そして、タイムスタンプ13tに設定される値には、以下の2つのいずれかが設定されるように、RTP送信部13dが制御する。

第1の方法は、メディアクロック部13gは、記憶された映像が送信される前、即ち、時刻T8に至る前にメディアクロック部13gによって示されていた映像信号のための時刻を再度示すように制御する。ここで、再度示される時刻は、記憶された映像が送信される前から、カメラ17aによって実時間で撮影された映像の送信が再開されるまでの間、メディアクロック部13gがあたかも引き続き動作していたように、その間の実時刻の経過時間に依存して進んだ時刻であるように制御される。そして、RTCP送信部13eは、時刻T15で示される上記時刻を用いて、記憶された映像が送信される前に行っていたように、時間差Δの補正をして、タイムスタンプ13tを算出する。

第2の方法は、記憶された映像が送信される前にメディアクロック部13gによって示されていた映像信号のための時刻を用いない方法である。そして、カメラ17aによって実時間で撮影された映像の送信から、映像コンテンツ記憶部16に記憶された映像コンテンツ16aの送信に切り替えられる際の動作と同様の動作をするものである。即ち、((T15−T14)+(時刻T14でメディアクロック部13gが示す時刻)−時間差Δ)をタイムスタンプ13tに設定する。

この第2の方法によってタイムスタンプ13tに設定される値は、時刻T15で、メディアクロック部13gが示す映像信号のための時刻から時間差Δを減じた値と読み替えることができる。

時刻T15以降、第1の方法によるか、第2の方法によるかに係らず、RTCP送信部13eは、既に述べた通り、所定の時間間隔で、上記タイムスタンプ13tに時間差Δの補正が施された、ストリーム識別子13sが「映像」であるSRパケット13rを作成する。

なお、カメラ17aによって実時間で撮影された映像の送信と、映像コンテンツ記憶部16に記憶された映像コンテンツ16aの送信との間の切り替えに関わらず、RTCP送信部13eは、ストリーム識別子13sが「音声」であるSRパケット13rを、所定の時間間隔で作成する。その作成方法は、上述した通りである。

上記の説明では、時間差Δは、映像信号のサンプリング開始遅延時間と、音声信号のサンプリング開始遅延時間の差であるとしたが、これに限るものではない。映像音声送信装置10内の処理であって、映像信号に関する処理は、音声信号に関する処理よりも長時間を要するものについて、処理時間の差であれば良い。例えば、サンプリング開始遅延時間の差に加えて、または代えてエンコードに要する時間の差としても良い。

上記の説明では、エンコードが終了し、RTPパケット13mの作成の際にメディアクロック部13gが示す時刻をRTPパケット13mのタイムスタンプ13oに設定するとした。この処理によって、タイムスタンプ13oに設定する時刻の記憶が不要になり、映像音声送信装置10の処理の削減が可能である。

また、以上の説明では、カメラ17aによって実時間で撮影された映像の送信と、映像コンテンツ記憶部16に記憶された映像コンテンツ16aの送信との間の切り替えに際し、RTPパケット13mのタイムスタンプ13oが不連続になるとした。

タイムスタンプ13oを不連続とせず、連続とし、あたかも同一の映像源からの映像のように処理することも不可能ではない。しかし、このためには、事前に映像コンテンツ記憶部16に記憶された映像コンテンツ16aをRTPパケット13mのストリームデータ13pの形式に整える必要がある。そこで、機敏な切り替えが不可能である。

または、タイムスタンプ13oを連続とするものの、RTPパケット13mが送信される間隔を可変として、機敏な切り替えをすることも不可能ではない。しかし、この処理によれば、一時的に通信網30と、映像音声受信装置20とに大きな負荷の変動が発生し、使用者にとって違和感のない映像及び音声の再生が不可能になる可能性が高い。そこで、以上の説明した処理によって、機敏な切り替えが可能となり、かつ、通信網30と、映像音声受信装置20に大きな負荷の変動をかけない効果が得られる。

本発明の実施形態に係る映像音声送信装置の一部または全部は、プログラムを利用して動作するコンピュータであっても良い。本発明は以上の構成に限定されるものではなく、種々の変形が可能である。

本発明の実施形態に係る映像音声送信装置が適用された映像音声通信システムの構成を示すブロック図。 本発明の実施形態に係る映像音声送信装置の構成を示すブロック図。 本発明の実施形態に係る映像音声送信装置の送受信部の構成を示すブロック図。 本発明の実施形態に係る映像音声送信装置が適用された映像音声通信システムの映像音声受信装置の構成を示すブロック図。 本発明の実施形態に係る映像音声送信装置が適用された映像音声通信システムの映像音声受信装置の送受信部の構成を示すブロック図。 本発明の実施形態に係るRTPパケットの構成の一例を示す図。 本発明の実施形態に係るSRパケットの構成の一例を示す図。 本発明の実施形態に係る映像音声送信装置の動作のシーケンス図(その1、カメラから入力された映像の送信の開始)。 本発明の実施形態に係る映像音声送信装置の動作のシーケンス図(その2、カメラから入力された映像の送信から、記憶された映像の送信への切り替え)。 本発明の実施形態に係る映像音声送信装置の動作のシーケンス図(その3、記憶された映像の送信から、カメラから入力された映像の送信への切り替え)。

符号の説明

10 映像音声送信装置
13 送受信部
13a 送信部
13b クロック部
13d RTP送信部
13e RTCP送信部
13f 変調部
13g メディアクロック部
13h NTP部
13m RTPパケット
13n、13s ストリーム識別子
13o、13t タイムスタンプ
13p ストリームデータ
13r SRパケット
13u NTP
16 映像コンテンツ記憶部
16a 映像コンテンツ
17 エンコード部
17a カメラ
17b マイクロフォン
20 映像音声受信装置

Claims (5)

  1. 映像信号と映像信号タイムスタンプとからなる映像信号パケットを送信する映像送信手段と、
    音声信号と音声信号タイムスタンプとからなる音声信号パケットを送信する音声送信手段と、
    前記映像信号タイムスタンプと共通タイムスタンプとの対応からなる映像信号タイムスタンプ対応パケット、及び、前記音声信号タイムスタンプと前記共通タイムスタンプとの対応からなる音声信号タイムスタンプ対応パケットを送信するタイムスタンプ対応パケット送信手段とを有し、
    前記タイムスタンプ対応パケット送信手段は、前記映像信号タイムスタンプ対応パケット及び/または前記音声信号タイムスタンプ対応パケットに含まれる2つのタイムスタンプの対応に所定の補正値の補正を施す
    ことを特徴とする映像音声送信装置。
  2. 上記補正値は、前記映像送信手段が動作を開始してから前記映像送信手段によって前記映像信号パケットが送信されるまでの時間と、前記音声送信手段が動作を開始してから前記音声送信手段によって前記音声信号パケットが送信されるまでの時間との差の全部または一部である
    ことを特徴とする請求項1に記載の映像音声送信装置。
  3. 前記映像送信手段は、カメラから入力された信号をサンプリングし、そのサンプリングされた信号をエンコードして前記映像信号を作成し、その映像信号と、その映像信号が得られた際に映像信号メディアクロックが示す時刻である前記映像信号タイムスタンプとからなる前記映像信号パケットを送信し、
    前記音声送信手段は、マイクロフォンから入力された信号をサンプリングし、そのサンプリングされた信号をエンコードして前記音声信号を作成し、その音声信号と、その音声信号が得られた際に音声信号メディアクロックが示す時刻である前記音声信号タイムスタンプとからなる前記音声信号パケットを送信し、
    前記補正値は、前記映像送信手段が動作を開始してから前記映像送信手段によって前記カメラから入力された信号から最初の前記サンプリングが開始されるまでの時間と、前記音声送信手段が動作を開始してから前記音声送信手段によって前記マイクロフォンから入力された信号から最初の前記サンプリングが開始されるまでの時間との差である
    ことを特徴とする請求項1に記載の映像音声送信装置。
  4. 前記補正値は、前記映像送信手段によって送信される前記映像信号が前記カメラから入力された信号から作成された信号から、記憶された信号から作成された信号に切り替えられた後に維持される
    ことを特徴とする請求項3に記載の映像音声送信装置。
  5. 前記補正値は、前記映像送信手段によって送信される前記映像信号が前記記憶された信号から作成された信号から、前記カメラから入力された信号から作成された信号に再度切り替えられた後に維持される
    ことを特徴とする請求項4に記載の映像音声送信装置。
JP2006236802A 2006-08-31 2006-08-31 映像音声送信装置 Pending JP2008061010A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006236802A JP2008061010A (ja) 2006-08-31 2006-08-31 映像音声送信装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006236802A JP2008061010A (ja) 2006-08-31 2006-08-31 映像音声送信装置

Publications (1)

Publication Number Publication Date
JP2008061010A true true JP2008061010A (ja) 2008-03-13

Family

ID=39243239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006236802A Pending JP2008061010A (ja) 2006-08-31 2006-08-31 映像音声送信装置

Country Status (1)

Country Link
JP (1) JP2008061010A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010532605A (ja) * 2007-07-02 2010-10-07 フラウンホファー・ゲゼルシャフト・ツール・フォルデルング・デル・アンゲバンテン・フォルシュング・アインゲトラーゲネル・フェライン メディアデータコンテナおよびメタデータコンテナを有するファイルを記憶および読み出すための装置および方法
JP2012195796A (ja) * 2011-03-17 2012-10-11 Hitachi Consumer Electronics Co Ltd 符号化信号送信装置
CN102884804A (zh) * 2009-12-28 2013-01-16 达贝U株式会社 音频信号和视频信号的同步误差校正方法及装置
WO2017071670A1 (zh) * 2015-10-30 2017-05-04 中兴通讯股份有限公司 音视频同步方法、装置及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010532605A (ja) * 2007-07-02 2010-10-07 フラウンホファー・ゲゼルシャフト・ツール・フォルデルング・デル・アンゲバンテン・フォルシュング・アインゲトラーゲネル・フェライン メディアデータコンテナおよびメタデータコンテナを有するファイルを記憶および読み出すための装置および方法
CN102884804A (zh) * 2009-12-28 2013-01-16 达贝U株式会社 音频信号和视频信号的同步误差校正方法及装置
JP2013514034A (ja) * 2009-12-28 2013-04-22 ダブル ユー コーポレーション カンパニー リミテッド オーディオ信号及びビデオ信号の同期化誤差の補正方法及び装置
US9071864B2 (en) 2009-12-28 2015-06-30 Double U Corporation Co., Ltd. Method and apparatus for correcting synchronization errors between audio signals and video signals
CN102884804B (zh) * 2009-12-28 2016-03-30 达贝U株式会社 音频信号和视频信号的同步误差校正方法及装置
JP2012195796A (ja) * 2011-03-17 2012-10-11 Hitachi Consumer Electronics Co Ltd 符号化信号送信装置
WO2017071670A1 (zh) * 2015-10-30 2017-05-04 中兴通讯股份有限公司 音视频同步方法、装置及系统

Similar Documents

Publication Publication Date Title
US5977468A (en) Music system of transmitting performance information with state information
US6741795B1 (en) Digital video disc player and apparatus for displaying images
US20050021805A1 (en) System and method for transmitting multimedia information streams, for instance for remote teaching
US20040183896A1 (en) Cooperative application system, cooperative application method, and network terminal
US20020170067A1 (en) Method and apparatus for broadcasting streaming video
US20020003799A1 (en) Data transmission device and data transmission method
US20060140591A1 (en) Systems and methods for load balancing audio/video streams
US5677980A (en) Decoder for compressed digital signal
JP2003101958A (ja) 同期再生のための方法および装置
JP2008005254A (ja) サーバ装置、クライアント装置、コンテンツ再生システム、コンテンツ処理方法及びプログラム
US20070002902A1 (en) Audio and video synchronization
US20070110107A1 (en) Method and system for in-band signaling of multiple media streams
US6862045B2 (en) Moving image decoding and reproducing apparatus, moving image decoding and reproducing method, time control method, computer program product for decoding and reproducing moving image and multimedia information receiving apparatus
JP2004104796A (ja) メディアデータパケットの同期再生
JP2006033743A (ja) 送信装置、受信装置、及び送受信装置
US5838718A (en) Method and apparatus for transmitting data signals
JP2000244914A (ja) 映像音声多重化カメラ装置
JPH0965303A (ja) 映像音声同期方法及び装置
JP2004320424A (ja) Av伝送方法及びav伝送装置、並びにav送信装置及びav受信装置
JPH0759030A (ja) テレビ会議システム
JP2006109000A (ja) オーディオビデオ同期システム及びモニター装置
JPH11340938A (ja) データ多重化装置及び方法
US20080267283A1 (en) Sending video data over a network
JP2002204404A (ja) 同期装置及び方法、ディジタル放送受信装置
JP2005303925A (ja) ストリームデータ送信装置、ストリームデータ受信装置およびそれらの処理をコンピュータに実行させるための処理プログラムを記録した記録媒体