JP2008131591A - リップシンク制御装置及びリップシンク制御方法 - Google Patents

リップシンク制御装置及びリップシンク制御方法 Download PDF

Info

Publication number
JP2008131591A
JP2008131591A JP2006317534A JP2006317534A JP2008131591A JP 2008131591 A JP2008131591 A JP 2008131591A JP 2006317534 A JP2006317534 A JP 2006317534A JP 2006317534 A JP2006317534 A JP 2006317534A JP 2008131591 A JP2008131591 A JP 2008131591A
Authority
JP
Japan
Prior art keywords
video
audio
signal
reference signal
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006317534A
Other languages
English (en)
Inventor
Hiroshi Kawada
宏 川田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006317534A priority Critical patent/JP2008131591A/ja
Publication of JP2008131591A publication Critical patent/JP2008131591A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】映像信号と音声信号とを個別のストリームとして送る場合でも、映像再生と音声再生との同期を取ることが可能なリップシンク制御装置を提供すること。
【解決手段】制御部23Aは、マーカー発生部9Aに音声基準信号及び映像基準信号を送出するように指示を送り、マーカー発生部9Aは音声基準信号と映像基準信号とを同時に送出する。制御部23Aは、マーカー発生部9Aに上記指示を送ると同時に、比較部19Aに対し、基準信号間の時間ずれ量を検出するように指示を送る。比較部19Aは、制御部23Aからの指示を受け、音声基準信号と映像基準信号との間の時間ずれ量を検出する。制御部23Aは、音声基準信号と映像基準信号とのうち相互の時間関係が早い方の信号をエンコードするエンコーダに対し、時間ずれ量分の遅延を行うように指示を出し、当該エンコーダは時間ずれ量分の遅延を行う。
【選択図】図1

Description

本発明は、音声信号と映像信号とを個別のストリームとして送信する際のリップシンクに好適な、リップシンク制御装置及びリップシンク制御方法に関する。
従来のリップシンク装置として、入力画像信号のフレーム単位に画像および音声データを分割するデータ分割手段と、ストリーム出力のクロックに同期した基準時刻情報を生成する基準時刻情報生成手段と、基準時刻情報を分割されたデータに付加するデータ付加手段と、基準時刻情報に基づいて符号化の時刻情報を補正する時刻情報補正手段とを有するものが知られている(例えば、特許文献1参照)。
特開2004−320198号公報
ところで、テレビ電話システム等のように映像信号と音声信号とを同時に送信する際に、例えばMPEG−4(Moving Picture Experts Group phase 4)に準拠させて、映像信号と音声信号とをそれぞれエンコードして個別のストリームとして送ることが行われる。この場合、送信側の機器において映像信号と音声信号とをそれぞれエンコードする際に、映像信号と音声信号とのエンコード時間が異なってしまうことがある。映像信号と音声信号とのエンコード時間が異なると、受信側の機器において映像と音声がずれて再生される懼れがある。なお、上述した特許文献1では、映像信号と音声信号とをそれぞれ個別のストリームで送ることについては、何ら考慮されていない。
そこで、本発明は上記事情を考慮してなされたもので、映像信号と音声信号とをそれぞれ個別のストリームとして送る場合でも、映像再生と音声再生との同期(リップシンク)を取ることが可能なリップシンク制御装置及びリップシンク制御方法を提供することを目的とする。
本発明に係るリップシンク制御装置は、所定のタイミングで入力された音声基準信号を含み且つエンコードされた音声信号を入力する第1の入力手段と、音声基準信号と同じタイミングで入力された映像基準信号を含む且つエンコードされた映像信号を入力する第2の入力手段と、第1の入力手段により入力された音声信号をデコードする第1のデコード手段と、第2の入力手段により入力された映像信号をデコードする第2のデコード手段と、第1のデコード手段でデコードされた音声信号に含まれる音声基準信号と、第2のデコード手段でデコードされた映像信号に含まれる映像基準信号との間の時間ずれ量を検出する時間ずれ検出手段と、時間ずれ検出手段での検出結果に基づいて、音声信号と映像信号とのうち相互の時間関係が早い方の信号を時間ずれ量分遅らせてそれぞれ出力するように制御する制御手段と、を備えることを特徴とする。
また、本発明に係るリップシンク制御方法は、所定のタイミングで入力された音声基準信号を含み且つエンコードされた音声信号を入力する第1のステップと、音声基準信号と同じタイミングで入力された映像基準信号を含む且つエンコードされた映像信号を入力する第2のステップと、第1のステップで入力された音声信号をデコードする第3のステップと、第2のステップで入力された映像信号をデコードする第4のステップと、第3のステップでデコードされた音声信号に含まれる音声基準信号と、第4のステップでデコードされた映像信号に含まれる映像基準信号との間の時間ずれ量を検出する第5のステップと、第5のステップでの検出結果に基づいて、音声信号と映像信号とのうち相互の時間関係が早い方の信号を時間ずれ量分遅らせてそれぞれ出力するように制御する第6のステップと、を備えることを特徴とする。
本発明によれば、音声信号と映像信号とのうち相互の時間関係が早い方の信号を時間ずれ量分遅らせてそれぞれ出力されるので、映像信号と音声信号とをそれぞれ個別のストリームとして送る場合でも、映像再生と音声再生との同期を取ることできる。
以下、添付図面を参照して、本発明の好適な実施形態について詳細に説明する。なお、説明において、同一要素又は同一機能を有する要素には、同一符号を用いることとし、重複する説明は省略する。
(第1実施形態)
図1を参照して、第1実施形態に係るテレビ電話システムVP1の構成を説明する。テレビ電話システムVP1では、端末機器TAと端末機器TBとがネットワークNを介して接続されている。
端末機器TAは、マイク1A、カメラ3A、スピーカ5A、ディスプレイ7A、マーカー発生部9A、音声エンコーダ11A、映像エンコーダ13A、音声デコーダ15A、映像デコーダ17A、比較部19A、ネットワークインターフェイス21A、及び制御部23Aを備える。マーカー発生部9A、音声エンコーダ11A、映像エンコーダ13A、音声デコーダ15A、映像デコーダ17A、比較部19A、ネットワークインターフェイス21A、及び制御部23Aは、バス25Aを介して接続されている。
端末機器TBは、マイク1B、カメラ3B、スピーカ5B、ディスプレイ7B、マーカー発生部9B、音声エンコーダ11B、映像エンコーダ13B、音声デコーダ15B、映像デコーダ17B、ネットワークインターフェイス21B、及び制御部23Bを備える。マーカー発生部9B、音声エンコーダ11B、映像エンコーダ13B、音声デコーダ15B、映像デコーダ17B、ネットワークインターフェイス21B、及び制御部23Bは、バス25Bを介して接続されている。
端末機器TA,TBは、受信側の端末機器に対して音声信号と映像信号とを送る場合、マイク1A,1Bから入力された音声信号とカメラ3A,3Bから入力された映像信号とをそれぞれをエンコードし、ネットワークインターフェイス21A,21BにてIPパケット化を行い、送出する。したがって、音声と映像とは、それぞれ個別のストリームとして送信される。なお、通信相手となる端末機器を見出す手段、コネクション、送出パケット等に関する伝送プロトコルは、インターネットにおけるデータ伝送にて一般的に使用されるSIP(Session Initiation Protocol)やRTP(Real-time Transport Protocol)等が使用されるものとし、詳細な説明は省略する。
マイク1A,1Bの出力は音声デコーダ15A,15Bに接続されており、マイク1A,1Bから出力された音声信号が音声デコーダ15A,15Bに入力される。カメラ3A,3Bの出力は映像デコーダ17A,17Bに接続されており、カメラ3A,3Bから出力された映像信号が映像デコーダ17A,17Bに入力される。
マーカー発生部9A,9Bは、マイク1A,1Bから出力された音声信号に音声基準信号を送出する。これにより、音声エンコーダ11A,11Bには、音声基準信号を含む音声信号が入力される。また、マーカー発生部9A,9Bは、カメラ3A,3Bから出力された映像信号に映像基準信号を音声基準信号と同じタイミングで送出する。これにより、映像エンコーダ13A,13Bには、音声基準信号と同じタイミングで入力された映像基準信号を含む映像信号が入力される。
音声基準信号及び映像基準信号は、それらが受信側の端末機器で再生された場合でも、受信側の端末機器の利用者に不快感を与えないものが好ましい。例えば、音声基準信号としては音量が小さい音声信号等を用いることができ、映像基準信号としてはディスプレイ7A,7Bの表示領域外の領域に映像を含む映像信号等を用いることができる。
音声エンコーダ11A,11Bは、入力された音声信号をエンコードし、エンコードされた音声信号を出力する。映像エンコーダ13A,13Bは、入力された映像信号をエンコードし、エンコードされた映像信号を出力する。
音声デコーダ15A,15Bは、入力された、エンコードされている音声信号をデコードし、デコードされた音声信号を出力する。音声デコーダ15A,15Bの出力はスピーカ5A,5Bに接続されており、スピーカ5A,5Bは音声デコーダ15A,15Bから入力された音声信号を再生し、音声を出力する。映像デコーダ17A,17Bは、入力された、エンコードされている映像信号をデコードし、デコードされた映像信号を出力する。映像デコーダ17A,17Bの出力はディスプレイ7A,7Bに接続されており、ディスプレイ7A,17Bは映像デコーダ17A,17Bから入力された映像信号を再生し、映像を出力する。
比較部19A,19Bは、音声デコーダ15A,15Bから出力された音声信号及び映像デコーダ17A,17Bから出力された映像信号を読み込む。比較部19A,19Bは、読み込んだ各信号に基づいて、音声デコーダ15A,15Bでデコードされた音声信号に含まれる音声基準信号の時間的位置と、映像デコーダ17A,17Bでデコードされた映像信号に含まれる映像基準信号の時間的位置とを求める。比較部19A,19Bは、求めた各基準信号の時間的位置を比較し、基準信号間の時間ずれ量を検出する。
ネットワークインターフェイス21A,21Bは、上述したように、音声エンコーダ11A,11Bから出力された音声信号及び映像エンコーダ13A,13Bから出力された映像信号のIPパケット化を行い、IPパケット化された信号をネットワークNに送出する。また、ネットワークインターフェイス21A,21Bは、ネットワークNを介して送られたIPパケットを音声信号のストリームと映像信号のストリームとに分け、対応するデコーダ15A,15B,17A,17Bに送る。
制御部23Aは、マーカー発生部9A、音声エンコーダ11A、映像エンコーダ13A、音声デコーダ15A、映像デコーダ17A、比較部19A、及びネットワークインターフェイス21Aを制御する。制御部23Bは、マーカー発生部9B、音声エンコーダ11B、映像エンコーダ13B、音声デコーダ15B、映像デコーダ17B、及びネットワークインターフェイス21Bを制御する。制御部23A,23Bは、CPU(Central Processing Unit)、CPUが実行する制御プログラムが格納されたROM(Read Only Member)、CPUに作業エリアを提供するRAM(Random Access Memory)、各種の設定情報及び制御情報が格納された不揮発性メモリ(Nonvolatile Memory)等を含んで構成される。
図2を参照し、制御部23A,23Bの動作を中心に、端末機器TAから端末機器TBに対して音声と映像とを個別のストリームで送る場合における、テレビ電話システムVP1の動作を説明する。
端末機器TAから端末機器TBに対して音声と映像との送信を開始すると(S101)、制御部23Aは、マーカー発生部9Aに、音声基準信号及び映像基準信号を送出するように、指示を送る。マーカー発生部9Aは、制御部23Aからの指示を受け、上述したように、音声基準信号と映像基準信号とを同時に送出する(S102)。制御部23Aからマーカー発生部9Aへの指示は、受信側の端末機器(端末機器TB)への送信時の初期に行われる。ここで、音声エンコーダ11Aは、音声基準信号を含む音声信号をエンコードして出力し、映像エンコーダ13Aは、映像基準信号を含む映像信号をエンコードして出力している。
また、制御部23Aは、マーカー発生部9Aに上記指示を送ると同時に、比較部19Aに対し、基準信号間の時間ずれ量を検出するように指示を送る。比較部19Aは、制御部23Aからの指示を受け、音声デコーダ15Aから出力された音声信号及び映像デコーダ17Aから出力された映像信号を読み込み、音声基準信号及び映像基準信号の有無を監視し、音声基準信号及び映像基準信号を認識すると、音声基準信号の時刻taと映像基準信号の時刻tvとを求める(S103)。ここで、音声デコーダ15Aは、音声基準信号を含み且つエンコードされた音声信号をデコードして出力し、映像デコーダ17Aは、映像基準信号を含み且つエンコードされた映像信号をデコードして出力している。
音声基準信号の時刻taと映像基準信号の時刻tvとを求めると、比較部19Aは、音声基準信号の時刻taと映像基準信号の時刻tvとを比較し、上述したように、音声基準信号と映像基準信号との間の時間ずれ量(ta−tvあるいはtv−ta)を検出する(S104)。
制御部23Aは、比較部19Aが上記時間ずれ量(ta−tvあるいはtv−ta)を検出すると、当該時間ずれ量(ta−tvあるいはtv−ta)を読み込み、音声エンコーダ11Aと映像エンコーダ13Aとのうち、音声基準信号と映像基準信号とのうち相互の時間関係が早い方の信号をエンコードするエンコーダ(音声エンコーダ11A又は映像エンコーダ13A)に対し、時間ずれ量(ta−tvあるいはtv−ta)分の遅延を設定するように指示を出す。上記相互の時間関係が早い方の信号をエンコードするエンコーダ(音声エンコーダ11A又は映像エンコーダ13A)は、制御部23Aからの指示を受け、時間ずれ量(ta−tvあるいはtv−ta)分の遅延を設定する(S105あるいはS106)。これにより、音声エンコーダ11Aと映像エンコーダ13Aとの動作の同期が図られ、音声エンコーダ11Aからはエンコードされた音声信号が、また、映像エンコーダ13Aからはエンコードされた映像信号が互いに同期された状態で出力される。
各エンコーダ11A,13Aから出力された音声信号及び映像信号は、ネットワークインターフェイス21Aにて個別のストリームとしてIPパケット化され、ネットワークインターフェイス21Aから送られる。端末機器TAから端末機器TBにIPパケットが送られると、端末機器TBにおいて、ネットワークインターフェイス21Bは、IPパケットを音声信号のストリームと映像信号のストリームとに分け、対応するデコーダ15B,17Bに送る。
音声デコーダ15B及び映像デコーダ17Bは、制御部23Bの制御の下でデコード処理を行い、信号を出力する。音声デコーダ15Bにてデコードされた音声信号はスピーカ5Bから音声として出力され、映像デコーダ17Bにてデコードされた映像信号はディスプレイ7Bから映像として出力される。このとき、端末機器TA内にてエンコードされた音声信号とエンコードされた映像信号との同期が取られているので、端末機器TBにおいてスピーカ5Bから出力される音声とディスプレイ7Bから出力される映像との間に時間的ずれは生じ難く、リップシンクがずれるのを防ぐことができる。
この場合、端末機器TAにて音声信号と映像信号との同期が取られるため、端末機器TBは、一般的な従前の端末機器であってもよい。
制御部23Aからのマーカー発生部9Aへの指示を、受信側の端末機器(端末機器TB)への送信時の初期に行っているが、使用者がリモコン27等で所定の操作を行ってもよい。また、制御部23Aからのマーカー発生部9Aへの指示は、通信中に定期的に行うようにしてもよく、あるいは実際に通信を開始する前にセルフチェックとして行ってもよい。
時間ずれ量は、通信の都度検出する必要はない。例えば、一度検出したら記憶しておき、記憶した時間ずれ量を用いるようにしてもよい。
次に、図3を参照して、制御部23A,23Bの動作を中心に、端末機器TBから端末機器TAに対して音声と映像とを個別のストリームで送る場合における、テレビ電話システムVP1の動作を説明する。
端末機器TBから端末機器TAに対して音声と映像との送信を開始すると(S201)制御部23Bは、マーカー発生部9Bに、音声基準信号及び映像基準信号を送出するように、指示を送る。マーカー発生部9Bは、制御部23Bからの指示を受け、上述したように、音声基準信号と映像基準信号とを同時に送出する(S202)。制御部23Bからマーカー発生部9Bへの指示は、受信側の端末機器(端末機器TA)への送信時の初期に行われる。ここで、音声エンコーダ11Bは、音声基準信号を含む音声信号をエンコードして出力し、映像エンコーダ13Bは、映像基準信号を含む映像信号をエンコードして出力している。
各エンコーダ11B,13Bから出力された音声信号及び映像信号は、ネットワークインターフェイス21Bにて個別のストリームとしてIPパケット化され、ネットワークインターフェイス21Bから送られる。端末機器TBから端末機器TAにIPパケットが届くと(S203)、端末機器TAにおいて、ネットワークインターフェイス21Aは、IPパケットを音声信号のストリームと映像信号のストリームとに分け、対応するデコーダ15A,17Aに出力する。音声デコーダ15Aは、入力された音声信号をデコードして出力し、映像エンコーダ13Aは入力された映像信号をデコードして出力する。ここで、デコードされた音声信号には音声基準信号が含まれており、デコードされた映像信号には映像基準信号が含まれている。
制御部23Aは、比較部19Aに対し、基準信号間の時間ずれ量を検出するように指示を送る。このとき、比較部19Aは、上述したS103と同様にして、音声基準信号の時刻taと映像基準信号の時刻tvとを求める(S204)。そして、音声基準信号の時刻taと映像基準信号の時刻tvとを求めると、比較部19Aは、上述したS104と同様にして、音声基準信号の時刻taと映像基準信号の時刻tvとを比較し、音声基準信号と映像基準信号との間の時間ずれ量(ta−tvあるいはtv−ta)を検出する(S205)。
ところで、比較部19Aでの各基準信号の監視は、接続中常に行うは無く、送信側の端末機器(端末機器TB)との接続後、所定期間(例えば、数十秒間)行えばよい。また、通信中に同期を行いたい場合には、送信側の端末機器でネットワーク上のプロトコル(例えば、RTP)のヘッダにビットを立て、当該ビットを検出してから所定期間(例えば、数十秒間)だけ監視を行うようにしてもよい。このように、比較部19Aが監視する期間を限定することにより、端末機器TAにおける制御上の負荷を軽減することができる。
制御部23Aは、比較部19Aが上記時間ずれ量(ta−tvあるいはtv−ta)を検出すると、当該時間ずれ量(ta−tvあるいはtv−ta)を読み込み、音声デコーダ15Aと映像デコーダ17Aとのうち、音声基準信号と映像基準信号とのうち相互の時間関係が早い方の信号をデコードするデコーダ(音声デコーダ15A又は映像デコーダ17A)に対し、時間ずれ量(ta−tvあるいはtv−ta)分の遅延を設定するように指示を出す。上記相互の時間関係が早い方の信号をデコードするデコーダ(音声デコーダ15A又は映像デコーダ17A)は、制御部23Aからの指示を受け、時間ずれ量(ta−tvあるいはtv−ta)分の遅延を設定する(S206あるいはS207)。これにより、音声デコーダ15Aと映像デコーダ17Aとの動作の同期が図られ、音声デコーダ15Aからはデコードされた音声信号が、また、映像デコーダ17Aからはエンコードされた映像信号が互いに同期された状態で出力される。
音声デコーダ15Aにてデコードされた音声信号はスピーカ5Aから音声として出力され、映像デコーダ17Aにてデコードされた映像信号はディスプレイ7Aから映像として出力される。このとき、端末機器TA内にてデコードされた音声信号とデコードされた映像信号との同期が取られているので、端末機器TAにおいてスピーカ5Aから出力される音声とディスプレイ7Aから出力される映像との間に時間的ずれは生じ難く、リップシンクがずれるのを防ぐことができる。
なお、マイク1A,1Bとカメラ3A,3Bとは、各端末機器TA,TBが内蔵している必要はなく、端末機器TA,TBが備える音声入力端子やビデオ入力端子といった汎用の入力端子に接続されてもよい。また、スピーカ5A,5Bやディスプレイ7A,7Bも各端末機器TA,TBが内蔵している必要はなく、端末機器TA,TBが備える音声出力端子やビデオ出力端子といった汎用の出力端子に接続されてもよい。
第1実施形態では、端末機器TBが、比較部19Aと同じ構成の比較部を備えない端末機器として構成されているが、端末機器TBは比較部19Aと同じ構成の比較部を備えていてもよい。通信相手となる端末機器が比較部を備えているか否かの認識は、通信相手となる端末機器との接続時にSIP等のプロトコルで確認することができる。通信相手となる端末機器が比較部を備える場合には、自端末機器内にて相手側の端末機器から送られるストリームの同期確認は行わなくてもよい。通信相手となる端末機器が比較部を備えているか否かをSIP等のプロトコルで確認する手法については、一般的な手法であり、ここでは説明は省略する。
(第2実施形態)
図4を参照して、第2実施形態に係るテレビ電話システムVP2の構成を説明する。第2実施形態は、リモコン27からの出力に基づいて各基準信号を入力する点及び比較部19Aへの指示を送る点で、第1実施形態と相違する。
テレビ電話システムVP2では、端末機器TAと端末機器TBとがネットワークNを介して接続されている。端末機器TAは、マイク1A、カメラ3A、スピーカ5A、ディスプレイ7A、リモコン受信部29A、音声エンコーダ11A、映像エンコーダ13A、音声デコーダ15A、映像デコーダ17A、比較部19A、ネットワークインターフェイス21A、及び制御部23Aを備える。リモコン受信部29A、音声エンコーダ11A、映像エンコーダ13A、音声デコーダ15A、映像デコーダ17A、比較部19A、ネットワークインターフェイス21A、及び制御部23Aは、バス25Aを介して接続されている。端末機器TBの構成は、本実施形態における端末機器TAの構成と同じとし、その説明を省略する。
リモコン受信部29Aは、リモコン27から送信された操作信号を受信し、受信した操作信号を制御部23Aに送る。制御部23Aは、リモコン受信部29Aから送られた操作信号に基づいて、端末機器TAの各種動作を制御する。リモコン27は、使用者により通話開始(または、接続開始)のための操作がなされると、通話開始を指示するための操作信号を送信すると共に、音声基準信号となる音声と映像基準信号となる赤外線を出力する。
通常、リモコン27は赤外線を出力して機器操作を行う。リモコン受信部29Aに用いられるカメラ3A(例えば、CCDカメラ等)は、一般的に赤外線を感知することが可能であるので、市販されている汎用的なカメラを用いることができる。
本実施形態では、リモコン27とマイク1Aとが別体として構成されているが、テレビ電話システム等では、マイク1Aを使用者の近くに置くことが一般的であり、リモコン27とマイク1Aとを一体に構成してもよい。この場合、リモコン27とマイク1Aとを接続し、音声基準信号となる音声を実際に出力する代わりに、信号を出力するようにしてもよい。
図5を参照し、制御部23A,23Bの動作を中心に、端末機器TAから端末機器TBに対して音声と映像とを個別のストリームで送る場合における、テレビ電話システムVP2の動作を説明する。
使用者が相手側との通信を開始するためにリモコン27を操作すると、リモコン27は、送信開始を指示するための操作信号を端末機器TAに送出する(S301)と共に、音声基準信号となる音声及び映像基準信号となる赤外線を出力する(S302)。リモコン27から送信された通話開始を指示するための操作信号は、リモコン受信部を通して制御部23Aに送られる。音声基準信号となる音声は、マイク1Aで集音され、音声基準信号を含む音声信号として音声エンコーダ11Aに出力される。映像基準信号となる赤外線は、カメラ3Aで撮像され、映像基準信号を含む映像信号として映像エンコーダ13Aに出力される。
制御部23Aは、通話開始を指示するための操作信号が入力されると、比較部19Aに対し、基準信号間の時間ずれ量を検出するように指示を送る。比較部19Aは、制御部23Aからの指示を受け、上述した第1実施形態と同じく、音声基準信号の時刻taと映像基準信号の時刻tvとを求め(S303)、音声基準信号の時刻taと映像基準信号の時刻tvとを比較し、音声基準信号と映像基準信号との間の時間ずれ量(ta−tvあるいはtv−ta)を検出する(S304)。
制御部23Aは、比較部19Aが時間ずれ量(ta−tvあるいはtv−ta)を検出すると、当該時間ずれ量(ta−tvあるいはtv−ta)を読み込み、音声エンコーダ11Aと映像エンコーダ13Aとのうち、音声基準信号と映像基準信号とのうち相互の時間関係が早い方の信号をエンコードするエンコーダ(音声エンコーダ11A又は映像エンコーダ13A)に対し、時間ずれ量(ta−tvあるいはtv−ta)分の遅延を設定するように指示を出す。上記相互の時間関係が早い方の信号をエンコードするエンコーダ(音声エンコーダ11A又は映像エンコーダ13A)は、制御部23Aからの指示を受け、時間ずれ量(ta−tvあるいはtv−ta)分の遅延を設定する(S305あるいはS306)。これにより、音声エンコーダ11Aと映像エンコーダ13Aとの動作の同期が図られ、音声エンコーダ11Aからはエンコードされた音声信号が、また、映像エンコーダ13Aからはエンコードされた映像信号が互いに同期された状態で出力される。
以上のように、端末機器TA内にてエンコードされた音声信号とエンコードされた映像信号との同期が取られているので、端末機器TBにおいてスピーカ5Bから出力される音声とディスプレイ7Bから出力される映像との間に時間的ずれは生じ難く、リップシンクがずれるのを防ぐことができる。
次に、図6を参照して、制御部23A,23Bの動作を中心に、端末機器TBから端末機器TAに対して音声と映像とを個別のストリームで送る場合における、テレビ電話システムVP2の動作を説明する。
使用者が相手側との通信を開始するためにリモコン27を操作すると、リモコン27は、送信開始を指示するための操作信号を端末機器TBに送出する(S401)と共に、音声基準信号となる音声及び映像基準信号となる赤外線を出力する(S402)。リモコン27から送信された通話開始を指示するための操作信号は、リモコン受信部を通して端末機器TBの制御部に送られる。音声基準信号となる音声は、端末機器TBにおいて、マイクで集音され、音声基準信号を含む音声信号として音声エンコーダに出力される。映像基準信号となる赤外線は、端末機器TBにおいて、カメラで撮像され、映像基準信号を含む映像信号として映像エンコーダに出力される。
端末機器TBにおいて、各エンコーダから出力された音声信号及び映像信号は、ネットワークインターフェイスにて個別のストリームとしてIPパケット化され、ネットワークインターフェイスから送られる。端末機器TBから端末機器TAにIPパケットが届くと(S403)、端末機器TAにおいて、ネットワークインターフェイス21Aは、IPパケットを音声信号のストリームと映像信号のストリームとに分け、対応するデコーダ15A,17Aに出力する。音声デコーダ15Aは、入力された音声信号をデコードして出力し、映像エンコーダ13Aは入力された映像信号をデコードして出力する。ここで、デコードされた音声信号には音声基準信号が含まれており、デコードされた映像信号には映像基準信号が含まれている。
制御部23Aは、比較部19Aに対し、基準信号間の時間ずれ量を検出するように指示を送る。このとき、比較部19Aは、上述したS103と同様にして、音声基準信号の時刻taと映像基準信号の時刻tvとを求める(S404)。そして、音声基準信号の時刻taと映像基準信号の時刻tvとを求めると、比較部19Aは、上述したS104と同様にして、音声基準信号の時刻taと映像基準信号の時刻tvとを比較し、音声基準信号と映像基準信号との間の時間ずれ量(ta−tvあるいはtv−ta)を検出する(S405)。
制御部23Aは、比較部19Aが上記時間ずれ量(ta−tvあるいはtv−ta)を検出すると、当該時間ずれ量(ta−tvあるいはtv−ta)を読み込み、音声デコーダ15Aと映像デコーダ17Aとのうち、音声基準信号と映像基準信号とのうち相互の時間関係が早い方の信号をデコードするデコーダ(音声デコーダ15A又は映像デコーダ17A)に対し、時間ずれ量(ta−tvあるいはtv−ta)分の遅延を設定するように指示を出す。上記相互の時間関係が早い方の信号をデコードするデコーダ(音声デコーダ15A又は映像デコーダ17A)は、制御部23Aからの指示を受け、時間ずれ量(ta−tvあるいはtv−ta)分の遅延を設定する(S406あるいはS407)。これにより、音声デコーダ15Aと映像デコーダ17Aとの動作の同期が図られ、音声デコーダ15Aからはデコードされた音声信号が、また、映像デコーダ17Aからはエンコードされた映像信号が互いに同期された状態で出力される。
以上のように、端末機器TA内にてデコードされた音声信号とデコードされた映像信号との同期が取られているので、端末機器TAにおいてスピーカ5Aから出力される音声とディスプレイ7Aから出力される映像との間に時間的ずれは生じ難く、リップシンクがずれるのを防ぐことができる。
第2実施形態では、リモコン27からの出力に基づいて音声基準信号と映像基準信号とが入力されるので、端末機器TAがマーカー発生部9Aを備える必要は無く、端末機器TAの構成を簡略化できると共に、コストが嵩むのを抑えることができる。
(第3実施形態)
図7を参照して、第3実施形態に係るテレビ電話システムVP3の構成を説明する。第3実施形態は、スピーカ5A及びディスプレイ7Aからの出力に基づいて各基準信号を入力する点で、第2実施形態と相違する。
テレビ電話システムVP3では、端末機器TAと端末機器TBとがネットワークNを介して接続されている。
端末機器TAは、マイク1A、カメラ3A、スピーカ5A、ディスプレイ7A、リモコン受信部29A、音声エンコーダ11A、映像エンコーダ13A、音声デコーダ15A、映像デコーダ17A、比較部19A、ネットワークインターフェイス21A、及び制御部23Aを備える。端末機器TBの構成は、本実施形態における端末機器TAの構成と同じとし、その説明を省略する。
リモコン(不図示)は、使用者により通話開始(または、接続開始)のための操作がなされると、通話開始を指示するための操作信号を送信する。使用者が相手側との通信を開始するためにリモコンを操作すると、リモコンから通話開始を指示するための操作信号が出力される。リモコンから送信された通話開始を指示するための操作信号は、リモコン受信部29Aを通して制御部23Aに送られる。
制御部23Aは、通話開始を指示するための操作信号が入力されると、スピーカ5Aが音声基準信号となる音声を出力するように制御する。このとき、制御部23Aは、音声デコーダ15Aに音声基準信号となるエンコードされた音声信号を出力し、当該音声信号を音声デコーダ15Aがデコードして、デコードされた音声信号をスピーカ5Aが再生してもよい。また、スピーカ5Aから音声を出力させるための信号発生部(不図示)を設け、制御部23Aは、信号発生部に対して、スピーカ5Aが音声基準信号となる音声を出力するように指示を送るようにしてもよい。
また、制御部23Aは、通話開始を指示するための操作信号が入力されると、ディスプレイ7Aが映像基準信号となる映像を出力するように制御する。このとき、制御部23Aは、映像デコーダ17Aに映像基準信号となるエンコードされた映像信号を出力し、当該映像信号を映像デコーダ17Aがデコードして、デコードされた映像信号をディスプレイ7Aが表示してもよい。また、ディスプレイ7Aから映像を出力させるための信号発生部(不図示)を設け、制御部23Aは、信号発生部に対して、ディスプレイ7Aが映像基準信号となる映像を出力するように指示を送るようにしてもよい。映像基準信号となる映像としては、ディスプレイ7Aの表示画面をフラッシュさせる等の映像を用いることができる。
音声基準信号となる音声は、マイク1Aで集音され、音声基準信号を含む音声信号として音声エンコーダ11Aに出力される。映像基準信号となる赤外線は、カメラ3Aで撮像され、映像基準信号を含む映像信号として映像エンコーダ13Aに出力される。
制御部23Aは、通話開始を指示するための操作信号が入力されると、比較部19Aに対し、基準信号間の時間ずれ量を検出するように指示を送る。比較部19Aは、制御部23Aからの指示を受け、上述した第1及び2実施形態と同じく、音声基準信号と映像基準信号との間の時間ずれ量を検出する。
制御部23Aは、比較部19Aが時間ずれ量を検出すると、当該時間ずれ量を読み込み、音声エンコーダ11Aと映像エンコーダ13Aとのうち、音声基準信号と映像基準信号とのうち相互の時間関係が早い方の信号をエンコードするエンコーダ(音声エンコーダ11A又は映像エンコーダ13A)に対し、時間ずれ量分の遅延を行うように指示を出す。これにより、音声エンコーダ11Aと映像エンコーダ13Aとの動作の同期が図られ、音声エンコーダ11Aからはエンコードされた音声信号が、また、映像エンコーダ13Aからはエンコードされた映像信号が互いに同期された状態で出力される。
以上のように、第3実施形態においても、端末機器TA内にてエンコードされた音声信号とエンコードされた映像信号との同期が取られているので、端末機器TBにおいてスピーカから出力される音声とディスプレイから出力される映像との間に時間的ずれは生じ難く、リップシンクがずれるのを防ぐことができる。
(第4実施形態)
図8を参照して、第4実施形態に係るテレビ電話システムVP4の構成を説明する。第4実施形態は、マイク及び音声デコーダ、並びにカメラ及び映像デコーダが端末機器TA,TBとは別体の機器、いわゆる外付けの機器として構成されている点及び受信側の端末機器TA,TBにて同期を取る点で、第2実施形態と相違する。
テレビ電話システムVP4では、端末機器TAと端末機器TBとがネットワークNを介して接続されている。端末機器TA,TBは、音声受信インターフェイス41A,41B、映像受信インターフェイス43A,43B、スピーカ5A,5B、ディスプレイ7A,7B、リモコン受信部29A,29B、音声デコーダ15A,15B、映像デコーダ17A,17B、比較部19A,19B、ネットワークインターフェイス21A,21B、及び制御部23A,23Bを備える。音声受信インターフェイス41A,41B、映像受信インターフェイス43A,43B、リモコン受信部29A,29B、音声デコーダ15A,15B、映像デコーダ17A,17B、比較部19A,19B、ネットワークインターフェイス21A,21B、及び制御部23A,23Bは、バス25A,25Bを介して接続されている。
端末機器TA,TBには、外付けの、マイクユニットMU及びカメラユニットCUが接続されている。端末機器TA,TBとマイクユニットMUとの接続、及び、端末機器TA,TBとカメラユニットCUが接続との接続は、有線接続でもよく、また無線接続でもよい。
マイクユニットMUは、マイク31と、音声エンコーダ35とを備えている。音声エンコーダ35は、音声エンコーダ35と同じく、入力された音声信号をエンコードし、エンコードされた音声信号を出力する。音声エンコーダ35にてエンコードされた音声信号は、端末機器TA,TBに送られ、音声受信インターフェイス41A,41Bを介して、ネットワークインターフェイス21A,21Bに入力される。
カメラユニットCUは、カメラ33と、映像エンコーダ37とを備えている。映像エンコーダ37は、映像エンコーダ37と同じく、入力された映像信号をエンコードし、エンコードされた映像信号を出力する。映像エンコーダ37にてエンコードされた映像信号は、端末機器TA,TBに送られ、映像受信インターフェイス43A,43Bを介して、ネットワークインターフェイス21A,21Bに入力される。
図9を参照し、制御部23A,23Bの動作を中心に、端末機器TAから端末機器TBに対して音声と映像とを個別のストリームで送る場合における、テレビ電話システムVP4の動作を説明する。
使用者が相手側との通信を開始するためにリモコン27を操作すると、リモコン27は、送信開始を指示するための操作信号を端末機器TAに送出する(S501)と共に、音声基準信号となる音声及び映像基準信号となる赤外線を出力する(S502)。リモコン27から送信された通話開始を指示するための操作信号は、リモコン受信部29Aを通して制御部23Aに送られる。
音声基準信号となる音声は、マイク31で集音され、音声基準信号を含む音声信号として音声エンコーダ35に出力される。音声エンコーダ35は、音声基準信号を含む音声信号をエンコードし、音声基準信号を含み且つエンコードされた音声信号を出力する。映像基準信号となる赤外線は、カメラ33で撮像され、映像基準信号を含む映像信号として映像エンーダに出力される。映像エンコーダ37は、映像基準信号を含む映像信号をエンコードし、映像基準信号を含み且つエンコードされた映像信号を出力する。
ネットワークインターフェイス21Aは、上述したように、音声基準信号を含み且つエンコードされた音声信号及び映像基準信号を含み且つエンコードされた映像信号をそれぞれ個別のストリームとしてIPパケット化し、ネットワークNに送出する。
端末機器TAから端末機器TBにIPパケットが届くと(S503)、端末機器TBにおいて、ネットワークインターフェイス21Bは、IPパケットを音声信号のストリームと映像信号のストリームとに分け、対応するデコーダ15B,17Bに出力する。音声デコーダ15Bは、入力された音声信号をデコードして出力し、映像デコーダ17Bは入力された映像信号をデコードして出力する。ここで、デコードされた音声信号には音声基準信号が含まれており、デコードされた映像信号には映像基準信号が含まれている。
制御部23Bは、比較部19Bに対し、基準信号間の時間ずれ量を検出するように指示を送る。このとき、比較部19Bは、上述したS103と同様にして、音声基準信号の時刻taと映像基準信号の時刻tvとを求める(S504)。そして、音声基準信号の時刻taと映像基準信号の時刻tvとを求めると、比較部19Bは、上述したS104と同様にして、音声基準信号の時刻taと映像基準信号の時刻tvとを比較し、音声基準信号と映像基準信号との間の時間ずれ量(ta−tvあるいはtv−ta)を検出する(S505)。
制御部23Bは、比較部19Bが上記時間ずれ量(ta−tvあるいはtv−ta)を検出すると、当該時間ずれ量(ta−tvあるいはtv−ta)を読み込み、音声デコーダ15Bと映像デコーダ17Bとのうち、音声基準信号と映像基準信号とのうち相互の時間関係が早い方の信号をデコードするデコーダ(音声デコーダ15B又は映像デコーダ17B)に対し、時間ずれ量(ta−tvあるいはtv−ta)分の遅延を設定するように指示を出す。上記相互の時間関係が早い方の信号をデコードするデコーダ(音声デコーダ15B又は映像デコーダ17B)は、制御部23Bからの指示を受け、時間ずれ量(ta−tvあるいはtv−ta)分の遅延を設定する(S506あるいはS507)。これにより、音声デコーダ15Bと映像デコーダ17Bとの動作の同期が図られ、音声デコーダ15Bからはデコードされた音声信号が、また、映像デコーダ17Bからはエンコードされた映像信号が互いに同期された状態で出力される。
以上のように、端末機器TB内にてデコードされた音声信号とデコードされた映像信号との同期が取られているので、端末機器TBにおいてスピーカ5Bから出力される音声とディスプレイ7Bから出力される映像との間に時間的ずれは生じ難く、リップシンクがずれるのを防ぐことができる。
次に、図10を参照し、制御部23A,23Bの動作を中心に、端末機器TBから端末機器TAに対して音声と映像とを個別のストリームで送る場合における、テレビ電話システムVP4の動作を説明する。
使用者が相手側との通信を開始するためにリモコン27を操作すると、リモコン27は、送信開始を指示するための操作信号を端末機器TBに送出する(S601)と共に、音声基準信号となる音声及び映像基準信号となる赤外線を出力する(S602)。リモコン27から送信された通話開始を指示するための操作信号は、リモコン受信部29Bを通して制御部23Bに送られる。
音声基準信号となる音声は、マイク31で集音され、音声基準信号を含む音声信号として音声エンコーダ35に出力される。音声エンコーダ35は、音声基準信号を含む音声信号をエンコードし、音声基準信号を含み且つエンコードされた音声信号を出力する。映像基準信号となる赤外線は、カメラ33で撮像され、映像基準信号を含む映像信号として映像エンーダに出力される。映像エンコーダ37は、映像基準信号を含む映像信号をエンコードし、映像基準信号を含み且つエンコードされた映像信号を出力する。
ネットワークインターフェイス21Bは、上述したように、音声基準信号を含み且つエンコードされた音声信号及び映像基準信号を含み且つエンコードされた映像信号をそれぞれ個別のストリームとしてIPパケット化し、ネットワークNに送出する。
端末機器TBから端末機器TAにIPパケットが届くと(S603)、端末機器TAにおいて、ネットワークインターフェイス21Aは、IPパケットを音声信号のストリームと映像信号のストリームとに分け、対応するデコーダ15A,17Aに出力する。音声デコーダ15Aは、入力された音声信号をデコードして出力し、映像デコーダ17Aは入力された映像信号をデコードして出力する。ここで、デコードされた音声信号には音声基準信号が含まれており、デコードされた映像信号には映像基準信号が含まれている。
制御部23Aは、比較部19Aに対し、基準信号間の時間ずれ量を検出するように指示を送る。このとき、比較部19Aは、上述したS103と同様にして、音声基準信号の時刻taと映像基準信号の時刻tvとを求める(S604)。そして、音声基準信号の時刻taと映像基準信号の時刻tvとを求めると、比較部19Aは、上述したS104と同様にして、音声基準信号の時刻taと映像基準信号の時刻tvとを比較し、音声基準信号と映像基準信号との間の時間ずれ量(ta−tvあるいはtv−ta)を検出する(S605)。
制御部23Aは、比較部19Aが上記時間ずれ量(ta−tvあるいはtv−ta)を検出すると、当該時間ずれ量(ta−tvあるいはtv−ta)を読み込み、音声デコーダ15Aと映像デコーダ17Aとのうち、音声基準信号と映像基準信号とのうち相互の時間関係が早い方の信号をデコードするデコーダ(音声デコーダ15A又は映像デコーダ17A)に対し、時間ずれ量(ta−tvあるいはtv−ta)分の遅延を設定するように指示を出す。上記相互の時間関係が早い方の信号をデコードするデコーダ(音声デコーダ15A又は映像デコーダ17A)は、制御部23Aからの指示を受け、時間ずれ量(ta−tvあるいはtv−ta)分の遅延を設定する(S606あるいはS607)。これにより、音声デコーダ15Aと映像デコーダ17Aとの動作の同期が図られ、音声デコーダ15Aからはデコードされた音声信号が、また、映像デコーダ17Aからはエンコードされた映像信号が互いに同期された状態で出力される。
比較部19A,19Bでの各基準信号の監視は、接続中常に行うは無く、送信側の端末機器(端末機器TAあるいは端末機器TB)との接続後、所定期間(例えば、数十秒間)行えばよい。また、通信中に同期を行いたい場合には、送信側の端末機器でネットワーク上のプロトコル(例えば、RTP)のヘッダにビットを立て、当該ビットを検出してから所定期間(例えば、数十秒間)だけ監視を行うようにしてもよい。
以上のように、端末機器TBから端末機器TAへ送信する場合も、端末機器TA側にてデコードされた音声信号とデコードされた映像信号との同期が取られているので、端末機器TAにおいてスピーカ5Aから出力される音声とディスプレイ7Aから出力される映像との間に時間的ずれは生じ難く、リップシンクがずれるのを防ぐことができる。
次に、図11を参照して、第4実施形態の変形例について説明する。本変形例では、送信側の端末機器にて同期を取る点で、上述した第4実施形態と相違する。
使用者が相手側との通信を開始するためにリモコン27を操作すると、リモコン27は、送信開始を指示するための操作信号を端末機器TAに送出する(S701)と共に、音声基準信号となる音声及び映像基準信号となる赤外線を出力する(S702)。リモコン27から送信された通話開始を指示するための操作信号は、リモコン受信部29Aを通して制御部23Aに送られる。
制御部23Aは、通話開始を指示するための操作信号が入力されると、比較部19Aに対し、基準信号間の時間ずれ量を検出するように指示を送る。このとき、比較部19Aは、上述したS103と同様にして、音声基準信号の時刻taと映像基準信号の時刻tvとを求める(S703)。そして、音声基準信号の時刻taと映像基準信号の時刻tvとを求めると、比較部19Aは、上述したS104と同様にして、音声基準信号の時刻taと映像基準信号の時刻tvとを比較し、音声基準信号と映像基準信号との間の時間ずれ量(ta−tvあるいはtv−ta)を検出する(S704)。
制御部23Aは、比較部19Aが時間ずれ量(ta−tvあるいはtv−ta)を検出すると、当該時間ずれ量(ta−tvあるいはtv−ta)を読み込み、ネットワークインターフェイス21Aに対し、音声基準信号と映像基準信号とのうち相互の時間関係が早い方の基準信号を含む信号をIPパケット化するときのタイムスタンプ情報に時間ずれ量(ta−tvあるいはtv−ta)分の加算を行うように指示を出す。ネットワークインターフェイス21Aは、制御部23Aからの指示を受け、上記相互の時間関係が早い方の基準信号を含む信号をIPパケット化するときのタイムスタンプ情報を、時間ずれ量(ta−tvあるいはtv−ta)分だけ加算するように設定する(S705あるいはS706)。これにより、音声に関するIPパケットのタイムスタンプ情報と映像に関するIPパケットのタイムスタンプ情報との同期が図られ、端末機器TAからは、音声に関するIPパケットと映像に関するIPパケットとは互いに同期された状態で出力される。
端末機器TAから端末機器TBにIPパケットが送られると、端末機器TBにおいて、ネットワークインターフェイス21Bは、IPパケットを音声信号のストリームと映像信号のストリームとに分け、対応するデコーダ15B,17Bに送る。このとき、音声デコーダ15B及び映像デコーダ17Bには、タイムスタンプ情報も送られる。
音声デコーダ15B及び映像デコーダ17Bは、制御部23Bの制御の下でデコード処理を行い、信号を出力する。音声デコーダ15Bにてデコードされた音声信号はスピーカ5Bから音声として出力され、映像デコーダ17Bにてデコードされた映像信号はディスプレイ7Bから映像として出力される。このとき、音声デコーダ15B及び映像デコーダ17Bに送られたタイムスタンプ情報は同期が取られているので、端末機器TBにおいてスピーカ5Bから出力される音声とディスプレイ7Bから出力される映像との間に時間的ずれは生じ難く、リップシンクがずれるのを防ぐことができる。
端末機器TBから端末機器TAへ送信する場合も、同様に、端末機器TB側にて音声に関するIPパケットのタイムスタンプ情報と映像に関するIPパケットのタイムスタンプ情報との同期が取られているので、端末機器TAにおいてスピーカ5Aから出力される音声とディスプレイ7Aから出力される映像との間に時間的ずれは生じ難く、リップシンクがずれるのを防ぐことができる。
以上、本発明の好適な実施形態について説明してきたが、本発明は必ずしも上述した実施形態に限定されるものではなく、その要旨を逸脱しない範囲で様々な変更が可能である。
例えば、本実施形態においては、本発明を双方向での通信を行うテレビ電話システムVP1〜VP4に適用した例を示したが、これに限られることなく、一方向に通信を行うストリーム配信システムにも本発明を適用することができる。映像信号と音声信号とのストリームが一方向にしか流れない場合には、受信側となる端末機器には、マイク、カメラ、マーカー発生部、各エンコーダは不要となる。
第1実施形態に係るテレビ電話システムの構成を示すブロック図である。 第1実施形態に係るテレビ電話システムにおける処理動作を説明するためのフローチャートである。 第1実施形態に係るテレビ電話システムにおける処理動作を説明するためのフローチャートである。 第2実施形態に係るテレビ電話システムの構成を示すブロック図である。 第2実施形態に係るテレビ電話システムにおける処理動作を説明するためのフローチャートである。 第2実施形態に係るテレビ電話システムにおける処理動作を説明するためのフローチャートである。 第3実施形態に係るテレビ電話システムの構成を示すブロック図である。 第4実施形態に係るテレビ電話システムの構成を示すブロック図である。 第4実施形態に係るテレビ電話システムにおける処理動作を説明するためのフローチャートである。 第4実施形態に係るテレビ電話システムにおける処理動作を説明するためのフローチャートである。 第1実施形態の変形例に係るテレビ電話システムにおける処理動作を説明するためのフローチャートである。
符号の説明
1A,1B,31…マイク、3A,3B,33…カメラ、5A,5B…スピーカ、7A,7B…ディスプレイ、9A,9B…マーカー発生部、11A,11B,35…音声エンコーダ、13A,13B,37…映像エンコーダ、15A,15B…音声デコーダ、17A,17B…映像デコーダ、19A,19B…比較部、21A,21B…ネットワークインターフェイス、23A,23B…制御部、27…リモコン、29A,29B…リモコン受信部、CU…カメラユニット、MU…マイクユニット、N…ネットワーク、TA,TB…端末機器、VP1〜VP4…テレビ電話システム。

Claims (5)

  1. 所定のタイミングで入力された音声基準信号を含み且つエンコードされた音声信号を入力する第1の入力手段と、
    前記音声基準信号と同じタイミングで入力された映像基準信号を含む且つエンコードされた映像信号を入力する第2の入力手段と、
    前記第1の入力手段により入力された前記音声信号をデコードする第1のデコード手段と、
    前記第2の入力手段により入力された前記映像信号をデコードする第2のデコード手段と、
    前記第1のデコード手段でデコードされた前記音声信号に含まれる前記音声基準信号と、前記第2のデコード手段でデコードされた前記映像信号に含まれる前記映像基準信号との間の時間ずれ量を検出する時間ずれ検出手段と、
    前記時間ずれ検出手段での検出結果に基づいて、音声信号と映像信号とのうち相互の時間関係が早い方の信号を前記時間ずれ量分遅らせてそれぞれ出力するように制御する制御手段と、を備えることを特徴とするリップシンク制御装置。
  2. 前記第1の入力手段は、前記音声基準信号を含む音声信号をエンコードする第1のエンコード手段を含み、
    前記第2の入力手段は、前記映像基準信号を含む映像信号をエンコードする第2のエンコード手段を含み、
    前記制御手段は、前記第1のエンコード手段と前記第2のエンコード手段とのうち前記相互の時間関係が早い方の信号をエンコードするエンコード手段に対し、上記時間ずれ量分の遅延を行うように指示を出すことを特徴とする請求項1に記載のリップシンク制御装置。
  3. 前記制御手段は、前記第1のデコード手段と前記第2のデコード手段とのうち前記相互の時間関係が早い方の信号をデコードするデコード手段に対し、上記時間ずれ量分の遅延を行うように指示を出すことを特徴とする請求項1に記載のリップシンク制御装置。
  4. 前記制御手段は、エンコードされた音声信号とエンコードされた映像信号とのうち前記相互の時間関係が早い方の信号を遅延して出力することを特徴とする請求項1に記載のリップシンク制御装置。
  5. 所定のタイミングで入力された音声基準信号を含み且つエンコードされた音声信号を入力する第1のステップと、
    前記音声基準信号と同じタイミングで入力された映像基準信号を含む且つエンコードされた映像信号を入力する第2のステップと、
    前記第1のステップで入力された前記音声信号をデコードする第3のステップと、
    前記第2のステップで入力された前記映像信号をデコードする第4のステップと、
    前記第3のステップでデコードされた音声信号に含まれる音声基準信号と、前記第4のステップでデコードされた映像信号に含まれる映像基準信号との間の時間ずれ量を検出する第5のステップと、
    前記第5のステップでの検出結果に基づいて、音声信号と映像信号とのうち相互の時間関係が早い方の信号を前記時間ずれ量分遅らせてそれぞれ出力するように制御する第6のステップと、を備えることを特徴とするリップシンク制御方法。
JP2006317534A 2006-11-24 2006-11-24 リップシンク制御装置及びリップシンク制御方法 Pending JP2008131591A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006317534A JP2008131591A (ja) 2006-11-24 2006-11-24 リップシンク制御装置及びリップシンク制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006317534A JP2008131591A (ja) 2006-11-24 2006-11-24 リップシンク制御装置及びリップシンク制御方法

Publications (1)

Publication Number Publication Date
JP2008131591A true JP2008131591A (ja) 2008-06-05

Family

ID=39556962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006317534A Pending JP2008131591A (ja) 2006-11-24 2006-11-24 リップシンク制御装置及びリップシンク制御方法

Country Status (1)

Country Link
JP (1) JP2008131591A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011035466A (ja) * 2009-07-29 2011-02-17 Tamura Seisakusho Co Ltd ディレイ調整システム
JP2011146783A (ja) * 2010-01-12 2011-07-28 Kddi Corp 映像フレーム及び音声フレームとの間の同期外れを補正する中継装置、プログラム、システム及び方法
JP2014132730A (ja) * 2013-01-07 2014-07-17 Nippon Hoso Kyokai <Nhk> 同期情報生成装置およびそのプログラム、同期データ再生装置およびそのプログラム
CN109612502A (zh) * 2018-12-05 2019-04-12 麦歌恩电子(上海)有限公司 磁编码器芯片内部信号传输延时的测试方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011035466A (ja) * 2009-07-29 2011-02-17 Tamura Seisakusho Co Ltd ディレイ調整システム
JP2011146783A (ja) * 2010-01-12 2011-07-28 Kddi Corp 映像フレーム及び音声フレームとの間の同期外れを補正する中継装置、プログラム、システム及び方法
JP2014132730A (ja) * 2013-01-07 2014-07-17 Nippon Hoso Kyokai <Nhk> 同期情報生成装置およびそのプログラム、同期データ再生装置およびそのプログラム
CN109612502A (zh) * 2018-12-05 2019-04-12 麦歌恩电子(上海)有限公司 磁编码器芯片内部信号传输延时的测试方法及系统
CN109612502B (zh) * 2018-12-05 2021-02-12 麦歌恩电子(上海)有限公司 磁编码器芯片内部信号传输延时的测试方法及系统

Similar Documents

Publication Publication Date Title
US7843974B2 (en) Audio and video synchronization
JP2007097185A (ja) マルチメディアストリームにおける同期化ウォーターマーキング
US20110304739A1 (en) Camera system, video selection apparatus and video selection method
JP2006310964A (ja) 通信端末装置及びその制御方法、並びにプログラム
JP2005033664A (ja) 通信装置及びその動作制御方法
JP2004282667A (ja) 再生同期ずれ補正機能を備えた送信機及び受信機、並びにそれらを有する伝送装置
JP4379418B2 (ja) 通信サービスユニットおよび接続シーケンス実行方法
JP2008131591A (ja) リップシンク制御装置及びリップシンク制御方法
JPH0993553A (ja) 画像通信装置および画像通信方法
JP2003163897A (ja) コンテンツ送信方法、コンテンツ送信装置、コンテンツ送信プログラムおよびコンテンツ受信制御方法、コンテンツ受信制御装置、コンテンツ受信制御プログラムならびにコンテンツ時刻制御システム
JP2006340321A (ja) ネットワークシステム及びネットワークシステムにおける通信方法
WO2013145225A1 (ja) エレメンタリストリームをエンコードし、多重し、またはデコードするための方法、装置、およびプログラム
JP2007020095A (ja) 情報合成装置、情報合成システム、情報同期方法およびプログラム
JP5434390B2 (ja) 電子会議システム、多地点接続装置、データ通信方法、プログラム、記録媒体及び通信装置
JP6972576B2 (ja) 通信装置、通信システム、通信方法及びプログラム
JP2008244781A (ja) 地上波デジタル放送のip再送信システム及びこれで用いるまだら編成時のシームレス切り替え制御方法
JP2006074359A (ja) 遠隔会議システムにおける音声データの送受信システム及び制御方法
JP2010028642A (ja) 画像伝送システム
JP2019211638A (ja) 処理装置、出力装置、同期制御システム、及びこれらの制御方法、並びにプログラム
JP4669366B2 (ja) インターホン装置
JP4525697B2 (ja) 伝送ヘッダ圧縮装置、動画像符号化装置及び動画像伝送システム
JP5352545B2 (ja) デジタル放送送出装置
JP2005159679A (ja) 映像音声通信システム
JP2010193327A (ja) 画像復号装置およびパケット損失補償方法
JP4311176B2 (ja) 映像音声通信システム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080806

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20080718