JP5490782B2 - 画像音声通信装置およびその通信方法 - Google Patents

画像音声通信装置およびその通信方法 Download PDF

Info

Publication number
JP5490782B2
JP5490782B2 JP2011504727A JP2011504727A JP5490782B2 JP 5490782 B2 JP5490782 B2 JP 5490782B2 JP 2011504727 A JP2011504727 A JP 2011504727A JP 2011504727 A JP2011504727 A JP 2011504727A JP 5490782 B2 JP5490782 B2 JP 5490782B2
Authority
JP
Japan
Prior art keywords
image
pts
sound
unit
timing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011504727A
Other languages
English (en)
Other versions
JPWO2010106743A1 (ja
Inventor
義雅 本田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2011504727A priority Critical patent/JP5490782B2/ja
Publication of JPWO2010106743A1 publication Critical patent/JPWO2010106743A1/ja
Application granted granted Critical
Publication of JP5490782B2 publication Critical patent/JP5490782B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/24Systems for the transmission of television signals using pulse code modulation
    • H04N7/52Systems for transmission of a pulse code modulated video signal with one or more other pulse code modulated signals, e.g. an audio signal or a synchronizing signal
    • H04N7/54Systems for transmission of a pulse code modulated video signal with one or more other pulse code modulated signals, e.g. an audio signal or a synchronizing signal the signals being synchronous
    • H04N7/56Synchronising systems therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4305Synchronising client clock from received content stream, e.g. locking decoder clock with encoder clock, extraction of the PCR packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44004Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving video buffer management, e.g. video decoder buffer or video display buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44209Monitoring of downstream path of the transmission network originating from a server, e.g. bandwidth variations of a wireless network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/4425Monitoring of client processing errors or hardware failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、画像音声通信装置およびその通信方法に関し、特にTV会議を行うための画像音声通信装置およびその通信方法に関する。
近年、ADSL(Asymmetric Digital Subscriber Line)および光ファイバー網が急速に普及し、低価格で高速なインターネット接続が利用可能となっている。また、こうした低価格の高速インターネットを利用して遠隔の拠点間の映像音声データを双方向に伝送することにより、簡易にTV会議システムを構築することも可能となっている。
そして、構築可能なTV会議システムとして、HD(High Definition)解像度を撮像可能なカメラの出現とPDP(Plasma Display Panel)に代表されるディスプレイ大型化とにより、大画面ディスプレイに等身大で人物を表示するなど対面感のある臨場感の高いTV会議システムがある。
このような対面感のある臨場感の高い大画面TV会議システムでは、例えば1920x1080画素のフルHDで秒60フレームの高精細の動きが滑らかな映像を用いて、等身大で表示することが可能である。そのため、映像の途切れあるいは音声の途切れは品質劣化につながってしまう。
また、TV会議装置システムでは、映像音声の一方方向の放送と異なり、映像音声の双方向通信を行うが、送信端末となるTV会議装置と受信端末となるTV会議装置のシステムクロックを同期させることができない。
そのため、受信端末となるTV会議装置では、送信端末となるTV会議装置側でパケット毎に付与したタイムスタンプに従いAV(Audio Video)再生を行うが、送信端末と受信端末とのシステムクロックが同期していないことにより、再生時刻にズレが発生してしまう。
例えば受信端末側のTV会議装置におけるシステムクロックが送信端末側であるTV会議装置より早い(進んでいる)場合、受信端末側のTV会議装置では、AV再生タイミングは送信端末側であるTV会議装置よりも早いため、再生データが不足する(アンダーフロー)状態となる。逆に、受信端末側のTV会議装置におけるシステムクロックが送信端末側であるTV会議装置より遅い(遅れている)場合、受信端末側のTV会議装置では、AV生成タイミングは送信端末側であるTV会議装置よりも遅いため、再生データが蓄積する(オーバーフロー)状態となる。
これに対応するためのTV会議装置が開示されている(下記特許文献1参照。)。このTV会議装置では、入力されたストリーム中のタイムスタンプと自走タイムスタンプとの時刻差に基づいて入力タイムスタンプの精度を算出し、算出した精度の誤差が範囲外の場合には、画像データをスキップまたはリピートする制御を行う。それにより、再生する画像データの補正を行う。
特開2004−15553号公報
しかしながら、上記特許文献1に開示されるTV会議端末により構成される対面感がある臨場感の高いTV会議システムでは、例えばフレームのスキップまたはフレームのリピートなど画像データのスキップまたはリピートの制御が行われると、例えば映像が会話中に一時的に停止してしまうことがあり画像が一時的だが途切れてしまう。すなわち、特許文献1に開示されるTV会議端末では、送信端末と受信端末との再生時刻のズレを抑制することができるものの、映像の途切れなどの品質劣化を生んでしまうことになる。
このように、上記特許文献1に開示されるTV会議端末では、品質劣化によりコミュニケーションが阻害されてしまうので、対面感がある臨場感の高いTV会議システムに代表されるコミュニケーション用途用としては不適である。
そこで、本発明は、上記のような点に鑑みて、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる画像音声通信装置およびその通信方法を提供することを目的とする。
上記目的を達成するために、本発明に係る画像音声通信装置は、画像音声通信装置であって、ネットワークを通じて、画像および音声を送受信する送受信部と、前記送受信部により送信される音声、または前記送受信部により受信された画像もしくは音声の内容に基づいて、当該受信された画像または音声におけるPTS(Presentation Time Stamp)の補正量を更新すべきタイミングを判定するタイミング判定部と、前記タイミング判定部により判定されたタイミングに当該受信された画像または音声におけるPTSの補正量を更新することにより、当該PTSを補正するPTS補正部と、前記画像音声通信装置が示す現在時刻における補正された当該PTSに対応する当該受信された画像および音声を出力する画像音声出力部とを備える。
この構成によれば、ユーザが気づきにくいタイミングを判定することができ、判定したタイミングにおいてPTS補正が行われた画像または音声を出力することができる。それにより、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる。
また、前記画像音声通信装置は、さらに、ユーザ操作によりユーザ操作情報が入力されるユーザ入力部を備え、前記タイミング判定部は、前記ユーザ入力部に入力されたユーザ操作情報が前記受信された画像の画面レイアウト変更を伴うユーザ操作を示す場合に、当該画面レイアウト変更を伴うユーザ操作のタイミングを、前記補正量を更新すべきタイミングとして判定してもよい。
この構成によれば、画面レイアウトが変更されるタイミングにおいて画像のPTS補正が行われることにより、例えばフレームのスキップなどの、画像のPTS補正をユーザに気づかせずにすることができる。それにより、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる。
また、前記タイミング判定部は、前記送受信部により受信された画像と当該受信された画像の時間的に前の画像との相関値が予め設定した閾値より高い場合に、当該受信された画像が前記画像音声出力部により出力されるタイミングを前記補正量の更新すべきタイミングとして判定してもよい。
この構成によれば、表示する画像の時間的相関が高く画面内の動きが少ないタイミングにおいて画像のPTS補正が行われることにより、例えばフレームのスキップまたはフレームのリピートなどの、画像のPTS補正をユーザに気づかせずにすることができる。それにより、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる。
また、前記タイミング判定部は、前記送受信部により受信された画像のデータ量が予め設定した閾値より小さい場合に、前記受信された画像が前記画像音声出力部により出力されるタイミングを前記補正量の更新すべきタイミングとして判定してもよい。
この構成によれば、出力する画像のデータ量が小さく画面内の動きが少ないと予想されるタイミングにおいて画像のPTS補正が行われることにより、例えばフレームのスキップまたはフレームのリピートなどの、画像のPTS補正をユーザに気づかせずにすることができる。それにより、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる。
また、前記タイミング判定部は、前記送受信部により受信された音声のレベルが予め設定した閾値よりも小さい場合に、前記受信された音声が前記画像音声出力部により出力されるタイミングを前記補正量の更新すべきタイミングとして判定するとしてもよい。
この構成によれば、再生する音のレベルが小さいタイミングにてPTS補正が行われることにより、例えば音とびなどによる音声のPTS補正をユーザに気づかせずにすることができる。それにより、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる。
また、前記画像音声通信装置は、さらに、前記送受信部により送信される音声がマイクを用いて収音されて入力される音声入力部とを備え、前記タイミング判定部は、前記音声入力部に入力された音声のレベルが予め設定した閾値よりも大きい場合に、前記入力された音声が前記画像音声出力部により出力されるタイミングを前記補正量の更新すべきタイミングとして判定してもよい。
この構成によれば、例えば周辺の音が大きいまたはユーザなどの話者が発話状態にあるように入力される音声のレベルが大きいタイミングにてPTS補正が行われることにより、例えば音とびなどによる音声のPTS補正をユーザに気づかせずにすることができる。それにより、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる。
また、前記画像音声通信装置は、さらに、前記送受信部により受信された画像または音声を一時的に記憶するバッファと、前記バッファの容量の残量を監視し、当該残量に基づいて、PTS補正量を算出するPTS補正量算出部とを備え、前記PTS補正部は、前記タイミング判定部により判定されたタイミングの画像または音声におけるPTSに前記PTS補正量算出部により算出されたPTS補正量を加算することを用いて、当該判定されたタイミングの画像または音声におけるPTSを補正してもよい。
この構成によれば、システムクロックのズレ量を相殺する方向にPTS補正量を算出することができる。それにより、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる。
なお、本発明は、装置として実現するだけでなく、このような装置が備える処理手段を備える集積回路として実現したり、その装置を構成する処理手段をステップとする方法として実現したり、それらステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、それらプログラムは、CD−ROMなどの記録媒体やインターネットなどの通信媒体を介して配信してもよい。
本発明によれば、ユーザに対して画像・音声の違和感を生むことなくシステムクロックのズレを解消することができる画像音声通信装置およびその通信方法を実現することができる。
具体的には、ユーザが気づきにくいPTSの補正量を更新すべきタイミングを判定し、そのタイミングで画像または音声のPTSが補正されることにより、PTS補正が行われることに伴い発生する例えば音とびまたはフレームのスキップなどによる違和感をユーザに感じさせずにシステムクロックのズレを解消することができる。
図1は、本発明の画像音声通信装置を備えるTV会議システム構成例を示す図である。 図2は、本発明に係る画像音声通信装置の構成を示すブロック図である。 図3は、本発明に係る画像音声通信装置の送信側処理を説明するためのフローチャートである。 図4は、本発明に係る画像音声通信装置の受信処理を説明するためのフローチャートである。 図5は、本発明に係るPTS補正量決定処理の1例を説明するためのフローチャートである。 図6は、本発明に係る画像差分値算出処理を説明するためのフローチャートである。 図7は、本発明に係る画面レイアウト判定処理を説明するためのフローチャートである。 図8は、本発明に係る入力音声レベル検出処理を説明するためのフローチャートである。 図9は、本発明に係る受信音声レベル検出処理を説明するためのフローチャートである。 図10は、本発明に係る画像音声通信装置の画像のPTS補正タイミング判定処理を説明するためのフローチャートである。 図11は、本発明に係る画像音声通信装置の音声のPTS補正タイミング判定処理を説明するためのフローチャートである。 図12は、本発明に係る画像音声通信装置の最小構成を示すブロック図である。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の画像音声通信装置を備えるTV会議システム構成例を示す図である。
図1に示すように、TV会議システムは、画像音声通信装置100がネットワーク207を介して他の画像音声通信装置300と、画像音声データを双方向に伝送する。
画像音声通信装置100は、ネットワーク207を介して、他の画像音声通信装置300にカメラ・マイク101により撮像された画像音声を送信し、かつ、他の画像音声通信装置300から画像音声データを受信する。また、画像音声通信装置100は、受信した画像音声データのPTS補正を行うことにより他の画像音声通信装置300との間すなわち装置間のクロックのズレにより発生するオーバーフローやアンダーフローを防止しつつ画像音声データをモニタ・スピーカ103に出力する。
他の画像音声通信装置300は、ネットワーク207を介して、他の画像音声通信装置300にカメラ・マイク301により撮像された画像音声を送信する。また、他の画像音声通信装置300は、画像音声通信装置100から画像音声データを受信し、受信した画像音声データをモニタ・スピーカ303に出力する。
図2は、本発明に係る画像音声通信装置の構成を示すブロック図である。
図2に示すように、画像音声通信装置100は、画像音声入力部104と、符号化部105と、送信部106と、受信部108と、PTS補正量算出部109と、復号化部110と、PTS補正タイミング判定部111と、PTS補正部112と、画像音声出力部113と、受信バッファ114と、出力バッファ115とを備える。また、画像音声通信装置100は、画像を撮像するカメラ・マイク101が外部に接続され、ユーザからの操作であるGUI操作が入力されるユーザインターフェースであるユーザ入力部102が接続されている。また、画像音声通信装置100は、画像音声データを再生するモニタ・スピーカ103に接続されている。
画像音声入力部104は、画像を撮像するカメラ・マイク101から非圧縮の画像および音声データを入力するインターフェースである。画像音声入力部104は、カメラ・マイク101によりフレーム単位で入力された画像および音声データ(以下、自装置画像音声データと記載。)を、符号化部105と画像音声出力部113とPTS補正タイミング判定部111とに出力する。
符号化部105は、画像音声入力部104より入力された自装置画像音声データを符号化(圧縮符号化)し、符号化した自装置画像音声データを送信部106に出力する。ここで、符号化部105は、例えばH.264およびMPEG−4 AACなどの圧縮符号化方式を用いて自装置画像音声データの圧縮符号化を行う。
送信部106は、符号化部105より入力された符号化後の自装置画像音声データをネットワーク207に出力する。ここで、例えば、送信部106は、自装置画像音声データを例えばRTP(Realtime Transport Protocol)パケット化して出力する。具体的には、送信部106は、RTPパケットのRTPヘッダのタイムスタンプ領域に出力時刻であるPTS(Presentation Time Stamp)を記述して、RTPパケット化を行った自装置画像音声データを、ネットワーク207を介して他の画像音声通信装置300に出力する。
受信部108は、受信バッファ114を備え、ネットワーク207経由で他の画像音声通信装置300から送信された画像および音声データ(以下、相手装置画像音声データと記載。)を受信し、受信した相手装置画像音声データを復号化部110に出力するとともに、受信データ量をPTS補正量算出部109に出力する。具体的には、受信部108は、受信バッファ114に受信した相手装置画像音声データのRTPパケットを一旦保存する。受信部108は、受信バッファ114に保存する相手装置画像音声データのRTPパケットから抽出した受信時刻と受信データ量とをPTS補正量算出部109に出力し、受信バッファ114に保存する相手装置画像音声データのRTPパケットを復号化部110に出力する。
受信バッファ114は、受信部108が受信した相手装置画像音声データのRTPパケットを一時的に保存する。受信バッファ114が保存している相手装置画像音声データのRTPパケットは、復号化部110に、受信部108を介して出力される。
PTS補正量算出部109は、受信データ量を観測しており、観測している受信データ量に基づいてPTS補正量を算出している。具体的には、PTS補正量算出部109は、受信部108から入力される受信データ量と復号化部110より入力される受信バッファ114の容量の残量を用いてPTS補正量を算出し、算出したPTS補正量をPTS補正タイミング判定部111に出力する。
復号化部110は、受信部108より入力された相手装置画像音声データの復号化を行い、復号化後の相手装置画像音声データをPTS補正部112とPTS補正タイミング判定部111とに出力する。また、復号化部110は、受信バッファ114の容量の残量を確認し、PTS補正量算出部109に出力しつつ、出力バッファ115に空きがある状態である復号化可能状態かどうかを確認する。そして、復号化部110は、復号化可能状態である場合に復号化処理を行う。すなわち、復号化部110は、出力バッファ115に空きがある状態である復号化可能状態である場合に、受信バッファ114から相手装置画像音声データのRTPパケットを受け取り、復号化処理を行う。
具体的には、復号化部110は、受信バッファ114から受け取ったRTPパケットの復号化処理として、RTPパケットから符号化画像データ形式および符号化音声データ形式への変換を行い、出力時刻であるPTSを算出する。さらに、復号化部110は、符号化画像データに対してはH.264で復号化を、符号化音声データに対してはMPEG−4 AAC復号化を行い、復号化後の画像データおよび音声データ(以下、相手装置復号化後画像音声データと記載する。)をPTS補正タイミング判定部111に出力する。それと同時に、復号化部110は、相手装置復号化後画像音声データとそれにPTSを関連付けて出力バッファ115に保存する。
PTS補正タイミング判定部111は、送信部106により送信される音声、または受信部108により受信された画像もしくは音声の内容に基づいて、すなわち画像音声入力部104から入力された自装置画像音声データ、ユーザ入力部102から入力されたユーザ操作情報および復号化部110より入力された復号化後画像音声データの少なくとも1つを用いて、PTSの補正量を更新すべきタイミングであるPTS補正タイミングを判定し、PTS補正量算出部109で算出されたPTS補正量と共に、PTS補正部112にPTS補正要求とを出力する。すなわち、PTS補正タイミング判定部111は、クロックのズレ補正を行うタイミングとして、ユーザが気づきにくいタイミングをPTSの補正量を更新すべきタイミングと判定し、PTS補正部112にPTS補正タイミングをPTS補正要求で通知する。
PTS補正部112は、PTS補正タイミング判定部111より入力されたPTS補正要求に応じて、相手装置復号化後画像音声データに関連付けられたPTSの補正を行う。具体的には、PTS補正部112は、復号化部110より出力バッファ115に保存された相手装置復号化後画像音声データに関連付けられたPTS情報に対して、PTS補正タイミング判定部111より出力されたPTS補正量を用いてPTS情報を補正し、補正後のPTS情報を画像音声出力部113に出力する。
画像音声出力部113は、PTS補正部112より入力される補正後のPTS情報に従い、出力バッファ115に保存されている相手装置復号化後画像音声データをモニタ・スピーカ103に出力する。すなわち、画像音声出力部113は、PTS補正部112より入力された補正後のPTS値と画像音声通信装置100のシステムクロック(現在時刻)とを比較して、そのシステムクロックに近いPTSの相手装置復号化後画像および音声データを出力バッファ115からモニタ・スピーカ103に出力する。
以上のようにして、画像音声通信装置100は構成される。
次いで、上記構成を有する画像音声通信装置100の動作について、図を用いて説明する。なお、以下に説明する動作は、画像音声通信装置100の図示しない例えばROMやフラッシュメモリなどの記憶装置に制御プログラムとして記憶されており、CPUによって制御される。
図3は、本発明に係る画像音声通信装置の送信処理を説明するためのフローチャートである。
まず、画像音声通信装置100は、画像音声入力処理を行う(S201)。具体的には、画像音声入力部104は、外部に接続されたカメラ・マイク101から非圧縮の自装置画像音声がフレーム単位で入力され、入力された自装置画像音声データを符号化部105とPTS補正タイミング判定部111と画像音声出力部113とに出力する。
次に、画像音声通信装置100は、画像音声符号化処理を行う(S202)。具体的には、符号化部105は、画像音声入力部104より入力された非圧縮の自装置画像音声データに対して、例えばH.264およびMPEG−4 AACなどの圧縮符号化方式を用いて圧縮符号化を行い、符号化後の自装置画像音声データを送信部106に出力する。
次に、画像音声通信装置100は、送信処理を行う(S203)。具体的には、送信部106は、符号化部105から入力された符号化後の自装置画像音声データを例えばRTP(Realtime Transport Protocol)パケット化する。すなわち、送信部106は、RTPヘッダのタイムスタンプ領域に出力時刻であるPTS(Presentation Time Stamp)を記述して、RTPパケット化を行った自装置画像音声データを、ネットワーク207を介して他の画像音声通信装置300に出力する。
以上のように、画像音声通信装置100は、自装置画像音声データをネットワーク207を介して他の画像音声通信装置300に出力する。
図4は、本発明に係る画像音声通信装置の受信側処理を説明するためのフローチャートである。
まず、画像音声通信装置100は、パケット受信処理を行う(S301)。具体的には、受信部108は、ネットワーク207経由で他の画像音声通信装置300から送信された相手装置画像音声データのRTPパケットを受信し、受信した相手装置画像音声データのRTPパケットを受信バッファ114に一旦保存する。そして、受信バッファ114に保存している受信した相手装置画像音声データから抽出した受信時刻と受信データ量とをPTS補正量算出部109に出力するとともに、復号化部110が復号化可能状態である場合に、受信した相手装置画像音声データのRTPパケットを復号化部110に出力する。
次に、画像音声通信装置100は、パケット復号化処理を行う(S302)。具体的には、復号化部110は、受信バッファ114の容量の残量を確認し、PTS補正量算出部109に出力しつつ、出力バッファ115に空きがある状態である復号化可能状態かどうかを確認する。そして、復号化可能状態である場合に受信バッファ114から受け取った相手装置画像音声データのRTPパケットの復号化処理を行い、出力時刻であるPTSを算出するとともに、復号化後の相手装置画像音声データをPTS補正タイミング判定部111に出力する。また、復号化部110は、復号化画像データおよび復号化音声データとそれぞれのPTSを関連付けて出力バッファ115に保存する。
次に、画像音声通信装置100は、PTS補正量算出処理を行う(S303)。具体的には、PTS補正量算出部109は、受信部108から入力された受信データ量と復号化部110より入力された受信バッファ114の容量の残量を用いてPTS補正量を算出し、算出したPTS補正量をPTS補正タイミング判定部111に出力する。なお、PTS補正量算出処理の詳細については、後述するためここでは説明を省略する。
次に、画像音声通信装置100は、PTS補正タイミング判定処理を行う(S304)。具体的には、PTS補正タイミング判定部111は、画像音声入力部104より入力された自装置画像音声データ、ユーザ入力部102から入力されたユーザ操作情報および復号化部110より入力された復号化後画像音声データの少なくとも1つを用いてPTS補正タイミングを判定する。なお、PTS補正タイミング判定の詳細については、後述するためここでは説明を省略する。
PTS補正タイミング判定部111は、S304において、PTS補正タイミングを判定する場合(S304のYESの場合)、PTS補正量算出部109より算出されたPTS補正量と共に、PTS補正部112にPTS補正要求とを出力する。
次に、画像音声通信装置100は、PTSオフセット変更を行い(S305)、PTS補正を行う(S306)。具体的には、PTS補正部112は、復号化部110より出力バッファ115に保存された相手装置復号化後画像音声データに関連付けられたPTS情報に対して、PTS補正タイミング判定部111より出力されたPTS補正量を用いてPTS情報を補正する。そして、補正後のPTS情報を画像音声出力部113に出力する。
ここで、PTS補正部112が行うPTS補正方法の例について説明する。PTS補正部112は、下記の(式1)〜(式4)に基づいてPTSを補正する。
Figure 0005490782
Figure 0005490782
Figure 0005490782
Figure 0005490782
(式1)および(式2)において、Offset_VおよびOffset_Aは、それぞれ画像データおよび音声データのPTSオフセット値を示し、Offset_V_prevおよびOffset_A_prevは、それぞれ画像データおよび音声データのPTSオフセット値の前回の値を示す。また、Correct_VおよびCorrect_Aは、それぞれ画像データおよび音声データのPTS補正値を示す。また、(式3)および(式4)において、PTS_V’(t)およびPTS_A’(t)は、それぞれフレームtの画像および音声のPTS補正後のPTS値を示し、PTS_V(t)およびPTS_A(t)は、それぞれフレームtの画像および音声のPTS値を示す。
PTS補正部112は、(式1)〜(式4)に基づいて、出力バッファ115に保存されたフレームtの画像および音声データのPTS値(PTS_V(t)および PTS_A(t))に、PTSオフセット値(Offset_VおよびOffset_A)を加えることによりPTS値を常に補正する。
さらに、PTS補正部112は、PTS補正タイミング判定部111より出力されたPTS補正量(Correct_VおよびCorrect_A)を用いてPTS補正に用いるオフセット値(Offset_Vおよび Offset_A)の更新を行う。
このようにして、PTS補正部112は、PTS補正タイミング判定部111により決定されたタイミングでPTS補正量を用いてオフセットを更新することによりPTSを不連続に変更することができる。
次に、画像音声通信装置100は、画像音声出力処理を行う(S307)。具体的には、画像音声出力部113は、PTS補正部112より入力された補正後のPTS値と画像音声通信装置100のシステムクロック(現在時刻)とを比較して、そのシステムクロック(現在時刻)に近いPTSの相手装置復号化後画像音声データを出力バッファ115からモニタ・スピーカ103に出力する。
なお、PTS補正タイミング判定部111は、S304において、PTS補正タイミングを判定しない場合(S304のNOの場合)、PTS補正部112にはなにも出力しない。
その場合、PTS補正部112は、PTSのオフセット変更を行わない(S306)。そして、画像音声出力部113は、PTS補正部112より入力されたPTS値と画像音声通信装置100のシステムクロック(現在時刻)とを比較して、そのシステムクロック(現在時刻)に近いPTSの相手装置復号化後画像音声データを出力バッファ115からモニタ・スピーカ103に出力する。
以上のようにして、画像音声通信装置100は、受信側の処理を行う。
図5は、本発明に係る画像音声通信装置のPTS補正量算出処理の1例を説明するためのフローチャートである。
まず、画像音声通信装置100は、平均受信レート算出処理を行う(S3031)。具体的には、PTS補正量算出部109は、受信部108から入力された受信データ量を用いて、平均受信レート(AverageBps)を算出する。(式5)に平均受信レートの算出式を示すが、受信レートの算出方法は、(式5)に示される算出式に限定されるものではない。
Figure 0005490782
ここで、AverageBpsは、平均受信レート(bit/s)を示しており、RecvBitsは受信データ量(bit)を示している。Nは、予め設定された統計区間N(秒)を示しており、SUM(RecvBits)は、統計区間N(秒)に受信部108が受信した受信データ量の合計値を示している。
PTS補正量算出部109は、(式5)に示すように、統計区間N(秒)に受信部108が受信したデータ量の平均値を用いて平均受信レートを算出する。
次に、画像音声通信装置100は、受信バッファ114の残量統計処理を行う(S3032)。具体的には、PTS補正量算出部109は、復号化部110より入力された受信バッファ114の容量の残量を統計処理し、バッファ残量が増加傾向にあるのか減少傾向にあるのかを判定する。ここでは、増減傾向の評価値として、バッファ容量の残量の増減が及ぼす影響の1つである遅延時間を用いて説明する。増減傾向の評価値である現在遅延時間(CurrDelay)の算出式を(式6)に示す。
Figure 0005490782
ここで、CurrDelayは、現在遅延時間を示し、BufferLevelは、現在の受信バッファ114の容量の残量(bit)を示している。AverageBpsは、平均受信レート(bit/s)を示し、INIT_DELAYは、予め設定された初期遅延時間を示している。
PTS補正量算出部109は、(式6)に示すように、バッファ容量の残量を平均受信レートで割ることによりバッファを消費するために必要な時間を算出し、算出したバッファを消費するために必要な時間から初期遅延時間を差分することで現在遅延時間とする。すなわち、現在遅延時間の傾向を見ることにより、受信バッファ114の容量の残量が遅延時間に及ぼす傾向を観測する。ただし、ここでは説明を簡単にするために、現在遅延時間の増減傾向を統計処理することはしないで、一定間隔で(式6)により現在遅延時間(CurrDelay)を算出するものとして説明する。なお、平均受信レートは、平均符号化レートと等価であるため、バッファを消費するための時間を算出するのに用いる。
次に、画像音声通信装置100は、PTS補正量決定処理を行う(S3033)。具体的には、PTS補正量算出部109は、平均受信レート(AveregeBps)と受信バッファ114の容量の残量とを用いてPTS補正量を算出する。(式7)にPTS補正量の算出式を示す。
Figure 0005490782
ここで、CurrDelayは、現在遅延時間を、Correct_Aは、音声のPTS補正量を、Correct_Vは、画像のPTS補正量を示している。TH_HおよびTH_Lは、予め決められた閾値(ただしTH_L< INIT_DELAY< TH_Lとする。)を示しており、SCALEは、秒からPTS単位である90kHZに変換するための定数を示している。
また、(式7)は次の1〜3について示している。1.現在遅延時間が正であり、絶対値が閾値(TH_H)よりも大きい場合、PTS補正量を負の値とする。2.現在遅延時間が負であり、絶対値が閾値(TH_L)よりも大きい場合、PTS補正量を正の値とする。3.上記1および2以外の場合、PTS補正量は0とする。
このように、PTS補正量算出部109は、(式7)に示すように現在遅延時間の閾値判定によりPTS補正量を決定する。
なお、PTS補正量算出部109は、(式7)によりPTS補正量を画像と音声とで同じ値として算出しているが、PTS補正量の算出方法は(式7)に限定されない。例えば現在遅延時間および平均受信レートを画像と音声とで別々に扱うことにより、画像と音声とで個別のPTS補正量を算出してもよい。
以上のようにして、画像音声通信装置100は、PTS補正量算出処理を行う。
次に、図6〜図11を用いて、画像音声通信装置100におけるPTS補正タイミング判定処理の例を説明する。
図6は、本発明に係る画像差分値算出処理を説明するためのフローチャートである。
まず、PTS補正タイミング判定部111は、復号化部110より入力された復号化画像データを用いて連続する画像間で差分処理を行い、画像差分値として値絶対和(SAD)を算出する(S401)。
次に、PTS補正タイミング判定部111は、算出した画像差分値が、予め定めた閾値より小さいどうかを判定する(S402)。
PTS補正タイミング判定部111は、算出した画像差分値が予め定めた閾値よりも小さい場合(S402のYESの場合)、PTS補正タイミングであると判定する(S403)。このように、PTS補正タイミング判定部111は、表示画像の動きが小さくユーザがフレームのスキップなどのスキップまたはリピート制御に気づきにくいタイミングを、PTS補正量を更新すべきPTS補正タイミングであると判定する。
一方、PTS補正タイミング判定部111は、算出した画像差分値が予め定めた閾値よりも大きい場合(S402のNOの場合)、PTS補正タイミングではないと判定する(S404)。
以上のように、PTS補正タイミング判定部111は、復号化部110より入力された復号化画像データを用いて、PTS補正タイミングを判定する。
上述した画像差分値としての差分値絶対和(SAD)は、例えば(式8)により算出する。
Figure 0005490782
ここで、SAD(i)は、i番目の画像の差分絶対和を示しており、Y(x、y、i)は、i番目の画像のxおよびy座標の画素の輝度値を示している。Wは、画像の水平画素数を示しており、Hは、画像の垂直画素数を示している。
また、(式8)に示すように、画像差分値は、連続する画像間の差分絶対値の合計値となっており、画像差分値が小さいほど時間的に動きの少ない画像であるといえる。したがって、このように算出した画像差分値が予め定めた閾値よりも小さい場合に、クロックのズレの補正を行うタイミングとしてユーザが気づきにくいPTS補正量を更新すべきタイミングであると判定する。
なお、画像差分値の算出方法は、(式8)に限定されるものではなく、画像内の動きを検出できる方法であればよい。画像内の動きを検出する別の方法としては、例えば受信画像のデータ量を監視し、受信画像のデータ量が小さい場合には動きの少ない画像であると判定する方法でもよい。なぜなら、画像符号化においては、フレーム間の差分画像を予測し符号化処理を行うことが多く、動きの少ない画像では、その差分値が小さくなり符号化結果であるデータ量も小さくなるためである。
図7は、本発明に係る画面レイアウト判定処理を説明するためのフローチャートである。
まず、PTS補正タイミング判定部111は、ユーザ入力部102より入力された例えばユーザ要求であるユーザ操作情報を解析し(S411)、画面レイアウト変更があるか否かを判定する(S412)。
PTS補正タイミング判定部111は、ユーザ操作情報を解析し下記1〜3に示す画面遷移が行われる場合に画面レイアウト変更があると判定した場合(S412のYESの場合)、PTS補正タイミングであると判定する(S413)。
1.自画像表示と相手画像表示との画面遷移
2.相手画像表示とGUI表示との画面遷移
3.GUI表示と自画像表示との画面遷移
このように、PTS補正タイミング判定部111は、画面レイアウトが大きく変わることで、フレームのスキップなどの画像のPTS補正にユーザが気づきにくいタイミングを、PTS補正量を更新すべきPTS補正タイミングであると判定する。
一方、PTS補正タイミング判定部111は、ユーザ操作情報により、上記に示すような画面遷移は行われないと解析する場合、画面レイアウト変更はないと判定し(S402のNOの場合)、PTS補正タイミングではないと判定する(S414)。
以上のように、PTS補正タイミング判定部111は、ユーザ入力部102から入力されたユーザ操作情報を用いてPTS補正タイミングを判定する。
なお、画面レイアウト変更ありと判定される画面遷移は、上述した画面表示が大きく変わる1〜3の場合に限らない。例えば、ユーザが見ている画面にGUI表示が常にされていたとしても、例えばユーザによりGUIに対してメニュー操作などが行われている場合には、画面レイアウト変更ありと判定してもよい。
図8は、本発明に係る入力音声レベル検出処理を説明するためのフローチャートである。
まず、PTS補正タイミング判定部111は、画像音声入力部104より入力された入力音声データを用いて、入力音声レベル(AudioInLevel)を検出する(S421)。ここで、検出される入力音声レベルは、例えば一定区間の平均音量としている。
次に、PTS補正タイミング判定部111は、検出した入力音声レベルが、予め定めた閾値より大きいかどうかを判定する(S422)。
検出した入力音声レベルが、予め定めた閾値よりも大きい場合(S422のYESの場合)、PTS補正タイミング判定部111は、PTS補正タイミングであると判定する(S423)。なぜなら、検出する入力音声レベルが大きい場合は、周辺の音声が大きいまたはユーザ(話者)が発言中であり、受信音声の音とびに気づきにくいので、PTS補正量を更新すべきPTS補正タイミングであると判定できるからである。
一方、PTS補正タイミング判定部111は、検出した入力音声レベルが、予め定めた閾値よりも小さい場合(S422のNOの場合)、PTS補正タイミングではないと判定する(S424)。
以上のように、PTS補正タイミング判定部111は、画像音声入力部104から入力された自装置の入力音声データを用いて、PTS補正タイミングを判定する。
図9は、本発明に係る受信音声レベル検出処理を説明するためのフローチャートである。
まず、PTS補正タイミング判定部111は、復号化部110より入力された復号化音声データを用いて、受信音声レベル(AudioOutLevel)を検出する(S431)。ここで、検出される受信音声レベルは、例えば一定区間の平均音量としている。
次に、PTS補正タイミング判定部111は、検出した受信音声レベルが、予め定めた閾値より小さいかどうかを判定する(S432)。
PTS補正タイミング判定部111は、検出した入力音声レベルが、予め定めた閾値よりも小さい場合(S432のYESの場合)、PTS補正タイミングであると判定する(S433)。これは、検出した受信音声レベルが予め定めた閾値よりも小さいときは、受信音声の音とびに気づきにくいので、PTS補正量を更新すべきPTS補正タイミングであると判定できるからである。
一方、PTS補正タイミング判定部111は、検出した入力音声レベルが、予め定めた閾値よりも大きい場合(S422のNOの場合)、PTS補正タイミングではないと判定する(S424)。
以上のように、PTS補正タイミング判定部111は、復号化部110より入力された復号化後の音声データを用いて、PTS補正タイミングを判定する。
また、PTS補正タイミング判定部111は、上述の図6〜図9の少なくとも1つを用いてPTS補正タイミングを判定すればよい。例えば、画像に関してのみPTS補正タイミングを判定してもよいし、音声に関してのみPTS補正タイミングを判定してもよい。
図10は、本発明に係る画像音声通信装置の画像のPTS補正タイミング判定処理を説明するためのフローチャートである。
図10に示すように、まず、PTS補正タイミング判定部111は、画像差分値算出処理を行う(S400)。次いで、PTS補正タイミング判定部111は、画面レイアウト判定処理を行う(S410)。なお、S400の画像差分値算出処理は、上述したS401〜404の処理を行い、S420の画面レイアウト判定処理は、上述したS411〜414の処理を行うため説明を省略する。
次に、PTS補正タイミング判定部111は、S400およびS420の少なくとも1つの処理でPTS補正タイミングと判定されたかを確認する(S452)。
PTS補正タイミング判定部111は、S400およびS420の少なくとも1つの処理で、PTS補正タイミングであると判定された場合(S452のYESの場合)、PTS補正タイミングであると判定する(S453)。
このように、ユーザがフレームのスキップなどのスキップまたはリピート制御に気づきにくいタイミングとして、画面の動きが少ないときまたは画面レイアウトが大きく変わるときのタイミングを、PTS補正量を更新すべきPTS補正タイミングであると判定する。
一方、PTS補正タイミング判定部111は、S400およびS420のいずれの処理でも、PTS補正タイミングではないと判定された場合(S452のNOの場合)、PTS補正タイミングでないと判定する(S454)。
以上のように、PTS補正タイミング判定部111は、画像のPTS補正タイミングを判定する。
以下同様に、音声のPTS補正タイミングを判定する場合を説明する。
図11は、本発明に係る画像音声通信装置の音声のPTS補正タイミング判定処理を説明するためのフローチャートである。
図11に示すように、まず、PTS補正タイミング判定部111は、入力音声レベル検出処理を行う(S420)。次いで、PTS補正タイミング判定部111は、受信音声レベル検出処理を行う(S430)。なお、S420の入力音声レベル検出処理は、上述したS421〜424の処理を行い、S430の受信音声レベル検出処理は、上述したS431〜434の処理を行うため説明を省略する。
次に、PTS補正タイミング判定部111は、S420およびS430の少なくとも1つの処理でPTS補正タイミングと判定されたかを確認する(S452)。PTS補正タイミング判定部111は、S430およびS420の少なくとも1つの処理で、PTS補正タイミングであると判定された場合(S452のYESの場合)、PTS補正タイミングであると判定する(S453)。
このように、ユーザが音飛びに気づきにくいタイミングとして、入力音声レベルが大きいときまたは受信音声レベルが小さいときのタイミングを、PTS補正量を更新すべきPTS補正タイミングであると判定する。
一方、PTS補正タイミング判定部111は、S400およびS420のいずれの処理でも、PTS補正タイミングではないと判定された場合(S452のNOの場合)、PTS補正タイミングでないと判定する(S454)。
以上のように、PTS補正タイミング判定部111は、音声のPTS補正タイミングを判定する。
なお、PTS補正タイミング判定部111は、図10および図11に示すような画像および音声のPTS補正タイミングを同時に判定してもよく、S400、S410、S420およびS430を自由に組み合わせてPTS補正タイミングを判定すればよい。
以上のように、本実施の形態では、PTS補正量算出部109が受信バッファ114の容量の増減傾向を監視しシステムクロックのズレ量を相殺する方向にPTS補正量を算出し、PTS補正タイミング判定部111が、ユーザが画像または音声の補正に気づきにくいタイミングとしてPTS補正タイミングを判定する。そして、PTS補正部112は、PTS補正タイミング判定部111により判定されたPTS補正要求に応じて、PTS補正量を用いて画像または音声のPTSを補正し、画像音声出力部113が補正されたPTSに従い画像および音声の出力を行う。
以上、本発明によれば、画像音声通信装置100と他の画像音声通信装置300とのような送受信端末間のシステムクロック差により必要となる出力時刻補正(システムクロックのズレの解消)を、ユーザに対して画像・音声の違和感を生じさせずに行うことができる。
また、本発明では、上述のようにPTS補正を行うことによりAV同期を保ちつつ受信バッファ114のオーバーフローまたはアンダーフローを防止することができる。
また、本発明は、特に大画面を利用する臨場感の高いTV会議装置として使用される画像音声通信装置において、対面感を低下させるフレームのスキップや音飛びによる主観品質の低下を防止することが可能であり有用である。
なお、上記の説明では、本発明に係る画像音声通信装置100は、画像音声入力部104と、符号化部105と、送信部106と、受信部108と、PTS補正量算出部109と、復号化部110と、PTS補正タイミング判定部111と、PTS補正部112と、画像音声出力部113と、受信バッファ114と、出力バッファ115とを備えるとしたが、それに限られない。図12に示すように、画像音声通信装置100の最小構成として、送受信部106/108と、PTS補正タイミング判定部111と、PTS補正部112と、画像音声出力部113とを少なくとも備えていればよい。
具体的には、最小構成として画像音声通信装置100は、ネットワークを通じて、画像および音声を送受信する送受信部106/108と、送受信部106/108により送信される音声の内容、送受信部106/108により受信された画像の内容、または送受信部106/108により受信された音声の内容に基づいて、受信された画像または音声におけるPTSの補正量を更新すべきタイミングを判定するPTS補正タイミング判定部111と、PTS補正タイミング判定部111により判定されたタイミングに当該受信された画像または音声におけるPTSの補正量を更新することにより、当該PTSを補正するPTS補正部112と、前記画像音声通信装置が示す現在時刻における補正された当該PTSに対応する当該受信された画像および音声を出力する画像音声出力部113とを備える。ここで、送受信部106/108は、上記の、送信部106と受信部108との機能を一体にしたものである。
そして、この最小構成によれば、ユーザが気づきにくいタイミングを判定することができ、判定したタイミングにおいてPTS補正が行われた画像または音声を出力することができる。それにより、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消する効果を奏することができる。すなわち、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる画像音声通信装置を実現することができる。
以上、本発明の画像音声通信装置およびその通信方法について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
本発明は、画像音声通信装置およびその方法に利用でき、特に、特に大画面を利用する臨場感の高い画像音声通信装置およびその方法に利用することができる。
100 画像音声通信装置
101、301 カメラ・マイク
102 ユーザ入力
103、303 モニタ・スピーカ
104 画像音声入力部
105 符号化部
106 送信部
108 受信部
109 PTS補正量算出部
110 復号化部
111 PTS補正タイミング判定部
112 PTS補正部
113 画像音声出力部
114 受信バッファ
115 出力バッファ
207 ネットワーク
300 他の画像音声通信装置

Claims (10)

  1. 画像音声通信装置であって、
    ネットワークを通じて、画像および音声を送受信する送受信部と、
    前記送受信部により送信される音声の内容、前記送受信部により受信された画像の内容、または前記送受信部により受信された音声の内容に基づいて、当該受信された画像または音声におけるPTS(Presentation Time Stamp)の補正量を更新すべきタイミングを判定するタイミング判定部と、
    前記タイミング判定部により判定されたタイミングに当該受信された画像または音声におけるPTSの補正量を更新することにより、当該PTSを補正するPTS補正部と、
    前記画像音声通信装置が示す現在時刻における補正された当該PTSに対応する当該受信された画像および音声を出力する画像音声出力部とを備え、
    前記タイミング判定部は、
    前記送受信部により受信された画像と当該受信された画像の時間的に前の画像との相関値が予め設定した閾値より高い場合に、当該受信された画像が前記画像音声出力部により出力されるタイミングを前記補正量の更新すべきタイミングとして判定する
    画像音声通信装置。
  2. 前記画像音声通信装置は、さらに、
    ユーザ操作によりユーザ操作情報が入力されるユーザ入力部を備え、
    前記タイミング判定部は、前記ユーザ入力部に入力されたユーザ操作情報が前記受信された画像の画面レイアウト変更を伴うユーザ操作を示す場合に、当該画面レイアウト変更を伴うユーザ操作のタイミングを、前記補正量を更新すべきタイミングとして判定する
    請求項1に記載の画像音声通信装置。
  3. 前記タイミング判定部は、
    前記送受信部により受信された画像のデータ量が予め設定した閾値より小さい場合に、前記受信された画像が前記画像音声出力部により出力されるタイミングを前記補正量の更新すべきタイミングとして判定する
    請求項1に記載の画像音声通信装置。
  4. 前記タイミング判定部は、
    前記送受信部により受信された音声のレベルが予め設定した閾値よりも小さい場合に、前記受信された音声が前記画像音声出力部により出力されるタイミングを前記補正量の更新すべきタイミングとして判定する
    請求項1に記載の画像音声通信装置。
  5. 前記画像音声通信装置は、さらに、前記送受信部により送信される音声がマイクを用いて収音されて入力される音声入力部とを備え、
    前記タイミング判定部は、
    前記音声入力部に入力された音声のレベルが予め設定した閾値よりも大きい場合に、前記入力された音声が前記画像音声出力部により出力されるタイミングを前記補正量の更新すべきタイミングとして判定する
    請求項1に記載の画像音声通信装置。
  6. 前記画像音声通信装置は、さらに、前記送受信部により受信された画像または音声を一時的に記憶するバッファと、
    前記バッファの容量の残量を監視し、当該残量に基づいて、PTS補正量を算出するPTS補正量算出部とを備え、
    前記PTS補正部は、前記タイミング判定部により判定されたタイミングの画像または音声におけるPTSに前記PTS補正量算出部により算出されたPTS補正量を加算することを用いて、当該判定されたタイミングの画像または音声におけるPTSを補正する
    請求項1に記載の画像音声通信装置。
  7. 前記PTS補正量算出部は、
    当該残量が単調増加する場合にマイナス値のPTS補正量を算出し、当該残量が単調減少する場合にプラス値のPTS補正量を算出する
    請求項6に記載の画像音声通信装置。
  8. 画像音声通信装置の通信方法であって、
    ネットワークを通じて、画像および音声を送受信する送受信ステップと、
    前記送受信ステップにおいて送信される音声、または前記送受信ステップにより受信された画像もしくは音声の内容に基づいて、当該受信された画像または音声におけるPTSの補正量を更新すべきタイミングを判定するタイミング判定ステップと、
    前記タイミング判定ステップにおいて判定されたタイミングに当該受信された画像または音声におけるPTSの補正量を更新することにより、当該PTSを補正するPTS補正ステップと、
    前記画像音声通信装置が示す現在時刻における補正された当該PTSに対応する当該受信された画像および音声を出力する画像音声出力ステップとを含み、
    前記タイミング判定ステップでは、
    前記送受信ステップにおいて受信された画像と当該受信された画像の時間的に前の画像との相関値が予め設定した閾値より高い場合に、当該受信された画像が前記画像音声出力ステップにおいて出力されるタイミングを前記補正量の更新すべきタイミングとして判定する
    通信方法。
  9. 画像音声通信装置が通信するためのプログラムであって、
    ネットワークを通じて、画像および音声を送受信する送受信ステップと、
    前記送受信ステップにおいて送信される音声、または前記送受信ステップにより受信された画像もしくは音声の内容に基づいて、当該受信された画像または音声におけるPTSの補正量を更新すべきタイミングを判定するタイミング判定ステップと、
    前記タイミング判定ステップにおいて判定されたタイミングに当該受信された画像または音声におけるPTSの補正量を更新することにより、当該PTSを補正するPTS補正ステップと、
    前記画像音声通信装置が示す現在時刻における補正された当該PTSに対応する当該受信された画像および音声を出力する画像音声出力ステップとを含み、
    前記タイミング判定ステップでは、
    前記送受信ステップにおいて受信された画像と当該受信された画像の時間的に前の画像との相関値が予め設定した閾値より高い場合に、当該受信された画像が前記画像音声出力ステップにおいて出力されるタイミングを前記補正量の更新すべきタイミングとして判定する
    ことをコンピュータに実行させるためのプログラム。
  10. 画像音声通信装置の集積回路であって、
    ネットワークを通じて、画像および音声を送受信する送受信部と、
    前記送受信部により送信される音声、または前記送受信部により受信された画像もしくは音声の内容に基づいて、当該受信された画像または音声におけるPTSの補正量を更新すべきタイミングを判定するタイミング判定部と、
    前記タイミング判定部により判定されたタイミングに当該受信された画像または音声におけるPTSの補正量を更新することにより、当該PTSを補正するPTS補正部と、
    前記画像音声通信装置が示す現在時刻における補正された当該PTSに対応する当該受信された画像および音声を出力する画像音声出力部とを備え、
    前記タイミング判定部は、
    前記送受信部により受信された画像と当該受信された画像の時間的に前の画像との相関値が予め設定した閾値より高い場合に、当該受信された画像が前記画像音声出力部により出力されるタイミングを前記補正量の更新すべきタイミングとして判定する
    集積回路。
JP2011504727A 2009-03-16 2010-03-01 画像音声通信装置およびその通信方法 Expired - Fee Related JP5490782B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011504727A JP5490782B2 (ja) 2009-03-16 2010-03-01 画像音声通信装置およびその通信方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009063498 2009-03-16
JP2009063498 2009-03-16
PCT/JP2010/001362 WO2010106743A1 (ja) 2009-03-16 2010-03-01 画像音声通信装置およびその通信方法
JP2011504727A JP5490782B2 (ja) 2009-03-16 2010-03-01 画像音声通信装置およびその通信方法

Publications (2)

Publication Number Publication Date
JPWO2010106743A1 JPWO2010106743A1 (ja) 2012-09-20
JP5490782B2 true JP5490782B2 (ja) 2014-05-14

Family

ID=42739411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011504727A Expired - Fee Related JP5490782B2 (ja) 2009-03-16 2010-03-01 画像音声通信装置およびその通信方法

Country Status (4)

Country Link
US (1) US9007525B2 (ja)
JP (1) JP5490782B2 (ja)
CN (1) CN102067595B (ja)
WO (1) WO2010106743A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102740131B (zh) * 2012-07-09 2015-12-02 深圳市香江文化传播有限公司 基于实时传输协议的网络电视直播方法及系统
US10158927B1 (en) * 2012-09-05 2018-12-18 Google Llc Systems and methods for detecting audio-video synchronization using timestamps
US9531921B2 (en) * 2013-08-30 2016-12-27 Audionow Ip Holdings, Llc System and method for video and secondary audio source synchronization
CN106507217B (zh) * 2016-10-27 2019-07-02 腾讯科技(北京)有限公司 视频流的时间戳的处理方法和装置
WO2021241264A1 (ja) * 2020-05-27 2021-12-02 ソニーグループ株式会社 放送コンテンツ制作システムおよび放送コンテンツ制作方法、並びにプログラム
CN113573119B (zh) * 2021-06-15 2022-11-29 荣耀终端有限公司 多媒体数据的时间戳生成方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008258665A (ja) * 2007-03-30 2008-10-23 Toshiba Corp ストリーム再生装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5594467A (en) * 1989-12-06 1997-01-14 Video Logic Ltd. Computer based display system allowing mixing and windowing of graphics and video
US6081299A (en) * 1998-02-20 2000-06-27 International Business Machines Corporation Methods and systems for encoding real time multimedia data
US6760749B1 (en) * 2000-05-10 2004-07-06 Polycom, Inc. Interactive conference content distribution device and methods of use thereof
JP4359024B2 (ja) 2002-06-07 2009-11-04 三洋電機株式会社 同期制御方法と装置およびそれを用いた同期再生装置およびテレビジョン受信装置
JP4182437B2 (ja) * 2004-10-04 2008-11-19 ソニー株式会社 オーディオビデオ同期システム及びモニター装置
CN100362864C (zh) * 2005-07-13 2008-01-16 浙江大学 基于单芯片的网络可视电话系统
JP4616121B2 (ja) * 2005-08-10 2011-01-19 株式会社日立製作所 ディジタル放送受信装置
US7657668B2 (en) * 2006-08-16 2010-02-02 Qnx Software Systems (Wavemakers), Inc. Clock synchronization of data streams
EP2081373A1 (en) * 2008-01-15 2009-07-22 Hitachi, Ltd. Video/audio reproducing apparatus
US8279945B2 (en) * 2008-01-28 2012-10-02 Mediatek Inc. Method for compensating timing mismatch in A/V data stream
US8400566B2 (en) * 2008-08-21 2013-03-19 Dolby Laboratories Licensing Corporation Feature optimization and reliability for audio and video signature generation and detection
US8428145B2 (en) * 2008-12-31 2013-04-23 Entropic Communications, Inc. System and method for providing fast trick modes

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008258665A (ja) * 2007-03-30 2008-10-23 Toshiba Corp ストリーム再生装置

Also Published As

Publication number Publication date
US9007525B2 (en) 2015-04-14
JPWO2010106743A1 (ja) 2012-09-20
CN102067595B (zh) 2013-07-24
US20110063504A1 (en) 2011-03-17
CN102067595A (zh) 2011-05-18
WO2010106743A1 (ja) 2010-09-23

Similar Documents

Publication Publication Date Title
JP5490782B2 (ja) 画像音声通信装置およびその通信方法
US7843974B2 (en) Audio and video synchronization
JP4925697B2 (ja) ネットワーク伝送用の映像信号符号化システム及び映像信号符号化方法,信号変換装置
JP4983923B2 (ja) デコーダ装置、およびデコード方法
CN101710997A (zh) 基于mpeg-2系统实现视、音频同步的方法及系统
US7864251B2 (en) System and method for decreasing end-to-end delay during video conferencing session
KR20070084235A (ko) 디지털 서비스의 다른 부분을 동기화하기 위한 디바이스 및방법
KR101841313B1 (ko) 멀티미디어 흐름 처리 방법 및 대응하는 장치
JP2008500752A (ja) ビデオデータの適応型復号
US20130166769A1 (en) Receiving device, screen frame transmission system and method
JP2014220732A (ja) 情報処理装置、情報処理方法およびプログラム
WO2015107909A1 (ja) 再生装置及びデータ再生方法
CN114554277A (zh) 多媒体的处理方法、装置、服务器及计算机可读存储介质
JP2012151835A (ja) 映像変換装置
JP2012141787A (ja) 映像表示装置及びその表示方法
JP2008131591A (ja) リップシンク制御装置及びリップシンク制御方法
KR20160111662A (ko) 영상 처리 시스템 및 방법
US20130136191A1 (en) Image processing apparatus and control method thereof
JP3913726B2 (ja) 多地点テレビ会議制御装置及び多地点テレビ会議システム
US8872971B2 (en) Video display apparatus, video processing method, and video display system
JP4703522B2 (ja) 動画像復号装置
JP2004180190A (ja) カメラ制御装置及びその制御ステップを実行するプログラム
JP4348238B2 (ja) 遠隔通信方法及び装置
US8290284B2 (en) Error determination device and error determination method
JP2012205107A (ja) テレビドアホン装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131217

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140226

R151 Written notification of patent or utility model registration

Ref document number: 5490782

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees