JP2009272945A - Synchronous reproduction apparatus - Google Patents

Synchronous reproduction apparatus Download PDF

Info

Publication number
JP2009272945A
JP2009272945A JP2008122496A JP2008122496A JP2009272945A JP 2009272945 A JP2009272945 A JP 2009272945A JP 2008122496 A JP2008122496 A JP 2008122496A JP 2008122496 A JP2008122496 A JP 2008122496A JP 2009272945 A JP2009272945 A JP 2009272945A
Authority
JP
Japan
Prior art keywords
audio
video
data
playback device
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008122496A
Other languages
Japanese (ja)
Inventor
Yoshiaki Kakimura
義明 柿村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2008122496A priority Critical patent/JP2009272945A/en
Publication of JP2009272945A publication Critical patent/JP2009272945A/en
Pending legal-status Critical Current

Links

Abstract

<P>PROBLEM TO BE SOLVED: To synchronize video with sound, under a system configuration such that a video reproducing apparatus and an audio reproducing apparatus are connected separately to a network. <P>SOLUTION: The synchronous reproduction apparatus comprises a decoder 36, which is provided on an audio reproducing apparatus 3 side to decode the sound of content data; a synchronous control part 32 which transmits an audio side clock signal that controls the timing of decoding with the decoder 36 to a video reproduction apparatus 2 side through a network 4; a decoder 26 which is provided on a video reproducing apparatus 2 side to decode video of the content data; and a synchronous control part 22 which is provided on the video reproduction apparatus 2 side to adjust count values of decoding with the decoder 26 according to the audio side clock signal transmitted from the audio reproduction apparatus 3 side. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、ネットワーク上にある別々の映像再生装置と音声再生装置を使って映像と音声とが組み合わされたストリームを再生する場合に、映像と音声との同期を取る同期再生装置に関する。   The present invention relates to a synchronized playback apparatus that synchronizes video and audio when a stream in which video and audio are combined using separate video playback apparatuses and audio playback apparatuses on a network.

近年にあっては、MPEG(Moving Picture Expert Group)などのデジタル圧縮技術により高品位な映像と音声を少ないデータ量で保存したり、限られた帯域のネットワーク通信路を介して伝送するといったことが可能になってきている。   In recent years, digital compression technology such as MPEG (Moving Picture Expert Group) has been used to store high-quality video and audio with a small amount of data, or to transmit via a network communication channel with a limited bandwidth. It is becoming possible.

また、一般家庭においては、Ethernet(登録商標)等の普及により、特別な設備を導入せずとも手軽にネットワークが構築できる環境になっている。
上記のような背景からLAN(Local Area Network)を経由した映像や音楽の視聴といった利用のされ方が増えつつある。
Further, in general homes, with the spread of Ethernet (registered trademark) and the like, it has become an environment in which a network can be easily constructed without introducing special equipment.
From the background described above, usage such as viewing of video and music via a LAN (Local Area Network) is increasing.

ところで、LANを経由してサーバーに蓄積されたコンテンツを視聴しようとした場合、一般的には、再生装置において、ある程度サーバーからのMPEGデータを受信バッファに蓄積した後、デコーダのクロックを基準にMPEGデコードとデコード結果の出力を行い、バッファが少なくなるとクライアントである再生装置側からサーバーへMPEGデータを取りに行き、受信バッファへ補充するということを繰り返す。   By the way, when trying to view content stored in the server via the LAN, generally, after the MPEG data from the server is stored in the reception buffer to some extent in the playback device, the MPEG is based on the decoder clock. The decoding and outputting of the decoding result are performed, and when the buffer becomes small, the reproduction data from the client side is taken to the server, and the reception buffer is replenished.

従来こういったネットワーク経由での視聴は、映像と音声がマルチプレックスされたストリームを単一の再生装置で受信し再生するか、又はRTP(ReaI−timeTransport Protocol)に代表されるような音声と映像が別々に伝送されるストリームを映像と音声を同時にデコードできる単一の再生装置で受信し再生する構成が主流であった(例えば、特許文献1)。
特開2005−102192号公報
Conventionally, viewing via such a network is such that a stream in which video and audio are multiplexed is received and played back by a single playback device, or audio and video as represented by RTP (ReaI-timeTransport Protocol). The mainstream is a configuration in which a stream transmitted separately is received and played back by a single playback device that can simultaneously decode video and audio (for example, Patent Document 1).
JP 2005-102192 A

しかしながら、上述した特許文献1に開示された従来の装置では、映像と音声がマルチプレックスされたストリームでありながらも、単一の再生装置で映像と音声を再生する構成であることから、映像と音声との両方をデコードできる能力が必要となる。一般的なMPEG2等の符号化方式で符号化された映像音声であればこのような装置でも問題はない。しかし、近年は、符号化技術の向上により多様な圧縮方式が開発されており、特に音声に関しては、MPEG2の他、MP3(MPEG Audio Layer−3)、AAC(Advanced Audio Coding)、AC−3(Audio Code number 3)(登録商標)等多くの符号化方式が存在する。したがって、単一の再生装置に、上記したような多様な符号化方式で符号化された音声をデコードする能力がないと、映像は再生できるが音声は再生されないといったケースが生じてしまう場合がある。   However, in the conventional device disclosed in Patent Document 1 described above, since the video and audio are multiplexed streams, the video and audio are reproduced by a single playback device. Ability to decode both audio and audio is required. There is no problem with such a device as long as it is a video / audio encoded by a general encoding method such as MPEG2. However, in recent years, various compression schemes have been developed by improving the encoding technique. Particularly, regarding audio, in addition to MPEG2, MP3 (MPEG Audio Layer-3), AAC (Advanced Audio Coding), AC-3 ( There are many encoding methods such as Audio Code number 3) (registered trademark). Therefore, if a single playback device does not have the ability to decode audio encoded by the various encoding methods described above, there may be cases where video can be played back but audio cannot be played back. .

また、単一の再生装置が音声をデコードする能力を有していたとしても、デコード後のアナログ的な性能の面で、より高音質な音声再生を実現できる音声再生装置をユーザーが所有していた場合、音声はこの音声再生装置で再生したいというニーズもある。   In addition, even if a single playback device has the ability to decode audio, the user has an audio playback device that can achieve higher-quality audio playback in terms of analog performance after decoding. In such a case, there is a need to reproduce the sound with the sound reproducing apparatus.

上記のような問題を解決する一手法として、LANなどのネットワークを経由して音声のデータを音声再生装置に供給し、単一の再生装置(映像再生装置)では映像を再生し、音声は音声再生装置で再生する方法が考えられる。
このような手法を実現する場合、映像と音声の同期を取らなければならないという課題が発生する。
As a technique for solving the above problems, audio data is supplied to an audio reproduction device via a network such as a LAN, and a single reproduction device (video reproduction device) reproduces video, and audio is audio. A method of reproducing with a reproducing apparatus is conceivable.
When such a method is realized, there arises a problem that video and audio must be synchronized.

すなわち、従来、LANなどのネットワークを経由して、映像と音声を別々の機器で受信し再生した場合、受信の際のバッファ量の違いによる遅延時間の違いとデコーダ内での遅延時間が個別のデコーダに依存することから同時にスタートしても同期関係は、全く保障されていなかった。   In other words, conventionally, when video and audio are received and played back by different devices via a network such as a LAN, the difference in delay time due to the difference in buffer amount at the time of reception and the delay time in the decoder Since it depends on the decoder, the synchronization relationship was not guaranteed at all even if it started simultaneously.

また、従来の装置では、それぞれの再生装置でそれぞれのクロック発信器に従って各々デコードされるため、再生クロック自体がエンコーダ側のクロックと同期しておらず、各デコーダにおけるクロック発信器の誤差分だけ徐々に映像と音声のズレが発生していってしまうという課題があった。   Further, in the conventional apparatus, each reproduction apparatus decodes each according to each clock oscillator, so that the reproduction clock itself is not synchronized with the clock on the encoder side, and is gradually increased by the error of the clock oscillator in each decoder. However, there was a problem that the video and audio were misaligned.

そこで、本発明は、上記課題を解決するものであり、映像再生装置と音声再生装置が別々にネットワークに接続されているようなシステム構成の下、映像と音声との同期再生を可能とする同期再生装置を提供することを目的とする。   Therefore, the present invention solves the above-described problem, and enables synchronization playback of video and audio in a system configuration in which the video playback device and the audio playback device are separately connected to a network. An object is to provide a playback device.

そこで上記課題を解決するために本発明は、下記の装置を提供するものである。
(1)コンテンツデータに含まれる映像データと音声データとを、ネットワーク上に独立して配置される映像再生装置及び音声再生装置を用いてそれぞれ独立して再生させる場合に、前記映像再生装置による前記映像データの再生と前記音声再生装置による音声データの再生とを同期させる同期再生装置であって、
前記音声再生装置側に設けられ、前記コンテンツデータの音声データをデコードする音声デコード手段と、
前記音声再生装置側に設けられ、前記音声デコード手段によるデコード結果である音声信号を出力すべきタイミングの制御値を、音声側同期信号として前記ネットワークを通じて前記映像再生装置側に送信する音声側同期制御部と、
前記映像再生装置側に設けられ、前記コンテンツデータの映像データをデコードする映像デコード手段と、
前記映像再生装置側に設けられ、前記音声再生装置側から送信された前記音声側同期信号を受信し、該音声側同期信号に応じて、前記映像デコード手段で用いるクロックの周波数、及び前記映像デコード手段で再生するフレームのうちの少なくともいずれか一方を調整する映像側同期制御部と、
を備えることを特徴とする同期再生装置。
Therefore, in order to solve the above problems, the present invention provides the following apparatus.
(1) When the video data and the audio data included in the content data are played back independently using the video playback device and the audio playback device arranged independently on the network, the video playback device performs the A synchronized playback device that synchronizes playback of video data and playback of audio data by the audio playback device,
An audio decoding means provided on the audio reproduction device side for decoding audio data of the content data;
Audio-side synchronization control that is provided on the audio reproduction device side and transmits a control value for timing to output an audio signal as a decoding result by the audio decoding means to the video reproduction device side through the network as an audio-side synchronization signal And
Video decoding means provided on the video reproduction device side for decoding the video data of the content data;
Provided on the video playback device side, receives the audio side synchronization signal transmitted from the audio playback device side, and in response to the audio side synchronization signal, the frequency of the clock used by the video decoding means, and the video decoding A video-side synchronization control unit that adjusts at least one of the frames reproduced by the means;
A synchronous playback device comprising:

(2)前記映像再生装置側に設けられ、
前記ネットワークにおける応答時間を測定するための測定用信号を、前記ネットワークを介して前記音声再生装置側に送信し、前記測定用信号に応じて前記音声再生装置側から返信された応答信号を受信し、前記測定用信号の送信から前記応答信号の受信までの伝送遅延時間を測定し、測定された伝送遅延時間に応じて、前記音声再生装置側から受信した前記音声側同期信号の値を補正する遅延補正部を
更に備えることを特徴とする上記(1)記載の同期再生装置。
(2) provided on the video playback device side;
A measurement signal for measuring a response time in the network is transmitted to the audio reproduction device side via the network, and a response signal returned from the audio reproduction device side according to the measurement signal is received. , Measuring a transmission delay time from transmission of the measurement signal to reception of the response signal, and correcting the value of the audio side synchronization signal received from the audio reproduction device side according to the measured transmission delay time The synchronized playback apparatus according to (1), further comprising a delay correction unit.

本発明によれば、映像再生装置と音声再生装置とが別々にネットワークに接続されているようなシステム構成の下、別々に設置された映像再生装置と音声再生装置との間で映像と音声とを同期再生させることが可能となる。   According to the present invention, video and audio can be transmitted between a video playback device and an audio playback device installed separately under a system configuration in which the video playback device and the audio playback device are separately connected to a network. Can be played back synchronously.

したがって、音声をより高品位に再生することが可能な音声再生装置によって再生して楽しみたいといったニーズに対応することができる。   Therefore, it is possible to meet the needs of playing and enjoying the sound with a sound reproducing device capable of reproducing the sound with higher quality.

以下に添付図面を参照して、本発明に係る同期再生装置の実施形態を詳細に説明する。図1は、本実施形態に係る同期再生装置の全体構成を示す概念図である。   Exemplary embodiments of a synchronized playback device according to the present invention will be described below in detail with reference to the accompanying drawings. FIG. 1 is a conceptual diagram showing the overall configuration of the synchronized playback apparatus according to the present embodiment.

(装置の全体構成)
同期再生装置は、少なくとも映像及び音声を含むコンテンツデータを、ネットワーク上に別途独立して分散配置された映像再生装置2及び音声再生装置3により、映像及び音声を同期させて再生出力する機能を備えている。本実施形態では、ネットワーク4に接続されたAVサーバー1と、映像再生装置2と、音声再生装置3(3a〜3cを含む。)とからなる機器構成となっており、ネットワーク4に接続されたAVサーバー1から、映像再生装置2及び音声再生装置3へ同一のコンテンツの映像と音声を送信し、各装置において再生出力する。
(Overall configuration of the device)
The synchronized playback device has a function of synchronizing and reproducing the video and audio by using the video playback device 2 and the audio playback device 3 separately distributed separately on the network. ing. In the present embodiment, the AV server 1 connected to the network 4, the video playback device 2, and the audio playback device 3 (including 3 a to 3 c) are configured and connected to the network 4. The video and audio of the same content are transmitted from the AV server 1 to the video reproduction device 2 and the audio reproduction device 3, and reproduced and output in each device.

本実施形態においてAVサーバー1は、コンテンツデータを配信するコンテンツサーバーの役割を果たす装置である。例えば、地上波放送や衛星放送、ケーブルテレビ放送を受信したり、ルーター44及びLAN4を介してインターネット42上のコンテンツ配信サーバー5に接続したりして、音声・映像を含むコンテンツデータを中継したり、蓄積して再配信する機能を備えた装置である。AVサーバー1としては、例えば、ホームサーバーやセットトップボックスなどがある。   In the present embodiment, the AV server 1 is a device that serves as a content server that distributes content data. For example, terrestrial broadcasting, satellite broadcasting, cable television broadcasting is received, or content data including audio / video is relayed by connecting to the content distribution server 5 on the Internet 42 via the router 44 and the LAN 4. , An apparatus having a function of accumulating and redistributing. Examples of the AV server 1 include a home server and a set top box.

映像再生装置2は、ネットワークに接続する通信インターフェースを備え、AVサーバー1に接続することによって、AVサーバー1が中継・配信するコンテンツデータに含まれる映像を再生し、モニター2aに出力表示させる装置である。なお、本説明では便宜上、映像再生装置2と名づけているが、この映像再生装置2は、音声再生機能を備えていてもよい。この映像再生装置2としては、例えばネットワーク4に接続する機能を有するDVDプレーヤー/レコーダーなどがある。   The video playback device 2 includes a communication interface connected to a network, and by connecting to the AV server 1, the video playback device 2 plays back video included in the content data relayed / distributed by the AV server 1, and outputs and displays it on the monitor 2a. is there. In this description, for convenience, the video playback device 2 is named, but the video playback device 2 may have an audio playback function. As this video reproduction device 2, there is a DVD player / recorder having a function of connecting to the network 4, for example.

本発明は、このような前提の下で、より高品位に音声を再生することが可能な音声再生装置3側に音声再生機能を委ね、かつ、映像再生装置2での映像再生と音声再生装置3での音声再生とを同期させるところに特徴がある。   The present invention entrusts the audio reproduction function to the audio reproduction device 3 side capable of reproducing audio with higher quality under such a premise, and the video reproduction and audio reproduction device in the video reproduction device 2. 3 is characterized in that it is synchronized with the audio reproduction in step 3.

音声再生装置3は、映像再生装置2とは別途独立して構成され、ネットワークに接続する通信インターフェースを備え、AVサーバー1に接続することによって、AVサーバー1が中継・配信するコンテンツデータに含まれる音声を再生し、スピーカーやヘッドホン等から出力させる装置である。この音声再生装置3としては、例えばネットワーク4に接続する機能を有し、高品位な音声の再生が可能な、オーディオコンポや、携帯型シリコンプレーヤー3aや、PDA3bや、携帯電話3cなどがある。   The audio playback device 3 is configured separately from the video playback device 2, has a communication interface connected to the network, and is included in the content data relayed / distributed by the AV server 1 by connecting to the AV server 1. It is a device that reproduces sound and outputs it from speakers, headphones, or the like. Examples of the audio playback device 3 include an audio component, a portable silicon player 3a, a PDA 3b, and a mobile phone 3c that have a function of connecting to the network 4 and can reproduce high-quality audio.

なお、AVサーバー1と映像再生装置2とを単一の装置とし、両者の機能を兼ね備えた装置としてもよい。この場合には、AVサーバー兼映像再生装置で映像の再生をしつつ、これと同一のコンテンツの音声を音声再生装置3で同期して再生出力を行う。同様にAVサーバー1が音声再生装置3を兼ねた構成としてもよく、ネットワーク4に接続されている映像再生装置2へコンテンツを送信し、音声と映像とを同期させて再生出力するようにしてもよい。また、これらの機器操作を、ネットワーク4に接続可能なコントローラで操作するようにしてもよい。   Note that the AV server 1 and the video playback device 2 may be a single device and may have both functions. In this case, while the video is played back by the AV server / video playback device, the audio of the same content is reproduced and output in synchronization with the audio playback device 3. Similarly, the AV server 1 may be configured to also serve as the audio playback device 3, and the content may be transmitted to the video playback device 2 connected to the network 4, and the audio and video may be played back and output in synchronization. Good. Further, these device operations may be performed by a controller connectable to the network 4.

そして、各再生装置において再生出力する際、映像再生装置2で再生出力される映像と、音声再生装置3で再生出力される音声との間で同期を取り、視聴者が映像と音声のタイミングのズレによる違和感が生じないように制御する。   When each playback device plays back and outputs, the video played back by the video playback device 2 and the audio played back by the audio playback device 3 are synchronized so that the viewer can determine the timing of the video and audio. Control so that there is no sense of incongruity due to misalignment.

なお、コンテンツのストリームは、AVサーバー1側で送信時に同一のシステムクロックを持つ映像ストリームと音声ストリームとに分離してそれぞれ送信してもよい。   It should be noted that the content stream may be transmitted separately on the AV server 1 side by separating it into a video stream and an audio stream having the same system clock.

図2は、AVサーバー1、映像再生装置2、及び音声再生装置3の内部構成を示すブロック図である。
同図に示すように、AVサーバー1は、テレビ放送受信アンテナ43等を介してコンテンツを受信するチューナー部12と、受信したコンテンツがアナログ信号の場合に、このアナログ信号をデジタル化し、MPEG2方式等の高能率符号化方式で圧縮するとともに、この圧縮したコンテンツデータをPS(program Stream)形式のストリームデータ(以下PSデータと呼ぶ)に変換するエンコーダ14と、エンコーダ14で得られたPS形式のストリームデータを蓄積するか、又はチューナー部12で受信したコンテンツがデジタル信号の場合は、このデジタル信号であるTS(Transport Stream)形式のストリームデータ(以下TSデータと呼ぶ)を直接蓄積するストレージ16と、ストレージ16に対するストリームデータの入出力を管理するストレージ管理部13と、ストリームデータをネットワーク4に送出するネットワーク制御部11と、ストリームデータのFlFO(First In First Out)バッファであるストリームバッファ15とを有する。
FIG. 2 is a block diagram showing the internal configuration of the AV server 1, the video playback device 2, and the audio playback device 3.
As shown in the figure, the AV server 1 includes a tuner unit 12 that receives content via a television broadcast receiving antenna 43 and the like, and when the received content is an analog signal, the analog signal is digitized and the MPEG2 system or the like The encoder 14 converts the compressed content data into stream data (hereinafter referred to as PS data) in PS (program stream) format, and the PS format stream obtained by the encoder 14. When the data is stored or the content received by the tuner unit 12 is a digital signal, a storage 16 that directly stores stream data (hereinafter referred to as TS data) in the TS (Transport Stream) format that is the digital signal; For storage 16 Includes a storage management unit 13 for managing the input and output of the stream data, a network control unit 11 sends the stream data to the network 4, a stream buffer 15 is a stream data FlFO (First In First Out) buffer.

なお、TS形式は、主にデジタル放送やATM(非同期転送モード)交換網などの通信メディアで使用される形式であり、PS形式は、主にDVD(Digital Versatile Disc)などの蓄積メディアで使用される形式である。   The TS format is a format mainly used in communication media such as digital broadcasting and ATM (Asynchronous Transfer Mode) switching networks, and the PS format is mainly used in storage media such as a DVD (Digital Versatile Disc). Format.

そして、AVサーバー1に蓄積されたストリームツデータは、再生機からの要求に応じてストレージ16から読み出される。そしてこの読み出されたストリームデータは、ストリームバッファ15に蓄積されつつ、ネットワーク制御部11に送出され、ネットワーク制御部11においてネットワークプロトコル(TCP/IP又はUDP/IP)のヘッダ情報が付加されパケットデータとしてネットワーク4に送出される。   The stream data stored in the AV server 1 is read from the storage 16 in response to a request from the player. The read stream data is sent to the network control unit 11 while being stored in the stream buffer 15, and the network control unit 11 adds the header information of the network protocol (TCP / IP or UDP / IP) to the packet data. To the network 4.

一方、映像再生装置2は、AVサーバー1から送信されたパケットデータをネットワーク4から受信し、このパケットデータからストリームデータを抽出するネットワーク制御部23と、ネットワーク制御部23で抽出したストリームデータを一時的に蓄積するFlFOバッファであるストリームバッファ27と、このストリームバッファ27に蓄積されたストリームデータを後述する同期制御部22からの制御に基づくタイミングで読み出してデコーダ26に出力するTSパケットタイミング再現部2001と、このTSパケットタイミング部2001から出力されるストリームデータをデコードするデコーダ26と、デコードされた映像をディスプレイ24等に表示させる出力インターフェース25と、TSパケットタイミング再現部2001におけるストリームデータの入出力のタイミングと、デコーダ26におけるデコードのタイミングを調整する同期制御部22とから構成される。なお、TSパケットタイミング00部21は、映像再生装置2へ入力されるストリームデータが、後述するタイムスタンプ付のTSデータの場合に必要になるものであり、通常のTSデータとPSデータの場合は必要ない。したがって、通常のTSデータとPSデータの場合、ストリームバッファ27から出力されるストリームデータは、直接デコーダ26へ供給される。   On the other hand, the video reproduction device 2 receives the packet data transmitted from the AV server 1 from the network 4 and temporarily extracts the stream data extracted by the network control unit 23 and the network control unit 23 that extracts the stream data from the packet data. Stream buffer 27, which is an FIFO buffer to be stored, and a TS packet timing reproduction unit 2001 that reads the stream data stored in the stream buffer 27 at a timing based on control from a synchronization control unit 22 described later and outputs the data to the decoder 26 A decoder 26 for decoding the stream data output from the TS packet timing unit 2001, an output interface 25 for displaying the decoded video on the display 24 and the like, and a TS packet timing reproducing unit 2 And timing of the stream data input and output in 01, and a synchronization control unit 22 for adjusting the timing of the decoding in the decoder 26. The TS packet timing 00 unit 21 is necessary when the stream data input to the video playback device 2 is TS data with a time stamp to be described later. In the case of normal TS data and PS data, unnecessary. Therefore, in the case of normal TS data and PS data, the stream data output from the stream buffer 27 is directly supplied to the decoder 26.

デコーダ26は、ストリームデータに含まれる音声データ及び映像データのうち、少なくとも映像データのデコードを行う映像デコード手段であり、上述したように、ストリームデータとして、TSデータとPSデータとが入力されるため、この両方のデータをデコードする能力を有している。   The decoder 26 is a video decoding unit that decodes at least video data out of audio data and video data included in the stream data. As described above, TS data and PS data are input as stream data. , Have the ability to decode both of these data.

このような構成の映像再生装置2では、ネットワーク制御部23で受信したパケットデータは、TCP/IP又はUDP/IPの各プロトコルのヘッダが取り除かれてストリームデータに変換され、ストリームバッファ27に一時的に蓄積された後、TSパケットタイミング再現部2001によって逐次ストリームバッファ37から読み出され、デコーダ26に供給されて、デコード処理され、出力インターフェース25を通じて映像信号として送出され、ディスプレイ24により表示される。   In the video playback device 2 having such a configuration, the packet data received by the network control unit 23 is converted into stream data by removing the header of each protocol of TCP / IP or UDP / IP, and temporarily stored in the stream buffer 27. Are sequentially read from the stream buffer 37 by the TS packet timing reproduction unit 2001, supplied to the decoder 26, decoded, sent as a video signal through the output interface 25, and displayed on the display 24.

他方、音声再生装置3は、AVサーバー1から送信されたパケットデータをネットワーク4から受信し、このパケットデータからストリームデータを抽出するネットワーク制御部33と、ネットワーク制御部23で抽出したストリームデータを一時的に蓄積するストリームバッファ37と、このストリームバッファ27に蓄積されたストリームデータを後述する同期制御部32からの制御に基づくタイミングで読み出してデコーダ36に出力するTSパケットタイミング再現部3001と、このTSパケットタイミング再現部3001から出力されるストリームデータをデコードするデコーダ36と、デコードされた音声をスピーカー34等から出力させる出力インターフェース35と、TSパケットタイミング再現部3001におけるストリームデータの入出力のタイミングと、デコーダ36におけるデコードのタイミングを調整する同期制御部22とから構成される。なお、TSパケットタイミング再現部3001は、映像再生装置2の場合と同様に、タイムスタンプ付のTSデータの場合に必要になるものである。   On the other hand, the audio reproduction device 3 receives the packet data transmitted from the AV server 1 from the network 4 and temporarily extracts the stream data extracted by the network control unit 23 and the network control unit 33 that extracts the stream data from the packet data. A stream buffer 37 that accumulates the data, a TS packet timing reproduction unit 3001 that reads the stream data accumulated in the stream buffer 27 at a timing based on control from a synchronization control unit 32 to be described later, and outputs the data to the decoder 36; A decoder 36 that decodes stream data output from the packet timing reproduction unit 3001, an output interface 35 that outputs decoded audio from the speaker 34, and a stream in the TS packet timing reproduction unit 3001. The timing of the input and output of Mudeta, and a synchronization control unit 22 for adjusting the timing of the decoding in the decoder 36. Note that the TS packet timing reproduction unit 3001 is necessary in the case of TS data with a time stamp, as in the case of the video reproduction device 2.

このような構成の音声再生装置3では、ネットワーク制御部33で受信されたパケットデータは、TCP/IP又はUDP/IPの各プロトコルのヘッダが取り除かれたストリームデータに変換され、ストリームバッファ37に一時的に蓄積された後、TSパケットタイミング再現部3001によって逐次ストリームバッファ37から読み出され、デコーダ36に供給されて、デコード処理され、出力インターフェース35を通じて音声信号として送出され、スピーカー34により出力される。   In the audio reproducing device 3 having such a configuration, the packet data received by the network control unit 33 is converted into stream data from which the header of each protocol of TCP / IP or UDP / IP is removed, and is temporarily stored in the stream buffer 37. After being accumulated, the TS packet timing reproduction unit 3001 sequentially reads out from the stream buffer 37, supplies it to the decoder 36, decodes it, sends it out as an audio signal through the output interface 35, and outputs it through the speaker 34. .

上記したようなシステムに用いるネットワークが、例えば、Ethenet(登録商標)に代表されるようなパケット通信とCSMA/CD(CarrierSense Multiple Access withCollision Detection)によるベストエフォートからなる場合、同時に出力するように対応付けされた映像データと音声データとの間の同期を取るための基準クロックを、映像再生装置2と音声再生装置3とに直接伝送することができないため、これらの装置間での再生同期を取るための特別な手段が必要になる。   For example, when the network used in the system as described above is composed of packet communication represented by Ethernet (registered trademark) and best effort by CSMA / CD (Carrier Sense Multiple Access with Collision Detection), it is associated so that it is output simultaneously. Since the reference clock for synchronizing the recorded video data and audio data cannot be directly transmitted to the video reproduction apparatus 2 and the audio reproduction apparatus 3, reproduction synchronization between these apparatuses is required. Special means are required.

以下に、本願に係る上記した再生同期を取るための手段の実施例を図3及び図4を用いて説明する。
図3は、音声再生装置3側の同期制御部32の内部構成を示すブロック図であり、図4は、映像再生装置2側の同期制御部22の内部構成を示すブロック図である。
In the following, an embodiment of the means for obtaining the reproduction synchronization according to the present application will be described with reference to FIGS.
FIG. 3 is a block diagram showing the internal configuration of the synchronization control unit 32 on the audio playback device 3 side, and FIG. 4 is a block diagram showing the internal configuration of the synchronization control unit 22 on the video playback device 2 side.

(音声側)
まず音声再生装置3側の同期制御部32について図3を用いて説明する。
(Voice side)
First, the synchronization control unit 32 on the audio reproduction device 3 side will be described with reference to FIG.

同期制御部32は、位相同期ループ回路(PLL回路)として比較器301と、デジタル信号をアナログ信号に変換する回路であるDAC(Digital Analog Converter)302と、低域周波数を通過させるフィルタであるLPF(Low Pass Filter)303と、発振周波数を制御する発振回路であるVCXO(Voltage Controlled Xtal Oscillator)304と、STCカウンタ305を備えている。   The synchronization control unit 32 includes a comparator 301 as a phase-locked loop circuit (PLL circuit), a DAC (Digital Analog Converter) 302 that converts a digital signal into an analog signal, and an LPF that is a filter that passes a low-frequency. (Low Pass Filter) 303, VCXO (Voltage Controlled Xtal Oscillator) 304 which is an oscillation circuit for controlling the oscillation frequency, and STC counter 305 are provided.

また、本実施形態での同期制御部32は、タイムスタンプ付きTSデータの再生に対応するために、VCXO306と、タイミング制御ブロック307と、スイッチ308とを備えている。   In addition, the synchronization control unit 32 in this embodiment includes a VCXO 306, a timing control block 307, and a switch 308 in order to support reproduction of TS data with a time stamp.

なお、本説明におけるタイムスタンプとは、ARIB STD−B24「デジタル放送におけるデータ放送符号化方式」の第二編に記載されているタイムスタンプ付きTS形式を指しており、MPEG規格におけるPTS(Presentation Time Stamp)、DTS(Decoding Time Stamp)とは異なるものである。「タイムスタンプ付きTS」は、放送などのようにマルチプログラムが多重化されたMPEG−TSから目的のプログラムのみを抽出したパーシャルTSをストレージメディアなどの蓄積媒体に記録する際に、再生時にクロック・リカバリーができるようにパケットの到着タイミングを表す4バイトのタイムスタンプを付加したものである。上記タイムスタンプ付きTSは、188バイトのNPEG−TSパケットにこの4バイトを付加した192バイトのMPEG−TSパケットを指している。   Note that the time stamp in this description refers to the TS format with time stamp described in the second volume of ARIB STD-B24 “Data broadcasting encoding method in digital broadcasting”, and is a PTS (Presentation Time) in the MPEG standard. (Stamp) and DTS (Decoding Time Stamp). “TS with time stamp” is used to record a partial TS, in which only a target program is extracted from an MPEG-TS in which multiple programs are multiplexed, such as broadcasting, on a storage medium such as a storage medium. A 4-byte time stamp indicating the arrival timing of a packet is added so that recovery is possible. The TS with a time stamp indicates a 192-byte MPEG-TS packet obtained by adding these 4 bytes to an 188-byte NPEG-TS packet.

しかし、このタイムスタンプ付のTSデータであっても、それぞれの装置内のストリームバッファ27、37のサイズが異なっていると、ストリームデータが各デコーダ26、36へ入力されるまでの遅延時間が異なってしまい、完全には同期が取れない。また、各デコーダ26、36での遅延時間は、通常の場合同一ではないので、これによっても同期がずれてしまう。   However, even with this time-stamped TS data, if the size of the stream buffers 27 and 37 in each device is different, the delay time until the stream data is input to the decoders 26 and 36 is different. It is completely out of sync. Further, since the delay times in the decoders 26 and 36 are not usually the same, the synchronization is also shifted.

上記で示した構成の同期制御部32の内部動作を以下に説明する。入力データがタイムスタンプ付TSデータの場合は、タイミング制御ブロックにこのデータが供給され、タイムスタンプが付いていない通常のTSデータとPSデータとの場合は、これらからそれぞれ抽出したPCR及びSCR(以下両者をまとめてクロックリファレンスと呼ぶ)がスイッチ308のB側の端子に供給される。   The internal operation of the synchronization control unit 32 configured as described above will be described below. When the input data is TS data with a time stamp, this data is supplied to the timing control block. When the input data is normal TS data and PS data without a time stamp, the PCR and SCR (hereinafter referred to as “PCR” and “SCR” respectively) extracted from these data. Both are collectively referred to as a clock reference) and supplied to the B-side terminal of the switch 308.

(TSデータ、PSデータの場合)
まず、入力データが通常のTSデータとPSデータとの場合について説明する。この場合、308はB側の端子に接続される。
AVサーバー1から受信したストリームデータから抽出されたクロックリファレンスは、スイッチ308のB側の端子を介して、STCカウンタ305に供給される。
(For TS data and PS data)
First, the case where the input data is normal TS data and PS data will be described. In this case, 308 is connected to the terminal on the B side.
The clock reference extracted from the stream data received from the AV server 1 is supplied to the STC counter 305 via the B side terminal of the switch 308.

STCカウンタ305は、クロックリファレンスが最初に到着したときにその値を初期値にセットされ、PLLを構成するVCXO304から出力されるクロックをカウントすることでSTCを生成する。そして、このSTCを比較器301に供給する。   The STC counter 305 is set to an initial value when the clock reference first arrives, and generates an STC by counting the clocks output from the VCXO 304 constituting the PLL. Then, this STC is supplied to the comparator 301.

比較器301は、供給されるクロックリファレンスと、このクロックリファレンスが供給された時点でのSTCの値とを比較して、誤差値を算出しDAC302に供給する。
DAC302は、供給された誤差値に応じた誤差電圧を生成しLPF303に供給する。
The comparator 301 compares the supplied clock reference with the STC value at the time when the clock reference is supplied, calculates an error value, and supplies the error value to the DAC 302.
The DAC 302 generates an error voltage corresponding to the supplied error value and supplies it to the LPF 303.

LPF303は、供給される誤差電圧から高周波成分を除去し、低周波成分をVCXO304に制御電圧として供給する。   The LPF 303 removes the high frequency component from the supplied error voltage and supplies the low frequency component to the VCXO 304 as a control voltage.

VCXO304は、供給される制御電圧に応じて発振中心周波数が可変制御されたクロックを出力する。このVCXO304から出力されたクロックは、STCカウンタ305に帰還入力される。この、VCXO304から出力されるクロックが、デコーダ36のシステムクロックとして用いられる。   The VCXO 304 outputs a clock whose oscillation center frequency is variably controlled according to the supplied control voltage. The clock output from the VCXO 304 is fed back to the STC counter 305. The clock output from the VCXO 304 is used as a system clock for the decoder 36.

そして、デコーダ36は、上記で生成されたシステムクロックを用いてストリームデータのデコードを行う。このとき、デコーダ36は、オーディオフレームが出力された瞬間にそのフレームに関連付けられたPTS(Presentation Time Stamp)を、音声側同期信号としてネットワーク4を通じて映像再生装置2側に送信する。本実施形態では、この音声側同期信号を、オーバーヘッドの少なさを考慮して、UDP(UserDatagramProtocol)パケットにPTSの値をパケッタイズし、PTS通知パケットとして送信する。   Then, the decoder 36 decodes the stream data using the system clock generated as described above. At this time, the decoder 36 transmits a PTS (Presentation Time Stamp) associated with the frame at the moment when the audio frame is output to the video reproduction apparatus 2 side through the network 4 as an audio side synchronization signal. In the present embodiment, the audio side synchronization signal is packetized with a PTS value in a UDP (User Datagram Protocol) packet in consideration of a small overhead, and is transmitted as a PTS notification packet.

ここで、PTS通知パケットにより音声再生装置3側のPTSを通知するのは、音声再生装置3側においてSTCカウンタの値がPTSと一致したときに、当該PTSに関連付けられたオーディオフレームが出力されることから、音声再生装置3側のSTCカウンタの値を映像再生装置2側に通知するのと同等となるためである。なお、この音声再生装置3側のPTSに代えて、オーディオフレームが出力された瞬間のSTCカウンタの値を読み取って、これを通知パケットにより映像再生装置2側に通知するようにしてもよい。   Here, the PTS on the audio playback device 3 side is notified by the PTS notification packet when an audio frame associated with the PTS is output when the value of the STC counter matches the PTS on the audio playback device 3 side. This is because it is equivalent to notifying the value of the STC counter on the audio playback device 3 side to the video playback device 2 side. Instead of the PTS on the audio reproduction device 3 side, the STC counter value at the moment when the audio frame is output may be read and notified to the video reproduction device 2 side by a notification packet.

(タイムスタンプ付きTSデータの場合)
次に、入力データがタイムスタンプ付きTSデータの場合について説明する。この場合、スイッチ308はA側の端子に接続される。
タイムスタンプ付きTSデータは、タイミング制御ブロック307に供給される。
(For TS data with time stamp)
Next, a case where the input data is TS data with a time stamp will be described. In this case, the switch 308 is connected to the terminal on the A side.
The TS data with time stamp is supplied to the timing control block 307.

タイミング制御ブロック307は、タイムスタンプ付きTSデータの再生時に、VCXO306からのクロック信号に基づいてこのTSデータを取り込み、このTSデータをデコーダへ供給するタイミングを制御する回路である。   The timing control block 307 is a circuit for controlling the timing of fetching this TS data based on the clock signal from the VCXO 306 and supplying this TS data to the decoder when reproducing TS data with a time stamp.

このタイミング制御ブロック307は、上記動作とともにTSデータからクロックリファレンス(PCR)を抽出し、上記で説明したPLL回路(比較器301、DAC302、LPF303、VCXO304及びSTCカウンタ305)に入力する。その後のPLL回路の動作は通常のTSデータ及びPSデータの場合と同様である。
VCXO306は、タイミング制御ブロック307で用いるクロックを発生する発振器である。
The timing control block 307 extracts the clock reference (PCR) from the TS data together with the above operation, and inputs it to the PLL circuit (comparator 301, DAC 302, LPF 303, VCXO 304, and STC counter 305) described above. The subsequent operation of the PLL circuit is the same as in the case of normal TS data and PS data.
The VCXO 306 is an oscillator that generates a clock used in the timing control block 307.

(映像側)
次に映像再生装置3の同期制御部22について図4を用いて説明する。
同期制御部22は、位相同期ループ回路(PLL回路)として比較器205と、デジタル信号をアナログ信号に変換するDAC207と、低域周波数を通過させるLPF208と、発振周波数を制御するVCXO209と、STCカウンタ212とを備えている。
(Video side)
Next, the synchronization control unit 22 of the video reproduction device 3 will be described with reference to FIG.
The synchronization control unit 22 includes a comparator 205 as a phase-locked loop circuit (PLL circuit), a DAC 207 that converts a digital signal into an analog signal, an LPF 208 that passes a low frequency, a VCXO 209 that controls an oscillation frequency, and an STC counter 212.

また、本実施形態での同期制御部22は、タイムスタンプ付きTSデータの再生に対応するために、VCXO201と、タイミング制御ブロック202と、スイッチ203及び204とを備えている。   In addition, the synchronization control unit 22 in this embodiment includes a VCXO 201, a timing control block 202, and switches 203 and 204 in order to support reproduction of TS data with a time stamp.

(TSデータ、PSデータの場合)
音声側の説明と同様に、まず、入力データが通常のTSデータとPSデータとの場合について説明する。この場合、スイッチ204はB側の端子に接続される。
(For TS data and PS data)
Similar to the explanation on the voice side, first, the case where the input data is normal TS data and PS data will be described. In this case, the switch 204 is connected to the terminal on the B side.

AVサーバー1から受信したストリームデータから抽出されたクロックリファレンスは、スイッチ204のB側の端子を介して比較器205に入力される。ただし最初に到着したときはSTCカウンタ212に初期化のため、供給される。   The clock reference extracted from the stream data received from the AV server 1 is input to the comparator 205 via the B side terminal of the switch 204. However, when it first arrives, it is supplied to the STC counter 212 for initialization.

その後のPLL回路における、比較器205,DAC207、LPF208、VCXO209及びSTCカウンタ212の各部の動作は、音声再生装置3側とほぼ同様であるので説明を省略し、音声再生装置3との同期を図るために映像再生装置2側に加わった構成についてのみ説明する。   Subsequent operations of the comparator 205, the DAC 207, the LPF 208, the VCXO 209, and the STC counter 212 in the PLL circuit are almost the same as those of the audio reproduction device 3, and thus the description thereof is omitted, and synchronization with the audio reproduction device 3 is achieved. Therefore, only the configuration added to the video playback device 2 side will be described.

映像再生装置2の同期制御部22は、上記PLL回路の各部に加えて、遅延補正ブロック213と、STC差分検出ブロック211と、比較器210と、加算器206とを備えている。   The synchronization control unit 22 of the video playback device 2 includes a delay correction block 213, an STC difference detection block 211, a comparator 210, and an adder 206 in addition to the components of the PLL circuit.

遅延補正ブロック213は、音声再生装置3側に応答時間を測定するための測定用信号を、ネットワーク4を通じて送信し、測定用信号に応じて音声再生装置3側から返信された応答信号を受信し、測定用信号の送信から応答信号の受信までの伝送遅延時間を測定し、測定された伝送遅延時間に応じて、音声再生装置3側から受信した音声側同期信号を補正するモジュールである。   The delay correction block 213 transmits a measurement signal for measuring the response time to the audio reproduction device 3 side through the network 4 and receives a response signal returned from the audio reproduction device 3 side according to the measurement signal. This is a module that measures the transmission delay time from the transmission of the measurement signal to the reception of the response signal, and corrects the audio side synchronization signal received from the audio reproduction device 3 side according to the measured transmission delay time.

具体的には、この遅延補正ブロック213は、図5に示すように、コンテンツの再生開始前に、映像再生装置2から音声再生装置3へ、測定用信号としての応答時間測定パケットを複数回送信してから、これに対する応答信号である音声再生装置3からの応答パケットを受信するまでの時間Trを測定する。そして、このTrの半分、すなわちTr/2の平均時間を伝送遅延時間とする。そして、このようにして測定したPTS通知パケットの遅延時間を、デコーダのクロック周波数で換算したSTCカウント値分として補正に使用する。   Specifically, as shown in FIG. 5, the delay correction block 213 transmits a response time measurement packet as a measurement signal a plurality of times from the video playback device 2 to the audio playback device 3 before starting the playback of the content. After that, the time Tr until receiving the response packet from the audio reproduction device 3 which is a response signal to the response signal is measured. Then, half of this Tr, that is, the average time of Tr / 2 is defined as the transmission delay time. The delay time of the PTS notification packet measured in this way is used for correction as an STC count value converted by the decoder clock frequency.

ここで、音声再生装置3では、映像再生装置2からの応答時間測定パケットを受信してから応答パケットを送信するまでの応答遅延時間Tdlが発生する可能性があるが、この応答遅延時間Tdlは、人間の検知しうるリップシンクのズレ量より十分小さい時間と考えられることから、Tr/2の平均時間を音声再生装置3がオーディオフレームを出力した瞬間から映像再生装置2でPTSを通知するパケットを受信するまでの時間として問題無い。なお、この人間のリップシンクズレの検知限は、アナウンスにおける評価実験の場合、音進み約45ms、音遅れ約125ms、許容限は音進み約90ms、音遅れ約185msであることが知られており、打楽器における評価実験の場合で、音進み23ms、音遅れ56ms、許容限は音進み56ms、音遅れ130msであることも知られている。   Here, in the audio reproduction device 3, there is a possibility that a response delay time Tdl from the reception of the response time measurement packet from the video reproduction device 2 to the transmission of the response packet may occur. This response delay time Tdl is Since the time is considered to be sufficiently smaller than the amount of lip sync that can be detected by humans, a packet for notifying the PTS from the video playback device 2 from the moment when the audio playback device 3 outputs an audio frame with the average time of Tr / 2. There is no problem as time to receive. It is known that the detection limit of this human lip sync gap is about 45 ms for sound advance, about 125 ms for sound delay, and about 90 ms for sound advance and about 185 ms for sound delay in the evaluation experiment in the announcement. In the case of an evaluation experiment using a percussion instrument, it is also known that the sound advance is 23 ms, the sound delay is 56 ms, and the allowable limit is a sound advance of 56 ms and a sound delay of 130 ms.

比較器210は、遅延補正ブロック213により補正された音声側STCカウント値(すなわちPTS値)とデコーダ26のSTCカウント値とを比較してこれらの差分を算出し、STC差分検出ブロック211は、比較器210で得た差分がVideo信号のフレーム周期より大きい小さいか、正の値か負の値かの検出を行うモジュールである。   The comparator 210 compares the audio-side STC count value (that is, the PTS value) corrected by the delay correction block 213 with the STC count value of the decoder 26 to calculate these differences, and the STC difference detection block 211 performs the comparison. This is a module for detecting whether the difference obtained by the device 210 is smaller than the frame period of the Video signal, whether it is a positive value or a negative value.

具体的には、比較器210は、補正後の音声再生装置3側のSTCカウント値(PTS値)と、映像再生装置2側のSTCカウント値との差分を検出するモジュールである。また、STC差分検出ブロック211は、検出された差分が、正の値でビデオフレーム周期相当のカウント値よりも大きかった場合、デコーダにフレームスキップを指示し、負の値で同様の場合だったら、フレームの連続出力をするよう、STC差分検出ブロック211から制御するようにして映像と音声の大きな時間ズレに対して短い時間で同期状態に補正できるようにする。   Specifically, the comparator 210 is a module that detects the difference between the corrected STC count value (PTS value) on the audio playback device 3 side and the STC count value on the video playback device 2 side. The STC difference detection block 211 instructs the decoder to skip a frame when the detected difference is a positive value and is larger than the count value corresponding to the video frame period. Control is performed from the STC difference detection block 211 so that frames are continuously output, so that a large time gap between video and audio can be corrected to a synchronized state in a short time.

なお、フレームスキップする場合、MPEGではI、Pフレームをスキップすると、これらのフレームは、それ以降のフレームを復号する参照元になっているため再生画像に影響を及ぼしてしまう。したがって、本実施形態では、スキップする場合、次のBフレームをスキップするようにする。   In the case of skipping frames, if I and P frames are skipped in MPEG, these frames are a reference source for decoding the subsequent frames, which affects the reproduced image. Therefore, in this embodiment, when skipping, the next B frame is skipped.

このようなフレームのスキップや連続出力を行った場合、映像再生装置2側のSTCカウンタ212には、次のPCRが到着したときに、その値がセットされ、スキップされたフレーム分だけ追従するように、STCカウンタの値が更新される。   When such frame skipping or continuous output is performed, when the next PCR arrives, the value is set in the STC counter 212 on the video reproduction apparatus 2 side so that the skipped frame is followed. In addition, the value of the STC counter is updated.

(タイムスタンプ付きTSデータの場合)
次に、入力データがタイムスタンプ付きTSデータの場合について説明する。この場合、スイッチ204はA側の端子に接続される。タイムスタンプ付きTSデータは、タイミング制御ブロック202に供給される。
(For TS data with time stamp)
Next, a case where the input data is TS data with a time stamp will be described. In this case, the switch 204 is connected to the terminal on the A side. The TS data with time stamp is supplied to the timing control block 202.

タイミング制御ブロック202は、タイムスタンプ付きTSデータの再生時に、VCXO201からのクロック信号に基づいてこのTSデータを取り込み、このTSデータをデコーダへ供給するタイミングを制御する回路である。   The timing control block 202 is a circuit for controlling the timing of fetching this TS data based on the clock signal from the VCXO 201 and supplying this TS data to the decoder when reproducing TS data with a time stamp.

このタイミング制御ブロック202は、上記動作とともにTSデータからクロックリファレンス(PCR)を抽出し、上記で説明したPLL回路(比較器205、加算器206、DAC207、LPF208、VCXO209及びSTCカウンタ212)に入力する。その後のPLL回路の動作は通常のTSデータ及びPSデータの場合と同様である。   The timing control block 202 extracts the clock reference (PCR) from the TS data together with the above operation, and inputs it to the PLL circuit (comparator 205, adder 206, DAC 207, LPF 208, VCXO 209, and STC counter 212) described above. . The subsequent operation of the PLL circuit is the same as in the case of normal TS data and PS data.

VCXO201は、タイミング制御ブロック307で用いるクロックを発生する発振器である。   The VCXO 201 is an oscillator that generates a clock used in the timing control block 307.

スイッチ203は、LPF208から出力される誤差電圧と、固定値の電圧とを選択的に切り替えて、VCXO201に入力させるためのスイッチであり、外部の音声再生装置3側との同期を行うときには、スイッチをC側の端子に接続してLPF208からの誤差電圧をVCXO201に入力させる一方、同期を行わないときには、スイッチをD側の端子に接続して固定値の電圧をVCXO201に入力させてタイミング制御ブロック202のクロックを固定周波数とするとともに、STC差分検出ブロック211の出力を「STCカウントの誤差なし」の固定値出力とする。   The switch 203 is a switch for selectively switching between an error voltage output from the LPF 208 and a fixed value voltage and inputting the voltage to the VCXO 201. When synchronizing with the external audio reproduction apparatus 3 side, the switch 203 Is connected to the C-side terminal and the error voltage from the LPF 208 is input to the VCXO 201. On the other hand, when synchronization is not performed, a switch is connected to the D-side terminal and a fixed value voltage is input to the VCXO 201. The clock of 202 is set to a fixed frequency, and the output of the STC difference detection block 211 is set to a fixed value output of “no STC count error”.

(処理の流れ)
次に、以上の構成によって映像と音声の同期再生を実現するための処理の流れを図6のシーケンス図を用いて説明する。
(Process flow)
Next, the flow of processing for realizing synchronized reproduction of video and audio with the above configuration will be described with reference to the sequence diagram of FIG.

音声再生装置3又は映像再生装置2からAVサーバー1に対して、コンテンツデータの配信要求を送信する(S101)。
AVサーバー1は、この配信要求を受信したらコンテンツデータの配信を開始する(S105)。
A content data distribution request is transmitted from the audio reproduction device 3 or the video reproduction device 2 to the AV server 1 (S101).
When receiving the distribution request, the AV server 1 starts distributing content data (S105).

このコンテンツデータの配信は、本実施形態では、音声再生装置3及び映像再生装置2の両方に対して同一内容のデータを送信する例で説明するが、音声再生装置3及び映像再生装置2のそれぞれに対して、映像データ及び音声データのそれぞれを送信するようにしてもよい。   In the present embodiment, the distribution of the content data will be described using an example in which data having the same content is transmitted to both the audio reproduction device 3 and the video reproduction device 2, but each of the audio reproduction device 3 and the video reproduction device 2 is provided. On the other hand, each of the video data and the audio data may be transmitted.

次に、遅延補正のための伝送遅延の測定及び算出を行う(S102及びS103)。なお、このステップは、コンテンツデータの配信要求の前に前もって行なっておいてもよい。   Next, the transmission delay is measured and calculated for delay correction (S102 and S103). This step may be performed in advance before the content data distribution request.

次いで、音声再生装置3及び映像再生装置2において、それぞれネットワーク制御部23及び33でコンテンツデータをネットワーク4から受信する(S104)。   Next, in the audio playback device 3 and the video playback device 2, content data is received from the network 4 by the network control units 23 and 33, respectively (S104).

次に、音声再生装置3は、音声をデコードするとともに、このデコード時に取り出される音声側同期信号(PTS)を、この音声の出力タイミングで映像再生装置2へ送信する。
映像再生装置2は、音声再生装置3から送信される音声側同期信号(PTS)を受信する(S107)。
Next, the audio reproduction device 3 decodes the audio and transmits an audio side synchronization signal (PTS) extracted at the time of decoding to the video reproduction device 2 at the output timing of the audio.
The video reproduction device 2 receives the audio side synchronization signal (PTS) transmitted from the audio reproduction device 3 (S107).

次いで、映像再生装置2側において、S103で算出した遅延時間分を補正する(S108)。
この遅延補正は、ステップS102及びS103で測定・算出したPTS通知パケットの遅延時間を、デコーダのクロック周波数で換算したSTCカウント値分として加算する。そして、比較器210において、補正後の音声再生装置3側のSTCカウント値(PTS値)と、映像再生装置2側のSTCカウント値との差分を検出する。
Next, the video reproduction apparatus 2 side corrects the delay time calculated in S103 (S108).
In this delay correction, the delay time of the PTS notification packet measured and calculated in steps S102 and S103 is added as an STC count value converted by the decoder clock frequency. Then, the comparator 210 detects the difference between the corrected STC count value (PTS value) on the audio playback device 3 side and the STC count value on the video playback device 2 side.

検出された差分が、ビデオフレーム周期相当のカウント値よりも大きかった場合(ステップS109における“Y”)、デコーダにフレームスキップ、又はフレームの連続出力をするよう、STC差分検出ブロック211から制御するようにして、映像と音声の大きな時間ズレを補正し、同期状態を維持する(S110)。   When the detected difference is larger than the count value corresponding to the video frame period (“Y” in step S109), control is performed from the STC difference detection block 211 to perform frame skipping or continuous frame output to the decoder. Thus, a large time shift between the video and audio is corrected and the synchronization state is maintained (S110).

一方、検出された差分がビデオフレーム周期相当のカウント値よりも小さかった場合(ステップS109における“N”)、そのまま処理を続行する。
更に、送信されるコンテンツデータがタイムスタンプ付きTSデータの場合は、映像再生装置2側のタイミング制御ブロック202のクロックを発生しているVCXO201に対しても、上記デコーダのクロック制御に用いるLPF208からの出力を利用し、タイミング制御ブロック202のクロックを、デコーダのクロック制御に追従させ、ストリームデータの流量とデコーダの動作クロックとを整合させ、破綻なくデコード動作を制御する。
On the other hand, if the detected difference is smaller than the count value corresponding to the video frame period (“N” in step S109), the processing is continued as it is.
Furthermore, when the content data to be transmitted is TS data with a time stamp, the VCXO 201 generating the clock of the timing control block 202 on the video playback device 2 side also receives the signal from the LPF 208 used for clock control of the decoder. Using the output, the clock of the timing control block 202 is made to follow the clock control of the decoder, the stream data flow rate and the operation clock of the decoder are matched, and the decoding operation is controlled without failure.

以上のような処理により、映像再生装置2側において、同期制御部22は、音声再生装置3側の音声側同期信号(PTS)とのズレをなくすように動作し、映像と音声の同期が取るようになる。また、このズレ量が1フレーム期間を超えるような場合は、上述したようにフレームスキップ、若しくはフレームの連続出力により映像の再生を、音声再生装置3側に追従するように動作させる。
したがって、映像の出力タイミングと音声の出力タイミングのズレによる違和感を解消することができる。
Through the processing as described above, on the video reproduction device 2 side, the synchronization control unit 22 operates so as to eliminate the deviation from the audio side synchronization signal (PTS) on the audio reproduction device 3 side, and the video and audio are synchronized. It becomes like this. Further, when the amount of deviation exceeds one frame period, the video playback is operated to follow the audio playback device 3 side by frame skip or continuous frame output as described above.
Therefore, it is possible to eliminate a sense of incongruity due to a difference between the video output timing and the audio output timing.

(変更例)
本発明は、上述した実施形態に限定されるものではなく、種々の変更を加えることができる。例えば、映像再生装置側のデコーダを、サイズや処理能力、デコード方式が異なるものを複数設け、遅延補正ブロックにおいて検出された伝送遅延の程度に応じて、デコーダを選択するようにしてもよい。
(Example of change)
The present invention is not limited to the embodiments described above, and various modifications can be made. For example, a plurality of decoders on the video reproduction device side having different sizes, processing capabilities, and decoding methods may be provided, and the decoder may be selected according to the degree of transmission delay detected in the delay correction block.

また、図1に示した、AVサーバー1や、音声再生装置3、映像再生装置2に備えられている操作パネルや操作ボタン、リモコン、液晶ディスプレイ等のユーザーインターフェースを、ネットワーク4を通じて相互に接続し、ユーザーの操作信号を相互に送受信可能とし、これらのネットワーク4に接続されたユーザーインターフェースのいずれからでも、上述したコンテンツデータの配信要求や、再生・停止等の再生制御を行えるようにするとともに、これらの操作を上記リップシンク処理の開始又は停止のトリガーとすることができる。   Also, the user interface such as the operation panel, operation buttons, remote control, and liquid crystal display provided in the AV server 1, the audio playback device 3, and the video playback device 2 shown in FIG. The user operation signals can be transmitted and received mutually, and the above-mentioned content data distribution request and playback control such as playback / stop can be performed from any of the user interfaces connected to the network 4. These operations can be used as triggers for starting or stopping the lip sync process.

(作用・効果)
以上説明した本実施形態によれば、ネットワーク4上に別途独立して分散配置された映像再生装置2及び音声再生装置3を備えたシステム構成において、音声再生装置3側のデコードを制御する音声側同期信号を映像再生装置2側で取得し、取得した音声側同期信号に映像再生装置2側におけるデコードのカウント値を整合させることにより、音声再生に映像再生を同期させ、リップシンクを取ることができる。
(Action / Effect)
According to the present embodiment described above, in the system configuration including the video reproduction device 2 and the audio reproduction device 3 separately distributed separately on the network 4, the audio side that controls the decoding on the audio reproduction device 3 side. The synchronization signal is acquired on the video reproduction device 2 side, and the video reproduction device 2 side is synchronized with the acquired audio side synchronization signal so that the video reproduction is synchronized with the audio reproduction, and lip synchronization is taken. it can.

また、本実施形態では、同期再生の際に、伝送遅延時間を測定し、測定された伝送遅延時間に応じて、音声再生装置側から受信した音声側クロック信号を補正するため、ネットワークに依存する伝送遅延を解消することができ、より精度よリップシンクを取ることができる。   Further, in the present embodiment, the transmission delay time is measured at the time of synchronous reproduction, and the audio side clock signal received from the audio reproduction apparatus side is corrected according to the measured transmission delay time. Transmission delay can be eliminated, and lip sync can be taken with higher accuracy.

実施形態に係る同期再生装置の全体構成を示す概念図である。It is a conceptual diagram which shows the whole structure of the synchronous reproduction apparatus which concerns on embodiment. 実施形態に係るAVサーバー1、映像再生装置2、及び音声再生装置3の内部構成を示すブロック図である。FIG. 2 is a block diagram showing an internal configuration of an AV server 1, a video playback device 2, and an audio playback device 3 according to the embodiment. 実施形態に係る音声再生装置側同期制御部32の内部構成を示すブロック図である。It is a block diagram which shows the internal structure of the audio | voice reproduction apparatus side synchronous control part 32 which concerns on embodiment. 実施形態に係る映像再生装置側同期制御部22の内部構成を示すブロック図である。It is a block diagram which shows the internal structure of the video reproduction apparatus side synchronous control part 22 which concerns on embodiment. 実施形態に係る伝送遅延測定方法の説明図である。It is explanatory drawing of the transmission delay measuring method which concerns on embodiment. 実施形態に係る同期再生装置の動作を示すシーケンス図である。It is a sequence diagram which shows operation | movement of the synchronous reproduction apparatus which concerns on embodiment.

符号の説明Explanation of symbols

Tdl…応答遅延時間
Tr…時間
1…AVサーバー
2…映像再生装置
2a…モニター
3…音声再生装置(オーディオコンポ)
3a…シリコンプレーヤー
3b…PDA
3c…携帯電話
4…ネットワーク
5…コンテンツ配信サーバー
11…ネットワーク制御部
12…チューナー部
13…ストレージ管理部
14…エンコーダ
15…ストリームバッファ
16…ストレージ
2001,3001…TSパケットタイミング再現部
22,32…同期制御部
23,33…ネットワーク制御部
24…ディスプレイ
25…出力インターフェース
26,36…デコーダ
27,37…ストリームバッファ
34…スピーカー
35…出力インターフェース
41…無線LANルーター
42…インターネット
43…テレビ放送受信アンテナ
44…ルーター
201,306…VCXO
202,307…タイミング制御ブロック
203,204,308…スイッチ
205,301…比較器
206…加算器
207,302…DAC
208,303…LPF
209,304…VCXO
210…比較器
211…STC差分検出ブロック
212,305…STCカウンタ
213…遅延補正ブロック
Tdl ... response delay time Tr ... time 1 ... AV server 2 ... video playback device 2a ... monitor 3 ... audio playback device (audio component)
3a ... Silicone player 3b ... PDA
3c ... Cellular phone 4 ... Network 5 ... Content distribution server 11 ... Network control unit 12 ... Tuner unit 13 ... Storage management unit 14 ... Encoder 15 ... Stream buffer 16 ... Storage 2001, 3001 ... TS packet timing reproduction unit 22, 32 ... Synchronization Control unit 23, 33 ... Network control unit 24 ... Display 25 ... Output interface 26, 36 ... Decoder 27, 37 ... Stream buffer 34 ... Speaker 35 ... Output interface 41 ... Wireless LAN router 42 ... Internet 43 ... TV broadcast receiving antenna 44 ... Router 201,306 ... VCXO
202, 307 ... Timing control block 203, 204, 308 ... Switch 205, 301 ... Comparator 206 ... Adder 207, 302 ... DAC
208,303 ... LPF
209, 304 ... VCXO
210 ... Comparator 211 ... STC difference detection block 212,305 ... STC counter 213 ... Delay correction block

Claims (2)

コンテンツデータに含まれる映像データと音声データとを、ネットワーク上に独立して配置される映像再生装置及び音声再生装置を用いてそれぞれ独立して再生させる場合に、前記映像再生装置による前記映像データの再生と前記音声再生装置による音声データの再生とを同期させる同期再生装置であって、
前記音声再生装置側に設けられ、前記コンテンツデータの音声データをデコードする音声デコード手段と、
前記音声再生装置側に設けられ、前記音声デコード手段によるデコード結果である音声信号を出力すべきタイミングの制御値を、音声側同期信号として前記ネットワークを通じて前記映像再生装置側に送信する音声側同期制御部と、
前記映像再生装置側に設けられ、前記コンテンツデータの映像データをデコードする映像デコード手段と、
前記映像再生装置側に設けられ、前記音声再生装置側から送信された前記音声側同期信号を受信し、該音声側同期信号に応じて、前記映像デコード手段で用いるクロックの周波数、及び前記映像デコード手段で再生するフレームのうちの少なくともいずれか一方を調整する映像側同期制御部と、
を備えることを特徴とする同期再生装置。
When the video data and the audio data included in the content data are played back independently using the video playback device and the audio playback device that are independently arranged on the network, the video data by the video playback device A synchronized playback device that synchronizes playback and playback of audio data by the audio playback device,
An audio decoding means provided on the audio reproduction device side for decoding audio data of the content data;
Audio-side synchronization control that is provided on the audio reproduction device side and transmits a control value for timing to output an audio signal as a decoding result by the audio decoding means to the video reproduction device side through the network as an audio-side synchronization signal And
Video decoding means provided on the video reproduction device side for decoding the video data of the content data;
Provided on the video playback device side, receives the audio side synchronization signal transmitted from the audio playback device side, and in response to the audio side synchronization signal, the frequency of the clock used by the video decoding means, and the video decoding A video-side synchronization control unit that adjusts at least one of the frames reproduced by the means;
A synchronous playback device comprising:
前記映像再生装置側に設けられ、
前記ネットワークにおける応答時間を測定するための測定用信号を、前記ネットワークを介して前記音声再生装置側に送信し、前記測定用信号に応じて前記音声再生装置側から返信された応答信号を受信し、前記測定用信号の送信から前記応答信号の受信までの伝送遅延時間を測定し、測定された伝送遅延時間に応じて、前記音声再生装置側から受信した前記音声側同期信号の値を補正する遅延補正部を
更に備えることを特徴とする請求項1に記載の同期再生装置。
Provided on the video playback device side,
A measurement signal for measuring a response time in the network is transmitted to the audio reproduction device side via the network, and a response signal returned from the audio reproduction device side according to the measurement signal is received. , Measuring a transmission delay time from transmission of the measurement signal to reception of the response signal, and correcting the value of the audio side synchronization signal received from the audio reproduction device side according to the measured transmission delay time The synchronized playback apparatus according to claim 1, further comprising a delay correction unit.
JP2008122496A 2008-05-08 2008-05-08 Synchronous reproduction apparatus Pending JP2009272945A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008122496A JP2009272945A (en) 2008-05-08 2008-05-08 Synchronous reproduction apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008122496A JP2009272945A (en) 2008-05-08 2008-05-08 Synchronous reproduction apparatus

Publications (1)

Publication Number Publication Date
JP2009272945A true JP2009272945A (en) 2009-11-19

Family

ID=41439089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008122496A Pending JP2009272945A (en) 2008-05-08 2008-05-08 Synchronous reproduction apparatus

Country Status (1)

Country Link
JP (1) JP2009272945A (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009303059A (en) * 2008-06-16 2009-12-24 Canon Inc Moving image processing system, moving image processing method, program and storage medium
JP2012049836A (en) * 2010-08-27 2012-03-08 Hitachi Consumer Electronics Co Ltd Video/audio output apparatus, video/audio output system and master apparatus
JP2012160925A (en) * 2011-02-01 2012-08-23 Onkyo Corp Information display controller, information display method, and information display program
JP2013078048A (en) * 2011-09-30 2013-04-25 Toshiba Corp Information reproduction device and information reproduction method
JP2013081155A (en) * 2012-07-26 2013-05-02 Toshiba Corp Information reproduction device and information reproduction method
US8467444B2 (en) 2008-06-16 2013-06-18 Canon Kabushiki Kaisha Information processing system, information processing apparatus, information processing method, and program
JP2015515208A (en) * 2012-03-23 2015-05-21 トムソン ライセンシングThomson Licensing Buffer management method for synchronization of correlated media presentations
JP2015534315A (en) * 2012-08-28 2015-11-26 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. Audio transfer device and corresponding method
JP2015536064A (en) * 2012-09-14 2015-12-17 ディーティーエス・インコーポレイテッドDTS,Inc. Playback synchronization
JP2017183854A (en) * 2016-03-29 2017-10-05 セイコーエプソン株式会社 Display system, display device, head mounted display device, display control method, control method for display device, and program
JP2018502533A (en) * 2015-10-29 2018-01-25 シャオミ・インコーポレイテッド Media synchronization method, apparatus, program, and recording medium

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009303059A (en) * 2008-06-16 2009-12-24 Canon Inc Moving image processing system, moving image processing method, program and storage medium
US8467444B2 (en) 2008-06-16 2013-06-18 Canon Kabushiki Kaisha Information processing system, information processing apparatus, information processing method, and program
JP2012049836A (en) * 2010-08-27 2012-03-08 Hitachi Consumer Electronics Co Ltd Video/audio output apparatus, video/audio output system and master apparatus
JP2012160925A (en) * 2011-02-01 2012-08-23 Onkyo Corp Information display controller, information display method, and information display program
JP2013078048A (en) * 2011-09-30 2013-04-25 Toshiba Corp Information reproduction device and information reproduction method
US8464305B2 (en) 2011-09-30 2013-06-11 Kabushiki Kaisha Toshiba Content reproduction apparatus and content reproduction method
JP2015515208A (en) * 2012-03-23 2015-05-21 トムソン ライセンシングThomson Licensing Buffer management method for synchronization of correlated media presentations
JP2013081155A (en) * 2012-07-26 2013-05-02 Toshiba Corp Information reproduction device and information reproduction method
JP2015534315A (en) * 2012-08-28 2015-11-26 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. Audio transfer device and corresponding method
JP2015536064A (en) * 2012-09-14 2015-12-17 ディーティーエス・インコーポレイテッドDTS,Inc. Playback synchronization
JP2018502533A (en) * 2015-10-29 2018-01-25 シャオミ・インコーポレイテッド Media synchronization method, apparatus, program, and recording medium
JP2017183854A (en) * 2016-03-29 2017-10-05 セイコーエプソン株式会社 Display system, display device, head mounted display device, display control method, control method for display device, and program

Similar Documents

Publication Publication Date Title
JP2009272945A (en) Synchronous reproduction apparatus
CN205545723U (en) Multimedia system
JP4182437B2 (en) Audio video synchronization system and monitor device
JP4793247B2 (en) Recording apparatus, recording method, reproducing apparatus, and reproducing method
US20070286245A1 (en) Digital signal processing apparatus and data stream processing method
JP4983923B2 (en) Decoder device and decoding method
US20070092224A1 (en) Content receiving apparatus, video/audio output timing control method, and content provision system
JP2006513608A (en) Audio-visual content transmission system and method
KR20090018853A (en) Clock drift compensation techniques for audio decoding
US8681271B2 (en) Synchronization signal adjustment device, synchronization signal adjustment method, image display device, and synchronization signal generation device
CN101710997A (en) MPEG-2 (Moving Picture Experts Group-2) system based method and system for realizing video and audio synchronization
WO2014188960A1 (en) Transmission device, transmission method, reception device and reception method
US20090241163A1 (en) Broadcast picture display method and a digital broadcast receiver using the same
CN108810656B (en) Real-time live broadcast TS (transport stream) jitter removal processing method and processing system
JP4362734B2 (en) Synchronous playback system
JP2012049836A (en) Video/audio output apparatus, video/audio output system and master apparatus
KR20070008069A (en) Appratus and method for synchronizing audio/video signal
JP4256710B2 (en) AV transmission method, AV transmission device, AV transmission device, and AV reception device
JP3906712B2 (en) Data stream processing device
JP4903930B2 (en) Signal processing device
JP4359024B2 (en) Synchronous control method and apparatus, synchronous playback apparatus and television receiver using the same
JP2007201983A (en) Broadcast station synchronization method, and control apparatus
JP4192766B2 (en) Receiving apparatus and method, recording medium, and program
WO2013150852A1 (en) Device and method for digital data distribution, device and method for digital data reproduction, synchronized reproduction system, program, and recording medium
US20100166382A1 (en) Video and audio reproduction system, distribution device, and synchronization adjustment method