CN1868213B

CN1868213B - 内容接收设备、视频/音频输出定时控制方法及内容提供系统

Info

Publication number: CN1868213B
Application number: CN2004800299412A
Authority: CN
Inventors: 塚越郁夫; 高田信司; 后藤晃一
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-09-02
Filing date: 2004-07-22
Publication date: 2010-05-26
Anticipated expiration: 2024-07-22
Also published as: CN1868213A; KR20060134911A; WO2005025224A1; TWI256255B; EP1662793B1; EP1662793A1; TW200511853A; US20070092224A1; US7983345B2; EP1662793A4

Abstract

在解码器方稳妥地调节视频和音频之间的声像同步是可能的。内容接收设备从编码器方接收并解码多个赋予了视频时间戳VTS的编码视频帧以及多个赋予了音频时间戳ATS的编码音频帧。积累作为结果得到的多个视频帧VF1和音频帧AF1；用呈现器(37、67)来计算时间差，该差值是由在编码器方的基准时钟的时钟频率和在解码器方的系统时钟(stc)的时钟频率的差别产生的；根据此时间差，并按照当以帧为单位连续地输出多个音频帧AF1时的音频帧输出定时，来调节当以帧为单位连续地输出多个视频帧VF1时的视频帧输出定时。因此，在保持声音连续性的同时能够执行声像同步。

Description

内容接收设备、视频/音频输出定时控制方法及内容提供系统

技术领域

本发明涉及内容接收设备、视频/音频输出定时控制方法、内容提供系统，并且适用于在接收内容的解码器方上消除视频和音频的声像同步误差的情况。

背景技术

一般说来，在接收和解码来自编码器方的服务器上的内容时，内容接收设备分解和解码组成内容的视频分组和音频分组，根据附加在视频分组上的视频时间戳和附加在音频分组上的音频时间戳来输出视频帧和音频帧，以使得视频输出定时和音频输出定时相匹配(这就是说，声像同步)(例如，参见专利文件1)。

专利文件1：已公开的日本专利No.8-280008。

照此，在采用这样配置的内容接收设备中，解码器方的系统时钟和编码方的基准时钟可能彼此不同步。此外，由于系统时钟的抖动，解码器方的系统时钟和编码器方的基准时钟可能有稍微不同的时钟频率。

此外，在内容接收设备中，视频帧和音频帧有不同的数据长度。因此，当解码器方的系统时钟和编码器方的基准时钟彼此不同步时，即使根据视频时间戳和视频时间戳来输出视频帧和视频帧，视频输出定时和音频输出定时也不匹配，从而会引起声像同步误差，这就是一个问题。

发明内容

鉴于以上所述做出了本发明，并且提出了一种内容接收设备、视频/音频输出定时控制方法和内容提供系统，它们能够正确地调节解码器方的视频信号和音频信号的声像同步而不会使作为观众的用户感到不舒服。

为了解决上面的问题，本发明提出了内容接收设备，包括：解码装置，用于从编码器方的内容提供设备接收和解码，基于编码器方的基准时钟顺序赋予了视频时间戳的多个编码视频帧，和基于基准时钟顺序赋予了音频时间戳的多个编码音频帧；存储装置，用于存储用所述解码装置来解码所述编码视频帧和编码音频帧而得到的多个视频帧和多个音频帧；接收装置，用于接收由所述内容提供设备按照UDP发送的所述编码器方的基准时钟；计算装置，用于比较解码器方的系统时钟和所述编码器方的基准时钟，并计算时间差，该时间差是由于在所述编码器方的基准时钟的时钟频率和在所述解码器方的系统时钟的时钟频率之间的差别而引起的；定时调节装置，用于根据时间差，基于用于逐帧地顺序输出多个音频帧的音频帧输出定时，来调节用于逐帧地顺序输出多个视频帧的视频帧输出定时。

根据由于编码器方的基准时钟的时钟频率和解码器方的系统时钟的时钟频率之间的差别而引起的时间差，基于用于逐帧地顺序输出多个音频帧的音频帧输出定时，来调节用于逐帧地顺序输出多个视频帧的视频帧输出定时，以便吸收在编码器方和解码器方之间的时钟频率差，从而将视频帧输出定时调节到音频帧输出定时，以用于声像同步。

进而，本发明还提出了视频/音频输出定时控制方法，包括：解码步骤，用于让解码装置从编码器方的内容提供设备上接收和解码根据编码器方的基准时钟顺序赋予了视频时间戳的多个编码视频帧，以及根据基准时钟顺序赋予了音频时间戳的多个编码音频帧；存储步骤，用于使存储装置存储多个视频帧和多个音频帧，这些视频帧和音频帧是在所述解码步骤通过解码编码了的视频帧和编码了的音频帧而得到的；接收步骤，用于接收由所述内容提供设备按照UDP发送的所述编码器方的基准时钟；差值计算步骤，用于比较解码器方的系统时钟和所述编码器方的基准时钟，并让计算装置计算时间差，该时间差是由于所述编码器方的基准时钟的时钟频率和所述解码器方的系统时钟的时钟频率之间的差别而引起的；定时调节步骤，用于让定时调节装置根据时间差，基于用于逐帧顺序输出多个音频帧的音频帧输出定时，来调节用于逐帧顺序输出多个视频帧的视频帧输出定时。

进而，根据本发明，在包括内容提供设备和内容接收设备的内容提供系统中，所述内容提供设备包括：编码装置，用于根据编码器方的基准时钟生成多个赋予了视频时间戳的编码视频帧，并根据基准时钟生成多个赋予了音频时间戳的编码音频帧；第一传输装置，用于向所述内容接收设备顺序发送多个编码视频帧和多个编码音频帧；以及第二传输装置，用于按照UDP发送编码器方的基准时钟；并且所述内容接收设备包括：解码装置，用于从所述编码器方的所述内容提供设备接收和解码顺序赋予了视频时间戳的多个编码视频帧和顺序赋予了音频时间戳的多个编码音频帧；存储装置，用于存储多个视频帧和多个音频帧，这些视频帧和音频帧是通过用所述解码装置来解码编码了的视频帧和编码了的音频帧而得到的；计算装置，用于计算时间差，该时间差是由于所述编码器方的基准时钟的时钟频率和解码器方的系统时钟的时钟频率之间的差别而引起的；定时调节装置，用于根据所述时间差，基于用于逐帧顺序输出多个音频帧的音频帧输出定时，来调节用于逐帧顺序输出多个视频帧的视频帧输出定时。

根据如上所述的本发明，根据由于编码器方的基准时钟的时钟频率和解码器方的系统时钟的时钟频率之间的差别而引起的时间差，基于用于逐帧地顺序输出多个音频帧的音频帧输出定时，来调节用于逐帧地顺序输出多个视频帧的视频帧输出定时，以便吸收在编码器方和解码器方之间的时钟频率差，从而将视频帧输出定时调节到音频帧输出定时，以用于声像同步。结果，能够实现内容接收设备、视频/音频输出定时控制方法和内容提供系统，它们能够正确地在解码器方调节视频和音频的声像同步，而不会使作为观众的用户感到不舒服。

附图说明

图1是示意性的方块图，该图示出了内容提供系统的整体结构，用以显示整个的数据流系统。

图2是示意性的方块图，该图示出了内容提供设备的电路系统。

图3是一个示意图，该图示出了音频分组和视频分组的时间戳(TCP协议)的结构。

图4是示意性的方块图，该图示出了在第一内容接收设备中的流解码器的模块结构。

图5是一个示意图，该图说明了在预编码的流中的视频帧和音频帧的输出定时。

图6是一个示意性的流程图，该图示出了在预编码的流中声像同步的调节程序步骤。

图7是一个示意性的方块图，该图示出了在第一内容接收设备中的实时流编码器的电路系统。

图8是一个示意图，该图示出了控制分组的PCR(UDP协议)的结构。

图9是一个示意性的方块图，该图示出了第二内容接收设备中的实时流解码器的电路系统。

图10是一个示意图，该图说明了在直播(live)流中的视频帧和音频帧的输出定时。

图11是一个流程图，该图示出了在直播流中的声像同步的调节程序。

具体实施方式

在下文中将参照附图来详细说明本发明的一个实施例。

(1)内容提供系统的整体结构

参见图1，标号1表明了本发明的内容提供系统，它大致包括：作为内容分发方的内容提供设备2、作为内容接收方的第一内容接收设备3和第二内容接收设备4。

在内容提供系统1中，内容提供设备2和第一内容接收设备3通过因特网5彼此相连。例如，能够实现如像视频点播(VOD)之类的预编码的流，这种流分发来自内容提供设备2的内容，以响应来自第一内容接收设备3的请求。

在内容提供设备2中，流服务器8对已编码的基本流ES进行分组，并将其存储在编码器7中，并通过因特网5向第一内容接收设备3分发结果。

在第一内容接收设备3中，流解码器9通过解码基本流ES来恢复原始的视频和音频，然后从监视器10上输出原始的视频和音频。

此外，在内容提供系统1中，第一内容接收设备3和第二内容接收设备4通过在标准，例如IEEE(电气与电子工程师协会)802.11a/b/q之下的无线局域网6彼此连接。第一内容接收设备3能够实时编码接收到的内容，这些内容是由数字地面、BS(广播卫星)/CS(通信卫星)的数字或模拟的地面广播提供的，或者是来自DVD(数字多功能盘)、视频CD和普通的视频摄像机的内容，然后由无线电将这些内容传送给第二内容接收设备4。

在此连接中，第一内容接收设备3和第二内容接收设备4不一定要通过无线局域网(LAN)6来连接，也可以通过有线局域网(LAN)来连接。

第二内容接收设备4用实时流解码器12解码来自第一内容接收设备3的内容，以便进行流的再现，并向监视器13输出再现结果。

因此，在第一内容接收设备3和第二内容接收设备4之间，第一内容接收设备3实时编码接收到的内容，并将结果传送到第二内容接收设备4，然后，由第二内容接收设备4进行流再现，以实现直播流。

(2)内容提供设备的结构

参见图2，内容提供设备2包括编码器7和流服务器8。将所接收的视频信号VS1通过视频输入单元21发送到视频编码器22。

视频编码器22用在MPEG1/2/4(活动图像专家组)标准之下的规定的压缩-编码方法或其它的压缩-编码方法来压缩和编码视频信号VS1，并将最后得到的视频基本流VES1发送给含有环形缓冲区的视频ES存储单元23。

一旦视频ES存储单元23存储视频基本流VES1，就将视频基本流VES1发送给流服务器8的分组生成器27和视频帧计数器28。

视频帧计数器28基于帧频(29.97[Hz]，30[Hz]，59.94[Hz]或60[Hz])计数视频基本流VES1，并按照基准时钟将计数值转换为以90[Khz]为单位的值，然后，将所得到的结果作为相应视频帧的、以32位表示的视频时间戳VTS(VTS1，VTS2，VTS3，...)发送给分组生成器27。

与此相反，内容提供设备2将所接收的音频信号AS1通过流编码器7的音频输入单元24发送给音频编码器25。

音频编码器25用在MPEG1/2/4音频标准之下的规定的压缩-编码方法或其它的压缩-编码方法来压缩和编码音频信号AS，并将最后得到的音频基本流AES1发送给含有环形缓冲区的音频ES存储单元26。

一旦音频ES存储单元26存储音频基本流AES1，就将音频基本流AES1发送给流服务器8的分组生成器27和音频帧计数器29。

与视频帧计数器28相似，音频帧计数器29根据与视频共用的基准时钟将音频帧的计数值转换成以90[KHz]为单位的一个值，并将所得到的结果作为所述音频帧的、以32位表示的音频时间戳ATS(ATS1，ATS2，ATS3，...)发送给分组生成器27。

分组生成器27将视频基本流VES1分离成若干个具有规定数据大小的分组，并通过在每个分组上增加视频报头(header)信息来生成视频分组。此外，分组生成器27将音频基本流AES1分离成若干个具有规定数据大小的分组，并通过在每个分组上增加音频报头信息来生成音频分组。

参照图3，音频分组和视频分组中的每一个都包括：IP(因特网协议)报头、TCP(传输控制协议)报头、RTP(实时传输协议)报头和RTP有效负荷。将上述的音频时间戳ATS或视频时间戳VTS写在RTP报头中的占4字节的时间戳区域中。

然后，分组生成器27根据视频分组和视频时间戳VTS来生成规定字节的视频分组数据，并根据音频分组和音频时间戳ATS来生成规定字节的音频分组数据，并通过多路复用它们来生成多路复用数据MXD1，并将此数据发送给分组数据存储单元30。

在存储规定数量的多路复用数据MXD1时，分组数据存储单元30按照RTP/TCP(实时传输协议/传输控制协议)并通过因特网5向第一内容接收设备3以分组发送多路复用数据MXD1。

(3)第一内容接收设备中的流解码器的模块结构

参照图4，一旦第一内容接收设备3将按照RTP/TCP从内容提供设备2上接收到的多路复用数据MXD1存储在输入分组存储单元31中，就将它发送给分组分离器32。

分组分离器32将多路复用数据MXD1分离成视频分组数据VP1和音频分组数据AP1，并进而将音频分组数据AP1分成音频分组和音频时间戳ATS，并通过含有环状缓冲区的输入音频缓冲器33将这些音频分组基于音频帧发送给音频解码器35，并将音频时间戳ATS发送给呈现器(renderer)37。

此外，分组分离器32将视频分组数据VP1分成视频分组和视频时间戳TS，并通过含有环状缓冲区的输入视频缓冲器34将这些视频分组基于帧发送给视频解码器36，并将视频时间戳VTS发送给呈现器37。

音频解码器35基于音频帧对音频分组数据AP1进行解码，以便在压缩-编码处理以前恢复音频帧AF1，并将它们顺序发送给呈现器37。

视频解码器36对视频分组数据VP1基于视频帧进行解码，以便在压缩-编码处理以前恢复视频帧VFI，并将它们顺序发送给呈现器37。

呈现器37将音频时间戳ATS存储在队列中(未示出)，并将音频帧AF1暂时存储在含有环形缓冲区的输出音频缓冲器38中。同样地，呈现器37将视频时间戳VTS存储在队列中(未示出)，并将视频帧VF1暂时存储在含有环形缓冲区的输出视频缓冲器39中。

为了让要输出到监视器10中的音频帧AFI的音频和视频帧VFI的视频声像同步，呈现器37基于音频时间戳ATS和视频时间戳VTS来调节最后的输出定时，然后按照输出定时从输出视频缓冲器39和输出音频缓冲器38上顺序输出视频帧VF1和音频帧AF1。

(4)解码器方的声像同步调节程序步骤

(4-1)预编码的流中的视频帧和音频帧的输出定时调节方法

如图5所示，呈现器37首先利用在时间Ta1，Ta2，Ta3，...上的音频时间戳ATS(ATS1，ATS2，ATS3，...)预置通过晶体振荡器电路40和系统时钟电路41接收的系统时钟stc的值，以便将由音频解码器解码的音频帧AF1(Af1，Af2，Af3，...)顺序输出到监视器10中。换句话说，呈现器37将系统时钟stc的值调节到音频时间戳ATS(ATS1，ATS2，ATS3，...)或者用音频时间戳ATS来替换系统时钟stc的值。

这是因为声音输出的中断或跳跃对用户来说突出，因此，呈现器37必须用音频帧AF1(Af1，Af2，Af3，...)作为声像同步调节过程的基准，将视频帧VF1(Vf1，Vf2，Vf3，...)的输出定时调节为音频帧AF1(Af1，Af2，Af3，...)的输出定时。

在确定音频帧AF1(Af1，Af2，Af3，...)的输出定时(时间Ta1，Ta2，Ta3，...)时，呈现器37在某些时间Tv1，Tv2，Tv3，...上将预置的系统时钟stc的计数值和附加在视频帧VF1(Vf1，Vf2，Vf3，...)上的视频时间戳VTS(VTS1，VTS2，VTS3，...)相比较，以便根据系统时钟stc并按照30[Hz]的帧频来输出视频帧VF1(Vf1，Vf2，Vf3，...)。

预置的系统时钟stc的计数值和视频时间戳VTS(VTS1，VTS2，VTS3，...)的匹配意味着在编码器方给出的音频时间戳ATS(ATS1，ATS2，ATS3，...)和视频时间戳VTS(VTS1，VTS2，VTS3，...)具有相同的暂时对应关系，并且编码器方的基准时钟和解码器方的系统时钟stc具有完全相同的时钟频率。

这就是说，这表明视频和音频是按照相同的定时来输出的，即使在呈现器37按照基于解码器方的系统时钟stc的音频时间戳ATS和视频时间戳VTS的定时向监视器10输出音频帧AF1和视频帧VF1的情况下也是如此。

即使比较结果表明系统时钟stc预置的计数值和视频时间戳VTS(VTS1，VTS2，VTS3，...)不完全匹配，但是，当系统时钟stc预置的计数值和每个视频时间戳VTS(VTS1，VTS2，VTS3，...)之间的差值D1(时间差)是表示规定时间的阈值TH或更低时，用户也不能识别视频和音频不相匹配。在此情况下，呈现器37能够根据视频时间戳VTS(VTS1，VTS2，VTS3，...)向监视器10输出视频帧VF1(Vf1，Vf2，Vf3，...)。

在另一种情况下，这就是说，在时间Tv2上，如果系统时钟stc预置的计数值和例如视频时间戳VTS2之间的差值D1大于阈值TH并且视频在音频之后，则编码器方和解码器方的不同时钟频率会造成视频在音频之后这样情况。在此情况下，呈现器37就跳过与构成GOP(图像组)的B-图像相应的视频帧Vf3而不解码，并输出下一个视频帧Vf4。

另一方面，在时间Tv2上，如果系统时钟stc预置的计数值和例如视频时间戳VTS2之间的差值D1大于所规定的一个阈值TH并且音频在视频之后，则编码器方和解码器方的不同时钟频率会造成音频在视频之后这种情况。在此情况下，呈现器37重复输出被输出的视频帧Vf2。

(4-2)预编码的流中的声像同步的调节程序步骤

如像上述的视频和音频的声像同步那样，下面将概述由流解码器9的呈现器37根据音频帧AF1(Af1，Af2，Af3，...)的输出定时来调节视频帧VF1(Vf1，Vf2，Vf3，...)的输出定时的输出定时调节方法。如图6中的流程图所示，流解码器9的呈现器37进入例程RT1的开始步骤，并继续前进到下一个步骤SP1。

在步骤SP1，为了向监视器10输出音频帧AF1(Af1，Af2，Af3，...)，呈现器37利用在时间Ta1，Ta2，Ta3，...上的音频时间戳ATS(ATS1，ATS2，ATS3，...)的值来预置系统时钟stc的值，然后继续前进到下一个步骤SP2上。

在步骤SP2，呈现器37计算要在时间Tv1，Tv2，Tv3，...上输出的视频帧VF1(Vf1，Vf2，Vf3，...)的时间戳VTS(VTS1，VTS2，VTS3，...)和在时间Tv1，Tv2，Tv3，...上预置的系统时钟stc的计数值之间的差值D1，并继续前进到下一个步骤SP3。

在步骤SP3，呈现器37确定在步骤SP2上计算出的差值D1(绝对值)是否大于所规定的阈值TH。在此，否定结果表明差值D1是某一个时间(例如，100[msec])或更短，并且观看视频和音频的用户不能识别在视频和音频之间的延迟。在此情况下，呈现器37继续前进到下一个步骤SP4。

在步骤SP4，由于只有很小的差值，并且用户不能识别在视频和音频之间的延迟，因此，呈现器37照原样向监视器10输出视频帧VF1，并继续前进到下一个步骤SP8，在此步骤上结束此程序步骤。

相反，在步骤SP3上的肯定结果表示差值D1大于所规定的阈值TH，这就是说，观看视频和音频的用户能够识别在视频和音频之间的延迟。此时，呈现器37继续前进到下一个步骤SP5。

在步骤SP5，呈现器37根据音频时间戳ATS和视频时间戳VTS来确定视频是否在音频之后。如果得到的是否定的结果，呈现器37就继续前进到步骤SP6。

在步骤SP6，由于音频在视频之后，呈现器37就重复输出包括被输出的图像的视频帧VF1，以使得音频赶上视频，然后继续前进到下一个步骤SP8上，并在此步骤上完成此过程。

在步骤SP5上的肯定结果表示视频在音频之后。此时，呈现器37继续前进到下一个步骤SP7，以跳越例如B-图像(视频帧Vf3)而不解码，从而消除延迟，以使得视频能够赶上音频而达到声像同步，然后继续前进到下一个步骤SP8，并在此步骤上完成此过程。

在此情况下，呈现器37并不跳越存储在输出视频缓冲器39中的“p”图像，这是因为它们是用于在视频解码器36中解码下一个的图像的基准帧，但是要跳越不受跳越影响的“B”图像，结果，实现了声像同步，同时预先避免图像质量变坏。

(5)第一内容接收设备中的实时流编码器的电路系统

第一内容接收设备3(图1)能够像内容提供设备那样，对外部提供的内容进行实时编码，这些外部提供的内容包括由数字地面广播、BS/CS的数字或模拟的地面广播提供的内容，或者来自DVD、视频CD和普通的视频摄像机的内容，然后由无线电将这些结果传送给第二内容接收设备4。

下面将参照图7来说明第一内容接收设备3的实时流编码器11的电路系统。实时流编码器11通过视频输入单元41和音频输入单元43将包括外部提供的内容的视频信号VS2和音频信号AS2转换为数字信号，并将这些信号当作为视频数据VD2和音频数据AD2发送给视频编码器42和音频编码器44。

视频编码器42利用在MPEG1/2/4标准之下的规定的压缩-编码方法或另外的压缩-编码方法来压缩和编码视频数据VD2，并将所得到的视频基本流VES2发送到分组生成器46和视频帧计数器47上。

视频帧计数器47基于帧频(29.97[Hz]，30[Hz]，59.94[Hz]或60[Hz])来计算视频基本流VES2，并根据基准时钟将计算出的值转换为以90[KHz]为单位的数值，并将所得到的结果作为视频帧的、以32位表示的视频时间戳VTS(VTS1，VTS2，VTS3，...)发送给分组生成器46。

音频编码器44利用在MPEG1/2/4音频标准之下的规定的压缩-编码方法或另外的压缩-编码方法来压缩和编码音频数据AD2，并将所得到的基本音频数据流AES2发送到分组生成器46和音频帧计数器48上。

与视频帧计数器47相似，音频帧计数器48根据共用的基准时钟将计算出的音频帧的值转换为以90[KHz]为单位的值，将具有32位的结果表示为音频时间戳ATS(ATS1，ATS2，ATS3，...)，然后将它们发送给分组生成器46。

分组生成器46将视频基本流VES2分成为具有规定数据大小的分组，以便通过将视频报头信息加到每个分组上来生成视频分组，并将音频基本流AES2分成为若干个具有规定数据大小的分组，以便通过将音频报头信息加到每个分组上来生成音频分组。

如图8所示，控制分组包括IP(因特网协议)报头、UDP(用户数据报协议)报头、RTCP(实时控制协议)分组发送方报告以及RTCP分组。在RTCP分组发送方报告的发送方信息中，将编码器方的系统时钟(STC)值的快照信息(snap shot information)作为PCR值写在4字节的RTP时间戳区域中，并从PCR电路41发送出去，以供解码器方的时钟恢复之用。

然后，分组生成器46根据视频分组和视频时间戳VTS来生成规定字节的视频分组数据，并根据音频分组和视频时间戳ATS来生成规定字节的音频分组数据，如图3所示，通过多路复用它们来生成多路复用的数据MXD2，然后将该数据发送给分组数据存储单元49。

在存储具有规定数据量的多路复用数据MXD2时，分组数据存储单元49通过无线局域网6并遵照RTP/TCP协议向第二内容接收设备4一分组一分组地发送多路复用数据MXD2。

附带地，实时流编码器也向PLL(锁相回路)电路45提供由视频输入单元41数字化了的视频数据VD2。PLL电路45根据视频数据VD2来同步系统时钟电路50与视频数据VD2的时钟频率，并使视频编码器42、音频输入单元43和音频编码器44与视频数据VD2的时钟频率同步。

因此，实时流编码器11能够按照与视频数据VD2的时钟频率同步的定时，并通过PLL电路45来压缩和编码视频数据VD2和音频数据AD2，并通过PCR(程序时钟基准)电路51向第二内容接收设备4的实时流解码器12发送与视频数据VD2的时钟频率同步的时钟基准pcr。

此时，PCR电路51遵照比RTP协议更低层的UDP(用户数据报协议)向第二内容接收设备4的实时流解码器12发送时钟基准pcr，从而能够在保证高速特性的同时处置需要实时处理的直播流。

(6)第二内容接收设备的实时流解码器的电路系统

如图9所示，一旦第二内容接收设备4的实时流解码器12将从第一内容接收设备3的实时流编码器11上接收到的多路复用数据MXD2存储在输入分组存储单元61，就将其发送给分组分离器62。

分组分离器62将多路复用数据MXD2分为视频分组数据VP2和音频分组数据AP2，并进而将音频分组数据AP2分成音频分组和音频时间戳ATS，并基于音频帧经由包含环形缓冲区的输入音频缓冲器63将音频分组发送给音频解码器64，并将音频时间戳ATS发送给呈现器67。

此外，分组分离器62将视频分组数据VP2分为视频分组和视频时间戳VTS，并通过包含环形缓冲区的输入视频缓冲器将视频分组逐帧地发送给视频解码器66，并将视频时间戳VTS发送给呈现器67。

音频解码器64基于音频帧解码音频分组数据AP2，以便在压缩-编码之前恢复音频帧AF2，并将它们顺序发送给呈现器67。

视频解码器66基于视频帧解码视频分组数据VP2，以便在压缩-编码之前恢复视频帧VF2，并将它们顺序发送给呈现器67。

呈现器67将音频时间戳ATS存储在队列中，并将音频帧AF2暂时存储在含有环形缓冲区的输出音频缓冲器68中。此外，与此相似，呈现器67也将视频时间戳VTS存储在队列中，并将视频帧VF2暂时存储在含有环形缓冲区的输出视频缓冲器69中。

呈现器67根据音频时间戳ATS和视频时间戳VTS来调节最终的输出定时，以使得要输出到监视器13中的视频帧VF2的视频和音频帧AF2的音频能够声像同步，然后，在输出定时，将视频帧VF2和音频帧AF2从输出视频缓冲器69和输出音频缓冲器68输出到监视器13。

附带地，实时流解码器12接收一个时钟基准pcr并将其输出到减法电路71，而该时钟基准pcr是按照UDP从第一内容接收设备3的实时流编码器11的PCR电路51发出的。

减法电路71计算在由系统时钟电路74提供的系统时钟stc和时钟基准pcr之间的差值，并通过滤波器72、电压控制晶体振荡器电路73和系统时钟电路74将其反馈到减法电路71中，以形成PLL(锁相回路)，并将该差值逐渐会聚在实时流编码器11的时钟基准pcr上，最后，将系统时钟stc提供给呈现器67，在此，系统时钟stc基于时钟基准pcr与实时流编码器11同步。

因此，呈现器67能够压缩和编码在第一内容接收设备3的实时流编码器11中的视频数据VD2和音频数据AD2，并根据系统时钟stc调节视频帧VF2和音频帧AF2的输出定时，在此，系统时钟stc与用于计算视频时间戳VTS和音频时间戳ATS的时钟频率同步。

实际上，呈现器67被设计来将音频帧AF2暂时存储在包含环形缓冲区的输出音频缓冲器68中，并将视频帧VF2暂时存储在包含环形缓冲区的输出视频缓冲器69中，并通过使用由实时流编码器11的PCR电路51提供的时钟基准pcr，按照基于与编码器方同步的系统时钟stc的音频时间戳ATS和视频时间戳VTS来调节输出定时，以便输出声像同步的视频和音频。

(7)解码器方的声像同步的调节过程

(7-1)直播流中的视频帧和音频帧的输出定时调节方法

如图10所示，在此情况下，呈现器67利用PPL将系统时钟stc的时钟频率锁定为时钟基准pcr的值，国时钟基准pcr是由实时流编码器11的PCR电路51按预定的周期提供，然后，通过监视器13按照与系统时钟stc同步的音频时间戳ATS和视频时间戳VTS控制音频帧AF2和视频帧VF2的输出。

这就是说，在将系统时钟stc的时钟频率调节为时钟基准pcr的值的情况下，呈现器67根据系统时钟stc和音频时间戳ATS(ATS1，ATS2，ATS3，...)向监视器13顺序输出音频帧AF2(Af1，Af2，Af3，...)。

如上所述，时钟基准pcr的值和系统时钟stc的时钟频率彼此同步。例如，就系统时钟stc的计数值和视频时间戳VTS(VTS1，VTS2，VTS3，...)而言，系统时钟stc的计数值和视频时间戳VTS1之间的差值D2V并不是在时间Tv1上产生的。

然而，在按照UDP发送由实时流编码器11的PCR电路51提供的时钟基准pcr的情况下，由于强调高速特性，并不控制时钟基准pcr的重新发送。因此，时钟基准值pcr可能不会到达第二内容接收设备4的实时流解码器12上，或者即使到达那里也带有误差数据。

在这样的情况下，可以通过PLL改变时钟基准pcr的值和系统时钟stc的时钟频率之间的同步，在此，时钟基准pcr的值由实时流编码器11的PCR电路51按照规定的周期提供。在此情况下，本发明的呈现器67也能够确保声像同步。

在本发明中，当在系统时钟stc和音频时间戳ATS与视频时间戳VTS之间出现延迟时，在声像同步中，就要优先考虑音频输出的连续性。

在音频帧AF2的输出定时Ta2上，呈现器67比较系统时钟stc的计数值和音频时间戳ATS2，并存储它们的差值D2A。另一方面，在视频帧VF2的输出定时Tv2上，呈现器67比较系统时钟stc的计数值和视频时间戳VTS，并存储它们的差值D2V。

此时，当时钟基准pcr确实到达了第二内容接收设备4的实时流解码器12时，通过PLL使时钟基准pcr的值和实时流解码器12的系统时钟stc的时钟频率完全匹配，并且包括监视器13在内的解码器方与系统时钟stc同步，差值D2V和D2A就变成了“0”。

当差值D2A是正值时，确定音频帧AF2就快速(fast)。当差值D2A是负值时，确定音频帧AF2就延迟(late)。同样地，当差值D2V是正值时，确定视频帧VF2就快速。当差值D2V是负值时，确定视频帧VF2就延迟。

在音频帧AF2较快或较慢时，呈现器67就将优先级给予连续的音频输出，并相对地参照音频帧AF2按如下方式来控制视频帧VF2的输出。

例如，如果|D2V-D2A|大于阈值TH而且差值D2V大于差值D2A，就表示视频跟不上音频。在此情况下，呈现器67就跳越与包括GOP(图像组)的B-图像相应的视频帧Vf3而不解码，并输出下一个视频帧Vf4。

如果|D2V-D2A|大于阈值TH而且差值D2A大于差值D2V，就表示音频跟不上视频。在此情况下，呈现器67就重复输出被输出的视频帧Vf2。

如果|D2V-D2A|小于阈值TH，就表示视频和音频之间的延迟位于可允许的范围之内。在此情况下，呈现器67就照原样向监视器13输出视频帧VF2。

(7-2)直播流中的声像同步调节程序步骤

下面将要概述输出定时调节方法，用于在实时流解码器12的呈现器67进行上述的直播流再现时，为了视频和音频的声像同步，根据音频帧AF2调节视频帧VF2的输出定时。如图11的流程图所示，实时流解码器12的呈现器67进入例程RT2的开始步骤，并继续前进到下一个步骤SP11。

在步骤SP11，第二内容接收设备4的实时流解码器12的呈现器67从第一内容接收设备3的实时流编码器11的PCR电路51接收时钟基准pcr，并继续前进到下一个步骤SP12。

在步骤SP12，呈现器67利用由减法电路71、滤波器72、电压控制晶体振荡器电路73和系统时钟电路74组成的PLL(锁相回路)来使系统时钟stc与时钟基准pcr同步，然后，用与时钟基准pcr同步的系统时钟stc作为调节输出定时的基准，并继续前进到下一个步骤SP13。

在步骤SP13，呈现器67在时间Tv1，Tv2，Tv3，...上计算在系统时钟stc的计数值和视频时间戳VTS之间的差值D2V，并在时间Ta1，Ta2，Ta3，...上计算系统时钟stc的计数值和音频时间戳ATS之间的差值D2A，然后继续前进到下一个步骤SP14。

在步骤SP14，呈现器67比较在步骤SP13计算出的差值D2V和D2A。如果差值D2V比差值D2A大一个阈值TH(例如，100[msec])或更大，呈现器67就确定视频在音频之后，并继续前进到下一个步骤SP15。

在步骤SP15，由于确定了视频在音频之后，呈现器67就跳越例如一个B-图像(视频帧Vf3)而不解码并进行输出，以使得视频能够赶上音频，从而达到声像同步。然后，呈现器67继续前进到下一个步骤SP19，并在此步骤上完成此过程。

在此情况下，呈现器67不跳越“p”图像，这是因为它们可以是下一个图像的基准帧，但是，跳越不受跳越影响的“B”图像，结果导致既能调节声像同步同时在先预防图像质量变坏。

当在步骤SP14确定差值D2V比差值D2A不大于一个阈值TH(例如100[msec])或更大时，呈现器67就继续前进到下一个步骤SP16。

当在步骤SPI6确定差值D2A比差值D2V大一个阈值TH(例如100[msec])或更大时，呈现器67就确定视频快于音频，并继续前进到下一个步骤SP17。

由于视频快于音频，呈现器67就重复输出组成一个被输出的图像的视频帧VF2，以便在步骤SP17音频赶上视频，并继续前进到下一个步骤SP19，并在此步骤上完成此过程。

当在步骤SP16确定差值D2A与差值D2V之差在阈值TH之内时，就确定在音频和视频之间没有延迟。在此情况下，该过程继续前进到下一个步骤SP18。

在步骤SP18，由于考虑到在音频和视频之间没有延迟，呈现器67就根据与时钟基准pcr同步的系统时钟stc照原样向监视器13输出视频帧VF2，然后继续前进到下一个步骤SP19上，并在此步骤上结束此过程。

应当说明的是，呈现器67被设计来在上述的任何情况下照原样输出音频，以保持声音的连续性。

如上所述，第二内容接收设备4的实时流解码器12的呈现器67使得实时流解码器12的系统时钟stc与第一内容接收设备3的实时流编码器11的时钟基准pcr同步，以便实现直播流的再现。此外，即使在不控制时钟基准pcr以便时钟基准重新发送而且不到达的情况下，呈现器67也要根据音频时间戳ATS和视频时间戳VTS之间的延迟相对于系统时钟stc来执行声像同步调节，结果在恰当地再现直播流中实现了声像同步。

(8)操作和效果

根据上述的配置，在某些时间Ta1，Ta2，Ta3...上输出音频帧AF2(Af1，Af2，Af3，...)时，第一内容接收设备3的流解码器9根据音频时间戳ATS(ATS1，ATS2，ATS3，...)来预置系统时钟stc。

然后，流解码器9的呈现器37计算利用音频时间戳ATS(ATS1，ATS2，ATS3，...)预置的系统时钟stc的计数值和加在视频帧VF1(Vf1，Vf2，Vf3，...)上的视频时间戳VTS(VTS1，VTS2，VTS3，...)之间的差值D1，以便识别由于在附加视频时间戳VTS的编码器方的时钟频率和解码器方的系统时钟stc的时钟频率之间的差别而引起的时间差。

接着，流解码器9的呈现器37根据差值D1重复输出视频帧VF2的当前图像，或者跳过例如一个B-图像而不解码并进行输出，以便在保持要输出到监视器10上的音频的连续性的同时，将视频的输出定时调节到音频上。

当差值D1是阈值TH或更小，并且用户不能识别声像同步误差时，呈现器37就能够根据视频时间戳VTS(VTS1，VTS2，VTS3，...)进行输出而不用重复输出并跳过再现。在此情况下，能够保持视频连续。

进而，第二内容接收设备4的实时流解码器12的呈现器67能够使解码器方的系统时钟stc与由第一内容接收设备3的实时流编码器11的PCR电路51提供的时钟基准pcr同步，并根据音频时间戳ATS和视频时间戳VTS向监视器13输出音频帧AF2和视频帧VF2，从而，在保持实时特性的同时，能够实现直播流的再现。

此外，即使在因为没有按照EDP来重新发送由第一内容接收设备3的实时流编码器11的PCR电路51提供的时钟基准pcr，因而时钟基准pcr没有到达而不能实行系统时钟stc和时钟基准pcr同步的情况下，第二内容接收设备4的实时流解码器12的呈现器67也计算在系统时钟stc和视频时间戳VTS之间的差值D2V以及在系统时钟stc和音频时间戳ATS之间的差值D2A，以便根据差值D2V和差值D2A之间的差来调节视频帧VF2的输出定时，从而在保持要输出到监视器13上的音频连续的同时，能够相对于音频的来调节视频的输出定时。

根据上述的配置，第一内容接收设备3的流编码器9的呈现器37和第二内容接收设备4的实时流解码器12的呈现器67能够根据音频帧AF1和AF2的输出定时来调节视频帧VF1和VF2的输出定时，从而在保持声音连续的同时，能够实现声像同步而不让作为观众的用户感到不舒服。

(9)其它实施例

注意到，上述的实施例说明了一种情况，这就是在编码器方的时钟频率和解码器的时钟频率之间的差值通过按照基于音频帧AF1、AF2的差值D1或D2V与D2A来调节声像同步而吸收。然而，本发明并非仅限于此，本发明还能够吸收在编码器方的时钟频率和解码器方的时钟频率之间的微小差别，这种差异是由于时钟抖动和网络抖动引起的。

进而，上述的实施例说明了一种情况，这就是通过由因特网5连接内容提供设备2和第一内容接收设备3来实现预编码的流。然而，本发明并非仅限于此，通过由因特网5连接内容提供设备2和第二内容接收设备4也能够实现预编码的流，或者，通过从内容提供设备2通过第一内容接收设备3向第二内容接收设备4提供内容也能实现预编码的流。

此外，上述的实施例说明了一种情况，这就是在第一内容接收设备3和第二内容接收设备4之间执行直播流。然而，本发明并非仅限于此，也能够在内容提供设备2和第一内容接收设备3之间或者在内容提供设备2和第二内容接收设备4之间执行直播流。

此外，上述的实施例说明了一种情况，这就是跳越B-图像并进行输出。然而，本发明并非仅限于此，可以通过跳越紧接在I-图像前面的p-图像来进行输出。

这是因为，紧靠在I-图像前面的p-图像不被引用来生成下一个I-图像。这就是说，如果跳越了这些p-图像，并不影响I-图像的生成而且图像质量也不会变坏。

此外，上述的实施例说明了一种情况，这就是跳越视频帧Vf3而不解码并向监视器10进行输出。然而，本发明并非仅限于此，在解码之后，在从输出视频缓冲器39上输出视频帧Vf3的阶段中，可以通过跳越经解码的视频帧Vf3来进行输出。

此外，上述的实施例说明了一种情况，这就是向监视器10、13输出所有的音频帧AF1、AF2，以便用这些音频帧来作为进行音像同步调节的基准。然而，本发明并非仅限于此，在存在有不含声音的音频帧的情况下，可以通过跳越该音频帧来进行输出。

此外，上述的实施例还说明了一种情况，这就是根据本发明的内容接收设备包括：作为解码装置的音频解码器35、64和视频解码器36、66；作为存储装置的输入音频缓冲器33、63和输出音频缓冲器38、68；作为计算装置和定时调节装置的呈现器37、67。然而，本发明并非仅限于此，内容接收设备也可有另外一种电路系统。

产业上的可利用性

例如，本发明的内容接收设备、视频/音频输出定时控制方法和内容提供系统可用于从一个服务器上，连同声音一起，下载并显示运动图像内容。

Claims

1.一种内容接收设备，包括：

解码装置，用于从编码器方的内容提供设备接收和解码，基于编码器方的基准时钟顺序赋予了视频时间戳的多个编码视频帧，和基于基准时钟顺序赋予了音频时间戳的多个编码音频帧；

存储装置，用于存储用所述解码装置来解码所述编码视频帧和编码音频帧而得到的多个视频帧和多个音频帧；

接收装置，用于接收由所述内容提供设备按照UDP发送的所述编码器方的基准时钟；

计算装置，用于比较解码器方的系统时钟和所述编码器方的基准时钟，并计算时间差，该时间差是由于在所述编码器方的基准时钟的时钟频率和在所述解码器方的系统时钟的时钟频率之间的差别而引起的；

定时调节装置，用于根据时间差，基于用于逐帧地顺序输出多个音频帧的音频帧输出定时，来调节用于逐帧地顺序输出多个视频帧的视频帧输出定时。

2.如权利要求1的内容接收设备，其中，

当所述时间差短于规定的时间时，所述定时调节装置就根据基于所述解码器方的系统时钟的视频时间戳来输出视频帧。

3.如权利要求1的内容接收设备，其中，

当所述时间差长于规定的时间并且视频时间戳在音频时间戳之后时，所述定时调节装置跳越B-图像的视频帧并进行输出。

4.如权利要求1的内容接收设备，其中，

当所述时间差长于规定的时间并且视频时间戳在音频时间戳之后时，所述定时调节装置就跳越紧靠在I-图像之前的B-图像的视频帧并进行输出。

5.如.权利要求1的内容接收设备，其中，

当所述时间差长于规定的时间并且视频时间戳快于音频时间戳时，所述定时调节装置就重复输出当前图像的视频帧。

6.一种视频/音频输出定时控制方法，包括：

解码步骤，用于让解码装置从编码器方的内容提供设备上接收和解码根据编码器方的基准时钟顺序赋予了视频时间戳的多个编码视频帧，以及根据基准时钟顺序赋予了音频时间戳的多个编码音频帧；

存储步骤，用于使存储装置存储多个视频帧和多个音频帧，这些视频帧和音频帧是在所述解码步骤通过解码编码了的视频帧和编码了的音频帧而得到的；

接收步骤，用于接收由所述内容提供设备按照UDP发送的所述编码器方的基准时钟；

差值计算步骤，用于比较解码器方的系统时钟和所述编码器方的基准时钟，并让计算装置计算时间差，该时间差是由于所述编码器方的基准时钟的时钟频率和所述解码器方的系统时钟的时钟频率之间的差别而引起的；

定时调节步骤，用于让定时调节装置根据时间差，基于用于逐帧顺序输出多个音频帧的音频帧输出定时，来调节用于逐帧顺序输出多个视频帧的视频帧输出定时。

7.一种内容提供系统，包括内容提供设备和内容接收设备，其中：

所述内容提供设备包括：

编码装置，用于根据编码器方的基准时钟生成多个赋予了视频时间戳的编码视频帧，并根据基准时钟生成多个赋予了音频时间戳的编码音频帧；

第一传输装置，用于向所述内容接收设备顺序发送多个编码视频帧和多个编码音频帧；以及

第二传输装置，用于按照UDP发送编码器方的基准时钟；并且

所述内容接收设备包括：

解码装置，用于从所述编码器方的所述内容提供设备接收和解码顺序赋予了视频时间戳的多个编码视频帧和顺序赋予了音频时间戳的多个编码音频帧；

存储装置，用于存储多个视频帧和多个音频帧，这些视频帧和音频帧是通过用所述解码装置来解码编码了的视频帧和编码了的音频帧而得到的；

计算装置，用于计算时间差，该时间差是由于所述编码器方的基准时钟的时钟频率和解码器方的系统时钟的时钟频率之间的差别而引起的；

定时调节装置，用于根据所述时间差，基于用于逐帧顺序输出多个音频帧的音频帧输出定时，来调节用于逐帧顺序输出多个视频帧的视频帧输出定时。