具体实施方式
DVD音频的数据结构类似于DVD视频的数据结构。因此,DVD音频包括记录音频数据的数据区和在音频数据上记录信息的信息区。DVD播放机可以以DVD音频播放机或DVD音频/视频播放机形式体现。当然,DVD播放机具有确定插入的DVD是DVD音频或是DVD视频的机制。本发明的DVD音频几乎具有与DVD视频相同的结构,利用一些部分地改变了的数据结构获得高质量的音频数据。
图1中所示为记录在DVD音频信息区中的基本文件结构以说明DVD视频和DVD音频的目录结构。目录结构一般包括视频标题集目录(VIDEO_TS),音频标题集目录(AUDIO_TS)和用户定义的目录。每个目录包含多个将要分配其名称的文件。目录结构表示在盘中文件的位置。连接到VIDEO_TS的文件是为DVD视频和DVD视频播放机准备的,而连接到AUDIO_TS的那些文件是为DVD音频和DVD音频播放机准备的。
通常,每个DVD视频和DVD音频都包含VIDEO_TS和AUDIO_TS。然而,DVD视频具有的AUDIO_TS是空白的(存储在DVD视频盘中的数据上的所有信息都包含在VIDEO_TS中);而DVD音频的AUDIO_TS包含关于记录在盘上的音频标题位置的信息,DVD音频的VIDEO_TS包含关于DVD视频播放机中能再现的信息的标题位置的信息(特别的:例如,采样频率)。因此,如果DVD在AUDIO_TS中没有有效数据,就确定为DVD视频,或相反,即,如果DVD播放机在AUDIO_TS中检测到有效数据,则确定该盘为DVD音频。就是说,DVD播放机检测DVD的AUDIO_TS来辨别DVD视频和DVD音频。
在图1中说明DVD视频的逻辑数据结构。DVD视频的逻辑数据结构的概念包括:卷空间结构、视频管理器(VMG)结构、视频标题集(VTS)结构、和视频目标设定(VOBS)结构。
参考图2描述卷空间的逻辑数据结构,它包括卷和文件结构、单独的DVD视频区和DVD另外的区域。将要分配DVD视频数据结构的DVD视频区包括单独的VMG和数量从至少1个到最大99个的VTS。VMG分配在DVD视频区的头部。每个VTS包括3个或12个文件。
参见图3说明VMG和VTS结构,所有VOB记录在相邻块之中。每个VOB包括视频、音频和子图数据。VMG包括作为控制数据的视频管理器信息文件(VMGI)、VOBS的视频管理器菜单文件(VMGM_VOBS)和VGMI备份文件。每个VTS包括作为控制数据的VTSI、VOBS的视频标题集菜单(VTSM_VOBS)、VOBS的视频标题集的标题(VTSTT_VOBS)和VTSI备份文件。VTSTT_VOBS包括多个网孔(C_IDN)。在图中,C_IDN#表示在VOBS中的网孔ID(识别)号码,VOB_IDN#表示在VOBS中的VOB ID号码。
参见图4,VMGI描述有关VIDEO_TS目录的信息。VMGI以视频管理器信息管理表(VMGT_MAT)开始,其后是标题搜索指针表(TT_SRPT)、视频管理器菜单PGCI单元表(VMGM_PGCI_UT)、双亲(parental)管理信息表(PTL_MAIT)、视频标题集属性表(VTS_ATRT)、文本数据管理器(TXTDT_MG)、视频管理器菜单网孔地址表(VMGM_C_ADT),视频管理器菜单视频目标单元地址图(VMGM_VOBU_ADMAP)。
参见图5,以说明在VIDEO_TS目录下的视频标题的搜索信息,TT_SRPT以TT_SRPT信息(TT_SRPTI)开始,其后跟随VIDEO_TS目录下每个标题的标题搜索指针(TT_SRP)。标题号#的范围是从1到99。
参见图6,VTSI提供一个或多个视频标题和视频标题集菜单(VTSM)的信息。VTSI描述这些标题的管理信息,如搜索标题部分(PTT)的信息和再现视频目标设定(VOBS)的信息、视频标题集菜单(VTSM)以及关于VOBS属性的信息。
VTSI以视频标题集信息管理表(VTSI_MAT)开始,其后跟随有视频标题集标题部分搜索指针表(VTS_PTT_SPRT)、视频标题集节目链信息表(VTS_PGCIT)、视频标题集菜单PGCI单元表(VTSM_PGCI_UT)、视频标题集时间图表(VTS_TMAPT)、视频标题集菜单网孔地址表(VTSM_C_ADT)、视频标题集菜单视频目标单元地址图(VTSM_VOBU_ADMAP)、视频标题集网孔地址表(VTS_C_ADT)、视频标题集视频目标单元地址图(VTS_VOBU_ADMAP),如图6中所示。
参见图7,VTSI_MAT描述在VTST中每条信息的开始地址和在VTS中VOBS的属性。在该VTSI_MAT中,RBP516到579的VTS(VTS_AST_ATRT)的音频流属性表存储如图8A中的8个VTS_AST_ATR#0到#7。每个VTS_AST_ATR包括如图8B中排列的8个字节。每个字段值表示VTSM_VOBS音频流的内部信息。参考图8B描述一个VTS_AST_ATR的内容,b63到b61表示音频编码模式,如下面表1所示:
表1
b63-b61 |
音频编码模式 |
000b |
道尔贝AC-3 |
010b |
MPEG-1或无扩展位流的MPEG-2 |
011b |
有扩展位流的MPEG-2 |
100b |
线性PCM音频 |
110b |
DTS(选择) |
111b |
SDDS(选择) |
其它 |
保留 |
b60的多信道扩展用于存储关于是否进行多信道扩展的信息。也就是说,0b表示不选择多信道扩展而1b表示根据图7中VTSI_MAT的RBP792到983中所记录的VTS_MU_AST_ATRT的信息选择多信道扩展。
b59到b58的音频类型如表2中所示。
表2
b59-b58 |
音频类型 |
00b |
不规定 |
01b |
包括的语言 |
其它 |
保留 |
b57至b56的音频应用模式如下列表3中所示。
表3
01b |
卡拉OK模式 |
10b |
环绕模式 |
11b |
保留 |
当音频编码模式是‘000b’时,b55至b54的量化/DRC记录‘11b’。当音频编码模式是‘010b’或‘011b’时,量化/DRC定义为:
00b:在MPEG音频流中不存在动态范围控制数据
01b:在MPEG音频流中存在动态范围控制数据
10b:保留
11b:保留
当音频编码模式是‘100b’时,那么量化/DRC如下面表4中定义的。
表4
b55-b54 |
量化DRC |
00b |
16比特 |
01b |
20比特 |
10b |
24比特 |
11b |
保留 |
b53至b52的采样频率fs如表5中所示。
表5
b53-b52 |
fs |
00b |
48KHz |
01b |
96KHz |
10b |
保留 |
11b |
保留 |
存储在b50至b48中的音频信道数如表6中所示。
表6
b50-b48 |
音频信道号 |
000b |
1ch(单信道) |
001b |
1ch(立体声) |
010b |
3ch(多信道) |
011b |
4ch(多信道) |
100b |
5ch(多信道) |
101b |
6ch(多信道) |
110b |
7ch(多信道) |
111b |
8ch(多信道) |
其它 |
保留 |
此外,图7的VTSI_MAT中的RBP792至983的VTS的多信道音频流属性表提供如图9A中所示的8个音频流VTS_MU_AST_ATR#0到#7。每个VTS_MU_AST_ATR包括如图9B中所示的8字节的VTS_MU_AST_ATR(1)和如图9C和9D中所示的16字节的VTS_MU_AST_ATR(2)。
于是,DVD视频的信息区VIDEO_TS构成如图2到9D中所示。这样的DVD视频既存储视频又存储音频数据,因此不能提供高度量的音频数据。因此,就不可能以DVD的最大速率10.08Mbps在DVD视频上记录音频数据。就是说,在DVD视频上记录音频数据的最大比特速率是6.75Mbps,最大采样频率是96KHz。记录在DVD视频上的线性PCM多信道音频数据如表7中所示。
表7
fs |
Qb |
最大信道数 |
最大比特速率 |
48KHz |
16比特 |
8ch |
6.144Mbps |
48KHz |
20比特 |
6ch |
5.760Mbps |
48KHz |
24比特 |
5ch |
5.760Mbps |
96KHz |
16比特 |
4ch |
6.144Mbps |
96KHz |
20比特 |
3ch |
5.760Mbps |
96KHz |
24比特 |
2ch |
5.760Mbps |
本发明是提供仅记录音频数据不包括视频数据的DVD音频。因此,DVD音频就能够在DVD的最大比特率10.08Mbps的范围内存储多信道音频数据,这种情况不同于DVD视频。于是,DVD音频就可使用最高192KHz的采样频率,并把音频信道数扩展到13。
在DVD音频的信息区中存储的文件结构基本上与图1相同。包括在AUDIO_TS目录中的文件为DVD音频及其播放机提供。因此,DVD音频具有AUDIO_TS和VIDEO_TS,其中VIDEO_TS存储VEG和在DVD视频播放机中可再现的标题的位置信息。AODIO_TS存储AMG和在DVD音频播放机中可再现的标题的位置信息。DVD播放机通过检测音频标题集目录AUDIO_TS的内容确定插入的DVD是否是DVD音频。
参见图10,DVD音频的逻辑数据结构包括卷空间的结构、音频管理器(AMG)的结构、音频标题集(ATS)的结构,和音频目标集(AOBS)的结构。卷空间包括卷和文件结构、单独的DVD音频区和DVD其它区域。被分配DVD音频数据结构的DVD音频区,包括单独的AMG和数量从至少1到最大99个VTSS。AMG分配在DVD音频区的头部,包括2或3个文件。每个VTS包括3个或12个文件。
AMG和ATS类似于DVD视频的VMG和VTS的结构,如图11-17C所示。然而,按照新的DVD音频采样频率,DVD音频的线性PCM和伪无损失音质编码数据(pesudo-lossless psychoacoustic coding-PLPCD)的数据结构不适合处理线性PCM、无损失编码数据或PLPCD。因此,AMG和ATS的数据结构被做成多少有点与VMG和VTS的数据不同。就是说,在VMG和VTS的分配音频属性的部分中,为AMG和ATS扩展了分配采样频率和信道数的部分。
参见图11,用于说明AMG和ATS结构,所有AOB记录在相邻的块中。AMG包括作为控制数据的音频管理器信息文件(AMGI)、AOB的音频管理器菜单文件(AMGM_AOBS)和AGMI备份文件。每个ATS包括作为控制数据的ATSI、AOBS的音频标题菜单(ATSM_AOBS)、AOBS(ATSTT_AOBS)的音频标题集的标题和ATSI备份文件。ATSTT_AOBS包括多个网孔(C_IDN)。在附图中,C_IDN#表示在AOBS中的网孔ID号码,AOB_IDN#表示在AOBS中的AOB ID号码。
参见图12,AMGI描述有关AUDIO_TS目录的信息。AMGI以音频管理器信息管理表(AMGI_MAT)开始,其后跟随:标题搜索指针表(TT_SRPT)、音频管理器菜单PGCI单元表(AMGM_PGCI_UT)、双亲管理信息表(PTL_MAIT)、音频标题集属性表(ATS_ATRT)、文本数据管理器(TXTDT_MG)、音频管理器菜单网孔地址表(AMGM_C_ADT),音频管理器菜单音频目标单元地址图(AMGM_AOBU_ADMAP)。
参见图13,描述在AUDIO_TS目录下的音频标题的搜索信息,TT_SRPT以TT_SRPT信息(TT_SRPTI)开始,后面有在AUDIO_TS目录下的每个标题的标题搜索指针(TT_SRP)。标题号码#范围是从1到99。
参见图14,ATSI为一个或多个音频标题和音频标题集菜单(ATSM)提供信息。ATSI描述例如搜索标题部分(PTT)的信息和再现音频目标集(AOBS)的信息和音频标题集菜单(ATSM),以及AOBS的属性信息的这些标题的管理信息。
ATSI以音频标题集信息管理表(ATSI_MAT)开始,其后跟随如图14中所示的音频标题集的标题部分搜索指针表(ATS_PTT_SPRT),音频标题集节目链信息表(ATS_PGCIT)、音频标题集菜单PGCI单元表(ATSM_PGCI_UT)、音频标题集时间图表(ATS_TMAPT)、音频标题集菜单网孔地址表(ATSM_C_ADT)、音频标题集菜单音频目标单元地址图(ATSM_AOBU_ADMAP)、音频标题集网孔地址表(ATS_C_ADT)、音频标题集音频目标单元地址图(ATS_AOBU_ADMAP)。
参见图15,ATSI_MAT描述在ATSI中每个信息的开始地址和在ATS中AOBS的属性。ATSI_MAT具有RBP260至267的ATSM_AST_ATR、RBP516至579的ATS_AST_ATRT和RBP792至1298的ATS_MU_AST_ATR_EXT。
ATSM_AST_ATR和ATS_AST_ATRT的音频编码模式存储记录在DVD音频中的音频数据的编码信息。本实施例描述在无损失音质编码和伪无损失音质编码(下文称为“音质编码”)音频数据的DVD音频上的记录。另外,假设音质编码模式是以支持无损失音质编码和伪无损失音质编码的DTS编码系统完成的。在这种情况下,DTS编码模式是可选的,如果b63到b61是‘110b’则DTS音频编码模式是被选定的。
对于ATSM_AST_ATR的变化,b55到b48的数据模式和定义均被改变。就是说,改变b53到b52的采样频率数据,在音频信道中包括b51的保留位,如图16中所示。于是,音频采样频率fs的变化如表8中所示。
表8
00b |
0 |
48KHz |
01b |
0 |
96KHz |
10b |
0 |
192KHz |
11b |
0 |
保留 |
另外,音频信道数的变化如表9a和9b中所示。
如图15所示ATSI_MAT中的RBP516到579的ATS_AST_ATRT存储如图17A所示的8个音频流#0到#7的ATS_AST_ATR,其中每个包括如图17B所示的8字节结构,每个字段值用作ATSM_AOBS音频流的内部信息。
表9a
b51-b48 |
音频信道数 |
0000b |
1ch(单声) |
0001b |
2ch(立体声) |
0010b |
3ch(多信道) |
0011b |
4ch(多信道) |
0100b |
5ch(多信道) |
0101b |
6ch(多信道) |
0110b |
7ch(多信道) |
0111b |
8ch(多信道) |
1000b |
9ch(多信道) |
1001b |
10ch(多信道) |
1010b |
11ch(多信道) |
1011b |
12ch(多信道) |
表9b
1100b |
13ch(多信道) |
1101b |
14ch(多信道) |
1110b |
15ch(多信道) |
1111b |
16ch(多信道) |
b55到b48的数据模式和定义的变化如图17B中所示。就是说,在VTS_AST_ATRT的b55到b48中如图8B中所示,在音频信道中包括b51的保留位。因此,音频采样频率fs的变化如表8中所示,而音频信道数的变化如表9a和9b中所示。
在ATS_MU_AST_ATRT中,如图18B和18C中所示的信息被加到图9B和9C的信息。该ATS_MU_AST_ATR(1)和ATS_MU_AST_ATR(2)提供关于最多8个信道的音频数据和信道混合系数的信息,因此就不能提供超过8个信道的线性PCM音频的信息。本发明可提供多达13个信道信息,因此从第9信道到第13信道的信息记录在ATS_MU_AST_ATR(1)和ATS_MU_AST_ATR(2)之后的保留区域中。参见图18A,ATS_MU_AST_ATRT提供13个#0到#12的ATS_MU_AST_ATR,每个具有39字节,以存储关于13个音频信道和混合系数的信息。
每个ATS_MU_AST_ATR包括如图18B中所示的音频信道信息和如图18C中所示的混合系数信息。图18B仅说明扩展的5个音频信道ATS_MU_AST_ATR_EXT(1)的信息,而省略存储8个音频信道数据信息的ATS_MU_AST_ATR(1)。同样,图18C仅说明扩展5个音频信道ATS_MU_AST_ATR_EXT(2)的信息,而省略存储8个音频信道数据信息的ATS_MU_AST_ATR(2)。
ATSI_MAT代表记录在DVD音频上的音频数据的信息,形成每个音频标题的第一部分并且其后有基本的音频数据的AOBS。当然,如图7中所示的VTSI_MAT也代表在记录在DVD视频上的关于视频数据、子图数据和音频数据的信息,形成每个视频标题的第一部分并且其后有基本数据的VOBS。AOBS的构成如图19中所示,提供多个存储音频数据的音频包。同样,VOBS的构成类似于图19,提供多个视频包、子图包和音频包,以分别存储视频数据、子图数据和音频数据。
AOBS的结构类似于VOBS的结构,因此,描述VOBS的结构将帮助理解AOBS的结构。VOBS包括多个视频目标VOB_IDN1到VOB_IDNi,其中每个视频目标依次包括多个网孔C_IDN1到C_IDNj,其中每个网孔依次包括多个视频目标单元VOBU,其中每个视频目标单元依次包括多个视频包。
记录在DVD视频中的视频数据包括多个包,其结构在图20中说明,没有填塞(padding)数据包。参见图20,一个包具有2048字节的大小,包括14字节的包头和2034字节的多个视频、音频、子图、DSI或PCI的数据包。此外,数据包包头包括4字节的包开始码、6字节的SCR、3字节的program_MUX_rate和1字节的填充长度。
参见图21A,线性PCM音频包包括14字节的包头和2034字节的线性音频数据包。音频数据包包括1字节的数据包包头、1字节的子数据流识别(sub_stream_id)、3字节的音频帧信息和1到2013字节的线性PCM音频数据。
参见图21B,道尔贝AC-3音频包包括14字节的包头和2034字节的道尔贝AC-3音频数据包。音频数据包还包括1字节的数据包包头、1字节的子数据流识别、3字节的音频帧信息和1到2016字节的AC-3音频数据。
图21C说明没有扩展比特流的MPEG-1或MPEG-2音频包的结构,而图21D是具有扩展流的MPEG-2的结构。如图21A到21D所示的音频包的结构表示在表10中,附加有对应于它们格式的专用数据区。
表10
字段 |
比特 |
字节 |
值 |
注释 |
数据包_开始_码_字首 |
24 |
3 |
00 0001h | |
数据流_id |
8 |
1 |
1011 1101b |
专用_数据流_1 |
PES_数据包_长度 |
16 |
2 | | |
‘10’ |
2 |
3 | | |
PES_扰频_控制 |
2 |
3 |
00b |
无扰频 |
PES_优先 |
1 |
3 |
0 |
无优先 |
数据_校正_指示器 |
1 |
3 |
0 |
不由描述符定义 |
版权 |
1 |
3 |
0 |
不由描述符定义 |
原文_或_复制 |
1 |
3 |
0或1 |
原文:1复制:0 |
PTS_DTS_标记 |
2 |
3 |
10或00b | |
ESCR_标记 |
1 |
3 |
0 |
没有ESCR字段 |
ES_速率_标记 |
1 |
3 |
0 |
没有EST速率字段 |
DSTM_技巧_模式_标记 |
1 |
3 |
0 |
没有技巧模式字段 |
附加的_复制_信息_标记 |
1 |
3 |
0 |
没有复制信息字段 |
PES_CRC_标记 |
1 |
3 |
0 |
没有CRC字段 |
PES_扩展_标记 |
1 |
3 |
0或1 | |
PES_标题_数据_长度 |
8 |
3 |
0到15 | |
‘0010’ |
4 |
5 |
供应者定义 |
注解1 |
PTS[32...30] |
3 |
5 |
供应者定义 |
注解1 |
标志_位 |
1 |
5 |
供应者定义 |
注解1 |
PTS[29...15] |
15 |
5 |
供应者定义 |
注解1 |
标志_位 |
1 |
5 |
供应者定义 |
注解1 |
PTS[14...0] |
15 |
5 |
供应者定义 |
注解1 |
标志_位 |
1 |
5 |
供应者定义 |
注解1 |
PES_专用_数据_标记 |
1 |
1 |
0 |
注解2 |
包_标题_字段_标记 |
1 |
1 |
0 |
注解2 |
节目_数据包_顺序_计数器标记 |
1 |
1 |
0 |
注解2 |
P_STD_缓冲器_标记 |
1 |
1 |
1 |
注解2 |
保留 |
3 |
1 |
111b |
注解2 |
PES_扩展_标记_2 |
1 |
1 |
0 |
注解2 |
‘01’ |
2 |
2 |
01b |
注解2 |
P_STD_缓冲器_规模 |
1 |
2 |
1 |
注解2 |
P_STD_缓冲器_大小 |
13 |
2 |
58 |
注解2 |
填充_字节 |
- |
0-7 | | |
在表10中,注释1和2说明如下:
注解1:“PTS[32...0]”将在其中包括音频帧的第一采样的每个音频数据包中描述。
注解2:这些字段出现在每个VOB的第一音频数据包中,并在后序的音频数据包中被禁止。
在如图21A中所示的线性PCM数据结构的音频数据包中,除公共数据区之外,记录在专用数据区中的数据如表11中所示。
在表11中,注解1到10说明如下:
注解1:***表示解码音频数据流号。
注解2:“帧标题号码”说明其第一字节在该音频数据包中的音频帧号。
注解3:存取单元是音频帧。第一存取单元是具有音频帧的第一字节的第一音频帧。
注解4:“音频重点标记”描述重点状态。当“音频采样频率”是96KHz时,在该字段中描述的是“脱离重点”。重点施加到从第一存取单元解码的所有音频采样上。
0b:脱离重点
1b:加上重点
表11
字段 |
比特 |
字节 |
值 |
注释 |
子_数据流_id |
8 |
1 |
10100***b |
注解1 |
帧标题号码 |
8 | 33 |
供给者定义 |
注解2 |
第一存取单元指针 |
16 |
注解3 |
音频重点标记 |
1 |
注解4 |
音频消音标记 |
1 |
注解5 |
保留 |
1 |
0 | |
音频帧数 |
5 |
供给者定义 |
注解6 |
量化字长度 |
2 |
注解7 |
音频采样频率 |
2 |
注解8 |
保留 |
1 |
0 | |
音频信道数 |
3 |
供给者定义 |
注解9 |
动态范围控制 |
8 |
注解10 |
注解5:“音频消音标记”说明当在音频帧中所有数据是零时的消音状态。消音施加到从第一存取单元解码的所有音频采样上。
注解6:“音频帧号”描述在具有‘0’和‘19’之间数字的音频帧组(GOF)中第一存取单元的帧号。
注解7:“量化字长度”描述被量化的音频采样的字长度。
00b:16比特
01b:20比特
10b:24比特
11b:保留
注解8:“音频采样频率”描述音频采样的采样频率。
00b:48KHz
01b:96KHz
其它:保留
注解9:“信道数”描述音频信道数。
000b:1ch(单声)
001b:2ch(立体声)
010b 3ch(多信道)
011b 4ch(多信道)
100b 5ch(多信道)
101b 6ch(多信道)
110b 7ch(多信道)
111b 8ch(多信道)
注解10:“动态范围控制”描述压缩来自第一存取单元的动态范围的动态字控制字。
在如图21A到21D所示的音频数据包中,线性PCM音频数据包的数据流_id是1011 1101b(专用_数据流_1),和子_数据流_id 10100***b。AC-3音频数据包的数据流是1011 1101b(专用_数据流_1),和子_数据流_id 1000 0***b。MPEG音频数据包的数据流是1100 0***b或1101 0***b,无子_数据流_id。在数据流_id或子_数据流_id中“***”表示具有在“0”和“7”之间值的解码音频流数,该解码音频流数不被分配相同数字,这与音频压缩模式无关。
图22说明音频流和包的结构。用于DVD音频中的音频数据可以包括线性PCM数据、道尔贝A-3数据和MPEG音频数据。音频流还包括多个音频包。另外,每个音频包构成如图22中所示的2048字节的一个单元。在这种情况下,根据表12采用对线性PCM音频编码的形式。
表12
采样频率(fs) |
48KHz |
96KHz |
采样相位 |
对数据流中所有信道同时 |
量化 |
16比特或更多,2的补码 |
重点 |
能施加(零点:50μs,极点:15μs) |
不能施加 |
在表12中,线性PCM的音频数据流数据包括邻接的GOF(音频帧组),其中每个帧组包括20个音频帧,除最后GOF之外。最后的GOF包括不多于20个音频帧。
图23说明音频帧的结构。一个音频帧包括对应于1/600秒的显示时间的采样数据。根据48KHz或96KHz的频率(fs),一个音频帧包含80或160音频采样数据。一个GOF对应于1/30秒的显示时间。
图24A到24C说明对线性PCM的采样数据校正。采样数据是由在同一时间从每个信道采样出的数据形成。因此,采样数据的大小是随音频数据流属性而变化。采样数据是连续地排列。在图24A到20C中示出对每个模式的两个采样数据。图24A说明16比特模式,图24B说明20比特模式和图24C说明24比特模式。线性PCM音频的数据包数据结构如表13中所示。
表13
数据流模式 |
数据包中数据 |
信道数 |
fs(KHz) |
量化 |
在数据包中采样的最大数字 |
数据大小(字节) |
第一/其它PES数据包的数据包填充(字节) |
第一/其它PES数据包的填塞数据包(字节) |
1单声 |
48/96 |
16 |
1004 |
2008 |
2/5 |
0/0 |
48/96 |
20 |
804 |
2010 |
0/3 |
0/0 |
48/96 |
24 |
670 |
2010 |
0/3 |
0/0 |
2立体声 |
48/96 |
16 |
502 |
2008 |
2/5 |
0/0 |
48/96 |
20 |
402 |
2010 |
0/3 |
0/0 |
48/96 |
24 |
334 |
2004 |
6/0 |
0/9 |
3 |
48/96 |
16 |
334 |
2004 |
6/0 |
0/9 |
48/96 |
20 |
268 |
2010 |
0/3 |
0/0 |
48 |
24 |
222 |
1988 |
0/0 |
12/15 |
4 |
48/96 |
16 |
250 |
2000 |
0/0 |
10/13 |
48 |
20 |
200 |
2000 |
0/0 |
10/13 |
48 |
24 |
166 |
1992 |
0/0 |
18/21 |
5 |
48 |
16 |
200 |
2000 |
0/0 |
10/13 |
48 |
20 |
160 |
2000 |
0/0 |
10/13 |
48 |
24 |
134 |
2010 |
0/3 |
0/0 |
6 |
48 |
16 |
166 |
1992 |
0/0 |
18/21 |
48 |
20 |
134 |
2010 |
0/3 |
0/0 |
7 |
48 |
16 |
142 |
1988 |
0/0 |
22/25 |
8 |
48 |
16 |
124 |
1984 |
0/0 |
26/29/ |
如果采样数字小于表13中的数字,填塞数据包的长度就将增加以调节包的大小。采样将在数据包边界上调整。就是说,对线性PCM音频的每个音频数据包的音频采样数据总是从表13中描述的S2n的第一字节开始。对线性PCM的信道分配如下:
在立体声显示方式中,信道的描述是,ACH0和ACH1分别对应左信道(L-ch)和右信道(R-ch)。多信道编码要求保持与立体声方式兼容。
DVD音频的结构如图19中所示。由于DVD音频存储的是音频数据,所以不包含视频包(V_PCK)或子图包(SP_PCK),或另外仅仅有它们很小的量。AOBS包括多个作为VOBS使用的数据的包。在图20和21A到21D中表示一般的音频包的结构。假设本发明的DVD音频不使用MPEG和AC-3并用线性PCM和压缩编码系系统记录的音频数据代替。
表10和11说明DVD视频的线性PCM音频数据包,它可通过变换来获得DVD音频的线性PCM音频数据包。所描述的DVD音频的线性PCM系统,采样频率是48.96和192,量化比特数是16、20和24比特,和音频信道数是从1ch到比特速率容许的最大数。音频信道的数量由公式1来确定。
公式1
Fs:采样频率(Hz)→48KHz、96KHz、192
Qb:量化比特数→16比特、20比特、24比特
Mbγ:DVD最大数据传送率(Mbps)→10.08Mbps
N:由DVD的数据传送率、采样频率和量化比特数确定的可能的最大信道数
由公式1确定的信道数在表14中示出。
表14
采样频率 |
量化比特数 |
最大信道数 |
48KH |
16比特 |
13 |
48 |
20 |
10 |
48 |
24 |
8 |
96 |
16 |
6 |
96 |
20 |
5 |
96 |
24 |
4 |
192 |
16 |
3 |
192 |
20 |
2 |
192 |
24 |
2 |
DVD音频的线性PCM音频包的结构如图25中所示,它与图21A中所示的DVD视频的结构相同。即,一个音频包由14字节的包标题和最大2021字节的一个或多个线性PCM数据包组成。包标题是基于MPEG2系统层。
线性PCM音频数据包的结构也是基于MPEG2系统层。线性PCM音频数据包的构成如表15和16中所示。表15具有与表10相同的结构,而表示专用数据结构的表16则具有与表11不同的结构。
表15
字段 |
比特 |
字节 |
值 |
注释 |
数据包_开始_码_字首 |
24 |
3 |
00 0001h | |
数据流_id |
8 |
1 |
1011 1101b |
专用_数据流_1 |
PE_S数据包_长度 |
16 |
2 | | |
10’ |
2 |
3 | | |
PES_扰频_控制 |
2 |
3 |
00b |
无扰频 |
PES_优先 |
1 |
3 |
0 |
无优先 |
数据_校正_指示器 |
1 |
3 |
0 |
不由描述符定义 |
版权 |
1 |
3 |
0 |
不由描述符定义 |
原始_或_复制 |
1 |
3 |
1或0 |
原始:1 复制:0 |
PTS_DTS_标记 |
2 |
3 |
10或00b | |
ESCR_标记 |
1 |
3 |
0 |
没有ESCR字段 |
ES_速率_标记 |
1 |
3 |
0 |
没有EST速率字段 |
DSTM_技巧_模式_标记 |
1 |
3 |
0 |
没有技巧模式字段 |
附加_复制_信息_标记 |
1 |
3 |
0 |
没有复制信息字段 |
PES_CRC_标记 |
1 |
3 |
0 |
没有CRC字段 |
PES_扩展_标记 |
1 |
3 |
0或1 | |
PES_标题_数据_长度 |
8 |
3 |
0至15 | |
‘0010’ |
4 |
5 |
供给者定义 |
注解1 |
PTS[32...30] |
3 |
5 |
供给者定义 |
注解1 |
标志_位 |
1 |
5 |
供给者定义 |
注解1 |
PTS[29...15] |
15 |
5 |
供给者定义 |
注解1 |
标志_位 |
1 |
5 |
供给者定义 |
注解1 |
PTS[14...0] |
15 |
5 |
供给者定义 |
注解1 |
标志_位 |
1 |
5 |
供给者定义 |
注解1 |
PES_专用_数据_标记 |
1 |
1 |
0 |
注解2 |
包_标题_字段_标记 |
1 |
1 |
0 |
注解2 |
节目_数据包_顺序_计数器_标记 |
1 |
1 |
0 |
注解2 |
P_STD_缓冲器_标记 |
1 |
1 |
1 |
注解2 |
保留 |
3 |
1 |
111b |
注解2 |
PES_扩展_标记_2 |
1 |
1 |
0 |
注解2 |
‘01’ |
2 |
2 |
01b |
注解2 |
P_STD_缓冲器_规模 |
1 |
2 |
1 |
注解2 |
P_STD_缓冲器_大小 |
13 |
2 |
58 |
注解2 |
表16
字段 |
比特 |
字节 |
值 |
注释 |
子_数据流_id |
8 |
1 |
10100***b |
注解1 |
帧标题的数 |
8 |
3 |
供给者定义 |
注解2 |
第一存取单元指针 |
16 |
供给者定义 |
注解3 |
音频_重点_标记 |
1 |
供给者定义 |
注解4 |
音频_消音_标记 |
1 |
供给者定义 |
注解5 |
保留 |
1 |
0 | |
音频帧数 |
5 |
供给者定义 |
注解6 |
量化字长度 |
2 |
供给者定义 |
注解7 |
音频采样频率 |
2 |
供给者定义 |
注解8 |
音频信道数 |
4 |
供给者定义 |
注解9 |
动态_范围_控制 |
8 |
供给者定义 |
注解10 |
音频数据区(线性PCM) |
在表16中,注解1到10说明如下:
注解1:***表示解码音频数据流号。
注解2:“帧标题号”说明其第一字节在该音频数据包中的音频帧号。
注解3:存取单元是音频帧。第一存取单元是具有音频帧的第一字节的第一音频帧。
注解4;“音频_重点_标记”说明重点的状态。当“音频_采样_频率”是96KHz时,在该字段中描述的是“脱离重点”重点被加到从第一存取单元解码的所有音频采样上。
0b:脱离重点
1b:加上重点
注解5:“音频_消音_标记”说明在音频帧中所有数据是零(ZERO)时的消音状态。消音被加到从第一存取单元解码的所有音频采样上。
0b:脱离消音
1b:加上消音
注解6:“音频帧号”说明在具有‘0’和‘19’之间数字的音频帧组(GOF)中第一存取单元的帧号。
注解7:“量化_字_长度”描述音频采样被量化的字长度。
00b:16比特
01b:20比特
10b:24比特
11b:保留
注解8:“音频_采样_频率”说明音频采样的采样频率。
00b:48KHz
01b:96KHz
10b:192KHz
11b:保留
注解9:“信道数”说明音频信道数。
0000b:1ch(单声)
0001b:2ch(立体声)
0010b:3ch(多信道)
0011b:4ch(多信道)
0100b:5ch(多信道)
0101b:6ch(多信道)
0110b:7ch(多信道)
0111b:8ch(多信道)
1000b:9ch(多信道)
1001b:10ch(多信道)
1010b:11ch(多信道)
1011b:12ch(多信道)
1100b:13ch(多信道)
注解10:“动态_范围_控制”说明压缩来自第一存取单元的动态范围的动态字控制字。
线性PCM音频的数据包数据结构和相应的48JHz/192KHz帧大小如表17中所示。
表17
数据流模式 |
在数据包中的数据 |
通道数 |
fs(KHz) |
量化 |
在数据包中采样的最大数 |
数据大小(字节) |
第一/其它PES数据包的数据包填充(字节) |
第一/其它PES数据包的填塞数据包(字节) |
1单声 |
48/96/192 |
16 |
1004 |
2008 |
2/5 |
0/0 |
48/96/192 |
20 |
804 |
2010 |
0/3 |
0/0 |
|
48/96/192 |
24 |
670 |
2010 |
0/3 |
0/0 |
2立体声 |
48/96/192 |
16 |
502 |
2008 |
2/5 |
0/0 |
48/96/192 |
20 |
402 |
2010 |
0/5 |
0/0 |
48/96/192 |
24 |
334 |
2004 |
6/0 |
0/9 |
3 |
48/96/192 |
16 |
334 |
2004 |
6/0 |
0/9 |
48/96 |
20 |
268 |
2010 |
0/3 |
0/0 |
48/96 |
24 |
222 |
1988 |
0/0 |
12/15 |
4 |
48/96 |
16 |
250 |
2000 |
0/0 |
10/13 |
48/96 |
20 |
200 |
2000 |
0/0 |
10/13 |
48/96 |
24 |
166 |
1992 |
0/0 |
18/21 |
5 |
48/96 |
16 |
200 |
2000 |
0/0 |
10/13 |
48/96 |
20 |
160 |
2000 |
0/0 |
10/13 |
48 |
24 |
134 |
2010 |
0/3 |
0/0 |
6 |
48/96 |
16 |
166 |
1992 |
0/0 |
18/21 |
48 |
20 |
134 |
2010 |
0/3 |
0/0 |
48 |
24 |
110 |
1980 |
0/0 |
30/33 |
7 |
48 |
16 |
142 |
1988 |
0/0 |
22/25 |
48 |
20 |
114 |
1995 |
0/0 |
15/18 |
48 |
24 |
94 |
1974 |
0/0 |
36/39 |
8 |
48 |
16 |
124 |
1984 |
0/0 |
26/29 |
48 |
20 |
100 |
2000 |
0/0 |
10/13 |
48 |
24 |
82 |
1968 |
0/0 |
42/45 |
9 |
48 |
16 |
110 |
1980 |
0/0 |
30/33 |
|
48 |
20 |
88 |
1980 |
0/0 |
30/33 |
10 |
48 |
16 |
100 |
2000 |
0/0 |
10/13 |
48 |
20 |
80 |
2000 |
0/0 |
10/13 |
11 |
48 |
16 |
90 |
1980 |
0/0 |
30/33 |
12 |
48 |
16 |
82 |
1968 |
0/0 |
42/45 |
13 |
48 |
16 |
76 |
1976 |
0/0 |
34/37 |
如果采样数字小于表17中的数字,就可增加填塞数据包的长度以调节包大小。将在数据包边界校正采样。就是说,每个音频数据包的音频采样数据是从S2n的第一字节开始。在数据包中的音频采样数字总是变成偶数。
于是,在DVD音频格式中,线性PCM数据是以帧和GOF处理的。DVD音频可使用192KHz的采样频率,由此,线性PCM编码的基本规则可设定如表18中所示。
表18
采样频率(fs) |
48KHz |
96KHz |
192KHz |
采样相位 |
将同时对所有数据流中所有信道 |
量化 |
16比特或更多比特,2的补码 |
重点 |
能施加零点:50μs,极点:15μs |
不能施加 |
当fs是192KHz时,一个音频帧包含320个音频采样数据。一个GOF对应于如DVD音频中1/30秒的显示时间。96KHz的采样频率用于实现多信道以存储优质的音频数据。
当使用48KHz的采样频率和16比特的量化来记录线性PCM音频数据时,有13个信道是可有效利用的,以便记录现在多信道音乐需要的10个信道的音频数据。然而,当使用192KHz的采样频率和24比特的量化时,仅有2个信道是可有效用来记录音频数据,是不能满足多信道音乐的要求的。就是说,用高采样频率和大的数据比特数是不可能完成多信道音频功能的。然而,这种限制可用无损失编码或伪无损失编码来解决。无损失编码的压缩率是大约2∶1,而伪无损失音质编码的压缩率是大约4∶1。
假设本发明DVD音频使用具有大约4∶1的压缩率的伪无损失音质编码的DTS(数字影院系统)编码。此外,DTS还可执行无损失编码。DTS能提供足够的信道数,而又不显著降低声音的质量。与目前建议的所不同的压缩编码算法相比,DTS可完成192KHz采样频率和24比特量化的高规格编码,但已研究出的目前建议的这种算法可使声音质量变坏极小化而不降低比特速率。DTS具有48KHz、96KHz、和192KHz的采样频率,16、20和24的量化比特数,以及具有从1ch编码到比特速率允许的最大编码数的信道数。音频信道数可用公式2来确定。
公式2
Fs:采样频率(Hz)→48KHz、96KHz、192KHz
Qb:量化比特数:16、20或24
Mbγ:DVD最大数据传送率(Mbps)→10.08Mbps
Ccγ:伪无损失音质编码的压缩率
N:由DVD的数据传送率、采样频率和量化比特数确定的最大音频信道数
假设具有4∶1的压缩率的DTS编码用于压缩编码,由公式2确定的信道数在表19中示出。
表19
采样频率 |
量化比特数 |
最大信道数 |
48KHz |
16bits |
52 |
48 |
20 |
42 |
48 |
24 |
35 |
96 |
16 |
26 |
96 |
20 |
21 |
96 |
24 |
17 |
192 |
16 |
13 |
192 |
20 |
10 |
192 |
24 |
8 |
于是,本发明DVD音频是根据MPEG2系统层的结构构成的,因此,经压缩编码的音频包结构是由14字节的包标题和每个具有最大2021字节的压缩编码的音频数据包组成,如图26中所示。包标题满足MPEG2系统层的规定。
压缩编码的音频数据包的结构也是基于MPEG2系统层的规定。压缩编码的音频数据包的构成如表20和21中所示。表20具有与表示DVD视频的线性PCM音频数据包的表10相同结构。
表20
字段 |
比特 |
字节 |
值 |
注释 |
数据包_开始_码_字首 |
24 |
3 |
00 0001h | |
数据流_id |
8 |
1 |
1011 1101b |
专用数据流_1 |
PES_数据包_长度 |
16 |
2 | | |
‘10’ |
2 |
3 | | |
PES_扰频_控制 |
2 |
3 |
00b |
无扰频 |
PES_优先 |
1 |
3 |
0 |
无优先 |
数据_校正_指示器 |
1 |
3 |
0 |
不由描述符定义 |
版权 |
1 |
3 |
0 |
不由描述符定义 |
原始_或_复制 |
1 |
3 |
1或0 |
原始:1复制:0 |
PTS_DTS_标记 |
2 |
3 |
10或00b | |
ESCR_标记 |
1 |
3 |
0 |
没有ESCR字段 |
ES_速率_标记 |
1 |
3 |
0 |
没有EST速率字段 |
DSTM_技巧_模式_标记 |
1 |
3 |
0 |
没有技巧式字段 |
附加_复制_信息_标记 |
1 |
3 |
0 |
无复制信息字段 |
PES_CRC_标记 |
1 |
3 |
0 |
无CRC字段 |
PES_扩展_标记 |
1 |
3 |
0或1 | |
PES_标题_数据_长度 |
8 |
3 |
0到15 | |
‘0010’ |
4 |
5 |
供给者定义 |
注解1 |
PTS[32...30] |
3 |
5 |
供给者定义 |
注解1 |
标志_位 |
1 |
5 |
供给者定义 |
注解1 |
PTS[29...15] |
15 |
5 |
供给者定义 |
注解1 |
标志_位 |
1 |
5 |
供给者定义 |
注解1 |
PTS[14...0] |
15 |
5 |
供给者定义 |
注解1 |
标志_位 |
1 |
5 |
供给者定义 |
注解1 |
PES_专用_数据_标记 |
1 |
1 |
0 |
注解2 |
包_标题_字段_标记 |
1 |
1 |
0 |
注解2 |
节目_数据包_顺序_计数器_标记 |
1 |
1 |
0 |
注解2 |
P_STD_缓冲器_标记 |
1 |
1 |
1 |
注解2 |
保留 |
3 |
1 |
111b |
注解2 |
PES_扩展_标记_2 |
1 |
1 |
0 |
注解2 |
‘01’ |
2 |
2 |
01b |
注解2 |
P_STD_缓冲器_规模 |
1 |
2 |
1 |
注解2 |
P_STD_缓冲器_大小 |
13 |
2 |
58 |
注解2 |
填充_字节 |
- |
0-7 | | |
表21
字段 |
比特 |
字节 |
值 |
注释 |
子_数据流_id |
8 |
1 |
&&&&&***b |
注解1 |
帧标题数 |
8 |
1 |
供给者定义 |
注解2 |
第一_存取_单元_指针 |
16 |
2 |
供给者定义 |
注解3 |
音频数据区 |
在表21中,注解1到3说明如下:
注解1:“子_数据流id”随压缩编码系统变化,所以在DTS情况下变成“1000`1***b”。“***”表示解码音频数据流数号码。
注解2:“帧标题数”说明其第一字节是在该音频数据包中的音频帧的号。
注解3:存取单元是音频帧。第一存取单元是具有音频帧的第一字节的第一音频帧。
于是,DVD音频具备有多于8个执行压缩编码的信道,48KHz、96KHz、和192KHz的可利用的采样频率,16、20或24的量化比特数、压缩率从1∶1到超过5∶1、下混合(down mixing)、动态范围控制和时间标印记(timestamp)。
使用在本实施例中的DTS压缩算法具有足够低的压缩率以显著地改进声音质量,并可有选择地使用在DVD视频中。DVD视频具有DTS包和数据包的结构和DTS的限制项目。对限制项目,压缩后的比特速率被限制最高达到1.5Mbps并且可压缩数据的采样频率仅是48KHz。然而,在使用DTS算法的本发明DVD音频中,采样频率扩展到192KHz,量化比特数扩展到24比特,多信道数据压缩到4∶1,由此提供希望的声音质量。就是说,使用在本发明DVD音频中的压缩编码使用48KHz/96KHz/192KHz的采样频率和16比特/20比特/24比特的量化比特数,以便以大约4∶1压缩多信道线性PCM数据,而没有降低声音质量。
DVD音频可以附加包括VIDEO_TS和VEG的信息区,其结构与在DVD视频中相同,以便与DVD视频播放机兼容。然而,DVD视频把音频数据流的数据传送率限制在6.144Mbps之内,如表22中所示。
表22
|
传送率 |
注释 |
总数据流 |
一个数据流 |
VOB |
10.08Mbps |
- | |
视频数据流 |
9.80Mbps |
9.80Mbps |
数据流数=1 |
音频数据流 |
9.80Mbps |
6.144Mbps |
数据流数=8(最大) |
子图数据流 |
9.80Mbps |
3.36Mbps |
数据流数=32(最大) |
因此,DVD视频播放机仅再现在DVD音频的音频数据之中满足DVD视频规格的数据。由DVD视频播放机再现的线性PCM数据如表7所示。当然,用DVD视频播放机播放的压缩编码的DTS数据仅是再现由DVD视频规定的DTS数据流。例如,存储在DVD中的标题如表23中所示。
表23
采样频率 |
量化比特数 |
信道数 |
附注 |
48KHz |
16 |
8ch |
标题1 |
96KHz |
16 |
4ch |
标题2 |
96KHz |
24 |
2ch |
标题3 |
96KHz |
24 |
4ch |
标题4 |
196KHz |
24 |
2ch |
标题5 |
然后,VIDEO_TS和VMG与标题1到3的属性和位置信息一起记录但不与标题4和5的信息一起记录。反之,DVD音频的AUDIO_TS和AMG与所标题1到5的信息一起记录,因为标题1到3符合DVD视频和DVD音频的规格,而标题4和5仅符合DVD音频的规格。因此,标题4和5仅由DVD音频播放机播放。如果在数据区中有可利用的空间,则标题4和5就可分别地用降低了的采样频率,量化比特数和信道数记录在可利用的数据空间内、并且关于标题4和5的信息存储在VIDEO_TS和VMG中。然后,标题4和5就可由DVD视频播放机再现。
如果压缩编码DTS不符合有关数据传送率、信道数、原始数据的采样频率、量化比特数等的DVD视频的规格,则信息只能记录在AUDIO_TS和AMG中而不能记录在VIDEO_TS和VMG中。就是说,仅仅满足DVD视频规格的DTS数据流能被记录在VIDEO_TS和VMG中。为了再现不符合DVD视频规格的DTS数据流,它们必须编码以满足DVD视频规定的传送率、信道数、采样频率和量化比特数,存储记录在VIDEO_TS和VMG中。
DVD音频的AMG和ATSI_MAT具有与DVD视频的VMG和VTSI相同的结构。然而,超过DVD视频规格的音频数据,例如192KHz的采样频率和8个或更多一点的信道生成的音频数据必须改变,以被DVD视频播放机再现。因此,盘的制造如下:
当记录在盘上的标题的内容是在DVD视频规格之内时,保持VMG和AMG中的任何一个,使得VIDEO_TS和AUDIO_TS通过VMG和AMG直接到文件。然后,DVD音频播放机将文件作为AMG播放同时DVD视频播放机将文件作为VMG播放。
同时,如果记录在盘中的任何一个标题具有不满足DVD视频的规格的音频数据流,那么VMG和AMG一起保持,并且VMG就不与不符合DVD视频规格的标题的信息一起记录。当然,AMG就不与其采样频率、量化比特数和信道数被改变以与DVD视频播放机兼容的标题上的信息一起记录。
然而,当DVD音频的AMG和ATSI_MAT的构成完全不同于DVD视频的VMG和VTSI_MAT时,VMG和AMG都必须要有,并且因此VTSI_MAT和ATSI_MAT也都要有。当然,VMG和VTSI_MAT都具备关于符合DVD视频规格的音频标题的信息。
播放DVD音频的装置可设计与DVD视频播放机无关,但本发明的DVD音频播放机可以是与DVD视频播放机的组合。
参见图27,以说明DVD音频播放机的结构,系统控制器111控制整个DVD音频播放机、为用户服务的接口的操作。系统控制器111通过检测包括在VIDEO_TS和AUDIO_TS目录中的有效数据确定插入的盘是DVD视频或DVD音频。当从AUDIO_TS目录中检测到有效数据存在时,系统控制器111确定插入的盘是DVD音频,于是就控制其播放操作。如果从AUDIO_TS中没有检测到有效数据存在,系统控制器111确定插入的盘是DVD视频,于是停止再放操作。
提供拾取设备112来读取存储在DVD音频中的数据。伺服控制器113在系统控制器111的控制下,执行各种伺服功能。数据接收器114分析和校正在从拾取设备112输出的数据中发生的错误,该数据接收器114包括纠错电路。音频解码器115把来自数据接收器114的音频信息传送到系统控制器111,在系统控制器111的控制下,解码接收的音频数据。
如图28中所示,根据本发明设计的音频解码器115解码线性PCM音频数据和压缩的编码音频数据。参见图28,输入数据缓冲器211存储从数据接收器114输出的音频数据。数据流选择器212在系统控制器111的控制下有选择地输出从输入缓冲器211输入的音频数据流。线性PCM解码器213把从数据流选择器212接收的线性PCM音频数据解码成原来的音频数据。编码数据解码器(伪无损失音质解码电路)214把来自数据流选择器212的压缩编码的数据解码成原来的音频数据。输出缓冲器215存储由解码部分213和214传送的音频数据。数字音频格式器216把从解码部分213和214来的音频数据转换成按系统控制器111规定的格式。时序控制器210在系统控制器111的控制下,产生时序控制信号,以控制音频解码器115的部分的操作。
数字处理器(高比特、高采样数字滤波器)116在系统控制器111的控制下对来自音频解码器115的音频数据滤波。音频输出电路(高性能数模转换器和模拟音频电路)117把来自数字处理116的音频数据转换成模拟信号。
参见图27和28,数据接收器114把经过拾取设备112从DVD音频再现的音频数据传送到音频解码器115。再现的音频数据顺序地存入音频解码器115的输入缓冲器211中。存在输入缓冲器211中的音频数据被数据流选择器212选择并传送到解码部分213和214。即,当系统控制器111要求解码线性PCM音频数据时,数据流选择器212把存在输入缓冲器211中的音频数据传送到线性PCM解码器。另外,当系统控制器111要求解码压缩编码的数据时,数据流选择器212把存在输入缓冲器中的音频数据传送到编码数据解码器214。
描述线性PCM音频数据的解码操作,线性PCM解码器213一般执行多信道下混合、采样频率变换和输入信号的再量化。例如,当从数据流选择器212产生的8信道数据需要变换成2信道数据时,线性PCM解码器213执行多信道下混合,以产生要求的信道数的输出。此外,当以192KHz采样的输入数据被系统控制器111要求变换成以96KHz采样的数据时,线性PCM解码器213执行采样频率变换,以产生要求的采样频率的音频数据。另外,当输入24比特量化的音频数据被系统控制器111要求变换成16比特量化的数据时,线性PCM解码器213执行再量化处理,以产生要求的比特数的音频数据。
描述压缩编码的音频数据的解码操作,编码数据解码器214在系统控制器111的控制下,通过执行相应的算法解码压缩编码的音频数据。在这种情况下,从编码数据解码器214产生的音频数据的形式由系统控制器111确定。在本实施例中,编码数据解码器214可以是DTS解码器。另外,编码数据解码器214也执行多信道下混合、采样频率变换和与算法解码一起的输入信号的再量化。
由解码部分213和214解码的音频数据被传送到输出缓冲器215和数字音频格式化器216。输出缓冲器215与由时序控制器210提供的控制信号同步存储解码音频数据。数字音频格式化器216把解码的音频数据调节到数字设备之间的传送格式,并把它与从时序控制器210来的控制信号同步。在这种情况下,输出音频数据可传送到具有相同传送格式的音频/视频系统或计算机。
来自音频解码器115的解码的音频数据经过数据处理器116的处理并由音频输出电路117变换成模拟信号。数字处理器116包括多个数字滤波器以消除音频信号频带之外的噪声。数字处理器116要求滤波系数具有比使用在通常DVD或CD中的数字滤波器更高的分辨率和抽头数,以便处理以12KHz采样和24比特量化的音频数据。当然,当96KHz和192KHz的D/A转换器变得通常可利用时,数字处理器116可包括在D/A转换器中。音频输出电路117包括多个D/A转换器,以便把去掉噪声的音频数据变换成模拟音频信号。
参见图29以说明播放DVD视频和DVD音频的装置,系统控制器311控制整个DVD音频/视频播放机、服务于用户接口的操作。系统控制器311通过检测包括在VIDEO_TS和AUDIO_TS目录中的有效数据确定插入的盘是DVD视频或DVD音频。当检测到AUDIO_TS目录存在有效数据时,系统控制器311确定插入的盘是DVD音频,于是就控制其播放操作。但是如果在AUDIO_TS中没有有效数据时,系统控制器311确定插入的盘是DVD视频,就停止目前的DVD音频再现模式,并改变DVD视频的再现方式。
提供拾取设备312来读取存储在DVD音频中的数据。伺服控制器313在系统控制器311的控制下控制拾取设备312执行各种伺服功能。数据接收器314分析和校正发生在从拾取设备312输出数据中的错误,并且该数据接收器314包括纠错电路。音频/视频解码器315把来自数据接收器314的音频信息传送到系统控制器311,在系统控制器311的控制下,解码接收的音频数据。
音频/视频解码器315设计为解码视频数据和音频数据,如图30中所示。参见图30,输入数据缓冲器411存储从数据接收器314输出的音频和视频数据。数据流分析程序器412在系统控制器311的控制下,有选择地输出来自输入缓冲器411的音频和视频数据流。音频解码电路413根据从系统控制器311来的控制数据解码由数据流分析程序器412选择的音频数据。解码音频输出电路414输出从音频解码电路413解码的音频数据。视频解码电路415根据系统控制器311的控制信号解码由数据流分析程序器412选择的视频数据。解码视频输出电路416输出从视频解码电路415解码的视频数据。时序控制器410在系统控制器311的控制下,产生时序控制信号,以控制音频/视频解码器315的操作。
音频解码电路413必须具有对应于线性PCM系统、MPEG系统、AC-3系统和压缩编码系统的解码器件。线性PCM系统和压缩编码系统要求有附加器件,以再现记录在本发明DVD音频中的音频数据。就是说,提供的解码器件可再现根据本发明由采样频率、量化比特和音频信道形成的音频数据。还提供数据流选择器以分配对应于解码器件的音频数据。
数字处理器(高比特高采样数字滤波器)316在系统控制器311的控制下,对来自音频/视频解码器315的滤除音频数据滤波。音频输出电路(高性能数模转换器和模拟音频电路)117把来自数字处理器316的音频数据变换成模拟信号。视频输出电路(NTSC编码器视频数模转换器的模拟视频电路)318把来自音频/视频解码器315的视频数据编码成NTSC,把视频数据变换成模拟视频信号。
参见图29和30,从盘经过拾取设备312再现的数据传送到数据接收器314,以对其进行分析并校正在其中的错误,并加到音频/视频解码器315。从数据接收器314产生的数据加到音频/视频解码器315的输入缓冲器411。数据流分析程序器412根据系统控制器311的控制数据选择所需要的数据流,并分析数据流,以便把视频数据传送到视频解码电路415和把音频数据传送到音频解码电路413。
音频解码电路413根据系统控制器311的要求变换来自数据流分析程序器412的音频数据。音频解码电路413必须包括能解码DVD视频和DVD音频的音频数据的解码功能。视频解码电路415解码和变换输入的视频数据。视频数据变换意味着子标题处理,全景扫描(pan_scan)等。
解码的音频和视频数据分别传送到解码音频和视频输出电路414和416,最后与时序控制器410的时序控制信号同步地传送到外部。解码音频输出电路414把解码的音频数据调节到数字设备之间的传送格式。从解码音频输出电路414产生的音频数据传送到不同的音频/视频系统或计算机。
如图29中所示,当处理视频信号时,音频/视频解码器315按照DVD视频的规格,并且根据DVD视频的规格进行本发明的算法和音频解码算法。于是,音频解码电路413包含DVD视频的音频规格的线性PCM和DTS算法。因此,DVD视频和DVD音频两者都能被再现。
在这种情况下,DVD视频的音频解码需要的算法表示线性PCM解码(1)+AC-3解码+MPEG解码,而DVD音频的音频解码需要的算法表示线性PCM解码(2)+编码数据解码(伪无损失音质解码)。因此,根据本发明在DVD视频中的线性PCM算法包括在线性PCM算法中。使用在DVD视频和DVD音频中的解码算法包括在由音频解码电路完成的由公式3表示的功能。
公式3
音频解码器=线性PCM解码器(2)+伪无损失音质解码器+AC-3解码器+MPEG解码器。
于是,这样的播放DVD视频和DVD音频的装置检测插入的DVD的VIDEO_TS和AUDIO_TS,以设定音频解码模式。具有消除视频数据的DVD音频的音频数据在表24中示出。
表24
采样频率 |
量化比特数 |
每个信道的比特率 |
信道数 |
要求的数据容量 |
48KHz |
16比特 |
768Kbps |
8ch |
5.99G字节 |
20比特 |
960Kbps |
8ch |
5.76G字节 |
24比特 |
1.152Mbps |
8ch |
5.53G字节 |
96KHz |
16比特 |
1.536Mbps |
6ch |
5.53G字节 |
20比特 |
1.920Mbps |
5ch |
5.76G字节 |
24比特 |
2.304Mbps |
4ch |
5.53G字节 |
在DVD视频中规定的压缩编码系统可在最大448Kbps上压缩数据。容许压缩的采样频率是48KHz,容许压缩的量化比特数是16比特。因此,被处理的数据量是有限的,其压缩率大约是10∶1。因此,它是不适合于音频数据的,尤其是从声音质量来看就更不适合了。如果算法是道尔贝AC-3算法,量化系统是16比特线性PCM,采样频率是48KHz,记录的最大信道数是最大6ch(具有包括在200Hz以下和使用其信道1的音频数据的次低音扬声器信道的音频信道中的一个),以及可能的比特率是192Kbps-448Kbps。道尔贝AC-3算法很受量化比特数、采样频率、和高压缩率方面限制,这样就导致声音质量的严重变差,因此不适合仅仅用于音频使用。另外,当压缩算法是MPEG2算法时,量化系统是16比特-24比特线性PCM,采样频率是48KHz,记录的最大信道数是8ch(具有包括在200Hz以下和使用其信道.1的音频数据的次低音扬声器信道的音频信道之一),可能的比特率是64Kbps-912Kpbs。这种算法的可能编码的量化比特数高和记录的信道数高,但是采样频率受到限制并且压缩率高,由此引起声音质量的降低。
然而,假设对DVD音频,传送率是10.08Mbps,再现时间是80分钟,线性PCM音频的实现如表25中所示。
表25
采样频率 |
量化比特数 |
每个信道的比特率 |
信道数 |
要求的数据容量 |
48KHz |
16比特 |
768Kbps |
13ch |
5.99G字节 |
48KHz |
20比特 |
960Kbps |
10ch |
5.76G字节 |
24比特 |
1.152Mbps |
8ch |
5.53G字节 |
96KHz |
16比特 |
1.536Mbps |
6ch |
5.53G字节 |
20比特 |
1.920Mbps |
5ch |
5.76G字节 |
24比特 |
2.304Mbps |
4ch |
5.53G字节 |
192KHz |
16比特 |
3.072Mbps |
3ch |
5.53G字节 |
20比特 |
3.840Mbps |
2ch |
4.61G字节 |
24比特 |
4.608Mbps |
2ch |
5.53G字节 |
使用在压缩编码系统中的DTS,使用16比特、20比特和24比特线性PCM的量化,48KHz、96KHz、和192KHz的采样频率,记录最大信道数是13ch,压缩率大约是4∶1。DTS压缩编码在压缩比率低的情况下具有高量化比特数和采样频率,因此保持高的声音质量。
如上面参考图27和29所述的,音频或音频/视频播放机通过检测是否有有效数据存储在AUDIO_TS目录中来确定DVD的类型。即,DVD音频播放机根据在AUDIO_TS目录中是否存储有效数据来执行再现功能。如图29中所示的音频/视频播放机根据在AUDIO_TS目录中是否存储有效数据执行音频或视频播放功能。
图31由参考如图29中所示的音频/视频播放机来说明本发明概念的操作。在步骤511由系统控制器311检查插入的DVD,在步骤513读出AUDIO_TS目录的内容。在步骤515,检查在AUDIO_TS目录中是否存有有效数据。如果插入DVD是DVD视频,在AUDIO_TS目录中没有有效数据。即,DVD视频具有AUDIO_TS目录,但是是空的。然而,如果插入DVD是DVD音频,AUDIO_TS目录包括关于如图10到18C中所示的音频数据位置的信息。
在步骤515检测在AUDIO_TS目录中的有效数据,在步骤517系统控制器311确定插入盘是DVD音频,在步骤519,图10和11所示的AMG的位置由读AUDIO_TS目录确定。然后,在步骤521拾取设备312移到DVD中的AMG的位置,读AMG以证实关于存储整个音频数据位置的信息。如图10和11所示,AMG包括在DVD音频中存储的所有音频文件的信息和每个标题的属性和位置信息。
在步骤523中,系统控制器311检查是否有要求再现特定的音频标题。要求是由用户或存储在DVD音频中指令作出的。检测要求再现标题,系统控制器311在步骤525根据从AMG获得的位置信息确定盘中标题的位置,在步骤527,拾取设备312移到标题的ATSI_MAT的位置以读取该标题位置。在步骤529,分析如图15-18C中所示ATSI_MAT的信息,通过发现要播放的音频标题种类和属性来确定再现算法。在步骤531,音频/视频解码器315的音频解码电路413根据再现的算法设定到从DVD音频选择的音频数据。设定音频解码电路413所需要的信息是音频编码模式、采样频率、量化比特数和信道数。最后,被选择的标题由音频解码电路413解码在步骤533播放。
另一方面,在步骤515,如果在AUDIO_TS目录中没有有效数据,系统控制器311确定插入的盘是DVD视频,在步骤537,由读VIDEO_TS目录确定VMG的位置。然后,在步骤539,拾取设备312移动到DVD中的VMG位置,读VMG以确定存储整个视频数据位置的信息。此后,如果有要求再现标题,则被选标题的视频、子图和音频数据就根据存储在VTSI_MAT中的信息来播放。
同样,仅再现来自DVD音频的数据的DVD音频播放机,也执行对DVD音频的步骤511到533,但停止对DVD视频的播放操作。
在根据存储在ATSI_MAT中的信息设定音频解码电路413之后,系统控制器311从步骤533到经过如图32中的步骤分析存储在DVD音频的数据区的音频包。
在步骤611,系统控制器311命令音频解码电路413执行解码操作,在步骤613,控制数据流分析程序器412以把接收的音频数据传送到具有相应音频算法的音频解码电路413。然后,音频解码电路413根据由系统控制器311设定的算法解码接收的音频数据。在此,在步骤615,系统控制器311检查音频解码电路413的操作状态。当检测到音频解码电路的异常状态时,过程进到步骤621以控制解码电路413停止解码操作,控制数据流分析程序器412停止传送数据。然后,在根据异常状态执行补救(repair)算法之后,过程返回到步骤611。
然而,在步骤615,如果音频解码电路413正常地执行解码操作,在步骤617解码的音频数据经过解码音频输出电路414输出。此后,在步骤619再检查音频解码电路413的操作状态。当检测到异常状态时,过程前进到步骤621,否则过程就返回到解码下一个音频数据。当音频数据流被音频解码电中413完全解码时,系统控制器311控制数字处理器316和音频输出电路317,以便把解码的音频数据转换成模拟数据。
于是,本发明DVD包括VIDEO_TS和AUDIO_TS目录,使得可通过检查存储在AUDIO_TS目录中的有效数据来将DVD音频与DVD视频区别开。DVD音频能用最大192KHz采样和24比特量化的音频数据记录。此外,音频信道能够大大地扩展。受数据传送速度限制的信道数、以及采样频率和量化比特数都可通过使用编码算法而得到扩展。