CN101171639A

CN101171639A - 通过补充附加50i格式数据项来创作24p音频/视频数据流的方法和设备

Info

Publication number: CN101171639A
Application number: CNA2006800154003A
Authority: CN
Inventors: 马尔科·温特; 迪尔克·冈多尔夫; 卡斯滕·赫佩尔; 约布斯特·赫雷恩特; 乌韦·扬森; 拉尔夫·奥斯特曼; 哈特穆特·彼得斯; 安德烈·谢温措
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2005-05-04
Filing date: 2006-04-10
Publication date: 2008-04-30
Anticipated expiration: 2026-04-10
Also published as: EP1878018A1; US20090086829A1; US8111759B2; KR20080012286A; TWI363566B; CN101171639B; JP5011278B2; TW200701802A; MY144990A; EP1720166A1; JP2008541525A; KR101206147B1; WO2006117281A1

Abstract

以24Hz帧频和逐行扫描格式(表示为24p)来产生电影，以在电影院中投影，遵循35mm胶片的世界标准。然而，世界上的主要电视系统使用隔行扫描和50Hz场频(表示为50i)或60Hz场频(表示为60i)。内容提供商优选提供可在世界多数部分重放的单画面频率单音频速度的AV盘。用附加的50i格式数据项来补充24p音频/视频数据流，从而允许对该数据流进行24p和50i格式的重放。

Description

通过补充附加50i格式数据项来创作24p音频/视频数据流的方法和设备

技术领域

本发明涉及一种方法和设备，用于通过给24p(24Hz)音频/视频数据流补充附加的50i格式数据项来创作24p音频/视频数据流，从而允许对该数据流进行24p和50i格式的重放。

背景技术

电影是以24Hz帧频和逐行扫描格式(表示为24p)产生的，以在电影院中投影，遵循35mm胶片的世界标准。几十年来，投影速度固定为每秒24个完整画面。以相同的速度重放典型地以相同材料上的光学轨道形式存在的伴音信号。可在世界上的任何现有电影院中执行这种重放。当通过电视系统，例如通过广播设备来重放这种电影时，情况变得不同。世界上大部分电视系统使用隔行扫描及50Hz场频(表示为50i，例如在使用PAL和SECAM的欧洲、中国和澳大利亚)或60Hz场频(表示为60i，例如在使用NSTC的美国和日本)。在60i国家中，电视系统构造成每秒显示30个完整视频帧。通过使用3:2下拉(pull-down)，交替地在两个或三个视频场中呈现一个胶片帧，以基本正确的整体速度执行电影重放。应该注意，在NTSC彩色电视系统中，实际的场速率是59.94Hz，这意味着，实际上以每秒23.976帧的速度广播电影，即比原始速度慢1000/1001的因子。电视观众通常不会注意到这种情况。

在50Hz的国家中，情况更加困难。最简单的解决方案是以每秒25帧的速度播放电源，即快4.2％。尽管通过这种方式，声音音高变高4.2％(近似高一个半音调)，但是通常消费者不会对此抱怨。如果电影记录在AN介质(例如VCR视频、CDI和DVD)上，并且使用电视接收机作为呈现设备来回放这种介质，则通常相同的原理适用。如果介质上存在的伴音具有数字形式(例如线性PCM或AC-3编码的或DTS编码的)，则或者重放设备必须以高4.2％的速度来解码和呈现音频信息，这通常并不造成问题；或者在50Hz国家销售的DVD视频或CDI盘必须包含已经编码的音频数据流，从而在以高4.2％的速度来输出视频信号同时，播放器的音频解码器自动地输出音频信号的正确速度和音高。

总而言之，对于AV流(音频视频流)，当前存在三种已建立的重放速度：用在电影院的每秒24个逐行帧(24p)；每秒50个隔行场(50i)和每秒60个隔行场(60i)。

可选地，可以在播放器中执行音频解码、音高转换和音频重新编码。然而，由于需要附加的音频编码，这将需要非常昂贵的播放器硬件和更高的许可成本。因此，必须在创作期间执行音频重新编码，因为需要大量的处理器能力(即昂贵的硬件)和特别许可及用于对各种压缩音频流进行重新编码的软件。因此，所需的音频重新编码是为相同电影生产两个母版(master)的实际原因。

如果盘片制造商生产多于两个不同速度的记录，则从一个速度至另一个速度之一的转换将是第一选择。由于再次以新速度产生电影消耗太多的时间和金钱，所以将再次使用原始电影，即原始记录将被代码转换为新速度。通常，电影制作人将24p电影代码转换为60i的DVD视频以及50i的DVD视频。

现代电视接收机可在保持相同的彩色系统PAL、NTSC或SECAM的同时处理不同的重放速度。例如，当前在欧洲销售的多数电视机可呈现重放的60i记录。但是，许多旧的电视机不能够处理具有这种速度偏移的视频输入信号。甚至一些现代的100Hz电视机在接收60i输入数据时也会发生故障。一些旧的设备没有色彩地重放彩色的60i内容，而其它设备甚至不能够回放稳定的画面。为此，例如，DVD视频格式区分50i和60i国家，以获得具有优选的/支持的速度的盘。

注意，(模拟)彩色系统并没有问题，因为它不是所记录的(MPEG)比特流的一部分。在压缩视频内容之后，可应用或编码适当的彩色系统。

如上所述，将3:2下拉用于从24p代码转换为60i。60i国家的消费者知道并广泛地接受所产生的缺陷，例如由于场重复而产生的轻微抖动的视频重放。快4.2％的重放速度被用于从24p代码转换为50i。50i国家的多数消费者接受所产生的缺陷，例如50i闪烁和增高的音高。已经减小或甚至消除了一些缺陷，例如通过使用具有复杂的运动补偿的100Hz电视机。然而，整体的播放时间比电影院短4.2％。这种加速的优点在于视频重放并不具有任何抖动，但是音频流必须被代码转换以执行更快的重放。因此，相同电影的音频流在50i盘和60i盘之间有所不同，但是(M PEG)视频流非常类似。视频流的主要差异在于60i视频流包含附加的3:2下拉标志和不同的时间戳。例如，MPEG表示MPEG-2视频、MPEG-4视频或MPEG-4AVC。

消费者接受在其国家使用的代码转换方法的缺陷，但是并不喜欢其它国家的不同缺陷。60i消费者并不喜欢50i电视机的闪烁(理论上，这可通过应用100Hz技术以也与50i兼容的电视机来替换当前的60i电视机、或者使用慢的LCD显示器，来克服)。50i消费者并不喜欢60i视频的抖动(理论上，这可通过用24p兼容的盘、播放器和电视机来替换当前的盘、播放器和电视机来克服)。

当前DVD播放器并不支持24p重放。

要注意，压缩的数字音频总是被编码为所希望的重放速度，因为播放器可以将未压缩的音频流直接发送到外部解码器。

通常以两个主要的过程来执行传统的例如DVD视频的创作。

对于60i国家：

-以24p格式对视频进行编码，并添加3-2下拉特征用于60i重放；

-针对各种解码器和语言来对数字音频进行编码；

-对字幕(在DVD中是子图象)进行编码；

-产生菜单；

-制作母版。

对于50i国家：

-对编码的视频重新加戳，并去除3-2下拉；

-例如使用音高转换，对数字音频流重新编码；

-对字幕(在DVD中是子图像)进行编码；

-改编菜单；

-制作第二母版。

60i盘不可在50i国家的许多电视机上播放。

50i盘不可在60i多家的多数电视机上播放。

EP05090020.8描述了一种24p盘，该盘可针对50i呈现而重放，因此自适应地重复视频场，并且自适应地丢弃音频帧，以便在呈现所记录的节目时平均实现与视频速度匹配的音频速度。

发明内容

内容提供商优选提供可在世界上多数地方重放的单画面频率单音频速度的AV盘。当然，由于需要提供各种语言的音频，并且在例如一个DVD盘上，没有足够的存储器可用于与视频一起存储所有的音频语言，所以这对于在世界范围销售的所有盘并不适用。

然而，例如HD-DVD或Blu-ray的新盘格式对AV内容提供更大的盘容量。Blu-ray记录器从2003年4月起就在日本上市了。

此外，市场上越来越多的新电视机能够处理并呈现即使是24p格式的视频。

本发明要解决的问题是针对24p(或者48p或60p)的存储介质母版制作(其AV内容也可以在世界范围以50i格式、以高的主观视频和音频质量来呈现)，提供AV内容中可重复视频场及可丢弃音频帧的最佳位置。通过权利要求1、2和3中公开的方法来解决该问题。权利要求3公开了使用权利要求1的方法的设备。权利要求11公开了相应的存储介质。权利要求12公开了相应的音频/视频数据流。

如上所述，对于不同的国家需要不同的音频“速度”。由于当今的AV存储介质使用压缩的音频流，所以通过音频流的自动音高转换而实现的简单速度偏移是不可行的。播放器需要对音频流进行解码，执行音高转换，并针对所有声道来重新编码或重新压缩音频流，以便将适当的标准化的数字音频流传送到外部音频解码器。由于需要附加的硬件来解码和编码不同的音频流代码类型(例如DTS、AC-3、MPEG)，并且由于音频重新编码需要附加的许可成本，所以这将导致盘播放器贵的难以接受。

在使用本发明时，在媒体播放器或记录器中，基于当前的视频和音频内容，自适应地丢弃音频信号帧(A-drop)或自适应地重复视频场或帧(V-repeat)。丢弃和重复基于视频和音频信号的当前内容，从而在分别更容易觉察到丢弃或重复处的信号，来控制视频和音频信号之间的同步，以将其共同呈现。重复特定视频场或帧以及丢弃特定音频帧将产生同步的AV流，其对于不能够以24p或60i速度来处理或呈现24p内容的显示器/扬声器组或监视器或电视机而言是兼容的。

因此，用户可以以其显示器或电视机可能的最高画面和音频质量来重放盘内容。重放质量限制并不取决于盘内容的格式，而是取决于用户的显示器的类型。

在本发明中，术语“原始音频信号速度”是指与原始预计的视频格式重放速度匹配的音频编码和音频重放速度。例如，如果原始预计的视频格式重放速度对应于24p格式，则音频编码和预计的音频重放速度或呈现对应于24p格式的重放速度或呈现。

要制作母版的盘或存储介质包含原始的24p视频和利于原始重放速度的适当的编码音频数据，以及介质所存储的与特定音频信号帧或块有关的附加信息以及与特定视频信号帧或场有关的附加信息：

-原始AV数据被用于重放用于24p兼容显示器/扬声器或电视机的内容，从而实现最佳的画面质量。

-已知的嵌入在AV数据流中的3:2下拉信息或数据项被用于重放用于60i显示器/扬声器或电视机的AV流，例如应用于60iDVD视频盘的MPEG视频流中的特定标志。

-对于50i呈现，在不使用3∶2下拉的情况下将24p视频呈现给视频输出。仅将一些选择的视频场用于附加呈现给视频输出。这减慢了视频输出，例如从比原始速度快4.2％减慢为比原始速度快2％。在创作期间进行相应的场选择。

存在：

-适用于视频场/帧重复且适用于音频帧丢弃的场景；

-适用于视频场/帧重复但是并不适用于音频帧丢弃的场景；

-并不适用于视频场/帧重复但是适用于音频帧丢弃的场景；

-既不适用于视频场/帧重复也不适用于音频帧丢弃的场景。

多数场景并不需要精确的同步，例如具有背景音乐的风景视频的场景。在这种场景中，两个场景之间的剪切可重复一些黑色视频帧，以便获得与音频的同步。

要丢弃一些所选的音频帧。这加速了音频输出，例如从原始速度加速到比原始速度快2％。

两种措施均使得同步的视频/音频重放平均比原始的24p电影速度快例如2％。在创作期间进行相应的音频帧选择。

对于50i呈现，将特定的A-drop和V-repeat信息或数据项插入AV流中，从而在50i电视机或显示器/扬声器上产生的24p AV流的平均重放速度在48i和50i速度之间，并且可在该范围内(甚至超出该范围)即时变化。

基于当前的视频和音频内容(即场景内容)，视频减慢和音频加速之间的平衡有所改变。例如，具有较强运动的场景的视频减慢将产生在重放期间可见的抖动。因此，对于这种场景，音频加速是优选的。

创作例如DVD视频的本发明可在单个主过程中执行：

a)以24p格式对数字视频进行编码，并针对60i重放而添加3-2下拉特征；

b)对于各种解码器和语言，根据24p格式速度来对数字音频进行编码；

c)编码字幕(在DVD中是子图像)；

d)产生菜单；

e)创作50i内容：

e.1)对AV流中的场景类型进行分类；

e.2)进行或隐藏AV流中视频的重复/音频的丢弃；

e.3)将字幕与音频或视频对准；

e.4)将50i信息项并入24p/60i盘数据图像(例如，存储在硬盘上)，即并入AV流和.ifo文件中；

f)制作母版。

如果本发明的原理成为例如HD-DVD或Blu-ray的标准规范的一部分，则它将可以产生与50i显示器以及60i显示器及24p显示器兼容的存储介质或盘。这将降低成本(只需要一个母版而不是两个)，并利于50i和60i国家之间的盘交换。

原理上，本发明的方法适用于创作或产生或编码表示视频信号和一个或多个音频信号的音频/视频数据流，所述视频信号具有24Hz视频帧频，所述音频信号具有原始速度，其中，所述创作或产生或编码包括以下步骤：

-以24p格式对视频数据进行编码，并且可选地添加3-2下拉数据项，以便于60Hz或接近60Hz场频的重放，以及根据所述原始速度对音频数据进行编码；

-编码字幕数据，并产生与所述视频、音频数据和字幕数据中的至少一个相关联的菜单；

-产生附加数据项，以便于以位于48Hz和50Hz之间的范围内的平均场频(表示为50i格式)来主观同步地呈现所述音频和视频信号，从而在所述音频/视频数据流中，包括可用在所述视频和音频信号的呈现单元中、用于控制视频信号场或帧重复的视频重复信息项，并且包括可用在所述呈现单元中、用于控制音频信号帧丢弃的音频丢弃信息项，

所述方法还包括以下步骤：

-自动地确定所述音频/视频数据流中的视频和音频场景，并针对所述50i格式中所需的视频/音频呈现同步，自动地对不同种类的所述视频和音频场景进行分类，包括确定分别不应进行音频帧丢弃或视频场重复的关键视频和音频场景；

-针对所述场景中的每一个，分别计算音频帧丢弃和/或视频场重复的最大可管理数目；

-针对非关键场景，计算音频帧丢弃信息项和/或视频场重复信息项的相应分布，

以及计算是否可通过相邻非关键场景中的相应数目的音频帧丢弃和/或视频场重复，来补偿当前关键场景所引入的视频/音频延迟，以及

如果是，则对于非关键场景，提供相应数目的视频重复信息项和音频丢弃信息项，所述视频重复信息项和所述音频丢弃信息项形成所述50i格式附加数据项的一部分，

如果不是，以所述50i格式，对所述当前关键场景的音频数据或视频数据重新编码，以便形成所述50i格式附加数据项的一部分；

-将所述50i格式附加数据项并入所述音频/视频数据流的有关数据字段或所述音频/视频数据流的拷贝中。

原理上，本发明的方法适用于创作或产生或编码表示视频信号和一个或多个音频信号的音频/视频数据流，所述视频信号具有60Hz视频帧频，所述音频信号具有原始速度，其中，所述创作或产生或编码包括以下步骤：

-以60p格式对视频数据进行编码，并根据所述原始速度对音频数据进行编码；

-产生附加数据项，以便于以位于48Hz和50Hz之间的范围内的平均场频(表示为50i格式)来主观同步地呈现所述音频和视频信号，从而在所述音频/视频数据流中，包括可用在所述视频和音频信号的呈现单元中、用于控制视频信号场或帧丢弃的视频丢弃信息项，并且包括可用在所述呈现单元中、用于控制音频信号帧丢弃的音频丢弃信息项，所述方法还包括以下步骤：

-自动地确定所述音频/视频数据流中的视频和音频场景，并针对所述50i格式中所需的视频/音频呈现同步，自动地对不同种类的所述视频和音频场景进行分类，包括确定分别不应进行音频帧丢弃或视频场或帧丢弃的关键视频和音频场景；

-针对所述场景中的每一个，分别计算音频帧丢弃和/或视频场或帧丢弃的最大可管理数目；

-针对非关键场景，计算音频帧丢弃信息项和/或视频场或帧丢弃信息项的相应分布，

以及计算是否可通过相邻非关键场景中的相应数目的音频帧丢弃和/或视频场或帧丢弃来补偿当前关键场景所引入的视频/音频延迟，以及

如果是，则对于非关键场景，提供相应数目的视频丢弃信息项和音频丢弃信息项，所述视频丢弃信息项和所述音频丢弃信息项形成所述50i格式附加数据项的一部分，

原理上，本发明的方法适用于创作或产生或编码表示视频信号和一个或多个音频信号的音频/视频数据流，所述视频信号具有48Hz视频帧频，所述音频信号具有原始速度，其中，所述创作或产生或编码包括以下步骤：

-以48p格式对视频数据进行编码，并添加3-2下拉数据项，以便于以60Hz或接近60Hz的帧频进行重放，并根据所述原始速度对音频数据进行编码；

-产生附加数据项，以便于以位于48Hz和50Hz之间的范围内的平均场频(表示为50i格式)来主观同步地呈现所述音频和视频信号，从而对于所述50i格式呈现忽略所述3-2下拉数据项，并在所述音频/视频数据流中，包括可用在所述视频和音频信号的呈现单元中、用于控制视频信号场或帧丢弃的视频丢弃信息项，并且包括可用在所述呈现单元中、用于控制音频信号帧丢弃的音频丢弃信息项，所述方法还包括以下步骤：

原理上，本发明的设备适用于创作或产生或编码表示视频信号和一个或多个音频信号的音频/视频数据流，所述视频信号具有24Hz视频帧频，所述音频信号具有原始速度，其中，所述创作或产生或编码设备包括：

-装置，适用于以24p格式对视频数据进行编码，并且可选地添加3-2下拉数据项，以便于60Hz或接近60Hz场频的重放，以及根据所述原始速度对音频数据进行编码，并编码字幕数据，产生与所述视频、音频数据和字幕数据中的至少一个相关联的菜单；

-装置，适用于产生附加数据项，以便于以位于48Hz和50Hz之间的范围内的平均场频(表示为50i格式)来主观同步地呈现所述音频和视频信号，从而在所述音频/视频数据流中，包括可用在所述视频和音频信号的呈现单元中、用于控制视频信号场或帧重复的视频重复信息项，并且包括可用在所述呈现单元中、用于控制音频信号帧丢弃的音频丢弃信息项，

从而：

-所述装置自动地确定所述音频/视频数据流中的视频和音频场景，并针对所述50i格式中所需的视频/音频呈现同步，自动地对不同种类的所述视频和音频场景进行分类，包括确定分别不应进行音频帧丢弃或视频场重复的关键视频和音频场景；

-所述装置针对所述场景中的每一个，分别计算音频帧丢弃和/或视频场重复的最大可管理数目；

-所述装置针对非关键场景，计算音频帧丢弃信息项和/或视频场重复信息项的相应分布，

-所述装置将所述50i格式附加数据项并入所述音频/视频数据流的有关数据字段或所述音频/视频数据流的拷贝中。

在各个从属权利要求中公开了本发明的其他有利实施例。

附图说明

参考附图来描述本发明的示范性实施例，附图中示出了：

图1示出了已知呈现模式24p、60i和50i以及关于本发明的50i呈现模式的比较；

图2示出了3:2下拉60i处理和仅具有少许智能选择的音频丢弃/视频重复的50i处理之间的差异；

图3示出了智能选择的音频帧丢弃和视频场重复的示例；

图4示出了对关键场景的处理，场景1和场景3补偿场景2所引入的音频和视频之间的延迟；

图5示出了关于图4的强调的延迟；

图6示出了非常关键的场景，因此附加的50i相关视频流或整个AV序列被插入流中；

图7示出了音频帧丢弃和视频场重复过程中的步骤；

图8示出了本发明的母版制作过程的流程图；

图9示出了本发明的母版制作设备的框图；

图10示出了具有视频帧和有关音频帧的VOBU或GOP；

图11示出了对视频和音频之间的偏移的处理。

具体实施方式

图1示出了已知的呈现模式，图1a中示出了24p，图1b中示出了60i以及图1c中示出了50i，而图1d中示出了关于本发明的50i呈现模式。在一些音频或视频数据矩形的底部处的阴影区域指示丢弃/重复的音频或视频数据的相对量。例如，在图1b中，60i的3:2下拉将编码视频场中的25％示出两次。在图1d中，所选视频场的重复加起来约2％，并且所选音频帧的丢弃占约2％。

实际上，平均视频流重放速度Vv从50i减小为接近48i(48i≤Vv≤50i)，并且平均音频流重放速度Va从48i增加为接近50i(48i≤Va≤50i)，结果是平均Vv等于Va(然而，在重放的开始和结尾处可能出现较小的时间间隙)。Va和Vv可(频繁地)在AV流内发生改变。换言之，在50i电视机或显示器/扬声器上产生的24pAV流的平均重放速度在48i和50i之间，即平均重放速度的增加在0和4.2％之间。局部地，在短时间段内，视频或音频速度可慢于48i及快于50i。

图2以不同的视图示出了60i 3:2下拉和50i呈现之间的差异。图2的上部示出了包含I编码画面I、预测编码画面P以及双向预测编码画面B以及它们的顶场T和底场B的MPEG GOP(图像组)的一部分。对于50i格式，仅重复少许(智能选择的)视频场(阴影区域)，并仅丢弃少许(智能选择的)音频帧(每个表示例如32ms的音频)。

在以下情况下会产生与50i有关的不利效果：

-在视频的强运动期间视频场重复的情况下；

-在和声期间音频帧丢弃的情况下；

-在唇形同步场景期间音频和视频之间有延迟的情况下。

这种不利的效果可通过本发明的音频帧丢弃/视频场重复的智能散布来避免。

图3示出了智能选择的音频帧丢弃/视频场重复的一些示例。在左边部分中，没有或几乎没有运动，而在播放小提琴音乐。不进行音频帧丢弃。在长度为12个画面的所示GOP中，在I画面之后的第一个B画面中，重复顶场。因此，每个接下来的画面均以底场开始，直到发生下一个场重复为止。

中间部分表示场景剪切，在第一场景的末端，作为底场而重复该场，并且第二场景的第一场之前是附加的顶场。

右边几乎寂静的部分表示具有强运动的另一个场景。预测没有场重复，但是强制进行更为频繁的音频帧丢弃。

下面更详细地描述上述步骤e)的四个阶段e.1)至e.4)。

e.1)对AV流中的场景进行分类

该阶段将整个视频序列分类为场景。

每个场景变化描述视频或音频呈现或两者的特定行为的变化。

场景分类包括：

-分类类别：运动，声音，场景剪切，唇形同步；

-所找到的分类类别的等级(每个分类类别的等级的种类和量基于该类别)；

-场景开始的时间戳，

一般而言：

-新场景停止前一场景(例如在DVD视频中对于子画面单元所实现的一样)；

-在一个或多个分类等级发生变化时新场景开始；

-每个场景由所有分类但是不同的等级来描述。

阶段e.1)包括可并行执行的数个检测过程——两个针对视频内容，两个针对音频内容。

检测视频有关的分类：

-检测场景中的运动(是自动的过程)

-使用MPEG或VC1运动向量来确定场景为3个等级：静止画面(1)、弱运动(2)、强谐运动(3)；

黑色视频帧是静止画面(经常出现)。

-使用亮度DC值来检测非常暗或亮的场景(这对于场重复是理想的，即，应该被标记为等级(2))。

等级的更高分辨率(例如1 0级)将产生视频帧重复的更为平滑的隐藏，即，包括一些运动的场景将比具有更少运动的场景

包含更少的视频场重复。

-检测场景剪切(是自动的过程)

-已经可用的软件自动地检测场景剪切，有3个等级：场景开始(1)、场景结束(2)、非场景剪切(3)场景；

等级(1)场景的第一帧或等级(2)场景的最后一帧对于执行视频场重复是理想的；

检测到的剪切并不需要是真正的场景剪切(即，场景剪切检测过程可强烈容忍误差)。从一个画面到下一个画面自然变化(例如闪烁)的场景将适合这种分类。

检测声音有关的分类：

-检测声音场景。这是声音分析器(程序)检测音量和/或频率变化的自动过程：

-等级(1)：静音音频，甚至是谈话或音乐中的短间隔；

-等级(2)：低音量、可听见的噪音或非音乐或恒定频率和音量；

-等级(3)：没有任何可听见的噪声的和声音频的变化(例如小提琴音乐会)。注意，即使在例如小提琴音乐会中，也会出现短的等级(2)场景。

等级的更高分辨率(例如10级)将产生音频帧丢弃的更加平滑的隐藏。

-检测唇形同步场景。这是自动场景候选检测。声音分析器(程序)检测谈话和/或声音峰值。人们确定所发现的候选场景是否需要唇形同步。使用两个等级：

唇形同步(1)；

非唇形同步(2)。

等级的更高分辨率(例如10级)利于所允许的延迟的不同等级。例如，拍打的门需要强的唇形同步。但是，对于经过的车辆的声音，音频和视频之间的小延迟是可接受的。

换言之，分类类别是：

-当前存在或不存在场景剪切；

-当前需要/不需要音频和视频的唇形同步，

以及以下各项中的至少一个视频相关和至少一个音频相关的类别：

-当前视频内容中有运动/无运动；

-当前存在/不存在非常暗或非常亮的场景；

-当前存在/不存在声音；

-当前存在/不存在低音量，、可听见的噪声、或非音乐、或恒定频率和音量；

-存在/不存在没有任何可听见的噪声的和声音频的当前变化。

场景分类过程主要是自动过程。仅仅候选唇形同步场景需要人们的确认或拒绝。该过程可强烈容忍误差，不需要精确的设置。分类过程产生分类和所分配的时间戳的列表。

已经产生了示例的电影盘的分类列表。图7示出了其分类过程的短示例摘选。将视频帧号用作时间戳。BN/v指示视频运动等级(1)/(2)/(3)。M/A/a指示音频声音等级(1)/(2)/(3)。S/s/-指示场景剪切(场景开始/结束/非场景剪切)。Y/y指示唇形同步/非唇形同步。

图7a示出了可管理延迟范围的计算。图7b示出了关键场景和前后延迟的管理。图7c示出了优化。图7d示出了结局。虚线圈示出了与其先前状态发生变化的区域。

e.2)AV流中视频重复/音频丢弃的进行或隐藏

该阶段使用上面发现的分类来计算音频帧丢弃和视频场重复。该处理可如下执行：

-计算每个场景的可管理延迟范围(最小和最大丢弃/重复)，参见图7a和图4。在图4中，场景1和场景3补偿场景2所引起的音频和视频之间的延迟。在场景1中，存在多于该独立场景所需的视频场重复。在场景2中，既没有视频场重复，也没有音频帧丢弃，前面和后面的场景提供同步(例如打开和关闭字幕)。在场景3中，存在多于该单独场景所需的视频场重复和音频帧丢弃。

-计算关键场景(“avy”和“avY”)的前后延迟，参见图7b和图4。

-管理关键场景：相邻场景可补偿关键场景？

如果是，则将前后延迟放进相邻场景中；

如果不是，则对场景的音频重新编码，并且可能添加音频流或整个并行的AV流部分。

-优化，尽可能地减少剩余延迟以同步：

静止画面：尽可能重复必要多的静止画面场，以将视频和音频同步；

静音音频：尽可能丢弃必要多的静音音频帧，以将音频和视频同步；

场景剪切：尽可能重复必要多的第一和最后的场景剪切视频场，以将音频和视频同步；

将一些丢弃/重复从次要关键场景移到更不关键的相邻场景。

-最后，对于所有剩下的尚未同步的场景进行补偿，使得：

在无运动或弱运动场景中，例如，通过使用24P:1下拉，来重复“V”视频场；

例如每25个音频帧，丢弃低音量场景“A”音频帧。

图5示出了该阶段的示例。图5与图4类似，并强调了在串联场景之前的延迟，以及使用音频丢弃/视频重复来获得场景的同步串联。

e.3)使字幕单元与音频或视频对准

该阶段将字幕(在DVD中是子图像)与视频或音频对准：

-使字幕与音频同步(缺省)。

-检测场景中具有大延迟的字幕(自动)：

人们决定视频对准是否是优选的；

延迟很少，即，仅有少许字幕需要确认；

如果有的话，对各种语言的所有并行字幕进行相同的对准。

e.4)将50i信息并入24p/60i盘数据图像(例如，存储在硬盘上)，即并入AV流和.ifo文件中

-(HD-)DVD视频：导航包NV_PCK (即仅用于该VOBU的信息)；

列出应该重复的(编码帧1、...12的)视频场(VOBU的平均持续时间＜0.5s)；

列出应该丢弃的(编码帧O、...、X的，X取决于音频的类型)音频帧或GOF(线性PCM，帧组)(VOBU的平均持续时间＜0.5s)；

同步音频和视频之间的偏移(仅对于重放开始)，包括指示该重放是以顶场还是底场开始；

如果字幕(例如在DVD中是子图像单元)与视频对准，则进行标记(“0”或“1”)；

所存储的呈现时间(通常为BCD格式)应该对于50i重放也是可用的。

-(HD-)DVD视频：节目链接PGC

在信息文件中添加信息(导航或更高级别的信息，在DVD中是IFO文件)，以指示在IFO文件和AV流中存在用于24p/60i以及50i重放的信息项，如果IFO文件中的上层已经指示所有PGC包含50i信息，则这种信息可能已经过时；

如果存在针对50i的任意专用AV数据(例如音频流或整个VOBU)，则添加50i-PGC，因此50i-PGC是已有24p-PGC的拷贝，但是为非常关键的场景重新指出音频流或单元。

作为专用50i-PGC的备选，扩展PGC的定义以涵盖24p、60i和50i的AV数据呈现的信息：

添加信息来选择用于50i重放的适当音频流；

添加信息来选择正确的单元；

添加与正确的呈现时间(例如以BCD格式)有关的信息，

例如整个节目的持续时间。注意：整个节目的持续时间对于50i和24p/60i是不同的。

-(HD-)DVD视频：在IFO文件中设置50i兼容标志。

-(HD-)DVD视频：IFO文件中所有存储的呈现时间(通常为BCD格式)也应该可供50i重放使用。

优选地，在本发明的输出AV流中，以面向GOP(图像组)的方式，或在DVD中以面向VOBU(视频对象单元)的方式，设置与音频和视频之间的同步偏移、以及子画面呈现时间、以及例如指示视频场重复和音频帧丢弃的位表有关的附加50i信息项。

图10按照呈现顺序，按24p时间线24pTL，示出了具有视频帧VFRMS I0、P0至P2以及B0至B7的VOBU或GOP，以及有关的音频帧AFRMS A0至A14，从而在该当前的VOBU中仅编码了阴影或灰色部分。当前的VOBU位于前一VOBU PVOBU和下一个VOBUNVOBU之间。

如果需要，将音频和视频呈现之间的起始偏移应用于呈现的开始，例如直接跳到电影的章节后重放的开始。图11按时间线24pTL和625/50时间线625/50TL示出了视频和音频之间的偏移AV_OFFS的有关处理，其中图11a示出了正的AV偏移，而图11b示出了零AV偏移，图11c示出了负AV偏移。图11a、b、c的上部示出了时间线24pTL，而图11a、b、c的下部示出了时间线625/50TL。如果呈现以标记的VOBU开始，则AV_OFFS描述了音频和视频之间的起始偏移。时间戳ts1是24p时间线中特定视频帧SVF的呈现开始时间。该SVF在625/50时间线中的呈现开始时间对应于音频点的呈现时间。时间戳ts2是该音频点在24p时间线中的相应时间。与ts1和ts2相对应的编码音频帧和该编码的SVF在当前的VOBU或下一个VOBUNVOBU中开始。此外，音频帧和该帧SVF可在没有对任何先前的VOBU PVOBU进行解码的情况下解码。在图11c中，由于AV偏移为负，所以特定视频帧SVF并不是帧I0，而是帧P0。已经对整个GOP进行了解码，但是呈现开始于帧P0。

图6示出了非常关键的场景，以至于在这种少数情况下，可将附加的50i有关音频流或整个AV序列(PGCAV)插入AV流。“PGCA”表示节目链接选择相应的音频流，但是使用同一个视频流。“PGCAV”表示节目链接针对24p/60i或50i重放而选择相应的单元/角度。

在图9中的本发明的母版制作设备的框图中，存在给DVD视频24p/60i AV流提供源24p/60iAVS的视频/音频/字幕/菜单编码器VASMENC。该AV流AVS在解复用器DMUX中被分为音频流AS和视频流VS。视频流进入自动视频场景检测器AUVSCDET，在此在视频解码器VDEC中对视频流进行解码，并且音频流进入自动音频场景检测器AUASCDET，在此在音频解码器ADEC中对音频流进行解码。AUVSCDET包括：使用运动向量的视频运动检测级VMOTDET；静止图像检测级STPICDET；以及场景剪切检测级SCCTDET。AUASCDET包括：仅和声音频检测级HAO；音频峰值检测级AP以及谈话检测级SP。在组合器CMB中将检测到的(组合或分离的)视频场景信息项DETVSC、检测到的音频场景信息项DETASC和检测到的唇形同步场景信息项DETLPSSC组合，并且将所收集的场景项存储在存储器MEM中。该存储器用作场景项、AV丢弃/重复项和字幕对准(最初与音频对准)的存储器。

还将AV流AVS馈入一个或多个监视器MON。在一个监视器上，人们检查在音频场景检测器AUASCDET中自动检测的候选音频峰值场景和候选谈话场景。例如，通过使用开关SW，所产生的人类控制信号HCTRL1确定自动检测到的候选音频峰值场景和候选谈话场景中的哪一些将形成唇形同步场景信息项DETLPSSC。

将取自存储器MEM的(视频和音频)场景信息项SC馈入AV延迟计算器AVDELC。所产生的延迟信息项可用于在产生器ADDAVDGEN中产生非常关键场景的附加AV数据，并以具有强延迟和字幕的场景的形式通过延迟优化器DELOPT，到达监视器MON。人们检查字幕是否与相应的视频信号内容对准。所产生的人类控制信号HCTRL2确定用于字幕/视频对准的相应改变，并且将所产生的信息项存储在存储器MEM中。延迟优化器DELOPT还提供音频帧丢弃和视频场重复的所需信息项，同样将其存储在存储器MEM中。

将与音频帧丢弃和视频场重复、字幕对准以及新呈现时间有关的信息从存储器MEM馈入最终的AV流修改器FAVSM，并在此用于修改IFO文件和附加的AV流信息，附加的AV流信息可作为附加的AV流数据并入源24p/60iAVS的DVD视频24p/60i AV流中或并入该流的拷贝中。还将在产生器ADDAVDGEN中产生的非常关键场景的附加AV数据作为附加AV流数据和IFO文件并入源24p/60iAVS的DVD视频24p/60i AV流或该流的拷贝中。

有利地，通过合并创作，50i处理只是同一个存储介质母版的附加处理步骤。50i创作主要是自动过程，仅对于检测结果的少数确认需要人类的交互。找到的分类可非常容忍误差，即易于实现。即使一些较差设置的视频重复也难以注意到。

通常，盘存储器消耗并不会增加。仅在很少的情况下，需要额外的几兆字节。

估计大于90％的所有电影盘均不会需要附加的PGC。

通过减少母版的数目，便于更加廉价的大规模生产。

如果希望，则本发明的盘可仅创作用于24p/60i，即并不包含60i-PGC。

从24p高清晰(HD)至标准清晰度(SD)的下转换同样适用于50i呈现。

还可以将60p(HD或SD)的源内容转换用于50i格式呈现。为此，使用相似的处理。与上述方法的主要不同在于需要丢弃(更多的)视频场而不是重复，以便于50i格式呈现。理论上，通过执行“逆3-2下拉”以及进一步在剩余视频场的50％和54.2％之间进行丢弃，因而有时甚至整个视频帧都被丢弃，并且通过对所产生的48p格式应用本发明以获得所希望的50i逻辑(或49i物理)格式呈现，来实现场数目的减少。然而，实际上，没有固定比例的下拉，而有自适应的场/帧丢弃，因此使用本发明的原理，将视频直接从60p转换为大约49i(物理上)。

如果源内容具有48p的格式，而通过产生并添加相应的3-2下拉数据项而创作了60p的格式，则执行视频场丢弃和相应的音频帧丢弃，使得平均上实现(物理)49i的呈现速度，因而对于50i逻辑(或49i物理)格式呈现，并不激活3-2下拉(即忽略相应的标志)。丢弃的视频场的量在50％和54.2％之间，即需要丢弃每隔一个场，有时甚至丢弃整个视频帧。

在该说明书中，使用了“音频帧”的表述。“音频帧”表示与15和50ms之间的持续时间相对应的音频段。在音频信号类别(例如线性PCM)使用更短的音频段的情况下，代替地，可使用适当的这种短音频帧的组。例如，在线性PCM的情况下，GOF将表示“音频帧”。

Claims

1.一种用于创作或产生或编码表示视频信号(VS)和一个或多个音频信号(AS)的音频/视频数据流(AVS)的方法，所述视频信号具有24Hz的视频帧频(24p)，所述音频信号具有原始速度，其中，所述创作或产生或编码包括以下步骤：

-以24p格式对视频数据进行编码(VASMENC)，并且可选地添加3-2下拉数据项，以便于60Hz或接近60Hz场频的重放，以及根据所述原始速度对音频数据进行编码(VASMENC)；

-编码(VASM ENC)字幕数据，并产生(VASM ENC)与所述视频、音频数据和字幕数据中的至少一个相关联的菜单；

-产生附加数据项，以便于以表示为50i格式的、位于48Hz和50Hz之间的范围内的平均场频来主观同步地呈现所述音频和视频信号，从而在所述音频/视频数据流中，包括可用在所述视频和音频信号的呈现单元中、用于控制视频信号场或帧重复的视频重复信息项，并且包括可用在所述呈现单元中、用于控制音频信号帧丢弃的音频丢弃信息项，

所述方法的特征在于：

-自动地确定(AUVSCDET，AUASCDET)所述音频/视频数据流中的视频和音频场景，并针对所述50i格式中所需的视频/音频呈现同步，自动地对不同种类的所述视频和音频场景进行分类(AUVSCDET，AUASCDET)，包括确定分别不应进行音频帧丢弃或视频场重复的关键视频和音频场景；

-针对所述场景中的每一个，分别计算(AVDELC)音频帧丢弃和/或视频场重复的最大可管理数目；

-针对非关键场景，计算(DELOPT)音频帧丢弃信息项和/或视频场重复信息项的相应分布，

以及计算(AVDELC)是否可通过相邻非关键场景中的相应数目的音频帧丢弃和/或视频场重复，来补偿当前关键场景所引入的视频/音频延迟，以及

如果不是，则以所述50i格式，对所述当前关键场景的音频数据或视频数据重新编码(ADDAVDGEN)，以便形成所述50i格式附加数据项的一部分；

-将所述50i格式附加数据项并入所述音频/视频数据流(AVS)的有关数据字段或所述音频/视频数据流的拷贝中。

2.一种用于创作或产生或编码表示视频信号(VS)和一个或多个音频信号(AS)的音频/视频数据流(AVS)的方法，所述视频信号具有60Hz的视频帧频，所述音频信号具有原始速度，其中，所述创作或产生或编码包括以下步骤：

-以60p格式对视频数据进行编码(VASMENC)，并根据所述原始速度对音频数据进行编码(VASMENC)；

-编码(VASMENC)字幕数据，并产生(VASMENC)与所述视频、音频数据和字幕数据中的至少一个相关联的菜单；

-产生附加数据项，以便于以表示为50i格式的、位于48Hz和50Hz之间的范围内的平均场频来主观同步地呈现所述音频和视频信号，

所述方法的特征在于，在所述音频/视频数据流中，包括可用在所述视频和音频信号的呈现单元中、用于控制视频信号场或帧丢弃的视频丢弃信息项，并且包括可用在所述呈现单元中、用于控制音频信号帧丢弃的音频丢弃信息项，所述方法的特征还在于：

-自动地确定(AUVSCDET，AUASCDET)所述音频/视频数据流中的视频和音频场景，并针对所述50i格式中所需的视频/音频呈现同步，自动地对不同种类的所述视频和音频场景进行分类(AUVSCDET，AUASCDET)，包括确定分别不应进行音频帧丢弃或视频场或帧丢弃的关键视频和音频场景；

-针对所述场景中的每一个，分别计算(AVDELC)音频帧丢弃和/或视频场或帧丢弃的最大可管理数目；

-针对非关键场景，计算(DELOPT)音频帧丢弃信息项和/或视频场或帧丢弃信息项的相应分布，

以及计算(AVDELC)是否可通过相邻非关键场景中的相应数目的音频帧丢弃和/或视频场或帧丢弃来补偿当前关键场景所引入的视频/音频延迟，以及

3.一种用于创作或产生或编码表示视频信号(VS)和一个或多个音频信号(AS)的音频/视频数据流(AVS)的方法，所述视频信号具有48Hz的视频帧频，所述音频信号具有原始速度，其中，所述创作或产生或编码包括以下步骤：

-以48p格式对视频数据进行编码(VASMENC)，并添加3-2下拉数据项，以便于以60Hz或接近60Hz的帧频进行重放，并根据所述原始速度对音频数据进行编码(VASMENC)；

所述方法的特征在于，对于所述50i格式呈现忽略所述3-2下拉数据项，并在所述音频/视频数据流中，包括可用在所述视频和音频信号的呈现单元中、用于控制视频信号场或帧丢弃的视频丢弃信息项，并且包括可用在所述呈现单元中、用于控制音频信号帧丢弃的音频丢弃信息项，所述方法的特征还在于：

4.一种用于创作或产生或编码表示视频信号(VS)和一个或多个音频信号(AS)的音频/视频数据流(AVS)的设备，所述视频信号具有24Hz的视频帧频(24p)，所述音频信号具有原始速度，其中，所述创作或产生或编码设备包括：

-装置(VASM ENC)，适用于以24p格式对视频数据进行编码，并且可选地添加3-2下拉数据项，以便于60Hz或接近60Hz场频的重放，以及根据所述原始速度对音频数据进行编码，并编码字幕数据，产生与所述视频、音频数据和字幕数据中的至少一个相关联的菜单；

-装置(DMUX，AUASCDET，AUVSCDET，CMB，AVDELC，DELOPT，ADDAVGEN)，适用于产生附加数据项，以便于以表示为50i格式的、位于48Hz和50Hz之间的范围内的平均场频来主观同步地呈现所述音频和视频信号，从而在所述音频/视频数据流中，包括可用在所述视频和音频信号的呈现单元中、用于控制视频信号场或帧重复的视频重复信息项，并且包括可用在所述呈现单元中、用于控制音频信号帧丢弃的音频丢弃信息项，

所述设备的特征在于：

如果不是，则以所述50i格式，对所述当前关键场景的音频数据或视频数据重新编码，以便形成所述50i格式附加数据项的一部分；

-所述装置将所述50i格式附加数据项并入所述音频/视频数据流(AVS)的有关数据字段或所述音频/视频数据流的拷贝中。

5.根据权利要求1至3之一的方法，或者根据权利要求4的设备，其中，对于所述50i格式附加数据项，将字幕单元与所述视频或音频数据对准。

6.根据权利要求1至3和5之一的方法，或者根据权利要求4或5的设备，其中，所述分类类别是：

-当前存在或不存在场景剪切；

-当前需要/不需要音频和视频的唇形同步，

-当前视频内容中有运动/无运动；

-当前存在/不存在非常暗或非常亮的场景；

-当前存在/不存在声音；

-当前存在/不存在低音量、或可听见的噪声、或非音乐、或恒定频率和音量；

7.根据权利要求6所述的方法或设备，其中，由人确认自动发现的候选唇形同步场景实际上是否需要唇形同步。

8.根据权利要求1、3和5至7之一的方法，或者根据权利要求4至7之一的设备，其中：

在无运动场景类别中，尽可能重复必要多的静止画面场，以将视频和音频同步；

在静音音频场景类别中，尽可能丢弃必要多的静音音频帧，以将音频和视频同步；

在场景剪切场景类别中，尽可能重复必要多的第一和最后的场景剪切视频场，以将音频和视频同步。

9.根据权利要求1、3和5至8之一的方法，或者根据权利要求4至8之一的设备，其中，选择所述50i格式附加数据项，使得在无运动或弱运动场景类别中，使用24:1下拉来重复视频场，和/或在低音量场景中，丢弃每第25个音频帧。

10.根据权利要求1至3和5至9之一的方法，或者根据权利要求4至9之一的设备，其中，将所述50i格式附加数据项插入所述音频/视频数据流(AVS)的导航数据分组和/或.ifo文件中。

11.一种存储介质，包含或在其中记录有根据权利要求1至3和5至10之一的方法而创作或产生或编码的音频/视频数据流(AVS)。

12.一种根据权利要求1至3和5至10之一的方法而创作或产生或编码的音频/视频数据流(AVS)。