具体实施方式
实施例:视频编码器框图:
图1是显示了本发明实施例中的视频/图像编码装置的结构的框图。
视频编码装置是以逐块为基准的编码输入视频/图像比特流以产生经编码的输出比特流的装置。如图1所示,该装置包括变换单元101、量化单元102、逆量化单元103、逆变换单元104、块存储器105、帧存储器106、帧内预测单元107、帧间预测单元108、熵编码单元109、3D特性数据提取或产生单元110、和视频数据头写入单元111,在此,将包括Dmin和Dmax的3D特性数据嵌入到视频比特流的头中。Dmax是这个场景的最大视差,Dmin是这个场景的最小视差。
将输入视频输入到单元110,输入视频可以是2D或具有深度的2D、立体或具有深度的立体、多视点3D或具有深度的多视点3D,在此,从输入视频内容提取或产生3D特性数据,尤其是为Dmin和Dmax。
可以由以下方式之一产生Dmin和Dmax:1)通过使用距离或深度传感器在3D电影拍摄过程中从场景中最近的物体和最远的物体获取;2)在3D电影拍摄过程中通过从场景的一对视频计算视差获取;3)在3D打包过程中从摄像机参数连同视频场景产生,或者从有/无深度的3D数据自身计算,或者仅简单地从部分输入数据提取,该输入数据预先产生并附于输入视频中。Dmin和Dmax连同其他3D特性数据由写入单元111写入并嵌入到比特流的头中。
在将像素的块输入到加法器中后,将相加值的块输出到变换单元101。变换单元101将相加值变换为频率系数,并将作为结果的频率系数输出到量化单元102。量化单元102量化所输入的频率系数,并将作为结果的量化值输出到逆量化单元103和熵编码单元109。熵编码单元109编码从量化单元102输出的量化值,并输出比特流。
逆量化单元103逆量化从量化单元102输出的样本值,并将频率系数输出到逆变换单元104。逆变换单元104对频率系数执行逆频率变换,以便将频率系数变换为比特流的样本值,并输出到加法器。该加法器将从逆变换单元104输出的比特流的样本值加到从帧内/帧间预测单元107、108输出的预测视频/图像值,并将作为结果的相加值输出到块存储器105或帧存储器106用于进一步的预测。帧内/帧间预测单元107、108在存储在块存储器105或帧存储器106中的重构视频/图像内搜索,并评估例如是与用于预测的输入视频/图像最相似的视频/图像区域。
除了Dmin和Dmax以外,3D特性还可以包括摄像机参数:本征和非本征摄像机参数、摄像机之间的基线、每个摄像机的聚焦透镜值、在每对摄像机之间的会聚角,在序列头中携带它们,以反映相同拍摄条件下的那组画面的同一3D特性。这种参数被提取并用于解码器和终端中用以3D内容编辑、3D渲染或基于3D的感测目的。
实施例(I):语法
图5是语法图,其显示了在本发明的示例性实施例中用于每一个画面或每一个序列的3D特性参数尤其是Dmin和Dmax的位置。
在图5(A)中,3D特性参数,尤其是Dmin和Dmax可以位于画面参数集合中。画面参数集合中的3D特性参数,尤其是Dmin和Dmax包括用于每一个画面的Dmin和Dmax以及它们的准确度。
在图5(B)中,包括Dmin和Dmax的3D特性参数可以位于序列参数集合中。序列参数集合中包括Dmin和Dmax的3D特性参数包括用于每一个序列的Dmin和Dmax以及它们的准确度,以表示用于序列中画面组的平均Dmin和Dmax。
在图6中是语法图,显示了3D特性参数在补充增强信息消息中的位置。在补充增强信息消息中的3D特性参数除了用于有效3D编码和解码以及3D渲染的摄像机参数以外,还包括Dmin和Dmax以及它们的准确度。
能够通过移动到每一个深度像素的平均视差而将Dmin和Dmax用于深度图像的编码,以减小视差值的动态范围,从而保存编码位;
使Dmean表示用于场景的视差的平均值,它可以从用于该场景的Dmin和Dmax导出,Dmean=(Dmax-Dmin)/2;
在用于整个图像的深度产生过程期间,如果获知了图像的Dmin和Dmax,就可以将搜索窗口大小设定为由Dmax限定的最大值,用以找到用于每一个图像像素的每一个深度/视差值,这不仅可以减少深度产生中的计算,还不会漏掉正确的深度值。
接下来,给出关于如上所述的视频编码装置100的操作的说明。
实施例(I):编码流程图:
图7是流程图(S700),其显示了本发明实施例中用于视频/图像编码装置100的编码方法/步骤的操作序列。
在步骤S702处,从输入数据产生3D特性尤其是Dmin和Dmax。在步骤S704处,评估在画面上的Dmin和Dmax的变化,以查明它们在一组画面上是否几乎相同。随后,在步骤S706处,如果Dmin和Dmax在画面上存在变化,就将产生的Dmin和Dmax写入到画面的头中,否则就写入序列的头中。在步骤S708处,使用Dmin和Dmax编码每一个画面或序列,以便改进编码效率并减少编码过程的计算。最后,在步骤S710中,经编码的画面或序列被写入到具有设置在它们的头中的相应Dmin和Dmax的流中。
实施例(II):编码流程图:
图9是流程图(S900),其显示了本发明的第二实施例中用于视频/图像编码装置100的编码方法/步骤的操作序列。
在步骤S902处,通过提取附于输入3D内容的3D特性数据来获取Dmin、Dmax。可以在3D内容拍摄期间通过感测设备测量与拍摄设备的最近和最远物体距离来获取Dmin、Dmax。
如果没有附于输入3D内容的Dmin、Dmax,在步骤S904处,可以通过借助任何手段从输入3D内容计算用于画面或序列的最大和最小视差来获取它们。在步骤S906处,检查Dmin、Dmax是否在相邻画面之间没有改变。倘若如此,在步骤S908处,就将Dmin、Dmax与其他3D特性数据一起写入到用于如MPEG3D格式的视频编码的视频流的序列的头中,或者写入到用于储存格式的打包单元的头中,所述存储格式例如是用于在3D摄像机中使用的3D静止画面格式的MPO(多画面组织)(Multiple PictureOrganization)。反之在步骤910处,将Dmin、Dmax与其他3D特性数据一起写入到用于如MPEG3D格式的视频编码的视频流的每一个画面的头中,或者写入到用于储存格式的打包单元的头中,所述存储格式例如是用于在3D摄像机中使用的3D静止画面格式的MPO(多画面组织)。
本发明的效果在于借助已知的Dmin、Dmax,编码器可以用于有效的编码,例如通过将每一个深度像素移动从Dmin和Dmax导出的平均视差值来编码深度图像,并且本发明的效果对于渲染也非常有用,以确定这种Dmin、Dmax是否适合于不同观看条件,从而确保对于包括观看距离、显示大小和图像分辨率等的不同观看条件的3D健康观看。
图4是说明图,用以显示基于多个观看条件的人眼的最大可接受/可允许视差。
在此,最大_图像_视差(以像素数量计)是基于以下观看条件的组合的作为健康3D观看的人眼可以接受的最大图像视差:观看_距离、图像_宽度、显示_宽度、眼睛_距离和屈光度。建议的公式显示如下:
[数学公式1]
屈光度和眼睛_距离可以是固定值,其中,眼睛_距离是在双眼之间的距离,通常在成人和儿童之间存在差异。所以可允许的最大视差将由观看_距离、显示_宽度、图像_宽度来确定,其中,观看_距离是以米为单位的从人眼到屏幕的距离,显示_宽度是以米为单位的在水平方向上的物理显示尺寸、图像_宽度是以像素数量为单位的在水平方向上的图像分辨率。
图8A是流程图,显示了如何将Dmin和Dmax嵌入到用于储存和传送的3D内容中,以及如何从相应的3D内容编码流或3D内容打包文件中连同其他观看参数一起提取所嵌入的Dmin和Dmax,以确定所提取的Dmin和Dmax是否需要手动调整,从而为用户提供健康的3D观看体验。
S800e的单元显示了如何将Dmin和Dmax嵌入到用于储存或传送的3D内容编码流中或者3D内容打包文件中。在S801e的步骤,计算Dmin和Dmax视差,随后在S802e的步骤将它们嵌入到3D内容文件(编码流或打包文件)中,用以在S803e的步骤中进行储存或用以在S804e的步骤中进行传送。
在图8A中,S800d的单元显示了如何将所嵌入的Dmin和Dmax连同观看参数一起用于确定相同的3D内容是否能够为用户提供健康的3D观看体验。
S801d的步骤是用以借助任何手段获取观看距离/观看_距离,例如使用面部检测以定位观看者的面部,随后通过软件或距离测量设备测量从观看者到显示器的距离,S803d的步骤是通过用户从TC参数设定选择来获取图像分辨率/图像_宽度、显示尺寸/显示_宽度和眼睛距离,它们可以认为是固定值。S803d的步骤是用以提取在3D内容流或3D打包文件中所携带的Dmin和Dmax。
S804d的步骤是用以计算对应于最大视差的可允许3D弹出,和可允许3D预算,其中在图4中解释并示出了可允许最大视差的计算,并且可以如图13所示地依据3D健康观看区的规则来获取可允许3D预算。在用于在30’’屏幕上HD分辨率的强烈3D效果情况下,根据3D电影制作者的经验,对于陷入(deep-in)可以将其设定为-40像素,对于弹出(pop-up),可以将其设定为+160像素。
S805d的步骤是用以检查从3D内容编码流或3D内容打包文件提取的Dmax是否大于基于图4中所示的观看参数而计算的可允许最大视差,如果是,那么就需要调整3D内容以使得新的Dmax在弹出的可允许范围内,这在S806d-a的步骤中进行,以提醒用户通过使用遥控器或者如手势的其他用户界面来自己调整弹出程度。否则,就可以在S807d的步骤中将3D内容显示到3D显示器而不进行调整,因为它能够提供健康的3D观看。
对于更严格的3D健康观看规则,针对(Dmax-Dmin)进一步进行相同的检查,如果它大于可允许3D预算,那么就前进到S806d进行3D预算调整,以将(Dmax-Dmin)减小到可允许3D预算内,在此,(Dmax-Dmin)的值的减小会需要具有准确值的高质量深度,以基于给定深度和3D预算执行3D渲染。如果在S805d的步骤(Dmax-Dmin)小于可允许3D预算,即在健康3D观看预算内,那么就前进到S807d,显示3D内容而不进行调整。
图8B是流程图,用以显示如何将Dmin和Dmax嵌入到用于储存和传送的3D内容,和如何从相应的3D内容编码流或3D内容打包文件中连同其他观看参数一起提取所嵌入的Dmin和Dmax,以确定所提取的Dmin和Dmax是否需要自动调整,从而为用户提供健康的3D观看体验。
S800e的单元显示了如何将Dmin和Dmax嵌入到用于储存或传送的3D内容编码流中或者3D内容打包文件中。在S801e的步骤,计算Dmin和Dmax视差,随后在S802e的步骤将它们嵌入到3D内容文件(编码流或打包文件)中,用于在S803e的步骤中进行储存或者用于在S804e的步骤中进行传送。
在图8B中,S800d的单元显示了如何将所嵌入的Dmin和Dmax连同观看参数一起用于确定相同的3D内容是否能够为用户提供健康的3D观看体验。
S801d的步骤是用以借助任何手段来获取观看距离/观看_距离,例如使用面部检测以定位观看者的面部,随后通过软件或距离测量设备来测量从观看者到显示器的距离,S803d的步骤是通过用户从TC参数设定选择来获取图像分辨率/图像_宽度、显示尺寸/显示_宽度和眼睛距离,它们可以认为是固定值。S803d的步骤是提取在3D内容流或3D打包文件中所携带的Dmin和Dmax。
S804d的步骤是用以计算对应于最大视差的可允许3D弹出,和可允许3D预算,其中在图4中解释并示出了可允许最大视差的计算,可以如图13所示地依据3D健康观看区的规则获取可允许3D预算。在用于在30’’屏幕上HD分辨率的强烈3D效果的情况下,根据3D电影制作者的经验,对于陷入可以将其设定为-40像素,对于弹出,可以将其设定为+160像素。
S805d的步骤是用以检查从3D内容编码流或3D内容打包文件所提取的Dmax是否大于基于图4中所示的观看参数而计算的可允许最大视差,如果是,那么就需要调整3D内容以使得新的Dmax在弹出的可允许范围内,这在S806d-b的步骤中自动进行。否则,就可以在S807d的步骤中将3D内容显示到3D显示器而不进行调整,因为它能够提供健康的3D观看。
对于更严格的3D健康观看规则,针对(Dmax-Dmin)进一步进行相同的检查,如果它大于可允许3D预算,那么就前进到S806d进行3D预算调整,以将(Dmax-Dmin)减小到可允许3D预算内,在此,(Dmax-Dmin)的值的减小会需要具有准确值的高质量深度,以基于给定深度和3D预算执行3D渲染。如果在S805d的步骤(Dmax-Dmin)小于可允许3D预算,即在健康3D观看预算内,那么就前进到S807d,显示3D内容而不进行调整。
实施例:解码器和3D终端
图2是显示了本发明实施例中的视频解码装置200的结构的框图。
视频解码装置200是在逐块的基础上用于解码输入编码比特流并输出视频/图像的装置,如图2所示,视频解码装置200包括熵解码单元201、逆量化单元202、逆变换单元203、块存储器204、帧存储器205、帧内预测(intra prediction)单元206、帧间预测(inter prediction)单元207和子比特流提取器单元208。在本发明的另一个可能的实施例中,子比特流提取器单元208是与视频解码装置分离的另一个装置。
将输入编码比特流输入到比特流提取器单元208,并输出子比特流(其进行从单元201开始的标准解码处理),还输出具有其他摄像机参数的Dmin和Dmax,它们进行标准解码处理,用于使用所提取的3D参数进行解码,同时转到显示方以确保能够以健康的3D质量将经编码的或经打包的3D内容呈现给用户。
在将输入编码比特流输入到熵解码单元201后,熵解码单元201解码输入编码比特流,并将经解码的值输出到逆量化单元202。逆量化单元202逆量化解码值,并将频率系数输出到逆变换单元203。逆变换单元203在频率系数上执行逆频率变换,以便将频率系数变换为样本值,并将作为结果的像素值输出到加法器。加法器将作为结果的像素值加到从帧内/帧间预测单元206、207输出的预测视频/图像值,并将作为结果的值输出到显示器,将作为结果的值输出到块存储器204或帧存储器205,用于进一步的预测。另外,帧内/帧间预测单元206、207在存储于块存储器204或帧存储器205中的视频/图像内进行搜索,并评估例如是与用于预测的经解码的视频/图像最相似的视频/图像区域。
图3A是流程图,其显示了在本发明的实施例中解码器和显示终端用以借助用户的手动3D内容调整来提取并利用所嵌入的Dmin和Dmax进行3D健康观看。
S301a的步骤用以是借助任何手段来获取观看距离/观看_距离,例如使用面部检测以定位观看者的面部,随后通过软件或距离测量设备测量从观看者到显示器的距离,S302a的步骤是通过用户从TC参数设定选择或者自动地获取图像分辨率/图像_宽度、显示尺寸/显示_宽度和眼睛距离,它们可以认为是固定值。S303a的步骤是提取在3D内容流或3D打包文件中所携带的Dmin和Dmax。
S304a的步骤是用以计算对应于最大视差的可允许3D弹出,和可允许3D预算,其中在图4中解释并示出了可允许最大视差的计算,如图13所示地可以依据3D健康观看区的规则来获取可允许3D预算。在用于在30’’屏幕上HD分辨率的强烈3D效果的情况下,根据3D电影制作者的经验,对于陷入可以将其设定为-40像素,对于弹出,可以将其设定为+160像素。
S305a的步骤是用以检查从3D内容编码流或3D内容打包文件所提取的Dmax是否大于基于图4中所示的观看参数而计算的可允许最大视差,如果是,那么就需要调整3D内容以使得新的Dmax在弹出的可允许范围内,这在S306a的步骤中进行,以提醒用户通过使用遥控器或者如手势的其他用户界面自己调整弹出程度。否则,就可以在S307a的步骤中将3D内容显示到3D显示器而不进行调整,因为它能够提供健康的3D观看。
对于更严格的3D健康观看规则,针对(Dmax-Dmin)进一步进行相同的检查,如果它大于可允许3D预算,那么就前进到S306a进行3D预算调整,以将(Dmax-Dmin)减小到可允许3D预算内,在此,(Dmax-Dmin)的值的减小会需要具有准确值的高质量深度,以基于给定深度和3D预算执行3D渲染。如果在S305a的步骤(Dmax-Dmin)小于可允许3D预算,即在健康3D观看预算内,那么就前进到S307a,显示3D内容而不进行调整。
图3B是流程图,其显示了在本发明的实施例中解码器和显示终端用以借助自动地3D内容调整来提取并利用所嵌入的Dmin和Dmax进行3D健康观看。
S301b的步骤是用以借助任何手段来获取观看距离/观看_距离,例如使用面部检测以定位观看者的面部,随后通过软件或距离测量设备来测量从观看者到显示器的距离,S302b的步骤是通过用户从TC参数设定选择或者自动地获取图像分辨率/图像_宽度、显示尺寸/显示_宽度和眼睛距离,它们可以认为是固定值。S303b的步骤是用于提取在3D内容流或3D打包文件中所携带的Dmin和Dmax。
S304b的步骤是用以计算对应于最大视差的可允许3D弹出,和可允许3D预算,其中在图4中解释并示出了可允许最大视差的计算,如图13所示地可以依据3D健康观看区的规则来获取可允许3D预算。在用于在30’’屏幕上HD分辨率的强烈3D效果的情况下,根据3D电影制作者的经验,对于陷入可以将其设定为-40像素,对于弹出,可以将其设定为+160像素。
S305b的步骤是用以检查从3D内容编码流或3D内容打包文件所提取的Dmax是否大于基于图4中所示的观看参数而计算的可允许最大视差,如果是,那么就需要调整3D内容以使得新的Dmax在弹出的可允许范围内,这在S306b的步骤中自动进行。否则,就可以在S307b的步骤中将3D内容显示到3D显示器而不进行调整,因为它能够提供健康的3D观看。
对于更严格的3D健康观看规则,针对(Dmax-Dmin)进一步进行相同的检查,如果它大于可允许3D预算,那么就前进到S306b进行3D预算调整,以将(Dmax-Dmin)减小到可允许3D预算内,在此,(Dmax-Dmin)的值的减小会需要具有准确值的高质量深度,以基于给定深度和3D预算执行3D渲染。如果在S305b的步骤(Dmax-Dmin)小于可允许3D预算,即在健康3D观看预算内,那么就前进到S307b,显示3D内容而不进行调整。
图10是流程图(S1000),其显示了在本发明的实施例中用于视频/图像解码装置200的解码方法/步骤的操作顺序。
在步骤S1002和S1004处,从输入3D视频流解析由SEI消息和序列头携带的摄像机参数及Dmin和Dmax,以用于解码序列。在步骤S1006处,从输入3D视频流解析画面头中携带的Dmin和Dmax,以用于解码每一个画面。
随后,在步骤S1008处,使用解析的摄像机参数及Dmin和Dmax来解码视差视图和深度图像。最后,在步骤S1010处,借助经解析的Dmin和Dmax和观看参数,从解码的视差视图和解码的深度图像重构并创建3D画面,其中,可以通过使用解析的Dmin、Dmax和包括观看距离、显示尺寸和图像分辨率的观看参数修改最终的3D画面或3D视频以确保健康的3D观看。
本发明的效果在于将Dmin和Dmax用于有效的编码并在3D编码流中携带Dmin和Dmax用于健康的3D观看。
实施例:用于3D照片幻灯片显示的解码流程图
图11是流程图,其显示了在本发明的实施例中用以提取所嵌入的Dmin和Dmax并将其用于3D照片幻灯片显示的解码器和显示终端。
步骤S1101是借助任何手段来获取观看距离/观看_距离,例如使用面部检测以定位观看者的面部,随后通过软件或距离测量设备测量从观看者到显示器的距离。S1102的步骤是用以获取图像分辨率/图像_宽度、显示尺寸/显示_宽度和眼睛距离,它们可以认为是固定值。
S1103的步骤是用以逐一输入MPO打包格式的照片,其中嵌入了摄像机参数及Dmin和Dmax,随后S1105的步骤是用以解包并提取包括Dmin和Dmax的嵌入的摄像机参数,用于解码处理和健康的3D幻灯片放映。S1106的步骤是用于将经解包的3D照片文件解码为单视图/画面对。
S1104的步骤是用以计算对应于最大视差的可允许3D弹出,和可允许3D预算,其中在图4中解释并示出了可允许最大视差的计算,可以如图13所示地依据3D健康观看区的规则来获取可允许3D预算。在用于在30’’屏幕上HD分辨率的强烈3D效果的情况下,根据3D电影制作者的经验,对于陷入可以将其设定为-40像素,对于弹出,可以将其设定为+160像素。
S1107的步骤是用以设定固定不变的(Dmax-Dmin)和固定不变的Dmax作为用于全部照片的中心值,其中,这种中心值加上增量应在由S1104的步骤中计算的可允许最大视差和可允许3D预算保护的范围内。
S1108的步骤是用以进行解码视图对的调整,以使得它们的新(Dmax-Dmin)和Dmax与在S1107的步骤中设定的中心值相同或接近。每一张照片的新(Dmax-Dmin)和新Dmax可以在中心值上下,但最终值仍在可允许范围内,并且在时域中被布置用于幻灯片显示的相邻画面中还具有小增量变化。
本发明的效果是将包括Dmin和Dmax的摄像机参数用于有效编码,并在如MPO格式的打包3D照片中提取包括Dmin和Dmax的摄像机参数,用于健康的3D照片观看或健康的3D照片幻灯片显示。
实施例:用于借助默认Dmin和Dmax的3D内容拍摄的流程图
图12是作为单元S1200的流程图,其显示了借助对应于实际3D观看条件的默认Dmin和Dmax的3D内容拍摄,同时将Dmin和Dmax映射到可允许Dmin和Dmax,其即使处于拍摄方的不同观看条件下也可以引起舒适且有效的3D观看。
步骤1201是用以基于图4和12而一次离线获取Dmax和3D预算/(Dmax-Dmin),以使得这种Dmin和Dmax在导致例如在家中的健康3D观看或用于在影院的3D观看等的可允许范围内。基于如显示尺寸、图像分辨率和估计的观看距离等的特定观看条件计算这种Dmin和Dmax。通过将这种观看参数键入拍摄设备,获取Dmin和Dmax作为将来拍摄的默认设定。
步骤S1202是用户从摄像机菜单选择默认设定,以便使用默认Dmin和Dmax来保护3D拍摄过程,从而确保拍摄的3D在用于以后在家中或影院的健康观看的可允许Dmin和Dmax内。
步骤S1203是用以调整拍摄设备,如立体/3D摄像机基线、会聚角、变焦镜头等,以确保用于场景的实际最大和最小视察应在由默认Dmax和3D预算/(Dmax-Dmin)保护的范围内。步骤S1204是将拍摄的3D内容连同真实Dmin和Dmax及其他摄像机参数一起存储在本地介质中,或者传送出去,用于在3D显示器上显示3D内容。
步骤S1205是用以基于相应的观看距离、拍摄和观看显示尺寸和图像分辨率等来将Dmin和Dmax的默认设定转换为对应于以3D摄像机屏幕观看的Dmin和Dmax,或者可以基于在拍摄方的观看条件,通过使用图4和12来获取这种Dmin和Dmax。步骤S1206是用以完全出于在拍摄显示器上的舒适和有效3D观看的目的而使用在步骤S1205所获取Dmin和Dmax来调整拍摄的3D内容。
实施例(III):
通过在记录介质中记录程序,以便实施在每一个实施例中所述的运动画面编码方法(图像编码方法)和运动画面解码方法(图像解码方法)的配置,可以在独立的计算机系统中简单的实施在每一个实施例中所述的处理。记录介质可以是任何记录介质,只要可以记录程序就行,例如磁盘、光盘、磁光盘、IC卡和半导体存储器。
在下文中将说明对在每一个实施例中所述的运动画面编码方法(图像编码方法)和运动画面解码方法(图像解码方法)的应用和使用它的系统。系统的特征在于具有图像编码和解码装置,其包括使用图像编码方法的图像编码装置和使用图像解码方法的图像解码装置。系统中的其他配置可以依据情况适当地改变。
图14示出了用于实施内容分发服务的内容提供系统ex100的总体配置。将用于提供通信服务的区域分为期望大小的小区,和基站ex106、ex107、ex108、ex109及ex110,它们是设置在每一个小区中的固定无线站。
经由互联网ex101、互联网服务供应商ex102、电话网络ex104并分别经由各个基站ex106到ex110将内容提供系统ex100连接到设备,例如计算机ex111、个人数字助理(PDA)ex112、摄像机ex113、蜂窝电话ex114和游戏机ex115。
但内容提供系统ex100的配置不限于图14所示的配置,连接了任意元件的组合都是可接受的。另外,每一个设备都可以直接连接到电话网络104,而不是经由是固定无线站的基站ex106到ex110。而且,设备可以经由短距离无线通信等彼此互连。
诸如数字视频摄像机之类的摄像机ex113能够拍摄视频。诸如数码相机的照相机ex116能够拍摄静止图像和视频。而且,蜂窝电话ex114可以是满足以下任意标准的蜂窝电话,例如全球移动通信系统(GSM)(注册商标)、码分多址(CDMA)、宽带码分多址(W-CDMA)、长期演进(LTE)和高速分组接入(HSPA)。或者,蜂窝电话ex114可以是个人手持电话系统(PHS)。
在内容提供系统ex100中,流服务器ex103经由电话网络ex104和基站ex109连接到摄像机ex114等,这实现了实况演出等的图像分发。在这个分发中,按照以上每一个实施例中所述地编码由用户使用摄像机ex113拍摄的内容(例如音乐实况演出的视频)(即,摄像机起到根据本发明方案的图像编码装置的作用),并将编码内容传送到流服务器ex103。另一方面,流服务器ex103执行基于客户机请求的发送的内容数据到客户机的流分发。客户机包括计算机ex111、PDA ex112、摄像机ex113、蜂窝电话ex114、和游戏机ex115,它们能够解码上述的编码数据。已经接收到分发的数据的每一个设备都解码并再生编码数据(即起到根据本发明方案的图像解码装置的作用)。
拍摄的数据可以由摄像机ex113或发送数据的流服务器ex103编码,或者编码处理可以在摄像机ex113与流服务器ex103之间分担。类似地,分发的数据可以由客户机或流服务ex103解码,或者解码处理可以在客户机与流服务器ex103之间分担。而且,不仅是由摄像机ex113拍摄的,还有由照相机ex116拍摄的静止图像和视频的数据可以通过计算机ex111发送到流服务器ex103。编码处理可以由照相机ex116、计算机ex111或者流服务器ex103执行,或者在它们中分担。
而且,编码和解码处理可以由LSI ex500执行,其总体上包括在计算机ex111和设备的每一个中。LSI ex500可以被配置为具有单芯片或多芯片。用于编码和解码视频的软件可以集成到一些类型的记录介质中(例如,CD-ROM、软盘和硬盘),其可以由计算机ex111等读取,可以使用软件执行编码和解码处理。而且,当为摄像机配备了蜂窝电话ex114时,可以发送由摄像机获取的视频数据。视频数据是由包括在蜂窝电话ex114中的LSIex500编码的数据。
而且,流服务器ex103可以由服务器和计算机组成,并可以分散数据,并处理分散的数据,记录或分发数据。
如上所述,客户机可以在内容提供系统ex100中接收并再生编码数据。换句话说,客户机可以接收并解码由用户发送的信息,在内容提供系统ex100中实时地再生解码数据,以使得不具有任何权利和设备的用户可以实施个人广播。
除了内容提供系统ex100的示例以外,可以在图15中所示的数字广播系统ex200中实施每一个实施例中所述的运动画面编码装置(图像编码装置)和运动画面解码装置(图像解码装置)中的至少之一。更具体地,广播电台ex201借助无线电波向广播卫星ex202传送或发送通过在视频数据上多路复用音频数据等而获取的多路复用数据。视频数据是由每一个实施例中所述的运动画面编码方法编码的数据(即,由根据本发明的方案的图像编码装置编码的数据)。在接收到多路复用数据时,广播卫星ex202发射用于广播的无线电波。随后,具有卫星广播接收功能的家用天线ex204接收无线电波。接下来,诸如电视机(接收机)ex300的设备和机顶盒(STB)ex217解码接收的多路复用数据,并再生解码数据(即起到根据本发明的方案的图像解码装置的作用)。
而且,阅读器/记录器ex218(i)读取并解码记录在诸如DVD和BD的记录介质ex215上的多路复用数据,或者(i)将视频信号编码到记录介质ex215中,在一些情况下,写入通过在编码数据上多路复用音频信号而获取的数据。阅读器/记录器ex218可以包括如每一个实施例中所示的运动画面解码装置或运动画面编码装置。在此情况下,将再生的视频信号显示在监视器ex219上,并且它可以由另一个设备或系统使用在其上记录的多路复用数据的记录介质ex215再生。还可以在连接到用于有线电视的电缆ex203或者用于卫星和/或地面广播的天线ex204的机顶盒ex217中实施运动画面解码装置,以便在电视机ex300的监视器ex219上显示视频信号。可以不在机顶盒而是在电视机ex300中实施运动画面解码装置。
图16示出了电视机(接收机)ex300,其使用每一个实施例中所述的运动画面编码方法和运动画面解码方法。电视机ex300包括:调谐器ex301,其通过接收广播的天线ex204或电缆ex203等获取或提供通过在视频数据上多路复用音频数据而获取的多路复用数据;调制/解调单元ex302,其解调接收的多路复用数据,或者将数据调制为要提供到外部的多路复用数据;及多路复用/多路分解单元ex303,其将调制的多路复用数据多路分解为视频数据和音频数据,或者将由信号处理单元ex306编码的视频数据和音频数据多路复用为数据。
电视机ex300进一步包括:信号处理单元ex306,其包括音频信号处理单元ex304和视频信号处理单元ex305,它们分别解码音频数据和视频数据,以及编码音频数据和视频数据(其起到了根据本发明的方案的图像编码装置和图像解码装置的作用);及输出单元ex309,包括扬声器ex307,其提供解码音频信号,和例如显示器的显示单元ex308,其显示解码的视频信号。而且,电视机ex300包括接口单元ex317,包括操作输入单元ex312,其接收用户操作的输入。而且,电视机ex300包括控制单元ex310,其控制电视机ex300的全部每一个组成元件,和电源电路单元ex311,其向每一个元件供电。除了操作输入单元ex312以外,接口单元ex317可以包括:电桥ex313,其连接到外部设备,例如阅读器/记录器ex218;卡槽单元ex314,用于实现诸如SD卡的记录介质ex216的附接;驱动器ex315,连接到外部记录介质,例如硬盘;及调制解调器ex316,连接到电话网络。在此,记录介质ex216可以使用用于储存的非易失性/易失性半导体存储器元件电记录信息。电视机ex300的组成元件通过同步总线彼此连接。
首先将说明电视机ex300解码通过天线ex204等从外部所获取的多路复用数据并再生经解码的数据的配置。在电视机ex300中,基于通过遥控器220等的用户操作,多路复用/多路分解单元ex303在包括CPU的控制单元ex310的控制下多路分解由调制/解调单元ex302解调的多路复用数据。而且,使用在每一个实施例中说明的解码方法,电视机ex300中的音频信号处理单元ex305解码多路分解的音频数据,视频信号处理单元ex305解码多路分解的视频数据。输出单元ex309分别将解码的视频信号和音频信号提供到外部。当输出单元ex309提供视频信号和音频信号时,信号可以暂时存储在缓冲器ex318和ex319等中,以便彼此同步地再生信号。而且,电视机ex300可以不通过广播等而是从诸如磁盘、光盘和SD卡之类的记录介质ex215和ex216读取多路复用数据。接下来将说明电视机ex300编码音频信号和视频信号并将数据发送到外部或者将数据写入记录介质上的配置。在电视机ex300中,基于通过遥控器ex220等的用户操作,在控制单元ex310的控制下,使用每一个实施例中所述的编码方法,音频信号处理单元ex304编码编码音频信号,视频信号处理单元ex305编码视频信号。多路复用/多路分解单元ex303多路复用编码的视频信号和音频信号,并将作为结果的信号提供到外部。当多路复用/多路分解单元ex303多路复用视频信号和音频信号,信号可以暂时存储在缓冲器ex320和ex321等中,以便彼此同步地再生信号。再次,缓冲器ex318、ex319、ex320和ex321可以是如所示的多个,或者可以在电视机ex300中共用至少一个缓冲器。而且,可以将数据存储在缓冲器中,以便例如在调制/解调单元ex302与多路复用/多路分解单元ex303之间避免系统溢出和下溢。
进一步,除了用于从广播或记录介质获取音频和视频数据的结构以外,电视机ex300可以包括用于从话筒或摄像机接收AV输入的结构,并可以编码获取的数据。尽管在说明中电视机ex300可以编码、多路复用数据并将其提供到外部,但它能够仅接收、解码数据并将其提供到外部,而不是编码、多路复用数据并将其提供到外部。
进一步,当阅读器/记录器ex218从记录介质读取或向记录介质写入多路复用数据时,电视机ex300和阅读器/记录器ex218之一可以解码或编码多路复用的数据,电视机ex300和阅读器/记录器ex218可以分担解码或编码。
例如,图17示出了在从光盘读取或向光盘写入数据时信息再生/记录单元ex400的结构。信息再生/记录单元ex400包括稍后说明的组成元件ex401、ex402、ex403、ex404、ex405、ex406和ex407。光学头ex401在是光盘的记录介质ex215的记录表面上照射激光斑以写入信息,并检测来自记录介质ex215的记录表面的反射光以读取信息。调制记录单元ex402电驱动包括在光学头ex401中的半导体激光器,并按照记录的数据调制激光。再生解调单元ex403放大通过使用包括在光学头ex401中的光电检测器电检测来自记录表面的反射光而获取的再生信号,并通过分离记录在记录介质ex215上的信号分量解调再生信号以再生必要的信息。缓冲器ex404暂时保存要记录到记录介质ex215上的信息和从记录介质ex215再生的信息。盘电机ex405旋转记录介质ex215。伺服控制单元ex406将光学头ex401移动到预定信息轨道,同时控制盘电机ex405的旋转驱动,以便跟踪激光斑。系统控制单元ex407总体控制信息再生/记录单元ex400。可以由系统控制单元ex407使用存储在缓冲器ex404中的各种信息,如有必要产生和增加新信息,并由在以协调方式操作的同时通过光学头ex401记录并再生信息的调制记录单元ex402、再生解调单元ex403和伺服控制单元ex406来实施读写处理。系统控制单元ex407例如包括微处理器,并通过使得计算机执行用于读写的程序来执行处理。
尽管在说明中光学头ex401照射激光斑,但它可以使用近场光来执行高密度记录。
图18示出了是光盘的记录介质ex215。在记录介质ex215的记录表面上,螺旋形构成导向槽,信息轨道ex230预先记录地址信息,按照导向槽的形状的变化指示在盘上的绝对位置。地址信息包括用于确定是用于记录的单元的记录块ex231的位置的信息。再生信息轨道ex230并读取记录并再生数据的装置中的地址信息可以导致记录块的位置的确定。而且,记录介质ex215包括数据记录区ex233、内圆周区ex232和外圆周区ex234。数据记录区ex233是在记录用户数据中使用的区域。在数据记录区ex233内部和外部的内圆周区ex232和外圆周区ex234除了记录用户数据以外分别用于特定用途。信息再生/记录单元400从记录介质ex215的数据记录区ex233读取并向其写入编码的音频、编码的视频数据、或者通过多路复用编码的音频和视频数据而获取的多路复用数据。
尽管在说明中将诸如DVD和BD的具有层的光盘说明为示例,但光盘可以具有用于多维记录/再生的结构,例如在光盘的相同部分使用具有不同波长的有色光记录信息,和用于从多个角度具有不同层的记录信息的结构。
进一步,具有天线ex205的汽车ex210可以从卫星ex202等接收数据,并在诸如设置在汽车ex210中的汽车导航系统ex211的显示设备上再现视频。在此,汽车导航系统ex211的结构是例如依据图16中所示结构的包括GPS接收单元的结构。对于计算机ex111、蜂窝电话ex114等的结构亦将如此。
图19A示出了蜂窝电话ex114,其使用实施例中所述的运动画面编码方法和运动画面解码方法。蜂窝电话ex114包括:天线ex350,用于通过基站ex110发送和接收无线电波;摄像头单元ex365,能够拍摄运动和静止图像;及显示单元ex358,例如液晶显示器,用于显示诸如由摄像头单元ex365拍摄的或者由天线ex350接收的解码视频的数据。蜂窝电话ex114进一步包括:主体单元,包括操作键单元ex366;音频输出单元ex357,例如用于音频输出的扬声器;音频输入单元ex356,例如用于音频输入的话筒;存储器单元ex367,用于存储拍摄的视频或静止画面、记录的音频、接收的视频的编码或解码的数据、静止画面、电子邮件等;和卡槽单元ex364,它是接口单元,用于以与存储器单元ex367相同的方式存储数据的记录介质。
接下来,将参考图19B说明蜂窝电话ex114的配置的示例。在蜂窝电话ex114中,将设计为总体控制包括显示单元ex358以及操作键单元ex366的主体的每一个单元的主控制单元ex360经由同步总线ex370相互连接到电源电路单元ex361、操作输入控制单元ex362、视频信号处理单元ex355、摄像机接口单元ex363、液晶显示器(LCD)控制单元ex359、调制/解调单元ex352、多路复用/多路分解单元ex353、音频信号处理单元ex354、卡槽单元ex364和存储器单元ex367。
当由用户操作开启呼叫结束键或电源键时,电源电路单元ex361从电池组为各个单元提供电力,以便启动蜂窝电话ex114。
在蜂窝电话ex114中,在包括CPU、ROM和RAM的主控制单元ex360的控制下,音频信号处理单元ex354在语音转换模式中将由音频输入单元ex356收集的音频信号转换为数字音频信号。随后,调制/解调单元ex352在数字音频信号上执行扩展频谱处理,发送和接收单元ex351在数据上执行数模转换和频率转换,以便经由天线ex350发送得到的数据。此外,在蜂窝电话ex114中,发送和接收单元ex351在语音转换模式中放大由天线ex350接收的数据,并在数据上执行频率转换和模数转换。随后,调制/解调单元ex352对数据执行逆扩展频谱处理,音频信号处理单元ex354将其转换为模拟音频信号,以便经由音频输出单元ex357输出它们。
进一步,当以数据通信模式发送电子邮件时,将通过操作主体的操作键单元ex366等输入的电子邮件的文本数据经由操作输入控制单元ex362发送到主控制单元ex360。主控制单元ex360使得调制/解调单元ex352在文本数据上执行扩展频谱处理,发送和接收单元ex351在得到的数据上执行数模转换和频率转换,以经由天线ex350将数据发送到基站ex110。当接收到电子邮件时,在接收数据上执行与用于发送电子邮件的处理大致相反的处理,并将得到的数据提供给显示单元ex358。
当以数据通信模式发送视频、静止图像或视频和音频时,视频信号处理单元ex355使用在每一个实施例中所示的运动画面编码方法(即起到根据本发明的方案的图像编码装置的作用),压缩并编码从摄像头单元ex365提供的视频信号,并将编码视频数据发送到多路复用/多路分解单元ex353。相反,在摄像头单元ex365拍摄视频、静止图像等期间,音频信号处理单元ex354编码由音频输入单元ex356收集的音频信号,并将编码的音频数据发送到多路复用/多路分解单元ex353。
多路复用/多路分解单元ex353使用预定方法多路复用从视频信号处理单元ex355提供的编码视频数据和从音频信号处理单元ex354提供的编码音频数据。随后,调制/解调单元(调制/解调电路单元)ex352在多路复用的数据上执行扩展频谱处理,发送和接收单元ex351在数据上执行数模转换和频率转换,以便经由天线ex350发送得到的数据。
在以数据通信模式接收链接到网页等的视频文件的数据时,或者在接收附带有视频和/或音频的电子邮件时,为了解码经由天线ex350接收的多路复用的数据,多路复用/多路分解单元ex353将多路复用数据多路分解为视频数据比特流和音频数据比特流,并通过同步总线ex370为视频信号处理单元ex355提供编码视频数据,为音频信号处理单元ex354提供编码音频数据。视频信号处理单元ex355使用对应于每一个实施例中所示的运功画面编码方法的运动画面解码方法解码视频信号(即起到根据本发明的方案的图像解码装置的作用),随后显示单元ex358经由LCD控制单元ex359显示例如包括在链接到网页的视频文件中的视频和静止图像。而且,音频信号处理单元ex354解码音频信号,并且音频输出单元ex357提供音频。
进一步,类似于电视机ex300,诸如蜂窝电话ex114之类的终端可能具有3种实现方式结构,不仅包括(i)包括编码装置和解码装置的发送和接收终端,还包括(ii)仅包括编码装置的发送终端,和(iii)仅包括解码装置的接收终端。尽管在说明种,数字广播系统ex200接收并发送通过在视频数据上多路复用音频数据而获取的多路复用数据,但多路复用数据可以是通过在视频数据上不多路复用音频数据,而是多路复用与视频有关的字符数据而获取的数据,并且可以不是多路复用数据而是视频数据自身。
因而,每一个实施例中的运动画面编码方法和运动画面解码方法可以用于所述的任何设备和系统中。因此,可以获取在每一个实施例中所述的优点。
而且,本发明不限于实施例,在不脱离本发明的范围的情况下的各种变型和修改是可能的。
实施例(IV):
如有必要,可以通过在(i)每一个实施例中所示的运动画面编码方法或运动画面编码装置与(ii)符合诸如MPEG-2、MPEG-4AVC和VC-1的不同标准的运动画面编码方法或运动画面编码装置之间进行切换来产生视频数据。
在此,当产生并随后解码符合不同标准的多个视频数据时,需要选择解码方法以符合不同标准。但由于不能检测到解码的多个视频数据中的每一个符合哪个标准,就存在不能选择适当的解码方法的问题。
为了解决这个问题,通过在视频数据上多路复用音频数据等而获取的多路复用数据具有结构,包括标识信息,指示视频数据符合哪个标准。以下将说明多路复用数据的特定结构,包括借助在每一个实施例中所示的运动画面编码方法和运动画面编码装置产生的视频数据。多路复用数据是MPEG-2传输流格式的数字流。
图20示出了多路复用数据的结构。如图20所示,可以通过多路复用视频流、音频流、演示图形流(PG)和交互式图形流中的至少之一来获取多路复用数据。视频流表示电影的主视频和次要视频,音频流(IG)表示主音频部分和与主音频部分混音的次要音频部分,演示图形流表示电影的字幕。再次,主视频是在屏幕上显示的正常视频,次要视频是在主视频中的小窗口上显示的视频。而且,交互式图形流表示通过在屏幕上布置GUI组件而产生的交互式屏幕。借助在每一个实施例中所示的运动画面编码方法或者运动画面编码装置,或者借助符合诸如MPEG-2、MPEG-4AVC和VC-1的常规标准的运动画面编码方法或运动画面编码装置来经编码的视频流。根据诸如Dolby-AC-3、Dolby Digital Plus、MLP、DTS、DTS-HD和线性PCM之类的标准来编码音频流。
由PID识别包括在多路复用数据中的每一个流。例如,将0x1011到0x111F分配给用于电影的视频的视频流,将0x1100分配给音频流,将0x1200到0x121F分配给演示图形流,将0x1400到0x141F分配给交互式图形流,将0x1B00到0x1B1F分配给用于电影的次要视频的视频流,将0x1A00到0x1A1F分配给用于与主音频混音的次要音频的音频流。
图21示意性地示出了如何多路复用数据。首先,将由视频帧组成的视频流ex235和由音频帧组成的音频流ex238分别变换为PES包流ex236和PES包流ex239,并进一步变换为TS包ex237和TS包ex240。类似地,将演示图形流ex241的数据和交互式图形流ex244的数据分别变换为PES包流ex242和PES包流ex245,并进一步变换为TS包ex243和TS包ex246。将这些TS包多路复用到流中以获取多路复用数据ex247。
图22更详细地示出了如何将视频流存储到PES包流中。图22中的第一栏显示了视频流中的视频帧流。第二栏显示了PES包流。如由图22中表示为yy1、yy1、y33和yy4的箭头所示的,视频流分为如I画面、B画面和P画面的画面,其每一个都是视频显示单元,将画面存储在每一个PES包的有效载荷中。每一个PES包都具有PES头(header),PES头存储指示画面的显示时间的显示时间戳(PTS)和指示画面的解码时间的解码时间戳(DTS)。
图23示出了要最终写在多路复用数据上的TS包的格式。每一个TS包都是188字节固定长度包,包括4字节TS头,具有诸如用于识别流的PID的信息,和用于存储数据的184字节TS有效载荷。将PES包分割并分别存储在TS有效载荷中。在使用BD ROM时,给与每一个TS包4字节TP_Extra_Header,从而导致192字节的源包。将源包写入多路复用数据中。TP_Extra_Header存储诸如Arrival_Time_Stamp(到达时间戳)(ATS)的信息。ATS显示了将每一个TS包传送到PID过滤器的传送开始时间。源包如图23所示地布置在多路复用数据中。将从多路复用数据的头开始递增的编号称为源包编号(SPN)。
包括在多路复用数据中的每一个TS包都不仅包括音频、视频、字幕等的流,还包括节目关联表(PAT)、节目映射表(PMT)和节目时钟参考(PCR)。PAT显示了用于多路复用数据中的PMT中的PID指示的是什么,PAT的PID自身登记为零。PMT存储包括在多路复用数据中的视频、音频、字幕等的流的PID,及对应于PID的流的属性信息。PMT还具有与多路复用数据相关的多个描述符,描述符具有信息,例如复制控制信息,显示了是否允许多路复用数据的复制。PCR存储对应于ATS的STC时间信息,显示合适将PCR包传送到解码器,以便实现在是ATS的时间轴的到达时间时钟(ATC)与是PTS和DTS的时间轴的系统时间时钟(STC)之间的同步。
图24详细示出了PMT的数据结构。将PMT头布置在PMT的顶部。PMT头说明了包括在PMT等中的数据的长度。将与多路复用数据有关的多个描述符布置在PMT头之后。在描述符中说明诸如复制控制信息的信息。在描述符之后布置多条流信息,其与包括在多路复用数据中的流有关。每一条流信息都包括流描述符,每一个都描述信息,例如用于识别流的压缩编码解码器的流类型、流PID和流属性信息(例如帧速率或高宽比)。流描述符在数量上等于多路复用数据中流的数量。
在将多路复用数据记录在记录介质等上时,与多路复用数据信息文件一起记录它。
如图25所示,每一个多路复用数据信息文件都是多路复用数据的管理信息。多路复用数据信息文件与多路复用数据一一对应,每一个文件都包括多路复用数据信息、流属性信息和条目映射。
如图25所示,多路复用数据信息包括系统速率、再现开始时间和再现结束时间。系统速率指示稍后说明的系统目标解码器将多路复用数据传送到PID过滤器的最大传送速率。将包括在多路复用数据中的ATS的间隔设定为不高于系统速率。再现开始时间指示在多路复用数据的头的视频帧中的PTS。将一帧的间隔加到在多路复用数据结尾的视频帧中的PTS,将PTS设定为再现结束时间。
如图26所示,在流属性信息中为包括在多路复用数据中的每一个流的每一个PID记录一条属性信息。每一条属性信息都具有不同信息,取决于相应的流是视频流、音频流、演示图形流还是交互式图形流。每一条视频漏属性信息都带有包括如下的信息:将何种压缩编码解码器用于压缩视频流、和包括在视频流中的画面数据片段的分辨率、高宽比和帧速率。每一条音频流属性信息都带有包括如下的信息:将何种压缩编码解码器用于压缩音频流、多少条声道包括在音频流中、音频流支持哪一种语言、和采样速率有多高。视频流属性信息和音频流属性信息用于解码器在播放器播放信息之前的初始化。
在本实施例中,使用的多路复用数据具有包括在PMT中的流类型。而且,在将多路复用数据记录在记录介质上时,使用了包括在多路复用数据信息中的视频流属性信息。更具体地,每一个实施例中所述的运动画面编码方法或运动画面编码装置包括步骤或单元,用于将指示由每一个实施例中的运动画面编码方法或运动画面编码装置产生的视频数据的唯一信息分配给包括在PMT中的流类型或视频流属性信息。借助这个配置,可以区分由每一个实施例中所述的运动画面编码方法或运动画面编码装置产生的视频数据与符合另一个标准的视频数据。
进一步,图27示出了根据本实施例的运动画面解码方法的步骤。在步骤exS100中,从多路复用数据获取包括在PMT中的流类型或包括在多路复用数据信息中的视频流属性信息。接下来,在步骤exS101中,确定流类型或视频流属性信息是否指示多路复用数据是由每一个实施例中的运动画面编码方法或运动画面编码装置产生的。当确定流类型或视频流属性信息指示多路复用数据由每一个实施例中的运动画面编码方法或运动画面编码装置产生,在步骤exS102中,借助每一个实施例中的运动画面解码方法执行解码。而且,在流类型或视频流属性信息指示符合诸如MPEG-2、MPEG-4AVC和VC-1的常规标准时,在步骤exS103中,借助符合常规标准的运动画面解码方法执行解码。
因而,将新的唯一值分配给流类型或视频流属性信息实现了确定每一个实施例中所述的运动画面解码方法或运动画面解码装置是否可以执行解码。即使在输入了符合不同标准的多路复用数据时,也可以选择适当的解码方法或装置。因而可以无任何错误地解码信息。而且,本实施例中的运动画面编码方法或装置、或者运动画面解码方法或装置可以用于上述的设备和系统中。
实施例(V):
典型地以集成电路或大规模集成(LSI)电路形式实现每一个实施例中的运动画面编码方法、运动画面编码装置、运动画面解码方法、运动画面解码装置的每一个。作为LSI的示例,图28示出了在一个芯片中构成的LSIex500的结构。LSI ex500包括以下说明的元件ex501、ex502、ex503、ex504、ex505、ex506、ex507、ex508、和ex509,元件通过总线ex510彼此连接。通过在开启电源电路单元ex505时为每一个元件提供电力来启动电源电路单元ex505。
例如,在执行编码时,在包括CPU ex502、存储器控制器ex503、流控制器ex504和驱动频率控制单元ex512的控制单元ex501的控制下,LSIex500通过AV IO ex509从话筒ex117、摄像机ex113等接收AV信号。将接收的AV信号暂时存储在诸如SDRAM的外部存储器ex511中。在控制单元ex501的控制下,按照要发送到信号处理单元ex507的处理量和速度,将存储的数据分段为数据部分。随后,信号处理单元ex507编码音频信号和/或视频信号。在此,视频信号的编码时在每一个实施例中说明的编码。而且,信号处理单元ex507有时多路复用编码音频数据与编码视频数据,流IO ex506将多路复用数据提供到外部。提供的多路复用数据发送到基站ex107,或者写入记录介质ex215中。当多路复用数据集时,应将数据咱数存储在缓冲器ex508中,以便数据集彼此同步。
尽管存储器ex511是在LSI ex500外部的元件,但它可以包括在LSIex500中。缓冲器ex508不限于一个缓冲器,而可以由多个缓冲器组成。而且,LSI ex500可以在一个芯片或多个芯片中构成。
进一步,尽管控制单元ex501包括CPU ex502、存储器控制器ex503、流控制器ex504、驱动频率控制单元ex512,但控制单元ex501的结构不限于此。例如,信号处理单元ex507可以进一步包括CPU。在信号处理单元ex507中包括另一个CPU可以改进处理速度。而且,作为另一个示例,CPUex502可以充当或是一部分信号处理单元ex507,例如,可以包括音频信号处理单元。在此情况下,控制单元ex501包括信号处理单元ex507或包括一部分信号处理单元ex507的CPU ex502。
在此使用的名称是LSI,但取决于集成程度,它也可以称为IC、系统LSI、超级LSI或超LSI。
此外,用以实现集成的方式不限于LSI,特定电路或通用处理器等等也可以实现集成。在制造LSI后可以编程的现场可编程门阵列(FPGA)或者允许LSI的连接或结构的重构的可重构处理器可以用于相同的目的。这个可编程逻辑器件典型地可以通过从存储器等加载或读取程序、或者加载或读取包括在软件或固件中的类似一个或多个程序,来执行根据任意以上实施例的运动画面编码方法和/或运动画面解码方法。
将来,借助半导体技术的发展,全新的技术可以代替LSI。可以使用这个技术来集成功能块。本发明有可能应用于生物技术。
实施例(VI):
在解码借助每一个实施例中所述的运动画面编码方法或运动画面编码装置产生的视频时,与解码符合诸如MPEG-2、MPEG-4AVC和VC-1的常规标准的视频数据时相比,处理量有可能增大。因而需要将LSI ex500设定为比在解码符合常规标准的视频数据时所使用的CPU ex502的驱动频率高的驱动频率。但在将驱动频率设定为较高时,存在功耗增大的问题。
为了解决这个问题,将诸如电视机ex300和LSI ex500的运动画面解码装置配置为确定视频数据符合哪个标准,并按照确定的标准在驱动频率之间进行切换。图29示出了本实施例中的结构ex800。在由每一个实施例中所述的运动画面编码方法或运动画面编码装置产生视频数据时,驱动频率切换单元ex803将驱动频率设定为较高的驱动频率。于是,驱动频率切换单元ex803指导执行在每一个实施例中所述的运动画面解码方法的解码处理单元ex801解码视频数据。当视频数据符合常规标准时,驱动频率切换单元ex803将驱动频率设定为比由每一个实施例中所述的运动画面编码方法或运动画面编码装置产生视频数据的驱动频率低的驱动频率。于是,驱动频率切换单元ex803指导符合常规标准的解码处理单元ex802解码视频数据。
更具体地,在图28中驱动频率切换单元ex803包括CPU ex502和驱动频率控制单元ex512。在此,执行在每一个实施例中所述的运动画面解码方法的解码处理单元ex801和符合常规标准的解码处理单元ex802中的每一个都对应于图28中的信号处理单元ex507。CPU ex502确定视频数据符合哪个标准。随后,驱动频率控制单元ex512基于来自CPU ex502的信号确定驱动频率。而且,信号处理单元ex507基于来自CPU ex502的信号解码视频数据。例如,在实施例(IV)中所述的标识信息有可能用于识别视频数据。标识信息不限于实施例(IV)中所述的,而可以是任何信息,只要该信息指示了视频数据符合哪个标准。例如,当根据用于确定视频数据用于电视机或盘等的外部信号可以确定视频数据符合哪个标准时,可以基于这个外部信号做出确定。而且,CPU ex502例如基于视频数据的标准与驱动频率相关联的查找表来选择驱动频率,如图31中所示的。可以通过将查找表存储在LSI的缓冲器ex508和内部存储器中,并由CPU ex502参考查找表来选择驱动频率。
图30示出了用于执行本实施例中的方法的步骤。首先,在步骤exS200中,信号处理单元ex507从多路复用数据获取标识信息。接下来,在步骤exS201中,CPU ex502基于标识信息确定视频数据是否由每一个实施例中所述的编码方法和编码装置所产生。当视频数据由每一个实施例中所述的运动画面编码方法和运动画面编码装置产生时,在步骤exS202中,CPUex502向驱动频率控制单元ex512发送信号,用于将驱动频率设定为较高的驱动频率。随后,驱动频率控制单元ex512将驱动频率设定为较高的驱动频率。另一方面,当标识信息指示视频数据符合诸如MPEG-2、MPEG-4AVC和VC-1的常规标准时,CPU ex502向驱动频率控制单元ex512发送信号,用于将驱动频率设定为较低的驱动频率。随后,驱动频率控制单元ex512将驱动频率设定为比由每一个实施例中所述的运动画面编码方法和运动画面编码装置产生视频数据的情况更低的驱动频率。
进一步,随同驱动频率的切换一起,可以通过改变施加到LSI ex500或包括LSI ex500的装置的电压来改进功率节省效果。例如,在将驱动频率设定为较低时,有可能将施加到LSI ex500或包括LSI ex500的装置的电压设定为比将驱动频率设定为较高的情况更高的电压。
进一步,在用于解码的处理量较大时,可以将驱动频率设定为较高,在用于解码的处理量较小时,可以按照用于设定驱动频率的方法,将驱动频率设定为较低。因而设定方法不限于上述的一个。例如,在用于解码符合MPEG-4AVC的视频数据的处理量大于用于解码由每一个实施例中所述的运动画面编码方法和运动画面编码装置产生的视频数据的处理量时,有可能以与上述设定相反的顺序设定驱动频率。
进一步,用于设定驱动频率的方法不限于用于将驱动频率设定为较低的方法。例如,当标识信息指示视频数据由每一个实施例中所述的运动画面编码方法和运动画面编码装置产生时,有可能将施加到LSI ex500或包括LSI ex500的装置的电压设定为较高。当标识信息指示视频数据符合诸如MPEG-2、MPEG-4AVC和VC-1的常规标准时,有可能将施加到LSI ex500或包括LSI ex500的装置的电压设定为较低。作为另一个示例,当标识信息指示视频数据由每一个实施例中所述的运动画面编码方法和运动画面编码装置产生时,有可能不必中止CPU ex502的驱动。当标识信息指示视频数据符合诸如MPEG-2、MPEG-4AVC和VC-1的常规标准时,有可能在给定时间中止CPU ex502的驱动,因为CPU ex502具有额外的处理能力。即使在标识信息指示视频数据由每一个实施例中所述的运动画面编码方法和运动画面编码装置产生时,在CPU ex502具有额外的处理能力的情况下,有可能在给定时间中止CPU ex502的驱动。在此情况下,有可能将中止时间设定为短于标识信息指示视频数据符合诸如MPEG-2、MPEG-4AVC和VC-1的常规标准时的情况。
因此,可以通过根据视频数据符合的标准在驱动频率之间进行切换来改进功率节省效果。而且,在使用电池驱动LSI ex500或包括LSI ex500的装置时,借助功率节省效果可以延长电池寿命。
实施例(VII):
存在将符合不同标准的多个视频数据提供给诸如电视机和蜂窝电话的设备和系统的情况。为了实现解码符合不同标准的多个视频数据,LSI ex500的信号处理单元ex507需要符合不同标准。但随着符合各自标准的信号处理单元ex507的单独使用而引起了LSI ex500的电路规模增大和成本增大的问题。
为了解决这个问题,设想了部分共用用于实施每一个实施例中所述的运动画面解码方法的解码处理单元和符合诸如MPEG-2、MPEG-4AVC和VC-1的常规标准的解码处理单元的结构。在图32A中的ex900显示了该结构的示例。例如,每一个实施例中所述的运动画面解码方法和符合MPEG-4AVC的运动画面解码方法部分共同具有诸如熵编码、逆量化、解块过滤和运动补偿预测的处理细节。共用的处理细节有可能包括使用符合MPEG-4AVC的解码处理单元ex902。相反,专用解码处理单元ex901有可能用于本发明的方案所独有的其他处理。鉴于本发明方案的特征在于逆量化,具体地例如,将专用解码处理单元ex901用于逆量化。否则,有可能为熵解码、解块过滤和运动补偿之一或全部处理共用解码处理单元。可以为要共享的处理来共用用于实施每一个实施例中所述的运动画面解码方法的解码处理单元,专用解码处理单元可以用于MPEG-4AVC所独有的处理。
进一步,图23B中的ex1000显示了其中处理被部分共用的另一个示例。这个示例使用包括支持本发明的方案所独有的处理的专用解码处理单元ex1001、支持另一个常规标准所独有的处理的专用解码处理单元ex1002、和支持在根据本发明的方案的运动画面解码方法与常规运动画面解码方法之间共享的处理的解码处理单元ex1003。在此,专用解码处理单元ex1001和ex1002不必分别专门用于根据本发明的方案的处理和常规标准的处理,可以是能够实施通用处理的单元。而且,本实施例的结构可以由LSI ex500来实施。
因而,可以通过共用解码处理单元来减小LSI电路的规模并减小成本。所述解码处理单元用于在根据本发明的方案的运动画面解码方法与符合常规标准的运动画面解码方法之间共用的处理。