CN103945226A

CN103945226A - 一种视频解码的方法及其装置

Info

Publication number: CN103945226A
Application number: CN201410081093.5A
Authority: CN
Inventors: 王健铭; 孟智明; 何宗泽
Original assignee: BOE Technology Group Co Ltd; Beijing BOE Display Technology Co Ltd
Current assignee: BOE Technology Group Co Ltd; Beijing BOE Display Technology Co Ltd
Priority date: 2014-03-06
Filing date: 2014-03-06
Publication date: 2014-07-23
Anticipated expiration: 2034-03-06
Also published as: US20160173899A1; WO2015131511A1; CN103945226B; US9838704B2

Abstract

本发明的实施例提供一种视频解码的方法及其装置，涉及计算机技术领域，简化视频解码过程中离散余弦反变换的微构架设计的同时提高数据处理的精度。该方法包括将接收到的待解码数据依次存储至相互间隔的多个第一数据寄存器和第二数据寄存器，将第一数据寄存器和第二数据寄存器存储的待解码数据进行移位查表处理，分别得到对应第一系数矩阵和对应第二系数矩阵的查找表结果，对对应第一系数矩阵的查找表结果和对应第二系数矩阵的查找表结果进行分布式运算，得到解码数据。

Description

一种视频解码的方法及其装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种视频解码的方法及其装置。

背景技术

离散余弦反变换(Inverse Discrete Cosine Transform，IDCT)被广泛的应用于视频数据的解码中。当终端用户在观赏视频节目时，显示装置内的解码器会采用上述离散余弦反变换算法将视频节目的编码数据进行解码，以使得该视频节目能够显示在显示面板上。

在现有视频解码的过程中，可以通过设置复杂程度较高的解码算法以得到画面清晰，显示效果优质的图像。但这样一来，会降低解码过程的效率，从而影响观影过程中图片显示的响应速度。然而，当简化解码算法以提高解码高效性的同时又会降低解码过程的准确性以及解码输出数据的精度。例如，会使得解码输出数据之间出现数据缺失，从而导致具有不同灰阶值的显示区域之间的差异性增强，进而会降低显示画面的柔和度，对观影效果产生不利的影响。

发明内容

本发明的实施例提供一种视频解码的方法及其装置，简化视频解码过程中离散余弦反变换的微构架设计的同时提高数据处理的精度。

为达到上述目的，本发明的实施例采用如下技术方案：

本发明实施例的一方面，提供一种视频解码的方法，包括：

将接收到的待解码数据依次存储至数据寄存器，所述数据寄存器包括相互间隔的多个第一数据寄存器和第二数据寄存器；

将所述第一数据寄存器存储的所述待解码数据进行移位查表处理，得到对应第一系数矩阵的查找表结果；

将所述第二数据寄存器存储的所述待解码数据进行移位查表处理，得到对应第二系数矩阵的查找表结果；

对所述对应第一系数矩阵的查找表结果和所述对应第二系数矩阵的查找表结果进行分布式运算，得到解码数据。

本发明实施例的另一方面，提供一种视频解码装置，包括：

数据寄存器，用于依次存储接收到的待解码数据，所述数据寄存器包括相互间隔的多个第一数据寄存器和第二数据寄存器；

移位控制模块，用于将所述第一数据寄存器存储的所述待解码数据或所述第二数据寄存器存储的所述待解码数据进行移位查表处理，得到对应第一系数矩阵的查找表结果或对应第二系数矩阵的查找表结果；

合并模块，用于对所述对应第一系数矩阵的查找表结果和所述对应第二系数矩阵的查找表结果进行分布式运算，得到解码数据。

本发明提供一种视频解码的方法及其装置，该方法包括将接收到的待解码数据依次存储至相互间隔的多个第一数据寄存器和第二数据寄存器，将第一数据寄存器和第二数据寄存器存储的待解码数据进行移位查表处理，分别得到对应第一系数矩阵和对应第二系数矩阵的查找表结果，对对应第一系数矩阵的查找表结果和对应第二系数矩阵的查找表结果进行分布式运算，得到解码数据。这样一来，通过设置相互间隔的多个第一数据寄存器和第二数据寄存器对接收到的待解码数据进行分段处理，能够简化视频解码算法的微架构，从而可以在不降低数据处理精度的同时，保证解码过程的高效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频解码的方法流程图；

图2为本发明实施例提供的一种数据寄存器的结构示意图；

图3为本发明实施例提供的另一种视频解码的方法流程图；

图4为本发明实施例提供的一种二维离散余弦反变换方法的示意图；

图5为本发明实施例提供的一种二维离散余弦反变换微构架的结构示意图；

图6为本发明实施例提供的一种二维离散余弦反变换的时序控制图；

图7为本发明实施例提供的一种视频解码装置的结构示意图；

图8为本发明实施例提供的另一种视频解码装置的结构示意图；

图9为本发明实施例提供的一种一维离散余弦反变换微构架结构示意图；

图10为本发明实施例提供的一种IDCT系数存储表的存储示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，通常可以采用离散余弦反变换的方法对视频进行解码运算。例如采用一次一维8×8的离散余弦反变换。其可以被描述成一次8×8的矩阵乘法。具体为：

[\begin{matrix} y 0 \\ y 1 \\ y 2 \\ y 3 \\ y 4 \\ y 5 \\ y 6 \\ y 7 \end{matrix}] = [\begin{matrix} a & b & c & d & a & e & f & g \\ a & d & f & - g & - a & - b & - c & - e \\ a & e & - f & - b & - a & g & c & b \\ a & g & - c & - e & a & d & - f & - b \\ a & - g & - c & e & a & - d & - f & b \\ a & - e & - f & b & - a & - g & c & - b \\ a & - d & f & g & - a & b & - c & e \\ a & - b & c & - d & a & - e & f & - g \end{matrix}] [\begin{matrix} x 0 \\ x 1 \\ x 2 \\ x 3 \\ x 4 \\ x 5 \\ x 6 \\ x 7 \end{matrix}];

可以将上述8×8乘法矩阵等价变换成两个4×4矩阵与两个4×1矩阵之间的算术运算：

[\begin{matrix} y 0 \\ y 1 \\ y 2 \\ y 3 \end{matrix}] = [\begin{matrix} a & c & a & f \\ a & f & - a & - c \\ a & - f & - a & c \\ a & - c & a & - f \end{matrix}] [\begin{matrix} x 0 \\ x 2 \\ x 4 \\ x 6 \end{matrix}] + \begin{matrix}  \end{matrix} [\begin{matrix} b & d & e & g \\ d & - g & - b & - e \\ e & - b & g & b \\ g & - e & d & - b \end{matrix}] [\begin{matrix} x 1 \\ x 3 \\ x 5 \\ x 7 \end{matrix}];

[\begin{matrix} y 7 \\ y 6 \\ y 5 \\ y 4 \end{matrix}] = [\begin{matrix} a & c & a & f \\ a & f & - a & - c \\ a & - f & - a & c \\ a & - c & a & - f \end{matrix}] [\begin{matrix} x 0 \\ x 2 \\ x 4 \\ x 6 \end{matrix}] - \begin{matrix}  \end{matrix} [\begin{matrix} b & d & e & g \\ d & - g & - b & - e \\ e & - b & g & b \\ g & - e & d & - b \end{matrix}] [\begin{matrix} x 1 \\ x 3 \\ x 5 \\ x 7 \end{matrix}];

其中，偶数列4×4矩阵是由上述8×8矩阵的第0、2、4、6列的第0到第3行组成。奇数列4×4矩阵是由上述8×8矩阵的第1、3、5、7列的第0到第3行组成。

具体的，两个4×4矩阵分别为：

P = [\begin{matrix} a & c & a & f \\ a & f & - a & - c \\ a & - f & - a & c \\ a & - c & a & - f \end{matrix}];

Q = [\begin{matrix} b & d & e & g \\ d & - g & - b & - e \\ e & - b & g & b \\ g & - e & d & - b \end{matrix}];

其中：

{(\begin{matrix} a & b & c & d & e & f & g \end{matrix})}^{T} = \frac{1}{2} {(\begin{matrix} \cos \frac{π}{4} & \cos \frac{π}{16} & \cos \frac{π}{8} & \cos \frac{3 π}{16} & \cos \frac{5 π}{16} & \cos \frac{3 π}{8} & \cos \frac{7 π}{16} & \cos \frac{π}{4} \end{matrix})}^{T}

此外，

Y1=(y0 y1 y2 y3)^Τ Y2=(y7 y6 y5 y4)^Τ

X1=(x0 x2 x4 x6)^Τ X2=(x1 x3 x5 x7)^Τ

这样一来，一维离散余弦反变换可以用以下公式表示：

Y1=PX1+QX2；Y2=PX1-QX2

即：

(\begin{matrix} Y 1 \\ Y 2 \end{matrix}) = IDCT (\begin{matrix} X 1 \\ X 2 \end{matrix})

本发明实施例提供一种视频解码的方法，如图1所示，可以包括：

S101、将接收到的待解码数据（x0、x1……x7）依次存储至数据寄存器101（如图2所示），该数据寄存器101包括相互间隔的多个第一数据寄存器1011（Date0、Date2、Date4、Date6）和第二数据寄存器1012（Date1、Date3、Date5、Date7）。其中需要8个时钟周期将待解码数据（x0、x1……x7）存入第一数据寄存器1011（Date0、Date2、Date4、Date6）和第二数据寄存器1012（Date1、Date3、Date5、Date7）。由于公式：

Y1=PX1+QX2；Y2=PX1-QX2

中，有相同的运算单元模式：4×1矩阵PX1和4×1矩阵QX2。因此通过设置相互间隔的多个第一数据寄存器1011（Date0、Date2、Date4、Date6）和第二数据寄存器1012（Date1、Date3、Date5、Date7）可以对接收到的待解码数据（x0、x1……x7）进行分段处理，以使得通过后续步骤计算出上述4×1矩阵PX1和4×1矩阵QX2，在通过加、减运算计算出Y1和Y2。从而能够简化上述离散余弦反变换的方法。当然上述对数据寄存器101的划分仅仅是举例说明，还可以有其它的划分方式，例如将该数据寄存器101划分多个四种类型的寄存器，例如第一数据寄存器（Date0、Date2）和第二数据寄存器（Date4、Date6）、第三数据寄存器（Date1、Date3）以及第四数据寄存器（Date5、Date7）。本领域技术人员可以根据实际运算效率以及运算精度的需要对该数据寄存器101进行划分，本发明实施例对其他类型的划分在此不再一一赘述。

S102、将第一数据寄存器1011（Date0、Date2、Date4、Date6）存储的待解码数据（x0、x2、x4、x6构成矩阵(x0 x2 x4 x6)^Τ）进行移位查表处理，得到对应第一系数矩阵P的查找表结果PX1。

S103、将第二数据寄存器1012（Date1、Date3、Date5、Date7）存储的待解码数据（x1、x3、x5、x7构成矩阵(x1 x3 x5 x7)^Τ）进行移位查表处理，得到对应第二系数矩阵Q的查找表结果QX2。

需要说明的是，上述步骤S102和S103无先后顺序，可以同时进行。

具体的，对上述移位查表处理进行说明：

以(x0 x2 x4 x6)^Τ或(x1 x3 x5 x7)^Τ作为地址索引值进行查表寻址，对第一系数矩阵P或第二系数矩阵Q的每一行进行存储，以得到对应第一系数矩阵P的查找表结果PX1或对应第二系数矩阵Q的查找表结果QX2。

其中，第一系数矩阵P和第二系数矩阵Q的每一行对应一个中间值。例如，第一系数矩阵P第一行对应中间值y0；第二系数矩阵Q第一行对应中间值y1。其它行的对应关系以此类推。

优选的，第一系数矩阵P或第二系数矩阵Q中的数值（a、b、c、d、e、f、g）设置为8比特有符号数，上述8比特有符号数的最高位为符号位。

在具体的移位查表处理过程中，优选的，将待解码数据（例如x0、x2、x4、x6构成矩阵(x0 x2 x4 x6)^Τ）进行右移一位，以使得该待解码数据(x0 x2 x4 x6)^Τ的最低位（Least Significant Bit，LSB）作为地址索引值进行查表寻址，对第一系数矩阵P或第二系数矩阵Q的每一行进行存储。其中，该待解码数据的位宽为12比特。

由于现有技术中一般将待解码数据的位宽设置在8比特～10比特之间，这样一来，在视频解码的过程中由于待解码数据的位宽较小，导致通过离散余弦反变换得出的解码数据出现数据缺失，从而导致具有不同灰阶值的显示区域之间的差异性增强，例如灰阶值100到灰阶值101的过度不圆滑成直线状态。而本发明实施例中待解码数据的位宽设置为12比特，从而可以提高解码过程的数据处理精度，例如可以是增加上述灰阶值100到灰阶值101之间用于过度的数值点，避免出现数据缺失，从而能够提高换面的柔和度。

对第一系数矩阵P或第二系数矩阵Q的每一行进行存储的过程具体为：例如，对于4×1矩阵PX1而言，第一系数矩阵P的第一行对应的中间值为y0=ax0+cx2+ax4+fx6；当待解码数据例如，(x0 x2 x4 x6)^Τ的最低位构成的地址索引值为（1000）时（其中，(x0 x2 x4 x6)^Τ的每一个最低位(x0[0] x2[0] x4[0] x6[0])^Τ，都有16种可能），该中间值为y0=ax0+cx2+ax4+fx6=a×1+c×0+a×0+f×0=a；因此，需根据地址索引值（1000）对上述中间值进行存储，由于用于存储中间值的存储表第一位为地址位，所以该存储表的第二个位置（4’b0001+1）存储第一系数矩阵P的第一行对应的中间值y0。其中，y0为数值上等于a的补码，其最高位为符号位。需要说明的是，第二个位置（4’b0001+1）中的4’b代表4位二进制数；0001为中间值y0’，即数值上等于a的补码；+1为存储的位置，即表中第二个位置。如果是第三个位置则为+11，以此类推。

S104、对对应第一系数矩阵P的查找表结果PX1和对应第二系数矩阵Q的查找表结果QX2进行分布式运算，得到解码数据。

具体的，通过上述步骤能够完成两个4×4矩阵（第一系数矩阵P和第二系数矩阵Q）分别与两个4×1矩阵X1与X2的乘法运算PX1和PX2。这样一来，通过分布式运算：Y1=PX1+QX2；Y2=PX1-QX2；就可以得出解码数据(Y1 Y2)^T。其中，需要一个时钟周期来完成上述分布式运算。

本发明提供一种视频解码的方法，该方法包括将接收到的待解码数据依次存储至相互间隔的多个第一数据寄存器和第二数据寄存器，将第一数据寄存器和第二数据寄存器存储的待解码数据进行移位查表处理，分别得到对应第一系数矩阵和对应第二系数矩阵的查找表结果，对对应第一系数矩阵的查找表结果和对应第二系数矩阵的查找表结果进行分布式运算，得到解码数据。这样一来，通过设置相互间隔的多个第一数据寄存器和第二数据寄存器对接收到的待解码数据进行分段处理，能够简化视频解码算法的微架构，从而可以在不降低数据处理精度的同时，保证解码过程的高效性。

进一步地，当上述待解码数据例如(x0 x2 x4 x6)^Τ的非符号位移位至最低位LSB时，上述步骤S104之前还可以包括：

对上述查找表结果PX1或QX2进行累加处理，将查找表结果的累加结果算术右移一位。

需要说明的是，由于待解码数据的最高位为符号位，因此上述非符号位是指除最高位的其它位数。

对上述查找表结果PX1或QX2进行累加处理具体是指：

当以(x0 x2 x4 x6)^Τ或(x1 x3 x5 x7)^Τ作为地址索引值进行查表寻址，对第一系数矩阵P或第二系数矩阵Q的每一行进行存储时，例如会得到第一系数矩阵P第一行对应中间值y0或第二系数矩阵Q第一行对应中间值y1。以第一系数矩阵P第一行对应中间值y0为例，由于待解码数据的位宽为12比特，因此将上述待解码数据例如(x0 x2 x4 x6)^Τ的非符号位移位至最低位的过程需要进行11次，那么会产生11次第一系数矩阵P第一行对应中间值y0，本发明实施例可以设置一个存储该中间值y0的寄存器（例如ROM），这时需要对每次通过移位查找表方式产生的中间值y0进行累加，而每次累加的中间值y0会产生进位。考虑到寄存器的存储能力以及生产成本，例如可以将该寄存器的位宽设置为15比特（或高4为判断溢出时，最少设置为13比特），这样就需要每次将中间值y0的累加结果右移移位（共11次），使得这一位在右移的过程中丢失。上述过程称为移位加过程，该移位加过程需要11个时钟周期进行移位和产生中间值。这样一来，可以节省了存储上述中间值y0的寄存器的位宽，从而可以节省解码算法微架构的设计面积。

进一步地，当待解码数据例如(x0 x2 x4 x6)^Τ的符号位（即最高位）移至最低位LSB时，上述对查找表结果PX1或QX2进行累加处理，将该查找表结果的累加结果算术右移一位的步骤之后还包括：

将对查找表结果进行累加右移处理后，分别得到的对应第一系数矩阵P的第一移位数据和对应第二系数矩阵Q的第二移位数据输出。其中，对应第一系数矩阵P的第一移位数据或对应第二系数矩阵Q的第二移位数据具体是指，通过上述移位加过程（11次移位累加）最终产生的中间值，例如第一系数矩阵P第一行对应中间值y0的最终累加结果或第二系数矩阵Q第一行对应中间值y1的最终累加结果。其中，需要一个时钟周期将上述对应第一系数矩阵P的第一移位数据和对应第二系数矩阵Q的第二移位数据稳定在数据线上，以便输出。

综上所述，上述过程需要8个时钟周期将解码数据存入第一数据寄存器1011（Date0、Date2、Date4、Date6）和第二数据寄存器1012（Date1、Date3、Date5、Date7），同时声明一个用于存储中间值例如y0的寄存器reg_temp，并清零，该寄存器的位宽为15比特；然后需要提供1个时钟周期用于输入开始运算的信号，接着需要12个时钟周期用于移位加运算，具体可以执行如下命令：reg_temp<={reg_temp[14],reg_temp[14:1]}+T，累加对应第一系数矩阵P以及对应第二系数矩阵Q每一行的中间值。可以看出，每次移位时，reg_temp[0]被丢弃。然后判断当前是否移位到待解码数据例如(x0 x2 x4 x6)^Τ的符号位，如果移位到非符号位，则将(x0 x2 x4 x6)^Τ整体右移一位，并重复上面的计算命令，reg_temp继续累加。如果是符号位，则说明上述过程已经移位了11次，根据补码定义，当前位置已经移位至符号位，当前周期执行如下命令reg_temp<={reg_temp[14],reg_temp[14:1]}-T。由于已经移至符号位，因此下一时钟周期稳定在数据线上的reg_temp即是最终结果例如对应第一系数矩阵P的第一行中间值y0的最终累加结果。同理可以得出y1～y7的最终累加结果，进而得出对应第一系数矩阵P的第一移位数据和对应第二系数矩阵Q的第二移位数据。

由于解码数据存入的同时就可以进行上述12个周期的移位加过程，因此可以节省1个时钟周期。最后，需要1个时钟周期来完成上述分布式运算以得到解码数据(Y1 Y2)^T。因此，完成一次8比特的离散余弦反变换以得到解码数据(Y1 Y2)^T需要8+12+1=21个周期。

进一步地，在进行上述移位加过程时，在将12比特位宽的待解码数据例如(x0 x2 x4 x6)^Τ的非符号位移位至最低位LSB的过程中，一共右移了11次。所以需要对上述右移的11次进行补偿。

因此，优选地，上述视频解码的方法还可以包括：

将第一移位数据或第二移位数据左移6位。

具体的，以第一系数矩阵P的第一行对应的中间值y0最终累加结果第一移位数据为例；当该第一移位数据为：

y0=ax0+cx2+ax4+fx6=a×1+c×0+a×0+f×0=a；

a = \frac{1}{2} \cos \frac{π}{4} = 0.70700

左移6位后为70711，取整等于22，二进制表示为10110。因此，对应用于存储该第一移位数据的存储表的左数第二列。这样一来，可以补偿移位查表过程中，寻址参数右移的6位。通过上述左移过程，还可以避免由于定点小数例如上述0.70700与离散余弦反变换过程中的离散余弦整数系数的直接计算而引起的计算误差。

进一步地，为了对移位加过程中右移的11位继续进行补偿，该视频解码的方法还可以包括：

根据第一移位数据或第二移位数据的存储位置，在第一移位数据或第二移位数据的数值右端补偿至少一个0。

其中，上述0的个数与第一移位数据或第二移位数据的存储位置相匹配。

具体的，任然以第一系数矩阵P的第一行对应的中间值y0最终累加结果第一移位数据为例；当该第一移位数据为：

y0=ax0+cx2+ax4+fx6=a×1+c×0+a×0+f×0=a；

a = \frac{1}{2} \cos \frac{π}{4} = 0.70700

由a=0.70700，得出的二进制数为10110，其存储于用于存储第一移位数据的存储表的左数第二列，因此将其取出后再补5个0，为1011000000后再存入。当存入第三列时，在其后补4个0。其它存储位置在此不再一一举例。这样一来，通过上述方法，最可以对在移位加过程中右移的11为进行补偿。

以上，是对采用一维离散余弦反变换的视频解码方法的说明。在实际的解码过程中，为了得到显示效果更佳的画面，需要通过一维IDCT构造二维IDCT，以使得解码器对输入的待解码数据进行深层次的解码。

因此优选的，如图3所示，视频解码的方法还包括：

S201、将解码数据通过转置处理存入转置寄存器（Temp Matrix）。

由于二维IDCT的运算量很大，例如对一个大小为8×8的计算模块直接进行二维IDCT，则需要进行8192次乘法和3584次加法操作。因此，可以通过两次一维IDCT（ID_IDCT）完成二维IDCT。典型的二维IDCT处理过程如图4所示，第一次一维IDCT过程（ID_IDCT行（Row）变换）可以得出解码数据：

(\begin{matrix} Y 1 \\ Y 2 \end{matrix}) = IDCT (\begin{matrix} X 1 \\ X 2 \end{matrix});

因此，在进行下一个一维IDCT（ID_IDCT列变换）计算得出：

(\begin{matrix} Y 1 \\ Y 2 \end{matrix}) = IDCT (\begin{matrix} X 2 \\ X 1 \end{matrix})

之前，需要通过一维IDCT（ID_IDCT列（Col）变换）完成解压数据(Y1 Y2)^T的一行完整行的计算，因此上述完整行的计算得出的中间结果需要在转置寄存器中进行缓存。

S202、将第一数据寄存器1011（Date0、Date2、Date4、Date6）存储的待解码数据（x0、x2、x4、x6构成矩阵(x0 x2 x4 x6)^Τ）进行移位查表处理，得到对应第二系数矩阵Q的查找表结果QX2。

S203、将第二数据寄存器1012（Date1、Date3、Date5、Date7）存储的待解码数据（x1、x3、x5、x7构成矩阵(x1 x3 x5 x7)^Τ）进行移位查表处理，得到对应第一系数矩阵P的查找表结果PX1。

需要说明的是，上述步骤S202和S203无先后顺序，可以同时进行。

具体的，对上述移位查表处理进行说明：

以(x0 x2 x4 x6)^Τ或(x1 x3 x5 x7)^Τ作为地址索引值进行查表寻址，对第二系数矩阵Q或第一系数矩阵P的每一行进行存储，以得到对应第二系数矩阵Q的查找表结果QX2或对应第一系数矩阵P的查找表结果PX1。

其中，第二系数矩阵Q和第一系数矩阵P的每一行对应一个中间值。例如，第二系数矩阵Q第一行对应中间值y0；第一系数矩阵P第一行对应中间值y1。其它行的对应关系以此类推。

S204、对对应第二系数矩阵Q的查找表结果QX2和对应第一系数矩阵P的查找表结果PX1进行分布式运算，得到二次解码数据：

(\begin{matrix} Y 1 \\ Y 2 \end{matrix}) = IDCT (\begin{matrix} X 2 \\ X 1 \end{matrix}) .

如图5所示，对于8×8的运算模块，在第一次一维IDCT过程（ID_IDCT行变换）中，即图中所示的阶段1中，因为解码链中所有的数据都是以串行的方式进行传输的，所以待解码数据（x0、x2、x4、x6构成矩阵(x0 x2 x4 x6)^Τ）存储好之前，运算单元必须等待。因此在阶段l中数据即存在串行方式也存在并行方式，其中图5中的[11:0]表示输入的数据为12位二进制数；[14:0]表示输入的数据为15位二进制数；[7:0]表示输入的数据为8位二进制数。

具体的，8×8的运算模块存储待解码数据（x0～x7）的过程需要8×8=64个时钟周期，而以(x0 x2 x4 x6)^Τ或(x1 x3 x5 x7)^Τ作为地址索引值进行查表寻址，对第二系数矩阵Q或第一系数矩阵P的每一行进行存储，以得到对应第二系数矩阵Q的查找表结果QX2或对应第一系数矩阵P的查找表结果PX1的过程，即移位加过程如上所述需要13个时钟周期。因此如图6所示，阶段l过程需要8×8+13=77个时钟周期。

通过转置寄存器对上述第一次一维IDCT的结果进行转置处理后，在第二次一维IDCT（ID_IDCT列变换）即，阶段2中，可以使得数据在移位加过程中完全并行处理，因此只需要13个时钟周期，就可以的出二次解码数据。

这样一来，可以由图5看出，二维IDCT运算构架中一共使用了16个一维IDCT运算模块，其中前8个用来进行第一次一维IDCT过程（ID_IDCT行变换），1个用来对第一次一维IDCT的计算结果进行转置处理，后7个用来进行第二次一维IDCT（ID_IDCT列变换）。而该二维IDCT运算在时序上的裕度不较大。当待解压数据串行输入的行狂下，只用了90（77+13）个时钟周期。此外，即使64个频域数据移位完成后紧接着是另外64个数据，上面的架构也会顺利处理，因为此时运算单元中的1D_IDCT_0～1D_IDCT_7根据时序结果会依次空闲，可以紧接着处理下一轮数据的处理。因此，本发明实施例中二维IDCT的视频解码方法是基于移位加运算和第一系数矩阵P和第二系数矩阵Q，通过控制和复用一维IDCT运算方法来实现的，对于串行协议，能够将待解压数据的位宽从8bits或10bits扩展到12bits，从而在提高解码效率的同时，提高数据处理的精度。

本发明实施例提供一种视频解码装置，如图7所示，包括：

数据寄存器101，用于依次存储接收到的待解码数据（x0、x1……x7），如图2所示，数据寄存器101包括相互间隔的多个第一数据寄存器1011（Date0、Date2、Date4、Date6）和第二数据寄存器1012（Date1、Date3、Date5、Date7）。

由于公式：

Y1=PX1+QX2；Y2=PX1-QX2

移位控制模块102（Shift Control），用于将第一数据寄存器1011（Date0、Date2、Date4、Date6）存储的待解码数据（x0、x2、x4、x6构成矩阵(x0 x2 x4 x6)^Τ）或第二数据寄存器1012（Date1、Date3、Date5、Date7）存储的待解码数据（x1、x3、x5、x7构成矩阵(x1 x3 x5 x7)^Τ）进行移位查表处理，得到对应第一系数矩阵P的查找表结果PX1或对应第二系数矩阵Q的查找表结果QX2。

具体的，对上述移位查表处理进行说明：

在该视频解码装置进行移位查表处理过程中，优选的，上述移位控制模块102还包括查表右移子模块1021，通过该查表右移子模块1021将待解码数据（例如x0、x2、x4、x6构成矩阵(x0 x2 x4 x6)^Τ）进行右移（Right_Shift）一位，以使得该待解码数据(x0 x2 x4 x6)^Τ的最低位（Least Significant Bit，LSB）作为地址索引值进行查表寻址，对第一系数矩阵P或第二系数矩阵Q的每一行进行存储。其中，该待解码数据的位宽可以为12比特。

由于现有技术中，视频解码装置能够处理的待解码数据的位宽在8比特～10比特之间，这样一来，由于待解码数据的位宽较小，导致通过视频解码装置得出的解码数据出现数据缺失，从而导致具有不同灰阶值的显示区域之间的差异性增强，例如灰阶值100到灰阶值101的过度不圆滑成直线状态。而本发明实施例提供的视频解码装置能够处理的待解码数据的位宽设置为12比特，从而可以提高解码过程的数据处理精度，例如可以是增加上述灰阶值100到灰阶值101之间用于过度的数值点，避免出现数据缺失，从而能够提高换面的柔和度。

合并模块103，用于对对应第一系数矩阵P的查找表结果PX1和对应第二系数矩阵Q的查找表结果QX2进行分布式运算，得到解码数据。

具体的，通过上述合并模块103能够完成两个4×4矩阵（第一系数矩阵P和第二系数矩阵Q）分别与两个4×1矩阵X1与X2的乘法运算PX1和PX2。这样一来，通过分布式运算：Y1=PX1+QX2；Y2=PX1-QX2；就可以得出解码数据(Y1 Y2)^T。

本发明提供一种视频解码装置，该装置包括数据寄存器，用于将接收到的待解码数据依次存储至相互间隔的多个第一数据寄存器和第二数据寄存器；移位控制模块，用于将第一数据寄存器和第二数据寄存器存储的待解码数据进行移位查表处理，分别得到对应第一系数矩阵和对应第二系数矩阵的查找表结果；合并模块，用于对对应第一系数矩阵的查找表结果和对应第二系数矩阵的查找表结果进行分布式运算，得到解码数据。这样一来，通过在该视频解码装置中设置相互间隔的多个第一数据寄存器和第二数据寄存器，可以对接收到的待解码数据进行分段处理，能够简化视频解码算法的微架构，从而可以在不降低数据处理精度的同时，保证解码过程的高效性。

进一步地，当视频解码装置可以对接收到的待解码数据进行二维IDCT运算时，该视频解码装置，如图8所述，还可以包括：

转置模块201，用于对解码数据进行转置处理。

由于二维IDCT的运算量很大，例如对一个大小为8×8的计算模块直接进行二维IDCT，则需要进行8192次乘法和3584次加法操作。因此，可以通过两次一维IDCT（ID_IDCT）完成二维IDCT。典型的二维IDCT处理过程如图4所示，第一次一维IDCT过程为ID_IDCT行（Row）变换，第二次一维IDCT过程为ID_IDCT列（Col）变换。因此，当第一次一维IDCT过程中完成解压数据(Y1 Y2)^T的一行完整行的计算后，需要对上述完整行的计算得出的中间结果进行转置，才可以进行第二次一维IDCT过程（ID_IDCT列变换）。

转置寄存器202，用于存储将转置模块201的处理结果，即上述第一次一维IDCT过程中完成解压数据(Y1 Y2)^T的一行完整行的计算得出的中间结果。

二次移位控制模块203：用于将第一数据寄存器1011存储的所述待解码数据（x0、x2、x4、x6构成矩阵(x0 x2 x4 x6)^Τ）或第二数据寄存器1012存储的待解码数据（x1、x3、x5、x7构成矩阵(x1 x3 x5 x7)^Τ）进行移位查表处理，得到对应第二系数矩阵Q的查找表结果QX2或对应第一系数矩阵P的查找表结果PX1。

具体的，对上述二次移位控制模块203进行移位查表处理的过程进行说明：

二次合并模块204，用于对对应第二系数矩阵Q的查找表结果QX2和对应第一系数矩阵P的查找表结果PX1进行分布式运算，得到二次解码数据：

(\begin{matrix} Y 1 \\ Y 2 \end{matrix}) = IDCT (\begin{matrix} X 2 \\ X 1 \end{matrix})

进一步地，上述移位控制模块102或二次移位控制模块203还可以包括：

移位加子模块1022，用于当待解码数据例如(x0 x2 x4 x6)^Τ的非符号位移位至最低位LSB时，对查找表结果PX1或QX2进行累加处理，并将查找表结果PX1或QX2的累加结果算术右移一位。

其中，移位加子模块1022对上述查找表结果PX1或QX2进行累加处理具体是指：

移位数据输出子模块1023，用于当待解码数据例如(x0 x2 x4 x6)^Τ的符号位移至最低位LSB时，将对上述查找表结果PX1或QX2进行累加右移处理后，分别得到的对应第一系数矩阵P的第一移位数据和对应第二系数矩阵Q的第二移位数据输出。其中，对应第一系数矩阵P的第一移位数据或对应第二系数矩阵Q的第二移位数据具体是指，通过上述移位加过程（11次移位累加）最终产生的中间值，例如第一系数矩阵P第一行对应中间值y0的最终累加结果或第二系数矩阵Q第一行对应中间值y1的最终累加结果。其中，需要一个时钟周期将上述对应第一系数矩阵P的第一移位数据和对应第二系数矩阵Q的第二移位数据稳定在数据线上，以便输出。

一下结合图9对采用一维IDCT微构架实现的视频解码方法进行说明：

首先，待解码数据（x0、x1……x7）通过接口104依次至相互间隔的多个第一数据寄存器1011（Date0、Date2、Date4、Date6）和第二数据寄存器1012（Date1、Date3、Date5、Date7）；此时拉起信号8_date_done；然后移位控制模块102为置为Right_Shift信号，将数据寄存器101（Date0～Date7）在每个时钟（CLK）上升阶段向右移动一位，直到最高位符号位移至最低位LSB，才将信号Right_Shift进行复位；且在下一时钟输出一个运算完成信号Compute_Done（宽度为一个时钟）。接下来，以解码数据（x0、x1……x7）为地址索引值进行查表寻址，将第一系数矩阵P或第二系数矩阵Q的每一行存储至IDCT系数存储表（LUT0～LUT7）中。其中，IDCT系数存储表例如图10所示，表中的h表示存入的数据为16进制数，h后面的字母和数字表示存入的第一系数矩阵P或第二系数矩阵Q的每一行的数值的真实值。当通过查找表方式计算得出第一系数矩阵P和第二系数矩阵Q的每一行对应的一个中间值时，例如，第一系数矩阵P第一行对应中间值y0；第二系数矩阵Q第一行对应中间值y1时，在移位控制模块102的控制下通过8个移位加子模块1022，对上述中间值进行移位累加处理，最终得出对应第一系数矩阵P的查找表结果PX1或对应第二系数矩阵Q的查找表结果QX2。最后通过合并模块103按照公式：

Y1=PX1+QX2；Y2=PX1-QX2

根据对最终结果进行构造，具体的，可以通过f[7:0]序号的不同对称地对对应第一系数矩阵P的查找表结果PX1或对应第二系数矩阵Q的查找表结果QX2进行加法或减法运算，并且可以完成饱和化（防止数据溢出）的处理。这样一来，可以简化用于离散余弦反变换运算的微构架，从而可以提高视频解码的效率，并且该视频解码的方法能够处理位宽为12比特的待解码数据，因此可以提高视频解码的数据处理精度。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频解码的方法，其特征在于，包括：

2.根据权利要求1所述的视频解码的方法，其特征在于，所述方法还包括：

将所述解码数据通过转置处理存入转置寄存器；

将所述第一数据寄存器存储的所述待解码数据进行移位查表处理，得到对应所述第二系数矩阵的查找表结果；

将所述第二数据寄存器存储的所述待解码数据进行移位查表处理，得到对应所述第一系数矩阵的查找表结果；

对所述对应所述第二系数矩阵的查找表结果和所述对应所述第一系数矩阵的查找表结果进行分布式运算，得到二次解码数据。

3.根据权利要求1或2所述的视频解码的方法，其特征在于，所述移位查表处理的方法包括：

将所述待解码数据进行右移一位，以使得所述待解码数据的最低位作为地址索引值进行查表寻址，其中所述待解码数据的位宽为12比特。

4.根据权利要求3所述的视频解码的方法，其特征在于，当所述待解码数据的非符号位移位至最低位时，所述对所述对应第一系数矩阵的查找表结果和所述对应第二系数矩阵的查找表结果进行分布式运算，得到解码数据的步骤之前还包括：

对所述查找表结果进行累加处理，将所述查找表结果的累加结果算术右移一位。

5.根据权利要求4所述的视频解码的方法，其特征在于，当所述待解码数据的符号位移至最低位时，所述对所述查找表结果进行累加处理，将所述查找表结果的累加结果算术右移一位的步骤之后还包括：

将对所述查找表结果进行累加右移处理后，分别得到的对应所述第一系数矩阵的第一移位数据和对应所述第二系数矩阵的第二移位数据输出。

6.根据权利要求5所述的视频解码的方法，其特征在于，还包括：

将所述第一移位数据或所述第二移位数据左移6位。

7.根据权利要求6所述的视频解码的方法，其特征在于，还包括：

根据所述第一移位数据或所述第二移位数据的存储位置，在所述第一移位数据或所述第二移位数据的数值右端补偿至少一个0；

其中，所述0的个数与所述第一移位数据或所述第二移位数据的存储位置相匹配。

8.一种视频解码装置，其特征在于，包括：

9.根据权利要求8所述的视频解码装置，其特征在于，还包括：

转置模块，用于对所述解码数据进行转置处理；

转置寄存器，用于存储将所述转置模块的处理结果；

二次移位控制模块：用于将所述第一数据寄存器存储的所述待解码数据或所述第二数据寄存器存储的所述待解码数据进行移位查表处理，得到对应第二系数矩阵的查找表结果或对应第一系数矩阵的查找表结果；

二次合并模块，用于对所述对应所述第二系数矩阵的查找表结果和所述对应所述第一系数矩阵的查找表结果进行分布式运算，得到二次解码数据。

10.根据权利要求8或9所述的视频解码装置，其特征在于，所述移位控制模块或所述二次移位控制模块还包括：

查表右移子模块，用于将所述待解码数据进行右移一位，以使得所述待解码数据的最低位作为地址索引值进行查表寻址，其中所述待解码数据的位宽为12比特。

11.根据权利要求10所述的视频解码装置，其特征在于，所述移位控制模块或所述二次移位控制模块还包括：

移位加子模块，用于当所述待解码数据的非符号位移位至最低位时，对所述查找表结果进行累加处理，并将所述查找表结果的累加结果算术右移一位。

12.根据权利要求11所述的视频解码装置，其特征在于，所述移位控制模块或所述二次移位控制模块还包括：

移位数据输出子模块，用于当所述待解码数据的符号位移至最低位时，将对所述查找表结果进行累加右移处理后，分别得到的对应第一系数矩阵的第一移位数据和对应第二系数矩阵的第二移位数据输出。