CN1108865A

CN1108865A - 自适应视频信号运算处理装置

Info

Publication number: CN1108865A
Application number: CN94190248A
Authority: CN
Inventors: 岩田英次
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1993-03-31
Filing date: 1994-03-30
Publication date: 1995-09-20
Anticipated expiration: 2014-03-30
Also published as: EP0644492B1; EP0644492A4; US5594679A; JP3546437B2; AU668298B2; AU6292194A; CN1149496C; ATE228255T1; EP0644492A1; JPH06292178A; WO1994023384A1

Abstract

就m×n大小的像块数据而言，自适应地进行离散余弦变换(DCT)/离散余弦反变换(IDCT)、内积运算、图像数据相加和图像数据差分处理等图像压缩编码/扩张解码处理的运算处理装置，具有：(a)多个并行设置的运算单元1～4；(b)互连流水线存储器5 ～7(C)数据选择器41～44，通过互连流水线存储器把相邻的运算单元耦合起来，选择运算单元内的内部流水线存储器，构成给定的数据流通路径，进行上述视频信号处理。

Description

自适应视频信号运算处理装置

技术领域

本发明涉及用于例如数值计算、图像处理、图形处理等的计算机系统中的中央处理器，特别是，涉及适于例如象图像压缩编码和解码(CODEC)那样的视频信号处理的数字信号处理器(DSP)等自适应视频信号运算处理装置。

背景技术

近年来，以CCITT H.261建议和MPEG等的图像压缩编码/扩张解码标准为基础，提出了多种用于图像压缩编码和解码中的数字信号处理器(DSP)的方案。

本发明在这些DSP中涉及这样的DSP，即，正如山内(Yamauchi)等人在文献“高度并行单片视频DSP(Architecture and Implemen-tation of a Highly Parallel Single-Chip Video DSP)”(IEEE TRANSACTIONS ON CIRCU ITS AND SYSTEMS FOR VIDEOTECHNOLOGY，VOL.2，NO.2，JUNE 1992，pp.207-220)里所建议的那样、具有多个由算术及逻辑运算器、乘法器和累加器组成的运算单元，这些运算单元使用借助于单一指令流对多个数据进行并行处理的SIMD(“单指令流-多重数据流”)控制方式。

图1示出该文献所描述的构成。这种DSP运算单元可以把运算器以流水线方式连接起来，进行运算的流水线处理。

首先，简单说明运算流水线的原理。

图2示出运算流水线的构成例子。该运算流水线把两个输入X、Y在算术及逻辑运算器(ALU)A1中相加以后，把相加结果与来自系数存储器A3的系数在乘法器A2中相乘，进而，把相乘结果在累加器A4中累加。把对多个数据连续进行这种运算链的处理，称为“运算流水线处理”。

图3示出图2运算流水线中处理的时序图。为简单起见，假定运算流水线的各运算器A1、A2和A4在一个时钟周期内完成运算。

图3中的处理单位意味着是在两个输入端子上输入的数据组(X，Y)。

如图3所示那样，例如，试看第i个处理单位，

在第(k-1)个时钟周期内，ALU(A1)进行加法处理；

在第k个时钟周期内，乘法器A2进行乘法处理；

在第(k+1)个时钟周期内，累加器A4进行累加处理。

另外，试看第k个时钟周期，

完成了加法处理和乘法处理的第(t-1)个处理单位，在累加器A4中累加；

完成了加法的第i个处理单位在乘法器A2中进行乘法运算；

第(i+1)个处理单位在加法器A1中进行加法运算。

通过对多个处理单位反复进行这样的操作，能够实现运算的流水线处理。

其次，说明先有技术。

在这里，考虑4组运算单元的借助于单一指令流对多个数据进行并行处理、在上述文献中所建议的“单指令流-多重数据流(SIMD)”控制方式的DSP。

作为前提，假定各运算单元由进行加法、减法和逻辑运算的算术及逻辑运算器(ALU)、乘法器、累加器等三种运算器组成。还有，为了简单起见，假定，各运算器在一个时钟周期内完成运算。因此，这种DSP在一个时钟周期内最多可实现12个运算(例如，4个加法、4个乘法和4个累加)。进而假定，这种DSP在芯片内或芯片外具有用于存储向运算器提供的数据、以及来自运算器的数据的数据存储器。

首先，描述在上述前提下，实现自由度最大的运算流水线的构成。

如图4A～图4D所示，把数据存储器看作流水线寄存器，借助于软件进行运算流水线处理(称为软件流水线操作)，借此，能够实现自由度最大的运算流水线。这时，各个运算器只通过数据存储器耦合起来。另外，图4A～图4D分别示出四组并行设置的运算处理单元的动作状态。因此，数据存储器必须在每一个时钟周期内，对全部运算器的输入提供任意数据，同时，把来自全部运算器输出的数据存储到任意地址中。

数据存储器的端口数，正如从图4A～图4D判定的那样，用于至运算器输入的必须有16个端口，用于来自运算器输出的必须有12个端口。因此，必须是总计28个端口的多端口存储器。结合当前的半导体电路技术来看，这是不现实的，实际上，难以实现。

因此，可以考虑采用把数据存储器分成几组、减少每一组端口数的方法。但是，例如，在上述例子中，即使把数据存储器分割成4个组。还必须采用每一组为7个端口的多端口存储器。

另外，可以采用根据应用程序把运算流水线的自由度限定于某一程度、以求减少数据存储器端口数的方法。例如，正如上述文献中所建议那样备有4组由ALU、乘法器和累加器组成的运算流水线，只把运算流水线的输入、输出连接到数据存储器上。在这种情况下，数据存储器所需的端口中，用于至运算流水线输入的变成为8个端口，用于来自运算流水线输出的变成为4个端口。

可是，在上述先有技术DSP运算流水线的构成中，存在着运算流水线自由度的制约。例如，就乘法运算以后进行逻辑运算而言，不能进行流水线运算。在这种情况下，首先，利用乘法器对全部数据进行乘法流水线处理，其次，利用ALU对乘法运算后的全部数据进行逻辑运算的流水线处理。因此，因为在进行乘法运算时不能使用ALU、在进行逻辑运算时不能使用乘法器，所以，运算器的使用效率低，使性能低下。另外，因为是把运算流水线处理分成两次进行的，所以，建立运算流水线时的初始化设定必须设定两次。

又，在上述先有技术的DSP中，因为必须把完成第一次运算流水线处理时的中间结果存储起来，所以，使数据存储器的容量增大。

在图像编码和解码的要素处理中，正如上述例子那样，除了在乘法运算以后进行逻辑运算以外，还必须连续进行乘法运算和把几个乘法运算的结果相加等。就每个这样的运算而言，会产生与上述问题相同的问题。

另外，在上述先有技术的DSP运算流水线构成中，根据本申请人的、在专利申请书特愿平4年338183号“二维8×8离散余弦变换电路和二维8×8离散余弦反变换电路”中所建议那样的高速运算算法中，不能实现混合运算(加法和减法)和乘加法运算的运算流水线构成。

上述率先的专利申请书在进行二维8×8离散余弦变换和二维8×8离散余弦反变换时，是应用矩阵分析进行运算处理的，其细节将在后面参考图9和图10加以描述。

如上所述，不能构成运算流水线的理由是因为受到数据存储器端口数的制约，还由于进行混合运算(在先有技术例子中，使用两个运算单元)时，乘加法运算不能并行进行运算。由此，混合运算和乘加法运算是依次进行的，所以，与上述专利申请书中所建议那样理想运算流水线的构成相比较，性能显著低下。

发明的公开

本发明的目的在于，提供一种能够在图像编码和解码的要素处理中把乘法运算以后进行的逻辑运算、连续进行乘法的运算、和把几个乘法运算结果相加的各种运算自适应地在一个装置中实现的自适应视频信号运算处理装置。

本发明的第二目的在于，通过以“单指令流-多重数据流(SIMD)”控制方式为基础、使用一组运算流水线的一次流水线处理能够实现上述本发明的自适应视频信号运算处理装置。即，本发明的第二目的在于，提供一种能够并行地实现使用不同运算器运算的、不降低运算器使用效率的自适应视频信号运算处理装置。

本发明的第三目的在于，提供一种建立运算流水线时的初始化设定一次即可的自适应视频信号运算处理装置。

本发明的第四目的在于，提供一种不须存储中间结果、数据存储器容量也不须加大的自适应视频信号运算处理装置。

为了解决上述课题、达到上述目的，本发明的基本设想是设置结构可变的运算流水线，即，在进行视频信号处理的数据信号处理器(DSP)，就是说，在自适应视频信号运算处理装置中，具有多个由算术及逻辑运算器(ALU)、乘法器、累加器组成的运算单元，借助于适当切换这些运算单元内的运算器连接形态和运算单元间的连接形态，实现自适应于下列图像编码和解码处理中各种运算即各种要素处理的运算流水线，例如：

(1)离散余弦变换(DCT)和离散余弦反变换(IDCT)；

(2)量化和反量化；

(3)运动矢量检出；

(4)运动补偿(假想像素的生成和预测像素的生成)；

(5)滤波(内积运算)；

(6)图像相加和图像差分。

因此，如果根据本发明，可以提供进行所需视频信号处理的自适应视频信号运算处理装置。

这种装置就m×n大小的像块数据而言，是自适应地进行离散余弦变换/离散余弦反变换、量化/反量化、运动矢量检出、运动补偿内积运算、图像数据相加和图像数据差分处理等图像压缩编码/扩张解码处理的运算处理装置。

这种装置具有：

分别具有进行加法、减法、各种逻辑运算、大小比较、差分绝对值运算、混合加法和减法处理的扩展算术及逻辑运算器，设置在该扩展算术及逻辑运算器之后的第一内部流水线存储器，设置在该第一内部流水线存储器之后的乘法器，向该乘法器提供系数的系数存储器，设置在该乘法器之后的第二内部流水线存储器，设置在该第二内部流水线存储器之后的累加运算器和设置在该累加运算器之后的第三内部流水线存储器的多个并行设置的运算单元；

在这些多个并行设置的运算单元中，把相邻运算单元连接起来那样配置的互连流水线存储器；以及

把输入数据有选择地加到前述多个运算单元上的数据选择器；

这种装置通过前述互连流水线存储器把相邻的运算单元耦合起来，并且，选择前述运算单元内的内部流水线存储器，构成给定的数据流通路径。

如果根据上述构成，具有多个由算术及逻辑运算器(ALU)、乘法器、累加器组成的运算单元，借助于适当切换这些运算单元内的运算器连接形态和运算单元间的连接形态，能够对图像编码和解码的各要素处理并行地进行流水线处理。

下面，更具体地描述关于各种运算处理的动作。

(1)在用于离散余弦变换处理和离散余弦反变换处理的情况下，在前述多个运算单元的第一级运算单元上，设置用于离散余弦变换处理的数据输入端子，在前述多个运算单元的末级运算单元上，设置用于离散余弦反变换处理的数据输出端子。

(2)当把m×n图像数据作为一个像块，多次进行混合运算和流水线存储处理以进行离散余弦变换处理时，把前述用于离散余弦变换处理的数据输入到除了前述末级运算单元以外的多个运算单元内的扩展算术及逻辑运算器上，把该扩展算术及逻辑运算器的处理结果输出到相邻的前述互连流水线存储器上，把末级互连流水线存储器的数据输入到全部运算单元内的乘法器上，在前述累加器中对这种相乘结果进行累加。

(3)当把m×n图像数据作为一个像块，多次进行流水线存储处理和混合运算以进行离散余弦反变换处理时，

(a)把前述用于离散余弦反变换的数据输入到全部运算单元内的乘法器上，在前述累加器中对这种相乘结果进行累加；

(b)把累加器的输出输入到除了前述第一级运算单元以外多个运算单元内的扩展算术及逻辑运算器上，把该扩展算术及逻辑运算器的处理结果输出到相邻的互连流水线存储器上。

(4)在进行量化处理时，把相邻运算单元内第一运算单元中乘法器的输出端子连接到第二运算单元中乘法器的输入端子上，把该第二乘法器的相乘结果输入到其后的累加器上，把量化对象数据输入到前述第一乘法器上。

(5)在进行反量化处理时，把相邻运算单元内第一运算单元中乘法器的输出端子连接到第二运算单元中乘法器的输入端子上，把该第二乘法器的相乘结果输入到其后的累加器上，把反量化对象的数据和常数输入到第一运算单元上，把第一运算单元的运算结果输入到第一乘法器上。

(6)在进行运动矢量检出处理时，把全部运算单元内的扩展算术及逻辑运算器连接到累加器上，把运动矢量检出对象的两个数据输入到前述扩展算术及逻辑运算器上。

(7)在运动补偿中的假想像素生成处理时，把全部运算单元内的扩展算术及逻辑运算器连接到累加器上，把运动补偿中假想像素生成对象的两个数据输入到前述扩展算术及逻辑运算器上。

(8)在运动补偿中的预测像素生成处理时，把相邻运算单元中一方的乘法器的输出加到另一方的扩展算术及逻辑运算器中一个输入端子上，把另一方的乘法器的输出加到该另一方的扩展算术及逻辑运算器中另一个输入端子上，在另一方累加器中对该另一方扩展算术及逻辑运算器的运算结果进行累加。

(9)在进行内积运算处理时，把内积对象的数据输入到全部运算单元内的乘法器上，在对应的累加器中对该相乘结果进行累加。

(10)在进行图像数据相加处理或者进行图像数据相减处理时，把处理对象的数据输入到全部运算单元内的扩展算术及逻辑运算器上，输出该处理结果。

在前述运算单元内，前述扩展算术及逻辑运算器、前述乘法器和前述累加器适合进行流水线处理操作。

前述自适应视频信号运算处理器又适合在用单一指令流进行多重数据流处理的“单指令流-多重数据流(SIMD)”控制方式下动作。

前述扩展算术及逻辑运算器又特定地具有：

把第一输入数据的极性倒相的正负倒相器；

设置在该正负倒相器之后有选择地输出前述第一输入数据或前述极性已倒相的第一数据的第一数据选择器；

把该第一数据选择器选择后输出的数据和第二输入数据相加的加法器；

从前述第一输入数据中减掉前述第二输入数据的减法器；

对前述第一输入数据和前述第二输入数据进行或、与、异或、非等逻辑处理的逻辑运算器；

输入前述加法器和前述减法器的输出、进行正负判定的正负判定器；

输入前述加法器、前述减法器和前述正负判定器的输出、并有选择地输出的第二数据选择器：

连接到该第二数据选择器上的第一输出端子；以及

连接到前述减法器上的第二输出端子，

把上述电路加以组合，进行加法、减法、各种逻辑运算、大小比较以及差分绝对值运算中的任一种运算。

附图的简单说明

上述目的和特征、以及其它目的和特征，根据与附图有关的描述将会变得更清楚，这里，

图1为“单指令流-多重数据流(SIMD)”控制方式的处理器构成图；

图2为示出运算流水线例子的图；

图3为示出图2运算流水线处理中时序图的图；

图4为示出最大自由度的运算流水线构成的图，图4A～图4D为分别示出4系统运算单元动作形态的图；

图5为示出根据本发明实施例中运算单元耦合形态的自适应视频信号运算处理装置的构成图；

图6为示出根据本发明实施例中运算单元0和2构成的图；

图7为示出根据本发明实施例中运算单元1和3构成的图；

图8为示出根据本发明实施例中扩展逻辑运算器(EALU)构成的图；

图9为8×8离散余弦变换(DCT)运算流水线的构成图；

图10为8×8离散余弦反变换(IDCT)运算流水线的构成图；

图11为示出当进行根据本发明实施例中DCT处理时，自适应视频信号运算处理装置的运算流水线构成的图，图11A～图11D为分别示出4系统运算单元动作形态的图；

图12为示出当进行根据本发明实施例中IDCT处理时，自适应视频信号运算处理装置的运算流水线构成的图，图12A～图12D为分别示出4系统运算单元动作形态的图；

图13为示出当进行根据本发明实施例中量化处理时，自适应视频信号运算处理装置的运算流水线构成的图，图13A～图13D为分别示出4系统运算单元动作形态的图；

图14为示出当进行根据本发明实施例中反量化处理时，自适应视频信号运算处理装置的运算流水线构成的图，图14A～图14D为分别示出4系统运算单元动作形态的图；

图15为示出当进行根据本发明实施例中运动矢量检出处理时，自适应视频信号运算处理装置的运算流水线构成的图，图15A～图15D为分别示出4系统运算单元动作形态的图；

图16为示出图像编码和解码运动补偿中假想像素生成规则的图；

图17为示出当进行根据本发明实施例的运动补偿中假想像素生成处理时，运算流水线构成的图，图17A～图17D为分别示出4系统运算单元动作形态的图；

图18为示出当进行根据本发明实施例的运动补偿中预测像素生成处理时，运算流水线构成的图，图18A～图18D为分别示出4系统运算单元动作形态的图；

图19为示出当进行根据本发明实施例中滤波处理时，运算流水线构成的图，图19A～图19D为分别示出4系统运算单元动作形态的图；

图20为示出当进行根据本发明实施例的图像相加和图像差分处理时，自适应视频信号运算处理装置的运算流水线构成的图，图20A～图20D为分别示出4系统运算单元动作形态的图；

实施发明的最佳方式

下面，参考附图，详述关于本发明实施例的自适应视频信号运算处理装置。

本发明实施例中，与先有技术同样地，也考虑4组运算单元借助于单一指令流并行动作、在上述文献中所建议的“单指令流-多重数据流(SIMD)”控制方式的DSP。

作为本实施例的前提，假定各运算单元由进行加法、减法和逻辑运算的ALU、乘法器、累加器等三种运算器组成。还有，为了简单起见，假定，各运算器在一个时钟周期内完成运算。因此，这种DSP在一个时钟周期内最多可实现12个运算。进而假定，这种DSP在芯片内或芯片外具有用于存储向运算器提供的数据、以及来自运算器的数据的数据存储器。

下面，先描述运算单元的构成，之后，说明图像编码解码要素处理中运算单元的动作。

还有，这里例示的图像编码解码的要素处理主要是MPEG上所用的要素处理。

(1) 运算单元的构成

图5示出4组运算单元1～4之间的耦合形态。图5中，未示出数据存储器。

实际上，数据输入端子(Xin0～Xin3)11～14、数据输入端子(Yin0～Yin3)21～24以及数据输出端子(Out1～Out3)31～34通过某些相互耦合网连接到数据存储器(图中，未示出)上。

在这里，为了简单起见，假定数据存储器能够在每一个时钟周期内把数据提供到上述8个数据输入端子11～14和21～24上，同时，能够在每一个时钟周期内把来自上述4个数据输出端子31～34的数据写入。即，假定运算单元1～4和数据存储器(图中，未示出)借助于具备有上述数据传送能力的相互耦合网耦合起来。

把运算单元1～4之间耦合起来的存储器(以下，称为互连流水线存储器)0(5)、存储器1(6)、存储器2(7)和并-串变换器9、串-并变换器10和数据选择器8、41～44在实现后述离散余弦变换(DCT)/离散余弦反变换(IDCT)的高速运算算法中的大量运算流水线构成时，是必要的。

再有，就图5所示DCT输入端子51和IDCT输出端子52而言，通过相互耦合网(图中，未示出)连接到数据存储器(图中，未示出)上，也能够在每一个时钟周期内输入、输出数据。

图6和图7示出运算单元的内部构成。

图6为运算单元0(1)和运算单元2(3)的内部构成图，图7为运算单元1(2)和运算单元3(4)的内部构成图。

如图6和图7所示那样，在运算单元内部进行加法、减法、逻辑运算和后述混合运算等运算的扩展算术及逻辑运算器(EALU)61、系数存储器63、乘法器62、进行累加和移位运算的带移位功能的累加器64、进而，输入端子(Xink)1k(k表示第k个)、(Yink)2k和输出端子(Oulk)3k通过数据选择器71～75相互耦合起来。为了简单起见，假定这些运算器全都能够在一个时钟周期内完成运算。因此，存在着设置在运算器61、62、64之后的内部流水线存储器(图示中，省略)。

借助于采用运算器61、62、64与内部流水线存储器这样的耦合形态，根据数据选择器71～75的设定，通过内部流水线存储器能够改变运算器61、62、64间的数据总线。因此，这种运算单元能够采用1～3级结构可变的运算流水线的构成。

图6所示运算单元与图7所示运算单元的不同在于，图7所示运算单元的构成是把第三输入数据加到数据选择器71和73上。

图8示出扩展算术及逻辑运算器(EALU)61的构成。

EALU61具有正负倒相器301、数据选择器306、加法器302、减法器303、逻辑运算器304、正负判定器305和数据选择器307。该EALU61除一般ALU基本功能，即，加法、减法、逻辑运算(非、或、与、异或等)以外，作为扩展功能还备有大小比较运算min(X，Y)、max(X，Y)、差分绝对值运算|X-Y|和混合运算(就两个输入而言，同时进行加法和减法运算)。

这些基本功能和扩展功能通过适当组合上述各种运算器301、302、303、304和305，就可以实现。

下面，描述EALU61怎样用各种运算器来实现上述基本功能和扩展功能。

加法

加到输入端子311和312上的两个输入数据X和Y的相加用加法器302实现。就输入数据X而言，预先设定数据选择器306使未通过正负倒相器301的数据X加到加法器302上。这样，从加法器302输出相加的结果(X+Y)。数据选择器307把加法器302的相加输出作为EALU61的输出从A测输出端子313输出。

减法

加到输入端子311和312上两个输入数据的(X-Y)运算用减法器303实现。从减法器303输出相减的结果(X-Y)。该相减结果从B侧输出端子314输出。

逻辑运算

加到输入端子311和312上的两个输入数据(X，Y)的逻辑运算用逻辑运算器304实现。逻辑运算器304进行非、或、与、异或等逻辑运算，把该运算结果作为EALU61的结果通过数据选择器307从A侧输出端子313输出。

大小比较运算min(X，Y)和max(X，Y)

加到输入端子311和312上的两个输入数据(X，Y)的大小比较用正负倒相器301、加法器302、减法器303和正负判定器305来进行。正负倒相器301把输入数据X倒相，已倒相的(-X)通过数据选择器306加到加法器302上。这样，从加法器302输出相减的结果(Y-X)。另一方面，在减法器303中进行减法(X-Y)的运算。把相加结果(Y-X)和相减结果(X-Y)加到正负判定器305上，进行输入数据X和Y大小的比较判定。正负判定器305根据下述判定标准进行大小判定：

1.最小值：min(X，Y)

(Y-X)≥0时，最小值＝X

(Y-X)＜0时，最小值＝Y

2.最大值：max(X，Y)

(X-Y)≥0时，最大值＝Y

(X-Y)＜0时，最大值＝X

但是，不能同时输出最小值和最大值。数据选择器307把正负判定器305的输出作为EALU61的输出从A测输出端子313输出。差分绝对值运算|X-Y|

加到输入端子311和312上的两个输入数据(X，Y)的差分绝对值运算用正负倒相器301、加法器302、减法器303和正负判定器305进行。就输入数据X而言，预先设定数据选择器306、使通过正负极性倒相器301倒相后的-X经数据选择器306选择后输出到加法器302上。加法器302进行加法运算(Y-X)，减法器303进行减法运算(X-Y)。把这些运算结果输入到正负判定器305上。正负判定器305进行下述差分绝对值运算。

(Y-X)≥0时，差分绝对值＝Y-X

(X-Y)＜0时，差分绝对值＝X-Y

数据选择器307把上述运算后的差分绝对值从A侧输出端子313输出。

混合运算

对加到输入端子311和312上的两个输入数据(X，Y)的混合运算用加法器302和减法器303实现。预先设定数据选择器306，使输入数据X不经过正负倒相器301加到加法器302上。加法器302进行(X+Y)的加法运算，减法器303进行(X-Y)的减法运算。数据选择器307把加法器302的输出作为EALU61的输出从A侧输出端子313输出，与此同时，把减法器303的相减结果从B侧端子314输出。

只在这种混合运算的情况下，EALU61才作为两个输入、两个输出的运算器进行动作。在上述以外的运算中，EALU61是作为两个输入、一个输出的运算器进行动作的。

下面，分别说明DCT/IDCT和量化等图像编码和解码的各要素处理中运算单元的动作。

离散余弦变换/离散余弦反变换(DCT/IDCT)

在离散余弦变换/离散余弦反变换(DCT/IDCT)的要素处理中，利用本发明实施例的运算单元，按下述那样来实现与本申请人以前申请的、在特愿平4年338183号说明书和附图中所建议那样的高速运算算法相适应的混合运算(加法和减法)和乘加法运算的大量运算流水线的构成。

图9示出8×8DCT运算流水线构成的略图，图10示出8×8IDCT运算流水线构成的略图。

这些运算流水线的处理单位为8×8像块(64个像素)，成为通过流水线存储器131～133的4级运算流水线的构成。因此，与以通常的像素为单位、在每一个时钟周期内进行流水线处理的流水线不同，因为是在每64个时钟周期内进行流水线处理的，所以，可以认为是大量的运算流水线。

下面，通过8×8DCT的例子，简单说明上述运算流水线的高速运算算法。

借助于前述专利申请书、特愿平4年338183号中所建议那样的矩阵分析，8×8DCT可以借助于对8×8像块(64个像素)进行165次混合运算(加法165次和减法165次)、进而，进行220次乘加法(乘法220次和累加220次)运算来实现。因此，通过采用图9所示那样的4级运算流水线的构成。即按照3个混合运算器101～103和4个乘加法运算器111的电路构成，就能够在64个时钟周期(理想情况为55个时钟周期)内进行运算流水线的处理，计算8×8DCT。

就8×8IDCT而言，只是交换了乘加法运算与混合运算的顺序，运算量和运算流水线的级数都不变。

在上述申请中，因为使乘加法器的个数为3个，为了进一步减少乘加法运算的次数想了一些办法，但是，在本发明实施例中，因为假定乘加法器的个数为4个，所以，不须下工夫减少乘加法运算的次数了。

图11A～图11D示出在利用本发明实施例中的运算单元实现上述8×8DCT运算流水线构成的情况下的运算器与存储器的耦合形态(数据总线)。图11A～图11D分别示出4个系统的运算单元动作形态。

正如图11A～图11D和图5所示那样，把运算单元0(1)、1(2)、2(3)内的EALU61通过存储器0(5)、1(6)、2(7)、即流水线存储器5、6、7连接成流水线。进而，把运算单元2(3)中EALU61的输出通过串-并变换器10、数据选择器41～44连接到4个乘法器62上，把各个乘法器62的输出与带移位功能的累加器64连接成流水线。因为这时的EALU61进行作为前述EALU扩展功能的混合运算，所以，变成为有两个输入、两个输出。

借助于采用这样的运算器与存储器的耦合形态，实现图9所示大量的运算流水线构成。

图12A～图12D示出在利用本发明实施例中的运算单元实现上述8×8IDCT的运算流水线构成的情况下的运算器与存储器的耦合形态(数据总线)。图12A～图12D分别示出4个系统的运算单元动作形态。

正如图12A～图12D和图5所示那样，把各运算单元的4个乘法器62与各个带移位功能的累加器64连接成流水线。进而，把全部带移位功能的累加器64的输出通过并-串变换器9、数据选择器3连接到存储器0(5)上。另外，把运算单元1(2)、2(3)、3(4)的EALU61通过存储器0(5)、1(6)、2(7)即流水线存储器5、6、7连接成流水线。因为这时的EALU61进行作为前述EALU扩展功能的混合运算，所以，变成为有两个输入、两个输出。

借助于采用这样的运算器与存储器的耦合形态，实现图10所示大量的运算流水线构成。

量化和反量化处理

(1)量化

在图像编码和解码的量化处理中，存在着像下列(1)式那样连续进行乘法运算、进而进行移位运算的运算结构。这是量化处理中最复杂的运算结构。

Y = 8 \cdot X \cdot \frac{1}{2} \cdot \frac{1}{QP} - - - (1)

其中，X为量化前的像素值

Y表示量化后的像素值

W表示量化矩阵的系数

QP表示量化的比例参数

图13A～图13D示出在利用本发明实施例中的运算单元实现上式运算的情况下的运算器的耦合形态(数据总线)。图13A～图13D分别示出4系统的运算单元动作形态。

如图13A～图13D所示那样、借助于把两个乘法器62与带移位功能的累加器64连接成流水线所实现的数据总线，上式运算结构可以不分割处理，利用一组运算流水线就能够处理。在这种量化处理的运算结构中，利用本发明实施例中运算单元的构成，如图13A～图13D所示那样能够实现2组3级的运算流水线。借助于采用这样的运算流水线构成，能够两组并行地对像块内全部像素的量化进行流水线处理。

(2)反量化

在图像编码和解码的反量化处理中，存在着像下列(2)式那样在进行了移位和相加以后连续进行乘法运算、进而进行移位运算的运算结构。这是反量化处理中最复杂的运算结构。

X = \frac{1}{16} \cdot {(2 \cdot Y + K) \cdot W \cdot QP} - - - - (2)

其中，X为量化前的像素值、

Y为表示量化后的像素值

K为表示反量化时必要的常数

(K＝0，1，或-1)

W为量化矩阵的系数

QP表示量化的比例参数

图14A～图14D示出在利用本发明一个实施例中的运算单元实现上式运算的情况下的运算器的耦合形态(数据总线)。图14A～图14D分别示出4系统的运算单元动作形态。

如图14A～图14D所示那样，借助于把EALU61和两个乘法器62与带移位功能的累加器64连接成流水线所构成的数据总线，上式运算结构可以不分割利用一组运算流水线就能够实现。假定利用EALU61在一个时钟周期内就能够实现移位、与常数相加。在这种反量化处理的运算结构中，利用本发明实施例中运算单元的构成，如图14A～图14D所示那样能够实现2组4级的运算流水线。借助于采用这样的运算流水线构成，能够两组并行地对像块内全部像素的反量化进行流水线处理。

运动矢量检出

在图像编码和解码的运动矢量检出处理中，如下式那样差分绝对值的求和运算只须运动矢量候补个数那样多(在搜索算法中采用块矩阵的全搜索的情况)。

∑|X-Y| (3)其中，X表示作为运动矢量搜索基准的像块(称为参考块)的像素值

Y表示作为运动矢量搜索对象的像块(称为候补块)的像素值

图15A～图15D示出在利用本发明一个实施例中的运算单元实现上式运算的情况下的运算器的耦合形态(数据总线)。图15A～图15D分别示出4系统的运算单元动作形态。

如图15A～图15D所示那样，借助于把EALU61与带移位功能的累加器64连接成流水线所构成的数据总线，上式差分绝对值的求和运算可以不分割，利用一组运算流水线就能够实现。还有，在差分绝对值运算中，利用了前述EALU61的扩展功能、即差分绝对值运算功能。在这种运算矢量检出处理的差分绝对值求和运算中，利用本发明实施例中运算单元的构成，如图15A～图15D所示那样能够实现4组2级的运算流水线。

借助于采用这样的运算流水线构成，能够4组并行地对全部候补像块的运算矢量检出进行流水线处理。

运动补偿(假想像素的生成和预测像素的生成)

图像编码和解码中的运动补偿处理可以根据运动矢量的数值和像块的方式分成为各种处理情况。参考其中进行最复杂运算的情况。

这时，可以把运动补偿处理分成为假想像素的生成和预测像素的生成的两种处理。

下面，说明在本发明实施例运算单元中怎样实现分别适应上述两种处理的运算流水线的构成。

(1)假想像素的生成

假想像素生成的处理是随着1/2像素精度的运动矢量在像素间进行内插从而生成假想像素的处理。

图16示出假想像素生成的规则。正如从图16的图解中可以弄清的那样，最复杂的假想像素生成的处理是从互相靠近的四个像素中生成一个假想像素的情况。

a = \frac{1}{4} (X + Y + Z + W) - - - (4)

其中，a表示假想像素

X，Y，Z，W表示互相靠近的四个像素

图17A～图17D示出在利用本发明实施例中的运算单元实现上式运算的情况下的运算器的耦合形态(数据总线)。图17A～图17D分别示出4系统的运算单元动作形态。

如图17A～图17D所示那样，借助于把EALU61与带移位功能的累加器64连接成流水线所构成的数据总线，上式的运算结构可以不分割利用一组运算流水线就能够处理。

在这种假想像素的生成处理中，利用本发明一个实施例中运算单元的构成，如图17A～图17D所示那样能够实现4组2级的运算流水线。

借助于采用这样的运算流水线构成，能够4组并行地对像块内全部像素的假想像素生成进行流水线处理。

(2)预测像素的生成

预测像素生成的处理根据运动补偿预测是单向(前向或后向)、还是双向的方式而不同。

在运动补偿预测为单向的情况下，只须根据运动矢量从帧存储器取数，如果获得了该像块即可。

可是，在运动补偿预测为双向的情况下，则要根据前向和后向两种运动矢量，从两个帧存储器分别获得像块，进而，把这些像素按照时间的距离加以平均，获得预测值。

a = \frac{1}{16} {A \cdot X + (16 - A) \cdot X} - - - (5)

其中，a表示双向运动补偿预测值

X，Y分别表示前向和后向运动补偿的预测值

A为按照两个像块的时间的距离确定的参量。

图18A～图18D示出在利用本发明一个实施例中的运算单元实现上式运算的情况下的运算器的耦合形态(数据总线)。图18A～图18D分别示出4系统的运算单元动作形态。

如图18A～图18D所示那样地，借助于把两个乘法器62的输出作为EALU61的输入、进而与带移位功能的累加器64连接成流水线所构成的数据总线，上式的运算结构可以不分割，利用一组运算流水线就能够实现。

在这种预测像素的生成处理中，利用本发明实施例中运算单元的构成，如图18A～图18D所示那样能够实现2组3级的运算流水线。

借助于采用这样的运算流水线构成，能够2组并行地对像块内全部像素的预测像素生成进行流水线处理。

滤波(内积运算)

不限于图像编码和解码，滤波处理是图像处理中基本的要素处理。在这里，考虑对像块内的全部像素进行一维滤波处理的情况。

在滤波处理中，下式那样的内积运算是必要的。

∑C·X (6)其中，C表示滤波系数

X表示像块内的像素

图19A～图19D示出在利用本发明实施例的运算单元实现上式运算的情况下的运算器的耦合形态(数据总线)。图19A～图19D分别示出4系统的运算单元动作形态。

如图19A～图19D所示那样，借助于把乘法器62与带移位功能的累加器64连接成流水线所构成的数据总线，上式的内积运算可以不分割、利用一组运算流水线就能够实现。在这种滤波处理中，利用本发明实施例中运算单元的构成，如图19A～图19D所示那样能够实现4组2级的运算流水线。

借助于采用这样的运算流水线构成，能够4组并行地对像块内全部像素的滤波处理进行流水线处理。

图像相加和图像差分

不限于图像压缩编码解码，图像相加和图像差分也是图像处理中基本的要素处理。

在这里，考虑在像块之间计算图像相加或图像差分的情况。

图20A～图20D示出在利用本发明一个实施例中的运算单元实现图像相加或图像差分的情况下的运算器的耦合形态(数据总线)。图20A～图20D分别示出4系统的运算单元动作形态。

利用本发明实施例中运算单元的构成，如图20A～图20D所示那样能够实现4组利用EALU61的1级运算流水线。借助于采用这样的运算流水线构成，能够4组并行地对像块内全部像素的图像相加或图像差分进行流水线处理。

以上实施例所描述的虽然是关于以视频信号为代表的自适应处理，但是，在本发明自适应视频信号运算处理装置中，并不限于上述的信号处理例子，也能够适用于其它信号与上述同样的处理。

如果根据本发明，在图像编码和解码的要素处理中，就能够把在乘法运算以后进行的逻辑运算、连续进行乘法的运算和将几个乘法运算结果相加的各种运算自适应地在一个自适应视频信号运算处理装置中实现。

还有，利用以“单指令流-多重数据流(SIMD)”控制方式为基础的、使用一组运算流水线的一次流水线处理，就能够实现本发明自适应视频信号运算处理装置。

因此，与先有技术的构成相比较，因为本发明自适应视频信号运算处理装置能够并行地实现使用不同运算器的运算，所以，不降低运算器的使用效率。

本发明自适应视频信号运算处理装置建立运算流水线时的初始化设定一次即可。进而，因为本发明自适应视频信号运算处理装置不须存储中间结果，所以，数据存储器的容量不增大。

因为本发明自适应视频信号运算处理装置能够实现把3个混合运算器和乘加法器通过流水线存储器连接成大量运算流水线的构成，所以，可以实现按照前述特愿平4年第338183号申请书(平成4年11月25日申请)中所建议那样电路构成的、DCT高速运算算法中混合运算和乘加法运算流水线的构成。这样，本发明自适应视频信号运算处理装置在图像编码和解码的DCT/IDCT的要素处理中，与先有技术的构成相比，运算器的使用效率已大幅度提高，性能也改善了。

产业上使用的可能性

本发明自适应视频信号运算处理装置涉及用于例如数值计算、图像处理、图形处理等计算机系统中的中央处理装置(处理器)，特别是，适用于对于图像压缩编码和解码(CODEC)那样的视频信号处理作为数字信号处理器来使用的装置。

符号表

A1-算术及逻辑运算器(ALU)

A2-乘法器

A3-系数存储器

A4-累加器

1～4-本发明实施例中的运算单元

5～7-互连流水线存储器

8-数据选择器

9-并-串变换器

10-串-并变换器

11～14，21～24-运算单元的输入

31～34-运算单元的输出端子

41～44-数据选择器

51-用于8×8DCT的输入端子

52-用于8×8IDCT的输出端子

61-扩展算术及逻辑运算器(EALU)

62-乘法器

63-系数存储器

64-带移位功能的累加器

71～75-数据选择器

301-正负倒相器

302-加法器

303-减法器

304-逻辑运算器

305-正负判定器

306，307-数据选择器

311，312-EALU的输入端子

313，314-EALU的输出端子

101～103-混合运算器

111-乘加法器

121-串-并变换器

122-并-串变换器

131～133-流水线存储器

141-数据存储器

Claims

1.一种自适应视频信号运算处理装置，其特征在于，

该装置就m×n大小的像块数据而言，是自适应进行离散余弦变换/离散余弦反变换、量化/反量化、运动矢量检出、运动补偿、内积运算、图像数据相加和图像数据差分处理等图像压缩编码/扩张解码处理的运算处理装置；

该装置具有多个并行设置的运算单元，所述运算单元分别具有进行加法、减法、各种逻辑运算、大小比较、差分绝对值运算、混合加法和减法处理的扩展算术及逻辑运算器，设置在该扩展算术及逻辑运算器之后的第一内部流水线存储器，设置在该第一内部流水线存储器之后的乘法器，向该乘法器提供系数的系数存储器，设置在该乘法器之后的第二内部流水线存储器，设置在该第二内部流水线存储器之后的累加运算器，以及设置在该累加运算器之后的第三内部流水线存储器；

在所述多个并行设置的运算单元中，把相邻运算单元连接起来那样配置的互连流水线存储器；以及

把输入数据有选择地加到上述多个运算单元上的数据选择器；

该装置通过上述互连流水线存储器把相邻的运算单元耦合起来，并且，选择上述运算单元内的内部流水线存储器，构成给定的数据流通路径；

该装置进行上述离散余弦变换等所需的视频信号处理。

2.根据权利要求1中所述的自适应视频信号运算处理装置，其特征在于，上述装置在用单一指令流进行多重数据流处理的、“单指令流-多重数据流(SIMD)”控制方式下动作。

3.根据权利要求1或2中所述的自适应视频信号运算处理装置，其特征在于，在上述运算单元内，上述扩展算术及逻辑运算器、上述乘法器和上述累加器进行流水处理操作。

4.根据权利要求3中所述自适应视频信号运算处理装置，其特征在于，上述扩展算术及逻辑运算器具有：

把第一输入数据的极性倒相的正负倒相器；

设置在该正负倒相器之后、有选择地输出上述第一输入数据或上述极性已倒相的第一数据的第一数据选择器；

从上述第一输入数据中减掉上述第二输入数据的减法器；

对上述第一输入数据和上述第二输入数据进行或、与、异或、非等逻辑处理的逻辑运算器；

输入上述加法器和上述减法器的输出、进行正负判定的正负判定器；

输入上述加法器、上述减法器和上述正负判定器的输出、有选择地输出的第二数据选择器；

连接到该第二数据选择器上的第一输出端子；以及

连接到上述减法器上的第二输出端子；

把上述电路适当组合，进行加法、减法、各种逻辑运算、大小比较、差分绝对值运算、混合加法和减法处理中的任何一种运算。

5.根据权利要求4中所述的那种自适应视频信号运算处理装置，其特征在于，在上述多个运算单元的第一级运算单元上，设置输入用于离散余弦变换处理的数据的端子；

在上述多个运算单元的末级运算单元上，设置输出用于离散余弦反变换处理的数据的端子。

6.根据权利要求5中所述的自适应视频信号运算处理装置，其特征在于，当把m×n图像数据作为一个像块、多次进行混合运算和流水线存储处理以进行离散余弦变换处理时，按下述方式来确立路径：

(a)把上述用于离散余弦变换处理的数据输入到除了上述末级运算单元以外的多个运算单元内的扩展算术及逻辑运算器上，把该扩展算术及逻辑运算器的处理结果输出到上述相邻的互连流水线存储器上；

(b)把末级的互连流水线存储器的数据输入到全部运算单元内的乘法器上，在上述累加器中对其相乘结果进行累加。

7.根据权利要求5中所述的自适应视频信号运算处理装置，其特征在于，当把m×n图像数据作为一个像块、多次进行流水线存储处理和混合运算以进行离散余弦反变换处理时，按下述方式来确定路径

(a)把上述用于离散余弦反变换的数据输入到全部运算单元内的乘法器上，在上述累加器中对其相乘结果进行累加；

(b)把上述累加器的输出输入到除了上述第一级运算单元以外多个运算单元内的扩展算术及逻辑运算器上，把该扩展算术及逻辑运算器的处理结果输出到相邻的互连流水线存储器上。

8.根据权利要求1～4中任一项所述的自适应视频信号运算处理装置，其特征在于，在进行量化处理时，按下述方式来确定路径：

(a)把相邻运算单元内的第一运算单元中的乘法器的输出端子连接到第二运算单元中的乘法器的输入端子上；

(b)把该第二运算单元中的乘法器的相乘结果输入到其后的累加器上；

(c)把量化对象的数据输入到上述第一运算单元中的乘法器上。

9.根据权利要求1～4中任一项所述的自适应视频信号运算处理装置，其特征在于，在进行反量化处理时，按下述方式来确定路径：

(c)把反量化对象的数据和常数输入到第一运算单元上，把它的运算结果输入到第一运算单元中的乘法器上。

10.根据权利要求1～4中任一项所述的自适应视频信号运算处理装置，其特征在于，在进行运动矢量检出处理时，按下述方式来确定路径：

(a)把全部运算单元内的扩展算术及逻辑运算器连接到累加器上；

(b)把运动矢量检出对象的两个数据输入到上述扩展算术及逻辑运算器上。

11.根据权利要求1～4中任一项所述的自适应视频信号运算处理装置，其特征在于，在进行运动补偿中的假想像素生成处理时，按下述方式来确定路径：

(a)把全部算术单元内的扩展算术及逻辑运算器连接到累加器上；

(b)把运动补偿中假想像素生成对象的两个数据输入到上述扩展算术及逻辑运算器上。

12.根据权利要求1～4中任一项所述的自适应视频信号运算处理装置，其特征在于，在进行运动补偿中的预测像素生成处理时，按下述方式来确定路径：

(a)把相邻运算单元中的一方的乘法器的输出加到另一方的扩展算术及逻辑运算器中的一个输入端子上；

(b)把另一方的乘法器的输出加到该另一方的扩展算术及逻辑运算器中另一个输入端子上；

(c)在另一方的累加器中对该另一方的扩展算术及逻辑运算器的运算结果进行累加。

13.根据权利要求1～4中任一项所述的自适应视频信号运算处理装置，其特征在于，在进行内积运算处理时，按下述方式来确定路径：

(a)把内积对象的数据输入到全部运算单元内的乘法器上；

(b)在对应的累加器中对该相乘结果进行累加。

14.根据权利要求1～4中任一项所述的自适应视频信号运算处理装置，其特征在于，在进行图像数据相加处理时，或者，在进行图像数据相减处理时，按下述方式来确定路径，即把处理对象的数据输入到全部运算单元内的扩展算术及逻辑运算器上，输出该处理结果。