CN102982007A

CN102982007A - 并向量分数与符号对称舍入误差的乘积的快速计算

Info

Publication number: CN102982007A
Application number: CN2012104908859A
Authority: CN
Inventors: 尤里娅·列兹尼克
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2007-08-28
Filing date: 2008-08-28
Publication date: 2013-03-20
Anticipated expiration: 2028-08-28
Also published as: JP2011507313A; US20090063599A1; CN102982007B; KR20100066521A; JP4965711B2; TW200925897A; BRPI0815791A2; TWI474194B; EP2195750A2; ES2791420T3; CA2698269A1; EP2195750B1; WO2009032740A3; US8819095B2; US20140330878A1; RU2468422C2; RU2010111763A; CN102067108B; CN102067108A; US9459831B2

Abstract

本申请涉及并向量分数与符号对称舍入误差的乘积的快速计算。整数值与无理值的乘积可通过符号对称算法来确定。过程可确定使例如平均不对称、平均误差、误差方差及误差量值等度量最小化的可能算法。给定整数变量x及近似于无理分数的有理并向量常数，可产生符号对称的一系列中间值。所述中间值可包括加法、减法及右移运算的序列，当共同求和时，求所述整数值与所述无理值的所述乘积的近似值。可移除例如0的加法或减法或0个位的移位等其它运算。

Description

并向量分数与符号对称舍入误差的乘积的快速计算

分案申请的相关信息

本申请是分案申请。该分案的母案是申请日为2008年8月28日、申请号为200880104677.2、发明名称为“并向量分数与符号对称舍入误差的乘积的快速计算”的发明专利申请案。

技术领域

本文中的标的物大体上涉及处理，且明确地说，涉及用于硬件及软件处理中的近似技术。

背景技术

算术移位可用以执行带符号整数与2的幂的乘法或除法。对带符号或无符号的二进制数向左移位n个位具有使其与2n相乘的效果。对2补数带符号的二进制数向右移位n个位具有用2n除其的效果，但其通常舍去(即，向负无穷大)。由于右移非线性运算，所以算术右移可增加舍入误差且产生可不等于右移之后的乘法结果的结果。

在一些实施方案中，符号对称算法可用于IDCT变换架构或其它数字滤波器中。

算术移位的使用的一个实例是在一些信号处理算法的定点实施方案中，例如，FFT、DCT、MLT、MDCT等。此类信号处理算法通常使用并向量有理分数来近似于这些算法的数学定义中的无理(代数或超越)因子。此方式允许使用整数加法及移位而非较复杂运算来执行这些无理分数的乘法。

发明内容

整数值及无理值的乘积可由符号对称算法确定。过程可确定最小化例如平均不对称、平均误差、误差方差及误差量值的度量(metric)的可能算法。给定整数变量x及近似于无理分数的有理并向量常数，可产生符号对称的一系列中间值。给定加法、减法及右移运算的序列，符号对称算法可对整数值及无理值的乘积求近似值。可移除例如0的加法或减法或0个位的移位的其它运算以简化处理。

提供此发明内容以便以简化形式引入以下在详细描述中进一步描述的概念的选择。此发明内容并不打算识别所主张标的物的关键特征或基本特征，其也并不打算用以限制所主张标的物的范围。

附图说明

图1为各种计算算法的结果的曲线。

图2为确定用以确定乘积的符号对称算法的实例过程的流程图。

图3为实施定点IDCT算法的示范性架构。

图4为示范性编码系统的框图。

图5为示范性解码系统的框图。

具体实施方式

离散余弦变换(DCT)及反离散余弦变换(IDCT)执行关于无理常数的乘法运算(即，余弦)。在DCT/IDCT的实施方案的设计中，这些无理常数的计算乘积的近似可使用定点算术执行。一种用于将浮点值转换为定点值的技术是基于通过并向量分数求无理因子α_i近似值：

α_i≈a_i/2^k (1)

其中a_i与k两者都为整数。x与因子α_i的乘法提供整数算术中的近似的实施方案，如下：

xα_i≈(x*a_i)＞＞k (2)

其中＞＞指示逐位右移运算。

精确位的数目k可影响并向量有理近似的复杂性。在软件实施方案中，精确参数k可由寄存器的宽度(例如，16或32)约束且不满足此设计约束的后果可导致延长变换的执行时间。在硬件设计中，精确参数k影响实施加法器及乘法器所需的门数目。因此，定点设计中的目标为最小化位k的总数目，同时维持近似的充分准确性。

在无对值α_i任何特定约束的情况下且假定对于任何给定k，分母a_i的对应值可经选择使得：

| α_{i} - a_{i} / 2^{k} | = 2^{- k} | 2^{k} α_{i} - a_{i} | = 2^{- k} \underset{z &Element; Z}{mim} | 2^{k} α_{i} - z |

且(1)中的近似的绝对误差应与2^k成反比：

|_αi-a_i/2^k|≤2^-k-1

即，每一额外精确位(即，增加k)应将误差减小一半。

在一些实施方案中，如果待求近似值的值α₁、α_n可由一些额外参数ξ缩放，则可改进误差率。如果α₁、…、α_n为n个无理数的集合(n≥2)，则存在无限多个n+2元组a₁、…、a_n、k、ξ，其中a₁、…、a_n∈Z，k∈N且ξ∈Q，使得：

\max {| ξ α_{1} - a_{1} / 2^{k} |, . . ., | ξ α_{n} - a_{n} / 2^{k} |} < \frac{n}{n + 1} ξ^{- 1 / n} 2^{- k (1 + 1 - n)}

换句话说，如果可改变算法使得所有其无理因子α₁、…、α_n可由一些参数ξ预先缩放，则应存在具有如2-k(1+1/n)一样快速减小的绝对误差的近似。举例来说，当n＝2时，在位的使用中可存在大致50％或更高的有效性。然而，对于因子α₁、…、α_n的大集合，此增益可较小。

以上关系(1、2)中所示的并向量近似将计算与无理常数的乘积的问题减小为与整数的乘法。通过使用5位并向量近似23/32，整数与无理因子

的乘法说明求无理常数的近似值的过程。通过查看23＝10111的二进制位模式且用加法运算代入每一“1”，整数乘以23的乘积可如下确定：

x*23＝(x＜＜4)+(x＜＜2)+(x＜＜1)+x

此近似要求3个加法及3个移位运算。通过进一步注意最后3数字形成一系列“1”，可使用以下：

x*23＝(x＜＜4)+(x＜＜3)-x，

其将复杂性减小为仅2个移位运算及2个加法运算。

与隔离数字“1”相关联的运算“+”或与运行“1…1”的开始及结束相关联的“+”及“-”的序列通常被称为“正规符号数字”(CSD)分解。CSD在无乘法器电路的设计中为众所周知的实施方案。然而，CSD分解不总是用最小数目的运算产生结果。举例来说，考虑相同因子

的8位近似及其CSD分解：

x*181＝(x＜＜7)+(x＜＜5)+(x＜＜4)+(x＜＜2)+x

其使用4个加法运算及4个移位运算。通过重新布置计算且再使用中间结果，可构造更有效的算法：

x2＝x+(x＜＜2)；//101

x3＝x2+(x＜＜4)；//10100

x4＝x3+(x2＜＜5)；//10110101＝x*181

根据实施方案，与并向量分数的乘积的计算可通过允许将右移用作初等运算导出。举例来说，考虑因子

且根据其CSD分解使用右移及加法运算，获得以下：

x*23/32～(x＞＞1)+(x＞＞2)-(x＞＞5)。(3)

或通过进一步注意1/2+1/4＝1-1/4：

x*23/32～x-(x＞＞2)-(x＞＞5)。(4)

计算与相同因子的乘积的又一方式为：

x*23/32～x-((x+(x＞＞4))＞＞2)+((-x)＞＞6)。(5)

图1说明由算法(3、4及5)对整数及无理分数23/32的乘法所产生的值的曲线。每一算法(3、4及5)计算对乘以无理分数23/32的乘积求近似的值；然而，这些近似中的每一者中的误差不同。举例来说，算法(4)产生所有正误差，具有55/32的最大量值。算法(3)具有更平衡误差，具有在±65/64内振荡的量值。最终，算法(5)优选地产生具有在±7/8中振荡的符号对称误差。因此，符号对称算法将产生最小化误差的平衡结果。

算法的符号对称性质意味着对于任何(x∈Z)：

A_{a_{i}, b} (- x) = - A_{a_{i}, b} (x)

且其还暗示对于任何N，且假定

Σ_{x = - N}^{N} [A_{a_{i}, b} (x) - x \frac{a_{i}}{b}] = 0

即，在任何对称间隔的零平均误差。

此性质可用于信号处理算法的设计中，由于其最小化由定点近似引入的舍入误差将累积的机率。下文所述的为用于计算与并向量分数的乘积的基于右移符号对称算法的基础，以及其复杂性的上限。

给定并向量分数a₁/2^b、…、a_m/2^b的集合，可界定算法：

作为以下步骤序列：

x₁、x₂、…、x_t，

其中x₁：＝x且其中随后值x_k(k＝2、…、t)是通过使用以下初等运算中的一者产生：

x_{k} : [\begin{matrix} x_{i} > > s_{k}; & 1 \leq i > k, s_{k} &GreaterEqual; 1; \\ - x_{i}; & 1 \leq i < k; \\ x_{i} + x_{j}; & 1 \leq i, j < k; \\ x_{i} - x_{j}; & 1 \leq i, j < k, i &NotEqual; j \end{matrix} .

算法在存在下标j₁、…、j_m≤t时终止，使得：

x_j1～x*a₁/2^b、…、x_jm～x*a_m/2^b

因此，一些实施方案检查最小化以下度量中的一者或一者以上的算法：

平均不对称：

χ_{A_{a_{i}, b} =} \frac{1}{2^{b}} Σ_{x = 1}^{2^{b}} | A_{a_{i}, b} (x) + A_{a_{i}, b} (- x) |

平均误差：

μ_{A_{a_{i}, b}} = \frac{1}{2^{b + 1}} Σ_{x = - 2^{b}}^{2^{b}} [A_{a_{i}, b} (x) - x \frac{a_{i}}{2^{b}}]

误差方差：

σ_{A_{a_{i}, b}}^{2} = \frac{1}{2^{b + 1} - 1} Σ_{x = - 2^{b}}^{2^{b}} {[A_{a_{i}, b} (x) - μ_{A_{a_{i}, b}}]}^{2}

误差量值：

δ_{A_{a_{i}, b}}^{\max} = \max_{x = - 2^{b} . . . 2^{b}} | A_{a_{i}, b} (x) - μ_{A_{a_{i}, b}} |

当计算与多个常数

的乘积时，以上度量(针对常数

中的每一者计算)的最坏状况值可用于评估算法的效率。

图2展示用于计算乘积的过程100中的阶段。在102处，接收整数值，且在104处，断定表示待乘以整数的无理值的有理并向量常数。在106处，可确定中间值。举例来说，给定整数变量x及有理并向量常数

的集合，可如下确定一系列中间值：

w₀，w₁，w₂，...，w_t

其中：w₀＝0，w₁＝x，且对于所有k≥2值，w_k经如下获得：

^w _k＝±w_i±(w_j＞＞s_k)(i，j＜k)，

其中±符号暗示需要以两项执行的加法运算或减法运算，且＞＞指示变量z_j右移s_k位。

在108处，确定对应于乘积的此系列中的点。即，此步骤的结果为下标l₁，...，l_m≤t，使得：

w_{l_{1}} \approx x \frac{a_{1}}{2^{b}}, . . ., w_{l_{1}} \approx x \frac{a_{m}}{2^{b}}

在110处，对照某些精确度量来分析所得到的输出值

举例来说，可分析这些值以确定其是否使平均值、不对称、方差、量值中的一者最小化。

在一些实施方案中，过程100可移除0的加法或减法，或0个位的移位。在一些实施方案中，中间值的序列可经选择使得此完整运算的总计算(或实施方案)成本最小。

因此，给定度量的集合，可存在具有可由加法的总数目、移位的总数目等特征化的复杂性的算法。照此，在达到最小数目的加法及移位等的算法之中存在具有最小数目的加法、最小数目的移位、最小数目的加法及移位及最小数目的加法的算法。

图3说明示范性定点8×8IDCT架构120。所述架构可实施是x的符号对称值的算法。在许多实施方案中，此类算法对于因子的给定集合而言可为最不复杂的。如上所述，IDCT的设计可为对称的或产生良好平衡的舍入误差。在一些实施方案中，可分析对例如由算法所产生误差的平均值、方差及量值(最大值)等度量的估计。在评定算法的复杂性中，可考虑运算的数目，以及最长执行路径及计算所需的中间寄存器的最大数目。

在一些实施方案中，在所提议定点IDCT架构120的设计中使用的架构可特征化具有可分及缩放特征。缩放级122可包括单一8×8矩阵，其通过因子分解用于行变换的1D比例因子及用于列变换的1D比例因子而经预先计算。缩放级122还可用于将P个精确位预先分配到输入DCT系数中的每一者，从而提供定点“尾数(mantissa)”供贯穿剩余的变换使用。

在实施方案中，经缩放1D变换设计的基础可为C·洛夫勒(C.Loeffler)、A·莱特恩博格(A.Ligtenberg)及G·S·莫斯奇茨(G.S.Moschytz)利用3个平面旋转及2个独立因子γ＝√2的众所周知的因子分解的变体。为了提供LLM因子分解内的常数α、β、δ、ε、η及θ的有效有理近似，可使用两个浮动因子ξ及ζ且将其应用于这些常数的两个子群组，如下：

ξ：a’＝ξa，β’＝ξβ；

ζ：δ’＝ζδ，ε＝ζε，η’＝ξη，θ’＝ζθ；

这些乘法可通过使每一输入DCT系数与ξ及ζ的相应倒数相乘而在缩放级122中由ξ及ζ倒置。即，比例因子的向量可在1D变换级联(例如，级126及128)中的第一者之前经计算以供在缩放级122中使用。

σ＝(1，1/ζ，1/ζ，γ/ζ，1，γ/ζ，1/ζ，1/ζ)^T

这些因子随后可合并到缩放矩阵中，其如下经预先计算：

Σ = {σσ}^{T} 2^{S} = (\begin{matrix} A & B & C & D & A & D & C & B \\ B & E & F & G & B & G & F & E \\ C & F & H & I & C & I & H & F \\ D & G & I & J & D & J & I & D \\ A & B & C & D & A & D & C & B \\ D & G & I & J & D & J & I & G \\ C & F & H & I & C & I & H & F \\ B & E & F & G & B & G & F & E \end{matrix})

其中A-J指示此乘积中的唯一值：

A＝2^S，

C = \frac{2^{S}}{ξ},

H = \frac{2^{S}}{ξ^{2}},

且S指示经分配用于缩放的定点精确位的数目。

此参数S可经选择使得其大于或等于每一输入系数的尾数的位的数目P。此允许系数F_vu的缩放如下实施：

F′_vu＝(F_vu*S_vu)＞＞(S-P)

其中S_vu≈∑vu指示比例因子的矩阵中的值的整数近似。

在1D变换的系列(级126及128)中的最后变换级的未尾，P个定点尾数位(加上在执行1D级中的每一者期间所累积的3个额外位

)简单地通过右移运算130从变换输出移位，如下：

f_yx＝f′_yx＞＞(P+3)

为了确保所计算值的适当舍入，2P+2的偏置可使用DC偏置级124在移位之前添加到值f′_yx。此舍入偏置通过在执行第一1D变换之前扰动DC系数来实施：

F″₀₀＝F′₀₀+2^P+2

在一些实施方案中，如上所论述的平衡(即，符号对称)算法可用于ISO/IEC 23002-2IDCT标准中。此标准界定用于计算与以下常数的乘积的过程：

y～y*113/128，

z～y*719/4096

且如下完成：

x2＝(x＞＞3)-(x＞＞7)；

x3＝x2-(x＞＞11)；

y＝x2+(x3＞＞1)；

z＝x-x2；

图4展示编码系统400的框图，其可包括具有符号对称舍入误差的实施并向量分数的变换，如上所述。捕获装置/存储器410可接收源信号，执行到数字格式的转换且提供输入/原始数据。捕获装置410可为视频摄像机、数字化器或某一其它装置。处理器420处理原始数据且产生经压缩数据。在处理器420内，原始数据可由DCT单元422变换，由Z字形扫描单元424扫描，由量化器426量化，由熵编码器428编码且由包化器430包化。DCT单元422可根据本文中所述的技术对原始数据执行2D DCT且可支持全界面与缩放界面两者。单元422到430中的每一者可实施硬件、固件及/或软件。举例来说，DCT单元422可以专用硬件、用于算术逻辑单元(ALU)的指令的集合等实施。

存储单元440可存储来自处理器420的经压缩数据。发射器442可发射经压缩数据。控制器/处理器450控制编码系统400中的各种单元的操作。存储器452存储用于编码系统400的数据及程序码。一个或一个以上总线460使编码系统400中的各种单元互连。

图5展示解码系统500的框图，其可包括具有符号对称舍入误差的实施并向量分数的变换，如上所述。接收器510可从编码系统接收经压缩数据，且存储单元512可存储所接收的经压缩数据。处理器520处理经压缩数据且产生输出数据。在处理器520内，经压缩数据可由解包化器522解包化，由熵解码器524解码，由反量化器526反量化，由反Z字形扫描单元528以适当次序放置且由IDCT单元530变换。IDCT单元530可根据本文中所述的技术对全变换系数或缩放变换系数执行2D IDCT且可支持全界面与缩放界面两者。单元522到530中的每一者可以硬件、固件及/或软件实施。举例来说，IDCT单元530可以专用硬件、用于ALU的指令的集合等实施。

显示器单元540显示来自处理器520的重构图像及视频。控制器/处理器550控制解码系统500中的各种单元的操作。存储器552存储用于解码系统500的数据及程序码。一个或一个以上总线560使解码系统500中的各种单元互连。

处理器420及520可各自以一个或一个以上专用集成电路(ASIC)、数字信号处理器(DSP)及/或一些其它类型的处理器实施。或者，处理器420及520可各自以一个或一个以上随机存取存储器(RAM)、只读存储器(ROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、磁盘、光盘及/或此项技术中已知的其它类型的易失性及非易失性存储器替代。

本文中所述的实施例可由硬件、软件、固件、中间件、微码或其任何组合实施。当系统及/或方法以软件、固件、中间件或微码、程序码或码段实施时，其可存储于例如存储组件等机器可读媒体中。码段可表示过程、函数、子程序、程序、例程、子例程、模块、软件包、类别，或指令、数据结构或程序语句的任何组合。可通过传递及/或接收信息、数据、自变量、参数或存储器内容而将码段耦合到另一码段或硬件电路。可使用包括存储器共享、消息传递、权标传递、网络传输等任何适当方式来传递、转发或传输信息、自变量、参数、数据等。

对于软件实施方案来说，可通过执行本文中所描述的功能的模块(例如，过程、函数等)来实施本文中所描述的技术。软件码可存储于存储器单元中且由处理器来执行。存储器单元可在处理器内或在处理器外实施，在后种状况下存储器单元可经由在此项技术中已知的各种装置以通信方式耦合到处理器。

结合本文中所揭示的实施例而描述的方法或算法的阶段可直接以硬件、由处理器执行的软件模块或两者的组合体现。软件模块可驻留于随机存取存储器(“RAM”)、快闪存储器、只读存储器(“ROM”)、可擦除可编程只读存储器(“EPROM”)、电可擦除可编程只读存储器(“EEPROM”)、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储媒体中。实例存储媒体耦合到处理器，使得处理器可从存储媒体读取信息且将信息写入到存储媒体。在替代方案中，存储媒体可与处理器成一体。处理器及存储媒体可驻留于专用集成电路(“ASIC”)中。ASIC可驻留于用户终端中。在替代方案中，处理器及存储媒体可作为离散组件驻留于用户终端中。

应注意，本文中所述的方法可在由所属领域的技术人员已知的多种硬件、处理器及系统上实施。举例来说，用于实施方案中的机器可具有用以显示内容及信息的显示器、用以控制客户端的操作的处理器及用于存储与机器操作有关的数据及程序的存储器。在一些实施方案中，机器为蜂窝式电话。在一些实施方案中，机器为便携式计算机或具有通信能力的手持机。在另一实施方案中，机器为具有通信能力的个人计算机。

可以通用处理器、DSP、ASIC、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以执行本文中所述功能的任何组合来实施或执行结合本文中所揭示的实施方案描述的各种说明性逻辑、逻辑块、模块及电路。通用处理器可为微处理器，但在替代方案中，处理器可为任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器的组合、一个或一个以上微处理器与DSP核心的联合，或任何其它此种配置。

尽管已用专用于结构特征及/或方法动作的语言来描述标的物，但应理解在所附权利要求书中所界定的标的物未必限于以上所述的特定特征或动作。而是，以上所述的特定特征及动作是作为实施权利要求书的实例形式来揭示。

Claims

1.一种数字信号变换设备，其包含：

缩放级，其根据行变换及列变换而缩放DCT系数，且将预定数目的精确位预先分配到输入的DCT系数；

变换级，其利用变换常数的符号对称并向量有理近似而变换所述DCT系数且输出经变换的DCT系数；以及

右移级，其移位所述经变换的DCT系数以确定所输出的经变换DCT系数。

2.根据权利要求1所述的设备，其进一步包含DC偏置级，所述DC偏置级在变换引擎变换所述DCT系数之前改变DC偏置系数以校正舍入误差。

3.根据权利要求1所述的设备，其进一步包含：

其中所述所输出的经变换DCT系数为IDCT系数。

4.根据权利要求1所述的设备，其中变换常数的所述符号对称并向量有理近似使用中间值x₁、…、x_t，所述中间值通过(a)设定x₁等于所输入整数值及(b)根据x₁、…、x_t-1中的一者及加法运算、减法运算或右移运算中的一者来确定。