CN102231202B

CN102231202B - 面向向量处理器的sad向量化实现方法

Info

Publication number: CN102231202B
Application number: CN 201110213343
Authority: CN
Inventors: 刘仲; 陈书明; 刘衡竹; 陈跃跃; 陈海燕; 龚国辉; 孙永节; 万江华; 吴家铸; 陈胜刚
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2011-07-28
Filing date: 2011-07-28
Publication date: 2013-03-27
Anticipated expiration: 2031-07-28
Also published as: CN102231202A

Abstract

本发明公开了一种面向向量处理器的SAD向量化实现方法，包括以下步骤：设实时图A，其大小为MxN，模板图为B，其大小为mxn，且M＞m，N＞n；遍历实时图A并存取实时图A中的两个头部间隔4个元素且向量长度为4*p的子图A_uv和A_(u+4)v，通过混洗操作得到4个相邻子图A_(u+k)v(k＝0，1，2，3)；从模板图B中中取1个向量长度为4*p的子图；分别计算出A_(u+k)v(k＝0，1，2，3)与模板图B的SAD系数值ρ(u，v)，ρ(u，v+1)，ρ(u，v+2)，ρ(u，v+3)；令u＝u+4，重复上述步骤直至遍历完实时图A，可以计算得到实时图A与模板图B的所有SAD系数值。

Description

面向向量处理器的SAD向量化实现方法

技术领域

本发明涉及向量处理器以及图像处理领域，尤其涉及一种SAD向量化的实现方法。

背景技术

图像处理领域中图像匹配处理应用需许多高密度计算应用，如基于模板的图像匹配往往需要计算差的绝对值和(Sum of Absolute Difference，SAD)等，这类高密集运算任务需要将模板图与实时图中的每一个按像素遍历的子图逐个进行匹配计算，计算量非常大，单芯片难以满足应用需求，基于多核处理器尤其是其中的向量处理器能够大幅度提高图像匹配的速度。向量处理器一般由多个处理单元(PE)组成，通常支持基于向量的数据加载和存储。每个PE包含独立的多个功能部件，一般包括移位部件、ALU部件、乘法部件等。向量处理器通常支持SIMD(单指令/多数据)操作，即在同一条向量指令的控制下，所有PE同时对各自的局部寄存器进行相同操作，用以开发应用程序的数据级并行性。

基于模板的图像匹配中需要计算差的绝对值和，一般设实时图A，其大小为MxN，模板图为B，其大小为mxn，(M＞m，N＞n)。实时图中以(u，v)为左上角点的与模板图同大小的子图为A_uv，子图A_uv与模板图B的差的绝对值和SAD系数值可用下式表示：

ρ (u, v) = Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} | {(A_{uv})}_{ij} - B_{ij} |,

其中(A_uv)_ij表示子图A_uv中坐标(i，j)处的像素值，B_ij表示模板图B中坐标(i，j)处的像素值。

上面计算得到的SAD系数值ρ(u，v)用于表示子图A_uv与模板图B的相似度。为了计算最佳匹配位置，需要遍历实时图中的所有子图，并逐一计算子图与模板图的SAD系数值，求取SAD系数值的最小值。共需要计算(M m)*(N n)次SAD系数值，并且每次SAD系数值的计算涉及m*n个元素数据的求差、求绝对值以及绝对值累加，计算量非常大，单核处理器难以满足性能需求，通常基于多核处理器或多个单核芯片采用并行的方法来提高处理速度。由于图像数据通常采用8位像素值，遍历实时图需要按像素偏移读取图像数据，而一般的处理器不支持跨字边界读取数据，一般采用打包/解包方法来解决子图的遍历。

发明内容

本发明所要解决的技术问题是：针对现有技术存在的问题，本发明提供一种原理简单、操作方便、能够高效计算、能充分挖掘向量处理器的多级并行性以发挥向量处理器的并行计算性能、缩短运算时间的面向向量处理器的SAD向量化实现方法。

为解决上述技术问题，本发明采用以下技术方案：

一种面向向量处理器的SAD向量化实现方法，包括以下步骤：

(1)设实时图A，其大小为MxN，模板图为B，其大小为mxn，且M＞m，N＞n；向量处理器包括P个处理单元；

(2)向量处理器遍历实时图A并存取实时图A中的两个头部间隔4个元素且向量长度为4*p的子图A_uv和A_(u+4)v，通过混洗操作得到4个头部间隔1个元素且长度为4*p的相邻子图A_(u+k)v(k＝0，1，2，3)；

(3)从模板图B中取1个向量长度为4*p的子图；该子图坐标与子图A_(u+k)v(k＝0，1，2，3)的坐标位置对应；

(4)分别计算出4个子图A_(u+k)v(k＝0，1，2，3)与模板图B的SAD系数值ρ(u，v)，ρ(u，v+1)，ρ(u，v+2)，ρ(u，v+3)；

(5)令u＝u+4，重复上述步骤(2)到步骤(5)直至遍历完实时图A，可以计算得到实时图A与模板图B的所有SAD系数值。

作为本发明的进一步改进：

所述的步骤(4)中ρ(u，v)的计算公式为：

ρ (u, v) = Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} | {(A_{uv})}_{ij} - B_{ij} | = Σ_{l = 0}^{L - 1} Σ_{j = 0}^{4 (p - 1)} | {(A_{uv})}_{ij} - B_{ij} | = Σ_{l = 0}^{L - 1} Σ_{v = 0}^{p - 1} | a_{iv} &CirclePlus; b_{iv} | &CircleTimes; e_{v}

其中a_iv＝(A_uv)_iv，(A_uv)_i(v+1)，(A_uv)_i(v+2)，(A_uv)_i(v+3)为子图A_uv中4个8位像素值构成的32位定点向量；b_iv＝(B_iv，B_i(v+1)，B_i(v+2)，B_i(v+3))为模板图B中4个8位像素值构成的32位定点向量，e_v＝(1，1，1，1)为4个单位像素值构成的32位定点向量，

为两个向量的点积；L是循环计数，L＝mn/4p；

分别令u＝u+k，(k＝0，1，2，3)，代入上式中，可分别计算得到ρ(u，v)，ρ(u，v+1)，ρ(u，v+2)，ρ(u，v+3)。

所述

是计算a_iv，b_iv两个向量的差的绝对值的和，包括以下4个计算步骤：

①

为基于SIMD的减法操作求a_iv，b_iv两个向量的差；

②

为基于SIMD的求绝对值操作对步骤①的减法结果分别求绝对值；

③为基于SIMD的点积操作对步骤②的绝对值结果在处理单元内求和；

④

为基于向量处理器的定点归约求和操作计算a_iv，b_iv两个向量的差的绝对值的和。

与现有技术相比，本发明的优点在于：

本发明的面向向量处理器的SAD向量化实现方法，实现简单、成本低廉且操作方便，利用向量处理器可以通过混洗网络使得PE间能够快速交换数据，方便地实现按像素遍历实时图的所有子图，并且能够充分利用向量处理器的SIMD操作开发SAD计算的数据并行性，每次模板图遍历过程能同时计算出4个SAD系数值，能充分挖掘向量处理器的多级并行性，发挥向量处理器的所有处理单元的并行计算性能，缩短基于SAD的图像匹配算法的运算时间，可靠性好并能降低硬件计算功耗。

附图说明

图1是本发明的总流程示意图；

图2是本发明的具体实施例中的子图p1和p2通过混洗操作得到4个相邻子图的示意图；

图3是本发明的具体实施例中的

计算步骤示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明作进一步详细说明。

如图1所示，本发明的面向向量处理器的SAD向量化实现方法，包括以下步骤：

1、设实时图A，其大小为MxN，模板图为B，其大小为mxn，且M＞m，N＞n；向量处理器包括P个处理单元。

2、向量处理器遍历实时图A并存取实时图A中的两个头部间隔4个元素且向量长度为4*p的子图A_uv和A_(u+4)v，通过混洗操作得到4个头部间隔1个元素且长度为4*p的相邻子图A_(u+k)v(k＝0，1，2，3)。

如图2所示，以处理单元PE数量等于2为例说明如何将头部间隔4个元素的子图通过混洗操作得到4个头部间隔1个元素的相邻子图。处理器从实时图A中取两个头部间隔4个元素的相邻子图p1，p2，其长度是向量处理器的PE数量的4倍，即子图p1，p2的元素个数都是8。经过混洗操作后得到4个头部间隔1个元素的相邻子图v0，v1，v2和v3。

3、从模板图B中取1个向量长度为4*p的子图；该子图坐标与子图A_(u+k)v(k＝0，1，2，3)的坐标位置对应。

4、分别计算出4个子图A_(u+k)v(k＝0，1，2，3)与模板图B的SAD系数值ρ(u，v)，ρ(u，v+1)，ρ(u，v+2)，ρ(u，v+3)；

ρ(u，v)的计算公式为：

ρ (u, v) = Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} | {(A_{uv})}_{ij} - B_{ij} | = Σ_{l = 0}^{L - 1} Σ_{j = 0}^{4 (p - 1)} | {(A_{uv})}_{ij} - B_{ij} | = Σ_{l = 0}^{L - 1} Σ_{v = 0}^{p - 1} | a_{iv} &CirclePlus; b_{iv} | &CircleTimes; e_{v}

为两个向量的点积；L是循环计数，L＝mn/4p；

分别令u＝u+k，(k＝0，1，2，3)，代入上式中，可分别计算得到ρ(u，v)，ρ(u，v+1)，ρ(u，v+2)，ρ(u，v+3)。ρ(u，v)的计算公式中的是计算a_iv，b_iv两个向量的差的绝对值的和。如图2、图3所示，图2中向量处理器的处理单元PE数量为p，实时图A的向量元素为(a₀，a₁，a₂，a₃)，…，(a_i，a_i+1，a_i+2，a_i+3)，模板图B的向量元素为(b₀，b₁，b₂，b₃)，…，(b_i，b_i+1，b_i+2，b_i+3)。其差的绝对值的和计算包括以下4个步骤：

①

为基于SIMD的减法操作求a_iv，b_iv两个向量的差；如图3所示，该步骤得到减法结果向量，减法结果向量的元素为：(a₀-b₀，a₁-b₁，a₂-b₂，a₃-b₃)，…，(a_i-b_i，a_i+1-b_i+1，a_i+2-b_i+2，a_i+3-b_i+3)。

②

为基于SIMD的求绝对值操作对步骤①的减法结果分别求绝对值；如图3所示，该步骤得到的绝对值结果向量的元素为：(|a₀-b₀|，|a₁-b₁|，|a₂-b₂|，|a₃-b₃|)，…，(|a_i-b_i|，|a_i+1-b_i+1|，|a_i+2-b_i+2|，|a_i+3-b_i+3|)。

③

为基于SIMD的点积操作对步骤②的绝对值结果在处理单元内求和；如图3所示，用元素值全为1的向量与上述结果向量做点积操作，得到PE内绝对值和结果向量的元素为：(|a₀-b₀|+|a₁-b₁|+|a₂-b₂|+|a₃-b₃|)，…，(|a_i-b_i|+|a_i+1-b_i+1|+|a_i+2-b_i+2|+|a_i+3-b_i+3|)。

④

为基于向量处理器的定点归约求和操作计算a_iv，b_iv两个向量的差的绝对值的和；如图3所示，该步骤的求和结果为：|a₀-b₀|+|a₁-b₁|+|a₂-b₂|+|a₃-b₃|+…+|a_i-b_i|+|a_i+1-b_i+1|+|a_i+2-b_i+2|+|a_i+3-b_i+3|。

5、令u＝u+4，重复上述步骤(2)到步骤(5)直至遍历完实时图A，可以计算得到实时图A与模板图B的所有SAD系数值。

综上所述，通过本发明的方法，可高效的支持SAD系数值向量化计算，能够充分发挥向量处理器的全部PE的并行计算能力，并且充分挖掘了向量处理器的基于SIMD的数据并行性，有效提高了SAD系数值计算在向量处理器中的执行效率，每次模板图遍历过程能同时计算4个SAD值，能缩短基于SAD的图像匹配算法的运算时间。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种面向向量处理器的SAD向量化实现方法，其特征在于包括以下步骤：

（1）设实时图A，其大小为MxN，模板图为B，其大小为mxn，且M>m，N>n；向量处理器包括p个处理单元；

（2）向量处理器遍历实时图A并存取实时图A中的两个头部间隔4个元素且从子图中取向量长度为4*p的向量A_uv和A_(u+4)v，通过混洗操作得到4个头部间隔1个元素且长度为4*p的相邻子图A_(u+k)v(k=0,1,2,3)；所述元素为图像中的一个像素数据，所述向量是由多个相邻元素组成，所述向量长度是相邻元素的个数；

（3）从模板图B中取1个向量长度为4*p的子图；该子图坐标与子图A_(u+k)v(k=0,1,2,3)的坐标位置对应；

（4）分别计算出4个子图A_(u+k)v(k=0,1,2,3)与模板图B的差的绝对值和系数值ρ(u,v),ρ(u,v+1),ρ(u,v+2),ρ(u,v+3)；

（5）令u=u+4，重复上述步骤（2）到步骤（5）直至遍历完实时图A，可以计算得到实时图A与模板图B的所有差的绝对值和系数值；

所述的步骤（4）中ρ(u,v)的计算公式为：

ρ (u, v) = Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} | {(A_{uv})}_{ij} - B_{ij} | = Σ_{l = 0}^{L - 1} Σ_{s = 0}^{4 (p - 1)} | {(A_{uv})}_{ls} - B_{ls} | = Σ_{l = 0}^{L - 1} Σ_{w = 0}^{p - 1} | a_{lw} &CirclePlus; b_{lw} | &CircleTimes; e_{w}

其中a_lw＝((A_uv)_lw,(A_uv)_l(w+1),(A_uv)_l(w+2),(A_uv)_l(w+3))为子图A_uv中4个8位像素值构成的32位定点向量，即a_lw是由子图A_uv中(l,w)，(l,w+1)，(l,w+2)，(l,w+3)4个相邻8位元素组成的向量；b_lw＝(B_lw,B_l(w+1),B_l(w+2),B_l(w+3))为模板图B中4个8位像素值构成的32位定点向量，e_w＝(1,1,1,1)为4个单位像素值构成的32位定点向量；L是循环计数，L=mn/4p；l、w、j、s均为元素在子图中的坐标值；

分别令u=u+k，(k=0,1,2,3)，代入上式中，可分别计算得到ρ(u,v),ρ(u,v+1),ρ(u,v+2),ρ(u,v+3)；

所述

是计算a_lw，b_lw两个向量的差的绝对值的和，包括以下4个计算步骤：

①

为基于SIMD的减法操作求a_lw，b_lw两个向量的差；

②

③

为基于SIMD的点积操作计算步骤②的绝对值结果与向量e_w的点积；

④

为基于向量处理器的归约求和操作计算p个处理单元中a_lw,b_lw两个向量的差的绝对值的和。