CN103745447A - 一种非局部均值滤波的快速并行实现方法 - Google Patents

一种非局部均值滤波的快速并行实现方法 Download PDF

Info

Publication number
CN103745447A
CN103745447A CN201410052166.8A CN201410052166A CN103745447A CN 103745447 A CN103745447 A CN 103745447A CN 201410052166 A CN201410052166 A CN 201410052166A CN 103745447 A CN103745447 A CN 103745447A
Authority
CN
China
Prior art keywords
pixel
value
gpu
comparison block
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410052166.8A
Other languages
English (en)
Other versions
CN103745447B (zh
Inventor
陈阳
庄志昆
罗立民
李松毅
鲍旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Yiying Medical Equipment Co ltd
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201410052166.8A priority Critical patent/CN103745447B/zh
Publication of CN103745447A publication Critical patent/CN103745447A/zh
Application granted granted Critical
Publication of CN103745447B publication Critical patent/CN103745447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

非局部均值滤波算法是一种被广泛应用于抑制图像噪声的算法,该算法根据属于同一图像结构的像素点周围有着相似的邻域结构这一假设,并基于此邻域相似性质构建加权滤波器来抑制图像中的噪声。实验证明该非局部均值滤波算法能在有效地抑制图像中的噪声的同时保持图像中的组织信息,为了有效地抑制图像中的噪声,一般需要较大的搜索窗以引入较多的邻域信息,从而导致大量的计算量和处理时间,影响了其在实际中的应用。为了解决这一问题,本发明提出了一种非局部均值滤波的快速并行实现方法,该方法在原有的以像素为单位的GPU并行的基础上,利用共享存储器特性及非局部均值权重对称性来优化并行操作,显著地提高了非局部均值滤波算法的计算速度。

Description

一种非局部均值滤波的快速并行实现方法
技术领域
本发明涉及一种非局部均值滤波算法在GPU上的快速并行实现方法。
背景技术
图像降噪始终是数字图像处理领域中的一个重要的研究内容,经典的降噪滤波方法有邻域平均值法、中值法以及一些频域滤波方法,这些图像降噪算法一般基于像素的灰度差和梯度等信息,只利用到较小邻域的信息,易导致结构模糊的图像处理结果。而Buades基于从图像中任取一个小窗口,都能够从该图像的一个较大范围内中找到许多与其相似的窗口结构的事实提出了非局部均值滤波算法,这种算法可以充分利用图像中更大范围内的图像信息对噪声抑制,从而能够在不丢失图像细节的前提下有效的抑制图像中的噪声。具体的,非局部均值滤波算法把每个像素替换成其邻近像素乘以权重之后的平均值并利用两个块之间的相似度计算权重,即假设现在处理像素点p(p=(px,py)),p搜索窗内的像素点q的权重值等于分别以p,q为中心的比较块进行比较后得到的值,权重值与两个比较块的相似度呈正相关关系。认为X是目标处理图像,Y是待处理的图像,非局部均值滤波算法可用如下公式表示:
X ^ ( p ) = Σ q ∈ N p ω ( p , q ) Y ( q ) Σ q ∈ N p ω ( p , q ) - - - ( 1 )
w ( p , q ) = exp ( - Σ ( Δx , Δy ) ∈ [ - B , . . . , B ] 2 | d p , q ( Δx , Δy ) | G ( Δx , Δy ) h ( 2 B + 1 ) 2 B + 1 ) ) - - - ( 2 )
d p , q ( Δx , Δy ) = Y ( p x + Δx , p y + Δy ) - Y ( q x + Δx , q y + Δy ) - - - ( 3 )
G ( Δx , Δy ) = 2 ( Δx , Δy ) = ( 0,0 ) 1 Δx 2 + Δy 2 other - - - ( 4 )
这里,Y和
Figure BDA0000466335070000021
分别表示处理前和处理后的图像,Np是以p为中心点的搜索窗。w(p,q)表示以p,q为中心点的半径为B两个比较块之间的相似度,G(Δx,Δy)是一个与距离相关的高斯核函数。这样(2B+1)(2B+1)即为比较块B中点的个数,我们可以用公式(2)中的参数h用来控制算法处理的平滑效果。
然而,由于非局部均值滤波算法使用较大的搜索窗以引入较多的邻域图像信息来实现对噪声有效抑制,这同时也带来了对计算量的较大需求,影响了算法在实际中的应用。为了使非局部均值滤波算法更具实用性,需要对这种算法进行加速。
如今,利用并行处理技术来进行算法加速已经成为了一种趋势,而利用GPU进行加速是并行处理技术较为常见的一种。GPU在处理能力和存储器带宽上相较于CPU具有明显的优势,在单精度浮点处理能力上也远远超过CPU,GPU的并行主要是通过粗粒度的block和细粒度的thread联合并行来实现。NVIDIA推出的CUDA是一种将GPU作为数据并行设备的软硬件体系,它是一种使用类C语言进行通用计算的开发环境和软件体系。CUDA为开发人员有效利用GPU的强大性能提供了便利的条件,它被广泛应用于金融、石油、天文学、图像处理等领域。
目前存在着很多基于GPU并行的非局部均值滤波的加速算法,较为经典有效的非局部均值滤波算法的GPU加速算法可阐述如下:
从公式(1)-(4)可以看到,我们可以直接以像素为单位对非局部均值滤波算法进行并行化的GPU加速。出于GPU的每个内核函数所拥有的共享内存、寄存器等GPU硬件限制的考虑,我们可以把这个算法拆分三部分进行循环计算,循环次数为搜索窗的大小|N|(即为搜索窗内像素点个数),(px+ix,py+iy)是以p为中心点的搜索窗中的某个点的位置,初始化
Figure BDA0000466335070000022
第一个内核函数计算比较块的像素差异值,可用如下公式表示,它的计算复杂度是O(1)。
[ U 1 ( 3 i - 1 ) , . . . , U 4 ( 3 i - 1 ) ] ( p ) = f U 1 ( 3 i - 2 ) ( 3 i - 2 ) , . . . , U 4 ( 3 i - 2 ) ( p ) = | Y ( p x , p y ) - Y ( p x + i x , p y + i y ) | U 2 ( 3 i - 2 ) ( p ) U 3 ( 3 i - 2 ) ( p ) U 4 ( 3 i - 2 ) ( p ) - - - ( 5 )
第二个内核函数根据第一个内核函数计算出来后的比较块的对应像素差异绝对值根据公式(2)进行比较块相似度的计算,它的计算复杂度是O((2B+1)(2B+1))。
[ U 1 ( 3 i ) , . . . , U 4 ( 3 i ) ] ( p ) = f U 1 ( 3 i - 1 ) , . . . , U 4 ( 3 i - 1 ) ( 3 i - 1 ) ( p ) = U 1 ( 3 i - 1 ) exp ( - Σ ( Δx , Δy ) ∈ [ - B , . . . , B ] 2 U 1 ( 3 i - 1 ) ( p x + Δx , p y + Δy ) G ( Δx , Δy ) h ( 2 B + 1 ) ( 2 B + 1 ) ) U 3 ( 3 i - 1 ) U 4 ( 3 i - 1 ) - - - ( 6 )
第三个内核函数是用来累加权重和像素和,它的计算复杂度是O(1)。
[ U 1 ( 3 ( i + 1 ) - 2 ) , . . . , U 4 ( 3 ( i + 1 ) - 2 ) ] ( p ) = f U 1 ( 3 i ) , . . . , U 4 ( 3 i ) ( 3 i ) ( p ) = U 1 ( 3 i ) ( p ) U 2 ( 3 i ) ( p ) U 3 ( 3 i ) ( p ) + U 2 ( 3 i ) ( p ) U 4 ( 3 i ) ( p ) + U 2 ( 3 i ) ( p ) Y ( p x + i x , p y + i y ) - - - ( 7 )
此外还有一个内核函数来计算最后的输出图像,表示如下:
f U 1 ( I ) , . . . , U 4 ( I ) ( I ) ( p ) = 0 0 0 U 4 I ( p ) U 3 I ( p ) - - - ( 8 )
此时I=|N|+1,I可以用来表示数据U3和U4针对搜索窗每个元素的内核函数计算的最终循环次数,计算复杂度是O(1)。最终的输出图像为
Figure BDA0000466335070000035
综上可知,该普通的GPU加速算法算法的计算复杂度是O(|N|((2B+1)(2B+1)+2)+1)。
发明内容
本发明提出了一种非局部均值滤波的快速并行实现方法,该方法在不改变原先算法处理效果的前提下明显提高计算处理速度,具体阐述如下:
在普通的非局部均值滤波的GPU加速算法中,第二个内核函数需要用传统串行计算的模式计算两个比较块的相似度,这样当使用较大的搜索窗处理图像时需要较大的计算量,所以我们的方法的第一个改进点是降低这一部分的计算复杂度。我们首先分析一下两个比较块相似度是如何计算的。我们假设比较块是一个5×5的块(B=2),其中p点表示中心点,如图1所示。由上面的公式(1)-(4)可知,两个比较块的相似度是通过计算相对应位置的像素的差异值,由于越靠近中心点的像素对相似度的影响越大,所以我们对这些计算出来的差异值乘以与距离相关的系数G(Δx,Δy)(如公式(4)所示)。从图1中我们可以发现,如果是以q点为比较块的中心点,那么图中箭头联系的像素点的像素差异值跟以p点为中心点时是一样的,不同的仅是它们的距离系数。基于这样的思想,我们提出了公式(9):
∪ Δy ∈ [ 0 , . . . , B ] Σ Δx ∈ [ - B , . . . , B ] | Y ( p x + Δx , p y ) - Y ( q x + Δx , q y ) | × G ( Δx , Δy ) - - - ( 9 )
其中公式中计算两个像素值的差异值为|Y(px+Δx,py)-Y(qx+Δx,qy)|,q=(qx,qy)用来表示搜索窗中的某点。
Figure BDA0000466335070000042
表示计算垂直方向上不同的中心点,这样如果使用(2B+1)×(2B+1)大小的比较块,基于公式(10)的每一行的计算会有(B+1)个不同结果。公式(11)虽然看起来计算复杂度是O((B+1)(2B+1)),但是由于每行的差异计算结果只要计算一次并放在共享存储器中,其他B次都从共享存储器中读取数据,对于具有较强单精度浮点处理能力的GPU来说,公式(10)的计算开销主要是来自访问显存所花费的时间,考虑到共享存储器的数据存取速度远高于显存数据存取速度,这个公式的计算复杂度可以近似的表示为O(2B+1)。
和普通的GPU加速算法一样,我们同样的把这个算法拆分成三部分进行循环计算。假设输入图像是m×n,设定的大小是m×n×(B+1),的大小都为m×n,其中i=1,...,|N|,(px+ix,py+iy)为以p为中心点的搜索窗中的某个点的位置,初始化 U 3 ( 1 ) = U 4 ( 1 ) = 0 , U 5 ( i ) = Y .
第一个内核函数,用来计算比较块中像素点灰度差异值,同时以比较块中的每一行为单位,根据每一行中的每个像素点与不同中心点的距离乘以不同的距离系数得到每一行所有的可能累加灰度差绝对值,该内核函数的计算复杂度等于O(2B+1)。
[ U 1 ( 3 i - 1 ) , . . . , U 5 ( 3 i - 1 ) ] ( p ) =
f U 1 ( 3 i - 2 ) , . . . , U 5 ( 3 i - 2 ) ( 3 i - 2 ) ( p ) = ∪ Δy ∈ [ 0 , . . . , B ] Σ Δx ∈ [ - B , . . . , B ] | Y ( p x + Δx , p y ) - Y ( p x + i x + Δx , p y + i y ) | G ( Δx , Δy ) U 2 ( 3 i - 2 ) ( p ) U 3 ( 3 i - 2 ) ( p ) U 4 ( 3 i - 2 ) ( p ) U 5 ( 3 i - 2 ) ( p ) - - - ( 10 )
第二个内核函数计算比较块的相似度,即对第一个内核函数的结果,选择相应的累加灰度差绝对值进行累加,并根据公式(2)计算得出两个比较块的相似度,该内核函数的计算复杂度为O(2B+1)。
[ U 1 ( 3 i ) , . . . , U 5 ( 3 i ) ] ( p ) = f U 1 ( 3 i - 1 ) , . . . , U 5 ( 3 i - 1 ) ( 3 i - 1 ) ( p ) = U 1 ( 3 i - 1 ) ( p ) exp ( - Σ Δy ∈ [ - B , . . . , B ] U 1 ( 3 i - 1 ) ( p x , p y , Δy ) h ( 2 B + 1 ) ( 2 B + 1 ) ) U 3 ( 3 i - 1 ) ( p ) U 4 ( 3 i - 1 ) ( p ) U 5 ( 3 i - 1 ) ( p ) - - - ( 11 )
第二个改进点是利用权重计算的对称性,很显然w(p,p+Δp)=w(p+Δq,p)(Δq表示像素p在搜索窗N中的偏移量)。我们利用权重对称性这一事实,当对p位置累加像素和w(p,p+Δq)Y(p+Δq),我们同时也可以累加w(p-Δq,p)Y(p-Δq)(根据对称性w(p-Δq,p)Y(p-Δq)=w(p,p-Δq)Y(p-Δq)),这样我们只需要遍历原来搜索窗里的点的一半就可以了,第三个内核函数可用如下公式(12)表示,它的计算复杂度是O(1)。
[ U 1 ( 3 ( i + 1 ) - 2 ) , . . . , U 5 ( 3 ( i + 1 ) - 2 ) ] ( p ) = f U 1 ( 3 i ) , . . . , U 5 ( 3 i ) ( 3 i ) ( p ) =
U 1 ( 3 i ) ( p ) U 2 ( 3 i ) ( p ) U 3 ( 3 i ) ( p ) + U 2 ( 3 i ) ( p + Δq ) + U 2 ( 3 i ) ( p - Δq ) U 4 ( 3 i ) ( p ) + U 2 ( 3 i ) ( p + Δq ) U 5 ( 3 i ) ( p + Δq ) + U 2 ( 3 i ) ( p - Δq ) U 5 ( 3 i ) ( p - Δq ) U 5 ( 3 i ) - - - ( 12 )
像普通的非局部均值滤波算法加速一样,我们同样的通过一个最终的内核函数来计算最后的输出处理图像:
f U 1 ( I ) , . . . , U 5 ( I ) ( I ) ( p ) = 0 0 0 0 U 4 ( I ) ( p ) U 3 ( I ) ( p ) - - - ( 13 )
这里表示数据U3和U4针对搜索窗每个元素的内核函数计算的最终循环次数I等于(2T+1)×(T+1)+1(T为搜索窗半径)。最终输出图像为
Figure BDA0000466335070000064
有益效果:我们的改进算法的累计计算复杂度为O(((2T+1)×(T+1)+1)(2(2B+1)+1))+1),考虑到((2T+1)×(T+1)+1)近似等于0.5|N|,故此累计计算复杂度近似等于O(|N|(2B+1)+1),我们可以看到相对于普通非局部均值滤波GPU加速算法,此改进的算法能将计算复杂度大致缩短为原来的
Figure BDA0000466335070000071
倍,实现了在不改变原先算法处理效果的前提下明显提高计算处理速度。
附图说明
图1为比较块的相似度计算;
图2为基于非局部均值滤波的CPU串行算法和普通GPU并行算法的计算时间对比,这里处理的低剂量CT图像大小为512×512,比较块大小为9×9;
图3为基于非局部均值滤波的普通的和改进后的GPU加速算法的运算时间对比,这里处理的低剂量CT图像大小为512×512,比较块大小为9×9;
图4为基于非局部均值滤波的的普通的和改进后的GPU加速算法的运算时间对比,这里处理的低剂量CT图像大小为512×512,搜索窗大小为81×81。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于改进GPU并行的快速非局部均值滤波算法,包括以下步骤:
步骤1、在GPU中,每一个线程都计算它所对应的像素点与其搜索窗中的某一个位置的像素点的灰度差异值的绝对值。当所有的线程都计算完差异值后,计算以该线程所对应的像素点为中心的比较块(假设半径为B)的中心行的B+1种可能灰度累加值,即根据该中心行在不同的比较块中与该比较块中心点的距离乘以不同的距离系数得到该中心行所有的可能累加灰度差绝对值;
步骤2、在GPU中,每一个线程都计算它所对应的像素点的比较块与其的搜索窗中的某一个位置(这个位置是与步骤1相同的)的像素点的比较块的相似度,即对步骤1的结果,选择相应的累加灰度差绝对值进行累加,根据累加结果计算比较块的相似度,得到一个权重值;
步骤3、在GPU中,每一个线程都累加它所对应的像素点在步骤2计算出来的权重值,同时也累加权重值乘以像素的值;
循环遍历搜索窗里的像素点,每一个像素点都执行上述三个步骤;
遍历搜索窗里的所有位置,每一次都执行上述三个步骤;
步骤4、根据最后一次步骤3得出的累加权重值和累加像素和计算出处理后的像素值。
我们的GPU的并行是每一个线程对应于处理图像中的一个像素点,上述的四个步骤对应四个不同的内核函数,我们现结合具体的例子阐述这四个内核函数所做的工作。现以线程对应的像素点为p,计算p的搜索窗里的像素点q(q=(px+ix,py+iy))与p的相似度,比较块的半径为B为例。
在步骤1中,我们首先计算图像中的像素点p与q的像素点差异值,取绝对值,放在共享存储器里,等待所有的线程都处理完毕。然后计算以p为中心点,半径为B的行的差异值累加值,根据p与比较块的中心点的垂直距离(共有B+1种不同)乘以不同的距离系数得到每一行所有的可能累加灰度差绝对值。
在步骤2中,我们计算像素点p与像素点q的相似度,首先根据步骤1的的结果,累加p所在的比较块与q的比较块的像素差异值,然后根据公式(14)计算q对p的权重wieght,其中sum表示p与q的比较块的像素差异值的累加值。
weight = exp ( - sum h ( 2 B + 1 ) ( 2 B + 1 ) ) - - - ( 14 )
在步骤3中,我们累加步骤2得到的q的权重值到p所对应的U3(U3存放p的搜索窗中的所有点的权重值),同时累加q的权重值乘以q的像素到p所对应的U4(U4存放p的搜索窗中的所有点的累加像素和),同时我们利用权重计算的对称性,累加p搜索窗中的像素点s(s=(px-ix,py-iy))。
遍历p的搜索窗里的所有点,每一次都执行上述三个步骤;
在步骤4中,我们利用根据公式计算出处理后的像素点p的值,
Figure BDA0000466335070000082
5.效果评估准则
在同一台机器上比较非局部均值滤波算法在CPU上的串行时间以及使用两种GPU并行加速后的运算时间(包括普通的和改进的),所使用的实验计算机环境的配置参数如下:
1)硬件:
CPU:Inter(R)Core(TM)i7-3770CPU3.40GHz
内存:8GB
显卡:NVIDIAGeForceGTX680,其中流处理器:1536个,显存频率:6008MHz,显存带宽:192GB/S,显存容量:2GB,显存位宽:256bit
2)软件
操作系统:Win764位
Matlab:R2011a
CUDA:4.0
5.1视觉评估
通过对一幅图像利用三种不同的非局部均值滤波算法现实方式(CPU串行、普通GPU并行、改进GPU并行)得到的处理结果一致,利用CPU串行实现的非局部均值滤波算法运行时间非常长,普通GPU并行大幅度地减低非局部均值滤波算法的运行时间,而改进的GPU并行实现方式相比于普通GPU并行方式又再一次地减低了算法的运行时间。
5.2量化评估
为了量化的验证本发明方法的有效性,我们分别采用CPU串行方法,普通GPU加速算法,改进的GPU加速算法对一副512×512的低剂量CT图像进行处理,计算的并行化没有改变算法的处理原理,不同的方法能够得到同样的处理结果。
首先我们在不同搜索窗尺寸下,固定比较块大小为9×9,对比CPU串行算法和普通GPU算法的计算时间。实验结果如图2所示。从图中我们可以看到基于GPU的并行计算能够大幅度降低运算时间,相对于原来的基于CPU的串行算法能够获得超过一百倍的加速。
接下来,我们继续比较在不同尺寸的搜索窗设置下,普通GPU并行算法和改进后的GPU加速算法的运行时间,比较块大小为9×9,实验结果如图3所示。从图3我们可以发现当搜索窗尺寸比较大时,加速倍数比较接近等于2B+1=2×4+1=9。
最后,我们再比较一下当图像尺寸为512×512,搜索窗大小为81×81,比较块大小改变时,普通GPU加速算法和改进后的GPU加速算法的运行时间,实验结果如图4所示。由于当比较块较大时,会导致图像模糊,体现不出非局部均值滤波算法的去噪效果,所以在这里我们比较块最大就取到15×15。从图4中我们很清楚可以看到加速比对着比较快的增大而增加,满足前面分析得出的2B+1数值。

Claims (3)

1.一种非局部均值滤波的快速并行实现方法,其特征在于,以像素为单位,每一个图形处理单元GPU中的线程计算图像中的一个像素点,对非局部均值滤波算法进行并行化的GPU加速,包括以下步骤:
步骤1、在GPU中,每一个线程都计算它所对应的像素点与其搜索窗中的某一个位置的像素点的灰度差异值的绝对值;当所有的线程都计算完差异值后,假设比较块变径为B,计算以该线程所对应的像素点为中心的比较块的中心行的B+1种可能灰度累加值,即根据该中心行在不同的比较块中与该比较块中心点的距离乘以不同的距离系数得到该中心行所有的可能累加灰度差绝对值;
步骤2、在GPU中,每一个线程都计算它所对应的像素点的比较块与其的搜索窗中的步骤1中的某一个位置的像素点的比较块的相似度,即对步骤1的结果,选择相应的累加灰度差绝对值进行累加,根据累加结果计算比较块的相似度,得到一个权重值;
步骤3、在GPU中,每一个线程都累加它所对应的像素点在步骤2计算的权重值,同时也累加权重值乘以像素的值;
遍历搜索窗里的所有位置,每一次都执行上述三个步骤;
步骤4、根据最后一次步骤3得出的累加权重值和累加像素和计算出处理后的像素值。
2.如权利要求1所述的方法,其特征在于,在步骤1中,把计算出来的像素点灰度差异值保存在共享存储器中,这样可以减少访问显存的次数,由于访问共享存储器的速度远高于访问显存的速度,因此这样可以大幅降低数据传输时间;然后根据比较块的中心行在不同的比较块中与该比较块中心点的距离乘以不同的距离系数得到该中心行所有的可能累加灰度差绝对值。
3.如权利要求1所述的方法,其特征在于,在步骤3中,利用权重计算的对称性,当对搜索窗中的某一位置累加时,同时也累加该位置的对称位置。
CN201410052166.8A 2014-02-17 2014-02-17 一种非局部均值滤波的快速并行实现方法 Active CN103745447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410052166.8A CN103745447B (zh) 2014-02-17 2014-02-17 一种非局部均值滤波的快速并行实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410052166.8A CN103745447B (zh) 2014-02-17 2014-02-17 一种非局部均值滤波的快速并行实现方法

Publications (2)

Publication Number Publication Date
CN103745447A true CN103745447A (zh) 2014-04-23
CN103745447B CN103745447B (zh) 2016-05-25

Family

ID=50502462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410052166.8A Active CN103745447B (zh) 2014-02-17 2014-02-17 一种非局部均值滤波的快速并行实现方法

Country Status (1)

Country Link
CN (1) CN103745447B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240199A (zh) * 2014-09-02 2014-12-24 苏州阔地网络科技有限公司 一种图像去噪方法及设备
CN104899840A (zh) * 2015-06-12 2015-09-09 天津大学 一种基于cuda的引导滤波加速优化方法
CN105321141A (zh) * 2015-09-17 2016-02-10 清华大学深圳研究生院 一种图像负载均衡处理方法及装置
WO2017069720A1 (ru) * 2015-10-20 2017-04-27 Максым Володымыровыч ДАВЫДОВ Способ обработки цифрового изображения для снижения уровня шума
CN107292809A (zh) * 2016-07-22 2017-10-24 珠海医凯电子科技有限公司 一种gpu实现超声信号滤波处理的方法
CN108510429A (zh) * 2018-03-20 2018-09-07 华南师范大学 一种基于gpu的多变量密码算法并行化加速方法
CN109785246A (zh) * 2018-12-11 2019-05-21 深圳奥比中光科技有限公司 一种非局部均值滤波的降噪方法、装置及设备
CN111402178A (zh) * 2020-03-24 2020-07-10 成都国科微电子有限公司 一种非均值滤波方法及非均值滤波装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120081553A1 (en) * 2010-09-30 2012-04-05 Apple Inc. Spatial filtering for image signal processing
CN103226815A (zh) * 2013-04-10 2013-07-31 东南大学 一种低剂量ct图像滤波方法
CN103544682A (zh) * 2013-09-17 2014-01-29 华中科技大学 一种三维超声图像非局部均值滤波方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120081553A1 (en) * 2010-09-30 2012-04-05 Apple Inc. Spatial filtering for image signal processing
CN103226815A (zh) * 2013-04-10 2013-07-31 东南大学 一种低剂量ct图像滤波方法
CN103544682A (zh) * 2013-09-17 2014-01-29 华中科技大学 一种三维超声图像非局部均值滤波方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BART GOOSSENS ET AL.: "A GPU-Accelerated Real-Time NLMeans Algorithm for Denoising Color Video Sequences", 《ADVANCED CONCEPTS FOR INTELLIGENT VISION SYSTEMS》, vol. 6475, 13 December 2010 (2010-12-13), pages 46 - 57, XP019159184 *
F.P.X.DE FONTES ET AL.: "Real time ultrasound image denoising", 《JOURNAL OF REAL-TIME IMAGE PROCESSING》, vol. 6, no. 1, 13 May 2010 (2010-05-13), pages 15 - 22 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240199A (zh) * 2014-09-02 2014-12-24 苏州阔地网络科技有限公司 一种图像去噪方法及设备
CN104899840A (zh) * 2015-06-12 2015-09-09 天津大学 一种基于cuda的引导滤波加速优化方法
CN104899840B (zh) * 2015-06-12 2018-12-18 天津大学 一种基于cuda的引导滤波加速优化方法
CN105321141A (zh) * 2015-09-17 2016-02-10 清华大学深圳研究生院 一种图像负载均衡处理方法及装置
CN105321141B (zh) * 2015-09-17 2018-07-20 清华大学深圳研究生院 一种图像负载均衡处理方法及装置
WO2017069720A1 (ru) * 2015-10-20 2017-04-27 Максым Володымыровыч ДАВЫДОВ Способ обработки цифрового изображения для снижения уровня шума
CN107292809A (zh) * 2016-07-22 2017-10-24 珠海医凯电子科技有限公司 一种gpu实现超声信号滤波处理的方法
CN107292809B (zh) * 2016-07-22 2020-10-09 珠海医凯电子科技有限公司 一种gpu实现超声信号滤波处理的方法
CN108510429A (zh) * 2018-03-20 2018-09-07 华南师范大学 一种基于gpu的多变量密码算法并行化加速方法
CN109785246A (zh) * 2018-12-11 2019-05-21 深圳奥比中光科技有限公司 一种非局部均值滤波的降噪方法、装置及设备
CN111402178A (zh) * 2020-03-24 2020-07-10 成都国科微电子有限公司 一种非均值滤波方法及非均值滤波装置
CN111402178B (zh) * 2020-03-24 2023-06-02 成都国科微电子有限公司 一种非均值滤波方法及非均值滤波装置

Also Published As

Publication number Publication date
CN103745447B (zh) 2016-05-25

Similar Documents

Publication Publication Date Title
CN103745447A (zh) 一种非局部均值滤波的快速并行实现方法
US9984308B2 (en) Method and apparatus for extracting feature regions from point cloud
Uchida et al. Fast and accurate template matching using pixel rearrangement on the GPU
US11675507B2 (en) Method and apparatus for allocating memory space for driving neural network
CN106682052B (zh) 使用映射和归并的数据聚集
Nishida et al. Accelerating the dynamic programming for the optimal polygon triangulation on the GPU
Kondratyuk et al. When ensembling smaller models is more efficient than single large models
CN106340004A (zh) 一种基于模糊聚类预处理云系的并行云迹风反演方法
CN104992421A (zh) 一种基于OpenCL的图像去噪算法的并行优化方法
US20210224564A1 (en) Method and apparatus for tracking target
CN103761709A (zh) 基于多片dsp的并行实时sar图像降斑去噪方法
US20200272863A1 (en) Method and apparatus for high speed object detection using artificial neural network
CN102411773B (zh) 面向向量处理器的去均值归一化积相关系数的向量化实现方法
Luo et al. Texture classification combining improved local binary pattern and threshold segmentation
Cossell et al. Concurrent dynamic programming for grid-based problems and its application for real-time path planning
Teng et al. Ideal: a vector-raster hybrid model for efficient spatial queries over complex polygons
CN111062473A (zh) 神经网络模型中的数据计算方法、图像处理方法及装置
DE102019134388A1 (de) Filteroptimierung zur verbesserung der rechnerischen effizienz von faltungsoperationen
Uecker et al. Analyzing deep learning representations of point clouds for real-time in-vehicle lidar perception
CN102231202B (zh) 面向向量处理器的sad向量化实现方法
Castillo et al. Composition functionals in calculus of variations: application to products and quotients
Barina et al. Accelerating discrete wavelet transforms on GPUs
Huang et al. Research of Canny edge detection algorithm on embedded CPU and GPU heterogeneous systems
CN107622037A (zh) 一种提高图形处理单元的矩阵乘计算性能的方法和装置
Chang et al. CUDA‐based acceleration and BPN‐assisted automation of bilateral filtering for brain MR image restoration

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220124

Address after: 201315 No. 18, Lane 739, Kangwei Road, Pudong New Area, Shanghai

Patentee after: SHANGHAI YIYING INFORMATION TECHNOLOGY CO.,LTD.

Address before: 210096 No. four archway, 2, Jiangsu, Nanjing

Patentee before: SOUTHEAST University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230801

Address after: B2 / F, 188 Linjiang Avenue, Linjiang Town, Haimen City, Nantong City, Jiangsu Province 216100

Patentee after: JIANGSU YIYING MEDICAL EQUIPMENT Co.,Ltd.

Address before: 201315 No. 18, Lane 739, Kangwei Road, Pudong New Area, Shanghai

Patentee before: SHANGHAI YIYING INFORMATION TECHNOLOGY CO.,LTD.