CN105869105A - 一种针对a+超分辨率技术的gpu加速方法 - Google Patents
一种针对a+超分辨率技术的gpu加速方法 Download PDFInfo
- Publication number
- CN105869105A CN105869105A CN201610184146.5A CN201610184146A CN105869105A CN 105869105 A CN105869105 A CN 105869105A CN 201610184146 A CN201610184146 A CN 201610184146A CN 105869105 A CN105869105 A CN 105869105A
- Authority
- CN
- China
- Prior art keywords
- gpu
- super
- resolution
- resolution technique
- technique
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000005516 engineering process Methods 0.000 title claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 230000008878 coupling Effects 0.000 claims description 10
- 238000010168 coupling process Methods 0.000 claims description 10
- 238000005859 coupling reaction Methods 0.000 claims description 10
- 238000000513 principal component analysis Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 7
- 238000005457 optimization Methods 0.000 abstract description 3
- 239000000470 constituent Substances 0.000 abstract 1
- 238000013507 mapping Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 14
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical group OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/28—Indexing scheme for image data processing or generation, in general involving image processing hardware
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种针对A+超分辨率技术的GPU加速方法,所述A+超分辨率技术步骤包括bicubic插值、差分、收集差分特征、主成分分析、锚特征搜索匹配和回归、低高频特征叠加、高分辨率块重叠映射回高分辨率图像;所述方法将A+超分辨率技术上述的所有步骤并行化,并移植到GPU上运行。进一步的,通过调整图像和特征数据存放格式以满足GPU全局内存的合并访问、GPU内核程序指令级优化以达到尽可能快的GPU运行速度、使用CPU/GPU联合计算加快处理视频的速度。本发明将一个高质量的超分辨率技术加速到满足视频处理需要的速度,并且不会带来任何图像质量损失。
Description
技术领域
本发明涉及一种图像超分辨率领域和GPU加速的方法,具体是一种针对深度学习A+超分辨率技术的GPU加速方法。
背景技术
图像超分辨率就是将一副低分辨率图像转换为高分辨率图像,其在图像后处理和视频非线性编辑中有着广泛的应用。早期的超分辨率技术(如bicubic)往往基于简单的插值,可以快速可靠地工作,也易于芯片集成,但是这些技术得到的高分辨率图像质量不佳,会产生显著的人工痕迹,如环、混叠、模糊等效应。如此质量的超分辨率方法难以满足当前高质量视频需求。当前性能先进的超分辨率方法能生成高质量的图像,但是伴随着巨大的计算开销,难以满足实际应用需要。目前有一些GPU加速的超分辨率方法,这些方法达到了足够快的运行速度,但是也牺牲了方法的运行质量。
发表于2014年亚洲计算机视觉会议的A+图像超分辨率方法是一种性能领先的超分辨率技术(R.Timofte,V.De Smet,and L.Van Gool.A+:Adjusted anchoredneighborhood regression for fast super-resolution.In Proceedings of AsiaConference on Computer Vision,pp.111-126,2014),它是业界图像质量最好的超分辨率方法之一,同时相对其他方法有较低的计算复杂度。它的基本思路是:在训练阶段,在数量众多的候选图像块样本中挑选出最具有代表性的1024个锚点图像特征以及其对应的超分辨率变换;在方法运行阶段,对每一个待超分辨率块搜索匹配一个最临近锚点图像特征,然后施加相应的超分辨率变换。这种锚点搜索匹配再施加相应变换的策略,使得整个超分辨率方法针对性地作用于各种图像块,获得了极佳的图像质量和较低的运行复杂度。尽管如此,A+超分辨率技术处理1920*1080到3840*2160的单通道超分辨率变换仍需要超过45秒/帧。为了使A+超分辨率技术能够满足实际应用需要,需要采用全新的计算系统大幅加快A+超分辨率技术的处理过程。
发明内容
本发明的目的在于针对现有的A+超分辨率技术运行时间的不足,提供一种针对A+超分辨率技术的GPU加速方法,将A+超分辨率技术进行并行化、利用GPU加速并充分优化A+超分辨率技术的GPU执行过程,实现大幅加快A+超分辨率技术的处理速度。
本发明采用的技术方案是:
一种针对A+超分辨率技术的GPU加速方法,其中:所述A+超分辨率技术步骤包括bicubic插值、差分、收集差分特征、主成分分析、锚特征搜索匹配和回归、低高频特征叠加、高分辨率块重叠映射回高分辨率图像;所述方法将A+超分辨率技术上述的所有步骤并行化,并移植到GPU上运行。
进一步的,所述方法中:对于差分、高分辨率块重叠映射回高分辨率图像这两个步骤,按照输出像素进行任务划分,计算任务被分割成数百万个互不相关的微任务进行并行计算;对于收集差分特征、锚特征搜索匹配和回归、低高频特征叠加这三个步骤,按照输出特征进行任务划分,各个输出特征可以被并行地计算,从而发挥GPU超强的并行计算能力。
进一步的,所述方法中:在并行化执行中,如果对图像数据格式不加约束,GPU每个内存访问时钟周期仅有一小部分位宽得到利用,GPU全局内存带宽将会大量浪费,严重降低A+超分辨率技术执行效率。为此,本发明调整了图像和特征数据的存放方式。使得相邻线程总是同时访问相邻的数据,即:相邻图像或特征同一参数的存放位置是相邻的,使得访问它们的相邻线程的每个指令总是访问相邻的数据,达到完美的合并访问。满足合并访问的请求会被GPU内的硬件自动合并,使得GPU带宽得到最大利用。
进一步的,所述方法:在并行化的锚特征搜索匹配和回归步骤中,由于投影矩阵在运行前不确定,所以其无法合并访问,每次全局内存I/O只有一小部分得到使用。本发明提出针对性的指令级并行技术,在一个周期内读入多个待计算的数据,然后进行计算,从而增大全局内存I/O位宽利用率,可以更大化利用GPU全局内存,加快执行速度。
进一步的,所述方法中:采用CPU/GPU联合计算技术,将GPU和CPU的计算资源结合起来,在GPU计算Y通道的A+超分辨率的同时,CPU的两个线程也在分别计算U、V通道的bicubic超分辨率,从而节省U、V通道产生的CPU/GPU数据传输开销,降低视频超分辨率执行时间。
与现有技术相比,本发明具有以下显著优势:
本发明将A+超分辨率技术并行化,可以利用GPU超强并行计算能力;并优化图像数据格式使之实现完美的合并访问,进一步的,将锚特征回归过程指令级并行化,从而充分利用GPU超强的并行计算能力,将A+超分辨率技术加速到实际生产应用所需的速度;充分优化了A+超分辨率过程的GPU执行效率,并且进一步利用了CPU/GPU联合计算,尽可能加速了整个A+过程,最终将执行速度从使用CPU的47秒/帧加速到GPU的0.16秒/帧。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其他特征、目的和优点将会更加明显:
图1是A+超分辨率技术流程示意图;
图2是本发明一优选实施例中按输出特征进行任务划分并行化进行收集特征示意图;
图3是本发明一优选实施例中锚特征搜索匹配与回归的并行化示意图;
图4是本发明一优选实施例中高分辨率块重叠映射回高分辨率图像的并行化示意图;
图5是本发明一优选实施例中合并访问优化示意图;
图6是本发明一优选实施例中使用指令级并行示意图;
图7是本发明一优选实施例中CPU/GPU联合处理示意图。
具体实施方式
下面结合具体实例对本发明进行详细说明。以下实施将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
针对现有的A+超分辨率技术运行时间的不足,本发明将A+超分辨率技术进行并行化、利用GPU加速并充分优化执行过程。
由于物理因素的制约,几年来处理器的工作频率无法大幅提升,计算机行业通过增加处理器的核心数量提升计算能力,典型的产品有多核心中央处理器(CPU)和拥有众多核心的图形处理器(GPU)。其中GPU拥有上千个计算单元和超高带宽的显存,例如NvidiaGTX 980TI拥有2816个CUDA核心和336GB/s的全局内存带宽。如果将一个大型计算任务分为数万乃至数百万个微任务,然后交给GPU处理的时候,GPU会将这些微任务调度分配给这些CUDA核心,众多的CUDA核心能够并发地、高效地处理微任务,从而使GPU执行速度达到CPU的数百倍。能够利用GPU超强计算能力的前提是计算任务并行化,使GPU执行数百万个可并发的微任务。
如图1所示,A+超分辨率技术的过程分解为7个步骤,包括bicubic预处理、差分、收集差分特征、主成分分析、锚特征搜索与回归、低高频图像块相加、高分辨率图像块重叠映射为最终高分辨率图像。为了最大程度地加速A+超分辨率技术,本发明将全部步骤都并行化(bicubic插值的并行化、差分的并行化、收集差分特征的并行化、主成分分析的并行化、锚特征搜索匹配和回归的并行化、低高频特征叠加的并行化、高分辨率块重叠映射回高分辨率图像的并行化),并移植到GPU上运行。本发明必须全部步骤并行化,否则未并行的部分将成为整个系统的瓶颈,而且串行步骤和并行步骤的衔接会导致反复的CPU/GPU数据转移和时间开销。
在一优选的实施方式中,本发明对差分、收集差分特征、低高频图像块相加的并行化技术是相似的,计算任务被按照输出特征(对收集差分特征、低高频图像块而言)或输出像素(对差分而言)进行任务划分,分割成数万个(对收集差分特征、低高频图像块而言)或数百万个(对差分而言)微任务。每个微任务的计算被指配到一个线程上,GPU会自动地调度CUDA核心去处理这些微任务。由于这些微任务之间是没有相互关联和依赖的,因此它们可以被并发地执行,不需要相互通信,并且可以以任意次序运行。
在一优选的实施方式中,如图2所示,是本发明实施例中收集特征的并行化的示意图,其按照输出特征进行任务划分。一个单独的线程负责计算一个输出特征,它只需要读对应区域的差分图像数据,然后形成输出特征。并且应该注意到,线程间对同一区域的读操作不会带来竞态,因此可以并发的执行。
本发明中最重要的一个步骤:锚特征搜索匹配与回归的并行化。具体的,在一优选的实施方式中,该步骤它包含三个部分:一次矩阵-矩阵乘法,对每个匹配特征中最大绝对值搜索,每个特征右乘对应的投影矩阵。矩阵-矩阵乘法的并行化是通过CUDAcuBLAS矩阵乘法库实现的。本发明将剩下的两个部分按照特征进行任务划分,每个输出特征的锚特征匹配、回归计算任务作为一个微任务分配给了一个线程,其并行化如图3所示。每个线程从匹配矩阵的对应列中搜索绝对值最大的行下标index,然后用该下标index对应的投影矩阵乘以该低分辨率特征得到对应的高频图像块。
本发明设计了高分辨率块重叠映射回高分辨率图像的并行化。在传统的块叠加回图像的技术中,计算机创建两个初始化为0的图像SR Image和权值weights。随着输入特征的不断处理,SR Image对应区域产生累加,和weights也不断更新。最后将SR Image除以weights已得到最终结果。但是这种方法无法直接并行化,因为并行处理的特征可能同时读/写SR Image和weights的同一区域,导致竞态,产生错误的运行结果。在一优选的实施方式中,为了解决这个问题,本发明从输出像素的角度去处理这个问题,如图4所示。计算任务按照输出像素进行任务划分,从而使得该步骤能够并行化。一个线程负责计算一个输出像素,首先它找出了该像素包含在哪些块之中,然后在这些块的对应位置上获取像素的值进行叠加和计数,最后平均后得到计算结果。这种并行化方法在计算结果和串行方法一致的前提下,避免了竞态,从而可以在GPU上正确运行。
对bicubic和主成分分析(PCA)的并行化方式是众所周知的,本发明不再陈述。
如图5所示,在一优选的实施方式中,本发明通过调整GPU内图像和特征数据格式,使得A+超分辨率过程中达到尽可能的全局内存合并访问,从而大幅加快其执行速度。当GPU线程访问全局内存的时候,GPU硬件会自动地将相邻的访问请求合并在一起,从而充分利用显存的位宽和带宽。例如GTX980TI有384位的显存位宽,可以同时存/取24个单精度浮点数。只有在相邻线程访问相邻全局内存空间的时候合并访问才能生效,否则每次存取只有很小一部分位宽和带宽起作用,大幅影响A+超分辨率技术的运行速度。本发明精心调整了GPU内图像和特征的数据格式,使之尽可能满足GPU合并访问。在bicubic、差分、收集差分特征、主成分分析、低高频特征相加和高分辨率块重叠映射回高分辨率图像步骤中,全局内存访问达到了完美的合并访问;在锚特征搜索匹配与回归的矩阵-矩阵乘法和最大绝对值搜索也达到了完美的合并访问,唯独投影矩阵与低分辨率特征的乘法无法访问,这是由于只有在运行时才能决定访问哪一个投影矩阵,因此相邻线程访问的投影矩阵很可能不一样,也就无法合并访问。
在一优选的实施方式中,本发明通过对锚特征回归中投影矩阵与低分辨率特征乘法进行指令级并行,达到了尽可能大的A+超分辨率技术加速。在未指令级并行的时候,线程每次访问投影矩阵数据会触发一次全局内存32字节的读操作,其中只有4字节是有效的,其余都被丢弃了,这意味着低全局内存位宽和带宽利用率。为了改善这个状况,本发明调整了指令和线程内核中的数据访问方式,使用float4数据结构在一个周期内一次读入多个待计算的数据(共16字节),之后再进行计算,如图6所示。通过指令级并行,投影矩阵与低分辨率特征乘法以及A+整体速度大幅提升。
在一优选的实施方式中,本发明采用CPU/GPU联合计算技术,将计算开销小但CPU/GPU I/O开销大的步骤(U、V通道的bicubic)保持在CPU内执行,使用CPU和GPU同时处理视频超分辨率任务,如图7所示。在对视频进行超分辨率时,往往对Y通道采取高质量的超分辨率技术,而对U、V通道采用较快的超分辨率技术,因为U、V通道的重要性和对质量影响较小,而且A+超分辨率技术本身是针对亮度信息而非色彩信息的。因此在超分辨率视频时,本发明使用GPU处理Y通道的A+超分辨率,同时启用两个CPU线程处理U、V通道的bicubic超分辨率。由于bicubic复杂度极低,因此CPU总是率先于GPU完成处理。
综上所述,本发明通过A+超分辨率技术全过程并行化,进一步的调整GPU内图像和特征数据格式满足合并访问、用于锚特征回归的指令级并行化、CPU/GPU联合计算技术将A+超分辨率技术的运行速度加快了295倍,同时保持了完全相同的运行质量。其各个步骤的运行速度和加速比如表1所示。
表1GPU对各个步骤的加速比
上表中:使用Nvidia GTX980TI和双路Intel E5-2697V2@2.7GHz 12coresprocessers,测试1920*1080到3840*2160单通道超分辨率。
由以上实施例可以看出,本发明将A+超分辨率过程划分为7个步骤,并行化每个步骤以适配到GPU上,调整图像和特征数据存放格式以满足GPU全局内存的合并访问,GPU内核程序指令级优化以达到尽可能快的GPU运行速度,使用CPU/GPU联合计算加快处理视频的速度。与现有技术相比,本发明将一个高质量的超分辨率技术加速到满足视频处理需要的速度,并且不会带来任何图像质量损失。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (7)
1.一种针对A+超分辨率技术的GPU加速方法,所述A+超分辨率技术步骤包括bicubic插值、差分、收集差分特征、主成分分析、锚特征搜索匹配和回归、低高频特征叠加、高分辨率块重叠映射回高分辨率图像;其特征在于:所述方法将A+超分辨率技术上述的所有步骤并行化,并移植到GPU上运行。
2.根据权利要求1所述的针对A+超分辨率技术的GPU加速方法,其特征在于:所述方法中:
对于差分、高分辨率块重叠映射回高分辨率图像这两个步骤,按照输出像素进行任务划分,计算任务被分割成数百万个互不相关的微任务进行并行计算;
对于收集差分特征、锚特征搜索匹配和回归、低高频特征叠加这三个步骤,按照输出特征进行任务划分,各个输出特征被并行地计算,从而发挥GPU超强的并行计算能力。
3.根据权利要求2所述的针对A+超分辨率技术的GPU加速方法,其特征在于:所述按照输出像素进行任务划分,是指:一个线程负责计算一个输出像素,首先它找出该像素包含在哪些块之中,然后在这些块的对应位置上获取像素的值进行叠加和计数,最后平均后得到计算结果。
4.根据权利要求1所述的针对A+超分辨率技术的GPU加速方法,其特征在于:所述方法:调整了图像和特征数据的存放方式,使得相邻线程总是同时访问相邻的数据。
5.根据权利要求4所述的针对A+超分辨率技术的GPU加速方法,其特征在于:相邻图像或特征同一参数的存放位置是相邻的,使得访问它们的相邻线程的每个指令总是访问相邻的数据,满足合并访问的请求会被GPU内的硬件自动合并,使得GPU带宽得到最大利用。
6.根据权利要求1-5任一项所述的针对A+超分辨率技术的GPU加速方法,其特征在于:所述方法:在并行化的锚特征搜索匹配和回归步骤中,采用指令级并行技术,在一个周期内读入多个待计算的数据,然后进行计算,从而增大全局内存I/O位宽利用率。
7.根据权利要求1-5任一项所述的针对A+超分辨率技术的GPU加速方法,其特征在于:所述方法:采用CPU/GPU联合计算技术,在GPU计算Y通道的A+超分辨率的同时,CPU的两个线程也在分别计算U、V通道的bicubic超分辨率,从而节省U、V通道产生的CPU/GPU数据传输开销,降低视频超分辨率执行时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610184146.5A CN105869105B (zh) | 2016-03-28 | 2016-03-28 | 一种针对a+超分辨率技术的gpu加速方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610184146.5A CN105869105B (zh) | 2016-03-28 | 2016-03-28 | 一种针对a+超分辨率技术的gpu加速方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105869105A true CN105869105A (zh) | 2016-08-17 |
CN105869105B CN105869105B (zh) | 2021-02-12 |
Family
ID=56625066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610184146.5A Expired - Fee Related CN105869105B (zh) | 2016-03-28 | 2016-03-28 | 一种针对a+超分辨率技术的gpu加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105869105B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111314741A (zh) * | 2020-05-15 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 视频超分处理方法、装置、电子设备及存储介质 |
CN111930522A (zh) * | 2020-09-24 | 2020-11-13 | 常州微亿智造科技有限公司 | Gpu虚拟化和资源调度方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110170801A1 (en) * | 2010-01-09 | 2011-07-14 | Microsoft Corporation | Resizing of digital images |
CN104992425A (zh) * | 2015-07-27 | 2015-10-21 | 华中科技大学 | 一种基于gpu加速的dem超分辨率方法 |
-
2016
- 2016-03-28 CN CN201610184146.5A patent/CN105869105B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110170801A1 (en) * | 2010-01-09 | 2011-07-14 | Microsoft Corporation | Resizing of digital images |
CN104992425A (zh) * | 2015-07-27 | 2015-10-21 | 华中科技大学 | 一种基于gpu加速的dem超分辨率方法 |
Non-Patent Citations (4)
Title |
---|
LINGQI ZHANG 等: ""High accuracy digital image correlation powered by GPU-based parallel computing"", 《OPTICS AND LASERS IN ENGINEERING》 * |
RADU TIMOFTE等: ""A+: Adjusted Anchored Neighborhood Regression for Fast Super-Resolution"", 《SPRINGER INTERNATIONAL PUBLISHING》 * |
陈昕 等: ""基于CUDA的遥感图像快速超分辨率重建算法研究"", 《火控雷达技术》 * |
陈湘骥 等: ""基于GPU加速的实时视频超分辨率重建"", 《计算机应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111314741A (zh) * | 2020-05-15 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 视频超分处理方法、装置、电子设备及存储介质 |
CN111930522A (zh) * | 2020-09-24 | 2020-11-13 | 常州微亿智造科技有限公司 | Gpu虚拟化和资源调度方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105869105B (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | Bisenet v2: Bilateral network with guided aggregation for real-time semantic segmentation | |
CN105869117A (zh) | 一种针对深度学习超分辨率技术的gpu加速方法 | |
CN107657599B (zh) | 基于混合粒度划分和动态负载分配的遥感图像融合系统并行实现方法 | |
Chouchene et al. | Optimized parallel implementation of face detection based on GPU component | |
CN105931256A (zh) | 基于cuda的大幅面遥感影像快速分割方法 | |
CN113392968A (zh) | 针对神经网络的迭代式小样本精细化的微训练 | |
CN109408450A (zh) | 一种数据处理的方法、系统、协处理装置和主处理装置 | |
Zhang et al. | Global context aware RCNN for object detection | |
Cui et al. | Real-time stereo vision implementation on Nvidia Jetson TX2 | |
Lian et al. | FG-SRGAN: A feature-guided super-resolution generative adversarial network for unpaired image super-resolution | |
CN105869105A (zh) | 一种针对a+超分辨率技术的gpu加速方法 | |
CN108648213A (zh) | 一种kcf跟踪算法在tms320c6657上的实现方法 | |
CN109410136A (zh) | 基于最短传递路径的匀色方法及处理装置 | |
Jensen et al. | A two-level real-time vision machine combining coarse-and fine-grained parallelism | |
Li et al. | Pillar‐based 3D object detection from point cloud with multiattention mechanism | |
Schiwietz et al. | GPU-PIV. | |
Wu et al. | Real-time low-power binocular stereo vision based on FPGA | |
DE102018128592A1 (de) | Erzeugen eines Bilds unter Verwendung einer Map, die verschiedene Klassen von Pixeln repräsentiert | |
DE112018007596T5 (de) | Vorrichtung und verfahren für merkmalspunktverfolgung unter verwendung von inter-frame-voraussage | |
CN112991141A (zh) | 一种基于gpu并行加速的频域幸运成像方法 | |
Guo | Cartoon figure recognition with the deep residual network | |
Lu et al. | Video object detection based on non-local prior of spatiotemporal context | |
Xia et al. | DAST: Depth-Aware Assessment and Synthesis Transformer for RGB-D Salient Object Detection | |
Mighani et al. | FMSLIC: Fast Memory-Efficient Structure for Implementation of SLIC on FPGA | |
Song et al. | Research on the acceleration effect of tensorrt in deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210212 |