CN102404561A - 在cuda上实现mpeg4i帧编码的方法 - Google Patents
在cuda上实现mpeg4i帧编码的方法 Download PDFInfo
- Publication number
- CN102404561A CN102404561A CN 201010280936 CN201010280936A CN102404561A CN 102404561 A CN102404561 A CN 102404561A CN 201010280936 CN201010280936 CN 201010280936 CN 201010280936 A CN201010280936 A CN 201010280936A CN 102404561 A CN102404561 A CN 102404561A
- Authority
- CN
- China
- Prior art keywords
- data
- coding
- thread
- cuda
- macro block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种在CUDA上实现MPEG4I帧编码的方法,包括步骤:采用CUDA的多个线程块实现对MPEG4I帧的各宏块并行处理,各处理包括离散余弦变换、量化、反量化、反离散余弦变换四个操作,得到各宏块的非预测数据;根据MPEG4协议,采用多个线程块对各宏块进行水平预测或垂直预测的并行计算,得到各宏块的预测数据;采用多个所述线程块并行实现各宏块的预测数据的墒编码和非预测数据的墒编码并选择各宏块的编码模式。本发明方法使MPEG4I帧编码算法符合CUDA硬件结构和工作特性,能充分发挥CUDA并行计算能力,能使MPEG4I帧编码算法在CUDA上高效实现和运行,能提高运行效率6-7倍。
Description
技术领域
本发明涉及视频编码领域,特别是涉及一种在CUDA上实现MPEG4I帧编码的方法。
背景技术
众所周知,MPEG4视频编码器是个复杂的算法工程,其中对于I帧的编码,是其重要的组成部分。想要在计算机上实时运行该算法,则需要给计算机配上强劲的CPU。而现在,统一计算设备架构(Computer UnifiedDevice Architecture,CUDA)显卡芯片有着强大的并行计算能力,并且提供通用计算的编程接口。如果能把I帧的编码算法移植到CUDA中运行,就能大大提高编码器的执行效率。要想实现这个目标,现有技术中还存在如下几个必须解决的问题:
1、现有MPEG编码器包括对I帧的编码算法都是在单线程、单核的环境下开发的,然而CUDA是多线程,多核环境。要开发出适合CUDA运行的I帧编码算法,线程的管理、调度和任务分配是个至关重要的工作。现有技术中还没有在CUDA上完整实现该算法的完整资料和经验。
2、CUDA上的硬件架构比单核或多核的CPU要复杂的多。为了要开发出高效的I帧的编码器出来,必须按照CUDA的硬件结构和内存访问方式,来重新设计I帧的表和函数地址。CUDA的硬件架构复杂,主要有如下几个方面:A、CUDA里没有高速缓冲存储器(Cache),只有共享内存(SharedMemory)。B、CUDA的GPU同时访问Shared Memory,如果地址是16倍数,就会导致访问地址冲突,从而造成了访问时间大幅增加。C、GPU访问全局内存(Global Memory)的时候,一次读一个byte的时间比一次读8个byte时间要高。
发明内容
本发明所要解决的技术问题是提供一种在CUDA上实现MPEG4I帧编码的方法,能使MPEG4I帧编码算法符合CUDA硬件结构和工作特性,能充分发挥CUDA并行计算能力,能使MPEG4I帧编码算法在CUDA上高效实现和运行,能提高运行效率6-7倍。
为解决上述技术问题,本发明提供的在CUDA上实现MPEG4I帧编码的方法,包括如下步骤:
步骤一、采用CUDA的多个线程块实现对MPEG4I帧的各宏块的并行处理,各所述宏块包括6个8×8×4字节的块。其中每一个所述线程块实现对一个所述宏块的处理,各处理包括离散余弦变换(Discrete CosineTransformation,DCT)、量化(QUANT)、反量化(DEQUANT)、反离散余弦变换(IDCT)四个操作,得到各所述宏块的非预测数据。将各所述线程块定义为三维模式且将各所述线程块的大小定义为z=3、y=2、x=8,用一个所述线程块实现对一个所述宏块的处理,由于一个所述宏块包括6个8×8×4字节的块,所以每个8×8×4字节的块被8个线程处理,处理方法包括如下步骤:步骤1、在所述CUDA中申请一个大小为17×48×4字节的共享内存,并将所述共享内存映射给所述线程块的每一个线程。步骤2、每个所述线程从所述CUDA的全局内存中读出所述MPEG4I帧的当前所述宏块的数据,并把当前所述宏块的数据存入到所述共享内存中,其中每个所述线程读一次所述全局内存且每次读8个字节。步骤3、对所述共享内存里的数据做离散余弦变换的行变换。步骤4、对所述离散余弦变换的行变换后的数据,进行所述离散余弦变的列变换。步骤5、对所述离散余弦变换后的数据进行量化操作。步骤6、保存所述量化后的数据到所述全局内存中。步骤7、对所述量化后的数据进行反量化操作。步骤8、对所述反量化后的数据进行所述反离散余弦变换的行变换。步骤9、对所述反离散余弦变换的行变换出来后的数据进行列变换。步骤10、将最后得到的所述反离散余弦变换的列变换后的数据保存到所述全局内存中。
步骤二、根据MPEG4协议,采用多个所述线程块对各所述宏块进行水平预测或垂直预测的并行计算,其中每一个所述线程块实现对一个所述宏块的水平预测或垂直预测的计算,得到各所述宏块的预测数据。将各所述线程块定义为三维模式且将各所述线程块的大小定义为z=3、y=2、x=8,用一个所述线程块实现对一个所述宏块的水平预测或垂直预测的计算包括如下步骤:步骤1、在所述CUDA中申请一个大小为17×48×4字节的共享内存,并将所述共享内存映射给所述线程块的每一个线程。步骤2、计算当前所述宏块的左、上、上右和上左的所述宏块的有效性。步骤3、所述每个线程从所述全局内存中读出当前所述宏块的量化后的数据并把当前所述宏块的量化后的数据存入到所述共享内存中;其中每个所述线程读二次所述全局内存且每次读8个字节。步骤4、所述每个线程从所述全局内存中读出当前所述宏块的左方、上方、上左的所述宏块的量化后的数据并存入到所述共享内存中。步骤5、对所述共享内存中的数据进行水平预测或垂直预测,并将得到的预测数据到所述全局内存中。
步骤三、采用多个所述线程块并行实现各所述宏块的预测数据的墒编码和非预测数据的墒编码并选择各所述宏块的编码模式,其中一个所述线程块实现一个所述宏块的预测数据的墒编码和非预测数据的墒编码并取墒编码长度较小的模式作为所述宏块的编码模式。将各所述线程块定义为三维模式且将各所述线程块的大小定义为z=3、y=2、x=8,用一个所述线程块实现一个所述宏块的预测数据的墒编码和非预测数据的墒编码并选择所述宏块的编码模式的方法包括如下步骤:步骤1、在所述CUDA中申请一个大小为17×48×4字节的共享内存,并将所述共享内存映射给所述线程块的每一个线程。步骤2、清空所述共享内存的地址空间。步骤3、从所述全局内存中读取当前所述宏块的预测数据和非预测数据,将所述预测数据和所述非预测数据分别通过之字扫描的顺序填写到所述共享内存中。步骤4、重新扫描所述共享内存中的所述预测数据和所述非预测数据,并对所述预测数据和所述非预测数据分别进行查表找出所述预测数据的墒编码和所述非预测数据的墒编码。步骤5、选择当前所述宏块的编码模式是预测编码模式还是非预测编码模式,选择方法为:比较所述预测数据的墒编码和所述非预测数据的墒编码的长度,选取墒编码的长度小的模式作为所述宏块的编码模式,所述预测数据的墒编码的长度小时选择预测编码模式、所述非预测数据的墒编码的长度小时选择非预测编码模式。步骤6、将所述预测数据的墒编码和所述非预测数据的墒编码保存到所述全局内存中。
本发明方法使MPEG4I帧编码算法符合CUDA硬件结构和工作特性,能充分发挥CUDA并行计算能力,本发明能使I帧的所有宏块同时去做DCT、QUANT等操作、也能同时再做所有宏块的预测等操作,使MPEG4I帧编码算法在CUDA上高效实现和运行,能提高运行效率6-7倍。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明:
图1是本发明方法的流程图;
图2是本发明实施例方法的步骤一的流程图;
图3是本发明实施例方法的步骤二的流程图;
图4是本发明实施例方法的步骤三的流程图。
具体实施方式
如图1所示,本发明方法的流程图,本发明在CUDA上实现MPEG4I帧编码的方法包括如下步骤:
步骤一、采用CUDA的多个线程块实现对MPEG4I帧的各宏块的并行处理,其中每一个所述线程块实现对一个所述宏块的处理,各处理包括离散余弦变换、量化、反量化、反离散余弦变换四个操作,得到各所述宏块的非预测数据。
步骤二、根据MPEG4协议,采用多个所述线程块对各所述宏块进行水平预测或垂直预测的并行计算,其中每一个所述线程块实现对一个所述宏块的水平预测或垂直预测的计算,得到各所述宏块的预测数据。
步骤三、采用多个所述线程块并行实现各所述宏块的预测数据的墒编码和非预测数据的墒编码并选择各所述宏块的编码模式,其中一个所述线程块实现一个所述宏块的预测数据的墒编码和非预测数据的墒编码并取墒编码长度较小的模式作为所述宏块的编码模式。
如图2所示,是本发明实施例方法的步骤一的流程图。本发明实施例在CUDA上实现MPEG4I帧编码的方法的步骤一中将各所述线程块定义为三维模式且将各所述线程块的大小定义为z=3、y=2、x=8,用一个所述线程块实现对一个所述宏块的处理,该处理方法包括如下步骤:
步骤1、在所述CUDA中申请一个大小为17×48×4字节的共享内存,并将所述共享内存映射给所述线程块的每一个线程。即图2所示,计算当前线程的变量,如Shared Memory地址等。
步骤2、每个所述线程从所述CUDA的全局内存中读出所述MPEG4I帧的当前所述宏块的数据,并把当前所述宏块的数据存入到所述共享内存中,其中每个所述线程读一次所述全局内存且每次读8个字节。即图2所示读取当前帧数据到Shared Memory。所述当前帧即为当前所述宏块。
步骤3、对所述共享内存里的数据做离散余弦变换的行变换。即图2所示的对数据做DCT的行变换row_dct()。所述row_dct()即为行变换函数。做完所述行变换后,紧接着进行一步线程同步的操作,即图2所示的_syncthreads()。
步骤4、对所述离散余弦变换的行变换后的数据,进行所述离散余弦变的列变换。即图2所示的对数据做DCT的列变换col_dct()。所述col_dct()即为列变换函数。
步骤5、对所述离散余弦变换后的数据进行量化操作。即图2所示的对数据做量化quant(),所述quant()即为量化函数。做完所述量化后,紧接着进行一步线程同步的操作,即图2所示的_syncthreads()。
步骤6、保存所述量化后的数据到所述全局内存中。即图2所示的保持数据进入global memory。
步骤7、对所述量化后的数据进行反量化操作。即图2所示的对数据做反量化dequant(),所述的quant()即为反量化函数。
步骤8、对所述反量化后的数据进行所述反离散余弦变换的行变换。即图2所示的对数据做反DCT的行变换row_idct()。所述row_dct()即为行变换函数。
步骤9、对所述反离散余弦变换的行变换出来后的数据进行列变换。即图2所示的对数据做反DCT的列变换col_idct()。所述col_idct()即为反列变换函数。
步骤10、将最后得到的所述反离散余弦变换的列变换后的数据保存到所述全局内存中。即图2所示的保存参考帧进入global memory。所述参考帧即为所述当前帧经过上述DCT、QUANT、DEQUANT、IDCT操作后形成的视频数据。
图3是本发明实施例方法的步骤二的流程图。本发明实施例在CUDA上实现MPEG4I帧编码的方法的步骤二中将各所述线程块定义为三维模式且将各所述线程块的大小定义为z=3、y=2、x=8,用一个所述线程块实现对一个所述宏块的水平预测或垂直预测的计算包括如下步骤:
步骤1、在所述CUDA中申请一个大小为17×48×4字节的共享内存,并将所述共享内存映射给所述线程块的每一个线程。即图3所示,计算当前线程的变量,如Shared Memory地址等。
步骤2、计算当前所述宏块的左、上、上右和上左的所述宏块的有效性。即图3所示的计算当前宏块邻居的有效性。
步骤3、所述每个线程从所述全局内存中读出当前所述宏块的量化后的数据并把当前所述宏块的量化后的数据存入到所述共享内存中;其中每个所述线程读二次所述全局内存且每次读8个字节。即图3所示的读取QUANT之后数据到Shared Memory。当前所述宏块的量化后的数据即为步骤一中进行量化操作之后保存到所述全局内存中的数据。
步骤4、所述每个线程从所述全局内存中读出当前所述宏块的左方、上方、上左的所述宏块的量化后的数据并存入到所述共享内存中。即图3所示的读取当前宏块左、上、上左的数据。
步骤5、对所述共享内存中的数据进行水平预测或垂直预测,并将得到的预测数据到所述全局内存中。即图3所示,对数据做水平或垂直方向的预测,并保存。
如图4所示,是本发明实施例方法的步骤三的流程图,本发明实施例在CUDA上实现MPEG4I帧编码的方法的步骤三中将各所述线程块定义为三维模式且将各所述线程块的大小定义为z=3、y=2、x=8,用一个所述线程块实现一个所述宏块的预测数据的墒编码和非预测数据的墒编码并选择所述宏块的编码模式的方法包括如下步骤:
步骤1、在所述CUDA中申请一个大小为17×48×4字节的共享内存,并将所述共享内存映射给所述线程块的每一个线程。即图4所示,计算当前线程的变量,如Shared Memory地址等。
步骤2、清空所述共享内存的地址空间。即图4所示,清空当前SharedMemory空间。
步骤3、从所述全局内存中读取当前所述宏块的预测数据和非预测数据,将所述预测数据和所述非预测数据分别通过之字扫描的顺序填写到所述共享内存中。即图4所示,读取数据,写到相应的Shared Memory地址中。
步骤4、重新扫描所述共享内存中的所述预测数据和所述非预测数据,并对所述预测数据和所述非预测数据分别进行查表找出所述预测数据的墒编码和所述非预测数据的墒编码。即图4所示,在所述Shared Memory中扫描数据,查找墒编码。
步骤5、选择当前所述宏块的编码模式是预测编码模式还是非预测编码模式,选择方法为:比较所述预测数据的墒编码和所述非预测数据的墒编码的长度,选取墒编码的长度小的模式作为所述宏块的编码模式,所述预测数据的墒编码的长度小时选择预测编码模式、所述非预测数据的墒编码的长度小时选择非预测编码模式。即图4所示,判断宏块使用编码模式。
步骤6、将所述预测数据的墒编码和所述非预测数据的墒编码保存到所述全局内存中。即图4所示,保存墒编码值到global memory中。
以上通过具体实施例对本发明进行了详细的说明,但这些并非构成对本发明的限制。在不脱离本发明原理的情况下,本领域的技术人员还可做出许多变形和改进,这些也应视为本发明的保护范围。
Claims (5)
1.一种在CUDA上实现MPEG4I帧编码的方法,其特征在于,包括如下步骤:
步骤一、采用CUDA的多个线程块实现对MPEG4I帧的各宏块的并行处理,其中每一个所述线程块实现对一个所述宏块的处理,各处理包括离散余弦变换、量化、反量化、反离散余弦变换四个操作,得到各所述宏块的非预测数据;
步骤二、根据MPEG4协议,采用多个所述线程块对各所述宏块进行水平预测或垂直预测的并行计算,其中每一个所述线程块实现对一个所述宏块的水平预测或垂直预测的计算,得到各所述宏块的预测数据;
步骤三、采用多个所述线程块并行实现各所述宏块的预测数据的墒编码和非预测数据的墒编码并选择各所述宏块的编码模式,其中一个所述线程块实现一个所述宏块的预测数据的墒编码和非预测数据的墒编码并取墒编码长度较小的模式作为所述宏块的编码模式。
2.如权利要求1所述的在CUDA上实现MPEG4I帧编码的方法,其特征在于:步骤一中将各所述线程块定义为三维模式且将各所述线程块的大小定义为z=3、y=2、x=8,用一个所述线程块实现对一个所述宏块的处理的方法包括如下步骤:
步骤1、在所述CUDA中申请一个大小为17×48×4字节的共享内存,并将所述共享内存映射给所述线程块的每一个线程;
步骤2、每个所述线程从所述CUDA的全局内存中读出所述MPEG4I帧的当前所述宏块的数据,并把当前所述宏块的数据存入到所述共享内存中,其中每个所述线程读一次所述全局内存且每次读8个字节;
步骤3、对所述共享内存里的数据做离散余弦变换的行变换;
步骤4、对所述离散余弦变换的行变换后的数据,进行所述离散余弦变的列变换;
步骤5、对所述离散余弦变换后的数据进行量化操作;
步骤6、保存所述量化后的数据到所述全局内存中;
步骤7、对所述量化后的数据进行反量化操作;
步骤8、对所述反量化后的数据进行所述反离散余弦变换的行变换;
步骤9、对所述反离散余弦变换的行变换出来后的数据进行列变换;
步骤10、将最后得到的所述反离散余弦变换的列变换后的数据保存到所述全局内存中。
3.如权利要求1所述的在CUDA上实现MPEG4I帧编码的方法,其特征在于:步骤二中将各所述线程块定义为三维模式且将各所述线程块的大小定义为z=3、y=2、x=8,用一个所述线程块实现对一个所述宏块的水平预测或垂直预测的计算包括如下步骤:
步骤1、在所述CUDA中申请一个大小为17×48×4字节的共享内存,并将所述共享内存映射给所述线程块的每一个线程;
步骤2、计算当前所述宏块的左、上、上右和上左的所述宏块的有效性;
步骤3、所述每个线程从所述全局内存中读出当前所述宏块的量化后的数据并把当前所述宏块的量化后的数据存入到所述共享内存中;其中每个所述线程读二次所述全局内存且每次读8个字节;
步骤4、所述每个线程从所述全局内存中读出当前所述宏块的左方、上方、上左的所述宏块的量化后的数据并存入到所述共享内存中;
步骤5、对所述共享内存中的数据进行水平预测或垂直预测,并将得到的预测数据到所述全局内存中。
4.如权利要求1所述的在CUDA上实现MPEG4I帧编码的方法,其特征在于:步骤三中将各所述线程块定义为三维模式且将各所述线程块的大小定义为z=3、y=2、x=8,用一个所述线程块实现一个所述宏块的预测数据的墒编码和非预测数据的墒编码并选择所述宏块的编码模式的方法包括如下步骤:
步骤1、在所述CUDA中申请一个大小为17×48×4字节的共享内存,并将所述共享内存映射给所述线程块的每一个线程;
步骤2、清空所述共享内存的地址空间;
步骤3、从所述全局内存中读取当前所述宏块的预测数据和非预测数据,将所述预测数据和所述非预测数据分别通过之字扫描的顺序填写到所述共享内存中;
步骤4、重新扫描所述共享内存中的所述预测数据和所述非预测数据,并对所述预测数据和所述非预测数据分别进行查表找出所述预测数据的墒编码和所述非预测数据的墒编码;
步骤5、选择当前所述宏块的编码模式是预测编码模式还是非预测编码模式,选择方法为:比较所述预测数据的墒编码和所述非预测数据的墒编码的长度,选取墒编码的长度小的模式作为所述宏块的编码模式,所述预测数据的墒编码的长度小时选择预测编码模式、所述非预测数据的墒编码的长度小时选择非预测编码模式;
步骤6、将所述预测数据的墒编码和所述非预测数据的墒编码保存到所述全局内存中。
5.如权利要求1-4所述的在CUDA上实现MPEG4I帧编码的方法,其特征在于:各所述宏块包括6个8×8×4字节的块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010280936 CN102404561A (zh) | 2010-09-14 | 2010-09-14 | 在cuda上实现mpeg4i帧编码的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010280936 CN102404561A (zh) | 2010-09-14 | 2010-09-14 | 在cuda上实现mpeg4i帧编码的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102404561A true CN102404561A (zh) | 2012-04-04 |
Family
ID=45886284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010280936 Pending CN102404561A (zh) | 2010-09-14 | 2010-09-14 | 在cuda上实现mpeg4i帧编码的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102404561A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106791861A (zh) * | 2016-12-20 | 2017-05-31 | 杭州当虹科技有限公司 | 一种基于CUDA架构的DNxHD VLC编码方法 |
CN107231558A (zh) * | 2017-05-23 | 2017-10-03 | 江苏火米互动科技有限公司 | 一种基于cuda的h.264并行编码器的实现方法 |
CN107547896A (zh) * | 2016-06-27 | 2018-01-05 | 杭州当虹科技有限公司 | 一种基于CUDA的ProRes VLC编码 |
CN108337510A (zh) * | 2017-12-22 | 2018-07-27 | 西安思丹德信息技术有限公司 | 一种基于h264标准的低延时编解码方法及图像数据传输方法 |
CN109451322A (zh) * | 2018-09-14 | 2019-03-08 | 北京航天控制仪器研究所 | 用于图像压缩的基于cuda架构的dct算法和dwt算法的加速实现方法 |
CN109819236A (zh) * | 2019-02-15 | 2019-05-28 | 西安勺子智能科技有限公司 | 一种基于无人机双目视频的多用户vr直播系统 |
-
2010
- 2010-09-14 CN CN 201010280936 patent/CN102404561A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107547896A (zh) * | 2016-06-27 | 2018-01-05 | 杭州当虹科技有限公司 | 一种基于CUDA的ProRes VLC编码 |
CN107547896B (zh) * | 2016-06-27 | 2020-10-09 | 杭州当虹科技股份有限公司 | 一种基于CUDA的Prores VLC编码方法 |
CN106791861A (zh) * | 2016-12-20 | 2017-05-31 | 杭州当虹科技有限公司 | 一种基于CUDA架构的DNxHD VLC编码方法 |
CN106791861B (zh) * | 2016-12-20 | 2020-04-07 | 杭州当虹科技股份有限公司 | 一种基于CUDA架构的DNxHD VLC编码方法 |
CN107231558A (zh) * | 2017-05-23 | 2017-10-03 | 江苏火米互动科技有限公司 | 一种基于cuda的h.264并行编码器的实现方法 |
CN107231558B (zh) * | 2017-05-23 | 2019-10-22 | 江苏火米互动科技有限公司 | 一种基于cuda的h.264并行编码器的实现方法 |
CN108337510A (zh) * | 2017-12-22 | 2018-07-27 | 西安思丹德信息技术有限公司 | 一种基于h264标准的低延时编解码方法及图像数据传输方法 |
CN109451322A (zh) * | 2018-09-14 | 2019-03-08 | 北京航天控制仪器研究所 | 用于图像压缩的基于cuda架构的dct算法和dwt算法的加速实现方法 |
CN109819236A (zh) * | 2019-02-15 | 2019-05-28 | 西安勺子智能科技有限公司 | 一种基于无人机双目视频的多用户vr直播系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4182442B2 (ja) | 画像データの処理装置、画像データの処理方法、画像データの処理方法のプログラム及び画像データの処理方法のプログラムを記録した記録媒体 | |
JP4920034B2 (ja) | マルチスレッドsimd処理を利用したメディア符号化の並列実行 | |
US9948934B2 (en) | Estimating rate costs in video encoding operations using entropy encoding statistics | |
CN101908035B (zh) | 视频编解码方法、gpu及其与cpu的交互方法及系统 | |
CN105491377B (zh) | 一种计算复杂度感知的视频解码宏块级并行调度方法 | |
CN102404561A (zh) | 在cuda上实现mpeg4i帧编码的方法 | |
KR20200013266A (ko) | 픽처 예측 방법 및 픽처 예측 장치 | |
CN101710986A (zh) | 基于同构多核处理器的h.264并行解码方法和系统 | |
CN107820091B (zh) | 一种图片处理方法、系统及一种图片处理设备 | |
US10805622B2 (en) | High efficiency video coding method and apparatus, and computer-readable storage medium | |
Roh et al. | Prediction complexity-based HEVC parallel processing for asymmetric multicores | |
Su et al. | Efficient parallel video processing techniques on GPU: from framework to implementation | |
CN105376583A (zh) | 一种按行交错划分任务和数据的多核并行视频解码方法 | |
CN101783958B (zh) | Avs视频标准中时域直接模式运动矢量的计算方法和装置 | |
Sayadi et al. | CUDA memory optimisation strategies for motion estimation | |
Jiang et al. | Highly paralleled low-cost embedded HEVC video encoder on TI KeyStone multicore DSP | |
CN1745587A (zh) | 用于手持装置的视频编码方法 | |
De Souza et al. | OpenCL parallelization of the HEVC de-quantization and inverse transform for heterogeneous platforms | |
Kim et al. | Merge mode estimation for a hardware-based HEVC encoder | |
Datla et al. | Parallelizing motion JPEG 2000 with CUDA | |
Bahri et al. | Optimizations for real-time implementation of H264/AVC video encoder on DSP processor | |
CN103327340A (zh) | 一种整数搜索方法及装置 | |
CN100438630C (zh) | 基于数据缓存的多流水线阶段信息共享方法 | |
KR20160011782A (ko) | 비디오 인코딩 회로 및 그것을 이용하는 비디오 인코딩 방법 | |
Migallón et al. | Performance analysis of frame partitioning in parallel HEVC encoders |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120404 |