CN111556316B - 一种基于深度神经网络加速的快速块分割编码方法和装置 - Google Patents

一种基于深度神经网络加速的快速块分割编码方法和装置 Download PDF

Info

Publication number
CN111556316B
CN111556316B CN202010268700.4A CN202010268700A CN111556316B CN 111556316 B CN111556316 B CN 111556316B CN 202010268700 A CN202010268700 A CN 202010268700A CN 111556316 B CN111556316 B CN 111556316B
Authority
CN
China
Prior art keywords
neural network
early termination
network model
termination mechanism
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010268700.4A
Other languages
English (en)
Other versions
CN111556316A (zh
Inventor
徐迈
李天一
关振宇
周迪
翟禹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Uniview Technologies Co Ltd
Hangzhou Innovation Research Institute of Beihang University
Original Assignee
Zhejiang Uniview Technologies Co Ltd
Hangzhou Innovation Research Institute of Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Uniview Technologies Co Ltd, Hangzhou Innovation Research Institute of Beihang University filed Critical Zhejiang Uniview Technologies Co Ltd
Priority to CN202010268700.4A priority Critical patent/CN111556316B/zh
Publication of CN111556316A publication Critical patent/CN111556316A/zh
Application granted granted Critical
Publication of CN111556316B publication Critical patent/CN111556316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供一种基于深度神经网络加速的快速块分割编码方法和装置,在至少一种网络裁剪策略中选出一种网络裁剪策略,通过设置不同的权重参数的保留比例,得到不同复杂度的提前终止机制分层深度卷积神经网络模型;对不同的编码树单元中的编码单元分割采用不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测,本发明实施例通过确定提前终止机制分层深度卷积神经网络模型各部分的计算复杂度,使其中最耗时的部分,即可训练层中的权重参数WP可以得到显著加速,并且通过联合优化时间复杂度和率‑失真性能,提出一种最优的提前终止机制分层深度卷积神经网络模型裁剪方法,并由此获得多种不同的加速模型,用于预测编码树单元划分。

Description

一种基于深度神经网络加速的快速块分割编码方法和装置
技术领域
本发明实施例涉及深度神经网络技术领域,具体涉及一种基于深度神经网络加速的快速块分割编码方法和装置。
背景技术
与上一代视频编码标准H.264相比,高效率视频编码能够有效降低视频码率,但编码复杂度也成倍增加。在高效率视频编码中,一种灵活的编码树单元分块结构占用大量的编码复杂度,这是因为其中的率-失真优化过程需要递归的遍历搜索。近年来,研究者们提出了多种方法,通过深度神经网络直接决定编码树单元中的编码单元分割,跳过费时的遍历搜索,来降低高效率视频编码的编码复杂度。然而,已有的方法仍然难以进行实时高效率视频编码,这是因为网络结构本身比较复杂,需要较长的计算时间。
发明内容
为了解决现有技术存在的至少一个问题,本发明实施例提供了一种基于深度神经网络加速的快速块分割编码方法和装置。
第一方面,本发明的至少一个实施例提供了一种基于深度神经网络加速的快速块分割编码方法,包括:
根据至少一种网络剪裁策略,确定提前终止机制分层深度卷积神经网络模型中每层和每个级别上权重参数的保留比例;
结合时间复杂度和率-失真性能,在至少一种网络裁剪策略中选出一种网络裁剪策略,通过设置不同的权重参数的保留比例,得到不同复杂度的提前终止机制分层深度卷积神经网络模型;
对不同的编码树单元中的编码单元分割采用不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测。
在一些实施例中,上述方法中对不同的编码树单元中的编码单元分割采用不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测,包括:使得提前终止机制分层深度卷积神经网络模型的复杂度接近目标复杂度。
在一些实施例中,上述方法中根据至少一种网络剪裁策略,确定提前终止机制分层深度卷积神经网络模型中每层和每个级别上权重参数的保留比例,包括以下三种策略:
恒定权重参数保留比例;
级间自适应权重参数保留比例;
级间和层间自适应权重参数保留比例。
在一些实施例中,上述方法中对不同的编码树单元中的编码单元分割采用不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测,包括:
当编码树单元输入提前终止机制分层深度卷积神经网络模型时,进行预处理得到预处理后的数据;
对预处理后的数据经过至少一个卷积层操作后提取纹理特征;所述预处理与卷积层操作均在并行的支路中进行;
卷积层操作完成后,将并行的支路的特征图伸直,连接成一个特征向量;
将特征向量再次在并行的支路中进行处理后,通过全连接层提取抽象特征,经至少一个全连接层处理后得到分层编码单元分割图;预处理包括:降采样和去均值。
在一些实施例中,上述方法中将量化参数值作为一个外部特征,添加到至少一个全连接层中;
在一些实施例中,上述方法中,当编码树单元输入终止机制分层深度卷积神经网络模型时,
对于帧内模式,提前终止机制分层深度卷积神经网络模型的输入是原始帧中的一个亮度编码树单元;
对于帧间模式,提前终止机制分层深度卷积神经网络模型的输入是从快速预编码过程生成的残差帧中的亮度编码树单元。
第二方面,本发明实施例提供了一种基于深度神经网络加速的快速块分割编码装置,包括:
确定模块:用于根据至少一种网络剪裁策略,确定提前终止机制分层深度卷积神经网络模型中每层和每个级别上权重参数的保留比例;
设置模块:用于结合时间复杂度和率-失真性能,在至少一种网络裁剪策略中选出一种网络裁剪策略,通过设置不同的权重参数的保留比例,得到不同复杂度的提前终止机制分层深度卷积神经网络模型;
预测模块:用于对不同的编码树单元中的编码单元分割采用不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测。
在一些实施例中,上述装置中的预测模块,用于对不同的编码树单元中的编码单元分割采用不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测,包括:
使得提前终止机制分层深度卷积神经网络模型的复杂度接近目标复杂度。
在一些实施例中,上述装置中的设置模块根据至少一种网络剪裁策略,确定提前终止机制分层深度卷积神经网络模型中每层和每个级别上权重参数的保留比例,包括以下三种策略:
恒定权重参数保留比例;
级间自适应权重参数保留比例;
级间和层间自适应权重参数保留比例。
在一些实施例中,上述装置中对不同的编码树单元中的编码单元分割采用不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测,包括:
当编码树单元输入提前终止机制分层深度卷积神经网络模型时,进行预处理得到预处理后的数据;
对所述预处理后的数据经过至少一个卷积层操作后提取纹理特征;所述预处理与卷积层操作均在并行的支路中进行;
所述卷积层操作完成后,将并行的支路的特征图伸直,连接成一个特征向量;
将所述特征向量再次在并行的支路中进行处理后,通过全连接层提取抽象特征,经至少一个全连接层处理后得到分层编码单元分割图。
本发明实施例的优点在于:根据至少一种网络剪裁策略,确定提前终止机制分层深度卷积神经网络模型中每层和每个级别上权重参数的保留比例;结合时间复杂度和率-失真性能,在至少一种网络裁剪策略中选出一种网络裁剪策略,通过设置不同的权重参数的保留比例,得到不同复杂度的提前终止机制分层深度卷积神经网络模型;对不同的编码树单元中的编码单元分割采用不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测,本申请实施例通过提前终止机制分层深度卷积神经网络模型各部分的计算复杂度,使其中最耗时的部分,即可训练层中的权重参数可以得到显著加速,并且通过联合优化时间复杂度和率-失真性能,提出一种最优的提前终止机制分层深度卷积神经网络模型裁剪方法,并由此获得多种不同的提前终止机制分层深度卷积神经网络加速模型,用于预测编码树单元CTU划分。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提出的一种基于深度神经网络加速的快速块分割编码方法的流程示意图之一;
图2为本发明实施例提出的一种基于深度神经网络加速的快速块分割编码装置的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
第一方面,本发明的至少一个实施例提供了一种基于深度神经网络加速的快速块分割编码方法,包括:
S101:根据至少一种网络剪裁策略,确定提前终止机制分层深度卷积神经网络模型中每层和每个级别上权重参数的保留比例;
具体的,本申请实施例中提供充分研究提前终止机制分层深度卷积神经网络模型中ETH-CNN中各部分的计算复杂度,使其中最耗时的部分,即可训练层中的权重参数可以得到显著加速。
S102:结合时间复杂度和率-失真性能,在至少一种网络裁剪策略中选出一种网络裁剪策略,通过设置不同的权重参数的保留比例,得到不同复杂度的提前终止机制分层深度卷积神经网络模型;
S103:对不同的编码树单元中的编码单元分割采用不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测。
具体的,本申请实施例通过研究提前终止机制分层深度卷积神经网络模型ETH-CNN各部分的计算复杂度,发现超过97%的浮点运算来自于可训练层中的权重参数WP,进而,本申请提出的网络裁剪策略是三种可能的网络裁剪策略,以决定提前终止机制分层深度卷积神经网络模型ETH-CNN中每层和每个级别上权重参数WP的保留比例;综合考虑时间复杂度和率-失真RD性能,在三种网络裁剪策略中选出一种作为最优策略。在最优策略中,本申请实施例中通过设置七种不同的权重参数WP保留比例,可获得七个时间复杂度不同的提前终止机制分层深度卷积神经网络模型ETH-CNN;这些不同的模型ETH-CNN,在编码树单元CTU划分时间和编码的率-失性能之间提供了灵活的权衡,而且,每个编码树单元CTU中的编码单元CU划分,都可以采用任何一个ETH-CNN模型进行预测。
在一些实施例中,上述方法中S103对不同的编码树单元中的编码单元分割采用不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测,包括:
使得提前终止机制分层深度卷积神经网络模型的复杂度接近目标复杂度。
具体的,本申请实施例中编码树单元CTU划分的平均时间复杂度接近预定目标,具有较高的控制精度和较优的率-失真RD性能。
在一些实施例中,上述方法中根据至少一种网络剪裁策略,确定提前终止机制分层深度卷积神经网络模型中每层和每个级别上权重参数的保留比例,包括以下三种策略:
恒定权重参数保留比例;
级间自适应权重参数保留比例;
级间和层间自适应权重参数保留比例。
具体的,本申请实施例中的恒定权重参数WP保留比例,即提前终止机制分层深度卷积神经网络模型中每层和每个级别上均采用相同的权重参数WP保留比例;这是一个最简洁的策略,是级间自适应权重参数保留比例和级间和层间自适应权重参数保留比例的比较基准。
具体的,本申请实施例中的级间自适应权重参数保留比例,此策略即对于提前终止机制分层深度卷积神经网络模型中的不同编码单元CU划分级别内,自适应地调整权重参数WP保留比例。
具体的,本申请实施例中的级间和层间自适应权重参数保留比例,此策略不仅自适应调整提前终止机制分层深度卷积神经网络模型每一级别的权重参数WP保留比例,还用类似方法自适应调整各级别内每一层的权重参数WP保留比例。
当提前终止机制分层深度卷积神经网络模型ETH-CNN中各处的权重参数WP保留比例确定后,即可训练出对应的提前终止机制分层深度卷积神经网络模型ETH-CNN模型,作为一个前提,各层的权重参数WP保留比例或者全为1(从头开始训练模型),或者是从一个已经训练好的模型继承得到(模型微调)。之后,随着模型中的参数不断迭代更新,所有层中的权重参数WP都被剪裁掉一部分,最终满足提前终止机制分层深度卷积神经网络模型中预设的保留比例。
在一些实施例中,上述方法中对不同的编码树单元中的编码单元分割采用不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测,包括:
当编码树单元输入提前终止机制分层深度卷积神经网络模型时,进行预处理得到预处理后的数据;
对预处理后的数据经过至少一个卷积层操作后提取纹理特征;预处理与卷积层操作均在并行的支路中进行;
卷积层操作完成后,将并行的支路的特征图伸直,连接成一个特征向量;
将特征向量再次在并行的支路中进行处理后,通过全连接层提取抽象特征,经至少一个全连接层处理后得到分层编码单元分割图;预处理包括:降采样和去均值
在一些实施例中,上述方法中将量化参数值作为一个外部特征,添加到至少一个全连接层中。
具体的,本申请实施例中当一个编码树单元CTU输入到ETH-CNN中,首先进行两部预处理,包括降采样和去均值化操作,以降低后续的计算复杂度;接下来,预处理后的数据,经过三个卷积层的操作,以提取较低级的纹理特征。此处,预处理和卷积都在三个并行的支路中进行,以便在不同空间尺度下提取特征,可以兼顾较大空间范围内的特征和局部细节特征。这里,三条支路表示编码单元CU划分的级别,即是否向下拆分一个64×64、32×32或16×16像素的编码单元CU。卷积操作完成后,将三条支路的特征图伸直,并连接成一个特征向量,此时的特征向量中即包含了不同空间尺度下提取的特征。之后,将特征向量再次在三条支路中进行处理,通过一系列全连接层,以提取较高级的抽象特征;考虑到量化参数QP对编码单元CU划分有着明显影响,此处将量化参数QP值也作为一个外部特征,添加到最后两个全连接层,使得提前终止机制分层深度卷积神经网络模型ETH-CNN能够较好地预测不同量化参数值下的编码单元划分。经全连接层处理后,即可得到分层编码单元CU划分图。总体而言,提前终止机制分层深度卷积神经网络模型ETH-CNN中的三条支路分别对应分层编码单元CU划分图的第1、2、3级,其中的每个二值化输出结果分别代表一个64×64、32×32或16×16像素的编码单元CU需要向下拆分的概率。
在一些实施例中,上述方法中,当编码树单元输入终止机制分层深度卷积神经网络模型时,
对于帧内模式,提前终止机制分层深度卷积神经网络模型的输入是原始帧中的一个亮度编码树单元;
对于帧间模式,提前终止机制分层深度卷积神经网络模型的输入是从快速预编码过程生成的残差帧中的亮度编码树单元。
具体的,本申请实施例中,对于帧内模式,提前终止机制分层深度卷积神经网络模型即ETH-CNN的输入是原始帧,原始帧是无失真的帧中的一个亮度CTU。对于帧间模式,ETH-CNN的输入是从快速预编码过程生成的残差帧中的亮度CTU,这是考虑到残差帧本身包含帧间时序相关性。
第二方面,本发明实施例提供了一种基于深度神经网络加速的快速块分割编码装置,包括:
确定模块201:用于根据至少一种网络剪裁策略,确定提前终止机制分层深度卷积神经网络模型中每层和每个级别上权重参数的保留比例;
具体的,本申请实施例中提供充分研究提前终止机制分层深度卷积神经网络模型中ETH-CNN中各部分的计算复杂度,通过研究提前终止机制分层深度卷积神经网络模型中每层和每个级别上权重参数的保留比例使其中最耗时的部分,即提前终止机制分层深度卷积神经网络模型中可训练层中的权重参数可以得到显著加速。
设置模块202:用于结合时间复杂度和率-失真性能,在至少一种网络裁剪策略中选出一种网络裁剪策略,通过设置不同的权重参数的保留比例,得到不同复杂度的提前终止机制分层深度卷积神经网络模型;
预测模块203:用于对不同的编码树单元中的编码单元分割采用不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测。
具体的,本申请实施例通过研究提前终止机制分层深度卷积神经网络模型ETH-CNN各部分的计算复杂度,发现超过97%的浮点运算来自于可训练层中的权重参数WP,进而,本申请提出的网络裁剪策略是三种可能的网络裁剪策略,以决定提前终止机制分层深度卷积神经网络模型ETH-CNN中每层和每个级别上权重参数WP的保留比例;综合考虑时间复杂度和率-失真RD性能,在三种网络裁剪策略中选出一种作为最优策略。在最优策略中,本申请实施例中通过设置七种不同的权重参数WP保留比例,可获得七个时间复杂度不同的提前终止机制分层深度卷积神经网络模型ETH-CNN;这些不同的模型ETH-CNN,在编码树单元CTU划分时间和编码的率-失性能之间提供了灵活的权衡,而且,每个编码树单元CTU中的编码单元CU划分,都可以采用任何一个ETH-CNN模型进行预测。
在一些实施例中,上述装置中的预测模块,用于对不同的编码树单元中的编码单元分割采用不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测,包括:
使得提前终止机制分层深度卷积神经网络模型的复杂度接近目标复杂度。
在一些实施例中,上述装置中的设置模块根据至少一种网络剪裁策略,确定提前终止机制分层深度卷积神经网络模型中每层和每个级别上权重参数的保留比例,包括以下三种策略:
恒定权重参数保留比例;
级间自适应权重参数保留比例;
级间和层间自适应权重参数保留比例。
具体的,本申请实施例中的恒定权重参数WP保留比例,即提前终止机制分层深度卷积神经网络模型中每层和每个级别上均采用相同的权重参数WP保留比例;这是一个最简洁和直接的策略,是其他策略的比较基准。
具体的,本申请实施例中的级间自适应权重参数保留比例,此策略即对于提前终止机制分层深度卷积神经网络模型中的不同编码单元CU划分级别内,自适应地调整权重参数WP保留比例。
具体的,本申请实施例中的级间和层间自适应权重参数保留比例,此策略不仅自适应调整提前终止机制分层深度卷积神经网络模型每一级别的权重参数WP保留比例,还用类似方法自适应调整各级别内每一层的权重参数WP保留比例。
当提前终止机制分层深度卷积神经网络模型ETH-CNN中各处的权重参数WP保留比例确定后,即可训练出对应的提前终止机制分层深度卷积神经网络模型ETH-CNN模型,作为一个前提,各层的权重参数WP保留比例或者全为1即从头开始训练模型,或者是从一个已经训练好的模型继承得到即模型微调。之后,随着模型中的参数不断迭代更新,所有层中的权重参数WP都被剪裁掉一部分,最终满足提前终止机制分层深度卷积神经网络模型中预设的保留比例。
在一些实施例中,上述装置中对不同的编码树单元中的编码单元分割采用不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测,包括:
当编码树单元输入提前终止机制分层深度卷积神经网络模型时,进行预处理得到预处理后的数据;
对所述预处理后的数据经过至少一个卷积层操作后提取纹理特征;所述预处理与卷积层操作均在并行的支路中进行;
所述卷积层操作完成后,将并行的支路的特征图伸直,连接成一个特征向量;
将所述特征向量再次在并行的支路中进行处理后,通过全连接层提取抽象特征,经至少一个全连接层处理后得到分层编码单元分割图。
具体的,本申请实施例中当一个编码树单元CTU输入到ETH-CNN中,首先进行两部预处理,包括降采样和去均值化操作,以降低后续的计算复杂度;接下来,预处理后的数据,经过三个卷积层的操作,以提取较低级的纹理特征。此处,预处理和卷积都在三个并行的支路中进行,以便在不同空间尺度下提取特征,可以兼顾较大空间范围内的特征和局部细节特征。这里,三条支路表示编码单元CU划分的级别,即是否向下拆分一个64×64、32×32或16×16像素的编码单元CU。卷积操作完成后,将三条支路的特征图伸直,并连接成一个特征向量,此时的特征向量中即包含了不同空间尺度下提取的特征。之后,将特征向量再次在三条支路中进行处理,通过一系列全连接层,以提取较高级的抽象特征;考虑到量化参数QP对编码单元CU划分有着明显影响,此处将量化参数QP值也作为一个外部特征,添加到最后两个全连接层,使得提前终止机制分层深度卷积神经网络模型ETH-CNN能够较好地预测不同量化参数值下的编码单元划分。经全连接层处理后,即可得到分层编码单元CU划分图。总体而言,提前终止机制分层深度卷积神经网络模型ETH-CNN中的三条支路分别对应分层编码单元CU划分图的第1、2、3级,其中的每个二值化输出结果分别代表一个64×64、32×32或16×16像素的编码单元CU需要向下拆分的概率。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (8)

1.一种基于深度神经网络加速的快速块分割编码方法,其特征在于,包括:
根据至少一种网络剪裁策略,确定提前终止机制分层深度卷积神经网络模型中每层和每个级别上权重参数的保留比例,其中,所述根据至少一种网络剪裁策略,确定提前终止机制分层深度卷积神经网络模型中每层和每个级别上权重参数的保留比例,包括以下三种策略:恒定权重参数保留比例、级间自适应权重参数保留比例和级间和层间自适应权重参数保留比例;
结合时间复杂度和率-失真性能,在至少一种网络裁剪策略中选出一种网络裁剪策略,通过设置不同的权重参数的保留比例,得到不同复杂度的提前终止机制分层深度卷积神经网络模型;
对不同的编码树单元中的编码单元分割采用所述不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测。
2.根据权利要求1所述的方法,其特征在于,所述对不同的编码树单元中的编码单元分割采用不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测,包括:
使得提前终止机制分层深度卷积神经网络模型的复杂度接近目标复杂度。
3.根据权利要求1所述的方法,其特征在于,所述对不同的编码树单元中的编码单元分割采用不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测,包括:
当编码树单元输入提前终止机制分层深度卷积神经网络模型时,进行预处理得到预处理后的数据;
对所述预处理后的数据经过至少一个卷积层操作后提取纹理特征;所述预处理与卷积层操作均在并行的支路中进行;
所述卷积层操作完成后,将并行的支路的特征图伸直,连接成一个特征向量;
将所述特征向量再次在并行的支路中进行处理后,通过全连接层提取抽象特征,经至少一个全连接层处理后得到分层编码单元分割图;其中,所述预处理包括:降采样和去均值。
4.根据权利要求3所述的方法,其特征在于,将量化参数值作为一个外部特征,添加到至少一个全连接层中;
所述预处理包括:降采样和去均值。
5.根据权利要求3所述的方法,其特征在于,所述当编码树单元输入终止机制分层深度卷积神经网络模型时,
对于帧内模式,提前终止机制分层深度卷积神经网络模型的输入是原始帧中的一个亮度编码树单元;
对于帧间模式,提前终止机制分层深度卷积神经网络模型的输入是从快速预编码过程生成的残差帧中的亮度编码树单元。
6.一种基于深度神经网络加速的快速块分割编码装置,其特征在于,包括:
确定模块:用于根据至少一种网络剪裁策略,确定提前终止机制分层深度卷积神经网络模型中每层和每个级别上权重参数的保留比例,其中,所述确定模块根据至少一种网络剪裁策略,确定提前终止机制分层深度卷积神经网络模型中每层和每个级别上权重参数的保留比例,包括以下三种策略:恒定权重参数保留比例、级间自适应权重参数保留比例和级间和层间自适应权重参数保留比例;
设置模块:用于结合时间复杂度和率-失真性能,在至少一种网络裁剪策略中选出一种网络裁剪策略,通过设置不同的权重参数的保留比例,得到不同复杂度的提前终止机制分层深度卷积神经网络模型;
预测模块:用于对不同的编码树单元中的编码单元分割采用所述不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测。
7.根据权利要求6所述的装置,其特征在于,预测模块,用于所述对不同的编码树单元中的编码单元分割采用所述不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测,包括:
使得提前终止机制分层深度卷积神经网络模型的复杂度接近目标复杂度。
8.根据权利要求6所述的装置,其特征在于,所述对不同的编码树单元中的编码单元分割采用不同复杂度的提前终止机制分层深度卷积神经网络模型进行预测,包括:
当编码树单元输入提前终止机制分层深度卷积神经网络模型时,进行预处理得到预处理后的数据;
对所述预处理后的数据经过至少一个卷积层操作后提取纹理特征;所述预处理与卷积层操作均在并行的支路中进行;
所述卷积层操作完成后,将并行的支路的特征图伸直,连接成一个特征向量;
将所述特征向量再次在并行的支路中进行处理后,通过全连接层提取抽象特征,经至少一个全连接层处理后得到分层编码单元分割图。
CN202010268700.4A 2020-04-08 2020-04-08 一种基于深度神经网络加速的快速块分割编码方法和装置 Active CN111556316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010268700.4A CN111556316B (zh) 2020-04-08 2020-04-08 一种基于深度神经网络加速的快速块分割编码方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010268700.4A CN111556316B (zh) 2020-04-08 2020-04-08 一种基于深度神经网络加速的快速块分割编码方法和装置

Publications (2)

Publication Number Publication Date
CN111556316A CN111556316A (zh) 2020-08-18
CN111556316B true CN111556316B (zh) 2022-06-03

Family

ID=72007355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010268700.4A Active CN111556316B (zh) 2020-04-08 2020-04-08 一种基于深度神经网络加速的快速块分割编码方法和装置

Country Status (1)

Country Link
CN (1) CN111556316B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113225552B (zh) * 2021-05-12 2022-04-29 天津大学 一种智能快速帧间编码方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109982092A (zh) * 2019-04-28 2019-07-05 华侨大学 基于多分支循环卷积神经网络的hevc帧间快速方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10231613B4 (de) * 2002-07-12 2004-12-30 Atvisican Ag Verfahren zum Komprimieren und Dekomprimieren von Videobilddaten od. dgl.
US8934538B2 (en) * 2011-10-17 2015-01-13 Google Inc. Rate-distortion-complexity optimization of video encoding
EP3886433A3 (en) * 2013-03-07 2021-10-27 Telefonaktiebolaget LM Ericsson (publ) Video transcoding
CN107481209B (zh) * 2017-08-21 2020-04-21 北京航空航天大学 一种基于卷积神经网络的图像或视频质量增强方法
CN108495129B (zh) * 2018-03-22 2019-03-08 北京航空航天大学 基于深度学习方法的块分割编码复杂度优化方法及装置
US20190045195A1 (en) * 2018-03-30 2019-02-07 Intel Corporation Reduced Partitioning and Mode Decisions Based on Content Analysis and Learning
CN109361617B (zh) * 2018-09-26 2022-09-27 中国科学院计算机网络信息中心 一种基于网络包载荷的卷积神经网络流量分类方法及系统
CN109635662B (zh) * 2018-11-14 2022-06-21 浙江科技学院 一种基于卷积神经网络的道路场景语义分割方法
CN110569961A (zh) * 2019-08-08 2019-12-13 合肥图鸭信息科技有限公司 一种神经网络训练方法、装置及终端设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109982092A (zh) * 2019-04-28 2019-07-05 华侨大学 基于多分支循环卷积神经网络的hevc帧间快速方法

Also Published As

Publication number Publication date
CN111556316A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN111738401A (zh) 模型优化方法、分组压缩方法、相应的装置、设备
CN114286093A (zh) 一种基于深度神经网络的快速视频编码方法
CN103517069A (zh) 一种基于纹理分析的hevc帧内预测快速模式选择方法
CN108924558B (zh) 一种基于神经网络的视频预测编码方法
CN111429497B (zh) 基于深度学习和多特征融合的自适应cu拆分决策方法
CN104683804A (zh) 基于视频内容特征的参数自适应多维码率控制方法
CN112929658B (zh) 一种针对vvc的基于深度强化学习的快速cu分区方法
CN111479110B (zh) 针对h.266/vvc的快速仿射运动估计方法
CN112329923B (zh) 一种模型压缩方法、装置、电子设备及可读存储介质
CN111556316B (zh) 一种基于深度神经网络加速的快速块分割编码方法和装置
CN1992898A (zh) 一种低复杂度的视频码率控制方法
CN111800642B (zh) Hevc帧内角度模式选择方法、装置、设备及可读存储介质
CN107690069B (zh) 一种数据驱动的级联视频编码方法
CN101263662A (zh) 自适应影响区域滤波器
CN117480777A (zh) 编码方法、解码方法、编码器、解码器和解码系统
CN109035178B (zh) 一种应用于图像去噪的多参数取值调优方法
CN108989801B (zh) 一种基于时空特性的自适应模式选择快速方法
CN116709409A (zh) 基于知识蒸馏的轻量化频谱预测方法
CN117494762A (zh) 学生模型的训练方法、素材处理方法、装置及电子设备
CN111260049A (zh) 一种基于国产嵌入式系统的神经网络实现方法
CN113225552B (zh) 一种智能快速帧间编码方法
CN111901592B (zh) 预测编码神经网络权重更新方法及装置
US11039132B2 (en) Code amount estimation device, code amount estimation method, and code amount estimation program
CN108200442A (zh) 一种基于神经网络的hevc帧内编码单元划分方法
CN112699914B (zh) 一种基于异构复合主干的目标检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant