CN111726613B - 一种基于最小可觉差的视频编码优化方法 - Google Patents

一种基于最小可觉差的视频编码优化方法 Download PDF

Info

Publication number
CN111726613B
CN111726613B CN202010609415.4A CN202010609415A CN111726613B CN 111726613 B CN111726613 B CN 111726613B CN 202010609415 A CN202010609415 A CN 202010609415A CN 111726613 B CN111726613 B CN 111726613B
Authority
CN
China
Prior art keywords
video
value
convolutional
layer
convolutional layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010609415.4A
Other languages
English (en)
Other versions
CN111726613A (zh
Inventor
赵铁松
王郑
袁迪
陈炜玲
暨书逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202010609415.4A priority Critical patent/CN111726613B/zh
Publication of CN111726613A publication Critical patent/CN111726613A/zh
Application granted granted Critical
Publication of CN111726613B publication Critical patent/CN111726613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及一种基于最小可觉差的视频编码优化方法,包括以下步骤:步骤S1:对已经压缩过的原始视频数据进行预处理,剔除不具备参考价值的平坦帧;步骤S2:根据预处理后的视频及其初始QP,采用VGG神经网络,以分类任务的形式预测每个视频帧低于JND阈值的最优QP值;步骤S3:根据得到的最优QP值,作为原始视频的新QP值进行重新编码。与原视频相比,本发明能够在在不影响视频感知质量的情况下达到更低的编码比特率。

Description

一种基于最小可觉差的视频编码优化方法
技术领域
本发明涉及视频编码技术领域,具体涉及一种基于最小可觉差的视频编码优化方法。
背景技术
由于近几年多媒体的爆炸性需求,视频流量的快速增长导致了对视频压缩编码的需求增长,而带宽是有限的,大量的视频流对网络传输来说是巨大的负担。然而,压缩编码往往伴随着视频感知质量的降低。另一方面,随着视频采集、传输和显示技术的迅速发展,用户对更好的体验有更高的要求。
当前以信号质量为核心的视频压缩已经有了非常多方法,使得进一步推进压缩比存在一定困难。目前在图像和视频质量评价中引入自上而下的评价方法,特别是JND相关的方法,有助于促进视频编码的进一步提升。因此一种比较可行的方法是我们将视频定义在JND范围内进一步压缩,也就相当于在感知质量不存在变化的情况下最大地压缩了视频比特率。从节省比特率的角度来看,量化编码是一种常用的方法,量化参数(QP)反映空间细节的压缩程度。在两个预先感知的质量水平之间,JND点由QP值表示。 在所有的JND点中,第一个JND点提供了从感知无损到感知有损的过渡点。利用第一个JND点和QP值可以帮助我们以最佳的感知质量达到最低的比特率。如果能够较好地预测这个JND点,就可以利用这个JND点和QP值对原视频最大程度地压缩且不会产生失真。
发明内容
有鉴于此,本发明的目的在于提供一种基于最小可觉差的视频编码优化方法,在不影响视频感知质量的情况下达到更低的编码比特率。
为实现上述目的,本发明采用如下技术方案:
一种基于最小可觉差的视频编码优化方法,包括以下步骤:
步骤S1:对已经压缩过的原始视频数据进行预处理,剔除不具备参考价值的平坦帧;
步骤S2:根据预处理后的视频及其初始QP,采用VGG神经网络,以分类任务的形式预测每个视频帧低于JND阈值的最优QP值;
步骤S3:根据得到的最优QP值,作为原始视频的新QP值进行重新编码。
进一步的,所述步骤S1具体为:
步骤S11:对原始视频数据,通过在活动视频窗口上方和下方填充黑色横条缩放到预设比例;
步骤S12:采用Canny算子提取每个视频帧的边缘图谱,并封装存在有效边缘信息的对应图谱成块;
步骤S13:提取原始视频数据中Y通道的像素信息并将它们裁剪成N × N大小的块。
进一步的,所述边缘图谱块包括图像的边缘信息; 如果一个帧图像中的边缘图谱块总数小于阈值,那么该帧会被丢弃。
进一步的,所述步骤S2具体为:
步骤S21:构建VGG神经网络;
步骤S22:引入训练效果评价指标accuracy,对模型训练过程进行实时评价,实时保存训练模型和数据;
步骤S23:引入步骤S23训练的模型对预处理后的原始视频数据进行预测,使用accuracy评价预测结果,得到训练好的预测模型
步骤S24:训练好的预测模型将用于实际的编码任务中,使用模型预测每个视频的最佳QP值。
进一步的,所述VGG神经网络包括依次设置的第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层、第二最大池化层、第五卷积层、第六卷积层、第七卷积层、第三最大池化层、第八卷积层、第四最大池化层和三个全连接层。
进一步的,所述第一卷积层和第二卷积层为含有128个卷积核的卷积层;所述第三卷积层、第四卷积层为含有256个卷积核的卷积层;所述第五卷积层、第六卷积层、第七卷积层和第八卷积层为含有512个卷积核的卷积层。
进一步的,所述前两个全连接层有4096个神经元;所述第三个全连接层包含一个神经元,用于进行QP预测。
进一步的,所述VGG神经网络训练过程中使用交叉熵函数作为损失函数,其函数表达式如下:
Figure 100002_DEST_PATH_IMAGE002
其中
Figure 100002_DEST_PATH_IMAGE004
Figure 100002_DEST_PATH_IMAGE006
分别代表样本标签和预测结果。
进一步的,所述步骤S3具体为:
步骤S31:将每个视频帧的所有块预测的QP值求均值,作为该视频帧编码的QP值,其计算方式如下:
Figure 100002_DEST_PATH_IMAGE008
其中
Figure 100002_DEST_PATH_IMAGE010
代表一个视频帧中每个块的预测QP值,
Figure 100002_DEST_PATH_IMAGE012
代表每个视频帧平均后的QP值,i代表视频帧的序号;
步骤S32:根据步骤S31计算得到的
Figure 156796DEST_PATH_IMAGE012
来对每一个视频帧进行编码。
本发明与现有技术相比具有以下有益效果:
本发明能够在不影响视频感知质量的情况下达到更低的编码比特率。
附图说明
图1是本发明一实施例中方法流程图;
图2是本发明一实施例中基于VGG神经网络的最佳QP值预测模型框架图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于最小可觉差的视频编码优化方法,包括以下步骤:
步骤S1:对已经压缩过的原始视频数据进行预处理,剔除不具备参考价值的平坦帧;
步骤S2:根据预处理后的视频及其初始QP,采用VGG神经网络,以分类任务的形式预测每个视频帧低于JND阈值的最优QP值;
步骤S3:根据得到的最优QP值,将预测到的QP值应用到HEVC编码器,作为原始视频的新QP值进行重新编码。
在本实施例中,所述步骤S1具体为:
步骤S11:对原始视频数据,通过在活动视频窗口上方和下方填充黑色横条缩放到16:9比例;
步骤S12:采用Canny算子提取每个视频帧的边缘图谱,并封装存在有效边缘信息的对应图谱成块。 如果一个帧图像中的边缘图谱块总数小于阈值,那么该帧会被丢弃;
步骤S13:提取原始视频数据中Y通道的像素信息并将它们裁剪成64 × 64大小的块。
在本实施例中,最佳QP值预测模型如图2所示,模型的输入是经过预处理的视频块,该视频块的最佳QP值作为输出,
在本实施例中,所述步骤S2具体为:
步骤S21:构建VGG神经网络;
步骤S22:引入训练效果评价指标accuracy,对模型训练过程进行实时评价,实时保存训练模型和数据;
步骤S23:引入步骤S23训练的模型对预处理后的原始视频数据进行预测,使用accuracy评价预测结果,得到训练好的预测模型;
步骤S24:训练好的预测模型将用于实际的编码任务中,使用模型预测每个视频的最佳QP值。
在本实施例中,网络结构如图2所示。先是两个含有128个卷积核的卷积层和一个最大池化层,然后是两个含有256个卷积核的卷积层和一个最大池化层,然后是四个含有512个卷积核的卷积层,其中第三个含有512个卷积核的卷积层和第四个含有512个卷积核的卷积层后面分别都又一个最大池化层。 卷积核大小为3×3. 最后,有三个完全连接的层:前两个全连接层有4096个神经元,第三个进行QP预测,因此只包含一个神经元。训练过程中使用交叉熵函数作为损失函数,其函数表达式如下:
Figure 73936DEST_PATH_IMAGE002
其中
Figure 729039DEST_PATH_IMAGE004
Figure 999615DEST_PATH_IMAGE006
分别代表样本标签和预测结果。
在本实施例中,所述步骤S3具体为:
步骤S31:将每个视频帧的所有块预测的QP值求均值,作为该视频帧编码的QP值,其计算方式如下:
Figure DEST_PATH_IMAGE013
其中
Figure 689353DEST_PATH_IMAGE010
代表一个视频帧中每个块的预测QP值,
Figure 511816DEST_PATH_IMAGE012
代表每个视频帧平均后的QP值,i代表视频帧的序号;
步骤S32:根据步骤S31计算得到的
Figure 654215DEST_PATH_IMAGE012
来对每一个视频帧进行编码。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (9)

1.一种基于最小可觉差的视频编码优化方法,其特征在于,包括以下步骤:
步骤S1:对已经压缩过的原始视频数据进行预处理,剔除不具备参考价值的平坦帧;
步骤S2:根据预处理后的视频及其初始QP,采用VGG神经网络,以分类任务的形式预测每个视频帧低于JND阈值的最优QP值;
步骤S3:根据得到的最优QP值,作为原始视频的新QP值进行重新编码。
2.根据权利要求1所述的基于最小可觉差的视频编码优化方法,其特征在于,所述步骤S1具体为:
步骤S11:对原始视频数据,通过在活动视频窗口上方和下方填充黑色横条缩放到预设比例;
步骤S12:采用Canny算子提取每个视频帧的边缘图谱,并封装存在有效边缘信息的对应图谱成块;
步骤S13:提取原始视频数据中Y通道的像素信息并将它们裁剪成N × N大小的块。
3.根据权利要求2所述的基于最小可觉差的视频编码优化方法,其特征在于,所述图谱成块包括图像的边缘信息;如果一个帧图像中的图谱成块总数小于阈值,那么该帧会被丢弃。
4.根据权利要求1所述的基于最小可觉差的视频编码优化方法,其特征在于,所述步骤S2具体为:
步骤S21:构建VGG神经网络;
步骤S22:引入训练效果评价指标accuracy,对模型训练过程进行实时评价,实时保存训练模型和数据;
步骤S23:引入步骤S22训练的模型对预处理后的原始视频数据进行预测,使用accuracy评价预测结果,得到训练好的预测模型;
步骤S24:训练好的预测模型将用于实际的编码任务中,使用模型预测每个视频的最佳QP值。
5.根据权利要求4所述的基于最小可觉差的视频编码优化方法,其特征在于,所述VGG神经网络包括依次设置的第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层、第二最大池化层、第五卷积层、第六卷积层、第七卷积层、第三最大池化层、第八卷积层、第四最大池化层和三个全连接层。
6.根据权利要求5所述的基于最小可觉差的视频编码优化方法,其特征在于,所述第一卷积层和第二卷积层为含有128个卷积核的卷积层;所述第三卷积层、第四卷积层为含有256个卷积核的卷积层;所述第五卷积层、第六卷积层、第七卷积层和第八卷积层为含有512个卷积核的卷积层。
7.根据权利要求5所述的基于最小可觉差的视频编码优化方法,其特征在于,所述三个全连接层的前两个全连接层有4096个神经元;所述三个全连接层的第三个全连接层包含一个神经元,用于进行QP预测。
8.根据权利要求4所述的基于最小可觉差的视频编码优化方法,其特征在于,所述VGG神经网络训练过程中使用交叉熵函数作为损失函数,其函数表达式如下:
Figure DEST_PATH_IMAGE002
其中
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE006
分别代表样本标签和预测结果。
9.根据权利要求1所述的基于最小可觉差的视频编码优化方法,其特征在于,所述步骤S3具体为:
步骤S31:将每个视频帧的所有块预测的QP值求均值,作为该视频帧编码的QP值,其计算方式如下:
Figure DEST_PATH_IMAGE008
其中
Figure DEST_PATH_IMAGE010
代表一个视频帧中每个块的预测QP值,
Figure DEST_PATH_IMAGE012
代表每个视频帧平均后的QP值,i代表视频帧的序号;
步骤S32:根据步骤S31计算得到的
Figure 826367DEST_PATH_IMAGE012
来对每一个视频帧进行编码。
CN202010609415.4A 2020-06-30 2020-06-30 一种基于最小可觉差的视频编码优化方法 Active CN111726613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010609415.4A CN111726613B (zh) 2020-06-30 2020-06-30 一种基于最小可觉差的视频编码优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010609415.4A CN111726613B (zh) 2020-06-30 2020-06-30 一种基于最小可觉差的视频编码优化方法

Publications (2)

Publication Number Publication Date
CN111726613A CN111726613A (zh) 2020-09-29
CN111726613B true CN111726613B (zh) 2021-07-27

Family

ID=72571822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010609415.4A Active CN111726613B (zh) 2020-06-30 2020-06-30 一种基于最小可觉差的视频编码优化方法

Country Status (1)

Country Link
CN (1) CN111726613B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112714322B (zh) * 2020-12-28 2023-08-01 福州大学 一种面向游戏视频的帧间参考优化方法
CN113784147B (zh) * 2021-08-10 2023-06-09 浙江万里学院 一种基于卷积神经网络的高效视频编码方法及系统
CN114302139A (zh) * 2021-12-10 2022-04-08 阿里巴巴(中国)有限公司 视频编码方法、视频解码方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107197260A (zh) * 2017-06-12 2017-09-22 清华大学深圳研究生院 基于卷积神经网络的视频编码后置滤波方法
CN107770517A (zh) * 2017-10-24 2018-03-06 天津大学 基于图像失真类型的全参考图像质量评价方法
CN108780499A (zh) * 2016-03-09 2018-11-09 索尼公司 基于量化参数的视频处理的系统和方法
CN109819252A (zh) * 2019-03-20 2019-05-28 福州大学 一种不依赖gop结构的量化参数级联方法
CN111247797A (zh) * 2019-01-23 2020-06-05 深圳市大疆创新科技有限公司 用于图像编解码的方法和装置
CN111314704A (zh) * 2018-12-12 2020-06-19 中国科学院深圳先进技术研究院 图像级jnd阈值的预测方法、装置、设备及存储介质
CN111314698A (zh) * 2020-02-27 2020-06-19 浙江大华技术股份有限公司 一种图像编码处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2015261734A1 (en) * 2015-11-30 2017-06-15 Canon Kabushiki Kaisha Method, apparatus and system for encoding and decoding video data according to local luminance intensity

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108780499A (zh) * 2016-03-09 2018-11-09 索尼公司 基于量化参数的视频处理的系统和方法
CN107197260A (zh) * 2017-06-12 2017-09-22 清华大学深圳研究生院 基于卷积神经网络的视频编码后置滤波方法
CN107770517A (zh) * 2017-10-24 2018-03-06 天津大学 基于图像失真类型的全参考图像质量评价方法
CN111314704A (zh) * 2018-12-12 2020-06-19 中国科学院深圳先进技术研究院 图像级jnd阈值的预测方法、装置、设备及存储介质
CN111247797A (zh) * 2019-01-23 2020-06-05 深圳市大疆创新科技有限公司 用于图像编解码的方法和装置
CN109819252A (zh) * 2019-03-20 2019-05-28 福州大学 一种不依赖gop结构的量化参数级联方法
CN111314698A (zh) * 2020-02-27 2020-06-19 浙江大华技术股份有限公司 一种图像编码处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Visual JND: A Perceptual Measurement in Video Coding;Di Yuan et al.;《IEEE Access》;20190304;第7卷;全文 *
面向视频压缩的显著性协同检测JND模型;李承欣;《计算机系统应用》;20161130;第25卷(第11期);全文 *

Also Published As

Publication number Publication date
CN111726613A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111726613B (zh) 一种基于最小可觉差的视频编码优化方法
CN110139109B (zh) 图像的编码方法及相应终端
CN110062234B (zh) 一种基于区域恰可察觉失真的感知视频编码方法
US9282330B1 (en) Method and apparatus for data compression using content-based features
CN110198444B (zh) 视频帧编码方法、视频帧编码设备及具有存储功能的装置
CN103313047B (zh) 一种视频编码方法及装置
CN106937116A (zh) 基于随机训练集自适应学习的低复杂度视频编码方法
CN114513655A (zh) 直播视频质量评价方法、视频质量的调整方法及相关装置
CN1992898A (zh) 一种低复杂度的视频码率控制方法
CN103561270A (zh) 一种用于hevc的编码控制方法及装置
CN107690069B (zh) 一种数据驱动的级联视频编码方法
CN114386595B (zh) 一种基于超先验架构的sar图像压缩方法
CN116916036A (zh) 视频压缩方法、装置及系统
CN115941943A (zh) 一种hevc视频编码方法
CN101472182B (zh) 视觉无损视频数据压缩
CN113822954A (zh) 一种面向资源约束下人机协同场景的深度学习图像编码方法
CN103002282B (zh) 一种颜色数目自适应决策方法和图像压缩方法
CN111479286B (zh) 一种边缘计算系统减少通信流量的数据处理方法
CN110677644A (zh) 一种视频编码、解码方法及视频编码帧内预测器
CN116233438B (zh) 利用加权算法的数据预测采集系统
CN112001854A (zh) 一种编码图像的修复方法及相关系统和装置
CN116155873A (zh) 一种云边协同的图像处理方法、系统、设备及介质
CN109618155B (zh) 压缩编码方法
CN112527860B (zh) 一种提高台风轨迹预测的方法
CN111614962B (zh) 一种基于区域块级jnd预测的感知图像压缩方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant