CN110351561A - 一种用于视频编码优化的高效强化学习训练方法 - Google Patents

一种用于视频编码优化的高效强化学习训练方法 Download PDF

Info

Publication number
CN110351561A
CN110351561A CN201810298220.5A CN201810298220A CN110351561A CN 110351561 A CN110351561 A CN 110351561A CN 201810298220 A CN201810298220 A CN 201810298220A CN 110351561 A CN110351561 A CN 110351561A
Authority
CN
China
Prior art keywords
network
parameter
coding
intensified learning
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810298220.5A
Other languages
English (en)
Other versions
CN110351561B (zh
Inventor
梅元刚
陈宇
金星
朱政
丁丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Microframe Information Technology Co Ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810298220.5A priority Critical patent/CN110351561B/zh
Publication of CN110351561A publication Critical patent/CN110351561A/zh
Application granted granted Critical
Publication of CN110351561B publication Critical patent/CN110351561B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种用于视频编码优化的高效强化学习训练方法,用于解决强化学习在优化视频编码的训练过程中收敛速度慢和训练不稳定的问题。本发明通过首先采用进化算法得到较好的初始策略,继而采用监督学习方法初始化强化学习网络参数,减少随机初始化导致的训练初始阶段收敛慢的问题。在强化学习训练过程中,保存较好的策略,并以一定的概率随机采样好的策略,减少强化学习在探索过程中的盲目性导致的坏策略过多的问题,提高训练的收敛速度和稳定性。在强化学习训练一定阶段后,系统可能陷入局部最优,导致视频编码压缩效率提升有限。本发明每隔一定阶段,对策略网络的特定参数进行小幅度的随机扰动,并提高系统探索的范围,进一步提高视频编码的压缩效率。

Description

一种用于视频编码优化的高效强化学习训练方法
技术领域
本发明涉及视频编码和强化学习,特别是一种用于视频编码优化的高效强化学习训练方法
背景技术
随着多媒体数字视频应用的不断发展和人们对视频云计算需求的不断提高,原始视频信源的数据量以使现有传输网络带宽和存储资源无法承受。因而,视频信号的压缩已成为目前国内外学术研究和工业应用的热点之一。视频压缩,也称视频编码,其目的是消除视频信号间存在的冗余信息。至今,国内外标准化组织已相继制定了多种不同的视频编码标准。自H.261视频编码标准以来,主流的视频编码标准均采用“基于块的预测和变换”的混合编码框架,即输入的视频信号经过编码器中预测、变换、量化、扫描、熵编码等编码技术处理后,最后输出比特流,以备传输或存储。经过几十年的发展,视频编码标准中的工具日趋精细和复杂,基于传统混合编码框架要取得压缩效率的显著提升变得愈发困难。
深度神经网络是人工智能的一个重要分支,从20世纪80年代以来,神经网络提供的识别和预测能力一直在提高,在图像与视频、语音与语言处理等领域表现尤为出色。深度学习在计算机视觉领域(如分类、识别等)的成功也带动了一些视频图像处理领域的发展,基于深度学习的图像超分辨率、边缘检测技术迅速发展,性能提升非常显著。受深度学习在图像处理领域的巨大优势启发,可以将深度学习引入视频或图像编码框架中以提升编码效率。目前学术界和业界关于深度学习在视频或图像编码中的应用大体有以下几类:一、系统级地改造图像编码框架;二、基于传统的混合编码框架,改造其中的部分模块,比如熵编码、变换、环路滤波、亚像素插值等;三、前处理或后处理;四、视频编码快速算法。其中第一类和第二类技术需要改变现有标准,有望在将来新的标准中予以实施,但对于工业界还比较遥远。第三类技术着重于提升主观质量。第四类技术以牺牲一定压缩效率为代价,着重于加快编码速度。
在现有主流的视频图像编码标准基础上提升压缩效率,与生态兼容,具有更好的现实意义和产业价值。视频图像内容具有极大的多样性,现有主流的视频编码标准提供给编码器设计很大的灵活性,针对不同图像内容通过调节一些编码编码策略参数,有很大的压缩效率提升空间。然而,这些策略参数通过传统的方法求解全局最优值的复杂度为NP问题,而且无法大规模生成标签来进行训练,因此常规的监督学习方法无法实施。
强化学习是机器学习中的一个领域,它强调如何基于环境而行动,以取得最大化的预期利益。近年来,强化学习的大型研究层见迭出,以阿尔法围棋(AlphaGo)为代表的成果不仅轰动了学术界,也吸引了媒体的目光。
理论上讲,一个强大的、高性能的强化学习系统应该能够在优化视频编码压缩效率中取得很好的效果。但不幸的事,强化学习目前还有很多局限。一、强化学习采样效率很低,如雅达利游戏每秒能够运行60帧,但需要相当于83个小时的游戏时间,才能达到人类的表现。强化学习所需的训练样本往往比预想的要多。二、强化学习很容易陷入局部最优,强化学习看到的是一个状态向量、自己即将输出的动作向量和之前获得的奖励,系统缺乏先验信息来学习我们所期待的反应,强化学习更倾向于找到最偷懒的局部最优解。三、强化学习中的探索和利用困境,数据来源于系统选择的策略,如果探索的过多,就会得到大量无法有效提取信息的无用数据。但如果过多地利用学习到的策略,则无法得到最好的策略。
特别是在视频编码这种环境模型复杂,环境反馈相对较慢的的情况下,进行强化学习训练,需要根据实际情况采用特定的训练方法,才能在可接受的时间内取得可接受的学习效果。否则,复杂的视频编码过程和盲目的探索将导致需要的大量训练样本,和每个样本所需的编码时间,将导致训练时间长到无法实际使用。而且,局部最优将导致无法取得预期的压缩效率。
发明内容
有鉴于此,本发明提出一种用于视频编码优化的高效强化学习训练方法。本发明解决了传统方法无法获取全局最优解,以及机器学习方法难以生成标签来进行训练的问题。针对传统的强化学习在网络参数比较多的时候收敛特别慢的问题,本发明提出一种预训练的方法加快算法的收敛。在强化学习训练过程中,保存较好的策略,并以一定的概率随机采样好的策略,减少强化学习在探索过程中的盲目性导致的坏策略过多的问题,提高训练的收敛速度。在强化学习训练一定阶段后,系统可能陷入局部最优,导致视频编码压缩效率提升有限。本发明每隔一定阶段,对策略网络的特定参数进行小幅度的随机扰动,并提高系统探索的范围,进一步提高视频编码的压缩效率。
为了达到上述目的,本发明采用的而技术方案为,
步骤(1),创建预测网络和判别网络。预测网络负责生成编码策略参数最优值;判别网络负责判别预测网络生成的预测值好坏。预测网络和判别网络为若干个卷积层级联的卷积神经网络,加上全连接层构成。预测网络输入为视频图像的特征值,包括但不限于原始像素值,以及编码处理过程中产生的特征值;预测网络输出为编码策略参数p。判别网络的输入为预测网络输出的编码策略参数p,以及对应的视频图像特征值;输出为判别编码策略参数好坏的实数值V。
步骤(2),进化算法优化初始策略参数。负责对训练集中的每组图像数据,生成优化的初始编码策略参数,以及编码结果评分。进化算法生成的优化编码策略参数和编码结果评分用于预测网络和判别网络的监督学习初始化网络参数。进化算法对每组视频图像,调用进化算法,得到对应的编码策略参数a;将编码策略参数a输入编码器,执行编码过程得到评分值R。通过R对a进行调整。迭代到指定终止条件,输出最终的a和R。
步骤(3),预测网络初始化。负责根据进化算法的编码策略参数结果进行监督学习,得到预测网络的初始化参数。从训练集中取出一组图像以及进化算法得到的最优编码参数a,输入到预测网络,得到一组编码参数p;通过最小化|a-p|2得到最优化的预测网络的参数θA;将θA更新到预测网络;迭代到指定终止条件。
步骤(4),判别网络初始化。负责根据进化算法的编码策略参数和评分值结果进行监督学习,得到判别网络的初始化参数。从训练集中取出一组图像以及进化算法得到的编码策略参数a和评分值R;将图像特征值和对应编码参数a输入到判别网络,得到一个评分估计V;通过最小化|R-V|2得到最优化的判别网络的参数θC;将θC更新到判别网络;迭代到指定终止条件。
步骤(5),强化学习训练。负责训练生成预测网络的最优化网络参数。将一组图像特征值输入到预测网络,得到一组编码策略参数p;将编码策略参数p输入编码器,执行编码过程得到评分值R;将编码策略参数p和对应的图像特征值输入到判别网络,得到评分值V;通过最小化|R-V|2得到最优化的判别网络的参数θC;通过最大化V得到最优的预测网络的参数θA;将θC和θA分别更新到预测网络和判别网络;迭代到指定终止条件。
步骤(6)优化利用率。在训练过程中,对每帧保存最好的k个策略,并以概率h采样。采样概率h随着视频编码的编码策略逐渐变好而逐渐减少。从而在训练前期能够更多地利用已发现的好策略进行参数更新,减少大量不好的探索,从而增加好策略的利用率。在训练后期,预测网络已经可以发现更多好的策略,系统随着采样概率h的减少,更多地利用预测网络发现的策略,系统能够更好地选择编码策略来提高视频编码的压缩效率。
步骤(7),优化探索率。在训练进行一定阶段后,训练趋于稳定时,采用较小的幅度对预测网络的最后一层进行随机扰动,以帮助预测网络有机会跳出局部最优,以更多的形式进行探索。同时,增加强化学习的策略的探索范围和概率,使得系统能够学到更好的编码策略。
本发明的有益效果是:本发明专利的用于视频编码优化的高效强化学习训练方法,1.针对不同图像内容最优化关键策略参数,本发明解决了传统方法无法获取全局最优解,以及机器学习方法难以生成标签来进行训练的问题。2.针对传统的强化学习在网络参数比较多的时候收敛特别慢的问题,本发明提出了一种进化算法预训练的方法加快算法的收敛。3.在训练初期通过提供高好策略利用率,减少强化学习在探索过程中的盲目性导致的坏策略过多的问题,提高训练的收敛速度。4.在训练后期通过优化探索率增加强化学习的策略的探索范围和概率,使得系统能够学到更好的编码策略。
附图说明
图1为用于视频编码优化的高效强化学习训练方法总体流程图;
图2为进化算法步骤示意图;
图3为预测网络初始化步骤示意图;
图4为判别网络初始化步骤示意图;
图5为强化学习训练步骤示意图。
具体实施方式
下面将结合说明书附图,以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明的用于视频编码优化的高效强化学习训练方法,具体优化了应用于视频编码优化的强化学习训练过程中的各个环节,以加快收敛速度和增强系统学习结果,包括以下步骤,
步骤(1),创建预测网络和判别网络。预测网络负责生成编码策略参数最优值;判别网络负责判别预测网络生成的预测值好坏。预测网络和判别网络为若干个卷积层级联的卷积神经网络,加上全连接层构成。预测网络输入为视频图像的特征值;预测网络输出为编码策略参数p。判别网络的输入为预测网络输出的编码策略参数p,以及对应的视频图像特征值;输出为判别编码策略参数好坏的实数值V。
其中,视频图像特征值包括但不限于原始像素值,以及编码处理过程中产生的特征值。本发明的实施例中,采用视频图像原始像素值。
其中,预测网络输出的编码策略参数,为影响编码压缩效率,且对不同图像内容具有适配性的关键策略参数,包括但不限于各个图像分块的量化参数增量(delta QP),或者率失真代价函数中的拉格朗日乘子(lambda),或者图像组级别的码控控制分配参数等。在本发明的实施例中,对图像不同分块的delta QP进行调优。
其中,视频编码包括但不限于主流视频或者图像编码标准,如H.264,H.265,JPEG。在本发明的实施例中,对H.265视频编码标准的I帧编码进行调优。
步骤(2),进化算法优化初始策略参数。负责对训练集中的每组图像数据,生成优化的初始编码策略参数,以及编码结果评分。进化算法生成的优化编码策略参数和编码结果评分用于预测网络和判别网络的监督学习初始化网络参数。进化算法对每组视频图像,调用进化算法,得到对应的编码策略参数a;将编码策略参数a输入编码器,执行编码过程得到评分值R。通过R对a进行调整。迭代到指定终止条件,输出最终的a和R。
其中,进化算法包括但不仅限于:遗传算法,差分进化算法,模拟退火算法,粒子群优化算法,蚁群算法。在本发明的一个实施实例中,采用差分进化算法。
其中,编码结果评分,包括但不限于根据码率和质量评价得到的综合评分。在本发明的实施例中,对每个图像和对应的量化参数增量(delta QP)执行4次编码,设定4个不同的码率值,得到码率和平均结构相似性指标(SSIM),并与上一组策略参数产生的编码结果计算BD率(BDRate),将-BDRate值作为评分。
其中,迭代终止条件,包括但不限于迭代次数,以及两次评分值R之差小于阈值T1。
步骤(3),预测网络初始化。负责根据进化算法的编码策略参数结果进行监督学习,得到预测网络的初始化参数。从训练集中取出一组图像以及进化算法得到的最优编码参数a,输入到预测网络,得到一组编码参数p;通过最小化|a-p|2得到最优化的预测网络的参数θA;将θA更新到预测网络;迭代到指定终止条件。
其中,迭代终止条件包括但不限于迭代次数。
步骤(4),判别网络初始化。负责根据进化算法的编码策略参数和评分值结果进行监督学习,得到判别网络的初始化参数。从训练集中取出一组图像以及进化算法得到的编码策略参数a和评分值R;将图像特征值和对应编码参数a输入到判别网络,得到一个评分估计V;通过最小化|R-V|2得到最优化的判别网络的参数θC;将θC更新到判别网络;迭代到指定终止条件。
其中,迭代终止条件包括但不限于迭代次数。
步骤(5),强化学习训练。负责训练生成预测网络的最优化网络参数。将一组图像特征值输入到预测网络,得到一组编码策略参数p;将编码策略参数p输入编码器,执行编码过程得到评分值R;将编码策略参数p和对应的图像特征值输入到判别网络,得到评分值V;通过最小化|R-V|2得到最优化的判别网络的参数θC;通过最大化V得到最优的预测网络的参数θA;将θC和θA分别更新到预测网络和判别网络;迭代到指定终止条件。
其中,编码结果评分,包括但不限于根据码率和质量评价得到的综合评分。在本发明的实施例中,采用与进化算法相同的编码结果评分方法,即对每个图像和对应的量化参数增量(delta QP)执行4次编码,设定4个不同的码率值,得到码率和平均结构相似性指标(SSIM),并与上一组策略参数产生的编码结果计算BD率(BDRate),将-BDRate值作为评分。
其中,迭代终止条件包括但不限于迭代次数。
步骤(6)优化利用率。在利用强化学习优化视频编码的训练过程中,系统在从预测网络中得到特定的编码策略参数p,输入视频编码系统,得到关于策略p的评分R。在视频编码系统中,在强化学习训练的前期,好的策略参数出现概率远远小于坏的策略参数,导致训练速度极慢。本发明,在训练过程中,对每帧保存最好的k个策略,并以概率h采样。采样概率h随着视频编码的编码策略逐渐变好而逐渐减少。从而在训练前期能够更多地利用已发现的好策略进行参数更新,减少大量不好的探索,从而增加好策略的利用率。在训练后期,预测网络已经可以发现更多好的策略,系统随着采样概率h的减少,更多地利用预测网络发现的策略,系统能够更好地选择编码策略来提高视频编码的压缩效率。
在本发明的实施例中,好的策略参数出现概率远远小于坏的策略参数(好策略只有3%左右)。设置每帧保存的最好策略数k=3,好策略的采样概率h=20%。h随着视频编码的编码策略逐渐变好而逐渐减少(20%,15%,10%,5%)。
步骤(7),优化探索率。在强化学习训练过程中,特别是针对视频编码这样的复杂系统进行优化时,系统很容易陷入局部最优,导致难以发现更好的编码策略。本发明在训练进行一定阶段后,训练趋于稳定时,采用较小的幅度对预测网络的最后一层进行随机扰动,以帮助预测网络有机会跳出局部最优,以更多的形式进行探索。本发明实施中采用高斯白噪声进行扰动,均值为0,sigma=1,幅度为0.01。同时计算添加噪声前后的对应策略所得的评分的变化幅度,如果幅度过高,如20%,则减少噪声的变化幅度,减少比例为50%。
同时,增加强化学习的策略的探索范围和概率,使得系统能够学到更好的编码策略。本发明实施例中,探索的范围增加1倍,探索的概率增加50%。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种用于视频编码优化的高效强化学习训练方法,其特征在于:包括以下步骤,
步骤1,创建预测网络和判别网络,预测网络负责生成编码策略参数最优值;判别网络负责判别预测网络生成的预测值好坏;
步骤2,进化算法优化初始策略值,负责对训练集中的每组图像数据,生成优化的初始编码策略参数,以及编码结果评分,进化算法生成的优化编码策略参数和编码结果评分用于预测网络和判别网络的监督学习初始化网络参数;
步骤3,预测网络初始化,负责根据进化算法的编码策略参数结果进行监督学习,得到预测网络的神经网络初始化参数;
步骤4,判别网络初始化,负责根据进化算法的编码策略参数和评分值结果进行监督学习,得到判别网络的神经网络初始化参数;
步骤5,强化学习训练,负责训练生成预测网络和判别网络的最优化网络参数;
步骤6优化利用率,强化学习训练过程中保存较好的编码策略,并在探索过程中以一定的概率进行采样,以增视频编码中强化学习的利用效率;
步骤7,优化探索率,强化学习训练一定阶段后,对模型进行随机小幅度扰动,并提高探索的范围,以增视频编码中强化学习的探索效率。
2.根据权利要求1所述的用于视频编码优化的高效强化学习训练方法,其特征在于:进化算法优化初始策略参数,
所述进化算法方法包括但不仅限于:遗传算法,差分进化算法,模拟退火算法,粒子群优化算法,蚁群算法,进化算法负责生成优化的编码策略参数以及编码结果评分,用于预测网络和判别网络的监督学习初始化网络参数,进化算法对每组视频图像,调用进化算法,得到对应的编码策略参数a;将编码策略参数a输入编码器,执行编码过程得到评分值R。通过R对a进行调整,迭代到指定终止条件,输出最终的a和R;
所述迭代终止条件,包括但不限于迭代次数,以及两次评分值R之差小于设定阈值T1。
3.根据权利要求1所述的用于视频编码优化的高效强化学习训练方法,其特征在于:编码结果评分,
所述编码结果评分,是在对视频编码完成之后,得到的压缩效率综合评分,包括但不限于根据码率和质量评价得到的综合评分,比如率失真代价,BD率BDRate值;
所述质量评价包括但不限于全参考质量评价峰值信噪比PSNR和结构相似性指标SSIM。
4.根据权利要求1所述的用于视频编码优化的高效强化学习训练方法,其特征在于:预测网络负责决策图像分块对应的编码策略参数最优值,
所述预测网络为若干个卷积层级联的卷积神经网络,加上全连接层构成,预测网络输入为视频图像的特征值,包括但不限于原始像素值,以及编码处理过程中产生的特征值如运动矢量分布,比特数统计,帧内或帧间预测的绝对误差和SAD或者差值平方和SSE数值等,预测网络输出为编码策略参数p,预测网络在实际推断和编码过程中,用作编码器的前置模块。
5.根据权利要求1所述的用于视频编码优化的高效强化学习训练方法,其特征在于:判别网络负责判别预测网络生成的预测值好坏,
所述判别网络为若干个卷积层级联的卷积神经网络,加上全连接层构成,判别网络负责判别预测络生成的预测值好坏,判别网络仅在训练中使用,推断中不使用,判别网络的输入为预测网络输出的编码策略参数p,以及对应的视频图像特征值;输出为判别编码策略参数好坏的实数值V。
6.根据权利要求1所述的用于视频编码优化的高效强化学习训练方法,其特征在于:预测网络初始化,
所述预测网络初始化过程,根据进化算法的结果进行监督学习,得到预测网络的初始化参数,以期在强化学习训练过程中可以更快地收敛,首先,从训练集中取出一组图像以及进化算法得到的最优编码参数a,输入到预测网络,得到一组编码参数p;通过最小化|a-p|2得到最优化的预测网络的参数θA;将θA更新到预测网络;迭代到指定终止条件;
所述迭代终止条件包括但不限于迭代次数。
7.根据权利要求1所述的用于视频编码优化的高效强化学习训练方法,其特征在于:判别网络初始化,
所述判别网络初始化过程,根据进化算法的结果进行监督学习,得到判别网络的初始化参数,以期在强化学习训练过程中可以更快地收敛,首先,从训练集中取出一组图像以及进化算法得到的编码策略参数a和评分值R;将图像特征值和对应编码参数a输入到判别网络,得到一个评分估计V;通过最小化|R-V|2得到最优化的判别网络的参数θC;将θC更新到判别网络;迭代到指定终止条件;
所述迭代终止条件包括但不限于迭代次数。
8.根据权利要求1所述的用于视频编码优化的高效强化学习训练方法,其特征在于:强化学习训练过程,
所述强化学习训练过程负责训练生成预测网络的最优化网络参数θA,首先,将一组图像特征值输入到预测网络,得到一组编码策略参数p;将编码策略参数p输入编码器,执行编码过程得到评分值R;将编码策略参数p和对应的图像特征值输入到判别网络,得到评分值V;通过最小化|R-V|2得到最优化的判别网络的参数θC;通过最大化V得到最优的预测网络的参数θA;将θC和θA分别更新到预测网络和判别网络;迭代到指定终止条件;
所述迭代终止条件包括但不限于迭代次数。
9.根据权利要求1所述的用于视频编码优化的高效强化学习训练方法,其特征在于:强化学习训练过程中优化利用率,
在训练过程中,对每帧保存最好的k个策略,并以概率h采样,采样概率h随着视频编码的编码策略逐渐变好而逐渐减少,从而在训练前期能够更多地利用已发现的好策略进行参数更新,减少大量不好的探索,从而增加好策略的利用率,在训练后期,预测网络已经可以发现更多好的策略,系统随着采样概率h的减少,更多地利用预测网络发现的策略,系统能够更好地选择编码策略来提高视频编码的压缩效率。
10.根据权利要求1所述的用于视频编码优化的高效强化学习训练方法,其特征在于:强化学习训练过程中优化探索率,
在训练进行一定阶段后,训练趋于稳定时,采用较小的幅度对预测网络的最后一层进行随机扰动,以帮助预测网络有机会跳出局部最优,以更多的形式进行探索,同时,增加强化学习的策略的探索范围和概率,使得系统能够学到更好的编码策略。
CN201810298220.5A 2018-04-03 2018-04-03 一种用于视频编码优化的高效强化学习训练方法 Active CN110351561B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810298220.5A CN110351561B (zh) 2018-04-03 2018-04-03 一种用于视频编码优化的高效强化学习训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810298220.5A CN110351561B (zh) 2018-04-03 2018-04-03 一种用于视频编码优化的高效强化学习训练方法

Publications (2)

Publication Number Publication Date
CN110351561A true CN110351561A (zh) 2019-10-18
CN110351561B CN110351561B (zh) 2021-05-07

Family

ID=68173756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810298220.5A Active CN110351561B (zh) 2018-04-03 2018-04-03 一种用于视频编码优化的高效强化学习训练方法

Country Status (1)

Country Link
CN (1) CN110351561B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111031387A (zh) * 2019-11-21 2020-04-17 南京大学 一种监控视频发送端视频编码流速控制的方法
CN116506622A (zh) * 2023-06-26 2023-07-28 瀚博半导体(上海)有限公司 模型训练方法及视频编码参数优化方法和装置
CN116996680A (zh) * 2023-09-26 2023-11-03 上海视龙软件有限公司 一种用于视频数据分类模型训练的方法及装置
CN118042069A (zh) * 2024-04-11 2024-05-14 深圳市慧明捷科技有限公司 一种网络会议视频码流自适应传输方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6775415B1 (en) * 1999-05-25 2004-08-10 George Mason University Fractal image compression using reinforcement learning
CN103324085A (zh) * 2013-06-09 2013-09-25 中国科学院自动化研究所 基于监督式强化学习的最优控制方法
CN107613299A (zh) * 2017-09-29 2018-01-19 杭州电子科技大学 一种利用生成网络提高帧速率上转换效果的方法
CN107734333A (zh) * 2017-09-29 2018-02-23 杭州电子科技大学 一种利用生成网络提高视频错误隐藏效果的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6775415B1 (en) * 1999-05-25 2004-08-10 George Mason University Fractal image compression using reinforcement learning
CN103324085A (zh) * 2013-06-09 2013-09-25 中国科学院自动化研究所 基于监督式强化学习的最优控制方法
CN107613299A (zh) * 2017-09-29 2018-01-19 杭州电子科技大学 一种利用生成网络提高帧速率上转换效果的方法
CN107734333A (zh) * 2017-09-29 2018-02-23 杭州电子科技大学 一种利用生成网络提高视频错误隐藏效果的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林正春: "最优进化图像阈值分割算法", 《计算机辅助设计与图形学学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111031387A (zh) * 2019-11-21 2020-04-17 南京大学 一种监控视频发送端视频编码流速控制的方法
CN116506622A (zh) * 2023-06-26 2023-07-28 瀚博半导体(上海)有限公司 模型训练方法及视频编码参数优化方法和装置
CN116506622B (zh) * 2023-06-26 2023-09-08 瀚博半导体(上海)有限公司 模型训练方法及视频编码参数优化方法和装置
CN116996680A (zh) * 2023-09-26 2023-11-03 上海视龙软件有限公司 一种用于视频数据分类模型训练的方法及装置
CN116996680B (zh) * 2023-09-26 2023-12-12 上海视龙软件有限公司 一种用于视频数据分类模型训练的方法及装置
CN118042069A (zh) * 2024-04-11 2024-05-14 深圳市慧明捷科技有限公司 一种网络会议视频码流自适应传输方法及系统

Also Published As

Publication number Publication date
CN110351561B (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN110351561A (zh) 一种用于视频编码优化的高效强化学习训练方法
CN108520268B (zh) 基于样本选择和模型进化的黑盒对抗性攻击防御方法
CN110189291A (zh) 一种基于多任务卷积神经网络的通用无参考图像质量评价方法
CN112884131A (zh) 一种基于模仿学习的深度强化学习策略优化防御方法和装置
CN106162167A (zh) 基于学习的高效视频编码方法
CN105306947A (zh) 基于机器学习的视频转码方法
CN112717415B (zh) 一种基于信息瓶颈理论的强化学习对战游戏ai训练方法
CN109769119A (zh) 一种低复杂度视频信号编码处理方法
CN111541900B (zh) 基于gan的安防视频压缩方法、装置、设备及存储介质
CN112183742A (zh) 基于渐进式量化和Hessian信息的神经网络混合量化方法
CN117290721A (zh) 数字孪生建模方法、装置、设备及介质
CN110351558A (zh) 一种基于强化学习的视频图像编码压缩效率提升方法
CN107690069A (zh) 一种数据驱动的级联视频编码方法
CN106408087A (zh) 面向水下弱信号检测的强化学习自适应随机共振方法
CN112131089B (zh) 软件缺陷预测的方法、分类器、计算机设备及存储介质
CN116892932B (zh) 一种结合好奇心机制与自模仿学习的导航决策方法
Tong et al. Enhancing rolling horizon evolution with policy and value networks
CN117454971A (zh) 基于自适应掩码加权的投影式知识蒸馏方法
CN108664730A (zh) 一种面向多模态工业产品的动态色彩设计方法
CN110351555A (zh) 基于强化学习的多遍历视频编码码率分配与控制优化方法
CN115331460B (zh) 一种基于深度强化学习的大规模交通信号控制方法及装置
CN113821323B (zh) 一种面向混合部署数据中心场景的离线作业任务调度算法
CN112966527B (zh) 一种基于自然语言推理的关系抽取模型的生成方法
CN106447088B (zh) 基于遗传算法的施工现场灾害预测方法
Wang et al. Automatic learning-based data optimization method for autonomous driving

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20191107

Address after: 310000 Building D, building D, Tiantang Software Park, No.3 xidoumen Road, Xihu District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou Microframe Information Technology Co., Ltd.

Address before: 310012 Room 202, unit 1, building 20, Zigui garden, 268 Wener West Road, Wenxin street, Xihu District, Hangzhou City, Zhejiang Province

Applicant before: Zhu Zheng

GR01 Patent grant
GR01 Patent grant