CN116095327A

CN116095327A - 视频编码方法、网络设备及存储介质

Info

Publication number: CN116095327A
Application number: CN202111283790.5A
Authority: CN
Inventors: 易自尧; 徐科; 孔德辉; 宋剑军; 任聪
Original assignee: Sanechips Technology Co Ltd
Current assignee: Sanechips Technology Co Ltd
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2023-05-09
Also published as: WO2023071008A1

Abstract

本发明提供了一种视频编码方法、网络设备及计算机可读存储介质，其中，方法包括：对获取到的图像序列进行强化学习网络训练，得到对应于图像序列的优化编码单元划分信息；根据优化编码内容、参考编码内容以及预设评价指标，得到与优化编码内容对应的博弈结果信息，其中，优化编码内容为根据优化编码单元划分信息得到，参考编码内容为根据图像序列得到；当确定存在博弈结果信息满足预设博弈条件的情况，将与优化编码单元划分信息对应的编码方式，确定为针对图像序列的视频编码方式。本发明实施例中，采用基于强化学习网络训练的视频编码方式，能够提升视频编码效率，满足视频编码需求。

Description

视频编码方法、网络设备及存储介质

技术领域

本发明实施例涉及但不限于信息处理技术领域，尤其涉及一种视频编码方法、网络设备及计算机可读存储介质。

背景技术

目前，在相同视频质量的前提下，基于多功能视频编码(Versatile VideoCoding，VVC)标准进行帧内编码，能够实现约50％的压缩效率的提升，这为产业应用提供了重要保障。在视频编码块的压缩过程中，VVC标准通常采用四叉树、三叉树或二叉树结合的块划分方式，在块划分的整个过程中，需要递归遍历所有可能的划分方式，从中选择率失真代价最小的划分方式作为最终的划分方式。

上述划分过程虽然能够提升视频压缩效率，满足现有的视频压缩功能，但是随着图像技术不断发展，视频的清晰度也逐渐提升，例如从之前的1080P到现在的4K甚至8K，现有的压缩方法也逐渐无法适配视频的清晰度要求，而且上述划分过程所采用的算法大大提高了计算复杂度，增加计算处理时长，造成视频编码效率相对降低，使得视频编码的实时性受到极大的挑战。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种视频编码方法、网络设备及计算机可读存储介质，能够提升视频编码效率。

第一方面，本发明实施例提供了一种视频编码方法，包括：

对获取到的图像序列进行强化学习网络训练，得到对应于所述图像序列的优化编码单元划分信息；

根据优化编码内容、参考编码内容以及预设评价指标，得到与所述优化编码内容对应的博弈结果信息，其中，所述优化编码内容为根据所述优化编码单元划分信息得到，所述参考编码内容为根据所述图像序列得到；

当确定存在所述博弈结果信息满足预设博弈条件的情况，将与所述优化编码单元划分信息对应的编码方式，确定为针对所述图像序列的视频编码方式。

第二方面，本发明实施例还提供了一种网络设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面所述的视频编码方法。

第三方面，本发明实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如上第一方面所述的视频编码方法。

本发明实施例包括：对获取到的图像序列进行强化学习网络训练，得到对应于图像序列的优化编码单元划分信息；根据优化编码内容、参考编码内容以及预设评价指标，得到与优化编码内容对应的博弈结果信息，其中，优化编码内容为根据优化编码单元划分信息得到，参考编码内容为根据图像序列得到；当确定存在博弈结果信息满足预设博弈条件的情况，将与优化编码单元划分信息对应的编码方式，确定为针对图像序列的视频编码方式。根据本发明实施例提供的方案，通过对图像序列进行强化学习网络训练，实现对图像序列的编码块划分，从而得到对应于图像序列的优化编码单元划分信息，并且基于预设评价指标评价优化编码内容和参考编码内容，确定与优化编码内容对应的博弈结果信息，以便于根据博弈结果信息识别出优化编码内容的优劣程度，从而在博弈结果信息满足预设博弈条件的情况下，可以确定与博弈结果信息关联对应的优化编码内容及优化编码单元划分信息符合预设编码效率要求，从而将与优化编码单元划分信息对应的编码方式，确定为满足图像序列编码要求的视频编码方式，因此，相比于相关技术，采用基于强化学习网络训练的视频编码方式，能够提升视频编码效率，满足视频编码需求。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一个实施例提供的视频编码方法的流程图；

图2是本发明一个实施例提供的视频编码方法中，对图像序列进行强化学习网络训练之前的流程图；

图3是本发明一个实施例提供的视频编码方法中，对图像序列进行强化学习网络训练的流程图；

图4是本发明一个实施例提供的视频编码方法中，得到后向编码单元划分信息的流程图；

图5是本发明一个实施例提供的视频编码方法中，得到后向编码单元划分信息的原理示意图；

图6是本发明一个实施例提供的视频编码方法中，得到前向编码单元划分信息的流程图；

图7是本发明一个实施例提供的视频编码方法中，得到前向编码单元划分信息的原理示意图；

图8是本发明一个实施例提供的视频编码方法中，得到优化编码单元划分信息的流程图；

图9是本发明一个实施例提供的视频编码方法中，得到优化编码单元划分信息的原理示意图；

图10是本发明一个实施例提供的视频编码方法中，得到博弈结果信息的流程图；

图11是本发明另一个实施例提供的视频编码方法中，得到博弈结果信息的流程图；

图12是本发明一个实施例提供的视频编码方法中，确定针对图像序列的视频编码方式的流程图；

图13是本发明一个实施例提供的当不存在博弈结果信息满足预设博弈条件，视频编码方法的流程图；

图14是本发明一个实施例提供的视频编码方法的执行流程图；

图15是本发明一个实施例提供的网络设备的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要注意的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本发明提供了一种视频编码方法、网络设备及计算机可读存储介质，通过对图像序列进行强化学习网络训练，实现对图像序列的编码块划分，从而得到对应于图像序列的优化编码单元划分信息，并且基于预设评价指标评价优化编码内容和参考编码内容，确定与优化编码内容对应的博弈结果信息，以便于根据博弈结果信息识别出优化编码内容的优劣程度，从而在博弈结果信息满足预设博弈条件的情况下，可以确定与博弈结果信息关联对应的优化编码内容及优化编码单元划分信息符合预设编码效率要求，从而将与优化编码单元划分信息对应的编码方式，确定为满足图像序列编码要求的视频编码方式，因此，相比于相关技术，采用基于强化学习网络训练的视频编码方式，能够提升视频编码效率，满足视频编码需求。

下面结合附图，对本发明实施例作进一步阐述。

如图1所示，图1是本发明一个实施例提供的视频编码方法的流程图，该视频编码方法包括但不限于步骤S100至S300。

步骤S100，对获取到的图像序列进行强化学习网络训练，得到对应于图像序列的优化编码单元划分信息。

在一实施例中，通过对图像序列进行强化学习网络训练，实现对图像序列的编码块划分，从而得到对应于图像序列的优化编码单元划分信息，相比于相关技术，所得到的优化编码单元划分信息是通过强化学习网络训练过的，因此生成的优化编码单元划分信息更加优化精确，相应地，根据优化编码单元划分信息而进一步得到的编码结果将会更加优化精确，有利于提高视频编码的精确度。

在一实施例中，优化编码单元划分信息的形式并未限定，根据具体应用场景可以自行设置，例如可以为与图像序列相对应的一维矩阵，也可以为不同编码标准下的规定格式等，这在本实施例中并未限制；编码单元可以理解为进行编码的矩阵，具体的矩阵类型和参数可以根据实际情景进行设置。

在图2的示例中，步骤S100中的“对获取到的图像序列进行强化学习网络训练”之前，还包括但不限于步骤S400至S500。

步骤S400，获取视频图像数据；

步骤S500，根据视频图像数据得到对应于视频图像数据的图像序列。

在一实施例中，视频图像数据的获取方式可以为多种，例如可以从H.265、H.266等标准数据集中获得，也可以从实际视频中获得等，这在本实施例中并未限定；在获得视频图像数据之后，可以将视频图像数据按照固定张数分成相应的数据集，从而得到对应于视频图像数据的图像序列，可以看出，通过上述方式得到的图像序列能够良好表征视频图像数据的原有特征，并且通过形成统一化的图像序列，便于更可靠地实现进一步的视频编码流程。

在一实施例中，强化学习网络训练可以但不限于为基于神经网络进行的训练，由于神经网络训练可重复进行且在不同次的训练中可以相应调节神经网络权重，从而达到不断优化强化学习网络训练的目的，使得强化学习网络训练能够不断地更加适配于图像序列，其中，神经网络可以支持深度学习的各种基本操作，在此不做赘述；为了更好地说明对获取到的图像序列进行强化学习网络训练的方式，以下将给出具体实施例进行说明。

在图3的示例中，当强化学习网络训练包括前向网络训练、后向网络训练和融合网络训练，步骤S100包括但不限于步骤S110至S130。

步骤S110，对获取到的图像序列进行后向网络训练，得到对应于图像序列的后向编码单元划分信息；

步骤S120，对获取到的图像序列进行前向网络训练，得到对应于图像序列的前向编码单元划分信息；

步骤S130，对后向编码单元划分信息和前向编码单元划分信息进行融合网络训练，得到对应于图像序列的优化编码单元划分信息。

在一实施例中，通过对获取到的图像序列进行后向网络训练和前向网络训练，可以分别得到按照不同方向进行传输的编码划分信息，进而通过对获得的后向编码单元划分信息和前向编码单元划分信息进行融合网络训练，从而得到混合两者中最优的编码单元划分信息，以之作为对应于图像序列的优化编码单元划分信息，更加准确可靠。

在一实施例中，图像序列可以但不限于包括N个帧，N个可以为排序好的，这样在针对N个帧进行处理时，可以根据不同帧的顺序来对相应帧进行处理，从而分别得到对应于每个帧的编码单元划分信息，以便于进一步根据不同帧而得到对应于图像序列的优化编码单元划分信息。

在图4的示例中，步骤S110包括但不限于步骤S111至S112。

步骤S111，从N到1的顺序按照以下方式遍历图像序列中的各个帧：根据第i帧的图像信息和第i+1帧的第一子编码单元划分信息，得到第i帧的第一子编码单元划分信息；

步骤S112，根据各个帧的第一子编码单元划分信息，得到对应于图像序列组的后向编码单元划分信息；

其中，i表示图像序列中第i个帧。

在一实施例中，按照从后往前的顺序遍历图像序列中的各个帧，从而可以依次获取到后一帧的第一子编码单元划分信息，结合前一帧的图像信息，进而得到前一帧的第一子编码单元划分信息，以此类推，由此可以通过后一帧的第一子编码单元划分信息逐个确定前一帧的第一子编码单元划分信息，从而得到所有帧的第一子编码单元划分信息，进而准确地得到对应于图像序列组的后向编码单元划分信息，相比于相关技术只利用相邻帧的像素信息而不会利用相邻帧的编码单元划分信息，本实施例考虑到相邻帧的第一编码单元划分信息来进一步每一帧的第一子编码单元划分信息，好处在于：应用相邻帧的划分方式相近性，可以提供很好的参考意义，使得所确定的各个帧的第一子编码单元划分信息会更加准确，并且相比于像素信息，编码划分信息更稀疏，因此所占用的存储空间小，相应的编码效率更高，以下给出具体示例进行说明。

示例一：

如图5所示，输入未编码的图像序列，具有N个帧，编号分别为0，1…N-1。从第N-1帧开始从后往前输入到神经网络结构中的后向传播网络Bnet，当第i帧进入Bnet时，第i+1帧的第一子编码单元划分信息[记为CU(Bi+1)，下同]也传输进入Bnet，与第i帧的图像信息imagei可以包括但不限于进行特征融合、注意力机制以及稀疏表达等一系列操作来利用CU(Bi+1)，从而输出第i帧的第一子编码单元划分信息CU(Bi)，当输入为第0帧时，则不用也无需输入作为参考的前一帧的第一编码单元划分信息(即此时不存在前一帧)，通过以上示例看出，前一帧的第一编码单元划分信息可以通过后一帧的第一编码单元划分信息得到，这样所确定的各个帧的第一编码单元划分信息之间可以体现相关联系，使得所确定的后向编码单元划分信息的编码效率和精确度将会更高，编码更加容易可靠。

需要说明的是，神经网络结构中的Bnet主要起到从后往前传输编码单元划分信息的作用，其类型及形式可以根据实际应用场景进行选择，这在本实施例中并未限制。

在图6的示例中，步骤S120包括但不限于步骤S121至S122。

步骤S121，从1到N的顺序按照以下方式遍历图像序列中的各个帧：根据第j帧的图像信息和第j-1帧的第二子编码单元划分信息，得到第j帧的第二子编码单元划分信息；

步骤S122，根据各个帧的第二子编码单元划分信息，得到对应于图像序列的前向编码单元划分信息；

其中，j表示图像序列中第j个帧。

在一实施例中，按照从前往后的顺序遍历图像序列中的各个帧，从而可以依次获取到前一帧的第一子编码单元划分信息，结合后一帧的图像信息，进而得到后一帧的第一子编码单元划分信息，以此类推，由此可以通过前一帧的第一子编码单元划分信息逐个确定后一帧的第一子编码单元划分信息，从而得到所有帧的第一子编码单元划分信息，进而准确地得到对应于图像序列组的前向编码单元划分信息，相比于相关技术只利用相邻帧的像素信息而不会利用相邻帧的编码单元划分信息，本实施例考虑到相邻帧的第一编码单元划分信息来进一步每一帧的第一子编码单元划分信息，好处在于：应用相邻帧的划分方式相近性，可以提供很好的参考意义，使得所确定的各个帧的第一子编码单元划分信息会更加准确，并且相比于像素信息，编码划分信息更稀疏，因此所占用的存储空间小，相应的编码效率更高，以下给出具体示例进行说明。

示例二：

如图7所示，输入未编码的图像序列，具有N个帧，编号分别为0，1…N-1。从第0帧开始从前往后输入到神经网络结构中的前向传播网络Fnet，当第j-1帧进入Fnet时，第j-1帧的第二子编码单元划分信息[记为CU(Fj-1)，下同]也传输进入Fnet，与第j帧的图像信息imagej可以包括但不限于进行特征融合、注意力机制以及稀疏表达等一系列操作来利用CU(Fj-1)，从而输出第j帧的第二子编码单元划分信息CU(Fj)，当输入为第N-1帧时，则不用也无需输入作为参考的后一帧的第二编码单元划分信息(即此时不存在后一帧)，通过以上示例看出，后一帧的第二编码单元划分信息可以通过前一帧的第二编码单元划分信息得到，这样所确定的各个帧的第二编码单元划分信息之间可以体现相关联系，使得所确定的前向编码单元划分信息的编码效率和精确度将会更高，编码更加容易可靠。

需要说明的是，神经网络结构中的Fnet主要起到从前往后传输编码单元划分信息的作用，其类型及形式可以根据实际应用场景进行选择，这在本实施例中并未限制。

在图8的示例中，步骤S130包括但不限于步骤S131至S133。

步骤S131，从后向编码单元划分信息获取各个帧的第一子编码单元划分信息，以及从前向编码单元划分信息获取各个帧的第二子编码单元划分信息；

步骤S132，根据各个帧的第一子编码单元划分信息和第二子编码单元划分信息，得到每个帧的子优化编码单元划分信息；

步骤S133，根据各个帧的子优化编码单元划分信息，得到对应于图像序列的优化编码单元划分信息。

在一实施例中，由于第一子编码单元划分信息和第二子编码单元划分信息分别体现了各个帧在不同情景下的编码方式，因此为了更进一步地结合各个情景下的编码方式的优点，选择将各个帧的第一子编码单元划分信息和第二子编码单元划分信息分别对应进行融合处理，从而输出更加能够体现各个帧的优化编码特点的子优化编码单元划分信息，进而根据各个帧的子优化编码单元划分信息，得到最终的优化编码单元划分信息，可以理解地是，该优化编码单元划分信息结合了各个帧的子优化编码单元划分信息，因此优化程度更高，更有利于提升视频编码效率。

在一实施例中，融合处理的方式可以但不限于包括：取第一子编码单元划分信息和第二子编码单元划分信息的平均值、选择符合预设输出要求的其中一个作为融合输出等，其中，预设输出要求可以为自行设置、通过比较而设置或者通过计算而设置等来确定的，这在本实施例中并未限定。

以下给出具体示例进行说明。

示例三：

如图9所示，以第i帧为例，此时已经确定第i帧的第一子编码单元划分信息CU(Bi)和第二子编码单元划分信息CU(Fi)，将两者合并输入到融合网络Fusion中，经过Fusion的网络训练，输出得到第i帧的子优化编码单元划分信息CU(i)，在另一实施例中，还会输出对应于第i帧的强化学习预测信息Score(i)，即优化编码单元划分信息还包括强化学习预测信息，Score(i)用于表征对应于优化编码单元划分信息的博弈成功预测概率，即Fusion在进行网络训练时，会针对所输出的CU(i)进行优化程度的分析，以评估其优于预设编码信息的胜率，例如，根据分析实验确定CU(i)对应的视频编码速率落在某一区间的占比为一具体数值，同时根据分析实验确定预设编码信息的对应的视频编码速率落在同一区间的占比为另一具体数值，进而通过对两个具体数值进行比较处理而生成Score(i)，可以理解地是，设置生成强化学习预测信息的目的为便于更加准确可靠地评估子优化编码单元划分信息的优化程度，不过需要强调的是，强化学习预测信息的用途仅用于预测以便于进一步地调整，具体的比较结果需要在实际应用场景中进行获得。

需要说明的是，上述实施例中提及的预设编码信息可以为采用本领域现有编码方式而得到的编码信息，也可以为预先确定好的编码信息，本领域技术人员可以根据实际应用场景进行相应选择，这在本实施例中并未限制；强化学习预测信息对应的博弈成功预测概率的呈现形式可以为多种，例如，可以为输出的[-1,1]的值，其中，可以设定为：-1为必败(预测成功概率为0)，1为必胜(预测成功概率为1)，0为相同(预测成功概率为0.5)，或者，可以直接以具体概率数值进行体现，比如0.8表示针对优化编码单元划分信息能够博弈成功的预测概率，那么0.2则表示针对优化编码单元划分信息无法博弈成功的预测概率，其他的数值呈现方式与上述实施例所给出的方式类似，可以根据实际场景进行设置，为免冗余，本实施例对此不再赘述。

步骤S200，根据优化编码内容、参考编码内容以及预设评价指标，得到与优化编码内容对应的博弈结果信息，其中，优化编码内容为根据优化编码单元划分信息得到，参考编码内容为根据图像序列得到。

在一实施例中，基于预设评价指标评价优化编码内容和参考编码内容，确定与优化编码内容对应的博弈结果信息，以便于根据博弈结果信息识别出优化编码内容的优劣程度，换言之，可以确定哪种编码内容相比之下效果更好，以便于选择得到更好的编码内容，进而基于编码内容获取更适合的视频编码方式。

可以理解地是，预设评价指标的种类不限制，可以根据具体应用场景自行设置，例如可以包括但不限于为：各种图像质量客观指标，例如尖峰信噪比、图像相似度等，压缩性能指标，例如编码压缩比等，也可以为编码速度指标(用于评估提升视频编码速度)，也可以为根据应用场景的主观质量指标或者这些指标的加权和，这在本实施例中并未限制。

在一实施例中，参考编码内容可以为采用本领域现有编码方式而得到的编码信息所对应的编码内容，例如，利用获取到的图像序列和现有的神经网络确定现有编码信息，进而通过现有编码信息生成参考编码内容，也可以为预先通过所设定的神经网络而确定好的编码信息，或者本领域技术人员可以根据实际应用场景相应选择参考编码内容，这在本实施例中并未限制；但需要说明的是，参考编码内容所对应的编码信息为未经过强化学习网络训练的，这与本实施例的优化编码单元划分信息构成区分。

在图10的示例中，步骤S200包括但不限于步骤S210至S220。

步骤S210，根据预设评价指标对比优化编码内容和参考编码内容，确定优化编码内容和参考编码内容之间的相对优劣程度；

步骤S220，根据优化编码内容和参考编码内容之间的相对优劣程度，得到与优化编码内容对应的博弈结果信息。

在一实施例中，按照预设评价指标从一方面或多方面对比优化编码内容和参考编码内容，从而确定出两者中更优的一个，进而可以根据此结论确定与优化编码内容对应的博弈结果信息，换言之，通过博弈结果信息可以间接地体现出优化编码内容优于或者劣于参考编码内容，因此在后续步骤中可以直接根据博弈结果信息进一步确定哪种编码内容对应的编码方式更好。

在一实施例中，博弈结果信息包括胜利结果信息和失败结果信息，可以理解地是，胜利结果信息表示优化编码内容优于参考编码内容，失败结果信息表示优化编码内容劣于参考编码内容；其中，优化编码内容包括若干子优化编码内容，参考编码内容包括若干子参考编码内容，相应地，胜利结果信息和失败结果信息的定义对于子优化编码内容和子参考编码内容可以类似地适应，为免冗余，在此不做赘述。

在图11的示例中，步骤S220包括但不限于步骤S221至S222。

步骤S221，当确定存在子优化编码内容优于对应的子参考编码内容的情况，得到与子优化编码内容对应的胜利结果信息；

步骤S222，当确定存在子参考编码内容优于对应的子优化编码内容的情况，得到与子优化编码内容对应的失败结果信息。

在一实施例中，通过对比子优化编码内容和子参考编码内容的优劣，因此可以确定每一帧下的编码内容的优劣，从而能够确定与子优化编码内容对应的胜利结果信息和与子优化编码内容对应的失败结果信息，即能够针对每一帧的编码内容逐一地分析其胜负结果，以便于从宏观上获取所有帧的胜负结果分布。

步骤S300，当确定存在博弈结果信息满足预设博弈条件的情况，将与优化编码单元划分信息对应的编码方式，确定为针对图像序列的视频编码方式。

在一实施例中，通过对图像序列进行强化学习网络训练，实现对图像序列的编码块划分，从而得到对应于图像序列的优化编码单元划分信息，并且基于预设评价指标评价优化编码内容和参考编码内容，确定与优化编码内容对应的博弈结果信息，以便于根据博弈结果信息识别出优化编码内容的优劣程度，从而在博弈结果信息满足预设博弈条件的情况下，可以确定与博弈结果信息关联对应的优化编码内容及优化编码单元划分信息符合预设编码效率要求，从而将与优化编码单元划分信息对应的编码方式，确定为满足图像序列编码要求的视频编码方式，因此，相比于相关技术，采用基于强化学习网络训练的视频编码方式，能够提升视频编码效率，满足视频编码需求。

需要说明的是，与优化编码单元划分信息对应的编码方式，可以应用在所有需要视频编码的地方，例如视频处理单元(Video Processing Unit，VPU)、视频编解码芯片内置算法、智能座舱、视频压缩以及视频传输等方面，这在本实施例中并未限制。

在一实施例中，预设博弈条件可以以不同形式呈现，呈现的方式可以但不限于为胜率、胜负分布标准差以及胜负分布方差等，这在本实施例中并未限制。

在图12的示例中，步骤S300包括但不限于步骤S310至S330。

步骤S310，统计所有与子优化编码内容对应的胜利结果信息和失败结果信息；

步骤S320，将胜利结果信息与胜利结果信息和失败结果信息之和相除，得到胜利结果胜率；

步骤S330，当确定存在胜利结果胜率不小于胜率阈值的情况，将与优化编码单元划分信息对应的编码方式，确定为针对图像序列的视频编码方式。

在一实施例中，通过统计所有与子优化编码内容对应的胜利结果信息和失败结果信息，进而计算得到胜利结果胜率，再将胜利结果胜率与胜率阈值进行比较，从而确定在胜利结果胜率不小于胜率阈值的情况下，即针对图像序列的整体编码信息比对能够符合预设的参数要求，可以将与优化编码单元划分信息对应的编码方式，确定为针对图像序列的视频编码方式，换言之，经过上述方式而确定的与优化编码单元划分信息对应的编码方式，即为能够提升针对图像序列的视频编码效率的编码方式。

可以理解地是，胜率阈值可以根据不同应用场景而进行设定，通常设置在50％至60％之间，具体数值在本实施例中并未限制。

在图13的示例中，当优化编码单元划分信息包括与胜利结果信息对应的胜利子编码单元划分信息，本发明一个实施例提供的视频编码方法还包括但不限于步骤S600至S700。

步骤S600，当确定不存在博弈结果信息满足预设博弈条件的情况，根据博弈结果信息、预测误差信息和胜利子编码单元划分信息确定网络训练权重，其中，预测误差信息为博弈结果信息与强化学习预测信息之差；

步骤S700，根据网络训练权重对图像序列重新进行强化学习网络训练。

在一实施例中，当确定不存在博弈结果信息满足预设博弈条件的情况，则说明所得到的博弈结果信息无法满足预设博弈条件的要求，而博弈结果信息是由优化编码单元划分信息所转化得到的，因此可以确定通过强化学习网络训练而得到的优化编码单元划分信息无法满足要求，需要对强化学习网络训练进行调整，因此通过博弈结果信息、预测误差信息和胜利子编码单元划分信息以重新确定神经网络的网络训练权重，使得网络训练权重能够匹配于预设博弈条件的要求，然后根据网络训练权重对图像序列重新进行强化学习网络训练，从而能够得到更新后的满足要求的优化编码单元划分信息。

需要说明的是，预测误差信息为博弈结果信息与强化学习预测信息之差，体现实际胜负结果与预测胜负结果之间的差异，可以用于修正预测胜负结果的概率，因此将其作为调节网络训练权重的一环；胜利子编码单元划分信息体现胜利结果，因此采用胜利子编码单元划分信息作为再训练的权重参数，能够强化胜利结果的影响，有利于修正引导得到胜利结果的概率；博弈结果信息体现了本次实际训练结果的影响，将其作为再训练的一环权重，可以保留本次训练的结果影响，使得下一次训练结果能够尽量偏离大误差范围。

可以理解地是，博弈结果信息对应的成功概率的呈现形式可以为多种，例如，可以为输出的[-1,1]的值，其中，可以设定为：-1为必败(成功概率为0)，1为必胜(成功概率为1)，0为相同(成功概率为0.5)，或者，可以直接以具体概率数值进行体现，比如0.8表示针对优化编码单元划分信息能够博弈成功的概率，那么0.2则表示针对优化编码单元划分信息无法博弈成功的概率，其他的数值呈现方式与上述实施例所给出的方式类似，可以根据实际场景进行设置，为免冗余，本实施例对此不再赘述。

在一实施例中，神经网络中设置有经验池，经验池用于存储相关的权重参数，包括上述的博弈结果信息、预测误差信息和胜利子编码单元划分信息，还可以包括与神经网络相关的基础网络权重参数，这部分可以根据不同的神经网络对应设置，在此不做赘述；对于经验池来说，在进行完一次编码方式判定之后即可受到更新，因此经验池可以是不断更新的，可以确保每次对输入的图像序列所进行强化学习网络训练，为基于更新的网络权重来进行的，可以提升图像序列的强化学习网络训练效率。

以下给出相关示例进行说明。

示例四：

如图14所示，首先准备视频数据，包括获取视频数据以及根据视频数据确定图像序列等操作，然后对图像序列进行相应处理，一方面，输入的图像序列经过CU_net和相关编码之后得到第一编码输出，其中，CU_net为Bnet、Fnet和Fusion的网络集合，另一方面，输入的图像序列经过现有的对比算法和对应编码之后得到第二编码输出，进而比较第一编码输出、第二编码输出和预设评价指标而得到博弈结果信息，进而判断是否需要更新与CU_net对应的经验池，若存在博弈结果信息满足预设博弈条件的情况，则不更新经验池，否则更新经验池并重新进行强化学习网络训练，可以看出本发明实施例提供的视频编码方法，其输入为未经编码的图像序列，通过神经网络将图像序列进行自动划块，在保证高质量划块的同时大大的提升了视频编码的效率，相比于相关技术，能够实现实时高质量编码。

可选地，即使存在博弈结果信息满足预设博弈条件的情况，也可以对最终获取到的编码结果使用AI划分器进行划分，通过划分结果来进一步判定是否需要输出编码结果，通常而言，若编码质量达标则可以输出编码结果，否则可以考虑针对编码结果对应的图像序列重新进行训练。

此外，在另一实施例中，可以采用另一种方式实现经验池的更新：

首先将数据集中的图像序列分别进行一次强化学习网络训练和对比算法训练，两者分别基于CU_net1和CU_net2的神经网络来进行；在网络训练中，CU_net1通过Fnet、Bnet和Fusion等模块，将输入的图像序列中的每一帧生成对应的优化编码单元划分信息和其对结果的预测概率，并且将优化编码单元划分信息和预测概率输入到CU_net2中进行交互，同样地，对于CU_net2进行相同的步骤，编码信息划分完成后则进入后续的编码过程中。当一组图像序列训练完之后，即可将两个编码结果进行评估比较，记录胜负Result并且将胜者对应的编码单元划分信息和预测误差信息放入经验池，以便于进行网络权重更新。在所有图像序列均训练完成后，统计总体胜率，若一方的胜率达到另一方的55％以上，则用胜率高的一方的相关编码参数更新胜率低的一方的编码参数，当一方的效果达到要求性能指标，则停止网络训练；可以看出，本实施例中考虑到强化学习网络训练和对比算法训练各自的编码信息影响，通过将两者的编码信息互相输入到对方，以进一步优化针对强化学习网络训练的编码信息划分效果，尤其是该种方式可以将对比算法融入到强化学习网络训练中，有利于取得更佳的编码单元划分结果。

需要说明的是，上述实施例与前述的直接对获取到的图像序列进行强化学习网络训练的实施例可以混合进行，也可以单独进行，但无论采用哪种方式，均有利于从不同层面上优化针对图像序列的编码单元划分，以便于进一步提升视频编码效率。

另外，如图15所示，本发明的一个实施例还提供了一种网络设备，该设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。

处理器和存储器可以通过总线或者其他方式连接。

实现上述实施例的视频编码方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述各实施例的视频编码方法，例如，执行以上描述的图1中的方法步骤S100至S300、图2中的方法步骤S400至S500、图3中的方法步骤S110至S130、图4中的方法步骤S111至S112、图6中的方法步骤S121至S122、图8中的方法步骤S131至S133、图10中的方法步骤S210至S220、图11中的方法步骤S221至S222、图12中的方法步骤S310至S330或图13中的方法步骤S600至S700。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述设备实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的视频编码方法，例如，执行以上描述的图1中的方法步骤S100至S300、图2中的方法步骤S400至S500、图3中的方法步骤S110至S130、图4中的方法步骤S111至S112、图6中的方法步骤S121至S122、图8中的方法步骤S131至S133、图10中的方法步骤S210至S220、图11中的方法步骤S221至S222、图12中的方法步骤S310至S330或图13中的方法步骤S600至S700。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施方式进行的具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种视频编码方法，包括：

2.根据权利要求1所述的视频编码方法，其特征在于，所述强化学习网络训练包括前向网络训练、后向网络训练和融合网络训练；所述对获取到的图像序列进行强化学习网络训练，得到对应于所述图像序列的优化编码单元划分信息，包括：

对获取到的图像序列进行所述后向网络训练，得到对应于所述图像序列的后向编码单元划分信息；

对获取到的图像序列进行所述前向网络训练，得到对应于所述图像序列的前向编码单元划分信息；

对所述后向编码单元划分信息和所述前向编码单元划分信息进行所述融合网络训练，得到对应于所述图像序列的优化编码单元划分信息。

3.根据权利要求2所述的视频编码方法，其特征在于，所述图像序列包括N个帧；所述对获取到的图像序列进行所述后向网络训练，得到对应于所述图像序列的后向编码单元划分信息，包括：

从N到1的顺序按照以下方式遍历所述图像序列中的各个所述帧：根据第i帧的图像信息和第i+1帧的第一子编码单元划分信息，得到第i帧的第一子编码单元划分信息；

根据各个所述帧的第一子编码单元划分信息，得到对应于所述图像序列组的后向编码单元划分信息；

其中，i表示所述图像序列中第i个帧。

4.根据权利要求3所述的视频编码方法，其特征在于，所述对获取到的图像序列进行所述前向网络训练，得到对应于所述图像序列的前向编码单元划分信息，包括：

从1到N的顺序按照以下方式遍历所述图像序列中的各个所述帧：根据第j帧的图像信息和第j-1帧的第二子编码单元划分信息，得到第j帧的第二子编码单元划分信息；

根据各个所述帧的第二子编码单元划分信息，得到对应于所述图像序列的前向编码单元划分信息；

其中，j表示所述图像序列中第j个帧。

5.根据权利要求4所述的视频编码方法，其特征在于，所述对所述后向编码单元划分信息和所述前向编码单元划分信息进行所述融合网络训练，得到对应于所述图像序列的优化编码单元划分信息，包括：

从所述后向编码单元划分信息获取各个所述帧的所述第一子编码单元划分信息，以及从所述前向编码单元划分信息获取各个所述帧的所述第二子编码单元划分信息；

根据各个所述帧的所述第一子编码单元划分信息和所述第二子编码单元划分信息，得到每个所述帧的子优化编码单元划分信息；

根据各个所述帧的所述子优化编码单元划分信息，得到对应于所述图像序列的优化编码单元划分信息。

6.根据权利要求1所述的视频编码方法，其特征在于，所述根据优化编码内容、参考编码内容以及预设评价指标，得到与所述优化编码内容对应的博弈结果信息，包括：

根据预设评价指标对比优化编码内容和参考编码内容，确定所述优化编码内容和所述参考编码内容之间的相对优劣程度；

根据所述优化编码内容和所述参考编码内容之间的相对优劣程度，得到与所述优化编码内容对应的博弈结果信息。

7.根据权利要求6所述的视频编码方法，其特征在于，所述博弈结果信息包括胜利结果信息和失败结果信息，所述优化编码内容包括若干子优化编码内容，所述参考编码内容包括若干子参考编码内容；所述根据所述优化编码内容和所述参考编码内容之间的相对优劣程度，得到与所述优化编码内容对应的博弈结果信息，包括：

当确定存在所述子优化编码内容优于对应的所述子参考编码内容的情况，得到与所述子优化编码内容对应的所述胜利结果信息；

当确定存在所述子参考编码内容优于对应的所述子优化编码内容的情况，得到与所述子优化编码内容对应的所述失败结果信息。

8.根据权利要求7所述的视频编码方法，其特征在于，所述预设博弈条件包括胜率阈值；所述当确定存在所述博弈结果信息满足预设博弈条件的情况，将与所述优化编码单元划分信息对应的编码方式，确定为针对所述图像序列的视频编码方式，包括：

统计所有与所述子优化编码内容对应的所述胜利结果信息和所述失败结果信息；

将所述胜利结果信息与所述胜利结果信息和所述失败结果信息之和相除，得到胜利结果胜率；

当确定存在所述胜利结果胜率不小于所述胜率阈值的情况，将与所述优化编码单元划分信息对应的编码方式，确定为针对所述图像序列的视频编码方式。

9.根据权利要求7所述的视频编码方法，其特征在于，所述优化编码单元划分信息包括强化学习预测信息以及与所述胜利结果信息对应的胜利子编码单元划分信息，所述强化学习预测信息用于表征对应于所述优化编码单元划分信息的博弈成功预测概率；所述方法还包括：

当确定不存在所述博弈结果信息满足预设博弈条件的情况，根据所述博弈结果信息、预测误差信息和所述胜利子编码单元划分信息确定网络训练权重，其中，所述预测误差信息为所述博弈结果信息与所述强化学习预测信息之差；

根据所述网络训练权重对所述图像序列重新进行所述强化学习网络训练。

10.根据权利要求1所述的视频编码方法，其特征在于，所述对获取到的图像序列进行强化学习网络训练之前，还包括：

获取视频图像数据；

根据所述视频图像数据得到对应于所述视频图像数据的图像序列。

11.一种网络设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至10中任意一项所述的视频编码方法。

12.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至10中任意一项所述的视频编码方法。