CN112312231A

CN112312231A - 一种视频图像编码方法、装置、电子设备及介质

Info

Publication number: CN112312231A
Application number: CN201910703064.0A
Authority: CN
Inventors: 成超; 蔡媛; 樊鸿飞; 汪贤; 鲁方波
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd; Beijing Kingsoft Cloud Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd; Beijing Kingsoft Cloud Technology Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2021-02-02
Anticipated expiration: 2039-07-31
Also published as: CN112312231B

Abstract

本发明实施例提供了一种视频图像编码方法、装置、电子设备及介质，涉及数据传输技术领域，可以使得视频图像编码方法更合理。本发明的实施例包括：获取待发送视频的待发送视频帧，然后根据待发送视频帧的图像画面，确定待发送视频帧所属的目标视频切片。再确定目标视频切片对应的码率，其中，目标视频切片对应的码率基于目标视频切片包括的视频帧的图像画面确定。然后根据目标视频切片对应的码率，对待发送视频帧进行编码。

Description

一种视频图像编码方法、装置、电子设备及介质

技术领域

本发明涉及数据传输技术领域，特别是涉及一种视频图像编码方法、装置、电子设备及介质。

背景技术

在视频帧编码时，每一视频帧数据中包括与该视频帧的前一帧画面不同的数据。在相对动态的画面中，每个视频帧与该视频帧的前一帧画面差异较大，视频帧数据量较大。在相对静态的画面中，每个视频帧与该视频帧的前一帧画面差异较小，视频帧数据量较小。而码率越高，可以传输的各视频帧数据量越大；码率越低，可以传输的各视频帧数据量越小。所以相对动态的画面比相对静态的画面所需码率更高。另外，视频帧数据量越大，视频帧图像画面越清晰，所以局部特写画面相对于宏观画面所需码率更高。

在传输视频数据时，视频的发送方一般采用恒定的码率对视频进行编码，使得接收方接收的视频中的各视频画面的码率相同。但不同的视频画面对码率的要求不同。例如，人物谈话画面下，若采用恒定的码率进行编码容易造成码率的浪费。但在人物舞蹈特写的画面下，若采用恒定的码率进行编码容易造成画面失真的现象。可见，采用恒定的码率进行编码的方法并不合理。

发明内容

本发明实施例的目的在于提供一种视频图像编码方法、装置、电子设备及介质，以使得视频图像编码方法更合理。具体技术方案如下：

第一方面，提供了一种视频图像编码方法，所述方法包括：

获取待发送视频的待发送视频帧；

根据所述待发送视频帧的图像画面，确定所述待发送视频帧所属的目标视频切片；

确定所述目标视频切片对应的码率，所述目标视频切片对应的码率基于所述目标视频切片包括的视频帧的图像画面确定；

根据所述目标视频切片对应的码率，对所述待发送视频帧进行编码。

可选的，所述根据所述待发送视频帧的图像画面，确定所述待发送视频帧所属的目标视频切片，包括：

分别计算所述待发送视频帧的图像画面与所述待发送视频帧之前指定数量的视频帧中每一视频帧的图像画面之间的相似度；

若计算的相似度的平均值大于或等于预设阈值，则确定所述目标视频切片为所述指定数量的视频帧所属的视频切片；

若计算的相似度的平均值小于所述预设阈值，则确定所述目标视频切片为所述指定数量的视频帧所属的视频切片的下一个视频切片。

可选的，所述确定所述目标视频切片对应的码率，包括：

从已确定的视频切片对应的码率中，获取所述目标视频切片对应的码率。

可选的，所述确定所述目标视频切片对应的码率，包括：

根据所述目标视频切片包括的预设数量的视频帧的图像画面，确定所述目标视频切片对应的目标场景类别，所述目标场景类别为所述目标视频切片包括的视频帧的图像画面表示的场景；

根据各场景类别及码率的对应关系和所述目标场景类别，确定所述目标场景类别对应的码率。

可选的，所述根据所述目标视频切片包括的预设数量的视频帧的图像画面，确定所述目标视频切片对应的目标场景类别，包括：

从所述目标视频切片中，抽取所述预设数量的视频帧；

将抽取的视频帧输入场景识别模型；

获取所述场景识别模型输出的所述预设数量的视频帧对应的场景类别；

从获取的场景类别中，将数量最多的场景类别确定为所述目标场景类别。

第二方面，提供了一种视频图像编码装置，所述装置包括：

获取模块，用于获取待发送视频的待发送视频帧；

确定模块，用于根据所述获取模块获取的所述待发送视频帧的图像画面，确定所述待发送视频帧所属的目标视频切片；

所述确定模块，还用于确定所述目标视频切片对应的码率，所述视频切片对应的码率基于所述视频切片包括的视频帧的图像画面确定；

编码模块，用于根据所述确定模块确定的所述目标视频切片对应的码率，对所述待发送视频帧进行编码。

可选的，所述确定模块，具体用于：

从所述目标视频切片中，抽取所述预设数量的视频帧；

将抽取的视频帧输入场景识别模型；

第三方面，提供了一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的视频图像编码方法步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的视频图像编码方法步骤。

第五方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的视频图像编码方法步骤。

本发明实施例提供的视频图像编码方法、装置、电子设备及介质，可以获取待发送视频的待发送视频帧。然后根据待发送视频帧的图像画面，确定待发送视频帧所属的目标视频切片。再确定目标视频切片对应的码率，其中，目标视频切片对应的码率基于目标视频切片包括的视频帧的图像画面确定。然后根据目标视频切片对应的码率，对待发送视频帧进行编码。由于本发明实施例可以确定待发送视频帧所属的目标视频切片对应的码率，而且目标视频切片对应的码率是根据目标视频切片包括的视频帧的图像画面确定的，所以本发明实施例可以用适合目标视频切片的码率，对待发送视频进行编码。避免了对码率要求较低的视频切片使用较高码率进行编码，且避免了对码率要求较高视频切片使用较低码率进行编码，所以本发明实施例可以使得视频图像编码方法更合理。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频图像编码方法流程图；

图2为本发明实施例提供的一种划分视频切片的示例性示意图；

图3为本发明实施例提供的另一种视频图像编码方法流程图；

图4为本发明实施例提供的另一种划分视频切片的示例性示意图；

图5为本发明实施例提供的另一种视频图像编码方法流程图；

图6为本发明实施例提供的一种获取视频帧对应的场景类别的示例性示意图；

图7为本发明实施例提供的一种视频图像编码装置结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例基于视频切片技术实现，视频切片技术也称为镜头转换检测技术，用于检测两个相邻的镜头之间的跳转帧，从而将一个视频划分为多个视频切片。一个视频切片是一个完整的镜头，一个视频切片包括的各视频帧具有时间及空间内的连续性和相似性。

一个视频一般由多个视频切片组成，其中既存在宏观切片，也存在局部特写切片，既存在相对动态的切片、也存在相对静态的切片。例如，一个足球比赛的视频中，包括的视频切片有：场外观众观赛、演播厅主持人解说、运动员射门、运动员对抗等。其中，场外观众观赛属于宏观切片，运动员对抗属于局部特写切片，演播厅主持人解说属于相对静态的切片，运动员射门属于相对动态的切片。

参见图1，图1为本发明实施例提供的一种视频图像编码方法流程图，应用于电子设备，其中，电子设备可以为：终端(例如，手机或平板电脑)或服务器。该方法包括如下步骤：

步骤101，获取待发送视频的待发送视频帧。

可以理解的是，待发送视频可以为终端将要向服务器发送的视频，例如，终端将要向服务器发送的直播视频；或者，待发送视频还可以为服务器将要向终端发送的该终端请求获取的视频，例如，服务器将要向终端发送的终端请求获取的足球直播视频；或者，待发送视频还可以为终端将要向其他终端发送的视频，例如：两个终端将要向对方发送的实时通话视频；但并不限于此。

步骤102，根据待发送视频帧的图像画面，确定待发送视频帧所属的目标视频切片。

一种实施方式中，可以根据待发送视频帧的图像画面与待发送视频帧之前指定数量的视频帧中每一视频帧的图像画面之间的相似度，确定待发送视频帧所属的目标视频切片。

步骤103，确定目标视频切片对应的码率。

其中，目标视频切片对应的码率基于目标视频切片包括的视频帧的图像画面确定。

一种实施方式中，从已确定的视频切片对应的码率中，获取目标视频切片对应的码率。

例如，已确定视频帧1、视频帧2和视频帧3均属于视频切片A，根据这3个视频帧的图像画面确定视频切片A对应的码率为5兆比特每秒(Million bits per second，MBps)，此时若确定视频帧4属于视频切片A，则获取视频切片A对应的码率为5MBps。

另一种实施方式中，可以根据目标视频切片包括的预设数量的视频帧的图像画面，确定目标视频切片对应的目标场景类别，然后各场景类别及码率的对应关系，确定目标场景类别对应的码率。其中，目标场景类别为目标视频切片包括的视频帧的图像画面表示的场景。

步骤104，根据目标视频切片对应的码率，对待发送视频帧进行编码。

可以理解的，步骤103确定的是适合目标视频切片编码的码率，在实际应用中，影响视频帧的编码码率的因素还有很多(例如：电子设备的带宽占有量)，所以在对待发送视频帧进行编码时，可以设置待发送视频帧的实际编码码率尽量接近步骤103确定的码率。

本发明实施例提供的视频图像编码方法，可以获取待发送视频的待发送视频帧。然后根据待发送视频帧的图像画面，确定待发送视频帧所属的目标视频切片。再确定目标视频切片对应的码率，其中，目标视频切片对应的码率基于目标视频切片包括的视频帧的图像画面确定。然后根据目标视频切片对应的码率，对待发送视频帧进行编码。由于本发明实施例可以确定待发送视频帧所属的目标视频切片对应的码率，而且目标视频切片对应的码率是根据目标视频切片包括的视频帧的图像画面确定的，所以本发明实施例可以用适合目标视频切片的码率，对待发送视频进行编码。避免了对码率要求较低的视频切片使用较高码率进行编码，且避免了对码率要求较高视频切片使用较低码率进行编码，所以本发明实施例可以使得视频图像编码方法更合理。

可选的，参见图2，可以利用如下步骤确定上述步骤102确定的目标视频切片：

步骤201，分别计算待发送视频帧的图像画面与待发送视频帧之前指定数量的视频帧中每一视频帧的图像画面之间的相似度。

在本发明实施例中，指定数量的视频帧为：待发送视频帧的前一个切片视频帧与待发送视频帧之间指定数量的视频帧。其中，切片视频帧的图像画面与切片视频帧之前指定数量的视频帧中每一视频帧的图像画面的相似度的平均值小于预设阈值。

例如：指定数量为2，待发送视频帧为视频帧5，待发送视频帧的前一个切片视频帧为视频帧1。计算视频帧5的图像画面和视频帧4的图像画面之间的相似，并计算视频帧5的图像画面和视频帧3的图像画面之间的相似度。

步骤202，若计算的相似度的平均值大于或等于预设阈值，则确定目标视频切片为指定数量的视频帧所属的视频切片。

可以理解的，若计算的相似度的平均值大于或等于预设阈值，说明待发送视频帧与指定数量的视频帧画面相似，属于同一个视频切片。

步骤203，若计算的相似度的平均值小于预设阈值，则确定目标视频切片为指定数量的视频帧所属的视频切片的下一个视频切片。

可以理解的，若计算的相似度的平均值小于预设阈值，说明待发送视频帧与待发送视频帧之前指定数量的视频帧画面的相似度都较小，可以认为待发送视频帧不属于指定数量的视频帧所属的视频切片。所以从待发送视频帧开始划分新的切片，并将待发送视频帧确定为一个切片视频帧。

示例性的，计算相似度的方法为：相关系数算法、直方图匹配算法、小波哈希相似度算法或感知哈希相似度算法等。本发明实施例对计算相似度的方法不作具体限定。

例如：假设指定数量为2，视频帧3的图像画面和视频帧2的图像画面之间的相似度为：0.8，视频帧3的图像画面和视频帧1的图像画面之间的相似度为：0.6。所以视频帧3的图像画面与视频帧3之前指定数量的视频帧中每一视频帧的图像画面之间的相似度的平均值为：(0.8+0.6)/2＝0.7。

可以理解的，用多种相似度计算方法计算各视频帧对应的平均值，并根据多个计算结果确定各视频帧对应的平均值更准确，当然也可以用一种方法计算各视频帧对应的平均值，本发明对此不作具体限定。其中，视频帧对应的平均值指的是：视频帧的图像画面与该视频帧之前指定数量的视频帧中每一视频帧的图像画面之间的相似度的平均值。

例如，用多种相似度计算方法，分别计算各视频帧对应的平均值。针对每一视频帧，计算该视频帧对应的平均值的平均值，将计算结果确定为该视频帧对应的平均值。

可选的，若待发送视频帧的前一个切片视频帧与待发送视频帧之间视频帧数量小于指定数量，可以将指定数量确定为：待发送视频帧的前一个切片视频帧与待发送视频帧之间视频帧数量。可以理解的，指定数量的视频帧都属于同一个视频切片。

可以理解的，一个视频切片的切片时长一般不会低于500毫秒，若视频的每秒传输帧数(Frames Per Second，FPS)为24，可以设置一个切片视频帧之后的10个视频帧不被确定为切片视频帧。

例如：如图3所示，图3的折线图的横轴表示视频帧的时间戳，纵轴表示视频帧的图像画面与该视频帧之前指定数量的视频帧中每一视频帧的图像画面之间的相似度的平均值。图3所示的视频帧中，相邻的视频帧之间还包括其他视频帧，这些其他视频帧在图3中未示出。

从图3中可以看出，视频帧D对应的平均值较低，而且视频帧B对应的平均值较高，视频帧C对应的平均值较高。所以将视频帧A、视频帧B和视频帧C确定为同一视频切片，并将视频帧D所属的视频切片确定为视频帧A、视频帧B和视频帧C所属的视频切片的下一个视频切片。

同理，视频帧G对应的平均值较低，视频帧F对应的平均值较高，视频帧E对应的平均值较高。所以将视频帧D、视频帧E和视频帧F确定为同一视频切片，并将视频帧G所属的视频切片确定为视频帧D、视频帧E和视频帧F所属的视频切片的下一个视频切片。

同理，视频帧H对应的平均值较低，所以将视频帧H所属的视频切片确定为视频帧G所属的视频切片的下一个视频切片。

本发明实施例还包括如下有益效果：由于一个视频切片包括的各视频帧具有时间及空间内的连续性和相似性，而且本发明实施例可以根据视频切片包括的视频帧的图像画面，确定视频切片对应的码率，然后根据确定的码率，对视频切片包括的视频帧进行编码，使得确定的各视频帧的编码码率更合理。

可以理解的，当待发送视频为直播视频时，本发明实施例中的电子设备获取到的是直播视频连续的视频帧，电子设备根据各视频帧在直播视频中的排列顺序，依次针对每一视频帧，确定该视频帧所属的视频切片，然后确定该视频切片对应的码率，再根据确定的码率，对该视频帧进行编码。

其中，可以根据一个视频切片包括的其中一个视频帧，确定该视频切片对应的码率。还可以根据一个视频切片包括的多个视频帧，确定该视频切片对应的码率。

例如：如图4所示，在确定视频帧码率时，电子设备确定视频帧1所属的视频切片为视频切片A，并根据视频帧1的图像画面，确定视频切片A包括的视频帧对应的码率为x，所以视频帧1对应的码率为x。再确定视频帧2所属的视频切片为视频切片A，所以视频帧2对应的码率确定为x。再确定视频帧3所属的视频切片为视频切片A，所以视频帧3对应的码率确定为x。再确定视频帧4所属的视频切片为视频切片B，并根据视频帧4的图像画面，确定视频切片B包括的视频帧对应的码率为y，所以视频帧4对应的码率为y。按照上述确定视频帧对应的码率的方法，依次确定电子设备获取到的各视频帧的码率。

或者，在确定视频帧码率时，电子设备确定视频帧1所属的视频切片为视频切片A，再确定视频帧2所属的视频切片为视频切片A，此时根据视频帧1和视频帧2确定视频切片A对应的码率为x，所以视频帧1和视频帧2对应的码率为x。再确定视频帧3所属的视频切片为视频切片A，所以视频帧3对应的码率确定为x。按照上述确定视频帧对应的码率的方法，依次确定电子设备获取到的各视频帧的码率。

在视频帧编码时，电子设备按照各视频帧在直播视频中的排列顺序，利用视频帧对应的码率对该视频帧进行编码。若需要编码的视频帧对应的码率还未确定，则等待该需要编码的视频帧确定码率后，利用确定的码率对该需要编码的视频帧进行编码。

当待发送视频为本地已存储的视频时，同样可以采用上述方法对待发送视频进行编码。

可选的，参见图5，可以采用如下步骤确定上述步骤103中的目标视频切片对应的码率。

步骤501，从目标视频切片中，抽取预设数量的视频帧。

可以理解的，预设数量可以为一个也可以为多个，预设数量越大，抽取的视频帧越多，确定的目标场景类别越准确，所以确定目标视频切片对应的码率越准确。

可选的，可以随机从目标视频切片中抽取视频帧。或者还可以按照预设间隔，从目标视频切片中抽取视频帧。

例如：预设数量可以为5个。

步骤502，将抽取的视频帧输入场景识别模型。

在本发明实施例中，场景识别模型可以为基于各场景类别的样本视频帧训练得到的模型。场景识别模型可以识别出输入的视频帧的图像画面对应的场景类别。

其中，场景识别模型的训练方式可以为深度学习、图像识别或者机器学习等。场景识别模型的表现形式可以为神经网络、代数表达式参数或者决策树等。

示例性的，场景识别模型的结构如图6所示，图6中的场景识别模型为一个卷积神经网络，包括：卷积层(convolutional)、池化层(pooling)、全连接层(fully-connected)和分类层(softmax)。其中，卷积层可以包括三个部分，分别为卷积(conv)、批量标准化(batchnormalization)和整流线性单元(Rectified Linear Unit，ReLU)；池化层可以包括：待步长的卷积，比如步长为2，每处理一个像素后跳过另一个像素，因而可以起到图像尺寸压缩的作用，即经过池化层之后，输出的特征图相比于输入池化层的特征图，尺寸会缩小；全连接层包括线性(Linear)单元。

例如：预先将足球比赛视频划分为各个视频切片，一个视频切片包括的各视频帧均属于一种场景类别。足球比赛的场景类别包括：远距离宏观赛场、中距离局部对抗、近距离球员特写、球员射门、球员突破对方后卫防线、回放、场外观众观赛和演播厅主持人解说。

然后用足球比赛视频包括的各个样本视频帧，基于深度学习算法，训练卷积神经网络，获得场景识别模型。

步骤503，获取场景识别模型输出的预设数量的视频帧对应的场景类别。

例如，如图6所示，将视频帧的图像画面输入场景识别模型，获取场景视频模型输出的：近距离球员特写。将近距离球员特写确定为该视频帧对应的场景类别。

步骤504，从获取的场景类别中，将数量最多的场景类别确定为目标场景类别。

例如：获取的场景类别为：近距离球员特写、球员射门、球员射门和球员射门。说明从该视频切片抽取的视频帧中，有3帧都属于球员射门，仅有1帧属于近距离球员特写，所以该视频切片属于球员射门的概率最高，所以电子设备将球员射门确定为目标场景类别。

步骤505，根据各场景类别及码率的对应关系和目标场景类别，确定目标场景类别对应的码率。

可以理解的，场景类别对应的码率可以根据场景类别的稳定性及场景类别的重要性确定。其中，场景类别的稳定性表示属于该场景类别的视频切片包括的各视频帧之间的相似度。场景类别的重要性表示属于该场景类别的视频切片所需的清晰度。

场景类别的稳定性越高，表示属于该场景类别的视频切片包括的各视频帧之间相似度越高，各视频帧数据量越小，该场景类别对应的码率越低。场景类别的稳定性越低，表示属于该场景类别的视频切片包括的各视频帧之间相似度越低，各视频帧数据量越大，该场景类别对应的码率越高。

场景类别的重要性越高，表示属于该场景类别的视频切片所需的清晰度越高，属于该场景类别的视频切片包括的视频帧数据量越大，该场景类别对应的码率越高。场景类别的重要性越低，表示属于该场景类别的视频切片所需的清晰度越低，属于该场景类别的视频切片包括的视频帧数据量越小，场景类别对应的码率越低。

例如，在球员射门场景中，不仅需要射门的球员的清晰画面，还需要防守球员的清晰画面。在球员带球奔跑场景中，需要带球的球员的清晰画面，其他球员的奔跑画面则对清晰度要求较低。所以球员射门场景比球员带球奔跑场景对应的码率高。

另外，由于属于宏观场景类别的视频切片所需的清晰度比属于局部特写场景类别的视频切片所需的清晰度低，所以宏观场景类别比局部特写场景类别对应的码率低。

可以理解的，可以根据步骤505确定的码率，对待发送视频帧进行编码。例如，步骤505确定的码率为6MBps，而电子设备的带宽占有量为5MBps，由于实际码率不能超过带宽占有量，所以按照5MBps对待发送视频帧进行编码。

上述确定待发送视频帧实际码率的方法仅为本发明实施例提供的一种示例，本发明实施例对确定待发送视频帧实际码率的方法不作具体限定。

可见，由于本发明实施例根据目标视频切片对应的场景类别，确定目标视频切片对应的码率，用符合目标场景类别的码率，对目标视频切片包括的视频帧进行编码。可以利用较高的码率对相对动态的切片进行编码，利用较低的码率对相对静态的切片进行编码，利用较高的码率对局部特写切片进行编码，利用较低的码率对宏观切片进行编码。实现了在减少视频传输时消耗的码率的同时，减少传输后的视频画面失真的情况。

另外，在本发明实施例中，可以根据同一个视频切片中多个视频帧对应的场景类别，确定该视频切片对应的场景类别，提高了确定视频切片对应的场景类别的准确性和鲁棒性。

对应于上述方法实施例，如图7所示，本发明实施例提供了一种视频图像编码装置，应用于电子设备，该装置包括：获取模块701、确定模块702和编码模块703。

获取模块701，用于获取待发送视频的待发送视频帧；

确定模块702，用于根据获取模块701获取的待发送视频帧的图像画面，确定待发送视频帧所属的目标视频切片；

确定模块702，还用于确定目标视频切片对应的码率，视频切片对应的码率基于视频切片包括的视频帧的图像画面确定；

编码模块703，用于根据确定模块702确定的目标视频切片对应的码率，对待发送视频帧进行编码。

可选的，确定模块702，可以具体用于：

分别计算待发送视频帧的图像画面与待发送视频帧之前指定数量的视频帧中每一视频帧的图像画面之间的相似度；

若计算的相似度的平均值大于或等于预设阈值，则确定目标视频切片为指定数量的视频帧所属的视频切片；

若计算的相似度的平均值小于预设阈值，则确定目标视频切片为指定数量的视频帧所属的视频切片的下一个视频切片。

可选的，确定模块702，可以具体用于：

从已确定的视频切片对应的码率中，获取目标视频切片对应的码率。

可选的，确定模块702，可以具体用于：

根据目标视频切片包括的预设数量的视频帧的图像画面，确定目标视频切片对应的目标场景类别，目标场景类别为目标视频切片包括的视频帧的图像画面表示的场景；

根据各场景类别及码率的对应关系和目标场景类别，确定目标场景类别对应的码率。

可选的，确定模块702，可以具体用于：

从目标视频切片中，抽取预设数量的视频帧；

将抽取的视频帧输入场景识别模型；

获取场景识别模型输出的预设数量的视频帧对应的场景类别；

从获取的场景类别中，将数量最多的场景类别确定为目标场景类别。

本发明实施例还提供了一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现上述方法实施例中由电子设备执行的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一视频图像编码方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一视频图像编码方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频图像编码方法，其特征在于，所述方法包括：

获取待发送视频的待发送视频帧；

2.根据权利要求1所述的方法，其特征在于，所述根据所述待发送视频帧的图像画面，确定所述待发送视频帧所属的目标视频切片，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定所述目标视频切片对应的码率，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述目标视频切片对应的码率，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标视频切片包括的预设数量的视频帧的图像画面，确定所述目标视频切片对应的目标场景类别，包括：

从所述目标视频切片中，抽取所述预设数量的视频帧；

将抽取的视频帧输入场景识别模型；

6.一种视频图像编码装置，其特征在于，所述装置包括：

获取模块，用于获取待发送视频的待发送视频帧；

7.根据权利要求6所述的装置，其特征在于，所述确定模块，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述确定模块，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述确定模块，具体用于：

10.根据权利要求9所述的装置，其特征在于，所述确定模块，具体用于：

从所述目标视频切片中，抽取所述预设数量的视频帧；

将抽取的视频帧输入场景识别模型；

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。