CN111988664A

CN111988664A - 视频处理方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN111988664A
Application number: CN202010904742.2A
Authority: CN
Inventors: 刘春宇
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2020-11-24
Anticipated expiration: 2040-09-01
Also published as: CN111988664B

Abstract

本申请提供了一种视频处理方法、装置、计算机设备及计算机可读存储介质，属于视频处理技术领域。本申请通过在计算机设备中预先存储各个对象类别对应的预设宽高比，再识别第一视频数据的视频帧所包括的对象类别和对象尺寸，以确定视频帧中对象的对象宽高比，进而在对象宽高比与对应对象类别的预设宽高比不匹配时，即可确定视频发生了形变，进而基于对象宽高比与预设宽高比确定出的变形信息，来对视频帧进行变形处理，实现形变视频的还原，得到还原后的第二视频数据，提高视频处理效果，进而提高用户体验。

Description

视频处理方法、装置、计算机设备及计算机可读存储介质

技术领域

本申请涉及视频处理技术领域，特别涉及一种视频处理方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着计算机技术的发展和人民生活水平的提高，视频成为人们休闲娱乐活动中的一种主要载体。用户通过观看他人发布的视频，或者自行录制视频、合成视频并进行上传，来与他人进行交流，丰富了人与人之间交流形式，丰富了人们的休闲娱乐生活。

在视频录制、视频合成和视频传输的过程中，很可能出现错误，导致视频宽高比发生变化，也即是，导致视频发生形变，从而导致视频中的人物、物体等也会发生形变，导致视频处理效果较差，从而导致用户的观看体验差。

发明内容

本申请实施例提供了一种视频处理方法、装置、计算机设备及计算机可读存储介质，可以提高视频处理效果，从而提高用户的观看体验。该技术方案如下：

一方面，提供了一种视频处理方法，该方法包括：

对第一视频数据的视频帧进行识别，得到该视频帧所包括对象的对象类别和对象尺寸；

若基于该对象尺寸确定出的对象宽高比，与对应对象类别的预设宽高比不匹配，则基于该对象尺寸和该预设宽高比，确定变形信息，该变形信息用于指示对该视频帧进行变形处理时所采用的变形比例；

根据该变形信息，对该视频帧进行变形处理，基于变形处理后的视频帧生成第二视频数据。

在一种可能的实现方式中，该基于该对象尺寸和该预设宽高比，确定变形信息包括：

从该对象类别中确定目标对象类别，其中，该视频帧中属于该目标对象类别的对象的数量最多；

以该预设宽高比中的分子为基准，基于该对象宽高比中的分母和该预设宽高比中的分母，确定变形信息。

在一种可能的实现方式中，该以该预设宽高比中的分子为基准，基于该对象宽高比中的分母和该预设宽高比中的分母，确定变形信息包括：

若该对象宽高比中的分子和该预设宽高比中的分子不一致，则以该预设宽高比中的分子为基准，对该对象宽高比进行约分处理，得到处理后的对象宽高比，该处理后的对象宽高比中的分子与该预设宽高比中的分子一致；

确定该处理后的对象宽高比中的分母的平均值，与该预设宽高比中的分母的差值；

将该差值与该预设宽高比中的分母的比值，确定为该变形信息。

在一种可能的实现方式中，该根据该变形信息，对该视频帧进行变形处理包括：

若该对象宽高比大于该预设宽高比，则根据该变形信息，保持该视频帧的宽度不变，对该视频帧进行拉伸处理；

若该对象宽高比小于该预设宽高比，则根据该变形信息，保持该视频帧的宽度不变，对该视频帧进行缩放处理。

在一种可能的实现方式中，该若基于该对象尺寸确定出的对象宽高比，与对应对象类别的预设宽高比不匹配，则基于该对象尺寸和该预设宽高比，确定变形信息之前，该方法还包括：

根据该对象尺寸，确定该对象宽高比；

获取该视频帧所包括对象的对象类别的预设宽高比；

将该对象宽高比与对应对象类别的预设宽高比进行比较。

在一种可能的实现方式中，该对第一视频数据的视频帧进行识别，得到该视频帧所包括对象的对象类别和对象尺寸包括：

将该视频帧输入对象识别模型，输出该视频帧所包括对象的对象定位框和对象类别，该对象识别模型用于对该视频帧所包括的对象和对应的对象类别进行识别；

根据该对象定位框，确定该视频帧所包括对象的对象尺寸。

在一种可能的实现方式中，该将该视频帧输入对象识别模型，输出该视频帧所包括对象的对象定位框和对象类别包括：

通过该对象识别模型的卷积层，提取该视频帧的卷积特征；

通过该对象识别模型的采样层，提取该卷积特征的采样特征；

通过该对象识别模型的分类器，基于该采样特征，确定该视频帧所包括对象的对象定位框以及所属的对象类别。

一方面，提供了一种视频处理装置，该装置包括：

识别模块，用于对第一视频数据的视频帧进行识别，得到该视频帧所包括对象的对象类别和对象尺寸；

第一确定模块，用于若基于该对象尺寸确定出的对象宽高比，与对应对象类别的预设宽高比不匹配，则基于该对象尺寸和该预设宽高比，确定变形信息，该变形信息用于指示对该视频帧进行变形处理时所采用的变形比例；

处理模块，用于根据该变形信息，对该视频帧进行变形处理；

生成模块，用于基于变形处理后的视频帧生成第二视频数据。

在一种可能的实现方式中，该第一确定模块包括类别确定子模块和信息确定子模块；

该类别确定子模块，用于从该对象类别中确定目标对象类别，其中，该视频帧中属于该目标对象类别的对象的数量最多；

该信息确定子模块，用于以该预设宽高比中的分子为基准，基于该对象宽高比中的分母和该预设宽高比中的分母，确定变形信息。

在一种可能的实现方式中，该信息确定子模块，用于若该对象宽高比中的分子和该预设宽高比中的分子不一致，则以该预设宽高比中的分子为基准，对该对象宽高比进行约分处理，得到处理后的对象宽高比，该处理后的对象宽高比中的分子与该预设宽高比中的分子一致，确定该处理后的对象宽高比中的分母的平均值，与该预设宽高比中的分母的差值，将该差值与该预设宽高比中的分母的比值，确定为该变形信息。

在一种可能的实现方式中，该处理模块，用于若该对象宽高比大于该预设宽高比，则根据该变形信息，保持该视频帧的宽度不变，对该视频帧进行拉伸处理，若该对象宽高比小于该预设宽高比，则根据该变形信息，保持该视频帧的宽度不变，对该视频帧进行缩放处理。

在一种可能的实现方式中，该装置还包括：

第二确定模块，用于根据该对象尺寸，确定该对象宽高比；

获取模块，用于获取该视频帧所包括对象的对象类别的预设宽高比；

比较模块，用于将该对象宽高比与对应对象类别的预设宽高比进行比较。

在一种可能的实现方式中，该识别模块包括识别子模块和确定子模块；

该识别子模块，用于将该视频帧输入对象识别模型，输出该视频帧所包括对象的对象定位框和对象类别，该对象识别模型用于对该视频帧所包括的对象和对应的对象类别进行识别；

该确定子模块，用于根据该对象定位框，确定该视频帧所包括对象的对象尺寸。

在一种可能的实现方式中，该识别子模块，用于通过该对象识别模型的卷积层，提取该视频帧的卷积特征，通过该对象识别模型的采样层，提取该卷积特征的采样特征，通过该对象识别模型的分类器，基于该采样特征，确定该视频帧所包括对象的对象定位框以及所属的对象类别。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该程序代码由该一个或多个处理器加载并执行以实现该视频处理方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该程序代码由处理器加载并执行以实现该视频处理方法所执行的操作。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，以实现该视频处理方法所执行的操作。

本申请提供的方案，通过在计算机设备中预先存储各个对象类别对应的预设宽高比，再识别第一视频数据的视频帧所包括的对象类别和对象尺寸，以确定视频帧中对象的对象宽高比，进而在对象宽高比与对应对象类别的预设宽高比不匹配时，即可确定视频发生了形变，进而基于对象宽高比与预设宽高比确定出的变形信息，来对视频帧进行变形处理，实现形变视频的还原，得到还原后的第二视频数据，提高视频处理效果，进而提高用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频处理方法的实施环境示意图；

图2是本申请实施例提供的一种视频处理方法的流程图；

图3是本申请实施例提供的一种视频处理方法的流程图；

图4是本申请实施例提供的一种视频处理方法的效果示意图；

图5是本申请实施例提供的一种视频处理装置的结构示意图；

图6是本申请实施例提供的一种终端的结构示意图；

图7是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种视频处理方法的实施环境示意图，参见图1，该实施环境包括：终端101和服务器102。

终端101可以为智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。终端101的可视化界面上设置有录制按钮，用户通过触发该录制按钮来进行视频的录制，终端101响应于用户的触发操作，通过摄像头组件获取画面图像，通过麦克风组件获取声音，基于获取到的画面图像和声音生成视频数据，可选地，该摄像头组件和该麦克风组件内置或外接于终端101，本申请实施例对此不加以限定。终端101上安装并运行有视频编辑类应用程序，用户通过该视频编辑类应用程序，来对录制得到的视频数据进行进一步处理，得到合成的或渲染后的视频数据。终端101通过有线或无线通信方式与服务器102进行通信，以便将用户通过终端101获取到的视频数据上传至服务器102，并从服务器102获取其他用户上传的视频数据。终端101还能够对终端101自行生成的视频数据，以及从服务器102获取到的视频数据进行播放，以便用户通过终端101来观看视频。

终端101可以泛指多个终端中的一个，本实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为几个，或者上述终端为几十个或几百个，或者更多数量，本申请实施例对终端101的数量和设备类型均不加以限定。

服务器102可以为一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。可选地，服务器102通过有线或无线通信方式与终端101进行通信，本申请实施例对此不加以限定。服务器102接收终端101发送的视频数据，并在接收到任一用户的视频数据获取请求时，将获取到的视频数据发送给该用户，或者，服务器102对接收到的视频数据进行存储，以便在接收到任一用户的视频数据获取请求时，将已存储的视频数据发送给该用户。可选地，上述服务器的数量可以更多或更少，本申请实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

图2是本申请实施例提供的一种视频处理方法的流程图，参见图2，该方法包括：

201、计算机设备对第一视频数据的视频帧进行识别，得到该视频帧所包括对象的对象类别和对象尺寸。

202、若基于该对象尺寸确定出的对象宽高比，与对应对象类别的预设宽高比不匹配，则计算机设备基于该对象尺寸和该预设宽高比，确定变形信息，该变形信息用于指示对该视频帧进行变形处理时所采用的变形比例。

203、计算机设备根据该变形信息，对该视频帧进行变形处理，基于变形处理后的视频帧生成第二视频数据。

本申请实施例提供的方案，通过在计算机设备中预先存储各个对象类别对应的预设宽高比，再识别第一视频数据的视频帧所包括的对象类别和对象尺寸，以确定视频帧中对象的对象宽高比，进而在对象宽高比与对应对象类别的预设宽高比不匹配时，即可确定视频发生了形变，进而基于对象宽高比与预设宽高比确定出的变形信息，来对视频帧进行变形处理，实现形变视频的还原，得到还原后的第二视频数据，提高视频处理效果，进而提高用户体验。

根据该对象尺寸，确定该对象宽高比；

获取该视频帧所包括对象的对象类别的预设宽高比；

将该对象宽高比与对应对象类别的预设宽高比进行比较。

根据该对象定位框，确定该视频帧所包括对象的对象尺寸。

通过该对象识别模型的卷积层，提取该视频帧的卷积特征；

图3是本申请实施例提供的一种视频处理方法的流程图，参见图3，该方法包括：

301、计算机设备将第一视频数据的视频帧输入对象识别模型，输出该视频帧所包括对象的对象定位框和对象类别，该对象识别模型用于对该视频帧所包括的对象和对应的对象类别进行识别。

在一种可能的实现方式中，计算机设备将该第一视频数据的视频帧输入对象识别模型，通过该对象识别模型的卷积层，提取该视频帧的卷积特征，通过该对象识别模型的采样层，提取该卷积特征的采样特征，通过该对象识别模型的分类器，基于该采样特征，确定该视频帧所包括对象的对象定位框以及所属的对象类别。

需要说明的是，该对象识别模型由计算机设备基于样本图像预先训练得到，该对象识别模型的训练过程如下：

计算机设备获取多个样本图像以及各个样本图像中所包括对象的标注对象定位框和标注对象类别，计算机设备将该多个样本图像逐个输入初始模型，通过初始模型的卷积层，提取该样本图像的样本卷积特征，通过该初始模型的采样层，提取该样本卷积特征的样本采样特征，再通过该初始模型的分类器，根据该样本采样特征，得到该样本图像中所包括对象的样本对象定位框和样本对象类别，进而根据获取到的样本图像中所包括对象的标注对象定位框和标注对象类别，以及模型处理得到的样本对象定位框和样本对象类别，确定初始模型的损失函数值，根据该损失函数值，通过梯度下降法，对该初始模型的参数进行调整，再继续对下一个样本图像进行与上述过程同理的处理，直至调整后的初始模型满足预设条件，则将满足预设条件的初始模型作为训练好的对象识别模型。

可选地，该预设条件为预测结果的准确性满足迭代截止条件，或者，该预设条件为损失函数值满足迭代截止条件，或者，该预设条件为迭代次数达到预设次数，本申请实施例对具体采用哪种条件作为预设条件不加以限定。

302、计算机设备根据该对象定位框，确定该视频帧所包括对象的对象尺寸。

在一种可能的实现方式中，计算机设备根据该对象定位框，确定该对象定位框的宽度或高度，作为该视频帧所包括对象的对象宽度和对象高度，也即是，该视频帧所包括对象的对象尺寸。

需要说明的是，上述步骤301至步骤302仅为一种确定视频帧所包括对象的对象类别和对象尺寸的示例性方法，在更多可能的实现方式中，采用其他方法来进行视频帧所包括对象的对象类别和对象尺寸的确定，本申请实施例对具体采用哪种方式不加以限定。

303、计算机设备根据该对象尺寸，确定对象宽高比。

在一种可能的实现方式中，该对象尺寸包括对象宽度和对象高度，计算机设备将对象宽度和对象高度的比值，确定为该对象宽高比。

304、计算机设备获取该视频帧所包括对象的对象类别的预设宽高比。

需要说明的是，该计算机设备中预先存储有多个对象类别以及各个对象类别的正常比例参数，也即是，多个对象类别的预设宽高比，例如，人物的预设宽高比为1:10，手机的预设宽高比为1:2，显示器的预设宽高比为2:1，等等。

在一种可能的实现方式中，计算机设备根据步骤301识别出的对象类别，从已存储的数据中，获取该对象类别对应的预设宽高比。

305、计算机设备将该对象宽高比与对应对象类别的预设宽高比进行比较。

306、若基于该对象尺寸确定出的对象宽高比，与对应对象类别的预设宽高比不匹配，则计算机设备从该对象类别中确定目标对象类别，其中，该视频帧中属于该目标对象类别的对象的数量最多。

在一种可能的实现方式中，若基于该对象尺寸确定出的对象宽高比，与对应对象类别的预设宽高比不匹配，则计算机设备确定该视频帧发生了形变，进而根据步骤301中确定出的视频帧所包括对象的对象类别，确定视频帧中属于各个对象类别的对象的数量，将属于某一类别的对象数量最多的对象类别，确定为目标对象类别。

例如，若计算机设备在步骤301中识别出视频数据的视频帧包括人物1、人物2和手机1以及三者对应的尺寸，通过步骤303确定出人物1的对象宽高比为1:10，人物2的对象宽高比为1:11，手机1的对象宽高比为1:3，通过步骤304获取到人物的预设宽高比为1:10，手机的预设宽高比为1:3，通过对对象宽高比和预设宽高比进行比较，确定视频数据的视频帧发生了形变，而人物所包括的对象的数量为2个，手机所包括的对象的数量为1个，因而以包含对象数量最多的人物作为目标对象类别。

307、计算机设备以该预设宽高比中的分子为基准，基于该对象宽高比中的分母和该预设宽高比中的分母，确定变形信息。

在一种可能的实现方式中，若该对象宽高比中的分子和该预设宽高比中的分子一致，则计算机设备确定该对象宽高比中的分母的平均值，与该预设宽高比中的分母的差值，将该差值与该预设宽高比中的分母的比值，确定为该变形信息。例如，仍以上述步骤306中视频帧所包括的人物1的对象宽高比为1:10，人物2的对象宽高比为1:11，手机1的对象宽高比为1:3为例，人物1和人物2的对象宽高比中的分子与人物对应的预设宽高比中的分子一致，因而计算机设备直接确定人物1和人物2的对象宽高比中的分母的平均值为10.5，进而确定该平均值与人物对应的预设宽高比中的分母的差值为0.5，将0.5与10的比值0.05，确定为该变形信息。又如，以人物作为目标对象类别，视频帧中包括人物3和人物4，人物3的对象宽高比为1:8，人物4的对象宽高比为1:9，人物3和人物4的对象宽高比中的分子与人物对应的预设宽高比中的分子一致，因而计算机设备直接确定人物3和人物4的对象宽高比中的分母的平均值为8.5，进而确定该平均值与人物对应的预设宽高比中的分母的差值为1.5，将1.5与10的比值0.15，确定为该变形信息。

在另一种可能的实现方式中，若该对象宽高比中的分子和该预设宽高比中的分子不一致，则计算机设备以该预设宽高比中的分子为基准，对该对象宽高比进行约分处理，得到处理后的对象宽高比，该处理后的对象宽高比中的分子与该预设宽高比中的分子一致，确定该处理后的对象宽高比中的分母的平均值，与该预设宽高比中的分母的差值，将该差值与该预设宽高比中的分母的比值，确定为该变形信息。例如，以视频数据的视频帧中识别出人物5和人物6，人物5的对象宽高比为1:11，人物6的对象宽高比为2:21为例，人物6的对象宽高比中的分子与人物对应的预设宽高比中的分子不一致，因而计算机设备通过对人物6的对象宽高比进行约分处理，将人物6的对象宽高比处理为1:10.5，进而确定人物5和人物6的对象宽高比中的分母的平均值为10.75，进而确定该平均值与人物对应的预设宽高比中的分母的差值为0.75，将0.75与10的比值0.075，确定为该变形信息。

308、计算机设备根据该变形信息，对该视频帧进行变形处理。

在一种可能的实现方式中，若该对象宽高比大于该预设宽高比，则计算机设备根据该变形信息，保持该视频帧的宽度不变，对该视频帧进行拉伸处理。继续以上述步骤307中以人物作为目标对象类别，视频帧中包括人物3和人物4，人物3的对象宽高比为1:8，人物4的对象宽高比为1:9为例进行说明，通过对对象宽高比和预设宽高比进行比较，确定对象宽高比大于预设宽高比，则确定视频帧的高度被压缩，若第一视频数据中各个视频帧的尺寸为720*1113，则保持视频帧的宽度不变，将视频帧的高度拉伸0.15*1113≈167，则拉伸后视频帧的高度为1113+167＝1280，实现对视频帧的变形处理。

在另一种可能的实现方式中，若该对象宽高比小于该预设宽高比，则计算机设备根据该变形信息，保持该视频帧的宽度不变，对该视频帧进行缩放处理。继续以上述步骤307中以人物作为目标对象类别，视频帧中包括人物1和人物2，人物1的对象宽高比为1:10，人物2的对象宽高比为1:11为例进行说明，通过对对象宽高比和预设宽高比进行比较，确定对象宽高比小于预设宽高比，则确定视频帧的高度被拉伸，若第一视频数据中各个视频帧的尺寸为720*1347，则保持视频帧的宽度不变，将视频帧的高度压缩0.05*1347≈67，则压缩后视频帧的高度为1347-67＝1280，实现对视频帧的变形处理。参见图4，图4是本申请实施例提供的一种视频处理方法的效果示意图，根据人物1、人物2的对象宽高比，以及人物的预设宽高比，即可将视频帧的尺寸由720*1347，还原为720*1280。

309、计算机设备基于变形处理后的视频帧生成第二视频数据。

在一种可能的实现方式中，计算机设备基于变形处理后的视频帧对应的时间戳，对变形处理后的视频帧进行编码，得到第二视频数据，作为后续传输或播放时所使用的视频数据。

本申请实施例提供的方案，通过在计算机设备中预先存储各个对象类别对应的预设宽高比，再识别第一视频数据的视频帧所包括的对象类别和对象尺寸，以确定视频帧中对象的对象宽高比，进而在对象宽高比与对应对象类别的预设宽高比不匹配时，即可确定视频发生了形变，进而基于对象宽高比与预设宽高比确定出的变形信息，来对视频帧进行变形处理，实现形变视频的还原，得到还原后的第二视频数据，提高视频处理效果，进而提高用户体验。通过本申请实施例提供的方案，识别视频数据的视频帧中所有的对象，通过基于识别得到的对象宽高比和多个对象的预设宽高比进行判断，来确定视频帧是否发生形变，进而基于对象宽高比和预设宽高比，来对形变视频进行还原，实现形变视频的修复。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图5是本申请实施例提供的一种视频处理装置的结构示意图，参见图5，该装置包括：

识别模块501，用于对第一视频数据的视频帧进行识别，得到该视频帧所包括对象的对象类别和对象尺寸；

第一确定模块502，用于若基于该对象尺寸确定出的对象宽高比，与对应对象类别的预设宽高比不匹配，则基于该对象尺寸和该预设宽高比，确定变形信息，该变形信息用于指示对该视频帧进行变形处理时所采用的变形比例；

处理模块503，用于根据该变形信息，对该视频帧进行变形处理；

生成模块504，用于基于变形处理后的视频帧生成第二视频数据。

本申请实施例提供的装置，通过在计算机设备中预先存储各个对象类别对应的预设宽高比，再识别第一视频数据的视频帧所包括的对象类别和对象尺寸，以确定视频帧中对象的对象宽高比，进而在对象宽高比与对应对象类别的预设宽高比不匹配时，即可确定视频发生了形变，进而基于对象宽高比与预设宽高比确定出的变形信息，来对视频帧进行变形处理，实现形变视频的还原，得到还原后的第二视频数据，提高视频处理效果，进而提高用户体验。

在一种可能的实现方式中，该第一确定模块502包括类别确定子模块和信息确定子模块；

在一种可能的实现方式中，该处理模块503，用于若该对象宽高比大于该预设宽高比，则根据该变形信息，保持该视频帧的宽度不变，对该视频帧进行拉伸处理，若该对象宽高比小于该预设宽高比，则根据该变形信息，保持该视频帧的宽度不变，对该视频帧进行缩放处理。

在一种可能的实现方式中，该装置还包括：

第二确定模块，用于根据该对象尺寸，确定该对象宽高比；

在一种可能的实现方式中，该识别模块501包括识别子模块和确定子模块；

需要说明的是：上述实施例提供的视频处理装置在对形变视频进行还原时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频处理装置与视频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，提供了一种计算机设备，可选地，该计算机设备提供为一种终端，或者，该计算机设备提供为一种服务器，终端和服务器的具体结构如下：

图6是本申请实施例提供的一种终端的结构示意图。该终端600可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：一个或多个处理器601和一个或多个存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器601所执行以实现本申请中方法实施例提供的视频处理方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置在终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在另一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时，由处理器601根据用户对显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置在终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制显示屏605的显示亮度。具体地，当环境光强度较高时，调高显示屏605的显示亮度；当环境光强度较低时，调低显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图7是本申请实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)701和一个或多个的存储器702，其中，该一个或多个存储器702中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器701加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器700还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由处理器执行以完成上述实施例中的视频处理方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述实施例中提供的视频处理方法的方法步骤。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来程序代码相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

对第一视频数据的视频帧进行识别，得到所述视频帧所包括对象的对象类别和对象尺寸；

若基于所述对象尺寸确定出的对象宽高比，与对应对象类别的预设宽高比不匹配，则基于所述对象尺寸和所述预设宽高比，确定变形信息，所述变形信息用于指示对所述视频帧进行变形处理时所采用的变形比例；

根据所述变形信息，对所述视频帧进行变形处理，基于变形处理后的视频帧生成第二视频数据。

2.根据权利要求1所述的方法，其特征在于，所述基于所述对象尺寸和所述预设宽高比，确定变形信息包括：

从所述对象类别中确定目标对象类别，其中，所述视频帧中属于所述目标对象类别的对象的数量最多；

以所述预设宽高比中的分子为基准，基于所述对象宽高比中的分母和所述预设宽高比中的分母，确定变形信息。

3.根据权利要求2所述的方法，其特征在于，所述以所述预设宽高比中的分子为基准，基于所述对象宽高比中的分母和所述预设宽高比中的分母，确定变形信息包括：

若所述对象宽高比中的分子和所述预设宽高比中的分子不一致，则以所述预设宽高比中的分子为基准，对所述对象宽高比进行约分处理，得到处理后的对象宽高比，所述处理后的对象宽高比中的分子与所述预设宽高比中的分子一致；

确定所述处理后的对象宽高比中的分母的平均值，与所述预设宽高比中的分母的差值；

将所述差值与所述预设宽高比中的分母的比值，确定为所述变形信息。

4.根据权利要求1所述的方法，其特征在于，所述根据所述变形信息，对所述视频帧进行变形处理包括：

若所述对象宽高比大于所述预设宽高比，则根据所述变形信息，保持所述视频帧的宽度不变，对所述视频帧进行拉伸处理；

若所述对象宽高比小于所述预设宽高比，则根据所述变形信息，保持所述视频帧的宽度不变，对所述视频帧进行缩放处理。

5.根据权利要求1所述的方法，其特征在于，所述若基于所述对象尺寸确定出的对象宽高比，与对应对象类别的预设宽高比不匹配，则基于所述对象尺寸和所述预设宽高比，确定变形信息之前，所述方法还包括：

根据所述对象尺寸，确定所述对象宽高比；

获取所述视频帧所包括对象的对象类别的预设宽高比；

将所述对象宽高比与对应对象类别的预设宽高比进行比较。

6.根据权利要求1所述的方法，其特征在于，所述对第一视频数据的视频帧进行识别，得到所述视频帧所包括对象的对象类别和对象尺寸包括：

将所述视频帧输入对象识别模型，输出所述视频帧所包括对象的对象定位框和对象类别，所述对象识别模型用于对所述视频帧所包括的对象和对应的对象类别进行识别；

根据所述对象定位框，确定所述视频帧所包括对象的对象尺寸。

7.根据权利要求6所述的方法，其特征在于，所述将所述视频帧输入对象识别模型，输出所述视频帧所包括对象的对象定位框和对象类别包括：

通过所述对象识别模型的卷积层，提取所述视频帧的卷积特征；

通过所述对象识别模型的采样层，提取所述卷积特征的采样特征；

通过所述对象识别模型的分类器，基于所述采样特征，确定所述视频帧所包括对象的对象定位框以及所属的对象类别。

8.一种视频处理装置，其特征在于，所述装置包括：

识别模块，用于对第一视频数据的视频帧进行识别，得到所述视频帧所包括对象的对象类别和对象尺寸；

第一确定模块，用于若基于所述对象尺寸确定出的对象宽高比，与对应对象类别的预设宽高比不匹配，则基于所述对象尺寸和所述预设宽高比，确定变形信息，所述变形信息用于指示对所述视频帧进行变形处理时所采用的变形比例；

处理模块，用于根据所述变形信息，对所述视频帧进行变形处理；

9.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的视频处理方法所执行的操作。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的视频处理方法所执行的操作。