CN105430394A

CN105430394A - 视频数据压缩处理方法、装置和设备

Info

Publication number: CN105430394A
Application number: CN201510815100.4A
Authority: CN
Inventors: 张涛; 汪平仄; 张胜凯
Original assignee: Xiaomi Inc
Current assignee: Beijing Xiaomi Technology Co Ltd; Xiaomi Inc
Priority date: 2015-11-23
Filing date: 2015-11-23
Publication date: 2016-03-23

Abstract

本公开是关于一种视频数据压缩处理方法、装置和设备，该方法包括：采用人物识别模型对视频数据中的每一帧图像进行人物识别，得到人物帧和非人物帧；对非人物帧进行第一压缩比压缩；对人物帧进行第二压缩比压缩，其中，第二压缩比小于第一压缩比。通过对视频数据中不同类别的图像帧进行不同的图像压缩处理，使得在减少其占用存储空间的同时，保证了视频数据的质量。

Description

视频数据压缩处理方法、装置和设备

技术领域

本公开涉及数据处理技术领域，尤其涉及一种视频数据压缩处理方法、装置和设备。

背景技术

随着智能手机等智能终端的普及程度越来越高，用户可以随时随地的使用智能手机拍摄视频，记录生活中的点滴。

为了降低对智能手机等终端设备的存储资源的占用，云端存储的技术被广泛采用。但是，随着用户拍摄的视频数量的不断增多，这些视频数据所占用的存储空间也越来越多，为此，服务器一会采用比如MPEG4等视频压缩技术对视频数据进行压缩处理，以降低所占用的存储空间。

发明内容

本公开提供一种视频数据压缩处理方法、装置和设备，通过对视频数据中不同类型的图像帧进行不同的压缩处理，使得在减少其占用存储空间的同时，保证了视频数据的质量。

根据本公开实施例的第一方面，提供一种视频数据压缩处理方法，包括：

采用人物识别模型对视频数据中的每一帧图像进行人物识别，得到人物帧和非人物帧；

对所述非人物帧进行第一压缩比压缩；

对所述人物帧进行第二压缩比压缩，其中，所述第二压缩比小于所述第一压缩比。

进一步的，所述方法还包括：

采用视频压缩技术，对经过所述压缩处理后的每一帧图像进行压缩处理。

进一步的，所述方法还包括：

若所述人物帧的数量大于预设数量，则执行对所述非人物帧进行第一压缩比压缩的步骤；

若所述人物帧的数量不大于所述预设数量，则采用视频压缩技术，对所述视频数据中的每一帧图像进行压缩处理。

上述技术方案可以包括以下有益效果：通过人物识别模型对视频数据中包含的各图像帧进行所属不同类别的识别，将视频数据中包含的各图像帧划分为人物帧和非人物帧。进而，针对不同类别的图像帧进行不同的图像压缩处理，使得在更多地减少其占用存储空间的同时，保证了视频数据的质量。

进一步的，所述方法还包括：

对所述人物帧进行人脸识别处理，获得第一人物帧图像集合和第二人物帧图像集合，其中，第一人物帧图像集合中包含的各人物帧中具有人脸图像，第二人物帧图像集合中包含的各人物帧中不具有人脸图像。

进一步的，所述方法还包括：

对所述第一人物帧图像集合中的各人物帧进行第三压缩比压缩；

对所述第二人物帧图像集合中的各人物帧进行第二压缩比压缩，其中，所述第三压缩比小于所述第二压缩比。

上述技术方案可以包括以下有益效果：采用第二压缩比的图像压缩技术，对第二人物帧图像集合中的各人物帧进行图像压缩处理，采用小于第二压缩比的第三压缩比的图像压缩技术，对属于第一人物帧图像集合中的各人物帧进行图像压缩处理。从而在保证包含人脸图像的各图像帧的质量的同时，进一步地降低了视频数据对存储空间的占用。

进一步的，所述方法还包括训练人物识别模型的步骤：

获取训练样本集，所述训练样本集中包括多个人物训练样本图像和多个非人物训练样本图像；

分别将所述多个人物训练样本图像和所述多个非人物训练样本图像输入到卷积神经网络中，对所述卷积神经网络中各层隐层节点之间的特征系数进行训练，得到所述人物识别模型。

上述技术方案可以包括以下有益效果：通过对基于深度学习的卷积神经网络进行分类训练，得到上述人物识别模型，使得该人物识别模型具有更好的识别准确性，保证了后续视频数据图像帧识别结果的准确性。

进一步的，所述方法还包括测试人物识别模型的步骤：

获取测试样本集，所述测试样本集中包括多个人物测试样本图像和多个非人物测试样本图像；

采用所述人物识别模型分别对所述测试样本集中的多个人物测试样本图像和多个非人物测试样本图像进行识别，得到各个测试样本图像对应的分类结果；

根据所述各个测试样本图像对应的分类结果，确定所述人物识别模型的分类正确率。

进一步的，所述方法还包括：

若所述分类正确率小于预设阈值，则迭代执行如下处理，直到达到最大迭代次数或分类正确率大于预设阈值为止：

更新所述训练样本集；

根据更新后的训练样本集对前一次迭代对应的人物识别模型中各层隐层节点之间的特征系数进行训练，得到本次迭代对应的更新后人物识别模型；

根据更新后的测试样本集对本次迭代对应的更新后人物识别模型进行分类正确率测试，确定对应的分类正确率。

进一步的，所述方法还包括：

确定各次迭代对应的分类正确率中的最大分类正确率；

确定与所述最大分类正确率对应的更新后人物识别模型为目标人物识别模型。

上述技术方案可以包括以下有益效果：通过对人物识别模型的分类正确率的确定，以及在人物识别模型分类正确率低于预设阈值时，迭代训练、测试的过程，有效保证了最终获得的人物识别模型的准确、可靠。

根据本公开实施例的第二方面，提供一种视频数据压缩处理装置，包括：

第一识别模块，被配置为采用人物识别模型对视频数据中的每一帧图像进行人物识别，得到人物帧和非人物帧；；

第一处理模块，被配置为对所述非人物帧进行第一压缩比压缩；

第二处理模块，被配置为对所述人物帧进行第二压缩比压缩，其中，所述第二压缩比小于所述第一压缩比。

所述装置还包括：第三处理模块，被配置为采用视频压缩技术，对经过所述压缩处理后的每一帧图像进行压缩处理。

具体地，所述第一处理模块，被配置为在所述人物帧的数量大于预设数量时，执行对所述非人物帧进行第一压缩比压缩的步骤；

所述装置还包括：

第四处理模块，被配置为在所述人物帧的数量不大于所述预设数量时，采用视频压缩技术，对所述视频数据中的每一帧图像进行压缩处理。

上述技术方案可以包括以下有益效果：视频数据压缩处理装置通过采用人物识别模型对视频数据中包含的各图像帧进行所属不同类别的识别，将视频数据中包含的各图像帧划分为人物帧和非人物帧。进而，针对不同类别的图像帧进行不同的图像压缩处理，使得在更多地减少其占用存储空间的同时，保证了视频数据的质量。

进一步的，所述装置还包括：

第二识别模块，被配置为对所述人物帧进行人脸识别处理，获得第一人物帧图像集合和第二人物帧图像集合，其中，第一人物帧图像集合中包含的各人物帧中具有人脸图像，第二人物帧图像集合中包含的各人物帧中不具有人脸图像。

所述装置还包括：

第五处理模块，被配置为对所述第一人物帧图像集合中的各人物帧进行第三压缩比压缩；

所述第二处理模块，被配置为对所述第二人物帧图像集合中的各人物帧进行第二压缩比压缩，其中，所述第三压缩比小于所述第二压缩比。

上述技术方案可以包括以下有益效果：采用第二压缩比的图像压缩技术，对第二人物帧图像集合中的各图像帧进行图像压缩处理，采用小于第二压缩比的第三压缩比的图像压缩技术，对属于第一人物帧图像集合中的各图像帧进行图像压缩处理。从而在保证包含人脸图像的各图像帧的质量的同时，进一步地降低了视频数据对存储空间的占用。

进一步的，所述装置还包括：

第一获取模块，被配置为获取训练样本集，所述训练样本集中包括多个人物训练样本图像和多个非人物训练样本图像；

训练模块，被配置为分别将所述多个人物训练样本图像和所述多个非人物训练样本图像输入到卷积神经网络中，对所述卷积神经网络中各层隐层节点之间的特征系数进行训练，得到所述人物识别模型。

进一步的，所述装置还包括：

第二获取模块，被配置为获取测试样本集，所述测试样本集中包括多个人物测试样本图像和多个非人物测试样本图像；

第三识别模块，被配置为采用所述人物识别模型分别对所述测试样本集中的多个人物测试样本图像和多个非人物测试样本图像进行识别，得到各个测试样本图像对应的分类结果；

第一确定模块，被配置为根据所述各个测试样本图像对应的分类结果，确定所述人物识别模型的分类正确率。

进一步的，所述装置还包括：

迭代处理模块，被配置为在所述分类正确率小于预设阈值时，迭代执行如下处理，直到达到最大迭代次数或分类正确率大于预设阈值为止：

更新所述训练样本集；

进一步的，所述装置还包括：

第二确定模块，被配置为确定各次迭代对应的分类正确率中的最大分类正确率；

第三确定模块，被配置为确定与所述最大分类正确率对应的更新后人物识别模型为目标人物识别模型。

根据本公开实施例的第三方面，提供一种视频数据压缩处理设备，包括：

处理器；

被配置为存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

对所述非人物帧进行第一压缩比压缩；

对所述人物帧进行第二压缩比压缩，其中，第二压缩比小于第一压缩比。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种视频数据压缩处理方法实施例一的流程图；

图2是根据一示例性实施例示出的一种视频数据压缩处理方法实施例二的流程图；

图3是根据一示例性实施例示出的一种视频数据压缩处理方法实施例三的流程图；

图4是根据一示例性实施例示出的一种视频数据压缩处理方法实施例四的流程图；

图5为卷积神经网络的网络结构；

图6是根据一示例性实施例示出的一种视频数据压缩处理方法实施例五的流程图；

图7是根据一示例性实施例示出的一种视频数据压缩处理装置实施例一的框图；

图8是根据一示例性实施例示出的一种视频数据压缩处理装置实施例二的框图；

图9是根据一示例性实施例示出的一种视频数据压缩处理装置实施例三的框图；

图10是根据一示例性实施例示出的一种视频数据压缩处理装置实施例四的框图；

图11是根据一示例性实施例示出的一种视频数据压缩处理装置实施例五的框图；

图12是根据一示例性实施例示出的一种视频数据压缩处理设备的框图；

图13是根据一示例性实施例示出的另一种视频数据压缩处理设备的框图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频数据压缩处理方法实施例一的流程图，该方法可以由视频数据压缩处理装置来执行，该处理装置可以集成设置在云端服务器中。如图1所示，该视频数据压缩处理方法包括以下步骤：

在步骤101中，采用人物识别模型对视频数据中的每一帧图像进行人物识别，得到人物帧和非人物帧。

在步骤102中，对非人物帧进行第一压缩比压缩。

在步骤103中，对人物帧进行第二压缩比压缩。

其中，第二压缩比小于第一压缩比。

本实施例中，当用户通过诸如智能手机等用户终端拍摄获得视频数据后，为了降低对用户终端存储空间的占用，可以将拍得的视频数据上传至云服务器中进行云端存储。此时，云服务器接收到用户终端上传的视频数据，以下称为待处理的视频数据，并进行后续的压缩处理。

可以理解的是，视频数据是由一帧一帧的图像构成的，即视频数据中包括了多个图像帧。

本实施例中，采用上述人物识别模型对待处理的视频数据中包含的每个图像帧进行识别，以确定每个图像帧的类别，即确定每个图像帧是属于人物帧还是非人物帧。

其中，上述人物识别模型是基于对深度学习的卷积神经网络进行分类学习训练获得的，具体的训练过程在后续实施例中详细说明。本实施例中，当输入到人物识别模型中一个图像帧后，人物识别模型通过对该图像帧的特征信息提取，从而能够基于提取到的特征信息确定该图像帧是人物帧还是非人物帧。其中，人物帧是指其中包含有人的图像的图像帧，比如包含有人的图像和动物的图像的图像帧，相反的，非人物帧是指其中不包含有人的图像的图像帧，比如只包含风景、动物等图像的图像帧。

本实施例中，在通过人物识别模型确定了视频数据中包含的各个图像帧的所属类别之后，可以为每个图像帧进行所属类别的标记。比如，对于各个属于人物帧的图像帧，为这些图像帧打上标记1，对于各个属于非人物帧的图像帧，为这些图像帧打上标记2，从而，在确定了每个图像帧的标记之后，可以针对不同类别标记的图像帧进行如下的分别处理：

对于属于非人物帧的各图像帧，可以采用第一压缩比的图像压缩技术对其进行图像压缩处理；对于属于人物帧的各图像帧，可以采用第二压缩比的图像压缩技术对其进行图像压缩处理，其中，第二压缩比小于第一压缩比。

其中，图像压缩技术比如JPEG压缩技术，第二压缩比小于第一压缩比意味着对属于人物帧的各图像帧进行的压缩程度比属于非人物帧的各图像帧进行的压缩程度要低。

也就是说，本实施例中，对于包含人物的图像帧和对于不包含人物的图像帧，进行差别图像压缩处理：对于属于非人物帧的各图像帧进行更高级别的压缩，即进行更深程度的压缩，以尽量减少其所占用的存储空间大小，对于属于人物帧的各图像帧进行相对低程度的压缩，在减少其所占用存储空间的同时，保证其图像质量。

可以理解的是，在步骤103之后，还可以通过如下步骤104，完成对待处理视频的视频压缩处理：

在步骤104中，采用视频压缩技术，对经过压缩处理后的每一帧图像进行压缩处理。

最后，在对视频数据中包含的各图像帧进行了相应的图像压缩处理之后，对整个视频数据进而进行视频压缩处理，即比如采用MPEG4压缩技术，对经过所述JPEG图像压缩处理后的各个图像帧进行压缩处理。

本实施例中，通过人物识别模型对视频数据中包含的各图像帧进行所属不同类别的识别，将视频数据中包含的各图像帧划分为人物帧和非人物帧。进而，针对不同类别的图像帧进行不同的图像压缩处理，最后，再对经过图像压缩处理后的所有图像帧即整个视频数据进行视频压缩处理，使得在更多地减少其占用存储空间的同时，保证了视频数据的质量。

图2是根据一示例性实施例示出的一种视频数据压缩处理方法实施例二的流程图，如图2所示，上述步骤102之前，还可以包括如下步骤：

在步骤201中，确定人物帧的数量是否大于预设数量，若人物帧的数量大于预设数量，则执行上述步骤102至步骤104，否则，若人物帧的数量不大于预设数量，则直接执行步骤202。

在步骤202中，采用视频压缩技术，对视频数据中的每一帧图像进行压缩处理。

本实施例中，当视频数据中属于人物帧的图像帧的数量是否大于预设数量时，才采用如图1所示实施例中分别对属于人物帧的图像帧和属于非人物帧的图像帧进行图像压缩处理的过程。其中，上述预设数量可以是预先设定的一个固定数值，也可以是相对于属于非人物帧的图像帧的数量来说的，也就是说，如果视频数据中属于人物帧的图像帧数量大于属于非人物帧的图像帧数量，则采用上述实施例中的图像压缩处理方案。

本实施例中，相当于对采用上述图像压缩处理方案的情形进行了限定。具体来说，对于属于人物帧的图像帧数量大于属于非人物帧的图像帧数量的视频数据，称之为人物视频数据，相反的，对于属于人物帧的图像帧数量不大于属于非人物帧的图像帧数量的视频数据，称之为非人物视频数据。也就是说，上述先经过差别图像压缩处理，再进行视频压缩处理的方案，更适用于人物视频数据。

由于人物视频数据中，属于人物帧的图像帧数量更多，此时，对于属于人物帧的各图像帧进行低程度的图像压缩处理，对属于非人物帧的各图像帧进行更高程度的图像压缩处理，这样可以在保证人物帧图像质量的同时，能够更大程度地降低非人物帧图像所占有的存储空间。

对于非人物帧视频数据的情形，可以直接进行视频压缩处理即可。

图3是根据一示例性实施例示出的一种照片处理方法实施例三的流程图，如图3所示，在图1或图2所示实施例的基础上，上述步骤103之前，还可以包括如下步骤：

在步骤301中，对人物帧进行人脸识别处理，获得第一人物帧图像集合和第二人物帧图像集合，其中，第一人物帧图像集合中包含的各人物帧中具有人脸图像，第二人物帧图像集合中包含的各人物帧中不具有人脸图像。

步骤103适应性变为：

在步骤302中，对第二人物帧图像集合中的各人物帧进行第二压缩比压缩。

在步骤301之后，还包括如下步骤：

在步骤303中，对第一人物帧图像集合中的各人物帧进行第三压缩比压缩，第三压缩比小于第二压缩比。

其中，步骤302和步骤303不具有严格的时序限定。

本实施例中，为了进一步降低视频数据对存储空间的占用，对于属于人物帧的各图像帧来说，还进行如下更加细致的区分：将属于人物帧的各图像帧划分为包含有人脸图像的图像帧和不包含人脸图像的图像帧。

具体来说，可以采用比如adaboost人脸检测技术，对属于人物帧的各图像帧进行人脸识别，以确定各人物帧中是否具有人脸图像。从而，将各人物帧划分为包含具有人脸图像的各图像帧的第一人物帧图像集合，以及包含不具有人脸图像的各图像帧的第二人物帧图像集合。

也就是说，对于属于人物帧的各图像帧来说，虽然这些图像帧中都包含有人物图像，但是却未必包含有人脸图像，比如有些图像帧中只包含一个人的背影的图像，或者只包含一个低头捡东西的人物的图像，等等，这些图像帧中虽然包含了人物图像，但是没有包含人脸图像，这些图像帧构成了上述第二人物帧图像集合。

值得说明的是，在实际应用中，对各人物帧是否包含有人脸图像的识别，除了可以采用上述adaboost人脸检测技术外，还可以采用对基于深度学习的卷积神经网络进行人脸学习训练而获得的人脸识别模型，对于人脸识别识别的训练过程与下述人物识别模型的训练过程类似，可以参考人物识别模型的训练原理，不再赘述。

在图2所示实施例中已经说到，对于人物视频数据来说，人物帧图像数量更多更为重要。在对人物帧图像进行了上述两个人物帧图像集合的划分之后，相对于不包含人脸图像的第二人物帧图像集合来说，包含人脸图像的第一人物帧图像集合更为重要。

因此，本实施例中，采用第二压缩比的图像压缩技术，对第二人物帧图像集合中的各图像帧进行图像压缩处理，采用小于第二压缩比的第三压缩比的图像压缩技术，对属于第一人物帧图像集合中的各图像帧进行图像压缩处理。从而在保证包含人脸图像的各图像帧的质量的同时，进一步地降低了视频数据对存储空间的占用。

前述实施例中已经提到，通过预先训练获得的人物识别模型对视频数据中包含的各图像帧进行是否为人物帧的识别处理，下面，结合图4所示实施例，对该人物识别模型的构建过程，即学习训练过程进行说明。

图4是根据一示例性实施例示出的一种视频数据压缩处理方法实施例四的流程图，如图4所示，人物识别模型的训练过程包括如下步骤：

在步骤401中，获取训练样本集，训练样本集中包括多个人物训练样本图像和多个非人物训练样本图像。

本实施例中，人物训练样本图像和非人物训练样本图像可以由服务器收集得到。其中，人物训练样本图像是指包含有人物图像的图像，比如某图像中既可以包括人物图像，还可以包括风景图像；非人物训练样本图像是指不包含人物图像的图像，即比如某图像中可以包括风景图像、动物图像，但是不能包含人物图像。

在步骤402中，分别将多个人物训练样本图像和多个非人物训练样本图像输入到卷积神经网络中，对卷积神经网络中各层隐层节点之间的特征系数进行训练，得到人物识别模型。

本实施例中，采用卷积神经网络构建人物识别模型。卷积神经网络是人工神经网络的一种，已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。

卷积神经网络的网络结构如图5所示，卷积神经网络是一个多层的神经网络，包括多个卷积层、下采样层、全连接层和一个输出层，每层由多个二维平面组成，而每个平面由多个独立神经元组成。本实施例中，假设基于卷积神经网络获得的人物识别模型具有N层结构，相邻两层隐层节点间的各个连接的权重系数即卷积核，亦即上述特征系数由训练样本集训练确定。

本实施例中，依次随机将训练样本集中的训练样本图像，即上述人物训练样本图像和上述非人物训练样本图像进行输入，对卷积神经网络的各层隐层节点间的特征系数进行训练，从而，在所有训练样本图像输入、训练完成后，得到上述人物识别模型。

值得说明的是，在人物识别模型的训练过程中，输入到卷积神经网络的是训练样本集中的各训练样本图像，输出的是对应输入训练样本图像的分类结果。假设：各人物训练样本图像以1标识，各非人物训练样本图像以2标识，那么，如果输入的是一个人物训练样本图像，输出的分类结果是1，那么训练识别正确，反之，如果输出的分类结果是2，则分类结果错误，说明本次训练得到的卷积神经网络的各层隐层节点间的特征系数不够正确，需要进行调整。具体来说，训练结果是否正确可以由输出层的损失函数来度量，比如为多个欧式径向基函数(EuclideanRadialBasisFunction)，每个损失函数计算输入向量即输入训练样本图像对应的向量与对应的训练获得的特征系数向量之间的距离。如果该距离大于一定距离阈值，则需要调整特征系数。

对于发生分类错误的训练结果，即各层隐层节点间的特征系数，可以采用梯度下降法向发生错误的相反方向调整各层隐层节点间的特征系数。

但这样的训练方式往往可能存在这样的问题：根据前一张训练样本图像对各层隐层节点之间的特征系数进行正向调整后，可能根据后一张训练样本图像对各层隐层节点之间的特征系数进行反相调整，导致需要频繁地对各层隐层节点之间的特征系数进行调整。为此，可以采用分批训练、调整的方式进行人物识别模型的训练。

具体来说，可以将训练样本集中包含的所有训练样本图像进行随机分批划分，之后，针对每批训练样本图像，随机将该批训练样本图像依次输入到卷积神经网络中，对卷积神经网络的各层隐层节点间的特征系数进行训练，并得到本次输入的训练样本图像的分类结果，依次类推，直到本批次训练样本图像中所有训练样本图像都被输入，得到分类结果为止。此时，统计获得本批次训练样本图像中分类结果发生错误的个数占本批次训练样本图像总数的比值，确定分类误差率，如果分类误差率大于一定阈值，则调整经本批次训练样本图像训练获得的各层隐层节点间的特征系数。其中，分类结果是否发生错误，可以通过输出的分类结果与输入的样本图像对应的分类标号间的距离度量确定。

本实施例中，通过上述训练过程，对基于深度学习的卷积神经网络进行分类训练，得到上述人物识别模型，使得该人物识别模型具有更好的识别准确性，保证了后续视频数据图像帧识别结果的准确性。

在经过上述实施例中的学习训练过程获得了人物识别模型之后，为了保证该人物识别模型的准确可靠，还可以进一步对该人物识别模型进行准确性测试，以确定该人物识别模型是否达到预想的准确性要求。

图6是根据一示例性实施例示出的一种视频数据压缩处理方法实施例五的流程图，如图6所示，人物识别模型的测试过程包括如下步骤：

在步骤501中，获取测试样本集，测试样本集中包括多个人物测试样本图像和多个非人物测试样本图像。

本实施例中，为保证测试准确可靠，上述人物测试样本图像和非人物测试样本图像与训练样本集中的人物训练样本图像和非人物训练样本图像不同。

在步骤502中，采用人物识别模型分别对测试样本集中的多个人物测试样本图像和多个非人物测试样本图像进行识别，得到各个测试样本图像对应的分类结果。

在步骤503中，根据各个测试样本图像对应的分类结果，确定人物识别模型的分类正确率。

假设人物测试样本图像的标号为1，非人物测试样本图像的标号为2，如果输入的是一个人物测试样本图像，其分类结果是1，则说明识别正确，否则，若分类结果不是1，则说明识别错误。统计获得全部测试样本图像的分类结果中正确的分类结果与测试样本集中包含的全部测试样本图像的总数量的比值，该比值即为人物识别模型的分类正确率。

在步骤504中，确定分类正确率是否小于预设阈值，若分类正确率大于或等于预设阈值，则结束，否则，若分类正确率小于预设阈值，则迭代执行如下处理，直到达到最大迭代次数或分类正确率大于预设阈值为止：

在步骤505中，更新所述训练样本集。

在步骤506中，根据更新后的训练样本集对前一次迭代对应的人物识别模型中各层隐层节点之间的特征系数进行训练，得到本次迭代对应的更新后人物识别模型。

在步骤507中，根据更新后的测试样本集对本次迭代对应的更新后人物识别模型进行分类正确率测试，确定对应的分类正确率。

如果前述获得的人物识别模型的分类正确率低于预设阈值，说明需要重新对该人物识别模型进行训练，此时，更新训练样本集，以更新后的训练样本集对该人物识别模型进行迭代训练，并在根据当前迭代时的训练样本集训练完成后，以更新后的测试样本集对本次迭代获得的人物识别模型进行测试，获得本次迭代对应的分类正确率，进而判断本次迭代对应的分类正确率是否大于预设阈值，若大于，则停止，确定大于该预设阈值的本次迭代对应的人物识别模型为目标人物识别模型。否则，若小于，则进而进行下一个迭代训练、测试的过程。

在步骤508中，确定各次迭代对应的分类正确率中的最大分类正确率。

在步骤509中，确定与最大分类正确率对应的更新后人物识别模型为目标人物识别模型。

如果全部迭代次数都没执行之后，仍没有获得分类正确率大于预设阈值的人物识别模型，则从各次迭代获得的人物识别模型中，确定具有最大分类正确率的人物识别模型为目标人物识别模型，用于对视频数据中包含的各图像帧的类别识别中。

本实施例中，通过对人物识别模型的分类正确率的确定，以及在人物识别模型分类正确率低于预设阈值时，迭代训练、测试的过程，有效保证了最终获得的人物识别模型的准确、可靠。

图7是根据一示例性实施例示出的一种视频数据压缩处理装置实施例一的框图，如图7所示，该装置包括：第一识别模块11、第一处理模块12、第二处理模块13和第三处理模块14。

第一识别模块11，被配置为采用人物识别模型对视频数据中的每一帧图像进行人物识别，得到人物帧和非人物帧。

第一处理模块12，被配置为对第一识别模块11识别的所述非人物帧进行第一压缩比压缩。

第二处理模块13，被配置为对对第一识别模块11识别的所述人物帧进行第二压缩比压缩，其中，第二压缩比小于第一压缩比。

第三处理模块14，被配置为采用视频压缩技术，对经过所述压缩处理后的每一帧图像进行压缩处理。

具体来说，本实施例中，第一识别模块11采用人物识别模型对待处理的视频数据中包含的每个图像帧进行识别，以确定每个图像帧的类别，即确定每个图像帧是属于人物帧还是非人物帧。

本实施例中，在第一识别模块11通过人物识别模型确定了视频数据中包含的各个图像帧的所属类别之后，可以为每个图像帧进行所属类别的标记。比如，对于各个属于人物帧的图像帧，为这些图像帧打上标记1，对于各个属于非人物帧的图像帧，为这些图像帧打上标记2，从而，在确定了每个图像帧的标记之后，可以针对不同类别标记的图像帧进行如下的分别处理：

对于属于非人物帧的各图像帧，第一处理模块12可以采用第一压缩比的图像压缩技术对其进行图像压缩处理；对于属于人物帧的各图像帧，第二处理模块13可以采用第二压缩比的图像压缩技术对其进行图像压缩处理，其中，第二压缩比小于第一压缩比。

最后，在对视频数据中包含的各图像帧进行了相应的图像压缩处理之后，第三处理模块14对整个视频数据进而进行视频压缩处理，即比如采用MPEG4压缩技术，对经过所述JPEG图像压缩处理后的各个图像帧进行压缩处理。

本实施例中，第一识别模块11通过人物识别模型对视频数据中包含的各图像帧进行所属不同类别的识别，将视频数据中包含的各图像帧划分为人物帧和非人物帧。进而，通过第一处理模块12和第二处理模块13针对不同类别的图像帧进行不同的图像压缩处理，最后，再通过第三处理模块14对经过图像压缩处理后的所有图像帧即整个视频数据进行视频压缩处理，使得在更多地减少其占用存储空间的同时，保证了视频数据的质量。

图8是根据一示例性实施例示出的一种视频数据压缩处理装置实施例二的框图，如图8所示，在图7所示实施例的基础上，该装置还包括：第四处理模块21。

所述第一处理模块12，被配置为在所述人物帧的数量大于预设数量时，执行对所述非人物帧进行第一压缩比压缩的步骤。

第四处理模块21，被配置为在所述人物帧的数量不大于所述预设数量时，采用视频压缩技术，对所述视频数据中的每一帧图像进行压缩处理。

本实施例中，当视频数据中属于人物帧的图像帧的数量是否大于预设数量时，才触发第一处理模块12和第二处理模块13对非人物帧和人物帧进行第一压缩比压缩和第二压缩比压缩处理的步骤。

其中，上述预设数量可以是预先设定的一个固定数值，也可以是相对于属于非人物帧的图像帧的数量来说的，也就是说，如果视频数据中属于人物帧的图像帧数量大于属于非人物帧的图像帧数量，则采用上述实施例中的图像压缩处理方案。

图9是根据一示例性实施例示出的一种视频数据压缩处理装置实施例三的框图，如图9所示，在图7或图8所示实施例的基础上，该装置还包括：第二识别模块31和第五处理模块32。

第二识别模块31，被配置为对所述人物帧进行人脸识别处理，获得第一人物帧图像集合和第二人物帧图像集合，其中，第一人物帧图像集合中包含的各人物帧中具有人脸图像，第二人物帧图像集合中包含的各人物帧中不具有人脸图像。

第五处理模块32，被配置为对所述第一人物帧图像集合中的各人物帧进行第三压缩比压缩。

所述第二处理模块13，被配置为对所述第二人物帧图像集合中的各人物帧进行第二压缩比压缩，其中，第三压缩比小于第二压缩比。

具体来说，第二识别模块31可以采用比如adaboost人脸检测技术，对属于人物帧的各图像帧进行人脸识别，以确定各人物帧中是否具有人脸图像。从而，将各人物帧划分为包含具有人脸图像的各图像帧的第一人物帧图像集合，以及包含不具有人脸图像的各图像帧的第二人物帧图像集合。

值得说明的是，在实际应用中，对各人物帧是否包含有人脸图像的识别，第二识别模块31除了可以采用上述adaboost人脸检测技术外，还可以采用对基于深度学习的卷积神经网络进行人脸学习训练而获得的人脸识别模型，对于人脸识别识别的训练过程与下述人物识别模型的训练过程类似，可以参考人物识别模型的训练原理，不再赘述。

前述实施例中已经说到，对于人物视频数据来说，人物帧图像数量更多更为重要。在对人物帧图像进行了上述两个人物帧图像集合的划分之后，相对于不包含人脸图像的第二人物帧图像集合来说，包含人脸图像的第一人物帧图像集合更为重要。

因此，本实施例中，第二处理模块13采用第二压缩比的图像压缩技术，对第二人物帧图像集合中的各图像帧进行图像压缩处理，第五处理模块32采用小于第二压缩比的第三压缩比的图像压缩技术，对属于第一人物帧图像集合中的各图像帧进行图像压缩处理。从而在保证包含人脸图像的各图像帧的质量的同时，进一步地降低了视频数据对存储空间的占用。

图10是根据一示例性实施例示出的一种视频数据压缩处理装置实施例四的框图，如图10所示，在上述实施例的基础上，该装置还包括：第一获取模块41和训练模块42。

第一获取模块41，被配置为获取训练样本集，所述训练样本集中包括多个人物训练样本图像和多个非人物训练样本图像。

训练模块42，被配置为分别将所述多个人物训练样本图像和所述多个非人物训练样本图像输入到卷积神经网络中，对所述卷积神经网络中各层隐层节点之间的特征系数进行训练，得到所述人物识别模型。

本实施例中，第一获取模块41获取人物训练样本图像和非人物训练样本图像，其中，人物训练样本图像是指包含有人物图像的图像，比如某图像中既可以包括人物图像，还可以包括风景图像；非人物训练样本图像是指不包含人物图像的图像，即比如某图像中可以包括风景图像、动物图像，但是不能包含人物图像。

本实施例中，采用卷积神经网络构建人物识别模型。卷积神经网络的网络结构如图5所示，卷积神经网络是一个多层的神经网络，包括多个卷积层、下采样层、全连接层和一个输出层，每层由多个二维平面组成，而每个平面由多个独立神经元组成。本实施例中，假设基于卷积神经网络获得的人物识别模型具有N层结构，相邻两层隐层节点间的各个连接的权重系数即卷积核，亦即上述特征系数由训练样本集训练确定。

本实施例中，训练模块42依次随机将训练样本集中的训练样本图像，即上述人物训练样本图像和上述非人物训练样本图像进行输入，对卷积神经网络的各层隐层节点间的特征系数进行训练，从而，在所有训练样本图像输入、训练完成后，得到上述人物识别模型。

具体来说，训练模块42可以将训练样本集中包含的所有训练样本图像进行随机分批划分，之后，针对每批训练样本图像，随机将该批训练样本图像依次输入到卷积神经网络中，对卷积神经网络的各层隐层节点间的特征系数进行训练，并得到本次输入的训练样本图像的分类结果，依次类推，直到本批次训练样本图像中所有训练样本图像都被输入，得到分类结果为止。此时，统计获得本批次训练样本图像中分类结果发生错误的个数占本批次训练样本图像总数的比值，确定分类误差率，如果分类误差率大于一定阈值，则调整经本批次训练样本图像训练获得的各层隐层节点间的特征系数。其中，分类结果是否发生错误，可以通过输出的分类结果与输入的样本图像对应的分类标号间的距离度量确定。

图11是根据一示例性实施例示出的一种视频数据压缩处理装置实施例五的框图，如图11所示，在上述实施例的基础上，该装置还包括：第二获取模块51、第三识别模块52、第一确定模块53。

第二获取模块51，被配置为获取测试样本集，所述测试样本集中包括多个人物测试样本图像和多个非人物测试样本图像。

本实施例中，为保证测试准确可靠，第二获取模块51获得的上述人物测试样本图像和非人物测试样本图像与训练样本集中的人物训练样本图像和非人物训练样本图像不同。

第三识别模块52，被配置为采用所述人物识别模型分别对所述测试样本集中的多个人物测试样本图像和多个非人物测试样本图像进行识别，得到各个测试样本图像对应的分类结果。

第一确定模块53，被配置为根据所述各个测试样本图像对应的分类结果，确定所述人物识别模型的分类正确率。

假设人物测试样本图像的标号为1，非人物测试样本图像的标号为2，如果输入的是一个人物测试样本图像，第三识别模块52识别得到的其分类结果是1，则说明识别正确，否则，若分类结果不是1，则说明识别错误。第一确定模块53统计获得全部测试样本图像的分类结果中正确的分类结果与测试样本集中包含的全部测试样本图像的总数量的比值，该比值即为人物识别模型的分类正确率。

进一步的，该装置还包括：迭代处理模块54。

迭代处理模块54，被配置为在所述分类正确率小于预设阈值时，迭代执行如下处理，直到达到最大迭代次数或分类正确率大于预设阈值为止：

更新所述训练样本集；

如果前述获得的人物识别模型的分类正确率低于预设阈值，说明需要重新对该人物识别模型进行训练，此时，迭代处理模块54更新训练样本集，以更新后的训练样本集对该人物识别模型进行迭代训练，并在根据当前迭代时的训练样本集训练完成后，以更新后的测试样本集对本次迭代获得的人物识别模型进行测试，获得本次迭代对应的分类正确率，进而判断本次迭代对应的分类正确率是否大于预设阈值，若大于，则停止，确定大于该预设阈值的本次迭代对应的人物识别模型为目标人物识别模型。否则，若小于，则进而进行下一个迭代训练、测试的过程。

进一步的，所述装置还包括：第二确定模块55和第三确定模块56。

第二确定模块55，被配置为确定各次迭代对应的分类正确率中的最大分类正确率。

第三确定模块56，被配置为确定与所述最大分类正确率对应的更新后人物识别模型为目标人物识别模型。

如果全部迭代次数都没执行之后，仍没有获得分类正确率大于预设阈值的人物识别模型，则第二确定模块55从各次迭代获得的人物识别模型分别对应的分类正确率中，确定出最大分类正确率，第三确定模块56确定具有最大分类正确率的人物识别模型为目标人物识别模型，用于对视频数据中包含的各图像帧的类别识别中。

关于上述实施例中的视频数据压缩处理装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

以上描述了视频数据压缩处理装置的内部功能和结构，如图12所示，实际中，该视频数据压缩处理装置可实现为视频数据压缩处理设备，该设备可以是服务器，具体地，该视频数据压缩处理设备包括：

处理器；

被配置为存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

对所述非人物帧进行第一压缩比压缩；

上述各实施例中，视频数据压缩处理设备通过人物识别模型对视频数据中包含的各图像帧进行所属不同类别的识别，将视频数据中包含的各图像帧划分为人物帧和非人物帧。进而，针对不同类别的图像帧进行不同的图像压缩处理，使得在更多地减少其占用存储空间的同时，保证了视频数据的质量。

图13是根据一示例性实施例示出的另一种视频数据压缩设备装置的框图。例如，该视频数据压缩处理设备1900可以被提供为一服务器。参照图13，设备1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述各实施例中的方法，包括：

对所述非人物帧进行第一压缩比压缩；

设备1900还可以包括一个电源组件1926被配置为执行设备1900的电源管理，一个有线或无线网络接口1950被配置为将设备1900连接到网络，和一个输入输出(I/O)接口1958。设备1900可以操作基于存储在存储器1932的操作系统，例如WindowsServerTM，MacOSXTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频数据压缩处理方法，其特征在于，包括：

对所述非人物帧进行第一压缩比压缩；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括训练人物识别模型的步骤：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括测试人物识别模型的步骤：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

更新所述训练样本集；

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

确定各次迭代对应的分类正确率中的最大分类正确率；

10.一种视频数据压缩处理装置，其特征在于，所述装置包括：

11.根据权利要求10所述的方法，其特征在于，所述装置还包括：

第三处理模块，被配置为采用视频压缩技术，对经过所述压缩处理后的每一帧图像进行压缩处理。

12.根据权利要求10所述装置，其特征在于：

所述第一处理模块，被配置为在所述人物帧的数量大于预设数量时，执行对所述非人物帧进行第一压缩比压缩的步骤；

所述装置还包括：

13.根据权利要求10所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：

15.根据权利要求10至14中任一项所述的装置，其特征在于，所述装置还包括：

16.根据权利要求15所述的装置，其特征在于，所述装置还包括：

17.根据权利要求16所述的装置，其特征在于，所述装置还包括：

更新所述训练样本集；

18.根据权利要求17所述的装置，其特征在于，所述装置还包括：

19.一种视频数据压缩处理设备，其特征在于，包括：

处理器；

被配置为存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

对所述非人物帧进行第一压缩比压缩；