CN112686165A

CN112686165A - 视频中目标对象的识别方法、装置、电子设备及存储介质

Info

Publication number: CN112686165A
Application number: CN202011628093.4A
Authority: CN
Inventors: 王鹏; 刘振强; 程瑾
Original assignee: Bigo Technology Singapore Pte Ltd
Current assignee: Bigo Technology Singapore Pte Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-20

Abstract

本发明公开了一种视频中目标对象的识别方法、装置、电子设备及存储介质，用以解决现有技术中人工审核特定年龄段的群体单独出镜的视频而导致的人力成本和时间成本较高的问题，该方法包括：根据获得的帧序列中各视频帧确定待识别视频的类型，帧序列是从待识别视频中按照时间顺序抽取的视频帧组合，待识别视频的类型表征待识别视频的生成方式；根据待识别视频的类型从帧序列中获得至少一个视频子单元，其中，所述视频子单元中包含同一场景的视频帧；针对每一视频子单元，对所述视频子单元中目标对象区域进行检测，并预测各目标对象区域中目标对象的年龄信息，并根据对应的目标对象的年龄信息，识别待识别视频中的目标对象是否属于指定年龄段的群体。

Description

视频中目标对象的识别方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种视频中目标对象的识别方法、装置、电子设备及存储介质。

背景技术

随着网络直播平台和视频网站的流行，在各个视频存储平台上每天都会产生大量用户上传的视频，在这些上传视频的用户中以及被上传的视频中的主要视频内容中，存在很多特定年龄段的群体单独出镜的视频类型，如未成年人单独出镜的视频类型、老年人单独出镜的视频类型等。为了对特定年龄段的群体健康使用网络、防止不法分子对特定年龄段的群体身心健康造成影响及危害，需要对特定年龄段的群体单独出镜的视频进行筛选和保护，减少这些视频的曝光量。

目前，审核特定年龄段的群体单独出镜的视频主要依赖审核人员全程观看视频，由于人力成本较高，且用户生产上传视频量级巨大，人工审核需要耗费大量时间成本，会大大延长除特定年龄段的群体单独出镜的视频之外的其他类型视频被用户观看的时间间隔，影响视频用户的使用体验。

因此，亟需一种审核视频的方法筛选特定年龄段的群体单独出镜的视频，以节省人力成本和时间成本。

发明内容

为了解决现有技术中人工审核特定年龄段的群体单独出镜的视频而导致的人力成本和时间成本较高的问题，本发明实施例提供了一种视频中目标对象的识别方法、装置、电子设备及存储介质。

第一方面，本发明实施例提供了一种视频中目标对象的识别方法，包括：

根据获得的帧序列中各视频帧确定待识别视频的类型，所述帧序列是从所述待识别视频中按照时间顺序抽取的视频帧组合，所述待识别视频的类型表征所述待识别视频的生成方式；

根据所述待识别视频的类型从所述帧序列中获得至少一个视频子单元，其中，所述视频子单元中包含同一场景的视频帧；

针对每一视频子单元，对所述视频子单元中目标对象区域进行检测，并预测各目标对象区域中目标对象的年龄信息，并根据对应的目标对象的年龄信息，识别所述待识别视频中的目标对象是否属于指定年龄段的群体。

第二方面，本发明实施例提供了一种视频中目标对象的识别装置，包括：

确定单元，用于根据获得的帧序列中各视频帧确定待识别视频的类型，所述帧序列是从所述待识别视频中按照时间顺序抽取的视频帧组合，所述待识别视频的类型表征所述待识别视频的生成方式；

获得单元，用于根据所述待识别视频的类型从所述帧序列中获得至少一个视频子单元，其中，所述视频子单元中包含同一场景的视频帧；

识别单元，用于针对每一视频子单元，对所述视频子单元中目标对象区域进行检测，并预测各目标对象区域中目标对象的年龄信息，并根据对应的目标对象的年龄信息，识别所述待识别视频中的目标对象是否属于指定年龄段的群体。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明所述的视频中目标对象的识别方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明所述的视频中目标对象的识别方法中的步骤。

本发明实施例的有益效果如下：

本发明实施例中，视频审核设备根据获取的帧序列中各视频帧确定待识别视频的类型，其中，所述帧序列为视频审核设备从待识别视频中按照时间顺序抽取的视频帧组合，待识别视频的类型表征待识别视频的生成方式，进而，根据待识别视频帧的类型从帧序列中获得至少一个视频子单元，所述视频子单元中包含同一场景的视频帧，分别对每一视频子单元中的目标对象区域进行检测，并预测各目标对象区域中目标对象的年龄信息，根据每一视频帧子单元的目标对象区域中对应的目标对象的年龄信息，识别该待识别视频中的目标对象是否属于指定年龄段的群体，相比于现有技术，本发明实施例提供的上述视频中目标对象的识别方法，利用视频审核设备根据按照时间顺序从待识别视频中抽取的视频帧组合，自动识别待识别视频中的目标对象是否为指定年龄段的群体，有效地节省了人工审核所耗费的人力成本和时间成本。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例提供的视频中目标对象的识别方法的一个应用场景示意图；

图2为本发明实施例提供的视频中目标对象的识别方法的实施流程示意图；

图3为本发明实施例提供的确定待识别视频的类型的实施流程示意图；

图4为本发明实施例提供的确定两个相邻视频帧之间的相似度的实施流程示意图；

图5为本发明实施例提供的对每一视频子单元中目标对象区域进行检测的实施流程示意图；

图6为本发明实施例提供的预测各目标对象区域中目标对象的年龄信息的实施流程示意图；

图7为本发明实施例提供的视频中目标对象的识别装置的结构示意图；

图8为本发明实施例提供的电子设备的结构示意图。

具体实施方式

以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

首先参考图1，其为本发明实施例提供的视频中目标对象的识别方法的一个应用场景示意图，可以包括视频解码设备110和视频审核设备120，视频解码设备110和视频审核设备120之间通过网络进行连接，在需要识别视频是否为特定年龄段的群体单独出镜的视频时，视频审核设备120可以从视频解码设备110的视频解码集群中按照预设的时间间隔顺序抽取待识别视频解码后生成的视频帧，例如，可以每隔1秒抽取一帧待识别视频解码后的视频帧，获得帧序列，视频审核设备120根据获得的帧序列中的各视频帧确定待识别视频的类型，视频的类型可以但不限于包括以下几种类型：合拍类型视频、图片集类型视频、独立完整类型视频，其中，合拍类型视频一般以中轴线为分界线，分为左右两个不同场景的视频，图片集类型视频一般是由多幅单张图片按照设置的时间间隔组合生成的视频，独立完整类型视频是在同一场景下拍摄的独立完整视频。视频审核设备120根据待识别视频的类型从获得的帧序列中获得至少一个视频子单元，进而，视频审核设备120分别对每一视频子单元中的目标对象区域进行检测，其中，目标对象即为人脸，目标对象区域即为人脸位置区域，预测各人脸位置区域中人脸的年龄信息，根据每一视频帧子单元的人脸位置区域中对应的人脸的年龄信息，识别该待识别视频中的人脸是否属于指定年龄段的群体，即识别该待识别视频是否为指定年龄段的群体单独出镜视频。

本发明实施例另一应用场景中，也可以由视频审核设备120对待识别视频进行解码，获得解码后的视频帧，并按照时间顺序抽取帧序列，本发明实施例对此不作限定。

视频解码设备110和视频审核设备120可以是独立的物理服务器，也可以是提供云服务器、云数据库、云存储等基础云计算服务的云服务器，本发明实施例对此不作限定。

基于上述应用场景，下面将参照附图2～图4更详细地描述本发明的示例性实施例，需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

如图2所示，其为本发明实施例提供的视频中目标对象的识别方法的实施流程示意图，该视频中目标对象的识别方法可以应用于上述的视频审核设备120中，具体可以包括以下步骤：

S21、根据获得的帧序列中各视频帧确定待识别视频的类型，所述帧序列是从所述待识别视频中按照时间顺序抽取的视频帧组合。

具体实施时，视频审核设备从视频解码设备的视频解码集群中按照预设的时间间隔顺序抽取待识别视频解码后生成的视频帧，得到按照时间顺序排列的帧序列，所述帧序列即为从待识别视频帧中按照时间顺序抽取的视频帧组合，例如，可以每隔1秒抽取一帧待识别视频解码后的视频帧，本发明实施例对此不作限定。进而，视频审核设备根据获得的帧序列中的各视频帧确定待识别视频的类型，所述待识别视频的类型表征所述待识别视频的生成方式。

具体地，按照如图3所示的流程确定待识别视频的类型，可以包括以下步骤：

S31、对各视频帧分别进行边缘检测，当确定从所述各视频帧的中轴处的预设矩形区域内检测到边界的像素行数均大于第一预设阈值时，确定所述待识别视频为合拍类型视频。

具体实施时，视频审核设备对获得的帧序列中的各视频帧分别进行边缘检测。

具体地，可以使用Canny边缘检测算子分别对各视频帧进行边缘检测，假设视频帧的分辨率为：w*h，即边长像素个数为w，宽像素个数为h，统计各视频帧的中轴处的预设矩形区域内检测到边界的像素行数，其中，视频帧的中轴处的预设矩形区域，预设矩形区域可以设置为以视频帧的中轴为中线，大小为6*h的矩形区域，本发明实施例对此不作限定，则统计各视频帧的中轴处的6*h大小的矩形区域内检测到边界的像素行数，如果各视频帧的中轴处的6*h大小的矩形区域内检测到边界的像素行数均大于第一预设阈值，则确定各视频帧中检测到的边界为该视频帧的分界线(即为垂直边界，一般为中轴线)，确定待识别视频为合拍类型视频，其中，第一预设阈值可以根据经验值自行设定，例如，可以设置为0.6*h，本发明实施例对此不作限定。具体实施时，可以根据实际需要选择合适的边缘检测算子，边缘检测算子除了可以使用Canny算子外，还可以但不限于使用Sobel算子、Prewitt算子、Roberts算子或Marr-Hildreth算子等，本发明实施例对此不作限定。

S32、当确定从所述各视频帧中的任一视频帧的中轴处的预设矩形区域内检测到边界的像素行数小于或等于所述第一预设阈值时，确定每两个相邻视频帧之间的相似度。

具体实施时，如果从所述各视频帧中的任一视频帧的中轴处的预设矩形区域内检测到边界的像素行数小于或等于所述第一预设阈值时，则确定待识别视频不是合拍类型视频，则进一步确定每两个相邻视频帧之间的相似度。

具体地，按照如图4所示的流程确定两个相邻视频帧之间的相似度，可以包括以下步骤：

S41、根据差值哈希算法计算两个相邻视频帧各自的DHash值。

具体实施时，视频审核设备针对任意两个相邻视频帧，可以根据差值哈希(Difference Hash，DHash)算法分别计算两个相邻视频帧各自的DHash值。

S42、确定所述两个相邻视频帧的DHash值之间的汉明距离。

具体实施时，视频审核设备计算所述两个相邻视频帧的DHash值之间的汉明距离，其中，两个等长字符串之间的汉明距离是指这两个字符串对应位置的不同字符的个数，例如“1011101”与“1001001”之间的汉明距离是2，在步骤S41中计算得到的两个相邻视频帧的DHash值是两个等长字符串，两个相邻视频帧的DHash值之间的汉明距离即为这两个相邻视频帧的DHash值对应位置的不同字符的个数。

S43、根据所述汉明距离确定所述两个相邻视频帧之间的相似度。

具体实施时，视频审核设备根据该两个相邻视频的DHash值之间的汉明距离确定该两个相邻视频帧之间的相似度。

具体地，通过以下公式计算两个相邻视频帧之间的相似度:

其中，p表示两个相邻视频帧之间的相似度；

d表示两个相邻视频帧的DHash值之间的汉明距离。

S33、当确定任意两个相邻视频帧之间的相似度大于第二预设阈值时，确定所述待识别视频为图片集类型视频。

具体实施时，如果帧序列中的任意两个相邻视频帧之间的相似度大于第二预设阈值，则确定待识别视频为图片集类型视频，其中，第二预设阈值可以根据经验值自行设定，例如，可以设置为0.9～0.95之间的任意值，本发明实施例对此不作限定。

S34、当确定所述每两个相邻视频帧之间的相似度均小于或等于所述第二预设阈值时，确定所述待识别视频为独立完整类型视频。

具体实施时，如果帧序列中的每两个相邻视频帧之间的相似度均小于或者等于所述第二预设阈值，则确定待识别视频为独立完整类型视频。

本发明实施例中，视频审核设备从待识别视频解码后生成的视频帧中按照时间顺序抽取视频帧组合成帧序列，由于针对于特定年龄段的群体单独出镜的视频，如果等待视频曝光后再进行审核，会存在视频内容的空窗期，增加特定年龄段的群体单独出镜视频上传者及视频中特定年龄段的群体的权益受损的风险，因此，在本发明实施例中，使用视频解码后的视频帧序列采样，在视频解码过程中即可实现对其进行自动审核筛查，提高了视频审核的时效性。并通过以下方式识别待识别视频的类型是合拍类型视频、图片集类型视频以及独立完整类型视频中的哪一种类型的视频：首先，通过对帧序列中各视频帧进行边缘检测，以判断待识别视频是否为合拍类型视频，如果不是合拍类型视频，则通过进一步确定每两个相邻视频帧之间的相似度来判断其为图片集类型视频还是独立完整类型视频，进而，根据待识别视频的类型将帧序列中的视频帧划分为至少一个视频子单元(即最小视频单元)，以对待识别视频进行更细粒度的识别，提高识别结果的准确率。

S22、根据所述待识别视频的类型从所述帧序列中获得至少一个视频子单元。

具体实施时，视频审核设备根据待识别视频的类型从所述帧序列中获得至少一个视频子单元，即最小视频单元，其中，所述视频子单元(最小视频单元)中包含同一场景的视频帧。

具体地，当待识别视频为合拍类型视频时，视频审核设备可以通过以下方式从帧序列中获得至少一个视频子单元：

将从所述帧序列中的每一视频帧的中轴处的预设矩形区域内检测到边界的像素最多的列作为所述每一视频帧的分割线，将所述每一视频帧分割成左右两个视频子帧；并分别将左侧的视频子帧序列与右侧的视频子帧序列确定为两个视频子单元。

具体实施时，由于合拍类型视频在视频的分割线两侧的视频内容一般属于两个不同的场景，因此，根据检测出的帧序列中的每一视频帧的分割线，将每一视频帧分割成左右两个视频子帧。在帧序列中，每一视频帧的中轴处的预设矩形区域内检测到边界的像素最多的列即为每一视频帧的分界线，将每一视频帧的分界线作为分割线，分割成左右两个视频子帧，分别将左侧的视频子帧序列与右侧的视频子帧序列确定为两个视频子单元，即：将左侧的视频子帧序列与右侧的视频子帧序列确定为两个最小视频单元，这样，即可保证划分的两个视频子单元各自分别属于相同的场景，进一步提高了识别结果。

当待识别视频为图片集类型视频时，视频审核设备可以通过以下方式从帧序列中获得至少一个视频子单元：

当确定相邻视频帧之间的相似度小于第三预设阈值时，将所述相邻视频帧之间作为切割点，对所述帧序列进行分割；将分割后得到的每一视频帧组合分别确定为一个视频子单元，并将每一视频子单元中的视频帧确定为视频子帧。

具体实施时，仍然按照步骤S41～S43确定帧序列中每两个相邻视频帧之间的相似度，当确定相邻视频帧之间的相似度小于第三预设阈值时，则将这些相邻视频帧之间作为切割点，对帧序列进行分割，并将分割后的每一视频帧组合分别确定为一个视频子单元(即最小视频单元)，将每一视频子单元中的视频帧确定为视频子帧，其中，第三预设阈值可以根据实际情况自行设定，例如可以设置为0.6，本发明实施例中对此不作限定。假设帧序列中包含10帧视频帧，其中，第4帧视频帧和第5帧视频帧之间的相似度小于0.6，第7帧视频帧和第8帧视频帧之间的相似度小于0.6，其余的每两个相邻视频帧之间的相似度均大于0.6，则可以将该帧序列分割成以下三个视频子单元：第1～4帧视频帧为一个视频子单元，第5～7帧视频帧为一个视频子单元，第8～10帧视频帧为一个视频子单元。针对图片集类型视频，如果相邻两帧的相似度较小，则认为这两帧前后的视频内容连贯性较低，前后的视频内容为同一场景的概率也就较低。

本发明实施例中，由于图片集类型视频为由多幅单张图片按照设置的时间间隔组合生成，根据相邻两帧图片的相似度可以判断两帧图片内容之间的连贯性，图片之间的连贯性越强，则这些连续的图片属于同一场景的概率越高，根据图片内容之间的连贯性对帧序列进行分割来划分视频子单元，进一步提高了识别结果的准确率。

当确定待识别视频为独立完整类型视频时，也就是说该待识别视频为同一场景下的独立完整视频时，则不对帧序列进行分割，直接将所述帧序列确定为视频子单元(即最小视频单元)，并将所述视频子单元中的视频帧确定为视频子帧。

S23、针对每一视频子单元，对所述视频子单元中目标对象区域进行检测，并预测各目标对象区域中目标对象的年龄信息，并根据对应的目标对象的年龄信息，识别所述待识别视频中的目标对象是否属于指定年龄段的群体。

具体实施时，按照如图5所示的流程对每一视频子单元中目标对象区域进行检测，可以包括以下步骤：

S51、针对每一视频子单元，根据人脸检测模型分别对所述视频子单元的各视频子帧进行人脸检测，获得所述各视频子帧中的人脸位置信息以及人脸特征信息，其中，所述人脸位置信息包括对人脸进行标注的人脸矩形边界框。

具体实施时，视频审核设备针对每一视频子单元，根据人脸检测模型分别对所述视频子单元的各视频子帧进行人脸检测，获得各视频子帧中的人脸位置信息以及人脸特征信息，所述人脸位置信息包括对人脸进行标注的人脸矩形边界框，其中，人脸检测模型可以使用但不限于以下模型：DBFace模型、RetinaFace模型、SRN(Selective RefinementNetwork)模型等。

S52、分别计算每一视频子帧中的每一人脸矩形边界框与其相邻视频子帧中的每一人脸矩形边界框的交并比。

具体实施时，视频审核设备分别计算每一视频子帧中的每一人脸矩形边界框的面积与其相邻视频子帧中的每一人脸矩形边界框的面积的交并比(Intersection overUnion，IoU)，两个人脸矩形边界框的面积的交并比即为：这两个人脸矩形边界框的面积的交集与这两个人脸矩形边界框的面积的并集的比值。

S53、将交并比大于第四预设阈值的两个人脸矩形边界框标记为一个连续人脸检出对。

具体实施时，将每两个相邻视频子帧中的交并比大于第四预设阈值的两个人脸矩形边界框标记为一个连续人脸检出对，其中，第四预设阈值可以根据经验值进行设定，例如，可以设置为0.8，本发明实施例对此不作限定。

S54、针对每一连续人脸检出对，当确定所述人脸检出对的两个人脸矩形边界框对应的人脸特征信息的相似度大于第五预设阈值时，确定所述人脸检出对检测出的是同一人脸，否则，确定所述人脸检出对检测出的是不同人脸。

具体实施时，视频审核设备针对检测出的每一连续人脸检出对，进一步确定对应的两个人脸矩形边界框中的人脸的人脸特征信息的相似度，当确定所述人脸检出对的两个人脸矩形边界框中的人脸的人脸特征信息的相似度大于第五预设阈值时，确定所述人脸检出对检测出的是同一人脸，否则，确定所述人脸检出对检测出的是不同人脸。其中，两个人脸特征信息的相似度可以但不限于通过计算该两个人脸特征信息之间的欧式距离或者余弦相似度来确定，第五预设阈值可以根据经验值进行设定，例如，可以设置为0.9，本发明实施例对此不作限定。上述通过首先通过计算两个相邻视频子帧中检测出的人脸矩形边界框的面积的交并比，结合检测出的人脸特征信息的相似度，进一步判断检测出的是否为同一个人脸，提高了人脸检测的准确率。

S55、记录从所述视频子单元中检测的人脸相关信息。

具体实施时，视频审核设备对从所述视频子单元中检测出的同一人的信息进行人物级别的唯一性标记，例如，可以为检测出的每一人脸设置唯一标识，记录所述视频子单元中检测出的各个人脸的相关信息，人脸的相关信息至少包括人脸位置信息、人脸特征信息以及人脸标识信息。

本发明实施例中，针对每一视频子单元，利用人脸检测模型分别对所述视频子单元中的各视频子帧进行人脸检测，获得各视频子帧中的人脸位置信息以及人脸特征信息，人脸位置信息即为检测的目标区域，包括对人脸进行标注的人脸矩形边界框，目标对象即人脸，进而，分别计算每一视频子帧中的每一人脸矩形边界框与其相邻视频子帧中的每一人脸矩形边界框的交并比，将交并比大于第四预设阈值的两个人脸矩形边界框标记为一个连续人脸检出对，针对每一连续人脸检出对，当确定该人脸检出对的两个人脸矩形边界框对应的人脸特征信息的相似度大于第五预设阈值时，则确定该人脸检出对检出的是同一人脸，否则，确定该人脸检出对检测出的是不同人脸，并记录该视频子单元中出现的人脸的数目，相比于现有技术中采用单张图片作为人脸检测模型的输入进行人脸时，由于单张图片的人物信息受到模型准确率、图片中人物状态、图片内光线强度、光线角度等影响，对于识别输入图像的抗干扰能力较差，易于给出波动的预测结果，导致识别准确率不高，本发明实施例中使用从待识别视频解码后生成的视频帧中抽取出的多帧视频帧作为人脸检测模型的输入，进行人脸检测，使得检测过程受图片中人物状态、图片内光线强度及光线角度的影响较低，提高了人脸检测结果的准确率。并且，现有技术中还可以将整个视频作为人脸检测模型的输入，由于视频文件的占用空间大，且包含非视频图像信息以外的冗余信息(如音频信息)，这样会导致网络传输负载加大，并使得硬件资源的计算量较大，而本发明实施例中，使用视频解码后的视频帧作为人脸检测模型的输入，由于视频解码后的视频帧中仅仅包含图像信息，而不包含其它冗余信息如音频信息，可以避免使用视频文件作为人脸检测模型的输入，减小了网络传输负载，以及减少了硬件资源的计算量。另外，本发明实施中通过计算相邻视频帧中的人脸矩形边界框的交并比以及相应两个人脸特征信息的相似度来检测该相邻两个视频帧中的相应两个人脸是否为同一人脸，假如两个视频帧中间相隔的时间较长，在这样两个视频帧中检测出同一人脸的误识别率较高，因此，通过从每两个相邻视频帧中检测是否存在相同人脸的方式，提高了人脸识别的准确率。

进一步地，视频审核设备针对每一视频子单元，预测各目标对象区域中目标对象的年龄信息。

具体实施时，按照如图6所示的流程预测各目标对象区域中目标对象的年龄信息，即预测所述视频子单元的各视频子帧中检测出的各个人脸的年龄信息，可以包括以下步骤：

S61、针对每一视频子单元，根据年龄检测模型分别对所述视频子单元的各视频子帧中检测出的各个人脸进行年龄检测，获得所述各视频子帧中的各个人脸对应的年龄预测值。

具体实施时，视频审核设备针对每一视频子单元，根据年龄检测模型分别对所述视频子单元的各视频子帧中检测出的各个人脸进行年龄检测，获得所述各视频子帧中的各个人脸对应的年龄预测值。

具体地，针对每一视频子单元，将根据人脸检测模型从所述视频子单元中的每一视频子帧中获得的人脸位置信息和人脸特征信息输入年龄检测模型中，获得所述各视频子帧中的各个人脸对应的年龄预测值。其中，年龄检测模型可以但不限于使用以下模型：BridgeNet模型、基于卷积神经网络的深度学习模型等，本发明实施例对此不作限定。

S62、针对从所述视频子单元中的不同视频子帧中检测出的同一人脸，利用预设聚类算法剔除所述同一人脸的各个年龄预测值中的离群点。

具体实施时，视频审核设备统计从所述视频子单元中的不同视频子帧中检测出的同一人脸的信息，利用预设聚类算法剔除所述同一人脸的各个年龄预测值中的离群点，其中，预设聚类算法可以但不限于使用K-means(K均值)聚类算法，本发明实施例对此不作限定。

具体地，针对从所述视频子单元中的不同视频子帧中检测出的同一人脸，利用K-means聚类算法计算该同一人脸的各年龄预测值的聚类中心，将离群点判定为误检，加以删除，从而提高了年龄预测的准确率。

本发明实施例中，针对每一视频子单元，进一步利用年龄检测模型对所述视频子单元的各视频帧中检测出的人脸进行年龄检测，以预测各视频帧中的人脸对应的年龄，对于从所述视频子单元中的不同视频子帧中检测出的同一人脸，利用预设聚类算法剔除该人脸的各个年龄预测值中的离群点，以提高年龄检测的准确率。并且，本发明实施例中使用从待识别视频解码后生成的视频帧中抽取出的多帧视频帧基于年龄检测模型的进行年龄检测，使得检测过程受图片中人物状态、图片内光线强度及光线角度的影响较低，提高了年龄检测结果的准确率，而且，避免使用视频文件作为年龄检测模型的输入，减小了网络传输负载，以及减少了硬件资源的计算量。

进一步地，视频审核设备根据从每一视频子单元中识别出的目标对象的年龄信息，识别待识别视频中的目标对象是否属于指定年龄段的群体，即：根据从每一视频子单元中识别出的人脸的年龄信息，识别待识别视频中的人脸是否属于指定年龄段的群体，从而判断待识别视频是否为指定年龄段的群体单独出镜视频。

具体实施时，视频审核设备针对检测出的人脸的数目为1的视频子单元，当确定针对所述人脸的年龄预测值的最小值以及年龄预测值的众数均在指定年龄段中，则确定所述视频子单元中的目标对象属于指定年龄段的群体，所述年龄预测值的众数表征出现次数最多的年龄预测值；针对检测出的人脸的数目大于1的视频子单元，当确定针对各人脸的年龄预测值的最小值以及年龄预测值的众数均在指定年龄段中，且从所述视频子单元中检测出的人脸的年龄预测值在指定年龄段中的帧数小于第六预设阈值时，则确定所述视频子单元中的目标对象属于指定年龄段的群体；当确定每一视频子单元中的目标对象均属于指定年龄段群体时，确定所述待识别视频中的目标对象属于指定年龄段的群体。

具体地，视频审核设备针对检测出的人脸的数目为1的视频子单元，当确定针对该人脸的年龄预测值的最小值以及年龄预测值的众数均在指定年龄段中，则确定所述视频子单元中的人脸属于指定年龄段的群体，所述年龄预测值的众数表征出现次数最多的年龄预测值。

针对检测出的人脸的数目大于1的视频子单元，当确定针对各人脸的年龄预测值的最小值以及年龄预测值的众数均在指定年龄段中，且从所述视频子单元中检测出的人脸的年龄预测值在指定年龄段之外的帧数小于第六预设阈值时，则确定所述视频子单元中的人脸属于指定年龄段的群体，如果从所述视频子单元中检测出的人脸的年龄预测值在指定年龄段之外的帧数大于或者等于第六预设阈值，则确定所述视频子单元中的人脸不属于指定年龄段的群体。其中，第六预设阈值可以根据需要自行设定，例如可以设置为：5，本发明实施例对此不作限定。

本发明实施例中，首先判断待识别视频的每一视频子单元中的识别出的目标对象是否属于指定年龄段的群体，当每一视频子单元中识别出的目标对象均属于指定年龄段的群体，则判定待识别视频中的目标对象属于指定年龄段的群体，通过对划分的最小视频单元分别进行检测，进一步提高了目标对象识别的准确率。

进而，当确定每一视频子单元中的人脸均属于指定年龄段群体时，确定所述待识别视频中的人脸属于指定年龄段的群体，即：所述待识别视频为指定年龄段的群体单独出镜视频，例如，如果每一视频子单元中的人脸均均属于未成年人，则确定待识别视频中为未成年人单独出镜视频，如果每一视频子单元中的人脸均属于老年人，则确定待识别视频中为老年人单独出镜视频。

如果存在任一视频子单元中的视频子帧中没有检测到人脸的子帧数大于第七预设阈值时，则确定待识别视频为非指定年龄段的群体单独出镜视频。其中，第七预设阈值可以根据帧序列中的视频帧的数量进行设定，例如可以设置为帧序列中的视频帧的数量的二分之一，本发明实施例对此不作限定。

需要说明的是，本发明实施例提供的视频中目标对象的识别方法，可以在视频发布之前进行，也可以对已发布的视频进行指定年龄段的群体的识别，以对指定年龄段的群体单独出镜的视频进行回捞。另外，在实际的视频上传后视频审核设备自动检测过程中，由于相同的视频解码后抽取的视频帧要作为不同检测模型输入，但作为文件保存下来又将导致存储空间的高占用，因此，本发明实施例中考虑将解码集群中已有的视频帧进行复用，在实时视频并行审核的场景下，可以复用解码集群中已有的视频帧序列，充分利用已有解码资源，这样既能保证解码后的视频帧获得的实时性，又能减少对同一视频重复进行解码而造成的解码资源消耗，提高了解码资源的利用率。

本发明实施例提供的视频中目标对象的识别方法，视频审核设备根据获取的帧序列中各视频帧确定待识别视频的类型，其中，所述帧序列为视频审核设备从待识别视频中按照时间顺序抽取的视频帧组合，待识别视频的类型表征待识别视频的生成方式，进而，根据待识别视频帧的类型从帧序列中获得至少一个视频子单元，所述视频子单元中包含同一场景的视频帧，分别对每一视频子单元中的目标对象区域进行检测，并预测各目标对象区域中目标对象的年龄信息，根据每一视频帧子单元的目标对象区域中对应的目标对象的年龄信息，识别该待识别视频中的目标对象是否属于指定年龄段的群体，相比于现有技术，本发明实施例提供的上述视频中目标对象的识别方法，利用视频审核设备根据按照时间顺序从待识别视频中抽取的视频帧组合，自动识别待识别视频中的目标对象是否为指定年龄段的群体，有效地节省了人工审核所耗费的人力成本和时间成本。

基于同一发明构思，本发明实施例还提供了一种视频中目标对象的识别装置，由于上述视频中目标对象的识别装置解决问题的原理与视频中目标对象的识别方法相似，因此上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图7所示，其为本发明实施例提供的视频中目标对象的识别装置的结构示意图，可以包括：

确定单元71，用于根据获得的帧序列中各视频帧确定待识别视频的类型，所述帧序列是从所述待识别视频中按照时间顺序抽取的视频帧组合，所述待识别视频的类型表征所述待识别视频的生成方式；

获得单元72，用于根据所述待识别视频的类型从所述帧序列中获得至少一个视频子单元，其中，所述视频子单元中包含同一场景的视频帧；

识别单元73，用于针对每一视频子单元，对所述视频子单元中目标对象区域进行检测，并预测各目标对象区域中目标对象的年龄信息，并根据对应的目标对象的年龄信息，识别所述待识别视频中的目标对象是否属于指定年龄段的群体。

较佳地，所述视频帧为所述待识别视频解码后生成的；

所述确定单元71，具体用于对所述各视频帧分别进行边缘检测，当确定从所述各视频帧的中轴处的预设矩形区域内检测到边界的像素行数均大于第一预设阈值时，确定所述待识别视频为合拍类型视频；当确定从所述各视频帧中的任一视频帧的中轴处的预设矩形区域内检测到边界的像素行数小于或等于所述第一预设阈值时，确定每两个相邻视频帧之间的相似度；当确定任意两个相邻视频帧之间的相似度大于第二预设阈值时，确定所述待识别视频为图片集类型视频；当确定所述每两个相邻视频帧之间的相似度均小于或等于所述第二预设阈值时，确定所述待识别视频为独立完整类型视频。

较佳地，所述获得单元72，具体用于当确定所述待识别视频为合拍类型视频时，将从所述帧序列中的每一视频帧的中轴处的预设矩形区域内检测到边界的像素最多的列作为所述每一视频帧的分割线，将所述每一视频帧分割成左右两个视频子帧；分别将左侧的视频子帧序列与右侧的视频子帧序列确定为两个视频子单元。

较佳地，所述获得单元72，具体用于当确定所述待识别视频为图片集类型视频时，当确定相邻视频帧之间的相似度小于第三预设阈值时，将所述相邻视频帧之间作为切割点，对所述帧序列进行分割；将分割后得到的每一视频帧组合分别确定为一个视频子单元，并将每一视频子单元中的视频帧确定为视频子帧。

较佳地，所述获得单元72，具体用于当确定所述待识别视频为独立完整类型视频时，将所述帧序列确定为视频子单元，并将所述视频子单元中的视频帧确定为视频子帧。

较佳地，所述识别单元73，具体用于针对每一视频子单元，根据人脸检测模型分别对所述视频子单元的各视频子帧进行人脸检测，获得所述各视频子帧中的人脸位置信息以及人脸特征信息，其中，所述人脸位置信息包括对人脸进行标注的人脸矩形边界框；分别计算每一视频子帧中的每一人脸矩形边界框与其相邻视频子帧中的每一人脸矩形边界框的交并比；将交并比大于第四预设阈值的两个人脸矩形边界框标记为一个连续人脸检出对；针对每一连续人脸检出对，当确定所述人脸检出对的两个人脸矩形边界框对应的人脸特征信息的相似度大于第五预设阈值时，确定所述人脸检出对检测出的是同一人脸，否则，确定所述人脸检出对检测出的是不同人脸；记录从所述视频子单元中检测的人脸相关信息。

较佳地，所述识别单元73，具体用于针对每一视频子单元，根据年龄检测模型分别对所述视频子单元的各视频子帧中检测出的各个人脸进行年龄检测，获得所述各视频子帧中的各个人脸对应的年龄预测值；针对从所述视频子单元中的不同视频子帧中检测出的同一人脸，利用预设聚类算法剔除所述同一人脸的各个年龄预测值中的离群点。

较佳地，所述识别单元73，具体用于针对检测出的人脸的数目为1的视频子单元，当确定针对所述人脸的年龄预测值的最小值以及年龄预测值的众数均在指定年龄段中，则确定所述视频子单元中的目标对象属于指定年龄段的群体，所述年龄预测值的众数表征出现次数最多的年龄预测值；针对检测出的人脸的数目大于1的视频子单元，当确定针对各人脸的年龄预测值的最小值以及年龄预测值的众数均在指定年龄段中，且从所述视频子单元中检测出的人脸的年龄预测值在指定年龄段之外的帧数小于第六预设阈值时，则确定所述视频子单元中的目标对象属于指定年龄段的群体；当确定每一视频子单元中的目标对象均属于指定年龄段群体时，确定所述待识别视频中的目标对象属于指定年龄段的群体。

较佳地，所述确定单元71，具体用于通过以下步骤确定两个相邻视频帧之间的相似度：根据差值哈希DHash算法计算两个相邻视频帧各自的DHash值；确定所述两个相邻视频帧的DHash值之间的汉明距离；根据所述汉明距离确定所述两个相邻视频帧之间的相似度。

基于同一技术构思，本发明实施例还提供了一种电子设备800，参照图8所示，电子设备800用于实施上述方法实施例记载的视频中目标对象的识别方法，该实施例的电子设备800可以包括：存储器801、处理器802以及存储在所述存储器中并可在所述处理器上运行的计算机程序，例如视频中目标对象的识别程序。所述处理器执行所述计算机程序时实现上述各个视频中目标对象的识别方法实施例中的步骤，例如图2所示的步骤S21。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如71。

本发明实施例中不限定上述存储器801、处理器802之间的具体连接介质。本申请实施例在图8中以存储器801、处理器802之间通过总线803连接，总线803在图8中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线803可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器801可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器801也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器801是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器801可以是上述存储器的组合。

处理器802，用于实现如图2所示的一种视频中目标对象的识别方法，包括：

所述处理器802，用于调用所述存储器801中存储的计算机程序执行如图2中所示的步骤S21、根据获得的帧序列中各视频帧确定待识别视频的类型，所述帧序列是从所述待识别视频中按照时间顺序抽取的视频帧组合，步骤S22、根据所述待识别视频的类型从所述帧序列中获得至少一个视频子单元，和步骤S23、针对每一视频子单元，对所述视频子单元中目标对象区域进行检测，并预测各目标对象区域中目标对象的年龄信息，并根据对应的目标对象的年龄信息，识别所述待识别视频中的目标对象是否属于指定年龄段的群体。

本申请实施例还提供了一种计算机可读存储介质，存储为执行上述处理器所需执行的计算机可执行指令，其包含用于执行上述处理器所需执行的程序。

在一些可能的实施方式中，本发明提供的视频中目标对象的识别方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的视频中目标对象的识别方法中的步骤，例如，所述电子设备可以执行如图2中所示的步骤S21、根据获得的帧序列中各视频帧确定待识别视频的类型，所述帧序列是从所述待识别视频中按照时间顺序抽取的视频帧组合，步骤S22、根据所述待识别视频的类型从所述帧序列中获得至少一个视频子单元，和步骤S23、针对每一视频子单元，对所述视频子单元中目标对象区域进行检测，并预测各目标对象区域中目标对象的年龄信息，并根据对应的目标对象的年龄信息，识别所述待识别视频中的目标对象是否属于指定年龄段的群体。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视频中目标对象的识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述视频帧为所述待识别视频解码后生成的；

根据获得的帧序列中各视频帧确定待识别视频的类型，具体包括：

对所述各视频帧分别进行边缘检测，当确定从所述各视频帧的中轴处的预设矩形区域内检测到边界的像素行数均大于第一预设阈值时，确定所述待识别视频为合拍类型视频；

当确定从所述各视频帧中的任一视频帧的中轴处的预设矩形区域内检测到边界的像素行数小于或等于所述第一预设阈值时，确定每两个相邻视频帧之间的相似度；

当确定任意两个相邻视频帧之间的相似度大于第二预设阈值时，确定所述待识别视频为图片集类型视频；

当确定所述每两个相邻视频帧之间的相似度均小于或等于所述第二预设阈值时，确定所述待识别视频为独立完整类型视频。

3.如权利要求2所述的方法，其特征在于，当确定所述待识别视频为合拍类型视频时，根据所述待识别视频的类型从所述帧序列中获得至少一个视频子单元，具体包括：

将从所述帧序列中的每一视频帧的中轴处的预设矩形区域内检测到边界的像素最多的列作为所述每一视频帧的分割线，将所述每一视频帧分割成左右两个视频子帧；

分别将左侧的视频子帧序列与右侧的视频子帧序列确定为两个视频子单元。

4.如权利要求2所述的方法，其特征在于，当确定所述待识别视频为图片集类型视频时，根据所述待识别视频的类型从所述帧序列中获得至少一个视频子单元，具体包括：

当确定相邻视频帧之间的相似度小于第三预设阈值时，将所述相邻视频帧之间作为切割点，对所述帧序列进行分割；

将分割后得到的每一视频帧组合分别确定为一个视频子单元，并将每一视频子单元中的视频帧确定为视频子帧。

5.如权利要求2所述的方法，其特征在于，当确定所述待识别视频为独立完整类型视频时，根据所述待识别视频的类型从所述帧序列中获得至少一个视频子单元，具体包括：

将所述帧序列确定为视频子单元，并将所述视频子单元中的视频帧确定为视频子帧。

6.如权利要求1～5任一项所述的方法，其特征在于，针对每一视频子单元，对所述视频子单元中目标对象区域进行检测，具体包括：

针对每一视频子单元，根据人脸检测模型分别对所述视频子单元的各视频子帧进行人脸检测，获得所述各视频子帧中的人脸位置信息以及人脸特征信息，其中，所述人脸位置信息包括对人脸进行标注的人脸矩形边界框；

分别计算每一视频子帧中的每一人脸矩形边界框与其相邻视频子帧中的每一人脸矩形边界框的交并比；

将交并比大于第四预设阈值的两个人脸矩形边界框标记为一个连续人脸检出对；

针对每一连续人脸检出对，当确定所述人脸检出对的两个人脸矩形边界框对应的人脸特征信息的相似度大于第五预设阈值时，确定所述人脸检出对检测出的是同一人脸，否则，确定所述人脸检出对检测出的是不同人脸；

记录从所述视频子单元中检测的人脸相关信息。

7.如权利要求6所述的方法，其特征在于，预测各目标对象区域中目标对象的年龄信息，具体包括：

针对每一视频子单元，根据年龄检测模型分别对所述视频子单元的各视频子帧中检测出的各个人脸进行年龄检测，获得所述各视频子帧中的各个人脸对应的年龄预测值；

针对从所述视频子单元中的不同视频子帧中检测出的同一人脸，利用预设聚类算法剔除所述同一人脸的各个年龄预测值中的离群点。

8.如权利要求7所述的方法，其特征在于，根据对应的目标对象的年龄信息，识别所述待识别视频中的目标对象是否属于指定年龄段的群体，具体包括：

针对检测出的人脸的数目为1的视频子单元，当确定针对所述人脸的年龄预测值的最小值以及年龄预测值的众数均在指定年龄段中，则确定所述视频子单元中的目标对象属于指定年龄段的群体，所述年龄预测值的众数表征出现次数最多的年龄预测值；

针对检测出的人脸的数目大于1的视频子单元，当确定针对各人脸的年龄预测值的最小值以及年龄预测值的众数均在指定年龄段中，且从所述视频子单元中检测出的人脸的年龄预测值在指定年龄段中的帧数小于第六预设阈值时，则确定所述视频子单元中的目标对象属于指定年龄段的群体；

当确定每一视频子单元中的目标对象均属于指定年龄段群体时，确定所述待识别视频中的目标对象属于指定年龄段的群体。

9.如权利要求2所述的方法，其特征在于，通过以下步骤确定两个相邻视频帧之间的相似度：

根据差值哈希DHash算法计算两个相邻视频帧各自的DHash值；

确定所述两个相邻视频帧的DHash值之间的汉明距离；

根据所述汉明距离确定所述两个相邻视频帧之间的相似度。

10.一种视频中目标对象的识别装置，其特征在于，包括：

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～9任一项所述的视频中目标对象的识别方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～9任一项所述的视频中目标对象的识别方法中的步骤。