CN112418098A

CN112418098A - 视频结构化模型的训练方法及相关设备

Info

Publication number: CN112418098A
Application number: CN202011330035.3A
Authority: CN
Inventors: 唐欢; 胡文泽
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-02-26

Abstract

本申请实施例提供一种视频结构化模型的训练方法及相关设备，其中，所述方法包括：将视频流中的当前帧图像输入预先训练好的人体检测模型以得到所述当前帧图像对应的N个人体检测框，其中，所述N为正整数；将所述N个人体检测框分别输入预先训练好的质量模型以得到N个质量分数；将所述N个人体检测框分别输入预先训练好的人体特征模型以得到N个人体特征向量；采用所述当前帧图像、所述N个人体检测框、所述N个质量分数、所述N个人体特征向量对预设的神经网络模型进行训练，以得到训练后的所述视频结构化模型。采用本申请实施例，有利于提高视频结构化的速度。

Description

视频结构化模型的训练方法及相关设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频结构化模型的训练方法及相关设备。

背景技术

随着深度学习的跨越式发展，深度学习在实际应用中产生了巨大的实用价值。统观现在的视频结构化平台，其往往都是由检测模型、跟踪模型以及各种各样的属性和质量模型组成。在视频结构化流程中，需要对这些模型进行这一系列的调用，这一系列的调用流程对资源调度的要求非常高，且由于视频结构化流程中需要调用很多模型，例如人体特征模型(Reid)、人体检测模型等，因此对视频结构化的速度也有较大的限制，从而对实际应用产生了巨大的影响。

发明内容

本申请实施例公开了一种视频结构化模型的训练方法及相关设备，有利于提高视频结构化的速度。

本申请实施例第一方面公开了一种视频结构化模型的训练方法，该方法包括：将视频流中的当前帧图像输入预先训练好的人体检测模型以得到所述当前帧图像对应的N个人体检测框，其中，所述N为正整数；将所述N个人体检测框分别输入预先训练好的质量模型以得到N个质量分数；将所述N个人体检测框分别输入预先训练好的人体特征模型以得到N个人体特征向量；采用所述当前帧图像、所述N个人体检测框、所述N个质量分数、所述N个人体特征向量对预设的神经网络模型进行训练，以得到训练后的所述视频结构化模型。

在一种示例性的实施方式中，所述将所述目标人体检测框输入到所述第二子模型以得到第二评分，包括：将所述目标人体检测框进行多尺度特征分解，得到低频特征分量和高频特征分量；将所述低频特征分量划分为多个区域；确定所述多个区域中每一区域对应的信息熵，得到多个信息熵；依据所述多个信息熵确定平均信息熵和目标均方差；确定所述目标均方差对应的目标调节系数；依据所述目标调节系数对所述平均信息熵进行调节，得到目标信息熵；按照预设的信息熵与评分之间的映射关系，确定所述目标信息熵对应的第三评分；获取所述目标人体检测框对应的目标拍摄参数；按照预设的拍摄参数与低频权重之间的映射关系，确定所述目标拍摄参数对应的目标低频权重，依据该目标低频权重确定目标高频权重；依据所述高频特征分量确定目标特征点分布密度；按照预设的特征点分布密度与评分之间的映射关系，确定所述目标特征点分布密度对应的第四评分；依据所述第三评分、所述第四评分、所述目标低频权重和所述目标高频权重进行加权运算，得到所述目标人体检测框的目标清晰度；按照预设的人体检测框的清晰度与评分之间的映射关系，确定目标清晰度对应的第二评分。

本申请实施例第二方面公开了一种视频结构化模型的训练装置，该装置包括：获取单元，用于将视频流中的当前帧图像输入预先训练好的人体检测模型以得到所述当前帧图像对应的N个人体检测框，其中，所述N为正整数；所述获取单元，还用于将所述N个人体检测框分别输入预先训练好的质量模型以得到N个质量分数；所述获取单元，还用于将所述N个人体检测框分别输入预先训练好的人体特征模型以得到N个人体特征向量；训练单元，用于采用所述当前帧图像、所述N个人体检测框、所述N个质量分数、所述N个人体特征向量对预设的神经网络模型进行训练，以得到训练后的所述视频结构化模型。

本申请实施例第三方面公开了一种服务器，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如本申请实施例第一方面任一项所述的方法中的步骤的指令。

本申请实施例第四方面公开了一种芯片，其特征在于，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如本申请实施例第一方面中任一项所述的方法。

本申请实施例第五方面公开了一种计算机可读存储介质，其特征在于，其存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如本申请实施例第一方面中任一项所述的方法。

本申请实施例第六方面公开了一种计算机程序产品，所述计算机程序产品使得计算机执行如本申请实施例第一方面中任一项所述的方法。

可以看出，在本申请实施例中，先将视频流中的当前帧图像输入预先训练好的人体检测模型以得到该当前帧图像对应的N个人体检测框；然后将该N个人体检测框分别输入预先训练好的质量模型以得到N个质量分数；以及将该N个人体检测框分别输入预先训练好的人体特征模型以得到N个人体特征向量；再采用该当前帧图像、该N个人体检测框、该N个质量分数、该N个人体特征向量对预设的神经网络模型进行训练，以得到训练后的视频结构化模型；由于在训练该视频结构化模型过程中，同时采用视频流中的帧图像、帧图像对应的人体检测框、人体检测框对应的质量分数、人体检测框对应的人体特征向量进行模型训练，因此训练后得到的视频结构化模型同时具备了人体检测、质量分数、人体特征的三类输出，从而大幅提高视频结构化的速度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频结构化模型的训练方法的流程示意图；

图2是本申请实施例提供的另一种视频结构化模型的训练方法的流程示意图；

图3是本申请实施例提供的一种视频结构化模型的训练装置的结构示意图；

图4是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。

请参阅图1，图1是本申请实施例提供的一种视频结构化模型的训练方法的流程示意图，所述视频结构化模型的训练方法可应用于服务器，所述视频结构化模型的训练方法包括但不限于以下步骤。

步骤101、将视频流中的当前帧图像输入预先训练好的人体检测模型以得到所述当前帧图像对应的N个人体检测框，其中，所述N为正整数。

其中，人体检测框用于视频结构化中对图像进行行人检测，其为框选行人后的区域图像，也即帧图像中包含行人的一区域图像。此外，人体检测模型可以为行人检测器。

步骤102、将所述N个人体检测框分别输入预先训练好的质量模型以得到N个质量分数。

其中，所述预先训练好的质量模型用于对每个人体检测框的质量好坏进行评价，以得到该人体检测框的质量分数；质量分数在0-1之间，质量分数越高说明人体检测框的质量越好，越利于视频结构化。举例来说，人体检测框中的人体越完整，该人体检测框对应的质量分数越高；该人体检测框中的人体越清晰，该人体检测框对应的质量分数越高。

步骤103、将所述N个人体检测框分别输入预先训练好的人体特征模型以得到N个人体特征向量。

步骤104、采用所述当前帧图像、所述N个人体检测框、所述N个质量分数、所述N个人体特征向量对预设的神经网络模型进行训练，以得到训练后的所述视频结构化模型。

在一种示例性的实施方式中，所述预先训练好的质量模型包括第一子模型和第二子模型，其中，所述第一子模型用于检测所述人体检测框中的人体的完整度，所述第二子模型用于检测所述人体检测框的图像质量，所述将所述N个人体检测框分别输入预先训练好的质量模型以得到N个质量分数，包括：针对所述N个人体检测框中的每个人体检测框，执行以下步骤以得到所述N个质量分数：将目标人体检测框输入到所述第一子模型以得到第一评分，其中，所述目标人体检测框为所述N个人体检测框中的任意一个；将所述目标人体检测框输入到所述第二子模型以得到第二评分；获取所述目标人体检测框中的人体的完整度对应的第一权重值，以及获取所述目标人体检测框的图像质量对应的第二权重值，其中，所述第一权重值大于所述第二权重值，且所述第一权重值与所述第二权重值之和为1；根据所述第一评分、所述第二评分、所述第一权重值、所述第二权重值进行加权运算以得到所述目标人体检测框的质量分数。

其中，预先训练好的质量模型包括第一子模型和第二子模型，第一子模型主要是基于人体完整度对人体检测框进行评分，而第二模型主要是基于人体检测框中人体图像的清晰度对图像进行评分；且每个模型对应一个权重值，权重值用于表征其在对人体检测框进行评分时的重要程度，权重越高，则说明越重要。质量分数的计算公式为：质量分数＝第一评分×第一权重值+第二评分×第二权重值，其中，第一评分为第一模型给人体检测框评定的评分，第二评分为第二模型给人体检测框评定的评分；第一权重值为人体的完整度对应的权重，用于表征人体完整度对质量分数的影响；第二权重值为图像质量对应的权重，用于表征图像质量对质量分数的影响，例如人体清晰度对质量分数的影响。

其中，人体完整度是指人体可见面积与人体理论面积的比例，人体可见面积为图像中人体未被遮挡部分的面积，人体理论面积是指图像中的人体在无遮挡情况下的最大面积。

可见，本示例中，通过人体检测框中的人体完整度和人体检测框的图像质量(也即人体检测框内的人体清晰度)两个维度来给人体检测框进行评分，并且设置这两个维度对应的权重值，由于人体完整度维度对应的权重要大于人体检测框的图像质量维度对应的权重，也即人体完整度对于人体检测框的质量分数的影响较大，而人体检测框中的人体越完整则包含的人体特征越多，从而保证给人体特征较多的人体检测框内更高的质量分数，有利于提高视频结构化的准确率。

在一种示例性的实施方式中，所述将所述目标人体检测框输入到所述第二子模型以得到第二评分，包括：将所述目标人体检测框进行多尺度特征分解，得到低频特征分量和高频特征分量；将所述低频特征分量划分为多个区域；确定所述多个区域中每一区域对应的信息熵，得到多个信息熵；依据所述多个信息熵确定平均信息熵和目标均方差；确定所述目标均方差对应的目标调节系数；依据所述目标调节系数对所述平均信息熵进行调节，得到目标信息熵；按照预设的信息熵与评分之间的映射关系，确定所述目标信息熵对应的第三评分；获取所述目标人体检测框对应的目标拍摄参数；按照预设的拍摄参数与低频权重之间的映射关系，确定所述目标拍摄参数对应的目标低频权重，依据该目标低频权重确定目标高频权重；依据所述高频特征分量确定目标特征点分布密度；按照预设的特征点分布密度与评分之间的映射关系，确定所述目标特征点分布密度对应的第四评分；依据所述第三评分、所述第四评分、所述目标低频权重和所述目标高频权重进行加权运算，得到所述目标人体检测框的目标清晰度；按照预设的人体检测框的清晰度与评分之间的映射关系，确定所述目标清晰度对应的第二评分。

其中，可以采用多尺度分解算法将目标人体检测框进行多尺度特征分解，得到低频特征分量和高频特征分量，多尺度分解算法可以为以下至少一种：金字塔变换算法、小波变换、轮廓波变换、剪切波变换等等，在此不做限定。目标拍摄参数可以为以下至少一种：ISO、曝光时长、白平衡参数、对焦参数等，在此不做限定。此外，本申请实施例中，调节系数的取值范围可以为-0.15～0.15；目标信息熵＝(1+目标调节系数)*平均信息熵；目标低频权重+目标高频权重＝1；目标特征点分布密度＝高频特征分量的特征点总数量/区域面积；目标清晰度＝第三评分*目标低频权重+第四评分*目标高频权重。

如此，可以基于目标人体检测框的低频分量以及高频分量两个维度进行图像质量评价，能够精准得到目标人体检测框的目标清晰度，进而得到目标人体检测框对应的第二评分。

在一种示例性的实施方式中，所述将所述N个人体检测框分别输入预先训练好的人体特征模型以得到N个人体特征向量，包括：针对所述N个人体检测框中的每个人体检测框，执行以下步骤以得到所述N个人体特征向量：确定目标人体检测框中的人体关键点，以得到多个第一人体关键点，其中，所述目标人体检测框为所述N个人体检测框中的任意一个；根据所述多个第一人体关键点确定所述目标人体检测框中的人体关键点的第一数量；判断所述第一数量是否大于预设数量；若所述第一数量大于所述预设数量，则根据所述多个第一人体关键点计算得到所述目标人体检测框对应的人体特征向量。

具体地，可以从人体检测框中确定出多个人体关键点，然后根据这多个人体关键点的在所述人体检测框中的像素坐标计算该人体检测框对应的人体特征向量。

可见，本示例中，人体特征模型通过检测人体检测框中的人体的关键点，得到该人体检测框中的多个人体关键点，然后判断该人体检测框对应的多个人体关键点的数量是否大于预设数量，以此来判断该人体检测框中的是否存在人体，在这多个人体关键点的数量大于预设数量时，说明该人体检测框中存在人体，则根据这个多个人体关键点计算得到该人体检测框对应的人体特征向量，从而确保人体特征模型输出的人体特征向量是准确的。

在一种示例性的实施方式中，所述方法还包括：若所述第一数量小于或等于所述预设数量，则根据所述目标人体检测框中的人体关键点数量与图像增强算法之间的映射关系，确定所述第一数量对应的目标图像增强算法；根据所述目标图像增强算法对所述目标人体检测框进行图像增强处理以得到增强后的目标人体检测框；确定所述增强后的目标人体检测框中的人体关键点，以得到多个第二人体关键点；根据所述多个第二人体关键点计算得到所述增强后的目标人体检测框对应的人体特征向量；将所述增强后的目标人体检测框对应的人体特征向量作为所述目标人体检测框对应的人体特征向量。

应理解，当人体检测框中的人体关键点的数量小于预设数量时，可能该人体检测框中不存在人体，也可能是该人体检测框的图像质量低，不利于人体关键点的确定；可以对人体检测框进行图像增强处理，并且针对用于对人体检测框的图像增强算法还与人体检测框中的人体关键点数量存在映射关系，人体检测框中的关键点数量不同，采用的图像增强算法也不同。由于人体关键点的确定与人体清晰度有关，也即不同人体清晰度能够确定出的人体关键点数量也是不同的；若不同清晰度的图像采用不同图像增强算法进行处理，实现有针对的图像增强，也即根据人体检测框中的人体关键点数量来选择图像增强算法，能够一步选择到合适的图像增强算法来对人体检测框进行图像增强，在提高图像增强效果的同时，进一步提高视频结构化的速度。

其中，本申请实施例描述的图像增强算法包括：灰度拉伸、直方图均衡化、小波变换等，在此不做限定。进一步地，人体检测框中的关键点数量越少，所选择的图像增强算法的增强效果越好。

可见，本示例中，当从人体检测框中确定出的多个人体关键点的数量不大于预设数量时，根据人体关键点数量与图像增强算法之间的映射关系，确定图像增强算法；然后根据该图像增强算法对该人体检测框进行图像增强处理，再确定增强后的人体检测框中的人体关键点数量，根据增强后的人体检测框中的人体关键点计算得到该人体检测框的人体特征向量，从而进一步确保人体特征模型输出的人体特征向量是准确的。

在一种示例性的实施方式中，在将视频流中的当前帧图像输入预先训练好的人体检测模型以得到所述当前帧图像对应的N个人体检测框之前，所述方法还包括：判断所述当前帧图像的尺寸是否为预定尺寸；若所述当前帧图像的尺寸不为预定尺寸，则对所述当前帧图像进行处理以使所述当前帧图像的尺寸为所述预定尺寸。

具体的，行人检测器的输入图像的尺寸大小指定为512×512，也即预定尺寸为512×512，因此，若当前帧图像的尺寸不为512×512，则需要对其进行处理以使其尺寸为512×512。

可见，本示例中，在当前帧图像的尺寸不符合模型训练所需要的预定尺寸时，对其进行预处理以使其尺寸为该预定尺寸，从而能够确保视频流中的每帧图像都能够用于视频结结构化模型的训练，有利于提高模型的准确度，也即提高视频结构化的准确度。

在一种示例性的实施方式中，所述对所述当前帧图像进行处理以使所述当前帧图像的尺寸为所述预定尺寸，包括：在高维度上，若所述当前帧图像的高大于所述预定尺寸的高，则将所述当前帧图像的高缩放为所述预定尺寸的高；若所述当前帧图像的高小于所述预定尺寸的高，则在所述当前帧图像的行方向上填充i行零，其中，所述i为所述预定尺寸的高与所述当前帧图像的高的差值；在宽维度上，若所述当前帧图像的宽大于所述预定尺寸的宽，则将所述当前帧图像的宽缩放为所述预定尺寸的宽；若所述当前帧图像的宽小于所述预定尺寸的宽，则在所述当前帧图像的列方向上填充j列零，其中，所述j为所述预定尺寸的宽与所述当前帧图像的宽的差值。

具体地，若所述当前帧图像的尺寸大于所述预定尺寸，所述预定尺寸的高和宽相等，所述对所述当前帧图像进行处理以使所述当前帧图像的尺寸为所述预定尺寸，包括：确定所述当前帧图像的长边的边长与所述预定尺寸的边长的比值，其中，若所述当前帧图像的高大于或等于宽，则所述当前帧图像的长边的边长为所述当前帧图像的高；若所述当前帧图像的高小于宽，则所述当前帧图像的长边的边长为所述当前帧图像的宽；所述预定尺寸的边长为所述预定尺寸的高或宽；根据所述比值对所述当前帧图像进行缩小，以得到第一目标图像，其中，所述第一目标图像的长边的边长为所述预定尺寸的边长；若所述第一目标图像的短边的边长等于所述预定尺寸的边长，则所述第一目标图像为所述处理后的当前帧图像；若所述第一目标图像的短边的边长小于所述预定尺寸的边长，则在所述第一目标图像的短边方向上填充零以得到第二目标图像，其中，所述第二目标图像的短边的边长为所述预定尺寸的边长，所述第二目标图像为所述处理后的当前帧图像。

举例来说，视频流中的帧图像的尺寸一般是1920×1080，需要将其变为512×512，则需要计算图像按长边(1920)对512的比例，然后将长边按照此比例缩放，缩放以后短边为288，故缩放后短边小于512，则一律补零，也即短边从288补零至512。

可见，本示例中，在当前帧图像的尺寸不符合模型训练所需要的预定尺寸时，若当前帧图像的尺寸大于预定尺寸，则进行缩小处理以使当前帧图像的尺寸为预定尺寸；若当前帧图像的尺寸小于预定尺寸，则进行补零处理以使当前帧图像的尺寸为预定尺寸；从而能够确保视频流中的每帧图像都能够用于视频结结构化模型的训练，有利于提高模型的准确度，也即提高视频结构化的准确度。

在一种示例性的实施方式中，在所述采用所述当前帧图像、所述N个人体检测框、所述N个质量分数、所述N个人体特征向量对预设的神经网络模型进行训练，以得到训练后的所述视频结构化模型之前，所述方法还包括：将所述当前帧图像、所述N个人体检测框、所述N个质量分数、所述N个人体特征向量对应的文件格式转换成预设文件格式，其中所述预设文件格式为适用于所述预设神经网络训练的文件格式。

具体地，将当前帧图像和通过该当前帧图像得到的人体检测框、质量分数、人体特征向量等标签文件整理成适用于训练的文件格式，然后再送入事先设计好的较大的预设神经网络中，即可开始模型便训练。

可见，本示例中，在进行模型的训练之前，将当前帧图像和通过该当前帧图像得到的人体检测框、质量分数、人体特征向量等标签文件整理成适用于训练的文件格式，有利于模型的训练。

请参阅图2，图2是本申请实施例提供的另一种视频结构化模型的训练方法的流程示意图，所述视频结构化模型的训练方法可应用于服务器，所述视频结构化模型的训练方法包括但不限于以下步骤。

201、从视频流中获取当前帧图像。

202、将当前帧图像输入预先训练好的人体检测模型，得到当前帧图像的人体检测框。

其中，从视频流中提取的当前帧图像的尺寸一般是1920×1080，预先训练好的人体检测模型(也即行人检测器)的输入图像尺寸为512×512，需要将当前帧图像的尺寸变为512×512，则计算当前帧图像按长边(1920)对512的比例，然后将长边按照此比例缩放，短边小于512，则一律补0。当前帧图像的尺寸变为512×512后，送入行人检测器，得到当前帧图像中的所有人体检测框。

203、将当前帧图像的人体检测框分别输入预先训练好的质量模型、预先训练好的人体特征模型，得到当前帧图像的每个人体检测框的人体特征向量和质量分数。

应理解，在得到所有人体检测框之后，依次将人体检测框数据送入质量模型和Reid模型，Reid模型的作用是提取256维度的人体特征表示，得到该人体检测框的特征向量；质量模型对每个人体检测框的质量好坏进行评价，得到该人体检测框的质量分数。

204、将当前帧图像的人体检测框、人体特征向量、质量分数输入到预设的神经网络模型进行训练。

应理解，设置指定的训练次数，批次大小，学习率等，循环往复训练模型，逐渐学会同时输出人体检测框、质量分数和人体特征向量，直到模型在每个输出的损失达到指定值，然后对模型的性能进行准确率等指标测试，达到指定要求便认为已经符合要求。

可以看出，在申请实施例中，将视频结构化模型输入的图像大小设置为人体检测模型的输入大小，视频结构化模型输出为图像中所有的人体检测框，每个框的特征向量，每个框的质量分数，该视频结构化模型是三任务模型，相比现有采用用三个模型，视频结构化速度得到大幅提高。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参见图3，图3是本申请实施例提供的一种视频结构化模型的训练装置300的结构示意图，该视频结构化模型的训练装置应用于服务器，该视频结构化模型的训练装置300可以包括获取单元301和训练单元302，其中，各个单元的详细描述如下：

获取单元301，用于将视频流中的当前帧图像输入预先训练好的人体检测模型以得到所述当前帧图像对应的N个人体检测框，其中，所述N为正整数；

所述获取单元301，还用于将所述N个人体检测框分别输入预先训练好的质量模型以得到N个质量分数；

所述获取单元301，还用于将所述N个人体检测框分别输入预先训练好的人体特征模型以得到N个人体特征向量；

训练单元302，用于采用所述当前帧图像、所述N个人体检测框、所述N个质量分数、所述N个人体特征向量对预设的神经网络模型进行训练，以得到训练后的所述视频结构化模型。

在一种示例性的实施方式中，所述预先训练好的质量模型包括第一子模型和第二子模型，其中，所述第一子模型用于检测所述人体检测框中的人体的完整度，所述第二子模型用于检测所述人体检测框的图像质量，在所述将所述N个人体检测框分别输入预先训练好的质量模型以得到N个质量分数方面，所述获取单元301具体用于：针对所述N个人体检测框中的每个人体检测框，执行以下步骤以得到所述N个质量分数：将目标人体检测框输入到所述第一子模型以得到第一评分，其中，所述目标人体检测框为所述N个人体检测框中的任意一个；将所述目标人体检测框输入到所述第二子模型以得到第二评分；获取所述目标人体检测框中的人体的完整度对应的第一权重值，以及获取所述目标人体检测框的图像质量对应的第二权重值，其中，所述第一权重值大于所述第二权重值，且所述第一权重值与所述第二权重值之和为1；根据所述第一评分、所述第二评分、所述第一权重值、所述第二权重值进行加权运算以得到所述目标人体检测框的质量分数。

在一种示例性的实施方式中，在所述将所述N个人体检测框分别输入预先训练好的人体特征模型以得到N个人体特征向量方面，所述获取单元301具体用于：针对所述N个人体检测框中的每个人体检测框，执行以下步骤以得到所述N个人体特征向量：确定目标人体检测框中的人体关键点，以得到多个第一人体关键点，其中，所述目标人体检测框为所述N个人体检测框中的任意一个；根据所述多个第一人体关键点确定所述目标人体检测框中的人体关键点的第一数量；判断所述第一数量是否大于预设数量；若所述第一数量大于所述预设数量，则根据所述多个第一人体关键点计算得到所述目标人体检测框对应的人体特征向量。

在一种示例性的实施方式中，所述获取单元301还用于：若所述第一数量小于或等于所述预设数量，则根据所述目标人体检测框中的人体关键点数量与图像增强算法之间的映射关系，确定所述第一数量对应的目标图像增强算法；根据所述目标图像增强算法对所述目标人体检测框进行图像增强处理以得到增强后的目标人体检测框；确定所述增强后的目标人体检测框中的人体关键点，以得到多个第二人体关键点；根据所述多个第二人体关键点计算得到所述增强后的目标人体检测框对应的人体特征向量；将所述增强后的目标人体检测框对应的人体特征向量作为所述目标人体检测框对应的人体特征向量。

在一种示例性的实施方式中，在将视频流中的当前帧图像输入预先训练好的人体检测模型以得到所述当前帧图像对应的N个人体检测框之前，所述获取单元301还用于：判断所述当前帧图像的尺寸是否为预定尺寸；若所述当前帧图像的尺寸不为预定尺寸，则对所述当前帧图像进行处理以使所述当前帧图像的尺寸为所述预定尺寸。

在一种示例性的实施方式中，在所述对所述当前帧图像进行处理以使所述当前帧图像的尺寸为所述预定尺寸方面，所述获取单元301具体用于：在高维度上，若所述当前帧图像的高大于所述预定尺寸的高，则将所述当前帧图像的高缩放为所述预定尺寸的高；若所述当前帧图像的高小于所述预定尺寸的高，则在所述当前帧图像的行方向上填充i行零，其中，所述i为所述预定尺寸的高与所述当前帧图像的高的差值；在宽维度上，若所述当前帧图像的宽大于所述预定尺寸的宽，则将所述当前帧图像的宽缩放为所述预定尺寸的宽；若所述当前帧图像的宽小于所述预定尺寸的宽，则在所述当前帧图像的列方向上填充j列零，其中，所述j为所述预定尺寸的宽与所述当前帧图像的宽的差值。

在一种示例性的实施方式中，在所述采用所述当前帧图像、所述N个人体检测框、所述N个质量分数、所述N个人体特征向量对预设的神经网络模型进行训练，以得到训练后的所述视频结构化模型之前，所述获取单元301还用于：将所述当前帧图像、所述N个人体检测框、所述N个质量分数、所述N个人体特征向量对应的文件格式转换成预设文件格式，其中所述预设文件格式为适用于所述预设神经网络训练的文件格式。

需要说明的是，各个单元的实现还可以对应参照图1或图2所示的方法实施例的相应描述。当然，本申请实施例提供的视频结构化模型的训练装置300包括但不限于上述单元模块，例如：该视频结构化模型的训练装置300还可以包括存储单元303，存储单元303可以用于存储该视频结构化模型的训练装置300的程序代码和数据。

在图3所描述的视频结构化模型的训练装置300中，先将视频流中的当前帧图像输入预先训练好的人体检测模型以得到该当前帧图像对应的N个人体检测框；然后将该N个人体检测框分别输入预先训练好的质量模型以得到N个质量分数；以及将该N个人体检测框分别输入预先训练好的人体特征模型以得到N个人体特征向量；再采用该当前帧图像、该N个人体检测框、该N个质量分数、该N个人体特征向量对预设的神经网络模型进行训练，以得到训练后的视频结构化模型；由于在训练该视频结构化模型过程中，同时采用视频流中的帧图像、帧图像对应的人体检测框、人体检测框对应的质量分数、人体检测框对应的人体特征向量进行模型训练，因此训练后得到的视频结构化模型同时具备了人体检测、质量分数、人体特征的三类输出，从而大幅提高视频结构化的速度。

请参见图4，图4是本申请实施例提供的一种服务器410的结构示意图，该服务器410包括处理器411、存储器412和通信接口413，上述处理器411、存储器412和通信接口413通过总线414相互连接。

存储器412包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmableread only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器412用于相关计算机程序及数据。通信接口413用于接收和发送数据。

处理器411可以是一个或多个中央处理器(central processing unit，CPU)，在处理器411是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

该服务器410中的处理器411用于读取上述存储器412中存储的计算机程序代码，执行以下操作：将视频流中的当前帧图像输入预先训练好的人体检测模型以得到所述当前帧图像对应的N个人体检测框，其中，所述N为正整数；将所述N个人体检测框分别输入预先训练好的质量模型以得到N个质量分数；将所述N个人体检测框分别输入预先训练好的人体特征模型以得到N个人体特征向量；采用所述当前帧图像、所述N个人体检测框、所述N个质量分数、所述N个人体特征向量对预设的神经网络模型进行训练，以得到训练后的所述视频结构化模型。

需要说明的是，各个操作的实现还可以对应参照图1或图2所示的方法实施例的相应描述。

在图4所描述的服务器410中，先将视频流中的当前帧图像输入预先训练好的人体检测模型以得到该当前帧图像对应的N个人体检测框；然后将该N个人体检测框分别输入预先训练好的质量模型以得到N个质量分数；以及将该N个人体检测框分别输入预先训练好的人体特征模型以得到N个人体特征向量；再采用该当前帧图像、该N个人体检测框、该N个质量分数、该N个人体特征向量对预设的神经网络模型进行训练，以得到训练后的视频结构化模型；由于在训练该视频结构化模型过程中，同时采用视频流中的帧图像、帧图像对应的人体检测框、人体检测框对应的质量分数、人体检测框对应的人体特征向量进行模型训练，因此训练后得到的视频结构化模型同时具备了人体检测、质量分数、人体特征的三类输出，从而大幅提高视频结构化的速度。

本申请实施例还提供一种芯片，上述芯片包括至少一个处理器，存储器和接口电路，上述存储器、上述收发器和上述至少一个处理器通过线路互联，上述至少一个存储器中存储有计算机程序；上述计算机程序被上述处理器执行时，图1或图2所示的方法流程得以实现。

本申请实施例还提供一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，图1或图2所示的方法流程得以实现。

本申请实施例还提供一种计算机程序产品，当上述计算机程序产品在计算机上运行时，图1或图2所示的方法流程得以实现。

应理解，本申请实施例中提及的处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

需要说明的是，当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时，存储器(存储模块)集成在处理器中。

应注意，本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

还应理解，本文中涉及的第一、第二、第三、第四以及各种数字编号仅为描述方便进行的区分，并不用来限制本申请的范围。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所示方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种视频结构化模型的训练方法，其特征在于，包括：

将视频流中的当前帧图像输入预先训练好的人体检测模型以得到所述当前帧图像对应的N个人体检测框，其中，所述N为正整数；

将所述N个人体检测框分别输入预先训练好的质量模型以得到N个质量分数；

将所述N个人体检测框分别输入预先训练好的人体特征模型以得到N个人体特征向量；

采用所述当前帧图像、所述N个人体检测框、所述N个质量分数、所述N个人体特征向量对预设的神经网络模型进行训练，以得到训练后的所述视频结构化模型。

2.根据权利要求1所述的方法，其特征在于，所述预先训练好的质量模型包括第一子模型和第二子模型，其中，所述第一子模型用于检测所述人体检测框中的人体的完整度，所述第二子模型用于检测所述人体检测框的图像质量，所述将所述N个人体检测框分别输入预先训练好的质量模型以得到N个质量分数，包括：

针对所述N个人体检测框中的每个人体检测框，执行以下步骤以得到所述N个质量分数：

将目标人体检测框输入到所述第一子模型以得到第一评分，其中，所述目标人体检测框为所述N个人体检测框中的任意一个；

将所述目标人体检测框输入到所述第二子模型以得到第二评分；

获取所述目标人体检测框中的人体的完整度对应的第一权重值，以及获取所述目标人体检测框的图像质量对应的第二权重值，其中，所述第一权重值大于所述第二权重值，且所述第一权重值与所述第二权重值之和为1；

根据所述第一评分、所述第二评分、所述第一权重值、所述第二权重值进行加权运算以得到所述目标人体检测框的质量分数。

3.根据权利要求1所述的方法，其特征在于，所述将所述N个人体检测框分别输入预先训练好的人体特征模型以得到N个人体特征向量，包括：

针对所述N个人体检测框中的每个人体检测框，执行以下步骤以得到所述N个人体特征向量：

确定目标人体检测框中的人体关键点，以得到多个第一人体关键点，其中，所述目标人体检测框为所述N个人体检测框中的任意一个；

根据所述多个第一人体关键点确定所述目标人体检测框中的人体关键点的第一数量；

判断所述第一数量是否大于预设数量；

若所述第一数量大于所述预设数量，则根据所述多个第一人体关键点计算得到所述目标人体检测框对应的人体特征向量。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

若所述第一数量小于或等于所述预设数量，则根据所述目标人体检测框中的人体关键点数量与图像增强算法之间的映射关系，确定所述第一数量对应的目标图像增强算法；

根据所述目标图像增强算法对所述目标人体检测框进行图像增强处理以得到增强后的目标人体检测框；

确定所述增强后的目标人体检测框中的人体关键点，以得到多个第二人体关键点；

根据所述多个第二人体关键点计算得到所述增强后的目标人体检测框对应的人体特征向量；

将所述增强后的目标人体检测框对应的人体特征向量作为所述目标人体检测框对应的人体特征向量。

5.根据权利要求1-4任一项所述的方法，其特征在于，在将视频流中的当前帧图像输入预先训练好的人体检测模型以得到所述当前帧图像对应的N个人体检测框之前，所述方法还包括：

判断所述当前帧图像的尺寸是否为预定尺寸；

若所述当前帧图像的尺寸不为预定尺寸，则对所述当前帧图像进行处理以使所述当前帧图像的尺寸为所述预定尺寸。

6.根据权利要求5所述的方法，其特征在于，所述对所述当前帧图像进行处理以使所述当前帧图像的尺寸为所述预定尺寸，包括：

在高维度上，若所述当前帧图像的高大于所述预定尺寸的高，则将所述当前帧图像的高缩放为所述预定尺寸的高；若所述当前帧图像的高小于所述预定尺寸的高，则在所述当前帧图像的行方向上填充i行零，其中，所述i为所述预定尺寸的高与所述当前帧图像的高的差值；

在宽维度上，若所述当前帧图像的宽大于所述预定尺寸的宽，则将所述当前帧图像的宽缩放为所述预定尺寸的宽；若所述当前帧图像的宽小于所述预定尺寸的宽，则在所述当前帧图像的列方向上填充j列零，其中，所述j为所述预定尺寸的宽与所述当前帧图像的宽的差值。

7.根据权利要求1-4任一项所述的方法，其特征在于，在所述采用所述当前帧图像、所述N个人体检测框、所述N个质量分数、所述N个人体特征向量对预设的神经网络模型进行训练，以得到训练后的所述视频结构化模型之前，所述方法还包括：

将所述当前帧图像、所述N个人体检测框、所述N个质量分数、所述N个人体特征向量对应的文件格式转换成预设文件格式，其中所述预设文件格式为适用于所述预设神经网络训练的文件格式。

8.一种视频结构化模型的训练装置，其特征在于，包括：

获取单元，用于将视频流中的当前帧图像输入预先训练好的人体检测模型以得到所述当前帧图像对应的N个人体检测框，其中，所述N为正整数；

所述获取单元，还用于将所述N个人体检测框分别输入预先训练好的质量模型以得到N个质量分数；

所述获取单元，还用于将所述N个人体检测框分别输入预先训练好的人体特征模型以得到N个人体特征向量；

训练单元，用于采用所述当前帧图像、所述N个人体检测框、所述N个质量分数、所述N个人体特征向量对预设的神经网络模型进行训练，以得到训练后的所述视频结构化模型。

9.一种服务器，其特征在于，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-7任一项所述的方法中的步骤的指令。

10.一种计算机可读存储介质，其特征在于，其存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-7中任一项所述的方法。