CN110232706B

CN110232706B - 多人跟拍方法、装置、设备及存储介质

Info

Publication number: CN110232706B
Application number: CN201910505922.0A
Authority: CN
Inventors: 张明; 董健
Original assignee: Ruimo Intelligent Technology Shenzhen Co ltd
Current assignee: Ruimo Intelligent Technology Shenzhen Co ltd
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2022-07-29
Anticipated expiration: 2039-06-12
Also published as: WO2020248395A1; CN110232706A

Abstract

本发明公开了一种多人跟拍方法，包括：实时获取摄像机的拍摄图像，所述拍摄图像包括至少一个目标图像；利用预先训练好的模型预测所述拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息；根据所述尺度信息和偏移信息确认摄像机的控制偏移信息。本发明提供的一种多人跟拍方法，解决了现有技术中没有对多个目标或整个群体对象进行跟拍的跟拍方法的问题，实现了用户在特定场景下对多个目标或整个群体对象进行跟拍的效果。

Description

多人跟拍方法、装置、设备及存储介质

技术领域

本发明涉及拍摄技术领域，尤其涉及一种多人跟拍方法、装置、设备及存储介质。

背景技术

在许多领域中，为了更好的拍摄效果，都需要通过摄像机自动跟拍一个需要跟踪的目标对象。在跟排镜头中，目标对象通常在画面中的位置相对稳定，而且景别也保持不变。这就要求在拍摄者与目标对象运动速度基本一致，这样才能够保证目标对象在画面中的位置相对稳定，既不会使目标对象移出画面，也不会出现景别的变化。这种拍摄方式通过摄像机的运动，可以记录下目标对象的姿态、动作等，同时不会干扰被摄对象，在一种相对自然的状态下表现被摄人物。

然而，在许多场景下，都需要对目标或者整个群体对象进行跟拍，现有技术中一般仅仅只能针对单个目标物进行跟拍，例如针对单个人物的运动轨迹进行跟拍。因此，需要一种合适的方法能够对多个目标物进行有效跟拍，使拍摄镜头内能够展现多个目标运动轨迹。

发明内容

本发明提供一种多人跟拍方法、装置、设备及存储介质，以实现对多个目标或整个群体对象进行跟拍的效果。

第一方面，本发明实施例提供了一种多人跟拍方法，该多人跟拍方法包括：

实时获取摄像机的拍摄图像，所述拍摄图像包括至少一个目标图像；

利用预先训练好的模型预测所述拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息；

根据所述尺度信息和偏移信息确认摄像机的控制偏移信息。

第二方面，本发明实施例提供了一种多人跟拍装置，该多人跟拍装置包括：

获取模块，用于实时获取摄像机的拍摄图像，所述拍摄图像包括至少一个目标图像；

计算模块，用于利用预先训练好的模型预测所述拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息；控制模块，用于根据所述尺度信息和偏移信息确认摄像机的控制偏移信息。

第三方面，本发明实施例提供了一种计算机设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述中任一所述的多人跟拍方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序包括程序指令，该程序指令被处理器执行时实现如上述中任一所述的多人跟拍方法。

本发明通过一种多人跟拍方法，首先通过计算机程序实时获取摄像机的拍摄图像，其中拍摄图像包括至少一个目标图像，得到一个或者多个目标图像的信息参数，然后利用预先训练好的模型预测拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息，最后根据目标图像的尺度信息和偏移信息确认摄像机的控制偏移信息，从而实现对多个目标图像进行跟拍的效果，解决了现有技术中没有对多个目标或整个群体对象进行跟拍的跟拍方法的问题，实现了用户在特定场景下对多个目标或整个群体对象进行跟拍的效果。

附图说明

图1是本发明实施例一中一种多人跟拍方法的流程示意图；

图2是本发明实施例二中的一种多人跟拍方法的流程示意图；

图3是本发明实施例二中的另一种多人跟拍方法的流程示意图；

图4是本发明实施例三中的一种多人跟拍方法的流程示意图；

图5是本发明实施例四中的一种多人跟拍方法的流程示意图；

图6是本发明实施例五中的一种多人跟拍装置的结构示意图；

图7是本发明实施例六中的一种多人跟拍设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

此外，术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一速度差值为第二速度差值，且类似地，可将第二速度差值称为第一速度差值。第一速度差值和第二速度差值两者都是速度差值，但其不是同一速度差值。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

实施例一

图1为本发明实施例一提供的一种多人跟拍方法的流程图，本实施例适用于采用摄像装置对多人跟拍的情况，具体包括如下步骤：

1100、实时获取摄影机的拍摄图像，拍摄图像至少一个目标图像；

其中，在摄像机拍摄过程中，获取摄像装置每一帧的拍摄图像。本实施例的摄像装置可以摄影机、照相机等等。

进一步的，目标图像为预先选中的拍摄图像中的人物对象图像或拍摄图像中所有的人物对象图像。

其中，目标图像是预先选中的在摄像装置拍摄的每一帧图像中的目标人物的图像，可以为一个人物图像或者多个人物图像。替代实施例中，目标图像除了人物图像还可以是动物图像、车辆图像或者其他摄像素材图像。本实施例中，构建由人物图像及每张人物图像对应的标记数据组成的人物图像数据集，本实施例的标记数据包括每个人物的人像边界框、人物躯干在人物图像中的像素面积及人物离镜头的距离。本实施例中，人像边界框用于确定人物图像在每一帧图像中的位置，边界框指对应于人物图像所出现的画面的在每一帧图像中区域范围，并且一般具有在纵向或横向上长的矩形外框形状。本实施例边界框的大小和位置取决于跟踪目标在镜头所采集的图像中的大小，边界框可以基于现有的视觉追踪方法确定。人物图像中的像素面积为每个人物图像对应的所有像素点组成的像素面积。人物离镜头的距离为摄像装置距离所拍摄的人物对象的距离，可以由现有的摄像装置直接获取。

1200、利用预先训练好的模型预测拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息；

其中，本实施例的模型可以为深度神经卷积网络模型，尺度信息为目标图像的人物框尺度大小信息，偏移信息为目标图像移动的位置信息。将人物图像数据集的每张人物图像对应的标记数据输入到训练好的深度神经卷积网络中得到每个目标图像对应的尺度响应图和参考位置图像；通过对应的尺度响应图，假定人像边界框的集合为Ψ，每个人像边界框表示为B_i，scale为尺度响应图，使用以下公式获得人像边界框的尺度信息：

计算人像边界框内scale的极值点位置：

(x_pi,y_pi)＝max{scale(x,y)|x,y)∈B_i}

scale(x,y)表示scale图上坐标为(x,y)的值，(x_pi,y_pi)为极值点位置。

计算极值点附近一片矩形区域(边长为2N+1)的均值作为尺度信息s_i：

N一般取为0/1/2/3，或者根据需要，取的更大一些也可以；m和n是用于遍历矩形区域的索引符号。

根据深度卷积网络得到的参考位置图像得到XT&YT，XT为参考位置水平坐标图像，YT为参考位置垂直坐标图像，通过参考位置图像XT&YT可以直接计算得到每个像素的偏移图像DX&DY，DX为水平偏移图像，DY为垂直偏移图像，通过偏移图像DX&DY得到偏移信息，偏移信息包括平均偏移控制量(d_xi,d_yi)。

在偏移图像DX&DY上每个像素的偏移计算如下：

DX(x,y)＝XT(x,y)-x；

DY(x,y)＝YT(x,y)-y。

在DX&DY图像上计算每个目标的平均偏移控制量(d_xi,d_yi)，如下：

dx(i,j)&dy(i,j)是DX&DY图像中坐标为(i,j)的值。s_th是设定的阈值。

1300、根据尺度信息和偏移信息确认摄像机的控制偏移信息。

其中，根据每个目标图像对应的尺度信息和每个目标图像对应的偏移信息进行计算，得到摄像机的控制偏移信息，保证摄像机能够对图像中的多人移动进行捕捉。

进一步的，计算过程为对每个目标对象的尺度信息和偏移信息进行加权计算。

其中，基于所有的目标对象B_i∈Ψ，我们知道了每个对象的尺度信息s_i和偏移信息(d_xi,d_yi)，可以使用平均计算，求得最终的偏移控制量：

替代实施例中，计算过程为对每个目标对象的偏移信息和经过幂处理的尺度信息进行加权计算得到摄像机的控制偏移信息。

为了给距离更近的对象分配更高的控制权重，可以对尺度值进行幂处理，例如：

β为幂指数。该值越大，尺度越大的对象具备更主导的权重。反之，则所有目标趋向于同等权重。该值的选择可依据场景的不同设计不同的参数。

本实施例提供的一种多人跟拍方法，首先通过计算机程序实时获取摄像机的拍摄图像，其中拍摄图像包括至少一个目标图像，得到一个或者多个目标图像的信息参数，然后利用预先训练好的模型预测拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息，最后根据目标图像的尺度信息和偏移信息确认摄像机的控制偏移信息，从而实现对多个目标图像进行跟拍的效果，解决了现有技术中没有对多个目标或整个群体对象进行跟拍的跟拍方法的问题，实现了用户能够在特定场景下对多个目标或整个群体对象进行跟拍的效果。

实施例二

请参考图2，图2是本发明实施例二提供的一种多人跟拍方法的流程图。本实施例以实施例一方案为基础，进行了优化改进，特别是提供了获取校正测量数据的具体方案。如图2所示，该方法包括：

步骤2100，实时获取摄影机的拍摄图像，拍摄图像至少一个目标图像；

步骤2200，利用预先训练好的尺度模型预测拍摄图像中每个目标图像对应的尺度信息；

步骤2300，利用预先训练好的偏移模型预测拍摄图像中每个目标图像对应的偏移信息；

步骤2400，根据尺度信息和偏移信息确认摄像机的控制偏移信息。

进一步的，可选实施例中，如图3所示，步骤2300中对偏移模型的训练可以包括以下步骤：

步骤2210、从预先设定的图像数据集中获取训练图像和对应的标记数据，标记数据包括目标的边界框信息和关键点信息；

本实施例中，图像数据集中预先设置有多张训练图像，训练图像类型可以根据拍摄目标不同自行选择，本实施例中以人像拍摄为例，数据集中搜集的均为包括人像的训练图像，这些训练图像可以覆盖各类主要场景如室内、海边和山上以及各种姿态如：跑步、打坐、平躺和舞蹈。

数据集中每张训练图像都具有对应的标记数据，本实施列的标记数据包括训练图像中跟踪目标的边界框信息和关键点信息。边界框信息包括边界框的位置和边界框的大小。关键点信息本实施例中示例性的选择人体的17个关节点作为关键点，分别标记对应的坐标信息。每个关节点标记为(x_i,y_i,s_i)，i为1到 17的自然数表示第i个关键点，x_i为第i个关键点的水平坐标，y_i为第i个关键点的垂直坐标,s_i等于0时表示该关键点不存在不用标记，s_i等于1时表示该关键点存在，i为1到17时分别对应以下关键点信息：

1-头顶、2-左眼、3-有眼、4-鼻子、5-咽喉、6-左肩、7-左肘、8-左腕、9- 右肩、10-右肘、11-右腕、12-左臀、13-左膝、14-左踝、15-右臀、16-右膝、17- 右踝。

步骤2220、根据目标的边界框信息和关键点信息获取边界框中心点的参考位置；

传统的“中心控制”法控制目标边界框中心点移动到图像的中心完成构图，这种方式计算过程简单并未考虑到目标的姿态不同对构图的影响因而拍摄效果与实际期望相差较大，因此本实施例提供的拍摄方法中，在训练第一模型时充分考虑跟踪目标不同姿态时的构图需求差异，根据步骤2210中所标记的跟踪目标关键点信息不同可以区别出跟踪目标的不同姿态，根据跟踪目标的边界框信息和关键点信息计算边界框中心点的参考位置，并且能够充分模拟摄影师的构图控制能力，其构图效果更好。

步骤2230、基于边界框中心点的参考位置获取训练图像对应的参考位置图像；

当训练图像中存在多个目标人像时，需要根据每个目标的边界框中心点的参考位置、边界框中心点和目标数量获取训练图像对应的参考位置图像，具体如下：

所有目标的边界框中心点的参考位置集合定义为：

Θ＝{O(P_i)}＝{(x_ti,y_ti)}

每个目标的边界框中心初始位置坐标定义为：

Δ＝{(x_ci,y_ci)}

训练图像中每个像素的参考位置计算公式：

(x,y)-像素归一化坐标；

∑_Θ,Δ1-训练图像中的目标数量；

式中X_TG(x,y)为每个像素参考位置的水平坐标，Y_TG(x,y)为每个像素参考位置的垂直坐标，x_ti、x_ci分别为每个目标边界框中心点的参考位置水平坐标和初始位置水平坐标，y_ti、y_ci分别为每个目标边界框中心点的参考位置垂直坐标和初始位置垂直坐标，当每个像素的参考位置坐标确定后即可得到训练图像的参考位置图像。

参考位置图像与传统中心控制法得到的图像相比更充分地考虑到了目标姿态不同时的构图需求，构图效果更精细合理。

步骤2240、利用深度卷积神经网络预测训练图像的参考位置以得到预测结果图像；

其中，利用深度卷积神经网络初始模型对训练图像进行预测，得到目标在图像中的第二参考位置，进一步的可以得到预测结果图像，预测结果图像中每个像素的水平坐标和垂直坐标分别为X_T(x,y)、Y_T(x,y)。

步骤2250、将参考位置图像和预测结果图像计算第一损失值，并根据第一损失值对深度卷积神经网络神的参数进行调节；

其中，第一损失值采用欧几里得距离损失，根据前述得到参考位置图像和预测结果图像通过公式(1)计算得到：

L＝∑_x,y(X_TG(x,y)-X_T(x,y))²+∑_x,y(Y_TG(x,y)-Y_T(x,y))² (1)

(1)式中X_TG(x,y)、Y_TG(x,y)由(2)式求得，X_T(x,y)、Y_T(x,y)由预测结果图像求得。参考位置图像是期望实现构图效果的图像，第二损失值表示预测结果图像与参考位置图像偏差，基于第二损失值对深度卷积神经网络进行反向传播调节深度卷积神经网络参数使得预测结果图像更接近参考位置图像。

步骤2260、对数据集中的每张训练样本图像不断重复步骤2210-2250，直到步骤2250中的第一损失值不再下降时，结束对深度卷积神经网络的训练，得到训练好的偏移模型。

其中，根据第一损失值调整深度卷积神经网络的参数会得到不同的第一损失值，当第一损失值不断下降时表明预测结果图像越来越接近参考位置图像，不断地调节深度卷积神经网络直到第一损失值不再降低时可以视为此时预测结果图像最接近参考位置图像，此时可以获得所期望的深度卷积神经网络模型作为训练好的深度神经卷纸网络模型使用。

需要说明的是，由于不同训练图像得到的第一损失值之间始终可能存在一定差异，不同训练图像的第一损失值标准是不同的，此处所指的第一损失值不再下降是一种表示第一损失值趋于稳定且达到预期要求的表述方式，示例性的：自定义第一损失值预期要求为低于k，则在采用多个训练图像进行的多次训练后得到的至少m个连续的第一损失值始终低于k时即可视为第一损失值不再下降。

本实施例进一步提供了实施例一中的利用预先训练好的模型预测拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息的详细方法，尺度模型训练首先计算机程序通过从预先设定的图像数据集中获取训练图像和对应的标记数据，其中标记数据包括目标的边界框信息和关键点信息；其次根据目标的边界框信息和关键点信息获取边界框中心点的参考位置；然后基于边界框中心点的参考位置获取训练图像对应的参考位置图像；接着利用深度卷积神经网络预测训练图像的参考位置以得到预测结果图像；随后将参考位置图像和预测结果图像计算第一损失值，并根据第一损失值对深度卷积神经网络神的参数进行调节；最后对数据集中的每张训练样本图像不断重复以上步骤，直到步骤2250中的第一损失值不再下降时，结束对深度卷积神经网络的训练，得到训练好的偏移模型。本实施例提供的偏移模型训练方法解决了如何训练偏移信息的深度神经卷积网络的问题，实现了更好预测多人跟拍方法中偏移信息的效果。

实施例三

请参考图4，图4是本发明实施例三提供的一种多人跟拍方法的流程图。本实施例以实施例二方案为基础，进行了优化改进，特别是提供了根据目标的边界框信息和关键点信息获取边界框中心点的参考位置的具体方案。如图4所示，该方法包括：

步骤2221、基于训练图像生成一幅网格表将训练图像划分为W*H个网格， W、H为大于1的自然数，每个网格在后续计算边界框的构图位置时提供一个位置选择，W、H的具体数值可根据精度需求调整；

步骤2222、获取将边界框中心放置于不同的网格中心时的第二损失值；

具体计算过程如下：

图像的水平坐标范围和垂直坐标范围均为[0,1]；

定义一组参考点，示例如下：

定义一组参考线，示例如下：

参考点和参考线的设置基于构图需求不同可自行调整，本实施例中通过上述参考点、参考线，将水平坐标范围

和垂直坐标范围

所限定的区域定为追踪目标最佳构图区域。

基于跟踪目标关键点信息定义跟踪目标关键点集合和对应的权值参数集合：

P＝{p_i},i＝1,2,…,17

W_p＝{w_pi},i＝1,2,…,17

根据跟踪目标关键点信息定义关键线段，关键线段用于补充跟踪目标的姿态信息，基于关键点所体现的姿态在一定情况下存在一些误差，结合基于关键点的关键线段可以更清晰的体现跟踪目标的姿态，示例性的为：

L1:鼻子->{左臀和右臀中点}

L2:左肩->左肘

L3:左肘->左腕

L4:右肩->右肘

L5:右肘->右腕

L6:左臀->左膝

L7:左膝->左踝

L8:右臀->右膝

L9:右膝->右踝

基于上述9条关键线段分别定义跟踪目标关键线段集合和对应的权值参数集合：

L＝{l_j},j＝1,2,…,9

W_l＝{w_lj},j＝1,2,…,9

当目标的姿态不同时，目标的关键点位置发生变化，上述关键线段的长度、位置均会对应发生变化。

关键点与参考点之间的距离计算公式：

关键点与参考点之间的距离计算公式中p_i、p_j分别代表两个不同的点，x_pi、 y_pi分别表示点p_i的水平坐标和垂直坐标，x_pj、y_pj分别表示点p_j的水平坐标和垂直坐标。

关键线与参考线之间的距离计算公式：

关键线与参考线之间的距离计算公式中，(x_c,y_c)是线段l的中点，x＝a表示一条垂直线，y＝a表示一条水平线；

将边界框中心分别放置到不同网格的中心(x，y)处，计算此时第二损失值损失值D_xy：

P_xy＝P→(x,y)关键点归一化；

L_xy＝L→(x,y)关键线段归一化；

D_xy＝D_p+D_l

第二损失值可以体现将边界框放置到不同位置时跟踪目标与自定义的目标最佳构图区域符合程度，第二损失值越小越接近自定义的最佳构图区域。

步骤2223、选取第二损失值最小的网格的中心位置作为边界框中心点的参考位置。

时，选取(x_t,y_t)作为边界框中心点的参考位置，在自定义的网格、参考点和参考线不变的情况下，(x_t,y_t)与对应的关键点信息(此处包括关键线段)关系是确定的，即映射关系为(x_t,y_t)＝O(P)，P为镜头追踪拍摄目标的关键点信息。

在替代实施例中，根据对图像精度的需求不同可以调整自定义的网格、参考点和参考线，进一步的还可以自定义目标的关键点以及关键线段和关键点的关系。例如精度要求较高时，可以将W、H提高，即增加了图像分割网格的格数。

本实施例进一步提供了实施例三中根据目标的边界框信息和关键点信息获取边界框中心点的参考位置的具体方案的流程，首先计算机程序通过基于训练图像生成一幅网格表将训练图像划分为W*H个网格，其次获取将边界框中心放置于不同的网格中心时的第二损失值，其次选取第二损失值最小的网格的中心位置作为边界框中心点的参考位置，解决了更好获取边界框中心点的参考位置的问题，实现了在偏移模型训练中更好获得偏移信息的效果。

实施例四

请参考图5，图5是本发明实施例二提供的一种多人跟拍方法的流程图。本实施例以实施例二方案为基础，进行了优化改进，特别是提供了尺度模型的训练过程的具体方案。如图5所示，该方法包括：

步骤2310、获取训练样本图像的高斯响应图；

其中，首先，通过公式

计算得到人物图像中每个人物的人像边界框的相对尺度S，其中，w为人物图像的像素宽度，h为人物图像的像素高度， As为人物绝对尺度的量，

其中，d为人物离镜头的距离，a为人物躯干在人物图像中的像素面积；然后，根据每个人物的人像边界框的相对尺度S 生成一幅与人物图像尺度一样的高斯响应图，其中高斯响应图的极值点位于人像边界框的中心，极值点的大小等于相对尺度S；最后，由每个人物的高斯响应图叠加一起形成人物图像的高斯响应图；对所有训练样本图像执行以上三个步骤，得到每张训练样本图像对应的高斯响应图。

步骤2320、使用深度卷积神经网络处理训练样本图像，得到训练样本图像的尺度响应图；

其中，使用深度卷积神经网络处理训练样本的人物图像，得到一幅与训练样本的人物图像相同大小的尺度响应图。

步骤2330、将高斯响应图与尺度响应图进行欧几里得距离损失计算，根据计算结果调节深度卷积神经网络的参数；

其中，将步骤2310生成的高斯响应图与2320获得的尺度响应图进行欧几里得距离损失计算，并将计算结果使用反向传播算法对深度卷积神经网络的参数进行调节。

步骤2340、对每一张训练样本图像不断重复步骤2310-步骤2330，直到计算的欧几里得距离损失不再下降，结束对深度卷积神经网络的训练，得到训练好的尺度模型。

其中，根据欧几里得距离损失调整深度卷积神经网络的参数会得到不同的欧几里得距离损失，当欧几里得距离损失不断下降时表明预测结果图像越来越接近尺度响应图，不断地调节深度卷积神经网络最终欧几里得距离损失不再降低时可以视为此时预测结果图像最接近尺度响应图，此时可以获得所期望的深度卷积神经网络模型作为训练好的深度神经卷纸网络模型使用。

需要说明的是，由于不同训练图像得到的欧几里得距离损失之间始终可能存在一定差异，不同训练图像的欧几里得距离损失标准是不同的，此处所指的欧几里得距离损失不再下降是一种表示欧几里得距离损失趋于稳定且达到预期要求的表述方式，示例性的：自定义欧几里得距离损失预期要求为低于k，则在采用多个训练图像进行的多次训练后得到的至少m个连续的欧几里得距离损失始终低于k时即可视为欧几里得距离损失不再下降。

本实施例提供了一种多人跟拍方法中尺度模型训练的方法，首先获取训练样本图像的高斯响应图，其次使用深度卷积神经网络处理训练样本图像，得到训练样本图像的尺度响应图，然后将高斯响应图与尺度响应图进行欧几里得距离损失计算，根据计算结果调节深度卷积神经网络的参数，最后对每一张训练样本图像不断重复以上步骤，直到计算的欧几里得距离损失不再下降，结束对深度卷积神经网络的训练，得到训练好的尺度模型。解决了如何得到对应尺度模型的训练好的深度卷积神经网络的问题，实现了更好地训练尺度模型的效果。

实施例五

本发明实施例五所提供的电源适配器的测试装置可执行本发明任意实施例所提供的电源适配器的测试方法，具备执行方法相应的功能模块和有益效果。图6是本发明实施例五中的一种电源适配器的测试装置的结构示意图。参照图 6，本发明实施例提供的视频图像存储装置具体可以包括：

获取模块，用于实时获取摄像机的拍摄图像，拍摄图像包括至少一个目标图像；

计算模块，用于利用预先训练好的模型预测拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息；

控制模块，用于根据尺度信息和偏移信息确认摄像机的控制偏移信息。

进一步的，控制模块还可以替换为加权控制模块，用于对每个目标对象的尺度信息和偏移信息进行加权计算得到摄像机的控制偏移信息。

更进一步的，加权控制模块换可以替换为幂处理控制模块，用于对每个目标对象的偏移信息和经过幂处理的尺度信息进行加权计算得到摄像机的控制偏移信息。

进一步的，获取模块还可以替换为人物获取模块，用于实时获取摄像机的拍摄图像，拍摄图像包括至少一个目标图像，目标图像为预先选中的拍摄图像中的人物对象图像或拍摄图像中所有的人物对象图像。

进一步的，计算模块还可以包括为尺度计算模块和偏移计算模块，尺度计算模块用于利用预先训练好的尺度模型预测拍摄图像中每个目标图像对应的尺度信息；偏移计算模块用于利用预先训练好的偏移模型预测拍摄图像中每个目标图像对应的偏移信息。

进一步的，偏移计算模块包括：

偏移获取单元，用于从预先设定的图像数据集中获取训练图像和对应的标记数据，标记数据包括目标的边界框信息和关键点信息。

中心点获取单元，用于根据目标的边界框信息和关键点信息获取边界框中心点的参考位置。

参考位置获取单元，用于基于边界框中心点的参考位置获取训练图像对应的参考位置图像。

卷积神经网络计算单元，用于利用深度卷积神经网络预测训练图像的参考位置以得到预测结果图像。

损失值计算单元，用于将参考位置图像和预测结果图像计算第一损失值，并根据第一损失值对深度卷积神经网络神的参数进行调节。

卷积神经网络训练单元，用于对数据集中的每张训练样本图像不断重复步骤2210-2250进行训练，直到步骤2250中的第一损失值不再下降时，结束对深度卷积神经网络的训练，得到训练好的偏移模型。

更进一步的，中心点获取单元包括：

网格表生成子单元，用于将训练图像划分为W*H个网格，W、H为大于1 的自然数，生成一幅网格表。

损失值获取子单元，用于获取将边界框中心放置于不同的网格中心时的第二损失值。

参考位置获取子单元，用于选取第二损失值最小的网格的中心位置作为边界框中心点的参考位置。

进一步的，尺度计算模块包括：

高斯响应图单元，用于获取训练样本图像的高斯响应图。

尺度响应图单元，用于使用深度卷积神经网络处理训练样本图像，得到训练样本图像的尺度响应图。

欧几里得距离损失单元，用于将高斯响应图与尺度响应图进行欧几里得距离损失计算，根据计算结果调节深度卷积神经网络的参数。

获取尺度模型单元，用于对每一张训练样本图像不断重复步骤2310-步骤 2330，直到计算的欧几里得距离损失不再下降，结束对深度卷积神经网络的训练，得到训练好的尺度模型。

本实施例的技术方案，通过提供了一种电源适配器的测试装置，解决了现有技术中没有对多个目标或整个群体对象进行跟拍的跟拍方法的问题，实现了用户能够在在特定场景下对多个目标或整个群体对象进行跟拍的效果。

实施例六

图7为本发明实施例六提供的一种计算机设备的结构示意图，如图7所示，该计算机设备包括存储器4100、处理器4200，计算机设备中处理器4200的数量可以是一个或多个，图7中以一个处理器4200为例；设备中的存储器4100、处理器4200可以通过总线或其他方式连接，图7中以通过总线连接为例。

存储器4100作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的电源适配器测试方法对应的程序指令/模块(例如，电源适配器测试装置中的接收模块3100、控制模块3200、计算模块3300)。处理器4200通过运行存储在存储器4100中的软件程序、指令以及模块，从而执行设备/终端/设备的各种功能应用以及数据处理，即实现上述的电源适配器测试方法。

其中，处理器4200用于运行存储在存储器4100中的计算机程序，实现如下步骤：

实时获取摄像机的拍摄图像，拍摄图像包括至少一个目标图像；

利用预先训练好的模型预测拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息；

根据尺度信息和偏移信息确认摄像机的控制偏移信息。

在其中一个实施例中，本发明实施例所提供的一种计算机设备,其计算机程序不限于如上的方法操作,还可以执行本发明任意实施例所提供的多人跟拍方法中的相关操作。

存储器4100可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器4100可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器4100可进一步包括相对于处理器4200 远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例七

本发明实施例七还提供一种包含计算机可执行指令的存储介质，其上存储有计算机程序，计算机程序包括程序指令，该程序指令被处理器执行时实现一种多人跟拍方法，该多人跟拍方法包括：

根据尺度信息和偏移信息确认摄像机的控制偏移信息。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供的多人跟拍方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，设备，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述多人跟拍装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种多人跟拍方法，其特征在于，包括：

对每个目标对象的尺度信息和偏移信息进行加权计算得到摄像机的控制偏移信息；

其中，利用预先训练好的模型预测所述拍摄图像中每个目标图像对应的偏移信息，具体为：将人物图像数据集的每张人物图像对应的标记数据输入到训练好的深度神经卷积网络中得到每个目标图像对应的参考位置图像XT&YT，XT为参考位置水平坐标图像，YT为参考位置垂直坐标图像，通过参考位置图像XT&YT可以直接计算得到每个像素的偏移图像DX&DY，DX为水平偏移图像，DY为垂直偏移图像，通过偏移图像DX&DY得到偏移信息，偏移信息包括平均偏移控制量(d_xi,d_yi)；其中，

在偏移图像DX&DY上每个像素的偏移计算如下：

DX(x,y)＝XT(x,y)-x；

DY(x,y)＝YT(x,y)-y；

dx(i,j)&dy(i,j)是DX&DY图像中坐标为(i,j)的值；scale(i,j)表示尺度响应图上坐标为(i,j)的值；s_th是设定的阈值。

2.根据权利要求1中所述的多人跟拍方法，其特征在于，所述对每个目标对象的尺度信息和偏移信息进行加权计算得到摄像机的控制偏移信息包括：对每个目标对象的偏移信息和经过幂处理的尺度信息进行加权计算得到摄像机的控制偏移信息。

3.根据权利要求1所述的多人跟拍方法，其特征在于，所述目标图像为预先选中的拍摄图像中的人物对象图像或拍摄图像中所有的人物对象图像。

4.根据权利要求1中所述的多人跟拍方法，其特征在于，所述预先训练好的模型包括预先训练好的尺度模型和预先训练好的偏移模型，所述利用预先训练好的模型预测所述拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息包括：

利用预先训练好的尺度模型预测所述拍摄图像中每个目标图像对应的尺度信息；

利用预先训练好的偏移模型预测所述拍摄图像中每个目标图像对应的偏移信息。

5.根据权利要求4中所述的多人跟拍方法，其特征在于，所述偏移模型的训练过程包括：

A、从预先设定的图像数据集中获取训练图像和对应的标记数据，所述标记数据包括目标的边界框信息和关键点信息；

B、根据目标的边界框信息和关键点信息获取边界框中心点的参考位置；

C、基于所述边界框中心点的参考位置获取所述训练图像对应的参考位置图像；

D、利用深度卷积神经网络预测所述训练图像的参考位置以得到预测结果图像；

E、将所述参考位置图像和所述预测结果图像计算第一损失值，并根据所述第一损失值对所述深度卷积神经网络神的参数进行调节；

F、对数据集中的每张训练样本图像不断重复步骤A-E，直到步骤E中的第一损失值不再下降时，结束对深度卷积神经网络的训练，得到训练好的偏移模型。

6.根据权利要求5中所述的多人跟拍方法，其特征在于，所述根据目标的边界框信息和关键点信息获取边界框中心点的参考位置包括：

将所述训练图像划分为W*H个网格，W、H为大于1的自然数，生成一幅网格表；

获取将边界框中心放置于不同的网格中心时的第二损失值；

选取所述第二损失值最小的网格的中心位置作为所述边界框中心点的参考位置。

7.根据权利要求4中所述的多人跟拍方法，其特征在于，所述尺度模型的训练过程包括：

A、获取训练样本图像的高斯响应图；

B、使用深度卷积神经网络处理训练样本图像，得到训练样本图像的尺度响应图；

C、将所述高斯响应图与尺度响应图进行欧几里得距离损失计算，根据计算结果调节深度卷积神经网络的参数；

D、对每一张训练样本图像不断重复步骤A-步骤C，直到计算的欧几里得距离损失不再下降，结束对深度卷积神经网络的训练，得到训练好的尺度模型。

8.一种多人跟拍装置，其特征在于，包括：

计算模块，用于利用预先训练好的模型预测所述拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息；

控制模块，用于对每个目标对象的尺度信息和偏移信息进行加权计算得到摄像机的控制偏移信息；

在偏移图像DX&DY上每个像素的偏移计算如下：

DX(x,y)＝XT(x,y)-x；

DY(x,y)＝YT(x,y)-y；

9.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的多人跟拍方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序包括程序指令，其特征在于，该程序指令被处理器执行时实现如权利要求1-7中任一所述的多人跟拍方法。