CN110072064A

CN110072064A - 一种图像拍摄方法、装置、设备以及存储介质

Info

Publication number: CN110072064A
Application number: CN201910506435.6A
Authority: CN
Inventors: 张明; 董健
Original assignee: Rui Magic Intelligent Technology (shenzhen) Co Ltd
Current assignee: RUIMO INTELLIGENT TECHNOLOGY (SHENZHEN) Co.,Ltd.
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2019-07-30
Anticipated expiration: 2039-06-12
Also published as: US11736800B2; CN110072064B; US20220201219A1; WO2020248396A1

Abstract

本发明公开了一种图像拍摄方法、装置、设备以及存储介质，该方法包括：获取待拍摄图像内镜头跟踪目标的边界框；利用预先训练好的参考模型预测待拍摄图像的第一参考位置；根据边界框内每个像素位置和第一参考位置确定镜头移动偏移量。本发明利用训练好的模型预测的第一参考位置确定镜头移动偏移量，无需人为控制摄像头的转动，能自动适应目标姿态的变化及适应相机的拍摄角度变化来进行拍摄，提高拍摄效果，提高了用户使用体验。

Description

一种图像拍摄方法、装置、设备以及存储介质

技术领域

本发明涉及计算机软件应用领域，尤其涉及一种图像拍摄方法、装置、设备以及存储介质。

背景技术

随着人们生活水平的提高以及电子设备的发展，拍照更为大众化，但每个人的拍照水平不一样，为了让不同拍摄水平的人也能拍摄出高质量的照片，相机中会设置有智能拍摄模式，目前在相关技术中智能拍照模式只是通过检测当前拍摄的环境参数，针对该环境参数进行自动调节，以协助非专业人士拍摄出专业的照片，这种自动调节的参数通常只限于光圈、快门速度等，智能化程度较低。基于此发展出了自动跟踪目标进行拍摄的技术。

自动跟踪目标进行拍摄被应用在众多场景下，通过一个边界框来定位目标的位置，然后基于“中心控制”法来控制镜头的移动，来实现自动跟拍功能。然而，在人像拍摄中，这一方法具有很多局限性。人像拍摄比较复杂，不同姿态下，传统的边界框“中心控制”法实现的效果与人类的实际期望效果存在很大的差异。传统边界框“中心控制法”仅仅适用于目标在画面中非常小的特殊情形下。

发明内容

有鉴于此，本发明提供了一种图像拍摄方法、装置、设备以及存储介质，能够基于图像的像素级视觉特征自动控制摄像头的转动，提高拍摄效果。

为解决上述技术问题，本发明采用以下技术方案：

第一方面，本发明提供了一种图像拍摄方法，该图像拍摄方法包括：

获取待拍摄图像内镜头跟踪目标的边界框；

利用预先训练好的参考模型预测所述待拍摄图像的第一参考位置；

根据所述边界框内每个像素位置和所述第一参考位置确定镜头移动偏移量。

第二方面，本发明提供了一种图像拍摄装置，该图像拍摄装置包括：

边界框获取模块，用于获取待拍摄图像内镜头跟踪目标的边界框；

参考位置预测模块，用于预先训练好的参考模型利用预先训练好的参考模型预测所述待拍摄图像的第一参考位置；

镜头偏移确定模块，用于根据所述边界框内每个像素位置和所述第一参考位置确定镜头移动偏移量。

第三方面，本发明提供了一种图像拍摄设备，该图像拍摄设备包括存储器和处理器，所述存储器上存储有可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现前述的图像拍摄方法。

第四方面，本发明提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被执行时实现前述的图像拍摄方法。

本发明提供的图像拍摄方法通过边界框确定镜头跟踪目标在待拍摄图像中的位置，利用基于卷积神经网路训练好的能够模拟摄像师构图思路的参考模型预测待拍摄图像的第一参考位置，根据第一参考位置和待拍摄图像中用于确定跟踪目标位置的边界框，采用像素级的计算方式计算出实现跟踪目标位于第一参考位置所需的镜头移动偏移量，实现了基于图像的像素级视觉特征自动控制摄像头的转动，能自动适应目标姿态的变化及适应相机的拍摄角度变化来进行拍摄，提高拍摄效果，有利于提高用户使用体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见的，下面描述中的附图仅仅是本申请的部分实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例一提供的一种图像拍摄方法的流程图；

图2是本发明实施例一提供的一种图像拍摄方法的子流程图；

图3是本发明实施例二提供的一种图像拍摄方法的流程图；

图4是本发明实施例二提供的一种参考模型的训练流程图；

图5是本发明实施例二提供的一种参考模型的训练子流程图；

图6是本发明实施例三提供的一种图像拍摄装置的结构示意图；

图7是本发明实施例三提供的一种图像拍摄装置的训练子模块结构示意图；

图8为本发明实施例三提供的一种图像拍摄装置的位置获取单元结构示意图；

图9为本发明实施例三提供的一种图像拍摄装置的镜头偏移确定模块结构示意图；

图10是本发明实施例四提供的一种图像拍摄设备的结构示意图。

具体实施方式

下面结合本申请实施例中的附图，对本申请实施中的技术方案进行清楚、完整的描述。可以理解的是，此处所描述的具体实施例仅仅是本申请一部分实施例，而不是全部的实施例，仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中使用的术语只是为了描述具体的实施方式的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

此外，术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说，在不脱离本发明的范围的情况下，可以将第一速度差值为第二速度差值，且类似地，可将第二速度差值称为第一速度差值。第一速度差值和第二速度差值两者都是速度差值，但其不是同一速度差值。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。需要说明的是，当部被称为“固定于”另一个部，它可以直接在另一个部上也可以存在居中的部。当一个部被认为是“连接”到另一个部，它可以是直接连接到另一个部或者可能同时存在居中部。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述，只是为了说明的目的，并不表示是唯一的实施方式。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

参见图1，本实施例提供了一种图像拍摄方法，该方法包括以下步骤：

S110、获取待拍摄图像内镜头跟踪目标的边界框。

在拍摄图像时，为了实现更佳的构图效果通常将待拍摄目标或镜头跟踪目标尽可能的置于图像的中心，因此在调整镜头移动前需要先确定跟踪目标在图像中的位置，此处所指的镜头跟踪目标指的是需要始终保持在镜头内的主要拍摄目标，如人、宠物以及其他摄影素材。本实施例中采用边界框确定跟踪目标的位置，边界框指对应于待拍摄图像中的跟踪目标所出现的画面的区域范围，并且一般具有在纵向或横向上长的矩形外框形状。本实施例边界框的大小和位置取决于跟踪目标在镜头所采集的图像中的大小，一实施例中边界框可以基于现有的视觉追踪方法确定。

S120、利用预先训练好的参考模型预测待拍摄图像的第一参考位置。

现有技术中通常使用“中心控制”法将目标定位到图像的正中心，但是这种方式并未考虑到所跟踪目标的姿态不同在构图时的影响，例如拍摄站立的人像时，“中心控制”法会将站立人像的正中心置于图像中心，而将人体的上半身更靠近图像中心能获得更佳的构图效果，因此本实施例采用预先训练好的参考模型来预测待拍摄图像的第一参考位置。

参考模型基于卷积神经网络(Convolutional Neural Networks，CNN)训练得到。第一参考位置为预测镜头跟踪目标在图像中的最佳构图位置，最佳构图位置是根据大量摄影师所拍摄的包含跟踪目标的图像，统计分析得到的跟踪目标在摄影师拍摄图像中的位置。最佳构图位置由参考模型根据图像中镜头跟踪目标的信息所确定，目标的信息包括目标的边界框的大小、位置以及目标的姿态中的一种或多种。

S130、根据边界框内每个像素位置和第一参考位置确定镜头移动偏移量。

在确定了第一参考位置后即确定了边界框的构图预测位置，结合边界框的初始位置即可计算出镜头需求的移动偏移量。传统的边界框“中心控制”法仅仅使用边界框的中心点进行计算，其计算将边界框中心点移动到画面的中心位置镜头需求的移动偏移量，这种计算方式在边界框足够小时效果比较好，但是实际拍摄中边界框的大小是不确定的且为了构图效果镜头跟踪目标在图像中所占的比例不能过小导致边界框在图像中所占的比例也不能过小，因此为了更精确的镜头偏移量计算结果本实施例在参考模型预测的第一参考位置基础上，基于图像的像素级视觉特征使用边界框内的每个像素位置计算镜头的移动偏移量。

更具体的，在一些实施例中，如图2所示，步骤S130包括步骤S131-步骤S132，具体如下：

S131、根据第一参考位置计算得到边界框内每个像素的位置偏移量。

定义：(x,y)为像素归一化坐标，x表示水平方向坐标，y表示垂直方向坐标；

XT为参考位置水平坐标图像，YT为参考位置垂直坐标图像，由参考模型预测得到；

DX为水平偏移图像，DY为垂直偏移图像，通过后续方法计算得到。

优选地，根据第一参考位置利用公式计算得到边界框内每个像素的位置偏移量；

式中，DX(x,y)为边界框内每个像素的水平偏移量，XT(x,y)为对应第一参考位置时边界框内每个像素的水平位置即参考模型预测后的图像中边界框内每个像素的水平坐标，DY(x,y)为边界框内每个像素的垂直偏移量，YT(x,y)为对应第一参考位置时边界框内每个像素的垂直位置即参考模型预测后的图像中边界框内每个像素的垂直坐标，x为边界框内每个像素的水平位置也可以理解为边界框内每个像素的初始位置的水平坐标，y为边界框内每个像素的垂直位置也可以理解为边界框内每个像素的初始位置的垂直坐标。

本实施例中，根据S131中的计算公式可以分别计算对应第一参考位置时每个像素的位置与初始位置的坐标差值，以表示比较参考模型预测的图像与镜头偏移前所拍摄的图像相比，边界框内每个像素的位置偏移量。

S132、根据边界框内每个像素的位置偏移量计算得到镜头移动偏移量。

优选地，根据边界框内每个像素的位置偏移量利用公式和前述所计算得到的边界框内每个像素的位置偏移量计算实现参考模型所预测的图像所需的镜头移动偏移量d；式中，d_x为镜头的水平移动偏移量，d_y为镜头的垂直移动偏移量，(x,y)∈Θ表示点(x,y)属于边界框Θ内，∑_(x,y)∈Θ1表示的是边界框Θ内包含的点数之和，镜头移动偏移量d＝(d_x,d_y)。

本实施例中提供了一种图像拍摄方法，采用由卷积神经网络训练好的参考模型对待拍摄图像进行预测得到构图效果更佳的第一参考位置，基于图像的像素级视觉特征和第一参考位置计算每个像素的位置偏移量从而得到镜头移动偏移量，能够自动适应拍摄目标的不同姿态、不同位置，预测目标的参考位置控制摄像头移动实现更佳构图效果，无需人为控制摄像头的转动即可提高拍摄效果，提升用户的拍摄体验。

实施例二

图3是本发明实施例二提供的一种图像拍摄方法的流程示意图，本实施例在实施例一的基础上实现，如图3所示，在步骤S110之前还包括：

步骤S100、基于深度卷积神经网络训练得到预先训练好的参考模型。

在一些实施例中，如图4所示，步骤S100、基于深度卷积神经网络训练得到预先训练好的参考模型(即参考模型的具体训练过程)包括步骤S310-步骤S360，具体如下：

S310、从预先设定的图像数据集中获取训练图像和对应的标记数据，标记数据包括目标的边界框信息和关键点信息。

本实施例中，图像数据集中预先设置有多张训练图像，训练图像类型可以根据拍摄目标不同自行选择，本实施例中以人像拍摄为例，数据集中搜集的均为包括人像的训练图像，这些训练图像可以覆盖各类主要场景如室内、海边和山上以及各种姿态如：跑步、打坐、平躺和舞蹈。

数据集中每张训练图像都具有对应的标记数据，本实施列的标记数据包括训练图像中跟踪目标的边界框信息和关键点信息。边界框信息包括边界框的位置和边界框的大小。关键点信息本实施例中示例性的选择人体的17个关节点作为关键点，分别标记对应的坐标信息。每个关节点标记为(x_i,y_i,s_i)，i为1到17的自然数表示第i个关键点，x_i为第i个关键点的水平坐标，y_i为第i个关键点的垂直坐标,s_i等于0时表示该关键点不存在(对应的x_i和y_i均为0)，s_i等于1时表示该关键点存在，i为1到17时分别对应以下关键点信息：

1-头顶、2-左眼、3-右眼、4-鼻子、5-咽喉、6-左肩、7-左肘、8-左腕、9-右肩、10-右肘、11-右腕、12-左臀、13-左膝、14-左踝、15-右臀、16-右膝、17-右踝。

S320、根据目标的边界框信息和关键点信息获取边界框中心点的参考位置。

传统的“中心控制”法控制目标边界框中心点移动到图像的中心完成构图，这种方式计算过程简单并未考虑到目标的姿态不同对构图的影响因而拍摄效果与实际期望相差较大，因此本实施例提供的拍摄方法中，在训练参考模型时充分考虑跟踪目标不同姿态时的构图需求差异，根据步骤S310中所标记的跟踪目标关键点信息不同可以区别出跟踪目标的不同姿态，根据跟踪目标的边界框信息和关键点信息计算边界框中心点的参考位置，并且能够充分模拟摄影师的构图控制能力，其构图效果更好。

更具体的，在一些实施例中，如图5所示，步骤S320包括步骤S321-步骤S323，具体内容如下：

S321、基于训练图像生成一幅网格表将训练图像划分为W*H个网格，W、H为大于1的自然数，每个网格在后续计算边界框的构图位置时提供一个位置选择，W、H的具体数值可根据精度需求调整。

S322、获取将边界框中心放置于不同的网格中心时的第二损失值。

第二损失值的具体计算过程如下：

图像的水平坐标范围和垂直坐标范围均为[0,1]；

(1)定义一组参考点，示例如下：

(2)定义一组参考线，示例如下：

参考点和参考线的设置基于构图需求不同可自行调整，本实施例中通过上述参考点、参考线，将水平坐标范围和垂直坐标范围所限定的区域定为追踪目标最佳构图区域。

(3)基于跟踪目标关键点信息定义跟踪目标关键点集合和对应的权值参数集合：

P＝{p_i},i＝1,2,…,17

W_p＝{w_pi},i＝1,2,…,17

(4)根据跟踪目标关键点信息定义关键线段，关键线段用于补充跟踪目标的姿态信息，基于关键点所体现的姿态在一定情况下存在一些误差，结合基于关键点的关键线段可以更清晰的体现跟踪目标的姿态，示例性的为：

L1:鼻子->{左臀和右臀中点}；

L2:左肩->左肘；

L3:左肘->左腕；

L4:右肩->右肘；

L5:右肘->右腕；

L6:左臀->左膝；

L7:左膝->左踝；

L8:右臀->右膝；

L9:右膝->右踝。

(5)基于上述9条关键线段分别定义跟踪目标关键线段集合和对应的权值参数集合：

L＝{l_j},j＝1,2,…,9

W_l＝{w_lj},j＝1,2,…,9

当目标的姿态不同时，目标的关键点位置发生变化，上述关键线段的长度、位置均会对应发生变化。

(6)关键点与参考点之间的距离计算公式：

其中，关键点与参考点之间的距离计算公式中p_i、p_j分别代表两个不同的点，x_pi、y_pi分别表示点p_i的水平坐标和垂直坐标，x_pj、y_pj分别表示点p_j的水平坐标和垂直坐标。

(7)关键线与参考线之间的距离计算公式：

关键线与参考线之间的距离计算公式中，(x_c,y_c)是线段l的中点，x＝a表示一条垂直线，y＝a表示一条水平线；

(8)将边界框中心分别放置到不同网格的中心(x，y)处，计算此时第二损失值损失值D_xy：

P_xy＝P→(x,y)关键点归一化；

L_xy＝L→(x,y)关键线段归一化；

D_xy＝D_p+D_l

第二损失值可以体现将边界框放置到不同位置时跟踪目标与自定义的目标最佳构图区域符合程度，第二损失值越小越接近自定义的最佳构图区域。

S323、选取第二损失值最小的网格的中心位置作为边界框中心点的参考位置。

时选取(x_t,y_t)作为边界框中心点的参考位置，在自定义的网格、参考点和参考线不变的情况下，(x_t,y_t)与对应的关键点信息(此处包括关键线段)关系是确定的，即映射关系为(x_t,y_t)＝O(P)，P为镜头追踪拍摄目标的关键点信息。

在替代实施例中，根据对图像精度的需求不同可以调整自定义的网格、参考点和参考线，进一步的还可以自定义目标的关键点以及关键线段和关键点的关系。例如精度要求较高时，可以将W、H提高，即增加了图像分割网格的格数。

S330、基于边界框中心点的参考位置获取训练图像对应的参考位置图像。

当训练图像中存在多个目标人像时，需要根据每个目标的边界框中心点的参考位置、边界框中心点和目标数量获取训练图像对应的参考位置图像，具体如下：

(1)所有目标的边界框中心点的参考位置集合定义为：

Θ＝{O(P_i)}＝{(x_ti,y_ti)}

(2)每个目标的边界框中心初始位置坐标定义为：

Δ＝{(x_ci,y_ci)}

(3)训练图像中每个像素的参考位置计算公式：

(x,y)-像素归一化坐标；

∑_Θ,Δ1-训练图像中的目标数量；

式中X_TG(x,y)为每个像素参考位置的水平坐标，Y_TG(x,y)为每个像素参考位置的垂直坐标，x_ti、x_ci分别为每个目标边界框中心点的参考位置水平坐标和初始位置水平坐标，y_ti、y_ci分别为每个目标边界框中心点的参考位置垂直坐标和初始位置垂直坐标，当每个像素的参考位置坐标确定后即可得到训练图像的参考位置图像。

参考位置图像与传统中心控制法得到的图像相比更充分地考虑到了目标姿态不同时的构图需求，构图效果更精细合理。

S340、利用深度卷积神经网络预测训练图像的第二参考位置以得到预测结果图像。

利用深度卷积神经网络初始模型对训练图像进行预测，得到目标在图像中的第二参考位置，进一步的可以得到预测结果图像，预测结果图像中每个像素的水平坐标和垂直坐标分别为X_T(x,y)、Y_T(x,y)。

S350、根据参考位置图像和预测结果图像计算第一损失值，并根据第一损失值对深度卷积神经网络的参数进行调节。

第一损失值采用欧几里得距离损失，根据前述得到参考位置图像和预测结果图像通过公式(1)计算得到：

L＝∑_x,y(X_TG(x,y)-X_T(x,y))²+∑_x,y(Y_TG(x,y)-Y_T(x,y))² (1)

(1)式中X_TG(x,y)、Y_TG(x,y)由(2)式求得，X_T(x,y)、Y_T(x,y)由预测结果图像求得。参考位置图像是期望实现构图效果的图像，第一损失值表示预测结果图像与参考位置图像偏差，基于第一损失值对深度卷积神经网络进行反向传播调节深度卷积神经网络参数使得预测结果图像更接近参考位置图像。

S360、对数据集中的每张训练图像不断重复步骤S310-S350，直到步骤S350中的第一损失值不再下降时，结束对深度卷积神经网络的训练，得到训练好的参考模型。

根据第一损失值调整深度卷积神经网络的参数会得到不同的第一损失值，当第一损失值不断下降时表明预测结果图像越来越接近参考位置图像，不断地调节深度卷积神经网络最终第一损失值不再降低时可以视为此时预测结果图像最接近参考位置图像，此时可以获得所期望的深度卷积神经网络模型作为训练好的参考模型使用。

需要说明的是，由于不同训练图像得到的第一损失值之间可能存在一定差异，因此无法保证每个训练图像计算得到的第一损失值能同时达到最低，此处所指的第一损失值不再下降是一种表示第一损失值趋于稳定且达到预期要求的表述方式，示例性的：自定义第一损失值预期要求为低于k，则在采用多个训练图像进行的多次训练后得到的至少m个连续的第一损失值始终低于k时即可视为第一损失值不再下降。

本实施例进一步提供了实施例一中所使用的预先训练好的参考模型的训练流程，基于目标的关键点信息提供了更为合理的构图方式，其实现的参考图像构图效果更好，基于参考图像和深度卷积神经网络计算得到的第一损失值对深度卷积神经网络进行反向传播得到的训练好的参考模型能够适应目标的不同姿态预测出构图更合理的预测图像。

实施例三

如图6所示，本实施例提供了一种图像拍摄装置500，包括：

边界框获取模块510，用于获取待拍摄图像内镜头跟踪目标的边界框；

参考位置预测模块520，用于利用预先训练好的参考模型预测所述待拍摄图像的第一参考位置；

镜头偏移确定模块530，用于根据所述边界框内每个像素位置和所述第一参考位置确定镜头移动偏移量。

本实施例中，边框获取模块510可以根据待拍摄图像内跟踪目标的数量不同获取多个与之对应的边界框。

本实施例中，如图7所示，参考位置预测模块520还包括模型训练子模块521，用于基于深度卷积神经网络训练获得训练好的参考模型。

如图7所示，模型训练子模块521进一步还包括：

数据集单元5210，用于存储训练图像和对应的标记数据，标记数据包括目标的边界框信息和关键点信息；

位置获取单元5211，用于根据根据目标的边界框信息和关键点信息获取边界框中心点的参考位置；

图像获取单元5212，用于基于边界框中心点的参考位置获取训练图像对应的参考位置图像，进一步还可以根据每个目标的边界框中心点的参考位置、边界框中心点和目标数量获取训练图像对应的参考位置图像；

预测结果图像获取单元5213，用于利用深度卷积神经网络预测训练图像的第二参考位置以得到预测结果图像；

损失值处理单元5214，用于根据参考位置图像和所述预测结果图像计算第一损失值，并根据第一损失值对深度卷积神经网络的参数进行调节；

模型获取单元5215，用于第一损失值不再下降时，结束对深度卷积神经网络的训练，得到训练好的参考模型。

更具体的，第一损失值用公式(1)得到，公式(1)为：

式中X_TG(i,j)为根据边界框中心点的参考位置所计算的边界框内每个像素的水平偏移位置，X_T(i,j)为由深度卷积神经网络预测的边界框内每个像素的水平偏移位置，Y_TG(i,j)为根据边界框中心点的参考位置所计算的边界框内每个像素的垂直偏移位置，Y_T(i,j)为由深度卷积神经网络预测的边界框内每个像素的垂直偏移位置。

进一步的，如图8所示，位置获取单元5212包括：

网格划分子单元52120，用于基于训练图像生成一幅网格表将训练图像划分为W*H个网格，W、H为大于1的自然数；

第二损失值处理子单元52121，用于获取将边界框中心放置于不同的网格中心时的第二损失值；

参考位置获取子单元52122，用于选取第二损失值最小的网格的中心位置作为边界框中心点的参考位置。

进一步的，如图9所示，镜头偏移确定模块530还包括：

像素的位置偏移量获取子模块5300，用于根据第一参考位置计算得到边界框内每个像素的位置偏移量；

镜头移动偏移量获取子模块5301，用于根据边界框内每个像素的位置偏移量计算得到镜头移动偏移量。

更具体的，像素的位置偏移量获取子模块5300根据第一参考位置利用公式计算得到边界框内每个像素的位置偏移量；

其中，DX(x,y)为边界框内每个像素的水平偏移量，XT(x,y)为对应第一参考位置时边界框内每个像素的水平位置，x为边界框内每个像素的水平位置，DY(x,y)为边界框内每个像素的垂直偏移量，YT(x,y)为对应第一参考位置时边界框内每个像素的垂直位置，y为边界框内每个像素的垂直位置。

更具体的，镜头移动偏移量获取子模块5301根据边界框内每个像素的位置偏移量利用公式计算得到镜头移动偏移量d；

其中，d＝(d_x,d_y),d_x为镜头的水平移动偏移量，d_y为镜头的垂直移动偏移量，(x,y)∈Θ表示点(x,y)属于边界框Θ内，∑_(x,y)∈Θ1表示的是边界框Θ内包含的点数之和。

本实施例进一步提供了一种图像拍摄装置，能自动适应目标姿态的变化及适应相机的拍摄角度变化来进行拍摄，提高拍摄效果，有利于提高用户使用体验。

本发明实施例所提供的一种图像拍摄装置可执行本发明前述实施例所提供的一种图像拍摄方法，具备执行方法相应的功能模块和有益效果。

实施例四

图10为本发明实施例四提供的一种图像拍摄设备600的结构示意图，如图10所示，该种图像拍摄设备包括存储器610、处理器620，图像拍摄设备中处理器620的数量可以是一个或多个，图10中以一个处理器620为例；图像拍摄设备中的存储器610、处理器620可以通过总线或其他方式连接，图10中以通过总线连接为例。

存储器610作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的图像拍摄方法对应的程序指令/模块(例如，图像拍摄装置中的边界框获取模块510、参考位置预测模块520、镜头偏移确定模块530)。处理器620通过运行存储在存储器610中的软件程序、指令以及模块，从而执行图像拍摄设备的各种功能应用以及数据处理，即实现上述的图像拍摄方法。

其中，所述处理器620用于运行存储在存储器610中的计算机可执行程序，以实现如下步骤：步骤S110、获取待拍摄图像内镜头跟踪目标的边界框；步骤S120、利用预先训练好的参考模型预测所述待拍摄图像的第一参考位置；步骤S130、根据所述边界框内每个像素位置和所述第一参考位置确定镜头移动偏移量。

当然,本发明实施例所提供的一种图像拍摄设备,该图像拍摄设备不限于如上所述的方法操作,还可以执行本发明实施例任意实施例所提供的图像拍摄方法中的相关操作。

存储器610可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器610可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器610可进一步包括相对于处理器620远程设置的存储器，这些远程存储器可以通过网络连接至图像拍摄设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本实施例提供了一种图像拍摄设备，能自动适应目标姿态的变化及适应相机的拍摄角度变化来进行拍摄，提高拍摄效果，有利于提高用户使用体验。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种图像拍摄方法，该图像拍摄方法包括：

获取待拍摄图像内镜头跟踪目标的边界框；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的图像拍摄方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，图像拍摄设备，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述图像拍摄装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种图像拍摄方法，其特征在于，包括：

获取待拍摄图像内镜头跟踪目标的边界框；

2.根据权利要求1所述的方法，其特征在于，所述根据所述边界框内每个像素位置和所述第一参考位置确定镜头移动偏移量包括：

根据所述第一参考位置计算得到所述边界框内每个像素的位置偏移量；

根据所述边界框内每个像素的位置偏移量计算得到镜头移动偏移量。

3.根据权利要求1所述的方法，其特征在于，所述预先训练好的参考模型的训练过程包括：

A、从预先设定的图像数据集中获取训练图像和对应的标记数据，所述标记数据包括目标的边界框信息和关键点信息；

B、根据目标的边界框信息和关键点信息获取边界框中心点的参考位置；

C、基于所述边界框中心点的参考位置获取所述训练图像对应的参考位置图像；

D、利用深度卷积神经网络预测所述训练图像的第二参考位置以得到预测结果图像；

E、根据所述参考位置图像和所述预测结果图像计算第一损失值，并根据所述第一损失值对所述深度卷积神经网络的参数进行调节；

F、对数据集中的每张训练图像不断重复步骤A-E，直到步骤E中的第一损失值不再下降时，结束对深度卷积神经网络的训练，得到参考模型。

4.根据权利要求3所述的方法，其特征在于，所述根据目标的边界框信息和关键点信息获取边界框中心点的参考位置包括：

基于所述训练图像生成一幅网格表将所述训练图像划分为W*H个网格，W、H为大于1的自然数；

获取将边界框中心放置于不同的网格中心时的第二损失值；

选取所述第二损失值最小的网格的中心位置作为所述边界框中心点的参考位置。

5.根据权利要求3所述的方法，其特征在于，所述基于所述边界框中心点的参考位置获取所述训练图像对应的参考位置图像包括：根据每个目标的边界框中心点的参考位置、边界框中心点和目标数量获取所述训练图像对应的参考位置图像。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一参考位置计算得到所述边界框内每个像素的位置偏移量包括：根据所述第一参考位置利用公式计算得到所述边界框内每个像素的位置偏移量；

其中，DX(x,y)为所述边界框内每个像素的水平偏移量，XT(x,y)为对应第一参考位置时所述边界框内每个像素的水平位置，DY(x,y)为所述边界框内每个像素的垂直偏移量，YT(x,y)为对应第一参考位置时所述边界框内每个像素的垂直位置，x为所述边界框内每个像素的水平位置，y为所述边界框内每个像素的垂直位置；

所述根据所述边界框内每个像素的位置偏移量计算得到镜头移动偏移量包括：根据所述边界框内每个像素的位置偏移量利用公式计算得到镜头移动偏移量d；

7.根据权利要求3所述的方法，其特征在于，所述第一损失值用公式(1)计算得到，公式(1)为：

L＝∑_x,y(X_TG(x,y)-X_T(x,y))²+∑_x,y(Y_TG(x,y)-Y_T(x,y))² (1)

8.一种图像拍摄装置，其特征在于，包括：

9.一种图像拍摄设备，其特征在于，包括存储器和处理器，所述存储器上存储有可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7的图像拍摄方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被执行时实现如权利要求1-7任意一项所述的图像拍摄方法。