CN113095157A

CN113095157A - 一种基于人工智能的图像拍摄方法、装置及相关产品

Info

Publication number: CN113095157A
Application number: CN202110309217.0A
Authority: CN
Inventors: 艾的梦
Original assignee: Shenzhen Chuang Le Hui Technology Co ltd
Current assignee: Shenzhen Chuang Le Hui Technology Co ltd
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2021-07-09

Abstract

本申请实施例提供一种基于人工智能的图像拍摄方法、装置及相关产品，所述方法包括：在摄像头开启的情况下，对所述摄像头采集的图像中的目标人体进行动作识别；将所述摄像头采集的开始拍摄图像和结束拍摄图像之间的图像作为拍摄图像；确定每一张所述拍摄图像中所述目标人体的目标动作，根据所述目标动作对采集到的所有拍摄图像进行分类；针对每一类拍摄图像中每一张所述拍摄图像，对所述拍摄图像对应的目标动作进行打分得到动作评分，并对所述拍摄图像进行质量打分得到质量评分；根据所述动作评分和质量评分得到每一张所述拍摄图像的综合评分；根据所述综合评分从每一类拍摄图像中确定目标拍摄图像，并输出得到的所述目标拍摄图像。

Description

一种基于人工智能的图像拍摄方法、装置及相关产品

技术领域

本申请涉及图像处理技术领域，尤其涉及一种基于人工智能的图像拍摄方法、装置及相关产品。

背景技术

现在人们在进行拍摄的时候，一般会手动点击拍摄按钮触发进行单拍或者是连拍的操作。比如在拍人像的时候，可能会摆很多造型进行多次拍摄，也可能摆一种造型进行多次拍摄，一直拍到满意的照片为止。拍完之后还要一张一张地浏览照片，然后选出最满意的照片。

发明内容

本申请实施例提供基于人工智能的图像拍摄方法、装置及相关产品，可以图像拍摄的效率。

一种基于人工智能的图像拍摄方法，所述方法包括：

在摄像头开启的情况下，对所述摄像头采集的图像中的目标人体进行动作识别；

将所述摄像头采集的开始拍摄图像和结束拍摄图像之间的图像作为拍摄图像，其中，开始拍摄图像表示所述摄像头采集的包含执行第一动作的目标人体的图像，结束拍摄图像表示所述摄像头采集的包含执行第二动作的目标人体的图像，所述第一动作和所述第二动作不同；

确定每一张所述拍摄图像中所述目标人体的目标动作，根据所述目标动作对采集到的所有拍摄图像进行分类；

针对每一类拍摄图像中每一张所述拍摄图像，对所述拍摄图像对应的目标动作进行打分得到动作评分，并对所述拍摄图像进行质量打分得到质量评分；

根据所述动作评分和质量评分得到每一张所述拍摄图像的综合评分；

根据所述综合评分从每一类拍摄图像中确定目标拍摄图像，并输出得到的所述目标拍摄图像。

进一步地，所述确定每一张所述拍摄图像中所述目标人体的目标动作，根据所述目标动作对采集到的所有拍摄图像进行分类，包括：

确定每一张所述拍摄图像中包含的至少一个目标人体和每一个所述目标人体的目标动作；

根据所述拍摄图像中包含的目标人体对采集到的所有拍摄图像进行划分，得到第一级分类结果；其中，属于同一第一级分类中包含的所有拍摄图像中包含的目标人体相同；

针对各个所述第一级分类结果中的拍摄图像，根据所述拍摄图像中目标人体的目标动作对拍摄图像进行分类，得到第二级分类结果。

进一步地，所述根据所述动作评分和质量评分得到每一张所述拍摄图像的综合评分，包括：

获取第一权重和第二权重；

根据所述第一权重和第二权重确定所述动作评分和质量评分的加权和值，得到每一张所述拍摄图像的综合评分。

进一步地，所述获取第一权重和第二权重，包括：

确定各个所述第二级分类结果中拍摄图像中，包含的目标人体的数量以及包含的所有目标人体的总面积，根据所述数量和所述总面积确定该类拍摄图像对应的第二权重；

根据所述第二权重以及预先设定的权重和，得到所述第一权重。

进一步地，所述根据所述综合评分从每一类拍摄图像中确定目标拍摄图像，并输出得到的所述目标拍摄图像，包括：

根据所述综合评分将每一类拍摄图像中的图像进行排序，从每一类排序后的拍摄图像中确定综合评分最高的拍摄图像作为所述目标拍摄图像；

将所述目标拍摄图像存储到第一图像集中，将所述目标拍摄图像之外的拍摄图像存储到第二图像集中；

在预设时长内检测到将所述第二图像集中的图像移动到所述第一图像集的指令时，将所述指令指示的图像移动到所述第一图像集中；

所述第二图像集中保存时长超过所述预设时长的图像进行删除操作。

进一步地，所述对所述摄像头采集的图像中的目标人体进行动作识别，包括：

针对所述摄像头采集的图像，通过空间流卷积神经网络提取空间交互性特征，并利用双向长短期记忆神经网络提取全局空间辨别性特征；

通过时间流卷积神经网络提取时间交互性特征，通过三维卷积神经网络从所述时间交互性特征中提取全局时间特征，并构建以光流引导的时间注意力模型根据所述全局时间特征计算全局时间辨别性特征；

根据所述全局时间辨别性特征进行分类处理得到第一分类结果，根据所述全局空间辨别性特征进行分类处理得到第二分类结果；

将所述第一分类结果和所述第二分类结果进行融合得到融合分类结果，根据所述融合分类结果得到对所述目标人体的动作识别结果。

进一步地，所述通过空间流卷积神经网络提取空间交互性特征，包括：

将所述拍摄图像输入行为显著检测网络模型，得到检测结果，并根据检测结果得到空间交互性特征；

根据所述拍摄图像和空间交互性特征，构建以掩膜引导的空间注意力模型，得到空间辨别性特征；

根据时间注意力权重和空间辨别性特征，确定空间交互性特征；

所述通过时间流卷积神经网络提取时间交互性特征，通过三维卷积神经网络从所述时间交互性特征中提取全局时间特征，并构建以光流引导的时间注意力模型根据所述全局时间特征计算全局时间辨别性特征，包括：

通过TVNet网络对所述拍摄图像进行光流计算，得到光流帧；

根据所述空间注意力权重对得到的所述光流帧进行加权，得到所述时间交互性特征；

通过三维卷积神经网络从所述时间交互性特征中提取全局时间特征；

将全局时间特征输入到以光流引导的时间注意力模型得到时间注意力权重，并通过时间注意力加权将所述全局时间特征进行加权，得到全局时间辨别性特征；

所述将所述第一分类结果和所述第二分类结果进行融合的方法如下：

S_r＝(1-C₁^2)*S₁+(1-(1-C₁^2))*S₂

其中，S₁表示所述第一分类结果，S₂表示所述第二分类结果，S_r表示所述融合分类结果，C₁表示融合过程中定义的变量，C₁小于1。

一种基于人工智能的图像拍摄装置，所述装置包括：

图像采集模块，用于在摄像头开启的情况下，对所述摄像头采集的图像中的目标人体进行动作识别；

图像识别模块，用于将所述摄像头采集的开始拍摄图像和结束拍摄图像之间的图像作为拍摄图像，其中，开始拍摄图像表示所述摄像头采集的包含执行第一动作的目标人体的图像，结束拍摄图像表示所述摄像头采集的包含执行第二动作的目标人体的图像，所述第一动作和所述第二动作不同；

图像分类模块，用于确定每一张所述拍摄图像中所述目标人体的目标动作，根据所述目标动作对采集到的所有拍摄图像进行分类；

图像评分模块，用于针对每一类拍摄图像中每一张所述拍摄图像，对所述拍摄图像对应的目标动作进行打分得到动作评分，并对所述拍摄图像进行质量打分得到质量评分；

综合评分模块，用于根据所述动作评分和质量评分得到每一张所述拍摄图像的综合评分；

图像输出模块，用于根据所述综合评分从每一类拍摄图像中确定一张目标拍摄图像，并输出得到的所述目标拍摄图像。

一种电子设备，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现上述方法。

一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述方法。

上述基于人工智能的图像拍摄方法、装置及相关产品，可以连续对摄像头采集的图像进行动作识别，并根据动作识别的结果确定拍摄图像。然后根据目标动作对拍摄图像进行分类，再对分类结果中的每一张图像进行综合评分，根据综合评分输出最终的拍摄图像。这样可以保证拍摄的每一个动作的图像都输出了对应的拍摄图像，又可以保证输出的是综合评分比较满意的图像，无需用户再手动挑选图像，提高了图像拍摄的效率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1为一个实施例中基于人工智能的图像拍摄方法的流程示意图。

图2为一个实施例中的基于人工智能的图像拍摄装置的结构示意图。

图3为一个实施例中对目标人体进行动作识别的网络结构示意图。

图4为一个实施例中基于人工智能的图像拍摄硬件组成示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

图1为一个实施例中基于人工智能的图像拍摄方法的流程示意图。该基于人工智能的图像拍摄方法包括步骤：

步骤102，在摄像头开启的情况下，对摄像头采集的图像中的目标人体进行动作识别。

在本申请提供的实施例中，可以先打开摄像头，通过摄像头对目标人体进行拍摄，得到一张或多张图像。摄像头采集的图像会缓存到电子设备中，电子设备再逐一对拍摄的图像进行人体识别，检测图像中的目标人体。

可以理解的是，图像中通常可以包含一个或多个人体，也可能不包含人体。通过对图像进行人体识别，即可得到识别结果。目标人体可以是图像中包含的所有人体，也可以是图像中包含的其中一个或多个人体，在此不做限定。

在检测到目标人体之后，可以对目标人体进行动作识别。即识别各个目标人体所做的动作，例如识别到目标人体“抬腿”、“叉腰”、“摸头”等动作，识别到的动作还可以是目标人体的动作轮廓等，在此不限定目标动作的表现形式。

步骤104，将摄像头采集的开始拍摄图像和结束拍摄图像之间的图像作为拍摄图像，其中，开始拍摄图像表示摄像头采集的包含执行第一动作的目标人体的图像，结束拍摄图像表示摄像头采集的包含执行第二动作的目标人体的图像，第一动作和第二动作不同。

在摄像头开启的过程中，会不断地对摄像头拍摄的图像进行动作识别。当检测到图像中包含执行第一动作的目标人体时，认为当前开始“拍摄”流程，即可认为该图像之后采集到的图像都为拍摄图像。开始拍摄之后采集的图像中，检测到包含第二动作的目标人体时，认为当前结束拍摄。然后即将开始拍摄和结束拍摄之间采集的图像，作为拍摄图像。

例如，当目标人体执行“抬腿”动作的时候，认为当前开始拍摄流程；当目标人体执行“叉腰”动作的时候，认为结束当前拍摄流程。

步骤106，确定每一张拍摄图像中目标人体的目标动作，根据目标动作对采集到的所有拍摄图像进行分类。

对每一张拍摄图像中的目标人体进行动作识别，可以得到目标人体的目标动作，然后根据目标动作对拍摄图像进行分类，这样就可以把做同一动作的图像分到一类。然后从这同一动作的拍摄图像中，选出一张最优质的图像进行输出和展示。

例如，在拍摄人像图像的时候，总共拍摄了10图像，检测到10张图像中目标人体的目标动作分别如下：A-A-A-B-B-B-B-C-D-D。那就可以把3张动作为“A”的图像归到一类，把4张动作为“B”的图像归到一类，把1张动作为“C”的图像归到一类，把2张动作为“D”的图像归到一类。

步骤108，针对每一类拍摄图像中每一张拍摄图像，对拍摄图像对应的目标动作进行打分得到动作评分，并对拍摄图像进行质量打分得到质量评分。

再将所有拍摄图像进行分类之后呢，再对每一类拍摄图像中的每一张拍摄图像进行打分，可以从动作和质量两个维度进行评分。一般的，对动作进行评分可以包括动作的幅度、动作的整体和谐度、动作的标准度等维度进行打分，图像的质量就是指图像的曝光度、灰度、饱和度以及包含的噪声量等维度进行打分。

步骤110，根据动作评分和质量评分得到每一张拍摄图像的综合评分。

得到每一张拍摄图像的动作评分和质量评分之后，可以根据动作评分和质量评分得到该拍摄图像的综合评分。例如，可以将动作评分和质量评分进行加权求和，综合评分＝0.5*动作评分+0.5*质量评分。

步骤112，根据综合评分从每一类拍摄图像中确定目标拍摄图像，并输出得到的目标拍摄图像。

得到综合评分之后，可以对每一类拍摄图像中的图像依据综合评分进行排序，然后根据排序结果确定最终的目标拍摄图像。这样输出的目标拍摄图像是经过筛选后确定的，得到综合度最高的一张拍摄图像。

上述基于人工智能的图像拍摄方法，可以连续对摄像头采集的图像进行动作识别，并根据动作识别的结果确定拍摄图像。然后根据目标动作对拍摄图像进行分类，再对分类结果中的每一张图像进行综合评分，根据综合评分输出最终的拍摄图像。这样可以保证拍摄的每一个动作的图像都输出了对应的拍摄图像，又可以保证输出的是综合评分比较满意的图像，无需用户再手动挑选图像，提高了图像拍摄的效率。

在一个实施例中，所述确定每一张所述拍摄图像中所述目标人体的目标动作，根据所述目标动作对采集到的所有拍摄图像进行分类，包括：确定每一张所述拍摄图像中包含的至少一个目标人体和每一个所述目标人体的目标动作；根据所述拍摄图像中包含的目标人体对采集到的所有拍摄图像进行划分，得到第一级分类结果；其中，属于同一第一级分类中包含的所有拍摄图像中包含的目标人体相同；针对各个所述第一级分类结果中的拍摄图像，根据所述拍摄图像中目标人体的目标动作对拍摄图像进行分类，得到第二级分类结果。

具体的，在连续拍摄的过程中，图像中的人物以及人物的动作可能都会随时发生改变。例如刚开始只有一个人入镜，后来有两个人入镜，最后又变成一个人入镜头。这样在筛选图像的时候，就可以先根据出现的人物对图像进行分类，再根据人物的动作来进行分类。再从同一类目标人物的同一套目标动作的图像中选取一张最佳拍摄图像。

在本申请实施例中，所述根据所述动作评分和质量评分得到每一张所述拍摄图像的综合评分，包括：获取第一权重和第二权重；根据所述第一权重和第二权重确定所述动作评分和质量评分的加权和值，得到每一张所述拍摄图像的综合评分。

在对图像进行评分的时候，可以根据不同的拍摄场景和条件，调整不同的评分规则。例如，用户可以手动调节动作评分和质量评分的评分权重，如果希望质量所占的比重更高，就可以将质量评分的权重调得更高。如果希望动作所占的比重更高，就可以将动作评分的权重调得更高，这样在计算综合评分的时候，就会更多的考虑动作的评分。

在本申请实施例中，所述获取第一权重和第二权重，包括：确定各个所述第二级分类结果中拍摄图像中，包含的目标人体的数量以及包含的所有目标人体的总面积，根据所述数量和所述总面积确定该类拍摄图像对应的第二权重；根据所述第二权重以及预先设定的权重和，得到所述第一权重。

在本申请提供的实施例中，可以根据拍摄图像中包含的目标人体的数量和所有目标人体的总面积来确定权重。具体的，可以根据拍摄的目标人体的数量和所有目标人体的总面积，来确定质量评分的第二权重。再根据第二权重和预先定义的权重和，得到第一权重。例如，第一权重＝1-第二权重。

可以理解的是，因为拍摄图像中包含的目标人体的数量越多、总面积约小，拍摄图像中所包含的细节信息越多，所以对拍摄图像的质量要求也越高，那么就可以相应地将质量评分的权重也调高，这样输出的拍摄图像跟准确地符合要求。

在一个实施例中，根据所述综合评分从每一类拍摄图像中确定目标拍摄图像，并输出得到的所述目标拍摄图像，包括：根据所述综合评分将每一类拍摄图像中的图像进行排序，从每一类排序后的拍摄图像中确定综合评分最高的拍摄图像作为所述目标拍摄图像；将所述目标拍摄图像存储到第一图像集中，将所述目标拍摄图像之外的拍摄图像存储到第二图像集中；在预设时长内检测到将所述第二图像集中的图像移动到所述第一图像集的指令时，将所述指令指示的图像移动到所述第一图像集中；所述第二图像集中保存时长超过所述预设时长的图像进行删除操作。

在根据综合评分选出目标拍摄图像之后，可以将选出的目标拍摄图像存储到第一图像集中，将未选中的拍摄图像放到第二图像集中。用户还可以浏览第二图像集中的图像，并手动将第二图像集中的图像移动到第一图像集中。如果超过预设时长(如20天)还未将存放到第二图像集中的拍摄图像移动到第一图像集中，就可以将其删除。

在一个实施例中，对所述摄像头采集的图像中的目标人体进行动作识别，包括：针对所述摄像头采集的图像，通过空间流卷积神经网络提取空间交互性特征，并利用双向长短期记忆神经网络提取全局空间辨别性特征；通过时间流卷积神经网络提取时间交互性特征，通过三维卷积神经网络从所述时间交互性特征中提取全局时间特征，并构建以光流引导的时间注意力模型根据所述全局时间特征计算全局时间辨别性特征；根据所述全局时间辨别性特征进行分类处理得到第一分类结果，根据所述全局空间辨别性特征进行分类处理得到第二分类结果；将所述第一分类结果和所述第二分类结果进行融合得到融合分类结果，根据所述融合分类结果得到对所述目标人体的动作识别结果。

具体的，上述动作识别过程主要是根据连续图像的时间性特征和空间性特征，得到人体动作的动作特征。然后分别通过时间性特征得到的动作识别结果和空间性特征识别得到的动作识别结果，得到最后的动作识别结果。如此得到的动作识别结构，可以综合人体动作的时间性和空间性特征，得到最后的识别结果。

具体的，通过空间流卷积神经网络提取空间交互性特征，包括：

将拍摄图像输入行为显著检测网络模型，得到检测结果，并根据检测结果得到空间交互性特征；

根据拍摄图像和空间交互性特征，构建以掩膜引导的空间注意力模型，得到空间辨别性特征；

通过时间流卷积神经网络提取时间交互性特征，通过三维卷积神经网络从时间交互性特征中提取全局时间特征，并构建以光流引导的时间注意力模型根据全局时间特征计算全局时间辨别性特征，包括：

通过TVNet网络对拍摄图像进行光流计算，得到光流帧；

根据空间注意力权重对得到的光流帧进行加权，得到时间交互性特征；

通过三维卷积神经网络从时间交互性特征中提取全局时间特征；

将全局时间特征输入到以光流引导的时间注意力模型得到时间注意力权重，并通过时间注意力加权将全局时间特征进行加权，得到全局时间辨别性特征；

将第一分类结果和第二分类结果进行融合的方法如下：

S_r＝((1+C₁^2)/(1+C₂^2))*S₁+(1-((1+C₁^2)/(1+C₂^2)))*S₂

其中，S₁表示第一分类结果，S₂表示第二分类结果，S_r表示融合分类结果，C₁和C₂表示融合过程中定义的变量，C₁小于或者等于C₂。

在本申请提供的实施例中，对目标人体进行动作识别的网络结构如图3所示，上述动作识别方法具体可以包括以下步骤：

1)获取连续拍摄图像流中的RGB拍摄图像：获得原始RGB拍摄图像

其中N为帧取样数，f_i表示第i帧。

2)计算光流图：应用TVNet网络对RGB拍摄图像F_RGB两两进行计算得到光流图

o_i表示第i个光流帧。

3)基于Mask R-CNN分割技术训练一个特定的行为显著检测网络模型，以每一个原始拍摄图像F_RGB为输入，生成检测图像

然后修改其输出形式，得到空间交互性特征

4)以原始RGB拍摄图像F_RGB和空间交互性特征M_RGB为输入，构建以掩膜引导的空间注意力模型，计算空间注意力权重W_S,通过注意力加权生成空间辨别性特征K_RGB。

5)将步骤4)中计算得到的空间注意力权重W_S与光流帧F_OPT进行加权，计算时间交互性特征I_OPT。

6)以时间交互性特征I_OPT为输入，使用三维卷积神经网络提取全局时间特征G_OPT。

7)以全局时间特征G_OPT为输入，构建以光流引导的时间注意力模型，计算时间注意力权重W_t,通过注意力加权生成全局时间辨别性特征GK_OPT。

8)将步骤7)中计算得到的时间注意力权重W_t与空间辨别性特征K_RGB进行加权，计算空间交互性特征I_RGB。

9)以空间交互性特征I_RGB为输入，基于双向长短时记忆网络，进一步提取全局空间辨别性特征GK_RGB，再通过全连接层以及Softmax分类计算第一分类结果即空间概率得分S₁。

10)以全局时间辨别性特征GK_OPT为输入，通过全连接层以及Softmax分类计算第二分类结果即时间概率得分S₂。

11)对空间概率得分S₁和时间概率S₂得分进行融合，生成的最终预测结果得分S_r。

上述流程的步骤三中针对检测图像

修改其输出形式，计算局部掩膜特征图

即仅保留被检测出的辨别区域，其余图像区域的像素灰度值置0。计算的过程表现如(公式1)。

其中(p,q)表示位置为(p,q)的像素点的像素值。例如，数据集每个行为都包含不同的物体和人体。通过计算局部掩膜特征图，将每个检测图像的前景和背景分开。

上述流程中RGB图像帧F_RGB和空间交互性特征M_RGB为输入，构建以掩膜引导的空间注意力模型。每一个空间交互性特征m_i通过L-Net网络，每一个RGB图像帧f_i通过G-Net网络。L-Net和G-Net拥有相同的网络结构，但是网络参数彼此之间不共享。这两个网络分别生成相应的特征，表示为F_L，F_G。L-Net和G-Net的执行过程可由以下数学形式表示为(公式2)-(公式5)：

I_i＝Inc(m_i) (公式2)

F_L＝GAP(I_i) (公式3)

G_i＝Inc(f_i) (公式4)

F_G＝GAP(G_i) (公式5)

其中，F_L和F_G分别表示局部特征和全局特征；Inc表示InceptionV3网络；GAP表示全局平均池化，对于一个维度为W×H×C的特征，通过全局平均池化可以得到维度为1×1×C的输出，即获取每个特征通道的全局信息。然后将这两个特征沿通道串联为F，公式中

表示通道串联，获取更丰富的特征表示。

以F作为输入，构建一个空间注意力模型对F进行重新加权，以得到加权特征图，加权的过程可由下列公式描述所得：

W_S1＝γ(FC_S1(GAP(F))) (公式7)

W_S＝σ(FC_S2(W_S1)) (公式8)

K_RGB＝F⊙W_S (公式9)

其中，γ表示ReLU激活函数，σ表示Sigmoid激活函数，FC_S1，FC_S2表示两个全连接层；GAP表示全局平均池化；⊙表示通道级相乘；在经过GAP之后，W_S1的输出大小为

最终权重W_S的输出大小为

将空间注意力权重W_S与原特征F进行加权乘法，有选择性地突出有效特征以及弱化无效特征。

上述流程7)以全局时间特征G_OPT为输入，构建以光流引导的时间注意力模型。时间注意力权重的计算被转换成通道注意力的计算。然后，改变特征图的维度并执行全局平均池化，将全部信息压缩到通道描述符中，这些描述符的统计信息可表示整个视频。这个全局平均池化的过程可表述为：

其中，W，H分别表示宽度和高度，o表示通道数。将压缩后的特征图输入到由两个完全连接层组成的网络中，目的是获得时间上的相互依赖关系。第二个全连接层的大小与所输入的特征图的通道数o一致，将新学习到的权重和原始特征G_OPT之间执行通道级乘法：

W_t1＝γ(FC_t1(F_g')) (公式11)

W_t＝σ(FC_t2(W_t1)) (公式12)

其中，W_t表示时间注意力权重；γ表示ReLU激活函数，σ表示Sigmoid激活函数；FC_t1，FC_t2表示两个全连接层。

上述流程的步骤11)中，将第一分类结果和第二分类结果进行融合的方法如下：

S_r＝(1-C₁^2)*S₁+(1-(1-C₁^2))*S₂ (公式14)

其中，S₁表示第一分类结果，S₂表示第二分类结果，S_r表示融合分类结果，C₁表示融合过程中定义的变量，C₁小于1。C₁可以是根据经验设定的变量，也可以是预先设定好的，在此不做限定。

图3为一个实施例中基于人工智能的图像拍摄装置的结构示意图。如图3所示，该基于人工智能的图像拍摄装置包括：

图像采集模块302，用于在摄像头开启的情况下，对所述摄像头采集的图像中的目标人体进行动作识别；

图像识别模块304，用于将所述摄像头采集的开始拍摄图像和结束拍摄图像之间的图像作为拍摄图像，其中，开始拍摄图像表示所述摄像头采集的包含执行第一动作的目标人体的图像，结束拍摄图像表示所述摄像头采集的包含执行第二动作的目标人体的图像，所述第一动作和所述第二动作不同；

图像分类模块306，用于确定每一张所述拍摄图像中所述目标人体的目标动作，根据所述目标动作对采集到的所有拍摄图像进行分类；

图像评分模块308，用于针对每一类拍摄图像中每一张所述拍摄图像，对所述拍摄图像对应的目标动作进行打分得到动作评分，并对所述拍摄图像进行质量打分得到质量评分；

综合评分模块310，用于根据所述动作评分和质量评分得到每一张所述拍摄图像的综合评分；

图像输出模块312，用于根据所述综合评分从每一类拍摄图像中确定一张目标拍摄图像，并输出得到的所述目标拍摄图像。

上述实施例提供的基于人工智能的图像拍摄装置，可以连续对摄像头采集的图像进行动作识别，并根据动作识别的结果确定拍摄图像。然后根据目标动作对拍摄图像进行分类，再对分类结果中的每一张图像进行综合评分，根据综合评分输出最终的拍摄图像。这样可以保证拍摄的每一个动作的图像都输出了对应的拍摄图像，又可以保证输出的是综合评分比较满意的图像，无需用户再手动挑选图像，提高了图像拍摄的效率。

图4为一个实施例中基于人工智能的图像拍摄硬件组成示意图。可以理解的是，图4仅仅示出了电子设备的简化设计。在实际应用中，电子设备还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出系统、处理器、控制器、存储器等，而所有可以实现本申请实施例的跨云平台的大数据管理方法的电子设备都在本申请的保护范围之内。

存储器包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read至only memory，ROM)、可擦除可编程只读存储器(erasable programmable readonly memory，EPROM)、或便携式只读存储器(compact disc read至only memory，CD至ROM)，该存储器用于相关指令及数据。

输入系统用于输入数据和/或信号，以及输出系统用于输出数据和/或信号。输出系统和输入系统可以是独立的器件，也可以是一个整体的器件。

处理器可以包括是一个或多个处理器，例如包括一个或多个中央处理器(centralprocessing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。处理器还可以包括一个或多个专用处理器，专用处理器可以包括GPU、FPGA等，用于进行加速处理。

存储器用于存储网络设备的程序代码和数据。

处理器用于调用该存储器中的程序代码和数据，执行上述方法实施例中的步骤。具体可参见方法实施例中的描述，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read至onlymemory，ROM)，或随机存储存储器(random access memory，RAM)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质，例如，固态硬盘(solid state disk，SSD)等。

以上上述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于人工智能的图像拍摄方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定每一张所述拍摄图像中所述目标人体的目标动作，根据所述目标动作对采集到的所有拍摄图像进行分类，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述动作评分和质量评分得到每一张所述拍摄图像的综合评分，包括：

获取第一权重和第二权重；

4.根据权利要求3所述的方法，其特征在于，所述获取第一权重和第二权重，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述综合评分从每一类拍摄图像中确定目标拍摄图像，并输出得到的所述目标拍摄图像，包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述摄像头采集的图像中的目标人体进行动作识别，包括：

针对所述摄像头采集的图像，通过空间流卷积神经网络提取所述图像的空间交互性特征，并利用双向长短期记忆神经网络提取全局空间辨别性特征；

通过时间流卷积神经网络提取所述图像的时间交互性特征，通过三维卷积神经网络从所述时间交互性特征中提取全局时间特征，并构建以光流引导的时间注意力模型根据所述全局时间特征计算全局时间辨别性特征；

7.根据权利要求6所述的方法，其特征在于，所述通过空间流卷积神经网络提取空间交互性特征，包括：

通过TVNet网络对所述拍摄图像进行光流计算，得到光流帧；

S_r＝(1-C₁^2)*S₁+(1-(1-C₁^2))*S₂

8.一种基于人工智能的图像拍摄装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现权利要求1至7任一项所述的方法。