CN111277759B

CN111277759B - 构图提示方法、装置、存储介质及电子设备

Info

Publication number: CN111277759B
Application number: CN202010125410.4A
Authority: CN
Inventors: 罗彤; 李亚乾; 蒋燚
Original assignee: Shanghai Jinsheng Communication Technology Co ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Shanghai Jinsheng Communication Technology Co ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2021-08-31
Anticipated expiration: 2040-02-27
Also published as: WO2021169754A1; CN111277759A

Abstract

本申请实施例公开了一种构图提示方法、装置、存储介质及电子设备，通过获取拍摄场景的预览图像，并调用预训练的关键点检测模型对预览图像进行关键点检测，得到拍摄场景中人体的人体关键点；以及将预览图像划分为多个类别区域，并根据类别区域以及人体关键点获取对应拍摄场景的定位点集合，以及确定出对应定位点集合的构图点集合；当定位点集合与构图点集合不匹配时，输出用于指示调整电子设备拍摄姿态的提示信息，相较于相关技术，本申请能够引导用户构图，以提高电子设备拍摄的图像质量。

Description

构图提示方法、装置、存储介质及电子设备

技术领域

本申请涉及图像处理技术领域，具体涉及一种构图提示方法、装置、存储介质及电子设备。

背景技术

目前，人们的生活已离不开智能手机、平板电脑等电子设备，通过这些电子设备所提供的各种各样丰富的功能，使得人们能够随时随地的娱乐、办公等。比如，利用电子设备的拍摄功能，用户可以随时随地的通过电子设备进行拍摄。但是，为了拍摄得到高质量的图像，不仅需要电子设备具有较高的拍摄能力，更需要用户具有一定的专业拍摄技能，比如，以构图为例，作为改善拍摄质量的重要一点，大多数用户通常不能合理的运用构图，导致电子设备拍摄的图像质量较差。

发明内容

本申请实施例提供了一种构图提示方法、装置、存储介质及电子设备，能够提高电子设备拍摄图像的质量。

本申请实施例提供的构图提示方法，包括：

获取拍摄场景的预览图像，并调用预训练的关键点检测模型对所述预览图像进行关键点检测，得到所述拍摄场景中人体的人体关键点；

将所述预览图像划分为多个类别区域，并根据所述类别区域以及所述人体关键点获取对应所述拍摄场景的定位点集合；

确定对应所述定位点集合的构图点集合；

当所述定位点集合与所述构图点集合不匹配时，输出用于指示调整所述电子设备拍摄姿态的提示信息。

本申请实施例提供的构图提示装置，包括：

关键点检测模块，用于获取拍摄场景的预览图像，并调用预训练的关键点检测模型对所述预览图像进行关键点检测，得到所述拍摄场景中人体的人体关键点；

定位点确定模块，用于将所述预览图像划分为多个类别区域，并根据所述类别区域以及所述人体关键点获取对应所述拍摄场景的定位点集合；

构图点确定模块，用于确定对应所述定位点集合的构图点集合；

构图提示模块，用于当所述定位点集合与所述构图点集合不匹配时，输出用于指示调整所述电子设备拍摄姿态的提示信息。

本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序被处理器加载时执行如本申请提供的构图提示方法。

本申请实施例提供的电子设备，包括处理器和存储器，所述存储器存有计算机程序，所述处理器通过加载所述计算机程序，用于执行本申请提供的构图提示方法。

本申请通过获取拍摄场景的预览图像，并调用预训练的关键点检测模型对预览图像进行关键点检测，得到拍摄场景中人体的人体关键点；以及将预览图像划分为多个类别区域，并根据类别区域以及人体关键点获取对应拍摄场景的定位点集合，以及确定出对应定位点集合的构图点集合；当定位点集合与构图点集合不匹配时，输出用于指示调整电子设备拍摄姿态的提示信息，相较于相关技术，本申请能够引导用户构图，以提高电子设备拍摄的图像质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的构图提示方法的流程示意图。

图2是本申请实施例中检测得到的人体关键点的示意图。

图3是本申请实施例中截取人体图像的示意图。

图4是本申请实施例提供的关键点检测模型的结构示意图。

图5是本申请实施例提供的关键点检测模型的细化结构示意图。

图6是本申请实施例中第1个位置分段的结构示意图。

图7是本申请实施例中第2个位置分段的结构示意图。

图8是本申请实施例中输出提示信息的示例图。

图9是本申请实施例提供的构图提示方法的另一流程示意图

图10是本申请实施例提供的构图提示装置的结构示意图。

图11是本申请实施例提供的电子设备的结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是通过所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

本申请实施例提供的方案涉及人工智能的机器学习技术，具体通过如下实施例进行说明:

本申请实施例提供一种模型训练方法、构图提示方法、构图提示装置、人像分割装置、存储介质以及电子设备，其中，该模型训练方法的执行主体可以是本申请实施例中提供的构图提示装置，或者集成了该构图提示装置的电子设备，其中该构图提示装置可以采用硬件或软件的方式实现；该构图提示方法的执行主体可以是本申请实施例中提供的人像分割装置，或者集成了该人像分割装置的电子设备，其中该人像分割装置可以采用硬件或软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器（包括但不限于通用处理器、定制化处理器等）而具有处理能力的设备。

请参照图1，图1为本申请实施例提供的构图提示方法的流程示意图，本申请实施例提供的构图提示方法的流程可以如下：

在101中，获取拍摄场景的预览图像，并调用预训练的关键点检测模型对预览图像进行关键点检测，得到拍摄场景中人体的人体关键点。

拍摄场景为电子设备在启动拍摄类应用程序后摄像头所对准的场景，其可以为任何场景，其中可以包括人和物等。

其中，对于如何启动电子设备的拍摄类应用程序以及何种拍摄类应用程序，本申请中不做具体限制。比如，电子设备可以根据用户操作来启动电子设备的系统应用“相机”，在启动“相机”后，电子设备将通过摄像头实时进行图像采集，此时，其摄像头所对准的场景即为拍摄场景。比如，电子设备可以根据用户对“相机”入口的触摸操作来启动“相机”，还可以根据用户的语音口令“启动相机”来启动“相机”等。本申请提供的构图提示方法可以适用于人像场景的图像拍摄，其中，人像场景即存在人体的拍摄场景。

应当说明的是，预览图像为电子设备通过摄像头对拍摄场景进行图像场景得到，缺省用于展示给用户，以使得用户能够预览图像拍摄的成像效果。

本申请实施例中，电子设备利用实时采集的预览图像来对拍摄场景中的人体进行关键点检测，以检测到前述人体的人体关键点。

其中，电子设备首先获取到拍摄场景的预览图像。应当说明的是，本申请实施例中还采用机器学习方法预先训练有关键点检测模型。其中，该关键点检测模型可以设置在电子设备本地，也可以设置在服务器。此外，本申请中对人像检测模型的构型不做具体限制，可由本领域普通技术人员根据实际需要选择。相应的，电子设备除了获取拍摄场景的预览图像之外，还从本地或服务器调用预训练的关键点检测模型，并将获取到的预览图像输入预训练的关键点检测模型中进行关键点检测，得到拍摄场景中人体的人体关键点。人体关键点用于定位人体的头、颈、肩、肘、手、臀、膝以及脚等部位，头部关键点又可以细分为眼睛、鼻尖、嘴、眉毛以及头部各部件轮廓点等。比如，请参照图2，对于图2左侧所示的人体图像，将其输入到预训练的关键点检测模型进行关键点检测，得到了多个人体关键点，如图2右侧所示。

在102中，将预览图像划分为多个类别区域，并根据类别区域以及人体关键点获取对应拍摄场景的定位点集合。

本申请实施例中，电子设备在获取到拍摄场景的预览图像之后，除了对预览图像进行关键点检测之外，还将预览图像划分为多个类别区域。

示例性的，本申请中还采用机器学习方法预先训练有语义分割模型。其中，该语义分割模型可以设置在电子设备本地，也可以设置在服务器。此外，本申请中对语义分割模型的构型不做具体限制，可由本领域普通技术人员根据实际需要选择。比如，本申请中采用ICNet构型的语义分割模型。

在将预览图像划分为多个类别区域时，电子设备可以从本地或服务器调用预训练的语义分割模型，并将获取到的预览图像输入预训练的语义分割模型中进行语义分割，得到预览图像中每个区域所属的物体类别信息。然后，根据该类别信息，电子设备将预览图像划分为多个类别区域。

然后，电子设备根据划分得到的类别区域以及关键点，按照预设定位点决策策略确定出多个定位点，由确定出的多个定位点构成一个定位点集合。其中，定位点用于代表人体和拍摄场景中其它物体的位置。

在103中，确定对应定位点集合的构图点集合。

其中，电子设备还根据获取到的定位点集合，按照预设构图点决策策略确定出与定位点集合对应的构图点集合。其中，构图点集合中的构图点与定位点集合中的定位点一一对应，当每一定位点均与其对应的构图点匹配时，认为此时能够获得最佳的构图。其中，定位点与构图点匹配包括定位点为构图点的距离小于或等于预设距离，本申请对该预设距离的取值不做具体限定，可由本领域普通技术人员根据实际需要取值。

在104中，当定位点集合与构图点集合不匹配时，输出用于指示调整电子设备拍摄姿态的提示信息。

其中，根据以上定位点和构图点匹配的定义，可由本领域普通技术人员根据实际需要配置定位点集合与构图点集合匹配的约束条件，本申请对此不做具体限制，比如，可以配置为定位点集合中的每一定位点均与其对应的构图点集合中的构图点匹配时，判定定位点集合与构图点集合匹配；又比如，可以配置为定位点集合中预设数量的定位点与其对应对构图点集合中的构图点匹配时，判定定位点集合与构图点集合匹配。

相应的，电子设备实时判定拍摄场景对应的定位点集合与构图点集合是否匹配，若不匹配，则输出用于指示调整电子设备拍摄姿态的提示信息，以使得拍摄场景对应的定位点集合与构图点集合匹配，从而使得拍摄场景中的人和物能够获得较佳的构图。

由上可知，本申请通过获取拍摄场景的预览图像，并调用预训练的关键点检测模型对预览图像进行关键点检测，得到拍摄场景中人体的人体关键点；以及将预览图像划分为多个类别区域，并根据类别区域以及人体关键点获取对应拍摄场景的定位点集合，以及确定出对应定位点集合的构图点集合；当定位点集合与构图点集合不匹配时，输出用于指示调整电子设备拍摄姿态的提示信息；当定位点集合与构图点集合匹配时，对拍摄场景进行拍摄，得到拍摄图像，相较于相关技术，本申请能够引导用户构图，以提高电子设备拍摄的图像质量。

在一实施例中，确定对应定位点集合的构图点集合之后，还包括：

当定位点集合与构图点集合匹配时，对拍摄场景进行拍摄，得到拍摄图像。

当定位点集合与构图点集合匹配时，电子设备判定此时拍摄场景中的人和物具有较佳的构图，即对拍摄场景进行拍摄，从而得到拍摄场景的高质量拍摄图像。

在一实施例中，调用预训练的关键点检测模型对预览图像进行关键点检测，得到拍摄场景中人体的人体关键点，包括：

（1）从预览图像中截取人体的人体图像；

（2）调用关键点检测模型对人体图像进行关键点检测，得到人体关键点。

为提高对预览图像进行关键点检测的检测效率，本申请中并不对完整的预览图像进行关键点检测，而是对预览图像中存在人体的局部进行关键点检测。

其中，电子设备在获取到拍摄场景的预览图像之后，并不直接调用关键点检测模型对该预览图像进行关键点检测，而是先从该预览图像中截取出人体的人体图像，再调用关键点检测模型对截取出的人体图像进行关键点检测，从而得到拍摄场景中人体的人体关键点。

应当说明的是，本申请中对于如何从预览图像中截取人体图像不做限制，可由本领域普通技术人员根据实际需要采用合适的截取方式。

在一实施例中，从预览图像中截取人体的人体图像，包括：

（1）调用预训练的人像检测模型对预览图像进行人像检测，得到对应预览图像的人像边界框；

（2）截取人像边界框中的图像内容，得到人体图像。

应当说明的是，本申请实施例还预先采用机器学习方法训练有人像检测模型，该人像检测模型被配置为以图像为输入，以对应图像的人像边界框为输出，该人像边界框内的图像内容即为图像的人像部分。其中，该人像检测模型可以设置在电子设备本地，也可以设置在服务器，此外，本申请中对人像检测模型的构型不做具体限制，可由本领域普通技术人员根据实际需要选择，比如，本申请中采用Yolo模型或SSD模型作为基础模型，通过机器学习方法训练得到人像检测模型。

相应的，电子设备在从预览图像中截取人体图像时，可以从本地或服务器调用预训练的人像检测模型，并将预览图像输入预训练的人像检测模型中进行人像检测，得到对应预览图像的人像边界框。然后，截取出该人像边界框中的图像内容即可得到人体图像。

比如，请参照图3，预览图像除了存在人像之外，还存在其它物体。将该预览图像输入到人像检测模型中进行人像检测，得到对应预览图像的人像边界框，如图3所示，该人像边界框内仅包括预览图像人像部分。然后，从预览图像中截取出人像边界框中的图像内容即可得到预览图像中的人体图像。

在一实施例中，关键点检测模型包括特征提取网络，双分支网络以及输出网络，双分支网络包括位置分支网络和关系分支网络，调用关键点检测模型对人体图像进行关键点检测，得到人体关键点，包括：

（1）调用特征提取网络提取得到人体图像的图像特征；

（2）调用位置分支网络根据图像特征检测得到候选人体关键点，以及调用关系分支网络根据图像特征检测得到候选人体关键点之间的连接关系；

（3）调用输出网络根据连接关系连接候选人体关键点，并根据人像边界框对连接后的候选人体关键点进行归一化处理，得到人体关键点。

请参照图4，关键点检测模型由三个部分组成，分别为特征提取网络、双分支网络以及输出网络。

特征提取网络可以是任意已知的特征提取网络，比如VGG、MobileNet以及Resnet等，其用途在于对输入的图像进行特征提取，作为后续分支网络的输入。相应的，电子设备首先调用特征提取网络对截取出的人体图像进行特征提取，得到该人体图像的图像特征。

本申请中对关键点检测任务进行了分割，使用双分支网络来实现关键点检测，其中一条分支网络倾向于检测图像中可能存在的人体关键点，记为位置分支网络，另一条分支网络倾向于检测可能存在的人体关键点之间的连接关系，记为关系分支网络。相应的，电子设备在基于特征提取网络提取到的人体图像的图像特征之后，进一步调用位置分支网络根据前述图像特征检测得到可能存在的人体关键点，记为候选人体关键点。示例性的，位置分支网络的输出为heatmap，heatmap是一个height * width * keypoints的三维矩阵，其中，height和width分别表示高和宽，keypints表示候选人体关键点的数量，也就是说，每个候选人体关键点对应一个height * width的矩阵，矩阵中每个位置的值表示该候选人体关键点处于这个位置的可能性，值越大表示该候选人体关键点越有可能处于该位置。比如，可以取heatmap中每个区域中最大值的位置得到对应的候选人体关键点，其中，可以对heatmap进行最大池化，然后将池化前和池化后的heatmap对比，取值相等的位置作为候选人体关键点。

此外，电子设备还调用关系分支网络根据前述图像特征检测得到候选人体关键点之间的连接关系。示例性的，关系分支网络的输出为pafmap，pafmap是一个height * width* （2 * limbs）的三维矩阵，limbs表示肢体的数量（这里的肢体并非侠义的肢体，而是相关联的两个关键点之间的区域，比如，认为左眼和右眼的连接是一个肢体，脖子和左肩的连接是一个肢体）。每个肢体对应一个height * width * 2的矩阵，可以认为是一张2通道的热图，热图的每个位置有2个值，分别为x和y，向量（x,y）表示该位置的肢体方向（x、y都为0时说明该位置没有肢体），表征了候选人体关键点间的连接关系。

在得到候选人体关键点以及候选人体关键点的连接关系之后，即可根据该连接关系对候选人体关键点进行连接，从而得到完整的人体。其中，每次取一个肢体对应的pafmap，连接这个肢体两端的候选人体关键点。两个关键点dj1、dj2（j1、j2表示候选人体关键点类别，比如眼睛、鼻尖、眉毛等）来自同一人体的置信度：

其中P(u)为两关键点之间内插的位置，即：

；

在实际使用中，一般在[0,1]上均匀间隔采样得到u，近似求积分。

为pafmap中

处的值。

根据以上过程，就可以得到两个相邻候选关键点之间可能的连接，即潜在的肢体，从而直接完成人体的连接。

在完成对候选人体关键点的连接之后，电子设备还根据人像边界框对连接后的候选人体关键点进行归一化处理，得到人体关键点。其中，按照如下公式进行归一化处理，

x’=x/w；

y’=y/h；

其中，x和y分别表示一候选人体关键点的横坐标和纵坐标，x’和y’分别表示前述候选人体关键点归一化后得到的人体关键点的横坐标和纵坐标，w表示人像边界框的宽，h表示人像边界框的高。

在一实施例中，位置分支网络包括N个位置分段，关系分支网络包括N个关系分段，调用位置分支网络根据图像特征检测得到候选人体关键点，以及调用关系分支网络根据图像特征检测得到候选人体关键点之间的连接关系，包括：

（1）调用第1个位置分段根据图像特征检测得到第1组候选人体关键点，以及调用第1个关系分段根据图像特征检测得到第1组候选人体关键点之间的连接关系；

（2）融合第1组候选人体关键点、第1组候选人体关键点之间的连接关系以及图像特征得到第1个融合特征，调用第2个位置分段根据第1个融合特征检测得到第2组候选人体关键点，以及调用第2个关系分段根据第1个融合特征检测得到第2组候选人体关键点之间的连接关系；

（3）融合第2组候选人体关键点、第2组候选人体关键点之间的连接关系以及图像特征得到第2个融合特征，以此类推，直至得到第N个位置分段根据第N-1个融合特征检测得到的第N组候选人体关键点，以及调用第N个关系分段根据第N-1个融合特征检测得到第N组候选人体关键点之间的连接关系;

（4）将第N组候选人体关键点作为位置分支网络检测得到的候选人体关键点，以及将N组候选人体关键点之间的连接关系作为关系分支网络检测得到的候选人体关键点之间的连接关系。

应当说明的是，在本申请实施例中，位置分支网络包括N（N为大于2的正整数，可由本领域普通技术人员根据实际需要取值）个位置分段，关系分支网络包括N个关系分段。比如，请参照图5，位置分支网络包括N个位置分段，分别为位置分段1至位置分段N，对应的，关系分支网络包括N个关系分段，分别为关系分段1至关系分段N。其中，位置分段1和关系分段1组成网络分段1，位置分段2和关系分段2组成网络分段2，以此类推，位置分段N和关系分段N组成网络分段N，换言之，本申请实施例中构建的双分支网络可以看做是由多个网络分段组成，比如图5所示的网络分段1至网络分段N，每一网络分段均包括对应的位置分段和关系分段。

以下继续以图5所示的网络结构为例进行说明。

本申请实施例中，电子设备将特征提取网络提取到的图像特征输入网络分段1中的位置分段1进行检测，得到位置分段1输出的第1组候选人体关键点，以及将提取得到的图像特征输入网络分段1中的关系分段1进行检测，得到关系分段1输出的第1组候选人体关键点之间的连接关系；然后，将第1组候选人体关键点（坐标）、第1组候选人体关键点之间的连接关系以及图像特征进行融合，得到第1个融合特征，作为网络分段1的输出；然后，将网络分段1输出的第1个融合特征输入网络分段2中的位置分段2进行检测，得到位置分段2输出的第2组候选人体关键点，以及将网络分段1输出的融合特征输入网络分段2中的关系分段2进行检测，得到关系分段2输出的第2组候选人体关键点之间的连接关系；然后，将第2组候选人体关键点（坐标）、第2组候选人体关键点之间的连接关系以及图像特征进行融合，得到第2个融合特征，作为网络分段2的输出；以此类推，直至获取到网络分段N中的位置分段N根据网络分段N-1输出的第N-1个融合特征所检测得到的第N组候选人体关键点，以及获取到网络分段N中的关系分段N根据网络分段N-1输出的第N-1个融合特征所检测得到的第N组候选人体关键点之间的连接关系；然后，将位置分段N输出的第N组候选人体关键点作为位置分支网络最终输出的候选人体关键点，将关系分段N输出的第N组候选人体关键点之间的连接关系作为关系分支网络最终输出的候选人体关键点之间的连接关系。

在一实施例中，第1个位置分段包括依次连接的多个第一卷积模块和多个第二卷积模块。

应当说明的是，在本申请实施例中，第1个关系分段和第1个位置分段的结构相同，但二者不共享参数，以下以第1个位置分段为例进行说明。

本申请实施例中，第1个位置分段包括依次连接的多个第一卷积模型和多个第二卷积模块，其中，第一卷积模块包括卷积核大小为3*3的卷积单元，第二卷积模块包括卷积核大小为1*1的卷积单元。

应当说明的是，本申请实施例中对构成第1个位置分段的第一卷积模块和第二卷积模块的数量不做具体限制，可由本领域普通技术人员根据实际需要进行配置，比如，本申请实施例中，采用3个第一卷积模块和2个第二卷积模块，如图6所示。

在一实施例中，第2至N个位置分段的结构相同，第2个位置分段包括依次连接的多个第三卷积模块和多个第二卷积模块。

应当说明的是，在本申请实施例中，除了第1个关系分段和第1个位置分段之外，所有的关系分段和所有的位置分段的结构相同，但二者不共享参数，以下以第2个位置分段为例进行说明。

本申请实施例中，第2个位置分段包括依次连接的多个第三卷积模型和多个第二卷积模块，其中，第三卷积模块包括卷积核大小为7*7的卷积单元。

本申请实施例中对构成第2个位置分段的第三卷积模块和第二卷积模块的数量不做具体限制，可由本领域普通技术人员根据实际需要进行配置，比如，本申请实施例中，采用5个第三卷积模块和2个第二卷积模块，如图7所示。

应当说明的是，本申请采用7*7卷积单元的目的在于获得更大的感受野，从而获取更多信息。在其他实施例中，在算力有限的情况下，可以将每个7×7的卷积单元替换为3个3×3的卷积单元，以此来减少处理的数据量。

在一实施例中，根据类别区域以及人体关键点获取对应拍摄场景的定位点集合，包括：

确定每一类别区域的类别中心点，将每一类别区域的类别中心点以及每一人体关键点作为定位点，得到定位点集合。

本申请实施例中，对于预览图像划分得到的每一类别区域，确定每一类别区域的类别中心点，将每一类别区域的类别中心点作为一个定位点，以及将每一人体关键点作为一个定位点，由这些定位点组成定位点集合。

在一实施例中，确定对应定位点集合的构图点集合，包括：

（1）根据定位点集合，确定与预览图像相似度最高的预设构图模板图像；

（2）将预设构图模板图像中每一类别中心点以及每一人体关键点作为构图点，得到构图点集合。

应当说明的是，本申请预先构建有人像构图数据库，该人像构图数据中包括多个预设构图模板图像。

示例性的，按照如下方式构建人像构图数据库：

a，采集构图优秀的图像，数量应当尽可能地多。

b，对于采集得到的每一图像，调用人像检测模型检测得到其对应的人像边界框，并截取人像边界框中的图像内容得到人体图像，然后根据人像边界框调用关键点检测模型检测出人体图像中的人体关键点（具体可参照以上对预览图像的关键点检测过程，此处不再详述）。

c，对于采集得到的每一图像，将其划分为多个类别区域，确定出每一类别区域的类别中心。

d，将采集得到每一图像作为样本，将之前得到的类别中心、人体关键点（坐标）以及人像边界框的宽高比作为样本的特征，进行Q型聚类，每个类别包含多个样本。使用明氏距离衡量样本之间的相似度，使用AGENS层次聚类算法进行聚类，其中，可根据采集到的图像的场景和其中人体的姿态的分布确定聚类类别的数量，比如，场景和姿态比较多变时可设置较多的类别，较单一时设置较少的类别，具体可由本领域普通技术人员根据实际需要进行配置。

e，将位于每一类别中心的图像作为一个预设构图模板图像。

本申请实施例中，在确定对应定位点集合的构图点集合时，电子设备可以将定位点集合（包括预览图像的类别中心点和人体关键点）以及预览图像的人像边界框的宽高比作为预览图像的特征，从人像构图数据中确定出与预览图像相似度（使用明氏距离衡量）最高的预设构图模板图像。然后，将该确定出的该预设构图模板图像的每一类别中心点和每一人体关键点作为构图点，得到构图点集合。

比如，请参照图8，电子设备在可以预览图像中显示构图点集合和定位点集合，如图8所示，构图点集合包括构图点1和构图点2，定位点集合包括与构图点1对应的定位点1以及与构图点2对应的定位点2，并结合定位点1到构图点1的指向箭头以及定位点2到构图点2的指向箭头作为指示调整电子设备拍摄姿态的提示信息，对用户进行构图指导。

在一实施例中，本申请提供的构图提示方法还包括：

（1）将对应同一类别的定位点和构图点组合为数据组，以及将对应同一人体位置的定位点和构图点组合为数据组，得到多个数据组；

（2）计算每一数据组中定位点和构图点的距离，并计算多个数据组的距离和值；

（3）当距离和值小于预设阈值时，判定定位点集合与构图点集合匹配。

本申请实施例中，电子设备将对应同一类别的定位点和构图点组合为数据组，以及将对应同一人体位置的定位点和构图点组合为数据组，由此得到多个数据组。

对于每一数据组，电子设备计算其中定位点和构图点的距离（欧氏距离），并计算多个数据组的距离和值。

然后，电子设备判断计算得到距离和值是否达到预设阈值，若是，则判定定位点集合与构图点集合匹配，否则不匹配。

请参照图9，图9为本申请实施例提供的构图提示方法的流程示意图，本申请实施例提供的构图提示方法的流程可以如下：

在201中，电子设备获取拍摄场景的预览图像，并从预览图像中截取人体图像。

拍摄场景为电子设备在启动拍摄类应用程序后摄像头所对准的场景，其可以为任何场景，其中可以包括人和物等。预览图像为电子设备通过摄像头对拍摄场景进行图像场景得到，缺省用于展示给用户，以使得用户能够预览图像拍摄的成像效果。

其中，电子设备首先获取到拍摄场景的预览图像。应当说明的是，本申请实施例还预先采用机器学习方法训练有人像检测模型，该人像检测模型被配置为以图像为输入，以对应图像的人像边界框为输出，该人像边界框内的图像内容即为图像的人像部分。相应的，电子设备在获取到预览图像之后，可以调用人像检测模型对预览图像进行人像检测，得到对应预览图像的人像边界框。然后，截取出该人像边界框中的图像内容即可得到人体图像。

在202中，电子设备调用预训练的关键点检测模型对人体图像进行关键点检测，得到拍摄场景中人体的人体关键点。

应当说明的是，本申请实施例中还采用机器学习方法预先训练有关键点检测模型。其中，该关键点检测模型可以设置在电子设备本地，也可以设置在服务器。此外，本申请中对人像检测模型的构型不做具体限制，可由本领域普通技术人员根据实际需要选择。相应的，电子设备除了获取拍摄场景的预览图像之外，还从本地或服务器调用预训练的关键点检测模型，并将获取到的预览图像输入预训练的关键点检测模型中进行关键点检测，得到拍摄场景中人体的人体关键点。人体关键点用于定位人体的头、颈、肩、肘、手、臀、膝以及脚等部位，头部关键点又可以细分为眼睛、鼻尖、嘴、眉毛以及头部各部件轮廓点等。比如，请参照图2，对于图2左侧所示的人体图像，将其输入到预训练的关键点检测模型进行关键点检测，得到了多个人体关键点，如图2右侧所示。

在203中，电子设备将预览图像划分为多个类别区域，并确定出每一类别区域的类别中心点。

在204中，电子设备将每一类别中心点以及每一人体关键点作为定位点，得到定位点集合。

在将预览图像划分为多个类别区域时，电子设备可以从本地或服务器调用预训练的语义分割模型，并将获取到的预览图像输入预训练的语义分割模型中进行语义分割，得到预览图像中每个区域所属的物体类别信息。然后，根据该类别信息，电子设备将预览图像划分为多个类别区域，并确定出每一类别区域的类别中心点。

将每一类别区域的类别中心点作为一个定位点，以及将每一人体关键点作为一个定位点，由这些定位点组成定位点集合。

在205中，电子设备根据定位点集合，确定与预览图像相似度最高的预设构图模板图像。

在206中，电子设备将预设构图模板图像中的每一类别中心点以及每一人体关键点作为构图点，得到构图点集合。

其中，构图点集合中的构图点与定位点集合中的定位点一一对应，当每一定位点均与其对应的构图点匹配时，认为此时能够获得最佳的构图。其中，定位点与构图点匹配包括定位点为构图点的距离小于或等于预设距离，本申请对该预设距离的取值不做具体限定，可由本领域普通技术人员根据实际需要取值。

在207中，当定位点集合与构图点集合不匹配时，电子设备输出用于指示调整电子设备拍摄姿态的提示信息。

在208中，当定位点集合与构图点集合匹配时，电子设备对拍摄场景进行拍摄，得到拍摄图像。

在一实施例中，还提供了一种构图提示装置。请参照图10，图10为本申请实施例提供的构图提示装置的结构示意图。其中该构图提示装置应用于电子设备，该构图提示装置包括关键点检测模块301、定位点确定模块302、构图点确定模块303、构图提示模块304以及图像拍摄模块305，如下：

关键点检测模块301，用于获取拍摄场景的预览图像，并调用预训练的关键点检测模型对预览图像进行关键点检测，得到拍摄场景中人体的人体关键点；

定位点确定模块302，用于将预览图像划分为多个类别区域，并根据类别区域以及人体关键点获取对应拍摄场景的定位点集合；

构图点确定模块303，用于确定对应定位点集合的构图点集合；

构图提示模块304，用于当定位点集合与构图点集合不匹配时，输出用于指示调整电子设备拍摄姿态的提示信息。

在一实施例中，本申请提供的构图提示装置还包括图像拍摄模块，用于当定位点集合与构图点集合匹配时，对拍摄场景进行拍摄，得到拍摄图像。

在一实施例中，在调用预训练的关键点检测模型对预览图像进行关键点检测，得到拍摄场景中人体的人体关键点时，关键点检测模块301用于：

从预览图像中截取人体的人体图像；

调用关键点检测模型对人体图像进行关键点检测，得到人体关键点。

在一实施例中，在从预览图像中截取人体的人体图像时，关键点检测模块301用于：

调用预训练的人像检测模型对预览图像进行人像检测，得到对应预览图像的人像边界框；

截取人像边界框中的图像内容，得到人体图像。

在一实施例中，关键点检测模型包括特征提取网络，双分支网络以及输出网络，双分支网络包括位置分支网络和关系分支网络，在调用关键点检测模型对人体图像进行关键点检测，得到人体关键点时，关键点检测模块301用于：

调用特征提取网络提取得到人体图像的图像特征；

调用位置分支网络根据图像特征检测得到候选人体关键点，以及调用关系分支网络根据图像特征检测得到候选人体关键点之间的连接关系；

调用输出网络根据连接关系连接候选人体关键点，并根据人像边界框对连接后的候选人体关键点进行归一化处理，得到人体关键点。

在一实施例中，位置分支网络包括N个位置分段，关系分支网络包括N个关系分段，在调用位置分支网络根据图像特征检测得到候选人体关键点，以及调用关系分支网络根据图像特征检测得到候选人体关键点之间的连接关系时，关键点检测模块301用于：

调用第1个位置分段根据图像特征检测得到第1组候选人体关键点，以及调用第1个关系分段根据图像特征检测得到第1组候选人体关键点之间的连接关系；

融合第1组候选人体关键点、第1组候选人体关键点之间的连接关系以及图像特征得到第1个融合特征，调用第2个位置分段根据第1个融合特征检测得到第2组候选人体关键点，以及调用第2个关系分段根据第1个融合特征检测得到第2组候选人体关键点之间的连接关系；

融合第2组候选人体关键点、第2组候选人体关键点之间的连接关系以及图像特征得到第2个融合特征，以此类推，直至得到第N个位置分段根据第N-1个融合特征检测得到的第N组候选人体关键点，以及调用第N个关系分段根据第N-1个融合特征检测得到第N组候选人体关键点之间的连接关系;

将第N组候选人体关键点作为位置分支网络检测得到的候选人体关键点，以及将N组候选人体关键点之间的连接关系作为关系分支网络检测得到的候选人体关键点之间的连接关系。

在一实施例中，第一卷积模块包括卷积核大小为3*3的卷积单元，第二卷积模块包括卷积核大小为1*1的卷积单元。

在一实施例中，第2-N个位置分段的结构相同，第2个位置分段包括依次连接的多个第三卷积模块和多个第二卷积模块。

在一实施例中，第三卷积模块包括卷积核大小为7*7的卷积单元。

在一实施例中，在根据类别区域以及人体关键点获取对应拍摄场景的定位点集合时，定位点确定模块302用于：

在一实施例中，在确定对应定位点集合的构图点集合时，构图点确定模块303用于：

根据定位点集合，确定与预览图像相似度最高的预设构图模板图像；

将预设构图模板图像中每一类别中心点以及每一人体关键点作为构图点，得到构图点集合。

在一实施例中，本申请提供的构图提示装置还包括判断模块，用于：

将对应同一类别的定位点和构图点组合为数据组，以及将对应同一人体位置的定位点和构图点组合为数据组，得到多个数据组；

计算每一数据组中定位点和构图点的距离，并计算多个数据组的距离和值；

当距离和值小于预设阈值时，判定定位点集合与构图点集合匹配。

应当说明的是，本申请实施例提供的构图提示装置与上文实施例中的构图提示方法属于同一构思，在构图提示装置上可以运行构图提示方法实施例中提供的任一方法，其具体实现过程详见以上实施例，此处不再赘述。

在一实施例中，还提供一种电子设备，请参照图11，电子设备包括处理器401和存储器402。

本申请实施例中的处理器401是通用处理器，比如ARM架构的处理器。

存储器402中存储有计算机程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402中计算机程序的访问，实现如下功能：

获取拍摄场景的预览图像，并调用预训练的关键点检测模型对预览图像进行关键点检测，得到拍摄场景中人体的人体关键点；

将预览图像划分为多个类别区域，并根据类别区域以及人体关键点获取对应拍摄场景的定位点集合；

确定对应定位点集合的构图点集合；

当定位点集合与构图点集合不匹配时，输出用于指示调整电子设备拍摄姿态的提示信息。

在一实施例中，在调用预训练的关键点检测模型对预览图像进行关键点检测，得到拍摄场景中人体的人体关键点时，处理器401用于执行：

从预览图像中截取人体的人体图像；

在一实施例中，在从预览图像中截取人体的人体图像时，处理器401用于执行：

截取人像边界框中的图像内容，得到人体图像。

在一实施例中，关键点检测模型包括特征提取网络，双分支网络以及输出网络，双分支网络包括位置分支网络和关系分支网络，在调用关键点检测模型对人体图像进行关键点检测，得到人体关键点时，处理器401用于执行：

调用特征提取网络提取得到人体图像的图像特征；

在一实施例中，位置分支网络包括N个位置分段，关系分支网络包括N个关系分段，在调用位置分支网络根据图像特征检测得到候选人体关键点，以及调用关系分支网络根据图像特征检测得到候选人体关键点之间的连接关系时，处理器401用于执行：

在一实施例中，在根据类别区域以及人体关键点获取对应拍摄场景的定位点集合时，处理器401用于执行：

在一实施例中，在确定对应定位点集合的构图点集合时，处理器401用于执行：

在一实施例中，处理器401还用于执行：

应当说明的是，本申请实施例提供的电子设备与上文实施例中的构图提示方法属于同一构思，在电子设备上可以运行构图提示方法实施例中提供的任一方法，其具体实现过程详见构图提示方法实施例，此处不再赘述。

需要说明的是，对本申请实施例的构图提示方法而言，本领域普通技术人员可以理解实现本申请实施例的构图提示方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器执行，在执行过程中可包括如构图提示方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种构图提示方法、模型训练方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种构图提示方法，其特征在于，关键点检测模型包括特征提取网络，双分支网络以及输出网络，所述双分支网络包括位置分支网络和关系分支网络，所述位置分支网络包括N个位置分段，所述关系分支网络包括N个关系分段，所述构图提示方法包括：

获取拍摄场景的预览图像，并调用预训练的人像检测模型对所述预览图像进行人像检测，得到对应所述预览图像的人像边界框，以及截取所述人像边界框中的图像内容，得到所述拍摄场景中人体的人体图像；

调用所述特征提取网络提取得到所述人体图像的图像特征；

调用第1个位置分段根据所述图像特征检测得到第1组候选人体关键点，以及调用第1个关系分段根据所述图像特征检测得到所述第1组候选人体关键点之间的连接关系；以及融合所述第1组候选人体关键点、所述第1组候选人体关键点之间的连接关系以及所述图像特征得到第1个融合特征，调用第2个位置分段根据所述第1个融合特征检测得到第2组候选人体关键点，以及调用第2个关系分段根据所述第1个融合特征检测得到所述第2组候选人体关键点之间的连接关系；以及融合所述第2组候选人体关键点、所述第2组候选人体关键点之间的连接关系以及所述图像特征得到第2个融合特征，以此类推，直至得到第N个位置分段根据第N-1个融合特征检测得到的第N组候选人体关键点，以及调用第N个关系分段根据第N-1个融合特征检测得到所述第N组候选人体关键点之间的连接关系；以及将所述第N组候选人体关键点作为所述位置分支网络检测得到的候选人体关键点，以及将所述第N组候选人体关键点之间的连接关系作为所述关系分支网络检测得到的所述候选人体关键点之间的连接关系；

调用所述输出网络根据所述连接关系连接所述候选人体关键点，并根据所述人像边界框对连接后的候选人体关键点进行归一化处理，得到所述拍摄场景中人体的人体关键点；

确定对应所述定位点集合的构图点集合，所述构图点集合中的构图点与所述定位点集合中的定位点一一对应；

当所述定位点集合与所述构图点集合不匹配时，输出用于指示调整电子设备拍摄姿态的提示信息。

2.根据权利要求1所述的构图提示方法，其特征在于，所述第1个位置分段包括依次连接的多个第一卷积模块和多个第二卷积模块，所述第一卷积模块包括卷积核大小为3*3的卷积单元，所述第二卷积模块包括卷积核大小为1*1的卷积单元。

3.根据权利要求2所述的构图提示方法，其特征在于，第2-N个位置分段的结构相同，所述第2个位置分段包括依次连接的多个第三卷积模块和多个所述第二卷积模块。

4.根据权利要求3所述的构图提示方法，其特征在于，所述第三卷积模块包括卷积核大小为7*7的卷积单元。

5.根据权利要求1-4任一项所述的构图提示方法，其特征在于，所述确定对应所述定位点集合的构图点集合之后，还包括：

当所述定位点集合与所述构图点集合匹配时，对所述拍摄场景进行拍摄，得到拍摄图像。

6.根据权利要求1-4任一项所述的构图提示方法，其特征在于，所述根据所述类别区域以及所述人体关键点获取对应所述拍摄场景的定位点集合，包括：

确定每一类别区域的类别中心点，将每一类别区域的类别中心点以及每一人体关键点作为所述定位点，得到所述定位点集合。

7.根据权利要求6所述的构图提示方法，其特征在于，所述确定对应所述定位点集合的构图点集合，包括：

根据所述定位点集合，确定与所述预览图像相似度最高的预设构图模板图像；

将所述预设构图模板图像中每一类别中心点以及每一人体关键点作为所述构图点，得到所述构图点集合。

8.根据权利要求7所述的构图提示方法，其特征在于，还包括：

当所述距离和值小于预设阈值时，判定所述定位点集合与所述构图点集合匹配。

9.一种构图提示装置，其特征在于，关键点检测模型包括特征提取网络，双分支网络以及输出网络，所述双分支网络包括位置分支网络和关系分支网络，所述位置分支网络包括N个位置分段，所述关系分支网络包括N个关系分段，所述构图提示装置包括：

关键点检测模块，用于获取拍摄场景的预览图像，并调用预训练的人像检测模型对所述预览图像进行人像检测，得到对应所述预览图像的人像边界框，以及截取所述人像边界框中的图像内容，得到所述拍摄场景中人体的人体图像；以及调用所述特征提取网络提取得到所述人体图像的图像特征；以及调用第1个位置分段根据所述图像特征检测得到第1组候选人体关键点，以及调用第1个关系分段根据所述图像特征检测得到所述第1组候选人体关键点之间的连接关系；以及融合所述第1组候选人体关键点、所述第1组候选人体关键点之间的连接关系以及所述图像特征得到第1个融合特征，调用第2个位置分段根据所述第1个融合特征检测得到第2组候选人体关键点，以及调用第2个关系分段根据所述第1个融合特征检测得到所述第2组候选人体关键点之间的连接关系；以及融合所述第2组候选人体关键点、所述第2组候选人体关键点之间的连接关系以及所述图像特征得到第2个融合特征，以此类推，直至得到第N个位置分段根据第N-1个融合特征检测得到的第N组候选人体关键点，以及调用第N个关系分段根据第N-1个融合特征检测得到所述第N组候选人体关键点之间的连接关系；以及将所述第N组候选人体关键点作为所述位置分支网络检测得到的候选人体关键点，以及将所述第N组候选人体关键点之间的连接关系作为所述关系分支网络检测得到的所述候选人体关键点之间的连接关系；以及调用所述输出网络根据所述连接关系连接所述候选人体关键点，并根据所述人像边界框对连接后的候选人体关键点进行归一化处理，得到所述拍摄场景中人体的人体关键点；

构图点确定模块，用于确定对应所述定位点集合的构图点集合，所述构图点集合中的构图点与所述定位点集合中的定位点一一对应；

构图提示模块，用于当所述定位点集合与所述构图点集合不匹配时，输出用于指示调整电子设备拍摄姿态的提示信息。

10.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器加载时执行如权利要求1至8任一项所述的构图提示方法。

11.一种电子设备，包括处理器和存储器，所述存储器储存有计算机程序，其特征在于，所述处理器通过加载所述计算机程序，用于执行如权利要求1至8任一项所述的构图提示方法。