CN113723168A

CN113723168A - 一种基于人工智能的主体识别方法、相关装置及存储介质

Info

Publication number: CN113723168A
Application number: CN202110383066.3A
Authority: CN
Inventors: 张韵璇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-11-30

Abstract

本申请公开了一种基于人工智能的主体识别方法，可用于云安全领域。本申请包括：获取待识别图像；对待识别图像进行区域识别处理，得到N个候选区域，并且对待识别图像进行特征提取处理，得到目标特征图；根据目标特征图以及N个候选区域，获取N个候选区域中每个候选区域所对应的主体分值；根据每个候选区域所对应的主体分值，从N个候选区域中确定目标候选区域，并将目标候选区域所对应的候选主体作为待识别图像中的目标主体，目标候选区域对应于最大的主体分值。本申请还提供了相关装置及存储介质。本申请能够达到自动处理图像的目的，不仅降低了时间成本和人力成本，而且基于主体分值选择出来的主体具有较高的准确性，可满足规模化需求。

Description

一种基于人工智能的主体识别方法、相关装置及存储介质

技术领域

本申请涉及云计算技术领域，尤其涉及一种基于人工智能的主体识别方法、相关装置及存储介质。

背景技术

随着信息时代的发展，越来越多的人们享受着多媒体信息时代带来的便捷，对于有些多媒体信息而言，还需要进行二次处理。其中，在图像处理领域中，对于图像的剪裁是必不可少的环节，而图像剪裁通常是指从图像中剪裁出重要的区域。

考虑到图像的尺寸具有多样性，例如，有些图像是1比1的尺寸，有些图像是4比3的尺寸，有些图像又是3比4的尺寸，目前，如果需要从这些图像中剪裁出重要区域，则主要依赖于人工操作的方式，即相关人员通过专业软件对图像进行剪裁。

然而，由于图像内容往往具有多样性和场景复杂性的特点，在图像处理量较大的情况下，采用人工处理的方式不仅会消耗大量的时间成本以及人力成本，而且容易出现图像主体选择不当的情况，难以满足规模化需求。

发明内容

本申请实施例提供了一种基于人工智能的主体识别方法、相关装置及存储介质，能够达到自动处理图像的目的，不仅降低了时间成本和人力成本，而且基于主体分值选择出来的主体具有较高的准确性，能够满足规模化需求。

有鉴于此，本申请一方面提供一种基于人工智能的主体识别方法，包括：

获取待识别图像；

对待识别图像进行区域识别处理，得到N个候选区域，并且对待识别图像进行特征提取处理，得到目标特征图，其中，每个候选区域对应于一个候选主体，所述目标特征图为经过至少两个特征图拼接后得到的，N为大于或等于1的整数；

根据目标特征图以及N个候选区域，获取N个候选区域中每个候选区域所对应的主体分值；

根据每个候选区域所对应的主体分值，从N个候选区域中确定目标候选区域，并将目标候选区域所对应的候选主体作为待识别图像中的目标主体，其中，目标候选区域对应于最大的主体分值。

本申请另一方面提供一种主体识别装置，包括：

获取模块，用于获取待识别图像；

处理模块，用于对待识别图像进行区域识别处理，得到N个候选区域，并且对待识别图像进行特征提取处理，得到目标特征图，其中，每个候选区域对应于一个候选主体，所述目标特征图为经过至少两个特征图拼接后得到的，N为大于或等于1的整数；

获取模块，还用于根据目标特征图以及N个候选区域，获取N个候选区域中每个候选区域所对应的主体分值；

确定模块，用于根据每个候选区域所对应的主体分值，从N个候选区域中确定目标候选区域，并将目标候选区域所对应的候选主体作为待识别图像中的目标主体，其中，目标候选区域对应于最大的主体分值。

在一种可能的设计中，在本申请实施例的另一方面的第一种实现方式中，

处理模块，具体用于基于待识别图像，通过人脸检测网络获取N个候选区域，其中，每个候选区域所对应的候选主体为人脸；

或者，

基于待识别图像，通过人体检测网络获取N个候选区域，其中，每个候选区域所对应的候选主体为人体。

处理模块，具体用于基于待识别图像，通过特征提取网络所包括的第一网络获取显著性特征图，其中，显著性特征图对应于1个通道；

基于待识别图像，通过特征提取网络所包括的第二网络获取深度语义嵌入图，其中，深度语义嵌入图对应于C个通道，C为大于1的整数；

对显著性特征图以及深度语义嵌入图进行拼接处理，得到目标特征图，其中，目标特征图包括(C+1)个通道。

基于待识别图像，通过特征提取网络所包括的第三网络获取模糊度特征图，其中，模糊度特征图对应于1个通道；

对显著性特征图、深度语义嵌入图以及模糊度特征图进行拼接处理，得到目标特征图，其中，目标特征图包括(C+2)个通道。

获取模块，具体用于将N个候选区域中的每个候选区域与目标特征图进行匹配处理，得到N个空间特征图，其中，空间特征图与候选区域具有一一对应关系；

针对于N个候选区域中的每个候选区域，基于每个候选区域所对应的空间特征图，通过主体选择网络所包括的第一卷积网络获取第一图像特征；

针对于N个候选区域中的每个候选区域，基于每个候选区域所对应的空间特征图，通过主体选择网络所包括的第二卷积网络获取第二图像特征；

针对于N个候选区域中的每个候选区域，对每个候选区域所对应的第一图像特征以及第二图像特征进行拼接处理，得到每个候选区域所对应的综合图像特征；

基于每个候选区域所对应的综合图像特征，通过主体选择网络所包括的全连接层，获取每个候选区域所对应的主体分值。

在一种可能的设计中，在本申请实施例的另一方面的第一种实现方式中，主体识别装置还包括更新模块；

获取模块，还用于获取待训练图像样本，其中，待训练图像样本包括第一标注区域以及第二标注区域，第一标注区域对应于第一标注分值，第二标注区域对应于第二标注分值；

处理模块，还用于对待训练图像样本进行特征提取处理，得到待训练图像样本的目标特征图；

处理模块，还用于将第一标注区域与目标特征图进行匹配处理，得到第一空间特征图，并且将第二标注区域与目标特征图进行匹配处理，得到第二空间特征图；

获取模块，还用于基于第一空间特征图，通过待训练主体选择网络所包括的第一卷积网络获取第一预测图像特征，并且基于第二空间特征图，通过待训练主体选择网络所包括的第二卷积网络获取第二预测图像特征；

获取模块，还用于基于第一标注区域，通过待训练主体选择网络所包括的第二卷积网络获取第三预测图像特征，并且基于第二标注区域，通过待训练主体选择网络所包括的第二卷积网络获取第四预测图像特征；

处理模块，还用于对第一候选区域所对应的第一预测图像特征以及第三预测图像特征进行拼接处理，得到第一候选区域所对应的第一综合图像特征，并且对第二候选区域所对应的第二预测图像特征以及第四预测图像特征进行拼接处理，得到第二候选区域所对应的第二综合图像特征；

获取模块，还用于基于第一综合图像特征，通过待训练主体选择网络所包括的全连接层，获取第一候选区域所对应的第一预测主体分值，并且基于第二综合图像特征，通过待训练主体选择网络所包括的全连接层，获取第二候选区域所对应的第二预测主体分值；

更新模块，用于根据第一预测主体分值、第二预测主体分值、第一标注分值以及第二标注分值，对待训练主体选择网络进行模型参数更新，直至满足模型训练条件，输出主体选择网络。

获取模块，具体用于针对于N个候选区域中的每个候选区域，从目标特征图中剪裁得到每个候选区域所对应的特征图；

对每个候选区域所对应的特征图进行全局平均池化处理，得到每个候选区域所对应的区域特征，其中，区域特征包括M个特征值，M为大于1的整数；

根据每个候选区域所对应的区域特征，确定每个候选区域所对应的主体分值。

获取模块，具体用于根据每个候选区域所对应的区域特征，确定每个候选区域所对应的特征平均值，其中，特征平均值为区域特征中M个特征值的平均值；

针对于N个候选区域中的每个候选区域，将候选区域的特征平均值作为候选区域的主体分值；

或者，

获取模块，具体用于根据每个候选区域所对应的第一区域特征以及第一区域权重，确定每个候选区域所对应的第一特征平均值；

根据每个候选区域所对应的第二区域特征以及第二区域权重，确定每个候选区域所对应的第二特征平均值，其中，第二区域权重大于第一区域权重；

根据每个候选区域所对应的第一特征平均值以及第二特征平均值，确定每个候选区域所对应的目标平均值；

针对于N个候选区域中的每个候选区域，将候选区域的目标平均值作为候选区域的主体分值。

基于每个候选区域所对应的区域特征，通过多层感知机获取每个候选区域所对应的所对应的主体分值。

处理模块，还用于从待训练图像样本的目标特征图中剪裁得到第一标注区域所对应的特征图，以及第二标注区域所对应的特征图；

处理模块，还用于对第一标注区域所对应的特征图进行全局平均池化处理，得到第一标注区域所对应的区域特征；

处理模块，还用于对第二标注区域所对应的特征图进行全局平均池化处理，得到第二标注区域所对应的区域特征；

获取模块，还用于基于第一标注区域所对应的区域特征，通过待训练多层感知机获取第一标注区域所对应的第一预测主体分值；

获取模块，还用于基于第二标注区域所对应的区域特征，通过待训练多层感知机获取第二标注区域所对应的第二预测主体分值；

更新模块，还用于根据第一预测主体分值、第二预测主体分值、第一标注分值以及第二标注分值，对待训练多层感知机进行模型参数更新，直至满足模型训练条件，输出多层感知机。

获取模块，具体用于对待处理视频进行分帧处理，得到K个视频帧，其中，K为大于1的整数；

针对于K个视频帧中的每个视频帧，获取亮度、清晰度以及色彩单一度；

根据每个视频帧的亮度以及亮度阈值，每个视频帧的清晰度以及清晰度阈值，以及每个视频帧的色彩单一度以及色彩单一度阈值，对K个视频帧进行帧过滤处理，得到L个视频帧，其中，L为大于或等于1，且小于L的整数；

从L个视频帧中选择一个视频帧作为待识别图像；

获取模块，还用于根据每个候选区域所对应的主体分值，从N个候选区域中确定目标候选区域，并将目标候选区域所对应的候选主体作为待识别图像中的目标主体之后，根据目标候选区域，从待识别图像中剪裁出目标图像，其中，目标图像对应于目标尺寸，且目标图像包括目标候选区域；

确定模块，还用于将目标图像作为待处理视频的视频封面。

获取模块，具体用于根据每个候选区域所对应的主体分值，从N个候选区域中确定次级候选区域，其中，次级候选区域对应于次大的主体分值；

若次级候选区域所对应的主体分值大于或等于主体分值阈值，则获取次级候选区域的中心在待识别图像中的第一位置坐标，并获取目标候选区域的中心在待识别图像中的第二位置坐标；

根据第一位置坐标以及第二位置坐标，确定区域距离；

若区域距离小于或等于目标尺寸所对应的距离阈值，则根据目标候选区域以及次级候选区域，从待识别图像中剪裁出目标图像，其中，目标图像还包括次级候选区域。

本申请另一方面提供一种计算机设备，包括：存储器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种基于人工智能的主体识别方法，首先获取待识别图像，然后对待识别图像进行区域识别处理，得到N个候选区域，每个候选区域对应于一个候选主体。此外，还需要对待识别图像进行特征提取处理，得到目标特征图，再根据目标特征图以及N个候选区域，获取N个候选区域中每个候选区域所对应的主体分值，最后根据每个候选区域所对应的主体分值，从N个候选区域中确定目标候选区域，并将目标候选区域所对应的候选主体作为待识别图像中的目标主体，该目标候选区域对应于最大的主体分值。通过上述方式，先识别出若干个候选区域，然后自动计算每个候选区域的主体分值，最后将主体分值最高的候选区域作为目标候选区域，即该目标候选区域内的候选主体为图像中的主体，而其他候选区域内的候选主体为图像中的次主体。由此，达到自动处理图像的目的，不仅降低了时间成本和人力成本，而且基于主体分值选择出来的主体具有较高的准确性，能够满足规模化需求。

附图说明

图1为本申请实施例中主体识别系统的一个架构示意图；

图2为本申请实施例中图像画面尺寸的一个对比示意图；

图3为本申请实施例中主体识别方法的一个实施例示意图；

图4为本申请实施例中从待识别图像中识别出人脸区域的一个示意图；

图5为本申请实施例中从待识别图像中识别出人体区域的一个示意图；

图6为本申请实施例中基于两类特征图生成目标特征图的一个示意图；

图7为本申请实施例中基于三类特征图生成目标特征图的另一个示意图；

图8为本申请实施例中排序主体选择模型的一个预测流程示意图；

图9为本申请实施例中排序主体选择模型的一个训练流程示意图；

图10为本申请实施例中实现智能图像剪裁的一个流程示意图；

图11为本申请实施例中基于主体识别方法进行样例分析所得到的效果对比示意图；

图12为本申请实施例中主体识别装置的一个示意图；

图13为本申请实施例中终端设备的一个结构示意图；

图14为本申请实施例中服务器的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图像主体识别能检测出主体在图像中的坐标位置，可使用并进一步裁剪出主体区域，配合图像识别接口提升识别精度。广泛适用于智能剪裁、智能美图以及智能辅助识图等场景中。下面将结合上述场景介绍主体识别的方法。

场景一，智能剪裁；

随着移动端短视频消费场景的兴起，越来越多的竖版视频占据了用户大量的视频内容消费时长，视频平台也在努力构建竖版视频社区，而竖版视频的供应仍然短缺，且缺乏优质的存量素材，竖版视频的供货来源是视频平台竖版视频场景的重要瓶颈。在长视频的业务场景中，海量的优质版权内容也是视频平台的核心竞争力之一，因此，利用已有的优质资源生产竖版的视频内容具有巨大的商业价值。本申请提供的主体识别方法，从视频中的某个关键帧中识别出主体和次主体，优先将主体作为生成视频封面图的依据，由此能够自动为不同尺寸的视频生成封面图，给视频展示提供素材，满足差异化的需求。

场景二，智能美图；

根据用户上传照片进行主体检测，实现图像裁剪或背景虚化等功能，可应用于具有美图功能的应用程序。

场景三，智能辅助识图；

可使用图像主体检测裁剪出图像主体区域，配合图像识别提升识别精度。

为了在上述场景中提升主体识别的准确性，本申请提出了一种基于人工智能的主体识别方法，该方法应用于图1所示的主体识别系统，如图所示，主体识别系统包括服务器和终端设备。本申请涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。服务器和终端设备的数量也不做限制。基于图1所示的主体识别系统，可支持离线主体识别以及在线主体识别，下面将分别介绍离线主体识别和在线主体识别的方式。

一、离线主体识别；

主体识别系统包括终端设备。首先终端设备获取待识别图像，再对待识别图像进行区域识别处理，得到N个候选区域。此外，还需要对待识别图像进行特征提取处理，得到目标特征图。然后根据目标特征图以及N个候选区域，获取N个候选区域中每个候选区域所对应的主体分值，最后将主体分值最大值所对应的候选区域作为目标候选区域。其中，该目标候选区域内的候选主体即为选择出来的目标主体。终端设备在待识别图像上突出显示目标候选区域。

二、在线主体识别；

主体识别系统包括终端设备和服务器。首先终端设备获取待识别图像，然后将待识别图像发送至服务器，由服务器对待识别图像进行区域识别处理，得到N个候选区域。此外，服务器还需要对待识别图像进行特征提取处理，得到目标特征图。然后服务器根据目标特征图以及N个候选区域，获取N个候选区域中每个候选区域所对应的主体分值，最后服务器将主体分值最大值所对应的候选区域作为目标候选区域。其中，该目标候选区域内的候选主体即为选择出来的目标主体。服务器向终端设备发送主体识别结果，由终端设备根据主体识别结果，在待识别图像上突出显示目标候选区域。

由此可见，本申请需要对待识别图像进行区域识别处理，特征提取处理以及主体分值计算等。这些处理涉及到基于人工智能(Artificial Intelligence，AI)的计算机视觉(Computer Vision，CV)技术以及机器学习(Machine Learning，ML)技术等。其中，CV是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，CV研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。CV技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

而ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。ML是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。ML和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

综上，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，AI是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。AI基础技术一般包括如传感器、专用AI芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。AI软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

由前述介绍可知，主体识别方法可应用于多种场景，此外，还能对不同尺寸的图像画面进行主体识别，无论是图像展示还是视频播放上，都能够达到较好的效果。为了便于理解，请参阅图2，图2为本申请实施例中图像画面尺寸的一个对比示意图，如图2中(A)图所示，以竖屏播放视频或展示图像为例，终端设备的横竖比例为16比9，假设通过主体识别确定主体为黑色的人物，因此，在终端设备上显示该黑色的人物。如图2中(B)图所示，以横屏播放视频或展示图像为例，终端设备的横竖比例为9比16，假设通过主体识别确定主体为黑色的人物，因此，在终端设备上显示该黑色的人物。

结合上述介绍，下面将对本申请中基于人工智能的主体识别方法进行介绍，请参阅图3，本申请实施例中基于人工智能的主体识别方法一个实施例包括：

101、获取待识别图像；

本实施例中，主体识别装置获取待识别图像，其中，待识别图像可以是一张照片，或者是一幅画，又或者是视频中的一帧，此处不做限定。

需要说明的是，本申请涉及的主体识别装置可部署于终端设备，或者，可部署于服务器，又或者，部署于由终端设备和服务器共同构成的主体识别系统，此处不做限定。

102、对待识别图像进行区域识别处理，得到N个候选区域，并且对待识别图像进行特征提取处理，得到目标特征图，其中，每个候选区域对应于一个候选主体，所述目标特征图为经过至少两个特征图拼接后得到的，N为大于或等于1的整数；

本实施例中，主体识别装置可对待识别图像进行区域识别处理，由此识别出待识别图像中的N个候选区域，其中，每个候选区域内包括一个候选主体，候选主体包含但不仅限人脸、人体、动物(例如，猫或狗等)、建筑、植物以及其他物体(例如，杯子、眼镜或者茶壶等)。此外，主体识别装置还需要提取待识别图像的图像特征，即得到目标特征图，其中，目标特征图为经过至少两个特征图拼接后得到的，不同的特征图能够体现不同的图像特征，例如，体现出图像的颜色特征、纹理特征、形状特征以及空间特征等。

具体地，在实际应用中，可采用经过训练的网络模型对待识别图像进行区域识别处理，可以理解的是，网络模型包含但不仅限于区域卷积神经网络(regions withconvolutional neural network，R-CNN)，快速的R-CNN(Fast R-CNN)，更快的R-CNN(Faster R-CNN)，你只看一次(you only look once，YOLO)模型以及单次检测器(singleshot multibox detector，SSD)等。

103、根据目标特征图以及N个候选区域，获取N个候选区域中每个候选区域所对应的主体分值；

本实施例中，假设待识别图像的尺寸为512*512*3，且假设经过特征提取后得到的目标特征图尺寸为16*16*512，由于图像尺寸发生了变化，因此，需要将候选区域映射到目标特征图上。可以理解的是，本申请可采用感兴趣区域池化(region of interestpooling，ROI Pooling)，或者，感兴趣区域校准(region of interest pooling align，ROIAlign)，或者，感兴趣区域扭曲层(region of interest warping layer，ROI WarpingLayer)等方法，实现候选区域的映射。

具体地，根据每个候选区域的映射结果能够进一步确定其对应的主体分值。例如，将每个映射结果的特征值进行求和处理，将求和的结果作为主体分值。又例如，将每个候选区域的特征值输入至训练好的深度神经网络，由深度神经网络预测其对应的主体分值。还可以采用其他方式确定候选区域所对应的主体分值。

104、根据每个候选区域所对应的主体分值，从N个候选区域中确定目标候选区域，并将目标候选区域所对应的候选主体作为待识别图像中的目标主体，其中，目标候选区域对应于最大的主体分值。

本实施例中，主体识别装置按照从高到低的顺序，对N个候选区域的主体分值进行排序，并将主体分值最大值所对应的候选区域作为目标候选区域，该目标候选区域内所包括的候选主体即为待识别图像中的目标主体，而且其他候选区域内所包括的候选主体均为待设备图像中的次主体。

本申请实施例中，提供了一种基于人工智能的主体识别方法，通过上述方式，先识别出若干个候选区域，然后自动计算每个候选区域的主体分值，最后将主体分值最高的候选区域作为目标候选区域，即该目标候选区域内的候选主体为图像中的主体，而其他候选区域内的候选主体为图像中的次主体。由此，达到自动处理图像的目的，不仅降低了时间成本和人力成本，而且基于主体分值选择出来的主体具有较高的准确性，能够满足规模化需求。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，对待识别图像进行区域识别处理，得到N个候选区域，具体可以包括：

基于待识别图像，通过人脸检测网络获取N个候选区域，其中，每个候选区域所对应的候选主体为人脸；

或者，

本实施例中，介绍了一种将人脸或人体所在区域作为候选区域的检测方式。由前述实施例可知，以图像剪裁场景为例，在从横版图像到竖版图像的剪裁过程中，必然会造成部分画面信息的损失，为了使得这种损失能够最低，在图像智能剪裁过程中需要识别出画面中的主体，以主体作为剪裁区域的中心，从而生产出有意义且具有大部分画面信息的竖版图片。而由于人物是大多数图像(或视频)的主要展现内容，因此，本申请将人物定位作为任务中的主体目标，可以理解的是，在实际应用中，还可以根据情况灵活调整主体的类型，此处仅为一个示意，不应理解为对本申请的限定。

示例性地，以人脸检测为例，为了便于理解，请参阅图4，图4为本申请实施例中从待识别图像中识别出人脸区域的一个示意图，如图所示，图中黑色框圈出的区域即为识别得到的人脸区域。本申请可采用开源的双镜头人脸检测器(dual shot face detector，DSFD)作为人脸检测网络，由此发现待识别图像中的人脸区域。DSFD具有特征增强模块(Feature Enhance Module，FEM)，能够在宽度和深度上学习到更多有效的内容和语义学习，以此增强特征的判别性和鲁棒性。DSFD还采用渐进锚损失函数(Progressive AnchorLoss，PAL)，用于辅助特征学习，在训练过程中对整个模型形成了更有效的监督。DSFD还采用改进的锚点匹配策略(Improved Anchor Matching Strategy)，用于让锚和真实的人脸尽可能匹配。

示例性地，以人体检测为例，为了便于理解，请参阅图5，图5为本申请实施例中从待识别图像中识别出人体区域的一个示意图，如图所示，图中黑色框圈出的区域即为识别得到的人体区域。本申请可采用自由锚点(Free Anchor)，通过修改损失函数去除人工参与指定锚点的过程，使网络模型能够自主学习选择哪个锚点和真实物体进行匹配。

在竖版图像中，保持完整的人脸比完整的人体更容易实现也更加重要，所以在实际应用中，更倾向于使用脸部检测器作为的主要检测器。

其次，本申请实施例中，提供了一种将人脸或人体所在区域作为候选区域的检测方式，通过上述方式，利用训练好的检测网络模型能够自动识别出图像中出现的人脸或者人体等对象，从而实现自动化检测的功能，无需人工参与，由此提升检测的效率，并节省了时间和人力成本。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，对待识别图像进行特征提取处理，得到目标特征图，具体可以包括：

基于待识别图像，通过特征提取网络所包括的第一网络获取显著性特征图，其中，显著性特征图对应于1个通道；

本实施例中，介绍了一种提取两类特征图作为目标特征图的方式。采用一个集成的特征提取网络，分别提取待识别图像的两种不同特征图，即显著性特征(SalientFeature)图以及深度语义嵌入(Deep Semantic Embedding)图。

具体地，为了便于理解，请参阅图6，图6为本申请实施例中基于两类特征图生成目标特征图的一个示意图，如图所示，特征提取网络包括第一网络和第二网络，其中，第一网络可以是级联部分解码器(Cascaded Partial Decoder，CPD)，CPD丢弃较浅层的特征以确保较高的计算效率，然后细化较深层的特征以提高其表示能力。第二网络可以是采用图像数据集(ImageNet)预训练的卷积神经网络(Convolutional Neural Networks，CNN)、残差网络-50(Residual Network，resnet-50)或者残差网络-18(Residual Network，resnet-18)等。需要说明的是，第一网络和第二网络还可以是其他网络，此处不做限定。

待识别图像经过第一网络后得到1个通道的显著性特征图。待识别图像经过第二网络后得到C个通道的深度语义嵌入图。于是，两类特征图在通道维度拼接(concat)，得到具有(C+1)个通道的目标特征图，即目标特征图可表示为F＝[F_sal,F_e]。其中，F表示目标特征图，F_sal表示显著性特征图，F_e表示深度语义嵌入图。

其次，本申请实施例中，提供了一种提取两类特征图作为目标特征图的方式，通过上述方式，一方面，包含显著性特征图的目标特征图能够体现出候选主体的轮廓，另一方面，包含深度语义嵌入图具有更好的表征能力，即能够将待识别图像提炼成更好的数据表达。由此，基于该目标特征图进行后续的任务，能够提升主体选择准确性。

本实施例中，介绍了一种提取三类特征图作为目标特征图的方式。采用一个集成的特征提取网络，分别提取待识别图像的三种不同特征图，即显著性特征(SalientFeature)图、深度语义嵌入(Deep Semantic Embedding)图以及模糊度特征(BlurFeature)图。

具体地，为了便于理解，请参阅图7，图7为本申请实施例中基于三类特征图生成目标特征图的另一个示意图，如图所示，特征提取网络包括第一网络、第二网络和第三网络。其中，第一网络可以是CPD。第二网络可以是采用ImageNet预训练的CNN、resnet-50或者resnet-18等。第三网络可以采用阈值梯度幅度最大化检测算法(Thresholded GradientMagnitude Maximization，Tenengrad)，模糊检测旨在检测由散焦引起的，仅跨越图像中少量像素的最小可觉模糊(Just Noticeable Blur，JNB)。

待识别图像经过第一网络后得到1个通道的显著性特征图。待识别图像经过第二网络后得到C个通道的深度语义嵌入图。待识别图像经过第三网络后得到1个通道的模糊度特征图。于是，三类特征图在通道维度拼接(concat)，得到具有(C+2)个通道的目标特征图，即目标特征图可表示为F＝[F_sal,F_b,F_e]。其中，F表示目标特征图，F_b表示模糊度特征图，F_sal表示显著性特征图，F_e表示深度语义嵌入图。

其次，本申请实施例中，提供了一种提取三类特征图作为目标特征图的方式，通过上述方式，一方面，包含显著性特征图的目标特征图能够体现出候选主体的轮廓，另一方面，包含深度语义嵌入图具有更好的表征能力，即能够将待识别图像提炼成更好的数据表达。此外，包含模糊度特征图的目标特征图能够模糊背景部分并清晰化前景部分，即提升待识别图像的识别度。由此，基于该目标特征图进行后续的任务，能够提升主体选择准确性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，根据目标特征图以及N个候选区域，获取N个候选区域中每个候选区域所对应的主体分值，具体可以包括：

将N个候选区域中的每个候选区域与目标特征图进行匹配处理，得到N个空间特征图，其中，空间特征图与候选区域具有一一对应关系；

本实施例中，介绍了一种基于排序主体选择(Rank-Subject Selection，Rank-SS)网络预测主体分值的方式，通过检测器寻找出待识别图像中的候选区域(即候选主体)之后，从这些候选区域(即候选主体)中选择出目标候选区域(即目标主体)是一项高度需要经验和主观的任务。选择目标主体的标准主要包括四个准则，具体分别为：

(1)中心准则，目标主体往往位于场景的中心，即目标主体会出现在画面中心附近。

(2)焦点准则：目标主体应该出现在焦距内，即目标主体是画面的聚焦点，而不是模糊的。

(3)比例准则：目标主体倾向于占据场景的大部分，即目标主体在画面中相对较大。

(4)姿态准则：目标主体往往会显示出相对醒目的姿势，即通常为正脸，而不是侧面或背影。

具体地，结合业务数据分布和主体选择标注，本申请提出了基于R-CNN的Rank-SS模型，将候选区域主体选择问题作为区域排序问题考虑。为了便于理解，请参阅图8，图8为本申请实施例中排序主体选择模型的一个预测流程示意图，如图所示，将待识别图像分别输入至检测网络(例如，人脸检测网络或者人体检测网络等)以及特征提取网络(例如，提取三类特征图)，通过检测网络输出N个候选区域，以图8为例，即输出2个候选区域。而特征提取网络分别提取深度语义嵌入图、模糊度特征图以及显著性特征图，将三类特征图进行拼接(concat)之后得到目标特征图。基于ROI Align，将每个候选区域与目标特征图进行匹配处理，得到N个空间特征图(例如，2个空间特征图)，即采用如下方法进行处理：

F_i＝ROIAlign(F,c_i)；

其中，F表示目标特征图，c_i表示第i个候选区域，F_i表示第i个候选区域的空间特征图。

将每个空间特征图分别输入至主体选择网络所包括的第一卷积网络以及第二卷积网络，由此得到第一图像特征和第二图像特征。将第一图像特征和第二图像特征进行拼接(concat)处理之后，得到每个候选区域的综合图像特征。类似于典型二阶段目标检测的模型，可以有效地共享区域间提取的特征，同时得到相对独立的区域特征，空间特征图经过卷积和全连接层得到第i个候选区域的主体分值，即采用如下方式确定主体分值：

s_i＝RankSS(I,c_i,w)；

其中，s_i表示第i个候选区域的主体分值，c_i表示第i个候选区域，I表示待识别图像，w表示Rank-SS的模型参数。

再次，本申请实施例中，提供了一种基于Rank-SS网络预测主体分值的方式，通过上述方式，能够关注到图像中候选区域之间的相互关系，保持图像内的相对主体序关系，由此，利用Rank-SS网络能够更好地识别出图像中的主体以及次主体，从而提升主体识别的准确性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，还可以包括：

获取待训练图像样本，其中，待训练图像样本包括第一标注区域以及第二标注区域，第一标注区域对应于第一标注分值，第二标注区域对应于第二标注分值；

对待训练图像样本进行特征提取处理，得到待训练图像样本的目标特征图；

将第一标注区域与目标特征图进行匹配处理，得到第一空间特征图，并且将第二标注区域与目标特征图进行匹配处理，得到第二空间特征图；

基于第一空间特征图，通过待训练主体选择网络所包括的第一卷积网络获取第一预测图像特征，并且基于第二空间特征图，通过待训练主体选择网络所包括的第二卷积网络获取第二预测图像特征；

基于第一标注区域，通过待训练主体选择网络所包括的第二卷积网络获取第三预测图像特征，并且基于第二标注区域，通过待训练主体选择网络所包括的第二卷积网络获取第四预测图像特征；

对第一候选区域所对应的第一预测图像特征以及第三预测图像特征进行拼接处理，得到第一候选区域所对应的第一综合图像特征，并且对第二候选区域所对应的第二预测图像特征以及第四预测图像特征进行拼接处理，得到第二候选区域所对应的第二综合图像特征；

基于第一综合图像特征，通过待训练主体选择网络所包括的全连接层，获取第一候选区域所对应的第一预测主体分值，并且基于第二综合图像特征，通过待训练主体选择网络所包括的全连接层，获取第二候选区域所对应的第二预测主体分值；

根据第一预测主体分值、第二预测主体分值、第一标注分值以及第二标注分值，对待训练主体选择网络进行模型参数更新，直至满足模型训练条件，输出主体选择网络。

本实施例中，介绍了一种训练RANK-SS网络的方式。在训练过程中可采用排序任务中典型的点式(point-wise)损失和对式(pair-wise)损失的利润率排名(margin-ranking)。RANK-SS网络包括两个部分，分别为主体选择网络以及特征提取网络，其中，特征提取网络可采用已经训练好的网络，也可以与主体选择网络共同训练，下面将以使用已经训练好的特征提取网络为例进行介绍。

具体地，训练主体选择网络通常需要大量的待训练图像样本，以任意一个待训练图像样本为例，首先需要人工标注待训练图像样本中的第一标注区域以及第二标注区域，其中，假设第一标注区域内为主体，即其对应的第一标注分值可设置为1，而假设第二标注区域内为次主体，即其对应的第二标注分值可设置为0。

为了便于理解，请参阅图9，图9为本申请实施例中排序主体选择模型的一个训练流程示意图，如图所示，利用训练好的特征提取网络对待训练图像样本进行特征提取处理，得到待训练图像样本的目标特征图。然后对第一标注区域与目标特征图进行匹配处理，得到第一空间特征图，并对第二标注区域与目标特征图进行匹配处理，得到第二空间特征图，将第一空间特征图输入至待训练主体选择网络所包括的第一卷积网络获取第一预测图像特征，并将第二空间特征图，通过待训练主体选择网络所包括的第二卷积网络获取第二预测图像特征。与此同时，将第一标注区域输入至待训练主体选择网络所包括的第二卷积网络，得到第三预测图像特征，并将第二标注区域输入至待训练主体选择网络所包括的第二卷积网络，得到第四预测图像特征。

基于此，对第一候选区域所对应的第一预测图像特征以及第三预测图像特征进行拼接处理，得到第一候选区域所对应的第一综合图像特征，并且对第二候选区域所对应的第二预测图像特征以及第四预测图像特征进行拼接处理，得到第二候选区域所对应的第二综合图像特征。

将第一综合图像特征输入至待训练主体选择网络所包括的全连接层，得到第一候选区域所对应的第一预测主体分值，并将第二综合图像特征输入至待训练主体选择网络所包括的全连接层，得到第二候选区域所对应的第二预测主体分值。基于损失函数计算第一预测主体分值、第二预测主体分值、第一标注分值以及第二标注分值之间的损失值，利用损失值基于梯度反向传播对待训练主体选择网络进行训练，直至满足模型训练条件，即得到主体选择网络。

需要说明的是，满足模型训练条件的情况可以是达到迭代次数，或者损失值已收敛，此处不做限定。

进一步地，本申请实施例中，提供了一种训练RANK-SS网络的方式，通过上述方式，在训练过程中考虑主体与次主体之间的排序关系即可，无需对候选主体进行分类，而是基于候选主体之间的有序关系确定主体分值，由此，提升主体识别的多样性和准确度。

针对于N个候选区域中的每个候选区域，从目标特征图中剪裁得到每个候选区域所对应的特征图；

本实施例中，介绍了一种基于朴素主体选择(

Selection，NSS)网络预测主体分值的方式。首先从目标特征图中剪裁(Crop)出每个候选区域所对应的特征图，然后对每个候选区域的特征图进行全局平均池化(Golbal Average Pooling，GAP)处理，得到其对应的区域特征，基于每个候选区域的区域特征，直接计算得到其对应的主体分值。

具体地，采用如下方式计算得到第i个候选区域的主体分值：

f_i＝GAP(Crop(F,c_i))；

s_i＝NSS(f_i,c_i；w)＝w^T[f_i,c_i]；

其中，f_i表示第i个候选区域的区域特征，F表示目标特征图，c_i表示第i个候选区域，s_i表示第i个候选区域的主体分值，w表示可通过手工调试的权重矩阵。

再次，本申请实施例中，提供了一种基于NSS预测主体分值的方式，通过上述方式，无需数据训练即可直接预测主体分值，且模型解释性较强，可以快速适配不同特征的场景画面。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，根据每个候选区域所对应的区域特征，确定每个候选区域所对应的主体分值，具体可以包括：

根据每个候选区域所对应的区域特征，确定每个候选区域所对应的特征平均值，其中，特征平均值为区域特征中M个特征值的平均值；

或者，

根据每个候选区域所对应的区域特征，确定每个候选区域所对应的主体分值，包括：

根据每个候选区域所对应的第一区域特征以及第一区域权重，确定每个候选区域所对应的第一特征平均值；

本实施例中，介绍了两种基于NSS网络预测主体分值的方式。为了便于理解，将以如下4*4矩阵作为一个候选区域的区域特征进行说明：

结合上述包括16个特征值(即M＝16)区域特征。在一个示例中，可计算这16个特征值的平均值，即得到特征平均值，经计算，上述区域特征的特征平均值为0.55，即该候选区域的主体分值也为0.55。

在另一个示例中，将候选区域中的边界特征作为第一区域特征，剩余的特征作为第二区域特征，其中，第一区域特征对应于第一区域权重，假设第一区域权重为0.5，第二区域特征对应于第二区域权重，假设第二区域权重为1。经计算，第一特征平均值为2.85，第二特征平均值为3.1，基于此，将第一特征平均值和第二特征平均值进行求和，得到面部平均值5.95。即该候选区域的主体分值也为5.95。

进一步地，本申请实施例中，提供了两种基于NSS预测主体分值的方式，通过上述方式，可采用不同的方式计算主体分值，且无需经过数据训练，具有解释性较强，可以快速适配不同特征的场景画面。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，根据目标特征图以及N个候选区域，获取每个候选区域所对应的主体分值，具体可以包括：

本实施例中，介绍了一种基于多层感知机主体选择(Multi-Layer Perception-Subject Selection，MLP-SS)网络预测主体分值的方式。在面对候选主体较多的复杂场景时，经常会出现次优解，因此，可采用经过数据训练的MLP-SS网络，其主体分类的精度更高，将区域特征作为MLP-SS网络的输入之后，将是否为主体作为二分类问题处理，预测时主体分值最高的即为最终的目标主体。

具体地，采用如下方式计算得到第i个候选区域的主体分值：

f_i＝GAP(Crop(F,c_i))；

s_i＝MLP(f_i,c_i；w)；

其中，f_i表示第i个候选区域的区域特征，F表示目标特征图，c_i表示第i个候选区域，s_i表示第i个候选区域的主体分值。

再次，本申请实施例中，提供了一种基于MLP-SS网络预测主体分值的方式，通过上述方式，由于多层感知机主体选择网络涉及到数据训练，因此，可以学习到图像特征与主体分值之间的关系，从而有效地提升了主体选择的准确度，适用于在较为简单的多人场景中进行主体选择，由此提升方案的可行性和可操作性。

从待训练图像样本的目标特征图中剪裁得到第一标注区域所对应的特征图，以及第二标注区域所对应的特征图；

对第一标注区域所对应的特征图进行全局平均池化处理，得到第一标注区域所对应的区域特征；

对第二标注区域所对应的特征图进行全局平均池化处理，得到第二标注区域所对应的区域特征；

基于第一标注区域所对应的区域特征，通过待训练多层感知机获取第一标注区域所对应的第一预测主体分值；

基于第二标注区域所对应的区域特征，通过待训练多层感知机获取第二标注区域所对应的第二预测主体分值；

根据第一预测主体分值、第二预测主体分值、第一标注分值以及第二标注分值，对待训练多层感知机进行模型参数更新，直至满足模型训练条件，输出多层感知机。

本实施例中，介绍了一种对MLP-SS网络进行训练的方式。MLP-SS网络包括两个部分，分别为MLP以及特征提取网络，其中，特征提取网络可采用已经训练好的网络，也可以与MLP共同训练，下面将以使用已经训练好的特征提取网络为例进行介绍。

具体地，训练MLP通常需要大量的待训练图像样本，以任意一个待训练图像样本为例，首先需要人工标注待训练图像样本中的第一标注区域以及第二标注区域，其中，假设第一标注区域内为主体，即其对应的第一标注分值可设置为1，而假设第二标注区域内为次主体，即其对应的第二标注分值可设置为0。利用训练好的特征提取网络对待训练图像样本进行特征提取处理，得到待训练图像样本的目标特征图。然后从该目标特征图中剪裁出第一标注区域所对应的特征图，以及第二标注区域所对应的特征图。分别对第一标注区域所对应的特征图以及第二标注区域所对应的特征图进行GAP处理，得到第一标注区域所对应的区域特征以及第二标注区域所对应的区域特征。

将第一标注区域所对应的区域特征输入至待训练MLP，从而得到第一预测主体分值，类似地，将第二标注区域所对应的区域特征输入至待训练MLP，从而得到第二预测主体分值。基于损失函数计算第一预测主体分值与第一标注分值之间的损失值，以及计算第二预测主体分值与第一标注分值之间的损失值，将两个损失值进行相加，得到目标损失值，利用目标损失值基于梯度反向传播对待训练MLP进行训练，直至满足模型训练条件，即得到MLP。

进一步地，本申请实施例中，提供了一种对MLP-SS网络进行训练的方式，通过上述方式，基于监督学习训练得到多层感知机主体选择网络的过程较为简单，能够广泛地应用于工业问题上，与此同时，在训练的过程中分类所需要的计算量较小，速度较快，且存储资源较少。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，获取待识别图像，具体可以包括：

对待处理视频进行分帧处理，得到K个视频帧，其中，K为大于1的整数；

从L个视频帧中选择一个视频帧作为待识别图像；

根据每个候选区域所对应的主体分值，从N个候选区域中确定目标候选区域，并将目标候选区域所对应的候选主体作为待识别图像中的目标主体之后，还可以包括：

根据目标候选区域，从待识别图像中剪裁出目标图像，其中，目标图像对应于目标尺寸，且目标图像包括目标候选区域；

将目标图像作为待处理视频的视频封面。

本实施例中，介绍了一种基于主体识别生成视频封面的方式。首先获取待处理视频，然后对待处理视频进行分帧处理，以此生成K个视频帧。然后分别获取每个视频帧的亮度、清晰度以及色彩单一度。其中，视频帧过滤主要是过滤掉低质量的视频帧以及过渡帧，低质量的视频帧往往亮度、清晰度或者色彩单一度较低，因此，从K个视频帧中过滤亮度小于或等于亮度阈值的视频帧，以及过滤清晰度小于或等于清晰度阈值的视频帧，以及过滤色彩单一度小于或等于色彩单一度阈值的视频帧，最终得到L个视频帧。

具体地，可从L个视频帧中选择任意一个视频帧作为待识别图像，或者，人工选择一个视频帧作为待识别图像，或者，采用其他策略选择待识别图像，此处不做限定。基于此，在得到待识别图像中每个候选区域所对应的主体分值之后，即可选出目标候选区域，将目标候选区域作为图像剪裁的依据，得到目标图像。例如，待识别图像的尺寸为16比9，目标尺寸为4比3，那么输出的目标图像尺寸即为4比3，且包括目标候选区域中的目标主体(例如，人物甲)。最后，直接将目标图像作为待处理视频的视频封面。

为了便于理解，请参阅图10，图10为本申请实施例中实现智能图像剪裁的一个流程示意图，如图所示，假设待识别图像为横版图像，经过主体识别后确定目标主体在待识别图像中的位置，基于此，将该目标主体所在的目标候选区域剪裁处理，得到目标图像，目标图像为竖版图像。

再次，本申请实施例中，提供了一种基于主体识别生成视频封面的方式，通过上述方式，对于任意尺寸的待处理视频而言，都能够达到智能剪裁的目的，由此为视频展示提供素材，满足差异化的需求，并节省了大量的人力成本。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，根据目标候选区域，从待识别图像中剪裁出目标图像，具体可以包括：

根据每个候选区域所对应的主体分值，从N个候选区域中确定次级候选区域，其中，次级候选区域对应于次大的主体分值；

根据第一位置坐标以及第二位置坐标，确定区域距离；

本实施例中，介绍了一种智能剪裁的方式。由前述实施例可知，根据每个候选区域所对应的主体分值，能够选择出主体分值最大的候选区域作为目标候选区域，且目标后续区域中的候选主体即为目标主体，也就是待识别图像中的主体。而其余的候选区域也分别具有一个主体分值，由此，从剩余候选区域中选择次大主体分值所对应的候选区域作为次级候选区域。

具体地，如果次级候选区域所对应的主体分值大于或等于主体分值阈值，则表示次级候选区域中的候选主体也可以考虑被裁减出来进行展示。但由于次级候选区域与目标候选区域之间的距离可能无法同时出现在目标图像中，因此，还需要进一步进行判定，判定方式为，首先获取次级候选区域的中心在待识别图像中的第一位置坐标，并获取目标候选区域的中心在待识别图像中的第二位置坐标，基于第一位置坐标以及第二位置坐标，计算直线距离，即得到区域距离。基于此，先将目标候选区域置于目标图像在中心位置，即第一位置坐标与目标图像的中心坐标重合。然后根据目标尺寸，确定其对应的距离阈值，如果区域距离小于或等于目标尺寸所对应的距离阈值，则可以同时将次级候选区域和目标候选区域剪裁进入同一个图像(即目标图像)并输出。

结合上述介绍，下面将结合实际样例进行说明，请参阅图11，图11为本申请实施例中基于主体识别方法进行样例分析所得到的效果对比示意图，如图所示，第一行属于智能剪裁的输出结果，第二行属于效果较差的样例，其中，白色实线为基于本申请提供的方法自动识别出的主体，白色虚线为人工标注的主体，而灰色区域为9比16的目标图像(即剪裁区域)。由此可见，本申请提供的主体识别方法能够有效地在人群或者侧脸等场景选择出合适的主体(即目标主体)，同时，当主体(即目标主体)身边出现次主体时，如果剪裁区域足够，也会自适应地覆盖。

进一步地，本申请实施例中，提供了一种智能剪裁的方式，通过上述方式，考虑到在剪裁过程中画面信息的丢失是不可避免的，因此，先找出图像中的主体，然后尽可能地将次主体放入剪裁区域内，从而减少信息损失量，有利于提升剪裁效果。

下面对本申请中的主体识别装置进行详细描述，请参阅图12，图12为本申请实施例中主体识别装置的一个实施例示意图，主体识别装置20包括：

获取模块201，用于获取待识别图像；

处理模块202，用于对待识别图像进行区域识别处理，得到N个候选区域，并且对待识别图像进行特征提取处理，得到目标特征图，其中，每个候选区域对应于一个候选主体，所述目标特征图为经过至少两个特征图拼接后得到的，N为大于或等于1的整数；

获取模块201，还用于根据目标特征图以及N个候选区域，获取N个候选区域中每个候选区域所对应的主体分值；

确定模块203，用于根据每个候选区域所对应的主体分值，从N个候选区域中确定目标候选区域，并将目标候选区域所对应的候选主体作为待识别图像中的目标主体，其中，目标候选区域对应于最大的主体分值。

本申请实施例中，提供了一种主体识别装置，采用上述装置。先识别出若干个候选区域，然后自动计算每个候选区域的主体分值，最后将主体分值最高的候选区域作为目标候选区域，即该目标候选区域内的候选主体为图像中的主体，而其他候选区域内的候选主体为图像中的次主体。由此，达到自动处理图像的目的，不仅降低了时间成本和人力成本，而且基于主体分值选择出来的主体具有较高的准确性，能够满足规模化需求。

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的主体识别装置20的另一实施例中，

处理模块202，具体用于基于待识别图像，通过人脸检测网络获取N个候选区域，其中，每个候选区域所对应的候选主体为人脸；

或者，

本申请实施例中，提供了一种主体识别装置，采用上述装置。利用训练好的检测网络模型能够自动识别出图像中出现的人脸或者人体等对象，从而实现自动化检测的功能，无需人工参与，由此提升检测的效率，并节省了时间和人力成本。

处理模块202，具体用于基于待识别图像，通过特征提取网络所包括的第一网络获取显著性特征图，其中，显著性特征图对应于1个通道；

本申请实施例中，提供了一种主体识别装置，采用上述装置。一方面，包含显著性特征图的目标特征图能够体现出候选主体的轮廓，另一方面，包含深度语义嵌入图具有更好的表征能力，即能够将待识别图像提炼成更好的数据表达。由此，基于该目标特征图进行后续的任务，能够提升主体选择准确性。

本申请实施例中，提供了一种主体识别装置，采用上述装置。一方面，包含显著性特征图的目标特征图能够体现出候选主体的轮廓，另一方面，包含深度语义嵌入图具有更好的表征能力，即能够将待识别图像提炼成更好的数据表达。此外，包含模糊度特征图的目标特征图能够模糊背景部分并清晰化前景部分，即提升待识别图像的识别度。由此，基于该目标特征图进行后续的任务，能够提升主体选择准确性。

获取模块201，具体用于将N个候选区域中的每个候选区域与目标特征图进行匹配处理，得到N个空间特征图，其中，空间特征图与候选区域具有一一对应关系；

本申请实施例中，提供了一种主体识别装置，采用上述装置。能够关注到图像中候选区域之间的相互关系，保持图像内的相对主体序关系，由此，利用Rank-SS网络能够更好地识别出图像中的主体以及次主体，从而提升主体识别的准确性。

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的主体识别装置20的另一实施例中，主体识别装置20还包括更新模块204；

获取模块201，还用于获取待训练图像样本，其中，待训练图像样本包括第一标注区域以及第二标注区域，第一标注区域对应于第一标注分值，第二标注区域对应于第二标注分值；

处理模块202，还用于对待训练图像样本进行特征提取处理，得到待训练图像样本的目标特征图；

处理模块202，还用于将第一标注区域与目标特征图进行匹配处理，得到第一空间特征图，并且将第二标注区域与目标特征图进行匹配处理，得到第二空间特征图；

获取模块201，还用于基于第一空间特征图，通过待训练主体选择网络所包括的第一卷积网络获取第一预测图像特征，并且基于第二空间特征图，通过待训练主体选择网络所包括的第二卷积网络获取第二预测图像特征；

获取模块201，还用于基于第一标注区域，通过待训练主体选择网络所包括的第二卷积网络获取第三预测图像特征，并且基于第二标注区域，通过待训练主体选择网络所包括的第二卷积网络获取第四预测图像特征；

处理模块202，还用于对第一候选区域所对应的第一预测图像特征以及第三预测图像特征进行拼接处理，得到第一候选区域所对应的第一综合图像特征，并且对第二候选区域所对应的第二预测图像特征以及第四预测图像特征进行拼接处理，得到第二候选区域所对应的第二综合图像特征；

获取模块201，还用于基于第一综合图像特征，通过待训练主体选择网络所包括的全连接层，获取第一候选区域所对应的第一预测主体分值，并且基于第二综合图像特征，通过待训练主体选择网络所包括的全连接层，获取第二候选区域所对应的第二预测主体分值；

更新模块204，用于根据第一预测主体分值、第二预测主体分值、第一标注分值以及第二标注分值，对待训练主体选择网络进行模型参数更新，直至满足模型训练条件，输出主体选择网络。

本申请实施例中，提供了一种主体识别装置，采用上述装置。在训练过程中考虑主体与次主体之间的排序关系即可，无需对候选主体进行分类，而是基于候选主体之间的有序关系确定主体分值，由此，提升主体识别的多样性和准确度。

获取模块201，具体用于针对于N个候选区域中的每个候选区域，从目标特征图中剪裁得到每个候选区域所对应的特征图；

本申请实施例中，提供了一种主体识别装置，采用上述装置。无需数据训练即可直接预测主体分值，且模型解释性较强，可以快速适配不同特征的场景画面。

获取模块201，具体用于根据每个候选区域所对应的区域特征，确定每个候选区域所对应的特征平均值，其中，特征平均值为区域特征中M个特征值的平均值；

或者，

获取模块201，具体用于根据每个候选区域所对应的第一区域特征以及第一区域权重，确定每个候选区域所对应的第一特征平均值；

本申请实施例中，提供了一种主体识别装置，采用上述装置。可采用不同的方式计算主体分值，且无需经过数据训练，具有解释性较强，可以快速适配不同特征的场景画面。

本申请实施例中，提供了一种主体识别装置，采用上述装置。由于多层感知机主体选择网络涉及到数据训练，因此，可以学习到图像特征与主体分值之间的关系，从而有效地提升了主体选择的准确度，适用于在较为简单的多人场景中进行主体选择，由此提升方案的可行性和可操作性。

处理模块202，还用于从待训练图像样本的目标特征图中剪裁得到第一标注区域所对应的特征图，以及第二标注区域所对应的特征图；

处理模块202，还用于对第一标注区域所对应的特征图进行全局平均池化处理，得到第一标注区域所对应的区域特征；

处理模块202，还用于对第二标注区域所对应的特征图进行全局平均池化处理，得到第二标注区域所对应的区域特征；

获取模块201，还用于基于第一标注区域所对应的区域特征，通过待训练多层感知机获取第一标注区域所对应的第一预测主体分值；

获取模块201，还用于基于第二标注区域所对应的区域特征，通过待训练多层感知机获取第二标注区域所对应的第二预测主体分值；

更新模块204，还用于根据第一预测主体分值、第二预测主体分值、第一标注分值以及第二标注分值，对待训练多层感知机进行模型参数更新，直至满足模型训练条件，输出多层感知机。

本申请实施例中，提供了一种主体识别装置，采用上述装置。基于监督学习训练得到多层感知机主体选择网络的过程较为简单，能够广泛地应用于工业问题上，与此同时，在训练的过程中分类所需要的计算量较小，速度较快，且存储资源较少。

获取模块201，具体用于对待处理视频进行分帧处理，得到K个视频帧，其中，K为大于1的整数；

从L个视频帧中选择一个视频帧作为待识别图像；

获取模块201，还用于根据每个候选区域所对应的主体分值，从N个候选区域中确定目标候选区域，并将目标候选区域所对应的候选主体作为待识别图像中的目标主体之后，根据目标候选区域，从待识别图像中剪裁出目标图像，其中，目标图像对应于目标尺寸，且目标图像包括目标候选区域；

确定模块203，还用于将目标图像作为待处理视频的视频封面。

本申请实施例中，提供了一种主体识别装置，采用上述装置。对于任意尺寸的待处理视频而言，都能够达到智能剪裁的目的，由此为视频展示提供素材，满足差异化的需求，并节省了大量的人力成本。

获取模块201，具体用于根据每个候选区域所对应的主体分值，从N个候选区域中确定次级候选区域，其中，次级候选区域对应于次大的主体分值；

根据第一位置坐标以及第二位置坐标，确定区域距离；

本申请实施例中，提供了一种主体识别装置，采用上述装置。考虑到在剪裁过程中画面信息的丢失是不可避免的，因此，先找出图像中的主体，然后尽可能地将次主体放入剪裁区域内，从而减少信息损失量，有利于提升剪裁效果。

本申请实施例还提供了另一种主体识别装置，该主体识别装置可部署于终端设备，如图13所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图13示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图13，手机包括：射频(Radio Frequency，RF)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wireless fidelity，WiFi)模块370、处理器380、以及电源390等部件。本领域技术人员可以理解，图13中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图13对手机的各个构成部件进行具体的介绍：

RF电路310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器380处理；另外，将设计上行的数据发送给基站。通常，RF电路310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器320可用于存储软件程序以及模块，处理器380通过运行存储在存储器320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元330可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元330可包括触控面板331以及其他输入设备332。触控面板331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器380，并能接收处理器380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331，输入单元330还可以包括其他输入设备332。具体地，其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元340可包括显示面板341，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板341。进一步的，触控面板331可覆盖显示面板341，当触控面板331检测到在其上或附近的触摸操作后，传送给处理器380以确定触摸事件的类型，随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图13中，触控面板331与显示面板341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板331与显示面板341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路360、扬声器361，传声器362可提供用户与手机之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号，传输到扬声器361，由扬声器361转换为声音信号输出；另一方面，传声器362将收集的声音信号转换为电信号，由音频电路360接收后转换为音频数据，再将音频数据输出处理器380处理后，经RF电路310以发送给比如另一手机，或者将音频数据输出至存储器320以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块370，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器380可包括一个或多个处理单元；可选的，处理器380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器380中。

手机还包括给各个部件供电的电源390(比如电池)，可选的，电源可以通过电源管理系统与处理器380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

上述实施例中由终端设备所执行的步骤可以基于该图13所示的终端设备结构。

本申请实施例还提供了另一种主体识别装置，该主体识别装置可部署于服务器，图14是本申请实施例提供的一种服务器结构示意图，该服务器400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)422(例如，一个或一个以上处理器)和存储器432，一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器422可以设置为与存储介质430通信，在服务器400上执行存储介质430中的一系列指令操作。

服务器400还可以包括一个或一个以上电源426，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口458，和/或，一个或一个以上操作系统441，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于人工智能的主体识别方法，其特征在于，包括：

获取待识别图像；

对所述待识别图像进行区域识别处理，得到N个候选区域，并且对所述待识别图像进行特征提取处理，得到目标特征图，其中，每个候选区域对应于一个候选主体，所述目标特征图为经过至少两个特征图拼接后得到的，所述N为大于或等于1的整数；

根据所述目标特征图以及所述N个候选区域，获取所述N个候选区域中所述每个候选区域所对应的主体分值；

根据所述每个候选区域所对应的主体分值，从所述N个候选区域中确定目标候选区域，并将所述目标候选区域所对应的候选主体作为所述待识别图像中的目标主体，其中，所述目标候选区域对应于最大的主体分值。

2.根据权利要求1所述的主体识别方法，其特征在于，所述对所述待识别图像进行区域识别处理，得到N个候选区域，包括：

基于所述待识别图像，通过人脸检测网络获取所述N个候选区域，其中，所述每个候选区域所对应的候选主体为人脸；

或者，

基于所述待识别图像，通过人体检测网络获取所述N个候选区域，其中，所述每个候选区域所对应的候选主体为人体。

3.根据权利要求1所述的主体识别方法，其特征在于，所述对所述待识别图像进行特征提取处理，得到目标特征图，包括：

基于所述待识别图像，通过特征提取网络所包括的第一网络获取显著性特征图，其中，所述显著性特征图对应于1个通道；

基于所述待识别图像，通过所述特征提取网络所包括的第二网络获取深度语义嵌入图，其中，所述深度语义嵌入图对应于C个通道，所述C为大于1的整数；

对所述显著性特征图以及所述深度语义嵌入图进行拼接处理，得到所述目标特征图，其中，所述目标特征图包括(C+1)个通道。

4.根据权利要求1所述的主体识别方法，其特征在于，所述对所述待识别图像进行特征提取处理，得到目标特征图，包括：

基于所述待识别图像，通过所述特征提取网络所包括的第三网络获取模糊度特征图，其中，所述模糊度特征图对应于1个通道；

对所述显著性特征图、所述深度语义嵌入图以及所述模糊度特征图进行拼接处理，得到所述目标特征图，其中，所述目标特征图包括(C+2)个通道。

5.根据权利要求1至4中任一项所述的主体识别方法，其特征在于，所述根据所述目标特征图以及所述N个候选区域，获取所述N个候选区域中所述每个候选区域所对应的主体分值，包括：

将所述N个候选区域中的所述每个候选区域与所述目标特征图进行匹配处理，得到N个空间特征图，其中，所述空间特征图与所述候选区域具有一一对应关系；

针对于所述N个候选区域中的每个候选区域，基于所述每个候选区域所对应的空间特征图，通过主体选择网络所包括的第一卷积网络获取第一图像特征；

针对于所述N个候选区域中的每个候选区域，基于所述每个候选区域所对应的空间特征图，通过所述主体选择网络所包括的第二卷积网络获取第二图像特征；

针对于所述N个候选区域中的每个候选区域，对所述每个候选区域所对应的所述第一图像特征以及所述第二图像特征进行拼接处理，得到所述每个候选区域所对应的综合图像特征；

基于所述每个候选区域所对应的综合图像特征，通过所述主体选择网络所包括的全连接层，获取所述每个候选区域所对应的主体分值。

6.根据权利要求5所述的主体识别方法，其特征在于，所述方法还包括：

获取待训练图像样本，其中，所述待训练图像样本包括第一标注区域以及第二标注区域，所述第一标注区域对应于第一标注分值，所述第二标注区域对应于第二标注分值；

对所述待训练图像样本进行特征提取处理，得到所述待训练图像样本的目标特征图；

将所述第一标注区域与所述目标特征图进行匹配处理，得到第一空间特征图，并且将所述第二标注区域与所述目标特征图进行匹配处理，得到第二空间特征图；

基于所述第一空间特征图，通过待训练主体选择网络所包括的第一卷积网络获取第一预测图像特征，并且基于所述第二空间特征图，通过待训练主体选择网络所包括的第二卷积网络获取第二预测图像特征；

基于所述第一标注区域，通过待训练主体选择网络所包括的第二卷积网络获取第三预测图像特征，并且基于所述第二标注区域，通过待训练主体选择网络所包括的第二卷积网络获取第四预测图像特征；

对所述第一候选区域所对应的所述第一预测图像特征以及所述第三预测图像特征进行拼接处理，得到所述第一候选区域所对应的第一综合图像特征，并且对所述第二候选区域所对应的所述第二预测图像特征以及所述第四预测图像特征进行拼接处理，得到所述第二候选区域所对应的第二综合图像特征；

基于所述第一综合图像特征，通过所述待训练主体选择网络所包括的全连接层，获取所述第一候选区域所对应的第一预测主体分值，并且基于所述第二综合图像特征，通过所述待训练主体选择网络所包括的全连接层，获取所述第二候选区域所对应的第二预测主体分值；

根据所述第一预测主体分值、所述第二预测主体分值、所述第一标注分值以及所述第二标注分值，对所述待训练主体选择网络进行模型参数更新，直至满足模型训练条件，输出所述主体选择网络。

7.根据权利要求1至4中任一项所述的主体识别方法，其特征在于，所述根据所述目标特征图以及所述N个候选区域，获取所述N个候选区域中所述每个候选区域所对应的主体分值，包括：

针对于所述N个候选区域中的所述每个候选区域，从所述目标特征图中剪裁得到所述每个候选区域所对应的特征图；

对所述每个候选区域所对应的特征图进行全局平均池化处理，得到所述每个候选区域所对应的区域特征，其中，所述区域特征包括M个特征值，所述M为大于1的整数；

根据所述每个候选区域所对应的区域特征，确定所述每个候选区域所对应的主体分值。

8.根据权利要求7所述的主体识别方法，其特征在于，所述根据所述每个候选区域所对应的区域特征，确定所述每个候选区域所对应的主体分值，包括：

根据所述每个候选区域所对应的区域特征，确定所述每个候选区域所对应的特征平均值，其中，所述特征平均值为区域特征中M个特征值的平均值；

针对于所述N个候选区域中的所述每个候选区域，将候选区域的特征平均值作为所述候选区域的主体分值；

或者，

所述根据所述每个候选区域所对应的区域特征，确定所述每个候选区域所对应的主体分值，包括：

根据所述每个候选区域所对应的第一区域特征以及第一区域权重，确定所述每个候选区域所对应的第一特征平均值；

根据所述每个候选区域所对应的第二区域特征以及第二区域权重，确定所述每个候选区域所对应的第二特征平均值，其中，所述第二区域权重大于所述第一区域权重；

根据所述每个候选区域所对应的第一特征平均值以及第二特征平均值，确定所述每个候选区域所对应的目标平均值；

针对于所述N个候选区域中的所述每个候选区域，将候选区域的目标平均值作为所述候选区域的主体分值。

9.根据权利要求1至4中任一项所述的主体识别方法，其特征在于，所述根据所述目标特征图以及所述N个候选区域，获取所述每个候选区域所对应的主体分值，包括：

基于所述每个候选区域所对应的区域特征，通过多层感知机获取所述每个候选区域所对应的所对应的主体分值。

10.根据权利要求9所述的主体识别方法，其特征在于，所述方法还包括：

从所述待训练图像样本的目标特征图中剪裁得到所述第一标注区域所对应的特征图，以及所述第二标注区域所对应的特征图；

对所述第一标注区域所对应的特征图进行全局平均池化处理，得到所述第一标注区域所对应的区域特征；

对所述第二标注区域所对应的特征图进行全局平均池化处理，得到所述第二标注区域所对应的区域特征；

基于所述第一标注区域所对应的区域特征，通过待训练多层感知机获取所述第一标注区域所对应的第一预测主体分值；

基于所述第二标注区域所对应的区域特征，通过所述待训练多层感知机获取所述第二标注区域所对应的第二预测主体分值；

根据所述第一预测主体分值、所述第二预测主体分值、所述第一标注分值以及所述第二标注分值，对所述待训练多层感知机进行模型参数更新，直至满足模型训练条件，输出所述多层感知机。

11.根据权利要求1至10中任意一项所述的主体识别方法，其特征在于，所述获取待识别图像，包括：

对待处理视频进行分帧处理，得到K个视频帧，其中，所述K为大于1的整数；

针对于所述K个视频帧中的每个视频帧，获取亮度、清晰度以及色彩单一度；

根据所述每个视频帧的亮度以及亮度阈值，所述每个视频帧的清晰度以及清晰度阈值，以及所述每个视频帧的色彩单一度以及色彩单一度阈值，对所述K个视频帧进行帧过滤处理，得到L个视频帧，其中，所述L为大于或等于1，且小于所述L的整数；

从所述L个视频帧中选择一个视频帧作为所述待识别图像；

所述根据所述每个候选区域所对应的主体分值，从所述N个候选区域中确定目标候选区域，并将所述目标候选区域所对应的候选主体作为所述待识别图像中的目标主体之后，所述方法还包括：

根据所述目标候选区域，从所述待识别图像中剪裁出目标图像，其中，所述目标图像对应于目标尺寸，且所述目标图像包括所述目标候选区域；

将所述目标图像作为所述待处理视频的视频封面。

12.根据权利要求11所述的主体识别方法，其特征在于，所述根据所述目标候选区域，从所述待识别图像中剪裁出目标图像，包括：

根据所述每个候选区域所对应的主体分值，从所述N个候选区域中确定次级候选区域，其中，所述次级候选区域对应于次大的主体分值；

若所述次级候选区域所对应的主体分值大于或等于主体分值阈值，则获取所述次级候选区域的中心在所述待识别图像中的第一位置坐标，并获取所述目标候选区域的中心在所述待识别图像中的第二位置坐标；

根据所述第一位置坐标以及所述第二位置坐标，确定区域距离；

若所述区域距离小于或等于所述目标尺寸所对应的距离阈值，则根据所述目标候选区域以及所述次级候选区域，从所述待识别图像中剪裁出目标图像，其中，所述目标图像还包括所述次级候选区域。

13.一种主体识别装置，其特征在于，包括：

获取模块，用于获取待识别图像；

处理模块，用于对所述待识别图像进行区域识别处理，得到N个候选区域，并且对所述待识别图像进行特征提取处理，得到目标特征图，其中，每个候选区域对应于一个候选主体，所述目标特征图为经过至少两个特征图拼接后得到的所述N为大于或等于1的整数；

所述获取模块，还用于根据所述目标特征图以及所述N个候选区域，获取所述N个候选区域中所述每个候选区域所对应的主体分值；

确定模块，用于根据所述每个候选区域所对应的主体分值，从所述N个候选区域中确定目标候选区域，并将所述目标候选区域所对应的候选主体作为所述待识别图像中的目标主体，其中，所述目标候选区域对应于最大的主体分值。

14.一种计算机设备，其特征在于，包括：存储器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，所述处理器用于根据程序代码中的指令执行权利要求1至12中任一项所述的主体识别方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至12中任一项所述的主体识别方法。