CN111709296A

CN111709296A - 一种景别识别方法、装置、电子设备及可读存储介质

Info

Publication number: CN111709296A
Application number: CN202010419755.0A
Authority: CN
Inventors: 李天琦
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2020-09-25

Abstract

本发明实施例提供了一种景别识别方法、装置、电子设备及可读存储介质，所述方法包括：获取待处理图像，并对所述待处理图像进行识别得到目标人物；对所述目标人物进行检测，得到针对所述目标人物的人体姿态信息；对所述人体姿态信息进行编码，得到人体姿态编码向量；对所述人体姿态编码向量进行回归预测，生成针对所述待处理图像的景别分数；所述景别分数包括离散化的景别分数；根据所述离散化的景别分数识别所述待处理图像的景别。本发明实施例基于目标人物的人体姿态的景别分数，精细衡量待处理图像的景别特点，且在离散化景别分数的情况下，实现任意粒度以及直观地识别待处理图像的景别。

Description

一种景别识别方法、装置、电子设备及可读存储介质

技术领域

本发明涉及图像识别技术领域，特别是涉及一种景别识别方法、一种景别识别装置、一种电子设备和一种计算机可读存储介质。

背景技术

景别是指由于摄影机与被摄体的距离不同，而造成被摄体在摄影机寻像器中所呈现出的范围大小的区别。由近至远可粗略分为特写、近景、中景、全景、远景。在视频作品中交替地使用各种不同的景别，可以使影片剧情的叙述、人物思想感情的表达、人物关系的处理更具有表现力，从而增强影片的艺术感染力。有效的识别视频图像画面的景别，一方面有助于提高后期检索素材的效率，另一方面也能有效的丰富智能剪辑创作的表现形式。

现有方法多采用直接对图像进行分类，来识别画面景别，这种分类方法一方面受类别数的限制，只能以较粗的粒度进行识别；另一方面，由于针对景别的定义具有一定的要求，例如，将画面限定在胸部以上的景别定义为近景，以及将画面限定在腰部以上的景别定义为中景，对于模棱两可的景别，即对于画面位于胸部与腰部之间的景别，难以准确的识别出其特点；同时，这种分类方法对数据采集的要求较高。而为了有效的辅助视频后期创作，不仅要识别粗略的特写、近景、中景、全景、远景等，对于模棱两可的景别，也需要准确的识别出其特点，以便进行简单的裁剪，调整为合适的景别类型。

发明内容

本发明实施例的目的在于提供一种景别识别方法、一种景别识别装置、一种电子设备和一种计算机可读存储介质，以实现准确识别模棱两可的景别。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种景别识别方法，所述方法包括：

获取待处理图像，并对所述待处理图像进行识别得到目标人物；

对所述目标人物进行检测，得到针对所述目标人物的人体姿态信息；

对所述人体姿态信息进行编码，得到人体姿态编码向量；

对所述人体姿态编码向量进行回归预测，生成针对所述待处理图像的景别分数；所述景别分数包括离散化的景别分数；

根据所述离散化的景别分数识别所述待处理图像的景别。

在本发明实施的第二方面，还提供了一种景别识别装置，所述装置包括：

目标人物识别模块，用于获取待处理图像，并对所述待处理图像进行识别得到目标人物；

目标人物检测模块，用于对所述目标人物进行检测，得到针对所述目标人物的人体姿态信息；

人体姿态信息编码模块，用于对所述人体姿态信息进行编码，得到人体姿态编码向量；

景别分数生成模块，用于对所述人体姿态编码向量进行回归预测，生成针对所述待处理图像的景别分数；所述景别分数包括离散化的景别分数；

景别识别模块，用于根据所述离散化的景别分数识别所述待处理图像的景别。

在本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现任一所述的景别识别方法步骤。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的景别识别方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的景别识别方法。

本发明实施例提供的景别识别方法及景别识别装置，通过对待处理图像中的目标人物的人体姿态信息转化为人体姿态编码向量，并对人体姿态编码向量进行回归预测，生成表征不同景别的景别分数，以采用景别分数对待处理图像进行景别识别。基于目标人物的人体姿态的景别分数对待处理图像的景别进行识别，可以在离散化景别分数的情况下，实现任意粒度以及直观地确定待处理图像的景别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中的一种景别识别方法实施例一的步骤流程图；

图2为本发明实施例中的一种景别识别方法实施例二的步骤流程图；

图2A-2F为本发明实施例中的一种景别识别方法实施例二的子步骤流程图；

图3为本发明实施例中的一种景别识别方法实施例的识别流程图；

图4是本发明实施例中的一种景别识别装置实施例的结构框图；

图4A-4F为本发明实施例中的一种景别识别装置实施例的结构子框图；

图5为本发明实施例中的一种电子设备实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

景别是指由于摄影机与被摄体的距离不同，而造成被摄体在摄影机寻像器中所呈现出的范围大小的区别。由近至远可粗略分为特写、近景、中景、全景、远景等。在视频作品中交替地使用各种不同的景别，可以使影片剧情的叙述、人物思想感情的表达、人物关系的处理更具有表现力，从而增强影片的艺术感染力。有效的识别视频图像画面的景别，一方面有助于提高后期检索素材的效率，另一方面也能有效的丰富智能剪辑创作的表现形式。

参照图1，示出了本发明的一种景别识别方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101，获取待处理图像，并对所述待处理图像进行识别得到目标人物；

在本发明的一种实施例中，对视频图像画面的景别进行识别以及处理，首先可以获取待处理图像，以及从待处理图像中进行识别得到目标人物，以便根据目标人物的相关特征信息，对目标人物所在的待处理图像的景别进行识别。

具体的，待处理图像可以是某个视频图像画面的某一帧或某一组图像，待处理图像的获取方式可以通过图像采集设备进行实时采集，也可以通过从本地存储数据库或其它存储设备中获取，对此，本发明实施例不加以限制。

在实际应用中，当对待处理图像进行识别时，可以出现待处理图像中不存在人物，即不包括人物图像的情况，在这种情况下，可以选择不对待处理图像中的目标人物进行识别，而是选择将待处理图像中可以用于传达影片剧情的物体作为目标物体，例如，在空中随风飘扬的五星红旗或正在摇摆的古老时钟等活动的物体；在这种情况下，还可以选取视频图像画面中的另一个待处理图像进行识别，以得到目标人物。

步骤102，对所述目标人物进行检测，得到针对所述目标人物的人体姿态信息；

在本发明的一种实施例中，在获取待处理图像，并识别出目标人物之后，可以待处理图像中的目标人物进行检测，以得到针对目标人物的人体姿态信息，以便根据目标人物的人体姿态信息，对目标人物所在的待处理图像的景别进行识别。

在实际应用中，景别的定义具有一定的要求，例如，将画面限定在胸部以上的景别定义为近景，将画面限定在腰部以上的景别定义为中景，为了对画面位于胸部与腰部之间的景别，即对定义上存在模棱两可的景别进行识别，可以在依据景别定义进行粗粒度识别的基础上，根据检测得到的针对目标人物的人体姿态信息，对待处理图像进行比较细粒度的景别识别。

步骤103，对所述人体姿态信息进行编码，得到人体姿态编码向量；

在本发明的一种实施例中，对待处理图像进行比较细粒度的景别识别，在得到目标人物的人体姿态信息之后，可以对人体姿态信息进行编码，得到人体姿态编码向量，人体姿态编码向量可以用于表征目标人物的人体特征信息，以便根据目标人物的特征信息，对目标人物所在的待处理图像进行比较细粒度的景别识别。

步骤104，对所述人体姿态编码向量进行回归预测，生成针对所述待处理图像的景别分数；所述景别分数包括离散化的景别分数；

在本发明的一种实施例中，在得到用于表征目标人物的人体特征信息的人体姿态编码向量之后，可以对人体姿态编码向量进行回归预测，此时可以生成针对目标人物所在的待处理图像的景别分数，以便根据得到的景别分数，对待处理图像进行比较细粒度的景别识别。

在实际应用中，对人体姿态编码向量进行回归预测，可以通过回归算法以及回归模型实现，一般可以分为两个阶段，其分别是训练阶段以及预测阶段；训练阶段指的是在将用于训练向量输入到回归模型，并得到输出结果之后，可以按照预测结果对输出结果进行调整，以便将向量输入以及调整之后符合预测结果的输出，生成符合预测结果的回归算法，用于对正式预测阶段的回归模型进行构建；其中，在本发明的实施例中，回归模型的输入可以是目标人物的人体姿态编码向量，回归模型的输出可以是待处理图像的景别分数。

步骤105，根据所述离散化的景别分数识别所述待处理图像的景别。

在本发明的一种实施例中，在对目标人物的人体姿态编码向量进行回归预测，得到目标人物所在的待处理图像的景别分数之后，可以采用景别分数对待处理数据的景别进行识别，完成对待处理图像进行比较细粒度的景别识别。

在实际应用场景中，通过回归预测得到的景别分数可以是连续的数值，由于可以对连续的景别分数数值进行离散化，其离散化的程度可以表示不同的粒度，且不同的景别分数数值可以分别对应不同的景别，可以通过离散化的景别分数对待处理图像进行比较细粒度的景别识别，避免出现对景别定义上存在模棱两可的景别识别不准确的问题。

在本发明实施例中，通过对待处理图像中的目标人物的人体姿态信息转化为人体姿态编码向量，并对人体姿态编码向量进行回归预测，生成表征不同景别的景别分数，基于目标人物的人体姿态的景别分数，由于可以对景别分数进行离散化，且不同的离散化程度可以表示不同的粒度，通过可以用于表示不同景别的不同粒度精细衡量待处理图像的景别特点，实现任意粒度以及直观地识别待处理图像的景别。

参照图2，示出了本发明的一种景别识别方法实施例二的步骤流程图，具体可以包括以下步骤：

步骤201，对待处理图像进行识别，得到目标人物；

在本发明实施例中，对视频图像画面的景别进行识别以及处理，首先可以获取待处理图像，以及从待处理图像中进行识别得到目标人物，以便根据目标人物的相关特征信息，对目标人物所在的待处理图像的景别进行识别。

在本发明的一种实施例中，对待处理图像中的目标人物进行识别，可以存在未指定目标人物的情况，在这种情况下，所述待处理图像包括人物图像，步骤201可以包括如下子步骤：

子步骤S11，根据所述人物图像生成对应的人体框；

具体的，在未指定目标人物的情况下对待处理图像中的目标人物进行识别，由于不明确目标人物，此时可以对待处理图像中的所有人物图像进行识别，即可以根据待处理图像中的所有人物图像生成对应的人体框，以便对与人物图像对应的人体框的相关信息进行获取。

在实际应用中，人体框生成的方式可以通过人体检测器对待处理图像进行检测，以及采用预置的人物特征信息库以及图像识别算法对人物图像识别，在识别到人物图像的同时，可以绘制与人物图像匹配的人体框，并得到待处理图像中所有人体框的坐标位置信息。需要说明的是，对于每个待处理图像，可以存在一系列人体框的现象。

子步骤S12，获取所述待处理图像的中心点坐标与尺寸大小，以及所述人体框的坐标信息；

在本发明的一种实施例中，在未指定目标人物的情况下，可以将待处理图像中的主体人物确定为目标人物，此时可以获取待处理图像的中心点坐标与尺寸大小，以及所有人体框的坐标信息，以便对待处理图像中的主体人物进行确定。

在实际应用中，通过人体检测器对待处理图像中的人物图像进行人体框的生成的同时，可以得到人体框的坐标位置信息。人体框的坐标位置信息可以具有五个参数，例如[x1,y1,x2,y2,c],其中，(x1,y1)以及(x2,y2)可以分别表示人体框的左上角以及右下角的坐标,c可以表示为人体框的置信度,其置信区间可以在[0,1]，当置信区间越大时，表示置信水平越高，即通过人体检测器检测得到的某个坐标的可靠度越高。需要说明的是，人体框的坐标都是采用所在的待处理图像的坐标轴为同一基准的。

子步骤S13，根据所述待处理图像的中心点坐标与尺寸大小，以及所述人体框的坐标信息，计算得到针对所述人体框的衡量指标；所述衡量指标用于衡量所述人体框与所述待处理图像之间的位置与大小关系；

在本发明实施例中，可以根据获取的待处理图像的中心点坐标与尺寸大小，以及所有人体框的坐标信息，对待处理图像中的主体人物进行确定，其确定的方式可以通过人体框的衡量指标进行确定；其中衡量指标可以是用于衡量人体框与待处理图像之间的位置与大小关系的指标，即可以是用于确定主体人物的指标。

在本发明的一种实施例中，所述坐标信息包括针对所述人体框的边角坐标以及中心点坐标；子步骤S13可以包括如下子步骤：

子步骤S131，根据所述人体框的边角坐标计算得到针对所述人体框的区域大小；

在本发明的一种实施例中，待处理图像的人体框的坐标信息可以包括人体框的边角坐标，此时可以采用人体框的边角坐标计算得到人体框的区域大小，以便用于对主体人物的衡量指标进行计算。

具体的，人体框的区域大小可以包括人体框的高度以及人体框的宽度，此时假设人体框的左上角坐标为(x1,y1)，右下角坐标为(x2,y2)，那么人体框的高度h_b＝y2-y1，人体框的宽度w_b＝x2-x1。

子步骤S132，根据所述待处理图像的中心点坐标以及所述人体框的中心点坐标，计算得到针对所述待处理图像与所述人体框的相对中心点距离；

在本发明的一种实施例中，待处理图像的人体框的坐标信息可以包括人体框的中心点坐标，此时可以采用人体框的中心点坐标以及待处理图像的中心点坐标，计算得到待处理图像与人体框之间的相对中心点距离，以便用于对主体人物的衡量指标进行计算。

具体的，人体框的中心坐标以及待处理图像的中心点坐标可以通过以下方式获取：假设人体框的左上角坐标为(x1,y1)，人体框的右下角坐标为(x2,y2)，人体框的中心点坐标可以为(x_cb，y_cb)，其中x_cb＝(x1+x2)/2，y_cb＝(y1+y2)/2；假设待处理图像的宽度为w_i，以及待处理图像的高度为h_i，此时待处理图像的中心点坐标可以为(x_ci，y_ci)，其中x_ci＝w_i/2，y_ci＝h_i/2。那么待处理图像与人体框之间的相对中心点距离可以为表示为x_cb-x_ci以及y_cb-y_ci。

子步骤S133，采用所述相对中心点距离，所述人体框的区域大小以及所述待处理图像的尺寸大小，计算得到针对所述人体框的衡量指标。

在本发明的一种实施例中，在未指定目标人物的情况下，对待处理图像中的主体人物进行确定，主体人物相对其他人物的特点是在待处理图像画面中占更大的面积,并且更靠近待处理图像画面中央的人物，此时可以通过相对中心点距离、人体框的区域大小以及待处理图像的尺寸大小，对衡量指标进行确定，其衡量指标可以是用于衡量人体框与待处理图像之间的位置与大小关系的指标，以筛选出主体人物并将主体人物作为目标人物。

具体的，人体框的衡量指标可以通过以下公式进行确定：

其中，M表示人体框的衡量指标，其用于衡量人体框与待处理图像之间的位置与大小关系。其中，衡量指标的值越大，则表示人体框与待处理图像之间的中心距离越小且人体框的尺寸大小越大，即表示人体框在待处理图像中所占的面积最大，且更靠近待处理图像的中央。

子步骤S14，将所述衡量指标最大的人体框对应的人物图像确定为所述待处理图像的目标人物。

在实际应用中，在未指定目标人物的情况下，待处理图像中可以存在多个人物图像的情况，且不同的人物图像与镜头的距离不同，在这种情况下，可以默认与镜头距离较近的人物为主要人物，即将待处理画面中的主体人物作为目标人物，其主体人物相对其他人物的特点是在待处理图像画面中占更大的面积,并且更靠近待处理图像画面中央的人物。在通过相对中心点距离，人体框的区域大小以及待处理图像的尺寸大小进行计算，并得到衡量人体框与待处理图像之间的位置与大小关系的衡量指标之后，可以取衡量指标最大的人体框对应的人物图像确定为主体人物，并确定为待处理图像中的目标人物。

需要说明的是，可以存在有至少一个主体人物位于待处理图像的情况，其中，对至少一个主体人物进行确定，同样可以采用上述计算衡量指标的方法。在对衡量指标进行计算之后，可以获取用于表征位于画面中心且尺寸大小符合某个设定要求的预设衡量指标阈值，将达到该预设衡量指标阈值的衡量指标进行衡量指标差值的计算，若存在至少一个衡量指标差值在预设衡量指标误差值内的衡量指标，则可以将与该存在的衡量指标对应的人物图像确定为主体人物。其中，预设衡量指标阈值以及预设衡量指标误差值均可以根据实际画面情况进行提前设置，对此，本发明实施例不加以限制。

在本发明的一种实施例中，对待处理图像中的目标人物进行识别，可以存在指定目标人物的情况，在这种情况下，步骤201可以包括如下子步骤：

子步骤S15，获取与预设人脸信息匹配的目标人脸框；所述预设人脸信息为针对指定人物的人脸信息；

在本发明的一种实施例中，对目标人物进行指定，此时可以获取与指定的目标人物匹配的人脸信息，以及与人脸信息匹配的目标人脸框，以便根据目标人脸框对待处理图像中的目标人物进行确定。

需要说明的是，指定人物可以通过预先指定的方式进行指定，对于指定人物的人脸信息可以预先通过人脸检测以及识别进行获取,并可以得到目标人脸框的坐标位置信息。目标人脸框的位置信息与上述人体框的坐标位置信息的格式一致，同样具有五个参数。

子步骤S16，将所述目标人脸框与所述人体框进行匹配，确定所述目标人脸框与所述人体框的重叠度；

在本发明的一种实施例中，由于已经明确目标人物且已经对目标人物的目标人脸框进行获取之后，此时可以将目标人脸框与待处理图像中的所有人体框进行匹配，并确定目标人脸框与各个人体框的重叠度，以便根据重叠度确定与目标人脸框匹配的人体框。

具体的，目标人脸框与各个人体框的重叠度可以将目标人脸框与各个人体框进行匹配之后，通过计算IOU(Intersection over Union，用于衡量重叠程度的指标)进行确定，其主要是对两个框的交集与并集之比进行计算，即相当于两个区域重叠的部分除以两个区域的集合部分得出的结果。

其中，可以分别根据人体框的坐标信息获取待处理图像中的一系列人体框的坐标位置，以及根据目标人脸框的坐标信息获取待处理图像中目标人脸框的坐标位置，并分别得到各个人体框的坐标位置与目标人脸框的坐标位置的重叠部分，针对某个人体框而言，可以通过其坐标位置与目标人脸框的坐标位置的重叠部分，除以该人体框与目标人脸框的集合部分，得到用于衡量重叠程度的IOU。需要说明的是，指定人物的目标人脸框必须与待处理图像中的至少一个人体框存在重叠部分，才能对与目标人脸框匹配的目标人物进行确定。

子步骤S17，将所述重叠度最大的人体框对应的人物图像确定为所述待处理图像的目标人物。

在实际应用中，在指定目标人物的情况下，在将所述目标人脸框与所述人体框进行重叠，并得到衡量重叠程度的IOU之后，可以取IOU最大，即重叠度最大的人体框对应的人物图像，并确定为与指定的目标人脸框匹配的目标人物。

步骤202，对目标人物进行检测，得到人体姿态信息；

在本发明的一种实施例中，在获取待处理图像，并识别出目标人物之后，可以对待处理图像中的目标人物进行检测，以得到针对目标人物的人体姿态信息，以便根据目标人物的人体姿态信息，对目标人物所在的待处理图像的景别进行识别。

需要说明的是，人体姿态是人体(即人物图像或人体框)是直接呈现出现且可以直接观察到的，人体姿态信息可以包括各个关键点在整个人体中的相对位置信息以及各个关键点彼此间的相对位置信息。

在本发明的一种实施例中，步骤202可以包括如下子步骤：

子步骤S21，获取针对人体姿态的估计模型；

在本发明的一种实施例中，可以获取针对人体姿态的估计模型，并将确定的目标人物的人体框，以便根据人体估计模型对目标人物的人体姿态信息进行获取。

子步骤S22，将所述目标人物的人体框，以及与所述目标人物的人体框对应的人物图像输入所述估计模型，得到针对所述目标人物的关键点坐标以及与所述关键点坐标对应的置信度；

其中，人体姿态估计模型可以采用任何常见的深度学习模型，例如openpose，HRNet等，其用法可以是向人体姿态估计模型输入一张图片以及一个人体框,人体姿态估计模型可以输出针对输入的人体框内的关键点的坐标以及与每个关键点坐标对应的置信度。

在实际应用中，可以将目标人物的人体框，以及与目标人物的人体框对应的人物图像输入到获取的人体姿态估计模型，此时可以得到针对目标人物的关键点坐标以及与每个关键点坐标对应的置信度，即得到针对目标人物的人体姿态信息。

具体的，目标人物的关键点坐标可以包括针对目标人物的人体姿态的主要关键点的坐标，可以包括鼻,眼*2,耳*2,肩*2,肘*2,腕*2,胯*2,膝*2,踝*2等17个关键点的坐标。需要说明的是，主要关键点坐标还可以包括其它关键点坐标，对此，本发明实施例不加以限制。

子步骤S23，将所述目标人物的关键点坐标以及与所述关键点坐标对应的置信度作为所述目标人物的人体姿态信息。

在本发明的一种实施例中，在将目标人物的人体框，以及与目标人物的人体框对应的人物图像输入到针对人体姿态的估计模型，并得到针对目标人物的关键点坐标以及与每个关键点坐标对应的置信度之后，可以将目标人物的关键点坐标以及与每个关键点坐标对应的置信度，作为目标人物的人体姿态信息。

步骤203，对人体姿态信息进行编码，得到人体姿态编码向量；

具体的，对人物姿态信息进行编码，是指对人体关键点进行特征的提取，根据景别的定义，不同的景别可以是目标人物的人物图像在待处理图像中显示出的范围大小不同；也就是说，不同的景别对应的各个关键点在待处理图像上的相互关系不同；人体姿态编码向量可以是人体姿态关键点位置的向量表现形式。

在本发明的一种实施例中，所述目标人物的关键点坐标包括多个关键点坐标；步骤203可以包括如下子步骤：

子步骤S31，从所述目标人物的多个关键点坐标中提取多个纵坐标；

在本发明的一种实施例中，根据人体估计姿态模型得到的针对目标人物的关键点坐标可以包括多个关键点坐标，且由于不同的景别可以定义为人体在画面中显示出的范围大小不同，例如将画面限定在胸部以上的景别定义为近景，以及将画面限定在腰部以上的景别定义为中景，胸部以上以及腰部以上均是基于在纵向上显示出的程度，此时可以从目标人物的多个关键点坐标中提取多个纵坐标，以得到用于表征目标人物的人体姿态的人体姿态编码向量。

在实际应用中，目标人物的关键点坐标可以包括针对目标人物的人体姿态的主要关键点的坐标，可以包括鼻,眼*2,耳*2,肩*2,肘*2,腕*2,胯*2,膝*2,踝*2等17个关键点的坐标；由于目标人物的腕关键点以及肘关键点的灵活性和活动范围比较大,例如当画面在胸部以上(即近景)时,腕关键点和肘关键点既可以在画面内,也可以在画面外,即腕关键点和肘关键点容易对人体姿态的特征产生歧义,既影响模型的性能，且不利于反映待处理图像的景别特点，为了更能直接或间接反应待处理图像的景特点，可以选取鼻,眼*2,耳*2,肩*2,胯*2,膝*2,踝*2等13个关键点的坐标，进行表征目标人物的人体姿态的人体姿态编码向量的计算。

需要说明的是，由于景别的类型是根据将画面限制于人体的某个部位，例如胸部或者腰部等以上进行定义的，即可以将目标人物的纵坐标，而不是横坐标，用于表征目标人物所在的当前待处理图像的景别特点。其中，不同的景别对应的各个关键点坐标，在待处理图像画面上的各个纵坐标的相互关系不同，但各个横坐标的相互关系可以相同，即可以通过获取不同关键点的纵坐标，确定纵坐标之间的相互关系，以直接或间接识别待处理图像的景别特点。

子步骤S32，将所述多个纵坐标进行集合，得到针对所述目标人物的纵坐标集合；

在本发明的一种实施例中，在从目标人物的多个关键点坐标中提取多个纵坐标之后，可以对提取的多个纵坐标进行集合，得到针对目标人物的纵坐标集合，以便将目标人物的纵坐标集合确定为目标人物的人体姿态编码向量，以表征目标人物的人体姿态的特征。

具体的，假设从目标人物的多个关键点坐标中提取的多个纵坐标为y1,y2,…,yn，那么此时可以对提取的多个纵坐标进行集合，得到[y1,y2,…,yn]。

需要说明的是，当待处理图像画面中某个关键点被遮挡或者不存在待处理图像画面中时,将会导致人体姿态估计模型输出的检测结果的置信度很低,即这样的关键点的准确度以及可信度很低；对于这样的关键点,需要降低其检测不准确而对景别判断产生的负面影响，但由于特征空间的维度是固定的n维,直接将这样的关键点进行丢弃，将会造成特征空间维度缺失的问题。

针对上述问题，可以在对提取的多个纵坐标进行集合之后，判断所述多个关键点坐标中是否存在所述置信度小于预设阈值的关键点坐标；若存在所述置信度小于预设阈值的关键点坐标，则将所述置信度小于预设阈值的关键点坐标中的纵坐标替换为预设坐标值。

在实际应用中，在从目标人物的多个关键点坐标中提取多个纵坐标之后，还可以获取与每个纵坐标对应的置信度，其中，每个纵坐标的置信度与纵坐标所在关键点坐标的置信度相同；然后可以对置信度的值进行判断，若置信度的小于预设阈值时，即置信度很低时，可以将与该置信度低的纵坐标替换为预设坐标值，这里的预设坐标值可以统一设置为一个特殊的值，例如设为-1e10，或者其它不会影响正常值的值。需要说明的是，对于采用预测回归的回归模型而言，预设坐标值表示的是可以将其忽略的关键点。

子步骤S33，将所述目标人物的纵坐标集合确定为所述目标人物的人体姿态编码向量。

在本发明的一种实施例中，可以将目标人物的纵坐标集合确定为目标人物的人体姿态编码向量，以表征目标人物的人体姿态的特征，并可以根据表征人体姿态特征的人体姿态编码向量，直接或间接反应待处理图像的景别特点。

具体的，可以将上述得到的纵坐标集合[y1,y2,…,yn]，确定为目标人物的人体编码向量F＝[y1,y2,…,yn]。

步骤204，对人体姿态编码向量进行回归预测，生成针对待处理图像的景别分数；所述景别分数包括离散化的景别分数；

在本发明的一种实施例中，步骤204可以包括如下子步骤：

子步骤S41，获取预先训练的回归模型；

子步骤S42，将所述人体姿态编码向量输入所述预先训练的回归模型，得到输出结果；

子步骤S43，将所述输出结果作为所述待处理图像的景别分数。

在本发明的实施例中，可以对预先训练的回归模型进行获取，该预先训练的回归模型可以是用于获取景别分数的回归模型，然后可以将目标人物的人体姿态编码向量输入预先训练的回归模型，得到目标人物所在的待处理图像的景别分数，以便根据景别分数对待处理图像的景别进行识别。

其中，回归模型的输入可以是目标人物的人体姿态编码向量，回归模型的输出可以是待处理图像的景别分数；采用的回归算法,即通过回归模型的训练，得到针对目标人物的人体姿态编码向量的特征空间与景别分数之间的关系。

具体的，在训练阶段,可以通过对人体姿态的估计模型的输出结果进行不同程度的扩充，裁剪，平移等操作,以进行模拟景别的变化,得到符合预测结果的一组人体姿态和相应的景别分数的数据，并可以利用符合预测结果的这组数据对回归模型进行构建与训练；在预测阶段，可以将得到的表征人体姿态特征的人体姿态编码向量F＝[y1,y2,…,yn]的特征编码，作为训练阶段符合预测结果的回归模型的输入，则该回归模型的输出即为可得到预测的景别分数。

需要说明的是，采用的回归算法可以是任何常见的回归算法,比如经典方法的LinearRegression(线性回归),DecisionTreeRegressor(决策树回归),SVR(supportvector regression，支持向量回归),AdaBoost(Adaptive Boosting，自适应增强算法，是一种机器学习方法),Bagging(指一种用来提高学习算法准确度的方法)等,深度方法的Neural Networks(神经网络)等，对此，本发明实施不加以限制。

步骤205，根据离散化的景别分数对待处理图像的景别进行识别；

在本发明的一种实施例中，在对目标人物的人体姿态编码向量进行回归预测，得到目标人物所在的待处理图像的景别分数之后，可以采用离散化的景别分数对待处理数据的景别进行识别，完成对待处理图像进行比较细粒度的景别识别。

在本发明的一种实施例中，步骤205可以包括如下子步骤：

子步骤S51，获取针对景别分数的多个分数区间；其中，每个分数区间对应不同的景别；

在本发明的一种实施例中，采用景别分数对待处理数据的景别进行识别，可以获取针对回归模型中景别分数的多个分数区间，其中，每个分数区间对应不同的景别，以便根据待处理图像的景别分数匹配的分数区间，确定待处理图像的景别。

在实际应用中，可以在对回归模型的训练阶段对景别分数的取值范围以及针对景别分数的多个分数区间进行确定。根据不同的应用场景对不同的景别的景别分数划分多个分数区间，例如离散化为相对较细的特写、近景、中近景、中景、中全景、全景、远景等7类，此时可以进行以下定义：特写对应的分数区间为(0,0.3]，近景对应的分数区间为(0.3,0.5]，中近景对应的分数区间为(0.5,0.7]，中景对应的分数区间为(0.7,0.9]，中全景对应的分数区间为(0.9,1.1]，全景对应的分数区间为(1.1,1.4]，远景对应的分数区间为(1.4,2]。其中，景别分数的值越大，则表示镜头距离目标人物越远，这里也可以采用其他定义，只要保证景别分数的大小变化和镜头的远近变化不会产生冲突即可。

需要说明的是，对景别分数的取值范围进行离散景别的区间划分，由于在回归模型的训练阶段以及预测阶段，其用于回归预测的数据是根据关键点位置，对对应的景别分数进行获取的，例如在胸部左右的景别分数定为0.5,即表示景别分数为0.5属于近景；在腰部左右的景别分数定为0.9,即表示景别分数为0.9属于中景；在胸部到腰部之间的景别分数可以根据距离腰部的距离比例,得到0.5-0.9之间的值,则可以将上述所划分的多个分数区间，确定为离散景别的划分区间。在后续的使用中，可以根据实际使用中的测试情况,对确定的划分区间进行微调。

子步骤S52，确定所述离散化的景别分数的分数区间；

子步骤S53，根据所述分数区间识别所述待处理图像的景别。

在获取针对回归模型的景别分数的多个分数区间之后，可以确定待处理图像的景别分数所在的分数区间，以确定与该分数区间对应的景别。

在本发明的一种实施例中，假设将景别的分数区间设置为(0,2],并根据实际使用场景,对其进行离散化的映射,例如(0.5,0.7]的分数区间对应为中近景，当待处理图像的景别分数处于(0.5,0.7]时，则可以确定待处理图像的景别为中近景。

在一种优选的实施例中，在根据所述离散化的景别分数识别所述待处理图像的景别之后，还可以采用待处理图像的景别，对待处理图像进行处理。

在实际应用中，在获取待处理图像的景别分数，并对待处理图像的景别进行确定之后，可以采用确定的景别对待处理图像进行处理；其中，采用确定的景别对待处理图像进行处理，实际上是对目标人物对应的人物图像进行处理。

具体的，假设将景别的分数区间设置为(0,2],在不进行离散景别的区间划分的情况下，可以存在近景的景别分数为0.5，中景的景别分数为0.9，则对于0.5-0.9之间的值表示处于中景与中近景之间的模糊区间内，不能对其景别进行确定。此时根据实际使用场景,对其进行离散化的映射,如(0.5,0.7]的分数区间对应为中近景，当待处理图像的景别分数处于(0.5,0.7]时，则可以确定待处理图像的景别为中近景；那么此时可以引导用户对人物图像底部进行适当的裁剪，以使其满足标准的中近景的要求。

参照图3,，示出了本发明的一种景别识别方法实施例的识别流程图，如图3所示，对于景别识别的过程可以包括：

1)获取待处理图像，待处理图像可以包括人物图像以及其他图像；

2)对待处理图像中的目标人物进行检测：

在第一种情况下，当未指定目标人物时，可以通过人体检测得到人体框，并结合人体框区域大小，以及人体框与人物图像中心点距离来确定目标人物；在第二种情况下，当已指定目标人物(即具有指定人物的人脸身份)时，可以通过人脸识别获取指定人物的人脸框，并结合指定人物的人脸框以及待处理图像中的人体框的IOU，确定目标人物；

3)若通过上述步骤对目标人物进行确定之后，可以通过人体姿态估计模型，检测目标人物的人体姿态，以获取目标人物的人体姿态信息；

4)对目标人物的人体姿态信息进行编码，以得到人体姿态编码向量，具体为，选取人体姿态中指定的n个关键点，并结合关键点对应的置信度，得到n维姿态编码向量；

5)可以利用回归算法，对人体姿态编码向量进行回归预测，得到景别分数；

6)可以根据不同应用场景，以及根据不同的景别分数对对应的景别进行识别之后，对待处理图像(实际上处理的对象为人脸图像)进行不同的处理，如离散化为相对较细的特写、近景、中近景、中景、中全景、全景、远景等7类。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种景别识别装置实施例的结构框图，具体可以包括如下模块：

目标人物识别模块401，用于获取待处理图像，并对所述待处理图像进行识别得到目标人物；

目标人物检测模块402，用于对所述目标人物进行检测，得到针对所述目标人物的人体姿态信息；

人体姿态信息编码模块403，用于对所述人体姿态信息进行编码，得到人体姿态编码向量；

景别分数生成模块404，用于对所述人体姿态编码向量进行回归预测，生成针对所述待处理图像的景别分数；所述景别分数包括离散化的景别分数；

景别识别模块405，用于根据所述离散化的景别分数识别所述待处理图像的景别。

在本发明的一种实施例中，所述待处理图像包括人物图像；目标人物识别模块401可以包括如下子模块：

人体框生成子模块11，用于根据所述人物图像生成对应的人体框；

坐标信息获取子模块12，用于获取所述待处理图像的中心点坐标与尺寸大小，以及所述人体框的坐标信息；

衡量指标确定子模块13，用于根据所述待处理图像的中心点坐标与尺寸大小，以及所述人体框的坐标信息，计算得到针对所述人体框的衡量指标；所述衡量指标用于衡量所述人体框与所述待处理图像之间的位置与大小关系；

目标人物第一确定子模块14，用于将所述衡量指标最大的人体框对应的人物图像确定为所述待处理图像的目标人物。

在本发明的一种实施例中，所述坐标信息包括针对所述人体框的边角坐标以及中心点坐标；衡量指标确定子模块13可以包括如下单元：

区域大小确定单元131，用于根据所述人体框的边角坐标计算得到针对所述人体框的区域大小；

相对中心点距离确定单元132，用于根据所述待处理图像的中心点坐标以及所述人体框的中心点坐标，计算得到针对所述待处理图像与所述人体框的相对中心点距离；

衡量指标确定单元133，用于采用所述相对中心点距离，所述人体框的区域大小以及所述待处理图像的尺寸大小，计算得到针对所述人体框的衡量指标。

在本发明的一种实施例中，目标人物识别模块401还可以包括如下子模块：

目标人脸框获取子模块15，用于获取与预设人脸信息匹配的目标人脸框；所述预设人脸信息为针对指定人物的人脸信息；

重叠度确定子模块16，用于将所述目标人脸框与所述人体框进行匹配，确定所述目标人脸框与所述人体框的重叠度；

目标人物第二确定子模块17，用于将所述重叠度最大的人体框对应的人物图像确定为所述待处理图像的目标人物。

在本发明的一种实施例中，目标人物检测模块402可以包括如下子模块：

估计模型获取子模块21，用于获取针对人体姿态的估计模型；

关键点坐标获取子模块22，用于将所述目标人物的人体框，以及与所述目标人物的人体框对应的人物图像输入所述估计模型，得到针对所述目标人物的关键点坐标以及与所述关键点坐标对应的置信度；

人体姿态信息获取子模块23，用于将所述目标人物的关键点坐标以及与所述关键点坐标对应的置信度作为所述目标人物的人体姿态信息。

在本发明的一种实施例中，所述目标人物的关键点坐标包括多个关键点坐标；人体姿态信息编码模块403可以包括：

纵坐标提取子模块31，用于从所述目标人物的多个关键点坐标中提取多个纵坐标；

置信度判断子模块32，用于判断所述多个关键点坐标中是否所述置信度小于预设阈值的关键点坐标；

纵坐标替换子模块33，用于若存在所述置信度小于预设阈值的关键点坐标，则将所述置信度小于预设阈值的关键点坐标中的纵坐标替换为预设坐标值；

纵坐标集合获取子模块34，用于将所述多个纵坐标进行集合，得到针对所述目标人物的纵坐标集合；

人体姿态编码向量确定子模块35，用于将所述目标人物的纵坐标集合确定为所述目标人物的人体姿态编码向量。

在本发明的一种实施例中，景别分数生成模块404可以包括如下子模块：

回归模型获取子模块41，用于获取预先训练的回归模型；

输出结果获取子模块42，用于将所述人体姿态编码向量输入所述预先训练的回归模型，得到输出结果；

景别分数生成子模块43，用于将所述输出结果作为所述待处理图像的景别分数。

在本发明的一种实施例中，景别识别模块405可以包括如下子模块：

分数区间获取子模块51，用于获取针对景别分数的多个分数区间；其中，每个分数区间对应不同的景别；

分数区间确定子模块52，用于确定所述离散化的景别分数的分数区间；

景别识别子模块53，用于根据所述分数区间识别所述待处理图像的景别

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现如下步骤：

对所述人体姿态信息进行编码，得到人体姿态编码向量；

根据所述离散化的景别分数识别所述待处理图像的景别。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的景别识别方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的景别识别方法。

需要说明的是，本发明实施例提出的一种景别识别方法、一种景别识别装置、一种电子设备和一种计算机可读存储介质，其涉及到的关于景别分数的回归模型，不用采集大量的景别数据，只需要几张(10张左右)不同姿态的全景或远景图，并通过模拟裁剪，构造出不同景别的数据(近万条)，用于训练回归模型。本发明实施例可以被图像、视频、计算机视觉相关技术的公司使用，并可以用于AIWorks(Artificial Intelligence Works，指与人工智能相关的工作)、小媒资等，以辅助视频剪辑创作，提高素材检索效率，以及丰富智能创作形式。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Sol id StateDisk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种景别识别方法，其特征在于，所述方法包括：

对所述人体姿态信息进行编码，得到人体姿态编码向量；

根据所述离散化的景别分数识别所述待处理图像的景别。

2.根据权利要求1所述的方法，其特征在于，所述待处理图像包括人物图像；所述从所述待处理图像中进行识别得到目标人物，包括：

根据所述人物图像生成对应的人体框；

获取所述待处理图像的中心点坐标与尺寸大小，以及所述人体框的坐标信息；

根据所述待处理图像的中心点坐标与尺寸大小，以及所述人体框的坐标信息，计算得到针对所述人体框的衡量指标；所述衡量指标用于衡量所述人体框与所述待处理图像之间的位置与大小关系；

将所述衡量指标最大的人体框对应的人物图像确定为所述待处理图像的目标人物。

3.根据权利要求2所述的方法，其特征在于，所述坐标信息包括针对所述人体框的边角坐标以及中心点坐标；所述根据所述待处理图像的中心点坐标与尺寸大小，以及所述人体框的坐标信息，计算得到针对所述人体框的衡量指标，包括：

根据所述人体框的边角坐标计算得到针对所述人体框的区域大小；

根据所述待处理图像的中心点坐标以及所述人体框的中心点坐标，计算得到针对所述待处理图像与所述人体框的相对中心点距离；

采用所述相对中心点距离，所述人体框的区域大小以及所述待处理图像的尺寸大小，计算得到针对所述人体框的衡量指标。

4.根据权利要求1或2所述的方法，其特征在于，所述从所述待处理图像中进行识别得到目标人物，还包括：

获取与预设人脸信息匹配的目标人脸框；所述预设人脸信息为针对指定人物的人脸信息；

将所述目标人脸框与所述人体框进行匹配确定所述目标人脸框与所述人体框的重叠度；

将所述重叠度最大的人体框对应的人物图像确定为所述待处理图像的目标人物。

5.根据权利要求2或4所述的方法，其特征在于，所述对所述目标人物进行检测，得到针对所述目标人物的人体姿态信息，包括：

获取针对人体姿态的估计模型；

将所述目标人物的人体框，以及与所述目标人物的人体框对应的人物图像输入所述估计模型，得到针对所述目标人物的关键点坐标以及与所述关键点坐标对应的置信度；

将所述目标人物的关键点坐标以及与所述关键点坐标对应的置信度作为所述目标人物的人体姿态信息。

6.根据权利要求5所述的方法，其特征在于，所述目标人物的关键点坐标包括多个关键点坐标；所述对所述人体姿态信息进行编码，得到人体姿态编码向量，包括：

从所述目标人物的多个关键点坐标中提取多个纵坐标；

将所述多个纵坐标进行集合，得到针对所述目标人物的纵坐标集合；

将所述目标人物的纵坐标集合确定为所述目标人物的人体姿态编码向量。

7.根据权利要求6所述的方法，其特征在于，所述将所述多个纵坐标进行集合，得到针对所述目标人物的纵坐标集合，还包括：

判断所述多个关键点坐标中是否存在所述置信度小于预设阈值的关键点坐标；

若存在所述置信度小于预设阈值的关键点坐标，则将所述置信度小于预设阈值的关键点坐标中的纵坐标替换为预设坐标值。

8.根据权利要求1所述的方法，其特征在于，所述对所述人体姿态编码向量进行回归预测，生成针对所述待处理图像的景别分数，包括：

获取预先训练的回归模型；

将所述人体姿态编码向量输入所述预先训练的回归模型，得到输出结果；

将所述输出结果作为所述待处理图像的景别分数。

9.根据权利要求1所述的方法，其特征在于，所述根据所述离散化的景别分数识别所述待处理图像的景别，包括：

获取针对景别分数的多个分数区间；其中，每个分数区间对应不同的景别；

确定所述离散化的景别分数的分数区间；

根据所述分数区间识别所述待处理图像的景别。

10.一种景别识别装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-9任一所述的景别识别方法步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的景别识别方法。