CN114529558A

CN114529558A - 图像处理方法、装置、电子设备和可读存储介质

Info

Publication number: CN114529558A
Application number: CN202210122211.7A
Authority: CN
Inventors: 罗志鹏
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2022-02-09
Filing date: 2022-02-09
Publication date: 2022-05-24

Abstract

本申请公开了一种图像处理方法、装置、电子设备和可读存储介质，属于电子技术领域。其中，所述方法包括：基于连接模型获取第一图像的特征信息，其中，所述连接模型为在构图模型在基础上，连接美学模块分支得到的；根据所述特征信息，在所述第一图像中确定N1个第一区域，N1为正整数；确定各个所述第一区域对应的第一美学分数信息；在所述第一图像中输出各个所述第一区域对应的边框线，以及输出各个所述第一区域对应的第一美学分数信息。

Description

图像处理方法、装置、电子设备和可读存储介质

技术领域

本申请属于图像处理技术领域，具体涉及一种图像处理方法、装置、电子设备和可读存储介质。

背景技术

目前，用户在浏览视频推荐等页面时，在页面中呈现出多个图片，每个图片用于表示所对应的视频的简略信息，这样，有助于用户在推荐页面中，快速浏览各个视频的主要内容，从而使得用户可以选择感兴趣的图片进行如点击等操作，进而使得界面显示该图片所对应的视频播放页面。

通常，对于某个视频，选择视频中的某帧图片，并在该图片中，选择某个区域，进行裁剪，以作为该视频的封面，最终展示在视频推荐页面中。在现有技术中，针对图片进行裁剪，所采用的方法如：以图片的左上角为参考点，进行一定区域的裁剪；以图片的中心为参考点，进行一定区域的裁剪；等等。

可见，通过现有技术中的方法对图片进行裁剪，导致裁剪所得到的图片从构图方面来说，美观性较低。

发明内容

本申请实施例的目的是提供一种图像处理方法，能够解决通过现有技术中的方法对图片进行裁剪，导致裁剪所得到的图片从构图方面来说，美观性较低的问题。

第一方面，本申请实施例提供了一种图像处理方法，该方法包括：基于连接模型获取第一图像的特征信息，其中，所述连接模型为在构图模型在基础上，连接美学模块分支得到的；根据所述特征信息，在所述第一图像中确定N1个第一区域，N1为正整数；确定各个所述第一区域对应的第一美学分数信息；在所述第一图像中输出各个所述第一区域对应的边框线，以及输出各个所述第一区域对应的第一美学分数信息。

第二方面，本申请实施例提供了一种图像处理装置，该装置包括：获取模块，用于基于连接模型获取第一图像的特征信息，其中，所述连接模型为在构图模型在基础上，连接美学模块分支得到的；第一确定模块，用于根据所述特征信息，在所述第一图像中确定N1个第一区域，N1为正整数；第二确定模块，用于确定各个所述第一区域对应的第一美学分数信息；输出模块，用于在所述第一图像中输出各个所述第一区域对应的边框线，以及输出各个所述第一区域对应的第一美学分数信息。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

这样，在本申请的实施例中，基于预先对连接模型进行训练，可以将第一图像输入连接模型中，从而，由连接模型根据第一图像的特征信息，利用构图模型的算法在第一图像中确定N1个第一区域，第一区域可以作为裁剪后保留下来的图像；进一步地，在确定N1个第一区域之后，由连接模型根据N1个第一区域，利用美学模块分支的算法，分别对各个第一区域进行美学评分，以确定各个第一区域对应的第一美学分数信息。最后，在第一图像中，输出各个第一区域的边框线，同时，输出各个第一区域对应的第一美学分数信息。可见，基于最终呈现的输出效果，可以提供了多个可裁剪边框的美学评分，以供用户参考，从而可以确保用户所选的裁剪图较为美观。

附图说明

图1是本申请实施例的图像处理方法的流程图之一；

图2是本申请实施例的图像处理方法的输出示意图；

图3是本申请实施例的图像处理方法的流程图之二；

图4是本申请实施例的图像处理方法的流程图之三；

图5是本申请实施例的图像处理方法的流程图之四；

图6是本申请实施例的图像处理方法的流程图之五；

图7是本申请实施例的图像处理装置的框图；

图8是本申请实施例的电子设备的硬件结构示意图之一；

图9是本申请实施例的电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例的附图，对本申请实施例的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的图像处理方法进行详细地说明。

图1示出了本申请一个实施例的图像处理方法的流程图，该方法应用于电子设备，包括：

步骤110：基于连接模型获取第一图像的特征信息，其中，连接模型为在构图模型在基础上，连接美学模块分支得到的。

可选地，本申请中的图像处理方法是通过连接模型实现的，其中，连接模型为在构图模型在基础上，连接美学模块分支得到的。

对应地，在该步骤中，将第一图像作为初始图像输入连接模型中。

可选地，第一图像为图片，可以是视频中的某帧图片；可以是某张长图片；等等。

第一图像的特征信息包括图像特征信息，用于体现第一图像中包括哪些对象，如人、物、景等。

步骤120：根据特征信息，在第一图像中确定N1个第一区域，N1为正整数。

在该步骤中，由连接模型中所利用的构图模型对应的算法，根据第一图像的特征信息，得到第一图像中的N1个第一区域。

例如，根据第一图像的特征信息，可以识别出第一图像的主要特征信息，可以是人脸，从而以人脸作为参考，在第一图像中划分出第一区域。

其中，在本申请中，通过连接模型，可以在第一图像中确定N1个第一区域，N1为正整数，可以是一个，也可以是多个。

例如，对于确定的N1个第一区域，均包括人脸。

步骤130：确定各个第一区域对应的第一美学分数信息。

在该步骤中，由连接模型中所利用的美学模型分支对应的算法，根据确定的N1个第一区域中的子图像，得到各个子图像的美学分数信息，从而得到各个第一区域对应的第一美学分数信息。

可选地，第一美学分数信息为1-10的分数。

步骤140：在第一图像中输出各个第一区域对应的边框线，以及输出各个第一区域对应的第一美学分数信息。

在该步骤中，基于连接模型对第一图像进行相关的计算，最终在第一图像中输出各个第一区域的边框线，以及各个第一区域对应的第一美学分数信息。

可选地，不同的第一区域的边框线区分显示，如采用不同颜色的线条、采用不同粗细的线条，以达到区别显示的效果。

参见图2，在图示的图片1中，输出多个方框，每个方框用于表示一个第一区域，在图片1的下方，显示有各个方框的示意符号，以及对应的分数。

在本申请另一个实施例的图像处理方法的流程中，步骤120，包括：

子步骤A1：基于构图模型在第一图像中确定N2个第二区域，N2为正整数。

其中，构图模型是基于第一目标图像数据训练而来的。

在该步骤之前，需要完成对构图模型的准备，以在该步骤中，通过构图模型的相关计算，确定第一图像中的N2个第二区域。

参见图3所示的流程图，首先收集图片裁剪的公开数据集，定义该数据集为第一目标图像数据。然后，采用大模型作为模型主体(backbone)训练构图模型，此时的构图模型的标签是裁剪框和置信度，其中的置信度标签为0或者1，对应的训练集标签格式为：图片-裁剪框-类型，即<imageA-x1，y1，x2，y2-1>或者<imageA-x1，y1，x2，y2-0>。其中，imageA用于表示训练的某个图像样本名称，(x1，y1，x2，y2)用于表示通过构图模型输出的图像中的裁剪框的坐标，1用于表示图像中有裁剪框，0用于表示图像中没有裁剪框。

需要说明的是，默认为通过构图模型输出的裁剪框为长方形，(x1，y1)和(x2，y2)分别用于表示长方形中两个对角的坐标。

例如，由构图模型输出的数据为：<image1-142，0，705，426-1>、<image2-487，94，570，165-1>。

参见图3，可由定位器输出裁剪框的坐标，由分类器输出“0”或者“1”。

参见图3，标记2用于表示第一目标图像数据中的一个图像样本，从而，基于图3所示的流程，可以对第一目标图像数据中大量图像进行处理，以得到各个图像对应的输出结果。

其中，第一目标图像数据包括：参与人为主观因素的情况下，针对某种特征信息划取裁剪框的大量图像。因此，将这些图像作为样本，经过训练，使得构图模型具有针对某种特征信息，在图像中确定裁剪框的功能。例如，构图模型针对人像特征信息，在图像中确定裁剪框；又如，构图模型针对物体特征信息，在图像中确定裁剪框。可见，构图模型经过不断的训练，最终输出的裁剪框图像，能够表达初始图像的主要内容，可用于大部分图像裁剪的场景中。

另外，参见图3，在由定位器和分类器对特征处理之前，还包括对图像的特征提取、降维等处理过程，在此不再赘述。

因此，基于对构图模型的上述预先准备，在本实施例中，可由构图模型输出第一图像中的N2个第二区域。

子步骤A2：基于连接模型在第一图像中确定N3个第三区域，N3为正整数。

在该步骤中，参见图4所示的流程，连接模型以构图模型作为基础，将第一图像3作为输入，由定位器输出N3个第三区域的框坐标。

需要说明的是，本申请的第一区域、第二区域和第三区域，均用于表示裁剪框。

子步骤A3：在第四区域与至少一个第二区域的重合度大于第一阈值的情况下，将第四区域确定为一个第一区域，第四区域为一个第三区域。

在该步骤中，对比：由连接模型输出的第一图像的N3个第三区域，以及，由构图模型输出的第一图像的N2个第二区域。

由前述步骤可知，构图模型是经大量图像训练而来的，因此，由构图模型输出的第一图像的N2个第二区域的准确度较高，从而，当由连接模型输出的第一图像的N3个第三区域，与由构图模型输出的第一图像的N2个第二区域的匹配率较高的情况下，可以将由连接模型输出的第一图像的部分或者全部第三区域作为最终输出的第一区域。

在该步骤中，提供了一种对比方法，即将任意一个第三区域(如第四区域)，与N2个第二区域进行对比，若第四区域与至少一个第二区域的重合度满足大于第一阈值的条件，则认为第四区域可以作为最终输出的一个第一区域。以此类推，可以输出N1个第一区域。

其中，若某个第三区域与任意一个第二区域的重合度均无法满足大于第一阈值的条件，则将该第三区域进行剔除。

对应地，N3≧N1。

需要说明的是，本实施例可以理解为对连接模型的训练过程，训练目的在于：使得由连接模型输出的N3个第三区域与构图模型输出的N2个第二区域之间的匹配率较高，从而完成训练，在后续的应用中，可直接对任意图像进行处理，并将得到的图像中的第三区域直接作为第一区域进行输出，而不再需要对比的过程。

在本实施例中，一方面，由构图模型输出第一图像的N2个第二区域，因构图模型为已训练好的模型，其输出的第二区域更符合图像裁剪要求。另一方面，由连接模型输出第一图像的N3个第三区域，将N3个第三区域与N2个第二区域进行对比，以在N3个第三区域中选择满足对比要求的部分或者全部，作为最终呈现在第一图像中的第一区域，从而使得由本申请中的连接模型输出的第一区域更符合图像裁剪要求。

在本申请另一个实施例的图像处理方法的流程中，步骤130，包括：

子步骤B1：基于美学模型确定第五区域对应的第二美学分数信息，第五区域为一个第一区域。

其中，美学模块是基于第二目标图像数据训练而来的。

在该步骤之前，需要完成对美学模型的准备，以在该步骤中，通过美学模型的相关计算，确定各个第一区域对应的第二美学分数信息。

在准备环节中，首先收集图片评分的公开数据集，定义该数据集为第二目标图像数据。例如，利用对比合成照片数据集(Comparative Photo Composition dataset)、美学视觉评估数据集(aesthetic visual analysis dataset，简称AVA dataset)，以及收集部分新闻资讯和视频封面图，等等，按照公开数据集的规则进行人工评分标注，分数为0-10分，从而完成第二目标图像数据的准备工作。参见图5，然后，将第二目标图像数据中的图像样本2，作为输入，输入美学模型中，由回归器(sigmoid)训练时映射到0-1区间，对应的训练数据格式是：图片-美学分数：<imageA-B分>。其中，imageA用于表示训练的某个图像样本名称，B分用于表示该图像样本对应的美学分数。

其中，分数0-10分，在0-1区间，具有一一对应关系。

例如，由美学模型输出的数据为：<image1—5.3分>、<image2—3.1分>。

其中，第二目标图像数据包括：参与人为主观因素的情况下，标注美学分数的大量图像。因此，将这些图像作为样本，经过训练，使得美学模型具有针对图像的构图等美学考虑，确定美学分数信息的功能。

另外，参见图5，在由回归器对特征处理之前，还包括对图像的特征提取、降维等处理过程，在此不再赘述。

子步骤B2：基于连接模型，获取第五区域的1024维特征向量。

子步骤B3：将第五区域的1024维特征向量经一维卷积操作后，得到第五区域的256维特征向量。

子步骤B4：将第五区域的256维特征向量输入目标函数，并输出第五区域对应的第三美学分数信息。

在以上步骤中，参见图4所示的流程，在连接模型中结合美学模型中的分支，以在将第一图像3作为输入的情况下，经一系列处理后，将得到的N1个第一区域作为回归器的输入，从而由回归器输出N1个第一区域的第三美学分数信息。

参见图4，结合美学模型中分支的处理过程，连接模型经过backbone之后，经过一个感兴趣区域(Region of Interest，简称ROI)提取层，提取裁剪框的特征信息，然后再转接深度学习网络的全连接层(full connect，简称FC)1(1024维)、FC2(256维)和回归器：其中FC1到FC2是一个一维卷积操作，将1024维的特征向量压缩为256维，用于学习美学评分的特征；然后256维特征输入回归器函数，输出是一个美学分数，即第三美学分数信息。

子步骤B5：基于第二美学分数信息和第三美学分数信息，进行损失函数计算。

在该步骤中，将第三美学分数信息，与美学模型得到的第二美学分数信息进行损失函数计算。

其中，将第二美学分数信息作为模型理想状态下应该输出的真实值(groundtruth)，以进行损失函数计算。

子步骤B6：在损失函数最小的情况下，确定第三美学分数信息为第五区域对应的第一美学分数信息。

在该步骤中，对比：由连接模型输出的第一图像的N1个第三美学分信息，以及，由美学模型输出的第一图像的N1个第二美学分信息，直至第三美学分信息与第二美学分信息之间的损失函数最小，匹配率达到最高，认为匹配率较高。

由前述步骤可知，美学模型是经大量图像训练而来的，因此，由美学模型输出的第一图像的N1个第二美学分数信息的准确度较高，从而，当由连接模型输出的第一图像的N1个第三美学分信息，与由美学模型输出的第一图像的N1个第二美学分数信息的匹配率较高的情况下，可以将由连接模型输出的第一图像的N1个第三美学分信息，作为最终呈现给用户的第一美学分信息。

可参考地，将任意一个第一区域(如第五区域)的第三美学分信息，与其对应的第二美学分信息进行对比，若二者的匹配率满足大于第二阈值的条件，则认为最终可以呈现给用户第五区域的第三美学分信息，以作为第一美学分信息。其中，二者的匹配率满足大于第二阈值的条件，可对应为，第三美学分信息与第二美学分信息之间的损失达到最小。

其中，若某个第一区域的第三美学分信息，与其对应的第二美学分数信息的匹配率无法满足大于第二阈值的条件，则将该第一区域的第三美学分信息进行剔除。

需要说明的是，本实施例可以理解为对连接模型的训练过程，训练目的在于：使得由连接模型输出的N1个第三美学分数信息与美学模型输出的N1个第二美学分数信息之间的匹配率较高，从而完成训练，在后续的应用中，可直接对任意图像进行处理，并将得到的第一区域的第三美学分数信息直接作为第一美学分数信息进行输出，而不再需要对比的过程。

在本实施例中，一方面，由美学模型输出第一图像的N1个第二美学分数信息，因美学模型为已训练好的模型，其输出的第二美学分数信息更符合图像美学评分标准。另一方面，由连接模型输出第一图像的N1个第三美学分数信息，将第三美学分数信息与对应的第二美学分数信息进行对比，以保留匹配率较高的第三美学分数信息，作为最终呈现给用户的第一美学分数信息，从而使得由本申请中的连接模型输出的第一美学分数信息更符合图像美学要求。

在本申请另一个实施例中，参见图4，示出了由构图模型和美学模型分支组合后形成的连接模型，对图像处理的大致流程。

可选地，对于连接模型，模型主体仍然采用智能裁剪的架构，但是换成resNet50(一个有50个卷积层的深度学习模型)小网络以提高模型运行效率，检测特征、并经感兴趣区域提取后，获得1024维特征值，一个分支通过定位器(softmax)获取裁剪框的框坐标(一个或者很多个)，另外一个分支对比美学模型发生变化，新增一个FC2-256维的全连接层学习质量分数特征，然后使用回归器进行美学评分预测，这样就是实现了裁剪框和美学分数的同时输出。

基于上述组合形成的连接模型，可采用知识蒸馏的训练方法，完成对模型的训练。

如图6所示，构图模型601(第一个虚线框示出了其处理流程)和连接模型(第二个虚线框示出了其处理流程)的输入一致，都是原图P，在知识蒸馏过程中需要输出裁剪框a作为连接模型的真实位置标签。

进一步地，以连接模型的真实位置标签为标准，使得连接模型输出与裁剪框a匹配的裁剪框b。

美学模型602(第三个虚线框示出了其处理流程)的输入为图片P2，是原图P经过裁剪框b裁剪后的小图，输出为美学分数a，作为连接模型的真实分数标签。美学模型在经过backbone后直接FC，一般为1024维特征向量，然后经过回归器计算进行分数输出；而连接模型则是经过backbone之后，还会经过一个ROI提取层，提取裁剪框的特征信息，然后再转接FC1(1024维)、FC2(256维)和回归器：其中FC1到FC2是一个一维卷积操作，将1024维的特征向量压缩为256维，用于学习美学评分的特征；然后256维特征输入回归器函数，输出是一个美学分数，与美学模型得到的美学分数groundtruth进行损失函数计算。所以连接模型实际上是对裁剪框图像进行美学评分，而不是对输入原图P进行美学评分。

其中，以连接模型的真实分数标签为标准，使得连接模型输出与美学分a匹配的美学分b。

参见图6，连接模型的训练主要有两个损失函数(loss)，分别是坐标损失函数(SiteLoss)和评分损失函数(ScoreLoss)，其中SiteLoss主要是真实框和预测框的交并比损失函数(IoUloss)，而ScoreLoss主要是质量分数之间的分数的真实值和预测值的均方误差损失函数(MSELoss)，总的损失函数TotalLoss＝α*SiteLoss+β*ScoreLoss。

可参考地，连接模型的训练过程为：

训练图片P经过连接模型，经过resNet50的模型主体得到16*16的特征图层(featureMap)，然后经过ROI提取可能为裁剪框的小块7*7*1024，再经过一个卷积(conv)操作得到1*1*1024的一维向量，随后进行位置和分数预测：一条分支直接进行位置预测得到裁剪框b，另外一条分支先进行conv计算压缩到256维特征，然后经过sigmoid回归函数计算得到美学分数b，也就是说分数b是针对裁剪框的美学评分，而单独的美学模型只能针对完整的图像进行打分；同时图片P经过构图模型得到裁剪框a。

其中，使用裁剪框b对训练图片P进行裁剪，得到裁剪小图P2，再经过美学模型，得到美学分数a。

将裁剪框a、b代入SiteLoss公式，美学分数代入ScoreLoss公式，最后调整超参数α和β，计算TotalLoss，进行模型参数更新训练。

在本实施例中，构图模型可以输出裁剪框的框坐标(x1，y1，x2，y2)和框内的物体类别概率值，美学模型可以输出裁剪框的美学分数。由于裁剪框和美学分数并不是线性相关的，也就是说裁剪框发生变化后，美学分数的变化无法预测，而本实施例采用的知识蒸馏方法，能够将两个模型进行组合，以完美解决裁剪框和美学评分的相关性问题，即利用美学模型来给连接模型提供训练标签，这样就可以通过修改构图模型的输出分支来实现模型训练。

在本申请另一个实施例的图像处理方法的流程中，步骤140，包括：

子步骤C1：根据第一区域的各个第一位置点的坐标信息，在第一图像中输出第一区域对应的边框线。

在本实施例中，可利用模型中的定位器，获取第一区域的各个第一位置点的坐标信息，从而根据这些点的坐标信息，在第一图像中输出各个第一区域的边框线。

可选地，在本实施例中，可预设第一区域的形状，即裁剪框的形状，从而可以根据第一区域的各个第一位置点之间的相对位置关系，进行点与点之间的连线，最终形成第一区域的边框线。

可选地，第一区域的各个第一位置点包括第一区域的关键点，如所有边角位置的点。

可选地，以第一图像的左上角为原点，建立坐标系，向原点右侧水平方向延伸，作为X轴正方向，向原点下方竖直方向延伸，作为Y轴正方向。

在本实施例中，以第一区域中的各个位置点的坐标信息为参考，在第一图像中呈现出不同的第一区域所对应的边框线，使得用户可以在第一图像中清晰地看到各个裁剪框。

子步骤D1：按照第一形状，以及第一形状对应的N4个预设比例，在第一图像中确定N1个第一区域，N4为正整数，且N1≧N4。

可选地，由模型自动设定第一形状，以及对应的N4个预设比例。

可选地，由用户输入第一形状，以及对应的N4个预设比例，从而模型可以根据用户输入，设定第一形状，以及对应的N4个预设比例。

进一步地，基于预设的第一形状，按照第一形状在第一图像中确定第一区域。

例如，第一形状为长方形。

进一步地，基于预设比例，以预设比例限定第一形状。

例如，预设比例包括长方形的长宽比：1:1、1:2、2:1、3:4、4:3、9:16、16:9，等等中至少一个。

可选地，预设比例的数量可以是多个，每个预设比例可对应地输出至少一个第一区域。

在本实施例中，基于预设的裁剪框的形状和比例尺寸，可以输出更多的裁剪框，方便后续应用选择。

在本申请更多的实施例中，在实际应用中，当有调用图片裁剪需求时，首先，连接模型会输出美学分数前m名的m张裁剪图，以及对应的美学分数；其次，调用方根据需要的图片尺寸类型进行筛选，从m张裁剪图调出n(m>n)张符合需求尺寸的图片；最后，根据n张裁剪图的美学分数，选择最优的裁剪图作为结果图。

综上，现有技术中的图像裁剪方法，缺乏对构图美学的研究。美学评价是指采用传统图片特征或者深度学习特征进行学习，模拟人的主观感受，最后通过算法给图片打上一个美学评分。基于此，本申请利用知识蒸馏，即通过老师模型(构图模型和美学模型)给学生模型(连接模型)提供高质量标签的学习方法，并通过优秀的大模型网络训练小模型网络，使得小模型也能够拥有接近大模型的识别检测能力。最终，基于本申请提供的基于知识蒸馏的图片美学构图裁剪方法，在输入一张图片的情况下，可以输出前N个裁剪框，以及对应裁剪框的美学分数，以同时实现构图裁剪和美学评价，为需求方提供多种尺度裁剪图片选择。常见的场景如，为网页、新闻、视频封面图提供多样化选择。

其中，本申请的改进点在于：使用大模型进行构图和美学评分任务的老师模型建设，作为连接模型训练的基础，而不是将其组合完成裁剪任务；普通的构图裁剪网络，由于美学定义难，只能采用少量裁剪好的优质裁剪图作为标签，导致构图网络最后的置信度参考意义较低，针对此，可采用知识蒸馏的方法进行连接模型训练，将老师模型的输出的裁剪框和分数，作为训练模型的真实标签，解决了标签问题，从而保证了连接模型裁剪和评分的准确率；提供多样性的裁剪尺寸标签，方便后续连接模型能够输出多种尺度的结果，提供多样性选择；只需一个算法服务即可满足互联网类业务侧的多个需求，节省机器资源，简化服务部署逻辑。

可见，本申请提出了一种基于知识蒸馏的图片美学构图裁剪方法，在缺乏人工大规模同时标注裁剪框和对应的美学质量分的情况下，引入知识蒸馏方案，先分别学习构图裁剪和美学评价大模型，然后将这两个大模型作为老师模型，对构图评分进行监督学习，最终获取一个既能智能裁剪又能提供裁剪图美学打分的模型，能够同时输出多尺度的裁剪图片和对应的美学评分，给需求方提供多样化选择。

可参考地，基于当前存在的多深度学习模型串联式解决方案，很多都可以借鉴知识蒸馏的方法，将多个任务集成到一个任务里面，既简化了服务部署逻辑，又节约了机器资源。

本申请实施例提供的图像处理方法，执行主体可以为图像处理装置。本申请实施例中以图像处理装置执行图像处理方法为例，说明本申请实施例提供的图像处理装置。

图7示出了本申请另一个实施例的图像处理装置的框图，该装置包括：

获取模块10，用于基于连接模型获取第一图像的特征信息，其中，连接模型为在构图模型在基础上，连接美学模块分支得到的；

第一确定模块20，用于根据特征信息，在第一图像中确定N1个第一区域，N1为正整数；

第二确定模块30，用于确定各个第一区域对应的第一美学分数信息；

输出模块40，用于在第一图像中输出各个第一区域对应的边框线，以及输出各个第一区域对应的第一美学分数信息。

可选地，第一确定模块20，包括：

第一确定单元，用于基于构图模型在第一图像中确定N2个第二区域，N2为正整数；

第二确定单元，用于基于连接在第一图像中确定N3个第三区域，N3为正整数；

第三确定单元，用于在第四区域与至少一个第二区域的重合度大于第一阈值的情况下，将第四区域确定为一个第一区域，第四区域为一个第三区域；

其中，构图模型是基于第一目标图像数据训练而来的。

可选地，第二确定模块30，包括：

第四确定单元，用于基于美学模型确定各个第一区域对应的第二美学分数信息，第五区域为一个第一区域；

获取单元，用于基于连接模型，获取第五区域的1024维特征向量；

操作单元，用于将第五区域的1024维特征向量经一维卷积操作后，得到第五区域的256维特征向量；

第一输出单元，用于将第五区域的256维特征向量输入目标函数，并输出第五区域对应的第三美学分数信息；

计算单元，用于基于第二美学分数信息和第三美学分数信息，进行损失函数计算；

第五确定单元，用于在损失函数最小的情况下，确定第三美学分数信息为第五区域对应的第一美学分数信息；

其中，美学模型是基于第二目标图像数据训练而来的。

可选地，输出模块40，包括：

第二输出单元，用于根据第一区域的各个第一位置点的坐标信息，在第一图像中输出第一区域对应的边框线。

可选地，第一确定模块20，包括：

第六确定单元，用于按照第一形状，以及第一形状对应的N4个预设比例，在第一图像中确定N1个第一区域，N4为正整数，且N1≧N4。

本申请实施例中的图像处理装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例的图像处理装置可以为具有动作系统的装置。该动作系统可以为安卓(Android)动作系统，可以为ios动作系统，还可以为其他可能的动作系统，本申请实施例不作具体限定。

本申请实施例提供的图像处理装置能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图8所示，本申请实施例还提供一种电子设备100，包括处理器101，存储器102，存储在存储器102上并可在所述处理器101上运行的程序或指令，该程序或指令被处理器101执行时实现上述任一图像处理方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例的电子设备包括上述所述的移动电子设备和非移动电子设备。

图9为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器1010，用于基于连接模型获取第一图像的特征信息，其中，所述连接模型为在构图模型在基础上，连接美学模块分支得到的；根据所述特征信息，在所述第一图像中确定N1个第一区域，N1为正整数；确定各个所述第一区域对应的第一美学分数信息；在所述第一图像中输出各个所述第一区域对应的边框线，以及输出各个所述第一区域对应的第一美学分数信息。

可选地，处理器1010，还用于基于所述构图模型在所述第一图像中确定N2个第二区域，N2为正整数；基于所述连接模型在所述第一图像中确定N3个第三区域，N3为正整数；在第四区域与至少一个所述第二区域的重合度大于第一阈值的情况下，将所述第四区域确定为一个所述第一区域，所述第四区域为一个所述第三区域；其中，所述构图模型是基于第一目标图像数据训练而来的。

可选地，处理器1010，还用于基于所述美学模型确定第五区域对应的第二美学分数信息，所述第五区域为一个所述第一区域；基于所述连接模型，获取所述第五区域的1024维特征向量；将所述第五区域的1024维特征向量经一维卷积操作后，得到所述第五区域的256维特征向量；将所述第五区域的256维特征向量输入目标函数，并输出所述第五区域对应的第三美学分数信息；基于所述第二美学分数信息和所述第三美学分数信息，进行损失函数计算；在损失函数最小的情况下，确定所述第三美学分数信息为所述第五区域对应的第一美学分数信息；其中，所述美学模块是基于第二目标图像数据训练而来的。

可选地，处理器1010，还用于根据所述第一区域的各个第一位置点的坐标信息，在所述第一图像中输出所述第一区域对应的边框线。

可选地，处理器1010，还用于按照第一形状，以及所述第一形状对应的N4个预设比例，在所述第一图像中确定N1个第一区域，N4为正整数，且N1≧N4。

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(GraphicsProcessing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频图像捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频图像的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072中的至少一种。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、动作杆，在此不再赘述。存储器1009可用于存储软件程序以及各种数据，包括但不限于应用程序和动作系统。处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理动作系统、用户页面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器1009可以包括易失性存储器或非易失性存储器，或者，存储器x09可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器1009包括但不限于这些和任意其它适合类型的存储器。

处理器1010可包括一个或多个处理单元；可选的，处理器1010集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述图像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述图像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述图像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

基于连接模型获取第一图像的特征信息，其中，所述连接模型为在构图模型在基础上，连接美学模块分支得到的；

根据所述特征信息，在所述第一图像中确定N1个第一区域，N1为正整数；

确定各个所述第一区域对应的第一美学分数信息；

在所述第一图像中输出各个所述第一区域对应的边框线，以及输出各个所述第一区域对应的第一美学分数信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所述特征信息，在所述第一图像中确定N1个第一区域，包括：

基于所述构图模型在所述第一图像中确定N2个第二区域，N2为正整数；

基于所述连接模型在所述第一图像中确定N3个第三区域，N3为正整数；

在第四区域与至少一个所述第二区域的重合度大于第一阈值的情况下，将所述第四区域确定为一个所述第一区域，所述第四区域为一个所述第三区域；

其中，所述构图模型是基于第一目标图像数据训练而来的。

3.根据权利要求1所述的方法，其特征在于，所述确定各个所述第一区域对应的第一美学分数信息，包括：

基于所述美学模型确定第五区域对应的第二美学分数信息，所述第五区域为一个所述第一区域；

基于所述连接模型，获取所述第五区域的1024维特征向量；

将所述第五区域的1024维特征向量经一维卷积操作后，得到所述第五区域的256维特征向量；

将所述第五区域的256维特征向量输入目标函数，并输出所述第五区域对应的第三美学分数信息；

基于所述第二美学分数信息和所述第三美学分数信息，进行损失函数计算；

在损失函数最小的情况下，确定所述第三美学分数信息为所述第五区域对应的第一美学分数信息；

其中，所述美学模块是基于第二目标图像数据训练而来的。

4.根据权利要求1所述的方法，其特征在于，所述在所述第一图像中输出各个所述第一区域对应的边框线，包括：

根据所述第一区域的各个第一位置点的坐标信息，在所述第一图像中输出所述第一区域对应的边框线。

5.根据权利要求1所述的方法，其特征在于，所述在所述第一图像中确定N1个第一区域，包括：

按照第一形状，以及所述第一形状对应的N4个预设比例，在所述第一图像中确定N1个第一区域，N4为正整数，且N1≧N4。

6.一种图像处理装置，其特征在于，所述装置包括：

获取模块，用于基于连接模型获取第一图像的特征信息，其中，所述连接模型为在构图模型在基础上，连接美学模块分支得到的；

第一确定模块，用于根据所述特征信息，在所述第一图像中确定N1个第一区域，N1为正整数；

第二确定模块，用于确定各个所述第一区域对应的第一美学分数信息；

输出模块，用于在所述第一图像中输出各个所述第一区域对应的边框线，以及输出各个所述第一区域对应的第一美学分数信息。

7.根据权利要求6所述的装置，其特征在于，所述第一确定模块，包括：

第一确定单元，用于基于所述构图模型在所述第一图像中确定N2个第二区域，N2为正整数；

第二确定单元，用于基于所述连接模型在所述第一图像中确定N3个第三区域，N3为正整数；

第三确定单元，用于在第四区域与至少一个所述第二区域的重合度大于第一阈值的情况下，将所述第四区域确定为一个所述第一区域，所述第四区域为一个所述第三区域；

其中，所述构图模型是基于第一目标图像数据训练而来的。

8.根据权利要求6所述的装置，其特征在于，所述第二确定模块，包括：

第四确定单元，用于基于所述美学模型确定各个所述第一区域对应的第二美学分数信息，所述第五区域为一个所述第一区域；

获取单元，用于基于所述连接模型，获取所述第五区域的1024维特征向量；

操作单元，用于将所述第五区域的1024维特征向量经一维卷积操作后，得到所述第五区域的256维特征向量；

第一输出单元，用于将所述第五区域的256维特征向量输入目标函数，并输出所述第五区域对应的第三美学分数信息；

计算单元，用于基于所述第二美学分数信息和所述第三美学分数信息，进行损失函数计算；

第五确定单元，用于在损失函数最小的情况下，确定所述第三美学分数信息为所述第五区域对应的第一美学分数信息；

其中，所述美学模块是基于第二目标图像数据训练而来的。

9.根据权利要求6所述的装置，其特征在于，所述输出模块，包括：

第二输出单元，用于根据所述第一区域的各个第一位置点的坐标信息，在所述第一图像中输出所述第一区域对应的边框线。

10.根据权利要求6所述的装置，其特征在于，所述第一确定模块，包括：

第六确定单元，用于按照第一形状，以及所述第一形状对应的N4个预设比例，在所述第一图像中确定N1个第一区域，N4为正整数，且N1≧N4。

11.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1～5任一项所述的图像处理方法的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1～5任一项所述的图像处理方法的步骤。