CN116758359A

CN116758359A - 图像识别方法、装置及电子设备

Info

Publication number: CN116758359A
Application number: CN202311031235.2A
Authority: CN
Inventors: 陈少华; 余亭浩; 王赟豪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2023-09-15

Abstract

本申请实施例提供了一种图像识别方法、装置及电子设备，包括：通过目标图像分类模型中的变换器获取各图像块对应的第一语义特征；通过目标图像分类模型中的图像块分类模块，获取图像块的第一分类概率，并通过目标图像分类模型中的图像分类模块，获取待识别图像为各种不适类型的图像的第二分类概率；通过目标图像分类模型中的输出层，基于各第一分类概率和第二分类概率中的至少一项，获取待识别图像的图像识别结果。该方案利用了待识别图像的局部特征，提高对包含较小不适区域的图像的召回率。

Description

图像识别方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种图像识别方法、装置及电子设备。

背景技术

随着移动互联网的高速发展，人们花费了大量时间阅读信息流资讯或者观看短视频，也有越来越多的人做起了自媒体，创作了大量作品。但是其中创作的内容质量参差不齐，存在封面图或者视频内容包含一些引起用户不适感的图像，严重影响了用户的观看体验，这类图像可以统称为不适图像。识别出不适图像进行过滤对提升内容生态、提升用户阅读体验至关重要。

目前，很多内容提供平台会采用人工智能（AI）模型来对识别不适图像，然而有的图像的不适区域较小，面积区域更大的背景很容易使模型无法识别出不适图像。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，本申请实施例所提供的技术方案如下：

第一方面，本申请实施例提供了一种图像识别方法，包括：

将待识别图像分割为至少两个图像块，并将各图像块输入目标图像分类模型，通过目标图像分类模型中的变换器获取各图像块对应的第一语义特征；

通过目标图像分类模型中的图像块分类模块，基于每一图像块对应的第一语义特征，获取图像块为各种不适类型的图像块的第一分类概率，并通过目标图像分类模型中的图像分类模块，基于各图像块对应的第一语义特征，获取待识别图像为各种不适类型的图像的第二分类概率；

通过目标图像分类模型中的输出层，基于各第一分类概率和第二分类概率中的至少一项，获取待识别图像的图像识别结果。

在本申请的一种可选实施例中，各种不适类型通过以下方式确定：

获取第一预设数量的图像，并获取各图像的第二语义特征；

基于各第二语义特征对各图像进行聚类，得到多个图像簇；

对于每一图像簇，基于图像簇中的第二预设数量的图像确定图像簇对应的不适类型，将各图像簇对应的不适类型确定为各个不适类型。

在本申请的一种可选实施例中，通过目标图像分类模型中的图像分类模块基于各图像块对应的第一语义特征，获取待识别图像为各种不适类型的图像的第二分类概率，包括：

对各图像块对应的第一语义特征进行均值处理，得到第三语义特征；

基于第三语义特征获取第二分类概率；

通过目标图像分类模型中的输出层基于各第一分类概率和第二分类概率中的至少一项，获取待识别图像的图像识别结果，包括：

对各第一分类概率进行均值处理，得到第四分类概率，并获取第二分类概率和第四分类概率对应的第一预设权重；

对第二分类概率和第四分类概率按第一预设权重进行加权处理，得到第三分类概率；

基于第三分类概率获取待识别图像的图像识别结果。

在本申请的一种可选实施例中，目标图像分类模型通过如下方式获取：

获取第三预设数量的样本图像，并对每一样本图像进行分割得到对应的样本图像块，每一样本图像携带有用于指示样本图像是否为各不适类型的图像的标签，若是，标签还指示对应的不适类型；每一样本图像块携带有用于指示样本图像块是否为各不适类型的图像块的标签，若是，标签还指示对应的不适类型；

利用各样本图像对初始图像分类模型迭代执行以下训练操作，直至总损失值不大于预设阈值得到目标图像分类模型：

将样本图像对应的样本图像块输入初始图像分类模型，得到各图像块为各种不适类型的图像块的第一预测分类概率和样本图像为各种不适类型的图像的第二预测分类概率；

基于每一样本图像块的标签和第一预测分类概率获取样本图像块对应的第一损失值，基于样本图像的标签和第二预测分类概率获取对应的第二损失值；

基于各第一损失值和第二损失值获取总损失值，并基于总损失值调整初始图像分类模型的参数。

在本申请的一种可选实施例中，样本图像中通过标注框标注样本图像中的不适区域，样本图像中的每一样本图像块的标签通过以下方式获取：

获取样本图像块与样本图像中标注框的重合比例；

若重合比例小于预设比例，则将样本图像块的标签确定为非不适类型的图像块，若重合比例不小于预设比例，则将样本图像块的标签确定为不适类型与样本图像不适类型相同的不适样本图像块。

在本申请的一种可选实施例中，基于各第一损失值和第二损失值获取总损失值，包括：

对各第一损失值进行均值处理得到第三损失值，并获取第二损失值和第三损失值对应的第二预设权重；

对第二损失值和第三损失值按第二预设权重进行加权处理，得到总损失值。

在本申请的一种可选实施例中，通过目标图像分类模型中的图像分类模块，基于各图像块对应的第一语义特征，获取待识别图像为各种不适类型的图像的第二分类概率，包括：

基于注意力机制获取各第一语义特征对应的第三权重；

对各第一语义特征基于第三权重进行加权处理得到第四语义特征；

基于第四语义特征获取第二分类概率；

通过目标图像分类模型中的输出层，基于各第一分类概率和第二分类概率中的至少一项，获取待识别图像的图像识别结果，包括：

将第二分类概率作为第三分类概率；

基于第三分类概率获取待识别图像的图像识别结果。

第二方面，本申请实施例提供了一种图像识别装置，包括：

语义特征获取模块，用于将待识别图像分割为至少两个图像块，并将各图像块输入目标图像分类模型，通过目标图像分类模型中的变换器获取各图像块对应的第一语义特征；

分类概率获取模块，用于通过目标图像分类模型中的图像块分类模块，基于每一图像块对应的第一语义特征，获取图像块为各种不适类型的图像块的第一分类概率，并通过目标图像分类模型中的图像分类模块，基于各图像块对应的第一语义特征，获取待识别图像为各种不适类型的图像的第二分类概率；

识别结果获取模块，用于通过目标图像分类模型中的输出层，基于各第一分类概率和第二分类概率中的至少一项，获取待识别图像的图像识别结果。

在本申请的一种可选实施例中，该装置还可以包括不适类型确定模块，用于：

获取第一预设数量的图像，并获取各图像的第二语义特征；

基于各第二语义特征对各图像进行聚类，得到多个图像簇；

在本申请的一种可选实施例中，分类概率获取模块具体用于：

基于第三语义特征获取第二分类概率；

识别结果获取模块具体用于：

基于第三分类概率获取待识别图像的图像识别结果。

在本申请的一种可选实施例中，该装置还包括模型训练模块，用于：

在本申请的一种可选实施例中，样本图像中通过标注框标注样本图像中的不适区域，模型续联模块具体用于：

获取样本图像块与样本图像中标注框的重合比例；

在本申请的一种可选实施例中，模型续联模块具体用于：

基于注意力机制获取各第一语义特征对应的第三权重；

基于第四语义特征获取第二分类概率；

识别结果获取模块具体用于：

将第二分类概率作为第三分类概率；

基于第三分类概率获取待识别图像的图像识别结果。

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器；

存储器中存储有计算机程序；

处理器，用于执行计算机程序以实现第一方面实施例或第一方面任一可选实施例中所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现第一方面实施例或第一方面任一可选实施例中所提供的方法。

第五方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行时实现第一方面实施例或第一方面任一可选实施例中所提供的方法。

本申请实施例提供的技术方案带来的有益效果是：

首先将待识别图像分割为多个图像块，再将各图像块输入目标图像分类模型中，通过该模型的变换器提取各图像块的第一语义特征，然后，通过图像块分类模块执行一路分类任务，即基于各第一语义特征获取各图像块为各种不同不适类型的第一分类概率，通过图像分类模块执行另一路分类任务，即基于各第一语义特征获取待识别图像为各种不同不适类型的第二分类概率，最后在基于各图像块对应的第一分类概率和待识别图像对应的第二分类概率，确定该待识别图像的图像分类结果。该方案将待识别图像分割为多个图像块，再通过变换器提取各图像块的语义特征，并获取了每个图像块对应的第一分类概率，并在确定待识别图像的最终的第三分类概率时利用了第一分类概率，进而利用了待识别图像的局部特征，提高对包含较小不适区域的图像的召回率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种图像识别方法实施所依赖的系统架构示意图；

图2为本申请实施例提供的一种图像识别方法的流程示意图；

图3为本申请实施例的一个示例中不适细粒度体系构建过程流程示意图；

图4为本申请实施例的一个示例中的不适细粒度体系；

图5为本申请实施例的一个示例中图像识别方法的示意图；

图6为本申请实施例提供的一种图像识别装置结构框图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或 “耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1为本申请实施例提供的一种图像识别方法实施所依赖的系统架构示意图，如图1所示，该系统可以包括内容提供平台101、内容生成方102和内容消费方103，其中，内容提供平台101可以包括后台服务器和相应的客户端，客户端可以分为内容生成方客户端和内容消费方客户端，内容生成方102会利用内容生成方客户端制作相关内容并上传至内容提供平台101的后台服务器，在后台服务器可以部署相关人工智能模型，用于对这些内容中相关图像进行识别，以识别出其中的不适图像，进而进行处理后再推送至内容消费方客户端，以保证内容消费方103的观看体验。本申请实施例的改进方案主要是在后台服务器对不适图像的识别过程中。

当然，可以理解的是，上述人工智能识别模型也可以部署在内容消费方客户端，本申请可适用于各种需要进行不适图像识别的场景，并不以上述典型场景为限。

图2为本申请实施例提供的一种图像识别方法的流程示意图，该方法的执行主体可以是图1中的后台服务器，如图2所示，该方法可以包括：

步骤S201，将待识别图像分割为至少两个图像块，并将各图像块输入目标图像分类模型，通过目标图像分类模型中的变换器获取各图像块对应的第一语义特征。

其中，待识别图像可以是内容生成方提供的视频内容的封面图像，也可以是该视频内容中特定帧图像，本申请实施例中不做限定，在内容提供过程中有需要进行不适图像识别的图像都可以成为待识别图像。

其中，目标分类模型可以为采用特定样本训练的视觉变换器（VisualTransformer）或基于视觉变换器得到的模型，视觉变换器是一种基于自注意力（self-attention）机制的深度神经网络，最初应用于自然语言处理领域。受到视觉变换器强大的表示能力的启发，研究人员将其扩展到计算机视觉任务。这里的目标图像分类模型可以为基于Swin变换器（斯文变换器）、ViT变换器（视觉变换器）等模型改进得到的模型。该模型最核心的结构为其中的变换器，用于提取输入的待识别图像的语义特征。

需要说明的是，目标图像分类模型可以为二分类模型，也可以为多分类模型，即根据目标分类模型的输出，可以确定待识别图像的是否为不适图像，也可以确定待识别图像是否为某一种特定不适类型的不适图像。举例来说，若目标图像分类模型为二分类模型，那么可以根据其输出，确定待识别图像是否为不适图像，若目标图像分类模型为多分类模型，对应的类型包括不适类型1、不适类型2和不适类型3，那么可以根据其输出，确定待识别图像为不适类型1的不适图像。

具体地，对于任一待识别图像，将该待识别图像分割为不重合的多个图像块（patch），并将各图像块转换成对应的特征表示后输入目标图像分类模型。目标图像分类模型中的变换器会对各图像块进行处理，得到各图像块对应的第一语义特征。

具体来说，在对待识别图像进行分割时，可以将待识别图像分割为多个不重合的图像块，举例来说，可以将待识别图像分割为多个像素尺寸为4×4的图像块，那么每个图像块的维度为4×4×3（其中“3”表示3个颜色通道RGB）。

进一步地，在将各图像块的特征表示输入目标图像分类模型后，模型中的变换器可以提取各图像块的特征，相当于提取了待识别图像的局部特征。

需要说明的是，本申请实施例进行的图像识别是为了识别待识别图像是否为不适图像，并可以进一步确定不是图像的不适类型。因此，本申请实施例中图像的分类概率可以指图像为各种不适类型的不适图像的概率，图像块的分类概率可以指图像块为各种不适类型的不适图像块的概率，待识别图像的图像识别结果也可称为不适图像识别结果，各种不是图像聚类得到的图像聚类簇也可称为不适图像聚类簇。

步骤S202，通过目标图像分类模型中的图像块分类模块，基于每一图像块对应的第一语义特征，获取图像块为各种不适类型的不适图像块的第一分类概率，并通过目标图像分类模型中的图像分类模块，基于各图像块对应的第一语义特征，获取待识别图像为各种不适类型的不适图像的第二分类概率。

其中，本申请实施例中的目标图像分类模型可以是多分类模型，在其变换器后设置了两个分类模块，分别为用于图像块分类的图像块分类模块和用于图像分类的图像分类模块。那么该模型的图像分类模块的输出结果可以是待识别图像为各种不适类型的不适图像的概率值（第二分类概率），该模型的图像块分类模块的输出结果可以是各图像块为各种不适类型的不适图像块的概率值（第一分类概率）。很显然，这里的分类概率可以包括了多个概率值。

举例来说，若该目标图像分类模型对应的不适类型包括不适类型1、不适类型2以及不适类型3，那么该模型的图像分类模块的输出的第二分类概率为待识别图像为不适类型1的不适图像的概率p1、待识别图像为不适类型2的不适图像的概率p2以及待识别图像为不适类型3的不适图像的概率p3，且这三个概率之和为0。该模型的图像块分类模块的输出的第一分类概率为每一图像块为不适类型1的图像块的概率p4、每一图像块为不适类型2的图像块的概率p5以及每一图像块为不适类型3的图像块的概率p6，且这三个概率之和为0。

具体地，在将各图像块的特征表示输入到目标图像分类模型后，通过该模型中的图像块分类模块，利用变换器输出的每一图像块的第一语义特征获取该图像块的第一分类概率，并通过该模型中的图像分类模块，利用变换器输出的所有图像块的第一语义特征获取该待识别图像的第二分类特征。

可以发现，本申请的方案中有目标图像分类模型进行了两路分类任务，其中一路是对每一个图像块进行分类，确定每一图像块为各种不同不适类型的图像块的第一分类概率，另一路是对待识别图像进行分类，确定该待识别图像块为各种不同不适类型的图像的第二分类概率。举例来说，若某一待识别图像被分割为36个图像块，那么在该步骤中得到每一图像块的第一分类概率，即会得到36个第一分类概率，同时得到一个第二分类概率。

需要说明的是，在该步骤中虽然得到了待识别图像的第二分类概率，即得到了待识别图像为不同的不适类型的不适图像的概率，但是在图像分类模块的分类任务仅利用了图像的全局特征，可以需要进一步基于第二分类概率和各第一分类概率进行处理以利用图像的局部特征，得到该待识别图像为不同不适类型的最终分类概率。

步骤S203，通过目标图像分类模型中的输出层，基于各第一分类概率和第二分类概率中的至少一项，获取待识别图像的不适图像识别结果。

具体地，通过上一步骤的两路分类任务分别得到了多个第一分类概率和一个第二分类概率，为了进一步利用待识别图像的局部特征获取更准确的待识别图像的分类概率，可以进一步基于各第一分类概率和第二分类概率中的至少一项获取待识别图像的分类概率。

具体来说，本申请的方案中，可以仅利用各图像块对应的第一分类概率，来获取待识别图像最终的分类概率，也可以利用各图像块对应的第一分类概率以及待识别图像对应的第二分类概率来获取最终的分类概率，该最终的分类概率即为待识别图像的第三分类概率，后文将分别对该两种方案进行详细说明。

综上所述，本申请实施例的方案中，目标图像分类模型至少包括变换器、图像块分类模块、图像分类模块以及输出层。其中，变换器的输入为待识别图像分割后得到的多个图像块，变换器的输出为各图像块的第一语义特征，图像块分类模块、图像分类模块分别与变换器相连，并将变换器的输出作为输入，也就是说，图像块分类模块和图像分类模块分别基于各图像块的语义完成各自的分类任务，然后输出层分别与图像块分类模块和图像分类模块相连，输出层基于两者的输出确定出待识别图像的第三类分类概率。第三类分类概率也包含多个概率值，即包含待识别图像为不同不适类型的不适图像的概率值，最终可以根据第三分类概率确定待识别图像的不适图像识别结果，例如，若第三分类概率中不适类型1对应的概率值最大，那么可以确定待识别图像为不适类型1的不适图像。

本申请提供的方案，首先将待识别图像分割为多个图像块，再将各图像块输入目标图像分类模型中，通过该模型的变换器提取各图像块的第一语义特征，然后，通过图像块分类模块执行一路分类任务，即基于各第一语义特征获取各图像块为各种不同不适类型的第一分类概率，通过图像分类模块执行另一路分类任务，即基于各第一语义特征获取待识别图像为各种不同不适类型的第二分类概率，最后在基于各图像块对应的第一分类概率和待识别图像对应的第二分类概率，确定该待识别图像的图像分类结果。该方案将待识别图像分割为多个图像块，再通过变换器提取各图像块的语义特征，并获取了每个图像块对应的第一分类概率，并在确定待识别图像的最终的第三分类概率时利用了第一分类概率，进而利用了待识别图像的局部特征，提高对包含较小不适区域的图像的召回率。

在本申请的一种可选实施例中，如图3所示，各种不适类型通过以下方式确定：

获取第一预设数量的不适图像，并获取各不适图像的第二语义特征；

基于各第二语义特征对各不适图像进行聚类，得到多个不适图像簇；

对于每一不适图像簇，基于不适图像簇中的第二预设数量的不适图像确定不适图像簇对应的不适类型，将各不适图像簇对应的不适类型确定为各个不适类型。

具体地，因为实际业务中不适图像类型多样，即不适类型多，如果只是做二分类任务或者少量类目的多分类任务，会导致部分不适图像无法被模型召回，影响用户线上体验。因此，本申请实施例还对大量不适图像进行了分析和处理，构建一套图像不适细粒度体系，即获取了覆盖更全面的多个不同的不适类型。

具体来说，构建上述不适细粒度体系的过程可以包括以下几个步骤：

（1）收集实际场景中的大量（即第一预设数量）不适图像，这里第一预设数量可以根据实际需求进行设定，可以理解的是，第一数量越大最终确定的不适类型的数量相对也就越多；

（2）利用开源的预训练模型（例如Swin或BiT等），获取这些不适图像的语义特征，即第二语义特征；

（3）使用预设聚类算法（例如K-means算法）基于各第二语义特征对各不适图像进行聚类，进而得到多个不适图像簇；

（4）对各不适图像簇中的图像进行人工标注，即标注各不适图像簇中的图像是何种不适类型的不适图像。具体来说，为了提高标注效率，可以从不适图像簇中取出第二预设数量的不适图像，进而标注出对应的不适类型；其中，第二预设数量少于对应的不适图像簇中总的图像数量；

（5）将上一步骤中标注出的不适类型确定为不适细粒度体系中的各不适类型。

举例来说，如图4所示，通过上述步骤可以确定不适细粒度体系包含有五种不适类型大类，分别为：动物类、人体类、虚拟类、整体风格类、食物相关类。然后每一不适类型大类还可以进一步包含有对应的不适类型小类（或称子类）。

上述不适细粒度体系包含五大类标签总共有41个类目，可以很好的覆盖实际业务中出现的不适图片。并且将不同类目拆分出来后，将这些不适图像标注上对应的不适类型标签，可以使模型更容易学习到不适特征。需要说明的是，在本申请实施例中最终的不适图像识别结果中指示的不适类型可以是上述不适类型小类。

在本申请的一种可选实施例中，通过目标图像分类模型中的图像分类模块基于各图像块对应的第一语义特征，获取待识别图像为各种不适类型的不适图像的第二分类概率，包括：

基于第三语义特征获取第二分类概率；

基于第三分类概率获取待识别图像的图像识别结果。

其中，本申请实施例中，在利用模型进行不适图像识别过程中，引入了两路分类任务，包括图像块的分类任务和图像的分类任务。其中，图像块分类任务基于各第一语义特征分别确定各图像块对应的第一分类概率，图像分类任务基于各第一语义特征确定待识别图像对应的第二分类概率。

具体地，图像分类任务中是基于各第一语义特征的平均语义特征（即第三语义特征）获取待识别图像对应的第二分类概率。然后输出层再基于各第一分类概率和第二分类概率获取第三分类概率，具体来说，首先获取各第一分类概率的平均分类概率（即第四分类概率），然后获取第一预设权重，该第一预设权重包括第二分类概率所占权重以及第四分类概率所占权重，这里可以根据实际需求进行设定，例如可以将第二分类概率所占权重设定为0.3，第四分类概率所占权重设定为0.7，然后基于第一预设权重对第二分类概率和第四分类概率进行加权求和，即可得到对应的第三分类概率。很显然，在获取第三分类概率的过程中利用了各图像块对应的第一分类概率，即利用了待识别图像的局部特征。

举例来说，若不适类型包括不适类型1、不适类型2和不适类型3，某一第二分类概率分别为（0.1，0.5，0.4），相应的第四分类概率分别为（0.2，0.5，0.3），且预先设定的第一预设权重为0.4和0.6，那么上述加权结果如下表1所示：

表1

由表1可知，得到的第三分类概率为（0.16，0.5，0.34），那么可以认为该待识别图像为不适类型2的不适图像。

获取第三预设数量的样本图像，并对每一样本图像进行分割得到对应的样本图像块，每一样本图像携带有用于指示样本图像是否为不适图像的标签，若是，标签还指示对应的不适类型；每一样本图像块携带有用于指示样本图像块是否为不适图像块的标签，若是，标签还指示对应的不适类型；

将样本图像对应的样本图像块输入初始图像分类模型，得到各图像块为各种不适类型的不适图像块的第一预测分类概率和样本图像为各种不适类型的不适图像的第二预测分类概率；

其中，在训练得到目标图像分类模型的过程中，由于该模型中包含有两路分类任务，因此训练过程中所使用的损失值来源于两路分类任务各自对应的损失值。

具体地，首先获取一定数量（第三预设数量）的样本图像，并对每一样本图像进行分割得到对应的样本图像块，且每个样本图像标注有对应的标签，每个图像块也标注有对应的标签。通过这些样本图像对初始图像分类模型进行迭代训练，每次迭代训练是将一个样本图像对应的多个样本图像块输入初始图像分类模型，然后输出各样本图像块对应的第一预测分类概率以及样本图像对应的第二预测分类概率。然后，基于各样本图像块的标签和第一预测分类概率获取对应的第一损失值，基于样本图像的标签和第二预测分类概率获取对应的第二损失值，并基于第一损失值和第二损失值获取对应的总损失值，并利用总损失值对初始图像分类模型的模型参数进行调整。

其中，上述获取损失值的过程可以利用多分类交叉熵损失函数，本申请不作具体限定。

获取样本图像块与样本图像中标注框的重合比例；

若重合比例小于预设比例，则将样本图像块的标签确定为非不适图像块，若重合比例不小于预设比例，则将样本图像块的标签确定为不适类型与样本图像不适类型相同的不适样本图像块。

具体地，样本图像的标签已知的情况下，可以通过对应的样本图像块与该样本图像的标注框的重合比例来获取样本图像块的标签。具体来说，若重合比例小于预设比例，则将样本图像块的标签确定为非不适图像块，若重合比例不小于预设比例，则将样本图像块的标签确定为不适类型与样本图像不适类型相同的不适样本图像块。其中，预设比例可以根据需求进行设置，如可以设置为5%。

具体地，在获取了多个样本图像块对应的第一损失值和样本图像对应的第二损失值后，先获取各第一损失值的评价损失值，即获取第三损失值，然后再获取第二预设权重对第二损失值和第三损失值进行加权处理，得到总损失值。其中，第二预设权重包括第二损失值所占权重和第三损失值所占权重，可以根据需求进行设定，例如设定为0.4和0.6。上述总损失的计算过程可以表示为以下公式：

其中，为总损失值，/>为第二损失值，/>为第三损失值，/>为第二预设权重。

下面通过一个示例来对上述实施例的方案进行进一步说明，该示例中的目标图像分类模型是基于Swin改进而来，Swin主要原理如下：

（1）Swin整体结构与ViT类似，都是基于Transformer的encoder（编码器）结构。

（2）Swin输入是将图片切分为多个patch（图像块），将patch通过全连接层映射为patch embedding（每个图像块对应的嵌入向量），作为Transformer的输入。

（3）Swin采用层次化encoder的方式，聚合邻域token（令牌），目的是增强局部特征的表征能力。

（4）采用划分窗口机制，将图片划分为多个窗口，只在窗口内做self-attention（自注意力机制处理），减少计算量。并且通过不同的划分方式，保证不同窗口内的patch在下一次的迭代过程中也会计算self-attention，增强全局特征的表征能力。

如图5所示，基于上述Swin的基本原理，本申请实施例中的不适图像识别方案可以包括以下步骤：

（1）将待识别图像分割为m个图像块，m为大于等于2的整数；

（2）将各图像块输入Swin中进行特征提取，输出各图像块对应的第一语义特征：output₁（第一语义特征₁），output₂（第一语义特征₂），…，output_m-1（第一语义特征_m-1），output_m（第一语义特征_m）；

（3）分别基于output₁，output₂，…，output_m-1，output_m进行两路分类任务，具体来说，图像块的分类任务：分别基于各第一语义特征获取各图像块的第一分类概率，图像分类任务，获取各第一语义特征的平均语义特征后，基于该平均语义特征获取待识别图像对应的第二分类概率；

（4）对第一分类概率和第二分类概率进行加权处理，得到对应的第三分类概率，进而将第三分类概率中最大概率值对应的不适类型确定为待识别图像的不适类型。

在本申请的一种可选实施例中，通过目标图像分类模型中的图像分类模块，基于各图像块对应的第一语义特征，获取待识别图像为各种不适类型的不适图像的第二分类概率，包括：

基于注意力机制获取各第一语义特征对应的第三权重；

基于第四语义特征获取第二分类概率；

将第二分类概率作为第三分类概率；

基于第三分类概率获取待识别图像的图像识别结果。

具体地，本申请实施例中的目标图像分类模型虽然可以执行两路分类任务，包括图像块分类任务和图像分类任务，前述实施例通过利用两路任务得到的分类概率得到最终的分类概率，以利用待识别图像的局部特征。本申请实施例中还可以仅基于图像分类任务的结果得到最终的分类概率，但在图像分类任务执行过程中需要利用待识别图像的局部特征。

具体来说，在前述实施例中获取第二分类概率时，需要先对各第一语义特征做均值处理得到第三语义特征，默认每个区域同等重要。在本实施例中，在对各第一语义特征的处理上，增加注意力机制。不再对各第一语义特征，而是利用注意力机制对各第一语义特征进行处理。假设变换器输出的各第一语义特征是M个N维向量，通过注意力机制会得到M个权重（即第三权重），这些权重代表了每个第一语义特征的重要性。用M个权重乘以M个N维向量后再求和即可得到最终的第四语义特征。然后再基于第四语义特征执行图像分类任务，得到对应的第二分类概率，在上述过程中可以理解为利用了待识别图像的局部特征，因此可以将第二分类概率直接作为最终模型输出的第三分类概率。

图6为本申请实施例提供的一种图像识别装置结构框图，该装置600可以包括：语义特征获取模块601、分类概率获取模块602和识别结果获取模块603。其中：

语义特征获取模块601用于将待识别图像分割为至少两个图像块，并将各图像块输入目标图像分类模型，通过目标图像分类模型中的变换器获取各图像块对应的第一语义特征；

分类概率获取模块602用于通过目标图像分类模型中的图像块分类模块，基于每一图像块对应的第一语义特征，获取图像块为各种不适类型的图像块的第一分类概率，并通过目标图像分类模型中的图像分类模块，基于各图像块对应的第一语义特征，获取待识别图像为各种不适类型的图像的第二分类概率；

识别结果获取模块603用于通过目标图像分类模型中的输出层，基于各第一分类概率和第二分类概率中的至少一项，获取待识别图像的图像识别结果。

获取第一预设数量的图像，并获取各图像的第二语义特征；

基于各第二语义特征对各图像进行聚类，得到多个图像簇；

基于第三语义特征获取第二分类概率；

识别结果获取模块具体用于：

基于第三分类概率获取待识别图像的图像识别结果。

获取样本图像块与样本图像中标注框的重合比例；

在本申请的一种可选实施例中，模型续联模块具体用于：

基于注意力机制获取各第一语义特征对应的第三权重；

基于第四语义特征获取第二分类概率；

识别结果获取模块具体用于：

将第二分类概率作为第三分类概率；

基于第三分类概率获取待识别图像的图像识别结果。

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

下面参考图7，其示出了适于用来实现本申请实施例的电子设备（例如执行图2所示方法的终端设备或服务器）700的结构示意图。本申请实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）、可穿戴设备等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

电子设备包括：存储器以及处理器，存储器用于存储执行上述各个方法实施例所述方法的程序；处理器被配置为执行存储器中存储的程序。其中，这里的处理器可以称为下文所述的处理装置701，存储器可以包括下文中的只读存储器（ROM）702、随机访问存储器（RAM）703以及存储装置708中的至少一项，具体如下所示：

如图7所示，电子设备700可以包括处理装置（例如中央处理器、图形处理器等）701，其可以根据存储在只读存储器（ROM）702中的程序或者从存储装置708加载到随机访问存储器（RAM）703中的程序而执行各种适当的动作和处理。在RAM703中，还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM703通过总线704彼此相连。输入/输出（I/O）接口705也连接至总线704。

通常，以下装置可以连接至I/O接口705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置708；以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置708被安装，或者从ROM 702被安装。在该计算机程序被处理装置701执行时，执行本申请实施例的方法中限定的上述功能。

需要说明的是，本申请上述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP（HyperText TransferProtocol，超文本传输协议）之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信（例如，通信网络）互连。通信网络的示例包括局域网（“LAN”），广域网（“WAN”），网际网（例如，互联网）以及端对端网络（例如，ad hoc端对端网络），以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：

将待识别图像分割为至少两个图像块，并将各图像块输入目标图像分类模型，通过目标图像分类模型中的变换器获取各图像块对应的第一语义特征；通过目标图像分类模型中的图像块分类模块，基于每一图像块对应的第一语义特征，获取图像块为各种不适类型的图像块的第一分类概率，并通过目标图像分类模型中的图像分类模块，基于各图像块对应的第一语义特征，获取待识别图像为各种不适类型的图像的第二分类概率；通过目标图像分类模型中的输出层，基于各第一分类概率和第二分类概率中的至少一项，获取待识别图像的图像识别结果。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块或单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一约束获取模块还可以被描述为“获取第一约束的模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、片上系统（SOC）、复杂可编程逻辑设备（CPLD）等等。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行时实现如下情况：

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图像识别方法，其特征在于，包括：

将待识别图像分割为至少两个图像块，并将各图像块输入目标图像分类模型，通过所述目标图像分类模型中的变换器获取各图像块对应的第一语义特征；

通过所述目标图像分类模型中的图像块分类模块，基于每一图像块对应的第一语义特征，获取所述图像块为各种不适类型的图像块的第一分类概率，并通过所述目标图像分类模型中的图像分类模块，基于各图像块对应的第一语义特征，获取所述待识别图像为各种不适类型的图像的第二分类概率；

通过所述目标图像分类模型中的输出层，基于各第一分类概率和所述第二分类概率中的至少一项，获取所述待识别图像的图像识别结果。

2.根据权利要求1所述的方法，其特征在于，所述各种不适类型通过以下方式确定：

获取第一预设数量的图像，并获取各图像的第二语义特征；

基于各第二语义特征对各图像进行聚类，得到多个图像簇；

对于每一图像簇，基于所述图像簇中的第二预设数量的图像确定所述图像簇对应的不适类型，将各图像簇对应的不适类型确定为所述各个不适类型。

3.根据权利要求1所述的方法，其特征在于，所述通过所述目标图像分类模型中的图像分类模块基于各图像块对应的第一语义特征，获取所述待识别图像为各种不适类型的图像的第二分类概率，包括：

基于所述第三语义特征获取所述第二分类概率；

所述通过所述目标图像分类模型中的输出层基于各第一分类概率和所述第二分类概率中的至少一项，获取所述待识别图像的图像识别结果，包括：

对各第一分类概率进行均值处理，得到第四分类概率，并获取所述第二分类概率和所述第四分类概率对应的第一预设权重；

对所述第二分类概率和所述第四分类概率按第一预设权重进行加权处理，得到所述第三分类概率；

基于所述第三分类概率获取所述待识别图像的图像识别结果。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述目标图像分类模型通过如下方式获取：

获取第三预设数量的样本图像，并对每一样本图像进行分割得到对应的样本图像块，每一样本图像携带有用于指示所述样本图像是否为各不适类型的图像的标签，若是，所述标签还指示对应的不适类型；每一样本图像块携带有用于指示所述样本图像块是否为各不适类型的图像块的标签，若是，所述标签还指示对应的不适类型；

利用各样本图像对初始图像分类模型迭代执行以下训练操作，直至总损失值不大于预设阈值得到所述目标图像分类模型：

将所述样本图像对应的样本图像块输入所述初始图像分类模型，得到各图像块为各种不适类型的图像块的第一预测分类概率和所述样本图像为各种不适类型的图像的第二预测分类概率；

基于每一样本图像块的标签和第一预测分类概率获取所述样本图像块对应的第一损失值，基于所述样本图像的标签和第二预测分类概率获取对应的第二损失值；

基于各第一损失值和所述第二损失值获取总损失值，并基于所述总损失值调整所述初始图像分类模型的参数。

5.根据权利要求4所述的方法，其特征在于，所述样本图像中通过标注框标注所述样本图像中的不适区域，所述样本图像中的每一样本图像块的标签通过以下方式获取：

获取所述样本图像块与所述样本图像中标注框的重合比例；

若所述重合比例小于预设比例，则将所述样本图像块的标签确定为非不适类型的图像块，若所述重合比例不小于所述预设比例，则将所述样本图像块的标签确定为不适类型与所述样本图像不适类型相同的不适样本图像块。

6.根据权利要求4所述的方法，其特征在于，所述基于各第一损失值和所述第二损失值获取总损失值，包括：

对各第一损失值进行均值处理得到第三损失值，并获取所述第二损失值和所述第三损失值对应的第二预设权重；

对所述第二损失值和所述第三损失值按第二预设权重进行加权处理，得到所述总损失值。

7.根据权利要求1所述的方法，其特征在于，所述通过所述目标图像分类模型中的图像分类模块，基于各图像块对应的第一语义特征，获取所述待识别图像为各种不适类型的图像的第二分类概率，包括：

基于注意力机制获取各第一语义特征对应的第三权重；

对各第一语义特征基于所述第三权重进行加权处理得到第四语义特征；

基于所述第四语义特征获取所述第二分类概率；

所述通过所述目标图像分类模型中的输出层，基于各第一分类概率和所述第二分类概率中的至少一项，获取所述待识别图像的图像识别结果，包括：

将所述第二分类概率作为所述第三分类概率；

8.一种图像识别装置，其特征在于，包括：

语义特征获取模块，用于将待识别图像分割为至少两个图像块，并将各图像块输入目标图像分类模型，通过所述目标图像分类模型中的变换器获取各图像块对应的第一语义特征；

分类概率获取模块，用于通过所述目标图像分类模型中的图像块分类模块，基于每一图像块对应的第一语义特征，获取所述图像块为各种不适类型的图像块的第一分类概率，并通过所述目标图像分类模型中的图像分类模块，基于各图像块对应的第一语义特征，获取所述待识别图像为各种不适类型的图像的第二分类概率；

识别结果获取模块，用于通过所述目标图像分类模型中的输出层，基于各第一分类概率和所述第二分类概率中的至少一项，获取所述待识别图像的图像识别结果。

9.一种电子设备，其特征在于，包括存储器和处理器；

所述存储器中存储有计算机程序；

所述处理器，用于执行所述计算机程序以实现权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。