CN114638304A

CN114638304A - 图像识别模型的训练方法、图像识别方法及装置

Info

Publication number: CN114638304A
Application number: CN202210270415.5A
Authority: CN
Inventors: 毕泊
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-06-17

Abstract

本发明实施例提供了一种图像识别模型的训练方法、图像识别方法及装置，涉及图像识别技术领域。该训练方法包括：获取训练样本数据集，所述训练样本数据集中包括多个训练样本；对每个所述训练样本进行显著性目标检测，并基于获得的显著性目标检测结果，获取每个所述训练样本对应的目标特征数据；所述目标特征数据用于表征所述训练样本的画面结构信息；根据所述训练样本的目标特征数据，训练得到所述图像识别模型。该训练方法得到的图像识别模型不仅能识别出目标图像，还能识别出与目标图像的结构相似的图像，大幅度提升了目标图像的召回效果，能够减少对非目标图像的误检。

Description

图像识别模型的训练方法、图像识别方法及装置

技术领域

本发明涉及图像识别技术领域，特别是涉及一种图像识别模型的训练方法、图像识别方法及装置。

背景技术

随着计算机技术的发展，图像识别可以应用于多种场景中，例如人脸识别、车辆识别、医疗识别、内容审核等。在内容审核场景中，在进行一些目标图像的识别任务中发现存在很多与目标图像中的特定目标高度相关的相似图像，比如在审核一些敏感图像，如不符合国家法律规定、行业规范或社会公序良俗的图像以及价值观负面消极、低俗、不雅的图像时，遇到很多恶意cos图像，这些cos图像也是不允许暴露出来的。然而，传统的图像识别模型只能识别到和目标图像一模一样的图像，无法识别出相似的图像。

发明内容

为解决上述技术问题或至少部分地解决上述技术问题，本发明实施例提供一种图像识别模型的训练方法及装置、图像识别方法及装置、电子设备和计算机可读存储介质。

在本发明实施的第一方面，首先提供了一种图像识别模型的训练方法，包括：获取训练样本数据集，所述训练样本数据集中包括多个训练样本；分别对每个所述训练样本进行显著性目标检测，并基于获得的显著性目标检测结果，获取每个所述训练样本对应的目标特征数据，所述目标特征数据用于表征所述训练样本的画面结构信息；根据所述多个训练样本的目标特征数据，训练得到所述图像识别模型。

可选地，所述分别对每个所述训练样本进行显著性目标检测，并基于获得的显著性目标检测结果，获取每个所述训练样本对应的目标特征数据包括：针对每一训练样本，利用预构建的显著性目标检测模型对所述训练样本进行显著性目标检测，确定所述训练样本的显著性区域，将所述显著性区域保存为显著性图像；将所述训练样本输入预构建的特征提取模型，获得所述预构建的特征提取模型的输出结果，将所述输出结果作为所述训练样本的第一特征数据；将所述显著性图像输入所述预构建的特征提取模型，获得所述预构建的特征提取模型的输出结果，将所述输出结果作为所述显著性图像的第二特征数据；融合所述第一特征数据和所述第二特征数据，获得所述训练样本的目标特征数据。

可选地，所述根据所述多个训练样本的目标特征数据，训练得到所述图像识别模型包括：根据所述多个训练样本的目标特征数据，对预设的对抗分类网络进行训练，得到所述图像识别模型；所述对抗分类网络包括自编码器和分类器，所述自编码器包括编码器和解码器；

所述根据所述多个训练样本的目标特征数据，对预设的对抗分类网络进行训练的过程包括：利用预设的样本重构损失函数，对所述多个训练样本的目标特征数据进行训练，确定所述编码器的第一网络参数以及所述解码器的第一网络参数，并获得所述编码器基于其第一网络参数对所述多个训练样本的目标特征数据进行编码后得到的隐藏层特征数据；利用预设的对抗损失函数，对所述隐藏层特征数据进行训练，确定所述分类器的第二网络参数、确定所述编码器的第二网络参数以及所述解码器的第二网络参数。

可选地，所述多个训练样本包括正样本和负样本；所述根据所述多个训练样本的目标特征数据，训练得到所述图像识别模型包括：在所述训练样本数据集中负样本所占比例大于正样本所占比例的情况下，在训练所述图像识别模型的当前迭代轮次中，对所述训练样本数据集中的负样本进行采样，得到多个采样负样本，所述采样负样本的数量与所述正样本的数量相同；根据所述正样本的目标特征数据和所述采样负样本的目标特征数据，进行当前迭代轮次的训练；在训练所述图像识别模型的下一迭代轮次时，对所述训练样本数据集中除所述采样负样本外的剩余负样本进行采样，得到多个新的采样负样本，所述新的采样负样本的数量与所述正样本的数量相同；根据所述正样本的目标特征数据和所述新的采样负样本的目标特征数据，进行下一迭代轮次的训练。

在本发明实施的第二方面，提供了一种图像识别方法，包括：获取待识别图像；对所述待识别图像进行显著性目标检测，并基于获得的显著性目标检测结果，获取所述待识别图像的目标特征数据，所述待识别图像的目标特征数据用于表征所述待识别图像的画面结构信息；根据所述待识别图像的目标特征数据和预设的图像识别模型，对所述待识别图像进行识别，确定所述待识别图像的类别。

可选地，所述预设的图像识别模型包括自编码器和分类器；所述自编码器包括编码器和解码器；

根据所述待识别图像的目标特征数据和预设的图像识别模型，对所述待识别图像进行识别，确定所述待识别图像的类别包括：将所述待识别图像的目标特征数据输入所述自编码器，获取所述自编码器的编码器对所述目标特征数据进行编码后得到的隐藏层特征数据；将所述隐藏层特征数据输入所述分类器，确定所述待识别图像的类别。

可选地，对所述待识别图像进行显著性目标检测，并基于获得的显著性目标检测结果，获取所述待识别图像的目标特征数据包括：利用预构建的显著性目标检测模型对所述待识别图像进行显著性目标检测，确定所述待识别图像的显著性区域，将所述显著性区域保存为显著性图像；将所述待识别图像输入预构建的特征提取模型，获得所述预构建的特征提取模型的输出结果，将所述输出结果作为所述待识别图像的第三特征数据；将所述显著性图像输入所述预构建的特征提取模型，获得所述预构建的特征提取模型的输出结果，将所述输出结果作为所述显著性图像的第四特征数据；融合所述第三特征数据和所述第四特征数据，获得所述待识别图像的目标特征数据。

在本发明实施的第三方面，提供了一种图像识别模型的训练装置，包括：样本获取模块，用于获取训练样本数据集，所述训练样本数据集中包括多个训练样本；特征工程模块，用于分别对每个所述训练样本进行显著性目标检测，并基于获得的显著性目标检测结果，获取对应的目标特征数据，所述目标特征数据用于表征所述训练样本的画面结构信息；模型训练模块，用于根据所述多个训练样本的目标特征数据，训练得到所述图像识别模型。

在本发明实施的第四方面，提供了一种图像识别装置，包括：图像获取模块，用于获取待识别图像；特征确定模块，用于对所述待识别图像进行显著性目标检测，并基于获得的显著性目标检测结果，获取所述待识别图像的目标特征数据，所述待识别图像的目标特征数据用于表征所述待识别图像的画面结构信息；图像识别模块，用于根据所述待识别图像的目标特征数据和预设的图像识别模型，对所述待识别图像进行识别，确定所述待识别图像的类别。

在本发明实施的第五方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现本发明实施例提供的图像识别模型的训练方法或图像识别方法。

在本发明实施的第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例提供的图像识别模型的训练方法或图像识别方法。

本发明实施例提供的图像识别模型的训练方法，通过对多个训练样本进行显著性目标检测来检测其显著性区域，并基于获得的显著性目标检测结果，获取相应的目标特征数据，使得该目标特征数据能够表征训练样本的画面结构信息，然后对训练样本的目标特征数据进行学习训练，获得图像识别模型，从而使得该图像识别模型不仅能识别到目标图像，还能识别到与目标图像的结构相似的图像，大幅度提升了目标图像的召回效果，其中，与目标图像的结构相似的图像包括与目标图像的画面结构、画面的组成以及相互位置关系相似的图像。

本发明实施例提供的图像识别方法不仅能识别到目标图像，还能识别到与目标图像的结构相似的图像，大幅度提升了目标图像的召回效果，减少对正常图像(即非目标图像)的误检。其中，目标图像可以是包含特定目标的图像，例如不符合国家法律规定、行业规范或社会公序良俗的图像以及价值观负面消极、低俗、不雅的图像。示例性的，该方法可以应用于图像内容审核场景，可以分析并识别出图像内容是否有特定目标，降低人工审核成本和业务违规风险。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1示意性示出了本发明一实施例的图像识别模型的训练方法的主要流程的示意图；

图2示意性示出了本发明实施例的图像识别模型的训练方法子流程的示意图；

图3示意性示出了本发明实施例的图像识别模型的训练方法显著性目标检测结果的示意图；

图4示意性示出了本发明实施例的图像识别模型的结构示意图；

图5示意性示出了本发明一实施例的图像识别方法的流程示意图；

图6示意性示出了本发明一实施例的图像识别模型的训练装置的结构示意图；

图7示意性示出了本发明一实施例的图像识别装置的结构示意图；

图8示意性示出了适用于本发明实施例的图像识别模型的训练方法或图像识别方法的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

图1示意性示出了本发明一实施例的图像识别模型的训练方法的主要流程的示意图，如图1所示，该方法包括：

步骤101：获取训练样本数据集，所述训练样本数据集中包括多个训练样本。

该多个训练样本包括正样本和负样本，所述正样本为画面中包括目标对象的图像，所述负样本为画面中不包括目标对象的图像。其中，该目标对象可以根据应用场景灵活选取，本发明在此不做限制。示例性的，目标对象可以是敏感对象，正样本也可以称为敏感图像。敏感对象可以是不符合国家法律规定、行业规范或社会公序良俗、价值观负面消极、低俗、不雅的对象。负样本为画面中不包括目标对象的图像，负样本也可以称为正常图像。

步骤102：分别对每个所述训练样本进行显著性目标检测，并基于获得的显著性目标检测结果，获取对应的目标特征数据。

本实施例为了突出正样本中的目标对象以及突出正样本画面的结构化信息，分别对正样本、负样本进行显著性目标检测，以检测其显著性区域或显著性对象，从而提取正样本、负样本中的显著性区域或显著性对象，并基于显著性目标检测结果，构造正样本、负样本的目标特征数据。该目标特征数据可以表征正负样本的画面结构信息。其中，正负样本的画面结构化信息用于说明画面的结构、画面的组成部分、相互位置关系。

本步骤中可以通过预构建的显著性目标检测模型分别对正样本和负样本进行显著性目标检测。该显著性目标检测模型可以通过深度学习算法训练得到，例如通过传统的卷积神经网络(CNN，Convolutional Neural Networks)训练得到，也可以通过完全卷积神经网络(FCN，Fully Convolutional Networks)训练得到。

步骤103：根据所述多个训练样本的目标特征数据，训练得到所述图像识别模型。

本步骤可以根据正样本的目标特征数据和负样本的目标特征数据，对传统的神经网络模型，例如VGGNets网络、ResNets网络进行训练，得到图像识别模型。由于训练图像识别模型的目标特征数据可以表征正负样本的画面结构信息，所以通过训练该目标特征数据得到的图像识别模型不仅可以准确识别出目标图像，还能识别出与目标图像的画面结构信息相似的图像，大幅度提升了目标图像的召回效果。

本发明实施例提供的图像识别模型的训练方法，通过对多个训练样本进行显著性目标检测来检测其显著性区域，并基于获得的显著性目标检测结果，获取相应的目标特征数据，使得该目标特征数据能够表征训练样本的画面结构信息，然后对训练样本的目标特征数据进行学习训练，获得图像识别模型，从而使得该图像识别模型不仅能识别到目标图像，还能识别到与目标图像的结构相似的图像，大幅度提升了目标图像的召回效果，其中与目标图像的结构相似的图像包括与目标图像的画面结构、画面的组成以及相互位置关系相似的图像。

对每个训练样本进行显著性目标检测，并基于获得的显著性目标检测结果，获取每个训练样本的目标特征数据的过程如图2所示，该过程包括：

步骤201：针对每一训练样本，利用预构建的显著性目标检测模型对所述训练样本进行显著性目标检测，确定所述训练样本的显著性区域，将所述显著性区域保存为显著性图像。

本步骤中的显著性目标检测模型可以通过深度学习算法训练得到，例如通过传统的卷积神经网络(CNN，Convolutional Neural Networks)训练得到，也可以通过完全卷积神经网络(FCN，Fully Convolutional Networks)训练得到。本实施例中的显著性目标检测模型可以将训练样本中的显著性目标与图像背景分割(segmentation)开，并检测其骨骼(skeleton)、边缘(edge)等信息，从而确定显著性目标的边界，由显著性目标的边界所围成的区域作为显著性区域，将该显著性区域保存成图像，将该图像作为训练样本对应的显著性图像。如图 3所示，本实施例中的显著性目标检测模型可以将训练样本的显著性目标如坦克、人与图像背景分割，并检测其骨骼、边缘信息，确定各个显著性目标的边界。然后，由显著性目标的边界所围成的区域作为显著性区域，将该显著性区域保存成图像，将该图像作为训练样本对应的显著性图像。

步骤202：将所述训练样本输入预构建的特征提取模型，获得所述预构建的特征提取模型的输出结果，将所述输出结果作为所述训练样本的第一特征数据。

本步骤中的特征提取模型可以通过卷积神经网络(CNN，Convolutional NeuralNetworks)训练得到。训练样本的第一特征数据可以表征训练样本原图的画面结构信息，该画面结构信息可以用于说明画面的结构、画面的组成部分、相互位置关系。

步骤203：将所述显著性图像输入所述预构建的特征提取模型，获得所述预构建的特征提取模型的输出结果，将所述输出结果作为所述显著性图像的第二特征数据。训练样本对应的显著性图像的第二特征数据可以表征训练样本中的显著性目标的结构信息。

步骤204：融合所述第一特征数据和所述第二特征数据，获得所述训练样本的目标特征数据。

在本实施例中，可以通过融合训练样本的第一特征数据以及训练样本对应的显著性图像的第二特征数据，确定训练样本的目标特征数据，例如，对该第一特征数据和第二特征数据进行拼接，以得到该训练样本的目标特征数据。也可以通过其他特征融合算法对第一特征数据和第二特征数据进行融合，如将第一特征数据与第二特征数据进行相乘或求笛卡尔积或相除，来确定目标特征数据。

本步骤通过训练样本的第一特征数据以及该训练样本对应的显著性图像的第二特征数据，确定训练样本的目标特征数据，使得该目标特征数据既能表征训练样本原图的画面结构信息，又能表征训练样本中的显著性目标的结构信息，进而使得通过该目标特征数据训练得到的图像识别模型不仅能识别到特定图像，还能识别到与特定图像的结构相似的图像。

在可选的实施例中，根据所述多个训练样本的目标特征数据，训练得到所述图像识别模型包括：

根据所述多个训练样本的目标特征数据，对预设的对抗分类网络进行训练，得到所述图像识别模型；其中，所述预设的对抗分类网络的网络参数通过对抗学习的方式进行更新。

本实施例通过对抗学习的方式对预设的对抗分类网络的网络参数进行训练，通过对抗学习在训练预设的对抗分类网络的过程中，针对当前网络产生对抗数据，然后通过更新当前网络的网络参数学习对抗数据，如此循环直至模型收敛或达到其他停止条件(例如达到最大迭代次数)，从而得到图像识别模型，不仅能够识别与敏感图像结构相似的图像，还能减少对正常图像的误检。

可选的，如图4所示，预设的对抗分类网络包括自编码器和分类器。其中，自编码器(Auto-encoder)是一种无监督的神经网络模型，它可以学习到输入数据的隐含特征，这称为编码(coding)，同时用学习到的新特征可以重构出原始输入数据，称之为解码(decoding)。自编码器的网络结构分为编码器E和解码器G，其中，编码器的输入称为输入层，输出称为隐藏层，解码器的输入称为隐藏层，输出称为重构层。分类器可以是多层感知机结构的分类器，其中，多层感知机 (MLP，Multilayer Perceptron)是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。自编码器会将隐藏层的特征数据输入分类器中，学习特定分布P(y)。

在本实施例中，自编码器和分类器的网络参数通过对抗学习的方式进行更新，即将正样本和负样本的目标特征数据经过自编码器的编码器得到隐藏层特征数据，然后将隐藏层特征数据输入分类器中进行对抗学习。

在可选的实施例中，通过对抗学习更新自编码器和分类器的网络参数的过程包括：

利用预设的样本重构损失函数，对所述多个训练样本的目标特征数据进行训练，确定所述编码器的第一网络参数以及所述解码器的第一网络参数，并获得所述编码器基于其第一网络参数对所述多个训练样本的目标特征数据进行编码后得到的隐藏层特征数据；

利用预设的对抗损失函数，对所述隐藏层特征数据进行训练，确定所述分类器的第二网络参数、确定所述编码器的第二网络参数以及所述解码器的第二网络参数。

上述训练更新过程包括两个阶段：

样本重构阶段：更新编码器以及解码器的网络参数，使得预设的样本重构损失函数最小化。其中，可以通过梯度下降法更新编码器E以及解码器G的网络参数，预设的样本重构损失函数可以采用均方误差损失函数MSE(X，G(z))。

分布约束阶段：通过最小化预设的对抗损失函数更新分类器D的网络参数以及编码器E的网络参数，以提高对抗分类网络的能力。其中，预设的对抗损失函数可以是交叉熵损失函数，如下式所示：

其中，loss(o，t)表示预设的对抗损失函数的值，n表示正样本和负样本的总数量，t表示样本标签，正样本的标签为0，负样本的标签为1，o表示分类器的输出。

本发明实施例的图像识别模型的训练方法，在学习训练样本的目标特征数据时，采用自编码器的网络结构以及对抗学习的参数更新方式，能够在准确识别出与特定图像结构相似的图像的同时减少对正常图像的误检。

在可选的实施例中，本发明实施例提供的图像识别模型的训练方法还包括如下步骤：

在所述训练样本数据集中负样本所占比例大于正样本所占比例的情况下，在训练所述图像识别模型的当前迭代轮次中，对所述训练样本数据集中的负样本进行采样，得到多个采样负样本，所述采样负样本的数量与所述正样本的数量相同；

根据所述正样本的目标特征数据和所述采样负样本的目标特征数据，进行当前迭代轮次的训练；

在训练所述预设的对抗分类网络的下一迭代轮次时，对所述训练样本数据集中除所述采样负样本的剩余负样本进行采样，得到多个新的采样负样本，所述新的采样负样本的数量与所述正样本的数量相同；

根据所述正样本的目标特征数据和所述新的采样负样本的目标特征数据，进行下一迭代轮次的训练。

在实际应用场景中，相对于海量的正常图像，敏感图像以及与敏感图像相似的图像出现频次较低，因而，采集到的正样本的数量小于甚至远远小于负样本的数量，即训练样本数据集中的负样本所占的比例大于、甚至远远大于正样本所占的比例。例如，训练样本集中的正样本为3000个，负样本为10万个，正样本所占的比例远远小于负样本所占的比例。为了避免产生过拟合，提高图像识别的准确性，本发明实施例在迭代训练图像识别模型时，需要对负样本进行采样(例如无放回的均匀采样)，得到与正样本数量相同的多个采样负样本，然后对采样负样本与正样本的目标特征数据进行训练，直至模型收敛或达到其他停止条件(例如达到最大迭代次数)。例如，在训练图像识别模型的第一个迭代轮次时，从10万个负样本中均匀采样3000个采样负样本，根据该3000个采样负样本以及3000个正样本的目标特征数据进行当前迭代轮次的训练。在训练对抗分类网络的第二个迭代轮次时，从剩余的97000个负样本中均匀采样3000个新的采样负样本，根据该3000个新的采样负样本以及3000个正样本的目标特征数据进行当前迭代轮次的训练。重复上述迭代训练的过程，直至模型收敛或达到其他的停止条件(例如达到最大迭代次数)，从而得到图像识别模型。

图5示意性示出了本发明一实施例的图像识别方法的流程示意图，如图5所示，该方法包括：

步骤501：获取待识别图像。

步骤502：对所述待识别图像进行显著性目标检测，并基于获得的显著性目标检测结果，获取所述待识别图像的目标特征数据，所述待识别图像的目标特征数据用于表征所述待识别图像的画面结构信息。

该目标特征数据可以通过预构建的显著性目标检测模型对待识别图像进行显著性目标检测。该显著性目标检测模型可以通过深度学习算法训练得到，例如通过传统的卷积神经网络(CNN，Convolutional Neural Networks)训练得到，也可以通过完全卷积神经网络(FCN，Fully Convolutional Networks)训练得到。

步骤503：根据所述待识别图像的目标特征数据和预设的图像识别模型，对所述待识别图像进行识别，确定所述待识别图像的类别。

其中，该预设的图像识别模型是根据上文实施例的图像识别模型的训练方法得到的，该图像识别模型可以准确识别出待识别图像中是否为目标图像或与目标图像的结构相似的图像。

本发明实施例提供的图像识别方法不仅能识别到目标图像，还能识别到与目标图像的结构相似的图像，大幅度提升了目标图像的召回效果，减少对正常图像的误检。该方法可以应用于图像内容审核场景，可以分析出待识别图像是否为包含敏感对象的图像或待识别图像是否为与包含敏感对象图像的画面结构相似的图像，降低人工审核成本和业务违规风险。

在可选的实施例中，对所述待识别图像进行显著性目标检测，并基于获得的显著性目标检测结果，获取所述待识别图像的目标特征数据的过程包括：

利用预构建的显著性目标检测模型对所述待识别图像进行显著性目标检测，确定所述待识别图像的显著性区域，将所述显著性区域保存为显著性图像；

将所述待识别图像输入预构建的特征提取模型，获得所述预构建的特征提取模型的输出结果，将所述输出结果作为所述待识别图像的第三特征数据；

将所述显著性图像输入所述预构建的特征提取模型，获得所述预构建的特征提取模型的输出结果，将所述输出结果作为所述显著性图像的第四特征数据；

融合所述第三特征数据和所述第四特征数据，获得所述待识别图像的目标特征数据。

其中，显著性目标检测模型可以通过深度学习算法训练得到，例如通过传统的卷积神经网络(CNN，Convolutional Neural Networks)训练得到，也可以通过完全卷积神经网络(FCN，Fully Convolutional Networks)训练得到。本实施例中的显著性目标检测模型可以将待识别图像中的显著性目标与图像背景分割(segmentation)开，并检测其骨骼(skeleton)、边缘(edge)等信息，从而确定显著性目标的边界，由显著性目标的边界所围成的区域作为显著性区域，将该显著性区域保存成图像，将该图像作为待识别图像对应的显著性图像。。

该特征提取模型可以通过卷积神经网络(CNN，Convolutional Neural Networks)训练得到。通过该特征提取模型提取的第三特征数据可以表征待识别图像原图的画面结构信息，以及通过该特征提取模型提取的第四特征数据可以表征待识别图像中的显著性目标的结构信息。

在提取到第三特征数据和第四特征数据之后，融合该第三特征数据和第四特征数据，确定该待识别图像的目标特征数据。例如，可以直接拼接该第三特征数据和第四特征数据，得到该待识别图像的目标特征数据，也可以通过其他特征融合算法对第三特征数据和第四特征数据进行融合，如将第三特征数据与第四特征数据进行相乘或求笛卡尔积或相除，来确定待识别图像的目标特征数据。

在可选的实施例，该图像识别模型包括自编码器和分类器；所述自编码器包括编码器和解码器。该图像识别模型的网络参数通过对抗学习的方式确定。该图像识别模型的结构如图4所示，构建并训练该图像识别模型的过程如图4所示的实施例，本发明在此不再赘述。根据该图像识别模型，对所述待识别图像进行识别，确定所述待识别图像的类别的过程可以包括：

将所述待识别图像的目标特征数据输入所述自编码器，获取所述自编码器的编码器对所述目标特征数据进行编码后得到的隐藏层特征数据；

将所述隐藏层特征数据输入所述分类器，确定所述待识别图像的类别。

本实施例中的图像识别模型采用自编码器的网络结构以及对抗学习的参数更新方式，能够在准确识别出与目标图像结构相似的图像的同时减少对正常图像的误检。

图6示意性示出了本发明实施例的图像识别模型的训练装置600的结构示意图，如图6所示，该训练装置600包括：

样本获取模块601，用于获取训练样本数据集，所述训练样本数据集中包括多个训练样本；

特征工程模块602，用于分别对每个所述训练样本进行显著性目标检测，并基于获得的显著性目标检测结果，获取对应的目标特征数据，所述目标特征数据用于表征所述训练样本的画面结构信息；

模型训练模块603，用于根据所述多个训练样本的目标特征数据，训练得到所述图像识别模型。

可选地，所述特征工程模块还用于：针对每一训练样本，利用预构建的显著性目标检测模型对所述训练样本进行显著性目标检测，确定所述训练样本的显著性区域，将所述显著性区域保存为显著性图像；将所述训练样本输入预构建的特征提取模型，获得所述预构建的特征提取模型的输出结果，将所述输出结果作为所述训练样本的第一特征数据；将所述显著性图像输入所述预构建的特征提取模型，获得所述预构建的特征提取模型的输出结果，将所述输出结果作为所述显著性图像的第二特征数据；融合所述第一特征数据和所述第二特征数据，获得所述训练样本的目标特征数据。

可选地，所述模型训练模块还用于：根据所述多个训练样本的目标特征数据对预设的对抗分类网络进行训练，得到所述图像识别模型；所述对抗分类网络包括自编码器和分类器，所述自编码器包括编码器和解码器；

所述模型训练模块还用于：利用预设的样本重构损失函数，对所述多个训练样本的目标特征数据进行训练，确定所述编码器的第一网络参数以及所述解码器的第一网络参数，并获得所述编码器基于其第一网络参数对所述多个训练样本的目标特征数据进行编码后得到的隐藏层特征数据；利用预设的对抗损失函数，对所述隐藏层特征数据进行训练，确定所述分类器的第二网络参数、确定所述编码器的第二网络参数以及所述解码器的第二网络参数。

可选地，所述多个训练样本包括正样本和负样本；所述模型训练模块还用于：在所述训练样本数据集中负样本所占比例大于正样本所占比例的情况下，在训练所述图像识别模型的当前迭代轮次中，对所述训练样本数据集中的负样本进行采样，得到多个采样负样本，所述采样负样本的数量与所述正样本的数量相同；根据所述正样本的目标特征数据和所述采样负样本的目标特征数据，进行当前迭代轮次的训练；在训练所述图像识别模型的下一迭代轮次时，对所述训练样本数据集中除所述采样负样本外的剩余负样本进行采样，得到多个新的采样负样本，所述新的采样负样本的数量与所述正样本的数量相同；根据所述正样本的目标特征数据和所述新的采样负样本的目标特征数据，进行下一迭代轮次的训练。

本发明实施例提供的图像识别模型的训练装置，通过对多个训练样本进行显著性目标检测来检测其显著性区域，并基于获得的显著性目标检测结果，获取相应的目标特征数据，使得该目标特征数据能够表征训练样本的画面结构信息，然后对训练样本的目标特征数据进行学习训练，获得图像识别模型，从而使得该图像识别模型不仅能识别到目标图像，还能识别到与目标图像的结构相似的图像，大幅度提升了目标图像的召回效果，其中与目标图像的结构相似的图像包括与目标图像的画面结构、画面的组成以及相互位置关系相似的图像。上述装置可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

图7示意性示出了本发明实施例的图像识别装置700的结构示意图，如图7 所示，该图像识别装置700包括：

图像获取模块701，用于获取待识别图像；

特征确定模块702，用于对所述待识别图像进行显著性目标检测，并基于获得的显著性目标检测结果，获取所述待识别图像的目标特征数据，所述待识别图像的目标特征数据用于表征所述待识别图像的画面结构信息；

图像识别模块703，用于根据所述待识别图像的目标特征数据和预设的图像识别模型，对所述待识别图像进行识别，确定所述待识别图像的类别。

可选地，所述预设的图像识别模型包括自编码器和分类器；所述自编码器包括编码器；所述图像识别模块还用于：将所述待识别图像的目标特征数据输入所述自编码器，获取所述自编码器的编码器对所述目标特征数据进行编码后得到的隐藏层特征数据；将所述隐藏层特征数据输入所述分类器，确定所述待识别图像的类别。

可选地，所述特征确定模块还用于：利用预构建的显著性目标检测模型对所述待识别图像进行显著性目标检测，确定所述待识别图像的显著性区域，将所述显著性区域保存为显著性图像；将所述待识别图像输入预构建的特征提取模型，获得所述预构建的特征提取模型的输出结果，将所述输出结果作为所述待识别图像的第三特征数据；将所述显著性图像输入所述预构建的特征提取模型，获得所述预构建的特征提取模型的输出结果，将所述输出结果作为所述显著性图像的第四特征数据；融合所述第三特征数据和所述第四特征数据，获得所述待识别图像的目标特征数据。

本发明实施例提供的图像识别装置不仅能识别到目标图像，还能识别到与目标图像的结构相似的图像，大幅度提升了目标图像的召回效果，减少对正常图像(即非目标图像)的误检。该方法可以应用于图像内容审核场景，可以分析并识别出图像内容是否有敏感内容，降低人工审核成本和业务违规风险。上述装置可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

图8示意性示出了本发明实施例的电子设备的结构示意图，如图8所示，该电子设备包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现上述任一实施例所述的图像识别模型的训练方法或上述任一实施例所述的图像识别方法。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的图像识别模型的训练方法或上述任一实施例所述的图像识别方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的图像识别模型的训练方法或上述任一实施例所述的图像识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语″包括″、″包含″或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句″包括一个......″限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像识别模型的训练方法，其特征在于，包括：

获取训练样本数据集，所述训练样本数据集中包括多个训练样本；

分别对每个所述训练样本进行显著性目标检测，并基于获得的显著性目标检测结果，获取每个所述训练样本的目标特征数据，所述目标特征数据用于表征所述训练样本的画面结构信息；

根据所述多个训练样本的目标特征数据，训练得到所述图像识别模型。

2.根据权利要求1所述的方法，其特征在于，所述分别对每个所述训练样本进行显著性目标检测，并基于获得的显著性目标检测结果，获取每个所述训练样本的目标特征数据包括：

针对每一训练样本，利用预构建的显著性目标检测模型对所述训练样本进行显著性目标检测，确定所述训练样本的显著性区域，将所述显著性区域保存为显著性图像；

将所述训练样本输入预构建的特征提取模型，获得所述预构建的特征提取模型的输出结果，将所述输出结果作为所述训练样本的第一特征数据；

将所述显著性图像输入所述预构建的特征提取模型，获得所述预构建的特征提取模型的输出结果，将所述输出结果作为所述显著性图像的第二特征数据；

融合所述第一特征数据和所述第二特征数据，获得所述训练样本的目标特征数据。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述多个训练样本的目标特征数据，训练得到所述图像识别模型包括：

根据所述多个训练样本的目标特征数据，对预设的对抗分类网络进行训练，得到所述图像识别模型；所述对抗分类网络包括自编码器和分类器，所述自编码器包括编码器和解码器；

所述根据所述多个训练样本的目标特征数据，对预设的对抗分类网络进行训练的过程包括：

4.根据权利要求1所述的方法，其特征在于，所述多个训练样本包括正样本和负样本；

所述根据所述多个训练样本的目标特征数据，训练得到所述图像识别模型包括：

在训练所述图像识别模型的下一迭代轮次时，对所述训练样本数据集中除所述采样负样本外的剩余负样本进行采样，得到多个新的采样负样本，所述新的采样负样本的数量与所述正样本的数量相同；

5.一种图像识别方法，其特征在于，包括：

获取待识别图像；

对所述待识别图像进行显著性目标检测，并基于获得的显著性目标检测结果，获取所述待识别图像的目标特征数据，所述待识别图像的目标特征数据用于表征所述待识别图像的画面结构信息；

根据所述待识别图像的目标特征数据和预设的图像识别模型，对所述待识别图像进行识别，确定所述待识别图像的类别。

6.根据权利要求5所述的方法，其特征在于，所述预设的图像识别模型包括自编码器和分类器；所述自编码器包括编码器和解码器；

根据所述待识别图像的目标特征数据和预设的图像识别模型，对所述待识别图像进行识别，确定所述待识别图像的类别包括：

7.一种图像识别模型的训练装置，其特征在于，包括：

样本获取模块，用于获取训练样本数据集，所述训练样本数据集中包括多个训练样本；

特征工程模块，用于分别对每个所述训练样本进行显著性目标检测，并基于获得的显著性目标检测结果，获取每个所述训练样本对应的目标特征数据，所述目标特征数据用于表征所述训练样本的画面结构信息；

模型训练模块，用于根据所述多个训练样本的目标特征数据，训练得到所述图像识别模型。

8.一种图像识别装置，其特征在于，包括：

图像获取模块，用于获取待识别图像；

特征确定模块，用于对所述待识别图像进行显著性目标检测，并基于获得的显著性目标检测结果，获取所述待识别图像的目标特征数据，所述待识别图像的目标特征数据用于表征所述待识别图像的画面结构信息；

图像识别模块，用于根据所述待识别图像的目标特征数据和预设的图像识别模型，对所述待识别图像进行识别，确定所述待识别图像的类别。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4或5-6任一所述的方法步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4或5-6中任一所述的方法。