CN113392898A

CN113392898A - 一种训练图像分类模型、图像搜索的方法及相关装置

Info

Publication number: CN113392898A
Application number: CN202110649832.6A
Authority: CN
Inventors: 牛周周; 刘慧慧; 周泽南
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-14

Abstract

本申请公开了一种训练图像分类模型、图像搜索的方法及相关装置，该方法包括：以历史用户输入文本进行图像搜索获得搜索图像，搜索图像标记有内容类别标签；通过预设图像分类模型的特征提取层，提取搜索图像的图像特征和图库图像的图像特征并匹配，得到搜索图像的相似图像集；通过相似图像的图像特征进行密度聚类，清洗相似图像集得到目标相似图像集；以目标相似图像集中相似图像和各相似图像标记的内容类别标签，微调训练预训练分类模型得到目标图像分类模型。通过目标图像分类模型的特征提取层，提取目标搜索图像的图像特征和图库图像的图像特征；匹配目标搜索图像与图库图像的图像特征，搜索与目标搜索图像风格一致的目标相似图像。

Description

一种训练图像分类模型、图像搜索的方法及相关装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种训练图像分类模型、图像搜索的方法及相关装置。

背景技术

随着机器学习的快速发展，机器学习的应用越来越广泛。例如，以图搜图是指利用机器学习得到的图像分类模型的特征提取层，对待搜索图像和图库图像进行特征提取得到图像特征，基于图像特征进行匹配，从图库图像中召回待搜索图像的相似图像。

发明人经过研究发现，上述机器学习得到的图像分类模型实际上是基于样本图像、标记的内容类别标签训练分类网络得到的；则该图像分类模型主要关注图像的内容类别而忽略了图像的风格，在以图搜图时应用该图像分类模型，可能会导致召回的相似图像与待搜索图像的风格不一致，难以适用于有风格一致性需求的以图搜图场景。

发明内容

有鉴于此，本申请提供一种训练图像分类模型、图像搜索的方法及相关装置，使得训练得到的图像分类模型不仅关注图像的内容类别，而且关注图像的风格，基于此以图搜图，不仅图像的内容类别相同，而且图像的风格一致，适用于有风格一致性需求的以图搜图场景。

第一方面，本申请实施例提供了一种训练图像分类模型的方法，该方法包括：

利用预设图像分类模型的特征提取层，对搜索图像和图库图像进行特征提取匹配，获得所述搜索图像的相似图像形成相似图像集；所述搜索图像是通过历史用户输入文本进行图像搜索获得的，所述搜索图像标记有内容类别标签；

基于所述相似图像的图像特征，对所述相似图像集进行密度聚类清洗获得目标相似图像集；

利用所述目标相似图像集中相似图像和各相似图像标记的内容类别标签，对预训练分类模型进行微调训练获得目标图像分类模型。

可选的，所述基于所述相似图像的图像特征，对所述相似图像集进行密度聚类清洗获得目标相似图像集，包括：

基于所述相似图像的图像特征、密度聚类簇的距离阈值和数量阈值，对所述相似图像集中相似图像进行密度聚类，确定不属于密度聚类簇的相似图像为异常图像；所述距离阈值是指构成密度聚类簇的相似图像之间的图像特征距离的上限值，所述数量阈值是指构成密度聚类簇的相似图像数量的下限值；

对所述相似图像集中所述异常图像进行清洗，获得所述目标相似图像集。

可选的，所述利用预设图像分类模型的特征提取层，对搜索图像和图库图像进行特征提取匹配，获得所述搜索图像的相似图像形成相似图像集，包括：

利用所述预设图像分类模型的特征提取层，对所述搜索图像和所述图库图像进行特征提取，获得所述搜索图像的图像特征和所述图库图像的图像特征；

基于所述搜索图像的图像特征和所述图库图像的图像特征，获得每个搜索图像与每个图库图像的图像特征距离；

基于所述每个搜索图像与每个图库图像的图像特征距离，从所述图库图像中筛选出每个搜索图像的相似图像，形成各搜索图像对应的相似图像集。

可选的，所述预训练分类模型是基于多类别标签样本数据训练分类网络获得的；其中，所述多类别标签样本数据包括多类别标签样本图像以及每个样本图像标记的多个内容类别标签，所述多类别标签样本图像是指标记有多个内容类别标签的样本图像。

可选的，该方法还包括：

获取单类别标签样本数据；所述单类别标签样本数据包括单类别标签样本图像以及每个样本图像标记的内容类别标签，所述单类别标签样本图像是指仅标记有单个内容类别标签的样本图像；

对应地，所述利用所述目标相似图像集中相似图像和各相似图像标记的内容类别标签，对预训练分类模型进行微调训练获得目标图像分类模型，为：

利用所述目标相似图像集中相似图像、各相似图像标记的内容类别标签和所述单类别标签样本数据，对所述预训练分类模型进行多任务微调训练获得所述目标图像分类模型。

第二方面，本申请实施例提供了一种图像搜索的方法，其特征在于，利用上述第一方面中任一项所述的目标图像分类模型，该方法包括：

利用所述目标图像分类模型的特征提取层，对目标搜索图像和图库图像进行特征提取，获得所述目标搜索图像的图像特征和所述图库图像的图像特征；

对所述目标搜索图像的图像特征和所述图库图像的图像特征进行匹配，确定所述目标搜索图像的目标相似图像，所述目标相似图像与所述目标搜索图像的风格一致。

第三方面，本申请实施例提供了一种训练图像分类模型的装置，该装置包括：

特征提取匹配单元，用于利用预设图像分类模型的特征提取层，对搜索图像和图库图像进行特征提取匹配，获得所述搜索图像的相似图像形成相似图像集；所述搜索图像是通过历史用户输入文本进行图像搜索获得的，所述搜索图像标记有内容类别标签；

密度聚类清洗单元，用于基于所述相似图像的图像特征，对所述相似图像集进行密度聚类清洗获得目标相似图像集；

微调训练单元，用于利用所述目标相似图像集中相似图像和各相似图像标记的内容类别标签，对预训练分类模型进行微调训练获得目标图像分类模型。

可选的，所述密度聚类清洗单元，用于：

可选的，所述特征提取匹配单元，用于：

可选的，该装置还包括：

获取单元，用于获取单类别标签样本数据；所述单类别标签样本数据包括单类别标签样本图像以及每个样本图像标记的内容类别标签，所述单类别标签样本图像是指仅标记有单个内容类别标签的样本图像；

对应地，所述微调训练单元，用于：

第四方面，本申请实施例提供了一种图像搜索的装置，利用上述第一方面中任一项所述的目标图像分类模型，该装置包括：

特征提取单元，用于利用所述目标图像分类模型的特征提取层，对目标搜索图像和图库图像进行特征提取，获得所述目标搜索图像的图像特征和所述图库图像的图像特征；

匹配搜索单元，用于对所述目标搜索图像的图像特征和所述图库图像的图像特征进行匹配，确定所述目标搜索图像的目标相似图像，所述目标相似图像与所述目标搜索图像的风格一致。

第五方面，本申请实施例提供了一种用于训练图像分类模型的装置，该装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

利用所述目标相似图像集中相似图像和各相似图像标记的内容类别标签，对预训练分类模型进行微调训练获得目标图像分类模型

第六方面，本申请实施例提供了一种用于图像搜索的装置，该装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

第七方面，本申请实施例提供了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行上述第一方面中任一项所述的训练图像分类模型的方法；或，使得装置执行上述第二方面所述的图像搜索的方法。

与现有技术相比，本申请至少具有以下优点：

采用本申请实施例的技术方案，通过历史用户输入文本进行图像搜索获得搜索图像，该搜索图像标记有内容类别标签；通过预设图像分类模型的特征提取层，提取搜索图像的图像特征和图库图像的图像特征并匹配，得到搜索图像的相似图像形成相似图像集；通过相似图像的图像特征进行密度聚类，清洗相似图像集得到目标相似图像集；以目标相似图像集中相似图像和各相似图像标记的内容类别标签，微调训练预训练分类模型得到目标图像分类模型。由此可见，在通过特征提取匹配的方式，得到表征内容类别相同的相似图像集后，通过密度聚类清洗的方式，提高相似图像集中相似图像的风格一致性，以得到目标相似图像集；基于目标相似图像集微调训练得到的目标图像分类模型，不仅关注图像的内容类别，而且关注图像的风格。采用该目标图像分类模型以图搜图，不仅图像的内容类别相同，而且图像的风格一致，适用于有风格一致性需求的以图搜图场景。

此外，通过目标图像分类模型的特征提取层，提取目标搜索图像的图像特征和图库图像的图像特征；匹配目标搜索图像的图像特征和图库图像的图像特征，以搜索与目标搜索图像风格一致的目标相似图像。在目标图像分类模型不仅关注图像的内容类别，而且关注图像的风格的基础上，采用该目标图像分类模型以图搜图，不仅图像的内容类别相同，而且图像的风格一致，大大提高有风格一致性需求的以图搜图场景中图像搜索准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种应用场景所涉及的系统框架示意图；

图2为本申请实施例提供的一种训练图像分类模型的方法的流程示意图；

图3为本申请实施例提供的一种图像搜索的方法的流程示意图；

图4为本申请实施例提供的一种训练图像分类模型的装置的结构示意图；

图5为本申请实施例提供的一种图像搜索的装置的结构示意图；

图6为本申请实施例提供的一种用于训练图像分类模型或图像搜索的装置的结构示意图；

图7为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现阶段，以图搜图的技术实现一般为：基于样本图像和标记的内容类别标签训练分类网络得到图像分类模型，利用该图像分类模型对待搜索图像和图库图像进行特征提取得到图像特征，基于图像特征进行匹配，从图库图像中召回待搜索图像的相似图像。发明人经过研究发现，该图像分类模型主要关注图像的内容类别而忽略了图像的风格，在以图搜图时应用该图像分类模型，可能会导致召回的相似图像与待搜索图像的风格不一致，难以适用于有风格一致性需求的以图搜图场景。

为了解决这一问题，在本申请实施例中，通过历史用户输入文本进行图像搜索获得搜索图像，该搜索图像标记有内容类别标签；通过预设图像分类模型的特征提取层，提取搜索图像的图像特征和图库图像的图像特征并匹配，得到搜索图像的相似图像形成相似图像集；通过相似图像的图像特征进行密度聚类，清洗相似图像集得到目标相似图像集；以目标相似图像集中相似图像和各相似图像标记的内容类别标签，微调训练预训练分类模型得到目标图像分类模型。由此可见，在通过特征提取匹配的方式，得到表征内容类别相同的相似图像集后，通过密度聚类清洗的方式，提高相似图像集中相似图像的风格一致性，以得到目标相似图像集；基于目标相似图像集微调训练得到的目标图像分类模型，不仅关注图像的内容类别，而且关注图像的风格。采用该目标图像分类模型以图搜图，不仅图像的内容类别相同，而且图像的风格一致，适用于有风格一致性需求的以图搜图场景，提高图像搜索准确率。

举例来说，本申请实施例的场景之一，可以是应用到如图1所示的场景中，该场景包括终端设备101和服务器102。服务器102在历史搜索数据的基础上，采用本申请实施例提供的训练图像分类模型的实施方式得到目标图像分类模型，该历史搜索数据为历史用户输入的文本、以及依据该输入文本进行图像搜索得到的搜索图像。在训练得到目标图像分类模型后，当用户通过终端设备101输入目标搜索图像时，服务器102利用该目标图像分类模型，采用本申请实施例提供的图像搜索的实施方式实现以图搜图。

可以理解的是，在上述应用场景中，虽然将本申请实施方式的动作描述由服务器102执行；但是，本申请在执行主体方面不受限制，只要执行了本申请实施方式所公开的动作即可。

可以理解的是，上述场景仅是本申请实施例提供的一个场景示例，本申请实施例并不限于此场景。

下面结合附图，通过实施例来详细说明本申请实施例中训练图像分类模型、图像搜索的方法及相关装置的具体实现方式。

示例性方法

参见图2，示出了本申请实施例中一种训练图像分类模型的方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤201：利用预设图像分类模型的特征提取层，对搜索图像和图库图像进行特征提取匹配，获得所述搜索图像的相似图像形成相似图像集；所述搜索图像是通过历史用户输入文本进行图像搜索获得的，所述搜索图像标记有内容类别标签。

本申请实施例中，训练图像分类模型首先需要构建训练样本集。而构建训练样本可以在历史搜索数据的基础上获得，例如可以包括：通过历史用户输入文本进行图像搜索以得到搜索图像，基于每个历史用户输入文本可以搜索得到多个搜索图像；基于每个搜索图像分别筛选图库图像得到每个搜索图像的相似图像，形成每个搜索图像对应的相似图像集；多个搜索图像对应的相似图像集即可作为初始训练样本集。

针对每个搜索图像，预先选取一个开源的图像分类模型，通过该开源的图像分类模型的特征提取层，分别提取搜索图像的图像特征和图库图像的图像特征；通过对搜索图像的图像特征和图库图像的图像特征进行匹配，从图库图像中筛选出每个搜索图像的相似图像，形成各搜索图像对应的相似图像集。其中，每个搜索图像标记有内容类别标签，基于每个搜索图像得到的相似图像集可以作为该搜索图像所属内容类别的初始训练样本子集。其中，每个搜索图像所属内容类别可以由该搜索图像标记的内容类别标签确定。

步骤201具体实施时，针对每个搜索图像，将搜索图像、图库图像分别输入预设图像分类模型，即，开源的图像分类模型，基于该模型的特征提取层输出搜索图像的图像特征和图库图像的图像特征；基于搜索图像的图像特征和图库图像的图像特征，可以计算每个搜索图像与每个图库图像的图像特征距离，图像特征距离越小表示图库图像与对应的搜索图像越相似，图像特征距离越大表示图库图像与对应的搜索图像越不相似；依据计算得到的图像特征距离，筛选得到搜索图像的相似图像，将搜索图像和该搜索图像的相似图像形成相似图像集。

因此，在本申请一种可选的实施方式中，所述步骤201例如可以包括以下步骤A-步骤C：

步骤A：利用所述预设图像分类模型的特征提取层，对所述搜索图像和所述图库图像进行特征提取，获得所述搜索图像的图像特征和所述图库图像的图像特征。

步骤B：基于所述搜索图像的图像特征和所述图库图像的图像特征，获得每个搜索图像与每个图库图像的图像特征距离。

步骤C：基于所述搜索图像与每个图库图像的图像特征距离，从所述图库图像中筛选出每个搜索图像的相似图像，形成各搜索图像对应的相似图像集。

其中，在步骤C具体实施时，至少可以通过以下两种方式：

第一种可选的步骤C的具体实施方式中，按照图库图像与搜索图像的图像特征距离，由小到大对应排列图库图像，筛选前M个图库图像作为搜索图像的相似图像形成相似图像集，M为正整数。

作为一种示例，假设1个文本进行图像搜索得到5个搜索图像，针对每个搜索图像，在获得每个图库图像与搜索图像的图像特征距离之后，按照每个图库图像与搜索图像的图像特征距离，由小到大对应排列各个图库图像，筛选前100个图库图像作为搜索图像的相似图像形成相似图像集。即，基于每个搜索图像都可得到包括100个相似图像的相似图像集，则5个搜索图像都可得到5个包括100个相似图像的相似图像集。

第二种可选的步骤C的具体实施方式中，按照图库图像与搜索图像的图像特征距离，筛选图像特征距离小于等于预设距离的图库图像，作为搜索图像的相似图像形成相似图像集。

作为一种示例，假设1个文本进行图像搜索得到5个搜索图像，针对每个搜索图像，筛选图像特征距离小于等于预设距离d₁的图库图像，作为搜索图像的相似图像形成相似图像集。其中，不同搜索图像得到相似图像集中相似图像的数量可能不同。

基于上述说明，通过每个文本进行图像搜索得到多个搜索图像，针对每个搜索图像，筛选图库图像中得到其相似图像形成相似图像集，作为该搜索图像所属内容类别的初始训练样本子集，则得到的初始训练样本集可以包括多个内容类别的初始训练样本子集。例如，1万个文本，每个文本进行图像搜索得到5个搜索图像，基于每个搜索图像得到相似图像集，则初始训练样本大约可以包括5万个搜索图像所属内容类别的初始训练样本子集。该方式实现内容类别的大大增加，以解决现有技术中实际内容类别较多，而机器学习得到的图像分类模型在训练时所使用的内容类别较少的问题。

步骤202：基于所述相似图像的图像特征，对所述相似图像集进行密度聚类清洗获得目标相似图像集。

本申请实施例中，为了使得训练得到的图像分类模型在关注图像的内容类别的同时关注图像的风格，在步骤201获得相似图像集之后，在相似图像集中相似图像的内容类别相同的基础上，还需要考虑相似图像集中相似图像的风格是否一致，保留相似图像集中风格一致的大多数相似图像得到目标相似图像集，多个目标相似图像集即可作为最终的训练样本集。

针对每个相似图像集，需要通过相似图像集中相似图像的图像特征，对相似图像进行密度聚类，基于此清洗相似图像集中相似图像，得到目标相似图像集。其中，基于每个相似图像集得到的目标相似图像集作为一个内容类别的训练样本子集。

步骤202具体实施时，针对每个相似图像集，在已知相似图像的图像特征的基础上，还需要确定密度聚类簇的距离阈值和数量阈值。其中，密度聚类簇的距离阈值，是指构成密度聚类簇的相似图像之间的图像特征距离的上限值；密度聚类簇的数量阈值，是指构成密度聚类簇的相似图像数量的下限值。

对相似图像集中相似图像进行密度聚类得到密度聚类簇，密度聚类簇中相似图像的风格一致，则相似图像集中除密度聚类簇之外的相似图像与密度聚类簇中相似图像的风格不一致，可以作为异常图像。为了保留相似图像集中风格一致的大多数相似图像得到目标相似图像集，需要将异常图像从相似图像集中清洗，得到目标相似图像集。

因此，在本申请一种可选的实施方式中，所述步骤202例如可以包括以下步骤D-步骤E：

步骤D：基于所述相似图像的图像特征、密度聚类簇的距离阈值和数量阈值，对所述相似图像集中相似图像进行密度聚类，确定不属于密度聚类簇的相似图像为异常图像；其中，所述距离阈值是指构成密度聚类簇的相似图像之间的图像特征距离的上限值；所述数量阈值是指构成密度聚类簇的相似图像数量的下限值。

步骤E：对所述相似图像集中所述异常图像进行清洗，获得所述目标相似图像集。

作为一种示例，假设相似图像集中包括100个相似图像，预设密度聚类簇的距离阈值为d₂，数量阈值为60；在已知相似图像集中每个相似图像的图像特征的基础上，对100个相似图像进行密度聚类，得到一个密度聚类簇包括92个相似图像，则异常图像为100个相似图像中除密度聚类簇包括的92个相似图像之外的8个相似图像，清洗相似图像集中该8个相似图像，得到目标相似图像集。

基于上述说明，在已知相似图像集中相似图像的图像特征的基础上，通过密度聚类清洗的方式，提高相似图像集中相似图像的风格一致性，使得密度聚类清洗得到的目标相似图像集中相似图像的风格一致。即，用于训练图像分类模型所构建的训练样本子集，不仅考虑了图像的内容类别相同性，而且考虑了图像的风格一致性，以此训练图像分类模型，以解决现有技术中图像分类模型主要关注图像的内容类别，而忽略了图像的风格的问题。

步骤203：利用所述目标相似图像集中相似图像和各相似图像标记的内容类别标签，对预训练分类模型进行微调训练获得目标图像分类模型。

本申请实施例中，在步骤202获得目标相似图像集之后，由于目标相似图像集中相似图像既满足内容类别相同的要求，又满足风格一致的要求，即可利用目标相似图像集中的相似图像为输入、各相似图像标记的内容类别标签为输出，选取一个预训练分类模型进行微调训练，将微调训练完成的预训练分类模型作为目标图像分类模型。其中，预训练分类模型是指一个开源的图像分类模型，该预训练分类模型与步骤201中预设图像分类模型可以相同也可以不同。

在微调训练过程中，预训练分类模型使用目标相似图像集中相似图像和各相似图像标记的内容类别标签作为训练样本，其中，各相似图像作为输入、各相似图像标记的内容类别标签作为输出。如此不仅可以学习目标相似图像集中相似图像的内容类别相同性，而且可以学习目标相似图像集中相似图像的风格一致性，则微调训练得到的目标图像分类模型，不仅关注图像的内容类别，而且关注图像的风格。

本申请实施例中，由步骤201-步骤202所构建的用于训练图像分类模型的训练样本，具有内容类别较多但每个内容类别的样本数量较少的特性，即，目标相似图像集数量较多但每个目标相似图像集中相似图像的数量较少。在预训练分类模型微调训练过程中，采用常见的分类损失函数，预训练分类模型收敛较慢，需要较多次迭代训练，导致模型的训练速度较慢。则可以采用度量学习损失函数，使得目标相似图像集中相似图像的图像特征在图像分类时所表征的差异度更小，同时使得不同相似图像集中相似图像的图像特征在图像分类时所表征的差异度更大；相较于采用常见的分类损失函数的模型，能够使得本申请的预训练分类模型在微调训练过程中更快收敛，提升模型的训练速度。因此，在本申请一种可选的实施方式中，所述对预训练分类模型进行微调训练的网络损失函数包括度量学习损失函数。

实际应用，用于作为训练样本的样本图像可能仅标记有单个内容类别标签，也可能标记有多个内容类别标签。其中，将标记有单个内容类别标签的样本图像，记为单类别标签样本图像；将标记有多个内容类别标签的样本图像，记为多类别标签样本图像。

常见的预训练分类模型是通过多个单类别标签样本图像、每个单类别标签样本图像标记的单个内容类别标签训练分类网络得到的，难以把握样本图像的图像构图与其标记的单个内容类别标签之间的关系。基于此，本申请实施例中，可以获取多个多类别标签样本图像，利用多个多类别标签样本图像、每个多类别标签样本图像标记的多个内容类别标签训练分类网络，得到预训练分类模型。该预训练分类模型相较于现有常见的分类模型，能够把握样本图像的图像构图与其标记的多个内容类别标签之间的关系，为后续学习目标相似图像集中相似图像的风格一致性奠定一定的基础。

因此，在本申请一种可选的实施方式中，所述预训练分类模型是基于多类别标签样本数据训练分类网络获得的；其中，所述多类别标签样本数据包括多类别标签样本图像以及每个样本图像标记的多个内容类别标签，所述多类别标签样本图像是指标记有多个内容类别标签的样本图像。

本申请实施例中，为了使得微调训练得到的目标图像分类模型的模型泛化效果更好，在对预训练分类模型进行微调训练时还可以采用多任务学习方式实现微调训练。即，利用目标相似图像集中的相似图像、各相似图像标记的内容类别标签，训练预训练分类模型作为一个任务；此外，获取多个单类别标签样本图像，该单类别标签样本图像是指标记有单个内容类别标签的样本图像，将多个单类别标签样本图像、每个单类别标签样本图像标记的单个内容类别标签，训练预训练分类模型作为另一个任务。两个任务对预训练分类模型进行多任务学习以实现微调训练，在多任务学习过程中共享学习的信息，得到模型泛化效果更好的目标图像分类模型。

因此，在本申请一种可选的实施方式中，所述方法例如还可以包括步骤F：获取单类别标签样本数据；所述单类别标签样本数据包括单类别标签样本图像以及每个样本图像标记的内容类别标签，所述单类别标签样本图像是指仅标记有单个内容类别标签的样本图像；对应地，所述步骤203例如具体可以为：利用所述目标相似图像集中相似图像、各相似图像标记的内容类别标签和所述单类别标签样本数据，对所述预训练分类模型进行多任务微调训练获得所述目标图像分类模型。

通过本实施例提供的各种实施方式，通过历史用户输入文本进行图像搜索获得搜索图像，该搜索图像标记有内容类别标签；通过预设图像分类模型的特征提取层，提取搜索图像的图像特征和图库图像的图像特征并匹配，得到搜索图像的相似图像形成相似图像集；通过相似图像的图像特征进行密度聚类，清洗相似图像集得到目标相似图像集；以目标相似图像集中相似图像和各相似图像标记的内容类别标签，微调训练预训练分类模型得到目标图像分类模型。由此可见，在通过特征提取匹配的方式，得到表征内容类别相同的相似图像集后，通过密度聚类清洗的方式，提高相似图像集中相似图像的风格一致性，以得到目标相似图像集；基于目标相似图像集微调训练得到的目标图像分类模型，不仅关注图像的内容类别，而且关注图像的风格。采用该目标图像分类模型以图搜图，不仅图像的内容类别相同，适用于有风格一致性需求的以图搜图场景。

在上述实施例获得不仅关注图像的内容类别、而且关注图像的风格一致性的目标图像分类模型后，在以图搜图时应用目标图像分类模型，能够解决以图搜图时应用现有技术中图像分类模型，可能存在召回的相似图像与搜索图像的风格不一致的问题。即，将输入的搜索图像作为目标搜索图像，通过目标图像分类模型的特征提取层，对目标搜索图像和图库图像进行特征提取得到图像特征，基于图像特征进行匹配，从图库图像中召回目标搜索图像的目标相似图像。该方式在目标图像分类模型不仅关注图像的内容类别，而且关注图像的风格的基础上，搜索得到的目标相似图像与目标搜索图像内容类别相同且风格一致。

参见图3，示出了本申请实施例中一种图像搜索的方法的流程示意图。在本实施例中，利用如上述实施例所述的目标图像分类模型，所述方法例如可以包括以下步骤：

步骤301：利用所述目标图像分类模型的特征提取层，对目标搜索图像和图库图像进行特征提取，获得所述目标搜索图像的图像特征和所述图库图像的图像特征。

步骤302：对所述目标搜索图像的图像特征和所述图库图像的图像特征进行匹配，确定所述目标搜索图像的目标相似图像，所述目标相似图像与所述目标搜索图像的风格一致。

其中，在步骤302具体实施时，同样至少可以通过以下两种方式：

第一种可选的步骤C的具体实施方式中，按照图库图像与目标搜索图像的图像特征距离，由小到大对应排列图库图像，筛选前N个图库图像作为目标搜索图像的目标相似图像，N为正整数。

第二种可选的步骤302的具体实施方式中，按照图库图像与目标搜索图像的图像特征距离，筛选图像特征距离小于等于预设距离的图库图像，作为目标搜索图像的目标相似图像。

综上所述，假设目标搜索图像为“水墨山水画A”利用现有技术中图像分类模型的特征提取层，对“水墨山水画A”和图库图像进行特征提取得到图像特征，基于图像特征进行匹配筛选图库图像，召回“水墨山水画A”的相似图像是多个“山水风景图”。其中，召回的“山水风景图”中可能包括很多彩色山水风景图或者山水风景的照片等，这些属于与“水墨山水画A”的内容类别相同但风格不一致的“山水风景图”。

但是，利用本申请实施例提供的目标图像分类模型的特征提取层，对“水墨山水画A”和图库图像进行特征提取得到图像特征，基于图像特征进行匹配筛选图库图像，召回“水墨山水画A”的相似图像为多个“水墨山水画”。其中，召回的多个“水墨山水画”与“水墨山水画A”的内容类别相同且风格一致。

通过本实施例提供的各种实施方式，通过目标图像分类模型的特征提取层，提取目标搜索图像的图像特征和图库图像的图像特征；匹配目标搜索图像的图像特征和图库图像的图像特征，以搜索与目标搜索图像风格一致的目标相似图像。在目标图像分类模型不仅关注图像的内容类别，而且关注图像的风格的基础上，采用该目标图像分类模型以图搜图，不仅图像的内容类别相同，而且图像的风格一致，大大提高有风格一致性需求的以图搜图场景中图像搜索准确率。

示例性装置

参见图4，示出了本申请实施例中一种训练图像分类模型的装置的结构示意图。在本实施例中，装置例如具体可以包括：

特征提取匹配单元401，用于利用预设图像分类模型的特征提取层，对搜索图像和图库图像进行特征提取匹配，获得所述搜索图像的相似图像形成相似图像集；所述搜索图像是通过历史用户输入文本进行图像搜索获得的，所述搜索图像标记有内容类别标签；

密度聚类清洗单元402，用于基于所述相似图像的图像特征，对所述相似图像集进行密度聚类清洗获得目标相似图像集；

微调训练单元403，用于利用所述目标相似图像集中相似图像和各相似图像标记的内容类别标签，对预训练分类模型进行微调训练获得目标图像分类模型。

在本申请实施例一种可选的实施方式中，所述密度聚类清洗单元402，用于：

在本申请实施例一种可选的实施方式中，所述特征提取匹配单元401，用于：

在本申请实施例一种可选的实施方式中，所述预训练分类模型是基于多类别标签样本数据训练分类网络获得的；其中，所述多类别标签样本数据包括多类别标签样本图像以及每个样本图像标记的多个内容类别标签，所述多类别标签样本图像是指标记有多个内容类别标签的样本图像。

在本申请实施例一种可选的实施方式中，所述装置还包括：

对应地，所述微调训练单元403，用于：

通过本实施例提供的各种实施方式，通过历史用户输入文本进行图像搜索获得搜索图像，该搜索图像标记有内容类别标签；通过预设图像分类模型的特征提取层，提取搜索图像的图像特征和图库图像的图像特征并匹配，得到搜索图像的相似图像形成相似图像集；通过相似图像的图像特征进行密度聚类，清洗相似图像集得到目标相似图像集；以目标相似图像集中相似图像和各相似图像标记的内容类别标签，微调训练预训练分类模型得到目标图像分类模型。由此可见，在通过特征提取匹配的方式，得到表征内容类别相同的相似图像集后，通过密度聚类清洗的方式，提高相似图像集中相似图像的风格一致性，以得到目标相似图像集；基于目标相似图像集微调训练得到的目标图像分类模型，不仅关注图像的内容类别，而且关注图像的风格。采用该目标图像分类模型以图搜图，不仅图像的内容类别相同，而且图像的风格一致，适用于有风格一致性需求的以图搜图场景。

参见图5，示出了本申请实施例中一种图像搜索的装置的结构示意图。在本实施例中，利用如上述实施例的目标图像分类模型，装置例如具体可以包括：

特征提取单元501，用于利用目标图像分类模型的特征提取层，对目标搜索图像和图库图像进行特征提取，获得目标搜索图像的图像特征和图库图像的图像特征；

匹配搜索单元502，用于对目标搜索图像的图像特征和图库图像的图像特征进行匹配，搜索目标搜索图像的目标相似图像，目标相似图像与目标搜索图像的风格一致。

图6是根据一示例性实施例示出的一种用于训练图像分类模型或图像搜索的装置600的框图。例如，装置600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，装置600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制装置600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理部件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为装置600生成、管理和分配电力相关联的组件。

多媒体组件608包括在装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相互关联的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当装置600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为装置600提供各个方面的状态评估。例如，传感器组件614可以检测到设备600的打开/关闭状态，组件的相对定位，例如组件为装置600的显示器和小键盘，传感器组件614还可以检测装置600或装置600一个组件的位置改变，用户与装置600接触的存在或不存在，装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信部件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子组件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由装置600的处理器620执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种训练图像分类模型的方法，方法包括：

一种非临时性计算机可读存储介质，当存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种图像搜索的方法，利用上述目标图像分类模型，方法包括：

图7是本申请实施例中服务器的结构示意图。该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

服务器700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，一个或一个以上键盘756，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上，然而并非用以限定本申请。任何熟悉本领域的技术人员，在不脱离本申请技术方案范围情况下，都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本申请技术方案的内容，依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本申请技术方案保护的范围内。

Claims

1.一种训练图像分类模型的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述相似图像的图像特征，对所述相似图像集进行密度聚类清洗获得目标相似图像集，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用预设图像分类模型的特征提取层，对搜索图像和图库图像进行特征提取匹配，获得所述搜索图像的相似图像形成相似图像集，包括：

4.根据权利要求1所述的方法，其特征在于，所述预训练分类模型是基于多类别标签样本数据训练分类网络获得的；其中，所述多类别标签样本数据包括多类别标签样本图像以及每个样本图像标记的多个内容类别标签，所述多类别标签样本图像是指标记有多个内容类别标签的样本图像。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.一种图像搜索的方法，其特征在于，利用如权利要求1-5任一项所述的目标图像分类模型，所述方法包括：

7.一种训练图像分类模型的装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述密度聚类清洗单元，用于：

9.根据权利要求7所述的装置，其特征在于，所述特征提取匹配单元，用于：

10.根据权利要求7所述的装置，其特征在于，所述预训练分类模型是基于多类别标签样本数据训练分类网络获得的；其中，所述多类别标签样本数据包括多类别标签样本图像以及每个样本图像标记的多个内容类别标签，所述多类别标签样本图像是指标记有多个内容类别标签的样本图像。

11.根据权利要求7所述的装置，其特征在于，该装置还包括：

对应地，所述微调训练单元，用于：

12.一种图像搜索的装置，其特征在于，利用如权利要求1-5任一项所述的目标图像分类模型，包括：

13.一种用于训练图像分类模型的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序，以执行权利要求1至5中任一项所述的训练图像分类模型的方法。

14.一种用于图像搜索的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序，以执行权利要求6所述的图像搜索的方法。

15.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至5中任一项所述的训练图像分类模型的方法；或，使得装置执行如权利要求6所述的图像搜索的方法。