CN113722524A

CN113722524A - 基于少量图像样本对大量图像进行归类的方法及装置

Info

Publication number: CN113722524A
Application number: CN202110807479.XA
Authority: CN
Inventors: 郭大勇; 张海龙; 兰永
Original assignee: Shanghai Tongban Information Service Co ltd
Current assignee: Shanghai Tongban Information Service Co ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-11-30

Abstract

本申请公开了一种基于少量图像样本对大量图像进行归类的方法及装置，通过选取少量特征明显的图像进行标注，并修改Inception_v3预训练模型，然后基于少量样本训练分类模型，获得分类模型后，将该分类模型改为特征抽取模型，利用特征抽取模型获取标注图像的特征向量，并计算每个图像类别的中心点向量，最后利用特征抽取模型获取数据库中图像的特征向量，并分别与各图像类别的中心点向量计算相似度，超过阈值就保留。本申请方便了不同类别图像的识别和提高了不同类别图像的识别效率，从而实现对大量图像的准确快速归类，避免了浪费过多的时间成本和人力成本的问题。

Description

基于少量图像样本对大量图像进行归类的方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于少量图像样本对大量图像进行归类的方法及装置。

背景技术

生产或生活中，人们越来越多地使用拍摄影像或照片等图像的方式来记录重要的信息，大量的图像在使用时需要进行繁琐地查找，这样对图像素材进行归类管理就显得尤为重要。

图像归类是一类重要的模式识别应用，需要根据目标特征对不同图像进行识别，预先训练好的归类模型决定了应用时的归类精度。

目前，图像数据越来越多，如何快速将大量图像进行归类一直没有较好的智能处理方法。

发明内容

本发明的目的在于提供一种基于少量图像样本对大量图像进行归类的方法及装置，以解决上述技术背景中提出的问题。

为实现上述目的，本发明采用以下技术方案：

本申请第一个方面提供了一种基于少量图像样本对大量图像进行归类的方法，包括：

步骤S1：设定至少一个图像类别，并设定各图像类别对应的目标特征；

步骤S2：在图像数据库中，按照预设的图像类别、以及其对应的目标特征筛选出部分图像，对筛选出的部分图像进行分类标注；

步骤S3：修改Inception_v3预训练模型的最后一层，使Inception_v3预训练模型输出的一维向量的长度等于预设的图像类别的数量；

步骤S4：将分类标注的部分图像按照预设比例分为训练集和验证集，验证集不参与训练；

步骤S5：将训练集输入修改后的Inception_v3预训练模型进行模型训练，获得分类模型；

步骤S6：将获得的分类模型修改为特征抽取模型；

步骤S7：将分类标注的部分图像分别输入所述特征抽取模型，获得各图像对应的特征向量，相同图像类别的各特征向量相加获得该图像类别的中心点向量；

步骤S8：利用特征抽取模型，获取图像数据库中各图像所对应的特征向量，并分别与所述中心点向量计算相似度，若相似度超过预设阈值，则将该图像归类为所述中心点向量对应的图像类别。

优选地，步骤S2中，所述按照预设的图像类别、以及其对应的目标特征筛选出部分图像，包括：

获得N个图像类别，以及每个所述图像类别分别对应的目标特征，其中，N为大于等于1、小于等于1000的自然数；

获取多张待标注图像，将每张所述待标注图像分别与各所述目标特征进行匹配，将与同一目标特征匹配的所有待标注图像归类至与该目标特征对应的图像类别中，得到每个所述图像类别分别包括的待标注图像。

优选地，步骤S2中，所述对筛选出的部分图像进行分类标注，可以是把不同类别的图像放在不同的文件夹下，即同一类别的图像放在一个文件夹下。

优选地，步骤S2中，分类标注的不同图像类别之间的图像数量，不超过两倍的差距。

上述内容中，所述Inception_v3预训练模型是一个已经在大型图像数据库ImageNet上训练好的图像分类模型，该预训练模型可以对1000种类别的图片进行分类，该预训练模型的最后一层原本输出一个长度为1000的一维向量，向量中的每个值可看作是每个图像类别的置信度。

优选地，所述预设比例为7：3。

优选地，步骤S5中，所述Inception_v3预训练模型在模型训练中先开放多少层、以及需要迭代多少次，根据分类标注的图像类别和数量进行实时调整。

在一种优选实施例中，步骤S5中，所述Inception_v3预训练模型一共有47层，开始模型训练时，只开放最后5-10层进行训练，等损失稳定后再开放所有层加入训练。

优选地，步骤S5中，在所述Inception_v3预训练模型进行完模型训练后，所述方法还包括：用测试集测试训练后获得的分类模型。

优选地，步骤S6中，所述将获得的分类模型修改为特征抽取模型，包括：

将获得的分类模型的最后一层删除，当输入图像到分类模型时，分类模型的输出不再是一个长度等于预设的图像类别的数量的一维向量，而是一个长度为2048的一维向量，此时，分类模型的输出即为表征目标特征的向量。

优选地，步骤S8中，所述相似度采用余弦相似度，计算出的余弦值越大相似度越高。

更优选地，所述余弦相似度的计算公式为：

其中，向量A为图像数据库中待比对的一副图像所对应的特征向量，A_i表示其特征分量；向量B为中心点向量，B_i表示其特征分量；similarity为计算出的余弦值，取值范围为[-1，1]。

优选地，所述方法还包括：

步骤S9：通过相似度计算，将图像数据库筛选出来的符合预设的图像类别的图像加入到训练集中，返回步骤S5。

本申请第二个方面提供了一种基于少量图像样本对大量图像进行归类的装置，包括：

类别获取模块，被配置为获取多个图像类别，以及每个图像类别分别对应的目标特征；

图像标注模块，被配置为根据所述类别获取模块获取的图像类别、以及其对应的目标特征从图像数据库中筛选出部分图像，对筛选出的部分图像进行分类标注；

预训练模型修改模块，被配置为修改Inception_v3预训练模型的最后一层，使Inception_v3预训练模型输出的一维向量的长度等于预设的图像类别的数量；

分类模型训练模块，被配置为将分类标注的部分图像按照预设比例分为训练集和验证集，将训练集输入修改后的Inception_v3预训练模型进行模型训练，获得分类模型；

调整模块，被配置为将获得的分类模型修改为特征抽取模型；

中心点向量计算模块，被配置为将分类标注的部分图像分别输入所述特征抽取模型，获得各图像对应的特征向量，相同图像类别的各特征向量相加获得该图像类别的中心点向量；

相似度评分模块，被配置为利用调整模块获取的特征抽取模块，获取图像数据库中各图像所对应的特征向量，并分别与所述中心点向量计算相似度，依据相似度匹配结果将相似度超过预设阈值的图像归类为所述中心点向量对应的图像类别。

优选地，所述预设比例为7：3。

优选地，所述调整模块包括：删除模块，所述删除模块被配置为删除获得的分类模型的最后一层，使所述分类模型的输出为表征目标特征的、长度为2048的一维向量。

与现有技术相比，本发明的技术方案具有以下有益效果：

本申请提供了一种基于少量图像样本对大量图像进行归类的方法及装置，通过选取少量特征明显的图像进行标注，并修改Inception_v3预训练模型，然后基于少量样本训练分类模型，获得分类模型后，将该分类模型改为特征抽取模型，利用特征抽取模型获取标注图像的特征向量，并计算每个图像类别的中心点向量，最后利用特征抽取模型获取数据库中图像的特征向量，并分别与各图像类别的中心点向量计算相似度，超过阈值就保留。本申请方便了不同类别图像的识别和提高了不同类别图像的识别效率，从而实现对大量图像的准确快速归类，避免了浪费过多的时间成本和人力成本的问题。

附图说明

构成本申请的一部分附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本发明优选实施例的基于少量图像样本对大量图像进行归类的方法流程示意图；

图2是本申请实施例中基于少量图像样本对大量图像进行归类的方法的工作原理示意图；

图3是本申请实施例中获取少量特征明显的图像进行标注的处理过程示意图；

图4是本申请实施例中获取少量特征明显的图像进行标注的另一处理示意图；

图5是本申请实施例中利用特征抽取模型获取标注图像的特征向量，并计算每个图像类别的中心点向量的处理过程示意图；

图6是本申请实施例中将图像数据库中图像的特征向量与中心点向量计算相似度的处理过程示意图；

图7是本发明优选实施例提供的一种基于少量图像样本对大量图像进行归类的装置的结构框图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序，应该理解这样使用的数据在适当情况下可以互换。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

参阅图1，图1是本申请基于少量图像样本对大量图像进行归类的方法的流程示意图。

本申请的基于少量图像样本对大量图像进行归类的方法主要包括以下步骤：

步骤S5：将训练集输入修改后的Inception_v3预训练模型进行模型训练，获得分类模型；用测试集测试训练后获得的分类模型；

步骤S6：将获得的分类模型修改为特征抽取模型；

实施例：

具体地，参阅图2～图6，其中，图2是本申请实施例中基于少量图像样本对大量图像进行归类的方法的工作原理示意图。

第一步：选取少量特征明显的图像进行标注。

步骤101：首先明确要归纳的图像类别，设有N个图像类别(N为自然数，且1≤N≤1000)，设定每个图像类别的图像所对应的目标特征。

步骤102：在图像数据库中，按照预设的图像类别、以及其对应的目标特征筛选出部分图像，对筛选出的部分图像进行分类标注。例如，可以把不同类别的图像放在不同的文件夹下，即同一类别的图像放在一个文件夹下，从而实现分类标注。

如图3所示，左侧为图像数据库，假设预先设定好两类图像类别，即身份证类和证件照类，然后从图像数据库中找到符合该类要求的图像。针对不同的图像数据库以及不同的任务设定不同的类别，比如设定卡证类，那么筛选的图像是尽量包含我们想要的卡证，参见图4。

其中，不同的图像类别之间标注的数据量不要超过两倍的差距。例如，图像类别a标注了50张，那么图像类别b应该在25-100张之间。

第二步：修改Inception_v3预训练模型。

Inception_v3预训练模型是一个已经在大型图像数据库ImageNet上训练好的图像分类模型，该模型可以对1000种类别的图片进行分类。原模型最后一层输出是一个长度为1000的一维向量，向量中每个值可看作是每个图像类别的置信度。

假设我们标注的图像类别有两类，那么改写Inception_v3预训练模型的最后一层，使预训练模型最后输出的是一个长度为2的一维向量。

第三步：基于少量样本训练分类模型。

步骤301：将分类标注的后的图像按照7：3的预设比例分为训练集和验证集，验证集不参与训练。

步骤302：将训练集输入修改后的Inception_v3预训练模型进行模型训练，获得分类模型。Inception_v3预训练模型一共有47层，模型训练过程中，开始只开放最后5-10层进行训练，等损失稳定后再开放所有层加入训练。如何选择先开放多少层以及需要迭代多少次，需要根据自己标注的图像类别和数量进行实时调整。

第四步：获得分类模型后，将该分类模型改为特征抽取模型。

原始模型的前46层的结构是固定的，倒数第二层输出的是一个2048的一维向量，最后一层是在第二步骤中根据图像类别进行修改的。将训练后的分类模型的最后一层去掉，当输入图像到分类模型时，分类模型的输出不再是一个长度等于预设的图像类别(例如图像类别设为2)的数量的一维向量，而是一个长度为2048的一维向量。此时，分类模型的输出即为表征目标特征的向量。这里获得的图像特征向量与图像类别的数量不再有关系。

第五步：利用特征抽取模型获取标注图像的特征向量，并计算每个图像类别的中心点向量。

步骤501：将分类标注的部分图像分别输入所述特征抽取模型，获得各图像对应的特征向量。

步骤502：相同图像类别的各特征向量相加获得该图像类别的中心点向量。

例如，参阅5所示，将身份证类图像输入特征抽取模型，分别得到向量A1、向量A2、向量A3……向量An，则身份证类的中心点向量A＝A1+A2+A3+...+An，其中，n为大于等于1、且小于等于1000的自然数。

第六步：利用特征抽取模型获取图像数据库中图像的特征向量，并分别与图像类别的中心点向量计算相似度，超过阈值则保留。

利用特征抽取模型，获取图像数据库中各图像所对应的特征向量，并分别与所述中心点向量计算余弦相似度，若相似度超过预设阈值，则将该图像归类为所述中心点向量对应的图像类别。

余弦相似度，即用两个特征向量的夹角余弦值来评估两个特征向量的相似度，具体计算公式如下：

式中，向量A为图像数据库中待比对的一副图像所对应的特征向量，A_i表示其特征分量；向量B为中心点向量，B_i表示其特征分量；similarity为计算出的余弦值。

上述余弦相似度的取值范围是[-1,1]，值越大代表两张图像相似度越高。同一张图像的特征向量是一样的，两个相同的特征向量的余弦相似度为1。

设定相似度筛选的阈值，例如我们设置身份证类的筛选阈值为0.7，当图像数据库中的图像与身份证类的中心点向量的相似度超过0.7时，我们就认为该图像是身份证类。如图6，第一张图像与身份证类中心点向量的相似度为0.872，是大于0.7的，那么我们就把这张图像归为身份证类；同理，相似度没有达到0.7的图像则过滤掉。

第七步：把第六步保留的图像作为新增图像标注，重新训练模型再筛选。

有时，由于我们初次标注图像的数量较少，训练出的分类模型在筛选过程中的表现欠佳，那么我们可以把第六步中的阈值设置得高一些，尽量让筛出的图像都是符合要求的图像。

把筛出的符合要求的图像加入到训练集中，从第三步重复一遍，这样新得到的分类模型的效果会更佳。

另一方面，本申请还提供了一种基于少量图像样本对大量图像进行归类的装置。由于本申请公开的基于少量图像样本对大量图像进行归类的装置的工作原理与本申请公开的基于少量图像样本对大量图像进行归类的方法的原理相同或近似，因此重复之处不再赘述。

参阅图7，本申请公开的一种基于少量图像样本对大量图像进行归类的装置100，包括：类别获取模块110、图像标注模块120、预训练模型修改模块130、分类模型训练模块140、调整模块150、中心点向量计算模块160和相似度评分模块170。具体如下：

类别获取模块110，被配置为获取多个图像类别，以及每个图像类别分别对应的目标特征；

图像标注模块120，被配置为根据所述类别获取模块110获取的图像类别、以及其对应的目标特征从图像数据库中筛选出部分图像，对筛选出的部分图像进行分类标注；

预训练模型修改模块130，被配置为修改Inception_v3预训练模型的最后一层，使Inception_v3预训练模型输出的一维向量的长度等于预设的图像类别的数量；

分类模型训练模块140，被配置为将分类标注的部分图像按照预设比例分为训练集和验证集，将训练集输入修改后的Inception_v3预训练模型进行模型训练，获得分类模型；

调整模块150，被配置为删除获得的分类模型的最后一层，使所述分类模型的输出为表征目标特征的、长度为2048的一维向量；

中心点向量计算模块160，被配置为将分类标注的部分图像分别输入所述特征抽取模型，获得各图像对应的特征向量，相同图像类别的各特征向量相加获得该图像类别的中心点向量；

相似度评分模块170，被配置为利用调整模块150获取的特征抽取模块，获取图像数据库中各图像所对应的特征向量，并分别与所述中心点向量计算相似度，依据相似度匹配结果将相似度超过预设阈值的图像归类为所述中心点向量对应的图像类别。

综上所述，本申请提供了一种基于少量图像样本对大量图像进行归类的方法及装置，通过选取少量特征明显的图像进行标注，并修改Inception_v3预训练模型，然后基于少量样本训练分类模型，获得分类模型后，将该分类模型改为特征抽取模型，利用特征抽取模型获取标注图像的特征向量，并计算每个图像类别的中心点向量，最后利用特征抽取模型获取数据库中图像的特征向量，并分别与各图像类别的中心点向量计算相似度，超过阈值就保留。本申请方便了不同类别图像的识别和提高了不同类别图像的识别效率，从而实现对大量图像的准确快速归类，避免了浪费过多的时间成本和人力成本的问题。

以上对本发明的具体实施例进行了详细描述，但其只是作为范例，本发明并不限制于以上描述的具体实施例。对于本领域技术人员而言，任何对本发明进行的等同修改和替代也都在本发明的范畴之中。因此，在不脱离本发明的精神和范围下所作的均等变换和修改，都应涵盖在本发明的范围内。

Claims

1.一种基于少量图像样本对大量图像进行归类的方法，其特征在于，包括：

步骤S6：将获得的分类模型修改为特征抽取模型；

2.根据权利要求1所述的一种基于少量图像样本对大量图像进行归类的方法，其特征在于，步骤S2中，所述按照预设的图像类别、以及其对应的目标特征筛选出部分图像，包括：

3.根据权利要求1所述的一种基于少量图像样本对大量图像进行归类的方法，其特征在于，步骤S2中，分类标注的不同图像类别之间的图像数量，不超过两倍的差距。

4.根据权利要求1所述的一种基于少量图像样本对大量图像进行归类的方法，其特征在于，所述预设比例为7：3。

5.根据权利要求1所述的一种基于少量图像样本对大量图像进行归类的方法，其特征在于，步骤S5中，所述Inception_v3预训练模型一共有47层，开始模型训练时，只开放最后5-10层进行训练，等损失稳定后再开放所有层加入训练。

6.根据权利要求1所述的一种基于少量图像样本对大量图像进行归类的方法，其特征在于，步骤S6中，所述将获得的分类模型修改为特征抽取模型，包括：

7.根据权利要求1所述的一种基于少量图像样本对大量图像进行归类的方法，其特征在于，步骤S8中，所述相似度采用余弦相似度，计算出的余弦值越大相似度越高。

8.根据权利要求1所述的一种基于少量图像样本对大量图像进行归类的方法，其特征在于，还包括：

9.一种基于少量图像样本对大量图像进行归类的装置，其特征在于，包括：

10.根据权利要求9所述的一种基于少量图像样本对大量图像进行归类的装置，其特征在于，所述调整模块包括：删除模块，所述删除模块被配置为删除获得的分类模型的最后一层，使所述分类模型的输出为表征目标特征的、长度为2048的一维向量。