CN113807516A

CN113807516A - 神经网络模型的训练方法及图像检索方法

Info

Publication number: CN113807516A
Application number: CN202111077276.6A
Authority: CN
Inventors: 李东明; 金忠良; 林赞磊
Original assignee: Great Wall Computer Software & Systems Inc
Current assignee: Great Wall Computer Software & Systems Inc
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2021-12-17
Anticipated expiration: 2041-09-13

Abstract

本发明公开了神经网络模型的训练方法及图像检索方法，涉及图像处理技术领域。训练方法包括：基于semi‑hard负例策略选择query图像的正例图像和负例图像，构成三元组；将三元组的图像输入到神经网络模型中，对图像进行不同深度卷积层的特征提取，结合注意力网络从得到的特征图中提取感兴趣区域的局部特征；对得到的局部特征进行聚合，得到全局特征；根据全局特征对比损失函数，并通过反向传播算法更新神经网络模型的权重，直到达到预设的训练停止条件，完成训练。本发明可以有效的降低训练的复杂度，加快训练速度。

Description

神经网络模型的训练方法及图像检索方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种用于图像检索的神经网络模型训练方法、一种基于神经网络模型的图像检索方法、一种存储介质及一种图像处理装置。

背景技术

目前的图像检索方法，通常是通过神经网络对全局特征进行学习，识别结果的准确率较低，难以对局部特征进行识别。而如果需要对局部特征进行识别，就需要针对每个局部特征单独进行标注，再训练神经网络模型，标注浪费时间较长，导致训练的速度很慢。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种用于图像检索的神经网络模型训练方法、一种基于神经网络模型的图像检索方法、一种存储介质及一种图像处理装置。

本发明解决上述技术问题的技术方案如下：

一种用于图像检索的神经网络模型训练方法，包括：

获取用于训练的query图像；

基于semi-hard负例策略选择所述query图像的正例图像和负例图像，构成包含query图像、正例图像和负例图像的三元组；

将所述三元组的图像输入到神经网络模型中，对所述图像进行不同深度卷积层的特征提取，结合注意力网络从得到的特征图中提取感兴趣区域的局部特征；

对得到的局部特征进行聚合，得到全局特征；

根据所述全局特征对比损失函数，并通过反向传播算法更新所述神经网络模型的权重，直到达到预设的训练停止条件，完成训练。

本发明的有益效果是：本发明提供的神经网络模型训练方法，通过使用包含query图像、正例图像和负例图像的三元组图像作为训练集，通过提取感兴趣区域，将感兴趣区域的局部特征聚合的方式，可以使全局特征反应出局部特征的代表性，从而使训练数据的标注更加方便，每张图只需要打一个是否为正例的标签即可，不需要对每个局部区域单独进行标注，可以有效的降低训练的复杂度，加快训练速度。

本发明解决上述技术问题的另一种技术方案如下：

一种基于神经网络模型的图像检索方法，包括：

获取待检索图像；

将所述待检索图像输入到使用如上述技术方案所述的用于图像检索的神经网络模型训练方法中训练得到的神经网络模型中，得到所述待检索图像的局部特征；

根据所述局部特征计算所述待检索图像与预设图像数据库中图像的相似度；

根据所述相似度确定与所述待检索图像最相似的图像。

本发明的有益效果是：本发明提供的图像检索方法，通过使用上述技术方案中训练后的神经网络模型对检索图片进行识别，能够提高检索速度和检索精度。

本发明解决上述技术问题的另一种技术方案如下：

一种存储介质，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如上述技术方案所述的用于图像检索的神经网络模型训练方法，和/或使所述计算机执行如上述技术方案所述的基于神经网络模型的图像检索方法。

本发明解决上述技术问题的另一种技术方案如下：

一种图像处理装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，实现如上述技术方案所述的用于图像检索的神经网络模型训练方法，和/或使所述计算机执行如上述技术方案所述的基于神经网络模型的图像检索方法。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明神经网络模型训练方法的实施例提供的流程示意图；

图2为本发明神经网络模型训练方法的其他实施例提供的局部特征网络结构示意图；

图3为本发明神经网络模型训练方法的其他实施例提供的FPN网络结构示意图；

图4为本发明图像检索方法的实施例提供的流程示意图；

图5为本发明图像处理装置的实施例提供的结构框架示意图；

图6为本发明图像处理装置的实施例提供的离线训练和在线检索流程示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实施例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明神经网络模型训练方法的实施例提供的流程示意图，该训练方法用于训练用于图像检索的神经网络模型，包括：

S11，获取用于训练的query图像。

需要说明的是，Query是一个查询参数类，封装了查询条件、分页和排序等功能。例如，为了在数据库中寻找某一特定文件、网站、记录或一系列记录，Query是由搜索引擎或数据库送出的消息。

以训练用于检索外观专利的神经网络模型为例，Query图像可以为外观专利图像。

S12，基于semi-hard负例策略选择query图像的正例图像和负例图像，构成三元组，包含query图像、正例图像和负例图像。

需要说明的是，semi-hard负例策略指的是所选的负例图像与query图像的距离，均大于正例图像与query图像的距离，这样可以保证选择的负例不至于太难，避免模型训练过拟合。

应理解，正例图像指的是与query图像相似的图像，负例图像指的是与query图像不相似的图像。例如，以外观专利图像为例，假设query图像为包装盒，那么正例图像可以为纸盒、礼品盒或快递盒等与query图像相似的图像，负例图像可以为包装袋、衣柜或罐子等与query图像不相似的图像，但又并非如运输车、飞机或火箭等与query图像完全不相似的图像，即semi-hard负例。

semi-hard负例的选择方式可以根据实际需求选择，例如，可以通过欧式距离确定正例图像和负例图像。

S13，将三元组的图像输入到神经网络模型中，对图像进行不同深度卷积层的特征提取，结合注意力网络从得到的特征图中提取感兴趣区域的局部特征。

需要说明的是，训练过程中，正例图像为与query图片相似的图像，负例图像为与query图片不相似的图像。训练使用损失函数可以为：query图片与正例的欧式距离+(2-query图片与负例的欧式距离)，通过反向传播算法更新网络权重，从而减小损失值，使得query与正例的距离不断缩小，而与负例的距离不断增加，最终达到正例和负例区分开的目标。

需要说明的是，局部特征的提取可以通过局部特征网络结构实现，例如，可以通过Resnet模型结合FPN网络，得到不同深度卷积层的输出。

S14，对得到的局部特征进行聚合，得到全局特征。

需要说明的是，具体的聚合方式可以根据实际需求设置，例如，可以按照注意力分数对每个感兴趣区域的局部特征进行加权求和，从而得到聚合的全局特征。

也可以直接将全部感兴趣区域的局部特征直接求和，从而得到聚合的全局特征。

S15，根据全局特征对比损失函数，并通过反向传播算法更新神经网络模型的权重，直到达到预设的训练停止条件，完成训练。

由于模型的输出采用注意力分数进行加权平均，越重要的区域起到作用越大，在训练过程中通过反向传播更新神经网络模型参数，可以让得到的注意力分数更准确。

应理解，预设的训练停止条件可以根据实际需求设置，例如，可以为达到预设的迭代次数等。

本实施例提供的神经网络模型训练方法，通过使用包含query图像、正例图像和负例图像的三元组图像作为训练集，通过提取感兴趣区域，将感兴趣区域的局部特征聚合的方式，可以使全局特征反应出局部特征的代表性，从而使训练数据的标注更加方便，每张图只需要打一个是否为正例的标签即可，不需要对每个局部区域单独进行标注，可以有效的降低训练的复杂度，加快训练速度。

可选地，在一些可能的实施方式中，基于semi-hard负例策略选择query图像的正例图像和负例图像，具体包括：

设置第一距离和第二距离，第一距离大于第二距离；

根据query图像，从预设的正例池中挑选与query图像的距离小于第二距离的图像，作为正例图像；

根据query图像，从预设的负例池中挑选与query图像的距离大于或等于第二距离，且小于第一距离的图像，作为负例图像。

例如，本实施方式中的距离可以为欧式距离。

通过设置第一距离和第二距离，可以在保证负例与query具有一定距离的同时，让负例与query的距离尽可能的小，这样神经网络模型更容易将其错认为正例，即识别难度较高的负例，从而提高训练效果。由于负例在损失函数的部分计算方式为2-query图片与负例的欧式距离，query与负例的距离越小，对应的损失值越大，训练起到的作用也就越大，从而加快神经网络模型训练速度。

此外，通过设置第一距离和第二距离，使所选的负例与query的距离均大于正例与query的距离，这样可以保证选择的负例不至于太难，避免模型训练过拟合。

可选地，在一些可能的实施方式中，根据query图像，从预设的负例池中挑选与query图像的距离大于或等于第二距离，且小于第一距离的图像，作为负例图像，具体包括：

根据query图像，从与query图像对应的类别不同的负例池中挑选与query图像的距离大于或等于第二距离，且小于第一距离的图像，作为负例图像。

通过在各个不同类别的负例池中均衡选择负例，可以保证训练数据达到类间均衡，同时也避免在同一类别下选择到太“难”的负例。

例如，假设query图像的类别为儿童服装，那么可以在儿童服装之外的类别的负例池中选择负例。

可选地，在一些可能的实施方式中，将三元组的图像输入到神经网络模型中，对图像进行不同深度卷积层的特征提取，结合注意力网络从得到的特征图中提取感兴趣区域的局部特征，具体包括：

将三元组的图像输入到神经网络模型中，基于Resnet模型和FPN网络对图像进行不同深度卷积层的特征提取，得到特征图；

从特征图中选择不同的区域作为候选区域，通过注意力网络对每个候选区域进行处理，得到每个候选区域的注意力分数；

按照注意力分数对每个候选区域进行排序，将排名靠前的至少两个候选区域作为感兴趣区域；

提取每个感兴趣区域的局部特征。

如图2所示，给出了一种示例性的局部特征网络结构示意图，该局部特征网络结构包括：Resnet模型、FPN网络和注意力网络。

其中，FPN网络可以将各个层级的特征进行融合，使其同时具有强语义信息和强空间信息，主要用来解决区域尺寸差异很大的问题。

如图3所示，给出了一种示例性的FPN网络结构示意图，FPN网络结构包括多级卷积层，如卷积层1、卷积层2和卷积层3，通过Resnet模型结合FPN网络，可以得到不同深度卷积层的输出。

在FPN网络输出的特征图上可以自动选择不同的区域作为候选区域，结合注意力网络，按注意力分数排序后，将注意力分数靠前的区域作为最终选择的感兴趣区域，对感兴趣区域抽取局部特征。

注意力网络可以采用卷积层加激活层的结构，作用是对FPN网络得到的候选区域计算注意力分值，注意力分值反映了区域的重要性，从而可以对候选区域进行筛选，保留最重要的区域作为感兴趣区域。注意力网络可以极大的减少区域数量，并能去除无关的干扰，保证所选区域是更重要的，从而在提升检索速度的同时提升检索精度。

可选地，在一些可能的实施方式中，对得到的局部特征进行聚合，得到全局特征，具体包括：

根据注意力分数对每个感兴趣区域的局部特征进行加权平均，将得到的特征作为图像的全局特征。

例如，假设对图像进行处理后，分别从该图像中提取到了3个感兴趣区域，得到的特征分别为F₁、F₂和F₃，对应的注意力分数分别为20分、30分和50分，那么可以对注意力分数进行归一化和标准化处理，然后对特征进行加权，得到的全局特征F＝0.2F₁+0.3F₂₊0.5F₃。

通过采用注意力分数进行加权平均，越重要的区域起到作用越大，在训练过程中通过反向传播更新神经网络模型参数，可以让得到的注意力分数更准确。

可选地，在一些可能的实施方式中，将三元组的图像输入到神经网络模型中之前，还包括：

对图像进行随机旋转和/或翻转操作。

应理解，当训练的神经网络模型用于检索外观专利时，由于外观专利图像包含多个视角，因此，还可以对训练数据进行随机旋转和/或翻转，可以有效提升模型泛化性。

应理解，“和/或”指的是可以对三元组的全部图像进行随机的旋转操作，或者将进行随机的翻转操作，或者进行随机的旋转和翻转操作。

可以理解，在一些实施例中，可以包含如上述各实施方式中的部分或全部。

如图4所示，为本发明图像检索方法的实施例提供的流程示意图，该图像检索方法基于如上述关于神经网络模型的训练方法的实施例中训练得到的神经网络模型实现，包括：

S21，获取待检索图像；

S22，将待检索图像输入到训练后的神经网络模型中，得到待检索图像的局部特征；

S23，根据局部特征计算待检索图像与预设图像数据库中图像的相似度；

S24，根据相似度确定与待检索图像最相似的图像。

应理解，在实际检索时，通过注意力网络得到注意力分数后，不再使用注意力分数对所有候选区域加权平均，而是按照注意力分数排序后，只保留注意力分值高的区域对应的特征向量，作为图片局部特征。

采用注意力机制后提取的局部特征，特征数量大幅度降低，同时保留了重要区域，可以避免无关的空白和边框等区域的干扰，能够在提升检索速度的同时提升检索精度。

应理解，因为每张图片都包含多个局部特征，因此在计算两张图片局部特征相似度时，需要对两张图片所有局部特征两两计算距离，并进行聚合得到最终的相似度分数。

例如，假设经过训练后的神经网络模型处理后，图片A得到m个局部特征，图片B得到n个局部特征。

对于图片A上的每个特征a_i，i∈{0，1，...，m)，都分别和图片B的全部n个局部特征b_j，k∈{0，1，...，n}计算欧式距离，得到n个距离，这n个距离计算最小值s_i作为特征α_i与图片B的距离。

由于距离越小相似度越高(距离与相似度成反比)，用1-s_i作为特征α_i与图片B的相似度。图片A的所有特征计算完成后得到s_i，i∈{0，1，...，m}，求和得到分数S，即为图片A和图片B的相似度。

可选地，在一些可能的实施方式中，根据以下公式计算相似度：

其中，S为相似度，a_i为第一图像上的局部特征，i∈{0,1,…,m)，m为第一图像的局部特征的数量，b_j为第二图像上的局部特征，j∈{0,1,…,n}，n为第二图像的局部特征的数量。

本发明提供的图像检索方法，通过使用上述技术方案中训练后的神经网络模型对检索图片进行识别，能够提高检索速度和检索精度。

需要说明的是，上述关于图像检索的实施方式是基于在先关于神经网络模型训练的实施方式中提供的训练后的神经网络模型实现的，因此，对于神经网络模型的结构及训练方法的实施方式的说明可以参考上述相关的实施方式中的对应说明，在此不再赘述。

本发明还提供一种存储介质，存储介质中存储有指令，当计算机读取指令时，使计算机执行如上述任意实施方式公开的用于图像检索的神经网络模型训练方法，和/或使计算机执行如上述任意实施方式公开的基于神经网络模型的图像检索方法。

应理解，“和/或”指的是该存储介质中储存的指令包含以下三种情况：

情况一：该存储介质中储存的指令只有一条，内容为如上述任意实施方式公开的用于图像检索的神经网络模型训练方法。

情况二：该存储介质中储存的指令只有一条，内容为如上述任意实施方式公开的基于神经网络模型的图像检索方法。

情况三：该存储介质中储存的指令只有两条，内容为如上述任意实施方式公开的用于图像检索的神经网络模型训练方法，以及如上述任意实施方式公开的基于神经网络模型的图像检索方法。

每种情况提供的存储介质均可以独立生成、销售和使用。

如图5所示，为本发明图像处理装置的实施例提供的结构框架示意图，该图像处理装置用于训练神经网络模型，以及对输入的图像进行相似图像的检索。该图像处理装置包括：

存储器10，用于存储计算机程序；

处理器20，用于执行计算机程序，实现如权利要求1至6中任一项的用于图像检索的神经网络模型训练方法，和/或使计算机执行如权利要求7或8的基于神经网络模型的图像检索方法。

应理解，“和/或”指的是处理器20执行存储器10存储的计算机程序包含以下三种情况：

情况一：该计算机程序中储存的指令只有一条，内容为如上述任意实施方式公开的用于图像检索的神经网络模型训练方法。

此时，处理器20通过执行该计算机程序，可以实现神经网络模型训练方法。

情况二：该计算机程序中储存的指令只有一条，内容为如上述任意实施方式公开的基于神经网络模型的图像检索方法。

此时，处理器20通过执行该计算机程序，可以实现图像检索方法。

情况三：该计算机程序中储存的指令只有两条，内容为如上述任意实施方式公开的用于图像检索的神经网络模型训练方法，以及如上述任意实施方式公开的基于神经网络模型的图像检索方法。

此时，处理器20通过执行该计算机程序，既可以实现神经网络模型训练方法，又可以实现图像检索方法。

例如，如图6所示，以情况三为例，给出了一种示例性的训练和检索示意图，以外观专利图像的检索为例，该图像处理装置既可以实现神经网络模型的训练过程，也可以实现外观专利的检索过程。

该流程分为离线阶段和在线阶段两个阶段，其中，离线阶段包括：获取训练图像->图像预处理->神经网络模型抽特征->构建特征数据库；

在线阶段包括：获取待检索图像->图像预处理->神经网络模型抽特征->在特征数据库中检索->局部特征距离聚合得到图片直接的相似度->排序得到检索结果。

应理解，对图像的预处理，可以为图像去白边、灰度化和统一大小等，以便于机器处理。

神经网络模型抽特征是指通过神经网络模型，每张图片获得多个局部，每个特征向量为一块局部区域的特征表示。

特征数据库的检索可以根据实现需要选择插件，例如，可以使用基于Elasticsearch向量检索插件。

由于每张图片包含多个特征，在待检索的图像的多个特征向量对特征数据库中的图像的多个特征向量的距离计算后，可以根据计算结果聚合得到两张图片之间的相似度，例如，可以选择欧式距离计算相似度。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例仅仅是示意性的，例如，步骤的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个步骤可以结合或者可以集成到另一个步骤，或一些特征可以忽略，或不执行。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于图像检索的神经网络模型训练方法，其特征在于，包括：

获取用于训练的query图像；

对得到的局部特征进行聚合，得到全局特征；

2.根据权利要求1所述的用于图像检索的神经网络模型训练方法，其特征在于，基于semi-hard负例策略选择所述query图像的正例图像和负例图像，具体包括：

设置第一距离和第二距离，所述第一距离大于所述第二距离；

根据所述query图像，从预设的正例池中挑选与所述query图像的距离小于所述第二距离的图像，作为正例图像；

根据所述query图像，从预设的负例池中挑选与所述query图像的距离大于或等于所述第二距离，且小于所述第一距离的图像，作为负例图像。

3.根据权利要求2所述的用于图像检索的神经网络模型训练方法，其特征在于，根据所述query图像，从预设的负例池中挑选与所述query图像的距离大于或等于所述第二距离，且小于所述第一距离的图像，作为负例图像，具体包括：

根据所述query图像，从与所述query图像对应的类别不同的负例池中挑选与所述query图像的距离大于或等于所述第二距离，且小于所述第一距离的图像，作为负例图像。

4.根据权利要求1至3中任一项所述的用于图像检索的神经网络模型训练方法，其特征在于，将所述三元组的图像输入到神经网络模型中，对所述图像进行不同深度卷积层的特征提取，结合注意力网络从得到的特征图中提取感兴趣区域的局部特征，具体包括：

将所述三元组的图像输入到神经网络模型中，基于Resnet模型和FPN网络对所述图像进行不同深度卷积层的特征提取，得到特征图；

从所述特征图中选择不同的区域作为候选区域，通过注意力网络对每个所述候选区域进行处理，得到每个所述候选区域的注意力分数；

按照所述注意力分数对每个所述候选区域进行排序，将排名靠前的至少两个候选区域作为感兴趣区域；

提取每个所述感兴趣区域的局部特征。

5.根据权利要求4所述的用于图像检索的神经网络模型训练方法，其特征在于，对得到的局部特征进行聚合，得到全局特征，具体包括：

根据所述注意力分数对每个所述感兴趣区域的局部特征进行加权平均，将得到的特征作为所述图像的全局特征。

6.根据权利要求1所述的用于图像检索的神经网络模型训练方法，其特征在于，将所述三元组的图像输入到神经网络模型中之前，还包括：

对所述图像进行随机旋转和/或翻转操作。

7.一种基于神经网络模型的图像检索方法，其特征在于，包括：

获取待检索图像；

将所述待检索图像输入到使用如权利要求1至6中任一项所述的用于图像检索的神经网络模型训练方法中训练得到的神经网络模型中，得到所述待检索图像的局部特征；

根据所述相似度确定与所述待检索图像最相似的图像。

8.根据权利要求7所述的基于神经网络模型的图像检索方法，其特征在于，根据以下公式计算所述相似度：

9.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如权利要求1至6中任一项所述的用于图像检索的神经网络模型训练方法，和/或使所述计算机执行如权利要求7或8所述的基于神经网络模型的图像检索方法。

10.一种图像处理装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，实现如权利要求1至6中任一项所述的用于图像检索的神经网络模型训练方法，和/或使所述计算机执行如权利要求7或8所述的基于神经网络模型的图像检索方法。