CN112905820B

CN112905820B - 一种基于逻辑学习的多图检索方法

Info

Publication number: CN112905820B
Application number: CN202110337481.5A
Authority: CN
Inventors: 郭倩; 钱宇华; 梁新彦
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2022-11-11
Anticipated expiration: 2041-03-30
Also published as: CN112905820A

Abstract

本发明属于图像检索中的多图检索领域，具体涉及一种基于逻辑学习的多图检索方法。目的是解决现有的多图检索方法效率低下以及资源库耗费过度的技术问题，技术方案为：包括如下步骤：1)收集并预处理数据集；2)训练一组深度学习网络特征提取器并提取图像的特征组；3)将步骤2)所得的特征组融合为各个图的特征；4)构造逻辑三元组，并进行训练逻辑运算网络；5)对逻辑输出特征进行处理并输出检索结果。本发明面对多图检索问题，无需多次访问检索数据库，基于逻辑学习的多图检索方法只需访问一次数据库，大大减少查询时间。

Description

一种基于逻辑学习的多图检索方法

技术领域

本发明属于图像检索中的多图检索领域，具体涉及一种基于逻辑学习的多图检索方法。

背景技术

图像检索是信息检索领域的研究重点之一，旨在从检索库中查找出用户需要的图像，常在各大搜索引擎中使用，当待检索图的张数大于1时，图像检索演变成为多图检索，即一种以多张待检索图为检索内容的图像检索方式。

图像特征提取的好坏对最终检索结果的影响很大，单一特征表征具有一定的局限性，而多模态特征可以从不同角度更全面地描述图像的特征。

目前，针对多图检索的研究并不多，现有方法主要采用在数据库中多次查询的方式进行查找，例如，首先用第一张图在数据库中查询得到一个检索结果库，然后再用第二张图在这个检索结果库中再次查询得到一个更精确的检索结果库，以此类推，返回最后一次的检索结果库并输出其中排序靠前的若干张图作为最终的检索结果，然而，该方法需要多次访问数据库，因此具有较高的时间复杂性，且频繁访问数据库易造成查询效率低下以及数据库资源的过度耗费。

发明内容

本发明的目的是解决现有的多图检索方法效率低下以及资源库耗费过度的技术问题，提供一种只需访问一次数据库的基于逻辑学习的多图检索方法。

为解决上述技术问题，本发明采用的技术方案是：

一种基于逻辑学习的多图检索方法，包括如下步骤：

1)收集并预处理数据集；

2)训练一组深度学习网络特征提取器并提取图像的特征组；

3)将步骤2)所得的特征组融合为各个图的特征；

4)利用逻辑关系和训练集特征构造逻辑三元组，并进行训练逻辑运算网络；

其中，训练逻辑运算网络的具体步骤为：

4.1)利用逻辑规则构造逻辑三元组：利用逻辑规则构造逻辑三元组L＝<I,O,R>；

其中，I表示待检索多图的特征，I＝{I₁,I₂}，I包含两张待检索图的特征I₁和特征I₂；

O表示I对应的逻辑输出特征；

R表示I和O之间的逻辑运算关系，R＝{And、Or、Exclusive、Inverter}；

R中的And表示在O中同时包含I₁和I₂的特征；

Or表示在O中I₁和I₂的特征至少包含一个；

Exclusive表示在O中I₁和I₂的特征只能包含一个；

Inverter表示在O中不包含I₁和I₂的特征；

关系R形式化表示为

使用关系R、训练集S_tr的特征E₁和训练集D_tr的特征E₃构造逻辑三元组L：对于每个逻辑三元组来说，在E₁中随机选择两个特征作为I，I的这两个特征来自不同的类别，在R中随机选择某个逻辑关系r_i作为该逻辑三元组的关系，根据该逻辑关系，计算得到O中应当包含的具体特征类别，然后在E₃中随机选择一个符合该逻辑需求的特征作为O，迭代该过程，完成逻辑三元组的构造；

4.2)训练逻辑运算网络LON：逻辑运算网络LON是一个自编码器网络，包括编码器和解码器，编码器和解码器各由多个全连接层组成，它的损失函数为均方误差损失函数，在训练阶段，将逻辑三元组L的I作为逻辑运算网络LON的输入，O作为逻辑运算网络LON的输出，训练的最大迭代次数为epoch：在每一次迭代中，将I级联然后输入到编码器网络中，然后再解码为符合逻辑需求的输出O^*，使输出O^*接近O，当网络LON的损失在连续十次迭代中不再下降时提前停止其训练，或者网络LON的迭代次数达到最大迭代次数epoch时停止其训练，针对每一种逻辑关系各训练一个逻辑运算网络LON_i，即每个关系r_i隐式地嵌入到一个逻辑运算网络LON_i中，所有逻辑运算网络的集合为

5)在检索阶段，对逻辑输出特征进行处理并输出检索结果。

进一步的，所述步骤1)中包含单类目标的数据集表示为S＝{(x_i,y_i)|1≤i≤|S|}；

其中x_i为单类目标图像，每个x_i只包含一类目标，y_i为x_i的类别，数据集S共有z类，|S|为x_i的数量；

所述包含多类目标的数据集表示为D＝{(x′_i,y′_i)|1≤i≤|D|}；

其中x′_i为多类目标图像，每个x′_i包含两类或两类以上目标，y′_i为x′_i的类别，|D|为x′_i的数量。

进一步的，所述包含单类目标的数据集S划分为两部分：训练集S_tr和测试集S_te；

其中：S_tr共有|S_tr|个样本，S_te共有|S_te|个样本，且|S_tr|+|S_te|＝|S|；

所述包含多类目标的数据集D划分为两部分：训练集D_tr和测试集D_te；

其中D_tr共有|D_tr|个样本，D_te共有|D_te|个样本，且|D_tr|+|D_te|＝|D|；

然后将所有数据集的图像大小缩放至统一尺寸h×w；

其中，h为图像的高度，w为图像的宽度；

进一步的，所述步骤2)中训练一组深度学习网络特征提取器并提取图像特征组的具体步骤包括：

2.1)给定包含若干个不同深度神经模型的网络组为N＝{VGG、Inception、…、DenseNet}，所述网络组可形式化表示为

2.2)使用步骤1)中的训练集S_tr对步骤2.1)中的各个网络n^j进行训练，输入为单类目标图像x_i，所述网络组中的分类层的神经元个数为类别个数z，所述网络组中的损失函数为交叉熵损失函数；

2.3)将步骤2.2)中训练好后各个网络n^j中的分类层去掉，去掉分类层后的网络组

即为得到的一组深度学习网络特征提取器；

2.4)使用步骤2.3)所得的特征提取器提取各图的多模态特征得到特征组：对于每个图像x_i或x′_i，每个网络g^j提取其不同的特征形成特征组

或

展开表示为

进一步的，所述步骤3)中利用融合网络F将步骤2.4)所得的图像的特征组进行融合得到特征，即对于每个x_i或x′_i的特征组

使用融合算子⊙将其融合为特征f_i，具体融合过程表示为

其中，融合算子⊙是逐元素加。

进一步的，利用融合网络F对图像的特征组进行融合之后，则所述训练集S_tr的特征表示为

测试集S_te的特征表示为

训练集D_tr的特征表示为

测试集D_te的特征表示为

进一步的，所述步骤5)中对逻辑输出特征进行处理并输出检索结果的具体步骤如下：

5.1)构造测试数据集：在测试数据集中，输入为I＝{I₁,I₂,...I_m}，I包含m张待检索图的特征，查询需求为步骤4.1)中的关系R采样形成的逻辑关系序列；

在此处，R中的And表示在检索结果中同时包含I中的全部特征；

Or表示在检索结果中包含I中的部分或全部特征；

Exclusive表示在检索结果中只包含I中的某一特征；

Inverter表示在检索结果中不包含I中的任何特征；

使用关系R和测试集S_te的特征E₂构造测试数据集T：对于每个测试数据来说，在E₂中随机选择m个特征作为I，I中的各个特征来自不同的类别，在R中有放回采样序列长度为m-1的逻辑关系序列作为查询需求，迭代该过程，完成测试数据集的构造；

5.2)构建粒化逻辑运算网络LLON：根据待检索图的数量m构建粒化逻辑运算网络

式中，I₁和I₂作为LLON₁的输入，得到输出

和I₃作为LLON₂的输入，得到输出

以此类推，直到

和I_m作为LLON_m-1的输入，得到输出O^*，其中每个LLON_j的选择根据当前的具体查询需求进行选择，当

和I_j+1之间的逻辑关系是r_i时，从RLON中选择隐式地嵌入了这种关系的逻辑运算网络LON_i作为此处的LLON_j，其中，当j＝1时，

5.3)基于逻辑学习的检索过程及检索结果的输出：数据集S∪D是检索库，将逻辑输出特征O^*与E₁∪E₂∪E₃∪E₄中的特征逐条计算余弦相似性并按照相似性的值进行降序排序，得到相似性靠前的K个特征，输出这些特征对应的图。

与现有技术相比，本发明的有益效果是：

1、本发明面对多图检索问题，无需多次访问检索数据库，基于逻辑学习的多图检索方法只需访问一次数据库，大大减少查询时间，资源库耗费较少；

2、本发明事先未在逻辑运算网络中定义逻辑，待检索图与逻辑输出结果间的逻辑模式靠逻辑运算网络自主学得并隐式的存储在逻辑运算网络中；

3、本发明利用典型深度神经网络进行各图不同模态的特征的提取，提取的多模态特征可以更全面的表示图像。

附图说明

图1为本发明多图检索方法的整体流程图；

图2为本发明实施例的基于逻辑学习多图检索方法的训练框图；

图3为本发明实施例的基于逻辑学习多图检索方法的测试框架；

具体实施方式

下面以猫、狗和兔的多图检索为例，结合附图对本发明作进一步说明。

一种基于逻辑学习的多图检索方法，包括如下步骤：

1)收集并预处理数据集；

所述数据集中包含单类目标的数据集表示为S＝{(x_i,y_i)|1≤i≤|S|}；

其中x_i为单类目标图像，每个x_i只包含猫、狗或兔中的任意一类目标，y_i为x_i的类别，数据集S共有3类，分别为猫类、狗类和兔类，|S|为x_i的数量，每类x_i各包括100张图像；

所述数据集中包含多类目标的数据集表示为D＝{(x′_i,y′_i)|1≤i≤|D|}；

其中x′_i为多类目标图像，每个x′_i包含两类或两类以上目标，y′_i为x′_i的类别，|D|为x′_i的数量，具体地，包含猫类和狗类的x′_i有100张图像，包含猫类和兔类的x′_i有100张图像，包含狗类和兔类的x′_i有60张图像；

所述包含单类目标的数据集S划分为两部分：训练集S_tr和测试集S_te；

S_tr与S_te的比例为8:2，S_tr作为训练集共有240个样本，S_te作为测试集共有60个样本；

其中：D_tr共有|D_tr|个样本，D_te共有|D_te|个样本，且|D_tr|+|D_te|＝|D|；

D_tr与D_te的比例为8:2，D_tr作为训练集共有208个样本，D_te作为测试集共有52个样本；

然后将所有数据集的图像大小缩放至统一尺寸为224×224像素；

2)训练一组深度学习网络特征提取器并提取图像的特征组；

2.1)给定包含5个不同深度神经模型的网络组为N＝{VGG、Inception、CBAM、ResNet、DenseNet}，所述网络组可形式化表示为

2.2)使用步骤1)中的训练集S_tr对步骤2.1)中的各个网络n^j进行训练，输入为单类目标图像x_i，所述网络组中的分类层的神经元个数为类别个数3，所述网络组中的损失函数为交叉熵损失函数；

即为得到的一组深度学习网络特征提取器；

或

展开表示为

3)将步骤2)所得的特征组融合为各个图的特征；

所述步骤3)中利用融合网络F将步骤2.4)所得的图像的特征组进行融合得到特征，即对于每个x_i或x′_i的特征组

使用融合算子⊙将其融合为特征f_i，具体融合过程表示为

其中，融合算子⊙是逐元素加，则所述训练集S_tr的特征表示为

测试集S_te的特征表示为

训练集D_tr的特征表示为

测试集D_te的特征表示为

4.1)利用逻辑规则构造逻辑三元组L＝<I,O,R>；

O表示I对应的逻辑输出特征；

R中的And表示在O中同时包含I₁和I₂的特征；

Or表示在O中I₁和I₂的特征至少包含一个；

Exclusive表示在O中I₁和I₂的特征只能包含一个；

Inverter表示在O中不包含I₁和I₂的特征；

关系R形式化表示为

在本实施方式中关系为r₁＝And，在图2和图3中用

表示，使用关系r₁、训练集S_tr的特征E₁和训练集D_tr的特征E₃构造一系列逻辑三元组L，具体构造过程以图2为例，在E₁中随机选择一个猫特征和一个狗特征作为L，然后在E₃中随机选择一个同时包含猫和狗的特征作为O，迭代该过程，完成逻辑三元组的构造；

4.2)训练逻辑运算网络LON：逻辑运算网络LON是一个自编码器网络，包括编码器和解码器，编码器和解码器各由多个全连接层组成，它的损失函数为均方误差损失函数，在训练阶段，将逻辑三元组L的I作为逻辑运算网络LON的输入，O作为逻辑运算网络LON的输出，训练的最大迭代次数为epoch：在每一次迭代中，将I级联然后输入到编码器网络中，然后再解码为符合逻辑需求的输出O^*，使输出O^*接近O，当网络LON的损失在连续十次迭代中不再下降时提前停止其训练，或者网络LON的迭代次数达到最大迭代次数epoch时停止其训练；

5)在检索阶段，对逻辑输出特征进行处理并输出检索结果的具体步骤如下：

5.1)构造测试数据集：在本实施方式中，测试数据集的输入为I＝{I₁,I₂,I₃}，I包含3张待检索图的特征，分别为猫特征、狗特征和兔特征，需要查询在检索结果中同时包含I中的全部特征的结果，使用关系r₁和测试集S_te的特征E₂构造测试数据集T，具体构造过程以图3为例，在E₂中随机选择一个猫特征、一个狗特征和一个兔特征作为I，将r₁重复两次构成序列长度为2的逻辑关系序列作为查询需求，迭代该过程，完成测试数据集的构造；

5.2)构建粒化逻辑运算网络LLON：构建粒化逻辑运算网络LLON＝{LON₁、LON₂}，其中LON₁＝LON，LON₂＝LON，猫特征I₁和狗特征I₂作为LON₁的输入，得到输出

中同时包含猫特征和狗特征，

和兔特征I₃作为LON₂的输入，得到输出O^*，O^*中同时包含猫特征、狗特征和兔特征；

本方法能够有效提升多图检索的查询速度。