CN112905820B - 一种基于逻辑学习的多图检索方法 - Google Patents

一种基于逻辑学习的多图检索方法 Download PDF

Info

Publication number
CN112905820B
CN112905820B CN202110337481.5A CN202110337481A CN112905820B CN 112905820 B CN112905820 B CN 112905820B CN 202110337481 A CN202110337481 A CN 202110337481A CN 112905820 B CN112905820 B CN 112905820B
Authority
CN
China
Prior art keywords
logic
network
training
graph
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110337481.5A
Other languages
English (en)
Other versions
CN112905820A (zh
Inventor
郭倩
钱宇华
梁新彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN202110337481.5A priority Critical patent/CN112905820B/zh
Publication of CN112905820A publication Critical patent/CN112905820A/zh
Application granted granted Critical
Publication of CN112905820B publication Critical patent/CN112905820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于图像检索中的多图检索领域,具体涉及一种基于逻辑学习的多图检索方法。目的是解决现有的多图检索方法效率低下以及资源库耗费过度的技术问题,技术方案为:包括如下步骤:1)收集并预处理数据集;2)训练一组深度学习网络特征提取器并提取图像的特征组;3)将步骤2)所得的特征组融合为各个图的特征;4)构造逻辑三元组,并进行训练逻辑运算网络;5)对逻辑输出特征进行处理并输出检索结果。本发明面对多图检索问题,无需多次访问检索数据库,基于逻辑学习的多图检索方法只需访问一次数据库,大大减少查询时间。

Description

一种基于逻辑学习的多图检索方法
技术领域
本发明属于图像检索中的多图检索领域,具体涉及一种基于逻辑学习的多图检索方法。
背景技术
图像检索是信息检索领域的研究重点之一,旨在从检索库中查找出用户需要的图像,常在各大搜索引擎中使用,当待检索图的张数大于1时,图像检索演变成为多图检索,即一种以多张待检索图为检索内容的图像检索方式。
图像特征提取的好坏对最终检索结果的影响很大,单一特征表征具有一定的局限性,而多模态特征可以从不同角度更全面地描述图像的特征。
目前,针对多图检索的研究并不多,现有方法主要采用在数据库中多次查询的方式进行查找,例如,首先用第一张图在数据库中查询得到一个检索结果库,然后再用第二张图在这个检索结果库中再次查询得到一个更精确的检索结果库,以此类推,返回最后一次的检索结果库并输出其中排序靠前的若干张图作为最终的检索结果,然而,该方法需要多次访问数据库,因此具有较高的时间复杂性,且频繁访问数据库易造成查询效率低下以及数据库资源的过度耗费。
发明内容
本发明的目的是解决现有的多图检索方法效率低下以及资源库耗费过度的技术问题,提供一种只需访问一次数据库的基于逻辑学习的多图检索方法。
为解决上述技术问题,本发明采用的技术方案是:
一种基于逻辑学习的多图检索方法,包括如下步骤:
1)收集并预处理数据集;
2)训练一组深度学习网络特征提取器并提取图像的特征组;
3)将步骤2)所得的特征组融合为各个图的特征;
4)利用逻辑关系和训练集特征构造逻辑三元组,并进行训练逻辑运算网络;
其中,训练逻辑运算网络的具体步骤为:
4.1)利用逻辑规则构造逻辑三元组:利用逻辑规则构造逻辑三元组L=<I,O,R>;
其中,I表示待检索多图的特征,I={I1,I2},I包含两张待检索图的特征I1和特征I2
O表示I对应的逻辑输出特征;
R表示I和O之间的逻辑运算关系,R={And、Or、Exclusive、Inverter};
R中的And表示在O中同时包含I1和I2的特征;
Or表示在O中I1和I2的特征至少包含一个;
Exclusive表示在O中I1和I2的特征只能包含一个;
Inverter表示在O中不包含I1和I2的特征;
关系R形式化表示为
Figure GDA0003684890310000021
使用关系R、训练集Str的特征E1和训练集Dtr的特征E3构造逻辑三元组L:对于每个逻辑三元组来说,在E1中随机选择两个特征作为I,I的这两个特征来自不同的类别,在R中随机选择某个逻辑关系ri作为该逻辑三元组的关系,根据该逻辑关系,计算得到O中应当包含的具体特征类别,然后在E3中随机选择一个符合该逻辑需求的特征作为O,迭代该过程,完成逻辑三元组的构造;
4.2)训练逻辑运算网络LON:逻辑运算网络LON是一个自编码器网络,包括编码器和解码器,编码器和解码器各由多个全连接层组成,它的损失函数为均方误差损失函数,在训练阶段,将逻辑三元组L的I作为逻辑运算网络LON的输入,O作为逻辑运算网络LON的输出,训练的最大迭代次数为epoch:在每一次迭代中,将I级联然后输入到编码器网络中,然后再解码为符合逻辑需求的输出O*,使输出O*接近O,当网络LON的损失在连续十次迭代中不再下降时提前停止其训练,或者网络LON的迭代次数达到最大迭代次数epoch时停止其训练,针对每一种逻辑关系各训练一个逻辑运算网络LONi,即每个关系ri隐式地嵌入到一个逻辑运算网络LONi中,所有逻辑运算网络的集合为
Figure GDA0003684890310000031
5)在检索阶段,对逻辑输出特征进行处理并输出检索结果。
进一步的,所述步骤1)中包含单类目标的数据集表示为S={(xi,yi)|1≤i≤|S|};
其中xi为单类目标图像,每个xi只包含一类目标,yi为xi的类别,数据集S共有z类,|S|为xi的数量;
所述包含多类目标的数据集表示为D={(x′i,y′i)|1≤i≤|D|};
其中x′i为多类目标图像,每个x′i包含两类或两类以上目标,y′i为x′i的类别,|D|为x′i的数量。
进一步的,所述包含单类目标的数据集S划分为两部分:训练集Str和测试集Ste
其中:Str共有|Str|个样本,Ste共有|Ste|个样本,且|Str|+|Ste|=|S|;
所述包含多类目标的数据集D划分为两部分:训练集Dtr和测试集Dte
其中Dtr共有|Dtr|个样本,Dte共有|Dte|个样本,且|Dtr|+|Dte|=|D|;
然后将所有数据集的图像大小缩放至统一尺寸h×w;
其中,h为图像的高度,w为图像的宽度;
进一步的,所述步骤2)中训练一组深度学习网络特征提取器并提取图像特征组的具体步骤包括:
2.1)给定包含若干个不同深度神经模型的网络组为N={VGG、Inception、…、DenseNet},所述网络组可形式化表示为
Figure GDA0003684890310000041
2.2)使用步骤1)中的训练集Str对步骤2.1)中的各个网络nj进行训练,输入为单类目标图像xi,所述网络组中的分类层的神经元个数为类别个数z,所述网络组中的损失函数为交叉熵损失函数;
2.3)将步骤2.2)中训练好后各个网络nj中的分类层去掉,去掉分类层后的网络组
Figure GDA0003684890310000042
即为得到的一组深度学习网络特征提取器;
2.4)使用步骤2.3)所得的特征提取器提取各图的多模态特征得到特征组:对于每个图像xi或x′i,每个网络gj提取其不同的特征形成特征组
Figure GDA0003684890310000043
Figure GDA0003684890310000044
Figure GDA0003684890310000045
展开表示为
Figure GDA0003684890310000046
进一步的,所述步骤3)中利用融合网络F将步骤2.4)所得的图像的特征组进行融合得到特征,即对于每个xi或x′i的特征组
Figure GDA0003684890310000047
使用融合算子⊙将其融合为特征fi,具体融合过程表示为
Figure GDA0003684890310000048
其中,融合算子⊙是逐元素加。
进一步的,利用融合网络F对图像的特征组进行融合之后,则所述训练集Str的特征表示为
Figure GDA0003684890310000049
测试集Ste的特征表示为
Figure GDA00036848903100000410
训练集Dtr的特征表示为
Figure GDA00036848903100000411
测试集Dte的特征表示为
Figure GDA00036848903100000412
进一步的,所述步骤5)中对逻辑输出特征进行处理并输出检索结果的具体步骤如下:
5.1)构造测试数据集:在测试数据集中,输入为I={I1,I2,...Im},I包含m张待检索图的特征,查询需求为步骤4.1)中的关系R采样形成的逻辑关系序列;
在此处,R中的And表示在检索结果中同时包含I中的全部特征;
Or表示在检索结果中包含I中的部分或全部特征;
Exclusive表示在检索结果中只包含I中的某一特征;
Inverter表示在检索结果中不包含I中的任何特征;
使用关系R和测试集Ste的特征E2构造测试数据集T:对于每个测试数据来说,在E2中随机选择m个特征作为I,I中的各个特征来自不同的类别,在R中有放回采样序列长度为m-1的逻辑关系序列作为查询需求,迭代该过程,完成测试数据集的构造;
5.2)构建粒化逻辑运算网络LLON:根据待检索图的数量m构建粒化逻辑运算网络
Figure GDA0003684890310000051
式中,I1和I2作为LLON1的输入,得到输出
Figure GDA0003684890310000052
和I3作为LLON2的输入,得到输出
Figure GDA0003684890310000053
以此类推,直到
Figure GDA0003684890310000054
和Im作为LLONm-1的输入,得到输出O*,其中每个LLONj的选择根据当前的具体查询需求进行选择,当
Figure GDA0003684890310000055
和Ij+1之间的逻辑关系是ri时,从RLON中选择隐式地嵌入了这种关系的逻辑运算网络LONi作为此处的LLONj,其中,当j=1时,
Figure GDA0003684890310000056
5.3)基于逻辑学习的检索过程及检索结果的输出:数据集S∪D是检索库,将逻辑输出特征O*与E1∪E2∪E3∪E4中的特征逐条计算余弦相似性并按照相似性的值进行降序排序,得到相似性靠前的K个特征,输出这些特征对应的图。
与现有技术相比,本发明的有益效果是:
1、本发明面对多图检索问题,无需多次访问检索数据库,基于逻辑学习的多图检索方法只需访问一次数据库,大大减少查询时间,资源库耗费较少;
2、本发明事先未在逻辑运算网络中定义逻辑,待检索图与逻辑输出结果间的逻辑模式靠逻辑运算网络自主学得并隐式的存储在逻辑运算网络中;
3、本发明利用典型深度神经网络进行各图不同模态的特征的提取,提取的多模态特征可以更全面的表示图像。
附图说明
图1为本发明多图检索方法的整体流程图;
图2为本发明实施例的基于逻辑学习多图检索方法的训练框图;
图3为本发明实施例的基于逻辑学习多图检索方法的测试框架;
具体实施方式
下面以猫、狗和兔的多图检索为例,结合附图对本发明作进一步说明。
一种基于逻辑学习的多图检索方法,包括如下步骤:
1)收集并预处理数据集;
所述数据集中包含单类目标的数据集表示为S={(xi,yi)|1≤i≤|S|};
其中xi为单类目标图像,每个xi只包含猫、狗或兔中的任意一类目标,yi为xi的类别,数据集S共有3类,分别为猫类、狗类和兔类,|S|为xi的数量,每类xi各包括100张图像;
所述数据集中包含多类目标的数据集表示为D={(x′i,y′i)|1≤i≤|D|};
其中x′i为多类目标图像,每个x′i包含两类或两类以上目标,y′i为x′i的类别,|D|为x′i的数量,具体地,包含猫类和狗类的x′i有100张图像,包含猫类和兔类的x′i有100张图像,包含狗类和兔类的x′i有60张图像;
所述包含单类目标的数据集S划分为两部分:训练集Str和测试集Ste
其中:Str共有|Str|个样本,Ste共有|Ste|个样本,且|Str|+|Ste|=|S|;
Str与Ste的比例为8:2,Str作为训练集共有240个样本,Ste作为测试集共有60个样本;
所述包含多类目标的数据集D划分为两部分:训练集Dtr和测试集Dte
其中:Dtr共有|Dtr|个样本,Dte共有|Dte|个样本,且|Dtr|+|Dte|=|D|;
Dtr与Dte的比例为8:2,Dtr作为训练集共有208个样本,Dte作为测试集共有52个样本;
然后将所有数据集的图像大小缩放至统一尺寸为224×224像素;
2)训练一组深度学习网络特征提取器并提取图像的特征组;
2.1)给定包含5个不同深度神经模型的网络组为N={VGG、Inception、CBAM、ResNet、DenseNet},所述网络组可形式化表示为
Figure GDA0003684890310000071
2.2)使用步骤1)中的训练集Str对步骤2.1)中的各个网络nj进行训练,输入为单类目标图像xi,所述网络组中的分类层的神经元个数为类别个数3,所述网络组中的损失函数为交叉熵损失函数;
2.3)将步骤2.2)中训练好后各个网络nj中的分类层去掉,去掉分类层后的网络组
Figure GDA0003684890310000072
即为得到的一组深度学习网络特征提取器;
2.4)使用步骤2.3)所得的特征提取器提取各图的多模态特征得到特征组:对于每个图像xi或x′i,每个网络gj提取其不同的特征形成特征组
Figure GDA0003684890310000073
Figure GDA0003684890310000074
Figure GDA0003684890310000075
展开表示为
Figure GDA0003684890310000076
3)将步骤2)所得的特征组融合为各个图的特征;
所述步骤3)中利用融合网络F将步骤2.4)所得的图像的特征组进行融合得到特征,即对于每个xi或x′i的特征组
Figure GDA0003684890310000077
使用融合算子⊙将其融合为特征fi,具体融合过程表示为
Figure GDA0003684890310000078
其中,融合算子⊙是逐元素加,则所述训练集Str的特征表示为
Figure GDA0003684890310000079
测试集Ste的特征表示为
Figure GDA00036848903100000710
训练集Dtr的特征表示为
Figure GDA00036848903100000711
测试集Dte的特征表示为
Figure GDA00036848903100000712
4)利用逻辑关系和训练集特征构造逻辑三元组,并进行训练逻辑运算网络;
4.1)利用逻辑规则构造逻辑三元组L=<I,O,R>;
其中,I表示待检索多图的特征,I={I1,I2},I包含两张待检索图的特征I1和特征I2
O表示I对应的逻辑输出特征;
R表示I和O之间的逻辑运算关系,R={And、Or、Exclusive、Inverter};
R中的And表示在O中同时包含I1和I2的特征;
Or表示在O中I1和I2的特征至少包含一个;
Exclusive表示在O中I1和I2的特征只能包含一个;
Inverter表示在O中不包含I1和I2的特征;
关系R形式化表示为
Figure GDA0003684890310000081
在本实施方式中关系为r1=And,在图2和图3中用
Figure GDA0003684890310000082
表示,使用关系r1、训练集Str的特征E1和训练集Dtr的特征E3构造一系列逻辑三元组L,具体构造过程以图2为例,在E1中随机选择一个猫特征和一个狗特征作为L,然后在E3中随机选择一个同时包含猫和狗的特征作为O,迭代该过程,完成逻辑三元组的构造;
4.2)训练逻辑运算网络LON:逻辑运算网络LON是一个自编码器网络,包括编码器和解码器,编码器和解码器各由多个全连接层组成,它的损失函数为均方误差损失函数,在训练阶段,将逻辑三元组L的I作为逻辑运算网络LON的输入,O作为逻辑运算网络LON的输出,训练的最大迭代次数为epoch:在每一次迭代中,将I级联然后输入到编码器网络中,然后再解码为符合逻辑需求的输出O*,使输出O*接近O,当网络LON的损失在连续十次迭代中不再下降时提前停止其训练,或者网络LON的迭代次数达到最大迭代次数epoch时停止其训练;
5)在检索阶段,对逻辑输出特征进行处理并输出检索结果的具体步骤如下:
5.1)构造测试数据集:在本实施方式中,测试数据集的输入为I={I1,I2,I3},I包含3张待检索图的特征,分别为猫特征、狗特征和兔特征,需要查询在检索结果中同时包含I中的全部特征的结果,使用关系r1和测试集Ste的特征E2构造测试数据集T,具体构造过程以图3为例,在E2中随机选择一个猫特征、一个狗特征和一个兔特征作为I,将r1重复两次构成序列长度为2的逻辑关系序列作为查询需求,迭代该过程,完成测试数据集的构造;
5.2)构建粒化逻辑运算网络LLON:构建粒化逻辑运算网络LLON={LON1、LON2},其中LON1=LON,LON2=LON,猫特征I1和狗特征I2作为LON1的输入,得到输出
Figure GDA0003684890310000091
中同时包含猫特征和狗特征,
Figure GDA0003684890310000092
和兔特征I3作为LON2的输入,得到输出O*,O*中同时包含猫特征、狗特征和兔特征;
5.3)基于逻辑学习的检索过程及检索结果的输出:数据集S∪D是检索库,将逻辑输出特征O*与E1∪E2∪E3∪E4中的特征逐条计算余弦相似性并按照相似性的值进行降序排序,得到相似性靠前的K个特征,输出这些特征对应的图。
本方法能够有效提升多图检索的查询速度。

Claims (7)

1.一种基于逻辑学习的多图检索方法,其特征在于,包括如下步骤:
1)收集并预处理数据集;
2)训练一组深度学习网络特征提取器并提取图像的特征组;
3)将步骤2)所得的特征组融合为各个图的特征;
4)利用逻辑关系和训练集特征构造逻辑三元组,并进行训练逻辑运算网络;
其中,训练逻辑运算网络的具体步骤为:
4.1)利用逻辑规则构造逻辑三元组:利用逻辑规则构造逻辑三元组L=<I,O,R>;
其中,I表示待检索多图的特征,I={I1,I2},I包含两张待检索图的特征I1和特征I2
O表示I对应的逻辑输出特征;
R表示I和O之间的逻辑运算关系,R={And、Or、Exclusive、Inverter};
R中的And表示在O中同时包含I1和I2的特征;
Or表示在O中I1和I2的特征至少包含一个;
Exclusive表示在O中I1和I2的特征只能包含一个;
Inverter表示在O中不包含I1和I2的特征;
关系R形式化表示为
Figure FDA0003684890300000011
使用关系R、训练集Str的特征E1和训练集Dtr的特征E3构造逻辑三元组L:对于每个逻辑三元组来说,在E1中随机选择两个特征作为I,I的这两个特征来自不同的类别,在R中随机选择某个逻辑关系ri作为该逻辑三元组的关系,根据该逻辑关系,计算得到O中应当包含的具体特征类别,然后在E3中随机选择一个符合该逻辑需求的特征作为O,迭代该过程,完成逻辑三元组的构造;
4.2)训练逻辑运算网络LON:逻辑运算网络LON是一个自编码器网络,包括编码器和解码器,编码器和解码器各由多个全连接层组成,它的损失函数为均方误差损失函数,在训练阶段,将逻辑三元组L的I作为逻辑运算网络LON的输入,O作为逻辑运算网络LON的输出,训练的最大迭代次数为epoch:在每一次迭代中,将I级联然后输入到编码器网络中,然后再解码为符合逻辑需求的输出O*,使输出O*接近O,当网络LON的损失在连续十次迭代中不再下降时提前停止其训练,或者网络LON的迭代次数达到最大迭代次数epoch时停止其训练,针对每一种逻辑关系各训练一个逻辑运算网络LONi,即每个关系ri隐式地嵌入到一个逻辑运算网络LONi中,所有逻辑运算网络的集合为
Figure FDA0003684890300000021
5)在检索阶段,对逻辑输出特征进行处理并输出检索结果。
2.根据权利要求1所述的一种基于逻辑学习的多图检索方法,其特征在于,所述步骤1)中包含单类目标的数据集表示为S={(xi,yi)|1≤i≤|S|};
其中xi为单类目标图像,每个xi只包含一类目标,yi为xi的类别,数据集S共有z类,|S|为xi的数量;
包含多类目标的数据集表示为D={(x′i,y′i)|1≤i≤|D|};
其中x′i为多类目标图像,每个x′i包含两类或两类以上目标,y′i为x′i的类别,|D|为x′i的数量。
3.根据权利要求2所述的一种基于逻辑学习的多图检索方法,其特征在于,
所述包含单类目标的数据集S划分为两部分:训练集Str和测试集Ste
其中:Str共有|Str|个样本,Ste共有|Ste|个样本,且|Str|+|Ste|=|S|;
所述包含多类目标的数据集D划分为两部分:训练集Dtr和测试集Dte
其中Dtr共有|Dtr|个样本,Dte共有|Dte|个样本,且|Dtr|+|Dte|=|D|;
然后将所有数据集的图像大小缩放至统一尺寸h×w;
其中,h为图像的高度,w为图像的宽度。
4.根据权利要求3所述的一种基于逻辑学习的多图检索方法,其特征在于,所述步骤2)中训练一组深度学习网络特征提取器并提取图像特征组的具体步骤包括:
2.1)给定包含若干个不同深度神经模型的网络组为N={VGG、Inception、...、DenseNet},所述网络组可形式化表示为
Figure FDA0003684890300000031
2.2)使用步骤1)中的训练集Str对步骤2.1)中的各个网络nj进行训练,输入为单类目标图像xi,所述网络组中的分类层的神经元个数为类别个数z,所述网络组中的损失函数为交叉熵损失函数;
2.3)将步骤2.2)中训练好后各个网络nj中的分类层去掉,去掉分类层后的网络组
Figure FDA0003684890300000032
即为得到的一组深度学习网络特征提取器;
2.4)使用步骤2.3)所得的特征提取器提取各图的多模态特征得到特征组:对于每个图像xi或x′i,每个网络gj提取其不同的特征形成特征组
Figure FDA0003684890300000033
Figure FDA0003684890300000034
Figure FDA0003684890300000035
展开表示为
Figure FDA0003684890300000036
5.根据权利要求4所述的一种基于逻辑学习的多图检索方法,其特征在于,所述步骤3)中利用融合网络F将步骤2.4)所得的图像的特征组进行融合得到特征,即对于每个xi或x′i的特征组
Figure FDA0003684890300000037
使用融合算子⊙将其融合为特征fi,具体融合过程表示为
Figure FDA0003684890300000038
其中,融合算子⊙是逐元素加。
6.根据权利要求5所述的一种基于逻辑学习的多图检索方法,其特征在于,利用融合网络F对图像的特征组进行融合之后,则所述训练集Str的特征表示为
Figure FDA0003684890300000039
测试集Ste的特征表示为
Figure FDA00036848903000000310
训练集Dtr的特征表示为
Figure FDA00036848903000000311
Figure FDA00036848903000000312
测试集Dte的特征表示为
Figure FDA00036848903000000313
7.根据权利要求1所述的一种基于逻辑学习的多图检索方法,其特征在于,所述步骤5)中对逻辑输出特征进行处理并输出检索结果的具体步骤如下:
5.1)构造测试数据集:在测试数据集中,输入为I={I1,I2,...Im},I包含m张待检索图的特征,查询需求为步骤4.1)中的关系R采样形成的逻辑关系序列;
在此处,R中的And表示在检索结果中同时包含I中的全部特征;
Or表示在检索结果中包含I中的部分或全部特征;
Exclusive表示在检索结果中只包含I中的某一特征;
Inverter表示在检索结果中不包含I中的任何特征;
使用关系R和测试集Ste的特征E2构造测试数据集T:对于每个测试数据来说,在E2中随机选择m个特征作为I,I中的各个特征来自不同的类别,在R中有放回采样序列长度为m-1的逻辑关系序列作为查询需求,迭代该过程,完成测试数据集的构造;
5.2)构建粒化逻辑运算网络LLON:根据待检索图的数量m构建粒化逻辑运算网络
Figure FDA0003684890300000041
式中,I1和I2作为LLON1的输入,得到输出
Figure FDA0003684890300000042
Figure FDA0003684890300000043
和I3作为LLON2的输入,得到输出
Figure FDA0003684890300000044
以此类推,直到
Figure FDA0003684890300000045
和Im作为LLONm-1的输入,得到输出O*,其中每个LLONj的选择根据当前的具体查询需求进行选择,当
Figure FDA0003684890300000046
和Ij+1之间的逻辑关系是ri时,从RLON中选择隐式地嵌入了这种关系的逻辑运算网络LONi作为此处的LLONj,其中,当j=1时,
Figure FDA0003684890300000047
5.3)基于逻辑学习的检索过程及检索结果的输出:数据集S∪D是检索库,将逻辑输出特征O*与E1∪E2∪E3∪E4中的特征逐条计算余弦相似性并按照相似性的值进行降序排序,得到相似性靠前的K个特征,输出这些特征对应的图。
CN202110337481.5A 2021-03-30 2021-03-30 一种基于逻辑学习的多图检索方法 Active CN112905820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110337481.5A CN112905820B (zh) 2021-03-30 2021-03-30 一种基于逻辑学习的多图检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110337481.5A CN112905820B (zh) 2021-03-30 2021-03-30 一种基于逻辑学习的多图检索方法

Publications (2)

Publication Number Publication Date
CN112905820A CN112905820A (zh) 2021-06-04
CN112905820B true CN112905820B (zh) 2022-11-11

Family

ID=76109401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110337481.5A Active CN112905820B (zh) 2021-03-30 2021-03-30 一种基于逻辑学习的多图检索方法

Country Status (1)

Country Link
CN (1) CN112905820B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115731436B (zh) * 2022-09-21 2023-09-26 东南大学 基于深度学习融合模型的高速公路车辆图像检索方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407352A (zh) * 2016-09-06 2017-02-15 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于深度学习的交通图像检索方法
CN110188227A (zh) * 2019-05-05 2019-08-30 华南理工大学 一种基于深度学习与低秩矩阵优化的哈希图像检索方法
CN110298386A (zh) * 2019-06-10 2019-10-01 成都积微物联集团股份有限公司 一种基于图像内容的标签自动化定义方法
CN110516803A (zh) * 2018-05-21 2019-11-29 畅想科技有限公司 将传统计算机视觉算法实现为神经网络
CN110889505A (zh) * 2019-11-18 2020-03-17 北京大学 一种图文序列匹配的跨媒体综合推理方法和系统
CN111292062A (zh) * 2020-02-10 2020-06-16 中南大学 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质
CN111401307A (zh) * 2020-04-08 2020-07-10 中国人民解放军海军航空大学 基于深度度量学习的卫星遥感图像目标关联方法和装置
CN111444829A (zh) * 2020-03-25 2020-07-24 南京航空航天大学 面向液基细胞学检查的融合推理与学习的决策分类方法
CN111723729A (zh) * 2020-06-18 2020-09-29 成都颜禾曦科技有限公司 基于知识图谱的监控视频犬类姿态和行为智能识别方法
CN112004111A (zh) * 2020-09-01 2020-11-27 南京烽火星空通信发展有限公司 一种全域深度学习的新闻视频信息抽提方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7274822B2 (en) * 2003-06-30 2007-09-25 Microsoft Corporation Face annotation for photo management
US10043100B2 (en) * 2016-04-05 2018-08-07 Omni Ai, Inc. Logical sensor generation in a behavioral recognition system
CN110309333B (zh) * 2019-05-28 2021-09-17 北京工业大学 一种基于余弦度量的深度哈希图像检索方法
CN111966849B (zh) * 2020-08-17 2023-07-28 深圳市前海小萌科技有限公司 一种基于深度学习和度量学习的草图检索方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407352A (zh) * 2016-09-06 2017-02-15 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于深度学习的交通图像检索方法
CN110516803A (zh) * 2018-05-21 2019-11-29 畅想科技有限公司 将传统计算机视觉算法实现为神经网络
CN110188227A (zh) * 2019-05-05 2019-08-30 华南理工大学 一种基于深度学习与低秩矩阵优化的哈希图像检索方法
CN110298386A (zh) * 2019-06-10 2019-10-01 成都积微物联集团股份有限公司 一种基于图像内容的标签自动化定义方法
CN110889505A (zh) * 2019-11-18 2020-03-17 北京大学 一种图文序列匹配的跨媒体综合推理方法和系统
CN111292062A (zh) * 2020-02-10 2020-06-16 中南大学 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质
CN111444829A (zh) * 2020-03-25 2020-07-24 南京航空航天大学 面向液基细胞学检查的融合推理与学习的决策分类方法
CN111401307A (zh) * 2020-04-08 2020-07-10 中国人民解放军海军航空大学 基于深度度量学习的卫星遥感图像目标关联方法和装置
CN111723729A (zh) * 2020-06-18 2020-09-29 成都颜禾曦科技有限公司 基于知识图谱的监控视频犬类姿态和行为智能识别方法
CN112004111A (zh) * 2020-09-01 2020-11-27 南京烽火星空通信发展有限公司 一种全域深度学习的新闻视频信息抽提方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Cost-Sensitive Local Binary Feature Learning for Facial Age Estimation;Jiwen Lu等;《IEEE Transactions on Image Processing 》;20150923;第5356-5368页 *
图像情境下的数字序列逻辑学习;梁慧等;《 智能系统学报 》;20190910;第1189-1198页 *

Also Published As

Publication number Publication date
CN112905820A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN107679250B (zh) 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN107330074B (zh) 基于深度学习和哈希编码的图像检索方法
Kleinberg An overtraining-resistant stochastic modeling method for pattern recognition
CN112115265A (zh) 文本分类中的小样本学习方法
CN107958067A (zh) 一种基于无标注自动特征提取的大规模电商图片检索系统
Kiros et al. Deep representations and codes for image auto-annotation
CN110457514A (zh) 一种基于深度哈希的多标签图像检索方法
Varga et al. Fast content-based image retrieval using convolutional neural network and hash function
Cetinic et al. Genre classification of paintings
CN109063112A (zh) 一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法
CN110674326A (zh) 一种基于多项式分布学习的神经网络结构检索方法
CN109871379B (zh) 一种基于数据块学习的在线哈希最近邻查询方法
CN110188827A (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN112905820B (zh) 一种基于逻辑学习的多图检索方法
CN114461890A (zh) 分层多模态的知识产权搜索引擎方法与系统
CN108446605A (zh) 复杂背景下双人交互行为识别方法
CN109583584B (zh) 可使具有全连接层的cnn接受不定形状输入的方法及系统
CN115100694A (zh) 一种基于自监督神经网络的指纹快速检索方法
Zhang et al. Image scene categorization using multi-bag-of-features
CN114170476A (zh) 图像检索模型训练方法、装置、电子设备及存储介质
Hua et al. Cross-modal correlation learning with deep convolutional architecture
CN110399528B (zh) 一种自动跨特征推理式目标检索方法
Tai et al. Image retrieval based on color and texture
CN116108219B (zh) 图像检索方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant