CN117078983B - 图像匹配方法、装置、设备 - Google Patents

图像匹配方法、装置、设备 Download PDF

Info

Publication number
CN117078983B
CN117078983B CN202311334153.5A CN202311334153A CN117078983B CN 117078983 B CN117078983 B CN 117078983B CN 202311334153 A CN202311334153 A CN 202311334153A CN 117078983 B CN117078983 B CN 117078983B
Authority
CN
China
Prior art keywords
shared
image matching
modal feature
feature extraction
extraction module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311334153.5A
Other languages
English (en)
Other versions
CN117078983A (zh
Inventor
孟令超
吴勇敢
王红强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Qixin Smart Technology Co ltd
Original Assignee
Anhui Qixin Smart Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Qixin Smart Technology Co ltd filed Critical Anhui Qixin Smart Technology Co ltd
Priority to CN202311334153.5A priority Critical patent/CN117078983B/zh
Publication of CN117078983A publication Critical patent/CN117078983A/zh
Application granted granted Critical
Publication of CN117078983B publication Critical patent/CN117078983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像匹配方法、装置、设备。方法包括:获取包裹的射线图像和多帧可见光图像;采用图像匹配网络对射线图像和多帧可见光图像进行处理,得到共享特征数据;基于共享特征数据确定与射线图像匹配的可见光图像;图像匹配网络包括依次连接的第一模块、第二模块、第三模块,第一模块用于对可见光图像和射线图像进行特征提取得到两个特定模态特征,第二模块用于根据特定模态特征得到第一共享模态特征,第三模块用于根据第一共享模态特征得到第二共享模态特征,训练图像匹配网络所使用的损失函数根据ID损失函数和多实例对比损失函数得到,ID损失函数根据第一共享模态特征得到,多实例对比损失函数根据第二共享模态特征得到。

Description

图像匹配方法、装置、设备
技术领域
本发明涉及图像匹配技术领域,尤其涉及一种图像匹配方法、装置、设备。
背景技术
在安检领域,信息化追溯系统越来越被高度重视,通过创新的技术手段,能够根据旅客的X-ray包裹图片,迅速地匹配到旅客在放包过程中被捕获到的可见光图片,从而进一步获取到旅客放包的视频信息,实现信息快速高效检索追踪,解决了在安检信息追溯过程中消耗的大量人力和物力。
X-ray与可见光包裹双模态重识别任务目标是通过给出一张X-ray包裹查询图片,从可见光摄像头下获取到的可见光包裹图片库中,进行检索匹配。但是,相关技术中的检索匹配方法,包裹重识别任务中表现能力十分有限,无法满足实际应用的需求。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一个目的在于提出一种图像匹配方法,以实现高性能的图像识别。
本发明的第二个目的在于提出一种图像匹配装置。
本发明的第三个目的在于提出一种图像匹配设备。
为达到上述目的,本发明第一方面实施例提出了一种图像匹配方法,所述方法包括:获取包裹的射线图像和多帧可见光图像;采用预先训练好的图像匹配网络对所述射线图像和多帧所述可见光图像进行处理,得到共享特征数据;基于所述共享特征数据确定与所述射线图像匹配的可见光图像;其中,所述图像匹配网络包括依次连接的特定模态特征提取模块、第一共享模态特征提取模块和第二共享模态特征提取模块,所述特定模态特征提取模块用于对所述可见光图像进行特征提取得到第一特定模态特征,并对所述射线图像进行特征提取得到第二特定模态特征,所述第一共享模态特征提取模块用于根据所述第一特定模态特征和所述第二特定模态特征得到第一共享模态特征,所述第二共享模态特征提取模块用于根据所述第一共享模态特征得到第二共享模态特征,训练所述图像匹配网络所使用的损失函数根据ID损失函数和多实例对比损失函数得到,所述ID损失函数根据所述第一共享模态特征得到,所述多实例对比损失函数根据所述第二共享模态特征得到。
为达到上述目的,本发明第二方面实施例提出了一种图像匹配装置,所述装置包括:获取模块,用于获取包裹的射线图像和多帧可见光图像;处理模块,用于采用预先训练好的图像匹配网络对所述射线图像和多帧所述可见光图像进行处理,得到共享特征数据;匹配模块,用于基于所述共享特征数据确定与所述射线图像匹配的可见光图像;训练模块,用于对所述图像匹配网络进行训练;其中,所述图像匹配网络包括依次连接的特定模态特征提取模块、第一共享模态特征提取模块和第二共享模态特征提取模块,所述特定模态特征提取模块用于对所述可见光图像进行特征提取得到第一特定模态特征,并对所述射线图像进行特征提取得到第二特定模态特征,所述第一共享模态特征提取模块用于根据所述第一特定模态特征和所述第二特定模态特征得到第一共享模态特征,所述第二共享模态特征提取模块用于根据所述第一共享模态特征得到第二共享模态特征,训练所述图像匹配网络所使用的损失函数根据ID损失函数和多实例对比损失函数得到,所述ID损失函数根据所述第一共享模态特征得到,所述多实例对比损失函数根据所述第二共享模态特征得到。
为达到上述目的,本发明第三方面实施例提出了一种图像匹配设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的图像匹配的运行程序,所述处理器执行所述图像匹配的运行程序时,实现上述的图像匹配方法。
本发明实施例的图像匹配方法、装置、设备,设置图像匹配网络包括依次连接的特定模态特征提取模块、第一共享模态特征提取模块和第二共享模态特征提取模块,将训练图像输入特征模态特征提取模块和第一共享模态特征提取模块,将模块输出结果代入ID损失函数,并将训练图像输入特定模态特征提取模块、第一共享模态特征提取模块和第二共享模态特征提取模块,将模块输出结果代入多实例对比损失函数,根据ID损失函数和多实例对比损失函数的运算结果对图像匹配网络进行训练,将包裹的射线图像和多帧可见光图像输入训练好的图像匹配网络,得到共享特征数据,根据共享特征数据确定与射线图像匹配的可见光图像。通过该方法,可以实现采用包含ID损失函数和多实例对比损失函数的损失函数对图像匹配网络进行训练,以使得训练后的图像匹配网络能够在重识别任务中有着更优良的性能。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是本发明一个或多个实施例的图像匹配方法的流程图;
图2是本发明一个或多个实施例的图像匹配方法的流程图;
图3是本发明一个实施例的图像匹配网络的结构示意图;
图4是本发明一个示例的图像匹配网络的结构示意图;
图5是本发明一个或多个实施例的图像匹配方法的流程图;
图6是本发明一个示例的图像匹配方法的示意图;
图7是本发明一个或多个实施例的图像匹配方法的流程图;
图8是本发明一个或多个实施例的图像匹配方法的流程图;
图9是本发明另一个示例的图像匹配网络的结构示意图;
图10是本发明实施例的图像匹配装置的结构框图。
具体实施方式
下面参考附图描述本发明实施例的图像匹配方法、装置、设备,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。参考附图描述的实施例是示例性的,不能理解为对本发明的限制。
图1是本发明一个或多个实施例的图像匹配方法的流程图。
如图1所示,图像匹配方法,包括:
S11,获取包裹的射线图像和多帧可见光图像。
S12,采用预先训练好的图像匹配网络对射线图像和多帧可见光图像进行处理,得到共享特征数据。
S13,基于共享特征数据确定与射线图像匹配的可见光图像。
其中,图像匹配网络包括依次连接的特定模态特征提取模块、第一共享模态特征提取模块和第二共享模态特征提取模块,特定模态特征提取模块用于对可见光图像进行特征提取得到第一特定模态特征,并对射线图像进行特征提取得到第二特定模态特征,第一共享模态特征提取模块用于根据第一特定模态特征和第二特定模态特征得到第一共享模态特征,第二共享模态特征提取模块用于根据第一共享模态特征得到第二共享模态特征,训练图像匹配网络所使用的损失函数根据ID损失函数和多实例对比损失函数得到,ID损失函数根据第一共享模态特征得到,多实例对比损失函数根据第二共享模态特征得到。
由此,设置图像匹配网络包括依次连接的特定模态特征提取模块、第一共享模态特征提取模块和第二共享模态特征提取模块,将训练图像输入特征模态特征提取模块和第一共享模态特征提取模块,将模块输出结果代入ID损失函数,并将训练图像输入特定模态特征提取模块、第一共享模态特征提取模块和第二共享模态特征提取模块,将模块输出结果代入多实例对比损失函数,根据ID损失函数和多实例对比损失函数的运算结果对图像匹配网络进行训练,将包裹的射线图像和多帧可见光图像输入训练好的图像匹配网络,得到共享特征数据,根据共享特征数据确定与射线图像匹配的可见光图像。通过该方法,可以实现采用包含ID损失函数和多实例对比损失函数的损失函数对图像匹配网络进行训练,以使得训练后的图像匹配网络能够在重识别任务中有着更优良的性能。
在本发明一个或多个实施例中,采用预先获取的第一训练集和N个第二训练集对图像匹配网络进行训练,第一训练集中包括与N个第二训练集一一对应的N个第一样本,第二训练集中的多个第二样本与对应的第一样本为针对同一目标包裹获取到的样本,参见图2,图像匹配网络的训练方法,包括:
S21,确定目标第一样本。
S22,获取与目标第一样本对应的第三训练集,其中,第三训练集为第一训练集去除目标第一样本后得到的训练集。
S23,采用图像匹配网络对目标第一样本、与目标第一样本对应的第二训练集样本和第三训练集样本进行处理,根据处理结果得到损失值。
S24,将损失值代入图像匹配网络所使用的损失函数,根据函数运算结果对图像匹配网络进行训练。
具体地,上述第一训练集、第二训练集、第三训练集中的每个样本均包括对应的可见光图像和射线图像。首先从第一训练集的N个第一样本中确定出目标第一样本,进而获取第一训练集中去除目标第一样本后剩余的训练集,得到与目标第一样本对应的第三训练集。
在获取得到目标第一样本和与目标第一样本对应的第三训练集后,将目标第一样本,与目标第一样本对应的第二训练集样本和第三训练集样本输入图像匹配网络,采用图像匹配网络对样本进行处理,得到处理结果,并根据处理结果得到损失值,从而根据损失值对图像匹配网络进行训练。
在本发明一个或多个实施例中,采用图像匹配网络对目标第一样本、与目标第一样本对应的第二训练集样本和第三训练集样本进行处理,根据处理结果得到损失值,包括:采用特定模态特征提取模块和第一共享模态特征提取模块对目标第一样本进行处理,得到第一处理结果,并采用第二共享模态特征提取模块对第一处理结果进行处理,得到第二处理结果,以及采用特定模态特征提取模块、第一共享模态特征提取模块和第二共享模态特征提取模块对与目标第一样本对应的第二训练集样本和第三训练集样本进行处理,得到第三处理结果;根据第一处理结果得到第一损失值,并根据第二处理结果得到第二损失值,以及根据第二处理结果和第三处理结果得到第三损失值。
上述图像匹配网络还包括一个骨干网络resnet50,来提取X-ray和可见光包裹模态的特征图。骨干网络resnet50由四个卷积层Conv Block1、Conv Block2、Conv Block3和Conv Block4组成。构建MDI(Multi-Dimensional Interactive,多维度注意力交互模块)来进行样本交互,并分别把Separated-MDI(特定模态特征提取模块)置于网络的浅层,把Shared-MDI(共享模态特征提取模块)置于网络的深层。上述四个卷积层Conv Block1、ConvBlock2、Conv Block3、Conv Block4分别为图3所示的第一卷积层10、第二卷积层12、第三卷积层14、第四卷积层16,上述Separated-MDI包括图3所示的第一特定模态特征提取模块11和第二特定模态特征提取模块13,上述Shared-MDI包括图3所示的第一共享模态特征提取模块15和第二共享模态特征提取模块17。
参见图3,首先,将射线图像和可见光图像输入第一卷积层10,第一卷积层10对射线图像和可见光图像进行处理,得到射线图像的第一卷积特征和可见光图像的第一卷积特征。将射线图像的第一卷积特征和可见光图像的第一卷积特征分别输入对应的第一特定模态特征提取模块11,得到射线图像的第一特定模态数据和可见光图像的第一特定模态数据。将射线图像和可见光图像的第一特定模态数据输入第二卷积层12,得到射线图像的第二卷积特征和可见光图像的第二卷积特征。将射线图像和可见光图像的第二卷积特征分别输入对应的第二特定模态特征提取模块13,得到射线图像的第二特定模态数据和可见光图像的第二特定模态数据。
在得到射线图像的第二特定模态数据和可见光图像的第二特定模态数据后,将射线图像和可见光图像的第二特定模态数据输入第三卷积层14,并将第三卷积层14的输出结果输入第一共享模态特征提取模块15,得到第一共享模态特征提取模块15输出的特征P4。
在得到特征P4后,将特征P4输入第四卷积层16,并将第四卷积层16的输出结果输入第二共享模态特征提取模块17,得到第二共享模态特征提取模块17输出的特征P5。
还设置模态双对齐模块,通过模态双对齐模块进行两次模态对齐。其中,两次模态对齐中的初次模态对齐为在第一共享模态特征提取模块15之后,根据第一共享模态特征提取模块15输出的特征P4,使用ID损失函数实现。两次模态对齐中的二次模态对齐为在第二共享模态特征提取模块17之后,根据第二共享模态特征提取模块17输出的特征P5,使用多实例对比损失函数实现。
上述第一特定模态特征提取模块11的结构可以参见图4,包括样本交互模块20和空间通道相互作用模块30。样本交互模块用于对训练批次内的所有样本求均值和方差,使用该均值和方差对样本进行归一化,也就是说,将输入特征X减去该训练批次内所有样本的均值μ,再除以该训练批次内所有样本标准方差σ,以实现训练批次内所有样本的交互,得到输出结果F1,输出结果F1的高度为H1,宽度为W1,通道个数为C1。
在得到F1后,采用压缩层341对F1进行空间压缩和通道压缩,其中,压缩层341通过CONV(Convolution,卷积)实现空间压缩和通道压缩。采用维度变换层342将压缩后的样本特征F2在空间维度上展平,得到第一样本特征Z1/>,其中,维度变换层342可通过Reshape函数实现在空间维度上展平,第一样本特征Z1的维度小于压缩后的样本特征F2的维度。采用Multi-Head Attention(多头注意力)343对第一样本特征Z1进行空间注意力和空间通道注意力的特征提取,得到样本注意力特征Z2/>。进一步的,还需要使用Sigmoid函数和Reshape函数进行处理。
具体地,在得到目标第一样本后,获取得到与目标第一样本对应的P4数据,将该P4数据作为第一处理结果,从而根据第一处理结果得到第一损失值。
在得到目标第一样本后,还获取得到与目标第一样本对应的P5数据,将该P5数据作为第二处理结果,从而根据第二处理结果得到第二损失值。
在得到与目标第二样本对应的第二训练集和第三训练集后,获取得到与第二训练集样本和第三训练集样本对应的P5数据,将该P5数据作为第三处理结果,从而根据第二处理结果和第三处理结果得到第三损失值。
在本发明一个或多个实施例中,参见图5,根据第一处理结果得到第一损失值,包括:
S51,根据第一处理结果得到第一全局特征和第一局部特征。
S52,基于第一全局特征得到三元组损失值,并基于第一全局特征和第一局部特征得到交叉熵损失值。
S53,计算三元组损失值和交叉熵损失值的加和,得到第一损失值。
具体地,在得到特征P4后,得到与特征P4对应的全局特征和局部特征,其中,局部特征的获取方法可以为将特征P4分割得到,具体可参见图6所示的示例,在图6中,第一局部特征到/>是P4在垂直区域分割成/>部分得到的。
在第一全局特征上实施三元组损失得到三元组损失值/>,在第一全局特征/>和第一局部特征上实施交叉熵损失,得到交叉熵损失值/>,最终/>得到第一损失值/>,对应的计算式如下:
其中,是指特征被分类器预测正确的概率,/>代表期望,/>是属于同一ID的特征距离,/>是属于不同ID的特征距离,/>是一个边距参数,/>,M为第一局部特征的数量。上述同一ID的特征距离是指同一个包裹的样本射线图像与样本可见光图像全局特征的最大欧式距离,上述边距参数为提前预设的值。
上述根据特征P4得到第一损失值即为初次模态对齐。
在本发明一个或多个实施例中,参见图7,根据第二处理结果得到第二损失值,包括:
S71,根据第二处理结果得到第二全局特征和第二局部特征。
S72,根据第二全局特征和第二局部特征计算得到交叉熵损失值,将交叉熵损失值作为第二损失值。
具体的,在得到与目标第一样本对应的P5数据后,根据P5数据得到第二全局特征和第二局部特征,具体的方法同样可以参照图6。
在得到第二全局特征和第二局部特征后,可根据下释计算得到交叉熵损失值:
其中,为交叉熵损失值,/>为第二全局特征,/>为第i个第二局部特征,N为第二局部特征的总数。
在本发明一个或多个实施例中,参见图8,根据第二处理结果和第三处理结果得到第三损失值,包括:
S81,分别对第二处理结果和第三处理结果进行归一化计算,得到对应的归一化特征。
S82,根据归一化特征得到第三损失值。
具体的,根据下式计算得到第三损失值:
其中,为第三损失值,/>为基于目标第一样本得到的归一化特征,/>为温度调节系数,H为/>中的样本数量,/>为第二训练集,/>为基于第二训练集样本得到的归一化特征,/>为第三训练集,/>为基于第三训练集样本得到的归一化特征。
上述根据特征P5得到和/>即为二次模态对齐。
在本发明一个或多个实施例中,归一化特征的计算方法,包括:将处理结果依次输入全局池化层和第一全连接层,得到第一全连接层的输出结果,采用Batchnorm函数对输出结果进行计算,并将计算结果输入第二全连接层和非线性激活层进行计算,得到对应的归一化特征。
其中,归一化特征可以采用下式计算:
其中,GAP为全局池化层,为非线性激活层,/>为Batchnorm函数,/>为上述P5数据,/>为第一全连接层,/>为第二全连接层,/>为归一化特征。
在本发明一个或多个实施例中,参见图9,图像匹配网络所使用的损失函数包括:
其中,为函数运算结果,/>为第一损失值,/>为第二损失值,为第三损失值,/>为第一超参数,/>为第二超参数。
综上,本发明实施例的图像匹配方法,设置图像匹配网络包括依次连接的特定模态特征提取模块、第一共享模态特征提取模块和第二共享模态特征提取模块,将训练图像输入特征模态特征提取模块和第一共享模态特征提取模块,将模块输出结果代入ID损失函数,并将训练图像输入特定模态特征提取模块、第一共享模态特征提取模块和第二共享模态特征提取模块,将模块输出结果代入多实例对比损失函数,根据ID损失函数和多实例对比损失函数的运算结果对图像匹配网络进行训练,将包裹的射线图像和多帧可见光图像输入训练好的图像匹配网络,得到共享特征数据,根据共享特征数据确定与射线图像匹配的可见光图像。通过该方法,可以实现采用包含ID损失函数和多实例对比损失函数的损失函数对图像匹配网络进行训练,以使得训练后的图像匹配网络能够在重识别任务中有着更优良的性能。针对X-ray与可见光包裹重识别任务做具体的方法设计,在重识别任务中具有高能力,能够很好的区分X-ray包裹与可见光包裹之间的模态差异,且采用复合的损失函数,在X-ray与可见光包裹跨模态任务中具有高性能。
进一步的,本发明提出一种图像匹配装置。
图10是本发明实施例的图像匹配装置的结构框图。
如图10所示,图像匹配装置100,包括:获取模块101,用于获取包裹的射线图像和多帧可见光图像;处理模块102,用于采用预先训练好的图像匹配网络对射线图像和多帧可见光图像进行处理,得到共享特征数据;匹配模块103,用于基于共享特征数据确定与射线图像匹配的可见光图像;训练模块104,用于对图像匹配网络进行训练;其中,图像匹配网络包括依次连接的特定模态特征提取模块、第一共享模态特征提取模块和第二共享模态特征提取模块,特定模态特征提取模块用于对可见光图像进行特征提取得到第一特定模态特征,并对射线图像进行特征提取得到第二特定模态特征,第一共享模态特征提取模块用于根据第一特定模态特征和第二特定模态特征得到第一共享模态特征,第二共享模态特征提取模块用于根据第一共享模态特征得到第二共享模态特征,训练图像匹配网络所使用的损失函数根据ID损失函数和多实例对比损失函数得到,ID损失函数根据第一共享模态特征得到,多实例对比损失函数根据第二共享模态特征得到。
需要说明的是,本发明实施例的图像匹配装置的其他具体实施方式,可以参见上述实施例的图像匹配方法。
本发明实施例的图像匹配装置,设置图像匹配网络包括依次连接的特定模态特征提取模块、第一共享模态特征提取模块和第二共享模态特征提取模块,将训练图像输入特征模态特征提取模块和第一共享模态特征提取模块,将模块输出结果代入ID损失函数,并将训练图像输入特定模态特征提取模块、第一共享模态特征提取模块和第二共享模态特征提取模块,将模块输出结果代入多实例对比损失函数,根据ID损失函数和多实例对比损失函数的运算结果对图像匹配网络进行训练,将包裹的射线图像和多帧可见光图像输入训练好的图像匹配网络,得到共享特征数据,根据共享特征数据确定与射线图像匹配的可见光图像。通过该方法,可以实现采用包含ID损失函数和多实例对比损失函数的损失函数对图像匹配网络进行训练,以使得训练后的图像匹配网络能够在重识别任务中有着更优良的性能。针对X-ray与可见光包裹重识别任务做具体的方法设计,在重识别任务中具有高能力,能够很好的区分X-ray包裹与可见光包裹之间的模态差异,且采用复合的损失函数,在X-ray与可见光包裹跨模态任务中具有高性能。
进一步的,本发明提出一种图像匹配设备。
在本发明实施例中,图像匹配设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的图像匹配的运行程序,处理器执行图像匹配的运行程序时,实现上述的图像匹配方法。
本发明实施例的图像匹配设备,设置图像匹配网络包括依次连接的特定模态特征提取模块、第一共享模态特征提取模块和第二共享模态特征提取模块,将训练图像输入特征模态特征提取模块和第一共享模态特征提取模块,将模块输出结果代入ID损失函数,并将训练图像输入特定模态特征提取模块、第一共享模态特征提取模块和第二共享模态特征提取模块,将模块输出结果代入多实例对比损失函数,根据ID损失函数和多实例对比损失函数的运算结果对图像匹配网络进行训练,将包裹的射线图像和多帧可见光图像输入训练好的图像匹配网络,得到共享特征数据,根据共享特征数据确定与射线图像匹配的可见光图像。通过该方法,可以实现采用包含ID损失函数和多实例对比损失函数的损失函数对图像匹配网络进行训练,以使得训练后的图像匹配网络能够在重识别任务中有着更优良的性能。针对X-ray与可见光包裹重识别任务做具体的方法设计,在重识别任务中具有高能力,能够很好的区分X-ray包裹与可见光包裹之间的模态差异,且采用复合的损失函数,在X-ray与可见光包裹跨模态任务中具有高性能。
需要说明的是,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
在本说明书的描述中,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,除非另有说明,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (7)

1.一种图像匹配方法,其特征在于,所述方法包括:
获取包裹的射线图像和多帧可见光图像;
采用预先训练好的图像匹配网络对所述射线图像和多帧所述可见光图像进行处理,得到共享特征数据;
基于所述共享特征数据确定与所述射线图像匹配的可见光图像;
其中,所述图像匹配网络包括依次连接的特定模态特征提取模块、第一共享模态特征提取模块和第二共享模态特征提取模块,所述特定模态特征提取模块用于对所述可见光图像进行特征提取得到第一特定模态特征,并对所述射线图像进行特征提取得到第二特定模态特征,所述第一共享模态特征提取模块用于根据所述第一特定模态特征和所述第二特定模态特征得到第一共享模态特征,所述第二共享模态特征提取模块用于根据所述第一共享模态特征得到第二共享模态特征,训练所述图像匹配网络所使用的损失函数根据ID损失函数和多实例对比损失函数得到,所述ID损失函数根据所述第一共享模态特征得到,所述多实例对比损失函数根据所述第二共享模态特征得到;
采用预先获取的第一训练集和N个第二训练集对所述图像匹配网络进行训练,所述第一训练集中包括与N个所述第二训练集一一对应的N个第一样本,所述第二训练集中的多个第二样本与对应的第一样本为针对同一目标包裹获取到的样本,所述图像匹配网络的训练方法,包括:
确定目标第一样本;
获取与所述目标第一样本对应的第三训练集,其中,所述第三训练集为所述第一训练集去除所述目标第一样本后得到的训练集;
采用所述图像匹配网络对所述目标第一样本、与所述目标第一样本对应的第二训练集样本和第三训练集样本进行处理,根据处理结果得到损失值;
将所述损失值代入所述图像匹配网络所使用的损失函数,根据函数运算结果对所述图像匹配网络进行训练;
所述采用所述图像匹配网络对所述目标第一样本、与所述目标第一样本对应的第二训练集样本和第三训练集样本进行处理,根据处理结果得到损失值,包括:
采用所述特定模态特征提取模块和所述第一共享模态特征提取模块对所述目标第一样本进行处理,得到第一处理结果,并采用所述第二共享模态特征提取模块对所述第一处理结果进行处理,得到第二处理结果,以及采用所述特定模态特征提取模块、所述第一共享模态特征提取模块和所述第二共享模态特征提取模块对与所述目标第一样本对应的第二训练集样本和第三训练集样本进行处理,得到第三处理结果;
根据所述第一处理结果得到第一损失值,并根据所述第二处理结果得到第二损失值,以及根据所述第二处理结果和所述第三处理结果得到第三损失值;
所述根据所述第一处理结果得到第一损失值,包括:
根据所述第一处理结果得到第一全局特征和第一局部特征;
基于所述第一全局特征得到三元组损失值,并基于所述第一全局特征和所述第一局部特征得到交叉熵损失值;
计算所述三元组损失值和所述交叉熵损失值的加和,得到所述第一损失值。
2.根据权利要求1所述的图像匹配方法,其特征在于,所述根据所述第二处理结果得到第二损失值,包括:
根据所述第二处理结果得到第二全局特征和第二局部特征;
根据所述第二全局特征和所述第二局部特征计算得到交叉熵损失值,将所述交叉熵损失值作为所述第二损失值。
3.根据权利要求1所述的图像匹配方法,其特征在于,所述根据所述第二处理结果和所述第三处理结果得到第三损失值,包括:
分别对所述第二处理结果和所述第三处理结果进行归一化计算,得到对应的归一化特征;
根据所述归一化特征得到所述第三损失值。
4.根据权利要求3所述的图像匹配方法,其特征在于,所述归一化特征的计算方法,包括:
将处理结果依次输入全局池化层和第一全连接层,得到所述第一全连接层的输出结果,采用Batchnorm函数对输出结果进行计算,并将计算结果输入第二全连接层和非线性激活层进行计算,得到对应的归一化特征。
5.根据权利要求1所述的图像匹配方法,其特征在于,所述图像匹配网络所使用的损失函数包括:
其中,为所述函数运算结果,/>为所述第一损失值,/>为所述第二损失值,为所述第三损失值,/>为第一超参数,/>为第二超参数。
6.一种图像匹配装置,其特征在于,所述装置包括:
获取模块,用于获取包裹的射线图像和多帧可见光图像;
处理模块,用于采用预先训练好的图像匹配网络对所述射线图像和多帧所述可见光图像进行处理,得到共享特征数据;
匹配模块,用于基于所述共享特征数据确定与所述射线图像匹配的可见光图像;
训练模块,用于对所述图像匹配网络进行训练;
其中,所述图像匹配网络包括依次连接的特定模态特征提取模块、第一共享模态特征提取模块和第二共享模态特征提取模块,所述特定模态特征提取模块用于对所述可见光图像进行特征提取得到第一特定模态特征,并对所述射线图像进行特征提取得到第二特定模态特征,所述第一共享模态特征提取模块用于根据所述第一特定模态特征和所述第二特定模态特征得到第一共享模态特征,所述第二共享模态特征提取模块用于根据所述第一共享模态特征得到第二共享模态特征,训练所述图像匹配网络所使用的损失函数根据ID损失函数和多实例对比损失函数得到,所述ID损失函数根据所述第一共享模态特征得到,所述多实例对比损失函数根据所述第二共享模态特征得到;
采用预先获取的第一训练集和N个第二训练集对所述图像匹配网络进行训练,所述第一训练集中包括与N个所述第二训练集一一对应的N个第一样本,所述第二训练集中的多个第二样本与对应的第一样本为针对同一目标包裹获取到的样本,所述图像匹配网络的训练方法,包括:
确定目标第一样本;
获取与所述目标第一样本对应的第三训练集,其中,所述第三训练集为所述第一训练集去除所述目标第一样本后得到的训练集;
采用所述图像匹配网络对所述目标第一样本、与所述目标第一样本对应的第二训练集样本和第三训练集样本进行处理,根据处理结果得到损失值;
将所述损失值代入所述图像匹配网络所使用的损失函数,根据函数运算结果对所述图像匹配网络进行训练;
所述采用所述图像匹配网络对所述目标第一样本、与所述目标第一样本对应的第二训练集样本和第三训练集样本进行处理,根据处理结果得到损失值,包括:
采用所述特定模态特征提取模块和所述第一共享模态特征提取模块对所述目标第一样本进行处理,得到第一处理结果,并采用所述第二共享模态特征提取模块对所述第一处理结果进行处理,得到第二处理结果,以及采用所述特定模态特征提取模块、所述第一共享模态特征提取模块和所述第二共享模态特征提取模块对与所述目标第一样本对应的第二训练集样本和第三训练集样本进行处理,得到第三处理结果;
根据所述第一处理结果得到第一损失值,并根据所述第二处理结果得到第二损失值,以及根据所述第二处理结果和所述第三处理结果得到第三损失值;
所述根据所述第一处理结果得到第一损失值,包括:
根据所述第一处理结果得到第一全局特征和第一局部特征;
基于所述第一全局特征得到三元组损失值,并基于所述第一全局特征和所述第一局部特征得到交叉熵损失值;
计算所述三元组损失值和所述交叉熵损失值的加和,得到所述第一损失值。
7.一种图像匹配设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的图像匹配的运行程序,所述处理器执行所述图像匹配的运行程序时,实现根据权利要求1至5任一所述的图像匹配方法。
CN202311334153.5A 2023-10-16 2023-10-16 图像匹配方法、装置、设备 Active CN117078983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311334153.5A CN117078983B (zh) 2023-10-16 2023-10-16 图像匹配方法、装置、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311334153.5A CN117078983B (zh) 2023-10-16 2023-10-16 图像匹配方法、装置、设备

Publications (2)

Publication Number Publication Date
CN117078983A CN117078983A (zh) 2023-11-17
CN117078983B true CN117078983B (zh) 2023-12-29

Family

ID=88710129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311334153.5A Active CN117078983B (zh) 2023-10-16 2023-10-16 图像匹配方法、装置、设备

Country Status (1)

Country Link
CN (1) CN117078983B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018020277A1 (en) * 2016-07-28 2018-02-01 Google Llc Domain separation neural networks
WO2020155418A1 (zh) * 2019-01-31 2020-08-06 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN114241517A (zh) * 2021-12-02 2022-03-25 河南大学 基于图像生成和共享学习网络的跨模态行人重识别方法
CN114495004A (zh) * 2022-01-25 2022-05-13 中山大学 一种基于无监督跨模态的行人重识别方法
CN116563584A (zh) * 2023-07-10 2023-08-08 安徽启新明智科技有限公司 图像匹配方法、装置及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220188621A1 (en) * 2020-12-10 2022-06-16 Ford Global Technologies, Llc Generative domain adaptation in a neural network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018020277A1 (en) * 2016-07-28 2018-02-01 Google Llc Domain separation neural networks
WO2020155418A1 (zh) * 2019-01-31 2020-08-06 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN114241517A (zh) * 2021-12-02 2022-03-25 河南大学 基于图像生成和共享学习网络的跨模态行人重识别方法
CN114495004A (zh) * 2022-01-25 2022-05-13 中山大学 一种基于无监督跨模态的行人重识别方法
CN116563584A (zh) * 2023-07-10 2023-08-08 安徽启新明智科技有限公司 图像匹配方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Visible-Xray Cross-Modality Package Re-Identification;Sixian Chan等;2023 IEEE International Conference on Multimedia and Expo (ICME);2579-2584 *
面向跨模态检索的音频数据库内容匹配方法研究;张天;靳聪;帖云;李小兵;;信号处理;第36卷(第06期);180-190 *

Also Published As

Publication number Publication date
CN117078983A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
Li et al. No-reference image quality assessment using Prewitt magnitude based on convolutional neural networks
KR101909971B1 (ko) 지문 식별 방법 및 지문 식별 장치
US8897572B2 (en) Fast subspace projection of descriptor patches for image recognition
Sadeghi et al. A weighted KNN epipolar geometry-based approach for vision-based indoor localization using smartphone cameras
JP5818327B2 (ja) 三次元物体認識用画像データベースの作成方法および作成装置
WO2016146038A1 (en) System and method for blind image quality assessment
US8774508B2 (en) Local feature amount calculating device, method of calculating local feature amount, corresponding point searching apparatus, and method of searching corresponding point
CN110910445B (zh) 一种物件尺寸检测方法、装置、检测设备及存储介质
CN112862813A (zh) 标记点提取方法、装置、电子设备及计算机存储介质
CN109919247B (zh) 危化品堆垛双目测距中特征点匹配方法、系统和设备
CN111369605A (zh) 一种基于边缘特征的红外与可见光图像的配准方法和系统
CN115151952A (zh) 一种变电设备高精度识别方法及系统
CN116563584B (zh) 图像匹配方法、装置及设备
CN114443880A (zh) 一种装配式建筑的大样图审图方法及审图系统
CN117078983B (zh) 图像匹配方法、装置、设备
CN108447084B (zh) 基于orb特征的立体匹配补偿方法
CN111915645B (zh) 影像匹配方法、装置、计算机设备及计算机可读存储介质
CN111126436B (zh) 视觉匹配方法及装置
Mohite et al. 3D local circular difference patterns for biomedical image retrieval
CN109035199B (zh) 高光谱数据端元提取方法、存储介质和电子设备
Wu et al. Research on crack detection algorithm of asphalt pavement
Torre-Ferrero et al. 3D point cloud registration based on a purpose-designed similarity measure
CN109213515B (zh) 多平台下埋点归一方法及装置和电子设备
Di Martino et al. Comparison between images via bilinear fuzzy relation equations
CN113033636B (zh) 一种卵巢肿瘤自动鉴别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant