CN111898619A - 图片特征提取方法、装置、计算机设备和可读存储介质 - Google Patents
图片特征提取方法、装置、计算机设备和可读存储介质 Download PDFInfo
- Publication number
- CN111898619A CN111898619A CN202010668643.9A CN202010668643A CN111898619A CN 111898619 A CN111898619 A CN 111898619A CN 202010668643 A CN202010668643 A CN 202010668643A CN 111898619 A CN111898619 A CN 111898619A
- Authority
- CN
- China
- Prior art keywords
- picture
- sample
- rotating
- network
- pictures
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 61
- 238000005259 measurement Methods 0.000 claims abstract description 83
- 238000000034 method Methods 0.000 claims abstract description 42
- 230000003321 amplification Effects 0.000 claims abstract description 35
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 5
- 230000003190 augmentative effect Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/60—Rotation of whole images or parts thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种图片特征提取方法、装置、计算机设备和可读存储介质,该方法包括:获取输入图片的扩增图片集,该扩增图片集包括对输入图片进行不同角度旋转所得到的多个旋转图片;将扩增图片集输入预设的深度度量网络进行特征提取,得到每个旋转图片对应的图片特征;其中,深度度量网络为根据样本扩增图片集、以及样本扩增图片集中每个样本旋转图片对应的标签进行训练所得到的,同一样本图片所对应的样本旋转图片的标签不同;根据每个旋转图片对应的图片特征,确定输入图片的图片特征。该方法可大大提高得到的图片特征的准确性。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种图片特征提取方法、装置、计算机设备和可读存储介质。
背景技术
深度度量学习(deep metric learning)是度量学习的一种方法,它的目标是学习一个从原始特征到低维稠密的向量空间(称之为嵌入空间,embedding space)的映射(可以理解为特征提取过程),使得同类对象在嵌入空间中的距离(度量)比较近,而不同类对象的距离则比较远。
在深度度量网络训练过程中,通常需要大量的样本图片,传统技术会对已获得的样本图片进行旋转以实现数据扩增,然后将原始样本图片和旋转后的图片、以及原始样本图片对应的标签作为训练数据集,对深度度量网络进行训练;并采用训练完成的深度度量网络对输入图片进行特征提取。
但是,传统技术中所得到的深度度量网络鲁棒性较差,所提取的图片特征准确性较低。
发明内容
基于此,有必要针对传统技术的深度度量网络所提取的图片特征准确性较低的问题,提供一种图片特征提取方法、装置、计算机设备和可读存储介质。
一种图片特征提取方法,该方法包括:
获取输入图片的扩增图片集,该扩增图片集包括对输入图片进行不同角度旋转所得到的多个旋转图片;
将扩增图片集输入预设的深度度量网络进行特征提取,得到每个旋转图片对应的图片特征;其中,深度度量网络为根据样本扩增图片集、以及样本扩增图片集中每个样本旋转图片对应的标签进行训练所得到的,同一样本图片所对应的样本旋转图片的标签不同;
根据每个旋转图片对应的图片特征,确定输入图片的图片特征。
在其中一个实施例中,深度度量网络的训练方式包括:
针对每个样本图片,对样本图片进行不同角度的旋转操作,得到多个样本旋转图片,并获取多个样本旋转图片分别对应的标签;
将样本旋转图片输入初始深度度量网络进行特征提取,得到预测图片特征;
采用损失函数计算预测图片特征与样本旋转图片对应的标签之间的损失,根据损失调整初始深度度量网络的网络参数,得到深度度量网络。
在其中一个实施例中,初始深度度量网络包括多个初始子网络,多个初始子网络的网络结构相同;将样本旋转图片输入初始深度度量网络进行特征提取,得到预测图片特征,包括:
将具有相同旋转角度的样本旋转图片输入相同的初始子网络进行特征提取,得到每个样本旋转图片对应的预测图片特征。
在其中一个实施例中,采用损失函数计算预测图片特征与样本旋转图片对应的标签之间的损失,根据损失调整初始深度度量网络的网络参数,得到深度度量网络,包括:
针对每个初始子网络,采用损失函数计算所输入的样本旋转图片的预测图片特征与标签之间的子损失;
将每个初始子网络的子损失进行求和操作,得到上述损失;
根据损失调整每个初始子网络的网络参数,得到多个子网络,将多个子网络作为深度度量网络。
在其中一个实施例中,上述损失函数包括三元组损失函数。
在其中一个实施例中,根据每个旋转图片对应的图片特征,确定输入图片的图片特征,包括:
将每个旋转图片对应的图片特征进行并联操作,得到输入图片的图片特征。
在其中一个实施例中,获取输入图片的扩增图片集,包括:
对输入图片分别进行0°、90°、180°和270°的旋转操作,得到四个旋转角度的旋转图片;
将四个旋转角度的旋转图片作为扩增图片集。
一种图片特征提取装置,该装置包括:
获取模块,用于获取输入图片的扩增图片集,扩增图片集包括对输入图片进行不同角度旋转所得到的多个旋转图片;
特征提取模块,用于将扩增图片集输入预设的深度度量网络进行特征提取,得到每个旋转图片对应的图片特征;其中,深度度量网络为根据样本扩增图片集、以及样本扩增图片集中每个样本旋转图片对应的标签进行训练所得到的,同一样本图片所对应的样本旋转图片的标签不同;
确定模块,用于根据每个旋转图片对应的图片特征,确定输入图片的图片特征。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行该计算机程序时实现以下步骤:
获取输入图片的扩增图片集,该扩增图片集包括对输入图片进行不同角度旋转所得到的多个旋转图片;
将扩增图片集输入预设的深度度量网络进行特征提取,得到每个旋转图片对应的图片特征;其中,深度度量网络为根据样本扩增图片集、以及样本扩增图片集中每个样本旋转图片对应的标签进行训练所得到的,同一样本图片所对应的样本旋转图片的标签不同;
根据每个旋转图片对应的图片特征,确定输入图片的图片特征。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取输入图片的扩增图片集,该扩增图片集包括对输入图片进行不同角度旋转所得到的多个旋转图片;
将扩增图片集输入预设的深度度量网络进行特征提取,得到每个旋转图片对应的图片特征;其中,深度度量网络为根据样本扩增图片集、以及样本扩增图片集中每个样本旋转图片对应的标签进行训练所得到的,同一样本图片所对应的样本旋转图片的标签不同;
根据每个旋转图片对应的图片特征,确定输入图片的图片特征。
上述图片特征提取方法、装置、计算机设备和可读存储介质,能够将输入图片的扩增图片集输入预设的深度度量网络进行特征提取,得到每个旋转图片对应的图片特征,再根据每个旋转图片的图片特征,确定输入图片的图片特征。由此,得到的图片特征综合考虑了不同旋转图片的图片特征,使得得到的图片特征更加全面,提高了图片特征的准确性。并且,深度度量网络训练过程中,同一样本图片对应的样本旋转图片的标签不同,使得深度度量网络可以区分出每个图片是旋转多少度的样本旋转图片,可提高深度度量网络的鲁棒性,对不同的旋转图片可更好的提取对应的图片特征,也进一步提高了得到的图片特征的准确性。
附图说明
图1为一个实施例中计算机设备的内部结构图;
图2为一个实施例中图片特征提取方法的流程示意图;
图3为另一个实施例中图片特征提取方法的流程示意图;
图4为又一个实施例中图片特征提取方法的流程示意图;
图4a为一个实施例中深度度量网络训练过程的流程示意图;
图5为又一个实施例中图片特征提取方法的流程示意图;
图6为一个实施例中图片特征提取装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的图片特征提取方法,可以适用于如图1所示的计算机设备。该计算机设备包括通过系统总线连接的处理器、存储器,该存储器中存储有计算机程序,处理器执行该计算机程序时可以执行下述方法实施例的步骤。可选地,该计算机设备还可以包括通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器,该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端通过网络连接通信。可选地,该计算机设备可以是个人计算机(personal computer,简称PC),还可以是个人数字助理,还可以是其他的终端设备,例如平板电脑(portable android device,简称PAD)、手机等等,还可以是云端或者远程服务器,本申请实施例对计算机设备的具体形式并不做限定。
在一个实施例中,如图2所示,提供了一种图片特征提取方法,本实施例涉及的是对输入图片进行特征提取,以得到其图片特征的具体过程。以该方法应用于图1中的计算机设备为例进行说明,包括以下步骤:
S101,获取输入图片的扩增图片集,该扩增图片集包括对输入图片进行不同角度旋转所得到的多个旋转图片。
具体地,为提高所提取输入图片的特征的准确性,本实施例可以对输入图片多个角度的旋转图片都进行处理分析,因此,计算机设备首先需获得输入图片对应的多个旋转图片,即扩增图片集。其中,该扩增图片集包括对输入图片进行不同角度旋转所得到的多个旋转图片。可选地,计算机设备可以对输入图片进行45°、90°、135°、180°等角度的旋转,即从多个不同角度观看输入图片,得到多个旋转图片。可以理解,不同角度下的旋转图片为不同空间域中的图片。
可选地,计算机设备可以对输入图片分别进行0°(即不旋转)、90°、180°和270°的旋转操作,得到四个旋转角度的旋转图片;将该四个旋转角度的旋转图片作为扩增图片集。本实施例中的四个旋转角度可尽可能包括输入图片的360角度,即全面考虑了输入图片的各角度特征。
S102,将扩增图片集输入预设的深度度量网络进行特征提取,得到每个旋转图片对应的图片特征;其中,深度度量网络为根据样本扩增图片集、以及样本扩增图片集中每个样本旋转图片对应的标签进行训练所得到的,同一样本图片所对应的样本旋转图片的标签不同。
具体地,计算机设备将上述扩增图片集输入预设的深度度量网络中,通过深度度量网络中的卷积层分别对其中的每个旋转图片进行卷积操作(即特征提取过程),得到每个旋转图片对应的图片特征。其中,深度度量网络为根据样本扩增图片集、以及样本扩增图片集中每个样本旋转图片对应的标签进行训练所得到的,样本扩增图片集包括对每个样本图片进行不同角度旋转得到的多个样本旋转图片,且每个样本旋转图片都对应于一个标签,对于同一样本图片,其所对应的样本旋转图片的标签不同。示例性的,对于手写数字识别数据集,包括0-9十个数字,以数字2为例,2为原始图片(即没有进行旋转的图片),那么这个图片对应的标签为“2-0°”;为旋转90°的图片,那么这个图片对应的标签为“2-90°”;为旋转180°的图片,那么这个图片对应的标签为“2-180°”,由此可区分出每个图片是旋转多少度的样本旋转图片,基于此训练数据集对深度度量网络进行训练,可提高深度度量网络的鲁棒性,对不同的旋转图片可更好的提取对应的图片特征。
然而传统技术中,对于同一样本图片,其对应的样本旋转图片的标签相同,如数字2的图片,不论旋转多少度,其对应的标签都为“2”,这样的话对于一些特殊数字,如数字6旋转180°后与数字9相同,数字1旋转180°后与原始数字相同,则无法区分其真正属于哪类图片,导致训练得到的深度度量网络鲁棒性较差。
其中,对上述深度度量网络进行训练时,整个训练集记为每个样本图片的标签记为Y={y1,...,yn}。深度度量网络的卷积层和嵌入层(Embedding Layer)把一张图片映射为高维(d维)特征。记作f(·;θf):X→Rd,θf网络参数。度量学习中f(·;θf)一般被归一化为单位长度(即||f(xj)||2=1),度量学习的目的是为了学习一个特征提取器f°(x;θf),使同类的样本的特征距离的近,不同类样本距离的远。在度量学习中,两张图片特征的距离一般定义为余弦距离df(xi,xj)=1-f(xi)·f(xj),(其中||f(xi)||2=||f(xj)||2=1)。
S103,根据每个旋转图片对应的图片特征,确定输入图片的图片特征。
具体地,计算机设备得到每个旋转图片对应的图片特征后,可以将各个图片特征进行相反角度的旋转,得到与原始输入图片相同角度的图片特征,再将各个旋转后的图片特征进行融合,即得到输入图片的图片特征。
可选地,计算机设备还可以将每个旋转图片对应的图片特征进行并联concat操作,得到输入图片的图片特征。
本实施例提供的图片特征提取方法,计算机设备将输入图片的扩增图片集输入预设的深度度量网络进行特征提取,得到每个旋转图片对应的图片特征,再根据每个旋转图片的图片特征,确定输入图片的图片特征。由此,得到的图片特征综合考虑了不同旋转图片的图片特征,使得得到的图片特征更加全面,提高了图片特征的准确性。并且,深度度量网络训练过程中,同一样本图片对应的样本旋转图片的标签不同,使得深度度量网络可以区分出每个图片是旋转多少度的样本旋转图片,可提高深度度量网络的鲁棒性,对不同的旋转图片可更好的提取对应的图片特征,也进一步提高了得到的图片特征的准确性。
通常,在使用深度度量网络对扩增图片集进行特征提取之前,需要对深度度量网络进行训练达到收敛。在一个实施例中,如图3所示,涉及的是对深度度量网络进行训练的具体过程,可选地,上述深度度量网络的训练方式可以包括:
S201,针对每个样本图片,对样本图片进行不同角度的旋转操作,得到多个样本旋转图片,并获取多个样本旋转图片分别对应的标签。
具体地,计算机设备可以首先获取大量的样本图片,考虑样本图片数量的有限性,可以对每个样本图片进行不同角度的旋转操作,得到多个样本旋转图片,由此可增加样本图片的数量以及样本图片的全面性。在得到多个样本旋转图片后,可以对每个样本旋转图片进行标注,标注方法可以参见上述实施例的描述,以得到每个样本旋转图片对应的标签。
S202,将样本旋转图片输入初始深度度量网络进行特征提取,得到预测图片特征。
具体地,计算机设备可以将上述得到的样本旋转图片输入初始深度度量网络中,通过初始深度度量网络中的卷积层分别对每个样本旋转图片进行卷积操作(即特征提取过程),得到每个样本旋转图片对应的预测图片特征。需要说明的是,此时的初始深度度量网络为处于训练中的网络。
S203,采用损失函数计算预测图片特征与样本旋转图片对应的标签之间的损失,根据损失调整初始深度度量网络的网络参数,得到深度度量网络。
具体地,计算机设备可以采用损失函数计算上述样本旋转图片对应的预测图片特征与标签之间的损失,可选地,该损失函数可以为交叉熵损失函数、三元组损失函数等,本实施例对损失函数的具体类型不做限制。然后,根据计算得到的损失反向梯度传播调整初始深度度量网络的网络参数,由此迭代训练,得到深度度量网络。
本实施例提供的图片特征提取方法,计算机设备对每个样本图片进行不同角度的旋转操作,得到多个样本旋转图片;将每个样本旋转图片输入初始深度度量网络进行特征提取,得到预测图片特征;采用损失函数计算预测图片特征与样本旋转图片对应的标签之间的损失,根据该损失对初始深度度量网络进行训练,得到收敛的深度度量网络。因训练数据集为对样本图片进行扩增的数据集,并且考虑样本图片的不同旋转角度,则可使深度度量网络学习不同角度的图片特征,由此提高了深度度量网络的鲁棒性,利用该网络得到的图片特征准确性也较高。
上述实施例中,每个样本旋转图片为由同一初始深度度量网络进行特征提取处理的,以手写数字识别数据集,包括0-9十个数字,假设对样本图片共进行4个角度的旋转,则每个数字图片得到4个旋转图片,每个旋转图片为一种标签,那么十个数字最终会对应40种类别标签;这样,深度度量网络则需要学习40分类的图片特征,学习量较大,效率也对应降低。因此,本实施例将初始深度度量网络分为多个初始子网络,初始子网络的数量与旋转角度的个数相关,且每个初始子网络的网络结构相同,网络参数共享,每个初始子网络处理只处理相同旋转角度的样本旋转图片。也即是说,假设上述的旋转角度包括45°、90°、135°、180°四种,则一个初始子网络只处理45°对应的样本旋转图片,一个初始子网络只处理90°对应的样本旋转图片,以此类推。在此基础上,可选地,上述S202可以包括:将具有相同旋转角度的样本旋转图片输入相同的初始子网络进行特征提取,得到每个样本旋转图片对应的预测图片特征。由此,每个初始子网络只需学习相同旋转角度的样本旋转图片的特征,大大降低了学习量,提高了学习效率。
在一个实施例中,如图4所示,上述S203可以包括:
S301,针对每个初始子网络,采用损失函数计算所输入的样本旋转图片的预测图片特征与标签之间的子损失。
S302,将每个初始子网络的子损失进行求和操作,得到上述损失。
S303,根据损失调整每个初始子网络的网络参数,得到多个子网络,将多个子网络作为深度度量网络。
具体地,针对每个初始子网络,都会有对应的预测图片特征,则计算机设备分别计算每个预测图片特征与标签之间的子损失,每个初始子网络便对应一个子损失。然后计算机设备将每个初始子网络的子损失进行求和操作,如直接求和、加权求和或平均求和等,得到上述初始深度度量网络对应的损失。接下来,计算机设备可以根据该损失调整每个初始子网络的网络参数,由此迭代训练,便可得到多个子网络;此多个子网络组合为深度度量网络。关于深度度量网络训练过程的流程示意图可以参见图4a所示。
在此基础上,计算机设备获取到一个输入图片后,对其进行不同角度的旋转操作,得到多个旋转图片,将每个旋转图片输入对应的子网络中,便可得到每个旋转图片对应的图片特征。
本实施例中,由每个子网络对对应的旋转图片进行特征提取,因每个子网络已充分学习到对应旋转角度的图片特征,则可大大提高子网络的处理精度,进而提高得到的图片特征的准确性。
为更好理解整个图片特征提取方法的过程,下面以一个具体实施例方式进行介绍,如图5所示,该方法包括:
S401,针对每个样本图片,对样本图片进行不同角度的旋转操作,得到多个样本旋转图片,并获取多个样本旋转图片分别对应的标签;
S402,将具有相同旋转角度的样本旋转图片输入相同的初始子网络进行特征提取,得到每个样本旋转图片对应的预测图片特征;
S403,针对每个初始子网络,采用损失函数计算所输入的样本旋转图片的预测图片特征与标签之间的子损失;
S404,将每个初始子网络的子损失进行求和操作,得到损失;
S405,根据损失调整每个初始子网络的网络参数,得到多个子网络,将多个子网络作为深度度量网络;
S406,对输入图片分别进行不同角度的旋转操作,得到扩增图片集;
S407,将扩增图片集输入预设的深度度量网络进行特征提取,得到每个旋转图片对应的图片特征;
S408,将每个旋转图片对应的图片特征进行并联操作,得到输入图片的图片特征。
关于本实施例中各步骤的实现过程,可以参见上述实施例的描述,其实现原理和技术效果类似,在此不再赘述。
应该理解的是,虽然图2-图5的流程图中各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种图片特征提取装置,包括:获取模块11、特征提取模块12和确定模块13。
具体地,获取模块11,用于获取输入图片的扩增图片集,扩增图片集包括对输入图片进行不同角度旋转所得到的多个旋转图片;
特征提取模块12,用于将扩增图片集输入预设的深度度量网络进行特征提取,得到每个旋转图片对应的图片特征;其中,深度度量网络为根据样本扩增图片集、以及样本扩增图片集中每个样本旋转图片对应的标签进行训练所得到的,同一样本图片所对应的样本旋转图片的标签不同;
确定模块13,用于根据每个旋转图片对应的图片特征,确定输入图片的图片特征。
本实施例提供的图片特征提取装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在一个实施例中,上述装置还包括训练模块,用于针对每个样本图片,对样本图片进行不同角度的旋转操作,得到多个样本旋转图片,并获取多个样本旋转图片分别对应的标签;将样本旋转图片输入初始深度度量网络进行特征提取,得到预测图片特征;采用损失函数计算预测图片特征与样本旋转图片对应的标签之间的损失,根据损失调整初始深度度量网络的网络参数,得到深度度量网络。
在一个实施例中,初始深度度量网络包括多个初始子网络,多个初始子网络的网络结构相同;训练模块,具体用于将具有相同旋转角度的样本旋转图片输入相同的初始子网络进行特征提取,得到每个样本旋转图片对应的预测图片特征。
在一个实施例中,训练模块,具体用于针对每个初始子网络,采用损失函数计算所输入的样本旋转图片的预测图片特征与标签之间的子损失;将每个初始子网络的子损失进行求和操作,得到上述损失;根据损失调整每个初始子网络的网络参数,得到多个子网络,将多个子网络作为深度度量网络。
在一个实施例中,上述损失函数包括三元组损失函数。
在一个实施例中,确定模块13,具体用于将每个旋转图片对应的图片特征进行并联操作,得到输入图片的图片特征。
在一个实施例中,获取模块11,具体用于对输入图片分别进行0°、90°、180°和270°的旋转操作,得到四个旋转角度的旋转图片;将四个旋转角度的旋转图片作为扩增图片集。
关于图片特征提取装置的具体限定可以参见上文中对于图片特征提取方法的限定,在此不再赘述。上述图片特征提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图片特征提取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取输入图片的扩增图片集,该扩增图片集包括对输入图片进行不同角度旋转所得到的多个旋转图片;
将扩增图片集输入预设的深度度量网络进行特征提取,得到每个旋转图片对应的图片特征;其中,深度度量网络为根据样本扩增图片集、以及样本扩增图片集中每个样本旋转图片对应的标签进行训练所得到的,同一样本图片所对应的样本旋转图片的标签不同;
根据每个旋转图片对应的图片特征,确定输入图片的图片特征。
本实施例提供的计算机设备,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
针对每个样本图片,对样本图片进行不同角度的旋转操作,得到多个样本旋转图片,并获取多个样本旋转图片分别对应的标签;
将样本旋转图片输入初始深度度量网络进行特征提取,得到预测图片特征;
采用损失函数计算预测图片特征与样本旋转图片对应的标签之间的损失,根据损失调整初始深度度量网络的网络参数,得到深度度量网络。
在一个实施例中,初始深度度量网络包括多个初始子网络,多个初始子网络的网络结构相同;处理器执行计算机程序时还实现以下步骤:
将具有相同旋转角度的样本旋转图片输入相同的初始子网络进行特征提取,得到每个样本旋转图片对应的预测图片特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
针对每个初始子网络,采用损失函数计算所输入的样本旋转图片的预测图片特征与标签之间的子损失;
将每个初始子网络的子损失进行求和操作,得到上述损失;
根据损失调整每个初始子网络的网络参数,得到多个子网络,将多个子网络作为深度度量网络。
在一个实施例中,上述损失函数包括三元组损失函数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将每个旋转图片对应的图片特征进行并联操作,得到输入图片的图片特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对输入图片分别进行0°、90°、180°和270°的旋转操作,得到四个旋转角度的旋转图片;
将四个旋转角度的旋转图片作为扩增图片集。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取输入图片的扩增图片集,该扩增图片集包括对输入图片进行不同角度旋转所得到的多个旋转图片;
将扩增图片集输入预设的深度度量网络进行特征提取,得到每个旋转图片对应的图片特征;其中,深度度量网络为根据样本扩增图片集、以及样本扩增图片集中每个样本旋转图片对应的标签进行训练所得到的,同一样本图片所对应的样本旋转图片的标签不同;
根据每个旋转图片对应的图片特征,确定输入图片的图片特征。
本实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
针对每个样本图片,对样本图片进行不同角度的旋转操作,得到多个样本旋转图片,并获取多个样本旋转图片分别对应的标签;
将样本旋转图片输入初始深度度量网络进行特征提取,得到预测图片特征;
采用损失函数计算预测图片特征与样本旋转图片对应的标签之间的损失,根据损失调整初始深度度量网络的网络参数,得到深度度量网络。
在一个实施例中,初始深度度量网络包括多个初始子网络,多个初始子网络的网络结构相同;计算机程序被处理器执行时还实现以下步骤:
将具有相同旋转角度的样本旋转图片输入相同的初始子网络进行特征提取,得到每个样本旋转图片对应的预测图片特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
针对每个初始子网络,采用损失函数计算所输入的样本旋转图片的预测图片特征与标签之间的子损失;
将每个初始子网络的子损失进行求和操作,得到上述损失;
根据损失调整每个初始子网络的网络参数,得到多个子网络,将多个子网络作为深度度量网络。
在一个实施例中,上述损失函数包括三元组损失函数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将每个旋转图片对应的图片特征进行并联操作,得到输入图片的图片特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对输入图片分别进行0°、90°、180°和270°的旋转操作,得到四个旋转角度的旋转图片;
将四个旋转角度的旋转图片作为扩增图片集。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种图片特征提取方法,其特征在于,所述方法包括:
获取输入图片的扩增图片集,所述扩增图片集包括对所述输入图片进行不同角度旋转所得到的多个旋转图片;
将所述扩增图片集输入预设的深度度量网络进行特征提取,得到每个旋转图片对应的图片特征;其中,所述深度度量网络为根据样本扩增图片集、以及所述样本扩增图片集中每个样本旋转图片对应的标签进行训练所得到的,同一样本图片所对应的样本旋转图片的标签不同;
根据所述每个旋转图片对应的图片特征,确定所述输入图片的图片特征。
2.根据权利要求1所述的方法,其特征在于,所述深度度量网络的训练方式包括:
针对每个样本图片,对所述样本图片进行不同角度的旋转操作,得到多个样本旋转图片,并获取所述多个样本旋转图片分别对应的标签;
将所述样本旋转图片输入初始深度度量网络进行特征提取,得到预测图片特征;
采用损失函数计算所述预测图片特征与所述样本旋转图片对应的标签之间的损失,根据所述损失调整所述初始深度度量网络的网络参数,得到所述深度度量网络。
3.根据权利要求2所述的方法,其特征在于,所述初始深度度量网络包括多个初始子网络,所述多个初始子网络的网络结构相同;所述将所述样本旋转图片输入初始深度度量网络进行特征提取,得到预测图片特征,包括:
将具有相同旋转角度的样本旋转图片输入相同的初始子网络进行特征提取,得到每个样本旋转图片对应的预测图片特征。
4.根据权利要求3所述的方法,其特征在于,所述采用损失函数计算所述预测图片特征与所述样本旋转图片对应的标签之间的损失,根据所述损失调整所述初始深度度量网络的网络参数,得到所述深度度量网络,包括:
针对每个初始子网络,采用所述损失函数计算所输入的样本旋转图片的预测图片特征与标签之间的子损失;
将每个初始子网络的子损失进行求和操作,得到所述损失;
根据所述损失调整每个初始子网络的网络参数,得到多个子网络,将所述多个子网络作为所述深度度量网络。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述损失函数包括三元组损失函数。
6.根据权利要求1所述的方法,其特征在于,所述根据所述每个旋转图片对应的图片特征,确定所述输入图片的图片特征,包括:
将所述每个旋转图片对应的图片特征进行并联操作,得到所述输入图片的图片特征。
7.根据权利要求1所述的方法,其特征在于,所述获取输入图片的扩增图片集,包括:
对所述输入图片分别进行0°、90°、180°和270°的旋转操作,得到四个旋转角度的旋转图片;
将所述四个旋转角度的旋转图片作为所述扩增图片集。
8.一种图片特征提取装置,其特征在于,所述装置包括:
获取模块,用于获取输入图片的扩增图片集,所述扩增图片集包括对所述输入图片进行不同角度旋转所得到的多个旋转图片;
特征提取模块,用于将所述扩增图片集输入预设的深度度量网络进行特征提取,得到每个旋转图片对应的图片特征;其中,所述深度度量网络为根据样本扩增图片集、以及所述样本扩增图片集中每个样本旋转图片对应的标签进行训练所得到的,同一样本图片所对应的样本旋转图片的标签不同;
确定模块,用于根据所述每个旋转图片对应的图片特征,确定所述输入图片的图片特征。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010668643.9A CN111898619A (zh) | 2020-07-13 | 2020-07-13 | 图片特征提取方法、装置、计算机设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010668643.9A CN111898619A (zh) | 2020-07-13 | 2020-07-13 | 图片特征提取方法、装置、计算机设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111898619A true CN111898619A (zh) | 2020-11-06 |
Family
ID=73192414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010668643.9A Pending CN111898619A (zh) | 2020-07-13 | 2020-07-13 | 图片特征提取方法、装置、计算机设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111898619A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344195A (zh) * | 2021-05-31 | 2021-09-03 | 上海商汤智能科技有限公司 | 网络训练与图像处理方法、装置、设备和存储介质 |
WO2024066429A1 (zh) * | 2022-09-26 | 2024-04-04 | 腾讯科技(深圳)有限公司 | 用于芯片版图编码器的训练、芯片版图的筛选方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070030A (zh) * | 2019-04-18 | 2019-07-30 | 北京迈格威科技有限公司 | 图像识别与神经网络模型的训练方法、装置和系统 |
CN110163234A (zh) * | 2018-10-10 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、装置和存储介质 |
CN110335206A (zh) * | 2019-05-31 | 2019-10-15 | 平安科技(深圳)有限公司 | 智能滤镜方法、装置及计算机可读存储介质 |
CN110765943A (zh) * | 2019-10-23 | 2020-02-07 | 深圳市商汤科技有限公司 | 网络训练、识别方法及装置、电子设备和存储介质 |
CN110866140A (zh) * | 2019-11-26 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 图像特征提取模型训练方法、图像搜索方法及计算机设备 |
CN110942012A (zh) * | 2019-11-22 | 2020-03-31 | 上海眼控科技股份有限公司 | 图像特征提取方法、行人重识别方法、装置和计算机设备 |
-
2020
- 2020-07-13 CN CN202010668643.9A patent/CN111898619A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163234A (zh) * | 2018-10-10 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、装置和存储介质 |
CN110070030A (zh) * | 2019-04-18 | 2019-07-30 | 北京迈格威科技有限公司 | 图像识别与神经网络模型的训练方法、装置和系统 |
CN110335206A (zh) * | 2019-05-31 | 2019-10-15 | 平安科技(深圳)有限公司 | 智能滤镜方法、装置及计算机可读存储介质 |
CN110765943A (zh) * | 2019-10-23 | 2020-02-07 | 深圳市商汤科技有限公司 | 网络训练、识别方法及装置、电子设备和存储介质 |
CN110942012A (zh) * | 2019-11-22 | 2020-03-31 | 上海眼控科技股份有限公司 | 图像特征提取方法、行人重识别方法、装置和计算机设备 |
CN110866140A (zh) * | 2019-11-26 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 图像特征提取模型训练方法、图像搜索方法及计算机设备 |
Non-Patent Citations (1)
Title |
---|
ZEYU FENG 等: "upervised Representation Learning by Rotation Feature Decoupling", 2019 IEEE/CVF(CVPR), pages 2 - 4 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344195A (zh) * | 2021-05-31 | 2021-09-03 | 上海商汤智能科技有限公司 | 网络训练与图像处理方法、装置、设备和存储介质 |
WO2022252557A1 (zh) * | 2021-05-31 | 2022-12-08 | 上海商汤智能科技有限公司 | 神经网络训练与图像处理方法、装置、设备和存储介质 |
WO2024066429A1 (zh) * | 2022-09-26 | 2024-04-04 | 腾讯科技(深圳)有限公司 | 用于芯片版图编码器的训练、芯片版图的筛选方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751149B (zh) | 目标对象标注方法、装置、计算机设备和存储介质 | |
US11714921B2 (en) | Image processing method with ash code on local feature vectors, image processing device and storage medium | |
JP5261501B2 (ja) | 不変の視覚場面及び物体の認識 | |
WO2020228181A1 (zh) | 手掌图像裁剪方法、装置、计算机设备及存储介质 | |
CN111680675B (zh) | 人脸活体检测方法、系统、装置、计算机设备和存储介质 | |
WO2021068524A1 (zh) | 图像匹配方法、装置、计算机设备及存储介质 | |
CN111898619A (zh) | 图片特征提取方法、装置、计算机设备和可读存储介质 | |
CN111583264B (zh) | 图像分割网络的训练方法、图像分割方法和存储介质 | |
CN114298902A (zh) | 一种图像对齐方法、装置、电子设备和存储介质 | |
KR20240140057A (ko) | 얼굴 인식 방법 및 장치 | |
CN110717405B (zh) | 人脸特征点定位方法、装置、介质及电子设备 | |
CN114549849A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN114612531B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN113538291B (zh) | 卡证图像倾斜校正方法、装置、计算机设备和存储介质 | |
CN113012189B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN110738175B (zh) | 人脸图像处理方法、装置、计算机设备和存储介质 | |
CN113743448B (zh) | 模型训练数据获取方法、模型训练方法和装置 | |
CN113792760B (zh) | 聚类分析方法、装置、计算机设备和存储介质 | |
CN110827259B (zh) | 一种用于目标关键点检测的样本增广的方法与设备 | |
CN115880249B (zh) | 基于图像的对象分割方法、装置、设备和介质 | |
CN116612474B (zh) | 对象检测方法、装置、计算机设备及计算机可读存储介质 | |
CN115100286B (zh) | 无人机采集视点确定方法、装置、计算机设备和存储介质 | |
CN114750147B (zh) | 机器人的空间位姿确定方法、装置和机器人 | |
CN116051723B (zh) | 集束调整方法及电子设备 | |
CN117237589A (zh) | 图像处理方法、装置、计算机设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |