CN114549849A - 图像识别方法、装置、计算机设备和存储介质 - Google Patents

图像识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114549849A
CN114549849A CN202011342813.0A CN202011342813A CN114549849A CN 114549849 A CN114549849 A CN 114549849A CN 202011342813 A CN202011342813 A CN 202011342813A CN 114549849 A CN114549849 A CN 114549849A
Authority
CN
China
Prior art keywords
channel
feature
image
features
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011342813.0A
Other languages
English (en)
Inventor
相鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SF Technology Co Ltd
Original Assignee
SF Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SF Technology Co Ltd filed Critical SF Technology Co Ltd
Priority to CN202011342813.0A priority Critical patent/CN114549849A/zh
Publication of CN114549849A publication Critical patent/CN114549849A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种图像识别方法、装置、计算机设备和存储介质。所述方法包括:获取待识别图像;通过特征提取网络,对待识别图像进行特征提取,获得待识别图像的图像特征,特征提取网络为训练好的孪生网络中的一个分支网络;基于图像特征,得到待识别图像的类别。采用孪生网络机制训练得到的特征提取网络,能够提取到更为准确的图像特征,从而提升图像识别准确性。

Description

图像识别方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种图像识别方法、装置、计算机设备和存储介质。
背景技术
随着深度学习技术的发展,出现了图像识别模型,可用于解决图像分类问题。模型在训练时需要大量的样本图片,然而目前获取的样本图片中不同类别之间的图片数量相差较大,不同类别样本的数量不均衡,影响网络对于样本数量少的类别的学习,导致提取的图像特征不够准确,从而影响图像识别准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高识别准确性的图像识别方法、装置、计算机设备和存储介质。
一种图像识别方法,所述方法包括:
获取待识别图像;
通过特征提取网络,对所述待识别图像进行特征提取,获得所述待识别图像的图像特征;所述特征提取网络为训练好的孪生网络中的一个分支网络;
基于所述图像特征,得到所述待识别图像的类别。
一种图像识别装置,所述装置包括:
获取模块,用于获取待识别图像;
特征提取模块,用于通过特征提取网络,对所述待识别图像进行特征提取,获得所述待识别图像的图像特征;所述特征提取网络为训练好的孪生网络中的一个分支网络;
识别模块,用于基于所述图像特征,得到所述待识别图像的类别。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待识别图像;
通过特征提取网络,对所述待识别图像进行特征提取,获得所述待识别图像的图像特征;所述特征提取网络为训练好的孪生网络中的一个分支网络;
基于所述图像特征,得到所述待识别图像的类别。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待识别图像;
通过特征提取网络,对所述待识别图像进行特征提取,获得所述待识别图像的图像特征;所述特征提取网络为训练好的孪生网络中的一个分支网络;
基于所述图像特征,得到所述待识别图像的类别。
上述图像识别方法、装置、计算机设备和存储介质,通过训练好的孪生网络中的一个分支网络作为特征提取网络来提取待识别图像的图像特征,基于该图像特征识别待识别图像的类别,孪生网络的训练过程中可以加强网络对于图像特征的学习能力,采用孪生网络机制训练得到的特征提取网络,能够提取到更为准确的图像特征,从而提升图像识别准确性。
附图说明
图1为一个实施例中图像识别方法的流程示意图;
图2为一个实施例中孪生网络的训练过程的示意图;
图3为一个实施例中对第一样本图像进行特征提取,得到第一通道特征和第一通道加权特征步骤的流程示意图;
图4为一个实施例中对第二样本图像进行特征提取,得到第二通道特征和第二通道加权特征步骤的流程示意图;
图5为一个实施例中孪生网络的结构示意图;
图6为一个实施例中图像识别装置的结构框图;
图7为一个实施例中计算机设备的内部结构图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种图像识别方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中,该方法包括以下步骤S102至步骤S106。
S102,获取待识别图像。
待识别图像为需要进行类别识别的图像,可以通过识别图像类别来对图像进行分类。例如,当待识别图像为商品图像时,可以基于商品大类、商品中类或商品小类所包含的类别,对待识别图像进行分类,具体分类粒度可根据实际需求设定。
S104,通过特征提取网络,对待识别图像进行特征提取,获得待识别图像的图像特征;特征提取网络为训练好的孪生网络中的一个分支网络。
孪生网络包括第一分支网络和第二分支网络,特征提取网络可以是孪生网络中的任意一个分支网络,即可以是第一分支网络,也可以是第二分支网络。
在一个实施例中,如图2所示,孪生网络的训练过程包括以下步骤S202至步骤S210。
S202,获取样本图像及其标签类别,样本图像包括第一样本图像和第二样本图像。
样本图像为已知真实类别的图像,样本图像的标签类别指的是样本图像的真实类别。第一样本图像和第二样本图像通过随机选取得到,其可以属于同一类别,也可以属于不同类别。在实施中,还可以对样本进行数据增强,具体可以通过图像翻转、随机裁剪、像素归一化等处理获得更丰富的样本图像。
S204,通过第一分支网络,对第一样本图像进行特征提取,得到第一通道特征和第一通道加权特征,根据第一通道特征和第一通道加权特征,获得第一样本图像的第一目标特征。
在其中一实施例中,可以对第一样本图像进行多通道特征提取,得到第一多通道特征图,第一通道特征可以是基于该第一多通道特征图获得的通道特征,通过学习各个通道间的相关性,可以获得各个通道的权重,该权重用于表征对应通道的重要性,将各个通道的权重与上述第一多通道特征图中对应的通道特征进行相乘,可以获得加权后的第一多通道特征图,因此,第一通道加权特征可以是基于该加权后的第一多通道特征图获得的通道特征。结合第一通道特征和第一通道加权特征,获得第一目标特征,第一目标特征指的是第一样本图像的最终特征,用于进行分类识别。
S206,通过第二分支网络,对第二样本图像进行特征提取,得到第二通道特征和第二通道加权特征,根据第二通道特征和第二通道加权特征,获得第二样本图像的第二目标特征。
在其中一实施例中,可以对第二样本图像进行多通道特征提取,得到第二多通道特征图,第二通道特征可以是基于该第二多通道特征图获得的通道特征,通过学习各个通道间的相关性,可以获得各个通道的权重,该权重用于表征对应通道的重要性,将各个通道的权重与上述第二多通道特征图中对应的通道特征进行相乘,可以获得加权后的第二多通道特征图,因此,第二通道加权特征可以是基于该加权后的第二多通道特征图获得的通道特征。结合第二通道特征和第二通道加权特征,获得第二目标特征,第二目标特征指的是第二样本图像的最终特征,用于进行分类识别。
S208,对第一目标特征和第二目标特征进行特征融合,获得融合特征,基于融合特征进行映射,得到第一样本图像和第二样本图像的预测类别。
在其中一实施例中,对第一目标特征和第二目标特征进行特征融合,可以是将第一目标特征和第二目标特征进行拼接(concat),也可以是将第一目标特征和第二目标特征进行相加(add),以获得融合特征。将融合特征映射到由所有样本标签类别所构成的类别空间,可以得到第一样本图像的预测类别和第二样本图像的预测类别。
S210,基于各预测类别与对应标签类别的误差,调整孪生网络的参数,直至满足迭代结束条件,获得训练好的孪生网络。
在实施中,迭代结束条件可以是达到预设的总迭代次数。当未满足迭代结束条件时,通过损失函数(loss)计算样本图像的预测类别与对应标签类别的误差,得到损失值,基于损失值调整孪生网络的参数,再返回重新迭代,直至满足迭代结束条件,获得训练好的孪生网络。
预测类别与对应标签类别的误差为预测类别概率与对应标签类别概率之间的误差,举例来说,待分类的类别有两个,分别为类别a和类别b,一样本图像的真实类别为类别a,该样本图像的真实标签可以用[1,0]表示,其中,1表示类别a的标签概率,0表示类别b的标签概率,假如该样本图像的预测结果为[0.9,0.1],其中,0.9表示类别a的预测概率,0.1表示类别b的预测概率,则上述误差可以用(1-0.9)2+(0-0.1)2来表示。
上述孪生网络的训练过程中,引入通道注意力机制以获得图像的通道加权特征,能够增强更重要的通道特征并抑制不重要的通道特征,通过对两个分支网络输出的特征进行特征融合,能够加强对于样本数量少的类别特征的学习,以解决样本数据不均衡导致无法准确识别样本数量少的类别的问题,据此获得的孪生网络中的任一分支网络在应用时能够提取到更为准确的图像特征,从而提升图像识别准确性。
S106,基于图像特征,得到待识别图像的类别。
通过特征提取网络获得待识别图像的图像特征后,可以将该图像特征与特征库中的特征进行匹配,根据匹配结果来确定待识别图像的类别。
在其中一实施例中,将训练好的孪生网络中的第一分支网络作为特征提取网络,通过该第一分支网络对已知类别图像进行特征提取,获得已知类别图像的第一通道特征,并将已知类别图像的第一通道特征存储至特征库中,可以理解,特征库中的每个第一通道特征对应一个已知类别。通过该第一分支网络提取待识别图像的第一通道特征作为图像特征,将待识别图像的第一通道特征与特征库中的各第一通道特征进行匹配,从特征库中选取匹配度最高的第一通道特征,将该匹配度最高的第一通道特征对应的类别作为该待识别图像的类别。
在另一实施例中,将训练好的孪生网络中的第一分支网络作为特征提取网络,通过该第一分支网络对已知类别图像进行特征提取,获得已知类别图像的第一通道加权特征,并将已知类别图像的第一通道加权特征存储至特征库中,可以理解,特征库中的每个第一通道加权特征对应一个已知类别。通过该第一分支网络提取待识别图像的第一通道加权特征作为用于分类识别的图像特征,将待识别图像的第一通道加权特征与特征库中的各第一通道加权特征进行匹配,从特征库中选取匹配度最高的第一通道加权特征,将该匹配度最高的第一通道加权特征对应的类别作为该待识别图像的类别。
在另一实施例中,将训练好的孪生网络中的第一分支网络作为特征提取网络,通过该第一分支网络对已知类别图像进行特征提取,获得已知类别图像的第一目标特征,并将已知类别图像的第一目标特征存储至特征库中,可以理解,特征库中的每个第一目标特征对应一个已知类别。通过该第一分支网络提取待识别图像的第一目标特征作为用于分类识别的图像特征,将待识别图像的第一目标特征与特征库中的各第一目标特征进行匹配,从特征库中选取匹配度最高的第一目标特征,将该匹配度最高的第一目标特征对应的类别作为该待识别图像的类别。
在其他实施例中,将训练好的孪生网络中的第二分支网络作为特征提取网络,相应地可以提取已知类别图像的第二通道特征、第二通道加权特征或第二目标特征存储至特征库中,提取待识别图像的第二通道特征、第二通道加权特征或第二目标特征作为用于分类识别的图像特征,并通过将相应特征进行匹配来获得该待识别图像的类别。具体识别过程与上述将训练好的孪生网络中的第一分支网络作为特征提取网络类似,此处不再赘述。
在一个实施例中,如图3所示,对第一样本图像进行特征提取,得到第一通道特征和第一通道加权特征的步骤,具体可以包括以下步骤S302至S306。
S302,对第一样本图像进行卷积处理,得到第一通道特征图,对第一通道特征图进行压缩处理,得到第一通道特征。
第一通道特征图包括从第一样本图像提取的各通道的特征图,第一通道特征图的尺寸可以用W×H×C表示,其中,C表示通道数量,W×H表示通道特征的空间维度,每个通道对应一个二维特征图。压缩处理(Squeeze)用于在空间维度进行特征压缩,将每个通道的二维特征图压缩成一个特征值,作为通道的全局特征。第一通道特征图经压缩处理后,得到第一通道特征,第一通道特征包括各通道的全局特征。在一个实施例中,压缩处理可以通过全局平均池化(Golbal Average Pooling,GAP)来实现。
S304,对第一通道特征进行激活处理,获得第一通道权重,第一通道权重包括第一通道特征中各通道对应的特征权重。
获得第一通道特征后,对第一通道特征进行激活处理(Excitation),用以学习各个通道间的相关性,得到第一通道权重,第一通道权重包括各通道对应的权重,权重用以表征对应通道的重要性。在一个实施例中,激活处理可以通过Sigmoid激活函数来实现。
S306,根据第一通道特征图和第一通道权重,获得第一通道加权特征图,对第一通道加权特征图进行压缩处理,得到第一通道加权特征。
获得第一通道权重后,可以将第一通道权重中各通道的特征权重与第一通道特征图中对应的通道特征进行相乘,获得第一通道加权特征图,对于每一通道,可以将该通道的权重加权到该通道的特征图上,以对该通道的特征进行重标定,得到该通道的加权特征图,第一通道加权特征图包括各通道的加权特征图。第一通道加权特征图可以理解为在第一通道特征图上加入了通道注意力机制得到的注意力特征图。第一通道加权特征图的空间维度与第一通道特征图的空间维度相同,为W×H×C。第一通道加权特征图经压缩处理后,得到第一通道加权特征,第一通道加权特征包括各通道的全局加权特征。在一个实施例中,压缩处理可以通过全局平均池化(Golbal Average Pooling,GAP)来实现。
在一个实施例中,根据第一通道特征图和第一通道权重,获得第一通道加权特征图的步骤,具体可以是:将第一通道特征图中各通道对应的特征图乘以第一通道权重中对应通道的特征权重,获得第一通道加权特征图。
第一通道权重用于表征各通道的重要性,通道权重越大,可以理解为对应的通道特征越重要。据此,将第一通道特征图中各通道对应的特征图乘以第一通道权重中对应通道的特征权重,可以增强更重要的通道特征,并抑制不重要的通道特征,从而提取到更为准确的图像特征。
在一个实施例中,根据第一通道特征和第一通道加权特征,获得第一样本图像的第一目标特征的步骤,具体可以是:将第一通道特征中各通道的特征与第一通道加权特征中对应通道的特征进行相加,获得第一样本图像的第一目标特征。
如前所述,第一通道特征包括各通道的全局特征,第一通道加权特征包括各通道的全局加权特征。对于每一通道,将该通道的全局特征和全局加权特征相加,可以使得重要的通道特征进一步增强,不重要的通道特征进一步抑制,据此得到的目标特征用于分类识别,可以提升识别准确性。
在一个实施例中,如图4所示,对第二样本图像进行特征提取,得到第二通道特征和第二通道加权特征的步骤,具体可以包括以下步骤S402至S406。
S402,对第二样本图像进行卷积处理,得到第二通道特征图,对第二通道特征图进行压缩处理,得到第二通道特征。
第二通道特征图包括从第二样本图像提取的各通道的特征图,第二通道特征图的尺寸可以用W×H×C表示,其中,C表示通道数量,W×H表示通道特征的空间维度,每个通道对应一个二维特征图。压缩处理(Squeeze)用于在空间维度进行特征压缩,将每个通道的二维特征图压缩成一个特征值,作为通道的全局特征。第二通道特征图经压缩处理后,得到第二通道特征,第二通道特征包括各通道的全局特征。在一个实施例中,压缩处理可以通过全局平均池化(Golbal Average Pooling,GAP)来实现。
S404,对第二通道特征进行激活处理,获得第二通道权重,第二通道权重包括第二通道特征中各通道对应的特征权重。
获得第二通道特征后,对第二通道特征进行激活处理(Excitation),用以学习各个通道间的相关性,得到第二通道权重,第二通道权重包括各通道对应的权重,权重用以表征对应通道的重要性。在一个实施例中,激活处理可以通过Sigmoid激活函数来实现。
S406,根据第二通道特征图和第二通道权重,获得第二通道加权特征图,对第二通道加权特征图进行压缩处理,得到第二通道加权特征。
获得第二通道权重后,可以将第二通道权重中各通道的特征权重与第二通道特征图中对应的通道特征进行相乘,获得第二通道加权特征图,对于每一通道,可以将该通道的权重加权到该通道的特征图上,以对该通道的特征进行重标定,得到该通道的加权特征图,第二通道加权特征图包括各通道的加权特征图。第二通道加权特征图可以理解为在第二通道特征图上加入了通道注意力机制得到的注意力特征图。第二通道加权特征图的空间维度与第二通道特征图的空间维度相同,为W×H×C。第二通道加权特征图经压缩处理后,得到第二通道加权特征,第二通道加权特征包括各通道的全局加权特征。在一个实施例中,压缩处理可以通过全局平均池化(Golbal Average Pooling,GAP)来实现。
在一个实施例中,根据第二通道特征图和第二通道权重,获得第二通道加权特征图的步骤,具体可以是:将第二通道特征图中各通道对应的特征图乘以第二通道权重中对应通道的特征权重,获得第二通道加权特征图。
第二通道权重用于表征各通道的重要性,通道权重越大,可以理解为对应的通道特征越重要。据此,将第二通道特征图中各通道对应的特征图乘以第二通道权重中对应通道的特征权重,可以增强更重要的通道特征,并抑制不重要的通道特征,从而提取到更为准确的图像特征。
在一个实施例中,根据第二通道特征和第二通道加权特征,获得第二样本图像的第二目标特征的步骤,具体可以是:将第二通道特征中各通道的特征与第二通道加权特征中对应通道的特征进行相加,获得第二样本图像的第二目标特征。
如前所述,第二通道特征包括各通道的全局特征,第二通道加权特征包括各通道的全局加权特征。对于每一通道,将该通道的全局特征和全局加权特征相加,可以使得重要的通道特征进一步增强,不重要的通道特征进一步抑制,据此得到的目标特征用于分类识别,可以提升识别准确性。
在一个实施例中,对第一目标特征和第二目标特征进行特征融合,获得融合特征的步骤,具体可以包括以下步骤:将第一目标特征和第二目标特征分别乘以对应的参数,获得第一加权目标特征和第二加权目标特征;将第一加权目标特征和第二加权目标特征进行拼接,得到融合特征。
在一个实施例中,第一样本图像所属类别的样本数量小于第二样本图像所属类别的样本数量,第一目标特征对应的参数随迭代次数增加而增大,第二目标特征对应的参数随迭代次数增加而减小。
据此,随着迭代次数的增加,网络会相对地加强对于样本数量少的类别特征的学习,相对地减弱对于样本数量多的类别特征的学习,以解决样本数据不均衡问题。
在一个实施例中,将第一目标特征和第二目标特征分别乘以对应的参数,获得第一加权目标特征和第二加权目标特征的步骤,具体可以包括以下步骤:根据当前迭代次数和总迭代次数的比值,确定第一参数,将第一目标特征乘以第一参数,获得第一加权目标特征;根据预设数值与第一参数的差值,确定第二参数,将第二目标特征乘以第二参数,获得第二加权目标特征。
在实施中,可以将当前迭代次数和总迭代次数的比值作为第一目标特征对应的参数,即第一参数(用a表示),预设数值设为1,将1-a作为第一目标特征对应的参数,即第二参数。据此,实现第一目标特征对应的参数随迭代次数增加而增大,第二目标特征对应的参数随迭代次数增加而减小。
在一个实施例中,如图5所示,提供了孪生网络的结构示意图,该孪生网络包含两个并行的分支网络,该孪生网络的输出连接一个分类网络,两个分支网络用于提取图像特征,分类网络用于对两个分支网络输出的图像特征进行融合并基于融合特征识别图像类别。其中,两个分支网络可以通过共享权重来减少网络参数。孪生网络在训练时,将两个样本图像分别输入两个分支网络,通过两个分支网络提取图像特征,加强网络对于图像特征的学习能力。训练好的孪生网络模型在使用时,将待识别图像输入两个分支网络中的任意一个分支网络进行特征提取。下面结合图5所示结构对孪生网络的训练过程进行具体说明。
第一分支网络包括主干网络(SENet)、卷积层、全局平均池化层和全连接层,并且引入了通道注意力机制。将第一样本图像输入第一分支网络,通过主干网络处理,输出第一通道特征图(B3_1),对第一通道特征图(B3_1)进行卷积处理、压缩处理(GAP)以及全连接处理,输出第一通道特征(B6_1),对第一通道特征(B6_1)进行激活处理(Sigmoid),得到第一通道权重。将第一通道权重乘以第一通道特征图(B3_1),得到第一通道加权特征图(B7_1),对第一通道加权特征图(B7_1)进行卷积处理、压缩处理(GAP)以及全连接处理,输出第一通道加权特征(B10_1)。将第一通道特征(B6_1)和第一通道加权特征(B10_1)相加,输出第一目标特征(B11_1)。
第二分支网络包括主干网络(SENet)、卷积层、全局平均池化层和全连接层,并且引入了通道注意力机制。将第二样本图像输入第二分支网络,通过主干网络处理,输出第二通道特征图(B3_2),对第二通道特征图(B3_2)进行卷积处理、压缩处理(GAP)以及全连接处理,输出第二通道特征(B6_2),对第二通道特征(B6_2)进行激活处理(Sigmoid),得到第二通道权重。将第二通道权重乘以第二通道特征图(B3_2),得到第二通道加权特征图(B7_2),对第二通道加权特征图(B7_2)进行卷积处理、压缩处理(GAP)以及全连接处理,输出第二通道加权特征(B10_2)。将第二通道特征(B6_2)和第二通道加权特征(B10_2)相加,输出第二目标特征(B11_2)。
分类网络包括特征融合层和全连接层,将第一目标特征(B11_1)乘以参数a(a表示当前迭代次数和总迭代次数的比值)得到第一加权目标特征,将第二目标特征(B11_2)乘以参数1-a得到第二加权目标特征,将第一加权目标特征和第二加权目标特征通过通道拼接(concat),输出融合特征(B12)。将融合特征(B12)进行全连接处理和激活处理(Softmax),输出样本图像的预测类别。
基于预测类别与对应标签类别的误差,调整孪生网络的参数,直至满足迭代结束条件,获得训练好的孪生网络。
本实施例中,通过在孪生网络中引入通道注意力机制,能够增强更重要的通道特征并抑制不重要的通道特征,通过对两个分支网络输出的特征进行加权融合,能够加强对于样本数量少的类别特征的学习,以解决样本数据不均衡导致无法准确识别样本数量少的类别的问题,从而提高网络识别准确性。
需要说明的是,本实施例所采用的孪生网络模型结构并不限于是图5所示结构,可以对其进行相应的调整,例如,减少或增加卷积层数量,采用特征相加(add)作为特征融合方式、采用普通卷积层代替SENet网络等,也可以达到本实施例目的。
应该理解的是,虽然上述实施例涉及的各流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述实施例涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种图像识别装置600,包括:获取模块610、特征提取模块620和识别模块630,其中:
获取模块610,用于获取待识别图像。
特征提取模块620,用于通过特征提取网络,对待识别图像进行特征提取,获得待识别图像的图像特征;特征提取网络为训练好的孪生网络中的一个分支网络。
识别模块630,用于基于图像特征,得到待识别图像的类别。
在一个实施例中,孪生网络包括第一分支网络和第二分支网络,该装置还包括训练模块,用于训练得到孪生网络。训练模块包括:获取单元、第一目标特征提取单元、第二目标特征提取单元、预测单元和调整单元。
获取单元,用于获取样本图像及其标签类别,样本图像包括第一样本图像和第二样本图像。
第一目标特征提取单元,用于通过第一分支网络,对第一样本图像进行特征提取,得到第一通道特征和第一通道加权特征,根据第一通道特征和第一通道加权特征,获得第一样本图像的第一目标特征。
第二目标特征提取单元,用于通过第二分支网络,对第二样本图像进行特征提取,得到第二通道特征和第二通道加权特征,根据第二通道特征和第二通道加权特征,获得第二样本图像的第二目标特征。
预测单元,用于对第一目标特征和第二目标特征进行特征融合,获得融合特征,基于融合特征进行映射,得到第一样本图像和第二样本图像的预测类别。
调整单元,用于基于各预测类别与对应标签类别的误差,调整孪生网络的参数,直至满足迭代结束条件,获得训练好的孪生网络。
在一个实施例中,第一目标特征提取单元在通过第一分支网络,对第一样本图像进行特征提取,得到第一通道特征和第一通道加权特征时,具体用于:对第一样本图像进行卷积处理,得到第一通道特征图,对第一通道特征图进行压缩处理,得到第一通道特征;对第一通道特征进行激活处理,获得第一通道权重,第一通道权重包括第一通道特征中各通道对应的特征权重;根据第一通道特征图和第一通道权重,获得第一通道加权特征图,对第一通道加权特征图进行压缩处理,得到第一通道加权特征。
在一个实施例中,第二目标特征提取单元在通过第二分支网络,对第二样本图像进行特征提取,得到第二通道特征和第二通道加权特征时,具体用于:对第二样本图像进行卷积处理,得到第二通道特征图,对第二通道特征图进行压缩处理,得到第二通道特征;对第二通道特征进行激活处理,获得第二通道权重,第二通道权重包括第二通道特征中各通道对应的特征权重;根据第二通道特征图和第二通道权重,获得第二通道加权特征图,对第二通道加权特征图进行压缩处理,得到第二通道加权特征。
在一个实施例中,第一目标特征提取单元在根据第一通道特征图和第一通道权重,获得第一通道加权特征图时,具体用于:将第一通道特征图中各通道对应的特征图乘以第一通道权重中对应通道的特征权重,获得第一通道加权特征图。
在一个实施例中,第二目标特征提取单元在根据第二通道特征图和第二通道权重,获得第二通道加权特征图时,具体用于:将第二通道特征图中各通道对应的特征图乘以第二通道权重中对应通道的特征权重,获得第二通道加权特征图。
在一个实施例中,第一目标特征提取单元在根据第一通道特征和第一通道加权特征,获得第一样本图像的第一目标特征时,具体用于:将第一通道特征中各通道的特征与第一通道加权特征中对应通道的特征进行相加,获得第一样本图像的第一目标特征。
在一个实施例中,第二目标特征提取单元在根据第二通道特征和第二通道加权特征,获得第二样本图像的第二目标特征时,具体用于:将第二通道特征中各通道的特征与第二通道加权特征中对应通道的特征进行相加,获得第二样本图像的第二目标特征。
在一个实施例中,预测单元在对第一目标特征和第二目标特征进行特征融合,获得融合特征时,具体用于:将第一目标特征和第二目标特征分别乘以对应的参数,获得第一加权目标特征和第二加权目标特征;将第一加权目标特征和第二加权目标特征进行拼接,得到融合特征。
在一个实施例中,第一样本图像所属类别的样本数量小于第二样本图像所属类别的样本数量,第一目标特征对应的参数随迭代次数增加而增大,第二目标特征对应的参数随迭代次数增加而减小。
在一个实施例中,预测单元在将第一目标特征和第二目标特征分别乘以对应的参数,获得第一加权目标特征和第二加权目标特征时,具体用于:根据当前迭代次数和总迭代次数的比值,确定第一参数,将第一目标特征乘以第一参数,获得第一加权目标特征;根据预设数值与第一参数的差值,确定第二参数,将第二目标特征乘以第二参数,获得第二加权目标特征。
在一个实施例中,特征提取模块620在通过特征提取网络,对待识别图像进行特征提取,获得待识别图像的图像特征时,具体用于:通过训练好的孪生网络中的第一分支网络或第二分支网络,对待识别图像进行特征提取,获得相应的通道特征,将通道特征作为待识别图像的图像特征。
在一个实施例中,特征提取模块620在通过特征提取网络,对待识别图像进行特征提取,获得待识别图像的图像特征时,具体用于:通过训练好的孪生网络中的第一分支网络或第二分支网络,对待识别图像进行特征提取,获得相应的通道加权特征,将通道加权特征作为待识别图像的图像特征。
在一个实施例中,特征提取模块620在通过特征提取网络,对待识别图像进行特征提取,获得待识别图像的图像特征时,具体用于:通过训练好的孪生网络中的第一分支网络或第二分支网络,对待识别图像进行特征提取,获得相应的目标特征,将目标特征作为待识别图像的图像特征。
关于图像识别装置的具体限定可以参见上文中对于图像识别方法的限定,在此不再赘述。上述图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像识别方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图像识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7或图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要理解的是,上述实施例中的术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。针对数值范围的描述,术语“多个”表示多于一个,即等于或大于两个。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种图像识别方法,其特征在于,所述方法包括:
获取待识别图像;
通过特征提取网络,对所述待识别图像进行特征提取,获得所述待识别图像的图像特征;所述特征提取网络为训练好的孪生网络中的一个分支网络;
基于所述图像特征,得到所述待识别图像的类别。
2.根据权利要求1所述的方法,其特征在于,所述孪生网络包括第一分支网络和第二分支网络,所述孪生网络的训练过程包括:
获取样本图像及其标签类别,所述样本图像包括第一样本图像和第二样本图像;
通过所述第一分支网络,对所述第一样本图像进行特征提取,得到第一通道特征和第一通道加权特征,根据所述第一通道特征和所述第一通道加权特征,获得所述第一样本图像的第一目标特征;
通过所述第二分支网络,对所述第二样本图像进行特征提取,得到第二通道特征和第二通道加权特征,根据所述第二通道特征和所述第二通道加权特征,获得所述第二样本图像的第二目标特征;
对所述第一目标特征和所述第二目标特征进行特征融合,获得融合特征,基于所述融合特征进行映射,得到所述第一样本图像和所述第二样本图像的预测类别;
基于各所述预测类别与对应标签类别的误差,调整所述孪生网络的参数,直至满足迭代结束条件,获得训练好的孪生网络。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一样本图像进行特征提取,得到第一通道特征和第一通道加权特征,包括:
对所述第一样本图像进行卷积处理,得到第一通道特征图,对所述第一通道特征图进行压缩处理,得到第一通道特征;
对所述第一通道特征进行激活处理,获得第一通道权重,所述第一通道权重包括所述第一通道特征中各通道对应的特征权重;
根据所述第一通道特征图和所述第一通道权重,获得第一通道加权特征图,对所述第一通道加权特征图进行压缩处理,得到第一通道加权特征;和/或,
所述对所述第二样本图像进行特征提取,得到第二通道特征和第二通道加权特征,包括:
对所述第二样本图像进行卷积处理,得到第二通道特征图,对所述第二通道特征图进行压缩处理,得到第二通道特征;
对所述第二通道特征进行激活处理,获得第二通道权重,所述第二通道权重包括所述第二通道特征中各通道对应的特征权重;
根据所述第二通道特征图和所述第二通道权重,获得第二通道加权特征图,对所述第二通道加权特征图进行压缩处理,得到第二通道加权特征。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一通道特征图和所述第一通道权重,获得第一通道加权特征图,包括:
将所述第一通道特征图中各通道对应的特征图乘以所述第一通道权重中对应通道的特征权重,获得第一通道加权特征图;和/或,
所述根据所述第二通道特征图和所述第二通道权重,获得第二通道加权特征图,包括:
将所述第二通道特征图中各通道对应的特征图与所述第二通道权重中对应通道的特征权重进行相乘,获得第二通道加权特征图。
5.根据权利要求2所述的方法,其特征在于,所述根据所述第一通道特征和所述第一通道加权特征,获得所述第一样本图像的第一目标特征,包括:
将所述第一通道特征中各通道的特征与所述第一通道加权特征中对应通道的特征进行相加,获得所述第一样本图像的第一目标特征;和/或,
所述根据所述第二通道特征和所述第二通道加权特征,获得所述第二样本图像的第二目标特征,包括:
将所述第二通道特征中各通道的特征与所述第二通道加权特征中对应通道的特征进行相加,获得所述第二样本图像的第二目标特征。
6.根据权利要求2所述的方法,其特征在于,所述对所述第一目标特征和所述第二目标特征进行特征融合,获得融合特征,包括:
将所述第一目标特征和所述第二目标特征分别乘以对应的参数,获得第一加权目标特征和第二加权目标特征;
将所述第一加权目标特征和所述第二加权目标特征进行拼接,得到融合特征。
7.根据权利要求6所述的方法,其特征在于,所述第一样本图像所属类别的样本数量小于所述第二样本图像所属类别的样本数量,所述第一目标特征对应的参数随迭代次数增加而增大,所述第二目标特征对应的参数随迭代次数增加而减小。
8.根据权利要求7所述的方法,其特征在于,所述将所述第一目标特征和所述第二目标特征分别乘以对应的参数,获得第一加权目标特征和第二加权目标特征,包括:
根据当前迭代次数和总迭代次数的比值,确定第一参数,将所述第一目标特征乘以所述第一参数,获得第一加权目标特征;
根据预设数值与所述第一参数的差值,确定第二参数,将所述第二目标特征乘以所述第二参数,获得第二加权目标特征。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述通过特征提取网络,对所述待识别图像进行特征提取,获得所述待识别图像的图像特征,可以采用以下任意一项方法进行:
第一项:通过训练好的孪生网络中的第一分支网络或第二分支网络,对所述待识别图像进行特征提取,获得相应的通道特征,将所述通道特征作为所述待识别图像的图像特征;
第二项:通过训练好的孪生网络中的第一分支网络或第二分支网络,对所述待识别图像进行特征提取,获得相应的通道加权特征,将所述通道加权特征作为所述待识别图像的图像特征;
第三项:通过训练好的孪生网络中的第一分支网络或第二分支网络,对所述待识别图像进行特征提取,获得相应的目标特征,将所述目标特征作为所述待识别图像的图像特征。
10.一种图像识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别图像;
特征提取模块,用于通过特征提取网络,对所述待识别图像进行特征提取,获得所述待识别图像的图像特征;所述特征提取网络为训练好的孪生网络中的一个分支网络;
识别模块,用于基于所述图像特征,得到所述待识别图像的类别。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
CN202011342813.0A 2020-11-25 2020-11-25 图像识别方法、装置、计算机设备和存储介质 Pending CN114549849A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011342813.0A CN114549849A (zh) 2020-11-25 2020-11-25 图像识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011342813.0A CN114549849A (zh) 2020-11-25 2020-11-25 图像识别方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN114549849A true CN114549849A (zh) 2022-05-27

Family

ID=81660087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011342813.0A Pending CN114549849A (zh) 2020-11-25 2020-11-25 图像识别方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN114549849A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861210A (zh) * 2022-11-25 2023-03-28 国网重庆市电力公司潼南供电分公司 一种基于孪生网络的变电站设备异常检测方法和系统
CN116612287A (zh) * 2023-07-17 2023-08-18 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861210A (zh) * 2022-11-25 2023-03-28 国网重庆市电力公司潼南供电分公司 一种基于孪生网络的变电站设备异常检测方法和系统
CN115861210B (zh) * 2022-11-25 2024-05-24 国网重庆市电力公司潼南供电分公司 一种基于孪生网络的变电站设备异常检测方法和系统
CN116612287A (zh) * 2023-07-17 2023-08-18 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质
CN116612287B (zh) * 2023-07-17 2023-09-22 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN109285105B (zh) 水印检测方法、装置、计算机设备和存储介质
CN111666922A (zh) 视频匹配方法、装置、计算机设备和存储介质
CN115311730B (zh) 一种人脸关键点的检测方法、系统和电子设备
CN111062324A (zh) 人脸检测方法、装置、计算机设备和存储介质
CN114549849A (zh) 图像识别方法、装置、计算机设备和存储介质
CN112329762A (zh) 图像处理方法、模型训练方法、装置、计算机设备和介质
US20240037898A1 (en) Method for predicting reconstructabilit, computer device and storage medium
CN112232397A (zh) 图像分类模型的知识蒸馏方法、装置和计算机设备
CN112287965A (zh) 图像质量检测模型训练方法、装置和计算机设备
CN115205547A (zh) 一种目标图像的检测方法、装置、电子设备及存储介质
CN114461869B (zh) 业务特征数据处理方法、装置、电子设备及存储介质
CN117332766A (zh) 流程图生成方法、装置、计算机设备和存储介质
CN114880709B (zh) 一种应用人工智能的电商数据防护方法及服务器
CN115758271A (zh) 数据处理方法、装置、计算机设备和存储介质
CN112862002A (zh) 多尺度目标检测模型的训练方法、目标检测方法和装置
CN114510592A (zh) 图像分类方法、装置、电子设备及存储介质
CN113160126A (zh) 硬件木马检测方法、装置、计算机设备和存储介质
CN110852400A (zh) 分类模型的评估方法、装置、计算机设备和存储介质
CN112581250A (zh) 模型生成方法、装置、计算机设备和存储介质
CN113159079A (zh) 目标检测方法、装置、计算机设备和存储介质
CN115965856B (zh) 图像检测模型构建方法、装置、计算机设备及存储介质
CN117058432B (zh) 图像查重方法、装置、电子设备及可读存储介质
CN114549848A (zh) 图像识别方法、装置、计算机设备和存储介质
CN114048392B (zh) 多媒体资源推送方法、装置、电子设备及存储介质
CN115393846B (zh) 一种血细胞识别方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination