CN114529963A - 图像处理方法、装置、电子设备和可读存储介质 - Google Patents

图像处理方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN114529963A
CN114529963A CN202011320552.2A CN202011320552A CN114529963A CN 114529963 A CN114529963 A CN 114529963A CN 202011320552 A CN202011320552 A CN 202011320552A CN 114529963 A CN114529963 A CN 114529963A
Authority
CN
China
Prior art keywords
feature map
channel
attention
image
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011320552.2A
Other languages
English (en)
Inventor
刘少丽
张殿凯
王勃飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN202011320552.2A priority Critical patent/CN114529963A/zh
Priority to US18/038,431 priority patent/US20240013573A1/en
Priority to PCT/CN2021/129833 priority patent/WO2022105655A1/zh
Publication of CN114529963A publication Critical patent/CN114529963A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Geometry (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请提出一种图像处理方法、装置、电子设备和可读存储介质,该方法包括:对待检测图像进行预处理获得输入特征图;对输入特征图进行多通道的处理,获得通道注意力特征图;对通道注意力特征图中的空间域信息进行处理,获得空间注意力权重;依据空间注意力权重和通道注意力特征图,确定输出特征图。在通道和空间两个维度上增强输入特征图所要表达的特征,突出输入特征图中最具辨别力的视觉特征;依据空间注意力权重和通道注意力特征图,确定输出特征图,使处理后的输出特征图能够更准确,提升图像分类的精度,保证在目标检测时的准确性,方便在机器视觉领域中的应用。

Description

图像处理方法、装置、电子设备和可读存储介质
技术领域
本申请涉及图像处理技术领域,具体涉及一种图像处理方法、装置、电子设备和可读存储介质。
背景技术
人类在通过眼睛观看一幅图像时,可以快速获得需要重点关注的目标区域,进而获取更多所需要关注目标的细节信息,即视觉注意力机制。该视觉注意力机制可以极大地提高人类对获取到的信息的处理效率和准确性。
近年来,技术人员通过模仿人类的视觉注意力机制,提出了可应用于深度学习的注意力模块,该注意力模块在使用的过程中,对输入图像中的不同大小、不同距离的物体的兼容性不好,导致获得的输出特征图不准确。
发明内容
本申请提供一种图像处理方法、装置、电子设备和可读存储介质。
本申请实施例提供一种图像处理方法,方法包括:对待检测图像进行预处理获得输入特征图;对输入特征图进行多通道的处理,获得通道注意力特征图;对通道注意力特征图中的空间域信息进行处理,获得空间注意力权重;依据空间注意力权重和通道注意力特征图,确定输出特征图。
本申请实施例提供一种图像处理装置,包括:预处理模块,用于对待检测图像进行预处理获得输入特征图;通道注意力处理模块,用于对输入特征图进行多通道的处理,获得通道注意力特征图;空间权重确定模块,用于对通道注意力特征图中的空间域信息进行处理,获得空间注意力权重;空间注意力处理模块,用于依据空间注意力权重和通道注意力特征图,确定输出特征图。
本申请实施例提供一种电子设备,包括:一个或多个处理器;存储器,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本申请实施例中的任意一种图像处理方法。
本申请实施例提供了一种可读存储介质,该可读存储介质存储有计算机程序,计算机程序被处理器执行时实现本申请实施例中的任意一种图像处理方法。
根据本申请实施例的图像处理方法、装置、电子设备和可读存储介质,通过对输入特征图进行多通道的处理,获得通道注意力特征图,并对通道注意力特征图中的空间域信息进行处理,获得空间注意力权重,在通道和空间两个维度上增强输入特征图所要表达的特征,突出输入特征图中最具辨别力的视觉特征;依据空间注意力权重和通道注意力特征图,确定输出特征图,使处理后的输出特征图能够更准确,提升图像分类的精度,保证在目标检测时的准确性,方便在机器视觉领域中的应用。
关于本申请的以上实施例和其他方面以及其实现方式,在附图说明、具体实施方式和权利要求中提供更多说明。
附图说明
图1示出本申请一实施例中的图像处理方法的流程示意图。
图2示出本申请又一实施例的图像处理方法的流程示意图。
图3示出本申请实施例提供的图像处理装置的结构示意图。
图4示出本申请又一实施例提供的图像处理装置的结构示意图。
图5示出本申请实施例中的通过通道注意力模块对输入特征图进行处理的流程示意图。
图6示出本申请实施例中的通过空间注意力模块对通道注意力特征图进行处理的流程示意图。
图7示出本申请实施例中的基于通道注意力模块和空间注意力模块对人脸图像的处理方法的流程示意图。
图8示出能够实现根据本申请实施例的图像处理方法和装置的计算设备的示例性硬件架构的结构图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
近年来,技术人员通过模仿人类的视觉注意力机制,提出了可应用于深度学习的注意力模块。注意力模块可以从输入图像中选择对当前任务更有益的信息,并抑制干扰区域的信息对当前任务的影响。注意力模块包括:通道域注意力模块、空间域注意力模块和混合域注意力模块。其中,混合域注意力模块可同时获得输入图像在空间域和通道域的注意力权重。目前,应用较广泛的卷积块注意力模块(Convolutional Block AttentionModule,CBAM)是混合域注意力模块中的一种,CBAM采用单一的卷积核提取特征图的通道特征图集合,对于不同大小、不同远近的物体的兼容性不好,得到的权重图不准确;并且,CBAM的空间注意力模块部分是需要先分别采用全局最大池化和全局平均池化对输入的特征图进行处理,在获得两个处理后的特征图时,将两个处理后的特征图进行结合,然后再做卷积操作,导致运算量较大,不易实现。
图1示出本申请一实施例中的图像处理方法的流程示意图。该图像处理方法可应用于图像处理装置,该图像处理装置可应用于人脸识别网络中。如图1所示,本申请实施例中的图像处理方法可以包括以下步骤。
步骤S110,对待检测图像进行预处理获得输入特征图。
其中,待检测图像包括人脸图像和/或物体图像,对待检测图像进行特征抽取、图像分割、匹配和识别等操作,以消除待检测图像中的非必要信息,恢复有用的真实信息,增强信息的可检测性,并最大限度地简化数据,使获得的输入特征图的可靠性得到提升。
例如,当待检测图像是人脸图像时,可将待检测图像中的多幅人脸图像进行检测对齐,让同类型的图像之间的距离更近,让不同类型的图像之间的距离更远,以方便对人脸图像的识别,尽快的区分出相同的人脸图像。
步骤S120,对输入特征图进行多通道的处理,获得通道注意力特征图。
其中,通道可以理解为选择区域的映射。每个通道中的像素颜色是由一组原色的亮度值组成的,例如,R通道中的像素颜色是红色(Red),G通道中的像素颜色是绿色(Green),B通道中的像素颜色是蓝色(Blue)。对于CMYK图像,还可以将通道划分为C通道、M通道、Y通道和K通道等多种不同的通道,其中,C通道中的像素颜色是青色(Cyan),M通道中的像素颜色是洋红色(Magenta),Y通道中的像素颜色是黄色(Yellow),K通道中的像素颜色是黑色(取blacK中的最后一个字母)。以上对于通道的类型仅是举例说明,可根据具体实现进行具体设定,其他未说明的通道的类型也在本申请的保护范围内,在此不再赘述。通道注意力特征图是将输入特征图输入至多通道进行处理后,可获知在多种通道中重要程度最大的那个通道对应的特征图。
例如,可将输入特征图输入至R通道、G通道和B通道中的任意一种或几种,通过多种不同的通道对输入特征图进行处理,每条通道对输入特征图的处理维度都不同,使获得的通道注意力特征图能够体现更多、更全面的特征,保证对输入特征图的特征提取的准确性。
步骤S130,对通道注意力特征图中的空间域信息进行处理,获得空间注意力权重。
其中,空间域信息可以包括光谱域信息、空间域的邻域信息和边缘信息中的任意一种或几种。例如,在光谱域信息的基础上采用传统的支持向量机对高光谱图像进行分类;结合空间域的邻域信息,对分类结果进行优化处理;利用边缘信息对通道注意力特征图中的目标进行分类等操作。空间域信息还可以是特征图的高度信息和/或特征图的宽度信息等,使通道注意力特征图中的不同空间维度上的信息能够快速被提取出来,体现空间注意力权重。以上对于空间域信息仅是举例说明,可根据具体实现进行具体设定,其他未说明的空间域信息也在本申请的保护范围内,在此不再赘述。
空间注意力权重是通道注意力特征图中的各个待检测目标(例如,人脸、树木、动物等图像)在二维空间上所占的比重,该比重能够体现通道注意力特征图的二维空间上的重要程度,进而确定用户的主要注意力都集中在哪种目标上,提升最重要的那个目标的检测权重,以使待检测目标更突出,方便后续处理,快速获得输出特征图。
在一些具体实现中,对通道注意力特征图中的空间域信息进行处理,获得空间注意力权重,包括:以通道为单位,对通道注意力特征图中的空间域信息进行最大池化处理,获得池化后的特征图,池化后的特征图包括二维特征向量;对各条通道对应的池化后的特征图进行卷积处理,确定空间注意力权重。
其中的对各条通道对应的池化后的特征图进行卷积处理,可以是采用1*1的卷积核对各条通道对应的池化后的特征图进行卷积运算,以获得空间注意力权重。
例如,二维特征向量可以是H*W的特征向量,其中,H代表池化后的特征图的高度,W代表池化后的特征图的宽度。通过该二维特征向量,能够体现不同通道内的池化后的特征图的空间注意力的重要程度,对比不同通道中的空间注意力,确定最重要的那个通道中的空间注意力,以确定空间注意力权重。二维特征向量使特征图的空间特征能够体现出来,保证特征图的通道特征和空间特征的全面性和完整性,以方便后续对特征图的处理。
步骤S140,依据空间注意力权重和通道注意力特征图,确定输出特征图。
其中,输出特征图用于表征注意力最突出的特征,即通道注意力和空间注意力都能够体现的特征。例如,可将空间注意力权重和通道注意力特征图进行点积运算,获得输出特征图,以降低运算量,能够快速提取通道注意力特征图中的空间特征,使输出特征图能够更全面的体现空间特征和通道特征,保证特征的全面性和准确性。
在一些具体实现中,依据空间注意力权重和通道注意力特征图,确定输出特征图,包括:将空间注意力权重和通道注意力特征图进行点积运算,获得输出特征图。
通过将通道注意力特征图与空间注意力权重进行点积,可以在通道注意力特征图的基础上,能够考虑特征图的空间域信息,结合通道特征和空间特征,使输出特征图的特征能够更全面,更准确。
在本实施例中,通过对输入特征图进行多通道的处理,获得通道注意力特征图,并对通道注意力特征图中的空间域信息进行处理,获得空间注意力权重,在通道和空间两个维度上增强输入特征图所要表达的特征,突出输入特征图中最具辨别力的视觉特征;依据空间注意力权重和通道注意力特征图,确定输出特征图,使处理后的输出特征图能够更准确,提升图像分类的精度,保证在目标检测时的准确性,方便在机器视觉领域中的应用。
在一些具体实现中,步骤S120中的对输入特征图进行多通道的处理,获得通道注意力特征图,包括:对输入特征图进行全局平均池化处理,获得待检测特征图;依据N个通道卷积核和待检测特征图,确定通道注意力特征图,其中,N个通道卷积核的尺度不同,N为大于或等于1的整数。
例如,使用以下三种不同大小的通道卷积核:1*1、3*3和5*5,分别与待检测特征图进行卷积,获得三种不同通道注意力特征图。因不同大小的卷积核对应的用户的感受视野不同,用户对于不同尺度(例如,不同远近或不同大小)的目标会有不同的观看效果,扩展了待检测特征图的特征范围,使待检测特征图的特征尽快更全面的体现出来,方便对待检测特征图中的图像进行处理,加快获得不同角度上的通道注意力特征图。使通道注意力特征图的特征能够更全面准确的体现用户的注意力。
在一些具体实现中,依据N个通道卷积核和待检测特征图,确定通道注意力特征图,包括:采用N个通道卷积核分别与待检测特征图进行运算,获得N个通道特征图;对N个通道特征图做图像均衡处理,确定均衡后的通道特征图,均衡后的通道特征图包括一维特征向量;依据均衡后的通道特征图和输入特征图,确定通道注意力特征图。
例如,一维特征向量可以是1*1*C的特征向量,其中,C代表特征通道的数量,以体现均衡后的通道特征图的通道特性。然后,依据均衡后的通道特征图和输入特征图(例如,将均衡后的通道特征图和输入特征图进行特征融合等处理),获得通道注意力特征图,使待检测的特征图的通道特性能够更突出,提升通道注意力。
在一些具体实现中,依据均衡后的通道特征图和输入特征图,确定通道注意力特征图,包括:将均衡后的通道特征图和待检测特征图进行点积运算,获得通道注意力特征图。
通过将均衡后的通道特征图和待检测特征图进行点积运算,使运算量大幅降低,加快获得通道注意力特征图,方便对输入特征图的后续处理。
图2示出本申请又一实施例的图像处理方法的流程示意图。该图像处理方法可应用于图像处理装置,该图像处理装置可应用于人脸识别网络中。如图2所示,本申请实施例中的图像处理方法可以包括以下步骤。
步骤S210,对输入的人脸图像的集合中的各个待检测图像进行检测对齐,获得人脸特征图集合。
其中,人脸图像的集合包括第一待检测图像和第二待检测图像,人脸特征图集合包括第一人脸特征图和第二人脸特征图。
例如,其中的第一人脸特征图和第二人脸特征图都可作为输入特征图,将这两幅人脸特征图进行检测对齐,是将人脸中的双眼、鼻尖和嘴角中的五个点校准到同一个位置,以排除头部角度和人脸大小对识别的影响,可更清晰的对这两幅人脸特征图进行特征的筛选,以快速区分出这两幅人脸特征图的不同。
步骤S220,对输入特征图进行多通道的处理,获得通道注意力特征图。
其中,输入特征图可以是人脸特征图集合中的第一人脸特征图,也可以是人脸特征图集合中的第二人脸特征图,在一些具体实现中,人脸特征图集合还可以包括N个人脸特征图,N为大于或等于2的整数。
使用多通道对输入特征图进行处理,可获得多维度的图像特征,有利于对输入特征图的特征进行提取。因每条通道对输入特征图的处理维度都不同,使获得的通道注意力特征图能够体现更多、更全面的特征,保证对输入特征图的特征提取的准确性。
步骤S230,对通道注意力特征图中的空间域信息进行处理,获得空间注意力权重。
步骤S240,依据空间注意力权重和通道注意力特征图,确定输出特征图。
需要说明的是,本实施例中的步骤S230~步骤S240,与上一实施例中的步骤S130~步骤S140相同,在此不再赘述。
在本实施例中,通过对输入的人脸图像的集合中的各个待检测图像进行检测对齐,即将各个人脸特征图中的双眼,鼻尖,嘴角中的五个点校准到同一个位置(例如,将人脸特征图中的双眼(左右眼两个点)、鼻尖(一个点)和左右嘴角的两个点校准到同一个位置)以排除头部角度和人脸大小对图像识别的影响,有利于进行人脸特征的提取;然后对获得的人脸特征图集合中的各个特征图进行多通道的处理,获得通道注意力特征图,以提取各个特征图的通道特征;然后,再对通道注意力特征图中的空间域信息进行处理,获得空间注意力权重,以体现各个特征图的空间特征,通过通道特征和空间特征,来突出输入特征图中最具辨别力的视觉特征;依据空间注意力权重和通道注意力特征图,确定输出特征图,使处理后的输出特征图能够更准确,提升图像分类的精度,保证在目标检测时的准确性。
在一些具体实现中,依据空间注意力权重和通道注意力特征图,确定输出特征图之后,还包括:计算第一人脸特征图对应的第一输出特征图与第二人脸特征图对应的第二输出特征图的匹配相似度;依据匹配相似度和预设相似度阈值,确定第一待检测图像和第二待检测图像是否相同。
例如,设定预设相似度阈值为0.5,在第一输出特征图与第二输出特征图的匹配相似度小于0.5的情况下,判定第一待检测图像和第二待检测图像不相同;否则,在第一输出特征图与第二输出特征图的匹配相似度大于或等于0.5的情况下,判定第一待检测图像和第二待检测图像相同。通过上述判断方法可快速区分第一待检测图像和第二待检测图像,加快对图像的处理速度,提升用户体验度。
在一些具体实现中,计算第一人脸特征图对应的第一输出特征图与第二人脸特征图对应的第二输出特征图的匹配相似度,包括:依据第一输出特征图中的n个特征向量,和第二输出特征图中的n个特征向量,计算第一输出特征图与第二输出特征图的余弦相似度;其中,n为大于或等于1的整数。
例如,其中的余弦相似度可以采用如下公式计算获得:
Figure BDA0002792765150000061
其中,S表示余弦相似度,i表示输出特征图中的特征向量的序号,i={1,2,…,n},xi表示第一输出特征图中的第i个特征向量,yi表示第二输出特征图中的第i个特征向量,n表示特征的维度,n为大于或等于1的整数。
通过余弦相似度来对第一输出特征图和第二输出特征图进行判断,以确定第一输出特征图和第二输出特征图是否相同,进而确定第一人脸特征图与第二人脸特征图是否相同,加快了对人脸的区分速度,使不同的人脸特征能够快速的被识别出来,加快对人脸图像的区分,方便在机器视觉领域中的应用。
下面结合附图,详细介绍根据本申请实施例的图像处理装置。图3示出本申请实施例提供的图像处理装置的结构示意图。如图3所示,装置可以包括如下模块。
预处理模块301,用于对待检测图像进行预处理获得输入特征图;通道注意力处理模块302,用于对输入特征图进行多通道的处理,获得通道注意力特征图;空间权重确定模块303,用于对通道注意力特征图中的空间域信息进行处理,获得空间注意力权重;空间注意力处理模块304,用于依据空间注意力权重和通道注意力特征图,确定输出特征图。
在本实施例中,通过通道注意力处理模块对输入特征图进行多通道的处理,获得通道注意力特征图,并使用空间权重确定模块对通道注意力特征图中的空间域信息进行处理,获得空间注意力权重,在通道和空间两个维度上增强输入特征图所要表达的特征,突出输入特征图中最具辨别力的视觉特征;使用空间注意力处理模块依据空间注意力权重和通道注意力特征图,确定输出特征图,使处理后的输出特征图能够更准确,提升图像分类的精度,保证在目标检测时的准确性,方便在机器视觉领域中的应用。
图4示出本申请又一实施例提供的图像处理装置的结构示意图。如图4所示,该图像处理装置是一种多核注意力(Multiple Kernel Attention,MKA)模块,该图像处理装置可以包括:通道注意力模块410和空间注意力模块420。图4中的输入特征图401和输出特征图402均是多维特征图,例如,输入特征图401的维度是H*W*C的三维特征图,输出特征图402的维度也是H*W*C的三维特征图。
例如,将输入特征图401输入到通道注意力模块410中进行处理,通过多条通道(例如,R通道、G通道、B通道等)对输入特征图401分别进行处理,筛选获得通道注意力权重,该通道注意力权重是所有通道中最重要的通道的权重,抑制不重要的通道,将通道注意力权重与输入特征图401进行点积运算,获得通道注意力特征图;然后,将该通道注意力特征图输入至空间注意力模块420进行处理,例如,对通道注意力特征图中的空间域信息做对应的空间变换,得到空间注意力权重,再将该空间注意力权重和通道注意力特征图进行点积,获得输出特征图402。
通过通道注意力模块410和空间注意力模块420依次对输入特征图401进行处理,在通道和空间两个维度上增强输入特征图401所要表达的特征,突出输入特征图401中最具辨别力的视觉特征,使处理后的输出特征图能够更准确,提升图像分类的精度。
图5示出本申请实施例中的通过通道注意力模块对输入特征图进行处理的流程示意图。如图5所示,通过如下步骤对输入特征图401进行处理,获得通道注意力特征图540。
首先,通道注意力模块410对输入特征图401进行全局平均池化操作,获得待检测特征图510,该待检测特征图510的尺寸为1*1*C,其中,C代表特征通道的数量。通过对输入特征图401进行全局平均池化操作,可以降低计算量。
然后,采用第一卷积处理模块511、第二卷积处理模块512、……、第K卷积处理模块51K等模块对对待检测特征图510进行处理,其中,每个卷积处理模块中的卷积核的大小不同,K为大于或等于1的整数。例如,选择以下三种不同大小的卷积核:1*1、3*3和5*5对待检测特征图510进行处理(例如,将各个卷积核与待检测特征图510进行卷积运算),可以得到三幅通道注意力特征图。因不同大小的卷积核对应的用户的感受视野不同,用户对于不同尺度(例如,不同远近或不同大小)的目标会有不同的观看效果,因此,采用多种卷积核对待检测特征图510进行处理,可保证提取到的特征更加全面准确,在实际应用中,可以灵活调整各个卷积处理模块的卷积核的数量和大小。
再将获得的N幅通道注意力特征图输入至平均处理模块520进行处理,生成均衡后的通道特征图530,即最终的通道注意力特征图530,该均衡后的通道特征图530包括一维特征向量(例如,均衡后的通道特征图530的尺寸是1*1*C),通过该均衡后的通道特征图530可表征各个通道的信息的重要程度。最后,将输入特征图401与均衡后的通道特征图530进行点积运算,生成通道注意力特征图540。
在本实施例中,通过全局平均池化操作,将输入特征图转化为待检测特征图;采用n种不同大小的卷积核对该待检测特征图进行处理,扩大用户的观看感受视野,使提取到的特征更加全面准确,然后,在对获取到的N幅通道注意力特征图进行均衡操作,突出输入特征图中最具辨别力的视觉特征,使获得的通道注意力特征图能够更突出输入特征图的特点,保证用户能够快速捕捉到输入特征图的视觉特征。
图6示出本申请实施例中的通过空间注意力模块对通道注意力特征图进行处理的流程示意图。如图6所示,通过如下步骤对通道注意力特征图540进行处理,获得输出特征图402。
首先,将通道注意力特征图540输入至最大池化处理模块610中,对通道注意力特征图540进行最大池化操作,获得池化后的特征图;池化后的特征图的大小为H*W*1,其中,H代表池化后的特征图的高度,W代表池化后的特征图的宽度。通过对通道注意力特征图540进行最大池化操作,可降低后续计算量。
然后,将池化后的特征图输出至卷积处理模块620,通过卷积处理模块620的处理,可获得空间注意力权重,例如,可以对池化后的特征图进行1*1的卷积处理,使池化后的特征图的维度保持H*W*1不变,以体现特征图的空间特征,即空间注意力权重。再将该空间注意力权重与通道注意力特征图540进行点积运算,生成输出特征图402。
在本实施例中,通过对通道注意力特征图进行最大池化操作,并对池化后的特征图输出至卷积处理模块中进行处理,获得能够体现特征图的空间特征的空间注意力权重,再将该空间注意力权重与通道注意力特征图进行点积运算生成输出特征图,突出输入特征图中最具辨别力的视觉特征,使处理后的输出特征图能够更准确,提升图像分类的精度,保证在目标检测时的准确性。
图7示出本申请实施例中的基于通道注意力模块和空间注意力模块对人脸图像的处理方法的流程示意图。该图像处理方法可应用于图像处理装置,该图像处理装置可应用于人脸识别网络中。如图7所示,本申请实施例中的对人脸图像的处理方法可以包括以下步骤。
步骤S710,对输入的人脸图像的集合中的各个待检测图像进行检测对齐,获得人脸特征图的训练集合和测试集合。
例如,采用基于深度学习的人脸检测方法,对输入的人脸图像的集合中的各个待检测图像进行检测(例如,采用人脸检测(Retinaface)对各个待检测图中的人脸图像进行检测,或采用多任务卷积神经网络(Multi-Task Convolutional Neural Networks,MTCNN)对各个待检测图中的人脸图像进行检测),获得训练集合和测试集合。其中,训练集合包括人脸训练特征图,测试集合包括人脸测试特征图。
然后,对训练集合中的各个人脸训练特征图进行对齐处理,例如,采用固定的公式对人脸图像进行映射处理,使人脸图像中的双眼、鼻尖和嘴角中的五个点校准到同一个位置,排除头部角度和人脸大小对识别的影响,可更清晰的对人脸训练特征图进行特征的筛选,以快速区分出不同的人脸特征图。
步骤S720,对训练集合中的人脸特征图进行训练,获得人脸识别网络。
基于深度学习(Deep Learning,DL)的方法,对训练集合中的人脸特征图进行训练,获得人脸识别网络。DL是学习样本数据的内在规律,其最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
其中,人脸识别网络包括特征提取处理模块和分类器。特征提取处理模块包括注意力模块,该注意力模块可包括通道注意力处理模块和空间注意力处理模块,以提取输入的人脸特征图中对人脸识别有益的信息,以提高人脸识别的精度。分类器是基于人脸识别模型的分类器(例如,该分类器是基于人脸识别的损失函数确定的分类器),该分类器可提高人脸识别网络的分类能力,让同类型的图像之间的距离更近,让不同类型的图像之间的距离更远,以方便对图像的区别。
步骤S730,将测试集合中的第一人脸测试特征图和第二人脸测试特征图输入到人脸识别网络中进行测试。
其中,人脸识别网络可以包括图4所示的MKA模块。例如,将MKA模块加入至人脸识别网络的反残差模块中,以提升人脸识别网络对人脸特征的表达能力。将测试集合中的第一人脸测试特征图和第二人脸测试特征图输入到人脸识别网络中进行测试,可获得第一人脸测试特征图中最想表达的特征,以及第二人脸测试特征图中最想表达的特征,使第一人脸测试特征图和第二人脸测试特征图的区别特征更突出,方便后续进行图像比较,快速识别图像。
步骤S740,计算第一人脸测试特征图和第二人脸测试特征图的余弦相似度。
例如,采用如下公式计算余弦相似度:
Figure BDA0002792765150000081
其中,S表示余弦相似度,i表示输出特征图中的特征向量的序号,i={1,2,…,n},xi表示第一人脸测试特征图中的第i个特征向量,yi表示第二人脸测试特征图中的第i个特征向量,n表示特征的维度,n为大于或等于1的整数,例如,n=512。
采用余弦相似度来表征第一人脸测试特征图和第二人脸测试特征图的区别特征,可使特征区别点参数化,有利于判断区别特征的相似程度,尽快确定两幅图像是否相同。
步骤S750,判断余弦相似度是否大于或等于预设相似度阈值。
例如,设定预设相似度阈值为0.5,在确定余弦相似度大于或等于0.5的情况下,执行步骤S760;否则,执行步骤S770。
步骤S760,确定第一人脸测试特征图对应的第一人脸图像与第二人脸测试特征图对应的第二人脸图像是同一个人。
步骤S770,确定第一人脸测试特征图对应的第一人脸图像与第二人脸测试特征图对应的第二人脸图像不是同一个人。
在本实施例中,通过将对输入的人脸图像的集合中的各个待检测图像进行检测对齐,获得人脸特征图的训练集合和测试集合;然后,对训练集合中的人脸特征图进行训练,获得人脸识别网络,该人脸识别网络中包括MKA模块,在通道和空间两个维度上增强人脸特征图所要表达的特征,突出人脸特征图中最具辨别力的视觉特征;并将第一人脸测试特征图和第二人脸测试特征图输入至该人脸识别网络中进行测试,获得人脸识别网络;计算第一人脸测试特征图和第二人脸测试特征图的余弦相似度,通过判断余弦相似度是否大于或等于预设相似度阈值,来确定第一人脸测试特征图对应的第一人脸图像与第二人脸测试特征图对应的第二人脸图像是不是同一个人,使人脸识别网络的输出特征图能够更准确,提升图像分类的精度,保证对人脸的识别准确性。
需要明确的是,本申请并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁,这里省略了对已知方法的详细描述,并且上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图8示出能够实现根据本申请实施例的图像处理方法和装置的计算设备的示例性硬件架构的结构图。
如图8所示,计算设备800包括输入设备801、输入接口802、中央处理器803、存储器804、输出接口805、输出设备806和总线807。其中,输入接口802、中央处理器803、存储器804、以及输出接口805通过总线807相互连接,输入设备801和输出设备806分别通过输入接口802和输出接口805与总线807连接,进而与计算设备800的其他组件连接。
具体地,输入设备801接收来自外部的输入信息,并通过输入接口802将输入信息传送到中央处理器803;中央处理器803基于存储器804中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器804中,然后通过输出接口805将输出信息传送到输出设备806;输出设备806将输出信息输出到计算设备800的外部供用户使用。
在一个实施例中,图8所示的计算设备可以被实现为一种电子设备,该电子设备可以包括:存储器,被配置为存储程序;处理器,被配置为运行存储器中存储的程序,以执行上述实施例描述的图像处理方法。
在一个实施例中,图8所示的计算设备可以被实现为一种图像处理系统,该图像处理系统可以包括:存储器,被配置为存储程序;处理器,被配置为运行存储器中存储的程序,以执行上述实施例描述的图像处理方法。
以上所述,仅为本申请的示例性实施例而已,并非用于限定本申请的保护范围。一般来说,本申请的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如,一些方面可以被实现在硬件中,而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中,尽管本申请不限于此。
本申请的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现,例如在处理器实体中,或者通过硬件,或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。
本申请附图中的任何逻辑流程的框图可以表示程序步骤,或者可以表示相互连接的逻辑电路、模块和功能,或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现,例如但不限于只读存储器(ROM)、随机访问存储器(RAM)、光存储器装置和系统(数码多功能光碟DVD或CD光盘)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型,例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑器件(FGPA)以及基于多核处理器架构的处理器。
通过示范性和非限制性的示例,上文已提供了对本申请的示范实施例的详细描述。但结合附图和权利要求来考虑,对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的,但不偏离本申请的范围。因此,本申请的恰当范围将根据权利要求确定。

Claims (12)

1.一种图像处理方法,其特征在于,包括:
对待检测图像进行预处理获得输入特征图;
对所述输入特征图进行多通道的处理,获得通道注意力特征图;
对所述通道注意力特征图中的空间域信息进行处理,获得空间注意力权重;
依据所述空间注意力权重和所述通道注意力特征图,确定输出特征图。
2.根据权利要求1所述的方法,其特征在于,所述对所述输入特征图进行多通道的处理,获得通道注意力特征图,包括:
对所述输入特征图进行全局平均池化处理,获得待检测特征图;
依据N个通道卷积核和所述待检测特征图,确定所述通道注意力特征图,其中,所述N个通道卷积核的尺度不同,N为大于或等于1的整数。
3.根据权利要求2所述的方法,其特征在于,所述依据N个通道卷积核和所述待检测特征图,确定所述通道注意力特征图,包括:
采用所述N个通道卷积核分别与所述待检测特征图进行运算,获得N个通道特征图;
对所述N个通道特征图做图像均衡处理,确定均衡后的通道特征图,所述均衡后的通道特征图包括一维特征向量;
依据所述均衡后的通道特征图和所述输入特征图,确定所述通道注意力特征图。
4.根据权利要求3所述的方法,其特征在于,所述依据所述均衡后的通道特征图和所述输入特征图,确定所述通道注意力特征图,包括:
将所述均衡后的通道特征图和所述待检测特征图进行点积运算,获得所述通道注意力特征图。
5.根据权利要求1所述的方法,其特征在于,所述对所述通道注意力特征图中的空间域信息进行处理,获得空间注意力权重,包括:
以通道为单位,对所述通道注意力特征图中的空间域信息进行最大池化处理,获得池化后的特征图,所述池化后的特征图包括二维特征向量;
对各条通道对应的所述池化后的特征图进行卷积处理,确定所述空间注意力权重。
6.根据权利要求1所述的方法,其特征在于,所述依据所述空间注意力权重和所述通道注意力特征图,确定输出特征图,包括:
将所述空间注意力权重和所述通道注意力特征图进行点积运算,获得所述输出特征图。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述待检测图像包括人脸图像;所述对待检测图像进行预处理获得输入特征图,包括:
对输入的人脸图像的集合中的各个所述待检测图像进行检测对齐,获得人脸特征图集合,其中,所述人脸图像的集合包括第一待检测图像和第二待检测图像,所述人脸特征图集合包括第一人脸特征图和第二人脸特征图。
8.根据权利要求7所述的方法,其特征在于,所述依据所述空间注意力权重和所述通道注意力特征图,确定输出特征图之后,所述方法还包括:
计算所述第一人脸特征图对应的第一输出特征图与所述第二人脸特征图对应的第二输出特征图的匹配相似度;
依据所述匹配相似度和预设相似度阈值,确定所述第一待检测图像和所述第二待检测图像是否相同。
9.根据权利要求8所述的方法,其特征在于,所述计算所述第一人脸特征图对应的第一输出特征图与所述第二人脸特征图对应的第二输出特征图的匹配相似度,包括:
依据所述第一输出特征图中的n个特征向量和所述第二输出特征图中的n个特征向量,计算所述第一输出特征图与所述第二输出特征图的余弦相似度,其中,n为大于或等于1的整数。
10.一种图像处理装置,其特征在于,包括:
预处理模块,用于对待检测图像进行预处理获得输入特征图;
通道注意力处理模块,用于对所述输入特征图进行多通道的处理,获得通道注意力特征图;
空间权重确定模块,用于对所述通道注意力特征图中的空间域信息进行处理,获得空间注意力权重;
空间注意力处理模块,用于依据所述空间注意力权重和所述通道注意力特征图,确定输出特征图。
11.一种电子设备,包括:
一个或多个处理器;
存储器,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一项所述的图像处理方法。
12.一种可读存储介质,其特征在于,所述可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述的图像处理方法。
CN202011320552.2A 2020-11-23 2020-11-23 图像处理方法、装置、电子设备和可读存储介质 Pending CN114529963A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011320552.2A CN114529963A (zh) 2020-11-23 2020-11-23 图像处理方法、装置、电子设备和可读存储介质
US18/038,431 US20240013573A1 (en) 2020-11-23 2021-11-10 Image processing method, image processing apparatus, electronic device, and computer-readable storage medium
PCT/CN2021/129833 WO2022105655A1 (zh) 2020-11-23 2021-11-10 图像处理方法、图像处理装置、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011320552.2A CN114529963A (zh) 2020-11-23 2020-11-23 图像处理方法、装置、电子设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN114529963A true CN114529963A (zh) 2022-05-24

Family

ID=81619346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011320552.2A Pending CN114529963A (zh) 2020-11-23 2020-11-23 图像处理方法、装置、电子设备和可读存储介质

Country Status (3)

Country Link
US (1) US20240013573A1 (zh)
CN (1) CN114529963A (zh)
WO (1) WO2022105655A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116580396A (zh) * 2023-07-12 2023-08-11 北京大学 细胞水平识别方法、装置、设备及存储介质
WO2024022060A1 (zh) * 2022-07-28 2024-02-01 杭州堃博生物科技有限公司 一种图像配准方法、装置及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114972280B (zh) * 2022-06-07 2023-11-17 重庆大学 精细坐标注意力模块及其在表面缺陷检测中的应用
CN116363175B (zh) * 2022-12-21 2024-09-17 北京化工大学 基于注意力机制的极化sar图像配准方法
CN117079061A (zh) * 2023-10-17 2023-11-17 四川迪晟新达类脑智能技术有限公司 基于注意力机制和Yolov5的目标检测方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364023A (zh) * 2018-02-11 2018-08-03 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和系统
US20220309653A1 (en) * 2019-04-30 2022-09-29 The Trustees Of Dartmouth College System and method for attention-based classification of high-resolution microscopy images
CN110516583A (zh) * 2019-08-21 2019-11-29 中科视语(北京)科技有限公司 一种车辆重识别方法、系统、设备及介质
CN111178183B (zh) * 2019-12-16 2023-05-23 深圳市华尊科技股份有限公司 人脸检测方法及相关装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024022060A1 (zh) * 2022-07-28 2024-02-01 杭州堃博生物科技有限公司 一种图像配准方法、装置及存储介质
CN116580396A (zh) * 2023-07-12 2023-08-11 北京大学 细胞水平识别方法、装置、设备及存储介质
CN116580396B (zh) * 2023-07-12 2023-09-22 北京大学 细胞水平识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20240013573A1 (en) 2024-01-11
WO2022105655A1 (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN114529963A (zh) 图像处理方法、装置、电子设备和可读存储介质
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN110020592B (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
CN112215201B (zh) 评估人脸识别模型、针对图像的分类模型的方法及装置
WO2020046960A1 (en) System and method for optimizing damage detection results
US9195904B1 (en) Method for detecting objects in stereo images
US11380010B2 (en) Image processing device, image processing method, and image processing program
JP2000003452A (ja) デジタル画像における顔面の検出方法、顔面検出装置、画像判定方法、画像判定装置およびコンピュ―タ可読な記録媒体
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
Hernández-Vela et al. BoVDW: Bag-of-Visual-and-Depth-Words for gesture recognition
CN109902576B (zh) 一种头肩图像分类器的训练方法及应用
CN114005169B (zh) 人脸关键点检测方法、装置、电子设备及存储介质
US11138464B2 (en) Image processing device, image processing method, and image processing program
CN110633711B (zh) 训练特征点检测器的计算机装置、方法及特征点检测方法
Rejeb Sfar et al. Vantage feature frames for fine-grained categorization
US11164327B2 (en) Estimation of human orientation in images using depth information from a depth camera
CN112541394A (zh) 黑眼圈及鼻炎识别方法、系统及计算机介质
CN113095187A (zh) 一种基于图像特征匹配对齐的试卷批改方法
Jubair et al. Scale invariant feature transform based method for objects matching
CN108992033B (zh) 一种视觉测试的评分装置、设备和存储介质
CN109726621B (zh) 行人检测方法、装置及设备
CN109074643B (zh) 图像中的基于方位的对象匹配
CN110751163B (zh) 目标定位方法及其装置、计算机可读存储介质和电子设备
CN110909819A (zh) 基于时域的电磁信息泄漏检测方法、终端设备及存储介质
CN110717406B (zh) 一种人脸检测的方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination