CN106934397B - 图像处理方法、装置及电子设备 - Google Patents

图像处理方法、装置及电子设备 Download PDF

Info

Publication number
CN106934397B
CN106934397B CN201710145253.1A CN201710145253A CN106934397B CN 106934397 B CN106934397 B CN 106934397B CN 201710145253 A CN201710145253 A CN 201710145253A CN 106934397 B CN106934397 B CN 106934397B
Authority
CN
China
Prior art keywords
map
image
attention
processing
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710145253.1A
Other languages
English (en)
Other versions
CN106934397A (zh
Inventor
王飞
钱晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201710145253.1A priority Critical patent/CN106934397B/zh
Publication of CN106934397A publication Critical patent/CN106934397A/zh
Priority to PCT/CN2018/078810 priority patent/WO2018166438A1/zh
Priority to US16/451,334 priority patent/US10943145B2/en
Application granted granted Critical
Publication of CN106934397B publication Critical patent/CN106934397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了图像处理方法和装置。上述方法的一具体实施方式包括:提取待处理的图像的特征,获得上述图像的第一特征图;基于上述第一特征图,生成上述图像的注意力图;融合上述注意力图和上述第一特征图,获得融合图;基于上述融合图,再次提取上述图像的特征。该实施方式实现了将注意力机制引入到图像处理中,有效地提高了从图像中获取信息的效率。

Description

图像处理方法、装置及电子设备
技术领域
本申请涉及计算机视觉技术领域,具体涉及一种图像处理方法、装置及电子设备。
背景技术
计算机视觉是使用计算机及相关设备对生物视觉的一种模拟,在此领域,视觉注意力机制一直为人们所关注。人类可以通过视觉注意力机制快速扫描视野范围内的整体区域,并将与目标物体无关的区域滤除,而仅仅关注目标物体所在的区域。因此,注意力机制极大的提高了人类对于目标物体的信息获取效率。
发明内容
本申请提出了一种图像处理的技术方案。
第一方面,本申请提供了一种图像处理方法,包括:提取待处理的图像的特征,获得上述图像的第一特征图;基于上述第一特征图,生成上述图像的注意力图;融合上述注意力图和上述第一特征图,获得融合图;基于上述融合图,再次提取上述图像的特征。
在一些实施例中,上述基于上述第一特征图,生成上述图像的注意力图,包括:对上述第一特征图依次进行N次下采样处理,其中,N为大于或等于1的整数;对第N次下采样处理后的特征图依次进行N次上采样处理,获得上述图像的注意力图,其中,上述注意力图的分辨率与上述第一特征图相同。
在一些实施例中,上述对第N次下采样处理后的特征图依次进行N次上采样处理,包括:对第N-n次下采样处理后的特征图和第n次上采样处理后的特征图进行卷积操作;对卷积操作后的特征图进行第n+1次上采样处理,n为大于1且小于N的整数。
在一些实施例中,上述对第N-n次下采样处理后的特征图和第n次上采样处理后的特征图进行卷积操作,包括:对上述第N-n次下采样处理后的特征图进行卷积处理,得到卷积图;将上述卷积图中各像素的特征值与第n次上采样处理后的特征图中相应像素的特征值相加;对相加后的特征图进行卷积操作。
在一些实施例中,上述对第N次下采样处理后的特征图依次进行N次上采样处理,还包括:对第N次下采样处理后的特征图进行至少一次卷积操作;对最后一次卷积操作后的特征图进行第1次上采样处理。
在一些实施例中,上述融合上述注意力图和上述第一特征图,获得融合图,包括:对上述第一特征图进行至少一次卷积操作;融合上述注意力图和最后一次卷积操作后的第一特征图,获得上述融合图。
在一些实施例中,上述融合上述注意力图和上述第一特征图,获得融合图,包括:至少对上述注意力图进行归一化处理;融合归一化处理后的注意力图和上述第一特征图,获得上述融合图。
在一些实施例中,上述至少对上述注意力图进行归一化处理,包括:对上述注意力图依次进行至少一次卷积处理;对最后一次卷积处理后的注意力图进行归一化处理。
在一些实施例中,上述融合上述注意力图和上述第一特征图,获得融合图,包括:将归一化处理后的注意力图中各像素的权重值与上述第一特征图中相应像素的特征值相乘,获得上述融合图。
在一些实施例中,上述融合上述注意力图和上述第一特征图,获得融合图,包括:将归一化处理后的注意力图中各像素的权重值与上述第一特征图中相应像素的特征值相乘,获得相乘图;将上述相乘图中各像素的特征值与上述第一特征图中相应像素的特征值相加,获得上述融合图。
在一些实施例中,在上述基于上述融合图,再次提取上述图像的特征之后,上述方法还包括以下至少之一:根据再次提取的上述图像的特征,检测或识别上述图像中包括的物体;根据再次提取的上述图像的特征,确定上述图像中包括的物体的类别;根据再次提取的上述图像的特征,对上述图像进行分割。
第二方面,本申请提供了一种图像处理装置,上述装置包括:第一特征提取单元,用于提取待处理的图像的特征,获得上述图像的第一特征图;注意力提取单元,用于基于上述第一特征图,生成上述图像的注意力图;融合单元,用于融合上述注意力图和上述第一特征图,获得融合图;第二特征提取单元,用于基于上述融合图,再次提取上述图像的特征。
在一些实施例中,上述注意力提取单元包括:下采样模块,用于对上述第一特征图依次进行N次下采样处理,其中,N为大于或等于1的整数;上采样模块,用于对第N次下采样处理后的特征图依次进行N次上采样处理,获得上述图像的注意力图,其中,上述注意力图的分辨率与上述第一特征图相同。
在一些实施例中,上述下采样模块进一步用于:对第N-n次下采样处理后的特征图和第n次上采样处理后的特征图进行卷积操作;对卷积操作后的特征图进行第n+1次上采样处理,n为大于1且小于N的整数。
在一些实施例中,上述下采样模块进一步用于:对上述第N-n次下采样处理后的特征图进行卷积处理,得到卷积图;将上述卷积图中各像素的特征值与第n次上采样处理后的特征图中相应像素的特征值相加;对相加后的特征图进行卷积操作。
在一些实施例中,上述上采样模块进一步用于:对第N次下采样处理后的特征图进行至少一次卷积操作;对最后一次卷积操作后的特征图进行第1次上采样处理。
在一些实施例中,上述装置还包括:第二卷积单元,用于对上述第一特征图进行至少一次卷积操作;以及上述融合单元,用于融合上述注意力图和最后一次卷积操作后的第一特征图,获得上述融合图。
在一些实施例中,上述装置还包括:归一化单元,用于至少对上述注意力图进行归一化处理;以及上述融合单元,用于融合归一化处理后的注意力图和上述第一特征图,获得上述融合图。
在一些实施例中,上述装置还包括:第二卷积单元,用于对上述注意力图依次进行至少一次卷积处理;以及上述归一化单元,用于对最后一次卷积处理后的注意力图进行归一化处理。
在一些实施例中,上述融合单元进一步用于:将归一化处理后的注意力图中各像素的权重值与上述第一特征图中相应像素的特征值相乘,获得上述融合图。
在一些实施例中,上述融合单元进一步用于:将归一化处理后的注意力图中各像素的权重值与上述第一特征图中相应像素的特征值相乘,获得相乘图;将上述相乘图中各像素的特征值与上述第一特征图中相应像素的特征值相加,获得上述融合图。
在一些实施例中,上述装置还包括以下至少之一:检测单元,用于根据再次提取的上述图像的特征,检测或识别上述图像中包括的物体;分类单元,用于根据再次提取的上述图像的特征,确定上述图像中包括的物体的类别;分割单元,用于根据再次提取的上述图像的特征,对上述图像进行分割。
第三方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时完成以下操作:提取待处理的图像的特征,获得上述图像的第一特征图;基于上述第一特征图,生成上述图像的注意力图;融合上述注意力图和上述第一特征图,获得融合图;基于上述融合图,再次提取上述图像的特征。
第四方面,本申请还提供了一种电子设备,其特征在于,包括:存储器,存储可执行指令;一个或多个处理器,与存储器通信以执行可执行指令从而完成以下操作:提取待处理的图像的特征,获得上述图像的第一特征图;基于上述第一特征图,生成上述图像的注意力图;融合上述注意力图和上述第一特征图,获得融合图;基于上述融合图,再次提取上述图像的特征。
本申请提供的图像处理方法、装置和电子设备,首先提取待处理的图像的特征,得到上述图像的第一特征图,基于上述第一特征图,生成上述图像的注意力图,再将注意力图和第一特征图融合,最后再基于得到的融合图再次提取上述图像的特征,从而实现了将注意力机制引入到图像处理中,有效地提高了从图像中获取信息的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请的用于检测目标物体的方法的一个实施例的流程图;
图2是根据本申请的用于检测目标物体的方法的生成注意力图的流程示意图;
图3a是图2所示的流程对应的一种网络结构的示意图;
图3b是图2所示的流程对应的另一种网络结构的示意图;
图4是根据本申请的用于检测目标物体的方法的融合注意力图和第一特征图的流程示意图;
图5a是图4所示的流程对应的神经网络的结构示意图;
图5b是图5a所示的神经网络的处理过程示意图;
图6是图5a所示的神经网络构成的深度卷积神经网络的结构示意图;
图7是根据本申请的图像处理装置的一个实施例的结构示意图;
图8是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
参考图1,示出了根据本申请的图像处理方法的一个实施例的流程100。本实施例的图像处理方法,包括以下步骤:
步骤101,提取待处理的图像的特征,获得上述图像的第一特征图。
在本实施例中,待处理的图像可以是包含各种物体、建筑、人物、景色的图像,其可以是静态图像,也可以是视频中的一帧图像。在提取上述待处理的图像的特征时,可以利用神经网络中的一个或多个卷积层来实现。在提取了上述图像的特征后,得到上述图像的第一特征图。
步骤102,基于第一特征图,生成上述图像的注意力图。
在获得上述待处理的图像的第一特征图后,可以对上述特征图进行一系列的处理,得到上述图像的注意力图。上述一系列的处理例如可以是:对第一特征图进行多次下采样处理、对第一特征图交替进行下采样和上采样处理、对第一特征图进行多次下采样处理后再进行多次上采样处理、对第一特征图进行卷积或平均池化等等。基于特征图生成注意力图的方式可采用本申请实施例下文提供的任一种方法,也可采用基于注意力机制生成注意力图的其他现有方法,本申请实施例并不限制。基于计算机视觉技术的注意力机制生成的注意力图可以包含上述待处理的图像的全局信息,并且对上述全局信息中还包括注意力关注的特征的权重信息,可以模拟人的视觉系统,重点关注图像当中权重大的特征信息,而不丧失图像的全局信息。
步骤103,融合注意力图和第一特征图,获得融合图。
在得到注意力图和第一特征图后,可以将二者进行融合,以获得上述待处理的图像中包含的所有物体、人物、景色的有效信息,也就是说,利用上述融合图,能够更有效地表达待处理的图像中的物体、人物、景色等信息。
步骤104,基于上述融合图,再次提取上述图像的特征。
本实施例中,在得到上述融合图后,可以再次提取上述图像的特征,得到的特征可以进行进一步的应用。在再次提取上述图像的特征时,可以利用多个级联的卷积层或残差单元来实现。
在具体实践中,本实施例的图像处理方法,可以由神经网络来实现。可以理解的是,为了实现更好的提取上述待处理的图像的特征,可以多次重复上述神经网络,以形成更深的神经网络。这样,能够得到待处理的图像的更全面的全局信息,从而能够提高对待处理的图像的特征表达能力。
可以理解的是,上述神经网络在使用前可以利用带有标注信息的图片来训练上述神经网络,并根据训练结果反向传播以修改神经网络的参数,完成上述神经网络的训练。
本申请的上述实施例提供的图像处理方法,首先提取待处理的图像的特征,得到上述图像的第一特征图,基于上述第一特征图,生成上述图像的注意力图,再将注意力图和第一特征图融合,最后再基于得到的融合图再次提取上述图像的特征,从而实现了将注意力机制引入到图像处理中,有效地提高了从图像中获取信息的效率。
参考图2,其示出了根据本申请的图像处理方法的生成注意力图的流程200。如图2所示,本实施例中通过以下步骤生成待处理的图像的注意力图。
步骤201,对第一特征图依次进行N次下采样处理。
本实施例中,N为整数,且N≥1。在对步骤101中得到的第一特征图进行下采样处理,可以获得第一特征图的全局信息。但下采样的次数越多,得到的全局信息图的维度与第一特征图的维度相差就越大。本实施例中,上述下采样操作可以通过以下但不限于以下方式来实现:不同步长的池化层、不同步长的卷积层、平均池化层。
例如,利用步长为2的池化层对第一特征图进行下采样时,假设第一特征图的分辨率为224×224,经过3次下采样后,得到的特征图的分辨率为28×28。由于经过N次下采样后得到的特征图与第一特征图的分辨率不同,虽然经过N次下采样后得到的特征图中包含了第一特征图的全局信息,但其无法指导分辨率为224×224的特征进行学习。
步骤202,对第N次下采样处理后的特征图依次进行N次上采样处理。
本实施例中,在得到N次下采样处理后的特征图后,可以对上述特征图进行N次上采样处理。这样经N次上采样处理后的特征图的分辨率与第一特征图的分辨率相同。本实施例中,上述上采样操作可以通过以下但不限于以下方式来实现:解卷积层、最邻近插值层、线性插值层。
例如,经过3次下采样后,得到的特征图的分辨率为28×28,此特征图再经过3次上采样处理后,得到的注意力图的分辨率与第一特征图的分辨率相同。
在本实施例的一些可选的实现方式中,在每次下采样及每次上采样处理后,还可以对经下采样处理得到的特征图以及对经上采样处理得到的特征图进行卷积操作。在对经上采样处理得到的特征图进行卷积操作后,再进行下一次的上采样处理。即对第N-n次下采样处理后的特征图和第n次上采样处理后的特征图进行卷积操作;对卷积操作后的特征图进行第n+1次上采样处理。其中,n为正整数,且1<n<N。
可以理解的是,本实现方式中,在对经第N-1次上采样处理得到的特征图进行卷积操作后,进行第N次上采样处理,并且,不需要对经第N次上采样处理得到的注意力图进行卷积操作。本实现方式中的卷积操作,可以利用卷积层来实现,也可以利用残差单元来实现,本实现方式对此不做限定。上述残差单元可以是包括两个以上卷积层的网络结构。
本实现方式的图像处理方法,不仅注意力图的分辨率与第一特征图的分辨率相同,得到的注意力图可以用于指导后续对第一特征图中的特征进行学习;同时,通过在每次下采样处理和上采样处理后,对得到的特征图进行卷积操作,能够更好的学习得到的不同维度下特征图中的特征。
在本实施例的一些可选的实现方式中,在对第N-n次下采样处理后的特征图和第n次上采样处理后的特征图进行卷积操作时,还可以通过以下步骤来实现:
对第N-n次下采样处理后的特征图进行卷积处理,得到卷积图;将卷积图中各像素的特征值与第n次上采样处理后的特征图中相应像素的特征值相加;对相加后的特征图进行卷积操作。
本实现方式中,n为正整数,且1<n<N。N可以为一个预设值,也可以是根据第一特征图的分辨率计算得到的值,并且可通过如下计算方法来确定N的值:设置下采样处理后得到的特征图的最小分辨率,根据第一特征图的分辨率以及上述最小分辨率来确定能够进行的下采样的次数,即确定N的值。例如第一特征图的分辨率为56×56,设置的最小分辨率为7×7,每次下采样操作后,得到的特征图的分辨率降为下采样之前的特征图的四分之一,则N最大为3。
由于本实现方式可以对第一特征图进行N次下采样处理,然后再进行N次上采样处理,则在下采样处理的过程中以及上采用处理的过程中会得到分辨率相同的特征图。为了获得待处理的图像的更深层次的信息,可以对第N-n次下采样处理后的特征图进行卷积处理,得到卷积图。然后将卷积图中各像素的特征值与第n次上采样处理后的特征图中相应像素的特征值相加,然后对相加后的特征图进行卷积操作。
本实现方式的图像处理方法,将在下采样处理的过程中以及上采用处理的过程中得到的分辨率相同的特征图相加,能够获得待处理的图像的更深层次的信息。
在本实施例的一些可选的实现方式中,在对第N次下采样处理后的特征图依次进行N次上采样处理时,还可以通过以下步骤来实现:
对第N次下采样处理后的特征图进行至少一次卷积操作,并对最后一次卷积操作后的特征图进行第1次上采样处理。
本实现方式中,在最后一次下采样处理后,对得到的特征图进行卷积操作,得到全局信息图。然后对上述全局信息图再次进行卷积操作,然后对再次进行卷积操作后的特征图进行第一次上采样处理。这样,下采样处理过程与上采样处理过程为对称的两个处理过程,最后得到的注意力图更能够反映待处理的图像中包含的特征信息。
在实践中,本实现方式的图像处理方法可以采用图3a所示的网络结构来实现。如图3a所示,本实现方式的网络结构包括输入层301、级联的多个卷积层302、多个下采样单元303、多个上采样单元304、多个残差单元305以及输出层306。可以理解的是,本实现方式中的卷积操作由残差单元来实现。
其中,输入层301用于输入待处理的图像。级联的多个卷积层302用于提取待处理的图像的特征,得到第一特征图。可以理解的是,上述级联的多个卷积层302也可以由残差单元来实现。
每个下采样单元303包括一个下采样层3031和一个残差单元3032,下采样层3031用于对级联的多个卷积层302得到的第一特征图进行下采样处理,每经过一次下采样处理得到的特征图的分辨率就相当于第一特征图分辨率的四分之一。每个残差单元3032用于在每次下采样处理后对下采样处理后的特征图进行卷积操作,以提取下采样处理后的特征图的特征。举例来说,第一特征图的分辨率为56×56,经过上述下采样层3031的一次下采样处理后,得到的图像的分辨率为28×28,残差单元3032提取上述28×28的图像的特征。假如上述网络结构中包括3个下采样单元303,则经过第3个下采样单元处理后的得到的特征图的分辨率为7×7,且第3个下采样单元的残差单元提取了上述7×7的图像的特征,得到了第一特征图的全局信息图。可以理解的是,上述网络结构中的下采样单元303的数目可以是任意的,本实现方式并不对此进行限定。同时,可以理解的是,且每个下采样单元中的残差单元的结构可以相同,即包括相同数量的卷积层,但各个卷积层的参数不同。
在得到第一特征图的全局信息图后,利用上采样单元304对上述全局信息图继续处理。上述上采样单元304可以包括一个残差单元3041和上采样层3042,残差单元3041与残差单元3032的结构可以相同,但参数不同。
残差单元3041用于提取上述残差单元3032得到的全局信息图的特征,在提取了上述特征后,经上采样层3042的上采样处理,得到的特征图的分辨率为全局信息图分辨率的四倍。经过与下采样次数相同的上采样处理后,最后得到的注意力图的分辨率与第一特征图的分辨率相同。
可以理解的是,图3a中,下采样单元303中的下采样层可以通过最大池化层来实现,上采样单元304中的上采样层可以通过双线性插值层来实现。同时,每个下采样单元303和上采样单元304中还可以包括多个残差单元。具体可参考图3b,如图3b所示,下采样单元303’包括一个最大池化层和r个级联的残差单元,上采样单元304’包括r个级联的残差单元和一个内插层,且最后一个最大池化层和第一个双线性插值层之间包括2r个级联的残差单元。并且上采样过程中与下采样过程中得到的相同分辨率的特征图之间通过一个残差单元卷积后可以相加,因此,在最后一个最大池化层之前和第一个双线性插值层之后连接有一个残差单元305’。
由于在下采样和上采样的过程中,会得到分辨率相同的特征图,例如下采样过程中会得到分辨率为28×28、14×14和7×7的特征图,同样的,在上采样的过程中会得到分辨率为14×14、28×28和56×56的特征图。在下采样过程中得到的分辨率为14×14特征图,可以经一个残差单元305处理后与上采样过程中得到的分辨率为14×14特征图中对应像素的特征值相加,用于后续的上采样;在下采样过程得到的分辨率为28×28特征图,可以经一个残差单元304处理后与上采样过程中得到的分辨率为28×28特征图中对应像素的特征值相加,用于后续的上采样。这样的处理,可以捕捉待处理的图像中包含的物体的多尺度特征,同时可以增强注意力所关注的各物体的特征的强度,抑制注意力不关注的其它物体的特征的强度。
参考图4,其示出了根据本申请的图像处理方法中融合注意力图和第一特征图所采用的流程400。如图4所示,本实施例的融合操作具体可以通过以下步骤来实现:
步骤401,至少对注意力图进行归一化处理。
本实施例中,对注意力图进行归一化处理,可以将注意力图中各像素的权重值限定在[0,1]之间。上述归一化操作,具体可以通过sigmoid函数来实现,sigmoid函数是神经网络的阈值函数,其可以将变量映射到[0,1]之间。
步骤402,融合归一化处理后的注意力图和第一特征图,获得融合图。
在对注意力图进行归一化处理后,然后将归一化处理后的注意力图和第一特征图融合,得到融合图。
本实施例中,对注意力进行归一化操作一方面可以方便后续的数据处理,一方面可以促进后续的数据处理得到更准确的结果。
在本实施例的一些可选的实现方式中,在步骤401中对注意力图进行归一化处理前,可以先对注意力图进行至少一次卷积处理,然后对最后一次卷积处理后的注意力图再进行归一化处理。
在实践中,上述卷积操作可以通过卷积层来实现,具体的,可以设置该卷积层的卷积核为1×1,这样可以增强对注意力图中所包含的特征的表达能力。
在本实施例的一些可选的实现方式中,在步骤402中融合注意力图和第一特征图时,可以将归一化处理后的注意力图中各像素的权重值与第一特征图中相应像素的特征值相乘,得到融合图。
本实现方式中,由于注意力图与第一特征图的分辨率相同,因此注意力图中的各像素可以与第一特征图中的各像素一一对应。并且,步骤401中已对注意力图中各像素的权重值进行归一化处理,可以将归一化处理后的权重值与第一特征图中对应像素的特征值利用相乘的方法进行融合,将得到的相乘图作为融合图。
在本实施例的一些可选的实现方式中,在步骤402中得到上述相乘图后,还可以将得到的相乘图中各像素的特征值与第一特征图中相应像素的特征值相加,将相加后得到的特征图作为融合图。
由于得到的相乘图中包含了待处理的图像中的特征信息,这些特征信息可称为有用信息。并且,不论是对注意力图的处理,还是对特征图的处理,都会降低待处理的图像中的特征信息的信号强度,即降低了第一特征图中各像素的特征值。信号强度的衰减不利于神经网络对特征的学习,而对于上述有用信息的衰减则会直接影响神经网络的特征学习能力。
本实现方式中,将相乘图中各像素的特征值与第一特征图中相应像素的特征值相加,一方面可以增加上述有用信息在整个融合图各像素的特征值的比例,相当于抑制了有用信息之外的其他信息,另一方面还可以防止信号强度的衰减。
在图3所示的网络结构的基础上,结合图1所示实施例所描述的方案,可以得到本实施例的神经网络结构如图5a所示。图5a中,神经网络500包括第一特征提取单元501、第一卷积单元502、注意力提取单元503、第二卷积单元504、归一化单元505、融合单元506以及第二特征提取单元507。其中,第一特征提取单元501、第一卷积单元502以及第二特征提取单元507都由多个残差单元形成,第一特征提取单元501包括p个级联的残差单元,第一卷积单元502包括t个级联的残差单元,第二特征提取单元507包括p个级联的残差单元。
第一特征提取单元501的作用相当于图3中级联的多个卷积层302,用于提取待处理的图像的特征,得到第一特征图。第一卷积单元502可以进一步提取第一特征图的特征。注意力提取单元503的作用相当于图3中多个下采样单元303、多个上采样单元304以及多个残差单元305,得到注意力图。第二卷积单元504用于在对注意力图进行归一化处理前对注意力图进行至少一次卷积操作。归一化单元505用于对注意力图进行归一化处理。融合单元506用于融合归一化处理后的注意力图和第一特征图,得到融合图。第二特征提取单元507用于再次提取融合图的特征。
图5a所示的神经网络的处理过程具体可参考图5b,如图5b所示,以x表示输入的特征,即第一特征图。利用图5a所示的注意力提取单元503的感受野以及第一卷积单元502的感受野分别模拟人类视觉的注意力。图5b中的左侧分支相当于注意力提取单元503,右侧分支相当于第一卷积单元502。
图5b中的左侧分支包括两次下采样与两次上采样,经第一次下采样后,得到的特征图的分辨率为第一特征图x分辨率的四分之一;经第二次下采样后,得到的特征图的分辨率为第一特征图x分辨率的十六分之一;然后经第一次上采样处理,得到的特征图与第一次下采样处理后得到的特征图的分辨率相同;经第二次上采样处理,得到的特征图与第一特征图的分辨率相同。同时,经过上述两次下采样处理和两次上采样处理,即在遍历整个特征图后,确定了图像中注意力关注的特征的权重M(x)。
图5b中的右侧分支包括对第一特征图x的卷积操作,得到特征T(x)。
最后,将得到的权重M(x)与特征T(x)进行融合,得到融合图,上述融合图中包括融合后的特征(1+M(x))·T(x)。
可以理解的是,为了构造更深层次的神经网络,本实施例中,还可以将上述神经网络500作为子神经网络,多次重复执行,并可以将不同参数的子神经网络堆叠,得到如图6所示的深度卷积神经网络600。深度卷积神经网络600可以包括多个子神经网络,图6中示意性的示出了三个子神经网络,分别为子神经网络601、子神经网络602以及子神经网络603。每个子神经网络的参数可以相同,也可以不同。此处所指的子神经网络的参数可以包括:注意力提取单元中的下采样和上采样的次数、第一卷积单元中残差单元的个数等等。并且,每个子神经网络可以重复多次,例如当子神经网络601、子神经网络602以及子神经网络603各不相同时,深度卷积神经网络600可以包括m个子神经网络601、k个子神经网络602以及j个子神经网络603,其中,m、k、j均为正整数。
基于本实施例提出的图像处理方法构建的神经网络,在神经网络训练过程可有效减小神经网络训练过所需调整的参数量,提高了对特征的学习效率;同时基于训练完成后的神经网络进行图像处理的过程中,无需进行调整参数的操作;通过相同次数的下采样和上采样操作,实现了全局信息的反向传递,从而促进了注意力关注的有用信息的传递。
在本实施例的一些可选的实现方式中,待处理的图像中可以包含多个物体,且上述多个物体可以为同一种类的物体,也可以为不同种类的物体。上述物体可以是各种类别的物体,例如可以包括飞机、自行车、汽车等各种交通工具,还可以包括鸟类、狗、狮子等各种动物。
在基于融合图,再次提取了上述待处理的图像的特征后,可以利用再次提取的特征,检测或识别上述图像中包括的物体。
进一步的,还可以利用再次提取的特征,确定上述图像中包括的物体的类别。
进一步的,还可以利用再次提取的特征,对上述图像进行分割,将包含物体的部分分割出来。
本实现方式的图像处理方法,在再次提取了待处理的图像的特征之后,可以利用再次提取的特征实现不同的应用,可满足不同任务的图像处理需求。例如,可以对图像中包含的物体进行检测或识别,可应用到无人驾驶或导盲装置中;可以对图像中包含的物体进行分类,可以应用到军事领域的侦测装置中;可以对图像进行分割,可以应用到进一步的对物体的分析中。
作为对上述各图所示方法的实现,本申请提供了一种图像处理装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例的图像处理装置700包括:第一特征提取单元701、注意力提取单元702、融合单元703以及第二特征提取单元704。
其中,第一特征提取单元701,用于提取待处理的图像的特征,获得上述图像的第一特征图。
注意力提取单元702,用于基于上述第一特征图,生成上述图像的注意力图。
融合单元703,用于融合上述注意力图和上述第一特征图,获得融合图。
第二特征提取单元704,用于基于上述融合图,再次提取上述图像的特征。
在本实施例的一些可选的实现方式中,上述注意力提取单元702可以进一步包括图7中未示出的下采样模块和上采样模块。
下采样模块,用于对上述第一特征图依次进行N次下采样处理,其中,N为大于或等于1的整数;
上采样模块,用于对第N次下采样处理后的特征图依次进行N次上采样处理,获得上述图像的注意力图,其中,上述注意力图的分辨率与上述第一特征图相同。
在本实施例的一些可选的实现方式中,上述下采样模块可以进一步用于:对第N-n次下采样处理后的特征图和第n次上采样处理后的特征图进行卷积操作;对卷积操作后的特征图进行第n+1次上采样处理,n为大于1且小于N的整数。
在本实施例的一些可选的实现方式中,上述下采样模块还可以进一步用于:对上述第N-n次下采样处理后的特征图进行卷积处理,得到卷积图;将上述卷积图中各像素的特征值与第n次上采样处理后的特征图中相应像素的特征值相加;对相加后的特征图进行卷积操作。
在本实施例的一些可选的实现方式中,上述上采样模块可以进一步用于:对第N次下采样处理后的特征图进行至少一次卷积操作;对最后一次卷积操作后的特征图进行第1次上采样处理。在本实施例的一些可选的实现方式中,上述图像处理装置700还可以包括图7中未示出的第二卷积单元,用于对上述第一特征图进行至少一次卷积操作。相应的,融合单元703,用于融合上述注意力图和最后一次卷积操作后的第一特征图,获得上述融合图。
在本实施例的一些可选的实现方式中,上述图像处理装置700还可以包括图7中未示出的归一化单元,用于至少对上述注意力图进行归一化处理。相应的,融合单元703,用于融合归一化处理后的注意力图和上述第一特征图,获得上述融合图。
在本实施例的一些可选的实现方式中,上述图像处理装置700还可以包括图7中未示出的第二卷积单元,用于对上述注意力图依次进行至少一次卷积处理。相应的,上述归一化单元,用于对最后一次卷积处理后的注意力图进行归一化处理。
在本实施例的一些可选的实现方式中,上述融合单元703还可以进一步用于:将归一化处理后的注意力图中各像素的权重值与上述第一特征图中相应像素的特征值相乘,获得上述融合图。
在本实施例的一些可选的实现方式中,上述融合单元703还可以进一步用于:将归一化处理后的注意力图中各像素的权重值与上述第一特征图中相应像素的特征值相乘,获得相乘图;将上述相乘图中各像素的特征值与上述第一特征图中相应像素的特征值相加,获得上述融合图。
在本实施例的一些可选的实现方式中,上述图像处理装置700还可以包括图7中未示出的以下至少一项:检测单元、分类单元、分割单元。
其中,检测单元,用于根据再次提取的上述图像的特征,检测或识别上述图像中包括的物体。
分类单元,用于根据再次提取的上述图像的特征,确定上述图像中包括的物体的类别。
分割单元,用于根据再次提取的上述图像的特征,对上述图像进行分割。
本申请的上述实施例提供的图像处理装置,首先提取待处理的图像的特征,得到上述图像的第一特征图,基于上述第一特征图,生成上述图像的注意力图,再将注意力图和第一特征图融合,最后再基于得到的融合图再次提取上述图像的特征,从而实现了将注意力机制引入到图像处理中,有效地提高了从图像中获取信息的效率。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一特征提取单元、注意力提取单元、融合单元及第二特征提取单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一特征提取单元还可以被描述为“提取待处理的图像的特征,获得上述图像的第一特征图的单元”。
本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图8,其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备800的结构示意图:如图8所示,计算机系统800包括一个或多个处理器、通信部等,上述一个或多个处理器例如:一个或多个中央处理单元(CPU)801,和/或一个或多个图像处理器(GPU)813等,处理器可以根据存储在只读存储器(ROM)802中的可执行指令或者从存储部分808加载到随机访问存储器(RAM)803中的可执行指令而执行各种适当的动作和处理。通信部812可包括但不限于网卡,上述网卡可包括但不限于IB(Infiniband)网卡。
处理器可与ROM 802和/或RAM 803通信以执行可执行指令,通过总线804与通信部812相连、并经通信部812与其他目标设备通信,从而完成本申请实施例提供的任一项方法对应的操作,例如,提取待处理的图像的特征,获得上述图像的第一特征图;基于上述第一特征图,生成上述图像的注意力图;融合上述注意力图和上述第一特征图,获得融合图;基于上述融合图,再次提取上述图像的特征。
此外,在RAM 803中,还可存储有装置操作所需的各种程序和数据。CPU 801、ROM802以及RAM 803通过总线804彼此相连。在有RAM 803的情况下,ROM 802为可选模块。RAM803存储可执行指令,或在运行时向ROM 802中写入可执行指令,可执行指令使CPU 801执行上述通信方法对应的操作。输入/输出(I/O)接口805也连接至总线804。通信部812可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在总线804链接上。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
需要说明的,如图8所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图8的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU 813和CPU 801可分离设置或者可将GPU 813集成在CPU 801上,通信部可分离设置,也可集成设置在CPU 801或GPU 813上,等等。这些可替换的实施方式均落入本发明公开的保护范围。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令,例如,提取待处理的图像的特征,获得上述图像的第一特征图;基于上述第一特征图,生成上述图像的注意力图;融合上述注意力图和上述第一特征图,获得融合图;基于上述融合图,再次提取上述图像的特征。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被CPU 801执行时,执行本申请的方法中限定的上述功能。
可能以许多方式来实现本发明的方法和装置、设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (22)

1.一种图像处理方法,其特征在于,包括:
提取待处理的图像的特征,获得所述图像的第一特征图;
基于所述第一特征图,生成所述图像的注意力图;
融合所述注意力图和所述第一特征图,获得融合图;
基于所述融合图,再次提取所述图像的特征;
基于所述第一特征图,生成所述图像的注意力图,包括:
对所述第一特征图依次进行N次下采样处理,其中,N为大于或等于1的整数;
对第N次下采样处理后的特征图依次进行N次上采样处理,获得所述图像的注意力图,其中,所述注意力图的分辨率与所述第一特征图相同。
2.根据权利要求1所述的方法,其特征在于,所述对第N次下采样处理后的特征图依次进行N次上采样处理,包括:
对第N-n次下采样处理后的特征图和第n次上采样处理后的特征图进行卷积操作;
对卷积操作后的特征图进行第n+1次上采样处理,n为大于1且小于N的整数。
3.根据权利要求2所述的方法,其特征在于,所述对第N-n次下采样处理后的特征图和第n次上采样处理后的特征图进行卷积操作,包括:
对所述第N-n次下采样处理后的特征图进行卷积处理,得到卷积图;
将所述卷积图中各像素的特征值与第n次上采样处理后的特征图中相应像素的特征值相加;
对相加后的特征图进行卷积操作。
4.根据权利要求2或3所述的方法,其特征在于,所述对第N次下采样处理后的特征图依次进行N次上采样处理,还包括:
对第N次下采样处理后的特征图进行至少一次卷积操作;
对最后一次卷积操作后的特征图进行第1次上采样处理。
5.根据权利要求1所述的方法,其特征在于,所述融合所述注意力图和所述第一特征图,获得融合图,包括:
对所述第一特征图进行至少一次卷积操作;
融合所述注意力图和最后一次卷积操作后的第一特征图,获得所述融合图。
6.根据权利要求1所述的方法,其特征在于,所述融合所述注意力图和所述第一特征图,获得融合图,包括:
至少对所述注意力图进行归一化处理;
融合归一化处理后的注意力图和所述第一特征图,获得所述融合图。
7.根据权利要求6所述的方法,其特征在于,所述至少对所述注意力图进行归一化处理,包括:
对所述注意力图依次进行至少一次卷积处理;
对最后一次卷积处理后的注意力图进行归一化处理。
8.根据权利要求6或7所述的方法,其特征在于,所述融合所述注意力图和所述第一特征图,获得融合图,包括:
将归一化处理后的注意力图中各像素的权重值与所述第一特征图中相应像素的特征值相乘,获得所述融合图。
9.根据权利要求6或7所述的方法,其特征在于,所述融合所述注意力图和所述第一特征图,获得融合图,包括:
将归一化处理后的注意力图中各像素的权重值与所述第一特征图中相应像素的特征值相乘,获得相乘图;
将所述相乘图中各像素的特征值与所述第一特征图中相应像素的特征值相加,获得所述融合图。
10.根据权利要求1所述的方法,其特征在于,在所述基于所述融合图,再次提取所述图像的特征之后,所述方法还包括以下至少之一:
根据再次提取的所述图像的特征,检测或识别所述图像中包括的物体;
根据再次提取的所述图像的特征,确定所述图像中包括的物体的类别;
根据再次提取的所述图像的特征,对所述图像进行分割。
11.一种图像处理装置,其特征在于,包括:
第一特征提取单元,用于提取待处理的图像的特征,获得所述图像的第一特征图;
注意力提取单元,用于基于所述第一特征图,生成所述图像的注意力图;
融合单元,用于融合所述注意力图和所述第一特征图,获得融合图;
第二特征提取单元,用于基于所述融合图,再次提取所述图像的特征;
所述注意力提取单元包括:
下采样模块,用于对所述第一特征图依次进行N次下采样处理,其中,N为大于或等于1的整数;
上采样模块,用于对第N次下采样处理后的特征图依次进行N次上采样处理,获得所述图像的注意力图,其中,所述注意力图的分辨率与所述第一特征图相同。
12.根据权利要求11所述的装置,其特征在于,所述下采样模块进一步用于:
对第N-n次下采样处理后的特征图和第n次上采样处理后的特征图进行卷积操作;
对卷积操作后的特征图进行第n+1次上采样处理,n为大于1且小于N的整数。
13.根据权利要求12所述的装置,其特征在于,所述下采样模块进一步用于:
对所述第N-n次下采样处理后的特征图进行卷积处理,得到卷积图;
将所述卷积图中各像素的特征值与第n次上采样处理后的特征图中相应像素的特征值相加;
对相加后的特征图进行卷积操作。
14.根据权利要求12或13所述的装置,其特征在于,所述上采样模块进一步用于:
对第N次下采样处理后的特征图进行至少一次卷积操作;
对最后一次卷积操作后的特征图进行第1次上采样处理。
15.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第二卷积单元,用于对所述第一特征图进行至少一次卷积操作;以及
所述融合单元,用于融合所述注意力图和最后一次卷积操作后的第一特征图,获得所述融合图。
16.根据权利要求11所述的装置,其特征在于,所述装置还包括:
归一化单元,用于至少对所述注意力图进行归一化处理;以及
所述融合单元,用于融合归一化处理后的注意力图和所述第一特征图,获得所述融合图。
17.根据权利要求16所述的装置,其特征在于,所述装置还包括:
第二卷积单元,用于对所述注意力图依次进行至少一次卷积处理;以及
所述归一化单元,用于对最后一次卷积处理后的注意力图进行归一化处理。
18.根据权利要求16或17所述的装置,其特征在于,所述融合单元进一步用于:
将归一化处理后的注意力图中各像素的权重值与所述第一特征图中相应像素的特征值相乘,获得所述融合图。
19.根据权利要求16或17所述的装置,其特征在于,所述融合单元进一步用于:
将归一化处理后的注意力图中各像素的权重值与所述第一特征图中相应像素的特征值相乘,获得相乘图;
将所述相乘图中各像素的特征值与所述第一特征图中相应像素的特征值相加,获得所述融合图。
20.根据权利要求12所述的装置,其特征在于,所述装置还包括以下至少之一:
检测单元,用于根据再次提取的所述图像的特征,检测或识别所述图像中包括的物体;
分类单元,用于根据再次提取的所述图像的特征,确定所述图像中包括的物体的类别;
分割单元,用于根据再次提取的所述图像的特征,对所述图像进行分割。
21.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时完成以下操作:
提取待处理的图像的特征,获得所述图像的第一特征图;
基于所述第一特征图,生成所述图像的注意力图;
融合所述注意力图和所述第一特征图,获得融合图;
基于所述融合图,再次提取所述图像的特征;
基于所述第一特征图,生成所述图像的注意力图,包括:
对所述第一特征图依次进行N次下采样处理,其中,N为大于或等于1的整数;
对第N次下采样处理后的特征图依次进行N次上采样处理,获得所述图像的注意力图,其中,所述注意力图的分辨率与所述第一特征图相同。
22.一种电子设备,其特征在于,包括:
存储器,存储可执行指令;
一个或多个处理器,与存储器通信以执行可执行指令从而完成以下操作:
提取待处理的图像的特征,获得所述图像的第一特征图;
基于所述第一特征图,生成所述图像的注意力图;
融合所述注意力图和所述第一特征图,获得融合图;
基于所述融合图,再次提取所述图像的特征;
基于所述第一特征图,生成所述图像的注意力图,包括:
对所述第一特征图依次进行N次下采样处理,其中,N为大于或等于1的整数;
对第N次下采样处理后的特征图依次进行N次上采样处理,获得所述图像的注意力图,其中,所述注意力图的分辨率与所述第一特征图相同。
CN201710145253.1A 2017-03-13 2017-03-13 图像处理方法、装置及电子设备 Active CN106934397B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710145253.1A CN106934397B (zh) 2017-03-13 2017-03-13 图像处理方法、装置及电子设备
PCT/CN2018/078810 WO2018166438A1 (zh) 2017-03-13 2018-03-13 图像处理方法、装置及电子设备
US16/451,334 US10943145B2 (en) 2017-03-13 2019-06-25 Image processing methods and apparatus, and electronic devices

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710145253.1A CN106934397B (zh) 2017-03-13 2017-03-13 图像处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN106934397A CN106934397A (zh) 2017-07-07
CN106934397B true CN106934397B (zh) 2020-09-01

Family

ID=59433696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710145253.1A Active CN106934397B (zh) 2017-03-13 2017-03-13 图像处理方法、装置及电子设备

Country Status (3)

Country Link
US (1) US10943145B2 (zh)
CN (1) CN106934397B (zh)
WO (1) WO2018166438A1 (zh)

Families Citing this family (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934397B (zh) 2017-03-13 2020-09-01 北京市商汤科技开发有限公司 图像处理方法、装置及电子设备
CN107291945B (zh) * 2017-07-12 2020-03-31 上海媒智科技有限公司 基于视觉注意力模型的高精度服装图像检索方法及系统
US10891723B1 (en) 2017-09-29 2021-01-12 Snap Inc. Realistic neural network based image style transfer
CN108229531B (zh) * 2017-09-29 2021-02-26 北京市商汤科技开发有限公司 对象特征提取方法、装置、存储介质和电子设备
CN108876813B (zh) * 2017-11-01 2021-01-26 北京旷视科技有限公司 用于视频中物体检测的图像处理方法、装置及设备
CN108229302A (zh) * 2017-11-10 2018-06-29 深圳市商汤科技有限公司 特征提取方法、装置、计算机程序、存储介质和电子设备
CN108229650B (zh) * 2017-11-15 2021-04-09 北京市商汤科技开发有限公司 卷积处理方法、装置及电子设备
CN108171260B (zh) * 2017-12-15 2022-02-11 百度在线网络技术(北京)有限公司 一种图片识别方法及系统
CN107993217B (zh) * 2017-12-22 2021-04-09 北京奇虎科技有限公司 视频数据实时处理方法及装置、计算设备
CN108280451B (zh) * 2018-01-19 2020-12-29 北京市商汤科技开发有限公司 语义分割及网络训练方法和装置、设备、介质
CN108154145B (zh) * 2018-01-24 2020-05-19 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置
CN108038519B (zh) * 2018-01-30 2020-11-24 浙江大学 一种基于稠密的特征金字塔网络的宫颈图像处理方法及装置
CN108364023A (zh) * 2018-02-11 2018-08-03 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和系统
CN108647585B (zh) * 2018-04-20 2020-08-14 浙江工商大学 一种基于多尺度循环注意力网络的交通标识符检测方法
CN108734290B (zh) * 2018-05-16 2021-05-18 湖北工业大学 一种基于注意力机制的卷积神经网络构建方法及应用
CN108830322A (zh) * 2018-06-15 2018-11-16 联想(北京)有限公司 一种图像处理方法及装置、设备、存储介质
CN109190649B (zh) * 2018-07-02 2021-10-01 北京陌上花科技有限公司 一种深度学习网络模型服务器的优化方法和装置
WO2020051776A1 (en) * 2018-09-11 2020-03-19 Intel Corporation Method and system of deep supervision object detection for reducing resource usage
CN109447088A (zh) * 2018-10-16 2019-03-08 杭州依图医疗技术有限公司 一种乳腺影像识别的方法及装置
CN109447990B (zh) * 2018-10-22 2021-06-22 北京旷视科技有限公司 图像语义分割方法、装置、电子设备和计算机可读介质
CN111091593B (zh) * 2018-10-24 2024-03-22 深圳云天励飞技术有限公司 图像处理方法、装置、电子设备及存储介质
CN109257622A (zh) * 2018-11-01 2019-01-22 广州市百果园信息技术有限公司 一种音视频处理方法、装置、设备及介质
CN109658346B (zh) * 2018-11-13 2021-07-02 达闼科技(北京)有限公司 图像修复方法、装置、计算机可读存储介质及电子设备
CN113569796B (zh) * 2018-11-16 2024-06-11 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
CN109993735A (zh) * 2019-03-29 2019-07-09 成都信息工程大学 基于级联卷积的图像分割方法
CN110136197A (zh) * 2019-04-22 2019-08-16 南方电网科学研究院有限责任公司 机器人巡检图像的表计位置检测方法、装置及存储介质
CN110135307B (zh) * 2019-04-30 2022-07-01 北京邮电大学 基于注意力机制的交通标志检测方法和装置
CN111861897B (zh) * 2019-05-17 2024-07-12 北京嘀嘀无限科技发展有限公司 一种图像处理方法及装置
CN110647794B (zh) * 2019-07-12 2023-01-03 五邑大学 基于注意力机制的多尺度sar图像识别方法及装置
WO2021048863A1 (en) * 2019-09-11 2021-03-18 The State Of Israel, Ministry Of Agriculture & Rural Development, Agricultural Research Organization (Aro) (Volcani Center) Methods and systems for super resolution for infra-red imagery
CN110598788B (zh) * 2019-09-12 2023-06-30 腾讯科技(深圳)有限公司 目标检测方法、装置、电子设备及存储介质
CN110675409A (zh) * 2019-09-20 2020-01-10 上海商汤智能科技有限公司 图像处理方法及装置、电子设备和存储介质
EP4032062A4 (en) * 2019-10-25 2022-12-14 Samsung Electronics Co., Ltd. IMAGE PROCESSING METHOD, APPARATUS, ELECTRONIC DEVICE AND COMPUTER READABLE STORAGE MEDIA
CN110796412B (zh) * 2019-10-29 2022-09-06 浙江大华技术股份有限公司 包裹跟踪方法以及相关装置
CN110956122B (zh) * 2019-11-27 2022-08-02 深圳市商汤科技有限公司 图像处理方法及装置、处理器、电子设备、存储介质
CN112927146A (zh) * 2019-12-05 2021-06-08 北大方正集团有限公司 压缩图像复原方法、装置、设备和存储介质
CN111145196A (zh) * 2019-12-11 2020-05-12 中国科学院深圳先进技术研究院 图像分割方法、装置及服务器
CN111079767B (zh) * 2019-12-22 2022-03-22 浪潮电子信息产业股份有限公司 一种用于分割图像的神经网络模型及其图像分割方法
WO2021127916A1 (zh) * 2019-12-23 2021-07-01 深圳市优必选科技股份有限公司 脸部情感识别方法、智能装置和计算机可读存储介质
CN111199516B (zh) * 2019-12-30 2023-05-05 深圳大学 基于图像生成网络模型的图像处理方法、系统及存储介质
CN112219224B (zh) * 2019-12-30 2024-04-26 商汤国际私人有限公司 图像处理方法及装置、电子设备和存储介质
SG10201913754XA (en) * 2019-12-30 2020-12-30 Sensetime Int Pte Ltd Image processing method and apparatus, electronic device, and storage medium
US11450021B2 (en) 2019-12-30 2022-09-20 Sensetime International Pte. Ltd. Image processing method and apparatus, electronic device, and storage medium
CN111401415A (zh) * 2020-03-02 2020-07-10 北京三快在线科技有限公司 计算机视觉任务模型的训练方法、装置、设备和存储介质
CN111414962B (zh) * 2020-03-19 2023-06-23 创新奇智(重庆)科技有限公司 一种引入物体关系的图像分类方法
CN111402274B (zh) * 2020-04-14 2023-05-26 上海交通大学医学院附属上海儿童医学中心 一种磁共振左心室图像分割的处理方法、模型及训练方法
CN111476737B (zh) * 2020-04-15 2022-02-11 腾讯科技(深圳)有限公司 一种图像处理方法、智能设备及计算机可读存储介质
CN111539887B (zh) * 2020-04-21 2023-07-14 温州大学 一种基于混合卷积的通道注意力机制和分层学习的神经网络图像去雾方法
CN111639652B (zh) * 2020-04-28 2024-08-20 博泰车联网(南京)有限公司 一种图像处理方法、装置及计算机存储介质
CN111729304B (zh) * 2020-05-26 2024-04-05 广州尊游软件科技有限公司 一种展示海量对象的方法
CN111627038B (zh) * 2020-05-27 2021-05-11 杭州王道控股有限公司 一种背景去除方法、装置、设备及可读存储介质
CN111368942B (zh) * 2020-05-27 2020-08-25 深圳创新奇智科技有限公司 商品分类识别方法、装置、电子设备及存储介质
CN112084865A (zh) * 2020-08-06 2020-12-15 中国科学院空天信息创新研究院 目标检测方法、装置、电子设备和存储介质
CN112149661B (zh) * 2020-08-07 2024-06-21 珠海欧比特宇航科技股份有限公司 车牌识别方法、装置及介质
CN112101456B (zh) * 2020-09-15 2024-04-26 推想医疗科技股份有限公司 注意力特征图获取方法及装置、目标检测的方法及装置
US12045288B1 (en) * 2020-09-24 2024-07-23 Amazon Technologies, Inc. Natural language selection of objects in image data
CN112241955B (zh) * 2020-10-27 2023-08-25 平安科技(深圳)有限公司 三维图像的碎骨分割方法、装置、计算机设备及存储介质
CN112258487B (zh) * 2020-10-29 2024-06-18 成都芯昇动力科技有限公司 图像检测系统及方法
KR102562731B1 (ko) * 2020-11-06 2023-08-01 연세대학교 산학협력단 자기 집중 모듈 및 이를 이용한 정규화 방법
CN112464810A (zh) * 2020-11-25 2021-03-09 创新奇智(合肥)科技有限公司 一种基于注意力图的吸烟行为检测方法及装置
CN112562819B (zh) * 2020-12-10 2022-06-17 清华大学 一种针对先心病的超声多切面数据的报告生成方法
CN112489033A (zh) * 2020-12-13 2021-03-12 南通云达信息技术有限公司 基于分类权重的混凝土养护箱的清洁效果的检测方法
CN112633352B (zh) * 2020-12-18 2023-08-29 浙江大华技术股份有限公司 一种目标检测方法、装置、电子设备及存储介质
CN112884007B (zh) * 2021-01-22 2022-08-09 重庆交通大学 一种像素级统计描述学习的sar图像分类方法
CN113158738B (zh) * 2021-01-28 2022-09-20 中南大学 一种基于注意力机制的港口环境下目标检测方法、系统、终端及可读存储介质
CN112991351B (zh) * 2021-02-23 2022-05-27 新华三大数据技术有限公司 遥感图像语义分割方法、装置及存储介质
CN112949654A (zh) * 2021-02-25 2021-06-11 上海商汤智能科技有限公司 图像检测方法及相关装置、设备
CN112819818B (zh) * 2021-02-26 2023-11-14 中国人民解放军总医院第一医学中心 图像识别模块训练方法和装置
CN112967264A (zh) * 2021-03-19 2021-06-15 深圳市商汤科技有限公司 缺陷检测方法及装置、电子设备和存储介质
CN113139543B (zh) * 2021-04-28 2023-09-01 北京百度网讯科技有限公司 目标对象检测模型的训练方法、目标对象检测方法和设备
CN113222846B (zh) * 2021-05-18 2024-05-10 北京达佳互联信息技术有限公司 图像处理方法和图像处理装置
CN113239840A (zh) * 2021-05-24 2021-08-10 中国农业银行股份有限公司 字迹鉴定方法、装置、设备和存储介质
CN113255700B (zh) * 2021-06-10 2021-11-02 展讯通信(上海)有限公司 图像的特征图的处理方法及装置、存储介质、终端
CN113379667B (zh) * 2021-07-16 2023-03-24 浙江大华技术股份有限公司 脸部图像生成方法、装置、设备及介质
CN113344827B (zh) * 2021-08-05 2021-11-23 浙江华睿科技股份有限公司 一种图像去噪方法、图像去噪网络运算单元及设备
CN114565941A (zh) * 2021-08-24 2022-05-31 商汤国际私人有限公司 纹理生成方法、装置、设备及计算机可读存储介质
CN113570003B (zh) * 2021-09-23 2022-01-07 深圳新视智科技术有限公司 基于注意力机制的特征融合缺陷检测方法及装置
CN114119627B (zh) * 2021-10-19 2022-05-17 北京科技大学 基于深度学习的高温合金微观组织图像分割方法及装置
CN114187213A (zh) * 2021-12-14 2022-03-15 成都微光集电科技有限公司 图像融合方法及其装置、设备和存储介质
CN114677661A (zh) * 2022-03-24 2022-06-28 智道网联科技(北京)有限公司 一种路侧标识识别方法、装置和电子设备
CN114723760B (zh) * 2022-05-19 2022-08-23 北京世纪好未来教育科技有限公司 人像分割模型的训练方法、装置及人像分割方法、装置
CN114972897A (zh) * 2022-06-06 2022-08-30 京东科技控股股份有限公司 图像特征处理方法、装置、产品、介质及设备
CN115243031B (zh) * 2022-06-17 2024-06-21 合肥工业大学智能制造技术研究院 一种基于质量注意力机制的视频时空特征优化方法、系统、电子设备及存储介质
CN114821202B (zh) * 2022-06-29 2022-10-04 武汉纺织大学 一种基于用户偏好的服装推荐方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101697593A (zh) * 2009-09-08 2010-04-21 武汉大学 一种基于时域预测的关注度提取方法
CN101866422A (zh) * 2010-06-29 2010-10-20 上海大学 基于图像的多特征融合提取图像关注度的方法
CN101980248A (zh) * 2010-11-09 2011-02-23 西安电子科技大学 基于改进视觉注意力模型的自然场景目标检测方法
CN103679718A (zh) * 2013-12-06 2014-03-26 河海大学 一种基于显著性的快速场景分析方法
CN103996185A (zh) * 2014-04-29 2014-08-20 重庆大学 一种基于注意力td-bu机制的图像分割方法
CN105228033A (zh) * 2015-08-27 2016-01-06 联想(北京)有限公司 一种视频处理方法及电子设备
CN106157319A (zh) * 2016-07-28 2016-11-23 哈尔滨工业大学 基于卷积神经网络的区域和像素级融合的显著性检测方法
CN107729901A (zh) * 2016-08-10 2018-02-23 阿里巴巴集团控股有限公司 图像处理模型的建立方法、装置及图像处理方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100040236A (ko) * 2008-10-09 2010-04-19 삼성전자주식회사 시각적 관심에 기반한 2차원 영상의 3차원 영상 변환기 및 변환 방법
EP2549754A1 (en) * 2011-07-19 2013-01-23 Thomson Licensing Method and apparatus for reframing and encoding an original video signal
US20170262996A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Action localization in sequential data with attention proposals from a recurrent network
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
CN106934397B (zh) * 2017-03-13 2020-09-01 北京市商汤科技开发有限公司 图像处理方法、装置及电子设备
CN109118459B (zh) * 2017-06-23 2022-07-19 南开大学 图像显著性物体检测方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101697593A (zh) * 2009-09-08 2010-04-21 武汉大学 一种基于时域预测的关注度提取方法
CN101866422A (zh) * 2010-06-29 2010-10-20 上海大学 基于图像的多特征融合提取图像关注度的方法
CN101980248A (zh) * 2010-11-09 2011-02-23 西安电子科技大学 基于改进视觉注意力模型的自然场景目标检测方法
CN103679718A (zh) * 2013-12-06 2014-03-26 河海大学 一种基于显著性的快速场景分析方法
CN103996185A (zh) * 2014-04-29 2014-08-20 重庆大学 一种基于注意力td-bu机制的图像分割方法
CN105228033A (zh) * 2015-08-27 2016-01-06 联想(北京)有限公司 一种视频处理方法及电子设备
CN106157319A (zh) * 2016-07-28 2016-11-23 哈尔滨工业大学 基于卷积神经网络的区域和像素级融合的显著性检测方法
CN107729901A (zh) * 2016-08-10 2018-02-23 阿里巴巴集团控股有限公司 图像处理模型的建立方法、装置及图像处理方法及系统

Also Published As

Publication number Publication date
WO2018166438A1 (zh) 2018-09-20
US10943145B2 (en) 2021-03-09
CN106934397A (zh) 2017-07-07
US20190311223A1 (en) 2019-10-10

Similar Documents

Publication Publication Date Title
CN106934397B (zh) 图像处理方法、装置及电子设备
JP7415251B2 (ja) 画像処理用の装置及び方法、並びにニューラルネットワークトをトレーニングするシステム
CN112465828B (zh) 一种图像语义分割方法、装置、电子设备及存储介质
CN111104962B (zh) 图像的语义分割方法、装置、电子设备及可读存储介质
US10614574B2 (en) Generating image segmentation data using a multi-branch neural network
CN112132156B (zh) 多深度特征融合的图像显著性目标检测方法及系统
CN108876792B (zh) 语义分割方法、装置和系统及存储介质
CN108664981B (zh) 显著图像提取方法及装置
CN109118504B (zh) 一种基于神经网络的图像边缘检测方法、装置及其设备
KR102140805B1 (ko) 위성 영상의 물체 식별을 위한 뉴럴 네트워크 학습 방법 및 장치
CN111914654B (zh) 一种文本版面分析方法、装置、设备和介质
CN111860398A (zh) 遥感图像目标检测方法、系统及终端设备
CN114078201B (zh) 多目标类别对抗样本生成方法及相关设备
CN110599455A (zh) 显示屏缺陷检测网络模型、方法、装置、电子设备及存储介质
CN114511702A (zh) 一种基于多尺度分权注意力的遥感图像分割方法和系统
CN112132867B (zh) 一种遥感影像变化检测方法及装置
Qin et al. Dense sampling and detail enhancement network: Improved small object detection based on dense sampling and detail enhancement
Zhang et al. Iterative multi‐scale residual network for deblurring
CN115393868B (zh) 文本检测方法、装置、电子设备和存储介质
Ke et al. Scale-aware dimension-wise attention network for small ship instance segmentation in synthetic aperture radar images
CN113807354B (zh) 图像语义分割方法、装置、设备和存储介质
CN112651351B (zh) 一种数据处理的方法和装置
CN116883770A (zh) 深度估计模型的训练方法、装置、电子设备及存储介质
CN111612714B (zh) 图像修复方法、装置和电子设备
CN111161250B (zh) 一种多尺度遥感图像密集房屋检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant