CN109447095A - 视觉属性识别方法、装置及存储介质 - Google Patents

视觉属性识别方法、装置及存储介质 Download PDF

Info

Publication number
CN109447095A
CN109447095A CN201811277609.8A CN201811277609A CN109447095A CN 109447095 A CN109447095 A CN 109447095A CN 201811277609 A CN201811277609 A CN 201811277609A CN 109447095 A CN109447095 A CN 109447095A
Authority
CN
China
Prior art keywords
information
local visual
adjusted
overall vision
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811277609.8A
Other languages
English (en)
Other versions
CN109447095B (zh
Inventor
邬彦泽
彭垚
李斌
薛向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI QINIU INFORMATION TECHNOLOGIES Co Ltd
Original Assignee
SHANGHAI QINIU INFORMATION TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI QINIU INFORMATION TECHNOLOGIES Co Ltd filed Critical SHANGHAI QINIU INFORMATION TECHNOLOGIES Co Ltd
Priority to CN201811277609.8A priority Critical patent/CN109447095B/zh
Publication of CN109447095A publication Critical patent/CN109447095A/zh
Application granted granted Critical
Publication of CN109447095B publication Critical patent/CN109447095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供一种视觉属性识别方法、装置及介质,方法包括:利用预设神经网络模型的第一部分获取目标图像的基础视觉信息;利用预设神经网络模型的第二部分获取全局视觉信息、以及局部视觉信息;根据局部视觉信息中的各个特征的重要性,将局部视觉信息处理得到第一局部调整信息;根据全局视觉信息中各个特征的重要性,将全局视觉信息处理得到第一全局调整信息;根据第一局部调整信息将全局视觉信息进行调整,得到调整后的全局视觉信息;根据第一全局调整信息将局部视觉信息进行调整,得到调整后的局部视觉信息,根据调整后的全局视觉信息或/和局部视觉信息对目标图像进行视觉属性识别。可以提高视觉属性识别的准确度。

Description

视觉属性识别方法、装置及存储介质
技术领域
本申请涉及视觉属性识别技术领域,特别涉及一种视觉属性识别方法、装置及存储介质。
背景技术
视觉属性可以定义为中级语义视觉概念,如尖鼻子和大眼睛作为面部属性,身高和服装风格作为行人属性。在近年来,视觉属性识别吸引了越来越多的研究兴趣,因为利用已识别的属性可以帮助高级视觉任务如zero-shot learning和行人重识别,或者单单利用这些属性来用于视频监控和流行服饰推荐。
许多现有方法将属性识别当成为多任务学习(MTL)问题,并且利用深度神经网络(DNN)来实现最先进的结果,其中每个属性识别问题都被视为一个任务。基于DNN的MTL方法通常采用硬参数共享(hardparameter sharing),即所有任务共享所有隐藏层,但是每个任务都有属于自己的解码器(decoder)用于将学习的特征映射到输出上。一个潜在的难题是让不相关的任务共用隐藏层可能会为某个任务引入与它不相关的知识从而来危害这个任务的表现,这就是所谓的负迁移问题。
发明内容
本申请实施例提供一种视觉属性识别方法、装置及存储介质,可以提高视觉属性识别的准确性。
本申请实施例提供了一种视觉属性识别方法,其包括:
利用预设神经网络模型的第一部分,获取目标图像的基础视觉信息;
利用所述预设神经网络模型的第二部分、以及所述基础视觉信息获取全局视觉信息、以及局部视觉信息;
根据所述局部视觉信息中的各个特征的重要性,将所述局部视觉信息处理得到第一局部调整信息;
根据所述全局视觉信息中各个特征的重要性,将所述全局视觉信息处理得到第一全局调整信息;
根据所述第一局部调整信息将所述全局视觉信息进行调整,得到调整后的全局视觉信息;
根据所述第一全局调整信息将所述局部视觉信息进行调整,得到调整后的局部视觉信息;
根据所述调整后的全局视觉信息或/和局部视觉信息对所述目标图像进行视觉属性识别。
本申请实施例提供了一种视觉属性识别装置,其包括:
第一视觉信息获取模块,用于利用预设神经网络模型的第一部分,获取目标图像的基础视觉信息;
第二视觉信息获取模块,用于利用所述预设神经网络模型的第二部分、以及所述基础视觉信息获取全局视觉信息、以及局部视觉信息;
调整信息获取模块,用于根据所述局部视觉信息中的各个特征的重要性,将所述局部视觉信息处理得到第一局部调整信息,以及根据所述全局视觉信息中各个特征的重要性,将所述全局视觉信息处理得到第一全局调整信息;
调整模块,用于根据所述第一局部调整信息将所述全局视觉信息进行调整,得到调整后的全局视觉信息,以及根据所述第一全局调整信息将所述局部视觉信息进行调整,得到调整后的局部视觉信息;
识别模块,用于根据所述调整后的全局视觉信息或/和局部视觉信息对所述目标图像进行视觉属性识别。
本申请实施例还提供一种存储介质,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如上述所述的视觉属性识别方法。
本申请实施例提供的视觉属性识别方法、装置及存储介质中,先获取目标图像的基础视觉信息,然后获取全局视觉信息、以及局部视觉信息,接着根据所述局部视觉信息中的各个特征的重要性,将所述局部视觉信息处理得到第一局部调整信息,以及根据所述全局视觉信息中各个特征的重要性,将所述全局视觉信息处理得到第一全局调整信息,再接着根据所述第一局部调整信息将所述全局视觉信息进行调整,得到调整后的全局视觉信息、以及根据所述第一全局调整信息将所述局部视觉信息进行调整,得到调整后的局部视觉信息,最后根据调整后的全局视觉信息或/和局部视觉信息对目标图像进行视觉属性识别。可以提高视觉属性识别的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的视觉属性识别方法的流程示意图。
图2为本申请实施例提供的预设神经网络模型的示意图。
图3为相关实施例提供的视觉属性识别方法的效果图。
图4为本申请实施例提供的视觉属性识别方法的另一效果图。
图5为本申请实施例提供的GIU模型的示意图。
图6为本申请实施例提供的视觉属性识别装置示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1为本申请实施例提供的视觉属性识别方法的流程示意图,流程可以包括:
101,利用预设神经网络模型的第一部分,获取目标图像的基础视觉信息。
预设神经网络包括至少两个部分,分别为第一部分和第二部分,第一部分的输入信息为目标图像,第二部分的输入信息为第一部分的输出信息,即第一部分获取目标图像的基础视觉信息。预设神经网络模型的第一部分主要负责提取目标图像的一些基础视觉信息,基础视觉信息可以为基本的视觉特征和无视特定任务的特征。
102,利用所述预设神经网络模型的第二部分、以及所述基础视觉信息获取全局视觉信息、以及局部视觉信息。
预设神经网络模型的第二部分基于基础视觉信息获取全局视觉信息、以及局部视觉信息。
具体的,预设神经网络模型可以包括第一深度残差网络子模型和第二深度残差网络子模型。第一深度残差网络子模型和第二深度残差网络子模型可以为相同的模型,但它们的参数不同,因此,同样的输入信息会得到不同的输出信息。第一深度残差网络子模型和第二深度残差网络子模型。可以作为预设神经网络模型的两个支路。
其中,所述第一深度残差网络子模型和所述第二深度残差网络子模型的第一部分均用于获取目标图像的基础视觉信息。
利用所述第一深度残差网络子模型的第二部分、以及所述基础视觉信息获取全局视觉信息;
利用所述第二深度残差网络子模型的第二部分、以及所述基础视觉信息获取局部视觉信息。
103,根据所述局部视觉信息中的各个特征的重要性,将所述局部视觉信息处理得到第一局部调整信息。
104,根据所述全局视觉信息中各个特征的重要性,将所述全局视觉信息处理得到第一全局调整信息。
在神经网络中,可以把一条支路上某个阶段产生的特征图(feature map)相加到或者拼接到另外一条支路上,但是这就意味着把特征图(维度为)上每个通道(channel)和每个空间位置(spatial location)当做同等重要的。但事实是,在神经网络中特征图上的每个通道都代表一个核(kernel)、一种语义、一个特征,可能对某个支路有用的只是另外支路上特征图的部分通道,如果单纯的拼接或者相加就会导致在有用特征引入的同时没有用或者有害的特征也被引入,因此,根据所述局部视觉信息中的各个特征的重要性,将所述局部视觉信息处理得到第一局部调整信息、以及根据所述全局视觉信息中各个特征的重要性,将所述全局视觉信息处理得到第一全局调整信息。选择性的吸收对自己有用的知识或特征。在一些实施例中,根据所述局部视觉信息中的各个特征的重要性,利用预设调整算法将所述局部视觉信息处理得到第一局部调整信息。
在一些实施例中,根据所述全局视觉信息中各个特征的重要性,利用预设调整算法将所述全局视觉信息处理得到第一全局调整信息。
预设调整算法可以对输入信息进行处理,得到通道向量、以及空间参数;然后将所述通道向量和所述空间参数组合,得到最终的输出信息。
具体的,预设调整算法包括:对输入信息进行全局平均池化处理;
将全局平均池化处理处理后的输入信息,进行至少两层全连接层和激活层的处理,得到通道向量;
利用1x1的卷积对输入信息进行处理,得到第一中间信息;
利用3x3的卷积对所述第一中间信息提取周围的信息,得到第二中间信息;
利用1x1的卷积对所述第二中间信息处理,得到第三中间信息;
所述将所述通道向量和所述空间参数组合,得到最终的输出信息的步骤,包括:
将所述通道向量与第三中间信息组合,得到最终的输出信息。
105,根据所述第一局部调整信息将所述全局视觉信息进行调整,得到调整后的全局视觉信息。
106,根据所述第一全局调整信息将所述局部视觉信息进行调整,得到调整后的局部视觉信息。
根据所述第一局部调整信息将所述全局视觉信息进行调整,得到调整后的全局视觉信息,以及根据所述第一全局调整信息将所述局部视觉信息进行调整,得到调整后的局部视觉信息,然后将调整后的全局视觉信息、和调整后的局部视觉信息输出。
107,根据调整后的全局视觉信息或/和局部视觉信息对目标图像进行视觉属性识别。
最后根据调整后的全局视觉信息或/和局部视觉信息对获取的目标图像进行属性识别:利用调整后的全局视觉信息进行全局属性识别,利用调整后的局部视觉信息进行局部属性识别。也可以将二者结合进行识别,利用调整后的全局视觉信息辅助调整后的局视觉信息进行局部属性识别,或者利用调整后的局部视觉信息辅助调整后的全局视觉信息进行全局属性识别。
本实施例可以应用在各种识别应用场景里,比如目标图像是用来分类的,根据需要,可以利用调整后的全局视觉信息进行分类,也可以利用调整后的局部视觉信息进行分类,也可以将调整后的全局视觉信息以及调整后的局部视觉信息结合判断进行分类。本申请实施例基于双支路通信的视觉属性识别方法,可用于解决行人属性、人脸属性的识别,在实际数据集上取得了很好的效果,识别更加准确。
研究表明,人脑里的左半球体负责处理空间高频信息(high spatialfrequency),也就是局部的视觉信息;右半球体负责处理空间低频信息(low spatialfrequency),也就是全局的视觉信息,并且两个半球体是相互通信相互指导相互促进的。基于上述研究,本申请实施例的方法也具有互相通信的双支路网络,如图2所示,其中一条支路(第一深度残差网络子模型)负责处理全局的视觉信息,另一条支路(第二深度残差网络子模型)负责处理局部的视觉信息,并且两条支路可以相互分享学习到的知识并相互促进,这种双支路模型可适用于视觉多任务场景。例如,有些计算机视觉任务是局部的(会关注于图像的某些特定区域),有些计算机视觉任务是全局的(会看整幅图,不会关注特定区域)。在视觉属性的识别,本申请实施例可以把视觉属性分成两组,其中一组是局部的视觉属性(比如说眼睛大小),另外一组是全局的视觉属性(比如说一个人漂不漂亮),然后就拥有了两个任务,一个任务是预测局部属性,一个任务是预测全局属性,然后利用本申请实施例具有双支路通信网络的预设神经网络模型即可。
关于模型的具体设计,可以利用深度残差网络子模型(resnet)作为预设神经网络模型(CNN)的主要组成部分。具体的,利用两个参数独立的深度残差网络子模型(resnet)并联起来,但是考虑到预设神经网络模型(CNN)的前两个阶段主要负责提取一些基本的视觉特征和无视特定任务的特征,这两个阶段就像视觉皮层里的V1区,所以可以让两条支路共享预设神经网络模型(CNN)的前两个阶段(stage),即第一深度残差网络子模型的前两个阶段和第一深度残差网络子模型的前两个阶段共享;然后在后三个阶段分开,因为后面的阶段更偏向于提取task-variant的特征。最后在两条支路的后三个阶段,可以采用一种attention模块让两条支路相连,并且选择性的吸收对自己有用的知识或特征。
基于连接左右半球体的胼胝体,本申请实施例设计了用于连接两条支路的attention模块。具体的,在预设神经网络模型(CNN)中可以把一条支路上某个阶段产生的特征图(feature map)相加到或者拼接到另外一条支路上,但是这就意味着把特征图(维度为)上每个通道(channel)和每个空间位置(spatial location)当做同等重要的。但事实是,在神经网络中特征图上的每个通道都代表一个核(kernel)、一种语义、一个特征,可能对某个支路有用的只是另外支路上特征图的部分通道,如果我们单纯的拼接或者相加就会导致在有用特征引入的同时,将没有用或者有害的特征也引入,如图3所示,其中,附图中左侧为共享前的特征图,特征图A中的五角星和特征图B中的三角形分别为对A和对B有用的且缺失的特征,右侧为共享后的特征图,其中,处理后的特征图A中多出了不需要的正方形特征,处理后的特征图B多出了不需要的圆形特征。所以可以采用channel-wise的attention,用于得到一个长为的非负向量,其中向量里每个值代表着对应通道的重要程度,如果为0就表示这个通道不重要,越大就说明越重要。同样的,特征图的每个空间位置也并不是同等重要的。比如,当前支路只想要另外一个支路在图像上某些位置处理好的特征,所以可以采用spatial-wise的attention,得到一个维度为的非负attention map,其中值越大说明越重要。最后可以简单的把channel-wise的attention向量和spatial-wise的attention map相乘得到维度为的系数,由于这个系数是非负的,本申请实施例命名为GatedIntercommunication Unit(GIU)。可以实现这种分开channel和spatial的处理方式,效果如图4所示,其中,附图中左侧为共享前的特征图,可以发现共享后,只引入了对各自有用的特征,不需要的特征都没被引入进来。具体的GIU模型如图5所示,其中,右半部分是GIU模块,左边部分是channel-attention,如图所示,可以先用global average pooling(GAP)使得消除空间的影响,然后经过数层全连接和激活层得到维度为的向量。右边就是spatialattention,先用1x1的卷积使得特征度的维度下降,然后再用3x3的卷积提取周围的信息,最后用1x1的卷积得到的输出。
在一些实施例中,所述第一深度残差网络子模型的第二部分、以及所述第二深度残差网络子模型的第二部分均包括依次连接的多层网络;所述方法还包括:
每层网络均根据上一层网络的输出信息,获取全局视觉信息和局部视觉信息;
每层网络均根据所述局部视觉信息中的各个特征的重要性,将所述局部视觉信息处理得到第一局部调整信息;
每层网络均根据所述全局视觉信息中各个特征的重要性,将所述全局视觉信息处理得到第一全局调整信息;
每层网络均根据所述第一局部调整信息将所述全局视觉信息进行调整,得到调整后的全局视觉信息并输出;
每层网络均根据所述第一全局调整信息将所述局部视觉信息进行调整,得到调整后的局部视觉信息并输出。
第一深度残差网络子模型的第二部分、以及所述第二深度残差网络子模型的第二部分均包括依次连接的多层网络,每层网络均包括第一深度残差网络子模型的一层网络和第二深度残差网络子模型的一层网络,然后每层网络中的第一深度残差网络子模型的一层网络不仅根据上一层网络的输出信号进行处理,还通过第二深度残差网络子模型的同一层网络的调整信息进行调整,得到最终的输出信息。
在一些实施例中,利用预设神经网络模型的第一部分,获取目标图像的基础视觉信息的步骤之前,还包括:
获取多个样本图像、以及每个所述样本图像的局部属性和全局属性;
分别利用每个所述样本图像的局部属性和全局属性,对神经网络模型进行训练,得到训练后的预设神经网络模型。
具体的,可以采用深度残差网络子模型(resnet)作为预设神经网络模型的骨干网。对于数据增广,可以用随机水平翻转和旋转以及裁剪。具体的,可以首先训练没有GIU的基础模型,网络在4块GTX Titan XP上训练10个epochs,初始的学习率为4e-2,并且逐步降低到4e-4,采用的梯度下降方法是随机梯度下降法(SGD),并且动量momentum设为0.9,权重衰减参数设为5e-4。在训练好之后可以插入GIU重新训练,并且超参数和之前采用一样的方法,整个模型是在pytorch下实现的。
请参阅图6,本申请实施例还提供一种视觉属性识别装置示意图300,像识别装置300包括第一视觉信息获取模块310、第二视觉信息获取模块320、调整信息获取模块330、调整模块340和识别模块350。
其中,第一视觉信息获取模块310,用于利用预设神经网络模型的第一部分,获取目标图像的基础视觉信息。
第二视觉信息获取模块320,用于利用所述预设神经网络模型的第二部分、以及所述基础视觉信息获取全局视觉信息、以及局部视觉信息。
调整信息获取模块330,用于根据所述局部视觉信息中的各个特征的重要性,将所述局部视觉信息处理得到第一局部调整信息,以及根据所述全局视觉信息中各个特征的重要性,将所述全局视觉信息处理得到第一全局调整信息。
调整模块340,用于根据所述第一局部调整信息将所述全局视觉信息进行调整,得到调整后的全局视觉信息,以及根据所述第一全局调整信息将所述局部视觉信息进行调整,得到调整后的局部视觉信息。
识别模块350,用于根据调整后的全局视觉信息或/和局部视觉信息对目标图像进行视觉属性识别。
在一些实施例中,所述预设神经网络模型包括第一深度残差网络子模型和第二深度残差网络子模型。
第一视觉信息获取模块310,还用于所述第一深度残差网络子模型和所述第二深度残差网络子模型的第一部分均用于获取目标图像的基础视觉信息。
第二视觉信息获取模块320,还用于利用所述第一深度残差网络子模型的第二部分、以及所述基础视觉信息获取全局视觉信息;以及利用所述第二深度残差网络子模型的第二部分、以及所述基础视觉信息获取局部视觉信息。
在一些实施例中,所述第一深度残差网络子模型的第二部分具有第一参数,所述第二深度残差网络子模型的第二部分具有第二参数,所述第一参数和所述第二参数不同。
在一些实施例中,所述第一深度残差网络子模型的第二部分、以及所述第二深度残差网络子模型的第二部分均包括依次连接的多层网络。
第二视觉信息获取模块320,还用于每层网络均根据上一层网络的输出信息,获取全局视觉信息和局部视觉信息。
调整信息获取模块330,还用于每层网络均根据所述局部视觉信息中的各个特征的重要性,将所述局部视觉信息处理得到第一局部调整信息;以及每层网络均根据所述全局视觉信息中各个特征的重要性,将所述全局视觉信息处理得到第一全局调整信息。
调整模块340,还用于每层网络均根据所述第一局部调整信息将所述全局视觉信息进行调整,得到调整后的全局视觉信息并输出;每层网络均根据所述第一全局调整信息将所述局部视觉信息进行调整,得到调整后的局部视觉信息并输出。
在一些实施例中,调整信息获取模块330,还用于根据所述局部视觉信息中的各个特征的重要性,利用预设调整算法将所述局部视觉信息处理得到第一局部调整信息;以及根据所述全局视觉信息中各个特征的重要性,利用预设调整算法将所述全局视觉信息处理得到第一全局调整信息。
在一些实施例中,调整模块340,还用于对输入信息进行处理,得到通道向量、以及空间参数;以及将所述通道向量和所述空间参数组合,得到最终的输出信息。
在一些实施例中,调整模块340,还用于对输入信息进行全局平均池化处理;将全局平均池化处理处理后的输入信息,进行至少两层全连接层和激活层的处理,得到通道向量;利用1x1的卷积对输入信息进行处理,得到第一中间信息;利用3x3的卷积对所述第一中间信息提取周围的信息,得到第二中间信息;利用1x1的卷积对所述第二中间信息处理,得到第三中间信息;将所述通道向量与第三中间信息组合,得到最终的输出信息。
在一些实施例中,第一视觉信息获取模块310,还用于获取多个样本图像、以及每个所述样本图像的局部属性和全局属性;分别利用每个所述样本图像的局部属性和全局属性,对神经网络模型进行训练,得到训练后的预设神经网络模型。
本申请实施例还提供一种存储介质,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,所述计算机执行上述任一实施例所述的视觉属性识别方法,比如:利用预设神经网络模型的第一部分,获取目标图像的基础视觉信息;利用所述预设神经网络模型的第二部分、以及所述基础视觉信息获取全局视觉信息、以及局部视觉信息;根据所述局部视觉信息中的各个特征的重要性,将所述局部视觉信息处理得到第一局部调整信息;根据所述全局视觉信息中各个特征的重要性,将所述全局视觉信息处理得到第一全局调整信息;根据所述第一局部调整信息将所述全局视觉信息进行调整,得到调整后的全局视觉信息;根据所述第一全局调整信息将所述局部视觉信息进行调整,得到调整后的局部视觉信息;根据所述调整后的全局视觉信息或/和局部视觉信息对所述目标图像进行视觉属性识别。
本发明中包含“视觉信息”的各种名词中,其发明创造保护范围,也可以用“视觉信息”理解为“视觉特征”来理解。
在本申请实施例中,存储介质可以是磁碟、光盘、只读存储器(Read Only Memory,ROM)、或者随机存取记忆体(Random Access Memory,RAM)等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
需要说明的是,对本申请实施例的视觉属性识别方法而言,本领域普通测试人员可以理解实现本申请实施例视觉属性识别方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的至少一个处理器执行,在执行过程中可包括如应用程序管控方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
对本申请实施例的视觉属性识别装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例提供的视觉属性识别、装置及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请。同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种视觉属性识别方法,其特征在于,包括:
利用预设神经网络模型的第一部分,获取目标图像的基础视觉信息;
利用所述预设神经网络模型的第二部分、以及所述基础视觉信息获取全局视觉信息、以及局部视觉信息;
根据所述局部视觉信息中的各个特征的重要性,将所述局部视觉信息处理得到第一局部调整信息;
根据所述全局视觉信息中各个特征的重要性,将所述全局视觉信息处理得到第一全局调整信息;
根据所述第一局部调整信息将所述全局视觉信息进行调整,得到调整后的全局视觉信息;
根据所述第一全局调整信息将所述局部视觉信息进行调整,得到调整后的局部视觉信息;
根据所述调整后的全局视觉信息或/和局部视觉信息对所述目标图像进行视觉属性识别。
2.根据权利要求1所述的视觉属性识别方法,其特征在于,所述预设神经网络模型包括第一深度残差网络子模型和第二深度残差网络子模型;
所述利用预设神经网络模型的第一部分,获取目标图像的基础视觉信息的步骤,包括:
所述第一深度残差网络子模型和所述第二深度残差网络子模型的第一部分均用于获取目标图像的基础视觉信息;
所述利用所述预设神经网络模型的第二部分、以及所述基础视觉信息获取全局视觉信息、以及局部视觉信息的步骤,包括:
利用所述第一深度残差网络子模型的第二部分、以及所述基础视觉信息获取全局视觉信息;
利用所述第二深度残差网络子模型的第二部分、以及所述基础视觉信息获取局部视觉信息。
3.根据权利要求2所述的视觉属性识别方法,其特征在于,所述第一深度残差网络子模型的第二部分具有第一参数,所述第二深度残差网络子模型的第二部分具有第二参数,所述第一参数和所述第二参数不同。
4.根据权利要求2所述的视觉属性识别方法,其特征在于,所述第一深度残差网络子模型的第二部分、以及所述第二深度残差网络子模型的第二部分均包括依次连接的多层网络;所述方法还包括:
每层网络均根据上一层网络的输出信息,获取全局视觉信息和局部视觉信息;
每层网络均根据所述局部视觉信息中的各个特征的重要性,将所述局部视觉信息处理得到第一局部调整信息;
每层网络均根据所述全局视觉信息中各个特征的重要性,将所述全局视觉信息处理得到第一全局调整信息;
每层网络均根据所述第一局部调整信息将所述全局视觉信息进行调整,得到调整后的全局视觉信息并输出;
每层网络均根据所述第一全局调整信息将所述局部视觉信息进行调整,得到调整后的局部视觉信息并输出。
5.根据权利要求1所述的视觉属性识别方法,其特征在于,
所述根据所述局部视觉信息中的各个特征的重要性,将所述局部视觉信息处理得到第一局部调整信息的步骤,包括:
根据所述局部视觉信息中的各个特征的重要性,利用预设调整算法将所述局部视觉信息处理得到第一局部调整信息;
所述根据所述全局视觉信息中各个特征的重要性,将所述全局视觉信息处理得到第一全局调整信息的步骤,包括:
根据所述全局视觉信息中各个特征的重要性,利用预设调整算法将所述全局视觉信息处理得到第一全局调整信息。
6.根据权利要求5所述的视觉属性识别方法,其特征在于,所述预设调整算法包括:
对输入信息进行处理,得到通道向量、以及空间参数;
将所述通道向量和所述空间参数组合,得到最终的输出信息。
7.根据权利要求5所述的视觉属性识别方法,其特征在于,所述对输入信息进行处理,得到通道向量、以及空间参数的步骤,包括:
对输入信息进行全局平均池化处理;
将全局平均池化处理处理后的输入信息,进行至少两层全连接层和激活层的处理,得到通道向量;
利用1x1的卷积对输入信息进行处理,得到第一中间信息;
利用3x3的卷积对所述第一中间信息提取周围的信息,得到第二中间信息;
利用1x1的卷积对所述第二中间信息处理,得到第三中间信息;
所述将所述通道向量和所述空间参数组合,得到最终的输出信息的步骤,包括:
将所述通道向量与第三中间信息组合,得到最终的输出信息。
8.根据权利要求1所述的视觉属性识别方法,其特征在于,利用预设神经网络模型的第一部分,获取目标图像的基础视觉信息的步骤之前,还包括:
获取多个样本图像、以及每个所述样本图像的局部属性和全局属性;
分别利用每个所述样本图像的局部属性和全局属性,对神经网络模型进行训练,得到训练后的预设神经网络模型。
9.一种视觉属性识别装置,其特征在于,包括:
第一视觉信息获取模块,用于利用预设神经网络模型的第一部分,获取目标图像的基础视觉信息;
第二视觉信息获取模块,用于利用所述预设神经网络模型的第二部分、以及所述基础视觉信息获取全局视觉信息、以及局部视觉信息;
调整信息获取模块,用于根据所述局部视觉信息中的各个特征的重要性,将所述局部视觉信息处理得到第一局部调整信息,以及根据所述全局视觉信息中各个特征的重要性,将所述全局视觉信息处理得到第一全局调整信息;
调整模块,用于根据所述第一局部调整信息将所述全局视觉信息进行调整,得到调整后的全局视觉信息,以及根据所述第一全局调整信息将所述局部视觉信息进行调整,得到调整后的局部视觉信息;
识别模块,用于根据所述调整后的全局视觉信息或/和局部视觉信息对所述目标图像进行视觉属性识别。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至8任一项所述的视觉属性识别方法。
CN201811277609.8A 2018-10-30 2018-10-30 视觉属性识别方法、装置及存储介质 Active CN109447095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811277609.8A CN109447095B (zh) 2018-10-30 2018-10-30 视觉属性识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811277609.8A CN109447095B (zh) 2018-10-30 2018-10-30 视觉属性识别方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN109447095A true CN109447095A (zh) 2019-03-08
CN109447095B CN109447095B (zh) 2020-09-29

Family

ID=65549333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811277609.8A Active CN109447095B (zh) 2018-10-30 2018-10-30 视觉属性识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109447095B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232407A (zh) * 2019-05-29 2019-09-13 深圳市商汤科技有限公司 图像处理方法和装置、电子设备和计算机存储介质
CN110610145A (zh) * 2019-08-28 2019-12-24 电子科技大学 一种结合全局运动参数的行为识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013071141A1 (en) * 2011-11-09 2013-05-16 Board Of Regents Of The University Of Texas System Geometric coding for billion-scale partial-duplicate image search
CN107784282B (zh) * 2017-10-24 2020-04-03 北京旷视科技有限公司 对象属性的识别方法、装置及系统
CN108021933B (zh) * 2017-11-23 2020-06-05 深圳市华尊科技股份有限公司 神经网络识别装置及识别方法
CN108171260B (zh) * 2017-12-15 2022-02-11 百度在线网络技术(北京)有限公司 一种图片识别方法及系统
CN108681707A (zh) * 2018-05-15 2018-10-19 桂林电子科技大学 基于全局和局部特征融合的大角度车型识别方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232407A (zh) * 2019-05-29 2019-09-13 深圳市商汤科技有限公司 图像处理方法和装置、电子设备和计算机存储介质
CN110610145A (zh) * 2019-08-28 2019-12-24 电子科技大学 一种结合全局运动参数的行为识别方法

Also Published As

Publication number Publication date
CN109447095B (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
Wang et al. Cnn+ cnn: Convolutional decoders for image captioning
KR102400017B1 (ko) 객체를 식별하는 방법 및 디바이스
US20220262162A1 (en) Face detection method, apparatus, and device, and training method, apparatus, and device for image detection neural network
CN105912990B (zh) 人脸检测的方法及装置
Mo et al. Human physical activity recognition based on computer vision with deep learning model
CN108780519A (zh) 卷积神经网络中的结构学习
JP6159489B2 (ja) 顔認証方法およびシステム
LeCun Deep learning & convolutional networks.
CN103988232B (zh) 使用运动流形来改进图像匹配
CN107742107A (zh) 人脸图像分类方法、装置及服务器
KR20160061856A (ko) 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치
CN107077201A (zh) 用于多模式会话交互中的口头语言理解的眼睛注视
KR20190056720A (ko) 뉴럴 네트워크 학습 방법 및 디바이스
CN109117897A (zh) 基于卷积神经网络的图像处理方法、装置及可读存储介质
CN111212303A (zh) 视频推荐方法、服务器和计算机可读存储介质
CN110909680A (zh) 人脸图像的表情识别方法、装置、电子设备及存储介质
CN108509904A (zh) 用于生成信息的方法和装置
CN112418302A (zh) 一种任务预测方法及装置
CN108229432A (zh) 人脸标定方法及装置
Liu Human face expression recognition based on deep learning-deep convolutional neural network
CN109447095A (zh) 视觉属性识别方法、装置及存储介质
He et al. Facial landmark localization by part-aware deep convolutional network
Travieso et al. Using a Discrete Hidden Markov Model Kernel for lip-based biometric identification
Sharir et al. Video object segmentation using tracked object proposals
He et al. Visible spectral Iris segmentation via deep convolutional network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant