CN109871909B - 图像识别方法及装置 - Google Patents
图像识别方法及装置 Download PDFInfo
- Publication number
- CN109871909B CN109871909B CN201910304829.3A CN201910304829A CN109871909B CN 109871909 B CN109871909 B CN 109871909B CN 201910304829 A CN201910304829 A CN 201910304829A CN 109871909 B CN109871909 B CN 109871909B
- Authority
- CN
- China
- Prior art keywords
- image
- neural network
- label information
- residual
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种图像识别方法及装置,其中方法包括:获取待识别的图像;将图像输入残差神经网络的第一预设块,获取图像对应的第一图像特征;将第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层,得到具有位置表征和通道表征的表征图像特征,以及对应的第一标签信息;将第一图像特征输入依次排列的第二卷积层和双向神经网络,得到具有标签相关性表征的第二标签信息;根据第一标签信息和第二标签信息,确定图像对应的标签信息,从而能够结合标签之间的位置关系以及相关性来对图像进行多标签识别,能够准确识别出图像中的多个标签,提高图像识别效率。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像识别方法及装置。
背景技术
目前的图像识别方法,在进行多标签识别时,是将每个标签看作独立的,互不相关的,对每个标签单独进行识别,而图像的多标签之间一般具有固定的位置关系和相关性,例如“天空”标签一般在图像上方,“草地”标签一般在图像下方,且“天空”标签和“白云”标签之间的相关性比较大,经常会同时出现。而上述的图像识别方法在进行多标签识别时并不涉及标签之间的位置关系和相关性,难以准确识别出图像中的多个标签,图像识别效率差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种图像识别方法,用于解决现有技术中图像识别效率差的问题。
本发明的第二个目的在于提出一种图像识别装置。
本发明的第三个目的在于提出另一种图像识别装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种图像识别方法,包括:
获取待识别的图像;
将所述图像输入残差神经网络的第一预设块,获取所述图像对应的第一图像特征;
将所述第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层,得到具有位置表征和通道表征的表征图像特征,以及对应的第一标签信息;
将所述第一图像特征输入依次排列的第二卷积层和双向神经网络,得到具有标签相关性表征的第二标签信息;
根据所述第一标签信息和所述第二标签信息,确定所述图像对应的标签信息。
可选地,所述注意力模型包括:位置注意力模块和通道注意力模块;
所述将所述第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层,得到具有位置表征和通道表征的表征图像特征,以及对应的第一标签信息,包括:
将所述第一图像特征输入残差神经网络的第二预设块,得到第二图像特征;
将所述第二图像特征分别输入位置注意力模块和通道注意力模块,获取具有位置表征的图像特征和具有通道表征的图像特征;
对具有位置表征的图像特征和具有通道表征的图像特征进行融合,得到所述表征图像特征;
将所述表征图像特征输入第一卷积层和池化层,得到所述第一标签信息。
可选地,所述将所述第一图像特征输入依次排列的第二卷积层和双向神经网络,得到具有标签相关性表征的第二标签信息,包括:
将所述第一图像特征输入第二卷积层,得到类别注意力图,所述类别注意力图中包括:所述图像中各个类别对应的图像特征;
将所述类别注意力图输入所述双向神经网络,获取具有标签相关性表征的第二标签信息。
可选地,所述根据所述第一标签信息和所述第二标签信息,确定所述图像对应的标签信息,包括:
对所述第一标签信息和所述第二标签信息进行加权求和,得到所述图像对应的标签信息。
可选地,所述将所述图像输入残差神经网络的第一预设块,获取所述图像对应的第一图像特征之前,还包括:
获取训练数据,所述训练数据中包括:大于预设数量的图像以及对应的真实标签信息;
根据所述训练数据,对所述残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络进行训练。
可选地,所述根据所述训练数据,对所述残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络进行训练,包括:
针对所述训练数据中的每个图像,获取所述图像对应的第一标签信息;根据所述图像对应的第一标签信息以及真实标签信息,计算第一交叉熵,根据第一交叉熵对残差神经网络、注意力模型、第一卷积层和池化层的系数进行调整,直至第一交叉熵处于稳定状态;
固定所述残差神经网络的第一预设块的系数,针对所述训练数据中的每个图像,获取所述图像对应的第二标签信息,根据所述图像对应的第二标签信息以及真实标签信息,计算第二交叉熵,根据第二交叉熵对所述第二卷积层以及所述双向神经网络的系数进行调整,直至第二交叉熵处于稳定状态。
可选地,所述根据第二交叉熵对所述第二卷积层以及所述双向神经网络的系数进行调整之后,还包括:
针对所述训练数据中的每个图像,重新获取所述图像对应的第一标签信息和第二标签信息;
根据重新获取的第一标签信息、第二标签信息以及真实标签信息,重新计算第一交叉熵和第二交叉熵;
根据重新计算的第一交叉熵和重新计算的第二交叉熵对所述残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络的系数进行微调,直至重新计算的第一交叉熵和重新计算的第二交叉熵的和处于稳定状态。
可选地,所述双向神经网络为双向长短期记忆网络或者双向循环神经网络。
可选地,所述残差神经网络包括:5个残差块;
所述第一预设块为所述残差神经网络中的前4个残差块;
所述第二预设块为所述残差神经网络中的第5个残差块。
本发明实施例的图像识别方法,通过获取待识别的图像;将图像输入残差神经网络的第一预设块,获取图像对应的第一图像特征;将第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层,得到具有位置表征和通道表征的表征图像特征,以及对应的第一标签信息;将第一图像特征输入依次排列的第二卷积层和双向神经网络,得到具有标签相关性表征的第二标签信息;根据第一标签信息和第二标签信息,确定图像对应的标签信息,从而能够结合标签之间的位置关系以及相关性来对图像进行多标签识别,能够准确识别出图像中的多个标签,提高图像识别效率。
为达上述目的,本发明第二方面实施例提出了一种图像识别装置,包括:
获取模块,用于获取待识别的图像;
输入模块,用于将所述图像输入残差神经网络的第一预设块,获取所述图像对应的第一图像特征;
所述输入模块,还用于将所述第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层,得到具有位置表征和通道表征的表征图像特征,以及对应的第一标签信息;
所述输入模块,还用于将所述第一图像特征输入依次排列的第二卷积层和双向神经网络,得到具有标签相关性表征的第二标签信息;
确定模块,用于根据所述第一标签信息和所述第二标签信息,确定所述图像对应的标签信息。
本发明实施例的图像识别装置,通过获取待识别的图像;将图像输入残差神经网络的第一预设块,获取图像对应的第一图像特征;将第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层,得到具有位置表征和通道表征的表征图像特征,以及对应的第一标签信息;将第一图像特征输入依次排列的第二卷积层和双向神经网络,得到具有标签相关性表征的第二标签信息;根据第一标签信息和第二标签信息,确定图像对应的标签信息,从而能够结合标签之间的位置关系以及相关性来对图像进行多标签识别,能够准确识别出图像中的多个标签,提高图像识别效率。
为达上述目的,本发明第三方面实施例提出了另一种图像识别装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的图像识别方法。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令被处理器执行时,实现如上所述的方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种图像识别方法的流程示意图;
图2为所采用的网络模型的示意图;
图3为位置注意力模块的结构图;
图4为通道注意力模块的结构图;
图5为本发明实施例提供的另一种图像识别方法的流程示意图;
图6为本发明实施例提供的一种图像识别装置的结构示意图;
图7为本发明实施例提供的另一种图像识别装置的结构示意图;
图8为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的图像识别方法及装置。
图1为本发明实施例提供的一种图像识别方法的流程示意图。如图1所示,该图像识别方法包括以下步骤:
S101、获取待识别的图像。
本发明提供的图像识别方法的执行主体为图像识别装置,图像识别装置具体可以为移动终端、服务器等硬件设备,或者为硬件设备上安装的软件。本实施例中,待识别的图像例如可以为具有多个标签的图像。其中,标签例如天空、草地、白云、人物、马等。
S102、将图像输入残差神经网络的第一预设块,获取图像对应的第一图像特征。
本实施例中,残差神经网络可以包括:5个残差块。其中,第一预设块为残差神经网络中的前4个残差块;第二预设块为残差神经网络中的第5个残差块。本实施例中,将图像输入残差神经网络,依次通过残差神经网络的前4个残差块,第4个残差块的输出为第一图像特征。本实施例中,残差神经网络可以为经过预训练的残差神经网络。需要说明的是,本实施例中涉及的图像特征都是以矩阵的形式表示。对图像特征的处理,指的是对矩阵的运算处理。
S103、将第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层,得到具有位置表征和通道表征的表征图像特征,以及对应的第一标签信息。
本实施例中,注意力模型可以包括:位置注意力模块和通道注意力模块。对应的,图像识别装置执行步骤103的过程具体可以为,将第一图像特征输入残差神经网络的第二预设块,得到第二图像特征;将第二图像特征分别输入位置注意力模块和通道注意力模块,获取具有位置表征的图像特征和具有通道表征的图像特征;对具有位置表征的图像特征和具有通道表征的图像特征进行融合,得到表征图像特征;将表征图像特征输入第一卷积层和池化层,得到第一标签信息。
其中,位置注意力模块和通道注意力模块可以如图2所示,图2为所采用的网络模型的示意图。在图2中,残差神经网络的第一预设块之后连接有一个主干网和一个支路网;主干网中包括:残差神经网络的第二预设块、位置注意力模块和通道注意力模块组成的注意力模型、第一卷积层以及池化层;支路网中包括:第二卷积层和双向神经网络。
本实施例中,位置注意力模块PAM用于在第二图像特征中融合多个标签的位置关系,得到具有位置表征的图像特征。其中,位置注意力模块的结构图可以如图3所示,在图3中,首先计算出第二图像特征中任意两点特征之间的关联强度矩阵,即第二图像特征A经过卷积降维获得表征空间远程上下文信息的新特征B和C以及表征各点特征的特征D,改变特征B和特征C的维度,然后对特征B和特征C进行矩阵乘积获得任意两点特征之间的关联强度矩阵;然后通过softmax操作对关联强度矩阵进行归一化获得每个位置对其他位置的注意力图S,其中越相似的两点特征之间,其响应值越大;接着通过位置之间的注意力图S对特征D加权进行融合,使得各个位置之间产生全局的关联;然后将加权融合后的特征与第二图像特征A进行求和运算,获得具有位置表征的图像特征。
本实施例中,通道注意力模块CAM用于在第二图像特征中融合多个标签之间的相关性,得到具有通道表征的图像特征。其中,通道注意力模块的结构图可以如图4所示,在图4中,首先计算出第二图像特征中任意两个通道之间的关联强度矩阵;然后通过softmax操作获得通道间的注意力图;最后通过通道之间的注意力图加权进行融合,使得各个通道之间产生全局的关联,获得具有通道表征的图像特征。
其中,具有位置表征的图像特征和具有通道表征的图像特征为矩阵,对具有位置表征的图像特征和具有通道表征的图像特征进行融合,指的是将两个矩阵对应维度相加的过程。本实施例中,第一卷积层和池化层具体用于对表征图像特征进行降维处理,得到第一标签信息。其中,第二卷积层可以为1层卷积,该层卷积的卷积核大小为3﹡3﹡2048。
S104、将第一图像特征输入依次排列的第二卷积层和双向神经网络,得到具有标签相关性表征的第二标签信息。
本实施例中,图像识别装置执行步骤104的过程具体可以为,将第一图像特征输入第二卷积层,得到类别注意力图,类别注意力图中包括:图像中各个类别对应的图像特征;将类别注意力图输入双向神经网络,获取具有标签相关性表征的第二标签信息。
其中,以第一图像特征的大小为14﹡14﹡1024为例,第二卷积层可以为3层卷积,3层卷积的卷积核大小分别为1﹡1﹡1024,3﹡3﹡512,1﹡1﹡K;通过采用3层卷积对第一图像特征进行降维处理,得到类别注意力图。其中,类别注意力图的大小为14﹡14﹡K,K为类别总数,14﹡14为每个类别对应的图像特征的维度。
本实施例中,双向神经网络可以为双向长短期记忆网络(Bi-directional Long-Short Term Memory,Bi-LSTM)或者双向循环神经网络(Bi-directional RecurrentNeural Network,Bi-RNN)。其中,双向长短期记忆网络是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。而类别注意力图中各个类别对应的图像特征之间的相关的,具有依赖性,采用双向长短期记忆网络能够识别这种依赖性,得到具有标签相关性表征的第二标签信息。
S105、根据第一标签信息和第二标签信息,确定图像对应的标签信息。
本实施例中,图像识别装置执行步骤105的过程具体可以为,对第一标签信息和第二标签信息进行加权求和,得到图像对应的标签信息。其中,加权求和可以为根据第一标签信息的权重和第二标签信息的权重进行加权求和,或者,可以为对第一标签信息和第二标签信息求平均值,得到图像对应的标签信息。
本发明实施例的图像识别方法,通过获取待识别的图像;将图像输入残差神经网络的第一预设块,获取图像对应的第一图像特征;将第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层,得到具有位置表征和通道表征的表征图像特征,以及对应的第一标签信息;将第一图像特征输入依次排列的第二卷积层和双向神经网络,得到具有标签相关性表征的第二标签信息;根据第一标签信息和第二标签信息,确定图像对应的标签信息,从而能够结合标签之间的位置关系以及相关性来对图像进行多标签识别,能够准确识别出图像中的多个标签,提高图像识别效率。
图5为本发明实施例提供的另一种图像识别方法的流程示意图,如图5所示,在图1所示实施例的基础上,步骤101之前,所述的方法还可以包括以下步骤:
S106、获取训练数据,训练数据中包括:大于预设数量的图像以及对应的真实标签信息。
S107、根据训练数据,对残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络进行训练。
本实施例中,图像识别装置执行步骤107的过程具体可以为,针对训练数据中的每个图像,获取图像对应的第一标签信息;根据图像对应的第一标签信息以及真实标签信息,计算第一交叉熵,根据第一交叉熵对残差神经网络、注意力模型、第一卷积层和池化层的系数进行调整,直至第一交叉熵处于稳定状态;固定残差神经网络的第一预设块的系数,针对训练数据中的每个图像,获取图像对应的第二标签信息,根据图像对应的第二标签信息以及真实标签信息,计算第二交叉熵,根据第二交叉熵对第二卷积层以及双向神经网络的系数进行调整,直至第二交叉熵处于稳定状态。其中,交叉熵的计算公式例如可以如以下公式(1)所示。
进一步地,在上述实施例的基础上,根据第二交叉熵对第二卷积层以及双向神经网络的系数进行调整之后,所述的方法还可以包括以下步骤:针对训练数据中的每个图像,重新获取图像对应的第一标签信息和第二标签信息;根据重新获取的第一标签信息、第二标签信息以及真实标签信息,重新计算第一交叉熵和第二交叉熵;根据重新计算的第一交叉熵和重新计算的第二交叉熵对残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络的系数进行微调,直至重新计算的第一交叉熵和重新计算的第二交叉熵的和处于稳定状态。
本实施例中,先结合训练数据,对残差神经网络以及主干网进行训练;固定残差神经网络第一预设块的系数,对支路网进行训练;然后对整个网络模型的系数进行微调,相对于对整个网络模型采用训练数据进行整体训练来说,能够大大提高整个网络模型的准确度,进而提高图像识别的准确度。
图6为本发明实施例提供的一种图像识别装置的结构示意图。如图6所示,包括:获取模块61、输入模块62和确定模块63。
其中,获取模块61,用于获取待识别的图像;
输入模块62,用于将所述图像输入残差神经网络的第一预设块,获取所述图像对应的第一图像特征;
所述输入模块62,还用于将所述第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层,得到具有位置表征和通道表征的表征图像特征,以及对应的第一标签信息;
所述输入模块62,还用于将所述第一图像特征输入依次排列的第二卷积层和双向神经网络,得到具有标签相关性表征的第二标签信息;
确定模块63,用于根据所述第一标签信息和所述第二标签信息,确定所述图像对应的标签信息。
本发明提供的图像识别装置具体可以为移动终端、服务器等硬件设备,或者为硬件设备上安装的软件。本实施例中,待识别的图像例如可以为具有多个标签的图像。其中,标签例如天空、草地、白云、人物、马等。
本实施例中,残差神经网络可以包括:5个残差块。其中,第一预设块为残差神经网络中的前4个残差块;第二预设块为残差神经网络中的第5个残差块。本实施例中,将图像输入残差神经网络,依次通过残差神经网络的前4个残差块,第4个残差块的输出为第一图像特征。本实施例中,残差神经网络可以为经过预训练的残差神经网络。需要说明的是,本实施例中涉及的图像特征都是以矩阵的形式表示。对图像特征的处理,指的是对矩阵的运算处理。
本实施例中,注意力模型可以包括:位置注意力模块和通道注意力模块。对应的,输入模块62具体可以用于,将第一图像特征输入残差神经网络的第二预设块,得到第二图像特征;将第二图像特征分别输入位置注意力模块和通道注意力模块,获取具有位置表征的图像特征和具有通道表征的图像特征;对具有位置表征的图像特征和具有通道表征的图像特征进行融合,得到表征图像特征;将表征图像特征输入第一卷积层和池化层,得到第一标签信息。
其中,位置注意力模块和通道注意力模块可以如图2所示,图2为所采用的网络模型的示意图。在图2中,残差神经网络的第一预设块之后连接有一个主干网和一个支路网;主干网中包括:残差神经网络的第二预设块、位置注意力模块和通道注意力模块组成的注意力模型、第一卷积层以及池化层。
本实施例中,位置注意力模块PAM用于在第二图像特征中融合多个标签的位置关系,得到具有位置表征的图像特征。通道注意力模块CAM用于在第二图像特征中融合多个标签之间的相关性,得到具有通道表征的图像特征。
其中,具有位置表征的图像特征和具有通道表征的图像特征为矩阵,对具有位置表征的图像特征和具有通道表征的图像特征进行融合,指的是将两个矩阵对应维度相加的过程。本实施例中,第一卷积层和池化层具体用于对表征图像特征进行降维处理,得到第一标签信息。其中,第二卷积层可以为1层卷积,该层卷积的卷积核大小为3﹡3﹡2048。
进一步地,在上述实施例的基础上,所述输入模块62具体可以用于,将第一图像特征输入第二卷积层,得到类别注意力图,类别注意力图中包括:图像中各个类别对应的图像特征;将类别注意力图输入双向神经网络,获取具有标签相关性表征的第二标签信息。
其中,以第一图像特征的大小为14﹡14﹡1024为例,第二卷积层可以为3层卷积,3层卷积的卷积核大小分别为1﹡1﹡1024,3﹡3﹡512,1﹡1﹡K;通过采用3层卷积对第一图像特征进行降维处理,得到类别注意力图。其中,类别注意力图的大小为14﹡14﹡K,K为类别总数,14﹡14为每个类别对应的图像特征的维度。
本实施例中,双向神经网络可以为双向长短期记忆网络或者双向RNN网络。其中,双向长短期记忆网络是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。而类别注意力图中各个类别对应的图像特征之间的相关的,具有依赖性,采用双向长短期记忆网络能够识别这种依赖性,得到具有标签相关性表征的第二标签信息。
本实施例中,确定模块63具体可以用于,对第一标签信息和第二标签信息进行加权求和,得到图像对应的标签信息。其中,加权求和可以为根据第一标签信息的权重和第二标签信息的权重进行加权求和,或者,可以为对第一标签信息和第二标签信息求平均值,得到图像对应的标签信息。
本发明实施例的图像识别装置,通过获取待识别的图像;将图像输入残差神经网络的第一预设块,获取图像对应的第一图像特征;将第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层,得到具有位置表征和通道表征的表征图像特征,以及对应的第一标签信息;将第一图像特征输入依次排列的第二卷积层和双向神经网络,得到具有标签相关性表征的第二标签信息;根据第一标签信息和第二标签信息,确定图像对应的标签信息,从而能够结合标签之间的位置关系以及相关性来对图像进行多标签识别,能够准确识别出图像中的多个标签,提高图像识别效率。
图7为本发明实施例提供的另一种图像识别装置的结构示意图,如图7所示,在图6所示实施例的基础上,所述的装置还可以包括:训练模块64;
其中,所述获取模块61,还用于获取训练数据,训练数据中包括:大于预设数量的图像以及对应的真实标签信息;
所述训练模块64,用于根据训练数据,对残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络进行训练。
本实施例中,训练模块64具体可以用于,针对训练数据中的每个图像,获取图像对应的第一标签信息;根据图像对应的第一标签信息以及真实标签信息,计算第一交叉熵,根据第一交叉熵对残差神经网络、注意力模型、第一卷积层和池化层的系数进行调整,直至第一交叉熵处于稳定状态;固定残差神经网络的第一预设块的系数,针对训练数据中的每个图像,获取图像对应的第二标签信息,根据图像对应的第二标签信息以及真实标签信息,计算第二交叉熵,根据第二交叉熵对第二卷积层以及双向神经网络的系数进行调整,直至第二交叉熵处于稳定状态。
进一步地,在上述实施例的基础上,根据第二交叉熵对第二卷积层以及双向神经网络的系数进行调整之后,训练模块64具体还可以用于,针对训练数据中的每个图像,重新获取图像对应的第一标签信息和第二标签信息;根据重新获取的第一标签信息、第二标签信息以及真实标签信息,重新计算第一交叉熵和第二交叉熵;根据重新计算的第一交叉熵和重新计算的第二交叉熵对残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络的系数进行微调,直至重新计算的第一交叉熵和重新计算的第二交叉熵的和处于稳定状态。
本实施例中,先结合训练数据,对残差神经网络以及主干网进行训练;固定残差神经网络第一预设块的系数,对支路网进行训练;然后对整个网络模型的系数进行微调,相对于对整个网络模型采用训练数据进行整体训练来说,能够大大提高整个网络模型的准确度,进而提高图像识别的准确度。
本发明还提供一种图像识别装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的图像识别方法。
图8示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图8显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器52。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统54可以用于读写不可移动的、非易失性磁介质(图8未显示,通常称为“硬盘驱动器”)。尽管图8中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块72的程序/实用工具50,可以存储在例如存储器28中,这样的程序模块72包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
本发明还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的图像识别方法。
本发明还提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的图像识别方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种图像识别方法,其特征在于,包括:
获取待识别的图像;
将所述图像输入残差神经网络的第一预设块,获取所述图像对应的第一图像特征;
将所述第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层,得到具有位置表征和通道表征的表征图像特征,以及对应的第一标签信息;
将所述第一图像特征输入依次排列的第二卷积层和双向神经网络,得到具有标签相关性表征的第二标签信息;
根据所述第一标签信息和所述第二标签信息,确定所述图像对应的标签信息;
其中,所述双向神经网络为双向长短期记忆网络或者双向循环神经网络;
所述残差神经网络包括:5个残差块;
所述第一预设块为所述残差神经网络中的前4个残差块;
所述第二预设块为所述残差神经网络中的第5个残差块。
2.根据权利要求1所述的方法,其特征在于,所述注意力模型包括:位置注意力模块和通道注意力模块;
所述将所述第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层,得到具有位置表征和通道表征的表征图像特征,以及对应的第一标签信息,包括:
将所述第一图像特征输入残差神经网络的第二预设块,得到第二图像特征;
将所述第二图像特征分别输入位置注意力模块和通道注意力模块,获取具有位置表征的图像特征和具有通道表征的图像特征;
对具有位置表征的图像特征和具有通道表征的图像特征进行融合,得到所述表征图像特征;
将所述表征图像特征输入第一卷积层和池化层,得到所述第一标签信息。
3.根据权利要求1所述的方法,其特征在于,所述将所述第一图像特征输入依次排列的第二卷积层和双向神经网络,得到具有标签相关性表征的第二标签信息,包括:
将所述第一图像特征输入第二卷积层,得到类别注意力图,所述类别注意力图中包括:所述图像中各个类别对应的图像特征;
将所述类别注意力图输入所述双向神经网络,获取具有标签相关性表征的第二标签信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一标签信息和所述第二标签信息,确定所述图像对应的标签信息,包括:
对所述第一标签信息和所述第二标签信息进行加权求和,得到所述图像对应的标签信息。
5.根据权利要求1所述的方法,其特征在于,所述将所述图像输入残差神经网络的第一预设块,获取所述图像对应的第一图像特征之前,还包括:
获取训练数据,所述训练数据中包括:大于预设数量的图像以及对应的真实标签信息;
根据所述训练数据,对所述残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络进行训练。
6.根据权利要求5所述的方法,其特征在于,所述根据所述训练数据,对所述残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络进行训练,包括:
针对所述训练数据中的每个图像,获取所述图像对应的第一标签信息;根据所述图像对应的第一标签信息以及真实标签信息,计算第一交叉熵,根据第一交叉熵对残差神经网络、注意力模型、第一卷积层和池化层的系数进行调整,直至第一交叉熵处于稳定状态;
固定所述残差神经网络的第一预设块的系数,针对所述训练数据中的每个图像,获取所述图像对应的第二标签信息,根据所述图像对应的第二标签信息以及真实标签信息,计算第二交叉熵,根据第二交叉熵对所述第二卷积层以及所述双向神经网络的系数进行调整,直至第二交叉熵处于稳定状态。
7.根据权利要求6所述的方法,其特征在于,所述根据第二交叉熵对所述第二卷积层以及所述双向神经网络的系数进行调整之后,还包括:
针对所述训练数据中的每个图像,重新获取所述图像对应的第一标签信息和第二标签信息;
根据重新获取的第一标签信息、第二标签信息以及真实标签信息,重新计算第一交叉熵和第二交叉熵;
根据重新计算的第一交叉熵和重新计算的第二交叉熵对所述残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络的系数进行微调,直至重新计算的第一交叉熵和重新计算的第二交叉熵的和处于稳定状态。
8.一种图像识别装置,其特征在于,包括:
获取模块,用于获取待识别的图像;
输入模块,用于将所述图像输入残差神经网络的第一预设块,获取所述图像对应的第一图像特征;
所述输入模块,还用于将所述第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层,得到具有位置表征和通道表征的表征图像特征,以及对应的第一标签信息;
所述输入模块,还用于将所述第一图像特征输入依次排列的第二卷积层和双向神经网络,得到具有标签相关性表征的第二标签信息;
确定模块,用于根据所述第一标签信息和所述第二标签信息,确定所述图像对应的标签信息;
其中,所述双向神经网络为双向长短期记忆网络或者双向循环神经网络;
所述残差神经网络包括:5个残差块;
所述第一预设块为所述残差神经网络中的前4个残差块;
所述第二预设块为所述残差神经网络中的第5个残差块。
9.一种图像识别装置,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的图像识别方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的图像识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910304829.3A CN109871909B (zh) | 2019-04-16 | 2019-04-16 | 图像识别方法及装置 |
US16/542,597 US11100320B2 (en) | 2019-04-16 | 2019-08-16 | Image recognition method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910304829.3A CN109871909B (zh) | 2019-04-16 | 2019-04-16 | 图像识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109871909A CN109871909A (zh) | 2019-06-11 |
CN109871909B true CN109871909B (zh) | 2021-10-01 |
Family
ID=66922716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910304829.3A Active CN109871909B (zh) | 2019-04-16 | 2019-04-16 | 图像识别方法及装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11100320B2 (zh) |
CN (1) | CN109871909B (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11494616B2 (en) * | 2019-05-09 | 2022-11-08 | Shenzhen Malong Technologies Co., Ltd. | Decoupling category-wise independence and relevance with self-attention for multi-label image classification |
CN110704650B (zh) * | 2019-09-29 | 2023-04-25 | 携程计算机技术(上海)有限公司 | Ota图片标签的识别方法、电子设备和介质 |
CN111008554B (zh) * | 2019-10-16 | 2024-02-02 | 合肥湛达智能科技有限公司 | 一种基于深度学习的动态交通斑马线内不礼让行人识别方法 |
CN110807495B (zh) * | 2019-11-08 | 2023-09-12 | 腾讯科技(深圳)有限公司 | 多标签分类方法、装置、电子设备及存储介质 |
US11275934B2 (en) * | 2019-11-20 | 2022-03-15 | Sap Se | Positional embeddings for document processing |
CN111476408B (zh) * | 2020-03-26 | 2023-07-25 | 国网江苏省电力有限公司信息通信分公司 | 一种电力通信设备状态预测方法及系统 |
CN111126514A (zh) * | 2020-03-30 | 2020-05-08 | 同盾控股有限公司 | 图像多标签分类方法、装置、设备及介质 |
CN111522986B (zh) | 2020-04-23 | 2023-10-10 | 北京百度网讯科技有限公司 | 图像检索方法、装置、设备和介质 |
CN112016450B (zh) * | 2020-08-27 | 2023-09-05 | 京东方科技集团股份有限公司 | 机器学习模型的训练方法、装置和电子设备 |
CN112329736B (zh) * | 2020-11-30 | 2022-04-12 | 上海华瑞银行股份有限公司 | 人脸识别方法及金融系统 |
CN112633357A (zh) * | 2020-12-18 | 2021-04-09 | 北京地平线信息技术有限公司 | 样本图像生成方法和装置、图像识别模型生成方法和装置 |
CN112836076A (zh) * | 2021-01-27 | 2021-05-25 | 京东方科技集团股份有限公司 | 一种图像标签生成方法、装置及设备 |
CN112883843B (zh) * | 2021-02-02 | 2022-06-03 | 清华大学 | 驾驶员视觉显著区域检测方法、装置和计算机设备 |
CN112906609B (zh) * | 2021-03-05 | 2022-06-07 | 清华大学 | 基于双路交叉注意力网络的视频重要区域预测方法和装置 |
CN112906720B (zh) * | 2021-03-19 | 2022-03-22 | 河北工业大学 | 基于图注意力网络的多标签图像识别方法 |
CN113177455B (zh) * | 2021-04-23 | 2023-01-24 | 中国科学院计算技术研究所 | 一种用于识别运动强度的方法和系统 |
CN113408571B (zh) * | 2021-05-08 | 2022-07-19 | 浙江智慧视频安防创新中心有限公司 | 一种基于模型蒸馏的图像分类方法、装置、存储介质及终端 |
CN113222044B (zh) * | 2021-05-25 | 2022-03-08 | 合肥工业大学 | 一种基于三元注意力和尺度关联融合的宫颈液基细胞分类方法 |
CN113343017B (zh) * | 2021-06-10 | 2022-12-02 | 浙江大华技术股份有限公司 | 图像特征点相似度的确定方法及装置 |
CN113327199B (zh) * | 2021-06-16 | 2023-01-20 | 展讯通信(天津)有限公司 | 一种多帧图像重建方法、系统及设备 |
CN113361442B (zh) * | 2021-06-21 | 2024-03-29 | 梅卡曼德(北京)机器人科技有限公司 | 图像识别方法、装置、电子设备和存储介质 |
CN113139627B (zh) * | 2021-06-22 | 2021-11-05 | 北京小白世纪网络科技有限公司 | 纵隔肿物识别方法、系统及装置 |
CN113627466B (zh) * | 2021-06-30 | 2023-06-13 | 北京三快在线科技有限公司 | 图像标签识别方法、装置、电子设备及可读存储介质 |
CN113570341B (zh) * | 2021-07-30 | 2024-01-16 | 国网数字科技控股有限公司 | 一种配网设备信息录入方法及装置 |
CN113486981B (zh) * | 2021-07-30 | 2023-02-07 | 西安电子科技大学 | 基于多尺度特征注意力融合网络的rgb图像分类方法 |
CN113780075B (zh) * | 2021-08-05 | 2024-04-23 | 深兰科技(上海)有限公司 | 骨架动作图生成方法、生成装置、计算机设备及介质 |
CN113807395A (zh) * | 2021-08-10 | 2021-12-17 | 深延科技(北京)有限公司 | 模型训练方法、超分辨率感知方法及相关装置 |
CN113610739A (zh) * | 2021-08-10 | 2021-11-05 | 平安国际智慧城市科技股份有限公司 | 图像数据增强方法、装置、设备及存储介质 |
CN113610032A (zh) * | 2021-08-16 | 2021-11-05 | 北京市城市规划设计研究院 | 基于遥感影像的建筑物识别方法和装置 |
CN113627553B (zh) * | 2021-08-18 | 2024-03-15 | 国网福建省电力有限公司营销服务中心 | 一种用于电能表异常标签识别的图像识别方法及系统 |
CN114549624B (zh) * | 2022-01-29 | 2023-07-14 | 上海擎朗智能科技有限公司 | 一种标签识别的方法、装置、电子设备、存储介质及标签 |
CN116612338B (zh) * | 2023-07-21 | 2023-09-29 | 华中科技大学 | 基于网络状态索引卷积神经网络集的图像识别方法及系统 |
CN117746463A (zh) * | 2023-12-20 | 2024-03-22 | 脉得智能科技(无锡)有限公司 | 体征信息识别方法、系统和电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229519A (zh) * | 2017-02-17 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像分类的方法、装置及系统 |
CN108364023A (zh) * | 2018-02-11 | 2018-08-03 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和系统 |
CN109598191A (zh) * | 2018-10-23 | 2019-04-09 | 北京市商汤科技开发有限公司 | 行人重识别残差网络训练方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102657513A (zh) * | 2012-04-10 | 2012-09-12 | 中国航空无线电电子研究所 | 一种人眼红外图像瞳孔位置检测方法 |
US10528846B2 (en) * | 2016-11-14 | 2020-01-07 | Samsung Electronics Co., Ltd. | Method and apparatus for analyzing facial image |
US10642887B2 (en) * | 2016-12-27 | 2020-05-05 | Adobe Inc. | Multi-modal image ranking using neural networks |
CN108108499B (zh) * | 2018-02-07 | 2023-05-26 | 腾讯科技(深圳)有限公司 | 人脸检索方法、装置、存储介质及设备 |
CN109345476A (zh) * | 2018-09-19 | 2019-02-15 | 南昌工程学院 | 基于深度残差网络的高光谱图像超分辨率重建方法及装置 |
US10726062B2 (en) * | 2018-11-30 | 2020-07-28 | Sony Interactive Entertainment Inc. | System and method for converting image data into a natural language description |
US10430946B1 (en) * | 2019-03-14 | 2019-10-01 | Inception Institute of Artificial Intelligence, Ltd. | Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques |
-
2019
- 2019-04-16 CN CN201910304829.3A patent/CN109871909B/zh active Active
- 2019-08-16 US US16/542,597 patent/US11100320B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229519A (zh) * | 2017-02-17 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像分类的方法、装置及系统 |
CN108364023A (zh) * | 2018-02-11 | 2018-08-03 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和系统 |
CN109598191A (zh) * | 2018-10-23 | 2019-04-09 | 北京市商汤科技开发有限公司 | 行人重识别残差网络训练方法及装置 |
Non-Patent Citations (3)
Title |
---|
Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification;Feng Zhu 等,;《arXiv》;20170331;第2017年卷;第1-10页 * |
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention;Kelvin Xu 等,;《arXiv》;20150210;第2015年卷;第1-10页 * |
基于区域上下文感知的图像标注;邱泽宇 等,;《计算机学报》;20140630;第37卷(第6期);第1390-1397页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109871909A (zh) | 2019-06-11 |
US11100320B2 (en) | 2021-08-24 |
US20200334457A1 (en) | 2020-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871909B (zh) | 图像识别方法及装置 | |
CN109188457B (zh) | 物体检测框的生成方法、装置、设备、存储介质及车辆 | |
CN108898086B (zh) | 视频图像处理方法及装置、计算机可读介质和电子设备 | |
CN108229488B (zh) | 用于检测物体关键点的方法、装置及电子设备 | |
CN108171260B (zh) | 一种图片识别方法及系统 | |
CN108960090B (zh) | 视频图像处理方法及装置、计算机可读介质和电子设备 | |
CN109086811B (zh) | 多标签图像分类方法、装置及电子设备 | |
CN110263732B (zh) | 多尺度目标检测方法及装置 | |
CN110660484B (zh) | 骨龄预测方法、装置、介质及电子设备 | |
CN113095129B (zh) | 姿态估计模型训练方法、姿态估计方法、装置和电子设备 | |
CN111612822B (zh) | 对象跟踪方法、装置、计算机设备和存储介质 | |
CN110598714A (zh) | 一种软骨图像分割方法、装置、可读存储介质及终端设备 | |
CN112312001B (zh) | 一种图像检测的方法、装置、设备和计算机存储介质 | |
CN111274852B (zh) | 目标对象关键点检测方法和装置 | |
CN113516697B (zh) | 图像配准的方法、装置、电子设备及计算机可读存储介质 | |
CN109635868B (zh) | 障碍物类别的确定方法、装置、电子设备及存储介质 | |
CN114120454A (zh) | 活体检测模型的训练方法、装置、电子设备及存储介质 | |
CN112818946A (zh) | 年龄识别模型的训练、年龄识别方法、装置及电子设备 | |
CN110210314B (zh) | 人脸检测方法、装置、计算机设备及存储介质 | |
CN111126049B (zh) | 对象关系预测方法、装置、终端设备及可读存储介质 | |
CN111104965A (zh) | 车辆目标识别的方法及装置 | |
CN111091099A (zh) | 一种场景识别模型的构建方法、场景识别方法及设备 | |
CN110197100B (zh) | 物体定位方法和装置 | |
CN111124862B (zh) | 智能设备性能测试方法、装置及智能设备 | |
CN110647826B (zh) | 商品训练图片的获取方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |