CN108694398B - 一种图像分析方法及装置 - Google Patents
一种图像分析方法及装置 Download PDFInfo
- Publication number
- CN108694398B CN108694398B CN201710221223.4A CN201710221223A CN108694398B CN 108694398 B CN108694398 B CN 108694398B CN 201710221223 A CN201710221223 A CN 201710221223A CN 108694398 B CN108694398 B CN 108694398B
- Authority
- CN
- China
- Prior art keywords
- target
- target image
- attention
- image feature
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/245—Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
Abstract
本发明实施例提供了一种图像分析方法及装置,方法包括:从目标图像中提取至少一个目标图像特征;获得预先构建的注意力模型当前对各个目标图像特征的关注度;根据所获得的各个目标图像特征,以及各个目标图像特征对应的关注度,确定注意力模型所关注目标的识别结果,该目标由至少一个目标图像特征构成;确定各个目标图像特征所对应目标区域的第一中心位置坐标;根据各个目标图像特征对应的关注度和各个第一中心位置坐标,计算目标在目标图像中的第二中心位置坐标;将第二中心位置坐标作为具有该识别结果的目标的定位结果。应用本发明实施例,可以对所识别的目标进行快速定位,提高了分析图像的速度。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种图像分析方法及装置。
背景技术
随着技术的发展,常常需要对图像进行各种各样的分析。例如,需要对图像中的内容进行识别,并对所识别的内容进行定位等等。
现有技术中,常常采用传统分类器,例如常常利用SVM(Support Vector Machine,支持向量机)算法,对大量的图像样本进行训练,从而构建得到SVM分类器。然后基于所构建的SVM分类器,对待分析图像的图像特征进行分类,进而对待分析图像中的内容进行识别。当对图像中的某一目标识别,并得到该目标的图像特征对应的分类后,再对待分析图像进行分割、生成候选矩形框、提取候选矩形框中的图像特征,和对提取到的候选矩形框中的图像特征进行分类等操作,然后再根据各个矩形框中的图像特征所对应的分类和所识别到的目标的图像特征所对应的分类的匹配关系,建立各个候选矩形框与已识别目标的对应关系,从而实现对已识别的目标进行定位。其中,该目标属于图像内容的一部分。
但是该种方法,需要在对该目标进行识别后,才能分析识别后的目标在图像中的定位,使得该种分析方式速度较慢,不能满足用户对图像进行快速分析的需求。
发明内容
本发明实施例的目的在于提供一种图像分析方法及装置,以提高分析图像的速度。
第一方面,本发明实施例提供了一种图像分析方法,所述方法可以包括:
从目标图像中提取至少一个目标图像特征;
获得预先构建的注意力模型当前对各个目标图像特征的关注度;
根据所获得的各个目标图像特征,以及各个目标图像特征对应的关注度,确定所述注意力模型所关注目标的识别结果,其中,所述目标由至少一个目标图像特征构成;
确定所述各个目标图像特征所对应目标区域的第一中心位置坐标,其中,任一目标图像特征所对应目标区域为所述目标图像中,能够提取到该目标图像特征的图像区域;
根据各个目标图像特征对应的关注度和各个第一中心位置坐标,计算所述目标在所述目标图像中的第二中心位置坐标;
将所述第二中心位置坐标作为具有所述识别结果的所述目标的定位结果。
可选地,所述从目标图像中提取至少一个目标图像特征的步骤,可以包括:
利用卷积神经网络算法对所述目标图像进行卷积,获得至少一个目标图像特征。
可选地,所述利用卷积神经网络算法对所述目标图像进行卷积,获得至少一个目标图像特征的步骤,可以包括:
利用卷积神经网络算法对所述目标图像进行一层卷积,获得至少一个目标图像特征;
相应地,所述确定所述各个目标图像特征所对应目标区域的第一中心位置坐标的步骤,包括:
确定所述各个目标图像特征所对应目标区域;
计算所述各个目标图像特征所对应目标区域的第一中心位置坐标;
其中,确定任一目标图像特征所对应的目标区域所利用的公式可以为:
Xmin=(X-1)*stridew+1-padw
Xmax=(X-1)*stridew-padw+kernelw
Ymin=(Y-1)*strideh+1-padh
Ymax=(Y-1)*strideh-padh+kernelh
其中,所述X表示卷积得到的目标图像特征的中心位置的横坐标,所述Y表示卷积得到的该目标图像特征的中心位置的纵坐标,所述Xmin表示该目标图像特征所对应目标区域的最小横坐标,所述Xmax表示该目标图像特征所对应目标区域的最大横坐标,所述Ymin表示该目标图像特征所对应目标区域的最小纵坐标,所述Ymax表示该目标图像特征所对应目标区域的最大纵坐标,所述stridew表示对所述目标图像进行卷积时的横向步幅长度,所述strideh表示对所述目标图像进行卷积时的纵向步幅长度,所述padw表示对所述目标图像进行卷积时横向增加的像素数,padh表示对所述目标图像进行卷积时纵向增加的像素数,所述kernelw表示对所述目标图像进行卷积时所利用卷积核的宽,所述kernelh表示所述卷积核的高。
可选地,所述根据各个目标图像特征所对应的关注度和各个第一中心位置坐标,计算所述目标在所述目标图像中的第二中心位置坐标的步骤,可以包括:
针对每个第一中心位置坐标,利用相应目标图像特征对应的关注度对该第一中心位置坐标进行加权计算,得到位置加权值;
对所获得的各个位置加权值进行求和,得到第一和值;
将所述第一和值作为所述目标在所述目标图像中的第二中心位置坐标。
可选地,根据所获得的各个目标图像特征,以及各个目标图像特征对应的关注度,确定所述注意力模型所关注目标的识别结果的步骤,可以包括:
根据所获得的各个目标图像特征,以及各个目标图像特征对应的关注度,利用预先构建的循环神经网络,确定所述注意力模型所关注目标的识别结果。
可选地,所述获得预先构建的注意力模型当前对各个目标图像特征的关注度的计算公式可以为:
其中,所述at,j表示在所述注意模型在本次t关注所述目标时,目标图像特征hj所得到的关注度,其中,关注度小于等于1;所述为预设参数向量,所述T表示所述预设参数向量的维度,且所述预设参数的维度与所提取得到的目标图像特征的数目相等;所述Wa表示第一预设参数矩阵,所述Ua表示第二预设参数矩阵,所述st-1表示所述循环神经网络在所述注意模型上一次t-1关注上一目标时所对应的隐藏值。
可选地,所述根据所获得的各个图像特征,以及各个目标图像特征对应的关注度,利用预先构建的循环神经网络,确定所述注意力模型所关注目标的识别结果的步骤,可以包括:
针对每个目标图像特征,利用相应目标图像特征对应的关注度对该目标图像特征进行加权计算,得到图像特征加权值;
对所获得的各个图像特征加权值进行求和,得到第二和值;
将所述第二和值输入至预先构建的循环神经网络中,输出得到所述注意力模型当前所关注目标所对应的目标向量;
根据预设第一对应关系,获得所述目标向量对应的目标关键字,并将所述目标关键字作为所述目标的识别结果,其中,所述第一对应关系记录有预设向量和预设关键字的对应关系。
可选地,所述循环神经网络可以通过以下公式表征:
st=Recurrent(yt-1,gt,st-1)
yt=Softmax(Wst)
其中,所述st表示所述循环神经网络在在所述注意模型本次t关注所述目标时所对应的隐藏值,所述st-1表示所述循环神经网络在所述注意模型上一次t-1关注上一目标时所对应的隐藏值;所述gt表示所述第二和值;所述yt表示所述循环神经网络在所述注意力模型本次t关注所述目标时所输出的目标向量,所述yt-1表示所述循环神经网络在所述注意力模型上一次t-1关注上一目标时所输出的向量;所述W表示预设的参数矩阵。
可选地,在本发明实施例中,所述方法还可以包括:
在获得所述注意力模型所关注的各个目标所对应的识别结果后,基于所获得的各个识别结果,形成针对所述目标图像的场景描述语句。
第二方面,本发明实施例提供了一种图像分析装置,所述装置可以包括:
提取单元,用于从目标图像中提取至少一个目标图像特征;
获得单元,用于获得预先构建的注意力模型当前对各个目标图像特征的关注度;
第一确定单元,用于根据所获得的各个目标图像特征,以及各个目标图像特征对应的关注度,确定所述注意力模型所关注目标的识别结果,其中,所述目标由至少一个目标图像特征构成;
第二确定单元,用于确定所述各个目标图像特征所对应目标区域的第一中心位置坐标,其中,任一目标图像特征所对应目标区域为所述目标图像中,能够提取到该目标图像特征的图像区域;
计算单元,用于根据各个目标图像特征对应的关注度和各个第一中心位置坐标,计算所述目标在所述目标图像中的第二中心位置坐标;
定位单元,用于将所述第二中心位置坐标作为具有所述识别结果的所述目标的定位结果。
可选地,所述提取单元具体用于:
利用卷积神经网络算法对所述目标图像进行卷积,获得至少一个目标图像特征。
可选地,所述提取单元具体用于:利用卷积神经网络算法对所述目标图像进行一层卷积,获得至少一个目标图像特征;
所述第二确定单元具体用于:
确定所述各个目标图像特征所对应目标区域;
计算所述各个目标图像特征所对应目标区域的第一中心位置坐标;
其中,确定任一目标图像特征所对应的目标区域所利用的公式为:
Xmin=(X-1)*stridew+1-padw
Xmax=(X-1)*stridew-padw+kernelw
Ymin=(Y-1)*strideh+1-padh
Ymax=(Y-1)*strideh-padh+kernelh
其中,所述X表示卷积得到的目标图像特征的中心位置的横坐标,所述Y表示卷积得到的该目标图像特征的中心位置的纵坐标,所述Xmin表示该目标图像特征所对应目标区域的最小横坐标,所述Xmax表示该目标图像特征所对应目标区域的最大横坐标,所述Ymin表示该目标图像特征所对应目标区域的最小纵坐标,所述Ymax表示该目标图像特征所对应目标区域的最大纵坐标,所述stridew表示对所述目标图像进行卷积时的横向步幅长度,所述strideh表示对所述目标图像进行卷积时的纵向步幅长度,所述padw表示对所述目标图像进行卷积时横向增加的像素数,padh表示对所述目标图像进行卷积时纵向增加的像素数,所述kernelw表示对所述目标图像进行卷积时所利用卷积核的宽,所述kernelh表示所述卷积核的高。
可选地,所述计算单元具体用于:
针对每个第一中心位置坐标,利用相应目标图像特征对应的关注度对该第一中心位置坐标进行加权计算,得到位置加权值;
对所获得的各个位置加权值进行求和,得到第一和值;
将所述第一和值作为所述目标在所述目标图像中的第二中心位置坐标。
可选地,所述第一确定单元可以包括:
第一确定子单元,用于根据所获得的各个目标图像特征,以及各个目标图像特征对应的关注度,利用预先构建的循环神经网络,确定所述注意力模型所关注目标的识别结果。
可选地,所述获得单元获得预先构建的注意力模型当前对各个目标图像特征的关注度的计算公式可以为:
其中,所述at,j表示在所述注意模型在本次t关注所述目标时,目标图像特征hj所得到的关注度,其中,关注度小于等于1;所述为预设参数向量,所述T表示所述预设参数向量的维度,且所述预设参数的维度与所提取得到的目标图像特征的数目相等;所述Wa表示第一预设参数矩阵,所述Ua表示第二预设参数矩阵,所述st-1表示所述循环神经网络在所述注意模型上一次t-1关注上一目标时所对应的隐藏值。
可选地,所述第一确定子单元具体用于:
针对每个目标图像特征,利用相应目标图像特征对应的关注度对该目标图像特征进行加权计算,得到图像特征加权值;
对所获得的各个图像特征加权值进行求和,得到第二和值;
将所述第二和值输入至预先构建的循环神经网络中,输出得到所述注意力模型当前所关注目标所对应的目标向量;
根据预设第一对应关系,获得所述目标向量对应的目标关键字,并将所述目标关键字作为所述目标的识别结果,其中,所述第一对应关系记录有预设向量和预设关键字的对应关系。
可选地,所述循环神经网络可以通过以下公式表征:
st=Recurrent(yt-1,gt,st-1)
yt=Softmax(Wst)
其中,所述st表示所述循环神经网络在在所述注意模型本次t关注所述目标时所对应的隐藏值,所述st-1表示所述循环神经网络在所述注意模型上一次t-1关注上一目标时所对应的隐藏值;所述gt表示所述第二和值;所述yt表示所述循环神经网络在所述注意力模型本次t关注所述目标时所输出的目标向量,所述yt-1表示所述循环神经网络在所述注意力模型上一次t-1关注上一目标时所输出的向量;所述W表示预设的参数矩阵。
可选地,在本发明实施例中,所述装置还可以包括:
场景描述语句形成单元,用于在获得所述注意力模型所关注的各个目标所对应的识别结果后,基于所获得的各个识别结果,形成针对所述目标图像的场景描述语句。
在本发明实施例中,可以先从所述目标图像中提取出至少一个目标图像特征,并根据预先构建的注意力模型,获得该注意力模型对各个目标图像特征的关注度;由于注意力模型对所述各个目标图像特征的关注度确定之后,所述注意力模型当前所关注的目标也就确定了。这样,可以在对所述注意力模型当前所关注的目标进行识别的同时,对当前所关注的目标进行定位计算,提高了分析图像的速度。
其中,对所述注意力模型所关注的目标进行定位的计算方式为:首先确定各个目标图像特征在所述目标图像中所对应的目标区域,并计算出各个目标区域所对应的第一中心位置坐标;然后基于各个目标图像特征对应的关注度,以及各个目标区域对应的第一中心位置坐标,计算所述目标在所述目标图像中的第二中心位置坐标。进而,可以确定所识别的目标位于所述目标图像的第二中心位置坐标处,这样,实现了对所识别的目标的快速定位,提高了分析图像的速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图像分析方法流程图;
图2为本发明实施例提供的一种图像分析方法中获得注意力模型所关注目标的第二中心位置坐标的方法示意图;
图3为本发明实施例提供的一种图像分析方法中所预先构建的循环神经网络的示意图;
图4为本发明实施例提供的一种图像分析方法中能够对目标图像形成场景语义描述的循环神经网络的示意图;
图5为本发明实施例提供的一种图像分析装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术中存在的问题,本发明实施例提供了一种图像分析方法及装置。
下面首先对本发明实施例提供的图像分析方法进行说明。
参见图1,本发明实施例提供的图像分析方法可以包括如下步骤:
S101:从目标图像中提取至少一个目标图像特征;
可以理解的是,在执行从目标图像中提取至少一个目标图像特征的步骤之前,需要先确定待进行图像分析的目标图像。
需要说明的是,任一目标图像特征可以包括颜色特征,纹理特征和亮度特征中的一种或多种特征,当然并不局限于此。
还需要说明的是,在一种实现方式中,可以先对所述目标图像进行图像预处理。例如,先对该目标图像进行图像灰度化处理和图像光照补偿处理,之后,按照现有的图像分割方法对进行预处理后得到的图像进行分割,得到多个分割区域,再分别从各个分割区域中提取目标特征图像。
在另一种实现方式中,可以基于卷积神经网络(Convolutional Neural Network,CNN)算法,对所述目标图像进行卷积计算,即可获得至少一个目标图像特征。在该种实现方式中,不需要对目标图像进行图像灰度化处理和图像分割等一系列预处理操作,可以直接对所述目标图像的图像特征进行提取,降低了提取图像特征的繁琐度,加快了从所述目标图像中提取所述至少一个目标图像特征的速度。
值得说明的是,所述卷积神经网络是一种前馈神经网络,可以直接对图像进行处理,从而获得相应的图像特征,此为现有技术,在此不做详述。
S102:获得预先构建的注意力模型当前对各个目标图像特征的关注度;
需要说明的是,注意力模型,也叫视觉注意力模型,是一种利用计算机等设备来模拟人类视觉注意力的模型。其中,所述预先构建的注意力模型可以是现有技术中存在的任意一种注意力模型。通过该注意力模型,可以预测人眼在观看所述目标图像时,人眼所可能关注的目标图像特征,并可以计算人眼对所关注的目标图像特征的关注度。
例如,针对一幅鸟飞在海面上的图像,当该图像输入至注意力模型后,注意力模型可以预测人眼在观看该图像时,首先会对鸟的图像特征的关注比较多,因而注意力模型会首先赋予鸟所对应的图像特征更多的关注,即当前鸟对应的图像特征得到的关注度较高,而该幅图像中其他的图像特征得到的关注度较低。
S103:根据所获得的各个目标图像特征,以及各个目标图像特征对应的关注度,确定所述注意力模型所关注目标的识别结果,其中,所述目标由至少一个目标图像特征构成;
需要说明的是,由于任意一个关注度表征了所对应的目标图像特征当前被关注的程度。因此,在确定所述注意力模型当前对各个目标图像特征的关注度之后,则所述注意力模型当前所关注的目标也随之确定了。但是,此时并不知道当前所关注的目标具体是什么,还需要对当前所关注的目标进行识别,获得识别结果。
结合上述示例,当鸟对应的图像特征得到的关注度较高时,所述注意力模型并不知道赋予了较多关注的图像特征为鸟对应的图像特征,也就不知道当前主要关注的目标是鸟,因此还需要对所关注的目标进行识别。
此时,可以根据从该幅图像中提取到的各个目标图像特征,以及该各个目标图像特征所对应的关注度,来确定当前所关注目标的识别结果,从而实现对所关注目标的识别。该种识别方式中,由于鸟对应的图像特征所占的比重(即获得的关注度)较大,因此在对所关注目标所对应的目标图像特征进行分析后,所获得的识别结果很可能为鸟,也就是说,所得到的识别结果准确度较高。
S104:确定所述各个目标图像特征所对应目标区域的第一中心位置坐标,其中,任一目标图像特征所对应目标区域为所述目标图像中,能够提取到该目标图像特征的图像区域;
可以理解的是,在确定任一目标图像特征所对应的目标区域的第一中心位置坐标之前,需要确定该目标图像特征所对应目标区域。
举例而言,当所获得的一个目标图像特征为鸟所对应的图像特征时,首先确定该鸟所对应的图像特征所对应的目标区域,其中,该目标区域为所述鸟飞在海面上的这幅图像中,能够提取到该鸟对应的图像特征的图像区域。之后,计算该图像区域中的第一中心位置坐标。
需要说明的是,在从所述目标图像中获得任一目标图像特征后,即可执行确定该目标图像特征所对应目标区域的步骤,这是合理的。
S105:根据各个目标图像特征对应的关注度和各个第一中心位置坐标,计算所述目标在所述目标图像中的第二中心位置坐标;
可以理解的是,由于当所述注意力模型对各个目标图像特征的关注度确定之后,该注意力模型当前所关注的目标也就确定了,因此在确定所述各个目标图像特征对应的关注度后,即可根据各个目标图像特征对应的关注度,以及各个目标图像特征所对应的第一中心位置坐标,来确定所述目标在所述目标图像中的第二中心位置坐标,并不需要在对所述目标进行识别后,才执行对所述目标进行定位的步骤,提高了图像分析速度。
例如,当获得注意力模型对鸟所对应的图像特征的关注度为1,对提取到的其他目标图像特征的关注度均为0后,即可将该鸟所对应的图像特征所对应的第一中心位置坐标,作为所述鸟在所对应原图中的定位,这是合理的。需要说明的是,此时所获得的第二中心位置坐标与所述第一中心位置坐标相同。
S106:将所述第二中心位置坐标作为具有所述识别结果的所述目标的定位结果。
举例而言,当获得所述目标的识别结果为鸟,所述目标的定位结果为所述第二中心位置坐标时,得到的分析结果为:所述目标图像中的第二中心位置坐标处有一只鸟。
在本发明实施例中,可以先从所述目标图像中提取出至少一个目标图像特征,并根据预先构建的注意力模型,获得该注意力模型对各个目标图像特征的关注度;由于注意力模型对所述各个目标图像特征的关注度确定之后,所述注意力模型当前所关注的目标也就确定了。这样,可以在对所述注意力模型当前所关注的目标进行识别的同时,对当前所关注的目标进行定位计算,提高了分析图像的速度。
其中,对所述注意力模型所关注的目标进行定位的计算方式为:首先确定各个目标图像特征在所述目标图像中所对应的目标区域,并计算出各个目标区域所对应的第一中心位置坐标;然后基于各个目标图像特征对应的关注度,以及各个目标区域对应的第一中心位置坐标,计算所述目标在所述目标图像中的第二中心位置坐标。进而,可以确定所识别的目标位于所述目标图像的第二中心位置坐标处,这样,实现了对所识别的目标的快速定位,提高了分析图像的速度。
下面对本发明实施例中确定各个目标图像特征所对应的目标区域的方式进行举例说明。
需要说明的是,在本发明实施例中,在提取得到各个目标图像特征后,可以反推各个目标图像特征在所述目标图像中的目标区域。例如,当利用卷积神经网络算法对所述目标图像进行一层卷积,获得至少一个目标图像特征后,可以计算所获得的任一目标图像特征所对应的目标区域,并且计算公式可以为:
Xmin=(X-1)*stridew+1-padw
Xmax=(X-1)*stridew-padw+kernelw
Ymin=(Y-1)*strideh+1-padh
Ymax=(Y-1)*strideh-padh+kernelh
其中,所述X表示卷积得到的目标图像特征的中心位置的横坐标,所述Y表示卷积得到的该目标图像特征的中心位置的纵坐标,所述Xmin表示该目标图像特征所对应目标区域的最小横坐标,所述Xmax表示该目标图像特征所对应目标区域的最大横坐标,所述Ymin表示该目标图像特征所对应目标区域的最小纵坐标,所述Ymax表示该目标图像特征所对应目标区域的最大纵坐标,所述stridew表示对所述目标图像进行卷积时的横向步幅长度,所述strideh表示对所述目标图像进行卷积时的纵向步幅长度,所述padw表示对所述目标图像进行卷积时横向增加的像素数,padh表示对所述目标图像进行卷积时纵向增加的像素数,所述kernelw表示对所述目标图像进行卷积时所利用卷积核的宽,所述kernelh表示所述卷积核的高。
值得说明的是,当利用卷积神经网络算法对所述目标图像进行多层卷积(例如两层),获得至少一个目标图像特征时,第一层卷积为对所述目标图像进行卷积,并卷积得到第一图像特征卷积层;第二层卷积为对所述第一图像特征卷积层进行卷积,并获得目标图像特征卷积层。并且,通过这两层卷积,可以从所述目标图像中提取得到所述至少一个目标图像特征。
那么,首先可以采用上述目标区域的计算公式,对任一目标图像特征进行第一次逆向计算,并且其中所计算得到的所述Xmin表示该目标图像特征在第一图像特征卷积层所对应的第一逆推区域的最小横坐标,所述Xmax表示该目标图像特征在第一图像特征卷积层所对应第一逆推区域的最大横坐标,所述Ymin表示该目标图像特征在第一图像特征卷积层所对应第一逆推区域的最小纵坐标,所述Ymax表示该目标图像特征第一图像特征卷积层所对应第一逆推区域的最大纵坐标。也就是说,第一次逆向计算得到的第一逆推区域为所述第一图像特征卷积层中,能够提取到该目标图像特征的区域。
还需要说明的是,第一次逆向计算中,所述strideh表示对所述第一图像特征卷积层进行卷积时的纵向步幅长度,所述padw表示对所述第一图像特征卷积层进行卷积时横向增加的像素数,padh表示对所述第一图像特征卷积层进行卷积时纵向增加的像素数,所述kernelw表示对所述第一图像特征卷积层进行卷积时所利用卷积核的宽,所述kernelh表示对所述第一图像特征卷积层进行卷积时所利用卷积核的高。
另外,当需要计算所述目标图像特征在所述目标图像中所对应的目标区域时,先计算该目标图像特征在所述第一图像特征卷积层所对应的第一逆推区域的逆推中心位置坐标。然后,调用上述目标区域的计算公式进行第二逆向计算,并将该逆推中心位置坐标作为X和Y。另外,在该次计算中,所述strideh表示对所述目标图像进行卷积时的纵向步幅长度,所述padw表示对所述目标图像进行卷积时横向增加的像素数,padh表示对所述目标图像进行卷积时纵向增加的像素数,所述kernelw表示对所述目标图像进行卷积时所利用卷积核的宽,所述kernelh表示对所述目标图像进行卷积时所利用卷积核的高。这样,可以获得所述目标图像特征在所述目标图像中所对应的图像区域。
需要说明的是,当利用卷积神经网络算法对所述目标图像进行N层卷积时,需要利用N次上述目标区域计算公式进行N次逆向计算,从而获得目标图像特征在所述目标图像中所对应的图像区域。在该种实现方式中,采用反推的方式,可以逐步反推任一目标图像特在所述目标图像中的目标区域。
下面结合图2,对本发明实施例中计算所述目标在所述目标图像中的第二中心位置坐标的方法进行详细说明。
参见图2,假设从所述目标图像中提取得到T个目标图像特征,其中,所述T个目标图像特征分别为h1、h2、……、hT-1和hT;所述注意力模型在当前t对h1、h2、……、hT和hT-1的关注度分别为at,1、at,2、……、at,T-1和at,T;并且,计算得到所述T个目标图像特征所对应的第一中心位置坐标分别为ct,1、ct,2、……、ct,T-1和ct,T。那么,可以根据以下步骤计算所述第二中心位置坐标ct:
针对每个第一中心位置坐标,利用相应目标图像特征对应的关注度对该第一中心位置坐标进行加权计算,得到位置加权值:h1at,1、h2at,2、……、hT-1at,T-1和hTat,T;
对所获得的各个位置加权值进行求和,得到第一和值S1=h1at,1+h2at,2+……hT- 1at,T-1+hTat,T;
将所述第一和值作为所述目标在所述目标图像中的第二中心位置坐标。
举例而言,当注意力模型当前给某一目标图像特征的关注度为1时,则表明所述注意力模型的注意力全都集中在该目标图像特征上,即所关注目标的第二中心位置坐标位于该目标图像特征所对应目标区域的中心。
也就是说,所述注意力模型所关注目标在接近于关注度高的目标图像特征所对应的区域,因此可以根据注意力模型当前对各个目标图像特征的关注度,快速地对所关注目标所对应的第二中心位置坐标进行计算,从而实现对所关注目标的快速定位。并且该种定位方式,不依赖对所述目标的识别,也就是,可以在对所述目标进行识别的过程中,对所述目标进行定位,提高了图像分析的速度。
下面对本发明实施例中对所述注意力模型所关注的目标进行识别的方法进行说明。
在一种实现方式中,可以根据所获得的各个目标图像特征,以及各个目标图像特征对应的关注度,利用预先构建的循环神经网络,确定所述注意力模型所关注目标的识别结果。
在该种实现方式中,可以基于所获得的各个目标图像特征,以及各个目标图像特征对应的关注度,作为所述预先构建的循环神经网络的输入数据。然后,将所述输入数据输入至所述循环神经网络,最后能够从所述循环神经网络中输出所述注意力模型所关注的所述目标对应的识别结果。
可以理解的是,所述预先构建的循环神经网络,是通过对大量的图像进行训练后所得到的循环神经网络,并且该循环神经网络能够根据输入数据,得到所述注意力模型所关注的目标的识别结果。
下面结合图3,对利用预先构建的循环神经网络,确定所述注意力模型所关注目标的识别结果的方法作进一步说明。
参见图3,图3左侧为利用卷积神经网络算法对目标图像A进行卷积,从而获得作为所述循环神经网络的输入数据之一的目标图像特征,其中,所获得目标图像特征h1、h2、……、hT-1和hT。另外,还需要获得作为输入所述循环神经网络的输入数据之一的关注度,即注意力模型当前对上述各个目标图像特征的关注度:a1、a2、……、aT-1和aT。
并且,在获取得到各个目标图像特征,以及各个关注度后,可以执行如下步骤:
针对每个目标图像特征,利用相应目标图像特征对应的关注度对该目标图像特征进行加权计算,得到图像特征加权值:h1a1、h2a2、……、ht-1aT-1和hTaT;
对所获得的各个图像特征加权值进行求和,得到第二和值S2=h1a1+h2a2+……ht- 1aT-1+hTaT;
将所述第二和值S2输入至预先构建的循环神经网络中,输出得到所述注意力模型当前所关注目标所对应的目标向量yt;
根据预设第一对应关系,获得所述目标向量yt对应的目标关键字,并将所述目标关键字作为所述目标的识别结果,其中,所述第一对应关系记录有预设向量和预设关键字的对应关系。
可以理解的是,由于所述循环神经网络中记录有预设向量和预设关键字的第一对应关系,因此在根据所述第二和值S2,计算得到所述注意力模型当前所关注目标所对应的目标向量yt后,即可根据所述第一对应关系,获得所述目标向量yt对应的目标关键字,并将所述目标关键字作为所述目标的识别结果。例如获得的所述目标向量yt对应的目标关键字为鸟,则可知道对所述目标的识别结果为鸟。
需要说明的是,获得注意力模型当前对上述各个目标图像特征的关注度的计算公式可以为:
其中,所述at,j表示在所述注意模型在本次t关注所述目标时,目标图像特征hj所得到的关注度,其中,关注度小于等于1;所述为预设参数向量,所述T表示所述预设参数向量的维度,且所述预设参数的维度与所提取得到的目标图像特征的数目相等;所述Wa表示第一预设参数矩阵,所述Ua表示第二预设参数矩阵,所述st-1表示所述循环神经网络在所述注意模型上一次t-1关注上一目标时所对应的隐藏值。
可以理解的是,由于该种关注度的计算公式中包含循环神经网络在所述注意模型上一次t-1关注上一目标时所对应的隐藏值st-1,因而所述注意力模型当前对各个目标图像特征的所分配的关注度,会受所述循环神经网络的影响。
另外,还需要说明的是,图3右侧所对应的预先构建的循环神经网络可以表征为:
st=Recurrent(yt-1,gt,st-1)
yt=Softmax(Wst)
其中,所述st表示所述循环神经网络在在所述注意模型本次t关注所述目标时所对应的隐藏值,所述st-1表示所述循环神经网络在所述注意模型上一次t-1关注上一目标时所对应的隐藏值;所述gt表示输入数据,即所述第二和值;所述yt表示所述循环神经网络在所述注意力模型本次t关注所述目标时所输出的目标向量,所述yt-1表示所述循环神经网络在所述注意力模型上一次t-1关注上一目标时所输出的向量;所述W表示预设的参数矩阵。
值得说明的是,本发明实施例的图像分析方法还能对字母和数字进行识别,在此不做详述。
下面结合图4对本发明实施例中形成针对所述目标图像的场景描述语句的方法进行说明。
参见图4可知,当需要对所述注意力模型当前所关注的目标、上次所关注的目标,以及下次所关注的目标等等进行识别时,所述循环神经网络的神经元也相应的增加。并且针对所述注意力模型每次关注的目标,均输出一个对应的目标向量,从而可以根据第一对应关系,得到所获得的各个目标向量对应的目标关键字,即获得所关注的各个目标的识别结果。进而可以基于所获得的各个识别结果,形成针对所述目标图像的场景描述语句,实现对所述目标图像的场景描述。
举例而言,针对上述目标图像A,获得y1对应的目标关键字为bird,获得y2对应的目标关键字为flying,获得y3对应的目标关键字为over,获得y4对应的目标关键字为of,获得y5对应的目标关键字为sea,从而获得场景描述语句为:bird flying over of sea。另外,还可以定位注意力模型所关注的目标鸟和所关注的海在所述目标图像A中的位置。当然,也可以定位over等目标关键字所对应的位置,但是对介词进行定位不具有实际定位意义。
需要说明的是,所述循环神经网络具有基于当前的识别结果,预测下一次识别结果的能力,此为现有技术,在此不做详述。
还需要说明的是,图4中的虚线部分表示所述注意力模型在当前t关注目标时,各个目标图像特征所对应的关注度的计算指向,以及所述注意力模型在下一次t+1关注目标时,各个目标图像特征所对应的关注度的计算指向。图4中的实线部分表示循环神经网络计算yt-1、yt和yt+1的指向。
相应于上述方法实施例,本发明实施例还提供了一种图像分析装置,参见图5,所述图像分析装置可以包括:
提取单元501,用于从目标图像中提取至少一个目标图像特征;
获得单元502,用于获得预先构建的注意力模型当前对各个目标图像特征的关注度;
第一确定单元503,用于根据所获得的各个目标图像特征,以及各个目标图像特征对应的关注度,确定所述注意力模型所关注目标的识别结果,其中,所述目标由至少一个目标图像特征构成;
第二确定单元504,用于确定所述各个目标图像特征所对应目标区域的第一中心位置坐标,其中,任一目标图像特征所对应目标区域为所述目标图像中,能够提取到该目标图像特征的图像区域;
计算单元505,用于根据各个目标图像特征对应的关注度和各个第一中心位置坐标,计算所述目标在所述目标图像中的第二中心位置坐标;
定位单元506,用于将所述第二中心位置坐标作为具有所述识别结果的所述目标的定位结果。
在本发明实施例中,可以先从所述目标图像中提取出至少一个目标图像特征,并根据预先构建的注意力模型,获得该注意力模型对各个目标图像特征的关注度;由于注意力模型对所述各个目标图像特征的关注度确定之后,所述注意力模型当前所关注的目标也就确定了。这样,可以在对所述注意力模型当前所关注的目标进行识别的同时,对当前所关注的目标进行定位计算,提高了分析图像的速度。
其中,对所述注意力模型所关注的目标进行定位的计算方式为:首先确定各个目标图像特征在所述目标图像中所对应的目标区域,并计算出各个目标区域所对应的第一中心位置坐标;然后基于各个目标图像特征对应的关注度,以及各个目标区域对应的第一中心位置坐标,计算所述目标在所述目标图像中的第二中心位置坐标。进而,可以确定所识别的目标位于所述目标图像的第二中心位置坐标处,这样,实现了对所识别的目标的快速定位,提高了分析图像的速度。
可选地,所述提取单元501具体用于:利用卷积神经网络算法对所述目标图像进行卷积,获得至少一个目标图像特征。
可选地,所述提取单元501具体用于:利用卷积神经网络算法对所述目标图像进行一层卷积,获得至少一个目标图像特征;
所述第二确定单元504具体用于:
确定所述各个目标图像特征所对应目标区域;
计算所述各个目标图像特征所对应目标区域的第一中心位置坐标;
其中,确定任一目标图像特征所对应的目标区域所利用的公式为:
Xmin=(X-1)*stridew+1-padw
Xmax=(X-1)*stridew-padw+kernelw
Ymin=(Y-1)*strideh+1-padh
Ymax=(Y-1)*strideh-padh+kernelh
其中,所述X表示卷积得到的目标图像特征的中心位置的横坐标,所述Y表示卷积得到的该目标图像特征的中心位置的纵坐标,所述Xmin表示该目标图像特征所对应目标区域的最小横坐标,所述Xmax表示该目标图像特征所对应目标区域的最大横坐标,所述Ymin表示该目标图像特征所对应目标区域的最小纵坐标,所述Ymax表示该目标图像特征所对应目标区域的最大纵坐标,所述stridew表示对所述目标图像进行卷积时的横向步幅长度,所述strideh表示对所述目标图像进行卷积时的纵向步幅长度,所述padw表示对所述目标图像进行卷积时横向增加的像素数,padh表示对所述目标图像进行卷积时纵向增加的像素数,所述kernelw表示对所述目标图像进行卷积时所利用卷积核的宽,所述kernelh表示所述卷积核的高。
可选地,所述计算单元505具体用于:
针对每个第一中心位置坐标,利用相应目标图像特征对应的关注度对该第一中心位置坐标进行加权计算,得到位置加权值;
对所获得的各个位置加权值进行求和,得到第一和值;
将所述第一和值作为所述目标在所述目标图像中的第二中心位置坐标。
可选地,所述第一确定单元503包括:
第一确定子单元,用于根据所获得的各个目标图像特征,以及各个目标图像特征对应的关注度,利用预先构建的循环神经网络,确定所述注意力模型所关注目标的识别结果。
可选地,所述获得单元502获得预先构建的注意力模型当前对各个目标图像特征的关注度的计算公式为:
其中,所述at,j表示在所述注意模型在本次t关注所述目标时,目标图像特征hj所得到的关注度,其中,关注度小于等于1;所述为预设参数向量,所述T表示所述预设参数向量的维度,且所述预设参数的维度与所提取得到的目标图像特征的数目相等;所述Wa表示第一预设参数矩阵,所述Ua表示第二预设参数矩阵,所述st-1表示所述循环神经网络在所述注意模型上一次t-1关注上一目标时所对应的隐藏值。
可选地,所述第一确定子单元具体用于:
针对每个目标图像特征,利用相应目标图像特征对应的关注度对该目标图像特征进行加权计算,得到图像特征加权值;
对所获得的各个图像特征加权值进行求和,得到第二和值;
将所述第二和值输入至循环神经网络中,输出得到所述注意力模型当前所关注目标所对应的目标向量;
根据预设第一对应关系,获得所述目标向量对应的目标关键字,并将所述目标关键字作为所述目标的识别结果,其中,所述第一对应关系记录有预设向量和预设关键字的对应关系。
可选地,在本发明实施例提供的图像分析装置中,所述循环神经网络通过以下公式表征:
st=Recurrent(yt-1,gt,st-1)
yt=Softmax(Wst)
其中,所述st表示所述循环神经网络在在所述注意模型本次t关注所述目标时所对应的隐藏值,所述st-1表示所述循环神经网络在所述注意模型上一次t-1关注上一目标时所对应的隐藏值;所述gt表示所述第二和值;所述yt表示所述循环神经网络在所述注意力模型本次t关注所述目标时所输出的目标向量,所述yt-1表示所述循环神经网络在所述注意力模型上一次t-1关注上一目标时所输出的向量;所述W表示预设的参数矩阵。
可选地,所述装置还可以包括:
场景描述语句形成单元,用于在获得所述注意力模型所关注的各个目标所对应的识别结果后,基于所获得的各个识别结果,形成针对所述目标图像的场景描述语句。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (16)
1.一种图像分析方法,其特征在于,包括:
从目标图像中提取至少一个目标图像特征;
获得预先构建的注意力模型当前对各个目标图像特征的关注度;
根据所获得的各个目标图像特征,以及各个目标图像特征对应的关注度,确定所述注意力模型所关注目标的识别结果,其中,所述目标由至少一个目标图像特征构成;
确定所述各个目标图像特征所对应目标区域的第一中心位置坐标,其中,任一目标图像特征所对应目标区域为所述目标图像中,能够提取到该目标图像特征的图像区域;
针对每个第一中心位置坐标,利用相应目标图像特征对应的关注度对该第一中心位置坐标进行加权计算,得到位置加权值;
对所获得的各个位置加权值进行求和,得到第一和值;
将所述第一和值作为所述目标在所述目标图像中的第二中心位置坐标;
将所述第二中心位置坐标作为具有所述识别结果的所述目标的定位结果。
2.根据权利要求1所述的方法,其特征在于,所述从目标图像中提取至少一个目标图像特征的步骤,包括:
利用卷积神经网络算法对所述目标图像进行卷积,获得至少一个目标图像特征。
3.根据权利要求2所述的方法,其特征在于,所述利用卷积神经网络算法对所述目标图像进行卷积,获得至少一个目标图像特征的步骤,包括:
利用卷积神经网络算法对所述目标图像进行一层卷积,获得至少一个目标图像特征;
相应地,所述确定所述各个目标图像特征所对应目标区域的第一中心位置坐标的步骤,包括:
确定所述各个目标图像特征所对应目标区域;
计算所述各个目标图像特征所对应目标区域的第一中心位置坐标;
其中,确定任一目标图像特征所对应的目标区域所利用的公式为:
Xmin=(X-1)*stridew+1-padw
Xmax=(X-1)*stridew-padw+kernelw
Ymin=(Y-1)*strideh+1-padh
Ymax=(Y-1)*strideh-padh+kernelh
其中,所述X表示卷积得到的目标图像特征的中心位置的横坐标,所述Y表示卷积得到的该目标图像特征的中心位置的纵坐标,所述Xmin表示该目标图像特征所对应目标区域的最小横坐标,所述Xmax表示该目标图像特征所对应目标区域的最大横坐标,所述Ymin表示该目标图像特征所对应目标区域的最小纵坐标,所述Ymax表示该目标图像特征所对应目标区域的最大纵坐标,所述stridew表示对所述目标图像进行卷积时的横向步幅长度,所述strideh表示对所述目标图像进行卷积时的纵向步幅长度,所述padw表示对所述目标图像进行卷积时横向增加的像素数,padh表示对所述目标图像进行卷积时纵向增加的像素数,所述kernelw表示对所述目标图像进行卷积时所利用卷积核的宽,所述kernelh表示所述卷积核的高。
4.根据权利要求1-3任一项所述的方法,其特征在于,根据所获得的各个目标图像特征,以及各个目标图像特征对应的关注度,确定所述注意力模型所关注目标的识别结果的步骤,包括:
根据所获得的各个目标图像特征,以及各个目标图像特征对应的关注度,利用预先构建的循环神经网络,确定所述注意力模型所关注目标的识别结果。
6.根据权利要求5所述的方法,其特征在于,所述根据所获得的各个图像特征,以及各个目标图像特征对应的关注度,利用预先构建的循环神经网络,确定所述注意力模型所关注目标的识别结果的步骤,包括:
针对每个目标图像特征,利用相应目标图像特征对应的关注度对该目标图像特征进行加权计算,得到图像特征加权值;
对所获得的各个图像特征加权值进行求和,得到第二和值;
将所述第二和值输入至预先构建的循环神经网络中,输出得到所述注意力模型当前所关注目标所对应的目标向量;
根据预设第一对应关系,获得所述目标向量对应的目标关键字,并将所述目标关键字作为所述目标的识别结果,其中,所述第一对应关系记录有预设向量和预设关键字的对应关系。
7.根据权利要求6所述的方法,其特征在于,所述循环神经网络通过以下公式表征:
st=Recurrent(yt-1,gt,st-1)
yt=Softmax(Wst)
其中,所述st表示所述循环神经网络在在所述注意模型本次t关注所述目标时所对应的隐藏值,所述st-1表示所述循环神经网络在所述注意模型上一次t-1关注上一目标时所对应的隐藏值;所述gt表示所述第二和值;所述yt表示所述循环神经网络在所述注意力模型本次t关注所述目标时所输出的目标向量,所述yt-1表示所述循环神经网络在所述注意力模型上一次t-1关注上一目标时所输出的向量;所述W表示预设的参数矩阵。
8.根据权利要求6或7所述的方法,其特征在于,还包括:
在获得所述注意力模型所关注的各个目标所对应的识别结果后,基于所获得的各个识别结果,形成针对所述目标图像的场景描述语句。
9.一种图像分析装置,其特征在于,包括:
提取单元,用于从目标图像中提取至少一个目标图像特征;
获得单元,用于获得预先构建的注意力模型当前对各个目标图像特征的关注度;
第一确定单元,用于根据所获得的各个目标图像特征,以及各个目标图像特征对应的关注度,确定所述注意力模型所关注目标的识别结果,其中,所述目标由至少一个目标图像特征构成;
第二确定单元,用于确定所述各个目标图像特征所对应目标区域的第一中心位置坐标,其中,任一目标图像特征所对应目标区域为所述目标图像中,能够提取到该目标图像特征的图像区域;
计算单元,用于针对每个第一中心位置坐标,利用相应目标图像特征对应的关注度对该第一中心位置坐标进行加权计算,得到位置加权值;对所获得的各个位置加权值进行求和,得到第一和值;将所述第一和值作为所述目标在所述目标图像中的第二中心位置坐标;
定位单元,用于将所述第二中心位置坐标作为具有所述识别结果的所述目标的定位结果。
10.根据权利要求9所述的装置,其特征在于,所述提取单元具体用于:
利用卷积神经网络算法对所述目标图像进行卷积,获得至少一个目标图像特征。
11.根据权利要求10所述的装置,其特征在于,所述提取单元具体用于:利用卷积神经网络算法对所述目标图像进行一层卷积,获得至少一个目标图像特征;
所述第二确定单元具体用于:
确定所述各个目标图像特征所对应目标区域;
计算所述各个目标图像特征所对应目标区域的第一中心位置坐标;
其中,确定任一目标图像特征所对应的目标区域所利用的公式为:
Xmin=(X-1)*stridew+1-padw
Xmax=(X-1)*stridew-padw+kernelw
Ymin=(Y-1)*strideh+1-padh
Ymax=(Y-1)*strideh-padh+kernelh
其中,所述X表示卷积得到的目标图像特征的中心位置的横坐标,所述Y表示卷积得到的该目标图像特征的中心位置的纵坐标,所述Xmin表示该目标图像特征所对应目标区域的最小横坐标,所述Xmax表示该目标图像特征所对应目标区域的最大横坐标,所述Ymin表示该目标图像特征所对应目标区域的最小纵坐标,所述Ymax表示该目标图像特征所对应目标区域的最大纵坐标,所述stridew表示对所述目标图像进行卷积时的横向步幅长度,所述strideh表示对所述目标图像进行卷积时的纵向步幅长度,所述padw表示对所述目标图像进行卷积时横向增加的像素数,padh表示对所述目标图像进行卷积时纵向增加的像素数,所述kernelw表示对所述目标图像进行卷积时所利用卷积核的宽,所述kernelh表示所述卷积核的高。
12.根据权利要求9-11任一项所述的装置,其特征在于,所述第一确定单元包括:
第一确定子单元,用于根据所获得的各个目标图像特征,以及各个目标图像特征对应的关注度,利用预先构建的循环神经网络,确定所述注意力模型所关注目标的识别结果。
14.根据权利要求13所述的装置,其特征在于,所述第一确定子单元具体用于:
针对每个目标图像特征,利用相应目标图像特征对应的关注度对该目标图像特征进行加权计算,得到图像特征加权值;
对所获得的各个图像特征加权值进行求和,得到第二和值;
将所述第二和值输入至预先构建的循环神经网络中,输出得到所述注意力模型当前所关注目标所对应的目标向量;
根据预设第一对应关系,获得所述目标向量对应的目标关键字,并将所述目标关键字作为所述目标的识别结果,其中,所述第一对应关系记录有预设向量和预设关键字的对应关系。
15.根据权利要求14所述的装置,其特征在于,所述循环神经网络通过以下公式表征:
st=Recurrent(yt-1,gt,st-1)
yt=Softmax(Wst)
其中,所述st表示所述循环神经网络在在所述注意模型本次t关注所述目标时所对应的隐藏值,所述st-1表示所述循环神经网络在所述注意模型上一次t-1关注上一目标时所对应的隐藏值;所述gt表示所述第二和值;所述yt表示所述循环神经网络在所述注意力模型本次t关注所述目标时所输出的目标向量,所述yt-1表示所述循环神经网络在所述注意力模型上一次t-1关注上一目标时所输出的向量;所述W表示预设的参数矩阵。
16.根据权利要求14或15所述的装置,其特征在于,还包括:
场景描述语句形成单元,用于在获得所述注意力模型所关注的各个目标所对应的识别结果后,基于所获得的各个识别结果,形成针对所述目标图像的场景描述语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710221223.4A CN108694398B (zh) | 2017-04-06 | 2017-04-06 | 一种图像分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710221223.4A CN108694398B (zh) | 2017-04-06 | 2017-04-06 | 一种图像分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108694398A CN108694398A (zh) | 2018-10-23 |
CN108694398B true CN108694398B (zh) | 2020-10-30 |
Family
ID=63842756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710221223.4A Active CN108694398B (zh) | 2017-04-06 | 2017-04-06 | 一种图像分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108694398B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614613B (zh) * | 2018-11-30 | 2020-07-31 | 北京市商汤科技开发有限公司 | 图像的描述语句定位方法及装置、电子设备和存储介质 |
CN111259919B (zh) * | 2018-11-30 | 2024-01-23 | 杭州海康威视数字技术股份有限公司 | 一种视频分类方法、装置及设备、存储介质 |
CN115090559B (zh) * | 2022-08-26 | 2022-11-11 | 启东市云鹏玻璃机械有限公司 | 一种基于图像处理的玻璃瓶回收除杂方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866422A (zh) * | 2010-06-29 | 2010-10-20 | 上海大学 | 基于图像的多特征融合提取图像关注度的方法 |
CN103714321B (zh) * | 2013-12-26 | 2017-09-26 | 苏州清研微视电子科技有限公司 | 基于距离图像和强度图像的驾驶员人脸定位系统 |
JP6176388B2 (ja) * | 2014-03-14 | 2017-08-09 | オムロン株式会社 | 画像識別装置、画像センサ、画像識別方法 |
CN105931255A (zh) * | 2016-05-18 | 2016-09-07 | 天津工业大学 | 基于显著性和深度卷积神经网络的图像中目标定位方法 |
-
2017
- 2017-04-06 CN CN201710221223.4A patent/CN108694398B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108694398A (zh) | 2018-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020224424A1 (zh) | 图像处理方法、装置、计算机可读存储介质和计算机设备 | |
CN110738101B (zh) | 行为识别方法、装置及计算机可读存储介质 | |
CN105512683B (zh) | 基于卷积神经网络的目标定位方法及装置 | |
KR102554724B1 (ko) | 이미지 내 객체를 식별하기 위한 방법 및 상기 방법을 실행하기 위한 모바일 디바이스 | |
CN108647588A (zh) | 物品类别识别方法、装置、计算机设备和存储介质 | |
CN109918539B (zh) | 一种基于用户点击行为的音、视频互相检索方法 | |
CN109977895B (zh) | 一种基于多特征图融合的野生动物视频目标检测方法 | |
CN109726746B (zh) | 一种模板匹配的方法及装置 | |
CN104866868A (zh) | 基于深度神经网络的金属币识别方法和装置 | |
JP6756406B2 (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
CN108694398B (zh) | 一种图像分析方法及装置 | |
Xie et al. | Robust segmentation of nucleus in histopathology images via mask R-CNN | |
Kerdvibulvech | A methodology for hand and finger motion analysis using adaptive probabilistic models | |
Wilms et al. | AttentionMask: Attentive, efficient object proposal generation focusing on small objects | |
CN115861715A (zh) | 基于知识表示增强的图像目标关系识别算法 | |
CN110956157A (zh) | 基于候选框选择的深度学习遥感影像目标检测方法及装置 | |
Wang et al. | Glocal energy-based learning for few-shot open-set recognition | |
CN111222530A (zh) | 一种细粒度图像分类方法、系统、装置和存储介质 | |
CN113869371A (zh) | 模型训练方法、服装细粒度分割方法及相关装置 | |
Ma et al. | A recognition method of hand gesture with CNN-SVM model | |
US11961249B2 (en) | Generating stereo-based dense depth images | |
Oh et al. | Visual adversarial attacks and defenses | |
CN111914751B (zh) | 一种图像人群密度识别检测方法及系统 | |
Liu et al. | Semantic motion concept retrieval in non-static background utilizing spatial-temporal visual information | |
Rasmussen et al. | R-FCN object detection ensemble based on object resolution and image quality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |