CN110084245B - 基于视觉注意机制强化学习弱监督图像检测方法、系统 - Google Patents

基于视觉注意机制强化学习弱监督图像检测方法、系统 Download PDF

Info

Publication number
CN110084245B
CN110084245B CN201910273048.2A CN201910273048A CN110084245B CN 110084245 B CN110084245 B CN 110084245B CN 201910273048 A CN201910273048 A CN 201910273048A CN 110084245 B CN110084245 B CN 110084245B
Authority
CN
China
Prior art keywords
image
network
feature representation
action
weak supervision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910273048.2A
Other languages
English (en)
Other versions
CN110084245A (zh
Inventor
张兆翔
张驰
恩擎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201910273048.2A priority Critical patent/CN110084245B/zh
Publication of CN110084245A publication Critical patent/CN110084245A/zh
Application granted granted Critical
Publication of CN110084245B publication Critical patent/CN110084245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明属于计算机及机器学习领域,具体涉及了一种基于视觉注意机制强化学习弱监督图像检测方法、系统,旨在解决现有的图像检测方法需要大量有明确标签的训练数据,且标记费时费力的问题。本发明方法包括:获取具有弱监督标记的图像作为输入图像;采用特征提取网络提取输入图像的特征;依据对应的弱监督标记,计算并排序,获得排序后的自顶向下的特征表示;将其输入深度Q网络,计算擦除动作序列;将擦除动作序列作用于输入图像进行擦除操作,直到预设的停止动作,将获得的图像作为检测结果。本发明使用自顶向下的信息通过决策神经网络从动作空间中得到最优动作策略,能有效地模仿人类的视觉机理,通过迭代方式聚焦显著区域。

Description

基于视觉注意机制强化学习弱监督图像检测方法、系统
技术领域
本发明属于计算机及机器学习领域,具体涉及了一种基于视觉注意机制强化学习弱监督图像检测方法、系统。
背景技术
随着互联网技术的快速发展,图像和视频已经成为数字媒体信息的重要载体。如何从图像与视频信息中提取有效的语义信息成为计算机视觉领域的研究热点。人类感知系统的反应都是根据不同感知器官接受的外部信息所分析获得,而视觉感知系统在其中扮演着重要的作用。外界无时无刻不在将信息通过视觉感知系统传入大脑进行分析,并根据分析做出适当的反应。但因为人类大脑处理信息能力有限而视觉系统不断接受大量信息,一些信息不经过视觉机理处理就会使信息的处理滞后,更可能有丢失重要信息的风险。因此人类进化过程中演化出了一种高级的视觉处理机制:选择注意机制。该机制能够对输入视觉信息做重要筛选,优先级别高的信息会被优先处理,从而提升视觉信息处理效率。
视觉注意机制模型受启发于人类视觉系统,该机制将输入的大量复杂视觉信息进行筛选辨认,最终获得少量关键信息,极大提高了视觉信息处理的效率。自底向上和自顶向下的视觉机制分别通过数据驱动和任务驱动来指导模型进行注意力区域的选择。弱监督任务因为其缺少明确强监督信息,所以需要从现有数据分布中通过自底向上和自顶向下的注意选择区域进行先验知识建模,最终更好地帮助模型进行视觉信息处理,从而获得正确的语义信息。
物体检测与分割对视觉数据理解与感知都扮演了极为重要的角色。人类视觉注意机制因其能在海量数据中注视到显著区域并分配资源优先注意,故而能够有效帮助计算机对图像与视频进行语义分析。传统的检测和分割任务都会利用强监督信息训练深度神经网络,即对于检测任务标记目标边界框、对于分割任务标记每个像素类别。而弱监督条件下进行语义分析的难点在于训练样本没有强监督训练标记,难以建立数据与目标之间的直接联系。弱监督学习多数使用以下几种弱监督信息:边界框、眼动轨迹、标记曲线作为弱监督标记信息,从而建立输入数据与目标任务间的隐含映射关系。
总的来说,现有的基于神经网络的方法需要通过有明确任务标记的数据进行训练和学习,但是实际过程中往往缺少大量有明确标签的训练数据,且标记费时费力。
发明内容
为了解决现有技术中的上述问题,即现有的图像检测方法需要大量有明确标签的训练数据,且标记费时费力的问题,本发明提供了一种基于视觉注意机制强化学习弱监督图像检测方法,包括:
步骤S10,获取具有弱监督标记的图像作为输入图像;
步骤S20,基于特征提取网络,采用前向传播的方法提取所述输入图像对应的特征表示;所述特征提取网络为基于神经网络构建的用于特征提取的网络;
步骤S30,基于所述特征表示对应的弱监督标记,计算所述特征表示在所述弱监督标记条件下的自顶向下特征表示,对其中的元素值按照从大到小进行重新排序;
步骤S40,采用深度Q网络,依据重新排序后的自顶向下特征表示,构造动作空间、状态空间、奖励空间,计算擦除动作序列;所述深度Q网络,为基于深度神经网络构建的用于计算特征表示在对应的弱监督标记下的动作序列的网络;
步骤S50,依次将所述擦除动作序列中每一个擦除动作作用于输入图像上,直到擦除动作为预设的停止动作,将获得的图像作为检测结果。
在一些优选的实施例中,步骤S20中“基于特征提取网络,采用前向传播的方法提取所述输入图像对应的特征表示”,其方法为:
fk(u,v)=F(xi)
其中,fk(u,v)为提取特征表示的操作;F代表前向传播算法;xi代表输入图像;k代表特征提取网络中第k个神经元;(u,v)为特征表示的坐标,u为横坐标,v为纵坐标。
在一些优选的实施例中,步骤S30中“基于所述特征表示对应的弱监督标记,计算所述特征表示在所述弱监督标记条件下的自顶向下特征表示,对其中的元素值按照从大到小进行重新排序”,其方法为:
步骤S31,基于所述特征表示对应的弱监督标记,计算所述特征表示在所述弱监督标记条件下的自顶向下特征表示:
Figure BDA0002019031950000031
其中,Mc(u,v)为在弱监督标记条件下的自顶向下特征表示,
Figure BDA0002019031950000032
为特征提取网络中第k个神经元与类别c对应的神经元连接的权重;
步骤S32,对获得的弱监督标记条件下的自顶向下特征表示中的元素值采用排序函数从大到小重新进行排序:
Figure BDA0002019031950000033
其中,Pc(u,v)为排序后的特征表示,rank()为排序函数。
在一些优选的实施例中,所述深度Q网络,其训练方法为:
步骤B10,采用步骤S20方法提取训练图像集中每一个图像的特征表示,得到特征表示集;
步骤B20,采用步骤S30方法计算所述特征表示集每一个特征表示在其对应弱监督标记条件下的自顶向下特征表示,对自顶向下特征表示包含的元素值从大到小进行重新排序,获得排序后的自顶向下的特征表示集;
步骤B30,对训练图像集中每个类别都对应一个深度Q网络进行高斯随机初始化;依据所述排序后的自顶向下特征表示集构造动作空间A;根据训练图像集的特征表示以及对应的历史动作构造状态空间S;根据图像分类得分变化、当前图像擦除操作擦除的面积构造奖励空间R;
步骤B40,将构造的状态空间S输入初始化后的深度Q网络,使用前向传播得到动作a,通过动作a对训练图像的影响,计算奖励r;通过深度Q学习算法更新网络的权重;
步骤B50,重复执行步骤B40,直至达到预设的终止条件或预设的训练次数,获得训练好的深度Q网络。
在一些优选的实施例中,步骤B30中“对训练图像集中每个类别都对应一个深度Q网络进行高斯随机初始化”,其方法为:
采用高斯分布随机初始化深度Q网络的权重:
Figure BDA0002019031950000041
其中,
Figure BDA0002019031950000042
为高斯分布的均值,α为高斯分布的方差。
高斯分布的计算方法为:
Figure BDA0002019031950000043
在一些优选的实施例中,步骤B30中“依据所述排序后的自顶向下特征表示集构造动作空间A;根据训练图像集的特征表示以及对应的历史动作构造状态空间S;根据图像分类得分变化、当前图像擦除操作擦除的面积构造奖励空间R”,其方法为:
按照Pc(u,v)的降序百分比构造动作空间A:
A={P1%,P2%,…,P100%,terminate}
其中,P1%,P2%,…,P100%,terminate为动作空间的元素;P1%表示保留排序后自顶向下特征表示Pc(u,v)的前1%的值,其余值置零;P2%,…,P100%以此类推;terminate为动作空间的停止操作;
根据训练图像集的特征和历史动作构造状态空间S:
Figure BDA0002019031950000051
其中,
Figure BDA0002019031950000052
为第xi个训练图像的特征表示,J为训练图像集图像的尺寸;
Figure BDA0002019031950000053
为历史动作向量,l为历史动作的次数;
依据当前时刻的状态s和下一时刻的状态s',基于奖励函数构建奖励空间R:
基于分类得分变化的奖励函数为:
Figure BDA0002019031950000054
其中,
Figure BDA0002019031950000055
分别表示输入图像
Figure BDA0002019031950000056
在t+1时刻、t时刻的分类得分;σ为预设的分类奖励得分;ξ为预设的分类得分约束;τ为预设的分类变化约束;
基于擦除面积变化的奖励函数为:
Figure BDA0002019031950000057
其中,
Figure BDA0002019031950000061
表示输入图像
Figure BDA0002019031950000062
在t时刻的已经擦除的百分比,μ为预设的擦除百分比下限,ψ为预设的擦除百分比上限,β为预设的擦除奖励得分;
深度Q网络收敛终止的奖励函数为:
Figure BDA0002019031950000063
其中,ε为预设的终止奖励得分。
在一些优选的实实施例中,步骤B40中“将构造的状态空间S输入初始化后的深度Q网络,使用前向传播得到动作a,通过动作a对训练图像的影响,计算奖励r;通过深度Q学习算法更新网络的权重”,其方法为:
将构造的状态空间S输入初始化后的深度Q网络,得到训练图像xi在时间点t对应的动作
Figure BDA0002019031950000064
将所述动作
Figure BDA0002019031950000065
作用在排序后的特征表示Pc(u,v)上,得到掩码
Figure BDA0002019031950000066
采用所述掩码
Figure BDA0002019031950000067
对训练图像xi进行擦除操作,再次输入特征提取网络,得到下一时刻的状态:
Figure BDA0002019031950000068
其中,
Figure BDA0002019031950000069
表示根据均值向量g、输入图像
Figure BDA00020190319500000610
以及掩码
Figure BDA00020190319500000611
进行的擦除操作,F代表前向传播算法,
Figure BDA00020190319500000612
代表擦除操作后的特征表示;
通过深度Q学习算法计算深度Q网络权重的更新量,然后更新深度Q网络权重,权重更新量的计算方法为:
Q(s,a)=r+γmaxa'Q(s',a')
其中,Q(s,a)为当前累计奖励,maxa′Q(s',a')为未来奖励,r为当前奖励,γ为权衡当前奖励以及未来奖励的权重。
在一些优选的实施例中,所述特征提取网络,其训练方法为:
步骤T10,依据获取的训练图像集以及对应的弱监督标记构建训练数据库;
步骤T20,从所述训练数据库随机选择一个训练数据输入特征提取网络,采用反向传播算法更新所述特征提取网络的权重,并计算所述特征提取网络损失层的损失函数值;
步骤T30,重复执行步骤T20直至所述损失函数值低于预设阈值,获得训练好的特征提取网络。
在一些优选的实施例中,所述损失函数值,其计算方法为:
Figure BDA0002019031950000071
其中,Loss_c为特征提取网络损失层的损失函数值,xi为训练数据库中的图像,yi为训练数据库中图像对应的弱监督标记,N为训练数据库中图像的数量。
本发明的另一方面,提出了一种基于视觉注意机制强化学习弱监督图像检测系统,包括输入模块、特征提取模块、排序模块、动作提取模块、擦除模块、输出模块;
所述输入模块,配置为获取具有弱监督标记的图像并输入;
所述特征提取模块,配置为基于特征提取网络,采用前向传播的方法提取输入图像对应的特征表示;
所述排序模块,配置为基于输入图像对应的弱监督标记,计算所述特征表示的自顶向下特征表示,并对其中的元素值重新排列;
所述动作提取模块,配置为采用深度Q网络,依据重新排序后的自顶向下的特征表示,构造动作空间、状态空间、奖励空间,计算擦除动作序列;
所述擦除模块,配置为将所述擦除动作序列中每一个擦除动作作用于输入图像上,直到擦除动作为预设的停止动作;
所述输出模块,配置为将获取的图像输出。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于视觉注意机制强化学习弱监督图像检测方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于视觉注意机制强化学习弱监督图像检测方法。
本发明的有益效果:
(1)本发明基于视觉注意机制强化学习弱监督图像检测方法,使用自顶向下的信息通过决策神经网络从动作空间中得到最优动作策略,能有效地模仿人类的视觉机理,通过迭代方式聚焦显著区域,解决了深度学习方法依赖大量选择候选框的低效率问题。
(2)本发明方法可以应用于基于少量标记的目标检测任务中,特别是针对具有充分类别标记的定位、检测任务。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于视觉注意机制强化学习弱监督图像检测方法的流程示意图;
图2是本发明基于视觉注意机制强化学习弱监督图像检测方法的深度Q网络结构示意图;
图3是本发明基于视觉注意机制强化学习弱监督图像检测方法一种实施例的数据集示例图;
图4是本发明基于视觉注意机制强化学习弱监督图像检测方法一种实施例的检测与定位结果示例图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明的一种基于视觉注意机制强化学习弱监督图像检测方法,包括:
步骤S10,获取具有弱监督标记的图像作为输入图像;
步骤S20,基于特征提取网络,采用前向传播的方法提取所述输入图像对应的特征表示;所述特征提取网络为基于神经网络构建的用于特征提取的网络;
步骤S30,基于所述特征表示对应的弱监督标记,计算所述特征表示在所述弱监督标记条件下的自顶向下特征表示,对其中的元素值按照从大到小进行重新排序;
步骤S40,采用深度Q网络,依据重新排序后的自顶向下特征表示,构造动作空间、状态空间、奖励空间,计算擦除动作序列;所述深度Q网络,为基于深度神经网络构建的用于计算特征表示在对应的弱监督标记下的动作序列的网络;
步骤S50,依次将所述擦除动作序列中每一个擦除动作作用于输入图像上,直到擦除动作为预设的停止动作,将获得的图像作为检测结果。
为了更清晰地对本发明基于视觉注意机制强化学习弱监督图像检测方法进行说明,下面结合图1对本发明方法实施例中各步骤展开详述。
本发明一种实施例的基于视觉注意机制强化学习弱监督图像检测方法,包括步骤S10-步骤S50,各步骤详细描述如下:
步骤S10,获取具有弱监督标记的图像作为输入图像。
弱监督通常分为三种类型:第一种是不完全监督,即只有训练数据集的一个(通常很小)子集有标签,其它数据则没有标签;第二种是不确切监督,即只有粗粒度的标签,以图像分类任务为例,我们希望图片中的每个物体都被标注,然而我们只有图片级的标签而没有物体级的标签;第三种是不准确监督,即给定的标签并不总是真值。出现这种情况的原因有,标注者粗心或疲倦,或者一些图像本身就难以分类。本发明用于弱监督学习的第二种情况,训练图像没有明确标签,只有粗粒度的标签。本发明方法不仅仅可以用于常规的图像处理,也可以用于视频提取的图像、文本转换的图像等的处理。
步骤S20,基于特征提取网络,采用前向传播的方法提取所述输入图像对应的特征表示;所述特征提取网络为基于神经网络构建的用于特征提取的网络。
特征提取是图象处理中的一个初级运算,使用计算机提取图像信息,决定图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。
特征提取网络的训练方法如下:
步骤T10,依据获取的训练图像集以及对应的弱监督标记构建训练数据库。
本发明一个实施例中采用的训练图像集来源于两个公开的多标签标准数据集:Pascal VOC 2007、Pascal VOC 2012,构造的训练数据库如式(1)所示:
Figure BDA0002019031950000111
其中,D代表训练数据库,xi为训练数据库中的图像,yi为训练数据库中图像对应的弱监督标记,N为训练数据库中图像的数量。
步骤T20,从所述训练数据库随机选择一个训练数据输入特征提取网络,采用反向传播算法更新所述特征提取网络的权重,并计算所述特征提取网络损失层的损失函数值,计算方法如式(2)所示:
Figure BDA0002019031950000112
其中,Loss_c为特征提取网络损失层的损失函数值,xi为训练数据库中的图像,yi为训练数据库中图像对应的弱监督标记,N为训练数据库中图像的数量。
步骤T30,重复执行步骤T20直至所述损失函数值低于预设阈值,获得训练好的特征提取网络。
训练好的特征提取网络可用于本发明输入图像的特征提取,在可以用于训练深度Q网络的训练集图像的特征提取,本发明一个实施例中,基于训练好的特征提取网络,采用前向传播的方法提取图像对应的特征表示,如式(3)所示:
fk(u,v)=F(xi) 式(3)
其中,fk(u,v)为提取特征表示的操作;F代表前向传播算法;xi代表输入图像;k代表特征提取网络中第k个神经元;(u,v)为特征表示的坐标,u为横坐标,v为纵坐标。
步骤S30,基于所述特征表示对应的弱监督标记,计算所述特征表示在所述弱监督标记条件下的自顶向下特征表示,对其中的元素值按照从大到小进行重新排序。
首先,对上述过程中获得的特征表示fk(u,v)与特征提取网络中第k个神经元与类别c对应的神经元连接的权重
Figure BDA0002019031950000121
进行乘积后累计求和,得到自顶向下特征表示Mc(u,v);然后将获得的自顶向下特征表示Mc(u,v)中的元素按照从大到小重新排序,得到排序后的自顶向下特征表示Pc(u,v)。
步骤S31,基于所述特征表示对应的弱监督标记,计算所述特征表示在所述弱监督标记条件下的自顶向下特征表示如式(4)所示:
Figure BDA0002019031950000122
其中,Mc(u,v)为在弱监督标记条件下的自顶向下特征表示集,
Figure BDA0002019031950000123
为特征提取网络中第k个神经元与类别c对应的神经元连接的权重。
步骤S32,对获得的弱监督标记条件下的自顶向下特征表示中的元素值采用排序函数从大到小重新进行排序,如式(5)所示:
Figure BDA0002019031950000124
其中,Pc(u,v)为排序后的特征表示,rank()为排序函数。
采用特征提取网络提取的特征表示包括特征图、特征向量等不同形式,对计算得到的自顶向下的特征表示中的元素排序,即为对特征图中每个像素点按照像素值从大到小排列,或者对特征向量中的元素按照元素值从大到小排列。
步骤S40,采用深度Q网络,依据重新排序后的自顶向下特征表示,构造动作空间、状态空间、奖励空间,计算擦除动作序列;所述深度Q网络,为基于深度神经网络构建的用于计算特征表示在对应的弱监督标记下的动作序列的网络。
深度Q网络是用深度学习来解决强化中Q学习的问题,深度学习是机器学习研究中的一个新的领域,其动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、声音、文本。如图2所示,为本发明基于视觉注意机制强化学习弱监督图像检测方法的深度Q网络结构示意图,CNN代表特征提取网络,featuremap代表通过CNN特征提取网络提取的特征表示,history action表示历史动作,image feature表示特征向量,1024-d表示特征维度为1024,6-actions表示6个历史动作,take action表示执行擦除动作,classification confidence表示图像分类得分,erased percentage表示图像的已擦除百分比。
深度Q网络的构建及训练方法如下:
步骤B10,采用步骤S20方法提取训练图像集中每一个图像的特征表示,得到特征表示集。
本发明实施例中,对深度Q网络的训练与特征提取网络的训练过程采用了同样的公开多标签标准数据集:Pascal VOC 2007、Pascal VOC 2012。如图3所示,为本发明基于视觉注意机制强化学习弱监督图像检测方法一种实施例的数据集示例图,选取数据集中6幅图像作为示例。采用特征网络提取训练图像集中每一个图像的特征表示,得到特征表示集fk(u,v)。
步骤B20,采用步骤S30方法计算所述特征表示集每一个特征表示在其对应弱监督标记条件下的自顶向下特征表示,对自顶向下特征表示包含的元素值从大到小进行重新排序,获得排序后的自顶向下的特征表示集Pc(u,v)。
步骤B30,对训练图像集中每个类别都对应一个深度Q网络进行高斯随机初始化;依据所述排序后的自顶向下特征表示集构造动作空间A;根据训练图像集的特征表示以及对应的历史动作构造状态空间S;根据图像分类得分变化、当前图像擦除操作擦除的面积构造奖励空间R。
采用高斯分布随机初始化深度Q网络,如式(6)所示:
Figure BDA0002019031950000141
其中,
Figure BDA0002019031950000142
为高斯分布的均值,α为高斯分布的方差。
高斯分布的计算方法如式(7)所示:
Figure BDA0002019031950000143
按照排序后的自定向下的特征表示集的降序百分比构造动作空间A,如式(8)所示:
A={P1%,P2%,…,P100%,terminate} 式(8)
其中,P1%,P2%,…,P100%,terminate为动作空间的元素;P1%表示保留排序后自顶向下特征表示Pc(u,v)的前1%的值,其余值置零;P2%,…,P100%以此类推;terminate为动作空间的停止操作。
在实施例中,无需构建如此复杂的动作空间,可以按照一定的规则选取其中一部分,本发明的一个实施例中,选取了{P5%,P10%,P15%,P20%,P25%,terminate}构建动作空间A。
根据训练图像集的特征和历史动作构造状态空间S,如式(9)所示:
Figure BDA0002019031950000144
其中,
Figure BDA0002019031950000151
为第xi个训练图像的特征表示,J为训练图像集图像的尺寸;
Figure BDA0002019031950000152
为历史动作向量,l为历史动作的次数。
依据当前时刻的状态s和下一时刻的状态s',基于奖励函数构建奖励空间R:
基于分类得分变化的奖励函数,如式(10)所示:
Figure BDA0002019031950000153
其中,
Figure BDA0002019031950000154
分别表示输入图像
Figure BDA0002019031950000155
在t+1时刻、t时刻的分类得分;σ为预设的分类奖励得分;ξ为预设的分类得分约束;τ为预设的分类变化约束。
基于擦除面积变化的奖励函数,如式(11)所示:
Figure BDA0002019031950000156
其中,
Figure BDA0002019031950000157
表示输入图像
Figure BDA0002019031950000158
在t时刻的已经擦除的百分比,μ为预设的擦除百分比下限,ψ为预设的擦除百分比上限,β为预设的擦除奖励得分。
深度Q网络收敛终止的奖励函数,如式(12)所示:
Figure BDA0002019031950000159
其中,ε为预设的终止奖励得分。
步骤B40,将构造的状态空间S输入初始化后的深度Q网络,使用前向传播得到动作a,通过动作a对训练图像的影响,计算奖励r;通过深度Q学习算法更新网络的权重:
将构造的状态空间S输入初始化后的深度Q网络,得到训练图像xi在时间点t对应的动作
Figure BDA0002019031950000161
将所述动作
Figure BDA0002019031950000162
作用在排序后的特征表示Pc(u,v)上,得到掩码
Figure BDA0002019031950000163
采用所述掩码
Figure BDA0002019031950000164
对训练图像xi进行擦除操作,再次输入特征提取网络,得到下一时刻的状态,如式(13)所示:
Figure BDA0002019031950000165
其中,
Figure BDA0002019031950000166
表示根据均值向量g、输入图像
Figure BDA0002019031950000167
以及掩码
Figure BDA0002019031950000168
进行的擦除操作,F代表前向传播算法,
Figure BDA0002019031950000169
代表擦除操作后的特征表示。
通过深度Q学习算法计算深度Q网络权重的更新量,然后更新深度Q网络权重,权重更新量的计算方法如式(14)所示:
Q(s,a)=r+γmaxa'Q(s',a') 式(14)
其中,Q(s,a)为当前累计奖励,maxa′Q(s',a')为未来奖励,r为当前奖励,γ为权衡当前奖励以及未来奖励的权重。本发明一个实施例中,设定γ=0.9。
步骤B50,重复执行步骤B40,直至达到预设的终止条件或预设的训练次数,获得训练好的深度Q网络。
在实施例中,对于Pascal VOC 2007中的数据集,使用train和val数据集进行训练,使用test数据集进行测试;对于Pascal VOC 2012数据集,使用train数据集进行训练,使用val数据集进行测试。如图4所示,为本发明基于视觉注意机制强化学习弱监督图像检测方法一种实施例的检测与定位结果示例图。图4中上部分为检测结果示例图,Method代表采用的方法:LocNet代表采用LocNet目标检测方法,OICR-VGG代表采用OICR深度网络方法,Ous代表采用本发明方法;表格中的行代表检测图像中的目标:plane代表飞机,bike代表自行车,bird代表鸟,boat代表船,btl代表瓶子,bus代表大巴,car代表轿车,chair代表椅子,cow代表奶牛,table代表桌子,dog代表狗,horse代表马,moto代表摩托车,pers代表人,plant代表植物,sheep代表羊,sofa代表沙发,train代表火车,tv代表电视,数字代表不同类别对应的正确率;mAP代表平均正确率。图4中下部分为定位结果示例图,Method代表采用的方法:RCNN代表采用卷积神经网络进行目标检测的方法,Fast-RCNN代表采用快速卷积神经网络进行目标检测的方法,Ours代表采用本发明方法;表格中的行代表检测图像中的目标,与图4上部分表格中的行所代表的意义相同。
步骤S50,依次将所述擦除动作序列中每一个擦除动作作用于输入图像上,直到擦除动作为预设的停止动作,将获得的图像作为检测结果。
将测试样本集中的每张图片输入特征提取网络提取特征,随后将提取的特征输入对应的深度Q网络,得到动作,随后将动作作用于原图像进行擦除操作直到动作为终止,所得区域即为结果区域,所得图像为检测结果并输出。
本发明第二实施例的基于视觉注意机制强化学习弱监督图像检测系统,包括输入模块、特征提取模块、排序模块、动作提取模块、擦除模块、输出模块;
所述输入模块,配置为获取具有弱监督标记的图像并输入;
所述特征提取模块,配置为基于特征提取网络,采用前向传播的方法提取输入图像对应的特征表示;
所述排序模块,配置为基于输入图像对应的弱监督标记,计算所述特征表示的自顶向下特征表示,并对其中的元素值重新排列;
所述动作提取模块,配置为采用深度Q网络,依据重新排序后的自顶向下的特征表示,构造动作空间、状态空间、奖励空间,计算擦除动作序列;
所述擦除模块,配置为将所述擦除动作序列中每一个擦除动作作用于输入图像上,直到擦除动作为预设的停止动作;
所述输出模块,配置为将获取的图像输出。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于视觉注意机制强化学习弱监督图像检测系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于视觉注意机制强化学习弱监督图像检测方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于视觉注意机制强化学习弱监督图像检测方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (12)

1.一种基于视觉注意机制强化学习弱监督图像检测方法,其特征在于,包括:
步骤S10,获取具有弱监督标记的图像作为输入图像;
步骤S20,基于特征提取网络,采用前向传播的方法提取所述输入图像对应的特征表示;所述特征提取网络为基于神经网络构建的用于特征提取的网络;
步骤S30,基于所述特征表示对应的弱监督标记,计算所述特征表示在所述弱监督标记条件下的自顶向下特征表示,对其中的元素值按照从大到小进行重新排序;
步骤S40,采用深度Q网络,依据重新排序后的自顶向下特征表示,构造动作空间、状态空间、奖励空间,计算擦除动作序列;所述深度Q网络,为基于深度神经网络构建的用于计算特征表示在对应的弱监督标记下的动作序列的网络;
步骤S50,依次将所述擦除动作序列中每一个擦除动作作用于输入图像上,直到擦除动作为预设的停止动作,将获得的图像作为检测结果。
2.根据权利要求1所述的基于视觉注意机制强化学习弱监督图像检测方法,其特征在于,步骤S20中“基于特征提取网络,采用前向传播的方法提取所述输入图像对应的特征表示”,其方法为:
fk(u,v)=F(xi)
其中,fk(u,v)为提取特征表示的操作;F代表前向传播算法;xi代表输入图像;k代表特征提取网络中第k个神经元;(u,v)为特征表示的坐标,u为横坐标,v为纵坐标。
3.根据权利要求1所述的基于视觉注意机制强化学习弱监督图像检测方法,其特征在于,步骤S30中“基于所述特征表示对应的弱监督标记,计算所述特征表示在所述弱监督标记条件下的自顶向下特征表示,对其中的元素值按照从大到小进行重新排序”,其方法为:
步骤S31,基于所述特征表示对应的弱监督标记,计算所述特征表示在所述弱监督标记条件下的自顶向下特征表示:
Figure FDA0002781964500000021
其中,Mc(u,v)为在弱监督标记条件下的自顶向下特征表示,
Figure FDA0002781964500000023
为特征提取网络中第k个神经元与类别c对应的神经元连接的权重;
步骤S32,对获得的弱监督标记条件下的自顶向下特征表示中的元素值采用排序函数从大到小重新进行排序:
Figure FDA0002781964500000022
其中,Pc(u,v)为排序后的特征表示,rank()为排序函数。
4.根据权利要求1所述的基于视觉注意机制强化学习弱监督图像检测方法,其特征在于,所述深度Q网络,其训练方法为为:
步骤B10,采用步骤S20方法提取训练图像集中每一个图像的特征表示,得到特征表示集;
步骤B20,采用步骤S30方法计算所述特征表示集每一个特征表示在其对应弱监督标记条件下的自顶向下特征表示,对自顶向下特征表示包含的元素值从大到小进行重新排序,获得排序后的自顶向下的特征表示集;
步骤B30,对训练图像集中每个类别都对应一个深度Q网络进行高斯随机初始化;依据所述排序后的自顶向下特征表示集构造动作空间A;根据训练图像集的特征表示以及对应的历史动作构造状态空间S;根据图像分类得分变化、当前图像擦除操作擦除的面积构造奖励空间R;
步骤B40,将构造的状态空间S输入初始化后的深度Q网络,使用前向传播得到动作a,通过动作a对训练图像的影响,计算奖励r;通过深度Q学习算法更新网络的权重;
步骤B50,重复执行步骤B40,直至达到预设的终止条件或预设的训练次数,获得训练好的深度Q网络。
5.根据权利要求4所述的基于视觉注意机制强化学习弱监督图像检测方法,其特征在于,步骤B30中“对训练图像集中每个类别都对应一个深度Q网络进行高斯随机初始化”,其方法为:
采用高斯分布随机初始化深度Q网络的权重:
Figure FDA0002781964500000031
其中,
Figure FDA0002781964500000032
为高斯分布的均值,α为高斯分布的方差。
6.根据权利要求4所述的基于视觉注意机制强化学习弱监督图像检测方法,其特征在于,步骤B30中“依据所述排序后的自顶向下特征表示集构造动作空间A;根据训练图像集的特征表示以及对应的历史动作构造状态空间S;根据图像分类得分变化、当前图像擦除操作擦除的面积构造奖励空间R”,其方法为:
按照Pc(u,v)的降序百分比构造动作空间A:
A={P1%,P2%,…,P100%,terminate}
其中,P1%,P2%,…,P100%,terminate为动作空间的元素;P1%表示保留排序后自顶向下特征表示Pc(u,v)的前1%的值,其余值置零;P2%,…,P100%以此类推;terminate为动作空间的停止操作;
根据训练图像集的特征和历史动作构造状态空间S:
Figure FDA0002781964500000041
其中,
Figure FDA0002781964500000042
为第xi个训练图像的特征表示,J为训练图像集图像的尺寸;
Figure FDA0002781964500000043
为历史动作向量,l为历史动作的次数;
依据当前时刻的状态s和下一时刻的状态s',基于奖励函数构建奖励空间R:
基于分类得分变化的奖励函数为:
Figure FDA0002781964500000044
其中,
Figure FDA0002781964500000045
分别表示输入图像
Figure FDA0002781964500000046
在t+1时刻、t时刻的分类得分;σ为预设的分类奖励得分;ξ为预设的分类得分约束;τ为预设的分类变化约束;
基于擦除面积变化的奖励函数为:
Figure FDA0002781964500000047
其中,
Figure FDA0002781964500000048
表示输入图像
Figure FDA0002781964500000049
在t时刻的已经擦除的百分比,μ为预设的擦除百分比下限,ψ为预设的擦除百分比上限,β为预设的擦除奖励得分;
深度Q网络收敛终止的奖励函数为:
Figure FDA00027819645000000410
其中,ε为预设的终止奖励得分。
7.根据权利要求4所述的基于视觉注意机制强化学习弱监督图像检测方法,其特征在于,步骤B40中“将构造的状态空间S输入初始化后的深度Q网络,使用前向传播得到动作a,通过动作a对训练图像的影响,计算奖励r;通过深度Q学习算法更新网络的权重”,其方法为:
将构造的状态空间S输入初始化后的深度Q网络,得到训练图像xi在时间点t对应的动作
Figure FDA0002781964500000051
将所述动作
Figure FDA0002781964500000052
作用在排序后的特征表示Pc(u,v)上,得到掩码
Figure FDA0002781964500000053
采用所述掩码
Figure FDA0002781964500000054
对训练图像xi进行擦除操作,再次输入特征提取网络,得到下一时刻的状态:
Figure FDA0002781964500000055
其中,
Figure FDA0002781964500000056
表示根据均值向量g、输入图像
Figure FDA0002781964500000057
以及掩码
Figure FDA0002781964500000058
进行的擦除操作,F代表前向传播算法,
Figure FDA0002781964500000059
代表擦除操作后的特征表示;
通过深度Q学习算法计算深度Q网络权重的更新量,然后更新深度Q网络权重,权重更新量的计算方法为:
Q(s,a)=r+γmaxa'Q(s',a')
其中,Q(s,a)为当前累计奖励,maxa'Q(s',a')为未来奖励,r为当前奖励,γ为权衡当前奖励以及未来奖励的权重。
8.根据权利要求1所述的基于视觉注意机制强化学习弱监督图像检测方法,其特征在于,所述特征提取网络,其训练方法为:
步骤T10,依据获取的训练图像集以及对应的弱监督标记构建训练数据库;
步骤T20,从所述训练数据库随机选择一个训练数据输入特征提取网络,采用反向传播算法更新所述特征提取网络的权重,并计算所述特征提取网络损失层的损失函数值;
步骤T30,重复执行步骤T20直至所述损失函数值低于预设阈值,获得训练好的特征提取网络。
9.根据权利要求8所述的基于视觉注意机制强化学习弱监督图像检测方法,其特征在于,所述损失函数值,其计算方法为:
Figure FDA0002781964500000061
其中,Loss_c为特征提取网络损失层的损失函数值,xi为训练数据库中的图像,yi为训练数据库中图像对应的弱监督标记,N为训练数据库中图像的数量。
10.一种基于视觉注意机制强化学习弱监督图像检测系统,其特征在于,包括输入模块、特征提取模块、排序模块、动作提取模块、擦除模块、输出模块;
所述输入模块,配置为获取具有弱监督标记的图像并输入;
所述特征提取模块,配置为基于特征提取网络,采用前向传播的方法提取输入图像对应的特征表示;
所述排序模块,配置为基于输入图像对应的弱监督标记,计算所述特征表示的自顶向下特征表示,并对其中的元素值重新排列;
所述动作提取模块,配置为采用深度Q网络,依据重新排序后的自顶向下的特征表示,构造动作空间、状态空间、奖励空间,计算擦除动作序列;
所述擦除模块,配置为将所述擦除动作序列中每一个擦除动作作用于输入图像上,直到擦除动作为预设的停止动作;
所述输出模块,配置为将获取的图像输出。
11.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-9任一项所述的基于视觉注意机制强化学习弱监督图像检测方法。
12.一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-9任一项所述的基于视觉注意机制强化学习弱监督图像检测方法。
CN201910273048.2A 2019-04-04 2019-04-04 基于视觉注意机制强化学习弱监督图像检测方法、系统 Active CN110084245B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910273048.2A CN110084245B (zh) 2019-04-04 2019-04-04 基于视觉注意机制强化学习弱监督图像检测方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910273048.2A CN110084245B (zh) 2019-04-04 2019-04-04 基于视觉注意机制强化学习弱监督图像检测方法、系统

Publications (2)

Publication Number Publication Date
CN110084245A CN110084245A (zh) 2019-08-02
CN110084245B true CN110084245B (zh) 2020-12-25

Family

ID=67414257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910273048.2A Active CN110084245B (zh) 2019-04-04 2019-04-04 基于视觉注意机制强化学习弱监督图像检测方法、系统

Country Status (1)

Country Link
CN (1) CN110084245B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866872B (zh) * 2019-10-10 2022-07-29 北京邮电大学 一种路面裂缝图片预处理智能选择方法、装置及电子设备
CN111476302B (zh) * 2020-04-08 2023-03-24 北京工商大学 基于深度强化学习的Faster-RCNN目标物体检测方法
CN112017305A (zh) * 2020-08-25 2020-12-01 华东师范大学 一种基于强化学习的三维模型自动上色方法
CN112328578B (zh) * 2020-11-26 2023-03-28 电子科技大学 一种基于强化学习和图注意力网络的数据库查询优化方法
CN114743041B (zh) * 2022-03-09 2023-01-03 中国科学院自动化研究所 一种预训练模型抽选框架的构建方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284812A (zh) * 2018-09-19 2019-01-29 哈尔滨理工大学 一种基于改进dqn的视频游戏模拟方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017120336A2 (en) * 2016-01-05 2017-07-13 Mobileye Vision Technologies Ltd. Trained navigational system with imposed constraints
CN107403426B (zh) * 2017-06-20 2020-02-21 北京工业大学 一种目标物体检测方法及设备
CN109474980B (zh) * 2018-12-14 2020-04-28 北京科技大学 一种基于深度增强学习的无线网络资源分配方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284812A (zh) * 2018-09-19 2019-01-29 哈尔滨理工大学 一种基于改进dqn的视频游戏模拟方法

Also Published As

Publication number Publication date
CN110084245A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN110084245B (zh) 基于视觉注意机制强化学习弱监督图像检测方法、系统
Kahl et al. Large-Scale Bird Sound Classification using Convolutional Neural Networks.
CN108399386B (zh) 饼图中的信息提取方法及装置
JP6974697B2 (ja) 教師データ生成装置、教師データ生成方法、教師データ生成プログラム、及び物体検出システム
CN107122375A (zh) 基于图像特征的图像主体的识别方法
CN110348580A (zh) 构建gbdt模型的方法、装置及预测方法、装置
US20180225516A1 (en) Method and system for automated behavior classification of test subjects
CN112819110B (zh) 基于权重生成的增量式小样本目标检测方法及系统
CN104866868A (zh) 基于深度神经网络的金属币识别方法和装置
CN104268552B (zh) 一种基于部件多边形的精细类别分类方法
CN111160469A (zh) 一种目标检测系统的主动学习方法
CN103745233B (zh) 基于空间信息迁移的高光谱图像分类方法
CN111709468B (zh) 一种定向人工智能的训练方法、装置及存储介质
CN109189965A (zh) 图像文字检索方法及系统
CN114359199A (zh) 一种基于深度学习的鱼类计数方法、装置、设备和介质
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN112101346A (zh) 一种基于目标检测的验证码识别方法及装置
CN109284702B (zh) 一种基于图像模式的答题卷给分及阅卷系统
CN109271544B (zh) 自动挑选画家代表作的方法及装置
KR20200082490A (ko) 기계 학습 데이터 선택 방법 및 장치
CN113869098A (zh) 植物病害识别方法、装置、电子设备及存储介质
CN113408606A (zh) 基于图协同训练的半监督小样本图像分类方法
CN112084975A (zh) 一种基于机器学习模型的昆虫访花行为分析方法
CN110675382A (zh) 基于CNN-LapsELM的铝电解过热度识别方法
CN116612478A (zh) 一种脱机手写汉字的评分方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant