CN110084245A

CN110084245A - 基于视觉注意机制强化学习弱监督图像检测方法、系统

Info

Publication number: CN110084245A
Application number: CN201910273048.2A
Authority: CN
Inventors: 张兆翔; 张驰; 恩擎
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-08-02
Anticipated expiration: 2039-04-04
Also published as: CN110084245B

Abstract

本发明属于计算机及机器学习领域，具体涉及了一种基于视觉注意机制强化学习弱监督图像检测方法、系统，旨在解决现有的图像检测方法需要大量有明确标签的训练数据，且标记费时费力的问题。本发明方法包括：获取具有弱监督标记的图像作为输入图像；采用特征提取网络提取输入图像的特征；依据对应的弱监督标记，计算并排序，获得排序后的自顶向下的特征表示；将其输入深度Q网络，计算擦除动作序列；将擦除动作序列作用于输入图像进行擦除操作，直到预设的停止动作，将获得的图像作为检测结果。本发明使用自顶向下的信息通过决策神经网络从动作空间中得到最优动作策略，能有效地模仿人类的视觉机理，通过迭代方式聚焦显著区域。

Description

基于视觉注意机制强化学习弱监督图像检测方法、系统

技术领域

本发明属于计算机及机器学习领域，具体涉及了一种基于视觉注意机制强化学习弱监督图像检测方法、系统。

背景技术

随着互联网技术的快速发展，图像和视频已经成为数字媒体信息的重要载体。如何从图像与视频信息中提取有效的语义信息成为计算机视觉领域的研究热点。人类感知系统的反应都是根据不同感知器官接受的外部信息所分析获得，而视觉感知系统在其中扮演着重要的作用。外界无时无刻不在将信息通过视觉感知系统传入大脑进行分析，并根据分析做出适当的反应。但因为人类大脑处理信息能力有限而视觉系统不断接受大量信息，一些信息不经过视觉机理处理就会使信息的处理滞后，更可能有丢失重要信息的风险。因此人类进化过程中演化出了一种高级的视觉处理机制：选择注意机制。该机制能够对输入视觉信息做重要筛选，优先级别高的信息会被优先处理，从而提升视觉信息处理效率。

视觉注意机制模型受启发于人类视觉系统，该机制将输入的大量复杂视觉信息进行筛选辨认，最终获得少量关键信息，极大提高了视觉信息处理的效率。自底向上和自顶向下的视觉机制分别通过数据驱动和任务驱动来指导模型进行注意力区域的选择。弱监督任务因为其缺少明确强监督信息，所以需要从现有数据分布中通过自底向上和自顶向下的注意选择区域进行先验知识建模，最终更好地帮助模型进行视觉信息处理，从而获得正确的语义信息。

物体检测与分割对视觉数据理解与感知都扮演了极为重要的角色。人类视觉注意机制因其能在海量数据中注视到显著区域并分配资源优先注意，故而能够有效帮助计算机对图像与视频进行语义分析。传统的检测和分割任务都会利用强监督信息训练深度神经网络，即对于检测任务标记目标边界框、对于分割任务标记每个像素类别。而弱监督条件下进行语义分析的难点在于训练样本没有强监督训练标记，难以建立数据与目标之间的直接联系。弱监督学习多数使用以下几种弱监督信息：边界框、眼动轨迹、标记曲线作为弱监督标记信息，从而建立输入数据与目标任务间的隐含映射关系。

总的来说，现有的基于神经网络的方法需要通过有明确任务标记的数据进行训练和学习，但是实际过程中往往缺少大量有明确标签的训练数据，且标记费时费力。

发明内容

为了解决现有技术中的上述问题，即现有的图像检测方法需要大量有明确标签的训练数据，且标记费时费力的问题，本发明提供了一种基于视觉注意机制强化学习弱监督图像检测方法，包括：

步骤S10，获取具有弱监督标记的图像作为输入图像；

步骤S20，基于特征提取网络，采用前向传播的方法提取所述输入图像对应的特征表示；所述特征提取网络为基于神经网络构建的用于特征提取的网络；

步骤S30，基于所述特征表示对应的弱监督标记，计算所述特征表示在所述弱监督标记条件下的自顶向下特征表示，对其中的元素值按照从大到小进行重新排序；

步骤S40，采用深度Q网络，依据重新排序后的自顶向下特征表示，构造动作空间、状态空间、奖励空间，计算擦除动作序列；所述深度Q网络，为基于深度神经网络构建的用于计算特征表示在对应的弱监督标记下的动作序列的网络；

步骤S50，依次将所述擦除动作序列中每一个擦除动作作用于输入图像上，直到擦除动作为预设的停止动作，将获得的图像作为检测结果。

在一些优选的实施例中，步骤S20中“基于特征提取网络，采用前向传播的方法提取所述输入图像对应的特征表示”，其方法为：

f_k(u,v)＝F(x_i)

其中，f_k(u,v)为提取特征表示的操作；F代表前向传播算法；x_i代表输入图像；k代表特征提取网络中第k个神经元；(u,v)为特征表示的坐标，u为横坐标，v为纵坐标。

在一些优选的实施例中，步骤S30中“基于所述特征表示对应的弱监督标记，计算所述特征表示在所述弱监督标记条件下的自顶向下特征表示，对其中的元素值按照从大到小进行重新排序”，其方法为：

步骤S31，基于所述特征表示对应的弱监督标记，计算所述特征表示在所述弱监督标记条件下的自顶向下特征表示：

其中，M_c(u,v)为在弱监督标记条件下的自顶向下特征表示，为特征提取网络中第k个神经元与类别c对应的神经元连接的权重；

步骤S32，对获得的弱监督标记条件下的自顶向下特征表示中的元素值采用排序函数从大到小重新进行排序：

其中，P_c(u,v)为排序后的特征表示，rank()为排序函数。

在一些优选的实施例中，所述深度Q网络，其训练方法为：

步骤B10，采用步骤S20方法提取训练图像集中每一个图像的特征表示，得到特征表示集；

步骤B20，采用步骤S30方法计算所述特征表示集每一个特征表示在其对应弱监督标记条件下的自顶向下特征表示，对自顶向下特征表示包含的元素值从大到小进行重新排序，获得排序后的自顶向下的特征表示集；

步骤B30，对训练图像集中每个类别都对应一个深度Q网络进行高斯随机初始化；依据所述排序后的自顶向下特征表示集构造动作空间A；根据训练图像集的特征表示以及对应的历史动作构造状态空间S；根据图像分类得分变化、当前图像擦除操作擦除的面积构造奖励空间R；

步骤B40，将构造的状态空间S输入初始化后的深度Q网络，使用前向传播得到动作a，通过动作a对训练图像的影响，计算奖励r；通过深度Q学习算法更新网络的权重；

步骤B50，重复执行步骤B40，直至达到预设的终止条件或预设的训练次数，获得训练好的深度Q网络。

在一些优选的实施例中，步骤B30中“对训练图像集中每个类别都对应一个深度Q网络进行高斯随机初始化”，其方法为：

采用高斯分布随机初始化深度Q网络的权重：

其中，为高斯分布的均值，α为高斯分布的方差。

高斯分布的计算方法为：

在一些优选的实施例中，步骤B30中“依据所述排序后的自顶向下特征表示集构造动作空间A；根据训练图像集的特征表示以及对应的历史动作构造状态空间S；根据图像分类得分变化、当前图像擦除操作擦除的面积构造奖励空间R”，其方法为：

按照P_c(u,v)的降序百分比构造动作空间A：

A＝{P_1％,P_2％,…,P_100％,terminate}

其中，P_1％，P_2％，…，P_100％，terminate为动作空间的元素；P_1％表示保留排序后自顶向下特征表示P_c(u,v)的前1％的值，其余值置零；P_2％，…，P_100％以此类推；terminate为动作空间的停止操作；

根据训练图像集的特征和历史动作构造状态空间S：

其中，为第x_i个训练图像的特征表示，J为训练图像集图像的尺寸；为历史动作向量，l为历史动作的次数；

依据当前时刻的状态s和下一时刻的状态s'，基于奖励函数构建奖励空间R：

基于分类得分变化的奖励函数为：

其中，分别表示输入图像在t+1时刻、t时刻的分类得分；σ为预设的分类奖励得分；ξ为预设的分类得分约束；τ为预设的分类变化约束；

基于擦除面积变化的奖励函数为：

其中，表示输入图像在t时刻的已经擦除的百分比，μ为预设的擦除百分比下限，ψ为预设的擦除百分比上限，β为预设的擦除奖励得分；

深度Q网络收敛终止的奖励函数为：

其中，ε为预设的终止奖励得分。

在一些优选的实实施例中，步骤B40中“将构造的状态空间S输入初始化后的深度Q网络，使用前向传播得到动作a，通过动作a对训练图像的影响，计算奖励r；通过深度Q学习算法更新网络的权重”，其方法为：

将构造的状态空间S输入初始化后的深度Q网络，得到训练图像x_i在时间点t对应的动作

将所述动作作用在排序后的特征表示P_c(u,v)上，得到掩码

采用所述掩码对训练图像x_i进行擦除操作，再次输入特征提取网络，得到下一时刻的状态：

其中，表示根据均值向量g、输入图像以及掩码进行的擦除操作，F代表前向传播算法，代表擦除操作后的特征表示；

通过深度Q学习算法计算深度Q网络权重的更新量，然后更新深度Q网络权重，权重更新量的计算方法为：

Q(s,a)＝r+γmax_a'Q(s',a')

其中，Q(s,a)为当前累计奖励，max_a′Q(s',a')为未来奖励，r为当前奖励，γ为权衡当前奖励以及未来奖励的权重。

在一些优选的实施例中，所述特征提取网络，其训练方法为：

步骤T10，依据获取的训练图像集以及对应的弱监督标记构建训练数据库；

步骤T20，从所述训练数据库随机选择一个训练数据输入特征提取网络，采用反向传播算法更新所述特征提取网络的权重，并计算所述特征提取网络损失层的损失函数值；

步骤T30，重复执行步骤T20直至所述损失函数值低于预设阈值，获得训练好的特征提取网络。

在一些优选的实施例中，所述损失函数值，其计算方法为：

其中，Loss_c为特征提取网络损失层的损失函数值，x_i为训练数据库中的图像，y_i为训练数据库中图像对应的弱监督标记，N为训练数据库中图像的数量。

本发明的另一方面，提出了一种基于视觉注意机制强化学习弱监督图像检测系统，包括输入模块、特征提取模块、排序模块、动作提取模块、擦除模块、输出模块；

所述输入模块，配置为获取具有弱监督标记的图像并输入；

所述特征提取模块，配置为基于特征提取网络，采用前向传播的方法提取输入图像对应的特征表示；

所述排序模块，配置为基于输入图像对应的弱监督标记，计算所述特征表示的自顶向下特征表示，并对其中的元素值重新排列；

所述动作提取模块，配置为采用深度Q网络，依据重新排序后的自顶向下的特征表示，构造动作空间、状态空间、奖励空间，计算擦除动作序列；

所述擦除模块，配置为将所述擦除动作序列中每一个擦除动作作用于输入图像上，直到擦除动作为预设的停止动作；

所述输出模块，配置为将获取的图像输出。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于视觉注意机制强化学习弱监督图像检测方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于视觉注意机制强化学习弱监督图像检测方法。

本发明的有益效果：

(1)本发明基于视觉注意机制强化学习弱监督图像检测方法，使用自顶向下的信息通过决策神经网络从动作空间中得到最优动作策略，能有效地模仿人类的视觉机理，通过迭代方式聚焦显著区域，解决了深度学习方法依赖大量选择候选框的低效率问题。

(2)本发明方法可以应用于基于少量标记的目标检测任务中，特别是针对具有充分类别标记的定位、检测任务。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于视觉注意机制强化学习弱监督图像检测方法的流程示意图；

图2是本发明基于视觉注意机制强化学习弱监督图像检测方法的深度Q网络结构示意图；

图3是本发明基于视觉注意机制强化学习弱监督图像检测方法一种实施例的数据集示例图；

图4是本发明基于视觉注意机制强化学习弱监督图像检测方法一种实施例的检测与定位结果示例图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的一种基于视觉注意机制强化学习弱监督图像检测方法，包括：

步骤S10，获取具有弱监督标记的图像作为输入图像；

为了更清晰地对本发明基于视觉注意机制强化学习弱监督图像检测方法进行说明，下面结合图1对本发明方法实施例中各步骤展开详述。

本发明一种实施例的基于视觉注意机制强化学习弱监督图像检测方法，包括步骤S10-步骤S50，各步骤详细描述如下：

步骤S10，获取具有弱监督标记的图像作为输入图像。

弱监督通常分为三种类型：第一种是不完全监督，即只有训练数据集的一个(通常很小)子集有标签，其它数据则没有标签；第二种是不确切监督，即只有粗粒度的标签，以图像分类任务为例，我们希望图片中的每个物体都被标注，然而我们只有图片级的标签而没有物体级的标签；第三种是不准确监督，即给定的标签并不总是真值。出现这种情况的原因有，标注者粗心或疲倦，或者一些图像本身就难以分类。本发明用于弱监督学习的第二种情况，训练图像没有明确标签，只有粗粒度的标签。本发明方法不仅仅可以用于常规的图像处理，也可以用于视频提取的图像、文本转换的图像等的处理。

步骤S20，基于特征提取网络，采用前向传播的方法提取所述输入图像对应的特征表示；所述特征提取网络为基于神经网络构建的用于特征提取的网络。

特征提取是图象处理中的一个初级运算，使用计算机提取图像信息，决定图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集，这些子集往往属于孤立的点、连续的曲线或者连续的区域。

特征提取网络的训练方法如下：

步骤T10，依据获取的训练图像集以及对应的弱监督标记构建训练数据库。

本发明一个实施例中采用的训练图像集来源于两个公开的多标签标准数据集：Pascal VOC 2007、Pascal VOC 2012，构造的训练数据库如式(1)所示：

其中，D代表训练数据库，x_i为训练数据库中的图像，y_i为训练数据库中图像对应的弱监督标记，N为训练数据库中图像的数量。

步骤T20，从所述训练数据库随机选择一个训练数据输入特征提取网络，采用反向传播算法更新所述特征提取网络的权重，并计算所述特征提取网络损失层的损失函数值，计算方法如式(2)所示：

训练好的特征提取网络可用于本发明输入图像的特征提取，在可以用于训练深度Q网络的训练集图像的特征提取，本发明一个实施例中，基于训练好的特征提取网络，采用前向传播的方法提取图像对应的特征表示，如式(3)所示：

f_k(u,v)＝F(x_i) 式(3)

步骤S30，基于所述特征表示对应的弱监督标记，计算所述特征表示在所述弱监督标记条件下的自顶向下特征表示，对其中的元素值按照从大到小进行重新排序。

首先，对上述过程中获得的特征表示f_k(u,v)与特征提取网络中第k个神经元与类别c对应的神经元连接的权重进行乘积后累计求和，得到自顶向下特征表示M_c(u,v)；然后将获得的自顶向下特征表示M_c(u,v)中的元素按照从大到小重新排序，得到排序后的自顶向下特征表示P_c(u,v)。

步骤S31，基于所述特征表示对应的弱监督标记，计算所述特征表示在所述弱监督标记条件下的自顶向下特征表示如式(4)所示：

其中，M_c(u,v)为在弱监督标记条件下的自顶向下特征表示集，为特征提取网络中第k个神经元与类别c对应的神经元连接的权重。

步骤S32，对获得的弱监督标记条件下的自顶向下特征表示中的元素值采用排序函数从大到小重新进行排序，如式(5)所示：

其中，P_c(u,v)为排序后的特征表示，rank()为排序函数。

采用特征提取网络提取的特征表示包括特征图、特征向量等不同形式，对计算得到的自顶向下的特征表示中的元素排序，即为对特征图中每个像素点按照像素值从大到小排列，或者对特征向量中的元素按照元素值从大到小排列。

步骤S40，采用深度Q网络，依据重新排序后的自顶向下特征表示，构造动作空间、状态空间、奖励空间，计算擦除动作序列；所述深度Q网络，为基于深度神经网络构建的用于计算特征表示在对应的弱监督标记下的动作序列的网络。

深度Q网络是用深度学习来解决强化中Q学习的问题，深度学习是机器学习研究中的一个新的领域，其动机在于建立模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像、声音、文本。如图2所示，为本发明基于视觉注意机制强化学习弱监督图像检测方法的深度Q网络结构示意图，CNN代表特征提取网络，featuremap代表通过CNN特征提取网络提取的特征表示，history action表示历史动作，image feature表示特征向量，1024-d表示特征维度为1024，6-actions表示6个历史动作，take action表示执行擦除动作，classification confidence表示图像分类得分，erased percentage表示图像的已擦除百分比。

深度Q网络的构建及训练方法如下：

步骤B10，采用步骤S20方法提取训练图像集中每一个图像的特征表示，得到特征表示集。

本发明实施例中，对深度Q网络的训练与特征提取网络的训练过程采用了同样的公开多标签标准数据集：Pascal VOC 2007、Pascal VOC 2012。如图3所示，为本发明基于视觉注意机制强化学习弱监督图像检测方法一种实施例的数据集示例图，选取数据集中6幅图像作为示例。采用特征网络提取训练图像集中每一个图像的特征表示，得到特征表示集f_k(u,v)。

步骤B20，采用步骤S30方法计算所述特征表示集每一个特征表示在其对应弱监督标记条件下的自顶向下特征表示，对自顶向下特征表示包含的元素值从大到小进行重新排序，获得排序后的自顶向下的特征表示集P_c(u,v)。

步骤B30，对训练图像集中每个类别都对应一个深度Q网络进行高斯随机初始化；依据所述排序后的自顶向下特征表示集构造动作空间A；根据训练图像集的特征表示以及对应的历史动作构造状态空间S；根据图像分类得分变化、当前图像擦除操作擦除的面积构造奖励空间R。

采用高斯分布随机初始化深度Q网络，如式(6)所示：

其中，为高斯分布的均值，α为高斯分布的方差。

高斯分布的计算方法如式(7)所示：

按照排序后的自定向下的特征表示集的降序百分比构造动作空间A，如式(8)所示：

A＝{P_1％,P_2％,…,P_100％,terminate} 式(8)

其中，P_1％，P_2％，…，P_100％，terminate为动作空间的元素；P_1％表示保留排序后自顶向下特征表示P_c(u,v)的前1％的值，其余值置零；P_2％，…，P_100％以此类推；terminate为动作空间的停止操作。

在实施例中，无需构建如此复杂的动作空间，可以按照一定的规则选取其中一部分，本发明的一个实施例中，选取了{P_5％,P_10％,P_15％,P_20％,P_25％,terminate}构建动作空间A。

根据训练图像集的特征和历史动作构造状态空间S，如式(9)所示：

其中，为第x_i个训练图像的特征表示，J为训练图像集图像的尺寸；为历史动作向量，l为历史动作的次数。

基于分类得分变化的奖励函数，如式(10)所示：

其中，分别表示输入图像在t+1时刻、t时刻的分类得分；σ为预设的分类奖励得分；ξ为预设的分类得分约束；τ为预设的分类变化约束。

基于擦除面积变化的奖励函数，如式(11)所示：

其中，表示输入图像在t时刻的已经擦除的百分比，μ为预设的擦除百分比下限，ψ为预设的擦除百分比上限，β为预设的擦除奖励得分。

深度Q网络收敛终止的奖励函数，如式(12)所示：

其中，ε为预设的终止奖励得分。

步骤B40，将构造的状态空间S输入初始化后的深度Q网络，使用前向传播得到动作a，通过动作a对训练图像的影响，计算奖励r；通过深度Q学习算法更新网络的权重：

将所述动作作用在排序后的特征表示P_c(u,v)上，得到掩码

采用所述掩码对训练图像x_i进行擦除操作，再次输入特征提取网络，得到下一时刻的状态，如式(13)所示：

其中，表示根据均值向量g、输入图像以及掩码进行的擦除操作，F代表前向传播算法，代表擦除操作后的特征表示。

通过深度Q学习算法计算深度Q网络权重的更新量，然后更新深度Q网络权重，权重更新量的计算方法如式(14)所示：

Q(s,a)＝r+γmax_a'Q(s',a') 式(14)

其中，Q(s,a)为当前累计奖励，max_a′Q(s',a')为未来奖励，r为当前奖励，γ为权衡当前奖励以及未来奖励的权重。本发明一个实施例中，设定γ＝0.9。

在实施例中，对于Pascal VOC 2007中的数据集，使用train和val数据集进行训练，使用test数据集进行测试；对于Pascal VOC 2012数据集，使用train数据集进行训练，使用val数据集进行测试。如图4所示，为本发明基于视觉注意机制强化学习弱监督图像检测方法一种实施例的检测与定位结果示例图。图4中上部分为检测结果示例图，Method代表采用的方法：LocNet代表采用LocNet目标检测方法，OICR-VGG代表采用OICR深度网络方法，Ous代表采用本发明方法；表格中的行代表检测图像中的目标：plane代表飞机，bike代表自行车，bird代表鸟，boat代表船，btl代表瓶子，bus代表大巴，car代表轿车，chair代表椅子，cow代表奶牛，table代表桌子，dog代表狗，horse代表马，moto代表摩托车，pers代表人，plant代表植物，sheep代表羊，sofa代表沙发，train代表火车，tv代表电视，数字代表不同类别对应的正确率；mAP代表平均正确率。图4中下部分为定位结果示例图，Method代表采用的方法：RCNN代表采用卷积神经网络进行目标检测的方法，Fast-RCNN代表采用快速卷积神经网络进行目标检测的方法，Ours代表采用本发明方法；表格中的行代表检测图像中的目标，与图4上部分表格中的行所代表的意义相同。

将测试样本集中的每张图片输入特征提取网络提取特征，随后将提取的特征输入对应的深度Q网络，得到动作，随后将动作作用于原图像进行擦除操作直到动作为终止，所得区域即为结果区域，所得图像为检测结果并输出。

本发明第二实施例的基于视觉注意机制强化学习弱监督图像检测系统，包括输入模块、特征提取模块、排序模块、动作提取模块、擦除模块、输出模块；

所述输入模块，配置为获取具有弱监督标记的图像并输入；

所述输出模块，配置为将获取的图像输出。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于视觉注意机制强化学习弱监督图像检测系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于视觉注意机制强化学习弱监督图像检测方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于视觉注意机制强化学习弱监督图像检测方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于视觉注意机制强化学习弱监督图像检测方法，其特征在于，包括：

步骤S10，获取具有弱监督标记的图像作为输入图像；

2.根据权利要求1所述的基于视觉注意机制强化学习弱监督图像检测方法，其特征在于，步骤S20中“基于特征提取网络，采用前向传播的方法提取所述输入图像对应的特征表示”，其方法为：

f_k(u,v)＝F(x_i)

3.根据权利1所述的基于视觉注意机制强化学习弱监督图像检测方法，其特征在于，步骤S30中“基于所述特征表示对应的弱监督标记，计算所述特征表示在所述弱监督标记条件下的自顶向下特征表示，对其中的元素值按照从大到小进行重新排序”，其方法为：

其中，P_c(u,v)为排序后的特征表示，rank()为排序函数。

4.根据权利要求1所述的基于视觉注意机制强化学习弱监督图像检测方法，其特征在于，所述深度Q网络，其训练方法为为：

5.根据权利4所述的基于视觉注意机制强化学习弱监督图像检测方法，其特征在于，步骤B30中“对训练图像集中每个类别都对应一个深度Q网络进行高斯随机初始化”，其方法为：

采用高斯分布随机初始化深度Q网络的权重：

其中，为高斯分布的均值，α为高斯分布的方差。

6.根据权利4所述的基于视觉注意机制强化学习弱监督图像检测方法，其特征在于，步骤B30中“依据所述排序后的自顶向下特征表示集构造动作空间A；根据训练图像集的特征表示以及对应的历史动作构造状态空间S；根据图像分类得分变化、当前图像擦除操作擦除的面积构造奖励空间R”，其方法为：

按照P_c(u,v)的降序百分比构造动作空间A：

A＝{P_1％,P_2％,…,P_100％,terminate}

根据训练图像集的特征和历史动作构造状态空间S：

基于分类得分变化的奖励函数为：

基于擦除面积变化的奖励函数为：

深度Q网络收敛终止的奖励函数为：

其中，ε为预设的终止奖励得分。

7.根据权利8所述的基于视觉注意机制强化学习弱监督图像检测方法，其特征在于，步骤B40中“将构造的状态空间S输入初始化后的深度Q网络，使用前向传播得到动作a，通过动作a对训练图像的影响，计算奖励r；通过深度Q学习算法更新网络的权重”，其方法为：

将所述动作作用在排序后的特征表示P_c(u,v)上，得到掩码

Q(s,a)＝r+γmax_a'Q(s',a')

其中，Q(s,a)为当前累计奖励，max_a'Q(s',a')为未来奖励，r为当前奖励，γ为权衡当前奖励以及未来奖励的权重。

8.根据权利要求1所述的基于视觉注意机制强化学习弱监督图像检测方法，其特征在于，所述特征提取网络，其训练方法为：

9.根据权利要求8所述的基于视觉注意机制强化学习弱监督图像检测方法，其特征在于，所述损失函数值，其计算方法为：

10.一种基于视觉注意机制强化学习弱监督图像检测系统，其特征在于，包括输入模块、特征提取模块、排序模块、动作提取模块、擦除模块、输出模块；

所述输入模块，配置为获取具有弱监督标记的图像并输入；

所述输出模块，配置为将获取的图像输出。

11.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-9任一项所述的基于视觉注意机制强化学习弱监督图像检测方法。

12.一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-9任一项所述的基于视觉注意机制强化学习弱监督图像检测方法。