CN108182438A

CN108182438A - 基于深度强化学习的图二值特征学习方法及装置

Info

Publication number: CN108182438A
Application number: CN201810043210.7A
Authority: CN
Inventors: 鲁继文; 周杰; 段岳圻
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2018-06-19
Anticipated expiration: 2038-01-17
Also published as: CN108182438B

Abstract

本发明公开了一种基于深度强化学习的图二值特征学习方法及装置，其中，方法包括：提取图像深度实值特征；根据深度强化学习的位间关系挖掘得到位间关系挖掘网络的基本量，其中，基本量包括状态、转移举证、行动和奖励，以训练得到位间关系挖掘网络；通过位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征。该方法可以通过位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征，有效提高特征鲁棒性。

Description

基于深度强化学习的图二值特征学习方法及装置

技术领域

本发明涉及计算机视觉与机器学习技术领域，特别涉及一种基于深度强化学习的图二值特征学习方法及装置。

背景技术

计算机视觉领域非常重要的基本问题之一是视觉识别任务，该任务被广泛应用到各种视觉任务中，例如通用物体识别，场景识别，人脸识别以及指纹识别等。视觉识别任务本质上是模式识别任务，该任务具有数据维度高、数据量大以及数据差异大等特点。视觉识别任务的基础和依据是视觉特征，视觉特征指的是与图片对应的特征向量。一个“好”的特征满足同类图片的特征向量相似性强，不同类图片的特征向量相似性弱的特点。视觉识别通常通过如下两步来完成：特征提取和特征匹配。特征提取的目标是为每一张图片提取满足上述叙述的“好”的特征，而特征匹配则依据特征的相似性来对图片进行分类。由于在自然环境中，物体的光照、姿态、背景、视角和遮挡的差异较大，可能出现同一类物体之间的相似性小，不同物体之间的相似性较大的情况，因此得到能准确描述图片信息的特征向量是视觉识别技术中最为关键的环节。

图像特征提取方法主要有两类：基于手工提取的方法和基于学习的方法。词袋模型是手工提取方法的重要代表，主要通过如下步骤来完成：1)提取图像关键点或关键区域；2)在图像关键点或关键区域提取局部特征描述子；3)对词袋模型建立字典；4)池化局部特征描述子进行并提取直方图特征。上述过程中，关键点或关键区域的提取以及特征描述子的提取是计算机视觉领域中的传统问题。关键点或关键区域的提取致力于找到图像中关键且稳定局部区域，这些区域随着图像的变化具有一定的稳定性和可重复性。而提取特征描述子则为找到的关键点或关键区域提供准确、鲁棒的描述。由于具有干扰不变性的局部特征对图像中的遮挡，尺度，光照等干扰因素具有较好的鲁棒性，因而近年来逐渐取代了全局特征而成为图像特征的主流。图像局部特征检测方法有角点检测、斑点检测、区域检测，近年来也出现了大量方法，代表性的方法有SIFT(Scale-invariant feature transform，尺度不变特征变换)，LBP(Local Binary Patterns，局部二值模式)和HOG(Histogram ofOriented Gradient，方向梯度直方图)等。基于特征学习的方法通过对训练样本的学习，总结数据集蕴含的规律，泛化生成适应数据集的特征提取方法。基于特征学习的方法由于对数据集有更强的针对性，因而在多种视觉任务中取得了更为突出的成绩。

近些年来，由于深度学习的迅速发展和其在计算机视觉领域中的成功应用，深度特征提取方法已成为应用到各个视觉任务中的主流方法。随着大数据时代的到来，许多计算机视觉领域的工作充分利用大数据的优势，极大地提高了完成各种视觉任务的方法性能。由于深度学习方法不仅关注全局特征，更是将局部特征抽取的算法有效地融入到了神经网络中，完成视觉目标的特征表达，所以深度学习方法能更好地利用视觉大数据学习出准确的视觉特征。如基于深度卷积神经网络的AlexNet得到了最高的准确率；大规模物体识别设计了“非常深”的卷积神经网络VGG(Visual Geometry Group，计算机视觉组)；通过批正则化的方式加速卷积神经网络的训练的方法；深度残差网络大幅增加网络深度，进一步提升了基于深度学习的目标检测及识别的方法性能。

由于深度学习具有数据量大、数据维度高等特点，实值特征计算代价和储存成本较高，推广到实际应用还存在困难。二值特征学习技术具有计算代价小、储存成本低、匹配速度快的特点，深度二值特征学习在花费较低运算代价和较小储存成本的同时获得准确的描述能力，能够具备精确、高效的特点，满足实际应用需求。例如，通过非监督的方式学习深度二值特征，在多个数据集上取得了出色的识别率；对二值化方式进行了学习，得到更为精细的量化方式，在图片检索，图像匹配等应用上都达到了现有的最高水平。然而，相关技术中的二值特征学习方法没有考虑特征的位与位之间的相互关系，独立的学习特征的各位可能导致产生位于二值化边界的特征位，这些位容易受到噪声的影响，从而特征的鲁棒性不强，有待解决。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于深度强化学习的图二值特征学习方法，可以有效提高特征的鲁棒性。

本发明的另一个目的在于提出一种基于深度强化学习的图二值特征学习装置。

为达到上述目的，本发明一方面实施例提出了一种基于深度强化学习的图二值特征学习方法，包括以下步骤：提取图像深度实值特征；根据深度强化学习的位间关系挖掘得到位间关系挖掘网络的基本量，其中，所述基本量包括状态、转移举证、行动和奖励，以训练得到所述位间关系挖掘网络；通过所述位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征。

本发明实施例的基于深度强化学习的图二值特征学习方法，可以通过提取图像深度实值特征，并且根据深度强化学习的位间关系挖掘得到位间关系挖掘网络的基本量，从而通过位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征，解决了深度二值特征学习技术中位于二值化边界附近的特征位鲁棒性较差的问题，并在该标准下对不同二值特征提取模型的鲁棒性能进行比较，有效提高特征的鲁棒性。

另外，根据本发明上述实施例的基于深度强化学习的图二值特征学习方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述提取图像深度实值特征，进一步包括：将原始图像传入预训练的深度卷积神经网络，并在所述深度卷积神经网络的最后层全连接后得到每一张图像的低维的深度实值特征。

进一步地，在本发明的一个实施例中，所述训练得到所述位间关系挖掘网络，进一步包括：采用卷积层、全连接层和反卷积层组合的方式搭建所述位间关系挖掘网络，并且采用决策梯度的强化学习类型并基于蒙特卡洛采样使用REINFORCE训练算法来训练所述位间关系挖掘网络。

进一步地，在本发明的一个实施例中，所述通过所述位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征，进一步包括：基于所述互信息的特征提取网络输出的二值特征参数，其中，根据不同于二值特征参数的二值化概率p衡量特征位的鲁棒性：

p(b_kn|x_n)＝|t_kn-0.5|+0.5，

其中，b_kn为二值特征，x_n为输入图像，t_kn为经符号函数归一化后的实值特征。

进一步地，在本发明的一个实施例中，通过当前位间关系和损失函数训练所述特征提取网络，所述损失函数为：

其中，J为总损失函数，J₁为均匀分布约束，J₂为互信息约束，J₃为独立性约束，α和β为平衡不同约束权重参数，K为特征位数，N为图片个数，n为当前图片编号，b_sn为被指导的二值特征，b_tn为指导二值特征，p为概率函数。

为达到上述目的，本发明另一方面实施例提出了一种基于深度强化学习的图二值特征学习装置，包括：采集模块，用于提取图像深度实值特征；获取模块，用于根据深度强化学习的位间关系挖掘得到位间关系挖掘网络的基本量，其中，所述基本量包括状态、转移举证、行动和奖励，以训练得到所述位间关系挖掘网络；提取模块，用于通过所述位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征。

本发明实施例的基于深度强化学习的图二值特征学习装置，可以通过提取图像深度实值特征，并且根据深度强化学习的位间关系挖掘得到位间关系挖掘网络的基本量，从而通过位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征，解决了深度二值特征学习技术中位于二值化边界附近的特征位鲁棒性较差的问题，并在该标准下对不同二值特征提取模型的鲁棒性能进行比较，有效提高特征的鲁棒性。

另外，根据本发明上述实施例的基于深度强化学习的图二值特征学习装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述采集模块，进一步包括：采集单元，用于将原始图像传入预训练的深度卷积神经网络，并在所述深度卷积神经网络的最后层全连接后得到每一张图像的低维的深度实值特征。

进一步地，在本发明的一个实施例中，所述获取模块，进一步包括：训练单元，用于采用卷积层、全连接层和反卷积层组合的方式搭建所述位间关系挖掘网络，并且采用决策梯度的强化学习类型并基于蒙特卡洛采样使用REINFORCE训练算法来训练所述位间关系挖掘网络。

进一步地，在本发明的一个实施例中，所述提取模块，进一步包括：基于所述互信息的特征提取网络输出的二值特征参数，其中，根据不同于二值特征参数的二值化概率p衡量特征位的鲁棒性：

p(b_kn|x_n)＝|t_kn-0.5|+0.5，

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于深度强化学习的图二值特征学习方法的流程图；

图2为根据本发明一个实施例的基于深度强化学习的图二值特征学习方法的流程图；

图3为根据本发明一个实施例的基于深度强化学习的位间关系挖掘的示意图；

图4为根据本发明实施例的基于深度强化学习的图二值特征学习装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于深度强化学习的图二值特征学习方法及装置，首先将参照附图描述根据本发明实施例提出的基于深度强化学习的图二值特征学习方法。

图1是本发明实施例的基于深度强化学习的图二值特征学习方法

如图1所示，该基于深度强化学习的图二值特征学习方法包括以下步骤：

在步骤S101中，提取图像深度实值特征。

进一步地，在本发明的一个实施例中，提取图像深度实值特征，进一步包括：将原始图像传入预训练的深度卷积神经网络，并在深度卷积神经网络的最后层全连接后得到每一张图像的低维的深度实值特征。

可以理解的是，结合图1和图2所示，本发明实施例可以提取图像深度实值特征，具体地，将原始图像传入预训练的深度卷积神经网络，在网络的最后层全连接后得到每一张图像的低维的深度实值特征，最大化特征与样本间的互信息，得到不存在任何位间关系情况下最鲁棒的特征，作为预处理的特征。

在步骤S102中，根据深度强化学习的位间关系挖掘得到位间关系挖掘网络的基本量，其中，基本量包括状态、转移举证、行动和奖励，以训练得到位间关系挖掘网络。

进一步地，在本发明的一个实施例中，训练得到位间关系挖掘网络，进一步包括：采用卷积层、全连接层和反卷积层组合的方式搭建位间关系挖掘网络，并且采用决策梯度的强化学习类型并基于蒙特卡洛采样使用REINFORCE训练算法来训练位间关系挖掘网络。

可以理解的是，如图3所示，本发明实施例可以根据深度强化学习的位间关系挖掘得到位间关系挖掘网络的基本量，由于考虑特征的位间关系后，并且期望特征的鲁棒性增强，所以基于强化学习位间关系挖掘网络的基本量应该定义如下：

(1)状态。特征当前的位间关系。若某两特征位之间有连接，则将连接矩阵中表示该两位特征之间关系的元素置位1，否则置位0。

(2)转移矩阵。位间关系挖掘网络的输出表示基于当前状态和奖励函数，下一步应该采取的各个可能行动的概率。

(3)行动。a.连接某两位；b.断开某两位的连接；c.停止挖掘，转入特征提取阶段；当转移矩阵的最大值高于某一个阈值时，若该最大值元素代表的连接关系没有连接，则采取行动a连接该两位；当转移矩阵的某些元小于某一个阈值时，若这些元素代表的连接关系已经连接，则采用行动b断开这些连接；若上述两种情况都不存在，则采用行动c退出挖掘，转入特征提取阶段。

(4)奖励。采取行动前后的损失函数的减少值。若采取该行动后鲁棒性增强，则损失函数下降，奖励为正，反之为负。

另外，本发明实施例可以采用卷积层、全连接层和反卷积层组合的方式搭建位间关系挖掘网络，采用决策梯度的强化学习类型，基于蒙特卡洛采样使用REINFORCE训练算法来训练位间关系挖掘网络。

在步骤S103中，通过位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征。

进一步地，在本发明的一个实施例中，通过位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征，进一步包括：基于互信息的特征提取网络输出的二值特征参数，其中，根据不同于二值特征参数的二值化概率p衡量特征位的鲁棒性：

p(b_kn|x_n)＝|t_kn-0.5|+0.5，

其中，在本发明的一个实施例中，通过当前位间关系和损失函数训练特征提取网络，损失函数为：

可以理解的是，本发明实施例可以基于概率模型进行二值化，假设二值特征的满足参数为t的二项分布，并视其为特征位二值化到1的概率，具体二值化规则如下：

当某特征位的t大于或等于0.5时，我们认为该特征位有更大的可能二值化到1，所以选择1作为该特征位的二值化结果，反之该位二值化到0。

另外，本发明实施例引入基于互信息的特征提取网络，通过该特征提取网络输出的二值特征参数t，定义二值化概率p(不同于t)用来衡量特征位的鲁棒性：

p(b_kn|x_n)＝|t_kn-0.5|+0.5，

由于训练过程是在非监督的条件下进行的，所以引入损失函数来进行训练，该方法期望得到准确、鲁棒的特征，损失函数应具有如下性质：

(1)各特征位0、1分布均匀，二值化后特征位0、1的均匀分布有助于增大特征位含有的有效信息量。

(2)鲁棒位与样本之间互信息最大、不鲁棒位与样本和指导其的鲁棒位之间互信息最大。最大化鲁棒位和样本之间的互信息能够减少该特征位的不确定性；最大化不鲁棒位与样本和指导其的鲁棒位之间互信息使得不鲁棒位在样本和鲁棒位共同的指导下增加其二值化的可靠度。

(3)最小化不鲁棒位接受鲁棒位指导前后的二值化概率。不鲁棒位被鲁棒位指导后可能出现接受过量指导信息的情况，使得其变成冗余特征位。该项期望不鲁棒位仍然可以获得样本足够多的有效信息。

综上所述，整体的损失函数为：

需要说明的是，本发明实施例采用两步迭代训练的方式训练基于深度强化学习和基于互信息的鲁棒二值特征提取模型，基于当前特征提取网络的参数训练位间关系挖掘网络，得到使得特征鲁棒性最强的位间关系；再基于当前位间关系使用损失函数训练特征提取网络，得到鲁棒性最强的特征；反复迭代上述两阶段训练，直到达到最大迭代次数。

综上所述，本发明实施例为了避免现有二值特征提取技术中由于未考虑位间关系而使得特征存在不鲁棒位的情况，本发明实施例使用深度强化学习技术和基于互信息的特征提取技术使得特征位都远离二值化边界，从而得到准确、鲁棒的特征。首先，本发明实施例将当前位间指导关系输入位间关系挖掘网络，得到在当前特征提取网络参数下使得特征鲁棒性最强的新的位间指导关系。其次，基于这一关系最大化不鲁棒位与样本和指导其鲁棒位之间互信息，得到新的特征提取网络参数，使得特征位都远离二值化边界。最终在位间关系挖掘网络和特征提取网络都收敛的条件下得到图像的二值特征。

根据本发明实施例提出的基于深度强化学习的图二值特征学习方法，可以通过提取图像深度实值特征，并且根据深度强化学习的位间关系挖掘得到位间关系挖掘网络的基本量，从而通过位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征，解决了深度二值特征学习技术中位于二值化边界附近的特征位鲁棒性较差的问题，并在该标准下对不同二值特征提取模型的鲁棒性能进行比较，有效提高特征的鲁棒性。

其次参照附图描述根据本发明实施例提出的基于深度强化学习的图二值特征学习装置。

图4是本发明实施例的基于深度强化学习的图二值特征学习装置的结构示意图。

如图4所示，该基于深度强化学习的图二值特征学习装置10包括：采集模块100、获取模块200和提取模块300。

其中，采集模块100用于提取图像深度实值特征。获取模块200用于根据深度强化学习的位间关系挖掘得到位间关系挖掘网络的基本量，其中，基本量包括状态、转移举证、行动和奖励，以训练得到位间关系挖掘网络。提取模块300用于通过位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征。本发明实施例的装置10可以通过位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征，有效提高特征鲁棒性。

进一步地，在本发明的一个实施例中，采集模块100进一步包括：采集单元。采集单元，用于将原始图像传入预训练的深度卷积神经网络，并在深度卷积神经网络的最后层全连接后得到每一张图像的低维的深度实值特征。

进一步地，在本发明的一个实施例中，获取模块200进一步包括：训练单元。训练单元用于采用卷积层、全连接层和反卷积层组合的方式搭建位间关系挖掘网络，并且采用决策梯度的强化学习类型并基于蒙特卡洛采样使用REINFORCE训练算法来训练位间关系挖掘网络。

进一步地，在本发明的一个实施例中，提取模块300进一步包括：基于互信息的特征提取网络输出的二值特征参数，其中，根据不同于二值特征参数的二值化概率p衡量特征位的鲁棒性：

p(b_kn|x_n)＝|t_kn-0.5|+0.5，

进一步地，在本发明的一个实施例中，通过当前位间关系和损失函数训练特征提取网络，损失函数为：

需要说明的是，前述对基于深度强化学习的图二值特征学习方法实施例的解释说明也适用于该实施例的基于深度强化学习的图二值特征学习装置，此处不再赘述。

根据本发明实施例提出的基于深度强化学习的图二值特征学习装置，可以通过提取图像深度实值特征，并且根据深度强化学习的位间关系挖掘得到位间关系挖掘网络的基本量，从而通过位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征，解决了深度二值特征学习技术中位于二值化边界附近的特征位鲁棒性较差的问题，并在该标准下对不同二值特征提取模型的鲁棒性能进行比较，有效提高特征的鲁棒性。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度强化学习的图二值特征学习方法，其特征在于，包括以下步骤：

提取图像深度实值特征；

根据深度强化学习的位间关系挖掘得到位间关系挖掘网络的基本量，其中，所述基本量包括状态、转移举证、行动和奖励，以训练得到所述位间关系挖掘网络；以及

通过所述位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征。

2.根据权利要求1所述的基于深度强化学习的图二值特征学习方法，其特征在于，所述提取图像深度实值特征，进一步包括：

将原始图像传入预训练的深度卷积神经网络，并在所述深度卷积神经网络的最后层全连接后得到每一张图像的低维的深度实值特征。

3.根据权利要求1所述的基于深度强化学习的图二值特征学习方法，其特征在于，所述训练得到所述位间关系挖掘网络，进一步包括：

采用卷积层、全连接层和反卷积层组合的方式搭建所述位间关系挖掘网络，并且采用决策梯度的强化学习类型并基于蒙特卡洛采样使用REINFORCE训练算法来训练所述位间关系挖掘网络。

4.根据权利要求1所述的基于深度强化学习的图二值特征学习方法，其特征在于，所述通过所述位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征，进一步包括：

基于所述互信息的特征提取网络输出的二值特征参数，其中，根据不同于二值特征参数的二值化概率p衡量特征位的鲁棒性：

p(b_kn|x_n)＝|t_kn-0.5|+0.5，

5.根据权利要求4所述的基于深度强化学习的图二值特征学习方法，其特征在于，通过当前位间关系和损失函数训练所述特征提取网络，所述损失函数为：

6.一种基于深度强化学习的图二值特征学习装置，其特征在于，包括：

采集模块，用于提取图像深度实值特征；

获取模块，用于根据深度强化学习的位间关系挖掘得到位间关系挖掘网络的基本量，其中，所述基本量包括状态、转移举证、行动和奖励，以训练得到所述位间关系挖掘网络；以及

提取模块，用于通过所述位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征。

7.根据权利要求6所述的基于深度强化学习的图二值特征学习装置，其特征在于，所述采集模块，进一步包括：

采集单元，用于将原始图像传入预训练的深度卷积神经网络，并在所述深度卷积神经网络的最后层全连接后得到每一张图像的低维的深度实值特征。

8.根据权利要求6所述的基于深度强化学习的图二值特征学习装置，其特征在于，所述获取模块，进一步包括：

训练单元，用于采用卷积层、全连接层和反卷积层组合的方式搭建所述位间关系挖掘网络，并且采用决策梯度的强化学习类型并基于蒙特卡洛采样使用REINFORCE训练算法来训练所述位间关系挖掘网络。

9.根据权利要求6所述的基于深度强化学习的图二值特征学习装置，其特征在于，所述提取模块，进一步包括：

p(b_kn|x_n)＝|t_kn-0.5|+0.5，

10.根据权利要求9所述的基于深度强化学习的图二值特征学习装置，其特征在于，通过当前位间关系和损失函数训练所述特征提取网络，所述损失函数为：