CN107229914A - 一种基于深度q学习策略的手写数字识别方法 - Google Patents

一种基于深度q学习策略的手写数字识别方法 Download PDF

Info

Publication number
CN107229914A
CN107229914A CN201710381771.3A CN201710381771A CN107229914A CN 107229914 A CN107229914 A CN 107229914A CN 201710381771 A CN201710381771 A CN 201710381771A CN 107229914 A CN107229914 A CN 107229914A
Authority
CN
China
Prior art keywords
mrow
msub
learning
munderover
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710381771.3A
Other languages
English (en)
Other versions
CN107229914B (zh
Inventor
乔俊飞
王功明
李文静
韩红桂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201710381771.3A priority Critical patent/CN107229914B/zh
Publication of CN107229914A publication Critical patent/CN107229914A/zh
Application granted granted Critical
Publication of CN107229914B publication Critical patent/CN107229914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

一种基于深度Q学习策略的手写数字识别方法属于人工智能和模式识别领域,针对手写数字标准对象MNIST数据库的识别精度低的问题。首先,利用深度自编码器(Deep Auto‑Encoder,DAE)对原始信号进行抽象特征提取,Q学习算法将DAE对原始信号的编码特征作为当前状态。然后,过对当前状态进行分类识别得到一个奖励值,并将奖励值返回给Q学习算法以便进行迭代更新。通过最大化奖励值来完成手写数字的高精确识别。本发明将具有感知能力的深度学习和具有决策能力的强化学习结合在一起,通过深度自编码器与Q学习算法相结合构成Q深度信念网络(Q‑DBN),提高了识别精度,同时缩短了识别时间。

Description

一种基于深度Q学习策略的手写数字识别方法
技术领域
本发明属于人工智能和模式识别领域,涉及一种基于深度Q学习策略的手写数字识别方法,是一种深度学习和强化学习相结合的创新性应用技术。
背景技术
近年来,随着人工智能技术和模式识别技术的不断发展,手写数字识别被广泛的应用于邮政邮件分拣、医疗数据处理以及其他计算视觉等领域。由于带有大量不同的手写点和笔迹类别,手写数字识别是一项具有挑战性的工作。现阶段,有很多模式识别方法被应用于手写数字识别中,例如基于深度学习模型的分类方法、人工神经网络方法以及支持向量机分类器等。在这些现有的识别方法中,基于深度学习模型的深度信念网络具有相对较高的识别精度,因为深度学习模型具有像人脑分层处理信息一样的数据处理能力。
手写数字识别要求识别方法同时具有较强的特征提取能力和识别决策能力。尽管深度信念网络具有较强的分层特征提取能力,但是其识别精度仍然无法满足人们的要求,并且识别时间较长。为了获得决策能力较强的手写数字识别方法,人们开始研究机器人理论中的强化学习,并模仿具有较强决策能力的AlphaGo。通过研究人们发现,AlphaGo采用的学习方法主要是无监督的深层循环学习,即“自己跟自己学习”,其有监督学习部分相对较少,所以强化学习也无法独立完成手写数字高精度的识别任务。从宏观角度看,在高级人工智能领域里,特征提取能力和识别决策能力都是衡量一个人工智能体的重要指标。然而,直接通过学习高维输入(如海量的手写数字图像)去控制智能体,对强化学习来说是一个长期的挑战,AlphaGo同样也面临此类问题。众所周知,强化学习在决策规划的理论和算法方面已经取得了显著的成果。但是,绝大部分成功的强化学习应用案例均依赖于人工选取数据特征,而学习的效果严重地取决于特征选取的质量和准确度。
深度Q学习策略是一种基于深度强化学习思想(如图1所示)建立起来的分类识别模型,其结合了深度学习强大的特征提取能力和强化学习强大的决策能力。基于现有手写数字识别方法存在的不足以及识别任务的特点得知,深度Q学习策略能够充分地满足了手写数字识别对识别方法的要求,并且能够快速完成高精度的识别任务。因此,深度Q学习策略是一种高效的手写数字识别技术。
发明内容
1.本发明需要且能够解决的技术问题
针对现有模式识别方法难以满足目前人们对手写数字识别精度要求越来越高的问题,本发明结合深度强化学习理论,提出一种基于深度Q学习策略的手写数字识别方法。该方法能够实现对手写数字的快速且高精度的识别。
2.本发明具体的技术方案
一种基于深度强化学习策略的手写数字识别方法,其特征在于包括以下步骤:
步骤A:根据深度学习模型分层特征学习的特点,顺序叠加若干个受限玻尔兹曼机(RBM)构造深度自编码器(DAE),并利用DAE对手写数字图像进行分层抽象与关键特征提取;其中,DAE的特征学习是通过逐层训练每个RBM来完成的。
步骤B:计算DAE的最后一个RBM隐含层状态与原始输入图像数据的重构误差Re-Error,并设置基于重构误差的特征提取衡量标准;然后所设置的特征提取衡量标准确定最终提取到的特征。
步骤C:将最终确定提取到的特征F=[f1,f2,…,fl]作为强化学习中Q学习算法的初始状态,手写数字的10种识别结果作为Q学习算法的输出状态,然后进行Q算法寻优决策迭代。
步骤D:通过步骤D构造基于Q学习算法的深度信念网络(Q-DBN),Q-DBN通过最大化Q函数值来获取最优决策行为集从而完成手写数字识别任务,最优的决策行为集获取公式为当连续两次以上的决策行为所得到的识别结果相同时,Q函数的迭代停止。
3.与现有技术相比,本发明具有以下优点:
1)本发明针对传统手写数字识别方法识别精度低且耗时长的问题,提出了一种基于深度Q学习策略的手写数字识别方法,如图2和图3所示。通过利用深度自编码器和Q学习算法相结合的方法,将深度学习的数据降维技术用于特征提取过程中,然后再利用Q学习算法来处理所提取到的特征,进而做出识别和决策。这种基于深度Q学习策略的识别方法能够充分的利用深度学习强大的特征提取能力和强化学习强大的决策能力,并较快地做出高精度的识别。满足了实际应用中对手写数字识别精度和速度的要求。
2)本发明第一次将深度强化理论和方法应用到手写数字识别中,属于人工智能在模式识别领域中的前沿探索性应用方法。该方法在手写数字识别中的成功应用,对于推动人工智能方法的发展及其在各个领域中的应用具有非常重要的意义。
附图说明
图1深度学习和强化学习结合框架
图2深度自编码器结构图
图3深度Q学习策略原理图
图4深度自编码器与其他方法的降噪效果对比图
图5深度自编码器与其他方法的降噪重构误差对比图
图6深度自编码器与其他方法的降噪信噪比对比图
图7深度自编码器分层抽象特征提取过程
图8深度Q学习策略奖励信号积累值
图9深度Q学习策略对5000个手写数字图像的错误识别结果
具体实施方式
在本发明提供了一种基于深度Q学习策略的手写数字识别方法,具体实施方法包括:
1.手写数字图像降噪
本发明提供的一个实施例中,手写数字图像来自MNIST手写数据库,该数据库拥有60000个训练图像和10000个测试图像,每个数字都用很多不同的手写方式来显示,每个图像为28×28的像素,像素取值为0~1。从MNIST数据库中随机选取1000个手写数字图像作为训练样本,100个带有10%背景噪音的手写数字图像作为测试样本。1000个训练样本本分成10批,每批包含100个图像,重构误差Re-Error和信噪比作为评价降噪效果的指标。
1)根据RBM的极大团构造原理,RBM的能量函数定义为
其中,v是可视层状态向量,h是隐含层状态向量,θ={w,a,b},w是可视层和隐含层之间的
连接权值矩阵,a和b分别是可视层和隐含层节点的偏置向量;vi和hj分别是可视层第i个神
经元和隐含层第j个神经元的状态值,wij表示可视层第i个神经元与隐含层第j个神经元之
间的连接权值,ai和bj分别是可视层第i个神经元和隐含层第j个神经元的偏置,m和n分别
是可视层神经元和隐含层神经元个数;相应的条件概率为
式中,σ(·)是一个Sigmoid函数,P(hj=1/v;θ)表示在θ和v已知的条件下hj=1的概率,P(vi=1/h;θ)表示在θ和h已知的条件下vi=1的概率;利用能量函数得到RBM的联合分布为
P(v,h)∝e-ε(v,h/θ) (4)
权值更新公式为
其中,τ是RBM的迭代步数,θ(τ)和θ(τ+1)分别是第τ次和第τ+1次迭代后的参数值,r是学习率,其取值范围是0<r<1。
本实施例中此步骤涉及RBM的固有参数设置情况为:隐含层神经元个数l=100,学习率r=0.5,训练迭代次数τ=50,吉布斯采样次数λ=2。
2)定义重构误差公式为
其中,Ns和Np分别表示训练样本个数和手写数字图像的像素点个数,vij和v′ij分别表示图片像素点原始值和重构值;
根据步骤1)中对RBM的训练方法,顺序训练ADE中叠加的若干个RBM,即上一个RBM的输出作为下一个RBM的输入。然后根据如公式(7)所示的基于重构误差的特征提取标准所设置的特征提取标准来确定最终提取到的特征。
Re-Error≤Re-Error0 (7)
即如果重构误差小于或等于所设置的重构误差阈值Re-Error0,那么将提取DAE的最后一个RBM隐含层状态作为最终特征F=[f1,f2,…,fl],其中,f1,f2,…,fl分别表示最后一个RBM隐含层中各个神经元的状态值,l是隐含层神经元个数;否则,增加RBM的无监督迭代次数并继续提取特征,其中,重构误差阈值的取值范围为:0.01<Re-Error0<0.05。
本实施例中此步骤涉及ADE的固有参数设置情况为:RBM个数L=3,重构误差阈值Re-Error0=0.02。
图4给出了深度自编码器和其他两种方法的降噪效果对比图,图5深度自编码器与其他方法的降噪重构误差对比图,图6深度自编码器与其他方法的降噪信噪比对比图。由此得知,深度自编码器在特征感知和提取方面效果较好。
2.手写数字识别
从MNIST数据库中随机选取10000个带有标签的手写数字图像作为训练样本,5000个手写数字图像作为特使样本。10000个训练样本本分成100批,每批包含100个图像。
将最终确定提取到的特征F=[f1,f2,…,fl]和手写数字的10种识别结果S=[s1=0,s2=1,…,s10=9]分别作为Q学习算法的初始状态和输出状态,从初始状态到输出状态的决策行集合为
A=[a1:F=0,a2:F=1,…,a10:F=9] (8)
基于奖励信号的Q函数为
公式(9)表示在一次识别过程中的累积Q函数值;式中,D是手写数字识别的结果个数,d是对D的随机选取,是从当前初始状态转移到新状态的概率,0≤γ<1是折扣因子,maxQ(sd,a′)是对Q函数增强信号取最大值;a,a′∈A且a≠a′,a是当前时刻的决策行为,a′是下一时刻的决策行为;g(F,a,sd)是在决策行为a的作用下从状态F转移到状态sd时的瞬时奖励信号,表示为
Q函数的迭代更新过程为
Qt+1(F,a)=(1-ηt(F,a))Qt(F,a)+ηt(F,a)(g(F,a,sd)+γmaxQt(sd,a′)) (11)
式中,ηt(F,a)是状态-行为对(F,a)在第t次迭代时的学习步长。
本实施例中此步骤涉及Q学习算法的固有参数设置情况为:折扣因子γ=0.5,状态-行为对(F,a)在第t次Q函数值迭代时的学习步长ηt(F,a)=0.6。
图7给出了深度自编码器分层抽象特征提取过程和特征图像,图8给出了深度Q学习策略奖励信号积累值,由此得知,深度Q学习策略在处理抽象特征的过程中能够实现算法的收敛。图9给出了深度Q学习策略对5000个手写数字图像的错误识别结果,结果显示,5000个测试样本中只有41个识别错误。基于深度Q学习策略的手写数字识别效果与其他现有方法识别效果的对比结果如表1所示。
表1 基于深度Q学习策略的手写数字识别结果与其他方法的结果对比

Claims (4)

1.一种基于深度强化学习策略的手写数字识别方法,其特征在于包括以下步骤:
步骤A:根据深度学习模型分层特征学习的特点,顺序叠加若干个受限玻尔兹曼机RBM构造深度自编码器DAE,并利用DAE对手写数字图像进行分层抽象与关键特征提取;其中,DAE的特征学习是通过逐层训练每个RBM来实现;
步骤B:计算DAE的最后一个RBM隐含层状态与原始输入图像数据的重构误差Re-Error,并设置基于重构误差的特征提取衡量标准;然后所设置的特征提取衡量标准确定最终提取到的特征;
步骤C:将最终确定提取到的关键特征向量F=[f1,f2,…,fl]作为强化学习中Q学习算法的初始状态,手写数字的10种识别结果作为Q学习算法的输出状态,然后进行Q算法寻优决策迭代;其中,f1,f2,…,fl分别表示最后一个RBM隐含层中各个神经元的状态值,l是隐含层神经元个数;
步骤D:通过步骤D构造基于Q学习算法的深度信念网络Q-DBN,Q-DBN通过最大化Q函数值来获取最优策略集从而完成手写数字识别任务,最优策略集获取公式为当连续两次以上的决策行为所得到的识别结果相同时,Q函数的迭代停止,其中,F为提取到的关键特征,S为手写数字的10种识别结果的集合,a为决策行为集,Q(F,a)为Q学习算法中的累计奖赏。
2.根据权利要求1所述的基于深度强化学习策略的手写数字识别方法,所述步骤A包括:根据RBM的极大团构造原理,RBM的能量函数定义为
<mrow> <mi>&amp;epsiv;</mi> <mrow> <mo>(</mo> <mi>v</mi> <mo>,</mo> <mi>h</mi> <mo>/</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>v</mi> <mi>i</mi> </msub> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>a</mi> <mi>i</mi> </msub> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>b</mi> <mi>j</mi> </msub> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中,v是可视层状态向量,h是隐含层状态向量,θ={w,a,b},w是可视层和隐含层之间的
连接权值矩阵,a和b分别是可视层和隐含层节点的偏置向量;vi和hj分别是可视层第i个神经元和隐含层第j个神经元的状态值,wij表示可视层第i个神经元与隐含层第j个神经元之间的连接权值,ai和bj分别是可视层第i个神经元和隐含层第j个神经元的偏置,m和n分别是可视层神经元和隐含层神经元个数;相应的条件概率为
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>/</mo> <mi>v</mi> <mo>;</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&amp;sigma;</mi> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>+</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>v</mi> <mi>i</mi> </msub> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>/</mo> <mi>h</mi> <mo>;</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&amp;sigma;</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>+</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
式中,σ(·)是一个Sigmoid函数,P(hj=1/v;θ)表示在θ和v已知的条件下hj=1的概率,P(vi=1/h;θ)表示在θ和h已知的条件下vi=1的概率;利用能量函数得到RBM的联合分布为
P(v,h)∝e-ε(v,h/θ) (4)
参数更新公式为
<mrow> <msup> <mi>&amp;theta;</mi> <mrow> <mo>(</mo> <mi>&amp;tau;</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>=</mo> <msup> <mi>&amp;theta;</mi> <mrow> <mo>(</mo> <mi>&amp;tau;</mi> <mo>)</mo> </mrow> </msup> <mo>+</mo> <mi>r</mi> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>log</mi> <mi> </mi> <mi>P</mi> <mrow> <mo>(</mo> <mi>v</mi> <mo>,</mo> <mi>h</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&amp;part;</mo> <mi>&amp;theta;</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
其中,τ是RBM的迭代步数,θ(τ)和θ(τ+1)分别是第τ次和第τ+1次迭代后的参数值,r是学习率,其取值范围是0<r<1。
3.根据权利要求1所述的基于深度强化学习策略的手写数字识别方法,所述步骤B包括:重构误差公式定义为
其中,Ns和Np分别表示训练样本个数和手写数字图像的像素点个数,vij分别表示图片像素点原始值和重构值;
基于重构误差的特征提取标准如公式(7)所示,根据所设置的特征提取标准确定最终提取到的特征;
Re-Error≤Re-Error0 (7)
即如果重构误差小于或等于所设置的重构误差阈值Re-Error0,那么将提取DAE的最后一个RBM隐含层状态作为最终特征F=[f1,f2,…,fl];否则,继续增加RBM的无监督迭代次数并跳回步骤A;其中,重构误差阈值的取值范围为0.01<Re-Error0<0.05。
4.根据权利要求1所述的基于深度强化学习策略的手写数字识别方法,所述步骤C包括:将最终提取到的特征F=[f1,f2,…,fl]和手写数字的10种识别结果S=[s1=0,s2=1,…,s10=9]分别作为Q学习算法中的初始状态和输出状态,从初始状态到输出状态的决策行集合为
A=[a1:F=0,a2:F=1,…,a10:F=9] (8)
基于奖励信号的累积Q函数值为
<mrow> <mi>Q</mi> <mrow> <mo>(</mo> <mi>F</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>d</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>D</mi> <mo>=</mo> <mn>10</mn> </mrow> </munderover> <msub> <mi>P</mi> <mrow> <msub> <mi>Fs</mi> <mi>d</mi> </msub> </mrow> </msub> <mrow> <mo>(</mo> <mi>a</mi> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mi>g</mi> <mo>(</mo> <mrow> <mi>F</mi> <mo>,</mo> <mi>a</mi> <mo>,</mo> <msub> <mi>s</mi> <mi>d</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <mi>&amp;gamma;</mi> <mi>max</mi> <mi>Q</mi> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mi>d</mi> </msub> <mo>,</mo> <msup> <mi>a</mi> <mo>&amp;prime;</mo> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>
公式(9)表示在一次识别过程中的累积Q函数值;式中,D是手写数字识别的结果个数,d是对D的随机选取,是从当前初始状态F转移到新状态sd的概率,0≤γ<1是折扣因子,max Q(sd,a′)是对Q函数增强信号取最大值;a,a′∈A且a≠a′,a是当前时刻的决策行为,a′是下一时刻的决策行为;g(F,a,sd)是在决策行为a的作用下从状态F转移到状态sd时的瞬时奖励信号,表示为
Q函数的迭代更新过程为
Qt+1(F,a)=(1-ηt(F,a))Qt(F,a)+ηt(F,a)(g(F,a,sd)+γmaxQt(sd,a′)) (11)
式中,ηt(F,a)是状态-行为对(F,a)在第t次迭代时的学习步长。
CN201710381771.3A 2017-05-26 2017-05-26 一种基于深度q学习策略的手写数字识别方法 Active CN107229914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710381771.3A CN107229914B (zh) 2017-05-26 2017-05-26 一种基于深度q学习策略的手写数字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710381771.3A CN107229914B (zh) 2017-05-26 2017-05-26 一种基于深度q学习策略的手写数字识别方法

Publications (2)

Publication Number Publication Date
CN107229914A true CN107229914A (zh) 2017-10-03
CN107229914B CN107229914B (zh) 2020-07-03

Family

ID=59934402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710381771.3A Active CN107229914B (zh) 2017-05-26 2017-05-26 一种基于深度q学习策略的手写数字识别方法

Country Status (1)

Country Link
CN (1) CN107229914B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729685A (zh) * 2017-10-26 2018-02-23 苏州科技大学 一种建筑节能的方法
CN108090443A (zh) * 2017-12-15 2018-05-29 华南理工大学 基于深度强化学习的场景文本检测方法及系统
CN108446718A (zh) * 2018-02-08 2018-08-24 同济大学 一种动态深度置信网络分析方法
CN108537133A (zh) * 2018-03-16 2018-09-14 江苏经贸职业技术学院 一种基于监督学习深度自编码器的人脸重构方法
CN108875772A (zh) * 2018-03-30 2018-11-23 浙江大学 一种基于堆叠稀疏高斯伯努利受限玻尔兹曼机和强化学习的故障分类模型及方法
CN108921007A (zh) * 2018-05-08 2018-11-30 河海大学常州校区 一种基于SqueezeNet的手写体数字识别方法
CN109614984A (zh) * 2018-10-29 2019-04-12 深圳北斗应用技术研究院有限公司 一种同源图像检测方法和系统
CN109726719A (zh) * 2017-10-31 2019-05-07 比亚迪股份有限公司 基于自动编码器的文字识别方法、装置及计算机设备
CN110232341A (zh) * 2019-05-30 2019-09-13 重庆邮电大学 基于卷积-堆叠降噪编码网络的半监督学习图像识别方法
CN110321585A (zh) * 2019-04-09 2019-10-11 国网山西省电力公司电力科学研究院 基于ga-bp神经网络开关柜绝缘缺陷检测方法及系统
TWI685796B (zh) * 2018-05-31 2020-02-21 國立中興大學 智慧型文字圖形識別方法
CN113095367A (zh) * 2021-03-16 2021-07-09 华中科技大学 一种基于深度强化学习的压缩机故障诊断方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140032570A1 (en) * 2012-07-30 2014-01-30 International Business Machines Corporation Discriminative Learning Via Hierarchical Transformations
CN104077595A (zh) * 2014-06-15 2014-10-01 北京工业大学 基于贝叶斯正则化的深度学习网络图像识别方法
CN104793620A (zh) * 2015-04-17 2015-07-22 中国矿业大学 基于视觉特征捆绑和强化学习理论的避障机器人
CN105206270A (zh) * 2015-08-20 2015-12-30 长安大学 一种组合pca和rbm的孤立数字语音识别分类系统及方法
CN105823801A (zh) * 2016-03-03 2016-08-03 重庆大学 一种基于深度信念网络特征提取的电子鼻漂移补偿方法
CN106611090A (zh) * 2016-12-31 2017-05-03 中国科学技术大学 一种基于重构深度学习的道边空气污染物浓度预测方法
CN106709449A (zh) * 2016-12-22 2017-05-24 深圳市深网视界科技有限公司 一种基于深度学习和强化学习的行人重识别方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140032570A1 (en) * 2012-07-30 2014-01-30 International Business Machines Corporation Discriminative Learning Via Hierarchical Transformations
CN104077595A (zh) * 2014-06-15 2014-10-01 北京工业大学 基于贝叶斯正则化的深度学习网络图像识别方法
CN104793620A (zh) * 2015-04-17 2015-07-22 中国矿业大学 基于视觉特征捆绑和强化学习理论的避障机器人
CN105206270A (zh) * 2015-08-20 2015-12-30 长安大学 一种组合pca和rbm的孤立数字语音识别分类系统及方法
CN105823801A (zh) * 2016-03-03 2016-08-03 重庆大学 一种基于深度信念网络特征提取的电子鼻漂移补偿方法
CN106709449A (zh) * 2016-12-22 2017-05-24 深圳市深网视界科技有限公司 一种基于深度学习和强化学习的行人重识别方法及系统
CN106611090A (zh) * 2016-12-31 2017-05-03 中国科学技术大学 一种基于重构深度学习的道边空气污染物浓度预测方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CHANDRA B ET AL.: "Fast learning in Deep Neural Networks", 《ELSEVIER SCIENCE PUBLISHERS B. V》 *
ZHAO D ET AL.: "Deep reinforcement learning with experience replay based on SARSA", 《2016 IEEE SYMPOSIUM SERIES ON COMPUTATIONAL INTELLIGENCE (SSCI)》 *
丁乐乐: "基于深度学习和强化学习的车辆定位与识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
刘长明: "基于深度信念网络的手写数字识别方法研究", 《山东工业技术》 *
康岩: "深度学习在球磨机料位软测量建模中的应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
池燕玲: "基于深度学习的人脸识别方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
潘广源 等: "DBN网络的深度确定方法", 《控制与决策》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729685A (zh) * 2017-10-26 2018-02-23 苏州科技大学 一种建筑节能的方法
CN109726719A (zh) * 2017-10-31 2019-05-07 比亚迪股份有限公司 基于自动编码器的文字识别方法、装置及计算机设备
CN108090443A (zh) * 2017-12-15 2018-05-29 华南理工大学 基于深度强化学习的场景文本检测方法及系统
CN108090443B (zh) * 2017-12-15 2020-09-22 华南理工大学 基于深度强化学习的场景文本检测方法及系统
CN108446718A (zh) * 2018-02-08 2018-08-24 同济大学 一种动态深度置信网络分析方法
CN108446718B (zh) * 2018-02-08 2021-01-26 同济大学 一种动态深度置信网络分析方法
CN108537133A (zh) * 2018-03-16 2018-09-14 江苏经贸职业技术学院 一种基于监督学习深度自编码器的人脸重构方法
CN108875772A (zh) * 2018-03-30 2018-11-23 浙江大学 一种基于堆叠稀疏高斯伯努利受限玻尔兹曼机和强化学习的故障分类模型及方法
CN108875772B (zh) * 2018-03-30 2020-04-14 浙江大学 一种基于堆叠稀疏高斯伯努利受限玻尔兹曼机和强化学习的故障分类模型及方法
CN108921007A (zh) * 2018-05-08 2018-11-30 河海大学常州校区 一种基于SqueezeNet的手写体数字识别方法
TWI685796B (zh) * 2018-05-31 2020-02-21 國立中興大學 智慧型文字圖形識別方法
CN109614984A (zh) * 2018-10-29 2019-04-12 深圳北斗应用技术研究院有限公司 一种同源图像检测方法和系统
CN110321585A (zh) * 2019-04-09 2019-10-11 国网山西省电力公司电力科学研究院 基于ga-bp神经网络开关柜绝缘缺陷检测方法及系统
CN110232341A (zh) * 2019-05-30 2019-09-13 重庆邮电大学 基于卷积-堆叠降噪编码网络的半监督学习图像识别方法
CN110232341B (zh) * 2019-05-30 2022-05-03 重庆邮电大学 基于卷积-堆叠降噪编码网络的半监督学习图像识别方法
CN113095367A (zh) * 2021-03-16 2021-07-09 华中科技大学 一种基于深度强化学习的压缩机故障诊断方法
CN113095367B (zh) * 2021-03-16 2023-04-18 华中科技大学 一种基于深度强化学习的压缩机故障诊断方法

Also Published As

Publication number Publication date
CN107229914B (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN107229914A (zh) 一种基于深度q学习策略的手写数字识别方法
CN110020682B (zh) 一种基于小样本学习的注意力机制关系对比网络模型方法
CN106203395B (zh) 基于多任务深度学习的人脸属性识别方法
CN108805167B (zh) 一种基于Laplace函数约束的稀疏深度置信网络图像分类方法
CN104850890B (zh) 基于实例学习和Sadowsky分布的卷积神经网络参数调整方法
CN108537102B (zh) 基于稀疏特征与条件随机场的高分辨sar图像分类方法
CN106503654A (zh) 一种基于深度稀疏自编码网络的人脸情感识别方法
CN110473592B (zh) 一种多视角人类协同致死基因预测方法
CN107871136A (zh) 基于稀疏性随机池化的卷积神经网络的图像识别方法
CN106407986A (zh) 一种基于深度模型的合成孔径雷达图像目标识别方法
CN107316294A (zh) 一种基于改进的深度玻尔兹曼机肺结节特征提取和良恶性分类方法
CN106446964B (zh) 一种增量式的梯度提升决策树更新方法
CN106709482A (zh) 基于自编码器的人物亲缘关系识别方法
CN105095833A (zh) 用于人脸识别的网络构建方法、识别方法及系统
CN105701480A (zh) 一种视频语义分析方法
CN110516537B (zh) 一种基于自步学习的人脸年龄估计方法
CN111639719A (zh) 基于时空运动和特征融合的足迹图像检索方法
CN106980831A (zh) 基于自编码器的自亲缘关系识别方法
CN110827260A (zh) 一种基于lbp特征与卷积神经网络的布匹缺陷分类方法
CN106980830A (zh) 一种基于深度卷积网络自亲缘关系识别方法与装置
CN106846326A (zh) 基于多核局部信息fcm算法的图像分割方法
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN106886798A (zh) 基于矩阵变量的高斯分布受限玻尔兹曼机的图像识别方法
CN108492575A (zh) 一种智能车辆型号识别方法
CN104537660B (zh) 基于多目标智能体进化聚类算法的图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant