CN108090443B - 基于深度强化学习的场景文本检测方法及系统 - Google Patents

基于深度强化学习的场景文本检测方法及系统 Download PDF

Info

Publication number
CN108090443B
CN108090443B CN201711352220.0A CN201711352220A CN108090443B CN 108090443 B CN108090443 B CN 108090443B CN 201711352220 A CN201711352220 A CN 201711352220A CN 108090443 B CN108090443 B CN 108090443B
Authority
CN
China
Prior art keywords
image
action
network
positioning frame
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711352220.0A
Other languages
English (en)
Other versions
CN108090443A (zh
Inventor
黄双萍
王浩彬
金连文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201711352220.0A priority Critical patent/CN108090443B/zh
Publication of CN108090443A publication Critical patent/CN108090443A/zh
Application granted granted Critical
Publication of CN108090443B publication Critical patent/CN108090443B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于深度强化学习的场景文本检测方法及系统,所述方法包括:训练一个特征提取网络;训练一个决策网络;通过特征提取网络和决策网络定位待检测图像上场景文本的位置;其中,所述特征提取网络为场景文本图像特征提取的深度卷积神经网络;所述决策网络为拟合强化学习Q值函数的神经网络。本发明将场景文本检测解析为基于视觉的连续性决策问题,结合强化学习与深度神经网络,模拟日常生活中人眼从整图开始逐渐聚焦到目标物体的过程;在训练过程中,利用深度神经网络,很好地提取出当前定位框图像信息,以强化学习方法训练出能进行目标文本定位的模型。

Description

基于深度强化学习的场景文本检测方法及系统
技术领域
本发明涉及一种场景文本检测方法及系统,尤其是一种基于深度强化学习的场景文本检测方法及系统,属于模式识别与人工智能技术领域。
背景技术
在当前这个现代化社会,场景文本检测技术正逐渐影响人们的日常生活,其应用日渐广泛,例如图像检索,传统搜索都是根据关键词的图像搜索,这种搜索方法基本上都是根据图像名字或图像所在的网页文本进行检索,但是这两者并不能很好地体现对应图像的内容,如果图像中的文本内容能够用某种技术检测之后并加以识别,那么将有利于提高寻找具有关键词文本内容图像的准确率,找到更加符合需求的图像。
现有的场景文本检测技术大致可以分为基于滑动窗、基于连通区域与基于深度学习的方法。基于滑动窗的方法主要是使用多尺度窗口在图像上滑动,筛选出带文本的窗口,再利用一些文本特征,比如高密度的文本边沿、离散余弦变换系数等获取文本区域。但是,这类方法计算量很大,精度也不够高。基于连通区域的方法的思路在于利用像素间较相似的特性(如颜色)将图片分割成若干连通域,然后以此为基础,排除其中不可能是文本的区域。这种方法的缺点是效果受像素级改变的影响很大,但也具有不受文本方向限制、能识别多尺度的文本的优点,目前这类方法是街景文本定位较常用的方法之一。深度学习领域中,由于卷积神经网络利用自身的局部感知特性,获得很强的特征学习能力,因此在分类任务中取得很好的效果。在这样的背景下,深度学习也被引入场景文本检测领域,结合候选框生成技术与卷积神经网络,取得了较好的检测效果。
强化学习是机器学习领域的一个分支,试图解决连续性决策问题,模型是以试错的方式学习,通过每一次决策后获得的反馈提升自己的决策能力。传统强化学习只适用于低维空间,无法解决高维输入问题。直到2015年,Google DeepMind公司通过结合深度学习和强化学习,实现人工智能玩简单的视频游戏,这被称为是通向通用人工智能的第一步。
目前主流的基于候选区域的定位方法中,候选区域的生成方法有滑动窗生成法以及神经网络生成法,前者需要使用滑动窗遍历整张图像,涉及到的候选区域非常稠密。
发明内容
本发明的目的是为了解决上述现有技术的缺陷,提供了一种基于深度强化学习的场景文本检测方法,该方法将场景文本检测解析为基于视觉的连续性决策问题,结合强化学习与深度神经网络,模拟日常生活中人眼从整图开始逐渐聚焦到目标物体的过程,通过多次动作决策,一步步聚焦到目标文本;在训练过程中,利用深度神经网络,很好地提取出当前定位框图像信息,并利用训练过程中的正负反馈信号,以强化学习方法训练出能进行目标文本定位的模型。
本发明的另一目的在于提供一种基于深度强化学习的场景文本检测检测系统。
本发明的目的可以通过采取如下技术方案达到:
基于深度强化学习的场景文本检测方法,所述方法包括:
训练一个特征提取网络;其中,所述特征提取网络为场景文本图像特征提取的深度卷积神经网络;
训练一个决策网络;其中,所述决策网络为拟合强化学习Q值函数的神经网络;
通过特征提取网络和决策网络定位待检测图像上场景文本的位置。
进一步的,所述训练一个特征提取网络,具体包括:
确定特征提取网络的结构;
对原图像进行切割,得到包含场景文本的正样本图像以及只有原图背景的负样本图像,构造特征提取网络的数据集;
以二分类模型的方式训练特征提取网络。
进一步的,所述对原图像进行切割,得到包含场景文本的正样本图像以及只有原图背景的负样本图像,构造特征提取网络的数据集,具体包括:
对于每一张待切割图像,设置切割的样本宽度为当前图像宽度的0.75倍,样本高度为当前图像高度的0.75倍,且样本宽度和样本高度分别不超过640和480,然后从图像左上角开始切割出等间隔的二十五个样本,分为五行,每行五个,最后筛选出和所有目标都不重叠的样本,即为数据集的负样本;
对于每一张待切割图像,设置切割的样本宽度为当前图像宽度的0.75倍,样本高度为当前图像高度的0.75倍,且样本宽度和样本高度分别不超过640和480,然后对于当前图像的每一个目标,切割出五张样本,并且该目标分别在这五张样本的左上、左下、右上、右下和中间部位,由此得到的样本成为数据集的正样本。
进一步的,所述训练一个决策网络,具体包括:
设计决策网络的动作策略;
根据动作策略,设计决策网络的奖罚策略;
根据动作策略和奖罚策略,设计决策网络的结构;
以深度强化学习的方式训练决策网络。
进一步的,所述设计决策网络的动作策略,具体包括:
以定位框左上角端点与右下角端点为基准点,两个端点各有五种动作:向上、下、左、右移动以及不动,向左或向右移动的幅度为当前定位框宽度的1/6倍,向上或向下移动的幅度是当前定位框的高度的1/6倍,两个端点各有五种动作,最后组合成定位框的二十五种动作,其中两个端点都不动的动作为最后的确认动作,表示定位框已找到目标,停止移动,而其他动作则都会改变定位框在图像上的大小与位置。
进一步的,所述根据动作策略,设计决策网络的奖罚策略,具体包括:
设计移动奖罚策略:基于移动前后定位框与目标的重叠程度,如果移动之后当前定位框与目标的重叠程度增大,则决策网络获得+1的正反馈,否则将获得-1的负反馈;
设计确认动作奖罚策略:如果决策网络作出确认动作时,当前定位框与目标的重叠程度已达到设置的阈值,则获得+3的正反馈,否则获得-3的负反馈;
设计懒惰惩罚策略:当决策次数已经达到每张图像单回合的次数上限,如果该动作仍不是确认,则不考虑当前定位框与目标的重叠程度的变化情况,该动作直接获得-3的负反馈。
进一步的,所述根据动作策略和奖罚策略,设计决策网络的结构,具体包括:
将当前定位框的状态向量作为决策网络的输入;其中,所述当前定位框的状态向量包括特征提取网络提取的整图特征信息、特征提取网络提取的当前定位框内图像区域特征信息以及历史动作向量,历史动作向量记录在当前图像上当前回合做过的所有动作决策,从而实现记忆机制并协助实现懒惰惩罚。
进一步的,所述以深度强化学习的方式训练决策网络,具体包括:
对于每一张训练图像,初始化当前回合决策数为0;
初始化定位框为整张图,历史动作向量初始化为全0向量,长度为动作种类数与单回合历史动作数上限的乘积;
生成样本阶段:
由特征提取网络提取当前整张图和当前定位框中的图像特征,并和历史动作向量组合成当前定位框的状态向量;
由ε-贪婪策略决定动作,即生成一个随机数,当随机数小于预设阈值,则随机选择一个动作,否则由当前决策网络决定动作;
决定所述动作后,根据奖罚策略决定所述动作的回报值;
执行所述动作,获得新定位框,并更新历史动作向量;使用特征提取网络提取新定位框的特征信息,结合当前图的特征向量和更新后的历史动作向量,组合成新定位框的状态向量;
当前定位框的状态向量、所述动作、所述动作的回报值以及新定位框的状态向量构成一组训练样本,并将该组训练样本保存到样本池中;
如果所述动作为确认动作或者当前回合决策数达到单回合历史动作数上限,则使用当前图像的均值对距离当前定位框最近的目标进行覆盖,并重新初始化定位框为整图,如果所有当前图像的所有目标都已经被覆盖,则更换新图像,并重新初始化定位框为整图;
决策网络训练阶段:
令决策网络在给定任意状态s和动作a的情况下,估计出最优未来回报值,具体体现在拟合最优动作值函数Q*(s,a):
Q*(s,a)=maxπE[ri+γri+12ri+2+...|si=s,ai=a;π]
其中,γ是衰减系数,π是决策网络用以决定状态s和动作a的期望未来回报的策略,这是决策网络在训练阶段学习到的,通过决策网络的网络参数θ表征;
从样本池中随机选取100组样本,对于每一组训练样本,输入决策网络,得到在状态向量为si的状态下估计的期望未来回报值Q(si,ai;θ);
计算每一组训练样本的误差:
Figure BDA0001510473360000051
其中,E[·]是期望,ai+1是在状态向量为si+1的状态下令期望未来回报值Q(si+1,ai+1;θ)最大的动作决策;
计算均方差关于网络参数θ的梯度:
Figure BDA0001510473360000052
根据梯度更新网络参数θ;
重复上述生成样本阶段和决策网络训练阶段,直到遍历所有训练图像的次数达到设定的次数,则决策网络训练结束。
进一步的,所述通过特征提取网络和决策网络定位待检测图像上场景文本的位置,具体包括:
对于每一张待检测图像,初始化计数变量,当前回合决策数和当前图像决策数为0;
定位框初始化为整张图,历史动作向量初始化为全0向量,长度为动作种类数与单回合历史动作数上限的乘积;
迭代阶段:
使用特征提取网络获取整图和定位框中图像区域特征,并拼接历史动作向量构成当前定位框状态;
将当前定位框状态输入到决策网络,获得决策网络对所有动作的预期收益估计,并选择预期收益最大时对应的动作;
执行所述动作,定位框进一步聚焦于对应区域,当前回合决策数和当前图像决策数均增加1;
重复上述迭代阶段,直到所述动作为确认动作或者当前回合决策数已经达到单回合历史动作数上限,然后进行判断,如果当前图像决策数小于预先设置的单张图像最大决策数,那么将当前回合决策数清零,使用当前图像的图像均值覆盖当前定位框内的图像,并初始化定位框为整张图,历史动作向量初始化为全0向量,长度为动作种类数与单回合历史动作数上限的乘积,若当前图像决策数等于预先设置的单张图像最大决策数,则当前图像的目标定位实验结束。
本发明的另一目的可以通过采取如下技术方案达到:
基于深度强化学习的场景文本检测系统,所述系统包括:
第一训练模块,用于训练一个特征提取网络;其中,所述特征提取网络为场景文本图像特征提取的深度卷积神经网络;
第二训练模块,用于训练一个决策网络;其中,所述决策网络为拟合强化学习Q值函数的神经网络;
定位模块,用于通过特征提取网络和决策网络定位待检测图像上场景文本的位置。
进一步的,所述第一训练模块具体包括:
结构确定单元,用于确定特征提取网络的结构;
数据集构造单元,用于对原图像进行切割,得到包含场景文本的正样本图像以及只有原图背景的负样本图像,构造特征提取网络的数据集;
第一训练单元,用于以二分类模型的方式训练特征提取网络。
进一步的,所述第二训练模块具体包括:
动作策略设计单元,用于设计决策网络的动作策略;
奖罚策略设计单元,用于根据动作策略,设计决策网络的奖罚策略;
结构设计单元,用于根据动作策略和奖罚策略,设计决策网络的结构。
第二训练单元,用于以深度强化学习的方式训练决策网络。
本发明相对于现有技术具有如下的有益效果:
1、本发明将场景文本检测解析为基于视觉的连续性决策问题,结合强化学习与深度神经网络,模拟日常生活中人眼从整图开始逐渐聚焦到目标物体的过程,具体通过特征提取网络提取出当前图像与当前定位框中的图像特征信息,提供给决策网络,由决策网络判断定位框中哪个区域更值得聚焦,从而控制定位框从待检测图像的整图开始一步步聚焦定位到场景文本所在位置,实现场景文本检测。
2、本发明在训练决策网络时,设计了动作策略和奖罚策略,奖罚策略根据动作策略,可以获得正负反馈信号,利用正负反馈信号来强化学习方法训练出能进行目标文本定位的模型。
3、本发明使用神经网络生成候选框的方法比滑动窗少生成了许多候选框,但每张图仍然有上百个候选框,而本发明则可以做到从整图开始得到目标定位框,即以整图作为候选框,实现一个候选框定位一个目标,不需要筛选大量候选框就能获取目标位置,具有更高的效率。
附图说明
图1为本发明实施例1的基于深度强化学习的场景文本检测方法流程图。
图2a为本发明实施例1的特征提取网络的主体结构图。
图2b为本发明实施例1的特征提取网络中block1~2的内部结构图。
图2c为本发明实施例1的特征提取网络中block3~5的内部结构图。
图3为本发明实施例1的为决策网络设计的动作策略所使用的二十五种动作的示意图。
图4为本发明实施例1的以深度强化学习的方式训练决策网络的流程图。
图5为本发明实施例1的定位待检测图像上场景文本的位置的流程图。
图6为本发明实施例2的基于深度强化学习的场景文本检测系统结构框图。
图7为本发明实施例2的第一训练模块结构框图。
图8为本发明实施例2的第二训练模块结构框图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1:
场景文本检测领域现今还未有深度强化学习的相关探究与应用,而且当前主流的场景文本检测方法仍然需要生成较多的候选框,再利用深度神经网络进行分类筛选,实现检测的目的。而本实施例提供的基于深度强化学习的场景文本检测方法将场景文本检测问题解析为基于视觉的连续性决策问题,将深度强化学习引入场景文本检测领域,与主流场景文本检测方法相比,可以以更少的候选框数量实现目标的定位,不需要筛选大量候选框就能获取目标位置,就能取得较好的检测结果,具有更高的效率。
如图1所示,本实施例的基于深度强化学习的场景文本检测方法,包括以下步骤:
S1、训练一个特征提取网络。
本步骤中所提及的特征提取网络为场景文本图像特征提取的深度卷积神经网络,将该特征提取网络记为NF,训练一个特征提取网络NF具体包括以下步骤:
S1-1、确定特征提取网络NF的结构。
本实施例采用的深度卷积神经网络为VGG16网络,VGG16网络是图像领域中被广泛运用的深度神经网络之一,具有开源的模型参数可以直接运用;特征提取网络NF的结构如图2a~2c所示,分别为整体结构、block1~2的内部结构以及block3~5的内部结构,block1~5来自原VGG16网络,fc6~fc7为新增加的部分,fc6~fc7用随机数初始化,block 1~5以原VGG16模型参数为训练起点。
S1-2、构造特征提取网络NF的数据集。
本实施例中,数据集为二分类数据集,分别为文本类数据集和背景类数据集,数据集取材自ICDAR2003、2011与2013这三个公开的场景文本检测数据集,具体为:对原图像进行切割,得到尺寸为Wc*Hc的、包含场景文本的正样本图像以及只有原图背景的负样本图像,构造特征提取网络NF的数据集。
对原图像进行切割,得到尺寸为Wc*Hc的、包含场景文本的正样本图像以及只有原图背景的负样本图像,构造特征提取网络NF的数据集,具体包括:
S1-2-1、对于每一张待切割图像,负样本的获取方法是:设置切割的样本宽度Wc为当前图像宽度的0.75倍,样本高度Hc为当前图像高度的0.75倍,且样本宽度Wc和样本高度Hc分别不超过640和480,然后从图像左上角开始切割出等间隔的二十五个样本,分为五行,每行五个,最后筛选出和所有目标都不重叠的样本,即为数据集的负样本;
S1-2-2、对于每一张待切割图像,正样本的获取方法是:设置切割的样本宽度Wc为当前图像宽度的0.75倍,样本高度Wc为当前图像高度的0.75倍,且样本宽度Wc和样本高度Hc分别不超过640和480,然后对于当前图像的每一个目标,切割出五张样本,并且该目标分别在这五张样本的左上、左下、右上、右下和中间部位,由此得到的样本成为数据集的正样本。
S1-3、训练特征提取网络NF
训练方案以训练二分类模型的方式训练特征提取网络NF,一共分为两步:第一步固定block 1~5的参数,只训练fc6~fc7层,利用后向传播算法训练至收敛,第二步固定block 1~2的参数,并训练其余部分的参数,同样利用后向传播算法训练至收敛。
S2、训练一个决策网络。
本步骤中所提及的决策网络为拟合强化学习Q值函数的神经网络,将该决策网络记为NQ,训练一个决策网络NQ具体包括以下步骤:
S2-1、设计决策网络NQ的动作策略。
在本实施例中,决策网络NQ的动作种类数na共有二十五种,每种动作将使当前定位框进一步聚焦于不同区域,其构造方式为:以定位框左上角端点与右下角端点为基准点,两个端点各有五种动作:向上、下、左、右移动以及不动,向左或向右移动的幅度为当前定位框宽度的1/6倍,向上或向下移动的幅度是当前定位框的高度的1/6倍,两个端点各有五种动作,最后组合成定位框的二十五种动作,其中两个端点都不动的动作为最后的确认动作,表示定位框已找到目标,停止移动,而其他动作则都会改变定位框在图像上的大小与位置。
二十五种动作如图3所示,中间的框为定位框,左图为执行动作前的定位框,右图为执行二十五种动作后的二十五种新定位框,行与列分别表示定位框左上角与右下角的五种动作,如第一行第二列的定位框即为左上角不懂、右下角向上得到的新定位框。
S2-2、根据动作策略,设计决策网络NQ的奖罚策略。
奖罚策略分为三个部分:移动奖罚、确认奖罚以及懒惰惩罚,各部分的具体设计如下:
设计移动奖罚策略:基于移动前后定位框b与目标g的重叠程度
Figure BDA0001510473360000101
如果移动之后当前定位框b与目标g的重叠程度loU增大,则决策网络NQ获得+1的正反馈,否则将获得-1的负反馈。
设计确认动作奖罚策略:针对S2-1确认动作的奖罚,如果决策网络作出确认动作时,当前定位框与目标的重叠程度loU已达到设置的阈值,则获得+3的正反馈,否则获得-3的负反馈。
设计懒惰惩罚策略:当决策次数已经达到每张图像的单回合次数上限,如果该动作仍不是确认,则不考虑当前定位框与目标的重叠程度loU的变化情况,该动作直接获得-3的负反馈。
S2-3、根据动作策略和奖罚策略,设计决策网络NQ的结构。
决策网络NQ的输入是当前时刻定位框的状态向量st,它由三部分组成:第一部分为特征提取网络NF提取的整图特征信息,第二部分为特征提取网络NF提取的当前定位框内图像区域特征信息,这两部分使用的都是特征提取网络NFblock 5的输出,第三部分为历史动作向量,以one-hot形式记录在当前图像上当前回合做过的所有动作决策,从而实现记忆机制并协助实现S2-2所述的懒惰惩罚,本实施例的历史动作向量记录的单回合历史动作上限数nh为20,而决策网络NQ的输出维度为na维,对应决策网络所能作出的所有动作种类。
S2-4、以深度强化学习的方式训练决策网络NQ
在上述设计后,以深度强化学习的方式训练决策网络NQ,主要流程如图4所示,具体包括以下步骤:
S2-4-1、对于每一张训练图像,初始化当前回合决策数ne为0;
S2-4-2、定位框初始化为整张图,历史动作向量初始化为全0向量,长度为动作种类数na与单回合历史动作数上限nh的乘积;
S2-4-3、接下来每一次迭代都分为两个阶段,生成样本阶段以及决策网络训练阶段;
S2-4-4、生成样本阶段:
S2-4-4-1、由特征提取网络NF提取当前整张图和当前定位框中的图像特征,并和历史动作向量组合成当前定位框的状态向量st
S2-4-4-2、由ε-贪婪策略决定动作at,即生成一个随机数,当随机数小于预设阈值ε,则随机选择一个动作,否则由当前决策网络NQ决定动作;
S2-4-4-3、确定动作at后,根据S2-2所述奖惩策略决定动作at的回报值rt
S2-4-4-4、执行动作at,获得新定位框,并更新历史动作向量;
S2-4-4-5、使用特征提取网络NF提取新定位框的特征信息,结合当前图的特征向量和更新后的历史动作向量,组合成新定位框的状态向量st+1
S2-4-4-6、当前定位框的状态向量st、动作at、动作at的回报值rt以及新定位框的状态向量st+1构成一组训练样本(st,at,rt,st+1),将该组训练样本保存到样本池Mr中,样本池Mr的样本数量具有上限,数量达到上限时,新样本将覆盖最旧的样本;
S2-4-4-7、如果动作at为确认动作或者当前回合决策数ne达到单回合历史动作数上限nh,则使用当前图像的均值对距离当前定位框最近的目标进行覆盖,并重新初始化定位框为整图,如果所有当前图像的所有目标都已经被覆盖,则更换新图像,并重新初始化定位框为整图,此处单回合历史动作数上限nh为20。
S2-4-5、决策网络NQ训练阶段:
S2-4-5-1、决策网络NQ的训练目标是让网络在给定任意状态s和动作a的情况下,能估计出最优未来回报值,具体体现在拟合最优动作值函数Q*(s,a):
Q*(s,a)=maxπE[ri+γri+12ri+2+...|si=s,ai=a;π]
其中,γ是衰减系数,π是NQ用以决定状态s和动作a的期望未来回报的策略,这是NQ在训练阶段学习到的,通过NQ的网络参数θ表征。
S2-4-5-2、从样本池Mr中随机选取100组样本,对于每一组训练样本(si,ai,ri,si+1),输入决策网络NQ,得到在状态si下估计的期望未来回报值Q(si,ai;θ);
S2-4-5-3、计算出样本(si,ai,ri,si+1)的误差:
Figure BDA0001510473360000121
其中,E[·]是期望,ai+1是在状态向量为si+1的状态下令期望未来回报值Q(si+1,ai+1;θ)最大的动作决策;
S2-4-5-4、计算均方误差关于网络参数θ的梯度:
Figure BDA0001510473360000122
根据梯度更新网络参数θ。
S2-4-6、重复上述生成样本阶段(即步骤S2-4-4-1~S2-4-4-7)和决策网络NQ训练阶段(即步骤S2-4-5-1~S2-4-5-4),直到遍历所有训练图像的次数达到设定的次数(本实施例为50次),则决策网络NQ训练结束。
S3、通过特征提取网络NF和决策网络NQ定位待检测图像上场景文本的位置。
本实施例中,通过特征提取网络NF提取出当前图像与当前定位框中的图像特征信息,提供给决策网络NQ,由决策网络NQ判断定位框中哪个区域更值得聚焦,从而控制定位框从待检测图像的整图开始一步步聚焦定位到场景文本所在位置,实现场景文本检测。
如图5所示,该步骤具体包括以下步骤:
S3-1、对于每一张待检测图像,初始化计数变量,当前回合决策数ne和当前图像决策数ng为0;
S3-2、定位框初始化为整张图,历史动作向量初始化为全0向量,长度为动作种类数na与单回合历史动作数上限nh的乘积;
S3-3、迭代阶段:
S3-3-1、使用特征提取网络NF获取整图和定位框中图像区域特征,并拼接历史动作向量构成当前定位框状态st
S3-3-2、将当前定位框状态st输入到决策网络NQ,获得决策网络对所有二十五种动作的预期收益估计Q(st,a),并选择预期收益最大时对应的动作at
S3-3-3、执行动作at,定位框进一步聚焦于对应区域,当前回合决策数ne和当前图像决策数ng均增加1;
S3-4、重复上述迭代阶段(即步骤S3-3-1~S3-3-3),直到动作at为确认动作或者当前回合决策数ne已经达到单回合历史动作数上限nh,然后进行判断,如果当前图像决策数ng小于预先设置的单张图像最大决策数nmax,那么将当前回合决策数ne清零,使用当前图像的图像均值覆盖当前定位框内的图像,并回到步骤S3-2,若当前图像决策数ng等于最大决策数nmax,则当前图像的目标定位实验结束,此处单回合历史动作数上限nh和最大决策数nmax分别为20和100。
实施例2:
如图6所示,本实施例提供了一种基于深度强化学习的场景文本检测系统,该系统包括第一训练模块601、第二训练模块602和定位模块603,各个模块的具体功能如下:
所述第一训练模块601,用于训练一个特征提取网络;其中,所述特征提取网络为场景文本图像特征提取的深度卷积神经网络;该模块如图7所示,具体包括:
结构确定单元6011,用于确定特征提取网络的结构;
数据集构造单元6012,用于对原图像进行切割,得到包含场景文本的正样本图像以及只有原图背景的负样本图像,构造特征提取网络的数据集;
第一训练单元6013,用于以二分类模型的方式训练特征提取网络。
所述第二训练模块602,用于训练一个决策网络,通过决策网络判断定位框中哪个区域更值得聚焦;其中,所述决策网络为拟合强化学习Q值函数的神经网络;该模块如图8所示,具体包括:
动作策略设计单元6021,用于设计决策网络的动作策略;
奖罚策略设计单元6022,用于根据动作策略,设计决策网络的奖罚策略;
结构设计单元6023,用于根据动作策略和奖罚策略,设计决策网络的结构。
第二训练单元6024,用于以深度强化学习的方式训练决策网络。
所述定位模块603,用于通过特征提取网络和决策网络,控制定位框定位待检测图像上场景文本的位置。
本实施例中的各个模块及单元的具体实现可以参见上述实施例1。
本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
在此需要说明的是,上述各实施例提供的系统仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
可以理解,上述各实施例的系统所使用的术语“第一”、“第二”等可用于描述各种模块,但这些模块不受这些术语限制。这些术语仅用于将第一个模块与另一个模块区分。举例来说,在不脱离本发明的范围的情况下,可以将第一训练模块称为第二训练模块,且类似地,可将第二训练模块称为第一训练模块,第一训练模块和第二训练模块两者都是训练模块,但其不是同一训练模块。
综上所述,本发明将场景文本检测解析为基于视觉的连续性决策问题,结合强化学习与深度神经网络,模拟日常生活中人眼从整图开始逐渐聚焦到目标物体的过程,具体通过特征提取网络提取出当前图像与当前定位框中的图像特征信息,提供给决策网络,由决策网络判断定位框中哪个区域更值得聚焦,从而控制定位框从待检测图像的整图开始一步步聚焦定位到场景文本所在位置,实现场景文本检测。
以上所述,仅为本发明专利优选的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (8)

1.基于深度强化学习的场景文本检测方法,其特征在于:所述方法包括:
训练一个特征提取网络;其中,所述特征提取网络为场景文本图像特征提取的深度卷积神经网络;
训练一个决策网络;其中,所述决策网络为拟合强化学习Q值函数的神经网络;
通过特征提取网络和决策网络定位待检测图像上场景文本的位置;
所述训练一个决策网络,具体包括:
设计决策网络的动作策略;
根据动作策略,设计决策网络的奖罚策略;
根据动作策略和奖罚策略,设计决策网络的结构;
以深度强化学习的方式训练决策网络;
所述设计决策网络的动作策略,具体包括:
以定位框左上角端点与右下角端点为基准点,两个端点各有五种动作:向上、下、左、右移动以及不动,向左或向右移动的幅度为当前定位框宽度的1/6倍,向上或向下移动的幅度是当前定位框的高度的1/6倍,两个端点各有五种动作,最后组合成定位框的二十五种动作,其中两个端点都不动的动作为最后的确认动作,表示定位框已找到目标,停止移动,而其他动作则都会改变定位框在图像上的大小与位置。
2.根据权利要求1所述的基于深度强化学习的场景文本检测方法,其特征在于:所述训练一个特征提取网络,具体包括:
确定特征提取网络的结构;
对原图像进行切割,得到包含场景文本的正样本图像以及只有原图背景的负样本图像,构造特征提取网络的数据集;
以二分类模型的方式训练特征提取网络。
3.根据权利要求2所述的基于深度强化学习的场景文本检测方法,其特征在于:所述对原图像进行切割,得到包含场景文本的正样本图像以及只有原图背景的负样本图像,构造特征提取网络的数据集,具体包括:
对于每一张待切割图像,设置切割的样本宽度为当前图像宽度的0.75倍,样本高度为当前图像高度的0.75倍,且样本宽度和样本高度分别不超过640和480,然后从图像左上角开始切割出等间隔的二十五个样本,分为五行,每行五个,最后筛选出和所有目标都不重叠的样本,即为数据集的负样本;
对于每一张待切割图像,设置切割的样本宽度为当前图像宽度的0.75倍,样本高度为当前图像高度的0.75倍,且样本宽度和样本高度分别不超过640和480,然后对于当前图像的每一个目标,切割出五张样本,并且该目标分别在这五张样本的左上、左下、右上、右下和中间部位,由此得到的样本成为数据集的正样本。
4.根据权利要求1所述的基于深度强化学习的场景文本检测方法,其特征在于:所述根据动作策略,设计决策网络的奖罚策略,具体包括:
设计移动奖罚策略:基于移动前后定位框与目标的重叠程度,如果移动之后当前定位框与目标的重叠程度增大,则决策网络获得+1的正反馈,否则将获得-1的负反馈;
设计确认动作奖罚策略:如果决策网络作出确认动作时,当前定位框与目标的重叠程度已达到设置的阈值,则获得+3的正反馈,否则获得-3的负反馈;
设计懒惰惩罚策略:当决策次数已经达到每张图像单回合的次数上限,如果该动作仍不是确认,则不考虑当前定位框与目标的重叠程度的变化情况,该动作直接获得-3的负反馈。
5.根据权利要求4所述的基于深度强化学习的场景文本检测方法,其特征在于:所述根据动作策略和奖罚策略,设计决策网络的结构,具体包括:
将当前定位框的状态向量作为决策网络的输入;其中,所述当前定位框的状态向量包括特征提取网络提取的整图特征信息、特征提取网络提取的当前定位框内图像区域特征信息以及历史动作向量,历史动作向量记录在当前图像当前回合上做过的所有动作决策,从而实现记忆机制并协助实现懒惰惩罚。
6.根据权利要求1、4-5任一项所述的基于深度强化学习的场景文本检测方法,其特征在于:所述以深度强化学习的方式训练决策网络,具体包括:
对于每一张训练图像,初始化当前回合决策数为0;
初始化定位框为整张图,历史动作向量初始化为全0向量,长度为动作种类数与单回合历史动作数上限的乘积;
生成样本阶段:
由特征提取网络提取当前整张图和当前定位框中的图像特征,并和历史动作向量组合成当前定位框的状态向量;
由ε-贪婪策略决定动作,即生成一个随机数,当随机数小于预设阈值,则随机选择一个动作,否则由当前决策网络决定动作;
决定所述动作后,根据奖罚策略决定所述动作的回报值;
执行所述动作,获得新定位框,并更新历史动作向量;使用特征提取网络提取新定位框的特征信息,结合当前图的特征向量和更新后的历史动作向量,组合成新定位框的状态向量;
当前定位框的状态向量、所述动作、所述动作的回报值以及新定位框的状态向量构成一组训练样本,并将该组训练样本保存到样本池中;
如果所述动作为确认动作或者当前回合决策数达到单回合历史动作数上限,则使用当前图像的均值对距离当前定位框最近的目标进行覆盖,并重新初始化定位框为整图,如果所有当前图像的所有目标都已经被覆盖,则更换新图像,并重新初始化定位框为整图;
决策网络训练阶段:
令决策网络在给定任意状态s和动作a的情况下,估计出最优未来回报值,具体体现在拟合最优动作值函数Q*(s,a):
Q*(s,a)=maxπE[ri+γri+12ri+2+...|si=s,ai=a;π]
其中,γ是衰减系数,π是决策网络用以决定状态s和动作a的期望未来回报的策略,这是决策网络在训练阶段学习到的,通过决策网络的网络参数θ表征;
从样本池中随机选取100组样本,对于每一组训练样本,输入决策网络,得到在状态向量为si的状态下估计的期望未来回报值Q(si,ai;θ);
计算每一组训练样本的误差:
Figure FDA0002397198780000041
其中,E[·]是期望,ai+1是在状态向量为si+1的状态下令期望未来回报值Q(si+1,ai+1;θ)最大的动作决策;
计算均方差关于网络参数θ的梯度:
Figure FDA0002397198780000042
根据梯度更新网络参数θ;
重复上述生成样本阶段和决策网络训练阶段,直到遍历所有训练图像的次数达到设定的次数,则决策网络训练结束。
7.根据权利要求1所述的基于深度强化学习的场景文本检测方法,其特征在于:所述通过特征提取网络和决策网络定位待检测图像上场景文本的位置,具体包括:
对于每一张待检测图像,初始化计数变量,当前回合决策数和当前图像决策数为0;
定位框初始化为整张图,历史动作向量初始化为全0向量,长度为动作种类数与单回合历史动作数上限的乘积;
迭代阶段:
使用特征提取网络获取整图和定位框中图像区域特征,并拼接历史动作向量构成当前定位框状态;
将当前定位框状态输入到决策网络,获得决策网络对所有动作的预期收益估计,并选择预期收益最大时对应的动作;
执行所述动作,定位框进一步聚焦于对应区域,当前回合决策数和当前图像决策数均增加1;
重复上述迭代阶段,直到所述动作为确认动作或者当前回合决策数已经达到单回合历史动作数上限,然后进行判断,如果当前图像决策数小于预先设置的单张图像最大决策数,那么将当前回合决策数清零,使用当前图像的图像均值覆盖当前定位框内的图像,并初始化定位框为整张图,历史动作向量初始化为全0向量,长度为动作种类数与单回合历史动作数上限的乘积,若当前图像决策数等于预先设置的单张图像最大决策数,则当前图像的目标定位实验结束。
8.基于深度强化学习的场景文本检测系统,其特征在于:所述系统包括:
第一训练模块,用于训练一个特征提取网络;其中,所述特征提取网络为场景文本图像特征提取的深度卷积神经网络;
第二训练模块,用于训练一个决策网络;其中,所述决策网络为拟合强化学习Q值函数的神经网络;
定位模块,用于通过特征提取网络和决策网络定位待检测图像上场景文本的位置;
所述第二训练模块具体包括:
动作策略设计单元,用于设计决策网络的动作策略;
奖罚策略设计单元,用于根据动作策略,设计决策网络的奖罚策略;
结构设计单元,用于根据动作策略和奖罚策略,设计决策网络的结构;
第二训练单元,用于以深度强化学习的方式训练决策网络;
所述设计决策网络的动作策略,具体包括:
以定位框左上角端点与右下角端点为基准点,两个端点各有五种动作:向上、下、左、右移动以及不动,向左或向右移动的幅度为当前定位框宽度的1/6倍,向上或向下移动的幅度是当前定位框的高度的1/6倍,两个端点各有五种动作,最后组合成定位框的二十五种动作,其中两个端点都不动的动作为最后的确认动作,表示定位框已找到目标,停止移动,而其他动作则都会改变定位框在图像上的大小与位置。
CN201711352220.0A 2017-12-15 2017-12-15 基于深度强化学习的场景文本检测方法及系统 Active CN108090443B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711352220.0A CN108090443B (zh) 2017-12-15 2017-12-15 基于深度强化学习的场景文本检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711352220.0A CN108090443B (zh) 2017-12-15 2017-12-15 基于深度强化学习的场景文本检测方法及系统

Publications (2)

Publication Number Publication Date
CN108090443A CN108090443A (zh) 2018-05-29
CN108090443B true CN108090443B (zh) 2020-09-22

Family

ID=62176461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711352220.0A Active CN108090443B (zh) 2017-12-15 2017-12-15 基于深度强化学习的场景文本检测方法及系统

Country Status (1)

Country Link
CN (1) CN108090443B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619325B (zh) * 2018-06-20 2024-03-08 北京搜狗科技发展有限公司 一种文本识别方法及装置
CN109255351B (zh) * 2018-09-05 2020-08-18 华南理工大学 基于三维卷积神经网络的边界框回归方法、系统、设备及介质
CN109308476B (zh) * 2018-09-06 2019-08-27 邬国锐 票据信息处理方法、系统及计算机可读存储介质
CN109344823B (zh) * 2018-09-11 2022-06-07 福建天晴在线互动科技有限公司 基于区块链机制的ocr深度学习方法、存储介质
CN110347857B (zh) * 2019-06-06 2020-12-01 武汉理工大学 基于强化学习的遥感影像的语义标注方法
CN110348355A (zh) * 2019-07-02 2019-10-18 南京信息工程大学 基于强化学习的车型识别方法
CN110837858B (zh) * 2019-11-01 2023-08-04 腾讯科技(深圳)有限公司 网络模型训练方法、装置、计算机设备及存储介质
CN111104937A (zh) * 2019-11-25 2020-05-05 上海眼控科技股份有限公司 车门信息检测方法、装置、计算机设备和存储介质
CN111632379B (zh) 2020-04-28 2022-03-22 腾讯科技(深圳)有限公司 游戏角色行为控制方法、装置、存储介质及电子设备
CN111797834B (zh) * 2020-05-28 2021-06-15 华南理工大学 文本识别方法、装置、计算机设备和存储介质
CN111841017A (zh) * 2020-05-29 2020-10-30 北京编程猫科技有限公司 一种游戏ai的编程实现方法及装置
CN112036261A (zh) * 2020-08-11 2020-12-04 海尔优家智能科技(北京)有限公司 手势识别方法、装置、存储介质、电子装置
CN112487811B (zh) * 2020-10-21 2021-07-06 上海旻浦科技有限公司 基于强化学习的级联信息提取系统及方法
CN112766496B (zh) * 2021-01-28 2024-02-13 浙江工业大学 基于强化学习的深度学习模型安全性保障压缩方法与装置
CN113066111B (zh) * 2021-03-12 2024-03-01 北京工业大学 一种基于ct影像的心脏二尖瓣顶点的自动定位方法
CN113095164A (zh) * 2021-03-22 2021-07-09 西北工业大学 基于强化学习和标志点表征的车道线检测定位方法
CN113642576A (zh) * 2021-08-24 2021-11-12 凌云光技术股份有限公司 一种目标检测及语义分割任务中训练图像集合的生成方法及装置
CN113496225B (zh) * 2021-09-07 2022-02-11 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN117150347B (zh) * 2023-10-25 2024-01-26 无锡迪富智能电子股份有限公司 用于卫浴遥控器的自决策方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295637A (zh) * 2016-07-29 2017-01-04 电子科技大学 一种基于深度学习与强化学习的车辆识别方法
CN106373160A (zh) * 2016-08-31 2017-02-01 清华大学 一种基于深度强化学习的摄像机主动目标定位方法
CN106448670A (zh) * 2016-10-21 2017-02-22 竹间智能科技(上海)有限公司 基于深度学习和强化学习的自动回复对话系统
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107229914A (zh) * 2017-05-26 2017-10-03 北京工业大学 一种基于深度q学习策略的手写数字识别方法
CN107403426A (zh) * 2017-06-20 2017-11-28 北京工业大学 一种目标物体检测方法及设备
CN107463881A (zh) * 2017-07-07 2017-12-12 中山大学 一种基于深度增强学习的人物图像搜索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9569736B1 (en) * 2015-09-16 2017-02-14 Siemens Healthcare Gmbh Intelligent medical image landmark detection

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295637A (zh) * 2016-07-29 2017-01-04 电子科技大学 一种基于深度学习与强化学习的车辆识别方法
CN106373160A (zh) * 2016-08-31 2017-02-01 清华大学 一种基于深度强化学习的摄像机主动目标定位方法
CN106448670A (zh) * 2016-10-21 2017-02-22 竹间智能科技(上海)有限公司 基于深度学习和强化学习的自动回复对话系统
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107229914A (zh) * 2017-05-26 2017-10-03 北京工业大学 一种基于深度q学习策略的手写数字识别方法
CN107403426A (zh) * 2017-06-20 2017-11-28 北京工业大学 一种目标物体检测方法及设备
CN107463881A (zh) * 2017-07-07 2017-12-12 中山大学 一种基于深度增强学习的人物图像搜索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Deep Reinforcement Learning Approach to Character Segmentation of License Plate Images;Farnaz Abtahi 等;《MVA2015 IAPR International Conference on Machine Vision Applications》;20150522;539-542 *
一种基于视觉注意力机制的深度循环Q网络模型;刘全 等;《计算机学报》;20170630;第40卷(第6期);1353-1366 *
基于视觉注意机制深度强化学习的行人检测方法;马技 等;《中国科技论文》;20170731;第12卷(第14期);第2.2节,第3.1节,第4.1节,图7 *

Also Published As

Publication number Publication date
CN108090443A (zh) 2018-05-29

Similar Documents

Publication Publication Date Title
CN108090443B (zh) 基于深度强化学习的场景文本检测方法及系统
Jie et al. Tree-structured reinforcement learning for sequential object localization
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
CN109583340B (zh) 一种基于深度学习的视频目标检测方法
CN109753913B (zh) 计算高效的多模式视频语义分割方法
CN110148104B (zh) 基于显著性分析与低秩表示的红外与可见光图像融合方法
CN109299701B (zh) 基于gan扩充多人种特征协同选择的人脸年龄估计方法
CN107146237B (zh) 一种基于在线状态学习与估计的目标跟踪方法
CN111461325B (zh) 一种用于稀疏奖励环境问题的多目标分层强化学习算法
CN109993770B (zh) 一种自适应时空学习与状态识别的目标跟踪方法
CN110909741A (zh) 一种基于背景分割的车辆再识别方法
CN108920805B (zh) 具有状态特征提取功能的驾驶员行为建模系统
CN112651998A (zh) 基于注意力机制和双流多域卷积神经网络的人体跟踪算法
CN107945210A (zh) 基于深度学习和环境自适应的目标跟踪算法
CN109410249B (zh) 一种结合深度特征与手绘特征自适应的目标追踪方法
CN113807188A (zh) 基于锚框匹配和Siamese网络的无人机目标跟踪方法
CN108830170A (zh) 一种基于分层特征表示的端到端目标跟踪方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN111198966A (zh) 基于多智能体边界感知网络的自然语言视频片段检索方法
CN111242176B (zh) 计算机视觉任务的处理方法、装置及电子系统
CN113538218A (zh) 基于位姿自监督对抗生成网络的弱配对图像风格迁移方法
CN114036969A (zh) 一种多视角情况下的3d人体动作识别算法
CN109493370B (zh) 一种基于空间偏移学习的目标跟踪方法
CN114495170A (zh) 一种基于局部抑制自注意力的行人重识别方法及系统
CN110349176A (zh) 基于三重卷积网络和感知干扰学习的目标跟踪方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant