CN108090443B

CN108090443B - 基于深度强化学习的场景文本检测方法及系统

Info

Publication number: CN108090443B
Application number: CN201711352220.0A
Authority: CN
Inventors: 黄双萍; 王浩彬; 金连文
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2020-09-22
Anticipated expiration: 2037-12-15
Also published as: CN108090443A

Abstract

本发明公开了基于深度强化学习的场景文本检测方法及系统，所述方法包括：训练一个特征提取网络；训练一个决策网络；通过特征提取网络和决策网络定位待检测图像上场景文本的位置；其中，所述特征提取网络为场景文本图像特征提取的深度卷积神经网络；所述决策网络为拟合强化学习Q值函数的神经网络。本发明将场景文本检测解析为基于视觉的连续性决策问题，结合强化学习与深度神经网络，模拟日常生活中人眼从整图开始逐渐聚焦到目标物体的过程；在训练过程中，利用深度神经网络，很好地提取出当前定位框图像信息，以强化学习方法训练出能进行目标文本定位的模型。

Description

基于深度强化学习的场景文本检测方法及系统

技术领域

本发明涉及一种场景文本检测方法及系统，尤其是一种基于深度强化学习的场景文本检测方法及系统，属于模式识别与人工智能技术领域。

背景技术

在当前这个现代化社会，场景文本检测技术正逐渐影响人们的日常生活，其应用日渐广泛，例如图像检索，传统搜索都是根据关键词的图像搜索，这种搜索方法基本上都是根据图像名字或图像所在的网页文本进行检索，但是这两者并不能很好地体现对应图像的内容，如果图像中的文本内容能够用某种技术检测之后并加以识别，那么将有利于提高寻找具有关键词文本内容图像的准确率，找到更加符合需求的图像。

现有的场景文本检测技术大致可以分为基于滑动窗、基于连通区域与基于深度学习的方法。基于滑动窗的方法主要是使用多尺度窗口在图像上滑动，筛选出带文本的窗口，再利用一些文本特征，比如高密度的文本边沿、离散余弦变换系数等获取文本区域。但是，这类方法计算量很大，精度也不够高。基于连通区域的方法的思路在于利用像素间较相似的特性(如颜色)将图片分割成若干连通域，然后以此为基础，排除其中不可能是文本的区域。这种方法的缺点是效果受像素级改变的影响很大，但也具有不受文本方向限制、能识别多尺度的文本的优点，目前这类方法是街景文本定位较常用的方法之一。深度学习领域中，由于卷积神经网络利用自身的局部感知特性，获得很强的特征学习能力，因此在分类任务中取得很好的效果。在这样的背景下，深度学习也被引入场景文本检测领域，结合候选框生成技术与卷积神经网络，取得了较好的检测效果。

强化学习是机器学习领域的一个分支，试图解决连续性决策问题，模型是以试错的方式学习，通过每一次决策后获得的反馈提升自己的决策能力。传统强化学习只适用于低维空间，无法解决高维输入问题。直到2015年，Google DeepMind公司通过结合深度学习和强化学习，实现人工智能玩简单的视频游戏，这被称为是通向通用人工智能的第一步。

目前主流的基于候选区域的定位方法中，候选区域的生成方法有滑动窗生成法以及神经网络生成法，前者需要使用滑动窗遍历整张图像，涉及到的候选区域非常稠密。

发明内容

本发明的目的是为了解决上述现有技术的缺陷，提供了一种基于深度强化学习的场景文本检测方法，该方法将场景文本检测解析为基于视觉的连续性决策问题，结合强化学习与深度神经网络，模拟日常生活中人眼从整图开始逐渐聚焦到目标物体的过程，通过多次动作决策，一步步聚焦到目标文本；在训练过程中，利用深度神经网络，很好地提取出当前定位框图像信息，并利用训练过程中的正负反馈信号，以强化学习方法训练出能进行目标文本定位的模型。

本发明的另一目的在于提供一种基于深度强化学习的场景文本检测检测系统。

本发明的目的可以通过采取如下技术方案达到：

基于深度强化学习的场景文本检测方法，所述方法包括：

训练一个特征提取网络；其中，所述特征提取网络为场景文本图像特征提取的深度卷积神经网络；

训练一个决策网络；其中，所述决策网络为拟合强化学习Q值函数的神经网络；

通过特征提取网络和决策网络定位待检测图像上场景文本的位置。

进一步的，所述训练一个特征提取网络，具体包括：

确定特征提取网络的结构；

对原图像进行切割，得到包含场景文本的正样本图像以及只有原图背景的负样本图像，构造特征提取网络的数据集；

以二分类模型的方式训练特征提取网络。

进一步的，所述对原图像进行切割，得到包含场景文本的正样本图像以及只有原图背景的负样本图像，构造特征提取网络的数据集，具体包括：

对于每一张待切割图像，设置切割的样本宽度为当前图像宽度的0.75倍，样本高度为当前图像高度的0.75倍，且样本宽度和样本高度分别不超过640和480，然后从图像左上角开始切割出等间隔的二十五个样本，分为五行，每行五个，最后筛选出和所有目标都不重叠的样本，即为数据集的负样本；

对于每一张待切割图像，设置切割的样本宽度为当前图像宽度的0.75倍，样本高度为当前图像高度的0.75倍，且样本宽度和样本高度分别不超过640和480，然后对于当前图像的每一个目标，切割出五张样本，并且该目标分别在这五张样本的左上、左下、右上、右下和中间部位，由此得到的样本成为数据集的正样本。

进一步的，所述训练一个决策网络，具体包括：

设计决策网络的动作策略；

根据动作策略，设计决策网络的奖罚策略；

根据动作策略和奖罚策略，设计决策网络的结构；

以深度强化学习的方式训练决策网络。

进一步的，所述设计决策网络的动作策略，具体包括：

以定位框左上角端点与右下角端点为基准点，两个端点各有五种动作：向上、下、左、右移动以及不动，向左或向右移动的幅度为当前定位框宽度的1/6倍，向上或向下移动的幅度是当前定位框的高度的1/6倍，两个端点各有五种动作，最后组合成定位框的二十五种动作，其中两个端点都不动的动作为最后的确认动作，表示定位框已找到目标，停止移动，而其他动作则都会改变定位框在图像上的大小与位置。

进一步的，所述根据动作策略，设计决策网络的奖罚策略，具体包括：

设计移动奖罚策略：基于移动前后定位框与目标的重叠程度，如果移动之后当前定位框与目标的重叠程度增大，则决策网络获得+1的正反馈，否则将获得-1的负反馈；

设计确认动作奖罚策略：如果决策网络作出确认动作时，当前定位框与目标的重叠程度已达到设置的阈值，则获得+3的正反馈，否则获得-3的负反馈；

设计懒惰惩罚策略：当决策次数已经达到每张图像单回合的次数上限，如果该动作仍不是确认，则不考虑当前定位框与目标的重叠程度的变化情况，该动作直接获得-3的负反馈。

进一步的，所述根据动作策略和奖罚策略，设计决策网络的结构，具体包括：

将当前定位框的状态向量作为决策网络的输入；其中，所述当前定位框的状态向量包括特征提取网络提取的整图特征信息、特征提取网络提取的当前定位框内图像区域特征信息以及历史动作向量，历史动作向量记录在当前图像上当前回合做过的所有动作决策，从而实现记忆机制并协助实现懒惰惩罚。

进一步的，所述以深度强化学习的方式训练决策网络，具体包括：

对于每一张训练图像，初始化当前回合决策数为0；

初始化定位框为整张图，历史动作向量初始化为全0向量，长度为动作种类数与单回合历史动作数上限的乘积；

生成样本阶段：

由特征提取网络提取当前整张图和当前定位框中的图像特征，并和历史动作向量组合成当前定位框的状态向量；

由ε-贪婪策略决定动作，即生成一个随机数，当随机数小于预设阈值，则随机选择一个动作，否则由当前决策网络决定动作；

决定所述动作后，根据奖罚策略决定所述动作的回报值；

执行所述动作，获得新定位框，并更新历史动作向量；使用特征提取网络提取新定位框的特征信息，结合当前图的特征向量和更新后的历史动作向量，组合成新定位框的状态向量；

当前定位框的状态向量、所述动作、所述动作的回报值以及新定位框的状态向量构成一组训练样本，并将该组训练样本保存到样本池中；

如果所述动作为确认动作或者当前回合决策数达到单回合历史动作数上限，则使用当前图像的均值对距离当前定位框最近的目标进行覆盖，并重新初始化定位框为整图，如果所有当前图像的所有目标都已经被覆盖，则更换新图像，并重新初始化定位框为整图；

决策网络训练阶段：

令决策网络在给定任意状态s和动作a的情况下，估计出最优未来回报值，具体体现在拟合最优动作值函数Q^*(s,a)：

Q^*(s,a)＝max_πE[r_i+γr_i+1+γ²r_i+2+...|s_i＝s,a_i＝a；π]

其中，γ是衰减系数，π是决策网络用以决定状态s和动作a的期望未来回报的策略，这是决策网络在训练阶段学习到的，通过决策网络的网络参数θ表征；

从样本池中随机选取100组样本，对于每一组训练样本，输入决策网络，得到在状态向量为s_i的状态下估计的期望未来回报值Q(s_i,a_i；θ)；

计算每一组训练样本的误差：

其中，E[·]是期望，a_i+1是在状态向量为s_i+1的状态下令期望未来回报值Q(s_i+1,a_i+1；θ)最大的动作决策；

计算均方差关于网络参数θ的梯度：

根据梯度更新网络参数θ；

重复上述生成样本阶段和决策网络训练阶段，直到遍历所有训练图像的次数达到设定的次数，则决策网络训练结束。

进一步的，所述通过特征提取网络和决策网络定位待检测图像上场景文本的位置，具体包括：

对于每一张待检测图像，初始化计数变量，当前回合决策数和当前图像决策数为0；

定位框初始化为整张图，历史动作向量初始化为全0向量，长度为动作种类数与单回合历史动作数上限的乘积；

迭代阶段：

使用特征提取网络获取整图和定位框中图像区域特征，并拼接历史动作向量构成当前定位框状态；

将当前定位框状态输入到决策网络，获得决策网络对所有动作的预期收益估计，并选择预期收益最大时对应的动作；

执行所述动作，定位框进一步聚焦于对应区域，当前回合决策数和当前图像决策数均增加1；

重复上述迭代阶段，直到所述动作为确认动作或者当前回合决策数已经达到单回合历史动作数上限，然后进行判断，如果当前图像决策数小于预先设置的单张图像最大决策数，那么将当前回合决策数清零，使用当前图像的图像均值覆盖当前定位框内的图像，并初始化定位框为整张图，历史动作向量初始化为全0向量，长度为动作种类数与单回合历史动作数上限的乘积，若当前图像决策数等于预先设置的单张图像最大决策数，则当前图像的目标定位实验结束。

本发明的另一目的可以通过采取如下技术方案达到：

基于深度强化学习的场景文本检测系统，所述系统包括：

第一训练模块，用于训练一个特征提取网络；其中，所述特征提取网络为场景文本图像特征提取的深度卷积神经网络；

第二训练模块，用于训练一个决策网络；其中，所述决策网络为拟合强化学习Q值函数的神经网络；

定位模块，用于通过特征提取网络和决策网络定位待检测图像上场景文本的位置。

进一步的，所述第一训练模块具体包括：

结构确定单元，用于确定特征提取网络的结构；

数据集构造单元，用于对原图像进行切割，得到包含场景文本的正样本图像以及只有原图背景的负样本图像，构造特征提取网络的数据集；

第一训练单元，用于以二分类模型的方式训练特征提取网络。

进一步的，所述第二训练模块具体包括：

动作策略设计单元，用于设计决策网络的动作策略；

奖罚策略设计单元，用于根据动作策略，设计决策网络的奖罚策略；

结构设计单元，用于根据动作策略和奖罚策略，设计决策网络的结构。

第二训练单元，用于以深度强化学习的方式训练决策网络。

本发明相对于现有技术具有如下的有益效果：

1、本发明将场景文本检测解析为基于视觉的连续性决策问题，结合强化学习与深度神经网络，模拟日常生活中人眼从整图开始逐渐聚焦到目标物体的过程，具体通过特征提取网络提取出当前图像与当前定位框中的图像特征信息，提供给决策网络，由决策网络判断定位框中哪个区域更值得聚焦，从而控制定位框从待检测图像的整图开始一步步聚焦定位到场景文本所在位置，实现场景文本检测。

2、本发明在训练决策网络时，设计了动作策略和奖罚策略，奖罚策略根据动作策略，可以获得正负反馈信号，利用正负反馈信号来强化学习方法训练出能进行目标文本定位的模型。

3、本发明使用神经网络生成候选框的方法比滑动窗少生成了许多候选框，但每张图仍然有上百个候选框，而本发明则可以做到从整图开始得到目标定位框，即以整图作为候选框，实现一个候选框定位一个目标，不需要筛选大量候选框就能获取目标位置，具有更高的效率。

附图说明

图1为本发明实施例1的基于深度强化学习的场景文本检测方法流程图。

图2a为本发明实施例1的特征提取网络的主体结构图。

图2b为本发明实施例1的特征提取网络中block1～2的内部结构图。

图2c为本发明实施例1的特征提取网络中block3～5的内部结构图。

图3为本发明实施例1的为决策网络设计的动作策略所使用的二十五种动作的示意图。

图4为本发明实施例1的以深度强化学习的方式训练决策网络的流程图。

图5为本发明实施例1的定位待检测图像上场景文本的位置的流程图。

图6为本发明实施例2的基于深度强化学习的场景文本检测系统结构框图。

图7为本发明实施例2的第一训练模块结构框图。

图8为本发明实施例2的第二训练模块结构框图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1：

场景文本检测领域现今还未有深度强化学习的相关探究与应用，而且当前主流的场景文本检测方法仍然需要生成较多的候选框，再利用深度神经网络进行分类筛选，实现检测的目的。而本实施例提供的基于深度强化学习的场景文本检测方法将场景文本检测问题解析为基于视觉的连续性决策问题，将深度强化学习引入场景文本检测领域，与主流场景文本检测方法相比，可以以更少的候选框数量实现目标的定位，不需要筛选大量候选框就能获取目标位置，就能取得较好的检测结果，具有更高的效率。

如图1所示，本实施例的基于深度强化学习的场景文本检测方法，包括以下步骤：

S1、训练一个特征提取网络。

本步骤中所提及的特征提取网络为场景文本图像特征提取的深度卷积神经网络，将该特征提取网络记为N_F，训练一个特征提取网络N_F具体包括以下步骤：

S1-1、确定特征提取网络N_F的结构。

本实施例采用的深度卷积神经网络为VGG16网络，VGG16网络是图像领域中被广泛运用的深度神经网络之一，具有开源的模型参数可以直接运用；特征提取网络N_F的结构如图2a～2c所示，分别为整体结构、block1～2的内部结构以及block3～5的内部结构，block1～5来自原VGG16网络，fc6～fc7为新增加的部分，fc6～fc7用随机数初始化，block 1～5以原VGG16模型参数为训练起点。

S1-2、构造特征提取网络N_F的数据集。

本实施例中，数据集为二分类数据集，分别为文本类数据集和背景类数据集，数据集取材自ICDAR2003、2011与2013这三个公开的场景文本检测数据集，具体为：对原图像进行切割，得到尺寸为W_c*H_c的、包含场景文本的正样本图像以及只有原图背景的负样本图像，构造特征提取网络N_F的数据集。

对原图像进行切割，得到尺寸为W_c*H_c的、包含场景文本的正样本图像以及只有原图背景的负样本图像，构造特征提取网络N_F的数据集，具体包括：

S1-2-1、对于每一张待切割图像，负样本的获取方法是：设置切割的样本宽度W_c为当前图像宽度的0.75倍，样本高度H_c为当前图像高度的0.75倍，且样本宽度W_c和样本高度H_c分别不超过640和480，然后从图像左上角开始切割出等间隔的二十五个样本，分为五行，每行五个，最后筛选出和所有目标都不重叠的样本，即为数据集的负样本；

S1-2-2、对于每一张待切割图像，正样本的获取方法是：设置切割的样本宽度W_c为当前图像宽度的0.75倍，样本高度W_c为当前图像高度的0.75倍，且样本宽度W_c和样本高度H_c分别不超过640和480，然后对于当前图像的每一个目标，切割出五张样本，并且该目标分别在这五张样本的左上、左下、右上、右下和中间部位，由此得到的样本成为数据集的正样本。

S1-3、训练特征提取网络N_F。

训练方案以训练二分类模型的方式训练特征提取网络N_F，一共分为两步：第一步固定block 1～5的参数，只训练fc6～fc7层，利用后向传播算法训练至收敛，第二步固定block 1～2的参数，并训练其余部分的参数，同样利用后向传播算法训练至收敛。

S2、训练一个决策网络。

本步骤中所提及的决策网络为拟合强化学习Q值函数的神经网络，将该决策网络记为N_Q，训练一个决策网络N_Q具体包括以下步骤：

S2-1、设计决策网络N_Q的动作策略。

在本实施例中，决策网络N_Q的动作种类数n_a共有二十五种，每种动作将使当前定位框进一步聚焦于不同区域，其构造方式为：以定位框左上角端点与右下角端点为基准点，两个端点各有五种动作：向上、下、左、右移动以及不动，向左或向右移动的幅度为当前定位框宽度的1/6倍，向上或向下移动的幅度是当前定位框的高度的1/6倍，两个端点各有五种动作，最后组合成定位框的二十五种动作，其中两个端点都不动的动作为最后的确认动作，表示定位框已找到目标，停止移动，而其他动作则都会改变定位框在图像上的大小与位置。

二十五种动作如图3所示，中间的框为定位框，左图为执行动作前的定位框，右图为执行二十五种动作后的二十五种新定位框，行与列分别表示定位框左上角与右下角的五种动作，如第一行第二列的定位框即为左上角不懂、右下角向上得到的新定位框。

S2-2、根据动作策略，设计决策网络N_Q的奖罚策略。

奖罚策略分为三个部分：移动奖罚、确认奖罚以及懒惰惩罚，各部分的具体设计如下：

设计移动奖罚策略：基于移动前后定位框b与目标g的重叠程度

如果移动之后当前定位框b与目标g的重叠程度loU增大，则决策网络N_Q获得+1的正反馈，否则将获得-1的负反馈。

设计确认动作奖罚策略：针对S2-1确认动作的奖罚，如果决策网络作出确认动作时，当前定位框与目标的重叠程度loU已达到设置的阈值，则获得+3的正反馈，否则获得-3的负反馈。

设计懒惰惩罚策略：当决策次数已经达到每张图像的单回合次数上限，如果该动作仍不是确认，则不考虑当前定位框与目标的重叠程度loU的变化情况，该动作直接获得-3的负反馈。

S2-3、根据动作策略和奖罚策略，设计决策网络N_Q的结构。

决策网络N_Q的输入是当前时刻定位框的状态向量s_t，它由三部分组成：第一部分为特征提取网络N_F提取的整图特征信息，第二部分为特征提取网络N_F提取的当前定位框内图像区域特征信息，这两部分使用的都是特征提取网络N_Fblock 5的输出，第三部分为历史动作向量，以one-hot形式记录在当前图像上当前回合做过的所有动作决策，从而实现记忆机制并协助实现S2-2所述的懒惰惩罚，本实施例的历史动作向量记录的单回合历史动作上限数n_h为20，而决策网络N_Q的输出维度为n_a维，对应决策网络所能作出的所有动作种类。

S2-4、以深度强化学习的方式训练决策网络N_Q。

在上述设计后，以深度强化学习的方式训练决策网络N_Q，主要流程如图4所示，具体包括以下步骤：

S2-4-1、对于每一张训练图像，初始化当前回合决策数n_e为0；

S2-4-2、定位框初始化为整张图，历史动作向量初始化为全0向量，长度为动作种类数n_a与单回合历史动作数上限n_h的乘积；

S2-4-3、接下来每一次迭代都分为两个阶段，生成样本阶段以及决策网络训练阶段；

S2-4-4、生成样本阶段：

S2-4-4-1、由特征提取网络N_F提取当前整张图和当前定位框中的图像特征，并和历史动作向量组合成当前定位框的状态向量s_t；

S2-4-4-2、由ε-贪婪策略决定动作a_t，即生成一个随机数，当随机数小于预设阈值ε，则随机选择一个动作，否则由当前决策网络N_Q决定动作；

S2-4-4-3、确定动作a_t后，根据S2-2所述奖惩策略决定动作a_t的回报值r_t；

S2-4-4-4、执行动作a_t，获得新定位框，并更新历史动作向量；

S2-4-4-5、使用特征提取网络N_F提取新定位框的特征信息，结合当前图的特征向量和更新后的历史动作向量，组合成新定位框的状态向量s_t+1；

S2-4-4-6、当前定位框的状态向量s_t、动作a_t、动作a_t的回报值r_t以及新定位框的状态向量s_t+1构成一组训练样本(s_t,a_t,r_t,s_t+1)，将该组训练样本保存到样本池M_r中，样本池M_r的样本数量具有上限，数量达到上限时，新样本将覆盖最旧的样本；

S2-4-4-7、如果动作a_t为确认动作或者当前回合决策数n_e达到单回合历史动作数上限n_h，则使用当前图像的均值对距离当前定位框最近的目标进行覆盖，并重新初始化定位框为整图，如果所有当前图像的所有目标都已经被覆盖，则更换新图像，并重新初始化定位框为整图，此处单回合历史动作数上限n_h为20。

S2-4-5、决策网络N_Q训练阶段：

S2-4-5-1、决策网络N_Q的训练目标是让网络在给定任意状态s和动作a的情况下，能估计出最优未来回报值，具体体现在拟合最优动作值函数Q^*(s,a)：

Q^*(s,a)＝max_πE[r_i+γr_i+1+γ²r_i+2+...|s_i＝s,a_i＝a；π]

其中，γ是衰减系数，π是N_Q用以决定状态s和动作a的期望未来回报的策略，这是N_Q在训练阶段学习到的，通过N_Q的网络参数θ表征。

S2-4-5-2、从样本池M_r中随机选取100组样本，对于每一组训练样本(s_i,a_i,r_i,s_i+1)，输入决策网络N_Q，得到在状态s_i下估计的期望未来回报值Q(s_i,a_i；θ)；

S2-4-5-3、计算出样本(s_i,a_i,r_i,s_i+1)的误差：

S2-4-5-4、计算均方误差关于网络参数θ的梯度：

根据梯度更新网络参数θ。

S2-4-6、重复上述生成样本阶段(即步骤S2-4-4-1～S2-4-4-7)和决策网络N_Q训练阶段(即步骤S2-4-5-1～S2-4-5-4)，直到遍历所有训练图像的次数达到设定的次数(本实施例为50次)，则决策网络N_Q训练结束。

S3、通过特征提取网络N_F和决策网络N_Q定位待检测图像上场景文本的位置。

本实施例中，通过特征提取网络N_F提取出当前图像与当前定位框中的图像特征信息，提供给决策网络N_Q，由决策网络N_Q判断定位框中哪个区域更值得聚焦，从而控制定位框从待检测图像的整图开始一步步聚焦定位到场景文本所在位置，实现场景文本检测。

如图5所示，该步骤具体包括以下步骤：

S3-1、对于每一张待检测图像，初始化计数变量，当前回合决策数n_e和当前图像决策数n_g为0；

S3-2、定位框初始化为整张图，历史动作向量初始化为全0向量，长度为动作种类数n_a与单回合历史动作数上限n_h的乘积；

S3-3、迭代阶段：

S3-3-1、使用特征提取网络N_F获取整图和定位框中图像区域特征，并拼接历史动作向量构成当前定位框状态s_t；

S3-3-2、将当前定位框状态s_t输入到决策网络N_Q，获得决策网络对所有二十五种动作的预期收益估计Q(s_t,a)，并选择预期收益最大时对应的动作a_t；

S3-3-3、执行动作a_t，定位框进一步聚焦于对应区域，当前回合决策数n_e和当前图像决策数n_g均增加1；

S3-4、重复上述迭代阶段(即步骤S3-3-1～S3-3-3)，直到动作a_t为确认动作或者当前回合决策数n_e已经达到单回合历史动作数上限n_h，然后进行判断，如果当前图像决策数n_g小于预先设置的单张图像最大决策数n_max，那么将当前回合决策数n_e清零，使用当前图像的图像均值覆盖当前定位框内的图像，并回到步骤S3-2，若当前图像决策数n_g等于最大决策数n_max，则当前图像的目标定位实验结束，此处单回合历史动作数上限n_h和最大决策数n_max分别为20和100。

实施例2：

如图6所示，本实施例提供了一种基于深度强化学习的场景文本检测系统，该系统包括第一训练模块601、第二训练模块602和定位模块603，各个模块的具体功能如下：

所述第一训练模块601，用于训练一个特征提取网络；其中，所述特征提取网络为场景文本图像特征提取的深度卷积神经网络；该模块如图7所示，具体包括：

结构确定单元6011，用于确定特征提取网络的结构；

数据集构造单元6012，用于对原图像进行切割，得到包含场景文本的正样本图像以及只有原图背景的负样本图像，构造特征提取网络的数据集；

第一训练单元6013，用于以二分类模型的方式训练特征提取网络。

所述第二训练模块602，用于训练一个决策网络，通过决策网络判断定位框中哪个区域更值得聚焦；其中，所述决策网络为拟合强化学习Q值函数的神经网络；该模块如图8所示，具体包括：

动作策略设计单元6021，用于设计决策网络的动作策略；

奖罚策略设计单元6022，用于根据动作策略，设计决策网络的奖罚策略；

结构设计单元6023，用于根据动作策略和奖罚策略，设计决策网络的结构。

第二训练单元6024，用于以深度强化学习的方式训练决策网络。

所述定位模块603，用于通过特征提取网络和决策网络，控制定位框定位待检测图像上场景文本的位置。

本实施例中的各个模块及单元的具体实现可以参见上述实施例1。

本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘或光盘等。

在此需要说明的是，上述各实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

可以理解，上述各实施例的系统所使用的术语“第一”、“第二”等可用于描述各种模块，但这些模块不受这些术语限制。这些术语仅用于将第一个模块与另一个模块区分。举例来说，在不脱离本发明的范围的情况下，可以将第一训练模块称为第二训练模块，且类似地，可将第二训练模块称为第一训练模块，第一训练模块和第二训练模块两者都是训练模块，但其不是同一训练模块。

综上所述，本发明将场景文本检测解析为基于视觉的连续性决策问题，结合强化学习与深度神经网络，模拟日常生活中人眼从整图开始逐渐聚焦到目标物体的过程，具体通过特征提取网络提取出当前图像与当前定位框中的图像特征信息，提供给决策网络，由决策网络判断定位框中哪个区域更值得聚焦，从而控制定位框从待检测图像的整图开始一步步聚焦定位到场景文本所在位置，实现场景文本检测。

以上所述，仅为本发明专利优选的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.基于深度强化学习的场景文本检测方法，其特征在于：所述方法包括：

通过特征提取网络和决策网络定位待检测图像上场景文本的位置；

所述训练一个决策网络，具体包括：

设计决策网络的动作策略；

根据动作策略，设计决策网络的奖罚策略；

根据动作策略和奖罚策略，设计决策网络的结构；

以深度强化学习的方式训练决策网络；

所述设计决策网络的动作策略，具体包括：

2.根据权利要求1所述的基于深度强化学习的场景文本检测方法，其特征在于：所述训练一个特征提取网络，具体包括：

确定特征提取网络的结构；

以二分类模型的方式训练特征提取网络。

3.根据权利要求2所述的基于深度强化学习的场景文本检测方法，其特征在于：所述对原图像进行切割，得到包含场景文本的正样本图像以及只有原图背景的负样本图像，构造特征提取网络的数据集，具体包括：

4.根据权利要求1所述的基于深度强化学习的场景文本检测方法，其特征在于：所述根据动作策略，设计决策网络的奖罚策略，具体包括：

5.根据权利要求4所述的基于深度强化学习的场景文本检测方法，其特征在于：所述根据动作策略和奖罚策略，设计决策网络的结构，具体包括：

将当前定位框的状态向量作为决策网络的输入；其中，所述当前定位框的状态向量包括特征提取网络提取的整图特征信息、特征提取网络提取的当前定位框内图像区域特征信息以及历史动作向量，历史动作向量记录在当前图像当前回合上做过的所有动作决策，从而实现记忆机制并协助实现懒惰惩罚。

6.根据权利要求1、4-5任一项所述的基于深度强化学习的场景文本检测方法，其特征在于：所述以深度强化学习的方式训练决策网络，具体包括：

对于每一张训练图像，初始化当前回合决策数为0；

生成样本阶段：

决定所述动作后，根据奖罚策略决定所述动作的回报值；

决策网络训练阶段：

Q^*(s,a)＝max_πE[r_i+γr_i+1+γ²r_i+2+...|s_i＝s,a_i＝a；π]

计算每一组训练样本的误差：

计算均方差关于网络参数θ的梯度：

根据梯度更新网络参数θ；

7.根据权利要求1所述的基于深度强化学习的场景文本检测方法，其特征在于：所述通过特征提取网络和决策网络定位待检测图像上场景文本的位置，具体包括：

迭代阶段：

8.基于深度强化学习的场景文本检测系统，其特征在于：所述系统包括：

定位模块，用于通过特征提取网络和决策网络定位待检测图像上场景文本的位置；

所述第二训练模块具体包括：

动作策略设计单元，用于设计决策网络的动作策略；

结构设计单元，用于根据动作策略和奖罚策略，设计决策网络的结构；

第二训练单元，用于以深度强化学习的方式训练决策网络；

所述设计决策网络的动作策略，具体包括：