CN106156777B

CN106156777B - 文本图片检测方法及装置

Info

Publication number: CN106156777B
Application number: CN201510197323.9A
Authority: CN
Inventors: 白翔; 郭晓威; 张睿欣; 黄飞跃; 姚聪; 章成全; 石葆光
Original assignee: Tencent Technology Shenzhen Co Ltd; Huazhong University of Science and Technology
Current assignee: Tencent Technology Shenzhen Co Ltd; Huazhong University of Science and Technology
Priority date: 2015-04-23
Filing date: 2015-04-23
Publication date: 2020-06-02
Anticipated expiration: 2035-04-23
Also published as: CN106156777A

Abstract

本发明公开了一种文本图片检测方法及装置，属于多媒体技术领域。所述方法包括：对于每一个待检测自然图片，在所述待检测自然图片中提取多个候选区域；计算每一个目标区域的类别响应，所述目标区域通过对所述多个候选区域进行过滤处理得到；根据每一个目标区域的类别响应，计算所述待检测自然图片的特征向量，所述特征向量的维数与所述类别响应的维数相等；当所述特征向量位于预先设置的文本图片归属的特征向量范围内时，确定所述待检测自然图片为文本图片。由于上述文本图片检测方式可对自然图片中的文本图片进行检测，所以该种检测方式的应用范围较为广泛，普适性强。

Description

文本图片检测方法及装置

技术领域

本发明涉及多媒体技术领域，特别涉及一种文本图片检测方法及装置。

背景技术

随着信息技术的飞速发展，图片和视频数据量快速增长。对于海量图片或视频帧来说，根据画面中是否包含文本内容，可分类为文本图片和非文本图片。对于文本图片来讲，其包括的文本内容通常携带丰富的信息，是辅助理解和认知图片的重要信息来源，所以文本内容作为一个重要线索在诸如图片搜索、人机交互和盲人辅助系统等场景中被广泛挖掘和应用。而为了从海量的图片或视频帧中挖掘有价值的文本内容，一个大前提便是进行文本图片检测。

现有技术中，给定一个图片，将该图片分割为多个正方形区块，首先将未包括一定百分比的文本像素的区块过滤掉，之后以较少的灰度级(通常为16)量化剩余的区块，并基于CCV(Color Coherence Vector，颜色聚合向量)技术在量化后的区块中，确定是否存在具有同一量化灰度级的区块；若存在，则将该数字图像确定为文本图片。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

由于上述文本图片检测方式仅可检测出扫描的文档图像、或经由手机、照相机等设备拍摄的文档图像，而不能对自然图片中的文本图片进行检测，所以该种检测方式的应用范围较为狭窄，普适性不强。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种文本图片检测方法及装置。所述技术方案如下：

一方面，提供了一种文本图片检测方法，所述方法包括：

对于每一个待检测自然图片，在所述待检测自然图片中提取多个候选区域；

计算每一个目标区域的类别响应，所述目标区域通过对所述多个候选区域进行过滤处理得到；

根据每一个目标区域的类别响应，计算所述待检测自然图片的特征向量，所述特征向量的维数与所述类别响应的维数相等；

当所述特征向量位于预先设置的文本图片归属的特征向量范围内时，确定所述待检测自然图片为文本图片。

另一方面，提供了一种文本图片检测装置，所述装置包括：

候选区域提取模块，用于对于每一个待检测自然图片，在所述待检测自然图片中提取多个候选区域；

类别响应计算模块，用于计算每一个目标区域的类别响应，所述目标区域通过对所述多个候选区域进行过滤处理得到；

特征向量计算模块，用于根据每一个目标区域的类别响应，计算所述待检测自然图片的特征向量，所述特征向量的维数与所述类别响应的维数相等；

文本图片检测模块，用于当所述特征向量位于预先设置的文本图片归属的特征向量范围内时，确定所述待检测自然图片为文本图片。

另一方面，提供了一种存储介质，所述存储介质中存储有一个或者一个以上程序，所述一个或者一个以上程序由处理器加载并执行以实现如上述一方面所述的文本图片检测方法。

本发明实施例提供的技术方案带来的有益效果是：

对于每一个待检测自然图片，在待检测自然图片中提取多个候选区域，并计算每一个目标区域的第一特征向量，之后根据每一个目标区域的第一特征向量，计算待检测自然图片的第二特征向量，当第二特征向量位于预先设置的文本图片归属的特征向量范围内时，确定待检测自然图片为文本图片，由于上述文本图片检测方式可对自然图片中的文本图片进行检测，所以该种检测方式的应用范围较为广泛，普适性强。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种文本图片检测方法的流程图；

图2是本发明实施例提供的一种文本图片检测方法的流程图；

图3是本发明实施例提供的一种对文本区域进行标记的示意图；

图4是本发明实施例提供的一种候选区域过滤的示意图；

图5是本发明实施例提供的一种P-R曲线的示意图；

图6是本发明实施例提供的一种文本图片检测装置的结构示意图；

图7是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细地解释说明之前，先对本发明实施例涉及到的一些名词和整体架构思路进行简单介绍。

在本发明实施例中，自然图片指代自然场景下所拍摄的图片。自然图片的背景可为蓝天、白云、草地、街道、建筑物、数目等等，前景可为人、物、道路指示牌、商铺广告牌、或对背景进行解释说明性的一些文字等等。自然图片可分为包含文本内容的文本图片和不包含文本内容的非文本图片。本发明旨在从海量的自然图片中判别文本图片，以挖掘有价值的信息。

为了从自然图片中检测文本图片，本发明实施例采取了三种技术，分别为：MSER(Maximally Stable Extremal Regions，区域特征提取)、CNN(Convolutional NeuralNetwork，卷积神经网络)模型和BoW(Bags of Words，词袋)。其中，MSER技术用于在自然图片中提取候选区域，候选区域中可包括文本区域和非文本区域。CNN模型为每一个候选区域计算一个类别响应。BoW通过汇总每一个候选区域的类别响应，为该自然图片生成一个特征向量。将生成的特征向量导入SVM(Support Vector Machine，支持向量机)分类器，最终的检测结果由SVM分类器给出。

此外，由于自然图片的文本多样(比如，文本在字体、颜色、方向、大小、语言类型、布局位置等方面不同)、背景复杂(比如，包括树木、草地、围栏等)、干扰因素较多(比如，噪声、图片模糊、非均匀照明灯等)，所以为了确保训练后的CNN模型和SVM分类器的分类精度，本发明实施例提供了一个包含海量样本的数据集(dataset)。该数据集中包括了各种场景下的文本图片和非文本图片。其中，文本图片中文本形式丰富，包括了大量在字体、颜色、方向、大小、语言类型、布局位置等方面不同的图片。由于数据集中自然图片的种类多样性，训练后的CNN模型和SVM分类器性能较优，可保证文本图片的检测准确度。

在本发明实施例中，为实现在自然图片中检测文本图片，主要包括模型训练和图片检测两个阶段。其中，训练阶段包括候选区域提取和文本区域聚类、多类CNN模型训练、特征向量生成和SVM分类器训练等四个子阶段；检测阶段主要包括候选区域提取、候选区域过滤、特征向量生成、SVM分类器给出检测结果等四个子阶段。具体解释说明参见下述实施例。

图1是本发明实施例提供的一种文本图片检测方法的流程图。参见图1，本发明实施例提供的方法流程包括：

101、对于每一个待检测自然图片，在待检测自然图片中提取多个候选区域。

102、计算每一个目标区域的类别响应，该目标区域通过对多个候选区域进行过滤处理得到。

103、根据每一个目标区域的类别响应，计算待检测自然图片的特征向量，特征向量的维数与类别响应的维数相等。

104、当特征向量位于预先设置的文本图片归属的特征向量范围内时，确定待检测自然图片为文本图片。

在本发明实施例中，对于每一个待检测自然图片，在待检测自然图片中提取多个候选区域，并计算每一个目标区域的类别响应，之后根据每一个目标区域的类别响应，计算待检测自然图片的特征向量，当特征向量位于预先设置的文本图片归属的特征向量范围内时，确定待检测自然图片为文本图片，由于上述文本图片检测方式可对自然图片中的文本图片进行检测，所以该种检测方式的应用范围较为广泛，普适性强。

可选地，根据每一个目标区域的类别响应，计算待检测自然图片的特征向量，包括：

根据每一个目标区域的类别响应，生成待检测自然图片的特征矩阵，特征矩阵的列数与特征向量的维数相等；

根据特征矩阵，计算待检测自然图片的特征向量。

可选地，在待检测自然图片中提取多个候选区域之前，方法还包括：

获取多个自然图片，将多个自然图片作为模型训练图片；

对于每一个模型训练图片，在训练图片中提取多个候选区域；

计算多个候选区域中每一个文本区域的HOG(Histogram of Oriented Gradient，方向梯度直方图)特征；

根据HOG特征，对全部文本区域进行聚类，得到指定数目个类；

初始CNN模型中的各个参数；

基于CNN模型计算每一个候选区域的类别响应；

对于每一个候选区域，根据候选区域的类别响应，优化CNN模型中的各个参数，直至CNN模型的分类误差小于预设阈值。

可选地，根据候选区域的类别响应，优化CNN模型中的各个参数，包括：

根据候选区域的类别响应，确定候选区域归属的训练类别；

获取预先对模型训练图片的文本标记结果；

根据文本标记结果，确定候选区域归属的实际类别；

根据训练类别和实际类别，优化CNN模型中的各个参数。

可选地，在待检测自然图片中提取多个候选区域之前，该方法还包括：

对于每一个模型训练图片，获取模型训练图片的训练特征向量；

在全部训练特征向量中，确定包括文本的模型训练图片对应的第一训练特征向量、包括非文本的模型训练图片对应的第二训练特征向量；

根据第一训练特征向量和第二训练特征向量，优化SVM分类器中的各个参数。

可选地，计算每一个目标区域的类别响应之前，该方法还包括：

对多个候选区域进行过滤，直至过滤后的候选区域的剩余百分比满足预设数值，得到目标区域。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图2是本发明实施例提供的一种文本图片检测方法的流程图。参见图2，本发明实施例提供的方法流程包括：

201、获取多个自然图片，将多个自然图片作为模型训练图片。

其中，多个自然图片均来自数据集(dataset)。在本发明实施例中，数据集中的图片收集于网络，包括7302张文本图片和8000张非文本图片。其中，大部分图片均为自然图片，一小部分图片为数字图片或扫描的文档图片。参见图3，数据集中每一张文本图像的文本区域均用标记框被手动标记。数据集中的图片可划分为训练数据集和测试数据集。其中，测试数据集中包括2000张文本图片和2000张非文本图片；剩余的图片构建训练数据集。模型训练图片的张数和获取方式可视情况而定，本发明实施例对此不进行具体限定。

202、根据模型训练图片训练CNN模型和SVM分类器。

在本发明实施例中，根据模型训练图片训练CNN模型可分为下述多个步骤：

202a、对于每一个模型训练图片，根据MSER技术在该模型训练图片中提取多个候选区域。

针对该步骤，MSER是当使用不同的灰度阈值对图像进行二值化时得到的最稳定的区域。其中，多个候选区域中既包括文本区域也包括非文本区域。MSER可捕捉文本区域，其回召率可高达95％。其中，文本区域一般来讲均是来自图片的前景部分，而非文本区域一般来讲均是来自图片的背景部分。

其中，MSER的提取过程可具体如下：使用一系列灰度阈值对模型训练图片进行二值化处理；对于每个阈值得到的二值图像，得到相应的黑色区域与白色区域；在比较宽的灰度阈值范围内保持形状稳定的区域即为提取的多个候选区域。其中，评判标准为dA/dt；A代表二值图像区域面积，t代表灰度阈值。

202b、计算多个候选区域中每一个文本区域的HOG特征。

其中，HOG特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。在计算每一个文本区域的HOG特征时，可首先将该文本区域分成小的连通区域，我们可以把它称之为细胞单元。然后，采集细胞单元中各像素点的梯度的或边缘的方向直方图。最后把这些直方图组合起来便可以构成该文本区域的HOG特征。

202c、根据HOG特征，对全部文本区域进行聚类，得到指定数目个类。

针对该步骤，对于一个模型训练图片，除了可简单划分为文本区域和非文本区域之外，由于多个文本区域中的文本内容在字体、颜色、语言类型、方向等方面还可能存在不同，因此本发明实施例对模型训练图片中的全部文本区域再次进行了分类。也即根据某一特征，对模型训练图片中的全部文本区域进行了聚类。在本发明实施例中，对于一个模型训练图片，根据从该模型训练图片中提取的全部文本区域的HOG特征，利用K-均值算法将全部文本区域进行聚类，得到K类。剩余的全部非文本区域作为1类，所以将根据MSER技术提取到的多个候选区域分为了K+1类。

202d、初始化CNN模型中的各个参数。

其中，卷积神经网络(CNN)在本质上是一种输入到输出的映射，它能够学习大量的输入与输出之间的映射关系，而不需要任何输入和输出之间的精确的数学表达式，仅用已知的模式对卷积神经网络加以训练，卷积神经网络便具有输入输出对之间的映射能力。在开始训练CNN模型之前，所有的参数都应该用一些不同的小随机数进行初始化。“小随机数”用来保证卷积神经网络不会因参数值过大而进入饱和状态，从而导致训练失败；“不同”用来保证卷积神经网络可以正常地学习。实际上，如果用相同的数去初始化参数(比如，权矩阵)，则卷积神经网络无能力学习。

在CNN模型训练过程中，我们使用随机梯度下降和后向传播方法来优化CNN模型中的各个参数，从而尽可能地最小化分类误差。其中，随机梯度下降法适用于样本数量非常庞大的情况，该算法使得总体向着梯度下降快的方向下降。后向传播方法计算实际输出与相应的理想输出的差；之后，按极小化误差的方法调整CNN模型的参数，具体参见下述步骤202e至202i。

202e、基于CNN模型计算每一个候选区域的类别响应。

在本发明实施例中，在初始化CNN模型中的各个参数后，由于卷积神经网络在本质上是一种输入到输出的映射，所以对于一个模型训练图片来说，向CNN模型输入一个候选区域，CNN模型便可根据该候选区域，计算该候选区域的类别响应。其中，该类别响应为K+1维，大小为1*K+1。由于对从模型训练图片中提取的候选区域进行了聚类，分为了K+1类，所以类别响应用于表征对应的候选区域属于该K+1类中的哪一个类，该分类结果由CNN模型给出。此时，由于CNN模型还处于训练阶段，所以各个参数还未达到最优，因此可能存在较大的分类误差。所以，根据类别响应指定的分类结果和该候选区域归属的实际类别，可对CNN模型进行参数优化，使得CNN模型逐步优化，达到最优状态。

202f、对于每一个候选区域，根据候选区域的类别响应，确定候选区域归属的训练类别。

针对该步骤，对于一个候选区域来说，K+1维类别响应中每一个数值分别对应一个类。比如，从左至右开始，类别响应中第一个数值对应第一类、第二个数值对应第二类，以此类推，第K+1个数值对应第K+1类。其中，类别响应中哪一个数值的大小最接近于1，则该候选区域归属的训练类别便与该数值对应的类相匹配。比如，类别响应中第二个数值的大小最接近于1，则该类别响应归属的训练类别为第二类。

202g、获取预先对模型训练图片的文本标记结果；根据文本标记结果，确定候选区域归属的实际类别。

针对该步骤，在模型训练过程中每一个样本归属的类别均是事先已知的。比如，参见图3，数据集中每一张模型训练图片中的文本区域分别都进行了标记。所以在获取对该模型训练图片的文本标记结果后，根据该文本标记结果便可获知该候选区域归属于文本区域还是非文本区域。而对于文本区域来说，又具体地分为了K类，所以当候选区域为文本区域时，根据文本区域的聚类结果，便可获知该候选区域归属的实际类别。当候选区域为非文本区域时，则直接根据文本标记结果便可确定。

202h、根据训练类别和实际类别，优化CNN模型中的各个参数，直至CNN模型的分类误差小于预设阈值。

在本发明实施例中，对于一个候选区域来讲，在得到其训练类别和实际类别后，便可根据训练类别和实际类别之间的差距对CNN模型中的各个参数进行优化。比如，对CNN模型中的权矩阵进行优化。也即，CNN模型的训练过程是一个参数逐步优化的过程，在训练的CNN模型的分类误差小于预设阈值后，即训练的CNN模型达到预设的精度要求后，训练结束。

需要说明的是，在CNN模型的训练过程中还需考虑两个重要的因素。一个因素为惩罚因素，另一个因素为提高(boosting)因素。由于聚类方法属于无监督学习，所以存在不能将样本进行精准分类的缺陷。因此通过将负对数似然准则作为损失函数，对模型训练图片中的前景部分和背景部分我们使用不同的惩罚措施。

对于文本区域来说，由于我们将多个候选区域中的全部文本区域又细分为K类，所以若CNN模型将本属于K类中某一类的文本区域，错归属于K类中的另一个类，则由于仅是文本区域之间类的错分，而未将其错分为非文本区域，所以设置低惩罚措施。也即，在前景部分之间类的错分，我们设置低惩罚措施，允许CNN模型对分类结果进行适当地调整。但是，对于来自背景部分的区域，如果CNN模型将其进行错分，则可能将本属于背景区域的非文本区域，错分为属于前景部分的文本区域，这样的错分结果是十分严重的，所以设置高惩罚因素。此外，CNN模型是否善于过滤非文本区域，对于后续特征向量的生成步骤至关重要。

为了使得训练的CNN模型善于过滤非文本区域，我们使用boosting措施优化CNN模型。起初，我们将候选区域简单划分为文本区域(来自前景部分)和非文本区域(来自背景部分)。之后，使用K-均值算法将全部文本区域聚成K类，而全部的非文本区域作为一个类。由于自然图片中背景部分的复杂性和多样性，我们可以从数据集抽取一些比较难进行文本区域和非文本区域区分的模型训练图片。当CNN模型第一次达到性能最优状态时，利用这些较难进行区分的模型训练图片，进一步地优化CNN模型，重复进行3至5次，得到性能更加优良的CNN模型，该模型可对非文本区域进行较为精准的过滤。

在本发明实施例中，整个CNN模型的结构由4个卷积层和2个全连接层构成。其中，每一个卷积层后连接着maxpolling(最大池化)和rectified units(整流单元)。其中，CNN模型架构中一些设置参数详见下述表1。

表1

其中，ks指代内核数量(kernel number)，ps指代填充尺寸(padding size)，ss指代滑动步长(stride size)，nMap指代特征映射模型(feature map)的数量，nNode指代线性层节点(linear layer node)的数量。

对于输入CNN模型中的每一个候选区域来说，候选区域的大小被重新缩放到32×32，而通过特殊设计的前4个卷积层将产生一个1×1大小的映射模型。在本发明实施例中，我们使用的内核数为64、128、384和512。在4个卷积步骤之后，是2个分别带有1024和K+1个感知单元的全连接层。因为softmax用在CNN模型中的最后一层，所以我们通过softmax层的输出可以得到一个K+1维度的特征向量，其中每个维度表示该候选区域归属于一个类别的概率。

通过上述步骤202a至202h，我们阐述了CNN模型的训练过程，接下来简述一下SVM分类器的训练过程。

202i、对于每一个模型训练图片，获取模型训练图片的训练特征向量。

在本发明实施例中，对于一个模型训练图片来讲，由于从该模型训练图片中提取的每一个候选区域，均对应一个K+1维度的类别响应，所以在CNN模型的最后一层softmax层输出K+1维度的类别响应后，根据该模型训练图片中多个候选区域的类别响应，便可生成一个特征矩阵。其中，该特征矩阵的大小为N*K+1，N为候选区域的个数。之后，利用BoW技术汇总该特征矩阵，生成该模型训练图片的训练特征向量，该特征向量可以用来描述整个模型训练图片的特征。我们将上述特征向量的生成过程称之为CNN编码。其中，待检测自然图片的特征向量(也即，编码结果)可以用下述公式(1)表示：

其中，I代表图片，φ_i指代第i个类的响应，

指代第i个类的权重，Φ(I)指代整个图片的编码结果。

202j、在全部训练特征向量中，确定包括文本的模型训练图片对应的第一训练特征向量、包括非文本的模型训练图片对应的第二训练特征向量。

由于在训练SVM分类器过程中样本所归属的类别是已知的。比如，数据集对文本图片中文本区域和非文本区域均进行了标记，而对于非文本图片而言便没有任何标记。据此，可确定模型训练图片是归属于文本图片还是非文本图片。所以在全部的训练特征向量中，可确定出文本训练图片对应的全部特征向量，非文本图片对应的全部特征向量。

其中，分类器是一类计算机程序，它的设计目标是通过学习之后，可自动将数据划分到已知类别。SVM是一个类分类器，其本质上是一个能够将不同类样本在样本空间分隔的超平面。换句话说，给定一些标记好的训练样本，SVM算法输出一个最优化的分隔超平面，通过该超平面使得归属于不同类别的样本成功分开。

202k、根据第一训练特征向量和第二训练特征向量，优化SVM分类器中的各个参数。

在训练过程中，我们得到了文本图片对应的全部特征向量、非文本区域对应的全部特征向量，因此在初始化SVM分类器中的各个参数以后，便可根据第一训练特征向量和第二训练特征向量，对SVM分类器进行训练，将SVM断定的划分区域绘制出来，得到超平面。

上述过程详述了CNN模型和SVM分类器的训练过程。在训练好模型后，便可根据训练好的模型进行测试。详细过程参见下述步骤。

203、对于每一个待检测自然图片，在待检测自然图片中提取多个候选区域。

在本发明实施例中，待检测自然图片来自于数据集(dataset)。在待检测自然图片中进行多个候选区域提取时，可利用MSER技术实现，MSER是当使用不同的灰度阈值对图像进行二值化时得到的最稳定的区域。

其中，多个候选区域中既包括文本区域也包括非文本区域。MSER可捕捉文本区域，其回召率可高达95％。其中，文本区域一般来讲均是来自图片的前景部分，而非文本区域一般来讲均是来自图片的背景部分。其中，MSER的提取过程可具体如下：使用一系列灰度阈值对模型训练图片进行二值化处理；对于每个阈值得到的二值图像，得到相应的黑色区域与白色区域；在比较宽的灰度阈值范围内保持形状稳定的区域即为提取的多个候选区域。

204、对多个候选区域进行过滤，直至过滤后的候选区域的剩余百分比满足预设数值，得到目标区域。

在本发明实施例中，MSER技术在进行区域提取时，提取的非文本区域的数量常常比提取的文本区域的数量大好几个数量级。而非文本区域过多将会大大影响后续待检测自然图片的特征向量的准确性。所以在进行候选区域提取之后，还包括过滤非文本区域的步骤，以对文本区域和非文本区域之间的比率进行严格控制。而上述受过训练的CNN模型是善于对非文本区域进行过滤的，所以利用训练好的CNN模型我们不仅可以计算待检测自然图片中每一个候选区域的特征向量，还可以对从待检测自然图片中提取的非文本区域进行过滤。如图4所示，训练好的CNN模型可有效地过滤非文本区域。在图4中，在进行非文本区域过滤之前，图片中的非文本区域较多，且远远大于文本区域的数量(图4中上图)，在进行非文本过滤之后，非文本区域的数来那个明显减少(图4中上图)。

其中，预设数值的大小可为2％或10％等等，本发明实施例对此不进行具体限定。可通过多次试验得到预设数值的大小。在对非文本区域进行过滤之后，剩余的非文本区域和文本区域组成目标区域。

205、计算每一个目标区域的类别响应。

其中，目标区域既可为文本区域也可为非文本区域。类别响应的维度为K+1维，大小为1*(K+1)。由于已经训练好CNN模型，所以直接将每一个目标区域作为CNN模型的输入，通过CNN模型之后，经由CNN模型的最后一层softmax层便可得到每一个目标区域的类别响应。其中，类别响应表征了目标区域归属于各个类别的概率。在类别响应中，哪一个类别对应的数值最接近于1，则该目标区域归属于该类别。

206、根据每一个目标区域的类别响应，计算待检测自然图片的特征向量。

其中，特征向量的维数与类别响应的维数相等。

在根据每一个目标区域的类别响应，计算待检测自然图片的特征向量时，可采取下述方式实现：

根据每一个目标区域的类别响应，生成待检测自然图片的特征矩阵；根据特征矩阵，计算待检测自然图片的特征向量。

其中，特征矩阵的列数与类别响应的维数相等。以从待检测自然图片中提取N个候选区域，对N个候选区域进行非文本区域过滤后剩余0.02*N个目标区域为例，则待检测自然图片的大小为0.02*N*(K+1)，该特征矩阵中每一行均为一个目区域对应的类别响应，多个类别响应组成了该特征矩阵。之后，利用BoW技术汇总该特征矩阵，生成待检测自然图片的特征向量，特征向量的维数为K+1。

207、当特征向量位于预先设置的文本图片归属的特征向量范围内时，确定待检测自然图片为文本图片。

在本发明实施例中，由于已经根据数据集中的模型训练图片训练好SVM分类器，SVM分类器生成的超平面可精确对文本图片归属的特征向量范围、非文本图片归属的特征向量范围进行划分。所以，将待检测自然图片的特征向量输入SVM分类器后，SVM分类器根据文本图片归属的特征向量范围便可自动给出待检测自然图片的类别。当特征向量位于文本图片归属的特征向量范围内时，确定待检测自然图片为文本图片。

需要说明的是，为了评估上述文本图片检测方法，本发明实施例采取了F-measure评价标准。其中，P代表精确率(Precision)，R代表回召率(Recall)，度量公式如下：

其中，TP指代True Positives，即正类被判定为正类，在本发明实施例中对应被正确分类的文本图片的数量；FP指代false positives，即负类被判定为正类，在本发明实施例中对应被错误分类的非文本图片的数量；FN指代falsenegatives，即正类判定为负类，在本发明实施例中对应被错误分类的文本图片的数量。

所以，P代表准确率。在本发明实施例中对应被分类为文本图片的图片中实际文本图片所占的比例。R代表回召率。在本发明实施例中对应被正确分类的文本图片占所有文本图片的比例。

在本发明实施例中，从模型训练图片中提取到多个候选区域后，在对多个候选区域中的全部文本区域进行聚类时，聚类个数的多少对整个文本图片检测过程有着较大的影响。先结合上述提及到的F-measure评价标准，对聚类个数对文本图片检测的影响进行解释说明。参见下述表2，表2中示出了在模型训练阶段6种不同的聚类数目对P、R和F-measure的影响。

表2

K+1	P(精确率)	R(召回率)	F-measure
				2	0.889	0.878	0.883
51	0.906	0.874	0.890
				101	0.898	0.903	0.901
201	0.892	0.892	0.892
				301	0.881	0.902	0.891
401	0.894	0.884	0.888
				501	0.879	0.908	0.892

由上述表2可知，当K＝100时，F-measure取得了最大值0.901，对应的P＝0.898，R＝0.903，当K值继续增大或继续减小时，F-measure并没有显著改善。所以，K取值100时，也即将提取到的多个候选区域中的全部文本区域聚类为100类时，效果最好。

此外，在测试阶段，由于非文本区域的数量对待检测自然图片的特征向量，有着明显的不良影响，从而影响文本图片的检测结果。所以需利用训练好的CNN模型对非文本区域进行过滤。在本发明实施例中，参见表3，我们试验了在不同比例候选区域剩余的情况下，其对P、R和F-measure的影响。

表3

百分比	精确率	召回率	F-measure
				1％	0.990	0.884	0.892
2％	0.898	0.903	0.901
				5％	0.906	0.866	0.885
10％	0.897	0.853	0.874
				20％	0.916	0.819	0.864
50％	0.903	0.816	0.857
				100％	0.901	0.812	0.854

在上述表3中，当2％候选区域剩余时，F-measure取得了最大值0.901，对应的P＝0.898，R＝0.903，当百分比继续增大或继续减小时，F-measure并没有显著改善。所以，2％候选区域剩余时，效果最好。这也证明了太多来自于背景部分的非文本区域对检测结果有着不良影响。

本发明实施例提供的文本图片检测方法，同其他算法相比，也具有显著的有点。首先，LLC(Locality-constrained Linear Coding，局部线性约束编码)算法是我们的第一个基准方法，可以在3种不同的尺度下提取SIFT(Scale-invariant feature transform，尺度不变特征变换)特征。在本发明实施例中，我们的编码尺寸是2048。利用global max-pooling(全局最大池化)替代SPM(Statistical Parametric Mapping，统计参数图)，因为我们发现SPM在编码方面不但毫无任何改进且浪费更多的时间。其次，CNN作为第二个基准方法。其中CNN模型的架构与之前运用的架构类似，但是输入尺寸是224*224，且在最后2个全连接层之前执行global max-pooling。最后，本发明实施例提供的方法考虑边界框信息。我们为传统的LLC算法提供了一种改进的编码方法。在过滤之后，为寻找稳定区域，结合LLC算法，提取每一个图像的HOG、LBP、梯度直方图或梯度方向直方图。我们称之为MSER+Adaboost+LLC。如图5所示的P-R的曲线表明，由于边界框信息的存在，与基线方法相比，我们所提出的方法实现了显著的增强性能。需要注意的是，将该方法(CNN编码)与MSER+Adaboost+LLC相比较是公平的，因为这两种方法在训练阶段均利用边框标记信息。

此外，在本发明实施例中还计算了提出的文本图片检测方法的时耗。参见表4，我们在一个常规的PC(personal computer，个人计算机)上测算了该文本图片检测方法的时耗。其中，该PC的配置情况为CPU:Intel(R)Xeon(R)CPUE3-1230V2@3.30GHz；GPU:TeslaK40c；RAM:8GB。参见表4，在单个CPU(Central Processing Unit，中央处理单元)和单个GPU(Graphic Processing Unit，图形处理器)上，我们的算法需要0.43～0.49s的时间来完成检测任务。我们统计流水线上每一个阶段的平均消耗时间，其中待检测自然图片的平均尺寸大小为720*620。其中，MSER过程是利用opencv-2.4.8在C++上执行的。CNN编码和SVM分类在Linux下的Torch7平台上执行。所提出的系统实现了高分类精度，且运行相当快，因此它可以用作大型文本信息挖掘任务的有力工具。

表4

阶段	时耗
		MSER提取	0.18～0.23s
CNN编码	0.25～0.26s
		SVM分类	0.124ms
总共	0.43～0.49s

本发明实施例提供的方法，对于每一个待检测自然图片，在待检测自然图片中提取多个候选区域，并计算每一个目标区域的类别响应，之后根据每一个目标区域的类别响应，计算待检测自然图片的特征向量，当特征向量位于预先设置的文本图片归属的特征向量范围内时，确定待检测自然图片为文本图片，由于上述文本图片检测方式可对自然图片中的文本图片进行检测，所以该种检测方式的应用范围较为广泛，普适性强。

图6是本发明实施例提供了一种文本图片检测装置的结构示意图。参见图6，该装置包括：候选区域提取模块601、类别响应计算模块602、特征向量计算模块603、文本图片检测模块604。

其中，候选区域提取模块601与类别响应计算模块602连接，用于对于每一个待检测自然图片，在待检测自然图片中提取多个候选区域；类别响应计算模块602与特征向量计算模块603连接，用于计算每一个目标区域的类别响应，目标区域通过对多个候选区域进行过滤处理得到；特征向量计算模块603与文本图片检测模块604连接，用于根据每一个目标区域的类别响应，计算待检测自然图片的特征向量，特征向量的维数与类别响应的维数相等；文本图片检测模块604，用于当特征向量位于预先设置的文本图片归属的特征向量范围内时，确定待检测自然图片为文本图片。

可选地，特征向量计算模块，用于根据每一个目标区域的类别响应，生成待检测自然图片的特征矩阵，特征矩阵的列数与类别响应的维数相等；根据特征矩阵，计算待检测自然图片的特征向量。

可选地，该装置还包括：

自然图片获取模块，用于获取多个自然图片，将多个自然图片作为模型训练图片；

候选区域提取模块，用于对于每一个模型训练图片，在模型训练图片中提取多个候选区域；

HOG特征计算模块，用于计算多个候选区域中每一个文本区域的HOG特征；

聚类模块，用于根据HOG特征，对全部文本区域进行聚类，得到指定数目个类；

初始化模块，用于初始化CNN模型中的各个参数；

类别响应计算模块，用于基于CNN模型计算每一个候选区域的类别响应；

模型优化模块，用于对于每一个候选区域，根据候选区域的类别响应，优化CNN模型中的各个参数，直至CNN模型的分类误差小于预设阈值。

可选地，模型优化模块，用于根据候选区域的类别响应，确定候选区域归属的训练类别；获取预先对模型训练图片的文本标记结果；根据文本标记结果，确定候选区域归属的实际类别；根据训练类别和实际类别，优化CNN模型中的各个参数。

可选地，该装置还包括：

特征向量获取模块，用于对于每一个模型训练图片，获取模型训练图片的训练特征向量；

特征向量确定模块，用于在全部训练特征向量中，确定包括文本的模型训练图片对应的第一训练特征向量、包括非文本的模型训练图片对应的第二训练特征向量；

分类器优化模块，用于根据第一训练特征向量和第二训练特征向量，优化SVM分类器中的各个参数。

可选地，该装置还包括：

候选区域过滤模块，用于对多个候选区域进行过滤，直至过滤后的候选区域的剩余百分比满足预设数值，得到目标区域。

本发明实施例提供的装置，对于每一个待检测自然图片，在待检测自然图片中提取多个候选区域，并计算每一个目标区域的类别响应，之后根据每一个目标区域的类别响应，计算待检测自然图片的特征向量，当特征向量位于预先设置的文本图片归属的特征向量范围内时，确定待检测自然图片为文本图片，由于上述文本图片检测方式可对自然图片中的文本图片进行检测，所以该种检测方式的应用范围较为广泛，普适性强。

需要说明的是：上述实施例提供的文本图片检测装置在检测文本图片时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本图片检测装置与文本图片检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是根据一示例性实施例示出的一种服务器，该服务器可以用于实施上述任一示例性实施例示出的文本图片检测方法。具体来讲：参见图7，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central ProcessingUnit，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)。

服务器700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，一个或者一个以上程序包含用于进行以下操作的指令：

可选地，所述根据所述每一个目标区域的类别响应，计算所述待检测自然图片的特征向量，包括：

根据所述每一个目标区域的类别响应，生成所述待检测自然图片的特征矩阵，所述特征矩阵的列数与所述类别响应的维数相等；

根据所述特征矩阵，计算所述待检测自然图片的特征向量。

可选地，所述在所述待检测自然图片中提取多个候选区域之前，该方法还包括：

获取多个自然图片，将所述多个自然图片作为模型训练图片；

对于每一个模型训练图片，在所述模型训练图片中提取多个候选区域；

计算所述多个候选区域中每一个文本区域的HOG特征；

根据所述HOG特征，对全部文本区域进行聚类，得到指定数目个类；

初始化CNN模型中的各个参数；

基于所述CNN模型计算每一个候选区域的类别响应；

对于每一个候选区域，根据所述候选区域的类别响应，优化所述CNN模型中的各个参数，直至所述CNN模型的分类误差小于预设阈值。

可选地，所述根据所述候选区域的类别响应，优化所述CNN模型中的各个参数，包括：

根据所述候选区域的类别响应，确定所述候选区域归属的训练类别；

获取预先对所述模型训练图片的文本标记结果；

根据所述文本标记结果，确定所述候选区域归属的实际类别；

根据所述训练类别和所述实际类别，优化所述CNN模型中的各个参数。

对于每一个模型训练图片，获取所述模型训练图片的训练特征向量；

根据所述第一训练特征向量和所述第二训练特征向量，优化SVM分类器中的各个参数。

可选地，所述计算每一个目标区域的类别响应之前，该方法还包括：

对所述多个候选区域进行过滤，直至过滤后的候选区域的剩余百分比满足预设数值，得到所述目标区域。

本发明实施例提供的服务器，对于每一个待检测自然图片，在待检测自然图片中提取多个候选区域，并计算每一个目标区域的类别响应，之后根据每一个目标区域的类别响应，计算待检测自然图片的特征向量，当特征向量位于预先设置的文本图片归属的特征向量范围内时，确定待检测自然图片为文本图片，由于上述文本图片检测方式可对自然图片中的文本图片进行检测，所以该种检测方式的应用范围较为广泛，普适性强。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本图片检测方法，其特征在于，所述方法包括：

基于训练好的卷积神经网络CNN模型对所述多个候选区域进行过滤，直至过滤后的候选区域的剩余百分比满足预设数值，得到目标区域；

基于所述CNN模型计算每一个目标区域的类别响应，所述目标区域通过对所述多个候选区域进行过滤处理得到，所述类别响应表征了对应的目标区域归属于各个类别的概率，所述类别包括多个文本区域类别和一个非文本区域类别；

根据每一个目标区域的类别响应，生成所述待检测自然图片的特征矩阵，所述特征矩阵的列数与所述类别响应的维数相等，所述特征矩阵中每一行均为一个目标区域的类别响应；

根据所述特征矩阵中每一个类别响应和为每一个类别响应设置的权重，计算所述待检测自然图片的特征向量，所述特征向量的维数与所述类别响应的维数相等；

当所述特征向量位于预先设置的文本图片归属的特征向量范围内时，确定所述待检测自然图片为文本图片；

其中，当CNN模型第一次达到性能最优状态时，利用指定模型训练图片继续优化CNN模型，重复进行多次，得到训练好的CNN模型，所述指定模型训练图片为难以进行文本区域和非文本区域区分的模型训练图片。

2.根据权利要求1所述的方法，其特征在于，所述在所述待检测自然图片中提取多个候选区域之前，所述方法还包括：

计算所述多个候选区域中每一个文本区域的方向梯度直方图HOG特征；

初始化CNN模型中的各个参数；

基于所述CNN模型计算每一个候选区域的类别响应；

3.根据权利要求2所述的方法，其特征在于，所述根据所述候选区域的类别响应，优化所述CNN模型中的各个参数，包括：

获取预先对所述模型训练图片的文本标记结果；

4.根据权利要求1或2所述的方法，其特征在于，所述在所述待检测自然图片中提取多个候选区域之前，所述方法还包括：

根据所述第一训练特征向量和所述第二训练特征向量，优化支持向量机SVM分类器中的各个参数。

5.一种文本图片检测装置，其特征在于，所述装置包括：

候选区域过滤模块，用于基于训练好的卷积神经网络CNN模型对所述多个候选区域进行过滤，直至过滤后的候选区域的剩余百分比满足预设数值，得到目标区域；

类别响应计算模块，用于基于所述CNN模型计算每一个目标区域的类别响应，所述目标区域通过对所述多个候选区域进行过滤处理得到，所述类别响应表征了对应的目标区域归属于各个类别的概率，所述类别包括多个文本区域类别和一个非文本区域类别；

特征向量计算模块，用于根据每一个目标区域的类别响应，生成所述待检测自然图片的特征矩阵，所述特征矩阵的列数与所述类别响应的维数相等，所述特征矩阵中每一行均为一个目标区域的类别响应；根据所述特征矩阵中每一个类别响应和为每一个类别响应设置的权重，计算所述待检测自然图片的特征向量，所述特征向量的维数与所述类别响应的维数相等；

文本图片检测模块，用于当所述特征向量位于预先设置的文本图片归属的特征向量范围内时，确定所述待检测自然图片为文本图片；

模型优化模块，用于当CNN模型第一次达到性能最优状态时，利用指定模型训练图片继续优化CNN模型，重复进行多次，得到训练好的CNN模型，所述指定模型训练图片为难以进行文本区域和非文本区域区分的模型训练图片。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

自然图片获取模块，用于获取多个自然图片，将所述多个自然图片作为模型训练图片；

所述候选区域提取模块，用于对于每一个模型训练图片，在所述模型训练图片中提取多个候选区域；

HOG特征计算模块，用于计算所述多个候选区域中每一个文本区域的方向梯度直方图HOG特征；

聚类模块，用于根据所述HOG特征，对全部文本区域进行聚类，得到指定数目个类；

初始化模块，用于初始化卷积神经网络CNN模型中的各个参数；

所述类别响应计算模块，用于基于所述CNN模型计算每一个候选区域的类别响应；

模型优化模块，用于对于每一个候选区域，根据所述候选区域的类别响应，优化所述CNN模型中的各个参数，直至所述CNN模型的分类误差小于预设阈值。

7.根据权利要求6所述的装置，其特征在于，所述模型优化模块，用于根据所述候选区域的类别响应，确定所述候选区域归属的训练类别；获取预先对所述模型训练图片的文本标记结果；根据所述文本标记结果，确定所述候选区域归属的实际类别；根据所述训练类别和所述实际类别，优化所述CNN模型中的各个参数。

8.根据权利要求5或6所述的装置，其特征在于，所述装置还包括：

特征向量获取模块，用于对于每一个模型训练图片，获取所述模型训练图片的训练特征向量；

分类器优化模块，用于根据所述第一训练特征向量和所述第二训练特征向量，优化支持向量机SVM分类器中的各个参数。

9.一种存储介质，其特征在于，所述存储介质中存储有一个或者一个以上程序，所述一个或者一个以上程序由处理器加载并执行以实现如权利要求1至4中任一权利要求所述的文本图片检测方法。

10.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有一个或者一个以上程序，所述一个或者一个以上程序由所述处理器加载并执行以实现如权利要求1至4中任一权利要求所述的文本图片检测方法。