CN111881778A

CN111881778A - 文本检测的方法、装置、设备和计算机可读介质

Info

Publication number: CN111881778A
Application number: CN202010652290.3A
Authority: CN
Inventors: 张秋晖; 刘岩
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-11-03
Anticipated expiration: 2040-07-08
Also published as: CN111881778B

Abstract

本发明公开了文本检测的方法、装置、设备和计算机可读介质，涉及计算机技术领域。该方法的一具体实施方式包括：通过卷积神经网络提取输入图像多个尺寸的特征，并融合所述多个尺寸的特征得到特征图像；在所述特征图像中定位文字待选区域，以及所述文字待选区域的起点和所述文字待选区域的终点；依据所述文字待选区域、所述文字待选区域的起点和所述文字待选区域的终点，确定文本框，以在所述文本框内检测文本。该实施方式能够提高文本检测的准确率。

Description

文本检测的方法、装置、设备和计算机可读介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本检测的方法、装置、设备和计算机可读介质。

背景技术

随着计算机视觉与深度神经网络的发展，文本检测技术得到了极大的发展。文本检测技术不仅可用于身份证等证件类的检测，在金融票据和保险单据的检测中也具有广泛的应用前景。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：在实际应用中，由于图像的采集、处理和传输等环节存在图像失真问题，光学字符识别技术对图像质量要求较高，因此导致文本检测的准确率较低。

发明内容

有鉴于此，本发明实施例提供一种文本检测的方法、装置、设备和计算机可读介质，能够提高文本检测的准确率。

为实现上述目的，根据本发明实施例的一个方面，提供了一种文本检测的方法，包括：

通过卷积神经网络提取输入图像多个尺寸的特征，并融合所述多个尺寸的特征得到特征图像；

在所述特征图像中定位文字待选区域，以及所述文字待选区域的起点和所述文字待选区域的终点；

依据所述文字待选区域、所述文字待选区域的起点和所述文字待选区域的终点，确定文本框，以在所述文本框内检测文本。

所述在所述特征图像中定位文字待选区域，以及所述文字待选区域的起点和所述文字待选区域的终点，包括：

按照所述特征图像中每个像素点属于文字的概率，定位文字待选区域；

将所述文字待选区域的左上角区域内的像素点作为起点，以及将所述文字待选区域的右下角区域内的像素点作为终点。

所述依据所述文字待选区域、所述文字待选区域的起点和所述文字待选区域的终点，确定文本框，包括：

依据所述文字待选区域中相邻像素点的聚类结果，将所述文字待选区域划分为一个或多个文字区域；

依据所述文字区域、所述文字待选区域的起点和所述文字待选区域的终点，确定文本框。

所述依据所述文字区域、所述文字待选区域的起点和所述文字待选区域的终点，确定文本框，包括：

所述文字区域包括一对所述文字待选区域的起点和所述文字待选区域的终点，则将所述文字待选区域的起点作为文本框的起点，并将所述文字待选区域的终点作为文本框的终点，以确定所述文本框。

所述文字区域包括多对所述文字待选区域的起点和所述文字待选区域的终点，则将最短距离对应的所述文字待选区域的起点作为文本框的起点，以及将所述最短距离对应的所述文字待选区域的终点作为文本框的终点，以确定所述文本框，所述最短距离是所述起点与所述终点之间的最短距离；

所述文字区域包括多对所述文字待选区域的起点和所述文字待选区域的终点，则将所述最短距离、且连线平行于所述文字区域对角线的所述文字待选区域的起点作为文本框的起点，以及将所述最短距离、且所述连线平行于所述文字区域对角线的所述文字待选区域的终点作为文本框的终点，以确定所述文本框，所述连线包括所述起点与所述终点之间的连线。

所述通过卷积神经网络提取输入图像多个尺寸的特征，包括：

通过卷积神经网络中的多个子卷积神经网络，提取输入图像多个尺寸的特征。

所述融合所述多个尺寸的特征得到特征图像，包括：

在所述子卷积神经网络的池化层做上采样操作后，将所述输入图像在所述池化层对应尺寸的特征，依次与前一个或多个子卷积神经网络采集的特征融合，得到所述特征图像。

根据本发明实施例的第二方面，提供了一种文本检测的装置，包括：

特征模块，用于通过卷积神经网络提取输入图像多个尺寸的特征，并融合所述多个尺寸的特征得到特征图像；

定位模块，用于在所述特征图像中定位文字待选区域，以及所述文字待选区域的起点和所述文字待选区域的终点；

检测模块，用于依据所述文字待选区域、所述文字待选区域的起点和所述文字待选区域的终点，确定文本框，以在所述文本框内检测文本。

根据本发明实施例的第三方面，提供了一种文本检测的电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的方法。

根据本发明实施例的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述的方法。

上述发明中的一个实施例具有如下优点或有益效果：通过卷积神经网络提取输入图像多个尺寸的特征，并融合多个尺寸的特征得到特征图像；在特征图像中定位文字待选区域，以及文字待选区域的起点和文字待选区域的终点；依据文字待选区域、文字待选区域的起点和文字待选区域的终点，确定文本框，以在文本框内检测文本。利用卷积神经网络得到的特征图像包括输入图像多个尺寸的特征，在特征图像的基础上定位文字待选区域的精准性有所提高，进一步提高文本框的准确性，因此能够提高文本检测的准确率。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的文本检测的方法的主要流程的示意图；

图2是根据本发明实施例的卷积神经网络的结构示意图；

图3是根据本发明实施例的定位文字待选区域，以及文字待选区域的起点和文字待选区域的终点的流程示意图；

图4是根据本发明实施例的确定文本框的流程示意图；

图5是根据本发明实施例的文本检测的装置的主要结构的示意图；

图6是本发明实施例可以应用于其中的示例性系统架构图；

图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

近年来，随着深度学习算法尤其是卷积神经网络的发展，图像分割与识别技术已广泛应用于各类文本的识别。如：光学字符识别(Optical Character Recognition，OCR)技术，但OCR技术对于图像质量要求较高。

文本检测的前提是文本定位，文本定位主要分为传统图像算法与机器学习神经网络等方法，其中，传统图像算法，如：阈值分割和直线检测等，可以在内容格式相对固定，图像清晰的条件下，得到比较好的分割效果，但对于格式复杂或模糊的图像无能为力。

而机器学习神经网络，采用大量文本图像进行训练，可以适用于格式复杂环境背景中的文本检测，但检测效果严重依赖于训练样本数据。

基于卷积神经网络的图像文字检测方法，是采用以锚点(Anchor)为基础的目标检测模型，即通过生成大量先验框，然后拟合出文本框的形状。由于需要依赖先验信息，因此定位的准确率不稳定。

综上，由于图像的采集、处理和传输等环节存在图像失真问题，导致文本检测的准确率较低。

为了解决文本检测的准确率较低，可以采用以下本发明实施例中的技术方案。

参见图1，图1是根据本发明实施例的文本检测的方法主要流程的示意图，通过卷积神经网络得到包括多个尺寸特征的特征图像，定位文字待选区域，进而在确定的文本框中检测文本。如图1所示，具体包括以下步骤：

S101、通过卷积神经网络提取输入图像多个尺寸的特征，并融合所多个尺寸的特征得到特征图像。

首先，对原始的RGB图像进行预处理操作。其中，预处理操作包括但不限于消除噪声和图像锐化等处理。预处理操作的目的在于：尽量减少非图像特征对分类的影响。

原始的RGB图像经预处理操作后得到输入图像。也就是说，输入图像是经过预处理操作后得到的图像。

卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。

在本发明实施例中，将输入图像作为卷积神经网络的输入，卷积神经网络输出包括融合后的多个尺寸特征的特征图像。

下面简要介绍本发明实施例中的卷积神经网络。卷积神经网络从结构上来说包括输入层、隐含层和输出层。隐含层包括卷积层、池化层和全连接层。在本发明实施例中，着重说明卷积层和池化层，对于其他层不再重复说明。

卷积神经网络可以从输入图像中提取特征。为了能够提取多个不同尺寸的特征，卷积神经网络可以包括多个子卷积神经网络。可以理解的是，一个子卷积神经网络可以提取一个尺寸的特征。

作为一个示例，子卷积神经网络包括卷积层和池化层，采用池化层的参数，就可以获得对应尺寸的特征。

在卷积神经网络包括多个子卷积神经网络的情况下，多个子卷积神经网络依次顺序连接。

作为一个示例，卷积神经网络包括3个子卷积神经网络，第一子卷积神经网络连接第二子卷积神经网络，以及第二子卷积神经网络连接第三子卷积神经网络。将输入图像输入第一个子卷积神经网络，得到包括对应尺寸的输出图像，再将第一个子卷积神经网络输出对应尺寸的输出图像，输入第二子卷积神经网络，依次类推。最终，第三子卷积神经网络，输出对应尺寸的输出图像。也就是说，每个子卷积神经网络输出对应尺寸的输出图像。

可以理解的是，通过卷积神经网络中的多个子卷积神经网络，能够提取输入图像多个尺寸的特征。

参见图2，图2是根据本发明实施例的卷积神经网络的结构示意图。图2中的卷积神经网络包括5个子卷积神经网络。其中，第一子卷积神经网络至第五子卷积神经网络依次顺序连接。

可以预先设置每个子卷积神经网络的结构，下面分别说明每个子卷积神经网络。需要说明的是，每个子卷积神经网络中的输入层、全连接层和输出层，不再重复说明，仅就卷积层和池化层进行示例性的说明。可以将输入图像的尺寸缩放到512像素×512像素。

第一子卷积神经网络包括：1个卷积层和1个池化层。采用64个3×3的卷积核和1个maxpooling的池化层。

第二子卷积神经网络包括：2个卷积层和1个池化层。采用128个3×3的卷积核和1个maxpooling的池化层。

第三子卷积神经网络包括：3个卷积层和1个池化层。先采用2层256个3×3的卷积核，再使用1层256个1×1的卷积层和1个maxpooling的池化层。

第四子卷积神经网络包括：3个卷积层和1个池化层。先采用2层512个3×3的卷积核，再使用1层512个1×1的卷积层和1个maxpooling的池化层。

第五子卷积神经网络包括：3个卷积层和1个池化层。先采用2层512个3×3的卷积核，再使用1层512个1×1的卷积层和1个maxpooling的池化层。

在上述五个子卷积神经网络中的池化层参数是不同的，进而可以通过池化层提取输入图像不同尺寸的特征。

可以理解的是，图2中的卷积神经网络是通过训练获得的。具体来说，在训练卷积神经网络的过程中，将样本图像输入卷积神经网络中。

可以采用梯度下降法，改变图2中第一子卷积神经网络至第五子卷积神经网络中卷积核的具体参数，直到按照第五子卷积神经网络的输出图像所确定的图像分类与样本图像的实际分类一致，则记录第一子卷积神经网络至第五子卷积神经网络中卷积核的具体参数，并作为下一个样本图像的卷积神经网络的参数，继续训练卷积神经网络。

在通过卷积神经网络提取输入图像多个尺寸的特征后，可以融合多个尺寸的特征得到特征图像。可以理解的是，特征图像包括输入图像多个尺寸的特征。

对于一个子卷积神经网络而言，输出图像包括输入图像一个尺寸的特征。获取越多输入图像的特征，则所确定输入图像的类别越精准。

在本发明的一个实施例中，在一个子卷积神经网络的池化层做上采样操作后，将输入图像在该池化层对应尺寸的特征，依次与前一个或多个子卷积神经网络采集的特征融合，得到特征图像。

其中，上采样是可以让图像变成更高分辨率的技术。作为一个示例，通过重采样和插值实现上采样。将输入图片重新调整到一个预设尺寸，而且计算每个像素点，使用双线性插值等插值方法对其余像素点进行插值以完成上采样。

在本发明的一个实施例中，继续参数图2，可以融合第五子卷积神经网络和第四子卷积神经网络采集的特征。

具体来说，在第五子卷积神经网络的池化层做上采样操作后，将输入图像在第五个子卷积神经网络的池化层对应尺寸的特征，与第四子卷积神经网络采集的特征融合，得到特征图像，该特征图像包括第四子卷积神经网络采集的特征，以及第五子卷积神经网络采集的特征。

在本发明的一个实施例中，继续参数图2，可以融合第一子卷积神经网络至第五子卷积神经网络采集的特征。即，特征图像包括五个字卷积神经网络采集的特征。

具体来说，在第五子卷积神经网络的池化层做上采样操作后，将输入图像在第五个子卷积神经网络的池化层对应尺寸的特征，与第四子卷积神经网络采集的特征融合。

然后，在第四子卷积神经网络的池化层做上采样操作后，将融合后的特征，与第三子卷积神经网络采集的特征融合。

依次类推，将第五子卷积神经网络采集的特征至第一子卷积神经网络采集的特征，进行融合得到特征图像。该特征图像包括第一子卷积神经网络采集的特征至第五子卷积神经网络采集的特征。也就是说，该特征图像包括五个子卷积神经网络采集的特征。

每个子卷积神经网络采集不同尺寸的特征，因此能够融合多个尺寸的特征得到特征图像。其中，融合的尺寸越多，则分类准确性越高。

可以按照以下方式，由卷积神经网络的输出图像确定图像分类。具体包括，将第五子卷积神经网络的输出图像，依次做全连接操作，输出一个2×512×512的数组。其中，2为基于图像特征的分类种数，即分类包括两种：文字和非文字，而512×512则代表原图上每个像素点。然后，采用sigmoid运算，使得数组内每个元素的数值在(0，1)之间，即该元素的值代表卷积神经网络输入的每个点在该下标分类标签种类的概率。可以选择最大概率对应的类别，作为卷积神经网络输入图像的图像分类。

S102、在特征图像中定位文字待选区域，以及文字待选区域的起点和文字待选区域的终点。

可以在特征图像中定位文字待选区域。文字待选区域是有可能包括文字的区域。

参见图3，图3是根据本发明实施例的定位文字待选区域，以及文字待选区域的起点和文字待选区域的终点的流程示意图，具体包括：

S301、按照特征图像中每个像素点属于文字的概率，定位文字待选区域。

特征图像中包括输入图像多个尺寸的特征。可以将从卷积神经网络的输出层输出的特征图像做sigmoid运算，获知特征图像中每个像素点对应位置属于文字的概率。

可以将文字的概率大于文字阈值的像素点，作为文字待选像素点。进而，由多个文字待选像素点，构成文字待选区域。作为一个示例，文字阈值等于0.8。

可以理解的是，文字待选区域可以是任意形状的区域。

S302、将文字待选区域的左上角区域内的像素点作为起点，以及将文字待选区域的右下角区域内的像素点作为终点。

文字待选区域包括文字的可能性较大。需要以文字待选区域的起点和文字待选区域的终点，标识文字待选区域。

按照从左到右的阅读习惯，可以以文字待选区域的左上角像素点作为起点，以及将文字待选区域的右下角像素点作为终点。

当然，按照从右到左的阅读习惯，可以以文字待选区域的右上角像素点作为起点，以及将文字待选区域的左下角像素点作为终点。在本发明实施例中，以从左到右的阅读习惯为例进行说明。

在实际应用过程中，将文字待选区域的左上角像素点作为起点，以及将文字待选区域的右下角像素点作为终点。由于文本待选区域内起点与终点的对数较少，影响文本框的精确定位。

为了提高文本框定位的精确性，可以将文字待选区域的左上角区域内的像素点作为起点，以及将文字待选区域的右下角区域内的像素点作为终点。

可以理解的是，文字待选区域的左上角区域内包括多个像素点，可将上述多个像素点作为起点。同样地，文字待选区域的右下角区域内包括多个像素点，可将上述多个像素点作为终点。需要说明的是，起点的数量与终点的数量相同，一个起点对应一个终点，称为一对起点和终点。

作为一个示例，文字待选区域的左上角区域可以是距离文字待选区域的左上角像素点预设范围内的像素点，预设范围是3个像素点。类似地，文字待选区域的右下角区域可以是距离文字待选区域的右下角像素点预设范围内的像素点，预设范围是3个像素点。

在图3的实施例中，按照图像特征，定位文字待选区域，以及文字待选区域的起点和终点。

S103、依据文字待选区域、文字待选区域的起点和文字待选区域的终点，确定文本框，以在文本框内检测文本。

在识别文本的过程中，需要确定文本框。文本框是包括文字的最小区域。文本框的准确定位，能够提高检测的准确率。在确定文本框后，可以在文本框内利用已有技术检测文本。

参见图4，图4是根据本发明实施例的确定文本框的流程示意图，具体包括：

S401、依据文字待选区域中相邻像素点的聚类结果，将文字待选区域划分为一个或多个文字区域。

相邻像素点是指两个相邻的像素点。在文字待选区域内包括多个像素点，可以根据其中相邻像素点进行聚类。这是考虑到，相邻像素点属于同一个文本框的可能性较大。

那么，依据文字待选区域中相邻像素点的聚类结果，将文字待选区域划分为一个或多个文字区域。作为一个示例，可以使用区域增长算法进行聚类。其中，文字区域是独立的连通区域。

在特征图像中包括一个或多个文字待选区域，按照S401将文字待选区域划分为文字区域。也就是说，特征图像可以划分为一个或多个文字区域。

S402、依据文字区域、文字待选区域的起点和文字待选区域的终点，确定文本框。

在本发明实施例中，可以依据文字区域中文字待选区域的起点和文字待选区域的终点的对数，确定文本框。可以理解的是，一对起点和终点包括一个文字待选区域的起点和一个文字待选区域的终点。

具体来说，根据起点和终点的对数，可以分为以下四种情况。

情况一：

在文字区域中不包括起点和终点，即起点和终点的对数是零，则说明该文字区域并不包括文字，将该文字区域设置为非文字区域。

情况二：

在文字区域中包括一对起点和终点，则说明该文字区域包括文字，则可以将文字待选区域的起点作为文本框的起点，并将文字待选区域的终点作为文本框的终点，以确定文本框。可以理解的是，将文字区域作为文本框。

情况三：

在文字区域中包括多对起点和终点，则说明该文字区域包括文字。可以按照起点与终点的距离，从多对起点和终点中选择起点和终点。具体来说，可以将起点与终端的最短距离对应的起点和终端，作为文本框的起点和终点。

即：文字区域包括多对文字待选区域的起点和文字待选区域的终点，则将最短距离对应的文字待选区域的起点作为文本框的起点，以及将最短距离对应的文字待选区域的终点作为文本框的终点，以确定文本框，最短距离是起点与终点之间的最短距离。

这是考虑到，起点与终点之间的距离越短，则文字区域相对越小。在较小的文字区域内检测文本的准确性，高于在较大的文字区域内检测文本。

情况四：

在文字区域中包括多对起点和终点，则说明该文字区域包括文字。按照起点与终点的距离，从多对起点和终点中选择最短距离对应的多对起点和终点。仅依据起点与终端的最短距离，难以选择起点和终点。

可以在起点与终端的最短距离的基础上，判断起点与终点的连线是否平行于文字区域对角线，以选择起点和终点。

即：文字区域包括多对文字待选区域的起点和文字待选区域的终点，则将最短距离、且连线平行于文字区域对角线的文字待选区域的起点作为文本框的起点，以及将最短距离、且连线平行于文字区域对角线的文字待选区域的终点作为文本框的终点，以确定文本框，连线包括起点与终点之间的连线。

在图4的实施例中，将文字待选区域分为文字区域，结合文字待选区域的起点和文字待选区域的终端，确定文本框，以输出文本框的起点和终点。

在上述实施例中，通过卷积神经网络提取输入图像多个尺寸的特征，并融合多个尺寸的特征得到特征图像；在特征图像中定位文字待选区域，以及文字待选区域的起点和文字待选区域的终点；依据文字待选区域、文字待选区域的起点和文字待选区域的终点，确定文本框，以在文本框内检测文本。利用卷积神经网络得到的特征图像包括输入图像多个尺寸的特征，在特征图像的基础上定位文字待选区域的精准性有所提高，进一步提高文本框的准确性，尤其是长文本文本框定位的准确性，因此能够提高文本检测的准确率。

在保险理赔领域，客户需将保险单和医疗票据等文档拍照上传。保险公司需要录入上传图像，以进行理赔核算。目前除已有人工录入方式外，还可以利用OCR技术识别保险单据和医疗票据的图像。

目前的技术只有在图像十分清晰，文字方向为正向的情况下才能取得较好的检测效果。经过技术分析，OCR应用在保险理赔上的难点在于检测图像中的文字，而影响检测精度的主要因素是文字密集程度以及文字的朝向。

采用本发明实施例中的技术方案，能够在上述较复杂场景下进行保险单和医疗票据等文档图像的文本检测，检测的准确率更高从而减少人工核对的时间，提高核对的效率，节省大量的人力成本，推进了智能理赔的应用。

参见图5，图5是根据本发明实施例的文本检测的装置的主要结构的示意图，文本检测的装置可以实现文本检测的方法，如图5所示，文本检测的装置具体包括：

特征模块501，用于通过卷积神经网络提取输入图像多个尺寸的特征，并融合所述多个尺寸的特征得到特征图像。

定位模块502，用于在所述特征图像中定位文字待选区域，以及所述文字待选区域的起点和所述文字待选区域的终点。

检测模块503，用于依据所述文字待选区域、所述文字待选区域的起点和所述文字待选区域的终点，确定文本框，以在所述文本框内检测文本。

在本发明的一个实施例中，定位模块502，具体用于按照所述特征图像中每个像素点属于文字的概率，定位文字待选区域；

在本发明的一个实施例中，检测模块503，具体用于依据所述文字待选区域中相邻像素点的聚类结果，将所述文字待选区域划分为一个或多个文字区域；

在本发明的一个实施例中，检测模块503，具体用于所述文字区域包括一对所述文字待选区域的起点和所述文字待选区域的终点，则将所述文字待选区域的起点作为文本框的起点，并将所述文字待选区域的终点作为文本框的终点，以确定所述文本框。

在本发明的一个实施例中，检测模块503，具体用于所述文字区域包括多对所述文字待选区域的起点和所述文字待选区域的终点，则将最短距离对应的所述文字待选区域的起点作为文本框的起点，以及将所述最短距离对应的所述文字待选区域的终点作为文本框的终点，以确定所述文本框，所述最短距离是所述起点与所述终点之间的最短距离；

在本发明的一个实施例中，特征模块501，具体用于通过卷积神经网络中的多个子卷积神经网络，提取输入图像多个尺寸的特征。

在本发明的一个实施例中，特征模块501，具体用于在所述子卷积神经网络的池化层做上采样操作后，将所述输入图像在所述池化层对应尺寸的特征，依次与前一个或多个子卷积神经网络采集的特征融合，得到所述特征图像。

图6示出了可以应用本发明实施例的文本检测的方法或文本检测的装置的示例性系统架构600。

如图6所示，系统架构600可以包括终端设备601、602、603，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备601、602、603通过网络604与服务器605交互，以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器605可以是提供各种服务的服务器，例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的文本检测的方法一般由服务器605执行，相应地，文本检测的装置一般设置于服务器605中。

应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图7，其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

根据本发明实施例的技术方案，通过卷积神经网络提取输入图像多个尺寸的特征，并融合多个尺寸的特征得到特征图像；在特征图像中定位文字待选区域，以及文字待选区域的起点和文字待选区域的终点；依据文字待选区域、文字待选区域的起点和文字待选区域的终点，确定文本框，以在文本框内检测文本。利用卷积神经网络得到的特征图像包括输入图像多个尺寸的特征，在特征图像的基础上定位文字待选区域的精准性有所提高，进一步提高文本框的准确性，因此能够提高文本检测的准确率。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种文本检测的方法，其特征在于，包括：

2.根据权利要求1所述文本检测的方法，其特征在于，所述在所述特征图像中定位文字待选区域，以及所述文字待选区域的起点和所述文字待选区域的终点，包括：

3.根据权利要求1或2所述文本检测的方法，其特征在于，所述依据所述文字待选区域、所述文字待选区域的起点和所述文字待选区域的终点，确定文本框，包括：

4.根据权利要求3所述文本检测的方法，其特征在于，所述依据所述文字区域、所述文字待选区域的起点和所述文字待选区域的终点，确定文本框，包括：

5.根据权利要求3所述文本检测的方法，其特征在于，所述依据所述文字区域、所述文字待选区域的起点和所述文字待选区域的终点，确定文本框，包括：

6.根据权利要求1或2所述文本检测的方法，其特征在于，所述通过卷积神经网络提取输入图像多个尺寸的特征，包括：

7.根据权利要求6所述文本检测的方法，其特征在于，所述融合所述多个尺寸的特征得到特征图像，包括：

8.一种文本检测的装置，其特征在于，包括：

9.一种文本检测的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。