CN106295629B

CN106295629B - 结构化文本检测方法和系统

Info

Publication number: CN106295629B
Application number: CN201610561355.7A
Authority: CN
Inventors: 向东来; 夏炎
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-07-15
Filing date: 2016-07-15
Publication date: 2018-06-15
Anticipated expiration: 2036-07-15
Also published as: CN106295629A; WO2018010657A1; US10937166B2; US20180342061A1

Abstract

本申请公开了结构化文本检测方法和系统，其中所述方法包括：将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络；通过所述卷积神经网络的处理得到所述待检测结构化文本图片的一组待检测区域的实际位置；其中，所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值；及所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。本发明在保证检测准确度的同时使得计算量尽可能小，大大提高了结构化文本检测的效率。

Description

结构化文本检测方法和系统

技术领域

本申请涉及图片处理领域，尤其涉及一种结构化文本检测方法和系统。

背景技术

结构化文本是指布局结构基本固定的文本，例如身份证、护照、机动车驾驶证、票据等。在数字化时代，人们为了将这些信息录入计算机，往往需要手动打字，花费大量的时间。为了节省时间，人们开始采用将证件拍成图片，再利用计算机视觉技术从图片中自动获取文本的方法。这种方法一般分为三步：第一，将图片中的所有结构化文本作为一个整体进行截取并转正，使之充满整个图片，截取使得去除背景区域，转正使得歪斜的图片变正；第二，检测所有包含文本信息的区域；第三，对被检测出的区域进行文字识别，获取文本信息。其中，第二步，即结构化文本的检测，在整个结构化文本信息获取的过程中占有重要地位。目前结构化文本的检测一般借助于通用物体检测的方法，如基于卷积神经网络的RegionProposal Network(RPN)，它根据深度卷积神经网络输出的卷积特征图上每一个位置的信息计算这个位置的对应的锚(anchors)的分类分数和调整量，根据分类分数确定对应位置是否有待检测文本存在，通过调整量计算对应文本的位置，即上下左右四个方向的边界坐标。最后还需要利用非最大值抑制法除去重复程度较高的区域。

上述方法计算成本较高。由于一般深度卷积神经网络输出的卷积特征图面积较大，且每个位置都对应了若干个anchors，总共需要计算的anchors的分类分数和调整量数量巨大，再加上后处理，使得计算开销过大，需要花费的时间过长。

发明内容

本发明实施例提供一种结构化文本检测方案。

第一方面，本申请实施例提供一种结构化文本检测方法，包括：

将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络；

通过所述卷积神经网络的处理得到所述待检测结构化文本图片的一组待检测区域的实际位置；其中，

所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值；及

所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。

结合本发明实施例提供的任一种结构化文本检测方法，可选地，所述卷积神经网络进行如下处理以得到所述待检测结构化文本图片的一组待检测区域的实际位置：对所述待检测结构化文本图片进行处理获得其卷积特征图；以所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域对所述卷积特征图进行兴趣区域池化操作，然后经过全连接层输出所述待检测结构化文本图片的每一待检测区域对应的分类分数和位置调整值；根据所述分类分数确定所述每一待检测区域是否有文字；在确定一待检测区域有文字时，根据该确定有文字的待检测区域的位置调整值调整该确定有文字的待检测区域的坐标值，得到该确定有文字的待检测区域的实际位置。

结合本发明实施例提供的任一种结构化文本检测方法，可选地，所述将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络之前，所述方法还包括：获取用于训练所述卷积神经网络的所述多个结构化文本图片中的每一图片的所有文字区域的位置；根据所述多个结构化文本图片中的相应文字区域的位置的平均值确定所述文字区域对应的文字区域模板。

结合本发明实施例提供的任一种结构化文本检测方法，可选地，所述文字区域模板的位置通过相应文字区域的中心坐标、宽度及长度确定。

结合本发明实施例提供的任一种结构化文本检测方法，可选地，所述根据所述分类分数确定所述每一待检测区域是否有文字包括：将每一待检测区域对应的分类分数接Softmax层；在一待检测区域的分类分数大于预设阈值时确定该待检测区域有文字。

结合本发明实施例提供的任一种结构化文本检测方法，可选地，所述待检测区域的实际位置为[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h]，其中(x+w*f1,y+h*f2)为所述待检测区域的中心X坐标和Y坐标，exp(f3)*w为所述待检测区域的长度，exp(f4)*h为所述待检测区域的宽度；其中x,y,h,w为与所述待检测区域对应的文字区域模板的X坐标、Y坐标、宽度和长度；[f1,f2,f3,f4]为训练所述卷积神经网络时每一文字区域的回归目标，其中[f1,f2,f3,f4]＝[(x'-x)/w,(y'-y)/h,log(w'/w),log(h'/h)]，其中x',y',h',w'为所述多个结构化文本图片中的每一图片的相应文字区域的X坐标、Y坐标、宽度和长度。

结合本发明实施例提供的任一种结构化文本检测方法，可选地，所述回归目标通过在训练所述卷积神经网络时使所述位置调整值接一回归函数获得。

结合本发明实施例提供的任一种结构化文本检测方法，可选地，所述方法还包括：在输入所述卷积神经网络之前，对所述待检测结构化文本图片进行截取和转正预处理并缩放到一个固定尺寸。

第二方面，本发明实施例还提供了一种结构化文本检测系统，包括：

图片及模板输入模块，用于将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络；

卷积神经网络，用于通过所述卷积神经网络的处理得到所述待检测结构化文本图片的一组待检测区域的实际位置；其中，

结合本发明实施例提供的任一种结构化文本检测系统，可选地，所述卷积神经网络包括：特征图获得模块，用于对所述待检测结构化文本图片进行处理获得其卷积特征图；分类分数和位置调整值获得模块，用于以所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域对所述卷积特征图进行兴趣区域池化操作，然后经过全连接层输出所述待检测结构化文本图片的每一待检测区域对应的分类分数和位置调整值；文字区域确定模块，用于根据所述分类分数确定所述每一待检测区域是否有文字；待检测区域实际位置确定模块，用于在确定一待检测区域有文字时，根据该确定有文字的待检测区域的位置调整值调整该确定有文字的待检测区域的坐标值，得到该确定有文字的待检测区域的实际位置。

结合本发明实施例提供的任一种结构化文本检测系统，可选地，所述一组文字区域模板根据所述多个结构化文本图片中的每一图片的相应文字区域的位置的平均值确定。

结合本发明实施例提供的任一种结构化文本检测系统，可选地，所述文字区域模板的位置通过相应文字区域的中心坐标、宽度及长度确定。

结合本发明实施例提供的任一种结构化文本检测系统，可选地，所述文字区域确定模块包括：将每一待检测区域对应的分类分数接Softmax层；在一待检测区域的分类分数大于预设阈值时确定该待检测区域有文字。

结合本发明实施例提供的任一种结构化文本检测系统，可选地，所述待检测区域的实际位置为[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h]，其中(x+w*f1,y+h*f2)为所述待检测区域的中心X坐标和Y坐标，exp(f3)*w为所述待检测区域的长度，exp(f4)*h为所述待检测区域的宽度；其中x,y,h,w为与所述待检测区域对应的文字区域模板的X坐标、Y坐标、宽度和长度；[f1,f2,f3,f4]为训练所述卷积神经网络时每一文字区域的回归目标，其中[f1,f2,f3,f4]＝[(x'-x)/w,(y'-y)/h,log(w'/w),log(h'/h)]，其中x',y',h',w'为所述多个结构化文本图片中的每一图片的相应文字区域的X坐标、Y坐标、宽度和长度。

结合本发明实施例提供的任一种结构化文本检测系统，可选地，所述回归目标通过在训练所述卷积神经网络时使所述位置调整值接一回归函数获得。

结合本发明实施例提供的任一种结构化文本检测系统，可选地，所述系统还包括：图片预处理模块，用于在输入所述卷积神经网络之前，对所述待检测结构化文本图片进行截取和转正预处理并缩放到一个固定尺寸。

第三方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络，通过所述卷积神经网络的处理得到所述待检测结构化文本图片的一组待检测区域的实际位置的指令，其中，所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值；及所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。

第四方面，本发明实施例还提供了一种结构化文本检测系统，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如本发明实施例提供的任一种结构化文本检测方法对应的操作。

本发明实施例提供的技术方案中，待检测区域相比起以往的技术(RPN等)很少，所需要的计算量明显减小，所花费的时间明显减少，检测速率明显加快，所需要的计算资源也明显减少。而且本发明的技术方案不需要后处理去除重复检测，而RPN等方法需要。

在例子中，在使用相同的测试图像和尽可能相同的网络结构的情况下，本发明技术的检测速度是RPN的10倍，而检测的性能(召回率和准确率)没有损失。

附图说明

本发明将在下面参考附图并结合优选实施例进行更完全地说明。

图1为根据本发明方法的一实施例的流程图。

图2为根据本发明方法的一实施例的详细流程图。

图3为图2所示方法实施例中使用的结构化文本的一实施例的示意图。

图4为根据本发明系统的一实施例的结构示意图。

图5示出了根据本发明实施例提供的结构化文本检测系统的另一实施例的示意图。

为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。

具体实施方式

通过下面给出的详细描述，本发明的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。

图1示出了根据本发明的结构化文本检测方法的一实施例的流程图，该方法包括步骤S110，将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络；及S120，通过所述卷积神经网络的处理得到所述待检测结构化文本图片的一组待检测区域的实际位置；其中，所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值；及所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。

图2详细地示出了根据本发明的结构化文本检测方法的示意图。图3为图2所示方法实施例中使用的结构化文本的一实施例的示意图。如图2中所示，该实施例的方法以身份证照片为例并开始于步骤S210，身份证照片包括十个可能有文字信息的区域，其中住址最多分为三行，每行形成一个区域。每张照片中文字区域的正确位置(具体来讲是左右边界的x坐标和上下边界的y坐标)被叫做ground-truth框，如图3中所示。对大量身份证样本的照片进行截取和转正预处理，使得去除背景区域并使歪斜的照片变正，然后缩放到一个固定尺寸。之后，处理进行到步骤S220，获取大量经截取和转正预处理的身份证图片中的每一图片的所有10个文字区域的相应位置，计算所有图片的相应文字区域的位置的平均值作为一套模板(共10个模板)，用于所有身份证上文字区域的检测基础，如图2中的“模板”所示。之后，处理进行到步骤S230，对待检测的身份证图片进行截取和转正处理并缩放到固定尺寸，将处理后的待检测身份证图片和身份证文字区域的10个模板输入训练好的卷积神经网络。

在所述卷积神经网络训练时，将用于训练的每张身份证图片输入卷积神经网络，经通常的卷积、非线性变换等处理后获得身份证图片的卷积特征图；在最后得到的卷积特征图上，将模板的位置作为待检测区域进行兴趣区域池化(RoI pooling)操作提取局部信息，经过一个或多个全连接层(Fully Connected Layer)之后，输出一个分类分数和位置调整值；分类分数接Softmax，用于训练判断每个文字区域是否有文字(例如住址第二、三行可能没有文字)，位置调整值接回归函数smooth L1loss，用于在模板的基础上进行边界框回归(bounding box regression)，以训练进行准确的回归值预测。对于每一文字区域，回归的目标是[f1,f2,f3,f4]＝[(x'-x)/w,(y'-y)/h,log(w'/w),log(h'/h)]，其中x',y',h',w'为每一图片的相应ground-truth框的X和Y坐标、宽度和长度；x,y,h,w为相应模板的X和Y坐标、宽度和长度。

对于训练好的卷积神经网络，在一文字区域的分类分数大于预设阈值如0.5时确定该文字区域有文字，否则判断该区域没有文字。前述阈值可根据实际情况设定。

待检测身份证图片在输入训练好的卷积神经网络后将得到该图片的每一待检测区域(每一模板的位置)的分类分数和位置调整值。在步骤S240，确定该待检测区域是否包含文字。在一待检测区域的分类分数低于预设阈值即该待检测区域没有文字时，在步骤S250，舍弃该待检测区域。否则，在步骤S260，根据相应待检测区域的位置调整值调整相应模板的坐标值得到相应待检测区域的实际位置。具体地，所述相应待检测区域的实际位置为[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h]，其中(x+w*f1,y+h*f2)为相应待检测区域的中心X和Y坐标，exp(f3)*w为相应待检测区域的长度，exp(f4)*h为相应待检测区域的宽度，exp()为指数函数。在确定待检测区域的实际位置后，即可采取各种文字识别技术对相应区域的文字进行自动识别。

本发明使用模板作为待检测区域(Proposal)，极大提高结构化文本的检测速度。对于结构化文本信息的获取，在对图片进行截取和转正之后，把图像缩放到一个固定尺寸。由于截取和转正时的误差，以及文本长度本身在不同图片中有所变化的原因，待检测文本区域在不同图片中的位置是不同的，但是其分布是围绕一个中心，中间多四周少的形式。我们将预先将大量结构化文本图片中的所有文字区域各计算一个位置的平均值，作为模板。然后将这些模板作为待检测区域(Proposal)输入卷积神经网络，利用兴趣区域池化(Region of Interest Pooling/RoI Pooling)操作，提取对应位置的卷积特征图，然后根据这一个区域的信息计算分类分数和位置调整量，以确定这个区域内是否有文本以及文本的位置。从而使得待检测区域的个数等于所有可能存在的文本区域的个数，大大减小了在识别结构化文本时的计算量，进而提高了识别速度。

图4示出了根据本发明的与图2所示方法对应的结构化文本检测系统的一实施例的示意图，该系统包括：图片预处理模块410，用于在输入所述卷积神经网络之前，对所述待检测结构化文本图片进行截取和转正预处理并缩放到一个固定尺寸；图片及模板输入模块420，用于将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络；卷积神经网络430，用于通过所述卷积神经网络的处理得到所述待检测结构化文本图片的一组待检测区域的实际位置；其中，所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值；及所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。其中所述卷积神经网络430包括：特征图获得模块432，用于对所述待检测结构化文本图片进行处理获得其卷积特征图；分类分数和位置调整值获得模块434，用于以所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域对所述卷积特征图进行兴趣区域池化操作，然后经过全连接层输出所述待检测结构化文本图片的每一待检测区域对应的分类分数和位置调整值；文字区域确定模块436，用于根据所述分类分数确定所述每一待检测区域是否有文字；待检测区域实际位置确定模块438，用于在确定一待检测区域有文字时，根据该确定有文字的待检测区域的位置调整值调整该确定有文字的待检测区域的坐标值，得到所述待检测区域的实际位置。

图5示出了根据本发明实施例提供的结构化文本检测系统的另一实施例的示意图，该系统包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它设备比如客户端或数据采集设备等的网元通信。

处理器502，用于执行程序510，具体可以执行上述方法实施例中的相关步骤。

具体地，程序可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可以是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510包括至少一条可执行指令，具体可以用于使得处理器502执行以下操作：将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络，通过所述卷积神经网络的处理得到所述待检测结构化文本图片的一组待检测区域的实际位置；其中，所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值；及所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。

程序510包括至少一条可执行指令，还可用于使处理器502执行以下操作：对所述待检测结构化文本图片进行处理获得其卷积特征图；以所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域对所述卷积特征图进行兴趣区域池化操作，然后经过全连接层输出所述待检测结构化文本图片的每一待检测区域对应的分类分数和位置调整值；根据所述分类分数确定所述每一待检测区域是否有文字；在确定一待检测区域有文字时，根据该确定有文字的待检测区域的位置调整值调整该确定有文字的待检测区域的坐标值，得到该确定有文字的待检测区域的实际位置。

程序510中各步骤的具体实现可以参见上述实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上面描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

除非明确指出，在此所用的单数形式“一”、“该”均包括复数含义(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、步骤、操作、元件、部件和/或其组合。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必精确按照所公开的顺序执行。

一些优选实施例已经在前面进行了说明，但是应当强调的是，本发明不局限于这些实施例，而是可以本发明主题范围内的其它方式实现。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现为通过网络下载的、原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种结构化文本检测方法，其特征在于，所述方法包括：

对待检测结构化文本图片进行截取和转正预处理并缩放到一个固定尺寸；

将处理后的待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络；

通过所述卷积神经网络的处理，得到所述待检测结构化文本图片的每一待检测区域对应的位置调整值，并基于所述位置调整值调整相应待检测区域的坐标值，得到所述待检测结构化文本图片的一组待检测区域的实际位置；其中，

2.根据权利要求1所述的方法，其特征在于，所述卷积神经网络进行如下处理以得到所述待检测结构化文本图片的一组待检测区域的实际位置：

对所述待检测结构化文本图片进行处理获得其卷积特征图；

以所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域对所述卷积特征图进行兴趣区域池化操作，然后经过全连接层输出所述待检测结构化文本图片的每一待检测区域对应的分类分数和位置调整值；

根据所述分类分数确定所述每一待检测区域是否有文字；

在确定一待检测区域有文字时，根据该确定有文字的待检测区域的位置调整值调整该确定有文字的待检测区域的坐标值，得到该确定有文字的待检测区域的实际位置。

3.根据权利要求1所述的方法，其特征在于，所述将处理后的待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络之前，所述方法还包括：

获取用于训练所述卷积神经网络的所述多个结构化文本图片中的每一图片的所有文字区域的位置；

根据所述多个结构化文本图片中的相应文字区域的位置的平均值确定所述文字区域对应的文字区域模板。

4.根据权利要求2所述的方法，其特征在于，所述文字区域模板的位置通过相应文字区域的中心坐标、宽度及长度确定。

5.根据权利要求2所述的方法，其特征在于，所述根据所述分类分数确定所述每一待检测区域是否有文字包括：

将每一待检测区域对应的分类分数接Softmax层；

在一待检测区域的分类分数大于预设阈值时确定该待检测区域有文字。

6.根据权利要求4所述的方法，其特征在于，所述待检测区域的实际位置为[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h]，

其中(x+w*f1,y+h*f2)为所述待检测区域的中心X坐标和Y坐标，exp(f3)*w为所述待检测区域的长度，exp(f4)*h为所述待检测区域的宽度；

其中x,y,h,w为与所述待检测区域对应的文字区域模板的X坐标、Y坐标、宽度和长度；[f1,f2,f3,f4]为训练所述卷积神经网络时每一文字区域的回归目标，其中[f1,f2,f3,f4]＝[(x'-x)/w,(y'-y)/h,log(w'/w),log(h'/h)]，其中x',y',h',w'为所述多个结构化文本图片中的每一图片的相应文字区域的X坐标、Y坐标、宽度和长度。

7.根据权利要求6所述的方法，其特征在于，所述回归目标通过在训练所述卷积神经网络时使所述位置调整值接一回归函数获得。

8.一种结构化文本检测系统，其特征在于，所述系统包括：

图片预处理模块，用于对待检测结构化文本图片进行截取和转正预处理并缩放到一个固定尺寸；

图片及模板输入模块，用于将处理后的待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络；

卷积神经网络，用于通过所述卷积神经网络的处理，得到所述待检测结构化文本图片的每一待检测区域对应的位置调整值，并基于所述位置调整值调整相应待检测区域的坐标值，得到所述待检测结构化文本图片的一组待检测区域的实际位置；其中，

9.根据权利要求8所述的系统，其特征在于，所述卷积神经网络包括：

特征图获得模块，用于对所述待检测结构化文本图片进行处理获得其卷积特征图；

分类分数和位置调整值获得模块，用于以所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域对所述卷积特征图进行兴趣区域池化操作，然后经过全连接层输出所述待检测结构化文本图片的每一待检测区域对应的分类分数和位置调整值；

文字区域确定模块，用于根据所述分类分数确定所述每一待检测区域是否有文字；

待检测区域实际位置确定模块，用于在确定一待检测区域有文字时，根据该确定有文字的待检测区域的位置调整值调整该确定有文字的待检测区域的坐标值，得到该确定有文字的待检测区域的实际位置。

10.根据权利要求8所述的系统，其特征在于，其中所述一组文字区域模板根据所述多个结构化文本图片中的每一图片的相应文字区域的位置的平均值确定。

11.根据权利要求9所述的系统，其特征在于，所述文字区域模板的位置通过相应文字区域的中心坐标、宽度及长度确定。

12.根据权利要求9所述的系统，其特征在于，所述文字区域确定模块包括：

将每一待检测区域对应的分类分数接Softmax层；

13.根据权利要求11所述的系统，其特征在于，所述待检测区域的实际位置为[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h]，

14.根据权利要求13所述的系统，其特征在于，所述回归目标通过在训练所述卷积神经网络时使所述位置调整值接一回归函数获得。

15.一种结构化文本检测系统，其特征在于，所述系统包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1至7任一项所述的结构化文本检测方法对应的操作。