CN109086756B

CN109086756B - 一种基于深度神经网络的文本检测分析方法、装置及设备

Info

Publication number: CN109086756B
Application number: CN201810618508.6A
Authority: CN
Inventors: 钱浩然; 谢畅; 王恒; 徐宝函; 陆王天宇
Original assignee: Zhongan Information Technology Service Co Ltd
Current assignee: Shanghai Zhongan Information Technology Service Co ltd
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2021-08-03
Anticipated expiration: 2038-06-15
Also published as: SG11202002659WA; WO2019238063A1; JP6831480B2; JP2020527260A; CN109086756A

Abstract

本发明公开了一种基于深度神经网络的文本检测分析方法、装置及设备，属于深度学习和图像处理技术领域。所述方法包括：进行模板标注，生成标注模板信息；利用预设深度神经网络检测模型对待检测图像进行文字区域的检测和分类，生成带类别的文字区域信息；根据所述标注模板信息和所述带类别的文字区域信息进行模板匹配，生成结构化信息数据。本发明能够针对如票据图像中各种字段，实现快速、准确的检测分析，对于文档图像的检测与分析具有实时、准确、通用、鲁棒、可扩展的特点，可广泛应用于多种包含文本的图像文本检测、分析与识别领域中。

Description

一种基于深度神经网络的文本检测分析方法、装置及设备

技术领域

本发明涉及深度学习和图像处理技术领域，特别涉及一种基于深度神经网络的文本检测分析方法、装置及设备。

背景技术

物体检测是一种计算机视觉(CV)和图像处理相关的计算机技术，从数字图像和视频中检测出特定类别(例如人类、建筑和汽车等)的语义对象实例。物体检测在人脸检测和行人检测领域发展比较完善。物体检测在计算机视觉领域有着大量的应用场景，包括图像检索和视频监控。

神经网络(Neural Network)是一种人为设计的网络结构，其本质是多层感知机(Multi-layer Perceptron)。感知机由若干神经元(Neuron)构成，每个神经元从外部或其它节点收到输入信号，并通过激活函数得到输出信号，就像大脑中神经元的信号传递。神经元按层相连，形成网络结构。与神经细胞不同，人工神经元的信号能够反向传播，这种反馈机制让感知机具备学习功能。除了学习功能，多层感知机可以表示非线性映射，因此神经网络能够帮助人们解决一些相对复杂的问题，如模式识别、自动控制、决策评估、预测等。卷积神经网络(Convolutional Neural Network)是一种前馈神经网络，它的神经元可以响应一部分覆盖范围内的周围单元，形成感受野(Receptive Field)，对图像处理有较好表现。同时，通过权值共享，卷积神经网络相比传统的全连接神经网络节省空间。用卷积神经网络学习出的特征，具有一定的位置不变性与尺度不变性，用卷积神经网络训练的OCR模型，对字体、字号的变化具有鲁棒性。

深度学习的检测算法主要包含三个部分：检测窗口的选择，特征的提取和分类器的选择。深度学习早期，大都使用滑动窗口的方式进行窗口提取，近期的检测算法例如Faster R-CNN则直接利用RPN(Region Proposal Networks)网络来计算候选框。RPN以一张任意大小的图片为输入，输出一批矩形区域，每个区域对应一个目标分数和位置信息。借助于卷积神经网络强大的非线性建模能力，能够提取出契合各种不同子任务的特征。深度学习的检测算法也打破了传统滑框的框架，使用回归的方法解决检测问题。

模板分析是一种光学字符识别相关的计算机技术，从数字文档图像中将对应的文字区域映射到语义对象实例，从而将数字文档图像等非结构化的数据转化成与语义对象实例相关的结构化数据。模板分析将文档中各个文字区域映射到语义对象实例从而将文档图像内容结构化。模板分析主要包含三个部分：锚点的设置与匹配，各个文字区域的映射和文档图像内容的结构化。锚点是每个模板中最为稳定的特征，内容和相对位置都不会发生变化，例如表格中的表头，通过设置多个锚点可以完全确定当前模板中各个区域的相对位置关系。现有的方法中锚点的匹配都是基于传统的图像特征匹配方法，图像的亮度、对比度、分辨率等会严重影响锚点匹配的准确度；现有方法的文字区域的匹配是通过跟锚点的相对位置去确定文字区域，但是手写文字、针式打印文字等会出现不可预知的位置偏移，文字区域的定位往往会出错。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种基于深度神经网络的文本检测分析方法、装置及设备。所述技术方案如下：

第一方面，提供了一种基于深度神经网络的文本检测分析方法，所述方法包括：进行模板标注，生成标注模板信息；利用预设深度神经网络检测模型对待检测图像进行文字区域的检测和分类，生成带类别的文字区域信息；根据所述标注模板信息和所述带类别的文字区域信息进行模板匹配，生成结构化信息数据。

结合第一方面，在第一种可能的实现方式中，进行模板标注，生成标注模板信息，包括：标注模板锚点和非锚点文字区域的大小及相对位置，以及实体与所述锚点、非锚点文字区域的映射关系，生成标注模板信息。

结合第一方面，在第二种可能的实现方式中，利用预设深度神经网络检测模型对待检测图像进行文字区域的检测和分类，生成带类别的文字区域信息，包括：利用预设深度神经网络检测模型检测待检测图像的文字行，通过输出的类别获取包括的锚点和非锚点文字区域的文字区域信息。

结合第一方面，在第三种可能的实现方式中，根据所述标注模板信息和所述带类别的文字区域信息进行模板匹配，生成结构化信息数据，包括：将所述标注模板信息与所述带类别的文字区域信息作为输出，匹配定位锚点，并通过锚点将所述带类别的文字区域映射到对应的实体，去除包括非文本区域和无关文本在内的冗余部分，生成结构化信息。

结合第一方面及第一方面的第一至三任一种可能方式，在第四至七种可能的实现方式中，所述方法还包括：对输入的待检测图像进行图像预处理，所述图像预处理包括图像矫正和/或缩放到统一尺寸。

结合第一方面及第一方面的第一至三任一种可能方式，在第八至十一种可能的实现方式中，所述方法还包括：训练获得所述预设深度神经网络检测模型。

结合第一方面的第八至十一任一种可能方式，在第十二至十五种可能的实现方式中，训练获得所述预设深度神经网络检测模型，包括：使用样本生成工具生成样本；使用样本进行训练；获得初步深度神经网络检测模型；在检测应用中形成数据回流，获得更多的新样本；用新样本在初步深度神经网络检测模型上进行Fine-tuning。

第二方面，提供了一种基于深度神经网络的文本检测分析装置，包括：标注模块，用于进行模板标注，生成标注模板信息；文字区域检测模块，用于利用预设深度神经网络检测模型对待检测图像进行文字区域的检测和分类，生成带类别的文字区域信息；匹配模块，用于根据所述标注模板信息和所述带类别的文字区域信息进行模板匹配，生成结构化信息数据。

结合第二方面，在第一种可能的实现方式中，所述标注模块用于：标注模板锚点和非锚点文字区域的大小及相对位置，以及实体与所述锚点、非锚点文字区域的映射关系，生成标注模板信息。

结合第二方面，在第二种可能的实现方式中，所述文字区域检测模块用于：利用预设深度神经网络检测模型检测待检测图像的文字行，通过输出的类别获取包括的锚点和非锚点文字区域的文字区域信息。

结合第二方面，在第三种可能的实现方式中，所述匹配模块用于：将所述标注模板信息与所述带类别的文字区域信息作为输出，匹配定位锚点，并通过锚点将所述带类别的文字区域映射到对应的实体，去除包括非文本区域和无关文本在内的冗余部分，生成结构化信息。

结合第二方面及第二方面的第一至三任一种可能方式，在第四至七种可能的实现方式中，所述装置还包括图像预处理模块，用于对输入的待检测图像进行图像预处理，所述图像预处理包括图像矫正和/或缩放到统一尺寸。

结合第二方面及第二方面的第一至三任一种可能方式，在第八至十一种可能的实现方式中，所述装置还包括模型训练模块，用于训练获得所述预设深度神经网络检测模型。

结合第二方面的第八至十一任一种可能方式，在第十二至十五种可能的实现方式中，所述模型训练模块用于：使用样本生成工具生成样本；使用样本进行训练；获得初步深度神经网络检测模型；在检测应用中形成数据回流，获得更多的新样本；用新样本在初步深度神经网络检测模型上进行Fine-tuning。

第三方面，提供了一种基于深度神经网络的文本检测分析设备，包括：处理器；存储器，用于存储有所述处理器的可执行指令；其中，所述处理器配置为经由所述可执行指令来执行第一方面任一项方案所述的基于深度神经网络的文本检测分析方法的步骤。

本发明实施例提供的技术方案带来的有益效果是：

1、现有物体检测和文本检测检测框架不能准确地检测出文档中的文字，而本发明实施例提供的文本检测分析方法中，采用深度神经网络物体检测框架能够精准找出不同尺度(或字号)的文字区域，并对文字内容进行初步分类，如金额、项目名、词条、票据编号等类别，对位置和内容信息稳定的锚点可以准确的匹配，并提升后续匹配步骤的准确率；

2、根据文字检出区域的相对位置，匹配检测模板，排除非文本区域与无关文本，比现有识别方法更能抓住关键信息；

3、初期不需要大量标注样本训练检测模型，形成数据回流之后识别率逐步提高。

总的来说，本发明实施例提供的基于深度神经网络的文本检测分析方法、装置及设备，通过利用深度神经网络检测模型进行图像文字区域的检测、分类，然后结合标注的模板信息与检测分类得到的带类别的文字区域信息，进行模板匹配，生成结构化信息数据，能够针对如票据图像中各种字段，实现快速、准确的检测分析，对于文档图像的检测与分析具有实时、准确、通用、鲁棒、可扩展的特点，可广泛应用于多种包含文本的图像文本检测、分析与识别领域中。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1提供的基于深度神经网络的文本检测分析方法流程图；

图2是一优选实施方式的模板匹配过程示意图；

图3是本发明实施例2提供的基于深度神经网络的文本检测分析方法流程图；

图4是本发明实施例3提供的基于深度神经网络的文本检测分析装置结构示意图；

图5是本发明实施例提供的基于深度神经网络的文本检测分析设备组成示意图；

图6至图9是本发明实施例提供的基于深度神经网络的文本检测分析方法、装置及设备应用实例的发票票据处理效果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在本发明的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

本发明实施例提供的基于深度神经网络的文本检测分析方法、装置及设备，通过利用深度神经网络检测模型进行图像文字区域的检测、分类，然后结合标注的模板信息与检测分类得到的带类别的文字区域信息，进行模板匹配，生成结构化信息数据，能够针对如票据图像中各种字段，实现快速、准确的检测分析，对于文档图像的检测与分析具有实时、准确、通用、鲁棒、可扩展的特点，可广泛应用于多种包含文本的图像文本检测、分析与识别领域中。

下面结合具体实施例及附图，对本发明实施例提供的基于深度神经网络的文本检测分析方法、装置及设备作详细说明。

实施例1

图1是本发明实施例1提供的基于深度神经网络的文本检测分析方法流程图。如图1所示，本发明实施例提供的基于深度神经网络的文本检测分析方法，包括以下步骤：

101、进行模板标注，生成标注模板信息。

具体的，标注模板锚点和非锚点文字区域的大小及相对位置，以及实体与锚点、非锚点文字区域的映射关系，生成标注模板信息。这一过程用于标注所有需要识别字段的位置和类别，类别包括是否为锚点，文字行是否为日期、汉字、英文等等。生成的标注模板信息用于后续的模板匹配。

需要注意的是，这里进行标注的模板并不限于一种或两种，根据实际需要，可以预先设置多种模板。

102、利用预设深度神经网络检测模型对待检测图像进行文字区域的检测和分类，生成带类别的文字区域信息。

具体的，利用预设深度神经网络检测模型检测待检测图像的文字行，通过输出的类别获取包括的锚点和非锚点文字区域的文字区域信息。使用检测模型检测文字行，通过输出的类别就可以获取所有锚点，这个过程中也可以筛选置信度最高的锚点，通过锚点就可以确定版面的相对位置。这里的预设深度网络检测模型可以采用faster-rcnn网络模型、mask-rcnn网络模型或者现有技术中其他任何可能的深度神经网络模型，本发明实施例不对其加以特别限制。

采用深度神经网络物体检测框架能够精准找出不同尺度(字号)的文字区域，并对文字内容进行初步分类，如金额、项目名、词条、票据编号等类别，锚点确定了，相当于确定了整个版面各个字段的相对位置，然后结合之前的检测结果和版面的相对位置就可以准确的定位想要的字段对位置和内容信息，因此稳定的锚点能够实现准确的匹配，提升后续匹配步骤的准确率。

103、根据标注模板信息和带类别的文字区域信息进行模板匹配，生成结构化信息数据。

具体的，将标注模板信息与带类别的文字区域信息作为输出，匹配定位锚点，并通过锚点将带类别的文字区域映射到对应的实体，去除包括非文本区域和无关文本在内的冗余部分，生成结构化信息。根据检测出的文字行与锚点的相对位置，就可以确定该文字行的类型(姓名，性别，年龄等等)，识别之后就可以将结果结构化。然后可以将结构化信息输出，以便进行相应应用。这里涉及的识别过程可以采用现有技术中tessract、CRNN之类的识别模型，本发明实施例不对其加以特别限制。

图2是一优选实施方式的模板匹配过程示意图，如图2所示，上述103步骤又可进一步包括：

1031：结合标注模板信息与带类别的文字区域信息进行模板匹配；

1032：结合标注模板信息、带类别的文字区域信息以及匹配成功的锚点进行文字区域的映射；

1033:将映射的结果去重，去除重复冗余的文字区域；

1034:将完整的检测结果根据模板信息结构化，完成模板匹配。

根据通过检验得到的文字检出区域的相对位置，匹配标注模板，排除非文本区域与无关文本，比通用识别方法更能抓住关键信息。

优选地，本发明实施例提供的基于深度神经网络的文本检测分析方法除了包括以上101-103步骤外，还包括以下步骤：

对输入的待检测图像进行图像预处理，图像预处理包括但不限于图像矫正和/或缩放到统一尺寸，可以根据实际情况进行图像预处理操作的相应设置。

另外，优选地，本发明实施例提供的基于深度神经网络的文本检测分析方法，还包括以下步骤：

训练获得预设深度神经网络检测模型，具体地包括：

使用样本生成工具生成样本；

使用样本进行训练；

获得初步深度神经网络检测模型；

在检测应用中形成数据回流，获得更多的新样本；

用新样本在初步深度神经网络检测模型上进行Fine-tuning。

在上述过程中，会对样本中的文字行分类(包括但不限于进行锚点类和非锚点类的分类)，然后训练检测模型。

实施例2

图3是本发明实施例2提供的基于深度神经网络的文本检测分析方法流程示意图，如图3所示，本发明实施例提供的基于深度神经网络的文本检测分析方法，包括以下步骤：

201、训练获得预设深度神经网络检测模型。

具体的，使用样本生成工具生成样本；

使用样本进行训练；

获得初步深度神经网络检测模型；

在检测应用中形成数据回流，获得更多的新样本；

用新样本在初步深度神经网络检测模型上进行Fine-tuning。

值得注意的是，步骤201的过程，除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的方式不加以限定。

202、标注模板锚点和非锚点文字区域的大小及相对位置，以及实体与锚点、非锚点文字区域的映射关系，生成标注模板信息。

这一过程用于标注所有需要识别字段的位置和类别，类别包括是否为锚点，文字行是否为日期、汉字、英文等等。生成的标注模板信息用于后续的模板匹配。需要注意的是，这里进行标注的模板并不限于一种或两种，根据实际需要，可以预先设置多种模板。

值得注意的是，步骤202的过程，除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的方式不加以限定。

203、对输入的待检测图像进行图像预处理，图像预处理包括图像矫正和/或缩放到统一尺寸。这里图像预处理的内容包括但不限于图像矫正和/或缩放到统一尺寸，可以根据实际情况进行图像预处理操作的相应设置。

值得注意的是，步骤203的过程，除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的方式不加以限定。

204、利用预设深度神经网络检测模型检测待检测图像的文字行，通过输出的类别获取包括的锚点和非锚点文字区域的文字区域信息。

使用检测模型检测文字行，通过输出的类别就可以获取所有锚点，这个过程中也可以筛选置信度最高的锚点，通过锚点就可以确定版面的相对位置。这里的预设深度网络检测模型可以采用faster-rcnn网络模型、mask-rcnn网络模型或者现有技术中其他任何可能的深度神经网络模型，本发明实施例不对其加以特别限制。

值得注意的是，步骤204的过程，除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的方式不加以限定。

205、将标注模板信息与所述带类别的文字区域信息作为输出，匹配定位锚点，并通过锚点将带类别的文字区域映射到对应的实体，去除包括非文本区域和无关文本在内的冗余部分，生成结构化信息。

根据检测出的文字行与锚点的相对位置，就可以确定该文字行的类型(姓名，性别，年龄等等)，识别之后就可以将结果结构化。然后可以将结构化信息输出，以便进行相应应用。这里涉及的识别过程可以采用现有技术中tessract、CRNN之类的识别模型，本发明实施例不对其加以特别限制。

再参照图2，如图2所示，上述205步骤又可进一步包括：

1033:将映射的结果去重，去除重复冗余的文字区域；

值得注意的是，步骤205的过程，除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的方式不加以限定。

需要说明的是，本发明实施例提供的基于深度神经网络的文本检测分析方法中具体步骤的操作顺序，并不限定于上述方法中的步骤顺序，在不脱离本发明发明构思的情况下，可以根据实际情况进行相应变换设计。

实施例3

图4是本发明实施例3提供的基于深度神经网络的文本检测分析装置结构示意图，如图4所示，本发明实施例提供的基于深度神经网络的文本检测分析装置，包括：

标注模块31，用于进行模板标注，生成标注模板信息；具体的，将模板标注锚点和非锚点文字区域的大小及相对位置，以及实体与所述锚点、非锚点文字区域的映射关系，生成标注模板信息；

文字区域检测模块32，用于利用预设深度神经网络检测模型对待检测图像进行文字区域的检测和分类，生成带类别的文字区域信息；具体的，利用预设深度神经网络检测模型检测待检测图像的文字行，通过输出的类别获取包括的锚点和非锚点文字区域的文字区域信息；

匹配模块33，用于根据标注模板信息和带类别的文字区域信息进行模板匹配，生成结构化信息数据；具体的，将标注模板信息与带类别的文字区域信息作为输出，匹配定位锚点，并通过锚点将带类别的文字区域映射到对应的实体，去除包括非文本区域和无关文本在内的冗余部分，生成结构化信息。最终可将结构化信息输出，可提供统一接口方便其他外部模块调用。

优选地，上述装置还包括图像预处理模块34，用于对输入的待检测图像进行图像预处理，图像预处理包括但不限于图像矫正和/或缩放到统一尺寸。

另外，优选地，上述装置还包括模型训练模块35，用于训练获得预设深度神经网络检测模型。具体的，模型训练模块35用于：使用样本生成工具生成样本；使用样本进行训练；获得初步深度神经网络检测模型；在检测应用中形成数据回流，获得更多的新样本；用新样本在初步深度神经网络检测模型上进行Fine-tuning。

实施例4

图5是本发明实施例提供的基于深度神经网络的文本检测分析设备组成示意图，如图5所示，本发明实施例提供的基于深度神经网络的文本检测分析设备包括处理器41和存储器42。

具体的，存储器42用于存储有处理器41的可执行指令，处理器41配置为经由可执行指令来执行实施例1和实施例2所述的基于深度神经网络的文本检测分析方法的步骤，具体实施过程详见实施例1、实施例2相应内容，在此不再赘述。

应用实例

系统构建方面分为硬件需求与软件需求。

硬件方面需要服务器一台、计算设备一台、图像输入设备一台。

软件方面需要在服务器上架设票据识别的web服务、用于终端显示的页面、存储图像及检测结果的数据库。

流程方面分为模型生成流程及文档检测流程。

模型生成方面，首先通过样本生成模块生成训练样本，如果有足够人力，可采用人工标记真实样本。训练样本足够后(通常为10万数量级)，在服务器上通过深度神经网络训练票据识别模型，并存储在服务器上，架设web服务。

检测方面，首先用图像输入设备对文档进行扫描。得到文档图像后，从终端打开识别服务的页面，将图像上传至服务器。服务器接收到图像后，通过图像预处理模块、文本检测模块以及模板匹配模块获得结构化检测结果，之后利用识别模块对相应区域进行识别，再根据具体情况对识别结果进行后处理，最终将识别结果传回终端，展现给用户。

下面具体的选取一种医疗发票识别为例。假设我们需要识别票据上的医院名称、医院类型、医保类型、对应项目以及金额。

第一步，获得如图6所示的原始票据图像；

第二步，如图7所示，对发票进行版面分析；

第三步，如图8所示，找出不同类别的文字区域；

第四步，如图9所示，根据版面分析与文字区域分类，提取出需要识别的区域：

第五步，用相应的识别模型识别文字区域。

识别结果：

“上海第一妇婴保健院”

“三级甲等专科医院”

“医保自费”

“治疗费(自费)”

“门诊诊疗费”

“6.00”

“800”

第六步，对识别结果进行后处理。

后处理结果为：

“上海市第一妇婴保健院”(查询医院名表匹配)

“三级甲等专科医院”

“医保自费”

“治疗费(自费)”

“门诊诊疗费”

“6.00”

“8.00”(根据金额规则匹配)

第七步，格式化识别结果。

需要说明的是：上述实施例提供的在基于深度神经网络的文本检测分析装置、设备在进行文本检测分析时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置、设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于深度神经网络的文本检测分析装置、设备与基于深度神经网络的文本检测分析方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

综上所述，本发明实施例提供的基于深度神经网络的文本检测分析方法、装置及设备，相对于现有技术具有以下有益效果：

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度神经网络的文本检测分析方法，其特征在于，所述方法包括：

进行模板标注，生成标注模板信息，包括：标注模板锚点和非锚点文字区域的大小及相对位置，以及实体与所述锚点、非锚点文字区域的映射关系，生成标注模板信息；

利用预设深度神经网络检测模型检测待检测图像的文字行，通过输出的类别获取包括锚点和非锚点文字区域的文字区域信息；

根据所述标注模板信息和所述带类别的文字区域信息进行模板匹配，生成结构化信息数据，包括：将所述标注模板信息与所述带类别的文字区域信息作为输出，匹配定位锚点，并通过锚点将所述带类别的文字区域映射到对应的实体，去除包括非文本区域和无关文本在内的冗余部分，生成结构化信息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对输入的待检测图像进行图像预处理，所述图像预处理包括图像矫正和/或缩放到统一尺寸。

3.根据权利要求1至2任一项所述的方法，其特征在于，所述方法还包括：

训练获得所述预设深度神经网络检测模型。

4.根据权利要求3所述的方法，其特征在于，训练获得所述预设深度神经网络检测模型，包括：

使用样本生成工具生成样本；

使用样本进行训练；

获得初步深度神经网络检测模型；

在检测应用中形成数据回流，获得更多的新样本；

用新样本在初步深度神经网络检测模型上进行Fine-tuning。

5.一种基于深度神经网络的文本检测分析装置，其特征在于，包括：

标注模块，用于进行模板标注，生成标注模板信息，所述标注模块用于：标注模板锚点和非锚点文字区域的大小及相对位置，以及实体与所述锚点、非锚点文字区域的映射关系，生成标注模板信息；

文字区域检测模块，用于利用预设深度神经网络检测模型检测待检测图像的文字行，通过输出的类别获取包括锚点和非锚点文字区域的文字区域信息；

匹配模块，用于根据所述标注模板信息和所述带类别的文字区域信息进行模板匹配，生成结构化信息数据，所述匹配模块用于：将所述标注模板信息与所述带类别的文字区域信息作为输出，匹配定位锚点，并通过锚点将所述带类别的文字区域映射到对应的实体，去除包括非文本区域和无关文本在内的冗余部分，生成结构化信息。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括图像预处理模块，用于对输入的待检测图像进行图像预处理，所述图像预处理包括图像矫正和/或缩放到统一尺寸。

7.根据权利要求5至6任一项所述的装置，其特征在于，所述装置还包括模型训练模块，用于训练获得所述预设深度神经网络检测模型。

8.根据权利要求7所述的装置，其特征在于，所述模型训练模块用于：

使用样本生成工具生成样本；

使用样本进行训练；

获得初步深度神经网络检测模型；

在检测应用中形成数据回流，获得更多的新样本；

用新样本在初步深度神经网络检测模型上进行Fine-tuning。

9.一种基于深度神经网络的文本检测分析设备，其特征在于，包括：

处理器；

存储器，用于存储有所述处理器的可执行指令；

其中，所述处理器配置为经由所述可执行指令来执行权利要求1至4中任一项所述的基于深度神经网络的文本检测分析方法的步骤。