CN111639566A

CN111639566A - 一种提取表单信息的方法及装置

Info

Publication number: CN111639566A
Application number: CN202010424756.4A
Authority: CN
Inventors: 李晶; 马诗洁; 周璐
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-09-08
Anticipated expiration: 2040-05-19
Also published as: CN111639566B

Abstract

本申请提供一种提取表单信息的方法及装置。该方法包括：获取表单图像，所述表单图像中包含有待处理的表单；确定所述表单图像中的表单的文本区域，以及所述文本区域的倾斜角度；根据所述倾斜角度对所述文本区域内的图像进行角度校正，得到角度校正后的待识别表单文本图像；对所述待识别表单文本图像进行字符栅格识别，将识别得到的字符栅格进行聚类以及曲线拟合，得到所述待识别表单文本图像中的文本行区域；对所述待识别表单文本图像中的文本行区域内的图像进行字符识别，得到所述文本行区域内的文本，提高了表单信息提取的准确性。

Description

一种提取表单信息的方法及装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种提取表单信息的方法及装置。

背景技术

随着深度学习的不断发展，自动识别技术的应用越来越广泛，如身份证、银行卡等刚性物体，由于其字符间距固定、语义关联性强、不存在特殊字符、景深固定等因素，识别准确率以及信息提取的准确性较高。然而，对于复杂多样的表单，如物流的面单、发票、小票、书籍等，信息提取的准确性还有待提高。

目前，快递行业的快递量巨大，在物流分拣中心仍存在人工录入和分拣，人力成本较高，且由于物流面单信息复杂多样，导致信息提取的准确性较低。

因此，需提供一种用以提高表单信息提取准确性的方法。

发明内容

本申请实施例提供一种提取表单信息的方法及装置，用以提高表单信息提取的准确性。

第一方面，本申请提供一种提取表单信息的方法，包括：

获取表单图像，表单图像中包含有待处理的表单；

确定表单图像中的表单的文本区域，以及文本区域的倾斜角度；

根据倾斜角度对文本区域内的图像进行角度校正，得到角度校正后的待识别表单文本图像；

对待识别表单文本图像进行字符栅格识别，将识别得到的字符栅格进行聚类以及曲线拟合，得到待识别表单文本图像中的文本行区域；

对待识别表单文本图像中的文本行区域内的图像进行字符识别，得到文本行区域内的文本。

可选的，对待识别表单文本图像进行字符栅格识别之前，还包括：

识别角度校正后的待识别表单文本图像，得到至少两个文本区域；

调整至少两个文本区域的横间距和/或纵间距，使得调整后的待识别表单文本图像符合布局要求。

可选的，还包括：

得到文本行区域内的文本后，对文本进行分词；

根据分词得到的词汇查询字典，确定词汇与字典中的对应词汇的相似度，并根据字典中的词汇对分词得到的词汇中相似度低于阈值的词汇进行纠错。

可选的，还包括：

得到待识别表单文本图像中的文本行区域后，分别确定每个文本行区域的属性；

对同一属性的文本行区域内的文本进行合并，并输出合并后的文本以及对应的属性。

可选的，还包括：

对文本行区域内的文本进行分词并确定每个分词的属性；

若判断一个文本行区域内的文本包括至少两个属于不同属性的字符串，则按照属性将该文本行区域的文本拆分为至少两个字符串；

输出拆分后的字符串以及对应的属性。

可选的，根据倾斜角度对文本区域内的图像进行角度校正，得到角度校正后的待识别表单文本图像，包括：

确定倾斜角度所在的角度区间，角度区间为将0度至360度按设定步长划分得到的；

根据确定的角度区间对应的旋转角度对文本区域内的图像进行角度校正，得到角度校正后的待识别表单文本图像。

可选的，将识别得到的字符栅格进行聚类以及曲线拟合，包括：

确定同一文本行的两相邻字符栅格之间的间隔；

若间隔大于设定的阈值，则根据两相邻字符栅格对应的曲线的斜率拟合间隔对应的曲线。

可选的，获取表单图像，包括：

获取拍摄到的物流面单的图像。

第二方面，本申请实施例提供一种提取表单信息的装置，包括：

图像获取模块，用于获取表单图像，表单图像中包含有待处理的表单；

文本区域确定模块，用于确定表单图像中的表单的文本区域，以及文本区域的倾斜角度；

图像角度校正模块，用于根据倾斜角度对文本区域内的图像进行角度校正，得到角度校正后的待识别表单文本图像；

文本行区域确定模块，用于对待识别表单文本图像进行字符栅格识别，将识别得到的字符栅格进行聚类以及曲线拟合，得到待识别表单文本图像中的文本行区域；

文本行识别模块，用于对待识别表单文本图像中的文本行区域内的图像进行字符识别，得到文本行区域内的文本。

可选的，还包括间距调整模块，用于：

调整至少两个表单文本区域的横间距和/或纵间距，得到使得调整后的待识别表单文本图像符合布局要求。

可选的，还包括文本纠错模块，用于：

得到文本行区域内的文本后，对文本进行分词；

可选的，还包括结构化文本确定模块，用于：

可选的，还包括结构化文本确定模块，还用于：

对文本行区域内的文本进行分词并确定每个分词的属性；

输出拆分后的字符串以及对应的属性。

可选的，图像角度校正模块，用于：

可选的，文本行区域确定模块，用于：

确定同一文本行的两相邻字符栅格之间的间隔；

可选的，获取表单图像，包括：

获取拍摄到的物流面单的图像。

本申请的上述实施例中，确定获取的表单图像中待处理的表单的文本区域以及文本区域的倾斜角度，并根据倾斜角度校正文本区域内的图像，得到角度校正后的待识别表单文本图像，将识别得到的待识别表单文本图像的字符栅格进行聚类以及曲线拟合，得到待识别表单文本图像中的文本行区域，减小了倾斜弯曲的文本行对提取表单信息的影响，从而提高了根据文本行区域内的文本的提取表单信息的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示例性示出了本申请实施例提供的各名词间的组成关系图；

图2示例性示出了本申请实施例提供的提取表单信息的系统架构图；

图3示例性示出了本申请实施例提供的提取表单信息的方法流程图；

图4示例性示出了本申请实施例提供的识别得到的文本行区域的效果图；

图5a和图5b示例性示出了本申请实施例提供的得到符合布局要求的待识别表单文本图像；

图6a和图6b以物流面单为例示例性示出了本申请实施例提供的得到符合布局要求的待识别表单文本图像；

图7以物流面单为例示出了本申请实施例提供的地址词汇纠错流程图；

图8示例性示出了本申请实施例提供的提取表单信息的装置的结构图；

图9示例性示出了本申请实施例提供的提取表单信息的装置的硬件图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部份实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

本申请实施例提供一种提取表单信息的方法及装置，可以提高表单信息的提取的准确性。

为详细描述本申请的实施例，下面对本申请实施例中的名词术语做出解释。

参见图1，表单图像，含有待处理表单的图像，如含有物流面单的图像、电子发表的图像；文本区域，表单图像中包含文本的区域，其中，一张表单图像可以包含一个或多个文本区域；表单文本图像，文本区域内的文本角度校正后的图像，由于拍摄角度问题，文本区域轮廓线与表单图像的轮廓线可能互不平行，存在一定的倾斜角度，为提高表单信息的准确性，需对文本区域进行角度校正；文本行区域，文本区域中的一行文本组成的区域，一个文本区域中包含至少一个文本行区域。

下面结合附图对本申请实施例进行详细描述。

图2示例性示出了本申请实施例提供的提取表单信息的系统架构图。如图所示，包括：终端201、服务器202、网络203。终端201装有摄像机，用于拍摄表单图像，并发送给服务器202。服务器202可以为常见的web服务器、企业级服务器等，用于实现提取表单信息的方法。网络203可为因特网、局域网或互联网等，用于实现终端201与服务器202间的数据通信。

图3示例性示出了本申请实施例提供的提取表单信息的方法流程图，该流程可由服务器执行，或者由终端和服务器集成在一起用于提取表单信息的装置执行。

如图所示，该流程包括以下几步：

S301：获取表单图像，表单图像中包含有待处理的表单。

其中，表单图像可由安装有摄像机的终端拍摄得到。

S302：确定表单图像中的表单的文本区域，以及文本区域的倾斜角度。

该过程中，表单拍摄环境下，相机景深大，获取的表单图像的有效表单区域尺度范围较大，且方向任意，为了快速获取表单的文本区域，可采用单阶段检测网络，通过拍摄距离确定表单的文本区域的宽高、中心点、以及表单的文本区域的倾斜角度，从而实现表单的文本区域的粗定位。

具体的，将原本的YOLO算法修改为支持旋转定位的R-YOLO算法，R-YOLO算法的优化包括：第一阶段-快速回归文本区域，训练过程中计算文本区域宽高及中心点的预测值与文本区域宽高及中心点的目标值的交并比(Intersection over Union，IOU)时，不考虑倾斜角度，将文本区域宽高及中心点的预测值得到旋转框rbox1以及文本区域宽高及中心点的目标值得到旋转框rbox2同时转正后，计算转正后的rbox1和rbox2的IOU，损失函数中的角度使用倾斜角度的预测值与真实值的差值得到，比如，可以为真实值减预测值的差值的余弦值，从而快速收敛文本区域的宽高、中心点以及倾斜角度的粗略值；第二阶段-精确回归角度，将文本区域的宽高、中心点四个维度的权值固定，更新倾斜角度的梯度，R-YOLO的损失函数计算如下：

Loss＝loss_box+loss_cls+loss_angle…………(1)

其中，loss_box为由文本区域的宽高、中心点的误差引起的边界框的损失值，包括位置误差和置信度误差，loss_cls为判断是否有文本区域的中心落在网格中的类别预测损失值，loss_angle为倾斜角度的损失值。

在一些实施例中，可预先设定倾斜角度的参考标准，比如，设定表单的文本区域的四边与表单图像的四边平行且文本区域中的文字为正向时，倾斜角度为0°，表单的文本区域的四边与表单图像的四边平行且文本区域中的文字为倒向时，倾斜角度为180°，倾斜角度的取值范围为[0°,360°]。

S303：根据倾斜角度对文本区域内的图像进行角度校正，得到角度校正后的待识别表单文本图像。

该步骤中，可将根据倾斜角度对文本区域内的图像进行的角度校正转化为分类问题，通过预先训练好的深度学习网络模型实现文本方向的分类，根据文本方向的分类结果进行角度校正，得到角度校正后的待识别表单文本图像。其中，深度学习网络模型可采用视觉几何群网络(Visual Geometry Group Network，VGG16)模型。

举例来说，VGG网络将表单的文本区域的倾斜角度分为四类：0°(360°)、90°、180°、270°，若S302中确定的表单的文本区域倾斜角度为[0°,45°)，将文本区域逆向旋转0°，若S302中确定的表单的文本区域倾斜角度为[45°,135°)，将文本区域逆向旋转90°，若S302中确定的表单的文本区域倾斜角度为[135°,225°)，将文本区域逆向旋转180°，若S302中确定的表单的文本区域倾斜角度为[225°,315°)，将文本区域逆向旋转270°，若S302确定的表单的文本区域倾斜角度为[315°,360°)，将文本区域逆向旋转360°。

S304：对待识别表单文本图像进行字符栅格识别，将识别得到的字符栅格进行聚类以及曲线拟合，得到待识别表单文本图像中的文本行区域。

在一些实施例中，考虑到表单上的文本行尺度多样性，固定几个中心点无法稳定的定位到表单的文本区域的所有文本行，可采用连接文本提议网络(Connectionist TextProposal Network，CTPN)检测自然图像中的文本，CTPN网络水平固定16个像素，垂直方向采用10个中心点。由于CTPN对水平文本的校测效果较好，而实际表单的文本区域中会存在一定的扭曲变形的字符，矩形框提取文本行会带有其他文本行的部分信息。

该步骤中，可采用CTPN网络识别待识别表单文本图像中的字符，将识别得到的字符栅格自动聚类成文本行，通过曲线拟合将获取的单行文本多边形轮廓内的像素作为待识别表单文本图像中的文本行区域，有效解决了其他文本行字符的干扰，提高了扭曲变形的文本行的定位效果。

图4示例性示出了本申请实施例提供的识别得到的文本行区域的效果图。如图所示，各个实线方格代表识别待识别表单文本图像中第一文本行区域得到的字符栅格，各个虚线方格代表识别待识别表单文本图像中第二文本行区域得到的字符栅格，不同方格大小代表表单中不同大小的字符，对得到的字符栅格自动聚类成文本行进行曲线拟合，得到单行文本区域的轮廓线，其中，第一文本行区域的轮廓线为对各个实线方格表示的字符栅格进行曲线拟合得到的，用实线表示，第二文本行区域的轮廓线为对各个虚线方格表示的字符栅格进行曲线拟合得到的，用虚线表示。

在一些实施例中，若同一文本行中识别得到的两相邻字符栅格之间的间隔大于设定的阈值，进行曲线拟合时，可根据两相邻字符栅格拟合得到曲线的斜率补全两相邻字符栅格之间的间隔对应的曲线，从而提高曲线拟合的准确性。

举例来说，第一字符栅格和第二字符栅格位于同一文本行，第一字符栅格和第二字符栅格之间的间隔大于设定的阈值，第一字符栅格对应的拟合曲线的斜率为-0.5，第二字符栅格对应的拟合曲线的斜率为1，按设定的步长间隔，在第一字符栅格和第二字符栅格之间插入至少一个曲线拟合点(比如步长为0.5，可插入3个曲线拟合点，为区别描述，分别称为第一曲线拟合点、第二曲线拟合点、第三曲线拟合点)，第一曲线拟合点对应的曲线斜率为0，第二曲线拟合点对应的曲线斜率为0.5，第三曲线拟合点对应的曲线斜率为1，根据曲线拟合点对应的曲线斜率进行拟合得到第一字符栅格和第二字符栅格之间的间隔对应的曲线。

S305：对待识别表单文本图像中的文本行区域内的图像进行字符识别，得到文本行区域内的文本。

该步骤中，可采用端到端的不定长识别网络对待识别表单文本图像中的文本行区域内的图像进行字符识别，根据识别得到的字符生成文本区域内的文本，其中，端到端的不定长识别网络由卷积神经网络(Convolutional Neural Networks,CNN)、双向长短时记忆网络(Bi-directional Long Short Term Memory Network,Bi-LSTM)、联结主义时间分类(Connectionist temporal classification，CTC)网络和带有注意力机制的(Attention)序列到序列模(Sequence to Sequence，Seq2Seq)型组成。

其中，不定长识别网络支持常见的字母、数字、中文特殊符号(常见繁简体)和空格，共8333个字符，支持的字体包括宋体、仿宋、微软雅黑、黑体、楷体、The Times NewRoman、Courier New等常见字体，不定长识别网络的优化包括以下几个方面：

(1)样本制作

采集字体文件存在对比度、扭曲非线性、运动模糊、破损等情况下的文本行区域内的图像样本，采用生成式对抗网络(Generative Adversarial Networks，GAN)生成采集到的样本的对抗样本，样本长度覆盖1-128个字符。

(2)网络结构

考虑字符存在扭曲、褶皱等情况，CNN采用残差网络(Residual Network，resnet101)及可变卷积核，卷积窗口在偏移字段上滑动呈现卷积像素偏移的效果，平移、旋转、拉伸、扭曲形成特征图，该CNN网络能够学习实际场景中扭曲、非线性形变等特征，从而提高文本行区域内的图像的字符识别的准确性。

(3)网络输出

支持空格识别，通过设定空格标签，实现空格字符识别，基于端到端的不定长识别网络输出识别得到的整行文本，没有每个字符的位置信息，为了解决上述问题，在基于端到端的不定长识别网络中加入掩码(mask)分支，从而输出每个字符的位置信息。

(4)语料生成

获取特定场景的语料，以物流分拣场景为例，获取物流面单上的语料包括：常用的地址信息、姓名、机构名称、古文、诗歌、网络流行语、淘宝ID等。将常见的8233个字符分为常见字、一般常见字、非常常见字三个等级，每个等级的样本数量相同，保证标签样本均衡。其中，中文姓名存在大量的生僻字、繁体字等情况，为了补充中文姓名，将百家姓分别于8233个字符组合，以及生成8233个字符的叠字样本、单个字符样本、带空格的字符样本，并采用seq2seq模型与语料自动生成部分补充语料。

(5)训练技巧

输入样本图像高度归一化为32个像素，宽度比例自适应，姓名、电话、地址等信息长度在1个字符到几百个字符之间变化，将图像宽高固定大小，长短不一的，使用0填充，对于单个字符来说，并不存在语义前后文，暴力归一化到固定宽度会导致字符严重变形。

本申请的实施例采用自适应分组策略解决上述问题，以物流面单为例，自适应分组策略主要包括姓名、电话、地址、三段码四组信息的训练样本，字符高度归一化到32个像素，宽度范围为：[1,64]、(64,128]、(128,256]、(256,320]、(320,512]、(512,640)6组长度的样本，每组样本中包含三段码、姓名、电话、地址、姓名和电话等，训练过程中对样本数量分批次进行训练，每个批次随机选取6组样本，根据实际硬件显存灵活设置样本数量，固定到该组样本的最大长度，保证了输入的多尺度性与样本类型随机迭代的均匀性。

在本申请的实施例中，一方面，根据确定的表单的文本区域的倾斜角度进行文本区域角度校正，对得到的校正后的待识别表单文本图像进行字符栅格识别以及曲线拟合，减少了文本区域中其他文本行信息的干扰，另一方面，采用的端到端的不定长识别网络训练时，考虑样本均衡性，利用单个字符、生僻字、叠字等生成了多种扭曲、对比度低、模糊的样本，使用适应扭曲场景的可变形卷积核，加入了掩码分支预测输出的单个字符的掩码图，通过连通域算法能够输出每个字符的真实位置信息，以及采用自适应分组训练，保证了与前向推理的过程的一致性，增强对于单个字符的训练以及生僻字样本的生成，提高了字符识别的准确性，进而提高了表单信息提取的准确性。

上述本申请实施例中方法，不仅适用于表单信息的提取，同样适用于身份证、银行卡等刚性物体信息的提取，将上述方法应用于物流分拣的复杂场景中的面单信息提取，无需人工手动录入，节约了人力成本。

在一些实施例中，由于拍摄的表单图像大小不一，可通过调整至少两个文本区域的横间距和/或纵间距对表单的文本区域进行重组，所做的调整包括扩大横、纵间距和/或缩小横、纵间距，使得调整后的待识别表单文本图像符合布局要求，以保证输入到文本定位网络图像尺寸的一致性。对于不同景深下图像大小差别大于设定阈值的表单图像，采用该方法可在一定程度上避免直接归一化到固定尺寸大小的图像所导致的文本区域变形严重，文本区域内的字符像素变小的问题。

图5a和图5b示例性示出了本申请实施例提供的调整至少两个文本区域的纵间距得到符合布局要求的识别表单文本图像。如图5a所示，识别角度校正后的待识别表单文本图像，得到表单的文本区域，将得到的文本区域作为表单的有效区域(黑色部分)，通过减小文本区域的纵间距对文本区域进行重组，空白区域用表单背景均值填充，使得调整后的待识别表单文本图像符合布局要求，如图5b所示，对符合要求的待识别表单文本图像进行字符栅格识别以及曲线拟合，解决了图像归一化导致的表单文本区域变形问题，有效减少了表单文本区域的信息的丢失，提高了表单信息提取的准确性。

在一些实施例中，针对识别角度校正后的待识别表单文本图像得到至少一个文本区域的情况，同样可以进行文本区域重组。比如，姓名和电话信息位于一个文本区域中的同一文本行中，且姓名和电话信息间的无效空白区域字符间距较大，导致该文本区域较宽，可通过减小姓名和电话信息间的无效空白区域的横间距进行文本区域重组。

下面以物流面单为例详细说明至少两个文本区域纵间距的调整。物流面单选择快递公司的电子面单，通过选择的面单的板式特征，对三段码、收件人区域、寄件人区域、收/寄关键字5个文本区域进行重组。参见图6a，使用YOLOv3深度学习网络识别待识别表单文本图像，得到两个收件文本区域(为区别描述，称为第一收件文本区域和第二收件文本区域)、两个寄件文本区域(为区别描述，称为第一寄件文本区域和第二寄件文本区域)、三段码、收/寄关键字文本区域，识别准确率在99.9％以上，通过减小第二收件文本区域和第一寄件文本区域的纵间距，使得调整后的待识别表单文本图像符合布局要求，参见图6b。

在一些实施例中，对待识别表单文本图像中的文本行区域内的图像进行字符识别后，得到的文本行区域内的文本中可能含有错误字符，需根据字典对错误字符进行语义纠错。

可将字符纠错问题转化为文本相似度问题。具体的，对得到的文本行区域内的文本进行分词，根据分词得到的词汇查询字典，确定每一个词汇与字典中的对应词汇的相似度，相似度越高，两个词汇的语义越相似，选择字典中与分词后的词汇相似度最高的词汇对分词得到的词汇进行纠错，其中，字典可以是根据获取的特定领域的语料预先训练的，也可以采用现有的中英文词典。

下面以物流面单为具体的实施例详细描述地址词汇纠错流程。

采用浅语义分析(Latent Semantic Analysis，LSA)/浅语义索引(LatentSemantic Indexing，LSI)算法实现地址词汇纠错，将所有省市、自治区、直辖市、区、城乡、街道五级地址，根据预先生成的地址字典，对物流面单文本中的地址词汇进行纠错。参见图7，纠错流程包括以下几步：

S701：获取物流面单文本区域中的文本。

S702～S703：对获取的文本进行语义分析以及分词，得到地址词汇。

S704：获取根据各城市的地址数据生成的地址字典。

该步骤中，可对事先获取的各城市的地址数据进行分词，并对分词后的每个词汇进行编号，根据预先设定顺序生成地址字典，其中，该顺序可为地址词汇的编号顺序，也可为地址词汇的级别顺序。

S705～S706：将文本分词后得到的地址词汇与地址字典中的词汇相匹配，采用地址词汇匹配公式和插值算法计算两个词汇的相似度，选择相似度最高的字典中的地址词汇分别对文本中的地址词汇进行纠错。

上述实施例中，通过分词、词汇纠错等过程，保证了表单的文本区域内的文本的准确性，进而提高表单信息的提取的准确性。

值得说明的是，上述S701～S706并非严格的执行顺序，可根据实际情况进行调整，比如，S704可先于S701执行。

在一些实施例中，不同文本区行域中的文本存在关联关系，具有相同的属性，且同一文本行区域内可能包含至少两个不同属性的词汇，文本内容较为杂乱。

本申请的实施例中，得到待识别表单文本图像中的文本行区域后，分别确定每个文本行区域的属性，将属性相同的文本行区域内的文本进行合并，并输出合并后的文本以及对应的属性，根据合并后的文本提取表单中对应的属性信息。

本申请的实施例中，识别得到文本行区域后，采用Bi-LSTM和条件随机场(Conditional Random Field，CRF)，根据单个字符的掩码以及空格信息确定分词的位置信息，对文本行区域内的文本进行分词，确定每个分词的属性，判断该文本行区域内的文本包含的至少两个字符串的属性是否相同，若不同，则按照属性将该文本行区域的文本拆分为至少两个字符串，采用最优搜索匹配的方法得到该文本行区域的结构化文本。其中，可通过将不同属性的至少两个字符用换行符进行拆分，也可采用空格、分号等进行拆分，本申请实施例对字符串拆分的格式不做限制性要求。

以物流面单为例，物流面单中第一文本行区域和第二文本行区域的属性相同，将第一文本行区域和第二文本行区域内的文本合并，对合并后的文本进字符识别以及曲线拟合，得到新的文本行区域。比如，第一文本行区域内的文本为“某某市”，第二文本行区域内的文本为“某某区某某街道”，确定第一文本行区域和第二文本行区域的属性均为地址，将第一文本行区域和第二文本行区域内的文本进行合并，合并后的文本为“某某市某某区某某街道”，属性为地址。

再比如，第一文本行区域内的文本为“姓名张三电话12345”，第一文本行区域内的文本包含字符串“姓名张三”和字符串“电话12345”，分别确定字符串“姓名张三”的属性为姓名，字符串“电话12345”的属性为电话，按照属性将第一文本行区域的文本用空格符或者换行符拆分为字符串“姓名张三”和字符串“电话12345”，得到结构化文本，根据得到的结构化文本提取物流面单的收件人姓名和电话信息。

上述实施例中，通过确定文本区域的属性，对文本行区域内的文本进行合并，得到该属性对应的合并后的文本，或者，通过确定的文本行区域内的文本包含的字符串的属性，将同一文本行区域内的不同属性的字符串进行拆分，得到结构化的文本，合并后的文本以及结构化的文本内容清晰，进而提高了表单信息提取的准确性。

基于相同的技术构思，本申请实施例提供了提取表单信息的装置，该装置可实现上述实施例中的功能。

参见图8，该装置包括：图像获取模块801、文本区域确定模块802、图像角度校正模块803、文本行区域确定模块804、文本行识别模块805。

图像获取模块801，用于获取表单图像，表单图像中包含有待处理的表单；

文本区域确定模块802，用于确定表单图像中的表单的文本区域，以及文本区域的倾斜角度；

图像角度校正模块803，用于根据倾斜角度对文本区域内的图像进行角度校正，得到角度校正后的待识别表单文本图像；

文本行区域确定模块804，用于对待识别表单文本图像进行字符栅格识别，将识别得到的字符栅格进行聚类以及曲线拟合，得到待识别表单文本图像中的文本行区域；

文本行识别模块805，用于对待识别表单文本图像中的文本行区域内的图像进行字符识别，得到文本行区域内的文本。

可选的，该装置还间距调整模块，用于：

可选的，该装置还包括文本纠错模块，用于：

得到所述文本行区域内的文本后，对所述文本进行分词；

根据分词得到的词汇查询字典，确定所述词汇与所述字典中的对应词汇的相似度，并根据所述字典中的词汇对分词得到的词汇中相似度低于阈值的词汇进行纠错。

可选的，该装置还包括结构化文本确定模块，用于：

可选的，该装置还包括结构化文本确定模块，还用于：

对文本行区域内的文本进行分词并确定每个分词的属性；

输出拆分后的字符串以及对应的属性。

可选的，图像角度校正模块，用于：

可选的，文本行区域确定模块，用于：

确定同一文本行的两相邻字符栅格之间的间隔；

可选的，获取表单图像，包括：获取拍摄到的物流面单的图像。

在此需要说明的是，本发明实施例提供的上述装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

基于相同的技术构思，本申请实施例还提供了一种提取表单信息的装置，该装置可实现上述实施例中的方法。

参见图9，该装置包括处理器901、网络接口902。其中，处理器901也可以为控制器。处理器901被配置为执行图3中涉及的功能。网络接口902被配置为支持收发消息的功能。该装置还可以包括存储器903，存储器903用于与处理器901耦合，其保存该设备必要的程序指令和数据。其中，处理器901、网络接口902和存储器903相连，该存储器903用于存储指令，该处理器901用于执行该存储器903存储的指令，以控制网络接口902收发消息，完成上述方法执行相应功能的步骤。

本申请实施例中，该装置所涉及的与本申请实施例提供的技术方案相关的概念，解释和详细说明及其他步骤请参见前述方法或其他实施例中关于这些内容的描述，此处不做赘述。

需要说明的是，本申请实施例上述涉及的处理器可以是中央处理器(centralprocessing unit，CPU)，通用处理器，数字信号处理器(digital signal processor，DSP)，专用集成电路(application-specific integrated circuit，ASIC)，现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。其中，所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

本申请实施例还提供一种计算机存储介质，用于存储一些指令，这些指令被执行时，可以完成前述实施例的方法。

本申请实施例还提供一种计算机程序产品，用于存储计算机程序，该计算机程序用于执行前述实施例的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种提取表单信息的方法，其特征在于，包括：

获取表单图像，所述表单图像中包含有待处理的表单；

确定所述表单图像中的表单的文本区域，以及所述文本区域的倾斜角度；

根据所述倾斜角度对所述文本区域内的图像进行角度校正，得到角度校正后的待识别表单文本图像；

对所述待识别表单文本图像进行字符栅格识别，将识别得到的字符栅格进行聚类以及曲线拟合，得到所述待识别表单文本图像中的文本行区域；

对所述待识别表单文本图像中的文本行区域内的图像进行字符识别，得到所述文本行区域内的文本。

2.如权利要求1所述的方法，其特征在于，对所述待识别表单文本图像进行字符栅格识别之前，还包括：

识别角度校正后的所述待识别表单文本图像，得到至少两个文本区域；

调整所述至少两个文本区域的横间距和/或纵间距，使得调整后的待识别表单文本图像符合布局要求。

3.如权利要求1所述的方法，其特征在于，还包括：

得到所述文本行区域内的文本后，对所述文本进行分词；

4.如权利要求1所述的方法，其特征在于，还包括：

得到所述待识别表单文本图像中的文本行区域后，分别确定每个文本行区域的属性；

5.如权利要求1所述的方法，其特征在于，还包括：

对文本行区域内的文本进行分词并确定每个分词的属性；

输出拆分后的字符串以及对应的属性。

6.如权利要求1所述的方法，其特征在于，根据所述倾斜角度对所述文本区域内的图像进行角度校正，得到角度校正后的待识别表单文本图像，包括：

确定所述倾斜角度所在的角度区间，所述角度区间为将0度至360度按设定步长划分得到的；

根据确定的角度区间对应的旋转角度对所述文本区域内的图像进行角度校正，得到角度校正后的待识别表单文本图像。

7.如权利要求1所述的方法，其特征在于，还包括：

确定同一文本行的两相邻字符栅格之间的间隔；

若所述间隔大于设定的阈值，则根据两相邻字符栅格对应的曲线的斜率拟合所述间隔对应的曲线。

8.如权利要求1-7中任一项所述的方法，其特征在于，所述获取表单图像，包括：

获取拍摄到的物流面单的图像。

9.一种提取表单信息的装置，其特征在于，包括：

图像获取模块，用于获取表单图像，所述表单图像中包含有待处理的表单；

文本区域确定模块，用于确定所述表单图像中的表单的文本区域，以及所述文本区域的倾斜角度；

图像角度校正模块，用于根据所述倾斜角度对所述文本区域内的图像进行角度校正，得到角度校正后的待识别表单文本图像；

文本行区域确定模块，用于对所述待识别表单文本图像进行字符栅格识别，将识别得到的字符栅格进行聚类以及曲线拟合，得到所述待识别表单文本图像中的文本行区域；

文本行识别模块，用于对所述待识别表单文本图像中的文本行区域内的图像进行字符识别，得到所述文本行区域内的文本。

10.如权利要求9所述的装置，其特征在于，所述获取表单图像，包括：

获取拍摄到的物流面单的图像。