CN111222572A

CN111222572A - 一种面向办公场景的光学文字识别方法

Info

Publication number: CN111222572A
Application number: CN202010010967.3A
Authority: CN
Inventors: 周智
Original assignee: Unicloud Technology Co Ltd
Current assignee: Unicloud Technology Co Ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2020-06-02

Abstract

本发明提供了一种面向办公场景的光学文字识别方法，包括数据样本采集，包括数据处理以及原始样本分割；文字检测部分训练，包括预训练与再训练；文字识别部分训练，包括标签生成与训练；模型验证，包括检测部分验证和识别部分验证，并最终得到检测和识别的分析报告；改进流程，包括数据质量改进和算法改进。本发明针对于不同尺度文字回归率较低的缺陷和只能对于一类发票奏效、而对于多类发票的识别的使用缺陷，本文提出了一种面向办公场景的光学文字识别工作流，能够在兼顾办公场景下的发票类型、检测速度和识别精确度情况下得到较好的办公场景文字识别结果。

Description

一种面向办公场景的光学文字识别方法

技术领域

本发明属于数据处理技术领域，尤其是涉及一种面向办公场景的光学文字识别方法。

背景技术

随着人工智能技术的迅速发展，文字识别应用领域已经从面向科研的简单场景逐步转向为与社会活动密相关的复杂应用场景。基于此，我们对于光学文字识别的设计和使用逐步从单一的功能性向云端逐渐转移，但是现有的普通OCR技术在相同的发票类型中能够完成检测和识别，发票背景一旦出现高噪音或者较大的类型差异时，现存的OCR技术就不易从背景中分离出各类发票的边界，这对于面向办公场景的光学文字识别技术就不再适用；此外，将简单的文字识别服务打包成为云端服务才可以提供更加广泛的服务以便于更多用户使用，基于上述观点，本次发明要构建一种面向办公场景的光学文字识别云服务、为公司员工的财务报销自动化流程添助一臂之力。

目前使用的OCR技术主要应用在办公场景之下和自然场景之中，对于前者以Yolo系列为代表的一次检测技术占据了现有自然场景检测的主流，但是该类技术存在着对于不同尺度文字回归率较低的缺陷；在普遍的办公场景文字检测中，现有的技术往往只能对于一类发票奏效、而对于多类发票的识别使用基于聚类方法时尚不能高精确的区分不同类型的发票。

发明内容

有鉴于此，本发明旨在提出一种面向办公场景的光学文字识别方法，以解决上述背景技术中提到的问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种面向办公场景的光学文字识别方法，包括如下步骤：

S1：数据样本采集，包括数据处理以及原始样本分割；

S2：文字检测部分训练，包括预训练与再训练；

S3：文字识别部分训练，包括标签生成与训练；

S4：模型验证，包括检测部分验证和识别部分验证，并最终得到检测和识别的分析报告；

S5：改进流程，包括数据质量改进和算法改进。

进一步的，所述步骤S1中，数据处理过程包括数据获取、数据清洗和数据集制作，其中，

数据获取：向相关部门申请发票数据，在得到采样许可后进行实地数据采样，对采集到的数据简单归一化整理、并按照采集样本质量进行打分，完成粗粒度的数据分析；

数据清洗：对粗粒度清洗后的数据进行细粒度的清洗，对于不满足最低尺度、分辨率和所占比例的图片予以滤除；

数据集制作：将数据制作成类VOC数据集格式，这个数据集包含以下四项：Annotation装载着标定的数据、JPEG包含着各个jpg格式的图像、score包含着对于各个评分档的数据样本、layout包含了用于训练、训练-验证和验证的样本编号。

进一步的，所述步骤S1中，原始样本分割过程使用训练得到的模型区分出粗粒度的发票种类。

进一步的，所述步骤S2中，

预训练：在EAST预训练部分要更改数据集路径、在多核V100上根据资源调节训练参数、将前置训练予以清理，并在tmux下启动训练流程、然后训练得到检测模型；

再训练：在EAST再训练部分要保留前置训练的checkpoint，然后输入相关图像和对应的json文件，restore预训练的参数完成再训练。

进一步的，所述步骤S3中，

标签生成：将需要识别的发票放在同一个文件夹地址之下，然后根据检测结果裁剪出基于QUAD的八点坐标，将这幅子图和对应的标签打包形成label和path的文件，然后更改CRNN的训练标签集合，以避免预测字符的自动转义；

训练：在CRNN预训练部分要更改数据集路径、在多核V100上根据资源调节训练参数、将前置训练予以清理，并在tmux下启动训练流程、然后训练得到检测模型。

进一步的，所述步骤S40中，

检测部分验证：分为查看具体的检测结果和查看宏观的检测指标，具体的检测结果包括发票的代码、号码、日期、时间、里程和金额的画框；宏观的检测指标包括对于字段级别的正确率、回归率和F1数值；

识别部分验证：分为查看具体的识别结果和查看宏观的检测指标，具体的识别结果包括发票的代码、号码、日期、时间、里程和金额的具体字段值；宏观的检测指标包括对于字段级别的正确率、回归率和F1数值。

进一步的，所述步骤S5中，

数据质量改进：对于少量样本的采样，主取补充发票重采样策略改进数据质量；对于特定用途的数据样本，采取数据增强等图像处理方式进行数据质量改进；

算法改进：分为API图像处理层级改进和核心算法改进两个层级，在宏观上选择目标检测+聚类+文字检测+文字识别的核心算法，在API层面进行图像的运算操作。

本发明的另一目的在于提出一种面向办公场景的光学文字识别云服务，包括部署基本环境和部署集群环境，

部署基本环境包括部署Docker环境、制作Docker镜像并上传到仓库、以及利用Docker在集群中安装深度学习镜像；

部署集群环境包括深度学习集群框架组件安装、创建K8S部署和服务、调用K8S部署和服务。

相对于现有技术，本发明所述的一种面向办公场景的光学文字识别方法具有以下优势：

(1)本发明针对于不同尺度文字回归率较低的缺陷和只能对于一类发票奏效、而对于多类发票的识别的使用缺陷，本文提出了一种面向办公场景的光学文字识别工作流，能够在兼顾办公场景下的发票类型、检测速度和识别精确度情况下得到较好的办公场景文字识别结果；

(2)本发明将立足于将简单的文字识别服务打包成为云端服务才可以提供更加广泛的服务以便于更多用户使用，构建一种面向办公场景的光学文字识别云服务是文字识别落地的解决方案。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的一种面向办公场景的光学文字识别方法示意图；

图2为本发明实施例所述的光学文字识别云服务设计示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

本发明针对于现有技术中存在的问题提出了使用SSD网络进行分割、使用EAST网络进行检测、使用CRNN网络进行识别的解决方案，同时兼顾了办公场景下的发票类型、检测速度和识别精确度，为办公场景下的智能OCR落地提供了一套完整的技术方案。具体实现过程如下：

1总体流程，如图1所示

1数据样本采样：该流程主要分为两个子流程，子流程1)是数据处理流程，子流程2)是原始样本分割流程。

1)数据处理子流程：主要包含数据获取、数据清洗和数据集制作流程。

a)数据获取流程：主要包括向相关部门申请发票数据，在得到采样许可后进行实地数据采样，对采集到的数据简单归一化整理、并按照采集样本质量进行打分，完成粗粒度的数据分析。

b)数据清洗流程：对粗粒度清洗后的数据进行细粒度的清洗，包括以下几个维度，对于不满足最低尺度、分辨率和所占比例的图片予以滤除；数据的清洗需要达到以下目标：使得发票关键字迹清晰、光照均匀、没有畸变、没有墨迹、没有明显折叠痕迹、票面平整没有褶皱、没有虚图像。

c)数据集制作：本次光学文字识别云服务需要标准数据集格式的支持，所以制作成类VOC数据集格式，这个数据集包含以下四项：Annotation装载着标定的数据、JPEG包含着各个jpg格式的图像、score包含着对于各个评分档的数据样本、layout包含了用于训练、训练-验证和验证的样本编号。

2)原始样本分割子流程：主要包括SSD接口设计和SSD图像分割训练

a)SSD接口设计：本次票据之所以采用SSD分割方法实现，一方面是考虑传统的聚类、随机森林等方法虽然能够处理小批量数据问题、但是对于大量多类的数据归类无能为力，而SSD深度学习发票分割方法能够较好地兼顾性能与效率，从根本上通过数据接口的特有返回将子窗口归结于某一类大窗口。本次SSD接口设计之所以能够分割发票成功是源于OCR和标签都是用同一个SSD框的结果分类，这就保证了大框的相对有序。

b)SSD图像分割训练：在完成了SSD接口设计之后，就要进行SSD图像分割训练，使用训练得到的模型区分出粗粒度的发票种类。

2文字检测部分训练：主要分为预训练与再训练

1)预训练：在EAST预训练部分要更改数据集路径、在多核V100上根据资源调节训练参数、将前置训练予以清理，并在tmux下启动训练流程、然后训练得到检测模型。

2)再训练：在EAST再训练部分要保留前置训练的checkpoint，然后输入相关图像和对应的json文件，restore预训练的参数完成再训练。

3文字识别部分训练：主要分为标签生成与训练

1)标签生成：将需要识别的发票放在同一个文件夹地址之下，然后根据检测结果裁剪出基于QUAD的八点坐标，将这幅子图和对应的标签打包形成label和path的文件，然后更改CRNN的训练标签集合，以避免预测字符的自动转义。

2)训练：在CRNN预训练部分要更改数据集路径、在多核V100上根据资源调节训练参数、将前置训练予以清理，并在tmux下启动训练流程、然后训练得到检测模型。

4模型验证：主要分为检测部分验证和识别部分验证，并最终得到检测和识别的分析报告

1)检测部分验证：主要分为查看具体的检测结果和查看宏观的检测指标，前者包括了发票的代码、号码、日期、时间、里程和金额的画框；后者包括了对于字段级别的正确率、回归率和F1数值。

2)识别部分验证：主要分为查看具体的识别结果和查看宏观的检测指标，前者包括了发票的代码、号码、日期、时间、里程和金额的具体字段值；后者包括了对于字段级别的正确率、回归率和F1数值。

5改进流程：主要分为数据质量改进和算法改进

1)数据质量改进：对于少量样本的采样，主要采取补充发票重采样策略改进数据质量；对于特定用途的数据样本，主要采取数据增强等图像处理方式进行数据质量改进。

2)算法改进：分为API图像处理层级改进和核心算法改进两个层级，在宏观上选择目标检测+聚类+文字检测+文字识别的核心算法，在API层面进行图像的运算操作。

2光学文字识别云服务设计，如图2所示

1部署基本环境：

1)部署Docker环境：安装普通docker并配置权限，然后创建docker组、·让当前用户加入组，并安装nvidia-docker。

2)制作Docker镜像并上传到仓库：首先到Docker Hub注册帐号，注册好了就创建一个仓库，然后在本地构建Docker镜像后上传到仓库。

3)利用Docker在集群中安装深度学习镜像：首先要下载深度学习镜像、然后创建运行深度学习容器、最后开启深度学习容器就可以完成基本容器的部署。

2部署集群环境：

1)深度学习集群框架组件安装：在完成深度学习镜像安装后进而安装深度学习集群框架组件，K8S的客户端和服务器分别部署在相关的服务器上。

2)创建K8S部署和服务：部署由Kubernetes部署inception_inference控制的3个服务器副本组成，查看部署和pod的状态如果处于Running，则创建K8S部署和服务成功。

3)调用K8S部署和服务：将这个面向办公场景的光学文字识别打包成为云服务，发布在公有云上，完成本次面向办公场景的OCR落地。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向办公场景的光学文字识别方法，其特征在于：包括如下步骤：

S1：数据样本采集，包括数据处理以及原始样本分割；

S2：文字检测部分训练，包括预训练与再训练；

S3：文字识别部分训练，包括标签生成与训练；

S5：改进流程，包括数据质量改进和算法改进。

2.根据权利要求1所述的一种面向办公场景的光学文字识别方法，其特征在于：所述步骤S1中，数据处理过程包括数据获取、数据清洗和数据集制作，其中，

3.根据权利要求1所述的一种面向办公场景的光学文字识别方法，其特征在于：所述步骤S1中，原始样本分割过程使用训练得到的模型区分出粗粒度的发票种类。

4.根据权利要求1所述的一种面向办公场景的光学文字识别方法，其特征在于：所述步骤S2中，

5.根据权利要求1所述的一种面向办公场景的光学文字识别方法，其特征在于：所述步骤S3中，

6.根据权利要求1所述的一种面向办公场景的光学文字识别方法，其特征在于：所述步骤S40中，

7.根据权利要求1所述的一种面向办公场景的光学文字识别方法，其特征在于：所述步骤S5中，

8.一种面向办公场景的光学文字识别云服务，其特征在于：包括部署基本环境和部署集群环境，