CN110516554A

CN110516554A - 一种多场景多字体中文文字检测识别方法

Info

Publication number: CN110516554A
Application number: CN201910700482.4A
Authority: CN
Inventors: 吕岱霖; 李智星; 孙玲玲
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-29

Abstract

本发明公开了一种多场景多字体中文文字检测识别方法，本发明采用EAST和CRNN深度学习网络，根据图像数据的尺度，方向进行分类训练EAST文字定位网络模型和CRNN文字识别网络模型，通过两种网络结合，对多场景下多种中文文字检测识别，取得了理想的效果。一方面该检测方法能提高多场景下文字识别及录入的工作效率，大大降低人力成本；另一方面，在全球化、电子化的今天，利用多场景下多种中文文字的检测识别方法及系统，能实时、准确、自动地识别出非楷书书法文字，对于记录整理书法艺术和传播书法背后的中国文化有着重要的社会价值。

Description

一种多场景多字体中文文字检测识别方法

技术领域

本发明涉及深度学习领域，涉及一种多场景多字体中文文字检测识别方法。

背景技术

数字图像的使用和获取在当今时代随着手持照相机和智能手机的普及变得更加的轻松容易，图像中往往包含着大量的文字信息，例如出现在建筑物的标识、路标.车牌以及路边的公告、广告牌中。拍摄这些图像的手持设备本身或者拍摄场景的限制,包含这些文字的图像分辨率可能很低，或者可能因拍摄时的强光照射,图像会有一定的模糊。这些因素会使目前的文字识别技术的准确度大大下降。

书法文字是中华文明历经漫长岁月留下的艺术精华，在博物馆里的字画作品、旅游景点里的碑刻、建筑上的题词、对联、牌匾、甚至寻常家居里也会悬挂带有书法艺术的字画，但是由于古代书法字体越来越难以识别，一些由这些书法文字承载的传统文化无法顺利传承。在全球化、电子化的今天，利用先进的技术，实时、准确、自动地识别出这些书法文字，对于记录整理书法艺术和传播书法背后的中国文化有着重要的社会价值。利用人工智能技术，现在的中文识别已经有了很大的突破和极高的准确率。但是对于各种真实场景下(比如国画背景、建筑背景)的非楷书书法识别效果还不是很好。

自然场景文字是图像高层语义的一种重要载体，近些年自然场景图像中的文本检测与识别技术越来越引起人们的重视。文本检测作为文本识别、机器翻译等后续过程的前提条件，其核心是区分文本和背景。传统方法使用手动设计特征以获得文本属性，而现在基于深度学习直接从训练数据中学习有效特征，可获得更加鲁棒的高级特征。

发明内容

本发明所要解决的技术问题是克服现有文字识别的技术不足，提供了一种多场景多字体中文文字检测识别方法。

为解决以上技术问题，本发明应用系统开发方法包括如下步骤：

步骤一：准备数据集，标签包括文字图片的区域位置、区域文字信息，数据集采用ICDAR2015比赛公共数据集和DCIC2019汉字书法多场景识别大赛的比赛公共数据集。

步骤二：为解决多场景下色彩不均衡导致定位精度偏差较大的问题，我们使用色彩恒常化预处理算法，随机对训练集图像的50％进行处理。

步骤三：由于在统一网络训练中数据的规格时，不同尺度和不同方向的图片里的待检测内容会有较大差异，所以在训练时我们对不同尺度和不同方向的数据做了分类，以便之后分类训练使用。

步骤四：根据步骤三中的分类数据集，使用深度神经网络RSTD训练出三个不同的模型，并对模型进行评估。每个模型的输入是一张图片，输出是检测出的文字四边形区域坐标：以原图左上角为零点，X1、Y1为文本框左上角坐标，X2、Y2为文本框右上角坐标，X3、Y3为文本框右下角坐标，X4、Y4为文本框左下角坐标。

步骤五：根据训练时文字定位label(文字四边形区域坐标)对图片进行裁剪，同时使用图像锐化算法以30％概率随机处理数据图像。若裁剪图像中文字为纵向排列，则对图像行逆时针90°旋转操作。

步骤六：根据步骤五的分类数据集，使用深度神经网络CRNN训练出两个不同的横纵文字识别模型，并对模型进行评估。输入内容为文字定位区域，输出内容为对应文字信息。

步骤七：对于待识别图片，首先按照不同方向和尺度对图像进行分类，然后根据分类情况调用步骤四中对应的定位模型进行预测，得到待识别图片的文字定位区域坐标，并对坐标区域进行裁剪，将裁剪图像进行横纵向分类和旋转校正。

步骤八：对于校正后图像，根据类别调用文字识别模型，识别出对应的文字信息，并返回识别信息。同时，为了解决复杂环境下大量文字密集排布导致框选信息重叠的问题，在识别前，我们对图像进行了稀疏处理，待检测完成后进行等比例还原，保证了密集文字框选的准确性。

作为优选，所述步骤三中，先根据图像长宽比，将图像以1.2，0.8为阈值，分为三类X(x1,x2,x3)。再根据图像size，以448作为最长边长max(h,w)的阈值，再次将数据集划分为384，512两个尺度Y(y1,y2)，最终我们根据两次分类情况训练出六种不同类别的模型M(m1，m2,…,m6),m1(x1,y1)、m2(x1,y2)、m3(x2,y1)、…、m6(x3,y2)。

作为优选，所述步骤四中，深度神经网络RSTD的构建：基于深度学习网络EAST，将原网络结构中的VGG16卷积网络用ResNet50卷积网络代替，利用残差网络解决原EAST网络中VGG因网络深度导致的梯度消失的问题，使模型的尺寸更小，计算复杂度更低，能更有效的提取复杂环境中的文字定位信息，同时更加满足分类多模型训练和使用的需求。

作为优选，所述步骤五中，对横竖排文字进行分类的标准：以1为阈值，分为横纵向两类F(f1，f2)，对纵向图片f2进行逆时针90°翻转。

作为优选，所述步骤七中，对裁剪后图像旋转矫正的具体方法是：首先获取左上角坐标X1、Y1，右上角坐标X2、Y2，根据公式:

得出文字偏转的角度θ，然后以(X1,Y1)为中心点顺时针旋转裁剪后图像，角度为θ。

作为优选，所述步骤八中，对图像稀疏处理的具体方法是：对垂直于文字阅读方向的像素采用线性插值算法进行扩增，以达到减小框选信息重叠的效果。

本发明的有益效果是：

1、本发明提出的多场景多字体中文文字检测识别方法，针对DCIC2019汉字书法多场景识别大赛数据集能有效提高各种真实场景下(比如国画背景、建筑背景)的非楷书书法识别效果，利用先进的技术，实时、准确、自动地识别出这些书法文字，对于记录整理书法艺术和传播书法背后的中国文化有着重要的社会价值。

2、本发明提出的多场景多字体中文文字检测识别方法，通过RSTD文字定位模型,可以定位图片中的文字区域,通过CRNN识别模型,可以识别定位区域图片的文字信息,RSTD+CRNN双模型可以实现图片中的文字信息识别，能广泛运用在文字录入和文字翻译工作中。

3、本发明提出的多场景多字体中文文字检测识别方法，可以减少人工识别文字并录入的成本，减小人工误差，充分发挥了深度学习的自我学习的优势，利用深层网络提取到增强型的高级特征。

附图说明

图1为本发明中多种中文文字的检测识别方法及系统基本流程图；

图2为本发明中RSTD网络框架图，虚线框中是对原网络做出的改动；

图3为本发明中使用图像增强色彩恒常化算法预处理前后效果对比图；

图4为本发明中数据集图像的训练标签生成效果图；

图5为本发明中RSTD网络模型纵向文字定位结果示意图；

图6为本发明中CRNN网络模型预测结果示意图；

图7为本发明中系统实现流程示意图。

具体实施方式

如图1、7所示，利用ICDAR2015比赛公共数据集和DCIC2019汉字书法多场景识别大赛的比赛公共数据集作为训练集，这些数据集包含了文字图片与文字图片中的文字区域坐标、文字区域信息。数据通过人工标注和多字体自动生成获得，都进行了严格的对照审核，保证了模型训练的稳定性。

我们使用色彩恒常化预处理算法，随机对训练集图像的50％进行处理，使图像拥有统一的光线，背景颜色，让模型关注于更深层次的特征，排除了图像处理方面对网络的干扰，解决多场景下色彩不均衡导致定位精度偏差较大的问题。

对于训练数据标注，我们根据文字区域坐标，进行数据集图像的训练标签生成。

根据文字图像的尺度和方向，设计了一套分类训练方案，以1.2，0.8为阈值，分为三类X(x1,x2,x3)。再根据图像size，以448作为最长边长max(h,w)的阈值，再次将数据集划分为384，512两个尺度Y(y1,y2)，最终我们根据两次分类情况训练出六种不同类别的模型M(m1，m2,…,m6),m1(x1,y1)、m2(x1,y2)、m3(x2,y1)、…、m6(x3,y2)。

基于深度学习网络EAST，将原网络结构中的VGG16卷积网络用ResNet50卷积网络代替，相较于原EAST神经网络所用的VGG网络，因为多场景文字识别图像的干扰问题，保证在各种情况下文字框选特征的提取，我们采用了网络深度更深的Resnet50网络的模型设计思路，利用残差网络解决原EAST网络中VGG因网络深度导致的梯度消失的问题，使模型的尺寸更小，计算复杂度更低，能更有效的提取复杂环境中的文字定位信息，同时更加满足分类多模型训练和使用的需求。

如图5所示，为了保证训练出可用的RSTD模型，针对初期训练出的模型，我们需要进行进一步的评估优化，对预测不理想的分布情况，进行数据扩增和模型再训练，直到训练出可用的RSTD模型。

如图6所示，基于深度学习网络CRNN文字识别模型，训练出两个不同的横纵文字识别模型，并对模型进行评估。

对于待识别图片，首先按照不同方向和尺度对图像进行分类，然后根据分类情况调用步骤四中对应的定位模型进行预测，得到待识别图片的文字定位区域坐标，并对坐标区域进行裁剪，将裁剪图像进行横纵向分类和旋转校正。同时，为了解决大量文字密集排布导致框选信息重叠的问题，在识别前，我们对图像进行了稀疏处理，待检测完成后进行还原，保证了密集文字框选的准确性，对于校正后图像，根据类别调用CRNN文字识别模型，识别出对应的文字信息，并返回识别信息。

如图3所示，所述步骤2使用色彩恒常化预处理算法，使图像拥有统一的光线，背景颜色，解决多场景下色彩不均衡导致定位精度偏差较大的问题。

如图4所示，所述步骤3中对训练数据进行数据集图像的训练标签生成，先对标注信息进行头尾区域识别，在对识别区域像素进行分类标注。

如图2所示，所述步骤5中，RSTD模型中网络用ResNet50卷积网络，在网络尽可能的加深的情况下仍然保证准确率不下降甚至提升，使模型能够提取到更深层次的特征。

Claims

1.一种多场景多字体中文文字检测识别方法，其特征在于，包括如下步骤：

步骤一：准备数据集，标签包括文字图片的区域位置、区域文字信息；

步骤二：使用色彩恒常化预处理算法，随机对训练集图像的50％进行处理；

步骤三：在训练时对不同尺度和不同方向的数据做了分类，根据不同方向将数据集分为三类，根据不同尺寸将数据集分为两类，以便之后分类训练使用；

步骤四：根据步骤三中的分类数据集，使用深度神经网络RSTD训练出六个不同的模型，并对模型进行评估；每个模型的输入是一张图片，输出是检测出的文字四边形区域坐标：以原图左上角为零点，X1、Y1为文本框左上角坐标，X2、Y2为文本框右上角坐标，X3、Y3为文本框右下角坐标，X4、Y4为文本框左下角坐标；

步骤五：根据训练时文字定位标签，即文本框的坐标，对图片进行裁剪，同时使用图像锐化算法以30％概率随机处理数据图像；将剪裁后的图像根据横竖标准分为两类，若裁剪图像中文字为纵向排列，则对图像行逆时针90°旋转操作；

步骤六：根据步骤五的分类数据集，使用深度神经网络CRNN训练出两个不同的横纵文字识别模型，并对模型进行评估；输入内容为文字定位区域，输出内容为对应文字信息；

步骤七：对于待识别图片，首先按照步骤三将待识别图片进行分类，然后根据分类情况调用步骤四中对应的定位模型进行预测，得到待识别图片的文字定位区域坐标，并对坐标区域进行裁剪，将裁剪图像进行横纵向分类和旋转校正；

步骤八：对于校正后图像，根据类别调用文字识别模型，识别出对应的文字信息，并返回识别信息；同时，为了解决大量复杂环境下文字密集排布导致框选信息重叠的问题，在识别前，我们对图像进行了稀疏处理，待检测完成后进行等比例还原，保证了密集文字框选的准确性。

2.如权利要求1所述的一种多场景多字体中文文字检测识别方法，其特征在于：具体分类方法为：先根据图像长宽比，将图像以1.2，0.8为阈值，其中将图像长宽比X＞1.2作为一类，将图像长宽，0.8≤X≤1.2作为一类，将图像长宽比X＜0.8作为一类，分为三类X(x1,x2,x3)；再根据图像尺寸，以448作为最长边长max(h,w)的阈值，将max(h,w)＞448的数据集划分为512，将max(h,w)≤448的数据集划分为384，分为两个尺度Y(y1,y2)，最终我们根据两次分类情况训练出六种不同类别的模型M(m1，m2,…,m6),m1(x1,y1)、m2(x1,y2)、m3(x2,y1)、…、m6(x3,y2)。

3.如权利要求1所述的一种多场景多字体中文文字检测识别方法，其特征在于：所述步骤四中，构建的RSTD模型，将原网络结构中的VGG16卷积网络用ResNet50卷积网络代替。

4.如权利要求1所述的一种多场景多字体中文文字检测识别方法，其特征在于：所述步骤五中，对横竖排文字进行分类的标准：以1为阈值，分为横纵向两类F(f1，f2)，对纵向图片f2进行逆时针90°翻转。

5.如权利要求1所述的一种多场景多字体中文文字检测识别方法，其特征在于：所述步骤七中，对裁剪后图像旋转矫正的具体方法是：首先获取左上角坐标X1、Y1，右上角坐标X2、Y2，根据公式:

6.如权利要求1所述的一种多场景多字体中文文字检测识别方法，其特征在于：所述步骤八中，稀疏处理的具体方法是：对垂直于文字阅读方向的像素采用线性插值算法进行扩增，以达到减小框选信息重叠的效果。