CN109117713A

CN109117713A - 一种全卷积神经网络的图纸版面分析与文字识别方法

Info

Publication number: CN109117713A
Application number: CN201810679339.7A
Authority: CN
Inventors: 朱全银; 许梦杰; 冯万利; 高尚兵; 周泓; 范家宽; 潘阳
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2019-01-01
Anticipated expiration: 2038-06-27
Also published as: CN109117713B

Abstract

本发明公开了一种全卷积神经网络的图纸版面分析与文字识别方法，首先通过使用图像灰度化、二值化、腐蚀与膨胀和连通域检测等方法对图像进行预处理，然后使用阈值分割进行结果后处理以检测出图像文字区域，接着使用灰度图投影法以及阈值分割来进行文字区域的行切分，最后使用全卷积神经网络文字识别模型进行文字识别。本发明公开的文字识别模型的识别率可以达到90％‑94％，正确率优于传统的单字识别模型，识别速度优于CRNN文字识别模型。本发明方法有效的改进了面向建筑图纸的版面识别和文字识别算法，使得专家审查图纸的效率提高，并增加了建筑图纸的使用价值。

Description

一种全卷积神经网络的图纸版面分析与文字识别方法

技术领域

本发明属于文字识别领域，特别涉及一种全卷积神经网络的图纸版面分析与文字识别方法。

背景技术

本发明中的基于全卷积神经网络的针对建筑图纸图像的文字识别方法对建筑图纸审图专家的图纸审查有重要的作用和意义。在面对一个建筑图纸进行文字识别的时候，需要解决图像预处理、版面分析、识别模型搭建等工作。

冯万利，朱全银等人已有的研究基础包括：Wanli Feng.Research of themestatement extraction for chinese literature based on lexicalchain.International Journal of Multimedia and Ubiquitous Engineering,Vol.11,No.6(2016),pp.379-388；Wanli Feng,Ying Li,Shangbing Gao,Yunyang Yan,JianxunXue.A novel flame edge detection algorithm via a novel active contourmodel.International Journal of Hybrid Information Technology,Vol.9,No.9(2016),pp.275-282；刘金岭,冯万利.基于属性依赖关系的模式匹配方法[J].微电子学与计算机,2011,28(12):167-170；刘金岭,冯万利,张亚红.初始化簇类中心和重构标度函数的文本聚类[J].计算机应用研究,2011,28(11):4115-4117；刘金岭,冯万利,张亚红.基于重新标度的中文短信文本聚类方法[J].计算机工程与应用,2012,48(21):146-150.；朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24；李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759；Quanyin Zhu,Sunqun Cao.A Novel Classifier-independent FeatureSelection Algorithm for Imbalanced Datasets.2009,p:77-82；Quanyin Zhu,YunyangYan,Jin Ding,Jin Qian.The Case Study for Price Extracting of Mobile PhoneSell Online.2011,p:282-285；Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,HongZhou.Integrated Price Forecast based on Dichotomy Backfilling and DisturbanceFactor Algorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093；朱全银，冯万利等人申请、公开与授权的相关专利：冯万利,邵鹤帅,庄军.一种智能冷藏车状态监测无线网络终端装置:CN203616634U[P].2014；朱全银，胡蓉静，何苏群，周培等.一种基于线性插补与自适应滑动窗口的商品价格预测方法.中国专利:ZL2011 10423015.5,2015.07.01；朱全银，曹苏群，严云洋，胡蓉静等，一种基于二分数据修补与扰乱因子的商品价格预测方法.中国专利:ZL 2011 1 0422274.6,2013.01.02；李翔，朱全银，胡荣林，周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08。

图像灰度化：

日常的彩色图像都是RGB三个维度的图像，而进行图像处理的时候很多时候都要灰度化，这是为了降低计算机的计算量。灰度化的公式为：

f(i,j)＝avg(R(i,j),G(i,j),B(i,j))

OSTU二值化：

OSTU大津法是使用自适应阈值对图像进行二值化的方法，自适应阈值的计算公式为：

g(t)＝w0*(u0-u)^2+w1*(u1-u)^2

图像腐蚀与膨胀：

图像的腐蚀与膨胀的基本原理就是使用一个特定的结构元素来与待处理图像按像素做逻辑操作，膨胀就是进行或操作而腐蚀就是进行与操作，主要的功能是去除一些模糊的边角噪声。

连通域检测：

对于一个二值图像可以使用连通域检测的方法标记处出连通的区域，这样可以将前景和背景区分开来。连通域检测的常用方法是two-pass算法。

卷积神经网络：

卷积神经网络是近几年来流行的图像特征提取的一种方法，卷积神经网络的主要参数有卷积核的大小M、个数N以及间隔stride，stride通常为1，卷积核的大小和个数可以根据实际情况进行调参以获得更好效果，假设输入为[W,H,C]，那么卷积层的输出是[(input-M)/stride,(H-M)/stride,M]。

传统的文字识别是将文字抠出来进行识别的，要么就是使用CNN提取特征并用RNN进行识别，速度慢。

发明内容

发明目的：针对上述问题，本发明提供一种直接使用全卷积网络进行文字的整行识别，速度快、准确率高，有效的帮助类似建筑图纸的图像提高文字识别的效率的全卷积神经网络的图纸版面分析与文字识别方法。

技术方案：本发明提出一种全卷积神经网络的图纸版面分析与文字识别方法，包括如下步骤：

(1)定义图纸图像为image，对image进行缩放、滤波、二值化、腐蚀与膨胀、连通域检测以及阈值过滤来进行文字区域切分,得到文字区域图像集result_boxes＝{box_image1,box_image2,...}中，其中box_image＝{box_x,box_y,box_width,box_height}；

(2)定义循环变量box_image用来遍历result_boxes，对box_image进行灰度图投影来进行文字区域行切分，得到行切分结果集result_lines＝{line_image1,line_image2,...}，其中line_image＝{line_x,line_y,line_width,line_height}；

(3)定义循环变量line_image用来遍历result_boxes，对line_image使用基于全卷积神经网络的文字识别模型进行文字识别并将结果整合为文字结果集result_word_arr＝{line1,line2,...}，其中的line＝{word1,word2,...}，其中word为字符。

进一步的，所述步骤(1)中对图纸图像进行文字识别的具体步骤如下：

(1.1)定义图纸像素集image＝{C1,C2,...}，其中C＝{R,G,B},使用平均法GC＝avg(R,G,B)进行灰度化得到灰度化像素集gray_image＝{GC1,GC2,...}；

(1.2)对gray_image进行中值滤波，得到滤波像素集blur_image＝{BC1,BC2,...}；

(1.3)对blur_image使用OTSU方法进行二值化，以127为分割，前景为0，背景为255，得到二值化像素集threshold_image＝{TC1,TC2,...}，其中TC∈{0,255}；

(1.4)对threshold_image依次进行滤波核分别为[11,11]、[5,5]、[15,15]的全一矩阵的4次膨胀、3次腐蚀、4次膨胀后得到形态处理后像素集erode_image＝{EC1,EC2,...}；

(1.5)对erode_image进行连通域检测，得到检测结果集boxes＝{box_image1,box_image2,...},其中box_image＝{box_x,box_y,box_width,box_height}；

(1.6)定义循环变量box_image用来遍历boxes；

(1.7)定义文字区域切分结果集result_boxes＝{box1,box2,...}；

(1.8)对boxes中的每一图像块box进行检测，如果box的宽度大于1800，则转到步骤(1.9)以处理粘在一起的文字图像块，否则直接放入result_boxes；

(1.9)将box_image膨胀3次，滤波核为形状为[4,4]的全一矩阵，得到像素集erode_box_image＝{EBC1,EBC2,...}；

(1.10)对erode_box_imge的x轴方向进行灰度图投影得到投影集x_arr＝{x_sum1,x_sum2,...}；

(1.11)输出文字区域结果集result_boxes。

进一步的，所述步骤(2)中对文字图像块进行文字区域行切分的具体步骤如下：

(2.1)定义循环变量line_image对result_lines进行遍历，对line_image进行灰度化，得到灰度化像素集gray_line_image＝{GLC1,GLC2,...}；

(2.2)对gray_line_image向y轴方向求和，得到投影结果集y_add_arr＝{y_add1,y_add2,...}；

(2.3)定义结束位置记录集end＝{end_idx1,end_idx2,...},定义开始位置记录集start＝{start_idx1,start_idx2,...}；

(2.4)定义i＝0，length为y_add_arr的长度；

(2.5)如果i<length，转步骤(2.6)，否则转步骤(2.11)；

(2.6)如果y_add_i>阈值T，转步骤(2.7)，否则转步骤(2.9)；

(2.7)如果y_add_i-1<T，则转步骤(2.8)；

(2.8)将i加入end集合；

(2.9)如果y_add_i-1>T，则转步骤(2.10)，否则转步骤(2.5)；

(2.10)将i加入start集合，转步骤(2.5)；

(2.11)将start和end融合为文字区域行切分结果集result_lines＝{start_idx1,end_idx1,start_idx2,end_idx2,...}。

进一步的，所述步骤(2.6)中阈值T的计算公式为：取Y_max为数组中的最大值，取Y_min为数组中的最小值，自适应阈值为T，精细度参数为F默认取50，则自适应阈值计算公式为：

T＝Ymax-(Ymax-Ymin)/F

进一步的，所述步骤(3)中对整行文字使用全卷积神经网络进行文字识别的具体步骤如下：

(3.1)将图像line_image调整大小为[40,700,1]的矩阵；

(3.2)将调整大小后的图像放入全卷积神经网络进行处理，获得一个结构为[192,1806]的结果数组result_arr；

(3.3)返回的result_arr使用greedy_decoder方法进行解码获得文字识别结果并将所有结果整合为result_word_arr。

进一步的，所述步骤(3.2)中使用的全卷积神经网络的具体参数为：

第一层为卷积神经网络层，滤波核个数为64，滤波核的大小为3×3，padding为same，激活层为relu层；

第二层为池化层，核心的参数为2×2×2；

第三层为卷积神经网络层，滤波核个数为64，滤波核的大小为3×3，padding为same，激活层为relu层；

第四层为池化层，核心的参数为2×2×2；

第五层为卷积神经网络层，滤波核个数为128，滤波核的大小为3×3，padding为same，激活层为relu层；

第六层为池化层，核心的参数为2×2×2；

第七层为卷积神经网络层，滤波核个数为128，滤波核的大小为3×3，padding为same，激活层为relu层；

第八层为池化层，核心的参数为2×2×2；

第九层为卷积神经网络层，滤波核个数为256，滤波核的大小为3×3，padding为valide，激活层为relu层；

第十层为池化层，核心的参数为2×2，stride的参数为2×1；

第十一层为卷积神经网络层，滤波核个数为512，滤波核的大小为3×3，padding为valid，激活层为relu层；

第十二层为全连接层，将输出的2×192×512的三维数组重组成192×1024的矩阵放入全连接层，全连接层的参数为1806，输出为192×1806，这就是识别出的结果矩阵，1806代表了可识别的文字的个数。

本发明采用上述技术方案，具有以下有益效果：本发明方法使用自建的两百万文字图像数据集进行文字识别模型的训练，实际图纸文字识别正确率达到90％-94％，识别正确率高于传统的基于单字识别的模型，识别速度高于使用CRNN的文字识别模型；所提出的文字区域切分算法可以有效的提取出图纸中包含文字的区域，提取正确率大于95％，所提出的文字区域行切分算法可以有效的将文字区域中的每一行的文字检测出来，检测正确率大于95％。

附图说明

图1为本发明的总体流程图

图2为图1中文字区域切分的流程图

图3为图1中文字区域行切分的流程图

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1-3所示，本发明所述的一种全卷积神经网络的图纸版面分析与文字识别方法，包括如下步骤：

步骤1：定义图纸图像为image，对image进行缩放、滤波、二值化、腐蚀与膨胀、连通域检测以及阈值过滤来进行文字区域切分,得到文字区域图像集result_boxes＝{box_image1,box_image2,...}中，其中box_image＝{box_x,box_y,box_width,box_height}，具体方法为：

步骤1.1：定义图纸像素集image＝{C1,C2,...}，其中C＝{R,G,B},使用平均法GC＝avg(R,G,B)进行灰度化得到灰度化像素集gray_image＝{GC1,GC2,...}；

步骤1.2：对gray_image进行中值滤波，得到滤波像素集blur_image＝{BC1,BC2,...}；

步骤1.3：对blur_image使用OTSU方法进行二值化，以127为分割，前景为0，背景为255，得到二值化像素集threshold_image＝{TC1,TC2,...}，其中TC∈{0,255}；

步骤1.4：对threshold_image依次进行滤波核分别为[11,11]、[5,5]、[15,15]的全一矩阵的4次膨胀、3次腐蚀、4次膨胀后得到形态处理后像素集erode_image＝{EC1,EC2,...}；

步骤1.5：对erode_image进行连通域检测，得到检测结果集boxes＝{box_image1,box_image2,...},其中box_image＝{box_x,box_y,box_width,box_height}；

步骤1.6：定义循环变量box_image用来遍历boxes；

步骤1.7：定义文字区域切分结果集result_boxes＝{box1,box2,...}；

步骤1.8：对boxes中的每一图像块box进行检测，如果box的宽度大于1800，则转到步骤1.9以处理粘在一起的文字图像块，否则直接放入result_boxes；

步骤1.9：将box_image膨胀3次，滤波核为形状为[4,4]的全一矩阵，得到像素集erode_box_image＝{EBC1,EBC2,...}；

步骤1.10：对erode_box_imge的x轴方向进行灰度图投影得到投影集x_arr＝{x_sum1,x_sum2,...}；

步骤1.11：输出文字区域结果集result_boxes。

步骤2：定义循环变量box_image用来遍历result_boxes，对box_image进行灰度图投影来进行文字区域行切分，得到行切分结果集result_lines＝{line_image1,line_image2,...}，其中line_image＝{x,y,width,height}，具体方法为：

步骤2.1：定义循环变量line_image对result_lines进行遍历，对line_image进行灰度化，得到灰度化像素集gray_line_image＝{GLC1,GLC2,...}；

步骤2.2：对gray_line_image向y轴方向求和，得到投影结果集y_add_arr＝{y_add1,y_add2,...}；

步骤2.3：定义结束位置记录集end＝{end_idx1,end_idx2,...},定义开始位置记录集start＝{start_idx1,start_idx2,...}；

步骤2.4：定义i＝0，length为y_add_arr的长度；

步骤2.5：如果i<length，转步骤2.6，否则转步骤2.11；

步骤2.6：如果y_add_i>阈值T，转步骤2.7，否则转步骤2.9；

步骤2.7：如果y_add_i-1<T，则转步骤2.8；

步骤2.8：将i加入end集合；

步骤2.9：如果y_add_i-1>T，则转步骤2.10，否则转步骤2.5；

步骤2.10：将i加入start集合，转步骤2.5；

步骤2.11：将start和end融合为文字区域行切分结果集result_lines＝{start_idx1,end_idx1,start_idx2,end_idx2,...}。

步骤3：定义循环变量line_image用来遍历result_boxes，对line_image使用基于全卷积神经网络的文字识别模型进行文字识别并将结果整合为文字结果集result_word_arr＝{line1,line2,...}，其中的line＝{word1,word2,...}，其中word为字符，具体方法为：

步骤3.1：将图像line_image调整大小为[40,700,1]的矩阵；

步骤3.2：将调整大小后的图像放入全卷积神经网络进行处理，获得一个结构为[192,1806]的结果数组result_arr，模型详细信息如下(使用的是TensorFlow平台)：

第二层为池化层，核心的参数为2×2×2；

第四层为池化层，核心的参数为2×2×2；

第六层为池化层，核心的参数为2×2×2；

第八层为池化层，核心的参数为2×2×2；

第十层为池化层，核心的参数为2×2，stride的参数为2×1；

第十二层为全连接层，将输出的2×192×512的三维数组重组成192×1024的矩阵放入全连接层，全连接层的参数为1806，输出为192×1806，这就是识别出的结果矩阵，1806代表了可识别的文字的个数；

步骤3.3：返回的result_arr使用greedy_decoder方法进行解码获得文字识别结果并将所有结果整合为result_word_arr。

其中，文字模型的搭建是经过数十次的试验得出的结果，文字区域检测与文字区域行切分算法中的参数与滤波函数的迭代次数都是经过多次试验后得到的对于建筑图纸来说最为适合的结果，使用本文的识别模型对建筑图纸图像可以达到90％-94％的文字识别正确率。

Claims

1.一种全卷积神经网络的图纸版面分析与文字识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种全卷积神经网络的图纸版面分析与文字识别方法，其特征在于，所述步骤(1)中对图纸图像进行文字识别的具体步骤如下：

(1.6)定义循环变量box_image用来遍历boxes；

(1.7)定义文字区域切分结果集result_boxes＝{box1,box2,...}；

(1.11)输出文字区域结果集result_boxes。

3.根据权利要求1所述的一种全卷积神经网络的图纸版面分析与文字识别方法，其特征在于，所述步骤(2)中对文字图像块进行文字区域行切分的具体步骤如下：

(2.4)定义i＝0，length为y_add_arr的长度；

(2.5)如果i<length，转步骤(2.6)，否则转步骤(2.11)；

(2.6)如果y_add_i>阈值T，转步骤(2.7)，否则转步骤(2.9)；

(2.7)如果y_add_i-1<T，则转步骤(2.8)；

(2.8)将i加入end集合；

(2.9)如果y_add_i-1>T，则转步骤(2.10)，否则转步骤(2.5)；

(2.10)将i加入start集合，转步骤(2.5)；

4.根据权利要求3所述的一种全卷积神经网络的图纸版面分析与文字识别方法，其特征在于，所述步骤(2.6)中阈值T的计算公式为：取Y_max为数组中的最大值，取Y_min为数组中的最小值，自适应阈值为T，精细度参数为F默认取50，则自适应阈值计算公式为：

T＝Y max-(Y max-Y min)/F

5.根据权利要求1所述的一种全卷积神经网络的图纸版面分析与文字识别方法，其特征在于，所述步骤(3)中对整行文字使用全卷积神经网络进行文字识别的具体步骤如下：

(3.1)将图像line_image调整大小为[40,700,1]的矩阵；

6.根据权利要求5所述一种全卷积神经网络的图纸版面分析与文字识别方法，其特征在于，所述步骤(3.2)中使用的全卷积神经网络的具体参数为：

第二层为池化层，核心的参数为2×2×2；

第四层为池化层，核心的参数为2×2×2；

第六层为池化层，核心的参数为2×2×2；

第八层为池化层，核心的参数为2×2×2；

第十层为池化层，核心的参数为2×2，stride的参数为2×1；