CN109117713A - 一种全卷积神经网络的图纸版面分析与文字识别方法 - Google Patents

一种全卷积神经网络的图纸版面分析与文字识别方法 Download PDF

Info

Publication number
CN109117713A
CN109117713A CN201810679339.7A CN201810679339A CN109117713A CN 109117713 A CN109117713 A CN 109117713A CN 201810679339 A CN201810679339 A CN 201810679339A CN 109117713 A CN109117713 A CN 109117713A
Authority
CN
China
Prior art keywords
image
box
result
layer
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810679339.7A
Other languages
English (en)
Other versions
CN109117713B (zh
Inventor
朱全银
许梦杰
冯万利
高尚兵
周泓
范家宽
潘阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201810679339.7A priority Critical patent/CN109117713B/zh
Publication of CN109117713A publication Critical patent/CN109117713A/zh
Application granted granted Critical
Publication of CN109117713B publication Critical patent/CN109117713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种全卷积神经网络的图纸版面分析与文字识别方法,首先通过使用图像灰度化、二值化、腐蚀与膨胀和连通域检测等方法对图像进行预处理,然后使用阈值分割进行结果后处理以检测出图像文字区域,接着使用灰度图投影法以及阈值分割来进行文字区域的行切分,最后使用全卷积神经网络文字识别模型进行文字识别。本发明公开的文字识别模型的识别率可以达到90%‑94%,正确率优于传统的单字识别模型,识别速度优于CRNN文字识别模型。本发明方法有效的改进了面向建筑图纸的版面识别和文字识别算法,使得专家审查图纸的效率提高,并增加了建筑图纸的使用价值。

Description

一种全卷积神经网络的图纸版面分析与文字识别方法
技术领域
本发明属于文字识别领域,特别涉及一种全卷积神经网络的图纸版面分析与文字识别方法。
背景技术
本发明中的基于全卷积神经网络的针对建筑图纸图像的文字识别方法对建筑图纸审图专家的图纸审查有重要的作用和意义。在面对一个建筑图纸进行文字识别的时候,需要解决图像预处理、版面分析、识别模型搭建等工作。
冯万利,朱全银等人已有的研究基础包括:Wanli Feng.Research of themestatement extraction for chinese literature based on lexicalchain.International Journal of Multimedia and Ubiquitous Engineering,Vol.11,No.6(2016),pp.379-388;Wanli Feng,Ying Li,Shangbing Gao,Yunyang Yan,JianxunXue.A novel flame edge detection algorithm via a novel active contourmodel.International Journal of Hybrid Information Technology,Vol.9,No.9(2016),pp.275-282;刘金岭,冯万利.基于属性依赖关系的模式匹配方法[J].微电子学与计算机,2011,28(12):167-170;刘金岭,冯万利,张亚红.初始化簇类中心和重构标度函数的文本聚类[J].计算机应用研究,2011,28(11):4115-4117;刘金岭,冯万利,张亚红.基于重新标度的中文短信文本聚类方法[J].计算机工程与应用,2012,48(21):146-150.;朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24;李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;Quanyin Zhu,Sunqun Cao.A Novel Classifier-independent FeatureSelection Algorithm for Imbalanced Datasets.2009,p:77-82;Quanyin Zhu,YunyangYan,Jin Ding,Jin Qian.The Case Study for Price Extracting of Mobile PhoneSell Online.2011,p:282-285;Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,HongZhou.Integrated Price Forecast based on Dichotomy Backfilling and DisturbanceFactor Algorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093;朱全银,冯万利等人申请、公开与授权的相关专利:冯万利,邵鹤帅,庄军.一种智能冷藏车状态监测无线网络终端装置:CN203616634U[P].2014;朱全银,胡蓉静,何苏群,周培等.一种基于线性插补与自适应滑动窗口的商品价格预测方法.中国专利:ZL2011 10423015.5,2015.07.01;朱全银,曹苏群,严云洋,胡蓉静等,一种基于二分数据修补与扰乱因子的商品价格预测方法.中国专利:ZL 2011 1 0422274.6,2013.01.02;李翔,朱全银,胡荣林,周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08。
图像灰度化:
日常的彩色图像都是RGB三个维度的图像,而进行图像处理的时候很多时候都要灰度化,这是为了降低计算机的计算量。灰度化的公式为:
f(i,j)=avg(R(i,j),G(i,j),B(i,j))
OSTU二值化:
OSTU大津法是使用自适应阈值对图像进行二值化的方法,自适应阈值的计算公式为:
g(t)=w0*(u0-u)^2+w1*(u1-u)^2
图像腐蚀与膨胀:
图像的腐蚀与膨胀的基本原理就是使用一个特定的结构元素来与待处理图像按像素做逻辑操作,膨胀就是进行或操作而腐蚀就是进行与操作,主要的功能是去除一些模糊的边角噪声。
连通域检测:
对于一个二值图像可以使用连通域检测的方法标记处出连通的区域,这样可以将前景和背景区分开来。连通域检测的常用方法是two-pass算法。
卷积神经网络:
卷积神经网络是近几年来流行的图像特征提取的一种方法,卷积神经网络的主要参数有卷积核的大小M、个数N以及间隔stride,stride通常为1,卷积核的大小和个数可以根据实际情况进行调参以获得更好效果,假设输入为[W,H,C],那么卷积层的输出是[(input-M)/stride,(H-M)/stride,M]。
传统的文字识别是将文字抠出来进行识别的,要么就是使用CNN提取特征并用RNN进行识别,速度慢。
发明内容
发明目的:针对上述问题,本发明提供一种直接使用全卷积网络进行文字的整行识别,速度快、准确率高,有效的帮助类似建筑图纸的图像提高文字识别的效率的全卷积神经网络的图纸版面分析与文字识别方法。
技术方案:本发明提出一种全卷积神经网络的图纸版面分析与文字识别方法,包括如下步骤:
(1)定义图纸图像为image,对image进行缩放、滤波、二值化、腐蚀与膨胀、连通域检测以及阈值过滤来进行文字区域切分,得到文字区域图像集result_boxes={box_image1,box_image2,...}中,其中box_image={box_x,box_y,box_width,box_height};
(2)定义循环变量box_image用来遍历result_boxes,对box_image进行灰度图投影来进行文字区域行切分,得到行切分结果集result_lines={line_image1,line_image2,...},其中line_image={line_x,line_y,line_width,line_height};
(3)定义循环变量line_image用来遍历result_boxes,对line_image使用基于全卷积神经网络的文字识别模型进行文字识别并将结果整合为文字结果集result_word_arr={line1,line2,...},其中的line={word1,word2,...},其中word为字符。
进一步的,所述步骤(1)中对图纸图像进行文字识别的具体步骤如下:
(1.1)定义图纸像素集image={C1,C2,...},其中C={R,G,B},使用平均法GC=avg(R,G,B)进行灰度化得到灰度化像素集gray_image={GC1,GC2,...};
(1.2)对gray_image进行中值滤波,得到滤波像素集blur_image={BC1,BC2,...};
(1.3)对blur_image使用OTSU方法进行二值化,以127为分割,前景为0,背景为255,得到二值化像素集threshold_image={TC1,TC2,...},其中TC∈{0,255};
(1.4)对threshold_image依次进行滤波核分别为[11,11]、[5,5]、[15,15]的全一矩阵的4次膨胀、3次腐蚀、4次膨胀后得到形态处理后像素集erode_image={EC1,EC2,...};
(1.5)对erode_image进行连通域检测,得到检测结果集boxes={box_image1,box_image2,...},其中box_image={box_x,box_y,box_width,box_height};
(1.6)定义循环变量box_image用来遍历boxes;
(1.7)定义文字区域切分结果集result_boxes={box1,box2,...};
(1.8)对boxes中的每一图像块box进行检测,如果box的宽度大于1800,则转到步骤(1.9)以处理粘在一起的文字图像块,否则直接放入result_boxes;
(1.9)将box_image膨胀3次,滤波核为形状为[4,4]的全一矩阵,得到像素集erode_box_image={EBC1,EBC2,...};
(1.10)对erode_box_imge的x轴方向进行灰度图投影得到投影集x_arr={x_sum1,x_sum2,...};
(1.11)输出文字区域结果集result_boxes。
进一步的,所述步骤(2)中对文字图像块进行文字区域行切分的具体步骤如下:
(2.1)定义循环变量line_image对result_lines进行遍历,对line_image进行灰度化,得到灰度化像素集gray_line_image={GLC1,GLC2,...};
(2.2)对gray_line_image向y轴方向求和,得到投影结果集y_add_arr={y_add1,y_add2,...};
(2.3)定义结束位置记录集end={end_idx1,end_idx2,...},定义开始位置记录集start={start_idx1,start_idx2,...};
(2.4)定义i=0,length为y_add_arr的长度;
(2.5)如果i<length,转步骤(2.6),否则转步骤(2.11);
(2.6)如果y_addi>阈值T,转步骤(2.7),否则转步骤(2.9);
(2.7)如果y_addi-1<T,则转步骤(2.8);
(2.8)将i加入end集合;
(2.9)如果y_addi-1>T,则转步骤(2.10),否则转步骤(2.5);
(2.10)将i加入start集合,转步骤(2.5);
(2.11)将start和end融合为文字区域行切分结果集result_lines={start_idx1,end_idx1,start_idx2,end_idx2,...}。
进一步的,所述步骤(2.6)中阈值T的计算公式为:取Ymax为数组中的最大值,取Ymin为数组中的最小值,自适应阈值为T,精细度参数为F默认取50,则自适应阈值计算公式为:
T=Ymax-(Ymax-Ymin)/F
进一步的,所述步骤(3)中对整行文字使用全卷积神经网络进行文字识别的具体步骤如下:
(3.1)将图像line_image调整大小为[40,700,1]的矩阵;
(3.2)将调整大小后的图像放入全卷积神经网络进行处理,获得一个结构为[192,1806]的结果数组result_arr;
(3.3)返回的result_arr使用greedy_decoder方法进行解码获得文字识别结果并将所有结果整合为result_word_arr。
进一步的,所述步骤(3.2)中使用的全卷积神经网络的具体参数为:
第一层为卷积神经网络层,滤波核个数为64,滤波核的大小为3×3,padding为same,激活层为relu层;
第二层为池化层,核心的参数为2×2×2;
第三层为卷积神经网络层,滤波核个数为64,滤波核的大小为3×3,padding为same,激活层为relu层;
第四层为池化层,核心的参数为2×2×2;
第五层为卷积神经网络层,滤波核个数为128,滤波核的大小为3×3,padding为same,激活层为relu层;
第六层为池化层,核心的参数为2×2×2;
第七层为卷积神经网络层,滤波核个数为128,滤波核的大小为3×3,padding为same,激活层为relu层;
第八层为池化层,核心的参数为2×2×2;
第九层为卷积神经网络层,滤波核个数为256,滤波核的大小为3×3,padding为valide,激活层为relu层;
第十层为池化层,核心的参数为2×2,stride的参数为2×1;
第十一层为卷积神经网络层,滤波核个数为512,滤波核的大小为3×3,padding为valid,激活层为relu层;
第十二层为全连接层,将输出的2×192×512的三维数组重组成192×1024的矩阵放入全连接层,全连接层的参数为1806,输出为192×1806,这就是识别出的结果矩阵,1806代表了可识别的文字的个数。
本发明采用上述技术方案,具有以下有益效果:本发明方法使用自建的两百万文字图像数据集进行文字识别模型的训练,实际图纸文字识别正确率达到90%-94%,识别正确率高于传统的基于单字识别的模型,识别速度高于使用CRNN的文字识别模型;所提出的文字区域切分算法可以有效的提取出图纸中包含文字的区域,提取正确率大于95%,所提出的文字区域行切分算法可以有效的将文字区域中的每一行的文字检测出来,检测正确率大于95%。
附图说明
图1为本发明的总体流程图
图2为图1中文字区域切分的流程图
图3为图1中文字区域行切分的流程图
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1-3所示,本发明所述的一种全卷积神经网络的图纸版面分析与文字识别方法,包括如下步骤:
步骤1:定义图纸图像为image,对image进行缩放、滤波、二值化、腐蚀与膨胀、连通域检测以及阈值过滤来进行文字区域切分,得到文字区域图像集result_boxes={box_image1,box_image2,...}中,其中box_image={box_x,box_y,box_width,box_height},具体方法为:
步骤1.1:定义图纸像素集image={C1,C2,...},其中C={R,G,B},使用平均法GC=avg(R,G,B)进行灰度化得到灰度化像素集gray_image={GC1,GC2,...};
步骤1.2:对gray_image进行中值滤波,得到滤波像素集blur_image={BC1,BC2,...};
步骤1.3:对blur_image使用OTSU方法进行二值化,以127为分割,前景为0,背景为255,得到二值化像素集threshold_image={TC1,TC2,...},其中TC∈{0,255};
步骤1.4:对threshold_image依次进行滤波核分别为[11,11]、[5,5]、[15,15]的全一矩阵的4次膨胀、3次腐蚀、4次膨胀后得到形态处理后像素集erode_image={EC1,EC2,...};
步骤1.5:对erode_image进行连通域检测,得到检测结果集boxes={box_image1,box_image2,...},其中box_image={box_x,box_y,box_width,box_height};
步骤1.6:定义循环变量box_image用来遍历boxes;
步骤1.7:定义文字区域切分结果集result_boxes={box1,box2,...};
步骤1.8:对boxes中的每一图像块box进行检测,如果box的宽度大于1800,则转到步骤1.9以处理粘在一起的文字图像块,否则直接放入result_boxes;
步骤1.9:将box_image膨胀3次,滤波核为形状为[4,4]的全一矩阵,得到像素集erode_box_image={EBC1,EBC2,...};
步骤1.10:对erode_box_imge的x轴方向进行灰度图投影得到投影集x_arr={x_sum1,x_sum2,...};
步骤1.11:输出文字区域结果集result_boxes。
步骤2:定义循环变量box_image用来遍历result_boxes,对box_image进行灰度图投影来进行文字区域行切分,得到行切分结果集result_lines={line_image1,line_image2,...},其中line_image={x,y,width,height},具体方法为:
步骤2.1:定义循环变量line_image对result_lines进行遍历,对line_image进行灰度化,得到灰度化像素集gray_line_image={GLC1,GLC2,...};
步骤2.2:对gray_line_image向y轴方向求和,得到投影结果集y_add_arr={y_add1,y_add2,...};
步骤2.3:定义结束位置记录集end={end_idx1,end_idx2,...},定义开始位置记录集start={start_idx1,start_idx2,...};
步骤2.4:定义i=0,length为y_add_arr的长度;
步骤2.5:如果i<length,转步骤2.6,否则转步骤2.11;
步骤2.6:如果y_addi>阈值T,转步骤2.7,否则转步骤2.9;
步骤2.7:如果y_addi-1<T,则转步骤2.8;
步骤2.8:将i加入end集合;
步骤2.9:如果y_addi-1>T,则转步骤2.10,否则转步骤2.5;
步骤2.10:将i加入start集合,转步骤2.5;
步骤2.11:将start和end融合为文字区域行切分结果集result_lines={start_idx1,end_idx1,start_idx2,end_idx2,...}。
步骤3:定义循环变量line_image用来遍历result_boxes,对line_image使用基于全卷积神经网络的文字识别模型进行文字识别并将结果整合为文字结果集result_word_arr={line1,line2,...},其中的line={word1,word2,...},其中word为字符,具体方法为:
步骤3.1:将图像line_image调整大小为[40,700,1]的矩阵;
步骤3.2:将调整大小后的图像放入全卷积神经网络进行处理,获得一个结构为[192,1806]的结果数组result_arr,模型详细信息如下(使用的是TensorFlow平台):
第一层为卷积神经网络层,滤波核个数为64,滤波核的大小为3×3,padding为same,激活层为relu层;
第二层为池化层,核心的参数为2×2×2;
第三层为卷积神经网络层,滤波核个数为64,滤波核的大小为3×3,padding为same,激活层为relu层;
第四层为池化层,核心的参数为2×2×2;
第五层为卷积神经网络层,滤波核个数为128,滤波核的大小为3×3,padding为same,激活层为relu层;
第六层为池化层,核心的参数为2×2×2;
第七层为卷积神经网络层,滤波核个数为128,滤波核的大小为3×3,padding为same,激活层为relu层;
第八层为池化层,核心的参数为2×2×2;
第九层为卷积神经网络层,滤波核个数为256,滤波核的大小为3×3,padding为valide,激活层为relu层;
第十层为池化层,核心的参数为2×2,stride的参数为2×1;
第十一层为卷积神经网络层,滤波核个数为512,滤波核的大小为3×3,padding为valid,激活层为relu层;
第十二层为全连接层,将输出的2×192×512的三维数组重组成192×1024的矩阵放入全连接层,全连接层的参数为1806,输出为192×1806,这就是识别出的结果矩阵,1806代表了可识别的文字的个数;
步骤3.3:返回的result_arr使用greedy_decoder方法进行解码获得文字识别结果并将所有结果整合为result_word_arr。
其中,文字模型的搭建是经过数十次的试验得出的结果,文字区域检测与文字区域行切分算法中的参数与滤波函数的迭代次数都是经过多次试验后得到的对于建筑图纸来说最为适合的结果,使用本文的识别模型对建筑图纸图像可以达到90%-94%的文字识别正确率。

Claims (6)

1.一种全卷积神经网络的图纸版面分析与文字识别方法,其特征在于,所述方法包括:
(1)定义图纸图像为image,对image进行缩放、滤波、二值化、腐蚀与膨胀、连通域检测以及阈值过滤来进行文字区域切分,得到文字区域图像集result_boxes={box_image1,box_image2,...}中,其中box_image={box_x,box_y,box_width,box_height};
(2)定义循环变量box_image用来遍历result_boxes,对box_image进行灰度图投影来进行文字区域行切分,得到行切分结果集result_lines={line_image1,line_image2,...},其中line_image={line_x,line_y,line_width,line_height};
(3)定义循环变量line_image用来遍历result_boxes,对line_image使用基于全卷积神经网络的文字识别模型进行文字识别并将结果整合为文字结果集result_word_arr={line1,line2,...},其中的line={word1,word2,...},其中word为字符。
2.根据权利要求1所述的一种全卷积神经网络的图纸版面分析与文字识别方法,其特征在于,所述步骤(1)中对图纸图像进行文字识别的具体步骤如下:
(1.1)定义图纸像素集image={C1,C2,...},其中C={R,G,B},使用平均法GC=avg(R,G,B)进行灰度化得到灰度化像素集gray_image={GC1,GC2,...};
(1.2)对gray_image进行中值滤波,得到滤波像素集blur_image={BC1,BC2,...};
(1.3)对blur_image使用OTSU方法进行二值化,以127为分割,前景为0,背景为255,得到二值化像素集threshold_image={TC1,TC2,...},其中TC∈{0,255};
(1.4)对threshold_image依次进行滤波核分别为[11,11]、[5,5]、[15,15]的全一矩阵的4次膨胀、3次腐蚀、4次膨胀后得到形态处理后像素集erode_image={EC1,EC2,...};
(1.5)对erode_image进行连通域检测,得到检测结果集boxes={box_image1,box_image2,...},其中box_image={box_x,box_y,box_width,box_height};
(1.6)定义循环变量box_image用来遍历boxes;
(1.7)定义文字区域切分结果集result_boxes={box1,box2,...};
(1.8)对boxes中的每一图像块box进行检测,如果box的宽度大于1800,则转到步骤(1.9)以处理粘在一起的文字图像块,否则直接放入result_boxes;
(1.9)将box_image膨胀3次,滤波核为形状为[4,4]的全一矩阵,得到像素集erode_box_image={EBC1,EBC2,...};
(1.10)对erode_box_imge的x轴方向进行灰度图投影得到投影集x_arr={x_sum1,x_sum2,...};
(1.11)输出文字区域结果集result_boxes。
3.根据权利要求1所述的一种全卷积神经网络的图纸版面分析与文字识别方法,其特征在于,所述步骤(2)中对文字图像块进行文字区域行切分的具体步骤如下:
(2.1)定义循环变量line_image对result_lines进行遍历,对line_image进行灰度化,得到灰度化像素集gray_line_image={GLC1,GLC2,...};
(2.2)对gray_line_image向y轴方向求和,得到投影结果集y_add_arr={y_add1,y_add2,...};
(2.3)定义结束位置记录集end={end_idx1,end_idx2,...},定义开始位置记录集start={start_idx1,start_idx2,...};
(2.4)定义i=0,length为y_add_arr的长度;
(2.5)如果i<length,转步骤(2.6),否则转步骤(2.11);
(2.6)如果y_addi>阈值T,转步骤(2.7),否则转步骤(2.9);
(2.7)如果y_addi-1<T,则转步骤(2.8);
(2.8)将i加入end集合;
(2.9)如果y_addi-1>T,则转步骤(2.10),否则转步骤(2.5);
(2.10)将i加入start集合,转步骤(2.5);
(2.11)将start和end融合为文字区域行切分结果集result_lines={start_idx1,end_idx1,start_idx2,end_idx2,...}。
4.根据权利要求3所述的一种全卷积神经网络的图纸版面分析与文字识别方法,其特征在于,所述步骤(2.6)中阈值T的计算公式为:取Ymax为数组中的最大值,取Ymin为数组中的最小值,自适应阈值为T,精细度参数为F默认取50,则自适应阈值计算公式为:
T=Y max-(Y max-Y min)/F
5.根据权利要求1所述的一种全卷积神经网络的图纸版面分析与文字识别方法,其特征在于,所述步骤(3)中对整行文字使用全卷积神经网络进行文字识别的具体步骤如下:
(3.1)将图像line_image调整大小为[40,700,1]的矩阵;
(3.2)将调整大小后的图像放入全卷积神经网络进行处理,获得一个结构为[192,1806]的结果数组result_arr;
(3.3)返回的result_arr使用greedy_decoder方法进行解码获得文字识别结果并将所有结果整合为result_word_arr。
6.根据权利要求5所述一种全卷积神经网络的图纸版面分析与文字识别方法,其特征在于,所述步骤(3.2)中使用的全卷积神经网络的具体参数为:
第一层为卷积神经网络层,滤波核个数为64,滤波核的大小为3×3,padding为same,激活层为relu层;
第二层为池化层,核心的参数为2×2×2;
第三层为卷积神经网络层,滤波核个数为64,滤波核的大小为3×3,padding为same,激活层为relu层;
第四层为池化层,核心的参数为2×2×2;
第五层为卷积神经网络层,滤波核个数为128,滤波核的大小为3×3,padding为same,激活层为relu层;
第六层为池化层,核心的参数为2×2×2;
第七层为卷积神经网络层,滤波核个数为128,滤波核的大小为3×3,padding为same,激活层为relu层;
第八层为池化层,核心的参数为2×2×2;
第九层为卷积神经网络层,滤波核个数为256,滤波核的大小为3×3,padding为valide,激活层为relu层;
第十层为池化层,核心的参数为2×2,stride的参数为2×1;
第十一层为卷积神经网络层,滤波核个数为512,滤波核的大小为3×3,padding为valid,激活层为relu层;
第十二层为全连接层,将输出的2×192×512的三维数组重组成192×1024的矩阵放入全连接层,全连接层的参数为1806,输出为192×1806,这就是识别出的结果矩阵,1806代表了可识别的文字的个数。
CN201810679339.7A 2018-06-27 2018-06-27 一种全卷积神经网络的图纸版面分析与文字识别方法 Active CN109117713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810679339.7A CN109117713B (zh) 2018-06-27 2018-06-27 一种全卷积神经网络的图纸版面分析与文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810679339.7A CN109117713B (zh) 2018-06-27 2018-06-27 一种全卷积神经网络的图纸版面分析与文字识别方法

Publications (2)

Publication Number Publication Date
CN109117713A true CN109117713A (zh) 2019-01-01
CN109117713B CN109117713B (zh) 2021-11-12

Family

ID=64822921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810679339.7A Active CN109117713B (zh) 2018-06-27 2018-06-27 一种全卷积神经网络的图纸版面分析与文字识别方法

Country Status (1)

Country Link
CN (1) CN109117713B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740548A (zh) * 2019-01-08 2019-05-10 北京易道博识科技有限公司 一种报销票据图像分割方法及系统
CN110009800A (zh) * 2019-03-14 2019-07-12 北京京东尚科信息技术有限公司 一种识别方法和设备
CN110222613A (zh) * 2019-05-28 2019-09-10 绍兴数鸿科技有限公司 一种基于卷积神经网络的竖排版繁体中文识别方法
CN110706310A (zh) * 2019-08-23 2020-01-17 华为技术有限公司 一种图文融合方法、装置及电子设备
CN111259891A (zh) * 2020-01-19 2020-06-09 福建升腾资讯有限公司 一种自然场景下身份证识别方法、装置、设备和介质
CN111259899A (zh) * 2020-01-13 2020-06-09 华中科技大学 一种喷码字符检测方法
CN111611933A (zh) * 2020-05-22 2020-09-01 中国科学院自动化研究所 文档图像的信息提取方法及系统
CN112257629A (zh) * 2020-10-29 2021-01-22 广联达科技股份有限公司 一种建筑图纸的文本信息识别方法及装置
CN112305078A (zh) * 2020-10-30 2021-02-02 安徽理工大学 一种柱状体中缺陷三维形状的重构方法
CN112349425A (zh) * 2020-02-10 2021-02-09 胡秋明 新型冠状病毒感染肺炎人工智能快速筛查系统
CN113610068A (zh) * 2021-10-11 2021-11-05 江西风向标教育科技有限公司 基于试卷图像的试题拆解方法、系统、存储介质及设备
CN113989808A (zh) * 2021-10-25 2022-01-28 广东宏远新科自动化技术开发有限公司 基于图纸信息处理的机械制造材料规格选择方法及系统
CN114463757A (zh) * 2022-01-28 2022-05-10 上海电机学院 基于机器视觉的工业场景字符端侧推理训练装置及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110029471A1 (en) * 2009-07-30 2011-02-03 Nec Laboratories America, Inc. Dynamically configurable, multi-ported co-processor for convolutional neural networks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110029471A1 (en) * 2009-07-30 2011-02-03 Nec Laboratories America, Inc. Dynamically configurable, multi-ported co-processor for convolutional neural networks

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱桂方: "卡片字符高速识别与校验系统的研究与设计", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740548B (zh) * 2019-01-08 2020-12-08 北京易道博识科技有限公司 一种报销票据图像分割方法及系统
CN109740548A (zh) * 2019-01-08 2019-05-10 北京易道博识科技有限公司 一种报销票据图像分割方法及系统
CN110009800A (zh) * 2019-03-14 2019-07-12 北京京东尚科信息技术有限公司 一种识别方法和设备
CN110222613A (zh) * 2019-05-28 2019-09-10 绍兴数鸿科技有限公司 一种基于卷积神经网络的竖排版繁体中文识别方法
CN110706310B (zh) * 2019-08-23 2021-10-22 华为技术有限公司 一种图文融合方法、装置及电子设备
CN110706310A (zh) * 2019-08-23 2020-01-17 华为技术有限公司 一种图文融合方法、装置及电子设备
CN111259899A (zh) * 2020-01-13 2020-06-09 华中科技大学 一种喷码字符检测方法
CN111259899B (zh) * 2020-01-13 2022-11-08 华中科技大学 一种喷码字符检测方法
CN111259891A (zh) * 2020-01-19 2020-06-09 福建升腾资讯有限公司 一种自然场景下身份证识别方法、装置、设备和介质
CN111259891B (zh) * 2020-01-19 2023-04-18 福建升腾资讯有限公司 一种自然场景下身份证识别方法、装置、设备和介质
CN112349425A (zh) * 2020-02-10 2021-02-09 胡秋明 新型冠状病毒感染肺炎人工智能快速筛查系统
CN111611933A (zh) * 2020-05-22 2020-09-01 中国科学院自动化研究所 文档图像的信息提取方法及系统
CN111611933B (zh) * 2020-05-22 2023-07-14 中国科学院自动化研究所 文档图像的信息提取方法及系统
CN112257629A (zh) * 2020-10-29 2021-01-22 广联达科技股份有限公司 一种建筑图纸的文本信息识别方法及装置
CN112305078A (zh) * 2020-10-30 2021-02-02 安徽理工大学 一种柱状体中缺陷三维形状的重构方法
CN113610068A (zh) * 2021-10-11 2021-11-05 江西风向标教育科技有限公司 基于试卷图像的试题拆解方法、系统、存储介质及设备
CN113989808A (zh) * 2021-10-25 2022-01-28 广东宏远新科自动化技术开发有限公司 基于图纸信息处理的机械制造材料规格选择方法及系统
CN113989808B (zh) * 2021-10-25 2022-11-18 广东宏远新科自动化技术开发有限公司 基于图纸信息处理的机械制造材料规格选择方法及系统
CN114463757A (zh) * 2022-01-28 2022-05-10 上海电机学院 基于机器视觉的工业场景字符端侧推理训练装置及方法

Also Published As

Publication number Publication date
CN109117713B (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN109117713A (zh) 一种全卷积神经网络的图纸版面分析与文字识别方法
CN110322495B (zh) 一种基于弱监督深度学习的场景文本分割方法
CN109002841B (zh) 一种基于Faster-RCNN模型的建筑构件提取方法
CN101315663B (zh) 一种基于区域潜在语义特征的自然场景图像分类方法
Li et al. Improving convolutional neural network for text classification by recursive data pruning
CN109033954A (zh) 一种基于机器视觉的空中手写识别系统及方法
CN110070091A (zh) 用于街景理解的基于动态插值重建的语义分割方法及系统
CN110751212B (zh) 一种移动设备上高效的细粒度图像识别方法
CN105631466A (zh) 图像分类的方法及装置
CN113159045A (zh) 一种结合图像预处理与卷积神经网络的验证码识别方法
Wang et al. Learning fine-grained segmentation of 3d shapes without part labels
Ramzi et al. Online Arabic handwritten character recognition using online-offline feature extraction and back-propagation neural network
CN109117715A (zh) 一种基于ssd模型的建筑图纸非构件识别方法
CN113361589A (zh) 基于迁移学习与知识蒸馏的珍稀濒危植物叶片识别方法
CN112435273A (zh) 一种将位图转换为矢量图的方法
CN116934613A (zh) 一种用于文字修复的分支卷积通道注意力模块
Kartheek et al. Modified chess patterns: handcrafted feature descriptors for facial expression recognition
CN112861640B (zh) 一种面向智能终端领域的动态手势识别硬件加速器
CN102214292B (zh) 人脸图像的光照处理方法
CN102043948A (zh) 一种视频文本分割方法
Zhu et al. Chip surface character recognition based on improved LeNet-5 convolutional neural network
Antony et al. Segmentation and recognition of characters on Tulu palm leaf manuscripts
Zhang et al. Approach to 3D face reconstruction through local deep feature alignment
Kang et al. Handwritten hangul character recognition with hierarchical stochastic character representation
Harris et al. A Multi-Stage Advanced Deep Learning Graphics Pipeline

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190101

Assignee: Suzhou Hongtu Intelligent Technology Co.,Ltd.

Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY

Contract record no.: X2021980014034

Denomination of invention: A method of paper layout analysis and character recognition based on full convolution neural network

Granted publication date: 20211112

License type: Common License

Record date: 20211208