CN110032989A - 一种基于框线特征和像素分布的表格文档图像分类方法 - Google Patents

一种基于框线特征和像素分布的表格文档图像分类方法 Download PDF

Info

Publication number
CN110032989A
CN110032989A CN201910327555.XA CN201910327555A CN110032989A CN 110032989 A CN110032989 A CN 110032989A CN 201910327555 A CN201910327555 A CN 201910327555A CN 110032989 A CN110032989 A CN 110032989A
Authority
CN
China
Prior art keywords
image
wire
classified
pixel
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910327555.XA
Other languages
English (en)
Other versions
CN110032989B (zh
Inventor
柯逍
王俊强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201910327555.XA priority Critical patent/CN110032989B/zh
Publication of CN110032989A publication Critical patent/CN110032989A/zh
Application granted granted Critical
Publication of CN110032989B publication Critical patent/CN110032989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于框线特征和像素分布的表格文档图像分类方法,首先对待分类图像进行灰度化和二值化,接着对得到的二值图像进行基于连通域分析的框线增强操作,对框线增强之后的图像进行基于深度学习方法的图像去噪;对经过预处理的待测图像,用基于形态学的直线检测方法分别检测并提取出横、纵框线,并将其细化,然后采用基于Npcanny的直线检测方法获取框线条数信息;对横框线图像进行水平方向投影,对纵框线进行垂直方向投影,并记录投影后的位置以及像素值,将得到的框线坐标与长度信息与模板库中已录入的标准模板信息进行匹配,筛选出与待分类图像相似度最高的模板图像,最后输出待分类图像的分类结果。本发明能够有效地对表格文档图像进行分类。

Description

一种基于框线特征和像素分布的表格文档图像分类方法
技术领域
本发明涉及形态学与计算机视觉领域,特别是一种基于框线特征和像素分布的表格文档图像分类方法。
背景技术
随着经济社会不断发展进步,国家的各个行业和部门在每天的生产生活中都会产生大量的表格文档,采用人工对这些表格文档进行分类不仅效率低,而且分类的准确率也得不到保证。表格文档的分类特征一般有标题、框线、特殊字符等,由于基于框线的表格文档分类方法通用性较好,这里将框线特征作为表格文档的分类特征。
表格文档图像分类通过对读入计算机的表格文档图像的框线特征进行检测和提取,并将提取到框线信息进行电子化处理,最终实现表格文档的自动分类。
发明内容
有鉴于此,本发明的目的是提出一种基于框线特征和像素分布的表格文档图像分类方法,对于图像质量交叉的表格文档图像进行框线增强处理,使图像的框线结构特征得到增强,有效提升了图像的质量,提高了框线检测的准确率,并结合图像处理中的投影法获取框线的电子化特征信息。
本发明采用以下方案实现:一种基于框线特征和像素分布的表格文档图像分类方法,包括以下步骤:
步骤S1:获取并读取待分类表格文档图像即待分类图像,并对所述待分类图像进行灰度化、二值化以及基于连通域分析的框线结构增强操作;
步骤S2:采用基于多层感知器的深度学习方法对增强之后的待分类图像去噪,完成待分类图像的预处理;
步骤S3:利用基于形态学的直线检测方法分别检测待分类图像的横、纵框线,得到横、纵框线图像,并对得到的横纵框线图像分别进行图像细化;采用基于NPcanny的直线检测方法分别获取所述待分类图像的横、纵框线条数信息;
步骤S4:将所述横纵框线图像分别进行水平和垂直方向投影并记录投影的位置和像素值信息;将得到的信息与标准模板库中的信息进行匹配,筛选出与待分类图像相似度最高的模板图像,最后输出待测图像的分类结果。
进一步地,所述步骤S1具体包括以下步骤:
步骤S11:获取并读入所述待分类表格文档图像并将其转换成单通道灰度图像,所用公式为:
Y=0.299×R+0.587×G+0.114×B
其中,Y代表亮度即灰度值;R、G、B分别是图像中每一个像素的三个颜色分量;
步骤S12:采用自适应阈值算法将灰度图像变换为二值图像所用的公式如下:
其中,src(u,v)为原始值;dst(u,v)为输出值;T(u,v)为自适应阈值;max_value是自适应灰度值;
步骤S13:对所述待分类图像的二值化图像进行形态学膨胀操作,将二值化图像与中间带有参考点的实心矩形卷积核进行卷积运算,计算卷积核覆盖的区域的像素点的最大值,并把这个最大值赋值给参考点指定的像素,膨胀操作公式为:
其中,Z和B是进行膨胀操作的两个结构元素;z是结构元素B平移的距离;B[z]是结构元素平移z后得到的点;φ是空集符号;
步骤S14:采用基于二值图像拓扑结构分析的轮廓检测算法对膨胀后的二值图像进行连通域检测,检测并获得膨胀后二值图像的外轮廓信息,并将检测到的外轮廓内部用黑色像素进行填充。
进一步地,所述步骤S2具体包括以下步骤:
步骤S21:获取噪声图像数据和无噪音的地面真实图像;对于每个无噪音地面图像数据集,每个像素的协方差与其(R,G,B)值和8×8×4补丁信息一起输入多层感知器模型,其中95%的图像数据用于训练,5%的图像数据用于验证;
步骤S22:通过多层感知器训练向量值输入层的非线性变换,输入层通过几个隐藏层映射到输出层,得到待分类图像中的的噪声分布情况;多层感知器的定义式为:
x(n+1)=g(b(n)+W(n)x(n))
其中,x(n+1)是网络中第n+1层的值且x(n)是第n层的值,W(n)是可训练权重;b(n)是可训练偏差;g是非线性激活函数;
步骤S23:根据步骤S22中得到的噪声分布情况,利用贝叶斯非局部均值滤波器去除待分类图像中的噪声,输出去除噪声之后的图像,完成待分类图像预处理。
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:令两个结构元素分别为:结构元素Hstructuring和结构元素Vstructuring;
步骤S32:利用结构元素Hstructuring对预处理之后的待分类图像先进行腐蚀操作再进行膨胀操作,并提取出待分类图像的每条横框线并去除待分类图像中的字符,得到待分类图像的横框线图像;
步骤S33:用结构元素Vstructuring对预处理之后的待分类图像先进行腐蚀操作再进行膨胀操作,并提取出待分类图像的每条纵框线并去除待分类图像中的字符,得到待分类图像的纵框线图像;
步骤S34:采用Zhang快速并行细化算法分别将所述横纵框线图像一层层剥离,仍保持原来的形状,最终得到横纵框线图像的骨架;
步骤S35:采用NPcanny边缘检测器根据输入的待分类图像的梯度大小,自适应地调整canny操作的高低阈值,然后从梯度幅度最大的边缘像素开始,在边缘地图上收集具有方向控制的像素,将线段向两个方向扩展,收集更多的边缘像素,并与周围的其他共线线段合并,对漏检的线段进行二次检测和补充提取;
步骤S36:采用基于赫尔姆霍兹的线段验证方法,对步骤S35中检测到的线段进行验证并获取框线条数信息。
进一步地,所述步骤S4具体包括以下步骤:
步骤S41:读取所述待分类图像的横框线图像,分别进行灰度化和二值化处理,然后将所述横框线图像进行水平方向投影,并记录下投影的位置和像素值;
步骤S42:根据横框线的特征,将投影位置坐标连续且投影像素值不为0的投影点判定为同一条横框线水平投影之后的点,将这些点的水平投影的像素值相加,并将这些点中的第一个点的横坐标作为该条横框线的位置坐标;
步骤S43:读入所述待分类图像的纵框线图像,分别进行灰度化和二值化处理,然后将所述纵框线图像进行垂直方向投影,并记录下投影的位置和像素值;
步骤S44:据纵框线的特征,将投影位置坐标连续且投影像素值不为0的投影点判定为同一条纵框线垂直投影之后的投影点,将这些点的垂直投影的像素值相加,并将这些点中的第一个点的纵坐标作为该条纵框线的位置坐标;
步骤S45:将得到的横框线位置坐标和像素值与所述标准模板库中的对应信息分别进行匹配,当所述待分类图像的位置坐标与标准模板的标准位置坐标的差值小于或等于20且像素值差值小于或等于60时,该模板下的横框线匹配条数ac的值加1;
步骤S46:将得到的纵框线位置坐标和像素值与标准模板库中的对应信息分别进行匹配,当待分类图像的位置坐标与标准模板的标准位置坐标的差值小于或等于20且像素值差值小于或等于60时,该模板下的纵框线匹配条数bc的值加1;
步骤S47:将横框线匹配条数ac与纵框线匹配条数bc相加,得到该模板下待分类图像的总框线匹配条数zc,将标准模板中zc值最大的模板图像判定为与待分类图像相似度最高的图像,并将待分类图像的类别判定为此类模板,最后输出待分类图像的图像类别。
与现有技术相比,本发明有以下有益效果:
1、本发明能够有效地对表格文档图像进行分类,提升表格文档图像分类结果的准确率。
2、本发明能够对读入计算机的表格文档图像完成自动分类,并输出分类结果。
3、针对图像质量较差的表格文档图像,本发明起到了增强表格框线结构的作用,切实有效地改善并提升了图像质量,对于图像中存在的噪点,采用了基于深度学习方法的图像去噪,减少了噪点对框线检测的影响,有效提高了框线检测的准确率。
4、针对传统图像分类方法中,分类结果的准确率不理想的情况,本发明通过对细化后的框线图像采用基于NPcanny的直线检测方法获取框线条数信息,然后分别对细化后的横纵框线进行水平投影和垂直投影,获取框线的坐标和长度信息,并将这些信息作为分类依据,将待分类图像与标准模板库中的模板图像分别匹配,筛选出相似度最高的模板图像,作为分类结果,并最终输出分类结果。
附图说明
图1为本发明实施例的流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,本实施例提供了一种基于框线特征和像素分布的表格文档图像分类方法,具体包括以下步骤:
步骤S1:获取并读取待分类表格文档图像即待分类图像,并进行灰度化、二值化、基于连通域分析的框线结构增强操作;
步骤S2:采用基于多层感知器的深度学习方法对增强之后的待分类图像去噪,完成待分类图像的预处理;
步骤S3:用基于形态学的直线检测方法,分别检测并提取出待分类图像的横、纵框线并进行细化,采用基于NPcanny的直线检测方法分别获取所述待分类图像的横、纵框线条数信息;
步骤S4:将得到的横纵框线图像分别进行水平和垂直方向投影并记录投影的位置和像素值信息,将得到的信息与标准模板库中的信息进行匹配,筛选出与待分类图像相似度最高的模板图像,最后输出待测图像的分类结果。
在本实施例中,步骤S1具体包括以下步骤:
步骤S11:获取并读入所述待分类表格文档图像并将其转换单通道灰度图像,所用公式为:
Y=0.299×Rt0.587×G+0.114×B
其中Y代表亮度,就是灰度值,R、G、B是图像中每一个像素的三个颜色分量;
步骤S12:局部自适应阈值法的二值化阈值可变,像素的邻域块像素值的分布情况决定阈值的选取,自适应阈值算法将灰度图像变换为二值图像所用的公式如下:
其中,src(u,v)为原始值,dst(u,v)为输出值,T(u,v)为自适应阈值,max_value是自适应灰度值;
步骤S13:对所述待分类图像的二值化图像进行形态学膨胀操作,将二值化图像与中间带有参考点的实心矩形卷积核进行卷积运算,计算卷积核覆盖的区域的像素点的最大值,并把这个最大值赋值给参考点指定的像素,膨胀操作公式为:
其中,Z和B是进行膨胀操作的两个结构元素,z是结构元素B平移的距离,B[z]是结构元素平移z后得到的点,φ是空集符号;
步骤S14:采用基于二值图像拓扑结构分析的轮廓检测算法对膨胀后的二值图像进行连通域检测,检测并获得膨胀后二值图像的外轮廓信息,并将检测到的外轮廓内部用黑色像素进行填充。
在本实施例中,步骤S2具体包括以下步骤:
步骤S21:收集高质量噪声图像数据,拍摄15个静态场景的训练图像,每个场景800张jpeg图像,并计算每个场景的平均图像,生成无噪音的地面真实图像;对于无噪音地面图像数据集,每个像素的协方差与其(R,G,B)值和8×8×4补丁信息一起输入模型,其中95%的图像数据用于训练,5%的图像数据用于验证;
步骤S22:通过多层感知器(MLP)训练向量值输入层的非线性变换,输入层通过几个隐藏层映射到输出层,得到待分类图像中的的噪声分布情况,多层感知器的定义式为:
x(n+1)=g(b(n)+W(n)x(n))
其中,x(n+1)是网络中第n+1层的值且x(n)是第n层的值(x(1)是输入层),W(n)是可训练权重;b(n)是可训练偏差;g是非线性激活函数;
步骤S23:根据步骤S22中得到的噪声分布情况,用贝叶斯非局部均值滤波器去除待分类图像中的噪声,输出去除噪声之后的图像。
在本实施例中,步骤S3具体包括以下步骤:
步骤S31:定义结构元素Hstructuring:
Hsize=horimage.cols/scale1;
Hstructuring=getStructuringElement(MORPH_RECT,size(Hsize,1));
定义结构元素Vstructuring:
Vsize=verimage.rows/scale2;
Vstructuring=getStructuringElement(MORPH_RECT,size(1,Vsize));
其中horimage.cols和verimage.rows分别为读入图像的行列值,其中scale1和scale2为整数,getStructuringElement()是内核矩阵函数,MORPH_RECT代表矩形,size(Hsize,1)和size(1,Vsize)表示内核尺寸;
步骤S32:用结构元素Hstructuring对预处理之后的待分类图像先进行腐蚀操作再进行膨胀操作,完整地提取出待分类图像的每条横框线并去除待分类图像中的字符等干扰项,得到待测图像的横框线图像;
步骤S33:用结构元素Vstructuring对预处理之后的待分类图像先进行腐蚀操作再进行膨胀操作,完整地提取出待分类图像的每条纵框线并去除待分类图像中的字符等干扰项,得到待分类图像的纵框线图像;
步骤S34:采用Zhang快速并行细化算法分别将横框线图像一层层剥离,去掉图像中的一些点,仍保持原来的形状,最终得到横纵框线图像的骨架;
步骤S35:NPcanny边缘检测器根据输入的待分类图像的梯度大小,自适应地调整canny操作的高低阈值,从输入图像中提取边缘映射的同时,保证图像结构信息的完整性,然后从梯度幅度最大的边缘像素开始,在边缘地图上收集具有方向控制的像素,将线段向两个方向扩展,收集更多的边缘像素,并与周围的其他共线线段合并,对漏检的线段进行二次检测和补充提取;
步骤S36:采用基于赫尔姆霍兹原理的线段验证方法,对检测到的线段进行验证并获取框线条数信息。
在本实施例中,步骤S4具体包括以下步骤:
步骤S41:读入待分类图像的横框线细化图像,进行灰度化和二值化处理,然后将横框线图像进行水平方向投影,并记录下投影的位置和像素值信息;
步骤S42:根据横框线的特征,将投影位置坐标连续且投影像素值不为0的投影点判定为同一条横框线水平投影之后的点,将这些点的水平投影的像素值相加,并将这些点中的第一个点的横坐标作为该条横框线的位置坐标;
步骤S43:读入待分类图像的纵框线细化图像,进行灰度化和二值化处理,然后将纵框线图像进行垂直方向投影,并记录下投影的位置和像素值信息;;
步骤S44:据纵框线的特征,将投影位置坐标连续且投影像素值不为0的投影点判定为同一条纵框线垂直投影之后的投影点,将这些点的垂直投影的像素值相加,并将这些点中的第一个点的纵坐标作为该条纵框线的位置坐标;
步骤S45:将得到的横框线位置坐标和像素值信息与标准模板库中27类模板的对应信息分别进行匹配,当待分类图像的位置坐标与模板的标准位置坐标的差值小于等于20且像素值差值小于等于60时,该模板下的横框线匹配条数ac的值加1;
步骤S46:将得到的纵框线位置坐标和像素值信息与标准模板库中27类模板的对应信息分别进行匹配,当待分类图像的位置坐标与模板的标准位置坐标的差值小于等于20且像素值差值小于等于60时,该模板下的纵框线匹配条数bc的值加1;
步骤S47:将横框线匹配条数ac与纵框线匹配条数bc相加,得到该模板下待分类图像的总框线匹配条数zc,将27类模板中zc值最大的模板图像判定为与待分类图像相似度最高的图像,并将待分类图像的类别判定为此类模板,最后输出待分类图像的图像类别。
在本实施例中,所述的标准模板库的建立方法为:在已知类别的包括"理赔审核通知书","承保前撤件申请书(电销版)","个人告知书","网上服务申请书","审核通知书","保全付费高额件审批表","调查报告","保险合同借款协议书","健康告知书","健康告知书X","承保前撤件申请书","人寿保险投保单1","委托金融储蓄机构付款/收款转账授权书","投保告知书","其它告知书","人寿保险投保确认单(电话销售渠道专用)","税优健康保险投保单","人寿保险投保单2","税优健康保险投保单(银保使用版)","代理人报告书","保单及客户资料变更类","投保内容书","投保内容书X","保险合同内容变更申请书","保险合同内容变更申请书X","人寿保险投保单3","客户资料变更类"的27类表格文档图像中,每个类别选定一张图像质量佳,框线特征明显的图像作为模板图像,并用上述方法分别获取横框线的位置坐标和像素值信息并录入模板库,作为标准电子模板。
特别的,本实施例针对图像质量较差的表格文档图像,提出了一种基于连通域分析的表格框线结构增强方法,起到了增强表格框线结构的作用,切实有效地改善并提升了图像质量,对于图像中存在的噪点,采用了基于深度学习方法的图像去噪,减少了噪点对框线检测的影响。针对传统图像分类方法准确率不高,分类错误的情况较多的情况,本发明提出了基于像素分布的图像电子化和分类方法,通过分别对细化后的横纵框线进行水平投影和垂直投影,获取框线的坐标和长度信息,并将这些信息作为分类依据,将待分类图像与标准模板库中的模板图像分别匹配,筛选出相似度最高的模板图像,作为分类结果,并最终输出分类结果。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (5)

1.一种基于框线特征和像素分布的表格文档图像分类方法,其特征在于:
包括以下步骤:
步骤S1:获取并读取待分类表格文档图像即待分类图像,并对所述待分类图像进行灰度化、二值化以及基于连通域分析的框线结构增强操作;
步骤S2:采用基于多层感知器的深度学习方法对增强之后的待分类图像去噪,完成待分类图像的预处理;
步骤S3:利用基于形态学的直线检测方法分别检测待分类图像的横、纵框线,得到横、纵框线图像,并对得到的横纵框线图像分别进行图像细化;采用基于NPcanny的直线检测方法分别获取所述待分类图像的横、纵框线条数信息;
步骤S4:将所述横纵框线图像分别进行水平和垂直方向投影并记录投影的位置和像素值信息;将得到的信息与标准模板库中的信息进行匹配,筛选出与待分类图像相似度最高的模板图像,最后输出待测图像的分类结果。
2.根据权利要求1所述的一种基于框线特征和像素分布的表格文档图像分类方法,其特征在于:所述步骤S1具体包括以下步骤:
步骤S11:获取并读入所述待分类表格文档图像并将其转换成单通道灰度图像,所用公式为:
Y=0.299×R+0.587×G+0.114×B
其中,Y代表亮度即灰度值;R、G、B分别是图像中每一个像素的三个颜色分量;
步骤S12:采用自适应阈值算法将灰度图像变换为二值图像所用的公式如下:
其中,src(u,v)为原始值;dst(u,v)为输出值;T(u,v)为自适应阈值;max_value是自适应灰度值;
步骤S13:对所述待分类图像的二值化图像进行形态学膨胀操作,将二值化图像与中间带有参考点的实心矩形卷积核进行卷积运算,计算卷积核覆盖的区域的像素点的最大值,并把这个最大值赋值给参考点指定的像素,膨胀操作公式为:
其中,Z和B是进行膨胀操作的两个结构元素;z是结构元素B平移的距离;B[z]是结构元素平移z后得到的点;φ是空集符号;
步骤S14:采用基于二值图像拓扑结构分析的轮廓检测算法对膨胀后的二值图像进行连通域检测,检测并获得膨胀后二值图像的外轮廓信息,并将检测到的外轮廓内部用黑色像素进行填充。
3.根据权利要求1所述的一种基于框线特征和像素分布的表格文档图像分类方法,其特征在于:所述步骤S2具体包括以下步骤:
步骤S21:获取噪声图像数据和无噪音的地面真实图像;对于每个无噪音地面图像数据集,每个像素的协方差与其(R,G,B)值和8×8×4补丁信息一起输入多层感知器模型,其中95%的图像数据用于训练,5%的图像数据用于验证;
步骤S22:通过多层感知器训练向量值输入层的非线性变换,输入层通过几个隐藏层映射到输出层,得到待分类图像中的的噪声分布情况;多层感知器的定义式为:
x(n+1)=g(b(n)tW(n)x(n))
其中,x(n+1)是网络中第n+1层的值且x(n)是第n层的值,W(n)是可训练权重;b(n)是可训练偏差;g是非线性激活函数;
步骤S23:根据步骤S22中得到的噪声分布情况,利用贝叶斯非局部均值滤波器去除待分类图像中的噪声,输出去除噪声之后的图像,完成待分类图像预处理。
4.根据权利要求1所述的一种基于框线特征和像素分布的表格文档图像分类方法,其特征在于:所述步骤S3具体包括以下步骤:
步骤S31:令两个结构元素分别为:结构元素Hstructuring和结构元素Vstructuring;
步骤S32:利用结构元素Hstructuring对预处理之后的待分类图像先进行腐蚀操作再进行膨胀操作,并提取出待分类图像的每条横框线并去除待分类图像中的字符,得到待分类图像的横框线图像;
步骤S33:用结构元素Vstructuring对预处理之后的待分类图像先进行腐蚀操作再进行膨胀操作,并提取出待分类图像的每条纵框线并去除待分类图像中的字符,得到待分类图像的纵框线图像;
步骤S34:采用Zhang快速并行细化算法分别将所述横纵框线图像一层层剥离,仍保持原来的形状,最终得到横纵框线图像的骨架;
步骤S35:采用NPcanny边缘检测器根据输入的待分类图像的梯度大小,自适应地调整canny操作的高低阈值,然后从梯度幅度最大的边缘像素开始,在边缘地图上收集具有方向控制的像素,将线段向两个方向扩展,收集更多的边缘像素,并与周围的其他共线线段合并,对漏检的线段进行二次检测和补充提取;
步骤S36:采用基于赫尔姆霍兹的线段验证方法,对步骤S35中检测到的线段进行验证并获取框线条数信息。
5.根据权利要求1所述的一种基于框线特征和像素分布的表格文档图像分类方法,其特征在于:所述步骤S4具体包括以下步骤:
步骤S41:读取所述待分类图像的横框线图像,分别进行灰度化和二值化处理,然后将所述横框线图像进行水平方向投影,并记录下投影的位置和像素值;
步骤S42:根据横框线的特征,将投影位置坐标连续且投影像素值不为0的投影点判定为同一条横框线水平投影之后的点,将这些点的水平投影的像素值相加,并将这些点中的第一个点的横坐标作为该条横框线的位置坐标;
步骤S43:读入所述待分类图像的纵框线图像,分别进行灰度化和二值化处理,然后将所述纵框线图像进行垂直方向投影,并记录下投影的位置和像素值;
步骤S44:据纵框线的特征,将投影位置坐标连续且投影像素值不为0的投影点判定为同一条纵框线垂直投影之后的投影点,将这些点的垂直投影的像素值相加,并将这些点中的第一个点的纵坐标作为该条纵框线的位置坐标;
步骤S45:将得到的横框线位置坐标和像素值与所述标准模板库中的对应信息分别进行匹配,当所述待分类图像的位置坐标与标准模板的标准位置坐标的差值小于或等于20且像素值差值小于或等于60时,该模板下的横框线匹配条数ac的值加1;
步骤S46:将得到的纵框线位置坐标和像素值与标准模板库中的对应信息分别进行匹配,当待分类图像的位置坐标与标准模板的标准位置坐标的差值小于或等于20且像素值差值小于或等于60时,该模板下的纵框线匹配条数bc的值加1;
步骤S47:将横框线匹配条数ac与纵框线匹配条数bc相加,得到该模板下待分类图像的总框线匹配条数zc,将标准模板中zc值最大的模板图像判定为与待分类图像相似度最高的图像,并将待分类图像的类别判定为此类模板,最后输出待分类图像的图像类别。
CN201910327555.XA 2019-04-23 2019-04-23 一种基于框线特征和像素分布的表格文档图像分类方法 Active CN110032989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910327555.XA CN110032989B (zh) 2019-04-23 2019-04-23 一种基于框线特征和像素分布的表格文档图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910327555.XA CN110032989B (zh) 2019-04-23 2019-04-23 一种基于框线特征和像素分布的表格文档图像分类方法

Publications (2)

Publication Number Publication Date
CN110032989A true CN110032989A (zh) 2019-07-19
CN110032989B CN110032989B (zh) 2022-07-08

Family

ID=67239775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910327555.XA Active CN110032989B (zh) 2019-04-23 2019-04-23 一种基于框线特征和像素分布的表格文档图像分类方法

Country Status (1)

Country Link
CN (1) CN110032989B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766697A (zh) * 2019-10-16 2020-02-07 南京大学 一种界面草图的图形界面控件图像识别的方法和装置
CN111209831A (zh) * 2019-12-31 2020-05-29 上海犀语科技有限公司 一种基于分类算法的文档表格内容识别方法及装置
CN111539312A (zh) * 2020-04-21 2020-08-14 罗嘉杰 一种从图像中抽取表格的方法
CN111881883A (zh) * 2020-08-10 2020-11-03 晶璞(上海)人工智能科技有限公司 一种基于卷积特征提取与形态学处理的表格文档提取方法
CN112613513A (zh) * 2020-12-31 2021-04-06 北京市商汤科技开发有限公司 图像识别方法、装置和系统
CN112733573A (zh) * 2019-10-14 2021-04-30 顺丰科技有限公司 表格检测方法、装置、移动终端及存储介质
CN112766073A (zh) * 2020-12-31 2021-05-07 贝壳技术有限公司 表格提取方法、装置、电子设备及可读存储介质
CN113065566A (zh) * 2021-03-19 2021-07-02 南京天巡遥感技术研究院有限公司 一种误匹配去除方法、系统及应用
CN113139445A (zh) * 2021-04-08 2021-07-20 招商银行股份有限公司 表格识别方法、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置
US20160092730A1 (en) * 2014-09-30 2016-03-31 Abbyy Development Llc Content-based document image classification
CN106096610A (zh) * 2016-06-13 2016-11-09 湖北工业大学 一种基于支持向量机的文档图像二值化方法
CN108345881A (zh) * 2018-02-01 2018-07-31 福州大学 一种基于计算机视觉的文档质量检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置
US20160092730A1 (en) * 2014-09-30 2016-03-31 Abbyy Development Llc Content-based document image classification
CN106096610A (zh) * 2016-06-13 2016-11-09 湖北工业大学 一种基于支持向量机的文档图像二值化方法
CN108345881A (zh) * 2018-02-01 2018-07-31 福州大学 一种基于计算机视觉的文档质量检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
K. S. RAGHUNANDAN ET AL.: "New Sharpness Features for Image Type Classification Based on Textual Information", 《2016 12TH IAPR WORKSHOP ON DOCUMENT ANALYSIS SYSTEMS (DAS)》 *
石蒙蒙 等: "基于结构化局部边缘模式的文档图像分类", 《厦门大学学报(自然科学版)》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733573B (zh) * 2019-10-14 2024-04-19 顺丰科技有限公司 表格检测方法、装置、移动终端及存储介质
CN112733573A (zh) * 2019-10-14 2021-04-30 顺丰科技有限公司 表格检测方法、装置、移动终端及存储介质
CN110766697B (zh) * 2019-10-16 2023-08-04 南京大学 一种界面草图的图形界面控件图像识别的方法和装置
CN110766697A (zh) * 2019-10-16 2020-02-07 南京大学 一种界面草图的图形界面控件图像识别的方法和装置
CN111209831A (zh) * 2019-12-31 2020-05-29 上海犀语科技有限公司 一种基于分类算法的文档表格内容识别方法及装置
CN111539312A (zh) * 2020-04-21 2020-08-14 罗嘉杰 一种从图像中抽取表格的方法
CN111881883A (zh) * 2020-08-10 2020-11-03 晶璞(上海)人工智能科技有限公司 一种基于卷积特征提取与形态学处理的表格文档提取方法
CN112766073A (zh) * 2020-12-31 2021-05-07 贝壳技术有限公司 表格提取方法、装置、电子设备及可读存储介质
CN112766073B (zh) * 2020-12-31 2022-06-10 贝壳找房(北京)科技有限公司 表格提取方法、装置、电子设备及可读存储介质
CN112613513A (zh) * 2020-12-31 2021-04-06 北京市商汤科技开发有限公司 图像识别方法、装置和系统
CN113065566A (zh) * 2021-03-19 2021-07-02 南京天巡遥感技术研究院有限公司 一种误匹配去除方法、系统及应用
CN113065566B (zh) * 2021-03-19 2024-01-09 南京天巡遥感技术研究院有限公司 一种误匹配去除方法、系统及应用
CN113139445A (zh) * 2021-04-08 2021-07-20 招商银行股份有限公司 表格识别方法、设备及计算机可读存储介质
CN113139445B (zh) * 2021-04-08 2024-05-31 招商银行股份有限公司 表格识别方法、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN110032989B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN110032989A (zh) 一种基于框线特征和像素分布的表格文档图像分类方法
CN110033471B (zh) 一种基于连通域分析和形态学操作的框线检测方法
Wu et al. Sstnet: Detecting manipulated faces through spatial, steganalysis and temporal features
CN109255344B (zh) 一种基于机器视觉的数显式仪表定位与读数识别方法
CN111401372A (zh) 一种扫描文档图文信息提取与鉴别的方法
CN108596166A (zh) 一种基于卷积神经网络分类的集装箱箱号识别方法
CN111915704A (zh) 一种基于深度学习的苹果分级识别方法
CN104794479B (zh) 基于局部笔画宽度变换的自然场景图片中文本检测方法
CN109740572A (zh) 一种基于局部彩色纹理特征的人脸活体检测方法
CN107273870A (zh) 一种监控场景下融合上下文信息的行人位置检测方法
CN109961416B (zh) 一种基于形态学梯度多尺度融合的营业执照信息提取方法
CN110046617A (zh) 一种基于深度学习的数字电表读数自适应识别方法
CN109615358B (zh) 一种基于深度学习图像识别的餐厅自动结算方法及系统
CN112819736A (zh) 一种基于多曝光的工件字符图像局部细节增强融合方法
CN107944499A (zh) 一种针对前景背景同时建模的背景检测方法
CN110705634A (zh) 一种鞋跟型号识别方法、装置及存储介质
CN110909622A (zh) 微表情识别金融风控方法及系统
Liu et al. Component semantic prior guided generative adversarial network for face super-resolution
Rana et al. Learning-based adaptive tone mapping for keypoint detection
CN110472639B (zh) 一种基于显著性先验信息的目标提取方法
CN110210561B (zh) 神经网络的训练方法、目标检测方法及装置、存储介质
CN110766001A (zh) 基于cnn和rnn的银行卡卡号定位与端到端识别方法
Munivel et al. MLIBT: A multi-level improvised binarization technique for Tamizhi inscriptions
Babu et al. A feature based approach for license plate-recognition of Indian number plates
Krishna et al. Digital image processing techniques in character recognition-a survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant