CN110246098B - 一种碎片复原方法 - Google Patents

一种碎片复原方法 Download PDF

Info

Publication number
CN110246098B
CN110246098B CN201910467300.3A CN201910467300A CN110246098B CN 110246098 B CN110246098 B CN 110246098B CN 201910467300 A CN201910467300 A CN 201910467300A CN 110246098 B CN110246098 B CN 110246098B
Authority
CN
China
Prior art keywords
character
fragments
line
characters
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910467300.3A
Other languages
English (en)
Other versions
CN110246098A (zh
Inventor
郑蕾
樊锁海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN201910467300.3A priority Critical patent/CN110246098B/zh
Publication of CN110246098A publication Critical patent/CN110246098A/zh
Application granted granted Critical
Publication of CN110246098B publication Critical patent/CN110246098B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种碎片复原方法,包括步骤:建立碎片的电子图像,并转化为二值化电子图像;提取碎片字符,在一次提取字符行的基础上进一步提取字符列,再二次提取字符行,提取到所需的单个字符;建立字符数据库,数据库中的字符图像为与碎片中的字符相同字体的二值化矩阵;分行聚类,将属于同一横行的碎片聚为同一类;行内拼接,将同一类碎片拼接;拼接不同行的碎片。本发明可实现在有噪声的碎片图像中找到字符所在行并且准确地提取出字符,在保证准确率的前提下自动复原碎纸片。

Description

一种碎片复原方法
技术领域
本发明涉及图像处理技术领域,特别涉及一种基于字符提取技术和边缘字符识别技术的碎片复原方法。
背景技术
破碎纸片的修复技术常运用在司法取证、历史文献修复以及军事情报的获取等领域上,但面对数量巨大的碎片,人工修复方式效率显得低下,需要开发复原效率高的自动拼接技术,以提高需求方的工作效率,最大化地从碎纸片中获取到准确度高的信息。
有许多的研究人员研究了纵横切碎片文本自动重建问题,Schauer等人[1]定义了三种类型的碎纸片目,分别是①具有不规则边缘的手撕型碎片,②被碎纸机切碎的条型碎片,③被碎纸机粉碎的横纵切的碎片。特别是第③种碎纸片,由于光滑的边缘、很少的信息、较难去除的噪声,是难以还原的。Prandstetter证明纵横切文本文档的重构是一个NP问题[Schauer C,Prandtstetter M,Günther R.Raidl.A Memetic Algorithm forReconstructing Cross-Cut Shredded Text Documents[C]//International Conferenceon Hybrid Metaheuristics.Springer-Verlag,2010]。Hedong Xu等学者[Xu H,Zheng J,Zhuang Z,et al.A solution to reconstruct cross-cut shredded text documentsbased on character recognition and genetic algorithm[C]//Abstract and AppliedAnalysis.Hindawi,2014,2014.]提出了一个基于字符识别和遗传算法的方法去重构纵横切文本碎片,可以有效地重构文本文档。Junhua Chen等学者[Chen J,Ke D,Wang Z,etal.A high splicing accuracy solution to reconstruction of cross-cut shreddedtext document problem[J].Multimedia Tools and Applications,2018,77(15):19281-19300]基于Hedong Xu等学者提出的方法,引入了组合策略和分而治之的策略来提高准确率。
然而对纵横切文本碎片的扫描图像进行重构中还存在很多的问题,首要的问题就是前人的研究大部分是基于电子的纵横切文本碎片进行的[Chen J,Tian M,Qi X,et al.ASolution to Reconstruct Cross-Cut Shredded Text Documents Based onConstrained Seed K-means Algorithm and Ant Colony Algorithm[J].Expert Systemswith Applications,2019],当使用这些研究在真实的碎片(将文本文档打印在纸上,并且切割、扫描)是不合适的。因为大部分的研究是基于碎片边缘和基准线信息的,然而由于碎片可能会倾斜、裁剪时边缘缺失、扫描仪的曝光,难以判断边缘和基准线。第二个问题是复杂度,由于碎片仅有少量信息和大量难以去除的噪声(比如碎片电子图像中存在大量黑色像素点比较多的多墨行和多墨列),这个NP问题变得更加复杂。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种碎片复原方法,此方法通过行、列投影的方法,可实现在有噪声的碎片图像中找到字符所在行并且准确地提取出字符,在保证准确率的前提下自动复原碎纸片。
本发明的目的通过以下的技术方案实现:
一种碎片复原方法,包括步骤:
建立纵横切文本碎片的电子图像,并转化为二值化电子图像;
提取碎片字符,在一次提取字符行的基础上进一步提取字符列,再二次提取字符行,提取到所需的单个字符,从而去掉二值化电子图像的噪音;
建立字符数据库,数据库中的字符图像为与碎片中的字符相同字体的二值化矩阵;
分行聚类,通过确定文本最左侧碎片聚类中心,将其他碎片根据聚类距离分配到离其距离最短的聚类中心所述类,从而将属于同一横行的碎片聚为同一类;
行内拼接,通过估计碎片中边缘字符相对于数据库中字符的距离和缺失比例,进一步计算任意两张碎片之间的距离,根据两张碎片最小距离的排列将同一类碎片进行行内拼接;
拼接不同行的碎片。
优选的,所述建立碎片的电子图像包括步骤:
将纵横切文本碎片放在异色卡纸上;
扫描文本碎片;
从彩色的扫描图像中提取纵横切文本碎片的电子图像。
更进一步的,所述建立碎片电子图像的具体步骤为:
将纵横切文本碎片放在异色的背景(如蓝色)上并且扫描这些文档,扫描过程中保证碎片边缘和扫描仪平行;得到的扫描彩色图像是由rgb矩阵表示,也即由代表红、绿、蓝的三个矩阵表示;
通过判断彩色图像中的各矩阵像素点的差异,找出碎片边缘并截出纵横切文本的图像。
优选的,所述将碎片的电子图像转化为二值化电子图像的步骤为:
将碎片的电子图像转化为灰度图像;
设置像素点阈值Y,即灰度矩阵中像素点数值超过Y的点被0代替,其他点的被1代替,得到纵横切文本碎片的二值化电子图像。
优选的,所述提取字符行的具体步骤为:
做纵横切文本碎片的行投影,即做每行的黑色点个数的函数图像;
设置行投影数值的阈值为h1,行投影数值即每行黑色点个数大于h1的行被记录为多墨行;将所有的多墨行的索引放在一个向量中,这样的向量成为多墨行向量,即保存多墨行信息的向量;
因为字符的长度是较大的,只有连着的几行都为多墨行的行才为字符行;假设最小的字符长度为T1,记录连续的并且连接起来的长度大于T1的多墨行为字符行。
更进一步的,所述提取字符列的步骤为:
在一次提取的字符行中做列投影,即做每列的黑色点个数的函数图像;
设置列投影数值的阈值为h2,列投影数值即每列黑色点个数大于h2的列被记录为多墨列;
将所有的多墨列的索引放在一个向量中,即保存多墨列信息的向量;
因为字符的宽度是较大的,只有连着的几列都为多墨列的列才为字符列;假设最小的字符宽度为T2,记录连续的并且连接起来的长度大于T2的多墨列为字符列。
更进一步的,所述二次提取字符行的步骤为:
通过一次提取字符行、提取字符列,得到单个字符的大致边缘;
执行行投影,去除头部和尾部的非多墨行,就得到比较精准的字符的边缘和单个字符的矩阵。
优选的,在所述字符数据库的字符图像中,以字符提取技术得到每个字符的边缘;以边缘为边界,提取出每个字符的矩阵L=(lub)x×z,x×z为字符矩阵的规模,x为行数,z为列数;u、b分别为字符矩阵中的点的横坐标和纵坐标。
优选的,所述分行聚类的步骤具体为:
确定聚类向量v=(a1,a2,a3,a4)T,其中a1为碎片中第一个字符行顶部位置,a2为第一个字符行底部位置,a3为最后一个字符行顶部位置,a4为最后一个字符行底部位置,这里所说的位置为图像的坐标点,也即行索引;
选取聚类中心,根据原始文档中最左端的碎片的左侧存在较大面积的留白,筛选出文档中Sm个最左侧碎片。由于最左侧的碎片包含着每个文本行的信息,将这些最左侧的碎片作为聚类中心cp
聚类,将除聚类中心以外的其它碎片根据聚类距离分配到离其距离最短的聚类中心所属类;聚类距离指的是其它碎片q的聚类向量vq=(a'1,a'2,a'3,a'4)T和聚类中心cp的聚类向量vcp=(a1,a2,a3,a4)T之间的距离,a1'为其他碎片中第一个字符行顶部位置,a2'为其他碎片第一个字符行底部位置,a3'为其他碎片最后一个字符行顶部位置,a4'为其他碎片最后一个字符行底部位置;聚类距离
Figure GDA0003039025810000051
o取1、2、3、4;
利用上述步骤将所有碎片归为Sm类,并统计每一类的碎片数目。
优选的,将同一类碎片进行行内拼接前,计算每两张碎片的最小距离,具体步骤为:
提取碎片的边缘字符,计算边缘字符和字符库中每个字符的距离,得到边缘字符可能对应的原始字符和缺失比例;
拼接两个碎片,估计拼接处的最小距离,拥有最小距离的排列为最终的行内拼接顺序。此方法可以避免字符边缘信息和不能准确计算出的基准线的使用,并且具有较高的精确度。
更进一步的,所述得到边缘字符可能对应的原始字符和缺失比例的步骤为:
计算碎片的边缘字符和字符库中每个字符的距离和缺失比例;
根据边缘字符和字符库中每个字符的距离,估计出边缘字符所对应的原始字符、对于原始字符的距离和缺失比例;
具体步骤如下:
步骤一、计算碎片中字符的长和宽被放大的倍数ratio1和ratio2
①计算碎片中某个字符的长度被放大的倍数为
Figure GDA0003039025810000061
其中height为碎片中某字符的长度,height'为此字符在字符库中相同字符的高度;最终确定的碎片中字符的长度被放大的倍数为多个可识别字符的长度放大的倍数的均值ratio1=mean(ratiok);
②计算碎片中某个字符的宽度被放大的倍数为
Figure GDA0003039025810000062
其中width为碎片中某字符的宽度,width'为此字符在字符库中相同字符的宽度;最终确定的碎片中字符的宽度被放大的倍数为多个可识别字符的宽度放大的倍数的均值ratio2=mean(ratiof);
步骤二、将碎片中的边缘字符的长度按照
Figure GDA0003039025810000063
的比例放大,宽度按照
Figure GDA0003039025810000064
的比例放大;
步骤三、将边缘字符和字符库中的字符规范化;记某边缘字符放大后的矩阵为A,A的行数为line,列数为list,字符库中的字符矩阵A',A'的行数为line',列数为list',令正规化的矩阵列数LIST=list,正规化的矩阵行数LINE=max(line,line');由于A可能为A'删除左侧或者右侧某些列后的矩阵,为了让两个矩阵可以比较,需要将矩阵A正规化,方法如下:
a.若A为左边缘字符,将矩阵A和A'改为LINE×LIST维,删除A'左侧的列,并且将0填补到矩阵A和A'的上方;
b.若A为右边缘字符,将矩阵A和A'改为LINE×LIST维,删除A'右侧的列,并且将0填补到矩阵A和A'的下方;
得到正规化后A和A'的矩阵CA和CA'
步骤四、计算边缘字符矩阵A和字符库中某个字符矩阵A'的距离:
D(A,A')=norm(CA-CA');
步骤五、计算边缘字符矩阵A相对于字符库中某个字符矩阵A'的缺失比例loss:
loss(A,A')=|list-list'|;
步骤六、选择字符库中t个与A距离最小的字符为边缘字符A可能对应的原始字符。
更进一步的,所述估计两个碎片拼接处的最小距离应先求取两张碎片之间的距离,其步骤为:
计算两张碎片某个字符行之间的距离;假设拼接的两张碎片为P和Q,P为左侧的碎片,Q为右侧的碎片,需要计算的为第i个字符行之间的距离Di(P,Q);如果P和Q在第i个字符行拼接处的边缘字符是完整的,距离为0;否则距离为拼接起来的字符与可能对应的原始字符的最小距离;
具体步骤如下:
步骤一、选择tP个左碎片P在第i个字符行的右边缘字符可能对应的原始字符,即字符库中与右边缘字符距离最小的t个字符;
步骤二、选择tQ个右碎片Q在第i个字符行的左边缘字符可能对应的原始字符,即字符库中与右边缘字符距离最小的t个字符;
步骤三、因此P和Q在第i个字符行拼接处的边缘字符是完整的或者拼接处可能对应的原始字符为上述两步得到的集合的并集;
步骤四、假设CHARACTER为两个碎片P和Q第i个字符行拼接处可能对应的原始字符character的集合,碎片P第i个字符行拼接处字符对于这些原始字符集合的缺失比例集合为LOSSP,碎片Q第i个字符行拼接处字符对于这些原始字符集合的缺失比例集合为LOSSQ,碎片P第i个字符行的拼接处字符的列数为listP,碎片Q第i个字符行的拼接处字符的列数为listQ,因此以为P左碎片,Q为右碎片,P和Q第i个字符行处的距离为:
Figure GDA0003039025810000081
其中D(Pi,ak)为碎片P的第i个字符行的右字符和某个估计字符ak间的距离,D(Qi,ak)为碎片Q的第i个字符行的左字符和某个估计字符ak间的距离,h3是将字符视为完整字符的阈值;公式第一行意味着如果碎片P的第i个字符行的右字符是完整的,并且碎片Q的第i个字符行的左字符是完整的,则碎片P和Q的第i个字符行处是可以连接的;公式第二行意味着碎片P和Q的第i个字符行处的加权平均值。
步骤五、计算同一类中任意两张碎片之间的距离。假设两张碎片P,Q都有n个字符行,则碎片P,Q之间的距离为
Figure GDA0003039025810000082
更进一步的,计算得到每两张碎片的最小距离后,将同一类碎片进行行内拼接的步骤具体为:
步骤一、根据一类中的原始文本的最左侧碎片的左侧具有较大的空白,原始文本的最右侧碎片的右侧具有较大的空白,挑选出一类中的原始文本的最左侧和最右侧碎片;
步骤二、记同一类的一组以最左侧碎片为开头,以最右侧碎片为结尾的排列为(1,y2,y3,...,yr-1,Sr),定义这一组排列的距离为:
Figure GDA0003039025810000083
也就是各个碎片之间的距离的加权平均;Sr代表一行中碎片的总个数;y2,y3,...,yr-1为同一类碎片中间的一系列碎片;w为大于1小于r-1的一系列自然数;
步骤三、现在行内拼接问题转化成了一个优化问题,寻找最小距离的排列即为最终结果,基于最小距离的排列顺序拼接同一类碎片。有许多的方法解决这个问题,在问题规模较小的时候可以使用穷举法,问题规模较大时可以使用遗传算法。
优选的,所述拼接不同行碎片的具体步骤为:
识别字符所在行;
假定第x(x=1,2,…,Sm)行的顶部和底部的位置分别为
Figure GDA0003039025810000091
Figure GDA0003039025810000092
那么字符行间的间距可以定义为
Figure GDA0003039025810000093
Figure GDA0003039025810000094
之间的距离;
基于确定的字符行的间距拼接不同行。
对于一个文本文档而言,字符行间的间距都是大致相同的。利用这个相同原理完成行间拼接操作。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明通过行、列投影的方法,可实现在有噪声的碎片图像中找到字符所在行并且准确地提取出字符,在保证准确率的前提下自动复原碎纸片。
2、本发明采用的行内拼接技术,有效避免非准确字符边缘信息和不能准确计算出的基准线的干扰,降低噪音干扰并提高复原准确率。
3、本发明将不同行的碎片拼接问题转化成碎片最小距离的计算问题,进一步的,在问题规模较小和问题规模较大时都可寻求方法解决,方法适应性强。
附图说明
图1是本发明实施例中碎片电子图像建立流程示意图。
图2是图1的投影图像示意图。
图3是本发明实施例提取字符行流程示意图,其中(a)至(b)为行投影过程,(b)至(c)为记录多墨行过程,(c)至(d)为记录字符行的过程。
图4是本发明实施例提取字符流程图。
图5是本发明实施例最终提取的字符a的示意图。
图6是本发明实施例碎片聚类向量示意图,row12、row55、row347、row356分别为第一个字符行的顶部位置,第一个字符行的底部位置,最后一个字符行的顶部位置和最后一个字符行的底部位置。
图7是本发明实施例碎片聚类中心示意图。
图8是本发明实施例碎片边缘字符矩阵和字符库中的字符矩阵对比示意图,(a)为边缘字符矩阵,(b)为字符库中的字符矩阵。
图9是本发明实施例碎片字符正规化后的字符矩阵,(a)的字符为图8(a)的正规化字符矩阵,(b)的字符为图8(b)的正规化字符矩阵。
图10是图8中(a)的字符和字符库中从a到z所有字符的距离。
图11是图8中(a)的字符和字符库中从a到z所有字符的缺失列。
图12是本发明实施例行间拼接后的碎片示意图。
图13是本发明实施例第一测试文档整体示意图。
图14是本发明实施例第一测试文档碎片拼接示意图。
图15是本发明实施例第二测试文档内容示意图。
图16是本发明实施例第二测试文档碎片拼接示意图。
图17是本发明实施例碎片内容复原方法流程图。
图18为图2投影图像的放大图像示意图。
具体实施方式
为了更好的理解本发明的技术方案,下面结合附图详细描述本发明提供的实施例,但本发明的实施方式不限于此。
实施例
如图17所示,一种碎片内容复原方法,本实施例以英文内容的碎片为例:
建立纵横切文本碎片的电子图像,并转化为二值化电子图像;
提取碎片字符,在一次提取字符行的基础上进一步提取字符列,再二次提取字符行,提取到所需的单个字符,从而去掉二值化电子图像的噪音;
建立字符数据库,数据库中的字符图像为与碎片中的字符相同字体的二值化矩阵;
分行聚类,通过确定文本最左侧碎片聚类中心,将其他碎片根据聚类距离分配到离其距离最短的聚类中心所述类,从而将属于同一横行的碎片聚为同一类;
行内拼接,通过估计碎片中边缘字符相对于数据库中字符的距离和缺失比例,进一步计算任意两张碎片之间的距离,根据两张碎片最小距离的排列将同一类碎片进行行内拼接;
拼接不同行的碎片。
所述碎片内容复原方法的具体步骤如下:
1、建立碎片的电子图像;
本实施例处理的是真实的纵横切文本碎片,所以第一步就是将真实的纵横切文本碎片转化为电子图像。首先将真实的纵横切文本碎片放在蓝色卡纸上,然后扫描这些文档,接下来从彩色的扫描图像中提取纵横切文本碎片的电子图像,最后将将得到的彩图转化为二值化电子图像。
下面将详述这一过程:
1.1扫描纵横切文本碎片
为了更准确地提取出碎片并且找到碎片边缘,将纵横切文本碎片放在蓝色的背景卡纸上并且扫描这些文档,扫描过程中保证碎片边缘和扫描仪平行。因此得到扫描的彩色图像,它在电脑中是由rgb矩阵表示,也就是说是由代表红、绿、蓝的三个矩阵表示。
1.2提取纵横切文本碎片的图像
经过1.1得到以蓝色为背景的电子的彩色图像,接下来要从这个图像中提取白色矩形,即纵横切文本碎片。由于通过分析发现蓝色像素点在rgb矩阵的第一层矩阵中的数值小于200,白色像素点在rgb矩阵第一层矩阵中的数值大于200,因此可以区分蓝白点。若一行中白色像素点的个数大于k1,则此行在碎片中。同理,若一列中白色像素点的个数大于k2,则此列在碎片中。据此可以找到碎片的边缘并且截出纵横切文本的图像;
1.3图像二值化
先将1.2中提取出的纵横切文本碎片的彩色图像转化为灰度图像。再设置阈值为205,即灰度矩阵中数值超过205的点被0代替,其他点的被1代替。因此可以得到纵横切文本的二值化电子图像。
图2为图1碎片电子图像的投影图像,其不能体现碎片的准确边缘,这可能是由于碎片倾斜、碎片边缘粗糙、扫描曝光等原因造成的。
2、字符行提取技术、字符提取技术
从图1可以看出得到的二值化图像有较大的噪音。接下来,做这个图像的行投影,即做每行的黑色点个数的函数图像,如图2所示。图2是图1碎片的投影图像,图18是将图2纵坐标限制在0到30时放大的投影图像。从图2和图18也可以分析出碎片的二值化图像有较大的噪声。当使用了高斯去噪等去噪技术,图片的质量并没有改善。
为了在有噪声的碎片图像中找到字符所在的行并且较为准确地提取出字符,本文提出如下方法:不仅通过行投影,去除黑色点较少的行,而且考虑到最小字符长度和宽度,判断字符所在的行。通过提取字符行、字符列、第二次提取字符行的方法,提取到所需的单个字符。具体方法如下:
2.1、提取字符行
定义字符行是存在字符的行;多墨行是黑色像素点比较多的行,包括字符行和具有较大噪声的行。首先做二值图像的行投影,记录多墨行。接下来找到连续的并且连接起来的长度大于字符的最小长度的多墨行,记录这些行为字符行。
具体步骤如下:
步骤一、做纵横切文本碎片的行投影,即做每行的黑色点个数的函数图像。
步骤二、设置行投影数值的阈值为h1,行投影数值即每行黑色点个数大于h1的行被记录为多墨行;将所有的多墨行的索引放在一个向量中,这样的向量成为多墨行向量,即保存多墨行信息的向量。
步骤三、因为字符的长度是较大的,只有连着的几行都为多墨行的行才为字符行。假设最小的字符长度为T1,记录连续的并且连接起来的长度大于T1的多墨行为字符行。
如图3所示,其中(a)到(b)为行投影过程,(b)到(c)为记录多墨行过程,(c)到(d)为记录字符行的过程。
2.2、在每个字符行中提取字符列
定义字符列是在字符行中字符所在的列,多墨列指的是黑色像素点比较多的列,包括字符列和具有较大噪声的列。首先做列投影,记录多墨列。接下来找到连续的并且连接起来的宽度大于最小宽度的多墨列,记录这些列为字符列。具体步骤如下:
步骤一、在2.1中提取的字符行中做列投影,即做每列的黑色点个数的函数图像。
步骤二、设置列投影数值的阈值为h2,列投影数值即每列黑色点个数大于h2的列被记录为多墨列。将所有的多墨列的索引放在一个向量中,这样的向量成为多墨列向量,即保存多墨列信息的向量。
步骤三、因为字符的宽度是较大的,只有连着的几列都为多墨列的列才为字符列。假设最小的字符宽度为T2,记录连续的并且连接起来的长度大于T2的多墨列为字符列。
2.3、提取字符
经过2.1和2.2,便可以得到单个字符的大致边缘。接下来,再执行行投影,去除头部和尾部的非多墨行,就得到比较精准的字符的边缘和单个字符的矩阵。
如图4所示,为提取字符的流程图。
如图5所示,为最终提取的字符a。
3、建立英文字符库
建立英文字符库(同理,若需要复原以德文、法文等字母文字为内容的碎片,则可建立相应的字符库),获取和纵横切碎片有相同字体的二十六个大小写英文字母的二值化矩阵,具体步骤如下:
步骤一、生成字符图像,字符图像包括与碎片有相同字体的26个大小写英文字母的二值化矩阵。
步骤二、在字符图像中,以字符提取技术(如专利申请号201410127565.6公开的字符提取方法或其他现有的提取方法)得到每个字符的边缘。以边缘为边界,提取出每个字符的矩阵L=(lub)x×z,x×z指的是字符矩阵的规模,x为行数,z为列数;u、b分别为字符矩阵中的点的横坐标和纵坐标。
步骤三、通过上述字符提取技术得到的每个字符的矩阵存储在数据库中,以便接下来的工作。
4、分行聚类技术
由于处理对象是纵横切碎片,需要先将属于同一横行的碎片找出来,这一过程称为分行聚类,每一行被称为每一类。所述分行聚类的基础是字符所在行的识别技术,通过聚类向量、聚类中心和聚类距离,完成这一分行聚类过程。
4.1、确定聚类向量
针对每张碎片的,确定聚类向量v=(a1,a2,a3,a4)T,其中a1为碎片中第一个字符行顶部位置,a2为第一个字符行底部位置,a3为最后一个字符行顶部位置,a4为最后一个字符行底部位置,这里所说的位置为图像的坐标点,也即行索引。如图6所示。
4.2、选取聚类中心
根据原始文档中最左端的碎片的左侧存在较大面积的留白,筛选出文档中Sm个最左侧碎片。由于最左侧的碎片包含着每个文本行的信息,将这些最左侧的碎片作为聚类中心。如图7所示。
4.3、聚类
将除聚类中心以外的其它碎片根据聚类距离分配到离其距离最短的聚类中心所属类。聚类距离指的是其它碎片q的聚类向量vq=(a'1,a'2,a'3,a'4)T和聚类中心cp的聚类向量vcp=(a1,a2,a3,a4)T之间的距离,a1'为其他碎片中第一个字符行顶部位置,a2'为其他碎片第一个字符行底部位置,a3'为其他碎片最后一个字符行顶部位置,a4'为其他碎片最后一个字符行底部位置;聚类距离
Figure GDA0003039025810000151
o取1、2、3、4。
利用上述步骤将所有碎片归入Sm类中,并统计每一类的碎片数目;
5、行内拼接技术
经过分行聚类后,所有碎片已经分到各自所属行中,然后通过行内拼接技术,完成每一行的行内碎片拼接。
由于扫描图像有较大的噪音,并且难以消除,尤其是在碎片边缘处的噪音,所以不能得到准确的字符的边缘信息。并且由于扫描图像是英文字符库中字符按照一定比例放缩后的图像,不能准确计算出基准线。为了避免这些信息的使用,本文提出了计算两张碎片之间距离的改进算法。
通过提取碎片的边缘字符,计算边缘字符和字符库中每个字符的距离,得到边缘字符可能对应的原始字符和缺失比例。然后拼接两个碎片,估计拼接处的最小距离。拥有最小距离的排列为最终的行内拼接顺序。此方法可以避免字符边缘信息和不能准确计算出的基准线的使用,并且具有较高的精确度。
5.1、边缘字符对应的原始字符
计算碎片的边缘字符和字符库中每个字符的距离和缺失比例,然后根据边缘字符和字符库中每个字符的距离,估计出边缘字符所对应的原始字符、对于原始字符的距离和缺失比例。具体步骤如下:
步骤一、计算碎片中字符的长和宽被放大的倍数ratio1和ratio2
a.计算碎片中某个字符的长度被放大的倍数为
Figure GDA0003039025810000161
其中height为碎片中某字符的长度,height'为此字符在字符库中相同字符的高度;最终确定的碎片中字符的长度被放大的倍数为多个可识别字符的长度放大的倍数的均值ratio1=mean(ratiok);
b.计算碎片中某个字符的宽度被放大的倍数为
Figure GDA0003039025810000162
其中width为碎片中某字符的宽度,width'为此字符在字符库中相同字符的宽度;最终确定的碎片中字符的宽度被放大的倍数为多个可识别字符的宽度放大的倍数的均值ratio2=mean(ratiop);
步骤二、将碎片中的边缘字符的长度按照
Figure GDA0003039025810000171
的比例放大,宽度按照
Figure GDA0003039025810000172
的比例放大;
步骤三、将边缘字符和字符库中的字符规范化。记某边缘字符放大后的矩阵为A,A的行数为line,列数为list,字符库中的字符矩阵A',A'的行数为line',列数为list'。令正规化的矩阵列数LIST=list,正规化的矩阵行数LINE=max(line,line')。由于A可能为A'删除左侧或者右侧某些列后的矩阵,为了让两个矩阵可以比较,正规化方法如下:
a.若A为左边缘字符,将矩阵A和A'改为LINE×LIST维,删除A'左侧的列,并且将0填补到矩阵A和A'的上方;
b.若A为右边缘字符,将矩阵A和A'改为LINE×LIST维,删除A'右侧的列,并且将0填补到矩阵A和A'的下方;
得到正规化后A和A'的矩阵CA和CA'
如图8所示,左边(a)为碎片的第一个左边缘字符,右边(b)为字符库中的某个字符。图9为图8正规化后的字符矩阵。其中ratio1=ratio2=0.89。
步骤四、计算边缘字符矩阵A和字符库中某个字符矩阵A'的距离
D(A,A')=norm(CA-CA')
如图10所示,图10为图8的左边的字符和字符库中从a到z的所有字符的距离。
步骤五、计算边缘字符矩阵A相对于字符库中某个字符矩阵A'的缺失比例loss;
loss(A,A')=|list-list'|
如图11所示为图8的左边的字符和字符库中从a到z的所有字符的缺失列。
步骤六、选择字符库中t个与A距离最小的字符为边缘字符A可能对应的原始字符;
5.2、两张碎片字符行之间的距离
计算两张碎片某个字符行之间的距离。假设拼接的两张碎片为P和Q,P为左侧的碎片,Q为右侧的碎片,需要计算的为第i个字符行之间的距离Di(P,Q)。如果P和Q在第i个字符行拼接处的边缘字符是完整的,距离为0;否则距离为拼接起来的字符与可能对应的原始字符的最小距离。具体步骤如下:
步骤一、选择tP个左碎片P在第i个字符行的右边缘字符可能对应的原始字符,即字符库中与右边缘字符距离最小的t个字符。
步骤二、选择tQ个右碎片Q在第i个字符行的左边缘字符可能对应的原始字符,即字符库中与右边缘字符距离最小的t个字符。
步骤三、因此P和Q在第i个字符行拼接处的边缘字符是完整的或者拼接处可能对应的原始字符为上述两步得到的集合的并集。
步骤四、假设CHARACTER为两个碎片P和Q第i个字符行拼接处可能对应的原始字符character的集合,碎片P第i个字符行拼接处字符对于这些原始字符集合的缺失比例集合为LOSSP,碎片Q第i个字符行拼接处字符对于这些原始字符集合的缺失比例集合为LOSSQ,碎片P第i个字符行的拼接处字符的列数为listP,碎片Q第i个字符行的拼接处字符的列数为listQ,因此以为P左碎片,Q为右碎片,P和Q第i个字符行处的距离为:
Figure GDA0003039025810000181
其中D(Pi,ak)为碎片P的第i个字符行的右字符和某个估计字符ak间的距离,D(Qi,ak)为碎片Q的第i个字符行的左字符和某个估计字符ak间的距离,h3是将字符视为完整字符的阈值。公式第一行意味着如果碎片P的第i个字符行的右字符是完整的,并且碎片Q的第i个字符行的左字符是完整的,则碎片P和Q的第i个字符行处是可以连接的。公式第二行意味着碎片P和Q的第i个字符行处的加权平均值。
5.3、两张碎片之间的距离
计算同一类中任意两张碎片之间的距离。假设两张碎片P,Q都有n个字符行,则碎片P,Q之间的距离为
Figure GDA0003039025810000191
5.4、行内拼接
通过S5.3得到同一类中任意两张碎片之间的距离,选择具有最小距离的排列为行内拼接的最终结果。具体步骤如下:
步骤一、根据一类中的原始文本的最左侧碎片的左侧具有较大的空白,原始文本的最右侧碎片的右侧具有较大的空白,挑选出一类中的原始文本的最左侧和最右侧碎片。
步骤二、通过S5.3得到同一类中任意两张碎片之间的距离,记同一类的一组以最左侧碎片为开头,以最右侧碎片为结尾的排列为(1,y2,y3,...,yr-1,Sr),定义这一组排列的距离为:
Figure GDA0003039025810000192
也就是各个碎片之间的距离的加权平均;Sr代表一行中碎片的总个数;y2,y3,...,yr-1为同一类碎片中间的一系列碎片;w为大于1小于r-1的一系列自然数。
步骤三、现在行内拼接问题转化成了一个优化问题,寻找最小距离的排列即为最终结果。有许多的方法解决这个问题,在问题规模较小的时候可以使用穷举法,问题规模较大时可以使用遗传算法。
6、行间拼接
利用行间拼接技术进行碎片拼接。行间拼接技术主要基础是字符所在行的识别。假定第x(x=1,2,…,Sm)行的顶部和底部的位置分别为
Figure GDA0003039025810000201
Figure GDA0003039025810000202
那么字符行间的间距可以定义为
Figure GDA0003039025810000203
Figure GDA0003039025810000204
之间的距离。对于一个文本文档而言,字符行间的间距都是大致相同的。利用这个相同原理完成行间拼接操作。如图12所示。
通过上述碎片复原方法,对测试文档进行测试:
第一测试文档的字体是Calibri,字号为16,打印于A4纸上,并且切割成5行6列,如图13所示。运用本实施例的技术方案可以得到正确的结果,如图14所示。
第二测试文档的字体是Arial Unicode MS,字号为16,打印于A4纸上,并且切割成5行6列,如图15所示。运用本实施例的技术方案,除了原始碎片中4行4列的碎片位置错误,其余碎片位置正确。如图16所示,错误位置用红色标出。
其中最小字符长度T1设置为字符a的长度的
Figure GDA0003039025810000205
其中最小字符宽度T2设置为字符i的宽度的
Figure GDA0003039025810000206
估计边缘字符所对应的原始字符的个数St取值范围为3≤t≤5。
本实施例考虑真实的纵横切文本碎片复原问题,提出了一种字符提取技术和边缘字符识别技术的碎片复原方法,可以广泛应用在各类碎纸机产生的纵横切碎片复原工作中,并在一定程度上同时保证了效率和准确度,为司法取证、历史文献修复以及军事情报的获取等领域提供支持。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种碎片复原方法,其特征在于,包括步骤:
建立纵横切文本碎片的电子图像,并转化为二值化电子图像;
提取碎片字符,在一次提取字符行的基础上进一步提取字符列,再二次提取字符行,提取到所需的单个字符;
建立字符数据库,数据库中的字符图像为与碎片中的字符相同字体的二值化矩阵;
分行聚类,通过确定文本最左侧碎片聚类中心,将其他碎片根据聚类距离分配到离其距离最短的聚类中心所述类,从而将属于同一横行的碎片聚为同一类;
行内拼接,通过提取碎片的边缘字符,计算边缘字符和字符库中每个字符的距离,得到边缘字符可能对应的原始字符和缺失比例,然后拼接两个碎片,估计拼接处的最小距离,拥有最小距离的排列为最终的行内拼接顺序,并按照拥有最小距离的排列将同一类碎片进行行内拼接;
拼接不同行的碎片;
在行内拼接步骤中,估计两个碎片拼接处的最小距离应先求取两张碎片之间的距离,其步骤为:
计算两张碎片某个字符行之间的距离;假设拼接的两张碎片为P和Q,P为左侧的碎片,Q为右侧的碎片,需要计算的为第i个字符行之间的距离Di(P,Q);如果P和Q在第i个字符行拼接处的边缘字符是完整的,距离为0;否则距离为拼接起来的字符与可能对应的原始字符的最小距离;
具体步骤如下:
步骤一、选择tP个左碎片P在第i个字符行的右边缘字符可能对应的原始字符,即字符库中与右边缘字符距离最小的t个字符;
步骤二、选择tQ个右碎片Q在第i个字符行的左边缘字符可能对应的原始字符,即字符库中与右边缘字符距离最小的t个字符;
步骤三、因此P和Q在第i个字符行拼接处的边缘字符是完整的或者拼接处可能对应的原始字符为上述两步得到的集合的并集;
步骤四、假设CHARACTER为两个碎片P和Q第i个字符行拼接处可能对应的原始字符character的集合,碎片P第i个字符行拼接处字符对于这些原始字符集合的缺失比例集合为LOSSP,碎片Q第i个字符行拼接处字符对于这些原始字符集合的缺失比例集合为LOSSQ,碎片P第i个字符行的拼接处字符的列数为listP,碎片Q第i个字符行的拼接处字符的列数为listQ,因此以为P左碎片,Q为右碎片,P和Q第i个字符行处的距离为:
Figure FDA0003039025800000021
其中D(Pi,ak)为碎片P的第i个字符行的右字符和某个估计字符ak间的距离,D(Qi,ak)为碎片Q的第i个字符行的左字符和某个估计字符ak间的距离,h3是将字符视为完整字符的阈值;公式第一行意味着如果碎片P的第i个字符行的右字符是完整的,并且碎片Q的第i个字符行的左字符是完整的,则碎片P和Q的第i个字符行处是可以连接的;公式第二行意味着碎片P和Q的第i个字符行处的加权平均值;
步骤五、计算同一类中任意两张碎片之间的距离,假设两张碎片P,Q都有n个字符行,则碎片P,Q之间的距离为
Figure FDA0003039025800000022
2.根据权利要求1所述的碎片复原方法,其特征在于,所述提取字符行的具体步骤为:
做纵横切文本碎片的行投影,即做每行的黑色点个数的函数图像;
设置行投影数值的阈值为h1,行投影数值大于h1的行被记录为多墨行;将所有的多墨行的索引放在一个向量中,这样的向量成为多墨行向量,即保存多墨行信息的向量;
假设最小的字符长度为T1,记录连续的并且连接起来的长度大于T1的多墨行为字符行。
3.根据权利要求2所述的碎片复原方法,其特征在于,所述提取字符列的步骤为:
在一次提取的字符行中做列投影,即做每列的黑色点个数的函数图像;
设置列投影数值的阈值为h2,列投影数值即每列黑色点个数大于h2的列被记录为多墨列;
将所有的多墨列的索引放在一个向量中,即保存多墨列信息的向量;
假设最小的字符宽度为T2,记录连续的并且连接起来的长度大于T2的多墨列为字符列。
4.根据权利要求2所述的碎片复原方法,其特征在于,所述二次提取字符行的步骤为:
通过一次提取字符行、提取字符列,得到单个字符的边缘;
执行行投影,去除头部和尾部的非多墨行,就得到精准的字符的边缘和单个字符的矩阵。
5.根据权利要求1所述的碎片复原方法,其特征在于,在所述字符数据库的字符图像中,以字符提取技术得到每个字符的边缘,以边缘为边界,提取出每个字符的矩阵L=(lub)x×z;x×z为字符矩阵的规模,x为行数,z为列数;u、b分别为字符矩阵中的点l的横坐标和纵坐标。
6.根据权利要求1所述的碎片复原方法,其特征在于,所述分行聚类的步骤具体为:
确定聚类向量v=(a1,a2,a3,a4)T,其中a1为碎片中第一个字符行顶部位置,a2为第一个字符行底部位置,a3为最后一个字符行顶部位置,a4为最后一个字符行底部位置;
选取聚类中心,根据原始文档中最左端的碎片的左侧存在的留白,筛选出文档中Sm个最左侧碎片,将这些最左侧的碎片作为聚类中心cp
聚类,将除聚类中心以外的其它碎片根据聚类距离分配到离其距离最短的聚类中心所属类;聚类距离指的是其它碎片q的聚类向量vq=(a'1,a'2,a'3,a'4)T和聚类中心cp的聚类向量
Figure FDA0003039025800000041
之间的距离,a1'为其他碎片中第一个字符行顶部位置,a2'为其他碎片第一个字符行底部位置,a3'为其他碎片最后一个字符行顶部位置,a4'为其他碎片最后一个字符行底部位置;聚类距离
Figure FDA0003039025800000042
利用上述步骤将所有碎片归为Sm类,并统计每一类的碎片数目。
7.根据权利要求1所述的碎片复原方法,其特征在于,所述得到边缘字符可能对应的原始字符和缺失比例的步骤为:
计算碎片的边缘字符和字符库中每个字符的距离和缺失比例;
根据边缘字符和字符库中每个字符的距离,估计出边缘字符所对应的原始字符、对于原始字符的距离和缺失比例;
具体步骤如下:
步骤一、计算碎片中字符的长和宽被放大的倍数ratio1和ratio2
①计算碎片中某个字符的长度被放大的倍数为
Figure FDA0003039025800000043
其中height为碎片中某字符的长度,height'为此字符在字符库中相同字符的高度;最终确定的碎片中字符的长度被放大的倍数为多个可识别字符的长度放大的倍数的均值ratio1=mean(ratiok);
②计算碎片中某个字符的宽度被放大的倍数为
Figure FDA0003039025800000044
其中width为碎片中某字符的宽度,width'为此字符在字符库中相同字符的宽度;最终确定的碎片中字符的宽度被放大的倍数为多个可识别字符的宽度放大的倍数的均值ratio2=mean(ratiof);
步骤二、将碎片中的边缘字符的长度按照
Figure FDA0003039025800000045
的比例放大,宽度按照
Figure FDA0003039025800000046
的比例放大;
步骤三、将边缘字符和字符库中的字符规范化;记某边缘字符放大后的矩阵为A,A的行数为line,列数为list,字符库中的字符矩阵A',A'的行数为line',列数为list',令正规化的矩阵列数LIST=list,正规化的矩阵行数LINE=max(line,line');由于A可能为A'删除左侧或者右侧某些列后的矩阵,为了让两个矩阵可以比较,需要将矩阵A正规化,方法如下:
a.若A为左边缘字符,将矩阵A和A'改为LINE×LIST维,删除A'左侧的列,并且将0填补到矩阵A和A'的上方;
b.若A为右边缘字符,将矩阵A和A'改为LINE×LIST维,删除A'右侧的列,并且将0填补到矩阵A和A'的下方;
得到正规化后A和A'的矩阵CA和CA'
步骤四、计算边缘字符矩阵A和字符库中某个字符矩阵A'的距离:
D(A,A')=norm(CA-CA');
步骤五、计算边缘字符矩阵A相对于字符库中某个字符矩阵A'的缺失比例loss:
loss(A,A')=|list-list'|;
步骤六、选择字符库中t个与A距离最小的字符为边缘字符A可能对应的原始字符。
8.根据权利要求1所述的碎片复原方法,其特征在于,计算得到每两张碎片的最小距离后,将同一类碎片进行行内拼接的步骤具体为:
步骤一、根据一类中的原始文本的最左侧碎片的左侧具有的空白,原始文本的最右侧碎片的右侧具有的空白,挑选出一类中的原始文本的最左侧和最右侧碎片;
步骤二、通过得到的同一类中任意两张碎片之间的距离,记同一类的一组以最左侧碎片为开头,以最右侧碎片为结尾的排列为(1,y2,y3,...,yr-1,r),定义这一组排列的距离为:
Figure FDA0003039025800000061
也就是各个碎片之间的距离的加权平均;r代表一行中碎片的总个数;y2,y3,...,yr-1为同一类碎片中间的一系列碎片;w为大于1小于r-1的一系列自然数;
步骤三、寻找最小距离的排列即为最终结果,基于最小距离的排列顺序拼接同一类碎片。
9.根据权利要求1所述的碎片复原方法,其特征在于,所述拼接不同行碎片的具体步骤为:
识别字符所在行;
假定第x(x=1,2,…,Sm)行的顶部和底部的位置分别为
Figure FDA0003039025800000062
Figure FDA0003039025800000063
那么字符行间的间距可以定义为
Figure FDA0003039025800000064
Figure FDA0003039025800000065
之间的距离;Sm为分行聚类时碎片归类的总类数;
基于确定的字符行的间距拼接不同行。
CN201910467300.3A 2019-05-31 2019-05-31 一种碎片复原方法 Active CN110246098B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910467300.3A CN110246098B (zh) 2019-05-31 2019-05-31 一种碎片复原方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910467300.3A CN110246098B (zh) 2019-05-31 2019-05-31 一种碎片复原方法

Publications (2)

Publication Number Publication Date
CN110246098A CN110246098A (zh) 2019-09-17
CN110246098B true CN110246098B (zh) 2021-07-27

Family

ID=67885576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910467300.3A Active CN110246098B (zh) 2019-05-31 2019-05-31 一种碎片复原方法

Country Status (1)

Country Link
CN (1) CN110246098B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100310115A1 (en) * 2009-06-03 2010-12-09 National Chung Cheng University Image-based techniques for shredded document reconstruction
CN104143095A (zh) * 2014-07-16 2014-11-12 暨南大学 基于遗传算法和字符识别技术的碎片复原方法
CN104182966A (zh) * 2014-07-16 2014-12-03 江苏大学 一种规则碎纸自动拼接方法
CN104881665A (zh) * 2015-04-29 2015-09-02 华中科技大学 一种芯片字符识别与校验方法及装置
CN104933429A (zh) * 2015-06-01 2015-09-23 深圳市诺比邻科技有限公司 图像中信息提取的方法及装置
CN108510442A (zh) * 2018-03-23 2018-09-07 中南大学 基于绝对值距离优化的单面碎纸片拼接复原方法
CN109584163A (zh) * 2018-12-17 2019-04-05 深圳市华星光电半导体显示技术有限公司 碎纸片原始文件复原方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258198B (zh) * 2013-04-26 2015-12-23 四川大学 一种表格文档图像中字符提取方法
CN106844331A (zh) * 2016-12-13 2017-06-13 苏州大学 一种句子相似度计算方法和系统
CN109712162B (zh) * 2019-01-18 2023-03-21 珠海博明视觉科技有限公司 一种基于投影直方图差异的线缆字符缺陷检测方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100310115A1 (en) * 2009-06-03 2010-12-09 National Chung Cheng University Image-based techniques for shredded document reconstruction
CN104143095A (zh) * 2014-07-16 2014-11-12 暨南大学 基于遗传算法和字符识别技术的碎片复原方法
CN104182966A (zh) * 2014-07-16 2014-12-03 江苏大学 一种规则碎纸自动拼接方法
CN104881665A (zh) * 2015-04-29 2015-09-02 华中科技大学 一种芯片字符识别与校验方法及装置
CN104933429A (zh) * 2015-06-01 2015-09-23 深圳市诺比邻科技有限公司 图像中信息提取的方法及装置
CN108510442A (zh) * 2018-03-23 2018-09-07 中南大学 基于绝对值距离优化的单面碎纸片拼接复原方法
CN109584163A (zh) * 2018-12-17 2019-04-05 深圳市华星光电半导体显示技术有限公司 碎纸片原始文件复原方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A deep learning-based compatibility score for;Thiago M. Paixao et al;《2018 31st SIBGRAPI Conference on Graphics, Patterns and Images》;20190117;87-94 *
Graphical-character-based shredded Chinese;Nan Xing and Jianqi Zhang;《Multimedia Tools and Applications》;20160701;12871-12891 *

Also Published As

Publication number Publication date
CN110246098A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
CN105654072B (zh) 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN106156761B (zh) 面向移动终端拍摄的图像表格检测与识别方法
US5809167A (en) Page segmentation and character recognition system
Casey et al. Intelligent forms processing system
EP0677818B1 (en) Image pre-processor for character recognition system
CN103679678B (zh) 一种矩形文字特征碎纸片的半自动拼接复原方法
US7519226B2 (en) Form search apparatus and method
US9230383B2 (en) Document image compression method and its application in document authentication
US20020102022A1 (en) Detecting and utilizing add-on information from a scanned document image
US5650799A (en) Programmable function keys for a networked imaging computer system
JP2007172132A (ja) レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法
CN107248134A (zh) 一种文本文档中的信息隐藏方法和装置
CN107766854B (zh) 一种基于模板匹配实现快速页码识别的方法
CN112861865B (zh) 一种基于ocr技术的辅助审计方法
CN110543810A (zh) 一种完整识别pdf文件页眉页脚的技术
CN112949471A (zh) 基于国产cpu的电子公文识别复现方法及系统
CN113723362A (zh) 一种在图像中检测表格线的方法及装置
KR20010015046A (ko) 구조화된 배경 모델과 문자의 조합에 의한 배경위의 문자자동 인식 방법
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
US8249364B2 (en) Method for resolving contradicting output data from an optical character recognition (OCR) system, wherein the output data comprises more than one recognition alternative for an image of a character
JPH11110481A (ja) フォームレンダリング及び文字抽出方法
CN110246098B (zh) 一种碎片复原方法
CN113392833A (zh) 一种工业射线底片图像铅字编号识别方法
Barna et al. Segmentation of heterogeneous documents into homogeneous components using morphological operations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant