CN104537368B - 一种针对英文印刷文字双面打印破碎文件复原分析方法 - Google Patents
一种针对英文印刷文字双面打印破碎文件复原分析方法 Download PDFInfo
- Publication number
- CN104537368B CN104537368B CN201510008008.7A CN201510008008A CN104537368B CN 104537368 B CN104537368 B CN 104537368B CN 201510008008 A CN201510008008 A CN 201510008008A CN 104537368 B CN104537368 B CN 104537368B
- Authority
- CN
- China
- Prior art keywords
- fragment
- matching
- row
- word
- black
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Image Processing (AREA)
- Character Discrimination (AREA)
Abstract
一种针对英文印刷文字双面打印破碎文件复原分析方法,图片预处理,为获取样本数据需对图片进行分割,以像素为单位将图片进行网格划分;二维匹配度模型的建立,定义xi为两碎片拼接时位于左侧的已固定碎片,为了有统一的度量标准,根据字母和汉字的上下距离的对称性,定义一个字母的中位线到碎片底端的距离,碎片边缘黑色小格的连续对接匹配连续度:二维匹配过程中存在向左匹配和向上匹配两个方向:二维黑白对接匹配模型,横向对接单行匹配度,纵向对接单列匹配度;二维匹配模型算法优化;二维匹配问题的综合聚类和匹配度函数;基于正反面特点的大碎片集合分类;基于正反面特点的结果检验。
Description
技术领域
本发明涉及一种针对英文印刷文字双面打印破碎文件的复原分析方法,属于数字图像处理与模式识别领域。
背景技术
破碎文件的拼接在司法物证复原与鉴定、历史文献修复、故障分析以及军事情报获取等领域都有着重要的应用。近年来,碎纸文件复原技术的研究引起了人们的广泛关注。传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。随着计算机技术的发展,目前关于碎片复原的问题有多种研究策略,主流解决方案是结合类似于拼图游戏的手工复原方法和进行匹配和搜寻的计算机算法。
发明内容
本发明的目的在于通过构建一种匹配度模型来解决英文印刷文字双面打印破碎文件的拼接与复原问题。
为实现上述目的,本发明采用的技术方案为一种匹配度模型分析方法。该方法包括以下步骤:
S1图片预处理;
S2二维匹配度模型的建立;
S3二维黑白对接匹配模型的建立;
S4二维匹配模型算法优化;
S5二维匹配问题的综合聚类和匹配度函数建立;
S6基于正反面特点的大碎片集合分类;
S7基于正反面特点的结果检验;
如图1所示,该匹配度模型分析方法各个步骤的详细操作过程如下:
S1图片预处理
为获取样本数据需对图片进行分割,以像素为单位将图片进行网格划分,像素共有256种灰度值,当灰度值为0的时候为黑色,灰度值为255的时候为白色。将图像转化为灰度值矩阵,完成样本数据的获取。通过灰度值矩阵可以完成黑白色的识别。在图的拼接过程中要考虑整张碎片的每一行各网格的灰度。但由于笔画的长度、宽度未知,故只考虑整张碎片每一行最左端和最右端两个小格的灰度匹配结果。
S2二维匹配度模型的建立
2.1定义xi为两碎片拼接时位于左侧的已固定碎片,xj为拼接时位于右侧的待拼接碎片。自下而上遍历,并作出以下定义:
1)hi1、hj1分别为碎片xi、xj从下向上扫描时,第一次全行像素由不同灰度同时变为白色(即全体灰度值骤变为255),或者全行像素由全为白色到开始出现非白(黑色)时,此行到碎片最下端的距离。
2)设hi2、hj2为第二次发生上述变化时的那一行到碎片最下端的距离。
3)设hi3、hj3为第三次发生上述变化时的那一行到碎片最下端的距离。
2.2为了有统一的度量标准,根据字母和汉字的上下距离的对称性,定义一个字母的中位线到碎片底端的距离如下:
其中hi12、hi34…分别为碎片xi从下数第一个字、第二个…第n个汉字或字母的中位线到碎片底端的距离,
对碎片xi和碎片xj进行匹配,设整张碎片所有字行中位线匹配差异度为
当匹配差异度在误差范围内时,符合优化聚类要求,定义:
其中,k1,k2为误差范围。
2.3碎片边缘黑色小格的连续对接匹配连续度:
定义M′bb:
①两碎片xi、xj的第k行,xi右边缘的小格xik和xj的左边缘小格xjk均为黑色(灰度值为0)的对接
②两碎片xk、xm的第k列,xm下边缘的小格xmk和xj的上边缘小格xjk均为黑色(灰度值为0)的对接
碎片上一个字的一个笔画,一般包涵了不止一对黑色小格,由上而下发生连续的黑色小格的成功对接(Mbb)越长,碎片匹配成功的可能性就越大,所以在对匹配小格权重上考虑了连续匹配的,匹配度函数中若发生一次M′bb匹配的权则定为5,连续两次匹配的权定为5×2+2(而不是10),发生连续n次黑黑匹配的权则定为5×2+2(n-1)。
由上述因素分析对由上到下发生连续M′bb方式的成功匹配的权重定义可得出以下局部连续度函数。
2.4二维匹配过程中存在向左匹配和向上匹配两个方向:
1)向左匹配,设xi为固定端碎片,xj为待匹配段碎片
其中Fijk为第i号碎片和第j号碎片在第k行的连续度
2)向上匹配,设xm为固定端碎片,xj为待匹配段碎片
其中Gmjk为第i号碎片和第j号碎片在第k列的连续度。
对于三张碎片的边缘整体以M′bb方式匹配连续度是将第i号碎片的右侧全体小格和第j号碎片的左侧全体小格由上而下依次检索匹配,和将第m号碎片的下侧全体小格和第j张碎片的上侧全体小格由左向右依次检索匹配的总连续度,定义整体匹配连续度函数:
其中Zimj为第j号碎片和左侧第i号碎片及上侧第m号碎片的整体匹配总连续度。
S3二维黑白对接匹配模型
1)横向对接单行匹配度:
2)纵向对接单列匹配度:
对于三张碎片的边缘整体以M′bb方式总对接匹配度是将第i号碎片的右侧全体小格和第j号碎片的左侧全体小格由上而下依次检索匹配,和将第m号碎片的下侧全体小格和第j张碎片的上侧全体小格由左向右依次检索匹配的总连续度,可得如下黑白总对接匹配度函数:
其中Qimj为第j号碎片和左侧第i号碎片及上侧第m号碎片的总对接匹配度。
S4二维匹配模型算法优化:
⑴连续性优化:
碎片上一个字的一个笔画,包含了不止一对黑色小格,由上而下发生连续的黑色小格的成功对接Mbb越长,碎片匹配成功的可能性就越大,所以在对匹配小格权重上考虑了连续匹配的,匹配度函数中将对不同Mbb连续的情况的权进行不同大小的定义。其中定义Mbb如下:
Mbb:两碎片xi、xj的第k行,xi右边缘的小格xik和xj的左边缘小格xjk均为黑色(灰度值为0)的对接;
⑵横行对齐优化:
由于碎片文字是由完整文件横切与纵切获得,因此碎片内每行文字均平行于碎片底边。故从碎片文件底边开始扫描,第一行所有像素非全白的横行为一行文字的下边缘,标记此横行的纵坐标。在此基础上继续向上扫描,第一行所有像素全为白色的横行为该行文字的上边缘,标记该横行的纵坐标。在此基础上继续向上扫描,重复上述两个步骤可以得到一个碎片内的文字行分布。相连两张碎片文件横行一定对齐。英文字母书写位于四线三行格内,同一碎片文件内一横行字母可能占三行中的:1)、中间一行2)、上中两行3)、中下两行4)、上中下三行。与此同时,英文标点符号“,”、“’”、“-”,均不占满三行中的一行。在取得每一横行上下边缘后,取平均值以减小误差。最后根据平均值对齐且在误差范围内,优化碎片匹配结果。
当一个文字被切为二到四部分后,当为纵切时,其左右两个(四部分时为左上右上两个)不完整文字的宽度的和为一个完整文字的宽度。由于每个文字字号相同,因此每个文字的宽度在某一定值附近上下浮动。首先用判断图片是否为边缘起始的算法判断该碎片文件边缘有无不完整文字。当有不完整文字时,使用“横行对齐优化”算法确定不完整文字的位置,即其横纵坐标范围。由此可以获得不完整文字的宽度。根据合成完整文字的两个不完整文字的宽度的和为定值,从而优化匹配结果。当不完整文字为横切时处理方法类似,获取不完整文字的高度,再与其他碎片的不完整文字高度比较。
⑶灰度匹配优化
当某一笔画正好处于分割边缘时,如果简单将其一边认为是黑,一边认为是白,会造成大量匹配失败,故增加灰度匹配优化。当灰色与白色拼接时,对匹配度无影响。当灰色与黑色拼接时,匹配正确。从而增加匹配的成功率。
S5二维匹配问题的综合聚类和匹配度函数
对于英文碎片,若满足如下关系式
H+J=1
即两碎片仅满足横行对齐聚类要求,则可进行匹配检测,二维匹配时的三张碎片的匹配度由如下函数定义:
Pimj=Qimj+Zimj
其中Pimj为第j号碎片和左侧第i号碎片及上侧第m号碎片的总匹配度。
S6基于正反面特点的大碎片集合分类:
在进行上述“任意3块碎片文件不能两两分别属于三个大碎片集合”的检验后即可通过正反面的特点对大碎片集合分类,分成正面与反面两类。通过遍历所有分别属于3个大碎片集合的2个碎片文件即可将全部大碎片集合完成分类。(任意指定一类为正面,从而另一面为反面)
有000,001两个碎片文件,当000a属于大碎片集合A,000b属于大碎片集合B,001a属于B,001b属于C。根据“同一块碎片文件的a、b两面不能同时出现在一个大碎片集合中”这一特点可以判断出A、C属于同一平面。
S7基于正反面特点的结果检验
1)同一块碎片文件的a、b两面不能同时出现在一个大碎片集合中。
2)任意3块碎片文件不能两两分别属于三个大碎片集合。
证明:任取xi、xj、xm为000,001,002三个碎片文件,若000a,001a属于大碎片集合A,000b,002a属于大碎片集合B,001b,002b属于大碎片集合C。由碎片000可知,A、B两个大碎片集合不属于同一面;由碎片001可知,A、C两个大碎片集合不属于同一面;由碎片002可知,B、C两个大碎片集合不属于同一面。然而由于完整文件只有两面,所以上述三个推断矛盾,因此任意3块碎片文件不能两两分别属于三个大碎片集合。
与现有技术相比,本发明方法不仅准确率较高而且效率很低,为实现大范围的复原拼接提供了技术基础。
附图说明
图1是针对英文印刷文字双面打印破碎文件复原分析方法流程图。
图2是英文字母按像素单位划分确定灰度矩阵的示意图。
图3是英文字母横行对齐优化示意图。
具体实施方式
如图1-3所示,以下结合实例对本发明进行详细说明:
S1图片预处理
对图片进行分割,以像素为单位将图片进行网格划分,像素共有256种灰度值,当灰度值为0的时候为黑色,灰度值为255的时候为白色。将图像转化为灰度值矩阵,完成样本数据的获取。通过灰度值矩阵可以完成黑白色的识别。
S2二维匹配度模型的建立
根据一个字或字母的中位线到碎片底端的距离
对碎片xi和碎片xj进行匹配。
计算出整张碎片所有字行中位线匹配差异度为
对由上到下发生连续M′bb方式的成功匹配的权重定义得出以下局部连续度函数。
1)向左匹配
向上匹配
对于三张碎片的边缘整体以M′bb方式匹配连续度是将第i号碎片的右侧全体小格和第j号碎片的左侧全体小格由上而下依次检索匹配,和将第m号碎片的下侧全体小格和第j张碎片的上侧全体小格由左向右依次检索匹配的总连续度
S3二维黑白对接匹配模型的建立
1)横向对接单行匹配度:
2)纵向对接单列匹配度:
将第i号碎片的右侧全体小格和第j号碎片的左侧全体小格由上而下依次检索匹配,和将第m号碎片的下侧全体小格和第j张碎片的上侧全体小格由左向右依次检索匹配,可得如下黑白总对接匹配度函数:
S4二维匹配模型算法优化
对二维匹配模型做连续性优化,横行对齐优化,灰度匹配优化。S5二维匹配问题的综合聚类和匹配度函数建立
若满足如下关系式
H+J=1
即两碎片仅满足横行对齐聚类要求,则可进行匹配检测,二维匹配时的三张碎片的匹配度由如下函数定义:
Pimj=Qimj+Zimj
其中Pimj为第j号碎片和左侧第i号碎片及上侧第m号碎片的总匹配度。
S6基于正反面特点的大碎片集合分类。
S7基于正反面特点的结果检验。
Claims (1)
1.一种针对英文印刷文字双面打印破碎文件复原分析方法,其特征在于:该方法包括以下步骤,
S1图片预处理;
S2二维匹配度模型的建立;
S3二维黑白对接匹配模型的建立;
S4二维匹配模型算法优化;
S5二维匹配问题的综合聚类和匹配度函数建立;
S6基于正反面特点的大碎片集合分类;
S7基于正反面特点的结果检验;
各个步骤的详细操作过程如下,
S1图片预处理;
为获取样本数据需对图片进行分割,以像素为单位将图片进行网格划分,像素共有256种灰度值,当灰度值为0的时候为黑色,灰度值为255的时候为白色;将图像转化为灰度值矩阵,完成样本数据的获取;通过灰度值矩阵可以完成黑白色的识别;在图的拼接过程中要考虑整张碎片的每一行各网格的灰度;但由于笔画的长度、宽度未知,故只考虑整张碎片每一行最左端和最右端两个小格的灰度匹配结果;
S2二维匹配度模型的建立;
2.1定义xi为两碎片拼接时位于左侧的已固定碎片,xj为拼接时位于右侧的待拼接碎片;自下而上遍历,并作出以下定义,
1)hi1、hj1分别为碎片xi、xj从下向上扫描时,第一次全行像素由不同灰度同时变为白色即全体灰度值骤变为255,或者全行像素由全为白色到开始出现非白即黑色时,此行到碎片最下端的距离;
2)设hi2、hj2分别为碎片xi、xj从下向上扫描时,第二次全行像素由不同灰度同时变为白色即全体灰度值骤变为255,或者全行像素由全为白色到开始出现非白即黑色时,此行到碎片最下端的距离;
3)设hi3、hj3分别为碎片xi、xj从下向上扫描时,第三次全行像素由不同灰度同时变为白色即全体灰度值骤变为255,或者全行像素由全为白色到开始出现非白即黑色时,此行到碎片最下端的距离;
2.2为了有统一的度量标准,根据字母和汉字的上下距离的对称性,定义一个字母的中位线到碎片底端的距离如下:
其中hi12、hi34…分别为碎片xi从下数第一个汉字、第二个…第n个汉字或字母的中位线到碎片底端的距离;
对碎片xi和碎片xj进行匹配,设整张碎片所有字行中位线匹配差异度为
当匹配差异度在误差范围内时,符合优化聚类要求,定义:
其中,k1,k2为误差范围;
2.3碎片边缘黑色小格的连续对接匹配连续度:
定义M′bb:
①两碎片xi、xj的第k行,xi右边缘的小格xik和xj的左边缘小格xjk均为黑色即灰度值为0的对接;
②两碎片xk、xm的第k列,xm下边缘的小格xmk和xj的上边缘小格xjk均为黑色即灰度值为0的对接;
碎片上一个字的一个笔画,一般包涵了不止一对黑色小格,由上而下发生连续的黑色小格的成功对接即Mbb越长,碎片匹配成功的可能性就越大,所以在对匹配小格权重上考虑了连续匹配,匹配度函数中若发生一次M′bb匹配的权重则定为5,连续两次匹配的权重定为5×2+2,发生连续n次黑黑匹配的权重则定为5×2+2(n-1);
对由上到下发生连续M′bb方式的成功匹配的权重定义得出以下局部连续度函数;
2.4二维匹配过程中存在向左匹配和向上匹配两个方向:
1)向左匹配,设xi为固定端碎片,xj为待匹配段碎片
其中Fijk为第i号碎片和第j号碎片在第k行的连续度
2)向上匹配,设xm为固定端碎片,xj为待匹配段碎片
其中Gmjk为第i号碎片和第j号碎片在第k列的连续度;
对于三张碎片的边缘整体以M′bb方式匹配连续度是将第i号碎片的右侧全体小格和第j号碎片的左侧全体小格由上而下依次检索匹配,和将第m号碎片的下侧全体小格和第j张碎片的上侧全体小格由左向右依次检索匹配的总连续度,定义整体匹配连续度函数:
其中Zimj为第j号碎片和左侧第i号碎片及上侧第m号碎片的整体匹配总连续度;
S3二维黑白对接匹配模型;
1)横向对接单行匹配度:
2)纵向对接单列匹配度:
对于三张碎片的边缘整体以M′bb方式总对接匹配度是将第i号碎片的右侧全体小格和第j号碎片的左侧全体小格由上而下依次检索匹配,和将第m号碎片的下侧全体小格和第j张碎片的上侧全体小格由左向右依次检索匹配的总连续度,可得如下黑白总对接匹配度函数:
其中Qimj为第j号碎片和左侧第i号碎片及上侧第m号碎片的总对接匹配度;
S4二维匹配模型算法优化:
⑴连续性优化:
碎片上一个字的一个笔画,包含了不止一对黑色小格,由上而下发生连续的黑色小格的成功对接Mbb越长,碎片匹配成功的可能性就越大,所以在对匹配小格权重上考虑了连续匹配,匹配度函数中将对不同Mbb连续的情况的权重进行不同大小的定义;其中定义Mbb如下:
Mbb:两碎片xi、xj的第k行,xi右边缘的小格xik和xj的左边缘小格xjk均为黑色的对接;
⑵横行对齐优化:
由于碎片文字是由完整文件横切与纵切获得,因此碎片内每行文字均平行于碎片底边;故从碎片文件底边开始扫描,第一行所有像素非全白的横行为一行文字的下边缘,标记此横行的纵坐标;在此基础上继续向上扫描,第一行所有像素全为白色的横行为该行文字的上边缘,标记该横行的纵坐标;在此基础上继续向上扫描,重复上述两个步骤可以得到一个碎片内的文字行分布;相连两张碎片文件横行一定对齐;英文字母书写位于四线三行格内,同一碎片文件内一横行字母可能占三行中的:1)、中间一行2)、上中两行3)、中下两行4)、上中下三行;与此同时,英文标点符号“,”、“’”、“-”,均不占满三行中的一行;在取得每一横行上下边缘后,取平均值以减小误差;最后根据平均值对齐且在误差范围内,优化碎片匹配结果;
当一个文字被切为二到四部分后,当为纵切时,其左右两个不完整文字的宽度的和为一个完整文字的宽度;由于每个文字字号相同,因此每个文字的宽度在某一定值附近上下浮动;首先用判断图片是否为边缘起始的算法判断该碎片文件边缘有无不完整文字;当有不完整文字时,使用“横行对齐优化”算法确定不完整文字的位置,即其横纵坐标范围;由此可以获得不完整文字的宽度;根据合成完整文字的两个不完整文字的宽度的和为定值,从而优化匹配结果;当不完整文字为横切时处理方法类似,获取不完整文字的高度,再与其他碎片的不完整文字高度比较;
⑶灰度匹配优化
当某一笔画正好处于分割边缘时,如果简单将其一边认为是黑,一边认为是白,会造成大量匹配失败,故增加灰度匹配优化;当灰色与白色拼接时,对匹配度无影响;当灰色与黑色拼接时,匹配正确;从而增加匹配的成功率;
S5二维匹配问题的综合聚类和匹配度函数;
对于英文碎片,若满足如下关系式
H+J=1
即两碎片仅满足横行对齐聚类要求,则可进行匹配检测,二维匹配时的三张碎片的匹配度由如下函数定义:
Pimj=Qimj+Zimj
其中Pimj为第j号碎片和左侧第i号碎片及上侧第m号碎片的总匹配度;
S6基于正反面特点的大碎片集合分类;
进行“任意3块碎片文件不能两两分别属于三个大碎片集合”的检验后即可通过正反面的特点对大碎片集合分类,分成正面与反面两类;通过遍历所有分别属于3个大碎片集合的2个碎片文件即可将全部大碎片集合完成分类;任意指定一类为正面,从而另一面为反面;
有000,001两个碎片文件,当000a属于大碎片集合A,000b属于大碎片集合B,001a属于B,001b属于C;根据“同一块碎片文件的a、b两面不能同时出现在一个大碎片集合中”这一特点可以判断出A、C属于同一平面;
S7基于正反面特点的结果检验;
1)同一块碎片文件的a、b两面不能同时出现在一个大碎片集合中;
2)任意3块碎片文件不能两两分别属于三个大碎片集合;
证明:任取xi、xj、xm为000,001,002三个碎片文件,若000a,001a属于大碎片集合A,000b,002a属于大碎片集合B,001b,002b属于大碎片集合C;由碎片文件000可知,A、B两个大碎片集合不属于同一面;由碎片文件001可知,A、C两个大碎片集合不属于同一面;由碎片文件002可知,B、C两个大碎片集合不属于同一面;然而由于完整文件只有两面,所以三个推断矛盾,因此任意3块碎片文件不能两两分别属于三个大碎片集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510008008.7A CN104537368B (zh) | 2015-01-07 | 2015-01-07 | 一种针对英文印刷文字双面打印破碎文件复原分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510008008.7A CN104537368B (zh) | 2015-01-07 | 2015-01-07 | 一种针对英文印刷文字双面打印破碎文件复原分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104537368A CN104537368A (zh) | 2015-04-22 |
CN104537368B true CN104537368B (zh) | 2018-10-09 |
Family
ID=52852888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510008008.7A Active CN104537368B (zh) | 2015-01-07 | 2015-01-07 | 一种针对英文印刷文字双面打印破碎文件复原分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104537368B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180412B (zh) * | 2017-06-15 | 2020-10-16 | 北京工业大学 | 基于水平投影和k均值聚类的横纵切碎纸片重建方法 |
CN107888707B (zh) * | 2017-12-08 | 2021-04-20 | 北京奇艺世纪科技有限公司 | 一种图片传输方法、装置及电子设备 |
CN110363189B (zh) * | 2018-04-09 | 2021-09-24 | 珠海金山办公软件有限公司 | 一种文档内容修复方法、装置、电子设备及可读存储介质 |
CN108805811B (zh) * | 2018-05-30 | 2022-06-24 | 山东师范大学 | 一种基于非凸二次规划的自然图像智能拼图方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968774A (zh) * | 2012-11-05 | 2013-03-13 | 常州大学 | 彩色图案的计算机辅助拼接方法 |
CN103700081A (zh) * | 2013-12-17 | 2014-04-02 | 河海大学 | 一种碎纸机破碎英文文档的恢复方法 |
CN103942757A (zh) * | 2014-03-19 | 2014-07-23 | 王斌君 | 基于内容特征的图像碎片匹配方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI394098B (zh) * | 2009-06-03 | 2013-04-21 | Nat Univ Chung Cheng | Shredding Method Based on File Image Texture Feature |
-
2015
- 2015-01-07 CN CN201510008008.7A patent/CN104537368B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968774A (zh) * | 2012-11-05 | 2013-03-13 | 常州大学 | 彩色图案的计算机辅助拼接方法 |
CN103700081A (zh) * | 2013-12-17 | 2014-04-02 | 河海大学 | 一种碎纸机破碎英文文档的恢复方法 |
CN103942757A (zh) * | 2014-03-19 | 2014-07-23 | 王斌君 | 基于内容特征的图像碎片匹配方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104537368A (zh) | 2015-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Afroge et al. | Optical character recognition using back propagation neural network | |
CN104537368B (zh) | 一种针对英文印刷文字双面打印破碎文件复原分析方法 | |
CN102177520B (zh) | 将印刷媒体页面分割成文章 | |
CN103093240A (zh) | 书法字识别方法 | |
CN102902974B (zh) | 一种基于图像的铁路接触网杆柱标识信息的识别方法 | |
CN101777124A (zh) | 一种提取视频文本信息的方法及装置 | |
Ahranjany et al. | A very high accuracy handwritten character recognition system for Farsi/Arabic digits using convolutional neural networks | |
CN109977723A (zh) | 大票据图片文字识别方法 | |
CN102332096A (zh) | 一种视频字幕文本提取和识别的方法 | |
CN104156706A (zh) | 一种基于光学字符识别技术的中文字符识别方法 | |
CN106611174A (zh) | 一种非常见字体的ocr识别方法 | |
CN110929746A (zh) | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 | |
CN113537227B (zh) | 一种结构化文本识别方法及系统 | |
CN103295019B (zh) | 一种基于概率统计的中文碎片自适应恢复方法 | |
CN110781898A (zh) | 一种中文ocr后处理的无监督学习方法 | |
CN116824608A (zh) | 基于目标检测技术的答题卡版面分析方法 | |
CN111553361B (zh) | 一种病理切片标签识别方法 | |
CN114066861B (zh) | 一种基于交叉算法边缘检测理论和视觉特征的煤矸识别方法 | |
Tse et al. | An OCR-independent character segmentation using shortest-path in grayscale document images | |
Fang et al. | Raw material form recognition based on Tesseract-OCR | |
CN111401356A (zh) | 一种基于深度学习的快递单手写体电话号码识别方法 | |
Tan et al. | A table segmentation and text information extraction method for power work ticket | |
CN112348167B (zh) | 一种基于知识蒸馏的矿石分选方法和计算机可读存储介质 | |
CN111553336B (zh) | 基于连体段的印刷体维吾尔文文档图像识别系统及方法 | |
Shaikh et al. | Handwritten Text Recognition of Document Form Using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |