CN102567741A - 表单匹配方法和装置 - Google Patents

表单匹配方法和装置 Download PDF

Info

Publication number
CN102567741A
CN102567741A CN2010106065162A CN201010606516A CN102567741A CN 102567741 A CN102567741 A CN 102567741A CN 2010106065162 A CN2010106065162 A CN 2010106065162A CN 201010606516 A CN201010606516 A CN 201010606516A CN 102567741 A CN102567741 A CN 102567741A
Authority
CN
China
Prior art keywords
sets
line segments
image
line
form image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010106065162A
Other languages
English (en)
Other versions
CN102567741B (zh
Inventor
郭健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanwang Technology Co Ltd
Original Assignee
Hanwang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanwang Technology Co Ltd filed Critical Hanwang Technology Co Ltd
Priority to CN201010606516.2A priority Critical patent/CN102567741B/zh
Publication of CN102567741A publication Critical patent/CN102567741A/zh
Application granted granted Critical
Publication of CN102567741B publication Critical patent/CN102567741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种表单匹配方法和装置,属于图像处理领域。包括:根据模板图像和表单图像中的特征分别提取线段,划分为线段组;计算第一方向上模板图像和表单图像的线段组中两条线段的距离值,得到距离列表;遍历距离列表,计算表单图像在第一方向上表单图像和模板图像的最高匹配度;按照第一方向的最佳偏移量移位表单图像,并在第二方向上进行匹配,直至得到第二方向上的最高匹配度;如果两方向上的最高匹配度之和大于既定比例,则将表单图像按对应的最佳偏移量进行匹配。本发明对各线段组之间的距离进行优化剪枝、实现表单图像与模板图像之间模糊匹配,实现对表单图像中的各区域进行快速精确的定位,并可以抵抗一定的扭曲拉伸形变。

Description

表单匹配方法和装置
技术领域
本发明属于图像处理领域,涉及一种表单匹配方法和装置。
 
背景技术
表单识别是模式识别的一个重要领域。表单识别是指对具有相同版式不同内容的大批量表单进行识别,并得到具有结构化信息的识别结果的一种识别方法。在OCR技术已经发展成熟的今天,表单识别还可以实现无人值守、信息自动分拣,对数据加工具有重大的意义。
表单识别的过程包括定制模板、类型区分、匹配定位、特定区域识别、识别后处理等步骤。首先对需要识别的各种表单订制识别模板,包含分类特征和识别要素信息。在识别过程中,对待识别的表单图像进行特征提取,根据提取出的特征在模板库中筛选出与表单匹配的模板,并确定最佳匹配的位置,从而完成各个表单图像中指定区域的识别。
线段组为表单中各线段的集合,作为定位要素信息的重要依据,是表单中最为重要的特征。由于线段组天生具有抗污染的特性,因而在表格匹配的过程中承担着重要作用。传统的计算线段组和线段组之间的匹配关系,需要逐线段地进行匹配,具有运算量大,运算速度慢,不能抗拉伸等缺点。
 
发明内容
本发明所要解决的技术问题是提供一种表单匹配方法和装置,通过对横线和竖线分别进行匹配,大大提高了线段组匹配的速度和精度,节省了大量的人力和时间,提高了识别效率。
本发明公开了一种表单匹配方法,包括如下步骤:
步骤一:根据模板图像和表单图像中的特征分别提取模板图像和表单图像中的线段,将提取到的线段分别划分为第一方向的线段组和第二方向的线段组; 
步骤二:遍历第一方向上模板图像和表单图像的线段组,计算每两条线段在第二方向上的距离值,经筛选得到距离列表; 
步骤三:遍历距离列表,计算表单图像在第一方向上的线段组在每个距离作为位移的情况下,表单图像和模板图像在第一方向上线段组的匹配度,得到第一方向上的最高匹配度和距离列表中对应的最佳偏移量;
步骤四:按照第一方向的最佳偏移量移位表单图像,转到步骤二,遍历第二方向上模板图像和表单图像的线段组,直至得到第二方向上的最高匹配度和对应的最佳偏移量;
步骤五:如果第一方向和第二方向上的最高匹配度之和大于既定比例,则将表单图像与模板图像按第一方向和第二方向上的最高匹配度对应的最佳偏移量进行匹配。
所述步骤一中提取模板图像和表单图像中的线段时,根据模板图像和表单图像中的横线特征和竖线特征对图像中的线段进行提取。
所述第一方向和第二方向相互垂直。
所述步骤一后还包括将第一方向的线段组和第二方向的线段组按坐标值进行排序。
所述步骤二中筛选得到距离列表时,将每两条线段在第二方向上的距离值中相同,或距离值相差小于误差阈值,或超过距离阈值的距离去除。
所述步骤三中的表单图像和模板图像在第一方向上线段组的匹配度F为:
Figure 2010106065162100002DEST_PATH_IMAGE001
其中,Dis为表单图像在第一方向上的线段组中每条线段和模板图像在第一方向上的线段组中各线段的距离。
所述步骤三中的表单图像和模板图像在第一方向上线段组的匹配度根据查表格得到,所述表格包括表单图像在第一方向上的线段组中每条线段和模板图像在第一方向上的线段组中各线段的距离与表单图像和模板图像在第一方向上线段组的匹配度。
所述步骤三中第一方向上的最高匹配度为模板图像在第一方向上线段组中的每条线段与表单图像在第一方向上的线段组中各线段的最大匹配长度之和,与模板图像在第一方向上线段组总长度的比值中的最大值。
所述模板图像在第一方向上线段组中的每条线段与表单图像在第一方向上的线段组中各线段的最大匹配长度,根据表单图像、模板图像在第一方向上线段组的匹配度和模板图像在第一方向上的线段组中各线段的长度进行计算得到。
所述第二方向上的最高匹配度为模板图像在第二方向上线段组中的每条线段与表单图像在第二方向上的线段组中各线段的最大匹配长度之和,与模板图像在第二方向上线段组总长度的比值中的最大值。
所述模板图像在第二方向上线段组中的每条线段与表单图像在第二方向上的线段组中各线段的最大匹配长度,根据表单图像、模板图像在第二方向上线段组的匹配度和表单图像在第二方向上的线段组中各线段和模板图像在第二方向上的线段组中各线段中重叠的长度进行计算得到。
所述步骤五中的既定比例为80%。
本发明还公开了一种表单匹配装置,包括如下模块:
划分模块:根据模板图像和表单图像中的特征分别提取模板图像和表单图像中的线段,将提取到的线段分别划分为第一方向的线段组和第二方向的线段组; 
筛选模块:遍历第一方向上模板图像和表单图像的线段组,计算每两条线段在第二方向上的距离值,经筛选得到距离列表; 
第一偏移模块:遍历距离列表,计算表单图像在第一方向上的线段组在每个距离作为位移的情况下,表单图像和模板图像在第一方向上线段组的匹配度,得到第一方向上的最高匹配度和距离列表中对应的最佳偏移量;
第二偏移模块:按照第一方向的最佳偏移量移位表单图像,遍历第二方向上模板图像和表单图像的线段组,转到筛选模块,直至得到第二方向上的最高匹配度和对应的最佳偏移量;
匹配模块:如果第一方向和第二方向上的最高匹配度之和大于既定比例,则将表单图像与模板图像按第一方向和第二方向上的最高匹配度对应的最佳偏移量进行匹配。
本发明一种表单匹配的方法和装置,其优点在于:通过将表单图像中的横线和竖线在模板图像中进行匹配,对各线段组之间的距离进行优化剪枝、实现表单图像与模板图像之间模糊匹配,实现对表单图像中的各区域进行快速精确的定位,并可以抵抗一定的扭曲拉伸形变,从而对表单图像的各区域中的内容进行识别。
 
附图说明
图1为本发明表单匹配方法的流程图;
图2为本发明表单匹配方法的模板图像;
图3为本发明表单匹配方法的模板图像进行提取得到的各线段的示意图;
图4为本发明表单匹配方法的表单图像;
图5为本发明表单匹配方法的表单图像进行提取得到的各线段的示意图;
图6为本发明表单匹配方法的模板图像与表单图像中的两线段在第一方向上计算匹配长度时求取重叠长度的示意图。
 
具体实施方式
为了更加明晰的阐述本发明的技术方案和内容,下面结合附图对本发明做进一步详尽的描述。
本发明公开了一种表单匹配方法,包括如下步骤:
步骤一:根据模板图像和表单图像中的特征分别提取模板图像和表单图像中的线段,将提取到的线段分别划分为第一方向的线段组和第二方向的线段组; 
提取模板图像和表单图像中的线段时,根据模板图像和表单图像中的横线特征和竖线特征对图像中的线段进行提取,得到模板图像和表单图像对应的在第一方向和第二方向的线段组,第一方向和第二方向相互垂直。
本实施例中,第一方向为横向、第二方向为纵向,提取一定长度以上的横向线段和纵向线段。用线段的外接矩形坐标来表示一条线段,如H{L,T,R,B}、V{L,T,R,B},H表示是横线,V表示是竖线,L、T、R、B分别代表线段距图像的左边界和上边界的距离。如H{88,162,1312,171}表示一条横向线段,左边距离图像左边界88像素,上边距离图像上边界162像素,右边距离图像左边界1312像素,下边距离图像上边界171像素。对于横向线段来说,线段长度为左右坐标的差值:1312-88+1=1225,上下坐标的差值:171-162+1=10可以作为线段的宽度。由于模板图像和表单图像在扫描时都会存在一定的倾斜角度,各线段的外接矩形的高度为:厚度长度×tan(倾斜角度),当线段长度很大的时候,对应的外接矩形的高度,即线段的宽度则会不准确。因此统一设定线段的宽度为1,并用各线段的外接矩形的上下两边的中心值来标记线段对应的位置Pos,表示为H{Start,End,Pos}和V{Start,End,Pos}。横向线段开始坐标Start = L,结束坐标End = R,位置的纵坐标Pos=(T + B)/2;竖向线段开始坐标Start=T,结束坐标End=B,位置的横坐标Pos=(L+R)/2。因此,横向线段H{88,162,1312,171}记作H{88,1312,166}。
如图2、图3所示,图3包括根据如图2所示的模板图像中的特征分别提取得到各线段。如图3所示,其中包括9条横向线段:H{88,162,1312,171}、H{276,217,593,220}、H{713,220,1050,223}、H{921,241,1266,243}、H{921,275,1267,277}、H{921,312,1267,317}、H{88,324,1311,334}、H{86,622,1310,631}、H{86,687,1308,698},分别记作:H{88,1312,166}、 H{276,593,218}、H{713,1050,221}、H{921,1266,242}、H{921,1267,276}、H{921,1267,314}、H{88,1311,329}、H{86,1310,626}、H{86,1308,692},将这些线段称为模板横线组。
图3中还包括3条竖向线段:V(86,162,91,690)、V(157,162,163,690)、V(1305,169,1312,698),分别记作:V(162,690,88)、V(162,690,160)、V(169,698,1308),将这些线段称为模板竖线组。
同理,将如图4所示的表单图像与模板图像进行匹配,图5包括根据如图4所示的表单图像中的特征分别提取得到各线段。如图5所示,其中包括6条横向线段:H{68,143,1288,149}、H{130,191,1288,196}、H{131,238,1288,244}、H{68,287,1288,292}、H{69,643,1289,647}、H{69,730,1289,735},分别记作:H{68,1288,146}、H{130,1288,193}、H{131,1288,241}、H{68,1288,299}、H{69,1289,645}、H{69,1289,732},将这些线段称为表单横线组。
图5中还包括4条竖向线段:V{68,146,72,736}、V{130,146,134,646}、V{696,145,699,290}、V{1285,142,1288,732},分别记作:V{146,736,70}、V{146,646,132}、V{145,290,697}、V{142,732,1286},将这些线段称为表单竖线组。根据得到的模板横线组、模板竖线组和表单横线组、表单竖线组进行进一步的分析计算,从而得到模板图像和表单图像的最高匹配度和对应的最佳偏移量。
将模板横线组、模板竖线组和表单横线组、表单竖线组按坐标值进行排序,即分别按照各自的坐标Pos进行升序的排序。本实施例中表单竖线组为:V{146,736,70}、V{146,646,132}、V{145,290,697}、V{142,732,1286}。
步骤二:遍历第一方向上模板图像和表单图像的线段组,计算每两条线段在第二方向上的距离值,经筛选得到距离列表;
本实施例中,遍历模板图像和表单图像在水平方向上对应的模板横线组与表单横线组,计算其中每两条横向线段纵坐标的距离,并去除相同或者相近的距离值,得到距离列表,超过距离阈值(如200)的坐标值也可以去掉。
模板横线组中对应的横坐标pos分别为166,218,221,242,276,314,329,626,692;表单横线组中对应的横坐标pos分别为146,193,241,299,645,732。得到对应的距离为
距离 146 193 241 299 645 732
166 -20 27 75 133 479 566
218 -72 -25 23 81 427 514
221 -75 -28 20 78 424 511
242 -96 -49 -1 57 403 490
276 -130 -83 -35 23 369 456
314 -168 -121 -73 -15 331 418
329 -183 -136 -88 -30 316 403
626 -480 -433 -385 -327 19 106
692 -546 -499 -451 -393 -47 40
从表中可以看出,-200到200之间的距离一共有:-183、-168、-136、-130、-121、-96、-88、-83、-75、-73、-72、-49、-47、-35、-30、-28、-25、-20、-15、-1、19、20、23、23、27、40、57、75、78、81、106、133,共计32种。
将每两条线段在第二方向,即竖直方向上的距离值中相同,或距离值相差小于误差阈值,或超过距离阈值的距离去除,筛选得到距离列表。本实施例中,误差阈值为1,距离阈值为200,忽略得到的距离值中相同或者相似的,则距离值为:-183、-168、-136、-130、-121、-96、-88、-83、-75、-73、-49、-47、-35、-30、-28、-25、-20、-15、-1、19、23、27、40、57、75、78、81、106、133,总共29种,构成距离列表。当模板图像或表单图像对应的线段组中线段数量很大时,筛掉模板图像和表单图像对应线段之间无效的距离,可以有效的控制算法的复杂度。
步骤三:遍历距离列表,计算表单图像在第一方向上的线段组在每个距离作为位移的情况下,表单图像和模板图像在第一方向上线段组的匹配度,得到第一方向上的最高匹配度和距离列表中对应的最佳偏移量;
本实施例中,表单图像和模板图像在第一方向上线段组的匹配度F为:
Figure 901632DEST_PATH_IMAGE001
其中,Dis为表单图像在第一方向上的线段组中每条线段和模板图像在第一方向上的线段组中各线段的距离。
根据表单图像、模板图像在第一方向上线段组的匹配度和模板图像在第一方向上的线段组中各线段的长度进行计算得到模板图像在第一方向上线段组中的每条线段与表单图像在第一方向上的线段组中各线段的最大匹配长度。
将得到的各线段的最大匹配长度进行求和,将模板图像在第一方向上线段组中的每条线段与表单图像在第一方向上的线段组中各线段的最大匹配长度之和与模板图像在第一方向上线段组总长度的比值中的最大值作为第一方向上的最高匹配度。
线段组的匹配度由线段组中每一条线的匹配度按照一定的比例合并而成,两线段重叠越少,则匹配度越小。遍历距离列表,计算表单横线组在每一个距离作为位移的情况下,模板横线组与表单横线组的匹配度,并得到距离列表中对应的匹配度最高的偏移量。
本实施例中,模板横线组和表单横线组中选取线段H{88,1312,166}和H{68,1288,146}进行匹配,两线段的匹配长度由两线段的重叠长度乘以两线段对应的匹配度得到。如图6所示,在进行第一方向上的匹配时,由于是首次匹配,为了尽量扩大匹配范围,则两线段的重叠长度以模版横线组中的线段长度计算。以偏移量为-25为例:H{88,1312,166}位移-25变成H{88,1312,141},则H{88,1312,141}与H{68,1288,146}距离为5,根据公式
Figure 230982DEST_PATH_IMAGE001
,得到对应两线段的匹配度F=50%,将表格横线组中的线段H{68,1288,146}两端延长200像素到H{-132,1488,146},则模板横线组中H{88,1312,141}与表单横线组H{-132,1488,146}重叠长度为1312-88+1=1225,重叠长度即为模版横线组中的线段长度,则最终匹配长度为1225×50%=613。
依次计算模板横线组中H{88,1312,141}与表单横线组中其他线段的匹配长度,得到偏移量为-25时模板横线组中H{88,1312,166}与表单横线组的匹配长度之和。
同理,计算模板横线组中的每条线段与表单横线组中各线段的最大匹配长度,得到偏移量为-25时模板横线组与表单横线组的匹配长度为2014,此时模板横线组的总长度为6593,则偏移量为-25时模板横线组与表单横线组最高匹配度为2014/6593*100%=30.5%。
对步骤二所得的距离列表中所有的偏移量进行计算,对得到的各偏移量所对应的模板横线组与表单横线组的最高匹配度进行统计,将其中的最大值作为模板横线组与表单横线组的最高匹配度。本实施例中,模板横线组与表单横线组的最高匹配度为50.8%,此时对应的最佳偏移量为27。
在其他实施例中,还可以根据查表格得到表单图像和模板图像在第一方向上线段组的匹配度,所述表格包括表单图像在第一方向上的线段组中每条线段和模板图像在第一方向上的线段组中相应线段的距离与表单图像和模板图像在第一方向上线段组的匹配度。
本实施例中的表格如下:
距离 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
匹配度n/8 8 7 7 7 6 6 6 6 6 5 5 5 5 4 2 1
仍在模板横线组和表单横线组中选取线段H{88,1312,166}和H{68,1288,146}进行匹配,以偏移量为-30为例:H{88,1312,166}位移-30变成H{88,1312,136},则H{88,1312,136}与H{68,1288,146}距离为10,根据查表格所得F=5/8,得到对应两线段的匹配度F=5/8,将线段H{68,1288,146}两端延长200像素到H{-132,1488,146},则模板横线组中H{88,1312,136}与表单横线组H{-132,1488,146}重叠长度为1312-88+1=1225,最终匹配长度为1225*5/8=766。
依次计算模板横线组中H{88,1312,136}与表单横线组中其他线段的匹配长度,得到偏移量为-25时模板横线组中H{88,1312,166}与表单横线组的匹配长度之和。
同理,计算模板横线组中的每条线段与表单横线组中各线段的最大匹配长度,得到偏移量为-30时模板横线组与表单横线组的匹配长度为2154,此时模板横线组的总长度为6771,则偏移量为-30时模板横线组与表单横线组最高匹配度为2014/6593*100%=31.8%。
步骤四:按照第一方向的最佳偏移量移位表单图像,转到步骤二,遍历第二方向上模板图像和表单图像的线段组,直至得到第二方向上的最高匹配度和对应的最佳偏移量;
按照第一方向的最佳偏移量移位表单图像后,与第一方向上进行的处理类似,转到步骤二,遍历第二方向上模板图像和表单图像的线段组,计算每两条线段在第一方向上的距离值,经筛选得到距离列表; 
遍历距离列表,计算表单图像在第二方向上的线段组在每个距离作为位移的情况下,表单图像和模板图像在第二方向上线段组的匹配度,得到第二方向上的最高匹配度和距离列表中对应的最佳偏移量;
根据表单图像、模板图像在第二方向上线段组的匹配度和表单图像在第二方向上的线段组中各线段和模板图像在第二方向上的线段组中各线段中重叠的长度进行计算,得到模板图像在第二方向上线段组中的每条线段与表单图像在第二方向上的线段组中各线段的最大匹配长度。
本实施例中,在进行第二方向上的匹配时,由于是第二次匹配,为了尽量提高匹配精度,则两线段的重叠长度以模版竖线组和表单竖线组中的线段实际重合的长度进行计算,将两线段的重叠长度和对应的匹配度相乘,得到两线段在第二方向上的匹配长度,如此计算,直至得到模板图像在第二方向上线段组中的每条线段与表单图像在第二方向上的线段组中各线段的最大匹配长度。
根据模板图像在第二方向上线段组中的每条线段与表单图像在第二方向上的线段组中各线段的最大匹配长度之和与模板图像在第二方向上线段组总长度的比值中的最大值计算第二方向上的最高匹配度。对所得的距离列表中所有的偏移量进行计算,对得到的第二方向上的各偏移量所对应的模板竖线组与表单竖线组的最高匹配度进行统计,本实施例中,得到模板竖线组与表单竖线组的匹配长度为1367,此时模板竖线组的总长度为1588,则模板竖线组与表单竖线组的最高匹配度为1367/1588*100%=86.1%。此时对应的最佳偏移量为-22。
步骤五:如果第一方向和第二方向上的最高匹配度之和大于既定比例,则将表单图像与模板图像按第一方向和第二方向上的最高匹配度对应的最佳偏移量进行匹配。
本实施例中,模板图像与表单图像的在第一方向,即横向上的最高匹配度为50.8%,在第二方向,即竖向上的最高匹配度为86.1%。两者之和大于既定比例80%,则模板图像与表单图像在横向偏移为27、竖向偏移为-22的情况下,表单图像可与模板图像进行匹配。
本发明还公开了一种表单匹配装置,包括如下模块:
划分模块:根据模板图像和表单图像中的特征分别提取模板图像和表单图像中的线段,将提取到的线段分别划分为第一方向的线段组和第二方向的线段组; 
筛选模块:遍历第一方向上模板图像和表单图像的线段组,计算每两条线段在第二方向上的距离值,经筛选得到距离列表; 
第一偏移模块:遍历距离列表,计算表单图像在第一方向上的线段组在每个距离作为位移的情况下,表单图像和模板图像在第一方向上线段组的匹配度,得到第一方向上的最高匹配度和距离列表中对应的最佳偏移量;
第二偏移模块:按照第一方向的最佳偏移量移位表单图像,遍历第二方向上模板图像和表单图像的线段组,转到筛选模块,直至得到第二方向上的最高匹配度和对应的最佳偏移量;
匹配模块:如果第一方向和第二方向上的最高匹配度之和大于既定比例,则将表单图像与模板图像按第一方向和第二方向上的最高匹配度对应的最佳偏移量进行匹配。
本发明通过将表单图像中的横线和竖线在模板图像中进行匹配,对各线段组之间的距离进行优化剪枝、实现表单图像与模板图像之间模糊匹配,实现对表单图像中的各区域进行快速精确的定位,并可以抵抗一定的扭曲拉伸形变,从而对表单图像的各区域中的内容进行识别。

Claims (13)

1.一种表单匹配方法,其特征在于,包括如下步骤:
步骤一:根据模板图像和表单图像中的特征分别提取模板图像和表单图像中的线段,将提取到的线段分别划分为第一方向的线段组和第二方向的线段组; 
步骤二:遍历第一方向上模板图像和表单图像的线段组,计算每两条线段在第二方向上的距离值,经筛选得到距离列表; 
步骤三:遍历距离列表,计算表单图像在第一方向上的线段组在每个距离作为位移的情况下,表单图像和模板图像在第一方向上线段组的匹配度,得到第一方向上的最高匹配度和距离列表中对应的最佳偏移量;
步骤四:按照第一方向的最佳偏移量移位表单图像,转到步骤二,遍历第二方向上模板图像和表单图像的线段组,直至得到第二方向上的最高匹配度和对应的最佳偏移量;
步骤五:如果第一方向和第二方向上的最高匹配度之和大于既定比例,则将表单图像与模板图像按第一方向和第二方向上的最高匹配度对应的最佳偏移量进行匹配。
2.根据权利要求1所述的方法,其特征在于:所述步骤一中提取模板图像和表单图像中的线段时,根据模板图像和表单图像中的横线特征和竖线特征对图像中的线段进行提取。
3.根据权利要求1所述的方法,其特征在于:所述第一方向和第二方向相互垂直。
4.根据权利要求1所述的方法,其特征在于:所述步骤一后还包括将第一方向的线段组和第二方向的线段组按坐标值进行排序。
5.根据权利要求1所述的方法,其特征在于:所述步骤二中筛选得到距离列表时,将每两条线段在第二方向上的距离值中相同,或距离值相差小于误差阈值,或超过距离阈值的距离去除。
6.根据权利要求1所述的方法,其特征在于:所述步骤三中的表单图像和模板图像在第一方向上线段组的匹配度F为:
Figure 448071DEST_PATH_IMAGE001
其中,Dis为表单图像在第一方向上的线段组中每条线段和模板图像在第一方向上的线段组中各线段的距离。
7.根据权利要求1所述的方法,其特征在于:所述步骤三中的表单图像和模板图像在第一方向上线段组的匹配度根据查表格得到,所述表格包括表单图像在第一方向上的线段组中每条线段和模板图像在第一方向上的线段组中各线段的距离与表单图像和模板图像在第一方向上线段组的匹配度。
8.根据权利要求6或7所述的方法,其特征在于:所述步骤三中第一方向上的最高匹配度为模板图像在第一方向上线段组中的每条线段与表单图像在第一方向上的线段组中各线段的最大匹配长度之和,与模板图像在第一方向上线段组总长度的比值中的最大值。
9.根据权利要求8所述的方法,其特征在于:所述模板图像在第一方向上线段组中的每条线段与表单图像在第一方向上的线段组中各线段的最大匹配长度,根据表单图像、模板图像在第一方向上线段组的匹配度和模板图像在第一方向上的线段组中各线段的长度进行计算得到。
10.根据权利要求6或7所述的方法,其特征在于:所述步骤四中第二方向上的最高匹配度为模板图像在第二方向上线段组中的每条线段与表单图像在第二方向上的线段组中各线段的最大匹配长度之和,与模板图像在第二方向上线段组总长度的比值中的最大值。
11.根据权利要求10所述的方法,其特征在于:所述模板图像在第二方向上线段组中的每条线段与表单图像在第二方向上的线段组中各线段的最大匹配长度,根据表单图像、模板图像在第二方向上线段组的匹配度和表单图像在第二方向上的线段组中各线段和模板图像在第二方向上的线段组中各线段中重叠的长度进行计算得到。
12.根据权利要求1所述的方法,其特征在于:所述步骤五中的既定比例为80%。
13.一种表单匹配装置,其特征在于,包括如下模块:
划分模块:根据模板图像和表单图像中的特征分别提取模板图像和表单图像中的线段,将提取到的线段分别划分为第一方向的线段组和第二方向的线段组; 
筛选模块:遍历第一方向上模板图像和表单图像的线段组,计算每两条线段在第二方向上的距离值,经筛选得到距离列表; 
第一偏移模块:遍历距离列表,计算表单图像在第一方向上的线段组在每个距离作为位移的情况下,表单图像和模板图像在第一方向上线段组的匹配度,得到第一方向上的最高匹配度和距离列表中对应的最佳偏移量;
第二偏移模块:按照第一方向的最佳偏移量移位表单图像,遍历第二方向上模板图像和表单图像的线段组,转到步骤二,直至得到第二方向上的最高匹配度和对应的最佳偏移量;
匹配模块:如果第一方向和第二方向上的最高匹配度之和大于既定比例,则将表单图像与模板图像按第一方向和第二方向上的最高匹配度对应的最佳偏移量进行匹配。
CN201010606516.2A 2010-12-27 2010-12-27 表单匹配方法和装置 Active CN102567741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010606516.2A CN102567741B (zh) 2010-12-27 2010-12-27 表单匹配方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010606516.2A CN102567741B (zh) 2010-12-27 2010-12-27 表单匹配方法和装置

Publications (2)

Publication Number Publication Date
CN102567741A true CN102567741A (zh) 2012-07-11
CN102567741B CN102567741B (zh) 2014-07-02

Family

ID=46413114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010606516.2A Active CN102567741B (zh) 2010-12-27 2010-12-27 表单匹配方法和装置

Country Status (1)

Country Link
CN (1) CN102567741B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104092613A (zh) * 2014-07-15 2014-10-08 山东超越数控电子有限公司 一种基于模糊匹配的快速查表方法
CN104899551A (zh) * 2015-04-30 2015-09-09 北京大学 一种表单图像分类方法
CN105184288A (zh) * 2015-11-04 2015-12-23 中国联合网络通信集团有限公司 人脸识别方法和系统
CN107463868A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 一种电子表单核验方法及装置
CN108108744A (zh) * 2016-11-25 2018-06-01 同方威视技术股份有限公司 用于辐射图像辅助分析的方法及其系统
CN111989692A (zh) * 2019-09-30 2020-11-24 北京市商汤科技开发有限公司 表单识别方法、表格提取方法及相关装置
CN112199972A (zh) * 2020-10-28 2021-01-08 普联技术有限公司 一种识别定位点的方法
WO2021062896A1 (zh) * 2019-09-30 2021-04-08 北京市商汤科技开发有限公司 表单识别方法、表格提取方法及相关装置
CN112927148A (zh) * 2021-01-27 2021-06-08 上海云深网络技术有限公司 图像处理方法及图像处理系统
CN112966537A (zh) * 2021-02-10 2021-06-15 北京邮电大学 基于二维码定位的表单识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000058866A1 (en) * 1999-03-26 2000-10-05 Targetmatch Ltd. Multi-lingual on-line object matching
CN101452523A (zh) * 2007-12-07 2009-06-10 汉王科技股份有限公司 一种识别手写表格的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000058866A1 (en) * 1999-03-26 2000-10-05 Targetmatch Ltd. Multi-lingual on-line object matching
CN101452523A (zh) * 2007-12-07 2009-06-10 汉王科技股份有限公司 一种识别手写表格的方法及装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104092613A (zh) * 2014-07-15 2014-10-08 山东超越数控电子有限公司 一种基于模糊匹配的快速查表方法
CN104899551B (zh) * 2015-04-30 2018-08-14 北京大学 一种表单图像分类方法
CN104899551A (zh) * 2015-04-30 2015-09-09 北京大学 一种表单图像分类方法
CN105184288A (zh) * 2015-11-04 2015-12-23 中国联合网络通信集团有限公司 人脸识别方法和系统
CN105184288B (zh) * 2015-11-04 2018-09-07 中国联合网络通信集团有限公司 人脸识别方法和系统
CN107463868A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 一种电子表单核验方法及装置
CN107463868B (zh) * 2016-06-02 2021-02-23 阿里巴巴集团控股有限公司 一种电子表单核验方法及装置
CN108108744A (zh) * 2016-11-25 2018-06-01 同方威视技术股份有限公司 用于辐射图像辅助分析的方法及其系统
CN111989692A (zh) * 2019-09-30 2020-11-24 北京市商汤科技开发有限公司 表单识别方法、表格提取方法及相关装置
WO2021062896A1 (zh) * 2019-09-30 2021-04-08 北京市商汤科技开发有限公司 表单识别方法、表格提取方法及相关装置
CN112199972A (zh) * 2020-10-28 2021-01-08 普联技术有限公司 一种识别定位点的方法
CN112927148A (zh) * 2021-01-27 2021-06-08 上海云深网络技术有限公司 图像处理方法及图像处理系统
CN112966537A (zh) * 2021-02-10 2021-06-15 北京邮电大学 基于二维码定位的表单识别方法及系统

Also Published As

Publication number Publication date
CN102567741B (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
CN102567741B (zh) 表单匹配方法和装置
CN111814722A (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
CN101901343B (zh) 基于立体约束的遥感影像道路提取方法
CN101770575B (zh) 名片图像倾斜角度的测量方法和装置
CN101251892B (zh) 一种字符切分方法和装置
CN101957919B (zh) 基于图像局部特征检索的文字识别方法
US20080232715A1 (en) Image processing apparatus
CN107563379B (zh) 用于对自然场景图像中文本的定位方法
CN101515325A (zh) 基于字符切分和颜色聚类的数字视频中的字符提取方法
CN102184550A (zh) 一种动平台地面运动目标检测方法
CN102081732A (zh) 一种版式识别模板方法及系统
CN106529368B (zh) 二维码识别区域定位的方法
CN105809673A (zh) 基于surf算法和合并最大相似区域的视频前景分割方法
CN109241975A (zh) 一种基于字符中心点定位的车牌字符分割方法
CN102592277A (zh) 基于灰度子集合划分的曲线自动匹配方法
CN112329641A (zh) 一种表格识别方法、装置、设备及可读存储介质
Ziaratban et al. A novel two-stage algorithm for baseline estimation and correction in Farsi and Arabic handwritten text line
CN114266784A (zh) 基于线型掩膜扫描寻界的田间作物行区域实例分割方法
CN107122781B (zh) 一种基于叶片形状和边缘特征的植物叶片识别方法
Alaei et al. A baseline dependent approach for Persian handwritten character segmentation
CN102693424B (zh) 基于Harr-like特征的文档倾斜校正方法
Mei et al. A Chinese character segmentation algorithm for complicated printed documents
CN103679170A (zh) 一种基于局部特征的显著区域检测方法
CN113516103A (zh) 一种基于支持向量机的表格图像倾斜角度确定方法
CN109308468B (zh) 一种车道线检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant