CN101452523A - 一种识别手写表格的方法及装置 - Google Patents

一种识别手写表格的方法及装置 Download PDF

Info

Publication number
CN101452523A
CN101452523A CNA2007101789611A CN200710178961A CN101452523A CN 101452523 A CN101452523 A CN 101452523A CN A2007101789611 A CNA2007101789611 A CN A2007101789611A CN 200710178961 A CN200710178961 A CN 200710178961A CN 101452523 A CN101452523 A CN 101452523A
Authority
CN
China
Prior art keywords
stroke
line segment
legible
rectangle
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101789611A
Other languages
English (en)
Other versions
CN101452523B (zh
Inventor
刘迎建
徐明庆
王春明
王利娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanwang Technology Co Ltd
Original Assignee
Hanwang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanwang Technology Co Ltd filed Critical Hanwang Technology Co Ltd
Priority to CN2007101789611A priority Critical patent/CN101452523B/zh
Publication of CN101452523A publication Critical patent/CN101452523A/zh
Application granted granted Critical
Publication of CN101452523B publication Critical patent/CN101452523B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种识别手写表格的方法及装置,解决目前的手写识别技术在识别手写表格方面不完善的问题。所述方法包括:采集原始输入作为待分析笔画;从所述待分析笔画中识别出非文字笔画;将所述非文字笔画分割为线段;判定出水平和竖直方向的线段,并判断所述水平和竖直方向的线段是否构成封闭矩形,并且矩形内部是否至少包含一条水平线段或竖直线段;如果是,则所述构成封闭矩形的线段为表格边界线,所述封闭矩形内部的水平或竖直线段为内部表格线;利用所述表格边界线和内部表格线构建表格结构,并填充表格内容。本发明通过以上笔画采样、图文分割、笔画成组、分割笔画为线段、表格分析几个步骤,实现了手写输入表格的识别。

Description

一种识别手写表格的方法及装置
技术领域
本发明涉及模式识别技术,特别是涉及一种识别手写表格的方法及装置。
背景技术
在模式识别领域,可识别的信息包括图形、图像、各种语言的字符、表格等多种形式,其中识别手写输入的技术作为模式识别的一个方面,得到了广泛的应用。手写识别技术是基于对手写输入笔画的识别,把人借助某种设备输入的信息转换成计算机可识读并能直接处理的形式。
目前,手写识别技术中应用最多的是对文字等字符的识别,字符识别和处理技术发展较早,现在已经发展到应用阶段,例如手机、PDA等移动终端中手写输入法的应用等。而手写字符之外的表格、图形、框图等在文档中经常出现的元素在手写识别技术方面还没有得到充分的发展。其中,表格作为一种常用的信息表达方式,经常出现在电子文档中,但是把表格输入到电子文档的方式却很单一,是通过各种软件编辑器(如Word、Excel等)输入。因此,如果能把表格也通过手写方式输入到电子文档中,用户就能够在应用手写输入时更方便地编辑文档。
发明内容
本发明所要解决的技术问题是提供一种识别手写表格的方法及装置,以解决目前的手写识别技术在识别手写表格方面不完善的问题。
为解决上述技术问题,根据本发明提供的具体实施例,本发明公开了以下技术方案:
一种识别手写表格的方法,包括:
采集原始输入作为待分析笔画;
从所述待分析笔画中识别出非文字笔画;
将所述非文字笔画分割为线段;
判定出水平和竖直方向的线段,并判断所述水平和竖直方向的线段是否构成封闭矩形,并且矩形内部是否至少包含一条水平线段或竖直线段;如果是,则所述构成封闭矩形的线段为表格边界线,所述封闭矩形内部的水平或竖直线段为内部表格线;
利用所述表格边界线和内部表格线构建表格结构,并填充表格内容。
优选的,在识别非文字笔画的步骤之前还包括:对原始输入进行重新采样,得到以距离均匀的点列信息表示的笔画,作为待分析笔画。
优选的,按照以下步骤识别出非文字笔画:计算笔画的长度,将长度大于长度阈值的笔画判定为非文字笔画。
优选的,按照以下步骤分割非文字笔画为线段:计算笔画上每个点处的角度,如果计算结果小于角度阈值,则将该点判定为折线点,两两折线点构成线段。
优选的,按照以下步骤计算笔画上每个点处的角度:以该点为圆心、以预置阈值为半径的圆与笔画相交为两点,交点与圆心相连的半径形成的角度为该点的角度。
优选的,按照以下步骤判定出水平和竖直方向的线段:计算线段的长度、宽度和高度;将线段宽度与线段长度的比值小于竖直线段阈值的线段判定为竖直方向;将线段高度与线段长度的比值小于水平线段阈值的线段判定为水平方向。
优选的,在分割笔画为线段的步骤之前还包括笔画分组的步骤:计算非文字笔画之间的距离,将计算结果小于成组阈值的非文字笔画划分为一组,分割笔画时分别对每组笔画进行分割。
优选的,按照以下步骤计算非文字笔画之间的距离:以最小矩形包围笔画,计算两个矩形水平方向间隔和竖直方向间隔之和。
一种识别手写表格的装置,包括:
笔画采样单元,用于采集原始输入作为待分析笔画;
图文分割单元,用于从所述待分析笔画中识别出非文字笔画;
分割笔画为线段单元,用于将所述非文字笔画分割为线段;
水平和竖直线段判断单元,用于判定出水平和竖直方向的线段;
表格判断单元,用于判断所述水平和竖直方向的线段是否构成封闭矩形,并且矩形内部是否至少包含一条水平线段或竖直线段;如果是,则所述构成封闭矩形的线段为表格边界线,所述封闭矩形内部的水平或竖直线段为内部表格线;
表格构建单元,用于利用所述表格边界线和内部表格线构建表格结构,并填充表格内容。
优选的,所述水平和竖直线段判断单元通过计算线段的长度、宽度和高度,将线段宽度与线段长度的比值小于竖直线段阈值的线段判定为竖直方向,将线段高度与线段长度的比值小于水平线段阈值的线段判定为水平方向。
优选的,所述图文分割单元通过计算笔画的长度,将长度大于长度阈值的笔画判定为非文字笔画。
优选的,所述笔画采样单元通过对原始输入的笔画进行重新采样,得到以距离均匀的点列信息表示的笔画,作为待分析笔画。
优选的,所述分割笔画为线段单元通过计算笔画上每个点处的角度,如果计算结果小于角度阈值,则将该点判定为折线点,两两折线点构成线段。
优选的,所述装置还包括:笔画成组单元,用于计算非文字笔画之间的距离,将计算结果小于成组阈值的非文字笔画划分为一组,分割笔画为线段单元分别对每组笔画进行分割。
优选的,所述笔画成组单元通过计算笔画外围矩形之间的距离来计算非文字笔画之间的距离,其中所述笔画外围矩形指包围笔画的最小矩形,所述笔画外围矩形之间的距离表示两个矩形水平方向间隔和竖直方向间隔之和。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
提供了一种识别手写表格的方法和装置,通过笔画采样、图文分割、笔画成组、分割笔画为线段、表格分析几个步骤,将原始输入的笔画经过处理转换成表格结构。这种手写表格识别技术不同于手写字符的识别,首先通过图文分割步骤将文字与非文字笔画区分开,这些非文字笔画可能包含表格,也可能包含其他形状的笔画。然后,通过分割笔画为线段步骤将笔画分割为线段,用线段近似拟和原始输入笔画,为下一步的表格分析做准备。在表格分析过程中,首先确定水平和竖直方向的线段,然后判断这些线段是否构成一个封闭矩形,并且矩形内部至少包含一条水平线段或一条竖直线段,如果满足所述条件则构建结构化表格,将构成封闭矩形的线段作为表格边界线,将封闭矩形内部的水平或竖直线段作为内部表格线;最后再将落在表格范围内的输入笔画作为表格内容进行填充。
优选的,对于原始输入中包含多个表格或者包含多种输入形状的情况,本发明也能进行识别,通过笔画成组步骤,将可能属于不同表格或不同形状的非文字笔画分成几组区别开,然后再通过分割笔画为线段、表格分析步骤分别对每组笔画进行分析识别。
而且,本发明所述识别装置既可以作为计算机的一个应用程序,运行在与手写输入设备相连的计算机上,或者运行在拥有计算处理能力的手写输入设备中,也可以作为单独的硬件设备存在。因此,本发明在实际应用中的形式非常灵活。
附图说明
图1是本发明实施例所述一种识别手写表格的方法流程图;
图2.1是原始笔画的点列表示示意图,图2.2是重新采样后的点列表示示意图;
图3.1是笔画的外围矩形示意图,图3.2是两个外围矩形之间的距离示意图;
图4是笔画分割为线段的示意图;
图5是结构化表格示意图;
图6.1是用线段构建结构化表格的示意图,图6.2是表格中单元格的边界示意图,图6.3是确定单元格内容的方法示意图;
图7本发明实施例所述一种识别手写表格的装置结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例提供了一种识别手写表格的方法,表格识别的目的是把计算机无法理解的原始输入中包含的表格转换成为计算机可以理解的结构化表格,并且为表格的每个单元格确定所包含的内容。表格识别依次经过笔画采样、图文分割、笔画成组、分割笔画为线段、表格分析五个步骤,下面分别详细说明。
参照图1,是本发明实施例所述一种识别手写表格的方法流程图。其中,每个步骤的输出作为下一个步骤的输入,第一个步骤的输入是原始输入,最后一个步骤的输出是结构化表格。
步骤101,笔画采样。
表格识别的原始输入可能包含表格,也可能包含表格之外的其它元素,比如文字、其他形状的笔画等。笔画采样即通过手写输入设备收集用户输入的原始笔画信息,采样结果为由一系列点表示一条笔画。原始笔画信息的特点是相邻的点和点之间的间隔较小,而且由于手写输入的随机干扰造成明显的波动,通常在采样过程中会对原始笔画进行平滑等处理,减小笔画的波动。
本实施例优选的,为便于后续步骤的计算处理,对原始笔画的点进行重新采样处理。经过处理的点列信息中,点和点之间的距离相对较大并且比较均匀,点列的波动相对原始笔画减小。
参照图2.1,是原始笔画的点列表示示意图;参照图2.2,是重新采样后的点列表示示意图。由图可知,经过处理的笔画比原始笔画更平滑,点的个数也相对减少,点间距也相对均匀。
步骤102,图文分割。
图文分割是指把笔画分成文字笔画和非文字笔画两个大的类别,为了方便,非文字笔画也称为图。本步骤是从采样结果中识别出可能包含表格的非文字笔画,识别方法是:为每条笔画计算长度,将长度超过“图文分割长度阈值”的笔画判定为非文字笔画,否则就是文字笔画。所述识别出的文字笔画将通过字符识别方法进行识别,不在本文的描述范围之内,下面将继续说明对非文字笔画的处理。
优选的,在计算笔画长度时,由于经过采样处理的采样点之间的距离比较均匀,为了减小计算量,采用笔画所包含的采样点个数代表对应笔画的长度。
本实施例依据笔画长度来区分文字笔画和非文字笔画,因为通常文字笔画的长度较表格等非文字笔画的长度短小,但是本发明并不限定图文分割的方法,当然也可以参考笔画弯曲度等其他因素。而且,本发明也并不限定必须将采样笔画进行文字和非文字的划分,本实施例是为便于将单独的表格识别技术与字符识别相结合来应用,因此如果仅需要实现表格识别,也可以直接把可能构成表格的笔画挑选出来,或者通过其他分类方式挑选。
优选步骤103,笔画成组。
笔画成组的处理主要是针对包含多个表格或者包含多种输入形状的情况,依据笔画之间的距离将各个表格或将多个输入形状区别开。如果两条笔画之间的距离小于“非文字笔画成组阈值”,则认为这两条笔画属于同一个组。而且,文字笔画和非文字笔画无论距离大小,都不属于同一个组。本步骤是本实施例的优选步骤,经过笔画成组处理,每一组都构成一个单独的表格或其他形状,即每一组都是一个单独的形状。
在计算笔画间距离时,本实施例采用的方法是利用笔画的外围矩形计算外围矩形之间的距离来表示。笔画的外围矩形是指把一条笔画上所有的点都包围在内的最小矩形,由两条水平边和两条竖直边构成,可参照图3.1所示。外围矩形之间的距离是指两个矩形的水平方向间隔和竖直方向间隔之和,可参照图3.2所示。
如前所述,本发明也不限定计算笔画间距离的方法,也可以通过其他方式来衡量笔画之间的距离。而且,也不会限定笔画成组的依据,以笔画之间的距离来划分组是一种比较简单的划分方式,当然也可以参考其他因素进行判断。
步骤104,分割笔画为线段。
分割笔画为线段的目的是用一条折线(由多条线段首尾相连而成的线)近似地拟和原始非文字笔画,用尽可能少的点来表示一条笔画,为下一步的分析做准备。分割笔画的基本方法是在笔画方向变化比较大的地方做分割,这些分割点和笔画的起点、终点一起构成该笔画对应的线段。参照图4所示,是笔画分割为线段的示意图,图中的小方框代表笔画中线段的端点。
按照上述思想,可以有多种具体实现方式,本实施例采用的方式是:计算笔画上每个点处的角度,如果笔画在某个点形成的角度小于“分割笔画为线段角度阈值”,则保留这个点作为折线的一个点,折线上的两点确定一条线段。
优选的,为了降低干扰,本实施例在计算角度的时候以该点为圆心,以“分割笔画为线段半径阈值”为半径画一个圆,圆和笔画形成两个交点,交点与圆心相连形成两个半径,这两个半径形成的夹角就认为是笔画在给定的点上形成的角度。当然,角度的定义也可以有其他方式,在此不作限定。
步骤105,表格分析。
针对每组已经分割为线段的非文字笔画,表格分析的目的是判断出其中是否包含表格结构,如果包含就转化为相应的结构化表格(参照图5所示),并为表格的每个单元格确定所包含的内容。具体包括三个步骤:一,判定是否是表格结构;二,转化为结构化表格,即能够表达表格行列结构和单元格结构的描述;三,确定每个单元格的内容。下面分别说明。
第一个步骤,首先收集潜在的表格边界线和内部表格线。本实施例仅以水平方向和竖直方向的线段能够构成表格边界线和内部表格线,并利用线段的宽高比和阈值来判断线段是否为水平或者竖直。具体过程如下:
针对一组非文字笔画,计算所有线段的长度、宽度和高度,线段长度、宽度和高度的定义如下:
线段的长度: length ( ls < p 1 , p 2 > ) = ( x 1 - x 2 ) 2 + ( y 1 - y 2 ) 2 ;
线段的宽度:width(ls<p1,p2>)=|x1-x2|;
线段的高度:height(ls<p1,p2>)=|y1-y2|;
其中,p1和p2表示线段的两个端点,xi表示点pi的x坐标,yi表示点pi的y坐标。
把满足条件1的线段判定为竖直方向的线段,把满足条件2的线段判定为水平方向的线段:
条件1,线段宽度<线段长度*[竖直线段阈值];
条件2,线段高度<线段长度*[水平线段阈值]。
然后,判断这些水平方向和竖直方向的线段是否构成表格。构成表格需要同时满足两个条件:其一,潜在的左右边界和上下边界需要构成一个封闭的形状(表格为矩形);其二,矩形内部至少包含一条水平线段或者竖直线段。具体过程如下:
将竖直线段从左到右排序,构成潜在的表格列与列之间的分割线和表格的左右边界;将水平线段从上到下排序,构成潜在的表格行与行之间的分割线和表格的上下边界。
针对一组线段,是否构成封闭矩形的检测方法是:如果满足以下4个条件中的任意一个条件,则不是表格,继续处理下一组。
条件1,h中第一条线段的右端点和v中最后一条线段的上端点的距离>[重合距离阈值];
条件2,v中最后一条线段的下边端点和h中最后一条线段的右端点的距离>[重合距离阈值];
条件3,h中最后一条线段的左端点和v中第一条线段的下端点的距离>[重合距离阈值];
条件4,v中第一条线段的上端点和h中第一条线段的左端点的距离>[重合距离阈值];
其中,h中存放水平方向的线段,v中存放竖直方向的线段。
针对一组线段,通过线段个数来检测矩形内部是否至少包含一条水平线段或者竖直线段,如果满足以下3个条件中的任意一个条件,则不是表格:
条件1,v中线段个数<2;
条件2,h中线段个数<2;
条件3,v,h线段个数之和<5;
其中,h中存放水平方向的线段,v中存放竖直方向的线段。
第二个步骤,构建表格结构。如果经过第一个步骤的判断是表格,则经过排序的线段就界定了表格的行列结构,从而界定了表格的单元格。h中第一条线段和最后一条线段分别为表格的上下边界,v中第一条和最后一条线段分别为表格的左右边界,h中的其他线段为表格的行分割线,v中的其他线段为表格的列分割线。由此可以得到表格包含几行几列,即确定了表格包含多少个单元格。
参照图6.1,是用线段构建结构化表格的示意图,其中单元格(i,j)是由第i行和第j列交叉形成的单元格。参照图6.2,是表格中单元格的边界示意图,其中单元格(2,2)的边界是由第2条和第3条竖直线段、第2条和第3条水平线段构成。
第三个步骤,填充单元格内容。给定一个单元格,就可以知道该单元格的位置信息,本实施例在该组所有的笔画中搜索落在单元格之内的笔画作为这个单元格的内容,单元格的内容可能是字符,也可能是其他形状的笔画。具体判断方式是:如果一条笔画的外围矩形全部包含在单元格的边界范围之内,则将这条笔画作为单元格的内容加入该单元格,可参见图6.3所示。
需要说明的是,本发明并不限定表格分析采用其他方式,以上表格分析方法仅作为其中一种实施例进行说明。而且,上述表格识别方法常常与字符识别方法结合,共同应用到手写输入识别中。
以上表格识别过程中,涉及到多个阈值的定义及使用,这些阈值的取值通常是一些经验值,根据这些经验值得到的识别效果较好,但根据不同的应用情况,可以对这些阈值重新设置。在识别过程中还涉及到多个计算公式和运用不等式的判断条件,本发明在此也不作限定,即这些公式或不等式是可以变形的。
针对上述手写表格识别方法,本发明还提供了一种识别装置的实施例。参照图7,是所述识别手写表格的装置结构框图。所述装置依次包括笔画采样单元701、图文分割单元702、笔画成组单元703、分割笔画为线段单元704、表格分析单元705,其中每个单元的输出结果将作为下一个单元的输入,原始输入将作为笔画采样单元701的输入,结构化的表格将作为表格分析单元705的输出结果。
笔画采样单元701用于采集原始笔迹输入,采样结果为用点列表示的笔画。为了减少笔画波动,并便于后续的计算处理,笔画采样单元701对采样点进行处理得到点间距较大且比较均匀的点列信息。
图文分割单元702用于把笔画分成文字笔画和非文字笔画,即从采样结果中识别出可能包含表格的非文字笔画,采用的识别方法是依据笔画长度,将长度超过“图文分割长度阈值”的笔画判定为非文字笔画,否则就是文字笔画。
笔画成组单元703是优选设置,用于对非文字笔画进行分组处理,将包含多个表格或者包含多种输入形状的笔画区别开,每一组为独立的一个表格或一种形状。分组依据是笔画之间的距离,如果两条笔画之间的距离小于“非文字笔画成组阈值”,则认为这两条笔画属于同一个组。而且,文字笔画和非文字笔画无论距离大小,都不属于同一个组。笔画之间距离的计算采用笔画外围矩形之间的距离。
分割笔画为线段单元704用于对每组笔画进行处理,将一条笔画分割为多个首尾相连的线段,即用一条折线近似拟和一条笔画,用尽可能少的点来表示一条笔画,为下一步的分析做准备。分割方法是:计算笔画上每个点处的角度,如果笔画在某个点形成的角度小于“分割笔画为线段角度阈值”,则保留这个点作为折线的一个点,折线上的两点确定一条线段。为了降低干扰,在计算角度的时候以该点为圆心,以“分割笔画为线段半径阈值”为半径画一个圆,圆和笔画形成两个交点,交点与圆心相连形成两个半径,这两个半径形成的夹角就认为是笔画在给定的点上形成的角度。
表格分析单元705用于对每组线段,判断出其中是否包含表格结构,如果包含就转化为相应的结构化表格,并为表格的每个单元格确定所包含的内容。表格分析单元705包括三个子单元来完成上述功能,分别是水平和竖直线段判断子单元、表格判断子单元和表格构建子单元。
本实施例认为水平方向和竖直方向的线段才能构成表格,因此所述水平和竖直线段判断子单元利用线段的宽高比和阈值来判断线段是否为水平或者竖直。所述表格判断子单元用于将竖直线段从左到右排序,将水平线段从上到下排序,判断这些线段是否同时满足两个条件:潜在的左右边界和上下边界需要构成一个封闭的矩形,矩形内部至少包含一条水平线段或者竖直线段。如果同时满足,则所述表格构建子单元构建表格结构,利用经过排序的线段来界定表格的行列结构,从而界定表格的单元格;然后,搜索该组所有的笔画中落在单元格之内的笔画作为这个单元格的内容。
在实际应用中,上述表格识别装置可以有多种应用形式。例如,可以作为一个单独的软件处理模块,安装到与输入设备相连的计算机中作为应用程序运行,或者安装到具有计算和处理能力的输入设备中运行;也可以作为单独的硬件设备存在,与输入设备相连来识别输入设备采集的原始输入。而且,所述表格识别系统通常与字符识别系统相结合,应用到通过手写输入的电子文档编辑方面。
图7所示装置中未详述的部分可以参见图1所示方法的相关部分,为了篇幅考虑,在此不再详述。
以上对本发明所提供的一种识别手写表格的方法及装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1、一种识别手写表格的方法,其特征在于,包括:
采集原始输入作为待分析笔画;
从所述待分析笔画中识别出非文字笔画;
将所述非文字笔画分割为线段;
判定出水平和竖直方向的线段,并判断所述水平和竖直方向的线段是否构成封闭矩形,并且矩形内部是否至少包含一条水平线段或竖直线段;如果是,则所述构成封闭矩形的线段为表格边界线,所述封闭矩形内部的水平或竖直线段为内部表格线;
利用所述表格边界线和内部表格线构建表格结构,并填充表格内容。
2、根据权利要求1所述的方法,其特征在于,在识别非文字笔画的步骤之前还包括:对原始输入进行重新采样,得到以距离均匀的点列信息表示的笔画,作为待分析笔画。
3、根据权利要求1所述的方法,其特征在于,按照以下步骤识别出非文字笔画:计算笔画的长度,将长度大于长度阈值的笔画判定为非文字笔画。
4、根据权利要求2所述的方法,其特征在于,按照以下步骤分割非文字笔画为线段:计算笔画上每个点处的角度,如果计算结果小于角度阈值,则将该点判定为折线点,两两折线点构成线段。
5、根据权利要求4所述的方法,其特征在于,按照以下步骤计算笔画上每个点处的角度:以该点为圆心、以预置阈值为半径的圆与笔画相交为两点,交点与圆心相连的半径形成的角度为该点的角度。
6、根据权利要求1所述的方法,其特征在于,按照以下步骤判定出水平和竖直方向的线段:
计算线段的长度、宽度和高度;
将线段宽度与线段长度的比值小于竖直线段阈值的线段判定为竖直方向;
将线段高度与线段长度的比值小于水平线段阈值的线段判定为水平方向。
7、根据权利要求1所述的方法,其特征在于,在分割笔画为线段的步骤之前还包括笔画分组的步骤:计算非文字笔画之间的距离,将计算结果小于成组阈值的非文字笔画划分为一组,分割笔画时分别对每组笔画进行分割。
8、根据权利要求7所述的方法,其特征在于,按照以下步骤计算非文字笔画之间的距离:以最小矩形包围笔画,计算两个矩形水平方向间隔和竖直方向间隔之和。
9、一种识别手写表格的装置,其特征在于,包括:
笔画采样单元,用于采集原始输入作为待分析笔画;
图文分割单元,用于从所述待分析笔画中识别出非文字笔画;
分割笔画为线段单元,用于将所述非文字笔画分割为线段;
水平和竖直线段判断单元,用于判定出水平和竖直方向的线段;
表格判断单元,用于判断所述水平和竖直方向的线段是否构成封闭矩形,并且矩形内部是否至少包含一条水平线段或竖直线段;如果是,则所述构成封闭矩形的线段为表格边界线,所述封闭矩形内部的水平或竖直线段为内部表格线;
表格构建单元,用于利用所述表格边界线和内部表格线构建表格结构,并填充表格内容。
10、根据权利要求9所述的系统,其特征在于:所述水平和竖直线段判断单元通过计算线段的长度、宽度和高度,将线段宽度与线段长度的比值小于竖直线段阈值的线段判定为竖直方向,将线段高度与线段长度的比值小于水平线段阈值的线段判定为水平方向。
11、根据权利要求9所述的系统,其特征在于:所述图文分割单元通过计算笔画的长度,将长度大于长度阈值的笔画判定为非文字笔画。
12、根据权利要求9所述的系统,其特征在于:所述笔画采样单元通过对原始输入的笔画进行重新采样,得到以距离均匀的点列信息表示的笔画,作为待分析笔画。
13、根据权利要求12所述的系统,其特征在于:所述分割笔画为线段单元通过计算笔画上每个点处的角度,如果计算结果小于角度阈值,则将该点判定为折线点,两两折线点构成线段。
14、根据权利要求9所述的系统,其特征在于,还包括:笔画成组单元,用于计算非文字笔画之间的距离,将计算结果小于成组阈值的非文字笔画划分为一组,分割笔画为线段单元分别对每组笔画进行分割。
15、根据权利要求14所述的系统,其特征在于:所述笔画成组单元通过计算笔画外围矩形之间的距离来计算非文字笔画之间的距离,其中所述笔画外围矩形指包围笔画的最小矩形,所述笔画外围矩形之间的距离表示两个矩形水平方向间隔和竖直方向间隔之和。
CN2007101789611A 2007-12-07 2007-12-07 一种识别手写表格的方法及装置 Expired - Fee Related CN101452523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101789611A CN101452523B (zh) 2007-12-07 2007-12-07 一种识别手写表格的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101789611A CN101452523B (zh) 2007-12-07 2007-12-07 一种识别手写表格的方法及装置

Publications (2)

Publication Number Publication Date
CN101452523A true CN101452523A (zh) 2009-06-10
CN101452523B CN101452523B (zh) 2011-01-26

Family

ID=40734745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101789611A Expired - Fee Related CN101452523B (zh) 2007-12-07 2007-12-07 一种识别手写表格的方法及装置

Country Status (1)

Country Link
CN (1) CN101452523B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090245645A1 (en) * 2008-03-28 2009-10-01 Smart Technologies Inc. Method and tool for recognizing a hand-drawn table
CN102567741A (zh) * 2010-12-27 2012-07-11 汉王科技股份有限公司 表单匹配方法和装置
CN102855232A (zh) * 2012-09-14 2013-01-02 同方光盘股份有限公司 一种表格分析编改加工方法
CN104268545A (zh) * 2014-09-15 2015-01-07 同方知网(北京)技术有限公司 一种电子档版式文件中的表格区域识别与内容栅格化方法
CN104484643A (zh) * 2014-10-27 2015-04-01 中国科学技术大学 一种手写表格的智能识别方法及系统
CN105469053A (zh) * 2015-11-25 2016-04-06 成都数联铭品科技有限公司 一种基于贝叶斯优化的图像表格文字切分方法
CN105930763A (zh) * 2015-02-27 2016-09-07 联想(新加坡)私人有限公司 基于笔画属性的手写笔画分组的方法和产品
WO2016192664A1 (zh) * 2015-06-05 2016-12-08 夏普株式会社 手写表识别方法和设备
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN107273032A (zh) * 2017-06-28 2017-10-20 广州视源电子科技股份有限公司 信息排版方法、装置、设备及计算机存储介质
CN108304243A (zh) * 2018-02-06 2018-07-20 中国平安人寿保险股份有限公司 界面生成方法、装置、计算机设备和存储介质
CN112597987A (zh) * 2020-11-17 2021-04-02 北京百度网讯科技有限公司 纸质数据数字化方法及装置、电子设备、存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0721310A (ja) * 1993-06-30 1995-01-24 Matsushita Electric Ind Co Ltd 文書認識装置
CN100382098C (zh) * 2006-09-08 2008-04-16 华南理工大学 手写汉字首末笔段的联机提取方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090245645A1 (en) * 2008-03-28 2009-10-01 Smart Technologies Inc. Method and tool for recognizing a hand-drawn table
US8634645B2 (en) 2008-03-28 2014-01-21 Smart Technologies Ulc Method and tool for recognizing a hand-drawn table
CN102567741A (zh) * 2010-12-27 2012-07-11 汉王科技股份有限公司 表单匹配方法和装置
CN102567741B (zh) * 2010-12-27 2014-07-02 汉王科技股份有限公司 表单匹配方法和装置
CN102855232A (zh) * 2012-09-14 2013-01-02 同方光盘股份有限公司 一种表格分析编改加工方法
CN104268545A (zh) * 2014-09-15 2015-01-07 同方知网(北京)技术有限公司 一种电子档版式文件中的表格区域识别与内容栅格化方法
CN104484643B (zh) * 2014-10-27 2018-05-29 中国科学技术大学 一种手写表格的智能识别方法及系统
CN104484643A (zh) * 2014-10-27 2015-04-01 中国科学技术大学 一种手写表格的智能识别方法及系统
CN105930763A (zh) * 2015-02-27 2016-09-07 联想(新加坡)私人有限公司 基于笔画属性的手写笔画分组的方法和产品
CN105930763B (zh) * 2015-02-27 2019-07-26 联想(新加坡)私人有限公司 基于笔画属性的手写笔画分组的方法和产品
WO2016192664A1 (zh) * 2015-06-05 2016-12-08 夏普株式会社 手写表识别方法和设备
CN105469053A (zh) * 2015-11-25 2016-04-06 成都数联铭品科技有限公司 一种基于贝叶斯优化的图像表格文字切分方法
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN106407883B (zh) * 2016-08-10 2019-12-27 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN107273032A (zh) * 2017-06-28 2017-10-20 广州视源电子科技股份有限公司 信息排版方法、装置、设备及计算机存储介质
WO2019000681A1 (zh) * 2017-06-28 2019-01-03 广州视源电子科技股份有限公司 信息排版方法、装置、设备及计算机存储介质
CN108304243A (zh) * 2018-02-06 2018-07-20 中国平安人寿保险股份有限公司 界面生成方法、装置、计算机设备和存储介质
CN112597987A (zh) * 2020-11-17 2021-04-02 北京百度网讯科技有限公司 纸质数据数字化方法及装置、电子设备、存储介质
CN112597987B (zh) * 2020-11-17 2023-08-04 北京百度网讯科技有限公司 纸质数据数字化方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN101452523B (zh) 2011-01-26

Similar Documents

Publication Publication Date Title
CN101452523B (zh) 一种识别手写表格的方法及装置
EP3928168B1 (en) Automatic extraction of assets data from engineering data sources
CN101425142B (zh) 页面倾斜角度的确定方法和装置
CN108470021A (zh) Pdf文档中表格的定位方法及装置
CN109241861B (zh) 一种数学公式识别方法、装置、设备及存储介质
CN105912516B (zh) 一种从AutoCAD文件中一键式提取表格数据的方法
CN106650740A (zh) 一种车牌识别方法及终端
CN103761249B (zh) 基于数据匹配的数据导入方法及系统
CN110110198B (zh) 一种网页信息抽取方法及装置
CN111401353A (zh) 一种数学公式的识别方法、装置及设备
CN102750555A (zh) 一种应用于即时通讯工具的表情机器人
CN106599001A (zh) 网页内容获取方法和系统
CN111222541B (zh) 一种基于深度卷积神经网络的外表箱类型识别方法
CN111144300A (zh) 一种基于图像识别的pdf表格结构识别方法
CN110889404A (zh) 一种基于修正网络的不规则文本识别系统及方法
CN102243708A (zh) 一种手写识别方法、系统及手写识别终端
CN103929499A (zh) 一种物联网异构标识识别方法和系统
CN111709338A (zh) 一种用于表格检测的方法、装置及检测模型的训练方法
CN115471833A (zh) 一种动态局部自注意力卷积网络点云分析系统及方法
CN105227980B (zh) 一种电视浏览器的输入方法、装置及系统
CN1641686A (zh) 乱笔顺库建立方法及联机手写汉字识别评测系统
CN113920720A (zh) 高速公路隧道设备故障处理方法、装置及电子设备
CN115471852A (zh) 触摸识别方法、触摸设备、存储介质以及计算机设备
CN104899309A (zh) 展示事件评论观点的方法和装置
Cheng et al. Research on recognition method of interface elements based on machine learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110126

Termination date: 20201207