CN101751433B - 名片字符条目分类方法与装置 - Google Patents
名片字符条目分类方法与装置 Download PDFInfo
- Publication number
- CN101751433B CN101751433B CN200810239876A CN200810239876A CN101751433B CN 101751433 B CN101751433 B CN 101751433B CN 200810239876 A CN200810239876 A CN 200810239876A CN 200810239876 A CN200810239876 A CN 200810239876A CN 101751433 B CN101751433 B CN 101751433B
- Authority
- CN
- China
- Prior art keywords
- character
- word
- classification
- keyword
- fault
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种名片字符条目分类方法及装置,属于光学字符识别领域,包括以下步骤:(a)、先导词完全匹配分类步骤,逐条将所述字符条目与完全匹配先导词表中的所有先导词逐个进行完全匹配测试,通过本步骤的字符条目就送入分类结果中,未通过本步骤的字符条目则进入下一步骤;(b)、先导词容错匹配分类步骤,通过本步骤的字符条目就送入分类结果中,未通过本步骤的字符条目则进入下一步骤;(c)、关键词容错匹配分类步骤,通过本步骤的字符条目就送入分类结果中,未通过本步骤的字符条目则进入下一步骤;(d)、版面逻辑结构特征分类步骤。本发明可实现对各种版面结构的名片字符条目的快速而准确的分类。
Description
技术领域
本发明涉及光学字符识别(Optical Character Recognition,以下简称:OCR),尤其涉及一种名片字符条目分类方法与装置。
背景技术
在当今的商务活动中,名片已经是商业合作伙伴、客户等的重要信息载体,面对数量很多的名片,公司和个人都需要有一种方法进行自动、准确地信息采集和处理,目前的做法一般是先获得名片的图像(如通过手机、数码相机、扫描仪等录入),接着对名片图像的版面物理结构进行分析以定位字符区域,并通过图像处理获得字符区域的二值图像,然后对二值图像进行光学字符识别OCR,最后也是最重要的一步,就是对字符条目识别结果进行类别属性理解。这样最后一步就涉及到对名片上的字符条目进行分类,以便准确采集其上的人名、头衔、地址、电话、邮件等信息。
目前,名片字符条目分类有两类技术,一种是基于语义的分类方法,即知识工程的方法;另外一种是基于外延的分类方法,即统计学习的方法。字符条目的识别结果是一堆自然语言数据,知识工程的方法就是要从中提取出语义知识和规则,然后利用语义知识和规则库进行分类;统计学习的方法不关心字符条目的语义,而是根据字符条目的外在特征训练分类器进行自动分类。统计学习方法需要依赖丰富的训练样本,而且在处理语言的灵活性和歧义性方面存在很大困难,目前在名片字符条目分类中较少采用。相对而言,利用知识工程的方法,针对名片特点建立起语义知识和规则库之后,能够获得快速准确的分类结果。
中国发明专利申请00119693.6“可自动录入文字、图像的手机及其录入与处理方法”和200310121279.0“名片自动识别方法与系统”各提出一种名片字符条目的分类方法,但这两种方法都是利用名片版面逻辑结构进行分类,没有利用字符条目的语义特征;中国发明专利200510026492.2“手机中使用图像识别进行名片信息的采集与录入的方法”提出的方法也主要是利用名片版面逻辑结构进行分析,仅在地址条目的分析中使用了字符条目语义信息;中国发明专利200510028169.9“手持终端电子名片自动识别和管理系统”提出的方法中语义特征的使用限定了优先级。
以上技术的缺点是,前两个专利申请只使用了版面逻辑结构特征,文中给出的几种版面逻辑结构模板限制性太强,无法适应名片多变的版面结构;第三个专利申请也是主要使用版面逻辑结构特征,只针对地址条目使用了语义信息;第四个专利申请综合使用了语义信息和版面逻辑结构信息,但其对于语义信息的使用设置了优先级,而且没有考虑语义信息的容错匹配,也没有考虑不同关键词对于分类性能的贡献差异性,这些都对分类性能有重要影响。
发明内容
本发明的目的是提供一种名片字符条目分类方法与装置,综合利用名片的各种特征(语义特征、版面特征、条目自有特征等)进行名片字符条目分类,克服现有技术的上述缺陷,实现对各种版面结构的名片字符条目的快速而准确的分类。
为了实现本发明的目的,本发明提供了一种名片字符条目分类方法,用于通过对名片进行OCR识别后得到的多个名片字符条目进行逐条分类,至少包括以下步骤:
(a)、先导词完全匹配分类步骤:逐条将所述字符条目与完全匹配先导词表中的所有先导词逐个进行完全匹配测试,通过本步骤的字符条目就送入分类结果中,未通过本步骤的字符条目则进入下一步骤;
(b)、先导词容错匹配分类步骤:逐条将在步骤(a)中未完成分类的字符条目与容错匹配先导词表中的先导词进行容错匹配测试,通过本步骤的字符条目就送入分类结果中,未通过本步骤的字符条目则进入下一步骤;
(c)、关键词容错匹配分类步骤:逐条将在步骤(b)中未完成分类的字符条目与容错匹配关键词表中的关键词进行容错匹配测试,通过本步骤的字符条目就送入分类结果中,未通过本步骤的字符条目则进入下一步骤。
为实现本发明的目的,本发明还提供了一种名片字符条目分类装置,用于通过对名片进行OCR识别后得到的多个名片字符条目进行逐条分类,至少包括以下模块:
(a)、先导词完全匹配分类模块,用于根据完全匹配先导词表,逐条将所述字符条目与完全匹配先导词表中的所有先导词逐个进行完全匹配测试,通过本模块的字符条目就送入分类结果中,未通过本模块的字符条目则进入下一模块;
(b)、先导词容错匹配分类模块,用于根据容错匹配先导词表,逐条将在模块(a)中未完成分类的字符条目与容错匹配先导词表中的先导词进行容错匹配测试,通过本模块的字符条目就送入分类结果中,未通过本模块的字符条目则进入下一模块;
(c)、关键词容错匹配分类模块,用于根据容错匹配关键词表,逐条将在模块(b)中未完成分类的字符条目与容错匹配关键词表中的关键词进行容错匹配测试,通过本模块的字符条目就送入分类结果中。
本发明具有积极的效果:
1.本发明综合利用了名片字符条目的语义特征、版面逻辑特征及每类字符条目的自有特征,给出了一个清晰的多层次分类结构;
2.语义特征分为三类:先导词完全匹配特征、先导词容错匹配特征及关键词容错匹配特征,这样分类保证了分类的快速性;
3.容错匹配特征,使得字符条目分类在OCR结果不理想的情况下能得到较好的结果;
4.关键词按照对所属字符条目类型的重要程度进行分级,提高了分类性能;
5.版面逻辑特征用于语义特征较弱但逻辑特征较强的字符条目的分类,大大提高了字符条目分类正确率;
6.根据每类字符条目的自有特征制定校验规则校验前面分类方法的正确性,进一步提高了分类性能。
附图说明
图1为用于具体实施例的名片样张;
图2为本发明的名片字符条目分类方法的流程图;
图3为先导词完全匹配分类步骤的流程图;
图4为先导词容错匹配分类步骤的流程图;
图5为关键词容错匹配分类步骤的流程图;
图6为本发明的名片字符条目分类装置图。
具体实施方式
为了能更清楚地理解本发明的技术内容,特举以下实施例详细说明。本发明提出的技术方案适用于任何语种的名片,不仅仅限于本实施例的范围。本实施例中用到的公式的阈值是根据具体语种而设定的,在不同语种的名片中,可根据实际需要重新设定这些阈值。本实施例中,字符条目共有12个类别,分别为姓名、头衔、学位、部门、单位、地址、邮编、电话、传真、手机、电子邮箱及网页,但在其他实现中,类别数目及具体属性可根据实际需要设定,不受本实施例限制。
首先对本发明涉及的术语作出定义,其中“OCR结果”是指采用OCR技术对名片进行扫描后得到的计算机可识别的结果;“字符条目”是指名片中处于同行(或同列)且属于同一语义的字符构成的字符串;“先导词”是指字符条目中位于句首的用来引导后面内容并表明内容类别的词语,如表一中的字符条目10中的“Tel”,注意,并不是所有的字符条目都含有先导词,如表一中的字符条目8就不含先导词;“关键词”是指同一类字符条目中经常出现的用于表明该类类别的词语,广义的关键词包括先导词,狭义的关键词将先导词排除在外,本文取其狭义含义,例如表一中字符条目4中的“Technology”、“Co.,Ltd”两词就是该字符条目的关键词;“完全匹配”是指匹配词与被匹配词一一对应而形成的匹配;“容错匹配”是指匹配词与被匹配词之间允许存在差异(错误),这个差异用一种方式(本实施例中为编辑距离)度量出来,只要这个差异度量值不超过某个范围,就认为两个词是匹配的;“编辑距离”用于度量将字符串x变到字符串y所需要的最少基本操作,这里的基本操作包含三个——替换、插入和删除,替换就是x中的一个字符被y中的一个字符换掉,插入就是y中的一个字符插入到x中,删除就是x中的一个字符被删除。
如图1所示的名片样张,其OCR结果如下面的表一,注意,以下字符条目的顺序对分类结果没有影响:
表一
字符条目编号 | 字符条目内容 |
1 | 汉王 |
2 | HANWANG |
3 | 智电科技引领未来 |
4 | Hanwang Technology Co.,Ltd. |
5 | Li Yongbin |
6 | OCR Software Dept. |
7 | 5#5121Zhongguancun Software Park, |
8 | Prolect Manager |
9 | Beijing 100094P.R.China |
10 | Tel:86-10-82786699-8066 |
11 | Fax:86-10-82786807 |
12 | Mobile:13581816788 |
13 | E-mall:liyongbinhanwang.com.cn |
14 | Website:www.hw99.com |
在本实施例中,本发明的目的就是对上述14个字符条目进行正确分类。主要包括四大步骤,即:先导词完全匹配分类步骤、先导词容错匹配分类步骤、关键词容错匹配分类步骤和版面逻辑结构特征分类步骤。对于每一步骤而言,要对字符条目逐条处理,如果某个字符条目通过第一步骤完成了分类,则将其送入分类结果中,不再进行以后步骤;如果该字符条目在第一步骤中未完成分类,则需要等待第一步骤将14个字符条目一一都处理完毕后,再与在该步骤中未完成分类的其他字符条目一起进行下一步骤的分类……,每个步骤依次类推,直至14个字符条目全部处理完毕。
以下以图1所示的名片作为具体实施例并结合附图对本发明进行详细描述。图2为本发明的名片字符条目分类方法的流程图。如图2所示,本实施例中,名片字符条目分类方法包括:
步骤10:先导词完全匹配分类,对表一中的所有字符条目从第一条开始,逐条搜索,直至所有14条搜索匹配完毕。
步骤10可以包括(a1)、在完全匹配先导词表中逐条搜索与字符条目完全匹配的先导词,如果搜到完全匹配的先导词,则进入步骤(a2),否则,该字符条目不能通过先导词完全匹配进行分类;(a2)、如果该先导词不属于由字母构成单词的语种,则直接进行步骤(a3),否则通过设定的先导词匹配检验规则进行检验,所述设定的先导词匹配检验规则包括:①先导词长度超过匹配文本词长度两个或两个以上字符,匹配无效;②先导词从一个单词的第三个及其以后的字符开始匹配,匹配无效;③先导词在一个单词的倒数第三个及其以前的字符处结束匹配,匹配无效;④先导词从一个单词的第二个及其以后字符开始匹配而在倒数第二个及其以前字符结束匹配,匹配无效;如果该先导词能够通过检验,则进入步骤(a3),否则返回上一步骤(a1),在完全匹配先导词表中从当前先导词的下一个位置继续搜索完全匹配的先导词;(a3)、将当前先导词的类别作为当前字符条目的候选类别,再用候选类别的自有特征校验规则进行校验,如果能够通过校验,则将当前字符条目的类别标记为候选类别完成分类,否则,该字符条目不能通过先导词完全匹配进行分类。
如图3所示,步骤10具体可以包括如下步骤:
步骤101:计算先导词搜索长度;
针对每一条字符条目,由于先导词位于一个字符条目的行首,所以在搜索时,在本发明的一个优选实施例中,本发明先通过设定搜索长度而指定搜索范围,可以减少计算量,提高效率,比如可以按照下列公式设定搜索长度:
其中,SrchLen为从字符条目左端开始的搜索长度,LwLen为先导词的长度,每个字符的长度为1,当先导词长度小于等于4时,搜索长度为先导词长度加2,当先导词长度大于4而小于等于8时,搜索长度为先导词长度加3,当先导词长度大于8而小于等于16时,搜索长度为先导词长度加4,当先导词长度大于16时,搜索长度为先导词长度加5。例如表一中的字符条目10,当搜索到先导词“Tel”时,该先导词的长度为3,即LwLen=3,满足上述式1中的第一个条件LwLen≤4,带入式1得搜索范围为SrchLen=LwLen+2=3+2=5。
当然,上述根据公式1而指定搜索范围的步骤在一些实施例中也可以省略。
步骤102:计算当前字符条目和完全匹配先导词表中先导词的匹配程度。
本实施例中,完全匹配先导词表储存于一个存储器(图中未示)中,完全匹配先导词表包括地址完全匹配先导词表、邮编完全匹配先导词表、电话完全匹配先导词表、传真完全匹配先导词表、手机完全匹配先导词表、电邮完全匹配先导词表及网页完全匹配先导词表。每类完全匹配先导词表中含有先导词若干。对于某个字符条目,如果对整个先导词表搜索完毕而没有找到完全匹配的先导词,说明该条目无法利用先导词完全匹配进行分类。
步骤103:利用语言特点检验与字符条目完全匹配的先导词的有效性。
如果找到一个完全匹配的先导词,且该先导词属于由字母构成单词的语种,要检验这个先导词匹配是否有效,该先导词匹配检验规则为:1)先导词长度超过匹配文本词长度两个或两个以上字符,匹配无效;2)先导词从一个单词的第三个及其以后的字符开始匹配,匹配无效;3)先导词在一个单词的倒数第三个及其以前的字符处结束匹配,匹配无效;4)先导词从一个单词的第二个及其以后字符开始匹配而在倒数第二个及其以前字符结束匹配,匹配无效。对于不是由字母构成单词的语种,如中文,则无需该步检验,直接跳过该步即可。如果先导词无法通过上述检验,则继续搜索剩余的先导词;如果通过上述检验,则将该先导词的类别作为当前字符条目的候选类别,进行预分类。
步骤104:利用候选类别的自有特征校验规则校验预分类的有效性。
如果能通过校验规则的校验,则将当前条目的类别标注为候选类别,否则,则不能标注。
在本发明中自有特征校验是个比较重要的概念,在步骤104中提及的根据每类字符条目的自有特征制定的校验规则,在后面三个分类步骤中亦会提到,这里给出本实施例中12个类别字符条目各自的自有特征,其中的具体校验规则如数据等可根据实际需要通过对这些自有特征设定相应的取值或阈值而得到,后面提到时不再一一进行解释:
(1)姓名条目的字符大小、数字个数、字符个数、语种类别等;
(2)头衔条目的数字个数、字符个数等;
(3)学位条目的数字个数、字符个数等;
(4)部门条目的数字个数等;
(5)单位条目的数字个数、字符个数、语种类别等;
(6)地址条目的数字个数、字符个数、行首对齐属性等;
(7)邮编条目的数字个数、字符个数等;
(8)电话条目的数字个数、字符个数等;
(9)传真条目的数字个数、字符个数等;
(10)手机条目的数字个数、字符个数等;
(11)电邮条目的字符个数、号个数等;
(12)网页条目的数字个数、字符个数、点号个数等。
在图1的实施例中,将14个条目依次进行先导词完全匹配搜索,在搜索到第10个条目“Tel:86-10-82786699-8066”时,搜索到先导词“Tel”,然后通过电话条目自有特征校验规则验证这个分类是否有效。电话条目典型的自有特征就是含有较多数字,这里我们设定电话条目校验规则为“含有5个或5个以上的数字”,显然本条目满足此规则,则该条目的类别标记为“电话”。同理,接下来在“Fax:86-10-82786807”、“Mobile:13581816788”和“Website:www.hw99.com”中分别搜索到先导词“Fax”、“Mobile”和“Website”。传真条目典型的自有特征也是含有较多数字,同样传真条目的校验规则为“含有5个或5个以上的数字”,该条目通过校验,类别标记为“传真”;手机条目典型的自有特征也是含有较多数字,同样手机条目校验规则为“含有6个或6个以上的数字”,该条目通过校验,类别标记为“手机”;网页条目典型的自有特征是含有较多的点号,网页条目的校验规则设为“含有1个或1个以上的点号”,该条目通过校验,类别标记为“网页”。
通过步骤10进行先导词完全匹配分类后,14个条目中有4个已经通过了步骤10,分类完毕。
步骤20:先导词容错匹配分类;步骤20开始对表一中的剩余10个条目逐条处理。步骤20可以包括(b1)、根据计算先导词的阈值,其中ErrTol为当前先导词的阈值,LwLen为当前先导词的长度;如果当前先导词与字符条目的容错距离小于或等于当前先导词的ErrTol,匹配成功;否则匹配就无效;(b2)、根据步骤(b1)计算的先导词的阈值逐条搜索所述字符条目并找到匹配的先导词;(b3)、如果该先导词不属于由字母构成单词的语种,则直接进行下一步骤(b4);否则通过设定的先导词匹配检验规则进行检验,所述设定的先导词匹配检验规则包括:①先导词长度超过匹配文本词长度两个或两个以上字符,匹配无效;②先导词从一个单词的第三个及其以后的字符开始匹配,匹配无效;③先导词在一个单词的倒数第三个及其以前的字符处结束匹配,匹配无效;④先导词从一个单词的第二个及其以后字符开始匹配而在倒数第二个及其以前字符结束匹配,匹配无效;(b4)、对同一类别中通过先导词匹配检验规则检验成功的多个先导词根据Fea=(LwLen-2×EditDist)×LwLen进行筛选,选取Fea最大的先导词,其中,Fea为取舍标准的计算结果,LwLen为先导词长度,EditDist为先导词和字符条目间的编辑距离;(b5)、对于多个类别上的得到的先导词匹配结果,根据进行筛选,取LwScore值最大且超过设定阈值的类别作为候选类别,其中,LwScore为某类别的先导词的得分值,LwLen为先导词长度,EditDist为先导词和字符条目间的编辑距离;(b6)、以该候选类别的自有特征校验规则进行校验;通过检验的字符条目就送入所述分类结果中。
具体地,如图4所示,步骤20可以具体如下步骤:
步骤201:计算先导词的搜索长度;在一个优选实施例中,此处也需要设定先导词搜索范围以提高搜索效率,设定方法与步骤101中通过公式1的方法相同,不再赘述。
步骤202:计算先导词的阈值;
在容错匹配中,先导词是否匹配以及匹配的好坏用容错距离来度量。在本实施例中,采用编辑距离来度量容错距离。在先导词和字符条目相匹配的过程中,如果两个词完全匹配,则二者之间编辑距离为零,否则,编辑距离不为零。如果编辑距离过大,超过某个阈值,匹配就无效,也就是说这两个词不匹配,只有编辑距离小于等于这个阈值的匹配,才是有效的匹配。针对每一个先导词,都有一个编辑距离的匹配阈值,称之为容错距离最大允许值,根据下式计算每个先导词的阈值:
其中ErrTol为当前先导词的阈值,即当前先导词的最大允许容错距离,LwLen为当前先导词的长度,当先导词的长度小于或等于3时,ErrTol的值为1,其他情况下,ErrTol的值为先导词长度除以4得到的整数部分。如果当前先导词与字符条目的容错距离小于或等于当前先导词的ErrTol,匹配成功;否则匹配就无效。例如,表一中的字符条目13,当搜索到先导词“E-mail”时,其长度为6,即LwLen=6,带入式2中,LwLen/4=1.5,取这个结果的整数部分1,得该先导词的最大允许容错距离为1,即ErrTol=1。
步骤203:计算字符条目与容错匹配先导词表中先导词的编辑距离;
容错匹配先导词表储存于一个存储器(图中未示)中,容错匹配先导词表包括地址容错匹配先导词表、邮编容错匹配先导词表、电话容错匹配先导词表、传真容错匹配先导词表、手机容错匹配先导词表、电邮容错匹配先导词表及网页容错匹配先导词表,每类容错匹配先导词表中含有先导词若干。如果先导词与字符条目间的编辑距离小于等于该先导词的容错距离最大允许值,则该先导词与字符条目相匹配,否则,该先导词与字符条目不匹配。
步骤204:利用语言特点检验与字符条目相匹配的先导词的有效性;
在搜索到与字符条目相匹配的先导词后,利用语言特点检验该先导词的有效性,检验规则与步骤103中的先导词匹配检验规则相同,不再赘述。
步骤205:处理同类别先导词中存在多个与字符条目相匹配的情况;
经过上面的匹配搜索,同一类别中可能不止一个先导词和字符条目匹配,但是先导词具有唯一性,也就是在这多个有效匹配的先导词中只能选择一个留下。先导词长度越大且编辑距离越小,则这个词为真实先导词的可能性越高,所以制定如下的公式作为取舍先导词的标准:
Fea=(LwLen-2×EditDist)×LwLen 式3
其中,Fea为取舍标准的计算结果,LwLen为先导词长度,EditDist为先导词和字符条目间的编辑距离。编辑距离EditDist根据前面的定义进行计算,其计算方法在模式识别类通用教材中一般都有介绍,此处不赘述。这样我们就可以根据这个计算结果,选取计算值最大的那个先导词留下。例如表一中的字符条目13,先导词表中的“E-mail”和“E-ml”都和这个条目匹配,先导词“E-mail”的长度LwLen=6,编辑距离EditDist=1,根据式3,其Fea=(6-2×1)×6=24,先导词“E-ml”的长度LwLen=4,编辑距离EditDist=1,根据式3,其Fea=(4-2×1)×4=8,两个结果相比较,先导词“E-mail”的结果大于先导词“E-ml”的,所以选取“E-mail”而舍弃“E-ml”。
步骤206:利用先导词容错匹配的特征对字符条目进行预分类;
通过上面公式3的搜索匹配,得到当前字符条目在每个类别上的先导词容错匹配结果,现在的情况是在某个类别上最多只能有一个匹配结果,但是可能出现的情况是,我们得到了当前字符条目在不只一个类别上的匹配结果,而实际上其中只有一个结果是正确的,那么然后通过以下公式将该唯一的结果筛选出来,该先导词的特征得分值:
其中,LwScore为某类别的先导词的得分值,LwLen为先导词长度,EditDist为先导词和字符条目间的编辑距离,这个特征得分值度量了先导词在惩罚掉匹配错误(即编辑距离)后与字符条目对应词之间的相似程度,这个值越大,相似程度越高,最高为1,即两个词完全匹配。例如表一中字符条目13,在电邮类先导词中,与其相匹配的先导词为“E-mail”,该先导词长度LwLen=6,编辑距离EditDist=1,将这两个值带入式4,得到特征得分值为LwScore=(6-2×1)/6=0.667。将当前字符条目在每个类别上的得分值计算出来,然后取其中得分最大且超过某个阈值的类别作为候选类别,对字符条目进行预分类。
步骤207:利用候选类别的自有特征校验规则校验预分类的有效性;
如果能够通过检验,则将当前条目的类别标注为候选类别,否则,该字符条目无法利用先导词容错匹配进行分类。
在剩余的10个条目中,电邮条目“E-mall:liyongbinhanwang.com.cn”含有先导词,但是其先导词识别有误,正确先导词应该为“E-mail”。该条目的电邮类别先导词容错匹配情况如下:
表二
先导词 | 最大允许容错距离 | 搜索范围 | 编辑距离 |
1 | 7 | 1 | |
1 | 8 | 2 | |
e.mail | 1 | 9 | 2 |
e_mail | 1 | 9 | 2 |
1 | 9 | 1 | |
e-ml | 1 | 9 | 1 |
从上表中可以看出,“email”、“e.mail”、“e_mail”三个词由于编辑距离都是2,大于最大允许值1,匹配无效;“mail”由于是从先导词“e-mall”的第三个字符开始匹配,匹配无效;剩下的“e-mail”和“e-ml”按照式3选取“e-mail”。该条目和其他类别的先导词没有形成有效匹配。根据式4,当前字符条目在电邮类别上的特征值转化为用于分类的得分值为0.667,而在其他类别上的特征得分值都为0,所有类别上的特征得分值排序后,电邮类别的最大。在分类时,并不是哪一类的特征得分值最大,就标记为哪一类别,还要看这个特征得分值是否大于一个最低阈值,此处这个最低阈值设为0.49,即如果最大分类特征得分值小于0.49,此处也不进行分类。此处的先导词特征得分值0.667大于0.49,可以进行分类。
最后再用电邮类别的自有特征校验规则进行分类校验。电邮类别最显著的自有特征就是含有“”,所以校验规则就是是否含有“”,此条目校验通过,所以最后此字符条目标记为“电邮”类别。
在先导词容错匹配分类中,又有一个条目被标注类别,现在还有9个条目尚未标注类别。
步骤30:关键词容错匹配分类。
步骤30开始对表一中的剩余9个条目逐条处理。在本实施例中,根据关键词对分类的重要性的不同,分为三级,具体分类原则如下:
表三
步骤30可以具体包括(c1)、根据关键词对分类的重要性的不同,对所述关键词分别设定权重值;(c2)、根据计算关键词的阈值,其中ErrTol为当前关键词的阈值,LwLen为当前关键词的长度;(c3)、计算字符条目与容错匹配关键词表中关键词之间的编辑距离,如果关键词与字符条目之间的编辑距离小于或等于该关键词的阈值ErrTol,则该关键词与字符条目相匹配,否则,该关键词与字符条目不匹配;(c4)、如果该关键词不属于由字母构成单词的语种,则直接进行下一步骤;否则通过设定的关键词匹配检验规则进行检验,所述设定的关键词匹配检验规则包括:①关键词长度超过匹配文本词长度两个或两个以上字符,匹配无效;②关键词从一个单词的第三个及其以后的字符开始匹配,匹配无效;③关键词在一个单词的倒数第三个及其以前的字符处结束匹配,匹配无效;④关键词从一个单词的第二个及其以后字符开始匹配而在倒数第二个及其以前字符结束匹配,匹配无效;(c5)、对同一类别中通过关键词匹配检验规则检验成功的多个关键词,如果其中两个或两个以上的关键词在字符条目中的匹配位置存在重叠,则根据Fea=(LwLen-2×EditDist)×LwLen进行筛选,其中,Fea为取舍标准的计算结果,LwLen为关键词长度,EditDist为关键词和字符条目间的编辑距离;然后选取Fea最大的关键词;(c6)、将同一字符条目中属于同一类别的所有关键词特征得分值相加作为该类别的最终得分,根据 计算该类别的最终得分,取KwScore得分值最大且超过预先设定的阈值的类别作为候选类别,其中,KwScore为某类别的关键词特征得分值,N为当前类别中与当前字符条目相匹配的关键词个数,KwLeni为第i个关键词的长度,EditDisti为第i个关键词的编辑距离,Ranki为第i个关键词的权重;(c7)、以该候选类别的自有特征校验规则进行校验,通过检验的则将该字符条目的类别标注为该类关键词的类别,并送入所述分类结果中。
具体地,如图5所示,步骤30可以具体包括如下步骤:
步骤301:计算关键词的阈值;
关键词容错匹配中容错的概念与先导词容错匹配中的一致,针对每一个关键词,存在容错距离最大允许值即关键词的阈值,按照式(2)进行计算。
步骤302:计算字符条目与容错匹配关键词表中关键词之间的编辑距离;
容错匹配关键词表储存于一个存储器(图中未示)中,容错匹配关键词表包括头衔容错匹配关键词表、学位容错匹配关键词表、部门容错匹配关键词表、单位容错匹配关键词表、地址容错匹配关键词表、电邮容错匹配关键词表及网页容错匹配关键词表,每类容错匹配关键词表中含有关键词若干。如果关键词与当前字符条目之间的编辑距离小于等于该关键词的阈值,则该关键词与当前字符条目相匹配,否则,该关键词与字符条目不匹配。
步骤303:利用语言特点检验与字符条目相匹配的关键词的有效性;
在搜索到与字符条目相匹配的关键词后,利用语言特点检验该关键词的有效性,检验规则与步骤103中的先导词匹配检验规则相同,不再赘述。
步骤304:处理同类别中匹配位置重叠的关键词;
经过上面的匹配搜索,同一类别中可能不止一个关键词和字符条目匹配,如果这些关键词中有两个或多个与字符条目的匹配位置存在重叠,则这些匹配位置相互重叠的关键词中只能选择一个留下,取舍的标准采用公式(3)计算,最终只留下计算值最大者。
步骤305:利用关键词容错匹配特征对字符条目进行预分类;
一个字符条目中可以含有多个关键词,所以在计算特征时,要将同一字符条目中属于同一类别的所有关键词特征得分值相加作为该类别的最终得分。注意,这里的特征值得分公式为:
其中,KwScore为某类别的关键词特征得分值,N为当前类别中与当前条目相匹配的关键词个数,KwLeni为第i个关键词的长度,EditDisti为第i个关键词的编辑距离,Ranki为第i个关键词的权重,该公式表明当前字符条目在某个类别上的关键字得分值等于该类别上各个匹配关键词的得分值之和。例如表一中字符条目4,属于“单位”类别的关键词有两个“Technology”和“Co.,Ltd”,这两个词都是完全匹配,也就是编辑距离EditDisti都为0,其权重分别为2和4,带入式5,“Technology”的关键词特征得分值是2,“Co.,Ltd”的关键词特征得分值是4,加和后的“单位”类别总得分KwScore是6。计算出字符条目在各类别上的关键词特征得分值后,将一个字符条目在各类别上的特征得分值从大到小排序,取得分最大者,如果这个最大得分值超过预先设定的阈值,如本实施例中设为1.5,则将该类关键词的类别作为该字符条目的候选类别,进行预分类,否则该字符条目无法通过关键词容错匹配分类。
步骤306:利用候选类别的自有特征校验规则校验预分类的有效性;
如果能够通过检验,则将当前条目的类别标注为候选类别,否则,该字符条目无法利用关键词容错匹配进行分类。
经过该步分类后,又有四个条目“Hanwang Technology Co.,Ltd.”、“OCRSoftware Dept.”、“5#5121Zhongguancun Software Park,”、“Project Manager”分别被标注为“单位”、“部门”、“地址”、“头衔”。
到现在为止,还有5个条目未分类。
步骤40:版面逻辑结构特征分类;
步骤40开始对表一中的剩余5个字符条目逐条处理;在步骤40中,将剩余5个字符条目送入版面逻辑结构特征分类器中,该版面逻辑结构特征可以包括姓名的版面逻辑结构特征:姓名的周围通常分布的条目包括头衔、学位、部门;地址的版面逻辑结构特征:在已经找到的地址条目的相邻条目中搜索未分类的条目,如能通过地址类别的校验规则,则标记为地址;或中文地址与邮编同行/列排列;电话/传真/手机条目的版面逻辑结构特征:多个电话/传真/手机条目同行/列排列;单位名称的版面逻辑结构特征为:双语名片中两种语言各写一次单位名称且紧邻排列。
由于姓名没有设置先导词和关键词,所以姓名的分类完全依赖于版面逻辑结构和其校验规则。姓名的分类步骤如下:
(1)在剩余未分类条目中将符合姓名校验规则的条目预标记为姓名,中文姓名的校验规则为字体较大、2~4个中文字符,英文姓名的校验规则为字体较大、不超过22个英文字符。
(2)根据预分类姓名条目四个方向相邻条目的类别属性确定其为姓名的可靠性,这里用到的版面逻辑结构特征主要是姓名的周围一般分布着头衔、学位、部门等条目。如果在预分类姓名条目的上下左右四个方向的相邻条目中,存在一个或几个条目为头衔或学位或部门,则将该预分类姓名条目标记为姓名。
(3)如果其四邻方向没有明确的信息支持当前预分类姓名,则根据校验规则的强弱在所有预分类姓名中指定一个作为最终的姓名。这里的校验规则的强弱,在本实施例中,取为字符的大小,即选取字符大的作为最终姓名。
(4)在双语名片中,一般姓名会用两种语言各写一次,而且这两个姓名的排列比较有规律,或者在同一行中,或者在同一列中,可以根据这条版面逻辑结构特征来判断双语姓名。
根据上述步骤,在图1的例子中先根据字符大小和字符个数,将“LiYongbin”、“HANWANG”、“汉王”三个条目预分类为姓名,然后根据“LiYongbin”条目的下方存在部门类别条目,将其标注为姓名,另外两个不能找到版面逻辑结构特征的支持,根据英文姓名的唯一性,“HANWANG”不能标注为姓名,剩下的中文字符“汉王”与英文姓名“Li Yongbin”不在同行(或同列)中,也不能标注为姓名。
对于地址而言,由于其条目较长,一般习惯将其分成几行(列)书写,所以其分类规则如下:
(1)如果已经找到地址条目,则在当前地址条目的基础上,在其上下(这是对横排名片而言,若竖排名片,则为左右)相邻条目中搜索未分类条目,如能通过地址类别的校验规则,则标记为地址;
(2)如果尚未找到地址条目,则按照地址类别的校验规则,结合多条地址条目在版面逻辑结构上相邻的特征,找出地址条目。
在前面,我们已将“5#5121Zhongguancun Software Park,”标注为地址,现在其上下相邻条目中搜索尚未分类的字符条目,搜到“Beljln9100094P.R.Chlna”,这个条目符合地址条目的自有特征要求,于是将其标注为地址。
在版面逻辑结构特征分类中,还可以对其它类别分类:
(1)根据中文地址与邮编可能同行(或同列)排列的特征,对未分类条目中具有此特征的条目进行分类;
(2)根据多个电话条目可能同行(或同列)排列的特征,对未分类条目中具有此特征的条目进行分类;
(3)根据多个传真条目可能同行(或同列)排列的特征,对未分类条目中具有此特征的条目进行分类;
(4)根据多个手机条目可能同行(或同列)排列的特征,对未分类条目中具有此特征的条目进行分类;
(5)根据双语名片中单位可能用两种语言各写一次且紧邻排列的特征,对未分类条目中具有此特征的条目进行分类。
经过此步后,我们现在还有3个条目未分类。
步骤50,将仍然未分类的三个条目送入“备注”中,将其标注为“备注”类别。
下面是本实施例分类完成后的结果:
表四
条目编号 | 条目字符内容 | 分类结果 |
1 | 汉王 | 备注 |
2 | HANWANG | 备注 |
3 | 智电科技引领未来 | 备注 |
4 | Hanwang Technology Co.,Ltd. | 单位 |
5 | Li Yongbin | 姓名 |
6 | OCR Software Dept. | 部门 |
7 | 5#5121Zhongguancun Software Park, | 地址 |
8 | Prolect Manager | 头衔 |
9 | Beijing 100094P.R.China | 地址 |
10 | Tel:86-10-82786699-8066 | 电话 |
11 | Fax:86-10-82786807 | 传真 |
12 | Mobile:13581816788 | 手机 |
13 | E-mall:liyongbinhanwang.com.cn | 电邮 |
14 | Website:www.hw99.com | 网页 |
以上就是本实施例的整个分类过程。在每一个分类步骤中,已经得到分类的条目将不再参与下一步的分类,直至整个分类过程结束。此外,我们注意到有些字符条目中存在OCR识别错误的字符,由于我们的分类过程中使用了“容错”,使得这些错误对于分类正确性的影响大大降低了,至于最后这些错误字符是否校正以及如何校正,则不属于本发明的范围,不再赘述。
另外,从另一方面看,本发明还可以包括一种名片字符条目分类装置,包括:(a)、先导词完全匹配分类模块,根据完全匹配先导词表,逐条将所述字符条目与完全匹配先导词表中的所有先导词逐个进行完全匹配测试,通过本模块的字符条目就送入分类结果中,未通过本模块的字符条目则进入下一模块;(b)、先导词容错匹配分类模块,根据容错匹配先导词表,通过本模块的字符条目就送入分类结果中,未通过本模块的字符条目则进入下一模块;(c)、关键词容错匹配分类模块,根据容错匹配关键词表,通过本模块的字符条目就送入分类结果中,未通过本模块的字符条目则进入下一模块;(d)、版面逻辑结构特征分类模块,以及还有(e)、备注模块,将未能分类的字符条目送入该备注模块。最后得到本发明的分类结果。
具体地,本实施例中,模块(a)可以包括以下模块:
(a1)、在完全匹配先导词表中逐条搜索与字符条目完全匹配的先导词,如果搜到完全匹配的先导词,则进入模块(a2),否则,该字符条目不能通过先导词完全匹配进行分类;
(a2)、如果该先导词不属于由字母构成单词的语种,则直接进入下一模块(a3),否则通过设定的先导词匹配检验规则进行检验,所述设定的先导词匹配检验规则包括:①先导词长度超过匹配文本词长度两个或两个以上字符,匹配无效;②先导词从一个单词的第三个及其以后的字符开始匹配,匹配无效;③先导词在一个单词的倒数第三个及其以前的字符处结束匹配,匹配无效;④先导词从一个单词的第二个及其以后字符开始匹配而在倒数第二个及其以前字符结束匹配,匹配无效;
如果该先导词能够通过检验,则进入下一模块(a3),否则返回上一模块(a1),在完全匹配先导词表中从当前先导词的下一个位置继续搜索完全匹配的先导词;
(a3)、将当前先导词的类别作为当前字符条目的候选类别,再用候选类别的自有特征校验规则进行校验,如果能够通过校验,则将当前字符条目的类别标记为候选类别完成分类,否则,该字符条目不能通过先导词完全匹配进行分类。
具体地,本实施例中,模块(b)可以包括以下模块:
(b1)、用于根据下式计算先导词的阈值,其中ErrTol为当前先导词的阈值,LwLen为当前先导词的长度;如果当前先导词与字符条目的容错距离小于或等于当前先导词的ErrTol,匹配成功;否则匹配就无效;
(b2)、根据模块(b1)计算的先导词的阈值逐条搜索所述字符条目并找到匹配的先导词;
(b3)、如果该先导词不属于由字母构成单词的语种,则直接进行下一模块(b4);否则通过设定的先导词匹配检验规则进行检验,所述设定的先导词匹配检验规则包括:①先导词长度超过匹配文本词长度两个或两个以上字符,匹配无效;②先导词从一个单词的第三个及其以后的字符开始匹配,匹配无效;③先导词在一个单词的倒数第三个及其以前的字符处结束匹配,匹配无效;④先导词从一个单词的第二个及其以后字符开始匹配而在倒数第二个及其以前字符结束匹配,匹配无效;
(b4)、对同一类别中通过先导词匹配检验规则检验成功的多个先导词根据Fea=(LwLen-2×EditDist)×LwLen进行筛选,选取Fea最大的先导词;其中,Fea为取舍标准的计算结果,LwLen为先导词长度,EditDist为先导词和字符条目间的编辑距离;
(b5)、对于多个类别上的得到的先导词匹配结果,通过进行筛选,取LwScore值最大且超过设定阈值的类别作为候选类别,其中,LwScore为某类别的先导词的得分值,LwLen为先导词长度,EditDist为先导词的编辑距离;
(b6)、以该候选类别的自有特征校验规则进行校验;通过检验的字符条目就送入所述分类结果中。
具体地,本实施例中,模块(c)可以包括以下模块:
(c1)、根据关键词对分类的重要性的不同,对所述关键词分别设定权重值;
(c3)、计算字符条目与容错匹配关键词表中关键词之间的编辑距离,如果关键词与字符条目之间的编辑距离小于或等于该关键词的阈值ErrTol,则该关键词与字符条目相匹配,否则,该关键词与字符条目不匹配;
(c4)、如果该关键词不属于由字母构成单词的语种,则直接进行下一模块;否则通过设定的关键词匹配检验规则进行检验,所述设定的关键词匹配检验规则包括:①关键词长度超过匹配文本词长度两个或两个以上字符,匹配无效;②关键词从一个单词的第三个及其以后的字符开始匹配,匹配无效;③关键词在一个单词的倒数第三个及其以前的字符处结束匹配,匹配无效;④关键词从一个单词的第二个及其以后字符开始匹配而在倒数第二个及其以前字符结束匹配,匹配无效;
(c5)、对同一类别中通过关键词匹配检验规则检验成功的多个关键词,如果其中两个或两个以上的关键词在字符条目中的匹配位置存在重叠,根据Fea=(LwLen-2×EditDist)×LwLen进行筛选,其中,Fea为取舍标准的计算结果,LwLen为关键词长度,EditDist为关键词和字符条目间的编辑距离;然后选取Fea最大的关键词;
(c6)、将同一字符条目中属于同一类别的所有关键词特征得分值相加作为该类别的最终得分,根据 计算,该类别的最终得分,取KwScore得分值最大且超过预先设定的阈值的类别作为候选类别,其中,KwScore为某类别的关键词特征得分值,N为当前类别中与当前字符条目相匹配的关键词个数,KwLeni为第i个关键词的长度,EditDisti为第i个关键词的编辑距离,Ranki为第i个关键词的权重;
(c7)、以该候选类别的自有特征校验规则进行校验,通过检验的则将该字符条目的类别标注为该类关键词的类别,并送入所述分类结果中。
具体地,本实施例中的,自有特征校验规则为:姓名条目的字符大小、数字个数、字符个数、或语种类别;头衔条目的数字个数、或字符个数;学位条目的数字个数、或字符个数;部门条目的数字个数;单位条目的数字个数、字符个数、或语种类别;地址条目的数字个数、字符个数、或行首对齐属性;邮编条目的数字个数、或字符个数;电话条目的数字个数、或字符个数;传真条目的数字个数、或字符个数;手机条目的数字个数、或字符个数;电邮条目的字符个数、或号个数;网页条目的数字个数、字符个数、或点号个数。
具体地,本实施例中的,模块(d)的所述版面逻辑结构特征包括:
姓名的版面逻辑结构特征:姓名的周围通常分布的条目包括头衔、学位、部门;地址的版面逻辑结构特征:在已经找到的地址条目的相邻条目中搜索未分类的条目,如能通过地址类别的校验规则,则标记为地址;或中文地址与邮编同行/列排列;电话/传真/手机条目的版面逻辑结构特征:多个电话/传真/手机条目同行/列排列;单位名称的版面逻辑结构特征为:双语名片中两种语言各写一次单位名称且紧邻排列。
具体地,本实施例中,完全匹配先导词表包括地址完全匹配先导词表、邮编完全匹配先导词表、电话完全匹配先导词表、传真完全匹配先导词表、手机完全匹配先导词表、电邮完全匹配先导词表及网页完全匹配先导词表;所述容错匹配先导词表包括容错匹配先导词表包括地址容错匹配先导词表、邮编容错匹配先导词表、电话容错匹配先导词表、传真容错匹配先导词表、手机容错匹配先导词表、电邮容错匹配先导词表及网页容错匹配先导词表;所述容错匹配关键词表包括头衔容错匹配关键词表、学位容错匹配关键词表、部门容错匹配关键词表、单位容错匹配关键词表、地址容错匹配关键词表、电邮容错匹配关键词表及网页容错匹配关键词表。
在上述技术方案的基础上,模块(d)后还可以包括以下模块:将仍然未分类的条目送入“备注”类别。
上述模块的运作原理和过程请看本说明书前面的详述。
虽然本发明已经参考其中的具体实施例进行了描述,但是本领域的技术人员仍然可进行很多变通,改进等等。只要不超出本发明精神,都应该在本发明的范围内。
Claims (20)
1.一种名片字符条目分类方法,用于通过对名片进行OCR识别后得到的多个名片字符条目进行逐条分类,其特征在于,至少包括以下步骤:
(a)、先导词完全匹配分类步骤:逐条将所述字符条目与完全匹配先导词表中的所有先导词逐个进行完全匹配测试,通过本步骤的字符条目就送入分类结果中,未通过本步骤的字符条目则进入下一步骤;其中,所述步骤(a)包括:(a1)、在完全匹配先导词表中逐条搜索与字符条目完全匹配的先导词,如果搜到完全匹配的先导词,则进入步骤(a2),否则,该字符条目不能通过先导词完全匹配进行分类;(a2)、如果该先导词不属于由字母构成单词的语种,则直接进行步骤(a3),否则通过设定的先导词匹配检验规则进行检验,如果该先导词能够通过检验,则进入步骤(a3),否则返回上一步骤(a1),在完全匹配先导词表中从当前先导词的下一个位置继续搜索完全匹配的先导词;(a3)、将当前先导词的类别作为当前字符条目的候选类别,再用候选类别的自有特征校验规则进行校验,如果能够通过校验,则将当前字符条目的类别标记为候选类别完成分类,否则,该字符条目不能通过先导词完全匹配进行分类;
(b)、先导词容错匹配分类步骤:逐条将在步骤(a)中未完成分类的字符条目与容错匹配先导词表中的先导词进行容错匹配测试,通过本步骤的字符条目就送入分类结果中,未通过本步骤的字符条目则进入下一步骤;其中,所述步骤(b)包括:(b1)、根据计算先导词的阈值,其中ErrTol为当前先导词的阈值,LwLen为当前先导词的长度;如果当前先导词与字符条目的容错距离小于或等于当前先导词的ErrTol,匹配成功;否则匹配就无效;(b2)、根据步骤(b1)计算的先导词的阈值逐条搜索所述字符条目并找到匹配的先导词;(b3)、如果该先导词不属于由字母构成单词的语种,则直接进行下一步骤(b4);否则通过设定的先导词匹配检验规则进行检验;(b4)、对同一类别中通过先导词匹配检验规则检验成功的多个先导词根据Fea=(LwLen-2×EditDist)×LwLen进行筛选,选取Fea最大的先导词,其中,Fea为取舍标准的计算结果,LwLen为先导词长度,EditDist为先导词和字符条目间的编辑距离;(b5)、对于多个类别上的得到的先导词匹配结果,根据进行筛选,取LwScore值最大且超过设定阈值的类别作为候选类别,其中,LwScore为某类别的先导词的得分值,LwLen为先导词长度,EditDist为先导词和字符条目间的编辑距离;(b6)、以该候选类别的自有特征校验规则进行校验;通过检验的字符条目就送入所述分类结果中;
(c)、关键词容错匹配分类步骤:逐条将在步骤(b)中未完成分类的字符条目与容错匹配关键词表中的关键词进行容错匹配测试,通过本步骤的字符条目就送入分类结果中;其中,所述步骤(c)包括,(c1)、根据关键词对分类的重要性的不同,对所述关键词分别设定权重值;(c2)、根据计算关键词的阈值,其中ErrTol为当前关键词的阈值,LwLen为当前关键词的长度;(c3)、计算字符条目与容错匹配关键词表中关键词之间的编辑距离,如果关键词与字符条目之间的编辑距离小于或等于该关键词的阈值ErrTol,则该关键词与字符条目相匹配,否则,该关键词与字符条目不匹配;(c4)、如果该关键词不属于由字母构成单词的语种,则直接进行下一步骤;否则通过设定的关键词匹配检验规则进行检验;(c5)、对同一类别中通过关键词匹配检验规则检验成功的多个关键词,如果其中两个或两个以上的关键词在字符条目中的匹配位置存在重叠,则根据Fea=(LwLen-2×EditDist)×LwLen进行筛选,其中,Fea为取舍标准的计算结果,LwLen为关键词长度,EditDist为关键词和字符条目间的编辑距离;然后选取Fea最大的关键词;(c6)、将同一字符条目中属于同一类别的所有关键词特征得分值相加作为该类别的最终得分,根据 计算该类别的最终得分,取KwScore得分值最大且超过预先设定的阈值的类别作为候选类别,其中,KwScore为某类别的关键词特征得分值,N为当前类别中与当前字符条目相匹配的关键词个数,KwLeni为第i个关键词的长度,EditDisti为第i个关键词的编辑距离,Ranki为第i个关键词的权重;(c7)、以该候选类别的自有特征校验规则进行校验,通过检验的则将该字符条目的类别标注为该类关键词的类别,并送入所述分类结果中。
2.根据权利要求1所述的方法,其特征在于,步骤(c)之后还包括:在步骤(c)中未完成分类的字符条目进行步骤(d):
版面逻辑结构特征分类步骤。
3.根据权利要求1所述的方法,其特征在于,所述步骤(a2)中,所述设定的先导词匹配检验规则包括:①先导词长度超过匹配文本词长度两个或两个以上字符,匹配无效;②先导词从一个单词的第三个及其以后的字符开始匹配,匹配无效;③先导词在一个单词的倒数第三个及其以前的字符处结束匹配,匹配无效;④先导词从一个单词的第二个及其以后字符开始匹配而在倒数第二个及其以前字符结束匹配,匹配无效。
4.根据权利要求1所述的方法,其特征在于,所述步骤(b3)中,所述设定的先导词匹配检验规则包括:①先导词长度超过匹配文本词长度两个或两个以上字符,匹配无效;②先导词从一个单词的第三个及其以后的字符开始匹配,匹配无效;③先导词在一个单词的倒数第三个及其以前的字符处结束匹配,匹配无效;④先导词从一个单词的第二个及其以后字符开始匹配而在倒数第二个及其以前字符结束匹配,匹配无效。
5.根据权利要求3或4所述的方法,其特征在于,步骤(a1)和步骤(b2)的逐条搜索分别包括:根据设定搜索长度,其中,SrchLen为从字符条目一端开始的搜索长度,LwLen为先导词的长度。
6.根据权利要求1所述的方法,其特征在于,所述步骤(c)中,
所述设定的关键词匹配检验规则包括:①关键词长度超过匹配文本词长度两个或两个以上字符,匹配无效;②关键词从一个单词的第三个及其以后的字符开始匹配,匹配无效;③关键词在一个单词的倒数第三个及其以前的字符处结束匹配,匹配无效;④关键词从一个单词的第二个及其以后字符开始匹配而在倒数第二个及其以前字符结束匹配,匹配无效。
7.根据权利要求1所述的方法,其特征在于,所述自有特征校验规则为:
(1)姓名条目的字符大小、数字个数、字符个数或语种类别;
(2)头衔条目的数字个数或字符个数;
(3)学位条目的数字个数或字符个数;
(4)部门条目的数字个数;
(5)单位条目的数字个数、字符个数或语种类别;
(6)地址条目的数字个数、字符个数或行首对齐属性;
(7)邮编条目的数字个数或字符个数;
(8)电话条目的数字个数或字符个数;
(9)传真条目的数字个数或字符个数;
(10)手机条目的数字个数或字符个数;
(11)电邮条目的字符个数或号个数;
(12)网页条目的数字个数、字符个数或点号个数。
8.根据权利要求2所述的方法,其特征在于,步骤(d)的所述版面逻辑结构特征包括:
姓名的版面逻辑结构特征:姓名的周围通常分布的条目包括头衔、学位、部门;
地址的版面逻辑结构特征:在已经找到的地址条目的相邻条目中搜索未分类的条目,如能通过地址类别的校验规则,则标记为地址;或中文地址与邮编同行/列排列;
电话/传真/手机条目的版面逻辑结构特征:多个电话/传真/手机条目同行/列排列;
单位名称的版面逻辑结构特征为:双语名片中两种语言各写一次单位名称且紧邻排列。
9.根据权利要求1所述的方法,其特征在于,所述完全匹配先导词表包括地址完全匹配先导词表、邮编完全匹配先导词表、电话完全匹配先导词表、传真完全匹配先导词表、手机完全匹配先导词表、电邮完全匹配先导词表及网页完全匹配先导词表;所述容错匹配先导词表包括容错匹配先导词表包括地址容错匹配先导词表、邮编容错匹配先导词表、电话容错匹配先导词表、传真容错匹配先导词表、手机容错匹配先导词表、电邮容错匹配先导词表及网页容错匹配先导词表;所述容错匹配关键词表包括头衔容错匹配关键词表、学位容错匹配关键词表、部门容错匹配关键词表、单位容错匹配关键词表、地址容错匹配关键词表、电邮容错匹配关键词表及网页容错匹配关键词表。
10.根据权利要求2-9中任何一项所述的方法,其特征在于,步骤(d)后还包括:将仍然未分类的条目送入“备注”类别。
11.一种名片字符条目分类装置,用于通过对名片进行OCR识别后得到的多个名片字符条目进行逐条分类,其特征在于,至少包括以下模块:
(a)、先导词完全匹配分类模块,用于根据完全匹配先导词表,逐条将所述字符条目与完全匹配先导词表中的所有先导词逐个进行完全匹配测试,通过本模块的字符条目就送入分类结果中,未通过本模块的字符条目则进入下一模块;其中,所述模块(a)包括以下模块:(a1)、在完全匹配先导词表中逐条搜索与字符条目完全匹配的先导词,如果搜到完全匹配的先导词,则进入模块(a2),否则,该字符条目不能通过先导词完全匹配进行分类;(a2)、如果该先导词不属于由字母构成单词的语种,则直接进入下一模块(a3),否则通过设定的先导词匹配检验规则进行检验,如果该先导词能够通过检验,则进入下一模块(a3),否则返回上一模块(a1),在完全匹配先导词表中从当前先导词的下一个位置继续搜索完全匹配的先导词;(a3)、将当前先导词的类别作为当前字符条目的候选类别,再用候选类别的自有特征校验规则进行校验,如果能够通过校验,则将当前字符条目的类别标记为候选类别完成分类,否则,该字符条目不能通过先导词完全匹配进行分类;
(b)、先导词容错匹配分类模块,用于根据容错匹配先导词表,逐条将在模块(a)中未完成分类的字符条目与容错匹配先导词表中的先导词进行容错匹配测试,通过本模块的字符条目就送入分类结果中,未通过本模块的字符条目则进入下一模块;所述模块(b)包括以下模块:(b1)、用于根据下式计算先导词的阈值,其中ErrTol为当前先导词的阈值,LwLen为当前先导词的长度;如果当前先导词与字符条目的容错距离小于或等于当前先导词的ErrTol,匹配成功;否则匹配就无效;(b2)、根据模块(b1)计算的先导词的阈值逐条搜索所述字符条目并找到匹配的先导词;(b3)、如果该先导词不属于由字母构成单词的语种,则直接进行下一模块(b4);否则通过设定的先导词匹配检验规则进行检验;(b4)、对同一类别中通过先导词匹配检验规则检验成功的多个先导词根据Fea=(LwLen-2×EditDist)×LwLen进行筛选,选取Fea最大的先导词;其中,Fea为取舍标准的计算结果,LwLen为先导词长度,EditDist为先导词和字符条目间的编辑距离;(b5)、对于多个类别上的得到的先导词匹配结果,通过进行筛选,取LwScore值最大且超过设定阈值的类别作为候选类别,其中,LwScore为某类别的先导词的得分值,LwLen为先导词长度,EditDist为先导词的编辑距离;(b6)、以该候选类别的自有特征校验规则进行校验;通过检验的字符条目就送入所述分类结果中;
(c)、关键词容错匹配分类模块,用于根据容错匹配关键词表,逐条将在模块(b)中未完成分类的字符条目与容错匹配关键词表中的关键词进行容错匹配测试,通过本模块的字符条目就送入分类结果中;其中,所述模块(c)包括以下模块:(c1)、根据关键词对分类的重要性的不同,对所述关键词分别设定权重值;(c2)、按照计算关键词的阈值,其中ErrTol为当前关键词的阈值,LwLen为当前关键词的长度;(c3)、计算字符条目与容错匹配关键词表中关键词之间的编辑距离,如果关键词与字符条目之间的编辑距离小于或等于该关键词的阈值ErrTol,则该关键词与字符条目相匹配,否则,该关键词与字符条目不匹配;(c4)、如果该关键词不属于由字母构成单词的语种,则直接进行下一模块;否则通过设定的关键词匹配检验规则进行检验;(c5)、对同一类别中通过关键词匹配检验规则检验成功的多个关键词,如果其中两个或两个以上的关键词在字符条目中的匹配位置存在重叠,根据Fea=(LwLen-2×EditDist)×LwLen进行筛选,其中,Fea为取舍标准的计算结果,LwLen为关键词长度,EditDist为关键词和字符条目间的编辑距离;然后选取Fea最大的关键词;(c6)、将同一字符条目中属于同一类别的所有关键词特征得分值相加作为该类别的最终得分,根据 计算,该类别的最终得分,取KwScore得分值最大且超过预先设定的阈值的类别作为候选类别,其中,KwScore为某类别的关键词特征得分值,N为当前类别中与当前字符条目相匹配的关键词个数,KwLeni为第i个关键词的长度,EditDisti为第i个关键词的编辑距离,Ranki为第i个关键词的权重;(c7)、以该候选类别的自有特征校验规则进行校验,通过检验的则将该字符条目的类别标注为该类关键词的类别,并送入所述分类结果中。
12.根据权利要求11所述的装置,其特征在于,在模块(c)后还包括:在模块(c)中未完成分类的字符条目进入模块(d):版面逻辑结构特征分类模块中进行处理。
13.根据权利要求11所述的装置,其特征在于,所述模块(a2)中,所述设定的先导词匹配检验规则包括:①先导词长度超过匹配文本词长度两个或两个以上字符,匹配无效;②先导词从一个单词的第三个及其以后的字符开始匹配,匹配无效;③先导词在一个单词的倒数第三个及其以前的字符处结束匹配,匹配无效;④先导词从一个单词的第二个及其以后字符开始匹配而在倒数第二个及其以前字符结束匹配,匹配无效。
14.根据权利要求11所述的装置,其特征在于,所述模块(b)包括以下模块:所述设定的先导词匹配检验规则包括:①先导词长度超过匹配文本词长度两个或两个以上字符,匹配无效;②先导词从一个单词的第三个及其以后的字符开始匹配,匹配无效;③先导词在一个单词的倒数第三个及其以前的字符处结束匹配,匹配无效;④先导词从一个单词的第二个及其以后字符开始匹配而在倒数第二个及其以前字符结束匹配,匹配无效。
16.根据权利要求12所述的装置,其特征在于,所述模块(c4)中,所述设定的关键词匹配检验规则包括:①关键词长度超过匹配文本词长度两个或两个以上字符,匹配无效;②关键词从一个单词的第三个及其以后的字符开始匹配,匹配无效;③关键词在一个单词的倒数第三个及其以前的字符处结束匹配,匹配无效;④关键词从一个单词的第二个及其以后字符开始匹配而在倒数第二个及其以前字符结束匹配,匹配无效。
17.根据权利要求11所述的装置,其特征在于,所述自有特征校验规则为:
(1)姓名条目的字符大小、数字个数、字符个数、或语种类别;
(2)头衔条目的数字个数、或字符个数;
(3)学位条目的数字个数、或字符个数;
(4)部门条目的数字个数;
(5)单位条目的数字个数、字符个数、或语种类别;
(6)地址条目的数字个数、字符个数、或行首对齐属性;
(7)邮编条目的数字个数、或字符个数;
(8)电话条目的数字个数、或字符个数;
(9)传真条目的数字个数、或字符个数;
(10)手机条目的数字个数、或字符个数;
(11)电邮条目的字符个数、或号个数;
(12)网页条目的数字个数、字符个数、或点号个数。
18.根据权利要求12所述的装置,其特征在于,模块(d)的所述版面逻辑结构特征包括:
姓名的版面逻辑结构特征:姓名的周围通常分布的条目包括头衔、学位、部门;
地址的版面逻辑结构特征:在已经找到的地址条目的相邻条目中搜索未分类的条目,如能通过地址类别的校验规则,则标记为地址;或中文地址与邮编同行/列排列;
电话/传真/手机条目的版面逻辑结构特征:多个电话/传真/手机条目同行/列排列;
单位名称的版面逻辑结构特征为:双语名片中两种语言各写一次单位名称且紧邻排列。
19.根据权利要求11所述的装置,其特征在于,所述完全匹配先导词表包括地址完全匹配先导词表、邮编完全匹配先导词表、电话完全匹配先导词表、传真完全匹配先导词表、手机完全匹配先导词表、电邮完全匹配先导词表及网页完全匹配先导词表;所述容错匹配先导词表包括容错匹配先导词表包括地址容错匹配先导词表、邮编容错匹配先导词表、电话容错匹配先导词表、传真容错匹配先导词表、手机容错匹配先导词表、电邮容错匹配先导词表及网页容错匹配先导词表;所述容错匹配关键词表包括头衔容错匹配关键词表、学位容错匹配关键词表、部门容错匹配关键词表、单位容错匹配关键词表、地址容错匹配关键词表、电邮容错匹配关键词表及网页容错匹配关键词表。
20.根据权利要求12-19中任何一项所述的装置,其特征在于,所述装置在模块(d)后还包括以下模块:将仍然未分类的条目送入“备注”类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810239876A CN101751433B (zh) | 2008-12-22 | 2008-12-22 | 名片字符条目分类方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810239876A CN101751433B (zh) | 2008-12-22 | 2008-12-22 | 名片字符条目分类方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101751433A CN101751433A (zh) | 2010-06-23 |
CN101751433B true CN101751433B (zh) | 2012-10-17 |
Family
ID=42478424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810239876A Active CN101751433B (zh) | 2008-12-22 | 2008-12-22 | 名片字符条目分类方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101751433B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103679117B (zh) * | 2012-09-07 | 2016-09-07 | 北京蒙恬科技有限公司 | 一种名片识别方法与装置 |
CN104104767B (zh) * | 2013-04-07 | 2018-05-01 | 腾讯科技(深圳)有限公司 | 便携智能终端中联系人信息的处理方法和装置 |
CN103488707B (zh) * | 2013-09-06 | 2017-09-01 | 中国人民解放军国防科学技术大学 | 一种基于贪心策略和启发式算法搜索候选类别的方法 |
CN105518712B (zh) * | 2015-05-28 | 2021-05-11 | 北京旷视科技有限公司 | 基于字符识别的关键词通知方法及设备 |
CN105740220A (zh) * | 2016-02-01 | 2016-07-06 | 广东欧珀移动通信有限公司 | 电子名片生成方法、装置及终端设备 |
CN108664973A (zh) * | 2018-03-28 | 2018-10-16 | 北京捷通华声科技股份有限公司 | 文本处理方法和装置 |
CN110263175B (zh) * | 2019-06-27 | 2022-05-03 | 北京金山安全软件有限公司 | 一种信息归类的方法、装置及电子设备 |
CN111221951B (zh) * | 2020-01-03 | 2021-05-28 | 北京字节跳动网络技术有限公司 | 文本处理方法及装置 |
CN113887484B (zh) * | 2021-10-20 | 2022-11-04 | 前锦网络信息技术(上海)有限公司 | 一种卡片式文件图像识别方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1716234A (zh) * | 2005-07-27 | 2006-01-04 | 王晓琦 | 手持终端电子名片自动识别和管理系统 |
CN1877598A (zh) * | 2005-06-06 | 2006-12-13 | 英华达(上海)电子有限公司 | 手机中使用图像识别进行名片信息的采集与录入的方法 |
-
2008
- 2008-12-22 CN CN200810239876A patent/CN101751433B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1877598A (zh) * | 2005-06-06 | 2006-12-13 | 英华达(上海)电子有限公司 | 手机中使用图像识别进行名片信息的采集与录入的方法 |
CN1716234A (zh) * | 2005-07-27 | 2006-01-04 | 王晓琦 | 手持终端电子名片自动识别和管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN101751433A (zh) | 2010-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101751433B (zh) | 名片字符条目分类方法与装置 | |
US8249744B2 (en) | Mail routing system including a data block analyzer | |
CN111737969B (zh) | 一种基于深度学习的简历解析方法和系统 | |
US10970315B2 (en) | Method and system for disambiguating informational objects | |
US7953724B2 (en) | Method and system for disambiguating informational objects | |
CN1103087C (zh) | 光学扫描表单识别及更正方法 | |
CN102163187B (zh) | 文档标记方法和装置 | |
CN101520851A (zh) | 字符信息识别装置和方法 | |
CN102779140A (zh) | 一种关键词获取方法及装置 | |
CN110309400A (zh) | 一种智能理解用户查询意图的方法及系统 | |
CN113886604A (zh) | 一种职位知识图谱生成方法和系统 | |
CN103778141A (zh) | 一种混合pdf图书目录自动抽取算法 | |
CN102004796B (zh) | 一种网页文本的无阻滞层次分类方法与装置 | |
CN112541077A (zh) | 一种用于电网用户服务评价的处理方法及系统 | |
CN111754208A (zh) | 一种招聘简历自动筛选方法 | |
JP2004533069A (ja) | 住所を1つより多くの言語で自動的に読み取るための方法および装置 | |
Choudhary et al. | A four-tier annotated Urdu handwritten text image dataset for multidisciplinary research on Urdu script | |
US7694216B2 (en) | Automatic assignment of field labels | |
CN113378024A (zh) | 一种基于深度学习面向公检法领域的相关事件识别方法 | |
CN111291535A (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
Dejean | Extracting structured data from unstructured document with incomplete resources | |
CN100444194C (zh) | 文章标题及关联信息的自动抽取装置和抽取方法 | |
Nagy | Document image analysis: Automated performance evaluation | |
Kise et al. | Model Based Understanding of Document Images. | |
Fujisawa | Robustness design of industrial strength recognition systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |