CN1877598A - 手机中使用图像识别进行名片信息的采集与录入的方法 - Google Patents

手机中使用图像识别进行名片信息的采集与录入的方法 Download PDF

Info

Publication number
CN1877598A
CN1877598A CN 200510026492 CN200510026492A CN1877598A CN 1877598 A CN1877598 A CN 1877598A CN 200510026492 CN200510026492 CN 200510026492 CN 200510026492 A CN200510026492 A CN 200510026492A CN 1877598 A CN1877598 A CN 1877598A
Authority
CN
China
Prior art keywords
mobile phone
image
carry out
name
typing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200510026492
Other languages
English (en)
Other versions
CN100362525C (zh
Inventor
郑勇平
何代水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Inventec Appliances Shanghai Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Appliances Shanghai Corp filed Critical Inventec Appliances Shanghai Corp
Priority to CNB2005100264922A priority Critical patent/CN100362525C/zh
Publication of CN1877598A publication Critical patent/CN1877598A/zh
Application granted granted Critical
Publication of CN100362525C publication Critical patent/CN100362525C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Telephone Function (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种手机中使用图像识别进行名片信息的采集与录入的方法,其中,所述的方法包括手机通过拍摄镜头获取名片的图像信息、手机对图像进行预处理、手机对预处理后的图像进行版面分析和区域分割、手机对分割后各个区域进行文字识别、手机对文字识别的内容进行数据识别和信息分析、将数据存入手机的电话簿中。采用该种手机中使用图像识别进行名片信息的采集与录入的方法,具有广泛的应用基础和应用前景;同时信息的采集由照相手机独立完成,无需任何附加的其它硬设备;而且解决了用户手动录入名片信息到电话本中速度慢的缺点;自动和手动模式的采集选择方案,进一步提高了信息采集的准确率和可选的信息采集录入速度,达到了更好的应用效果。

Description

手机中使用图像识别进行名片信息的采集与录入的方法
技术领域
本发明涉及手机领域,特别涉及手机图像信息识别处理领域,具体是指一种手机中使用图像识别进行名片信息的采集与录入的方法。
背景技术
众所周知,印刷制作的名片是商业时代的产物,是人们个人信息交流的一种载体,受到了社会的广泛使用。但为了方便快捷的从数以百计的印刷制作的名片中找到所需的信息,却不是件容易的事,需要颇费一番功夫。将名片电子化可以很好的解决这个问题,可以快速的完成检索、归类等工作,方便用户的使用。为此目前市场上出现了众多的名片机或名片电子化软件,名片机是一种将印刷制作的名片电子化的专门设备,而名片电子化软件是利用图像识别技术对图像化后的名片进行信息分析和采集录入到计算机数据库中的一套软件解决方法。但这两种方案的实际使用率并不高,主要存在以下不足:
(1)使用不便捷,因为名片信息的采集和保存需要另外再配备一个专门硬设备或需要使用计算机来完成这个工作显得非常不方便,所以它们的实用价值未能被消费者广泛采纳;
(2)因名片的印刷风格各异,名片机的信息自动采集效果欠佳,而通过计算机软件来完成这一工作则还需要配备专门的扫描仪,并且对后续获得的名片信息的转存、使用还需要存储到PDA或移动电话等设备中才能方便用户外出的使用,存在存储格式(字段)匹配的问题。
如何能够方便快捷的完成对名片的电子化过程,并可以达到随时方便的检索、应用名片电子化后的信息,是目前需要解决的问题。
发明内容
本发明的目的是克服了上述现有技术中的缺点,提供一种使用方便快捷、信息采集录入准确度较高、性能稳定、适用性较强的手机中使用图像识别进行名片信息的采集与录入的方法。
为了实现上述的目的,本发明的手机中使用图像识别进行名片信息的采集与录入的方法如下:
该手机中使用图像识别进行名片信息的采集与录入的方法,其主要特点是,所述的方法包括以下步骤:
(1)手机通过拍摄镜头获取名片的图像信息;
(2)手机对图像进行预处理;
(3)手机对预处理后的图像进行版面分析和区域分割;
(4)手机对分割后各个区域进行文字识别;
(5)手机对文字识别的内容进行数据识别和信息分析;
(6)将数据存入手机的电话簿中。
该手机中使用图像识别进行名片信息的采集与录入的方法的获取名片的图像信息包括以下步骤:
(1)将手机的拍摄镜头设置成高象素分辨率拍摄模式;
(2)将整张名片数据的完整拍摄录入。
该手机中使用图像识别进行名片信息的采集与录入的方法的图像的预处理包括以下步骤:
(1)将图像进行二值化处理或灰度级别处理;
(2)以图像的边沿或文字的行向为基准进行倾斜度校正。
该手机中使用图像识别进行名片信息的采集与录入的方法的版面分析和区域分割包括以下步骤:
(1)预先在手机中设置名片的版面模板;
(2)将图像使用决策树进行模板匹配;
(3)根据模板匹配的结果进行图像版面的区域分割处理。
该手机中使用图像识别进行名片信息的采集与录入的方法的名片的版面模板包括:
(1)T1——单位、姓名及职称、地址三块依次由上至下排列,有两个地址块;
(2)T2——单位、姓名及职称、地址三块依次由上至下排列,有一个地址块;
(3)T3——姓名及职称放到最上部,有一个地址块;
(4)T4——姓名及职称放到最上部,有两个地址块;
(5)T5——单位块在最上部,姓名及职称块与地址并列;
(6)T6——姓名及职称在最上部,单位、地址并列在下部;
(7)T7——除去以上排版方式之外的其他方式。
该手机中使用图像识别进行名片信息的采集与录入的方法的使用决策树进行模板匹配包括以下步骤:
(1)手机根据用户操作预先设定空白间隔门限值;
(2)对图像自上而下垂直方向进行投影;
(3)判断图像中的空白间隔是否大于所述的空白间隔门限值;
(4)如果不是,则匹配模板为T7,并进行手动交互方式确定版面区域分割处理;
(5)反之,则找到第一块;
(6)判断垂直方向是否可以继续投影;
(7)如果否,则判断水平方向是否可以继续投影,如果水平方向不可以继续投影,则匹配模板为T7,并进行手动交互方式确定版面区域分割处理;如果水平方向可以继续投影,则匹配模板属于T5或者T6,并进一步采用水平和垂直投影完成模板匹配;
(8)如果是,则判断水平方向是否可以继续投影,如果水平方向不可以继续投影,则匹配模板属于T2或者T3,并进一步采用水平和垂直投影完成模板匹配;如果水平方向可以继续投影,则匹配模板属于T1或者T4,并进一步采用水平和垂直投影完成模板匹配。
该手机中使用图像识别进行名片信息的采集与录入的方法的手动交互方式确定版面区域分割处理包括以下步骤:
(1)选择当前需要识别的字段名称;
(2)选择该字段的识别框的大小;
(3)选择后进入手机操作接口,并根据用户对方向键的操作来移动识别区域,进行识别区域的设定;
(4)重复步骤(1)至(3),直到将所需的识别内容全部确定。
该手机中使用图像识别进行名片信息的采集与录入的方法的文字识别包括以下步骤:
(1)文本行字切分:将大幅的图像先切割为行,再从图像行中分离出单个字符;
(2)文字特征提取:从单个字符图像上提取统计特征或结构特征,包括细化和归一化;
(3)文字识别处理:从学习得到的特征库中找到与待识字符相似度最高的字符类。
该手机中使用图像识别进行名片信息的采集与录入的方法的对文字识别的内容进行数据识别和信息分析包括以下步骤:
(1)将姓名块、单位块、职称块的识别结果与手机电话簿中的姓名、单位名称和其它信息字段直接对应;
(2)将地址块中的文本内容进行字段抽取处理。
该手机中使用图像识别进行名片信息的采集与录入的方法的地址块中的文本内容的结构为:
<地址块>∷=<字段1>|<字段2>|<字段3>...
<字段i>∷=<先导词>|<分界符>|<内容>
<内容>∷=<字符1>|<字符2>|<字符3>...
分界符集合={′:′,′.′,′′}
先导词、内容由字段种类决定,例如对电话字段有:
先导词集合={′电话′,′TEL′,′PHONE′...}
内容字符集={数位,′(′,′)′,′-′,′′,′.′},
所述的字段抽取处理包括以下步骤:
(1)先导词容错匹配;
(2)跳过分界符;
(3)根据内容字符集判断内容是否合法;
(4)如果内容合法,则针对名片的专用词库和规则库为基础,自动校对识别结果并修改明显的错误;
(5)反之,则回到步骤(1)。
采用了该发明的手机中使用图像识别进行名片信息的采集与录入的方法,由于本发明阐述的对名片信息的采集和录入方法是结合照相手机和图像识别技术完成的,同时随着科技发展日新月异,照相手机随着象素功能的不断提升,目前已经出现了几百万象素的照相手机,其拍摄的照片效果几乎可以和专业相机拍摄的照片媲美,同时利用照相手机拍摄的图片分辨率也已经达到了图像识别处理的要求,结合这两点完成名片信息的采集和录入已经成为可能,并具有以下优点:
(1)因为移动电话已经达到了极大的普及,该项技术首先具有广泛的应用基础和应用前景;
(2)信息的采集由照相手机独立完成,无需任何附加的其它硬设备;
(3)将采集的信息保存在移动电话的电话本中,用户可以方便快捷的在任何需要的时候使用,解决了用户手动录入名片信息到电话本中速度慢的缺点;
(4)自动和手动模式的采集选择方案,进一步提高了信息采集的准确率和可选的信息采集录入速度,达到了更好的应用效果。
附图说明
图1为本发明的手机中使用图像识别进行名片信息的采集与录入的方法的流程图。
图2为本发明的对名片图像使用决策树进行模板匹配的流程图。
图3为本发明的对名片图像区域分割结果示意图。
图4为本发明的对地址块进行字段抽取处理的流程图。
图5(a)(b)(c)(d)(e)(f)为本发明的手动交互式信息采集识别过程示意图。
具体实施方式
为了能够更清楚地理解本发明的技术内容,特举以下实施例详细说明。
本发明首先将照相手机设置成高象素分辨率的拍照模式,将需要电子化的名片一一拍摄录入到手机中。对名片图像利用名片版面的位置信息和名片知识分析名片版面的属性,将名片信息进行分割,分割方法可以选择采用自动分割或由用户交互给出,之后对分割的各个区域进行字符识别,并对识别结果做基于名片和词语的后处理,最后从识别结果中提取有用信息存储到手机电话本的各个域段中,完成名片信息的采集和电话本信息的自动录入过程,
请参阅图1所示,该手机中使用图像识别进行名片信息的采集与录入的方法包括以下步骤:
(1)手机通过拍摄镜头获取名片的图像信息,包括以下步骤:
(a)将手机的拍摄镜头设置成高象素分辨率拍摄模式;
(b)将整张名片数据的完整拍摄录入。
(2)手机对图像进行预处理,包括以下步骤:
(a)将图像进行二值化处理或灰度级别处理;
(b)以图像的边沿或文字的行向为基准进行倾斜度校正。
在实际应用当中,为获得较好的系统处理图像,提高后续的分析和识别效果,在用照相手机拍摄名片时需要注意几点,一是将照相手机设置成较高象素分辨率拍摄模式,二是保证整张名片数据的完整拍摄录入,以方便系统后续对名片版面的自动分析。得到名片图像后进行必要的图像预处理,主要分成两个步骤完成,一个是将图像进行二值化处理(或灰度级别处理)以减少背景噪音的干扰,还可以在此过程中运用其它减少图像噪音的方法,目的是突出需要处理的有用数据信息。之后对图像进行倾斜度校正,以名片的边沿或文字的行向为基准进行校正,以使后续的版面分析和识别效率更理想。完成图像预处理后就可以开始真正的名片信息分析和处理的核心过程了。
(3)手机对预处理后的图像进行版面分析和区域分割,包括以下步骤:
(a)预先在手机中设置名片的版面模板,包括:
(i)T1——单位、姓名及职称、地址三块依次由上至下排列,有两个地址块;
(ii)T2——单位、姓名及职称、地址三块依次由上至下排列,有一个地址块;
(iii)T3——姓名及职称放到最上部,有一个地址块;
(iv)T4——姓名及职称放到最上部,有两个地址块;
(v)T5——单位块在最上部,姓名及职称块与地址并列;
(vi)T6——姓名及职称在最上部,单位、地址并列在下部;
(vii)T7——除去以上排版方式之外的其他方式。
(b)将图像使用决策树进行模板匹配,请参阅图2所示,包括以下步骤:
(i)手机根据用户操作预先设定空白间隔门限值;
(ii)对图像自上而下垂直方向进行投影;
(iii)判断图像中的空白间隔是否大于所述的空白间隔门限值;
(iv)如果不是,则匹配模板为T7,并进行手动交互方式确定版面区域分割处理;
(v)反之,则找到第一块;
(vi)判断垂直方向是否可以继续投影;
(vii)如果否,则判断水平方向是否可以继续投影,如果水平方向不可以继续投影,则匹配模板为T7,并进行手动交互方式确定版面区域分割处理;如果水平方向可以继续投影,则匹配模板属于T5或者T6,并进一步采用水平和垂直投影完成模板匹配;
(viii)如果是,则判断水平方向是否可以继续投影,如果水平方向不可以继续投影,则匹配模板属于T2或者T3,并进一步采用水平和垂直投影完成模板匹配;如果水平方向可以继续投影,则匹配模板属于T1或者T4,并进一步采用水平和垂直投影完成模板匹配。
其中,手动交互方式确定版面区域分割处理包括以下步骤:
(1)选择当前需要识别的字段名称;
(2)选择该字段的识别框的大小;
(3)选择后进入手机操作接口,并根据用户对方向键的操作来移动识别区域,进行识别区域的设定;
(4)重复步骤(1)至(3),直到将所需的识别内容全部确定。
在实际应用当中,图像的版面分析可以采用自动和手动两种方式进行,版面自动分析是利用名片版面的位置信息和名片知识分析名片版面的属性,将名片版面进行分割处理。另一方面,为了提高分析和识别的时效性,剔除用户不需要的信息,也可以由用户交互完成这一工作。因名片在不大的面积上集中了众多的信息,各种信息往往会在一定位置上分布,从而使版面可以被大致分为单位块、姓名块、职称块、地址块等,而且块的大致位置也有规律性,如:姓名往往与职称放在一起,地址块多在名片的下部,单位块大多在上部或中部。名片上除含有上述基本信息外,为了美观还常有其它装饰性要素,主要有两种:图示和水平分隔线。其中图标多为单位的标志,水平分隔线起内容分割作用。名片版面的一个重要特点是:各块的相对位置较为稳定。根据收集到的近200张各式名片得到如下表的分类结果。
                                            表1名片版面分类
  范本编号  版面范本  说明   所占百分数
T1  单位姓名及职称地址1  地址2  单位、姓名及职称、地址三块依次由上至下排列,有两个地址块。本模拟重最大。 44.5%
T2  单位姓名及职称地址 基本同上,只是地址块仅有一个。 23.4%
T3  姓名及职称单位地址 姓名及职称放到最上部,有一个地址块。 1.6%
T4  姓名及职称单位地址1  地址2 同3类似,只是多了一个地址块。 0.78%
T5  单位姓名及职称 地址  单位块在最上部,姓名及职称块与地址并列。 4.68%
T6  姓名及职称单位  地址  姓名及职称在最上部,单位、地址并列在下部。 0.78%
T7 其它  本类包括:1、个性化太强,自成一类;2、版面很紧凑,无法分;3、分块过于随便,及横竖版混用。 24.2%
有了以上的模板分类后,我们可以采用模板匹配的方法解决版面分析的问题。把上面的七类版面作为模板(T1,T2,T3,T4,T5,T6,T7),对输入的名片进行匹配,看它属于哪一种。一种最直接的想法是顺序匹配,但这样做在最坏情况下要匹配七次,匹配的时效性无法接受(因为底层操作是象素的投影,比较费时)。考虑各模板间有相似性,可以用决策树实现模板匹配。在确定模板类型后再用一些细微特征可消除水平分隔线和图示的影响,并把姓名和职称分开。当系统中空白信息没有达到门限时可能会造成错误发生,所以当有错误发生时,空白间隔d0由用户可以交互的给出。从表2版面分析效果可以知道,整版正确率可以达到91%,考虑到名片格式的多样性,这种自动版面分析效果还是比较理想的,同时时效性也可以达到移动电话中处理的要求。请参阅图3所示,其是应用该算法的一个处理例子示意图。
                                    表2版面分析效果
  单位块   地址块   姓名职称块   分开姓名和职称   整版全对
  正确率   95%   93%   92%   94%   91%
  拒分率   2%   0   0   0   0
  错误率   3%   7%   8%   6%   9%
(c)根据模板匹配的结果进行图像版面的区域分割处理。
(4)手机对分割后各个区域进行文字识别,包括以下步骤:
(a)文本行字切分:将大幅的图像先切割为行,再从图像行中分离出单个字符;
(b)文字特征提取:从单个字符图像上提取统计特征或结构特征,包括细化和归一化;
(c)文字识别处理:从学习得到的特征库中找到与待识字符相似度最高的字符类。
(5)手机对文字识别的内容进行数据识别和信息分析,包括以下步骤:
(a)将姓名块、单位块、职称块的识别结果与手机电话簿中的姓名、单位名称和其它信息字段直接对应;
(b)将地址块中的文本内容进行字段抽取处理,请参阅图4所示,包括以下步骤:
(i)先导词容错匹配;
(ii)跳过分界符;
(iii)根据内容字符集判断内容是否合法;
(iv)如果内容合法,则针对名片的专用词库和规则库为基础,自动校对识别结果并修改明显的错误;
(v)反之,则回到步骤(i)。
在实际使用当中,在进行文字的识别过程中,大致包括三个内容:文本行字切分,文字特征提取和文字识别处理。行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。特征提取是整个环节中最重要的一环,它是从单个字符图像上提取统计特征或结构特征的过程,包括为此而做的细化(Thinning)、归一化(Normalization)(将大小不同的字体规一)等步骤。提取的特征的稳定性及有效性,直接决定了识别的性能。文字识别即从学习得到的特征库中找到与待识字符相似度最高的字符类的过程。通过文字识别后就得到了各个分割区域的文字内容,接下来为了实现相应内容自动填充到电话本中相应的字段中,需要考虑相关内容的匹配问题。姓名块、单位块、职称块的识别结果可与电话本中的姓名、单位名称和其它信息等字段直接对应,但地址块就复杂多了,有住址、电话、电传、传真、电子邮件、邮政编码等多项内容,这些内容无法用版面分析分开(这就是前面把它们放在一起作版面分析的原因),只能靠对识别结果上下文的理解。一般的语言的理解是比较困难的,但名片信息有着明显的特殊性。最明显的一点是各字段多以明显的先导词开头,如:电话号码前常见“电话”、“TEL”、“PHONE”等字样。但实验表明只利用先导词匹配结果并不很理想,原因是:(1)尽管字符识别程序的单字识别率很高,但对多个字符组成的先导词则不一定能认对;(2)光靠先导词容易错分,例如:会因先导词“TEL”的存在把“TELEVISION STATION”看成电话号码。改进的方法是进行细致的句法分析,地址块的文本有下面的结构:
<地址块>∷=<字段1>|<字段2>|<字段3>...
<字段i>∷=<先导词>|<分界符>|<内容>
<内容>∷=<字符1>|<字符2>|<字符3>...
分界符集合={′:′,′.′,′′}
先导词、内容由字段种类决定,例如对电话字段有:
先导词集合={′电话′,′TEL′,′PHONE′...}
内容字符集={数位,′(′,′)′,′-′,′′,′.′}
注意,这里采用了先导词的容错匹配,即:只要有先导词的部分字就认为找到了先导词。之所以能这样做是因为后面还要判决内容的合法性,不必担心先导词找错了。这种基于句法分析的字段抽取算法有很强的鲁棒性,在字符识别效果一般的情况下都能正确提取出各字段。对识别后的信息进行分析的另一个作用是以针对名片的专用词库和规则库为基础,自动校对识别结果,修改明显的错误。下面给出一个后处理的例子,其中加下划线的字识别程序认错了,但通过后处理均被纠正了。
处理前:地址:中国北京复兴门外罗道庄
话:81.0631(总机)
8I,2105(直拨)
电挂:8681
邮政 码:1000 S6
处理后:地址字段[中国北京复兴门外罗道庄]
电话字段[81.0631(总机)81.2105(直拨)]
电挂字段[8681]
邮政编码字段[100086]
(6)将数据存入手机的电话簿中。
再请参阅图5所示,对于确认为T7模板类型的名片,因为其存在较复杂的排版格式,无法按照正常的自动识别过程,系统同时提供了用户交互识别完成这类信息的识别录入功能。具体情况如下:
打开电话本后选择功能按钮后进入(a),选择(b)名片识别采集进入(c)操作接口,此时可以选择自动识别采集和手动识别采集,在选择自动识别采集会提示是否采用默认d0值进行版面分割,用户可以采用默认值或当自动识别有误时再选择修改d0值进行自动识别。同时当按照自动识别流程判定该名片模板属于T7时也会提示自动进入该页面进行手动识别操作。选择手动识别进入(d)选择手动交互识别选项设置,比如当前选择将识别字段填充为电话本的姓名字段内,并选择识别框的大小,以便最快速的进行识别操作。选定后进入(e)操作接口,可以通过方向键移动识别区域完成识别区域的设定,(d)和(e)可以反复进行以便将所需的识别内容全部选定。当至少已经有一个识别区域被选定后,返回到(e)接口时系统菜单中会自动增加开始识别采集信息的功能选项,选择开始识别操作后,系统将自动将相应的字段信息填充到电话簿的相应内容中如(f),若需要修正或更改可在此处完成。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

Claims (10)

1、一种手机中使用图像识别进行名片信息的采集与录入的方法,其特征在于,所述的方法包括以下步骤:
(1)手机通过拍摄镜头获取名片的图像信息;
(2)手机对图像进行预处理;
(3)手机对预处理后的图像进行版面分析和区域分割;
(4)手机对分割后各个区域进行文字识别;
(5)手机对文字识别的内容进行数据识别和信息分析;
(6)将数据存入手机的电话簿中。
2、根据权利要求1所述的手机中使用图像识别进行名片信息的采集与录入的方法,其特征在于,所述的获取名片的图像信息包括以下步骤:
(1)将手机的拍摄镜头设置成高象素分辨率拍摄模式;
(2)将整张名片数据的完整拍摄录入。
3、根据权利要求1或2所述的手机中使用图像识别进行名片信息的采集与录入的方法,其特征在于,所述的图像的预处理包括以下步骤:
(1)将图像进行二值化处理或灰度级别处理;
(2)以图像的边沿或文字的行向为基准进行倾斜度校正。
4、根据权利要求1或2所述的手机中使用图像识别进行名片信息的采集与录入的方法,其特征在于,所述的版面分析和区域分割包括以下步骤:
(1)预先在手机中设置名片的版面模板;
(2)将图像使用决策树进行模板匹配;
(3)根据模板匹配的结果进行图像版面的区域分割处理。
5、根据权利要求4所述的手机中使用图像识别进行名片信息的采集与录入的方法,其特征在于,所述的名片的版面模板包括:
(1)T1——单位、姓名及职称、地址三块依次由上至下排列,有两个地址块;
(2)T2——单位、姓名及职称、地址三块依次由上至下排列,有一个地址块;
(3)T3——姓名及职称放到最上部,有一个地址块;
(4)T4——姓名及职称放到最上部,有两个地址块;
(5)T5——单位块在最上部,姓名及职称块与地址并列;
(6)T6——姓名及职称在最上部,单位、地址并列在下部;
(7)T7——除去以上排版方式之外的其他方式。
6、根据权利要求5所述的手机中使用图像识别进行名片信息的采集与录入的方法,其特征在于,所述的使用决策树进行模板匹配包括以下步骤:
(1)手机根据用户操作预先设定空白间隔门限值;
(2)对图像自上而下垂直方向进行投影;
(3)判断图像中的空白间隔是否大于所述的空白间隔门限值;
(4)如果不是,则匹配模板为T7,并进行手动交互方式确定版面区域分割处理;
(5)反之,则找到第一块;
(6)判断垂直方向是否可以继续投影;
(7)如果否,则判断水平方向是否可以继续投影,如果水平方向不可以继续投影,则匹配模板为T7,并进行手动交互方式确定版面区域分割处理;如果水平方向可以继续投影,则匹配模板属于T5或者T6,并进一步采用水平和垂直投影完成模板匹配;
(8)如果是,则判断水平方向是否可以继续投影,如果水平方向不可以继续投影,则匹配模板属于T2或者T3,并进一步采用水平和垂直投影完成模板匹配;如果水平方向可以继续投影,则匹配模板属于T1或者T4,并进一步采用水平和垂直投影完成模板匹配。
7、根据权利要求5所述的手机中使用图像识别进行名片信息的采集与录入的方法,其特征在于,所述的手动交互方式确定版面区域分割处理包括以下步骤:
(1)选择当前需要识别的字段名称;
(2)选择该字段的识别框的大小;
(3)选择后进入手机操作接口,并根据用户对方向键的操作来移动识别区域,进行识别区域的设定;
(4)重复步骤(1)至(3),直到将所需的识别内容全部确定。
8、根据权利要求1或2所述的手机中使用图像识别进行名片信息的采集与录入的方法,其特征在于,所述的文字识别包括以下步骤:
(1)文本行字切分:将大幅的图像先切割为行,再从图像行中分离出单个字符;
(2)文字特征提取:从单个字符图像上提取统计特征或结构特征,包括细化和归一化;
(3)文字识别处理:从学习得到的特征库中找到与待识字符相似度最高的字符类。
9、根据权利要求5所述的手机中使用图像识别进行名片信息的采集与录入的方法,其特征在于,所述的对文字识别的内容进行数据识别和信息分析包括以下步骤:
(1)将姓名块、单位块、职称块的识别结果与手机电话簿中的姓名、单位名称和其它信息字段直接对应;
(2)将地址块中的文本内容进行字段抽取处理。
10、根据权利要求5所述的手机中使用图像识别进行名片信息的采集与录入的方法,其特征在于,所述的地址块中的文本内容的结构为:
<地址块>::=<字段1>|<字段2>|<字段3>...
<字段i>::=<先导词>|<分界符>|<内容>
<内容>::=<字符1>|<字符2>|<字符3>...
分界符集合={′:′,′.′,′′}
先导词、内容由字段种类决定,例如对电话字段有:
先导词集合={′电话′,′TEL′,′PHONE′...}
内容字符集={数位,′(′,′)′,′-′,′′,′.′},
所述的字段抽取处理包括以下步骤:
(1)先导词容错匹配;
(2)跳过分界符;
(3)根据内容字符集判断内容是否合法;
(4)如果内容合法,则针对名片的专用词库和规则库为基础,自动校对识别结果并修改明显的错误;
(5)反之,则回到步骤(1)。
CNB2005100264922A 2005-06-06 2005-06-06 手机中使用图像识别进行名片信息的采集与录入的方法 Active CN100362525C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2005100264922A CN100362525C (zh) 2005-06-06 2005-06-06 手机中使用图像识别进行名片信息的采集与录入的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100264922A CN100362525C (zh) 2005-06-06 2005-06-06 手机中使用图像识别进行名片信息的采集与录入的方法

Publications (2)

Publication Number Publication Date
CN1877598A true CN1877598A (zh) 2006-12-13
CN100362525C CN100362525C (zh) 2008-01-16

Family

ID=37510028

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100264922A Active CN100362525C (zh) 2005-06-06 2005-06-06 手机中使用图像识别进行名片信息的采集与录入的方法

Country Status (1)

Country Link
CN (1) CN100362525C (zh)

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887521A (zh) * 2010-06-22 2010-11-17 中兴通讯股份有限公司 一种实现文件纠偏的方法及终端
CN101122953B (zh) * 2007-09-21 2010-11-17 北京大学 一种图片文字分割的方法
CN101916258A (zh) * 2010-07-13 2010-12-15 上海合合信息科技发展有限公司 通过网络查询自动校正识别结果的方法及系统
CN102169541A (zh) * 2011-04-02 2011-08-31 郝震龙 一种采用光学定位的字符识别输入系统及其方法
CN102236782A (zh) * 2010-04-30 2011-11-09 陈斌 一种证书证件文字识别方法
CN101739441B (zh) * 2009-12-01 2012-01-25 中国建设银行股份有限公司 一种图像信息录入的方法以及系统
CN101702242B (zh) * 2009-11-23 2012-07-04 中兴通讯股份有限公司 一种自动填写固定格式文件的方法及终端
CN102567005A (zh) * 2010-12-31 2012-07-11 上海量明科技发展有限公司 利用即时通讯工具整理名片的实现方法、装置及系统
CN101751433B (zh) * 2008-12-22 2012-10-17 汉王科技股份有限公司 名片字符条目分类方法与装置
CN102932403A (zh) * 2012-08-30 2013-02-13 上海合合信息科技发展有限公司 自动将名片中的联系信息同步至移动设备的方法及系统
CN102945367A (zh) * 2012-11-26 2013-02-27 昆山振天智能化设备有限公司 车辆牌照识别系统
CN102968611A (zh) * 2011-08-05 2013-03-13 索尼公司 信息处理器和信息处理方法
CN103065146A (zh) * 2012-12-24 2013-04-24 广东电网公司电力调度控制中心 用于电力通信机房哑设备标识牌的文字识别方法
CN103235946A (zh) * 2013-04-08 2013-08-07 上海合合信息科技发展有限公司 人工识别名片信息的防泄密处理方法
CN103488608A (zh) * 2013-09-27 2014-01-01 杨昕吉 可视化样式电子名片快速构建的方法和系统
CN103810477A (zh) * 2014-02-21 2014-05-21 中国人民银行印制科学技术研究所 容错定位系统和容错定位方法
WO2014183694A1 (zh) * 2013-12-03 2014-11-20 中兴通讯股份有限公司 一种数据录入方法及装置
CN104239853A (zh) * 2014-08-27 2014-12-24 北京捷通华声语音技术有限公司 一种图像的处理方法和装置
CN104537339A (zh) * 2014-12-19 2015-04-22 汉王科技股份有限公司 信息识别方法和信息识别系统
CN104915114A (zh) * 2015-05-29 2015-09-16 小米科技有限责任公司 信息记录方法和装置、智能终端
CN105335957A (zh) * 2014-08-07 2016-02-17 江苏奥博洋信息技术有限公司 信息碎片化图像切割方法
CN105512654A (zh) * 2016-02-19 2016-04-20 杭州泰格医药科技股份有限公司 临床试验用手持数据采集装置
CN105718846A (zh) * 2014-12-03 2016-06-29 航天信息股份有限公司 票据信息的录入方法及装置
CN105791503A (zh) * 2016-04-28 2016-07-20 乐视控股(北京)有限公司 一种将名片信息存储到通讯录的方法及装置
WO2016188104A1 (zh) * 2015-11-12 2016-12-01 中国建设银行股份有限公司 信息处理方法及信息处理装置
CN106412196A (zh) * 2016-05-31 2017-02-15 深圳市永兴元科技有限公司 联系人信息处理方法和装置
CN107105167A (zh) * 2017-06-05 2017-08-29 广东小天才科技有限公司 一种扫题时拍摄照片的方法、装置及终端设备
CN107403140A (zh) * 2017-07-04 2017-11-28 南京律智诚专利技术开发有限公司 一种名片信息识别和名片图像匹配管理方法
CN107491640A (zh) * 2017-08-12 2017-12-19 合肥全飞信息科技有限公司 一种基于手机app的指甲病资料查询方法
CN107783953A (zh) * 2017-09-22 2018-03-09 平安普惠企业管理有限公司 信息录入方法及终端设备
CN108038504A (zh) * 2017-12-11 2018-05-15 深圳房讯通信息技术有限公司 一种解析房产证照片内容的方法
CN108090488A (zh) * 2017-12-18 2018-05-29 广东广业开元科技有限公司 一种基于大数据ocr物联网的人工智能工会信息录入系统
CN108415930A (zh) * 2018-01-19 2018-08-17 大象慧云信息技术有限公司 一种数据解析方法及装置
CN109492532A (zh) * 2018-10-09 2019-03-19 好活(昆山)网络科技有限公司 一种图像ai识别的方法、装置和系统
CN109635807A (zh) * 2018-10-16 2019-04-16 深圳壹账通智能科技有限公司 信息录入方法、装置、设备及计算机可读存储介质
CN111213157A (zh) * 2017-10-11 2020-05-29 深圳传音通讯有限公司 一种基于智能终端的快递信息录入方法及录入系统
CN111340031A (zh) * 2020-02-25 2020-06-26 杭州测质成科技有限公司 基于图像识别的设备履历本目标信息提取与识别系统及其方法
CN111753840A (zh) * 2020-06-18 2020-10-09 北京同城必应科技有限公司 一种同城物流配送名片下单技术
CN112466199A (zh) * 2020-11-26 2021-03-09 联盛(厦门)彩印有限公司 一种电子标签吊牌自动排版方法、系统、设备和存储介质
CN112929480A (zh) * 2021-02-10 2021-06-08 王晨旭 一种联系方式的存储方法和存储设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298982B (zh) * 2013-07-16 2019-03-08 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100579157C (zh) * 2003-08-27 2010-01-06 致伸科技股份有限公司 具有名片扫描辨识功能的移动电话系统
WO2005048188A2 (en) * 2003-11-11 2005-05-26 Sri International Method and apparatus for capturing paper-based information on a mobile computing device
CN1278533C (zh) * 2003-12-17 2006-10-04 大唐移动通信设备有限公司 可自动录入文字、图像的手机及其录入与处理方法
CN100346657C (zh) * 2004-02-18 2007-10-31 惠州Tcl移动通信有限公司 名片信息转化到手机电话本中的方法

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122953B (zh) * 2007-09-21 2010-11-17 北京大学 一种图片文字分割的方法
CN101751433B (zh) * 2008-12-22 2012-10-17 汉王科技股份有限公司 名片字符条目分类方法与装置
CN101702242B (zh) * 2009-11-23 2012-07-04 中兴通讯股份有限公司 一种自动填写固定格式文件的方法及终端
CN101739441B (zh) * 2009-12-01 2012-01-25 中国建设银行股份有限公司 一种图像信息录入的方法以及系统
CN102236782A (zh) * 2010-04-30 2011-11-09 陈斌 一种证书证件文字识别方法
CN101887521B (zh) * 2010-06-22 2013-09-11 中兴通讯股份有限公司 一种实现文件纠偏的方法及终端
CN101887521A (zh) * 2010-06-22 2010-11-17 中兴通讯股份有限公司 一种实现文件纠偏的方法及终端
CN101916258A (zh) * 2010-07-13 2010-12-15 上海合合信息科技发展有限公司 通过网络查询自动校正识别结果的方法及系统
CN101916258B (zh) * 2010-07-13 2012-04-18 上海合合信息科技发展有限公司 通过网络查询自动校正识别结果的方法及系统
CN102567005A (zh) * 2010-12-31 2012-07-11 上海量明科技发展有限公司 利用即时通讯工具整理名片的实现方法、装置及系统
CN102169541A (zh) * 2011-04-02 2011-08-31 郝震龙 一种采用光学定位的字符识别输入系统及其方法
CN102968611A (zh) * 2011-08-05 2013-03-13 索尼公司 信息处理器和信息处理方法
CN102932403A (zh) * 2012-08-30 2013-02-13 上海合合信息科技发展有限公司 自动将名片中的联系信息同步至移动设备的方法及系统
CN102945367A (zh) * 2012-11-26 2013-02-27 昆山振天智能化设备有限公司 车辆牌照识别系统
CN103065146A (zh) * 2012-12-24 2013-04-24 广东电网公司电力调度控制中心 用于电力通信机房哑设备标识牌的文字识别方法
CN103235946A (zh) * 2013-04-08 2013-08-07 上海合合信息科技发展有限公司 人工识别名片信息的防泄密处理方法
CN103488608A (zh) * 2013-09-27 2014-01-01 杨昕吉 可视化样式电子名片快速构建的方法和系统
WO2014183694A1 (zh) * 2013-12-03 2014-11-20 中兴通讯股份有限公司 一种数据录入方法及装置
CN103810477A (zh) * 2014-02-21 2014-05-21 中国人民银行印制科学技术研究所 容错定位系统和容错定位方法
CN103810477B (zh) * 2014-02-21 2017-04-12 中国人民银行印制科学技术研究所 容错定位系统和容错定位方法
CN105335957A (zh) * 2014-08-07 2016-02-17 江苏奥博洋信息技术有限公司 信息碎片化图像切割方法
CN104239853A (zh) * 2014-08-27 2014-12-24 北京捷通华声语音技术有限公司 一种图像的处理方法和装置
CN104239853B (zh) * 2014-08-27 2018-04-27 北京捷通华声语音技术有限公司 一种图像的处理方法和装置
CN105718846A (zh) * 2014-12-03 2016-06-29 航天信息股份有限公司 票据信息的录入方法及装置
CN104537339A (zh) * 2014-12-19 2015-04-22 汉王科技股份有限公司 信息识别方法和信息识别系统
CN104537339B (zh) * 2014-12-19 2018-04-10 汉王科技股份有限公司 信息识别方法和信息识别系统
CN104915114A (zh) * 2015-05-29 2015-09-16 小米科技有限责任公司 信息记录方法和装置、智能终端
CN104915114B (zh) * 2015-05-29 2018-10-19 小米科技有限责任公司 信息记录方法和装置、智能终端
WO2016188104A1 (zh) * 2015-11-12 2016-12-01 中国建设银行股份有限公司 信息处理方法及信息处理装置
CN105512654A (zh) * 2016-02-19 2016-04-20 杭州泰格医药科技股份有限公司 临床试验用手持数据采集装置
CN105791503A (zh) * 2016-04-28 2016-07-20 乐视控股(北京)有限公司 一种将名片信息存储到通讯录的方法及装置
CN106412196A (zh) * 2016-05-31 2017-02-15 深圳市永兴元科技有限公司 联系人信息处理方法和装置
CN107105167A (zh) * 2017-06-05 2017-08-29 广东小天才科技有限公司 一种扫题时拍摄照片的方法、装置及终端设备
CN107105167B (zh) * 2017-06-05 2020-05-15 广东小天才科技有限公司 一种扫题时拍摄照片的方法、装置及终端设备
CN107403140A (zh) * 2017-07-04 2017-11-28 南京律智诚专利技术开发有限公司 一种名片信息识别和名片图像匹配管理方法
CN107491640A (zh) * 2017-08-12 2017-12-19 合肥全飞信息科技有限公司 一种基于手机app的指甲病资料查询方法
CN107783953A (zh) * 2017-09-22 2018-03-09 平安普惠企业管理有限公司 信息录入方法及终端设备
CN111213157A (zh) * 2017-10-11 2020-05-29 深圳传音通讯有限公司 一种基于智能终端的快递信息录入方法及录入系统
CN108038504B (zh) * 2017-12-11 2019-12-27 深圳房讯通信息技术有限公司 一种解析房产证照片内容的方法
CN108038504A (zh) * 2017-12-11 2018-05-15 深圳房讯通信息技术有限公司 一种解析房产证照片内容的方法
CN108090488A (zh) * 2017-12-18 2018-05-29 广东广业开元科技有限公司 一种基于大数据ocr物联网的人工智能工会信息录入系统
CN108415930A (zh) * 2018-01-19 2018-08-17 大象慧云信息技术有限公司 一种数据解析方法及装置
CN108415930B (zh) * 2018-01-19 2021-07-09 大象慧云信息技术有限公司 一种数据解析方法及装置
CN109492532A (zh) * 2018-10-09 2019-03-19 好活(昆山)网络科技有限公司 一种图像ai识别的方法、装置和系统
CN109635807A (zh) * 2018-10-16 2019-04-16 深圳壹账通智能科技有限公司 信息录入方法、装置、设备及计算机可读存储介质
CN111340031A (zh) * 2020-02-25 2020-06-26 杭州测质成科技有限公司 基于图像识别的设备履历本目标信息提取与识别系统及其方法
CN111753840A (zh) * 2020-06-18 2020-10-09 北京同城必应科技有限公司 一种同城物流配送名片下单技术
CN112466199A (zh) * 2020-11-26 2021-03-09 联盛(厦门)彩印有限公司 一种电子标签吊牌自动排版方法、系统、设备和存储介质
CN112929480A (zh) * 2021-02-10 2021-06-08 王晨旭 一种联系方式的存储方法和存储设备

Also Published As

Publication number Publication date
CN100362525C (zh) 2008-01-16

Similar Documents

Publication Publication Date Title
CN1877598A (zh) 手机中使用图像识别进行名片信息的采集与录入的方法
CN1320485C (zh) 图像检索装置和图像检索装置的关键词赋予方法
CN1752992A (zh) 文字识别装置、文字识别方法及文字识别程序
CN1139884C (zh) 信息处理方法和装置
CN1126608C (zh) 识别邮件发送信息的方法和装置
CN1248138C (zh) 图像处理方法与图像处理系统
CN1158627C (zh) 用于字符识别的方法和装置
CN1945599A (zh) 图像处理装置,图像处理方法和计算机程序产品
CN101046808A (zh) 一种文档处理系统和方法
CN1177407A (zh) 基于速度的手写体识别方法和系统
CN1141666C (zh) 利用标准笔划识别输入字符的在线字符识别系统
CN1609846A (zh) 用于识别,锚定和回流数字墨水注释的数字墨水注释方法和系统
CN1517904A (zh) 墨水划分器及关联的应用编程接口
CN1445663A (zh) 手写签名鉴定程序、方法和设备
CN1773501A (zh) 图像检索和形成装置、方法及程序、以及记录介质
CN1740943A (zh) 一种文档加密方法
CN1041773C (zh) 由字符图象直方图0-1图形表示识别字符的方法和装置
CN1251130C (zh) 多字体多字号印刷体藏文字符识别方法
CN1367460A (zh) 字符串识别装置、字符串识别方法及其存储介质
CN1916940A (zh) 模板优化的字符识别方法和系统
CN1163836C (zh) 图象信息检索系统和方法
CN1549192A (zh) 手写字体的计算机识别与自动输入方法
CN1310182C (zh) 用于增强文档图像和字符识别的方法和装置
CN1459073A (zh) 识别并处理数字图像中的命令的方法和装置,其中用户通过例如将其环绕而标记命令
CN1336604A (zh) 中文古籍数字化及内容检索自动化方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201020

Address after: No.018, floor 8, building 6, yard 33, middle Xierqi Road, Haidian District, Beijing 100085

Patentee after: BEIJING XIAOMI MOBILE SOFTWARE Co.,Ltd.

Address before: 200233 Shanghai City Guangxi Jinglu No. 7

Patentee before: Inventec Appliances (Shanghai) Co.,Ltd.

TR01 Transfer of patent right