CN1532768A - 将数字图像的字段类型分类的方法和设备 - Google Patents

将数字图像的字段类型分类的方法和设备 Download PDF

Info

Publication number
CN1532768A
CN1532768A CNA031213561A CN03121356A CN1532768A CN 1532768 A CN1532768 A CN 1532768A CN A031213561 A CNA031213561 A CN A031213561A CN 03121356 A CN03121356 A CN 03121356A CN 1532768 A CN1532768 A CN 1532768A
Authority
CN
China
Prior art keywords
image
field
text
electronic equipment
character data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA031213561A
Other languages
English (en)
Inventor
镇立新
李俊
黄建成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Priority to CNA031213561A priority Critical patent/CN1532768A/zh
Priority to PCT/EP2004/050281 priority patent/WO2004086292A1/en
Publication of CN1532768A publication Critical patent/CN1532768A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Abstract

将照相机(17)捕捉的图象中文本字段类型分类的方法(20)和电子设备(1)。在使用时,方法(20)和设备(1)从照相机(17)获得图象,并且识别图象的文本区域。接着对文本区域中的文本进行字符识别,以提供被分类成字段类型的输出字符数据。接着在存储器(16)中指示字段类型的位置上存储输出字符数据。

Description

将数字图像的字段类型分类的方法和设备
技术领域
本发明涉及将包含文本的数字图像的字段类型分类的方法和设备,特别涉及,但不限于此,将名片的数字图像的字段类型分类的方法和设备。
背景技术
众所周知,人们可以通过桌面扫描设备从名片获得数据。这样的扫描设备需要以对准方式将名片插入槽口,使得可以方便地识别诸如个人名称字段和电话字段的字段。一旦字段被识别,扫描仪可以存储字段的相关信息(人名、地址、电话号码、公司名称等等),相关信息可以被下载到计算机、个人数字助理、蜂窝电话或任何其他适当的电子设备中的用户个人地址薄。然而,出差或外出开会时不便携带这种扫描设备,因此用户通常不得不等到其回到办公室或家里之后,才能扫描其收到的名片。
在美国专利6,178,270中描述了一种处理,例如书面文件的图象的方法和设备。根据该专利,使用照相机捕捉文档图象,然后用户选择图象中的文本区域以进行处理。接着确定偏斜角度以用于选定文本区域的处理。虽然这种方法和设备被用于处理图象,然而它们不适于捕捉与字段类型的分类相关的数据,其中根据照相机或其它类似设备捕捉的名片数字图像识别这些字段类型。
在本说明书和权利要求书中,术语″包括″或类似术语被用来表示非排它性的包含,使得包括一组单元的方法或装置不仅包含那些单元,而且可以包含未列出的其它单元。
发明内容
根据本发明的一个方面,提供一种通过电子设备完成的方法,该方法用于将照相机捕捉的图象中的文本字段类型分类,该方法包含:
获得图象;
识别图象的至少一个文本区域;
对至少一个所述文本区域中的文本进行字符识别,以提供输出字符数据;
将所述至少一个文本区域分类为一个字段类型;和
在指示所述字段类型的位置存储所述输出字符数据。
该方法最好包含旋转图象以基本消除文本偏斜的步骤,所述旋转在所述分类之前进行。
获得步骤可以适当包含增强所述图象分辨率的步骤。如果图象的分辨率低于阈值,最好进行分辨率增强。
如果图象是灰度图象,获得步骤最好包含对所述图象进行二进制化的步骤。
适当地,该方法的特征还在于图象是名片图象。
最好根据一组规则将所述至少一个文本区域分类为一个字段类型。
存储步骤最好在电子设备的至少一个地址薄字段中存储所述输出字符数据。
所述地址薄字段最好是电话号码字段。
适当地,所述地址薄字段是人名字段。
所述地址薄字段最好是街区地址字段。
适当地,所述地址薄字段是公司名称字段。
根据本发明的另一个方面,提供一种电子设备,该电子设备用于将图象中的文本的字段类型分类,该设备包括:
处理器;
与处理器连接的存储器;和
照相机输入端口,其中在使用时,照相机输入端口允许获得图象,接着处理器对图象的至少一个文本区域进行识别,此后处理器完成:
对至少一个所述文本区域进行字符识别,以提供输出字符数据;
将所述至少一个文本区域分类为一个字段类型;和
在存储器中指示所述字段类型的位置上存储所述输出字符数据。
照相机输入端口最好被连接到照相机。
适当地,处理器旋转图象以基本消除文本偏斜,旋转在处理器将文本区域分类为一个字段类型之前进行。
附图说明
为了方便理解和实施本发明,现在参照附图描述优选实施例,其中:
图1的方框图示出了基于本发明的电子设备的实施例;
图2的流程图示出了将图1电子设备的照相机捕捉的图象中的文本的字段类型分类的方法;而
图3的流程图示出了图2中使用的获得图象过程的方法。
具体实施方式
在所有附图中,类似的附图标记被用来表示类似的单元。参照图1,图1示出了包括射频通信单元2的电子设备1,其中射频通信单元2与处理器3耦合以便通信。具有屏幕5的形式的输入接口和小键盘6也与处理器3耦合以便通信。此外,照相机输入端口19也以与处理器3耦合以便通信,其中照相机输入端口19与相关的照相机17耦合。本领域技术人员可以理解,照相机17可以是设备1的不可分割的部分,也可以是分离的附件。
处理器3包括具有相关只读存储器(ROM)12的编码器/解码器11,所述只读存储器12存储用于对电子设备1发送或接收的语音或其它信号进行编码和解码的数据。处理器3还包括与编码器/解码器11和相关字符只读存储器(ROM)14耦合的微处理器13。微处理器13还耦合到随机存取存储器(RAM)4、小键盘6、屏幕5、照相机17和静态可编程存储器16。
微处理器13的辅助输出被耦合到提醒模块15,提醒模块15通常包含扬声器、振动马达和相关的驱动器。字符只读存储器14存储小键盘6上输入的、用于对可以被通信单元2接收的文本消息进行解码或编码的代码。在本实施例中,字符只读存储器14还存储用于微处理器13的操作代码(OC),和用于实施将照相机17捕捉的图象中文本字段类型分类的方法的代码。
射频通信单元2由具有公共天线7的接收器和发送器合并而成。通信单元2具有通过射频放大器9连接到天线7的收发器8。收发器8也耦合到合并的调制器/解调器10,调制器/解调器10将通信单元2连接到处理器3。  对本领域技术人员来说,电子设备1显然可以是任何电子设备,包含蜂窝电话、传统电话、膝上型计算机或PDA。
参照图2,其中示出了将照相机17捕捉的图象中文本字段类型分类的方法20。方法20包含起始步骤21,其中操作小键盘6上的命令功能的用户调用该步骤。在获得图象步骤22获得图象,其中用户通常会将照相机17指向名片,直到名片基本落在显示正被照相机17检测的区域的屏幕5的边界内。然而,不需要在屏幕17上显示整个名片,而是只需要显示名片中所需的文本部分。一旦用户对屏幕5上显示的内容感到满意,便捕捉并在RAM 4中存储图象。
处理器3接着执行旋转步骤23(如果需要),其中旋转图象以便基本消除与文本相关的偏斜。通过角度检测算法计算基准轴(水平轴)和文本区域中的文本的延伸轴之间的角度,来确定偏斜。美国专利6,178,270中描述了确定偏斜角度的算法,该专利被引入本申请作为参考。
在处理器3执行旋转步骤23(如果需要)之后,处理器3控制方法20完成识别24,识别图象的至少一个文本区域,该文本区域包括文本。识别首先将二进制化图象投影到水平和垂直两个方向上,接着使用已知的布局分析技术分析两个方向的投影分布,从而从图象背景中限定(区分)出每个文本区域。
该方法接着完成测试25,以便通过检查二进制化图象中黑和白区域之间的可分离比值来检查图象质量。该测试确定黑区域是字符的可能性。可能性是可分离比。较大的比值表明更好的图象质量。如果可分离比小于一个阈值,该阈值通常是通过只包含文本区域的训练样本图象事先估测和计算的,则对于良好质量的图象,可分离比通常应当至少为0.8。否则,需要进行二进制化改进26。二进制化改进26仅限于识别至少一个文本区域的步骤24所检测的纯文本区域。正如本领域技术人员所清楚的那样,使用仅限于识别的文本区域内的数据重新计算二进制化判决阈值,以避免非文本区域的影响。
在二进制化改进26之后,或者如果测试25确定图象具有足够好的质量,方法20继续到对至少一个文本区域中的文本进行字符识别27,以提供输出字符数据。包含文本行或字行的每个图象片段被逐一输入到专用光学字符识别器中,并且被转换成成相应的字符。
接着,方法20进行分类28A,使用一组规则将各个文本区域分类成相应的字段类型。这些规则基于进行字段分类的关键字匹配,例如:当关键字″Address″、″street″、″st.″、″Avenue″出现时,该行或区域可能是地址信息所位于的文本区域。为了识别电话号码字段,识别字″Tel″或″Telephone ″或″+″,并且电话号码应当直接跟在后面。对于电子邮件地址,识别″@″、″email″、″.com″、″.UK″等等。为了识别人名,识别其头衔(例如:Dr.Mr.Mrs.Miss.Ms.),并且其姓名应当直接跟在后面。对于公司、企业或商号,使用名称识别关键字,例如″Inc″、″Pty″、″Pte″、″Ltd″、″Limited″和″Partners″。
接着,该方法执行存储28B,在指示字段类型的位置中存储输出字符数据,其中输出字符数据被存储在静态存储器16中。输出字符数据通常被存储在地址薄字段中,并且字段和方法可以通过输出字符数据增加地址薄字段,例如:电话号码字段;人名字段;街区地址字段;或公司名称字段。
方法20接着在结束步骤29终止,并且用户可以再次启动小键盘以便获得另一个名片的输出字符数据。
参照图3,其中示出了更加详细地描述图象获得处理22的方法。该过程通过照相机17捕捉图象,并且将图象存储在RAM 4中。接着进行测试35以确定RAM 4中存储的的图象的分辨率是否高于阈值。通常,用每英寸点(DPI)来表示图象的分辨率,并且将阈值适当设置成200DPI的分辨率。如果测试确定图象高于阈值,则完成测试37,还可以进行分辨率增强36,并且增强图象被存储在RAM 4中。可以通过图象插值方法进行图象增强。因此,如果放大初始图象,则初始图象上的每个象素会被映射成放大图象上的若干象素。根据初始图象中象素的相邻象素计算放大图象中映射的那些象素的图象值。在″T.M.Lehmann,C.Gonner,K Spitzer的Survey:interpolation methods in medical image processing,Medical Imaging,IEEE Transactions on,Volume:18 Issue:11,Nov 1999 Page(s):1049-1075″中描述了图象插值。该文件被引入本申请作为参考。
在测试37,检查图象或增强图象以确定其是黑白还是灰度图象。只在图象或增强图象被确定为灰度格式时,才对图象或增强图象执行二进制化处理28,并且接着处理22结束。
本发明能提供方便的方法和设备,这种方法和设备通过对名片照相以获得图象,从而获得数据,并且在地址薄字段中存储该数据。本发明处理图象,图象上的字段被分类,并且通过从图象中获得的数据更新地址薄字段,例如:电话号码字段;人名字段;街区地址字段;或公司名称字段。
前面的详细描述只提供了优选实施例,不对本发明的范围、适用范围或构造产生任何限制。前面对优选实施例的详细描述只是为了使本领域技术人员能够实现本发明的优选实施例。应当理解,在不偏离本发明权利要求限定的宗旨和范围的前提下,可以在单元的功能和布局上进行各种改变。

Claims (15)

1.一种通过电子设备完成的方法,该方法用于将照相机捕捉的图象中的文本字段类型分类,该方法包含:
获得图象;
识别图象的至少一个文本区域;
对至少一个所述文本区域中的文本进行字符识别,以提供输出字符数据;
将所述至少一个文本区域分类为一个类型;和
在指示所述字段类型的位置存储所述输出字符数据。
2.根据权利要求1的方法,该方法还包含旋转图象以基本消除文本偏斜的步骤,该步骤在所述分类之前进行。
3.根据权利要求1的方法,其中所述的获得图象步骤包括对所述图象执行分辨率增强的步骤。
4.根据权利要求3的方法,其中如果图象的分辨率低于阈值,进行分辨率增强。
5.根据权利要求3的方法,其中如果图象被表示成灰度图象,则所述的获得步骤包括对所述图象执行二进制化的步骤。
6.根据权利要求1的方法,其特征还在于图象是名片图象。
7.根据权利要求1的方法,其中所述的将所述至少一个文本区域分类为一个字段类型是根据一组规则进行的。
8.根据权利要求1的方法,其中所述存储步骤在电子设备的至少一个地址薄字段中存储所述输出字符数据。
9.根据权利要求8的方法,其中所述地址薄字段是电话号码字段。
10.根据权利要求8的方法,其中所述地址薄字段是人名字段。
11.根据权利要求8的方法,其中所述地址薄字段是街区地址字段。
12.根据权利要求8的方法,其中所述地址薄字段是公司名称字段。
13.一种用于将图象中文本字段类型分类的电子设备,该设备包括:
处理器;
与所述处理器耦合的存储器;和
照相机输入端口,其中在使用时,照相机输入端口允许获得图象,而后处理器对图象的至少一个文本区域进行识别,此后处理器完成:
对至少一个所述文本区域进行字符识别,以提供输出字符数据;
将所述至少一个文本区域分类为一个字段类型;和
在存储器中指示所述字段类型的位置上存储所述输出字符数据。
14.根据权利要求13的电子设备,其中所述的照相机输入端口被耦合到照相机。
15.根据权利要求13的电子设备,其中所述处理器提供图象旋转以基本消除文本偏斜,所述旋转在处理器将文本区域分类为一个字段类型之前进行。
CNA031213561A 2003-03-26 2003-03-26 将数字图像的字段类型分类的方法和设备 Pending CN1532768A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNA031213561A CN1532768A (zh) 2003-03-26 2003-03-26 将数字图像的字段类型分类的方法和设备
PCT/EP2004/050281 WO2004086292A1 (en) 2003-03-26 2004-03-10 Method and device for classifying field types of a digital image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA031213561A CN1532768A (zh) 2003-03-26 2003-03-26 将数字图像的字段类型分类的方法和设备

Publications (1)

Publication Number Publication Date
CN1532768A true CN1532768A (zh) 2004-09-29

Family

ID=33035149

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA031213561A Pending CN1532768A (zh) 2003-03-26 2003-03-26 将数字图像的字段类型分类的方法和设备

Country Status (2)

Country Link
CN (1) CN1532768A (zh)
WO (1) WO2004086292A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100421121C (zh) * 2005-02-01 2008-09-24 佳能株式会社 数据处理装置和方法、以及图像处理装置和方法
CN101193186B (zh) * 2006-11-29 2011-05-04 兄弟工业株式会社 图像扫描装置
WO2017202232A1 (zh) * 2016-05-24 2017-11-30 腾讯科技(深圳)有限公司 名片内容识别方法、电子设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59103177A (ja) * 1982-12-04 1984-06-14 Nippon Telegr & Teleph Corp <Ntt> 名刺読取装置
US6823084B2 (en) * 2000-09-22 2004-11-23 Sri International Method and apparatus for portably recognizing text in an image sequence of scene imagery
DE10104270A1 (de) * 2001-01-31 2002-08-01 Siemens Ag Verfahren und System zum Verarbeiten von auf Informationsträgern dargestellten Informationen
JP4240859B2 (ja) * 2001-09-05 2009-03-18 株式会社日立製作所 携帯端末装置及び通信システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100421121C (zh) * 2005-02-01 2008-09-24 佳能株式会社 数据处理装置和方法、以及图像处理装置和方法
CN101193186B (zh) * 2006-11-29 2011-05-04 兄弟工业株式会社 图像扫描装置
WO2017202232A1 (zh) * 2016-05-24 2017-11-30 腾讯科技(深圳)有限公司 名片内容识别方法、电子设备和存储介质

Also Published As

Publication number Publication date
WO2004086292A1 (en) 2004-10-07

Similar Documents

Publication Publication Date Title
US7450760B2 (en) System and method for capturing and processing business data
US7447362B2 (en) System and method of enabling a cellular/wireless device with imaging capabilities to decode printed alphanumeric characters
JP4995554B2 (ja) 光学式文字認識補正のための知識ベースを利用した個人情報の検索方法
US20010044324A1 (en) Cellular telephone
US8373905B2 (en) Semantic classification and enhancement processing of images for printing applications
US7773808B2 (en) Apparatus and method for recognizing a character image from an image screen
KR100938099B1 (ko) 클러스터링 시스템, 클러스터링 방법, 문서 인코딩 시스템 및 클러스터링 방법을 수행하기 위한 컴퓨터 판독가능 매체
US7640037B2 (en) System and method for capturing and processing business data
US20100149322A1 (en) System and method of improving the legibility and applicability of document pictures using form based image enhancement
US20090017765A1 (en) System and Method of Enabling a Cellular/Wireless Device with Imaging Capabilities to Decode Printed Alphanumeric Characters
KR20100099154A (ko) 이미지 분석방법, 특히 이동 단말기용 이미지 분석방법
da Silva et al. Binarizing and filtering historical documents with back-to-front interference
CN108304815A (zh) 一种数据获取方法、装置、服务器及存储介质
CN110210467B (zh) 一种文本图像的公式定位方法、图像处理装置、存储介质
CN1532768A (zh) 将数字图像的字段类型分类的方法和设备
US20040019585A1 (en) Memo image managing apparatus, memo image managing system and memo image managing method
CN1310181C (zh) 一种带摄像装置移动终端的光符识别处理方法
US20170061182A1 (en) Method for processing information from a hand-held scanning device
US20060104506A1 (en) Apparatus for processing an image and for character recognition in a mobile communication terminal, and method thereof
JP4802502B2 (ja) 単語認識装置および単語認識方法
JPWO2006008992A1 (ja) カメラ付き携帯情報通信端末を用いたWebサイト接続方法
JP5140640B2 (ja) 携帯電子機器
HU225439B1 (hu) Eljárás kitöltött nyomtatványok adatainak kigyûjtésére
CN100343864C (zh) 利用背景像素的手写识别方法和系统
CN1722163A (zh) 通过手机传递交易信息的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication