CN1808466A - 单词识别装置 - Google Patents

单词识别装置 Download PDF

Info

Publication number
CN1808466A
CN1808466A CN 200510089727 CN200510089727A CN1808466A CN 1808466 A CN1808466 A CN 1808466A CN 200510089727 CN200510089727 CN 200510089727 CN 200510089727 A CN200510089727 A CN 200510089727A CN 1808466 A CN1808466 A CN 1808466A
Authority
CN
China
Prior art keywords
word
literal
equipment
character string
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200510089727
Other languages
English (en)
Other versions
CN100530217C (zh
Inventor
古贺昌史
龟山达也
岭龙治
高桥寿一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Omron Terminal Solutions Corp
Hitachi Omron Financial System Co Ltd
Original Assignee
Hitachi Omron Financial System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Omron Financial System Co Ltd filed Critical Hitachi Omron Financial System Co Ltd
Publication of CN1808466A publication Critical patent/CN1808466A/zh
Application granted granted Critical
Publication of CN100530217C publication Critical patent/CN100530217C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明提供单词识别装置。本装置从单词间没有空白的日语、汉语等语言的字符串的图像中识别单词,在与操作者的位置指定连锁的同时,在单词词典处于远程的场合也提供防止处理时间增加的单词对照设备。设置从单词对照的结果所得到的候补单词的集合选择最接近操作者指定的位置信息的单词的设备。在单词对照中,根据文字识别结果检测作为已预先存储在词典中的单词表面合理的部分图像的配置。

Description

单词识别装置
技术领域
本发明属于涉及利用字符串识别的单词输入装置的技术领域。
背景技术
以往,将在纸上印刷或手写的文字进行读取的装置作为OCR已为人们所熟知。主要应用领域是账票处理、邮件的区分、文书的文本化等。在典型的OCR中,按以下那样的顺序读取文字。首先,使用扫描器将纸面进行光电变换并读入到计算机(图像输入),推定读取对象的区域后截出每个文字(文字截出),识别每个文字是什么文字(文字识别),利用语言信息等将已读取的文字群作为字符串进行解释(后处理)。当在这样的OCR中识别日语时,尤其对于用于存储语言信息的装置(语言词典)需要很大的存储容量。另外,存在在纸面上存在多个文字行,作为读取对象的文字往往是其一部分的情况。在这样的情况下,根据依照应用领域预先被规定的规则,装置自动地判别作为读取对象的文字行。
一般在文字截出阶段,特定哪个部分图像与正确的文字对应是困难的。为此,基于各种假设截出文字,在后处理中特定文字的截出方法正在被广泛地被使用。
另外,在有类似形状的文字的情况下,在文字识别单独处理中特定文字种类是困难的。在这样的情况下,文字识别将输出多个候补文字。
近年来,出现了将被搭载在便携式电话、PDA(personal digitalassistant)等便携设备中的摄像机作为图像输入的装置读取文书、广告牌、标记等文字的尝试。在这些设备中的识别对象是电话号码、邮件地址、URL、英语单词等。另外,识别结果在电话和邮件的发送、向WEB的访问、单词的翻译等服务中被使用。在这样的用途中,假定利用者通过便携式设备自由地读取身边的文书、广告牌、标记等,并接收服务。为此,实现操作的容易性、等待时间的缩短等已成为必要。
在现有技术的识别对象的情况下,从图像中特定读取对象的字符串比较容易。例如,在电话号码的情况下,通常在一开始记载有“Tel.”等字符串,而且在全部的位数、括号和连字符的附加方法中存在规则性。另外,在邮件地址和URL等中,也有在开头有“http:”,在中途出现“@”,用“.com”“.jp”等结束等的规则性。利用这样的规则性,用现有的技术也能自动地检测识别对象的字符串。另外,在英语单词的场合,在单词的前后有空白。为此,基于大致位置的指定特定识别对象的单词是容易的。例如,在山崎正裕等人发表的题为《面向应用了OCR功能的便携式电话的电子词典功能的开发》(电子信息通信学会2004年综合大会演讲论文集D-12-35)(非专利文献1)中,记载着操作者通过使想要读取的英语单词与画面中央的标记一致,既读取其近旁的英语单词,又显示单词的翻译结果的应用例子。
但是,当从在日语和汉语等单词间不留空白所记述的语言的字符串识别单词的情况下,特定读取对象的字符串是困难的。这是因为在日语的情况下,在单词间不设置空白而进行印刷或者书写的缘故。例如,为读取“临时修缮费用请求”的文字行中的“修缮”这样的单词,操作者即使使标记与“修缮”的中央一致,自动地特定什么范围是操作者期待的读取范围也是困难的。作为代替方案,有用矩形指定读取区域的方式,但它显著地使操作量增加,并降低设备的方便性。
另外,对于具有这样的文字识别功能的便携式设备,在后处理中将产生词典的存储容量的问题。在现有的方式中,在使用单词词典的信息加以制约的同时,一般地,在对于文字截出和文字识别的结果有含糊性的单词中检测表面合理的单词。若将日语一般的单词、时事单词等作为读取对象,那么单词数量变得很庞大,很难存储到便携式设备中。作为此问题的解决方法,人们已考虑将词典存储到服务器等外部的计算机中,并用通信功能与便携式设备连接。但是在这样的后处理中,必须频繁地访问单词词典,若将词典设置在外部,那么就有处理时间变长的问题。
发明内容
本发明想要解决的第1课题就是做到用简单的操作从日语或汉语等在单词间不留空白而被记录的语言的文档中能指定想要读取的单词。如上述那样,在日语的场合,因为单词间没有空白,因此即使只指定1点位置也很难自动地特定单词的范围。在本发明中,能解决此问题,并用与识别英语单词等相同的操作指定读取对象的单词。
本发明想要解决的第2课题就是降低向后处理中的单词词典的访问频度,即使单词词典在服务器上也在实用的处理时间内使单词的读取成为可能。
作为用于解决上述课题的第1装置,在本发明中,设置从单词对照的结果所得到的候补单词的集合选择最接近操作者指定的位置信息的单词的设备。此处,所谓单词对照,是作为预先已存储到词典中的单词,根据单词识别结果检测表面合理的部分图像的配置的处理。在词典中预先存储1个以上的单词。如果,在作为单词发现多个表面合理的部分图像配置的场合,就将它们作为候补单词进行输出。作为指定的位置和候补单词的接近程度的尺度,例如使用候补单词的外接矩形的重心和指定位置的距离。由此,在单词间没有空白的场合,也能读取操作者指定的位置近旁的单词。
作为用于解决上述课题的第2设备,在本发明中,设置在文字识别后不使用单词信息而输出表面合理的字符串的候补的字符串输出设备。该字符串输出设备以文字识别的结果所得到的确信度、部分图像间隔的均匀性等的信息为基准输出表面合理的字符串。在表面合理的字符串有多个的场合,将多个字符串作为候补字符串输出。
在字符串输出设备中采用通过反复处理使表面合理性变为最佳的方式。以往,广泛使用网络表达部分图像的位置关系(文字截出网络),求出作为每个部分图像的文字的确信度,求出在网络上确信度的和成为最大的路径的方式。但是,对于该方式,不能够将部分图像间隔的均匀性变成最佳化。因此,做到使文字的截出方法一点一点地反复变化,使作为字符串的表面合理性最佳化。
通过使用上述那样的文字截出方式、单词对照方式和数据形式,能从在单词间不留空白而被记述的日语和汉语等语言的字符串中自动地截出接近操作者指定的位置的单词。因此,用于让识别单词的操作者的操作量大幅度地减少,并提高设备的方便性。
另外,即使在远程服务器中具有单词词典,也没有必要频繁地进行网络访问,因而提高处理速度。在本发明中,能够汇总字符串并传送到服务器,缩短传送时间。进行传送的字符串通过文字识别的确信度、文字间隔的分散等进行严格挑选,缩短传送时间。此外文字截出的含糊性在该时刻被解除,服务器中的单词对照处理也是简单的。
附图说明
图1是本发明的一个实施例的构成。
图2是位置指定画面。
图3是文字截出结果的网络。
图4是字符串输出结果。
图5是字符串输出的处理顺序。
图6是边界倒转的例子。
图7是单词选择结果的显示例子。
图8是字符串输出的数据形式。
图9是单词对照结果的数据形式。
图10是计算机1的构成例子。
具体实施方式
图1表示本发明的一个实施例。本实施例用2台计算机100、101实现。图像输入设备102将文字的图样进行光电变换后输入到计算机中。位置指定设备103特定由操作者输入的读取对象的单词位置的指定。此处,设位置用图像上的X坐标值和Y坐标值指定。文字截出设备104截出被认为与每个文字对应的部分图像。文字识别设备105识别已截出的各个部分图像是什么文字,并与确信度一起输出。这时,参照用于存储各文字的形状的设备(文字识别词典109)。字符串输出设备106以文字识别的结果所得到的确信度、部分图像间隔的均匀性等的信息为基准输出表面合理的字符串。在表面合理的字符串有多个的情况下,将多个字符串作为候补字符串输出。单词对照设备107将预先存储在单词词典110中的单词与候补字符串对照,检测一致的单词。单词选择设备108在单词对照设备107的输出和位置指定设备103的输出的基础上,选择接近指定位置的单词,作为单词识别结果进行输出。最后,在识别结果显示设备111中显示单词识别结果。
计算机1是便携式信息终端,例如是带有摄像机的便携式电话和带有摄像机的PDA等。计算机2是通过无线或有线直接或间接地能与计算机1通信的计算机,例如,是被连接到蜂窝状通信网络的服务器等。识别结果显示设备112是计算机1具有的显示部分。计算机1的图像输入设备111通过摄像机等的图像输入装置来实现。位置指定设备103、文字截出设备104、文字识别设备105、以及字符串输出设备106通过在演算部分实行被存储在计算机1的存储部分中的程序来实现。文字识别词典109被存储在计算机1的存储部分中。单词对照设备107和单词选择设备108通过在演算部分实行存储在计算机2的存储部分中的程序来实现。单词词典110被存储在计算机2的存储部分中。计算机1和2具有通信功能,使用该通信功能进行单词的位置指定、字符串输出设备的输出以及单词识别结果等的发送接收。
图10表示计算机1(100)的外观(表面一侧和背面一侧)。图像输入设备102的摄像机若设置在与显示部分111相反一侧,那么在用户一边目视一边输入时很方便。在显示部分111的一侧,设置了在显示部分的显示内容的操作和图像输入的指定时使用的输入按钮112。
图2是模式地表示输入图像和位置指定的操作。201是在显示部分111上显示输入图像的窗口。设在输入图像中取有想让操作者读取的单词。202是用于位置指定的标记。通过操作者将该标记与想要识别的单词对准进行图像的输入,相当于该标记的位置的输入图像的位置作为在位置指定设备103中应特定的位置被指定。在该例中,为了让“经济”的字符串读出,在将标记对准其近旁的状态下输入图像。
如202所示那样,当在输入图像中被分为边和旁的单词多的情况下,专一地规定单词和单词的边界是困难的。在这种情况下,在此阶段要基于各式各样的假设预先截出文字。图3模式地表示文字截出设备103的输出的例子。此处,文字截出结果成为在特开平11-085909号公报(专利文献1)记述的网络的形式。图中用圆标记表示的网络的顶点表示文字间的边界的候补。圆中的数字表示各边界候补的标识符。另外,折线表示已被截出的部分图像。通过这样的网络的表现,单词的截出方法成为用网络中的路径来表示。
作为文字识别设备105,例如,使用在H.Bunke、P.S.P.Wang“Handbook of Character Recognition and Document Image Analysis”(Word Sxientific、1997)(非专利文献2)中那样的方法。若有类似形状的文字,那么在文字识别单独处理中往往很难特定文字种类。在这样的情况下,文字识别设备105使多个候补单词与确信度成对输出。
图4模式地表示字符串输出设备106的输出例。由于文字截出方法在此阶段不能决定,因此假定各式各样的文字截出方法并输出字符串。图中示出了6个字符串,它表示6个候补字符串被输出的场合。另外,候补字符串的顺序按以下表示的字符串确信度的值大的顺序排列。
(字符串确信度)=a×(文字识别结果的一位的确信度的平均值)-b×(文字的中心坐标间隔的分散值)
(a、b是正的常数)
这是尽可能地将作为文字表面合理,而且,作为字符串文字的间距均匀的文字的截出方法作为上位的候补。
图5表示在字符串输出设备107中的处理顺序的例子。首先,在步骤501中,在网络上探索文字识别确信度的总和成为最大的路径。这能用最短路径的算法等通常的路径探索算法实现。接着,在步骤502中,按照在步骤501中所得到的路径计算字符串确信度,并代入变量a、b。
接着,在步骤503中,重复以下的处理。首先,在循环504中,对于全部的边界候补计算已将该边界候补倒转的字符串确信度,将该值代入到变量c。在变量c的值比b的值大时,将c的值代入到b。
在上述的循环503中的处理中,所谓边界候补是表示以下那样的处理。如果,在边界候i被包含在路径中时,选择靠近i之前、紧接在i之后的边界候补作为两端的文字的截出方法,并修正路径以便不包含i。如果,当边界候补i没有包含在路径中时,修正路径以便包含i。在图6(B)的例子中,将图6(A)的第3边界候补倒转,在图6(C)中,将第5边界候补倒转。
接着,在步骤505中,判定a的值是否小于b的值,若判定结果为“真”,那么将b的值代入到a。若为“假”,那么结束循环503,按照在该时刻的路径确定与字符串对应的部分图像的配置,并作为字符串输出。上述的处理,是只输出1个最佳的文字截出方法的例子。与上述处理相同,通过经常存储上位n个文字的路径,并使它们重复,一点一点地进行修正,也能输出上位n个最佳文字的截出方法。
作为字符串输出设备的输出,使用将对于所得到的部分图像配置的各部分图像的文字识别结果的一位候补文字连接起来的输出。另外,作为其它的实施例,如后述的那样对于各部分图像也可以使用存储了多个候补文字的输出(网格)。
在单词对照设备107中,使用通常的字符串比较方法。另外,作为输入,在使用网格的场合,使用丸川胜美等人发表的题为《用于手写汉字住所识别的错误修正算法》(信息处理学会论文杂志Vol.35、No.6、1994-6pp.1101-1110)(非专利文献3)那样的方法。
在图7中模式地表示用识别结果显示设备111显示了单词选择设备108的输出的结果。201是在位置指定中已使用的画面。701是表示单词识别结果的窗口。越往窗口的上方,作为单词越显示表面合理的单词。对于单词的表面合理性使用在所识别的单词的外接矩形的图像上的重心和操作者指定的读取位置的距离。另外,也可以显示包含外接矩形指定的读取位置那样的单词候补。此外,在能指定操作者希望的单词候补那样的识别结果显示设备111上显示光标702。操作者操作按钮等使光标上下移动,从所列举的候补单词中选择希望的单词。另外,窗口701中单词的X坐标,与在窗口201中所示的输入图像中对应的单词的X坐标对准并显示。
图8是将字符串输出设备106的输出形式作为网格时的数据形式。表中各行即1个记录与字符串中的1个文字对应。在开始的2个变量BL和BR中,存储在网络上的左、右边界的识别符。在接着的4个变量L、T、R、B中,存储已被截出的部分图像的左端、右端、上端、下端的坐标。在下面的变量N中,存储进行输出的候补文字的个数。在从配置C[1]到C[N]中存储文字识别结果所得到的候补文字的文字代码。在从配置Lk[1]到Lk[N]中,存储各候补文字的确信度。这样,通过与部分图像的坐标一起预先存储文字识别结果,就能在单词选择设备108中选择与位置指定结果相应的候补单词。
图9表示单词对照107输出的数据形式。在第1变量LEN中,存储单词的文字个数。在下面的4个变量L、T、R、B中存储单词的左端、右端、上端、下端的坐标。在变量C[i]中存储单词的第i个文字的文字代码。在变量P[i]中,表示向与单词的第i个文字对应的图8的表中的记录的指针。通过使用这样的存储形式,使图7所示那样的显示成为可能。

Claims (8)

1、一种单词识别装置,其特征在于包括:
将图像进行光电变换并作为数字图像读入的图像输入设备;
从上述数字图像中截出一个或以上的部分图像的文字截出设备;
将在文字截出设备中所得到的部分图像作为文字进行识别的文字识别设备;
存储单词的集合的单词存储设备;
基于文字识别结果,检测与在单词存储设备中存储的单词的每个文字类似的部分图像的配置的单词对照设备;
指定图像中应读取的单词的位置的位置指定设备;以及
从单词对照的结果内部选择接近由位置指定设备指定的位置的单词的单词选择设备。
2、如权利要求1记载的单词识别装置,其特征在于:
单词选择设备对部分图像配置的外接矩形的重心和指定的位置的距离为最短的部分图像配置进行选择。
3、如权利要求1记载的单词识别装置,其特征在于:
单词选择设备对部分图像配置的外接矩形包含指定的位置的单词进行选择。
4、一种单词识别装置,其特征在于包括:
将图像进行光电变换并作为数字图像读入的图像输入设备;
从上述数字图像中截出一个或以上的部分图像的文字截出设备;
将在文字截出设备中所得到的部分图像作为文字进行识别的文字识别设备;
基于文字识别的结果和各部分图像的坐标生成表面合理的文字代码的字符串生成设备;
存储单词的集合的单词存储设备;
从字符串生成结果检测与存储在单词存储设备中的单词一致的部分字符串的字符串单词对照设备;
指定图像中应读取的单词的位置的位置指定设备;以及
从字符串单词对照的结果内部选择接近由位置指定设备指定的位置的单词的单词选择设备。
5、如权利要求4记载的单词识别装置,其特征在于:
单词选择设备对部分图像配置的外接矩形的重心和指定的位置的距离为最短的部分图像配置进行选择。
6、如权利要求4记载的单词识别装置,其特征在于:
单词选择设备对部分图像配置的外接矩形包含指定的位置的单词进行选择。
7、如权利要求4记载的单词识别装置,其特征在于:
图像输入设备、文字截出设备、文字识别设备、字符串生成设备和位置指定设备在第一计算机上被实现,单词存储设备、字符串单词对照设备以及单词选择设备在第二计算机上被实现,两者用通信设备连接。
8、如权利要求4记载的单词识别装置,其特征在于:
字符串生成设备通过对基于至少包含文字识别结果所得到的确信度和各部分图像的重心的间隔的变量的评价值反复处理进行最佳化。
CNB2005100897272A 2005-01-21 2005-08-05 单词识别装置 Expired - Fee Related CN100530217C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005013475A JP4802502B2 (ja) 2005-01-21 2005-01-21 単語認識装置および単語認識方法
JP2005013475 2005-01-21

Publications (2)

Publication Number Publication Date
CN1808466A true CN1808466A (zh) 2006-07-26
CN100530217C CN100530217C (zh) 2009-08-19

Family

ID=36840359

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100897272A Expired - Fee Related CN100530217C (zh) 2005-01-21 2005-08-05 单词识别装置

Country Status (2)

Country Link
JP (1) JP4802502B2 (zh)
CN (1) CN100530217C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144191A (zh) * 2019-08-14 2020-05-12 广东小天才科技有限公司 字体识别方法、装置、电子设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5232449B2 (ja) * 2007-11-21 2013-07-10 Kddi株式会社 情報検索装置およびコンピュータプログラム
JP5729260B2 (ja) * 2011-11-01 2015-06-03 富士通株式会社 文字認識用コンピュータプログラム、文字認識装置及び文字認識方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149881A (ja) * 1992-11-09 1994-05-31 Ricoh Co Ltd 辞書引き装置及び文書処理装置並びにディジタル複写装置
JP3623998B2 (ja) * 1995-01-27 2005-02-23 キヤノン株式会社 画像処理方法および画像処理装置
JPH08329190A (ja) * 1995-03-24 1996-12-13 Fuji Xerox Co Ltd 文字認識装置
JP3514085B2 (ja) * 1997-08-27 2004-03-31 日本電信電話株式会社 文字列入力方法及び装置、並びに、文字列入力プログラムを格納した記憶媒体
JPH11203406A (ja) * 1998-01-20 1999-07-30 Ricoh Co Ltd 文字切り出し方法、文字認識方法、文字認識装置および記録媒体
JP2000207491A (ja) * 1999-01-12 2000-07-28 Hitachi Ltd 文字列読取方法及び装置
JP2000348142A (ja) * 1999-06-08 2000-12-15 Nippon Telegr & Teleph Corp <Ntt> 文字認識装置,文字認識方法,および文字認識方法を実行するプログラムを記録した記録媒体
JP4240859B2 (ja) * 2001-09-05 2009-03-18 株式会社日立製作所 携帯端末装置及び通信システム
JP4102153B2 (ja) * 2002-10-09 2008-06-18 富士通株式会社 インターネットを利用した文字認識の後処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144191A (zh) * 2019-08-14 2020-05-12 广东小天才科技有限公司 字体识别方法、装置、电子设备及存储介质
CN111144191B (zh) * 2019-08-14 2024-03-22 广东小天才科技有限公司 字体识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP4802502B2 (ja) 2011-10-26
CN100530217C (zh) 2009-08-19
JP2006202068A (ja) 2006-08-03

Similar Documents

Publication Publication Date Title
CN111709339B (zh) 一种票据图像识别方法、装置、设备及存储介质
CN1488120B (zh) 用于识别手写字符的方法、装置
CN100362525C (zh) 手机中使用图像识别进行名片信息的采集与录入的方法
US10013624B2 (en) Text entity recognition
JP4698289B2 (ja) カメラで取得されたドキュメント用の低解像度のocr
CN1284398C (zh) 移动装置与传送系统
US7860312B2 (en) System and method for identifying and labeling fields of text associated with scanned business documents
CN1278533C (zh) 可自动录入文字、图像的手机及其录入与处理方法
US20020146170A1 (en) Determining form identification through the spatial relationship of input data
CN109685052A (zh) 文本图像处理方法、装置、电子设备及计算机可读介质
CN111582169B (zh) 图像识别数据纠错方法、装置、计算机设备和存储介质
KR101606469B1 (ko) 이미지 분석방법, 특히 이동 단말기용 이미지 분석방법
CN103838566A (zh) 信息处理装置和信息处理方法
CN102017661A (zh) 基于由移动设备记录的图像的内容的数据访问
CN101615251A (zh) 字符识别设备中用于识别字符的方法和设备
CN1659904A (zh) 无线手持设备的基于视觉引导模型的点击接口
CN101287026A (zh) 利用手写识别功能执行快捷拨号的系统和方法
CN104915664A (zh) 联系对象标识获取方法和装置
EP1917637A1 (en) Data organization and access for mixed media document system
CN100530217C (zh) 单词识别装置
CN104598289B (zh) 一种识别方法及一种电子设备
CN1567358A (zh) 改进的电子设备中字符输入的识别
CN111783781B (zh) 基于产品协议字符识别的恶意条款识别方法、装置、设备
CN106650716A (zh) 一种计算机字体识别方法及装置
CN114168871A (zh) 用于页面跳转的方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090819

Termination date: 20100805