CN104067294A - 字符读取装置和字符读取方法 - Google Patents

字符读取装置和字符读取方法 Download PDF

Info

Publication number
CN104067294A
CN104067294A CN201380006324.XA CN201380006324A CN104067294A CN 104067294 A CN104067294 A CN 104067294A CN 201380006324 A CN201380006324 A CN 201380006324A CN 104067294 A CN104067294 A CN 104067294A
Authority
CN
China
Prior art keywords
character
recognition result
unit
image
dynamic image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380006324.XA
Other languages
English (en)
Inventor
涩谷直纪
玉井敬一
鹈饲贤一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Publication of CN104067294A publication Critical patent/CN104067294A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1456Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on user interactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00249Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a photographic apparatus, e.g. a photographic printer or a projector
    • H04N1/00251Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a photographic apparatus, e.g. a photographic printer or a projector with an apparatus for taking photographic images, e.g. a camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及用于使与具有动态图像拍摄功能的摄像单元(照相机2)连接的计算机作为字符读取装置发挥作用的程序(OCR应用程序1),以大幅度提高读取处理的精度为课题。应用程序(1)内的字符识别处理部(11)输入由照相机(2)生成的字符串的动态图像,并反复执行识别1帧图像中包含的字符的处理。分析处理部(12)沿着时间轴,以字符为单位对每次的字符识别结果进行对照,确定在连续实施的规定次数以上的识别处理中以超过预先设定的基准值的出现率出现的识别结果,并向输入输出接口(14)输出所确定的识别结果。

Description

字符读取装置和字符读取方法
技术领域
本发明涉及如下技术:对通过拍摄字符串而生成的动态图像进行处理,读取该图像中的字符。
背景技术
作为安装在便携电话等具有动态图像拍摄功能的信息处理装置中的OCR用应用程序,已知有如下应用程序:一边以帧为单位对字符串的动态图像进行处理,一边选择适合于识别处理的帧,输出从选择出的帧的图像中读取出的字符串。
例如,在专利文献1中记载了如下技术:每当取入图像时,提取相对于上次取入的图像的变化,使用提取出的变化量变为了规定的允许值以下时的图像来执行字符识别处理,在该识别处理中,以识别对象的图像和被判定为与识别对象的字符串对应的字符模型之间的相似度超过规定的基准值为条件,输出识别结果(参照专利文献1的第0025~0046段、图4等。)。
此外,在专利文献2中记载了如下技术:求出用于判定每个时间点的帧图像是否是适合于字符识别的图像的评价值,使用发现该评价值超过阈值的帧或者得到了最大评价值的帧的图像,进行字符识别处理。此外,将评价值记载为根据快门速度、光圈值、对比度等参数计算的值(参照专利文献2的第0027~0042段等。)。
现有技术文献
专利文献
专利文献1:日本特开2008-250818号公报
专利文献2:日本特开2009-88944号公报
发明内容
发明要解决的问题
如专利文献1的第0042段所述,在一般的字符读取处理中,在通过投影处理将图像中的字符单个地提取出之后,将各字符与多种字符图像的模型(以下,称作“字符模型”。)进行对照,将得到了规定值以上的相似度的字符模型所表示的字符判定为匹配字符。此外,相对于在该判定中使用的字符模型的相似度被设定为识别结果的可靠度。
但是,由于有可能因字符的模糊或照明的偏差等而产生误识别,因此还开发出了如下技术:分析基于以字符为单位的识别结果而组合出的字符串作为单词是否成立,对作为单词不成立的字符串进行校正。图12、图13示出其具体例。
图12的(1)和图12的(2)例示了基于对识别出的字符之间的字符类型进行对照的处理的校正。
具体而言,在图12的(1)的例子中,在日语片假名字符串“カタカナ”的读取中,第2个字符“タ(た)”被误识别为汉字的“夕(晚上)”。在该情况下,由于其它字符均为片假名,因此判定为识别对象字符串很可能是片假名字符串,从而将第2个字符“夕(晚上)”置换为与其相似的片假名“タ(た)”。
在图12的(2)的例子中,在字母字符串“TOKYO”的读取中,第2个字符和末尾字符“O”被误识别为数字“0(零)”。在该情况下,其它字符均为字母,因此判定为识别对象字符串很可能是字母字符串,从而将判定为“0(零)”的两个字符都置换为与“0(零)”相似的字母“O”。
图13示出基于如下方法的校正例,该方法根据由识别出的字符组合出的字符串来检索单词词典。在该例中,按照构成字符串的每一字符,以与字符模型进行对照时得到的可靠度从高到低的顺序,提取几个候选字符,对这些字符进行多次组合,并与单词词典进行对照。在图示例中,在汉字字符串“文化”(“culture”的意思)的读取中,针对第一个字符“文”的第1候选被误识别为“六”,而作为正确字符的“文”成为第2候选。另一方面,第二个字符“化”被正确识别为第1候选。第1候选彼此组合而得到的字符串“六化”在单词词典中不存在,与此相对,将第一个字符的第2候选“文”和第二个字符的第1候选“化”组合而成的字符串“化”在单词词典中有登记,因此,采用后者组合而成的字符串作为识别结果。
这样,存在能够通过字符类型的分析和与词典之间的对照处理来校正识别结果的实例,另一方面,也存在不能通过这些方法进行校正的情况。例如,可举出图14的(1)和图14的(2)所示的实例。
在图14的(1)的例子中,日语片假名字符串“オムロン”("omron"的日语表达)的第三个字符“ロ”被左右分离地提取出来,它们被识别为一对方括号符号“[]”。在图14的(2)的例子中,字母字符串“WORD”的第2个字符“O”同样被左右分离地提取出来,它们被识别为一对括号符号“()”。
在图14的(1)、图14的(2)的例子中,均误识别为:一对括号符号在其间未夹着字符地被使用。但是,有时也以这样的形式来使用括号符号,因此,很可能判定为不存在语法缺陷,从而在不对误识别结果进行校正的情况下输出该误识别结果。
专利文献1、2所述的发明均利用动态图像拍摄功能来选择适合于识别的图像,由此使摄像单元适当地位置对准到识别对象的字符串,使用适合于识别的画质的图像来进行识别处理。但是,所采用的识别结果终归是从对1张帧图像的处理中得到的,并没有示出应对在该识别结果中存在错误的情况的方法。
本发明着眼于上述问题,其课题是,灵活运用在使摄像单元位置对准到识别对象的字符串的期间内生成的动态图像,大幅度提高读取处理的精度。
用于解决问题的手段
本发明的程序使与具有动态图像拍摄功能的摄像单元连接的计算机作为字符读取装置发挥作用,该字符读取装置输入由所述摄像单元通过字符串的拍摄而生成的动态图像,并读取该动态图像中的字符。
在该字符读取装置中,设置有如下单元:识别处理单元,其与动态图像的输入并行地,反复进行识别刚刚输入的1帧图像中包含的字符的处理;确定单元,其沿着时间轴,以字符为单位对识别处理单元的识别结果进行对照,确定在连续实施的规定次数以上的识别处理中以超过预先设定的基准值的出现率出现的识别结果;以及输出单元,其输出由确定单元确定的识别结果。
根据上述结构,在使摄像单元位置对准到识别对象的字符串来进行拍摄的期间内,反复进行以帧为单位的针对图像的字符识别处理,并且,以字符为单位对每次的识别结果进行对照。进而,采用在反复进行某次数以上的识别处理的期间内以超过基准值的出现率出现的识别结果。
由此,即使在进行多次识别处理的期间内,存在得到两个以上的不同识别结果的字符,由于采用在这些识别结果中反复了足够次数的识别结果,因此,能够大幅度削减产生误识别的比例。
在上述字符读取装置的第1实施方式中,确定单元针对未能得到超过基准值的出现率的识别结果的字符,临时确定出现率最多的识别结果。此外,输出单元输出用于分别以不同的方式显示基于已确定的识别结果的字符和基于临时确定的识别结果的字符的数据。
在上述字符读取装置的第2实施方式中,确定单元针对未能得到超过基准值的出现率的识别结果的字符,临时确定可靠度最高的识别结果。输出单元输出用于分别以不同的方式显示基于已确定的识别结果的字符和基于临时确定的识别结果的字符的数据。
根据第1实施方式、第2实施方式,在与字符串的拍摄并行地进行识别处理的期间内,分别以不同的方式显示已确定的字符和临时确定的字符。此外,对于被显示为临时确定的字符,在识别结果被确定时,显示方式发生变化。因此,用户不移动摄像单元而持续进行读取,直到所显示的全部字符变为确定显示为止,由此,能够得到高精度的识别结果。
从输出单元输出的数据能够用于显示以外的目的。例如,可以生成识别出的字符串的文本数据,来向计算机中起动的其它应用程序输入文本数据。关于该情况下的文本数据的输出,可以从字符读取装置进行输出,但也可以利用安装有字符读取装置的装置的功能来进行输出。
在接收到文本数据的输入的应用程序中,可以将所输入的文本数据翻译成其它语言,并输出该翻译结果。此外,也可以不将该翻译用应用程序与字符读取装置用应用程序分开,而在计算机中安装包含两者的功能的1个应用程序。
此外,在第1实施方式和第2实施方式的字符读取装置中,可以设置修正单元,该修正单元受理用于指定根据从输出单元输出的数据所显示的字符的操作和对所指定的字符进行修正的操作,并对该字符进行修正。根据该修正单元,即使在字符串的一部分中发生误识别的情况下,也能够简单地进行修正。
本发明的字符读取方法在与具有动态图像拍摄功能的摄像单元连接的计算机中,与来自摄像单元的动态图像的输入并行地,反复执行识别刚刚输入的1帧图像中包含的字符的识别处理,并且,沿着时间轴,以字符为单位对通过每次识别处理得到的识别结果进行对照,确定在连续实施的规定次数以上的识别处理中以超过预先设定的基准值的出现率出现的识别结果,并输出所确定的识别结果。
该方法除了可以在设置于安装有摄像单元的壳体内的计算机中实施以外,还可以在设置于与摄像单元独立的壳体内的计算机中实施。
发明效果
根据本发明,在对识别对象的字符串实施动态图像拍摄的期间内,反复执行识别处理,针对每一字符,采用在规定次数以上的识别处理中的出现率超过基准值的识别结果,因此,能够削减确定错误的识别结果的频度。由此,大幅度提高了字符读取的精度。
附图说明
图1是应用了本发明的OCR应用程序的功能框图。
图2是示出识别结果的显示画面的转变的第1例的图。
图3是将产生了误识别的字符的识别结果的可靠度、输出结果及其输出的判断标准与识别结果的转变对应起来的表的一例。
图4是示出OCR应用程序中的处理的概略步骤的流程图。
图5是将字符的对应处理的详细步骤与图3所示的实例中的对应的例子一并示出的流程图。
图6是示出结果判定处理的详细步骤的流程图。
图7是示出识别结果的显示画面的转变的第2例的图。
图8是将产生了误识别的字符的识别结果的可靠度、输出结果及其输出的判断标准与识别结果的转变对应起来的表的第2例。
图9是将字符的对应处理的详细步骤与图7所示的实例中的对应的例子一并示出的流程图。
图10是示出对识别结果的错误进行修正的画面例的图。
图11是示出对识别结果的错误进行修正的另一画面例的图。
图12是示出对识别结果的错误进行校正的方法的一例的图。
图13是示出对识别结果的错误进行校正的方法的另一例的图。
图14是示出不能通过图12和图13的方法进行校正的误识别例的图。
具体实施方式
图1将便携型信息处理装置中所安装的OCR应用程序1的结构例表示为功能框图。
该实施例的信息处理装置的具体形式为智能手机,其具备:具有动态图像拍摄功能的照相机2;以及与显示部和操作部一体化的触摸面板3。在OCR应用程序1中,除了包含照相机接口13、输入输出接口14以外,还包含用于使智能手机的控制部作为字符读取装置发挥作用的库10(具备字符读取用功能的程序组)。
在该实施例的库10中,包含字符识别处理部11和分析处理部12的各功能。
照相机接口13对应于OCR应用程序1的起动,使照相机2开始动态图像拍摄,并且取入每次的帧图像。所取入的图像被提供到输入输出接口14和字符识别处理部11。
在字符识别处理部11中,包含登记有多种字符模型的词典(未图示。),字符识别处理部11针对从照相机接口13提供的帧图像,执行通过图像投影处理的方法来提取图像内的各个字符的字符切出处理、以及将提取出的字符的图像与词典内的各种字符模型进行对照的对照处理等,识别与各字符对应的字符代码。与帧图像的输入并行地反复执行该识别处理。
此外,以下将识别字符代码简单地称作“识别字符”。
分析处理部12沿着时间轴,以字符为单位对字符识别处理部11的每次识别结果进行对照,并根据后述的判定标准,按每个字符确定识别结果(字符)。通过输入输出接口14将所确定的识别结果和从照相机接口13提供的动态图像一并显示在触摸面板3上。
图2示出触摸面板3所显示的画面例。
在该例中,拍摄“オムロン”这样的片假名字符串("omron"的日语表达)并进行字符识别。在图中,在中央的框100内较大地显示的是识别对象的字符串,在其下方较小地显示的字符串S是识别结果。在该实施例中,反复执行识别处理,因此,即使在没有确定识别结果的阶段,如果图像稳定,则临时确定某些字符并进行显示。临时确定的字符和已确定的字符以不同的方式进行显示。例如利用亮度高的色彩来表现临时确定的字符或者其背景,而在图2中,替代使用其色彩,而利用网点图案表现临时确定的字符。
根据图2的例子,如图2的(1)所示,最初,全部字符以临时确定状态进行显示,但是经过了少许时间后,确定了识别结果的字符的显示方式发生变化。在图2的(2)的例子中,除第3个字符以外的各字符的显示被变更为确定显示。关于第3个字符,在该阶段,不是正确的字符“ロ”(ro),而被分离成方括号符号的“[”和“]”而被误识别,但是随着时间的进一步推移,如图2的(3)所示,示出了正确的识别结果。在之后的图2的(4)的例子中,第3个字符也被确定显示为作为正确识别结果的“ロ”。
用户在根据上述显示判别出已确定识别结果时,根据需要,在触摸面板3中调出操作菜单,指定保存识别结果或输出到其它应用程序等。输入输出接口14根据该指定操作,将表示识别出的字符串的文本数据输出到指定目的地。
图2所示的识别结果画面的变化是伴随分析处理部12的处理而产生的。
在该实施例的分析处理部12中,以字符为单位对每次的识别结果进行对应,针对处于对应关系的识别结果,按照内容一致的每个识别结果进行计数。此外,以至少执行5次识别处理为条件,在得到出现率超过80%的识别结果时,确定该识别结果。在确定识别结果之前,临时确定出现次数最多的识别结果,在确认了多个出现次数相同的识别结果的情况下,采用可靠度最高的识别结果,对其进行临时确定。
此外,可靠度是指,在将利用字符切出处理提取出的字符图像与字符模型进行对照时,提取出的字符图像与被确定为与字符图像匹配的字符模型之间的相似度。在具有多个相同识别结果的情况下,使用各识别结果的可靠度的平均值或代表值(最大值或最小值)作为可靠度。
图3以图2例示的识别对象字符串“オムロン”为例,示出字符串整体的识别结果的推移,并且,针对产生了误识别的第3个字符“ロ”,将每次的识别结果的可靠度、作为识别结果输出的字符的方式以及用于该输出的判断标准对应起来示出。
此外,在图3中,为了便于说明,不与图2所示的显示的转变进行对应,设进行识别处理的次数为6次,在第1次与第6次中产生了将第3个字符“ロ”认作“[]”的误识别。
参照图3说明对第3个字符的识别结果的输出,首先,在第1次处理中产生了误识别,但是,由于不能与过去的识别结果进行对照,因此,误识别的字符“[]”被直接输出。
接下来,在第2次识别处理中,得到正确的识别结果且正确识别的次数和误识别的次数各为1次,因此,选择可靠度高的识别结果。在图3的例子中,第2次正确识别的可靠度高,因此,采用第2次的识别结果,输出“ロ”。
在第3次和第4次识别处理中,继续得到正确的识别结果。由此,正确识别的次数多于误识别的次数,因此输出“ロ”。
在第5次识别处理中,也得到正确的识别结果。在该阶段,完成了判定出现率所需的5次识别处理,在其中的4次处理中,得到了第3个字符为“ロ”的识别结果。即,第3个字符为“ロ”的识别结果的出现率达到了80%。因此,确定该识别结果,以后维持“ロ”的输出。在第6次识别处理中,第3个字符的识别再次产生错误,但是由于在第5次识别处理中已确定了识别结果,因此,误识别的结果对输出不产生影响。
图4示出由OCR应用程序1执行的读取处理的一系列步骤。
该处理是随着照相机2开始拍摄而开始的。步骤S1、S2对应于字符识别处理部11的处理,在步骤S1、S2中,取得最近的帧图像,执行对该图像的字符识别处理。
接下来,转入分析处理部12的处理。在步骤S3中,通过与前一阶段的识别结果之间的对照,执行识别出的字符的对应。如果该对应成功(步骤S4为“是”),则进入步骤S5,根据之前叙述的判断标准,判定应输出的识别结果。在步骤S6中,经由输入输出接口14输出判定出的结果。
在依次进行上述步骤S1、S2、S3、S4、S5、S6的流程的期间内,将每次的字符识别结果、对应结果、所输出的数据等蓄积到缓存中,并在步骤S3或步骤S5的处理中使用。但是,在字符的对应失败时,从步骤S4进入步骤S7,将蓄积数据复位。
然后,反复进行图4所示的循环,直到进行了请求输出识别出的字符串的操作或者应用程序的结束操作为止。此外,在每次循环的步骤S1中取得的帧图像为该时间点的最新图像,但在循环的执行周期比动态图像的生成周期慢的情况下,每个时间点的取得图像处于不连续的状态。
图5将步骤S3的字符的对应处理的详细流程与该处理的具体例(对应于图3的例子)一并示出。此外,在以下的说明中,将对应的对象的帧称作“当前帧”。
首先,针对第1次识别处理(步骤S11为“是”的情况),将在当前帧中识别出的字符串登记为用于之后的对应的基础的字符串(以下,称作“对应字符串”。)(步骤S20)。此外,判定为对应成功,将成功次数设定为1(步骤S21)。
针对第2次及以后的识别处理(步骤S11为“否”的情况),对在当前帧中识别出的字符串和对应字符串的字符数进行比较(步骤S12)。在两者的字符数一致的情况下(步骤S12为“是”),判定为对应成功,对成功次数加1(步骤S13)。
在当前帧中识别出的字符数与对应字符串的字符数不同的情况下(步骤S12为“否”),按每个字符依次对两个字符串的各构成字符进行比较(步骤S14)。在该比较处理中,根据从起始朝向末尾的顺序(升序)和从末尾朝向起始的顺序(降序)这双种顺序来对各字符进行比较,根据各比较结果,判定不一致处是否只有一处。此处,在按升序进行比较的情况下的不匹配处与按降序进行比较的情况下的不匹配处一致的情况下,判定为不一致处只有一处(步骤S15为“是”)。根据该判定,对各字符串间的不一致处进行对应(步骤S16),进而,将在当前帧中识别出的字符串设为对应字符串(步骤S17)。此外,判定为对应成功,对成功次数加1(步骤S18)。
另一方面,在判定为不一致处为2处以上的情况下(步骤S15为“否”),判定为对应失败(步骤S19)。
图5的(A)示出在图3所示的第1次处理中识别出的字符串。第3个字符被分离成两个字符而被误识别,因此该字符串成为5个字符的结构,在步骤S20中,被设定为对应字符串。
图5的(B)示出在图3所示的第2次处理中识别出的字符串与上述对应字符串之间的关系。在步骤S14中,在按升序和降序这两个方向来对两个字符串进行对照时,可知两个字符串的第1个字符和第2个字符分别一致,对应字符串的第5个字符与在当前帧中识别出的第4个字符一致,它们之间的字符(对应字符串的第3个字符和第4个字符与在当前帧中识别出的第3个字符)不一致。由此,判定出两个字符串的不一致处为一处,将两个字符串对应起来。此时,将第1次的识别字符串的第3个字符和第4个字符汇总为一组,并与第2次的识别字符串的第3个字符对应起来。此外,将对应字符串更新为在当前帧中识别出的识别字符串。
将字符串间的字符的对应结果依次保持关联地保存。因此,第1次的识别字符串中的“[]”成为与第2次~第5次的识别字符串中的“ロ”关联的状态。此外,在判定为对应成功的情况下(步骤S13、S18、S21),对成功次数进行计数。
在之后的结果判定处理(图4的步骤S5)中,针对被对应起来的一群字符的每一个字符,分析识别结果,决定要输出的字符。图6示出该结果判定处理的详细步骤。
在图6所示的结果判定处理中,依次关注对应字符串的各个字符,以与关注字符相对应的之前的各识别结果为对象,执行循环符号L1、L2之间的处理(步骤S31~S39)。
实际上,只有在不确定对关注中的字符的识别结果的情况下(步骤S31为“否”),才进行实质的处理。首先,在步骤S32中,对与关注中的字符对应的识别结果在当前帧中的出现次数进行计数,并且存储该识别结果的可靠度。在计数处理中,在之前没有相同识别结果的情况下,将出现次数设定为1次,在已经得到有相同识别结果的情况下,对到上次为止的计数值加1。
接下来,根据此前对关注中的字符导出的识别结果及其出现次数,提取出现次数最多的识别结果(步骤S33)。此处,在提取出了多个识别结果的情况下(步骤S34为“是”),选择其中可靠度最高的识别结果(步骤S35),如果提取出的识别结果为1个(步骤S34为“否”),则选择该识别结果(步骤S36)。
此外,在步骤S35中,可以针对比较对象的识别结果,按照内容相同的每个结果求出可靠度的平均值,选择与这些平均值中的最高值对应的识别结果。
接下来,在步骤S37中,根据对应的成功次数,检查是否对关注中的字符连续执行了5次以上的识别处理。如果成功次数为5次以上,则由于执行了该成功次数的识别处理且各结果被相关联,因此,步骤S37为“是”。基于该结果,在下一步骤S38中,检查在步骤S35或步骤36中选择出的识别结果的出现率是否为80%以上。如果该步骤S38的判定也为“是”,则确定选择出的识别结果(步骤S39)。
关于通过上述步骤确定出识别结果的字符,在下一处理中,步骤S31中为“是”,从而维持确定出的识别结果。关于在步骤S37或S38中为“否”的字符,由于识别结果不确定,因此,下次还执行步骤S32以后的步骤。
在对图3所示的识别结果进行了上述结果判定处理的情况下,只有在第1次,选择被误识别为第3个字符和第4个字符的方括号符号“[”“]”作为“出现次数最多的识别结果”,其它时候均选择了正确的识别结果。因此,对于每次都被正确识别的3个字符“オ”、“ム”、“ン”和在第1次被误识别的第3个字符“ロ”中的任意一个字符,在第5次识别处理的步骤S37和步骤S38中均为“是”,从而确定了正确的识别结果。
图4、图5、图6所示的读取处理的步骤不仅可以应用于日语字符串,同样也可以应用于其它语言的字符串。作为其一例,图7示出以字母字符串“WORD”为识别对象字符串来实施上述读取处理的情况下的识别结果画面的变化例。与图2的例子同样地,在中央的框100内较大地显示的是识别对象的字符串,在其下方较小地显示的字符串S相当于识别结果。在识别结果的字符串S中,已确定的字符与临时确定的字符(由网点图案示出。)以不同的方式进行显示。
在图7的例子中,最初,全部字符以临时确定状态进行显示(图7的(1)),但是确定显示的字符逐渐增加。在该例中,在4个识别对象字符中,除第2个字符“O”以外的各字符稳定地处于被正确识别的状态,从而被较早地确定,但是“O”有时被分离成括号符号的“(”和“)”而被误识别,因此在经过了比其它字符长的未确定显示期间后才被确定。
图8以识别对象字符串“WORD”为例,示出字符串整体的识别结果的推移(与图7所示的例子不一致。),并且,针对产生了误识别的第2个字符“O”,将每次识别结果的可靠度、作为识别结果所输出的字符的方式以及用于该输出的判断标准对应起来示出。此外,图9是将图7所示的第1次和第2次的识别结果与在每次识别处理中进行的字符的对应处理(与图5所示的步骤为相同的步骤。)进行了对应的图。
参照图8、图9和图6,说明该例的针对识别对象字符串“WORD”的对应处理和结果判定处理。
根据图8,识别对象字符串内的“W”、“R”、“D”每次都被正确地识别出,但是,第2个字符“O”在第1次和第6次处理中被误识别为括号符号的“(”和“)”。
在第1次识别处理中,不存在作为对应的对象的字符串,因此,在图9所示的对应处理中,步骤S11为“是”,执行步骤S20、S21。由此,如图9的(A)所示,登记包含被误识别出的一对括号符号的由5个字符构成的字符串作为对应字符串。
在第2次识别处理中,正确地识别出全部字符串,但是,由于字符数与包含误识别字符的对应字符串不一致,因此,步骤S12为“否”,实施步骤S14的比较处理。其结果是,得知不一致处仅为一处,步骤S15为“是”,在步骤S16中,进行不一致处的对应,在步骤S17中,将对应字符串更新为“WORD”(参照图9的(B)。)。此时,将第1次的识别对象字符串的第2个字符和第3个字符汇总为一组,并将其与第2次的识别对象字符串的第2个字符对应起来。
在之后的第3次~第5次的各识别处理中,正确地识别出全部字符串,因此,在字符的对应处理中,步骤S12为“是”,维持图9的(B)的对应字符串。
在针对各次识别结果的结果判定处理(参照图6。)中,仅在第1次产生了将被误识别为第2个字符和第3个字符的括号符号“(”和“)”选择为“出现次数最多的识别结果”(步骤S36)的错误,其它时候均选择出正确的识别结果。因此,对于任意一个字符,在第5次识别处理的步骤S37和步骤S38中均为“是”,从而确定了正确的识别结果。
除了上述实例以外,还有可能产生英文字符“O”和数字“0(零)”的混淆,英文字符“U”和“V”的混淆,数字“1”、英文字符“I”以及“L”的小写字母“l”之间的混淆等各种识别错误,但根据图4、图5、图6所示的读取处理,对任意一个实例都能够提高识别结果的精度。
此外,在图6所示的结果判定处理中,以在5次以上的识别处理中的出现率为80%以上为确定的条件,但是也可以适当变更对该条件进行规定的识别处理次数(5次)或出现率(80%)。
此外,在该实施例中,在上述条件成立之前,临时确定出现次数最多的识别结果,在具有多个出现次数最多的识别结果的情况下,实施基于可靠度的选择,但是,在临时确定的阶段中,与出现次数相比,可以优先地选择可靠度。此外,也可以是,即使是在5次以上的识别处理中的出现率达到80%的识别结果,也不是无条件地确定,而是求出每次识别结果的可靠度的平均值,以该平均的可靠度超过规定的基准值为条件,来确定该结果。
在对识别对象的字符串开始拍摄的初期,很可能因图像不稳定而不能进行对应。但是,在使照相机2位置对准到识别对象字符串而图像变得稳定时,字符的对应成功,并显示出识别结果,按照每次的识别结果匹配的频度从高到低的字符顺序来确定识别结果。即使是在字符识别中产生错误较多的字符,在进行一定次数以上的识别处理并确认了出现率超过80%的识别结果时,根据该识别结果进行确定,因此,能够使采用错误的识别结果的可能性极低。
此外,确定了识别结果的字符和尚未确定的字符以不同的方式进行显示,因此,在临时确定显示的字符存在错误的情况下,能够告知用户需要在不移动照相机2的情况下持续进行拍摄。此外,用户能够根据两种显示容易地确认识别结果的推移及其正确与否。
此外,在该实施例的OCR应用程序1中,可以设置如下功能:受理选择触摸面板3上所显示的字符的操作或修正该字符的操作,对该字符进行修正。
图10示出利用该修正功能对在日语字符串的读取处理中误识别的字符(针对片假名字符串“オムロン”的误识别字符“[]”)进行修正的例子。
在该例中,在识别出的字符串中存在错误的情况下,在拍摄结束后,仍维持显示有识别结果的画面,并轻触被错误识别的字符(图10的(1))。如图10的(2)所示,通过该操作,在画面内显示手写字符的输入栏30。当用户在该栏30中进行字符的描绘时,在输入栏30的旁边,显示形状符合用户的描绘的字符候选列表31。如图10的(3)所示,用户通过继续进行描绘,缩减列表31内的候选,通过在规定的时间点选择列表31内的候选,输入正确的字符。通过该输入,对选择出的字符进行修正。
图11示出利用与图10相同的修正功能对在字母字符串的读取处理中被误识别的字符(针对英文单词“WORD”的误识别字符“()”)进行修正的例子。在进行修正时,与图10同样,通过轻触操作,显示手写字符的输入栏30,根据该输入栏30中的字符的描绘操作,显示候选的列表31。如图11的(2)、图11的(3)所示,随着用户的描绘作业的推进,缩减列表31内的候选。
上述修正功能除了可以对根据误识别结果而被确定出的字符进行修正以外,还可以用于对识别结果始终未确定的字符进行确定的情况。
此外,用于修正的字符的输入操作不限于手写,也可以使用字符输入系统(IME)的功能来输入应修正成的字符。
设上述实施例的OCR应用程序1安装在智能手机中来进行了说明,但是,在智能手机以外的便携电话、不具有通信功能的信息处理装置(例如数字摄像机等)或者与通用的数字摄像机连接的信息处理装置(例如个人计算机)中,也可以安装具有与上述相同功能的OCR应用程序。
此外,由OCR应用程序1读取出的结果的输出不限于对触摸面板3进行输出,也可以用于在地址簿中进行登记、或者用于记事本和翻译用应用程序等各种应用程序而输出到这些应用程序。
标号说明
1 OCR应用程序
2 照相机
3 触摸面板
10 库(字符读取装置用程序组)
11 字符识别处理部
12 分析处理部
13 照相机接口
14 输入输出接口
30 输入栏
31 候选列表
S 识别结果的字符串

Claims (7)

1.一种字符读取用程序,其用于使与具有动态图像拍摄功能的摄像单元连接的计算机作为字符读取装置发挥作用,所述字符读取装置输入由所述摄像单元通过字符串的拍摄而生成的动态图像,并读取该动态图像中的字符,所述字符读取用程序的特征在于,使所述计算机作为如下各单元发挥作用:
识别处理单元,其与所述动态图像的输入并行地,反复进行识别刚刚输入的1帧图像中包含的字符的处理,
确定单元,其沿着时间轴,以字符为单位对所述识别处理单元的识别结果进行对照,并确定在连续实施的规定次数以上的识别处理中以超过预先设定的基准值的出现率出现的识别结果;以及
输出单元,其输出由确定单元确定的识别结果。
2.根据权利要求1所述的字符读取用程序,其中,
所述确定单元针对未能得到超过所述基准值的出现率的识别结果的字符,临时确定出现次数最多的识别结果,
所述输出单元输出用于分别以不同的方式显示基于所述已确定的识别结果的字符和基于临时确定的识别结果的字符的数据。
3.根据权利要求1或2所述的字符读取用程序,其中,
所述确定单元针对未能得到超过所述基准值的出现率的识别结果的字符,临时确定可靠度最高的识别结果,
所述输出单元输出用于分别以不同的方式显示基于所述已确定的识别结果的字符和基于临时确定的识别结果的字符的数据。
4.根据权利要求2或3所述的字符读取用程序,其中,
所述字符读取用程序还包含使所述计算机作为修正单元发挥作用的程序,该修正单元受理用于指定根据从所述输出单元输出的数据所显示的字符的操作和对所指定的字符进行修正的操作,并对该字符进行修正。
5.一种存储介质,其存储有安装到与具有动态图像拍摄功能的摄像单元连接的计算机中的程序,以使该计算机作为字符读取装置发挥作用,所述字符读取装置输入由所述摄像单元通过字符串的拍摄而生成的动态图像,并读取该动态图像中的字符,所述存储介质的特征在于,
所述程序使所述计算机作为如下各单元发挥作用:
识别处理单元,其与所述动态图像的输入并行地,反复进行识别刚刚输入的1帧图像中包含的字符的处理,
确定单元,其沿着时间轴,以字符为单位对所述识别处理单元的识别结果进行对照,并确定在连续实施的规定次数以上的识别处理中以超过预先设定的基准值的出现率出现的识别结果;以及
输出单元,其输出由确定单元确定的识别结果。
6.一种字符读取装置,其输入由具有动态图像拍摄功能的摄像单元生成的字符串的动态图像,并读取该动态图像中的字符,所述字符读取装置的特征在于,具有:
识别处理单元,其与所述动态图像的输入并行地,反复进行识别刚刚输入的1帧图像中包含的字符的处理,
确定单元,其沿着时间轴,以字符为单位对所述识别处理单元的识别结果进行对照,并确定在连续实施的规定次数以上的识别处理中以超过预先设定的基准值的出现率出现的识别结果;以及
输出单元,其输出由确定单元确定的识别结果。
7.一种字符读取方法,其在与具有动态图像拍摄功能的摄像单元连接的计算机中实施,所述字符读取方法的特征在于,
与来自所述摄像单元的动态图像的输入并行地,反复执行识别刚刚输入的1帧图像中包含的字符的识别处理,并且,沿着时间轴,以字符为单位对通过每次的识别处理得到的识别结果进行对照,确定在连续实施的规定次数以上的识别处理中以超过预先设定的基准值的出现率出现的识别结果,并输出所确定的识别结果。
CN201380006324.XA 2012-02-06 2013-02-04 字符读取装置和字符读取方法 Pending CN104067294A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012022950A JP5982844B2 (ja) 2012-02-06 2012-02-06 文字読取用のプログラムおよび文字読取装置
JP2012-022950 2012-02-06
PCT/JP2013/052453 WO2013118672A1 (ja) 2012-02-06 2013-02-04 文字読取用のプログラムおよび文字読取装置ならびに文字読取方法

Publications (1)

Publication Number Publication Date
CN104067294A true CN104067294A (zh) 2014-09-24

Family

ID=48947436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380006324.XA Pending CN104067294A (zh) 2012-02-06 2013-02-04 字符读取装置和字符读取方法

Country Status (6)

Country Link
US (1) US9001393B2 (zh)
EP (1) EP2813972A4 (zh)
JP (1) JP5982844B2 (zh)
KR (1) KR101633570B1 (zh)
CN (1) CN104067294A (zh)
WO (1) WO2013118672A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975542A (zh) * 2016-04-29 2016-09-28 乐视控股(北京)有限公司 一种字符串的输入方法及装置
CN110088770A (zh) * 2016-12-28 2019-08-02 欧姆龙健康医疗事业株式会社 终端装置
CN111046690A (zh) * 2018-10-15 2020-04-21 富士通株式会社 码信息读取装置、方法和计算机可读存储介质
CN111476240A (zh) * 2019-01-24 2020-07-31 富士施乐株式会社 信息处理装置、记录媒体及信息处理方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150006362A1 (en) * 2013-06-28 2015-01-01 Google Inc. Extracting card data using card art
JP6679350B2 (ja) * 2016-03-09 2020-04-15 キヤノン株式会社 情報処理装置、プログラム及び情報処理方法
JP2018088116A (ja) * 2016-11-29 2018-06-07 キヤノン株式会社 情報処理装置、プログラム、情報処理方法
JP7102103B2 (ja) * 2017-03-31 2022-07-19 キヤノン株式会社 携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム
KR102026475B1 (ko) * 2017-08-20 2019-09-30 네이버 주식회사 시각적 입력의 처리
CN109165635A (zh) * 2018-09-27 2019-01-08 珠海格力电器股份有限公司 显示屏中光符标记的视觉检测系统及其方法与智能终端
JP6505937B1 (ja) * 2018-11-26 2019-04-24 フューチャー株式会社 照合システム、照合方法及び照合プログラム
JP2021144307A (ja) * 2020-03-10 2021-09-24 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP2024036017A (ja) * 2022-09-05 2024-03-15 ダイキン工業株式会社 情報端末、文字認識方法及び文字認識プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1505431A (zh) * 2002-09-11 2004-06-16 ���ǵ�����ʽ���� 用于从图象屏识别字符图象的装置和方法
CN1615478A (zh) * 2001-12-10 2005-05-11 三菱电机株式会社 便携终端式图像处理系统、便携终端和服务器
CN201159903Y (zh) * 2008-03-14 2008-12-03 北京信路威科技发展有限公司 一种车牌识别装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3917252B2 (ja) * 1997-08-25 2007-05-23 株式会社東芝 車両のナンバプレート認識装置および車両のナンバプレート認識方法
JPH11224305A (ja) * 1998-02-06 1999-08-17 Oki Electric Ind Co Ltd 文字認識装置
US7128266B2 (en) * 2003-11-13 2006-10-31 Metrologic Instruments. Inc. Hand-supportable digital imaging-based bar code symbol reader supporting narrow-area and wide-area modes of illumination and image capture
JP2004199141A (ja) * 2002-12-16 2004-07-15 Nec Saitama Ltd 記号認識装置及び記号認識方法
US8873890B2 (en) * 2004-04-02 2014-10-28 K-Nfb Reading Technology, Inc. Image resizing for optical character recognition in portable reading machine
US7627142B2 (en) * 2004-04-02 2009-12-01 K-Nfb Reading Technology, Inc. Gesture processing with low resolution images with high resolution processing for optical character recognition for a reading machine
US8249309B2 (en) * 2004-04-02 2012-08-21 K-Nfb Reading Technology, Inc. Image evaluation for reading mode in a reading machine
US7840033B2 (en) * 2004-04-02 2010-11-23 K-Nfb Reading Technology, Inc. Text stitching from multiple images
US7659915B2 (en) * 2004-04-02 2010-02-09 K-Nfb Reading Technology, Inc. Portable reading device with mode processing
JP2008250818A (ja) 2007-03-30 2008-10-16 Omron Corp 携帯端末装置用のプログラムおよび携帯端末装置
US8676273B1 (en) * 2007-08-24 2014-03-18 Iwao Fujisaki Communication device
JP2009088944A (ja) 2007-09-28 2009-04-23 Canon Inc 文字認識装置、撮像装置及び映像再生装置
JP4875117B2 (ja) * 2009-03-13 2012-02-15 株式会社東芝 画像処理装置
KR20140112774A (ko) * 2013-03-14 2014-09-24 삼성전자주식회사 이미지 편집 방법, 저장 매체 및 단말

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1615478A (zh) * 2001-12-10 2005-05-11 三菱电机株式会社 便携终端式图像处理系统、便携终端和服务器
CN1505431A (zh) * 2002-09-11 2004-06-16 ���ǵ�����ʽ���� 用于从图象屏识别字符图象的装置和方法
CN201159903Y (zh) * 2008-03-14 2008-12-03 北京信路威科技发展有限公司 一种车牌识别装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DATONG CHEN: ""TEXT DETECTION AND RECOGNITION IN IMAGES AND VIDEO SEQUENCES"", 《HTTPS://INFOSCIENCE.EPFL.CH/RECORD/33338/FILES/EPFL_TH2863.PDF》 *
FU CHANG 等: ""Caption analysis and recognition for building video indexing systems"", 《MULTIMEDIA SYSTEMS》 *
RAINER LIENHART 等: ""Automatic text recognition in digital videos"", 《INTERNATIONAL SOCIETY FOR OPTICS AND PHOTONICS》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975542A (zh) * 2016-04-29 2016-09-28 乐视控股(北京)有限公司 一种字符串的输入方法及装置
CN110088770A (zh) * 2016-12-28 2019-08-02 欧姆龙健康医疗事业株式会社 终端装置
CN110088770B (zh) * 2016-12-28 2023-07-07 欧姆龙健康医疗事业株式会社 终端装置
CN111046690A (zh) * 2018-10-15 2020-04-21 富士通株式会社 码信息读取装置、方法和计算机可读存储介质
CN111476240A (zh) * 2019-01-24 2020-07-31 富士施乐株式会社 信息处理装置、记录媒体及信息处理方法
CN111476240B (zh) * 2019-01-24 2023-07-25 富士胶片商业创新有限公司 信息处理装置、记录媒体及信息处理方法

Also Published As

Publication number Publication date
JP5982844B2 (ja) 2016-08-31
US20140355076A1 (en) 2014-12-04
JP2013161277A (ja) 2013-08-19
KR101633570B1 (ko) 2016-06-24
EP2813972A1 (en) 2014-12-17
US9001393B2 (en) 2015-04-07
WO2013118672A1 (ja) 2013-08-15
KR20140105853A (ko) 2014-09-02
EP2813972A4 (en) 2016-02-24

Similar Documents

Publication Publication Date Title
CN104067294A (zh) 字符读取装置和字符读取方法
CN110135411B (zh) 名片识别方法和装置
US9384389B1 (en) Detecting errors in recognized text
JP6527410B2 (ja) 文字認識装置、文字認識方法、及びプログラム
US9081412B2 (en) System and method for using paper as an interface to computer applications
RU2634194C1 (ru) Верификация результатов оптического распознавания символов
JP4661921B2 (ja) 文書処理装置およびプログラム
KR20100007722A (ko) 카메라 기반 영상의 문자 인식 및 번역 방법
US20220222292A1 (en) Method and system for ideogram character analysis
CN111783767A (zh) 文字识别方法、装置、电子设备及存储介质
US10965801B2 (en) Method for inputting and processing phone number, mobile terminal and storage medium
US20240070389A1 (en) Language labeling method and computer device, and non-volatile storage medium
CN105975551A (zh) 基于穿戴设备的信息搜索方法及装置
CN109634569B (zh) 基于注解的流程实现方法、装置、设备及可读存储介质
WO2016181470A1 (ja) 認識装置、認識方法およびプログラム
US10331948B1 (en) Rules based data extraction
CN111860526B (zh) 基于图像的判题方法、装置、电子设备和计算机存储介质
US20130330005A1 (en) Electronic device and character recognition method for recognizing sequential code
JP6655331B2 (ja) 電子機器及び方法
US20210042555A1 (en) Information Processing Apparatus and Table Recognition Method
JP2010237909A (ja) 知識補正プログラム、知識補正装置および知識補正方法
CN112732100A (zh) 信息处理方法、装置和电子设备
JP5272664B2 (ja) 情報処理装置、画像検索方法、及びプログラム
JP2018060474A (ja) 地名抽出プログラム、地名抽出装置および地名抽出方法
KR20240095817A (ko) 전자 장치 및 이를 이용한 문자 인식 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20180608