CN106663212B - 文字识别装置、文字识别方法以及计算机可读存储介质 - Google Patents
文字识别装置、文字识别方法以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN106663212B CN106663212B CN201580039458.0A CN201580039458A CN106663212B CN 106663212 B CN106663212 B CN 106663212B CN 201580039458 A CN201580039458 A CN 201580039458A CN 106663212 B CN106663212 B CN 106663212B
- Authority
- CN
- China
- Prior art keywords
- character
- image
- dictionary
- deterioration
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本发明提供一种文字识别装置及其方法以及程序。文字识别装置包括:存储部件,存储多个字典数据库,所述多个字典数据库是根据使原始文字图像以多个不同的劣化等级劣化而成的图像所生成,且分别对应于多个劣化等级;图像输入部件,接受图像的输入;提取部件,从所述图像中提取文字图像;利用顺序决定部件,基于所提取的文字图像的劣化度,来决定与所述多个劣化等级对应的字典数据库的利用顺序;以及文字识别部件,按照所述利用顺序来使用字典数据库进行所述所提取的文字图像中所含文字的识别,且在该文字识别中的识别结果满足规定条件时,不进行使用下个利用顺序的字典数据库的识别而输出识别结果。由此,能够精度良好且高速地识别劣化的文字图像。
Description
技术领域
本发明涉及一种文字识别处理,尤其涉及一种能够高速识别劣化的文字图像的文字识别处理。
背景技术
作为光学读取并识别手写或印刷文字的光学文字识别(Optical CharacterRecognition,OCR)中的课题之一,有时要精度良好地识别发生了劣化的文字图像。在文字识别处理中,若是识别对象的文字图像的尺寸充分大且没有模糊或飞白、破损、噪声(noise)等的理想状态,则识别精度高。但是,若文字图像的尺寸小,或者存在模糊或飞白、破损、噪声,则文字的识别精度将下降。例如,若文字图像的尺寸小,则通过标准化处理来放大文字尺寸会产生模糊,因此使用根据理想的文字图像所制作的字典的文字识别的精度将下降。在如此般识别对象的文字图像偏离理想状态的情况下,可以说文字图像发生了劣化。
例如,作为OCR的应用,已知有一种牌照(number plate)识别系统,其利用摄像机(camera)来拍摄行驶在道路上的车辆上所揭示的牌照,并对所描绘的文字进行识别。以往,主流的做法是针对每个车道而在道路上方设置摄像机,但近年来,考虑到设备条件的限制或成本的观点,出现了将摄像机固定设置于竖立在道路路侧的灯杆上的做法。当在多车道的道路上使用设置于道路路侧的方式时,根据车道而距摄像机的距离不同,因此靠近摄像机的车道的牌照大小与远离摄像机的车道的牌照大小将不同。远的车道的牌照中的文字图像变小,通过标准化处理,文字图像有可能产生劣化。
作为针对劣化的文字图像的识别方法,可列举专利文献1。专利文献1中公开了:预先制作好各种劣化等级(level)的字典,基于识别对象的文字图像与相同劣化等级的测试样本(test sample)的类似度,来决定要利用的字典的劣化等级。
现有技术文献
专利文献
专利文献1:日本专利特开2006-59351号公报
专利文献2:国际公开第2012/173205号说明书
发明内容
发明所要解决的课题
但是,专利文献1的方法存在如下所述的问题。该方法中,是基于测试样本来决定要利用的字典。因此,在如室外环境下的车辆牌照中的文字图像的识别,识别对象图像的尺寸或模糊程度存在偏差,而对应于每个图像或者每个文字为最佳的字典的劣化等级不同的案例(case)中,字典的决定很困难,而且,所决定的字典有时也并非最佳的字典。
作为解决该问题的方法,考虑相对于所制作的各种劣化等级的字典而一一轮流地进行识别。但是,相对于所输入的文字图像的比对次数将增大(若设一个字典中所含的文字数为k,劣化字典的数量为n,则需要进行k×n次比对),处理时间将增大。
本发明是鉴于所述实际情况而完成,其提供一种能够精度良好且高速地识别劣化的文字图像的技术。
解决课题的技术手段
为了达成所述目的,本发明具有以下的结构。
本发明的第一形态是一种文字识别装置,包括:存储部件,存储多个字典数据库(data base),所述多个字典数据库是根据使原始(original)文字图像以多个不同的劣化等级劣化而成的图像所生成,且分别对应于多个劣化等级;图像输入部件,接受图像的输入;提取部件,从所述图像中提取文字图像;利用顺序决定部件,基于所提取的文字图像的劣化度,来决定所述多个字典数据库的利用顺序;以及文字识别部件,是按照所述利用顺序来使用字典数据库进行所述所提取的文字图像中所含文字的识别的文字识别部件,且在识别结果不满足规定条件时,进行使用下个利用顺序的字典数据库的文字识别,当识别结果满足所述规定条件时,不进行使用下个利用顺序的字典数据库的识别而输出所述识别结果。
根据此种结构,由于保有多个劣化等级的字典数据库,因此能够精度良好地进行劣化的文字图像的识别。进而,不需要进行使用所有字典数据库的识别处理,在识别结果满足规定条件的时刻结束识别处理,因此比起使用所有劣化等级的字典数据库来进行识别的情况,能够进行更高速的文字识别。
而且,优选的是,本发明中的所述利用顺序决定部件预先存储有所述文字图像的劣化度与所述字典数据库的对应关系,使用所述对应关系来决定所述利用顺序。
而且,也优选的是,本发明中的所述利用顺序决定部件根据所述对应关系来求出与所述文字图像的劣化度对应的劣化等级,且将所述利用顺序决定为:将与所求出的劣化等级对应的字典数据库作为最先利用者,并从与跟所求出的劣化等级接近的劣化等级对应的字典数据库开始依次利用。
而且,优选的是,所述对应关系是基于使用与所述多个劣化等级对应的所有字典数据库来对多个测试图像进行比对所得的结果而生成。
根据此种结构,根据识别对象的文字图像的劣化度,将越是期待能够准确识别的字典数据库决定为越早的利用顺序,因此能够期待识别结果在较早的阶段便满足规定条件,从而能够进一步实现处理的高速化。
而且,所述规定条件可包含:使用所述字典数据库的文字识别中的最高的比对得分(score)为规定阈值以上这一条件。
而且,所述规定条件可包含:使用所述字典数据库的文字识别中的最高的比对得分与第二高的比对得分之差为规定阈值以上这一条件。
若满足此种条件,则可以说文字识别的可靠性高,因此能够避免输出可靠性低的识别结果,从而能够兼顾处理的高速化与识别精度的提高。
而且,优选的是,所述文字图像的劣化度是基于由所述提取部件所提取的文字图像中所含的文字的大小与标准化处理后的大小相比较而小多少来决定。进而,也优选的是,所述标准化处理中,将文字图像变形为具有规定大小的正方形,所述文字图像的劣化度是基于从所述正方形的一边的长度减去由所述提取部件所提取的文字图像的纵向尺寸或横向尺寸中的较大者所得的值来决定。在文字识别中,对所提取的文字图像的尺寸进行标准化并进行识别处理,若所提取的文字图像的尺寸小于标准化后的尺寸,则会因标准化处理(放大处理)导致文字图像发生劣化。因此,能够基于标准化处理前的文字图像的尺寸来决定文字图像的劣化度。
而且,除了所提取的文字图像的大小比标准化尺寸小的情况以外,还会因模糊的产生、文字的飞白、文字的破损、噪声的重叠而导致文字图像发生劣化。因此,作为文字图像的劣化度,也可采用对模糊量的大小、文字的飞白程度、文字的破损程度、噪声的重叠量等进行评价所得的值。
而且,也优选的是,所述图像包含车辆的至少一部分,所述提取部件从所述图像中提取揭示于所述车辆的牌照上所描绘的文字来作为所述文字图像。
另外,本发明能够作为包含所述部件的至少一部分的文字识别装置而掌握。而且,本发明也能够作为文字识别方法而掌握。而且,也能够作为用于使计算机(computer)执行这些方法的各步骤的计算机程序(program)、非暂时性地存储有该程序且计算机可读取的存储介质而掌握。所述结构及处理能够分别在不产生技术矛盾的范围内彼此组合而构成本发明。
发明的效果
根据本发明,能够精度良好且高速地识别劣化的文字图像。
附图说明
图1(a)及图1(b)是表示实施方式的文字识别装置的硬件结构及功能结构的框图。
图2是说明劣化字典的制作处理的图。
图3是表示劣化字典的制作处理的流程的流程图。
图4是表示文字识别处理的整体流程的流程图。
图5是表示针对所提取的一文字的文字识别处理的详细流程的流程图。
图6是说明文字图像的劣化度的图。
图7是说明文字识别处理中的识别结果的可靠性判定处理的图。
符号的说明
10:文字识别装置
110:文字提取部
111:文字识别部
112:劣化度评价部
113:利用顺序决定部
114:特征量获取部
115:比对部
116:文字识别用字典数据库
具体实施方式
以下,参照附图来例示性地详细说明用于实施本发明的优选形态。但是,以下的实施方式中记载的构成零件的尺寸、材质、形状、其相对配置等只要未特别记载,则并非将本发明的范围仅限定于这些内容的主旨。
(第1实施方式)
本实施方式的文字识别装置是即使在输入图像中的文字大小比规定的标准化尺寸小的情况下,也能够精度良好且高速地识别的装置。在文字图像(一个文字量)的大小比标准化尺寸小的情况下,文字图像会因转换为标准化尺寸时的放大处理而变成模糊的图像,从而导致文字的识别精度下降。输入图像中的文字图像的大小理想的是标准化尺寸以上,比标准尺寸小的文字图像可以说发生了劣化。本实施方式中,即便是此种发生了劣化的文字图像,也能够精度良好且高速地识别。
<结构>
图1(a)是表示本实施方式的文字识别装置10的硬件结构的图。文字识别装置10包含图像输入部11、运算装置12、存储装置13、输入装置14、输出装置15及通信装置16。图像输入部11是从摄像机20接受图像数据的接口(interface)。另外,本实施方式中,是从摄像机20直接接受图像数据,但也可经由通信装置16来接受图像数据,或者经由记录介质来接受图像数据。运算装置12为中央处理器(Central Processing Unit,CPU)等通用的处理器(processor),执行保存在存储装置13中的程序,实现后述的处理。存储装置13包含主存储装置及辅助存储装置,保存由运算装置12所执行的程序,并且保存图像数据或程序执行中的临时数据。输入装置14是包含键盘(keyboard)或鼠标(mouse)等,供用户(user)对文字识别装置输入指示的装置。输出装置15是包含显示装置或扬声器(speaker)等,供文字识别装置进行对用户的输出的装置。通信装置16是供文字识别装置10与外部的计算机进行通信的装置。通信的形态既可为有线也可为无线,通信规格可为任意。
运算装置12通过执行程序,从而实现图1(b)所示的功能。即,运算装置12实现文字提取部110、文字识别部111、文字识别用字典数据库116的功能部。文字识别部111包含劣化度评价部112、利用顺序决定部113、特征量获取部114及比对部115。各部的处理内容在以下说明。
<字典制作处理>
在文字识别用字典数据库116中,保存多个劣化等级的字典(文字识别用数据库)。如图2所示,各劣化等级的字典是根据使鲜明的文字图像(原始文字图像)以各劣化等级劣化所得的图像而生成。例如,原始文字图像是65×65像素的鲜明的图像。图中,对于一个文字仅示出了一个图像,但实际上,对于一个文字而将多个图像用于字典制作。
以下,对于字典制作处理,参照图3的流程图来进行说明。另外,既可由文字识别装置10自身执行该字典制作处理,也可由其他装置执行该字典制作处理,并将制作而成的字典数据保存到文字识别用字典数据库116中。
在字典制作处理中,首先指定要制作的字典的劣化等级(S10)。此处,假设制作劣化等级0、3、5、7、9、11的字典。步骤S10中的劣化等级的指定顺序可为任意。接下来,指定要制作字典的对象文字(S11)。文字的指定顺序可为任意。
步骤S12中,实施依照所指定的劣化等级来使所指定的文字的原始文字图像发生劣化的转换处理(以下称作劣化处理)(若所指定的劣化等级为0,则不进行任何操作)。如上所述,对于所指定的文字,存在多个原始文字图像,因此对该所有图像实施转换处理。本实施方式中,采用将各像素值置换为周边像素的像素值的平均值(简单平均或加权平均)的模糊处理(模糊附加处理)来作为转换处理。劣化等级对应于模糊处理中的模糊强度。另外,只要是能够对图像附加模糊的处理,则也可采用其他转换处理,例如也可实施缩小处理至与劣化等级相应的尺寸后,实施恢复到原始尺寸的放大处理。
步骤S13中,将实施了劣化处理的各个文字图像转换为规定的标准化尺寸。本实施方式中,通过该标准化而转换为50×50像素的正方形。本实施方式中,原始图像的尺寸大于标准化尺寸,但原始图像的尺寸与标准化尺寸也可相同。文字尺寸的转换处理可通过双线性(bilinear)插值、双三次(bicubic)插值、最近邻(nearest neighbor)插值等已知的任意算法来执行。在文字图像并非正方形而是纵横的长度不同的长方形的情况下,也可在维持纵横比的状态下以使纵横中的任一较长者成为标准化尺寸的方式进行放大或缩小转换,并将其结果配置在图像的中心。此时,对于空白部分的像素的亮度值,也可根据转换结果的文字图像来算出外周像素的亮度值的平均值以进行设定。
步骤S14中,从劣化处理及标准化处理后的各个文字图像中,获取表示文字特征的文字特征量(特征量矢量(vector))。作为获取文字特征的方法,广泛使用有像素特征提取法、轮廓特征提取法、梯度特征提取法等,但也可使用任何文字特征提取方法。例如,也可针对每个像素而以链码(chain code)来表示轮廓线的方向,并将各小区域中的链码的直方图作为文字特征量,还可将每个小区域的像素值的总和作为文字特征量。
步骤S15中,使用通过步骤S14而获取的多个文字特征量,来制作用于识别所指定的文字的字典数据。字典被用于计算所输入的文字(的文字特征量)、与字典视为对象的文字(的文字特征量)的类似度。本申请中,将使用从劣化处理后的文字图像获取的文字特征量而制作的字典称作劣化字典。作为文字识别的方法,可采用局部空间法、神经网络(neural network)、支持向量机(Support Vector Machine,SVM)、判别分析等已知的任意方法,只要根据所采用的方式而通过公知的方法来制作字典即可。
通过至此为止的处理,对于步骤S10中所指定的劣化等级中的、步骤S11中所指定的文字的字典制作完成。步骤S16中,判定在该劣化等级中对于所有文字的字典制作是否已完成,若未完成,则返回至步骤S11,对于未处理的文字制作字典。若在所指定的劣化等级中对于所有文字的字典制作已完成,则前进至步骤S17,判定对于所有劣化等级的字典制作是否已完成。若未完成,则返回至步骤S10来对未处理的劣化等级制作字典。若在所有劣化等级中字典制作已完成,则字典制作处理结束。
<文字识别处理>
图4是表示由文字识别装置10所进行的文字识别处理的整体流程的流程图。在步骤S20中,文字识别装置10经由图像输入部11而从摄像机20获取拍到文字的图像数据。在步骤S21中,文字提取部110从所接受的图像中提取字符串,并从其中进一步提取逐个文字的文字图像。在文字提取处理中,优选的是,实施线性转换以修正文字的倾斜,以提取无倾斜的矩形状文字区域。在步骤S22中,文字识别部111对所抠出的文字与文字识别用字典数据库116中的字典内的各文字进行比对,对所抠出的文字图像中所含的文字进行识别。
参照图5的流程图来说明步骤S22中的文字识别处理的详情。图5所示的流程图的处理是对在步骤S21中提取的文字图像分别执行。而且,此处的说明中,所谓文字图像,是指作为一个文字而提取的区域的图像。
在步骤S220中,劣化度评价部112根据文字图像来算出其劣化度。对于文字图像的劣化度,数值越大,则表示劣化越大。参照图6来说明劣化度的计算方法的一例。图6是表示在步骤S21中所提取的文字图像的图。设文字图像为矩形,且其横向尺寸(像素数)为w,纵向尺寸(像素数)为h。另外,假设在至此为止的处理中实施了修正文字倾斜的处理。但是,假设未实施对图像的尺寸进行转换的处理(放大缩小处理),且设尺寸w及h与输入图像上的大小相同。本实施方式中,如下所述决定劣化度r。
r=R0-max(w,h)
此处,R0是正方形的标准化图像的一边的长度(像素数),本实施方式中为50像素。而且,max是表示最大值的函数。
另外,当max(w,h)大于R0时,劣化度r为零。
本实施方式中的劣化度可以说是对文字图像的大小与标准化后的尺寸相比较而小多少进行评价的参数。另外,只要能够进行此种评价,则也可通过所述以外的方法来决定劣化度。例如,也可不论横向尺寸与纵向尺寸的大小关系如何而将其中任一者与标准化图像尺寸的一边的长度之差设为劣化度。或者,也可将从标准化图像的面积减去文字图像的面积所得的值设为劣化度。但是,通过基于纵向尺寸与横向尺寸中的较大者来决定劣化度,即便是如同数字“1”、字母(alphabet)“l”(l)或中文数字“一”为纵长或横长的文字图像,也能够适当地计算劣化度。
在步骤S221中,利用顺序决定部113基于文字图像的劣化度来决定字典的利用顺序(优先顺位)。利用顺序决定部113预先保存有表1所示的、表示根据文字图像的劣化度应使用何种劣化等级的字典的、文字图像的劣化度与字典的劣化等级的对应关系。利用顺序决定部113根据该对应关系来求出与在步骤S220中算出的劣化度对应的劣化等级,并将所求出的劣化等级的字典决定为最先利用的字典。并且,从跟与所算出的劣化度对应的劣化等级接近的劣化等级的字典开始依次利用,如此决定字典的利用顺序。劣化等级间的差距只要通过适当的測度来定义即可,本实施方式中,将劣化等级(数值)之差作为劣化等级间的差距。此处,若存在多个具有与对应于劣化度的劣化等级为相同近似度的劣化等级的字典,则先利用哪一个皆可,但在本实施方式中,先利用劣化等级低的字典。
表1(说明劣化度与字典的劣化等级的对应表)
劣化度r | 劣化等级 |
r<10 | 0 |
10≦r<20 | 3 |
20≦r<25 | 5 |
25≦r<30 | 7 |
30≦r<35 | 9 |
35≦r<40 | 11 |
利用顺序决定算法
·最先利用与劣化度对应的劣化等级的字典。
·从跟与劣化度对应的劣化等级接近的劣化等级字典开始依次利用。
(若劣化等级的接近程度相同,则以低的劣化等级优先)
例
当劣化度“r=33”时,利用顺序为“9→7→11→5→3→0”。
另外,在文字识别处理中,未必需要使用所有劣化等级的字典。因此,所决定的利用顺序中也可不包含所有劣化等级。例如,与根据文字图像的劣化度所求出的劣化等级之差相距规定值以上的劣化等级的字典也可不用于文字识别。这是因为,若劣化等级之差大,则无法进行准确识别的可能性高。
对表1所示的劣化度与劣化等级的对应关系的制作方法进行简单说明。对应关系例如可事先进行使用测试样本(测试图像)的比对而制作。具体而言,可对各种劣化度(图像尺寸)的测试样本与所有劣化等级的字典一一轮流进行比对,基于比对结果的准确度来求出劣化度与劣化等级的对应关系。即,可将整体上能够最准确地识别某劣化度的测试样本的、字典的劣化等级,决定为与该劣化度对应的劣化等级。而且,对应关系也可在理论上决定。例如,也可根据在制作劣化字典时使原始文字图像进行了何种程度的模糊,来求出劣化度与劣化等级的对应关系。
在步骤S223中,特征量获取部114从文字图像中获取文字特征量。文字特征量的获取处理与字典制作处理时的处理相同,因此省略重复的说明。另外,优选的是,在文字特征量的提取前,对大小、位置、粗度、倾斜等进行标准化,以尽可能消除文字的变动。尤其,在文字图像的大小的标准化处理中,转换成与字典制作时的标准化尺寸(本实施方式中为50×50像素)相同的尺寸。
在步骤S225~步骤S228的处理中,比对部115依照在步骤S221中决定的利用顺序来进行字典与文字的比对,并输出识别结果。首先,在步骤S224中,将1代入变量i。在步骤S225中,使用利用顺序为第i的字典来进行输入文字与字典内的各文字的比对。作为该比对的结果,获得利用顺序为第i的字典内的各文字与输入文字之间的类似度(比对得分)。得到最高的比对得分的文字为输入文字的识别结果。在步骤S226中,比对部115判定所获得的识别结果是否为可靠的结果。具体而言,判定在步骤S225中获得的比对得分是否满足规定条件。作为规定条件,例如可采用:最高的比对得分为规定阈值以上这一条件、或者最高的比对得分与第二高的比对得分之差为规定阈值以上这一条件。当判定为使用第i个字典的识别结果满足此种条件而为可靠的结果时,前进至步骤S228,比对部115将得到最高的比对得分的文字作为输入文字的识别结果而输出。另一方面,若不满足所述条件,则前进至步骤S227,对变量i进行增量(increment),进行使用下个利用顺序的字典的比对。另外,当尽管使用了所有劣化等级的字典来进行比对而仍未获得可靠结果时,既可返回表示无法进行文字识别的意旨的错误(error),也可基于至此为止的比对处理的结果来决定输入文字的识别结果。
参照图7来说明文字比对处理的动作例。此处,假定文字图像的劣化度r为33,因此,劣化字典的利用顺序为劣化等级9、7、11、5、3的顺序。首先,使用利用顺序为第1的劣化等级9的字典来进行文字的比对。图中的劣化文字图像之下所示的数字表示与输入文字的比对得分(满分为100分)。此处,将判定比对结果为可靠的条件设为最高的比对得分为80分以上这一条件。于是,由于在与劣化等级9的字典的比对中最高的比对得分为78分,因此判定为未能进行可靠的识别。然后,进行使用利用顺序为第2的劣化等级7的字典的比对。此时,最高的比对得分为81分,满足所述条件。因此,将得到最高的比对得分的文字“き”作为识别结果而输出。
<有利的效果>
根据本实施方式,在使用多个劣化等级的字典的文字识别处理中,无须与所有劣化等级的字典一一轮流便能够获得文字的识别结果,因此与一一轮流地实施的方法相比,能够实现处理的高速化。此时,作为用于获得最终的文字识别结果的条件,进行了确保比对结果为可靠的判定,因此也能够保证识别处理的精度。进而,由于根据输入文字图像的劣化度来决定要利用的字典的顺序,因此不需要为了获得可靠的结果而进行使用多个劣化等级的字典的比对,只要进行与一个至数个字典的比对,便能够获得可靠的结果。
另外,所述说明中,以文字图像发生了劣化时的处理为中心进行了说明,但本实施方式的文字识别装置能够精度良好且高速地识别未劣化的文字图像。若文字图像未劣化,则将劣化等级0的字典决定为最先使用者,由于可期待使用该字典的识别结果为可靠,因此通过与一个字典的比对处理便能够获得准确的识别结果。
(其他实施方式)
所述实施方式的说明不过是例示性地说明本发明者,本发明并不限定于所述的具体形态。本发明能够在该技术思想的范围内进行各种变形。
所述实施方式的说明中,作为输入文字图像从理想状态发生劣化的原因,举输入文字图像的尺寸小的情况为例进行了说明,但输入文字图像的劣化也可由其他原因产生。例如,也会因模糊、文字的飞白、文字的破损、噪声的重叠等而产生劣化。即使在产生了这些劣化的情况下,借助与所述实施方式同样的方法,也能够精度良好且高速地进行文字识别。以文字的飞白为例进行说明,只要对原始文字图像实施多个强度(劣化等级)的飞白的附加处理,由此分别制作劣化字典,对输入文字图像的飞白程度(劣化度)进行评价,并依照与模糊程度相应的利用顺序来决定字典的比对顺序即可。以噪声的重叠为例进行说明,只要对原始文字图像附加高斯噪声(Gauss ian noise),由此分别制作劣化图像,对输入文字图像的噪声量进行评价,并依照与噪声量相应的利用顺序来决定字典的比对顺序即可。噪声量例如可通过下述方式来求出,所述方式是如国际公开WO2012/173205中所揭示,将由输入文字图像的多个局部区域所算出的标准偏差制作成直方图,算出频率达到峰值时的标准偏差的值。
而且,即使在产生了因多个原因造成的劣化的情况下,也能够精度良好而准确地进行识别。例如,以应对文字尺寸小与文字飞白这两种劣化的情况为例进行说明。首先,对于原始文字图像,实施模糊附加处理及飞白附加处理这两种劣化处理而制作劣化字典。此时,将模糊附加的强度与飞白附加的强度进行多种组合而实施劣化处理,以分别制作劣化字典。然后,只要依照基于输入文字图像的大小及飞白程度而决定的利用顺序来使用劣化字典即可。
所述说明中,对通过通用处理器执行软件程序而提供功能的示例进行了说明,但也可使用专用的硬件(hardware)电路来提供所述功能。
本实施方式的文字识别装置能够安装于桌面(desktop)型计算机、笔记(note)型计算机、平板(slate)型计算机、智能电话终端等任意装置中。而且,所述中说明的文字识别装置的各功能不需要由一个装置来执行,也可由多个装置分担各自的功能来执行。
本发明的文字识别装置能够适用于牌照识别系统。牌照识别系统例如包含设置在竖立于道路路侧的灯杆上的摄像机(摄像装置)与所述中所说明的文字识别装置,摄像机拍摄道路上的车辆的至少一部分,文字识别装置从拍摄图像中提取及识别揭示于车辆的牌照上所描绘的文字。根据此种牌照识别系统,即使在车辆位于远离摄像机的位置而只能获得小的文字图像的情况下,仍能够精度良好且高速地识别安装于车辆的牌照上所描绘的文字。
Claims (9)
1.一种文字识别装置,包括:
存储部件,存储多个字典数据库,所述多个字典数据库是根据使原始文字图像以多个不同的劣化等级劣化而成的图像所生成,且分别对应于多个劣化等级;
图像输入部件,接受图像的输入;
提取部件,从所述图像中提取文字图像;
利用顺序决定部件,基于所提取的文字图像的劣化度,来决定所述多个字典数据库的利用顺序,其中所述利用顺序决定部件预先存储有所述文字图像的劣化度与所述字典数据库的对应关系,使用所述对应关系来决定所述利用顺序,所述利用顺序决定部件根据所述对应关系来求出与所述文字图像的劣化度对应的劣化等级,且将所述利用顺序决定为:将与所求出的劣化等级对应的字典数据库作为最先利用者,并从与跟所求出的劣化等级接近的劣化等级对应的字典数据库开始依次利用;以及
文字识别部件,是按照所述利用顺序来使用字典数据库进行所述所提取的文字图像中所含文字的识别的文字识别部件,且在识别结果不满足规定条件时,进行使用下个利用顺序的字典数据库的文字识别,当识别结果满足所述规定条件时,不进行使用下个利用顺序的字典数据库的识别而输出所述识别结果。
2.根据权利要求1所述的文字识别装置,其中,
所述对应关系是基于使用与所述多个劣化等级对应的所有字典数据库来对多个测试图像进行比对所得的结果而生成。
3.根据权利要求1或2所述的文字识别装置,其中,
所述规定条件包含:使用所述字典数据库的文字识别中的最高的比对得分为规定阈值以上这一条件。
4.根据权利要求1或2所述的文字识别装置,其中,
所述规定条件包含:使用所述字典数据库的文字识别中的最高的比对得分与第二高的比对得分之差为规定阈值以上这一条件。
5.根据权利要求1或2所述的文字识别装置,其中,
所述文字图像的劣化度是基于由所述提取部件所提取的文字图像的大小与标准化处理后的大小相比较而小多少来决定。
6.根据权利要求5所述的文字识别装置,其中,
所述标准化处理中,将文字图像变形为具有规定大小的正方形,
所述文字图像的劣化度是基于从所述正方形的一边的长度减去由所述提取部件所提取的文字图像的纵向尺寸或横向尺寸中的较大者所得的值来决定。
7.根据权利要求1或2所述的文字识别装置,其中,
所述图像包含车辆的至少一部分,
所述提取部件从所述图像中提取揭示于所述车辆的牌照上所描绘的文字来作为所述文字图像。
8.一种文字识别方法,是由计算机来执行,所述计算机存储多个字典数据库,所述多个字典数据库是根据使原始文字图像以多个不同的劣化等级劣化而成的图像所生成,且分别对应于多个劣化等级,所述文字识别方法包括:
图像输入步骤,接受图像的输入;
提取步骤,从所述图像中提取文字图像;
利用顺序决定步骤,基于所提取的文字图像的劣化度,来决定所述多个字典数据库的利用顺序,包括:
根据所述文字图像的劣化度与所述字典数据库的对应关系来求出与所述文字图像的劣化度对应的劣化等级;以及
决定所述利用顺序,以将与所求出的劣化等级对应的字典数据库作为最先利用者,并从与跟所求出的劣化等级接近的劣化等级对应的字典数据库开始依次利用;以及
文字识别步骤,是按照所述利用顺序来使用字典数据库进行所述所提取的文字图像中所含文字的识别的文字识别步骤,且在识别结果不满足规定条件时,进行使用下个利用顺序的字典数据库的文字识别,当识别结果满足所述规定条件时,不进行使用下个利用顺序的字典数据库的识别而输出所述识别结果。
9.一种计算机可读存储介质,其上存储有程序,其用于使计算机执行根据权利要求8所述的方法的各步骤。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014-222944 | 2014-10-31 | ||
JP2014222944A JP6341059B2 (ja) | 2014-10-31 | 2014-10-31 | 文字認識装置、文字認識方法、およびプログラム |
PCT/JP2015/080821 WO2016068325A1 (ja) | 2014-10-31 | 2015-10-30 | 文字認識装置、文字認識方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106663212A CN106663212A (zh) | 2017-05-10 |
CN106663212B true CN106663212B (zh) | 2019-12-24 |
Family
ID=55857658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580039458.0A Active CN106663212B (zh) | 2014-10-31 | 2015-10-30 | 文字识别装置、文字识别方法以及计算机可读存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10049309B2 (zh) |
EP (1) | EP3214580B1 (zh) |
JP (1) | JP6341059B2 (zh) |
CN (1) | CN106663212B (zh) |
WO (1) | WO2016068325A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115646778A (zh) | 2016-08-31 | 2023-01-31 | 唯亚威通讯技术有限公司 | 对磁性可定向薄片进行定向 |
CN110383332B (zh) * | 2017-06-05 | 2023-09-12 | 乐天集团股份有限公司 | 图像处理装置、图像处理方法及图像处理程序 |
CN109784151A (zh) * | 2018-12-10 | 2019-05-21 | 重庆邮电大学 | 一种基于卷积神经网络的脱机手写汉字识别方法 |
CN110544222B (zh) * | 2019-09-05 | 2023-01-03 | 重庆瑞信展览有限公司 | 一种视觉传达图像清晰化处理方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05108886A (ja) * | 1991-10-16 | 1993-04-30 | Nec Eng Ltd | 光学文字読取装置 |
CN100373399C (zh) * | 2004-08-18 | 2008-03-05 | 富士通株式会社 | 建立劣化字典的方法和装置 |
CN101571921A (zh) * | 2008-04-28 | 2009-11-04 | 富士通株式会社 | 关键字识别方法和装置 |
CN101882219A (zh) * | 2009-05-08 | 2010-11-10 | 财团法人工业技术研究院 | 图像辨识以及输出方法及其系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08241378A (ja) * | 1995-03-03 | 1996-09-17 | Fuji Electric Co Ltd | 低品質文字の認識方法 |
JP3277792B2 (ja) * | 1996-01-31 | 2002-04-22 | 株式会社日立製作所 | データ圧縮方法および装置 |
JP3466449B2 (ja) * | 1997-12-12 | 2003-11-10 | 日本電信電話株式会社 | パターン認識方法および装置とパターン認識方法をコンピュータに実行させるためのプログラムを記録した記録媒体 |
JP4264332B2 (ja) * | 2003-11-19 | 2009-05-13 | 三菱重工業株式会社 | 文字認識装置、ナンバープレート認識システム |
CN100409251C (zh) * | 2005-08-26 | 2008-08-06 | 富士通株式会社 | 用于退化文字行的字符识别装置和方法 |
CN101359373B (zh) * | 2007-08-03 | 2011-01-12 | 富士通株式会社 | 退化字符的识别方法和装置 |
US8761540B2 (en) | 2011-06-14 | 2014-06-24 | Kabushiki Kaisha Toshiba | Method and system for estimating noise level |
US9002066B2 (en) * | 2013-05-06 | 2015-04-07 | Xerox Corporation | Methods, systems and processor-readable media for designing a license plate overlay decal having infrared annotation marks |
WO2015022771A1 (ja) * | 2013-08-15 | 2015-02-19 | 日本電気株式会社 | 画像処理を実行する情報処理装置及び画像処理方法 |
-
2014
- 2014-10-31 JP JP2014222944A patent/JP6341059B2/ja active Active
-
2015
- 2015-10-30 EP EP15855057.4A patent/EP3214580B1/en active Active
- 2015-10-30 WO PCT/JP2015/080821 patent/WO2016068325A1/ja active Application Filing
- 2015-10-30 CN CN201580039458.0A patent/CN106663212B/zh active Active
- 2015-10-30 US US15/327,381 patent/US10049309B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05108886A (ja) * | 1991-10-16 | 1993-04-30 | Nec Eng Ltd | 光学文字読取装置 |
CN100373399C (zh) * | 2004-08-18 | 2008-03-05 | 富士通株式会社 | 建立劣化字典的方法和装置 |
CN101571921A (zh) * | 2008-04-28 | 2009-11-04 | 富士通株式会社 | 关键字识别方法和装置 |
CN101882219A (zh) * | 2009-05-08 | 2010-11-10 | 财团法人工业技术研究院 | 图像辨识以及输出方法及其系统 |
Non-Patent Citations (1)
Title |
---|
character recognition in bookshelf images by automatic template selection;SAWAKI M ET AL;《FOURTEENTH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION》;19980816;第2卷;第1117-1120页 * |
Also Published As
Publication number | Publication date |
---|---|
JP6341059B2 (ja) | 2018-06-13 |
EP3214580A4 (en) | 2018-06-27 |
CN106663212A (zh) | 2017-05-10 |
WO2016068325A1 (ja) | 2016-05-06 |
US10049309B2 (en) | 2018-08-14 |
EP3214580A1 (en) | 2017-09-06 |
JP2016091186A (ja) | 2016-05-23 |
EP3214580B1 (en) | 2022-09-28 |
US20170277982A1 (en) | 2017-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10762376B2 (en) | Method and apparatus for detecting text | |
CN108229299B (zh) | 证件的识别方法和装置、电子设备、计算机存储介质 | |
US8170340B2 (en) | Device, method and computer program for identifying a traffic sign in an image | |
US8867828B2 (en) | Text region detection system and method | |
US20210224567A1 (en) | Deep learning based license plate identification method, device, equipment, and storage medium | |
US8873856B1 (en) | Determining a class associated with an image | |
CN110942074B (zh) | 字符切分识别方法、装置、电子设备、存储介质 | |
CN110717497B (zh) | 图像相似度匹配方法、装置及计算机可读存储介质 | |
CN106663212B (zh) | 文字识别装置、文字识别方法以及计算机可读存储介质 | |
CN110738203B (zh) | 字段结构化输出方法、装置及计算机可读存储介质 | |
CN107977658B (zh) | 图像文字区域的识别方法、电视机和可读存储介质 | |
CN106326895B (zh) | 图像处理装置和图像处理方法 | |
US10025976B1 (en) | Data normalization for handwriting recognition | |
CN110942004A (zh) | 基于神经网络模型的手写识别方法、装置及电子设备 | |
US20230196805A1 (en) | Character detection method and apparatus , model training method and apparatus, device and storage medium | |
CN105551044A (zh) | 一种图片对比方法和装置 | |
US10115036B2 (en) | Determining the direction of rows of text | |
CN112419275B (zh) | 图像质量确定方法、装置及系统 | |
Chattopadhyay et al. | On the enhancement and binarization of mobile captured Vehicle Identification Number for an embedded solution | |
CN116030472A (zh) | 文字坐标确定方法及装置 | |
CN115798004A (zh) | 基于局部区域的人脸打卡方法、装置、电子设备及介质 | |
CN113780294B (zh) | 文本字符分割的方法和装置 | |
CN112784737B (zh) | 结合像素分割和线段锚的文本检测方法、系统及装置 | |
JP5439069B2 (ja) | 文字認識装置及び文字認識方法 | |
CN115063826A (zh) | 一种基于深度学习的移动端驾驶证识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |