CN107977659A - 一种文字识别方法、装置及电子设备 - Google Patents
一种文字识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN107977659A CN107977659A CN201610942164.5A CN201610942164A CN107977659A CN 107977659 A CN107977659 A CN 107977659A CN 201610942164 A CN201610942164 A CN 201610942164A CN 107977659 A CN107977659 A CN 107977659A
- Authority
- CN
- China
- Prior art keywords
- word
- feature
- target image
- pixel
- connected component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种文字识别方法、装置及电子设备,该方法包括:对待识别图像进行预处理,获得仅包含文字的目标图像;提取所述目标图像中的文字;针对提取到的每个文字,获得所述每个文字的连通特征;针对所述每个文字,分别提取构成文字的所有像素点中各行的横坐标及纵坐标的最大和最小的像素点,构成所述每个文字的轮廓特征;根据已建立的字模库,以及所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行识别。通过上述技术方案,实现了对不规则文字的准确识别,提高了文字识别能力。
Description
技术领域
本发明涉及软件技术领域,特别涉及一种文字识别方法、装置及电子设备。
背景技术
目前,国内主流文字识别软件主要应用于影印类书籍、基本证件照片识别,主要能够识别宋体、楷体、黑体等一些常用字体,很少用于识别不规则的文字,例如验证码、变形文字图片等,且对拉长、缩短或旋转等的汉字识别能力弱。
国外一些主流的文字自动识别软件,如GSA Captcha Breaker,对英文识别效果要高于国内OCR(Optical Character Recognition,光学字符识别)识别软件,但不支持汉字的识别。因为汉字是一种特殊的模式,其特点是字数多,字形复杂,有的字形十分相似,印刷体汉字又有多种字体(仿宋、宋、黑、楷书等)和多种大小不同的字号,再加上变形、拉长、旋转等操作,更难以被准确识别。
可见,如何提供一种能够准确识别不规则文字已经成了当前亟需解决的技术问题。
发明内容
本发明实施例提供一种文字识别方法、装置及电子设备,用于实现对不规则的文字进行准确识别,提高文字识别能力。
本申请实施例提供一种文字识别方法,包括以下步骤:
对待识别图像进行预处理,获得仅包含文字的目标图像;
提取所述目标图像中的文字;
针对提取到的每个文字,获得所述每个文字的连通特征;
针对所述每个文字,分别提取构成文字的所有像素点中各行横坐标及各列纵坐标的最大和最小的像素点,构成所述每个文字的轮廓特征;
根据已建立的字模库,以及所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行识别。
可选的,根据所述每个文字的所述连通特征和所述轮廓特征,在已建立的字模库中,对所述每个文字进行识别。
可选的,所述提取所述目标图像中的文字,包括:
根据所述目标图像中文字的分隔条件,获得所述每个文字所在的第一区域;
在所述第一区域中,获得表征文字的像素点横坐标及纵坐标的最大和最小的顶点坐标点
提取由所述顶点坐标点构成的矩形区域中的所有像素点组成的图像作为所述第一区域中的文字。
可选的,所述根据所述目标图像中文字的分隔条件,获得所述每个文字所在的第一区域,包括:
获得所述目标图像中至少一列全为背景像素点的分割线;
根据所述目标图像左右两侧背景的背景宽度,获得所述目标图像中所有文字所在的第二区域;
在所述第二区域中,根据文字最小宽度以及所述分割线,获得所述每个文字所在的第一区域。
可选的,所述针对提取到的每个文字,获得所述每个文字的连通特征,包括:
获得所述每个文字中各表征文字的连续像素点构成的连通部分,及所述连通部分的属性信息;
将所有的所述连通部分和所述连通部分的属性信息作为所述连通特征。
可选的,所述连通部分的属性信息包括以下至少一种信息:各连通部分的相对位置信息,各连通部分的像素点数,各连通部分包含的笔画,以及各连通部分的边缘梯度值。
可选的,当所述文字为汉字时,所述各连通部分包含的笔画通过如下方法获得:
基于表征文字的像素点构成的直线的方向角度,获得笔画:横、竖;
基于表征文字的像素点拟合成的直线的方向角度和长度,获得笔画:、撇、捺、折、点。
可选的,所述根据已建立的字模库、所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行识别,包括:
根据已建立的字模库、所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行模式识别。
可选的,所述根据已建立的字模库、所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行识别,包括:
获得构成所述轮廓特征的像素点的图像梯度值;
根据已建立的字模库、所述每个文字的所述连通特征、所述轮廓特征及所述图像梯度值,对所述每个文字进行识别。
可选的,所述方法还包括:
若已建立的字模库中不存在与所述连通特征和所述轮廓特征匹配的文字,将所述连通特征和所述轮廓特征及其所构成的文字添加到所述字模库中。
本申请实施例还提供一种文字识别装置,所述装置包括:
预处理模块,用于对待识别图像进行预处理,获得仅包含文字的目标图像;
第一提取模块,用于提取所述目标图像中的文字;
第二提取模块,用于针对提取到的每个文字,获得所述每个文字的连通特征;
第三提取模块,用于针对所述每个文字,分别提取构成文字的所有像素点中各行横坐标及各列纵坐标的最大和最小的像素点,构成所述每个文字的轮廓特征;
识别模块,用于根据已建立的字模库,以及所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行识别。
可选的,所述第一提取模块具体用于:
根据所述目标图像中文字的分隔条件,获得所述每个文字所在的第一区域;在所述第一区域中,获得表征文字的像素点横坐标及纵坐标的最大和最小的顶点坐标点提取由所述顶点坐标点构成的矩形区域中的所有像素点组成的图像作为所述第一区域中的文字。
可选的,所述第一提取模块在根据所述目标图像中文字的分隔条件,获得所述每个文字所在的第一区域时,具体用于:
获得所述目标图像中至少一列全为背景像素点的分割线;根据所述目标图像左右两侧背景的背景宽度,获得所述目标图像中所有文字所在的第二区域;在所述第二区域中,根据文字最小宽度以及所述分割线,获得所述每个文字所在的第一区域。
可选的,所述第二提取模块具体用于:
获得所述每个文字中各表征文字的连续像素点构成的连通部分,及所述连通部分的属性信息;将所有的所述连通部分和所述连通部分的属性信息作为所述连通特征。
可选的,所述连通部分的属性信息包括以下至少一种信息:各连通部分的相对位置信息,各连通部分的像素点数,各连通部分包含的笔画,以及各连通部分的边缘梯度值。
可选的,所述第二提取模块包括:笔画提取单元,用于当所述文字为汉字时,通过如下方法获得所述各连通部分包含的笔画:
基于表征文字的像素点构成的直线的方向角度,获得笔画:横、竖;
基于表征文字的像素点拟合成的直线的方向角度和长度,获得笔画:、撇、捺、折、点。
可选的,所述识别模块用于:根据已建立的字模库、所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行模式识别。
可选的,所述识别模块还用于:获得构成所述轮廓特征的像素点的图像梯度值;根据已建立的字模库、所述每个文字的所述连通特征、所述轮廓特征及所述图像梯度值,对所述每个文字进行识别。
可选的,所述装置还包括:更新模块,用于在已建立的字模库中不存在与所述连通特征和所述轮廓特征匹配的文字时,将所述连通特征和所述轮廓特征及其所构成的文字添加到所述字模库中。
本申请实施例还提供一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对待识别图像进行预处理,获得仅包含文字的目标图像;
提取所述目标图像中的文字;
针对提取到的每个文字,获得所述每个文字的连通特征;
针对所述每个文字,分别提取构成文字的所有像素点中各行横坐标及各列纵坐标的最大和最小的像素点,构成所述每个文字的轮廓特征;
根据已建立的字模库,以及所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行识别。
本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果:
本申请实施例通过对待识别图像进行预处理,获得仅包含文字的目标图像;提取所述目标图像中的文字;针对提取到的每个文字,获得所述每个文字的连通特征;针对所述每个文字,分别提取构成文字的所有像素点中横坐标、纵坐标最大和最小的像素点,构成所述每个文字的轮廓特征;根据已建立的字模库、所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行识别,由于文字的连通特征和轮廓特征并不会因为拉伸、旋转等变化操作而发送改变,实现了对变化多端的文字进行准确识别,提高了文字识别能力。
附图说明
图1为本申请实施例提供的一种文字识别方法的流程图;
图2为本申请实施例提供的一种文字识别装置的示意图;
图3为本申请实施例提供的一种用于实现文字识别的电子设备的示意图。
具体实施方式
在本申请实施例提供的技术方案中,通过提取文字的连通特征和轮廓特征,根据建立的字模库进行一一比对来进行文字识别,以实现对变化多端的文字进行准确识别,提高文字识别能力。
下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
实施例一
请参考图1,本申请实施例提供一种文字识别方法,应用于汉字、英文、日文等文字的识别,该方法包括:
S101:对待识别图像进行预处理,获得仅包含文字的目标图像;
S102:提取所述目标图像中的文字;
S103:针对提取到的每个文字,获得所述每个文字的连通特征;
S104:针对所述每个文字,分别提取构成文字的所有像素点中各行横坐标及各列纵坐标的最大和最小的像素点,构成所述每个文字的轮廓特征;
S105:根据已建立的字模库,以及所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行识别。
在具体实施过程中,本申请实施例在进行文字识别之前,首先建立字模库,字模库的建立过程与文字识别的过程前四步S101~S104均相同。下面以进行文字识别过程为例进行详细说明。
S101对待识别图像进行预处理,获得仅包含文字的目标图像时,预处理可以包括以下一个及以上的步骤:
步骤11、将待识别图像如验证码图像转为二进制流形式;
步骤12、背景色区域识别:对转换后的待识别图像进行背景识别,并将背景色区域与前景色区域进行区分,如将前景色的像素点设置为1,背景色的像素点设置为0,形成0、1的二进值格式。
步骤13、去除噪声:可以使用8邻域连通法,有效地去除图像上的孤立点;也可以使用高斯滤波离散化,使孤立的噪点与背景色的灰度值进行高斯离散处理后消失;还可以利用图像亮度特征去噪声。
步骤14、去干扰线:①细干扰线处理:使用TV(Total Variation,整体变分)模型算法消除细干扰线。TV模型算法利用图像梯度结合拉格朗日方程,使干扰线与周边色彩相融合。②粗干扰线处理:提取干扰线(如验证码中干扰线颜色相同且连续,容易识别)并去除,再使用hough变换(Hough变换是一种使用表决原理的参数估计技术)对汉字线段进行直线预测,广义hough变换对汉字线段进行曲线预测,修复去除干扰线后导致汉字缺失部分。
需要说明的是,步骤13去除噪声和步骤14去干扰线,也可以采用其它方法进行,本申请并不限制具体采用何种方法来去除噪声和干扰线。
在通过S101获得仅包含文字的目标图像后,进一步执行S102提取目标图像中的文字。具体可以通过如下步骤提取目标图像中的文字:
步骤21、根据目标图像中文字的分隔条件,获得所述每个文字所在的第一区域。通常情况下,电子设备上显示的文字都有一个最小宽度,并且,文字与文字之间都有一定间隙即分割线,为此,文字的分隔条件可以包含文字的最小宽度和文字之间的分割线。在根据文字的条件获得每个文字所在的第一区域时,可以先获得目标图像中至少一列全为背景像素点的分割线;根据目标图像左右两侧背景的背景宽度,获得目标图像中所有文字所在的第二区域;在第二区域中,根据文字最小宽度以及分割线,获得每个文字所在的第一区域。
以汉字为例,假设每个汉字的最小宽度为20列像素点,待识别图像为包含“神任背唱”的验证码图像,经过预处理后获得的目标图像为仅包含“神任背唱”及背景像素点的图像,其中汉字的像素点用1表示,背景像素点用0表示。在获得每个文字所在的第一区域时,先获得目标图像中是找一列全为背景像素点的分割线,即获得至少一列全为0的像素点,此时,由于图像左右两侧通常均为背景,图像左右两侧会出现连续多列的全为0的像素点,进一步根据左右两侧连续多列全为0的像素点即目标图像左右两侧背景的背景宽度,获得不包含左右两侧连续多列全为0的背景像素点区域即第二区域,然后,在第二区域中,检测出三条分割线及分割线两侧的包含1的像素点列数均大于20,那么获得第一条分割线之前的区域为“神”所在的第一区域,第一条分割线与第二条分割线之间的区域为“任”所在的区域,第二条分割线与第三条分割线宅男的区域为“背”所在的区域,第三条分割线之后的区域为“唱”所在的区域。
步骤21、在所述第一区域中,获得表征文字的像素点坐标中横坐标最大、横坐标最小、纵坐标最大及纵坐标最小的顶点坐标点。
步骤23、提取由上述4个顶点坐标点构成的矩形区域中的所有像素点组成的图像作为所述第一区域中的文字。
通过上述步骤获得目标图像中的文字后,执行S103针对提取到的每个文字,获得每个文字的连通特征。其中,文字的连通特征包括:文字的连通部分和各连通部分的属性信息。
具体的,以汉字为例,获得每个文字中各表征文字的连续像素点构成的连通部分,可以在每个文字所在的第一区域,提取具有相邻的表征文字的文字像素点(即表征文字的连续像素点),如:若表征文字的像素点为1,那么获得具有相邻1的文字像素点1,所有的具有相邻文字像素点的像素点就构成了文字的一个连通部分,如:对于“神”字,“、”、和“申”为该字的三个连通部分。进一步的,获得每个连通部分的属性信息,包括以下至少一种信息:各连通部分的相对位置信息;各连通部分的像素点数;各连通部分包含的笔画,以及各连通部分的边缘梯度值。
其中,针对于汉字,各连通部分包含的笔画可以通过hough变换算法和/或广义hough变换算法来分析获得。具体的,由于文字轮廓的像素点是连续的,由此可以获得边缘的走向及角度,通过结合hough变换算法,可验证出直线的方向、角度和长度,从而识别出横、竖、撇、捺、折、点;通过结合广义hough变换算法可以对曲线进行验证,可验证出弯勾、撇(大角度)、捺(大角度)。从而确定笔画。
在具体实施过程中,提取汉字画时按照以下顺序:①横、竖线提取;②撇、捺、点提取;③弯勾提取,能够更准确的提取到各个笔画。
①横、竖线提取:
由于横、竖在图形中以直线表示,使用hough变换算法提取。
Hough变换通常采用直线模型为ρ=xcosθ+ysinθ,将影像空间的直线映射到参数空间中。在图像处理中,图像的像素坐标点P(x,y)是已知的,而ρ,θ则是我们要寻找的变量。根据像素点坐标P(x,y)值绘制对应的(ρ,θ)值,那么就从图像笛卡尔坐标系统转换到极坐标霍夫空间系统。当霍夫变换算法开始,每个像素坐标点P(x,y)被转换到(ρ,θ)的曲线点上面,并记录转换到(ρ,θ)的点的数量,当一个波峰出现时候,说明直线存在即横、竖存在。再根据θ的值判断出横、竖。
②撇、捺、点提取:
由于撇和捺是一条接近直线的曲线,直接使用hough不容易提取。使用最小二乘法,将撇,捺这样的曲线像素点,拟合成一条直线。
对撇,捺、点所在曲线上的点(x,y)进行线性拟合,得到的直线为y=kx+b,根据最小二乘求出k、b的公式为:
在完成提取汉字的横、竖部分后,对剩余各联通部分做最小二乘法拟合成直线。通过直线的斜率k,来识别是撇、捺和点。连通部分的各像素点到拟合直线的距离一般不超过3个像素。
③弯勾提取:
判断方法为:在一条连续的曲线上,存在某点有切线并且在该点与相邻点的二阶微分值符号相反(曲线走向发生变化,例如原本往下的走向,现在变为斜上),再通过该相邻两点切线斜率之间的关系(斜率发生很大变化)来确定该曲线为弯勾,最后使用广义霍夫变换来提取图像中弯钩的像素点。
在执行S103的同时,可以执行步骤S104,S103和S104之间执行顺序不分先后。S104针对提取的每个文字,分别提取构成文字的像素点中各行的横坐标最大和横坐标最小的像素点,以及各列的纵坐标最大和纵坐标最小的像素点,构成每个文字的轮廓特征,例如:针对汉字的像素坐标点在X、Y轴的各行列,提取其最大和最小值像素点坐标,提取的一系列像素点坐标是连续的,从而可以构成汉字的轮廓。相对于使用递归实现汉字轮廓的提取,本申请实施例采用最大、最小像素点的提取
进一步的,本申请实施例还可以获得轮廓特征的图像梯度值。图像梯度值的具体计算,可采用Robot、Sobel算子,这里以简明的2*2的算子为例,算得x与y方向上轮廓特征的像素点的梯度:
GX(x,y)≈[S(x,y+1)-S(x,y)+S(x+1,y+1)-S(x+1,y)]/2
Gy(x,y)≈[S(x,y)-S(x+1,y)+S(x,y+1)-S(x+1,y+1)]/2
其中,GX(x,y)表示在x方向上像素点的梯度,Gy(x,y)表示在y方向上像素点的梯度,S(x,y)表示在(x,y)坐标的图像像素RGB值。
根据x与y方向的梯度可以计算出图像梯度值G(x,y):
角度为:
θ(x,y)=arctan(Gy(x,y)/GX(x,y))
同样的,上述各连通部分的边沿梯度也可以采用该方法进行计算。
在建立字模库时,执行完S101~S104后,将提取到的各个文字及其连通特征(包括各连通部分、各连通部分的属性信息)、轮廓特征、轮廓特征的图像梯度值等信息建立文字属性和正确文字的映射关系,并存入数据库中。当然,在建立字模库时,需要经过大量的文字图像及多次的特征提取来进行训练。
在进行文字识别时,执行完S101~S104后,执行S105根据每个文字的连通特征和轮廓特征,在已建立的字模库中对每个文字进行识别。进一步的,还可以获得构成所述轮廓特征的像素点的图像梯度值;根据已建立的字模库、每个文字的连通特征、轮廓特征及图像梯度值,对每个文字进行识别。其中,进行文字识别时采用模式识别,包括:一一对比和近似对比。在已建立的字模库中,采取一一比对,即每一个特征均相同时,表示比对成功,获得所有相同特征对应的文字作为识别结果,反之识别失败。采取近似比对,即每个特征之间的差异小于预设范围,表示比对成功,获得所有近似特征对应的文字作为识别结果,反之识别失败。通过模式识别能够有效的提高识别结果的精确度。
在识别失败时,即在已建立的字模库中不存在与获得的连通特征和轮廓特征匹配的文字,即字模库中不存在该连通特征和轮廓特征所构成的字,此时,将该连通特征和轮廓特征及其所构成的文字添加到字模库中,以不断的更新已建立的字模库。当然,为了增加文字识别的准确性,在将新字添加到自摸库中时,除了存储该文字及其连通特征和轮廓特征外,还可以将该文字的轮廓特征的图像梯度值也一并存储到该文字下。
上述实施例中,基于文字本身的特征(包括:连通特征、轮廓特征、梯度值等),而不是基于特定字体,来进行文字识别,并且精确到了像素点的分析,尤其针对汉字,已经深度剖析了构成文字的各个笔画,各连通部分的相对位置关系等,能够有效地解决不同汉字型体的识别,提高了汉字识别的精准度。
请参考图2,基于上述提供的一种文字识别方法,本申请实施例还对应提供一种文字识别装置,该装置包括:
预处理模块201,用于对待识别图像进行预处理,获得仅包含文字的目标图像;
第一提取模块202,用于提取所述目标图像中的文字;
第二提取模块203,用于针对提取到的每个文字,获得所述每个文字的连通特征;
第三提取模块204,用于针对所述每个文字,分别提取构成文字的所有像素点中各行横坐标及各列纵坐标的最大和最小的像素点,构成所述每个文字的轮廓特征;
识别模块205,用于根据已建立的字模库,以及所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行识别。
在具体实施过程中的,所述第一提取模块202具体用于:
根据所述目标图像中文字的分隔条件,获得所述每个文字所在的第一区域;在所述第一区域中,获得表征文字的像素点横坐标及纵坐标的最大和最小的顶点坐标点提取由所述顶点坐标点构成的矩形区域中的所有像素点组成的图像作为所述第一区域中的文字。
其中,所述第一提取模块202在根据所述目标图像中文字的分隔条件,获得所述每个文字所在的第一区域时,具体可以:获得所述目标图像中至少一列全为背景像素点的分割线;根据所述目标图像左右两侧背景的背景宽度,获得所述目标图像中所有文字所在的第二区域;在所述第二区域中,根据文字最小宽度以及所述分割线,获得所述每个文字所在的第一区域。
所述第二提取模块203具体用于:获得所述每个文字中各表征文字的连续像素点构成的连通部分,及所述连通部分的属性信息;将所有的所述连通部分和所述连通部分的属性信息作为所述连通特征。其中,所述连通部分的属性信息包括以下至少一种信息:各连通部分的相对位置信息,各连通部分的像素点数,各连通部分包含的笔画,以及各连通部分的边缘梯度值。
进一步的,所述第二提取模块203包括:笔画提取单元,用于当所述文字为汉字时,通过如下方法获得所述各连通部分包含的笔画:
基于表征文字的像素点构成的直线的方向角度,获得笔画:横、竖;
基于表征文字的像素点拟合成的直线的方向角度和长度,获得笔画:、撇、捺、折、点。
在具体实施过程中的,所述识别模块205用于:根据已建立的字模库、所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行模式识别。
进一步的,为了提高文字识别的准确性,所述识别模块205还用于:获得构成所述轮廓特征的像素点的图像梯度值;根据已建立的字模库、所述每个文字的所述连通特征、所述轮廓特征及所述图像梯度值,对所述每个文字进行识别。
在具体实施过程中,本申请实施例提供的文字识别装置还包括:更新模块,用于在已建立的字模库中不存在与所述连通特征和所述轮廓特征匹配的文字时,将所述连通特征和所述轮廓特征及其所构成的文字添加到所述字模库中。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3是根据一示例性实施例示出的一种用于实现文字识别方法的电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种文字识别方法,对待识别图像进行预处理,获得仅包含文字的目标图像;提取所述目标图像中的文字;针对提取到的每个文字,获得所述每个文字的连通特征;针对所述每个文字,分别提取构成文字的所有像素点中各行横坐标及各列纵坐标的最大和最小的像素点,构成所述每个文字的轮廓特征;根据已建立的字模库、所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行识别。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种文字识别方法,其特征在于,包括:
对待识别图像进行预处理,获得仅包含文字的目标图像;
提取所述目标图像中的文字;
针对提取到的每个文字,获得所述每个文字的连通特征;
针对所述每个文字,分别提取构成文字的所有像素点中各行横坐标及各列纵坐标的最大和最小的像素点,构成所述每个文字的轮廓特征;
根据已建立的字模库,以及所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行识别。
2.如权利要求1所述的方法,其特征在于,所述提取所述目标图像中的文字,包括:
根据所述目标图像中文字的分隔条件,获得所述每个文字所在的第一区域;
在所述第一区域中,获得表征文字的像素点横坐标及纵坐标的最大和最小的顶点坐标点
提取由所述顶点坐标点构成的矩形区域中的所有像素点组成的图像作为所述第一区域中的文字。
3.如权利要求2所述的方法,其特征在于,所述根据所述目标图像中文字的分隔条件,获得所述每个文字所在的第一区域,包括:
获得所述目标图像中至少一列全为背景像素点的分割线;
根据所述目标图像左右两侧背景的背景宽度,获得所述目标图像中所有文字所在的第二区域;
在所述第二区域中,根据文字最小宽度以及所述分割线,获得所述每个文字所在的第一区域。
4.如权利要求1所述的方法,其特征在于,所述针对提取到的每个文字,获得所述每个文字的连通特征,包括:
获得所述每个文字中各表征文字的连续像素点构成的连通部分,及所述连通部分的属性信息;
将所有的所述连通部分和所述连通部分的属性信息作为所述连通特征。
5.如权利要求4所述的方法,其特征在于,所述连通部分的属性信息包括以下至少一种信息:各连通部分的相对位置信息,各连通部分的像素点数,各连通部分包含的笔画,以及各连通部分的边缘梯度值。
6.如权利要求5所述的方法,其特征在于,当所述文字为汉字时,所述各连通部分包含的笔画通过如下方法获得:
基于表征文字的像素点构成的直线的方向角度,获得笔画:横、竖;
基于表征文字的像素点拟合成的直线的方向角度和长度,获得笔画:、撇、捺、折、点。
7.如权利要求1~6任一所述的方法,其特征在于,所述根据已建立的字模库,以及所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行识别,包括:
根据已建立的字模库,以及所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行模式识别。
8.如权利要求1~6任一所述的方法,其特征在于,所述根据已建立的字模库,以及所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行识别,包括:
获得构成所述轮廓特征的像素点的图像梯度值;
根据已建立的字模库、所述每个文字的所述连通特征、所述轮廓特征及所述图像梯度值,对所述每个文字进行识别。
9.如权利要求1~6任一所述的方法,其特征在于,所述方法还包括:
若已建立的字模库中不存在与所述连通特征和所述轮廓特征匹配的文字,将所述连通特征和所述轮廓特征及其所构成的文字添加到所述字模库中。
10.一种文字识别装置,其特征在于,所述装置包括:
预处理模块,用于对待识别图像进行预处理,获得仅包含文字的目标图像;
第一提取模块,用于提取所述目标图像中的文字;
第二提取模块,用于针对提取到的每个文字,获得所述每个文字的连通特征;
第三提取模块,用于针对所述每个文字,分别提取构成文字的所有像素点中各行横坐标及各列纵坐标的最大和最小的像素点,构成所述每个文字的轮廓特征;
识别模块,用于根据已建立的字模库,以及所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行识别。
11.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对待识别图像进行预处理,获得仅包含文字的目标图像;
提取所述目标图像中的文字;
针对提取到的每个文字,获得所述每个文字的连通特征;
针对所述每个文字,分别提取构成文字的所有像素点中各行横坐标及各列纵坐标的最大和最小的像素点,构成所述每个文字的轮廓特征;
根据已建立的字模库,以及所述每个文字的所述连通特征和所述轮廓特征,对所述每个文字进行识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610942164.5A CN107977659B (zh) | 2016-10-25 | 2016-10-25 | 一种文字识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610942164.5A CN107977659B (zh) | 2016-10-25 | 2016-10-25 | 一种文字识别方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107977659A true CN107977659A (zh) | 2018-05-01 |
CN107977659B CN107977659B (zh) | 2021-03-16 |
Family
ID=62004180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610942164.5A Active CN107977659B (zh) | 2016-10-25 | 2016-10-25 | 一种文字识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107977659B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165652A (zh) * | 2018-07-19 | 2019-01-08 | 江苏黄金屋教育发展股份有限公司 | 基于标记的试卷阅卷方法 |
CN109803076A (zh) * | 2019-01-21 | 2019-05-24 | 刘善成 | 一种内河水上交通卡口船舶图像抓拍及船名识别的方法 |
CN109948604A (zh) * | 2019-02-01 | 2019-06-28 | 北京捷通华声科技股份有限公司 | 不规则排列文本的识别方法、装置、电子设备及存储介质 |
CN110163203A (zh) * | 2019-04-09 | 2019-08-23 | 浙江口碑网络技术有限公司 | 字符识别方法、装置、存储介质及计算机设备 |
CN110427938A (zh) * | 2019-07-26 | 2019-11-08 | 中科视语(北京)科技有限公司 | 一种基于深度学习的不规则文字识别装置和方法 |
CN110503102A (zh) * | 2019-08-27 | 2019-11-26 | 上海眼控科技股份有限公司 | 车辆识别码检测方法、装置、计算机设备和存储介质 |
CN111340078A (zh) * | 2020-02-18 | 2020-06-26 | 平安科技(深圳)有限公司 | 证件信息自动归类的方法、装置、介质及电子设备 |
CN111597956A (zh) * | 2020-05-12 | 2020-08-28 | 四川久远银海软件股份有限公司 | 基于深度学习模型和相对方位标定的图片文字识别方法 |
CN112101346A (zh) * | 2020-08-27 | 2020-12-18 | 南方医科大学南方医院 | 一种基于目标检测的验证码识别方法及装置 |
CN112329769A (zh) * | 2020-10-27 | 2021-02-05 | 广汽本田汽车有限公司 | 一种车辆铭牌识别方法、装置、计算机设备及存储介质 |
CN113610866A (zh) * | 2021-07-28 | 2021-11-05 | 上海墨说科教设备有限公司 | 练字图像的裁剪方法、装置、设备和存储介质 |
CN115620302A (zh) * | 2022-11-22 | 2023-01-17 | 山东捷瑞数字科技股份有限公司 | 一种图片字体识别方法、系统、电子设备及存储介质 |
CN115841670A (zh) * | 2023-02-13 | 2023-03-24 | 福建鹿鸣教育科技有限公司 | 一种基于图像识别的作业错题收集系统 |
CN117275013A (zh) * | 2023-08-25 | 2023-12-22 | 安徽以观文化科技有限公司 | 移动终端上汉字笔画书写识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07160824A (ja) * | 1993-10-15 | 1995-06-23 | Nippon Digital Kenkyusho:Kk | 文字認識装置 |
CN101515325A (zh) * | 2009-04-08 | 2009-08-26 | 北京邮电大学 | 基于字符切分和颜色聚类的数字视频中的字符提取方法 |
CN104361336A (zh) * | 2014-11-26 | 2015-02-18 | 河海大学 | 一种水下视频图像的文字识别方法 |
CN105468732A (zh) * | 2015-11-23 | 2016-04-06 | 中国科学院信息工程研究所 | 一种图像关键词检查方法及装置 |
-
2016
- 2016-10-25 CN CN201610942164.5A patent/CN107977659B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07160824A (ja) * | 1993-10-15 | 1995-06-23 | Nippon Digital Kenkyusho:Kk | 文字認識装置 |
CN101515325A (zh) * | 2009-04-08 | 2009-08-26 | 北京邮电大学 | 基于字符切分和颜色聚类的数字视频中的字符提取方法 |
CN104361336A (zh) * | 2014-11-26 | 2015-02-18 | 河海大学 | 一种水下视频图像的文字识别方法 |
CN105468732A (zh) * | 2015-11-23 | 2016-04-06 | 中国科学院信息工程研究所 | 一种图像关键词检查方法及装置 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165652A (zh) * | 2018-07-19 | 2019-01-08 | 江苏黄金屋教育发展股份有限公司 | 基于标记的试卷阅卷方法 |
CN109803076A (zh) * | 2019-01-21 | 2019-05-24 | 刘善成 | 一种内河水上交通卡口船舶图像抓拍及船名识别的方法 |
CN109948604A (zh) * | 2019-02-01 | 2019-06-28 | 北京捷通华声科技股份有限公司 | 不规则排列文本的识别方法、装置、电子设备及存储介质 |
CN110163203B (zh) * | 2019-04-09 | 2021-08-24 | 浙江口碑网络技术有限公司 | 字符识别方法、装置、存储介质及计算机设备 |
CN110163203A (zh) * | 2019-04-09 | 2019-08-23 | 浙江口碑网络技术有限公司 | 字符识别方法、装置、存储介质及计算机设备 |
CN110427938A (zh) * | 2019-07-26 | 2019-11-08 | 中科视语(北京)科技有限公司 | 一种基于深度学习的不规则文字识别装置和方法 |
CN110503102A (zh) * | 2019-08-27 | 2019-11-26 | 上海眼控科技股份有限公司 | 车辆识别码检测方法、装置、计算机设备和存储介质 |
CN111340078A (zh) * | 2020-02-18 | 2020-06-26 | 平安科技(深圳)有限公司 | 证件信息自动归类的方法、装置、介质及电子设备 |
CN111340078B (zh) * | 2020-02-18 | 2024-03-01 | 平安科技(深圳)有限公司 | 证件信息自动归类的方法、装置、介质及电子设备 |
CN111597956A (zh) * | 2020-05-12 | 2020-08-28 | 四川久远银海软件股份有限公司 | 基于深度学习模型和相对方位标定的图片文字识别方法 |
CN112101346A (zh) * | 2020-08-27 | 2020-12-18 | 南方医科大学南方医院 | 一种基于目标检测的验证码识别方法及装置 |
CN112329769A (zh) * | 2020-10-27 | 2021-02-05 | 广汽本田汽车有限公司 | 一种车辆铭牌识别方法、装置、计算机设备及存储介质 |
CN113610866A (zh) * | 2021-07-28 | 2021-11-05 | 上海墨说科教设备有限公司 | 练字图像的裁剪方法、装置、设备和存储介质 |
CN113610866B (zh) * | 2021-07-28 | 2024-04-23 | 上海墨说科教设备有限公司 | 练字图像的裁剪方法、装置、设备和存储介质 |
CN115620302A (zh) * | 2022-11-22 | 2023-01-17 | 山东捷瑞数字科技股份有限公司 | 一种图片字体识别方法、系统、电子设备及存储介质 |
CN115620302B (zh) * | 2022-11-22 | 2023-12-01 | 山东捷瑞数字科技股份有限公司 | 一种图片字体识别方法、系统、电子设备及存储介质 |
CN115841670A (zh) * | 2023-02-13 | 2023-03-24 | 福建鹿鸣教育科技有限公司 | 一种基于图像识别的作业错题收集系统 |
CN117275013A (zh) * | 2023-08-25 | 2023-12-22 | 安徽以观文化科技有限公司 | 移动终端上汉字笔画书写识别方法 |
CN117275013B (zh) * | 2023-08-25 | 2024-05-14 | 安徽以观文化科技有限公司 | 移动终端上汉字笔画书写识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107977659B (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107977659A (zh) | 一种文字识别方法、装置及电子设备 | |
CN105550633B (zh) | 区域识别方法及装置 | |
EP3163504B1 (en) | Method, device and computer-readable medium for region extraction | |
JP6392468B2 (ja) | 領域認識方法及び装置 | |
US20170124386A1 (en) | Method, device and computer-readable medium for region recognition | |
TWI684886B (zh) | 安全問題的生成以及身份驗證的方法及裝置 | |
CN109684980B (zh) | 自动阅卷方法及装置 | |
EP3547218B1 (en) | File processing device and method, and graphical user interface | |
US20170124719A1 (en) | Method, device and computer-readable medium for region recognition | |
CN105528600A (zh) | 区域识别方法及装置 | |
US20130328773A1 (en) | Camera-based information input method and terminal | |
CN107169493A (zh) | 信息识别方法及装置 | |
CN112418214B (zh) | 一种车辆识别码识别方法、装置、电子设备及存储介质 | |
CN109753883A (zh) | 视频定位方法、装置、存储介质和电子设备 | |
CN110276418A (zh) | 基于图片的字体识别方法、装置、电子设备及存储介质 | |
CN104899588B (zh) | 识别图像中的字符的方法及装置 | |
CN112989299A (zh) | 一种交互式身份识别方法、系统、设备及介质 | |
CN106126087A (zh) | 一种基于具有触摸屏的智能终端的显示图片方法和装置 | |
CN106504223B (zh) | 图片的参考角度判定方法及装置 | |
CN117234405A (zh) | 信息输入方法以及装置、电子设备及存储介质 | |
KR101427820B1 (ko) | 드로잉 방식 이미지 기반 captcha 제공 시스템 및 captcha 제공 방법 | |
CN113392263A (zh) | 一种数据标注方法及装置、电子设备和存储介质 | |
CN111079662A (zh) | 一种人物识别方法、装置、机器可读介质及设备 | |
CN113012029B (zh) | 一种曲面图像的矫正方法、装置及电子设备 | |
CN104238811A (zh) | 字符识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |