CN113963353A - 一种文字图像处理识别方法、装置、计算机设备和存储介质 - Google Patents

一种文字图像处理识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113963353A
CN113963353A CN202010632182.XA CN202010632182A CN113963353A CN 113963353 A CN113963353 A CN 113963353A CN 202010632182 A CN202010632182 A CN 202010632182A CN 113963353 A CN113963353 A CN 113963353A
Authority
CN
China
Prior art keywords
character
picture
image
characters
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010632182.XA
Other languages
English (en)
Inventor
康李巍
李宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Cloud Computing Co Ltd
Original Assignee
Suning Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Cloud Computing Co Ltd filed Critical Suning Cloud Computing Co Ltd
Priority to CN202010632182.XA priority Critical patent/CN113963353A/zh
Publication of CN113963353A publication Critical patent/CN113963353A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本申请涉及一种文字图像处理识别方法、装置、计算机设备和存储介质。方法包括:生成文字图像,读取文字图像,预处理文字图像;对处理后的文字图像进行图像切分,形成单一文字图片;提取单一文字图片的文字特征,文字特征包括统计特征和结构特征;结合统计特征和结构特征,计算文字匹配度,识别单一文字图片对应的模板文字。本发明对待识别图像进行的特殊的预处理算法,有效提取出图像中的所有单个字符并切分成单个图像,从而降低特征提取算法的难度,并能提高文字识别的精度。

Description

一种文字图像处理识别方法、装置、计算机设备和存储介质
技术领域
本申请涉及文字识别技术领域,特别是涉及一种文字图像处理识别方法、装置、计算机设备和存储介质。
背景技术
汉字是由笔画组成的文字、且笔画复杂多样,相对于由字母组成的英文图像识别的难度要大得多。而企业办公自动化的主要业务场景之一就是借助计算机来处理各式各样的文字以替代重复的线下手工办公活动,随着手写体汉字识别的能力在办公自动化过程中显得日益重要,企业非常迫切地需要针对手写体汉字识别精度高、速度快的算法。
手写体汉字由于字形变化太大,而汉字图像识别的实质是根据方块汉字的图形提取出特征后再做模式匹配,所以字形的变化对识别效率有非常大的影响。针对本发明中待处理的手写体汉字使用目前业界主流的汉字图像识别服务供应商API对大数据量样本测试后发现识别率均不到20%,因识别率太低而无法应用于企业业务系统。。
发明内容
本发明旨在解决如何文字图像识别的问题。基于此,有必要针对上述技术问题,提供一种能够过前期预处理将图像中的单个文字切分出来,然后再提取出每个文字的特征,根据文字特征做模式匹配从而准确分析出单个图像对应的文字图像处理识别方法、装置、计算机设备和存储介质。
一种文字图像处理识别方法,所述方法包括:
生成文字图像,读取所述文字图像,预处理所述文字图像;
对处理后的文字图像进行图像切分,形成单一文字图片;
提取所述单一文字图片的文字特征,所述文字特征包括统计特征和结构特征;
结合所述统计特征和结构特征,计算文字匹配度,识别所述单一文字图片对应的模板文字。
在其中一个实施例,所述预处理所述文字图像,包括:
二值化处理所述文字图像,得到文字图片;
计算所述文字图片中所有文字的平均高度和平均宽度,所述平均高度通过所述文字图片的图片像素在垂直y轴方向的投影计算得到,所述平均宽度通过所述文字图片的图片像素在水平x轴方向的投影以及预输入的文字数据计算得到;
遍历所述文字图片的噪声部位的所有像素,根据预设过滤条件对所述文字图片去噪,所述过滤条件包括:所述噪声部位的有效面积的大小、所述噪声部位的有效高度或有效宽度与所述平均高度或所述平均宽度的差异、所述噪声部位有效像素的占比和/或所述噪声部位是否包含复杂笔画。
在其中一个实施例,所二值化处理所述文字图像,得到文字图片,包括:
识别所述文字图像的文字色和背景色,设定阈值,遍历所述文字图像的每一个像素,若该像素的RGB三原色均小于所述阈值,则置为黑色,否则置为白色,得到文字图片,所述文字图片为黑白图片。
在其中一个实施例,所述对处理后的文字图像进行图像切分,形成单一文字图片,包括,
获取所述黑白图片,加载所述黑白图片为像素矩阵;
第一次扫描,从所述像素矩阵最左侧的第一个像素点开始,从左至右逐列遍历,每一列沿垂直方向从上至下遍历,确定第一个黑色像素点为第一边缘点,结束所述第一次扫描,所述第一边缘点所在列为左边缘;
第二次扫描,从所述第一边缘点开始,在所述第一边缘点所在行沿水平方向向右遍历,连续遍历白色像素点的数量超过预定阈值或到达所述像素矩阵的最右侧,确定最后一个白色像素点为第二边缘点,结束所述第二次扫描,以所述第一边缘点和第二边缘点之间的距离为单一文字图片的宽度,并标记所述第一边缘点和第二边缘点所在行,所述第二边缘点所在列为右边缘;
第三次扫描,从所述标记行开始,逐行向上遍历每一行的有效像素,连续遍历不含有效像素的空白行的数量超过预定阈值或到达所述像素矩阵的最上侧,结束所述第三次扫描,遍历的最后一行为上边缘;
第四次扫描,从所述标记行开始,逐行向下遍历每一行的有效像素,连续遍历不含有效像素的空白行的数量超过预定阈值或到达所述像素矩阵的最下侧,结束所述第四次扫描,遍历的最后一行为下边缘;
根据所述左边缘、右边缘、上边缘以及下边缘,切分出所述文字,形成单一文字图片,并将所述像素矩阵中切分所述文字的位置全部置为白色像素点;
判断是否将所有文字均形成单一文字图片,若是,则结束切分过程,若否,则重复第一次至第四次扫描过程,直到将所有文字均形成单一文字图片。
在其中一个实施例,所述提取所述单一文字图片的文字特征,所述文字特征包括统计特征和结构特征,具体为,提取所述单一文字图片的统计特征和结构特征,所述统计特征是通过将所述文字切分成四个象限时,各象限内的黑/白像素点数量比联合后形成的空间的一个数值向量;所述结构特征是通过将所述文字的较粗的笔画细化成单一的细线后,取得所述文字的笔划端点和交叉点的数量、位置、以及笔划段;所述统计特征和结构特征是识别所述文字的两个维度依据。
在其中一个实施例,所述结合所述统计特征和结构特征,计算文字匹配度,识别所述单一文字图片对应的模板文字,包括:
对所述统计特征和结构特征分别赋予权重;
加载所述单一文字图片的待识别文字和文字模板库中所有模板文字的所述统计特征和结构特征;
将所述待识别文字与所述文字模板库中的所有模板文字逐一对比,计算所述待识别文字与每个所述模板文字的所述统计特征的第一匹匹配值,以及所述待识别文字与每个所述模板文字的所述结构特征的第二匹配值;
计算所述第一匹配值和所述第二匹配值之和为文字匹配度,所述和越小,所述文字匹配度越高,排序所述文字匹配度;
确定最高所述文字匹配度对应的模板文字为待识别文字,完成对所述单一文字图片的识别。
在其中一个实施例,通过文字中心沿水平方向和垂直方向切分得到的象限计算所述第一匹配值,计算方法为,
Figure BDA0002566031200000041
其中,n表示切分象限的数目4,xi表示所述待识别文字的第i个象限的有效像素占比,yi表示所述模板文字的第i个象限的有效像素占比;
通过文字笔画的有效长度和位置计算所述第二匹配值,所述文字笔画包括横、竖、撇、捺4类,计算方法为,
Figure BDA0002566031200000042
其中,m表示笔画分类的数目4,sj表示所述待识别文字的第j笔画的有效长度,tj表示所述模板文字的第j类笔画的有效长度,pj表示所述待识别文字的第j类笔画的起始坐标相对左上角的距离,qj表示所述模板文字的第j类笔画的起始坐标相对左上角的距离。
一种文字图像处理识别装置,所述装置包括:
处理单元,用于生成文字图像,读取所述文字图像,预处理所述文字图像;
切分单元,用于对处理后的文字图像进行图像切分,形成单一文字图片;
提取单元,用于提取所述单一文字图片的文字特征,所述文字特征包括统计特征和结构特征;
识别单元,用于结合所述统计特征和结构特征,计算文字匹配度,识别所述单一文字图片对应的模板文字。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求 1至7中任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
上述文字图像处理识别方法、装置、计算机设备和存储介质,对待识别图像进行的特殊的预处理算法,有效提取出图像中的所有单个字符并切分成单个图像,从而降低特征提取算法的难度,并能提高文字识别的精度。
附图说明
图1为一个实施例中一种文字图像处理识别方法的流程示意图;
图2为一个实施例中一种文字图像处理识别方法的切分流程示意图;
图3为一个实施例中一种文字图像处理识别方法的识别流程示意图;
图4为一个实施例中一种文字图像处理识别方法的预处理示意图;
图5为一个实施例中一种文字图像处理识别方法的切分文件示意图;
图6为一个实施例中一种文字图像处理识别方法的预处理示意图;
图7为一个实施例中一种文字图像处理识别方法的统计特征示意图;
图8为一个实施例中一种文字图像处理识别装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的一种文字图像处理识别方法,可以解决手写体汉字图像识别的问题,在一个实施例中,如图1所示,包括以下步骤:
S100,生成文字图像,读取文字图像,预处理文字图像。
在本实施例中,是一个图像读取步骤,接收手写体输入的数据,生成汉字图像文件,根据图像文件的路径读取图像文件到计算机内存中,并对汉字的文字图像进行预处理。
在一个实施例中,预处理主要包括二值化编码和图像去噪,进一步包括,二值化处理文字图像,得到文字图片。
具体地,由于彩色图像所含信息量过于巨大,在对图像中位置随机的生成的手写体汉字字符进行识别处理前,需要对图像先进行黑白二值化编码处理,即根据不同的图像特征制定不同的二值化编码策略。图像中手写体汉字为黑色、而背景色为彩色图片时,识别文字图像的文字色和背景色,设定阈值,遍历文字图像的每一个像素,若该像素的RGB三原色均小于阈值,则置为黑色,否则置为白色,得到文字图片,文字图片为黑白图片。通过二值化处理的文字图像,只包含黑色的前景信息和白色的背景信息,可以提升识别处理的效率和精确度。
对二值化处理后的文字图片进行图像去噪。
具体地,由于待识别的文字图像的品质受限于输入设备和环境,在对图像中手写体汉字字符进行识别处理前,需要根据噪声的特征对待识别图像进行去噪处理。噪声的表现形式是杂线或噪点,其具体特征为范围小、且像素连续性简单,即不会存在汉字的复杂笔画结构。因此,先计算文字图片中所有文字的平均高度和平均宽度,平均高度通过文字图片的图片像素在垂直y轴方向的投影计算得到,平均宽度通过文字图片的图片像素在水平x轴方向的投影以及预输入的文字数据计算得到。然后遍历文字图片的噪声部位的所有像素,根据预设过滤条件对文字图片去噪,过滤条件包括:噪声部位的有效面积的大小、噪声部位的有效高度或有效宽度与平均高度或平均宽度的差异、噪声部位有效像素的占比和/或噪声部位是否包含复杂笔画。其中,通过判断其有效面积是否过小可以有效的过滤噪点),通过是否包含复杂的笔画,可以有效过滤杂线,提升识别处理的精确度。
预处理后的文字图像如图4所示。
S200,对处理后的文字图像进行图像切分,形成单一文字图片。
在本实施例中,由于通过二值化处理后文字图片为黑白图片,在黑白图片中的字符均是黑色,虽然位置随机,但是通过如十字光栅遍历算法遍历整张黑白图片,具体地,十字光栅遍历算法为:从二值化处理后的黑白图片的左上角开始逐列遍历到第一个汉字的边缘,从此边缘点向右遍历,结合先前计算出的所有汉字平均宽度并以一定阈值遍历到此汉字的右侧边缘,再以此横向线段分别向上、向下试探出该汉字的上下边缘。将第一个汉字遍历出来后,再重复此逻辑依次遍历出图片中所有的汉字,找到所有的单个手写体汉字字符,并切割成单个的图片,供下一步提取文字特征。
在一实施例中,步骤S200,如图2所示,包括:获取黑白图片,加载二值化后的黑白图片为像素矩阵。
第一次扫描,从像素矩阵最左侧的第一个像素点开始,从左至右逐列遍历,每一列沿垂直方向从上至下遍历,确定第一个黑色像素点为第一边缘点,结束第一次扫描,第一边缘点所在列为左边缘。
进一步地,第二次扫描,从第一边缘点开始,在第一边缘点所在行沿水平方向向右遍历,连续遍历白色像素点的数量超过预定阈值或到达像素矩阵的最右侧,确定最后一个白色像素点为第二边缘点,结束第二次扫描,以第一边缘点和第二边缘点之间的距离为单一文字图片的宽度,并标记第一边缘点和第二边缘点所在行,第二边缘点所在列为右边缘。
进一步地,第三次扫描,从标记行开始,逐行向上遍历每一行的有效像素,连续遍历不含有效像素的空白行的数量超过预定阈值或到达像素矩阵的最上侧,结束第三次扫描,遍历的最后一行为上边缘。
进一步地,第四次扫描,从标记行开始,逐行向下遍历每一行的有效像素,连续遍历不含有效像素的空白行的数量超过预定阈值或到达像素矩阵的最下侧,结束第四次扫描,遍历的最后一行为下边缘。
根据左边缘、右边缘、上边缘以及下边缘,切分出文字,形成单一文字图片,并将像素矩阵中切分文字的位置全部置为白色像素点。
判断是否将所有文字均形成单一文字图片,若是,则结束切分过程,若否,则重复第一次至第四次扫描过程,直到将所有文字均形成单一文字图片。
经过步骤S200切分后的单一文字图片文件如图5所示。
在一个实施例中,第二次扫描得到的右边缘并不是最终的右边缘,当第二次扫描过程中右边缘是通过连续遍历白色像素点的数量超过预定阈值时确定的,则在从标记行逐行扫描至该上边缘的过程中,如果发现该字符的宽度变大,超过了第二次扫描中第二边缘点所在列,相应调整宽度变大处所在行的最后一个白色像素点为新第二边缘点,新第二边缘点所在列为第一变化右边缘。在第三次扫描过程中,第一变化右边缘可以是不断被替换的,该替换过程只能是第一变化右边缘所在列向右移动。当第一变化右边缘是像素矩阵的最右侧列时,则确定该第一变化右边缘为最终右边缘。
当第三次扫描过程中确定的第一变化右边缘不是像素矩阵的最右侧列时,则在从标记行逐行扫描至该下边缘的过程中,如果发现该字符的宽度变大,超过了第三次扫描确定的第一变化右边缘,相应调整宽度变大处所在行的最后一个白色像素点为新第二边缘点,新第二边缘点所在列为第二变化右边缘。同样的,在第四次扫描过程中,第二变化右边缘也可以是不断被替换的,该替换过程同样只能是第二变化右边缘所在列向右移动,直到该第二变化右边缘是像素矩阵的最右侧列。
最终确定该第二变化右边缘为该实施例中的最终右边缘。
S300,提取单一文字图片的文字特征,文字特征包括统计特征和结构特征。
文字特征提取对识别率有着重要的影响,在本实施例中,采用了统计特征和结构特征这两个维度作为识别的依据,而现有的汉字识别技术往往只使用统计特征或者结构特征中的一个维度作为特征提取的对象,比如基于支持向量机算法的识别技术主要使用统计特征,而一些人工智能领域的视觉识别则主要使用结构特征来识别。
具体地,提取单一文字图片的统计特征和结构特征,统计特征是通过将文字切分成四个象限时,类似于田字格,各象限内的黑/白像素点数量比联合后形成的空间的一个数值向量;结构特征是通过将文字的较粗的笔画细化成单一的细线后,即,文字影像细线化,取得文字的笔划端点和交叉点的数量、位置、以及笔划段等作为特征。具体地,二值化后的图像中的汉字的笔画按横、竖、撇、捺4类做了粗笔画经过细线化后的效果,比如“授信管理”的“授”字,其提手旁的左侧竖钩笔画的中间部分原来是粗的,经过细线化后,只保留了白色的单像素列如图6所示,文字影像细线化后的统计特征如图7所示。
S400,结合统计特征和结构特征,计算文字匹配度,识别单一文字图片对应的模板文字。
在本实施例中通过步骤S300中提取了文字的统计特征和结构特征,对这两个维度分别赋予权重后,综合统计特征和结构特征各占的权重,匹配出文字匹配度最高的模板汉字,即得出本算法识别后的文字。
在一实施例中,步骤S400,如图3所示,包括:对统计特征和结构特征分别赋予权重,优选地,统计特征和结构特征各占50%的权重。
加载单一文字图片的待识别文字和文字模板库中所有模板文字的统计特征和结构特征。
将待识别文字与文字模板库中的所有模板文字逐一对比,计算待识别文字与每个模板文字的统计特征的第一匹匹配值,以及待识别文字与每个模板文字的结构特征的第二匹配值。
具体地,对于统计特征的数值向量,在比对时使用特定的求方差算术平方根的数学算式来加工对比,通过文字中心沿水平方向和垂直方向切分得到的象限计算第一匹配值,计算方法为,
Figure BDA0002566031200000091
其中,n表示切分象限的数目4,xi表示待识别文字的第i个象限的有效像素占比,yi表示模板文字的第i个象限的有效像素占比;
对于结构特征,配合特定的比对方法将之与模板库中的字体逐个进行对比,对比的思路为每个汉字共4类笔画:横、竖、撇、捺的有效长度和位置与模板汉字的差值绝对值求和,通过文字笔画的有效长度和位置计算第二匹配值,文字笔画包括横、竖、撇、捺4类,计算方法为,
Figure BDA0002566031200000101
其中,m表示笔画分类的数目4,sj表示待识别文字的第j笔画的有效长度,tj表示模板文字的第j类笔画的有效长度,pj表示待识别文字的第j类笔画的起始坐标相对左上角的距离,qj表示模板文字的第j类笔画的起始坐标相对左上角的距离。
计算第一匹配值和第二匹配值之和为文字匹配度,和越小,文字匹配度越高,排序文字匹配度。优选地,综合统计特征和结构特征各占50%的权重配出上述两个公式求和。
确定最高文字匹配度对应的模板文字为待识别文字,完成对单一文字图片的识别,即得出基于本方法识别后的文字。
在采用市面上绝大多数类似的文字识别产品对本发明中要识别的特定手写体汉字识别的效果都不尽如人意,如通过10,000份的样本测试后,只有35%左右的识别率,而本发明对相同的被测样本可以做到90%以上的识别率。此外,对于字符切分算法,大多数已知的技术都只能对有规律的、或者固定排版格式的影像进行字符切分,而本发明针对影像中位置随机的汉字字符能够精准切分,通过10,000份的样本测试后,切分的正确率达到 90%以上。
应该理解的是,虽然流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,附图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种文字图像处理识别装置,包括:处理单元100、切分单元200、提取单元300和识别单元400。其中:
处理单元100,用于生成文字图像,读取文字图像,预处理文字图像。
切分单元200,用于对处理后的文字图像进行图像切分,形成单一文字图片。
提取单元300,用于提取单一文字图片的文字特征,文字特征包括统计特征和结构特征;
识别单元400,用于结合统计特征和结构特征,计算文字匹配度,识别单一文字图片对应的模板文字。
在一个实施例中,处理单元100,还包括:
二值化组件,用于二值化处理文字图像,得到文字图片。具体地,识别文字图像的文字色和背景色,设定阈值,遍历文字图像的每一个像素,若该像素的RGB三原色均小于阈值,则置为黑色,否则置为白色,得到文字图片,文字图片为黑白图片
去噪组件,用于计算文字图片中所有文字的平均高度和平均宽度,平均高度通过文字图片的图片像素在垂直y轴方向的投影计算得到,平均宽度通过文字图片的图片像素在水平x轴方向的投影以及预输入的文字数据计算得到;遍历文字图片的噪声部位的所有像素,根据预设过滤条件对文字图片去噪,过滤条件包括:噪声部位的有效面积的大小、噪声部位的有效高度或有效宽度与平均高度或平均宽度的差异、噪声部位有效像素的占比和/或噪声部位是否包含复杂笔画。
在一个实施例中,切分单元200,包括,
加载组件,用于获取黑白图片,加载黑白图片为像素矩阵。
第一扫描组件,用于第一次扫描,从像素矩阵最左侧的第一个像素点开始,从左至右逐列遍历,每一列沿垂直方向从上至下遍历,确定第一个黑色像素点为第一边缘点,结束第一次扫描,第一边缘点所在列为左边缘。
第二扫描组件,用于第二次扫描,从第一边缘点开始,在第一边缘点所在行沿水平方向向右遍历,连续遍历白色像素点的数量超过预定阈值或到达像素矩阵的最右侧,确定最后一个白色像素点为第二边缘点,结束第二次扫描,以第一边缘点和第二边缘点之间的距离为单一文字图片的字符的宽度,并标记第一边缘点和第二边缘点所在行,第二边缘点所在列为右边缘。
第三扫描组件,用于第三次扫描,从标记行开始,逐行向上遍历每一行的有效像素,连续遍历不含有效像素的空白行的数量超过预定阈值或到达像素矩阵的最上侧,结束第三次扫描,遍历的最后一行为上边缘。
第四扫描组件,用于第四次扫描,从标记行开始,逐行向下遍历每一行的有效像素,连续遍历不含有效像素的空白行的数量超过预定阈值或到达像素矩阵的最下侧,结束第四次扫描,遍历的最后一行为下边缘。
切分组件,用于根据左边缘、右边缘、上边缘以及下边缘,切分出文字,形成单一文字图片,并将像素矩阵中切分文字的位置全部置为白色像素点。
判断组件,用于判断是否将所有文字均形成单一文字图片,若是,则结束切分过程,若否,则重复第一次至第四次扫描过程,直到将所有文字均形成单一文字图片。
在一个实施例中,识别组件400,包括:
权重组件,用于对统计特征和结构特征分别赋予权重。
加载组件,用于加载单一文字图片的待识别文字和文字模板库中所有模板文字的统计特征和结构特征。
计算组件,用于将待识别文字与文字模板库中的所有模板文字逐一对比,计算待识别文字与每个模板文字的统计特征的第一匹匹配值,以及待识别文字与每个模板文字的结构特征的第二匹配值。
计算组件,用于计算第一匹配值和第二匹配值之和为文字匹配度,和越小,文字匹配度越高,排序文字匹配度。
匹配组件,用于确定最高文字匹配度对应的模板文字为待识别文字,完成对单一文字图片的识别。
上述文字图像处理识别装置,通过互信鉴权机制,需要实现特定的手写体汉字识别的业务系统接入SDK,采用调用编程接口的方式,自动完成指定字符图像的读入、二值化、噪点去除、字符切分、特征提取和比对识别,业务系统与SDK交互取出最后给出的识别结果即可回到业务系统的逻辑处理,提升工作效率。
关于文字图像处理识别装置的具体限定可以参见上文中对于文字图像处理识别方法的限定,在此不再赘述。上述短信匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是数据管理服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的数据源终端通过网络连接通信,以接收数据源终端上传的数据。该计算机程序被处理器执行时以实现文字图像处理识别方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述文字图像处理识别方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM) 或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本发明的文字图像处理识别方法、装置、计算设备及存储介质,通过提出一种包含汉字的预处理、特征提取和模式识别的算法和技术,使得原有的企业业务系统无需针对本发明的技术方案进行改造处理,只需要在相应的文字识别处理模块调用该方案提供的编程接口即可。另外,本方案可作为一个组件服务,为手写体汉字识别提供统一的服务,是一种通用的技术组件。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种文字图像处理识别方法,其特征在于,所述方法包括:
生成文字图像,读取所述文字图像,预处理所述文字图像;
对处理后的文字图像进行图像切分,形成单一文字图片;
提取所述单一文字图片的文字特征,所述文字特征包括统计特征和结构特征;
结合所述统计特征和结构特征,计算文字匹配度,识别所述单一文字图片对应的模板文字。
2.根据权利要求1所述的方法,其特征在于,所述预处理所述文字图像,包括:
二值化处理所述文字图像,得到文字图片;
计算所述文字图片中所有文字的平均高度和平均宽度,所述平均高度通过所述文字图片的图片像素在垂直y轴方向的投影计算得到,所述平均宽度通过所述文字图片的图片像素在水平x轴方向的投影以及预输入的文字数据计算得到;
遍历所述文字图片的噪声部位的所有像素,根据预设过滤条件对所述文字图片去噪,所述过滤条件包括:所述噪声部位的有效面积的大小、所述噪声部位的有效高度或有效宽度与所述平均高度或所述平均宽度的差异、所述噪声部位有效像素的占比和/或所述噪声部位是否包含复杂笔画。
3.根据权利要求2所述的方法,其特征在于,所二值化处理所述文字图像,得到文字图片,包括:
识别所述文字图像的文字色和背景色,设定阈值,遍历所述文字图像的每一个像素,若该像素的RGB三原色均小于所述阈值,则置为黑色,否则置为白色,得到文字图片,所述文字图片为黑白图片。
4.根据权利要求3所述的方法,其特征在于,所述对处理后的文字图像进行图像切分,形成单一文字图片,包括,
获取所述黑白图片,加载所述黑白图片为像素矩阵;
第一次扫描,从所述像素矩阵最左侧的第一个像素点开始,从左至右逐列遍历,每一列沿垂直方向从上至下遍历,确定第一个黑色像素点为第一边缘点,结束所述第一次扫描,所述第一边缘点所在列为左边缘;
第二次扫描,从所述第一边缘点开始,在所述第一边缘点所在行沿水平方向向右遍历,连续遍历白色像素点的数量超过预定阈值或到达所述像素矩阵的最右侧,确定最后一个白色像素点为第二边缘点,结束所述第二次扫描,以所述第一边缘点和第二边缘点之间的距离为单一文字图片的宽度,并标记所述第一边缘点和第二边缘点所在行,所述第二边缘点所在列为右边缘;
第三次扫描,从所述标记行开始,逐行向上遍历每一行的有效像素,连续遍历不含有效像素的空白行的数量超过预定阈值或到达所述像素矩阵的最上侧,结束所述第三次扫描,遍历的最后一行为上边缘;
第四次扫描,从所述标记行开始,逐行向下遍历每一行的有效像素,连续遍历不含有效像素的空白行的数量超过预定阈值或到达所述像素矩阵的最下侧,结束所述第四次扫描,遍历的最后一行为下边缘;
根据所述左边缘、右边缘、上边缘以及下边缘,切分出所述文字,形成单一文字图片,并将所述像素矩阵中切分所述文字的位置全部置为白色像素点;
判断是否将所有文字均形成单一文字图片,若是,则结束切分过程,若否,则重复第一次至第四次扫描过程,直到将所有文字均形成单一文字图片。
5.根据权利要求4所述的方法,其特征在于,所述提取所述单一文字图片的文字特征,所述文字特征包括统计特征和结构特征,具体为,提取所述单一文字图片的统计特征和结构特征,所述统计特征是通过将所述文字切分成四个象限时,各象限内的黑/白像素点数量比联合后形成的空间的一个数值向量;所述结构特征是通过将所述文字的较粗的笔画细化成单一的细线后,取得所述文字的笔划端点和交叉点的数量、位置、以及笔划段;所述统计特征和结构特征是识别所述文字的两个维度依据。
6.根据权利要求5所述的方法,其特征在于,所述结合所述统计特征和结构特征,计算文字匹配度,识别所述单一文字图片对应的模板文字,包括:
对所述统计特征和结构特征分别赋予权重;
加载所述单一文字图片的待识别文字和文字模板库中所有模板文字的所述统计特征和结构特征;
将所述待识别文字与所述文字模板库中的所有模板文字逐一对比,计算所述待识别文字与每个所述模板文字的所述统计特征的第一匹匹配值,以及所述待识别文字与每个所述模板文字的所述结构特征的第二匹配值;
计算所述第一匹配值和所述第二匹配值之和为文字匹配度,所述和越小,所述文字匹配度越高,排序所述文字匹配度;
确定最高所述文字匹配度对应的模板文字为待识别文字,完成对所述单一文字图片的识别。
7.根据权利要求6所述的方法,其特征在于,通过文字中心沿水平方向和垂直方向切分得到的象限计算所述第一匹配值,计算方法为,
Figure FDA0002566031190000031
其中,n表示切分象限的数目4,xi表示所述待识别文字的第i个象限的有效像素占比,yi表示所述模板文字的第i个象限的有效像素占比;
通过文字笔画的有效长度和位置计算所述第二匹配值,所述文字笔画包括横、竖、撇、捺4类,计算方法为,
Figure FDA0002566031190000032
其中,m表示笔画分类的数目4,sj表示所述待识别文字的第j笔画的有效长度,tj表示所述模板文字的第j类笔画的有效长度,pj表示所述待识别文字的第j类笔画的起始坐标相对左上角的距离,qj表示所述模板文字的第j类笔画的起始坐标相对左上角的距离。
8.一种文字图像处理识别装置,其特征在于,所述装置包括:
处理单元,用于生成文字图像,读取所述文字图像,预处理所述文字图像;
切分单元,用于对处理后的文字图像进行图像切分,形成单一文字图片;
提取单元,用于提取所述单一文字图片的文字特征,所述文字特征包括统计特征和结构特征;
识别单元,用于结合所述统计特征和结构特征,计算文字匹配度,识别所述单一文字图片对应的模板文字。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010632182.XA 2020-07-02 2020-07-02 一种文字图像处理识别方法、装置、计算机设备和存储介质 Pending CN113963353A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010632182.XA CN113963353A (zh) 2020-07-02 2020-07-02 一种文字图像处理识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010632182.XA CN113963353A (zh) 2020-07-02 2020-07-02 一种文字图像处理识别方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN113963353A true CN113963353A (zh) 2022-01-21

Family

ID=79459337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010632182.XA Pending CN113963353A (zh) 2020-07-02 2020-07-02 一种文字图像处理识别方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113963353A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115599384A (zh) * 2022-12-14 2023-01-13 深圳市明源云科技有限公司(Cn) 图片文字生成方法、装置、设备及其存储介质
CN116320467A (zh) * 2023-05-19 2023-06-23 山东中科冶金矿山机械有限公司 一种地质勘查数据压缩存储方法
CN117011855A (zh) * 2023-10-08 2023-11-07 深圳市豪斯莱科技有限公司 一种字符串图像切割识别方法、系统和可读存储介质
CN118172777A (zh) * 2024-05-16 2024-06-11 成都航空职业技术学院 一种基于图像处理的互动虚拟教具实现方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115599384A (zh) * 2022-12-14 2023-01-13 深圳市明源云科技有限公司(Cn) 图片文字生成方法、装置、设备及其存储介质
CN116320467A (zh) * 2023-05-19 2023-06-23 山东中科冶金矿山机械有限公司 一种地质勘查数据压缩存储方法
CN116320467B (zh) * 2023-05-19 2023-07-25 山东中科冶金矿山机械有限公司 一种地质勘查数据压缩存储方法
CN117011855A (zh) * 2023-10-08 2023-11-07 深圳市豪斯莱科技有限公司 一种字符串图像切割识别方法、系统和可读存储介质
CN118172777A (zh) * 2024-05-16 2024-06-11 成都航空职业技术学院 一种基于图像处理的互动虚拟教具实现方法

Similar Documents

Publication Publication Date Title
CN110516208B (zh) 一种针对pdf文档表格提取的系统及方法
US10803338B2 (en) Method and device for recognizing the character area in a image
CN110110799B (zh) 细胞分类方法、装置、计算机设备和存储介质
CN113963353A (zh) 一种文字图像处理识别方法、装置、计算机设备和存储介质
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN110390666B (zh) 道路损伤检测方法、装置、计算机设备及存储介质
CN112016438A (zh) 一种基于图神经网络识别证件的方法及系统
US20140029853A1 (en) Form recognition method and device
CN108090511B (zh) 图像分类方法、装置、电子设备及可读存储介质
CN110728687B (zh) 文件图像分割方法、装置、计算机设备和存储介质
CN112507782A (zh) 文本图像的识别方法及装置
US20150371100A1 (en) Character recognition method and system using digit segmentation and recombination
CN110738203A (zh) 字段结构化输出方法、装置及计算机可读存储介质
CN113486828A (zh) 图像处理方法、装置、设备和存储介质
CN110766017A (zh) 基于深度学习的移动终端文字识别方法及系统
CN110647885A (zh) 基于图片识别的试卷拆分方法、装置、设备以及介质
CN111626249A (zh) 题目图像中几何图形的识别方法、装置和计算机存储介质
CN110751013B (zh) 场景识别方法、装置和计算机可读存储介质
CN115578741A (zh) 一种基于Mask R-cnn算法和类型分割的扫描文件版面分析方法
CN112232336A (zh) 一种证件识别方法、装置、设备及存储介质
Ong et al. Using k-nearest neighbor in optical character recognition
CN114241463A (zh) 签名验证方法、装置、计算机设备和存储介质
CN112200789B (zh) 一种图像识别的方法及装置、电子设备和存储介质
CN117710703A (zh) 图像处理方法、装置、计算机设备及可读存储介质
CN114511862B (zh) 表格识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20220121