CN115984859A - 一种图像文字识别的方法、装置及存储介质 - Google Patents
一种图像文字识别的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115984859A CN115984859A CN202211606796.6A CN202211606796A CN115984859A CN 115984859 A CN115984859 A CN 115984859A CN 202211606796 A CN202211606796 A CN 202211606796A CN 115984859 A CN115984859 A CN 115984859A
- Authority
- CN
- China
- Prior art keywords
- character
- text
- information
- image
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 238000001914 filtration Methods 0.000 claims abstract description 11
- 238000003709 image segmentation Methods 0.000 claims abstract description 11
- 238000007373 indentation Methods 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Character Input (AREA)
Abstract
本发明公开了一种图像文字识别的方法、装置及存储介质,方法包括:获取目标图像,对目标图像进行提取过滤处理,获取处理图像信息;根据字体模型库对处理图像信息的文本信息进行提取,并获取文本信息中的文本坐标信息;根据文本坐标信息对文本信息的每个字符进行图像分割,获取每个字符的字符特征,将字符特征与标准字体特征进行匹配计算,识别出对应的标准字符作为字符文本,根据文本坐标信息将字符文本拼接起来,获得初始识别文本信息;将初始识别文本信息与目标图像进行轮廓近似度对比,对初始识别文本信息进行错误矫正,输出识别文本信息,通过文字识别模型的文字识别,实现不依赖网络进行文字识别,并且提高文字识别的准确率。
Description
技术领域
本发明涉及图像文字识别技术领域,尤其涉及一种图像文字识别的方法、装置及存储介质。
背景技术
将任何类型的包含书面文本的图像转换为机器可读的文本数据,光学字符识别技术已经得到了广泛应用。比如发票上用来识别关键字样,搜题App用来识别书本上的试题,车牌号识别。在实际应用中,市场上大部分使用的识别技术是需要依赖网络,在信号不稳定下,会造成出现错误识别文字,甚至识别失败的情况,文字识别准确率低。
发明内容
本发明提供了一种图像文字识别的方法、装置及存储介质,通过使用文字识别模型识别出图像文本字符,提高文字识别的准确率。
为了实现提高文字识别的准确率,本发明实施例提供了一种图像文字识别的方法,包括:获取目标图像,对所述目标图像进行提取过滤处理,获取处理图像信息;
根据字体模型库对所述处理图像信息的文本信息进行提取,并获取文本信息中的文本坐标信息;根据所述文本坐标信息对所述文本信息的每个字符进行图像分割,并获取每个所述字符的字符特征;
将所述字符特征与标准字体特征进行匹配计算,识别出对应的标准字符作为字符文本,根据所述文本坐标信息将所述字符文本拼接起来,获得初始识别文本信息;
将所述初始识别文本信息与所述目标图像进行轮廓近似度对比,对所述初始识别文本信息进行错误矫正,获得识别文本信息。
作为优选方案,本发明的图像文字识别的方法,通过去除图像中的干扰信息,获取处理图像信息,并通过文本坐标信息进行字符分割,依次识别出书面文本的图像上的每个字符,获得初始识别文本信息,然后通过所有原字符对初始识别文本信息进行错误纠正,得到准确的字符信息,通过字符坐标位置输出的识别文本信息在排版上与原图像的文本排版有一致性,提高用户使用舒适感,本发明的文字识别方法可以快速自动地使文档数字化,整个过程无需借助网络数据加载,通过对图像的提取过滤处理,确定字符坐标位置和图像分割处理,提高了字体识别的准确率。
作为优选方案,对所述目标图像进行提取过滤处理,获取处理图像信息,具体为:
调整目标图像的尺寸、对比度、亮度和倾斜度,获得调整后的图像;
将所述调整后的图像分层,提取所述调整后的图像的前景信息,将所述前景信息上的字符信息作为处理图像信息。
作为优选方案,本发明对目标图像进行提取过滤处理,调整了图像文本区域,将处理图像分层,获得所述处理图像的前景信息,去除背景信息,过滤掉处理图像上的无关的信息的干扰,提高有关信息的可检测性、最大程度地简单化数据,从而提高后续图像分割处理和匹配处理的可靠性,提高了字体识别的准确率。
作为优选方案,根据字体模型库对所述处理图像信息的文本信息进行提取,并获取文本信息中的文本坐标信息,具体为:
判断处理图像信息的文本方向,根据所述文本方向依次对处理图像信息中的每个字符与字体模型库的字体模版进行字体对比,去除所述处理图像信息的非文文字内容,提取所述处理图像信息的文本信息;
对所述文本信息进行边界像素点标记,根据所述边界像素点标记计算每个所述字符的坐标,将所有字符的坐标作为文本坐标信息;其中,每个所述字符的坐标包括:字符左上角的坐标、字符左下角的坐标、字符右下角的坐标和字符右上角的坐标。
作为优选方案,处理图像信息在提取的文本受设备等外界因素的影响,可能存在提取不彻底,存在黑点等其它非字符情况,本发明通过依次对文本中的每个字符与字体模型库的字体模版进行字体对比,去除所述处理图像信息的非文文字内容,过滤掉处理图像信息上的非文文字内容的干扰,只提取文字内容进行处理,提高了检测内容的准确性;根据提取的处理文本信息获取每个字符的坐标信息,以使文字识别模型通过字符坐标位置输出的识别文本信息在排版上与原图像的文本排版有一致性,提高用户使用舒适感。
作为优选方案,根据所述文本坐标信息对所述文本信息的每个字符进行图像分割,并获取每个所述字符的字符特征,具体为:
将文本坐标信息的像素值投影在坐标轴上,获得若干条投影曲线,对所述投影曲线做高斯平滑处理,确定文本内容区域;
根据所述文本内容区域对文本信息进行缩进处理,直到计算缩进后的文本内容区域达到最小缩进字符内容的范围,则将文本信息分割成若干个单一的字符,获得若干个单一的字符图像;
根据所述字符图像,获取每个字符的字符特征;所述字符特征包括边缘特征、网格特征、方向像素特征和结构特征。
作为优选方案,通过每个字符的坐标信息确定文本内容的区域,确定文本区域后对每个字符进行分割,提高了分割字符的精度,确保精准将每个字符分割开,并且尽量接近字符进行分割,去除多余的区域,避免其他区域对识别的影响,提高了字体识别的准确率。
作为优选方案,将所述字符特征与标准字体特征进行匹配计算,识别出对应的标准字符作为字符文本,根据所述文本坐标信息将所述字符文本拼接起来,获得初始识别文本信息,具体为:
根据字符特征,将每个字符与模型特征库中的所有标准字符进行匹配计算,获得与所有标准字符的匹配值,选择匹配值最高的标准字符作为对应的字符文本;
将每个所述字符的坐标,作为每个所述字符对应的字符文本的坐标,获得初始识别文本信息。
作为优选方案,本发明根据每个字符特征与模型特征库中的标准字符进行匹配搜索,依次识别每个分割后的字符,并通过匹配值计算选择最相似的字符作为字符文本,提高了字体识别的准确率。将每个所述字符的坐标,作为每个所述字符对应的字符文本的坐标,以使文字识别模型通过字符坐标位置输出的识别文本信息在排版上与原图像的文本排版有一致性,提高用户使用舒适感。
作为优选方案,将所述初始识别文本信息与所述目标图像进行轮廓近似度对比,对所述初始识别文本信息进行错误矫正,获得识别文本信息,具体为:
将初始识别文本信息放大到预设尺寸,获取所述初始识别文本信息上的字符数据;
计算所述字符数据与目标图像的轮廓近似度,获得近似度数据;所述近似度数据包括字形近似度、字体尺寸近似度和间距近似度;
根据所述近似度数据,对初始识别文本信息中错误的字体和错误的排版格式进行矫正;所述错误的字体为字形近似度低于第一阈值的字体;所述错误的排版格式为字体尺寸近似度低于第二阈值的字体位置或者间距近似度低于第三阈值的位置;
将矫正后的初始识别文本信息作为识别文本信息。
作为优选方案,通过所有原字符对初始识别文本信息进行字形和排版的纠正,得到准确的字符信息,以使文字识别模型通过字符坐标位置输出的识别文本信息在排版上与原图像的文本排版有一致性,提高用户使用舒适感,本发明的文字识别模型可以快速自动地使文档数字化,整个过程无需借助网络数据加载,在手机离线模式下也可使用,通过对初始识别文本信息的纠正功能,提高了字体识别的准确率。
作为优选方案,本实施例中的一种图像文字识别的方法利用训练好的MobileOCR的文字识别模型来实现。
作为优选方案,本发明通过预先训练好的MobileOCR的文字识别模型,识别书面文本的图像上的字符,转换为机器可读的文本数据,然后将所有原字符通过模型的错误矫正功能,矫正得到相对准确的字符信息,提高了识别准确率,文字识别模型可以快速自动地使文档数字化,整个过程无需借助网络数据加载。
相应地,本发明还提供一种图像文字识别的装置,包括:预处理模块、识别模块和矫正模块;
其中,所述预处理模块用于获取目标图像,对所述目标图像进行提取过滤处理,获取处理图像信息;
所述识别模块用于根据字体模型库对所述处理图像信息的文本信息进行提取,并获取文本信息中的文本坐标信息;根据所述文本坐标信息对所述文本信息的每个字符进行图像分割,并获取每个所述字符的字符特征;将所述字符特征与标准字体特征进行匹配计算,识别出对应的标准字符作为字符文本,根据所述文本坐标信息将所述字符文本拼接起来,获得初始识别文本信息;
所述矫正模块用于将所述初始识别文本信息与所述目标图像进行轮廓近似度对比,对所述初始识别文本信息进行错误矫正,获得识别文本信息。
作为优选方案,本发明的图像文字识别的装置,通过预处理模块去除图像中的干扰信息,获取处理图像信息,识别模块通过对文本坐标信息进行字符分割,依次识别出书面文本的图像上的每个字符,获得初始识别文本信息,矫正模块通过所有原字符对初始识别文本信息进行错误纠正,得到准确的字符信息,通过字符坐标位置输出的识别文本信息在排版上与原图像的文本排版有一致性,提高用户使用舒适感,本发明可以快速自动地使文档数字化,整个过程无需借助网络数据加载,通过对图像的提取过滤处理,确定字符坐标位置和图像分割处理,提高了字体识别的准确率。
作为优选方案,识别模块包括:定位单元、分割单元和匹配单元;
所述定位单元用于判断处理图像信息的文本方向,根据所述文本方向依次对处理图像信息中的每个字符与字体模型库的字体模版进行字体对比,去除所述处理图像信息的非文文字内容,提取所述处理图像信息的文本信息;对所述文本信息进行边界像素点标记,根据所述边界像素点标记计算每个所述字符的坐标,将所有字符的坐标作为文本坐标信息;其中,每个所述字符的坐标包括:字符左上角的坐标、字符左下角的坐标、字符右下角的坐标和字符右上角的坐标;
所述分割单元用于将文本坐标信息的像素值投影在坐标轴上,获得若干条投影曲线,对所述投影曲线做高斯平滑处理,确定文本内容区域;根据所述文本内容区域对文本信息进行缩进处理,直到计算缩进后的文本内容区域达到最小缩进字符内容的范围,则将文本信息分割成若干个单一的字符,获得若干个单一的字符图像;根据所述字符图像,获取每个字符的字符特征;所述字符特征包括边缘特征、网格特征、方向像素特征和结构特征;
所述匹配单元用于根据字符特征,将每个字符与模型特征库中的所有标准字符进行匹配计算,获得与所有标准字符的匹配值,选择匹配值最高的标准字符作为对应的字符文本;将每个所述字符的坐标,作为每个所述字符对应的字符文本的坐标,获得初始识别文本信息。
作为优选方案,定位单元去除所述处理图像信息的非文文字内容,过滤掉处理图像信息上的非文文字内容的干扰,只提取文字内容进行处理,提高了检测内容的准确性;根据提取的处理文本信息获取每个字符的坐标信息,以使文字识别模型通过字符坐标位置输出的识别文本信息在排版上与原图像的文本排版有一致性,提高用户使用舒适感。
分割单元确定文本区域后对每个字符进行分割,提高了分割字符的精度,确保精准将每个字符分割开,并且尽量接近字符进行分割,去除多余的区域,避免其他区域对识别的影响,提高了字体识别的准确率。
匹配单元根据每个字符特征与模型特征库中的标准字符进行匹配搜索,依次识别每个分割后的字符,并通过匹配值计算选择最相似的字符作为字符文本,提高了字体识别的准确率。将每个所述字符的坐标,作为每个所述字符对应的字符文本的坐标,以使文字识别模型通过字符坐标位置输出的识别文本信息在排版上与原图像的文本排版有一致性,提高用户使用舒适感。
相应地,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如本发明内容所述的一种图像文字识别的方法。
附图说明
图1是本发明提供的一种图像文字识别的方法的一种实施例的流程示意图;
图2是本发明提供的一种图像文字识别的装置的一种实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参照图1,为本发明实施例提供的一种图像文字识别的方法,包括步骤S101-S104:
步骤S101:获取目标图像,对所述目标图像进行提取过滤处理,获取处理图像信息。
在本实施例中,对所述目标图像进行提取过滤处理,获取处理图像信息,具体为:调整目标图像的尺寸、对比度、亮度和倾斜度,获得调整后的图像;将所述调整后的图像分层,提取所述调整后的图像的前景信息,将所述前景信息上的字符信息作为处理图像信息。
在本实施例中,在任意类型的书面文本中获取目标图像,通过放大、缩小、选择、裁剪和旋转操作调整图像的尺寸和倾斜度,调整目标图像的对比度,亮度,以使目标图像的文本字体清晰可识别。对目标图像进行了波纹优化,即把目标图像分层,处理分为前景和背景,将字符信息作为前景信息从中提取出来,过滤掉干扰条纹。
步骤S102:根据字体模型库对所述处理图像信息的文本信息进行提取,并获取文本信息中的文本坐标信息;根据所述文本坐标信息对所述文本信息的每个字符进行图像分割,并获取每个所述字符的字符特征。
在本实施例中,根据字体模型库对所述处理图像信息的文本信息进行提取,并获取文本信息中的文本坐标信息,具体为:
判断处理图像信息的文本方向,根据所述文本方向依次对处理图像信息中的每个字符与字体模型库的字体模版进行字体对比,去除所述处理图像信息的非文文字内容,提取所述处理图像信息的文本信息;
对所述文本信息进行边界像素点标记,根据所述边界像素点标记计算每个所述字符的坐标,将所有字符的坐标作为文本坐标信息;其中,每个所述字符的坐标包括:字符左上角的坐标、字符左下角的坐标、字符右下角的坐标和字符右上角的坐标。
在本实施例中,在进行识别时会自动判断文本内容方向,支持横竖排文等各种排版,从模型库中匹配选择相似度最高的字体模板,根据字体模板进行字体对比,根据与字体模板的差异性检测,筛选出处理图像信息中黑点并将其去除。将黑点去除后,将处理图像信息上的文字对象和其它非文文字对象分离开,去除所述处理图像信息的非文文字内容,提取所述处理图像信息的文本信息。
在本实施例中,目标图像为横版排文,对每一行文本的边界像素点进行检测标记,将每个检测标记进行一个加权平均计算出当前一行文本的每个字符的预测坐标,预测坐标包括:字符左上角的坐标、字符左下角的坐标、字符右下角的坐标和字符右上角的坐标;将所有坐标进行排列,按照左上、左下、右下、右上的坐标顺序,使其和目标图像上的结构排列一致,获得排列集合。
在本实施例中,根据所述文本坐标信息对所述文本信息的每个字符进行图像分割,并获取每个所述字符的字符特征,具体为:
将文本坐标信息的像素值投影在坐标轴上,获得若干条投影曲线,对所述投影曲线做高斯平滑处理,确定文本内容区域;
根据所述文本内容区域对文本信息进行缩进处理,直到计算缩进后的文本内容区域达到最小缩进字符内容的范围,则将文本信息分割成若干个单一的字符,获得若干个单一的字符图像;
根据所述字符图像,获取每个字符的字符特征;所述字符特征包括边缘特征、网格特征、方向像素特征和结构特征。
在本实施例中,对排列集合中的所有字符坐标在坐标轴上的像素值进行投影,投影形成的曲线是一条条不平滑的曲线;对所述投影曲线做高斯平滑处理,根据曲线底部高低、每个线条底部间隔的区别,可以确定哪个区域是文本内容,哪个区域是非字符空白区域,获取文本内容区域;
采用缩进的办法将文本信息按照较短边的曲线的一定比例进行各种缩放形成新文本内容区域,计算新的的文本内容区域是否达到到最小缩进的字符内容范围,并随机打乱所记录的字符坐标的顺序,再进行分割验证,将文本内容分割成一个个单一的字符。
步骤S103:将所述字符特征与标准字体特征进行匹配计算,识别出对应的标准字符作为字符文本,根据所述文本坐标信息将所述字符文本拼接起来,获得初始识别文本信息。
在本实施例中,将所述字符特征与标准字体特征进行匹配计算,识别出对应的标准字符作为字符文本,根据所述文本坐标信息将所述字符文本拼接起来,获得初始识别文本信息,具体为:
根据字符特征,将每个字符与模型特征库中的所有标准字符进行匹配计算,获得与所有标准字符的匹配值,选择匹配值最高的标准字符作为对应的字符文本;
将每个所述字符的坐标,作为每个所述字符对应的字符文本的坐标,获得初始识别文本信息。
在本实施例中,从单个字符图像中获取字符特征,将边缘特征、网格特征、方向像素特征、结构特征作为关键信息,从已有的模型特征库中进行匹配检索,获得与所有标准字符的匹配值,选择匹配值最高的标准字符作为对应的字符文本;
在获取字符特征过程中,数字字符和字母字符的字符特征比较容易提取,由于汉字形近字较多,结构复杂,中文字符的字符特征比较难以提取,在本实施例中,针对中文进行特征降维,通过多次分解字符特征结构,将特征维度高于预设阈值的字符分解成特征维度低于预设阈值的字符特征,将特征维数高的字符分解成单一简单的字符特征,降低识别难度,在保证足够的信息特征来区分不同的文字并提高识别效率。
在本实施例中,将每个所述字符的坐标,作为每个所述字符对应的字符文本的坐标,将每个字符文本拼接起来,获得初始识别文本信息;计算初始识别文本信息的字符排列的结构是否与目标图像的字符排列的结构一致,其中字符排列的结构包括:各字符所在的区域是否与目标图像上的相互一致以及排版后的阅读顺序是否相互一致。根据计算结果,重新调整初始识别文本信息的文本信息。
步骤S104:将所述初始识别文本信息与所述目标图像进行轮廓近似度对比,对所述初始识别文本信息进行错误矫正,获得识别文本信息。
在本实施例中,将所述初始识别文本信息与所述目标图像进行轮廓近似度对比,对所述初始识别文本信息进行错误矫正,获得识别文本信息,具体为:
将初始识别文本信息放大到预设尺寸,获取所述初始识别文本信息上的字符数据;
计算所述字符数据与目标图像的轮廓近似度,获得近似度数据;所述近似度数据包括字形近似度、字体尺寸近似度和间距近似度;
根据所述近似度数据,对初始识别文本信息中错误的字体和错误的排版格式进行矫正;所述错误的字体为字形近似度低于第一阈值的字体;所述错误的排版格式为字体尺寸近似度低于第二阈值的字体位置或者间距近似度低于第三阈值的位置;将矫正后的初始识别文本信息作为识别文本信息。
在本实施例中,通过对初始识别文本信息的字符图像放大,以使字符所有轮廓细节都清晰可见,获取字符数据,并与目标图像进行轮廓近似度对比;在分类容器将结果进行分类优化处理:如果把“你好”识别成“你女子”,分类容器就会发现“你女子”是错误的,然后进行矫正。
根据初始识别文本信息的字体大小、行列间距、字间距的排版信息和与目标图像进行对比,如果与目标图像的排版信息不一致则进行矫正,获得识别文本信息。
在本实施例中,本实施例所述一种图像文字识别的方法利用训练好的MobileOCR的文字识别模型来实现。
在本实施例中,预先收集调整待训练图像文字识别模型需要模拟的训练数据,使用训练数据来训练文字识别模型,以使文字识别模型从图片中将文字提取出来,将提取出来的文字格式化,转换为系统可识别的数据。将数据与系统绑定,人工校验数据准确性,通过人工复制删除、直接修改数据,最终保存数据,获得训练好的MobileOCR的文字识别模型。通过训练好的MobileOCR的文字识别模型实现上述的图像文字识别的方法,无需借助网络数据加载,快速自动地使文档数字化。
实施本发明实施例,具有如下效果:
本发明的图像文字识别的方法,通过去除图像中的干扰信息,获取处理图像信息,并通过文本坐标信息进行字符分割,依次识别出书面文本的图像上的每个字符,获得初始识别文本信息,然后通过所有原字符对初始识别文本信息进行错误纠正,得到准确的字符信息,通过字符坐标位置输出的识别文本信息在排版上与原图像的文本排版有一致性,提高用户使用舒适感,本发明的文字识别方法可以快速自动地使文档数字化,整个过程无需借助网络数据加载,通过对图像的提取过滤处理,确定字符坐标位置和图像分割处理,提高了字体识别的准确率。
实施例二
请参照图2,为本发明实施例提供的一种图像文字识别的装置,包括:预处理模块201、识别模块202和矫正模块203;
其中,所述预处理模块201用于获取目标图像,对所述目标图像进行提取过滤处理,获取处理图像信息;
所述识别模块202用于根据字体模型库对所述处理图像信息的文本信息进行提取,并获取文本信息中的文本坐标信息;根据所述文本坐标信息对所述文本信息的每个字符进行图像分割,并获取每个所述字符的字符特征;将所述字符特征与标准字体特征进行匹配计算,识别出对应的标准字符作为字符文本,根据所述文本坐标信息将所述字符文本拼接起来,获得初始识别文本信息;
所述矫正模块203用于将所述初始识别文本信息与所述目标图像进行轮廓近似度对比,对所述初始识别文本信息进行错误矫正,获得识别文本信息。
识别模块202包括:定位单元、分割单元和匹配单元;
所述定位单元用于判断处理图像信息的文本方向,根据所述文本方向依次对处理图像信息中的每个字符与字体模型库的字体模版进行字体对比,去除所述处理图像信息的非文文字内容,提取所述处理图像信息的文本信息;对所述文本信息进行边界像素点标记,根据所述边界像素点标记计算每个所述字符的坐标,将所有字符的坐标作为文本坐标信息;其中,每个所述字符的坐标包括:字符左上角的坐标、字符左下角的坐标、字符右下角的坐标和字符右上角的坐标;
所述分割单元用于将文本坐标信息的像素值投影在坐标轴上,获得若干条投影曲线,对所述投影曲线做高斯平滑处理,确定文本内容区域;根据所述文本内容区域对文本信息进行缩进处理,直到计算缩进后的文本内容区域达到最小缩进字符内容的范围,则将文本信息分割成若干个单一的字符,获得若干个单一的字符图像;根据所述字符图像,获取每个字符的字符特征;所述字符特征包括边缘特征、网格特征、方向像素特征和结构特征;
所述匹配单元用于根据字符特征,将每个字符与模型特征库中的所有标准字符进行匹配计算,获得与所有标准字符的匹配值,选择匹配值最高的标准字符作为对应的字符文本;将每个所述字符的坐标,作为每个所述字符对应的字符文本的坐标,获得初始识别文本信息。
上述的图像文字识别的装置可实施上述方法实施例的图像文字识别的方法。上述方法实施例中的可选项也适用于本实施例,这里不再详述。本申请实施例的其余内容可参照上述方法实施例的内容,在本实施例中,不再进行赘述。
实施本发明实施例,具有如下效果:
本发明的图像文字识别的装置,通过预处理模块去除图像中的干扰信息,获取处理图像信息,识别模块通过对文本坐标信息进行字符分割,依次识别出书面文本的图像上的每个字符,获得初始识别文本信息,矫正模块通过所有原字符对初始识别文本信息进行错误纠正,得到准确的字符信息,通过字符坐标位置输出的识别文本信息在排版上与原图像的文本排版有一致性,提高用户使用舒适感,本发明可以快速自动地使文档数字化,整个过程无需借助网络数据加载,通过对图像的提取过滤处理,确定字符坐标位置和图像分割处理,提高了字体识别的准确率。
实施例三
相应地,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项实施例所述的图像文字识别的方法。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据移动终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种图像文字识别的方法,其特征在于,包括:
获取目标图像,对所述目标图像进行提取过滤处理,获取处理图像信息;
根据字体模型库对所述处理图像信息的文本信息进行提取,并获取文本信息中的文本坐标信息;根据所述文本坐标信息对所述文本信息的每个字符进行图像分割,并获取每个所述字符的字符特征;
将所述字符特征与标准字体特征进行匹配计算,识别出对应的标准字符作为字符文本,根据所述文本坐标信息将所述字符文本拼接起来,获得初始识别文本信息;
将所述初始识别文本信息与所述目标图像进行轮廓近似度对比,对所述初始识别文本信息进行错误矫正,获得识别文本信息。
2.如权利要求1所述的一种图像文字识别的方法,其特征在于,所述对所述目标图像进行提取过滤处理,获取处理图像信息,具体为:
调整目标图像的尺寸、对比度、亮度和倾斜度,获得调整后的图像;
将所述调整后的图像分层,提取所述调整后的图像的前景信息,将所述前景信息上的字符信息作为处理图像信息。
3.如权利要求1所述的一种图像文字识别的方法,其特征在于,所述根据字体模型库对所述处理图像信息的文本信息进行提取,并获取文本信息中的文本坐标信息,具体为:
判断处理图像信息的文本方向,根据所述文本方向依次对处理图像信息中的每个字符与字体模型库的字体模版进行字体对比,去除所述处理图像信息的非文文字内容,提取所述处理图像信息的文本信息;
对所述文本信息进行边界像素点标记,根据所述边界像素点标记计算每个所述字符的坐标,将所有字符的坐标作为文本坐标信息;其中,每个所述字符的坐标包括:字符左上角的坐标、字符左下角的坐标、字符右下角的坐标和字符右上角的坐标。
4.如权利要求3所述的一种图像文字识别的方法,其特征在于,所述根据所述文本坐标信息对所述文本信息的每个字符进行图像分割,并获取每个所述字符的字符特征,具体为:
将文本坐标信息的像素值投影在坐标轴上,获得若干条投影曲线,对所述投影曲线做高斯平滑处理,确定文本内容区域;
根据所述文本内容区域对文本信息进行缩进处理,直到计算缩进后的文本内容区域达到最小缩进字符内容的范围,则将文本信息分割成若干个单一的字符,获得若干个单一的字符图像;
根据所述字符图像,获取每个字符的字符特征;所述字符特征包括边缘特征、网格特征、方向像素特征和结构特征。
5.如权利要求4所述的一种图像文字识别的方法,其特征在于,所述将所述字符特征与标准字体特征进行匹配计算,识别出对应的标准字符作为字符文本,根据所述文本坐标信息将所述字符文本拼接起来,获得初始识别文本信息,具体为:
根据字符特征,将每个字符与模型特征库中的所有标准字符进行匹配计算,获得与所有标准字符的匹配值,选择匹配值最高的标准字符作为对应的字符文本;
将每个所述字符的坐标,作为每个所述字符对应的字符文本的坐标,获得初始识别文本信息。
6.如权利要求1所述的一种图像文字识别的方法,其特征在于,所述将所述初始识别文本信息与所述目标图像进行轮廓近似度对比,对所述初始识别文本信息进行错误矫正,获得识别文本信息,具体为:
将初始识别文本信息放大到预设尺寸,获取所述初始识别文本信息上的字符数据;
计算所述字符数据与目标图像的轮廓近似度,获得近似度数据;所述近似度数据包括字形近似度、字体尺寸近似度和间距近似度;
根据所述近似度数据,对初始识别文本信息中错误的字体和错误的排版格式进行矫正;所述错误的字体为字形近似度低于第一阈值的字体;所述错误的排版格式为字体尺寸近似度低于第二阈值的字体位置或者间距近似度低于第三阈值的位置;
将矫正后的初始识别文本信息作为识别文本信息。
7.如1至6任意一项所述的一种图像文字识别的方法,其特征在于,所述一种图像文字识别的方法利用训练好的MobileOCR的文字识别模型来实现。
8.一种图像文字识别的装置,其特征在于,包括:预处理模块、识别模块和矫正模块;
其中,所述预处理模块用于获取目标图像,对所述目标图像进行提取过滤处理,获取处理图像信息;
所述识别模块用于根据字体模型库对所述处理图像信息的文本信息进行提取,并获取文本信息中的文本坐标信息;根据所述文本坐标信息对所述文本信息的每个字符进行图像分割,并获取每个所述字符的字符特征;将所述字符特征与标准字体特征进行匹配计算,识别出对应的标准字符作为字符文本,根据所述文本坐标信息将所述字符文本拼接起来,获得初始识别文本信息;
所述矫正模块用于将所述初始识别文本信息与所述目标图像进行轮廓近似度对比,对所述初始识别文本信息进行错误矫正,获得识别文本信息。
9.如权利要求8所述的一种图像文字识别的装置,其特征在于,所述识别模块包括:定位单元、分割单元和匹配单元;
所述定位单元用于判断处理图像信息的文本方向,根据所述文本方向依次对处理图像信息中的每个字符与字体模型库的字体模版进行字体对比,去除所述处理图像信息的非文文字内容,提取所述处理图像信息的文本信息;对所述文本信息进行边界像素点标记,根据所述边界像素点标记计算每个所述字符的坐标,将所有字符的坐标作为文本坐标信息;其中,每个所述字符的坐标包括:字符左上角的坐标、字符左下角的坐标、字符右下角的坐标和字符右上角的坐标;
所述分割单元用于将文本坐标信息的像素值投影在坐标轴上,获得若干条投影曲线,对所述投影曲线做高斯平滑处理,确定文本内容区域;根据所述文本内容区域对文本信息进行缩进处理,直到计算缩进后的文本内容区域达到最小缩进字符内容的范围,则将文本信息分割成若干个单一的字符,获得若干个单一的字符图像;根据所述字符图像,获取每个字符的字符特征;所述字符特征包括边缘特征、网格特征、方向像素特征和结构特征;
所述匹配单元用于根据字符特征,将每个字符与模型特征库中的所有标准字符进行匹配计算,获得与所有标准字符的匹配值,选择匹配值最高的标准字符作为对应的字符文本;将每个所述字符的坐标,作为每个所述字符对应的字符文本的坐标,获得初始识别文本信息。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至7中任意一项所述的一种图像文字识别的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211606796.6A CN115984859B (zh) | 2022-12-14 | 2022-12-14 | 一种图像文字识别的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211606796.6A CN115984859B (zh) | 2022-12-14 | 2022-12-14 | 一种图像文字识别的方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115984859A true CN115984859A (zh) | 2023-04-18 |
CN115984859B CN115984859B (zh) | 2024-07-26 |
Family
ID=85971503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211606796.6A Active CN115984859B (zh) | 2022-12-14 | 2022-12-14 | 一种图像文字识别的方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115984859B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132998A (zh) * | 2023-08-29 | 2023-11-28 | 安徽以观文化科技有限公司 | 书法作品单个字体识别方法及其识别系统 |
CN118411729A (zh) * | 2024-07-02 | 2024-07-30 | 山东声通信息科技有限公司 | 一种图片中文字抽取识别处理方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833648A (zh) * | 2009-03-13 | 2010-09-15 | 汉王科技股份有限公司 | 文本图像的校正方法 |
CN102222241A (zh) * | 2010-04-19 | 2011-10-19 | 日本电产三协株式会社 | 字符串识别装置及字符串识别方法 |
US20150278626A1 (en) * | 2014-03-31 | 2015-10-01 | Nidec Sankyo Corporation | Character recognition device and character segmentation method |
CN108399405A (zh) * | 2017-02-07 | 2018-08-14 | 腾讯科技(上海)有限公司 | 营业执照识别方法和装置 |
CN113469267A (zh) * | 2021-07-15 | 2021-10-01 | 上海兑观信息科技技术有限公司 | 一种基于深度特征检索的文本图像字符识别方法与系统 |
CN114299529A (zh) * | 2021-12-20 | 2022-04-08 | 长沙森亿医疗器械有限公司 | 基于医疗化验单图片的识别方法、存储介质及终端 |
WO2022121218A1 (zh) * | 2020-12-08 | 2022-06-16 | 平安科技(深圳)有限公司 | 智能图像识别方法、装置、计算机设备及存储介质 |
CN114937270A (zh) * | 2022-05-05 | 2022-08-23 | 上海迥灵信息技术有限公司 | 古籍文字处理方法、装置及计算机可读存储介质 |
CN115294561A (zh) * | 2022-08-19 | 2022-11-04 | 中国工商银行股份有限公司 | 文本识别方法、装置和服务器 |
CN115376118A (zh) * | 2022-08-25 | 2022-11-22 | 广东工业大学 | 一种街景文字识别方法、系统、设备和介质 |
CN115457565A (zh) * | 2022-09-13 | 2022-12-09 | 北京中电汇智科技有限公司 | 一种ocr文字识别方法、电子设备及存储介质 |
-
2022
- 2022-12-14 CN CN202211606796.6A patent/CN115984859B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833648A (zh) * | 2009-03-13 | 2010-09-15 | 汉王科技股份有限公司 | 文本图像的校正方法 |
CN102222241A (zh) * | 2010-04-19 | 2011-10-19 | 日本电产三协株式会社 | 字符串识别装置及字符串识别方法 |
US20150278626A1 (en) * | 2014-03-31 | 2015-10-01 | Nidec Sankyo Corporation | Character recognition device and character segmentation method |
CN108399405A (zh) * | 2017-02-07 | 2018-08-14 | 腾讯科技(上海)有限公司 | 营业执照识别方法和装置 |
WO2022121218A1 (zh) * | 2020-12-08 | 2022-06-16 | 平安科技(深圳)有限公司 | 智能图像识别方法、装置、计算机设备及存储介质 |
CN113469267A (zh) * | 2021-07-15 | 2021-10-01 | 上海兑观信息科技技术有限公司 | 一种基于深度特征检索的文本图像字符识别方法与系统 |
CN114299529A (zh) * | 2021-12-20 | 2022-04-08 | 长沙森亿医疗器械有限公司 | 基于医疗化验单图片的识别方法、存储介质及终端 |
CN114937270A (zh) * | 2022-05-05 | 2022-08-23 | 上海迥灵信息技术有限公司 | 古籍文字处理方法、装置及计算机可读存储介质 |
CN115294561A (zh) * | 2022-08-19 | 2022-11-04 | 中国工商银行股份有限公司 | 文本识别方法、装置和服务器 |
CN115376118A (zh) * | 2022-08-25 | 2022-11-22 | 广东工业大学 | 一种街景文字识别方法、系统、设备和介质 |
CN115457565A (zh) * | 2022-09-13 | 2022-12-09 | 北京中电汇智科技有限公司 | 一种ocr文字识别方法、电子设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132998A (zh) * | 2023-08-29 | 2023-11-28 | 安徽以观文化科技有限公司 | 书法作品单个字体识别方法及其识别系统 |
CN117132998B (zh) * | 2023-08-29 | 2024-05-03 | 安徽以观文化科技有限公司 | 书法作品单个字体识别方法及其识别系统 |
CN118411729A (zh) * | 2024-07-02 | 2024-07-30 | 山东声通信息科技有限公司 | 一种图片中文字抽取识别处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115984859B (zh) | 2024-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569830B (zh) | 多语言文本识别方法、装置、计算机设备及存储介质 | |
US5410611A (en) | Method for identifying word bounding boxes in text | |
CN104217203B (zh) | 复杂背景卡面信息识别方法及系统 | |
US9613299B2 (en) | Method of identifying pattern training need during verification of recognized text | |
CN111353501A (zh) | 一种基于深度学习的书本点读方法及系统 | |
CN108108734B (zh) | 一种车牌识别方法及装置 | |
KR20150137752A (ko) | 문자 인식 방법 및 그 장치 | |
CN113158808A (zh) | 中文古籍字符识别、组段与版面重建方法、介质和设备 | |
CN111209865A (zh) | 文件内容提取方法、装置、电子设备及存储介质 | |
CN115984859B (zh) | 一种图像文字识别的方法、装置及存储介质 | |
CN115311666A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
US11756321B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
CN112800824B (zh) | 扫描文件的处理方法、装置、设备及存储介质 | |
CN113408536A (zh) | 票据的金额识别方法、装置、计算机设备及存储介质 | |
CN111079736B (zh) | 一种听写内容识别方法及电子设备 | |
US9152876B1 (en) | Methods and systems for efficient handwritten character segmentation | |
CN109034149A (zh) | 一种字符识别方法及装置 | |
CN112949514A (zh) | 一种扫描文档信息处理方法、装置、电子设备及存储介质 | |
CN115546811A (zh) | 一种识别印章的方法、装置、设备及存储介质 | |
CN112287763A (zh) | 图像处理方法、装置、设备及介质 | |
CN111898402A (zh) | 一种智能排版系统 | |
CN110163203B (zh) | 字符识别方法、装置、存储介质及计算机设备 | |
CN118279923B (zh) | 基于深度学习训练的图片文字识别方法、系统及存储介质 | |
US11710331B2 (en) | Systems and methods for separating ligature characters in digitized document images | |
CN115631493B (zh) | 文本区确定方法、系统及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: No. 56 Nanli East Road, Shiqi Town, Panyu District, Guangzhou City, Guangdong Province, 510000 Applicant after: Guangdong Baolun Electronics Co.,Ltd. Address before: No.19 Chuangyuan Road, Zhongcun street, Panyu District, Guangzhou, Guangdong 510000 Applicant before: GUANGZHOU ITC ELECTRONIC TECHNOLOGY Co.,Ltd. Country or region before: China |
|
GR01 | Patent grant | ||
GR01 | Patent grant |