CN109598270B - 扭曲文字的识别方法及装置、存储介质及处理器 - Google Patents
扭曲文字的识别方法及装置、存储介质及处理器 Download PDFInfo
- Publication number
- CN109598270B CN109598270B CN201811474269.8A CN201811474269A CN109598270B CN 109598270 B CN109598270 B CN 109598270B CN 201811474269 A CN201811474269 A CN 201811474269A CN 109598270 B CN109598270 B CN 109598270B
- Authority
- CN
- China
- Prior art keywords
- character
- character picture
- picture
- distorted
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims description 43
- 238000013527 convolutional neural network Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 25
- 230000009466 transformation Effects 0.000 claims description 17
- 230000001788 irregular Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 230000005284 excitation Effects 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种扭曲文字的识别方法及装置、存储介质及处理器。其中,该方法包括:获取待识别的文字图片,其中,待识别的文字图片中含有扭曲的待识别文字;通过预先训练好的扭曲文字识别模型对待识别的文字图片进行识别,得到识别结果;根据识别结果确定待识别的文字图片中的文字。本发明解决了由于相关技术中对扭曲文字识别存在限制,导致扭曲文字的识别效率低的技术问题。
Description
技术领域
本发明涉及文字识别领域,具体而言,涉及一种扭曲文字的识别方法及装置、存储介质及处理器。
背景技术
随着时代发展,多媒体技术越来越成熟,信息化应用越来越广泛,办公、学习、生活中将传统的纸质材料转换成电子文档的需求越来越多。一般情况下,我们是通过相机,扫描仪等成像设备将纸质文字转变成图像,然后运用图像处理技术将图像进行一些必须的处理,最后利用光学字符识别OCR技术获得电子文档,OCR技术加速了其转换的效率。
但是OCR技术也有其局限性,对于扭曲文字的图片识别效果较差,识别准确率在0-80%之间。目前对扭曲文字的矫正技术有基于3D的模型重建技术矫正,基于连通区域的处理,但是此类方法的速度较慢;基于文本线处理,然而此类方法的基准度有所降低;基于区域信息的矫正,该类方法对原始图像的拍照方式又有特殊需求。
因此如何针对由于拍照角度造成的文字拉伸或旋转的情况,对文字区域进行相应的变换,进而对文字进行识别依旧是一难题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种扭曲文字的识别方法及装置、存储介质及处理器,以至少解决由于相关技术中对扭曲文字识别存在限制,导致扭曲文字的识别效率低的技术问题。
根据本发明实施例的一个方面,提供了一种扭曲文字的识别方法,包括:获取待识别的文字图片,其中,待识别的文字图片中含有扭曲的待识别文字;通过预先训练好的扭曲文字识别模型对待识别的文字图片进行识别,得到识别结果;根据所述识别结果确定待识别的文字图片中的文字。
进一步地,在通过预先训练好的扭曲文字识别模型对待识别的文字图片进行识别之前,所述方法还包括:对预设数量的含有文字的第一文字图片进行扭曲处理(且第一文字图片经过预处理后,仅有一个文字,即一张图片一个文字),得到扭曲文字图片训练集;通过卷积神经网络对所述扭曲文字图片训练集进行学习,得到扭曲文字识别模型。
进一步地,对预设数量的含有文字的文字图片进行扭曲处理,得到扭曲文字图片训练集包括:对每张第一文字图片进行扭曲变换,得到第二文字图片;将所述第二文字图片通过填充和/或压缩,得到第三文字图片;根据所述第三文字图片对应的第一文字图片对所述第三文字图片进行标注,得到所述扭曲文字图片训练集。
进一步地,对每张第一文字图片进行扭曲变换,得到第二文字图片包括:对所述第一文字图片进行旋转,得到第四文字图片;将所述第四文字图片投影至不规则多边形上,得到第五文字图片,其中,所述第四文字图片与所述不规则多边形的边长数量相同;根据预设的插值算法对所述第五文字图片的像素点进行赋值,得到所述第二文字图片。
进一步地,在对所述预设数量的第一文字图片进行扭曲变换之前,所述方法还包括:获取包含至少一个第六文字图片的原始文字图片;对所述原始文字图片进行文字分割,得到至少一个所述第六文字图片;利用预设的去噪算法对所述至少一个第六文字图片进行去噪处理,得到第七文字图片;根据预设的二值化算法对所述第七文字图片进行二值化处理,得到至少一个所述第一文字图片。
进一步地,通过卷积神经网络对所述扭曲文字图片训练集进行学习,得到扭曲文字识别模型包括:将所述扭曲文字图片训练集中的第三文字图片输入至所述卷积神经网络,其中,所述卷积神经网络中包括卷积层、激励层、池化层以及全连接层;利用随机梯度下降法训练所述卷积神经网络得到所述扭曲文字识别模型,其中,所述卷积神经网络中的目标函数为所述第三文字图片的标签与所述卷积神经网络预测结果的交叉熵。
根据本发明实施例的另一方面,还提供了一种扭曲文字的识别装置,包括:获取单元,用于获取待识别的文字图片,其中,待识别的文字图片中含有扭曲的待识别文字;识别单元,用于通过预先训练好的扭曲文字识别模型对待识别的文字图片进行识别,得到识别结果;确定单元,用于根据所述识别结果确定待识别的文字图片中的文字。
进一步地,所述装置还包括:处理单元,用于在通过预先训练好的扭曲文字识别模型对待识别的文字图片进行识别之前,对预设数量的含有文字的第一文字图片进行扭曲处理,得到扭曲文字图片训练集;训练单元,用于通过卷积神经网络对所述扭曲文字图片训练集进行学习,得到扭曲文字识别模型。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上所述的扭曲文字的识别方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行如上所述的扭曲文字的识别方法。
在本发明实施例中,采用通过预先训练好扭曲文字识别模型的方式,通过扭曲文字识别模型对待识别的文字图片进行识别,无须先对扭曲的图片文字先矫正再识别,从而实现了提高扭曲文字识别率的技术效果,进而解决了由于相关技术中对扭曲文字识别存在限制,导致扭曲文字的识别效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的扭曲文字识别方法的流程示意图;
图2是根据本发明实施例的一种可选的填充文字图片的示意图;
图3是根据本发明实施例的一种可选的不规则四边形的示意图;
图4是根据本发明实施例的一种可选的扭曲文字识别装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
在相关技术中,对于扭曲文字的文字图片的处理方式仅针对例如较厚书本上的稍微弯曲的扫描文件上的文字进行识别,其识别方式是对扭曲的文本进行矫正,然后再针对矫正后的图片进行OCR文字识别。而这种方法,由于需要先对扭曲的文字进行矫正,因此需要产生较大的扭曲文字图片矫正工作量,导致扭曲文字的识别效率较低。
基于上述问题,本发明实施例中提出一种扭曲文字的识别方法,通过卷积神经网络模型对预先处理好的扭曲文字训练集进行学习,得到扭曲文字识别模型,利用训练好的扭曲文字识别模型对扭曲的待识别文字图片进行文字识别,无须先矫正再进行OCR识别,该方法对于复杂的扭曲文字图片的识别效率以及准确度都有较大提升。
根据本发明实施例,提供了一种扭曲文字的识别方法,如图1所示,该方法包括:
S102,获取待识别的文字图片,其中,待识别的文字图片中含有扭曲的待识别文字;
S104,通过预先训练好的扭曲文字识别模型对待识别的文字图片进行识别,得到识别结果;
S106,根据识别结果确定待识别的文字图片中的文字。
在本实施例中,在待识别的文字图片中,可能是扭曲的文字以及正常文字混合,本实施例中的扭曲文字识别方法和扭曲文字的形变的程度没有限定,并不局限于例如较厚书本上的稍微弯曲的扫描文件上的文字。获取待识别的文字图片可以是预先导入或存储的,也可以是实时拍摄的,在本实施例中不作任何限定。
在本实施例中,通过预先训练好的扭曲文字识别模型对待识别的文字图片进行图像识别,其中,扭曲文字识别模型是根据卷积神经网络经过扭曲文字训练集训练得到的,可以对扭曲文字直接进行识别,无需对扭曲文字进行矫正。
需要说明的是,通过本实施例,获取待识别的文字图片,其中,待识别的文字图片中含有扭曲的待识别文字;通过预先训练好的扭曲文字识别模型对待识别的文字图片进行识别,得到识别结果;根据识别结果确定待识别的文字图片中的文字,无须预先对扭曲的图片文字先矫正再识别,从而实现了提高扭曲文字识别率的技术效果。
可选的,在本实施例中,在通过预先训练好的扭曲文字识别模型对待识别的文字图片进行识别之前,方法还包括但不限于:对预设数量的含有文字的第一文字图片进行扭曲处理,得到扭曲文字图片训练集;通过卷积神经网络对扭曲文字图片训练集进行学习,得到扭曲文字识别模型。
具体的,第一文字图片实际上指的是存在有文字的图片,其中,为了方便训练卷积神经网络得到扭曲文字识别模型,一个第一文字图片中一般仅存在一个正常的且通过机器学习能够直观得到的文字,然后通过对预设数量的第一文字图片进行扭曲处理后可以得到扭曲文字图片训练集,然后通过机器学习进而得到扭曲文字识别模型。
可选的,在本实施例中,对预设数量的含有文字的文字图片进行扭曲处理,得到扭曲文字图片训练集包括但不限于:对每张第一文字图片进行扭曲变换,得到第二文字图片;将第二文字图片通过填充和/或压缩,得到第三文字图片;根据第三文字图片对应的第一文字图片对第三文字图片进行标注,得到扭曲文字图片训练集。
在具体的应用场景中,第二文字图片实际上是扭曲的第一文字图片,其相对于第一文字图片上可能会存在文字图片角度的变化(例如经过0-360°的旋转)以及文字的不规则变形。实际上,扭曲后的文字图片即第二文字图片相对于第一文字图片来说,其像素点会发生一定的变化,因此需要将第二文字图片进行填充或压缩,将其调整为预设像素点的文字图片,即第三文字图片。
具体的,在一种例子中,第三文字图片的预设像素点可以与第一文字图片的像素点相同,例如第一文字图片为x*y像素点,在经过扭曲变换后得到像素点为x1*y1的第二文字图片,如图2所示,经过扭曲变换后的第二文字图片的像素点x1*y1小于第一文字图片的像素点x*y,因此需要将其填充为x*y像素点的第三文字图片。
而在另一种例子中,第三文字图片的预设像素点可以与第一文字图片的像素点不同,例如第一文字图片为x*y像素点,预设像素点为m*n,在经过扭曲变换后得到像素点为x1*y1的第二文字图片,经过扭曲变换后的第二文字图片的像素点x1*y1小于预设像素点m*n,因此需要将其填充为预设像素点为m*n的第三文字图片。
需要说明的是,在实施例中,一种优选的技术方案,填充后的第三文字图片的图片形状大小与第一文字图片相同。在实际的优选的技术方案,填充后的第三文字图片的图片形状大小与第一文字图片可以相同,也可以不同,以上仅是一种优选的实施例,本实施例对此不作任何限定。
在得到第三文字图片后,根据第三文字图片对应的第一文字图片对第三文字图片进行标注,得到扭曲文字图片训练集。也就是说,扭曲文字训练集中的每个第三文字图片分别有其文字真实含义标注(或者说真实值)。
可选的,在本实施例中,对每张第一文字图片进行扭曲变换,得到第二文字图片包括但不限于:对第一文字图片进行旋转,得到第四文字图片;将第四文字图片投影至不规则多边形上,得到第五文字图片,其中,第四文字图片与不规则多边形的边长数量相同;根据预设的插值算法对第五文字图片的像素点进行赋值,得到第二文字图片。
在具体的应用场景中,对第一文字图片的扭曲变换一般分为以下三个步骤:
S1,对第一文字图片的进行旋转角度变换,得到第四文字图片;
具体的,随机生成0度到360度的旋转角度,例如利用(层叠样式表,CascadingStyle Sheet)CSS3中的transform:rotate对图片进行旋转;
S2,将第四文字图片投影到不规则多边形上,得到第五文字图片。
具体的,在本实施例中,需要将第四图片的各点分别投影至一个不规则多边形的定点上,因此,不规则多边形的边长数量与第四文字图片以及第二文字图片均相同。
例如,将像素点为m*n的第四文字图片为一个四边形,则将第四文字图片的各点投影至一个不规则四边形上得到第五文字图片,不规则多边形如图3中的(a)和(b)所示。其中,上述不规则四边形仅是一种示例,具体的可以实际的使用经验进行设置,不会对本发明的实施例产生任何限定。
优选地,在本实施例中,设(u,v)为变换前第四文字图片的坐标,(u1,v1)为变换后第五文字图片的坐标,通过变换矩阵T,其坐标的变换公式如下,可以进行图像的旋转:
S3,得到映射后的第五文字图片的坐标后,利用预设的插值算法对映射后像素点进行赋值,其中,预设的插值算法包括但不限于最邻近插值法、双线性插值法、双三次插值法。
可选的,在本实施例中,对预设数量的第一文字图片进行扭曲变换之前,方法还包括但不限于:获取包含至少一个第六文字图片的原始文字图片;对原始文字图片进行文字分割,得到至少一个第六文字图片;利用预设的去噪算法对至少一个第六文字图片进行去噪处理,得到第七文字图片;根据预设的二值化算法对第七文字图片进行二值化处理,得到至少一个第一文字图片。
在实际的应用场景中,在对第一文字图片进行扭曲变换之前,需要对原始文字图片进行预处理,剔除对扭曲文字识别过程中的其他因素影响。其中,第六文字图片是指对原始文字图片分割得到的文字图片,其中,在一般情况下,一个第六文字图片上仅存在一个文字,也可以为一组字符,本实施例对此不做任何限定。通过对第六文字图片进行去噪处理后得到第七文字图片,能够使文字图片变得更清晰,主体文字更突出。第七文字图片是经过去噪处理的文字图片,在经过去噪处理后的图片中,一般还存在色彩的影响,为了去除文字图片的色彩对文字识别的影响,因此需要对文字图片进行二值化处理,得到灰白或黑白色的文字图片,即第一文字图片。通过此方法既可以对文字图片的图片进行扭曲同时也可以对文字行进行扭曲,使得扭曲文字识别模型的适应性更好。
具体的,对原始文字图片的预处理,可以包括以下几个步骤:
S1,获取数据库中含有文字的原始文字图片,对原始文字图片进行分割后得到第六文字图片,第六文字图片由x*y个像素点组成,需要说明的是此数据库中的第六文字图片的为文字分割后的图片,即一张第六文字图片上具有一个文字,且第六文字图片的分辨率在n(dpi)以上,优选的,n为90;
S2,利用预设去噪算法对第六文字图片进行去噪处理,得到第七第六文字,其中,预设去噪算法包括均值滤波、小波变换和形态学滤波去噪;
S3,利用预设的二值化算法对第七文字图片进行二值化处理,其中,预设二值化算法包括大律法、迭代最优法;
可选的,在本实施例中,通过卷积神经网络对扭曲文字图片训练集进行学习,得到扭曲文字识别模型包括但不限于:将扭曲文字图片训练集中的第三文字图片输入至卷积神经网络,其中,卷积神经网络中包括卷积层、激励层、池化层以及全连接层;利用随机梯度下降法训练卷积神经网络得到扭曲文字识别模型,其中,卷积神经网络中的目标函数为第三文字图片的标签与卷积神经网络预测结果的交叉熵。
在实际的应用场景中,通过卷积神经网络对扭曲文字图片训练集进行学习,得到扭曲文字识别模型,其具体步骤如下:
S1,将曲文字图片训练集中的第三文字图片作为输入,构建多层卷积神经网络;
S2,选择k*k(优选的,k=3)大小的M个卷积核,步长为S(优选的,S=1);在卷积层后设置一个激励层,且选取激活函数为ReLu激活函数;在激励层后设置池化层(例如maxpooling方法),且其池化层大小为s*s,步长为t(优选的,t=s);在池化层后面接维度是d的全连接层;
S3,训练多层卷积神经网络,且卷积神经网络中目标函数为输入的第三文字图片的真实标注(文字图片对应的文字实际含义或实际值)与预测结果的交叉熵;
S4,利用随机梯度下降法对目标卷积神经网络进行训练,进而得到扭曲文字图片的扭曲文字识别模型。
通过本实施例,获取待识别的文字图片,其中,待识别的文字图片中含有扭曲的待识别文字;通过预先训练好的扭曲文字识别模型对待识别的文字图片进行识别,得到识别结果;根据识别结果确定待识别的文字图片中的文字,无须预先对扭曲的图片文字先矫正再识别,从而实现了提高扭曲文字识别率的技术效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述扭曲文字识别方法的扭曲文字识别装置,如图4所示,该装置包括:
1)获取单元40,用于获取待识别的文字图片,其中,待识别的文字图片中含有扭曲的待识别文字;
2)识别单元42,用于通过预先训练好的扭曲文字识别模型对待识别的文字图片进行识别,得到识别结果;
3)确定单元44,用于根据所述识别结果确定待识别的文字图片中的文字。
可选的,所述装置还包括:
1)处理单元,用于在通过预先训练好的扭曲文字识别模型对待识别的文字图片进行识别之前,对预设数量的含有文字的第一文字图片进行扭曲处理,得到扭曲文字图片训练集;
2)训练单元,用于通过卷积神经网络对所述扭曲文字图片训练集进行学习,得到扭曲文字识别模型。
可选地,本实施例中的具体示例可以参考上述实施例1中所描述的示例,本实施例在此不再赘述。
实施例3
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上所述的扭曲文字的识别方法
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,获取待识别的文字图片,其中,待识别的文字图片中含有扭曲的待识别文字;
S2,通过预先训练好的扭曲文字识别模型对待识别的文字图片进行识别,得到识别结果;
S3,根据所述识别结果确定待识别的文字图片中的文字。
可选地,本实施例中的具体示例可以参考上述实施例1中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
实施例4
本发明的实施例还提供了一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如上所述的扭曲文字的识别方法。
可选地,在本实施例中,处理器被设置为用于执行以下步骤的程序代码:
S1,获取待识别的文字图片,其中,待识别的文字图片中含有扭曲的待识别文字;
S2,通过预先训练好的扭曲文字识别模型对待识别的文字图片进行识别,得到识别结果;
S3,根据所述识别结果确定待识别的文字图片中的文字。可选地,存储介质还被设置为存储用于执行上述实施例1中的方法中所包括的步骤的程序代码,本实施例中对此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种扭曲文字的识别方法,其特征在于,包括:
获取待识别的文字图片,其中,待识别的文字图片中含有扭曲的待识别文字;
通过预先训练好的扭曲文字识别模型对待识别的文字图片进行识别,得到识别结果;
根据所述识别结果确定待识别的文字图片中的文字;
其中,在通过预先训练好的扭曲文字识别模型对待识别的文字图片进行识别之前,所述方法还包括:
对预设数量的含有文字的第一文字图片进行扭曲处理,得到扭曲文字图片训练集;
通过卷积神经网络对所述扭曲文字图片训练集进行学习,得到扭曲文字识别模型;
其中,对预设数量的含有文字的文字图片进行扭曲处理,得到扭曲文字图片训练集包括:
对每张第一文字图片进行扭曲变换,得到第二文字图片;
将所述第二文字图片通过填充和/或压缩,得到第三文字图片;
根据所述第三文字图片对应的第一文字图片对所述第三文字图片进行标注,得到所述扭曲文字图片训练集;
其中,对每张第一文字图片进行扭曲变换,得到第二文字图片包括:
对所述第一文字图片进行旋转,得到第四文字图片;
将所述第四文字图片投影至不规则多边形上,得到第五文字图片,其中,所述第四文字图片与所述不规则多边形的边长数量相同;
根据预设的插值算法对所述第五文字图片的像素点进行赋值,得到所述第二文字图片。
2.根据权利要求1所述的方法,其特征在于,在对每张第一文字图片进行扭曲变换之前,所述方法还包括:
获取包含至少一个第六文字图片的原始文字图片;
对所述原始文字图片进行文字分割,得到至少一个所述第六文字图片;
利用预设的去噪算法对所述至少一个第六文字图片进行去噪处理,得到第七文字图片;
根据预设的二值化算法对所述第七文字图片进行二值化处理,得到至少一个所述第一文字图片。
3.根据权利要求1所述的方法,其特征在于,通过卷积神经网络对所述扭曲文字图片训练集进行学习,得到扭曲文字识别模型包括:
将所述扭曲文字图片训练集中的第三文字图片输入至所述卷积神经网络,其中,所述卷积神经网络中包括卷积层、激励层、池化层以及全连接层;
利用随机梯度下降法训练所述卷积神经网络得到所述扭曲文字识别模型,
其中,所述卷积神经网络中的目标函数为所述第三文字图片的标签与所述卷积神经网络预测结果的交叉熵。
4.一种扭曲文字的识别装置,其特征在于,包括:
获取单元,用于获取待识别的文字图片,其中,待识别的文字图片中含有扭曲的待识别文字;
识别单元,用于通过预先训练好的扭曲文字识别模型对待识别的文字图片进行识别,得到识别结果;
确定单元,用于根据所述识别结果确定待识别的文字图片中的文字;
其中,所述装置还包括:
处理单元,用于在通过预先训练好的扭曲文字识别模型对待识别的文字图片进行识别之前,对预设数量的含有文字的第一文字图片进行扭曲处理,得到扭曲文字图片训练集;
训练单元,用于通过卷积神经网络对所述扭曲文字图片训练集进行学习,得到扭曲文字识别模型;
其中,对预设数量的含有文字的文字图片进行扭曲处理,得到扭曲文字图片训练集包括:
对每张第一文字图片进行扭曲变换,得到第二文字图片;
将所述第二文字图片通过填充和/或压缩,得到第三文字图片;
根据所述第三文字图片对应的第一文字图片对所述第三文字图片进行标注,得到所述扭曲文字图片训练集;
其中,对每张第一文字图片进行扭曲变换,得到第二文字图片包括:
对所述第一文字图片进行旋转,得到第四文字图片;
将所述第四文字图片投影至不规则多边形上,得到第五文字图片,其中,所述第四文字图片与所述不规则多边形的边长数量相同;
根据预设的插值算法对所述第五文字图片的像素点进行赋值,得到所述第二文字图片。
5.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至3中任意一项所述的扭曲文字的识别方法。
6.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至3中任意一项所述的扭曲文字的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811474269.8A CN109598270B (zh) | 2018-12-04 | 2018-12-04 | 扭曲文字的识别方法及装置、存储介质及处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811474269.8A CN109598270B (zh) | 2018-12-04 | 2018-12-04 | 扭曲文字的识别方法及装置、存储介质及处理器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109598270A CN109598270A (zh) | 2019-04-09 |
CN109598270B true CN109598270B (zh) | 2020-05-05 |
Family
ID=65960910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811474269.8A Active CN109598270B (zh) | 2018-12-04 | 2018-12-04 | 扭曲文字的识别方法及装置、存储介质及处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109598270B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414519B (zh) * | 2019-06-27 | 2023-11-14 | 众安信息技术服务有限公司 | 一种图片文字的识别方法及其识别装置、存储介质 |
CN110490232B (zh) * | 2019-07-18 | 2021-08-13 | 北京捷通华声科技股份有限公司 | 训练文字行方向预测模型的方法、装置、设备、介质 |
CN111260586B (zh) | 2020-01-20 | 2023-07-04 | 北京百度网讯科技有限公司 | 扭曲文档图像的矫正方法和装置 |
WO2022047662A1 (en) * | 2020-09-02 | 2022-03-10 | Intel Corporation | Method and system of neural network object recognition for warpable jerseys with multiple attributes |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104732226A (zh) * | 2015-03-31 | 2015-06-24 | 浪潮集团有限公司 | 一种字符识别方法和装置 |
CN104966097A (zh) * | 2015-06-12 | 2015-10-07 | 成都数联铭品科技有限公司 | 一种基于深度学习的复杂文字识别方法 |
CN105488543A (zh) * | 2014-09-16 | 2016-04-13 | 科大讯飞股份有限公司 | 一种获得识别模型的方法及装置 |
CN107967475A (zh) * | 2017-11-16 | 2018-04-27 | 广州探迹科技有限公司 | 一种基于窗口滑动和卷积神经网络的验证码识别方法 |
CN108427953A (zh) * | 2018-02-26 | 2018-08-21 | 北京易达图灵科技有限公司 | 一种文字识别方法及装置 |
CN108681735A (zh) * | 2018-03-28 | 2018-10-19 | 中科博宏(北京)科技有限公司 | 基于卷积神经网络深度学习模型的光学字符识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104618350B (zh) * | 2015-01-15 | 2018-03-16 | 湘潭大学 | 一种图片验证码的生成方法 |
CN104700441B (zh) * | 2015-02-05 | 2018-03-30 | 北京京东尚科信息技术有限公司 | 一种图片验证码生成方法及系统 |
CN108073556A (zh) * | 2016-11-14 | 2018-05-25 | 英业达科技有限公司 | 字串辨识方法与机器学习方法 |
-
2018
- 2018-12-04 CN CN201811474269.8A patent/CN109598270B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488543A (zh) * | 2014-09-16 | 2016-04-13 | 科大讯飞股份有限公司 | 一种获得识别模型的方法及装置 |
CN104732226A (zh) * | 2015-03-31 | 2015-06-24 | 浪潮集团有限公司 | 一种字符识别方法和装置 |
CN104966097A (zh) * | 2015-06-12 | 2015-10-07 | 成都数联铭品科技有限公司 | 一种基于深度学习的复杂文字识别方法 |
CN107967475A (zh) * | 2017-11-16 | 2018-04-27 | 广州探迹科技有限公司 | 一种基于窗口滑动和卷积神经网络的验证码识别方法 |
CN108427953A (zh) * | 2018-02-26 | 2018-08-21 | 北京易达图灵科技有限公司 | 一种文字识别方法及装置 |
CN108681735A (zh) * | 2018-03-28 | 2018-10-19 | 中科博宏(北京)科技有限公司 | 基于卷积神经网络深度学习模型的光学字符识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109598270A (zh) | 2019-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109598270B (zh) | 扭曲文字的识别方法及装置、存储介质及处理器 | |
US20190304066A1 (en) | Synthesis method of chinese printed character images and device thereof | |
EP3882822A1 (en) | Encoded pattern processing method and device , storage medium and electronic device | |
CN111488881A (zh) | 文本图像中手写内容去除方法、装置、存储介质 | |
CN109829453A (zh) | 一种卡证中文字的识别方法、装置以及计算设备 | |
CN108846385B (zh) | 基于卷积-反卷积神经网络的图像识别、校正方法和装置 | |
Attivissimo et al. | An automatic reader of identity documents | |
CN112560861A (zh) | 票据处理方法、装置、设备及存储介质 | |
CN109635805B (zh) | 图像文本定位方法及装置、图像文本识别方法及装置 | |
CN110188762B (zh) | 中英文混合商户门店名称识别方法、系统、设备及介质 | |
CN111275139A (zh) | 手写内容去除方法、手写内容去除装置、存储介质 | |
CN111223065A (zh) | 图像矫正方法、不规则文本识别方法、装置、存储介质和设备 | |
US8195626B1 (en) | Compressing token-based files for transfer and reconstruction | |
CN113592735A (zh) | 文本页面图像还原方法及系统、电子设备和计算机可读介质 | |
CN111027545A (zh) | 卡证图片标志检测方法、装置、计算机设备及存储介质 | |
CN111667556A (zh) | 表格矫正方法及装置 | |
Nachappa et al. | Adaptive dewarping of severely warped camera-captured document images based on document map generation | |
CN114519788A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
Dey | Image Processing Masterclass with Python: 50+ Solutions and Techniques Solving Complex Digital Image Processing Challenges Using Numpy, Scipy, Pytorch and Keras (English Edition) | |
CN108133205B (zh) | 复制图像中文本内容的方法及装置 | |
CN111767924A (zh) | 图像处理方法、图像处理装置、电子设备、存储介质 | |
JP5998090B2 (ja) | 画像照合装置、画像照合方法、画像照合プログラム | |
CN115187834A (zh) | 一种票据识别的方法及装置 | |
CN113793264A (zh) | 一种基于卷积模型的档案图像处理方法、系统和电子设备 | |
CN113065619A (zh) | 数据处理方法、装置、计算机可读存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: 519031 office 1316, No. 1, lianao Road, Hengqin new area, Zhuhai, Guangdong Patentee after: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd. Address before: 519000 room 417, building 20, creative Valley, Hengqin new area, Xiangzhou, Zhuhai, Guangdong Patentee before: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd. |
|
PP01 | Preservation of patent right | ||
PP01 | Preservation of patent right |
Effective date of registration: 20240718 Granted publication date: 20200505 |