CN114005127A - 一种基于深度学习的图像光学文字识别方法,存储装置及服务器 - Google Patents
一种基于深度学习的图像光学文字识别方法,存储装置及服务器 Download PDFInfo
- Publication number
- CN114005127A CN114005127A CN202111346096.3A CN202111346096A CN114005127A CN 114005127 A CN114005127 A CN 114005127A CN 202111346096 A CN202111346096 A CN 202111346096A CN 114005127 A CN114005127 A CN 114005127A
- Authority
- CN
- China
- Prior art keywords
- text
- neural network
- layer
- scale
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于深度学习的图像光学文字识别方法,首先将所有的图片都会被缩放到640x640的尺寸,然后训练时对图片进行数据增强,包括随机扰动、翻转、裁剪等,除此之外,增加了尺度变换,随机将图片尺度变换到一定范围的尺度,增强文本在图像中的的尺度变化,增加训练样本在不同尺度上的多样性,改变训练样本的分布,重点关注较小的文本。然后经过第三神经网络,得到7个特征图。将第一区域经过并查集操作,得到实例分割的结果,将每个文本区域都单独分割出来。然后得到文本区域的骨架线。再结合预测的半径,得到最终的文本检测的文本。本发明提供的方法,可以适应于各种形状的文本。本发明在电子称重设备、地磅计重设备、电子联单等具有良好的识别效果。
Description
技术领域
本发明属于深度学习领域,具体涉及一种基于深度学习的图像光学文字识别方法。
背景技术
OCR的概念是在1929年由德国科学家Tausheck最先提出来的,后来美国科学家Handel也提出了利用技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,1966年他们发表了第一篇关于汉字识别的文章,采用了模板匹配法识别了1000个印刷体汉字。OCR的应用场景包括但不限于电子称重设备、地磅计重设备、打印机、电子联单等文字识别。
光学文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是光学文字识别最重要的课题,智能字符识别的名词也因此而产生。衡量一个光学文字识别系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
目前文本检测有以下几种机制:基于轴对齐方式的矩形框,只对水平和竖直的文本奏效,对于倾斜,弯折,曲面的文本,会引入好多背景无关区域。基于旋转的矩形框,也就是在基于轴对齐方式的基础上加入了角度信息。可以适应于倾斜的文本,但是对于弯折,曲面的文本还是回引入背景无关区域。基于凸四边形的方法,依然对曲面,弯折的文本无法适应。
发明内容
本发明的发明目的是,提供一种对不规则文本图像可以准确识别的光学文字识别方法。
本发明提供一种基于深度学习的图像光学文字识别方法,包括以下步骤,S1将图片缩放到640x640尺寸;
S2对图片进行数据增强,包括随机扰动、翻转、裁剪,增加了尺度变换,随机将图片尺度变换到预设范围的尺度;
S3改变训练样本的分布,经过第三神经网络,得到7个特征图,所述7个特征图包括2个文本区域,2个文本中心线,1个圆环的半径,一个角度的余弦值cosθ,一个角度的正弦值sinθ,所述第三神经网络由第一神经网络和第二神经网络构成,其中θ表示切线角度;
S4由文本区域和文本中心线相乘得到第一区域,将第一区域经过并查集操作,得到实例分割的结果,将每个文本区域都单独分割出来,然后经过第一算法,得到文本区域的骨架线,再结合预测的半径,得到最终的文本检测的文本。
进一步的,所述第一神经网络对图像进行像素级的分类,第一神经网络接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征地图进行上采样,使输出图像恢复到输入图像相同的尺寸,对每个像素都产生了一个预测,同时保留原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。
进一步的,所述第二神经网络第构建包括以下步骤:
第一步,将第一神经网络的输出作为第二神经网络的输入,构建自下而上网络;
第二步构建对应的自上而下网络,进行上采样操作,先用1x1的卷积对倒数第二层进行降维处理,然后将倒数第二层和倒数第一层逐元素相加,最后进行3x3的卷积操作;
第三步重复第二步,依次倒序操,建立第二神经网络结构,选择网络输出分支,连接对应的分类层和回归层。
本发明提供一种存储装置,其中存储有多条指令,所述指令适于由处理器加载并执行:
S1将图片缩放到640x640尺寸;
S2对图片进行数据增强,包括随机扰动、翻转、裁剪,增加了尺度变换,随机将图片尺度变换到预设范围的尺度;
S3改变训练样本的分布,经过第三神经网络,得到7个特征图,所述7个特征图包括2个文本区域,2个文本中心线,1个圆环的半径,一个角度的余弦值cosθ,一个角度的正弦值sinθ,所述第三神经网络由第一神经网络和第二神经网络构成,,其中θ表示切线角度;
S4由文本区域和文本中心线相乘得到第一区域,将第一区域经过并查集操作,得到实例分割的结果,将每个文本区域都单独分割出来,然后经过第一算法,得到文本区域的骨架线,再结合预测的半径,得到最终的文本检测的文本。
进一步的,所述第一神经网络对图像进行像素级的分类,第一神经网络接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征地图进行上采样,使输出图像恢复到输入图像相同的尺寸,对每个像素都产生了一个预测,同时保留原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。
进一步的,所述第二神经网络第构建包括以下步骤:
第一步,将第一神经网络的输出作为第二神经网络的输入,构建自下而上网络;
第二步构建对应的自上而下网络,进行上采样操作,先用1x1的卷积对倒数第二层进行降维处理,然后将倒数第二层和倒数第一层逐元素相加,最后进行3x3的卷积操作;
第三步重复第二步,依次倒序操,建立第二神经网络结构,选择网络输出分支,连接对应的分类层和回归层。
本发明提供一种服务器,包括
处理器,适于实现各指令;以及
存储装置,适于存储多条指令,所述指令适于由处理器加载并执行:
S1将图片缩放到640x640尺寸;
S2对图片进行数据增强,包括随机扰动、翻转、裁剪,增加了尺度变换,随机将图片尺度变换到预设范围的尺度;
S3改变训练样本的分布,经过第三神经网络,得到7个特征图,所述7个特征图包括2个文本区域,2个文本中心线,1个圆环的半径,一个角度的余弦值cosθ,一个角度的正弦值sinθ,所述第三神经网络由第一神经网络和第二神经网络构成,其中θ表示切线角度;
S4由文本区域和文本中心线相乘得到第一区域,将第一区域经过并查集操作,得到实例分割的结果,将每个文本区域都单独分割出来,然后经过第一算法,得到文本区域的骨架线,再结合预测的半径,得到最终的文本检测的文本。
进一步的,所述第一神经网络对图像进行像素级的分类,第一神经网络接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征地图进行上采样,使输出图像恢复到输入图像相同的尺寸,对每个像素都产生了一个预测,同时保留原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。
进一步的,所述第二神经网络第构建包括以下步骤:
第一步,将第一神经网络的输出作为第二神经网络的输入,构建自下而上网络;
第二步构建对应的自上而下网络,进行上采样操作,先用1x1的卷积对倒数第二层进行降维处理,然后将倒数第二层和倒数第一层逐元素相加,最后进行3x3的卷积操作;
第三步重复第二步,依次倒序操,建立第二神经网络结构,选择网络输出分支,连接对应的分类层和回归层。
本发明的有益效果是,本发明提供的方法,可以适应于各种形状的文本。具有良好的识别效果。
附图说明
图1光学文字识别流程。
图2光学文字识别模型。
图3光学文字训练和推理流程。
具体实施方式
由于扫描仪的普及与广泛应用,OCR软件只需提供与扫描仪的接口,利用扫描仪驱动软件即可。因此,OCR软件主要是由下面几个部分组成。
图像输入、预处理:
图像输入:对于不同的图像格式,有着不同的存储格式,不同的压缩方式,目前有OpenCV,CxImage等开源项目。预处理:主要包括二值化,噪声去除,倾斜较正等
二值化:对摄像头拍摄的图片,大多数是彩色图像,彩色图像所含信息量巨大,对于图片的内容,我们可以简单的分为前景与背景,为了让计算机更快的,更好的识别文字,我们需要先对彩色图进行处理,使图片只前景信息与背景信息,可以简单的定义前景信息为黑色,背景信息为白色,这就是二值化图了。
噪声去除:对于不同的文档,我们对噪声的定义可以不同,根据噪声的特征进行去噪,就叫做噪声去除
倾斜较正:由于一般用户,在拍照文档时,都比较随意,因此拍照出来的图片不可避免的产生倾斜,这就需要文字识别软件进行较正。
版面分析:将文档图片分段落,分行的过程就叫做版面分析,由于实际文档的多样性,复杂性,因此,目前还没有一个固定的,最优的切割模型。
字符切割:由于拍照条件的限制,经常造成字符粘连,断笔,因此极大限制了识别系统的性能,这就需要文字识别软件有字符切割功能。
字符识别:较早有模板匹配,后来以特征提取为主,由于文字的位移,笔画的粗细,断笔,粘连,旋转等因素的影响,极大影响特征的提取的难度。
版面恢复:人们希望识别后的文字,仍然像原文档图片那样排列着,段落不变,位置不变,顺序不变地输出到word文档、pdf文档等,这一过程就叫做版面恢复。
后处理、校对:根据特定的语言上下文的关系,对识别结果进行较正,就是后处理。
本发明提供了一种基于深度学习的图像文字识别方法。该方法通过神经网络提取图片特征信息,实现文本识别,本发明在应对不规则文本时表现良好。发明所用的深度学习模型如图2。
在本发明中,对于输入的一张图片,首先将所有的图片都会被缩放到640x640的尺寸,然后训练时对图片进行数据增强,包括随机扰动、翻转、裁剪等,除此之外,增加了尺度变换,随机将图片尺度变换到一定范围的尺度,大大增强图文在图像中的的尺度变化,增加训练样本在不同尺度上的多样性,改变训练样本的分布,重点关注较小的文本。然后经过第三神经网络,得到7个特征图。包括2个文本区域,2个文本中心线,1个圆环的半径,一个角度的余弦值cosθ,一个角度的正弦值sinθ。
第一区域由文本区域和文本中心线相乘得到,表示在文本区域区域上提取的文本中心线。将第一区域经过并查集操作,可以得到实例分割的结果,将每个文本区域都单独分割出来。然后经过第一算法,可以得到文本区域的骨架线。再结合预测的半径,得到最终的文本检测的文本。
以下为本发明中关键技术的具体说明:
第一神经网络:本发明主干网络,用来提取图片逐像素特征的基础网络。
第一神经网络对图像进行像素级的分类,从而解决了语义级别的图像分割问题。与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类(全联接层+softmax输出)不同,第一神经网络可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征地图进行上采样,使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。
第二神经网络为本发明主干网络,用来提取图片特征的基础网络。
第一步,将第一神经网络的输出作为第二神经网络的输入,构建自下而上网络;
第二步构建对应的自上而下网络,进行上采样操作,先用1x1的卷积对倒数第二层进行降维处理,然后将倒数第二层和倒数第一层逐元素相加,最后进行3x3的卷积操作;
第三步重复第二步,依次倒序操,建立第二神经网络结构,选择网络输出分支,连接对应的分类层和回归层。
在本发明中,光学文本识别的工作流程如图1,具体流程说明如下:
1.将所有的图片都会被缩放到指定尺寸,训练时对图片进行数据增强,包括随机扰动、翻转、裁剪等,除此之外,增加了尺度变换,随机将图片尺度变换到一定范围的尺度,大大增强图文在图像中的的尺度变化,增加训练样本在不同尺度上的多样性,改变训练样本的分布,重点关注较小的文本。
2.经过第三神经网络,得到7个特征图。包括2个文本区域文本区域,2个文本中心线文本中心线,1个圆环的半径一个角度的余弦值cosθ,一个角度的正弦值sinθ;
3.第一区域由文本区域和文本中心线相乘得到,表示在文本区域上提取的文本中心线;
4.将第一区域经过并查集操作,可以得到实例分割的结果,将每个文本区域都单独分割出来;
5.然后经过第一算法,可以得到文本区域的骨架线;
6.再结合预测的半径,得到最终的文本检测的文本。
在本发明中,光学文本识别的工作流程如图3,具体流程说明如下:
1.首先通过摄像头采集视频图像信息;
2.标注数据,其格式为x、y、w、h、label,每个字母表示的信息依次为标注框的横坐标、纵坐标、框宽、框高和框标签;
3.按8:2拆分数据集为训练集和验证集;
4.数据增强和归一化训练集
5.计算训练集的RGB平均值和方差;
6.训练和验证模型;
7.导出模型;
8.使用模型进行实时在线图像光学文字识别。
在本发明中采用第一指标描述的是图片中文本的数据量,用于衡量神经网络输出质量,第一指标采用以下公式计算:
本发明采用第二指标描述特征的重要性,在本发明中,通过DiYi(D)获取第一指标,然后计算DiEr(A),得到第二指标。
对于数据集D和属性子集A,根据A取值将D分为了V个子集
{D1,D2,...,DV},
在属性子集A中,任意选择一个属性a,遍历其所有可能取值,根据下式找出属性a最优划分点v*:
其中,R1(a,v)={x|x∈Da≤v},R2(a,v)={x|x∈Da>v},c1,c2分别为集合R1(a,v)和R2(a,v)中样本xi对应输出值yi的均值,v表示子集的序号,i表示样本的序号和以及对应输出值的序号,即
在本发明中用于神经网络中的上采样,分两个步骤计算,ave表示求平均函数。
1.计算原图坐标:
srcX=dstX×(srcW/dstW)
srcY=dstY×(srcH/dstH)
其中srcX、srcY、srcH、srcW依次为原始图像像素的横坐标、像素的纵坐标、图高、图宽,dstX、dstY、dstH、dstW依次为目标图像像素的横坐标、像素的纵坐标、图高、图宽
坐标向左取整数,获取原始图像中像素的坐标x,y:
x=math.floor(scrx)
y=math.floor(scry)
2.计算偏移量u、v:
u=scrx-x
v=scry-y
计算上采样中(i,j)位置的结果,其中i∈[0,dstW),j∈[0,dstH):dst[i,j]=(1-u)×(1-v)×sre[x,y]+u×(1-v)×sre[x+1,y]+(1-u)×v×sre[x,y+1]+u×v×sre[x+1,y+1],其中sre[x,y]为原图中第x行,第y列像素,dst[i,j]为目标图中第i行,第j列像素。
本发明采用第一算法,获取文本区域的骨架线:
将给定的点重新定位到中轴;
随机选择文本中心线上的一个点,画出切线和法线,通过法线与文本中心线区域交点的中点获得中点。
向下一个搜索点迈出一大步,分别朝向文本实例的两个末端方向搜索;
如果下一步是在文本中心线区域之外,则逐渐减少步幅,直到它在区域内,或到达末端。
在中轴线上迭代并沿中轴线绘制圆圈,圆的半径是r。圆圈所涵盖的区域表示预测的文本实例。
本发明的有益效果是,本发明提供的方法,可以适应于各种形状的文本。具有良好的识别效果。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于深度学习的图像光学文字识别方法,其特征在于,包括以下步骤,
S1将图片缩放到640x640尺寸;
S2对图片进行数据增强,包括随机扰动、翻转、裁剪,增加了尺度变换,随机将图片尺度变换到预设范围的尺度;
S3改变训练样本的分布,经过第三神经网络,得到7个特征图,所述7个特征图包括2个文本区域,2个文本中心线,1个圆环的半径,一个角度的余弦值cosθ,一个角度的正弦值sinθ,所述第三神经网络由第一神经网络和第二神经网络构成,其中θ表示切线角度;
S4由文本区域和文本中心线相乘得到第一区域,将第一区域经过并查集操作,得到实例分割的结果,将每个文本区域都单独分割出来,然后经过第一算法,得到文本区域的骨架线,再结合预测的半径,得到最终的文本检测的文本。
2.如权利要求1所述的一种基于深度学习的图像光学文字识别方法,其特征在于,
所述第一神经网络对图像进行像素级的分类,第一神经网络接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征地图进行上采样,使输出图像恢复到输入图像相同的尺寸,对每个像素都产生一个预测,同时保留原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。
3.如权利要求1所述的一种基于深度学习的图像光学文字识别方法,其特征在于,
所述第二神经网络第构建包括以下步骤:
第一步,将第一神经网络的输出作为第二神经网络的输入,构建自下而上网络;
第二步构建对应的自上而下网络,进行上采样操作,先用1x1的卷积对倒数第二层进行降维处理,然后将倒数第二层和倒数第一层逐元素相加,最后进行3x3的卷积操作;
第三步重复第二步,依次倒序操,建立第二神经网络结构,选择网络输出分支,连接对应的分类层和回归层。
4.一种存储装置,其特征在于,其中存储有多条指令,所述指令适于由处理器加载并执行:
S1将图片缩放到640x640尺寸;
S2对图片进行数据增强,包括随机扰动、翻转、裁剪,增加了尺度变换,随机将图片尺度变换到预设范围的尺度;
S3改变训练样本的分布,经过第三神经网络,得到7个特征图,所述7个特征图包括2个文本区域,2个文本中心线,1个圆环的半径,一个角度的余弦值cosθ,一个角度的正弦值sinθ,所述第三神经网络由第一神经网络和第二神经网络构成,其中θ表示切线角度;
S4由文本区域和文本中心线相乘得到第一区域,将第一区域经过并查集操作,得到实例分割的结果,将每个文本区域都单独分割出来,然后经过第一算法,得到文本区域的骨架线,再结合预测的半径,得到最终的文本检测的文本。
5.如权利要求4所述的一种存储装置,其特征在于,
所述第一神经网络对图像进行像素级的分类,第一神经网络接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征地图进行上采样,使输出图像恢复到输入图像相同的尺寸,对每个像素都产生了一个预测,同时保留原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。
6.如权利要求4所述的一种存储装置,其特征在于,
所述第二神经网络第构建包括以下步骤:
第一步,将第一神经网络的输出作为第二神经网络的输入,构建自下而上网络;
第二步构建对应的自上而下网络,进行上采样操作,先用1x1的卷积对倒数第二层进行降维处理,然后将倒数第二层和倒数第一层逐元素相加,最后进行3x3的卷积操作;
第三步重复第二步,依次倒序操,建立第二神经网络结构,选择网络输出分支,连接对应的分类层和回归层。
7.一种服务器,其特征在于,包括
处理器,适于实现各指令;以及
存储装置,适于存储多条指令,所述指令适于由处理器加载并执行:
S1将图片缩放到640x640尺寸;
S2对图片进行数据增强,包括随机扰动、翻转、裁剪,增加了尺度变换,随机将图片尺度变换到预设范围的尺度;
S3改变训练样本的分布,经过第三神经网络,得到7个特征图,所述7个特征图包括2个文本区域,2个文本中心线,1个圆环的半径,一个角度的余弦值cosθ,一个角度的正弦值sinθ,所述第三神经网络由第一神经网络和第二神经网络构成,其中θ表示切线角度;
S4由文本区域和文本中心线相乘得到第一区域,将第一区域经过并查集操作,得到实例分割的结果,将每个文本区域都单独分割出来,然后经过第一算法,得到文本区域的骨架线,再结合预测的半径,得到最终的文本检测的文本。
8.如权利要求7所述的一种服务器,其特征在于,
所述第一神经网络对图像进行像素级的分类,第一神经网络接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征地图进行上采样,使输出图像恢复到输入图像相同的尺寸,对每个像素都产生了一个预测,同时保留原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。
9.如权利要求7所述的一种服务器,其特征在于,
所述第二神经网络第构建包括以下步骤:
第一步,将第一神经网络的输出作为第二神经网络的输入,构建自下而上网络;
第二步构建对应的自上而下网络,进行上采样操作,先用1x1的卷积对倒数第二层进行降维处理,然后将倒数第二层和倒数第一层逐元素相加,最后进行3x3的卷积操作;
第三步重复第二步,依次倒序操,建立第二神经网络结构,选择网络输出分支,连接对应的分类层和回归层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111346096.3A CN114005127A (zh) | 2021-11-15 | 2021-11-15 | 一种基于深度学习的图像光学文字识别方法,存储装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111346096.3A CN114005127A (zh) | 2021-11-15 | 2021-11-15 | 一种基于深度学习的图像光学文字识别方法,存储装置及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114005127A true CN114005127A (zh) | 2022-02-01 |
Family
ID=79928971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111346096.3A Pending CN114005127A (zh) | 2021-11-15 | 2021-11-15 | 一种基于深度学习的图像光学文字识别方法,存储装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114005127A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792422A (zh) * | 2022-05-16 | 2022-07-26 | 合肥优尔电子科技有限公司 | 一种基于增强透视的光学文字识别方法 |
CN115880699A (zh) * | 2023-03-03 | 2023-03-31 | 济南市莱芜区综合检验检测中心 | 一种食品包装袋检测方法及系统 |
-
2021
- 2021-11-15 CN CN202111346096.3A patent/CN114005127A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792422A (zh) * | 2022-05-16 | 2022-07-26 | 合肥优尔电子科技有限公司 | 一种基于增强透视的光学文字识别方法 |
CN114792422B (zh) * | 2022-05-16 | 2023-12-12 | 合肥优尔电子科技有限公司 | 一种基于增强透视的光学文字识别方法 |
CN115880699A (zh) * | 2023-03-03 | 2023-03-31 | 济南市莱芜区综合检验检测中心 | 一种食品包装袋检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Al-Ma'adeed et al. | A data base for Arabic handwritten text recognition research | |
US8442319B2 (en) | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking | |
US8750619B2 (en) | Character recognition | |
Dave | Segmentation methods for hand written character recognition | |
CN110210413A (zh) | 一种基于深度学习的多学科试卷内容检测与识别系统及方法 | |
US20240037969A1 (en) | Recognition of handwritten text via neural networks | |
CN111401099B (zh) | 文本识别方法、装置以及存储介质 | |
CN114005127A (zh) | 一种基于深度学习的图像光学文字识别方法,存储装置及服务器 | |
CN111523622B (zh) | 基于特征图像自学习的机械臂模拟手写笔迹方法 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN113901952A (zh) | 一种基于深度学习的印刷体与手写体分开文字识别方法 | |
CN113723252A (zh) | 一种表格型文本图片的识别方法和系统 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
Al-Sheikh et al. | A review of arabic text recognition dataset | |
CN115311666A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
CN114937278A (zh) | 基于行文本框分词算法的文本内容提取识别方法 | |
Ovodov | Optical Braille recognition using object detection neural network | |
CN108090728B (zh) | 一种基于智能终端的快递信息录入方法及录入系统 | |
Gupta et al. | Machine learning tensor flow based platform for recognition of hand written text | |
Qureshi et al. | A novel offline handwritten text recognition technique to convert ruled-line text into digital text through deep neural networks | |
Aravinda et al. | Template matching method for Kannada handwritten recognition based on correlation analysis | |
CN111213157A (zh) | 一种基于智能终端的快递信息录入方法及录入系统 | |
US20240144711A1 (en) | Reliable determination of field values in documents with removal of static field elements | |
Kumar et al. | Online handwritten character recognition for Telugu language using support vector machines | |
Reul et al. | Automatic Semantic Text Tagging on Historical Lexica by Combining OCR and Typography Classification: A Case Study on Daniel Sander's Wörterbuch der Deutschen Sprache |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |