CN114005127A - 一种基于深度学习的图像光学文字识别方法,存储装置及服务器 - Google Patents

一种基于深度学习的图像光学文字识别方法,存储装置及服务器 Download PDF

Info

Publication number
CN114005127A
CN114005127A CN202111346096.3A CN202111346096A CN114005127A CN 114005127 A CN114005127 A CN 114005127A CN 202111346096 A CN202111346096 A CN 202111346096A CN 114005127 A CN114005127 A CN 114005127A
Authority
CN
China
Prior art keywords
text
neural network
layer
scale
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111346096.3A
Other languages
English (en)
Inventor
孙德亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Re Cloud Technology Co ltd
Original Assignee
China Re Cloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Re Cloud Technology Co ltd filed Critical China Re Cloud Technology Co ltd
Priority to CN202111346096.3A priority Critical patent/CN114005127A/zh
Publication of CN114005127A publication Critical patent/CN114005127A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于深度学习的图像光学文字识别方法,首先将所有的图片都会被缩放到640x640的尺寸,然后训练时对图片进行数据增强,包括随机扰动、翻转、裁剪等,除此之外,增加了尺度变换,随机将图片尺度变换到一定范围的尺度,增强文本在图像中的的尺度变化,增加训练样本在不同尺度上的多样性,改变训练样本的分布,重点关注较小的文本。然后经过第三神经网络,得到7个特征图。将第一区域经过并查集操作,得到实例分割的结果,将每个文本区域都单独分割出来。然后得到文本区域的骨架线。再结合预测的半径,得到最终的文本检测的文本。本发明提供的方法,可以适应于各种形状的文本。本发明在电子称重设备、地磅计重设备、电子联单等具有良好的识别效果。

Description

一种基于深度学习的图像光学文字识别方法,存储装置及服 务器
技术领域
本发明属于深度学习领域,具体涉及一种基于深度学习的图像光学文字识别方法。
背景技术
OCR的概念是在1929年由德国科学家Tausheck最先提出来的,后来美国科学家Handel也提出了利用技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,1966年他们发表了第一篇关于汉字识别的文章,采用了模板匹配法识别了1000个印刷体汉字。OCR的应用场景包括但不限于电子称重设备、地磅计重设备、打印机、电子联单等文字识别。
光学文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是光学文字识别最重要的课题,智能字符识别的名词也因此而产生。衡量一个光学文字识别系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
目前文本检测有以下几种机制:基于轴对齐方式的矩形框,只对水平和竖直的文本奏效,对于倾斜,弯折,曲面的文本,会引入好多背景无关区域。基于旋转的矩形框,也就是在基于轴对齐方式的基础上加入了角度信息。可以适应于倾斜的文本,但是对于弯折,曲面的文本还是回引入背景无关区域。基于凸四边形的方法,依然对曲面,弯折的文本无法适应。
发明内容
本发明的发明目的是,提供一种对不规则文本图像可以准确识别的光学文字识别方法。
本发明提供一种基于深度学习的图像光学文字识别方法,包括以下步骤,S1将图片缩放到640x640尺寸;
S2对图片进行数据增强,包括随机扰动、翻转、裁剪,增加了尺度变换,随机将图片尺度变换到预设范围的尺度;
S3改变训练样本的分布,经过第三神经网络,得到7个特征图,所述7个特征图包括2个文本区域,2个文本中心线,1个圆环的半径,一个角度的余弦值cosθ,一个角度的正弦值sinθ,所述第三神经网络由第一神经网络和第二神经网络构成,其中θ表示切线角度;
S4由文本区域和文本中心线相乘得到第一区域,将第一区域经过并查集操作,得到实例分割的结果,将每个文本区域都单独分割出来,然后经过第一算法,得到文本区域的骨架线,再结合预测的半径,得到最终的文本检测的文本。
进一步的,所述第一神经网络对图像进行像素级的分类,第一神经网络接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征地图进行上采样,使输出图像恢复到输入图像相同的尺寸,对每个像素都产生了一个预测,同时保留原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。
进一步的,所述第二神经网络第构建包括以下步骤:
第一步,将第一神经网络的输出作为第二神经网络的输入,构建自下而上网络;
第二步构建对应的自上而下网络,进行上采样操作,先用1x1的卷积对倒数第二层进行降维处理,然后将倒数第二层和倒数第一层逐元素相加,最后进行3x3的卷积操作;
第三步重复第二步,依次倒序操,建立第二神经网络结构,选择网络输出分支,连接对应的分类层和回归层。
本发明提供一种存储装置,其中存储有多条指令,所述指令适于由处理器加载并执行:
S1将图片缩放到640x640尺寸;
S2对图片进行数据增强,包括随机扰动、翻转、裁剪,增加了尺度变换,随机将图片尺度变换到预设范围的尺度;
S3改变训练样本的分布,经过第三神经网络,得到7个特征图,所述7个特征图包括2个文本区域,2个文本中心线,1个圆环的半径,一个角度的余弦值cosθ,一个角度的正弦值sinθ,所述第三神经网络由第一神经网络和第二神经网络构成,,其中θ表示切线角度;
S4由文本区域和文本中心线相乘得到第一区域,将第一区域经过并查集操作,得到实例分割的结果,将每个文本区域都单独分割出来,然后经过第一算法,得到文本区域的骨架线,再结合预测的半径,得到最终的文本检测的文本。
进一步的,所述第一神经网络对图像进行像素级的分类,第一神经网络接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征地图进行上采样,使输出图像恢复到输入图像相同的尺寸,对每个像素都产生了一个预测,同时保留原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。
进一步的,所述第二神经网络第构建包括以下步骤:
第一步,将第一神经网络的输出作为第二神经网络的输入,构建自下而上网络;
第二步构建对应的自上而下网络,进行上采样操作,先用1x1的卷积对倒数第二层进行降维处理,然后将倒数第二层和倒数第一层逐元素相加,最后进行3x3的卷积操作;
第三步重复第二步,依次倒序操,建立第二神经网络结构,选择网络输出分支,连接对应的分类层和回归层。
本发明提供一种服务器,包括
处理器,适于实现各指令;以及
存储装置,适于存储多条指令,所述指令适于由处理器加载并执行:
S1将图片缩放到640x640尺寸;
S2对图片进行数据增强,包括随机扰动、翻转、裁剪,增加了尺度变换,随机将图片尺度变换到预设范围的尺度;
S3改变训练样本的分布,经过第三神经网络,得到7个特征图,所述7个特征图包括2个文本区域,2个文本中心线,1个圆环的半径,一个角度的余弦值cosθ,一个角度的正弦值sinθ,所述第三神经网络由第一神经网络和第二神经网络构成,其中θ表示切线角度;
S4由文本区域和文本中心线相乘得到第一区域,将第一区域经过并查集操作,得到实例分割的结果,将每个文本区域都单独分割出来,然后经过第一算法,得到文本区域的骨架线,再结合预测的半径,得到最终的文本检测的文本。
进一步的,所述第一神经网络对图像进行像素级的分类,第一神经网络接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征地图进行上采样,使输出图像恢复到输入图像相同的尺寸,对每个像素都产生了一个预测,同时保留原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。
进一步的,所述第二神经网络第构建包括以下步骤:
第一步,将第一神经网络的输出作为第二神经网络的输入,构建自下而上网络;
第二步构建对应的自上而下网络,进行上采样操作,先用1x1的卷积对倒数第二层进行降维处理,然后将倒数第二层和倒数第一层逐元素相加,最后进行3x3的卷积操作;
第三步重复第二步,依次倒序操,建立第二神经网络结构,选择网络输出分支,连接对应的分类层和回归层。
本发明的有益效果是,本发明提供的方法,可以适应于各种形状的文本。具有良好的识别效果。
附图说明
图1光学文字识别流程。
图2光学文字识别模型。
图3光学文字训练和推理流程。
具体实施方式
由于扫描仪的普及与广泛应用,OCR软件只需提供与扫描仪的接口,利用扫描仪驱动软件即可。因此,OCR软件主要是由下面几个部分组成。
图像输入、预处理:
图像输入:对于不同的图像格式,有着不同的存储格式,不同的压缩方式,目前有OpenCV,CxImage等开源项目。预处理:主要包括二值化,噪声去除,倾斜较正等
二值化:对摄像头拍摄的图片,大多数是彩色图像,彩色图像所含信息量巨大,对于图片的内容,我们可以简单的分为前景与背景,为了让计算机更快的,更好的识别文字,我们需要先对彩色图进行处理,使图片只前景信息与背景信息,可以简单的定义前景信息为黑色,背景信息为白色,这就是二值化图了。
噪声去除:对于不同的文档,我们对噪声的定义可以不同,根据噪声的特征进行去噪,就叫做噪声去除
倾斜较正:由于一般用户,在拍照文档时,都比较随意,因此拍照出来的图片不可避免的产生倾斜,这就需要文字识别软件进行较正。
版面分析:将文档图片分段落,分行的过程就叫做版面分析,由于实际文档的多样性,复杂性,因此,目前还没有一个固定的,最优的切割模型。
字符切割:由于拍照条件的限制,经常造成字符粘连,断笔,因此极大限制了识别系统的性能,这就需要文字识别软件有字符切割功能。
字符识别:较早有模板匹配,后来以特征提取为主,由于文字的位移,笔画的粗细,断笔,粘连,旋转等因素的影响,极大影响特征的提取的难度。
版面恢复:人们希望识别后的文字,仍然像原文档图片那样排列着,段落不变,位置不变,顺序不变地输出到word文档、pdf文档等,这一过程就叫做版面恢复。
后处理、校对:根据特定的语言上下文的关系,对识别结果进行较正,就是后处理。
本发明提供了一种基于深度学习的图像文字识别方法。该方法通过神经网络提取图片特征信息,实现文本识别,本发明在应对不规则文本时表现良好。发明所用的深度学习模型如图2。
在本发明中,对于输入的一张图片,首先将所有的图片都会被缩放到640x640的尺寸,然后训练时对图片进行数据增强,包括随机扰动、翻转、裁剪等,除此之外,增加了尺度变换,随机将图片尺度变换到一定范围的尺度,大大增强图文在图像中的的尺度变化,增加训练样本在不同尺度上的多样性,改变训练样本的分布,重点关注较小的文本。然后经过第三神经网络,得到7个特征图。包括2个文本区域,2个文本中心线,1个圆环的半径,一个角度的余弦值cosθ,一个角度的正弦值sinθ。
第一区域由文本区域和文本中心线相乘得到,表示在文本区域区域上提取的文本中心线。将第一区域经过并查集操作,可以得到实例分割的结果,将每个文本区域都单独分割出来。然后经过第一算法,可以得到文本区域的骨架线。再结合预测的半径,得到最终的文本检测的文本。
以下为本发明中关键技术的具体说明:
第一神经网络:本发明主干网络,用来提取图片逐像素特征的基础网络。
第一神经网络对图像进行像素级的分类,从而解决了语义级别的图像分割问题。与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类(全联接层+softmax输出)不同,第一神经网络可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征地图进行上采样,使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。
第二神经网络为本发明主干网络,用来提取图片特征的基础网络。
第一步,将第一神经网络的输出作为第二神经网络的输入,构建自下而上网络;
第二步构建对应的自上而下网络,进行上采样操作,先用1x1的卷积对倒数第二层进行降维处理,然后将倒数第二层和倒数第一层逐元素相加,最后进行3x3的卷积操作;
第三步重复第二步,依次倒序操,建立第二神经网络结构,选择网络输出分支,连接对应的分类层和回归层。
在本发明中,光学文本识别的工作流程如图1,具体流程说明如下:
1.将所有的图片都会被缩放到指定尺寸,训练时对图片进行数据增强,包括随机扰动、翻转、裁剪等,除此之外,增加了尺度变换,随机将图片尺度变换到一定范围的尺度,大大增强图文在图像中的的尺度变化,增加训练样本在不同尺度上的多样性,改变训练样本的分布,重点关注较小的文本。
2.经过第三神经网络,得到7个特征图。包括2个文本区域文本区域,2个文本中心线文本中心线,1个圆环的半径一个角度的余弦值cosθ,一个角度的正弦值sinθ;
3.第一区域由文本区域和文本中心线相乘得到,表示在文本区域上提取的文本中心线;
4.将第一区域经过并查集操作,可以得到实例分割的结果,将每个文本区域都单独分割出来;
5.然后经过第一算法,可以得到文本区域的骨架线;
6.再结合预测的半径,得到最终的文本检测的文本。
在本发明中,光学文本识别的工作流程如图3,具体流程说明如下:
1.首先通过摄像头采集视频图像信息;
2.标注数据,其格式为x、y、w、h、label,每个字母表示的信息依次为标注框的横坐标、纵坐标、框宽、框高和框标签;
3.按8:2拆分数据集为训练集和验证集;
4.数据增强和归一化训练集
5.计算训练集的RGB平均值和方差;
6.训练和验证模型;
7.导出模型;
8.使用模型进行实时在线图像光学文字识别。
在本发明中采用第一指标描述的是图片中文本的数据量,用于衡量神经网络输出质量,第一指标采用以下公式计算:
Figure BDA0003354171890000101
其中,|y|表示样本类别总数,pk表示第k类样本所占的比例,k表示样本的序号,有0≤pk≤1,
Figure BDA0003354171890000102
n表示样本总数。
本发明采用第二指标描述特征的重要性,在本发明中,通过DiYi(D)获取第一指标,然后计算DiEr(A),得到第二指标。
对于数据集D和属性子集A,根据A取值将D分为了V个子集
{D1,D2,...,DV},
Figure BDA0003354171890000103
在属性子集A中,任意选择一个属性a,遍历其所有可能取值,根据下式找出属性a最优划分点v*
Figure BDA0003354171890000104
其中,R1(a,v)={x|x∈Da≤v},R2(a,v)={x|x∈Da>v},c1,c2分别为集合R1(a,v)和R2(a,v)中样本xi对应输出值yi的均值,v表示子集的序号,i表示样本的序号和以及对应输出值的序号,即
Figure BDA0003354171890000105
Figure BDA0003354171890000106
在本发明中用于神经网络中的上采样,分两个步骤计算,ave表示求平均函数。
1.计算原图坐标:
srcX=dstX×(srcW/dstW)
srcY=dstY×(srcH/dstH)
其中srcX、srcY、srcH、srcW依次为原始图像像素的横坐标、像素的纵坐标、图高、图宽,dstX、dstY、dstH、dstW依次为目标图像像素的横坐标、像素的纵坐标、图高、图宽
坐标向左取整数,获取原始图像中像素的坐标x,y:
x=math.floor(scrx)
y=math.floor(scry)
2.计算偏移量u、v:
u=scrx-x
v=scry-y
计算上采样中(i,j)位置的结果,其中i∈[0,dstW),j∈[0,dstH):dst[i,j]=(1-u)×(1-v)×sre[x,y]+u×(1-v)×sre[x+1,y]+(1-u)×v×sre[x,y+1]+u×v×sre[x+1,y+1],其中sre[x,y]为原图中第x行,第y列像素,dst[i,j]为目标图中第i行,第j列像素。
本发明采用第一算法,获取文本区域的骨架线:
将给定的点重新定位到中轴;
随机选择文本中心线上的一个点,画出切线和法线,通过法线与文本中心线区域交点的中点获得中点。
向下一个搜索点迈出一大步,分别朝向文本实例的两个末端方向搜索;
前向位移计算方式为:
Figure BDA0003354171890000111
后向位移计算方式为:
Figure BDA0003354171890000121
θ表示切线角度,r表示圆圈半径
如果下一步是在文本中心线区域之外,则逐渐减少步幅,直到它在区域内,或到达末端。
在中轴线上迭代并沿中轴线绘制圆圈,圆的半径是r。圆圈所涵盖的区域表示预测的文本实例。
本发明的有益效果是,本发明提供的方法,可以适应于各种形状的文本。具有良好的识别效果。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于深度学习的图像光学文字识别方法,其特征在于,包括以下步骤,
S1将图片缩放到640x640尺寸;
S2对图片进行数据增强,包括随机扰动、翻转、裁剪,增加了尺度变换,随机将图片尺度变换到预设范围的尺度;
S3改变训练样本的分布,经过第三神经网络,得到7个特征图,所述7个特征图包括2个文本区域,2个文本中心线,1个圆环的半径,一个角度的余弦值cosθ,一个角度的正弦值sinθ,所述第三神经网络由第一神经网络和第二神经网络构成,其中θ表示切线角度;
S4由文本区域和文本中心线相乘得到第一区域,将第一区域经过并查集操作,得到实例分割的结果,将每个文本区域都单独分割出来,然后经过第一算法,得到文本区域的骨架线,再结合预测的半径,得到最终的文本检测的文本。
2.如权利要求1所述的一种基于深度学习的图像光学文字识别方法,其特征在于,
所述第一神经网络对图像进行像素级的分类,第一神经网络接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征地图进行上采样,使输出图像恢复到输入图像相同的尺寸,对每个像素都产生一个预测,同时保留原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。
3.如权利要求1所述的一种基于深度学习的图像光学文字识别方法,其特征在于,
所述第二神经网络第构建包括以下步骤:
第一步,将第一神经网络的输出作为第二神经网络的输入,构建自下而上网络;
第二步构建对应的自上而下网络,进行上采样操作,先用1x1的卷积对倒数第二层进行降维处理,然后将倒数第二层和倒数第一层逐元素相加,最后进行3x3的卷积操作;
第三步重复第二步,依次倒序操,建立第二神经网络结构,选择网络输出分支,连接对应的分类层和回归层。
4.一种存储装置,其特征在于,其中存储有多条指令,所述指令适于由处理器加载并执行:
S1将图片缩放到640x640尺寸;
S2对图片进行数据增强,包括随机扰动、翻转、裁剪,增加了尺度变换,随机将图片尺度变换到预设范围的尺度;
S3改变训练样本的分布,经过第三神经网络,得到7个特征图,所述7个特征图包括2个文本区域,2个文本中心线,1个圆环的半径,一个角度的余弦值cosθ,一个角度的正弦值sinθ,所述第三神经网络由第一神经网络和第二神经网络构成,其中θ表示切线角度;
S4由文本区域和文本中心线相乘得到第一区域,将第一区域经过并查集操作,得到实例分割的结果,将每个文本区域都单独分割出来,然后经过第一算法,得到文本区域的骨架线,再结合预测的半径,得到最终的文本检测的文本。
5.如权利要求4所述的一种存储装置,其特征在于,
所述第一神经网络对图像进行像素级的分类,第一神经网络接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征地图进行上采样,使输出图像恢复到输入图像相同的尺寸,对每个像素都产生了一个预测,同时保留原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。
6.如权利要求4所述的一种存储装置,其特征在于,
所述第二神经网络第构建包括以下步骤:
第一步,将第一神经网络的输出作为第二神经网络的输入,构建自下而上网络;
第二步构建对应的自上而下网络,进行上采样操作,先用1x1的卷积对倒数第二层进行降维处理,然后将倒数第二层和倒数第一层逐元素相加,最后进行3x3的卷积操作;
第三步重复第二步,依次倒序操,建立第二神经网络结构,选择网络输出分支,连接对应的分类层和回归层。
7.一种服务器,其特征在于,包括
处理器,适于实现各指令;以及
存储装置,适于存储多条指令,所述指令适于由处理器加载并执行:
S1将图片缩放到640x640尺寸;
S2对图片进行数据增强,包括随机扰动、翻转、裁剪,增加了尺度变换,随机将图片尺度变换到预设范围的尺度;
S3改变训练样本的分布,经过第三神经网络,得到7个特征图,所述7个特征图包括2个文本区域,2个文本中心线,1个圆环的半径,一个角度的余弦值cosθ,一个角度的正弦值sinθ,所述第三神经网络由第一神经网络和第二神经网络构成,其中θ表示切线角度;
S4由文本区域和文本中心线相乘得到第一区域,将第一区域经过并查集操作,得到实例分割的结果,将每个文本区域都单独分割出来,然后经过第一算法,得到文本区域的骨架线,再结合预测的半径,得到最终的文本检测的文本。
8.如权利要求7所述的一种服务器,其特征在于,
所述第一神经网络对图像进行像素级的分类,第一神经网络接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征地图进行上采样,使输出图像恢复到输入图像相同的尺寸,对每个像素都产生了一个预测,同时保留原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。
9.如权利要求7所述的一种服务器,其特征在于,
所述第二神经网络第构建包括以下步骤:
第一步,将第一神经网络的输出作为第二神经网络的输入,构建自下而上网络;
第二步构建对应的自上而下网络,进行上采样操作,先用1x1的卷积对倒数第二层进行降维处理,然后将倒数第二层和倒数第一层逐元素相加,最后进行3x3的卷积操作;
第三步重复第二步,依次倒序操,建立第二神经网络结构,选择网络输出分支,连接对应的分类层和回归层。
CN202111346096.3A 2021-11-15 2021-11-15 一种基于深度学习的图像光学文字识别方法,存储装置及服务器 Pending CN114005127A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111346096.3A CN114005127A (zh) 2021-11-15 2021-11-15 一种基于深度学习的图像光学文字识别方法,存储装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111346096.3A CN114005127A (zh) 2021-11-15 2021-11-15 一种基于深度学习的图像光学文字识别方法,存储装置及服务器

Publications (1)

Publication Number Publication Date
CN114005127A true CN114005127A (zh) 2022-02-01

Family

ID=79928971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111346096.3A Pending CN114005127A (zh) 2021-11-15 2021-11-15 一种基于深度学习的图像光学文字识别方法,存储装置及服务器

Country Status (1)

Country Link
CN (1) CN114005127A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792422A (zh) * 2022-05-16 2022-07-26 合肥优尔电子科技有限公司 一种基于增强透视的光学文字识别方法
CN115880699A (zh) * 2023-03-03 2023-03-31 济南市莱芜区综合检验检测中心 一种食品包装袋检测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792422A (zh) * 2022-05-16 2022-07-26 合肥优尔电子科技有限公司 一种基于增强透视的光学文字识别方法
CN114792422B (zh) * 2022-05-16 2023-12-12 合肥优尔电子科技有限公司 一种基于增强透视的光学文字识别方法
CN115880699A (zh) * 2023-03-03 2023-03-31 济南市莱芜区综合检验检测中心 一种食品包装袋检测方法及系统

Similar Documents

Publication Publication Date Title
Al-Ma'adeed et al. A data base for Arabic handwritten text recognition research
US8442319B2 (en) System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
US8750619B2 (en) Character recognition
Dave Segmentation methods for hand written character recognition
CN110210413A (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
US20240037969A1 (en) Recognition of handwritten text via neural networks
CN111401099B (zh) 文本识别方法、装置以及存储介质
CN114005127A (zh) 一种基于深度学习的图像光学文字识别方法,存储装置及服务器
CN111523622B (zh) 基于特征图像自学习的机械臂模拟手写笔迹方法
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN113723252A (zh) 一种表格型文本图片的识别方法和系统
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
Al-Sheikh et al. A review of arabic text recognition dataset
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
CN114937278A (zh) 基于行文本框分词算法的文本内容提取识别方法
Ovodov Optical Braille recognition using object detection neural network
CN108090728B (zh) 一种基于智能终端的快递信息录入方法及录入系统
Gupta et al. Machine learning tensor flow based platform for recognition of hand written text
Qureshi et al. A novel offline handwritten text recognition technique to convert ruled-line text into digital text through deep neural networks
Aravinda et al. Template matching method for Kannada handwritten recognition based on correlation analysis
CN111213157A (zh) 一种基于智能终端的快递信息录入方法及录入系统
US20240144711A1 (en) Reliable determination of field values in documents with removal of static field elements
Kumar et al. Online handwritten character recognition for Telugu language using support vector machines
Reul et al. Automatic Semantic Text Tagging on Historical Lexica by Combining OCR and Typography Classification: A Case Study on Daniel Sander's Wörterbuch der Deutschen Sprache

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination