CN114792422B - 一种基于增强透视的光学文字识别方法 - Google Patents

一种基于增强透视的光学文字识别方法 Download PDF

Info

Publication number
CN114792422B
CN114792422B CN202210528877.2A CN202210528877A CN114792422B CN 114792422 B CN114792422 B CN 114792422B CN 202210528877 A CN202210528877 A CN 202210528877A CN 114792422 B CN114792422 B CN 114792422B
Authority
CN
China
Prior art keywords
picture
matrix
perspective
perspective transformation
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210528877.2A
Other languages
English (en)
Other versions
CN114792422A (zh
Inventor
黄唤宇
石海春
张超
杜传忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chen Dongliang
HEFEI YOUO ELECTRONIC TECHNOLOGY CO LTD
Tu Qian
Construction Branch of State Grid Anhui Electric Power Co Ltd
Original Assignee
HEFEI YOUO ELECTRONIC TECHNOLOGY CO LTD
Construction Branch of State Grid Anhui Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HEFEI YOUO ELECTRONIC TECHNOLOGY CO LTD, Construction Branch of State Grid Anhui Electric Power Co Ltd filed Critical HEFEI YOUO ELECTRONIC TECHNOLOGY CO LTD
Priority to CN202210528877.2A priority Critical patent/CN114792422B/zh
Publication of CN114792422A publication Critical patent/CN114792422A/zh
Application granted granted Critical
Publication of CN114792422B publication Critical patent/CN114792422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于增强透视的光学文字识别方法,其步骤包括:1数据准备和标注;2对待处理图片集中的每张图片进行透视变换,得到透视变换后的图片;3建立并训练复杂场景下的图片文字识别模型,用于实现任意图片的OCR识别。本发明能提高对现实中复杂透视角度图像文字的识别率和准确度。

Description

一种基于增强透视的光学文字识别方法
技术领域
本发明涉及一种人工智能OCR识别领域,更涉及一种基于增强透视的人工智能的OCR识别方法。
背景技术
在对现实拍摄的图片文字进行识别时,由于其拍摄角度往往不是正对着文字进行拍摄,导致传统的人工智能OCR识别在文字透视角度过大时经常识别有误,甚至是识别不出,不能满足自然拍摄的识别准确率要求。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于增强透视的光学文字识别方法,以期能够支持自动识别透视角度大的图片中的文字,从而增加识别的准确率。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于增强透视的光学文字识别方法的特点包括:
步骤1、数据准备:
获取透视角度为“0”的N张原图片作为待处理图片集,且所述待处理图片集包含10种数字0-9的原图片、26种小写字母a-z的原图片、26种大写字母A-Z的原图片;
步骤2、数据标注:
利用标注工具按照所述待处理图片集中每张图片的文字内容,对所述待处理图片集中每张图进行标注,得到每张图片对应的标签txt文件,所述标签txt文件包含每张图片的文字内容content及其所在矩形框的坐标位置;令所述矩形框的四个顶点的坐标记为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4);由所述四个顶点的坐标和文字内容content构成每张图片的标注矩阵;
步骤3、对所述待处理图片集中的每张图片进行透视变换,得到透视变换后的图片;
步骤3.1、定义两个透视参数分别为a13、a23;定义循环增量为Δ;
步骤3.2、初始化a13
步骤3.3、初始化a23
步骤3.4、利用式(1)和式(2)对任意一张图片中的任意一个像素点[u v]进行透视变换,得到变换后的像素点[x y],从而对每个像素点进行透视变换,并得到透视变换后的一张图片:
式(1)中,x表示透视变换后的横坐标,y表示透视变换的后纵坐标,u表示透视变换前的横坐标,v表示透视变换前的纵坐标;
步骤3.5、将a23+Δ赋值给a23后,判断a23大于阈值A是否成立,若成立,则表示得到n张透视变换后的图片,并执行步骤3.6;否则,返回步骤3.4顺序执行;
步骤3.6、将a13+Δ赋值给a13后,判断a13大于阈值A是否成立,若成立,则表示得到n×n张透视变换后的图片,并执行步骤3.7,否则,返回步骤3.3顺序执行;
步骤3.7、按照步骤3.2-步骤3.6的过程对所述待处理图片集中的所有图片进行处理,从而得到N×n×n张透视变换后的图片所构成的增强图片集;
步骤4、建立并训练复杂场景下的图片文字识别模型,包括:ResNet网络、conv5网络、GRU层、全连接层;
步骤4.1、使用ResNet网络作为模型首层,并对增强图片集进行特征提取,获得维度为[N1,C,H,W]的特征矩阵M1;其中,N1=N×n×n表示图片数量,C表示通道数,H表示图片的长度,W表示图片的宽度;
步骤4.2、利用所述conv5网络对特征矩阵M1中的每一个特征点进行卷积核为k×k的滑动卷积操作,从而得到维度为[N1,k×k×C,H,W]的特征向量矩阵M2
步骤4.3、利用Reshape操作将特征向量矩阵M2转换为维度为[N1×H,W,k×k×C]的三维特征向量矩阵M3,从而将三维特征向量矩阵M3输入所述GRU层进行特征挖掘,得到维度为[N1×H,W,256]的向量序列特征M4
利用Reshape逆操作将向量序列特征M4转换为维度为[N1,256,H,W]的四维特征向量矩阵M5
步骤4.4、将四维特征向量矩阵M5输入所述全连接层中,所述全连接层包括三个单元,每个单元为维度为512×4的矩阵,分别用于预测目标的横坐标、目标的纵坐标和目标的内容;
步骤4.5、利用Reshape操作将所述增强图片集中的一张图片x的标注矩阵转换为维度为3×512×4的矩阵;利用式(3)建立图片文字识别模型的损失函数Loss:
式(3)中,i表示全连接层中任意一个单元;pi(x)表示所述增强图片集中的一张图片x经过所述全连接层中第i个单元后输出的预测值;qi(x)表示一张图片x的标注矩阵所转换的3×512×4的矩阵中第i个矩阵;
步骤4.6、基于所述增强图片集,利用梯度下降法对所述图片文字识别模型进行训练,并计算损失函数Loss,用于更新模型的参数,直到达到最大训练次数或是损失函数Loss收敛为止,从而得到训练好的最优图片文字识别模型用于对待识别的图片进行光学文字识别。
与现有技术相比,本发明的有益效果在于:
本发明通过采用人工智能神经网络来训练透视增强数据集,解决了现有技术中对于透视角度大的图片中的文字无法识别的问题,提高了复杂场景下OCR识别的准确率。
具体实施方式
本实施例中,一种基于增强透视的光学文字识别方法,包括:
步骤1、数据准备:
获取透视角度为“0”的N张原图片作为待处理图片集,且待处理图片集包含10种数字0-9的原图片、26种小写字母a-z的原图片、26种大写字母A-Z的原图片;
步骤2、数据标注:
利用标注工具按照待处理图片集中每张图片的文字内容,对待处理图片集中每张图进行标注,得到每张图片对应的标签txt文件,标签txt文件包含每张图片的文字内容content及其所在矩形框的坐标位置;令矩形框的四个顶点的坐标记为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4);由四个顶点的坐标和文字内容content构成每张图片的标注矩阵;
步骤3、对待处理图片集中的每张图片进行透视变换,得到透视变换后的图片;
步骤3.1、定义两个透视参数分别为a13、a23;定义循环增量为Δ;
步骤3.2、初始化a13
步骤3.3、初始化a23
步骤3.4、利用式(1)和式(2)对任意一张图片中的任意一个像素点[u v]进行透视变换,得到变换后的像素点[x y],从而对每个像素点进行透视变换,并得到透视变换后的一张图片:
式(1)中,x表示透视变换后的横坐标,y表示透视变换的后纵坐标,u表示透视变换前的横坐标,v表示透视变换前的纵坐标;
步骤3.5、将a23+Δ赋值给a23后,判断a23大于阈值A是否成立,若成立,则表示得到n张透视变换后的图片,并执行步骤3.6;否则,返回步骤3.4顺序执行;
步骤3.6、将a13+Δ赋值给a13后,判断a13大于阈值A是否成立,若成立,则表示得到n×n张透视变换后的图片,并执行步骤3.7,否则,返回步骤3.3顺序执行;
步骤3.7、按照步骤3.2-步骤3.6的过程对待处理图片集中的所有图片进行处理,从而得到N×n×n张透视变换后的图片所构成的增强图片集;将增强图片集按照60%、30%、10%的比例将分别随机分为训练集、验证集和测试集。
步骤4、建立并训练复杂场景下的图片文字识别模型,包括:ResNet网络、conv5网络、GRU层、全连接层;
步骤4.1、使用ResNet网络作为模型首层,并对增强图片集进行特征提取,获得维度为[N1,C,H,W]的特征矩阵M1;其中,N1=N×n×n表示图片数量,C表示通道数,H表示图片的长度,W表示图片的宽度;
步骤4.2、利用conv5网络对特征矩阵M1中的每一个特征点进行卷积核为k×k的滑动卷积操作,从而得到维度为[N1,k×k×C,H,W]的特征向量矩阵M2
步骤4.3、利用Reshape操作将特征向量矩阵M2转换为维度为[N1×H,W,k×k×C]的三维特征向量矩阵M3,从而将三维特征向量矩阵M3输入GRU层进行特征挖掘,得到维度为[N1×H,W,256]的向量序列特征M4
利用Reshape逆操作将向量序列特征M4转换为维度为[N1,256,H,W]的四维特征向量矩阵M5
步骤4.4、将四维特征向量矩阵M5输入全连接层中,全连接层包括三个单元,每个单元为维度为512×4的矩阵,分别用于预测目标的横坐标、目标的纵坐标和目标的内容;
步骤4.5、利用Reshape操作将增强图片集中的一张图片x的标注矩阵转换为维度为3×512×4的矩阵;利用式(3)建立图片文字识别模型的损失函数Loss:
式(3)中,i表示全连接层中任意一个单元;pi(x)表示增强图片集中的一张图片x经过全连接层中第i个单元后输出的预测值;qi(x)表示一张图片x的标注矩阵所转换的3×512×4的矩阵中第i个矩阵;
步骤4.6、基于增强图片集,利用梯度下降法对图片文字识别模型进行训练,并计算损失函数Loss,用于更新模型的参数,直到达到最大训练次数或是损失函数Loss收敛为止,从而得到训练好的最优图片文字识别模型用于对待识别的图片进行OCR识别。
本实施例中,模型训练时batch_size设置为32。当完成一个bacth训练后,使用此时的最新的模型在验证集上进行测试,模型在训练过程中分别对模型预测的横坐标信息、纵坐标信息、内容进行模型的损失计算,本方法中该过程迭代100次后,保存在验证集上应用效果最好的模型文件,供模型应用时调用。

Claims (1)

1.一种基于增强透视的光学文字识别方法,其特征包括:
步骤1、数据准备:
获取透视角度为“0”的N张原图片作为待处理图片集,且所述待处理图片集包含10种数字0-9的原图片、26种小写字母a-z的原图片、26种大写字母A-Z的原图片;
步骤2、数据标注:
利用标注工具按照所述待处理图片集中每张图片的文字内容,对所述待处理图片集中每张图进行标注,得到每张图片对应的标签txt文件,所述标签txt文件包含每张图片的文字内容content及其所在矩形框的坐标位置;令所述矩形框的四个顶点的坐标记为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4);由所述四个顶点的坐标和文字内容content构成每张图片的标注矩阵;
步骤3、对所述待处理图片集中的每张图片进行透视变换,得到透视变换后的图片;
步骤3.1、定义两个透视参数分别为a13、a23;定义循环增量为Δ;
步骤3.2、初始化a13
步骤3.3、初始化a23
步骤3.4、利用式(1)和式(2)对任意一张图片中的任意一个像素点[u v]进行透视变换,得到变换后的像素点[x y],从而对每个像素点进行透视变换,并得到透视变换后的一张图片:
式(1)中,x表示透视变换后的横坐标,y表示透视变换的后纵坐标,u表示透视变换前的横坐标,v表示透视变换前的纵坐标;
步骤3.5、将a23+Δ赋值给a23后,判断a23大于阈值A是否成立,若成立,则表示得到n张透视变换后的图片,并执行步骤3.6;否则,返回步骤3.4顺序执行;
步骤3.6、将a13+Δ赋值给a13后,判断a13大于阈值A是否成立,若成立,则表示得到n×n张透视变换后的图片,并执行步骤3.7,否则,返回步骤3.3顺序执行;
步骤3.7、按照步骤3.2-步骤3.6的过程对所述待处理图片集中的所有图片进行处理,从而得到N×n×n张透视变换后的图片所构成的增强图片集;
步骤4、建立并训练复杂场景下的图片文字识别模型,包括:ResNet网络、conv5网络、GRU层、全连接层;
步骤4.1、使用ResNet网络作为模型首层,并对增强图片集进行特征提取,获得维度为[N1,C,H,W]的特征矩阵M1;其中,N1=N×n×n表示图片数量,C表示通道数,H表示图片的长度,W表示图片的宽度;
步骤4.2、利用所述conv5网络对特征矩阵M1中的每一个特征点进行卷积核为k×k的滑动卷积操作,从而得到维度为[N1,k×k×C,H,W]的特征向量矩阵M2
步骤4.3、利用Reshape操作将特征向量矩阵M2转换为维度为[N1×H,W,k×k×C]的三维特征向量矩阵M3,从而将三维特征向量矩阵M3输入所述GRU层进行特征挖掘,得到维度为[N1×H,W,256]的向量序列特征M4
利用Reshape逆操作将向量序列特征M4转换为维度为[N1,256,H,W]的四维特征向量矩阵M5
步骤4.4、将四维特征向量矩阵M5输入所述全连接层中,所述全连接层包括三个单元,每个单元为维度为512×4的矩阵,分别用于预测目标的横坐标、目标的纵坐标和目标的内容;
步骤4.5、利用Reshape操作将所述增强图片集中的一张图片x的标注矩阵转换为维度为3×512×4的矩阵;利用式(3)建立图片文字识别模型的损失函数Loss:
式(3)中,i表示全连接层中任意一个单元;pi(x)表示所述增强图片集中的一张图片x经过所述全连接层中第i个单元后输出的预测值;qi(x)表示一张图片x的标注矩阵所转换的3×512×4的矩阵中第i个矩阵;
步骤4.6、基于所述增强图片集,利用梯度下降法对所述图片文字识别模型进行训练,并计算损失函数Loss,用于更新模型的参数,直到达到最大训练次数或是损失函数Loss收敛为止,从而得到训练好的最优图片文字识别模型用于对待识别的图片进行光学文字识别。
CN202210528877.2A 2022-05-16 2022-05-16 一种基于增强透视的光学文字识别方法 Active CN114792422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210528877.2A CN114792422B (zh) 2022-05-16 2022-05-16 一种基于增强透视的光学文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210528877.2A CN114792422B (zh) 2022-05-16 2022-05-16 一种基于增强透视的光学文字识别方法

Publications (2)

Publication Number Publication Date
CN114792422A CN114792422A (zh) 2022-07-26
CN114792422B true CN114792422B (zh) 2023-12-12

Family

ID=82462776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210528877.2A Active CN114792422B (zh) 2022-05-16 2022-05-16 一种基于增强透视的光学文字识别方法

Country Status (1)

Country Link
CN (1) CN114792422B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783757A (zh) * 2020-06-01 2020-10-16 成都科大极智科技有限公司 一种基于ocr技术的复杂场景下身份证识别方法
CN112507914A (zh) * 2020-12-15 2021-03-16 江苏国光信息产业股份有限公司 一种基于存折、票据字符ocr识别方法和识别系统
CN113159037A (zh) * 2021-05-25 2021-07-23 中国平安人寿保险股份有限公司 图片矫正方法、装置、计算机设备及存储介质
WO2021151270A1 (zh) * 2020-05-20 2021-08-05 平安科技(深圳)有限公司 图像结构化数据提取方法、装置、设备及存储介质
CN113657377A (zh) * 2021-07-22 2021-11-16 西南财经大学 一种机打票据图像结构化识别方法
CN114005127A (zh) * 2021-11-15 2022-02-01 中再云图技术有限公司 一种基于深度学习的图像光学文字识别方法,存储装置及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021151270A1 (zh) * 2020-05-20 2021-08-05 平安科技(深圳)有限公司 图像结构化数据提取方法、装置、设备及存储介质
CN111783757A (zh) * 2020-06-01 2020-10-16 成都科大极智科技有限公司 一种基于ocr技术的复杂场景下身份证识别方法
CN112507914A (zh) * 2020-12-15 2021-03-16 江苏国光信息产业股份有限公司 一种基于存折、票据字符ocr识别方法和识别系统
CN113159037A (zh) * 2021-05-25 2021-07-23 中国平安人寿保险股份有限公司 图片矫正方法、装置、计算机设备及存储介质
CN113657377A (zh) * 2021-07-22 2021-11-16 西南财经大学 一种机打票据图像结构化识别方法
CN114005127A (zh) * 2021-11-15 2022-02-01 中再云图技术有限公司 一种基于深度学习的图像光学文字识别方法,存储装置及服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Correction of perspective text image based on gradient method";Lijing Tong el.;《2010 International Conference on Information, Networking and Automation (ICINA)》;全文 *
一种基于透视变换数据增广的斜视目标鲁棒检测方法;李程启;郑文杰;黄文礼;温招洋;;计算机与现代化(第04期);全文 *

Also Published As

Publication number Publication date
CN114792422A (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
CN109816725B (zh) 一种基于深度学习的单目相机物体位姿估计方法及装置
CN108108746B (zh) 基于Caffe深度学习框架的车牌字符识别方法
CN108399419B (zh) 基于二维递归网络的自然场景图像中中文文本识别方法
CN109784333B (zh) 基于点云带权通道特征的三维目标检测方法及系统
CN108108764B (zh) 一种基于随机森林的视觉slam回环检测方法
CN108701234A (zh) 车牌识别方法及云系统
CN111709909A (zh) 基于深度学习的通用印刷缺陷检测方法及其模型
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN107844795A (zh) 基于主成分分析的卷积神经网络特征提取方法
CN110570481A (zh) 基于风格迁移的书法字库自动修复方法及系统
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN111709980A (zh) 基于深度学习的多尺度图像配准方法和装置
RU2665273C2 (ru) Обучаемые визуальные маркеры и способ их продуцирования
CN109934272B (zh) 一种基于全卷积网络的图像匹配方法
CN112101349A (zh) 一种车牌样本生成方法及装置
CN111127360A (zh) 一种基于自动编码器的灰度图像迁移学习方法
CN114332639A (zh) 一种非线性残差自注意力机制的卫星姿态视觉测量算法
WO2023134064A1 (zh) 图片特征提取方法、装置、存储介质及计算机设备
CN110851627B (zh) 一种用于描述全日面图像中太阳黑子群的方法
CN110188646B (zh) 基于梯度方向直方图与局部二值模式融合的人耳识别方法
CN114792422B (zh) 一种基于增强透视的光学文字识别方法
CN112561782A (zh) 一种提高海上场景仿真图片真实度的方法
CN108898045B (zh) 基于深度学习的手势识别的多标签图像预处理方法
CN108537771B (zh) 基于hsv的mc-siltp运动目标检测方法
CN107067009B (zh) 一种实时杆号识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231114

Address after: 230088 China (Anhui) pilot Free Trade Zone, Hefei, Anhui Province, 8th floor, building D9, Zhongan chuanggu, No. 900, Wangjiang West Road, high tech Zone, Hefei

Applicant after: HEFEI YOUO ELECTRONIC TECHNOLOGY Co.,Ltd.

Applicant after: CONSTRUCTION BRANCH OF STATE GRID ANHUI ELECTRIC POWER Co.,Ltd.

Applicant after: Tu Qian

Applicant after: Chen Dongliang

Address before: 230088 China (Anhui) pilot Free Trade Zone, Hefei, Anhui Province, 8th floor, building D9, Zhongan chuanggu, No. 900, Wangjiang West Road, high tech Zone, Hefei

Applicant before: HEFEI YOUO ELECTRONIC TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant