CN109376658B - 一种基于深度学习的ocr方法 - Google Patents

一种基于深度学习的ocr方法 Download PDF

Info

Publication number
CN109376658B
CN109376658B CN201811257203.3A CN201811257203A CN109376658B CN 109376658 B CN109376658 B CN 109376658B CN 201811257203 A CN201811257203 A CN 201811257203A CN 109376658 B CN109376658 B CN 109376658B
Authority
CN
China
Prior art keywords
image
text
candidate
network
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811257203.3A
Other languages
English (en)
Other versions
CN109376658A (zh
Inventor
王慜骊
林路
桂晓雷
安通鉴
林康
陈立强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui xinyada Software Engineering Co., Ltd
Sinyada Technology Co.,Ltd.
Original Assignee
Anhui Xinyada Software Engineering Co ltd
Sinyada Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Xinyada Software Engineering Co ltd, Sinyada Technology Co ltd filed Critical Anhui Xinyada Software Engineering Co ltd
Priority to CN201811257203.3A priority Critical patent/CN109376658B/zh
Publication of CN109376658A publication Critical patent/CN109376658A/zh
Application granted granted Critical
Publication of CN109376658B publication Critical patent/CN109376658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的OCR方法,包含如下步骤:获取待识别图像;对待识别图像进行缩放,然后对缩放后的图像进行预处理,所述的预处理为锐化、灰度化、二值化、矫正倾斜、降噪、去公章中的任意一项或多项;将预处理后的图像放入深度学习神经网络中,得到缩放处理后图像的多个候选文本区域;将缩放处理后图像的多个候选文本区域放入基于深度学习神经网络中,将候选文字区域中的内容转换为计算机可读的文本;将上述计算机可读的文本放入深度学习语言模型中,对文本识别结果进行校正。本发明可以实现影像的文字内容的智能提取,为各行业人员提供了快速检索以及快速获取信息的服务,提升了工作效率,识别字段准确率高,提高处理速度。

Description

一种基于深度学习的OCR方法
技术领域
本发明涉及计算机软件中图像识别技术领域,尤其涉及一种基于深度学习的OCR方法。
背景技术
基于光学字符识别(以下简称OCR)的针对文字区域检测定位识别技术是指通过计算机等设备,利用OCR技术将纸质材料中的有效信息自动提取和识别出来,并进行相应处理,它是实现无纸化的计算机自动处理的关键技术之一。而传统的图像文字识别即为OCR,即将待识别纸质文件扫描成电子图像的基础上进行识别。但是考虑到扫描效果的好坏、纸质文件本身的品质(比如印刷质量、字体清晰度,字体规范度等)、内容布局(文字的排列情况,比普通文本与表格文本和票据)的差异,OCR的实际效果不总是让人满意。而针对不同的纸质文档的识别准确率的要求有差异,比如票据的识别,对准确率的要求是非常高的,因为如果一个数字识别错误就可能导致致命的后果,传统的OCR识别不能满足这样高精度的识别要求。面对巨大的识别需要急需能够快速高效的图像文字识别方法。
发明内容
针对现有技术的不足,本发明提出一种基于深度学习的OCR方法,该方法的具体步骤如下:
一种基于深度学习的OCR方法,其特征在于,该方法包括如下步骤:
S1:获取待识别图像;
S2:对待识别图像进行缩放,然后对缩放后的图像进行预处理,所述的预处理为锐化、灰度化、二值化、矫正倾斜、降噪、去公章中的任意一项或多项;
S3:将预处理后的图像放入深度学习神经网络中,得到缩放处理后图像的多个候选文本区域;
S4:将缩放处理后图像的多个候选文本区域放入基于深度学习神经网络中,将候选文字区域中的内容转换为计算机可读的文本;
S5:将上述计算机可读的文本放入深度学习语言模型中,对文本识别结果进行校正。
进一步地,所述步骤S2中图像预处理的去公章采用如下方法:
S2.1:将待识别图像由RGB颜色空间模型转化到HSI颜色空间模型,采用阈值控制法提取红色分量,并把彩色图像灰度化,然后采用图像细化算法对图像进行细化得到骨架图;
S2.2:采用椭圆、圆形和矩形三种形状检测算法对S2.1得到的骨架图进行形状检测,从而定位获取包围公章的最小的矩形轮廓和公章在待识别的图像中的位置,并将印章提取出来;
S2.3:将包围公章的最小的矩形轮廓从待识别的图像中分离,然后将剩余的彩色图像灰度化,并使用图像修复算法,获得无印章的图像。
进一步地,所述的S3具体为:
S3.1:生成文本区域候选框,以缩放处理后的图像作为inception-RPN网络的输入,在VGG16模型的卷积特征响应图上滑动一个inception网络,并在每个滑动位置辅助一套文本特征先验框,计算每一个候选文本区域的得分;其中,所述的RPN网络是在CNN上增加全卷积层的分类层和边框回归层的全卷积网络,Inception Module中包含3种1x1,3x3,5x5的不同尺寸的卷积和一个最大3x3池化层,所述的Inception-RPN网络,是模仿Inception结构构造RPN网络,并只用了单层结构的Inception来提取候选文本区域;
S3.2:并入文本类别监督信息,融入多层次的区域下采样信息;
S3.3:将每一行的文本特征输入到LSTM网络模型中,对文本的高度、文本的起始位置和结束位置进行判断,以一种端到端的方式训练候选文本区域生成网络;
S3.4:对所述的候选文本区域位置进行修正,获得具有一定方向的倾斜文本候选文本区域;
S3.5:使用候选框过滤算法对候选文本区域进行过滤,移除远超出实际文本区域的多余的候选区域。
进一步地,所述的S4具体为:
S4.1:使用全深度卷积神经网络对每个候选文本区域进行文本图像特征提取,把每个候选文本区域表示成特征向量;
S4.2:采用双层循环神经网络对所述的特征向量进行处理,并输出一个关于字符集的概率分布;
S4.3:采用CTC网络作为转录层,将关于字符集的概率分布使用前向计算和反向梯度传播的动态规划算法,输出计算机可读文本;其中,所述的CTC网络有一个softmax输出层,除了序列的输出外,还增加一个额外的输出单元,最开始激励的|L|个单元被解释成在这个时刻对应标签的观察概率,激励的额外的单元是一个空白的观察概率或者无标签的观察概率,这些输出定义为在给定输入序列的情况下,所有可能的对齐所有标记序列的方式;标记序列的概率是所有可能对齐方式的概率和。
进一步地,所述S5具体为:
S5.1:建立语料库,并用语料库训练词向量和语言模型;
S5.2:将S4得到的计算机可读文本放入训练后的语言模型中,并将集束搜索方式嵌入所述的语言模型中,输出修正后的文本。
进一步地,所述的步骤S2.3具体为:
(1)将包围公章的最小的矩形轮廓从待识别的图像中分离,然后将剩余的彩色图像灰度化和全局二值化;
(2)使用图像膨胀处理覆盖掉印章的边缘轮廓;
(3)选用FMM图像的修复算法,进一步修复印章的边缘轮廓的残留痕迹,获得无印章的图像。
本发明的有益效果为:
(1)本发明的基于深度学习的OCR方法,是一种基于端到端的图片文字识别方法,应用了卷积神经网络(CNN)和递归神经网络(RNN)的技术,通过深度学习确定文本框位置,然后将文字特征送入CRNN的框架中,实现了连续输出文字的目的。
(2)本发明可以实现影像的文字内容的智能提取,为各行业人员提供了快速检索以及快速获取信息的服务,提升了工作效率,识别字段准确率高,处理速度快。
附图说明
图1为本发明的基于深度学习的OCR方法的工作流程图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的基于深度学习的OCR方法,其包括如下步骤:
S1:获取待识别图像;
S2:对待识别图像进行缩放,然后对缩放后的图像进行预处理,所述的预处理为锐化、灰度化、二值化、矫正倾斜、降噪、去公章中的任意一项或多项;
图像预处理的去公章采用如下方法:
S2.1:将待识别图像由RGB颜色空间模型转化到HSI颜色空间模型,采用阈值控制法提取红色分量,并把彩色图像灰度化,然后采用图像细化算法对图像进行细化得到骨架图;
S2.2:采用椭圆、圆形和矩形三种形状检测算法对S2.1得到的骨架图进行形状检测,从而定位获取包围公章的最小的矩形轮廓和公章在待识别的图像中的位置,并将印章提取出来;
S2.3:将包围公章的最小的矩形轮廓从待识别的图像中分离,然后将剩余的彩色图像灰度化,并使用图像修复算法,获得无印章的图像,具体为:
(1)将包围公章的最小的矩形轮廓从待识别的图像中分离,然后将剩余的彩色图像灰度化和全局二值化;
(2)使用图像膨胀处理覆盖掉印章的边缘轮廓;
(3)选用FMM图像的修复算法,进一步修复印章的边缘轮廓的残留痕迹,获得无印章的图像。
S3:将预处理后的图像放入深度学习神经网络中,得到缩放处理后图像的多个候选文本区域;
S3.1:生成文本区域候选框,以缩放处理后的图像作为inception-RPN网络的输入,在VGG16模型的卷积特征响应图上滑动一个inception网络,并在每个滑动位置辅助一套文本特征先验框,计算每一个候选文本区域的得分;其中,所述的RPN网络是在CNN上增加全卷积层的分类层和边框回归层的全卷积网络,Inception Module中包含3种1x1,3x3,5x5的不同尺寸的卷积和一个最大3x3池化层,所述的Inception-RPN网络,是模仿Inception结构构造RPN网络,并只用了单层结构的Inception来提取候选文本区域;
S3.2:并入文本类别监督信息,融入多层次的区域下采样信息;
S3.3:将每一行的文本特征输入到LSTM网络模型中,对文本的高度、文本的起始位置和结束位置进行判断,以一种端到端的方式训练inception候选文本区域生成网络;
S3.4:对所述的候选文本区域位置进行修正,获得具有一定方向的倾斜文本候选文本区域;
S3.5:使用候选框过滤算法对候选文本区域进行过滤,移除远超出实际文本区域的多余的候选区域。因为之前的网络进行快速预测文字区域,有效地减少了候选框的搜索范围,然后针对文字特性对候选框的EdgeBox算法进行改进,使之适用于本实例中的文字提取。
S4:将缩放处理后图像的多个候选文本区域放入基于深度学习神经网络中,将候选文字区域中的内容转换为计算机可读的文本;
S4.1:使用全深度卷积神经网络对每个候选文本区域进行文本图像特征提取,把每个候选文本区域表示成特征向量;
S4.2:采用双层循环神经网络对所述的特征向量进行处理,并输出一个关于字符集的概率分布;
S4.3:采用CTC网络作为转录层,将关于字符集的概率分布使用前向计算和反向梯度传播的动态规划算法,输出计算机可读文本;其中,所述的CTC网络有一个softmax输出层,除了序列的输出外,还增加一个额外的输出单元,最开始激励的|L|个单元被解释成在这个时刻对应标签的观察概率,激励的额外的单元是一个空白的观察概率或者无标签的观察概率,这些输出定义为在给定输入序列的情况下,所有可能的对齐所有标记序列的方式;标记序列的概率是所有可能对齐方式的概率和。
S5:将上述计算机可读的文本放入深度学习语言模型中,对文本识别结果进行校正。
S5.1:建立语料库,并用语料库训练词向量和语言模型;
S5.2:将S4得到的计算机可读文本放入训练后的语言模型中,并将集束搜索方式嵌入所述的语言模型中,输出修正后的文本。
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims (4)

1.一种基于深度学习的OCR方法,其特征在于,该方法包括如下步骤:S1:获取待识别图像;
S2:对待识别图像进行缩放,然后对缩放后的图像进行预处理,所述的预处理为锐化、灰度化、二值化、矫正倾斜、降噪、去公章中的任意一项或多项;
去公章采用如下方法:S2.1:将待识别图像由RGB颜色空间模型转化到HSI颜色空间模型,采用阈值控制法提取红色分量,并把彩色图像灰度化,然后采用图像细化算法对图像进行细化得到骨架图;
S2.2:采用椭圆、圆形和矩形三种形状检测算法对S2.1得到的骨架图进行形状检测,从而定位获取包围公章的最小的矩形轮廓和公章在待识别的图像中的位置,并将印章提取出来;
S2.3:将包围公章的最小的矩形轮廓从待识别的图像中分离,然后将剩余的彩色图像灰度化,并使用图像修复算法,获得无印章的图像,具体为:
(1)将包围公章的最小的矩形轮廓从待识别的图像中分离,然后将剩余的彩色图像灰度化和全局二值化;
(2)使用图像膨胀处理覆盖掉印章的边缘轮廓;
(3)选用FMM图像的修复算法,进一步修复印章的边缘轮廓的残留痕迹,获得无印章的图像;
S3:将预处理后的图像放入深度学习神经网络中,得到缩放处理后图像的多个候选文本区域;
S4:将缩放处理后图像的多个候选文本区域放入基于深度学习神经网络中,将候选文字区域中的内容转换为计算机可读的文本;
S5:将上述计算机可读的文本放入深度学习语言模型中,对文本识别结果进行校正。
2.根据权利要求1所述的方法,其特征在于,所述的S3具体为:
S3.1:生成文本区域候选框,以缩放处理后的图像作为inception-RPN网络的输入,在VGG16模型的卷积特征响应图上滑动一个inception网络,并在每个滑动位置辅助一套文本特征先验框,计算每一个候选文本区域的得分;其中,所述的RPN网络是在CNN上增加全卷积层的分类层和边框回归层的全卷积网络,Inception Module中包含3种1x1,3x3,5x5的不同尺寸的卷积和一个最大3x3池化层,所述的Inception-RPN网络,是模仿Inception结构构造RPN网络,并只用了单层结构的Inception来提取候选文本区域;
S3.2:并入文本类别监督信息,融入多层次的区域下采样信息;
S3.3:将每一行的文本特征输入到LSTM网络模型中,对文本的高度、文本的起始位置和结束位置进行判断,以一种端到端的方式训练候选文本区域生成网络;
S3.4:对所述的候选文本区域位置进行修正,获得具有一定方向的倾斜文本候选文本区域;
S3.5:使用候选框过滤算法对候选文本区域进行过滤,移除远超出实际文本区域的多余的候选区域。
3.根据权利要求1所述的方法,其特征在于,所述的S4具体为:
S4.1:使用全深度卷积神经网络对每个候选文本区域进行文本图像特征提取,把每个候选文本区域表示成特征向量;
S4.2:采用双层循环神经网络对所述的特征向量进行处理,并输出一个关于字符集的概率分布;
S4.3:采用CTC网络作为转录层,将关于字符集的概率分布使用前向计算和反向梯度传播的动态规划算法,输出计算机可读文本;其中,所述的CTC网络有一个softmax输出层,除了序列的输出外,还增加一个额外的输出单元,最开始激励的|L|个单元被解释成在这个时刻对应标签的观察概率,激励的额外的单元是一个空白的观察概率或者无标签的观察概率,这些输出定义为在给定输入序列的情况下,所有可能的对齐所有标记序列的方式;标记序列的概率是所有可能对齐方式的概率和。
4.根据权利要求1所述的方法,其特征在于,所述S5具体为:
S5.1:建立语料库,并用语料库训练词向量和语言模型;
S5.2:将S4得到的计算机可读文本放入训练后的语言模型中,并将集束搜索方式嵌入所述的语言模型中,输出修正后的文本。
CN201811257203.3A 2018-10-26 2018-10-26 一种基于深度学习的ocr方法 Active CN109376658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811257203.3A CN109376658B (zh) 2018-10-26 2018-10-26 一种基于深度学习的ocr方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811257203.3A CN109376658B (zh) 2018-10-26 2018-10-26 一种基于深度学习的ocr方法

Publications (2)

Publication Number Publication Date
CN109376658A CN109376658A (zh) 2019-02-22
CN109376658B true CN109376658B (zh) 2022-03-08

Family

ID=65390151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811257203.3A Active CN109376658B (zh) 2018-10-26 2018-10-26 一种基于深度学习的ocr方法

Country Status (1)

Country Link
CN (1) CN109376658B (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737968A (zh) * 2019-03-20 2020-10-02 小船出海教育科技(北京)有限公司 一种作文自动批改及评分的方法及终端
CN111797838A (zh) * 2019-04-08 2020-10-20 上海怀若智能科技有限公司 一种图片类文档盲去噪系统、方法及装置
CN110210484A (zh) * 2019-04-19 2019-09-06 成都三零凯天通信实业有限公司 基于深度学习的视图像不良文本检测识别的系统与方法
CN110135411B (zh) * 2019-04-30 2021-09-10 北京邮电大学 名片识别方法和装置
WO2020223859A1 (zh) * 2019-05-05 2020-11-12 华为技术有限公司 一种检测倾斜文字的方法、装置及设备
CN110163194B (zh) * 2019-05-08 2024-08-27 腾讯科技(深圳)有限公司 一种图像处理方法、装置及存储介质
CN110001224B (zh) * 2019-05-15 2023-07-21 南京信息工程大学 一种用于大规模票据盖章及检验的自动化设备
CN110276253A (zh) * 2019-05-15 2019-09-24 中国科学院信息工程研究所 一种基于深度学习的模糊文字检测识别方法
SG10201904825XA (en) * 2019-05-28 2019-10-30 Alibaba Group Holding Ltd Automatic optical character recognition (ocr) correction
CN110222613A (zh) * 2019-05-28 2019-09-10 绍兴数鸿科技有限公司 一种基于卷积神经网络的竖排版繁体中文识别方法
CN110399872B (zh) * 2019-06-20 2023-04-28 创新先进技术有限公司 图像处理方法以及装置
CN110399798B (zh) * 2019-06-25 2021-07-20 朱跃飞 一种基于深度学习的离散图片文件信息提取系统及方法
CN110348439B (zh) * 2019-07-02 2021-10-12 创新奇智(南京)科技有限公司 一种自动识别价签的方法、计算机可读介质及系统
CN110502969A (zh) * 2019-07-03 2019-11-26 国网江西省电力有限公司检修分公司 一种纸质材料关键信息自动提取方法
CN110598566A (zh) * 2019-08-16 2019-12-20 深圳中兴网信科技有限公司 图像处理方法、装置、终端和计算机可读存储介质
US11302108B2 (en) 2019-09-10 2022-04-12 Sap Se Rotation and scaling for optical character recognition using end-to-end deep learning
CN110598703B (zh) * 2019-09-24 2022-12-20 深圳大学 一种基于深度神经网络的ocr识别方法及装置
CN110728277B (zh) * 2019-09-27 2024-04-05 达观数据有限公司 一种印章智能检测与识别的方法及系统
CN110942004A (zh) * 2019-11-20 2020-03-31 深圳追一科技有限公司 基于神经网络模型的手写识别方法、装置及电子设备
CN111144210B (zh) * 2019-11-26 2023-07-18 泰康保险集团股份有限公司 图像的结构化处理方法及装置、存储介质及电子设备
CN111126380A (zh) * 2019-12-02 2020-05-08 贵州电网有限责任公司 一种电力设备铭牌印文识别方法及系统
CN111062376A (zh) * 2019-12-18 2020-04-24 厦门商集网络科技有限责任公司 基于光学字符识别与纠错紧耦合处理的文本识别方法
CN111062397A (zh) * 2019-12-18 2020-04-24 厦门商集网络科技有限责任公司 一种智能票据处理系统
CN111401372B (zh) * 2019-12-20 2024-04-16 国家电网有限公司 一种扫描文档图文信息提取与鉴别的方法
CN111178355B (zh) * 2019-12-27 2024-05-10 中化资本有限公司 印章识别方法、装置和存储介质
CN111191649A (zh) * 2019-12-31 2020-05-22 上海眼控科技股份有限公司 一种识别弯曲多行文本图像的方法与设备
CN111723789A (zh) * 2020-02-19 2020-09-29 王春宝 一种基于深度学习的图像文本坐标定位方法
CN111414917B (zh) * 2020-03-18 2023-05-12 民生科技有限责任公司 一种低像素密度文本的识别方法
CN111639527A (zh) * 2020-04-23 2020-09-08 平安国际智慧城市科技股份有限公司 英文手写文本识别方法、装置、电子设备及存储介质
CN111652205B (zh) * 2020-06-04 2023-05-16 广东小天才科技有限公司 基于深度学习的文本矫正方法、装置、设备和介质
CN111783645A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 文字识别的方法、装置、电子设备及计算机可读存储介质
CN112001394A (zh) * 2020-07-13 2020-11-27 上海翎腾智能科技有限公司 基于ai视觉下的听写交互方法、系统、装置
CN111950453B (zh) * 2020-08-12 2024-02-13 北京易道博识科技有限公司 一种基于选择性注意力机制的任意形状文本识别方法
CN111985464B (zh) * 2020-08-13 2023-08-22 山东大学 面向法院判决文书的多尺度学习的文字识别方法及系统
CN111738251B (zh) * 2020-08-26 2020-12-04 北京智源人工智能研究院 一种融合语言模型的光学字符识别方法、装置和电子设备
CN112132151A (zh) * 2020-09-19 2020-12-25 娄忠富 基于循环神经网络识别算法的图像文字识别系统及方法
CN112232340A (zh) * 2020-10-15 2021-01-15 马婧 一种物体表面印制信息的识别方法及装置
CN112668580A (zh) * 2020-12-28 2021-04-16 南京航天数智科技有限公司 一种文本识别方法、文本识别装置及终端设备
CN112883980B (zh) * 2021-04-28 2021-09-21 明品云(北京)数据科技有限公司 一种数据处理方法及系统
CN113554027B (zh) * 2021-08-09 2024-10-15 深圳市迪博企业风险管理技术有限公司 一种报销单据图像文本信息校准与提取方法
CN113676465B (zh) * 2021-08-10 2024-02-27 杭州民润科技有限公司 一种面向工业企业网络的图像过滤方法、存储器和处理器
CN113362088A (zh) * 2021-08-10 2021-09-07 中博信息技术研究院有限公司 一种基于crnn的电信行业智能客服图像识别的方法及其系统
CN115497106B (zh) * 2022-11-14 2023-01-24 合肥中科类脑智能技术有限公司 基于数据增强和多任务模型的电池激光喷码识别方法
CN116473501B (zh) * 2023-04-28 2023-12-05 北京云柿信息技术有限公司 一种插片式主观验光结果自动记录方法、装置及系统
CN116912845B (zh) * 2023-06-16 2024-03-19 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置
CN117115839B (zh) * 2023-08-10 2024-04-16 广州方舟信息科技有限公司 一种基于自循环神经网络的发票字段识别方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995904A (zh) * 2014-06-13 2014-08-20 上海珉智信息科技有限公司 一种影像档案电子资料的识别系统
CN105069455A (zh) * 2015-07-15 2015-11-18 广州敦和信息技术有限公司 一种发票公章过滤的方法及装置
CN105608678A (zh) * 2016-01-11 2016-05-25 宁波大学 基于稀疏失真模型表示的深度图像空洞修复和去噪方法
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN106846271A (zh) * 2017-01-18 2017-06-13 天津中科智能识别产业技术研究院有限公司 一种去除身份证照片中网纹的方法
CN107633239A (zh) * 2017-10-18 2018-01-26 江苏鸿信系统集成有限公司 基于深度学习和ocr的票据分类及票据字段提取方法
CN108146093A (zh) * 2017-12-07 2018-06-12 南通艾思达智能科技有限公司 一种去除票据印章的方法
CN108269220A (zh) * 2016-12-30 2018-07-10 北京思源互联科技有限公司 定位数字水印的方法及装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054168B (zh) * 2010-12-23 2012-11-14 武汉大学苏州研究院 一种有价票据圆形印鉴识别方法
CN104008369A (zh) * 2014-05-16 2014-08-27 四川大学 一种真假印章识别装置及其方法
US9432671B2 (en) * 2014-05-22 2016-08-30 Xerox Corporation Method and apparatus for classifying machine printed text and handwritten text
CN106897970A (zh) * 2015-12-21 2017-06-27 阿里巴巴集团控股有限公司 一种图像修复方法及装置
CN105550173A (zh) * 2016-02-06 2016-05-04 北京京东尚科信息技术有限公司 文本校正方法和装置
CN107220641B (zh) * 2016-03-22 2020-06-26 华南理工大学 一种基于深度学习的多语言文本分类方法
CN106570456B (zh) * 2016-10-13 2019-08-09 华南理工大学 基于全卷积递归网络的手写汉字文本识别方法
CN106650725B (zh) * 2016-11-29 2020-06-26 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN106886593A (zh) * 2017-02-21 2017-06-23 百度在线网络技术(北京)有限公司 信息处理方法、装置和服务器
CN108538286A (zh) * 2017-03-02 2018-09-14 腾讯科技(深圳)有限公司 一种语音识别的方法以及计算机
CN107145859A (zh) * 2017-05-04 2017-09-08 北京小米移动软件有限公司 电子书转换处理方法、装置及计算机可读存储介质
CN107247950A (zh) * 2017-06-06 2017-10-13 电子科技大学 一种基于机器学习的身份证图像文本识别方法
CN107798327A (zh) * 2017-10-31 2018-03-13 北京小米移动软件有限公司 字符识别方法及装置
CN107885853A (zh) * 2017-11-14 2018-04-06 同济大学 一种基于深度学习的组合式文本分类方法
CN107977652B (zh) * 2017-12-21 2020-08-28 维沃移动通信有限公司 一种屏幕显示内容的提取方法及移动终端
CN108510479A (zh) * 2018-03-20 2018-09-07 上海眼控科技股份有限公司 一种用于财务报表的专用章去除方法及装置
CN108694393A (zh) * 2018-05-30 2018-10-23 深圳市思迪信息技术股份有限公司 一种基于深度卷积的证件图像文本区域提取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995904A (zh) * 2014-06-13 2014-08-20 上海珉智信息科技有限公司 一种影像档案电子资料的识别系统
CN105069455A (zh) * 2015-07-15 2015-11-18 广州敦和信息技术有限公司 一种发票公章过滤的方法及装置
CN105608678A (zh) * 2016-01-11 2016-05-25 宁波大学 基于稀疏失真模型表示的深度图像空洞修复和去噪方法
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN108269220A (zh) * 2016-12-30 2018-07-10 北京思源互联科技有限公司 定位数字水印的方法及装置
CN106846271A (zh) * 2017-01-18 2017-06-13 天津中科智能识别产业技术研究院有限公司 一种去除身份证照片中网纹的方法
CN107633239A (zh) * 2017-10-18 2018-01-26 江苏鸿信系统集成有限公司 基于深度学习和ocr的票据分类及票据字段提取方法
CN108146093A (zh) * 2017-12-07 2018-06-12 南通艾思达智能科技有限公司 一种去除票据印章的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Managing multilingual OCR project using XML;Gaurav Harit 等;《MOCR "09: Proceedings of the International Workshop on Multilingual OCR》;20090725;第1-10页 *
基于超像素分割的深度图像修复算法;胡天佑 等;《光电子·激光》;20161031;第1120-1128页 *

Also Published As

Publication number Publication date
CN109376658A (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
CN109376658B (zh) 一种基于深度学习的ocr方法
CN110210413B (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
CN110659574B (zh) 文档图像勾选框状态识别后输出文本行内容的方法及系统
CN111160352B (zh) 一种基于图像分割的工件金属表面文字识别方法及系统
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
CN112818951B (zh) 一种票证识别的方法
CN109389115B (zh) 文本识别方法、装置、存储介质和计算机设备
Tardón et al. Optical music recognition for scores written in white mensural notation
Kaundilya et al. Automated text extraction from images using OCR system
CN114758341A (zh) 一种智能化合同图像识别与合同要素抽取方法及装置
Ayesh et al. A robust line segmentation algorithm for Arabic printed text with diacritics
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
Rangari et al. Cursive handwriting recognition using CNN with VGG-16
CN114005127A (zh) 一种基于深度学习的图像光学文字识别方法,存储装置及服务器
Amer et al. Deep Arabic document layout analysis
Bairagi et al. Optical character recognition for Hindi
CN116912857A (zh) 手写体和印刷体文本分离方法及装置
Ali et al. UOCR: A ligature based approach for an Urdu OCR system
Munir et al. Automatic character extraction from handwritten scanned documents to build large scale database
Basu et al. Segmentation of offline handwritten Bengali script
KR100957508B1 (ko) 광학 문자 인식 시스템 및 방법
Thilagavathy et al. Recognition of distorted character using edge detection algorithm
Dash et al. Odia offline character recognition using DWT features
Akhter et al. Semantic segmentation of printed text from marathi document images using deep learning methods
Chitrakala et al. An efficient character segmentation based on VNP algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310051

Applicant after: Sinyada Technology Co.,Ltd.

Address before: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310051

Applicant before: SUNYARD SYSTEM ENGINEERING Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220126

Address after: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310051

Applicant after: Sinyada Technology Co.,Ltd.

Applicant after: Anhui xinyada Software Engineering Co., Ltd

Address before: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310051

Applicant before: Sinyada Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant