CN114049641A - 基于深度学习的文字识别方法及系统 - Google Patents

基于深度学习的文字识别方法及系统 Download PDF

Info

Publication number
CN114049641A
CN114049641A CN202210034486.5A CN202210034486A CN114049641A CN 114049641 A CN114049641 A CN 114049641A CN 202210034486 A CN202210034486 A CN 202210034486A CN 114049641 A CN114049641 A CN 114049641A
Authority
CN
China
Prior art keywords
image data
detected
image
character recognition
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210034486.5A
Other languages
English (en)
Other versions
CN114049641B (zh
Inventor
路红英
王滨
黄茗
李波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 15 Research Institute filed Critical CETC 15 Research Institute
Priority to CN202210034486.5A priority Critical patent/CN114049641B/zh
Publication of CN114049641A publication Critical patent/CN114049641A/zh
Application granted granted Critical
Publication of CN114049641B publication Critical patent/CN114049641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于深度学习的文字识别方法及系统,该方法包括:获取业务办公场景中待检测文书的图像数据集;从待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据;基于数据清洗规则对待检测模糊图像数据进行处理得到第一图像数据;利用预先训练的生成式对抗网络模型对第一图像数据进行去模糊处理得到第二图像数据;将待检测清晰图像数据和第二图像数据输入至预先训练的文本检测模型得到目标文字区域;通过预先训练的文字识别模型对目标文字区域进行文字识别得到目标文字,该方法对经数据清洗后的模糊图像数据采取生成式对抗网络模型去模糊处理,实现数据增强,解决图像中多个文字方向的倾斜问题,提高了文字识别率。

Description

基于深度学习的文字识别方法及系统
技术领域
本发明属于文字识别技术领域,尤其涉及一种基于深度学习的文字识别方法及系统。
背景技术
目前文字识别技术(OCR,Optical Character Recognition)落地的应用很多,例如:通用文字识别、票据文字识别、卡证文字识别、汽车场景文字识别等等。但针对军事领域的业务办公场景文书,如通知、公告、命令、决议、请示、批复等,直接应用现有的文字识别技术存在识别性能较差的问题。
发明内容
本发明意在提供一种基于深度学习的文字识别方法及系统,以解决针对特殊领域的办公文书直接应用现有的文字识别技术存在识别性能较差的问题,本发明要解决的技术问题通过以下技术方案来实现:
一方面,本发明提供了一种基于深度学习的文字识别方法,包括:
获取业务办公场景中待检测文书的图像数据集;
从所述待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据;
基于数据清洗规则对所述待检测模糊图像数据进行处理得到第一图像数据;
利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据;
将所述待检测清晰图像数据和所述第二图像数据输入至预先训练的文本检测模型得到目标文字区域;
通过预先训练的文字识别模型对所述目标文字区域进行文字识别得到目标文字。
优选地,所述生成式对抗网络模型的训练过程具体包括:
根据内容损失、对抗损失确定损失函数,并基于所述损失函数构建所述生成式对抗网络模型的生成器和判别器;
将不同尺寸的模糊图像A”输入所述生成器得到去模糊后的清晰图像A’;
将所述去模糊后的清晰图像A’和真实的清晰图像A输入所述判别器得到所述去模糊后的清晰图像A’和真实的清晰图像A的相似得分;
如果所述去模糊后的清晰图像A’和真实的清晰图像A的相似得分满足预设相似阈值,则停止所述生成式对抗网络模型的训练。
优选地,所述利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据的步骤之后还包括:
利用改进的VGG模型对所述待检测清晰图像数据和所述第二图像数据进行文字方向的倾斜角度矫正处理。
优选地,所述改进的VGG模型的构建过程具体包括:
冻结VGG模型中除最后一层之外的所有卷积层和全连接层;
通过预先获取的具有不同文字方向的倾斜角度图像对所述VGG模型的最后一层进行训练,并通过softmax分类器得到包含多个图像文字方向分类的目标分类结果。
优选地,所述数据清洗规则包括缺失值清洗、格式内容清洗、逻辑错误清洗以及非需求数据清洗。
优选地,所述从所述待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据的步骤包括:
如果所述待检测文书的图像数据集中图像数据的边缘满足预设清晰度判定条件,则确定为待检测清晰图像数据,否则,确定为待检测模糊图像数据。
优选地,所述通过预先训练的文字识别模型对所述目标文字区域进行文字识别得到目标文字的步骤之后还包括:
利用自然语言处理算法对所述目标文字进行处理得到多个文书基本要素信息;
整合所述多个文书基本要素信息得到文字识别结果。
另一方面,本发明还提供了一种基于深度学习的文字识别系统,包括:
图像获取模块,被配置为获取业务办公场景中待检测文书的图像数据集;
数据筛选模块,被配置为从所述待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据;
数据清洗模块,被配置为基于数据清洗规则对所述待检测模糊图像数据进行处理得到第一图像数据;
图像增强模块,被配置为利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据;
文本检测模块,被配置为将所述待检测清晰图像数据和所述第二图像数据输入至预先训练的文本检测模型得到目标文字区域;
以及,文字识别模块,被配置为通过预先训练的文字识别模型对所述目标文字区域进行文字识别得到目标文字。
再一方面,本发明还提供了一种电子设备,包括:处理器和存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上述所述的基于深度学习的文字识别方法。
又一方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的基于深度学习的文字识别方法。
与现有技术相比,本发明的基于深度学习的文字识别方法在图像数据处理阶段对经数据清洗后的模糊图像数据采取生成式对抗网络模型进行去模糊处理,该生成式对抗网络模型通过学习数据的分布,可以随机生成与训练数据的真实分布近似的图像数据,经图像去模糊的处理来达到数据增强的目的;通过文本检测模型和文字识别模型对经去模糊处理的图像数据与真实清晰的图像数据进行处理得到目标文字,提高了特殊领域的业务办公场景文书的识别性能。
另外,在图像数据处理阶段解决了在扫描文档时经常存在图像中多个文字方向的倾斜问题,进一步提高了文字识别率。
附图说明
图1为本发明的基于深度学习的文字识别方法的一些实施例的流程示意图;
图2为本发明的基于深度学习的文字识别方法中生成式对抗网络模型的训练流程示意图;
图3为本发明的基于深度学习的文字识别方法中生成式对抗网络模型的去模糊处理过程图;
图4本发明的基于深度学习的文字识别方法的另一些实施例的流程示意图;
图5为本发明实施例的改进后的VGG16模型的网络示意图;
图6为本发明的基于深度学习的文字识别方法的再一些实施例的流程示意图;
图7为本发明实施例的通知公文示意图;
图8为本发明基于深度学习的文字识别系统的一些实施例的结构框图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
一方面,参见图1所示,本发明实施例提供了一种基于深度学习的文字识别方法,包括:
步骤100:获取业务办公场景中待检测文书的图像数据集;
本步骤中在业务办公场景下使用获取图像的工具拍摄获得图像,例如:通过人工采集获取图像,其中模糊图像在拍摄时长时间曝光或者被拍摄物体移动太快过程中获取。
步骤200:从待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据;
本步骤中通过人工或者算法依据图像清晰度进行筛选。
步骤300:基于数据清洗规则对待检测模糊图像数据进行处理得到第一图像数据;
本步骤中数据清洗主要是针对模糊图像进行处理,去除无法识别的模糊图像。
步骤400:利用预先训练的生成式对抗网络模型对第一图像数据进行去模糊处理得到第二图像数据;
步骤500:将待检测清晰图像数据和第二图像数据输入至预先训练的文本检测模型得到目标文字区域;
本步骤中预先训练的文本检测模型可以为CTPN模型,当然还可以为其他模型,在此不做具体限定。
步骤600:通过预先训练的文字识别模型对目标文字区域进行文字识别得到目标文字。
本步骤中预先训练的文字识别模型可以为现有的CRNN模型或者DenseNet+CTC模型,当然还可以为其他模型,在此不做具体限定。
与现有技术相比,本发明实施例的基于深度学习的文字识别方法在图像数据处理阶段对经数据清洗后的模糊图像数据采取生成式对抗网络模型进行去模糊处理,该生成式对抗网络模型通过学习数据的分布,可以随机生成与训练数据的真实分布近似的图像数据,经图像去模糊的处理来达到数据增强的目的;通过文本检测模型和文字识别模型对经去模糊处理的图像数据与真实清晰的图像数据进行处理得到目标文字,提高了特殊领域的业务办公场景文书的识别性能。
在一些实施例中,参见图2和图3所示,本发明的基于深度学习的文字识别方法中生成式对抗网络模型的训练过程具体包括:
步骤401:根据内容损失、对抗损失确定损失函数,并基于损失函数构建生成式对抗网络模型的生成器和判别器;
步骤402:将不同尺寸的模糊图像A”输入生成器得到去模糊后的清晰图像A’;
步骤403:将去模糊后的清晰图像A’和真实的清晰图像A输入判别器得到去模糊后的清晰图像A’和真实的清晰图像A的相似得分;
步骤404:如果去模糊后的清晰图像A’和真实的清晰图像A的相似得分满足预设相似阈值,则停止生成式对抗网络模型的训练。
需要说明的是,生成式对抗网络(GAN, Generative Adversarial Networks )是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。
具体的,对经数据清洗后的模糊图像采取GAN网络,GAN通过学习数据的分布,可以随机生成与训练数据的真实分布近似的图像,经去模糊图像的处理来达到数据增强的目的。根据内容损失、对抗损失来确定损失函数并设计生成器和判别器,将不同尺寸的模糊图像A”作为生成器输入,生成器输出去模糊后的清晰图像A’,在训练时3个尺寸模糊图像的大小设置为16×16,64×64,128×128,256×256。将经去模糊处理的图像A’和真实的清晰图像A作为判别器的输入,判别器输出为对A’,A的打分。生成器以从判别器处获高分为目标,直到生成器生成的图片可以骗过判别器,就停止训练。
在一些实施例中,参见图4所示,本发明的基于深度学习的文字识别方法中步骤400之后还包括:
步骤800:利用改进的VGG模型对待检测清晰图像数据和第二图像数据进行文字方向的倾斜角度矫正处理。
在扫描文档时经常存在图像中文字45度、90度、135度、180度、225度、270度、315度等七个方向的倾斜问题,针对方向倾斜问题,利用改进的VGG模型对待检测清晰图像数据和第二图像数据进行文字方向的倾斜角度矫正处理,以保证后续的文字识别准确度。
本发明实施例的基于深度学习的文字识别方法在图像数据处理阶段解决了在扫描文档时经常存在图像中多个文字方向的倾斜问题,进一步提高了文字识别率。
在一些实施例中,参见图5所示,本发明的基于深度学习的文字识别方法中改进的VGG模型的构建过程具体包括:
冻结VGG模型中除最后一层之外的所有卷积层和全连接层;
通过预先获取的具有不同文字方向的倾斜角度图像对VGG模型的最后一层进行训练,并通过softmax分类器得到包含多个图像文字方向分类的目标分类结果。
针对方向倾斜问题,对扫描文档进行数据处理,选取图像水平和垂直边缘标记点投影计算出的较小的角度作为倾斜角,在本实施例中基于公文中存在的45度、90度、135度、180度、225度、270度、315度倾斜状况替换VGG16模型网络结构中的最后一层,将目标分类结果替换为七类,首先冻结模型网络中前面部分的卷积层和全连接层,通过系统已获取的图像对更改后的VGG16的最后一层重新进行训练,通过softmax分类器达到图像文字的方向的七个分类。图像中文字方向的倾斜角度通过改进后的VGG16模型网络之后可以对图像进行矫正,即图像相应角度的旋转。
在一些实施例中,本发明的基于深度学习的文字识别方法中数据清洗规则包括缺失值清洗、格式内容清洗、逻辑错误清洗以及非需求数据清洗。
在办公业务应用场景中,因为不同的用户在对图像的获取方式并不统一,如截图、扫描仪、相机等,存在多种未知因素的干扰,如复杂的背景环境,图像遮挡,图像环境的光照,图像尺度、天气因素等。因此所获取的图像质量参差不齐,所以在文字识别任务开始前首先对需要识别的图像进行预处理操作。
对获取的图像筛选,挑选出清晰的和模糊的图片,数据清洗是针对模糊图像进行处理,通过缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗等方式,在数据清洗过程中去掉无法识别的图像。
在一些实施例中,本发明的基于深度学习的文字识别方法中步骤200包括:
如果待检测文书的图像数据集中图像数据的边缘满足预设清晰度判定条件,则确定为待检测清晰图像数据,否则,确定为待检测模糊图像数据。
本实施例中可通过观察图像边缘是否分明,如果边缘不分明即不满足预设清晰度,这个图片被认为是模糊的,否则是清晰的,这里根据实际经验确定预设清晰度的具体数值,在此不做具体限定。当然也可以人为方式去判断图像边缘是否分明。
在一些实施例中,参见图6所示,本发明的基于深度学习的文字识别方法中步骤600之后还包括:
步骤700:利用自然语言处理算法对目标文字进行处理得到多个文书基本要素信息;整合多个文书基本要素信息得到文字识别结果。
本实施例中对识别后的文字进行自然语言处理,在识别结果中提取出时间、地点、发文单位等等文本基本要素信息,最后将识别出的结果进行保存。图像文字识别结果以公文中“通知”为例,参见图7所示。
综上所述,本发明实施例的基于深度学习的文字识别方法在图像预处理阶段对经数据清洗后的模糊图像采取GAN网络进行去模糊处理,GAN通过学习数据的分布,可以随机生成与训练数据的真实分布近似的图像,经图像去模糊的处理来达到数据增强的目的;在图像预处理阶段解决了在扫描文档时经常存在图像中文字45度、90度、135度、180度、225度、270度、315度七个方向的倾斜问题,对VGG16模型网络最后一层进行自定义分类,从而解决了图像中文字的倾斜角度问题,因此基于上面技术优势,提高了文字识别率。
另一方面,参见8所示,本发明实施例还提供了一种基于深度学习的文字识别系统1,包括:
图像获取模块10,被配置为获取业务办公场景中待检测文书的图像数据集;
数据筛选模块20,被配置为从待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据;
数据清洗模块30,被配置为基于数据清洗规则对待检测模糊图像数据进行处理得到第一图像数据;
图像增强模块40,被配置为利用预先训练的生成式对抗网络模型对第一图像数据进行去模糊处理得到第二图像数据;
文本检测模块50,被配置为将待检测清晰图像数据和第二图像数据输入至预先训练的文本检测模型得到目标文字区域;
以及,文字识别模块60,被配置为通过预先训练的文字识别模型对目标文字区域进行文字识别得到目标文字。
在一些实施例中,本发明的基于深度学习的文字识别系统1还包括自然语言处理模块70,被配置为利用自然语言处理算法对目标文字进行处理得到多个文书基本要素信息;整合多个文书基本要素信息得到文字识别结果。
上述中基于深度学习的文字识别系统各模块的具体细节已经在对应的基于深度学习的文字识别方法中进行了详细的描述,因此此处不再赘述。
再一方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行时实现上述实施例所述的基于深度学习的文字识别方法。
具体地,上述存储器和处理器能够为通用的存储器和处理器,这里不做具体限定,当处理器运行存储器存储的计算机可读指令时,能够执行上述实施例所述的基于深度学习的文字识别方法。
又一方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例所述的基于深度学习的文字识别方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-only memory,ROM)、随机存取器(randomaccessmemory,RAM)、磁盘或光盘等。
应该指出,上述详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语均具有与本申请所属技术领域的普通技术人员的通常理解所相同的含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请所述的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位,如旋转90度或处于其他方位,并且对这里所使用的空间相对描述作出相应解释。
在上面详细的说明中,参考了附图,附图形成本文的一部分。在附图中,类似的符号典型地确定类似的部件,除非上下文以其他方式指明。在详细的说明书、附图及权利要求书中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下,其他实施方案可以被使用,并且可以作其他改变。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度学习的文字识别方法,其特征在于,包括:
获取业务办公场景中待检测文书的图像数据集;
从所述待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据;
基于数据清洗规则对所述待检测模糊图像数据进行处理得到第一图像数据;
利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据;
将所述待检测清晰图像数据和所述第二图像数据输入至预先训练的文本检测模型得到目标文字区域;
通过预先训练的文字识别模型对所述目标文字区域进行文字识别得到目标文字。
2.根据权利要求1所述的基于深度学习的文字识别方法,其特征在于,所述生成式对抗网络模型的训练过程具体包括:
根据内容损失、对抗损失确定损失函数,并基于所述损失函数构建所述生成式对抗网络模型的生成器和判别器;
将不同尺寸的模糊图像A”输入所述生成器得到去模糊后的清晰图像A’;
将所述去模糊后的清晰图像A’和真实的清晰图像A输入所述判别器得到所述去模糊后的清晰图像A’和真实的清晰图像A的相似得分;
如果所述去模糊后的清晰图像A’和真实的清晰图像A的相似得分满足预设相似阈值,则停止所述生成式对抗网络模型的训练。
3.根据权利要求1所述的基于深度学习的文字识别方法,其特征在于,所述利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据的步骤之后还包括:
利用改进的VGG模型对所述待检测清晰图像数据和所述第二图像数据进行文字方向的倾斜角度矫正处理。
4.根据权利要求3所述的基于深度学习的文字识别方法,其特征在于,所述改进的VGG模型的构建过程具体包括:
冻结VGG模型中除最后一层之外的所有卷积层和全连接层;
通过预先获取的具有不同文字方向的倾斜角度图像对所述VGG模型的最后一层进行训练,并通过softmax分类器得到包含多个图像文字方向分类的目标分类结果。
5.根据权利要求1所述的基于深度学习的文字识别方法,其特征在于,所述数据清洗规则包括缺失值清洗、格式内容清洗、逻辑错误清洗以及非需求数据清洗。
6.根据权利要求1所述的基于深度学习的文字识别方法,其特征在于,所述从所述待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据的步骤包括:
如果所述待检测文书的图像数据集中图像数据的边缘满足预设清晰度判定条件,则确定为待检测清晰图像数据,否则,确定为待检测模糊图像数据。
7.根据权利要求1所述的基于深度学习的文字识别方法,其特征在于,所述通过预先训练的文字识别模型对所述目标文字区域进行文字识别得到目标文字的步骤之后还包括:
利用自然语言处理算法对所述目标文字进行处理得到多个文书基本要素信息;
整合所述多个文书基本要素信息得到文字识别结果。
8.一种基于深度学习的文字识别系统,其特征在于,包括:
图像获取模块,被配置为获取业务办公场景中待检测文书的图像数据集;
数据筛选模块,被配置为从所述待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据;
数据清洗模块,被配置为基于数据清洗规则对所述待检测模糊图像数据进行处理得到第一图像数据;
图像增强模块,被配置为利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据;
文本检测模块,被配置为将所述待检测清晰图像数据和所述第二图像数据输入至预先训练的文本检测模型得到目标文字区域;
以及,文字识别模块,被配置为通过预先训练的文字识别模型对所述目标文字区域进行文字识别得到目标文字。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如权利要求1至7中任一项所述的基于深度学习的文字识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于深度学习的文字识别方法。
CN202210034486.5A 2022-01-13 2022-01-13 基于深度学习的文字识别方法及系统 Active CN114049641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210034486.5A CN114049641B (zh) 2022-01-13 2022-01-13 基于深度学习的文字识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210034486.5A CN114049641B (zh) 2022-01-13 2022-01-13 基于深度学习的文字识别方法及系统

Publications (2)

Publication Number Publication Date
CN114049641A true CN114049641A (zh) 2022-02-15
CN114049641B CN114049641B (zh) 2022-03-15

Family

ID=80196401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210034486.5A Active CN114049641B (zh) 2022-01-13 2022-01-13 基于深度学习的文字识别方法及系统

Country Status (1)

Country Link
CN (1) CN114049641B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152022A (zh) * 2023-10-25 2023-12-01 荣耀终端有限公司 图像处理方法及电子设备
CN117541561A (zh) * 2023-11-20 2024-02-09 广州方舟信息科技有限公司 一种抗原试剂盒图像处理方法、装置、设备及存储介质
CN117894004A (zh) * 2023-12-27 2024-04-16 武汉科技大学 一种基于深度学习的热铸坯号识别方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241894A (zh) * 2018-08-28 2019-01-18 南京安链数据科技有限公司 一种基于表格定位和深度学习的针对性票据内容识别系统和方法
CN110276253A (zh) * 2019-05-15 2019-09-24 中国科学院信息工程研究所 一种基于深度学习的模糊文字检测识别方法
CN110782402A (zh) * 2019-09-27 2020-02-11 深圳市华付信息技术有限公司 一种发票文本去模糊的方法
US20200065992A1 (en) * 2018-08-23 2020-02-27 Samsung Electronics Co., Ltd. Method and apparatus for recognizing image and method and apparatus for training recognition model based on data augmentation
CN111861894A (zh) * 2019-04-25 2020-10-30 上海理工大学 基于生成式对抗网络的图像去运动模糊方法
CN112163508A (zh) * 2020-09-25 2021-01-01 中国电子科技集团公司第十五研究所 一种基于真实场景的文字识别方法、系统及ocr终端
US20210110205A1 (en) * 2019-10-09 2021-04-15 Ancestry.Com Operations Inc. Adversarial network for transforming handwritten text
CN113888425A (zh) * 2021-09-27 2022-01-04 邹子杰 基于多帧融合的工业质检图像文字匹配方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200065992A1 (en) * 2018-08-23 2020-02-27 Samsung Electronics Co., Ltd. Method and apparatus for recognizing image and method and apparatus for training recognition model based on data augmentation
CN109241894A (zh) * 2018-08-28 2019-01-18 南京安链数据科技有限公司 一种基于表格定位和深度学习的针对性票据内容识别系统和方法
CN111861894A (zh) * 2019-04-25 2020-10-30 上海理工大学 基于生成式对抗网络的图像去运动模糊方法
CN110276253A (zh) * 2019-05-15 2019-09-24 中国科学院信息工程研究所 一种基于深度学习的模糊文字检测识别方法
CN110782402A (zh) * 2019-09-27 2020-02-11 深圳市华付信息技术有限公司 一种发票文本去模糊的方法
US20210110205A1 (en) * 2019-10-09 2021-04-15 Ancestry.Com Operations Inc. Adversarial network for transforming handwritten text
CN112163508A (zh) * 2020-09-25 2021-01-01 中国电子科技集团公司第十五研究所 一种基于真实场景的文字识别方法、系统及ocr终端
CN113888425A (zh) * 2021-09-27 2022-01-04 邹子杰 基于多帧融合的工业质检图像文字匹配方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MARIEM BEN FADHEL等: "GAN augmented text anomaly detection with sequences of deep statistics", 《2019 53RD ANNUAL CONFERENCE ON INFORMATION SCIENCES AND SYSTEMS (CISS)》 *
凌云: "人工智能辅助在线教育的关键技术研究", 《中国优秀硕士学位论文全文数据库 社会科学辑》 *
林惠: "基于深度学习的芯片字符实时识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152022A (zh) * 2023-10-25 2023-12-01 荣耀终端有限公司 图像处理方法及电子设备
CN117541561A (zh) * 2023-11-20 2024-02-09 广州方舟信息科技有限公司 一种抗原试剂盒图像处理方法、装置、设备及存储介质
CN117894004A (zh) * 2023-12-27 2024-04-16 武汉科技大学 一种基于深度学习的热铸坯号识别方法及系统

Also Published As

Publication number Publication date
CN114049641B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN114049641B (zh) 基于深度学习的文字识别方法及系统
Marra et al. A full-image full-resolution end-to-end-trainable CNN framework for image forgery detection
CN108230252B (zh) 图像处理方法、装置以及电子设备
CN107609549B (zh) 一种自然场景下证件图像的文本检测方法
CN112686812B (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
KR101753660B1 (ko) 축산농가 출입관리 시스템 및 그 방법
CN109492642B (zh) 车牌识别方法、装置、计算机设备及存储介质
CN109492577B (zh) 一种手势识别方法、装置及电子设备
US20130279758A1 (en) Method and system for robust tilt adjustment and cropping of license plate images
CN111046880A (zh) 一种红外目标图像分割方法、系统、电子设备及存储介质
US11037017B2 (en) Method and device for obtaining image of form sheet
Lu et al. Robust blur kernel estimation for license plate images from fast moving vehicles
CN109447117B (zh) 双层车牌识别方法、装置、计算机设备及存储介质
CN108566513A (zh) 一种无人机对运动目标的拍摄方法
Sidhwa et al. Text extraction from bills and invoices
CN107610149B (zh) 图像分割结果边缘优化处理方法、装置及计算设备
CN110705353A (zh) 基于注意力机制的遮挡人脸的识别方法和装置
CN109377494A (zh) 一种用于图像的语义分割方法和装置
CN109784322A (zh) 一种基于图像处理的vin码识别方法、设备及介质
JP2013037539A (ja) 画像特徴量抽出装置およびそのプログラム
CN110473255B (zh) 一种基于多重网格划分的船舶系船柱定位方法
CN112686248B (zh) 证件增减类别检测方法、装置、可读存储介质和终端
Rahmat et al. Android-based text recognition on receipt bill for tax sampling system
CN112686247A (zh) 一种身份证号码检测方法、装置、可读存储介质和终端
CN110751163A (zh) 目标定位方法及其装置、计算机可读存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant