CN111539417B - 一种基于深度神经网络的文本识别训练优化方法 - Google Patents

一种基于深度神经网络的文本识别训练优化方法 Download PDF

Info

Publication number
CN111539417B
CN111539417B CN202010351097.6A CN202010351097A CN111539417B CN 111539417 B CN111539417 B CN 111539417B CN 202010351097 A CN202010351097 A CN 202010351097A CN 111539417 B CN111539417 B CN 111539417B
Authority
CN
China
Prior art keywords
training
continuous
probability
corresponding data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010351097.6A
Other languages
English (en)
Other versions
CN111539417A (zh
Inventor
夏路遥
侯进
黄贤俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyuan Hengji Technology Co ltd
Original Assignee
Shenyuan Hengji Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyuan Hengji Technology Co ltd filed Critical Shenyuan Hengji Technology Co ltd
Priority to CN202010351097.6A priority Critical patent/CN111539417B/zh
Publication of CN111539417A publication Critical patent/CN111539417A/zh
Application granted granted Critical
Publication of CN111539417B publication Critical patent/CN111539417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度神经网络的文本识别训练优化方法,属于计算机视觉技术领域。本发明所述训练方法,通过降低连续错误或连续正确的次数较多的样本加入训练的概率,可以降低人工标注错误带来的影响,同时提高低频词出现的频率,并对训练样本的总量做了筛选,可以更快的让模型收敛,降低训练耗时。可以提高识别模型的准确率。

Description

一种基于深度神经网络的文本识别训练优化方法
技术领域
本发明属于计算机视觉技术领域,特别是涉及文本检测与识别技术。
背景技术
OCR (Optical Character Recognition光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将文字图像翻译成计算机文字的过程。目前,许多公司都有图片电子化的需要,例如将用户提供的大量的报销票据或个人证件等文本类的图片,转变为系统内所需要的相关数据,而将图片转为电子数据的这项技术靠的就是OCR。目前的OCR技术,分为检测和识别两个模块,检测模块负责将文字区域检测出来,识别模块负责将检测出来的区域裁剪出来并识别为对应文字。
现有的OCR技术中,识别模型的训练需要大量的文本标注数据,文本标注数据通常会存在人工标注错误、模糊字段存在不同人标注不同等问题,从而影响识别模型的训练效果;并且识别模型本身的准确率会受到原始数据样本分布的影响:对大量出现的文本有较高的准确率,但是频率较低的文本则准确率较低,识别模型的训练耗时较长,且容易出现误识别为高频率相似字的现象。本发明主要解决的就是数据样本分布不均带来的问题。
发明内容
针对上述技术问题,本发明提出了一种基于深度神经网络的文本识别训练优化方法,本训练方法,可以降低人工标注错误带来的影响,同时提高低频词出现的频率,并对训练样本的总量做了筛选,可以更快的让模型收敛,降低训练耗时。可以提高识别模型的准确率。
本发明包含以下技术方案:
一种基于深度神经网络的文本识别训练优化方法,包括以下步骤:
(1)训练开始,从存储的缓存中读取训练数据;
(2)判断当前训练数据的训练状态,所述训练状态为连续识别错误次数或连续识别正确次数,其取值范围为连续错误10次至连续正确10次,超过10次的以10次记;
(3)按照连续错误或连续正确的次数越多,下次加入训练的概率越低的原则确定对应数据下次加入训练的概率;
(4)根据步骤(3)确定的下次加入训练的概率对数据进行训练;
(5)进行多个轮次的训练,得到训练优化后的样本分布。
在该文本识别训练优化方法中,随着训练的次数的增加,不断减低连续识别错误次数或连续识别正确次数较高的数据的加入概率;容易识别正确(连续正确)的样本加入概率会不断降低,容易识别错误(连续错误)的样本加入概率也会降低。容易正确的样本,一般是高频率的词,降低加入概率,可以降低此类样本带来的过拟合。一直错误的样本,往往是标注错误或者样本本身较为模糊的,这些样本对模型本身有负面作用的。剩下那些经常在正确与错误之间切换状态的样本,则是我们希望通过训练可以提高准确率的样本。
作为可选方式,在上述文本识别训练优化方法中,所述轮次在100以上。
作为可选方式,在上述文本识别训练优化方法中,所述步骤(3)中确定对应数据下次加入训练的概率的方法具体为:当连续错误或连续正确的次数小于n时,对应数据下次加入训练的概率为100%,当连续错误或连续正确的次数大于或等于n时,随着连续错误或连续正确的次数的增加,对应数据下次加入训练的概率依次减半,所述n的取值为3或4或5或6或7,n 的具体取值可根据应用实际灵活选择。
作为可选方式,在上述文本识别训练优化方法中,所述步骤(3)中确定对应数据下次加入训练的概率的方法具体为:当连续错误的次数小于4时,对应数据下次加入训练的概率为100%,当连续错误的次数大于或等于4时,随着连续错误的次数的增加,对应数据下次加入训练的概率依次减半;当连续正确的次数小于7时,对应数据下次加入训练的概率为100%,当连续正确的次数大于或等于7时,随着连续正确的次数的增加,对应数据下次加入训练的概率依次减半。
作为可选方式,在上述文本识别训练优化方法中,所述步骤(3)中确定对应数据下次加入训练的概率的方法具体为:当连续错误或连续正确的次数小于n时,对应数据下次加入训练的概率为100%,当连续错误或连续正确的次数大于或等于n时,随着连续错误或连续正确的次数的增加,对应数据下次加入训练的概率依次递减10%,所述n的取值为5、6、7或8。
作为可选方式,在上述文本识别训练优化方法中,所述步骤(3)中确定对应数据下次加入训练的概率的方法具体为:当连续错误的次数小于6时,对应数据下次加入训练的概率为100%,当连续错误的次数为6时,对应数据下次加入训练的概率为85%,当连续错误的次数为7、8、9、10时,对应数据下次加入训练的概率分别为70%、55%、40%、25%;当连续正确的次数小于5时,对应数据下次加入训练的概率为100%,当连续正确的次数等于5时,对应数据下次加入训练的概率为85%,当连续错误的次数为6、7、8、9、10时,对应数据下次加入训练的概率分别为70%、55%、40%、25%、10%。
在上述文本识别训练优化方法中,所述步骤(3)中确定对应数据下次加入训练的概率的方法并不局限于上述几种可选方式,只需要符合连续正确或连续错误的次数越多的样本加入概率越低即可。
作为可选方式,在上述文本识别训练优化方法中,所述步骤(4)中,先随机生成一个0-1的三位小数,如果所得数值大于对应数据下次加入训练的概率,则该数据不加如本轮训练,如果所得数值小于等于对应数据下次加入训练的概率,则将对应数据加入本轮训练,并根据训练后数据是否识别正确,更新数据的训练状态。
本发明还提供了一种基于深度神经网络的文本识别方法,包括以下步骤:
(1)对原始文本进行人工标注,标注出处文本区域与文本内容;
(2)建立文本检测模型,并使用步骤(1)标注的文本区域数据来训练文本检测模型;
(3)建立文本识别模型,并结合步骤(1)标注的文本识别内容采用上述任意一种文本识别训练优化方法来训练文本识别模型。
作为可选方式,在上述文本识别方法中,所述文本检测模型可以使用FasterRCNN、SSD、YOLO、YOLO-v2等通用的目标检测算法中的任意一种,也可以使用专门为文字检测优化过后的算法:比如:EAST,RRCNN,TextBoxes, CTPN等。
作为可选方式,在上述文本识别方法中,所述文本检测模型为Faster RCNN,具体包括以下步骤:
1)深度卷积网络(conv layers)提取文本图片抽象特征(feature maps);
2)使用区域候选网络推荐候选文本区域;
3)从候选区域回归票据的精准区域。
该模型主要基于的是目前发展较好的深度卷积神经网络进行检测,目前是对较为成熟的Faster RCNN框架进行改良,该框架的基础版本对于较大的物体有比较高的准确率。框架的的流程为:I.对图片提取特征,II.枚举大量的矩形来试图回归出对应的物体,III.将枚举出的矩形分成2类:包含目标且交集较大的正样本和其他负样本,IV.将正样本从特征图中裁剪出来,然后根据特征图去回归目标的边界。
作为可选方式,在上述文本识别方法中,所述文本识别模型为CNN+RNN模型。该模型通过深度循环网络进行文字串识别,结合了 CNN与RNN,由CNN提取图像特征,对特征图进行横向切片,然后采用LSTM循环网络进行推理文本 ,最后采用CTC损失函数计算预测字符串与标注的差距,完成端到端的训练。
作为可选方式,在上述文本识别方法中,所述文本识别模型具体包括以下步骤:
1)使用卷积网络提取耳标图片特征;
2)将上述特征输入LSTM构成的双向循环神经网络;
3)使用CTC算法合并叠字和占位符,输出概率最大的文字序列。
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本发明的有益效果:
本发明所述训练方法,可以降低人工标注错误带来的影响,同时提高低频词出现的频率,并对训练样本的总量做了筛选,可以更快的让模型收敛,降低训练耗时。可以提高识别模型的准确率。
附图说明:
图1为本发明所述智能仓储零配件视频识别检索系统的结构示意图;
图2为本发明所述智能仓储零配件视频识别检索系统工作流程图;
图3为本发明所述数据采集前端智能穿戴眼镜的结构示意图;
图4为本发明所述箱签和零配件签的示意图。
具体实施方式:
以下通过实施例的具体实施方式以票据的文本检测和识别为例再对本发明的上述内容作进一步的详细说明。但不应当将此理解为本发明上述主题的范围仅限于以下的实例,本发明所述方法可以适用于票据之外的其他文本的检测和识别。在不脱离本发明的精神和原则之内做的任何修改,以及根据本领域普通技术知识和惯用手段做出的等同替换或者改进,均应包括在本发明的保护范围内。
实施例1
一种基于深度神经网络的文本识别方法,包括以下工作流程:
(1)对原始的票据进行标注,标注出处文字区域与文本内容;
(2)使用标注的文本区域数据,用faster-rcnn框架来训练文本检测的基础模型;
(3)使用标注的文本识别内容来训练CNN+RNN的文本识别模型。
其中步骤(2)用于票据检测(即从图片中检测文字串)的Faster RCNN算法的基本流程如图1所示,具体包括:
1)深度卷积网络(conv layers)提取票据图片抽象特征(feature maps);
2)使用区域候选网络推荐候选票据区域;
3)从候选区域回归票据的精准区域。
其中,步骤(3)中裁剪旋正后的票据图片的文字识别算法结合了深度卷积神经网络和循环神经网络,共同实现图片到文字的转换。其算法原理如图2所示,具体为:
1)使用卷积网络提取耳标图片特征
2)将上述特征输入LSTM构成的双向循环神经网络
3)使用CTC算法合并叠字和占位符,输出概率最大的文字序列。
其中,所述步骤(3)中文本识别模型的训练方法如图3所示,具体为:
1)训练开始,从存储的缓存中读取训练数据;
2)判断当前训练数据的训练状态,所述训练状态为连续识别错误次数或连续识别正确次数,其取值范围为连续错误10次至连续正确10次,超过10次的以10次记;
3)按照连续错误或连续正确的次数越多,下次加入训练的概率越低的原则确定对应数据下次加入训练的概率,具体如图4所示,当连续错误的次数小于4时,对应数据下次加入训练的概率为100%,当连续错误的次数大于或等于4时,随着连续错误的次数的增加,对应数据下次加入训练的概率依次减半;当连续正确的次数小于7时,对应数据下次加入训练的概率为100%,当连续正确的次数大于或等于7时,随着连续正确的次数的增加,对应数据下次加入训练的概率依次减半;
4)根据步骤3)确定的下次加入训练的概率对数据进行训练;
5)进行多个轮次的训练,得到训练优化后的样本分布。
采用本实施例所述的训练方法,一般训练完所有训练数据大概100个轮次模型可以收敛到比较高的准确率,通过数据过滤,相对于传统的训练方法,本实施例训练样本总数可以下降69%,训练的迭代时间降低61%,同时,通过此方法修改样本分布之后,平均错误率可以降低12%。
实施例2
一种基于深度神经网络的文本识别方法,包括以下工作流程:
(1)对原始的票据进行标注,标注出处文字区域与文本内容;
(2)使用标注的文本区域数据,用YOLO框架来训练文本检测的基础模型;
(3)使用标注的文本识别内容来训练CNN+RNN的文本识别模型。
其中,步骤(3)中裁剪旋正后的票据图片的文字识别算法结合了深度卷积神经网络和循环神经网络,共同实现图片到文字的转换。其算法原理如图2所示,具体为:
1)使用卷积网络提取耳标图片特征
2)将上述特征输入LSTM构成的双向循环神经网络
3)使用CTC算法合并叠字和占位符,输出概率最大的文字序列。
其中,所述步骤(3)中文本识别模型的训练方法如图3所示,具体为:
1)训练开始,从存储的缓存中读取训练数据;
2)判断当前训练数据的训练状态,所述训练状态为连续识别错误次数或连续识别正确次数,其取值范围为连续错误10次至连续正确10次,超过10次的以10次记;
3)按照连续错误或连续正确的次数越多,下次加入训练的概率越低的原则确定对应数据下次加入训练的概率,当连续错误或连续正确的次数小于5时,对应数据下次加入训练的概率为100%,当连续错误或连续正确的次数大于或等于5时,随着连续错误或连续正确的次数的增加,对应数据下次加入训练的概率依次减半;
4)根据步骤3)确定的下次加入训练的概率对数据进行训练;
5)进行多个轮次的训练,得到训练优化后的样本分布。
采用本实施例所述的训练方法,一般训练完所有训练数据大概120个轮次模型可以收敛到比较高的准确率,通过数据过滤,相对于传统的训练方法,本实施例训练样本总数可以下降65%,训练的迭代时间降低57%,同时,通过此方法修改样本分布之后,平均错误率可以降低11%。
实施例3
一种基于深度神经网络的文本识别方法,包括以下工作流程:
(1)对原始的票据进行标注,标注出处文字区域与文本内容;
(2)使用标注的文本区域数据,用EAST框架来训练文本检测的基础模型;
(3)使用标注的文本识别内容来训练CNN+RNN的文本识别模型。
其中,步骤(3)中裁剪旋正后的票据图片的文字识别算法结合了深度卷积神经网络和循环神经网络,共同实现图片到文字的转换。其算法原理如图2所示,具体为:
1)使用卷积网络提取耳标图片特征
2)将上述特征输入LSTM构成的双向循环神经网络
3)使用CTC算法合并叠字和占位符,输出概率最大的文字序列。
其中,所述步骤(3)中文本识别模型的训练方法如图3所示,具体为:
1)训练开始,从存储的缓存中读取训练数据;
2)判断当前训练数据的训练状态,所述训练状态为连续识别错误次数或连续识别正确次数,其取值范围为连续错误10次至连续正确10次,超过10次的以10次记;
3)按照连续错误或连续正确的次数越多,下次加入训练的概率越低的原则确定对应数据下次加入训练的概率,当连续错误的次数小于6时,对应数据下次加入训练的概率为100%,当连续错误的次数为6时,对应数据下次加入训练的概率为85%,当连续错误的次数为7、8、9、10时,对应数据下次加入训练的概率分别为70%、55%、40%、25%;当连续正确的次数小于5时,对应数据下次加入训练的概率为100%,当连续正确的次数等于5时,对应数据下次加入训练的概率为85%,当连续错误的次数为6、7、8、9、10时,对应数据下次加入训练的概率分别为70%、55%、40%、25%、10%;
4)根据步骤3)确定的下次加入训练的概率对数据进行训练;
5)进行多个轮次的训练,得到训练优化后的样本分布。
采用本实施例所述的训练方法,一般训练完所有训练数据大概150个轮次模型可以收敛到比较高的准确率,通过数据过滤,相对于传统的训练方法,本实施例训练样本总数可以下降50%,训练的迭代时间降低50%,同时,通过此方法修改样本分布之后,平均错误率可以降低10%。
以上所述仅为本发明的优选实施例,对本发明而言仅是说明性的,而非限制性的;本领域普通技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效变更,但都将落入本发明的保护范围。

Claims (10)

1.一种基于深度神经网络的文本识别训练优化方法,其特征在于,包括以下步骤:
(1)训练开始,从存储的缓存中读取训练数据;
(2)判断当前训练数据的训练状态,所述训练状态为连续识别错误次数或连续识别正确次数,其取值范围为连续错误10次至连续正确10次,超过10次的以10次记;
(3)按照连续错误或连续正确的次数越多,下次加入训练的概率越低的原则确定对应数据下次加入训练的概率;
(4)根据步骤(3)确定的下次加入训练的概率对数据进行训练,具体为:先随机生成一个0-1的三位小数,如果所得数值大于对应数据下次加入训练的概率,则该数据不加入本轮训练,如果所得数值小于等于对应数据下次加入训练的概率,则将对应数据加入本轮训练,并根据训练后数据是否识别正确,更新数据的训练状态;
(5)进行100个轮次以上的训练,得到训练优化后的样本分布。
2.根据权利要求1所述的文本识别训练优化方法,其特征在于,所述步骤(3)中确定对应数据下次加入训练的概率的方法具体为:当连续错误或连续正确的次数小于n时,对应数据下次加入训练的概率为100%,当连续错误或连续正确的次数大于或等于n时,随着连续错误或连续正确的次数的增加,对应数据下次加入训练的概率依次减半,所述n的取值为3或4或5或6或7。
3.根据权利要求1所述的文本识别训练优化方法,其特征在于,所述步骤(3)中确定对应数据下次加入训练的概率的方法具体为:当连续错误的次数小于4时,对应数据下次加入训练的概率为100%,当连续错误或连续正确的次数大于或等于4时,随着连续错误的次数的增加,对应数据下次加入训练的概率依次减半;当连续正确的次数小于7时,对应数据下次加入训练的概率为100%,当连续错误或连续正确的次数大于或等于7时,随着连续错误的次数的增加,对应数据下次加入训练的概率依次减半。
4.根据权利要求1所述的文本识别训练优化方法,其特征在于,所述步骤(3)中确定对应数据下次加入训练的概率的方法具体为:当连续错误或连续正确的次数小于n时,对应数据下次加入训练的概率为100%,当连续错误或连续正确的次数大于或等于n时,随着连续错误或连续正确的次数的增加,对应数据下次加入训练的概率依次递减10%,所述n的取值为7或8。
5.根据权利要求1所述的文本识别训练优化方法,其特征在于,所述步骤(3)中确定对应数据下次加入训练的概率的方法具体为:当连续错误的次数小于6时,对应数据下次加入训练的概率为100%,当连续错误的次数为6时,对应数据下次加入训练的概率为85%,当连续错误的次数为7、8、9、10时,对应数据下次加入训练的概率分别为70%、55%、40%、25%;当连续正确的次数小于5时,对应数据下次加入训练的概率为100%,当连续正确的次数等于5时,对应数据下次加入训练的概率为85%,当连续错误的次数为6、7、8、9、10时,对应数据下次加入训练的概率分别为70%、55%、40%、25%、10%。
6.一种基于深度神经网络的文本识别方法,其特征在于,包括以下步骤:
(1)对原始文本进行人工标注,标注出处文本区域与文本内容;
(2)建立文本检测模型,并使用步骤(1)标注的文本区域数据来训练文本检测模型;
(3)建立文本识别模型,并结合步骤(1)标注的文本识别内容采用权利要求1所述的文本识别训练优化方法来训练文本识别模型。
7.根据权利要求6所述的文本识别方法,其特征在于,所述文本检测模型为FasterRCNN、SSD、YOLO、YOLO-v2、EAST,RRCNN、TextBoxes、 CTPN中的一种。
8.根据权利要求6所述的文本识别方法,其特征在于,所述文本检测模型为FasterRCNN,具体包括以下步骤:
1)深度卷积网络提取文本图片抽象特征;
2)使用区域候选网络推荐候选文本区域;
3)从候选区域回归票据的精准区域。
9.根据权利要求6所述的文本识别方法,其特征在于,所述文本识别模型为CNN+RNN模型。
10.根据权利要求6所述的文本识别方法,其特征在于,所述文本识别模型具体包括以下步骤:
1)使用卷积网络提取目标图片特征;
2)将上述特征输入LSTM构成的双向循环神经网络;
3)使用CTC算法合并叠字和占位符,输出概率最大的文字序列。
CN202010351097.6A 2020-04-28 2020-04-28 一种基于深度神经网络的文本识别训练优化方法 Active CN111539417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010351097.6A CN111539417B (zh) 2020-04-28 2020-04-28 一种基于深度神经网络的文本识别训练优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010351097.6A CN111539417B (zh) 2020-04-28 2020-04-28 一种基于深度神经网络的文本识别训练优化方法

Publications (2)

Publication Number Publication Date
CN111539417A CN111539417A (zh) 2020-08-14
CN111539417B true CN111539417B (zh) 2024-04-05

Family

ID=71977268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010351097.6A Active CN111539417B (zh) 2020-04-28 2020-04-28 一种基于深度神经网络的文本识别训练优化方法

Country Status (1)

Country Link
CN (1) CN111539417B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931863B (zh) * 2020-09-15 2021-02-19 深圳追一科技有限公司 误标注数据筛选方法、装置及计算机存储介质
CN112257965A (zh) * 2020-11-26 2021-01-22 深源恒际科技有限公司 图像文本识别置信度的预测方法和预测系统
CN113830459B (zh) * 2021-09-24 2023-04-14 北京声智科技有限公司 垃圾桶控制方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5805730A (en) * 1995-08-08 1998-09-08 Apple Computer, Inc. Method for training an adaptive statistical classifier with improved learning of difficult samples
US5903884A (en) * 1995-08-08 1999-05-11 Apple Computer, Inc. Method for training a statistical classifier with reduced tendency for overfitting
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
CN109670494A (zh) * 2018-12-13 2019-04-23 深源恒际科技有限公司 一种附带识别置信度的文本检测方法及系统
CN110084271A (zh) * 2019-03-22 2019-08-02 同盾控股有限公司 一种图片类别的识别方法和装置
CN110705630A (zh) * 2019-09-27 2020-01-17 聚时科技(上海)有限公司 半监督学习式目标检测神经网络训练方法、装置及应用

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5805730A (en) * 1995-08-08 1998-09-08 Apple Computer, Inc. Method for training an adaptive statistical classifier with improved learning of difficult samples
US5903884A (en) * 1995-08-08 1999-05-11 Apple Computer, Inc. Method for training a statistical classifier with reduced tendency for overfitting
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
CN109670494A (zh) * 2018-12-13 2019-04-23 深源恒际科技有限公司 一种附带识别置信度的文本检测方法及系统
CN110084271A (zh) * 2019-03-22 2019-08-02 同盾控股有限公司 一种图片类别的识别方法和装置
CN110705630A (zh) * 2019-09-27 2020-01-17 聚时科技(上海)有限公司 半监督学习式目标检测神经网络训练方法、装置及应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于机器视觉和神经网络的低质量文本识别研究;李少辉;周军;刘波;钱俞好;吴闽仪;;机电工程(第09期);全文 *

Also Published As

Publication number Publication date
CN111539417A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
US11514698B2 (en) Intelligent extraction of information from a document
CN110119786B (zh) 文本话题分类方法及装置
CN111860506B (zh) 识别文字的方法和装置
CN110363194B (zh) 基于nlp的智能阅卷方法、装置、设备及存储介质
CN111539417B (zh) 一种基于深度神经网络的文本识别训练优化方法
CN108664589B (zh) 基于领域自适应的文本信息提取方法、装置、系统及介质
US10956673B1 (en) Method and system for identifying citations within regulatory content
CN109670494B (zh) 一种附带识别置信度的文本检测方法及系统
RU2760471C1 (ru) Способы и системы идентификации полей в документе
CN103824053A (zh) 一种人脸图像的性别标注方法及人脸性别检测方法
CN111476210B (zh) 基于图像的文本识别方法、系统、设备及存储介质
Liu et al. SemiText: Scene text detection with semi-supervised learning
CN111259897A (zh) 知识感知的文本识别方法和系统
Xiao et al. An extended attention mechanism for scene text recognition
Roy et al. Word searching in scene image and video frame in multi-script scenario using dynamic shape coding
Nikitha et al. Handwritten text recognition using deep learning
Al-Barhamtoshy et al. An arabic manuscript regions detection, recognition and its applications for ocring
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
CN116343237A (zh) 基于深度学习和知识图谱的票据识别方法
Chao et al. Variational connectionist temporal classification
CN117076455A (zh) 一种基于智能识别的保单结构化存储方法、介质及系统
CN116110047A (zh) 基于ocr-ner的结构化电子病历构建方法和系统
Mirza et al. Impact of pre-processing on recognition of cursive video text
CN115546801A (zh) 一种试验文书纸质图像数据特征提取方法
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant