CN113496227A - 一种字符识别模型的训练方法、装置、服务器及存储介质 - Google Patents
一种字符识别模型的训练方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN113496227A CN113496227A CN202010268786.0A CN202010268786A CN113496227A CN 113496227 A CN113496227 A CN 113496227A CN 202010268786 A CN202010268786 A CN 202010268786A CN 113496227 A CN113496227 A CN 113496227A
- Authority
- CN
- China
- Prior art keywords
- recognition model
- character
- character recognition
- character data
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 137
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000000605 extraction Methods 0.000 claims description 25
- 238000012216 screening Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 16
- 235000012054 meals Nutrition 0.000 description 13
- 238000012015 optical character recognition Methods 0.000 description 10
- 238000012544 monitoring process Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 241000209094 Oryza Species 0.000 description 4
- 235000007164 Oryza sativa Nutrition 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 235000009566 rice Nutrition 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- GVVPGTZRZFNKDS-JXMROGBWSA-N geranyl diphosphate Chemical compound CC(C)=CCC\C(C)=C\CO[P@](O)(=O)OP(O)(O)=O GVVPGTZRZFNKDS-JXMROGBWSA-N 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
- 239000007921 spray Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Character Discrimination (AREA)
Abstract
本申请实施例中公开一种字符识别模型的训练方法,该方法通过筛选出初始字符识别模型中的目标字符数据类别,其中,目标字符数据类别中包括初始字符识别模型中无法识别的第一数据类别,初始字符识别模型中识别率低于预设识别率第二数据类别,以及初始字符识别模型中出现频率大于预设出现频率的第三数据类别。再选取包含目标字符数据类别的多个样本数据,利用样本字符数据对通用的字符识别模型进行训练,得到新的第一字符识别模型。由于样本字符数据中包括筛选出的目标字符数据类别,利用样本数据进行训练后得到的新的第一字符识别模型,可以有效的对多种字符数据进行识别,且有效提高了识别的成功率。
Description
技术领域
本申请涉及字符识别领域,具体涉及一种字符识别模型的训练方法、装置、服务器及存储介质。
背景技术
字符识别因其在现实生活中的应用性得到了国内外学者的广泛关注,字符识别又包括有光学字符识别(Optical Character Recognition,OCR),OCR技术是通过扫描等光学输入方式将各种票据、报刊、书籍等印刷品的文字转化为图像信息,再利用文字识别技术奖图像信息转换为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗的了录入和处理领域。OCR软件主要包括图像处理模块、版面划分模块、文字识别模块和文字编辑把模块等组成,其中文字识别模块是OCR软件的核心部分,现有的文字识别模块不能有效的识别多种类型的数据,识别准确率低,且对于不同类型数据的识别都需要进行数据训练,耗费大量人力物力。
发明内容
本申请实施例中提供一种字符识别模型的训练方法,旨在解决现有技术下的字符识别模型,不能有效的识别多种类型的数据,且识别准确率较低的问题。
第一方面,本申请提供一种字符识别模型的训练方法,所述方法包括:
获取预设的第一样本字符数据;
从所述第一样本字符数据中选取目标字符数据类别的第一目标字符数据,所述目标字符数据类别包括:无法识别的第一字符数据类别,识别率低于预设识别率的第二字符数据类别,以及出现频率大于预设出现频率的第三字符数据类别;
根据所述第一目标字符数据对初始字符识别模型进行训练,得到第一字符识别模型。
进一步的,所述从所述第一样本字符数据中选取目标字符数据类别的第一目标字符数据,包括:
利用所述初始字符识别模型对所述第一样本字符数据进行识别,得到多个识别结果;
根据多个所述识别结果,从所述第一样本字符数据中筛选所述目标字符数据类别的第一目标字符数据。
进一步的,所述根据所述第一目标字符数据对所述初始字符识别模型进行训练,得到第一字符识别模型,包括:
将所述第一目标字符数据作为所述第二样本字符数据;
根据所述第二样本字符数据,对所述初始字符识别模型进行训练,得到第一字符识别模型。
进一步的,所述根据所述第二样本字符数据,对所述初始字符识别模型进行训练,得到第一字符识别模型,包括:
根据所述第二样本字符数据,对所述初始字符识别模型进行训练,得到第一权重参数集;
根据所述第一权重参数集,得到所述第一字符识别模型。
进一步的,所述根据所述第二样本字符数据,对所述初始字符识别模型进行训练,得到第一权重参数集,包括:
锁定所述初始字符识别模型中特征提取层的初始权重参数;
利用所述第二样本字符数据,对所述初始字符识别模型进行训练,得到除所述初始权重参数外的第一权重参数集,所述第一权重参数集包括多个权重参数,多个所述权重参数分别与所述初始字符识别模型中的全连接层中的多个数据类别一一对应。
进一步的,所述利用所述第二样本字符数据,对所述初始字符识别模型进行训练,得到除所述初始权重参数外的第一权重参数集,包括:
将所述第二样本字符数据代入所述初始字符识别模型进行训练;
判断训练中的所述初始字符识别模型是否收敛;
若所述训练中的初始字符识别模型收敛,判断所述初始字符识别模型是否收敛至预设收敛值;
若所述初始字符识别模型收敛至预设收敛值,停止训练,获取训练后的初始字符识别模型中的第一权重参数集。
进一步的,所述方法还包括:
若训练中的所述初始字符识别模型不收敛,不断更新除所述特征提取层外所述初始字符识别模型中其他层结构的权重参数。
进一步的,所述第二样本字符数据中,所述目标字符数据类别中的第一字符数据类别对应的第一样本数量、第二字符类别对应的第二样本数量和第三字符类别对应的第三样本数量的差值小于预设差值。
进一步的,所述根据所述第一目标字符数据对所述初始字符识别模型进行训练,得到第一字符识别模型,包括:
根据所述第一目标字符数据,获取包含所述第一目标字符数据的第三样本数据,所述目标字符数据类别对应的第一目标字符数据,在所述第三样本数据中的占比大于第一预设值;
根据所述第三样本字符数据,对所述初始字符识别模型进行训练,得到第一字符识别模型。
第二方面,本申请还提供一种字符识别模型的训练装置,所述装置包括:
获取模块,所述获取模块用于获取预设的第一样本字符数据;
筛选模块,所述筛选模块用于从所述第一样本字符数据中选取目标字符数据类别的第一目标字符数据,
所述目标字符数据类别包括:初始字符识别模型中无法识别的第一字符数据类别,所述初始字符识别模型中识别率低于预设识别率第二字符数据类别,以及所述初始字符识别模型中出现频率大于预设出现频率的第三字符数据类别;
训练模块,所述训练模块用于根据所述第一目标字符数据对所述初始字符识别模型进行训练,得到第一字符识别模型。
第三方面,本申请还提供一种服务器,所述服务器包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现权利要求1至9中任一项所述的字符识别模型的训练方法。
第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至9中任一项所述的字符识别模型的训练方法中的步骤。
本申请实施例中提供一种字符识别模型的训练方法,该方法通过筛选出初始字符识别模型中的目标字符数据类别,其中,目标字符数据类别中包括初始字符识别模型中无法识别的第一数据类别,初始字符识别模型中识别率低于预设识别率第二数据类别,以及初始字符识别模型中出现频率大于预设出现频率的第三数据类别。再选取包含目标字符数据类别的多个样本数据,利用样本字符数据对通用的字符识别模型进行训练,得到新的第一字符识别模型。由于样本字符数据中包括筛选出的目标字符数据类别,利用样本数据进行训练后得到的新的第一字符识别模型,可以有效的对多种字符数据进行识别,且有效提高了识别的成功率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为为本申请实施例提供的主机监控系统的场景示意图;
图2为本申请实施例提供的字符识别模型的训练方法一实施例流程示意图;
图3为本申请提供的初始字符识别模型的一实施例结构意图;
图4为本申请实施例提供的字符识别模型一具体实施例结构示意图;
图5为本申请实施例提供的获取第一权重参数集的一实施例流程示意图;
图6为本申请实施例提供的字符识别训练装置一实施例示意图;
图7为本申请实施例所涉及到的服务器的结构示意图。
具体实施例
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本申请的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。
本申请实施例提供一种字符识别模型的训练方法、装置、服务器及存储介质,以下分别进行说明。
如图1所示,为本申请实施例提供的主机监控系统的场景示意图,该主机监控系统可以包括多个主机100和服务器200,主机100和服务器20网络连接,服务器200中集成有主机监控装置,如图1中的服务器,主机100可以访问服务器200。
本发明实施例中服务器200主要用于获取预设的第一样本字符数据。从第一样本字符数据中选取目标字符数据类别的第一目标最数据,其中目标字符数据类别包括:无法识别的第一字符数据类别,识别率低于预设识别率的第二字符数据类别,以及出现频率大于预设出现频率的第三字符数据类别。根据述第一目标字符数据对初始字符识别模型进行训练,得到第一字符识别模型。
本发明实施例中,该服务器200可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,例如,本发明实施例中所描述的服务器200,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。本发明的实施例中,服务器与主机之间可通过任何通信方式实现通信,包括但不限于,基于第三代合作伙伴计划(3rd Generation Partnership Project,3GPP)、长期演进(Long Term Evolution,LTE)、全球互通微波访问(Worldwide Interoperability for Microwave Access,WiMAX)的移动通信,或基于TCP/IP协议族(TCP/IP Protocol Suite,TCP/IP)、用户数据报协议(User Datagram Protocol,UDP)协议的计算机网络通信等。
可以理解的是,本发明实施例中所使用的主机100可以是既包括接收和发射硬件的设备,即具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种主机可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。具体的主机100具体可以是台式终端或移动终端,主机100具体还可以是手机、平板电脑、笔记本电脑等中的一种。
本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本申请方案一种应用场景,并不构成对本申请方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的服务器,或者服务器网络连接关系,例如图1中仅示出1个服务器和2个主机,可以理解的,该主机监控系统还可以包括一个或多个其他服务器,或/且一个或多个与服务器网络连接的主机,具体此处不作限定。
另外,如图1所示,该主机监控系统还可以包括存储器300,用于存储数据,如存储主机数据,例如主机运行时的主机状态数据等。
需要说明的是,图1所示的主机监控系统的场景示意图仅仅是一个示例,本发明实施例描述的主机监控系统以及场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着主机监控系统的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
本申请实施例提供一种字符识别模型的训练方法,该方法包括:获取预设的第一样本字符数据;从第一样本字符数据中选取目标字符数据类别的第一目标字符数据,其中目标字符数据类别包括:初始字符识别模型中无法识别的第一字符数据类别,初始字符识别模型中识别率低于预设识别率第二字符数据类别,以及初始字符识别模型中出现频率大于预设出现频率的第三字符数据类别;根据第一目标字符数据对初始字符识别模型进行训练,得到第一字符识别模型。以下分别进行详细说明。如图2所示,图2为本申请实施例提供的字符识别模型的训练方法一实施例流程示意图,该方法包括:
21、获取预设的第一样本字符数据。
22、从第一样本字符数据中选取目标字符数据类别的第一目标字符数据,其中目标字符数据类别包括:无法识别的第一字符数据类别,识别率低于预设识别率的第二字符数据类别,以及出现频率大于预设出现频率的第三字符数据类别。
23、根据所述第一目标字符数据对初始字符识别模型进行训练,得到第一字符识别模型。
区别于现有技术,本申请提供一种字符识别模型的训练方法,该方法通过筛选出初始字符识别模型中的目标字符数据类别,其中,目标字符数据类别中包括初始字符识别模型中无法识别的第一数据类别,初始字符识别模型中识别率低于预设识别率第二数据类别,以及初始字符识别模型中出现频率大于预设出现频率的第三数据类别。再选取包含目标字符数据类别的多个样本数据,利用样本字符数据对通用的字符识别模型进行训练,得到新的第一字符识别模型。由于样本字符数据中包括筛选出的目标字符数据类别,利用样本数据进行训练后得到的新的第一字符识别模型,可以有效的对多种字符数据进行识别,且有效提高了识别的成功率。
在本申请的实施例中,初始字符识别模型是利用最原始的字符数据,进行长期的深度学习和识别训练得到的。初始字符识别模型可以识别大多数的汉字、数字、英文字母及标点符号类别,在各种场景的文字识别任务上,效果均不错,但是在某些特定情景下,某些类别的识别效果不够好,或因之前的模型训练不够全面,使得不能够识别某些类别的文字。
在本申请的一些实施例中,需要对初始字符识别模型进行改进,使得初始字符识别模型可以识别更多类别的字符数据,并提高初始字符识别模型的识别精度。因此需要将初始字符识别模型应用在某些具体的字符识别场景中,以筛选出符合要求的目标字符数据。
具体的,在某些具体的字符识别场景中,获取当前识别场景中需要进行识别的第一样本字符数据,第一样本字符数据随着识别场景的不同而不同。例如在发票字符识别的场景中,第一样本字符数据可以是多个发票上的多种类型的多个字符。
在本申请的一个具体实施例中,初始字符识别模型可以为光学字符识别模型,识别场景可以为票据识别。此时,预设的第一样本字符数据可以为多个票据上的多种类型的多个字符,并将光学字符识别模型应用于识别票据上的多种类型字符。
在上述实施例的基础上,从第一样本字符数据中选取目标字符数据类别的第一目标字符数据,可以包括:利用初始字符识别模型对第一样本字符数据进行识别,得到多个识别结果。根据多个识别结果,从第一样本字符数据中筛选出目标字符数据类别的第一目标字符数据。
具体的,利用光学字符识别模型来识别票据上的字符,可以得到票据上每个字符的识别结果,将识别结果与票据上真实的字符进行对比,可以判断出票据上每一个字符的识别正确与否。
在本申请的一些实施例中,可以根据识别结果与票据上真实的字符进行对比,可以发现有一些字符的识别效果较好,而有一些字符识别效果并不好。在本申请的一个具体实施例中,可以发现光学字符识别模型对汉字、数字和英文字母的识别效果均不错,即光学字符识别模型对于前述的字符识别精度比较高,基本不会出识别错误的情况。而对于一些特殊字体,或是喷印字体的识别效果不好,出现错误的概率比较大;或是无法识别一些特殊的字符,如“*”或是“#”等。
因此,在本申请的实施例中,可以利用初始字符识别模型对第一样本字符数据进行识别,得到多个识别结果;并利用多个识别结果,从第一样本字符数据中筛选出目标字符类别的第一目标字符数据。
在本申请的一些实施例中,目标字符类别可以包括:对于初始字符识别模型来说,初始字符识别模型无法识别的第一字符数据类别,即对于第一字符数据类别对应的字符来说,初始字符识别模型无法识别出是什么字符。例如对于某些字符识别模型来说,可能无法识别“*”字符。目标字符类别还可以包括:对于初始字符识别模型来说,初始字符识别模型中识别率低于预设识别率的第二字符数据类别,即对于第二字符数据类别对应的字符来说,初始字符识别模型对于这类字符数据进行识别的准确率不高。例如对于某些字符识别模型来说,对于“费”的识别准确率不高,预设的识别率可以为80%,但根据识别结果与真实字符的对比,实际的识别率只有70%。对于不同的初始字符识别模型来说,应用在不同的识别场景中,对于不同字符数据的预设识别率可以不同。
在上述实施例的基础上,目标字符类别还可以包括初始字符识别模型中出现频率大于预设出现频率的第三字符数据类别,即对于不同的字符识别场景中,某些字符出现的频率会大于另一些字符出现的频率。例如,在一个发票识别场景中,“费”或“﹩”出现的频率会远大于另一些字符出现的频率。对于不同的识别场景来说,不同字符数据对应的预设出现频率也均不相同。
在本申请的实施例中,当初始字符识别模型具体用于某个识别场景下时,可以利用初始字符识别模型对当前识别场景下的样本数据进行识别,进而从样本数据中选取出目标字符数据类别的第一目标字符数据。
在本申请的一个具体实施例中,目标字符数据类别可以包括:无法被初始字符识别模型识别的第一字符数据类别,例如“*”;初始字符识别模型的识别率低于预设识别率的第二字符数据类别,例如“费”;以及样本数据中出现频率大于预设出现频率的第三字符数据类别,例如“餐”。即具体的第一目标字符数据可以包括“*”、“费”、“餐”。
需要说明的是,对于不同的初始字符识别模型,以及在不同的字符识别场景中,目标字符数据类别可以不同;且目标字符数据类别包括的第一目标字符数据类别可以为多个,第二字符数据类别可以为多个,第三字符数据类别也可以为多个。
当确定了某个具体字符识别场景中的目标字符数据类别后,可以从预设的样本数据中选择出目标字符数据类别对应的第一目标字符数据,再利用第一目标字符数据对初始字符识别模型进行训练,得到第一字符识别模型,使得第一字符识别模型可以识别目标字符数据类别对应的字符数据,并提高字符的识别精度。
在本申请的一些实施例中,根据第一目标字符数据对初始字符识别模型进行训练,得到第一字符识别模型,可以包括:
将第一目标字符数据作为第二样本字符数据;
根据第二样本字符数据,对初始字符识别模型进行训练,得到第一字符识别模型。
具体的,在确定了第一目标字符数据后,需要利用目标字符数据对初始字符识别模型进行训练,而利用仅仅几个数据对初始字符识别模型的训练效果并不好。因此需要利用第一目标字符数据,将第一目标字符数据带入到当前的字符识别场景中,随机获取当前字符识别场景中包括第一目标字符数据的字符数据,这些字符数据组成为第二样本字符数据,第二样本字符数据中的字符数据只包括为第一目标字符数据中的多个字符数据,即第二样本字符数据即为第一目标字符数据。
在本申请的一个具体实施例中,在发票字符识别的场景中,利用初始字符识别模型得到的第一目标字符数据可以为“*”、“费”、“餐”等字符数据。仅利用某个具体发票上的字符数据对初始字符识别模型进行训练,由于样本较少,实际的训练效果不好。因此,需要将第一目标字符数据代入到真实的发票字符识别场景中,获取更多的字符数据,即获取更多的发票以及发票对应的字符数据。对于不同的发票来说,发票上每个字符数据的大小,书写方式,排布方式等均会有不同,因此,将第一目标字符数据代入到真实的发票字符识别场景中,以此获取不同发票上的多个字符数据,这样得到的样本数据更多,训练效果也会更好。
具体的,将第一目标字符数据代入到真实的发票字符识别场景中,筛选出仅包括“*”、“费”、“餐”等字符数据的第二样本字符数据。例如,仅筛选出发票字符数据中“中餐”、“西餐”、“午餐”和“晚餐”等包括“餐”字的字符数据。
根据第二样本字符数据,可以对初始字符识别模型进行训练,得到第一字符识别模型。
在本申请的一些实施例中,根据第二样本字符数据,可以对初始字符识别模型进行训练,得到第一字符识别模型,可以包括:根据第二样本字符数据,对初始字符识别模型进行训练,得到第一权重参数集。根据第一权重参数集,得到第一字符识别模型。
在本申请的一些实施例中,在获取了第二样本字符数据后,根据第二样本字符数据,对初始字符识别模型进行训练,得到第一权重参数集,可以包括:
锁定初始字符识别模型中特征提取层的初始权重参数。
利用第二样本字符数据,对初始字符识别模型进行训练,得到除初始权重参数外的第一权重参数集,第一权重参数集中包括多个权重参数,多个权重参数分别于初始字符识别模型中的全连接层中的多个数据类别一一对应。
在字符识别模型中,特征提取层用于提取字符数据中的特征,不同的字符数据对应的特征是不同的。而将初始字符识别模型中特征提取层的初始权重参数进行锁定,是因为对于不同的字符数据来说,每个字符对应的特征是不会变的。初始权重参数对应的是初始字符识别模型中识别效果已经很好的字符数据对应的参数,将这些参数锁定,是为了保留其特征提取的能力,即保留字符识别模型对原本识别效果就已经很好的字符数据的识别能力,防止利用小样本数据集训练带来的特征提取权重偏移。
在本申请的实施例中,将初始权重参数进行锁定,再利用第二样本数据对初始字符识别模型进行训练,这样得到的第一权重参数集中的多个权重参数对应的第一目标字符数据中的多个字符类别,即第一目标字符数据中的一个字符类别,对应于第一权重参数集中的一个权重参数。
在本申请的实施例中,初始字符识别模型用于识别字符,且初始字符识别模型为一个多层结构,如图3所示,为本申请实施例提供的初始字符识别模型的一实施例结构意图,该初始字符识别模型可以包括:
输入层31,输入层31用于获取需要进行训练或者识别的输入字符。
特征提取层32,特征提取层32用于提取输入字符的特征,方便后续进行训练或者识别。
训练识别层33,训练识别层33用于对输入字符进行训练或识别
全连接层34,全连接层34用于将提取的字符的所有特征进行整合。
输出层35,输出层35用于输出识别模型对输入字符的识别结果。
在本申请的一些具体实施例中,本申请可以采用densenet+lstm+ctcs的网络结构,并以此对输入字符进行训练和识别。在densenet+lstm+ctcs的网络结构中,densenet可以包括:密集块321(denseblock)和过渡块322(transitionlayer),其中,密集块定义了字符识别模型中输入与输出之间的关系,而过渡块用于控制字符识别模型中的通道数。对于densenet来说,densenet中的每一层网络的输入包括前面所有层网络的输出,第L层的输入等于K x(L-1)+k0,其中k是生长率,表示每一层的通道数。DenseNet提升了信息和梯度在网络中的传输效率,每层都能直接从损失函数拿到梯度,并且直接得到输入信号,这样就能训练更深的网络,这种网络结构还有正则化的效果。在上述实施例的基础上,在本申请的另一些实施例中,densenet可以包括多个密集块和过度块,且密集块与过渡块的数量相等。Lstm结构主要用于学习字符中前后的语义信息,提高字符识别的准确率。具体的,由于存在一些同音字,因此输入的字符数据中可能会因为各种原因存在一些错误的字符,这些错误的字符没有被察觉以及改正,而进行字符识别的时候,可能会进行错误的字符特征提取以及字符识别,导致降低了字符识别的准确率。因此在进行字符特征提取的同时,还需要将字符带入输入字符数据中,判断字符的语义信息,提高字符识别的准确率。
在上述实施例的基础上,ctcs网络结构主要由全连接层组成,全连接层的作用主要是为了获得字符的类别数,同时在获取到新增的字符类别后必须将全连接层重新训练。即全连接层中包括有多个参数,不同的参数分别对应不同的字符,用于字符的识别。如图4所示,为本申请实施例提供的字符识别模型一具体实施例结构示意图,在该实施例中,特征提取层中的密集块321和过渡块322均为多个,且间隔设置。
在本申请的实施例中,利用第二样本字符数据,对初始字符识别模型进行训练,得到第一权重参数集之前,需要锁定初始字符识别模型中的特征提取层的初始权重参数集,即在进行字符识别训练时,对特征提取层的初始权重参数集中的权重参数不进行更新。这样是因为特征提取层是字符识别模型中获取字符的特征的单元,对于大多数的字符的特征提取表现都很好,锁定特征提取层的参数不进行更新是为了保留特征提取层的字符特征提取的能力,防止小样本数据集训练带来的特征提取权重的偏移,反而影响识别效果已经较好的字符的识别。
如图5所示,为本申请实施例提供的获取第一权重参数集的一实施例流程示意图,利用第二样本字符数据,对初始字符识别模型进行训练,得到除初始权重参数外的第一权重参数集,具体可以包括:
51、将第二样本字符数据代入初始字符识别模型进行训练;
52、判断训练中的初始字符识别模型是否收敛;
53、若训练中的初始字符识别模型收敛,判断初始字符识别模型是否收敛至预设收敛值;
54、若初始字符识别模型收敛至预设收敛值,停止训练,获取训练后的初始字符识别模型中的第一权重参数集。
具体的,将第二样本字符数据作为输入数据带入到初始字符识别模型中进行训练,由于第二样本字符数据中包括有初始字符识别模型不能识别的字符类别,还包括识别效果不好的字符类别,因此字符识别模型在字符识别训练的过程中会不断的改变全连接层的参数,以使得训练后的字符识别模型可以识别之前无法进行识别的字符类别。新增的字符数据类别即初始字符识别模型不能识别的字符数据,全连接层的作用是为了获得分类数,而本申请实施例中,在新增了数据类别后,必须要将全连接层重新进行训练。每进行一次训练,就需要改变一次全连接层中的权重参数,以提高字符识别的准确率。在对初始字符识别模型进行训练的过程中,以小学习率对字符识别模型进行训练,学习率(learningrate)主要是控制模型的学些进度,小的学习率代表字符识别模型的学习速度慢,但字符识别模型的不易产生损失,不易产生振荡,学习的效果更精确。在本申请的实施例中,学习率可以小于或等于0.0001,优选的,学习率可以为0.0001。
对于一个字符识别模型来说,损失函数(loss function)是用来估量模型的预测值f(x)与真实值的不一致程度,损失函数越小,一般就代表模型的鲁棒性越好,正是损失函数指导了模型的学习。而在本申请中,判断训练中的初始字符识别模型是收敛,可以判断初始字符识别模型的损失函数是否不再降低。且当初始字符识别模型收敛后,还需要判断初始字符识别模型是否收敛至预设收敛值,即判断初始字符识别模型的损失函数是否保持稳定。当某次训练后的初始字符识别模型的损失函数不再降低且保持稳定时,可以认为此时的字符识别模型已经训练成功,此时停止对字符识别模型的训练,并获取训练后的字符识别模型中的第一权重参数集。第一权重参数集包括有多个权重参数,不同的权重参数对应不同类别的字符,即权重参数与不同的字符类别一一对应。
在上述实施例的基础上,当训练后的初始字符识别模型不收敛,则需要不断的更新全联机层中的多个参数,直至字符识别模型收敛。
在本申请的实施例中,利用输入的字符数据对字符识别模型不断进行训练,直至字符识别模型收敛的具体过程可以参考现有技术,此处不做任何限定。
在经过多次的训练后,字符识别模型趋于收敛和稳定,此时得到了一个新的字符识别模型,可以称为第一字符识别模型。对于第一字符识别模型来说,由于在训练时新增了初始字符识别不能进行识别的数据类别,因此,第一字符识别模型可以对之前不能识别的字符进行识别。第一字符识别模型中的全连接层新增了多个参数,这些参数对应了第一字符识别模型所有可以识别的字符数据类别。在本申请的实施例中,可以利用tensorflow等工具对字符识别模型进行训练,训练后得到的第一字符识别模型中的参数可以直接得到。
在本申请的实施例中,目标字符数据类别可以包括初始字符识别模型无法识别的第一字符数据类别,初始字符识别模型识别率低于预设识别率的第二字符数据类别,以及初始字符识别模型中出现频率大于预设出现频率的第三字符数据类别。其中,对于第二字符数据类别来说,第二字符类别中还可以包括多个不同的字符数据类别,例如,第二字符数据类别可以包括多个识别率大于预设识别率的字符数据类别;也可以根据预设的第一样本数据筛选出识别错误频率最高的多种数据类别,例如识别错误频率最高的五种数据类别。
同时,在上述实施例的基础上,在本申请的另一些实施例中,第三字符数据类别也可以包括多个不同的数据类别,其中,第三字符数据类别中可以包括出现频率大于预设出现频率的多个字符数据类别;也可以包括出现频率最高的多种字符数据类别,例如,可以包括出现频率最高的五种数据类别。
需要说明的是,在本申请的实施例中,对于不同的字符识别场景以及不同的字符识别模型,目标字符数据的类别均可以不同,目标字符数据类别根据实际的识别情况而变化。
且在本申请的实施例中,根据目标字符数据类别筛选出的第二样本字符数据,在第二样本字符数据中,第一字符数据类别对应的第一样本数据,第二字符数据类别对应的第二样本数量和第二字符对应的第三样本数量;第一样本数量、第二样本数量和第三样本数量三者中任意两者之间的差值小于预设值,即第一样本数量、第二样本数量和第三样本数量近似均匀分布。优选的,第一样本数量、第二样本数量和第三样本数量三者相等。
在本申请的另一些实施例中,根据第一目标字符数据对初始字符识别模型进行训练,得到第一字符识别模型,还可以包括:根据目标字符数据类别,获取包含目标字符数据类别的第三样本数据,目标字符数据类别对应的第三目标字符数据,在所述第三样本数据中的占比大于第一预设值;根据第三样本字符数据,对初始字符识别模型进行训练,得到第一字符识别模型。
具体的,在上述实施例中,与目标字符数据类别对应的第三目标字符数据,可以包括初始字符识别模型可以识别,且识别效果较好的字符类别对应的字符数据,即第三样本字符数据中第一目标字符数据的占比大于第一预设值,第三样本数据并不全是第一目标字符数据。在本申请的一些实施例中,第一预设值可以为70%,使得第一目标字符数据在第三样本数据中占据大多数,使得训练效果更好。
具体的,由于初始的字符识别模型对大部分的字符识别效果已经很好,但在利用第三样本字符数据对初始字符识别模型进行训练时,仍然可以获取除目标字符数据类别对应的目标字符数据外的其他字符数据。具体的,目标字符数据可以包括“*”、“费”、“餐”等,第三样本字符数据中的字符数据包括有“*”、“费”、“餐”这些字符数据;此外也可以包括有“菜”、“汤”“﹩”等对于初始字符识别模型来说,识别效果已经很好的字符数据。只需要将第一目标字符数据在第三样本字符数据中的占比控制在预设范围内,具体的,控制第一目标字符数据在第三样本字符数据中的占比大于预设值。在本申请的实施例中,预设值的大小根据不同的识别场景和初始字符识别模型的不同而改变。
在得到了第三样本数据后,根据第三样本数据对初始字符识别模型进行训练,得到第一字符识别模型。此时得到第一字符识别模型不仅可以识别之前无法识别的字符类别,也可以继续识别之前识别效果就很好的字符类别。
需要说明的是,在上述实施例中,对于初始字符识别模型进行训练的具体过程可以参考现有技术与前述说明,此处不做限定。
在本申请的实施例中,在得到第一权重参数集后,还需要将第一权重参数集与字符识别模型中全连接层原有的参数进行融合,最终得到第一字符识别模型。
在本申请的一个具体实施例中,可以先查看初始字符识别模型中位于“ctcs/fc/”中的参数名称,可以为:
ctcs/fc/weights:0
ctcs/fc/weights/Adam:0,
ctcs/fc/weights/Adam_1:0
ctcs/fc/weights/ExponentialMovingAverage:0
ctcs/fc/biases:0
ctcs/fc/biases/Adam:0
ctcs/fc/biases/Adam_1:0
ctcs/fc/biases/ExponentialMovingAverage:0
其中,“weights”代表参数的权重,“biases”代表权重的偏置,在获取到不同参数分别对应的权重和偏置后,将不同参数的权重和偏置转换为矩阵形式。
在票据识别的场景中,初始字符识别模型的类别数可以为5675,即初始字符识别模型可以识别5675种不同类别的字符数据,在上述参数中,以“ctcs/fc/weights/ExponentialMovingAverage:0”为例,它的维度为:
W.shape=[512,5675]
同时,“ctcs/fc/biases/ExponentialMovingAverage:0”的维度为:
B.shape=[1,5675]
需要说明的是,在本申请的实施例中,权重参数和偏置的维度可以根据计算机代码进行读取。
设X为特征提取层提取到的特征,Y为需要进行识别的数据类别的置信度,其中所谓置信度,也叫置信水平,它是指特定个体对待特定命题真实性相信的程度,也就是一个概率值,是对个人信念合理性的量度。在本申请的实施例中,数据类别的置信度是指,个人或字符识别模型认为识别得到的字符数据为真实正确数据的概率值。置信度的范围为0—1。Y的维度为[1,5675],且Y满足:
Y=X*W+B
而将数据类别的权重和偏置转换为矩阵形式,Y的具体维度信息可以为:
即某个具体数据类别的置信度由字符数据类别所在列的权重和偏置系数决定。
在得到了第一权重参数集后,需要将第一权重参数集与初始字符识别模型进行融合。在得到第一初始字符识别模型后,第一字符识别模型中的参数名全都不变,但全连接层的参数维度发生变化,增加了一个新的维度,初始字符识别模型中0-5674列的顺序与参数数据类别写入顺序相同,所以为了矩阵方便处理,在实际操作中,将新增类别按照顺序放在矩阵最后,当输出第一字符识别模型参数时,字符数据类别的置信度计算公式为:
新的计算公式中比初始的计算公式多了一个维度,且新增类别对应的计算参数对应W:,3575和B:,3575,其余第一字符识别模型中更新的类别依然在原来的列位置。
将第一字符识别模型中特征提取层的参数全部保留,并将涉及字符数据类别的全连接层的相关参数矩阵中,新更新的字符数据类别参数保留,其余类别替换为初始字符识别模型中的类别参数,如下公式所示:
将全连接层的所有参数全部按照上述公式进行更新,最后将改变后的矩阵更新到模型文件中,融合为新的字符识别模型,即第一字符识别模型。第一字符识别模型融合了初始字符识别模型和新增数据类别模型的能力,不仅对大部分的字符的识别效果很好,也可以识别初始字符识别模型无法识别的字符。
在本申请的一个具体实施例中,以增值税发票项目为例,原有的OCR模型中没有“*”类别,即无法识别“*”字符,但其他的数据类别识别效果都很好,在如下的字条中,原OCR识别模型的识别结果为:“米餐饮服务米餐费”或是“米餐饮服务米餐贵”等,那么在本实施例中,第一字符数据类别对应的字符为“*”,第二字符数据类别对应的字符为“费”或“贵”,而第三字符数据类别对应的字符为“餐”。经过本申请改进后的字符识别模型,新的字符识别模型得到的新的识别结果为:
“*餐饮服务*餐费”
由此可见,改进后的字符识别模型,可以识别更多的数据类别,且识别精度也有所提升。
本申请还提供一种字符识别模型的训练装置,如图6所示,为本申请实施例提供的字符识别训练装置一实施例示意图,该装置60包括:
获取模块601,获取模块601用于获取预设的第一样本字符数据。
筛选模块602,筛选模块602用于从第一样本字符数据中选取目标字符数据类别的第一目标字符数据;
目标字符数据类别包括:初始字符识别模型无法识别的第一字符数据类别,初始字符识别模型中识别率低于预设识别率第二字符数据类别,以及初始字符识别模型中出现频率大于预设出现频率的第三字符数据类别。
训练模块603,训练模块603用于根据第一目标字符数据对初始字符识别模型进行训练,得到第一字符识别模型。
本申请提供的字符识别模型的训练装置,通过筛选出初始字符识别模型中的目标字符数据类别,其中,目标字符数据类别中包括初始字符识别模型中无法识别的第一数据类别,初始字符识别模型中识别率低于预设识别率第二数据类别,以及初始字符识别模型中出现频率大于预设出现频率的第三数据类别。再选取包含目标字符数据类别的多个样本数据,利用样本字符数据对通用的字符识别模型进行训练,得到新的第一字符识别模型。由于样本字符数据中包括筛选出的目标字符数据类别,利用样本数据进行训练后得到的新的第一字符识别模型,可以有效的对多种字符数据进行识别,且有效提高了识别的成功率。
在本申请的一些实施例中,筛选模块602从第一样本字符数据中选取目标字符数据类别的第一目标字符数据,可以包括:
利用初始字符识别模型对第一样本字符数据进行识别,得到多个识别结果;根据多个识别结果,从第一样本字符数据中筛选目标字符数据类别的第一目标字符数据。
而训练模块603根据第一目标字符数据对初始字符识别模型进行训练,得到第一字符识别模型,可以包括:
获取模块601根据第一目标字符数据,获取包含第一目标字符数据的第二样本字符数据,即将第一目标字符数据作为第二样本字符数据;训练模块603根据所述第二样本字符数据,对初始字符识别模型进行训练,得到第一字符识别模型。
具体的,训练模块603根据第二样本字符数据,对初始字符识别模型进行训练,得到第一权重参数集;再根据第一权重参数集,可以得到第一字符识别模型。
在本申请的一些实施例中,训练模块603根据第二样本字符数据,对初始字符识别模型进行训练,得到第一权重参数集,可以包括:
锁定初始字符识别模型中特征提取层的初始权重参数;再利用第二样本字符数据,对初始字符数据识别模型进行训练,得到除初始权重参数外的第一权重参数集,第一权重参数集包括多个权重参数,且多个权重参数分别与初始字符识别模型中的全连接层中的多个数据类别一一对应。
在本申请的另一些实施例中,训练模块603利用第二样本字符数据,对初始字符数据识别模型进行训练,得到除初始权重参数外的第一权重参数集,可以包括:
将第二样本字符数据代入初始字符识别模型进行训练;判断训练中的初始字符识别模型是否收敛;若训练中的初始字符识别模型收敛,则判断初始字符识别模型是否收敛至预设收敛值;若初始字符识别模型收敛至预设收敛值,则停止训练,获取训练后的初始字符识别模型中的第一权重参数集。
在上述实施例中,训练模块603还用于,若训练中的初始字符识别模型不收敛,不断更新除特征提取层外初始字符识别模型中其他层结构的权重参数。
在本申请的一些实施例中,获取的第二样本数据中,目标字符数据类别的第一字符数据类别对应的第一样本数据、第二字符类别对应的第二样本数量和第三字符类别对应的第三样本数量的差值小于预设差值。
在本申请的一些实施例中,训练模块601根据第一目标字符数据对初始字符识别模型进行训练,得到第一字符识别模型,还可以包括:
获取模块603根据所述第一目标字符数据,获取包含第一目标字符数据的第三样本数据,目标字符数据类别对应的第一目标字符数据,在第三样本数据中的占比大于第一预设值;而训练模块603根据第三样本字符数据,对所述初始字符识别模型进行训练,得到第一字符识别模型。
本申请还提供一种服务器,其集成了本申请实施例所提供的任一种字符识别模型的训练装置,如图7所示,其示出了本申请实施例所涉及到的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解,图7中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器701是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器702内的软件程序和/或模块,以及调用存储在存储器702内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器701可包括一个或多个处理核心;优选的,处理器701可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器701中。
存储器702可用于存储软件程序以及模块,处理器701通过运行存储在存储器702的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器702还可以包括存储器控制器,以提供处理器701对存储器702的访问。
服务器还包括给各个部件供电的电源703,优选的,电源703可以通过电源管理系统与处理器701逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元704,该输入单元704可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器701会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中,并由处理器701来运行存储在存储器702中的应用程序,从而实现各种功能,如下:
获取预设的第一样本字符数据。
从第一样本字符数据中选取目标字符数据类别的第一目标最数据,其中目标字符数据类别包括:初始字符识别模型中无法识别的第一字符数据类别,初始字符识别模型中识别率低于预设识别率的第二字符数据类别,以及初始字符识别模型中出现频率大于预设出现频率的第三字符数据类别。
根据述第一目标字符数据对初始字符识别模型进行训练,得到第一字符识别模型。
本申请还提供一种计算机可读存储介质,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。存储介质存储有计算机程序,该计算机程序被处理器进行加载,以执行本申请实施例所提供的任一种字符识别模型的训练方法中的步骤。例如,所述计算机程序被处理器进行加载可以执行如下步骤:
获取预设的第一样本字符数据。
从第一样本字符数据中选取目标字符数据类别的第一目标最数据,其中目标字符数据类别包括:初始字符识别模型中无法识别的第一字符数据类别,初始字符识别模型中识别率低于预设识别率的第二字符数据类别,以及初始字符识别模型中出现频率大于预设出现频率的第三字符数据类别。
根据述第一目标字符数据对初始字符识别模型进行训练,得到第一字符识别模型。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。
具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的方法实施例,在此不再赘述。
以上对本申请实施例所提供的一种字符识别模型的训练方法、装置、服务器及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施例进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施例及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种字符识别模型的训练方法,其特征在于,所述方法包括:
获取预设的第一样本字符数据;
从所述第一样本字符数据中选取目标字符数据类别的第一目标字符数据,所述目标字符数据类别包括:无法识别的第一字符数据类别,识别率低于预设识别率的第二字符数据类别,以及出现频率大于预设出现频率的第三字符数据类别;
根据所述第一目标字符数据对初始字符识别模型进行训练,得到第一字符识别模型。
2.根据权利要求1所述的字符识别模型的训练方法,其特征在于,所述从所述第一样本字符数据中选取目标字符数据类别的第一目标字符数据,包括:
利用所述初始字符识别模型对所述第一样本字符数据进行识别,得到多个识别结果;
根据多个所述识别结果,从所述第一样本字符数据中筛选所述目标字符数据类别的第一目标字符数据。
3.根据权利要求2所述的字符识别模型的训练方法,其特征在于,所述根据所述第一目标字符数据对所述初始字符识别模型进行训练,得到第一字符识别模型,包括:
将所述第一目标字符数据作为所述第二样本字符数据;
根据所述第二样本字符数据,对所述初始字符识别模型进行训练,得到第一字符识别模型。
4.根据权利要求3所述的字符识别模型的训练方法,其特征在于,所述根据所述第二样本字符数据,对所述初始字符识别模型进行训练,得到第一字符识别模型,包括:
根据所述第二样本字符数据,对所述初始字符识别模型进行训练,得到第一权重参数集;
根据所述第一权重参数集,得到所述第一字符识别模型。
5.根据权利要求4所述的字符识别模型的训练方法,其特征在于,所述根据所述第二样本字符数据,对所述初始字符识别模型进行训练,得到第一权重参数集,包括:
锁定所述初始字符识别模型中特征提取层的初始权重参数;
利用所述第二样本字符数据,对所述初始字符识别模型进行训练,得到除所述初始权重参数外的第一权重参数集,所述第一权重参数集包括多个权重参数,多个所述权重参数分别与所述初始字符识别模型中的全连接层中的多个数据类别一一对应。
6.根据权利要求5所述的字符识别模型的训练方法,其特征在于,所述利用所述第二样本字符数据,对所述初始字符识别模型进行训练,得到除所述初始权重参数外的第一权重参数集,包括:
将所述第二样本字符数据代入所述初始字符识别模型进行训练;
判断训练中的所述初始字符识别模型是否收敛;
若所述训练中的初始字符识别模型收敛,判断所述初始字符识别模型是否收敛至预设收敛值;
若所述初始字符识别模型收敛至预设收敛值,停止训练,获取训练后的初始字符识别模型中的第一权重参数集。
7.根据权利要求6所述的字符识别模型的训练方法,其特征在于,所述方法还包括:
若训练中的所述初始字符识别模型不收敛,不断更新除所述特征提取层外所述初始字符识别模型中其他层结构的权重参数。
8.根据权利要求3所述的字符识别模型的训练方法,其特征在于,所述第二样本字符数据中,所述目标字符数据类别中的第一字符数据类别对应的第一样本数量、第二字符类别对应的第二样本数量和第三字符类别对应的第三样本数量的差值小于预设差值。
9.根据权利要求2所述的字符识别模型的训练方法,其特征在于,所述根据所述第一目标字符数据对所述初始字符识别模型进行训练,得到第一字符识别模型,包括:
根据所述第一目标字符数据,获取包含所述第一目标字符数据的第三样本数据,所述目标字符数据类别对应的第一目标字符数据,在所述第三样本数据中的占比大于第一预设值;
根据所述第三样本字符数据,对所述初始字符识别模型进行训练,得到第一字符识别模型。
10.一种字符识别模型的训练装置,其特征在于,所述装置包括:
获取模块,所述获取模块用于获取预设的第一样本字符数据;
筛选模块,所述筛选模块用于从所述第一样本字符数据中选取目标字符数据类别的第一目标字符数据,
所述目标字符数据类别包括:初始字符识别模型无法识别的第一字符数据类别,所述初始字符识别模型中识别率低于预设识别率第二字符数据类别,以及所述初始字符识别模型中出现频率大于预设出现频率的第三字符数据类别;
训练模块,所述训练模块用于根据所述第一目标字符数据对所述初始字符识别模型进行训练,得到第一字符识别模型。
11.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现权利要求1至9中任一项所述的字符识别模型的训练方法。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至9中任一项所述的字符识别模型的训练方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010268786.0A CN113496227A (zh) | 2020-04-08 | 2020-04-08 | 一种字符识别模型的训练方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010268786.0A CN113496227A (zh) | 2020-04-08 | 2020-04-08 | 一种字符识别模型的训练方法、装置、服务器及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113496227A true CN113496227A (zh) | 2021-10-12 |
Family
ID=77994745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010268786.0A Pending CN113496227A (zh) | 2020-04-08 | 2020-04-08 | 一种字符识别模型的训练方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113496227A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782960A (zh) * | 2022-06-22 | 2022-07-22 | 深圳思谋信息科技有限公司 | 模型训练方法、装置、计算机设备及计算机可读存储介质 |
CN116719424A (zh) * | 2023-08-09 | 2023-09-08 | 腾讯科技(深圳)有限公司 | 一种类型识别模型的确定方法及相关装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361366A (zh) * | 2014-12-08 | 2015-02-18 | 深圳市捷顺科技实业股份有限公司 | 一种车牌识别方法及车牌识别设备 |
CN106611174A (zh) * | 2016-12-29 | 2017-05-03 | 成都数联铭品科技有限公司 | 一种非常见字体的ocr识别方法 |
CN108108746A (zh) * | 2017-09-13 | 2018-06-01 | 湖南理工学院 | 基于Caffe深度学习框架的车牌字符识别方法 |
CN108805160A (zh) * | 2018-04-17 | 2018-11-13 | 平安科技(深圳)有限公司 | 迁移学习方法、装置、计算机设备和存储介质 |
CN109002790A (zh) * | 2018-07-11 | 2018-12-14 | 广州视源电子科技股份有限公司 | 一种人脸识别的方法、装置、设备和存储介质 |
CN109840588A (zh) * | 2019-01-04 | 2019-06-04 | 平安科技(深圳)有限公司 | 神经网络模型训练方法、装置、计算机设备及存储介质 |
CN109871847A (zh) * | 2019-03-13 | 2019-06-11 | 厦门商集网络科技有限责任公司 | 一种ocr识别方法及终端 |
CN110084232A (zh) * | 2018-01-25 | 2019-08-02 | 浙江宇视科技有限公司 | 车牌中汉字字符的识别方法、装置及终端设备 |
CN110443241A (zh) * | 2019-07-29 | 2019-11-12 | 北京迈格威科技有限公司 | 车牌识别模型训练方法、车牌识别方法及装置 |
CN110610197A (zh) * | 2019-08-19 | 2019-12-24 | 北京迈格威科技有限公司 | 一种困难样本挖掘和模型训练方法、装置和电子设备 |
CN110858307A (zh) * | 2018-08-24 | 2020-03-03 | 国信优易数据有限公司 | 字符识别模型训练方法及装置、识别字符的方法及装置 |
-
2020
- 2020-04-08 CN CN202010268786.0A patent/CN113496227A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361366A (zh) * | 2014-12-08 | 2015-02-18 | 深圳市捷顺科技实业股份有限公司 | 一种车牌识别方法及车牌识别设备 |
CN106611174A (zh) * | 2016-12-29 | 2017-05-03 | 成都数联铭品科技有限公司 | 一种非常见字体的ocr识别方法 |
CN108108746A (zh) * | 2017-09-13 | 2018-06-01 | 湖南理工学院 | 基于Caffe深度学习框架的车牌字符识别方法 |
CN110084232A (zh) * | 2018-01-25 | 2019-08-02 | 浙江宇视科技有限公司 | 车牌中汉字字符的识别方法、装置及终端设备 |
CN108805160A (zh) * | 2018-04-17 | 2018-11-13 | 平安科技(深圳)有限公司 | 迁移学习方法、装置、计算机设备和存储介质 |
CN109002790A (zh) * | 2018-07-11 | 2018-12-14 | 广州视源电子科技股份有限公司 | 一种人脸识别的方法、装置、设备和存储介质 |
CN110858307A (zh) * | 2018-08-24 | 2020-03-03 | 国信优易数据有限公司 | 字符识别模型训练方法及装置、识别字符的方法及装置 |
CN109840588A (zh) * | 2019-01-04 | 2019-06-04 | 平安科技(深圳)有限公司 | 神经网络模型训练方法、装置、计算机设备及存储介质 |
CN109871847A (zh) * | 2019-03-13 | 2019-06-11 | 厦门商集网络科技有限责任公司 | 一种ocr识别方法及终端 |
CN110443241A (zh) * | 2019-07-29 | 2019-11-12 | 北京迈格威科技有限公司 | 车牌识别模型训练方法、车牌识别方法及装置 |
CN110610197A (zh) * | 2019-08-19 | 2019-12-24 | 北京迈格威科技有限公司 | 一种困难样本挖掘和模型训练方法、装置和电子设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782960A (zh) * | 2022-06-22 | 2022-07-22 | 深圳思谋信息科技有限公司 | 模型训练方法、装置、计算机设备及计算机可读存储介质 |
CN116719424A (zh) * | 2023-08-09 | 2023-09-08 | 腾讯科技(深圳)有限公司 | 一种类型识别模型的确定方法及相关装置 |
CN116719424B (zh) * | 2023-08-09 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 一种类型识别模型的确定方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11288719B2 (en) | Identifying key-value pairs in documents | |
CN108280051B (zh) | 一种文本数据中错误字符的检测方法、装置和设备 | |
US8718367B1 (en) | Displaying automatically recognized text in proximity to a source image to assist comparibility | |
CN110909222B (zh) | 基于聚类的用户画像建立方法、装置、介质及电子设备 | |
EP3008617A1 (en) | Automatic customization of a software application | |
CN104965630A (zh) | 桌面应用程序图标布局的方法和系统 | |
CN110263009A (zh) | 日志分类规则的生成方法、装置、设备及可读存储介质 | |
CN113496227A (zh) | 一种字符识别模型的训练方法、装置、服务器及存储介质 | |
CN114969449B (zh) | 基于构建结构树的元数据管理方法及系统 | |
WO2022267509A1 (zh) | Smt印刷参数优化模型的训练方法、设备和存储介质 | |
CN114461382A (zh) | 可灵活配置的算力调度实现方法、装置及存储介质 | |
US7971135B2 (en) | Method and system for automatic data aggregation | |
CN115187331A (zh) | 基于多模态数据的产品推荐方法、装置、设备及存储介质 | |
CN103503388B (zh) | 一种分布式队列消息读取方法及设备、系统 | |
CN109697224B (zh) | 一种账单消息处理方法、装置和存储介质 | |
CN116797195A (zh) | 工单处理方法、装置、计算机设备和计算机可读存储介质 | |
CN110377741A (zh) | 文本分类方法、智能终端及计算机可读存储介质 | |
CN116975622A (zh) | 目标检测模型的训练方法及装置、目标检测方法及装置 | |
CN109343844A (zh) | 一种基于Flex票据数据对比纠正的方法 | |
CN115331247A (zh) | 文档结构识别方法、装置、电子设备及可读存储介质 | |
CN113890872B (zh) | 一种数据集合上传方法、装置、电子设备和存储介质 | |
CN114154944B (zh) | 业务审核方法、设备及计算机可读存储介质 | |
CN117591485B (zh) | 一种基于数据识别的固态硬盘运行控制系统及方法 | |
JP2018147283A (ja) | 技術マップ出力装置、技術マップ出力方法、およびプログラム | |
US11494551B1 (en) | Form field prediction service |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |