CN109697442B - 一种字符识别模型的训练方法和装置 - Google Patents

一种字符识别模型的训练方法和装置 Download PDF

Info

Publication number
CN109697442B
CN109697442B CN201710985282.9A CN201710985282A CN109697442B CN 109697442 B CN109697442 B CN 109697442B CN 201710985282 A CN201710985282 A CN 201710985282A CN 109697442 B CN109697442 B CN 109697442B
Authority
CN
China
Prior art keywords
sample
generated
noise
convolution
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710985282.9A
Other languages
English (en)
Other versions
CN109697442A (zh
Inventor
程孟力
隋宛辰
施兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710985282.9A priority Critical patent/CN109697442B/zh
Publication of CN109697442A publication Critical patent/CN109697442A/zh
Application granted granted Critical
Publication of CN109697442B publication Critical patent/CN109697442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本申请实施例公开了一种字符识别模型的训练方法和装置,该方法包括获取真实数据样本、第一生成样本和第二生成样本,真实数据样本为具有噪声的数据样本,第一生成样本和第二生成样本为不具有噪声的数据样本,真实数据样本和第一生成样本中包括的字符相同,根据真实数据样本和第一生成样本确定噪声对真实数据样本中字符所造成影响的特征,并根据噪声对真实数据样本中字符所造成影响的特征和第二生成样本模拟出模拟结果,用于模拟在噪声影响下的第二生成样本的特征,将模拟结果应用于字符识别模型的训练,可以提高字符识别模型在识别真实场景中受同类噪声影响的、包括与第二生成样本相同字符的真实样本的识别准确率。

Description

一种字符识别模型的训练方法和装置
技术领域
本申请涉及数据处理领域,特别是涉及一种字符识别模型的训练方法和装置。
背景技术
通过光学字符识别(Optical Character Recognition,OCR)技术可以识别出图像中的字符,例如汉字、字母、符号等。为了提高OCR的识别率,需要通过训练对OCR中使用的字符识别模型进行优化,而训练模型需要使用大量的数据样本。这些数据样本主要包括了被噪声等原因影响了的图像等,这些图像例如可以是具有模糊、重影、曝光不足等缺陷的图像,这类数据样本可以理解为具有噪声的图像,通过这类数据样本的训练可以提升字符识别模型的识别率。
用于训练模型的数据样本可以包括真实出现的有噪声图像,例如拍摄的曝光、模糊的图像,或者过度引用导致失真的图像等。然而,能够收集到的真实数据样本的数量并不足以达到训练出高识别率字符识别模型的需求,所以还需要人工生成出用于训练的数据样本。传统方式中,可以以收集到的真实数据样本作为模板,对其进行人为加工,例如旋转、平移、加噪等方式生成出用于训练的数据样本。
但是,目前人工生成的数据样本中所模拟的图像缺陷与真实可能出现的图像缺陷并不完全一致,而且多集中于真实数据样本覆盖的范围内,导致采用人工生成的数据样本所训练出的字符识别模型的识别率不高。
发明内容
为了解决上述技术问题,本申请提供了一种字符识别模型的训练方法和装置,可以准确的模拟出在该噪声影响下的第二生成样本进行卷积计算所能得到的卷积结果。使得训练后的模型在识别真实场景中出现的被同类噪声影响的、包括与第二生成样本相同字符的真实样本时,能够具有较高的识别率。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例公开了一种字符识别模型的训练方法,该方法包括:
获取真实数据样本、第一生成样本和第二生成样本,真实数据样本为具有噪声的数据样本,第一生成样本和第二生成样本为不具有噪声的数据样本,真实数据样本中包括的字符与第一生成样本包括的字符相同,第一生成样本中包括的字符与第二生成样本中包括的字符不同;
将真实数据样本进行卷积计算得到真实卷积结果,将第一生成样本进行卷积计算得到第一卷积结果,将第二生成样本进行卷积计算得到第二卷积结果;
根据真实卷积结果和第一卷积结果确定出噪声对真实数据样本中字符所造成影响的特征,并根据噪声对真实数据样本中字符所造成影响的特征和第二卷积结果模拟出模拟结果,模拟结果用于模拟在噪声影响下的第二生成样本进行卷积计算得到的卷积结果;
将模拟结果用于字符识别模型的训练。
可选的,将真实数据样本进行卷积计算得到真实卷积结果,将第一生成样本进行卷积计算得到第一卷积结果,将第二生成样本进行卷积计算得到第二卷积结果,包括:
将真实数据样本输入卷积层模型进行卷积计算得到真实卷积结果,将第一生成样本输入卷积层模型进行卷积计算得到第一卷积结果,将第二生成样本输入卷积层模型进行卷积计算得到第二卷积结果。
可选的,将模拟结果用于模型训练,包括:
将模拟结果输入全连接层模型进行识别运算;
若识别出的字符与第二生成样本中包括的字符不同,则依据第二生成样本中包括的字符反向传播计算。
可选的,将模拟结果用于字符识别模型的训练,包括:
将第二卷积结果与模拟结果在同一个字符识别模型中进行并行的模型训练。
可选的,第一生成样本中包括的字符与第二生成样本中包括的字符的类型相同。
可选的,第一生成样本中包括的字符数量与第二生成样本中包括的字符数量相同。
可选的,卷积计算中包括至少一次降采样操作。
第二方面,本申请实施例提供了一种字符识别模型的训练方法,该方法包括:
获取真实数据样本、第一生成样本和第二生成样本,真实数据样本为具有噪声的数据样本,第一生成样本和第二生成样本为不具有噪声的数据样本,真实数据样本中包括的字符与第一生成样本包括的字符相同,第一生成样本中包括的字符与第二生成样本中包括的字符不同;
根据真实数据样本和第一生成样本确定出噪声对真实数据样本中字符所造成影响的特征,并根据噪声对真实数据样本中字符所造成影响的特征和第二生成样本确定出模拟结果,模拟结果用于模拟在噪声影响下的第二生成样本的特征;
将模拟结果用于字符识别模型的训练。
第三方面,本申请实施例提供了一种字符识别模型的训练方法,该方法包括:
获取真实数据样本;
对真实数据样本进行处理,得到真实数据样本中的噪声特征;
将噪声特征对生成的数据样本进行模拟处理,并将模拟处理后的数据样本对字符识别模型进行训练;
其中,生成的数据样本为无噪声的数据样本。
第四方面,本申请实施例提供了一种字符识别模型的训练装置,该装置包括获取单元、计算单元、模拟单元、训练单元,其中:
获取单元,用于获取真实数据样本、第一生成样本和第二生成样本,真实数据样本为具有噪声的数据样本,第一生成样本和第二生成样本为不具有噪声的数据样本,真实数据样本中包括的字符与第一生成样本包括的字符相同,第一生成样本中包括的字符与第二生成样本中包括的字符不同;
计算单元,将真实数据样本进行卷积计算得到真实卷积结果,将第一生成样本进行卷积计算得到第一卷积结果,将第二生成样本进行卷积计算得到第二卷积结果;
模拟单元,用于根据真实卷积结果和第一卷积结果确定出噪声对真实数据样本中字符所造成影响的特征,并根据噪声对真实数据样本中字符所造成影响的特征和第二卷积结果模拟出模拟结果,模拟结果用于模拟在噪声影响下的第二生成样本进行卷积计算得到的卷积结果;
训练单元,用于将模拟结果进行字符识别模型的训练。
可选的,计算单元具体用于:
将真实数据样本输入卷积层模型进行卷积计算得到真实卷积结果,将第一生成样本输入卷积层模型进行卷积计算得到第一卷积结果,将第二生成样本输入卷积层模型进行卷积计算得到第二卷积结果。
可选的,训练单元包括识别子单元和反向传播计算子单元:
识别子单元,用于将模拟结果输入全连接层模型进行识别运算;
反向传播计算子单元,用于若识别出的字符与第二生成样本中包括的字符不同,则依据第二生成样本中包括的字符反向传播计算。
可选的,训练单元具体用于:
将第二卷积结果与模拟结果在同一个字符识别模型中进行并行的模型训练。
可选的,第一生成样本中包括的字符与第二生成样本中包括的字符的类型相同。
可选的,第一生成样本中包括的字符数量与第二生成样本中包括的字符数量相同。
可选的,卷积计算中包括至少一次降采样操作。
第五方面,本申请实施例提供了一种字符识别模型的训练装置,该装置包括获取单元、确定单元和训练单元,其中:
获取单元,用于获取真实数据样本、第一生成样本和第二生成样本,真实数据样本为具有噪声的数据样本,第一生成样本和第二生成样本为不具有噪声的数据样本,真实数据样本中包括的字符与第一生成样本包括的字符相同,第一生成样本中包括的字符与第二生成样本中包括的字符不同;
确定单元,用于根据真实数据样本和第一生成样本确定出噪声对真实数据样本中字符所造成影响的特征,并根据噪声对真实数据样本中字符所造成影响的特征和第二生成样本确定出模拟结果,模拟结果用于模拟在噪声影响下的第二生成样本的特征;
训练单元,用于将模拟结果进行字符识别模型的训练。
第六方面,本申请实施例提供了一种字符识别模型的训练装置,该装置包括获取单元、处理单元和训练单元,其中:
获取单元,用于获取真实数据样本;
处理单元,用于对真实数据样本进行处理,得到真实数据样本中的噪声特征;
训练单元,用于将噪声特征对生成的数据样本进行模拟处理,并将模拟处理后的数据样本对字符识别模型进行训练;
其中,生成的数据样本为无噪声的数据样本。
第七方面,本申请实施例提供了一种用于字符识别模型训练的数据处理设备,数据处理设备包括处理器和存储器,其中:
存储器,用于存储程序代码,并将程序代码传输给处理器;
处理器,用于根据程序代码中的指令执行以下方法:
获取真实数据样本、第一生成样本和第二生成样本,真实数据样本为具有噪声的数据样本,第一生成样本和第二生成样本为不具有噪声的数据样本,真实数据样本中包括的字符与第一生成样本包括的字符相同,第一生成样本中包括的字符与第二生成样本中包括的字符不同;
将真实数据样本进行卷积计算得到真实卷积结果,将第一生成样本进行卷积计算得到第一卷积结果,将第二生成样本进行卷积计算得到第二卷积结果;
根据真实卷积结果和第一卷积结果确定出噪声对真实数据样本中字符所造成影响的特征,并根据噪声对真实数据样本中字符所造成影响的特征和第二卷积结果模拟出模拟结果,模拟结果用于模拟在噪声影响下的第二生成样本进行卷积计算得到的卷积结果;
将模拟结果用于字符识别模型的训练。
可选的,处理器用于执行如下操作:
将真实数据样本输入卷积层模型进行卷积计算得到真实卷积结果,将第一生成样本输入卷积层模型进行卷积计算得到第一卷积结果,将第二生成样本输入卷积层模型进行卷积计算得到第二卷积结果。
可选的,处理器用于执行如下操作:
将模拟结果输入全连接层模型进行识别运算;
若识别出的字符与第二生成样本中包括的字符不同,则依据第二生成样本中包括的字符反向传播计算。
可选的,处理器用于执行如下操作:
将第二卷积结果与模拟结果在同一个字符识别模型中进行并行的模型训练。
可选的,第一生成样本中包括的字符与第二生成样本中包括的字符的类型相同。
可选的,第一生成样本中包括的字符数量与第二生成样本中包括的字符数量相同。
可选的,卷积计算中包括至少一次降采样操作。
第八方面,本申请实施例提供了一种用于字符识别模型训练的数据处理设备,数据处理设备包括处理器和存储器,其中:
存储器,用于存储程序代码,并将程序代码传输给处理器;
处理器,用于根据程序代码中的指令执行以下方法:
获取真实数据样本、第一生成样本和第二生成样本,真实数据样本为具有噪声的数据样本,第一生成样本和第二生成样本为不具有噪声的数据样本,真实数据样本中包括的字符与第一生成样本包括的字符相同,第一生成样本中包括的字符与第二生成样本中包括的字符不同;
根据真实数据样本和第一生成样本确定出噪声对真实数据样本中字符所造成影响的特征,并根据噪声对真实数据样本中字符所造成影响的特征和第二生成样本确定出模拟结果,模拟结果用于模拟在噪声影响下的第二生成样本的特征;
将模拟结果用于字符识别模型的训练。
第九方面,本申请实施例提供了一种用于字符识别模型训练的数据处理设备,数据处理设备包括处理器和存储器,其中:
存储器,用于存储程序代码,并将程序代码传输给处理器;
处理器,用于根据程序代码中的指令执行以下方法:
获取真实数据样本;
对真实数据样本进行处理,得到真实数据样本中的噪声特征;
将噪声特征对生成的数据样本进行模拟处理,并将模拟处理后的数据样本对字符识别模型进行训练;
其中,生成的数据样本为无噪声的数据样本。
第十方面,本申请实施例提供了一种存储介质,该存储介质用于存储程序代码,程序代码用于执行本申请实施例第一方面、第二方面或第三方面提供的字符识别模型的训练方法。
第十一方面,本申请实施例提供了一种包括指令的计算机程序产品,当其在数据处理设备上运行时,使得数据处理设备执行本申请实施例第一方面、第二方面或第三方面提供的字符识别模型的训练方法。
由上述技术方案可以看出,当获取具有噪声的真实数据样本和不具有噪声的第一生成样本与第二生成样本,将这三个样本分别进行相同的卷积计算可以分别得到真实卷积结果、第一卷积结果和第二卷积结果。由于真实数据样本包括的字符与第一生成样本包括的字符相同,而真实卷积结果和第一卷积结果能够体现出真实数据样本中字符的相关特征和第一生成样本中字符的相关特征,所以通过真实卷积结果和第一卷积结果能够确定出真实数据样本中的噪声对真实数据样本中字符造成的影响,根据确定出的影响与第二卷积结果得到的模拟结果可以准确的模拟出在该噪声影响下的第二生成样本进行卷积计算所能得到的卷积结果。使用该模拟结果进行模型训练相当于使用了在该噪声影响下的第二生成样本进行模型训练,由于该噪声是真实可能出现的噪声,故在该噪声影响下的第二生成样本能够更接近真实的数据样本或者说更接近被真实场景影响的第二生成样本,将其进行字符识别模型的训练能够为模型的OCR识别率提高带来帮助,使得训练后的字符识别模型在识别真实场景中出现的被同类噪声影响的包括与第二生成样本相同字符的真实样本时,能够具有较高的识别率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种字符识别模型的训练方法的流程图;
图2为本申请提供的一种对图像进行卷积的原理示意图;
图3为本申请实施例提供的一种字符识别模型的架构示意图;
图4为本申请实施例提供的一种字符识别模型的训练方法的流程图;
图5为本申请实施例提供的一种拟合良好的模型示意图;
图6为本申请实施例提供的一个被污染的车牌示意图;
图7为本申请另一实施例提供的一种对字符识别模型进行训练的示意图;
图8为本申请另一实施例提供的一种字符识别模型的训练方法的流程图;
图9为本申请又一实施例提供的一种字符识别模型的训练方法的流程图;
图10为本申请实施例提供的一种字符识别模型的训练装置的结构图;
图11为本申请另一实施例提供的一种字符识别模型的训练装置的结构图;
图12为本申请又一实施例提供的一种字符识别模型的训练装置的结构图;
图13为本申请实施例提供的一种数据处理设备的结构图;
图14为本申请另一实施例提供的一种数据处理设备的结构图;
图15为本申请又一实施例提供的一种数据处理设备的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
OCR可以视为一种通过程序或算法,将具有字符的图像文件中的字符识别出来,以便对字符进行编辑加工的信息识别技术。OCR技术的实用性决定了它的应用领域极为广泛,同时行业信息化的发展也带动着行业更深层次的信息化需求。金融、电子商务、保险、税务、工商等行业对信息识别的需求越来越广泛,促进了识别技术的大规模应用。个人消费者对资料电子化、手写识别技术等需求进一步拓展了OCR识别技术的应用。
OCR在很多场合可以替代键盘完成高速的文字录入任务。例如,用OCR进行印刷体文稿的识别录入,这是很多办公部门经常使用的方法之一。或者采用OCR技术,将手写体表格数据自动录入系统。手写体表格数据包括政府、税务、保险、商务、医疗、金融、厂矿等各行业的申报表、调查表等表格数据。OCR还可以应用于邮件自动分拣系统,通过对手写体数字的识别,提高信函分拣速度。与手工录入相比,通过OCR自动录入不但录入的速度快,而且可以对录入的数据进行各种计算以校对录入的正确性,从而在保证录入质量的同时极大的提高了工作效率。
OCR识别一般可以通过建立字符识别模型进行识别。为了提高识别正确率,需要通过训练对使用的字符识别模型进行优化。训练模型需要使用大量的数据样本。这些数据样本主要包括了被噪声等原因影响了的图像等,这些图像例如可以是具有模糊、重影、曝光不足等缺陷的图像,这类数据样本可以理解为具有噪声的图像,通过这类数据样本的训练可以提升字符识别模型的识别率。
用于训练模型的数据样本可以包括真实出现的有噪声图像,例如拍摄的曝光不足、模糊的图像,或者过度引用导致失真的图像等。然而,能够收集到的真实数据样本的数量并不足以达到训练出高识别率字符识别模型的需求,所以还需要人工生成出用于训练的数据样本。传统方式中,可以以收集到的真实数据样本作为模板,对其进行人为加工,例如旋转、平移等几何变换,增加高斯噪声等方式生成出用于训练的数据样本。
但是,目前人工生成的数据样本中所模拟的图像缺陷与真实可能出现的图像缺陷并不完全一致,而且多集中于真实数据样本覆盖的范围内,导致采用人工生成的数据样本所训练出的字符识别模型的识别率不高。
为此,本申请提出了一种字符识别模型的训练方法,通过获取真实数据样本、第一生成样本和第二生成样本,其中,真实数据样本为具有噪声的数据样本,第一生成样本和第二生成样本为不具有噪声的数据样本,真实数据样本与第一生成样本包括的字符相同,第一生成样本与第二生成样本所包括的字符不同,根据真实数据样本和第一生成样本可以确定出噪声对真实数据样本中字符所造成影响的特征,并根据该噪声对真实数据样本中字符所造成影响的特征和第二生成样本确定出模拟结果,该模拟结果用于模拟在噪声影响下的第二生成样本的特征,将模拟结果用于字符识别模型的训练,可以使字符识别模型在识别真实场景中出现的被同类噪声影响的包括与第二生成样本相同字符的真实样本时,能够具有较高的识别率。其中,相同字符可以理解为表达意义相同的字符,对其具体表现形式并不做限制。例如,不同字号或者不同字体的同一字符也应当视为相同字符,倾斜与不倾斜的形式的同一字符也应当视为相同字符。
所谓真实数据样本,可以理解为一种从真实环境中获取的受到噪声影响的数据样本。数据样本在本申请中可以理解为具有字符的图像文件。字符可以是汉字、字母、数字等多种形式。噪声可以理解为对图像文件中的字符识别产生干扰的因素,例如背景图片、重影、模糊等。
真实数据样本可以是通过照相机等对含有字符的物体拍摄所得到的图片,可以是含有字符的印刷刊物扫描出来的图像文件,也可以是各种申请表、调查表等纸质表单归档的图像文件。真实数据样本往往是通过拍摄或扫描等方式形成的图像文件,拍摄时的曝光不足、拍摄过程中的抖动、被拍摄对象的背景以及扫描仪的分辨率等都会对拍摄或扫描形成的图像文件中的字符产生噪声干扰,进而影响字符的识别。
所谓第一生成样本,可以视为人工生成的、与真实数据样本具有相同字符的且未受噪声干扰的图像文件。与真实数据样本具有相同字符可以理解为与真实数据样本包括的字符本身所表达的信息相同的字符,而与字符的表现形式无关。不同字号或不同字体的字符可以视为相同字符。例如,楷体的字符“DH”与宋体的字符“DH”在本申请实施例中,可以视为相同字符。第一生成样本可以通过人工制作的方式获得。例如通过从字库中获取与真实数据样本相同的字符,制作成图像文件格式。
所谓第二生成样本,可以视为人工生成的、具有与真实数据样本不同字符的且未受噪声干扰的图像文件。不同字符可以理解为本身表达不同信息的字符。如果两组字符仅仅存在表现形式的差别,则仍视为相同字符,而不视为不同字符。例如,第一生成样本以及第二生成样本中分别包含字符“Y”和“X”,由于二者本身所表达的信息不同,第二生成样本所包含的字符可以视为与第一生样本包含字符不同的字符。第二生成样本可以通过人工制作的方式获得。例如通过从字库中获取与第一生成样本不同的字符,制作成图像文件格式。
下面结合附图,对本申请实施例所提供的字符识别模型的训练方法进行介绍。
图1所示为本申请实施例提供的一种字符识别模型的训练方法的流程图,请参照图1,该方法包括:
S101:获取真实数据样本、第一生成样本和第二生成样本。
可以通过照相机、扫描仪等方式获取真实数据样本。真实数据样本的获取方式不限于此,还可以通过其他方式获得。第一生成样本和第二生成样本可以通过获取字库中的字符得到,本申请实施例对此不做限定。
第一生成样本和第二生成样本的字符类型可以是不同的。为了提高模型的识别准确率,第一生成样本和第二生成样本的字符类型也可以是相同的。例如,第一生成样本的字符类型为汉字时,第二生成样本的字符类型也可以为汉字。第一生成样本的字符类型为数字时,第二生成样本的字符类型可以为数字。由于相同的字符类型具有相似的字符组合变化规则,受到真实数据样本中噪声的影响可以认为是相似的,采用相同的字符类型的真实数据样本、第一生成样本和第二生成样本,根据真实数据样本和第一生成样本确定出噪声对真实数据样本中字符所造成影响的特征,根据噪声对真实数据样本中字符所造成影响的特征和第二生成样本确定的模拟结果,更加贴近真实场景中受同类噪声影响、包括与第二生成样本相同字符的真实样本的特征。因而,使用相同字符类型的第一生成样本和第二生成样本训练的字符识别模型,在识别受同类噪声影响的、包括与第二生成样本相同字符的真实样本时,可以有较高的识别准确率。
第二生成样本中包括的字符和第一生成样本中包括的字符数量可以是不同的。当字符数量不同时,例如,第二生成样本中包括的字符数量大于第一生成样本中包括的字符数量,可以对真实数据样本中的噪声进行复用,以模拟噪声对第二生成样本中包括的多个字符所造成影响的特征。不过,为了提高字符识别模型识别字符的准确率,第一生成样本中包括的字符和第二生成样本中包括的字符的数量也可以是相同的。例如,第一生成样本中包括两个字母“CH”,第二生成样本中包括两个字母“ET”。当第二生成样本包括的字符数量与第一生成样本包括的字符数量相同时,可以直接根据噪声对真实数据样本中字符所造成影响的特征和第二生成样本模拟受噪声影响的第二生成样本的特征,相对于将噪声复用得到的模拟结果所模拟出的受噪声影响的第二生成样本的特征,更贴近真实场景中受到噪声影响的包括与第二真实样本相同字符的真实样本的特征,有利于提高模拟被真实噪声影响的包括与第二生成样本相同字符的真实样本的准确率。
S102:根据真实数据样本和第一生成样本确定出噪声对真实数据样本中字符所造成影响的特征,并根据噪声对真实数据样本中字符所造成影响的特征和第二生成样本确定出模拟结果。
模拟结果可以用于模拟在噪声影响下的第二生成样本的特征。
可以理解,真实数据样本的特征不仅包括了真实数据样本中字符相关的特征,还包括了真实数据样本中的噪声对真实数据样本中字符所造成影响的特征,例如原本边缘的破坏或新增的边缘等,第一生成样本的特征可以体现该字符的相关特征,例如字符较为清晰完整的边缘或轮廓。根据真实数据样本的特征与第一生成样本的特征,可以将真实数据样本中与该字符相关的特征除去,而剩下该噪声对真实数据样本中字符所造成影响的特征。
第二生成样本为不具有噪声的数据样本,第二生成样本的特征可以体现第二生成样本中的字符相关特征。例如,第二生成样本的字符相关特征可以为该字符清晰完整的边缘或轮廓。根据第二生成样本中的字符相关特征与噪声对字符所造成影响的特征所确定的模拟结果,可以模拟在该噪声影响下的第二生成样本的特征。进一步地,该模拟结果还可以模拟真实场景中受同类噪声影响的、与第二生成样本具有相同字符的真实样本的特征。
S103:将模拟结果用于字符识别模型的训练。
由于模拟结果中不仅包括了与第二生成样本字符相关的特征,还包括了该噪声对真实数据样本中字符所造成影响的特征,可以模拟在该噪声影响下的第二生成样本的特征。采用该模拟结果进行字符识别模型的训练,相当于使用了受该噪声影响的第二生成样本进行训练,而受该噪声影响的第二生成样本和通过几何变换等传统方式获得的数据样本相比,更接近受同类噪声影响的、与第二生成样本具有相同字符的真实样本,因此,根据该模拟结果训练出来的字符识别模型,在识别真实场景中受同类噪声影响的、与第二生成样本具有相同字符的真实样本时,可以具有较高的识别准确率。
为了方便理解,举例进行说明。作为一个示例,真实数据样本可以为包括字符“H”的图像文件,在该图像文件中,由于刮伤等原因,字符“H”顶部有一新增边缘,该新增边缘对字符识别造成了一定干扰,例如,可能将字符“H”识别为字符“A”。第一生成样本可以为包括完整清晰轮廓的字符“H”的图像文件,第二生成样本可以为包括完整清晰轮廓的字符“I”的图像文件。根据包括新增边缘的字符“H”的图像文件和包括完整清晰轮廓的字符“H”的图像文件,也即真实数据样本和第一生成样本,可以确定出噪声对真实数据样本中字符所造成影响的特征,该特征可以理解为顶部的新增边缘,根据该新增边缘特征和包括完整清晰轮廓的字符“I”的图像文件可以确定出模拟结果,也就是可以模拟出字符“I”受到该新增边缘影响的特征。将该模拟结果用于字符识别模型的训练,可以使得模型在识别真实场景中受到新增边缘影响的包括字符“I”的真实样本时,降低包括字符“I”的真实样本被识别为字符“T”的概率,从而提高了字符识别模型在识别真实场景中受到同类噪声影响的包括与第二生成样本相同字符的真实样本的识别准确率。
本申请实施例提供了一种字符识别模型的训练方法,通过获取真实数据样本、第一生成样本和第二生成样本,根据真实数据样本和第一生成样本确定噪声对真实数据样本中字符所造成影响的特征,根据噪声对真实数据样本中字符所造成影响的特征和第二生成样本可以确定出模拟结果,用于模拟受到该噪声影响的第二生成样本的特征,将模拟结果用于字符识别模型的训练,相当于将受该噪声影响的第二生成样本进行模型的训练,由于受该噪声影响的第二生成样本相比传统的通过几何变换等方式生成的样本,更接近真实的数据样本或者说更接近受同类噪声影响的、包括与第二生成样本相同字符的真实样本,因此通过该模拟结果训练的字符识别模型,在识别真实场景中受到同类噪声影响的、包括与第二生成样本相同字符的真实样本时,相较于采用传统的通过几何变换等方式得到的样本所训练出的模型,可以有较高的识别准确率。
在本申请实施例中,字符识别模型在识别字符时主要是从特征层面进行识别的。作为一种可能的实现方式,可以通过卷积计算得到样本的特征,卷积结果可以一定程度上体现样本的特征。
为了更清楚地理解本申请实施例的技术方案,下面对卷积的原理进行简单的介绍。
卷积一般可以认为源自信号处理,在信号处理中,一般认为信号在某一时刻的响应与该时刻之前的响应具有相关性,可以通过卷积的方式计算该时刻的响应。以一维离散信号作为示例,输入信号x(n)在时刻n的输出信号y(n)可以表示为,输入信号x(n)响应的延迟叠加,具体可以参考如下公式:
Figure BDA0001440356920000141
上述公式中,h(n)表征单位响应,x(k)h(n-k)可以理解为k时刻的输入信号的响应对n时刻的输出的影响。由上可知,卷积的本质可以认为加权叠加。当信号为连续信号时,卷积的本质可以认为是加权积分。
将卷积的概念引入到图像处理或数据挖掘等领域,卷积由一维上升到二维,可以实现对图像的特征进行提取。图2所示为对图像文件进行卷积的示意图。图像文件一般可以采用像素阵列的形式进行表示,输入图像文件中的源像素与其邻近的像素分别与卷积核形成的矩阵中的数值相乘,再进行求和得到的数值作为输出图像文件的新像素。可以理解,相邻的像素点的像素值具有一定的相关性,可以通过对输入图像进行卷积计算,比较邻近像素的相似性,相似性较低的可以认为图像的边缘或轮廓。也可以从另一个角度理解,时域的卷积相当于频域的相乘,对输入的图像通过与卷积核进行卷积,对应着在频域中对图像频段进行选择,而图像的边缘或轮廓可以理解为高频信息,中间区域可以理解为低频信息。由上可见,通过卷积计算,图像文件的边缘或轮廓特征可以得到增强。可以理解,图像文件中的原特征通过卷积核的卷积计算,可以得到新特征。新特征可以视为对图像的轮廓或边缘增强所得到的特征。
基于卷积可以提取图像轮廓或边缘特征的原理,可以对真实数据样本、第一生成样本、第二生成样本分别进行卷积计算,得到真实卷积结果、第一卷积结果和第二卷积结果。由于真实卷积结果、第一卷积结果和第二卷积结果可以在一定程度上体现真实数据样本的特征、第一生成样本的特征和第二生成样本的特征,而真实数据样本的特征可以视为包括真实数据样本中字符相关特征以及噪声对字符所造成影响的特征,第一生成样本的特征可以视为第一生成样本中字符相关特征,真实数据样本包括的字符与第一生成样本包括的字符相同,因此,根据真实数据样本的特征与第一生成样本的特征可以确定出噪声对真实数据样本中字符所造成影响的特征,也就是根据真实卷积结果和第一卷积结果确定出噪声对真实数据样本中字符所造成影响的特征。进一步地,根据噪声对真实数据样本中字符所造成影响的特征和在一定程度上体现第二生成样本字符相关特征的第二卷积结果可以得到模拟受到噪声影响的第二生成样本的特征的模拟结果。将该模拟结果用于字符识别模型的训练,可以提高模型在识别真实场景中受到同类噪声影响的包括与第二生成样本相同字符的真实样本的识别准确率。
为了更清楚地说明上述字符识别模型训练的原理,下面结合图3对字符识别模型训练进行介绍。
图3所示为本申请实施例提供的一种字符识别模型的架构示意图。在图3所示的字符识别模型中,主要针对获得训练字符识别模型所采用的样本进行重点描述,通过全连接层模型对训练样本进行训练在本申请文件的另一部分进行描述,全连接层模型在图3中并未示出。具体的,将真实数据样本、第一生成样本、第二生成样本作为该字符识别模型的输入,通过对真实数据样本、第一生成样本、第二生成样本分别进行卷积计算,得到各自输入对应的卷积结果,由于卷积结果在一定程度上可以体现样本的特征,因此真实数据样本的卷积结果可以体现真实数据样本的特征,同理第一生成样本、第二生成样本的卷积结果可以分别体现第一生成样本、第二生成样本的特征,通过对卷积结果进行模拟计算,其中,模拟计算可以理解为在特征层面的叠加或减去等计算,可以模拟第二生成样本在受到真实数据样本中的噪声影响下的卷积结果,也就是模拟结果。将该模拟结果应用于全连接层模型进行识别,由于该噪声是真实可能出现的噪声,故在该噪声影响下的第二生成样本能够更接近真实的数据样本,可以使得训练后的字符识别模型在识别真实场景中出现的被同类噪声影响的包括与第二生成样本相同字符的真实样本时,能够具有较高的识别率。
上述字符识别模型训练可以通过具有图像处理能力的处理设备实现。处理设备可以为具有图像处理能力的计算机,包括个人计算机(PC,Personal Computer)、小型机或者大型机,也可以是具有图像处理能力的服务器。当训练的数据样本的数量较大时,可以采用多个处理设备协同进行模型训练。
为了方便理解,下面结合PC机对字符识别模型训练进行示例性地说明。在该示例中,PC机可以包括图像处理器(GPU,Graphics Processing Unit),通过PC机输入真实数据样本、第一生成样本、第二生成样本,并且对其做大小归一化,像素值归一化到0~1之间等操作,并向GPU传递图片数据,GPU对真实数据样本、第一生成样本和第二生成样本分别采用相同的卷积参数进行卷积计算,分别得到真实卷积结果、第一卷积结果以及第二卷积结果。根据真实卷积结果和第一卷积结果确定出噪声对真实数据样本中字符造成的影响,并根据噪声对数据样本造成的影响和第二卷积结果模拟出在噪声影响下的第二生成样本进行卷积计算得到的卷积结果,也就是模拟结果。进一步GPU根据模拟结果计算出该图片中字符的概率分布,并根据该分布计算误差和梯度;并根据梯度和学习率对模型进行更新。训练完毕之后,GPU将训练好的模型传递给PC机,PC机负责将训练好的模型存档,供后续的预测过程使用。
为了进一步理解本申请实施例的技术方案,下面结合卷积计算对本申请实施例提供的字符识别模型的训练方法进行介绍。
本申请实施例提供了一种字符识别模型的训练方法,图4所示为本申请实施例提供的一种字符识别模型的训练方法的流程图,该方法包括:
S401:获取真实数据样本、第一生成样本和第二生成样本。
该步骤与S101的过程类似,相关说明可以参见S101,这里不再赘述。
S402:将真实数据样本进行卷积计算得到真实卷积结果,将第一生成样本进行卷积计算得到第一卷积结果,将第二生成样本进行卷积计算得到第二卷积结果。
将真实数据样本进行卷积计算,将第一生成样本进行卷积计算,将第二生成样本进行卷积计算,采用的均为相同的卷积参数。可以理解,采用相同的卷积参数,相当于对真实数据样本、第一生成样本和第二生成样本做相同的处理,可以视为提取相同类型的特征,因而可以根据卷积结果对样本进行特征层面的分析,从而实现字符识别。
卷积计算可以通过本申请实施例提供的字符识别模型中的卷积层模型实现。本申请实施例提供的字符识别模型可以包括卷积层模型和全连接层模型,因此可以利用本申请实施例字符识别模型中的卷积层模型进行卷积计算。
作为一种可能的实现方式,也可以采用其他模型实现卷积计算。利用已有的其他模型进行卷积计算,充分利用已有资源,可以节省训练卷积层模型的时间。通过采用已有的其他模型进行卷积计算得到卷积结果,进而得到模拟结果用于字符识别模型的训练,可以提高字符识别模型训练的效率。
通过卷积计算,可以一定程度地降低图像的大小,减少特征的数量,将重要的特征提取出来。以32*32的图像文件数据样本作为输入为例,可以将图形文件视为一个32*32的向量,采用5*5的卷积核进行卷积计算后,输出的卷积结果可以为28*28。为了减小文字在图片中的位置和旋转角度变化对于识别造成的影响,使得字符识别模型具有一定位置不变性和旋转不变性,可以在卷积后进行池化(pool)操作。
池化可以理解为降采样。降采样,可以理解为,对图像采用某种压缩方法,减小图像规模。池化包括最大池化,均值池化等。池化规模一般可以为2*2,最大池化取4个点的最大值,均值池化取4个点的均值。池化除了可以减少数据量,还可以抑制过拟合。
卷积计算的过程可以包括多次卷积以及多次池化。卷积次数、池化次数以及卷积与池化的顺序可以根据具体场景预先设定。通过对卷积次数、池化次数以及卷积与池化的顺序进行合理的设定,并利用大量数据充分训练,可以得到一个拟合程度较好的模型。图5所示,即为一种拟合良好的模型的示意图。
在本步骤中,一个数据样本通过卷积计算得到卷积结果可以体现出这个数据样本中与字符相关的特征,例如数据样本中的边缘特征等。
故将真实数据样本进行卷积计算得到的真实卷积结果可以体现出该真实数据样本在噪声影响下与字符相关的特征,其中可以一定程度上体现出该字符被噪声影响导致变形、缺失边缘的边缘特征,也可以包括噪声自身在该真实数据样本中形成边缘的边缘特征等等。也就是说,真实卷积结果中不仅包括了与该字符相关的特征,还包括了该噪声对真实数据样本中字符所造成影响的特征。
由于第一生成样本中不具有噪声,且包括了与真实数据样本中相同的字符,也就是说,第一生成样本中包括了较为清晰完整的该字符。故将第一生成样本进行卷积计算得到的第一卷积结果可以体现出该字符在没有噪声影响下的相关特征,例如体现该字符较为清晰完整边缘的边缘特征。
同理,由于第二生成样本中也不具有噪声,即第二生成样本中所包括的字符为较清晰完整的。故将第二生成样本进行卷积计算得到的第二卷积结果可以体现出第二数据样本中字符在没有噪声影响下的相关特征,例如体现第二数据样本中字符较为清晰完整边缘的边缘特征。
S403:根据真实卷积结果和第一卷积结果确定出噪声对真实数据样本中字符所造成影响的特征,并根据该噪声对真实数据样本中字符所造成影响的特征和第二卷积结果模拟出模拟结果。
由于真实卷积结果中不仅包括了与该字符相关的特征,还包括了该噪声对真实数据样本中字符所造成影响的特征,例如原本边缘的破坏和新增的边缘等;而第一卷积结果可以体现该字符较为清晰完整边缘的边缘特征。根据真实卷积结果和第一卷积结果可以将真实卷积结果中体现的与该字符相关的特征除去,而剩下该噪声对真实数据样本中字符所造成影响的特征。
将该噪声对真实数据样本中字符所造成影响的特征和第二卷积结果进行叠加可以确定出模拟结果,相当于在卷积结果的层面将该噪声叠加到第二数据样本中。
该模拟结果用于模拟在真实噪声影响下的第二生成样本进行卷积计算得到的卷积结果。模拟结果可以用特征图或特征向量的方式进行表达。相较于对字符进行几何变换或添加背景图片形成的数据样本输入到卷积层模型所得到的卷积结果,模拟结果更加贴近真实场景,通过模拟结果训练的模型在识别真实场景中被同类噪声影响的包括与第二生成样本相同字符的真实样本时,可以有较高的识别准确率。
以车牌图像为例,道路上一般会安装电子眼,可以对行驶的车辆进行拍照,可以通过图像字符识别技术,将违规或肇事车辆的车牌号识别出来。然而,由于各种原因,车牌字符的缺损、污染等会给车牌号识别带来一定挑战。图6所示即为一个被污染的车牌示意图。当以图6所示的车牌图像文件作为真实数据样本时,可以生成与车牌图像文件中具有相同字符的第一生成样本,以及与第一样本的字符类型以及数量相同的第二生成样本。第二生成样本包括的字符可以为另一车牌号。将上述样本输入到卷积层模型后得到真实卷积结果、第一卷积结果和第二卷积结果。
可以通过比较真实卷积结果与第一卷积结果的差异,确定真实样本数据中噪声对字符所造成影响的特征。具体的,可以采用特征向量的形式对真实卷积结果与第一卷积结果进行表达,可以采用特征向量的差值衡量真实卷积结果与第一卷积结果的差异,进而体现真实样本数据中噪声对字符所造成影响的特征。由于第二卷积结果也可以采用向量的方式进行表达,可以通过将前述特征向量的差值叠加到第二卷积结果的特征向量上,以模拟第二生成样本在受到真实噪声影响下输入到卷积层模型的卷积结果。
S404:将模拟结果用于模型训练。
确定出的模拟结果可以用于字符识别模型的训练。
由于此处得到的是根据卷积结果确定的模拟结果,故可以将该模拟结果输入全连接层模型进行识别运算的模型训练。
在模型训练的过程中,若识别出的字符与第二生成样本中包括的字符不同,则依据第二生成样本中包括的字符反向传播计算。
全连接层模型,可以视为将从卷积计算过程中学习到的分布式特征映射到样本空间的一种分类器。具体的,可以对输入的模拟结果所包括的特征分别赋予权值,进行加权组合得到目标对象,实现对目标对象的分类或识别。
反向传播算法,类似于人类神经系统的反馈调节过程,即根据输出误差,也就是系统或模型的实际输出与期望输出之差,在反向传播过程中将误差对各个单元求导,获得各层各单元的梯度,根据梯度和学习率(更新的步长)对各层的权值等进行调整,使最终的误差不断降低。权值不断调整的过程,可以视为模型的训练的过程。
本申请实施例通过获取真实数据样本、第一生成样本和第二生成样本,将上述样本分别进行卷积计算,得到真实卷积结果、第一卷积结果和第二卷积结果,根据真实卷积结果和第一卷积结果确定真实数据样本中噪声对字符所造成影响的特征,根据噪声对真实数据样本中字符所造成影响的特征以及第二卷积结果,模拟受到真实数据样本中的噪声影响的第二生成样本进行卷积计算后形成的模拟结果,并将模拟结果应用于模型训练。
由上述实施例可以看出,使用该模拟结果进行模型训练相当于使用了在该噪声影响下的第二生成样本进行模型训练,由于该噪声是真实可能出现的噪声,故在该噪声影响下的第二生成样本能够更接近真实的数据样本或者说更接近被真实场景影响的第二生成样本,将其进行模型训练能够为模型的OCR识别率提高带来帮助,使得训练后的字符识别模型在识别真实场景中出现的被同类噪声影响的、包括与第二生成样本相同字符的真实样本时,能够具有较高的识别率。
在真实场景中,字符识别模型除了可以对受同类噪声影响的、包括与第二生成样本相同字符的真实样本进行识别,还可以对未受噪声影响的样本数据进行识别。例如,通过字符识别模型识别PDF格式的文档,将其转换为可编辑的文档。在保证所训练的字符识别模型对受噪声影响的真实数据样本具有较高的识别准确率的前提下,还可以进一步提高该字符识别模型对未受噪声影响的数据样本的识别准确率。
为此,可以将第二卷积结果与模拟结果在同一个模型中进行并行的模型训练。这个训练可以视为对图4所对应实施例中训练的字符识别模型的微调(finetune)。
作为一个示例,微调的过程可以为,准备数据,包括用于识别被噪声影响的真实数据样本的数据和用于识别未被噪声影响的生成样本的数据,具体的,每次训练的批尺寸(Batch Size)可以为64,其中32个为真实数据A、生成数据A′、生成数据B的组合,另外32个为生成数据A、生成数据A′、生成数据B的组合,将64个数据组合输入到模型中,开始进行训练,可以训练到字符识别模型对受同类噪声影响的真实数据样本和未受噪声影响的第二生成样本的识别准确率均达到目标为止。
为了使本申请提供的字符识别模型的训练方法更清楚,下面结合具体的场景对本申请的训练模型进行介绍。图7所示为本申请实施例提供的字符识别模型训练示意图。该字符识别模型模型包括卷积层模型和全连接层模型,其中,卷积层模型具有3层卷积层、3层池化层,全连接层模型具有2层全连接层。图8所示为本申请实施例提供的模型训练方法的流程图,该方法包括:
S801:输入真实数据样本、第一生成样本、第二生成样本。
真实数据样本为图6中模糊的“DH”字符图像文件。第一生成样本为图6中相对清楚的“DH”字符图像文件,第二生成样本为图7中清楚的“BJ”字符图像文件。
需要说明的是,真实数据样本、第一生成样本、第二生成样本可以为多个,在本申请实施例中还可以增加其他的字符图像文件作为样本。
S802:卷积层模型对输入的真实数据样本、第一生成样本、第二生成样本分别进行卷积和池化。
对上述3种样本卷积采用的参数一般是相同的。也就是说,真实数据样本、第一生成样本、第二生成样本采用的卷积层模型是相同的。卷积层模型包括3层卷积层和3层池化层。在本申请实施例中,每进行一次卷积之后,可以进行一次池化。为了方便表述,可以将最后一次池化后的卷积结果分别以图6中的Pool3、Pool3_2、Pool3_3表示,Pool3、Pool3_2、Pool3_3分别代表真实数据样本、第一生成样本、第二生成样本经过卷积层模型后输出的卷积结果。
在本申请实施例其他可能的实现方式中,也可以采用其他的卷积层模型,卷积层模型中卷积层数、池化层数以及卷积、池化的顺序是可以调整的,本申请对卷积层模型的参数不做限定。
S803:根据真实数据样本和第一生成样本经过卷积层模型后的卷积结果确定出噪声对真实数据样本中对字符所造成影响的特征,根据噪声对真实数据样本中字符所造成影响的特征和第二生成样本经过卷积层模型后的卷积结果,模拟受到噪声影响的第二生成样本经过卷积层模型后输出的卷积结果。
具体的,可以通过比较真实数据样本和第一生成样本经过卷积层模型后的卷积结果Pool3、Pool3_2的差值,表征真实数据样本中噪声对字符所造成影响的特征,可以将差值叠加在第二生成样本池化后的卷积结果Pool3_3上,用于模拟受到噪声影响的第二生成样本经过卷积层模型后得到的卷积结果,模拟得到的卷积结果即为模拟结果。
为了方便表述,可以将模拟结果用Simulation表示,可以通过如下公式得到模拟结果:
Simulation=Eltwise(pool 3-pool 3_2+pool 3_3)   (2)
Eltwise layer是caffe(一种卷积神经网络框架)提供的按元素操作层。它可以支持3种基本操作,点乘、求和、取大值。因此,可以通过Eltwise层实现模拟受到噪声影响的第二生成样本经过三次卷积以及池化后的卷积结果。
S804:将模拟的卷积结果输入到全连接层模型,进行识别运算。
通过全连接层和Softmax层可以将卷积池化得到的分布式特征映射到样本空间,进而实现受到真实噪声影响的第二生成样本中的字符识别。具体到本申请实施例,全连接层模型可以为两层,包括第一全连接层Ip1和第二全连接层Ip2,softmax层起归一化的作用,将全连层的输出归一化到0~1之间。Softmax的层输出可以理解为字符识别模型识别出的可能的结果及其概率。
作为一个示例,识别出的结果可以为“BI,0.4;ET,0.3;BJ,0.2;CT,0.1”,表示本申请实施例训练的字符识别模型将受真实数据样本噪声影响的第二生成样本中的字符“BJ”识别为“BI”的概率为0.4.识别为“ET”的概率为0.3,识别为“BJ”的概率为0.2,识别为“CT”的概率为0.1。本申请对全连接层模型识别过程以及识别结果输出方式不做限定,在本申请实施例其他可能的实现方式中,可以采用其他的识别过程和输出方式。
S805:若识别出的字符与第二生成样本中包括的字符不符,依据第二生成样本中包括的字符,进行反向传播计算。
第二生成样本中的字符可以理解为模型的期望输出,字符识别模型识别出的结果可以理解为模型的实际输出。模型的实际输出一般可以存在多种可能,每个可能的输出均具有一定的概率。为了提高字符识别模型识别的准确率,可以根据第二生成样本中包括的字符进行反向传播计算,提高与期望输出相同的模型实际输出的概率。
作为一个示例,模型的期望输出可以为字符BJ,而模型的实际输出存在多种可能,例如,“BI”、“ET”、“BJ”、“CT”,若模型有较高的概率将第二生成样本中的字符“BJ”识别为字符“BI”,可以认为模型存在误差,可以通过反向传播计算,将误差折回到卷积层模型和/或全连接层模型,以此为依据对卷积层模型和/或全连接层的权值等参数进行修改,实现误差的最小化,从而提高字符识别模型识别的准确率。作为一个示例,可以使用softmax损失计算误差,进行反向传播计算。
本申请实施例,通过将真实数据样本、第一生成样本、第二生成样本输入到卷积层模型,进行3轮卷积以及3轮池化,然后根据真实数据样本和第一生成样本在第三次池化后的卷积结果,确定噪声对真实数据样本中字符所造成影响的特征,根据噪声对真实数据样本中字符所造成影响的特征和第二生成样本在第三次池化后的卷积结果,模拟受到真实噪声影响的第二生成样本在三轮卷积和三轮池化后的卷积结果,并将模拟结果输入到全连接层模型,将分布式的特征映射到样本空间,对样本中的字符进行分类,通过反向传播计算实现对受到真实噪声影响的第二生成样本包括的字符进行识别。
由上可知,通过多轮卷积和多轮池化对真实数据样本、第一生成样本、第二生成样本的特征进行提取,通过比较特征的差异,可以模拟真实数据样本中噪声对字符的影响,将该差异叠加到第二生成样本的特征中,可以模拟受到真实数据样本中噪声影响的第二生成样本,经过多轮卷积和多轮池化后的结果,将该结果用于字符识别模型的训练,更贴近真实场景,将其进行模型训练能够为字符识别模型的OCR识别率提高带来帮助,使得训练后的字符识别模型在识别真实场景中出现的被同类噪声影响的包括与第二生成样本相同字符的真实样本时,能够具有较高的识别率。
以上为本申请实施例提供的一种字符识别模型的训练方法的具体实现方式,上述实施例主要是通过获取真实数据样本和具有与真实数据样本相同字符的第一生成样本确定噪声对真实数据样本中字符所造成影响的特征,根据该噪声对真实数据样本中字符所造成影响的特征和第二生成样本模拟受同类噪声影响的第二生成样本的特征,通过模拟的结果进行字符识别模型训练,可以使得训练后的字符识别模型在识别受同类噪声影响的、具有与第二生成样本相同字符的真实数据样本时能够有较高的识别率。可以理解,确定噪声对真实数据样本中字符所造成影响的特征可以有多种方式,模拟生成数据样本受到真实数据样本中噪声影响的特征也可以由多种方式,上述实施例仅为本申请的一个示例,在本申请实施例的其他实现方式中,还可以采用其他方式,本申请对此不做限定。
基于此,本申请实施例还提供了一种字符识别模型的训练方法。图9所示为本申请实施例提供的一种字符识别模型的训练方法的流程图,请参照图9,该方法包括:
S901:获取真实数据样本。
该步骤与S101、S401的过程类似,相关说明可以参见S101或S401,这里不再赘述。
S902:对真实数据样本进行处理,得到真实数据样本中的噪声特征。
真实数据样本中的噪声特征可以理解为真实数据样本中噪声对字符所造成影响的特征。噪声特征可以通过对真实数据样本进行处理得到。为了得到真实数据样本中的噪声特征,对真实数据样本进行处理可以是多种多样的。例如,可以采用前述实施例中的卷积计算,具体为将真实数据样本和具有与真实数据样本相同字符的第一生成样本分别采用相同的参数进行卷积计算,得到真实卷积结果和第一卷积结果,根据真实卷积结果和第一卷积结果确定真实数据样本中的噪声特征。在本申请实施例中,也可以通过其他处理方式直接从真实数据样本中提取出噪声特征,而不必借助具有相同字符的第一生成样本。本申请实施例对真实数据样本的处理方式不做限定。
S903:将噪声特征对生成的数据样本进行模拟处理,并将模拟处理后的数据样本对字符识别模型进行训练。
生成的数据样本为无噪声的数据样本。将噪声特征对生成的数据样本进行模拟处理,可以理解为通过对噪声特征和生成的数据样本中的字符特征采用一定方式进行处理,可以模拟受到同类噪声影响的、具有与生成的数据样本相同字符的真实数据样本的特征,使用模拟处理后的数据样本对字符识别模型进行训练相当于使用受同类噪声影响的、具有与生成的数据样本相同字符的真实数据样本进行训练,使得训练出的字符识别模型在识别受同类噪声影响的、具有与生成的数据样本相同字符的真实数据样本时,能够具有较高的识别准确率。
在本申请实施例中,模拟处理可以采用多种方式。例如,可以将噪声特征和生成的数据样本中的字符特征在卷积层面进行叠加,从而模拟受到同类噪声影响的、具有与生成的数据样本相同字符的真实数据样本的特征。卷积层面的叠加仅为本申请实施例的一种具体实现方式,在本申请实施例的其他实现方式中,也可以采用其他处理方式对生成的数据样本进行处理,本申请实施例对此不做限定。
本申请实施例提供了一种字符识别模型的训练方法,通过获取真实数据样本,对真实数据样本进行处理,得到真实数据样本中的噪声特征,将噪声特征对生成的数据样本进行模拟处理,可以模拟受到同类噪声影响的、具有与生成的数据样本相同字符的真实数据样本的特征,使用模拟处理后的数据样本对字符识别模型进行训练相当于使用受同类噪声影响的、具有与生成的数据样本相同字符的真实数据样本进行训练,使得训练出的字符识别模型在识别受同类噪声影响的、具有与生成的数据样本相同字符的真实数据样本时,能够具有较高的识别准确率。
基于上述字符识别模型的训练方法的实施例,本申请实施例还提供了一种字符识别模型的训练装置。
图10所示为本申请实施例提供的一种字符识别模型的训练装置的结构图,请参照图10,该装置包括获取单元1001、计算单元1002、模拟单元103、训练单元1004,其中:
获取单元1001,用于获取真实数据样本、第一生成样本和第二生成样本,真实数据样本为具有噪声的数据样本,第一生成样本和第二生成样本为不具有噪声的数据样本,真实数据样本中包括的字符与第一生成样本包括的字符相同,第一生成样本中包括的字符与第二生成样本中包括的字符不同;
计算单元1002,用于将真实数据样本进行卷积计算得到真实卷积结果,将第一生成样本进行卷积计算得到第一卷积结果,将第二生成样本进行卷积计算得到第二卷积结果;
模拟单元1003,用于根据真实卷积结果和第一卷积结果确定出噪声对真实数据样本中字符所造成影响的特征,并根据噪声对真实数据样本中字符所造成影响的特征和第二卷积结果模拟出模拟结果,模拟结果用于模拟在噪声影响下的第二生成样本进行卷积计算得到的卷积结果;
训练单元1004,用于将模拟结果用于进行字符识别模型的训练。
可选的,计算单元1002具体用于:
将真实数据样本输入卷积层模型进行卷积计算得到真实卷积结果,将第一生成样本输入卷积层模型进行卷积计算得到第一卷积结果,将第二生成样本输入卷积层模型进行卷积计算得到第二卷积结果。
可选的,训练单元1004包括识别子单元和反向传播计算子单元:
识别子单元,用于将模拟结果输入全连接层模型进行识别运算;
反向传播计算子单元,用于若识别出的字符与第二生成样本中包括的字符不同,则依据第二生成样本中包括的字符反向传播计算。
可选的,训练单元1004具体用于:
将第二卷积结果与模拟结果在同一个字符识别模型中进行并行的模型训练。
可选的,第一生成样本中包括的字符与第二生成样本中包括的字符的类型相同。
可选的,第一生成样本中包括的字符数量与第二生成样本中包括的字符数量相同。
可选的,卷积计算中包括至少一次降采样操作。
本申请实施例提供了一种字符识别模型的训练装置,图11所示为本申请实施例提供的一种字符识别模型的训练装置的结构图,请参照图11,该装置包括获取单元1101、确定单元1102和训练单元1103,其中:
获取单元1101,用于获取真实数据样本、第一生成样本和第二生成样本,真实数据样本为具有噪声的数据样本,第一生成样本和第二生成样本为不具有噪声的数据样本,真实数据样本中包括的字符与第一生成样本包括的字符相同,第一生成样本中包括的字符与第二生成样本中包括的字符不同;
确定单元1102,用于根据真实数据样本和第一生成样本确定出噪声对真实数据样本中字符所造成影响的特征,并根据噪声对真实数据样本中字符所造成影响的特征和第二生成样本确定出模拟结果,模拟结果用于模拟在噪声影响下的第二生成样本的特征;
训练单元1103,用于将模拟结果进行字符识别模型的训练。
本申请实施例提供了一种字符识别模型的训练装置,图12所示为本申请实施例提供的一种字符识别模型的训练装置的结构图,请参照图12,该装置包括获取单元1201、处理单元1202和训练单元1203,其中:
获取单元1201,用于获取真实数据样本;
处理单元1202,用于对真实数据样本进行处理,得到真实数据样本中的噪声特征;
训练单元1203,用于将噪声特征对生成的数据样本进行模拟处理,并将模拟处理后的数据样本对字符识别模型进行训练;
其中,生成的数据样本为无噪声的数据样本。
本申请实施例提供了一种数据处理设备。图13所示为本申请实施例提供的一种用于字符识别模型训练的数据处理设备的结构图,请参照图13,数据处理设备1300包括处理器1302和存储器1301,其中:
存储器1301,用于存储程序代码,并将程序代码传输给处理器;
处理器1302,用于根据程序代码中的指令执行以下方法:
获取真实数据样本、第一生成样本和第二生成样本,真实数据样本为具有噪声的数据样本,第一生成样本和第二生成样本为不具有噪声的数据样本,真实数据样本中包括的字符与第一生成样本包括的字符相同,第一生成样本中包括的字符与第二生成样本中包括的字符不同;
将真实数据样本进行卷积计算得到真实卷积结果,将第一生成样本进行卷积计算得到第一卷积结果,将第二生成样本进行卷积计算得到第二卷积结果;
根据真实卷积结果和第一卷积结果确定出噪声对真实数据样本中字符所造成影响的特征,并根据噪声对真实数据样本中字符所造成影响的特征和第二卷积结果模拟出模拟结果,模拟结果用于模拟在噪声影响下的第二生成样本进行卷积计算得到的卷积结果;
将模拟结果用于字符识别模型的训练。
可选的,处理器1302用于执行如下操作:
将真实数据样本输入卷积层模型进行卷积计算得到真实卷积结果,将第一生成样本输入卷积层模型进行卷积计算得到第一卷积结果,将第二生成样本输入卷积层模型进行卷积计算得到第二卷积结果。
可选的,处理器1302用于执行如下操作:
将模拟结果输入全连接层模型进行识别运算;
若识别出的字符与第二生成样本中包括的字符不同,则依据第二生成样本中包括的字符反向传播计算。
可选的,处理器1302用于执行如下操作:
将第二卷积结果与模拟结果在同一个字符识别模型中进行并行的模型训练。
可选的,第一生成样本中包括的字符与第二生成样本中包括的字符的类型相同。
可选的,第一生成样本中包括的字符数量与第二生成样本中包括的字符数量相同。
可选的,卷积计算中包括至少一次降采样操作。
本申请实施例提供了一种数据处理设备。图14所示为本申请实施例提供的一种用于字符识别模型训练的数据处理设备的结构图,请参照图14,数据处理设备1400包括处理器1402和存储器1401,其中:
存储器1401,用于存储程序代码,并将程序代码传输给处理器;
处理器1402,用于根据程序代码中的指令执行以下方法:
获取真实数据样本、第一生成样本和第二生成样本,真实数据样本为具有噪声的数据样本,第一生成样本和第二生成样本为不具有噪声的数据样本,真实数据样本中包括的字符与第一生成样本包括的字符相同,第一生成样本中包括的字符与第二生成样本中包括的字符不同;
根据真实数据样本和第一生成样本确定出噪声对真实数据样本中字符所造成影响的特征,并根据噪声对真实数据样本中字符所造成影响的特征和第二生成样本确定出模拟结果,模拟结果用于模拟在噪声影响下的第二生成样本的特征;
将模拟结果用于字符识别模型的训练。
本申请实施例提供了一种数据处理设备。图15所示为本申请实施例提供的一种用于字符识别模型训练的数据处理设备的结构图,请参照图15,数据处理设备1500包括处理器1502和存储器1501,其中:
存储器1501,用于存储程序代码,并将程序代码传输给处理器;
处理器1502,用于根据程序代码中的指令执行以下方法:
获取真实数据样本;
对真实数据样本进行处理,得到真实数据样本中的噪声特征;
将噪声特征对生成的数据样本进行模拟处理,并将模拟处理后的数据样本对字符识别模型进行训练;
其中,生成的数据样本为无噪声的数据样本。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (20)

1.一种字符识别模型的训练方法,其特征在于,所述方法包括:
获取真实数据样本、第一生成样本和第二生成样本,所述真实数据样本为具有噪声的数据样本,所述第一生成样本和第二生成样本为不具有噪声的数据样本,所述真实数据样本中包括的字符与所述第一生成样本包括的字符相同,所述第一生成样本中包括的字符与所述第二生成样本中包括的字符不同;
将所述真实数据样本进行卷积计算得到真实卷积结果,将第一生成样本进行所述卷积计算得到第一卷积结果,将第二生成样本进行所述卷积计算得到第二卷积结果;
根据所述真实卷积结果和所述第一卷积结果确定出所述噪声对所述真实数据样本中字符所造成影响的特征,并根据所述噪声对所述真实数据样本中字符所造成影响的特征和所述第二卷积结果模拟出模拟结果,所述模拟结果用于模拟在所述噪声影响下的所述第二生成样本进行所述卷积计算得到的卷积结果;
将所述模拟结果用于字符识别模型的训练。
2.根据权利要求1所述的方法,其特征在于,所述将所述真实数据样本进行卷积计算得到真实卷积结果,将第一生成样本进行所述卷积计算得到第一卷积结果,将第二生成样本进行所述卷积计算得到第二卷积结果,包括:
将所述真实数据样本输入卷积层模型进行卷积计算得到真实卷积结果,将第一生成样本输入所述卷积层模型进行所述卷积计算得到第一卷积结果,将第二生成样本输入所述卷积层模型进行所述卷积计算得到第二卷积结果。
3.根据权利要求1所述的方法,其特征在于,所述将所述模拟结果用于模型训练,包括:
将所述模拟结果输入全连接层模型进行识别运算;
若识别出的字符与所述第二生成样本中包括的字符不同,则依据所述第二生成样本中包括的字符反向传播计算。
4.根据权利要求1所述的方法,其特征在于,所述将所述模拟结果用于字符识别模型的训练,包括:
将所述第二卷积结果与所述模拟结果在同一个字符识别模型中进行并行的模型训练。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述第一生成样本中包括的字符与所述第二生成样本中包括的字符的类型相同。
6.根据权利要求1至4任意一项所述的方法,其特征在于,所述第一生成样本中包括的字符数量与所述第二生成样本中包括的字符数量相同。
7.根据权利要求1至4任意一项所述的方法,其特征在于,所述卷积计算中包括至少一次降采样操作。
8.一种字符识别模型的训练方法,其特征在于,所述方法包括:
获取真实数据样本、第一生成样本和第二生成样本,所述真实数据样本为具有噪声的数据样本,所述第一生成样本和第二生成样本为不具有噪声的数据样本,所述真实数据样本中包括的字符与所述第一生成样本包括的字符相同,所述第一生成样本中包括的字符与所述第二生成样本中包括的字符不同;
根据所述真实数据样本和第一生成样本确定出所述噪声对所述真实数据样本中字符所造成影响的特征,并根据所述噪声对所述真实数据样本中字符所造成影响的特征和所述第二生成样本确定出模拟结果,所述模拟结果用于模拟在所述噪声影响下的所述第二生成样本的特征;
将所述模拟结果用于字符识别模型的训练。
9.一种字符识别模型的训练装置,其特征在于,所述装置包括获取单元、计算单元、模拟单元、训练单元,其中:
所述获取单元,用于获取真实数据样本、第一生成样本和第二生成样本,所述真实数据样本为具有噪声的数据样本,所述第一生成样本和第二生成样本为不具有噪声的数据样本,所述真实数据样本中包括的字符与所述第一生成样本包括的字符相同,所述第一生成样本中包括的字符与所述第二生成样本中包括的字符不同;
所述计算单元,用于将所述真实数据样本进行卷积计算得到真实卷积结果,将第一生成样本进行所述卷积计算得到第一卷积结果,将第二生成样本进行所述卷积计算得到第二卷积结果;
所述模拟单元,用于根据所述真实卷积结果和所述第一卷积结果确定出所述噪声对所述真实数据样本中字符所造成影响的特征,并根据所述噪声对所述真实数据样本中字符所造成影响的特征和所述第二卷积结果模拟出模拟结果,所述模拟结果用于模拟在所述噪声影响下的所述第二生成样本进行所述卷积计算得到的卷积结果;
所述训练单元,用于将所述模拟结果进行字符识别模型的训练。
10.一种字符识别模型的训练装置,其特征在于,所述装置包括获取单元、确定单元和训练单元,其中:
所述获取单元,用于获取真实数据样本、第一生成样本和第二生成样本,所述真实数据样本为具有噪声的数据样本,所述第一生成样本和第二生成样本为不具有噪声的数据样本,所述真实数据样本中包括的字符与所述第一生成样本包括的字符相同,所述第一生成样本中包括的字符与所述第二生成样本中包括的字符不同;
所述确定单元,用于根据所述真实数据样本和第一生成样本确定出所述噪声对所述真实数据样本中字符所造成影响的特征,并根据所述噪声对所述真实数据样本中字符所造成影响的特征和所述第二生成样本确定出模拟结果,所述模拟结果用于模拟在所述噪声影响下的所述第二生成样本的特征;
所述训练单元,用于将所述模拟结果进行字符识别模型的训练。
11.一种用于字符识别模型训练的数据处理设备,其特征在于,所述数据处理设备包括处理器和存储器,其中:
所述存储器,用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器,用于根据所述程序代码中的指令执行以下方法:
获取真实数据样本、第一生成样本和第二生成样本,所述真实数据样本为具有噪声的数据样本,所述第一生成样本和第二生成样本为不具有噪声的数据样本,所述真实数据样本中包括的字符与所述第一生成样本包括的字符相同,所述第一生成样本中包括的字符与所述第二生成样本中包括的字符不同;
将所述真实数据样本进行卷积计算得到真实卷积结果,将第一生成样本进行所述卷积计算得到第一卷积结果,将第二生成样本进行所述卷积计算得到第二卷积结果;
根据所述真实卷积结果和所述第一卷积结果确定出所述噪声对所述真实数据样本中字符所造成影响的特征,并根据所述噪声对所述真实数据样本中字符所造成影响的特征和所述第二卷积结果模拟出模拟结果,所述模拟结果用于模拟在所述噪声影响下的所述第二生成样本进行所述卷积计算得到的卷积结果;
将所述模拟结果用于字符识别模型的训练。
12.根据权利要求11所述的数据处理设备,其特征在于,所述处理器用于执行如下操作:
将所述真实数据样本输入卷积层模型进行卷积计算得到真实卷积结果,将第一生成样本输入所述卷积层模型进行所述卷积计算得到第一卷积结果,将第二生成样本输入所述卷积层模型进行所述卷积计算得到第二卷积结果。
13.根据权利要求11所述的数据处理设备,其特征在于,所述处理器用于执行如下操作:
将所述模拟结果输入全连接层模型进行识别运算;
若识别出的字符与所述第二生成样本中包括的字符不同,则依据所述第二生成样本中包括的字符反向传播计算。
14.根据权利要求11所述的数据处理设备,其特征在于,所述处理器用于执行如下操作:
将所述第二卷积结果与所述模拟结果在同一个字符识别模型中进行并行的模型训练。
15.根据权利要求11至14任意一项所述的数据处理设备,其特征在于,所述第一生成样本中包括的字符与所述第二生成样本中包括的字符的类型相同。
16.根据权利要求11至14任意一项所述的数据处理设备,其特征在于,所述第一生成样本中包括的字符数量与所述第二生成样本中包括的字符数量相同。
17.根据权利要求11至14任意一项所述的数据处理设备,其特征在于,所述卷积计算中包括至少一次降采样操作。
18.一种用于字符识别模型训练的数据处理设备,其特征在于,所述数据处理设备包括处理器和存储器,其中:
所述存储器,用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器,用于根据所述程序代码中的指令执行以下方法:
获取真实数据样本、第一生成样本和第二生成样本,所述真实数据样本为具有噪声的数据样本,所述第一生成样本和第二生成样本为不具有噪声的数据样本,所述真实数据样本中包括的字符与所述第一生成样本包括的字符相同,所述第一生成样本中包括的字符与所述第二生成样本中包括的字符不同;
根据所述真实数据样本和第一生成样本确定出所述噪声对所述真实数据样本中字符所造成影响的特征,并根据所述噪声对所述真实数据样本中字符所造成影响的特征和所述第二生成样本确定出模拟结果,所述模拟结果用于模拟在所述噪声影响下的所述第二生成样本的特征;
将所述模拟结果用于字符识别模型的训练。
19.一种存储介质,其特征在于,所述存储介质用于存储程序代码,所述程序代码用于执行权利要求1-8任意一项所述的字符识别模型的训练方法。
20.一种包括指令的计算机程序产品,当其在数据处理设备上运行时,使得所述数据处理设备执行权利要求1-8任意一项所述的字符识别模型的训练方法。
CN201710985282.9A 2017-10-20 2017-10-20 一种字符识别模型的训练方法和装置 Active CN109697442B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710985282.9A CN109697442B (zh) 2017-10-20 2017-10-20 一种字符识别模型的训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710985282.9A CN109697442B (zh) 2017-10-20 2017-10-20 一种字符识别模型的训练方法和装置

Publications (2)

Publication Number Publication Date
CN109697442A CN109697442A (zh) 2019-04-30
CN109697442B true CN109697442B (zh) 2023-04-07

Family

ID=66225337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710985282.9A Active CN109697442B (zh) 2017-10-20 2017-10-20 一种字符识别模型的训练方法和装置

Country Status (1)

Country Link
CN (1) CN109697442B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10990876B1 (en) 2019-10-08 2021-04-27 UiPath, Inc. Detecting user interface elements in robotic process automation using convolutional neural networks
US11157783B2 (en) 2019-12-02 2021-10-26 UiPath, Inc. Training optical character detection and recognition models for robotic process automation
CN111523541A (zh) * 2020-04-21 2020-08-11 上海云从汇临人工智能科技有限公司 一种基于ocr的数据生成方法、系统、设备及介质
CN116306496B (zh) * 2023-03-17 2024-02-02 北京百度网讯科技有限公司 字符生成方法、字符生成模型的训练方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160824A (ja) * 1993-10-15 1995-06-23 Nippon Digital Kenkyusho:Kk 文字認識装置
CN104657732A (zh) * 2015-03-06 2015-05-27 张起坤 一种集装箱箱号定位评测方法
CN104899571A (zh) * 2015-06-12 2015-09-09 成都数联铭品科技有限公司 一种用于复杂文字识别的随机样本产生方法
CN106203521A (zh) * 2016-07-15 2016-12-07 西安电子科技大学 基于差异图自步学习的sar图像变化检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7130776B2 (en) * 2002-03-25 2006-10-31 Lockheed Martin Corporation Method and computer program product for producing a pattern recognition training set
US8176054B2 (en) * 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160824A (ja) * 1993-10-15 1995-06-23 Nippon Digital Kenkyusho:Kk 文字認識装置
CN104657732A (zh) * 2015-03-06 2015-05-27 张起坤 一种集装箱箱号定位评测方法
CN104899571A (zh) * 2015-06-12 2015-09-09 成都数联铭品科技有限公司 一种用于复杂文字识别的随机样本产生方法
CN106203521A (zh) * 2016-07-15 2016-12-07 西安电子科技大学 基于差异图自步学习的sar图像变化检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
添加均匀分布噪声的数据扰动小样本分类算法;徐尽;《科技通报》;20130615(第06期);全文 *

Also Published As

Publication number Publication date
CN109697442A (zh) 2019-04-30

Similar Documents

Publication Publication Date Title
US20190180154A1 (en) Text recognition using artificial intelligence
Ye et al. Real-time no-reference image quality assessment based on filter learning
CN111488865B (zh) 图像优化方法、装置、计算机存储介质以及电子设备
CN109697442B (zh) 一种字符识别模型的训练方法和装置
US20200089998A1 (en) Training image-processing neural networks by synthetic photorealistic indicia-bearing images
US9036905B2 (en) Training classifiers for deblurring images
CN110647829A (zh) 一种票据的文本识别方法及系统
US11341757B2 (en) Training language models using text corpora comprising realistic optical character recognition (OCR) errors
CN111291629A (zh) 图像中文本的识别方法、装置、计算机设备及计算机存储介质
CN108846385B (zh) 基于卷积-反卷积神经网络的图像识别、校正方法和装置
US20200134382A1 (en) Neural network training utilizing specialized loss functions
JP2007128195A (ja) 画像処理システム
CN104866868A (zh) 基于深度神经网络的金属币识别方法和装置
CN111401099A (zh) 文本识别方法、装置以及存储介质
US20210365836A1 (en) Methods and systems for pre-optimizing input data for an ocr engine or other computer-implemented analysis process
CN113781356A (zh) 图像去噪模型的训练方法、图像去噪方法、装置及设备
CN112488137A (zh) 样本获取方法、装置、电子设备及机器可读存储介质
CN113792659A (zh) 文档识别方法、装置及电子设备
CN115393868B (zh) 文本检测方法、装置、电子设备和存储介质
US11715288B2 (en) Optical character recognition using specialized confidence functions
CN116129417A (zh) 一种基于低质量图像的数字仪表读数检测方法
Rodin et al. Document image quality assessment via explicit blur and text size estimation
CA3120127A1 (en) Methods and systems for pre-optimizing input data for an ocr engine or other computer-implemented analysis process
CN113033542A (zh) 一种文本识别模型的生成方法以及装置
CN116704513B (zh) 文本质量检测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant