CN113052176A - 一种字符识别模型训练方法、装置及系统 - Google Patents
一种字符识别模型训练方法、装置及系统 Download PDFInfo
- Publication number
- CN113052176A CN113052176A CN202110385919.7A CN202110385919A CN113052176A CN 113052176 A CN113052176 A CN 113052176A CN 202110385919 A CN202110385919 A CN 202110385919A CN 113052176 A CN113052176 A CN 113052176A
- Authority
- CN
- China
- Prior art keywords
- feature
- pixels
- character
- sample image
- difference degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 title claims abstract description 50
- 239000011159 matrix material Substances 0.000 claims abstract description 154
- 238000012545 processing Methods 0.000 claims abstract description 74
- 239000013598 vector Substances 0.000 claims description 57
- 238000000605 extraction Methods 0.000 claims description 22
- 230000004927 fusion Effects 0.000 claims description 20
- 238000010606 normalization Methods 0.000 claims description 13
- 238000005728 strengthening Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 230000015654 memory Effects 0.000 description 12
- 238000013518 transcription Methods 0.000 description 8
- 230000035897 transcription Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 125000004122 cyclic group Chemical group 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例适用于图像处理领域中的OCR识别,公开了一种字符识别模型训练方法、装置及系统,该方法包括:对样本图像进行第一卷积特征的提取得到第一特征矩阵,第一特征矩阵指示用于区分字符像素和空白处像素的目标特征;根据第一特征矩阵识别字符像素和空白处像素;对像素进行特征加强处理得到第二特征矩阵,以使第一差异度小于第二差异度,第一差异度是第一特征矩阵所指示的字符像素和空白处像素各自的目标特征之间的差异度,第二差异度是第二特征矩阵所指示的字符像素和空白处像素各自的目标特征之间的差异度;根据第二特征矩阵确定字符预测结果;根据字符预测结果以及标注标签,调节模型参数。本申请可以提高字符识别模型的泛化能力。
Description
技术领域
本申请涉及机器学习领域,尤其涉及一种字符识别模型训练方法、装置及系统。
背景技术
OCR(optical character recognition,光学字符识别)技术可以把图像中的字符进行识别,并以文本的形式返回,其在多种不同的场景都有着广泛的应用,如证件识别场景、车牌识别场景、快递地址识别填写场景、票据识别场景等等。通常,光学字符识别技术可以包含两个步骤,首先对图像进行处理,获取图片信息,进而根据图片信息输出其中包含的字符。CRNN(convolution recurrent neural network,卷积循环神经网络)就是一种可以进行光学字符识别的神经网络,CRNN网络包括卷积层、循环层和转录层,卷积层可以通过多个卷积核提取图像的多种抽象特征,循环层可以对图像的特征进行序列化学习,学习图像中字符的上下文特征,并输出针对图片的预测结果,转录层可以将针对图片的预测转换为最终的标签序列结果。目前这种CRNN网络由于对图像特征的提取等处理方式较为固定单一,字符识别的泛化能力不佳。
发明内容
本申请提供一种字符识别模型训练方法、装置及系统,通过本申请可以提高模型特征学习的有效性,从而提高字符识别模型的预测准确性和泛化能力。
本发明实施例第一方面提供了一种字符识别模型训练方法,包括:
对样本图像进行第一卷积特征的提取,得到第一特征矩阵,所述第一特征矩阵指示用于区分所述样本图像中字符像素和空白处像素的目标特征;
根据所述第一特征矩阵识别所述样本图像中的字符像素和空白处像素;
对所述样本图像中的像素进行特征加强处理,得到第二特征矩阵,以使第一差异度小于第二差异度,所述第一差异度是所述第一特征矩阵所指示的所述样本图像中字符像素和空白处像素各自的所述目标特征之间的差异度,所述第二差异度是所述第二特征矩阵所指示的所述样本图像中字符像素和空白处像素各自的所述目标特征之间的差异度;
根据所述第二特征矩阵确定所述样本图像的字符预测结果;
根据所述样本图像的字符预测结果以及所述样本图像的标注标签,调节所述字符识别模型的模型参数。
结合第一方面,在第一种可能的实现方式中,所述目标特征包括所述字符像素对应的第一特征状态和所述空白处像素对应的第二特征状态;
所述对所述样本图像中的像素进行特征加强处理包括:
针对所述字符像素的目标特征进行所述第一特征状态的加强处理,和/或,针对所述空白处像素的目标特征进行所述第二特征状态的加强处理。
结合第一方面,在第二种可能的实现方式中,所述样本图像的标注标签包括所述样本图像中字符对应的字符标签和所述样本图像中空白处对应的空白处标签。
结合第一方面,在第三种可能的实现方式中,所述根据所述第二特征矩阵确定所述样本图像的字符预测结果包括:
对多个第一特征向量进行上下文特征融合,得到所述多个第一特征向量各自对应的第二特征向量,所述多个第一特征向量时候根据所述第二特征矩阵确定的;
根据各个所述第二特征向量确定所述样本图像的字符预测结果。
结合第一方面,在第四种可能的实现方式中,所述对所述多个第一特征向量进行上下文特征融合之前,还包括:
对所述多个第一特征向量进行批量归一化处理;
所述对所述多个第一特征向量进行上下文特征融合包括:
对批量归一化处理后的所述多个第一特征向量进行上下文特征融合。
结合第一方面,在第五种可能的实现方式中,所述对多个第一特征向量进行上下文特征融合之前,还包括:
根据所述第二特征矩阵,对特征加强处理后的所述样本图像进行第二卷积特征提取;
所述多个第一特征向量是根据所述第二卷积特征提取后的第二特征矩阵确定的。
结合第一方面,在第六种可能的实现方式中,所述对样本图像进行第一卷积特征的提取包括:
将所述样本图像输出第一卷积网络进行所述第一卷积特征的提取,其中所述第一卷积网络的卷积核尺寸为5*5;
和/或,
所述根据所述第二特征矩阵对特征加强处理后的所述样本图像进行第二卷积特征提取包括:
将所述样本图像输入第二卷积网络进行所述第二卷积特征的提取,其中所述第二卷积网络的卷积核尺寸为5*5。
本申请实施例第二方面提供了一种字符识别模型训练装置,该装置包括:
特征提取单元,用于对样本图像进行第一卷积特征的提取,得到第一特征矩阵,所述第一特征矩阵指示用于区分所述样本图像中字符像素和空白处像素的目标特征;
像素识别单元,用于根据所述第一特征矩阵识别所述样本图像中的字符像素和空白处像素;
特征加强单元,用于对所述样本图像中的像素进行特征加强处理,得到第二特征矩阵,以使第一差异度小于第二差异度,所述第一差异度是所述第一特征矩阵所指示的所述样本图像中字符像素和空白处像素各自的所述目标特征之间的差异度,所述第二差异度是所述第二特征矩阵所指示的所述样本图像中字符像素和空白处像素各自的所述目标特征之间的差异度;
分类单元,用于根据所述第二特征矩阵确定所述样本图像的字符预测结果;
参数调节单元,用于根据所述样本图像的字符预测结果以及所述样本图像的标注标签,调节所述字符识别模型的模型参数。
本申请实施例第三方面提供了一种字符识别模型训练系统,用于对字符识别模型进行训练,所述字符识别模型包括第一子模型和第二子模型,所述系统包括至少两个部署有所述第一子模型的第一设备和一个部署有所述第二子模型的第二设备;各个所述第一设备中所述第一子模型的初始化的模型参数相同;
任意一个所述第一设备基于部署的所述第一子模型,用于:
对样本图像进行第一卷积特征的提取,得到第一特征矩阵,所述第一特征矩阵指示用于区分所述样本图像中字符像素和空白处像素的目标特征;
根据所述第一特征矩阵识别所述样本图像中的字符像素和空白处像素;
对所述样本图像中的像素进行特征加强处理,得到第二特征矩阵,以使第一差异度小于第二差异度,所述第一差异度是所述第一特征矩阵中所述字符像素和所述空白处像素之间所述目标特征的差异度,所述第二差异度是所述第二特征矩阵中所述字符像素和所述空白处像素之间所述目标特征的差异度;
所述第二设备用于:
基于部署的所述第二子模型,根据所述第二特征矩阵确定所述样本图像的字符预测结果;
根据所述样本图像的字符预测结果以及所述样本图像的标注标签调节所述第一子模型和所述第二子模型的模型参数,其中,对各个所述第一设备中第一子模型的模型参数调节均一致。
本申请实施例第四方面提供了一种字符识别方法,用于预测输入图像的字符预测结果,所述方法包括:
对输入图像进行第一卷积特征的提取,得到第一特征矩阵,所述第一特征矩阵指示用于区分所述输入图像中字符像素和空白处像素的目标特征;
根据所述第一特征矩阵识别所述输入图像中的字符像素和空白处像素;
对所述输入图像中的像素进行特征加强处理,得到第二特征矩阵,以使第一差异度小于第二差异度,所述第一差异度是所述第一特征矩阵所指示的所述输入图像中字符像素和空白处像素各自的所述目标特征之间的差异度,所述第二差异度是所述第二特征矩阵所指示的所述输入图像中字符像素和空白处像素各自的所述目标特征之间的差异度;
根据所述第二特征矩阵确定所述输入图像的字符预测结果。
本申请实施例第五方面提供了一种字符识别模型训练装置,包括处理器、存储器以及通信接口,所述处理器、存储器和通信接口相互连接,其中,所述通信接口用于接收和发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,所述程序代码当被计算机执行时使所述计算机执行上述第一方面和第一方面各个可能的实现方式中的任意一种方法。
本发明实施例第四方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时使所述计算机执行上述第一方面和第一方面各个可能的实现方式。
本申请实施例中,在对字符识别模型训练过程中,在对样本图像进行第一卷积特征提取后,通过第一卷积特征中包含的目标特征可以识别样本图像中的字符像素和空白处像素,进而对样本图像中像素的特征加强处理,使样本图像中空白处像素和字符像素各自的目标特征之间差异度增大,可以使得字符识别模型更有针对性地学习空白处像素和字符像素各自的特征,提高模型特征学习的有效性,从而提高字符识别模型的预测准确性和泛化能力。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种CRNN模型的网络结构示意图;
图2是本申请实施例提供的一种字符识别模型训练方法的流程示意图;
图3是本申请实施例提供的一种第一特征向量的感受野示意图;
图4是本申请实施例提供的字符识别模型的结构示意图;
图5是本申请实施例提供的字符识别模型的结构示意图;
图6是本申请实施例提供的一种字符识别方法的流程示意图;
图7是本申请实施例提供的一种字符识别模型训练装置的结构示意图;
图8是本申请实施例提供的一种字符识别模型训练系统的系统示意图;
图9为本申请实施例提供的另一种字符识别模型训练装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供的字符识别模型训练方法是基于CRNN模型的一种字符识别模型训练方法,在介绍本申请实施例提供的字符识别模型训练方法之前,首先对CRNN模型的网络结构进行简单介绍。
参阅图1,图1是本申请实施例提供的一种CRNN模型的网络结构示意图,如图1所示,CRNN模型包括卷积层(convolutional layers)、循环层(recurrent layers)和转录层(transcription layer),输入图像通过输入CRNN模型后,依次经过卷积层、循环层和转录层的处理,CRNN模型输出针对输入图像中字符的预测结果。
具体的,卷积层可以首先对输入图像进行预处理,将其预处理为尺寸为W*32的图像(即将输入图像预处理为高度为32像素的图像,而预处理后的高度与预处理前的高度均为W),然后对预处理后的图像进行卷积、最大池化、批量归一化等操作,实现对输入图像的图像特征提取,得到输入图像的卷积特征图,输入图像的卷积特征图包括多个特征序列,每个特征序列表示了样本图像上一定宽度图像的特征。其中,卷积层中进行卷积操作的卷积核的尺寸均为3*3,卷积核尺寸较小,对图像局部特征的提取效果不佳。
卷积层输出的特征序列可以输入循环层,循环层可以包括一个深度双向LSTM(Long Short-Term Memory,长短期记忆)循环神经网络,预测每一个特征序列的对应的预测标签(该预测标签可以包括字符标签,也可以包括空白处对应的空包处标签)。其中,深度双向LSTM循环神经网络可以捕获长距离的信息,因此可以融合距离较远的矩阵列的特征,而双向的结构可以对上文和下文双向的特征均进行融合,多组的双向LSTM结构可以累积融合到更深层次的特征,进而根据上述融合到的全面的特征进行更准确的文本识别。
转录层可以将循环层得到的各个特征序列对应的预测标签进行整合转换,得到最终针对输入图像包含的字符的预测结果。转录层连接在深度双向LSTM循环神经网络的后端,通过CTC(connectionist temporal classification,联接时间分类)算法解决输入数据与给定标签的对齐问题,可用于执行端到端的训练,输出不定长的序列结果。比如,一些文字图像,由于字符间隔、字符宽度等的不同,导致循环层依次输出的各个特征向量的预测标签,与图像实际包含的字符不同,通过CTC算法可以把循环层输出的各个特征序列的预测标签中,最前一个空白处标签之前的多个连续且相同的文本字符删除至一个,将最后一个空白处标签之后的多个连续且相同的文本字符删除至一个,将任意两个空白处标签之间的相同的文本字符删除至一个,最后再将空白处标签删除,得到最终的预测结果。
在上述CRNN模型进行训练时,可以对卷积层和循环层联合训练,训练前,先对样本图像进行标注,在对样本图像标注时,可以标注样本图像中包括的词汇,该词汇中包括样本图像中从左到右依次包括的字符,不包括对空白处的标注,比如图1中的输入图像中左侧的部分图像为空白,右侧的部分图像中包含“state”这一词汇,那么可以针对该样本图像标注“state”,该标注中未体现图像左侧的空白),进而将样本图像输入CRNN模型,使得模型学习样本图像中词汇的特征,并通过误差反向传播算法,实现对该模型的训练和优化。由于样本图像的标注中,不包括对空白处的标注,也就使得训练过程中卷积层和循环层无法有效学习到空白处的特征,而循环层输出的各个特征序列对应的预测标签又可能包括有空包处对应的空白处标签,使得循环层对空白处的预测准确度不高。
本申请实施例提供的字符识别模型训练方法可以训练得到字符识别泛化能力较高的字符识别模型,一种可选的方式中,可以对上述CRNN模型进行改进,本申请实施例提供的字符识别模型训练方法可以基于改进后的CRNN模型实现,下面对该字符识别模型训练方法进行详细介绍。
参阅图2,图2是本申请实施例提供的一种字符识别模型训练方法的流程示意图,如图2所示,所述方法可以包括步骤S201-S205。
S201,对样本图像进行第一卷积特征的提取,得到第一特征矩阵。
在该字符识别模型训练方法中,针对字符识别模型进行训练的样本图像可以有多个,这里的样本图像可以是其中的任意一个,该样本图像中可以包括字符,和/或,包括空白处。其中,空白处不限于是白色的无字符区域,也可以是其他颜色或纹路等的无字符区域。
在步骤S201之前,可以对样本图像进行标注标签的标记,一种可选的方式中,若样本图像中包括字符,样本图像的标注标签中包括字符对应的字符标签;若样本图像中包括空白处,样本图像的标注标签中包括空白处对应的空白处标签;若样本图像中包括字符和空白处,样本图像的标注标签中可以包括字符对应的字符标签,以及空白处对应的空白处标签。比如,空白处对应的空白处标签可以为“-”,那么针对图1中的输入图像,对其标记的标注标签可以为“-state”。通过对样本图像中空白处的标记,可以在该字符识别模型方法的实现过程中,使得模型更好地学习空白处的特征,并提高对空白处进行预测的准确性。
其中,样本图像的尺寸可以是任意尺寸的图像,一种可选的方式中,可以对样本图像进行预处理,将样本图像预处理为W*32的图像(即预处理为宽度不变,高度预处理为32像素的图像),进而对预处理后的样本图像进行第一卷积特征的提取。
样本图像中包括多个像素,比如,预处理后的样本图像包括W*32个像素,这多个像素中包括构成字符的字符像素和/或构成空白处的空白处像素,比如,图1的输入图像中“s”、“t”、“a”、“t”和“e”这五个字符包括的任一像素均为字符像素,这五个字符以外的区域中的任一像素为空白处像素。
步骤S201中提取的第一卷积特征中包括可以用于区分样本图像中字符像素和空白处像素的目标特征。上述目标特征可以是颜色特征、灰度特征、亮度特征、对比度特征、锐度特征、纹理特征等较为具体的特征,也可以是其他抽象特征。例如,在一幅灰度图像中,可以通过灰度级别指示该灰度图像的灰度特征,各个像素的灰度级别均在0-15之间,灰度级别在0-4之间的像素为空白处像素,灰度级别在5-15之间的像素为字符像素,因此可以通过各个像素的灰度级别区分空白处像素和字符像素,灰度特征可以是一个目标特征。又如,在一幅R(red)G(green)B(blue)模式的彩色图像中,可以通过像素的R值、G值、B值的取值指示该图像的颜色特征,R值、G值、B值的取值均处于230~255之间的像素为空白处像素,R值、G值、B值的取值在其他范围的像素为字符像素,因此可以通过各个像素的R值、G值、B值的取值区分空白处像素和字符像素,颜色特征可以是一个目标特征。
应理解,字符像素和空白处像素可以通过一种特征进行区分,那么目标特征可以包括一种特征,如上文举例中目标特征可以是灰度特征或者颜色特征;字符像素和空白处像素也可以通过多种特征进行区分,那么目标特征可以包括多种特征,例如,在一幅灰度图像中,各个像素的灰度级别均处于0-15之间,灰度级别在5-15之间,且具有指定的纹理特征的像素为字符像素,否则为空白处像素,那么目标特征可以包括灰度特征和纹理特征。
进一步的,在一种可替换的实现方式中,第一卷积特征可以包括目标特征,以及目标特征以外的其他特征,在另一种可替换的实现方式中,第一卷积特征可以仅包括目标特征。
第一卷积特征提取后得到的第一特征矩阵可以指示目标特征,具体的,第一特征矩阵中可以包括样本图像中的各个像素在多个维度上的特征数据,如灰度级别、RGB值等,比如,目标特征为灰度特征,且灰度特征通过灰度级别指示,第一特征矩阵中某一维度的取值表示像素的灰度级别,那么第一特征矩阵就可以通过该取值指示目标特征。
S202,根据第一特征矩阵识别样本图像中的字符像素和空白处像素。
由于第一特征矩阵可以指示用于区分字符像素和空白处像素的目标特征,因此,可以根据第一特征矩阵可以识别样本图像中的字符像素和空白处像素。比如,步骤S201中的目标特征为灰度特征,灰度特征通过灰度级别指示,第一特征矩阵中某一维度的取值指示像素的灰度级别,那么就可以根据该取值区分识别像素是字符像素或是空白处像素。
S203,对样本图像中的像素进行特征加强处理,得到第二特征矩阵,以使第一差异度小于第二差异度。
其中,第一差异度是第一特征矩阵所指示样本图像中字符像素和空白处像素各自的目标特征之间的差异度,第二差异度是第二特征矩阵所指示的样本图像中字符像素和空白处像素各自的目标特征之间的差异度。
下面以第一特征矩阵为例,介绍样本图像中字符像素和空白处像素各自的目标特征之间的差异度。第一特征矩阵中包括样本图像中各个像素在多个维度上的特征数据,在这多个维度中包括用于指示目标特征的目标特征维度,即样本图像中每个像素在第一特征矩阵中都存在目标特征维度的特征数据,通过字符像素在目标特征维度上的特征数据以及空白处像素在目标特征维度上的特征数据,可以确定样本图像中字符像素和空白处像素各自目标特征之间的差异度。
比如,若目标特征为灰度特征,第一特征矩阵中某一维度的数据指示像素的灰度级别,像素的灰度级别均在0-15内,且灰度级别处于0-4之间的像素为空白处像素,灰度级别处于5-15之间的像素为字符像素,假设样本图像中有像素a、像素b和像素c,第一特征矩阵中指示的像素a的灰度级别为0,第一特征矩阵中指示的像素b的灰度级别为5,第一特征矩阵中指示的像素c的灰度级别为15,不难得到像素a和像素b为空白处像素,像素c为字符像素,且通过灰度级别数值的比较,可以得到像素a这一空白处像素的目标特征(也就是灰度特征)与像素c这一字符像素的目标特征之间的差异度(记为差异度1)为15个灰度级别,像素b这一空白处像素的目标特征与像素c这一字符像素的目标特征之间的差异度(记为差异度2)为10个灰度级别,并且差异度1大于差异度2。
需要说明的是,步骤S203中对样本图像中的像素进行的特征加强处理的动作可以是针对样本图像中全部像素执行的,也可以是针对样本图像中部分像素执行的,具体可以从以下两个方面介绍。
一方面,在一种可选的方式中,可以只针对样本图像中的全部字符像素进行处理,还可以只针对样本图像中的空白处像素进行处理,还可以对样本图像中的全部字符像素和全部空白处像素均进行处理。
具体的,目标特征包括字符像素对应的第一特征状态以及空白处像素对应的第二特征状态,具体可以通过以下方式实现对样本图像中的像素进行特征加强处理:针对样本图像中全部字符像素的目标特征进行第一特征状态的加强处理,和/或,针对样本图像中全部空白处像素的目标特征进行第二特征状态的加强处理。
其中,目标特征的特征状态可以具体的状态,比如目标特征为颜色特征,第一特征状态可以为红色系,第二特征状态可以为非红色系,又如目标特征为灰度特征,第一特征状态可以为黑色或深灰色,第二特征状态可以为浅灰色或白色。目标特征的特征状态也可以是一些抽象的状态,不再举例。目标特征的特征状态无论是具体的状态或是抽象的状态,都可以通过第一特征矩阵中目标特征维度的数据取值指示,比如,若目标特征为灰度特征,目标特征的第一特征状态可以通过取值在5-15之间的灰度级别指示,第二特征状态可以通过取值在0-4之间的灰度级别指示。
因此,在对样本图像中的像素进行特征加强处理的过程中,可以通过对第一特征矩阵中目标特征维度中数据取值的修改处理实现不同特征状态的加强处理,对第一特征矩阵修改处理后得到第二特征矩阵。具体实现中,可以对字符像素的目标特征维度中的数据取值进行修改,使得字符像素和空白处像素各自的目标特征之间的差异度增大,也可以对空白处像素的目标特征维度中的数据取值进行修改,使得字符像素和空白处像素各自的目标特征之间的差异度增大,还可以对字符像素和空白处像素各自在目标特征维度中的数据取值均进行修改,使得字符像素和空白处像素各自的目标特征之间的差异度增大。
比如,目标特征为灰度特征,字符像素的第一特征状态的目标特征可以通过取值在5-15之间的灰度级别指示,空白处像素的第二特征状态可以通过取值在0-4之间的灰度级别指示,若样本图像中的像素e在第一特征矩阵中目标特征维度中的数据取值为3,样本图像中的像素f在第一特征矩阵中的目标特征维度中的数据取值为6,一种方式中可以将像素e在第一特征矩阵中目标特征维度中的数据取值修改为大于或等于0且小于3的任意取值,另一种方式中,可以将像素f在第一特征矩阵中的目标特征维度中的数据取值修改为大于6且小于或等于15的任意取值,又一种方式中,可以将像素e在第一特征矩阵中目标特征维度中的数据取值修改为大于或等于0且小于3的任意取值,并且将像素f在第一特征矩阵中的目标特征维度中的数据取值修改为大于6且小于或等于15的任意取值。
上述三种方式均可以将像素e的目标特征和像素f的目标特征的差异化增大,可以理解的是,将像素e在第一特征矩阵中目标特征维度的数据取值修改为0,将像素f在第一特征矩阵中目标特征维度的数据取值修改为15,可以使得像素e的目标特征和像素f的目标特征的差异化最大。
另一方面,在一种可选的方式中,可以只针对样本图像中的部分字符像素进行特征加强处理,还可以只对样本图像中的部分空白处像素进行特征加强处理,还可以对样本图像中的部分字符像素和部分空白处像素进行特征加强处理。比如,第一特征矩阵中包括可以用于区分字符轮廓的特征数据,可以根据该特征数据识别字符轮廓中的像素识别出来,进而对组成字符轮廓的字符像素进行特征数据加强处理,还可以将与字符轮廓相邻的空白处像素识别出来,进而对与字符轮廓相邻的空白处像素进行特征数据加强处理,还可以对组成字符轮廓的字符像素和与字符轮廓相邻的空白处像素均进行特征数据加强数据。
具体的,目标特征包括字符像素对应的第一特征状态以及空白处像素对应的第二特征状态,具体可以针对样本图像中部分字符像素的目标特征进行第一特征状态的加强处理,和/或,针对样本图像中部分空白处像素的目标特征进行第二特征状态的加强处理。其中第一特征状态的加强处理的实现方式,以及第二特征状态的加强处理的实现方式可以参阅上一方面中具体的描述,此处不再赘述。
不难理解,若步骤S203中对样本图像中的像素进行的特征加强处理的动作是针对样本图像中部分像素执行的,还可以包括对样本图像中的部分字符像素进行第一特征状态的加强处理以及全部空白处像素进行第二特征状态的加强处理的方案,还有对样本图像中的全部字符像素进行第一特征状态的加强处理以及部分空白处像素进行第二特征状态的加强处理的方案,等,此处不再详述。
参阅上述针对第一特征矩阵指示的字符像素和空白处像素各自目标特征之间的差异度,不难理解,特征加强处理并未对第一特征矩阵中特征的维度修改,因此第二特征矩阵中可以包含与第一特征矩阵中相同维度上的特征数据,也包含每个像素在目标特征维度上的特征数据,第二特征矩阵中目标特征维度上的数据取值可以用于确定样本图像中字符像素和空白处像素各自目标特征之间的差异度。
通过上文的介绍可以理解,样本图像中字符像素和空白处像素各自目标特征之间的差异度可以通过目标特征维度中数据取值之间的差异度(如差值)来表示,其他方式中样本图像中字符像素和空白处像素各自目标特征之间的差异度还可以通过根据字符像素和空白处像素各自在目标特征维度中数据取值确定得到的其他数据(如方差、均方差、均值偏差等)之间的差异度表示。
S204,根据第二特征矩阵确定样本图像的字符预测结果。
其中,根据第二特征矩阵可以确定多个第一特征向量,比如,第二特征矩阵中包含多个矩阵列,可以将一个矩阵列可以组成一个第一特征向量,或者,可以根据一定数量的相邻的矩阵列提取一个第一特征向量。每一个第一特征向量可以对应样本图像中的一个矩形区域(称为感受野),并且这多个第一特征向量在第二特征矩阵中从左到右排布的顺序,与其相对应的矩形区域在样本图像中从左到右排布的顺序一致。参见图3,图3是本申请实施例提供的一种第一特征向量的感受野示意图,图3示出了图1中的输入图像对应的感受野,如图所示,样本图片中八个虚线框分别表示八个感受野,八个第一特征向量与八个感受野的对应关系可以通过图3中的箭头表示。
在根据第二特征矩阵确定样本图像的字符预测结果的过程中,可以对多个第一特征向量进行上下文特征融合得到第二特征向量,根据第二特征向量确定样本图像的字符预测结果。
对第一特征向量上下文特征的融合,是将第一特征向量与其在第二特征矩阵中左右相邻的一定数量的第一特征向量进行融合,得到其对应的第二特征向量。应理解,融合后的第二特征向量与其对应的第一特征向量在样本图像中对应同一感受野,可以根据第二特征向量确定其对应的感受野的预测标签,该预测标签中可以包括空白处标签和/或字符标签。而样本图像中可能处在不同感受野对应同一字符,或者存在某一感受野对应空白处等情况,因此可以通过CTC算法对各个感受野的预测标签进行整合转换,最终得到样本图像的字符预测结果。
进一步的,一种可选方式中,在对多个第一特征向量进行上下文特征融合之前,可以对多个第一特征向量进行批量归一化处理,进而在上下文特征融合过程中,对批量归一化处理后的多个第一特征向量进行上下文特征融合。批量归一化处理的过程可以是将同一批数据处理为均值为0、标准差为1的分布,或者处理为数据范围在0-1内的分布,通过归一化操作可以加快了模型训练过程中的收敛速度,提高模型训练的速度,避免了梯度爆炸和过拟合的问题。
进一步的,一种可选方式中,在S203中对样本图像中的像素进行特征加强处理之后,进行上下文特征融合之前,还可以对样本图像进行第二卷积特征的提取,具体可以是根据第二特征矩阵,对特征加强处理后的样本图像进行第二卷积特征的提取,第二卷积特征提取后的第二特征矩阵可以用于确定多个第一特征向量。其中,第二卷积特征可以是特征加强处理后的样本图像的一个或多个维度的卷积特征,比如,第二卷积特征中包括的卷积特征与第一卷积特征中包括的卷积特征不同,或者第二卷积特征中包括的部分卷积特征与第一卷积特征中包括的部分卷积特征相同。
S205,根据样本图像的字符预测结果以及样本图像的标注标签,调节字符识别模型的模型参数。
具体的,可以根据样本图像的字符预测结果和样本图像的标注标签,确定字符识别模型的损失参数,损失函数表示样本图像的字符预测结果与标注标签之间的差异,损失参数的取值越大,表示该差异越大,相应的,在不断缩小损失函数的取值过程中,即可实现模型参数的优化调整。
其中,调节的模型参数可以包括字符识别模型中各个网络层的权重矩阵等。具体实现中,可以通过多个样本图像对字符识别模型参数进行训练,一种实现方式中,可以针对每个样本图像确定对应的模型预测损失参数,通过最小化各个样本图像的模型预测损失参数的过程,实现对模型参数的调节。另一种实现方式中,可以将各个样本图像的模型预测损失参数相加得到总损失参数,通过最小化该总损失参数实现对模型参数的调节。
损失参数确定之后,可以采用梯度下降方法不断最小化损失函数的取值,比如可以使用adadelta梯度下降方法,网络可以自动计算每层网络的学习率,实现快速的优化收敛。
下面结合CRNN模型结构介绍本申请实施例中进行训练的字符识别模型,并结合该模型介绍本申请实施例中步骤S201-S204的实现。
其中,步骤S201中对样本图像进行第一卷积特征的提取可以是通过CRNN模型中的卷积层实现,CRNN模型中的卷积层可以包括多层卷积网络,第一卷积特征的提取也可以通过卷积层中靠近输入端的部分卷积网络实现。
步骤S202中对样本图像中字符像素和空白处像素的识别,以及步骤S203中对像素的特征加强处理,可以是通过CRNN模型中的特征加强层实现,第一种可选方式中,该特征加强层可以是连接于CRNN模型中卷积层和循环层之间,第二种可选方式中,该特征加强层也可以设于CRNN模型的卷积层中某两层卷积网络之间。特征加强层可以通过一层或多层卷积网络实现,不同卷积网络的卷积核可以作为滤波器,实现对像素在目标特征的滤波增强。
比如,在上述第一种可选方式中,如图1中的CNN层可以提取样本图像的第一卷积特征,第一卷积特征中包含目标特征,可以在如图1所示的网络模型中CNN层和RNN层增加特征加强层,对提取到的目标特征进行特征加强处理,然后将特征加强处理后的目标特征以及第一卷积特征中的其他卷积特征,输入RNN层。
又如,在上述第二种可选方式中,如图1的CNN层包括靠近输入端的一定数量层次的第一卷积网络,以及靠近输出端的一定数量层次的第二卷积网络,第一卷积网络可以提取样本图像的第一卷积特征,第一卷积特征包括目标特征,可以在CNN层内部,也就是第一卷积网络和第二卷积网络之间增加特征加强层,对提取到的目标特征进行特征加强处理,然后将特征加强处理后的样本图像继续输入第二卷积网络进行第二卷积特征的提取,进而将第二卷积特征提取后得到的所有特征输入RNN层。
步骤S204中根据第二特征矩阵确定样本图像的字符预测结果可以通过CRNN模型中的循环层和转录层实现。
进一步的,在CRNN模型的循环层之前还可以连接批量归一化层(batchnormalization layer,BN层),实现对多个第一特征向量的批量归一化处理。比如可以在上述第一种可选方式的示例中,还可以在特征增强层与RNN层之间增加BN层,又如,在上述第二种可选方式的示例中,可以在CNN层与RNN层之间增加BN层。
在可替换的实现中,CNN层(包括提取第一卷积特征的卷积网络和/或提取第二卷积特征的卷积网络)的卷积核的尺寸可以是5*5。此外,特征加强层的卷积核的尺寸也可以是5*5。CNN层和/或特征加强层的卷积核也可以是其他尺寸的卷积核,如6*6的尺寸或7*7的尺寸等等,应理解,卷积核的尺寸越大,能够提取样本图像更大范围的局部特征,有利于模型特征的学习以及预测结果的准确。
进一步的可以参阅图4和图5,图4和图5是本申请实施例提供的字符识别模型的结构示意图,图4和图5中示例性的示出了本申请的两种字符识别模型,结合上述结合CRNN网络结构的介绍,可以理解本申请实施例的方法如何在图4或图5中实现,此处不再详述。
本申请实施例中,在对字符识别模型训练过程中,在对样本图像进行第一卷积特征提取后,通过第一卷积特征中包含的目标特征可以识别样本图像中的字符像素和空白处像素,进而对样本图像中像素的特征加强处理,使样本图像中空白处像素和字符像素各自的目标特征之间差异度增大,可以使得字符识别模型更有针对性地学习空白处像素和字符像素各自的特征,提高模型特征学习的有效性,从而提高字符识别模型的预测准确性和泛化能力。
本申请实施例还提供了一种字符识别方法,参阅图6,图6是本申请实施例提供的一种字符识别方法的流程示意图,如图6所示,该方法可以包括以下步骤S601-S604:
S601,对输入图像进行第一卷积特征的提取,得到第一特征矩阵。
其中,所述第一特征矩阵指示用于区分所述输入图像中字符像素和空白处像素的目标特征。
S602,根据所述第一特征矩阵识别所述输入图像中的字符像素和空白处像素。
S603,对所述输入图像中的像素进行特征加强处理,得到第二特征矩阵,以使第一差异度小于第二差异度。
其中,所述第一差异度是所述第一特征矩阵所指示的所述输入图像中字符像素和空白处像素各自的所述目标特征之间的差异度,所述第二差异度是所述第二特征矩阵所指示的所述输入图像中字符像素和空白处像素各自的所述目标特征之间的差异度。
S604,根据所述第二特征矩阵确定所述输入图像的字符预测结果。
可选的,目标特征包括所述字符像素对应的第一特征状态和所述空白处像素对应的第二特征状态;
所述对所述输入图像中的像素进行特征加强处理包括:
针对所述字符像素的目标特征进行所述第一特征状态的加强处理,和/或,针对所述空白处像素的目标特征进行所述第二特征状态的加强处理。
可选的,根据所述第二特征矩阵确定所述输入图像的字符预测结果包括:
对多个第一特征向量进行上下文特征融合,得到所述多个第一特征向量各自对应的第二特征向量,所述多个第一特征向量时候根据所述第二特征矩阵确定的;
根据各个所述第二特征向量确定所述输入图像的字符预测结果。
可选的,所述对所述多个第一特征向量进行上下文特征融合之前,还包括:
对所述多个第一特征向量进行批量归一化处理;
所述对所述多个第一特征向量进行上下文特征融合包括:
对批量归一化处理后的所述多个第一特征向量进行上下文特征融合。
可选的,所述对多个第一特征向量进行上下文特征融合之前,还包括:
根据所述第二特征矩阵,对特征加强处理后的所述输入图像进行第二卷积特征提取;
所述多个第一特征向量是根据所述第二卷积特征提取后的第二特征矩阵确定的。
本申请中各个步骤中针对输入图像及其相关数据进行处理的实现方式,可以参阅图2对应的实施例中,针对输入图像及其相关数据进行处理的实现方式,此处不再赘述。
本申请实施例中,通过对输入图像中空白处像素和字符像素各自的目标特征之间差异度增大,在进行字符预测时可以更准确地区分空白处像素和字符像素,从而可以提高字符预测的准确性。
本申请实施例还提供了一种字符识别模型训练装置,参阅图7,图7是本申请实施例提供的一种字符识别模型训练装置的结构示意图,如图7所示,所述字符识别模型训练装置70至少可以包括以下特征提取单元701、像素识别单元702、特征加强单元703、分类单元704以及参数调节单元705。其中:
特征提取单元701,用于对样本图像进行第一卷积特征的提取,得到第一特征矩阵,所述第一特征矩阵指示用于区分所述样本图像中字符像素和空白处像素的目标特征;
像素识别单元702,用于根据所述第一特征矩阵识别所述样本图像中的字符像素和空白处像素;
特征加强单元703,用于对所述样本图像中的像素进行特征加强处理,得到第二特征矩阵,以使第一差异度小于第二差异度,所述第一差异度是所述第一特征矩阵所指示的所述样本图像中字符像素和空白处像素各自的所述目标特征之间的差异度,所述第二差异度是所述第二特征矩阵所指示的所述样本图像中字符像素和空白处像素各自的所述目标特征之间的差异度;
分类单元704,用于根据所述第二特征矩阵确定所述样本图像的字符预测结果;
参数调节单元705,用于根据所述样本图像的字符预测结果以及所述样本图像的标注标签,调节所述字符识别模型的模型参数。
具体实现中,所述字符识别模型训练装置70可以通过其内置的各个功能模块执行如图2对应的字符识别模型训练方法中的各个步骤,具体实施细节及其有效效果可参阅图2对应的实施例中各个步骤的实现细节及有益效果,此处不再赘述。
应理解,一种方式中,本申请实施例提供的字符识别模型训练方法可以在同一设备中,如同一电脑终端设备中实现,另一种方式中,该方法也可以在多个设备组成的字符识别模型训练系统中实现。可以参阅图8,图8是本申请实施例提供的一种字符识别模型训练系统的系统示意图,如图8所示,该系统中可以包括至少两个第一设备801和一个第二设备802(图8中示例性地示出了两个第一设备801)。
该系统可以用于对字符识别模型进行训练,基于该系统实现本申请图2对应的字符识别模型训练方法,字符识别模型可以包括第一子模型和第二子模型,第一子模型可以接收样本图像,进行处理后输出给第二子模型,各个第一设备801中部署有第一子模型,各个第二设备802中部署有第二子模型,各个第一设备801中第一子模型的初始化的模型参数相同,也就是说,同一样本图像输入至任一第一设备801中均能被进行相同的处理。
第一设备和第二设备可以是均有一定数据处理能力的设备,如电脑、智能手机设备,其中可以包含一个或多个处理器,通过处理器实现数据的处理功能,第一设备与第二设备可以是同一类型的设备,也可以是不同类型的设备。
其中,任意一个第一设备801基于其中部署的第一子模型,用于:
对样本图像进行第一卷积特征的提取,得到第一特征矩阵,所述第一特征矩阵指示用于区分所述样本图像中字符像素和空白处像素的目标特征;
根据所述第一特征矩阵识别所述样本图像中的字符像素和空白处像素;
对所述样本图像中的像素进行特征加强处理,得到第二特征矩阵,以使第一差异度小于第二差异度,所述第一差异度是所述第一特征矩阵中所述字符像素和所述空白处像素之间所述目标特征的差异度,所述第二差异度是所述第二特征矩阵中所述字符像素和所述空白处像素之间所述目标特征的差异度。
第二设备802用于:
基于部署的所述第二子模型,根据所述第二特征矩阵确定所述样本图像的字符预测结果;
根据所述样本图像的字符预测结果以及所述样本图像的标注标签调节所述第一子模型和所述第二子模型的模型参数,其中,对各个所述第一设备801中的第一子模型的模型参数调节均一致。
也就是说,对第二设备在对每个第一设备801执行的模型参数调节动作均一致,比如第一子模型中包括第一参数和第二参数,若模型参数调节中需对第一参数进行增大,对第二参数进行缩小,那么第二设备对各个第一设备的第一子模型中的第一参数均进行增大调节,且增大幅度均相同,对各个第一设备的第一子模型中的第二参数均进行缩小调节,且缩小幅度均相同。
在使用多个样本图像对字符识别模型进行训练的过程中,由于卷积特征提取的过程较为耗时,该系统中,可以通过多台第一设备对多个样本图像,进行并行的卷积特征提取以及特征加强处理,通过一台第二设备进行字符预测结果的确定,可以压缩字符识别模型的优化时间,提高模型训练效率。
参见图9,图9为本申请实施例提供的另一种字符识别模型训练装置的结构示意图,如图所示,所述字符识别模型训练装置90包括:至少一个处理器901,例如CPU,至少一个网络接口904,用户接口903,存储器905,至少一个通信总线902。其中,通信总线902用于实现这些组件之间的连接通信。其中,用户接口903可以包括显示屏(Display)、摄像头(Camera),可选用户接口903还可以包括标准的有线接口、无线接口。网络接口904可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器905可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器905可选的还可以是至少一个位于远离前述处理器901的存储装置。如图9所示,作为一种计算机存储介质的存储器905中可以包括操作系统、网络通信模块、用户接口模块以及终端运动状态的确定应用程序。
在图9所示的字符识别模型训练装置90中,用户接口903主要用于为接收样本图像的接口;而处理器901可以用于调用存储器905中存储的用于字符识别模型训练的应用程序,并具体执行以下操作:
对样本图像进行第一卷积特征的提取,得到第一特征矩阵,所述第一特征矩阵指示用于区分所述样本图像中字符像素和空白处像素的目标特征;
根据所述第一特征矩阵识别所述样本图像中的字符像素和空白处像素;
对所述样本图像中的像素进行特征加强处理,得到第二特征矩阵,以使第一差异度小于第二差异度,所述第一差异度是所述第一特征矩阵所指示的所述样本图像中字符像素和空白处像素各自的所述目标特征之间的差异度,所述第二差异度是所述第二特征矩阵所指示的所述样本图像中字符像素和空白处像素各自的所述目标特征之间的差异度;
根据所述第二特征矩阵确定所述样本图像的字符预测结果;
根据所述样本图像的字符预测结果以及所述样本图像的标注标签,调节所述字符识别模型的模型参数。
需要说明的是,各个操作的实现还可以对应参照图2所示的方法实施例的相应描述;所述处理器901还可以用于执行上述方法实施例中的其他操作。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时使所述计算机执行如前述实施例所述的方法,所述计算机可以为上述提到的字符识别模型训练装置的一部分。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种字符识别模型训练方法,应用于对字符识别模型的训练过程中,其特征在于,包括:
对样本图像进行第一卷积特征的提取,得到第一特征矩阵,所述第一特征矩阵指示用于区分所述样本图像中字符像素和空白处像素的目标特征;
根据所述第一特征矩阵识别所述样本图像中的字符像素和空白处像素;
对所述样本图像中的像素进行特征加强处理,得到第二特征矩阵,以使第一差异度小于第二差异度,所述第一差异度是所述第一特征矩阵所指示的所述样本图像中字符像素和空白处像素各自的所述目标特征之间的差异度,所述第二差异度是所述第二特征矩阵所指示的所述样本图像中字符像素和空白处像素各自的所述目标特征之间的差异度;
根据所述第二特征矩阵确定所述样本图像的字符预测结果;
根据所述样本图像的字符预测结果以及所述样本图像的标注标签,调节所述字符识别模型的模型参数。
2.根据权利要求1所述的方法,其特征在于,所述目标特征包括所述字符像素对应的第一特征状态和所述空白处像素对应的第二特征状态;
所述对所述样本图像中的像素进行特征加强处理包括:
针对所述字符像素的目标特征进行所述第一特征状态的加强处理,和/或,针对所述空白处像素的目标特征进行所述第二特征状态的加强处理。
3.如权利要求1所述的方法,其特征在于,所述样本图像的标注标签包括所述样本图像中字符对应的字符标签和所述样本图像中空白处对应的空白处标签。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述根据所述第二特征矩阵确定所述样本图像的字符预测结果包括:
对多个第一特征向量进行上下文特征融合,得到所述多个第一特征向量各自对应的第二特征向量,所述多个第一特征向量时候根据所述第二特征矩阵确定的;
根据各个所述第二特征向量确定所述样本图像的字符预测结果。
5.根据权利要求4所述的方法,其特征在于,所述对所述多个第一特征向量进行上下文特征融合之前,还包括:
对所述多个第一特征向量进行批量归一化处理;
所述对所述多个第一特征向量进行上下文特征融合包括:
对批量归一化处理后的所述多个第一特征向量进行上下文特征融合。
6.根据权利要求4所述的方法,其特征在于,所述对多个第一特征向量进行上下文特征融合之前,还包括:
根据所述第二特征矩阵,对特征加强处理后的所述样本图像进行第二卷积特征提取;
所述多个第一特征向量是根据所述第二卷积特征提取后的第二特征矩阵确定的。
7.根据权利要求6所述的方法,其特征在于,所述对样本图像进行第一卷积特征的提取包括:
将所述样本图像输出第一卷积网络进行所述第一卷积特征的提取,其中所述第一卷积网络的卷积核尺寸为5*5;
和/或,
所述根据所述第二特征矩阵对特征加强处理后的所述样本图像进行第二卷积特征提取包括:
将所述样本图像输入第二卷积网络进行所述第二卷积特征的提取,其中所述第二卷积网络的卷积核尺寸为5*5。
8.一种字符识别模型训练装置,其特征在于,包括:
特征提取单元,用于对样本图像进行第一卷积特征的提取,得到第一特征矩阵,所述第一特征矩阵指示用于区分所述样本图像中字符像素和空白处像素的目标特征;
像素识别单元,用于根据所述第一特征矩阵识别所述样本图像中的字符像素和空白处像素;
特征加强单元,用于对所述样本图像中的像素进行特征加强处理,得到第二特征矩阵,以使第一差异度小于第二差异度,所述第一差异度是所述第一特征矩阵所指示的所述样本图像中字符像素和空白处像素各自的所述目标特征之间的差异度,所述第二差异度是所述第二特征矩阵所指示的所述样本图像中字符像素和空白处像素各自的所述目标特征之间的差异度;
分类单元,用于根据所述第二特征矩阵确定所述样本图像的字符预测结果;
参数调节单元,用于根据所述样本图像的字符预测结果以及所述样本图像的标注标签,调节所述字符识别模型的模型参数。
9.一种字符识别模型训练系统,用于对字符识别模型进行训练,其特征在于,所述字符识别模型包括第一子模型和第二子模型,所述系统包括至少两个部署有所述第一子模型的第一设备和一个部署有所述第二子模型的第二设备;各个所述第一设备中所述第一子模型的初始化的模型参数相同;
任意一个所述第一设备基于部署的所述第一子模型,用于:
对样本图像进行第一卷积特征的提取,得到第一特征矩阵,所述第一特征矩阵指示用于区分所述样本图像中字符像素和空白处像素的目标特征;
根据所述第一特征矩阵识别所述样本图像中的字符像素和空白处像素;
对所述样本图像中的像素进行特征加强处理,得到第二特征矩阵,以使第一差异度小于第二差异度,所述第一差异度是所述第一特征矩阵中所述字符像素和所述空白处像素之间所述目标特征的差异度,所述第二差异度是所述第二特征矩阵中所述字符像素和所述空白处像素之间所述目标特征的差异度;
所述第二设备用于:
基于部署的所述第二子模型,根据所述第二特征矩阵确定所述样本图像的字符预测结果;
根据所述样本图像的字符预测结果以及所述样本图像的标注标签调节所述第一子模型和所述第二子模型的模型参数,其中,对各个所述第一设备中第一子模型的模型参数调节均一致。
10.一种字符识别方法,用于预测输入图像的字符预测结果,其特征在于,所述方法包括:
对输入图像进行第一卷积特征的提取,得到第一特征矩阵,所述第一特征矩阵指示用于区分所述输入图像中字符像素和空白处像素的目标特征;
根据所述第一特征矩阵识别所述输入图像中的字符像素和空白处像素;
对所述输入图像中的像素进行特征加强处理,得到第二特征矩阵,以使第一差异度小于第二差异度,所述第一差异度是所述第一特征矩阵所指示的所述输入图像中字符像素和空白处像素各自的所述目标特征之间的差异度,所述第二差异度是所述第二特征矩阵所指示的所述输入图像中字符像素和空白处像素各自的所述目标特征之间的差异度;
根据所述第二特征矩阵确定所述输入图像的字符预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110385919.7A CN113052176A (zh) | 2021-04-09 | 2021-04-09 | 一种字符识别模型训练方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110385919.7A CN113052176A (zh) | 2021-04-09 | 2021-04-09 | 一种字符识别模型训练方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113052176A true CN113052176A (zh) | 2021-06-29 |
Family
ID=76519411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110385919.7A Pending CN113052176A (zh) | 2021-04-09 | 2021-04-09 | 一种字符识别模型训练方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113052176A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114677700A (zh) * | 2022-04-11 | 2022-06-28 | 腾讯科技(深圳)有限公司 | 身份标识的识别方法和装置、存储介质及电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203982A (zh) * | 2017-06-26 | 2017-09-26 | 郑州云海信息技术有限公司 | 一种图像处理方法及装置 |
CN108573254A (zh) * | 2017-03-13 | 2018-09-25 | 北京君正集成电路股份有限公司 | 车牌字符灰度图的生成方法 |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
CN110321755A (zh) * | 2018-03-28 | 2019-10-11 | 中移(苏州)软件技术有限公司 | 一种识别方法及装置 |
CN110490204A (zh) * | 2019-07-11 | 2019-11-22 | 深圳怡化电脑股份有限公司 | 图像处理方法、图像处理装置及终端 |
CN111428750A (zh) * | 2020-02-20 | 2020-07-17 | 商汤国际私人有限公司 | 一种文本识别模型训练及文本识别方法、装置及介质 |
CN111461238A (zh) * | 2020-04-03 | 2020-07-28 | 讯飞智元信息科技有限公司 | 模型训练方法、字符识别方法、装置、设备及存储介质 |
US20200242153A1 (en) * | 2019-01-29 | 2020-07-30 | Samsung Electronics Co., Ltd. | Method, apparatus, electronic device and computer readable storage medium for image searching |
CN111899202A (zh) * | 2020-05-19 | 2020-11-06 | 武汉东智科技股份有限公司 | 一种视频图像中叠加时间字符的增强方法 |
CN112418209A (zh) * | 2020-12-15 | 2021-02-26 | 润联软件系统(深圳)有限公司 | 文字识别方法、装置、计算机设备及存储介质 |
-
2021
- 2021-04-09 CN CN202110385919.7A patent/CN113052176A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573254A (zh) * | 2017-03-13 | 2018-09-25 | 北京君正集成电路股份有限公司 | 车牌字符灰度图的生成方法 |
CN107203982A (zh) * | 2017-06-26 | 2017-09-26 | 郑州云海信息技术有限公司 | 一种图像处理方法及装置 |
CN110321755A (zh) * | 2018-03-28 | 2019-10-11 | 中移(苏州)软件技术有限公司 | 一种识别方法及装置 |
US20200242153A1 (en) * | 2019-01-29 | 2020-07-30 | Samsung Electronics Co., Ltd. | Method, apparatus, electronic device and computer readable storage medium for image searching |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
CN110490204A (zh) * | 2019-07-11 | 2019-11-22 | 深圳怡化电脑股份有限公司 | 图像处理方法、图像处理装置及终端 |
CN111428750A (zh) * | 2020-02-20 | 2020-07-17 | 商汤国际私人有限公司 | 一种文本识别模型训练及文本识别方法、装置及介质 |
CN111461238A (zh) * | 2020-04-03 | 2020-07-28 | 讯飞智元信息科技有限公司 | 模型训练方法、字符识别方法、装置、设备及存储介质 |
CN111899202A (zh) * | 2020-05-19 | 2020-11-06 | 武汉东智科技股份有限公司 | 一种视频图像中叠加时间字符的增强方法 |
CN112418209A (zh) * | 2020-12-15 | 2021-02-26 | 润联软件系统(深圳)有限公司 | 文字识别方法、装置、计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
YONGQIANG MOU等: "PlugNet: Degradation Aware Scene Text Recognition Supervised by a Pluggable Super-Resolution Unit", 《ECCV 2020》, 16 November 2020 (2020-11-16), pages 158 - 174 * |
王慧: "基于模板匹配的手写体字符识别算法研究", 《 中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 2012, 15 October 2012 (2012-10-15), pages 138 - 2513 * |
赵佳: "基于字符增强的命名实体识别方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 2021, 15 March 2021 (2021-03-15), pages 138 - 831 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114677700A (zh) * | 2022-04-11 | 2022-06-28 | 腾讯科技(深圳)有限公司 | 身份标识的识别方法和装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109840531B (zh) | 训练多标签分类模型的方法和装置 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN111126115B (zh) | 暴力分拣行为识别方法和装置 | |
US8103058B2 (en) | Detecting and tracking objects in digital images | |
CN111428556B (zh) | 一种基于胶囊神经网络的交通标志识别方法 | |
CN107292307B (zh) | 一种倒置汉字验证码自动识别方法及系统 | |
CN114155527A (zh) | 一种场景文本识别方法和装置 | |
CN113822951B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110866900A (zh) | 水体颜色识别方法及装置 | |
CN112257526A (zh) | 一种基于特征交互学习的动作识别方法及终端设备 | |
CN114724145A (zh) | 一种字符图像识别方法、装置、设备及介质 | |
CN115482529A (zh) | 近景色水果图像识别方法、设备、存储介质及装置 | |
CN111814562A (zh) | 车辆的识别方法、车辆识别模型的训练方法及相关装置 | |
CN115187456A (zh) | 基于图像强化处理的文本识别方法、装置、设备及介质 | |
TW202319959A (zh) | 影像辨識系統及其訓練方法 | |
CN113052176A (zh) | 一种字符识别模型训练方法、装置及系统 | |
CN111242114A (zh) | 文字识别方法及装置 | |
CN114155540B (zh) | 基于深度学习的文字识别方法、装置、设备及存储介质 | |
CN110610177A (zh) | 字符识别模型的训练方法、字符识别方法及装置 | |
CN113642353B (zh) | 一种人脸检测模型的训练方法、存储介质及终端设备 | |
CN111754459B (zh) | 基于统计深度特征的染色伪造图像检测方法及电子装置 | |
CN114926829A (zh) | 一种证件检测方法、装置、电子设备及存储介质 | |
CN114511877A (zh) | 一种行为识别方法、装置、存储介质及终端 | |
CN113033427A (zh) | 一种基于dl的车底异物自动识别方法 | |
US11928872B2 (en) | Methods and apparatuses for recognizing text, recognition devices and storage media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211019 Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.) Applicant after: Shenzhen saiante Technology Service Co.,Ltd. Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000 Applicant before: Ping An International Smart City Technology Co.,Ltd. |