CN113642477A - 一种字符识别方法、装置、设备及可读存储介质 - Google Patents
一种字符识别方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN113642477A CN113642477A CN202110942584.4A CN202110942584A CN113642477A CN 113642477 A CN113642477 A CN 113642477A CN 202110942584 A CN202110942584 A CN 202110942584A CN 113642477 A CN113642477 A CN 113642477A
- Authority
- CN
- China
- Prior art keywords
- character recognition
- dense
- features
- lightweight
- blocks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000008878 coupling Effects 0.000 claims abstract description 32
- 238000010168 coupling process Methods 0.000 claims abstract description 32
- 238000005859 coupling reaction Methods 0.000 claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 230000006835 compression Effects 0.000 claims abstract description 20
- 238000007906 compression Methods 0.000 claims abstract description 20
- 238000013518 transcription Methods 0.000 claims abstract description 13
- 230000035897 transcription Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000007704 transition Effects 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000013527 convolutional neural network Methods 0.000 description 22
- 238000006073 displacement reaction Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 210000005036 nerve Anatomy 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
Abstract
本申请公开了一种字符识别方法、装置、设备及可读存储介质,该方法包括:采集原始字符图像,生成训练样本;构建字符识别模型;该模型包括用于利用轻量级密集块提取特征的压缩密集神经网络、用于对提取到的特征进行耦合处理的耦合压缩密集特征流卷积网络,以及用于对处理后的特征进行预测,并将预测结果转换为文字输出的转录模块;轻量级密集块为同时使用求和操作和串联操作将每个密集块中的内部特征组合在一起的卷积块;采用训练样本对该模型进行训练;将待处理字符图像输入至训练完成的模型进行处理,输出字符识别结果。这样利用轻量级密集块可以捕获到深层次的结构特征用于字符识别,进而减少计算成本和权重大小,有效提升字符的识别能力。
Description
技术领域
本发明涉及图像识别技术领域,特别是涉及一种字符识别方法、装置、设备及可读存储介质。
背景技术
文本和图像是计算机视觉领域中最流行的两种视觉数据,在实践中,通常总是将文本嵌入图像中,因此,如何通过学习算法准确地检测和识别图像中的文本或字符仍然是具有挑战性的,并且是视觉和模式识别领域中的重要课题,例如光学字符识别(OpticalCharacter Recognition,OCR)。由于背景复杂且图像内容复杂,因此OCR仍然是一项非常具有挑战性的任务。
对于OCR,两个关键的子任务是文本行提取和文本行识别:第一个任务是提取图像中文本的区域,第二个任务是识别已提取区域的文本内容。为了处理OCR,目前有两个主流框架:第一个是训练一个端到端网络,该网络可以共同解决文本行提取和识别的任务,例如任意方向网络,虽然统一网络模型的适应性较强和速度较快,但字符识别结果准确率略低;另一种流行的方案是两阶段方案,即为两个子任务训练两个网络,例如卷积递归神经网络(Convolutional Recurrent Neural Network,CRNN),虽然两阶段模型通常具有较高的字符识别准确性,但效率较低,计算成本高,计算量大,同时需要更多的空间去保存权重,从而限制了密集块的深度。
发明内容
有鉴于此,本发明的目的在于提供一种字符识别方法、装置、设备及可读存储介质,可以减少计算成本和权重大小,有效提升字符识别能力。其具体方案如下:
一种字符识别方法,包括:
采集原始字符图像,生成训练样本;
构建字符识别模型;所述字符识别模型包括用于利用轻量级密集块提取特征的压缩密集神经网络、用于对提取到的特征进行耦合处理的耦合压缩密集特征流卷积网络,以及用于对处理后的特征进行预测,并将预测结果转换为文字输出的转录模块;所述轻量级密集块为同时使用求和操作和串联操作将每个密集块中的内部特征组合在一起的卷积块;
采用所述训练样本对构建的所述字符识别模型进行训练;
将待处理字符图像输入至训练完成的所述字符识别模型进行处理,输出字符识别结果。
优选地,在本发明实施例提供的上述字符识别方法中,所述压缩密集神经网络包括用于对输入图像进行卷积和下采样并输出密集特征的编码模块;
所述编码模块包括一个卷积层、三个所述轻量级密集块和两个过渡层。
优选地,在本发明实施例提供的上述字符识别方法中,所述压缩密集神经网络还包括用于对所述密集特征进行优化处理并输出上采样特征的上采样模块;所述上采样模块使用反卷积构造而成;
所述上采样模块包括上采样操作、两个所述轻量级密集块、一个过渡层和一个卷积层。
优选地,在本发明实施例提供的上述字符识别方法中,所述压缩密集神经网络采用深度可分离卷积进行卷积操作。
优选地,在本发明实施例提供的上述字符识别方法中,所述耦合压缩密集特征流卷积网络包括用于增强所述轻量级密集块中不同层之间的特征流和耦合的耦合轻量级密集块;
所述耦合轻量级密集块包括三个卷积层、两个所述轻量级密集块和一个过渡层;
第一个所述轻量级密集块与第二个卷积层通过串联短连接;
第二个所述轻量级密集块与第三个卷积层通过串联短连接。
优选地,在本发明实施例提供的上述字符识别方法中,所述耦合压缩密集特征流卷积网络包括两个所述耦合轻量级密集块;
第一个所述耦合轻量级密集块中的过渡层作为第二个所述耦合轻量级密集块中的第一个卷积层。
优选地,在本发明实施例提供的上述字符识别方法中,所述对处理后的特征进行预测,包括:
将处理后的特征输入softmax分类器进行字符预测,得到预测结果。
本发明实施例还提供了一种字符识别装置,包括:
图像采集模块,用于采集原始字符图像,生成训练样本;
模型构建模块,用于构建字符识别模型;所述字符识别模型包括用于利用轻量级密集块提取特征的压缩密集神经网络、用于对提取到的特征进行耦合处理的耦合压缩密集特征流卷积网络,以及用于对处理后的特征进行预测,并将预测结果转换为文字输出的转录模块;所述轻量级密集块为同时使用求和操作和串联操作将每个密集块中的内部特征组合在一起的卷积块;
模型训练模块,用于采用所述训练样本对构建的所述字符识别模型进行训练;
字符识别模块,用于将待处理字符图像输入至训练完成的所述字符识别模型进行处理,输出字符识别结果。
本发明实施例还提供了一种字符识别设备,包括处理器和存储器,其中,所述处理器执行所述存储器中存储的计算机程序时实现如本发明实施例提供的上述字符识别方法。
本发明实施例还提供了一种计算机可读存储介质,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如本发明实施例提供的上述字符识别方法。
从上述技术方案可以看出,本发明所提供的一种字符识别方法,包括:采集原始字符图像,生成训练样本;构建字符识别模型;字符识别模型包括用于利用轻量级密集块提取特征的压缩密集神经网络、用于对提取到的特征进行耦合处理的耦合压缩密集特征流卷积网络,以及用于对处理后的特征进行预测,并将预测结果转换为文字输出的转录模块;轻量级密集块为同时使用求和操作和串联操作将每个密集块中的内部特征组合在一起的卷积块;采用训练样本对构建的字符识别模型进行训练;将待处理字符图像输入至训练完成的字符识别模型进行处理,输出字符识别结果。
本发明通过两种深度网络和转录模块来构建字符识别模型,主要利用轻量级密集块捕获到深层次的结构特征用于字符识别,由于轻量级密集块同时使用了求和和串联操作以连接每个密集块中的内部特征,可以减少计算成本和权重大小,有效提升字符的识别能力。此外,本发明还针对字符识别方法提供了相应的装置、设备及计算机可读存储介质,进一步使得上述方法更具有实用性,该装置、设备及计算机可读存储介质具有相应的优点。
附图说明
为了更清楚地说明本发明实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的字符识别方法的流程图;
图2为本发明实施例提供的字符识别预测示意图;
图3为本发明实施例提供的字符识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种字符识别方法,如图1所示,包括以下步骤:
S101、采集原始字符图像,生成训练样本;
在实际应用中,将采集的原始字符图像可以划分为训练样本和测试样本,其中训练样本主要用于训练神经网络,测试样本主要被用于评价训练完成的网络模型的字符识别性能。此外,进行必要的模型参数初始化等。
S102、构建字符识别模型;字符识别模型包括用于利用轻量级密集块提取特征的压缩密集神经网络(CDenseNets)、用于对提取到的特征进行耦合处理的耦合压缩密集特征流卷积网络(CD-FeatFlowNet),以及用于对处理后的特征进行预测,并将预测结果转换为文字输出的转录模块;轻量级密集块为同时使用求和操作和串联操作将每个密集块中的内部特征组合在一起的卷积块;
需要说明的是,本发明设计了在密集块中结合内部特征的方式,以通过权重压缩实现更有效的块。与原始的密集块相比,轻量级密集块同时使用了求和和串联操作以连接每个密集块中的内部特征,这可以将计算成本和权重大小减少到(1/L,2/L),其中L是块中内部层的数量。轻量级密集块在减小权重大小的同时,还保留了模型的字符识别能力。压缩密集神经网络和耦合压缩密集特征流卷积网络是两种具有不同架构的轻量级字符识别网络。
S103、采用训练样本对构建的字符识别模型进行训练;
S104、将待处理字符图像输入至训练完成的字符识别模型进行处理,输出字符识别结果。
在本发明实施例提供的上述字符识别方法中,通过两种深度网络和转录模块来构建字符识别模型,主要利用轻量级密集块捕获到深层次的结构特征用于字符识别,由于轻量级密集块同时使用了求和和串联操作以连接每个密集块中的内部特征,可以减少计算成本和权重大小,有效提升字符的识别能力。
可以理解的是,本发明可以使用残差块中的求和运算和密集块中的级联运算来提高特征表示能力,同时减少计算量,减小模型大小。但是,现有的残差密集块主要通过使用求和运算来定义密集块外部的残差来提高特征表示能力,而本发明设计的轻量级密集块主要使用求和运算来改变密集块内部的特征融合模式,从而降低了计算成本,使密集块的权重大小可以明显减小。具体而言,轻量级密集块是通过重新定义和设计将密集块的内部特征组合在一起的方式而提出的。通常,输入特征的通道数多于密集块中的内层。因此,本发明通过使用求和运算来组合特征,而不是对所有密集块的内部层(输入和输出层除外)进行级联,以减少计算成本和权重大小。这样可以充分利用所有图层的特征信息,还可以确保特征图与密集块具有相同的大小和相同的通道数。轻量级密集块将适用于可以使用原始密集块的任何深度网络。
进一步地,在具体实施时,在本发明实施例提供的上述字符识别方法中,压缩密集神经网络可以包括用于对输入图像进行卷积和下采样并输出密集特征的编码模块。具体地,编码模块可以包括一个卷积层、三个轻量级密集块和两个过渡层。第一卷积层主要用于提取浅层特征,并且在遇到大尺寸特征时还起到下采样的作用。值得注意的是,该模块主要对输入图像进行卷积和下采样,并输出密集特征的功能。
由于传统的卷积神经网络(Convolutional Neural Networks,CNN)通常通过堆叠更多的卷积和下采样层来扩展网络的深度,但是不能减少堆叠特征的大小,下采样层也可能会导致有用的特征信息丢失,因此,为了弥补这些缺陷,恢复特征信息并扩展网络深度,以提供更深的功能,较佳地,压缩密集神经网络还可以包括用于对密集特征进行优化处理并输出上采样特征的上采样模块,带有上采样模块的压缩密集神经网络可称为CDenseNet-U。使用该上采样模块可以恢复在编码过程中丢失的信息,以及充分使用不同层的特征信息。上采样模块可以使用多个轻量级密集块和反卷积运算来定义以进行上采样,即在原始图像像素的基础上,本发明使用反卷积构造上采样模块。请注意,对于卷积神经网络的研究,反卷积通常是指卷积运算的逆过程。与卷积相似,解卷积也涉及乘法和加法运算。此外,反卷积可用于将卷积特征向上采样以达到原始图像的分辨率。
为了避免重要特征信息的丢失并(在过渡层中)使CDenseNets整个框架的参数易于学习,本发明可以使用步长为2的卷积运算来代替池化运算。此外,为了提高CDenseNet-U的模型效率,本发明采用深度可分离卷积来代替原始卷积进行卷积操作。
在本发明中,设计了两个不同的卷积运算组以获得更好的压缩效果:一个是包括BN,ReLU和深度可分离卷积的运算组;另一个是基于前一个卷积组,通过添加一个内核大小为1*1的卷积和一个比例因子t来减少输入通道。需要注意的是,具有1*1卷积的卷积单元部署在轻量级密集块的第一层,过渡层和第二个卷积层中,因为这些层的输入特征通常具有大量通道。
具体地,上采样模块可以包括上采样操作、两个轻量级密集块、一个过渡层和一个卷积层。该模块最重要的部分是上采样操作,良好的上采样方式可以有效地恢复丢失的特征信息,该信息在图像恢复中得到了广泛的应用。
进一步地,在具体实施时,在本发明实施例提供的上述字符识别方法中,耦合压缩密集特征流卷积网络可以包括用于增强轻量级密集块中不同层之间的特征流和耦合的耦合轻量级密集块(C-LDB),以充分利用来自不同层的特征信息,增强全局特征。
需要说明的是,DenseNet具有良好的内部特征流动性和耦合性,但是由于DenseNet中原始的密集块和过渡块只是简单地堆叠在一起,因此无法充分利用不同层的分层信息。为了增强功能流和不同层之间的耦合,该耦合轻量级密集块可以由轻量级密集块和多个短连接来构建。
具体地,耦合压缩密集特征流卷积网络具有两个耦合轻量级密集块(即C-LDB1和C-LDB2)和一个LDB,下面将对其进行介绍。需要注意的是,具有1*1卷积的卷积单元也部署在轻量级密集块的第一层,过渡层和卷积层中,因为这些层的输入特征通常具有大量通道。
耦合轻量级密集块可以包括三个卷积层,两个轻量级密集块和一个过渡层。由于C-LDB1和C-LDB2的结构在本质上相似,因此以C-LDB1为例,并介绍C-LDB1和C-LDB2之间的区别。具体地说,C-LDB1中的过渡层也起着与C-LDB2中的第一个卷积层类似的作用,这种设置的优点将在后面介绍。第一个卷积层仍用于提取浅层特征,并在遇到大尺寸特征时起到下采样的作用,而“过渡层”可以提取深层特征和下采样特征。第一、二个轻量级密集块和第二个卷积层用于提取轻量级密集块的级密集特征。我们使用短连接通过串联来增强第一个轻量级密集块和第二个卷积层的功能,以增强功能流和两层之间的耦合。然后,我们使用第三个卷积层对轻量级密集特征进行卷积以进一步提取特征。同样,出于相同的目的,我们还连接了第二个轻量级密集块和第三个卷积层。最后,使用“过渡层”对组合特征进行下采样并计算深度特征。通过这种方式,可以充分利用第一个C-LDB中获得的内部功能。类似地,第二个C-LDB实现相同的操作。第五个轻量级密集块用于扩展网络的深度并学习深层功能,作为softmax函数的输入。
如上所述,本发明可以通过两个短连接充分利用C-LDB中不同层的分层信息。因此,可以改善内部局部特征信息的流动和耦合。值得注意的是,本发明还将第一个C-LDB中的“过渡层”作为第二个C-LDB中的第一卷积层。因此,明确连接了相邻的C-LDB,这样也可以增强整个框架的全局特征信息的流动和融合。由于本发明利用卷积和级联运算来构造不同层中的分层特征的快捷方式,因此耦合压缩密集特征流卷积网络可以充分挖掘并利用具有不同接受能力的特征。
进一步地,在具体实施时,在本发明实施例提供的上述字符识别方法中,步骤S102对处理后的特征进行预测,可以包括:将处理后的特征输入softmax分类器进行字符预测,得到预测结果。具体地,转录模块主要用于将每个帧的预测转换为最终的标签序列,其中包括softmax和CTC(Connectionist Temporal Classification)的操作。softmax函数用于从卷积部分输出学习到的特征的预测,而CTC可以将预测转换为最终的标签序列。在字符识别模型中,CTC需要输入包含文本的图像的每一列的数据作为序列,并输出相应的字符。
下面以一个具体实施对本发明实施例提供的上述字符识别方法进行详细说明:
采集三个图像的数据集,其中包含两个手写体图像数据集和一个字符串图像数据集上进行了测试:手写体图像数据集有:HASY、MNIST;字符串图像数据集有the syntheticChinese string dataset。MNIST是一种广泛使用的手写数字数据集,其目标是将28×28像素的图像分类为10个数字类别之一。MNIST数据集具有60,000个训练样本和10,000个测试样本。HASY是一个包含单个符号的公共数据集,但更具挑战性,因为HASY中的类数比MNIST中的类数更多,并且HASY中有许多类似的类,具体而言,它具有168,233个实例和369个类。the synthetic Chinese string dataset数据集由中文语料库生成,包括新闻和古典中文,并通过更改字体,大小,灰度,模糊,透视图和拉伸来生成该词典大约有5990个字符,包括中文,标点符号,英语和数字。每个样本固定为10个字符,并且从语料库中随机截取字符。图片的分辨率统一为280×32,总共有360万张图像。这些数据库从多方面收集,因而测试结果具有普遍说明性。
本发明提供的上述字符识别方法主要与随机森林(Random Forest),多层感知机(MLP),线性判别分析(LDA),三层卷积神经网络(CNN-3),四层卷积神经网络(CNN-4),四层卷积神经网络(CNN-4A),带有移位特征的三层卷积神经网络(CNN-3+displacementfeatures),带有移位特征的四层卷积神经网络(CNN-4+displacement features),带有移位特征的四层卷积神经网络(CNN-4A+displacement features)识别结果对比,对比结果见表一至表三。
表一、本发明和各个算法基于MNIST数据集字符识别对比结果
Evaluated Frameworks | Accuracy(%) |
Deep L2-SVM | 99.13% |
Maxout Network | 99.06% |
BinaryConnect | 98.71% |
PCANet-1 | 99.38% |
gcForest | 99.26% |
Simple CNN with BaikalCMA loss | 99.47% |
CDenseNet-U(ours) | 99.64% |
CD-FeatFlowNet(ours) | 99.63% |
表二、本发明和各个算法基于HASY数据集字符识别对比结果
Evaluated Frameworks | Accuracy(%) |
Random Forest | 62.4% |
MLP | 62.2% |
LDA | 46.8% |
CNN-3 | 78.4% |
CNN-4 | 80.5% |
CNN-4a | 81.0% |
CNN-3+displacement features | 78.8% |
CNN-4+displacement features | 81.4% |
CNN-4a+displacement features | 82.3% |
CDenseNet-U(ours) | 84.8% |
CD-FeatFlowNet(ours) | 85.0% |
表三、本发明和各个算法基于the synthetic Chinese string dataset数据集的字符识别对比结果
Evaluated Frameworks | Accuracy(%) |
Inception-bn-res-blstm | 92.00% |
ResNet-res-blstm | 91.00% |
DenseNet-res-blstm | 96.50% |
DenseNet-no-blstm | 97.00% |
DenseNet-sum-blstm-full-res-blstm | 98.05% |
DenseNet-no-blstm-vertical-feature | 98.16% |
DenseNet-UB(Bilinear) | 98.89% |
DenseNet-UB(Deconvolution) | 99.27% |
CDenseNet-U(ours) | 99.45% |
CD-FeatFlowNet(ours) | 99.32% |
表一至表三给出了每个算法分别在手写体数据集MNIST,HASY,the syntheticChinese string dataset数据集上的准确率(Accuracy)。通过真实数据集上的实例实验结果显示,本发明可有效用于基于各种类型的数据集的识别,并且可以获得比较好的准确度。
图2示出了本发明实施例公开的一种字符识别预测示意图,最左边为输入图像,最右边为输出文字。通过实验结果可以看出本发明的特征提取及识别效果明显优于相关的随机森林(Random Forest),多层感知机(MLP),线性判别分析(LDA),三层卷积神经网络(CNN-3),四层卷积神经网络(CNN-4),四层卷积神经网络(CNN-4A),带有移位特征的三层卷积神经网络(CNN-3+displacement features),带有移位特征的四层卷积神经网络(CNN-4+displacement features),带有移位特征的四层卷积神经网络(CNN-4A+displacementfeatures),且表现出了较强的稳定性,具有一定的优势。
基于同一发明构思,本发明实施例还提供了一种字符识别装置,由于该装置解决问题的原理与前述一种字符识别方法相似,因此该装置的实施可以参见字符识别方法的实施,重复之处不再赘述。
在具体实施时,本发明实施例提供的字符识别装置,如图3所示,具体包括:
图像采集模块11,用于采集原始字符图像,生成训练样本;
模型构建模块12,用于构建字符识别模型;字符识别模型包括用于利用轻量级密集块提取特征的压缩密集神经网络、用于对提取到的特征进行耦合处理的耦合压缩密集特征流卷积网络,以及用于对处理后的特征进行预测,并将预测结果转换为文字输出的转录模块;轻量级密集块为同时使用求和操作和串联操作将每个密集块中的内部特征组合在一起的卷积块;
模型训练模块13,用于采用训练样本对构建的字符识别模型进行训练;
字符识别模块14,用于将待处理字符图像输入至训练完成的字符识别模型进行处理,输出字符识别结果。
在本发明实施例提供的上述字符识别装置中,可以通过上述四个模块的相互作用,捕获到深层次的结构特征用于字符识别,进而减少计算成本和权重大小,有效提升字符的识别能力。
关于上述各个模块更加具体的工作过程可以参考前述实施例公开的相应内容,在此不再进行赘述。
相应地,本发明实施例还公开了一种字符识别设备,包括处理器和存储器;其中,处理器执行存储器中存储的计算机程序时实现前述实施例公开的字符识别方法。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
进一步地,本发明还公开了一种计算机可读存储介质,用于存储计算机程序;计算机程序被处理器执行时实现前述公开的字符识别方法。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备、存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
综上,本发明实施例提供的一种字符识别方法,包括:采集原始字符图像,生成训练样本;构建字符识别模型;字符识别模型包括用于利用轻量级密集块提取特征的压缩密集神经网络、用于对提取到的特征进行耦合处理的耦合压缩密集特征流卷积网络,以及用于对处理后的特征进行预测,并将预测结果转换为文字输出的转录模块;轻量级密集块为同时使用求和操作和串联操作将每个密集块中的内部特征组合在一起的卷积块;采用训练样本对构建的字符识别模型进行训练;将待处理字符图像输入至训练完成的字符识别模型进行处理,输出字符识别结果。这样通过两种深度网络和转录模块来构建字符识别模型,主要利用轻量级密集块来捕获到深层次的结构特征用于字符识别,由于轻量级密集块同时使用了求和和串联操作以连接每个密集块中的内部特征,可以减少计算成本和权重大小,有效提升字符的识别能力。此外,本发明还针对字符识别方法提供了相应的装置、设备及计算机可读存储介质,进一步使得上述方法更具有实用性,该装置、设备及计算机可读存储介质具有相应的优点。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的字符识别方法、装置、设备及可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种字符识别方法,其特征在于,包括:
采集原始字符图像,生成训练样本;
构建字符识别模型;所述字符识别模型包括用于利用轻量级密集块提取特征的压缩密集神经网络、用于对提取到的特征进行耦合处理的耦合压缩密集特征流卷积网络,以及用于对处理后的特征进行预测,并将预测结果转换为文字输出的转录模块;所述轻量级密集块为同时使用求和操作和串联操作将每个密集块中的内部特征组合在一起的卷积块;
采用所述训练样本对构建的所述字符识别模型进行训练;
将待处理字符图像输入至训练完成的所述字符识别模型进行处理,输出字符识别结果。
2.根据权利要求1所述的字符识别方法,其特征在于,所述压缩密集神经网络包括用于对输入图像进行卷积和下采样并输出密集特征的编码模块;
所述编码模块包括一个卷积层、三个所述轻量级密集块和两个过渡层。
3.根据权利要求2所述的字符识别方法,其特征在于,所述压缩密集神经网络还包括用于对所述密集特征进行优化处理并输出上采样特征的上采样模块;所述上采样模块使用反卷积构造而成;
所述上采样模块包括上采样操作、两个所述轻量级密集块、一个过渡层和一个卷积层。
4.根据权利要求3所述的字符识别方法,其特征在于,所述压缩密集神经网络采用深度可分离卷积进行卷积操作。
5.根据权利要求4所述的字符识别方法,其特征在于,所述耦合压缩密集特征流卷积网络包括用于增强所述轻量级密集块中不同层之间的特征流和耦合的耦合轻量级密集块;
所述耦合轻量级密集块包括三个卷积层、两个所述轻量级密集块和一个过渡层;
第一个所述轻量级密集块与第二个卷积层通过串联短连接;
第二个所述轻量级密集块与第三个卷积层通过串联短连接。
6.根据权利要求5所述的字符识别方法,其特征在于,所述耦合压缩密集特征流卷积网络包括两个所述耦合轻量级密集块;
第一个所述耦合轻量级密集块中的过渡层作为第二个所述耦合轻量级密集块中的第一个卷积层。
7.根据权利要求6所述的字符识别方法,其特征在于,所述对处理后的特征进行预测,包括:
将处理后的特征输入softmax分类器进行字符预测,得到预测结果。
8.一种字符识别装置,其特征在于,包括:
图像采集模块,用于采集原始字符图像,生成训练样本;
模型构建模块,用于构建字符识别模型;所述字符识别模型包括用于利用轻量级密集块提取特征的压缩密集神经网络、用于对提取到的特征进行耦合处理的耦合压缩密集特征流卷积网络,以及用于对处理后的特征进行预测,并将预测结果转换为文字输出的转录模块;所述轻量级密集块为同时使用求和操作和串联操作将每个密集块中的内部特征组合在一起的卷积块;
模型训练模块,用于采用所述训练样本对构建的所述字符识别模型进行训练;
字符识别模块,用于将待处理字符图像输入至训练完成的所述字符识别模型进行处理,输出字符识别结果。
9.一种字符识别设备,其特征在于,包括处理器和存储器,其中,所述处理器执行所述存储器中存储的计算机程序时实现如权利要求1至7任一项所述的字符识别方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的字符识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110942584.4A CN113642477A (zh) | 2021-08-17 | 2021-08-17 | 一种字符识别方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110942584.4A CN113642477A (zh) | 2021-08-17 | 2021-08-17 | 一种字符识别方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113642477A true CN113642477A (zh) | 2021-11-12 |
Family
ID=78422393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110942584.4A Pending CN113642477A (zh) | 2021-08-17 | 2021-08-17 | 一种字符识别方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642477A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160327A (zh) * | 2020-04-02 | 2020-05-15 | 北京建筑大学 | 一种基于轻量化卷积神经网络的表情识别方法 |
CN112487996A (zh) * | 2020-12-02 | 2021-03-12 | 重庆邮电大学 | 基于DenseNet121网络的驾驶行为识别方法 |
CN112784840A (zh) * | 2021-02-09 | 2021-05-11 | 熵基科技股份有限公司 | 一种车牌识别方法、装置、设备和介质 |
-
2021
- 2021-08-17 CN CN202110942584.4A patent/CN113642477A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160327A (zh) * | 2020-04-02 | 2020-05-15 | 北京建筑大学 | 一种基于轻量化卷积神经网络的表情识别方法 |
CN112487996A (zh) * | 2020-12-02 | 2021-03-12 | 重庆邮电大学 | 基于DenseNet121网络的驾驶行为识别方法 |
CN112784840A (zh) * | 2021-02-09 | 2021-05-11 | 熵基科技股份有限公司 | 一种车牌识别方法、装置、设备和介质 |
Non-Patent Citations (3)
Title |
---|
FAHIMEH FOOLADGAR ET AL.: ""Lightweight Residual Densely Connected Convolutional Neural Network"", 《ARXIV》, pages 1 - 10 * |
HAOTIAN LIU ET AL.: ""YolactEdge: Real-time Instance Segmentation on the Edge"", 《ARXIV》, pages 1 - 7 * |
ZHAO ZHANG ET AL.: ""Compressed DenseNet for Lightweight Character Recognition"", 《ARXIV》, pages 1 - 11 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2691214C1 (ru) | Распознавание текста с использованием искусственного интеллекта | |
CN110059772B (zh) | 基于多尺度解码网络的遥感图像语义分割方法 | |
CN109726657B (zh) | 一种深度学习场景文本序列识别方法 | |
CN111462126A (zh) | 一种基于边缘增强的语义图像分割方法及系统 | |
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN114758383A (zh) | 基于注意力调制上下文空间信息的表情识别方法 | |
CN113888744A (zh) | 一种基于Transformer视觉上采样模块的图像语义分割方法 | |
CN113569865B (zh) | 一种基于类别原型学习的单样本图像分割方法 | |
CN112991354A (zh) | 一种基于深度学习的高分辨率遥感影像语义分割方法 | |
CN111898439A (zh) | 基于深度学习的交通场景联合目标检测和语义分割方法 | |
CN114140786B (zh) | 基于HRNet编码与双分支解码的场景文本识别方法 | |
CN104463242B (zh) | 基于特征变换和词典学习的多特征动作识别方法 | |
CN113822383B (zh) | 一种基于多域注意力机制的无人机检测方法及系统 | |
Zhou et al. | CEGFNet: Common extraction and gate fusion network for scene parsing of remote sensing images | |
Dang et al. | End-to-end information extraction by character-level embedding and multi-stage attentional u-net | |
CN111914654A (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN115457568A (zh) | 一种基于生成对抗网络的历史文档图像降噪方法及系统 | |
CN114821432A (zh) | 基于离散余弦变换的视频目标分割对抗攻击方法 | |
CN114519383A (zh) | 一种图像目标检测方法及系统 | |
Nascimento et al. | Super-resolution of license plate images using attention modules and sub-pixel convolution layers | |
Wang et al. | Classification of high resolution satellite images using improved U-Net | |
Ren et al. | A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms | |
CN112036290A (zh) | 一种基于类标编码表示的复杂场景文字识别方法及系统 | |
HÜSEM et al. | A survey on image super-resolution with generative adversarial networks | |
CN111753714A (zh) | 基于字符分割的多方向自然场景文本检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |