CN113901925A - 文本识别方法、装置、电子设备及可读存储介质 - Google Patents
文本识别方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113901925A CN113901925A CN202111187941.7A CN202111187941A CN113901925A CN 113901925 A CN113901925 A CN 113901925A CN 202111187941 A CN202111187941 A CN 202111187941A CN 113901925 A CN113901925 A CN 113901925A
- Authority
- CN
- China
- Prior art keywords
- dense
- text recognition
- block
- feature
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000004927 fusion Effects 0.000 claims abstract description 72
- 238000000605 extraction Methods 0.000 claims abstract description 39
- 238000013518 transcription Methods 0.000 claims abstract description 21
- 230000035897 transcription Effects 0.000 claims abstract description 21
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003014 reinforcing effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 210000005266 circulating tumour cell Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种文本识别方法、装置、电子设备及可读存储介质。其中,方法包括预先基于卷积神经网络构建文本识别网络模型;文本识别网络模型包括特征提取层、密集融合块和转录层。密集融合块包括第一密集块、第二密集块和卷积运算层,第一密集块和第二密集块相连,密集融合块用于将特征提取层提取的图像特征、第一密集块输出特征和第二密集块输出特征通过连接操作在不同层进行融合处理;转录层包括分类器和损失函数层。可以有效提高文本识别的准确度和识别效率。将待识别文本数据输入至已经训练好的文本识别网络模型,得到文本识别结果,从而可以有效提高图像数据中的文本识别的准确度和识别效率。
Description
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种文本识别方法、装置、电子设备及可读存储介质。
背景技术
光学字符识别(OCR)是模式识别领域的重要主题,其目的是识别图像中的文本,文本包括字符和数字。尽管OCR已经被广泛研究了几十年,但是由于图像中背景和内容的复杂性,准确地识别自然图像中的文本仍然是一项艰巨的任务。实际上,由于样式,字体,分辨率或照明方式的变化,字符和/或数字在不同的图像中可能具有不同的外观。近年来,随着计算机视觉和深度学习领域的突破,已经开发出端到端文本识别框架,其中包括复杂的两步流水线。第一步是检测图像中文本的区域,第二步是识别已识别区域的文本内容。
可以理解的是,基于主流卷积神经网络CNN的模型通常使用池化作为下采样操作以减小特征的大小。但是,由于池化操作是无法学习的,并且可能会丢失重要信息,导致整个文本识别准确度不高。此外,传统的卷积运算的计算速度也很慢,因此应使用更高效的卷积运算来代替它。另外,尽管DenseNet中的密集块具有良好的移动性和内部特征的耦合性,但是DenseNet中的密集块和过渡块只是简单地堆叠在一起。这样,每个密集块的输出特征未被很好地利用,例如,不同层的分层信息没有被充分利用。
鉴于此,如何提高文本识别的准确度和效率,是所属领域技术人员需要解决的技术问题。
发明内容
本申请提供了一种文本识别方法、装置、电子设备及可读存储介质,有效地提高了文本识别的准确度和识别效率。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例一方面提供了一种文本识别方法,包括:
预先基于卷积神经网络训练文本识别网络模型;所述文本识别网络模型包括特征提取层、密集融合块和转录层;
将待识别文本数据输入至所述文本识别网络模型,得到文本识别结果;
其中,所述密集融合块包括第一密集块、第二密集块和卷积运算层,所述第一密集块和所述第二密集块相连,所述密集融合块用于将所述特征提取层提取的图像特征、所述第一密集块输出特征和所述第二密集块输出特征通过连接操作在不同层进行融合处理;所述转录层包括分类器和损失函数层。
可选的,所述将待识别文本数据输入至所述文本识别网络模型,得到文本识别结果的过程,包括:
根据所述待识别文本数据的占用空间容量确定目标提取方式,并采用所述目标提取方式提取所述待识别文本数据的图像特征;
将所述图像特征输入至所述密集融合块,得到目标图像特征;
将所述目标图像特征输入至所述转录层,以得到所述文本识别结果。
可选的,所述根据待识别文本数据的占用空间容量确定目标提取方式,并目标提取方式提取待识别文本数据的图像特征,包括:
判断所述待识别文本数据的占用空间容量是否大于预设容量阈值;
若所述待识别文本数据的占用空间容量小于预设容量阈值,则提取所述待识别文本数据的浅层图像特征;
若所述待识别文本数据的占用空间容量大于等于预设容量阈值,则通过步长为2的下采样操作提取所述待识别文本数据的图像特征。
可选的,所述将所述图像特征输入至所述密集融合块,得到目标图像特征包括:
将所述图像特征馈入所述第一密集块,得到第一密集特征;
将所述第一密集特征输入至所述第二密集块,根据密集处理关系式从所述第二密集块提取第二密集特征;
对所述第二密集特征、所述图像特征和所述第一密集特征进行密集融合操作,得到所述目标图像特征;
其中,所述密集处理关系式为:
Fd2=Hdense2(Fd1)
=Hconcat(Fd1,Fd11,Fd12,...Fd1c)
=[Fd1,Hconv(Fd1),Hconv(Fd1+Hconv(Fd1)),...Hconv(Fd1+Hconv(Fd1)+...+Hconv(Fd1c-1))];
Fd2为所述第二密集特征,Fd1为所述第一密集特征,Hdense2(·)代表所述第二密集块,Hconcat(·)代表拼接操作,Hconv(·)为卷积操作,Fd1i(i=1,2,...,c)为每一层密集块的内嵌特征,c为密集块的数量,操作[·,...,·]代表通道方向拼接的特征,Fd2的通道数NFd2为为所述第一密集特征的通道数量,g是增长率。
可选的,所述对所述第二密集特征、所述图像特征和所述第一密集特征进行密集融合操作,包括:
调用密集融合关系式执行密集融合操作,所述密集融合关系式为:
FD1
=Htrans(Fc4)
=Htrans(Hconcat(Fc3,F0))
=Htrans(Hconcat(Hconv(Fc2),F0))
=Htrans(Hconcat(Hconv(Hconcat(Fc1,Fd1)),F0))
=Htrans(Hconcat(Hconv(Hconcat(Hconv(Fd2),Fd1)),F0))
=Htrans(Hconcat(Hconv(Hconcat(Hconv(Hconcat(A)),Fd1)),F0))
Htrans(·)为转换块,Fc1为所述第二密集特征进行可分卷积运算操作后所得第一特征,Fc2为所述第一密集特征和所述第一特征进行连接操作所得的第二特征,Fc3为所述第二特征进行可分卷积运算操作后所得第三特征,Fc4为所述第三密集特征和所述图像特征进行连接操作所得的第四特征,F0为所述图像特征,A=(Fd1,Fd11,Fd12,…,Fd1c)为辅助矩阵。
可选的,所述调用密集融合关系式执行密集融合操作之前,还包括:
预先构建用于执行可分卷积运算操作的深度可分卷积模块;所述深度可分卷积模块包括修正线性单元、卷积层和批标准化层。
本发明实施例另一方面提供了一种文本识别装置,包括:
模型训练模块,用于预先基于卷积神经网络训练文本识别网络模型;所述文本识别网络模型包括特征提取层、密集融合块和转录层;所述密集融合块包括第一密集块、第二密集块和卷积运算层,所述第一密集块和所述第二密集块相连,所述密集融合块用于将所述特征提取层提取的图像特征、所述第一密集块输出特征和所述第二密集块输出特征通过连接操作在不同层进行融合处理;所述转录层包括分类器和损失函数层;
文本识别模块,用于将待识别文本数据输入至所述文本识别网络模型,得到文本识别结果。
可选的,所述文本识别模块进一步用于:根据所述待识别文本数据的占用空间容量确定目标提取方式,并采用所述目标提取方式提取所述待识别文本数据的图像特征;将所述图像特征输入至所述密集融合块,得到目标图像特征;将所述目标图像特征输入至所述转录层,以得到所述文本识别结果。
本发明实施例还提供了一种电子设备,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述文本识别方法的步骤。
本发明实施例最后还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前任一项所述文本识别方法的步骤。
本申请提供的技术方案的优点在于,在原始卷积神经网络模型的基础上增加了密集融合块以及进行进一步的融合操作,通过将短连接添加到不同的层,可以充分利用不同层的特征,增强要素流和不同层之间的耦合,增强表示学习能力,进而使得模型在特征学习中获得更高的性能,从而可以有效地提高文本识别的准确度,在整个文本识别过程中,文本识别网络模型结构简单,运算不复杂,文本识别效率高。此外,本发明实施例还针对文本识别方法提供了相应的实现装置、电子设备及可读存储介质,进一步使得所述方法更具有实用性,所述装置、电子设备及可读存储介质具有相应的优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文本识别方法的流程示意图;
图2为本发明实施例提供的文本识别网络模型的一种具体实施方式下的结构示意图;
图3为本发明实施例提供的文本识别网络模型的另一种具体实施方式下的结构示意图;
图4为本发明实施例提供的文本识别装置的一种具体实施方式结构图;
图5为本发明实施例提供的电子设备的一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图1,图1为本发明实施例提供的一种文本识别方法的流程示意图,本发明实施例可包括以下内容:
S101:预先基于卷积神经网络训练文本识别网络模型。
S102:将待识别文本数据输入至文本识别网络模型,得到文本识别结果。
可以理解的是,传统的池化操作可能会丢失重要的特征信息,并且是无法学习的。传统的卷积运算优化缓慢,并且未充分利用来自不同层的分层功能,本实施例提出一种新型深度网络模型也即文本识别网络模型来解决这些问题。本实施例的文本识别网络模型包括特征提取层、密集融合块和转录层;其中,密集融合块包括第一密集块、第二密集块和卷积运算层,第一密集块和第二密集块相连,密集融合块用于将特征提取层提取的图像特征、第一密集块输出特征和第二密集块输出特征通过连接操作在不同层进行融合处理,其用于识别图像中的文本。为了增强要素流和不同层之间的耦合,本实施例的文本识别网络模型包括含有两个密集块的密集融合块,通过特征提取层提取输入数据的输入要素,并将输入要素传入至密集融合模块,从而将输入元素和两个新密集块紧密连接,密集融合块对各特征进行密集融合操作,增强表示学习能力。通过将短连接添加到不同的层,可以充分利用不同层的特征,整个模型会在特征学习中获得更高的性能。结合图2举例来说,该文本识别网络模型可包括密集融合块Dense Fusion block,密集融合块包括两个密集块即denseblock1和dense block2,以提取特征信息,其中原始输入和两个密集块紧密连接。该模型通过密集融合块将短连接添加到不同的图层,增强图层之间的特征流和耦合。如图2所示,特征提取层可由Relu层、卷积层conv层和BN层构成,两个密集块结构相同,包括由Relu层、卷积层conv层和BN层的多个组合结构和一个连接层。
在本实施例中,文本识别网络模型的转录层可包括分类器和损失函数层,转录层可用于将每个帧的预测转换为最终的标记序列。分类器用于输出最后一个密集块的预测,损失函数层在将这些预测转化为最终标签序列中发挥着作用。分类器例如可为soft-max分类器,损失函数层可为CTC(Connectionist Temporal Classification)。CTC可用来衡量输入的序列数据经过神经网络之后,和真实的输出相差有多少。比如输入一个200帧的音频数据,真实的输出是长度为5的结果。经过神经网络处理之后,出来的还是序列长度是200的数据。比如有两个人都说了一句nihao这句话,他们的真实输出结果都是nihao这5个有序的音素,但是因为每个人的发音特点不一样,比如,有的人说的快有的人说的慢,原始的音频数据在经过神经网络计算之后,第一个人得到的结果可能是:nnnniiiiii...hhhhhaaaaaooo(长度是200),第二个人说的话得到的结果可能是:niiiiii...hhhhhaaaaaooo(长度是200)。这两种结果都是属于正确的计算结果,可以想象,长度为200的数据,最后可以对应上nihao这个发音顺序的结果是非常多的。CTC就是用在这种序列有多种可能性的情况下,计算和最后真实序列值的损失值的方法。本实施例提出的网络中,CTC需要输入包含文本作为序列的图片的每一列的数据,并输出相应的字符,得到识别结果。
在本发明实施例提供的技术方案中,在原始卷积神经网络模型的基础上增加了密集融合块以及进行进一步的融合操作,通过将短连接添加到不同的层,可以充分利用不同层的特征,增强要素流和不同层之间的耦合,增强表示学习能力,进而使得模型在特征学习中获得更高的性能,从而可以有效地提高文本识别的准确度,在整个文本识别过程中,文本识别网络模型结构简单,运算不复杂,文本识别效率高。
需要说明的是,本申请中各步骤间没有严格的先后执行顺序,只要符合逻辑上的顺序,则这些步骤可以同时执行,也可按照某种预设顺序执行,图1只是一种示意方式,并不代表只能是这样的执行顺序。
为了进一步提高文本识别网络模型的网络性能,文本识别网络模型可包括一个特征提取层、多个密集融合模块和一个转录层,下面以2个密集融合模块为例阐述文本识别网络模型的工作流程,如图3所示,可包括下述内容:
先利用文本识别网络模型的特征提取层提取待识别文本数据的图像特征,该层从输入中提取特征可表示为F0:
F0=HConv1(input)
=HBN(w·HRELU(input)+b)
其中,HConv1(·)为可分卷积运算,HBN(·)为批归一化操作,w和b分别为卷积操作的权重和偏置,HRELU(·)为ReLU(Rectified Liner Units)操作。本实施例所有的可分卷积运算都是指由ReLU、深度可分卷积和BN(batch-normalization,批标准化)组成的运算组,且三个的运算顺序如附图3所示。当特征通过第一密集块时,可以获得高流动性特征FD1,其可表示为:
FD1=HFDB1(F0)
其中,HFDB1(·)为第一个密集融合模块Intensive Block1的操作,FD1包含Intensive Block1的最终特征,它经历了密集融合块运算以及一些卷积和合并操作。同样,然后将FD1送入第二个密集融合块Intensive Block2。便可以在Intensive Block2之后获得特征FD2:
FD2=HFDB2(FD1)=HFDB2(HFDB1(F0))。
其中,HFDB2(·)为第二个密集融合模块Intensive Block2操作,与原始的密集块相比,本实施例具有更好的移动性,并且更适合特征融合。最后,本实施例可使用密集块来扩展网络深度,以增强特征表示能力。本实施例可以获得最终特征Fn,如下所示:
Fn=Hdense5(FD2)
其中,Hdense5(·)代表密集块5,然后将特征Fn输入到soft-max分类器中。这样,便可以按以下方式获得预测的标签lab:
其中,σ(·)为soft-max分类器,j代表Fn的第j项,K为Fn的项数。请注意,在OCR问题中,通常应用CTC将这些预测从分类器转换为最终的标签序列。
上述实施例对如何利用文本识别网络模型对输入的图像数据进行文本识别的过程并没有进行限定,本实施例还给出一种实施方式,可包括下述内容:
根据待识别文本数据的占用空间容量确定目标提取方式,并目标提取方式提取待识别文本数据的图像特征;将图像特征输入至密集融合块,得到目标图像特征;将目标图像特征输入至转录层,得到文本识别结果。
从理论上讲,本实施例使用更深的网络以及包含更多特征信息的较大尺寸的输入图像来获得更好的性能。但是由于计算能力和资源的限制,需要对大尺寸特征使用下采样策略。实际上,本实施例可以通过转置卷积等上采样来放大原始图像。在这种情况下可以进一步扩展网络深度,最终结果有望得到改善。也即对于使用特征提取层进行图像特征的提取可采用下述两种方式来执行:
判断待识别文本数据的占用空间容量是否大于预设容量阈值;
若待识别文本数据的占用空间容量小于预设容量阈值,则提取待识别文本数据的浅层图像特征;
若待识别文本数据的占用空间容量大于等于预设容量阈值,则通过步长为2的下采样操作提取待识别文本数据的图像特征。
本实施例使用步长为2的卷积运算代替池化运算作为下采样策略,可以潜在地防止重要特征信息丢失的同时使整个框架的参数变得可学习,确保了框架的结果更加可靠。
在利用特征提取层提取输入的图像特征之后,可进一步将其输入两个直接相连的新密集快,获取到相比传统密集快更灵活的原始图像的特征表示,也即可采用下述关系式进行目标图像特征的提取:
FD1=HFDB1(F0)
FD2=HFDB2(FD1)=HFDB2(HFDB1(F0))
HFDBi(·)为第i个Intensive Block操作,使用密集块来扩展网络深度,以增强特征表示能力。本实施例获得最终的目标图像特征Fn可表示为:
Fn=Hdense5(FD2)
作为一种可选的实施方式,将图像特征输入至密集融合块,得到目标图像特征的过程可包括:
将图像特征馈入第一密集块,得到第一密集特征;将第一密集特征输入至第二密集块,根据密集处理关系式从第二密集块提取第二密集特征;对第二密集特征、图像特征和第一密集特征进行密集融合操作,得到目标图像特征;其中,密集处理关系式可表示为:
Fd2=Hdense2(Fd1)
=Hconcat(Fd1,Fd11,Fd12,...Fd1c)
=[Fd1,Hconv(Fd1),Hconv(Fd1+Hconv(Fd1)),...Hconv(Fd1+Hconv(Fd1)+...+Hconv(Fd1c-1))];
Fd2为第二密集特征,Fd1为第一密集特征,Hdense2(·)代表第二密集块,Hconcat(·)代表拼接操作,Hconv(·)为卷积操作,Fd1i(i=1,2,...,c)为每一层密集块的内嵌特征,c为密集块的数量,操作[·,...,·]代表通道方向拼接的特征,Fd2的通道数NFd2为为第一密集特征的通道数量,g是增长率。
目标图像特征的获取过程可包括:对Fd2做了一个卷积操作得到特征Fc1,此步骤提取并学习用于与特征Fd1相连以增强密集块的移动性和融合性的特征。密集块中的其余操作称为“进一步密集融合”操作。与密集融合块中的操作类似,本实施例进行卷积操作以对Fc2进行特征化,并将Fc3与原始输入F0进行级联以获得组合特征Fc4。最后,本实施例使用转换块对Fc4进行下采样。过渡块也是一个卷积运算,它在Intensive Block2中扮演第一个卷积的角色。通过这种方式,本实施例紧密地连接了相邻的密集块。因此,本实施例不仅充分利用了密集块的内部特征信息,而且在整个框架上增强了全局特征信息的移动性和融合性。利用几种卷积和串联操作来构造用于不同层级别的层次结构特征的快捷方式,文本识别网络模型可以充分挖掘并利用具有不同接受域的特征。举例来说,可调用密集融合关系式执行密集融合操作,密集融合关系式可表示为:
FD1
=Htrans(Fc4)
=Htrans(Hconcat(Fc3,F0))
=Htrans(Hconcat(Hconv(Fc2),F0))
=Htrans(Hconcat(Hconv(Hconcat(Fc1,Fd1)),F0))
=Htrans(Hconcat(Hconv(Hconcat(Hconv(Fd2),Fd1)),F0))
=Htrans(Hconcat(Hconv(Hconcat(Hconv(Hconcat(A)),Fd1)),F0))
Htrans(·)为转换块,Fc1为第二密集特征进行可分卷积运算操作后所得第一特征,Fc2为第一密集特征和第一特征进行连接操作所得的第二特征,Fc3为第二特征进行可分卷积运算操作后所得第三特征,Fc4为第三密集特征和图像特征进行连接操作所得的第四特征,F0为图像特征,A=(Fd1,Fd11,Fd12,…,Fd1c)为辅助矩阵。
为了进一步提高整个文本识别的效率,降低计算成本,本实施例采用深度方向可分离卷积代替了传统的标准卷积。为了防止重要特征信息在一定程度上丢失,本实施例可使用步幅为2的卷积运算来替换常规过渡层中的原始合并运算。在大规模中文字符串和MNIST数据集上的识别结果表明,与其他相关的深度模型相比,可以提供增强的识别结果。基于此,本实施例在调用密集融合关系式执行密集融合操作之前,还可包括:
预先构建用于执行可分卷积运算操作的深度可分卷积模块。深度可分卷积模块包括修正线性单元、卷积层和批标准化层。修正线性单元例如可为ReLU,批标准化层可将归一化过程应用到输入层,而且将归一化过程应用到深层神经网络隐藏层的值中,加快神经网络的训练过程。
其中,深度可分离卷积最早是在MobileNet-V1中提出的。与传统的同时考虑通道和区域变化的卷积不同,深度可分离卷积实现了通道和区域分离的分离。具体来说,它将卷积运算分为两个子步骤,即深度处理和点处理。深度方向是将N*H*W*C形式的输入要素分为C组,然后对每个组执行3*3卷积运算的过程,其中N是要素的数量,H是要素的高度,W是要素的宽度,C是要素的通道数。深度过程主要从每个通道收集空间特征,即深度特征。点方向是指使用k滤波器对深度过程的输出特征进行1*1卷积运算的过程,该过程收集每个点的特征,即点方向特征。尽管深度可分离卷积的输出特征具有与传统卷积相同的大小,但是它可以显着减少参数量和计算成本。
为了进一步验证本申请所提供的技术方案的有效性,本申请结合图3还进行了验证性实验,可包括下述内容:
本申请提供的文本识别网络模型可称为完全卷积的密集特征流神经网络,如图3所示的IntensiveNet结构,通过将短连接添加到不同的层,可以充分利用不同层的特征,并且IntensiveNet可能会在特征学习中获得更高的性能。利用如图3所示的结构在合成中文字符串数据集数据集以及手写体数据集上进行评估测试。合成中文字符串数据集数据集中的中文字符串数据是通过更改字体,大小,灰度,模糊,透视和拉伸从中文语料库例如新闻和古典汉语中随机生成的。该词典由大约5990个字符组成,包括中文,标点符号,英语和数字。每个样本固定为10个字符,并且从语料库中随机截取字符。图片的分辨率统一为280×32。总共生成了约300万个600,000张图像,并根据9:1将其分为训练集和测试集。手写体数据集MNIST是一种广泛使用的数据集,其目标是将28×28像素图像分类为10位数之一。MNIST数据集具有60,000个训练样本和10,000个测试样本。MNIST上的结果可以反映特征提取和模型学习的能力。这些数据集从多方面收集,因而测试结果具有普遍说明性。
为了验证本申请技术方案相比现有技术可有效提升文本识别准确度,本申请与现有各类方法进行了对比,现有技术包括如Inception-bn-res-blstm,Resnet-res-blstm,Densenet-res-blstm,Densenet-no-blstm,Densenet-sum-blstm-full-res-blstm,Densenet-no-blstm-vertical-feature,本申请与各现有技术分别在中文字符串数据集数据集以及手写体数据集的使用不同数量的训练样本的识别准确率的对比结果如下:
表1:本实施例和各个深度模型基于合成中文字符数据集的识别准确性对比结果
方法 | 准确率 |
Inception-bn-res-blstm | 92.00 |
Resnet-res-blstm | 91.00 |
Densenet-res-blstm | 96.50 |
Densenet-no-blstm | 97.00 |
Densenet-sum-blstm-full-res-blstm | 98.05 |
Densenet-no-blstm-vertical-feature | 98.16 |
本申请技术方案 | 98.67 |
在表1,准确性是指整个字符串和测试集统计数据的正确比例。对于每种评估的比较方法,识别结果均基于CRNN/DenseNet加上CTC的框架。后缀“res-blstm”表示带有残差形式的blstm的方法,后缀“noblstm”表示框架中没有使用LSTM层。“Densenet-sum-blstm-full-res-blstm”框架与“Densenet-res-blstm”相比有两个变化:(1)将两个lstm组合为blstm的方法从concat变为sum。(2)blstm的两个层都使用残差方式连接。“Densenet-no-blstmvertical-feature”相对于“Densenet-no-blstm”而言,删除了1x4的池化操作。本实施例的文本识别网络模型的文本识别结果是基于新密集块获得的。可以发现,与其他相关方法相比,本实施例的IntensiveNet获得了最高的准确性,这意味着所提出的新密集块在提高识别结果方面发挥了重要作用。
表2:本申请技术方案和各个深度模型基于MNIST手写数字数据集的识别准确性对比结果
由表2可以看出本发明实施例的特征提取及识别效果明显优于相关的Deep L2-SVM,Maxout Network,BinaryConnect,PCANet-1,gcForest以及Simple CNN withBaikalCMA loss方法。
通过真实数据集上的实例实验结果显示,本发明方法可有效用于基于各种类型的数据集的识别,并且可以获得比较好的准确度。
本发明实施例还针对文本识别方法提供了相应的装置,进一步使得方法更具有实用性。其中,装置可从功能模块的角度和硬件的角度分别说明。下面对本发明实施例提供的文本识别装置进行介绍,下文描述的文本识别装置与上文描述的文本识别方法可相互对应参照。
基于功能模块的角度,参见图4,图4为本发明实施例提供的文本识别装置在一种具体实施方式下的结构图,该装置可包括:
模型训练模块401,用于预先基于卷积神经网络训练文本识别网络模型;文本识别网络模型包括特征提取层、密集融合块和转录层;密集融合块包括第一密集块、第二密集块和卷积运算层,第一密集块和第二密集块相连,密集融合块用于将特征提取层提取的图像特征、第一密集块输出特征和第二密集块输出特征通过连接操作在不同层进行融合处理;转录层包括分类器和损失函数层;
文本识别模块402,用于将待识别文本数据输入至文本识别网络模型,得到文本识别结果。
可选的,在本实施例的一些实施方式中,上述文本识别模块402可用于:根据待识别文本数据的占用空间容量确定目标提取方式,并目标提取方式提取待识别文本数据的图像特征;将图像特征输入至密集融合块,得到目标图像特征;将目标图像特征输入至转录层,以得到文本识别结果。
作为本实施例的一种可选的实施方式,上述文本识别模块402可进一步用于:判断待识别文本数据的占用空间容量是否大于预设容量阈值;若待识别文本数据的占用空间容量小于预设容量阈值,则提取待识别文本数据的浅层图像特征;若待识别文本数据的占用空间容量大于等于预设容量阈值,则通过步长为2的下采样操作提取待识别文本数据的图像特征。
作为本实施例的另外一种可选的实施方式,上述文本识别模块402还可进一步用于:将图像特征馈入第一密集块,得到第一密集特征;将第一密集特征输入至第二密集块,根据密集处理关系式从第二密集块提取第二密集特征;对第二密集特征、图像特征和第一密集特征进行密集融合操作,得到目标图像特征;其中,密集处理关系式可表示为:
Fd2=Hdense2(Fd1)
=Hconcat(Fd1,Fd11,Fd12,...Fd1c)
=[Fd1,Hconv(Fd1),Hconv(Fd1+Hconv(Fd1)),...Hconv(Fd1+Hconv(Fd1)+...+Hconv(Fd1c-1));
Fd2为第二密集特征,Fd1为第一密集特征,Hdense2(·)代表第二密集块,Hconcat(·)代表拼接操作,Hconv(·)为卷积操作,Fd1i(i=1,2,...,c)为每一层密集块的内嵌特征,c为密集块的数量,操作[·,...,·]代表通道方向拼接的特征,Fd2的通道数为为第一密集特征的通道数量,g是增长率。
作为本实施例的其他一些实施方式,上述文本识别模块402还可进一步用于:调用密集融合关系式执行密集融合操作,密集融合关系式可表示为:
FD1
=Htrans(Fc4)
=Htrans(Hconcat(Fc3,F0))
=Htras(Hconcat(Hconv(Fc2),F0))
=Htrans(Hconcat(Hconv(Hconcat(Fc1,Fd1)),F0))
=Htrans(Hconcat(Hconv(Hconcat(Hconv(Fd2),Fd1)),F0))
=Htrans(Hconcat(Hconv(Hconcat(Hconv(Hconcat(A)),Fd1)),F0))
Htrans(·)为转换块,Fc1为第二密集特征进行可分卷积运算操作后所得第一特征,Fc2为第一密集特征和第一特征进行连接操作所得的第二特征,Fc3为第二特征进行可分卷积运算操作后所得第三特征,Fc4为第三密集特征和图像特征进行连接操作所得的第四特征,F0为图像特征,A=(Fd1,Fd11,Fd12,…,Fd1c)为辅助矩阵。
可选的,在本实施例的另一些实施方式中,上述装置例如还可以包括深度可分卷积模块预构建模块,用于预先构建用于执行可分卷积运算操作的深度可分卷积模块;深度可分卷积模块包括修正线性单元、卷积层和批标准化层。
本发明实施例文本识别装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可以有效提高文本识别的准确度和识别效率。
上文中提到的文本识别装置是从功能模块的角度描述,进一步的,本申请还提供一种电子设备,是从硬件角度描述。图5为本申请实施例提供的电子设备在一种实施方式下的结构示意图。如图5所示,该电子设备包括存储器50,用于存储计算机程序;处理器51,用于执行计算机程序时实现如上述任一实施例提到的文本识别方法的步骤。
其中,处理器51可以包括一个或多个处理核心,比如4核心处理器、8核心处理器,处理器51还可为控制器、微控制器、微处理器或其他数据处理芯片等。处理器51可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable GateArray,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器51也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器51可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器51还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器50可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器50还可包括高速随机存取存储器以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。存储器50在一些实施例中可以是电子设备的内部存储单元,例如服务器的硬盘。存储器50在另一些实施例中也可以是电子设备的外部存储设备,例如服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器50还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器50不仅可以用于存储安装于电子设备的应用软件及各类数据,例如:执行漏洞处理方法的程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。本实施例中,存储器50至少用于存储以下计算机程序501,其中,该计算机程序被处理器51加载并执行之后,能够实现前述任一实施例公开的文本识别方法的相关步骤。另外,存储器50所存储的资源还可以包括操作系统502和数据503等,存储方式可以是短暂存储或者永久存储。其中,操作系统502可以包括Windows、Unix、Linux等。数据503可以包括但不限于文本识别结果对应的数据等。
在一些实施例中,上述电子设备还可包括有显示屏52、输入输出接口53、通信接口54或者称为网络接口、电源55以及通信总线56。其中,显示屏52、输入输出接口53比如键盘(Keyboard)属于用户接口,可选的用户接口还可以包括标准的有线接口、无线接口等。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。通信接口54可选的可以包括有线接口和/或无线接口,如WI-FI接口、蓝牙接口等,通常用于在电子设备与其他电子设备之间建立通信连接。通信总线56可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extendedindustry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本领域技术人员可以理解,图5中示出的结构并不构成对该电子设备的限定,可以包括比图示更多或更少的组件,例如还可包括实现各类功能的传感器57。
本发明实施例所述电子设备的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可以有效提高文本识别的准确度和识别效率。
可以理解的是,如果上述实施例中的文本识别方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、多媒体卡、卡型存储器(例如SD或DX存储器等)、磁性存储器、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本发明实施例还提供了一种可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时如上任意一实施例所述文本识别方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的硬件包括装置及电子设备而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本申请所提供的一种文本识别方法、装置、电子设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (10)
1.一种文本识别方法,其特征在于,包括:
预先基于卷积神经网络训练文本识别网络模型;所述文本识别网络模型包括特征提取层、密集融合块和转录层;
将待识别文本数据输入至所述文本识别网络模型,得到文本识别结果;
其中,所述密集融合块包括第一密集块、第二密集块和卷积运算层,所述第一密集块和所述第二密集块相连,所述密集融合块用于将所述特征提取层提取的图像特征、所述第一密集块输出特征和所述第二密集块输出特征通过连接操作在不同层进行融合处理;所述转录层包括分类器和损失函数层。
2.根据权利要求1所述的文本识别方法,其特征在于,所述将待识别文本数据输入至所述文本识别网络模型,得到文本识别结果的过程,包括:
根据所述待识别文本数据的占用空间容量确定目标提取方式,并采用所述目标提取方式提取所述待识别文本数据的图像特征;
将所述图像特征输入至所述密集融合块,得到目标图像特征;
将所述目标图像特征输入至所述转录层,以得到所述文本识别结果。
3.根据权利要求2所述的文本识别方法,其特征在于,所述根据待识别文本数据的占用空间容量确定目标提取方式,并目标提取方式提取待识别文本数据的图像特征的过程,包括:
判断所述待识别文本数据的占用空间容量是否大于预设容量阈值;
若所述待识别文本数据的占用空间容量小于预设容量阈值,则提取所述待识别文本数据的浅层图像特征;
若所述待识别文本数据的占用空间容量大于等于预设容量阈值,则通过步长为2的下采样操作提取所述待识别文本数据的图像特征。
4.根据权利要求2所述的文本识别方法,其特征在于,所述将所述图像特征输入至所述密集融合块,得到目标图像特征包括:
将所述图像特征馈入所述第一密集块,得到第一密集特征;
将所述第一密集特征输入至所述第二密集块,根据密集处理关系式从所述第二密集块提取第二密集特征;
对所述第二密集特征、所述图像特征和所述第一密集特征进行密集融合操作,得到所述目标图像特征;
其中,所述密集处理关系式为:
Fd2=Hdense2(Fd1)
=Hconcat(Fd1,Fd11,Fd12,...Fd1c)
=[Fd1,Hconv(Fd1),Hconv(Fd1+Hconv(Fd1)),...Hconv(Fd1+Hconv(Fd1)+...+Hconv(Fd1c-1))];
5.根据权利要求4所述的文本识别方法,其特征在于,所述对所述第二密集特征、所述图像特征和所述第一密集特征进行密集融合操作,包括:
调用密集融合关系式执行密集融合操作,所述密集融合关系式为:
FD1
=Htrans(Fc4)
=Htrans(Hconcat(Fc3,F0))
=Htrans(Hconcat(Hconv(Fc2),F0))
=Htrans(Hconcat(Hconv(Hconcat(Fc1,Fd1)),F0))
=Htrans(Hconcat(Hconv(Hconcat(Hconv(Fd2),Fd1)),F0))
=Htrans(Hconcat(Hconv(Hconcat(Hconv(Hconcat(A)),Fd1)),F0))
Htrans(·)为转换块,Fc1为所述第二密集特征进行可分卷积运算操作后所得的第一特征,Fc2为所述第一密集特征和所述第一特征进行连接操作所得的第二特征,Fc3为所述第二特征进行可分卷积运算操作后所得的第三特征,Fc4为所述第三密集特征和所述图像特征进行连接操作所得的第四特征,F0为所述图像特征,A=(Fd1,Fd11,Fd12,…,Fd1c)为辅助矩阵。
6.根据权利要求5所述的文本识别方法,其特征在于,所述调用密集融合关系式执行密集融合操作之前,还包括:
预先构建用于执行可分卷积运算操作的深度可分卷积模块;所述深度可分卷积模块包括修正线性单元、卷积层和批标准化层。
7.一种文本识别装置,其特征在于,包括:
模型训练模块,用于预先基于卷积神经网络训练文本识别网络模型;所述文本识别网络模型包括特征提取层、密集融合块和转录层;所述密集融合块包括第一密集块、第二密集块和卷积运算层,所述第一密集块和所述第二密集块相连,所述密集融合块用于将所述特征提取层提取的图像特征、所述第一密集块输出特征和所述第二密集块输出特征通过连接操作在不同层进行融合处理;所述转录层包括分类器和损失函数层;
文本识别模块,用于将待识别文本数据输入至所述文本识别网络模型,得到文本识别结果。
8.根据权利要求7所述的文本识别装置,其特征在于,所述文本识别模块进一步用于:根据所述待识别文本数据的占用空间容量确定目标提取方式,并采用所述目标提取方式提取所述待识别文本数据的图像特征;将所述图像特征输入至所述密集融合块,得到目标图像特征;将所述目标图像特征输入至所述转录层,以得到所述文本识别结果。
9.一种电子设备,其特征在于,包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至6任一项所述文本识别方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111187941.7A CN113901925A (zh) | 2021-10-12 | 2021-10-12 | 文本识别方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111187941.7A CN113901925A (zh) | 2021-10-12 | 2021-10-12 | 文本识别方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113901925A true CN113901925A (zh) | 2022-01-07 |
Family
ID=79191620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111187941.7A Pending CN113901925A (zh) | 2021-10-12 | 2021-10-12 | 文本识别方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901925A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046886A (zh) * | 2019-12-12 | 2020-04-21 | 吉林大学 | 号码牌自动识别方法、装置、设备及计算机可读存储介质 |
CN111832564A (zh) * | 2020-07-20 | 2020-10-27 | 浙江诺诺网络科技有限公司 | 一种图像文字识别方法、系统及电子设备和存储介质 |
CN113177559A (zh) * | 2021-04-22 | 2021-07-27 | 重庆兆光科技股份有限公司 | 结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质 |
-
2021
- 2021-10-12 CN CN202111187941.7A patent/CN113901925A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046886A (zh) * | 2019-12-12 | 2020-04-21 | 吉林大学 | 号码牌自动识别方法、装置、设备及计算机可读存储介质 |
CN111832564A (zh) * | 2020-07-20 | 2020-10-27 | 浙江诺诺网络科技有限公司 | 一种图像文字识别方法、系统及电子设备和存储介质 |
CN113177559A (zh) * | 2021-04-22 | 2021-07-27 | 重庆兆光科技股份有限公司 | 结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804530B (zh) | 对图像的区域加字幕 | |
RU2691214C1 (ru) | Распознавание текста с использованием искусственного интеллекта | |
Rong et al. | Recognizing text-based traffic guide panels with cascaded localization network | |
Wang et al. | FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection | |
CN111160350B (zh) | 人像分割方法、模型训练方法、装置、介质及电子设备 | |
US20180349743A1 (en) | Character recognition using artificial intelligence | |
CN106257496B (zh) | 海量网络文本与非文本图像分类方法 | |
CN112633431B (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
Lei et al. | Scene text recognition using residual convolutional recurrent neural network | |
CN115438215B (zh) | 图文双向搜索及匹配模型训练方法、装置、设备及介质 | |
CN115578735B (zh) | 文本检测方法和文本检测模型的训练方法、装置 | |
Wang et al. | Multi-order co-occurrence activations encoded with Fisher Vector for scene character recognition | |
Xiong et al. | RGB-D scene recognition via spatial-related multi-modal feature learning | |
CN116343190A (zh) | 自然场景文字识别方法、系统、设备及存储介质 | |
CN115374325A (zh) | 网站分类方法、装置、分类设备及存储介质 | |
Badry et al. | Quranic script optical text recognition using deep learning in IoT systems | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
Jayanthi et al. | Tamil OCR Conversion from Digital Writing Pad Recognition Accuracy Improves through Modified Deep Learning Architectures | |
Anbukkarasi et al. | Enhanced feature model based hybrid neural network for text detection on signboard, Billboard and news tickers | |
Li | A deep learning-based text detection and recognition approach for natural scenes | |
Li et al. | Review network for scene text recognition | |
Li et al. | Deep neural network with attention model for scene text recognition | |
CN113901925A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
CN114707017A (zh) | 视觉问答方法、装置、电子设备和存储介质 | |
Li et al. | A Survey of Text Detection Algorithms in Images Based on Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |