CN114863442A

CN114863442A - 基于深度学习的文字识别方法、系统、装置和存储介质

Info

Publication number: CN114863442A
Application number: CN202210436000.0A
Authority: CN
Inventors: 任怡然
Original assignee: Hu Niu Technology Hangzhou Co ltd
Current assignee: Hangzhou Longce Technology Co.,Ltd.
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-08-05

Abstract

本发明公开了一种基于深度学习的文字识别方法、系统、装置和存储介质，方法包括构建字符特征提取网络模型；获取文字图像数据集，基于文字图像数据集，对字符特征提取网络模型进行训练，得到目标文字识别模型；获取待识别文字图像，根据目标文字识别模型，对待识别文字图像进行识别，得到目标识别结果。本发明实现了待识别文字图像的识别，得到其对应的目标识别结果，待识别文字图像的识别准确率较高，有效解决了传统文字识别技术中英文通用字符识别困难、部分字符存在长尾效应而导致文字识别准确率较低的问题。

Description

基于深度学习的文字识别方法、系统、装置和存储介质

技术领域

本发明涉及人工智能和机器视觉技术领域，具体涉及一种基于深度学习的文字识别方法、系统、装置和存储介质。

背景技术

随着人工智能和计算机视觉领域的不断发展，文字识别技术(OCR，OpticalCharacter Recognition)被广泛应用于文档识别、车牌十倍、票据识别、证件识别等诸多场景中。

一般而言，传统的文字识别技术主要包括数据预处理、特征提取和分类识别三部分。然而由于文字文本的多样性和复杂性，例如文字文本呈现的多种语言、颜色、字体、文字大小、文字旋转方向和文字横纵比，再例如文字文本背景(如树叶、栅栏和交通标志)的干扰，再例如文字文本图像成像质量不佳(如分辨率低、图像扭曲、图像模糊和光线差)……都会导致传统的文字识别技术存在着不足，包括中英文通用字符识别困难、部分字符存在长尾效应，从而导致文字识别准确率较低。

发明内容

有鉴于此，本发明提供了一种基于深度学习的文字识别方法、系统、装置和存储介质，以解决现有文字识别技术中中英文通用字符识别困难、部分字符存在长尾效应而导致文字识别准确率较低的问题。

本发明提供了一种基于深度学习的文字识别方法，包括：

构建字符特征提取网络模型；

获取文字图像数据集，基于所述文字图像数据集，对所述字符特征提取网络模型进行训练，得到目标文字识别模型；

获取待识别文字图像，根据所述目标文字识别模型，对所述待识别文字图像进行识别，得到目标识别结果。

可选地，所述构建字符特征提取网络模型，包括：

搭建卷积层；所述卷积层用于利用深度卷积神经网络，对输入图像进行深层特征提取，生成深层特征字符向量；

搭建循环层；所述循环层用于利用双向循环神经网络，对所述深层特征字符向量进行上下文语义特征计算，生成所述输入图像的目标深层特征向量；

搭建转录层；所述转录层用于利用激活函数，对所述目标深层特征向量进行映射，并利用损失函数，对映射后的所述目标深层特征向量进行转换，得到所述输入图像对应的分类向量；

形成所述字符特征提取网络模型。

可选地，所述搭建转录层，包括：

设计所述激活函数；

设计所述损失函数；

其中，所述损失函数包括类别平衡损失函数和时序分类损失函数；

所述类别平衡损失函数，用于将映射后的所述目标深层特征向量转换成平衡类别字向量；

所述时序分类损失函数，用于将所述平衡类别字向转换成所述分类向量。

可选地，所述基于所述文字图像数据集，对所述字符特征提取网络模型进行训练，得到目标文字识别模型，包括：

对所述文字图像数据集进行处理，得到输入图像数据集；

从所述输入图像数据集中获取训练集；

将所述训练集输入到所述字符特征提取网络模型中，进行反向传播迭代训练，当反向传播迭代训练满足迭代终止条件时，训练结束，得到所述目标文字识别模型。

可选地，所述迭代终止条件具体为：利用所述损失函数计算出所述训练集在迭代过程中的损失函数值，当所述损失函数值达到稳定时，迭代终止。

可选地，所述对所述文字图像数据集进行处理，得到输入图像数据集，包括：

对所述文字图像数据集进行预处理；

对预处理后的所述文字图像数据集进行归一化处理。

可选地，当所述根据所述目标文字识别模型，对所述待识别文字图像进行识别，得到目标识别结果，包括：

对所述待识别文字图像进行处理，得到目标识别文字图像；

将所述目标识别文字图像输入到所述目标文字识别模型中，得到所述目标识别结果。

此外，本发明还提供了一种基于深度学习的文字识别系统，应用于前述的基于深度学习的文字识别方法中，包括：

模型构建模块，用于构建字符特征提取网络模型；

图像获取模块，用于获取文字图像数据集，还用于获取待识别文字图像；

模型训练模块，与所述模型构建模块和所述图像获取模块均通信连接，用于基于所述文字图像数据集，对所述字符特征提取网络模型进行训练，得到目标文字识别模型；以及

文字识别模块，与所述模型训练模块和所述图像获取模块均通信连接，用于根据所述目标文字识别模型，对所述待识别文字图像进行识别，得到目标识别结果。

此外，本发明还提供了一种基于深度学习的文字识别装置，包括处理器、存储器和存储在所述存储器中且可运行在所述处理器上的计算机程序，所述计算机程序运行时实现前述基于深度学习的文字识别方法中的方法步骤。

此外，本发明还提供了一种计算机存储介质，所述计算机存储介质包括：至少一个指令，在所述指令被执行时实现前述基于深度学习的文字识别方法中的方法步骤。

本发明的有益效果：通过构建字符特征提取网络模型，便于后续进行训练，得到能准确地提取出文字特征并进行准确地识别的目标文字识别模型，基于目标文字识别模型，对待识别文字图像进行识别，得到其对应的目标识别结果，待识别文字图像的识别准确率较高，有效解决了传统文字识别技术中英文通用字符识别困难、部分字符存在长尾效应而导致文字识别准确率较低的问题。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1示出了本发明实施例一中一种基于深度学习的文字识别方法的流程示意图；

图2示出了本发明实施例一中构建字符特征提取网络模型的结构示意图；

图3示出了本发明实施例一中利用resnet结构生成深层特征字符向量的模型图；

图4示出了本发明实施例一中经循环层的BiLstm结构之后得到目标深层特征向量的模型图；

图5示出了本发明实施例一中构建的字符特征提取网络模型的模型图；

图6示出了本发明实施例一中得到目标文字识别模型的流程示意图；

图7示出了本发明实施例一中得到目标识别结果的流程示意图；

图8示出了本发明实施例一中一种基于深度学习的文字识别系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一、

如图1所示，一种基于深度学习的文字识别方法，包括：

S1：构建字符特征提取网络模型；

S2：获取文字图像数据集，基于所述文字图像数据集，对所述字符特征提取网络模型进行训练，得到目标文字识别模型；

S3：获取待识别文字图像，根据所述目标文字识别模型，对所述待识别文字图像进行识别，得到目标识别结果。

本实施例通过构建字符特征提取网络模型，便于后续进行训练，得到能准确地提取出文字特征并进行准确地识别的目标文字识别模型，基于目标文字识别模型，对待识别文字图像进行识别，得到其对应的目标识别结果，待识别文字图像的识别准确率较高，有效解决了传统文字识别技术中英文通用字符识别困难、部分字符存在长尾效应而导致文字识别准确率较低的问题。

具体地，本实施例的操作系统为：windows或linux，GPU显卡显存12G以上；编程语言为python，深度学习库为pytorch。

优选地，如图2所示，S1包括：

S11：搭建卷积层；所述卷积层用于利用深度卷积神经网络，对输入图像进行深层特征提取，生成深层特征字符向量；

S12：搭建循环层；所述循环层用于利用双向循环神经网络，对所述深层特征字符向量进行上下文语义特征计算，生成所述输入图像的目标深层特征向量；

S13：搭建转录层；所述转录层用于利用激活函数，对所述目标深层特征向量进行映射，并利用损失函数，对映射后的所述目标深层特征向量进行转换，得到所述输入图像对应的分类向量；

S14：形成所述字符特征提取网络模型。

通过上述卷积层、循环层和转录层所构成的字符特征提取网络模型，能结合字符上下文语义，准确地提取出输入图像的字符特征，并对字符特征进行预测，得到准确的目标深层特征向量；利用激活函数，将该目标深层特征向量进行映射，将其转换为分类的概率表示，便于从中选取概率最大的节点(即最接近真实的分类标签)作为预测目标；最后利用损失函数再次对其进行转换，将其转换为最终的分类标签(即输入图像对应的分类向量)，大大提高了分类准确率，进而提高文字识别准确率；基于损失函数构建的字符特征提取网络模型，能有效缓解数据集中的字符分布问题，解决字符分布的长尾效应，提高文字识别准确率。

具体地，在本实施例S21中，卷积层的深度卷积神经网络(即CNN网络)具体为残差网络结构(即resnet结构)，以“随时随地，创作更高效”为输入图像为例，利用该resnet结构生成深层特征字符向量(又称CNN字向量)的模型图如图3所示。在本实施例S22中，循环层的双向循环神经网络(即双向RNN网络)具体为基于Lstm的双向Lstm结构，简称BiLstm结构；利用resnet结构生成的深层特征字符向量，经循环层的BiLstm结构之后，得到目标深层特征向量的模型图如图4所示。

其中，Lstm的全称是Long Short-Term Memory，指长短期记忆网络，它是RNN(RecurrentNeuralNetwork，循环神经网络)的一种，而BiLstm结构(Bi-directional LongShort-Term Memory，双向长短期记忆网络)是前向Lstm和后向Lstm组合而成。基于该BiLstm结构，既能准确地处理序列问题，模型参数数目少，能有效防止过拟合，提高拟合效果；还能双向推进，能更好地捕捉双向的语义依赖，进而实现更准确地特征提取。

具体地，在本实施例的一个具体实施方式中，以“阿巴斯港国际机场”为例，构建的字符特征提取网络模型的模型图如图5所示，模型结构参数如表1所示。

表1本实施例字符特征提取网络模型的模型结构参数

优选地，S13包括：

设计所述激活函数；

设计所述损失函数；

通过上述激活函数和损失函数，一方面能有效避免过拟合，提高模型识别准确率；另一方面可以有效缓解字符数据集中的字符分布问题，解决字符分布的长尾效应，减小网络模型预测值与真实值之间的差异，进而进一步提高文字识别准确率。

本实施例激活函数具体为softmax函数，该函数用于多分类过程中，将输出的所述目标深层特征向量映射到(0,1)区间内，可以看成分类的概率来理解，转录层经过softmax函数映射之后，输出值为分类概率，即目标深层特征向量经过softmax函数映射之后，得到的为分类概率向量。

softmax函数的表达式为：

其中，z_i为所述目标深层特征向量中第i个节点的类别特征值，softmax(z_i)为z_i对应的softmax函数值，p_i为第i个节点为正确类别的概率值，z_k为所述目标深层特征向量中第k个节点的类别特征值，K为节点个数或分类的类别个数。

具体地，本实施例中类别平衡损失函数为基于有效样本的类平衡交叉熵损失函数，即CB Loss函数(Q-equilibrium cross-entropy loss functionbased on validsamples)，目标深层特征向量经过softmax函数之后，输出分类概率向量，再经过CB Loss函数，计算得到平衡类别字向量；基于CB Loss函数，能通过引入的加权系数，进行重新加权，利用每个类的有效样本数来重新平衡损失，进而有效缓解字符数据集中的字符分布问题，解决字符分布的长尾效应。

类别平衡损失函数(CB Loss函数)的表达式为：

其中，β为加权系数，CB_softmax(z,y)为所述目标深层特征向量中节点为类别y对应的类平衡交叉熵损失，n_y为类别为y的有效样本个数，z_y为类别y的节点对应的类别特征值。

具体地，本实施例中时序分类损失函数为CTC Loss函数(即ConnectionistTemporal Classification Loss Function)，由于文本具有时序性，在考虑文本字符的预测值与真实值之间的差异时，还要考虑时序性。因此基于该CTC Loss函数，还能进一步提高文字识别准确率。

时序分类损失函数(CTC Loss函数)的表达式为：

其中，L(s)为CTC Loss函数值，

为t时刻输出为空字符的概率，l_s′为第t时间步输出的类别标签，l′为第t时间步的类别标签总数，α_t(s)和β_t(s)分别为第t时间步的前向传播向量和后向传播向量。

上述CB Loss函数和CTC Loss函数合称为CBCTC损失函数(即Class-BalancedConnectionist Temporal Classification Loss Function)，基于该CBCTC损失函数，可以计算得到输入图像对应的分类向量，即该输入图像中所有字符的字符识别结果集合。

优选地，如图6所示，S2中，基于所述文字图像数据集，对所述字符特征提取网络模型进行训练，得到目标文字识别模型，包括：

S21：对所述文字图像数据集进行处理，得到输入图像数据集；

S22：从所述输入图像数据集中获取训练集；

S23：将所述训练集输入到所述字符特征提取网络模型中，进行反向传播迭代训练，当反向传播迭代训练满足迭代终止条件时，训练结束，得到所述目标文字识别模型。

通过上述步骤，将字符特征提取网络模型训练和优化，能得到文字识别准确率较高的目标文字识别模型，该模型鲁棒性强。

具体地，在本实施例S21之前，基于大数据系统，获取500万个字符数据，包含中英文、特殊字符和标点符号等共计7606个字符语料库，形成文字图像数据集。当然也可以采用其他可行的方式获取该文字图像数据集。

具体地，S21包括：

对所述文字图像数据集进行预处理；

对预处理后的所述文字图像数据集进行归一化处理。

在本实施例S21中，对文字图像数据集进行的预处理包括：缩放处理、几何旋转处理和数据增强处理，这些处理步骤既可以先后执行，也可以同时执行，当先后执行时，其先后顺序可根据实际情况设置。例如按照缩放处理、几何旋转处理和数据增强处理依次进行。通过上述处理步骤，可以增强字符识别的泛化正确率；通过归一化处理可以将数据标准化，避免不同字符的尺度空间不一致，提高文字图像的识别效率。

在本实施例中，在缩放处理时，文字图像数据集中每个文字图像缩放后尺寸具体为：高32pixel，宽280pixel。在几何旋转处理时，旋转角度范围为[-15°，15°]。

具体地，在本实施例S22中，按照9:0.5:0.5的比例，将输入图像数据集分成训练集、测试集和验证集。

具体地，在本实施例S23中，所述迭代终止条件具体为：利用所述损失函数计算出所述训练集在迭代过程中的损失函数值，当所述损失函数值达到稳定时，迭代终止。

通过计算损失函数值(具体为CBCTC损失函数值)，利用训练集进行迭代训练，并利用该损失函数值进行反向传播迭代训练，该损失函数值会逐渐减小，当损失函数值达到稳定时，即损失函数值不再减小，则表明字符特征提取网络模型已达到最优，此时的字符特征提取网络模型即为目标文字识别模型。

优选地，如图7所示，S3包括：

S31：对所述待识别文字图像进行处理，得到目标识别文字图像；

S32：将所述目标识别文字图像输入到所述目标文字识别模型中，得到所述目标识别结果。

在将需要进行识别的文字图像输入到目标文字识别模型之前，对待识别文字图像进行处理，能提升待识别文字图像的品质，进而有助于提高该待识别文字图像的识别效果，确保其识别准确率。

具体地，在本实施例S31之前，获取待识别文字图像。该待识别文字图像既可以是基于图像采集装置采集到的需要识别的文字图像，也可以是从测试集任选的文字图像。

具体地，在本实施例S31中，当待识别文字图像是从测试集任选的文字图像时，其对应的处理步骤由于在形成测试集已经进行过，则此时在识别之前的处理步骤可以省略。当待识别文字图像是基于图像采集装置采集到的需要识别的文字图像时，对待识别文字图像进行的处理步骤可以与文字图像数据集的处理步骤相同，也可以不同，视具体情况而定。

具体地，本实施例将输入图像数据集按照9:0.5:0.5的比例所分成的训练集、测试集和验证集，分别输入目标文字识别模型中，分别获得识别准确率，以验证目标文字识别模型的性能，识别准确率的结果如表2所示。从表2可以看出，本实施例得到的目标文字识别模型能展现出较高的识别准确率。

表2本实施例训练集、测试集和验证集对应的识别准确率

数据集	字符识别率	行文本识别率
			训练集	0.988	0.954
测试集	0.92	0.908
			验证集	0.917	0.902

实施例二、

如图8所示，一种基于深度学习的文字识别系统，应用于实施例一的基于深度学习的文字识别方法中，包括：

模型构建模块，用于构建字符特征提取网络模型；

通过模型构建模块构建字符特征提取网络模型，便于后续模型训练模块进行训练，得到能准确地提取出文字特征并进行准确地识别的目标文字识别模型，基于目标文字识别模型，通过文字识别模块对待识别文字图像进行识别，得到其对应的目标识别结果，待识别文字图像的识别准确率较高，有效解决了传统文字识别技术中英文通用字符识别困难、部分字符存在长尾效应而导致文字识别准确率较低的问题。

本实施例所述的基于深度学习的文字识别系统的功能与实施例一的基于深度学习的文字识别方法的步骤相互对应，本实施例中的未尽细节，详见实施例一及图1至图7的具体描述，此处不再赘述。

实施例三、

一种基于深度学习的文字识别装置，包括处理器、存储器和存储在所述存储器中且可运行在所述处理器上的计算机程序，所述计算机程序运行时实现实施例一的基于深度学习的文字识别方法中的方法步骤。

通过存储在存储器上的计算机程序，并运行在处理器上，实现了待识别文字图像的识别，得到其对应的目标识别结果，待识别文字图像的识别准确率较高，有效解决了传统文字识别技术中英文通用字符识别困难、部分字符存在长尾效应而导致文字识别准确率较低的问题。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

存储器可用于存储计算机程序和/或模型，处理器通过运行或执行存储在存储器内的计算机程序和/或模型，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(例如声音播放功能、图像播放功能等)；存储数据区可存储根据手机的使用所创建的数据(例如音频数据、视频数据等)。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

应理解可由计算机程序实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本实施例还提供一种计算机存储介质，所述计算机存储介质包括：至少一个指令，在所述指令被执行时实现实施例一的基于深度学习的文字识别方法中的方法步骤。

通过执行包含至少一个指令的计算机存储介质，实现了待识别文字图像的识别，得到其对应的目标识别结果，待识别文字图像的识别准确率较高，有效解决了传统文字识别技术中英文通用字符识别困难、部分字符存在长尾效应而导致文字识别准确率较低的问题。

同理，实施例三的未尽细节，详见实施例一、实施例二及图1至图8的具体描述，此处不再赘述。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种基于深度学习的文字识别方法，其特征在于，包括：

构建字符特征提取网络模型；

2.根据权利要求1所述的基于深度学习的文字识别方法，其特征在于，所述构建字符特征提取网络模型，包括：

形成所述字符特征提取网络模型。

3.根据权利要求2所述的基于深度学习的文字识别方法，其特征在于，所述搭建转录层，包括：

设计所述激活函数；

设计所述损失函数；

4.根据权利要求2所述的基于深度学习的文字识别方法，其特征在于，所述基于所述文字图像数据集，对所述字符特征提取网络模型进行训练，得到目标文字识别模型，包括：

对所述文字图像数据集进行处理，得到输入图像数据集；

从所述输入图像数据集中获取训练集；

5.根据权利要求4所述的基于深度学习的文字识别方法，其特征在于，所述迭代终止条件具体为：利用所述损失函数计算出所述训练集在迭代过程中的损失函数值，当所述损失函数值达到稳定时，迭代终止。

6.根据权利要求4所述的基于深度学习的文字识别方法，其特征在于，所述对所述文字图像数据集进行处理，得到输入图像数据集，包括：

对所述文字图像数据集进行预处理；

对预处理后的所述文字图像数据集进行归一化处理。

7.根据权利要求4所述的基于深度学习的文字识别方法，其特征在于，所述根据所述目标文字识别模型，对所述待识别文字图像进行识别，得到目标识别结果，包括：

对所述待识别文字图像进行处理，得到目标识别文字图像；

8.一种基于深度学习的文字识别系统，其特征在于，应用于如权利要求1至7任一项所述的基于深度学习的文字识别方法中，包括：

模型构建模块，用于构建字符特征提取网络模型；

9.一种基于深度学习的文字识别装置，其特征在于，包括处理器、存储器和存储在所述存储器中且可运行在所述处理器上的计算机程序，所述计算机程序运行时实现如权利要求1至7任一项权利要求所述的方法步骤。

10.一种计算机存储介质，其特征在于，所述计算机存储介质包括：至少一个指令，在所述指令被执行时实现如权利要求1至7任一项所述的方法步骤。