CN112036292A

CN112036292A - 基于神经网络的文字识别方法、装置及可读存储介质

Info

Publication number: CN112036292A
Application number: CN202010880874.6A
Authority: CN
Inventors: 齐宪标; 梁晓云
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2020-12-04
Also published as: WO2021147569A1

Abstract

本发明涉及一种人工智能，提供一种基于神经网络的文字识别方法、装置及可读存储介质，其中的方法包括：通过预先训练好的卷积神经网络模型的卷积层对待识别文字图像进行处理，获取文字图像特征；对所述文字图像特征进行降维处理，得到降维后的文字图像特征；通过卷积神经网络模型的Softmax层对文字图像特征进行处理，获取文字图像特征的权重，并获取加权后的文字图像特征；通过Transform特征解码器对所述加权后的文字图像特征进行处理，获取文字图像全局特征；通过卷积神经网络模型对文字图像全局特征进行识别，获取与文字图像全局特征相对应的文字数据。利用本发明可以提高文字识别正确率。

Description

基于神经网络的文字识别方法、装置及可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于全局上下文注意力卷积特征的文字识别方法、装置、电子设备及计算机可读存储介质。

背景技术

文字识别器是OCR系统中必不可少的模块，上游文字检测器将检测出来的文字块区域送入文字识别器中进行识别，文字识别器将文字区域的像素内容转换为文字字符。一般的文字识别器使用两种方法进行识别，一种是CRNN方法，一种是基于注意力机制的解码器和编码器的方法。

上述两种方法都需要对原始文字区域图像进行特征抽取，最常用的方法是使用卷积神经网络进行抽取。其中，卷积神经网络通过定义一定大小的参数可学习的卷积核，对图像进行卷积，提取图像的特征，然后堆叠一定数量的结构，最后学习到具有很强表征能力的特征图；这些特征图后续会被转换为文字的输出。但是现有卷积神经网络的卷积操作都是局部的，每一个像素只能感知到一定数量的邻居像素，导致最后提取出的特征也只有局部信息，而且每个邻居像素重要性也是一致的；因而在文字识别中只能识别局部特征，不能识别全局特征，导致文字识别不准确。

发明内容

本发明提供一种基于神经网络的文字识别方法、装置、电子设备及计算机可读存储介质，其主要目的在于提高了文字识别的准确率。

为实现上述目的，本发明提供的一种基于神经网络的文字识别方法，包括：

通过预先训练好的卷积神经网络模型的卷积层对待识别文字图像依次进行去均值归一化和特征提取处理，获取所述待识别文字图像的文字图像特征；

通过所述卷积神经网络模型的池化层对所述文字图像特征进行降维处理，得到降维后的文字图像特征；

通过所述卷积神经网络模型的Softmax层对所述文字图像特征进行处理，获取所述文字图像特征的权重；

将所述降维后的文字图像特征与所述文字图像特征的权重相乘，以获取加权后的文字图像特征；

通过Transform特征解码器对所述加权后的文字图像特征进行处理，获取文字图像全局特征；

通过所述卷积神经网络模型对所述文字图像全局特征进行识别，获取与所述文字图像全局特征相对应的文字数据。

可选地，所述通过预先训练好的卷积神经网络模型的卷积层对待识别文字图像进行去均值归一化和特征提取处理，包括如下步骤：

根据预设的图像缩放方式，对所述识别文字图像进行图像缩放处理，得到基础文字图像；

根据预设的图像裁剪方式对所述基础文字图像进行图像裁剪，得到标准文字图像；

对所述标准文字图像进行去均值处理以及归一化处理，得到去均值归一化文字图像；

通过所述卷积神经网络模型的卷积层对所述去均值归一化文字图像进行文字特征提取，得到所述待识别文字图像的文字图像特征。

可选地，所述通过所述卷积神经网络模型的池化层对所述文字图像特征进行降维处理，得到降维后的文字图像特征，其中，计算方式如下：

其中，h为高为、w为宽，均kernel为过滤器的长宽，pad为填充,Stride为步长。

可选地，所述通过所述卷积神经网络模型的Softmax层对所述文字图像特征进行处理，输出所述文字图像特征的权重；其中，计算方式如下：

Softmax(z)＝Softmax(W^Tx+b)

其中，x为全连接层的输入，W^Tx为权重，b为偏置项，Softmax(z)为输出的概率。

可选地，所述通过Transform特征解码器对所述加权后的文字图像特征进行处理，获取文字图像整体特征，包括如下步骤：

所述加权后的文字图像特征依次输入到1*1维卷积层、归一化层、1*1维卷积层三个自注意力模块，其中，所述Transform特征解码器包括1*1维卷积层、归一化层、1*1维卷积层)三个自注意力模块；

所述加权后的文字图像特征经过所述1*1维卷积层、归一化层、1*1维卷积层三个自注意力模块后，通过线性层映射到输出空间，再经过softmax进行输出，从而获取文字图像全局特征。

为了解决上述问题，本发明还提供一种基于神经网络的文字识别装置，所述装置包括：

文字图像特征获取模块，用于通过预先训练好的卷积神经网络模型的卷积层对待识别文字图像依次进行去均值归一化和特征提取处理，获取所述待识别文字图像的文字图像特征；

降维文字图像特征获取模块，通过所述卷积神经网络模型的池化层对所述文字图像特征进行降维处理，得到降维后的文字图像特征；

文字图像特征的权重获取模块，用于通过所述卷积神经网络模型的Softmax层对所述文字图像特征进行处理，获取所述文字图像特征的权重；

加权文字图像特征获取模块，用于将所述降维后的文字图像特征与所述文字图像特征的权重相乘，以获取加权后的文字图像特征；

文字图像全局特征获取模块，用于通过Transform特征解码器对所述加权后的文字图像特征进行处理，获取文字图像全局特征；

文字数据获取模块，用于通过所述卷积神经网络模型对所述文字图像全局特征进行识别，获取与所述文字图像全局特征相对应的文字数据。

所述加权后的文字图像特征依次输入到1*1维卷积层、归一化层、1*1维卷积层三个自注意力模块，其中，所述Transform特征解码器包括1*1维卷积层、归一化层、1*1维卷积层三个自注意力模块；

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现上述所述的基于神经网络的文字识别方法。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于神经网络的文字识别方法。

本发明实施例通过卷积神经网络模型对待识别文字图像进行处理，得到文字图像特征，并对文字图像特征降维，以及对降维后的文字图像特征进行加权处理，通过Transform特征解码器对加权后的文字图像特征进行处理，获取文字图像全局特征；本发明通过卷积神经网络模型和Transform特征解码器相互作用下在进行文字识别时不但识别待识别文字图像的局部特征，还能够识别全局特征，从而提高文字识别的准确率。

附图说明

图1为本发明一实施例提供的基于神经网络的文字识别方法的流程示意图；

图2为本发明一实施例提供的基于神经网络的文字识别装置的模块示意图；

图3为本发明一实施例提供的实现基于神经网络的文字识别方法的电子设备的内部结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于神经网络的文字识别方法。参照图1所示，为本发明一实施例提供的基于神经网络的文字识别方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于神经网络的文字识别方法包括：

S1：通过预先训练好的卷积神经网络模型的卷积层对待识别文字图像依次进行去均值归一化和特征提取处理，获取所述待识别文字图像的文字图像特征；

S2：通过所述卷积神经网络模型的池化层对所述文字图像特征进行降维处理，得到降维后的文字图像特征；

S3：通过所述卷积神经网络模型的Softmax层对所述文字图像特征进行处理，获取所述文字图像特征的权重；

S4：将所述降维后的文字图像特征与所述文字图像特征的权重相乘，以获取加权后的文字图像特征；

S5：通过Transform特征解码器对所述加权后的文字图像特征进行处理，获取文字图像全局特征；

S6：通过所述卷积神经网络模型对所述文字图像全局特征进行识别，获取与所述文字图像全局特征相对应的文字数据。

上述为本发明人工智能的文字识别的基本过程，其中，S1：通过预先训练好的卷积神经网络模型的卷积层对待识别文字图像依次进行去均值归一化和特征提取处理，获取所述待识别文字图像的文字图像特征。其中，获取待识别文字图像。其中，待识别文字图像上包括待识别的文字信息，具体地，通过识别装置获取待识别图片，待识别图片可以是变电站设备指示牌、安全警示牌和路标指示牌等，待识别图片上有待识别的文字信息，以得到待识别文字图像的文字信息。

此外，在本发明的实施例中，待识别文字图像获取的方式也可以是手动导入或者自动定时从数据库中获取，从该图像链接地址中获取该地址对应保存的待识别的文字图像。优选地，采用自动定时获取待识别的文字图像。

其中，通过预先训练好的卷积神经网络模型对所述待识别文字图像进行处理，获取去均值归一化文字图像，以及对所述去均值归一化文字图像进行处理，获取文字图像特征。

具体地，识别装置在接收到待识别图片后，将待识别图片输入到预先创建并训练好的卷积神经网络模型中，卷积神经网络模型对待识别图片进行处理，详细的处理过程如下：

S11：根据预设的图像缩放方式，对所述识别文字图像进行图像缩放处理，得到基础文字图像。

具体地，按照预设的图像缩放方式，对待识别的文字图像进行图像缩放处理具体可以是对待识别的文字图像进行等比例缩放，即长和宽以相同的比例进行缩放，得到i*j像素的缩放图像，该i*j像素的缩放图像即处理后得到的基础文字图像，其中，i为预设的短边的边长。

也是说，待识别的文字图像为矩形图像，通过等比例缩放，将待识别的文字图像的短边缩放到i个像素大小，以便于后续快速准确地进行特征提取。并且，i的大小可根据实际需要进行设置，此处不作具体限制。

S12：根据预设的图像裁剪方式对所述基础文字图像进行图像裁剪，得到标准文字图像。

具体地，将基础文字图像进行等比例裁剪，即长和宽以相同的比例进行裁剪，得到M个t*s像素的裁剪图像，作为标准文字图像，其中，t为短边边长。

S13：对所述标准文字图像进行去均值处理以及归一化处理，得到去均值归一化文字图像。

具体地，由于拍摄的角度、距离，以及文字的书写等因素的影响，获取到的待识别的文字图像可能会存在质量不高，直接进行识别文字识别，容易导致文字识别的效率和准确率降低，因此为了实现对待识别的文字图像的快速有效的识别，本实施例通过预先训练好的卷积神经网络模型的输入层定义中的图像处理方法，对待识别的文字图像进行预处理，得到处理后的若干个去均值归一化文字图像，能够增强重要文字信息的可检测性和最大限度地简化数据，降低后续步骤对文字识别运算量，从而提高对文字识别的效率和准确率。

其中，对待识别的文字图像进行预处理具体可以包括归一化图像和复原校正图像退化等图像处理过程。

其中，归一化图像是指某些因素或变换对图像一些性质的影响可通过归一化处理得到消除或减弱，使得图像的这些性质在给定变换下具有不变性质的一种图像标准形式，例如，图像的某些性质，如图像的面积和周长，对图像进行变换归一化，使得图像的面积和周长在坐标旋转的变换下具有不变的性质，从而图像的面积和周长可以被选作测量图像的重要依据。常用的归一化方法包括灰度归一化、几何归一化和变换归一化。

在提取特征之前，需要对每个标准文字图像进行数据预处理，在本发明实施例中，优选的数据预处理方法为先进行去均值处理，再进行归一化处理，归一化处理后加快了梯度下降求最优解的速度，即提升了处理的效率，同时，有利于提高识别精度，从而提高文字识别的效率。

在本发明的实施例中，通过卷积神经网络模型的卷积层对去均值归一化文字图像进行文字特征提取，得到文字图像特征。

具体地，卷积层(Convolutional layer)由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积处理的目的是得到表示不同特征的卷积数据，即方便后续提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，越深层级的网路能从低级特征中迭代提取更复杂的特征。

通过卷积神经网络模型的卷积层定义，对去均值归一化文字图像进行文字的特征提取是为了能够有效提取每个去均值归一化文字图像中的重要特征信息，剔除每个去均值归一化文字图像中的不必要特征信息，然后对提取到的特征进行组合，得到去均值归一化文字图像对应的N*N的文字特征矩阵，是为了对提取到的重要特征信息进行保护，避免重要特征信息的丢失，以及将提取到的特征以矩阵的形式进行保存，使得图像的中的重要特征数据化，能够提高计算效率，从而提高对文字识别的效率。

S2：通过所述卷积神经网络模型的池化层对所述文字图像特征进行降维处理，得到降维后的文字图像特征。

具体地，通过所述卷积神经网络模型的池化层对所述文字图像特征进行降维处理，获取降维后的文字图像特征；其中，具体的计算公式如下：

其中，h为高为、w为宽，均kernel为过滤器的长宽，pad为填充,Stride为步长。在本发明的一个具体的实施中，将输入文字图像特征C*H*W，变为C*HW，大小，其中，C：图像或者特征的维度；H：图像的高度；W：图像的宽度；具体地，原始图像是一种H*W*3的数据，3为RGB三个通道为原始图像输入通道，通过每一层Conv后，会生成高维特征这个特征就是C，C*HW变换是一种内存变换，将三维数据变成二维数据。

针对每个文字特征，根据卷积神经网络模型的池化层定义，对文字特征进行特征降维处理，得到降维后的1*1的目标特征矩阵，其中，针对每个文字特征矩阵，按照预设的矩阵切割方式，对文字特征矩阵进行切割，得到切割后的特征子矩阵。从每个特征子矩阵中，选取数值最大的文字特征值，作为最大特征值。将每个最大特征值组成k*k的基础特征矩阵，其中，k为正整数，且k小于等于N。：将基础特征矩阵作为新的文字特征矩阵，并重复执行按照矩阵切割方式进行的切割处理，以及最大特征值的提取处理，直到得到1*1的基础特征矩阵，将1*1的基础特征矩阵作为1*1的目标特征矩阵。

在本实施例中，通过按照预设的矩阵切割方式，对每个文字特征矩阵进行切割，得到切割后的特征子矩阵，并从每个特征子矩阵中，选取数值最大的文字特征值，作为最大特征值，将每个最大特征值组成k*k的基础特征矩阵，能够将冗余信息有效剔除，保证提取到的文字特征的高精度，然后，将k*k的基础特征矩阵作为新的文字特征矩阵，并重复执行按照矩阵切割方式进行的切割处理，以及最大特征值的提取处理，直到得到1*1的基础特征矩阵，将1*1的基础特征矩阵作为1*1的目标特征矩阵，并将1*1的目标特征矩阵中的目标特征值，能进一步将冗余信息进行消除，实现文字特征精度最大化，从而提高文字识别的准确度。

S3：通过所述卷积神经网络模型的Softmax层对所述文字图像特征进行处理，获取所述文字图像特征的权重。

具体地，softmax层是对神经网络的输出结果进行了一次换算，将输出结果用概率的形式表现出来。在本发明的实施例中，通过softmax层输出文字图像特征的权重；其中，计算方式如下：

Softmax(z)＝Softmax(W^Tx+b)

在本发明的实施例中，通过Softmax层能够得到一个全局上下文的权重张量，形状也为HW*1*1。也就是：将文字图像特征C*H*W通过Softmax层处理，得到HW*1*1。

S4：将所述降维后的文字图像特征与所述文字图像特征的权重相乘，以获取加权后的文字图像特征。

在步骤S3和S4的基础上，将C*HW的输入和HW*1*1的权重张量相乘，即：对文字图像特征进行加权，得到C*1*1并输出。

S5：通过Transform特征解码器对所述加权后的文字图像特征进行处理，获取文字图像全局特征。

具体地，Transform特征解码器包括Conv(1*1)、LayerNorm、Conv(1*1)(1*1维卷积层、归一化层、1*1维卷积层)三个自注意力模块。其中，这三个自注意力模块可以学习文字和图像的对齐关系以达到精准的解码，这种对齐关系可以理解为查询，对图像中不同位置进行查询并且给出正确文字解码，这种查询可以指导解码器对位置进行精确对齐。

在本发明中Transformer特征解码器解码的具体流程，举例说明如下：

假设当前位置为T0，预测T1是什么字符；

第一步：输入一个T*D的张量，其中T表示解码后最大字符的长度，D为特征维度，并将特殊字符<sos>填在第一个位置T0。

第二步：经过三个自注意力模块(Conv(1*1)、LayerNorm、Conv(1*1))，每个自注意力模块对文字图像特征C*HW进行加权；其中，每个自注意力模块，有三个输入，分别为：Q、K和V；其中Q和K相等是编码后的图像特征，V是输入的文字T*D张量。

第三步：每个自注意力模块，将Q和K相乘后进行Softmax，得到一个权重向量，用这个权重向量和V相乘，也就说，相当于关注到T*D中的不同的位子。

第四步：经过三个自注意力模块后,通过一个维度为V(字典大小)线性层映射到输出空间，再经过softmax进行输出。

第五步：最后对T1当前位子选择概率最大的那个字符。

第六步：重复以上步骤，直到解码玩最大长度T，或者遇到<eos>结束。

本发明实施例卷积神经网络模型对待识别文字图像进行处理，得到文字图像特征，并对文字图像特征降维，以及对降维后的文字图像特征进行加权处理，通过Transform特征解码器对加权后的文字图像特征进行处理，获取文字图像全局特征；本发明通过卷积神经网络模型和Transform特征解码器相互作用下在进行文字识别时不但识别待识别文字图像的局部特征，还能够识别全局特征，从而提高文字识别的准确率。

如图2所示，是本发明基于神经网络的文字识别装置的功能模块图。

本发明所述基于神经网络的文字识别装置100可以安装于电子设备中。根据实现的功能，所述文字识别装置可以包括文字图像特征获取模块101、降维文字图像特征获取模块102、文字图像特征的权重获取模块103、加权文字图像特征获取模块104、文字图像全局特征获取模块105、文字数据获取模块106。本发所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

文字图像特征获取模块101，用于通过预先训练好的卷积神经网络模型的卷积层对待识别文字图像依次进行去均值归一化和特征提取处理，获取所述待识别文字图像的文字图像特征。

首先，获取待识别文字图像。其中，待识别文字图像上包括待识别的文字信息，具体地，通过识别装置获取待识别图片，待识别图片可以是变电站设备指示牌、安全警示牌和路标指示牌等，待识别图片上有待识别的文字信息，以得到待识别文字图像的文字信息。

然后，通过预先训练好的卷积神经网络模型对所述待识别文字图像进行处理，获取去均值归一化文字图像。

第一步：根据预设的图像缩放方式，对所述识别文字图像进行图像缩放处理，得到基础文字图像。

第二步：根据预设的图像裁剪方式对所述基础文字图像进行图像裁剪，得到标准文字图像。

第三步：对所述标准文字图像进行去均值处理以及归一化处理，得到去均值归一化文字图像。

其中，通过所述卷积神经网络模型对所述去均值归一化文字图像进行处理，获取文字图像特征。

降维文字图像特征获取模块102，通过所述卷积神经网络模型的池化层对所述文字图像特征进行降维处理，得到降维后的文字图像特征。

具体地，通过所述卷积神经网络模型的池化层对所述文字图像特征进行降维处理，获取降维后的文字图像特征。

在本发明的一个具体的实施中，将输入文字图像特征C*H*W，变为C*HW，大小，其中，C：图像或者特征的维度；H：图像的高度；W：图像的宽度；具体地，原始图像是一种H*W*3的数据，3为RGB三个通道为原始图像输入通道，通过每一层Conv后，会生成高维特征这个特征就是C，C*HW变换是一种内存变换，将三维数据变成二维数据。

文字图像特征的权重获取模块103，用于通过所述卷积神经网络模型的Softmax层对所述文字图像特征进行处理，获取所述文字图像特征的权重。

Softmax(z)＝Softmax(W^Tx+b)

加权文字图像特征获取模块104，用于将所述降维后的文字图像特征与所述文字图像特征的权重相乘，以获取加权后的文字图像特征。其中，将C*HW的输入和HW*1*1的权重张量相乘，即：对文字图像特征进行加权，得到C*1*1并输出。

文字图像全局特征获取模块105，用于通过Transform特征解码器对所述加权后的文字图像特征进行处理，获取文字图像全局特征。

具体地，Transform特征解码器包括Conv(1*1)、LayerNorm、Conv(1*1)三个自注意力模块。其中，这三个自注意力模块可以学习文字和图像的对齐关系以达到精准的解码，这种对齐关系可以理解为查询，对图像中不同位置进行查询并且给出正确文字解码，这种查询可以指导解码器对位置进行精确对齐。

假设当前位置为T0，预测T1是什么字符；

第五步：最后对T1当前位子选择概率最大的那个字符。

文字数据获取模块106，用于通过所述卷积神经网络模型对所述文字图像全局特征进行识别，获取与所述文字图像全局特征相对应的文字数据。

本发明的文字识别装置实施例中，通过卷积神经网络模型对待识别文字图像进行处理，得到文字图像特征，并对文字图像特征降维，以及对降维后的文字图像特征进行加权处理，通过Transform特征解码器对加权后的文字图像特征进行处理，获取文字图像全局特征；本发明通过卷积神经网络模型和Transform特征解码器相互作用下在进行文字识别时不但识别待识别文字图像的局部特征，还能够识别全局特征，从而提高文字识别的准确率。

如图3所示，是本发明实现基于神经网络的文字识别方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如文字识别程序12。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如数据稽核程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如数据稽核程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图2示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的基于神经网络的文字识别程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

具体地，所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于神经网络的文字识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于神经网络的文字识别方法，其特征在于，所述通过预先训练好的卷积神经网络模型的卷积层对待识别文字图像进行去均值归一化和特征提取处理，包括如下步骤：

3.如权利要求1所述的基于神经网络的文字识别方法，其特征在于，所述通过所述卷积神经网络模型的池化层对所述文字图像特征进行降维处理，得到降维后的文字图像特征，其中，计算方式如下：

4.如权利要求1所述的基于神经网络的文字识别方法，其特征在于，所述通过所述卷积神经网络模型的Softmax层对所述文字图像特征进行处理，输出所述文字图像特征的权重；其中，计算方式如下：

Softmax(z)＝Softmax(W^Tx+b)

5.如权利要求1所述的基于神经网络的文字识别方法，其特征在于，所述通过Transform特征解码器对所述加权后的文字图像特征进行处理，获取文字图像整体特征，包括如下步骤：

所述加权后的文字图像特征经过所述1*1维卷积层、归一化层、1*1维卷积层的三个自注意力模块后，通过线性层映射到输出空间，再经过softmax进行输出，从而获取文字图像全局特征。

6.一种基于神经网络的文字识别装置，其特征在于，所述装置包括：

7.如权利要求6所述的基于神经网络的文字识别装置，其特征在于，所述通过预先训练好的卷积神经网络模型的卷积层对待识别文字图像进行去均值归一化和特征提取处理，包括如下步骤：

8.如权利要求6所述的基于神经网络的文字识别装置，其特征在于，所述通过Transform特征解码器对所述加权后的文字图像特征进行处理，获取文字图像整体特征，包括如下步骤：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至5中任一所述的基于神经网络的文字识别方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一所述的基于神经网络的文字识别方法。