CN113792741A

CN113792741A - 文字识别方法、装置、设备及存储介质

Info

Publication number: CN113792741A
Application number: CN202111094243.2A
Authority: CN
Inventors: 陈昊
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2021-12-14
Anticipated expiration: 2041-09-17
Also published as: CN113792741B

Abstract

本申请涉及基于人工智能的图像识别，提供一种文字识别方法、装置、设备及计算机可读存储介质，该方法包括：获取待识别图像；将所述待识别图像输入至训练好的字符识别模型的特征提取子模型，得到所述特征提取子模型输出的待识别图像对应的第一特征矩阵；基于所述字符识别模型的矩阵处理子模型，对所述第一特征矩阵进行分割及编码，得到多个第一特征子矩阵；将所述多个第一特征子矩阵输入至所述字符识别模型的字符预测子模型，得到所述字符预测子模型输出的所述待识别图像上的文字信息；输出所述文字信息。可以提升文字识别的精确度。本申请还涉及区块链技术，训练好的字符识别模型可以存储在区块链中。

Description

文字识别方法、装置、设备及存储介质

技术领域

本申请涉及计算机视觉识别技术领域，尤其涉及一种文字识别方法、装置、设备及计算机可读存储介质。

背景技术

在计算机视觉和模式识别领域，文字识别是指让计算机自动地识别图片中的文字内容。自然场景文字识别，具体是指对于文字为主体的自然场景图片，识别图片中的所有文字内容。实现自然场景文字的自动化识别，在提高人们生产生活效率、图像内容理解、机器认知环境等方面具有重大意义。

目前，基于神经网络的一些文字识别方法被提出来。这些方法利用神经网络自适应选取特征、对噪声鲁棒性较强的特点，在文字识别问题上表现优异。这些方法通常先使用卷积神经网络(Convolutional Neural Network，简称CNN)提取图像的特征，再使用循环神经网络(Recurrent Neural Network，简称RNN)进行序列建模，按次序预测图像中的每个文字。其中，长短时记忆网络(Long Short Term Memory Network，简称LSTM)是常用一种的RNN结构，然而，这些方法仍然存在缺陷，它们仅仅使用文字类别标签对神经网络进行监督，但是文字类别标签提供的指导信息并不充分。当图像中的文字形体较为接近，文字随机性较高时，这些方法并不能够提取出文字中具有辨识力的特征，导致识别精度不够理想。

发明内容

本申请的主要目的在于提供一种文字识别方法、装置、设备及计算机可读存储介质，旨在提高文字识别的准确性。

第一方面，本申请提供一种文字识别方法，所述文字识别方法包括以下步骤：

获取待识别图像；

将所述待识别图像输入至训练好的字符识别模型的特征提取子模型，得到所述特征提取子模型输出的待识别图像对应的第一特征矩阵；

基于所述字符识别模型的矩阵处理子模型，对所述第一特征矩阵进行分割及编码，得到多个第一特征子矩阵；

将所述多个第一特征子矩阵输入至所述字符识别模型的字符预测子模型，得到所述字符预测子模型输出的所述待识别图像上的文字信息；

输出所述文字信息。

第二方面，本申请还提供一种文字识别装置，所述文字识别装置包括：

图像获取模块，用于获取待识别图像；

特征提取模块，用于将所述待识别图像输入至训练好的字符识别模型的特征提取子模型，得到所述特征提取子模型输出的所述待识别图像对应的第一特征矩阵；

矩阵处理模块，用于基于所述字符识别模型的矩阵编码子模型，对所述第一特征矩阵进行分割及编码，得到多个第一特征子矩阵；

文字信息预测模块，用于将所述多个第一特征子矩阵输入至所述字符识别模型的字符预测子模型，得到所述字符预测子模型输出的所述待识别图像上的文字信息；

文字信息输出模块，用于输出所述文字信息。

第三方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的文字识别方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的文字识别方法的步骤。

本申请提供一种文字识别方法、装置、设备及计算机可读存储介质，方法包括：获取待识别图像；将所述待识别图像输入至训练好的字符识别模型的特征提取子模型，得到所述特征提取子模型输出的待识别图像对应的第一特征矩阵；基于所述字符识别模型的矩阵处理子模型，对所述第一特征矩阵进行分割及编码，得到多个第一特征子矩阵；将所述多个第一特征子矩阵输入至所述字符识别模型的字符预测子模型，得到所述字符预测子模型输出的所述待识别图像上的文字信息；输出所述文字信息。本申请通过对图像对应的特征矩阵进行分割及编码，以及对分割得到的每一个子矩阵进行注意力计算和预测，以完成对图像上文字的识别，可以对图像上文字的细微特征进行识别，以区别文字中细微的差别，从而提高文字识别的精确度。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文字识别方法的流程示意图；

图2为本申请实施例提供的一种字符识别模型的示意性框图；

图3为本申请实施例提供的另一种字符识别模型的示意性框图；

图4为本申请实施例提供的一种文字识别装置的示意性框图；

图5为本申请一实施例涉及的计算机设备的结构示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请实施例提供一种文字识别方法、装置、计算机设备及计算机可读存储介质。其中，该文字识别方法可应用于终端设备中该终端设备可以是平板电脑、笔记本电脑、台式电脑等电子设备。也可以应用于服务器中，该服务器可以是单独的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请的实施例提供的一种文字识别方法的流程示意图。

如图1所示，该文字识别方法包括步骤S101至步骤S105。

步骤S101、获取待识别图像。

示例性的，待识别图像可以是获取得到的初始图像，如报纸、文稿、广告牌、名片等等包括文字的图像，可以理解的，可以通过拍摄装置对物体进行拍摄，和/或通过扫描装置对物体进行扫描，以得到初始图像，以及将初始图像作为待识别图像。

示例性的，还可以在获取初始图像后，可以对初始图像进行预处理得到待识别图像，其中，预处理可以是对初始图像进行灰度处理。将得到的待识别图像输入字符识别模型，可以减轻字符识别模型的运算量，提升字符识别模型的处理速率；使字符识别模型更能关注图像中的文字特征，从而得到更好地识别结果。

在一些实施例中，所述获取待识别图像包括：获取初始图像；对所述初始图像进行灰度归一化处理，得到所述待识别图像。

示例性的，获取到初始图像后，可以对初始图像进行灰度归一化处理，得到待识别图像，可以理解的，可以根据初始图像中每个像素的RGB值对初始图像进行灰度归一化处理，得到灰度值范围在-1～1之中的待识别文字灰度图，并将待识别文字灰度图作为待识别图像。

示例性的，将对初始图像进行预处理后得到的待识别图像，如待识别文字灰度图输入到字符识别模型中，以进行文字的识别。

步骤S102、将所述待识别图像输入至训练好的字符识别模型的特征提取子模型，得到所述特征提取子模型输出的待识别图像对应的第一特征矩阵。

示例性的，将待识别图像，或将待识别图像经预处理后得到的待识别文字图像输入训练好的字符识别模型中，以对图像中的文字进行识别。

示例性的，训练好的字符识别模型可以存储在区块链中，本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

可以理解的，服务器在需要使用字符识别模型时，可以向区块链进行广播，从而确定字符识别模型的存储节点或存储地址，以提取字符识别模型。

示例性的，字符识别模型包括特征提取子模型，将待识别图像输入字符识别模型的特征提取子模型中，以基于特征提取子模型对待识别图像进行特征提取，可以得到特征提取子模型输出的待识别图像对应的第一特征矩阵。

可以理解的，特征提取可以是向量编码处理，根据待识别文字图像中的灰度值对待识别文字图像进行编码处理，以得到第一特征矩阵，可以理解的，第一特征矩阵中的向量元可以用于指示待识别文字图像中的某一区域或某一像素的灰度值。

示例性的，特征提取子模型包括CNN层，基于人工智能的CNN层能够对待识别图像进行向量编码处理，得到第一特征矩阵。

步骤S103、基于所述字符识别模型的矩阵处理子模型，对所述第一特征矩阵进行分割及编码，得到多个第一特征子矩阵。

示例性的，字符识别模型还包括矩阵处理子模型，通过矩阵处理子模型，可以对第一特征矩阵进行分割、以及编码处理，得到多个第一特征子矩阵。

在一些实施例中，所述对所述第一特征矩阵进行分割及编码，得到多个第一特征子矩阵，包括：按照预设的子矩阵的列数量，将所述第一特征矩阵分割为多个子矩阵；对各所述子矩阵进行时序编码处理，得到多个第一特征子矩阵。

示例性的，对第一特征矩阵进行分割，得到多个子矩阵可以是对第一特征矩阵按照第一特征矩阵的列，对第一特征矩阵进行分割。

示例性的，可以通过输入指令确定子矩阵的列数量，以及通过输入的待识别图像对应的大小或清晰度确定子矩阵的列数量。

例如，待识别图像的清晰度与子矩阵的列数量呈正相关。

具体的，基于预设的子矩阵的列数量，确定第一特征矩阵的列数量，并按照第一特征矩阵的列数量对第一特征矩阵进行分割，得到多个子矩阵，如第一特征矩阵大小为3×3，预设的子矩阵的列数量为1，对第一特征矩阵进行分割，得到3个大小为3×1的子矩阵。

具体的，当预设的子矩阵的列数量为2时，对大小为3×4的第一特征矩阵进行分割，得到2个大小为3×2的子矩阵。

示例性的，矩阵处理子模型包括LSTM层，其中，LSTM层用于进行时序编码，LSTM层包括多个LSTM通道。

示例性的，将子矩阵输入到LSTM通道中，以通过LSTM通道对子矩阵进行时序编码处理，得到LSTM通道输出的第一特征子矩阵。

示例性的，每一个LSTM通道对应处理一个子矩阵，在多个LSTM通道中，得到多个LSTM通道对应输出的多个第一特征子矩阵。

示例性的，每一个LSTM通道相互连接，从而LSTM通道能够通过前向的连接关系，以及后向的连接关系，对子矩阵进行时序编码。在一些实施方式中，LSTM通道包括128个隐藏单元。

示例性的，通过LSTM通道对子矩阵进行时序编码，得到第一特征子矩阵，可以在字符识别模型的进行字符的识别过程中，不会因丢失位置关系而导致字体输出不正确或识别不正确的问题，提升了字符识别模型的识别准确率。

步骤S104、将所述多个第一特征子矩阵输入至所述字符识别模型的字符预测子模型，得到所述字符预测子模型输出的所述待识别图像上的文字信息。

示例性的，基于字符预测子模型，对第一特征子矩阵进行字符预测处理，得到待识别图像上的文字信息。

在一些实施例中，将所述多个第一特征子矩阵输入至所述字符识别模型的字符预测子模型，得到所述字符预测子模型输出的所述待识别图像上的文字信息，包括：基于所述字符预测子模型的注意力计算网络，对所述多个第一特征子矩阵进行权重计算，得到多个第二特征子矩阵；将多个所述第二子矩阵进行拼接，得到第二特征矩阵；将所述第二特征矩阵输入至所述字符预测子模型的字符预测网络，得到所述字符预测网络输出的所述待识别图像上的文字信息。

示例性的，如图2所示，图2为本申请一实施例提供的一种字符识别模型的示意性框图，字符预测子模型还包括注意力计算网络，基于注意力计算网络，对多个第一特征子矩阵进行权重计算，以得到多个第二特征子矩阵。

示例性的，第一特征子矩阵可以用于指示文字的偏旁、部首，如“礻”“衤”“木”，通过对第一特征子矩阵进行权重计算，可以凸显不同文字中的细微差别，例如对偏旁进行区分，从而达到提升文字识别精度的目的。

可以理解的，将从矩阵处理子模型输出的多个第一特征子矩阵输入到字符预测子模型的注意力计算网络中，以对第一特征子矩阵进行权重计算。

在一些实施例中，所述基于所述字符预测子模型的注意力计算网络，对所述多个第一特征子矩阵进行权重计算，得到多个第二特征子矩阵，包括：基于所述字符预测子模型的注意力计算网络，确定各所述第一特征子矩阵对应的权重值；根据各所述第一特征子矩阵的权重值，对各所述第一特征子矩阵进行权重计算，得到各所述第一特征子矩阵对应的第二特征子矩阵。

示例性的，在注意力计算网络中，确定每一个第一特征子矩阵对应的权重值，对各个第一特征子矩阵进行权重计算，得到权重计算后的第一特征子矩阵对应的第二特征子矩阵。

例如在区分“补”和“朴”时，“补”的第一特征子矩阵包括

和

“朴”的第一特征子矩阵包括

和

对矩阵

以及矩阵

进行更高的权重值的计算，以突出两个矩阵的差别，从而可以更好地区分“补”和“朴”。

示例性的，每一个特征子矩阵对应的权重值可以是预设好的，可以理解的，每一个特征子矩阵对应的权重值都是不一样的。

示例性的，注意力计算网络包括多个时序的注意力计算通道，每一个时序的注意力计算通道包括连接层(concat层)、全连接层和激活层(softmax层)，第一特征子矩阵依次进入连接层(concat层)、全连接层和激活层(softmax层)，以完成权重计算得到第二特征子矩阵。

可以理解的，在一个时序的注意力计算通道中，包括多个连接层(concat层)、多个全连接层和一个激活层(softmax层)，可以理解的，多个连接层(concat层)与多个第一特征子矩阵一一对应，连接层(concat层)可以用于与上一时间步的隐藏向量进行拼接，每一个连接层(concat层)输入一个第一特征子矩阵，然后进入与连接层(concat层)对应的全连接层确定第一特征子矩阵对应的权重值，并通过激活层(softmax层)对第一特征子矩阵以及对应的权重值进行相乘，得到第二特征子矩阵。其中，第一特征子矩阵对应的权重值与全连接层的参数相关。

例如，将

和

输入对应的连接层，以及经过全连接层和激活层处理后，得到第二特征子矩阵包括

和

因而能够显示出文字中的细微差别，在预测的时候能够更加关注文字中的细微特征。

示例性的，第一特征子矩阵对应的权重值可以通过下式确定：

其中，w_j，_i用于指示第j个时间步的第i个第一特征子矩阵对应的权重值，a_j，i表示第j个时间步的第i个第一特征子矩阵所对应的全连接层的参数，T_x用于指示第一特征子矩阵的总数量。

可以理解的，全连接层的参数可以通过训练模型进行调整。

例如，a可以通过以下关系式表示：

a_j，i＝f(g(h_i，s_j-1))，for i＝1,…，T_x

其中，f为模型训练后的函数，g(h_i，s_j-1)用于指示第j个时间步对应的连接层(concat层)的输入，s_j-1用于指示是第j-1个时间步中的字符预测网络的隐藏向量，j为大于0的自然数，T_x用于指示第一特征子矩阵的总数量。

示例性的，在其他不同时序的注意力计算通道中，对第一特征子矩阵进行的权重计算可以如上所述，在此不再撰述，可以理解的，不同全连接层对应的参数不一样，因此不同时序的注意力计算通道中第一特征子矩阵对应的权重值也是不一样的，因此第一特征子矩阵进行权重计算后，得到的第二特征子矩阵均是不一样的。

示例性的，对第一特征子矩阵进行权重计算得到第二特征子矩阵之后，可以对同一时间步的多个第二特征子矩阵进行拼接，以得到第二特征矩阵。

示例性的，拼接过程可以如下式表示：

其中，C_j用于指示第j个时间步对应的第二特征矩阵，w_j，i用于指示第j个时间步第i个第一特征子矩阵对应的权重值，h_i用于指示第i个第一特征子矩阵，T_x用于指示第一特征子矩阵的总数量。

示例性的，在同一个时间步的注意力计算通道中，将多个第二特征子矩阵进行拼接，得到第二特征矩阵。可以理解的，在其他时间步中也可以如上所述对其他时间步对应的注意力计算通道得到的第二特征子矩阵进行拼接，得到第二特征矩阵。

例如，将上述第二特征子矩阵进行拼接，得到第二特征矩阵，如

以使字符预测网络能够更加关注第二特征矩阵中的细微区域，以进行字符的预测。

示例性的，多个时间步的注意力计算通道可以同时进行权重计算，得到不同时序注意力计算通道对应的输出结果。

示例性的，将第二特征矩阵输入至字符预测网络中，以根据第二特征矩阵进行字符预测，得到待识别图像上的文字信息。

在一些实施例中，所述将所述第二特征矩阵输入至所述字符预测子模型的字符预测网络，得到所述字符预测网络输出的所述待识别图像上的文字信息，包括：基于所述字符预测网络的激活函数层，对所述第二特征矩阵进行预测处理，预测得到所述待识别图像上的文字信息。

示例性的，基于激活函数层，可以对第二特征矩阵进行预测处理，以预测得到待识别图像上的文字信息，可以理解的，激活函数层输出的是条件概率，可以通过条件概率确定对应的文字信息，以达到预测待识别图像上的文字信息的目的。

示例性的，可以通过第二特征矩阵中的每一列向量确定条件概率，例如一列向量均相同，该列向量对应“|”的字符的概率较大，通过对第二特征矩阵中的每一列向量进行预测，得到对应的偏旁、部首，从而完成对第二特征矩阵对应的文字信息预测。

示例性的，如图3所示，图3为本申请另一实施例提供的一种字符识别模型的示意性框图，字符预测网络还包括连接层(concat层)和LSTM层。可以理解的，连接层(concat层)、LSTM层和激活函数层依次连接，注意力计算网络与字符预测网络连接。因而，从注意力计算网络输出的第二特征矩阵能够依次进入连接层(concat层)、LSTM层以及激活函数层，以进行字符的预测。

可以理解的，图3仅示出一个时间步中的结构，注意力计算网络以及字符预测网络包括不同时间步的结构，每个时间步结构相同，在图中不予示出。其中，图中的全连接层数量仅为举例说明，不对全连接层的数量予以限定。

示例性的，字符预测网络包括多个不同时间步的连接层(concat层)、LSTM层和激活函数层，且与注意力计算网络中不同时间步的注意力计算通道一一对应，例如，在第一时间步中，多个第一特征子矩阵进入第一时间步对应的注意力计算通道进行权重计算，以及拼接处理，注意力计算通道输出的第二特征矩阵，将第二特征矩阵输出第一时间步对应的连接层(concat层)、LSTM层和激活函数层，以对第一时间步对应的第二特征矩阵完成字符的预测。可以理解的，其他时间步的处理也可如上所述。

示例性的，不同时间步可以用于多次预测，以提升预测的精确度，可以理解的，在每一次预测中，子矩阵对应的权重可能会不同，但对应的信息相同，例如

和

可以用于指示相同的信息，如表征“礻”，只是通过不同的注意力计算通道计算得到的不同第二特征子矩阵的计算结果。

示例性的，字符预测网络的连接层(concat层)还用于获取上一时间步预测得到的字符向量，以及将上一时间步预测得到的字符向量与当前时间步的第二特征矩阵进行拼接，拼接后输入至LSTM层中。

示例性的，若不存在上一时间步预测得到的字符向量，可以通过随机化向量输入至连接层(concat层)中。

示例性的，字符预测网络的LSTM层还用于获取上一时间步的LSTM层的隐藏向量，隐藏向量可以用于表征神经网络的记忆，通过在LSTM层中进行计算时得到，将上一时间步LSTM层得到的信息传递至下一时间步的LSTM层，以加强不同时间步的关联性。

示例性的，将LSTM层输出的结果输入至激活函数层中，以进行字符的预测，可以理解的，在激活函数层进行激活时，根据处理后的特征矩阵计算与特征矩阵对应每个目标字符的条件概率，其中，目标字符可以包括文字字符、数字字符、英文字符等，根据条件概率确定特征矩阵对应的目标字符，并进行输出。

示例性的，通过对第一特征矩阵进行分割，得到多个第一特征子矩阵，以及对每一个第一特征子矩阵进行对应的权重计算，可以提升对文字细微差别的识别，以提升对图像中的文字的识别精度。

S105、输出所述文字信息。

示例性的，待识别图像经过字符识别模型处理之后，会得到字符识别模型输出的文字信息，可以将文字信息输出到终端的显示装置中或发送给其他终端，以使需要的用户能够获取到文字信息。

在一些实施例中，所述方法还包括：获取训练数据，所述训练数据包括多个样本图像和各所述样本图像对应的目标文字信息；根据所述训练数据对所述字符识别模型进行训练，得到训练好的字符识别模型。

示例性的，获取训练数据，以对字符识别模型进行训练，其中，训练数据包括多个样本图像和各所述样本图像对应的目标文字信息。

示例性的，样本图像可以是历史的待识别图像，也即是经过识别过的图像，也可以是未经识别过的其他待识别图像。

示例性的，各所述样本图像对应的目标文字信息可以是人工进行标注的，也即是，工作人员通过人工处理，将在样本图像中的文字信息提取出来，得到目标文字信息。

将多个样本图像及各所述样本图像对应的目标文字信息输入字符识别模型，以对字符识别模型进行训练。

在一些实施例中，所述根据所述训练数据对所述字符识别模型进行训练，得到训练好的字符识别模型包括：将所述样本图像输入所述字符识别模型中，得到所述字符识别模型输出的所述样本图像对应的样本文字信息；基于预设损失值计算公式，根据所述样本文字信息和所述目标文字信息计算损失值；根据所述损失值调整所述字符识别模型的参数，得到训练好的字符识别模型。

示例性的，将样本图像输入字符识别模型，通过字符识别模型对样本图像进行字符的识别，具体的识别过程可如上述步骤S101-步骤S104，在此不再重复撰述，通过字符识别模型得到样本图像中的样本文字信息。

示例性的，基于预设损失值计算公式，对样本文字信息和目标文字信息进行损失值的计算，具体的，预设损失值计算公式可以如下:

其中，I用于指示第I个图像，y_t用于指示在第I个图像中预测得到的字符串的第t个字符，Loss_(I，y)用于指示在第I个图像中预测得到的字符串的损失值，L用于指示字符串中字符的总数量。

示例性的，通过预设损失值计算公式计算得到损失值，并根据损失值调整字符识别模型中的参数，如调整字符预测子模型的注意力计算通道中全连接层的参数a。

示例性的，通过损失值对字符识别模型进行调整，得到训练好的字符识别模型，并基于训练好的字符识别模型对待识别图像进行字符的识别，可以得到更精确的文字识别结果。

上述实施例提供的文字识别方法，基于人工智能对图像进行文字识别，通过对待识别图像对应的第一特征矩阵进行分割，得到多个第一特征子矩阵，对每一个第一特征子矩阵进行权重计算，以及通过多个时间步进行预测输出，可以对图像上文字的细微特征加以辨别，以提高文字识别的精确度。

请参阅图4，图4是本申请一实施例提供的一种文字识别装置的示意图，该文字识别装置可以配置于服务器或终端中，用于执行前述的文字识别方法。

如图4所示，该文字识别装置，包括：图像获取模块110、特征提取模块120、矩阵处理模块130、文字信息预测模块140、文字信息输出模块150。

图像获取模块110，用于获取待识别图像。

特征提取模块120，用于将所述待识别图像输入至训练好的字符识别模型的特征提取子模型，得到所述特征提取子模型输出的所述待识别图像对应的第一特征矩阵。

矩阵处理模块130，用于基于所述字符识别模型的矩阵编码子模型，对所述第一特征矩阵进行分割及编码，得到多个第一特征子矩阵。

文字信息预测模块140，用于将所述多个第一特征子矩阵输入至所述字符识别模型的字符预测子模型，得到所述字符预测子模型输出的所述待识别图像上的文字信息。

文字信息输出模块150，用于输出所述文字信息。

示例性的，矩阵处理模块130还包括矩阵分割子模块、矩阵编码处理子模块。

矩阵分割子模块，用于按照预设的子矩阵的列数量，将所述第一特征矩阵分割为多个子矩阵。

矩阵编码处理子模块，用于对各所述子矩阵进行时序编码处理，得到多个第一特征子矩阵。

示例性的，文字信息预测模块140还包括权重计算子模块、矩阵拼接子模块。

权重计算子模块，用于基于所述字符预测子模型的注意力计算网络，对所述多个第一特征子矩阵进行权重计算，得到多个第二特征子矩阵。

矩阵拼接子模块，用于将多个所述第二子矩阵进行拼接，得到第二特征矩阵。

文字信息预测模块140，还用于将所述第二特征矩阵输入至所述字符预测子模型的字符预测网络，得到所述字符预测网络输出的所述待识别图像上的文字信息。

示例性的，权重计算子模块还包括权重确定子模块。

权重确定子模块，用于基于所述字符预测子模型的注意力计算网络，确定各所述第一特征子矩阵对应的权重值。

权重计算子模块，还用于根据各所述第一特征子矩阵的权重值，对各所述第一特征子矩阵进行权重计算，得到各所述第一特征子矩阵对应的第二特征子矩阵。

示例性的，文字信息预测模块140还包括字符预测分类子模块。

字符预测分类子模块，用于基于所述字符预测网络的激活函数层，对所述第二特征矩阵进行预测处理，得到所述待识别图像上的文字信息。

示例性的，文字识别装置还包括训练数据获取模块、模型训练模块。

训练数据获取模块，用于获取训练数据，所述训练数据包括多个样本图像和各所述样本图像对应的目标文字信息。

模型训练模块，用于根据所述训练数据对所述字符识别模型进行训练，得到训练好的字符识别模型。

示例性的，模型训练模块还包括样本文字信息确定子模块、损失值计算子模块、参数调整子模块。

样本文字信息确定子模块，用于将所述样本图像输入所述字符识别模型中，得到所述字符识别模型输出的所述样本图像对应的样本文字信息。

样本答复语音特征向量确定子模块，用于将所述样本文本信息对应的样本语音信息输入所述意图识别模型的语音特征提取网络，得到样本答复语音特征向量。

损失值计算子模块，用于基于预设损失值计算公式，根据所述样本文字信息和所述目标文字信息计算损失值。

参数调整子模块，用于根据所述损失值调整所述字符识别模型的参数，得到训练好的字符识别模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的方法，可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

示例性地，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5，图5为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器或终端。

如图5所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括存储介质和内存储器。

存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种文字识别方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种文字识别方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取待识别图像；

输出所述文字信息。

在一个实施例中，所述处理器在实现对所述第一特征矩阵进行分割及编码，得到多个第一特征子矩阵时，用于实现：

按照预设的子矩阵的列数量，将所述第一特征矩阵分割为多个子矩阵；

对各所述子矩阵进行时序编码处理，得到多个第一特征子矩阵。

在一个实施例中，所述处理器在实现将所述多个第一特征子矩阵输入至所述字符识别模型的字符预测子模型，得到所述字符预测子模型输出的所述待识别图像上的文字信息时，用于实现：

基于所述字符预测子模型的注意力计算网络，对所述多个第一特征子矩阵进行权重计算，得到多个第二特征子矩阵；

将多个所述第二子矩阵进行拼接，得到第二特征矩阵；

将所述第二特征矩阵输入至所述字符预测子模型的字符预测网络，得到所述字符预测网络输出的所述待识别图像上的文字信息。

在一个实施例中，所述处理器在实现基于所述字符预测子模型的注意力计算网络，对所述多个第一特征子矩阵进行权重计算，得到多个第二特征子矩阵时，用于实现：

基于所述字符预测子模型的注意力计算网络，确定各所述第一特征子矩阵对应的权重值；

根据各所述第一特征子矩阵的权重值，对各所述第一特征子矩阵进行权重计算，得到各所述第一特征子矩阵对应的第二特征子矩阵。

在一个实施例中，所述处理器在实现将所述第二特征矩阵输入至所述字符预测子模型的字符预测网络，得到所述字符预测网络输出的所述待识别图像上的文字信息时，用于实现：

基于所述字符预测网络的激活函数层，对所述第二特征矩阵进行预测处理，得到所述待识别图像上的文字信息。

在一个实施例中，所述处理器在实现所述文字识别方法时，用于实现：

获取训练数据，所述训练数据包括多个样本图像和各所述样本图像对应的目标文字信息；

根据所述训练数据对所述字符识别模型进行训练，得到训练好的字符识别模型。

在一个实施例中，所述处理器在实现根据所述训练数据对所述字符识别模型进行训练，得到训练好的字符识别模型时，用于实现：

将所述样本图像输入所述字符识别模型中，得到所述字符识别模型输出的所述样本图像对应的样本文字信息；

基于预设损失值计算公式，根据所述样本文字信息和所述目标文字信息计算损失值；

根据所述损失值调整所述字符识别模型的参数，得到训练好的字符识别模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述文字识别的具体工作过程，可以参考前述文字识别控制方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请文字识别方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种文字识别方法，其特征在于，包括：

获取待识别图像；

输出所述文字信息。

2.如权利要求1所述的文字识别方法，其特征在于，所述对所述第一特征矩阵进行分割及编码，得到多个第一特征子矩阵，包括：

3.如权利要求1或2所述的文字识别方法，其特征在于，所述将所述多个第一特征子矩阵输入至所述字符识别模型的字符预测子模型，得到所述字符预测子模型输出的所述待识别图像上的文字信息，包括：

将多个所述第二子矩阵进行拼接，得到第二特征矩阵；

4.如权利要求3所述的文字识别方法，其特征在于，所述基于所述字符预测子模型的注意力计算网络，对所述多个第一特征子矩阵进行权重计算，得到多个第二特征子矩阵，包括：

5.如权利要求3所述的文字识别方法，其特征在于，所述将所述第二特征矩阵输入至所述字符预测子模型的字符预测网络，得到所述字符预测网络输出的所述待识别图像上的文字信息，包括：

6.如权利要求1或2所述的文字识别方法，其特征在于，所述方法还包括：

7.如权利要求6所述的文字识别方法，其特征在于，所述根据所述训练数据对所述字符识别模型进行训练，得到训练好的字符识别模型，包括：

8.一种文字识别装置，其特征在于，所述文字识别装置包括：

图像获取模块，用于获取待识别图像；

文字信息输出模块，用于输出所述文字信息。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的文字识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的文字识别方法的步骤。