CN114529927A

CN114529927A - 文字识别方法、装置及存储介质

Info

Publication number: CN114529927A
Application number: CN202210102527.XA
Authority: CN
Inventors: 王彦君; 马志国; 张飞飞
Original assignee: Beijing Dingshixing Education Consulting Co ltd
Current assignee: Beijing Dingshixing Education Consulting Co ltd
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-05-24

Abstract

本公开涉及一种文字识别方法、装置及存储介质，属于文字识别领域，所述方法包括：将文本图像输入视觉特征提取模型，得到对应所述文本图像的视觉特征信息；将所述视觉特征信息输入序列特征提取模型，得到所述文本图像中字符之间的序列信息；将所述序列信息输入序列分类模型，得到序列识别内容；根据所述序列识别内容，通过CTC算法处理得到所述文本图像对应的文本信息。通过视觉特征提取模型提取视觉特征，再基于序列特征提取模型提取序列信息，通过序列分类模型利用序列分类方式进行文字识别，可以在教育场景中对中英文混合的字符有较高的识别准确率。

Description

文字识别方法、装置及存储介质

技术领域

本公开涉及文字识别领域，具体地，涉及一种文字识别方法、装置及存储介质。

背景技术

在教育场景中，试卷、PPT、书籍等教学材料中有大量的文字，师生们需要提取图片格式下的文字内容，因此对于文字识别技术有着较大需求。

然而在相关技术中，针对文字识别的研究方向具有主要集中于场景字符识别诸如街景文字，以及以英文数据集为主要研究对象的特点。以试卷或书籍为例，教育场景的文字形态和表现形式与街景文字差距较大；且英文字符集数量较少，与汉字成千上万的字符集相比，有着巨大的悬殊，针对英文的识别算法不适应于汉字领域。以上两项对比导致业内主流文字识别算法在教育场景下表现欠佳。

发明内容

本公开的目的是提供一种文字识别方法、装置及存储介质，该方法能够用于解决相关技术中教育场景下文字识别准确率不高的问题。

为了实现上述目的，本公开第一方面提供一种文字识别方法，所述方法包括：

将文本图像输入视觉特征提取模型，得到对应所述文本图像的视觉特征信息；

将所述视觉特征信息输入序列特征提取模型，得到所述文本图像中字符之间的序列信息；

将所述序列信息输入序列分类模型，得到序列识别内容；

根据所述序列识别内容，通过CTC算法处理得到所述文本图像对应的文本信息。

可选地，所述视觉特征提取模型包括Inception块，所述Inception块包括多个串联的Inception层；所述Inception层中包括多个并联的卷积组件；所述卷积组件包括串联的卷积层、归一化层以及Relu激活层，所述多个卷积组件中至少包括两个卷积层的卷积核大小不同的卷积组件；

所述将文本图像输入视觉特征提取模型，得到对应所述文本图像的视觉特征信息包括：

将文本图像输入所述Inception块，得到所述多个串联的Inception层中最后一个Inception层输出的视觉特征信息。

可选地，所述视觉特征提取模型包括残差块，所述残差块包括多个串联的残差层；所述残差层包括两个卷积组件；所述卷积组件包括依次串联的卷积层、归一化层以及Relu激活层；所述两个卷积组件中第二个卷积组件的Relu激活层用于接收该卷积组件的归一化层的输出特征以及该残差层的输入特征，以输出对应该残差层的输入特征的视觉特征信息；

将所述文本图像输入所述残差块，得到所述多个残差连接的残差层中最后一个残差层输出的视觉特征信息。

可选地，所述视觉特征提取模型包括依次串联的第一Inception块、第二Inception块、第一残差块以及第二残差块；所述第一Inception块包括依次串联的第一卷积组件，与两个Inception层；所述第二Inception块包括依次串联的第二卷积组件，与四个Inception层；所述第一残差块包括第三卷积组件以及与所述第三卷积组件串联的两个残差连接的残差层；所述第二残差块包括第四卷积组件以及与所述第四卷积组件串联的四个残差连接的残差层；其中，所述第一卷积组件、第二卷积组件、第三卷积组件以及第四卷积组件的卷积核均为3*3，步长为1的卷积核；

所述文本图像为高32像素且宽W的图像，所述将文本图像输入视觉特征提取模型，得到对应所述文本图像的视觉特征信息包括：

将所述文本图像输入所述视觉特征提取模型，经过所述第一卷积组件、第二卷积组件、第三卷积组件以及第四卷积组件后，得到进行4次二倍下采样的尺寸

且通道数为512的第一特征图；

将所述第一特征图输入2*1的最大池化层，得到尺寸为

且通道数为512的视觉特征信息。

可选地，所述序列特征提取模型包括双向LSTM模块，所述双向LSTM模块包括两个LSTM组件，所述LSTM组件包括输入门、输出门和遗忘门；

所述将所述视觉特征信息输入序列特征提取模型，得到所述文本图像中字符之间的序列信息包括：

将所述视觉特征信息输入所述双向LSTM模块，得到所述双向LSTM模块输出的所述文本图像中字符之间的序列信息。

可选地，所述序列信息包括

组512维的特征向量，所述序列分类模型包括两层全连接网络；

所述将所述序列信息输入序列分类模型，得到序列识别内容包括：

将所述

组512维的特征向量输入所述序列分类模型，得到每一组所述特征向量归属于字符集中每一个字符的概率；

根据所述每一组所述特征向量归属于字符集中每一个字符的概率，得到包括

个字符序列的序列识别内容。

可选地，所述视觉特征提取模型、所述序列特征提取模型以及所述序列分类模型的训练包括：

将训练集输入未经训练的视觉特征提取模型，得到对应所述训练集中的训练图像的视觉特征信息；

将所述训练图像的视觉特征信息输入未经训练的序列特征提取模型，得到所述训练图像中字符之间的序列信息；

将所述训练图像中字符之间的序列信息输入未经训练的序列分类模型，得到所述训练图像对应的序列识别内容；

根据所述训练图像对应的序列识别内容，通过CTC算法处理得到所述训练图像对应的文本信息；

根据所述训练图像对应的文本信息以及所述训练集中对应所述训练图像的标注信息，基于交叉熵损失函数，对所述未经训练的视觉特征提取模型、序列特征提取模型以及序列分类模型的参数进行调整。

可选地，所述方法包括：

按照预设中英文比例合成扫描版式的包括文本内容标签的训练图像，并将中文扫描训练图像保存为第一数据集，将英文扫描训练图像保存为第二训练集；

按照预设中英文比例合成拍摄版式的包括文本内容标签的训练图像，并将中文拍摄训练图像保存为第三数据集，将英文拍摄训练图像保存为第四训练集；

分次提取第一预设数量个所述第一数据集以及第二数据集中的训练图像，得到第一图像集，将所述第一图像集作为所述训练集对所述未经训练的视觉特征提取模型、序列特征提取模型以及序列分类模型进行第一预设次数的预训练，得到经过预训练的视觉特征提取模型、序列特征提取模型以及序列分类模型；

分次提取第二预设数量个所述第一数据集以及第二数据集中的训练图像，得到第二图像集，并对该第二图像集中第一预设比例的训练图像进行图像增强，并将图像增强后的第二图像集作为所述训练集对所述经过与训练的视觉特征提取模型、序列特征提取模型以及序列分类模型进行第二预设次数的增强训练，得到经过增强训练的视觉特征提取模型、序列特征提取模型以及序列分类模型；

按照第一预设提取比例，分次提取第一数据集、第二数据集、第三数据集以及第四数据集中的训练图像，得到第三图像集，将所述第三图像集作为所述训练集对所述经过增强训练的视觉特征提取模型、序列特征提取模型以及序列分类模型进行第三预设次数的微调训练，得到经过微调的视觉特征提取模型、序列特征提取模型以及序列分类模型；

按照第二预设提取比例，分次提取第一数据集、第二数据集、第三数据集以及第四数据集中的训练图像，得到第四图像集，对所述第三图像集中第二预设比例的训练图像进行图像增强，将图像增强后的第四图像集作为所述训练集对所述经过微调的视觉特征提取模型、序列特征提取模型以及序列分类模型进行第三预设次数的增强微调训练，得到训练完成的视觉特征提取模型、序列特征提取模型以及序列分类模型。

本公开第二方面提供一种文字识别装置，所述装置包括：

视觉特征提取单元，用于将文本图像输入视觉特征提取模型，得到对应所述文本图像的视觉特征信息；

序列特征提取单元，用于将所述视觉特征信息输入序列特征提取模型，得到所述文本图像中字符之间的序列信息；

序列分类单元，用于将所述序列信息输入序列分类模型，得到序列识别内容；

确定单元，用于根据所述序列识别内容，通过CTC算法处理得到所述文本图像对应的文本信息。

本公开第三方面提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面中任一项所述方法的步骤。

通过上述技术方案，通过视觉特征提取模型提取视觉特征，再基于序列特征提取模型提取序列信息，通过序列分类模型利用序列分类方式进行文字识别，可以在教育场景中对中英文混合的字符有较高的识别准确率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种文字识别方法的流程图；

图2是根据一示例性实施例示出的一种卷积组件的示意图；

图3是根据一示例性实施例示出的一种Inception层的示意图；

图4是根据一示例性实施例示出的一种残差层的示意图；

图5是根据一示例性实施例示出的一种Inception块的示意图；

图6是根据一示例性实施例示出的一种残差块的示意图；

图7是根据一示例性实施例示出的一种视觉特征提取模型的示意图；

图8是根据一示例性实施例示出的一种文字识别装置的框图；

图9是根据一示例性实施例示出的一种电子设备的框图；

图10是根据一示例性实施例示出的一种电子设备的另一框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

具体地，业内常用的通用场景字符识别算法对教学素材文字的识别鲁棒性不足，原因有如下两点：

通用场景字符识别算法关注自然街景图像中的文字，这类文字常以不规则形态呈现，诸如透视畸变或弯曲等。因此通用场景字符识别算法的关注点在于如何适应文字的不规则分布。然而教育场景中，以试卷和书籍为例，文字的位置分布一般以文本行为单位，规整分布，与自然街景字符分布不同。

通用场景中文字的字符长度一般较短，如自然街景图像，文字内容一般是广告牌或店面文字标识，此类文本的字符数量较短。因此在设计识别算法时，可以不必考虑文字长度给识别带来的困难。然而教育场景中文本行中文字字符数量较大，书籍或试卷中单行文字数量可达50-80个，这给文字识别带来了较大的困难。综上通用场景文字识别算法对教育场景的文字识别适配性不高。

在相关技术中，存在通过字符级别实例分割和支付类别分类后序列化为文本识别内容，然而，字符级实例分割适用于自然场景图像中字符较大且字符间间距较大的情况，在教育场景中中英文字符常常密集分布，使用字符级分割，易出现相邻字符粘连的问题；且中文字符集数量巨大，使用字符区域分割和分类的方法，计算量和参数量较大，模型部署的落地成本较高。

图1是根据一示例性实施例示出的一种文字识别方法的流程图，该方法的执行主体可以是手机、个人电脑或者服务器等具备信息处理能力的电子设备，所述方法包括：

S101、将文本图像输入视觉特征提取模型，得到对应所述文本图像的视觉特征信息。

其中，由于针对文字识别，对于图像的颜色特征并不关注，因此该文本图像可以是经过处理后的灰度图像，即，该图像的通道数为1，以提高整体文字识别的鲁棒性。

S102、将所述视觉特征信息输入序列特征提取模型，得到所述文本图像中字符之间的序列信息。

S103、将所述序列信息输入序列分类模型，得到序列识别内容。

S104、根据所述序列识别内容，通过CTC(Connectionist TemporalClassfication，连结时序分类)算法处理得到所述文本图像对应的文本信息。

其中，可以理解的是，上述序列识别内容包括表示空的间隔符，该间隔符用于区分不同字符。经过以上CTC算法处理后，可以得到最终的识别结果，即文本图像对应的文本信息。

在本公开实施例中，通过视觉特征提取模型提取视觉特征，再基于序列特征提取模型提取序列信息，通过序列分类模型利用序列分类方式进行文字识别，可以在教育场景中对中英文混合的字符有较高的识别准确率。

在步骤S101中，该视觉特征提取模型可以包括Inception块(Inception Block)和/或残差块(Residual Block)，该Inception块与残差块中分别包括Inception层以及残差层。为了使得本领域技术人员更加理解本公开实施例提供的技术方案，本公开提供如图2所示的根据一示例性实施例示出的一种卷积组件的示意图，如图3所示的一种Inception层的示意图，以及如图4所示的一种残差层的示意图。

如图2所示，该卷积组件包括卷积层、BN层(即归一化层)以及Relu激活层，其中，K*K中K的大小表征该卷积组件卷积层的卷积核大小，例如，3*3的卷积组件即可表征该卷积组件卷积层的卷积核的大小为3*3，同理，1*1卷积组件即可表征该卷积组件卷积层的卷积核大小为1*1。

其中，通过设计归一化层，能够解决在训练过程中，中间层数据分布发生改变的问题，以防止梯度消失或爆炸、加快训练速度。

如图3所示，Inception层包括串联的两个3*3卷积组件，以及与该两个3*3卷积组件并联的一个3*3卷积组件以及一个1*1卷积组件。将输入该Inception层的特征图像分别输入3个并联的支路中，并将3个并联的支路的输出特征进行合并处理，得到该Inception层的输出的特征。其中两个串联式3*3的卷积，其感受野是5*5，在一些可能的实施方式中，上述串联的两个3*3卷积组件还可以是一个5*5的卷积组件。

如图4所示，残差层可以由两个3*3的卷积组件构成，在该残差层中，原始输入通过跳跃连接到第二个卷积组件的归一化层后，即，原始输入作为第二个卷积组件的Relu激活层的一个输入，第二个卷积组件的归一化层的输出作为该Relu激活层的另一输入。

在一些可选地实施例中，所述视觉特征提取模型包括Inception块，所述Inception块包括多个串联的Inception层；所述Inception层中包括多个并联的卷积组件；所述卷积组件包括串联的卷积层、归一化层以及Relu激活层，所述多个卷积组件中至少包括两个卷积层的卷积核大小不同的卷积组件；

可以理解的是，文字图像有一个较为常见的特点是：文字结构多样，如包含左右结构(如“体”“行”“联”)、上下结构(如“苗”“字”“岁”)、左中右结构(如“湖”“脚”“粥”)，上中下结构(如“宴”“莹”“禀”)等。此时设计单一尺寸的卷积核，难以有效地针对文字的不同结构提取相应的特征。

采用上述方案，利用Inception块，可以对输入特征图进行多尺寸的卷积操作，提取不同感受野的特征，从而提升文字图像的特征表达能力，便于提高卷积神经网络对不同结构文字的特征提取能力；同时也因为并联式卷积核的结构设计，可以加快模型运行速度，减少模型推理时的耗时。

在另一些实施例中，所述视觉特征提取模型包括残差块，所述残差块包括多个串联的残差层；所述残差层包括两个卷积组件；所述卷积组件包括依次串联的卷积层、归一化层以及Relu激活层；所述两个卷积组件中第二个卷积组件的Relu激活层用于接收该卷积组件的归一化层的输出特征以及该残差层的输入特征，以输出对应该残差层的输入特征的视觉特征信息；

可以理解的是，针对中英文混合文字识别，中文字符集数量巨大，不同字符之间以字形区分。然而图像尺寸有限，字符数量巨大，且字体库数量也很多，不同字体库下字符的字形也有较大差别。并且，在文本行图像中若干字符顺序水平密集排列，对文本行中各个字符进行识别的难度较大。因此设计了层数较多的特征提取网络，以提取文本行图像丰富的文字细节信息和抽象信息。然而，这样的话，卷积层数增多的容易导致网络难以优化，易发生梯度退化的问题。

采用上述方案，设计残差块，使用残差学习结构，即引入跳跃连接，将原来网络直接学习输入对输出的映射关系，变为学习输入和输出的残差，这样降低了网络优化难度，提升了网络收敛速度，有利于提升最终算法模型的文字识别准确率。

在又一些可选地实施例中，所述视觉特征提取模型包括依次串联的第一Inception块、第二Inception块、第一残差块以及第二残差块；所述第一Inception块包括依次串联的第一卷积组件，与两个Inception层；所述第二Inception块包括依次串联的第二卷积组件，与四个Inception层；所述第一残差块包括第三卷积组件以及与所述第三卷积组件串联的两个残差连接的残差层；所述第二残差块包括第四卷积组件以及与所述第四卷积组件串联的四个残差连接的残差层；其中，所述第一卷积组件、第二卷积组件、第三卷积组件以及第四卷积组件的卷积核均为3*3，步长为1的卷积核；

且通道数为512的第一特征图；

将所述第一特征图输入2*1的最大池化层，得到尺寸为

且通道数为512的视觉特征信息。

其中，文本图像可以为单行的文本内容图像，各个字符以顺序水平排列。示例地，第一Inception块以及第二Inception块可以是如图5所示的一种Inception块的示意图所示的结构，其中，N的大小表征该Inception块中串联的Inception层的数量；第一残差块以及第二残差块可以是如图6所示的一种残差块的示意图所示的结构，其中，M的大小表征该残差块中串联的残差层数量。

进一步，基于图5以及图6所示的Inception块与残差块结构，在这些实施例中视觉特征提取模型的结构可以如图7所示，C_in表示输入通道数，C_out表示输出通道数，其中，第一Inception块的输入的通道数为1，输出的通道数为64；第二Inception块的输入通道数为64，输出通道数为128；第一残差块的输入通道数为128，输出通道数为256；第二残差块的输入通道数为256，输出通道数为512。也就是说，若输入该视觉特征提取模型的文本图像高为32，宽为W的情况下，经过第一Inception块、第二Inception块、第一残差块以及第二残差块后，特征图的尺寸就进行了4次二倍下采样，也就是说，输出的视觉特征信息尺寸为

然后使用一个2*1的最大值池化层，使得最终输出特征图的尺寸变为

通道数为512，可以视作

个长度为512的向量组。即，对输入原图进行了5次2倍下采样，使得最终输出特征图的高度为1。

采用上述方案，在Inception块以及残差块中设计卷积核大小为3*3卷积的步长为2特征图padding值为1的卷积组件，可以将特征图尺寸缩小为原来的二分之一。同时该卷积的输入通道是所属块的输入特征图的通道数，输出通道是输入通道数的2倍，使得特征图的尺寸将不再变化，在下采样的过程中在保证特征表达能力的同时，控制特征的尺寸和通道数，从而实现准确率和耗时方面的权衡。

在一些实施例中，所述序列特征提取模型包括双向LSTM(Long Short-TermMemory，长短期记忆)模块，所述双向LSTM模块包括两个LSTM组件，所述LSTM组件包括输入门、输出门和遗忘门；

本领域技术人员应知悉，文字图像中字符之间常常存在语义关系，如“请对下面选__题进行__答”。当网络可以准确地识别出该文本行中的部分字符时，如果下划线位置处的字符因为图像模糊或手写笔记干扰，无法正常识别时，人类可以很容易的推测出第一个下划线位置处应该是“择”，第二个下划线处是“作”。人类推断出该位置字符内容所依据的就是上下文语意关系。如果单纯依靠视觉特征提取模型所提取到的视觉特征，可能会因为视觉信息不足等情况，导致该位置字符识别错误。

采用上述方案，使用LSTM在视觉特征的基础上，对语义信息做进一步的提取。并且本提案使用双向的LSTM(即BiLSTM)，可以对视觉特征从左至右和从右至左的进行序列特征提取，能够对于部分模糊文字或被干扰的文字有更强的识别鲁棒性，有效地提高了模糊和噪声干扰下文字识别的准确性。

进一步，所述序列信息包括

将所述

个字符序列的序列识别内容。

示例地，该序列分类模型的结构可以如图8所示，其中，序列分类模型的输入为512维向量，隐藏层为1024维向量，输出是L维向量，该L即可以表征识别支持字符集的字符的个数。进一步，对

大小的向量组中的每一个向量，基于其512个节点，通过上述网络结构，获得L个字符置信度。对每一个向量，计算其对应的L个字符置信度中的最大值，选定置信度最大的字符类别为该序列的字符类别，依次计算，最终得到

个字符序列，进而针对该

个字符序列通过步骤S104所述的CTC算法处理得到所述文本图像对应的文本信息。

采用本方案，以序列形式进行文字序列识别，最终的输出固定长度的序列识别内容，经由CTC算法后处理后，实现最终文字识别的效果，保证了对中英文混合字符有较高的识别准确率。

在一些实施中，所述视觉特征提取模型、所述序列特征提取模型以及所述序列分类模型的训练包括：

其中，该交叉熵损失函数可以是下式：

式中，m代表经过文字识别后的训练图像对应的文本信息，N代表识别字符集的字符数量。p_ij代表识别结果中的第i个字符属于第j个类别的置信度(如否为0)。y_ij代表第i个向量属于第j个字符类别的真实标签。

进一步，所述方法包括：

按照第二预设提取比例，分次提取第一数据集、第二数据集、第三数据集以及第四数据集中的训练图像，得到第四图像集，对所述第三图像集中第二预设比例的训练图像进行图像增强，将图像增强后的第四图像集作为所述训练集对所述经过微调的视觉特征提取模型、序列特征提取模型以及序列分类模型进行第四预设次数的增强微调训练，得到训练完成的视觉特征提取模型、序列特征提取模型以及序列分类模型。

其中，图像增强包括明暗度调节、随机噪声、随机对比度、随机扭曲等操作，本公开对此不作限定。本领域技术人员应知悉，扫描版式的训练图像可以是较为容易识别与区分，较为整齐的文字图像，拍摄版式的训练图像可以是指包括随机分布光照，阴影，模糊等真实拍照图像元素的图像。

示例地，预设中英文比例可以是1：1，第一预设数量可以是32，第一预设次数可以是3次，第二预设数量可以是64，第二预设次数可以是2次，第一预设比例可以是0.3，第一预设提取比例可以是2：2：3：3，总提取数可以是64，第三预设次数可以是3次，第二预设提取比例可以是1：1：1：1，总提取数可以是128，第四预设次数可以是2次，第二预设比例可以是0.2。可以理解的是，上述具体数值可以根据实际需求设定，本公开对此不做限定。

应理解，上述方案中可以大致分为扫描图像合成阶段、拍照图像合成阶段、模型预训练阶段、模型增强预训练阶段、模型微调阶段、模型增强微调阶段。通过扫描图像合成阶段以及拍照图像合成阶段合成带有批注的数据集，以使得在模型的多个训练阶段能够从不同的数据集中获取所需的训练集。

具体地，以上述示例为例，在模型增强微调阶段即可以是按照1：1：1：1的提取比例，从第一数据集、第二数据集、第三数据集以及第四数据集中，分别提取32个训练图像，并从128个训练图像中随机选取25或26个训练图像进行图像挣钱处理，得到第四图像集，基于该第四图像集作为训练集对上述方法中的模型进行训练，并按照上述流程迭代2次。其他阶段同理。

采用上述方案，充分考虑了扫描文本图像和拍照文本图像对于文字识别的难度不同的情况，使用扫描图像进行初始预训练，然后使用拍照图像，进行模型微调，以降低模型训练的难度，避免模型发散。并且，设计了模型增强阶段，分别针对扫描图像和拍照图像进行数据增强设计，进一步提升模型在扫描文本图像和拍照文本图像上的泛化性。进一步，在模型训练的不同阶段，设计不同的数据配比，有效地提高了模型对所有文本图像的识别准确率。

基于相同的发明构思，图8是根据一示例性实施例示出的一种文字识别装置80，所述装置包括：

视觉特征提取单元81，用于将文本图像输入视觉特征提取模型，得到对应所述文本图像的视觉特征信息；

序列特征提取单元82，用于将所述视觉特征信息输入序列特征提取模型，得到所述文本图像中字符之间的序列信息；

序列分类单元83，用于将所述序列信息输入序列分类模型，得到序列识别内容；

确定单元84，用于根据所述序列识别内容，通过CTC算法处理得到所述文本图像对应的文本信息。

所述视觉特征提取单元81具体用于：

所述文本图像为高32像素且宽W的图像，所述视觉特征提取单元81用于：

且通道数为512的第一特征图；

将所述第一特征图输入2*1的最大池化层，得到尺寸为

且通道数为512的视觉特征信息。

所述序列特征提取单元82用于：

可选地，所述序列信息包括

所述确定单元84用于：

将所述

个字符序列的序列识别内容。

可选地，所述装置80包括训练单元，该训练单元用于：

可选地，所述该训练单元具体用于：

关于上述实施例中的装置，其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种电子设备900的框图。如图9所示，该电子设备900可以包括：处理器901，存储器902。该电子设备900还可以包括多媒体组件903，输入/输出(I/O)接口904，以及通信组件905中的一者或多者。

其中，处理器901用于控制该电子设备900的整体操作，以完成上述的文字识别方法中的全部或部分步骤。存储器902用于存储各种类型的数据以支持在该电子设备900的操作，这些数据例如可以包括用于在该电子设备900上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如文本图像、训练图像、第一数据集、第二数据集以及序列信息等等。该存储器902可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件903可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器902或通过通信组件905发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口904为处理器901和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件905用于该电子设备900与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件905可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备900可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的文字识别方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的文字识别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器902，上述程序指令可由电子设备900的处理器901执行以完成上述的文字识别方法。

图10是根据一示例性实施例示出的一种电子设备1000的框图。例如，电子设备1000可以被提供为一服务器。参照图10，电子设备1000包括处理器1022，其数量可以为一个或多个，以及存储器1032，用于存储可由处理器1022执行的计算机程序。存储器1032中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器1022可以被配置为执行该计算机程序，以执行上述的文字识别方法。

另外，电子设备1000还可以包括电源组件1026和通信组件1050，该电源组件1026可以被配置为执行电子设备1000的电源管理，该通信组件1050可以被配置为实现电子设备1000的通信，例如，有线或无线通信。此外，该电子设备1000还可以包括输入/输出(I/O)接口1058。电子设备1000可以操作基于存储在存储器1032的操作系统，例如WindowsServer^TM，Mac OS X^TM，Unix^TM，Linux^TM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的文字识别方法的步骤。例如，该非临时性计算机可读存储介质可以为上述包括程序指令的存储器1032，上述程序指令可由电子设备1000的处理器1022执行以完成上述的文字识别方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的文字识别方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种文字识别方法，其特征在于，所述方法包括：

将所述序列信息输入序列分类模型，得到序列识别内容；

2.根据权利要求1所述的方法，其特征在于，所述视觉特征提取模型包括Inception块，所述Inception块包括多个串联的Inception层；所述Inception层中包括多个并联的卷积组件；所述卷积组件包括串联的卷积层、归一化层以及Relu激活层，所述多个卷积组件中至少包括两个卷积层的卷积核大小不同的卷积组件；

3.根据权利要求1所述的方法，其特征在于，所述视觉特征提取模型包括残差块，所述残差块包括多个串联的残差层；所述残差层包括两个卷积组件；所述卷积组件包括依次串联的卷积层、归一化层以及Relu激活层；所述两个卷积组件中第二个卷积组件的Relu激活层用于接收该卷积组件的归一化层的输出特征以及该残差层的输入特征，以输出对应该残差层的输入特征的视觉特征信息；

4.根据权利要求1所述的方法，其特征在于，所述视觉特征提取模型包括依次串联的第一Inception块、第二Inception块、第一残差块以及第二残差块；所述第一Inception块包括依次串联的第一卷积组件，与两个Inception层；所述第二Inception块包括依次串联的第二卷积组件，与四个Inception层；所述第一残差块包括第三卷积组件以及与所述第三卷积组件串联的两个残差连接的残差层；所述第二残差块包括第四卷积组件以及与所述第四卷积组件串联的四个残差连接的残差层；其中，所述第一卷积组件、第二卷积组件、第三卷积组件以及第四卷积组件的卷积核均为3*3，步长为1的卷积核；

且通道数为512的第一特征图；

将所述第一特征图输入2*1的最大池化层，得到尺寸为

且通道数为512的视觉特征信息。

5.根据权利要求1所述的方法，其特征在于，所述序列特征提取模型包括双向LSTM模块，所述双向LSTM模块包括两个LSTM组件，所述LSTM组件包括输入门、输出门和遗忘门；

6.根据权利要求4所述的方法，其特征在于，所述序列信息包括

将所述

个字符序列的序列识别内容。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述视觉特征提取模型、所述序列特征提取模型以及所述序列分类模型的训练包括：

8.根据权利要求7所述的方法，其特征在于，所述方法包括：

9.一种文字识别装置，其特征在于，所述装置包括：

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。