CN115631485A

CN115631485A - 文字识别方法及装置、电子设备、计算机可读介质

Info

Publication number: CN115631485A
Application number: CN202211094898.4A
Authority: CN
Inventors: 陈利军; 王语斌; 徐敏
Original assignee: Tongdun Network Technology Co ltd
Current assignee: Tongdun Network Technology Co ltd
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2023-01-20

Abstract

本申请的实施例揭示了一种文字识别方法及装置、电子设备、计算机可读介质。该方法包括：将待处理图像输入至训练好的文字识别模型中；通过文字识别模型对待处理图像含有的图像内容进行文字识别得到初始文字识别结果，以及进行场景分类得到场景分类结果，并根据场景分类结果对初始文字识别结果进行修正处理，得到待处理图像对应的目标文字信息；将所述目标文字信息作为目标初始文字识别结果输出。本申请的实施例可以提高文字识别模型的计算效率，节约模型的成本，以及提高文字识别模型的识别准确率。

Description

文字识别方法及装置、电子设备、计算机可读介质

技术领域

本申请涉及文字识别技术领域，具体涉及一种文字识别方法及装置、电子设备、计算机可读介质。

背景技术

基于光学字符识别(Optical Character Recognition，OCR)的文字识别技术是计算机视觉领域中的一个重要分支，可以被广泛应用于交通标志识别、电子文档识别、证件识别等领域中。在实际应用中，由于业务量大且业务类型繁多，一般要求识别多个不同场景中的文字，针对不同的场景通常会设计不同的文字识别模型，然后采用模型在线组合的方式，将多个不同场景的文字识别模型进行组合，以满足不同场景的文字识别需求。但随着兼容场景的增多，需要将更多的文字识别模型进行在线组合，一方面，使得文字识别模型的识别成本不断增加；另一方面，多个文字识别模型中可能存在重复的功能处理模块，对文字识别的效率存在一定影响。

发明内容

为解决上述技术问题，本申请的实施例提供了一种文字识别方法及装置、电子设备、计算机可读介质。

根据本申请实施例的一个方面，提供了一种文字识别方法，包括：将待处理图像输入至训练好的文字识别模型中；通过所述文字识别模型对所述待处理图像含有的图像内容进行文字识别得到初始文字识别结果，以及进行场景分类得到场景分类结果，并根据所述场景分类结果对所述初始文字识别结果进行修正处理，得到所述待处理图像对应的目标文字信息；将所述目标文字信息作为目标初始文字识别结果输出。

在本申请的一个实施例中，所述根据所述场景分类结果对所述初始文字识别结果进行修正处理，得到所述待处理图像对应的目标文字信息，包括：根据所述场景分类结果确定与所述场景分类结果相匹配的掩码向量；根据所述掩码向量对初始文字识别结果进行修正处理，得到所述待处理图像对应的目标文字信息。

在本申请的一个实施例中，所述初始文字识别结果包括字符信息，所述场景分类结果包括所述字符信息分别属于各个场景的概率值；所述根据所述场景分类结果确定与所述场景分类结果相匹配的掩码向量，包括：将所述概率值大于预设阈值的场景对应的掩码向量设置为第一数值，以及将所述概率值大于预设阈值的场景对应的掩码向量设置为第二数值；其中，所述第一数值和所述第二数值为归一化处理后的数值。

在本申请的一个实施例中，所述初始文字识别结果包括字符概率向量；所述根据所述掩码向量对初始文字识别结果进行修正处理，得到所述待处理图像对应的目标文字信息，包括：将所述掩码向量与所述字符概率向量进行求乘积计运算，得到运算结果；其中，所述掩码向量包括归一化处理后的第一数值和第二数值；将所述运算结果作为所述待处理图像对应的目标文字信息。

在本申请的一个实施例中，所述初始文字识别结果包括字符信息；所述进行场景分类得到场景分类结果，包括：获取候选的多个场景；其中，所述多个场景包括从语言类型进行划分的多个场景，或者从业务类型进行划分的多个场景；对所述字符信息属于各个场景的概率值进行运算，得到所述字符信息分别属于各个场景的概率值，将所述字符信息分别属于各个场景的概率值作为所述场景分类结果。

在本申请的一个实施例中，在所述通过所述文字识别模型对所述待处理图像含有的图像内容进行文字识别得到初始文字识别结果之前，所述方法还包括：通过所述文字识别模型对所述待处理图像进行特征提取，得到特征信息，以及对所述特征信息进行特征增强处理，得到增强处理后的特征信息；所述通过所述文字识别模型对所述待处理图像含有的图像内容进行文字识别得到初始文字识别结果，包括：通过所述文字识别模型对所述增强处理后的特征信息进行文字识别得到所述初始文字识别结果。

在本申请的一个实施例中，在所述将待处理图像输入至训练好的文字识别模型中之前，所述方法还包括：获取已标注图像，并将所述已标注图像作为训练样本；其中，所述训练样本包括期望值数据；将所述已标注图像输入至初始的文字识别模型，得到所述已标注图像的初始文字识别结果和场景分类结果，并根据所述场景分类结果对所述初始文字识别结果进行修正处理，得到所述已标注图像对应的目标文字信息；通过所述期望值数据与所述已标注图像的目标文字信息之间的损失值，调整所述初始的文字识别模型的参数，以得到所述训练好的文字识别模型。

根据本申请实施例的一个方面，提供了一种文字识别装置，包括：输入模块，配置为将待处理图像输入至训练好的文字识别模型中；识别模块，配置为通过所述文字识别模型对所述待处理图像含有的图像内容进行文字识别得到初始文字识别结果，以及进行场景分类得到场景分类结果，并根据所述场景分类结果对所述初始文字识别结果进行修正处理，得到所述待处理图像对应的目标文字信息；输出模块，配置为将所述目标文字信息作为目标初始文字识别结果输出。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如前所述的文字识别方法。

根据本申请实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的文字识别方法。

在本申请的实施例所提供的技术方案中，通过文字识别模型可以同时对待处理图像中含有的图像内容进行文字识别和场景分类，得到待处理图像中的初始文字识别结果和场景分类结果，并根据场景分类结果对所述初始文字识别结果进行修正处理，得到待处理图像对应的目标文字信息。本申请实施例中的文字识别模型共享用于特征提取的骨干网络，能够提高文字识别模型的计算效率，节约模型的资源成本，且通过场景分类结果对初始文字识别结果进行修正，还能够提高文字识别模型的识别准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请的一示例性实施例示出的文字识别模型的框架示意图；

图2是本申请的一示例性实施例示出的文字识别方法的流程示意图；

图3是图2所示实施例中的步骤S220在一示例性实施例中的流程图；

图4是图3所示实施例中的步骤S320在另一示例性实施例中的流程图；

图5是图2所示实施例中的步骤S220在另一示例性实施例中的流程图；

图6是本申请的另一示例性实施例示出的文字识别方法的流程示意图；

图7是本申请的一示例性实施例示出的文字识别装置的框图；

图8是用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的方案涉及图像处理技术中的文字识别技术。可以理解的是，基于光学字符识别(Optical Character Recognition，OCR)的文字识别技术是计算机视觉领域中的一个重要分支，可以被广泛应用于交通标志识别、电子文档识别、证件识别等领域中。OCR文字识别技术通常泛指从图像输入到文字输出的多个技术流程的总称，文字检测和文字识别是OCR文字识别技术中最核心的两个阶段。其中，文字检测阶段主要将图像中存在文字的区域筛选出来，然后在文字识别阶段对检测出的区域中的文字进行识别。

在实际的应用中，同一待处理图像中可能存在不同的场景，例如语言不同的场景、证件类型不同的场景等，为了提高不同场景中的文字识别精度，需要对同一待处理图像中的多个场景中所包含的文字进行区分，例如实现中文识别、英文识别、日语识别、身份证识别等。

相关技术中的文字识别方法通常是对待处理图像进行视觉特征提取，通过提取的特征序列得到文字上下文的语义关系，进而得到字符预测结果。相关技术中实现文字识别所采用的文字识别模型通常包括三个模块，分别是:骨干网络模块backbone，用于提取待处理图像的视觉特征；序列特征增强模块neck，用于对待处理图像的视觉特征进行增强处理；字符预测head模块，是一个字符分类器，用于输出文字识别模型的文字识别结果。文字识别方法通常会结合不同的识别场景设计识别字典，在有限的识别字符集进行识别。生产环境下，业务的需求一般都需要识别多个不同场景的文字。在现有的技术方案下，为了提高各个独立场景文字识别的准确率，通常是针对不同的识别场景设计和实现多个不同的模型，最后采用多模型在线组合的方式，以满足业务中多个不同场景的文字识别需求，这种模式使得文字识别技术的应用成本极大的提高。相关技术中的文字识别方法随着兼容场景的增多，需要将更多的文字识别模型进行在线组合，文字识别模型的识别成本在不断增加，且多个文字识别模型中可能存在重复的功能处理模块，对文字识别的效率存在一定影响。

因此，本申请实施例提出一种文字识别模型，请参阅图1，图1是本申请的一示例性实施例示出的文字识别模型的框架示意图，如图1所示，该文字识别模型包括场景分类器、字符分类器以及掩码器，从图1可以看出，文字识别模型具有逻辑计算功能，其中：

将待处理图像输入至训练好的文字识别模型中；

通过文字识别模型中的字符分类器对待处理图像含有的图像内容进行文字识别得到初始文字识别结果，以及通过文字识别模型中的场景分类器对待处理图像进行场景分类，得到场景分类结果，并通过文字识别模型中的掩码器根据场景分类结果对初始文字识别结果进行修正处理，得到待处理图像对应的目标文字信息；

将所述目标文字信息作为目标初始文字识别结果输出。

需要说明的是，本申请实施例中的文字识别模型还可以包括特征提取模块例如特征提取模块可以是深度学习网络，如resnet、densenet、vggnet等，用于提取待处理图像的特征。

示例性的，特征提取模块的输入为待处理图像，特征提取模块的输出为一个维度为R^T×K的特征矩阵X，其中T为文字识别模型识别的最长文字数量，K为自定义的维度，一般选取经验值512。需要说明的是，特征提取模块不需要单独训练，可以与字符分类器、场景分类器综合为一个整体进行端到端的训练。

本申请实施例中的文字识别模型还可以包括特征增强模块，用于对特征提取模块提取的特征矩阵X进行特征增强处理。

示例性的，特征增强模块是一个可端到端学习的模块，一般使用循环神经网络RNN或者使用简单的线性映射模块，特征增强模块的输入为特征提取模块提取的维度为R^T×K的特征矩阵，特征增强模块的输出为维度为R^T×L的特征矩阵，其中第一个维度T保持不变，第二个维度L可根据经验设置，一般第二个维度L设置为L＝K，但不限于此。

需要说明的是，本申请实施例中的特征提取模块提取的特征可以直接输入至字符分类器和场景分类器，也可以经过特征增强模块的增强后输入到字符分类器和场景分类器，通过字符分类器对特征进行判别输出初始文字识别结果，通过场景分类器对特征进行判别输出场景分类结果。

本申请实施例中的场景分类器用于对输入的待处理图像的场景进行分类，得到场景分类结果。本申请实施例中的场景分类器可以是一个线性分类器，例如，可以是端到端学习的softmax分类器，它的类别数可以由用户根据应用场景设定。

示例性的，场景分类器的输入是一个R^T×K维的特征矩阵X，场景分类器对特征矩阵X依次进行平均池化处理、线性变换处理以及softmax激活处理后，输出具有n个类别的概率向量，具体包括如下过程：

在本申请实施例中，平均池化处理的过程是一个R^T×K→R^K的降维过程，对于给定R^T ^×K维矩阵X，R^T×K维的特征矩阵X经平均池化处理后，得到R^K维的向量Y，其计算过程如下列公式所示：

其中，R为字符分类器最长识别字符数，K为特征矩阵X的第二维度，n为场景分类结果的维度，即场景类别数，y_j为向量Y中的第i个元素。

在本申请实施例中，线性变换处理的过程是一个R^K→Rⁿ的投影过程，对于给定R^K维向量Y，由一个R^K×n维的可学习的参数矩阵W和Rⁿ维的偏置向量B，通过线性计算得到一个Rⁿ维向量Z，其计算过程如下列公式所示：

其中，z_j为线性变换后得到的Rⁿ维向量Z中的元素，K为特征矩阵X的第二维度，w_ij为参数矩阵W中的第i行第j列的元素，y_i为平均池化处理后的向量Y中的第i个元素，b_i为偏置向量B中的第i个元素，n为场景类别数。

在本申请实施例中，softmax激活处理的过程可以包括如下处理过程：是对Rⁿ维向量Z进行归一化概率计算，得到场景分类结果的概率向量s_j，s_j的维度为Rⁿ。对于给定Rⁿ维向量Z，计算出一个Rⁿ维的概率向量S，Rⁿ维的概率向量S即是场景分类结果，其计算过程如下列公式所示：

其中，s_j为场景分类结果的概率向量，y_i为平均池化处理后的向量Y中的第i个元素，n为场景分类结果的维度，即场景类别数。

根据场景分类结果的概率向量s_j计算场景类别i：

i＝arg max^j),∈{1,,…,}

本申请实施例中的场景分类可以是根据语言场景进行分类，例如中文、英文、泰文等，也可以是根据业务类型进行划分分类，例如身份证、发票、不动产权证等，本申请实施例也不对此进行限制。

本申请实施例中的字符分类器用于对待处理图像含有的图像内容进行文字识别，得到初始文字识别结果。本申请实施例中的字符分类器可以是一个线性分类器，对输入的待处理图像进行文字预测，字符分类器的类别数可以设置为模型支持的字符集合大小。

需要说明的是，本申请实施例中的字符分类器与场景分类器有共同的输入，即字符分类器的输入可以是特征提取模块提取的特征，也可以是特征增强模块的增强后的特征。

示例性的，字符分类器的输入为一个R^T×K维的特征向量X，字符分类器依次对特征向量X进行线性映射处理和softmax激活处理后，输出一个维度为R^T×m的字符预测概率向量，其中m为字符类别数，具体包括如下过程：

在本申请实施例中，线性映射处理的过程可以包括如下处理过程：由一个R^K×n维的可学习的参数矩阵W和Rⁿ维的偏置向量B对R^T×K维的特征矩阵X进行线性变换得到R^T×m维矩阵U，其计算过程如下列公式所示：

其中，u_ij为线性映射处理后的矩阵U中的元素，x_ik为特征矩阵X中第i行第k列的元素，w_kj为参数矩阵W中的元素中第k行第j列的元素，b_j为偏置向量B中的第i个元素。

在本申请实施例中，softmax激活处理的过程可以包括如下处理过程：对R^T×m维矩阵U进行归一化概率计算，得到R^T×m维的概率矩阵C，R^T×m维的概率矩阵C即是初始文字识别结果，其计算过程如下列公式所示：

其中，C_ij为初始文字识别结果中的字符，m为初始文字识别结果中的字符类别数，T为字符分类器最长识别字符数。

本申请实施例中的掩码器是场景划分的执行器，用于根据不同的场景分类结果生成不同的掩码向量，并根据掩码向量对初始文字识别结果进行修正处理，得到待处理图像对应的目标文字信息。通过掩码器产生的掩码向量，可以实现对不同场景对应的初始文字识别结果进行划分控制。

需要说明的是，本申请实施例中的掩码器的输入为场景类别i∈{1,2,…,}，输出为一个R^n×m维0-1矩阵，即R^n×m维0-1矩阵中包括n个场景类别对应的掩码向量。其中m为场景分类器的类别数量，n为字符分类器的类别数量。其中掩码器的输入可以是经过场景分类器输出的场景分类结果，也可以通过人工输入。

在本申请实施例中，掩码器根据输入的场景分类结果确定与场景分类结果相匹配的掩码向量，其计算过程如下列公式所示：

其中，q_ij为掩码向量中场景类别i对应的掩码元素数值，i为场景类别，且i∈{1,2,...,n}，s_i为场景类别i对应的场景中的字符集合，

C＝{c₁,c₂,...,c_m}为字符分类器识别的字符集合。

基于上述文字识别模型，本申请的实施例提出一种文字识别方法及文字识别方法及装置、电子设备、计算机可读介质，下文将进行详细描述。

请参阅图2，图2是本申请的一示例性实施例示出的文字识别方法的流程示意图。该方法可以应用于包含图1所示的文字识别系统的实施环境，并由该文字识别模型执行。应理解的是，该方法也可以适用于其它的示例性实施环境，并由其它实施环境中的设备具体执行，本实施例不对该方法所适用的实施环境进行限制。

在一示例性的实施例中，文字识别方法至少包括步骤S210至步骤S230，详细介绍如下：

步骤S210，将待处理图像输入至训练好的文字识别模型中。

本申请实施例中，本申请实施例中的待处理图像中可以包括待识别的文字信息，本申请实施例中的文字识别模型为预先训练好的机器学习模型，用关于对待处理图像中的文字进行识别，输出目标文字信息。

步骤S220，通过文字识别模型对待处理图像含有的图像内容进行文字识别得到初始文字识别结果，以及进行场景分类得到场景分类结果，并根据场景分类结果对初始文字识别结果进行修正处理，得到待处理图像对应的目标文字信息。

本申请实施例中的文字识别模型对待处理图像进行文字识别和场景分类，分别得到初始文字识别结果和场景分类结果，并可以基于场景分类结果对初始文字识别结果进行修正处理，例如根据场景分类结果对待处理图像的初始文字识别结果进行划分处理，以得到目标文字信息。

在一示例性的实施例中，如图3所示，步骤S220中根据场景分类结果对初始文字识别结果进行修正处理，得到待处理图像对应的目标文字信息的过程，可以包括步骤S310至步骤S320，详细介绍如下：

步骤S310，根据场景分类结果确定与场景分类结果相匹配的掩码向量。

需要说明的是，本申请实施例中的初始文字识别结果包括字符信息，场景分类结果包括字符信息分别属于各个场景的概率值。

在一示例性的实施例中，步骤S310中根据场景分类结果确定与场景分类结果相匹配的掩码向量的过程，可以包括如下过程，详细介绍如下：

将概率值大于预设阈值的场景对应的掩码向量设置为第一数值，以及将概率值大于预设阈值的场景对应的掩码向量设置为第二数值，得到与所述场景分类结果相匹配的掩码向量；其中，第一数值和第二数值为归一化处理后的数值。

本申请实施例中的预设阈值是根据人工经验或实验而预先设置的，将概率值与预设阈值相比较能够确定掩码向量。

示例性的，若初始文字识别结果中的字符信息属于场景分类结果对应的场景，则将字符信息对应的掩码向量的元素设置为1；将属于场景分类结果对应的场景以外的字符信息所对应的掩码向量的元素设置为0，得到与场景分类结果相匹配的掩码向量；掩码向量的元素数量与初始文字识别结果中的字符信息数量相同。

步骤S320，根据掩码向量对初始文字识别结果进行修正处理，得到待处理图像对应的目标文字信息。

在一示例性的实施例中，如图4所示，初始文字识别结果包括字符概率向量；步骤S320中根据掩码向量对初始文字识别结果进行修正处理，得到待处理图像对应的目标文字信息的过程，可以包括步骤S410至步骤S420，详细介绍如下：

步骤S410，将掩码向量与字符概率向量进行求乘积运算，得到运算结果；其中，掩码向量包括归一化处理后的第一数值和第二数值。

示例性的，设X_s∈Rⁿ为场景分类器输出的概率向量,即场景分类结果，X_C∈R^T×m为字符分类器输出的概率矩阵，即初始文字识别结果。掩码器根据掩码向量对字符分类器的字符分类结果进行划分控制，输出目标文字信息

计算表达式如下所示：

其中，

为目标文字信息，为x_C为初始文字识别结果中的字符，T为目标文字信息的第一维度，与字符分类器最长识别字符数相同，m为目标文字信息的第二维度，与初始文字识别结果中的字符类别数相同，n为场景分类结果的维度。

需要说明的是，步骤S320中根据掩码向量对初始文字识别结果进行修正处理，得到待处理图像对应的目标文字信息的过程可以由文字识别模型中的掩码器执行。

需要说明的是，本申请实施例中的场景分类结果可以由场景分类器输出概率求得，也可以由用户输入，本申请实施例也不对此进行限制。

示例性的，当输入文字识别模型中的待处理图像的所属场景未知时，场景类别i由场景分类器根据上述计算方式输出概率求得；当输入文字识别模型中的待处理图像的场景确定时，由用户输入场景类别i。

步骤S420，将运算结果作为待处理图像对应的目标文字信息。

举例说明，自定义两个场景S＝{s1,s2}，s1为中文场景，s1＝{生，命，重，于，泰，山}，s2为英文场景s2＝{a,c,h,i,n}，字符分类器C＝{生，命，重，于，泰，山,a,c,h,i,n}；字符分类器最长识别字符数T＝8，字符类别数m＝|C|＝11，场景类别数n＝|S|＝2，特征提取模块的输出特征维度为K＝2，特征增强模块输出特征维度L＝K＝2。

特征提取模块对待处理图像进行特征提取，得到特征信息对应的矩阵为:

1	9
		2.2	-3
9	90
		23	38
8	8
		0	91
65	1
		3	-80

特征增强模块对特征信息进行特征增强处理，得到增强处理后的特征信息如下：

0.55	9
		5	93
6	38
		88	75
1	7
		347	49
850	20
		38	0

若输入文字识别模型的待处理图像为文字图像，且待处理图像中的文字信息为“生命重于泰山”，则文字识别模型对待处理图像含有的图像内容进行文字识别，得到的初始文字识别结果如下表所示：

文字识别模型对待处理图像含有的图像内容进行场景分类，得到的场景分类结果如下表所示：

0.91

0.09

得到的场景分类结果为i＝1。

根据掩码器的产生规则，以及根据场景分类结果确定与场景分类结果相匹配的掩码向量为：

1

0

根据掩码向量对初始文字识别结果进行修正处理，得到待处理图像中目标文字信息对应的概率矩阵如下表所示：

由概率矩阵可和，场景2的英文字符集s2＝{a,c,h,i,n}概率为0，文字识别模型实现了对场景2的屏蔽，输出的目标文字信息结果为“生命重于泰山”。

在一示例性的实施例中，如图5所示，步骤S220中进行场景分类得到场景分类结果的过程，可以包括步骤S510至步骤S520，详细介绍如下：

步骤S510，获取候选的多个场景；其中，多个场景包括从语言类型进行划分的多个场景，或者从业务类型进行划分的多个场景；

步骤S520，对字符信息属于各个场景的概率值进行运算，得到字符信息分别属于各个场景的概率值，将字符信息分别属于各个场景的概率值作为场景分类结果。

在一示例性的实施例中，步骤S220中进行场景分类得到场景分类结果的过程，还可以包括如下过程：获取多个候选场景类别；计算待处理图像为各个候选场景类别的概率结果；根据概率结果确定出待处理图像的场景类别，将待处理图像的场景类别作为场景分类结果。

步骤S230，将所述目标文字信息作为目标初始文字识别结果输出。

由上可知，本申请实施例所提供的技术方案通过文字识别模型可以同时对待处理图像中含有的图像内容进行文字识别和场景分类，得到待处理图像中的初始文字识别结果和场景分类结果，并根据场景分类结果对初始文字识别结果进行修正处理，得到待处理图像对应的目标文字信息。本申请实施例中的文字识别模型共享用于特征提取的骨干网络，能够提高文字识别模型的计算效率，且通过场景分类结果对初始文字识别结果进行修正，还能够提高文字识别模型的识别准确率。本申请实施例的文字识别模型根据场景分类结果确定出场景分类结果对应的掩码向量，并根据掩码向量对不同场景识别的字符范围进行控制，通过掩码器可以极大的消除非场景信息的干扰，实现在线灵活调控识别场景。

基于上述方法实施例，在通过文字识别模型对待处理图像含有的图像内容进行文字识别得到初始文字识别结果之前，本申请实施例的文字识别方法还可以包括：通过文字识别模型对待处理图像进行特征提取，得到特征信息，对特征信息进行特征增强处理，得到增强处理后的特征信息；通过文字识别模型对增强处理后的特征信息进行文字识别得到初始文字识别结果。

需要说明的是，在上述实施例的基础上，文字识别模型中至少包括两个不同的深度神经网络，其中一个深度神经网络用于对输入的待处理图像进行特征提取，得到待处理图像的特征信息，以及对特征信息进行特征增强处理，得到增强处理后的特征信息，基于增强处理后的特征信息对待处理图像含有的图像内容进行文字识别得到初始文字识别结果；另一个深度神经网络用于对输入的待处理图像进行特征提取，得到待处理图像的特征信息，以及对特征信息进行特征增强处理，得到增强处理后的特征信息，基于增强处理后的特征信息对待处理图像含有的图像内容进行场景分类，得到场景分类结果。

在本申请的一个实施例中，在将待处理图像输入至训练好的文字识别模型中之前，本申请实施例的文字识别方法还可以包括文字识别模型的训练过程。图6是本申请的另一示例性实施例示出的文字识别方法的流程示意图。应理解的是，该方法也可以适用于其它的示例性实施环境，并由其它实施环境中的设备具体执行，本实施例不对该方法所适用的实施环境进行限制。

如图6所示，将待处理图像输入至训练好的文字识别模型中之前，对文字识别模型进行训练，得到训练好的文字识别模型，文字识别模型的训练过程可以包括步骤S610至步骤S630，详细介绍如下：

步骤S610，获取已标注图像，并将已标注图像作为训练样本；其中，训练样本包括期望值数据。

需要说明的是，本申请实施例中的已标注图像中包括场景分类标注，标注后的每一张图像的所属场景对应一个分类标号。

需要说明的是，本申请实施例中的已标注图像中包括图像中的文字标注，标注后，对于给定图像中出现的字符，标出字符所属类别的序列。

步骤S620，将已标注图像输入至初始的文字识别模型，得到已标注图像的初始文字识别结果和场景分类结果，并根据场景分类结果对初始文字识别结果进行修正处理，得到已标注图像对应的目标文字信息。

需要说明的是，初始的文字识别模型对输入的待处理图像进行特征提取，得到待处理图像的特征信息，以及对特征信息进行特征增强处理，得到增强处理后的特征信息，基于增强处理后的特征信息对待处理图像含有的图像内容进行文字识别得到初始文字识别结果，以及对待处理图像含有的图像内容进行场景分类得到场景分类结果。

步骤S630，通过期望值数据与已标注图像的目标文字信息之间的损失值，调整初始的文字识别模型的参数，以得到训练好的文字识别模型。

需要说明的是，在本申请实施例中，期望值数据与已标注图像的目标文字信息之间的损失值包括文字识别损失值和场景分类损失值，其中文字识别损失值是由于字符分类器中的参数而造成的，场景分类损失值是由于场景分类器中的参数而造成的，因此需要预先对文字识别模型进行训练，以调整文字识别模型中的字符分类器的参数精度以及场景分类器的精度，进而提高文字识别模型的识别准确度。

需要说明的是，在本申请实施例中，字符分类器的训练可以基于联结时序分类(Connectionist Temporal Classification，CTC)方法，通过CTC损失L_CTC对文字识别模型中的参数进行调整。

示例性的，CTC损失L_CTC的计算表达式如下所示：

其中，L_CTC为字符分类的损失分量，X表示字符分类器输出的预测序列向量，Y为标签序列，B^-1是Y全部路径的集合，π是其中的一个子路径。

需要说明的是，在本申请实施例中，文字识别模型中的场景分类器可以采用softmax线性分类器，场景分类器的训练可以基于交叉熵损失对文字识别模型的参数进行调整。

示例性的，交叉熵损失L_CE的计算表达式如下所示：

其中，L_CE为交叉熵损失，y_j为真实类别的标签，p_j场景分类器预测第j类的概率值。

在一示例性的实施例中，本申请实施例中的期望值数据包括第一期望值数据和第二期望值数据；步骤S630中通过期望值数据与已标注图像的目标文字信息之间的损失值，调整初始的文字识别模型的参数的过程，可以包括如下过程，详细介绍如下：

根据第一期望值数据与场景分类结果确定第一损失分量，根据第二期望值数据与初始文字识别结果确定第二损失分量，根据第一损失分量和第二损失分量计算损失值，根据损失值调整初始的文字识别模型的参数。

由上可知，本申请实施例中使用标注有场景分类标注和文字标注的已标注图像作为训练数据，首先通过训练数据对文字识别模型进行深度训练，根据期望值数据和文字识别模型输出的目标文字结果信息之间的损失值确定文字识别模型是否训练完成，直至得到训练好的文字识别模型。采用训练好的文字识别模型对输入的待处理图像进行自动文字识别和场景分类，得到初始文字识别结果和场景分类结果，并根据场景分类结果对初始文字识别结果进行修正处理，得到待处理图像对应的目标文字信息。利用各场景分类的先验信息，对各个场景的文字识别预测进行整合，对文字识别模型的深度训练能够很大程度上提升文字识别模型处理输入的待处理图像的文字识别的准确性、场景分类的准确性以及目标文字信息的识别准确性。

图7是本申请的一示例性实施例示出的文字识别装置的框图。该装置可以应用于图1所示的实施环境。该装置也可以适用于其它的示例性实施环境，并具体配置在其它设备中，本实施例不对该装置所适用的实施环境进行限制。

如图7所示，该示例性的文字识别装置包括：

输入模块710，配置为将待处理图像输入至训练好的文字识别模型中；

识别模块720，配置为通过文字识别模型对待处理图像含有的图像内容进行文字识别得到初始文字识别结果，以及进行场景分类得到场景分类结果，并根据场景分类结果对初始文字识别结果进行修正处理，得到待处理图像对应的目标文字信息；

输出模块730，配置为将所述目标文字信息作为目标初始文字识别结果输出。

另一示例性的实施例中，识别模块720包括：

掩码向量确定子模块，配置为根据场景分类结果确定与场景分类结果相匹配的掩码向量；

修正子模块，配置为根据掩码向量对初始文字识别结果进行修正处理，得到待处理图像对应的目标文字信息。

在另一示例性的实施例中，掩码向量确定子模块包括：

掩码向量确定单元，配置为将概率值大于预设阈值的场景对应的掩码向量设置为第一数值，以及将概率值大于预设阈值的场景对应的掩码向量设置为第二数值；其中，第一数值和第二数值为归一化处理后的数值；初始文字识别结果包括字符信息，场景分类结果包括字符信息分别属于各个场景的概率值。

在另一示例性的实施例中，修正子模块包括：

计算单元，配置为将掩码向量与字符概率向量进行求乘积计运算，得到运算结果；其中，掩码向量包括归一化处理后的第一数值和第二数值。

目标文字信息确定单元，配置为将运算结果作为待处理图像对应的目标文字信息。

在另一示例性的实施例中，识别模块720包括：

场景获取子模块，配置为获取候选的多个场景；其中，多个场景包括从语言类型进行划分的多个场景，或者从业务类型进行划分的多个场景。

场景分类子模块，配置为对字符信息属于各个场景的概率值进行运算，得到字符信息分别属于各个场景的概率值，将字符信息分别属于各个场景的概率值作为场景分类结果；初始文字识别结果包括字符信息。

在另一示例性的实施例中，文字识别装置还包括：

特征提取模块，配置为通过文字识别模型对待处理图像进行特征提取，得到特征信息，以及对特征信息进行特征增强处理，得到增强处理后的特征信息；

文字识别模块，配置为通过文字识别模型对待处理图像含有的图像内容进行文字识别得到初始文字识别结果，包括：通过文字识别模型对增强处理后的特征信息进行文字识别得到初始文字识别结果。

在另一示例性的实施例中，文字识别装置还包括：

已标注图像获取模块，配置为获取已标注图像，并将已标注图像作为训练样本；其中，训练样本包括期望值数据；

训练模块，配置为将已标注图像输入至初始的文字识别模型，得到已标注图像的初始文字识别结果和场景分类结果，并根据场景分类结果对初始文字识别结果进行修正处理，得到已标注图像对应的目标文字信息；

调整模块，配置为通过期望值数据与已标注图像的目标文字信息之间的损失值，调整初始的文字识别模型的参数，以得到训练好的文字识别模型。

需要说明的是，上述实施例所提供的文字识别装置与上述实施例所提供的文字识别方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。上述实施例所提供的文字识别装置在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，本处也不对此进行限制。

本申请的实施例还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得电子设备实现上述各个实施例中提供的文字识别方法。

图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是，图8示出的电子设备的计算机系统800仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(Central Processing Unit，CPU)801，其可以根据存储在只读存储器(Read-Only Memory，ROM)802中的程序或者从储存部分808加载到随机访问存储器(Random Access Memory，RAM)803中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 803中，还存储有系统操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(Input/Output，I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分807；包括硬盘等的储存部分808；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入储存部分808。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前所述的文字识别方法。该计算机可读存储介质计算机可读介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种文字识别方法，其特征在于，包括：

将待处理图像输入至训练好的文字识别模型中；

通过所述文字识别模型对所述待处理图像含有的图像内容进行文字识别得到初始文字识别结果，以及进行场景分类得到场景分类结果，并根据所述场景分类结果对所述初始文字识别结果进行修正处理，得到所述待处理图像对应的目标文字信息；

将所述目标文字信息作为目标初始文字识别结果输出。

2.根据权利要求1所述的方法，其特征在于，所述根据所述场景分类结果对所述初始文字识别结果进行修正处理，得到所述待处理图像对应的目标文字信息，包括：

根据所述场景分类结果确定与所述场景分类结果相匹配的掩码向量；

根据所述掩码向量对初始文字识别结果进行修正处理，得到所述待处理图像对应的目标文字信息。

3.根据权利要求2所述的方法，其特征在于，所述初始文字识别结果包括字符信息，所述场景分类结果包括所述字符信息分别属于各个场景的概率值；所述根据所述场景分类结果确定与所述场景分类结果相匹配的掩码向量，包括：

将所述概率值大于预设阈值的场景对应的掩码向量设置为第一数值，以及将所述概率值大于预设阈值的场景对应的掩码向量设置为第二数值，得到与所述场景分类结果相匹配的掩码向量；其中，所述第一数值和所述第二数值为归一化处理后的数值。

4.根据权利要求2所述的方法，其特征在于，所述初始文字识别结果包括字符概率向量；所述根据所述掩码向量对初始文字识别结果进行修正处理，得到所述待处理图像对应的目标文字信息，包括：

将所述掩码向量与所述字符概率向量进行求乘积运算，得到运算结果；其中，所述掩码向量包括归一化处理后的第一数值和第二数值；

将所述运算结果作为所述待处理图像对应的目标文字信息。

5.根据权利要求1所述的方法，其特征在于，所述初始文字识别结果包括字符信息；所述进行场景分类得到场景分类结果，包括：

获取候选的多个场景；其中，所述多个场景包括从语言类型进行划分的多个场景，或者从业务类型进行划分的多个场景；

对所述字符信息属于各个场景的概率值进行运算，得到所述字符信息分别属于各个场景的概率值，将所述字符信息分别属于各个场景的概率值作为所述场景分类结果。

6.根据权利要求1所述的方法，其特征在于，在所述通过所述文字识别模型对所述待处理图像含有的图像内容进行文字识别得到初始文字识别结果之前，所述方法还包括：

通过所述文字识别模型对所述待处理图像进行特征提取，得到特征信息，以及对所述特征信息进行特征增强处理，得到增强处理后的特征信息；

所述通过所述文字识别模型对所述待处理图像含有的图像内容进行文字识别得到初始文字识别结果，包括：

通过所述文字识别模型对所述增强处理后的特征信息进行文字识别得到所述初始文字识别结果。

7.根据权利要求1至6中任一项所述的方法，其特征在于，在所述将待处理图像输入至训练好的文字识别模型中之前，所述方法还包括：

获取已标注图像，并将所述已标注图像作为训练样本；其中，所述训练样本包括期望值数据；

将所述已标注图像输入至初始的文字识别模型，得到所述已标注图像的初始文字识别结果和场景分类结果，并根据所述场景分类结果对所述初始文字识别结果进行修正处理，得到所述已标注图像对应的目标文字信息；

通过所述期望值数据与所述已标注图像的目标文字信息之间的损失值，调整所述初始的文字识别模型的参数，以得到所述训练好的文字识别模型。

8.一种文字识别装置，其特征在于，包括：

输入模块，配置为将待处理图像输入至训练好的文字识别模型中；

识别模块，配置为通过所述文字识别模型对所述待处理图像含有的图像内容进行文字识别得到初始文字识别结果，以及进行场景分类得到场景分类结果，并根据所述场景分类结果对所述初始文字识别结果进行修正处理，得到所述待处理图像对应的目标文字信息；

输出模块，配置为将所述目标文字信息作为目标初始文字识别结果输出。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至7中任一项所述的文字识别方法。

10.一种计算机可读介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1至7中任一项所述的文字识别方法。