CN114241467A

CN114241467A - 一种文本识别方法及其相关设备

Info

Publication number: CN114241467A
Application number: CN202111575226.0A
Authority: CN
Inventors: 张家鑫; 黄灿
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-25
Also published as: WO2023116137A1

Abstract

本申请公开了一种文本识别方法及其相关设备，该方法包括：在获取到携带有噪声信息的待识别图像之后，将该待识别图像输入预先构建的文本识别模型，得到该文本识别模型输出的该待识别图像的文本识别结果。其中，文本识别模型包括特征提取网络、循环神经网络和转录层。特征提取网络用于提取待识别图像的图像特征、以及抑制该待识别图像携带的噪声信息。可见，因特征提取网络具有图像噪声抑制功能，使得利用特征提取网络，针对该待识别图像提取所得的图像特征几乎不携带噪声信息，如此能够有效地降低该待识别图像携带的噪声信息对文本识别过程所造成的不良影响，从而能够有效地提高该待识别图像的文本识别结果的准确性，进而有利于提高文本识别效果。

Description

一种文本识别方法及其相关设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种文本识别方法及其相关设备。

背景技术

文本识别技术是一种典型的图像处理技术；而且该文本识别技术的应用范围十分广泛。其中，文本识别技术用于针对一个图像数据中字符信息进行识别处理。

然而，因一些文本识别技术存在缺陷，导致这些文本识别技术针对一些图像数据(例如，携带有噪声信息的图像数据等)的文本识别效果较差。

发明内容

为了解决上述技术问题，本申请提供了一种文本识别方法及其相关设备，能够提高文本识别效果。

为了实现上述目的，本申请实施例提供的技术方案如下：

本申请实施例提供一种文本识别方法，所述方法包括：

获取待识别图像；

将所述待识别图像输入预先构建的文本识别模型，得到所述文本识别模型输出的所述待识别图像的文本识别结果；其中，所述文本识别模型包括特征提取网络、循环神经网络RNN和转录层CTC；所述特征提取网络用于提取所述待识别图像的图像特征，且所述特征提取网络还用于抑制所述待识别图像携带的噪声信息。

在一种可能的实施方式中，所述特征提取网络包括图像特征提取子网络和图像噪声抑制子网络；所述图像特征提取子网络用于提取所述待识别图像的图像特征；所述图像噪声抑制子网络用于抑制所述待识别图像携带的噪声信息。

在一种可能的实施方式中，所述图像噪声抑制子网络包括空间噪声抑制模块和/或通道噪声抑制模块；其中，所述空间噪声抑制模块用于抑制所述待识别图像携带的背景噪声；所述通道噪声抑制模块用于实现通道注意力机制。

在一种可能的实施方式中，所述图像噪声抑制子网络包括空间噪声抑制模块；

所述文本识别结果的确定过程，包括：

将所述待识别图像输入所述图像特征提取子网络，得到所述图像特征提取子网络输出的待使用图像特征；

将所述待使用图像特征输入所述空间噪声抑制模块，得到所述空间噪声抑制模块输出的待处理图像特征；

根据所述待处理图像特征、所述RNN和所述CTC，确定所述待识别图像的文本识别结果。

在一种可能的实施方式中，所述空间噪声抑制模块包括空间权重确定子模块和特征加权融合子模块；

所述待处理图像特征的确定过程，包括：

将所述待使用图像特征输入所述空间权重确定子模块，得到所述空间权重确定子模块输出的待使用空间权重；

将所述待使用图像特征和所述待使用空间权重输入所述特征加权融合子模块，得到所述特征加权融合子模块输出的待处理图像特征。

在一种可能的实施方式中，所述图像特征提取子网络包括N个特征提取模块；所述图像噪声抑制子网络包括N个通道噪声抑制模块；

第n个通道噪声抑制模块的输入数据包括第n个特征提取模块的输出数据；其中，n为正整数，n≤N，N为正整数；

第1个特征提取模块的输入数据包括所述待识别图像，且第i+1个特征提取模块的输入数据包括第i个通道噪声抑制模块的输出数据；其中，i为正整数，i+1≤N，N为正整数。

在一种可能的实施方式中，所述图像特征提取子网络包括N个特征提取模块；所述图像噪声抑制子网络包括N个通道噪声抑制模块和空间噪声抑制模块；

第1个特征提取模块的输入数据包括所述待识别图像，且第i+1个特征提取模块的输入数据包括第i个通道噪声抑制模块的输出数据；其中，i为正整数，i+1≤N，N为正整数；

所述空间噪声抑制模块的输入数据包括第N个通道噪声抑制模块的输出数据。

本申请实施例还提供了一种文本识别装置，包括：

获取单元，用于获取待识别图像；

识别单元，用于将所述待识别图像输入预先构建的文本识别模型，得到所述文本识别模型输出的所述待识别图像的文本识别结果；其中，所述文本识别模型包括特征提取网络、循环神经网络RNN和转录层CTC；所述特征提取网络用于提取所述待识别图像的图像特征，且所述特征提取网络还用于抑制所述待识别图像携带的噪声信息。

本申请实施例还提供了一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行本申请实施例提供的文本识别方法的任一实施方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行本申请实施例提供的文本识别方法的任一实施方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行本申请实施例提供的文本识别方法的任一实施方式。

与现有技术相比，本申请实施例至少具有以下优点：

本申请实施例提供的技术方案中，在获取到携带有噪声信息的待识别图像之后，将该待识别图像输入预先构建的文本识别模型，得到该文本识别模型输出的该待识别图像的文本识别结果。其中，文本识别模型包括特征提取网络、循环神经网络和转录层。特征提取网络用于提取待识别图像的图像特征、以及抑制该待识别图像携带的噪声信息。

可见，因特征提取网络具有图像噪声抑制功能，使得利用特征提取网络，针对该待识别图像提取所得的图像特征携带有较少噪声信息(甚至，不携带噪声信息)，如此能够有效地降低该待识别图像携带的噪声信息对文本识别过程所造成的不良影响，从而能够有效地提高该待识别图像的文本识别结果的准确性，进而有利于提高文本识别效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种携带有噪声信息的图像数据的示意图；

图2为本申请实施例提供的一种文本识别方法的流程图；

图3为本申请实施例提供的一种背景噪声抑制结果示意图；

图4为本申请实施例提供的一种文本识别模型的结构示意图；

图5为本申请实施例提供的另一种文本识别模型的结构示意图；

图6为本申请实施例提供的又一种文本识别模型的结构示意图；

图7为本申请实施例提供的又一种文本识别模型的工作原理示意图；

图8为本申请实施例提供的一种文本识别装置的结构示意图。

具体实施方式

发明人在针对文本识别技术的研究中发现：

①因卷积循环神经网络(Convolutional RecurrentNeural Network，CRNN)具备推理速度快、模型熟练快、以及泛化性能强等优点，故可以采用CRNN实现文本识别技术。其中，CRNN包括卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)和转录层(Connectionist Temporal Classification，CTC)。

②对于一个携带有噪声信息的图像数据(如图1所示的图像数据)来说，因CRNN中CNN不具备噪声抑制功能，使得利用该CNN针对该图像数据提取所得的图像特征携带有大量噪声信息，从而使得这些噪声信息能够严重影响该CRNN中后续处理过程(也就是，RNN的编码过程以及CTC的翻译过程)，如此易导致针对该图像数据的文本识别结果效果很差。

③因CRNN中CTC不具备足够的纠错能力来调整输出结果，使得该CTC无法克服图像特征所携带的噪声信息所导致的不良影响，从而使得针对该图像数据的文本识别结果效果很差。

基于上述发现，为了解决背景技术部分所示的技术问题，本申请实施例提供了一种文本识别方法，该方法包括：在获取到携带有噪声信息的待识别图像之后，将该待识别图像输入预先构建的文本识别模型，得到该文本识别模型输出的该待识别图像的文本识别结果。其中，文本识别模型包括特征提取网络、循环神经网络和转录层。特征提取网络用于提取待识别图像的图像特征、以及抑制该待识别图像携带的噪声信息。

另外，本申请实施例不限定文本识别方法的执行主体，例如，本申请实施例提供的文本识别方法可以应用于终端设备或服务器等数据处理设备。其中，终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant，PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

方法实施例

参见图2，该图为本申请实施例提供的一种文本识别方法的流程图。

本申请实施例提供的文本识别方法，包括S1-S2：

S1：获取待识别图像。

上述“待识别图像”是指需要进行文本识别处理的图像数据(如图1所示的图像数据)；而且该“待识别图像”携带有噪声信息。其中，“噪声信息”是指能够对文本识别处理过程产生不良影响的图像信息。

另外，本申请实施例不限定上述“待识别图像”，例如，其可以是任意一个图像数据。又如，当下文“文本识别模型”的输入数据的高度被预先固定为32时，该“待识别图像”可以是一个高度为32且宽度不限定的图像数据(也就是，32×W的图像数据)。其中，W表示一个图像数据的宽度。

此外，本申请实施例也不限定上述“待识别图像”的获取过程，例如，其具体可以包括：在获取到图像采集数据之后，可以按照预设模型固定高度(例如，32)，对该图像采集数据进行图像尺寸调整，得到待识别图像，以使该待识别图像的高度达到该预设模型固定高度，并使得该待识别图像的宽高比与该图像采集数据的宽高比保持一致。

上述“图像采集数据”是指由图像采集设备(例如，照相机、摄像机等)采集到的图像数据。

上述“预设模型固定高度”是根据下文“文本识别模型”的输入数据的高度需求进行设定的。

基于上述S1的相关内容可知，在获取到一个需要进行文本识别处理的图像采集数据之后，可以针对该图像采集数据进行图像尺寸调整，得到待识别图像，以使该待识别图像的高度达到上述“预设模型固定高度”，并使得该待识别图像的宽高比与该图像采集数据的宽高比保持一致，以便后续能够利用文本识别模型，针对该待识别图像进行文本识别处理，以实现针对上述“图像采集数据”进行文本识别处理的目的。

S2：将待识别图像输入预先构建的文本识别模型，得到该文本识别模型输出的待识别图像的文本识别结果。

上述“待识别图像的文本识别结果”用于表示该待识别图像携带的字符信息。例如，当上述“待识别图像”为图1所示的图像数据时，“待识别图像的文本识别结果”可以是“STARBUCKS”。

上述“文本识别模型”用于针对该文本识别模型的输入数据进行文本识别处理；而且该“文本识别模型”是一种机器学习模型。

另外，上述“文本识别模型”是一种改进的CRNN；而且该“文本识别模型”包括特征提取网络、RNN和CTC。其中，CTC的输入数据包括RNN的输出数据；RNN的输出数据包括特征提取网络的输出数据。

需要说明的是，因上述RNN以及CTC分别采用CRNN中RNN以及CTC进行实施，故为了简要起见，本申请对此不做介绍。另外，上述“特征提取网络”未采用CRNN中CNN进行实施，故为了便于理解，下文详细介绍该“特征提取网络”的相关内容。

上述“特征提取网络”不仅用于针对该特征提取网络的输入数据进行特征提取；而且该“特征提取网络”还用于针对该特征提取网络的输入数据进行噪声抑制处理。可见，在将上文“待识别图像”输入特征提取网络之后，该特征提取网络能够提取该“待识别图像”的图像特征，且还能够抑制该“待识别图像”携带的噪声信息。

另外，本申请实施例不限定上述“特征提取网络”的实施方式，例如，其具体可以包括：图像特征提取子网络和图像噪声抑制子网络。

上述“图像特征提取子网络”用于针对该图像特征提取子网络的输入数据进行图像特征提取处理，以使该“图像特征提取子网络”具有图像特征提取功能。可见，在将上文“待识别图像”输入图像特征提取子网络之后，该图像特征提取子网络能够提取该“待识别图像”的图像特征。

另外，本申请实施例不限定上述“图像特征提取子网络”的实施方式，例如，可以采用现有的或者未来出现的任一种图像特征提取网络(例如，CNN)进行实施。又如，为了兼顾文本识别效率以及文本识别准确性，本申请实施例还提供了上述“图像特征提取子网络”的一种可能的实施方式，例如，其具体可以包括：N个特征提取模块。

上述“特征提取模块”具有图像特征提取功能；而且本申请实施例不限定该“特征提取模块”，例如，因残差块在特征提取和防止梯度消失上具有比较好的效果，故为了提高图像特征提取效果，上述“特征提取模块”可以是残差块(Residual Block)。需要说明的是，一个残差块可以包括两个CNN。

上述“N”表示上述“图像特征提取子网络”中特征提取模块的个数；而且本申请实施例不限定该“N”，例如，为了兼顾文本识别效率以及文本识别准确性，可以预先设定N＝8。

基于上述“图像特征提取子网络”的相关内容可知，在一种可能的实施方式中，该“图像特征提取子网络”可以包括8个残差块，以使该“图像特征提取子网络”具有较好的图像特征提取效果，以便后续该“图像特征提取子网络”能够被用于提取一个图像数据(例如，上文“待识别图像”)的图像特征。

上述“图像噪声抑制子网络”用于针对该图像噪声抑制子网络的输入数据进行噪声抑制处理，以使该“图像噪声抑制子网络”具有图像噪声抑制功能，从而使得该“图像噪声抑制子网络”能够被用于抑制一个图像数据(例如，上文“待识别图像”)携带的噪声信息。

另外，本申请实施例不限定上述“图像噪声抑制子网络”的实施方式，为了便于理解，下面结合三种情况进行说明。

情况1，为了抑制图像数据所携带的背景噪声，可以采用空间上的全局注意力机制(Global-Attention)进行实施。基于此，本申请实施例提供了上述“图像噪声抑制子网络”的一种可能的实施方式，其具体可以包括：空间噪声抑制模块。其中，“空间噪声抑制模块”用于抑制一个图像数据(例如，上文“待识别图像”)携带的背景噪声。

为了便于理解上述“空间噪声抑制模块”的工作原理，下面以上文“待识别图像的文本识别结果”的确定过程为例进行说明。

作为示例，当上述“文本识别模型”包括特征提取网络、RNN和CTC，该特征提取网络包括图像特征提取子网络和图像噪声抑制子网络，且该图像噪声抑制子网络包括空间噪声抑制模块时，“待识别图像的文本识别结果”的确定过程，具体可以包括步骤11-步骤13：

步骤11：将待识别图像输入图像特征提取子网络，得到该图像特征提取子网络输出的待使用图像特征。

其中，“待使用图像特征”是指上文“待识别图像”的图像特征，以使该“待使用图像特征”用于表示待识别图像携带的图像信息(例如，字符信息以及噪声信息)。

步骤12：将待使用图像特征输入空间噪声抑制模块，得到该空间噪声抑制模块输出的待处理图像特征。

上述“空间噪声抑制模块”用于针对该空间噪声抑制模块的输入数据进行背景噪声抑制处理。

另外，本申请实施例不限定上述“空间噪声抑制模块”的实施方式，例如，其可以基于空间上的全局注意力机制进行实施。基于此，本申请实施例提供了上述“空间噪声抑制模块”的一种可能的实施方式，其具体可以包括：空间权重确定子模块和特征加权融合子模块；而且该特征加权融合子模块的输入数据包括该空间权重确定子模块的输出数据以及上文“图像特征提取子网络”的输出数据。

为了便于理解上述“空间噪声抑制模块”的工作原理，下面以上述“待处理图像特征”的确定过程为例进行说明。

作为示例，当上述“空间噪声抑制模块”包括空间权重确定子模块和特征加权融合子模块时，“待处理图像特征”的确定过程具体可以包括步骤21-步骤22：

步骤21：将待使用图像特征输入空间权重确定子模块，得到该空间权重确定子模块输出的待使用空间权重。

上述“空间权重确定子模块”用于针对该空间权重确定子模块的输入数据进行空间权重确定处理(也就是，背景噪声影响权重确定处理)。

另外，本申请实施例不限定上述“空间权重确定子模块”的实施方式，例如，其可以采用一层卷积神经网络进行实施。

上述“待使用空间权重”用于表示上述“待使用图像特征”中各个特征元素的加权权重。例如，当上述“待使用图像特征”为R×E的特征图(如公式(1)所示)时，该“待使用空间权重”可以是一个R×E的矩阵(如公式(2)所示)，且该“待使用空间权重”中每一列元素的加和为1(如公式(3)所示)。

式中，F_use表示上述“待使用图像特征”；D_space表示上述“待使用空间权重”；R表示上述“待使用图像特征”的特征图高度，且R为正整数；E表示上述“待使用图像特征”的特征图宽度，且E为正整数。

步骤22：将待使用图像特征和待使用空间权重输入特征加权融合子模块，得到该特征加权融合子模块输出的待处理图像特征。

上述“特征加权融合子模块”用于按照待使用空间权重，对待使用图像特征进行加权求和处理(如公式(4)-(5)所示)。

F_discern＝[b₁ … b_E] (4)

式中，F_discern表示待处理图像特征。

基于上述步骤21至步骤22的相关内容可知，在获取到待使用图像特征之后，可以利用上述公式(1)-(5)，对该待使用图像特征进行背景噪声抑制处理，以拉大用于表示字符信息的特征元素与用于表示背景噪声的特征元素之间的差距，得到待处理图像特征，以使该待处理图像特征能够达到高亮字符信息且暗淡背景噪声的效果(如图3所示的效果)，从而使得该待处理图像特征能够明显地区分开上述“待识别图像”携带的字符信息以及背景噪声，如此能够有效地避免在直接将上述待使用图像特征的特征图高度压缩为1时，所导致的字符信息与背景噪声融为一体的不良影响，从而能够有效地提高图像特征提取效果。

基于上述步骤12的相关内容可知，在获取到待使用图像特征之后，可以利用空间噪声抑制模块，对该待使用图像特征进行背景噪声抑制处理，得到并输出待处理图像特征，以使该待处理图像特征中用于表示字符信息的特征元素与用于表示背景噪声的特征元素之间呈现较大的差异性，从而使得该待处理图像特征能够明显地区分开上述“待识别图像”携带的字符信息以及背景噪声，如此有利于提高图像特征提取效果。

步骤13：根据待处理图像特征、RNN和CTC，确定待识别图像的文本识别结果。

需要说明的是，本申请实施例不限定步骤13的实施方式，例如，该步骤13可以采用在CRNN中所使用的“根据CNN的输出数据、RNN和CTC确定文本识别结果”的实现过程进行实施。

基于上述步骤11至步骤13的相关内容可知，如图4所示，当上文“文本识别模型”包括特征提取网络、RNN和CTC，且该特征提取网络包括图像特征提取子网络和空间噪声抑制模块时，该空间噪声抑制模块的输入数据可以包括该图像特征提取子网络的输出数据，且RNN的输入数据可以包括该该空间噪声抑制模块的输出数据。

基于上述情况1的相关内容可知，对于上文“文本识别模型”来说，其可以借助上述“空间噪声抑制模块”，实现针对一个图像数据(例如，上文“待识别图像”)携带的背景噪声进行抑制处理，以使该图像数据携带的背景噪声几乎不会影响该图像数据携带的字符信息的特征表达，如此能够有效地降低该图像数据携带的背景噪声对RNN以及CTC所造成的不良影响，从而有利于提高文本识别效果。

情况2，可以采用通道注意力机制(Squeeze-and-Excitation Networks，SE-Net)进行通道噪声抑制。基于此，本申请实施例提供了上述“图像噪声抑制子网络”的另一种可能的实施方式，其具体可以包括：通道噪声抑制模块。其中，“通道噪声抑制模块”用于实现通道注意力机制。

为了便于理解，下面结合示例进行说明。

作为示例，当上文“文本识别模型”包括特征提取网络、RNN和CTC，且该特征提取网络包括图像特征提取子网络和图像噪声抑制子网络时，该图像特征提取子网络可以包括N个特征提取模块，且该图像噪声抑制子网络可以包括N个通道噪声抑制模块。其中，第n个通道噪声抑制模块的输入数据包括第n个特征提取模块的输出数据；其中，n为正整数，n≤N，N为正整数。另外，第1个特征提取模块的输入数据包括待识别图像，且第i+1个特征提取模块的输入数据包括第i个通道噪声抑制模块的输出数据；其中，i为正整数，i+1≤N，N为正整数。

可见，当上文“文本识别模型”为图5所示的文本识别模型时，该“文本识别模型”的工作原理如下：

先由第1个特征提取模块针对一个图像数据(例如，上文“待识别图像”)进行图像特征提取处理，得到该第1个特征提取模块的输出数据；再由第1个通道噪声抑制模块针对该第1个特征提取模块的输出数据进行通道噪声抑制处理，得到该第1个通道噪声抑制模块的输出数据；再由第2个特征提取模块针对该第1个通道噪声抑制模块的输出数据进行图像特征提取处理，得到该第2个特征提取模块的输出数据；再由第2个通道噪声抑制模块针对该第2个特征提取模块的输出数据进行通道噪声抑制处理，得到该第2个通道噪声抑制模块的输出数据；……(以此类推)；再由第N个特征提取模块针对该第N-1个通道噪声抑制模块的输出数据进行图像特征提取处理，得到该第N个特征提取模块的输出数据；再由第N个通道噪声抑制模块针对该第N个特征提取模块的输出数据进行通道噪声抑制处理，得到该第N个通道噪声抑制模块的输出数据；最后，根据该第N个通道噪声抑制模块的输出数据、RNN和CTC，确定该图像数据的文本识别结果。

另外，上述各个通道噪声抑制模块可以采用通道衰减的策略来降低网络成本，以实现在工程化之后该通道噪声抑制模块几乎没有时间上的额外开销，如此有利于提高文本识别效率。

基于上述情况2的相关内容可知，对于上文“文本识别模型”来说，其可以借助上述“通道噪声抑制模块”，实现针对通道噪声抑制处理，以使通道噪声几乎不会影响一个图像数据携带的字符信息的特征表达，如此能够有效地降低通道噪声对RNN以及CTC所造成的不良影响，从而有利于提高文本识别效果。

情况3，为了克服上述两种情况所示的噪声，本申请提供了上述“图像噪声抑制子网络”的又一种可能的实施方式，其具体可以包括：空间噪声抑制模块和通道噪声抑制模块。为了便于理解，下面结合示例进行说明。

作为示例，当上文“文本识别模型”包括特征提取网络、RNN和CTC，且该特征提取网络包括图像特征提取子网络和图像噪声抑制子网络时，该图像特征提取子网络可以包括N个特征提取模块，且该图像噪声抑制子网络可以包括N个通道噪声抑制模块和空间噪声抑制模块。其中，第n个通道噪声抑制模块的输入数据包括第n个特征提取模块的输出数据；其中，n为正整数，n≤N，N为正整数。另外，第1个特征提取模块的输入数据包括待识别图像，且第i+1个特征提取模块的输入数据包括第i个通道噪声抑制模块的输出数据；其中，i为正整数，i+1≤N，N为正整数。空间噪声抑制模块的输入数据包括第N个通道噪声抑制模块的输出数据。

可见，当上文“文本识别模型”为图6所示的文本识别模型时，该“文本识别模型”的工作原理(如图7所示)如下：

先由第1个特征提取模块针对一个图像数据(例如，上文“待识别图像”)进行图像特征提取处理，得到该第1个特征提取模块的输出数据；再由第1个通道噪声抑制模块针对该第1个特征提取模块的输出数据进行通道噪声抑制处理，得到该第1个通道噪声抑制模块的输出数据；再由第2个特征提取模块针对该第1个通道噪声抑制模块的输出数据进行图像特征提取处理，得到该第2个特征提取模块的输出数据；再由第2个通道噪声抑制模块针对该第2个特征提取模块的输出数据进行通道噪声抑制处理，得到该第2个通道噪声抑制模块的输出数据；……(以此类推)；再由第N个特征提取模块针对该第N-1个通道噪声抑制模块的输出数据进行图像特征提取处理，得到该第N个特征提取模块的输出数据；再由第N个通道噪声抑制模块针对该第N个特征提取模块的输出数据进行通道噪声抑制处理，得到该第N个通道噪声抑制模块的输出数据；然后，由空间噪声抑制模块针对该第N个通道噪声抑制模块的输出数据进行背景噪声抑制处理，得到该空间噪声抑制模块的输出数据；最后，根据该空间噪声抑制模块的输出数据、RNN和CTC，确定该图像数据的文本识别结果。

需要说明的是，图7中“BLSTM”是指双向长短时记忆网络(Bi-directional LongShort Term Memory Network，BLSTM)；而且BLSTM是一种RNN。

基于上述“文本识别模型”的相关内容可知，对于本申请实施例提供的“文本识别模型”来说，因该“文本识别模型”中图像噪声抑制子网络具有噪声抑制功能，使得该“文本识别模型”中特征提取网络也具有噪声抑制功能，从而使得该“文本识别模型”也具有噪声抑制功能，进而使得利用该“文本识别模型”针对一个图像数据所得到的文本识别结果更准确，如此有利于提高文本识别效果。

需要说明的是，本申请实施例不限定上述“文本识别模型”的构建过程，可以采用现有的或者未来出现的任一种机器学习模型构建方法进行实施即可。

基于上述S1至S2的相关内容可知，对于本申请实施例提供的文本识别方法来说，在获取到携带有噪声信息的待识别图像之后，将该待识别图像输入预先构建的文本识别模型，得到该文本识别模型输出的该待识别图像的文本识别结果。其中，文本识别模型包括特征提取网络、循环神经网络和转录层。特征提取网络用于提取待识别图像的图像特征、以及抑制该待识别图像携带的噪声信息。

基于上述方法实施例提供的文本识别方法，本申请实施例还提供了一种文本识别装置，下面结合附图进行解释和说明。

装置实施例

装置实施例提供的文本识别装置的技术详情，请参照上述方法实施例。

参见图8，该图为本申请实施例提供的一种文本识别装置的结构示意图。

本申请实施例提供的文本识别装置800，包括：

获取单元801，用于获取待识别图像；

识别单元802，用于将所述待识别图像输入预先构建的文本识别模型，得到所述文本识别模型输出的所述待识别图像的文本识别结果；其中，所述文本识别模型包括特征提取网络、循环神经网络RNN和转录层CTC；所述特征提取网络用于提取所述待识别图像的图像特征，且所述特征提取网络还用于抑制所述待识别图像携带的噪声信息。

所述识别单元802，具体用于：将所述待识别图像输入所述图像特征提取子网络，得到所述图像特征提取子网络输出的待使用图像特征；将所述待使用图像特征输入所述空间噪声抑制模块，得到所述空间噪声抑制模块输出的待处理图像特征；根据所述待处理图像特征、所述RNN和所述CTC，确定所述待识别图像的文本识别结果。

所述待处理图像特征的确定过程，包括：将所述待使用图像特征输入所述空间权重确定子模块，得到所述空间权重确定子模块输出的待使用空间权重；将所述待使用图像特征和所述待使用空间权重输入所述特征加权融合子模块，得到所述特征加权融合子模块输出的待处理图像特征。

基于上述文本识别装置800的相关内容可知，对于本申请实施例提供的文本识别装置800来说，在获取到携带有噪声信息的待识别图像之后，将该待识别图像输入预先构建的文本识别模型，得到该文本识别模型输出的该待识别图像的文本识别结果。其中，文本识别模型包括特征提取网络、循环神经网络和转录层。特征提取网络用于提取待识别图像的图像特征、以及抑制该待识别图像携带的噪声信息。

进一步地，本申请实施例还提供了一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行本申请实施例提供的文本识别方法的任一实施方式。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行本申请实施例提供的文本识别方法的任一实施方式。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

获取待识别图像；

2.根据权利要求1所述的方法，其特征在于，所述特征提取网络包括图像特征提取子网络和图像噪声抑制子网络；所述图像特征提取子网络用于提取所述待识别图像的图像特征；所述图像噪声抑制子网络用于抑制所述待识别图像携带的噪声信息。

3.根据权利要求2所述的方法，其特征在于，所述图像噪声抑制子网络包括空间噪声抑制模块和/或通道噪声抑制模块；其中，所述空间噪声抑制模块用于抑制所述待识别图像携带的背景噪声；所述通道噪声抑制模块用于实现通道注意力机制。

4.根据权利要求2所述的方法，其特征在于，所述图像噪声抑制子网络包括空间噪声抑制模块；

所述文本识别结果的确定过程，包括：

5.根据权利要求4所述的方法，其特征在于，所述空间噪声抑制模块包括空间权重确定子模块和特征加权融合子模块；

所述待处理图像特征的确定过程，包括：

6.根据权利要求2所述的方法，其特征在于，所述图像特征提取子网络包括N个特征提取模块；所述图像噪声抑制子网络包括N个通道噪声抑制模块；

7.根据权利要求2所述的方法，其特征在于，所述图像特征提取子网络包括N个特征提取模块；所述图像噪声抑制子网络包括N个通道噪声抑制模块和空间噪声抑制模块；

8.一种文本识别装置，其特征在于，包括：

获取单元，用于获取待识别图像；

9.一种设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-7中任一项所述的方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行权利要求1-7中任一项所述的方法。