CN111652093A

CN111652093A - 文本图像处理方法及装置

Info

Publication number: CN111652093A
Application number: CN202010434306.3A
Authority: CN
Inventors: 张宏韬; 刘华杰; 高天宁; 张瀚文
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-09-11
Anticipated expiration: 2040-05-21
Also published as: CN111652093B

Abstract

本申请提供了一种文本图像处理方法及装置，其中，该方法包括：接收目标文本图像；应用所述目标文本图像和预设的特征提取模型，得到该目标文本图像的文本特征信息；基于所述文本特征信息和预设的图像生成模型，得到所述目标文本图像对应的目标白底黑字图像；其中，所述预设的特征提取模型为预先训练得到的第一卷积神经网络模型，所述图像生成模型为预先训练得到的反卷积神经网络模型。本申请能够提高文本图像处理的效率和准确性，进而能够提高文本图像光学字符识别的准确性和效率。

Description

文本图像处理方法及装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种文本图像处理方法及装置。

背景技术

随着银行业务的增加，一些柜台业务需要用到纸质材料填写然后扫描存档，因此，对于图像识别的需要也不断增加，例如，图像OCR(Optical Character Recognition，光学字符识别)的需求。

然而现有OCR识别模型对于图像质量有要求，尤其是对复杂图像背景下的文本图像识别率较低。为了保证OCR识别模型的通用性，需要一种鲁棒性较好的文本图像处理技术来服务通用的OCR识别模型，使得通用的OCR识别模型在无需重新训练的情况下，能够其提高文本识别的准确率。

发明内容

针对现有技术中的问题，本申请提出了一种文本图像处理方法及装置，能够提高文本图像处理的效率和准确性，进而能够提高文本图像光学字符识别的准确性和效率。

为了解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种文本图像处理方法，包括：

接收目标文本图像；

应用所述目标文本图像和预设的特征提取模型，得到该目标文本图像的文本特征信息；

基于所述文本特征信息和预设的图像生成模型，得到所述目标文本图像对应的目标白底黑字图像；其中，所述预设的特征提取模型为预先训练得到的第一卷积神经网络模型，所述图像生成模型为预先训练得到的反卷积神经网络模型。

进一步地，在所述得到所述目标文本图像对应的目标白底黑字图像之后，还包括：将所述目标白底黑字图像输入预设的光学字符文本识别模型，并将该光学字符文本识别模型的输出结果作为所述目标文本图像对应的光学字符识别文本，其中，该光学字符文本识别模型为预先训练得到的卷积循环神经网络模型。

进一步地，在所述应用所述目标文本图像和预设的特征提取模型，得到该目标文本图像的文本特征信息之前，还包括：获取多个历史文本图像；应用所述预设的特征提取模型和预设的图像生成模型，得到各个所述历史文本图像各自对应的历史白底黑字图像；应用所述历史白底黑字图像和预设的图像判别模型，得到各个所述历史文本图像的分数信息；应用所述分数信息和历史文本图像对预处理模型进行训练，其中，该预处理模型包括：所述特征提取模型和图像生成模型。

进一步地，在所述应用所述历史白底黑字图像和预设的图像判别模型，得到各个所述历史文本图像的分数信息之前，还包括：获取多组白底黑字文本图像组和干扰文本图像组，其中，每组白底黑字文本图像组包含有唯一的历史文本图像对应的历史白底黑字图像以及该历史文本图像对应的真实分数信息，每组干扰文本图像组包含有唯一的历史文本图像以及该历史文本图像对应的预设分数信息；分别应用所述白底黑字文本图像组和干扰文本图像组对第二卷积神经网络模型进行训练，得到所述图像判别模型。

进一步地，所述预设的特征提取模型包括卷积层和批量归一化层，且不包括池化层。

进一步地，所述预设的图像判别模型为包含有平均池化层，并且激励函数为带泄露线性整流函数的二分类模型。

第二方面，本申请提供一种文本图像处理装置，包括：

接收模块，用于接收目标文本图像；

特征提取模块，用于应用所述目标文本图像和预设的特征提取模型，得到该目标文本图像的文本特征信息；

图像生成模块，用于基于所述文本特征信息和预设的图像生成模型，得到所述目标文本图像对应的目标白底黑字图像；其中，所述预设的特征提取模型为预先训练得到的第一卷积神经网络模型，所述图像生成模型为预先训练得到的反卷积神经网络模型。

进一步地，所述的文本图像处理装置，还包括：文本识别模块，用于将所述目标白底黑字图像输入预设的光学字符文本识别模型，并将该光学字符文本识别模型的输出结果作为所述目标文本图像对应的光学字符识别文本，其中，该光学字符文本识别模型为预先训练得到的卷积循环神经网络模型。

进一步地，所述的文本图像处理装置，还包括：第一获取模块，用于获取多个历史文本图像；生成模块，用于应用所述预设的特征提取模型和预设的图像生成模型，得到各个所述历史文本图像各自对应的历史白底黑字图像；判别模块，用于应用所述历史白底黑字图像和预设的图像判别模型，得到各个所述历史文本图像的分数信息；第一训练模块，用于应用所述分数信息和历史文本图像对预处理模型进行训练，其中，该预处理模型包括：所述特征提取模型和图像生成模型。

进一步地，所述的文本图像处理装置，还包括：第二获取模块，用于获取多组白底黑字文本图像组和干扰文本图像组，其中，每组白底黑字文本图像组包含有唯一的历史文本图像对应的历史白底黑字图像以及该历史文本图像对应的真实分数信息，每组干扰文本图像组包含有唯一的历史文本图像以及该历史文本图像对应的预设分数信息；第二训练模块，用于分别应用所述白底黑字文本图像组和干扰文本图像组对第二卷积神经网络模型进行训练，得到所述图像判别模型。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的文本图像处理方法。

第四方面，本申请一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现所述的文本图像处理方法。

由上述技术方案可知，本申请提供一种文本图像处理方法及装置。其中，该方法包括：接收目标文本图像；应用所述目标文本图像和预设的特征提取模型，得到该目标文本图像的文本特征信息；基于所述文本特征信息和预设的图像生成模型，得到所述目标文本图像对应的目标白底黑字图像；其中，所述预设的特征提取模型为预先训练得到的第一卷积神经网络模型，所述图像生成模型为预先训练得到的反卷积神经网络模型，能够提高文本图像处理的效率和准确性，进而能够提高文本图像光学字符识别的准确性和效率；具体地，应用基于对抗网络的文本图像处理方法及装置，能够去除具有复杂背景的文本图像，并将其中的文本转化为固定样式的文本，应用经过文本图像处理后的文本图像，能够对提高文本图像识别的准确性和效率，不需要对现有的光学字符文本识别模型进行再训练，能够大大加速对新场景需求的迭代。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的文本图像处理方法的流程示意图；

图2为本申请另一实施例的文本图像处理方法的流程示意图；

图3为本申请实施例的文本图像处理方法步骤301至步骤304的流程示意图；

图4为本申请实施例的文本图像处理方法步骤401和步骤402的流程示意图；

图5为本申请实施例的文本图像处理装置的结构示意图；

图6为本申请具体应用实例的文本图像处理方法的流程示意图；

图7为本申请具体应用实例的训练图像预处理模型的流程示意图；

图8为本申请实施例的电子设备9600的系统构成示意框图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了提高文本图像处理的效率和准确性，进而提高文本图像光学字符识别的准确性和效率，本申请考虑采用对抗网络的方式直接提取文本图像的文字特征，从而生成该文本图像对应的白底黑字的全新图片。基于对抗网络的文本图像处理方法可以去除具有复杂背景的文字图片的背景并将其中的文字转化为具有固定字体样式的文字。另外，经过这种图像处理后的图片可以直接输入现有的文字识别模型进行识别而不需要对现有文字识别模型进行再训练，能够大大加速对新场景需求的迭代，同时能够保证文字识别的准确率。

基于此，为了提高文本图像处理的效率和准确性，进而提高文本图像光学字符识别的准确性和效率，本申请实施例提供一种文本图像处理装置，该装置可以是一服务器或客户端设备，所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备和智能穿戴设备等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表和智能手环等。

在实际应用中，进行文本图像处理的部分可以在如上述内容所述的服务器侧执行，也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器。

上述的客户端设备可以具有通信模块(即通信单元)，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

所述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

具体通过下述各个实施例进行说明。

如图1所示，为了提高文本图像处理的效率和准确性，进而提高文本图像光学字符识别的准确性和效率，本实施例提供一种执行主体是文本图像处理装置的文本图像处理方法，具体包含有如下内容：

步骤101：接收目标文本图像。

具体地，所述目标文本图像可以是一个具有不同字体的文字图像，如发票、财报、广告文字和行程单等；也可以是一个手写体文字图像，如手写支票和凭证等。应用本实施例提供的文本图像处理方法，能够实现对差异较大的文字图像进行去背景和规格化等过程。

步骤102：应用所述目标文本图像和预设的特征提取模型，得到该目标文本图像的文本特征信息。

具体地，将所述目标文本图像输入预设的特征提取模型，并将该预设的特征提取模型的输出结果作为所述目标文本图像的文本特征信息。所述文本特征信息可以是特征提取模型对目标文本图像中的文字特征进行提取得到的特征矩阵。

在一种举例中，所述预设的特征提取模型包含有卷积层和批量归一化(batchnorm)层，且不包含池化层(pooling)。能够避免池化层导致的图像丢失细节，尤其是中文文字场景，汉字的区分大都是细节上的差异。

步骤103：基于所述文本特征信息和预设的图像生成模型，得到所述目标文本图像对应的目标白底黑字图像；其中，所述预设的特征提取模型为预先训练得到的第一卷积神经网络模型，所述图像生成模型为预先训练得到的反卷积神经网络模型。

具体地，将所述文本特征信息输入所述预设的图像生成模型，并将该预设的图像生成模型的输出结果作为所述目标文本图像对应的目标白底黑字图像。所述目标白底黑字图像中的图像背景为白色，字体颜色为黑字，能够清楚准确地显示目标文本图像中的文字信息。在得到所述目标文本图像对应的目标白底黑字图像之后，可以将所述目标白底黑字图像发送至显示端，如移动客户端或显示屏等，并输出显示，能够提高输出显示的准确性和效率，便于用户阅读。

为了在提高文本图像处理的效率和准确性的基础上，提高文本图像光学字符识别的准确性和效率，参见图2，在本申请一种基于文本图像识别应用场景的实施例中，在步骤103之后，还包含有：

步骤201：将所述目标白底黑字图像输入预设的光学字符文本识别模型，并将该光学字符文本识别模型的输出结果作为所述目标文本图像对应的光学字符识别文本，其中，该光学字符文本识别模型为预先训练得到的卷积循环神经网络模型。

为了进一步提高特征提取模型和图像生成模型的可靠性和效率，进而提高文本图像处理的效率和准确性，参见图3，在本申请一个实施例中，在步骤102之前还包含有：

步骤301：获取多个历史文本图像。

步骤302：应用所述预设的特征提取模型和预设的图像生成模型，得到各个所述历史文本图像各自对应的历史白底黑字图像。

具体地，将所述历史文本图像输入所述预设的特征提取模型，并将该预设的特征提取模型的输出结果作为该历史文本图像对应的文本特征信息，将该文本特征信息输入所述预设的图像生成模型，并将该预设的图像生成模型的输出结果作为所述历史文本图像对应的历史白底黑字图像。

步骤303：应用所述历史白底黑字图像和预设的图像判别模型，得到各个所述历史文本图像的分数信息。

具体地，所述预设的图像判别模型用于表示历史白底黑字图像以及真实白底黑字图像之间差别，用以指导后续图像生成网络的训练。所述分数信息可以是“0”或“1”，其中，“0”表示历史白底黑字图像与真实白底黑字图像完全不同，“1”表示历史白底黑字图像与真实白底黑字图像一致。

在一种举例中，所述预设的图像判别模型为包含有平均池化层(AvgPool)，并且激励函数为带泄露线性整流函数(LeakyReLU)的二分类模型。

步骤304：应用所述分数信息和历史文本图像对预处理模型进行训练，其中，该预处理模型包括：所述特征提取模型和图像生成模型。

具体地，将所述特征提取模型和图像生成模型串联后作为预处理模型进行训练，能够最大程度减少特征提取模型和图像生成模型单独训练时可能产生的差异：包括特征提取模型提取的特征信息与图像生成模型所需要的特征信息之间的差异，以及因二者网络结构不同导致的收敛情况不一致的差异。所述图像判别模型、特征提取模型和图像生成模型可以组成对抗神经网络模型。

为了进一步提高图像判别模型的可靠性和效率，进而提高训练预处理模型的准确性和效率，保证文本图像处理的效率和准确性，参见图4，在本申请一个实施例中，在步骤303之前，还包含有：

步骤401：获取多组白底黑字文本图像组和干扰文本图像组，其中，每组白底黑字文本图像组包含有唯一的历史文本图像对应的历史白底黑字图像以及该历史文本图像对应的真实分数信息，每组干扰文本图像组包含有唯一的历史文本图像以及该历史文本图像对应的预设分数信息。

具体地，应用所述预设的特征提取模型和预设的图像生成模型，得到各个所述历史文本图像各自对应的历史白底黑字图像；应用OpenCV(Open Source Computer VisionLibrary，开源计算机视觉库)得到各个所述历史文本图像各自对应的真实白底黑字图像；基于所述历史白底黑字图像和真实白底黑字图像，得到各个所述历史文本图像各自对应的真实分数信息。所述预设分数信息可根据实际需要进行设置，本申请对此不作限制。

步骤402：分别应用所述白底黑字文本图像组和干扰文本图像组对第二卷积神经网络模型进行训练，得到所述图像判别模型。

具体地，应用所述白底黑字文本图像组对第二卷积神经网络模型进行训练，应用所述干扰文本图像组对第二卷积神经网络模型进行训练；进一步地，所述图像判别模型可以是一个二分类模型，且图像生成模型在训练的初期生成的图像和真实样本差别巨大，因此图像判别模型要比特征提取模型和图像生成模型更容易收敛从而影响联合训练的效果，因此在训练图像判别模型的过程中加入干扰样本同时在图像判别模型中加入高斯噪声层来抑制拟合速度。

从软件层面来说，为了提高文本图像处理的效率和准确性，进而提高文本图像光学字符识别的准确性和效率，本申请提供一种用于实现所述文本图像处理方法中全部或部分内容的文本图像处理装置的实施例，参见图5，所述文本图像处理装置具体包含有如下内容：

接收模块51，用于接收目标文本图像。

特征提取模块52，用于应用所述目标文本图像和预设的特征提取模型，得到该目标文本图像的文本特征信息。

图像生成模块53，用于基于所述文本特征信息和预设的图像生成模型，得到所述目标文本图像对应的目标白底黑字图像；其中，所述预设的特征提取模型为预先训练得到的第一卷积神经网络模型，所述图像生成模型为预先训练得到的反卷积神经网络模型。

在本申请一个实施例中，所述的文本图像处理装置，还包括：

文本识别模块，用于将所述目标白底黑字图像输入预设的光学字符文本识别模型，并将该光学字符文本识别模型的输出结果作为所述目标文本图像对应的光学字符识别文本，其中，该光学字符文本识别模型为预先训练得到的卷积循环神经网络模型。

第一获取模块，用于获取多个历史文本图像。

生成模块，用于应用所述预设的特征提取模型和预设的图像生成模型，得到各个所述历史文本图像各自对应的历史白底黑字图像。

判别模块，用于应用所述历史白底黑字图像和预设的图像判别模型，得到各个所述历史文本图像的分数信息。

第一训练模块，用于应用所述分数信息和历史文本图像对预处理模型进行训练，其中，该预处理模型包括：所述特征提取模型和图像生成模型。

第二获取模块，用于获取多组白底黑字文本图像组和干扰文本图像组，其中，每组白底黑字文本图像组包含有唯一的历史文本图像对应的历史白底黑字图像以及该历史文本图像对应的真实分数信息，每组干扰文本图像组包含有唯一的历史文本图像以及该历史文本图像对应的预设分数信息。

第二训练模块，用于分别应用所述白底黑字文本图像组和干扰文本图像组对第二卷积神经网络模型进行训练，得到所述图像判别模型。

本说明书提供的文本图像处理装置的实施例具体可以用于执行上述文本图像处理方法的实施例的处理流程，其功能在此不再赘述，可以参照上述文本图像处理方法实施例的详细描述。

为了进一步说明本方案，本申请还提供一种文本图像处理方法的具体应用实例，在本具体应用实例中，该文本图像处理方法作为OCR识别模型的前处理，无需对现有OCR识别模型进行重新训练。采用对抗网络的方式直接提取文字特征，该对抗网络能够生成白底黑字的全新图片。图6是本具体应用实例的文本图像处理方法的流程示意图，具体描述如下：

S0：输入待处理图片，图片至少包括文本内容。

在具有不同字体的文字图片(如：发票、商标、财报、广告文字和行程单等)，或者手写文字图片(如：手写支票和手写凭证等)的场景中，本具体应用实例能够实现对这些差异较大的文字图片进行去背景和规格化，得到白底黑字黑体图片，所述文字图片可以是通过拍照得到的图片，也可以是通过拍摄或拍照后经过一些预处理、美化处理和修正处理得到的图片或视频截图，甚至是一些商品的认证图片，如防伪图片等。文本内容可以理解为包括字符类的内容，如包括汉字和字母等字符。

S2：将待处理图片输入到训练好的的图像预处理模型中；能够进行背景去除处理，从而获取处理后的白底黑字的全新图像。

图像预处理模型采用的是对抗神经网络模型，模型包括三个部分：特征提取网络，图像生成网络以及图像判别网络。其中，特征提取网络负责提取待处理图片中文字特征信息，图像生成网络负责利用特征提取网络提取的特征信息生成白底黑字的图片，图像判别网络用于给生成的白底黑字图片进行打分并将分数反馈给图像生成网络以进行下一步迭代训练优化。其中，特征提取网络以及图像判别网络为卷积神经网络，而图像生成网络为反卷积神经网络。卷积层是用来自动从每个输入图像中提取特征序列，反卷积层是用来将特征序列可视化。因此，本具体应用实例中的图像预处理模型实现的功能相当于上述预处理模型和图像判别模型结合实现的功能。

S4：获取所述图像预处理模型输出的图片；具体地，输出的图片是一张白底黑字的图片。

图7是本具体应用实例的训练图像预处理模型的流程示意图。

S20：获取训练图片及图片信息；图片信息指的是图片内的文字内容。

S22：基于图片信息，生成白底黑字的真实图片。

这里的真实图片是黑色文字以及白色背景的图片，是采用OpenCV生成并非采用对抗网络，文字的字体是黑体加粗并且放大到填满整个图片，以方便突出文字的特征。

S24：将训练图片输入特征提取网络进行特征提取。

特征提取网络是应用卷积神经网络构建的，包括：7个卷积层，两个batchnorm层。具体地，还能够对文字的特征提取做特殊的优化，比如中文文字一般为方形且单字的宽度较为固定，通过应用特征提取网络中的步长(stride)参数对图像进行压缩，能够把每个中文文字压缩到宽度为一个像素，具体地，步长参数的值可根据实际需要进行设置；同时不使用pooling层，能够避免由于pooling层导致的图片细节丢失，尤其是中文文字场景，汉字的区分大都是细节上的差异。

S26：基于所述提取的特征，输入图像生成网络进行目标图像生成。

图像生成网络是应用反卷积神经网络构建的，包括：7个反卷积层，7个batchnorm层。目标图像是由图像生成网络得到的白底黑字的图片。

S28：将图像生成网络生成的目标图像以及真实图片同时输入图像判别网络进行训练，获得图像判别模型。

判别网络是应用卷积神经网络构建的，包括：5个卷积层，2个batchnorm层以及一个AvgPool层。这里的目的是让判别网络学会目标图片以及真实图片之间差别，用以指导后续图像生成网络和特征提取网络的训练。

S210：基于图像判别模型对图像生成网络生成的目标图片进行打分，获得分数信息。

S212：基于分数信息，对图像生成网络和特征提取网络进行训练，获得图像生成模型和特征提取模型。

为保障三个网络的联合训练，网络中采用LeakyReLU代替非线性运算单元(ReLU)作为激活函数，在判别网络使用AvgPool层代替用于解决多分类问题的softmax层。由于判别网络是一个二分类模型，且图像生成网络在训练的初期生成的图像和真实样本差别巨大，因此通常判别网络要比特征提取网络和图像生成网络更容易收敛从而影响联合训练的效果，因此会在训练判别网络过程中加入干扰样本同时在判别网络结构中加入高斯噪声层来抑制拟合速度。

校正过程需将特征提取网络与图像生成网络串联后进行校正，以便最大程度减少两个网络之间的单独训练时可能产生的差异：包括特征提取网络提取的特征与图像生成网络所需要的特征之间的差异，以及因二者网络结构不同导致的收敛情况不一致的差异。

由上述描述可知，本申请提供的文本图像处理方法及装置，能够提高文本图像处理的效率和准确性，进而能够提高文本图像光学字符识别的准确性和效率；具体地，能够去除具有复杂背景的文本图像，并将其中的文本转化为固定样式的文本，应用经过文本图像处理后的文本图像，能够对提高文本图像识别的准确性和效率，不需要对现有的光学字符文本识别模型进行再训练，能够大大加速对新场景需求的迭代。

从硬件层面来说，为了提高文本图像处理的效率和准确性，进而提高文本图像光学字符识别的准确性和效率，本申请提供一种用于实现所述文本图像处理方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容：

处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述通信接口用于实现所述文本图像处理装置以及用户终端等相关设备之间的信息传输；该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照实施例用于实现所述文本图像处理方法的实施例及用于实现所述文本图像处理装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图8为本申请实施例的电子设备9600的系统构成的示意框图。如图8所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图8是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在本申请一个或多个实施例中，文本图像处理功能可以被集成到中央处理器9100中。其中，中央处理器9100可以被配置为进行如下控制：

步骤101：接收目标文本图像。

从上述描述可知，本申请的实施例提供的电子设备，能够提高文本图像处理的效率和准确性，进而能够提高文本图像光学字符识别的准确性和效率。

在另一个实施方式中，文本图像处理装置可以与中央处理器9100分开配置，例如可以将文本图像处理装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现文本图像处理功能。

如图8所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图8中所示的所有部件；此外，电子设备9600还可以包括图8中没有示出的部件，可以参考现有技术。

如图8所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

上述描述可知，本申请的实施例提供的电子设备，能够提高文本图像处理的效率和准确性，进而能够提高文本图像光学字符识别的准确性和效率。

本申请的实施例还提供能够实现上述实施例中的文本图像处理方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的文本图像处理方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

步骤101：接收目标文本图像。

从上述描述可知，本申请实施例提供的计算机可读存储介质，能够提高文本图像处理的效率和准确性，进而能够提高文本图像光学字符识别的准确性和效率。

本申请中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种文本图像处理方法，其特征在于，包括：

接收目标文本图像；

2.根据权利要求1所述的文本图像处理方法，其特征在于，在所述得到所述目标文本图像对应的目标白底黑字图像之后，还包括：

将所述目标白底黑字图像输入预设的光学字符文本识别模型，并将该光学字符文本识别模型的输出结果作为所述目标文本图像对应的光学字符识别文本，其中，该光学字符文本识别模型为预先训练得到的卷积循环神经网络模型。

3.根据权利要求1所述的文本图像处理方法，其特征在于，在所述应用所述目标文本图像和预设的特征提取模型，得到该目标文本图像的文本特征信息之前，还包括：

获取多个历史文本图像；

应用所述预设的特征提取模型和预设的图像生成模型，得到各个所述历史文本图像各自对应的历史白底黑字图像；

应用所述历史白底黑字图像和预设的图像判别模型，得到各个所述历史文本图像的分数信息；

应用所述分数信息和历史文本图像对预处理模型进行训练，其中，该预处理模型包括：所述特征提取模型和图像生成模型。

4.根据权利要求3所述的文本图像处理方法，其特征在于，在所述应用所述历史白底黑字图像和预设的图像判别模型，得到各个所述历史文本图像的分数信息之前，还包括：

获取多组白底黑字文本图像组和干扰文本图像组，其中，每组白底黑字文本图像组包含有唯一的历史文本图像对应的历史白底黑字图像以及该历史文本图像对应的真实分数信息，每组干扰文本图像组包含有唯一的历史文本图像以及该历史文本图像对应的预设分数信息；

分别应用所述白底黑字文本图像组和干扰文本图像组对第二卷积神经网络模型进行训练，得到所述图像判别模型。

5.根据权利要求1所述的文本图像处理方法，其特征在于，所述预设的特征提取模型包括卷积层和批量归一化层，且不包括池化层。

6.根据权利要求3所述的文本图像处理方法，其特征在于，所述预设的图像判别模型为包含有平均池化层，并且激励函数为带泄露线性整流函数的二分类模型。

7.一种文本图像处理装置，其特征在于，包括：

接收模块，用于接收目标文本图像；

8.根据权利要求7所述的文本图像处理装置，其特征在于，还包括：

9.根据权利要求7所述的文本图像处理装置，其特征在于，还包括：

第一获取模块，用于获取多个历史文本图像；

生成模块，用于应用所述预设的特征提取模型和预设的图像生成模型，得到各个所述历史文本图像各自对应的历史白底黑字图像；

判别模块，用于应用所述历史白底黑字图像和预设的图像判别模型，得到各个所述历史文本图像的分数信息；

10.根据权利要求9所述的文本图像处理装置，其特征在于，还包括：

第二获取模块，用于获取多组白底黑字文本图像组和干扰文本图像组，其中，每组白底黑字文本图像组包含有唯一的历史文本图像对应的历史白底黑字图像以及该历史文本图像对应的真实分数信息，每组干扰文本图像组包含有唯一的历史文本图像以及该历史文本图像对应的预设分数信息；

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6任一项所述的文本图像处理方法。

12.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被执行时实现权利要求1至6任一项所述的文本图像处理方法。