CN108230332B

CN108230332B - 文字图像的处理方法和装置、电子设备、计算机存储介质

Info

Publication number: CN108230332B
Application number: CN201711039709.2A
Authority: CN
Inventors: 张�杰; 梁鼎
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2021-05-04
Anticipated expiration: 2037-10-30
Also published as: CN108230332A

Abstract

本发明实施例公开了一种文字图像的处理方法和装置、电子设备、计算机存储介质，其中，方法包括：将接收到的待处理文字图像处理为黑白图像；通过渲染网络对所述黑白图像进行背景渲染，得到渲染后的渲染文字图像；所述渲染网络基于文字图像样本集结合判别网络预先训练获得，所述文字图像样本集包括真实的样本文字图像以及所述真实的样本文字图像经过背景渲染获得的渲染样本文字图像。本发明上述实施例，由于采用训练好的渲染网络，实现了为黑白图像渲染了较为真实的背景纹理，实现了获得与真实图像差异较小的渲染文字图像。

Description

文字图像的处理方法和装置、电子设备、计算机存储介质

技术领域

本发明涉及图像处理技术，尤其是一种文字图像的处理方法和装置、电子设备、计算机存储介质。

背景技术

基于深度学习的文字识别算法需要大量的样本数据进行训练，通过人工采集和标注这些样本数据需要花费极高的人力成本；同时由于字典中的文字在现实生活中出现的频率差异较大，往往很难采集到一些生僻字的文字图像，这对文字识别算法的训练也会造成一定的影响。因此人工生成用于文字识别的数据不仅可以极大地节省成本，而且也能丰富数据集，训练更好的模型；然而实际采集到的文字图像往往会有不同的背景纹理，文字的模糊程度也不一致，还存在光照、拍摄角度等各种因素影响采集到的文字图像。

发明内容

本发明实施例提供一种文字图像的处理技术。

本发明实施例提供的一种文字图像的处理方法，包括：

将接收到的待处理文字图像处理为黑白图像；

通过渲染网络对所述黑白图像进行背景渲染，得到渲染后的渲染文字图像；所述渲染网络基于文字图像样本集结合判别网络预先训练获得，所述文字图像样本集包括真实样本文字图像以及所述真实样本文字图像经过背景渲染获得的渲染样本文字图像，所述判别网络用于识别接收的文字图像的真实率，所述真实率表示所述渲染文字图像和所述文字图像样本集中的图像是真实图像的概率。

在基于本发明上述方法的另一个实施例中，所述将接收到的待处理文字图像处理为黑白图像，包括：

将接收到的待处理文字图像转换为灰度图，基于所述转换得到的灰度图计算获得自适应阈值；

基于所述自适应阈值对所述灰度图进行二值化处理，得到所述黑白图像。

在基于本发明上述方法的另一个实施例中，基于所述自适应阈值对所述灰度图进行二值化处理，包括：

将所述灰度图中大于或等于所述自适应阈值的像素对应像素值设置为255，将所述灰度图中小于所述自适应阈值的像素对应像素值设置为0；

或将所述灰度图中大于或等于所述自适应阈值的像素对应像素值设置为0，将所述灰度图中小于所述自适应阈值的像素对应像素值设置为255。

在基于本发明上述方法的另一个实施例中，通过渲染网络对所述黑白图像进行背景渲染之前，还包括：

保持所述黑白图像的宽高比不变，对所述黑白图像进行缩放，将所述黑白图像的高度缩放为设定值，将所述黑白图像的宽度缩放为设定值的整数倍。

在基于本发明上述方法的另一个实施例中，将所述黑白图像的宽度缩放为设定像素值的整数倍，包括：

当所述黑白图像经过缩放，得到缩放后的宽度值不为所述设定值的整数倍时，通过反映填充的方式将所述宽度值补全到所述设定值的整数倍。

在基于本发明上述方法的另一个实施例中，所述通过反映填充的方式将所述宽度值补全到所述设定值的整数倍，包括：

从所述经过缩放的黑白图像的最右列像素开始按照从左到右的顺序补充至少1列像素，使补充所述至少1列像素后的宽度值为所述设定值的整数倍；所述至少1列像素包括从所述最右列像素开始从右到左选取的至少1列像素，在补充过程中，将先选取的像素先插入。

在基于本发明上述方法的另一个实施例中，还包括：

将所述渲染文字图像和所述接收到的待处理文字图像输入判别网络；

经所述判别网络输出所述渲染文字图像和所述接收到的待处理文字图像的真实率；

基于所述真实率获取所述渲染文字图像与所述接收到的待处理文字图像之间的误差值；所述误差值表示所述渲染文字图像与所述接收到的待处理文字图像在像素值上的差异；

基于所述误差值训练所述渲染网络和所述判别网络，直到满足预设停止训练条件。

在基于本发明上述方法的另一个实施例中，经所述判别网络输出所述渲染文字图像的真实率，包括：

对所述渲染文字图像基于高度和宽度分解为至少一个渲染区域，基于所述判别网络输出分别对应各所述渲染区域的区域真实率；对各所述区域真实率求平均，获取对应所述渲染文字图像的真实率。

在基于本发明上述方法的另一个实施例中，各所述渲染区域大小相同，所述渲染区域的高度和宽度相同。

在基于本发明上述方法的另一个实施例中，所述判别网络包括至少一个卷积层和一个批归一化层；

经所述判别网络输出所述渲染文字图像和所述接收到的文字图像的真实率，包括：

经所述卷积层提取所述渲染文字图像的特征；

经所述批归一化层对所述卷积层输出的特征执行归一化操作，分别得到所述渲染文字图像和所述待处理文字图像的归一化后的真实率。

在基于本发明上述方法的另一个实施例中，基于所述误差值训练所述渲染网络和所述判别网络，直到满足预设停止训练条件，包括：

将所述误差值作为最大误差，将所述最大误差通过梯度反向传播，计算所述渲染网络和所述判别网络中每一层的误差；

根据所述每一层的误差计算出每一层参数的梯度，根据所述梯度修正所述渲染网络和所述判别网络中对应层的参数；

根据优化参数后的所述渲染网络和所述判别网络输出的真实率获得误差值，将所述误差值作为最大误差；

迭代执行将最大误差通过梯度反向传播，计算所述渲染网络和所述判别网络中每一层的误差；根据所述每一层的误差计算出每一层参数的梯度，根据所述梯度修正所述渲染网络和所述判别网络中对应层的参数，直到满足预设停止训练条件。

在基于本发明上述方法的另一个实施例中，所述满足预设停止训练条件，包括：

所述误差值小于预设值，和/或所述误差值的数值变化率小于第一预设变化率，和/或所述真实率与0.5的差值的绝对值小于预设差值。

在基于本发明上述方法的另一个实施例中，基于所述真实率获取所述渲染文字图像与所述接收到的文字图像之间的误差值，包括：基于所述真实率分别获取对应所述渲染网络的第一误差值，和对应所述判别网络的第二误差值；

基于所述误差值训练所述渲染网络和所述判别网络，包括：基于所述第一误差值训练所述渲染网络和判别网络；基于所述第二误差值训练所述判别网络和渲染网络；

直到满足预设停止训练条件，包括：直到所述第一误差值和所述第二误差值的数值变化率都小于第二预设变化率。

在基于本发明上述方法的另一个实施例中，还包括：

将所述得到的渲染文字图像作为样本图像；或将所述得到的渲染文字图像和真实文字图像作为样本图像；

基于所述样本图像训练文字识别网络；所述文字识别网络用于识别样本图像中的文字内容。

根据本发明实施例的一个方面，提供的文字图像的处理装置，包括：

图像转换单元，用于将接收到的待处理文字图像处理为黑白图像；

渲染单元，用于通过渲染网络对所述黑白图像进行背景渲染，得到渲染后的渲染文字图像；所述渲染网络基于文字图像样本集结合判别网络预先训练获得，所述文字图像样本集包括真实样本文字图像以及所述真实样本文字图像经过背景渲染获得的渲染样本文字图像，所述判别网络用于识别接收的文字图像的真实率，所述真实率表示所述渲染文字图像和所述文字图像样本集中的图像是真实图像的概率。

在基于本发明上述装置的另一个实施例中，所述图像转换单元，包括：

灰度转换模块，用于将接收到的待处理文字图像转换为灰度图，基于所述转换得到的灰度图计算获得自适应阈值；

二值化模块，用于基于所述自适应阈值对所述灰度图进行二值化处理，得到所述黑白图像。

在基于本发明上述装置的另一个实施例中，所述二值化模块，具体用于将所述灰度图中大于或等于所述自适应阈值的像素对应像素值设置为255，将所述灰度图中小于所述自适应阈值的像素对应像素值设置为0；

或具体用于，将所述灰度图中大于或等于所述自适应阈值的像素对应像素值设置为0，将所述灰度图中小于所述自适应阈值的像素对应像素值设置为255。

在基于本发明上述装置的另一个实施例中，还包括：

缩放单元，用于保持所述黑白图像的宽高比不变，对所述黑白图像进行缩放，将所述黑白图像的高度缩放为设定值，将所述黑白图像的宽度缩放为设定值的整数倍。

在基于本发明上述装置的另一个实施例中，所述缩放单元，还用于当所述黑白图像经过缩放，得到缩放后的宽度值不为所述设定值的整数倍时，通过反映填充的方式将所述宽度值补全到所述设定值的整数倍。

在基于本发明上述装置的另一个实施例中，所述缩放单元，具体用于从所述经过缩放的黑白图像的最右列像素开始按照从左到右的顺序补充至少1列像素，使补充所述至少1列像素后的宽度值为所述设定值的整数倍；所述至少1列像素包括从所述最右列像素开始从右到左选取的至少1列像素，在补充过程中，将先选取的像素先插入。

在基于本发明上述装置的另一个实施例中，还包括：

输入单元，用于将所述渲染文字图像和所述接收到的待处理文字图像输入判别网络；

真实判别单元，用于经所述判别网络输出所述渲染文字图像和所述接收到的待处理文字图像的真实率；

误差单元，用于基于所述真实率获取所述渲染文字图像与所述接收到的待处理文字图像之间的误差值；所述误差值表示所述渲染文字图像与所述接收到的待处理文字图像在像素值上的差异；

训练单元，用于基于所述误差值训练所述渲染网络和所述判别网络，直到满足预设停止训练条件。

在基于本发明上述装置的另一个实施例中，所述真实判别单元，具体用于对所述渲染文字图像基于高度和宽度分解为至少一个渲染区域，基于所述判别网络输出分别对应各所述渲染区域的区域真实率；对各所述区域真实率求平均，获取对应所述渲染文字图像的真实率。

在基于本发明上述装置的另一个实施例中，各所述渲染区域大小相同，所述渲染区域的高度和宽度相同。

在基于本发明上述装置的另一个实施例中，所述判别网络包括至少一个卷积层和一个批归一化层；

所述真实判别单元，包括：

特征提取模块，用于经所述卷积层提取所述渲染文字图像的特征；

归一化模块，用于经所述批归一化层对所述卷积层输出的特征执行归一化操作，分别得到所述渲染文字图像和所述待处理文字图像的归一化后的真实率。

在基于本发明上述装置的另一个实施例中，所述训练单元，具体用于将所述误差值作为最大误差，将所述最大误差通过梯度反向传播，计算所述渲染网络和所述判别网络中每一层的误差；

在基于本发明上述装置的另一个实施例中，所述满足预设停止训练条件，包括：

在基于本发明上述装置的另一个实施例中，所述误差单元，具体用于基于所述真实率分别获取对应所述渲染网络的第一误差值，和对应所述判别网络的第二误差值；

所述训练单元，具体用于基于所述第一误差值训练所述渲染网络和判别网络；基于所述第二误差值训练所述判别网络和渲染网络；直到所述第一误差值和所述第二误差值的数值变化率都小于第二预设变化率。

在基于本发明上述装置的另一个实施例中，还包括：

网络训练单元，用于将所述得到的渲染文字图像作为样本图像；或将所述得到的渲染文字图像和真实文字图像作为样本图像；

根据本发明实施例的一个方面，提供的一种电子设备，包括处理器，所述处理器包括如上所述的文字图像的处理装置。

根据本发明实施例的一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上所述文字图像的处理方法的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行如上所述文字图像的处理方法的操作。

基于本发明上述实施例提供的文字图像的处理方法，通过将接收到的待处理文字图像处理为黑白图像；去除了真实图像中的背景纹理，并且，获取的黑白图像中克服了由于光照、拍摄角度等因素对真实图像产生的影响；通过渲染网络对黑白图像进行背景渲染，得到渲染后的渲染文字图像；该渲染网络基于文字图像样本集结合判别网络预先训练获得，由于采用结合判别网络训练好的渲染网络，实现了为黑白图像渲染了较为真实的背景纹理，实现了获得与真实图像差异较小的渲染文字图像。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明文字图像的处理方法一个实施例的流程图。

图2为本发明文字图像的处理方法又一个实施例的流程图。

图3为本发明文字图像的处理装置一个实施例的结构示意图。

图4为本发明文字图像的处理装置又一个实施例的结构示意图。

图5为用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本发明文字图像的处理方法一个实施例的流程图。如图1所示，该实施例方法包括：

步骤101，将接收到的待处理文字图像处理为黑白图像。

其中，黑白图像中文字部分为黑色，其他部分为白色，或文字部分为白色，其他部分为黑色；经过处理，将使文字图像中的背景纹理去除，并使模糊的文字清晰。

步骤102，通过渲染网络对黑白图像进行背景渲染，得到渲染后的渲染文字图像。

其中，渲染网络基于文字图像样本集结合判别网络预先训练获得，文字图像样本集包括真实样本文字图像以及真实样本文字图像经过背景渲染获得的渲染样本文字图像，判别网络用于识别接收的文字图像的真实率，真实率表示渲染文字图像和文字图像样本集中的图像是真实图像的概率。

在本发明文字图像的处理方法上述实施例的一个具体示例中，操作101包括：

将接收到的待处理文字图像转换为灰度图，基于转换得到的灰度图计算获得自适应阈值；

基于自适应阈值对灰度图进行二值化处理，得到黑白图像。

在本实施例中，接收到的文字图像可以是人工采集到的图像，为了实现将文字图像中的背景纹理去除，将图像转换为灰度图是为了便于二值化处理，在灰度图的基础上进行二值化处理，可以将文字图像中的文字内容进行突出，忽略背景纹理和模糊部分。

在本发明文字图像的处理方法上述各实施例的一个具体示例中，基于自适应阈值对灰度图进行二值化处理，包括：

将灰度图中大于或等于自适应阈值的像素对应像素值设置为255，将灰度图中小于自适应阈值的像素对应像素值设置为0；

或将灰度图中大于或等于自适应阈值的像素对应像素值设置为0，将灰度图中小于自适应阈值的像素对应像素值设置为255。

在本实施例中，通过在灰度图上求解一个自适应阈值，基于该自适应阈值区分是否为文字部分，将属于文字部分的像素对应的像素值调整为255，将不属于文字部分的像素对应的像素值调整为0，即实现将文字部分显示为黑色，其余部分为白色的目的，输出黑白图像；或者，将属于文字部分的像素对应的像素值调整为0，将不属于文字部分的像素对应的像素值调整为255，即实现将文字部分显示为白色，其余部分为黑色的目的，输出黑白图像；输出的黑白图像与接收的文字图像一一对应。

本发明文字图像的处理方法的另一个实施例，在上述各实施例的基础上，操作102之前，还包括：

保持黑白图像的宽高比不变，对黑白图像进行缩放，将黑白图像的高度缩放为设定值，将黑白图像的宽度缩放为设定值的整数倍。

在本实施例中，为了便于对文字图像进行识别，对黑白图像进行缩放，使高度统一缩放为一个设定值(例如：32个像素)，同时由于文字的数目不同，对黑白图像缩放后得到的宽度是设定值的整数倍(该倍数对应文字数目)；经过统一缩放的黑白图像在处理过程中更方便操作和识别；实际应用中，可以采用双线性插值的方式对黑白图像的大小进行缩放，该方法不会影响文字的清晰度。

在本发明文字图像的处理方法上述各实施例的一个具体示例中，将黑白图像的宽度缩放为设定像素值的整数倍，包括：

当黑白图像经过缩放，得到缩放后的宽度值不为设定值的整数倍时，通过反映填充的方式将宽度值补全到设定值的整数倍。

本实施例中，当缩放后的宽度值不是设定值的整数倍时，在后续识别文字时将出现错误，因此，需要对宽度值在黑白图像的右边做补全操作，采用reflect padding反映填充的方式将宽度值补全到设定值的倍数，反映填充具体是从补全位置从左往右依次填充，图像最右边从右往左的列。

在本发明文字图像的处理方法上述各实施例的一个具体示例中，通过反映填充的方式将宽度值补全到设定值的整数倍，包括：

从经过缩放的黑白图像的最右列像素开始按照从左到右的顺序补充至少1列像素，使补充至少1列像素后的宽度值为设定值的整数倍；至少1列像素包括从最右列像素开始从右到左选取的至少1列像素，在补充过程中，将先选取的像素先插入。

在本实施例中，具体采用reflect padding反映填充的方式将宽度值补全到设定值的倍数，从最右一列开始获取至少1列像素，将先获取的像素先补充到最右列像素的右侧，后获取的列像素补充到上一个补充列像素的右侧，实现对宽度值的补全。

在具体示例中，渲染网络可采用U型全卷积网络结构，具体可以包括五个卷积下采样层和五个卷积上采样层，下采样就是将输入的特征图的宽高缩小，变成原来的二分之一，上采样是将输入变大，宽高变成原来的一倍。下采样层采用步长为2的卷积层实现，上采样层采用步长为2的反卷积层实现；整个渲染网络为全卷积网络，能够处理不同宽度的文字图像。

图2为本发明文字图像的处理方法又一个实施例的流程图。如图2所示，该实施例方法包括：

步骤101，将接收到的待处理文字图像处理为黑白图像。

步骤203，将渲染文字图像和接收到的待处理文字图像输入判别网络。

通过判别网络可以识别当前渲染文字图像的真实率，以便后续将渲染文字图像作为训练数据对神经网络进行训练。

步骤204，经判别网络输出渲染文字图像和接收到的待处理文字图像的真实率。

其中，真实率表示渲染文字图像与接收到的待处理文字图像是真实图像的概率，最后期望达到的结果是判别网络无法识别渲染文字图像与接收到的文字图像中哪些是真实图像，即真实率接近0.5。

步骤205，基于真实率获取渲染文字图像与接收到的待处理文字图像之间的误差值。

其中，误差值表示渲染文字图像与接收到的待处理文字图像在像素值上的差异。

步骤206，基于误差值训练渲染网络和判别网络，直到满足预设停止训练条件。

在本实施例中，相当于对渲染网络和判别网络的训练方法，通过判别网络输出渲染文字图像和接收到的文字图像的真实率，可以了解当前渲染网络的性能，真实率越接近0.5，说明该渲染网络的参数越好；但渲染网络和判别网络需要同时进行训练，单独训练会出现偏差，因此，基于真实率获得渲染文字图像与接收到的待处理文字图像之间的误差值，基于误差值同时训练渲染网络和判别网络，将得到参数最佳的训练渲染网络和判别网络；训练好的渲染网络能基于黑白图像得到最接近真实图像的渲染图像，训练好的判别网络能正确输出渲染网络得到的渲染图像的真实率。

在本发明文字图像的处理方法上述各实施例的一个具体示例中，操作204，包括：

对渲染文字图像基于高度和宽度分解为至少一个渲染区域，基于判别网络输出分别对应各渲染区域的区域真实率；对各区域真实率求平均，获取对应渲染文字图像的真实率。

在本实施例中，结合上述实施例可知，每个渲染区域可以认为是对应一个文字，通过判别网络输出一个一维向量，向量中的每个值代表输入的文字图像中各渲染区域的真实性，这些渲染区域相互之间是有重合的，但是渲染区域大小是一样的，宽高为设定值；可以认为是以该设定值的宽高的区域按一定步长在原图中扫描判断，得出对应区域的概率，这样对于每张文字图像都会得到一个一维向量。对每个渲染区域的概率值求平均即为判别网络对整个渲染文字图像真实性概率的判断。

在本发明文字图像的处理方法上述各实施例的一个具体示例中，各渲染区域大小相同，渲染区域的高度和宽度相同。

由上述实施例可知，对各渲染区域的概率值求平均即可获得整体渲染文字图像的真实率，因此，需要每个渲染区域大小相同。

本发明文字图像的处理方法的还一个实施例，在上述各实施例的基础上，判别网络包括至少一个卷积层和一个批归一化层；

操作204包括：

经卷积层提取渲染文字图像的特征，经批归一化层对卷积层输出的特征执行归一化操作，分别得到渲染文字图像和接收到的文字图像的归一化后的真实率。

本实施例中，通过添加批归一化层BatchNorm层稳定和加速了网络的训练。批归一化层，对每个mini-batch最小一批做归一化操作，可以比较好的稳定反向传播的梯度，这样可以设置较大的学习率，加快收敛速度，减少训练时间。批归一化层用于减少内部协变量转移，内部协变量转移为训练过程中深度网络内部节点分布的变化，消除内部协变量转移可以大大地加快神经网络的训练；批归一化层相当于分别在每个卷积层之前或之后插入一个归一化层，对输入到下一个卷积层的特征进行归一化。

在本发明文字图像的处理方法上述各实施例的一个具体示例中，操作206包括：

将误差值作为最大误差，将最大误差通过梯度反向传播，计算渲染网络和判别网络中每一层的误差；

根据每一层的误差计算出每一层参数的梯度，根据梯度修正渲染网络和判别网络中对应层的参数；

根据优化参数后的渲染网络和判别网络输出的真实率获得误差值，将误差值作为最大误差；

迭代执行将最大误差通过梯度反向传播，计算渲染网络和判别网络中每一层的误差；根据每一层的误差计算出每一层参数的梯度，根据梯度修正渲染网络和判别网络中对应层的参数，直到满足预设停止训练条件。

在本实施例中，通过反向梯度传播对渲染网络和判别网络交替更新参数，同时进行训练，避免了单一训练导致的不平衡；但由于判别网络是对渲染网络的结果的恒量，因此，可以先通过已知数据对判别网络进行训练，后续通过渲染网络与判别网络的整体对渲染网络进行训练，通过分别训练同样能达到本实施例的目的，但效果和效率不如同时训练。

在本发明文字图像的处理方法上述各实施例的一个具体示例中，满足预设停止训练条件，包括：

误差值小于预设值，和/或误差值的数值变化率小于第一预设变化率，和/或真实率与0.5的差值的绝对值小于预设差值。

在本实施例中，对应渲染网络的loss误差值，用来判断生成的渲染文字图像和真实文字图像在像素值上的差异，将两者的差的绝对值求平均，这个loss在训练过程中会慢慢变小，最后小于比较小的值(小于预设值)时，可停止训练；而当该误差值不再降低，变化率小于第一预设变化率时，继续训练的意义不大，可停止训练；本实施例训练的目的是为了使渲染文字图像和真实文件图像的真实率都接近0.5，即判别网络无法分辨渲染文字图像和真实文件图像的区别，因此，当真实率与0.5的差值的绝对值小于预设差值时，可停止训练。

在本发明文字图像的处理方法上述各实施例的一个具体示例中，操作205包括：基于真实率分别获取对应渲染网络的第一误差值，和对应判别网络的第二误差值；

操作206包括：基于第一误差值训练渲染网络和判别网络；基于第二误差值训练判别网络和渲染网络；

直到第一误差值和第二误差值的数值变化率都小于第二预设变化率。

在本实施例中，每个网络都有一个对应的loss误差值来指示训练的过程，一般来说，渲染网络的loss下降，判别器网络的loss会上升，反之亦然。训练结束的标志就是这两个loss都比较稳定了。

在具体示例中，可以利用预处理程序将任意文字图像生成白底黑字的黑白图像；也可以通过其他程序生成白底黑字的黑白图像，这个程序的输入就是文字图像本身，然后通过字体，字间距等设置来生成一张白底黑字的图像，这样即可以生成任意文字的图像，包括生僻字，然后用训练好的渲染网络去渲染背景，输出较为真实的文字图像。这样可以生成任意文字的识别数据，平衡不同文字在训练数据中的分布，同时还可以向字典中加入新的生僻字生成生僻字数据，不仅降低采集和标注数据的成本，同时也丰富了数据集。利用字典中的字，按一定权重随机采样生成文字标签，然后由预处理程序生成对应的白底黑字的黑白图像，最后输入给渲染网络渲染背景，利用生成的数据加上原先的真实数据训练识别模型，可以有效地提高文字识别的准确率，对生僻字的提高尤为明显。

本发明文字图像的处理方法的再一个实施例，在上述各实施例的基础上，还包括：

将得到的渲染文字图像作为样本图像；或将得到的渲染文字图像和真实文字图像作为样本图像；

基于样本图像训练文字识别网络；文字识别网络用于识别样本图像中的文字内容。

本实施例，采用渲染网络生成的渲染文字图像训练文字识别网络，也可以将渲染文字图像混合真实的文字图像一起训练文字识别网络。训练过程主要分以下几个步骤：

1.有一个字典，这个字典里包含了需要去识别的字符，可以往字典里添加更多的生僻字。

2.利用字典里的字生成文字label标签，或者直接使用真实的文字label。通过预处理程序将这些文字label生成白底黑字的图片。

3.将上面生成的白底黑字的图片输入到渲染网络中，输出带有背景信息的渲染文字图像。

4.用生成的渲染文字图像训练文字识别网络。

利用本发明文字图像的处理方法丰富文字识别数据，拓展数据集中出现次数少或没有出现的文字数据；由于字典并不会包含所有的文字，并且字典里的字在真实的图片数据中的分布也是不一样的，有些字在图片中经常出现，有些很少出现，也有可能字典里的字在训练数据中根本没有。而本实施例文字图像的处理方法可以生成任意文字的图片，通过对字典里的字做采样生成文字标签，利用预处理程序生成白底黑字的黑白图像，再用渲染网络渲染这些白底黑字图，这样可以覆盖到已有字典里的所有文字，同时还可以往字典里添加新的文字，生成的数据用来训练文字识别网络，提高了文字识别网络对文字识别的准确率。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图3为本发明文字图像的处理装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图3所示，该实施例的装置包括：

图像转换单元31，用于将接收到的待处理文字图像处理为黑白图像。

渲染单元32，用于通过渲染网络对黑白图像进行背景渲染，得到渲染后的渲染文字图像。

基于本发明上述实施例提供的文字图像的处理装置，通过将接收到的待处理文字图像处理为黑白图像；去除了真实图像中的背景纹理，并且，获取的黑白图像中克服了由于光照、拍摄角度等因素对真实图像产生的影响；通过渲染网络对黑白图像进行背景渲染，得到渲染后的渲染文字图像；该渲染网络基于文字图像样本集预先训练获得，由于采用训练好的渲染网络，实现了为黑白图像渲染了较为真实的背景纹理，实现了获得与真实图像差异较小的渲染文字图像。

在本发明文字图像的处理装置上述实施例的一个具体示例中，图像转换单元31，包括：

灰度转换模块，用于将接收到的待处理文字图像转换为灰度图，基于转换得到的灰度图计算获得自适应阈值；

二值化模块，用于基于自适应阈值对灰度图进行二值化处理，得到黑白图像。

在本发明文字图像的处理装置上述各实施例的一个具体示例中，二值化模块，具体用于将灰度图中大于或等于自适应阈值的像素对应像素值设置为255，将灰度图中小于自适应阈值的像素对应像素值设置为0；

或具体用于，将灰度图中大于或等于自适应阈值的像素对应像素值设置为0，将灰度图中小于自适应阈值的像素对应像素值设置为255。

本发明文字图像的处理装置的另一个实施例，在上述各实施例的基础上，还包括：

缩放单元，用于保持黑白图像的宽高比不变，对黑白图像进行缩放，将黑白图像的高度缩放为设定值，将黑白图像的宽度缩放为设定值的整数倍。

在本发明文字图像的处理装置上述各实施例的一个具体示例中，缩放单元，还用于当黑白图像经过缩放，得到缩放后的宽度值不为设定值的整数倍时，通过反映填充的方式将宽度值补全到设定值的整数倍。

在本发明文字图像的处理装置上述各实施例的一个具体示例中，缩放单元，具体用于从经过缩放的黑白图像的最右列像素开始按照从左到右的顺序补充至少1列像素，使补充至少1列像素后的宽度值为设定值的整数倍；至少1列像素包括从最右列像素开始从右到左选取的至少1列像素，在补充过程中，将先选取的像素先插入。

图4为本发明文字图像的处理装置又一个实施例的流程图。如图4所示，该实施例装置包括：

其中，渲染网络基于文字图像样本集预先训练获得，文字图像样本集包括真实的样本文字图像以及真实的样本文字图像经过背景渲染获得的渲染样本文字图像。

输入单元43，用于将渲染文字图像和接收到的待处理文字图像输入判别网络。

真实判别单元44，用于经判别网络输出渲染文字图像和接收到的待处理文字图像的真实率。

其中，真实率表示渲染文字图像与接收到的待处理文字图像是真实图像的概率。

误差单元45，用于基于真实率获取渲染文字图像与接收到的待处理文字图像之间的误差值。

训练单元46，用于基于误差值训练渲染网络和判别网络，直到满足预设停止训练条件。

在本发明文字图像的处理装置上述各实施例的一个具体示例中，真实判别单元44，具体用于对渲染文字图像基于高度和宽度分解为至少一个渲染区域，基于判别网络输出分别对应各渲染区域的区域真实率；对各区域真实率求平均，获取对应渲染文字图像的真实率。

在本发明文字图像的处理装置上述各实施例的一个具体示例中，各渲染区域大小相同，渲染区域的高度和宽度相同。

本发明文字图像的处理装置的还一个实施例，在上述各实施例的基础上，判别网络包括至少一个卷积层和一个批归一化层；

真实判别单元44，包括：

特征提取模块，用于经卷积层提取渲染文字图像的特征；

归一化模块，用于经批归一化层对卷积层输出的特征执行归一化操作，分别得到渲染文字图像和待处理文字图像的归一化后的真实率。

在本发明文字图像的处理装置上述各实施例的一个具体示例中，训练单元46，具体用于将误差值作为最大误差，将最大误差通过梯度反向传播，计算渲染网络和判别网络中每一层的误差；

在本发明文字图像的处理装置上述各实施例的一个具体示例中，满足预设停止训练条件，包括：

在本发明文字图像的处理装置上述各实施例的一个具体示例中，误差单元45，具体用于基于真实率分别获取对应渲染网络的第一误差值，和对应判别网络的第二误差值；

训练单元46，具体用于基于第一误差值训练渲染网络和判别网络；基于第二误差值训练判别网络和渲染网络；直到第一误差值和第二误差值的数值变化率都小于第二预设变化率。

本发明文字图像的处理装置的再一个实施例，在上述各实施例的基础上，还包括：

网络训练单元，用于将得到的渲染文字图像作为样本图像；或将得到的渲染文字图像和真实文字图像作为样本图像；

本实施例，采用渲染网络生成的渲染文字图像训练文字识别网络，也可以将渲染文字图像混合真实的文字图像一起训练文字识别网络。利用本发明文字图像的处理方法丰富文字识别数据，拓展数据集中出现次数少或没有出现的文字数据；由于字典并不会包含所有的文字，并且字典里的字在真实的图片数据中的分布也是不一样的，有些字在图片中经常出现，有些很少出现，也有可能字典里的字在训练数据中根本没有。而本实施例文字图像的处理方法可以生成任意文字的图片，通过对字典里的字做采样生成文字标签，利用预处理程序生成白底黑字的黑白图像，再用渲染网络渲染这些白底黑字图，这样可以覆盖到已有字典里的所有文字，同时还可以往字典里添加新的文字，生成的数据用来训练文字识别网络，提高了文字识别网络对文字识别的准确率。根据本发明实施例的一个方面，提供的一种电子设备，包括处理器，该处理器包括本发明上述任一实施例的文字图像的处理装置。

以及处理器，用于与该存储器通信以执行可执行指令从而完成本发明上述任一实施例的文字图像的处理方法的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，该指令被执行时执行本发明上述任一实施例的文字图像的处理方法的操作。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图5，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备500的结构示意图：如图5所示，计算机系统500包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)501，和/或一个或多个图像处理器(GPU)513等，处理器可以根据存储在只读存储器(ROM)502中的可执行指令或者从存储部分508加载到随机访问存储器(RAM)503中的可执行指令而执行各种适当的动作和处理。通信部512可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，

处理器可与只读存储器502和/或随机访问存储器530中通信以执行可执行指令，通过总线504与通信部512相连、并经通信部512与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，将接收到的待处理文字图像处理为黑白图像；通过渲染网络对黑白图像进行背景渲染，得到渲染后的渲染文字图像；其中，渲染网络基于文字图像样本集结合判别网络预先训练获得，文字图像样本集包括真实样本文字图像以及真实样本文字图像经过背景渲染获得的渲染样本文字图像，判别网络用于识别接收的文字图像的真实率，真实率表示渲染文字图像和文字图像样本集中的图像是真实图像的概率。

此外，在RAM 503中，还可存储有装置操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。在有RAM503的情况下，ROM502为可选模块。RAM503存储可执行指令，或在运行时向ROM502中写入可执行指令，可执行指令使处理器501执行上述通信方法对应的操作。输入/输出(I/O)接口505也连接至总线504。通信部512可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

需要说明的，如图5所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图5的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，将接收到的待处理文字图像处理为黑白图像；通过渲染网络对黑白图像进行背景渲染，得到渲染后的渲染文字图像；其中，渲染网络基于文字图像样本集结合判别网络预先训练获得，文字图像样本集包括真实样本文字图像以及真实样本文字图像经过背景渲染获得的渲染样本文字图像，判别网络用于识别接收的文字图像的真实率，真实率表示渲染文字图像和文字图像样本集中的图像是真实图像的概率。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种文字图像的处理方法，其特征在于，包括：

将接收到的待处理文字图像处理为黑白图像；

通过渲染网络对所述黑白图像进行背景渲染，得到渲染后的渲染文字图像；所述渲染网络基于文字图像样本集结合判别网络预先训练获得，所述文字图像样本集包括真实样本文字图像以及所述真实样本文字图像经过背景渲染获得的渲染样本文字图像，所述判别网络用于识别接收的文字图像的真实率，所述真实率表示所述渲染文字图像和所述文字图像样本集中的图像是真实图像的概率；

2.根据权利要求1所述的方法，其特征在于，所述将接收到的待处理文字图像处理为黑白图像，包括：

3.根据权利要求2所述的方法，其特征在于，基于所述自适应阈值对所述灰度图进行二值化处理，包括：

4.根据权利要求1所述的方法，其特征在于，通过渲染网络对所述黑白图像进行背景渲染之前，还包括：

5.根据权利要求4所述的方法，其特征在于，将所述黑白图像的宽度缩放为设定像素值的整数倍，包括：

6.根据权利要求5所述的方法，其特征在于，所述通过反映填充的方式将所述宽度值补全到所述设定值的整数倍，包括：

7.根据权利要求1-6任一所述的方法，其特征在于，还包括：

8.根据权利要求7所述的方法，其特征在于，经所述判别网络输出所述渲染文字图像的真实率，包括：

9.根据权利要求8所述的方法，其特征在于，各所述渲染区域大小相同，所述渲染区域的高度和宽度相同。

10.根据权利要求7所述的方法，其特征在于，所述判别网络包括至少一个卷积层和一个批归一化层；

经所述卷积层提取所述渲染文字图像的特征；

11.根据权利要求7所述的方法，其特征在于，基于所述误差值训练所述渲染网络和所述判别网络，直到满足预设停止训练条件，包括：

12.根据权利要求7所述的方法，其特征在于，所述满足预设停止训练条件，包括：

13.根据权利要求7所述的方法，其特征在于，基于所述真实率获取所述渲染文字图像与所述接收到的文字图像之间的误差值，包括：基于所述真实率分别获取对应所述渲染网络的第一误差值，和对应所述判别网络的第二误差值；

14.一种文字图像的处理装置，其特征在于，包括：

渲染单元，用于通过渲染网络对所述黑白图像进行背景渲染，得到渲染后的渲染文字图像；所述渲染网络基于文字图像样本集结合判别网络预先训练获得，所述文字图像样本集包括真实样本文字图像以及所述真实样本文字图像经过背景渲染获得的渲染样本文字图像，所述判别网络用于识别接收的文字图像的真实率，所述真实率表示所述渲染文字图像和所述文字图像样本集中的图像是真实图像的概率；

15.根据权利要求14所述的装置，其特征在于，所述图像转换单元，包括：

16.根据权利要求15所述的装置，其特征在于，所述二值化模块，具体用于将所述灰度图中大于或等于所述自适应阈值的像素对应像素值设置为255，将所述灰度图中小于所述自适应阈值的像素对应像素值设置为0；

17.根据权利要求14所述的装置，其特征在于，还包括：

18.根据权利要求17所述的装置，其特征在于，所述缩放单元，还用于当所述黑白图像经过缩放，得到缩放后的宽度值不为所述设定值的整数倍时，通过反映填充的方式将所述宽度值补全到所述设定值的整数倍。

19.根据权利要求18所述的装置，其特征在于，所述缩放单元，具体用于从所述经过缩放的黑白图像的最右列像素开始按照从左到右的顺序补充至少1列像素，使补充所述至少1列像素后的宽度值为所述设定值的整数倍；所述至少1列像素包括从所述最右列像素开始从右到左选取的至少1列像素，在补充过程中，将先选取的像素先插入。

20.根据权利要求14-19任一所述的装置，其特征在于，还包括：

21.根据权利要求20所述的装置，其特征在于，所述真实判别单元，具体用于对所述渲染文字图像基于高度和宽度分解为至少一个渲染区域，基于所述判别网络输出分别对应各所述渲染区域的区域真实率；对各所述区域真实率求平均，获取对应所述渲染文字图像的真实率。

22.根据权利要求21所述的装置，其特征在于，各所述渲染区域大小相同，所述渲染区域的高度和宽度相同。

23.根据权利要求20所述的装置，其特征在于，所述判别网络包括至少一个卷积层和一个批归一化层；

所述真实判别单元，包括：

24.根据权利要求20所述的装置，其特征在于，所述训练单元，具体用于将所述误差值作为最大误差，将所述最大误差通过梯度反向传播，计算所述渲染网络和所述判别网络中每一层的误差；

25.根据权利要求20所述的装置，其特征在于，所述满足预设停止训练条件，包括：

26.根据权利要求20所述的装置，其特征在于，所述误差单元，具体用于基于所述真实率分别获取对应所述渲染网络的第一误差值，和对应所述判别网络的第二误差值；

27.一种电子设备，其特征在于，包括处理器，所述处理器包括权利要求14至26任意一项所述的文字图像的处理装置。

28.一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至13任意一项所述文字图像的处理方法的操作。

29.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1至13任意一项所述文字图像的处理方法的操作。