CN111539424A

CN111539424A - 一种基于ocr的图像处理方法、系统、设备及介质

Info

Publication number: CN111539424A
Application number: CN202010315758.XA
Authority: CN
Inventors: 周曦; 姚志强; 陈琳; 程乐松; 许梅芳
Original assignee: Beijing Yuncong Technology Co ltd
Current assignee: Beijing Yuncong Technology Co ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-14

Abstract

本发明提供一种基于OCR的图像处理方法、系统、设备及介质，包括：通过识别图像中的一个或多个字符，找出与所述一个或多个字符最相近或最相似的一个或多个字体，生成一个或多个训练样本集数据；根据所述一个或多个训练样本集数据进行一次或多次训练，生成一个或多个目标识别模型。本发明针对OCR识别算法目前存在的问题，提供目标识别模型，可以根据目标对象自动选择字体，自动合成N种仿真训练数据，自动选择最优的组合训练识别模型并迭代优化，解决了普通OCR识别模型泛化性差、开发周期长、准确率低的问题，实现快速开发精准识别模型的目的，且本发明所提供的目标识别模型具有很好的鲁棒性，在真实场景中具有高准确率。

Description

一种基于OCR的图像处理方法、系统、设备及介质

技术领域

本发明涉及图像识别技术，特别是涉及一种基于OCR的图像处理方法、系统、设备及介质。

背景技术

在OCR(Optical Character Recognition，光学字符识别)领域，通用识别模型的识别率较差，目标识别模型训练成本高。通用OCR识别模型一般需要支持多场景、任意模式、中英文、字母、数字、标点符号的识别。当文本图像的背景较复杂，例如纹理、光照、畸变等，通用OCR是被模型往往识别率不高，不适合用于对识别率要求较高的领域。

而用于识别银行卡、驾驶证、发票等的识别模型，往往要求很高的识别精度，都需要训练专用的识别模型。而每训练一种识别模型都要经历采集样本数据、人工标注数据、训练模型和调参测试等多个阶段，需要较长的开发时间(至少需要1个月的开发时间)；且机器学习开发成本高昂导致应用难以落地。因此，在OCR领域，需要一种新的OCR识别模型。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于OCR的图像处理方法、系统、设备及介质，用于解决现有技术中存在的问题。

为实现上述目的及其他相关目的，本发明提供一种基于OCR的图像处理方法，所述方法步骤如下：

识别图像中的一个或多个字符，找出与所述一个或多个字符最相近或最相似的一个或多个字体，生成一个或多个训练样本集数据；

根据所述一个或多个训练样本集数据进行一次或多次训练，生成一个或多个目标识别模型。

可选地，所述目标识别模型包括用于识别以下至少之一：银行卡、驾驶证、发票。

可选地，将带有一个或多个字符标注的文本行图像输入至文本行识别模型中，获取识别结果；

根据所述识别结果和所述字符标注找出正确的一个或多个字符；

将每个正确的字符图像输入至字体识别模型中，获取与所述一个或多个字符最相近或最相似的一个或多个字体。

可选地，所述识别结果包括以下至少之一：文本行图像中的一个或多个字符、文本行图像中每个字符对应的位置。

可选地，获取每个正确字符对应的位置，并基于每个正确字符对应的位置，抠出每个正确的字符图像；

将抠出的每个正确的字符图像输入至字体识别模型中，获取与所述一个或多个字符最相近或最相似的一个或多个字体。

可选地，所述训练样本集数据的数据格式包括以下至少之一：路径、标签、文本行的坐标框、一个或多个单字的坐标框。

可选地，还包括通过增强学习算法从超参空间中搜索一组或多组超参数形成的增强组合，并结合比例因子生成不同类型的一个或多个训练样本。

可选地，还包括通过图像风格转换和/或生成对抗网络生成一个或多个训练样本，并结合增强组合生成的训练样本生成一个或多个训练样本集数据。

可选地，还包括对生成的一个或多个训练样本集数据加入扰动因素进行增强，加入扰动因素的参数包括以下至少之一：字符规则、字符长度、字典范围、字符个数、文本行、文本框。

可选地，基于所述一个或多个训练样本集数据进行一次或多次训练，训练框架包括以下至少之一：卷积神经网络、循环神经网络、连接序列分类。

可选地，获取训练样本集数据的超参数，按照所述超参数设定训练概率；根据设定的训练概率随机抽取一个或多个训练样本集数据，组成batch进行训练，生成一个或多个目标识别模型。

可选地，还包括在一次或多次训练后，使用自适应矩估计优化器对生成的目标识别模型进行评估验证，保存评估验证结果中最佳的目标识别模型。

可选地，在训练开始时，若已有初始状态的目标识别模型，则使用初始状态的目标识别模型进行迁移学习。

可选地，还包括部署训练完成后的目标识别模型，对待识别的字段切片进行推理识别。

本发明还提供一种基于OCR的图像处理系统，所述系统包括有：

识别模块，用于识别图像中的一个或多个字符，找出与所述一个或多个字符最相近或最相似的一个或多个字体，生成一个或多个训练样本集数据；

训练模块，用于根据所述一个或多个训练样本集数据进行一次或多次训练，生成一个或多个目标识别模型。

本发明还提供一种基于OCR的图像处理设备，包括有：

本发明还提供一种设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述设备执行如上述中一个或多个所述的方法。

本发明还提供一个或多个机器可读介质，其其上存储有指令，当由一个或多个处理器执行时，使得设备执行如上述中一个或多个所述的方法。

如上所述，本发明提供的一种基于OCR的图像处理方法、系统、设备及介质，具有以下有益效果：通过识别图像中的一个或多个字符，找出与所述一个或多个字符最相近或最相似的一个或多个字体，生成一个或多个训练样本集数据；根据所述一个或多个训练样本集数据进行一次或多次训练，生成一个或多个目标识别模型。本发明针对OCR识别算法目前存在的问题，提供一种OCR目标识别模型，模型包含OCR自动化训练识别算法。本发明可以根据目标对象自动选择字体，自动合成N种仿真训练数据，自动选择最优的组合训练识别模型并迭代优化，解决了普通OCR识别模型泛化性差、开发周期长、准确率低的问题，实现快速开发精准识别模型的目的，且本发明所提供的目标识别模型具有很好的鲁棒性，在真实场景中具有高准确率。

附图说明

图1为一实施例提供的基于OCR的图像处理方法的流程示意图；

图2为一实施例提供的识别算法的网络结构示意图；

图3为一实施例提供的基于OCR的图像处理系统的连接示意图；

图4为一实施例提供的终端设备的硬件结构示意图；

图5为另一实施例提供的终端设备的硬件结构示意图。

元件标号说明

M10 识别模块

M20 训练模块

1100 输入设备

1101 第一处理器

1102 输出设备

1103 第一存储器

1104 通信总线

1200 处理组件

1201 第二处理器

1202 第二存储器

1203 通信组件

1204 电源组件

1205 多媒体组件

1206 语音组件

1207 输入/输出接口

1208 传感器组件

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1和图2，本发明提供一种基于OCR的图像处理方法，所述方法步骤如下：

S100，识别图像中的一个或多个字符，找出与所述一个或多个字符最相近或最相似的一个或多个字体，生成一个或多个训练样本集数据；

S200，根据所述一个或多个训练样本集数据进行一次或多次训练，生成一个或多个目标识别模型。

本发明针对OCR识别算法目前存在的问题，提供一种OCR目标识别模型，模型包含OCR自动化训练识别算法。本方法可以根据目标对象自动选择字体，自动合成N种仿真训练数据，自动选择最优的组合训练识别模型并迭代优化，解决了普通OCR识别模型泛化性差、开发周期长、准确率低的问题，实现快速开发精准识别模型的目的，且本方法所提供的目标识别模型具有很好的鲁棒性，在真实场景中具有高准确率。

在一些示例性实施例中，本发明中的目标识别模型包括用于识别以下至少之一：银行卡、驾驶证、发票。

在一示例性实施例中，将带有一个或多个字符标注的文本行图像输入至文本行识别模型中，获取识别结果；其中，识别结果包括以下至少之一：文本行图像中的一个或多个字符、文本行图像中每个字符对应的位置。

根据所述识别结果和所述字符标注找出正确的一个或多个字符；具体地，根据识别结果和标注信息计算编辑距离，根据编辑距离找到识别正确的字符和字符位置。

将每个正确的字符图像输入至字体识别模型中，获取与所述一个或多个字符最相近或最相似的一个或多个字体。具体地，获取每个正确字符对应的位置，并基于每个正确字符对应的位置，抠出每个正确的字符图像；将抠出的每个正确的字符图像输入至字体识别模型中，获取与所述一个或多个字符最相近或最相似的一个或多个字体。

根据上述描述，检测和识别真实文本行中的字符位置，然后和字体库中的字体做对比，自动找出最相近的字体，最后选择最相近的前K种字体或TOP K种字体。包括以下步骤：

制作字体库，检查字体文件中的各个字符图像，筛选字体文件中的异常字符，确保训练样本集数据生成模块生成的图像都是正常的。其中，识别不出的字符、在字体库中没有对应的字符，则认定该字符为异常字符。

通过文本行识别模型和字体识别模型进行字体选择，包括有：将带有标注信息(字符label)的文本行图像输入到文本行识别模型中，输出识别结果和字符位置(中心点)。根据识别结果和标注信息计算编辑距离，根据编辑距离找到识别出的正确字符和每个正确字符的位置。然后基于每个正确字符对应的位置，抠出每个正确的字符图像；将抠出的每个正确的字符图像输入至字体识别模型中，输出最相似或最相近的字体。

具体地，以“5分钟”为例，来选择最相近或最相似字体。首先，制作与“5分钟”相关的字体库，所制作的字体库不仅包括字符本身的字符和格式，还制作与字符相关的其他字符及格式。例如，在字体库中不仅制作“5”、“分”、“钟”的各种格式；还制作其他相关格式的其他字符；如宋体格式的数值0～9、楷体格式的数值0～9、黑体的“时”字、仿宋的“天”字等。再将带有标注信息的文本行图像输入到文本行识别模型中。其中，标注信息可以通过人工进行标注、也可以通过程序进行标注，目的是确定字符的类型。在本申请实施例中，通过人工对“5分钟”进行字符标注，使其在字体选择时，选择的字体范围基本上都限定在时间范围内，不会出现“S分钟”这种相关的字体。再根据识别出的“5分钟”以及“5分钟”所在的正确位置来分别抠出“5”、“分”和“钟”这三个字符。再将抠出的“5”、“分”和“钟”这三个字符输入至字体识别模型中，输出最相似或最相近的字体，即从相似或相近的字体中选择相似或相近的Top K种字体。例如输出的相似或相近的字体包括：0分钟、3分钟、5秒钟、6秒、8天等，则本实施例可以选择0分钟、3分钟、5秒钟、6秒作为相似或相近的Top K种字体；最后根据相似或相近的Top K种字体来生成训练样本集数据。

在一些实施例中，训练样本集数据的数据格式包括以下至少之一：路径、标签、文本行的坐标框、一个或多个单字的坐标框。

在一些示例性实施例中，采用多种方式生成一个或多个训练样本集数据。包括以下至少之一：自定义图像增强模型、超参组合、风格迁移、对抗神经网络生成训练样本集数据。例如采用自定义图像增强模型并结合字体，通过增强学习算法自动从超参空间搜索最合适的增强组合，进行在线增强，并结合风格转换、生成对抗网络GAN等方式生成训练样本，自动合成训练样本，生成一个或多个训练样本集数据。

具体地，超参组合的方式是通过增强学习算法从超参空间中搜索一组或多组超参数形成的增强组合，并结合比例因子生成不同类型的一个或多个训练样本。作为示例，本申请实施例使用自定义的27组数据增强参数来生成训练样本集数据。在自动化训练时，利用27组配置分别生成训练样本，并针对这些训练样本自动选择最优组合的训练样本进行训练，生成训练样本集数据。例如，使用生成的前K种字体生成训练所需的文本行图像；文本行图像生成算法采用自定义的27组数据增强参数。再对超参组合和一系列形态学参数进行自动迭代调优，包括但不限于zzmodel，glass，blur，ignore等，效果包括但不限于腐蚀膨胀，玻璃特效等，组合效果可以覆盖真实场景下的使用情况。通过增强学习算法从超参空间搜索最合适的增强组合，结合比例因子生成不同类型的训练样本。再配置多种特效模块，进行在线增强，自动合成训练样本，生成训练样本集数据。本实施例中，训练样本集数据超参数的选择包括：将这27组训练样本集数据(记为T1，T2，...，T27)看作27个超参数(记为P1，P2，...，P27)。超参数的数值代表训练样本集数据选择的比例因子，Pi的取值范围为[0，100]。例如：Total＝P1+P2+...+P127，则第i组训练样本集数据选取概率为Pi/Total；若Pi＝0，则第i组训练样本集数据选取概率为0，即不使用第i组训练样本集数据训练生成目标识别模型。当选取一组超参数后，训练生成目标识别模型并返回目标识别模型在验证集上的准确率。训练样本集数据超参数选择模块根据目标识别模型在验证集上的准确率选择下一组超参数，选择下一组超参数时，可以使用随机参数选择算法。当选取超参数组合后，训练生成目标识别模型并返回目标识别模型在验证集上的准确率，验证组合效果并根据训练样本集数据超参数选择模块在验证集上的准确率，对特效组合及形态学概率等一系列参数自动化迭代调优。

风格转换的方式是通过将目标识别对象风格和生成文本行的内容相结合，经过自动迭代调优，获得用于训练的仿真字段切片数据。

生成对抗网络GAN的方式是通过对让判别器自适应地度量所生成的训练样本和目标待识别对象间总体分布的差异，通过在目标测试集上的准确率表现，及对条件和生成样本过程的设定，控制生成的样本的特征。对生成的样本数据进行衡量并优化，提高样本数据的效果和多样性。

在一示例性实施例中，还包括对生成的一个或多个训练样本集数据加入扰动因素进行增强，加入扰动因素的参数包括以下至少之一：字符规则、字符长度、字典范围、字符个数、文本行、文本框。具体地，针对生成的一个或多个训练样本集数据，通过多种样本自动增强方式，提高特定字符集的准确率和泛化能力。包括通过样本增强算法，增强对基础模型的泛化能力，尤其是增强小字符集的泛化能力。在字符规则、字符长度、字典范围、字符个数、文本行、文本框等参数中加入扰动因素，同时排除影响小的参数，比如字体、字符集、背景图片、纹理图片。为避免参数间的影响，自动对具体参数产生的效果进行测试并迭代。通过在具体场景下的迁移学习，使其达到准确率要求。

在一示例性实施例中，还包括基于所述一个或多个训练样本集数据进行一次或多次训练，所采用的训练框架包括以下至少之一：卷积神经网络、循环神经网络、连接序列分类。作为示例，本申请实施例选择的训练框架为：卷积神经网络+循环神经网络+连接序列分类。获取训练样本集数据的超参数，按照所述超参数设定训练概率；根据设定的训练概率随机抽取一个或多个训练样本集数据，组成batch进行训练，生成一个或多个目标识别模型。在一次或多次训练后，使用自适应矩估计优化器(Adam Optimizer优化器)对生成的目标识别模型进行评估验证，保存评估验证结果中最佳的目标识别模型。在训练开始时，若已有初始状态的目标识别模型，则使用初始状态的目标识别模型进行迁移学习；若没有初始状态的目标识别模型，则重新开始训练。

在一些示例性实施例中，还包括在真实场景中部署训练完成后的目标识别模型，对待识别的字段切片进行推理识别。例如，将目标识别模型部署在用于识别银行卡、发票、驾驶证等环境中来对银行卡、发票、驾驶证进行OCR识别。

作为示例，在一实施例，基于OCR的图像处理方法包括有：

识别字符以及字体选择，包括：通过字体选择算法检测和识别真实文本行中的字符位置，然后和字体库中的字体多对比，找出最相近的字体，并选择前K种字体。

生成训练样本集数据，包括：使用生成的前K种字体，生成训练所需的文本行图像。文本行图像生成算法采用自定义的27组数据增强参数。其中，针对目标训练样本集数据直接自动生成仿真的训练样本集的方式有三种：通过超参组合的方式、通过风格转换的方式、通过生成对抗网络GAN的方式。其中，超参组合的方式是使用自定义的27组数据增强参数生成训练样本集数据，在自动化训练时，利用27组配置分别生成训练样本，并针对这些训练样本自动选择最优组合的训练样本进行训练，生成训练样本集数据。再对超参组合和一系列形态学参数进行自动迭代调优，包括但不限于zzmodel，glass，blur，ignore等，效果包括但不限于腐蚀膨胀，玻璃特效等，组合效果基本可以覆盖真实场景下的使用情况。其中，风格转换的方式是将目标识别对象风格和生成文本行的内容相结合，经过自动迭代调优，获得仿真的字段切片数据用于训练。其中，GAN网络的方式是通过让判别器自适应地度量所生成的样本数据和目标待识别对象间总体分布的差异，及对条件和生成样本过程的设定，获得多种仿真数据。本实施例中，训练样本集数据超参数的选择包括：将这27组训练样本集数据(记为T1，T2，...，T27)看作27个超参数(记为P1，P2，...，P27)。超参数的数值代表训练样本集数据选择的比例因子，Pi的取值范围为[0，100]。例如：Total＝P1+P2+...+P127，则第i组训练样本集数据选取概率为Pi/Total；若Pi＝0，则第i组训练样本集数据选取概率为0，即不使用第i组训练样本集数据训练生成目标识别模型。当选取一组超参数后，训练生成目标识别模型并返回目标识别模型在验证集上的准确率。训练样本集数据超参数选择模块根据目标识别模型在验证集上的准确率选择下一组超参数；选择下一组超参数时，可以使用随机参数选择算法。当选取超参数组合后，训练生成目标识别模型并返回目标识别模型在验证集上的准确率，验证组合效果并根据训练样本集数据超参数选择模块在验证集上的准确率，对特效组合及形态学概率等一系列参数自动化迭代调优。

训练样本集数据的增强，包括：通过样本增强算法，增强对基础模型的泛化能力和准确率。具体地，包括以下方面：文字图像增强、离线图像增强、在线数据增强、文本框扰动、在线图像增强。

其中，文字图像增强：是将字符串转化为图片，需要考虑字体颜色、字间距、文本行的背景和字符特效。

离线图像增强：由于文本图像生成的图片背景简单，文字清晰，进一步做图像增强；例如加线、加章、高斯滤波、形态学滤波、运动模糊、光照、高亮、变形和锐化等。例如，对JPEG进行图像压缩储存。

在线数据增强：主要有文本框扰动、文本框上下基线附近随机增加干扰、文本行随机向左向右倾斜和旋转、文本行随机缩放、长宽比随机调整。如果是三通道图像，还做了通道随机交换和融合。由于离线增强每种特效生成的样本较少，增强特效很难覆盖每一个字符，而且字符较为清晰。在线数据增强也做了一些灰度变换，高斯滤波和模糊，以及随机加背景。

文本框扰动：上下方向，向外向内扰动0～2个字高。左右方扰动0～2个字高。文本框上下基线附近随机加入扰动。

在线图像增强：进行在线数据增强，并设置比例0.01—0.99，即随机对1％-99％的样本做在线数据增强。

训练样本集数据以及评估目标识别模型；获取训练样本集数据的超参数，按照所述超参数设定训练概率；按照设定的训练概率随机抽取训练样本集数据，组成batch做训练。使用Adam Optimizer优化器，每训练一次或多次，做一次验证并保存最好的模型。在训练开始时，如果已有了初始模型，则使用初始模型迁移学习(fine-tune)；如果没有初始模型则重头开始训练。

作为示例，在某一具体实施例中，以“5分钟”为例，来生成目标识别模型。获取根据“5分钟”输出的最相似或最相近的字体(即相似或相近的Top K种字体)，根据最相似或最相近的字体通过超参组合、风格转换、生成对抗网络GAN等方式生成训练样本，并将生成的训练样本进行合成，生成一个或多个训练样本集数据。在合成训练样本前，还可以对训练样本进行在线增强，以此来提高根据该训练样本生成的目标识别模型的鲁棒性。选择27组0～1的不同概率来随机抽取训练样本集数据，组成batch做训练，在训练几万次后输出训练后的模型，对训练后的模型在验证集上进行测试，获得该模型的正确率，若正确率达到预设要求，则保存该模型，并将该模型确定为目标识别模型。然后将该目标识别模型部署在用于识别银行卡、发票、驾驶证等环境中来对银行卡、发票、驾驶证进行OCR识别。

本发明提供一种基于OCR的图像处理方法，通过识别图像中的一个或多个字符，找出与所述一个或多个字符最相近或最相似的一个或多个字体，生成一个或多个训练样本集数据；再根据所述一个或多个训练样本集数据进行一次或多次训练，生成一个或多个目标识别模型。本发明提供的OCR自动训练识别算法能够自动合成数据、自动选择相似的字体、自动生成n种风格的数据集，然后从这n个数据集中自动选择最优的组合训练模型，实现识别模型的自动化训练，而且训练出的模型相较通用模型有明显地准确率提升，模型开发周期短，开发速度快，开发成本低。在真实实线环境下，只需要少量样本数据即可完成精准的迁移学习，具有很高的准确率和鲁棒性，开发周期短。在真实产线环境下，大字符集的文本行准确率在96-98％，小字符集的文本行准确率在99％-100％，开发周期在24小时之内，与现有技术开发周期在1个月相比，明显缩短了开发周期时间。

如图2和图3所示，本发明还提供一种基于OCR的图像处理系统，所述系统包括有：

识别模块M10，用于识别图像中的一个或多个字符，找出与所述一个或多个字符最相近或最相似的一个或多个字体，生成一个或多个训练样本集数据；

训练模块M20，用于根据所述一个或多个训练样本集数据进行一次或多次训练，生成一个或多个目标识别模型。

本发明提供一种基于OCR的图像处理系统，包括一种OCR目标识别模型，模型包含OCR自动化训练识别算法。本系统可以根据目标对象自动选择字体，自动合成N种仿真训练数据，自动选择最优的组合训练识别模型并迭代优化，解决了普通OCR识别模型泛化性差、开发周期长、准确率低的问题，实现快速开发精准识别模型的目的，且本系统所提供的目标识别模型具有很好的鲁棒性，在真实场景中具有高准确率。

根据上述描述，检测和识别真实文本行中的字符位置，然后和字体库中的字体做对比，自动找出最相近的字体，最后选择最相近的前K种字体。包括以下步骤：

作为示例，在一实施例，基于OCR的图像处理方法包括有：

本发明提供一种基于OCR的图像处理系统，通过识别图像中的一个或多个字符，找出与所述一个或多个字符最相近或最相似的一个或多个字体，生成一个或多个训练样本集数据；再根据所述一个或多个训练样本集数据进行一次或多次训练，生成一个或多个目标识别模型。本发明提供一种基于OCR的图像处理系统，包括一种OCR目标识别模型，模型包含OCR自动化训练识别算法。本系统提供的OCR自动训练识别算法能够自动合成数据、自动选择相似的字体、自动生成n种风格的数据集，然后从这n个数据集中自动选择最优的组合训练模型，实现识别模型的自动化训练，而且训练出的模型相较通用模型有明显地准确率提升，模型开发周期短，开发速度快，开发成本低。在真实实线环境下，只需要少量样本数据即可完成精准的迁移学习，具有很高的准确率和鲁棒性，开发周期短。在真实产线环境下，大字符集的文本行准确率在96-98％，小字符集的文本行准确率在99％-100％，开发周期在24小时之内，与现有技术开发周期在1个月相比，明显缩短了开发周期时间。

本申请实施例还提供了一种基于OCR的图像处理设备，包括有：

在本实施例中，该数据处理设备执行上述系统或方法，具体功能和技术效果参照上述实施例即可，此处不再赘述。

本申请实施例还提供了一种设备，该设备可以包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行图1所述的方法。在实际应用中，该设备可以作为终端设备，也可以作为服务器，终端设备的例子可以包括：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等，本申请实施例对于具体的设备不加以限制。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例的图1中所述方法所包含步骤的指令(instructions)。

图4为本申请一实施例提供的终端设备的硬件结构示意图。如图所示，该终端设备可以包括：输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，第一存储器1103中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。

可选的，上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit，简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。

可选的，上述输入设备1100可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；输出设备1102可以包括显示器、音响等输出设备。

在本实施例中，该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能，具体功能和技术效果参照上述实施例即可，此处不再赘述。

图5为本申请的一个实施例提供的终端设备的硬件结构示意图。图5是对图4在实现过程中的一个具体的实施例。如图所示，本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。

第二处理器1201执行第二存储器1202所存放的计算机程序代码，实现上述实施例中图1所述方法。

第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，例如消息，图片，视频等。第二存储器1202可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

可选地，第二处理器1201设置在处理组件1200中。该终端设备还可以包括：通信组件1203，电源组件1204，多媒体组件1205，语音组件1206，输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定，本实施例对此不作限定。

处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令，以完成上述数据处理方法中的全部或部分步骤。此外，处理组件1200可以包括一个或多个模块，便于处理组件1200和其他组件之间的交互。例如，处理组件1200可以包括多媒体模块，以方便多媒体组件1205和处理组件1200之间的交互。

电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。

多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

语音组件1206被配置为输出和/或输入语音信号。例如，语音组件1206包括一个麦克风(MIC)，当终端设备处于操作模式，如语音识别模式时，麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中，语音组件1206还包括一个扬声器，用于输出语音信号。

输入/输出接口1207为处理组件1200和外围接口模块之间提供接口，上述外围接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

传感器组件1208包括一个或多个传感器，用于为终端设备提供各个方面的状态评估。例如，传感器组件1208可以检测到终端设备的打开/关闭状态，组件的相对定位，用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在，包括检测用户与终端设备间的距离。在一些实施例中，该传感器组件1208还可以包括摄像头等。

通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个实施例中，该终端设备中可以包括SIM卡插槽，该SIM卡插槽用于插入SIM卡，使得终端设备可以登录GPRS网络，通过互联网与服务器建立通信。

由上可知，在图5实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图4实施例中的输入设备的实现方式。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于OCR的图像处理方法，其特征在于，所述方法步骤如下：

2.根据权利要求1所述的基于OCR的图像处理方法，其特征在于，所述目标识别模型包括用于识别以下至少之一：银行卡、驾驶证、发票。

3.根据权利要求1所述的基于OCR的图像处理方法，其特征在于，将带有一个或多个字符标注的文本行图像输入至文本行识别模型中，获取识别结果；

4.根据权利要求3所述的基于OCR的图像处理方法，其特征在于，所述识别结果包括以下至少之一：文本行图像中的一个或多个字符、文本行图像中每个字符对应的位置。

5.根据权利要求4所述的基于OCR的图像处理方法，其特征在于，获取每个正确字符对应的位置，并基于每个正确字符对应的位置，抠出每个正确的字符图像；

6.根据权利要求1所述的基于OCR的图像处理方法，其特征在于，所述训练样本集数据的数据格式包括以下至少之一：路径、标签、文本行的坐标框、一个或多个单字的坐标框。

7.根据权利要求1所述的基于OCR的图像处理方法，其特征在于，还包括通过增强学习算法从超参空间中搜索一组或多组超参数形成的增强组合，并结合比例因子生成不同类型的一个或多个训练样本。

8.根据权利要求7所述的基于OCR的图像处理方法，其特征在于，还包括通过图像风格转换和/或生成对抗网络生成一个或多个训练样本，并结合增强组合生成的训练样本生成一个或多个训练样本集数据。

9.根据权利要求1或7所述的基于OCR的图像处理方法，其特征在于，还包括对生成的一个或多个训练样本集数据加入扰动因素进行增强，加入扰动因素的参数包括以下至少之一：字符规则、字符长度、字典范围、字符个数、文本行、文本框。

10.根据权利要求1所述的基于OCR的图像处理方法，其特征在于，基于所述一个或多个训练样本集数据进行一次或多次训练，训练框架包括以下至少之一：卷积神经网络、循环神经网络、连接序列分类。

11.根据权利要求10所述的基于OCR的图像处理方法，其特征在于，获取训练样本集数据的超参数，按照所述超参数设定训练概率；根据设定的训练概率随机抽取一个或多个训练样本集数据，组成batch进行训练，生成一个或多个目标识别模型。

12.根据权利要求11所述的基于OCR的图像处理方法，其特征在于，还包括在一次或多次训练后，使用自适应矩估计优化器对生成的目标识别模型进行评估验证，保存评估验证结果中最佳的目标识别模型。

13.根据权利要求10至12中任一所述的基于OCR的图像处理方法，其特征在于，在训练开始时，若已有初始状态的目标识别模型，则使用初始状态的目标识别模型进行迁移学习。

14.根据权利要求1所述的基于OCR的图像处理方法，其特征在于，还包括部署训练完成后的目标识别模型，对待识别的字段切片进行推理识别。

15.一种基于OCR的图像处理系统，其特征在于，所述系统包括有：

16.根据权利要求15所述的基于OCR的图像处理系统，其特征在于，所述目标识别模型包括用于识别以下至少之一：银行卡、驾驶证、发票。

17.根据权利要求15所述的基于OCR的图像处理系统，其特征在于，将带有一个或多个字符标注的文本行图像输入至文本行识别模型中，获取识别结果；

18.根据权利要求17所述的基于OCR的图像处理系统，其特征在于，所述识别结果包括以下至少之一：文本行图像中的一个或多个字符、文本行图像中每个字符对应的位置。

19.根据权利要求18所述的基于OCR的图像处理系统，其特征在于，获取每个正确字符对应的位置，并基于每个正确字符对应的位置，抠出每个正确的字符图像；

20.根据权利要求15所述的基于OCR的图像处理系统，其特征在于，所述训练样本集数据的数据格式包括以下至少之一：路径、标签、文本行的坐标框、一个或多个单字的坐标框。

21.根据权利要求15所述的基于OCR的图像处理系统，其特征在于，还包括通过增强学习算法从超参空间中搜索一组或多组超参数形成的增强组合，并结合比例因子生成不同类型的一个或多个训练样本。

22.根据权利要求21所述的基于OCR的图像处理系统，其特征在于，还包括通过图像风格转换和/或生成对抗网络生成一个或多个训练样本，并结合增强组合生成的训练样本生成一个或多个训练样本集数据。

23.根据权利要求15或22所述的基于OCR的图像处理系统，其特征在于，还包括对生成的一个或多个训练样本集数据加入扰动因素进行增强，加入扰动因素的参数包括以下至少之一：字符规则、字符长度、字典范围、字符个数、文本行、文本框。

24.根据权利要求15所述的基于OCR的图像处理系统，其特征在于，基于所述一个或多个训练样本集数据进行一次或多次训练，训练框架包括以下至少之一：卷积神经网络、循环神经网络、连接序列分类。

25.根据权利要求24所述的基于OCR的图像处理系统，其特征在于，获取训练样本集数据的超参数，按照所述超参数设定训练概率；根据设定的训练概率随机抽取一个或多个训练样本集数据，组成batch进行训练，生成一个或多个目标识别模型。

26.根据权利要求25所述的基于OCR的图像处理系统，其特征在于，还包括在一次或多次训练后，使用自适应矩估计优化器对生成的目标识别模型进行评估验证，保存评估验证结果中最佳的目标识别模型。

27.根据权利要求24至26中任一所述的基于OCR的图像处理系统，其特征在于，在训练开始时，若已有初始状态的目标识别模型，则使用初始状态的目标识别模型进行迁移学习。

28.根据权利要求15所述的基于OCR的图像处理系统，其特征在于，还包括部署训练完成后的目标识别模型，对待识别的字段切片进行推理识别。

29.一种基于OCR的图像处理设备，其特征在于，包括有：

30.一种设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述设备执行如权利要求1-14中一个或多个所述的方法。

31.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得设备执行如权利要求1-14中一个或多个所述的方法。