CN110414519A

CN110414519A - 一种图片文字的识别方法及其识别装置

Info

Publication number: CN110414519A
Application number: CN201910567298.7A
Authority: CN
Inventors: 彭宇翔; 朱帆
Original assignee: Zhongan Information Technology Service Co Ltd
Current assignee: Zhongan Information Technology Service Co Ltd
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2019-11-05
Anticipated expiration: 2039-06-27
Also published as: CN110414519B

Abstract

一种图片文字的识别方法及其识别装置，该识别方法包括：获取待识别的文本行图片，将待识别的文本行图片输入至预先建立的图片文字识别模型，以识别得到待识别的文本行图片中的文字，输出待识别的文本行图片中的文字；其中图片文字识别模型是利用多幅用于训练的文本行图片通过训练深度神经网络而得到，用于训练的文本行图片是由标准的文本行图片经过扩充变化处理后得到的图片。由于用于训练的文本行图片是由标准的文本行图片进行扩充变化处理而得到，使得图片文字识别模型的训练样本集更符合实际应用，相比随机组合字符而得到的训练样本，大大缩减了训练样本的数量，却大幅提高了生成训练样本和训练模型的效率。

Description

一种图片文字的识别方法及其识别装置

技术领域

本发明涉及图像处理技术领域，具体涉及一种图片文字的识别方法及其识别装置。

背景技术

光学字符识别(OCR)领域一直是计算机视觉领域一个重要分支，在金融、教育等领域都有很大需求。在现有的光学字符识别方法中，有基于单字识别的情形，也有基于文本行识别的情形。其中，基于单字识别的方法由于有着难以准确切分单字和无法综合上下文的问题，致使实际应用中单字识别精度往往不如人意。此外，基于文本行识别的方法由于需要大量的高质量训练样本才能训练得一个较好的文本行识别模型，并且所需的训练样本量随着文本行的长度而增加甚至是以指数级的形式进行增加，由此致使获取高质量、大样本量的训练样本时遇到困难。

目前，文本行识别技术往往采用了深度神经网络，在训练样本充足的情况下才能有效地对文本行进行识别。然而，在现实中往往收集不到足够多的训练样本，而且通过公开数据集训练得的识别模型对特定应用场景下的识别精度不佳，以及现有的生成字符技术因对真实场景不能很好模拟也影响到文本行的识别精度。

综上所述，光学字符识别技术需要与应用场景进行紧密联系，亟需一种识别方法来解决训练样本缺乏所造成的识别模型训练效果差、文本识别精度低的问题。

发明内容

本发明主要解决的技术问题是如何克服训练样本缺乏所造成的文本识别模型训练效果差、文本识别精度低的问题。为解决上述技术问题，本申请提供一种图片文字的识别方法及其识别装置。

根据第一方面，一种实施例中提供一种图片文字的识别方法，包括以下步骤：

获取待识别的文本行图片，所述待识别的文本行图片包含文字；将所述待识别的文本行图片输入至预先建立的图片文字识别模型，以识别得到所述待识别的文本行图片中的文字；所述图片文字识别模型是利用多幅用于训练的文本行图片通过训练深度神经网络而得到，所述用于训练的文本行图片是由标准的文本行图片经过扩充变化处理后得到的图片；输出所述待识别的文本行图片中的文字。

所述将所述待识别的文本行图片输入至预先建立的图片文字识别模型，以识别得到所述待识别的文本行图片中的文字，其中所述图片文字识别模型通过以下方式建立：获取一幅或多幅标准的文本行图片，所述标准的文本行图片由预设的文本行二值化图片和预设的背景图片进行合成而得到；对每幅所述标准的文本行图片进行扩充变化处理，得到对应的样本图片，根据所述样本图片形成训练样本集；利用所述训练样本集，通过深度神经网络，训练得到所述图片文字识别模型。

所述获取一幅或多幅标准的文本行图片，所述标准的文本行图片由预设的文本行二值化图片和预设的背景图片进行合成而得到，包括：根据所述待识别的文本行图片中的文字获取多个相关的文本内容，将各个文本内容分别进行不同的字体风格变化，生成对应的文本图像，根据所述文本图像形成预设的文本行二值化图片；根据所述待识别的文本行图片确定相关的标准模板图片，从所述标准模板图片中获取无文字的背景区域，根据所述无文字的背景区域形成预设的背景图片；对于每一个文本行二值化图片，将该文本行二值化图片与所述背景图片进行合成处理，得到一幅所述标准的文本行图片。

所述根据所述待识别的文本行图片中的文字获取一条或多条相关的文本内容，包括：根据所述待识别的文本行图片中的文字获取一个或多个相关的词条，对每个词条进行拆分，组合后生成更多的词条，将生成的每一个词条按照预设的字体类型进行转换得到对应的文本内容。

所述对每幅所述标准的文本行图片进行扩充变化处理，得到对应的样本图片，根据所述样本图片形成训练样本集，包括：对于每幅标准的文本行图片，将该标准的文本行图片进行透视变换、色调变换、添加阴影效果、添加高光效果、添加噪点、裁剪、缩放、压缩中的一种处理或多种处理之后，得到对应的样本图片；整合每幅标准的文本行图片对应的样本图片以及该样本图片中的文本内容，以形成训练样本集；该样本图片中的文本内容为合成该标准的文本行图片的文本行二值化图片所对应的文本内容。

所述利用所述训练样本集，通过深度神经网络，训练得到所述图片文字识别模型，包括：构建深度神经网络的网络模型；以所述训练样本集中的每个样本图片为训练数据，以每个样本图片中的文本内容为训练数据的标签，对所述深度神经网络的网络模型进行连续训练，得到所述图片文字识别模型。

所述以所述训练样本集中的每个样本图片为训练数据，以每个样本图片中的文本内容为训练数据的标签，对所述深度神经网络的网络模型进行连续训练，得到所述图片文字识别模型，包括：设置CRNN模型为所述深度神经网络的网络模型，所述CRNN模型包括使用CNN的卷积层，使用BiLSTM的循环层和使用CTC的转录层；根据所述卷积层、所述循环层和所述转录层建立所述CRNN模型的目标函数，用公式表示为

其中，χ＝{I_i,l_i}_i表示训练样本集，I_i为第i个样本图片，l_i为第i个样本图片中的文本内容，y_i为第i个样本图片对应的预测文本内容，下标i为训练样本集中训练数据的序号；

利用所述训练样本集对所述目标函数进行迭代计算，将所述目标函数最小化时对应的CRNN模型作为所述图片文字识别模型。

根据第二方面，一种实施例中提供一种图片文字的识别装置，包括：

获取单元，用于获取待识别的文本行图片，所述待识别的文本行图片包含文字；

识别单元，用于将所述待识别的文本行图片输入至预先建立的图片文字识别模型，以识别得到所述待识别的文本行图片中的文字；所述图片文字识别模型是利用多幅用于训练的文本行图片通过训练深度神经网络而得到，所述用于训练的文本行图片是由标准的文本行图片经过扩充变化处理后得到的图片；

输出单元，用于输出所述待识别的文本行图片中的文字。

在所述识别单元中，所述图片文字识别模型通过以下方式建立：

所述识别单元获取一幅或多幅标准的文本行图片，所述标准的文本行图片由预设的文本行二值化图片和预设的背景图片进行合成而得到；

所述识别单元对每幅所述标准的文本行图片进行扩充变化处理，得到对应的样本图片，根据所述样本图片形成训练样本集；

所述识别单元利用所述训练样本集，通过深度神经网络，训练得到所述图片文字识别模型。

根据第三方面，一种实施例中提供一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现如上述第一方面所述的识别方法。

本申请的有益效果是：

依据上述实施例的一种实施例中提供一种图片文字的识别方法及其识别装置，该识别方法包括：获取待识别的文本行图片，将待识别的文本行图片输入至预先建立的图片文字识别模型，以识别得到待识别的文本行图片中的文字，输出待识别的文本行图片中的文字；其中图片文字识别模型是利用多幅用于训练的文本行图片通过训练深度神经网络而得到，用于训练的文本行图片是由标准的文本行图片经过扩充变化处理后得到的图片。第一方面，由于用于训练的文本行图片是由标准的文本行图片进行扩充变化处理而得到，使得图片文字识别模型的训练样本集更符合实际应用，相比随机组合字符而得到的训练样本，大大缩减了训练样本的数量，却大幅提高了生成训练样本和训练模型的效率；第二方面，在对标准的文本行图片进行扩充变化处理时，所采用的扩充变化处理手段充分考虑了拍摄角度、拍摄光线、图像传输、文本检测器等各方面可能对文本行图片造成的影响，通过随机添加一些扩充变化处理手段至标准文本行图片上来模拟这些影响，可以使得训练样本的数据真实特性得到增强；第三方面，由于标准的文本行图片由预设的文本行二值化图片和预设的背景图片进行合成而得到，使得用户只需要根据应用场景输入相关的词条和标准模板图片即可，从而自动生成训练样本集，提高了图片文字识别模型的训练效率和图片文字的识别效率；第四方面，本申请的技术方案实现了一种从样本生成到模型训练及预测的自动实施过程，无需累积许多图片和图片的标注即可快速实现图片文字识别的应用。

附图说明

图1为图片文字的识别方法的流程图；

图2为建立图片文字识别模型的流程图；

图3为获取标准的文本行图片的流程图；

图4为形成训练样本集和训练得到图片文字识别模型的流程图；

图5为图片文字的识别装置的结构示意图；

图6为识别单元的结构示意图；

图7为计算机存储介质的结构示意图；

图8为合成得到标准的文本行图片的示意图；

图9为扩充变化处理得到样本图片的示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

实施例一、

请参考图1，本申请公开一种图片文字的识别方法,其包括步骤S100-S300，下面分别说明。

步骤S100，获取待识别的文本行图片，待识别的文本行图片包含文字。

需要说明的是，文本行图片是指包含的文字内容成行或成列分布的图片，且仅有一行文字或一列文字。此外，这里的文字是广义的概念，包括各国的语言文字、标点符号、数字、希腊符号等具有信息识别作用的字符。

需要说明的是，待识别的文本行图片中的文字可以是电子邮箱、电话号码、通信地址、姓名、广告语、诗词、外文单词、标志标识等内容，这里不再进行限制。

步骤S200，将待识别的文本行图片输入至预先建立的图片文字识别模型，以识别得到该待识别的文本行图片中的文字。

在本实施例中，图片文字识别模型是利用多幅用于训练的文本行图片通过训练深度神经网络而得到，用于训练的文本行图片是由标准的文本行图片经过扩充变化处理后得到的图片。

步骤S300，输出待识别的文本行图片中的文字。在一具体实施例中，可以将待识别的文本行图片中文字输出至显示器，以供用户进行查看。

本申请技术方案的关键在于：采用了一种新的图片文字识别模型，以期通过该图片文字识别模型来准确、快速地识别得到待识别的文本行图片中的文字。为便于理解本申请的技术方案，接下来将描述如何建立步骤S200中提及的图片文字识别模型，并通过步骤S410-S430进行展开说明。

图片文字识别模型可以通过以下步骤建立：

步骤S410，获取一幅或多幅标准的文本行图片，标准的文本行图片由预设的文本行二值化图片和预设的背景图片进行合成而得到。在一具体实施例中，件图3，步骤S410可以包括步骤S411-S413，分别说明如下。

步骤S411，根据待识别的文本行图片中的文字获取多个相关的文本内容，将各个文本内容分别进行不同的字体风格变化，生成对应的文本图像，根据该文本图像形成一幅预设的文本行二值化图片。

在本具体实施例中，根据待识别的文本行图片中的文字获取一条或多条相关的文本内容，包括：根据待识别的文本行图片中的文字获取一个或多个相关的词条，对每个词条进行拆分，组合后生成更多的词条，将生成的每一个词条按照预设的字体类型进行转换得到对应的文本内容。预设的字体类型包括宋体、楷体、黑体、New Roman、加粗、加黑、斜体等字体样式。

在本具体实施例中，对文本内容进行字体风格变化包括但不限于：设置文本行高度像素、设置文本行宽度像素、设置文本行的字符数量、设置文本前景颜色、设置文本背景颜色、设置文本图像大小、设置文本图像存储格式。

例如，当待识别的文本行图片为证件图像时，由于识别的文字是证件号码，所以系统可以自动收集或者以用户随意输入一些关于证件号码的词条，将每个词条中的数字拆开，再将这些拆开后的字词进行随机组合，使得原先收集到的词条以平方级扩容，生成更多的关于证件号码的词条，再根据应用需求转换将该些词条全部转换为宋体、加黑。然后，设置每个词条的前景色为白色且背景色为黑色，设置文本行高度像素为40，则形成图8中所示的文本图像。由于每个文本图像是黑白形式的图像，所以每个文本图像也就形成了一幅文本行二值化图片。

本领域的技术人员可以理解，对于关于姓名的词条、关于邮箱的词条、关于地址的词条或者其它类型的词条，都可以参考上面的举例内容进行拆分、组合、字体类型转换、文本内容生成、字体风格变化、文本图像生成、文本行二值化图片形成的操作，这里不再进行赘述。

步骤S412，根据待识别的文本行图片确定相关的标准模板图片，从标准模板图片中获取无文字的背景区域，根据无文字的背景区域形成预设的背景图片。

例如，当待识别的文本行图片为证件图像时，由于证件图像上除了证件号码之外，还有一些浅色背景、纯色背景、渐变色背景或者底纹背景，所以系统可以自动收集或用户随意输入一些包含此类背景的标准模板图片，获取无文字的背景区域以得到该些样式的背景，从而根据无文字的背景区域进行裁剪或填充等处理，如此可以形成如图8中所示的背景图片。

步骤S413，对于每一个文本行二值化图片，将该文本行二值化图片与背景图片进行合成处理，得到一幅标准的文本行图片。

例如图8，对于里面的4幅文本行二值化图片，选取4幅背景图片分别与每一幅文本行二值化图片进行合成处理，调整文本行二值化图片中前景色的颜色且去除背景色，调整背景图片的亮度或平衡度，以将文本行二值化图像中的文本内容清晰地合成在背景图片上。

在本具体实施例中，可以通过公式Z＝f(X)+g(Y)来得到标准的文本行图片，其中，Z为合成后的图片，X为文本行二值化图片，Y为背景图片。此外，函数f为变换函数，负责前景色的颜色调整处理；函数g为变换函数，负责背景的亮度、白平衡的调整处理。

步骤S420，对每幅标准的文本行图片进行扩充变化处理，得到对应的样本图片，根据样本图片形成训练样本集。在一个具体实施中，见图4，步骤S420可以包括步骤S421-S422，分别说明如下。

步骤S421，对于每幅标准的文本行图片，将该标准的文本行图片进行透视变换、色调变换、添加阴影效果、添加高光效果、添加噪点、裁剪、缩放、压缩中的一种处理或多种处理之后，得到对应的样本图片。

在本具体实施中，透视变换是指利用透视中心、像点、目标点三点共线的条件，按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度，破坏原有的投影光线束，仍能保持承影面上投影几何图形不变的变换；由于要识别的文本行可能由于拍摄关系不只倾斜还存在透视变换，所以这里也加入透视变换来模拟真实拍摄情况，而且透视变换完后变为不规则四边形，所以还需要裁剪操作。此外，色调变换、添加阴影效果、添加高光效果、添加噪点、裁剪、缩放、压缩这些处理操作都是图像处理中的常见技术，因此这里不再进行详述。

例如图9，对图8中所示的4幅标准的文本行图片分别进行扩充变化处理而得到对应的样本图片。其中，对图8中图片1对应的标准的文本行图片进行透视变换后得到图9中的图片1，对图8中图片2对应的标准的文本行图片进行透视变换、压缩、裁剪后得到图9中的图片2，对图8中图片3对应的标准的文本行图片进行透视变换、裁剪后得到图9中的图片3，对图8中图片4对应的标准的文本行图片进行透视变换、缩放后得到图9中的图片4。

需要说明的是，在对标准的文本行图片进行扩充变化处理时，所采用的扩充变化处理手段充分考虑了拍摄角度、拍摄光线、图像传输、文本检测器等各方面可能对文本行图片造成的影响，通过随机添加一些扩充变化处理手段至标准文本行图片上来模拟这些影响，可以使得训练样本的数据真实特性得到增强。

步骤S422，整合每幅标准的文本行图片对应的样本图片以及该样本图片中的文本内容，以形成训练样本集；该样本图片中的文本内容为合成该标准的文本行图片的文本行二值化图片所对应的文本内容。

例如图9，将这4幅样本图片和每一幅样本图片中关于证件号码的文本内容进行整合，形成训练样本集。

步骤S430，利用训练样本集，通过深度神经网络，训练得到图片文字识别模型。在一个具体实施例中，见图4，步骤S430可以包括步骤S431-S432，分别说明如下。

步骤S431，构建深度神经网络的网络模型。

步骤S432，以训练样本集中的每个样本图片为训练数据，以每个样本图片中的文本内容为训练数据的标签，对该深度神经网络的网络模型进行连续训练，从而训练得到图片文字识别模型。

在本具体实施例中，可以设置CRNN模型为深度神经网络的网络模型，该CRNN模型包括使用CNN的卷积层，使用BiLSTM(或RNN)的循环层和使用CTC的转录层；其中，卷积层的作用是从输入图像中提取特征序列；循环层的作用是预测从卷积层获取的特征序列的标签(真实值)分布；转录层的作用是把从循环层获取的标签分布通过去重整合等操作转换成最终的识别结果。由于，CRNN模型在文本行识别里普遍使用，属于现有技术，所以这里不对其结构和性能进行详细说明。这里，可以根据卷积层、循环层和转录层建立该CRNN模型的目标函数，用公式表示为

其中，χ＝{I_i,l_i}_i表示训练样本集，I_i为第i个样本图片，l_i为第i个样本图片中的文本内容，y_i为第i个样本图片对应的预测文本内容，i为训练样本集中训练数据的序号。那么，就可以利用训练样本集对目标函数进行迭代计算，将目标函数最小化时对应的CRNN模型作为图片文字识别模型。

实施例二、

请参考图5，在实施例一中公开的识别方法的基础上，本申请相应地公开了一种图片文字的识别装置1，其主要包括获取单元11、识别单元12和输出单元13，下面分别说明。

获取单元11用于获取待识别的文本行图片，待识别的文本行图片包含文字。需要说明的是，待识别的文本行图片中的文字可以是电子邮箱、电话号码、通信地址、姓名、广告语、诗词、外文单词、标志标识等内容，这里不再进行限制。

识别单元12与获取单元11连接，用于将待识别的文本行图片输入至预先建立的图片文字识别模型，以识别得到该待识别的文本行图片中的文字。其中，图片文字识别模型是利用多幅用于训练的文本行图片通过训练深度神经网络而得到，用于训练的文本行图片是由标准的文本行图片经过扩充变化处理后得到的图片。

输出单元13与识别单元12连接，用于输出该待识别的文本行图片中的文字。例如，可以将待识别的文本行图片中文字输出至显示器，以供用户进行查看。

在本实施例中，识别单元12具有建立图片文字识别模型的作用，那么在一个具体实施中，请参考图6，识别单元12可以包括标准文本行图片的获取模块121、扩充变化处理模块122、网络模型设置模块123、网络模型训练模块124和图片文字识别模型125。

识别单元12中的获取模块121获取一幅或多幅标准的文本行图片，这里标准的文本行图片由预设的文本行二值化图片和预设的背景图片进行合成而得到。关于获取模块121的具体功能可以参考实施例一中的步骤S410，这里不再进行赘述。

识别单元12中的扩充变化处理模块122对每幅标准的文本行图片进行扩充变化处理，得到对应的样本图片，根据样本图片形成训练样本集。关于扩充变化处理模块122的具体功能可以参考实施例一中的步骤S420，这里不再进行赘述。

识别单元12中的网络模型设置模块123和网络模型训练模块124进行功能结合，利用训练样本集，通过深度神经网络，训练得到图片文字识别模型125。其中，网络模型设置模块123用于设置深度神经网络的网络模型的各项参数，比如设置CRNN模型中卷积层、循环层、转录层的参数，还可以根据这些参数建立CRNN模型的目标函数。其中，网络模型训练模块124从扩充变化处理模块122中获得训练样本集，对网络模型设置模块123中设置的网络模型进行训练，从而在CRNN模型的目标函数最小化时得到图片文字识别模型。关于网络模型设置模块123和网络模型训练模块124的具体功能可以参考实施例一中的步骤S430，这里不再进行赘述。

实施例三、

请参考图7，在本申请实施例一中公开的图片文字的识别方法的基础上，本申请还请求保护一种用于图片文字的识别系统2，其主要包括存储器21和处理器22，其中，存储器21用于存储程序，处理器22用于通过执行存储器21中存储的程序以实现实施例一中的识别方法，即实现实施例一中的步骤S100-S300，以及实现步骤S400。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种图片文字的识别方法,其特征在于，包括以下步骤：

获取待识别的文本行图片，所述待识别的文本行图片包含文字；

将所述待识别的文本行图片输入至预先建立的图片文字识别模型，以识别得到所述待识别的文本行图片中的文字；所述图片文字识别模型是利用多幅用于训练的文本行图片通过训练深度神经网络而得到，所述用于训练的文本行图片是由标准的文本行图片经过扩充变化处理后得到的图片；

输出所述待识别的文本行图片中的文字。

2.如权利要求1所述的识别方法，其特征在于，所述将所述待识别的文本行图片输入至预先建立的图片文字识别模型，以识别得到所述待识别的文本行图片中的文字，其中所述图片文字识别模型通过以下方式建立：

获取一幅或多幅标准的文本行图片，所述标准的文本行图片由预设的文本行二值化图片和预设的背景图片进行合成而得到；

对每幅所述标准的文本行图片进行扩充变化处理，得到对应的样本图片，根据所述样本图片形成训练样本集；

利用所述训练样本集，通过深度神经网络，训练得到所述图片文字识别模型。

3.如权利要求2所述的识别方法，其特征在于，所述获取一幅或多幅标准的文本行图片，所述标准的文本行图片由预设的文本行二值化图片和预设的背景图片进行合成而得到，包括：

根据所述待识别的文本行图片中的文字获取多个相关的文本内容，将各个文本内容分别进行不同的字体风格变化，生成对应的文本图像，根据所述文本图像形成预设的文本行二值化图片；

根据所述待识别的文本行图片确定相关的标准模板图片，从所述标准模板图片中获取无文字的背景区域，根据所述无文字的背景区域形成预设的背景图片；

对于每一个文本行二值化图片，将该文本行二值化图片与所述背景图片进行合成处理，得到一幅所述标准的文本行图片。

4.如权利要求3所述的识别方法，其特征在于，所述根据所述待识别的文本行图片中的文字获取一条或多条相关的文本内容，包括：

根据所述待识别的文本行图片中的文字获取一个或多个相关的词条，对每个词条进行拆分，组合后生成更多的词条，将生成的每一个词条按照预设的字体类型进行转换得到对应的文本内容。

5.如权利要求4所述的识别方法，其特征在于，所述对每幅所述标准的文本行图片进行扩充变化处理，得到对应的样本图片，根据所述样本图片形成训练样本集，包括：

对于每幅标准的文本行图片，将该标准的文本行图片进行透视变换、色调变换、添加阴影效果、添加高光效果、添加噪点、裁剪、缩放、压缩中的一种处理或多种处理之后，得到对应的样本图片；

整合每幅标准的文本行图片对应的样本图片以及该样本图片中的文本内容，以形成训练样本集；该样本图片中的文本内容为合成该标准的文本行图片的文本行二值化图片所对应的文本内容。

6.如权利要求5所述的识别方法，其特征在于，所述利用所述训练样本集，通过深度神经网络，训练得到所述图片文字识别模型，包括：

构建深度神经网络的网络模型；

以所述训练样本集中的每个样本图片为训练数据，以每个样本图片中的文本内容为训练数据的标签，对所述深度神经网络的网络模型进行连续训练，得到所述图片文字识别模型。

7.如权利要求6所述的识别方法，其特征在于，所述以所述训练样本集中的每个样本图片为训练数据，以每个样本图片中的文本内容为训练数据的标签，对所述深度神经网络的网络模型进行连续训练，得到所述图片文字识别模型，包括：

设置CRNN模型为所述深度神经网络的网络模型，所述CRNN模型包括使用CNN的卷积层，使用BiLSTM的循环层和使用CTC的转录层；

根据所述卷积层、所述循环层和所述转录层建立所述CRNN模型的目标函数，用公式表示为

其中，χ＝{I_i,l_i}_i表示训练样本集，I_i为第i个样本图片，l_i为第i个样本图片中的文本内容，y_i为第i个样本图片对应的预测文本内容，i为训练样本集中训练数据的序号；

8.一种图片文字的识别装置，其特征在于，包括：

输出单元，用于输出所述待识别的文本行图片中的文字。

9.如权利要求8所述的识别装置，其特征在于，在所述识别单元中，所述图片文字识别模型通过以下方式建立：

10.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-7中任一项所述的识别方法。