CN108764226B

CN108764226B - 图像文本识别方法、装置、设备及其存储介质

Info

Publication number: CN108764226B
Application number: CN201810337609.6A
Authority: CN
Inventors: 冯昊楠; 张玉双; 冯新杰; 庄思待
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2022-05-03
Anticipated expiration: 2038-04-13
Also published as: CN108764226A

Abstract

本申请公开了图像文本识别方法、装置、设备及其存储介质。该方法包括：获取待识别图像，待识别图像为行政许可证书图片；将待识别图像输入到预先构建的图像文本识别模型中进行文本检测和文本识别，得到目标识别结果；其中，图像文本识别模型包括图像文本检测子模型和图像文本识别子模型，图像文本检测子模型与图像文本识别子模型分别采用深度学习算法训练得到的，目标识别结果包括与待识别图像中至少一个文本条目相对应的语句信息特征。根据本申请实施例的技术方案，通过预先构建的图像文本识别模型来实现对待识别图像的目标区域进行检测和识别，从而提高了图像文本信息的处理效率，大大节约了用户信息录入的时间。

Description

图像文本识别方法、装置、设备及其存储介质

技术领域

本申请一般涉及图像处理技术领域，具体涉及基于图像识别检测技术领域，尤其涉及图像文本识别方法、装置、设备及其存储介质。

背景技术

在快递业务场景中，信息录入是一个不可避免的环节。大量信息重复录入，会造成资源的浪费。例如，商家营业执照的信息录入有时候需要按月更新。

现有针对图片处理和识别，有的采用传统文本检测识别技术(Optical CharacterRecognition，OCR)，该技术包括文字区域检测，图片信息提取及矫正，以及基于传统机器学习方法和HMM模型的文字识别分类器。但是，这些方法在解决商家营业执照的信息录入的问题时，都存在不足，例如，图片自身的限制导致文件检测和信息提取受限，以及在针对细长条文本框检测上表现不佳等问题。

亟待提出一种针对营业执照信息提取的方法来解决上述不足。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种图像文本识别的技术方案来解决商家营业执照录入的问题。

第一方面，本申请实施例提供了一种图像文本识别方法，该方法包括：

获取待识别图像，待识别图像为行政许可证书图片；

将待识别图像输入到预先构建的图像文本识别模型中进行文本检测和文本识别，得到目标识别结果；图像文本识别模型包括图像文本检测子模型和图像文本识别子模型，图像文本检测子模型与图像文本识别子模型分别采用深度学习算法训练得到的，目标识别结果包括与所述待识别图像中至少一个文本条目相对应的语句信息特征。

第二方面，本申请实施例提供了一种图像文本识别装置，该装置包括：

第一获取单元，用于获取待识别图像，待识别图像为行政许可证书图片；

文本检测单元，用于将待识别图像输入到预先构建的图像文本识别模型中进行文本检测和文本识别，得到目标识别结果；图像文本识别模型包括图像文本检测子模型和图像文本识别子模型，图像文本检测子模型与图像文本识别子模型分别采用深度学习算法训练得到的，目标识别结果包括与待识别图像中至少一个文本条目相对应的语句信息特征。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如本申请实施例描述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序用于：

该计算机程序被处理器执行时实现如本申请实施例描述的方法。

本申请实施例提供的图像文本识别方法的技术方案，通过预先构建的图像文本识别模型来实现对待识别图像的目标区域进行检测和识别，从而提高了图像文本信息的处理效率，并且预先构建的图像文本识别模型采用深度学习算法训练，也进一步提升了图像文本识别的精确度，大大节约了用户信息录入的时间。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了本申请实施例提供的图像文本识别方法的流程示意图；

图2示出了本申请又一实施例提供的构建图像文本识别模型的方法的流程示意图；

图3示出了本申请实施例提供的图像文本识别装置的示例性结构框图；

图4示出了本申请又一实施例提供的构建图像文本识别模型装置的示例性结构示意图；

图5示出了适于用来实现本申请实施例的终端设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，图1示出了本申请实施例提供的图像文本识别方法的流程示意图。

如图1所示，该方法包括：

步骤110，获取待识别图像，该待识别图像为行政许可证书图片。

本申请实施例，在快递业务场景中，需要录入大量的用户信息，例如商家用户的行政许可证书的录入。针对这些行政许可证书的信息录入，可以根据其自身特点来提高信息录入效率。基于这种自身特点的挖掘，可以实现基于细长条目标检测及识别的全自动识别，来提高图像数据处理的效率。

其中，行政许可证书包括许可证、执照等。优选地，如营业执照。这些行政许可证书的特点在于其文本上都存在细长条形状的目标区域，例如可以是营业执照中公司名称和统一信用代码对应的区域等。

其中，行政许可证书的图片的获取方式例如可以是通过摄像装置(如终端的摄像头或者独立的摄像机等)拍摄行政许可证书的图片；或者从其他终端传送的行政许可证书的图片；或者从相关存储装置获取的行政许可证书的图片，或者从其他远程服务器远程获取行政许可证书的图片等等。

然后，将获取的图片传输到相关处理装置中进行图像处理。相关处理装置例如可以是图像处理器，或者处理器。通过调用相关的图像检测、识别算法获取图像中需要录入的文本条目对应的文字内容。

当接收到新的图像(即待识别图像)时，触发处理器获取待识别图像，然后调用相关处理程序执行该待识别图像的识别。该待识别图像例如可以是行政许可证书的图片，优选地，营业执照图片。

步骤120，将待识别图像输入到预先构建的图像文本识别模型中进行文本检测和文本识别，得到目标识别结果；其中，图像文本识别模型包括图像文本检测子模型和图像文本识别子模型，该图像文本检测子模型与该图像文本识别子模型分别采用深度学习算法训练得到的，该目标识别结果包括与待识别图像中至少一个文本条目相对应的语句信息特征。

本申请实施例，在获取待识别图像后，将该待识别图像输入预先构建的图像文本识别模型中进行文本检测和文本识别，然后得到目标识别结果。现有的OCR不能准确地识别行政许可证书中存在的细长条形的文本条目，文本条目例如可以是营业执照图片中公司名称或者统一信用代码等。

为了能够准确地检测文本条目对应的区域，并针对该区域进一步完成识别，本申请实施例通过采用深度学习算法训练得到的图像文本识别模型来实现。该图像文本识别模型能够针对现有技术存在问题，更好地实现对特定的文本条目的检测和识别，从而提升文本检测效率和精度。

其中，深度学习算法例如可以是针对现有文本检测算法进行改进、或者卷积神经网络(Convolutional Neural Network，CNN)、深度残差网络(Deep Residual Network，DResNet)以及长短期记忆网络(Long Short-Term Memory，LSTM)等的组合结果。其中，文本检测算法，例如可以是改进的SSD算法(Single Shot Detection)。改进的SSD算法基于获取图片自身的特点，通过调整特征提取层的选择和目标框比例的设置来实现，其能够进一步地提升检测结果的精确度。

本申请实施例，图像文本识别模型至少包括图像文本检测子模型和图像文本识别子模型。其中，图像文本检测子模型例如可以采用改进的SSD算法训练而成。图像文本识别子模型例如可以采用神经网络组合训练而成。神经网络组合例如可以是卷积神经网络与长短期记忆网络的组合，或者深度残差网络与长短期记忆网络的组合等。

将待识别图像输入图像文本识别模型后，可以从图像中识别出对应文本条目相对应的语句信息特征。文本条目对应图像中细长形状的文字框体。例如“公司名称ABCD公司”。该语句信息特征为文本条目对应的有序的文字内容，例如，ABCD公司。该ABCD公司的每个字符之间都存在一定的顺序。

本申请实施例通过构建图像文本识别模型针对行政许可证书特定的细长文本条目进行检测和识别，能够提高检测的精度，并提高数据的处理效率。

本申请实施例中预先构建的图像文本识别模型是采用深度学习算法训练而成。请参考图2，图2示出了本申请又一实施例提供的构建图像文本识别模型的方法的流程示意图。

如图2所示，该方法包括：

步骤210，采用第一深度学习算法训练得到图像文本检测子模型；以及

步骤220，采用第二深度学习算法训练得到图像文本识别子模型。

本申请实施例，图像文本识别模型至少包括两个子模型，即图像文本检测子模型和图像文本识别子模型。其中，图像文本检测子模型采用第一深度学习算法进行训练，图像文本识别子模型采用第二深度学习算法进行训练。

在上述实施例基础上，为针对地提升图像文本识别模型的检测和识别效果，本申请实施例可以通过第一深度学习算法针对性训练图像文本检测子模型，并通过第二深度学习算法针对性训练图像文本识别子模型。

其中，通过第一深度学习算法可以针对性检测文本或图像中的特定区域。其中，特定区域例如可是文本或图片中细长条目标区域，如行政许可证书中“名称”对应的细长条形状的显示框。第一深度学习算法例如可以是改进的SSD算法，或者其他可以等同替换针对上述特定区域进行检测的改进算法。通过第一深度学习算法可以有效地提升对特定区域的检测精确。

其中，通过第二深度学习算法可以对图像文本识别子模型输出结果高效识别。第二深度学习算法针对性地考虑到特定区域对应的文字信息之间的关联特性，通过预先分析文字之间的关联关系，从而提升文字识别的精确度以及速度。其中，第二深度学习算法例如可以是深度残差网络和长短期记忆网络的组合，或者其他构建识别结果关联关系的学习算法。

其中，步骤210，还可以包括：

步骤2101，获取第一图像数据集，其中第一图像数据集包括历史存储的行政许可证书图片；

步骤2012，对第一图像数据集进行增广处理，得到图像训练集；

步骤2103，利用图像训练集按照第一深度学习算法进行训练学习，得到图像文本检测子模型，该图像文本检测子模型包括多个特征提取层，该图像文本检测子模型的输出结果与该多个特征提取层中位于中间层级的特征提取层相关。

本申请实施例，在训练图像文本检测子模型过程中，通过获取大量的图片数据作为图像数据集，这些图片数据例如可以是行政许可证书，如营业执照图片。获取图片数据的方式例如可以是通过摄像装置拍摄获取，或者通过其他终端设备传输获取，或者从相关存储装置获取，或者从其他远程服务器远程获取。

在获取图像训练集后，采用逐行标记的方式对图像张的目标字条进行标记，例如营业执照图片中的公司名称和统一信用代码进行标记。或者卫生许可证中的单位名称等进行标记。然后，再对图像训练集中的图像进行增广处理，例如可以是多角度旋转、高斯模糊、均值模糊、翻转、随机噪声、光强变化等方式。

将增广处理后的结果作为最终的图像训练集用于模型训练。将图像训练集按照第一深度学习算法进行训练学习。第一深度学习算法例如可以是改进的SSD算法。以五层卷积神经网络为例，当增广处理后的图像输入到至上而下的五层卷积层组成的神经网络结构时，本申请实施例通过预先设置的目标框比例参数来提高目标框检测的精确度，该目标框比例参数为aspect ratio对应的值。现有技术中采用{1，2，3，1/2，1/3}并不能很好地识别细长条的目标框，本申请实施例按照优选地目标框比例参数{4，1/4}来训练图像文本检测子模型，并在选取特征提取层的输出时，基于低层次的卷积层提取的特征的优势，而选取位于五层卷积层的中间层级的特征作为检测结果来进一步处理。

本申请实施例，在利用图像文本检测子模型对图像进行检测之后，可以获得相关联的两个目标子框体来标识同一文本条目。例如，图像数据为营业执照图片，营业执照图片中第一文本条目对应“公司名称ABCD公司”，将该文本条目可以切割为两个部分，第一部分是对应“公司名称”字样，第二部分对应“ABCD公司”字样，通过将文本条目进行切割后再进行处理，能够进一步提升模型的检测精度。

其中，步骤220，还可以包括：

步骤2201，获取图像文本检测子模型的输出结果，将输出结果作为第一目标训练集；

步骤2202，获取根据运单数据中第一项目预先生成的第二图像数据集，将所述第二图像数据集作为第二目标训练集；

步骤2203，利用第一目标训练集和第二目标训练集按照第二深度学习算法进行训练，得到图像文本识别子模型，该图像文本识别子模型输出目标识别结果。

本申请实施例，通过图像文本识别子模型来识别图像文本检测子模型的结果。在训练图像文本识别子模型的过程中，通过获取图像文本检测子模型的输出结果和根据运单数据中相关项目预先生成的结果作为目标训练集。其中，运单数据中相关项目例如可以是运单中公司名称的数据。

在获取目标训练集后，将目标训练集按照第二深度学习算法进行训练，得到图像文本识别子模型。其中，第二深度学习算法例如可以包括深度残差网络和长短期记忆网络的组合。或者卷积神经网络和长短期记忆网络的组合。

当第二深度学习算法为深度残差网络和长短期记忆网络的组合时，利用第一目标训练集和第二目标训练集按照第二深度学习算法进行训练，可以包括：

将第一目标训练集和第二目标训练集输入深度残差网络提取第一目标训练集和第二目标训练集中字符特征向量，该字符特征向量是由预先生成的高频字字典来表征。

然后，将字符特征向量输入到长短期记忆网络，训练得到语句信息特征，将语句信息特征作为目标识别结果。

本申请实施例通过深度残差网络对图像文本检测子模型的输出结果进行识别。为了提高识别结果的准确性，可以通过预先生成的高频字字典作为深度残差网络的输出结果集。其中，预先生成的高频字字典可以是从运单数据中提取的公司名称对应的文字内容按照字频统计方式生成的高频字字典。通过深度残差网络从图像中识别得到文本条目对应的字符特征向量，该字符特征向量包括与公司名称的文字内容，这些文字内容是由预先生成的高频字字典来表征的。

然后将字符特征向量输入到长短期记忆网络，通过长短期记忆网络识别得到语句信息特征，该语句信息特征作为目标识别结果。语句信息特征是将字符特征向量按序表示的结果。

在图像文本识别子模型识别得到目标识别结果后，该方法还可以包括：

步骤230，将图像文本识别子模型输出的语句信息特征和图像文本检测子模型的输出结果进行关联存储。

本申请实施例，通过图像文本识别子模型对图像文本检测子模型输出结果进行识别，从而获取目标识别结果，作为信息提取的对象。通过自动化的分析图片，切割对象，并智能地匹配得到需要提取的目标信息，极大地优化了信息录取的性能，提高了数据处理的效率。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

另外，本申请实施例还提出了一种图像文本识别装置。请参考图3，图3示出了本申请实施例提供的图像文本识别装置的示例性结构框图。

如图3所示，该装置包括：

第一获取单元310，用于获取待识别图像，该待识别图像为行政许可证书图片。

文本检测单元320，用于将待识别图像输入到预先构建的图像文本识别模型中进行文本检测知文本识别，得到目标识别结果；其中，图像文本识别模型包括图像文本检测子模型和图像文本识别子模型，该图像文本检测子模型与该图像文本识别子模型分别采用深度学习算法训练得到的，该目标识别结果包括与待识别图像中至少一个文本条目相对应的语句信息特征。

本申请实施例通过构建图像文本识别模型针对行政许可证书特定的细长的文本条目进行检测和识别，能够提高检测的精度，并提高数据的处理效率。

本申请实施例中预先构建的图像文本识别模型是采用深度学习算法训练而成。请参考图4，图4示出了本申请又一实施例提供的构建图像文本识别模型装置的示例性结构示意图。

如图4所示，该装置包括：

第一训练子单元410，用于采用第一深度学习算法训练得到图像文本检测子模型；以及

第二训练子单元420，用于采用第二深度学习算法训练得到图像文本识别子模型。

其中，第一训练子单元410，还可以包括：

第二获取模块4101，用于获取第一图像数据集，其中第一图像数据集包括历史存储的行政许可证书图片；

处理模块4102，用于对第一图像数据集进行增广处理，得到图像训练集；

第一学习模块4103，用于利用图像训练集按照第一深度学习算法进行训练学习，得到图像文本检测子模型，该图像文本检测子模型包括多个特征提取层，该图像文本检测子模型的输出结果与该多个特征提取层中位于中间层级的特征提取层相关。

其中，第二训练子单元420，还可以包括：

第三获取模块4201，用于获取图像文本检测子模型的输出结果，将输出结果作为第一目标训练集；

第四获取模块4202，用于获取根据运单数据中第一项目预先生成的第二图像数据集，将所述第二图像数据集作为第二目标训练集；

第二学习模块4203，用于利用第一目标训练集和第二目标训练集按照第二深度学习算法进行训练，得到图像文本识别子模型，该图像文本识别子模型输出目标识别结果。

本申请实施例通过深度残差网络对图像文本检测子模型的输出结果进行识别。为了提高识别结果的准确性，可以通过预先生成的高频字字典来作为深度残差网络的输出结果集。其中，预先生成的高频字字典可以是从运单数据中提取的公司名称对应的文字内容按照字频统计方式生成的高频字字典。通过深度残差网络从图像中识别得到文本条目对应的字符特征向量，该字符特征向量包括与公司名称的文字内容，这些文字内容是由预先生成的高频字字典来表征的。

在图像文本识别子模型识别得到目标识别结果后，该装置还可以包括：

存储单元430，用于将图像文本识别子模型输出的语句信息特征和图像文本检测子模型的输出结果进行关联存储。

应当理解，装置300-400中记载的诸单元或模块与参考图1-2描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置300-400及其中包含的单元，在此不再赘述。装置400可以预先实现在电子设备的浏览器或其他安全应用中，也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。装置300-400中的相应单元可以与电子设备中的单元相互配合以实现本申请实施例的方案。

下面参考图5，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考图1-2描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行图1-2的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一获取单元、以及文本检测单元。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，第一获取单元还可以被描述为“用于获取待识别图像的单元”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中前述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，前述程序被一个或者一个以上的处理器用来执行描述于本申请的图像文本识别方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种图像文本识别方法，其特征在于，该方法包括：

获取待识别图像，所述待识别图像为行政许可证书图片；

将所述待识别图像输入到预先构建的图像文本识别模型中进行文本检测和文本识别，得到目标识别结果；所述图像文本识别模型包括图像文本检测子模型和图像文本识别子模型，所述图像文本检测子模型用于检测文本条目对应的区域，所述图像文本检测子模型与所述图像文本识别子模型分别采用深度学习算法训练得到，其中，采用改进的SSD算法训练所述图形文本检测子模型，所述改进的SSD算法基于所述待识别图像自身的特点，调整特征提取层的选择和目标框比例的设置，所述目标识别结果包括与所述待识别图像中至少一个文本条目相对应的语句信息特征。

2.根据权利要求1所述的方法，其特征在于，所述图像文本检测子模型与所述图像文本识别子模型分别采用深度学习算法训练得到的，包括：

采用第一深度学习算法训练得到所述图像文本检测子模型；以及

采用第二深度学习算法训练得到所述图像文本识别子模型。

3.根据权利要求2所述的方法，其特征在于，所述采用第一深度学习算法训练得到所述图像文本检测子模型，包括：

获取第一图像数据集，所述第一图像数据集包括历史存储的行政许可证书图片；

对所述第一图像数据集进行增广处理，得到图像训练集；

利用所述图像训练集按照所述第一深度学习算法进行训练学习，得到所述图像文本检测子模型，所述图像文本检测子模型包括多个特征提取层，所述图像文本检测子模型的输出结果与所述多个特征提取层中位于中间层级的特征提取层相关。

4.根据权利要求3所述的方法，其特征在于，所述采用第二深度学习算法训练得到所述图像文本识别子模型，包括：

获取所述图像文本检测子模型的输出结果，将所述输出结果作为第一目标训练集；

获取根据运单数据中第一项目预先生成的第二图像数据集，将所述第二图像数据集作为第二目标训练集；

利用所述第一目标训练集和所述第二目标训练集按照所述第二深度学习算法进行训练，得到所述图像文本识别子模型，所述图像文本识别子模型输出所述目标识别结果。

5.根据权利要求4所述的方法，其特征在于，所述第二深度学习算法包括深度残差网络和长短期记忆神经网络，且利用所述第一目标训练集和所述第二目标训练集按照所述第二深度学习算法进行训练，包括：

将第一目标训练集和第二目标训练集输入所述深度残差网络提取所述第一目标训练集和所述第二目标训练集中字符特征向量，所述字符特征向量是由预先生成的高频字字典来表征；

然后，将所述字符特征向量输入到所述长短期记忆网络，训练得到语句信息特征，将所述语句信息特征作为所述目标识别结果。

6.根据权利要求1-5任一项所述的方法，其特征在于，该方法还包括：

将所述图像文本识别子模型输出的语句信息特征和所述图像文本检测子模型的输出结果进行关联存储。

7.一种图像文本识别装置，其特征在于，该装置包括：

第一获取单元，用于获取待识别图像，所述待识别图像为行政许可证书图片；

文本检测单元，用于将所述待识别图像输入到预先构建的图像文本识别模型中进行文本检测和文本识别，得到目标识别结果；所述图像文本识别模型包括图像文本检测子模型和图像文本识别子模型，所述图像文本检测子模型用于检测文本条目对应的区域，所述图像文本检测子模型与所述图像文本识别子模型分别采用深度学习算法训练得到，其中，采用改进的SSD算法训练所述图形文本检测子模型，所述改进的SSD算法基于所述待识别图像自身的特点，调整特征提取层的选择和目标框比例的设置，所述目标识别结果包括与所述待识别图像中至少一个文本条目相对应的语句信息特征。

8.根据权利要求7所述的装置，其特征在于，所述文本检测单元，包括：

第一训练子单元，用于采用第一深度学习算法训练得到所述图像文本检测子模型；以及

第二训练子单元，用于采用第二深度学习算法训练得到所述图像文本识别子模型。

9.根据权利要求8所述的装置，其特征在于，所述第一训练子单元，包括：

第二获取模块，用于获取第一图像数据集，所述第一图像数据集包括历史存储的行政许可证书图片；

处理模块，用于对所述第一图像数据集进行增广处理，得到图像训练集；

第一学习模块，用于利用所述图像训练集按照所述第一深度学习算法进行训练学习，得到所述图像文本检测子模型，所述图像文本检测子模型包括多个特征提取层，所述图像文本检测子模型的输出结果与所述多个特征提取层中位于中间层级的特征提取层相关。

10.根据权利要求7所述的装置，其特征在于，所述第二训练子单元，包括：

第三获取模块，用于获取所述图像文本检测子模型的输出结果，将所述输出结果作为第一目标训练集；

第四获取模块，用于获取根据运单数据中第一项目预先生成的第二图像数据集，将所述第二图像数据集作为第二目标训练集；

第二学习模块，用于利用所述第一目标训练集和所述第二目标训练集按照所述第二深度学习算法进行训练，得到所述图像文本识别子模型，所述图像文本识别子模型输出所述目标识别结果。

11.根据权利要求10所述的装置，其特征在于，所述第二学习模块包括深度残差网络和长短期记忆网络，且所述第二学习模块，包括：

第一子模块，用于将第一目标训练集和第二目标训练集输入所述深度残差网络提取所述第一目标训练集和所述第二目标训练集中字符特征向量，所述字符特征向量是由预先生成的高频字字典来表征；

第二子模块，用于将所述字符特征向量输入到所述长短期记忆网络，训练得到语句信息特征，将所述语句信息特征作为所述目标识别结果。

12.根据权利要求7-11任一项所述的装置，其特征在于，该装置还包括：

存储单元，用于将所述图像文本识别子模型输出的语句信息特征和所述图像文本检测子模型的输出结果进行关联存储。

13.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于：

所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。