CN111325117B

CN111325117B - 目标对象识别模型的训练方法、装置和电子设备

Info

Publication number: CN111325117B
Application number: CN202010081043.2A
Authority: CN
Inventors: 卢永晨
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2020-02-05
Filing date: 2020-02-05
Publication date: 2024-01-26
Anticipated expiration: 2040-02-05
Also published as: CN111325117A

Abstract

本公开实施例公开一种目标对象识别模型的训练方法、装置和电子设备。其中，该目标对象识别模型的训练方法包括：将带有目标对象的图像区域进行预处理操作得到预处理图像；将所述预处理图像输入目标对象识别模型进行识别操作得到所述目标对象的识别结果；响应于所述识别结果为第一结果，调整所述预处理操作以及所述目标对象识别模型的参数；继续对所述带有目标对象的图像区域进行预处理操作以及识别操作直至所述识别结果为第二结果。本公开实施例的目标对象识别模型的训练方法，通过动态生成训练图像以及调整生成训练图像的预处理操作，解决了现有技术中训练图集占用存储空间以及不能灵活调整的技术问题。

Description

目标对象识别模型的训练方法、装置和电子设备

技术领域

本公开涉及图像处理领域，特别是涉及一种目标对象识别模型的训练方法、装置和电子设备。

背景技术

文字识别一般是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。一般来说，文字识别一般包括检测和识别两个过程，其中检测过程包括找到图像中包含文字的区域，识别过程包括识别所述文字区域中的文字。

传统的识别过程一般可以使用模板匹配或者特征提取比较特征的方法，但是这种方法通常会受文字的状态影响，比如文字的方向、光线的强度等等，导致识别的准确度和速度有限。近年来，还有使用神经网络进行识别的方法，但是神经网络需要进行训练，训练需要训练图集，现有技术中的训练图集一般包括各种各样的文字行，比如一般可能包括40万行的文字，训练图集的体积很大，非常占用空间，且通常神经网络在训练时，可能对某一类型的文字行识别的不好，则还需要人工去增加对应类型的文字行以加强神经网络的训练。

发明内容

根据本公开的第一方面，提供以下技术方案：

一种目标对象识别模型的训练方法，包括：

将带有目标对象的图像区域进行预处理操作得到预处理图像；

将所述预处理图像输入目标对象识别模型进行识别操作得到所述目标对象的识别结果；

响应于所述识别结果为第一结果，调整所述预处理操作以及所述目标对象识别模型的参数；

继续对所述带有目标对象的图像区域进行预处理操作以及识别操作直至所述识别结果为第二结果。

根据本公开的第二方面，还提供以下技术方案：

一种目标对象的识别方法，包括：

将包括有目标对象的图像输入目标对象识别模型；

根据所述目标对象识别模型的输出得到所述目标对象的识别结果；其中，所述目标对象识别模型由所述的目标对象识别模型的训练方法训练得到。

根据本公开的第三方面，还提供以下技术方案：

一种目标对象识别模型的训练装置，包括：

预处理模块，用于将带有目标对象的图像区域进行预处理操作得到预处理图像；

识别结果获取模块，用于将所述预处理图像输入目标对象识别模型进行识别操作得到所述目标对象的识别结果；

调整模块，用于响应于所述识别结果为第一结果，调整所述预处理操作以及所述目标对象识别模型的参数；

循环处理模块，用于继续对所述目标对象进行预处理操作以及识别操作直至所述识别结果为第二结果。

根据本公开的第四方面，还提供以下技术方案：

一种目标对象的识别装置，包括：

图像输入模块，用于将包括有目标对象的图像输入目标对象识别模型；

识别模块，用于根据所述目标对象识别模型的输出得到所述目标对象的识别结果；其中，所述目标对象识别模型由所述的目标对象识别模型的训练方法训练得到。

根据本公开的第五方面，还提供以下技术方案：

一种电子设备，包括：存储器，用于存储非暂时性计算机可读指令；以及处理器，用于运行所述计算机可读指令，使得所述处理器执行时实现上述第一方面或者第二方面的方法所述的步骤。

根据本公开的第六方面，还提供以下技术方案：

一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时，使得所述计算机执行上述第一方面或者第二方面的方法所述的步骤。

上述说明仅是本公开技术方案的概述，为了能更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为让本公开的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例,并配合附图，详细说明如下。

附图说明

图1为本公开实施例提供的目标对象识别模型的训练方法的流程示意图；

图2为本公开实施例提供的标对象识别模型的训练方法的步骤S102的可选实施方式的流程示意图；

图3为本公开实施例提供的标对象识别模型的训练方法的步骤S103的可选实施方式的流程示意图；

图4为本公开实施例提供的目标对象识别模型的训练装置的结构示意图；

图5为本公开实施例提供的目标对象的识别装置的结构示意图；

图6为根据本公开实施例提供的电子设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本公开实施例提供一种目标对象识别模型的训练方法。本实施例提供的该目标对象识别模型的训练方法可以由一计算装置来执行，该计算装置可以实现为软件，或者实现为软件和硬件的组合，该计算装置可以集成设置在服务器、终端设备等中。如图1所示，该目标对象识别模型的训练方法主要包括如下步骤S101至步骤S106。其中：

步骤S101，将带有目标对象的图像区域进行预处理操作得到预处理图像；

在本公开实施例中，所述目标对象可以为任何待识别的对象，示例性的，所述目标对象为文字、人脸、动物等等。所述带有目标对象的图像区域为图像中包括所述目标对象的最小图像区域，示例性的，所述目标对象为文字，则所述带有目标对象的图像区域为文字行，文字行的大小可以预先设置，如每个文字行中带有10个文字等。在该实施例中，当得到所述带有目标对象的图像区域之后，对所述图像区域进行预处理操作，得到预处理图像。由于需要对所述目标对象识别模型进行训练，因此为了识别的准确率，需要一些非正常的目标对象图像作为训练集合，以增强识别模型的容错性。在本公开实施例中，所述预处理操作包括：旋转处理、偏移处理、噪声处理以及融合处理中的至少一个；示例性的，所述图像区域为带有文字的文字行，其为矩形；其中所述旋转处理为将所述图像区域旋转随机角度，则所述旋转处理为以所述矩形的轴心为旋转中心将所述矩形随机旋转一个角度，得到文字相对水平轴有偏移的文字行，示例性的，所述随机角度为正负5度；所述偏移处理为将所述图像区域上四个点进行偏移以对所述图像区域中的目标对象进行形变，则所述偏移处理为将所述文字行中的四个点进行随机的移动，以使所述图像区域产生形变，而图像区域中的文字也随之发生形变，之后再经过仿射变换将所述偏移后的四边形矫正为矩形，得到带有形变效果的文字行；所述噪声处理为在所述图像区域上随机增加噪声，示例性的噪声为高斯噪声、椒盐噪声等等，已得到带有噪音的文字行；所述融合处理为将所述图像区域与无目标对象的图片进行融合，以使所述文字行上带有一定的背景图像干扰，示例性的融合权重为0.6:0.4，也即是说融合的部分的颜色通道中的颜色值为0.6的文字行的颜色值与0.4的背景图片的颜色值的和。

可以理解的，上述预处理的目的在于增强目标对象识别模型的容错能力，使其能够识别出不太标准的目标对象，因此上述预处理操作的实例仅仅为举例，不够成对本公开的限制，实际上任何对目标对象的图像区域的预处理操作类型都可以应用到本公开的技术方案中，在此不再赘述。

步骤S102：将所述预处理图像输入目标对象识别模型进行识别操作得到所述目标对象的识别结果；

示例性的，在本公开实施例中，所述目标对象识别模型为神经网络。示例性的，所述目标对象为文字，所述神经网络为CRNN网络，其中所述CRNN网络包括CNN层、RNN层以及翻译层，其中所述CNN层用于学习所述预处理图像中的图像特征，所述RNN层使用LSTM网络实现，用于学习文字的前后文关系，所述翻译层使用CTC(Connectionist TemporalClassification)实现，输出识别结果和计算损失函数。

可选的，所述将所述预处理图像输入目标对象识别模型进行识别操作得到所述目标对象的识别结果，包括：

步骤S201，将所述预处理图像输入目标对象识别模型进行识别操作得到所述模型的输出结果；

步骤S202，将所述输出结果与所述目标对象的标注数据进行对比得到所述目标对象的识别结果。

示例性的，所述识别结果为CTC所输出的识别结果与标注的结果是否匹配，在训练所述目标对象识别模型之前，会对所述训练集合中的训练用的目标对象进行标注，标注其正确的结果，示例性的，在文字识别中，每个文字都会有其正确的文字标注用以判断所述目标对象识别模型所输出的结果是否正确。则在步骤S201中，将所述预处理图像输入所述目标对象识别模型，所述目标对象识别模型识别出所述预处理图像中的每个目标对象，并与所述目标对象的标注数据进行对比，如输入的文字行为“我是中国人”，而输出的文字被识别为“我是由国入”，则其与所述输入文字的标注数据进行比对之后，得到所述目标对象识别模型识别错误。

将所述预处理图像输入目标对象识别模型；

所述目标对象识别模型从所述预处理图像中分割出多个目标对象；

对所述多个目标对象进行识别得到所述多个目标对象的识别结果；

根据所述多个目标对象的识别结果得到目标对象的识别结果。

示例性的，所述目标对象为文字，所述预处理图像为带有多个文字的图像，所述目标对象识别模型从所述预处理图像中分割出多个文字，之后对多个文字分别进行识别，将识别每个文字的识别结果结合在一起作为整个预处理图像中的文字的识别结果，如只要有一个文字识别错误，则识别结果即为错误；此处的从所述预处理图像中分割出多个文字，可以是将所述预处理图像做等分，每一份预处理图像中都包括部分单个的文字，在后续的识别过程中，当连续识别出多个相同的文字时，可以根据一定的规则将其识别为同一个文字。

步骤S103：响应于所述识别结果为第一结果，调整所述预处理操作以及所述目标对象识别模型的参数；

可选的，在本公开实施例中，所述第一结果为识别错误，所述调整所述预处理操作以及所述目标对象识别模型的参数，包括：

步骤S301，获取得到所述预处理图像的预处理操作的类型；

步骤S302，增加所述类型的预处理操作数量；

步骤S303，计算所述目标对象识别模型的识别误差；

步骤S304，根据所述识别误差调整目标对象识别模型中提取所述预处理图像中的特征所用的参数。

在该实施例中，所述第一识别结果为识别错误，由于识别错误，证明所述目标对象识别模型对所述预处理图像中的目标对象的识别是不准确的，需要对其识别进行加强，因此可以在所述训练集合中加入更多的此类预处理操作来继续对所述目标对象识别模型进行训练。在步骤S301中，获取得到所述预处理图像的预处理操作的类型，示例性的，当识别错误，获取到输入所述目标对象识别模型的预处理图像为经过旋转处理得到的，则在步骤S302中，所述预处理操作的类型被反馈到处理操作阶段，使得预处理操作阶段增加所述旋转预处理的数量，以得到更多的被旋转了的图像区域，以使所述目标识别模型在后续的训练过程中输入更多的旋转后的带有目标对象的图像区域，以加强对旋转的图像区域的训练。步骤S303和步骤S304为通过识别误差来调整识别模型的参数的步骤，以步骤S102中的示例为例，在CTC层，根据输出结果计算损失函数的值，根据所述损失函数的值反向传播更新所述目标对象识别模型中的卷积核中的权重值和偏置值等参数。这是一个通过损失函数调整网络参数的过程，在此不再赘述。

步骤S104，继续对所述带有目标对象的图像区域进行预处理操作以及识别操作直至所述识别结果为第二结果。

该步骤在步骤S103调整了预处理类型的数量以及目标对象识别模型的参数的基础上，继续通过对带有目标对象的图像区域进行预处理操作，得到预处理图像，需要注意的是，在该步骤中得到的预处理图像相较于调整前，增加了某个类型的预处理操作，也即是说通过步骤S103中的操作动态的改变了目标对象识别模型的训练集合的内容。将调整了预处理操作后的得到的预处理图像输入所述目标对象识别模型继续识别，如果所述识别结果还是第一结果，则继续上述步骤S101-步骤S103,直至所述识别结果为第二结果，示例性的，所述第二结果为识别正确，或者所述第二识别结果为识别正确率达到某个阈值，此时所述目标对象识别模型的训练过程结束。

可选的，在所述步骤S101之前，还包括：

输入原始图像；

根据标注信息获取所述原始图像中的带有目标对象的图像区域。

在该实施例中，预先在原始图像中标注图像区域，所述图像区域中包括有目标对象。示例性的，在一张带有文字的图像中，预先标注文字行的位置信息，这样可以根据预先标注的位置信息获取到带有文字行的图像区域。示例性的，所述获取有目标对象的图像区域的步骤也可以由目标对象识别模型来执行，这样可以直接输入一张原始图像即可对所述目标对象识别模型进行训练。

通过上述实施例，本公开提供了一种可以动态增加和改变训练集合中的训练图集的方案，相对于现有技术中需要预先设置训练集合的方案，本公开实施例中的方案在线生成训练图集，可以有效减小训练图集所占用的存储空间，根据结果对生成训练图集的预处理类型进行修改，可以增强识别模型的容错性。

本公开实施例还提供一种目标对象的识别方法，包括：

将包括有目标对象的图像输入目标对象识别模型；

根据所述目标对象识别模型的输出得到所述目标对象的识别结果；其中，所述目标对象识别模型由上述目标对象识别模型的训练方法训练得到。

在上文中，虽然按照上述的顺序描述了上述方法实施例中的各个步骤，本领域技术人员应清楚，本公开实施例中的步骤并不必然按照上述顺序执行，其也可以倒序、并行、交叉等其他顺序执行，而且，在上述步骤的基础上，本领域技术人员也可以再加入其他步骤，这些明显变型或等同替换的方式也应包含在本公开的保护范围之内，在此不再赘述。

下面为本公开装置实施例，本公开装置实施例可用于执行本公开方法实施例实现的步骤，为了便于说明，仅示出了与本公开实施例相关的部分，具体技术细节未揭示的，请参照本公开方法实施例。

本公开实施例提供一种目标对象识别模型的训练装置。该装置可以执行上述目标对象识别模型的训练方法实施例中所述的步骤。如图4所示，该装置400主要包括：预处理模块401、识别结果获取模块402、调整模块403和循环处理模块404。其中，

预处理模块401，用于将带有目标对象的图像区域进行预处理操作得到预处理图像；

识别结果获取模块402，用于将所述预处理图像输入目标对象识别模型进行识别操作得到所述目标对象的识别结果；

调整模块403，用于响应于所述识别结果为第一结果，调整所述预处理操作以及所述目标对象识别模型的参数；

循环处理模块404，用于继续对所述目标对象进行预处理操作以及识别操作直至所述识别结果为第二结果。

进一步的，所述目标对象识别模型的训练装置400，还包括：

图像输入模块，用于输入原始图像；

图像区域获取模块，用于根据标注信息获取所述原始图像中的带有目标对象的图像区域。

进一步的，所述预处理操作包括：旋转处理、偏移处理、噪声处理以及融合处理中的至少一个；

其中所述旋转处理为将所述图像区域旋转随机角度；所述偏移处理为将所述图像区域上四个点进行偏移以对所述图像区域中的目标对象进行形变；所述噪声处理为在所述图像区域上随机增加噪声；所述融合处理为将所述图像区域与无目标对象的图片进行融合。

进一步的，所述识别结果获取模块402，还用于：

将所述预处理图像输入目标对象识别模型进行识别操作得到所述模型的输出结果；

将所述输出结果与所述目标对象的标注数据进行对比得到所述目标对象的识别结果。

进一步的，所述第一结果为识别错误，所述调整模块403，还用于：

获取得到所述预处理结果的预处理操作的类型；

增加所述类型的预处理操作数量；

计算所述目标对象识别模型的识别误差；

根据所述识别误差调整目标对象识别模型中提取所述预处理对象特征所用的参数。

进一步的，所述第二结果为识别正确。

进一步的，识别结果获取模块402，还用于：

将所述预处理图像输入目标对象识别模型；

进一步的，所述预处理图像为文字行图像，所述目标对象为所述文字行图像中的单个文字。

图4所示装置可以执行图1-图3所示实施例的方法，本实施例未详细描述的部分，可参考对图1-图3所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图3所示实施例中的描述，在此不再赘述。

本公开实施例提供一种目标对象的识别装置。该装置可以执行上述目标对象的识别方法实施例中所述的步骤。如图5所示，该装置500主要包括：图像输入模块501和识别模块502。其中，

图像输入模块501，用于将包括有目标对象的图像输入目标对象识别模型；

识别模块502，用于根据所述目标对象识别模型的输出得到所述目标对象的识别结果；其中，所述目标对象识别模型由上述的目标对象识别模型的训练方法训练得到。

下面参考图6，其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：将带有目标对象的图像区域进行预处理操作得到预处理图像；将所述预处理图像输入目标对象识别模型进行识别操作得到所述目标对象的识别结果；响应于所述识别结果为第一结果，调整所述预处理操作以及所述目标对象识别模型的参数；继续对所述带有目标对象的图像区域进行预处理操作以及识别操作直至所述识别结果为第二结果。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASI C)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，提供了一种目标对象识别模型的训练方法，其特征在于，包括：

进一步的，在所述将带有目标对象的图像区域进行预处理操作得到预处理图像之前还包括：

输入原始图像；

进一步的，所述将所述预处理图像输入目标对象识别模型进行识别操作得到所述目标对象的识别结果，包括：

进一步的，所述第一结果为识别错误，所述调整所述预处理操作以及所述目标对象识别模型的参数，包括：

获取得到所述预处理结果的预处理操作的类型；

增加所述类型的预处理操作数量；

计算所述目标对象识别模型的识别误差；

进一步的，所述第二结果为识别正确。

将所述预处理图像输入目标对象识别模型；

根据本公开的一个或多个实施例，提供了一种目标对象的识别方法，包括：

将包括有目标对象的图像输入目标对象识别模型；

根据本公开的一个或多个实施例，提供了一种目标对象识别模型的训练装置，包括：

进一步的，所述目标对象识别模型的训练装置，还包括：

图像输入模块，用于输入原始图像；

进一步的，所述识别结果获取模块，还用于：

进一步的，所述第一结果为识别错误，所述调整模块，还用于：

获取得到所述预处理结果的预处理操作的类型；

增加所述类型的预处理操作数量；

计算所述目标对象识别模型的识别误差；

进一步的，所述第二结果为识别正确。

进一步的，识别结果获取模块，还用于：

将所述预处理图像输入目标对象识别模型；

根据本公开的一个或多个实施例，提供了一种目标对象的识别装置，包括：

根据本公开的一个或多个实施例，提供了一种电子设备，包括：

存储器，用于存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，使得所述处理器运行时实现根据所述的目标对象识别模型的训练方法或目标对象的识别方法。

根据本公开的一个或多个实施例，提供了一种非暂态计算机可读存储介质，用于存储计算机可读指令，当所述计算机可读指令由计算机执行时，使得所述计算机执行所述的目标对象识别模型的训练方法或目标对象的识别方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种目标对象识别模型的训练方法，其特征在于，包括：

将带有目标对象的图像区域进行预处理操作得到预处理图像，所述图像区域为带有文字的文字行，所述图像区域为矩形，所述预处理操作包括：旋转处理和偏移处理，所述旋转处理为以所述矩形的轴心为旋转中心将所述矩形随机旋转一个角度，得到文字相对水平轴有偏移的文字行，所述偏移处理为将所述文字行中的四个点进行随机的移动，以使所述图像区域产生形变，而图像区域中的文字也随之发生形变，之后再经过仿射变换将偏移后的四边形矫正为矩形，得到带有形变效果的文字行；

将所述预处理图像输入目标对象识别模型进行识别操作得到所述目标对象的识别结果，其中，所述目标对象识别模型为神经网络所述神经网络为CRNN网络，其中所述CRNN网络包括CNN层、RNN层以及翻译层，其中所述CNN层用于学习所述预处理图像中的图像特征，所述RNN层使用LSTM网络实现，用于学习文字的前后文关系，所述翻译层使用CTC实现，输出识别结果和计算损失函数，在CTC层，根据输出识别结果计算损失函数的值，根据所述损失函数的值反向传播更新所述目标对象识别模型中的卷积核中的权重值和偏置值；

响应于所述识别结果为识别错误，调整所述预处理操作以及所述目标对象识别模型的参数；

继续对所述带有目标对象的图像区域进行预处理操作以及识别操作直至所述识别结果为识别正确。

2.如权利要求1所述的目标对象识别模型的训练方法，其特征在于，在所述将带有目标对象的图像区域进行预处理操作得到预处理图像之前还包括：

输入原始图像；

3.如权利要求1所述的目标对象识别模型的训练方法，其特征在于，所述预处理操作还包括：噪声处理以及融合处理中的至少一个；

其中，所述噪声处理为在所述图像区域上随机增加噪声；所述融合处理为将所述图像区域与无目标对象的图片进行融合。

4.如权利要求1所述的目标对象识别模型的训练方法，其特征在于，所述将所述预处理图像输入目标对象识别模型进行识别操作得到所述目标对象的识别结果，包括：

5.如权利要求1所述的目标对象识别模型的训练方法，其特征在于，所述识别结果为识别错误，所述调整所述预处理操作以及所述目标对象识别模型的参数，包括：

获取得到所述预处理图像的预处理操作的类型；

增加所述类型的预处理操作数量；

计算所述目标对象识别模型的识别误差；

根据所述识别误差调整目标对象识别模型中提取所述预处理图像的特征所用的参数。

6.如权利要求1所述的目标对象识别模型的训练方法，其特征在于，所述将所述预处理图像输入目标对象识别模型进行识别操作得到所述目标对象的识别结果，包括：

将所述预处理图像输入目标对象识别模型；

7.如权利要求6所述的目标对象识别模型的训练方法，其特征在于，所述预处理图像为文字行图像，所述目标对象为所述文字行图像中的单个文字。

8.一种目标对象的识别方法，包括：

将包括有目标对象的图像输入目标对象识别模型；

根据所述目标对象识别模型的输出得到所述目标对象的识别结果；其中，所述目标对象识别模型由权利要求1-7中任一项所述的目标对象识别模型的训练方法训练得到。

9.一种目标对象识别模型的训练装置，包括：

预处理模块，用于将带有目标对象的图像区域进行预处理操作得到预处理图像，所述图像区域为带有文字的文字行，所述图像区域为矩形，所述预处理操作包括：旋转处理和偏移处理，所述旋转处理为以所述矩形的轴心为旋转中心将所述矩形随机旋转一个角度，得到文字相对水平轴有偏移的文字行，所述偏移处理为将所述文字行中的四个点进行随机的移动，以使所述图像区域产生形变，而图像区域中的文字也随之发生形变，之后再经过仿射变换将偏移后的四边形矫正为矩形，得到带有形变效果的文字行；

识别结果获取模块，用于将所述预处理图像输入目标对象识别模型进行识别操作得到所述目标对象的识别结果，其中，所述目标对象识别模型为神经网络所述神经网络为CRNN网络，其中所述CRNN网络包括CNN层、RNN层以及翻译层，其中所述CNN层用于学习所述预处理图像中的图像特征，所述RNN层使用LSTM网络实现，用于学习文字的前后文关系，所述翻译层使用CTC实现，输出识别结果和计算损失函数，在CTC层，根据输出识别结果计算损失函数的值，根据所述损失函数的值反向传播更新所述目标对象识别模型中的卷积核中的权重值和偏置值；

调整模块，用于响应于所述识别结果为识别错误，调整所述预处理操作以及所述目标对象识别模型的参数；

循环处理模块，用于继续对所述目标对象进行预处理操作以及识别操作直至所述识别结果为识别正确。

10.一种目标对象的识别装置，包括：

识别模块，用于根据所述目标对象识别模型的输出得到所述目标对象的识别结果；其中，所述目标对象识别模型由权利要求1-7中任一项所述的目标对象识别模型的训练方法训练得到。

11.一种电子设备，包括：

存储器，用于存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，使得所述处理器运行时实现根据权利要求1-7中任意一项所述的目标对象识别模型的训练方法或权利要求8所述的目标对象的识别方法。

12.一种非暂态计算机可读存储介质，用于存储计算机可读指令，当所述计算机可读指令由计算机执行时，使得所述计算机执行权利要求1-7中任意一项所述的目标对象识别模型的训练方法或权利要求8所述的目标对象的识别方法。