CN114511041B

CN114511041B - 模型训练方法、图像处理方法、装置、设备和存储介质

Info

Publication number: CN114511041B
Application number: CN202210338911.XA
Authority: CN
Inventors: 马城宽; 冀志龙
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2022-07-22
Anticipated expiration: 2042-04-01
Also published as: CN114511041A

Abstract

本公开涉及一种模型训练方法、图像处理方法、装置、设备和存储介质。模型训练方法包括：获取目标图像，并对目标图像进行增强，得到第一增强图像，随后将目标图像和第一增强图像进行拼接，并将拼接后的图像输入到预先构建的神经网络模型中，得到第一预测图像，根据上述拼接后的图像对应的第一标记图像和第一预测图像计算第一损失值，根据第一预测图像计算第二损失值，随后根据第一损失值和第二损失值更新神经网络模型的网络参数。本公开提供的方法能够提高模型的准确性，同时还能提升模型的泛化能力。

Description

模型训练方法、图像处理方法、装置、设备和存储介质

技术领域

本公开涉及机器学习技术领域，尤其涉及一种模型训练方法、图像处理方法、装置、设备和存储介质。

背景技术

随着互联网技术的发展，机器学习被广泛应用在图像处理领域，通常是利用大量图像样本对深度学习模型进行训练，以使得训练后的模型能够更好的实现检测识别等功能。但是，对于训练具有文本识别的模型来说，获取的图像清晰度差异比较大，特别是低照度图像和模糊图像中文本纹理不清晰，难以识别文本的特征，导致获得的训练样本数量有限，使得模型训练过程中由于样本无法覆盖所有的场景，得到的模型存在准确度和泛化能力差的问题，也无法适用于不同的场景。

发明内容

为了解决上述技术问题，本公开提供了一种模型训练方法、图像处理方法、装置、设备和存储介质，能够提高模型的准确性，同时还能提升模型的泛化能力。

根据本公开的一方面，提供了一种模型训练方法，包括：

获取目标图像，并对目标图像进行增强，得到第一增强图像；

将目标图像和第一增强图像进行拼接，并将拼接后的图像输入到预先构建的神经网络模型中得到第一预测图像；

根据拼接后的图像对应的第一标记图像和第一预测图像计算第一损失值；

根据第一预测图像计算第二损失值；

根据第一损失值和第二损失值更新神经网络模型的网络参数。

根据本公开的另一方面，提供了一种图像处理方法，包括：

获取待分割图像；

将待分割图像输入到上述的神经网络模型中，得到分割图像。

根据本公开的另一方面，提供了一种模型训练装置，其特征在于，包括：

获取单元，用于获取目标图像，并对目标图像进行增强，得到第一增强图像；

输入单元，用于将目标图像和第一增强图像进行拼接，并将拼接后的图像输入到预先构建的神经网络模型中得到第一预测图像；

第一计算单元，用于根据拼接后的图像对应的第一标记图像和第一预测图像计算第一损失值；

第二计算单元，用于根据第一预测图像计算第二损失值；

更新单元，用于根据第一损失值和第二损失值更新神经网络模型的网络参数。

根据本公开的另一方面，提供了一种图像处理装置，其特征在于，包括：

获取单元，用于获取待分割图像；

处理单元，用于将待分割图像输入到上述的模型训练装置中，得到分割图像。

根据本公开的另一方面，提供了一种电子设备，电子设备包括：处理器；以及存储程序的存储器，其中，程序包括指令，指令在由处理器执行时使处理器执行上述模型训练方法，或者执行上述图像处理方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使所述计算机执行上述模型训练方法，或者执行上述图像处理方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述模型训练方法，或者实现上述图像处理方法。

本公开实施例提供了一种模型训练方法、图像处理方法、装置、设备和存储介质。模型训练方法包括：获取目标图像，并对目标图像进行增强，得到第一增强图像，随后将目标图像和第一增强图像进行拼接，并将拼接后的图像输入到预先构建的神经网络模型中，得到第一预测图像，根据上述拼接后的图像对应的第一标记图像和第一预测图像计算第一损失值，根据第一预测图像计算第二损失值，随后根据第一损失值和第二损失值更新神经网络模型的网络参数。本公开提供的方法能够提高模型的准确性，同时还能提升模型的泛化能力。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种模型训练方法的流程示意图；

图2为本公开实施例提供的一种应用场景的示意图；

图3为本公开实施例提供的一种图像示意图；

图4为本公开实施例提供的另一种模型训练方法的流程示意图；

图5为本公开实施例提供的另一种图像示意图；

图6为本公开实施例提供的一种图像处理方法的流程示意图；

图7为本公开实施例提供的一种模型训练装置的结构示意图；

图8为本公开实施例提供的一种图像处理装置的结构示意图；

图9为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

目前，在对文本进行识别的应用场景中，图像文本行定位是进行文本识别和内容理解的前置环节，文本行的检测精度直接影响到后续识别任务的处理效果。在识别图像中的文字时，拍照获取的图像清晰度差异大，特别是低照度图像和模糊图像中文本纹理不清晰，无法准确辨别文本行的特征，上述问题直接增大了对文本行定位和分类的难度。因此，探索提升对不同清晰度图片特别是模糊图片的文本行检测能力具有重要价值。

随着机器学习的广泛应用，可以通过深度学习来对文本进行检测，深度学习的文本检测模型可以分为两大类：基于预设框的回归方法和基于像素分割方法，典型的如Faster RCNN、DBNet等；分割方法采用像素分类的方式，对文本进行密集预测，通过特殊的后处理策略提取出文本实例。这两类方法都是基于有监督的深度学习训练策略，但是，当训练模型的样本图像有限时，训练后的模型不可避免的存在泛化能力差的问题，导致识别精度比较差。在特定的应用场景下，模型训练过程中由于样本无法覆盖所有的场景，为了降低模型对不同场景的敏感性，训练时会应用数据增强策略(Data Augmentation)，来扩大数据覆盖范围，但是，只采用数据增强方法可能造成预测结果不准确。

针对上述问题，本公开提供一种模型训练方法，具体通过如下做个实施例进行说明。图1为本公开实施例提供的一种模型训练方法的流程示意图，包括如图1所示的如下步骤S110至S150：

S110、获取目标图像，并对目标图像进行增强，得到第一增强图像。

示例性的，参见图2，图2为本公开实施例提供的一种应用场景的示意图，模型训练方法可以由终端21或服务器22来执行。一种可能的应用场景，服务器22从终端21中获取目标图像，并基于目标图像对神经网络模型进行训练，该目标图像可以是终端21拍摄获得的。或者，该目标图像是终端21从其他设备中获取的。再或者，该目标图像是终端21对预设图像进行图像处理后得到的图像，该预设图像可以是终端21拍摄获得的，或者该预设图像可以是终端21从其他设备中获取的。此处，并不对其他设备做具体限定。在另一种应用场景中，服务器22自行获取目标图像，并基于目标图像对神经网络模型进行训练，服务器12获取目标图像的方式可以类似于如上所述的终端21获取目标图像的方式，此处不再赘述。可以理解的是，本公开实施例提供的神经网络模型训练方法并不限于如上所述的几种可能场景。下面以服务器22训练神经网络模型为例对神经网络模型训练方法进行详细说明。可以理解的是，该神经网络模型训练方法同样适用于终端21训练神经网络模型的场景中。

可理解的，服务器获取目标图像，目标图像可以是包括多行文本的图像，文本可以是直文本、弯曲文本和斜文本，目标图像中文本的形式不作限定。具体的，服务器可以依次获取多个目标图像，随后对获取的每个图像进行图像增强处理，得到第一增强图像，第一增强图像为增强后的图像，图像增强方法包括色彩数据增强和随即尺度变换增强，图像增强方法不作限定。

可选的，对目标图像进行增强，得到第一增强图像，包括：获取多个色彩数据增强方法；根据第一预设概率在多个色彩数据增强方法中确定第一增强方法；基于第一增强方法对目标图像进行增强，得到第一增强图像，第一增强图像和目标图像大小相同。

可理解的，对目标图像进行增强，得到第一增强图像，具体包括如下流程：以色彩数据增强方法为例进行说明，获取多个色彩数据增强方法，其中多个色彩数据增强方法中包括多种具体方法，例如对比度增强、高斯滤波增强、运动模糊增强和颜色通道增强等。随后根据第一预设概率在上述多个色彩数据增强方法中选取至少一种增强方法，作为第一增强方法，第一预设概率的范围可以是[0.1，0.3]，在第一预设概率的范围内随机确定一个概率值，根据该概率值在上述色彩数据增强方法中确定至少一个增强方法，例如对比度增强对应的概率范围是[0.1,0.15]、高斯滤波增强对应的概率范围是[0.15,0.2]、运动模糊增强对应的概率范围是[0.2,0.25]、颜色通道增强对应的概率范围是[0.25,0.3],例如，当随机选取的第一预设概率为0.15时，选择对比度增强和高斯滤波增强作为第一增强方法，当随机选取的第一预设概率为0.3时，选择颜色通道增强作为第一增强方法；确定第一增强方法之后，采用第一增强方法对目标图像进行增强，得到第一增强图像，其中第一增强图像和目标图像尺寸大小相同，也就是第一增强图像和目标图像的高宽相同，增强方法不改变图像的大小。可理解的是，若获取多个目标图像，可以将多个目标图像划分为多个训练集，每个训练集包括多个目标图像，为每个训练集随机选定一个第一预设概率，多个训练集之间可能会选定同一个第一预设概率和同一个第一增强方法，随后该训练集内的所有目标图像均基于同一个第一预设概率确定的第一增强方法进行数据增强。

S120、将目标图像和第一增强图像进行拼接，并将拼接后的图像输入到预先构建的神经网络模型中得到第一预测图像。

可理解的，在上述S110的基础上，将目标图像和第一增强图像进行拼接作为训练集，具体的目标图像和第一增强图像可以上下拼接，也可以左右拼接，也就是可以按照高度或宽度的方向进行拼接。可理解的是，每次对模型进行训练时，作为样本的训练集中包括的拼接后的图像的尺寸相同，也就是每个训练集中目标图像和第一增强图像的拼接方向是相同。随后将拼接后的图像输入到构建的神经网络模型中，输出拼接后的图像对应的第一预测图像，第一预测图像可以理解为拼接后的图像的分割图像，例如分割后的文本图像。神经网络模型可以是由机器学习相关网络构建的，具体网络架构方法不作限定，例如网络架构中包括卷积层、池化层和全连接层等。

可选的，将目标图像和第一增强图像进行拼接，具体包括：将目标图像和第一增强图像按照第一预设方向进行拼接；根据目标图像对应的标记结果和第一预设方向，得到拼接后的图像对应的第一标记图像。

可理解的，将目标图像和第一增强图像进行拼接，具体包括如下流程：将目标图像和第一增强图像按照第一预设方向进行拼接，第一预设方向可以是高度方向或者宽度方向，以第一预设方向是高度方向为例进行说明，也就是将目标图像和第一增强图像沿着高度方向进行拼接。随后将目标图像对应的标记结果同样沿着高度方向进行平移，以实现对采用第一增强方法进行增强的第一增强图像进行标记，平移的距离为目标图像的高度。可理解的是，第一增强图像只是对图像进行增强处理，没有改变图像的内容，因此可以直接通过将目标图像对应的标记结果沿着高度方向平移即可得到第一增强图像的标记图像，目标图像的标记图像和第一增强图像的标记图像拼接后得到的图像记为第一标记图像，也就是得到拼接后的图像对应的标记图像，目标图像对应的标注结果可以理解为准确的文本分割结果，第一标记图像为拼接后的图像的准确的文本分割结果图。

示例性的，参见图3，图3为本公开实施例提供的一种图像示意图，图3中包括拼接后的图像310、第一标记图像320和神经网络模型输出的第一预测图像330，拼接后的图像310中包括目标图像311和第一增强图像312，目标图像311和第一增强图像312沿着高度方向进行拼接得到拼接后的图像310，第一标记图像320包括目标图像的标记图像321和第一增强图像的标记图像322，第一标记图像320为文本分割图像，第一标记图像320中黑色框表示文本行的分割区域，目标图像的标记图像321可以是手动标记的，也可以是通过标记工具自动标记的，具体标记方式不做限定，第一增强图像的标记图像322是由目标图像的标记图像321的标注结果沿着高度方向平移得到的，平移的距离为目标图像321的高度。

S130、根据拼接后的图像对应的第一标记图像和第一预测图像计算第一损失值。

可理解的，在上述S120的基础上，根据拼接后的图像对应的第一标记图像和第一预测图像计算第一损失值，第一标记图像为准确的文本分割图像，作为模型的目标，以使得训练后的模型输出的第一预测图像能够最大程度上和第一标记图像相同，训练得到的模型的准确率就比较高。将第一标记图像和第一预测图像作为第一损失函数的输入，得到第一损失值。第一损失函数的公式如下述公式（1）所示。

公式（1）

其中，SigmoidLoss记为第一损失值，y_i为神经网络模型输出的第一预测图像的像素值，

为第一标记图像的像素值，

为拼接后的图像上像素点的总数量，神经网络模型会输出像素值的预测结果记为x_i，随后通过sigmoid函数将像素值归一化到0~1的范围内得到y_i，sigmoid函数为

。

S140、根据第一预测图像计算第二损失值。

可选的，上述根据第一预测图像计算第二损失值，具体包括：基于第一预设方向将第一预测图像划分为第一预测子图像和第二预测子图像；根据第一预测子图像和第二预测子图像计算第二损失值。

可理解的，在上述S130的基础上，根据神经网络模型输出的第一预测图像计算第二损失值，将第一预测图像划分为第一预测子图像和第二预测子图像，其中，第一预测子图像为目标图像对应的预测图像，第二预测子图像为第一增强图像对应的预测图像，示例性的，参见图3中第一预测图像330，第一预测图像330中包括第一预测子图像331和第二预测子图像332。将第一预测子图像和第二预测子图像输入到第二损失函数中，得到第二损失值，第二损失函数可以是对比损失函数，通过对比损失函数来计算图像增强前后模型输出的预测图像的差异，在当前神经网络模型训练的迭代中增加显式约束，使得增强前后图像对应的预测结果具有一致性，也就是增加目标图像和第一增强图像分别对应的预测结果的一致性，从而提升了神经网络模型预测的鲁棒性。其中，第二损失函数如下述公式（2）所示。

公式（2）

其中，CSLoss为第二损失值，N为目标图像像素点总数量，

为第一预测子图像，

为第二预测子图像。

S150、根据第一损失值和第二损失值更新神经网络模型的网络参数。

可理解的，在上述S130和S140的基础上，得到第一损失值和第三损失值之后，将第一损失值和第二损失值作为总损失函数的输入，得到最终的损失值，通过最终的损失值来更新神经网络模型中各网络层级的网络参数。其中，总损失函数的公式如下述公式（3）所示。

公式（3）

其中，Loss为最终的损失值，

为权重，取值范围为0.1至0.2。

本公开实施例提供了一种模型训练方法，在神经网络模型的训练过程中，以一定的概率对训练的目标图像进行色彩数据增强，并将增强后的图像与目标图像拼接为一个新的图像，将拼接后的图像输入到神经网络模型中进行训练，输出预测图像，随后根据预测图像和拼接后的图像对应的标记图像计算损失值，在通过损失函数计算损失值时，利用交叉熵计算预测图像和标记图像之间的第一损失值，利用对比损失函数计算增强前后的图像各自对应的预测图像的差异，通过添加对比损失函数来计算图像增强前后对应的预测图像之间的差异，能够在当前神经网络模型训练的迭代过程中增加显式约束，建立增强前后图像对应的预测结果的一致性，也就是增加目标图像和增强图像分别对应的预测结果的一致性，从而提升神经网络模型预测的鲁棒性，进一步提高识别率。

在上述实施例基础上，图4为本公开实施例提供的另一种模型训练方法的流程示意图，具体包括如图4所示的如下步骤S410至S440：

S410、对目标图像进行增强，得到第二增强图像。

可理解的，服务器获取到目标图像后，通过另一种方法对目标图像进行增强，得到第二增强图像，另一种方法可以选择随机尺度变换方法，利用随机尺度变换方法对目标图像进行增强，得到第二增强图像，其中，第二增强图像的大小和目标图像的大小相同，便于后续进行拼接。

可选的，上述对目标图像进行第二增强，得到第二增强图像，具体包括：基于第二预设概率对目标图像进行随机尺度变换，得到变换图像；若变换图像的尺度大于或等于目标图像的尺度，则将变换图像确定为第二增强图像，并将尺度小于变换图像的目标图像进行边界填充；若变换图像的尺度小于目标图像的尺度，则将变换图像的边界进行填充，并将填充后的变换图像确定为第二增强图像。

可理解的，得到第二增强图像的方法具体包括如下步骤：获取预先确定的第二预设概率的范围，在范围内随机确定第二预设概率的值，第二预设概率的范围可以是0.1至0.2，第二预设概率为0.1至0.2的随机数；确定第二预设概率后，根据第二预设概率确定尺度因子，以尺度因子对目标图像进行随机尺度变换，尺度因子记为e，即将目标图像进行e倍缩小或放大得到变换图像，尺度因子为第二预设概率对应的值，尺度因子的范围为0.8至1.2，在预设范围内每个第二预设概率均会对应一个尺度因子；获取变化图像的尺寸大小，若变换图像的尺度大于或等于目标图像的尺度，也就是对目标图像进行放大后得到的变换图像，此时可以将变换图像直接确定为第二增强图像，并将尺度小于变换图像的目标图像进行边界填充，使得填充后的目标图像的尺寸和变换图像的尺寸相同；若变换图像的尺度小于目标图像的尺度，也就是对目标图像进行缩小后得到的变换图像，此时可以直接则将变换图像的边界进行填充，使得填充后的变换图像的尺寸和目标图像的尺寸相同，随后将填充后的变换图像确定为第二增强图像。

示例性的，参见图5，图5为本公开实施例提供的另一种图像示意图，图5中包括拼接后的图像510、拼接后的图像对应的第二标记图像520和神经网络模型输出的第二预测图像530，其中拼接后的图像510中包括目标图像511和第二增强图像512，第二增强图像512为对目标图像511进行随即尺度变换和填充得到的，具体的，第二增强图像512是通过对目标图像511进行缩小和边界填充至目标图像的尺度后得到的。

S420、将目标图像和第二增强图像进行拼接，并将拼接后的图像输入到神经网络模型中得到第二预测图像。

可理解的，在上述S410的基础上，得到第二增强图像后，将第二增强图像和目标图像进行拼接，可以沿着目标图像高度方向进行拼接，得到拼接后的图像。例如，图5中的拼接后的图像510；随后将拼接后的图像输入到神经网络模型中，得到该拼接后的图像对应的第二预测图像。可理解的是，该神经网络模型可以是上述通过色彩数据增强后的图像训练得到的模型，也可以是没有经过训练的模型，色彩数据增强方法和随机尺度变化方法可以独自训练神经网络模型，例如为了增强模型的泛化能力使用上述色彩数据增强方法对应的流程对神经网络模型进行训练，还可以采用色彩数据增强方法和随机尺度变化方法来联合训练神经网络模型，联合训练时采用不同方法的先后顺序不作限定，可以通过色彩数据增强后的图像训练得到第一神经网络模型，随后再采用随机尺度变换增强后的图像对第一神经网络模型进行训练，得到最后的神经网络模型。

S430、根据拼接后的图像对应的第二标记图像和第二预测图像计算第三损失值。

可理解的，在上述S420的基础上，将目标图像的标注结果按照尺度因子进行缩放后沿着高度方向进行平移得到第二增强图像对应的标注结果，该尺度因子为生成第二增强图像的尺度因子，根据目标图像的标注结果和第二增强图像对应的标注结果得到拼接后的图像对应的第二标记图像；获得第二标注图像之后，将第二标注图像和第二预测图像输入到损失函数中计算第三损失值，该损失函数可以是上述公式（1）的损失函数，在此不作赘述。

S440、根据第三损失值更新神经网络模型的网络参数。

可理解的，在上述S430的基础上，根据计算得到的第三损失值更新神经网络模型各层级的网络参数，得到训练后的神经网络模型。

可理解的是，本公开实施例提供的神经网络模型训练方法还可以同时用于回归方法和分割方法，通过显示约束当前迭代步中增强前后图像的预测结果的一致性，提升模型的泛化能力，改善模糊、拖影、复杂场景下预测结果的鲁棒性，使得训练后的模型可以应用在多种场景下，普适性比较好。

本公开实施例提供了一种模型训练方法，以一定概率将目标图像进行尺度变换，也就是对目标图像进行放大或缩小，生成第二增强图像，随后将目标图像或第二增强图像中尺寸较小的图像进行填充，并填充到相同尺度后沿着高度方向进行拼接，将拼接后的图片输入到预先构建的神经网络模型中进行训练，能够提升神经网络模型训练时不同尺度图像中文本检测的性能，且在当前模型训练的迭代步中，同时将缩放前后不同尺度的图像进行训练，有效提升了模型对尺度的平移不变性，也提升了模型对多尺度图像的适应性，能够最大限度的适用于多种场景。

在上述实施例的基础上，图6为本公开实施例提供的一种图像处理方法的流程示意图，应用于上述训练完成的神经网络模型，具体包括如图6所示的如下步骤610至S620：

S610、获取待分割图像。

具体的，图像处理方法可以由终端或服务器来执行。具体的，终端或服务器可以通过神经网络模型对目标图像进行分割处理。神经网络模型的训练方法的执行主体和图像处理方法的执行主体可以相同，也可以不同。例如，在一种应用场景中，如图2所示，服务器22对神经网络模型进行训练，终端21从服务器22获取训练完成的神经网络模型，终端21通过该训练完成的神经网络模型对目标图像进行分割处理。下述以终端执行图像处理方法为例进行说明。

可理解的，终端获取待分割的图像，待分割的图像可以是包括文本的图像，还可以是包括其他待分割内容的图像，在此不作限定。

S620、将待分割图像输入到上述的神经网络模型中，得到分割图像。

可理解的，在上述S610的基础上，终端获取到待分割图像后，将待分割图像输入到上述训练完成的神经网络模型中，输出针对文本的分割图像，例如上述图5中预测图像530的分割图像。

可理解的，得到文本的分割图像后，还可以根据分割图像识别出文本行内的字符，进行字符识别。

本公开实施例提供了一种图像处理方法，提供获取待分割图像，将待分割图像输入到上述的神经网络模型中，得到分割图像，能够准确的分割出文本行，分割精度比较高，也便于后续进行字符识别。

在上述实施例的基础上，图7为本公开实施例提供的一种模型训练装置的结构示意图，本公开实施例提供的模型训练装置可以执行模型训练方法实施例提供的处理流程，如图7所示，模型训练装置700包括：

获取单元710，用于获取目标图像，并对目标图像进行增强，得到第一增强图像；

输入单元720，用于将目标图像和第一增强图像进行拼接，并将拼接后的图像输入到预先构建的神经网络模型中得到第一预测图像；

第一计算单元730，用于根据拼接后的图像对应的第一标记图像和第一预测图像计算第一损失值；

第二计算单元740，用于根据第一预测图像计算第二损失值；

更新单元750，用于根据第一损失值和第二损失值更新神经网络模型的网络参数。

可选的，获取单元710中对目标图像进行增强，得到第一增强图像，具体用于：

获取多个色彩数据增强方法；

根据第一预设概率在多个色彩数据增强方法中确定第一增强方法；

基于第一增强方法对目标图像进行增强，得到第一增强图像，第一增强图像和目标图像大小相同。

可选的，输入单元720中将目标图像和第一增强图像进行拼接，具体用于：

将目标图像和第一增强图像按照第一预设方向进行拼接；

根据目标图像对应的标记结果和第一预设方向，得到拼接后的图像对应的第一标记图像。

可选的，第二计算单元740中根据第一预测图像计算第二损失值，具体用于：

基于第一预设方向将第一预测图像划分为第一预测子图像和第二预测子图像；

根据第一预测子图像和第二预测子图像计算第二损失值。

可选的，装置700还包括增强单元，增强单元用于获取目标图像后，具体用于：

对目标图像进行增强，得到第二增强图像；

将目标图像和第二增强图像进行拼接，并将拼接后的图像输入到神经网络模型中得到第二预测图像；

根据拼接后的图像对应的第二标记图像和第二预测图像计算第三损失值；

根据第三损失值更新神经网络模型的网络参数。

可选的，增强单元中第二增强图像的大小和目标图像的大小相同。

可选的，增强单元中对目标图像进行第二增强，得到第二增强图像，具体用于：

基于第二预设概率对目标图像进行随机尺度变换，得到变换图像；

若变换图像的尺度大于或等于目标图像的尺度，则将变换图像确定为第二增强图像，并将尺度小于变换图像的目标图像进行边界填充；

若变换图像的尺度小于目标图像的尺度，则将变换图像的边界进行填充，并将填充后的变换图像确定为第二增强图像。

图7所示实施例的模型训练装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

在上述实施例的基础上，图8为本公开实施例提供的一种图像处理装置的结构示意图，本公开实施例提供的图像处理装置可以执行图像处理方法实施例提供的处理流程，如图8所示，图像处理装置800包括：

获取单元810，用于获取待分割图像；

处理单元820，用于将待分割图像输入到上述模型训练装置700中，得到分割图像。

图8所示实施例的图像处理装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。存储器存储有能够被至少一个处理器执行的计算机程序，计算机程序在被至少一个处理器执行时用于使电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图9，现将描述可以作为本公开的服务器或客户端的电子设备900的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，电子设备900包括计算单元901，其可以根据存储在只读存储器（ROM）902中的计算机程序或者从存储单元908加载到随机访问存储器（RAM）903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出（I/O）接口905也连接至总线904。

电子设备900中的多个部件连接至I/O接口905，包括：输入单元906、输出单元907、存储单元908以及通信单元909。输入单元906可以是能向电子设备900输入信息的任何类型的设备，输入单元906可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元907可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元904可以包括但不限于磁盘、光盘。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理。例如，在一些实施例中，文本识别方法或识别网络的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到电子设备900上。在一些实施例中，计算单元901可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行文本识别方法或识别网络的训练方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种模型训练方法，其特征在于，包括：

获取目标图像，并对所述目标图像进行增强，得到第一增强图像；

将所述目标图像和所述第一增强图像按照第一预设方向进行拼接，并将拼接后的图像输入到预先构建的神经网络模型中得到第一预测图像；

根据所述拼接后的图像对应的第一标记图像和所述第一预测图像计算第一损失值；

基于所述第一预设方向将所述第一预测图像划分为第一预测子图像和第二预测子图像，并根据所述第一预测子图像、所述第二预测子图像和所述目标图像的像素点计算第二损失值；

基于预设权重，计算所述第一损失值和所述第二损失值的和值，并根据所述和值更新所述神经网络模型的网络参数。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标图像进行增强，得到第一增强图像，包括：

获取多个色彩数据增强方法；

根据第一预设概率在所述多个色彩数据增强方法中确定第一增强方法；

基于所述第一增强方法对所述目标图像进行增强，得到第一增强图像，所述第一增强图像和所述目标图像大小相同。

3.根据权利要求1所述的方法，其特征在于，所述将所述目标图像和所述第一增强图像进行拼接，包括：

根据所述目标图像对应的标记结果和所述第一预设方向，得到拼接后的图像对应的第一标记图像。

4.根据权利要求1所述的方法，其特征在于，所述获取目标图像后，所述方法还包括：

对所述目标图像进行增强，得到第二增强图像；

将所述目标图像和所述第二增强图像进行拼接，并将拼接后的图像输入到所述神经网络模型中得到第二预测图像；

根据所述拼接后的图像对应的第二标记图像和所述第二预测图像计算第三损失值；

根据所述第三损失值更新所述神经网络模型的网络参数。

5.根据权利要求4所述的方法，其特征在于，所述第二增强图像的大小和所述目标图像的大小相同；

所述对所述目标图像进行第二增强，得到第二增强图像，包括：

基于第二预设概率对所述目标图像进行随机尺度变换，得到变换图像；

若所述变换图像的尺度大于或等于所述目标图像的尺度，则将所述变换图像确定为第二增强图像，并将尺度小于所述变换图像的目标图像进行边界填充；

若所述变换图像的尺度小于所述目标图像的尺度，则将所述变换图像的边界进行填充，并将填充后的变换图像确定为第二增强图像。

6.一种图像处理方法，其特征在于，包括：

获取待分割图像；

将所述待分割图像输入到权利要求1至5中任一所述的神经网络模型中，得到分割图像。

7.一种模型训练装置，其特征在于，包括：

获取单元，用于获取目标图像，并对所述目标图像进行增强，得到第一增强图像；

输入单元，用于将所述目标图像和所述第一增强图像按照第一预设方向进行拼接，并将拼接后的图像输入到预先构建的神经网络模型中得到第一预测图像；

第一计算单元，用于根据所述拼接后的图像对应的第一标记图像和所述第一预测图像计算第一损失值；

第二计算单元，用于基于所述第一预设方向将所述第一预测图像划分为第一预测子图像和第二预测子图像，并根据所述第一预测子图像、所述第二预测子图像和所述目标图像的像素点计算第二损失值；

更新单元，用于基于预设权重，计算所述第一损失值和所述第二损失值的和值，并根据所述和值更新所述神经网络模型的网络参数。

8.一种图像处理装置，其特征在于，包括：

获取单元，用于获取待分割图像；

处理单元，用于将所述待分割图像输入到权利要求7所述的模型训练装置中，得到分割图像。

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至5中任一所述的模型训练方法，或者执行根据权利要求6所述的图像处理方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1至5中任一所述的模型训练方法，或者执行根据权利要求6所述的图像处理方法。