CN118279916A

CN118279916A - 文本定位模型训练方法及电子设备

Info

Publication number: CN118279916A
Application number: CN202211733408.0A
Authority: CN
Inventors: 张士林; 宋敬彬; 李文鹏
Original assignee: Qingdao Juhaolian Technology Co ltd
Current assignee: Qingdao Juhaolian Technology Co ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2024-07-02

Abstract

本申请公开了一种文本定位模型训练方法及电子设备，属于深度学习技术领域。所述方法包括：获取训练集，将多个训练图像输入至待训练的文本定位模型，以得到每个训练图像包括的预测框，基于每个训练图像包括的真实框的位置和长宽比、以及每个训练图像包括的预测框的位置，确定每个文本区域的真实框与预测框之间的损失值，基于每个文本区域对应的真实框与预测框之间的损失值，对文本定位模型中的参数进行调整，以实现文本定位模型的训练。这样，能够保证最终训练得到的文本定位模型能够实现对长宽比较大的文本区域定位，并且定位的准确性更高，从而有效提升文本检测的准确性。

Description

文本定位模型训练方法及电子设备

技术领域

本申请涉及深度学习技术领域，特别涉及一种文本定位模型训练方法及电子设备。

背景技术

文本作为最具有表现力的信息表达方式，记录着人类多彩的科技文化。随着图像技术的发展，对图像进行文本检测已在生活中得到了广泛应用，如车牌识别等等。

然而，传统的文本检测技术在定位文本区域时，只能定位出长宽比较小的文本区域，对于长宽比较大的文本区域(如身份证中的文本区域)定位的准确性较低，而文本区域定位准确是文本检测准确的前提，文本区域定位的准确性降低会导致文本检测的准确性下降。

发明内容

本申请提供了一种文本定位模型训练方法及电子设备，可以解决相关技术中对长宽比较大的文本区域定位的准确性不高问题。所述技术方案如下：

一方面，提供了一种文本定位模型训练方法，所述方法包括：

获取训练集，所述训练集包括多个训练图像，每个训练图像中的文本区域的长宽比大于长宽比阈值，每个训练图像包括真实框，所述真实框指示相应训练图像中的文本区域的真实位置；

将所述多个训练图像输入至待训练的文本定位模型，以得到每个训练图像包括的预测框，所述预测框指示相应训练图像中的文本区域的预测位置；

基于每个训练图像包括的真实框的位置和长宽比、以及每个训练图像包括的预测框的位置，确定每个文本区域的真实框与预测框之间的损失值；

基于每个文本区域对应的真实框与预测框之间的损失值，对所述文本定位模型中的参数进行调整，以实现所述文本定位模型的训练。

另一方面，提供了一种电子设备，所述电子设备包括处理器，所述处理器用于：

另一方面，提供了一种文本定位模型训练装置，所述装置包括：

获取模块，用于获取训练集，所述训练集包括多个训练图像，每个训练图像中的文本区域的长宽比大于长宽比阈值，每个训练图像包括真实框，所述真实框指示相应训练图像中的文本区域的真实位置；

输入模块，用于将所述多个训练图像输入至待训练的文本定位模型，以得到每个训练图像包括的预测框，所述预测框指示相应训练图像中的文本区域的预测位置；

确定模块，用于基于每个训练图像包括的真实框的位置和长宽比、以及每个训练图像包括的预测框的位置，确定每个文本区域的真实框与预测框之间的损失值；

调整模块，用于基于每个文本区域对应的真实框与预测框之间的损失值，对所述文本定位模型中的参数进行调整，以实现所述文本定位模型的训练。

另一方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述所述文本定位模型训练方法的步骤。

另一方面，提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使得计算机执行上述所述的文本定位模型训练方法的步骤。

本申请提供的技术方案至少可以带来以下有益效果：

由于本申请中的每个训练图像中的文本区域的长宽比大于长宽比阈值，并且还能够基于每个训练图像包括的真实框的位置和长宽比，确定每个文本区域的真实框与预测框之间的损失值，进而基于每个文本区域对应的真实框与预测框之间的损失值，对文本定位模型进行训练，这样，能够保证最终训练得到的文本定位模型能够实现对长宽比较大的文本区域定位，并且定位的准确性更高，从而有效提升文本检测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种文本定位模型训练方法的流程图；

图2是本申请实施例提供的一种注意力网络的示意图；

图3是本申请实施例提供的一种真实框与预测框的示意图；

图4是本申请实施例提供的一种真实框与预测框之间的损失值的示意图；

图5是本申请实施例提供的另一种真实框与预测框之间的损失值的示意图；

图6是本申请实施例提供的另一种文本定位模型训练方法的流程图；

图7是本申请实施例提供的一种文本定位模型训练装置的结构示意图；

图8是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的文本定位模型训练方法进行详细地解释说明之前，先对本申请实施例涉及的应用场景和实施环境进行介绍。

首先对本申请实施例涉及的应用场景进行介绍。随着图像技术的发展，对图像进行文本检测已在生活中得到了广泛应用，如车牌识别等等。文本检测的一个重要环节是文本区域定位。文本区域定位的方法有多种，例如，传统的图像处理方法、深度学习的方法等等。采用传统的图像处理方法进行文本区域定位，也即是，采用滤波、二值化连通域等多种图像处理手段对图像进行处理，进而基于处理后的图像，确定图像中的文本区域。但是该方法的需要对图像进行多次处理，从而导致定位文本区域的流程复杂，并且对于光线不均匀的图像的文本区域的定位容易产生偏差。而采用深度学习的方法进行文本区域定位之前，也即是，采用文本定位模型进行文本区域定位之前，通常将COCO数据集作为训练集对文本定位模型进行训练，由于该COCO数据集中的文本区域的长宽比较小，这会导致最终训练出的文本定位模型只能定位出长宽比较小的文本区域，对于长宽比较大的文本区域(如身份证中的文本区域)定位的准确性较低，而文本区域定位准确是文本检测准确的前提，文本区域定位的准确性降低会导致文本检测的准确性下降，并且该方法对文本定位模型进行训练时，文本定位模型的收敛速度较慢。基于此，本申请实施例提供了一种文本定位模型训练方法能够保证最终训练得到的文本定位模型能够实现对长宽比较大的文本区域定位，并且定位的准确性更高，从而有效提升文本检测的准确性。

本申请实施例提供的方法可以由任何一种具备模型训练功能的电子设备来执行，比如，该电子设备可以为PC(Personal Computer，个人计算机)、手机、PDA(PersonalDigital Assistant，个人数字助手)、掌上电脑PPC(Pocket PC)、平板电脑、服务器等。

需要说明的是，本申请实施例描述的应用场景和执行主体是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景和设备的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

接下来对本申请实施例提供的文本定位模型训练方法进行详细地解释说明。

图1是本申请实施例提供的一种文本定位模型训练方法的流程图。请参考图1，该方法包括如下步骤。

步骤101：获取训练集，该训练集包括多个训练图像，每个训练图像中的文本区域的长宽比大于长宽比阈值，每个训练图像包括真实框，该真实框指示相应训练图像中的文本区域的真实位置。

获取多个拍摄图像，该多个拍摄图像的拍摄角度不同，该拍摄图像中的文本区域的长宽比大于长宽比阈值，将该多个拍摄图像进行矫正，以得到多个样本图像，每个样本图像中的拍摄目标的朝向相同，基于该多个样本图像，确定训练集。

可选地，电子设备具有摄像头，通过该电子设备的摄像头可以对多个目标物体进行拍摄，以得到多个拍摄图像，该目标物体包括的文本区域的长宽比大于长宽比阈值。当然，还可以使用除上述电子设备之外的其它具有拍摄功能的设备对多个目标物体进行拍摄，以得到多个拍摄图像，并将该多个拍摄图像发送给电子设备。也就是说，可以通过摄像头对多个目标物体进行拍摄，以得到多个拍摄图像，该摄像头可以为电子设备所包括的摄像头，也可以是独立于电子设备之外的一个摄像头，本申请实施例对此不作限定。

在一些实施例中，可以对该多个目标物体包括的文本区域分别以不同的拍摄角度进行拍摄，以得到多个拍摄图像，该多个拍摄图像与该多个目标物体一一对应。在另一些实施例中，对于该多个目标物体中的任意一个目标物体，对该目标物体包括的文本区域从不同的拍摄角度进行拍摄，以得到该目标物体对应的多个第一拍摄图像。对该至少一个目标物体中的每个目标物体都按照相同的方式进行拍摄，最终能够得到每个目标物体分别对应的多个第一拍摄图像，将该每个目标物体分别对应的多个第一拍摄图像作为多个拍摄图像。

也就是说，可以对该多个目标物体分别以不同的角度进行拍摄，以得到多个拍摄图像，也可以对每个目标物体都分别拍摄多个图像，该多个图像的拍摄角度不同，以得到多个拍摄图像。当然，也可以通过其他的方式得到多个拍摄图像，本申请实施例对此不做限定。

由于在实际应用中，电子设备需要基于用户拍摄的图像，确定该图像中的文本区域。而不同用户对于物体的拍摄角度不同，拍摄角度不同会导致拍摄的图像中文本区域的角度不同。因此，获取多个拍摄角度不同的拍摄图像能够模拟不同用户的行为，也即是，模拟物体在不同拍摄角度下所得到的拍摄图像，以提升文本定位模型对于真实场景的适应能力，从而有效提升文本定位模型进行文本定位的准确性。

基于上文描述，由于该多个拍摄图像的拍摄角度不同，从而导致图像中文本区域的角度不同，因此，可以将该多个拍摄图像进行矫正，以得到多个样本图像。对拍摄图像进行矫正的方式有多种，例如，可以采用仿射变换的方式对拍摄图像进行矫正，以使每个样本图像中的拍摄目标的朝向相同。本申请实施例对此不做限定。

需要说明的是，在得到多个样本图像之后，还可以通过添加噪声(如高斯噪声)、改变图像分辨率、图像拼接(如Mosaic数据增强)等方式对该多个样本图像进行处理，以得到处理之后的样本图像，将处理之后的多个样本图像和处理之前的样本图像都作为该多个样本图像。这样，能够实现对样本图像的补充，以使最终得到的训练集具有多样性。

可选地，基于该多个样本图像，确定训练集的实现方式包括：对于该多个样本图像中的任意一个样本图像，电子设备显示该样本图像的标注界面，该标注界面用于标注相应样本图像中的真实框，响应于该样本图像的标注完成操作，电子设备保存该标注完成的样本图像，以得到训练图像。对该多个样本图像中的每个样本图像都按照相同的方式进行标注，最终能够得到多个训练图像。

电子设备显示该样本图像的标注界面之后，技术人员能够在标注界面对该样本图像中的文本区域进行标注，也即是，标注出该样本图像中真实框的位置，在标注完成之后，技术人员能够触发该样本图像的标注完成操作，电子设备响应于技术人员触发的该样本图像的标注完成操作，保存该标注完成的样本图像，以得到训练图像。

其中，长宽比阈值是事先设置的，而且在不同的情况下，还可以按照不同的需求进行调整。

步骤102：将多个训练图像输入至待训练的文本定位模型，以得到每个训练图像包括的预测框，该预测框指示相应训练图像中的文本区域的预测位置。

可选地，该文本定位模型包括注意力网络，该注意力网络包括通道注意力子网络和空间注意力子网络，该通道注意力子网络用于在通道维度上进行特征融合，该空间注意力子网络用于在空间维度上进行特征融合。

上述注意力网络能够有效减少文本定位模型的参数数量和计算量，还能够有效提升文本定位模型进行文本定位的效率和准确性。

请参考图2，图2是本申请实施例提供的一种注意力网络的示意图。如图2所示，输入特征经过通道注意力子网络，以得到通道注意力子网络的输出数据，进而将该通道注意力子网络的输出数据与输入特征进行加权，以得到第一次加权结果，该第一次加权结果能够经过空间注意力子网络，以得到空间注意力子网络的输出数据，进而将该空间注意力子网络的输出数据与第一次加权结果进行加权，以得到第二次加权结果，即修正特征。

步骤103：基于每个训练图像包括的真实框的位置和长宽比、以及每个训练图像包括的预测框的位置，确定每个文本区域的真实框与预测框之间的损失值。

在一些实施例中，每个文本区域的真实框与预测框之间的损失值包括中心距离损失值。

可选地，该中心距离损失值可以表示为如下公式(1)：

其中，在上述公式(1)中，S代表中心距离损失值，ρ(b1，b2)代表b1和b2之间的欧式距离，b1代表预测框的中心点，b2代表真实框的中心点，代表真实框的长宽比，m代表真实框的宽度，x代表预测框与真实框在水平方向上的距离，y代表预测框与真实框在垂直方向上的距离，b、c和γ代表超参数，IOU代表预测框与真实框的交集面积除以预测框与真实框的并集面积。

也就是说，在中心距离损失值为公式(1)的情况下，能够将真实框的长宽比与预测框与真实框的交集面积除以预测框与真实框的并集面积进行结合，以得到每个文本区域的真实框与预测框之间的损失值，从而使得文本定位模型对于长宽比较大的文本区域的定位更为准确，并且还能够有效提升文本定位模型的收敛速度。

为了便于理解，请参考图3，在图中3，b1为预测框的中心点，b2为真实框的中心点，b1的坐标为(x1，y1)，b2的坐标为(x2，y2)，则b1和b2之间的欧式距离为√((x1-x2)²+(y1-y2)²)，当然，b1和b2之间的欧式距离也可以用其他方式确定，本申请实施例对此不做限定。

在一些实施例中，每个文本区域的真实框与预测框之间的损失值还包括重叠损失值和高宽损失值。

例如，重叠损失值可以表示为如下公式(2)：

K＝1-IOU

其中，在上述公式(2)中，K代表重叠损失值，IOU代表预测框与真实框的交集面积除以预测框与真实框的并集面积

又例如，高宽损失值可以表示为如下公式(3)：

其中，在上述公式(3)中，Z代表高宽损失值，W1代表预测框的宽度，W2代表真实框的宽度，D_W代表真实框与预测框的最小外接矩形的宽度。H1代表预测框的高度，H2代表真实框的高度，D_H代表真实框与预测框的最小外接矩形的高度。

作为一种示例，每个文本区域的真实框与预测框之间的损失值可以表示为如下公式(4)：

P＝S+K+Z

其中，在上述公式(4)中，P代表每个文本区域的真实框与预测框之间的损失值，S代表中心距离损失值，K代表重叠损失值，Z代表高宽损失值。

步骤104：基于每个文本区域对应的真实框与预测框之间的损失值，对文本定位模型中的参数进行调整，以实现该文本定位模型的训练。

若中心距离损失值为公式(1)，则在对文本定位模型进行训练时，可以将公式(1)中的超参数也作为文本定位模型中的参数进行训练，为了便于描述，将公式(1)中的超参数称为第一参数。

对文本定位模型中的参数进行训练的实现过程包括：对文本定位模型进行初步训练，以确定第一参数的值，将第一参数的值固定，对文本定位模型中除第一参数之外的其他参数进行调整，以实现该文本定位模型的训练。

可选地，可以使用早停法(EarlyStopping)对文本定位模型进行初步训练，从而得到第一参数的值。例如，该第一参数中b的值可以为77.213、c的值为-0.001，γ的值为0.5。

可选地，在对文本定位模型中除第一参数之外的其他参数进行调整时，可以增加训练集在文本定位模型中传播的次数，该传播包括正向传播和反向传播。

也就是说，可以先对文本定位模型进行初步训练，以得到第一参数的值，进而将第一参数的值固定，对文本定位模型中除第一参数之外的其他参数进行调整，以实现该文本定位模型的训练。当然，也可以不进行初步训练，直接将第一参数和文本定位模型中除第一参数之外的其他参数一起调整，以实现该文本定位模型的训练。

例如，请参考图4，从图4中可以看出，在未使用本申请实施例的方法进行文本定位模型进行训练时，该文本定位模型的收敛速度较慢，并且当真实框的长宽比大于4之后，该文本定位模型的收敛速度明显降低，从而导致训练速度降低。请参考图5，从图5中可以看出，在使用本申请实施例所提供的方法对文本定位模型进行训练之后，能够显著提升模型的收敛速度，并且，在真实框的长宽比达到20的情况下，仍旧具有较好的收敛速度。

接下来以图6为例，对本申请实施例提供的一种文本定位模型训练方法进行介绍。如图6所示，电子设备获取多个拍摄图像，该多个拍摄图像的拍摄角度不同，将该多个拍摄图像进行矫正，以得到多个样本图像，基于该多个样本图像，确定训练集。将多个训练图像输入至待训练的文本定位模型，以得到每个训练图像包括的预测框，基于每个训练图像包括的真实框的位置和长宽比、以及每个训练图像包括的预测框的位置，确定每个文本区域的真实框与预测框之间的损失值，进而基于每个文本区域对应的真实框与预测框之间的损失值，对文本定位模型中的参数进行调整，以实现该文本定位模型的训练。

经过上述步骤101至104之后，能够得到一个经训练的文本定位模型，这样，在后续需要从待进行文本定位的图像，即目标图像中确定文本区域时，能够将该目标图像输入该经训练的文本定位模型中，以得到该经训练的文本定位模型输出的目标图像中文本区域的位置。例如，若该目标图像为身份证图像，则可以将该身份证图像输入该经训练的文本定位模型中，该经训练的文本定位模型能够输出该身份证图像中文本区域的位置，从而实现对该身份证图像中文本区域进行定位。

上述经训练的文本定位模型是基于文本区域的长宽比大于长宽比阈值的训练集进行训练的，并且还基于每个训练图像包括的真实框的位置和长宽比，确定每个文本区域的真实框与预测框之间的损失值。因此，即使目标图像的文本区域长宽比较大，该经训练的文本定位模型也能够对该目标图像的文本区域实现精准定位。

由于本申请实施例中的每个训练图像中的文本区域的长宽比大于长宽比阈值，并且还能够基于每个训练图像包括的真实框的位置和长宽比，确定每个文本区域的真实框与预测框之间的损失值，进而基于每个文本区域对应的真实框与预测框之间的损失值，对文本定位模型进行训练，这样，能够保证最终训练得到的文本定位模型能够实现对长宽比较大的文本区域定位，并且定位的准确性更高，从而有效提升文本检测的准确性。

在本申请实施例中，通过获取多个拍摄角度不同的拍摄图像来模拟不同用户的行为，也即是，模拟物体在不同拍摄角度下所得到的拍摄图像，以提升文本定位模型对于真实场景的适应能力，从而有效提升文本定位模型进行文本定位的准确性。并且在文本定位模型包括注意力网络的情况下，该注意力网络能够有效减少文本定位模型的参数数量和计算量，还能够有效提升文本定位模型进行文本定位的效率和准确性。本申请实施例提供的文本定位模型的训练方法还能够将真实框的长宽比与预测框与真实框的交集面积除以预测框与真实框的并集面积进行结合，以得到每个文本区域的真实框与预测框之间的损失值，从而使得文本定位模型对于长宽比较大的文本区域的定位更为准确，并且还能够有效提升文本定位模型的收敛速度。

图7是本申请实施例提供的一种文本定位模型训练装置的结构示意图，该文本定位模型训练装置可以由软件、硬件或者两者的结合实现成为电子设备的部分或者全部。请参考图7，该装置包括：获取模块701、输入模块702、确定模块703和调整模块704。

获取模块701，用于获取训练集，该训练集包括多个训练图像，每个训练图像中的文本区域的长宽比大于长宽比阈值，每个训练图像包括真实框，该真实框指示相应训练图像中的文本区域的真实位置；

输入模块702，用于将多个训练图像输入至待训练的文本定位模型，以得到每个训练图像包括的预测框，该预测框指示相应训练图像中的文本区域的预测位置；

确定模块703，用于基于每个训练图像包括的真实框的位置和长宽比、以及每个训练图像包括的预测框的位置，确定每个文本区域的真实框与预测框之间的损失值；

调整模块704，用于基于每个文本区域对应的真实框与预测框之间的损失值，对文本定位模型中的参数进行调整，以实现文本定位模型的训练。

可选地，获取模块701具体用于：

获取多个拍摄图像，该多个拍摄图像的拍摄角度不同，该拍摄图像中的文本区域的长宽比大于长宽比阈值；

将多个拍摄图像进行矫正，以得到多个样本图像，每个样本图像中的拍摄目标的朝向相同；

基于多个样本图像，确定训练集。

可选地，每个文本区域的真实框与预测框之间的损失值包括中心距离损失值。

可选地，中心距离损失值表示为如下公式：

其中，在上述公式中，S代表中心距离损失值，ρ(b1，b2)代表b1和b2之间的欧式距离，b1代表预测框的中心点，b2代表真实框的中心点，代表真实框的长宽比，m代表真实框的宽度，x代表预测框与真实框在水平方向上的距离，y代表预测框与真实框在垂直方向上的距离，b、c和γ代表超参数，IOU代表预测框与真实框的交集面积除以预测框与真实框的并集面积。

可选地，每个文本区域的真实框与预测框之间的损失值还包括重叠损失值和高宽损失值。

可选地，文本定位模型包括注意力网络，该注意力网络包括通道注意力子网络和空间注意力子网络，该通道注意力子网络用于在通道维度上进行特征融合，该空间注意力子网络用于在空间维度上进行特征融合。

需要说明的是：上述实施例提供的文本定位模型训练装置在进行文本定位模型训练时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本定位模型训练装置与文本定位模型训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是本申请实施例提供的一种电子设备800的结构框图。该电子设备800可以是便携式移动电子设备。电子设备800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的光学自由曲面的确定方法。

在一些实施例中，电子设备800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805和电源806中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请实施例对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置电子设备800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在电子设备800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在电子设备800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

电源806用于为电子设备800中的各个组件进行供电。电源806可以是交流电、直流电、一次性电池或可充电电池。当电源806包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图8中示出的结构并不构成对电子设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在一些实施例中，还提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中文本定位模型训练方法的步骤。例如，所述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

值得注意的是，本申请实施例提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

应当理解的是，实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。

也即是，在一些实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的文本定位模型训练方法的步骤。

应当理解的是，本文提及的“至少一个”是指一个或多个，“多个”是指两个或两个以上。在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请实施例中涉及到的训练集都是在充分授权的情况下获取的。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本定位模型训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述获取训练集，包括：

获取多个拍摄图像，所述多个拍摄图像的拍摄角度不同，所述拍摄图像中的文本区域的长宽比大于长宽比阈值；

将所述多个拍摄图像进行矫正，以得到多个样本图像，每个样本图像中的拍摄目标的朝向相同；

基于所述多个样本图像，确定所述训练集。

3.如权利要求1所述的方法，其特征在于，所述每个文本区域的真实框与预测框之间的损失值包括中心距离损失值。

4.如权利要求3所述的方法，其特征在于，所述中心距离损失值表示为如下公式：

其中，在上述公式中，S代表所述中心距离损失值，ρ(b1，b2)代表b1和b2之间的欧式距离，b1代表所述预测框的中心点，b2代表所述真实框的中心点，代表所述真实框的长宽比，m代表所述真实框的宽度，x代表所述预测框与所述真实框在水平方向上的距离，y代表所述预测框与所述真实框在垂直方向上的距离，b、c和γ代表超参数，IOU代表所述预测框与所述真实框的交集面积除以所述预测框与所述真实框的并集面积。

5.如权利要求3所述的方法，其特征在于，所述每个文本区域的真实框与预测框之间的损失值还包括重叠损失值和高宽损失值。

6.如权利要求1所述的方法，其特征在于，所述文本定位模型包括注意力网络，所述注意力网络包括通道注意力子网络和空间注意力子网络，所述通道注意力子网络用于在通道维度上进行特征融合，所述空间注意力子网络用于在空间维度上进行特征融合。

7.一种电子设备，其特征在于，所述电子设备包括处理器，所述处理器用于：

8.如权利要求7所述的电子设备，其特征在于，所述处理器还用于：

基于所述多个样本图像，确定所述训练集。

9.如权利要求7所述的电子设备，其特征在于，所述每个文本区域的真实框与预测框之间的损失值包括中心距离损失值。

10.如权利要求9所述的电子设备，其特征在于，所述中心距离损失值表示为如下公式：