CN113762292A

CN113762292A - 一种训练数据获取方法、装置及模型训练方法、装置

Info

Publication number: CN113762292A
Application number: CN202010493777.1A
Authority: CN
Inventors: 唐苗; 许江浩; 任国焘; 洪文杰; 师文靖
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2021-12-07
Anticipated expiration: 2040-06-03
Also published as: CN113762292B

Abstract

本申请实施例提供了一种训练数据获取方法、装置及模型训练方法、装置。其中，所述方法包括：获取预设第一格式的训练数据全量信息；对所述训练数据全量信息进行格式转化，得到预设第二格式的检测训练数据；获取目标子图像的第二标识信息；对所述训练数据全量信息进行格式转化，得到预设第三格式的识别训练数据。可以通过格式转化将训练数据全量信息的信息分别转化成训练检测模型所需的信息和以及训练识别模型所需的信息，即通过对检测训练数据和识别训练数据中不同字段中的信息进行融合，降低所需获取的训练数据中信息的冗余度，有效降低所需获取的用于训练数据的数据量，因此可以有效降低获取训练数据所花费的时间，提高模型训练的效率。

Description

一种训练数据获取方法、装置及模型训练方法、装置

技术领域

本申请涉及机器学习技术领域，特别是涉及一种训练数据获取方法、装置及模型训练方法、装置。

背景技术

在一些应用场景中，可能需要检测图片中存在的目标，并对检测出的目标进行识别，示例性的可能需要检测图片中是否存在文字，并识别出图片中所存在的文字。可以通过训练一个检测模型以及一个识别模型以实现上述目的。示例性的，可以是训练一个文本框四边形检测模型以及一个OCR(Optical Character Recognition，光学字符识别)模型，文本框四边形检测模型用于检测输入的图片中存在文字的图像区域，并输出这些图像区域在图片中的位置。按照文本框四边形检测模型输出的位置，从图片中截取存在文字的图像区域，将这些图像区域的图片输入至OCR模型，OCR模型用于识别输入的图片中的文字，并输出用于表示这些文字的字符。

在训练检测模型和识别模型时需要使用训练数据，相关技术中，是分别独立的训练检测模型和识别模型，因此需要分别获取训练检测模型所使用的训练数据，以及训练识别模型所使用的训练数据，导致需要获取的训练数据的数据量较大，如果模型训练端的带宽较小，则可能因获取训练数据花费较多时间，导致模型训练效率较低。

发明内容

本申请实施例的目的在于提供一种训练数据获取方法、装置及模型训练方法、装置，以实现提高模型训练效率。具体技术方案如下：

在本申请实施例的第一方面，提供了一种训练数据获取方法，所述方法包括：

获取预设第一格式的训练数据全量信息，所述预设第一格式中设置有第一标识字段、第一位置字段和第一真值字段，所述训练数据全量信息中所述第一标识字段携带有第一标识信息，所述第一位置字段携带有位置信息，所述第一真值字段携带有真值信息，其中，所述标识信息用于标识样本图像，所述位置信息用于表示所述标识信息所标识的样本图像中存在目标的图像区域，所述真值信息用于表示所述位置信息所表示的图像区域内存在的目标的真值；

对所述训练数据全量信息进行格式转化，得到预设第二格式的检测训练数据，所述预设第二格式中设置有第二标识字段和第二位置字段，所述第二标识字段用于标识训练检测模型所使用的样本图像，所述第二位置字段用于表示训练所述检测模型时所述第二标识字段所标识的样本图像的真值，所述检测训练数据中所述第二标识字段中携带有所述第一标识信息，所述第二位置字段携带有所述位置信息；

获取目标子图像的第二标识信息，所述目标子图像为包括所述第一标识信息所标识的样本图像中所述位置信息所表示的图像区域内的图像；

对所述训练数据全量信息进行格式转化，得到预设第三格式的识别训练数据，所述预设第三格式中设置有第三标识字段、第三位置字段以及第二真值字段，所述第三标识字段用于标识训练识别模型所使用的样本图像，所述第三位置字段用于表示所述第三标识字段所标识的样本图像中存在目标的图像区域，所述第二真值字段用于表示训练所述识别模型时所述第三标识字段所标识的样本图像的真值，所述识别训练数据中所述第三标识字段携带有所述第二标识信息，所述第三位置字段携带有所述位置信息，所述第二真值字段携带有所述真值信息。

在一种可能的实施例中，所述对所述训练数据全量信息进行格式转化，得到预设第二格式的检测训练数据，包括：

删除所述训练数据全量信息中的第一真值字段；

将删除后的训练数据全量信息中的第一标识字段转化为预设第二格式中的第二标识字段，将第一位置字段转化为所述预设第二格式中的第二位置字段，得到所述预设第二格式的检测训练数据。

在一种可能的实施例中，所述对所述训练数据全量信息进行格式转化，得到预设第三格式的识别训练数据，包括：

将所述训练数据全量信息中的第一标识字段所携带的信息更新为所述第二标识信息；

将更新后的训练数据全量信息中的第一标识字段转化为预设第三格式中的第三标识字段，将第一位置字段转化为所述预设第三格式中的第三位置字段，将第一真值字段转化为所述第三格式中的第二真值字段，得到所述预设第三格式的识别训练数据。

在一种可能的实施例中，所述真值信息为真值序列，所述真值序列中第i个元素用于表示所述位置信息所表示的图像区域内按照预设规则排序的第i个目标的真值，i为不小于1且不大于所述真值序列长度的任一正整数；

所述预设第三格式中的所述第二真值字段包括多个子字段，其中，每个子字段用于表示训练所述识别模型时所述第三标识字段所标识的样本图像中一个目标的真值；

所述将第一真值字段转化为所述预设第三格式中的第二真值字段，包括：

将第一真值字段分割为所述预设第三格式中所述第二真值字段的多个子字段，其中，每个子字段携带有所述真值序列中的一个元素。

在本申请实施例的第二方面，提供了一种模型训练方法，所述方法包括：

获取第一标识信息、位置信息以及真值信息，所述标识信息用于标识样本图像，所述位置信息用于表示所述标识信息所标识的样本图像中存在目标的图像区域，所述真值信息用于表示所述图像区域内存在的目标的真值；

按照所述第一标识信息所标识的样本图像、所述位置信息所表示的图像区域训练检测模型，并按照所述第一标识信息所标识的样本图像、所述位置信息所表示的图像区域、以及所述真值信息所表示的真值训练识别模型。

在一种可能的实施例中，所述按照所述标识信息所标识的样本图像、所述位置信息所表示的图像区域训练检测模型，包括：

将所述第一标识信息所标识的样本图像输入至待训练的检测模型，得到所述检测模型输出的检测结果，所述检测结果用于表示在所述样本图像中检测出存在目标的图像区域；

根据所述检测结果所表示的图像区域，以及所述位置信息所表示的图像区域的差异，构建损失函数；

基于所述损失函数，调整所述检测模型的模型参数。

在一种可能的实施例中，所述方法还包括：

获取所述样本图像的类别信息，所述类别信息用于表示所述位置信息所表示的图像区域内存在的目标的类别；

所述检测结果还用于表示所述样本图像中每个检测出存在目标的图像区域中的目标的类别；

所述根据所述检测结果所表示的图像区域，以及所述位置信息所表示的图像区域的差异，构建损失函数，包括：

根据所述检测结果所表示的图像区域，以及所述位置信息所表示的位置的图像区域的差异，和所述检测结果所表示的类别，以及所述类别信息所表示的类别的差异，构建损失函数。

在一种可能的实施例中，所述按照所述第一标识信息所标识的样本图像、所述位置信息所表示的图像区域、以及所述真值信息所表示的真值训练识别模型，包括：

从所述第一标识信息所标识的样本图像中截取所述位置信息所表示的图像区域的目标子图像；

将所述目标子图像输入待训练的识别模型，得到所述识别模型输出的识别结果，所述识别结果用于表示对所述目标子图像中存在的目标进行识别得到的观测值；

根据所述识别结果所表示的观测值，以及所述真值信息所表示的真值的差异，构建损失函数；

基于所述损失函数，调整所述检测模型的模型参数。

在本申请实施例的第三方面，提供了一种训练数据获取装置，所述装置包括：

全量信息获取模块，用于获取预设第一格式的训练数据全量信息，所述预设第一格式中设置有第一标识字段、第一位置字段和第一真值字段，所述训练数据全量信息中所述第一标识字段携带有第一标识信息，所述第一位置字段携带有位置信息，所述第一真值字段携带有真值信息，其中，所述标识信息用于标识样本图像，所述位置信息用于表示所述标识信息所标识的样本图像中存在目标的图像区域，所述真值信息用于表示所述位置信息所表示的图像区域内存在的目标的真值；

检测数据转化模块，用于对所述训练数据全量信息进行格式转化，得到预设第二格式的检测训练数据，所述预设第二格式中设置有第二标识字段和第二位置字段，所述第二标识字段用于标识训练检测模型所使用的样本图像，所述第二位置字段用于表示训练所述检测模型时所述第二标识字段所标识的样本图像的真值，所述检测训练数据中所述第二标识字段中携带有所述第一标识信息，所述第二位置字段携带有所述位置信息；

抠图模块，用于获取目标子图像的第二标识信息，所述目标子图像为包括所述第一标识信息所标识的样本图像中所述位置信息所表示的图像区域内的图像；

识别数据转化模块，用于对所述训练数据全量信息进行格式转化，得到预设第三格式的识别训练数据，所述预设第三格式中设置有第三标识字段、第三位置字段以及第二真值字段，所述第三标识字段用于标识训练识别模型所使用的样本图像，所述第三位置字段用于表示所述第三标识字段所标识的样本图像中存在目标的图像区域，所述第二真值字段用于表示训练所述识别模型时所述第三标识字段所标识的样本图像的真值，所述识别训练数据中所述第三标识字段携带有所述第二标识信息，所述第三位置字段携带有所述位置信息，所述第二真值字段携带有所述真值信息。

在一种可能的实施例中，所述检测数据转化模块对所述训练数据全量信息进行格式转化，得到预设第二格式的检测训练数据，包括：

删除所述训练数据全量信息中的第一真值字段；

在一种可能的实施例中，所述识别数据转化模块对所述训练数据全量信息进行格式转化，得到预设第三格式的识别训练数据，包括：

所述识别数据转化模块将第一真值字段转化为所述预设第三格式中的第二真值字段，包括：

在本申请实施例的第四方面，提供了一种模型训练装置，所述装置包括：

训练数据接获取块，用于获取第一标识信息、位置信息以及真值信息，所述标识信息用于标识样本图像，所述位置信息用于表示所述标识信息所标识的样本图像中存在目标的图像区域，所述真值信息用于表示所述图像区域内存在的目标的真值；

模型训练模块，用于按照所述第一标识信息所标识的样本图像、所述位置信息所表示的图像区域训练检测模型，并按照所述第一标识信息所标识的样本图像、所述位置信息所表示的图像区域、以及所述真值信息所表示的真值训练识别模型。

在一种可能的实施例中，所述模型训练模块按照所述标识信息所标识的样本图像、所述位置信息所表示的图像区域训练检测模型，包括：

基于所述损失函数，调整所述检测模型的模型参数。

在一种可能的实施例中，所述训练数据获取模块，还用于获取所述样本图像的类别信息，所述类别信息用于表示所述位置信息所表示的图像区域内存在的目标的类别；

所述模型训练模块根据所述检测结果所表示的图像区域，以及所述位置信息所表示的图像区域的差异，构建损失函数，包括：

在一种可能的实施例中，所述模型训练模块按照所述第一标识信息所标识的样本图像、所述位置信息所表示的图像区域、以及所述真值信息所表示的真值训练识别模型，包括：

基于所述损失函数，调整所述检测模型的模型参数。

在本申请实施例的第五方面，提供了一种电子设备，包括：

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面任一所述的方法步骤。

在本申请实施例的第六方面，提供了一种电子设备，包括：

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第二方面任一所述的方法步骤。

在本申请实施例的第七方面，提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一所述的方法步骤。

在本申请实施例的第八方面，提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第二方面任一所述的方法步骤。

本申请实施例提供的训练数据获取方法、装置及模型训练方法、装置，可以基于训练数据全量信息分别生成检测训练数据和识别训练数据，即通过融合为训练数据全量信息的方式合并获取检测训练数据和识别训练数据，有效降低所需获取的用于训练数据的数据量，因此可以有效降低获取训练数据所花费的时间，提高模型训练的效率。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的模型训练系统的一种架构示意图；

图2为本申请实施例提供的训练数据获取方法的一种流程示意图；

图3为本申请实施例提供的模型训练方法的一种流程示意图；

图4为本申请实施例提供的检测模型训练方法的一种流程示意图；

图5为本申请实施例提供的识别模型训练方法的一种流程示意图；

图6为本申请实施例提供的训练数据获取装置的一种结构示意图；

图7为本申请实施例提供的模型训练装置的一种结构示意图；

图8为本申请实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为更清楚对本申请实施例提供的训练数据获取方法进行说明，下面将对本申请实施例提供的训练数据获取方法的一种可能的应用场景进行说明，可以理解的是，该应用场景仅是本申请实施例提供的训练数据获取方法的一种可能的应用场景，在其他可能的实施例中，本申请实施例提供的训练数据获取方法也可以应用于其他可能的应用场景，本申请实施例对此不做限制。

可以参见图1，图1所示为本申请实施例提供的模型训练系统的一种架构示意图，包括前端110、云存储端120以及模型训练端130，其中，前端110可以是用户终端，也可以是具有利用检测模型和识别模型进行检测和识别的功能的设备端(如网络摄像机)，还可以是任一其他存在训练识别模型和训练检测模型需求的电子设备。在一种可能的实施例中，可以通过该模型训练系统训练文本框四边形检测模型以及OCR模型。

对于文本框四边形检测模型，云存储端120用于存储样本图像，相关人员可以通过前端110访问云存储端120中存储的样本图像，以四边形的文本框在样本图像中标定出所存文字的区域，前端110可以根据样本图像在云存储端120中的存储路径以及文本框的位置，向模型训练端130发送检测训练数据。检测训练数据中可以包括图片地址字段和位置字段，其中图片地址字段用于表示样本图像在云存储端120中的存储路径，位置字段用于表示文本框的位置。

模型训练端130在接收到检测训练数据后，可以解析图片地址字段得到存储路径，并解析位置字段得到文本框的位置。模型训练端130解析得到的存储路径从云存储端120下载样本图像，利用待训练的文本框四边形检测模型对样本图像进行检测，以检测出样本图像中存在文字的区域，将这些区域与解析得到的文本框的位置进行对比，以构建损失函数，并基于所构建的损失函数，利用梯度下降法调整文本框四边形检测模型的模型参数。

对于OCR模型，相关人员可以通过前端110访问云存储端120中存储的样本图像，在样本图像中标定出各个文字所在的图像区域，并针对每个图像区域，标注该图像区域中存在的文字的真值，示例性的，假设一个图像区域中存在的文字为a，则将该图像区域的真值标注为字符a。前端110可以根据样本图像在云存储端120中的存储路径、各个文字所在的图像区域，以及针对每个图像区域标注的真值向模型训练端130发送识别训练数据。识别训练数据中包括图片地址字段、位置字段以及真值字段，其中图片地址字段用于表示样本图像在云存储端120中的存储路径，位置字段用于表示各个文字所在的图像区域，真值字段用于表示各个图像区域内所存在的文字的真值。

模型训练端130在接收到识别训练数据后，可以解析图片地址字段得到存储路径，并解析位置字段得到各存在文字的图像区域的位置，并解析真值信息得到各图像区域内存在的文字的真值。模型训练端130可以根据解析得到的存储路径，从云存储端120下载样本图像，并根据解析得到的位置利用待训练的OCR模型针对样本图像中各存在文字的图像区域进行识别，得到识别结果，将识别结果与解析得到的该图像区域内存在的文字的真值进行对比，以构建损失函数，并基于所构建的损失函数，利用梯度下降法调整OCR模型的模型参数。

该训练方法中，前端110是分别将检测训练数据和识别训练数据发送至模型训练端130的，但是检测训练数据和识别训练数据各自所表示的信息间存在一定的重合，即对于模型训练端130，获取到的训练数据存在冗余。导致输入至模型训练端130的训练数据的数据量较大，如果模型训练端130的输入带宽较小，则可能因输入训练数据花费较多时间，导致模型训练效率较低。

基于此，本申请实施例提供了一种训练数据获取方法，可以参见图2，图2所示为本申请实施例提供的训练数据获取方法的一种流程示意图，可以包括：

S201，获取预设第一格式的训练数据全量信息。

S202，对训练数据全量信息进行格式转化，得到预设第二格式的检测训练数据。

S203，获取目标子图像的第二标识信息。

S204，对训练数据全量信息进行格式转化，得到预设第三格式的识别训练数据

选用该实施例，可以通过格式转化将训练数据全量信息的信息分别转化成训练检测模型所需的信息和以及训练识别模型所需的信息，即通过对检测训练数据和识别训练数据中不同字段中的信息进行融合，降低所需获取的训练数据中信息的冗余度，有效降低所需获取的用于训练数据的数据量，因此可以有效降低获取训练数据所花费的时间，提高模型训练的效率。

其中，在S201中预设第一格式中设置有第一标识字段、第一位置字段和第一真值字段，训练数据全量信息中第一标识字段携带有第一标识信息，第一位置字段携带有位置信息，第一真值字段携带有真值信息，其中，第一标识信息用于标识样本图像，位置信息用于表示第一标识信息所标识的样本图像中存在目标的图像区域，真值信息用于表示位置信息所表示的图像区域内存在的目标的真值。

标识信息、位置信息以及真值信息的表示方式根据应用场景的可以不同。例如，标识信息可以为样本图像的存储地址的形式表示的，也可以是以图片的唯一编号的形式表示的。位置信息可以是以包括目标所处区域在内的最小矩形的四个顶点的坐标的形式表示的，真值信息可以是字符、数字、符号、字符串等形式表示的。

在S202中，预设第二格式中设置有第二标识字段和第二位置字段，第二标识字段用于标识训练检测模型所使用的样本图像，第二位置字段用于表示位置信息用于表示训练检测模型时第二标识字段所标识的样本图像的真值，检测训练数据中第二标识字段中携带有第一标识信息，第二位置字段携带有位置信息。

可以理解的是，在训练检测模型时需要样本图像，以及在样本图像中标注存在目标的图像区域，而第二标识字段用于标识样本图像，并且第二标识字段中携带的为第一标识信息，因此模型训练端可以通过解析检测训练数据中的第二标识字段确定用于训练检测模型的样本图像为第一标识信息所标识的样本图像，而第二位置字段可以表示样本图像中存在目标的图像区域，并且第二位置字段中携带的为位置信息，因此模型训练端可以通过解析检测训练数据中的第二位置字段确定样本图像中标注存在目标的图像区域为位置信息所表示的图像区域。而位置信息所表示的图像区域即为第一标识信息所标识的样本图像中存在目标的图像区域。可见，模型训练端可以从检测训练数据中正确地获取训练检测模型时所需的所有数据。

第二标识字段中所携带的第一标识信息和第一标识字段中所携带的第一标识信息所标识的样本图像相同，但是表示形式可以相同也可以不同。

在一些应用场景中，样本图像可以是预先存储于模型训练端的，则第二标识字段中所携带的第一标识信息和第一标识字段中所携带的第一标识信息的表示形式相同，都可以是以样本图像在模型训练端中的存储路径的形式表示的。

在另一些应用场景中，样本图像也可以是存储于模型训练端以外的其他电子设备中的，如图1所述应用场景，样本图像存储于云存储端而非模型训练端。则第二标识字段中所携带的第一标识信息和第一标识字段中所携带的第一标识信息的表示形式可以不相同，第一标识字段中所携带的第一标识信息可以是以样本图像在云存储端中的存储路径的形式表示的。在接收到训练数据全量信息后，模型训练端可以按照第一标识信息所表示的存储路径从云存储端中下载样本图像，则第二标识字段中所携带的第一标识信息可以是以样本图像在模型训练端中的存储路径的形式表示的。

格式转化的方式根据应用场景的不同可以不同，例如，在一种可能的实施例中，可以是删除训练数据全量信息中的第一真值字段，并将删除后的训练数据全量信息中的第一标识字段转化为第二格式中的第二标识字段，将第一位置字段转化为预设第二格式中的第二位置字段。可以理解的是，真值信息用于表示目标的真值，而检测模型并不用于对目标进行识别，因此在训练检测模型中可以不使用真值信息。选用该实施例，可以充分利用第一预设格式与第二预设格式中各字段所携带的信息的相似性，简化格式转化步骤，降低格式转化所占用的系统资源和时间，提高模型训练的效率。

在S203中，目标子图像为包括第一标识信息所标识的样本图像中位置信息所表示的图像区域内的图像，即目标子图像可以为第一标识信息所标识的样本图像中位置信息所表示的图像区域内的图像，也可以是第一标识信息所标识的样本图像中包括位置信息所表示的图像区域在内的另一个更大的图像区域内的图像。示例性的，假设第一标识信息所标识的样本图像为样本图像A，位置信息所表示的图像区域为区域1，则目标子图像可以是样本图像A中区域1内的图像，也可以是样本图像A中区域2内的图像，其中区域2为包括区域1在内的另一个更大的区域。

在S204中，预设第三格式中设置有第三标识字段、第三位置字段以及第二真值字段，第三标识字段用于标识训练识别模型所使用的样本图像，第三位置字段用于表示第三标识字段所标识的样本图像中存在目标的图像区域，第二真值字段用于表示训练识别模型时第三标识字段所标识的样本图像的真值，识别训练数据中第三标识字段携带有第二标识信息，第三位置字段携带有位置信息，第二真值字段携带有真值信息。

可以理解的是，在训练识别模型时需要样本图像，并在样本图像中标注存在目标的图像区域，以及图像区域中所存在的目标的真值。而第三标识字段用于标识样本图像，并且第三标识字段中携带的为第二标识信息，因此模型训练端可以通过解析识别训练数据中的第三标识字段确定用于训练识别模型的样本图像为第二标识信息所标识的样本图像，而第二标识信息标识的图像为目标子图像，又由于目标子图像为存在目标的图像，因此第二标识信息标识的图像可以作为训练识别模型时的样本图像。

同理，第三位置字段可以表示样本图像中存在目标的图像区域，并且第三位置字段中携带的为位置信息，因此模型训练端可以通过解析识别训练数据中的第三位置字段确定用于训练识别模型的样本图像中标注存在目标的图像区域为位置信息所表示的图像区域。第二真值字段可以表示第三标识字段所标识的样本图像的真值，并且第二真值字段中携带的为真值信息，因此模型训练端可以通过解析识别训练数据中的第三位置字段确定用于训练识别模型的样本图像的真值为真值信息所表示的真值。因此模型训练端可以从识别训练数据中正确获取训练检测模型时所需的所有数据。

格式转化的方式根据应用场景的不同可以不同，示例性的，在一种可能的实施例中，可以是将训练数据全量信息中的第一标识字段所携带的信息更新为第二标识信息。将更新后的训练数据全量信息中的第一标识字段转化为预设第三格式中的第三标识字段，将第一位置字段转化为预设第三格式中的第三位置字段，将第一真值字段转化为第三格式中的第二真值字段，得到预设第三格式的识别训练数据。

选用该实施例，可以充分利用第一预设格式与第三预设格式中各字段所携带的信息的相似性，简化格式转化步骤，降低格式转化所占用的系统资源和时间，提高模型训练的效率。

图2所示仅为本申请实施例提供的训练数据获取方法的一种可能的流程示意图，在其他可能的实施例中，S203、S204也可以是在S202之前执行的，还可以是与S202交替执行或并行执行的，本实施例对此不做限制。

一个样本图像中可以包括多个存在目标的图像区域，因此训练数据全量信息中可以包括多个第一位置字段，其中每个第一位置字段所携带的位置信息用于表示第一标识信息所标识的样本图像中一个存在目标的图像区域。同理，一个图像区域内可以存在多个目标，因此每个第一位置字段可以对应于多个第一真值字段，其中每个第一真值字段所携带的真值信息用于表示该第一真值字段所对应的第一位置字段所携带的位置信息所表示的图像区域内的一个目标的真值。

但是，通常预先难以预计每个图像区域内存在的目标的数量，如果预设第第一格式中为每个第一位置字段预留的第一真值字段过多则可能导致训练数据全量信息冗长，如果为每个第一位置字段预留的第一真值字段过少则可能导致无法在训练数据全量信息中对应保存每个真值信息。

因此，在一种可能的实施例中，真值信息可以为真值序列，真值序列中第i个元素用于表示位置信息所表示的图像区域内按照预设规则排序的第i个目标的真值，i为不小于且大不于真值序列长度的任一正整数。以前述图1所示的应用场景为例，真值序列可以是一个字符串序列，如字符串、字符数组等，示例性的真值序列可以为“ABCDEF1234”。按照预设规则排序可以是按照目标在图像中的位置排序，例如按照由上到下，由左到右的顺序的排序。

在该实施例中，预设第三格式中的第二真值字段包括多个子字段，其中，每个子字段用于表示训练识别模型时第三标识字段所标识的样本图像中一个目标的真值。

在将第一真值字段转化为预设第三格式中的第二真值字段时，可以是将第一真值字段分割为预设第三格式中第二真值字段的多个子字段，其中，每个子字段携带有真值序列中的一个元素。

选用该实施例，可以利用真值序列弹性存储真值，使得无论图像区域内存在多少目标，都可以在训练数据全量信息中都只需要为每个第一位置字段预留一个第一真值字段，即可以通过一个第一真值字段保存第一位置字段所携带的位置信息所表示的图像区域内存在的所有目标的真值。

为更清楚的对本申请实施例提供的训练数据获取方法进行说明，下面将结合图1所示的应用场景，以检测模型为文本框四边形检测模型，识别模型为OCR识别模型为例进行说明。

获取到的训练数据全量信息可以如下所示：

下面将对该训练数据全量信息进行解释，图片地址data/pic/a.jpg表示图片地址为data/pic/目录下的样本图像a.jpg。目标个数2，表示该样本图像中存在2个目标，即样本图像中存在两个存在文字的图像区域。4坐标点表示图像区域的四个顶点，8个值表示这四个坐标点中每个坐标点的横坐标值以及纵坐标值。目标区域1字符串12345efg，表示目标区域1的真值为12345efg，同理，目标区域2字符串3654gg表示目标区域2的真值为3654gg。可以理解的是，其中的图片地址即为第一标识字段所携带的第一标识信息，目标1区域框和目标2区域框第一位置字段所携带的位置信息，目标1字符串和目标2字符串为第一真值字段所携带的真值信息。目标1字符串中的“12345efg”和目标2字符串中的“3654”即为真值序列。

在一些应用场景中，训练数据全量信息中除第一标识字段、第一位置字段以及第一真值字段外也可以包括携带其他信息的其他字段，示例性的，在一种可能应用场景中，训练数据全量信息也可以如下所示：

目标1类别1表示：目标区域1中的目标的类别为1，目标1子类别2表示：目标区域1中的目标的子类别为2。目标的类别以及子类别的划分方式可以根据应用场景的不同而不同，本实施例对此不做限制。可以理解的是，其中的目标1类别、目标1子类别、目标2类别、目标2子类别即为前述类别信息。

下面将对训练数据全量信息转化为检测训练数据的过程进行示例性说明：

模型训练端可以根据解析训练数据全量信息中的第一标识字段得到图片地址data/pic/a.jpg，并根据图片地址data/pic/a.jpg从云存储端下载样本图像至模型训练端本地，并将训练数据全量信息中的第一标识字段中所携带的图片地址更改为模型训练端本地保存的样本图像的地址，并删除训练数据全量信息中的第一真值字段，即删除目标1字符串和目标2字符串，将删除后的训练数据全量信息中的第一标志字段转化为第二标识字段、第一位置字段转化为第二位置字段，得到检测训练数据。假设模型训练端本地保存的样本图像的地址为/data/pic/b.jpg，则如果训练数据全量信息中不包括携带前述类别信息的字段，则得到的检测训练数据如下所示：

如果训练数据全量信息中包括类别信息，则得到的检测训练数据如下所示：

下面将对训练数据全量信息转化为识别训练数据的过程进行示例性说明：模型训练端可以解析训练数据全量信息中的第一标识字段得到图片地址data/pic/a.jpg，根据图片地址data/pic/a.jpg从云存储端下载样本图像至模型训练端本地，并解析训练数据全量信息中的第一位置字段得到目标1区域框和目标2区域框，并根据目标1区域框和目标2区域框中的坐标从样本图像中截取这些坐标所表示的图像区域，得到两个目标子图像，将训练数据全量信息中的第一标识字段所携带的图片地址更改为模型训练端本地存储目标子图像的存储地址。如果训练数据全量信息中包括用于携带类别信息的字段，则删除训练数据全量信息中用于携带类别信息的字段。并将第一标识字段转化为预设第三格式中的第三标识字段，将第一位置字段转化为预设第三格式中的第三位置字段，将第一真值字分割为预设第三格式中第二真值字段的多个子字段，即将真值序列“12345efg”分割为“1”、“2”、“3”、“4”、“e”、“f”、“g”和并将真值序列“3654”分割为“3”、“6”、“5”、“4”，得到识别训练数据。假设根据目标1区域框截取得到的目标子图像在模型训练端本地的存储地址为路径1，根据目标2区域框截取得到的目标子图像在模型训练端本地的存储地址为路径2。则得到的识别训练数据可以如下所示：

对应于前述的训练数据获取方法，本申请实施例还提供了一种模型训练方法，可以如图3所示，图3所示为本申请实施例提供的模型训练方法的一种流程示意图，可以包括：

S301，获取第一标识信息、位置信息以及真值信息。

S302，按照第一标识信息所标识的样本图像、位置信息所表示的图像区域训练检测模型，并按照第一标识信息所标识的样本图像、位置信息所表示的图像区域、以及真值信息所表示的真值训练识别模型。

选用该实施例，可以将检测模型和识别模型联合训练，使得在训练检测模型和识别模型过程中共享部分相通的训练数据，因此可以有效减少所需输入的训练数据的数据量，即可以有效降低输入训练数据所花费的时间，进而提高模型训练的效率。

另一方面，也可以是降低传输训练数据对带宽的压力，以及存储训练数据时所占用的存储资源。

其中，S301中第一标识信息用于标识样本图像，位置信息用于表示样本图像中存在目标的图像区域，真值信息用于表示每个图像区域内存在的目标的真值。根据应用场景的不同，标识信息标识样本图像、位置信息表示图像区域，以及真值信息表示真值的方式可以不同。

在一种可能的实施例中，位置信息可以是通过多个顶点的坐标表示位置的，例如，假设需要表示一个图像区域的位置，并且该图像区域是以点A、点B、点C以及点D为顶点的四边形，则可以是以点A、点B、点C以及点D的坐标表示该图像区域的位置。又例如，假设需要表示一个图像区域的位置，并且该图像区域是以点A为圆心，r为半径的圆形区域，则可以是以点A的坐标，以及半径r表示该图像区域的位置。

以识别模型为OCR模型为例，真值信息可以是以字符串的形式表示的，例如一个图像区域中包括文字“12345”，并且该图像区域的区域标识为区域1，则可以在真值信息中对应记录区域1，以及“12345”以表示图像区域1的真值为“12345”。

获取标识信息、位置信息以及真值信息的方式根据应用场景的不同，也可以不同，假设检测模型为文本框四边形检测模型，识别模型为OCR模型，则在一种可能的实施例中，可以是获取训练数据全量信息，以获取标识信息、位置信息以及真值信息的，关于训练数据全量信息可以参见前述相关的实施例中的描述，在此不再赘述。

并且在S302中，由于是根据第一标识信息以及位置信息训练检测模型的，而前述检测训练数据中携带有第一标识信息以及位置信息，因此在一种可能的实施例中，如果前端是以前述训练数据全量信息的形式发送第一标识信息、位置信息以及真值信息，则可以是将训练数据全量信息转化为前述的检测训练数据，并根据检测训练数据训练检测模型。

同理，在S302中，由于是根据第一标识信息、位置信息以及真值信息训练识别模型的，而前述识别训练数据中携带有第二标识信息、位置信息以及真值信息，并且第二标识信息是由第一标识信息得到的，因此在一种可能的实施例中，如果前端是以前述训练数据全量信息的形式发送第一标识信息、位置信息以及真值信息，则可以是将训练数据全量信息转化为前述的识别训练数据，并根据识别训练数据训练检测模型。

下面将分别对检测模型和识别模型的训练进行说明，可以理解的是，可以是先训练检测模型，再训练识别模型，也可以是先训练识别模型，再训练检测模型，还可以是同时训练或交替训练检测模型和识别模型。

对于检测模型的训练，可以参见图4，图4所示为本申请实施例提供的检测模型训练方法的一种流程示意图，可以包括：

S401，将第一标识信息所标识的样本图像输入至待训练的检测模型，得到检测模型输出的检测结果。

检测结果用于表示在样本图像中检测出存在目标的图像区域。样本图像的获取根据应用场景的不同可以不同，以图1所示的应用场景为例，可以是根据图片地址从云存储端读取到样本图像。

S402，根据检测结果所表示的图像区域，以及位置信息所表示的图像区域的差异，构建损失函数。

构建损失函数的方式根据应用场景的不同也可以不同，如可以采用最小二乘法、交叉熵等方式构建损失函数。损失函数和检测结果所表示的位置，以及位置信息所表示的位置的差异正相关，即该差异越大，则损失函数越大，该差异越小，则损失函数越小。

S403，基于损失函数，调整检测模型的模型参数。

调整的方式可以是按照梯度下降法进行调整，可以是以模型参数为变量，分别计算当模型参数发生变化时，损失函数相应的变化量，以此得到损失函数的梯度，向该梯度所表示的方向调整检测模型的模型参数。

在一些可能的应用场景中，还可能接收到前端针对样本图像发送的类别信息，类别信息用于表示图像区域内存在的目标的类别(该类别可以是类别，也可以是类别以及子类别)，检测结果还可以表示样本图像中每个检测出存在目标的图像区域中的目标的类别。在该实施例中，在构建损失函数时，除了需要根据检测所表示的图像区域，以及位置信息所表示的图像区域的差异，还需要根据检测结果所表示的类别，以及类别信息所表示的类别的差异。

对于识别模型的训练，可以参见图5，图5为本申请实施例提供的识别模型训练方法的一种流程示意图，可以包括：

S501，从样本图像中截取位置信息所表示的图像区域处的目标子图像。

样本图像的获取方式可以参见前述S301中的相关描述，在此不再赘述。

S502，将目标子图像输入待训练的识别模型，得到识别模型输出的识别结果。

其中，识别结果用于表示对该子图片中存在目标进行识别得到的观测值。

S503，根据识别结果所表示的观测值，以及真值信息所表示的真值的差异，构建损失函数。

S504，基于损失函数，调整检测模型的模型参数。

关于模型参数的调整，可以参见前述S403中的相关描述，在此不再赘述。

参见图6，图6为本申请实施例提供的训练数据获取装置的一结构示意图，所述装置可以包括：

全量信息获取模块601，用于获取预设第一格式的训练数据全量信息，所述预设第一格式中设置有第一标识字段、第一位置字段和第一真值字段，所述训练数据全量信息中所述第一标识字段携带有第一标识信息，所述第一位置字段携带有位置信息，所述第一真值字段携带有真值信息，其中，所述标识信息用于标识样本图像，所述位置信息用于表示所述标识信息所标识的样本图像中存在目标的图像区域，所述真值信息用于表示所述位置信息所表示的图像区域内存在的目标的真值；

检测数据转化模块602，用于对所述训练数据全量信息进行格式转化，得到预设第二格式的检测训练数据，所述预设第二格式中设置有第二标识字段和第二位置字段，所述第二标识字段用于标识训练检测模型所使用的样本图像，所述第二位置字段用于表示训练所述检测模型时所述第二标识字段所标识的样本图像的真值，所述检测训练数据中所述第二标识字段中携带有所述第一标识信息，所述第二位置字段携带有所述位置信息；

抠图模块603，用于获取目标子图像的第二标识信息，所述目标子图像为包括所述第一标识信息所标识的样本图像中所述位置信息所表示的图像区域内的图像；

识别数据转化模块604，用于对所述训练数据全量信息进行格式转化，得到预设第三格式的识别训练数据，所述预设第三格式中设置有第三标识字段、第三位置字段以及第二真值字段，所述第三标识字段用于标识训练识别模型所使用的样本图像，所述第三位置字段用于表示所述第三标识字段所标识的样本图像中存在目标的图像区域，所述第二真值字段用于表示训练所述识别模型时所述第三标识字段所标识的样本图像的真值，所述识别训练数据中所述第三标识字段携带有所述第二标识信息，所述第三位置字段携带有所述位置信息，所述第二真值字段携带有所述真值信息。

在一种可能的实施例中，所述检测数据转化模块602对所述训练数据全量信息进行格式转化，得到预设第二格式的检测训练数据，包括：

删除所述训练数据全量信息中的第一真值字段；

在一种可能的实施例中，所述识别数据转化模块604对所述训练数据全量信息进行格式转化，得到预设第三格式的识别训练数据，包括：

所述识别数据转化模块604将第一真值字段转化为所述预设第三格式中的第二真值字段，包括：

参见图7，图7为本申请实施例提供的模型训练装置的一种结构示意图，所述装置包括：

训练数据接获取块701，用于获取第一标识信息、位置信息以及真值信息，所述标识信息用于标识样本图像，所述位置信息用于表示所述标识信息所标识的样本图像中存在目标的图像区域，所述真值信息用于表示所述图像区域内存在的目标的真值；

模型训练模块702，用于按照所述第一标识信息所标识的样本图像、所述位置信息所表示的图像区域训练检测模型，并按照所述第一标识信息所标识的样本图像、所述位置信息所表示的图像区域、以及所述真值信息所表示的真值训练识别模型。

在一种可能的实施例中，所述模型训练模块702按照所述标识信息所标识的样本图像、所述位置信息所表示的图像区域训练检测模型，包括：

基于所述损失函数，调整所述检测模型的模型参数。

在一种可能的实施例中，所述训练数据获取模块701，还用于获取所述样本图像的类别信息，所述类别信息用于表示所述位置信息所表示的图像区域内存在的目标的类别；

在一种可能的实施例中，所述模型训练模块702按照所述第一标识信息所标识的样本图像、所述位置信息所表示的图像区域、以及所述真值信息所表示的真值训练识别模型，包括：

基于所述损失函数，调整所述检测模型的模型参数。

本申请实施例还提供了一种电子设备，如图8所示，包括：

存储器801，用于存放计算机程序；

处理器802，用于执行存储器801上所存放的程序时，可以实现如下步骤：

删除所述训练数据全量信息中的第一真值字段；

在其他可能的实施例中，也可以实现如下步骤：

基于所述损失函数，调整所述检测模型的模型参数。

在一种可能的实施例中，所述方法还包括：

基于所述损失函数，调整所述检测模型的模型参数。

上述电子设备提到的存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一训练数据获取方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一训练数据获取方法。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一模型训练方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一模型训练方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质以及计算机程序产品的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种训练数据获取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述训练数据全量信息进行格式转化，得到预设第二格式的检测训练数据，包括：

删除所述训练数据全量信息中的第一真值字段；

3.根据权利要求1所述的方法，其特征在于，所述对所述训练数据全量信息进行格式转化，得到预设第三格式的识别训练数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述真值信息为真值序列，所述真值序列中第i个元素用于表示所述位置信息所表示的图像区域内按照预设规则排序的第i个目标的真值，i为不小于1且不大于所述真值序列长度的任一正整数；

5.一种模型训练方法，其特征在于，所述方法包括：

6.根据权利要求5所述的方法，其特征在于，所述按照所述标识信息所标识的样本图像、所述位置信息所表示的图像区域训练检测模型，包括：

基于所述损失函数，调整所述检测模型的模型参数。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求5所述的方法，其特征在于，所述按照所述第一标识信息所标识的样本图像、所述位置信息所表示的图像区域、以及所述真值信息所表示的真值训练识别模型，包括：

基于所述损失函数，调整所述检测模型的模型参数。

9.一种训练数据获取装置，其特征在于，所述装置包括：

10.一种模型训练装置，其特征在于，所述装置包括：