CN111737479B

CN111737479B - 数据获取方法、装置、电子设备及存储介质

Info

Publication number: CN111737479B
Application number: CN202010881942.0A
Authority: CN
Inventors: 杨华; 胡毅奇; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-11-17
Anticipated expiration: 2040-08-28
Also published as: CN111737479A

Abstract

本申请公开了一种数据获取方法、装置、电子设备及存储介质，涉及数据处理技术领域，该方法包括：获取候选数据集，所述候选数据集包括多个第一候选子数据；将每个所述第一候选子数据输入至初级网络模型，得到每个所述第一候选子数据对应的第一标签、类别置信度和数据置信度；确定每个所述第一候选子数据对应的所述类别置信度和所述数据置信度是否满足预设条件；若所述第一候选子数据对应的类别置信度和所述数据置信度满足预设条件，则将所述第一标签和所述第一标签对应的第一候选子数据存储至所述预训练数据集，得到目标数据。本申请通过确定类别置信度与数据置信度是否满足预设条件可以更加快速有效的获取到目标数据。

Description

数据获取方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，更具体地，涉及一种数据获取方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的发展，机器学习算法的应用越来越广泛，人工智能正走入人们的生活，如平时线上购物中智能客服机器人就是基于用户的问答训练数据获取的，然而由于用户的不断增加，用户数据正飞速累计，对海量的数据进行标记也成为目前急需解决的问题之一。

发明内容

鉴于上述问题，本申请提出了一种数据获取方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种数据获取方法，该方法包括：获取候选数据集，候选数据集包括多个第一候选子数据，将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度，第一标签为第一候选子数据对应的标签数据，初级网络模型由预训练数据集训练而成，预训练数据集包括多个训练数据和多个标签数据，每个训练数据对应一个标签数据，数据置信度用于表示初级网络模型在第一候选子数据上的训练效果，确定每个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件，若第一候选子数据对应的类别置信度和数据置信度满足预设条件，则将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据。

进一步地，确定每个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件，包括：确定每个第一候选子数据的类别置信度是否大于第一置信阈值，第一置信阈值用于判断第一候选子数据的类别置信度是否属于高类别置信度；如果类别置信度大于第一置信阈值，则确定每个第一候选子数据的数据置信度是否大于第二置信阈值，第二置信阈值用于确定第一候选子数据的数据置信度的高低；若数据置信度大于第二置信阈值，则确定类别置信度和数据置信度满足预设条件。

进一步地，如果类别置信度小于第一置信阈值，则确定类别置信度是否大于第三置信阈值，第三置信阈值小于第一置信阈值，第三置信阈值用于判断第一候选子数据的类别置信度是否属于中类别置信度或者低类别置信度，若类别置信度大于第三置信阈值，则接收用户输入的第二标签，第二标签与第一候选子数据对应，将第二标签和第一候选子数据存储至预训练数据集，得到目标数据。

进一步地，如果类别置信度小于第三置信阈值，则确定数据置信度是否大于第二置信阈值，若数据置信度大于第二置信阈值，则接收用户输入的第二标签，第二标签与第一候选子数据对应，将第二标签和第一候选子数据存储至预训练数据集，得到目标数据。

进一步地，当类别置信度小于第三置信阈值，且数据置信度小于第二置信阈值时，接收用户输入的第二候选子数据，第二候选子数据与第一标签对应，将第二候选子数据和第一标签存储至预训练数据集，得到目标数据。

进一步地，将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度之前，还包括：获取验证数据集，验证数据集包括多个标准候选数据和标准候选数据数据对应的标准标签；将验证数据集输入至初级网络模型，得到每个标准候选数据对应的预测标签和预测概率；根据标准标签和预测标签对标准候选数据进行分类，得到多个类别的验证子数据集；获取每个类别下验证子数据集对应的预测概率平均值，并将预测概率平均值作为该类别对应的类别置信度。

进一步地，获取每个类别下验证子数据集对应的预测概率平均值，并将预测概率平均值作为该类别对应的类别置信度之后，包括：将验证数据集下每个类别对应的类别置信度进行从高到低排序，得到类别置信度排序结果；按照预设比例对类别置信度排序结果进行划分，得到第一划分结果、第二划分结果和第三划分结果，并将第一划分结果中的最后一个类别置信度作为第一置信阈值，以及将第二划分结果中的最后一个类别置信度作为第三置信阈值。其中，预设比例可以为1:2:3。

进一步地，若第一候选子数据对应的类别置信度和数据置信度满足预设条件，则将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据之后，包括：利用目标数据对初级网络模型进行更新，得到目标网络模型。

进一步地，确定每个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件，包括：根据每个第一标签对候选数据集中的第一候选子数据进行分组，得到多个数据组，每个数据组至少包括一个候选子数据；按照数据置信度对每个数据组下的候选子数据进行从高到低排序，得到候选子数据排序结果；基于候选子数据排序结果的顺序分别确定每个候选子数据对应的类别置信度和数据置信度是否满足预设条件。

进一步地，基于候选子数据排序结果的顺序分别确定每个候选子数据对应的类别置信度和数据置信度是否满足预设条件，包括：获取候选数据集中第一候选子数据的数量，并确定第一候选子数据的数量是否小于第一数量阈值；若第一候选子数据的数量小于第一数量阈值，则确定候选子数据对应的类别置信度和数据置信度是否满足预设条件。

进一步地，基于候选子数据排序结果的顺序分别确定每个候选子数据对应的类别置信度和数据置信度是否满足预设条件，包括：确定预训练数据集中第一候选子数据的数量，并确定第一候选子数据的数量是否大于第二数量阈值；若第一候选子数据的数量大于第二数量阈值，则确定候选子数据对应的类别置信度和数据置信度是否满足预设条件。

第二方面，本申请实施例提供了一种数据获取装置，该装置包括：获取模块、采集模块、确定模块以及存储模块。其中，获取模块，用于获取候选数据集，候选数据集包括多个第一候选子数据。输入模块，用于将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度，第一标签为第一候选子数据对应的标签数据，初级网络模型由预训练数据集训练而成，预训练数据集包括多个训练数据和多个标签数据，每个训练数据对应一个标签数据，数据置信度用于表示初级网络模型在第一候选子数据上的训练效果。确定模块，用于确定每个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件。存储模块，用于若第一候选子数据对应的类别置信度和数据置信度满足预设条件，则将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据。

第三方面，本申请实施例提供了一种电子设备，其包括：存储器、一个或多个处理器以及一个或多个应用程序。其中，一个或多个处理器与存储器耦接。一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行如上述第一方面的方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，该计算机可读取存储介质中存储有程序代码，该程序代码可被处理器调用执行如上述第一方面的方法。

本申请实施例提供的数据获取方法、装置、电子设备及存储介质，该方法可以通过获取每个第一候选子数据对应的类别置信度和数据置信度来确定是否将第一标签和第一标签对应的第一候选子数据存储至预训练数据集。具体的，本申请可以先获取候选数据集，该候选数据集包括多个第一候选子数据，而后将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度，在此基础上确定每个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件，如果满足预设条件，则将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据。本申请实施例可以通过判断第一候选子数据的类别置信度和数据置信度是否满足预设条件来不断更新预训练数据集，即本申请通过类别置信度和数据置信度的判定可以快速有效的实现目标数据的获取。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请第一实施例提供的数据获取方法的流程示意图。

图2示出了本申请第二实施例提供的数据获取方法的流程示意图。

图3示出了本申请第三实施例提供的数据获取方法的流程示意图。

图4示出了本申请第四实施例提供的数据获取方法的流程示意图。

图5示出了本申请第五实施例提供的数据获取方法的流程示意图。

图6示出了本申请第六实施例提供的数据获取方法的流程示意图。

图7示出了本申请第七实施例提供的数据获取方法的流程示意图。

图8示出了本申请第七实施例提供的数据获取方法中第一候选子数据选择示意图。

图9示出了本申请第八实施例提供的数据获取装置的模块框图。

图10示出了本申请第八实施例提供的数据获取装置中确定模块830的模块框图。

图11是本申请第十实施例的用于执行根据本申请实施例的数据获取方法的电子设备的框图。

图12是本申请第十一实施例的用于保存或者携带实现根据本申请实施例的数据获取方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，对于大量数据标记难的问题，人们提出了一些自动标记方法，如利用弱（半）监督学习、主动学习等进行数据的自动标记。弱监督学习是在没有人类标记情况下对未标记数据进行分析、利用的一种算法，由于一些场景出现的噪声数据，通过弱监督学习生成的标签数据中容易存储错误的数据标记，其在一定程度上对模型的训练会产生极大的负面影响，如此也使得弱监督学习的使用场景受限。主动学习是基于一些数据分布特征如多样性以及不确定性等对未标记数据进行分析及利用的一种算法，即主动学习主要是通过最大化模型选择出需要标记的数据，并提供给标注人员进行标记。因此，如何制定数据选择策略进行数据选择和数据标记，以及如何利用已标记数据训练得到的模型来挖掘更多未标记数据变得越来越重要。

为了改善上述问题，发明人提出了本申请实施例中的数据获取方法、装置、电子设备及存储介质本申请实施例，该方法可以通过判断第一候选子数据的类别置信度和数据置信度是否满足预设条件来不断更新预训练数据集，即本申请通过类别置信度和数据置信度的判定可以快速有效的实现目标数据的获取。

下面将通过具体实施例对本申请实施例提供的数据获取方法、装置、电子设备及存储介质进行详细说明。

第一实施例

请参阅图1，图1示出了本申请实施例提供的数据获取方法的流程示意图，本方法可以包括步骤S110至步骤S140。

步骤S110：获取候选数据集，候选数据集包括多个第一候选子数据。

作为一种方式，本申请可以应用于电子设备，而该电子设备则可以是智能手机、平板电脑等，电子设备可以获取候选数据集，所述候选数据集也可以称为未标记数据集，即候选数据中包含的第一候选子数据均是未标记的数据。具体来说，候选数据集中包括的多个第一候选子数据属于无标签数据，即未标记数据集由大量的未标记数据组成。另外，候选数据集中包括的多个第一候选子数据可以是图像数据、文本数据或者语音数据等中的至少一种，即候选数据集中包括的第一候选子数据可以全部都是图像数据，也可以全部都是文本数据，也可以全部都是语音数据，或者也可以是图像数据、文本数据以及语音数据的任意组合，第一候选子数据具体指的是哪一类型的数据这里不进行明确限制，可以根据实际情况进行选择。

在一些实施方式中，候选数据集中的多个第一候选子数据可以是通用的数据集中的数据，也可以是用户根据其实际使用需求获取的数据，这些数据可以是用户手动生成的，或者也可以是利用网络爬虫从互联网中获取的。另外，候选数据集中的多个第一候选子数据也可以是用户利用图像处理、文本预测处理以及语音预处理等获取的，具体的，电子设备可以先获取基础数据集，然后对所述基础数据集进行预处理得到第一候选子数据。例如，当基础数据集中的数据是图像时，本申请可以对所述基础数据集中的图像数据进行去噪、滤波、缩放、旋转以及镜像等产生更多的第一候选子数据以供用户使用。

步骤S120：将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度。

作为一种方式，本申请获取到候选数据集后可以按照预设规则将每个所述第一候选子数据输入至初级网络模型，利用所述初级网络模型得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度，其中，初级网络模型可以是语义预训练模型，本申请中初级网络模型可以是一个基于深度学习的分类模型，所述初级网络模型可以是少量已标记的数据集通过训练获取的。另外，第一标签是第一候选子数据对应的标签数据，所述初级网络模型由预训练数据集训练而成，预训练数据集包括多个训练数据和多个标签数据，每个训练数据对应一个标签数据。

在一些实施方式中，第一候选子数据对应的类别置信度可以是初级网络模型在验证数据集上每个类别的验证准确率，即类别置信度可以是第一候选子数据属于某一类别的置信度，类别置信度可以是验证数据集中某一类别下所有类别置信度的平均值，或者也可以是某一类别下所有类别置信度的中值等。本申请实施例中，获取类别置信度的前提是已训练好的初级网络模型和验证数据集，所述验证数据集可以包括多个标准候选数据和该标准候选数据对应的标准标签，即类别置信度可以是初级网络模型对验证数据进行预测后输出的预测标签以及对应的概率。候选数据集中包含的第一候选子数据的类型和验证数据集中包含的标准候选数据集的类型相同，如第一候选子数据是图像，标准候选数据也是图像；第一候选子数据是文本，标准候选数据也是文本；第一候选子数据是语音，标准候选数据也是语音。第一候选子数据与标准候选子数据的不同之处在于，第一候选子数据没有对应的标签数据，而标准候选子数据则有对应的标签数据。

在另一些实施方式中，数据类别置信度指的是第一候选子数据输入至初级网络模型得到的预测准确率，数据置信度反映了初级网络模型在第一候选子数据上的训练效果，当数据置信度较高时，说明初级网络模型对第一候选子数据的预测的正确率较高，反之则说明初级网络模型对第一候选子数据的判断不准确，即初级网络模型对第一候选子数据的预测可能是错误的。显然，数据置信度可以是初级网络模型对第一候选子数据进行预测时输出的预测准确率，而第一标签则是初级网络模型对第一候选子数据进行预测时输出的预测标签，本申请可以根据数据置信度的大小将第一候选子数据分为高数据置信度数据和低数据置信度数据。具体的，获取到第一候选子数据对应的数据置信度后，可以判断所述第一候选子数据对应的数据置信度是否大于第二置信阈值，如果大于第二置信阈值，则确定所述第一候选子数据为高数据置信度数据；如果第一候选子数据对应的数据置信度小于或者等于第二置信阈值，则确定所述第一候选子数据为低数据置信度数据。

为了更清楚的理解第一标签、类别置信度以及数据置信度之间的关系，本申请给出如下具体实施例，如用户将图像A输入至初级网络模型，初级网络模型的输出是“猫：95.23%”，此时可以确定图像A对应的第一标签为“猫”，而图像A对应的数据置信度则为95.23%，同时通过验证数据集确定出“猫”这一类别的准确率为96.50%，此时可以确定猫的类别置信度为96.50%。因此，将图像A输入至初级网络模型，得到图像A对应的第一标签是“猫”、类别置信度为96.50%，以及数据置信度为95.23%。本申请可以将第一候选子数据、第一标签、数据置信度以及类别置信度表示成为：第一候选子数据=（第一标签，类别置信度，数据置信度），如上述示例中图像A以及图像A对应的第一标签、类别置信度以及数据置信度就可以表示成：图像A=（猫，96.50%，95.23%），第一候选子数据、第一标签、数据置信度以及类别置信度具体如何表示这里不进行明确限制。

步骤S130：确定每个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件。

在一些实施方式中，获取到第一候选子数据对应的类别置信度和数据置信度后，本申请可以判断每个所述第一候选子数据对应的类别置信度和数据置信度是否满足预设条件，如果第一候选子数据对应的类别置信度和数据置信度是否满足预设条件，则将所述第一候选子数据和其对应的第一标签存储至预训练数据集，即进入步骤S140。另外，如果第一候选子数据对应的类别置信度和数据置信度不满足预设条件，则获取下一个第一候选子数据，然后获取所述下一个候选子数据对应的第一标签、类别置信度和数据置信度，并再次判断下一个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件。作为另一种方式，如果第一候选子数据对应的类别置信度和数据置信度不满足预设条件，则可以判断所述类别置信度和数据置信度是否满足第二条件，如果满足第二条件则接收用户输入的标签，如果不满足第二条件则接收用户输入的数据，第二条件具体指的是什么请参阅后面实施例的介绍。

作为一种方式，确定第一候选子数据对应的类别置信度和数据置信度是否满足预设条件中，所述预设条件可以是所述第一候选子数据对应的数据置信度是否大于类别置信度，或者也可以是所述第一候选子数据对应的数据置信度是否大于数据置信阈值，且所述类别置信度大于类别置信阈值，如果是，则确定第一候选子数据对应的类别置信度和数据置信度满足预设条件。换句话说，确定每个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件可以是判断所述类别置信度是否满足第一预设子条件，以及判断所述数据置信度是否满足第二预设子条件，当所述类别置信度和数据置信度均满足条件时，才可以确定所述第一候选子数据对应的类别置信度和数据置信度满足预设条件。

步骤S140：将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据。

作为一种方式，当确定第一候选子数据对应的类别置信度和数据置信度满足预设条件时，本申请可以将所述第一候选子数据和其对应的第一标签存储至预训练数据集，得到目标数据。另外，第一候选子数据和第一标签存储可以按照一一对应关系存储至预训练数据集的，显然，本申请实施例中一个第一候选子数据对应一个第一标签。

作为另一种方式，每个第一标签可以包括多个第一子标签，即将第一候选子数据输入至初级网络模型后可以输出多个第一子标签和每个子标签对应的准确率，此时电子设备则可以确定所述多个第一子标签是否相同，如果所述多个第一子标签相同则将这些第一子标签对应的类别置信度作为第一候选子数据的类别置信度。例如，第一候选子数据A输入至初级网络模型后，输出是“猫1：98%，猫2：94%”，显然，第一候选子数据A中包含有两个子标签，这两个子标签分别是猫1和猫2，因猫1和猫2都是猫，因此两个子标签相同，又因猫的类别置信度为97.5%，故此时第一候选子数据A对应的类别置信度即为97.5%。另外，在存在多个第一子标签，且所述多个第一子标签相同时，本申请可以获取每个所述第一子标签的预测准确率，并将这些与预测准确率的平均值作为数据置信度。如上述示例中，第一候选子数据A对应的数据置信度即为（98%+94%）/2=95%。

作为另一种方式，如果所述多个第一子标签不相同，则统计每个第一子标签出现的数量，并将数量最多的第一子标签作为目标标签，同时将该目标标签对应的类别置信度作为第一候选子数据的类别置信度。例如，第一候选子数据B输入至初级网络模型后，输出是“猫1：98%；猫2：94%；狗1：96%，猫3:92.2%”，显然，第一候选子数据B中包含有四个子标签，这四个子标签分别是猫1、猫2猫3和狗1，此时可以确定猫的数量最多，又因猫的类别置信度为97.5%，故此时第一候选子数据B对应的类别置信度可以为97.5%。同理，本申请可以获取每个所述第一子标签的预测准确率，并将这些与预测准确率的平均值作为数据置信度。作为另一种方式，如果所述多个第一子标签不相同，本申请也可以获取所有第一子标签对应的置信度求平均值，而后将获取的平均值作为第一候选子数据对应的类别置信度。

在一些实施方式中，将第一标签和第一标签对应的第一候选子数据存储至预训练数据集后，本申请可以利用所述目标数据对所述初级网络模型进行更新，得到目标网络模型。通过上述介绍可以知道，本申请实施例获取到候选数据集后可以按照预设规则将每个所述第一候选子数据输入至初级网络模型，因此本申请需要确定每个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件，如果满足预设条件，则将所述第一候选子数据和其对应的第一标签存储至预训练数据集，而后获取下一个第一候选子数据，并再次判断下一个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件，如果满足预设条件则将下一个候选子数据和其对应的标签存储至预训练数据集，直至所述候选数据集中的每个第一候选子数据均判断完成，则循环结束，此时则可以将最新的预训练数据集输入至初级网络模型，得到目标网络模型，显然，在此过程中预训练数据集中的数据不断增多。

在另一些实施方式中，在确定当前第一候选子数据满足预设条件时，将其与第一标签存储至预训练数据集，得到目标数据后可以将该目标数据输入至初级网络模型，利用目标数据对所述初级网络模型进行更新，得到目标网络模型。然后，将目标网络模型作为初级网络模型，并获取下一个第一候选子数据，同时将所述第一候选子数据输入至更新后的初级网络模型，得到其对应的第一标签、类别置信度以及数据置信度，当下一个第一候选子数据对应的类别置信度和数据置信度满足预设条件时，将所述下一个第一候选子数据存储至预训练数据集，以实现对预训练数据集的更新。再次利用更新后的预训练数据集对初级网络模型进行更新，直到候选数据集中的所有第一候选子数据遍历完成则循环结束。

本申请一个实施例提供的数据获取方法可以先获取候选数据集，该候选数据集包括多个第一候选子数据，而后将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度，在此基础上确定每个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件，如果满足预设条件，则将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据。本申请实施例可以通过判断第一候选子数据的类别置信度和数据置信度是否满足预设条件来不断更新预训练数据集，即本申请通过类别置信度和数据置信度的判定可以快速有效的实现目标数据的获取。

第二实施例

请参阅图2，图2示出了本申请实施例提供的数据获取方法的流程示意图，本方法可以包括步骤S210至步骤S250。

步骤S210：获取候选数据集，候选数据集包括多个第一候选子数据。

步骤S220：将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度。

作为一种方式，步骤S210至步骤S220上述实施例已进行了详细介绍这里就不进行一一赘述。

步骤S230：确定每个第一候选子数据的类别置信度是否大于第一置信阈值。

本申请实施例中，在将第一候选子数据输入至初级网络模型得到候选子数据对应的第一标签、类别置信度以及数据置信度后，本申请可以确定每个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件。具体的，先判断每个第一候选子数据的类别置信度是否大于第一置信阈值，如果第一候选子数据的类别置信度大于第一置信阈值，则确定当前第一候选子数据的数据置信度是否大于第二置信阈值，即进入步骤S240，其中，第一置信阈值用于判断第一候选子数据的类别置信度是否属于高类别置信度，而第二置信阈值则用于确定第一候选子数据的数据置信度的高低。作为一种方式，第一置信阈值可以是根据经验值预先设置的，即第一置信阈值设置好以后不再发生改变，所述第一置信阈值可以称为类别置信度阈值，同时第一置信阈值也可以根据实际情况进行设置，第一置信阈值具体如何根据实际情况进行设置后面实施例将会进行详细介绍。

步骤S240：确定每个第一候选子数据的数据置信度是否大于第二置信阈值。

在一些实施方式中，当确定第一候选子数据的类别置信度大于第一置信阈值时，确定第一候选子数据的数据置信度是否大于第二置信阈值，如果第一候选子数据的数据置信度大于第二置信阈值，则确当前第一候选子数据的类别置信度和数据置信度满足预设条件，如果第一候选子数据的数据置信度小于第二置信阈值，则获取下一个第一候选子数据，并再次判断下一个第一候选子数据的数据置信度和类别置信度是否满足预设条件。作为一种方式，第二置信阈值也可以称为数据置信度阈值，其主要用于确定第一候选子数据属于高数据置信度数据还是低数据置信度数据，即当第一候选子数据的数据置信度大于第二置信阈值时，表明所述第一候选子数据为高数据置信度数据；当第一候选子数据的数据置信度小于第二置信阈值时，表明第一候选子数据位低数据置信度数据。另外，第二置信阈值也可以根据经验值进行设置。如果第一候选子数据的类别置信度小于第一置信阈值，则获取下一个候选子数据对应的第一标签、类别置信度以及数据置信度，即进入步骤S220；如果第一候选子数据的数据置信度小于第二置信阈值，则获取下一个候选子数据对应的第一标签、类别置信度以及数据置信度，同理进入步骤S220。

需要说明的是，本申请在利用初级网络模型获取到第一候选子数据对应的第一标签、数据置信度以及类别置信度时，可以先判断类别置信度是否大于第一置信阈值，如果类别置信度大于第一置信阈值，则再判断数据置信度是否大于第二置信阈值；或者本申请也可以先判断数据置信度是否大于第二置信阈值，如果数据置信度大于第二置信阈值，则再判断类别置信度是否大于第一置信阈值；或者同时判断类别置信度是否大于第一置信阈值以及数据置信度是否大于第二置信阈值，具体先判断哪个后判读哪个这里不进行明确限制可以根据实际情况进行选择。另外，当类别置信度小于第一置信阈值时，本申请也可以检测用户是否有数据输入，如果有数据输入，则根据输入的数据执行相应的数据处理操作。

步骤S250：确定类别置信度和数据置信度满足预设条件，将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据。

在一些实施方式中，当确定类别置信度和数据置信度满足预设条件时，本申请可以将第一候选子数据作为自标记类型，所述自标记类型是指使用初级网络模型对第一候选子数据进行预测，将概率最高的预测标签作为该条数据的标签，即当第一候选子数据对应的类别置信度和数据置信度均大于置信阈值时，可以将所述第一候选子数据对应的第一标签作为第一候选子数据对应的标签。例如，第一候选子数据A输入至初级网络模型，输出是[第一标签：猫，类别置信度:95.2%，数据置信度是91%.3]，而第一置信阈值为95%，第二置信阈值为90%，显然，第一候选子数据A的类别置信度大于第一置信阈值，且其数据置信度大于第二置信阈值，即类别置信度和数据置信度满足预设条件，此时即可将第一标签“猫”作为第一候选子数据A对应的标签，并将第一候选子数据A以及第一标签“猫”按照一一对应的关系存储至预训练数据集。综上所述，自标记类型本质是利用初级网络模型对数据进行标记。

本申请一个实施例提供的数据获取方法可以先获取候选数据集，该候选数据集包括多个第一候选子数据，而后将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度，在此基础上确定每个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件，如果满足预设条件，则将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据。本申请实施例可以通过判断第一候选子数据的类别置信度和数据置信度是否满足预设条件来不断更新预训练数据集，即本申请通过类别置信度和数据置信度的判定可以快速有效的实现目标数据的获取。另外，本申请通过引入第一置信阈值和第二置信阈值可以更加快速有效的对候选数据集中的第一候选子数据进行标记，降低人工标记的成本，同时也可以保证标记数据获取的准确性。

第三实施例

请参阅图3，图3示出了本申请实施例提供的数据获取方法的流程示意图，本方法可以包括步骤S310至步骤S380。

步骤S310：获取候选数据集，候选数据集包括多个第一候选子数据。

步骤S320：将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度。

作为一种方式，步骤S310至步骤S320上述实施例已进行了详细介绍这里就不进行一一赘述。

步骤S330：确定每个第一候选子数据的类别置信度是否大于第一置信阈值。

在一些实施方式中，当第一候选子数据的类别置信度大于第一置信阈值时，本申请可以确定第一候选子数据的数据置信度是否大于第二置信阈值，即进入步骤S340；当第一候选子数据的数据置信度小于第一置信阈值时，本申请可以确定所述第一候选子数据的类别置信度是否大于第三置信阈值，即进入步骤S360。

步骤S340：确定每个第一候选子数据的数据置信度是否大于第二置信阈值。

步骤S350：确定类别置信度和数据置信度满足预设条件，将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据。

可选的，步骤S340至步骤S350上述实施例已进行了详细的介绍这里就不再赘述。

步骤S360：确定类别置信度是否大于第三置信阈值。

本申请实施例中，第三置信阈值小于第一置信阈值，所述第三置信阈值用于判断第一候选子数据的类别置信度是否属于中类别置信度或者低类别置信度，即当第一候选子数据的类别置信度小于第一置信阈值且大于第三置信阈值时，表明第一候选子数据的类别置信度属于中类别置信度；当第一候选子数据的类别置信度既小于第一置信阈值又小于第三置信阈值时，表明第一候选子数据的类别置信度数据属于低类别置信度。另外，第三置信阈值和第一置信阈值类似，其既可以是经验值也可以是根据用户的实际情况动态设置的，当确定第一候选子数据的类别置信度大于第三置信阈值时，检测是否接收到用户输入的第二标签，如果接收到用户输入的第二标签，则将第二标签和第一候选子数据存储至预训练数据集，得到目标数据，即进入步骤S370。

步骤S370:接收用户输入的第二标签，并将第二标签和第一候选子数据存储至预训练数据集，得到目标数据。

在一些实施方式中，第二标签是用户根据第一候选数据的实际情况手动输入的标签，如此做的目的是为了保证最后获取的目标数据更加准确，当第一候选子数据的类别置信度大于第三置信阈值且小于第一置信阈值时，表明利用初级网络模型获取的第一标签的可信度较低，因此需要用户手动输入第一候选子数据对应的标签。例如，第一候选子数据B输入至初级网络模型，输出是[第一标签：猫，类别置信度:72.2%，数据置信度是91%.3]，而第三置信阈值为70%，显然，第一候选子数据B的类别置信度大于第三置信阈值，同时检测到用户针对第一候选子数据B输入了第二标签“狗”，此时则可以将第二标签“狗”作为第一候选子数据B对应的标签，并将第一候选子数据B以及第二标签“狗”按照一一对应的关系存储至预训练数据集。

在另一些实施方式中，当类别置信度小于第三置信阈值时，本申请可以确定数据置信度是否大于第二置信阈值，如果数据置信度大于第二置信阈值，则检测是否接收到用户输入的第二标签，并将第二标签和第一候选子数据存储至预训练数据集，得到目标数据，即进入步骤S380。

步骤S380：当数据置信度大于第二置信阈值时，接收用户输入的第二标签，并将第二标签和第一候选子数据存储至预训练数据集，得到目标数据。

本申请实施例中，如果确定第一候选子数据的类别置信度小于第三置信阈值，且数据置信度大于第二置信阈值时，本申请可以接收用户输入的第二标签，并将第二标签和第一候选子数据存储至预训练数据集，得到目标数据。例如，第一候选子数据C输入至初级网络模型，输出是[第一标签：狗，类别置信度:53.2%，数据置信度是91%.3]，而第三置信阈值为70%，第二置信阈值为90%，显然，第一候选子数据C的类别置信度小于第三置信阈值，且其数据置信度大于第二置信阈值，同时检测到用户针对第一候选子数据C输入了第二标签“猪”，此时则可以将第二标签“猪”作为第一候选子数据C对应的标签，并将第一候选子数据C以及第二标签“猪”按照一一对应的关系存储至预训练数据集。

在另一些实施方式中，如果第一候选子数据的类别置信度大于第一置信阈值，且其数据置信度小于第二置信阈值时，本申请可以检测是否接收到用户输入的第二标签，如果接收到用户输入的第二标签，则将第二标签和第一候选子数据按照一定的对应关系存储至预训练数据集，得到目标标签。本申请可以将用户标记的第一候选子数据称为有数据找标签类型，该类型下的第一候选子数据的标签均是用户手动输入的。

本申请一个实施例提供的数据获取方法可以先获取候选数据集，该候选数据集包括多个第一候选子数据，而后将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度，在此基础上确定每个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件，如果满足预设条件，则将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据。本申请实施例可以通过判断第一候选子数据的类别置信度和数据置信度是否满足预设条件来不断更新预训练数据集，即本申请通过类别置信度和数据置信度的判定可以快速有效的实现目标数据的获取。另外，本申请通过引入第三置信阈值可以更加准确的获取到第一候选子数据对应的标签，在一定程度上可以保证最终获取的目标数据的准确性，即本申请实施例通过缩小标注时的第一候选子数据数量，从而提高标注效率。

第四实施例

请参阅图4，图4示出了本申请实施例提供的数据获取方法的流程示意图，本方法可以包括步骤S410至步骤S480。

步骤S410：获取候选数据集，候选数据集包括多个第一候选子数据。

步骤S420：将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度。

作为一种方式，步骤S410至步骤S420上述实施例已进行了详细介绍这里就不进行一一赘述。

步骤S430：确定每个第一候选子数据的类别置信度是否大于第一置信阈值。

步骤S440：确定每个第一候选子数据的数据置信度是否大于第二置信阈值。

步骤S450：确定类别置信度和数据置信度满足预设条件，将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据。

步骤S460：确定类别置信度是否大于第三置信阈值。

步骤S470:接收用户输入的第二标签，并将第二标签和第一候选子数据存储至预训练数据集，得到目标数据。

步骤S480：当数据置信度小于第二置信阈值时，接收用户输入的第二候选子数据，并将第二候选子数据和第一标签存储至预训练数据集，得到目标数据。

本申请实施例中，当类别置信度小于第三置信阈值时，判断第一候选子数据的数据置信度是否大于第二置信阈值，如果第一候选子数据的数据置信度大于第二置信阈值，则接收用户输入的第二标签，并将第二标签和第一候选子数据存储至预训练数据集，得到目标数据。如果第一候选子数据的数据置信度小于第二置信阈值，则接收用户输入的第二候选子数据，并将第二候选子数据和第一标签存储至预训练数据集，得到目标数据。显然，当第一候选子数据对应的类别置信度小于第三置信阈值，且数据置信度小于第二置信阈值时，说明第一标签在初级网络模型中缺少数据，且不确定所述第一候选子数据的真实标签是否是第一标签，此时则需检测是否接收到用户输入的第二候选子数据。

在一些实施方式中，如果接收到用户输入的第二候选子数据，则将所述第二候选子数据称为有标签找数据类型，有标签找数据需要用户对标签语义理解下，在候选数据集中查找与第一标签对应的数据，如果候选数据集中不存在第一标签对应的数据，则需要用户通过人工创造的方法，对数据进行补充。例如，第一候选子数据D输入至初级网络模型，输出是[第一标签：牛，类别置信度:23.2%，数据置信度是31%.3]，而第三置信阈值为70%，第二置信阈值为90%，显然，第一候选子数据D的类别置信度小于第三置信阈值，且其数据置信度小于第二置信阈值，同时检测到用户输入了第二候选子数据，此时则可以将第一标签“猪”作为第二候选子数据对应的标签，并将第二候选子数据以及第一标签“猪”按照一一对应的关系存储至预训练数据集。显然，有标签给数据类型是指需要用户对某个标签下添加与标签对应的多条数据。

本申请一个实施例提供的数据获取方法可以先获取候选数据集，该候选数据集包括多个第一候选子数据，而后将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度，在此基础上确定每个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件，如果满足预设条件，则将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据。本申请实施例可以通过判断第一候选子数据的类别置信度和数据置信度是否满足预设条件来不断更新预训练数据集，即本申请通过类别置信度和数据置信度的判定可以快速有效的实现目标数据的获取。另外，本申请通过接收用户输入的第二候选子数据可以更加充分全面的对预训练数据集进行不断的补充与更新，其在一定程度上可以满足数据类别的多样性，有利于数据的平衡采样。

第五实施例

请参阅图5，图5示出了本申请实施例提供的数据获取方法的流程示意图，该方法本方法可以包括步骤S510至步骤S580。

步骤S510：获取验证数据集，验证数据集包括多个标准候选数据和标准候选数据对应的标准标签。

作为一种方式，验证数据集可以包括多个标准候选数据，每个标准候选数据存在一个对应的标准标签，即标准候选数据与标准标签通过一一对应的方式存储于验证数据集中，即验证数据集可以包括多个验证子数据，每个验证子数据下包括一个标准候选数据以及该标准候选数据对应的标准标签。

步骤S520：将验证数据集输入至初级网络模型，得到每个标准候选数据对应的预测标签和预测概率。

在一些实施方式中，获取到验证数据集后本申请可以将所述验证数据输入至初级网络模型，并利用所述初级网络模型获取每个标准候选数据对应的预测标签和预测概率，然后根据标准标签和预测标签对标准候选数据进行分类，得到多个类别的验证子数据集，即进入步骤S530。

步骤S530：根据标准标签和预测标签对标准候选数据进行分类，得到多个类别的验证子数据集。

本申请实施例中，当利用初级网络模型获取到验证数据集中包含的标准候选数据对应的预测标签和预测概率，并根据标准标签对标准候选数据进行分类，得到多个类别的验证子数据集时，本申请可以获取每个类别下验证子数据对应的预测概率平均值，并将预测概率平均值作为该类别对应的类别置信度。

步骤S540：获取每个类别下验证子数据集对应的预测概率平均值，并将预测概率平均值作为该类别对应的类别置信度。

作为一个示例，验证数据集包括m个标准候选数据以及n类标签，将m个标准候选数据输入至初级网络模型，得到m个预测标签和m个预测概率，按照n类标签对m个预测标签进行分类，然后获取每个类别对应的预测概率平均值，并将预测概率平均值作为该类别对应的类别置信度。例如，验证数据集包括100个标准候选数据，将其输入至初级网络模型，得到每个标准候选数据的预测标签和预测概率，然后按照预测标签对标准候选数据进行分组，通过统计确定标准候选数据中“狗”标签50个、“猫”标签20个以及“猪”标签30个，分别计算狗的预测概率平均A、猫的预测概率平均B以及猪的预测概率平均C，因此，预测概率平均A可以称为标签“狗”的类别置信度；预测概率平均B可以称为标签“猫”的类别置信度；预测概率平均C可以称为标签“猪”的类别置信度。

综上所述，使用初级网络模型对验证数据集进行预测可以得到预测标签以及对应的概率，此时将预测标签与预测标签匹配的概率作为该条数据的预存概率，其后可以按照标准标签进行分组，如标准标签i下有j条数据预测概率分别为

、

以及

，此时对组内的可信度求均值得到c_i，从而作为该类别的置信度。若通过公式求的类别置信度较高，代表该类的置信度较高，数据可信度高；反之若类别置信度较低，则说明该类别下给出的自标签可能会是错误的标签，需要对该条数据进行纠正。

步骤S550：获取候选数据集，候选数据集包括多个第一候选子数据。

步骤S560：将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度。

步骤S570：确定每个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件。

步骤S580：将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据。

本申请一个实施例提供的数据获取方法可以先获取候选数据集，该候选数据集包括多个第一候选子数据，而后将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度，在此基础上确定每个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件，如果满足预设条件，则将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据。本申请实施例可以通过判断第一候选子数据的类别置信度和数据置信度是否满足预设条件来不断更新预训练数据集，即本申请通过类别置信度和数据置信度的判定可以快速有效的实现目标数据的获取。另外，本申请通过获取每个标签的类别置信度可以使最终获取的目标数据更加准确，在一定程度上可以保护数据类别的平衡。

第六实施例

请参阅图6，图6示出了本申请实施例提供的数据获取方法的流程示意图，本方法可以包括步骤S601至步骤S611。

步骤S601：获取验证数据集，验证数据集包括多个标准候选数据和标准候选数据对应的标准标签。

步骤S602：将验证数据集输入至初级网络模型，得到每个标准候选数据对应的预测标签和预测概率。

步骤S603：根据标准标签和预测标签对标准候选数据进行分类，得到多个类别的验证子数据集。

步骤S604：获取每个类别下验证子数据集对应的预测概率平均值，并将预测概率平均值作为该类别对应的类别置信度。

步骤S605：将验证数据集下每个类别对应的类别置信度进行从高到低排序，得到类别置信度排序结果。

步骤S606：按照预设比例对类别置信度排序结果进行划分，得到第一划分结果、第二划分结果和第三划分结果，并将第一划分结果中的最后一个类别置信度作为第一置信阈值，以及将第二划分结果中的最后一个类别置信度作为第三置信阈值。

作为一种方式，预设比例可以是1:2:3，即按照1:2:3对类别置信度排序结果进行划分，得到第一划分结果、第二划分结果和第三划分结果，然后将所述第一划分结果中的最后一个类别置信度作为第一置信阈值，以及将第二划分结果中的最后一个类别置信度作为第三置信阈值。例如，验证数据集中总共有30种类别，首先将验证数据集中的数据按照其类别置信度从高到低进行降序排序，得到序列C[0.981、0.972、0.958、0.945、0.921、0.883、0.871、0.858、0.847、0.821、0.781、0.778、0.757、0.749、0.726、0.688、0.674、0.658、0.641、0.621、0.586、0.572、0.554、0.549、0.521、0.487、0.452、0.438、0.425、0.321]，然后按照预设比例1:2:3对序列C进行划分，得到第一划分结果的数量是30*1/6=5，第二划分结果的数量是30*2/6=10，第三划分结果的数量是30*3/6=15，因此，第一划分结果对应的序列C1为[0.981、0.972、0.958、0.945、0.921]，第二划分结果对应的序列C2为[0.883、0.871、0.858、0.847、0.821、0.781、0.778、0.757、0.749、0.726]，第三划分结果对应的序列C3为[0.688、0.674、0.658、0.641、0.621、0.586、0.572、0.554、0.549、0.521、0.487、0.452、0.438、0.425、0.321]。此时，则可以将第一划分结果中的最后一个类别置信度作为第一置信阈值，即将序列C1中的第5个类别置信度0.921作为第一置信阈值，同时可以将序列C2中的第10个0.726作为第三置信阈值，本申请通过第一置信阈值和第三置信阈值将类别置信度分成三种不同的类别。另外，本申请可以将第一划分结果对应的区间称为高置信度区间，将第二划分结果对应的区间称为中置信度区间，以及将第三划分结果对应的区间称为低置信区间。

步骤S607：获取候选数据集，候选数据集包括多个第一候选子数据。

步骤S608：将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度。

步骤S609：确定每个第一候选子数据的类别置信度是否大于第一置信阈值。

步骤S610：确定每个第一候选子数据的数据置信度是否大于第二置信阈值。

步骤S611：确定类别置信度和数据置信度满足预设条件，将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据。

本申请一个实施例提供的数据获取方法可以先获取候选数据集，该候选数据集包括多个第一候选子数据，而后将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度，在此基础上确定每个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件，如果满足预设条件，则将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据。本申请实施例可以通过判断第一候选子数据的类别置信度和数据置信度是否满足预设条件来不断更新预训练数据集，即本申请通过类别置信度和数据置信度的判定可以快速有效的实现目标数据的获取。另外，本申请通过动态获取第一置信阈值和第二置信阈值可以保证获取的目标数据更加符合用户的实际需求，降低数据标记的误差。

第七实施例

请参阅图7，图7示出了本申请实施例提供的数据获取方法的流程示意图，本方法可以包括步骤S710至步骤S760。

步骤S710：获取候选数据集，候选数据集包括多个第一候选子数据。

步骤S720：将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度

步骤S730：根据每个第一标签对候选数据集中的第一候选子数据进行分组，得到多个数据组。

步骤S740：按照数据置信度对每个数据组下的候选子数据进行从高到低排序，得到候选子数据排序结果。

步骤S750：基于候选子数据排序结果的顺序分别确定每个候选子数据对应的类别置信度和数据置信度是否满足预设条件。

在一些实施方式中，基于候选子数据排序结果的顺序分别确定每个候选子数据对应的类别置信度和数据置信度是否满足预设条件可以包括：获取所述候选数据集中第一候选子数据的数量，并确定所述第一候选子数据的数量是否小于第一数量阈值，若所述第一候选子数据的数量小于第一数量阈值，则确定所述候选子数据对应的类别置信度和数据置信度是否满足预设条件。

作为另一种方式，基于候选子数据排序结果的顺序分别确定每个候选子数据对应的类别置信度和数据置信度是否满足预设条件还可以包括：确定所述预训练数据集中所述第一候选子数据的数量，并确定所述第一候选子数据的数量是否大于第二数量阈值，若所述第一候选子数据的数量大于第二数量阈值，则确定所述候选子数据对应的类别置信度和数据置信度是否满足预设条件。其中，所述预训练数据集指的是最新的预训练数据集，通过上述介绍可以知道第一候选子数据对应的类别置信度和数据置信度只要满足预设条件，均会将所述第一标签和第一标签对应的第一候选子数据存储至预训练数据集，即预训练数据集中第一候选子数据的数目会不断增多。

步骤S760：将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据。

综上所述，利用初级网络模型对候选数据集中的多个第一候选子数据进行预测后可以得到多个第一标签、类别置信度和数据置信度，而后按照每个第一候选子数据对应第一标签对第一候选子数据进行分组，假设实际情况下有n个第一标签，分为自标签1、自标签2、自标签3至自标签n，其后按照组内的数据置信度由高到低进行降序排序，每组排在最前数据的数据置信度最高，然后在每组中选出数据置信度最大的数据，并判断其类别置信度和数据置信度是否满足预设条件，如图8中的step1步骤选择了每组中数据置信度最高的数据，并将符合预设条件的数据存储至预训练数据集，得到目标数据。其次下一轮也是在每组中选出数据置信度最大的数据，如step2中，则是选择了预标签1中排在第二的数据；当某一组中若没有数据可供选择时，则跳至下一组进行选择，当选择的数据超过第一数量阈值或者已经遍历了所有的第一候选子数据时，则停止选择。

本申请一个实施例提供的数据获取方法可以先获取候选数据集，该候选数据集包括多个第一候选子数据，而后将每个第一候选子数据输入至初级网络模型，得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度，在此基础上确定每个第一候选子数据对应的类别置信度和数据置信度是否满足预设条件，如果满足预设条件，则将第一标签和第一标签对应的第一候选子数据存储至预训练数据集，得到目标数据。本申请实施例可以通过判断第一候选子数据的类别置信度和数据置信度是否满足预设条件来不断更新预训练数据集，即本申请通过类别置信度和数据置信度的判定可以快速有效的实现目标数据的获取。另外，本申请通过选择第一候选子数据可以最大限度保证其平衡性，同时在对初级网络不断更新时，预训练数据集的质量也在不断提升，最大化提高目标数据的准确率，从而提高初级网络模型的准确率。

第八实施例

请参阅图9，图9示出了本申请实施例提供的数据获取装置的模块框图。下面将针对图9所示的模块框图进行阐述，该数据获取装置800包括：获取模块810、输入模块820、确定模块830以及存储模块840。

获取模块810，用于获取候选数据集，所述候选数据集包括多个第一候选子数据。

输入模块820，用于将每个所述第一候选子数据输入至初级网络模型，得到每个所述第一候选子数据对应的第一标签、类别置信度和数据置信度，所述第一标签为所述第一候选子数据对应的标签数据，所述初级网络模型由预训练数据集训练而成，所述预训练数据集包括多个训练数据和多个标签数据，每个所述训练数据对应一个标签数据，所述数据置信度用于表示所述初级网络模型在所述第一候选子数据上的训练效果。

确定模块830，用于确定每个所述第一候选子数据对应的所述类别置信度和所述数据置信度是否满足预设条件。

请参阅图10，确定模块830可以包括第一确定单元831、第二确定单元832以及条件确定单元833。

第一确定单元831，用于确定所述每个所述第一候选子数据的类别置信度是否大于第一置信阈值，所述第一置信阈值用于判断所述第一候选子数据的类别置信度是否属于高类别置信度。

第二确定单元832，用于如果所述类别置信度大于第一置信阈值，则确定每个所述第一候选子数据的数据置信度是否大于第二置信阈值，所述第二置信阈值用于确定所述第一候选子数据的数据置信度的高低。

条件确定单元833，用于若所述数据置信度大于第二置信阈值，则确定所述类别置信度和所述数据置信度满足预设条件。

可选地，确定模块830还用于如果所述类别置信度小于第一置信阈值，则确定所述类别置信度是否大于第三置信阈值，所述第三置信阈值小于所述第一置信阈值，所述第三置信阈值用于判断所述第一候选子数据的类别置信度是否属于中类别置信度或者低类别置信度，若所述类别置信度大于第三置信阈值，则接收用户输入的第二标签，所述第二标签与所述第一候选子数据对应，将所述第二标签和所述第一候选子数据存储至所述预训练数据集，得到目标数据。

可选地，确定模块830还用于如果所述类别置信度小于第三置信阈值，则确定所述数据置信度是否大于第二置信阈值，若所述数据置信度大于第二置信阈值，则接收用户输入的第二标签，所述第二标签与所述第一候选子数据对应，将所述第二标签和所述第一候选子数据存储至所述预训练数据集，得到目标数据。

可选地，确定模块830还用于当所述类别置信度小于第三置信阈值，且所述数据置信度小于第二置信阈值时，接收用户输入的第二候选子数据，所述第二候选子数据与所述第一标签对应，将所述第二候选子数据和所述第一标签存储至所述预训练数据集，得到目标数据。

可选地，确定模块830还用于根据每个所述第一标签对所述候选数据集中的第一候选子数据进行分组，得到多个数据组，每个所述数据组至少包括一个候选子数据，按照所述数据置信度对每个所述数据组下的候选子数据进行从高到低排序，得到候选子数据排序结果，基于所述候选子数据排序结果的顺序分别确定每个候选子数据对应的类别置信度和数据置信度是否满足预设条件。

可选地，确定模块830还用于获取所述候选数据集中第一候选子数据的数量，并确定所述第一候选子数据的数量是否小于第一数量阈值，若所述第一候选子数据的数量小于第一数量阈值，则确定所述候选子数据对应的类别置信度和数据置信度是否满足预设条件。

可选地，确定模块830还用于确定所述预训练数据集中所述第一候选子数据的数量，并确定所述第一候选子数据的数量是否大于第二数量阈值，若所述第一候选子数据的数量大于第二数量阈值，则确定所述候选子数据对应的类别置信度和数据置信度是否满足预设条件。

存储模块840，用于若所述第一候选子数据对应的类别置信度和所述数据置信度满足预设条件，则将所述第一标签和所述第一标签对应的第一候选子数据存储至所述预训练数据集，得到目标数据。

可选地，数据获取装置800还用于获取验证数据集，所述验证数据集包括多个标准候选数据和所述标准候选数据对应的标准标签，将所述验证数据集输入至所述初级网络模型，得到每个所述标准候选数据对应的预测标签和预测概率，根据所述标准标签和所述预测标签对所述标准候选数据进行分类，得到多个类别的验证子数据集，获取每个类别下所述验证子数据集对应的预测概率平均值，并将所述预测概率平均值作为该类别对应的类别置信度。

可选地，数据获取装置800还用于将所述验证数据集下每个所述类别对应的类别置信度进行从高到低排序，得到类别置信度排序结果，按照预设比例对所述类别置信度排序结果进行划分，得到第一划分结果、第二划分结果和第三划分结果，并将所述第一划分结果中的最后一个类别置信度作为第一置信阈值，以及将所述第二划分结果中的最后一个类别置信度作为第三置信阈值。其中，预设比例可以为1:2:3。

可选地，数据获取装置800还用于利用所述目标数据对所述初级网络模型进行更新，得到目标网络模型。

本申请实施例提供的数据获取装置800用于实现前述方法实施例中相应的数据获取方法，并具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的数据获取装置800能够实现前述方法实施例中的各个过程，为描述的方便和简洁，上述描述装置800和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置800或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

第九实施例

请参阅图11，其示出了本申请实施例提供的一种电子设备1000的结构框图。该电子设备1000可以是智能手机、平板电脑等能够运行应用程序的电子设备。本申请中的电子设备1000可以包括一个或多个如下部件：处理器1010、存储器1020以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1020中并被配置为由一个或多个处理器1010执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器1010可以包括一个或者多个处理核。处理器1010利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1020内的指令、程序、代码集或指令集，以及调用存储在存储器1020内的数据，执行电子设备1000的各种功能和处理数据。可选地，处理器1010可以采用数字信号处理（Digital Signal Processing，DSP）、现场可编程门阵列（Field－Programmable Gate Array，FPGA）、可编程逻辑阵列（Programmable Logic Array，PLA）中的至少一种硬件形式来实现。处理器1010可集成中央处理器（Central Processing Unit，CPU）、图像处理器（Graphics Processing Unit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1010中，单独通过一块通信芯片进行实现。

存储器1020可以包括随机存储器（Random Access Memory，RAM），也可以包括只读存储器（Read-Only Memory）。存储器1020可用于存储指令、程序、代码、代码集或指令集。存储器1020可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备1000在使用中所创建的数据（比如电话本、音视频数据、聊天记录数据）等。

第十实施例

请参阅图12，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质1100中存储有程序代码，程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1100可以是诸如闪存、EEPROM（电可擦除可编程只读存储器）、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1100包括非易失性计算机可读介质（non-transitory computer-readable storage medium）。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码1110的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据获取方法，其特征在于，所述方法包括：

获取候选数据集，所述候选数据集包括多个第一候选子数据；

将每个所述第一候选子数据输入至初级网络模型，得到每个所述第一候选子数据对应的第一标签、类别置信度和数据置信度，所述第一标签为所述第一候选子数据对应的标签数据，所述初级网络模型由预训练数据集训练而成，所述预训练数据集包括多个训练数据和多个标签数据，每个所述训练数据对应一个标签数据，所述数据置信度用于表示所述初级网络模型在所述第一候选子数据上的训练效果；

确定每个所述第一候选子数据对应的所述类别置信度和所述数据置信度是否满足预设条件；

若所述第一候选子数据对应的类别置信度和所述数据置信度满足预设条件，则将所述第一标签和所述第一标签对应的第一候选子数据存储至所述预训练数据集，得到目标数据。

2.根据权利要求1所述的方法，其特征在于，所述确定每个所述第一候选子数据对应的所述类别置信度和所述数据置信度是否满足预设条件，包括：

确定所述每个所述第一候选子数据的类别置信度是否大于第一置信阈值，所述第一置信阈值用于判断所述第一候选子数据的类别置信度是否属于高类别置信度；

如果所述类别置信度大于第一置信阈值，

则确定每个所述第一候选子数据的数据置信度是否大于第二置信阈值，所述第二置信阈值用于确定所述第一候选子数据的数据置信度的高低；

若所述数据置信度大于第二置信阈值，则确定所述类别置信度和所述数据置信度满足预设条件。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

如果所述类别置信度小于第一置信阈值，则确定所述类别置信度是否大于第三置信阈值，所述第三置信阈值小于所述第一置信阈值，所述第三置信阈值用于判断所述第一候选子数据的类别置信度是否属于中类别置信度或者低类别置信度；

若所述类别置信度大于第三置信阈值，则接收用户输入的第二标签，所述第二标签与所述第一候选子数据对应；

将所述第二标签和所述第一候选子数据存储至所述预训练数据集，得到目标数据。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

如果所述类别置信度小于第三置信阈值，则确定所述数据置信度是否大于第二置信阈值；

若所述数据置信度大于第二置信阈值，则接收用户输入的第二标签，所述第二标签与所述第一候选子数据对应；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

当所述类别置信度小于第三置信阈值，且所述数据置信度小于第二置信阈值时，接收用户输入的第二候选子数据，所述第二候选子数据与所述第一标签对应；

将所述第二候选子数据和所述第一标签存储至所述预训练数据集，得到目标数据。

6.根据权利要求1所述方法，其特征在于，所述将每个所述第一候选子数据输入至初级网络模型，得到每个所述第一候选子数据对应的第一标签、类别置信度和数据置信度之前，还包括：

获取验证数据集，所述验证数据集包括多个标准候选数据和所述标准候选数据对应的标准标签；

将所述验证数据集输入至所述初级网络模型，得到每个所述标准候选数据对应的预测标签和预测概率；

根据所述标准标签和所述预测标签对所述标准候选数据进行分类，得到多个类别的验证子数据集；

获取每个类别下所述验证子数据集对应的预测概率平均值，并将所述预测概率平均值作为该类别对应的类别置信度。

7.根据权利要求6所述的方法，其特征在于，所述获取每个类别下所述验证子数据集对应的预测概率平均值，并将所述预测概率平均值作为该类别对应的类别置信度之后，包括：

将所述验证数据集下每个所述类别对应的类别置信度进行从高到低排序，得到类别置信度排序结果；

按照预设比例对所述类别置信度排序结果进行划分，得到第一划分结果、第二划分结果和第三划分结果，并将所述第一划分结果中的最后一个类别置信度作为第一置信阈值，以及将所述第二划分结果中的最后一个类别置信度作为第三置信阈值，所述第一置信阈值用于判断所述第一候选子数据的类别置信度是否属于高类别置信度，所述第三置信阈值用于判断所述第一候选子数据的类别置信度是否属于中类别置信度或者低类别置信度。

8.根据权利要求7所述的方法，其特征在于，所述预设比例为1:2:3。

9.根据权利要求1所述的方法，其特征在于，所述若所述第一候选子数据对应的类别置信度和所述数据置信度满足预设条件，则将所述第一标签和所述第一标签对应的第一候选子数据存储至所述预训练数据集，得到目标数据之后，包括：

利用所述目标数据对所述初级网络模型进行更新，得到目标网络模型。

10.根据权利要求1所述的方法，其特征在于，所述确定每个所述第一候选子数据对应的所述类别置信度和所述数据置信度是否满足预设条件，包括：

根据每个所述第一标签对所述候选数据集中的第一候选子数据进行分组，得到多个数据组，每个所述数据组至少包括一个候选子数据；

按照所述数据置信度对每个所述数据组下的候选子数据进行从高到低排序，得到候选子数据排序结果；

基于所述候选子数据排序结果的顺序分别确定每个候选子数据对应的类别置信度和数据置信度是否满足预设条件。

11.根据权利要求10所述的方法，其特征在于，所述基于所述候选子数据排序结果的顺序分别确定每个候选子数据对应的类别置信度和数据置信度是否满足预设条件，包括：

获取所述候选数据集中第一候选子数据的数量，并确定所述第一候选子数据的数量是否小于第一数量阈值；

若所述第一候选子数据的数量小于第一数量阈值，则确定所述候选子数据对应的类别置信度和数据置信度是否满足预设条件。

12.根据权利要求10所述的方法，其特征在于，所述基于所述候选子数据排序结果的顺序分别确定每个候选子数据对应的类别置信度和数据置信度是否满足预设条件，包括：

确定所述预训练数据集中所述第一候选子数据的数量，并确定所述第一候选子数据的数量是否大于第二数量阈值；

若所述第一候选子数据的数量大于第二数量阈值，则确定所述候选子数据对应的类别置信度和数据置信度是否满足预设条件。

13.一种数据获取装置，其特征在于，所述装置包括：

获取模块，用于获取候选数据集，所述候选数据集包括多个第一候选子数据；

输入模块，用于将每个所述第一候选子数据输入至初级网络模型，得到每个所述第一候选子数据对应的第一标签、类别置信度和数据置信度，所述第一标签为所述第一候选子数据对应的标签数据，所述初级网络模型由预训练数据集训练而成，所述预训练数据集包括多个训练数据和多个标签数据，每个所述训练数据对应一个标签数据，所述数据置信度用于表示所述初级网络模型在所述第一候选子数据上的训练效果；

确定模块，用于确定每个所述第一候选子数据对应的所述类别置信度和所述数据置信度是否满足预设条件；

存储模块，用于若所述第一候选子数据对应的类别置信度和所述数据置信度满足预设条件，则将所述第一标签和所述第一标签对应的第一候选子数据存储至所述预训练数据集，得到目标数据。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-12中任意一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-12中任意一项所述的方法。