CN115836288A

CN115836288A - 用于生成训练数据的方法以及装置

Info

Publication number: CN115836288A
Application number: CN202280005189.6A
Authority: CN
Inventors: 肖涵; 王楠; 王博; 马克西米利安·韦克; 乔治奥斯·马斯特拉帕斯
Original assignee: Gina Artificial Intelligence Beijing Co ltd; Gina Artificial Intelligence Co ltd
Current assignee: Gina Artificial Intelligence Beijing Co ltd; Gina Artificial Intelligence Co ltd
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2023-03-21
Also published as: EP4322066A1; EP4322066A4; WO2023245523A1

Abstract

本公开提供了一种用于生成训练数据的方法和装置。该训练数据用于训练目标深度学习模型。在该方法中，获取用户输入的用于目标深度学习模型的原始数据。然后，确定原始数据的类型。原始数据的类型包括有标签的分类数据、有标签的会话数据、以及无标签数据。分类数据的标签指示分类数据的类别。会话数据的标签指示会话数据的问答相关性。接着，按照原始数据的类型来生成训练数据。

Description

用于生成训练数据的方法以及装置

技术领域

本公开的实施例涉及计算机技术领域，具体地，涉及用于生成训练数据的方法以及装置。

背景技术

深度学习模型是一种机器学习模型，其目的在于建立、模拟人脑进行分析学习的神经网络，模仿人脑的机制来解释数据，如文本、图像、声音等。深度学习模型可以被广泛地应用于各个领域，执行各种各样的任务，例如计算机视觉、语言理解、语音识别、广告推荐、神经搜索等。

在深度学习技术发展的初始阶段，每个深度学习模型的开发者都需要编写大量的重复代码。为了提高工作效率，这些开发者将他们编写好的代码写成了深度学习框架发布到网络上供其他开发者一起使用。陆续地在网络上出现了不同的深度学习框架。目前流行的深度学习框架有PaddlePaddle、Tensorflow、Caffe、Theano、MXNet、Torch和PyTorch等。随着深度学习技术的发展，一些开发者会将预训练的深度学习模型发布在网络上。在其他开发者需要实现任务时，他们可使用任务数据对预训练的深度学习模型进行微调来获得期望的深度学习模型。在这个微调的过程中，开发者需要根据实际情况处理任务数据以构建训练数据集，并根据个人经验选择损失函数以及进行模型优化。

发明内容

本文中描述的实施例提供了一种用于生成训练数据的方法、装置、电子设备以及存储有计算机程序的计算机可读存储介质。

根据本公开的第一方面，提供了一种用于生成训练数据的方法。该训练数据用于训练目标深度学习模型。在该方法中，获取用户输入的用于目标深度学习模型的原始数据。然后，确定原始数据的类型。原始数据的类型包括有标签的分类数据、有标签的会话数据、以及无标签数据。分类数据的标签指示分类数据的类别。会话数据的标签指示会话数据的问答相关性。接着，按照原始数据的类型来生成训练数据。

在本公开的一些实施例中，在按照原始数据的类型来生成训练数据的步骤中，如果原始数据是分类数据，则按照分类数据的标签所指示的类别来生成训练数据。

在本公开的一些实施例中，在按照分类数据的标签所指示的类别来生成训练数据的步骤中，从分类数据中选择部分或全部分类数据作为参考样本。将参考样本中的每个参考样本作为目标参考样本。将具有与目标参考样本相同的类别的分类数据确定为与目标参考样本相关联的正样本。将具有与目标参考样本不同的类别的分类数据确定为与目标参考样本相关联的负样本。然后，将目标参考样本、与目标参考样本相关联的正样本和与目标参考样本相关联的负样本组合成一组训练数据。

在本公开的一些实施例中，分类数据包括多个标签。分类数据的类别由分类数据的一个或多个标签来确定。

在本公开的一些实施例中，在按照原始数据的类型来生成训练数据的步骤中，如果原始数据是会话数据，则按照会话数据的标签所指示的问答相关性来生成训练数据。

在本公开的一些实施例中，每一条会话数据包括一个参考样本以及多个匹配样本。在按照会话数据的标签所指示的问答相关性来生成训练数据的过程中，针对每一条会话数据，将其标签指示肯定的问答相关性的匹配样本作为正样本，并将其标签指示否定的问答相关性的匹配样本作为负样本。然后，将参考样本、正样本和负样本组合成一组训练数据。

在本公开的一些实施例中，分类数据的标签为一元标签，会话数据的标签为二元标签。

在本公开的一些实施例中，在按照原始数据的类型来生成训练数据的步骤中，如果原始数据是无标签数据，则使用数据增强技术来生成训练数据。

在本公开的一些实施例中，在使用数据增强技术来生成训练数据的步骤中，将无标签数据中的每个无标签数据作为参考样本。使用数据增强技术从参考样本生成多个正样本。使用数据增强技术从除了参考样本的无标签数据生成多个负样本。

在本公开的一些实施例中，在无标签数据是图片的情况下，数据增强技术包括：对图片执行翻转、镜像、裁剪等操作中的一个或多个操作。

在本公开的一些实施例中，在无标签数据是文字的情况下，数据增强技术包括：对文字执行随机掩码操作。

在本公开的一些实施例中，在无标签数据是声音段落的情况下，数据增强技术包括：对声音段落执行随机掩码操作。

根据本公开的第二方面，提供了一种用于生成训练数据的装置。该装置包括：获取模块，用于获取用户输入的用于目标深度学习模型的原始数据；确定模块，用于确定原始数据的类型；以及生成模块，用于按照原始数据的类型来生成训练数据。原始数据的类型包括有标签的分类数据、有标签的会话数据、以及无标签数据，分类数据的标签指示分类数据的类别，会话数据的标签指示会话数据的问答相关性。

根据本公开的第三方面，提供了一种电子设备。该电子设备包括：至少一个处理器；以及存储有计算机程序的至少一个存储器。当计算机程序由至少一个处理器执行时，使得电子设备：获取用户输入的用于目标深度学习模型的原始数据；确定原始数据的类型，原始数据的类型包括有标签的分类数据、有标签的会话数据、以及无标签数据，分类数据的标签指示分类数据的类别，会话数据的标签指示会话数据的问答相关性；以及按照原始数据的类型来生成训练数据。

在本公开的一些实施例中，计算机程序在由至少一个处理器执行时使得电子设备通过以下操作来按照原始数据的类型来生成训练数据：响应于原始数据是分类数据，按照分类数据的标签所指示的类别来生成训练数据。

在本公开的一些实施例中，计算机程序在由至少一个处理器执行时使得电子设备通过以下操作来按照分类数据的标签所指示的类别来生成训练数据：从分类数据中选择部分或全部分类数据作为参考样本；将参考样本中的每个参考样本作为目标参考样本；将具有与目标参考样本相同的类别的分类数据确定为与目标参考样本相关联的正样本；将具有与目标参考样本不同的类别的分类数据确定为与目标参考样本相关联的负样本；以及将目标参考样本、与目标参考样本相关联的正样本和与目标参考样本相关联的负样本组合成一组训练数据。

在本公开的一些实施例中，计算机程序在由至少一个处理器执行时使得电子设备通过以下操作来按照原始数据的类型来生成训练数据：响应于原始数据是会话数据，按照会话数据的标签所指示的问答相关性来生成训练数据。

在本公开的一些实施例中，每一条会话数据包括一个参考样本以及多个匹配样本。计算机程序在由至少一个处理器执行时使得电子设备通过以下操作来按照会话数据的标签所指示的问答相关性来生成训练数据：针对每一条会话数据，将其标签指示肯定的问答相关性的匹配样本作为正样本；将其标签指示否定的问答相关性的匹配样本作为负样本；以及将参考样本、正样本和负样本组合成一组训练数据。

在本公开的一些实施例中，计算机程序在由至少一个处理器执行时使得电子设备通过以下操作来按照原始数据的类型来生成训练数据：响应于原始数据是无标签数据，使用数据增强技术来生成训练数据。

在本公开的一些实施例中，计算机程序在由至少一个处理器执行时使得电子设备通过以下操作来使用数据增强技术来生成训练数据：将无标签数据中的每个无标签数据作为参考样本；使用数据增强技术从参考样本生成多个正样本；以及使用数据增强技术从除了参考样本的无标签数据生成多个负样本。

根据本公开的第四方面，提供了一种存储有计算机程序的计算机可读存储介质，其中，计算机程序在由处理器执行时实现根据本公开的第一方面所述的方法的步骤。

附图说明

为了更清楚地说明本公开的实施例的技术方案，下面将对实施例的附图进行简要说明，应当知道，以下描述的附图仅仅涉及本公开的一些实施例，而非对本公开的限制，其中：

图1是根据本公开的实施例的用于生成目标深度学习模型的方法的示例性流程图；

图2是图1所示的实施例中的从原始数据生成训练数据的步骤的示例性流程图；

图3是图2所示的实施例中的按照原始数据的类型来生成训练数据的步骤的示例性流程图；

图4是图1所示的实施例中的确定与任务相对应的第一深度学习模型的步骤的示例性流程图；

图5是根据本公开的实施例的用于生成训练数据的装置的示意性框图；

图6是根据本公开的实施例的执行用于生成训练数据的方法的电子设备的示意性框图。

需要注意的是，附图中的元素是示意性的，没有按比例绘制。

具体实施方式

为了使本公开的实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本公开的实施例的技术方案进行清楚、完整的描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例，也都属于本公开保护的范围。

除非另外定义，否则在此使用的所有术语(包括技术和科学术语)具有与本公开主题所属领域的技术人员所通常理解的相同含义。进一步将理解的是，诸如在通常使用的词典中定义的那些的术语应解释为具有与说明书上下文和相关技术中它们的含义一致的含义，并且将不以理想化或过于正式的形式来解释，除非在此另外明确定义。诸如“第一”和“第二”的术语仅用于将一个部件(或部件的一部分)与另一个部件(或部件的另一部分)区分开。

如上所述，深度学习模型的开发者可通过微调预训练的深度学习模型来获得目标深度学习模型。在对深度学习模型进行微调的过程中，需要进行训练数据准备、模型选择和训练参数选择等操作。这需要开发者具备大量的深度学习模型相关知识，因此对于初级开发者不够友好。这不仅需要初级开发者付出大量的劳动，还耽误开发进度。

本公开的实施例提出了一种用于生成目标深度学习模型的方法。图1示出了根据本公开的实施例的用于生成目标深度学习模型的方法的示例性流程图。

在该方法100中，在框S102处，获取用户输入的指示以及用于生成目标深度学习模型的原始数据。该指示包括期望目标深度学习模型执行的任务。在本公开的一些实施例中，该任务可以是搜索任务，例如，以文字搜图片、以文字搜文字、以图片搜图片、以图片搜文字、以及以声音搜声音等。在一个示例中，用户输入的指示可包括期望获得能够执行指定搜索任务的深度学习模型。用户输入的原始数据与指示中包括的任务相关联。在该搜索任务是以图片搜图片的情况下，用户可输入一个图片集作为用于生成目标深度学习模型的原始数据。在该搜索任务是以声音搜声音的情况下，用户可输入一个音频集作为用于生成目标深度学习模型的原始数据。

在框S104处，从原始数据生成训练数据。下文继续以任务是搜索任务为例进行说明。图2示出从原始数据生成训练数据的步骤的示例性流程图。在图2的框S202处，确定原始数据的类型。原始数据的类型可包括：有标签的分类数据，有标签的会话数据，以及无标签数据。分类数据的标签指示分类数据的类别。会话数据的标签指示会话数据的问答相关性。在本公开的一些实施例中，原始数据可包括标签指示字段。该标签指示字段指明原始数据的标签。可通过该标签指示字段来确定原始数据的类型。

在本公开的一些实施例中，分类数据的标签可超过一个。可基于分类数据的部分或者全部标签来确定分类数据的类别。以图片为例来说明分类数据的标签如何指示分类数据的类别。假设分类数据的标签包括：猫、狗、可爱的、难看的。那么可基于部分标签“猫”和“狗”来将图片分类为猫的图片和狗的图片。可替代地，可基于全部标签“猫”、“狗”、“可爱的”和“难看的”来将图片分类为可爱的猫的图片、难看的猫的图片、可爱的狗的图片、以及难看的狗的图片。无论分类数据的标签有多少个，该标签都是一元标签。一元标签表示该标签仅与一个数据相关。

在本公开的一些实施例中，会话数据例如是电商平台与用户的历史交互数据。在一个示例中，用户可在电商平台中搜索某个商品的关键字(相当于“问”)。基于该关键字，电商平台可向用户推送若干商品链接(相当于“答”)。如果用户点击了某个商品链接，则将该关键字与该商品链接形成的会话数据的标签设置为例如“相关”(例如，用数字1来表示)。如果用户没有点击某个商品链接，则将该关键字与该商品链接形成的会话数据的标签设置为例如“不相关”(例如，用数字0来表示)。会话数据的标签与问和答二者相关，因此是二元标签。此类会话数据可例如来自电商平台针对各个用户保存的搜索日志。

在本公开的一些实施例中，无标签数据是指标签指示字段为空的数据。在电商平台的示例中，无标签数据例如是用户上传的商品照片。此类商品照片并不带有标签，因此被定义为无标签数据。

在框S204处，按照原始数据的类型来生成训练数据。图3示出按照原始数据的类型来生成训练数据的步骤的示例性流程图。在图3的框S302处，确定原始数据是否有标签。在本公开的一些实施例中，可通过原始数据中的标签指示字段是否为空来确定原始数据是否有标签。如果原始数据有标签(在框S302处为“是”)，则在框S304处确定原始数据是否是分类数据。

在本公开的一些实施例中，可通过原始数据的标签是一元标签还是二元标签来确定原始数据是否是分类数据。如果标签是一元标签，则确定原始数据是分类数据。如果标签是二元标签，则确定原始数据是会话数据。

在本公开的另一些实施例中，可通过原始数据中的标签指示字段是否包括文字来确定原始数据是否是分类数据。如果标签指示字段包括文字，则确定原始数据是分类数据。如果标签指示字段只包括数字0或1，则确定原始数据是会话数据。上述文字可包括中文、英文、其他语言类型的文字或者它们的组合。

如果原始数据是分类数据(在框S304处为“是”)，则在框S306处按照分类数据的标签所指示的类别来生成训练数据。在本公开的一些实施例中，可例如从分类数据中选择部分或全部分类数据作为参考样本。针对参考样本中的每一个，可将具有与该参考样本相同的类别的分类数据确定为与该参考样本相关联的正样本，将具有与该参考样本不同的类别的分类数据确定为与该参考样本相关联的负样本。该参考样本、与该参考样本相关联的正样本和与该参考样本相关联的负样本被组合成一组训练数据。这样针对参考样本中的每一个都生成了对应的一组训练数据。

如果原始数据不是分类数据(在框S304处为“否”)，则在框S308处按照会话数据的标签所指示的问答相关性来生成训练数据。在本公开的一些实施例中，每一条会话数据包括一个参考样本以及多个匹配样本。在上述电商平台的示例中，参考样本可以是用户在电商平台中搜索某个商品的关键字，多个匹配样本可以是电商平台向用户推送的若干商品链接。每个匹配样本带有一个标签，用于指示该匹配样本与参考样本是否相关。针对每一条会话数据，可例如将标签为“相关”或1(标签指示肯定的问答相关性)的匹配样本作为正样本，将标签为“不相关”或0(标签指示否定的问答相关性)的匹配样本作为负样本。参考样本、正样本和负样本被组合成一组训练数据。这样针对每一条会话数据都生成了对应的一组训练数据。

如果原始数据没有标签(在框S302处为“否”)，则在框S310处使用数据增强技术来生成训练数据。在本公开的一些实施例中，可将原始数据中的每个原始数据作为参考样本。然后可使用数据增强技术从该参考样本生成多个正样本，从除了该参考样本的原始数据生成多个负样本。在数据增强的过程中，可通过在图1的框S102处获取的任务来确定所采用的数据增强方式。

在任务是以图片搜图片的搜索任务的示例中，可对作为参考样本的图片执行翻转、镜像、裁剪等操作中的一个或多个操作以生成多个正样本。可对原始数据中除了参考样本之外的图片执行翻转、镜像、裁剪等操作中的一个或多个操作以生成多个负样本。

在任务是以文字搜文字或者声音搜声音的搜索任务的示例中，可对作为参考样本的文字或声音段落进行随机掩码操作以生成多个正样本。可对原始数据中除了参考样本之外的文字或声音段落进行随机掩码操作以生成多个负样本。

在对文字进行随机掩码操作时，可随机地遮盖或去除文字中的任意一个或多个字。换句话说，文字中被遮盖或去除的字的个数和位置都是随机的。在一个示例中，对于“我很喜欢北京”进行随机掩码操作则可能得到“我【未知】喜欢北京”，其中“很”被遮盖，并被标识为“【未知】”。在一个替代示例中，对于“我很喜欢北京”进行随机掩码操作还可能得到“我喜欢北京”，其中“很”被去除。在另一个替代示例中，对于“我很喜欢北京”进行随机掩码操作还可能得到“【未知】喜欢北京”，其中“我很”被遮盖，并被标识为“【未知】”。

在对声音段落进行随机掩码操作时，可随机地遮盖或去除声音段落中的任意长度的声音片段。换句话说，声音段落中被遮盖或去除的声音片段的长度和位置都是随机的。

框S104处的操作可以在没有用户参与的情况下自动生成训练数据，减轻了用户的工作负担并提高了工作效率。

回到图1，在框S106处，确定与任务相对应的第一深度学习模型。在本公开的一些实施例中，框S106处的操作可与框S104处的操作并行地执行。在本公开的另一些实施例中，可先执行框S106处的操作再执行框S104处的操作。图4示出确定与任务相对应的第一深度学习模型的步骤的示例性流程图。

在图4的框S402处，确定与任务相对应的多个候选深度学习模型。在本公开的一些实施例中，可预先建立多个预训练的深度学习模型与该多个深度学习模型可执行的多个任务的第一映射表。该多个预训练的深度学习模型可以是现有的预训练的深度学习模型，也可以是未来开发的预训练的深度学习模型。第一映射表可基于经验值来建立。在一个示例中，多个深度学习模型可执行同一个任务。换句话说，一个任务可由多个深度学习模型中的任意一个来执行。因此，可基于第一映射表来确定与任务相对应的多个候选深度学习模型。

在本公开的一些实施例中，可事先对多个预训练的深度学习模型进行调整，并将调整后的深度学习模型加入第一映射表中。这样在接收到包括任务的指示之后，可将上述调整后的深度学习模型作为与该任务相对应的候选深度学习模型。该调整可例如包括：在预训练的深度学习模型的最后一层输出上添加若干层全连接神经元作为输出；改变预训练的深度学习模型的输出层的层号(例如，从倒数第二层输出而非从最后一层输出)。

在本公开的一些实施例中，该多个预训练的深度学习模型可包括大模型和小模型。大模型的总层数比小模型的总层数更多。在本公开的一些实施例中，可针对该多个候选深度学习模型设置不同的训练参数。训练参数可包括以下中的一个或多个：学习率、以及训练停止条件等。

在框S404处，使用训练数据中的部分训练数据来训练该多个候选深度学习模型。在这里使用部分训练数据的目的是减少计算量。使用部分训练数据对该多个候选深度学习模型进行的训练相当于测试训练。在本公开的一些实施例中，可设置测试训练执行的训练轮数N(N为正整数)。在使用部分训练数据分别对该多个候选深度学习模型执行N轮训练之后，结束对该多个候选深度学习模型的测试训练过程。

在框S406处，确定经训练的多个候选深度学习模型中执行任务的表现最好的候选深度学习模型。在本公开的一些实施例中，可将损失函数的值最小的候选深度学习模型确定为执行任务的表现最好的候选深度学习模型。在本公开的另一些实施例中，可将训练数据中除了在框S404处使用的部分训练数据之外的数据确定为验证数据。然后使用验证数据来验证经训练的多个候选深度学习模型执行任务的表现。在该表现是搜索准确率的情况下，可将搜索准确率最高的候选深度学习模型确定为表现最好的候选深度学习模型。

在框S408处，将表现最好的候选深度学习模型确定为第一深度学习模型。这样，通过框S402至框S406的操作，第一深度学习模型可以是最适合执行用户指定的任务的深度学习模型。

回到图1，在框S108处，使用训练数据来训练第一深度学习模型以获得目标深度学习模型。在本公开的一些实施例中，可确定与第一深度学习模型相对应的损失函数和优化器。其中，所确定的损失函数和优化器用于训练第一深度学习模型。在本公开的一些实施例中，可预先建立多个预训练的深度学习模型与该多个深度学习模型对应的损失函数和优化器的第二映射表。第二映射表可基于经验值来建立。在确定了第一深度学习模型之后，可基于第二映射表来确定与第一深度学习模型相对应的损失函数和优化器。

在本公开的一些实施例中，可在训练第一深度学习模型的过程中显示第一深度学习模型的损失函数在每一轮的值。损失函数在每一轮的值可被绘制成曲线以便用户观察。

在本公开的一些实施例中，在训练第一深度学习模型的过程中可记录第一深度学习模型的训练历史。训练历史包括每一轮训练之后得到的第一深度学习模型的模型参数。这样用户可以回溯模型训练历史。用户可以基于观察到的损失函数的值来选择对第一深度学习模型进行训练的训练轮数。如果接收到用户对第一深度学习模型的训练轮数的选择，则可根据所记录的训练轮数对应的模型参数来生成经过训练轮数训练的第一深度学习模型。然后，可将所生成的第一深度学习模型确定为目标深度学习模型。

通过上述操作，用户无需了解各个深度学习模型的具体结构。其只需要输入包括待执行任务的指示以及用于生成目标深度学习模型的原始数据，就可以获得期望的目标深度学习模型。因此，根据本公开的实施例的用于生成目标深度学习模型的方法对于用户十分友好，能够减轻用户的工作量并且加快开发进度。

进一步地，在本公开的一些实施例中，还允许用户指定目标深度学习模型的型号、模型参数和训练参数。这样有经验的深度学习模型开发者能够自己选择使用哪个深度学习模型并且设置关于目标深度学习模型的一个或多个参数，以便更灵活的开发目标深度学习模型。在这种情况下，在框S102处获取的指示还可包括以下中的一个或多个：第一深度学习模型的型号，第一深度学习模型的总层数，第一深度学习模型的输出层的层号，以及用于训练第一深度学习模型的训练参数。通过上述方式，深度学习模型的高级开发者可利用根据本公开的实施例的用于生成目标深度学习模型的方法来灵活地工作。

另外，预训练的深度学习模型可具有不同的深度学习框架(格式)。初级开发者往往从单个深度学习框架开始学习如何建立深度学习模型。如果初级开发者要使用的预训练模型是以其不擅长的深度学习框架来编写的，那么他需要先熟悉该深度学习框架，再进行微调深度学习模型的操作。

针对上述情况，本公开的实施例提出可使得生成的深度学习模型具有用户期望的格式(在上下文中可被替换地称为目标格式)。在本公开的一些实施例中，在图1的框S102处获取的指示可包括目标深度学习模型的目标格式。可将在框S106处确定的第一深度学习模型的图描述和模型参数分别转换为通用格式ONNX模型的图描述和模型参数，从而将第一深度学习模型的格式转换为ONNX。在将第一深度学习模型的格式转换为ONNX后，再将该ONNX格式的第一深度学习模型转换为具有目标格式的第一深度学习模型。在这种情况下，在图1的框S108处训练的第一深度学习模型是具有目标格式的第一深度学习模型。经过对具有目标格式的第一深度学习模型的训练，可获得具有目标格式的目标深度学习模型。

图5示出根据本公开的实施例的用于生成训练数据的装置500的示意性框图。该装置500包括：获取模块510、确定模块520、以及生成模块530。获取模块510用于获取用户输入的用于目标深度学习模型的原始数据。确定模块520用于确定原始数据的类型。生成模块530用于按照原始数据的类型来生成训练数据。原始数据的类型包括有标签的分类数据、有标签的会话数据、以及无标签数据，分类数据的标签指示分类数据的类别，会话数据的标签指示会话数据的问答相关性。

图6示出根据本公开的实施例的执行用于生成目标深度学习模型的方法的电子设备600的示意性框图。如图6所示，该电子设备600可包括处理器610和存储有计算机程序的存储器620。当计算机程序由处理器610执行时，使得电子设备600可执行如图1所示的方法100的步骤。在一个示例中，电子设备600可以是计算机设备或云计算节点。电子设备600可作为用于提供从原始数据生成训练数据服务的平台。电子设备600可获取用户输入的用于目标深度学习模型的原始数据。然后，电子设备600可确定原始数据的类型。原始数据的类型包括有标签的分类数据、有标签的会话数据、以及无标签数据。分类数据的标签指示分类数据的类别。会话数据的标签指示会话数据的问答相关性。接着，电子设备600可按照原始数据的类型来生成训练数据。

在本公开的一些实施例中，如果原始数据是分类数据，则电子设备600可按照分类数据的标签所指示的类别来生成训练数据。

在本公开的一些实施例中，电子设备600可从分类数据中选择部分或全部分类数据作为参考样本。电子设备600可将参考样本中的每个参考样本作为目标参考样本。电子设备600可将具有与目标参考样本相同的类别的分类数据确定为与目标参考样本相关联的正样本。电子设备600可将具有与目标参考样本不同的类别的分类数据确定为与目标参考样本相关联的负样本。然后，电子设备600可将目标参考样本、与目标参考样本相关联的正样本和与目标参考样本相关联的负样本组合成一组训练数据。

在本公开的一些实施例中，如果原始数据是会话数据，则电子设备600可按照会话数据的标签所指示的问答相关性来生成训练数据。

在本公开的一些实施例中，每一条会话数据包括一个参考样本以及多个匹配样本。电子设备600可针对每一条会话数据将其标签指示肯定的问答相关性的匹配样本作为正样本，并将其标签指示否定的问答相关性的匹配样本作为负样本。然后，电子设备600可将参考样本、正样本和负样本组合成一组训练数据。

在本公开的一些实施例中，如果原始数据是无标签数据，则电子设备600可使用数据增强技术来生成训练数据。

在本公开的一些实施例中，电子设备600可将无标签数据中的每个无标签数据作为参考样本。电子设备600可使用数据增强技术从参考样本生成多个正样本。电子设备600可使用数据增强技术从除了参考样本的无标签数据生成多个负样本。

在本公开的实施例中，处理器610可以是例如中央处理单元(CPU)、微处理器、数字信号处理器(DSP)、基于多核的处理器架构的处理器等。存储器620可以是使用数据存储技术实现的任何类型的存储器，包括但不限于随机存取存储器、只读存储器、基于半导体的存储器、闪存、磁盘存储器等。

此外，在本公开的实施例中，电子设备600也可包括输入设备630，例如键盘、鼠标等，用于获取用于生成训练数据的原始数据。另外，电子设备600还可包括输出设备640，例如显示器等，用于输出所生成的训练数据。

综上所述，根据本公开实施例的用于生成训练数据的方法和装置能够从来自用户的原始数据自动生成用于训练目标深度学习模型的训练数据。这样，用户无需掌握关于从各种类型的原始数据生成训练数据的相关知识，减轻了用户的工作负担并提高了工作效率。

附图中的流程图和框图显示了根据本公开的多个实施例的装置和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

除非上下文中另外明确地指出，否则在本文和所附权利要求中所使用的词语的单数形式包括复数，反之亦然。因而，当提及单数时，通常包括相应术语的复数。相似地，措辞“包含”和“包括”将解释为包含在内而不是独占性地。同样地，术语“包括”和“或”应当解释为包括在内的，除非本文中明确禁止这样的解释。在本文中使用术语“示例”之处，特别是当其位于一组术语之后时，所述“示例”仅仅是示例性的和阐述性的，且不应当被认为是独占性的或广泛性的。

适应性的进一步的方面和范围从本文中提供的描述变得明显。应当理解，本申请的各个方面可以单独或者与一个或多个其它方面组合实施。还应当理解，本文中的描述和特定实施例旨在仅说明的目的并不旨在限制本申请的范围。

以上对本公开的若干实施例进行了详细描述，但显然，本领域技术人员可以在不脱离本公开的精神和范围的情况下对本公开的实施例进行各种修改和变型。本公开的保护范围由所附的权利要求限定。

Claims

1.一种用于生成训练数据的方法，所述训练数据用于训练目标深度学习模型，所述方法包括：

获取用户输入的用于所述目标深度学习模型的原始数据；

确定所述原始数据的类型，所述原始数据的所述类型包括有标签的分类数据、有标签的会话数据、以及无标签数据，所述分类数据的标签指示所述分类数据的类别，所述会话数据的标签指示所述会话数据的问答相关性；以及

按照所述原始数据的所述类型来生成所述训练数据。

2.根据权利要求1所述的方法，按照所述原始数据的所述类型来生成所述训练数据包括：

响应于所述原始数据是所述分类数据，按照所述分类数据的标签所指示的类别来生成训练数据。

3.根据权利要求2所述的方法，其中，按照所述分类数据的标签所指示的类别来生成训练数据包括：

从所述分类数据中选择部分或全部分类数据作为参考样本；

将所述参考样本中的每个参考样本作为目标参考样本；

将具有与所述目标参考样本相同的类别的分类数据确定为与所述目标参考样本相关联的正样本；

将具有与所述目标参考样本不同的类别的分类数据确定为与所述目标参考样本相关联的负样本；以及

将所述目标参考样本、与所述目标参考样本相关联的正样本和与所述目标参考样本相关联的负样本组合成一组训练数据。

4.根据权利要求2或3所述的方法，其中，所述分类数据包括多个标签，所述分类数据的类别由所述分类数据的一个或多个标签来确定。

5.根据权利要求1所述的方法，其中，按照所述原始数据的所述类型来生成所述训练数据包括：

响应于所述原始数据是所述会话数据，按照所述会话数据的标签所指示的问答相关性来生成训练数据。

6.根据权利要求5所述的方法，其中，每一条会话数据包括一个参考样本以及多个匹配样本，按照所述会话数据的标签所指示的问答相关性来生成训练数据包括：针对每一条会话数据，

将其标签指示肯定的问答相关性的匹配样本作为正样本；

将其标签指示否定的问答相关性的匹配样本作为负样本；以及

将所述参考样本、所述正样本和所述负样本组合成一组训练数据。

7.根据权利要求1至3或5至6中任一项所述的方法，其中，所述分类数据的标签为一元标签，所述会话数据的标签为二元标签。

8.根据权利要求1所述的方法，其中，按照所述原始数据的所述类型来生成所述训练数据包括：

响应于所述原始数据是所述无标签数据，使用数据增强技术来生成训练数据。

9.根据权利要求8所述的方法，其中，使用数据增强技术来生成训练数据包括：

将所述无标签数据中的每个无标签数据作为参考样本；

使用所述数据增强技术从所述参考样本生成多个正样本；以及

使用所述数据增强技术从除了所述参考样本的无标签数据生成多个负样本。

10.根据权利要求8或9所述的方法，其中，在所述无标签数据是图片的情况下，所述数据增强技术包括：对所述图片执行翻转、镜像、裁剪等操作中的一个或多个操作。

11.根据权利要求8或9所述的方法，其中，在所述无标签数据是文字的情况下，所述数据增强技术包括：对所述文字执行随机掩码操作。

12.根据权利要求8或9所述的方法，其中，在所述无标签数据是声音段落的情况下，所述数据增强技术包括：对所述声音段落执行随机掩码操作。

13.一种用于生成训练数据的装置，包括：

获取模块，用于获取用户输入的用于所述目标深度学习模型的原始数据；

确定模块，用于确定所述原始数据的类型，所述原始数据的所述类型包括有标签的分类数据、有标签的会话数据、以及无标签数据，所述分类数据的标签指示所述分类数据的类别，所述会话数据的标签指示所述会话数据的问答相关性；以及

生成模块，用于按照所述原始数据的所述类型来生成所述训练数据。

14.一种电子设备，包括：

至少一个处理器；以及

存储有计算机程序的至少一个存储器；

其中，当所述计算机程序由所述至少一个处理器执行时，使得所述装置执行根据权利要求1至12中任一项所述的方法的步骤。

15.一种存储有计算机程序的计算机可读存储介质，其中，所述计算机程序在由处理器执行时实现根据权利要求1至12中任一项所述的方法的步骤。