CN115130581A

CN115130581A - 样本生成方法、训练方法、数据处理方法以及电子设备

Info

Publication number: CN115130581A
Application number: CN202210754096.5A
Authority: CN
Inventors: 李硕; 许晓文; 聂磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-09-30
Anticipated expiration: 2042-04-02
Also published as: CN114444619A; CN114444619B; CN115130581B

Abstract

本发明提供了一种样本生成方法、训练方法、数据处理方法以及电子设备，涉及人工智能技术领域，尤其涉及工业安全、数据挖掘、计算机视觉和深度学习技术领域。具体实现方案为：根据第一样本集，得到样本表征向量集，其中，第一样本集包括多个样本，样本未被确定类别；根据样本表征向量集，对第一样本集进行聚类，得到至少一个聚类样本集；根据至少一个聚类样本集，生成显著样本数据集。

Description

样本生成方法、训练方法、数据处理方法以及电子设备

本申请是申请日为2022年4月2日，申请号为202210340191.0，发明名称为样本生成方法、训练方法、数据处理方法以及电子设备的申请的分案申请。

技术领域

本发明涉及人工智能技术领域，尤其涉及工业安全、数据挖掘、计算机视觉和深度学习技术。具体地，涉及一种样本生成方法、训练方法、数据处理方法以及电子设备。

背景技术

随着计算机技术的发展，人工智能技术也得以发展。人工智能技术可以包括计算机视觉技术、语音识别技术、自然语言处理技术、机器学习、深度学习、大数据处理技术及知识图谱技术等。

人工智能技术在各种领域得到了广泛应用。例如，可以利用人工智能技术生成用于训练深度学习模型的样本。

发明内容

本发明提供了一种样本生成方法、训练方法、数据处理方法以及电子设备。

根据本发明的一方面，提供了一种样本生成方法，包括：根据第一样本集，得到样本表征向量集，其中，上述第一样本集包括多个样本，上述样本未被确定类别；根据上述样本表征向量集，对上述第一样本集进行聚类，得到至少一个聚类样本集；以及，根据上述至少一个聚类样本集，生成显著样本数据集。

根据本发明的另一方面，提供了一种深度学习模型的训练方法，包括：将显著样本输入上述深度学习模型，得到输出值；根据上述输出值和上述显著样本的标签值，确定损失函数值；以及，根据上述损失函数值调整上述深度学习模型的模型参数，得到经训练的深度学习模型，其中，上述显著样本是利用如本发明所述的方法生成的。

根据本发明的另一方面，提供了一种数据处理方法，包括：将待处理数据输入上述经训练的深度学习模型，得到数据处理结果，其中，上述经训练的深度学习模型是利用如本发明所述的方法训练得到的。

根据本发明的另一方面，提供了一种样本生成装置，包括：第一获得模块，用于根据第一样本集，得到样本表征向量集，其中，上述第一样本集包括多个样本，上述样本未被确定类别；第二获得模块，用于根据上述样本表征向量集，对上述第一样本集进行聚类，得到至少一个聚类样本集；以及，生成模块，用于根据上述至少一个聚类样本集，生成显著样本数据集。

根据本发明的另一方面，提供了一种深度学习模型的训练装置，包括：第三获得模块，用于将显著样本输入上述深度学习模型，得到输出值；第一确定模块，用于根据上述输出值和上述显著样本的标签值，确定损失函数值；以及，第四获得模块，用于根据上述损失函数值调整上述深度学习模型的模型参数，得到经训练的深度学习模型，其中，上述显著样本是利用如本发明所述的生成装置生成的。

根据本发明的另一方面，提供了一种数据处理装置，包括：第五获得模块，用于将待处理数据输入上述经训练的深度学习模型，得到数据处理结果，其中，上述经训练的深度学习模型是利用如本发明所述的训练装置训练得到的。

根据本发明的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行本发明所述的方法。

根据本发明的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行本发明所述的方法。

根据本发明的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现本发明所述的方法。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本发明的限定。其中：

图1示意性示出了根据本发明实施例的可以应用样本数据生成方法、深度学习模型的训练方法、数据处理方法及装置的示例性系统架构；

图2示意性示出了根据本发明实施例的样本数据生成方法的流程图；

图3示意性示出了根据本发明实施例的表征模型的训练过程的示例示意图；

图4示意性示出了根据本发明实施例的表征模型的优化过程的示例示意图；

图5示意性示出了根据本发明实施例的样本数据生成过程的示例示意图；

图6示意性示出了根据本发明实施例的深度学习模型的训练方法的流程图；

图7示意性示出了根据本发明实施例的深度学习模型的训练过程的示例示意图；

图8示意性示出了根据本发明实施例的数据处理方法的流程图；

图9示意性示出了根据本发明实施例的整体方法流程的示例示意图；

图10示意性示出了根据本发明实施例的样本生成装置的框图；

图11示意性示出了根据本发明实施例的深度学习模型的训练装置的框图；

图12示意性示出了根据本发明实施例的数据处理装置的框图；以及

图13示意性示出了根据本发明实施例的适于实现样本数据生成方法、深度学习模型的训练方法、数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

各种应用场景会产生海量数据。海量数据中存在着相同或相似的样本。如果基于全部数据进行模型的训练优化，则容易造成成本的急剧增大，因此，为了降低后续模型训练优化的成本，可以利用对海量数据进行挖掘的方式来实现。

例如，可以利用基于模型的数据搜集方法进行海量数据的挖掘。即，可以利用样本集训练深度学习模型，得到经训练的深度学习模型。根据模型的输出结果，根据输出结果确定错误输出结果，将与错误输出结果对应的样本作为挖掘得到的样本。但是，与错误输出结果对应的样本未必具有代表性，因此，使得基于模型的数据搜集方法所得到的样本具有无向性，难以实现从海量数据中挖掘出有效的具有代表性的显著样本，增加了电子设备的数据处理量和处理效率。

为此，本发明实施例提出了一种样本生成方案。首先根据未被确定类别的第一样本集，得到样本表征向量集，然后根据样本表征向量集，对第一样本集进行聚类，得到至少一个聚类样本集，再根据至少一个聚类样本集，确定显著样本集。由此，无需基于全部的第一样本集进行后续模型的训练优化，通过聚类可以实现在第一样本集中挖掘出显著样本，从而降低了电子设备例如处理器的数据处理量，提高了电子设备例如处理器的处理效率。在此基础上，由于显著样本是有效样本，因此，利用显著样本进行后续模型的训练优化，降低了模型迭代次数，提高了模型的训练速度，由此，降低了后续模型的训练优化的成本，进而获得符合自然规律的电子设备内部性能改进的效果，从而提升电子设备的核心竞争力。

本发明的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本发明的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

图1示意性示出了根据本发明实施例的可以应用样本数据生成方法、深度学习模型的训练方法、数据处理方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本发明实施例的系统架构的示例，以帮助本领域技术人员理解本发明的技术内容，但并不意味着本发明实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用样本数据生成方法、深度学习模型的训练方法、数据处理方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本发明实施例提供的样本数据生成方法、深度学习模型的训练方法、数据处理方法及装置。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。

服务器105可以是提供各种服务的各种类型的服务器。例如，服务器105可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(Virtual Private Server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。服务器105也可以为分布式系统的服务器，或者是结合了区块链的服务器。

需要说明的是，本发明实施例所提供的样本数据生成方法和数据处理方法一般可以由终端设备101、102、或103执行。相应地，本发明实施例所提供的样本数据生成装置和数据处理装置也可以设置于终端设备101、102、或103中。

或者，本发明实施例所提供的样本数据生成方法和数据处理方法一般也可以由服务器105执行。相应地，本发明实施例所提供的样本数据生成装置和数据处理装置一般可以设置于服务器105中。本发明实施例所提供的样本数据生成方法和数据处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本发明实施例所提供的样本数据生成装置和数据处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

需要说明的是，本发明实施例所提供的深度学习模型的训练方法一般也可以由服务器105执行。相应地，本发明实施例所提供的深度学习模型的训练装置一般可以设置于服务器105中。本发明实施例所提供的深度学习模型的训练方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本发明实施例所提供的深度学习模型的训练装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

或者，本发明实施例所提供的深度学习模型的训练方法一般可以由终端设备101、102、或103执行。相应地，本发明实施例所提供的深度学习模型的训练装置也可以设置于终端设备101、102、或103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本发明实施例的样本数据生成方法的流程图。

如图2所示，该方法200包括操作S210～S230。

在操作S210，根据第一样本集，得到样本表征向量集。第一样本集包括多个样本，样本未被确定类别。

在操作S220，根据样本表征向量集，对第一样本集进行聚类，得到至少一个聚类样本集。

在操作S230，根据至少一个聚类样本集，生成显著样本集。

根据本发明的实施例，第一样本集可以包括多个未被确定类别的需要进行聚类处理的样本数据。样本表征向量集可以是对第一样本集中的多个样本分别进行特征提取得到的。聚类样本集可以包括多个聚类样本。显著样本集可以包括多个显著样本。每个聚类样本集可以具有与该聚类样本集对应的显著样本。

根据本发明的实施例，可以利用对第一样本集中的样本进行特征提取，得到与样本对应的样本表征向量。例如，可以利用传统特征提取算法处理第一样本集中的样本，得到与样本对应的样本表征向量。备选地，可以利用表征模型处理第一样本集中的样本，得到与样本对应的样本表征向量。本发明实施例不对获得样本表征向量集的具体方法进行限定，只要能够对第一样本集中的样本进行特征提取得到对应的样本表征向量即可。

根据本发明的实施例，聚类算法可以包括将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程，通过聚类可以进行对象分类和数据挖掘。聚类算法可以包括以下至少一项：K-Means(K-means Clustering，K均值聚类)算法、基于链接的层次聚类算法、基于密度的聚类算法、基于模型的SOM(Self-organizing Maps，自组织映射)聚类算法和基于概率的GMM(Gaussian Mixture Model，高斯混合模型)聚类算法等。本发明实施例不对聚类方法进行限定，只要能够对第一样本集进行聚类处理即可。

根据本发明的实施例，可以根据样本表征向量集中各个样本表征向量之间的第一相似度，对第一样本集进行聚类，得到至少一个聚类样本集。属于同一个聚类样本集的样本表征向量之间的第一相似度大于或等于第一预定相似度阈值。属于不同聚类样本集的样本表征向量之间的第一相似度小于第一预定相似度阈值。第一预定相似度阈值可以根据实际业务需求进行配置，在此不作限定。

根据本发明的实施例，可以由电子设备执行本发明实施例的样本生成方法。电子设备可以包括至少一个处理器。处理器可以用于执行本发明实施例提供的样本生成方法。可以利用单个处理器执行本发明实施例提供的样本生成方法，也可以利用多个处理器并行执行本发明实施例提供的样本生成方法。

根据本发明的实施例，根据未被确定类别的第一样本集，得到样本表征向量集，然后根据样本表征向量集，对第一样本集进行聚类，得到至少一个聚类样本集，再根据至少一个聚类样本集，确定显著样本集。由此，无需基于全部的第一样本集进行后续模型的训练优化，通过聚类可以实现在海量样本集中挖掘出显著样本，从而降低了电子设备例如处理器的数据处理量，提高了电子设备例如处理器的处理效率。在此基础上，由于显著样本是有效样本，因此，利用显著样本进行后续模型的训练优化，降低了模型迭代次数，提高了模型的训练速度，由此，降低了后续模型的训练优化的成本，进而获得符合自然规律的电子设备内部性能改进的效果，从而提升电子设备的核心竞争力。

根据本发明的实施例，样本可以包括以下之一：样本图像、样本文本和样本音频。

根据本发明的实施例，在样本包括样本图像的情况下，可以将利用根据本发明实施例提供的样本生成方法确定的显著样本用于图像处理领域。在样本包括样本文本的情况下，可以将利用根据本发明实施例提供的样本生成方法确定的显著样本用于文本处理领域。在样本包括样本音频的情况下，可以利用根据本发明实施例提供的样本生成方法确定的显著样本用于语音处理领域。

下面参考图3～图5，结合具体实施例对根据本发明实施例所述的样本生成方法做进一步说明。

根据本发明的实施例，根据第一样本集，得到样本表征向量集，可以包括如下操作。

利用表征模型处理第一样本集，得到样本表征向量集。表征模型是基于损失函数，根据正样本的样本表征向量和与正样本对应的多个负样本的样本表征向量训练自监督模型得到的。多个负样本是从与正样本对应的多个候选负样本中确定的。

根据本发明的实施例，在对比学习中，对父样本进行数据增强得到的子样本被认为是针对父样本的正样本，这是由于子样本与父样本的类别相同，彼此保持相同的语义信息。父样本可以指作为进行数据增强处理对象的样本。针对同一父样本，可以对该父样本进行多次数据增强，从而得到多个子样本。虽然是针对同一父样本的多个子样本，但是多个子样本也存在细微区别，即，多个子样本也并不是完全一致的。负样本可以指与父样本的类别不同的其他样本。在本发明实施例中正样本可以包括父样本和对父样本进行数据增强得到的正样本。

根据本发明的实施例，自监督模型可以包括以下至少一项：CPC(ContrastivePredictive Coding)、AMDIM(Augmented Multiscale Deep InfoMax)、MOCO(MomentumContrast，动量对比)、SimCLR(Simple Framework for Contrastive Learning of VisualRepresentations)和BYOL(Bootstrap Your Own Latent)等。

根据本发明的实施例，损失函数(即第一损失函数)可以包括以下至少一项：InfoNCE(Info Noise-contrastive Estimation，信息噪声对比估计)和NCE(Noise-Constrastive Estimation Loss，噪声对比估计)等。损失函数还可以包括对上述损失函数进行改进得到的损失函数。例如，损失函数还可以包括基于距离的InfoNCE。

根据本发明的实施例，可以根据正样本的样本表征向量和与正样本对应的多个候选负样本的样本表征向量之间的第二相似度，从多个候选负样本中确定多个负样本。例如，可以确定正样本的样本表征向量与多个负样本各自的样本表征向量彼此之间的第二相似度，得到多个第二相似度。根据第二预定相似度阈值多个第二相似度，从多个候选负样本中确定多个负样本。针对候选负样本，在根据正样本的样本表征向量与候选负样本的样本表征向量之间的第二相似度小于或等于第二预定相似度阈值的情况下，将候选负样本确定为负样本。第二预定相似度阈值可以根据实际业务需求进行配置，在此不作限定。

根据本发明的实施例，表征模型是利用正样本和与正样本对应的多个负样本训练自监督模型得到的，可以包括：表征模型可以是利用输出值训练自监督模型得到的。输出值可以是基于第一损失函数，根据正样本的样本表征向量和与正样本对应的多个负样本的样本表征向量确定的。

根据本发明的实施例，多个负样本是从与正样本对应的多个候选负样本中确定的，可以包括：与正样本对应的多个负样本是根据正样本的表征向量和与正样本对应的多个候选负样本的表征向量，从多个候选负样本中确定的。正样本的样本表征向量是利用自监督模型处理正样本得到的。负样本的样本表征向量是利用自监督模型处理负样本得到的。

根据本发明的实施例，队列可以包括多个队列元素。多个队列元素是具有时序顺序的，即，是按照时序顺序进入队列的。队列具有“先进先出”的特点，即，如果需要向队列中添加新的队列元素，则在队列已满的情况下，可以使得最早入列的队列元素出队列，将新的队列元素添加至队列。

根据本发明的实施例，动量队列可以指具有一定长度的队列。动量队列中的队列元素可以称为表征向量，即，动量队列可以包括多个表征向量。动量队列包括的表征向量可以指与负样本对应的样本表征向量。动量队列包括的样本表征向量可以动态更新，即，每轮次具有与该轮次对应的动量队列。更新体现在与当前轮次对应的动量队列是将与上一轮次对应的父视图对应的样本表征向量添加至与上一轮次对应的动量队列，并按照时序顺序，将与上一轮次对应的动量队列的一个表征向量移出队列，使得动量队列包括的样本表征向量的数目保持不变。

根据本发明的实施例，自监督模型可以包括第一编码器和第二编码器。可以对第一编码器和第二编码器执行多轮次训练，直至满足预定条件。将经训练的第二编码器确定为表征模型。

根据本发明的实施例，对第一编码器和第二编码器进行多轮次训练，可以包括：利用与当前轮次对应的第一编码器处理与当前轮对应的父样本，得到与当前轮次对应的父样本的样本表征向量。利用与当前轮次对应的第二编码器处理与当前轮次对应的正样本，得到与当前轮次对应的正样本表征向量。正样本是对负样本进行数据增强得到的。基于第一损失函数，利用与当前轮次对应的父样本的样本表征向量、正样本的样本表征向量和多个负样本的样本表征向量训练与当前轮次对应的第一编码器和第二编码器。与当前轮次对应的多个负样本的样本表征向量是基于与当前轮次对应的样本选择策略，根据与当前轮次对应的动量队列和父样本的样本表征向量得到的。动量队列包括的候选负样本的样本表征向量是利用第二编码器处理候选负样本得到的。

根据本发明的实施例，与当前轮次对应的多个负样本的样本表征向量是基于与当前轮次对应的样本选择策略，根据至少一个第一目标距离，从与当前轮次对应的动量队列中选择部分样本表征向量得到的。第一目标距离可以是与当前轮次对应的父样本的样本表征向量和动量队列包括的候选负样本的样本表征向量之间的距离。例如，可以针对至少一个第一目标距离中的每个第一目标距离，在确定第一目标距离大于或等于第一预定距离阈值的情况下，将与第一目标距离对应的当前轮次的动量队列中的候选负样本的样本表征向量确定为与当前轮次对应的负样本的样本表征向量。第一预定距离阈值可以根据实际业务需求进行配置，在此不作限定。

根据本发明的实施例，基于距离分布的InfoNCE可以根据如下公式(1)确定。

根据本发明的实施例，L表征基于距离分布的InfoNCE。||q-k_i||₂≥d。q表征与当前轮次对应的父样本的样本表征向量。k₊表征与当前轮次的父样本对应的正样本的样本表征向量。k_i表征与当前轮次对应的第i个负样本的样本表征向量。i∈{1，2，......，(M-1)，M}。M是大于或等于1且小于或等于N的整数。N可以是大于1的整数。N表征与当前轮次对应的动量队列包括的负样本的数目。||q-k_i||表征q与k_i之间的第一目标距离。d表征第一预定距离阈值。τ表征超参变量。

根据本发明的实施例，通过利用基于距离分布的InfoNCE来确定损失函数值，实现从多个候选负样本中确定负样本，有效避免了动量队列中与正样本的差异较小的负样本参与模型的训练，由此，降低了自监督模型在训练阶段的过拟合出现的概率。

图3示意性示出了根据本发明实施例的表征模型的训练过程的示例示意图。

如图3所示，在300中，自监督模型303可以包括第一编码器3031和第二编码器3032。可以利用第一编码器3031处理父样本301，得到父样本的样本表征向量304。利用第二编码器3032处理与父样本301对应的正样本302，得到正样本的样本表征向量305。

确定父样本的样本表征向量304与动量队列的多个候选负样本各自的样本表征向量306之间的第一目标距离，得到多个第一目标距离307。根据多个第一目标距离307和第一预定距离阈值，从动量队列包括的多个候选负样本各自的样本表征向量306中确定多个负样本各自的样本表征向量308。

基于第一损失函数309，根据父样本的样本表征向量304、正样本的样本表征向量305和多个负样本各自的样本表征向量308，得到第一损失函数值310。根据第一损失函数值310调整第一编码器3031和第二编码器3032的模型参数，得到经训练的第二编码器3032。将经训练的第二编码器3032确定为表征模型。

根据本发明的实施例，显著样本集可以包括至少一个显著样本。

根据本发明的实施例，上述样本数据生成方法还可以包括如下操作。

根据显著样本，从与显著样本对应的聚类样本集中确定异常样本集，以便利用显著样本集和异常样本集对表征模型进行优化。异常样本集包括的异常样本的类别与显著样本的类别不同。

根据本发明的实施例，异常样本集可以包括至少一个异常样本。异常样本的类别与异常样本对应的显著样本的类别不同。可以根据显著样本的特征信息和与显著样本对应的聚类样本集中聚类样本的特征信息，从与显著样本对应的聚类样本集中异常样本。例如，将与显著样本的特征信息不匹配的聚类样本确定为异常样本。

根据本发明的实施例，在确定异常样本集之后，可以基于第二损失函数，根据异常样本集包括的异常样本的样本表征向量和显著样本集包括的显著样本的样本表征向量，得到第二损失函数值。根据第二损失函数值调整表征模型的模型参数，得到优化后的表征模型。

根据本发明的实施例，第二损失函数可以包括以下一项：对比损失(即Contrastive Loss)函数、三元组损失(即Triplet Loss)函数、排名表损失(即Ranked listLoss)函数和多数相似性损失(即Multi-Similarity Loss)函数等。

图4示意性示出了根据本发明实施例的表征模型的优化过程的示例示意图。

如图4所示，在400中，可以利用表征模型402处理显著样本集401，得到显著样本集401包括的显著样本的样本表征向量403。利用表征模型402处理异常样本集404，得到异常样本集404中异常样本的样本表征向量405。可以将显著样本的样本表征向量403和异常样本的样本表征向量405输入第二损失函数406，得到第二损失函数值407。根据第二损失函数值407调整表征模型402的模型参数，得到优化后的表征模型。第二损失函数可以包括三元组损失函数。

根据本发明的实施例，根据显著样本，从与显著样本对应的聚类样本集中确定异常样本集，可以包括如下操作。

响应于检测到针对显著样本的标记操作，显示与显著样本对应的聚类样本集。从与显著样本对应的聚类样本集中确定与显著样本的类别不同的样本，得到异常样本集。

根据本发明的实施例，在检测到针对显著样本的标记操作的情况下，可以动态显示与显著样本对应的聚类样本集中的聚类样本，从而可以在对显著样本进行标注的情况下，从与显著样本对应的聚类样本集中确定与显著样本的类别不同的聚类样本，得到异常样本集。

根据本发明的实施例，可以利用预定插件显示与显著样本对应的聚类样本集中的聚类样本。例如，预定插件可以是具有页面渲染功能的渲染插件。可以利用渲染插件渲染用于显示与显著样本对应的聚类样本集的显示页面。

根据本发明的实施例，通过利用类别彼此不同的显著样本集和异常样本集对表征模型进行优化，可以提高表征模型的泛化能力，由此，可以提高表征模型和后续应用模型的训练精度。

根据本发明的实施例，操作S220可以包括如下操作。

利用基于密度的聚类算法，根据样本表征向量集，得到至少一个聚类样本集。聚类样本集具有聚类样本中心。聚类样本集包括至少一个聚类样本。根据至少一个聚类样本集，确定显著样本集，可以包括如下操作。将聚类样本中心确定为显著样本。

根据本发明的实施例，基于密度的聚类算法可以包括以下一项：DBSCAN(Density-Based Spatial Clustering of Application with Noise，基于密度的噪声应用空间聚类)算法和CFSFDP(Clustering by Fast Search and Find of Density Peaks，基于快速搜索和发现密度峰值的聚类)算法等。

例如，在基于密度的聚类算法为DBSCAN算法的情况下，需要确定聚类样本集的半径和聚类样本集中的最小样本数目。聚类样本集的半径和最小样本数目可以自适应设置，还可以根据实际业务需求设置，在此不作限定。例如，可以确定聚类样本集中所有样本的距离矩阵。获取该距离矩阵的上三角矩阵。根据该距离矩阵包括的各个元素值的大小，确定聚类样本集的半径。在聚类样本集的半径是该聚类样本集的半径的情况下，对预定样本集进行预聚类得到至少一个预聚类样本集各自包括的样本数目。根据至少一个预聚类样本集各自包括的样本数目，确定最小样本数目。例如，可以将根据至少一个预聚类样本集各自包括的样本数目确定的平均值确定为最小样本数目。根据本发明的实施例，通过将聚类样本中心确定为显著样本，可以通过聚类实现在海量样本集中挖掘出显著样本，从而降低后续模型的训练优化的成本。

根据本发明的实施例，利用基于密度的聚类算法，根据样本表征向量集，得到至少一个聚类样本集，可以包括如下操作。

利用基于密度的聚类算法，根据样本表征向量集，得到至少一个初始聚类样本集。初始聚类样本集具有初始聚类样本中心。在确定存在偏离样本的情况下，根据偏离样本的样本表征向量和与至少一个初始聚类样本中心对应的样本表征向量，确定与偏离样本对应的初始聚类样本集，得到更新后的初始聚类样本集。根据与待重聚类样本集对应的样本表征向量集，对待重聚类样本集进行聚类，得到与待重聚类样本集对应的至少一个聚类样本集。待重聚类样本集包括以下至少一项：更新后的初始聚类样本集和至少一个其他聚类样本集，其他聚类样本集是至少一个初始聚类样本集中除更新后的初始聚类样本集以外的初始聚类样本集。

根据本发明的实施例，可以利用基于密度的聚类算法对样本表征向量集进行初步聚类，得到至少一个初始聚类样本集。初始聚类样本中心即为初始聚类样本集的质心。

根据本发明的实施例，可以在确定存在偏离样本的情况下，根据偏离样本的样本表征向量和与至少一个初始聚类样本中心对应的样本表征向量，确定偏离样本与至少一个初始聚类样本中心之间的第二目标距离，得到至少一个第二目标距离。根据至少一个第二目标距离，从至少一个初始聚类样本中心中确定目标初始聚类样本中心。将偏离样本确定为与目标初始聚类样本中心对应的聚类样本集中的聚类样本。例如，可以从至少一个第二目标距离中确定最小目标距离。将与最小目标距离对应的初始聚类样本中心确定为目标初始聚类样本中心。

根据本发明的实施例，通过对基于密度的聚类算法产生的偏离样本的重新匹配，可以消除聚类过程中出现的聚类噪声，从而实现提高确定出的用于参与后续深度学习模型训练的样本的质量。

根据显著样本的样本表征向量和与历史样本集包括的历史显著样本集对应的样本表征向量集，确定显著样本与历史显著样本集包括的至少一个历史显著样本之间的距离，得到至少一个距离。根据至少一个距离，确定历史显著样本集中是否存在与显著样本相匹配的匹配样本。

根据本发明的实施例，历史样本集可以包括历史显著样本集。历史显著样本集可以包括多个历史显著样本。历史显著样本可以具有与历史显著样本对应的历史聚类样本集。

根据本发明的实施例，可以利用表征模型处理历史显著样本集，得到与历史显著样本集对应的样本表征向量集。此外，还可以利用特征提取算法处理历史显著样本集，得到与历史显著样本集对应的样本表征向量集。

根据本发明的实施例，可以根据至少一个距离和第二预定距离阈值，确定历史显著样本集中是否存在与显著样本相匹配的匹配样本。例如，针对至少一个距离中的距离，在确定存在小于或等于第二预定距离阈值的距离的情况下，确定历史显著样本集中存在与显著样本相匹配的匹配样本。在确定不存在小于或等于第二预定距离阈值的距离的情况下，确定历史显著样本集中不存在与显著样本相匹配的匹配样本。第二预定距离阈值可以根据实际业务需求进行配置，在此不作限定。

根据本发明的实施例，在确定存在小于或等于第二预定距离阈值的距离的数目大于1的情况下，从多个距离中确定最小距离。将与最小距离对应的历史显著样本确定为与显著样本相匹配的匹配样本。在确定存在小于或等于第二预定距离阈值的距离的数目等于1的情况下，将与距离对应的历史显著样本确定为与显著样本相匹配的匹配样本。

根据本发明的实施例，可以将显著样本添加至历史样本集中，并将与显著样本对应的聚类样本集添加至历史样本集中，逐步完成历史样本集的构建。

针对显著样本，在根据显著样本的样本表征向量和与历史样本集包括的历史显著样本集对应的样本表征向量集，确定历史显著样本集中存在与显著样本相匹配的匹配样本的情况下，将与显著样本对应的聚类样本集和与匹配样本对应的聚类样本集进行合并。在根据显著样本的样本表征向量和与历史样本集包括的历史显著样本集对应的样本表征向量集，确定历史显著样本集中不存在与显著样本相匹配的匹配样本的情况下，将显著样本确定为新的历史显著样本，以及将与显著样本对应的聚类样本集添加至历史样本集。

根据本发明的实施例，在确定历史显著样本集中存在与显著样本相匹配的匹配样本的情况下，可以将显著样本、与显著样本对应的聚类样本集和与匹配样本对应的聚类样本集进行合并。在确定历史显著样本集中不存在与显著样本相匹配的匹配样本的情况下，可以将与显著样本对应的聚类样本集添加至历史样本集。

根据本发明的实施例，历史样本集在经过多次更新之后，可以对历史样本集进行数据清洗。例如，可以确定历史样本集包括的各个历史样本各自之间的距离，得到多个距离。根据多个距离和第三预定距离阈值，重新确定历史样本集中的历史显著样本和与历史显著样本对应的历史聚类样本集。第三预定距离阈值可以根据实际业务需求进行配置，在此不作限定。例如，第三预定距离阈值可以大于第二预定距离阈值。

根据本发明的实施例，通过在历史显著样本集中存在匹配样本的情况下，进行聚类样本集的合并操作。在历史显著样本集中不存在匹配样本的情况下，进行显著样本和聚类样本集的添加操作，由此，可以避免重复样本，实现对历史样本集的统一管理。

图5示意性示出了根据本发明实施例的样本数据生成过程的示例示意图。

如图5所示，在500中，第一样本集501中可以包括样本501_1、样本501_2、样本501_3、样本501_4、...、样本501_p、...和样本501_P。P可以是大于1的整数。p∈{1，2，......，(P-1)，P}。

可以利用表征模型502对第一样本集501进行处理，得到样本表征向量集503。样本表征向量集503中可以包括样本表征向量503_1、样本表征向量503_2、样本表征向量503_3、样本表征向量503_4、...、样本表征向量503_p、...和样本表征向量503_P。例如，可以利用表征模型502处理样本501_p，得到样本表征向量503_p。

可以根据样本表征向量集503，对第一样本集501进行聚类，得到至少一个聚类样本集504。至少一个聚类样本集504中可以包括聚类样本集504_1、聚类样本集504_2、...、聚类样本集504_q、..和聚类样本集504_Q。Q可以是大于1且小于P的整数。q∈{1，2，......，(Q-1)，Q}。例如，可以根据样本表征向量集503中各个样本表征向量，确定第一样本集501中各个样本彼此之间的距离，得到多个距离。根据多个距离，将属于同一预定距离范围内的样本确定为聚类样本集的样本。

可以根据至少一个聚类样本集504，生成显著样本集505。显著样本集505中可以包括显著样本505_1、显著样本505_2、...、显著样本505q、...和显著样本505_Q。例如，将聚类样本集504_q的聚类样本中心确定为显著样本505_q。

可以根据显著样本集505中的每个显著样本，从与每个显著样本对应的聚类样本集中确定异常样本集506。异常样本集506中可以包括异常样本506_1、异常样本506_2、...、异常样本506_r、...和异常样本506_R。R可以是大于或等于1的整数。r∈{1，2，......，(R-1)，R}。例如，可以响应于检测到针对显著样本505_q的标记操作，显示与显著样本505_q对应的聚类样本集504_q。从与显著样本505_q对应的聚类样本504_q中确定与显著样本505_q的类别不同的样本，得到与显著样本505_q对应的异常样本集。

可以利用显著样本集505和异常样本集506对表征模型502进行优化。例如，可以利用显著样本集505和异常样本集506对表征模型502进行训练，得到优化后的表征模型。

以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他样本数据生成方法，只要能够生成样本数据即可。

图6示意性示出了根据本发明实施例的深度学习模型的训练方法的流程图。

如图6所示，该方法600包括操作S610～S630。

在操作S610，将显著样本输入深度学习模型，得到输出值。

在操作S620，根据输出值和显著样本的标签值，确定损失函数值。

在操作S630，根据损失函数值调整深度学习模型的模型参数，得到经训练的深度学习模型。

根据本发明的实施例，显著样本可以是利用根据本发明实施例所述的样本数据生成方法生成的。

根据本发明的实施例，深度学习模型可以包括以下一项：文本处理模型、音频处理模型和图像处理模型。文本处理模型可以包括以下至少一项：文本识别模型、文本检测模型和文本问答模型等。音频处理模型可以包括以下至少一项：音频识别模型、音频检测模型和音频合成模型等。图像处理模型可以包括以下至少一项：图像识别模型、图像分割模型、图像分类模型和目标检测模型。

根据本发明的实施例，深度学习模型可以包括以下一项：监督模型、半监督模型和无监督模型。

根据本发明的实施例，可以将显著样本输入深度学习模型，得到用于表征预测的显著样本类别的输出值。将输出值和显著样本的标签值输入损失函数确定损失函数值，得到损失函数值。可以根据损失函数值调整深度学习模型的模型参数，直至满足预定结束条件。将在满足预定结束条件的情况下得到的深度学习模型确定为经训练的深度学习模型。预定结束条件可以包括模型迭代满足预定次数或损失函数收敛。

根据本发明的实施例，通过将经标注的显著样本作为训练样本，训练得到深度学习模型，显著样本是有效样本，因此，利用显著样本进行深度学习模型的训练，降低了模型迭代次数，提高了模型的训练速度，提高了模型的预测精度，由此，降低了深度学习模型的训练的成本，进而获得了符合自然规律的电子设备内部性能改进的效果，从而提升了电子设备的核心竞争力。

根据本发明的实施例，上述深度学习模型的训练方法还可以包括如下操作。

在根据与显著样本对应的输出值和标签值确定显著样本是错误样本的情况下，根据错误样本的样本表征向量和与历史样本集包括的历史显著样本集对应的样本表征向量集，从历史样本集中确定与错误样本对应的相似样本集，以便利用相似样本集执行针对经训练的深度学习模型的训练操作。

根据本发明的实施例，可以在确定显著样本是错误样本的情况下，根据错误样本的样本表征向量和历史显著样本集的样本表征向量集，从历史样本集中确定与错误样本对应的相似样本集。将相似样本集输入经训练的深度学习模型，可以针对错误样本进行定向迭代。通过反向传播机制来调整经训练的深度学习模型的模型参数，实现对经训练的深度学习模型的优化。

根据本发明的实施例，基于错误样本查询历史样本集，利用从历史样本集中确定与错误样本对应的相似样本集，优化经训练的深度学习模型，可以提高经训练的深度学习模型的泛化能力，进而提高经训练的深度学习模型的实际应用效果。

下面参考图7，结合具体实施例根据本发明实施例所述的深度学习模型的训练方法做进一步说明。

图7示意性示出了根据本发明实施例的深度学习模型的训练过程的示例示意图。

如图7所示，在700中，可以将显著样本701输入深度学习模型702，得到输出值703。根据输出值703和显著样本的标签值704，确定损失函数值705。根据损失函数值705调整深度学习模型702的模型参数，得到经训练的深度学习模型。

在根据与显著样本701对应的输出值703和标签值704确定显著样本701是错误样本的情况下，可以从历史样本集中确定与错误样本对应的相似样本集706，以便利用相似样本集706执行针对经训练的深度学习模型的训练操作。

以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他深度学习模型的训练方法，只要能够训练深度学习模型即可。

图8示意性示出了根据本发明实施例的数据处理方法的流程图。

如图8所示，该方法800包括操作S810。

在操作S810，将待处理数据输入经训练的深度学习模型，得到数据处理结果。

根据本发明的实施例，经训练的深度学习模型可以是利用根据本发明实施例提供的深度学习模型的训练方法训练得到的。

根据本发明的实施例，待处理数据可以包括以下至少一项：图像数据、文本数据和音频数据。

根据本发明的实施例，在利用经训练的深度学习模型对待处理数据进行处理的情况下，能够较为准确地确定待测样本的类别，从而降低了由人工标注待处理数据的成本消耗，并提高了待处理数据的预测准确性以及对待处理数据的处理效率。

以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他数据处理方法，只要能够处理数据即可。

图9示意性示出了根据本发明实施例的整体方法流程的示例示意图。

根据本发明的实施例，例如，本发明实施例提供的样本数据生成方法、深度学习模型的训练方法和数据处理方法可以应用于工业安全生产场景中。下面以工业安全生产场景为例，对本发明实施例提供的方案进行说明。即，样本集901可以是工业安全生产场景中的生产数据集。

如图9所示，在900中，包括如下六个过程，即，样本数据生成过程、将利用样本数据生成过程得到的显著样本集对历史样本集进行更新过程、利用样本生成过程得到的显著样本集进行深度学习模型的训练过程、利用经训练的深度学习模型进行数据处理过程、利用样本生成过程得到的显著样本集和异常样本集对表征模型进行优化过程以及利用历史样本集和利用经训练的深度学习模型确定的错误样本从历史样本集中确定相似样本集，利用相似样本集对经训练的深度学习模型进行优化过程。

针对样本生成过程，即，样本集901→表征模型902→样本表征向量集903→聚类样本集905→基于聚类分布的数据策略906→显著样本集907。

例如，可以利用表征模型902处理样本集901，得到与样本集901对应的样本表征向量集903。根据样本表征向量集903对样本集901进行聚类处理904，得到至少一个聚类样本集905。利用基于聚类分布的数据策略906根据至少一个聚类样本集905，确定显著样本集907。

针对历史样本集911的更新过程，即，显著样本集907→历史样本集911。

例如，在根据显著样本集907包括的显著样本的样本表征向量和与历史样本集911包括的历史显著样本集对应的样本表征向量集，确定历史显著样本集911中存在与显著样本相匹配的匹配样本的情况下，将与显著样本对应的聚类样本集和与匹配样本对应的聚类样本集进行合并。

在根据显著样本的样本表征向量和与历史样本集911包括的历史显著样本集对应的样本表征向量集，确定历史显著样本集911中不存在与显著样本相匹配的匹配样本的情况下，将显著样本确定为新的历史显著样本，以及将与显著样本对应的聚类样本集添加至历史样本集911。

针对深度学习模型910的训练过程，显著样本集907→经标注的显著样本集909→深度学习模型910→经训练的深度学习模型912。

例如，可以对显著样本集907进行标注，得到经标注的显著样本集909。利用经标注的显著样本集909训练深度学习模型910，得到经训练的深度学习模型912。

针对数据处理过程，待处理数据913→经训练的深度学习模型912→数据处理结果914。

例如，可以将待处理数据913输入经训练的深度学习模型912，得到数据处理结果914。

针对表征模型902的优化过程，样本集→表征模型902→优化后的表征模型。样本集可以包括显著样本集907和异常样本集908。

例如，可以利用显著样本集907和异常样本集908对表征模型902进行优化，得到优化后的表征模型。

针对经训练的深度学习模型912的优化过程，显著样本→错误样本915→历史样本集911→相似样本集916→经训练的深度学习模型912→优化后的深度学习模型。

例如，可以将显著样本输入经训练的深度学习模型912，得到输出值。在根据与显著样本对应的输出值和标签值确定显著样本是错误样本915的情况下，根据错误样本915的样本表征向量和与历史样本集911包括的历史显著样本集对应的样本表征向量集，从历史样本集911中确定与错误样本915对应的相似样本集916。利用相似样本集916对经训练的深度学习模型912进行优化，得到优化后的深度学习模型。

图10示意性示出了根据本发明实施例的样本数据生成装置的框图。

如图10所示，样本生成装置1000可以包括第一获得模块1010、第二获得模块1020和生成模块1030。

第一获得模块1010，用于根据第一样本集，得到样本表征向量集。第一样本集包括多个样本，样本未被确定类别。

第二获得模块1020，用于根据样本表征向量集，对第一样本集进行聚类，得到至少一个聚类样本集。

生成模块1030，用于根据至少一个聚类样本集，生成显著样本数据集。

根据本发明的实施例，第一获得模块1010可以包括第一获得单元。

第一获得单元，用于利用表征模型处理第一样本集，得到样本表征向量集。表征模型是基于损失函数，根据正样本的样本表征向量和与正样本对应的多个负样本的样本表征向量训练自监督模型得到的。多个负样本是从与正样本对应的多个候选负样本中确定的。

根据本发明的实施例，显著样本集包括至少一个显著样本。

根据本发明的实施例，上述样本生成装置1000还可以包括第二确定模块。

第二确定模块，用于根据显著样本，从与显著样本对应的聚类样本集中确定异常样本集，以便利用显著样本集和异常样本集对表征模型进行优化。异常样本集包括的异常样本的类别与显著样本的类别不同。

根据本发明的实施例，第二确定模块可以包括显示单元和第一确定单元。

显示单元，用于响应于检测到针对显著样本的标记操作，显示与显著样本对应的聚类样本集。

第一确定单元，用于从与显著样本对应的聚类样本集中确定与显著样本的类别不同的样本，得到异常样本集。

根据本发明的实施例，第二获得模块1020可以包括第二获得单元。

第二获得单元，用于利用基于密度的聚类算法，根据样本表征向量集，得到至少一个聚类样本集。聚类样本集具有聚类样本中心，聚类样本集包括至少一个聚类样本。

根据本发明的实施例，生成模块1030可以包括第二确定单元。

第二确定单元，用于将聚类样本中心确定为显著样本。

根据本发明的实施例，第二获得单元可以包括第一获得子单元、确定子单元和第二获得子单元。

第一获得子单元，用于利用基于密度的聚类算法，根据样本表征向量集，得到至少一个初始聚类样本集。初始聚类样本集具有初始聚类样本中心。

确定子单元，用于在确定存在偏离样本的情况下，根据偏离样本的样本表征向量和与至少一个初始聚类样本中心对应的样本表征向量，确定与偏离样本对应的初始聚类样本集，得到更新后的初始聚类样本集。

第二获得子单元，用于根据与待重聚类样本集对应的样本表征向量集，对待重聚类样本集进行聚类，得到与待重聚类样本集对应的至少一个聚类样本集。待重聚类样本集包括以下至少一项：更新后的初始聚类样本集和至少一个其他聚类样本集，其他聚类样本集是至少一个初始聚类样本集中除更新后的初始聚类样本集以外的初始聚类样本集。

根据本发明的实施例，显著样本集包括至少一个显著样本。

根据本发明的实施例，上述样本生成装置1000还可以包括第三确定模块和第四确定模块。

第三确定模块，用于针对显著样本，在根据显著样本的样本表征向量和与历史样本集包括的历史显著样本集对应的样本表征向量集，确定历史显著样本集中存在与显著样本相匹配的匹配样本的情况下，将与显著样本对应的聚类样本集和与匹配样本对应的聚类样本集进行合并。

第四确定模块，用于在根据显著样本的样本表征向量和与历史样本集包括的历史显著样本集对应的样本表征向量集，确定历史显著样本集中不存在与显著样本相匹配的匹配样本的情况下，将显著样本确定为新的历史显著样本，以及将与显著样本对应的聚类样本集添加至历史样本集。

根据本发明的实施例，上述样本生成装置1000还可以包括第五确定模块和第六确定模块。

第五确定模块，用于根据显著样本的样本表征向量和与历史第一样本集包括的历史显著样本集对应的样本表征向量集，确定显著样本与历史显著样本集包括的至少一个历史显著样本之间的距离，得到至少一个距离。

第六确定模块，用于根据至少一个距离，确定历史显著样本集中是否存在与显著样本相匹配的匹配样本。

根据本发明的实施例，样本包括以下一项：样本图像、样本文本和样本音频。

图11示意性示出了根据本发明实施例的深度学习模型的训练装置的框图。

如图11所示，深度学习模型的训练装置1100可以包括第三获得模块1110、第一确定模块1120和第四获得模块1130。

第三获得模块1110，用于将显著样本输入深度学习模型，得到输出值。

第一确定模块1120，用于根据输出值和显著样本的标签值，确定损失函数值。

第四获得模块1130，用于根据损失函数值调整深度学习模型的模型参数，得到经训练的深度学习模型。

根据本发明的实施例，显著样本可以是利用根据本发明实施例所述的样本数据生成装置生成的。

根据本发明的实施例，上述深度学习模型的训练装置1100还可以包括第七确定模块。

第七确定模块，用于在根据与显著样本对应的输出值和标签值确定显著样本是错误样本的情况下，根据错误样本的样本表征向量和与历史样本集包括的历史显著样本集对应的样本表征向量集，从历史样本集中确定与错误样本对应的相似样本集，以便利用相似样本集执行针对经训练的深度学习模型的训练操作。

图12示意性示出了根据本发明实施例的数据处理装置的框图。

如图12所示，数据处理装置1200可以包括第五获得模块1210。

第五获得模块1210，用于将待处理数据输入经训练的深度学习模型，得到数据处理结果。

根据本发明的实施例，经训练的深度学习模型可以是利用根据本发明实施例所述的深度学习模型的训练装置训练得到的。

根据本发明的实施例，本发明还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本发明的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本发明的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本发明的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图13示意性示出了根据本发明实施例的适于实现样本数据生成方法、深度学习模型的训练方法、数据处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图13所示，电子设备1300包括计算单元1301，其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储电子设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

电子设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许电子设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理，例如样本生成方法、深度学习模型的训练方法和数据处理方法。例如，在一些实施例中，样本生成方法、深度学习模型的训练方法和数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到电子设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时，可以执行上文描述的样本生成方法、深度学习模型的训练方法和数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行样本生成方法、深度学习模型的训练方法和数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种样本生成方法，包括：

根据第一样本集，得到样本表征向量集，其中，所述第一样本集包括多个样本，所述样本未被确定类别；

根据所述样本表征向量集，对所述第一样本集进行聚类，得到至少一个聚类样本集；以及

根据所述至少一个聚类样本集，生成显著样本集；

其中，所述根据所述样本表征向量集，对所述第一样本集进行聚类，得到至少一个聚类样本集，包括：

利用基于聚类算法，根据所述样本表征向量集，得到至少一个初始聚类样本集，其中，所述初始聚类样本集具有初始聚类样本中心；

在确定存在偏离样本的情况下，

根据所述偏离样本的样本表征向量和与至少一个所述初始聚类样本中心对应的样本表征向量，确定与所述偏离样本对应的初始聚类样本集，得到更新后的初始聚类样本集；以及

根据与待重聚类样本集对应的样本表征向量集，对所述待重聚类样本集进行聚类，得到与所述待重聚类样本集对应的至少一个聚类样本集，其中，所述待重聚类样本集包括以下至少一项：所述更新后的初始聚类样本集和至少一个其他聚类样本集，所述其他聚类样本集是所述至少一个初始聚类样本集中除所述更新后的初始聚类样本集以外的初始聚类样本集，所述聚类样本集具有聚类样本中心，所述聚类样本集包括至少一个聚类样本；

其中，所述根据所述至少一个聚类样本集，确定显著样本集，包括：

将所述聚类样本中心确定为所述显著样本。

2.根据权利要求1所述的方法，其中，所述根据第一样本集，得到样本表征向量集，包括：

利用表征模型处理所述第一样本集，得到所述样本表征向量集，其中，所述表征模型是基于损失函数，根据正样本的样本表征向量和与所述正样本对应的多个负样本的样本表征向量训练自监督模型得到的，所述多个负样本是从与所述正样本对应的多个候选负样本中确定的。

3.根据权利要求2所述的方法，其中，所述多个负样本是从与所述正样本对应的多个候选负样本中确定的，包括：

与所述正样本对应的多个负样本是根据所述正样本的表征向量和与所述正样本对应的多个候选负样本的表征向量，从所述多个候选负样本中确定的；

其中，所述正样本的样本表征向量是利用所述自监督模型处理所述正样本得到的；

其中，所述负样本的样本表征向量是利用所述自监督模型处理所述负样本得到的。

4.根据权利要求2或3所述的方法，其中，所述显著样本集包括至少一个显著样本；

所述方法还包括：

根据所述显著样本，从与所述显著样本对应的聚类样本集中确定异常样本集，以便利用所述显著样本集和所述异常样本集对所述表征模型进行优化，其中，所述异常样本集包括的异常样本的类别与所述显著样本的类别不同。

5.根据权利要求4所述的方法，其中，所述根据所述显著样本，从与所述显著样本对应的聚类样本集中确定异常样本集，包括：

响应于检测到针对所述显著样本的标记操作，显示与所述显著样本对应的聚类样本集；以及

从与所述显著样本对应的聚类样本集中确定与所述显著样本的类别不同的样本，得到所述异常样本集。

6.根据权利要求1或2所述的方法，其中，所述样本包括以下一项：样本图像、样本文本和样本音频。

7.一种深度学习模型的训练方法，包括：

将显著样本输入所述深度学习模型，得到输出值；

根据所述输出值和所述显著样本的标签值，确定损失函数值；以及

根据所述损失函数值调整所述深度学习模型的模型参数，得到经训练的深度学习模型，

其中，所述显著样本数据是根据权利要求1～6中任一项所述的方法生成的。

8.根据权利要求7所述的方法，还包括：

在根据与所述显著样本对应的输出值和标签值确定所述显著样本是错误样本的情况下，根据错误样本的样本表征向量和与历史样本集包括的历史显著样本集对应的样本表征向量集，从所述历史样本集中确定与所述错误样本对应的相似样本集，以便利用所述相似样本集执行针对所述经训练的深度学习模型的训练操作。

9.一种数据处理方法，包括：

将待处理数据输入经训练的深度学习模型，得到数据处理结果，

其中，所述经训练的深度学习模型是根据权利要求7或8所述的方法训练得到的。

10.一种样本生成装置，包括：

第一获得模块，用于根据第一样本集，得到样本表征向量集，其中，所述第一样本集包括多个样本，所述样本未被确定类别；

第二获得模块，用于根据所述样本表征向量集，对所述第一样本集进行聚类，得到至少一个聚类样本集；以及

生成模块，用于根据所述至少一个聚类样本集，生成显著样本数据集；

其中，所述第二获得模块包括：

第一获得子单元，用于利用基于聚类算法，根据所述样本表征向量集，得到至少一个初始聚类样本集，其中，所述初始聚类样本集具有初始聚类样本中心；

在确定存在偏离样本的情况下，

确定子单元，用于根据所述偏离样本的样本表征向量和与至少一个所述初始聚类样本中心对应的样本表征向量，确定与所述偏离样本对应的初始聚类样本集，得到更新后的初始聚类样本集；以及

第二获得子单元，用于根据与待重聚类样本集对应的样本表征向量集，对所述待重聚类样本集进行聚类，得到与所述待重聚类样本集对应的至少一个聚类样本集，其中，所述待重聚类样本集包括以下至少一项：所述更新后的初始聚类样本集和至少一个其他聚类样本集，所述其他聚类样本集是所述至少一个初始聚类样本集中除所述更新后的初始聚类样本集以外的初始聚类样本集，所述聚类样本集具有聚类样本中心，所述聚类样本集包括至少一个聚类样本；

其中，所述生成模块包括：

第二确定单元，用于将所述聚类样本中心确定为所述显著样本。

11.根据权利要求10所述的装置，其中，所述第一获得模块包括：

第一获得单元，用于利用表征模型处理所述第一样本集，得到所述样本表征向量集，其中，所述表征模型是基于损失函数，根据正样本的样本表征向量和与所述正样本对应的多个负样本的样本表征向量训练自监督模型得到的，所述多个负样本是从与所述正样本对应的多个候选负样本中确定的。

12.根据权利要求11所述的装置，其中，所述多个负样本是从与所述正样本对应的多个候选负样本中确定的，包括：

13.根据权利要求11或12所述的装置，其中，所述显著样本集包括至少一个显著样本；

所述装置还包括：

第二确定模块，用于根据所述显著样本，从与所述显著样本对应的聚类样本集中确定异常样本集，以便利用所述显著样本集和所述异常样本集对所述表征模型进行优化，其中，所述异常样本集包括的异常样本的类别与所述显著样本的类别不同。

14.根据权利要求13所述的装置，其中，所述第二确定模块包括：

显示单元，用于响应于检测到针对所述显著样本的标记操作，显示与所述显著样本对应的聚类样本集；以及

第一确定单元，用于从与所述显著样本对应的聚类样本集中确定与所述显著样本的类别不同的样本，得到所述异常样本集。

15.根据权利要求10或11所述的装置，其中，所述样本包括以下一项：样本图像、样本文本和样本音频。

16.一种深度学习模型的训练装置，包括：

第三获得模块，用于将显著样本输入所述深度学习模型，得到输出值；

第一确定模块，用于根据所述输出值和所述显著样本的标签值，确定损失函数值；以及

第四获得模块，用于根据所述损失函数值调整所述深度学习模型的模型参数，得到经训练的深度学习模型，

其中，所述显著样本是根据权利要求10～15中任一项所述的装置生成的。

17.根据权利要求16所述的装置，还包括：

第七确定模块，用于在根据与所述显著样本对应的输出值和标签值确定所述显著样本是错误样本的情况下，根据错误样本的样本表征向量和与历史样本集包括的历史显著样本集对应的样本表征向量集，从所述历史样本集中确定与所述错误样本对应的相似样本集，以便利用所述相似样本集执行针对所述经训练的深度学习模型的训练操作。

18.一种数据处理装置，包括：

第五获得模块，用于将待处理数据输入经训练的深度学习模型，得到数据处理结果，

其中，所述经训练的深度学习模型是根据权利要求16或17所述的装置训练得到的。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～6中任一项或权利要求7～8中任一项或权利要求9所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1～6中任一项或权利要求7～8中任一项或权利要求9所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序存储于非瞬时计算机可读存储介质和电子设备中的至少之一上，所述计算机程序在被处理器执行时实现根据权利要求1～6中任一项或权利要求7～8中任一项或权利要求9所述的方法。