CN116523017A

CN116523017A - 训练样本集生成方法、装置、设备以及存储介质

Info

Publication number: CN116523017A
Application number: CN202310327799.4A
Authority: CN
Inventors: 蒋煜华
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-08-01

Abstract

本申请公开了一种训练样本集生成方法、装置、设备以及存储介质，属于机器学习技术领域。方法包括：获取当前训练任务的待选样本数据；待选样本数据包括新增样本数据和旧训练任务的历史样本数据；对新增样本数据进行聚类，获得至少一个新增样本簇，并对历史样本数据进行聚类，获得至少一个历史样本簇；对历史样本簇和各新增样本簇进行簇相似性分析，获得历史样本簇的至少一个相似度；基于相似度，去除至少一个历史样本簇中的冗余样本簇，获得有效历史样本簇；基于有效历史样本簇和新增样本簇，生成当前训练任务的训练样本集。本申请样本回放过程中考虑了样本冗余问题，提高了最终得到的训练样本集的样本丰富性。

Description

训练样本集生成方法、装置、设备以及存储介质

技术领域

本申请涉及机器学习技术领域，尤其涉及一种训练样本集生成方法、装置、设备以及存储介质。

背景技术

在机器学习技术领域中，神经网络模型由于其自身的设计天然存在灾难性遗忘问题。而持续学习技术就是用于解决灾难性遗忘问题，其目的是使得模型既能够学习到新的任务数据，同时又能在旧任务数据上有良好的表现。

但是，现有的持续学习技术中，训练样本集一般从新的任务数据对应的样本和旧任务数据的样本中均衡随机采样，由于旧任务数据数据量较大，导致最终的训练样本重复度可能较高，进而导致当前训练任务数据对应的训练样本集不够丰富。

申请内容

本申请的主要目的在于提供一种训练样本集生成方法、装置、设备以及存储介质，旨在解决现有持续学习方法的当前训练任务数据对应的训练样本集不够丰富的技术问题。

为实现上述目的，第一方面，本申请提供一种训练样本集生成方法，方法包括：

获取当前训练任务的待选样本数据；待选样本数据包括新增样本数据和旧训练任务的历史样本数据；

对新增样本数据进行聚类，获得至少一个新增样本簇，对历史样本数据进行聚类，获得至少一个历史样本簇；

对历史样本簇和任一新增样本簇进行簇相似性分析，获得历史样本簇的至少一个相似度；其中，相似度包括完全相似、完全不相似或者部分相似；

基于相似度，去除至少一个历史样本簇中的冗余样本簇，获得有效历史样本簇；

基于有效历史样本簇和新增样本簇，生成当前训练任务的训练样本集。

在本申请可能的一实施例中，基于相似度，去除至少一个历史样本簇中的冗余样本簇，获得有效历史样本簇，包括：

针对任一目标历史样本簇，确定目标历史样本簇相对于各新增样本簇的重复样本占比；其中，目标历史样本簇为至少一个相似度为部分相似的历史样本簇；

根据至少一个重复样本占比，确定目标历史样本簇相对于所有新增样本簇的相似均匀度；

若相似均匀度为目标历史样本簇仅和其中一个新增样本簇高度相似，则将目标历史样本簇确定为第一冗余样本簇，删除第一冗余样本簇。

在本申请可能的一实施例中，根据至少一个重复样本占比，确定目标历史样本簇相对于所有新增样本簇的相似均匀度，包括：

根据重复样本占比的数值大小，对至少一个重复样本占比进行排序，获得重复样本占比序列；

基于重复样本占比序列，生成重复样本占比曲线；

若重复样本占比曲线为凹函数曲线且至少一个重复样本占比中的最大值大于预设值，则将目标历史样本簇的相似均匀度确定为目标历史样本簇仅和其中一个新增样本簇高度相似。

在本申请可能的一实施例中，针对任一目标历史样本簇，确定目标历史样本簇相对于各新增样本簇的重复样本占比，包括：

针对任一目标历史样本簇，确定目标历史样本簇相对于任一新增样本簇的重复样本数量；

针对任一重复样本数量，确定重复样本数量相对于目标历史样本簇的第一重复样本占比，并确定重复样本数量相对于任一新增样本簇的第二重复样本占比；

将第一重复样本占比和第二重复样本占比中数值较大的一者，确定为目标历史样本簇相对于任一新增样本簇的重复样本占比。

去除第二冗余样本簇；其中，第二冗余样本簇为至少一个相似度为完全相似的历史样本簇；和/或

将所有相似度均为完全不相似的历史样本簇，确定为有效历史样本簇。

在本申请可能的一实施例中，基于有效历史样本簇和新增样本簇，生成当前训练任务的训练样本集，包括：

将有效历史样本簇和新增样本簇均作为训练样本簇；

基于训练样本簇的样本特征信息，获得各训练样本簇的重要度信息；

基于重要度信息，确定各训练样本簇的挑选样本数量；其中，挑选样本数量和重要度信息呈正相关；

基于挑选样本数量，从对应的训练样本簇中筛选出目标样本数据，生成当前训练任务的训练样本集。

在本申请可能的一实施例中，基于训练样本簇的样本特征信息，获得各训练样本簇的重要度信息，包括：

确定训练样本簇的样本总数、簇方差以及错误报警样本数量；其中，错误报警样本由上一训练任务得到的神经网络模型对测试样本集进行测试得到；

基于样本总数、簇方差以及错误报警样本数量，获得训练样本簇的重要度信息；其中，样本总数、簇方差以及错误报警样本数量均与重要度信息呈正相关。

第二方面，本申请还提供了一种训练样本集生成装置，包括：

样本获取模块，用于获取当前训练任务的待选样本数据；待选样本数据包括新增样本数据和旧训练任务的历史样本数据；

样本聚类模块，用于对新增样本数据进行聚类，获得至少一个新增样本簇，对历史样本数据进行聚类，获得至少一个历史样本簇；

样本簇分析模块，用于对历史样本簇和各新增样本簇进行簇相似性分析，获得历史样本簇的至少一个相似度；其中，相似度包括完全相似、完全不相似或者部分相似；

样本簇筛选模块，用于基于相似度，去除至少一个历史样本簇中的冗余样本簇，获得有效历史样本簇；

训练集生成模块，用于基于有效历史样本簇和新增样本簇，生成当前训练任务的训练样本集。

在本申请可能的一实施例中，样本簇筛选模块具体包括：

占比确定单元，用于针对任一目标历史样本簇，确定目标历史样本簇相对于各新增样本簇的重复样本占比；其中，目标历史样本簇为至少一个相似度为部分相似的历史样本簇；

均匀度分析单元，用于根据至少一个重复样本占比，确定目标历史样本簇相对于所有新增样本簇的相似均匀度；

簇删除单元，用于若相似均匀度为目标历史样本簇仅和其中一个新增样本簇高度相似，则将目标历史样本簇确定为第一冗余样本簇，删除第一冗余样本簇。

在本申请可能的一实施例中，均匀度分析单元，具体用于根据重复样本占比的数值大小，对至少一个重复样本占比进行排序，获得重复样本占比序列；基于重复样本占比序列，生成重复样本占比曲线；若重复样本占比曲线为凹函数曲线且至少一个重复样本占比中的最大值大于预设值，则将目标历史样本簇的相似均匀度确定为目标历史样本簇仅和其中一个新增样本簇高度相似。

在本申请可能的一实施例中，占比确定单元，具体用于针对任一目标历史样本簇，确定目标历史样本簇相对于任一新增样本簇的重复样本数量；确定重复样本数量相对于目标历史样本簇的第一重复样本占比，并确定重复样本数量相对于任一新增样本簇的第二重复样本占比；将第一重复样本占比和第二重复样本占比中数值较大的一者，确定为目标历史样本簇相对于任一新增样本簇的重复样本占比。

在本申请可能的一实施例中，样本簇筛选模块，还包括：

样本簇去除单元，用于去除第二冗余样本簇；其中，第二冗余样本簇为至少一个相似度为完全相似的历史样本簇；和/或

样本簇保留单元，用于将所有相似度均为完全不相似的历史样本簇，确定为有效历史样本簇。

在本申请可能的一实施例中，训练集生成模块，包括：

重要度分析单元，用于将有效历史样本簇和新增样本簇均作为训练样本簇；基于训练样本簇的样本特征信息，获得各训练样本簇的重要度信息；

样本数确定单元，用于基于重要度信息，确定各训练样本簇的挑选样本数量；其中，挑选样本数量和重要度信息呈正相关；

训练集生成单元，用于基于挑选样本数量，从对应的训练样本簇中筛选出目标样本数据，生成当前训练任务的训练样本集。

在本申请可能的一实施例中，重要度分析单元，具体用于确定训练样本簇的样本总数、簇方差以及错误报警样本数量，错误报警样本由上一训练任务得到的神经网络模型对测试样本集进行测试得到；基于样本总数、簇方差以及错误报警样本数量，获得训练样本簇的重要度信息；其中，样本总数、簇方差以及错误报警样本数量均与重要度信息呈正相关。

第三方面，本申请还提供了一种训练样本集生成设备，包括：处理器，存储器以及存储在存储器中的训练样本集生成程序，训练样本集生成程序被处理器运行时实现如上训练样本集生成方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，计算机可读存储介质上存储有训练样本集生成程序，训练样本集生成程序被处理器执行时实现如上的训练样本集生成方法。

本申请实施例提出的一种训练样本集生成方法，包括：获取当前训练任务的待选样本数据；待选样本数据包括新增样本数据和旧训练任务的历史样本数据；对新增样本数据进行聚类，获得至少一个新增样本簇，对历史样本数据进行聚类，获得至少一个历史样本簇；对历史样本簇和各新增样本簇进行簇相似性分析，获得历史样本簇的至少一个相似度；基于相似度，去除至少一个历史样本簇中的冗余样本簇，获得有效历史样本簇；基于有效历史样本簇和新增样本簇，生成当前训练任务的训练样本集。

由此，本申请实施例中，在构建当前训练任务的训练样本集时，对新增样本簇和历史样本簇进行簇相似性分析，根据簇相似性分析得到的相似度确定历史样本簇相较于新增样本数据是否存在冗余，并去除冗余样本簇，从而在样本回放过程中考虑了样本冗余问题，提高了最终得到的训练样本集的样本丰富性，进而使得当前训练任务最终训练得到的神经网络模型表现更好。

附图说明

图1为本申请训练样本集生成设备的结构示意图；

图2为本申请训练样本集生成方法第一实施例的流程示意图；

图3为本申请新增样本簇Q_j和历史样本簇p_i在样本特征空间内的完全重叠的示意图；

图4为本申请新增样本簇Q_j和历史样本簇p_i在样本特征空间内的完全不重叠的示意图；

图5为本申请新增样本簇Q_j和历史样本簇p_i在样本特征空间内的部分区域重叠的示意图；

图6为本申请训练样本集生成方法第二实施例的流程示意图；

图7为本申请重复样本占比曲线为凹函数的示意图；

图8为本申请重复样本占比曲线为凸函数的示意图；

图9为本申请训练样本集生成方法第三实施例的流程示意图；

图10为本申请训练样本集生成装置第一实施例的功能模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在机器学习技术领域中，神经网络模型由于其自身的设计天然存在灾难性遗忘问题。具体的，在神经网络模型的不断更新迭代过程中，如果一直使用新的样本来训练神经网络模型，模型会逐渐减少在旧样本上的记忆，当神经网络模型在多次或多个任务周期的迭代后，其在新知识上将具有良好的表现，能识别绝大部分样本的内容，而旧样本的识别率将会大大降低，甚至识别失败，最终出现神经网络模型对旧知识的灾难性遗忘问题。而持续学习技术就是用于解决该问题，其目的是使得模型既能够学习到新的知识，同时又能在旧知识上有良好的表现。

持续学习技术包括多个技术类别，其中一类为Rehearsal样本回放：如果担心神经网络模型在学习新任务数据的时候忘了旧任务数据，那么可以直接通过不断复习回顾的方式来解决。具体为在神经网络模型学习新任务数据的同时，混有原任务数据，让神经网络模型能够学习新任务数据的同时，兼顾考虑旧任务数据。

但是，基于样本回放的持续学习技术需要一直保存所有旧任务数据，并且同一个样本数据会出现多次重复学习的情况，即新的任务数据对应的样本和旧任务数据的样本之间重复度可能较高，导致当前训练任务数据对应的训练样本集不够丰富，进而导致最终训练得到的神经网络模型在新任务数据和旧任务数据上均表现较差。

为此，本申请提供了一种训练样本集生成方法，该方法在长周期的模型更新迭代中，对新增样本簇和历史样本簇进行簇相似性分析，并根据簇相似性分析得到的相似度判断历史样本簇是否存在冗余，然后去除冗余样本簇，从而在样本回放过程中考虑了样本冗余问题，提高了最终得到的训练样本集的样本丰富性，进而使得当前训练任务最终训练得到的神经网络模型表现更好。

下面结合一些具体实施例进一步阐述本申请的发明构思。

其中，本申请中训练样本集生成方法涉及以下技术：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

参照图1，图1为本申请实施例方案涉及的硬件运行环境的训练样本集生成设备的结构示意图。

如图1所示，该训练样本集生成设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图2中示出的结构并不构成对训练样本集生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及训练样本集生成程序。

在图1所示的训练样本集生成设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本训练样本集生成设备中的处理器1001、存储器1005可以设置在训练样本集生成设备中，训练样本集生成设备通过处理器1001调用存储器1005中存储的训练样本集生成程序，并执行本申请实施例提供的训练样本集生成方法。

基于上述训练样本集生成设备的硬件结构但不限于上述硬件结构，本申请提供一种训练样本集生成方法第一实施例。参照图2，图2示出了本申请训练样本集生成方法第一实施例的流程示意图。

需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例中，一种训练样本集生成方法包括：

步骤S100、获取当前训练任务的待选样本数据。

其中，待选样本数据包括新增样本数据和已学习的旧训练任务的历史样本数据。

具体而言，本实施例中针对的神经网络模型为可持续学习模型，即为指具有持续学习能力的神经网络模型。在本实施例中，神经网络模型对应有新任务数据和旧任务数据。其中，新任务数据是指可持续学习模型未学习的任务数据，可以是在当前训练任务所需学习的数据，具体包括新增样本数据。新增样本数据也可视为当期样本数据。旧任务数据是指可持续学习模型在当前训练任务之前的旧训练任务中已学习的任务数据，具体包括旧训练任务的历史样本数据。

示例性地，在初始训练时，新增样本数据为第一任务数据，历史样本数据为空；在第二次训练时，新增样本数据为第二任务数据，历史样本数据为第一任务数据；在第三次训练时，新增样本数据为第三任务数据，历史样本数据为第一任务数据和第二任务数据。以此类推，在第T次训练时，新增样本数据为第T任务数据，历史样本数据为第一任务数据、第二任务数据、……直到第T-1任务数据。

值得一提的是，新增样本数据和历史样本数据的样本之间的类型可以是同类数据，还可以是不同类数据，具体根据所需学习的任务需求确定。

步骤S200、对新增样本数据进行聚类，获得至少一个新增样本簇，对历史样本数据进行聚类，获得至少一个历史样本簇。

具体而言，在长周期的模型更新迭代中，历史样本数据的数据量很大，为了提高处理效率，并方便后续利用样本簇的距离几何关系进行分析，本实施例可根据样本特征信息对新增样本数据进行聚类，得到至少一个新增样本簇。至少一个新增样本簇形成新增样本簇群。并根据样本特征信息对历史样本数据进行聚类，获得至少一个历史样本簇。至少一个历史样本簇形成历史样本簇群。

如对于第T_i个学习任务，聚类后可以得到新增样本簇群C_i以及历史样本簇群C_1～i-1。

步骤S300、对历史样本簇和各新增样本簇进行簇相似性分析，获得各个历史样本簇的相似度。

将历史样本簇群C_1～i-1中的每一个历史样本簇和新增样本簇群C_i中的每一个新增样本簇两两之间进行对比，以确定是否具有重复样本，从而得到历史样本簇相对于各个新增样本簇的相似度。由于本实施例中，相似性分析的对象为样本簇，而样本簇可视为至少一个样本组成的集合，因此相似度可以是以下结果类型中的一者：

(1)完全相似：历史样本簇完全属于分析时对比的新增样本簇，也即是历史样本簇为其中一个新增样本簇的子集。或者，分析时对比的新增样本簇完全属于该历史样本簇，也即是分析时对比的新增样本簇为历史样本簇的子集。

(2)完全不相似：历史样本簇和分析时对比的新增样本簇之间不存在重复样本，也即是历史样本簇和分析时对比的新增样本簇之间的交集为空集。

(3)部分相似：历史样本簇和分析时对比的新增样本簇之间具有重复样本，但彼此也均具有另一者所没有的样本。也即是历史样本簇和分析时对比的新增样本簇之间具有交集，且交集不为空集。

可以理解的，本实施例中的重复样本可以是完全一致的样本，还可以是高相似度的样本。上述两者即为冗余样本。

具体的，簇相似性分析可基于每个历史样本簇和每个新增样本簇在样本特征空间的簇半径和簇中心点，分析两个样本簇在样本特征空间内的占用空间的重叠关系，从而利用样本簇在样本特征空间内的距离几何关系，对历史样本簇和新增样本簇进行簇相似性分析，获得各个历史样本簇的相似分析结果。由于新增样本簇包括至少一个，因此任一个历史样本簇的相似分析结果均包括至少一个相似度。

如针对新增样本簇Q_j和历史样本簇p_i，请参阅图3，在样本特征空间内完全重叠时，即新增样本簇Q_j和历史样本簇p_i的簇中心点之间的距离d满足：或者/>时，即可以认为历史样本簇完全位于其中一个新增样本簇的内部，或者新增样本簇完全位于历史样本簇的内部。此时，可视为新增样本簇Q_j和历史样本簇p_i的相似度为完全相似。其中，/>为新增样本簇Q_j的簇半径，/>为历史样本簇p_i的簇半径。

请参阅图4，当新增样本簇Q_j和历史样本簇p_i在样本特征空间内没有任何重叠区域时，即新增样本簇Q_j和历史样本簇p_i的簇中心点之间的距离d满足：d＞R_Qi+R_pi时，即可以认为历史样本簇p_i和新增样本簇Q_j之间不存在重复样本，也即是历史样本簇p_i和新增样本簇Q_j之间的交集为空集。

请参阅图5，当新增样本簇Q_j和历史样本簇p_i在样本特征空间内的部分区域重叠时，新增样本簇Q_j和历史样本簇p_i的簇中心点之间的距离d满足：；或者/>时，即可以认为历史样本簇p_i和新增样本簇Q_j之间存在重复样本，但彼此也均具有另一者所没有的样本，也即是历史样本簇p_i和新增样本簇Q_j之间具有交集，且交集不为空集。

步骤S400、基于相似度，去除至少一个历史样本簇中的冗余样本簇，获得有效历史样本簇。

具体而言，由于历史样本数据与新增样本数据之间可能存在许多重复样本。而在当前训练任务中，既要保留新的样本形态，也即是新增样本数据有、而历史样本数据中没有的样本数据，又要保留旧任务数据的丰富性，也即是保留历史样本数据中有、而新增样本数据中没有的样本数据。因此，本实施例在对各个历史样本簇进行簇相似性分析后，即可根据相似度的结果类型的类别进行对应的处理，将相似度满足预设条件的历史样本簇，即有效历史样本簇保留，而不满足预设条件的历史样本簇，即冗余样本簇删除，从而实现对历史样本簇的冗余去除，获得有效历史样本簇。

步骤S500、基于有效历史样本簇和新增样本簇，生成当前训练任务的训练样本集。

在经过去冗余后，有效历史样本簇和新增样本簇中保留了新的样本形态，还保留了旧任务数据的丰富性，从而可以据此生成当前训练任务的训练样本集，进而改善了神经网络模型的灾难性遗忘问题，使得当前训练任务最终训练得到的神经网络模型在面对新任务数据和旧任务数据时均具有良好的表现。

基于上述实施例，提出本申请训练样本集生成方法第二实施例。参阅图6，图6为本申请训练样本集生成方法第二实施例的流程图。

本实施例中，步骤S300具体包括：

步骤S310、去除第二冗余样本簇。

其中，第二冗余样本簇为至少一个相似度为完全相似的历史样本簇。

具体而言，完全相似包括历史样本簇为任一新增样本簇的子集，或者任一新增样本簇为历史样本簇的子集，当簇相似性分析后，某一历史样本簇存在有至少一个完全相似的相似度时，则说明该历史样本簇至少和其中一个新增样本簇之间的冗余度极高，该历史样本簇为冗余样本簇中的第二冗余样本簇，此时可以将该历史样本簇去除。

步骤S320、将所有相似度均为完全不相似的历史样本簇，确定为有效历史样本簇。

具体而言，若某一历史样本簇和所有新增样本簇之间的交集均为空集，因此，可认为该历史样本簇和所有的新增样本簇均不具有冗余样本，其包括的样本均为独一无二的样本。因此，为了保留旧任务数据的丰富性，有必要保留该历史样本簇，从而将其确定为有效历史样本簇。

可以理解的，在另一些实施例中，可以仅仅执行步骤S320，或者仅仅执行步骤S310，本实施例对此并不限制。

步骤S330、针对任一目标历史样本簇，确定目标历史样本簇相对于各新增样本簇的重复样本占比。

目标历史样本簇为至少一个相似度为部分相似的历史样本簇。

步骤S340、根据至少一个重复样本占比，确定目标历史样本簇相对于所有新增样本簇的相似均匀度。

步骤S350、若相似均匀度为目标历史样本簇仅和其中一个新增样本簇高度相似，则将目标历史样本簇确定为第一冗余样本簇，删除第一冗余样本簇。

具体而言，由于目标历史样本簇和分析时对比的新增样本簇之间的部分相似，但彼此也均具有另一者所没有的样本，从而有必要进一步判断目标历史样本簇是否具有学习的价值。其中，重复样本占比为目标历史样本簇和分析时对比的新增样本簇之间的重复样本数量相对于目标历史样本簇的样本总数或者分析时对比的新增样本簇的样本总数的比值。

在一具体实施方式中，步骤S330具体包括：

步骤S331、针对任一目标历史样本簇，确定目标历史样本簇相对于任一新增样本簇的重复样本数量。

步骤S332、确定重复样本数量相对于目标历史样本簇的第一重复样本占比，并确定重复样本数量相对于任一新增样本簇的第二重复样本占比。

步骤S333、将第一重复样本占比和第二重复样本占比中数值较大的一者，确定为目标历史样本簇相对于任一新增样本簇的重复样本占比。

具体而言，本实施例中，历史样本簇的总个数为N，而新增样本簇的总个数为M。针对目标历史样本簇P_i，统计目标历史样本簇P_i与新增样本簇中的任一新增样本簇Q_j的重叠区域内的样本数，也即是重复样本数量S_j，其中，1≤i≤N,1≤j≤M。分别计算S_j相对于P_i的样本总数的第一重复样本占比r_j,1，S_j相对于Q_j的样本总数的第二重复样本占比r_j,2，并取两个比值中的较大值作为目标历史样本簇P_i相对于该任一新增样本簇Q_j的重复样本占比r_j，即r_j＝max{r_j,1,r_j,2}。

本实施例中，将两个比值中的较大值作为重复样本占比，可以更佳地在样本特征空间内反应出两个簇之间的距离信息，从而更近一步反映出两个簇内样本的样本特征信息的相似度，以更好的判断目标历史样本簇是否具有学习价值。

在获得目标历史样本簇和各新增样本簇之间的重复样本占比后，即可确定目标历史样本簇相对于所有新增样本簇的相似均匀度。

由于本实施例中聚类是根据样本特征信息进行，若该目标历史样本簇仅仅与其中一个新增样本簇高度相似，则可以认为该目标历史样本簇在样本特征空间内的簇中心位于该高度相似的新增样本簇内，或者靠近该高度相似的新增样本簇的簇最远点。此时，该目标历史样本簇的大部分样本已经被该高度相似的新增样本簇提供给可持续学习模型学习，而剩余部分样本的样本特征信息也被其余新增样本簇提供给可持续学习模型学习，或者，剩余部分样本的样本特征信息也与其余新增样本簇的样本特征信息高度相似而不具有学习价值。

而若该目标历史样本簇的相似均匀度为目标历史样本簇在多个新增样本簇之间，且距离分布较为均匀，则该目标历史样本簇和多个新增样本簇均存在重叠区域，其重叠区域的面积彼此较为接近，则可以认为该目标历史样本簇填补了多个新增样本簇之间空白区域，其必然包括有新的样本特征信息，或者包括的样本大概率为难例样本，从而也具有学习价值。如在一示例中，其中一个新增样本簇为“马”，而另一个新增样本簇为“驴”，而根据相似均匀度，其中一个为“骡子”的历史样本簇和新增样本簇为“马”以及新增样本簇为“驴”均存在重合区域，且重叠区域彼此接近，此时，则可以确定历史样本簇“骡子”为一个独立的簇，或者为新增样本簇为“马”以及新增样本簇为“驴”之间的难例样本簇，从而具有学习价值，而有必要保留。

具体的，在一具体实施方式中，步骤S340，具体包括：

步骤S341、根据重复样本占比的数值大小，对至少一个重复样本占比进行排序，获得重复样本占比序列。

步骤S342、基于重复样本占比序列，生成重复样本占比曲线。

步骤S343、若重复样本占比曲线为凹函数曲线且至少一个重复样本占比中的最大值大于预设值，则将目标历史样本簇的相似均匀度确定为目标历史样本簇仅和其中一个新增样本簇高度相似。

具体而言，在获得目标历史样本簇P_i的所有重复样本占比r_j后，根据所有重复样本占比r_j的数值大小进行排序，如可以根据从小到大的顺序进行排序，得到重复样本占比序列。可以理解的，重复样本占比序列为升序列。然后在一XY坐标系上，以重复样本占比序列中元素顺序为横坐标，重复样本占比序列中重复样本占比r_j的数值为纵坐标，绘制得到多个坐标点，然后根据多个坐标点生成重复样本占比曲线。

值得一提的是，在一些示例中，若XY坐标系上生成的多个坐标点彼此位于一函数曲线上，则重复样本占比曲线可以是直接根据重复样本占比序列生成。或者，在另一些示例中，若XY坐标系上生成的多个坐标点彼此并不能绘制得到一函数曲线上，则重复样本占比曲线可以是一拟合曲线。

或者，在另一些示例中，参阅图7和图8，可以在一XY坐标系上，以重复样本占比序列中元素顺序为横坐标，重复样本占比序列中重复样本占比r_j的数值为纵坐标高度，绘制得到多个柱形图。然后根据多个柱形图的顶部中点坐标生成，或者拟合得到重复样本占比曲线。

生成重复样本占比曲线后，参阅图7，若重复样本占比曲线为凹函数，则可以认为目标历史样本簇虽然位于多个新增样本簇之间，但是较为偏向于最大重复样本占比r_maxj对应的新增样本簇。且若最大重复样本占比r_maxj＞0.7，则可以认为该目标历史样本簇仅仅与其中一个新增样本簇高度相似。可以理解的，本示例中，预设值为0.7。当然，该预设值还可以根据可持续学习模型的任务数据的类型，或者样本数量，或者样本之间的距离信息等进行调整，本实施例对此并不限制。

参阅图8，若重复样本占比曲线为凸函数，则可以认为目标历史样本簇在多个新增样本簇之间，且距离分布较为均匀，因此，目标历史样本簇内的样本具有新的样本特征信息或者包括的样本大概率为难例样本，从而也具有学习价值。

由此，本实施例中，既利用了样本簇之间的距离几何关系，同时进一步考虑了当两个样本簇存在共同部分重复样本时的特殊处理。与简单的通过两个簇之间的距离关系来判定两个簇的相似性方法不同，本实施例利用二次函数来拟合某个历史样本簇与所有新增样本簇之间的重复样本占比曲线，并根据重复样本占比曲线的凹凸关系来判定某个历史样本簇是否为冗余簇，从而更好地量化两个样本簇之间的相似性。

基于上述实施例，提出本申请训练样本集生成方法第三实施例。参阅图9，图9为本申请训练样本集生成方法第三实施例的流程图。

本实施例中，步骤S500具体包括：

步骤S510、将有效历史样本簇和新增样本簇均作为训练样本簇。

步骤S520、基于训练样本簇的样本特征信息，获得各训练样本簇的重要度信息。

步骤S530、基于重要度信息，确定各训练样本簇的挑选样本数量。

其中，挑选样本数量的样本数和重要度信息呈正相关。

步骤S540、基于挑选样本数量，从对应的训练样本簇中筛选出目标样本数据，生成当前训练任务的训练样本集。

具体而言，对于当前训练任务，其所需的训练样本集的数据量的大小具有一定的限制。为了在有限的数据空间内，使得训练得到的可持续学习模型可以在面对新任务数据和旧任务数据时均具有良好的表现，此时训练样本集内的各个样本的丰富性应当满足一定的要求，以尽量使得各个样本可以提供更多的知识让可持续学习模型学习，并将学习的知识体现在可持续模型的模型参数上。本实施例中，可通过重要度信息表征各训练样本簇内的样本在样本丰富性上的重要程度。可以认为的是，一个训练样本簇内包括更多的样本，样本之间的差异更大时，该训练样本簇更加重要。而一个训练样本簇内的样本数量更小，或者样本之间的差异性更小时，或者样本数量更小且样本之间的差异性更小时，训练样本簇的重要性更低。

因此，本实施例中，在确定各个训练样本簇的重要度信息后，根据训练样本簇的重要性来确定每个训练样本簇需要被采样的样本数，也即是确定挑选样本数量。可以理解的，挑选样本数量的样本数和重要度信息呈正相关，从而越重要的训练样本簇，其被采样的样本也就更多，使得最终得到的训练样本集更加关注重要度更高的样本。

在一示例中，训练样本簇的重要度信息和挑选样本数量之间存在如下函数关系：

K＝α·I；

其中，K为挑选样本数量，I为训练样本簇的重要度信息，α为比例系数，α的具体取值可根据经验确定。

如此，根据某一训练样本簇的K值，从该训练样本簇中随机挑选K个样本加入到训练样本集中。当然，K个样本的具体挑选还可不限于随机挑选，还可基于该训练样本簇内各个样本之间的差异性等属性进行挑选，本实施例对此并不限制。

由此，与现有的随机筛选和样本均衡的样本筛选方法不同，本实施例中，根据簇的重要性来确定每个簇需要被采样的样本数，通过这种方法可以提高重要簇的样本在模型训练中的关注度。

在一具体实施方式中，针对某个训练样本簇，其重要度信息可通过下述方式得到。此时，步骤S520具体包括：

步骤S521、确定训练样本簇的样本总数、簇方差以及错误报警样本数量。

其中，错误报警样本由上一训练任务得到的神经网络模型对测试样本集进行测试得到。

步骤S522、基于样本总数、簇方差以及错误报警样本数量，获得训练样本簇的重要度信息。

其中，样本总数、簇方差以及错误报警样本数量均与重要度信息呈正相关。

本实施例中，在持续学习中，在上一训练任务训练完成后，得到可持续学习模型M_i-1。然后使用测试样本集对可持续学习模型M_i-1进行测试。可以理解的，可持续学习模型M_i-1的识别成功率很少达到100％，因此，存在错误报警样本。错误报警样本可以是误报样本(如背景被预测为前景目标)，或者漏报样本(如前景被预测为背景)。错误报警样本可以在测试结束后，由人工进行筛选并标记得到。

在进入当前训练任务时，获取上一训练任务得到的错误报警样本，然后计算在样本特征空间内，所有错误报警样本与各个训练样本簇之间的距离，若一个错误报警样本与训练样本簇的簇中心点的距离小于该训练样本簇的簇半径，从而可以确定该错误报警样本属于该训练样本簇内，换而言之，该训练样本簇内具有该错误报警样本，训练样本簇内具有的错误报警样本的样本数量即为错误报警样本数量E。然后统计训练样本簇的样本总数S和簇方差V。

由于每个训练样本簇内的样本的重要程度存在差异，因此每个训练样本簇的重要性也不同，本实施例中训练样本簇的重要度信息与下述三个因子有关：错误报警样本数E、样本总数S和簇方差V。

训练样本簇的重要度信息I和三个因子之间存在如下函数关系：

I＝β·S·E·V；

可见，一个训练样本簇如果样本总数越多、簇方差越大、错误报警样本数越多，则该训练样本簇越重要。

由此，本实施例提供了一种具体的计算各训练样本簇的重要度信息的方法，利用了旧训练任务中的错误报警样本信息、簇方差信息、簇内样本总数信息来判定该簇的重要性，不仅可以使得提供的样本丰富性更佳，使得最终训练得到的神经网络模型在面临新旧任务数据时表现更好，且更加关注错误报警样本，从而提高对错误报警样本的识别精度。

此外，请参阅图10，本申请还提供了一种训练样本集生成装置，包括：

在本申请可能的一实施例中，样本簇筛选模块具体包括：

在本申请可能的一实施例中，样本簇筛选模块，还包括：

样本簇保留单元，用于将相似度为完全不相似的历史样本簇，确定为有效历史样本簇。

在本申请可能的一实施例中，训练集生成模块，包括：

需要说明的是，本实施例中的关于训练样本集生成装置的各实施方式以及其达到的技术效果可参照前述实施例中训练样本集生成方法的各种实施方式，这里不再赘述。

此外，本申请实施例还提出一种计算机可读存储介质，存储介质上存储有训练样本集生成程序，训练样本集生成程序被处理器执行时实现如上文的训练样本集生成方法的步骤。因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。确定为示例，程序指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种训练样本集生成方法，其特征在于，所述方法包括：

获取当前训练任务的待选样本数据；所述待选样本数据包括新增样本数据和旧训练任务的历史样本数据；

对所述新增样本数据进行聚类，获得至少一个新增样本簇，对所述历史样本数据进行聚类，获得至少一个历史样本簇；

对所述历史样本簇和各所述新增样本簇进行簇相似性分析，获得所述历史样本簇的至少一个相似度；其中，所述相似度包括完全相似、完全不相似或者部分相似；

基于所述相似度，去除至少一个所述历史样本簇中的冗余样本簇，获得有效历史样本簇；

基于所述有效历史样本簇和所述新增样本簇，生成所述当前训练任务的训练样本集。

2.根据权利要求1所述的训练样本集生成方法，其特征在于，所述基于所述相似度，去除至少一个所述历史样本簇中的冗余样本簇，获得有效历史样本簇，包括：

针对任一所述目标历史样本簇，确定所述目标历史样本簇相对于各所述新增样本簇的重复样本占比；其中，所述目标历史样本簇为至少一个相似度为部分相似的历史样本簇；

根据至少一个所述重复样本占比，确定所述目标历史样本簇相对于所有所述新增样本簇的相似均匀度；

若所述相似均匀度为所述目标历史样本簇仅和其中一个所述新增样本簇高度相似，则将所述目标历史样本簇确定为第一冗余样本簇，删除所述第一冗余样本簇。

3.根据权利要求2所述的训练样本集生成方法，其特征在于，所述根据至少一个所述重复样本占比，确定所述目标历史样本簇相对于所有所述新增样本簇的相似均匀度，包括：

根据所述重复样本占比的数值大小，对至少一个所述重复样本占比进行排序，获得重复样本占比序列；

基于所述重复样本占比序列，生成重复样本占比曲线；

若所述重复样本占比曲线为凹函数曲线且所述至少一个所述重复样本占比中的最大值大于预设值，则将所述目标历史样本簇的所述相似均匀度确定为所述目标历史样本簇仅和其中一个所述新增样本簇高度相似。

4.根据权利要求2所述的训练样本集生成方法，其特征在于，所述针对任一所述目标历史样本簇，确定所述目标历史样本簇相对于各所述新增样本簇的重复样本占比，包括：

针对任一所述目标历史样本簇，确定所述目标历史样本簇相对于任一所述新增样本簇的重复样本数量；

确定所述重复样本数量相对于所述目标历史样本簇的第一重复样本占比，并确定所述重复样本数量相对于所述任一所述新增样本簇的第二重复样本占比；

将所述第一重复样本占比和所述第二重复样本占比中数值较大的一者，确定为所述目标历史样本簇相对于所述任一所述新增样本簇的重复样本占比。

5.根据权利要求1或2所述的训练样本集生成方法，其特征在于，所述基于所述相似度，去除至少一个所述历史样本簇中的冗余样本簇，获得有效历史样本簇，包括：

去除第二冗余样本簇；其中，所述第二冗余样本簇为至少一个所述相似度为完全相似的历史样本簇；和/或

将所有所述相似度均为完全不相似的历史样本簇，确定为有效历史样本簇。

6.根据权利要求1所述的训练样本集生成方法，其特征在于，所述基于所述有效历史样本簇和所述新增样本簇，生成所述当前训练任务的训练样本集，包括：

将所述有效历史样本簇和所述新增样本簇均作为训练样本簇；

基于所述训练样本簇的样本特征信息，获得各所述训练样本簇的重要度信息；

基于所述重要度信息，确定各所述训练样本簇的挑选样本数量；其中，所述挑选样本数量和所述重要度信息呈正相关；

基于所述挑选样本数量，从对应的所述训练样本簇中筛选出目标样本数据，生成所述当前训练任务的训练样本集。

7.根据权利要求6所述的训练样本集生成方法，其特征在于，所述基于所述训练样本簇的样本特征信息，获得各所述训练样本簇的重要度信息，包括：

确定所述训练样本簇的样本总数、簇方差以及错误报警样本数量；其中，错误报警样本由上一训练任务得到的神经网络模型对测试样本集进行测试得到；

基于所述样本总数、所述簇方差以及所述错误报警样本数量，获得所述训练样本簇的重要度信息；其中，所述样本总数、所述簇方差以及所述错误报警样本数量均与所述重要度信息呈正相关。

8.一种训练样本集生成装置，其特征在于，包括：

样本获取模块，用于获取当前训练任务的待选样本数据；所述待选样本数据包括新增样本数据和旧训练任务的历史样本数据；

样本聚类模块，用于对所述新增样本数据进行聚类，获得至少一个新增样本簇，对所述历史样本数据进行聚类，获得至少一个历史样本簇；

样本簇分析模块，用于对所述历史样本簇和各所述新增样本簇进行簇相似性分析，获得所述历史样本簇的至少一个相似度；其中，所述相似度包括完全相似、完全不相似或者部分相似；

样本簇筛选模块，用于基于所述相似度，去除至少一个所述历史样本簇中的冗余样本簇，获得有效历史样本簇；

训练集生成模块，用于基于所述有效历史样本簇和所述新增样本簇，生成所述当前训练任务的训练样本集。

9.根据权利要求8所述的训练样本集生成装置，其特征在于，所述样本簇筛选模块具体包括：

占比确定单元，用于针对任一所述目标历史样本簇，确定所述目标历史样本簇相对于各所述新增样本簇的重复样本占比；其中，所述目标历史样本簇为至少一个相似度为部分相似的历史样本簇；

均匀度分析单元，用于根据至少一个所述重复样本占比，确定所述目标历史样本簇相对于所有所述新增样本簇的相似均匀度；

簇删除单元，用于若所述相似均匀度为所述目标历史样本簇仅和其中一个所述新增样本簇高度相似，则将所述目标历史样本簇确定为第一冗余样本簇，删除所述第一冗余样本簇；和/或

所述均匀度分析单元，具体用于根据所述重复样本占比的数值大小，对至少一个所述重复样本占比进行排序，获得重复样本占比序列；基于所述重复样本占比序列，生成重复样本占比曲线；若所述重复样本占比曲线为凹函数曲线且所述至少一个所述重复样本占比中的最大值大于预设值，则将所述目标历史样本簇的所述相似均匀度确定为所述目标历史样本簇仅和其中一个所述新增样本簇高度相似；和/或

所述占比确定单元，具体用于针对任一所述目标历史样本簇，确定所述目标历史样本簇相对于任一所述新增样本簇的重复样本数量；确定所述重复样本数量相对于所述目标历史样本簇的第一重复样本占比，并确定所述重复样本数量相对于所述任一所述新增样本簇的第二重复样本占比；将所述第一重复样本占比和所述第二重复样本占比中数值较大的一者，确定为所述目标历史样本簇相对于所述任一所述新增样本簇的重复样本占比；和/或

样本簇筛选模块，还包括：

样本簇去除单元，用于去除第二冗余样本簇；其中，所述第二冗余样本簇为至少一个所述相似度为完全相似的历史样本簇；和/或

样本簇保留单元，用于将所有所述相似度均为完全不相似的历史样本簇，确定为有效历史样本簇；和/或

所述训练集生成模块，包括：

重要度分析单元，用于将所述有效历史样本簇和所述新增样本簇均作为训练样本簇；基于所述训练样本簇的样本特征信息，获得各所述训练样本簇的重要度信息；

样本数确定单元，用于基于所述重要度信息，确定各所述训练样本簇的挑选样本数量；其中，所述挑选样本数量和所述重要度信息呈正相关；

训练集生成单元，用于基于所述挑选样本数量，从对应的所述训练样本簇中筛选出目标样本数据，生成所述当前训练任务的训练样本集；和/或

所述重要度分析单元，具体用于确定所述训练样本簇的样本总数、簇方差以及错误报警样本数量，错误报警样本由上一训练任务得到的神经网络模型对测试样本集进行测试得到；基于所述样本总数、所述簇方差以及所述错误报警样本数量，获得所述训练样本簇的重要度信息；其中，所述样本总数、所述簇方差以及所述错误报警样本数量均与所述重要度信息呈正相关。

10.一种训练样本集生成设备，其特征在于，包括：处理器，存储器以及存储在所述存储器中的训练样本集生成程序，所述训练样本集生成程序被所述处理器运行时实现如权利要求1-7中任一项所述训练样本集生成方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有训练样本集生成程序，所述训练样本集生成程序被处理器执行时实现如权利要求1至7任一项所述的训练样本集生成方法。