CN114118305A

CN114118305A - 一种样本筛选方法、装置、设备及计算机介质

Info

Publication number: CN114118305A
Application number: CN202210083544.3A
Authority: CN
Inventors: 黄祖浩; 丁明
Original assignee: Guangzhou Xuanwu Wireless Technology Co Ltd
Current assignee: Guangzhou Xuanwu Wireless Technology Co Ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-03-01

Abstract

本发明公开了一种样本筛选方法、装置、设备及计算机介质，所述方法包括：获取已标注的参考样本集和无标注的待筛选样本集；将所述参考样本集输入到样本识别模型，得到样本识别结果；其中，所述样本识别模型通过训练样本集训练获得，所述样本识别结果包括标注结果和置信度；基于所述样本识别结果和所述参考样本集的标注标签，确定所述参考样本集中的目标参考样本；计算所述目标参考样本与所述待筛选样本集的特征相似度；根据所述特征相似度得到所述待筛选样本集中的目标样本。通过上述方法可在大量收集样本中快速筛选出高质量的目标样本，减少人工筛选工作，提高样本筛选效率。

Description

一种样本筛选方法、装置、设备及计算机介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种样本筛选方法、装置、设备及计算机介质。

背景技术

在计算机视觉领域中，深度学习模型近年来取得了突破性进展，而训练样本集的质量是决定机器学习模型处理能力的关键因素之一。

目前，对于训练样本集的获取主要靠人力无差别收集，这种无差别的样本收集方法使得训练集中往往存在大量低质量样本，低质量样本既影响对模型的训练效果，又影响模型的应用性能，且大大增加了样本筛选和标注所需的时间成本以及人力成本。

因此，亟需一种从大量未标注样本中获得质量较高的未标注样本的筛选方法。

发明内容

针对上述技术问题，本发明提供一种样本筛选方法，能够在大量样本中快速筛选出高质量的目标样本，减少人工筛选工作，提高样本筛选效率。

第一方面，本发明提供一种样本筛选方法，包括：

获取已标注的参考样本集和无标注的待筛选样本集；

将所述参考样本集输入到样本识别模型，得到样本识别结果；其中，所述样本识别模型通过训练样本集训练获得，所述样本识别结果包括标注结果和置信度；

基于所述样本识别结果和所述参考样本集的标注标签，确定所述参考样本集中的目标参考样本；

计算所述目标参考样本与所述待筛选样本集的特征相似度；

根据所述特征相似度得到所述待筛选样本集中的目标样本。

可选的，所述基于所述样本识别结果和所述参考样本集的标注标签，确定所述参考样本集中的目标参考样本，具体为：

获取所述参考样本集中每一样本经所述样本识别模型输出的标注结果和置信度；

将所述标注结果与对应的标注标签不一致且所述置信度满足第一阈值条件的样本，或所述置信度满足第二阈值条件的样本设置为目标参考样本。

可选的，所述计算所述目标参考样本与所述待筛选样本集的特征相似度，具体为：

通过所述样本识别模型中的中间层分别获取所述待筛选样本集和所述参考样本集的特征序列；

计算所述待筛选样本集的特征序列与所述参考样本集的特征序列之间的相似度。

可选的，所述计算所述待筛选样本集的特征序列与所述参考样本集的特征序列之间的相似度，具体为：

计算所述待筛选样本集的特征序列与所述参考样本集的特征序列之间的余弦相似度。

可选的，根据所述特征相似度得到所述待筛选样本集中的目标样本之后，还包括：

对所述目标样本进行标注，将标注后的所述目标样本增加至所述训练样本集；

利用增加了目标样本的所述训练样本集对所述样本识别模型进行迭代更新。

第二方面，本发明还提供一种样本筛选装置，包括：

样本获取模块，用于获取已标注的参考样本集和无标注的待筛选样本集；

样本识别模块，用于将所述参考样本集输入到样本识别模型，得到样本识别结果；其中，所述样本识别模型通过训练样本集训练获得，所述样本识别结果包括标注结果和置信度；基于所述样本识别结果和所述参考样本集的标注标签，确定所述参考样本集中的目标参考样本；

样本筛选模块，用于计算所述目标参考样本与所述待筛选样本集的特征相似度；根据所述特征相似度得到所述待筛选样本集中的目标样本。

可选的，所述样本筛选装置还包括：

模型更新模块，用于对所述目标样本进行标注，将标注后的所述目标样本增加至所述训练样本集；利用增加了目标样本的所述训练样本集对所述样本识别模型进行迭代更新。

可选的，所述样本识别模块具体用于：

第三方面，本发明提供一种数据处理设备，包括处理器，所述处理器和存储器耦合，所述存储器存储有程序，所述程序由所述处理器执行，使得所述数据处理设备执行第一方面所述的样本筛选方法。

第四方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述第一方面所述的样本筛选方法。

相比现有技术，本发明的有益效果在于：

本发明提供的样本筛选方法通过利用样本识别模型输出的识别结果获取目标参考样本，并根据目标参考样本与无标注样本的相似度信息，从大量无标注样本中筛选出高质量的目标样本，从而有效提高样本筛选效率，降低人工成本。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的样本筛选方法的流程示意图；

图2是本发明实施例提供的样本筛选装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，第一方面，本发明一个实施例提供一种样本筛选方法，包括下述步骤。

S1：获取已标注的参考样本集和无标注的待筛选样本集。

S2：将所述参考样本集输入到样本识别模型，得到样本识别结果。

其中，所述样本识别模型通过训练样本集训练获得，所述样本识别结果包括标注结果和置信度。

S3：基于所述样本识别结果和所述参考样本集的标注标签，确定所述参考样本集中的目标参考样本。

S4：计算所述目标参考样本与所述待筛选样本集的特征相似度，根据所述特征相似度得到所述待筛选样本集中的目标样本。

在本实施例中，所获取的参考样本集和训练样本集均包含所收集的样本及其对应的标注标签，可用于模型训练和验证；待筛选样本集则不包含标注信息，需人工进行标注。

需要说明的是，所述样本识别模型可设置为ResNeXt-101网络模型，并设置模型迭代周期50轮，初始学习率为0.002，间隔13个epoch学习率下降10%的训练策略。

具体地，基于上述训练策略，利用训练样本集对ResNeXt-101网络模型，得到该训练样本对应的样本识别模型，模型可输出样本的标注结果及其对应预测置信度。

完成模型构建后，将参考样本集输入至样本识别模型，得到参考样本集中各样本对应的标注结果和置信度。

进一步地，本实施例可将参考样本集中各样本经模型输出的标注结果与其对应的标注标签不一致且置信度满足第一阈值条件的样本，或置信度满足第二阈值条件的样本设置为目标参考样本。

具体地，所述第一阈值条件可设置为置信度接近1.0，所述第二阈值条件可设置为置信度接近0.5。

可以理解的是，本实施例对于高质量的目标样本的筛选条件为两个方面：对于待筛选样本集中的样本，若模型输出的标注结果与其对应的标注标签不一致且预测结果的置信度接近1.0，表示该样本为难例样本，其对模型的判断具有较高的干扰性，具备高价值；或者，若模型输出的置信度接近0.5，表示模型对于该样本具有较高的不确定性，该样本也具备高价值。

通过上述方式可快速得到参考样本集中高价值的目标参考样本，利用该目标参考样本可对无标注样本进行筛选。

在本实施例中，可通过样本识别模型中的中间层分别获取待筛选样本集和参考样本集的特征序列，再计算待筛选样本集的特征序列与参考样本集的特征序列之间的相似度，根据所述特征相似度得到所述待筛选样本集中的目标样本。

具体地，可通过样本识别模型的最后一层全连接层分别提取目标参考样本以及待筛选样本集的2048维特征序列，并计算目标参考样本的2048维特征序列与待筛选样本集的2048维特征序列的余弦相似度。

可以理解的是，余弦相似度越接近1，序列样本越相似，对应的待筛选样本的价值越高，基于余弦相似度可得到待筛选样本集中的目标样本。

在另一实施例中，根据特征相似度得到待筛选样本集中的目标样本之后，还可对所述目标样本进行标注，将标注后的目标样本增加至训练样本集；利用增加了目标样本的训练样本集对样本识别模型进行迭代更新。

具体地，通过上述方式得到待筛选样本集中的高质量的目标样本后，对其进行人工批注，并将完成批注的目标样本增加至上述训练样本集中，以提升模型的训练效果和应用性能。

当增加的目标样本数量达到设定数值时，利用增加后的训练样本集对所述样本识别模型进行迭代优化训练，以得到更新后的样本识别模型。

利用更新后的样本识别模型可重新执行上述步骤S1至S4，以实现样本筛选及标注、模型训练及更新的闭环过程，减少人为操作。

本发明上述实施例通过利用样本识别模型输出的识别结果获取目标参考样本，并根据目标参考样本与无标注样本的相似度信息，从大量无标注样本中筛选出高质量的目标样本，从而有效提高样本筛选效率，降低人工成本。

请参阅图2，第二方面，本发明一个实施例还提供一种样本筛选装置，包括样本获取模块101、样本识别模块102和样本筛选模块103。

样本获取模块101用于获取已标注的参考样本集和无标注的待筛选样本集。

样本识别模块102用于将所述参考样本集输入到样本识别模型，得到样本识别结果；其中，所述样本识别模型通过训练样本集训练获得，所述样本识别结果包括标注结果和置信度；基于所述样本识别结果和所述参考样本集的标注标签，确定所述参考样本集中的目标参考样本。

样本筛选模块103用于计算所述目标参考样本与所述待筛选样本集的特征相似度；根据所述特征相似度得到所述待筛选样本集中的目标样本。

在本实施例中，所述样本识别模块102具体可用于获取参考样本集中每一样本经样本识别模型输出的标注结果和置信度；将所述标注结果与对应的标注标签不一致且所述置信度满足第一阈值条件的样本，或所述置信度满足第二阈值条件的样本设置为目标参考样本。

在另一个实施例中，上述样本筛选装置还包括模型更新模块104，模型更新模块104用于对目标样本进行标注，将标注后的目标样本增加至训练样本集；并利用增加了目标样本的训练样本集对样本识别模型进行迭代更新。

上述装置内的各模块之间信息交互、执行过程等内容，由于与本发明的样本筛选方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可监听存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种样本筛选方法，其特征在于，包括：

获取已标注的参考样本集和无标注的待筛选样本集；

计算所述目标参考样本与所述待筛选样本集的特征相似度；

根据所述特征相似度得到所述待筛选样本集中的目标样本。

2.根据权利要求1所述的样本筛选方法，其特征在于，所述基于所述样本识别结果和所述参考样本集的标注标签，确定所述参考样本集中的目标参考样本，具体为：

3.根据权利要求1所述的样本筛选方法，其特征在于，所述计算所述目标参考样本与所述待筛选样本集的特征相似度，具体为：

4.根据权利要求3所述的样本筛选方法，其特征在于，所述计算所述待筛选样本集的特征序列与所述参考样本集的特征序列之间的相似度，具体为：

5.根据权利要求1至4任一所述的样本筛选方法，其特征在于，根据所述特征相似度得到所述待筛选样本集中的目标样本之后，还包括：

6.一种样本筛选装置，其特征在于，包括：

7.根据权利要求6所述的样本筛选装置，其特征在于，还包括：

8.根据权利要求6所述的样本筛选装置，其特征在于，所述样本识别模块，具体用于：

9.一种数据处理设备，其特征在于，包括：

处理器，所述处理器和存储器耦合，所述存储器存储有程序，所述程序由所述处理器执行，使得所述数据处理设备执行如权利要求1~5中任一项所述的样本筛选方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机指令，所述计算机指令用于执行上述权利要求1~5中任一项所述的样本筛选方法。