CN115600109A

CN115600109A - 样本集优化方法及其装置、设备、介质、产品

Info

Publication number: CN115600109A
Application number: CN202211321495.9A
Authority: CN
Inventors: 梁源通
Original assignee: Guangzhou Huanju Shidai Information Technology Co Ltd
Current assignee: Guangzhou Huanju Shidai Information Technology Co Ltd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-01-13

Abstract

本申请涉及一种样本集优化方法及其装置、设备、介质、产品，所述方法包括：获取原始样本集，包括多个训练样本及其相应的监督标签；根据影响函数确定原始样本集中各个训练样本改变监督标签之后的影响度，清除其中影响度相对较高的部分训练样本，获得均衡样本集；基于均衡样本集中的部分训练样本实施文本增强处理，通过文本增强扩充训练样本，获得增广样本集；基于增广样本集中的各个训练样本的深层语义信息的聚类结果，清除增广样本集中离群的训练样本，获得优化样本集。本申请获得的优化样本集，样本数量丰富，样本质量优良，适于训练相关下游任务相对应的深度学习模型，使被训练的深度学习模型更易收敛且能获得更高的预测准确率。

Description

样本集优化方法及其装置、设备、介质、产品

技术领域

本申请涉及电商信息处理技术，尤其涉及一种样本集优化方法及其装置、设备、介质、产品。

背景技术

随着大数据时代的到来、硬件的计算能力的增强，深度学习技术取得了显著的发展，其中，在自然语言处理领域，电商用户意图分类中有着广泛的应用，比如预测商品的类目，准确的类目预测可以为曝光商品提供更好的排序效果，带来更高的商品交易总额。

一方面，随着店铺商品规模的不断扩大，商品类目数量与日俱增，而对应用户输入的语料往往并不丰富，造成训练数据集的不足，这种情况下，往往需要借助文本增强技术生成高质量的数据，以提高下游模型性能，而不单单使用少量的种子样本。然而，传统的文本增强技术获得优质样本的前提需要依赖高质量的种子样本，因而也具有局限性。

另一方面，随着大型模型时代的到来，在工程落地上，围绕以模型改进为中心的方法论开始向着以数据为中心的方法演变，面临的问题是训练数据少且标注成本较高，耗费大量的人力物力，因而必须对训练数据增强技术提取迫切的需求。

综合来看，对于深度学习模型所需的训练样本，如何有机整合各种技术手段来实现样本的优化扩充，是本领域技术人员需要解决的问题。

发明内容

本申请的目的在于解决上述问题而提供一种样本集优化方法及其相应的装置、设备、非易失性可读存储介质，以及计算机程序产品。

根据本申请的一个方面，提供一种样本集优化方法，包括如下步骤：

获取原始样本集，其中包括多个训练样本及其相应的监督标签，所述训练样本为描述文本，所述监督标签为与所述描述文本相对应的意图标签；

根据影响函数确定所述原始样本集中各个训练样本改变监督标签之后的影响度，清除其中影响度相对较高的部分训练样本，获得均衡样本集；

基于所述均衡样本集中的部分训练样本实施文本增强处理，通过文本增强扩充训练样本，获得增广样本集；

基于所述增广样本集中的各个训练样本的深层语义信息的聚类结果，清除所述增广样本集中离群的训练样本，获得优化样本集。

可选的，获取原始样本集，包括：

获取电商平台中商品搜索事件相对应的用户搜索文本；

获取根据所述用户搜索文本获得的商品结果列表中被用户转化访问的商品项相对应的商品类目；

将每个商品搜索事件的用户搜索文本作为训练样本，将该用户搜索文本相对应的商品类目作为监督标签，存储于所述原始样本集中。

可选的，根据影响函数确定所述原始样本集中各个训练样本改变监督标签之后的影响度，清除其中影响度相对较高的部分训练样本，获得均衡样本集，包括：

采用所述原始样本集中的训练样本及其监督标签将分类模型训练至收敛；

改变所述原始样本集中的各个训练样本的监督标签，逐一将各个训练样本输入所述分类模型中预测出分类结果；

基于改变后的监督标签确定相应的训练样本的分类损失值，应用影响函数根据所述分类损失值确定相应的训练样本的影响度；

清除原始样本集中影响度高于设定阈值的部分训练样本，保留其他训练样本，构成均衡样本集。

可选的，基于所述均衡样本集中的部分训练样本实施文本增强处理，通过文本增强扩充训练样本，获得增广样本集，包括：

检测确定所述均衡样本集中的训练样本的分词数量，将分词数量大于预设阈值确定为第一类型训练样本，余者为第二类型训练样本；

基于第一类型训练样本，在保持原始的监督标签对应不变的情况下，进行分词粒度的编辑操作后扩充出新的训练样本；

基于第二类型训练样本，将其中对应同一原始的监督标签的不同训练样本中各自的局部描述文本进行随机拼接后，扩充为对应所述原始的监督标签的新的训练样本；

在扩充出的训练样本的基础上应用文本生成模型进一步扩充更多训练样本，将全部新增的训练样本添加到所述均衡样本集中，构成增广样本集。

可选的，基于所述增广样本集中的各个训练样本的深层语义信息的聚类结果，清除所述增广样本集中离群的训练样本，获得优化样本集，包括：

采用所述增广样本集中的训练样本将特征提取模型迭代训练至收敛，使该特征提取模型适于对所述训练样本进行特征表示；

采用已收敛的所述特征提取模型逐一提取所述增广样本集中的各个训练样本的深层语义信息，将所述深层语义信息压缩为相同尺度的低维向量；

采用聚类算法对各个训练样本的低维向量进行聚类，相应获得多个簇类，使每个簇类包括所述增广样本集中的部分训练样本；

将未落入任何一个簇类的训练样本作为离群的训练样本，清除所述增广样本集中离群的训练样本，获得优化样本集。

可选的，基于所述增广样本集中的各个训练样本的深层语义信息的聚类结果，清除所述增广样本集中离群的训练样本，获得优化样本集的步骤被迭代多次执行，以使最终获得的优化样本集中已清除属于具有长尾效应的边缘数据的训练样本。

可选的，基于所述增广样本集中的各个训练样本的深层语义信息的聚类结果，清除所述增广样本集中离群的训练样本，获得优化样本集之后，包括：

采用所述优化样本集中的训练样本将搜索重定向模型训练至收敛，使该搜索重定向模型适于根据输入的描述文本而预测出相应的意图标签；

响应用户搜索请求，将该请求携带的用户搜索文本输入已收敛的搜索重定向模型，预测出所述用户搜索文本相对应的意图标签；

根据所述意图标签从独立站的商品数据库中检索出携带所述意图标签的商品项，构造为商品信息列表应答所述用户搜索请求。

根据本申请的另一方面，提供一种样本集优化装置，包括：

样本获取模块，设置为获取原始样本集，其中包括多个训练样本及其相应的监督标签，所述训练样本为描述文本，所述监督标签为与所述描述文本相对应的意图标签；

均衡优化模块，设置为根据影响函数确定所述原始样本集中各个训练样本改变监督标签之后的影响度，清除其中影响度相对较高的部分训练样本，获得均衡样本集；

增广优化模块，设置为基于所述均衡样本集中的部分训练样本实施文本增强处理，通过文本增强扩充训练样本，获得增广样本集；

聚类优化模块，设置为基于所述增广样本集中的各个训练样本的深层语义信息的聚类结果，清除所述增广样本集中离群的训练样本，获得优化样本集。

根据本申请的另一方面，提供一种样本集优化设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的样本集优化方法的步骤。

根据本申请的另一方面，提供一种非易失性可读存储介质，其以计算机可读指令的形式存储有依据所述的样本集优化方法所实现的计算机程序，所述计算机程序被计算机调用运行时，执行该方法所包括的步骤。

根据本申请的另一方面，提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。

相对于现有技术，本申请在有限样本量的预标注的原始样本集的基础上对训练样本进行扩充，在扩充之前，先根据实测的影响度清理掉原始样本集中的影响度较高的样本，剩余的训练样本便构成影响度较为均衡的均衡样本集，基于均衡样本集进行文本增强处理而扩充出大量优质的训练样本而获得增广样本集，进而，利用增广样本集中的训练样本的深层语义信息进行聚类，使具有相似性的训练样本聚合为同一簇类，对于游离在各个簇类之外的其他训练样本，则予以清理，清理后的增广样本集便构成优化样本集，由此获得的优化样本集，样本数量丰富，样本质量优良，适于训练相关下游任务相对应的深度学习模型，使被训练的深度学习模型更易收敛且能获得更高的预测准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请的样本集优化方法的一种实施例的流程示意图；

图2为本申请实施例中构造原始样本集的流程示意图；

图3为本申请实施例中根据原始样本集优化获得均衡样本集的流程示意图；

图4为本申请实施例中根据均衡样本集优化获得增广样本集的流程示意图；

图5为本申请实施例中根据增广样本集优化获得优化样本集的流程示意图；

图6为本申请实施例中应用基于优化样本集训练的模型的流程示意图；

图7为本申请的样本集优化装置的原理框图；

图8为本申请所采用的一种样本集优化设备的结构示意图。

具体实施方式

本申请中所引用或可能引用到的模型，包括传统机器学习模型或深度学习模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

请参阅图1，根据本申请提供的一种样本集优化方法，在其一个实施例中，包括如下步骤：

步骤S1100、获取原始样本集，其中包括多个训练样本及其相应的监督标签，所述训练样本为描述文本，所述监督标签为与所述描述文本相对应的意图标签；

本申请预备有一个原始样本集用于存储种子样本，所述种子样本可以用做深度学习模型的训练样本，且可基于这些种子样本扩充出更多的训练样本用于实现所述原始样本集中的训练样本的增广，从而丰富深度学习模型所需的训练数据。

所述原始样本集中作为种子样本的训练样本可以适应具体下游训练任务而采用相应内容的数据来构造，例如，一个实施例中，所述训练样本可以是描述商品项的名称、特点、功能、用途等内容相对应的描述文本。所述的描述文本既可以是人工编辑给定的文本，也可以是从电商平台的用户访问数据中提取的文本。

所述原始样本集中与训练样本相对应的监督标签，主要是用于表示所述描述文本的语意所指向的意图类型，从而可以表示为意图标签。由此可知，训练样本与其监督标签之间，具有语意上的关联性，监督标签中的意图类型通常对应训练样本中的描述文本所要表达的一种或一类相应对象，例如，训练样本中的描述文本可以是“适合登山的鞋”，而相应的监督标签中的意图标签可以表示“运动鞋”；训练样本中的描述文本可以是“想给老爸买个电话”，相应的监督标签中的意图标签可以是“老人手机”，诸如此类可见，描述文件与意图标签之间具有语意上的对应关系。

不难理解，一个意图标签对应表示一个意图类型，因而，在设置训练样本的监督标签之前，可以预先定义一个意图类型体系，所述意图类型体系中包括多个意图类型，每个意图类型可以表示为其相应的意图标签，所述意图标签的表达方式既可以是字符型文本，也可以数值型文本，可由本领域技术人员灵活设定。一个实施例中，所述意图类型体系可以是电商平台或者其中某个独立站中预设的商品分类体系，因而其中的意图标签可以是所述商品分类体系中的商品类目。

一种实施例中，可以基于页面获取所述原始样本集中的各个训练样本相对应人工标注的意图标签，另一实施例中，可以从原有存在映射关系的基础数据集中获取各个训练样本相对应的意图标签，只要利用相应的意图标签为各个训练样本进行相应的标注即可，经过标注的训练样本便可作为本申请的种子样本使用。

步骤S1200、根据影响函数确定所述原始样本集中各个训练样本改变监督标签之后的影响度，清除其中影响度相对较高的部分训练样本，获得均衡样本集；

根据机器学习可解释性理解，可以采用影响函数来确定一个样本集中，各个训练样本对于一个被训练的模型的影响程度，从而确定出各个训练样本相对应的影响度。影响函数是一个应用广泛的统计学习概念，可以用来衡量训练样本对模型参数的影响程度，简称影响度，也就是样本的重要性。

一种实施例中，可以在将原始样本集中对各个训练样本进行适当加权，调整各个训练样本对模型训练所起的权重，例如，删除一个训练样本，然后再用原始样本集对分类模型实施训练，再借助影响函数量化模型的训练效果，从而确定出各个训练样本对模型训练所产生的影响度。

另一实施例中，先采用原始样本集中的各个训练样本及其相应的监督标签，对一个给定的分类模型进行训练，将该分类模型训练至收敛状态，然后，可利用已收敛的分类模型预测各个训练样本获得的分类损失值来确定各个训练样本的影响度。利用已收敛的分类模型，逐一对所述原始样本集中的各个训练样本进行分类预测，确定其相应的分类结果，然后采用与被预测的训练样本原始的监督标签不同的另一监督标签去计算分类损失值，根据分类损失值进一步应用影响函数计算出该训练样本相对应的影响度。以此实现各个训练样本的影响度的计算，其效率更高。

可见，在应用影响函数的前提下，可采用多种方式确定所述原始样本集中各个训练样本相对应的影响度，用于表征相应的训练样本对模型训练所产生的影响程度。不难理解，影响度过高的训练样本，会使被训练的模型更加敏感，容易造成样本影响不均衡，从而导致模型训练结果不够理想，因而，一种实施例中，可对原始样本集进行数据清洗，将其中影响度过高的部分训练样本删除实现清理，剩下的训练样本便可构成均衡样本集。另一实施例中，对于影响度过低的部分训练样本，表示模型对其不敏感，理论上也可按需进行清理，这一措施可由本领域技术人员灵活结合使用。

步骤S1300、基于所述均衡样本集中的部分训练样本实施文本增强处理，通过文本增强扩充训练样本，获得增广样本集；

均衡样本集中的训练样本，是根据影响度进行初步优化获得的质量较佳的种子样本，可以在这些种子样本的基础上进行文本增强处理，通过文本增强手段来派生出更多训练样本，使整个均衡样本集中的训练样本在特征分布上更为均衡。

在进行文本增强处理时，可以采用的方式非常丰富，可以按照如下任意一种或任意多种实施例进行实施：

一种实施例中，可以基于字面级别对所述种子样本进行修改后衍生出相应的新的训练样本，通过对种子样本中的描述文本进行一定比例范围内的随机插入、交换位置、同义词替换等方式来产生新的训练样本，新的训练样本的监督标签使用其相应的种子样本的监督标签进行关联即可。

另一实施例中，可以基于向量空间对所述种子样本进行特征修改而衍生出相应的新的训练样本，具体而言，先对所述种子样本进行特征表示，获得相应的特征向量，在其特征向量的基础上修改，再将修改后的特征向量映射回文本层面，从而生成新的训练样本。

再一实施例中，可以基于文本生成方式基于所述种子样本生成新的训练样本。具体而言，利用预训练的文本生成工具，基于种子样本执行填空及词嵌入替换等预测任务，生成相应的新的训练样本。

又一实施例中，在个别意图标签相对应的类别存在样本极度不均衡的情况时，也即通常表现为训练样本量低于一定数量的情况时，可以对这一类别中的种子样本先基于字面级别的修改，将该类别下的种子样本各取其局部描述文本进行拼接获得新的训练样本，再以这些新的训练样本作为种子样本，进一步结合文本生成的方式，在这些种子样本的基础上再生成更多新的训练样本，由此扩充出更多训练样本，使相应类别的训练样本更为均衡。

通过单独或结合以上各种实现文本增强的方式，在所述均衡样本集中的训练样本的基础上，衍生出更多的新的训练样本，将这些新的训练样本填充到所述均衡样本集中，便可相应获得增广样本集。

不难理解，由于事先已经剔除了影响度过高的训练样本，剩余的训练样本作为种子样本用于扩充新的训练样本，保证了种子样本的质量，使得扩充出的新训练样本的质量更为可靠，且可确保各个意图类型相对应的训练样本在特征分布上更为均衡。

步骤S1400、基于所述增广样本集中的各个训练样本的深层语义信息的聚类结果，清除所述增广样本集中离群的训练样本，获得优化样本集。

所述增广样本集中的训练样本，具有特征分布均衡且影响度适中的特点，但也可能存在部分语意上偏离下游任务所需语境的训练样本，对这部分训练样本，可以进一步优化。

为此，可使用一个预训练或专门对应训练的特征提取模型对所述各个训练样本进行特征表示，获得各个训练样本相对应的深层语义信息，然后采用任意一种向量压缩方式，将所述训练样本的深层语义信息从高级向量压缩为低维向量，以便聚类。

一种实施例中，对所述深层语义信息进行向量压缩时，可采用全连接层实现，通常全连接层将所述特征提取模型输出的深层语义信息从高维空间映射到低维空间，获得相应的低维向量即可。

另一实施例中，可采用诸如t-SNE算法来对所述深层语义信息进行向量压缩操作。t-SNE(t-distributed stochastic neighbor embedding，t分布随机邻域嵌入)是用于降维的一种机器学习算法，作为一种非线性降维算法，常用于流行学习(manifold learning)的降维过程中并与LLE进行类比，非常适用于高维数据降维到2维或者3维，便于进行可视化。借助t-SNE算法将各个训练样本的深层语义信息压缩为低维向量并进行可视化之后，一种实施例中，可以先人工检查其中的集群，人工清理掉其中偏离集群的训练样本。

在获得各个训练样本的低维向量之后，便可借助任意可行的聚类算法，基于所述低维向量对各个训练样本进行聚类，从而相应确定出多个簇类，然后，将游离在所述各个簇类之外的其他离群的训练样本，从所述增广样本集中清除出去，剩余的训练样本便构成优化样本集。

在一种实施例中，本步骤S1400可以被多次迭代执行，以便多次清除增广样本集中的离群的训练样本，不断循环提升优化样本集中的训练样本的集中性，从而可以最大化程度地清除所述增广样本集中属于具有长尾效应的边缘数据的训练样本，使最终所获取的优化样本集的质量更高。

经过以上过程对一个示范性的原始样本集进行实测处理之后，在相同模型和测试数据集下，在测试数据集上达到0.857的准确率，相对以传统的数据增强方式优化原始数据集来说，准确率提升了11％。

根据以上实施例可知，本申请在有限样本量的预标注的原始样本集的基础上对训练样本进行扩充，在扩充之前，先根据实测的影响度清理掉原始样本集中的影响度较高的样本，剩余的训练样本便构成影响度较为均衡的均衡样本集，基于均衡样本集进行文本增强处理而扩充出大量优质的训练样本而获得增广样本集，进而，利用增广样本集中的训练样本的深层语义信息进行聚类，使具有相似性的训练样本聚合为同一簇类，对于游离在各个簇类之外的其他训练样本，则予以清理，清理后的增广样本集便构成优化样本集，由此获得的优化样本集，样本数量丰富，样本质量优良，适于训练相关下游任务相对应的深度学习模型，使被训练的深度学习模型更易收敛且能获得更高的预测准确率。

在本申请任意实施例的基础上，请参阅图2，获取原始样本集，包括：

步骤S1110、获取电商平台中商品搜索事件相对应的用户搜索文本；

在电商平台中，用户执行商品搜索是一种高频事件，以基于独立站的电商平台中的线上店铺为例，用户在该线上店铺的商品搜索页面中输入用户搜索文本，以自然语言的形式表达其期望搜索到的商品项，然后提交相应的用户搜索文本，触发相应的商品搜索事件，线上店铺所在的独立站接收到所述商品搜索事件相对应的用户搜索文本之后，根据用户搜索文本在其商品数据库中执行搜索操作，得到一个商品结果列表，其中包含多个商品项对应的商品信息，将该商品结果列表推送给相应的用户以完成应答。

在这一过程中，对应用户访问行为自然生成了相应的访问行为数据，在各个独立站运营期间，这样的访问行为数据日积月累会越来越多，由此，可以将一个或多个独立站产生的所述访问行为数据中的用户搜索文本提取出来，用于构造原始样本集的训练样本。

步骤S1120、获取根据所述用户搜索文本获得的商品结果列表中被用户转化访问的商品项相对应的商品类目；

对于独立站根据所述用户搜索文本获得的商品结果列表，当其推送给所述用户之后，通常用户会在该商品结果列表中的各个商品项的商品信息显示之后，访问其中的一个或多个商品项相对应的商品详情页面，由此对应实现转化，即将相应商品项的推送行为转化为访问行为，独立站可将这样的转化事件记录到相应的访问行为数据中，由此，对于一个用户搜索文本来说，可以从其访问行为数据中确定其对应的商品结果列表中被转化的商品项，当存在多个被转化的商品项时，可以确定其中任意一个作为目标商品项。

在确定出所述目标商品项之后，进一步可以从该目标商品项的商品信息中查询出该目标商品项所归属的商品类目，将该商品类目作为所述用户搜索文本相对应的映射数据，以便用于作为所述用户搜索文本相对应的监督标签。不难理解，用户搜索文本是一种描述文本，用户搜索文本及其相映射的商品类目之间，通常在语意上存在对应关系。

步骤S1130、将每个商品搜索事件的用户搜索文本作为训练样本，将该用户搜索文本相对应的商品类目作为监督标签，存储于所述原始样本集中。

根据以上的介绍可知，对应每个商品搜索事件均可获得其相对应的用户搜索文本及其相应的商品类目，可以将所述用户搜索文本构造为训练样本，而将该用户搜索文本相映射的商品类目定义为监督标签，将训练样本和监督标签相映射存储于原始样本集中，便可完成原始样本集的预备。

一种实施例中，将用户搜索文本构造为训练样本时，可对用户搜索文本进行文本格式化预处理，例如去除停用词、去除标点符号等，使其标准化。

由于所述监督标签是选自商品类目，因而，原始样本集中的全量监督标签相对应的标签空间，也是一种分类空间，其与商品分类体系在事实上相对应，因而，所获得的原始样本集中，建立了根据训练样本中的描述文本在语意上对应到商品类目的意图映射关系，所以，所述监督标签实际上也是一种意图标签，用于表示一种相应的意图类型。所述意图标签的表示形式，既可以采用字符型文本进行表示，也可以采用数值型文本进行表示，可灵活表示。

根据以上实施例可知，在电商平台这一具体应用场景中，可以基于访问行为数据中的用户搜索文本及其对应获得的被转化的商品项的商品类目来自动构造原始样本集，由此访问行为数据具有真实反映用户搜索文本的意图映射结果的作用，因而，可以节省人工标注成本，获得所述原始样本集的成本非常低，且效率非常高。

在本申请任意实施例的基础上，请参阅图3，根据影响函数确定所述原始样本集中各个训练样本改变监督标签之后的影响度，清除其中影响度相对较高的部分训练样本，获得均衡样本集，包括：

步骤S1210、采用所述原始样本集中的训练样本及其监督标签将分类模型训练至收敛；

可以采用任意适于对文本编码信息进行特征表示的特征提取模型后接分类器构成分类模型，然后采用所述原始样本集中的训练样本，对所述分类模型实施迭代训练，直至将该分类模型训练至收敛状态。在训练过程中，采用有监督训练的方式，对于每个训练样本由分类模型所预测的分类结果，即将训练样本的特征表示映射到分类器的分类空间中的各个类别相对应分类概率集，采用所述监督标签对应计算所述分类结果的分类损失值，根据该分类损失值判决分类模型是否达到收敛状态，在达到收敛状态后终止训练，在未达到收敛状态时，继续从原始样本集中调用下一训练样本对分类模型实施迭代训练，并且对分类模型实施梯度更新以使其进一步逼近收敛。

不难理解，据此所获得的分类模型，理论上可用于为所述训练样本预测出其相应的监督标签，也即基于描述文本而预测出表征其相应的意图类型的意图标签，对于本申请示例性的电商场景而言，则可以理解为根据描述文本而预测出相应的商品类目。

步骤S1220、改变所述原始样本集中的各个训练样本的监督标签，逐一将各个训练样本输入所述分类模型中预测出分类结果；

根据影响函数的理论，可以在模型训练后，无需依赖模型的重新训练，便可用于为各个训练样本确定其影响度，据此，在已收敛的分类模型的基础上，逐一对所述原始样本集中的各个训练样本进行预测，以便获得其相应的分类结果，为了评估每个训练样本的影响度，对于被输入所述分类模型的训练样本，可以先行改变其监督标签，将其原始标注的监督标签修改为其他任意一个其他监督标签。

步骤S1230、基于改变后的监督标签确定相应的训练样本的分类损失值，应用影响函数根据所述分类损失值确定相应的训练样本的影响度；

进一步，对于所述分类结果，采用被预测的训练样本的改变后的监督标签来计算其分类损失值，然后，应用影响函数基于所述分类损失值而计算出其相应的影响度。影响函数的理论及其具体公式为本领域技术人员所知晓，恕不赘述。

各个训练样本均通过所述分类模型预测而确定出其相应的影响度后，可以将训练样本与影响度之间的映射关系暂存，以便根据影响度进行训练样本的筛选。

步骤S1240、清除原始样本集中影响度高于设定阈值的部分训练样本，保留其他训练样本，构成均衡样本集。

所述原始样本集中的各个训练样本均获得其相应的影响度之后，一种实施例中，可以根据影响度对各个训练样本进行排序，可人工考察其中影响度较高的训练样本，将这部分训练样本从所述原始样本集中删除实现清理。另一实施例中，可提供一个设定阈值，然后，将各个训练样本的影响度分别与该设定阈值进行比较，当影响度高于所述设定阈值时，便将该训练样本从原始样本集中删除以实现清理，否则保留该训练样本。由于影响度过高的训练样本容易造成被训练的模型的过度敏感，因而，将这部分训练样本从原始样本集中删除，可以确保剩余的训练样本具有相对均衡的影响程度，从而使被训练的模型不至于受个别训练样本过度影响，避免出现过拟合或欠拟合的情况。

根据以上实施例可知，在应用影响函数后，可以通过单次训练一个分类模型来确定所述原始样本集中的各个训练样本的影响度，然后根据影响度清理原始样本集中的种子样本，使剩下的种子样本对被训练模型的影响程度更为均衡，确保种子样本的质量。

在本申请任意实施例的基础上，请参阅图4，基于所述均衡样本集中的部分训练样本实施文本增强处理，通过文本增强扩充训练样本，获得增广样本集，包括：

步骤S1310、检测确定所述均衡样本集中的训练样本的分词数量，将分词数量大于预设阈值确定为第一类型训练样本，余者为第二类型训练样本；

所述均衡样本集中的训练样本，可以作为种子样本使用，用于扩增更多的训练样本。本实施例中，先区分不同类型的种子样本，为此，可对均衡样本集中的各个训练样本先行分词处理，然后，根据每个训练样本的分词数量，将其中分词数量大于预设阈值的训练样本归类为第一类型训练样本，将分词数量不大于预设阈值的训练样本归类为第二类型的训练样本。

不难理解，第一类型训练样本主要是分词数量较大语义充足的种子样本，第二类型训练样本则由于分词相对较少，其语义相对不足，故可做区别处理。

步骤S1320、基于第一类型训练样本，在保持原始的监督标签对应不变的情况下，进行分词粒度的编辑操作后扩充出新的训练样本；

对于所述第一类型训练样本，可以应用字面级别的文本增强处理方式，通过对其中的分词进行个别替换、增强分词、删除分词等编辑操作，来扩充出新的训练样本，在对单个训练样本进行编辑操作时，可以控制编辑的分词的数量不超过一定的比例，例如被编辑的分词总数不超过20％。对于根据第一类型训练样本扩充出的新的训练样本，由于其语义基本不变，因而，可使用原始的监督标签与之建立映射关系存储回均衡样本集中。

步骤S1330、基于第二类型训练样本，将其中对应同一原始的监督标签的不同训练样本中各自的局部描述文本进行随机拼接后，扩充为对应所述原始的监督标签的新的训练样本；

对于所述第二类型训练样本，可以根据其原始的监督标签进行归类处理，对于其中具有相同的原始监督标签的训练样本，每次抽取其中两个或两个以上的训练样本，从每个训练样本中截取出其中的局部描述文本，然后将多个这样的局部描述文本进行随机拼接，获得新的训练样本，并将这些训练样本仍与其原始的监督标签建立映射关系存储回均衡样本集中。

一个实施例中，可以按照不同原始监督标签来确定是否对该原始监督标签之下的训练样本进行扩充新的训练样本，具体可设定一个预设阈值，当关联于某一原始监督标签的训练样本的总数低于该预设阈值时，则为该原始监督标签基于第二类型训练样本而扩充新的训练样本，当不低于该预设阈值时，表明该原始监督标签相对应的训练样本是充足的，无需基于第二类型训练样本为其扩充新的训练样本。据此可使各个监督标签相对应的训练样本的总量的分布较为均衡。

步骤S1340、在扩充出的训练样本的基础上应用文本生成模型进一步扩充更多训练样本，将全部新增的训练样本添加到所述均衡样本集中，构成增广样本集。

进一步，在以经过字面级别的文本增强处理获得的新的训练样本的基础上，还可以借助文本生成模型，以所述新的训练样本为输入，来生成更多新的训练样本，当然，进一步生成的新的训练样本，仍有作为输入的训练样本的监督标签相对应映射而存储回所述均衡样本集中，使所述均衡样本集由此构成增广样本集。

一种实施例中，所述的文本生成模型可以采用预训练模型例如Bert模型实施，通过Bert模型对输入其中的训练样本进行填空及词嵌入替换等，来生成新的训练样本。

根据以上实施例，不难理解，本申请在扩充训练样本的过程中，区别不同分词总量的训练样本，分别进行不同情况的文本增强处理，先基于字面级别进行文本增强扩充出新的训练样本丰富样本集之后，又进一步借助文本生成模型来进一步扩充新的训练样本，最终获得增广样本集，且过程中确定训练样本与监督标签之时维持正确的映射关系，有效地在已经初步优化的均衡样本集的基础上，丰富了训练样本总数，确保增广样本集中包含大量的训练样本，且这些训练样本能够均衡地泛化各种特征信息。

在本申请任意实施例的基础上，请参阅图5，基于所述增广样本集中的各个训练样本的深层语义信息的聚类结果，清除所述增广样本集中离群的训练样本，获得优化样本集，包括：

步骤S1410、采用所述增广样本集中的训练样本将特征提取模型迭代训练至收敛，使该特征提取模型适于对所述训练样本进行特征表示；

为了进一步优化增广样本集中的训练样本构成，采用所述增广样本集中的训练样本，对一个特征提取模型实施对比学习训练，推荐使用Bert模型实施，Bert模型可以实施自监督训练，通常自监督训练至收敛使自身获得能够对输入其中的训练样本进行准确地特征表示的能力。当然，也可采用其他任意适于对文本信息进行特征表示的基础模型来替换，对此，本领域技术人员可灵活实施。

步骤S1420、采用已收敛的所述特征提取模型逐一提取所述增广样本集中的各个训练样本的深层语义信息，将所述深层语义信息压缩为相同尺度的低维向量；

当将所述特征提取模型训练至收敛后，使用所述特征提取模型逐一对所述增广样本集中的各个训练样本进行特征表示，从而获得每个训练样本相对应的深层语义信息，不难理解，这些深层语义信息是高维稠密向量。

一种实施例中，可以在特征提取模型后接一个全连接层，将每个训练样本的深层语义信息映射为低维向量，或者后接一个池化层，也可实现将所述深层语义信息降维为低维向量。另一实施例中，则可采用t-SNE算法，将所述深层语义信息映射为低维向量。无论采用何种方式，均可实现对所述深层语义信息的压缩，获得其相应的低维向量。

步骤S1430、采用聚类算法对各个训练样本的低维向量进行聚类，相应获得多个簇类，使每个簇类包括所述增广样本集中的部分训练样本；

一种实施例中，对所述训练样本进行聚类时所采用的聚类算法，可以在如下多种算法中择一使用，包括但不限于：K-Means聚类算法、均值漂移聚类算法、基于密度的聚类算法(DBSCAN)、基于高斯混合模型的最大期望聚类算法、凝聚层次聚类算法、图团体检测聚类算法等。

不难理解，采用任意一种聚类算法对所述各个训练样本的低维向量进行聚类后，便可获得多个簇类，其中每个簇类均包含所述增广样本集中的部分训练样本，但是，可能还有个别训练样本游离于各个簇类之外，这些训练样本便是离群的训练样本。

步骤S1440、将未落入任何一个簇类的训练样本作为离群的训练样本，清除所述增广样本集中离群的训练样本，获得优化样本集。

离群的训练样本，通常属于长尾效应相对应的边缘数据，因而，可以将这些离群的训练样本从所述增广样本集中删除实现清理，经过清理后，增广样本集便成为优化样本集，可以用于对下游任务相对应的模型实施有效的训练。

一种实施例中，步骤S1410至步骤S1440的过程可以迭代执行，每次迭代获得的优化样本集，回到步骤S1410中重新作为增广样本集进行迭代，再次用于训练特征提取模型，利用特征提取模型提取深层语义信息并映射为低维向量，然后利用聚类算法排除离群的训练样本的干扰，再次获得优化样本集，以此类推，经过有限次迭代，获得符合预期的优化样本集即可。

根据以上实施例可知，利用增广样本集训练所得的特征提取模型对增广样本集中的训练样本进行特征表示获得深层语义信息的低维向量，再结合聚类手段排除离群的训练样本的干扰，消除了长尾效应相对应的边缘数据，进一步提升了最终获得的优化样本集的数据质量。

在本申请任意实施例的基础上，请参阅图6，基于所述增广样本集中的各个训练样本的深层语义信息的聚类结果，清除所述增广样本集中离群的训练样本，获得优化样本集之后，包括：

步骤S2100、采用所述优化样本集中的训练样本将搜索重定向模型训练至收敛，使该搜索重定向模型适于根据输入的描述文本而预测出相应的意图标签；

预备一个搜索重定向模型，所述搜索重定向模型可以采用任意适于对文本进行特征表示的基础模型作为特征提取模型，在特征提取模型的基础上后接分类模型来构成。示例而言，所述特征提取模型可以采用DistilRoberta、DistilBert、Bert、FasText等基础模型，所述分类器可采用多分类器，其分类空间可对应商品分类体系而设置包括多个分类，使其中的每个分类用户指示一个相应的意图类别，也即商品类目，对于应预测为某一意图类别的训练样本，采用该训练样本相应的监督标签来监督训练。

不难理解，通过迭代采用所述优化样本集中的训练样本对所述搜索重定向模型进行训练，可将其训练至收敛状态，由于所述优化样本集已经过本申请的技术方案的优化，因而，更容易将所述搜索重定向模型快速训练至收敛状态，且确保其具有更高的预测准确率。由此，该搜索重定向模型可用于为输入其中的描述文本预测出其相应的意图类别并表示为相应的意图标签。例如，当向所述搜索重定向模型输入“登山用的鞋”时，可以为其预测出相对应的意图标签“运动鞋”。

步骤S2200、响应用户搜索请求，将该请求携带的用户搜索文本输入已收敛的搜索重定向模型，预测出所述用户搜索文本相对应的意图标签；

被训练至收敛的搜索重定向模型，可以配置为重定向服务，用于响应电商平台中独立站的用户搜索请求，根据所述用户搜索请求携带的用户搜索文本，预测出其相对应的意图标签，从而实现对用户意图的预测，将用户搜索文本进行意图重定向。

当用户在电商平台中发起用户搜索请求时，重定向服务获得用户搜索请求中携带的用户搜索文本，然后，将用户搜索文本的编码信息输入所述搜索重定向模型中，便可由其预测出相对应的意图标签。

步骤S2300、根据所述意图标签从独立站的商品数据库中检索出携带所述意图标签的商品项，构造为商品信息列表应答所述用户搜索请求。

获得用户搜索请求中的用户搜索文本相对应的意图标签后，便可从相应的独立站的商品数据库中进行检索，检索出携带所述意图标签的全部商品项，然后择优确定其中的部分商品项构造为商品信息列表，在商品信息列表中存储选中的各个商品项的商品信息，包括但不限于商品标题、商品图片、商品价格、商品链接等，将该商品信息列表推送给所述的用户，完成对其用户搜索请求的应答，使该用户搜索请求获得更符合其表达的意图的结果。

根据以上实施例可知，本申请所获得的优化样本集，适用于训练搜索重定向模型，用于精准预测用户搜索文本的真实意图，从而可以实现用户搜索文本的重定向处理，使用户对商品项的检索结果更为精准，全面提升电商平台的服务体验。

请参阅图7，根据本申请的一个方面提供的一种样本集优化装置，包括样本获取模块1100、均衡优化模块1200、增广优化模块1300，以及聚类优化模块1400，其中：所述样本获取模块1100，设置为获取原始样本集，其中包括多个训练样本及其相应的监督标签，所述训练样本为描述文本，所述监督标签为与所述描述文本相对应的意图标签；所述均衡优化模块1200，设置为根据影响函数确定所述原始样本集中各个训练样本改变监督标签之后的影响度，清除其中影响度相对较高的部分训练样本，获得均衡样本集；所述增广优化模块1300，设置为基于所述均衡样本集中的部分训练样本实施文本增强处理，通过文本增强扩充训练样本，获得增广样本集；所述聚类优化模块1400，设置为基于所述增广样本集中的各个训练样本的深层语义信息的聚类结果，清除所述增广样本集中离群的训练样本，获得优化样本集。

在本申请任意实施例的基础上，所述样本获取模块1100，包括：素材获取单元，设置为获取电商平台中商品搜索事件相对应的用户搜索文本；标签获取单元，设置为获取根据所述用户搜索文本获得的商品结果列表中被用户转化访问的商品项相对应的商品类目；样本构造单元，设置为将每个商品搜索事件的用户搜索文本作为训练样本，将该用户搜索文本相对应的商品类目作为监督标签，存储于所述原始样本集中。

在本申请任意实施例的基础上，所述均衡优化模块1200，包括：分类模型训练单元，设置为采用所述原始样本集中的训练样本及其监督标签将分类模型训练至收敛；分类模型预测单元，设置为改变所述原始样本集中的各个训练样本的监督标签，逐一将各个训练样本输入所述分类模型中预测出分类结果；影响度计算单元，设置为基于改变后的监督标签确定相应的训练样本的分类损失值，应用影响函数根据所述分类损失值确定相应的训练样本的影响度；样本均衡清理单元，设置为清除原始样本集中影响度高于设定阈值的部分训练样本，保留其他训练样本，构成均衡样本集。

在本申请任意实施例的基础上，所述增广优化模块1300，包括：类型检测单元，设置为检测确定所述均衡样本集中的训练样本的分词数量，将分词数量大于预设阈值确定为第一类型训练样本，余者为第二类型训练样本；第一扩充单元，设置为基于第一类型训练样本，在保持原始的监督标签对应不变的情况下，进行分词粒度的编辑操作后扩充出新的训练样本；第二扩充单元，设置为基于第二类型训练样本，将其中对应同一原始的监督标签的不同训练样本中各自的局部描述文本进行随机拼接后，扩充为对应所述原始的监督标签的新的训练样本；增广实现单元，设置为在扩充出的训练样本的基础上应用文本生成模型进一步扩充更多训练样本，将全部新增的训练样本添加到所述均衡样本集中，构成增广样本集。

在本申请任意实施例的基础上，所述聚类优化模块1400，包括：提取模型训练单元，设置为采用所述增广样本集中的训练样本将特征提取模型迭代训练至收敛，使该特征提取模型适于对所述训练样本进行特征表示；样本特征表示单元，设置为采用已收敛的所述特征提取模型逐一提取所述增广样本集中的各个训练样本的深层语义信息，将所述深层语义信息压缩为相同尺度的低维向量；样本聚类处理单元，设置为采用聚类算法对各个训练样本的低维向量进行聚类，相应获得多个簇类，使每个簇类包括所述增广样本集中的部分训练样本；样本离群优化单元，设置为将未落入任何一个簇类的训练样本作为离群的训练样本，清除所述增广样本集中离群的训练样本，获得优化样本集。

在本申请任意实施例的基础上，所述聚类优化模块1400的迭代多次运行，以使最终获得的优化样本集中已清除属于具有长尾效应的边缘数据的训练样本。

在本申请任意实施例的基础上，后于所述聚类优化模块1400，本申请的样本集优化装置还包括：模型训练模块，设置为采用所述优化样本集中的训练样本将搜索重定向模型训练至收敛，使该搜索重定向模型适于根据输入的描述文本而预测出相应的意图标签；模型预测模块，设置为响应用户搜索请求，将该请求携带的用户搜索文本输入已收敛的搜索重定向模型，预测出所述用户搜索文本相对应的意图标签；数据检索模块，设置为根据所述意图标签从独立站的商品数据库中检索出携带所述意图标签的商品项，构造为商品信息列表应答所述用户搜索请求。

本申请的另一实施例还提供一种样本集优化设备。如图8所示，样本集优化设备的内部结构示意图。该样本集优化设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该样本集优化设备的计算机可读的非易失性可读存储介质，存储有操作系统、数据库和计算机可读指令，数据库中可存储有信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种样本集优化方法。

该样本集优化设备的处理器用于提供计算和控制能力，支撑整个样本集优化设备的运行。该样本集优化设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的样本集优化方法。该样本集优化设备的网络接口用于与终端连接通信。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的样本集优化设备的限定，具体的样本集优化设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图7中的各个模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于实现用户终端或服务器之间的数据传输。本实施方式中的非易失性可读存储介质中存储有本申请的样本集优化装置中执行所有模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有模块的功能。

本申请还提供一种存储有计算机可读指令的非易失性可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的样本集优化方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

本领域普通技术人员可以理解，实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请由此可见，本申请的实施，从产品层面来讲，借助搜索重定向模型对用户搜索文本进行电商商品类目的分类进行判断之后能获得更好的分类效果，更好的分类效果带来更高的排序效果，从而提升用户的点击率/转化率，带来更高的曝光收益；从算法模型技术层面来讲，通过对比实验，在相同模型和数据源的情形下，提升模型的准确率；从成本方面来讲在商品意图分类的数据准备阶段大幅减少了人工标注成本。

Claims

1.一种样本集优化方法，其特征在于，包括：

2.根据权利要求1所述的样本集优化方法，其特征在于，获取原始样本集，包括：

获取电商平台中商品搜索事件相对应的用户搜索文本；

3.根据权利要求1所述的样本集优化方法，其特征在于，根据影响函数确定所述原始样本集中各个训练样本改变监督标签之后的影响度，清除其中影响度相对较高的部分训练样本，获得均衡样本集，包括：

4.根据权利要求1所述的样本集优化方法，其特征在于，基于所述均衡样本集中的部分训练样本实施文本增强处理，通过文本增强扩充训练样本，获得增广样本集，包括：

5.根据权利要求1所述的样本集优化方法，其特征在于，基于所述增广样本集中的各个训练样本的深层语义信息的聚类结果，清除所述增广样本集中离群的训练样本，获得优化样本集，包括：

6.根据权利要求1至5中任意一项所述的样本集优化方法，其特征在于，基于所述增广样本集中的各个训练样本的深层语义信息的聚类结果，清除所述增广样本集中离群的训练样本，获得优化样本集的步骤被迭代多次执行，以使最终获得的优化样本集中已清除属于具有长尾效应的边缘数据的训练样本。

7.根据权利要求1至5中任意一项所述的样本集优化方法，其特征在于，基于所述增广样本集中的各个训练样本的深层语义信息的聚类结果，清除所述增广样本集中离群的训练样本，获得优化样本集之后，包括：

8.一种样本集优化装置，其特征在于，包括：

9.一种样本集优化设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法所包括的步骤。

10.一种非易失性可读存储介质，其特征在于，其以计算机可读指令的形式存储有计算机程序，所述计算机程序被计算机调用运行时，执行如权利要求1至7中任意一项所述的方法所包括的步骤。