CN117541884A

CN117541884A - 样本数据处理方法、装置、存储介质和系统

Info

Publication number: CN117541884A
Application number: CN202210904435.3A
Authority: CN
Inventors: 蔡恒兴; 涂威威
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2024-02-09

Abstract

公开一种样本数据处理方法、装置、存储介质和系统，所述方法包括：获取训练样本集和测试样本集；为所述训练样本集中的每个样本设置第一标签，并且为所述测试样本集中的每个样本设置第二标签，其中，所述第一标签与所述第二标签不同；将设置第一标签后的训练样本集和设置第二标签后的测试样本集进行合并，得到样本合集；利用所述样本合集训练分类模型，以基于训练后的分类模型确定所述训练样本集中的每个样本的预测结果，其中，所述分类模型用于区分所述样本合集中的属于所述训练样本集的样本与属于所述测试样本集的样本；基于所述预测结果从所述训练样本集中确定目标样本，以删除所述训练样本集中的所述目标样本，得到目标训练集。

Description

样本数据处理方法、装置、存储介质和系统

技术领域

本公开总体说来涉及数据处理领域，更具体地讲，涉及一种样本数据处理方法、装置、存储介质和系统。

背景技术

随着人工智能的发展，越来越多的机器学习模型被用于商业领域。在机器学习模型的使用过程中，经常遇到模型的离线指标效果提升，但模型上线后效果不符合预期的情形。导致这种情形出现的原因很多，其中一个很重要的原因在于模型使用的训练集和测试集的数据分布不一致。实际场景中，训练集的样本数量往往很多，逐一排查与测试集分布不一致的训练集样本非常耗时。

发明内容

本公开提供一种样本数据处理方法、装置、存储介质和系统，用于至少解决部分的上述问题。

根据本公开的一方面，提供一种样本数据处理方法，包括：获取训练样本集和测试样本集；为所述训练样本集中的每个样本设置第一标签，并且为所述测试样本集中的每个样本设置第二标签，其中，所述第一标签与所述第二标签不同；将设置第一标签后的训练样本集和设置第二标签后的测试样本集进行合并，得到样本合集；利用所述样本合集训练分类模型，以基于训练后的分类模型确定所述训练样本集中的每个样本的预测结果，其中，所述分类模型用于区分所述样本合集中的属于所述训练样本集的样本与属于所述测试样本集的样本；基于所述预测结果从所述训练样本集中确定目标样本，以删除所述训练样本集中的所述目标样本，得到目标训练集。

可选地，所述预测结果用于指示样本属于所述测试样本集的第一概率，或者，用于指示样本不属于所述测试样本集的第二概率。

可选地，所述基于所述预测结果从所述训练样本集中确定目标样本，包括：从所述训练样本集中选取所述第一概率小于第一阈值的至少一个样本，并将所述第一概率小于第一阈值的至少一个样本确定为所述目标样本；和/或，从所述训练样本集中选取所述第二概率大于第二阈值的至少一个样本，并将所述第二概率大于第二阈值的至少一个样本确定为所述目标样本。

可选地，所述利用所述样本合集训练分类模型，以基于训练后的分类模型确定所述训练样本集中的每个样本的预测结果，包括：利用所述样本合集对所述分类模型进行交叉训练，以通过所述交叉训练对所述样本合集中的每个样本进行预测，从而得到所述样本合集中的每个样本的预测结果；将所述样本合集中对应于所述第一标签的各个样本的预测结果作为所述训练样本集中相应的各个样本的预测结果，从而得到所述训练样本集中的每个样本的预测结果。

可选地，所述利用所述样本合集对所述分类模型进行交叉训练，包括：将所述样本合集划分为第一数量个样本子集；在每次训练时，利用所述第一数量个样本子集中的第二数量个样本子集对所述分类模型进行训练，其中，所述第二数量小于所述第一数量，其中，任意一次训练时使用的所述第二数量个样本子集与其他次训练时使用的所述第二数量个样本子集不完全相同。

可选地，所述通过所述交叉训练对所述样本合集中的每个样本进行预测，从而得到所述样本合集中的每个样本的预测结果，包括：针对任意一次训练，利用该次训练得到的分类模型，对该次训练时未使用的所述第一数量个样本子集中的其余样本子集中的每个样本进行预测，得到所述其余样本子集中的每个样本的预测结果，其中，所述其余样本子集为所述第二数量个样本子集之外的样本子集。

可选地，所述训练样本集包括每个样本对应的用于目标业务的真实标签，其中，所述样本数据处理方法还包括：基于所述目标训练集和所述目标训练集中的每个样本对应的真实标签，对业务模型进行训练，以得到训练好的业务模型，其中，所述训练好的业务模型用于执行与所述目标业务相关联的任务。

可选地，所述训练样本集和测试样本集是表格数据。

可选地，所述分类模型包括随机森林模型、支持向量机模型、Wide and Deep模型中的至少一个。

根据本公开的另一方面，提供一种样本数据处理装置，包括：数据获取单元，被配置为：获取训练样本集和测试样本集；标签设置单元，被配置为：为所述训练样本集中的每个样本设置第一标签，并且为所述测试样本集中的每个样本设置第二标签，其中，所述第一标签与所述第二标签不同；样本合并单元，被配置为：将设置第一标签后的训练样本集和设置第二标签后的测试样本集进行合并，得到样本合集；样本预测单元，被配置为：利用所述样本合集训练分类模型，以基于训练后的分类模型确定所述训练样本集中的每个样本的预测结果，其中，所述分类模型用于区分所述样本合集中的属于所述训练样本集的样本与属于所述测试样本集的样本；样本删除单元，被配置为：基于所述预测结果从所述训练样本集中确定目标样本，以删除所述训练样本集中的所述目标样本，得到目标训练集。

可选地，所述样本删除单元被配置为：从所述训练样本集中选取所述第一概率小于第一阈值的至少一个样本，并将所述第一概率小于第一阈值的至少一个样本确定为所述目标样本；和/或，从所述训练样本集中选取所述第二概率大于第二阈值的至少一个样本，并将所述第二概率大于第二阈值的至少一个样本确定为所述目标样本。

可选地，所述样本预测单元被配置为：利用所述样本合集对所述分类模型进行交叉训练，以通过所述交叉训练对所述样本合集中的每个样本进行预测，从而得到所述样本合集中的每个样本的预测结果；将所述样本合集中对应于所述第一标签的各个样本的预测结果作为所述训练样本集中相应的各个样本的预测结果，从而得到所述训练样本集中的每个样本的预测结果。

可选地，所述样本预测单元还被配置为：将所述样本合集划分为第一数量个样本子集；在每次训练时，利用所述第一数量个样本子集中的第二数量个样本子集对所述分类模型进行训练，其中，所述第二数量小于所述第一数量，其中，任意一次训练时使用的所述第二数量个样本子集与其他次训练时使用的所述第二数量个样本子集不完全相同。

可选地，所述样本预测单元还被配置为：针对任意一次训练，利用该次训练得到的分类模型，对该次训练时未使用的所述第一数量个样本子集中的其余样本子集中的每个样本进行预测，得到所述其余样本子集中的每个样本的预测结果，其中，所述其余样本子集为所述第二数量个样本子集之外的样本子集。

可选地，其特征在于，所述训练样本集包括每个样本对应的用于目标业务的真实标签，其中，所述样本数据处理装置还包括：模型训练单元，被配置为：基于所述目标训练集和所述目标训练集中的每个样本对应的真实标签，对业务模型进行训练，以得到训练好的业务模型，其中，所述训练好的业务模型用于执行与所述目标业务相关联的任务。

可选地，所述训练样本集和测试样本集是表格数据。

根据本公开的另一方面，提供一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的样本数据处理方法。

根据本公开的另一方面，提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的样本数据处理方法。

根据本公开示例性实施例的样本数据处理方法、装置、存储介质和系统，能够为训练集和测试集的样本分别设置不同的标签，并将设置标签后训练集和测试集的合集作为训练分类模型的数据集，使分类模型学习区分训练样本和测试样本，以基于训练后的分类模型确定训练集中的每个样本的预测结果，从而能够根据预测结果，自动高效地识别出在训练集中与测试集分布不一致的训练样本，并通过删除的方式来规避这种分布不一致的训练样本，进而有效缓解了利用分布不一致的训练集和测试集得到的模型上线后效果不佳的情形。

将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本公开总体构思的实施而得知。

附图说明

通过结合附图，从实施例的下面描述中，本公开这些和/或其它方面及优点将会变得清楚，并且更易于理解，其中：

图1是示出根据本公开示例性实施例的样本数据处理方法的流程图；

图2是示出根据本公开示例性实施例的样本数据处理装置的框图。

具体实施方式

提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本发明的实施例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本发明的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

下面参照图1和图2详细描述根据本公开示例性实施例的样本数据处理方法和装置。

图1是示出根据本公开示例性实施例的样本数据处理方法的流程图。

参照图1，在步骤S101中，可获取训练样本集和测试样本集。这里，训练样本集和测试样本集可以是从同一数据集划分而来，从而测试样本集与训练样本集具有相同的数据形式。另外，测试样本集还可以与训练样本集来自不同的数据集，或者测试样本集可以是利用相关技术根据训练样本集的特征额外生成的样本集。

应理解，无论测试样本集是通过哪种方式得到的，测试样本集与训练样本集都具有相同或相似的数据形式。换言之，测试样本集与训练样本集之间在数据形式上的相似度需要满足要求，例如，可针对相似度设置阈值，相似度大于该阈值的测试样本满足要求，而相似度不大于该阈值的测试样本不满足要求，以使测试样本集与训练样本集具有相同或相似的数据形式。作为示例，在训练样本集是表格型用户数据的情况下，测试样本集也同样是表格型用户数据，并且测试样本集与训练样本集在表格维度、表格中的数据类型等方面均相同或等同。假设在实际应用中获取的测试样本集与训练样本集在数据形式上不满足要求，可对测试样本集中的数据形式进行相应调整，以使测试样本集在数据形式上满足要求，例如，在训练样本集中的数字为阿拉伯数字，而测试样本集中的数字为大写数字的情况下，可将测试样本集中的数字调整为阿拉伯数字。应理解，以上所述的测试样本集的获取方式和调整方式仅用于示例，本公开不限于此。

进一步地，本公开的作为训练样本集和测试样本集的样本数据包括但不限于以下场景中的数据：图像处理场景中的图像数据，例如文本图像、人脸图像、物体图像等；语音识别场景中的语音数据，例如用于手机或智能音箱的语音助手的语音数据等；自然语言处理场景中的文本数据，例如合同文本、法律文书文本、客服记录文本、垃圾短信文本等；自动控制场景中的设备参数数据，例如矿井组、风力发电机组、空调系统等设备的参数；智能问答场景中的交互数据，例如用户行为数据等；金融科技领域、医疗领域和市政领域的业务决策场景中的数据，包括：金融科技领域的营销数据(例如优惠券数据、广告点击数据、用户数据等)、交易数据、信用数据和商品价格数据，医疗领域的疾病诊断数据和个人健康数据，市政领域的社会治安数据、环境设施数据、产业经济数据和交通设施数据；推荐业务场景中的推荐数据，例如新闻数据、广告数据、音乐数据、咨询数据、视频数据和金融产品数据等；搜索场景中的搜索数据，例如网页搜索、图像搜索、文本搜索、视频搜索等数据；异常行为检测场景中的行为数据，例如民用电数据、网络流量数据、操作日志等。应理解，上述各场景中的数据可以以表格形式展示或转换为表格数据后应用于本公开实施例所示方法，且前述数据仅用于示例，本公开对此不做限制。

接下来，在步骤S102中，可为训练样本集中的每个样本设置第一标签，并且为测试样本集中的每个样本设置第二标签。这里，第一标签与第二标签不同。作为示例，第一标签可以是0，第二标签可以是1，但本公开不限于此，本领域技术人员可根据实际情况来设置第一标签与第二标签。通过分别为训练样本集和测试样本集的样本设置不同的标签，能够简易高效地对训练样本集中的样本与测试样本集中的样本进行区分。

接下来，在步骤S103中，可将设置第一标签后的训练样本集和设置第二标签后的测试样本集进行合并，得到样本合集。这里，可直接将设置样本标签后的训练样本集和测试样本集进行简单合并，或者，也可将设置样本标签后的训练样本集和测试样本集中的样本顺序打乱后进行随机合并，但本公开不限于此，本领域技术人员可根据实际情况来确定得到样本合集的合并方式。

接下来，在步骤S104中，可利用样本合集训练分类模型，以基于训练后的分类模型确定训练样本集中的每个样本的预测结果。这里，分类模型用于区分样本合集中的属于训练样本集的样本与属于测试样本集的样本。作为示例，分类模型可包括随机森林模型、支持向量机模型、Wide and Deep模型等机器学习或深度学习模型中的至少一个，但本公开不限于此，本领域技术人员可根据实际情况使用合适的模型进行训练。具体而言，第一标签可用于表示对应的样本属于训练样本集，第二标签可用于表示对应的样本属于测试样本集，通过利用样本合集训练分类模型，以使分类模型基于第一标签和第二标签来学习区分训练样本集和测试样本集中的样本，从而能够基于分类模型确定训练样本集中的每个样本的预测结果。

根据本公开的示例性实施例，训练得到的分类模型可用于预测样本是否属于测试样本集，在一种可能的实现中，可以通过概率来表征样本是否属于测试样本集。此时，基于样本合集训练得到的分类模型，可用于预测样本属于测试样本集的第一概率，或者，用于预测样本不属于测试样本集的第二概率。例如，在第一标签为0，第二标签为1的情况下，训练得到的分类模型可用于预测样本属于测试样本集的第一概率；而在第一标签为1，第二标签为0的情况下，训练得到的分类模型则用于预测样本不属于测试样本集的第二概率。相应地，上述预测结果可用于指示样本属于测试样本集的第一概率，或者，可用于指示样本不属于测试样本集的第二概率。通过利用包含第一标签和第二标签的样本合集来训练分类模型，可以使分类模型基于训练样本集对应的第一标签和测试样本集对应的第二标签来学习训练样本集和测试样本集中样本各自的分布，从而使分类模型的预测结果能够可靠地表征样本是否属于测试样本集。

接下来，在步骤S105中，可基于预测结果从训练样本集中确定目标样本，以删除训练样本集中的目标样本，得到目标训练集。这里，在训练得到的分类模型用于预测样本属于测试样本集的第一概率的情况下，可从训练样本集中选取第一概率小于第一阈值的至少一个样本，并将第一概率小于第一阈值的至少一个样本确定为目标样本。具体而言，如果对训练样本集中的任一样本进行预测得到的第一概率小于第一阈值，则表示分类模型能够准确分辨出该样本为训练样本集中的样本，即表明该样本的分布和测试样本集中的样本分布不一致。作为示例，第一阈值可以是0.1，但本公开不限于此，第一阈值的具体数值可由本领域技术人员根据具体数据集的实际情况进行设置，例如第一阈值还可以是0.05或者0.2等。或者，在训练得到的分类模型用于预测样本不属于测试样本集的第二概率的情况下，可从训练样本集中选取第二概率大于第二阈值的至少一个样本，并将第二概率大于第二阈值的至少一个样本确定为目标样本。具体而言，如果对训练样本集中的任一样本进行预测得到的第二概率大于第二阈值，则表示分类模型能够准确分辨出该样本为训练样本集中的样本，即表明该样本的分布和测试样本集中的样本分布不一致。作为示例，第二阈值可以是0.9，但本公开不限于此，第二阈值的具体数值可由本领域技术人员根据具体数据集的实际情况进行设置，例如第二阈值还可以是0.8或者0.95等。通过上述阈值比较的方式来确定目标样本，能够稳定地将与测试样本集分布不一致的训练样本集中的样本确定为目标样本，进而能够可靠规避这种分布不一致的样本。

根据本公开的示例性实施例，在对分类模型进行训练时，可利用样本合集对分类模型进行交叉训练，以通过交叉训练对样本合集中的每个样本进行预测，从而得到样本合集中的每个样本的预测结果；接下来，可将样本合集中对应于第一标签的各个样本的预测结果作为训练样本集中相应的各个样本的预测结果，从而得到训练样本集中的每个样本的预测结果。作为示例，可将样本合集划分为第一数量个样本子集；然后，在每次训练时，利用第一数量个样本子集中的第二数量个样本子集对分类模型进行训练。这里，第二数量小于第一数量。例如，在五折交叉训练的情况下，第一数量为5，第二数量为4，但本公开不限于此，第一数量和第二数量的具体数值可由本领域技术人员根据实际情况进行设置。进一步地，任意一次训练时使用的第二数量个样本子集与其他次训练时使用的第二数量个样本子集不完全相同。换言之，在每次训练时，均可排除一部分样本子集，并且每次排除的样本子集不完全相同。更进一步地，针对任意一次训练，可利用该次训练得到的分类模型，对该次训练时未使用的第一数量个样本子集中的其余样本子集中的每个样本进行预测，得到其余样本子集中的每个样本的预测结果。这里，其余样本子集为第二数量个样本子集之外的样本子集。通过在每次训练后对训练时排除的样本子集进行预测，能够避免用于训练的样本与用于预测的样本产生重合，提高了预测结果的可靠性，并且能够通过这种方式来最终获得样本合集中的所有样本的预测结果。

根据本公开的示例性实施例，训练样本集可包括每个样本对应的用于目标业务的真实标签。在删除训练样本集中的目标样本后，得到的目标训练集中的每个样本也对应有真实标签，从而可基于目标训练集和目标训练集中的每个样本对应的真实标签，对业务模型进行训练，以得到训练好的业务模型。这里，训练好的业务模型可用于执行与目标业务相关联的任务。进一步地，与目标业务相关联的任务可以包括但不限于：识别任务、预测任务、分类任务、决策任务等，此处不再穷举。作为示例，在训练样本集是用户数据的情况下，训练好的业务模型可用于评估用户未来是否可能发生信用卡违约行为，或者，可用于评估用户的信用/风险等级；作为另一示例，在训练样本集是图像数据的情况下，训练好的业务模型可用于图像识别，但本公开不限于此。

应理解，业务模型与上述利用样本合集训练的分类模型无必然关系，即业务模型与上述利用样本合集训练的分类模型既可以是相同的模型，也可以是不相同的模型，本领域技术人员可根据实际情况确定合适的模型作为业务模型。通过删除目标样本后的目标训练集来对业务模型进行训练，能够在训练过程中规避与测试样本集分布不一致的样本，使训练好的业务模型性能更加稳定，从而更好地满足目标业务的需求。

需要说明的是，本公开实施例中所涉及到的业务模型可用于预测图像类别、文本类别、语音情感、欺诈交易、广告点击率等，具体可由本领域技术人员基于训练样本集所应用的目标业务来确定。换言之，上述业务模型旨在针对相关场景中的对象或事件有关的问题进行预测。例如，可用于预测图像类别、预测图像中文字、预测文本类别、预测语音情感类别、预测欺诈交易、预测广告点击率、预测商品价格等等，使得预测结果可直接作为决策依据或进一步结合其他规则而成为决策依据。

进一步地，本公开的业务模型可被用于的场景包括但不限于以下场景：

图像处理场景，包括：光学字符识别OCR、人脸识别、物体识别和图片分类；更具体地举例来说，OCR可应用于票据(如发票)识别、手写字识别等，人脸识别可应用安防等领域，物体识别可应用于自动驾驶场景中的交通标志识别，图片分类可应用于电商平台的“拍照购”、“找同款”等。

语音识别场景，包括可通过语音进行人机交互的产品，如手机的语音助手(如苹果手机的Siri)、智能音箱等。

自然语言处理场景，包括：审查文本(如合同、法律文书和客服记录等)、垃圾内容识别(如垃圾短信识别)和文本分类(情感、意图和主题等)。

自动控制场景，包括：矿井组调节操作预测、风力发电机组调节操作预测和空调系统调节操作预测；具体的对于矿井组可预测开采率高的一组调节操作，对于风力发电机组可预测发电效率高的一组调节操作，对于空调系统，可以预测满足需求的同时节省能耗的一组调节操作。

智能问答场景，包括：聊天机器人和智能客服。

业务决策场景，包括：金融科技领域、医疗领域和市政领域的场景，其中，金融科技领域包括：营销(如优惠券使用预测、广告点击行为预测、用户画像挖掘等)与获客、反欺诈、反洗钱、承保和信用评分、商品价格预测；医疗领域包括：疾病筛查和预防、个性化健康管理和辅助诊断；市政领域包括：社会治理与监管执法、资源环境和设施管理、产业发展和经济分析、公众服务和民生保障、智慧城市(公交、网约车、共享单车等各类城市资源的调配和管理)。

推荐业务场景，包括：新闻、广告、音乐、咨询、视频和金融产品(如理财、保险等)的推荐。

搜索场景，包括：网页搜索、图像搜索、文本搜索、视频搜索等。

异常行为检测场景，包括：国家电网客户用电异常行为检测、网络恶意流量检测、操作日志中的异常行为检测等。

另外，本公开实施例中所涉及到的业务模型还可被用于隐私计算、多方安全计算、联邦学习、匿踪(隐匿)查询、安全(隐私)求交等场景。

根据本公开的示例性实施例，训练样本集和测试样本集可以是表格数据。例如包含用户标识、性别、职业、教育程度等维度的用户数据，可应用于用户信用评级等场景中，但本公开不限于此。这里，针对表格数据，可将表格中的每一行数据作为样本，或者可将表格中的每一列数据作为样本；另外，在表格数据包括多个表格的情况下，也可将多个表格中的至少一个表格作为样本，但本公开不限于此，本领域技术人员可根据实际应用场景来设置样本的内容。应理解，训练样本集和测试样本集也可以是其他类型的数据，例如图像数据等，本公开对此不做限制。

为了方便理解上述实施例，将以表格数据为例，结合下述表1至表7进行描述。

作为示例，下述表1示出的训练样本集示例和表2示出的测试样本集示例均是经过特征构造的表格数据，每个样本均包括7个特征。具体而言，在下述表1和表2所示的表格数据中，表格最左侧的一列表示样本标识，任一行具有样本标识的数据表示一个样本，每个样本包括7个特征，表1中的训练样本集比表2中的测试样本集多了真实标签列。应理解，下述表格数据仅仅是示例性的，本领域技术人员可根据实际情况确定训练样本集和测试样本集的数据类型、样本数量和样本包含的特征数量等；另外，训练样本集和测试样本集也可以是没有经过特征构造的原始数据，本公开对此不做限制。

表1训练样本集示例

样本标识	特征1	特征2	特征3	特征4	特征5	特征6	特征7	真实标签
									0	34	23	16	2	3	6	10	88.96
1	35	20	16	3	3	4	6	89.90
									2	27	4	33	2	3	25	8	92.59
3	31	1	27	3	3	13	8	108.84
									4	19	10	16	2	3	3	11	111.15
…	…	…	…	…	…	…	…	…
									3362	31	10	16	2	3	22	11	109.42
3363	20	25	25	2	3	9	9	78.25
									3364	45	24	3	2	3	21	8	92.18
3365	45	19	8	5	3	25	8	91.92
									3366	22	1	7	2	3	5	9	87.71

表2测试样本集示例

在获取了如表1所示的训练样本集和如表2所示的测试样本集之后，可为训练样本集中的每个样本设置第一标签，并且为测试样本集中的每个样本设置第二标签。作为示例，针对如表1和表2所示的训练样本集和测试样本集，可在删除训练样本集中的真实标签列后添加值为0的第一标签列，并在测试样本集中添加值为1的第二标签列，下述表3和表4是示出设置第一标签后的训练样本集示例和设置第二标签后的测试样本集示例。

表3设置第一标签后的训练样本集示例

样本标识	特征1	特征2	特征3	特征4	特征5	特征6	特征7	第一标签
									0	34	23	16	2	3	6	10	0
1	35	20	16	3	3	4	6	0
									2	27	4	33	2	3	25	8	0
3	31	1	27	3	3	13	8	0
									4	19	10	16	2	3	3	11	0
…	…	…	…	…	…	…	…	…
									3362	31	10	16	2	3	22	11	0
3363	20	25	25	2	3	9	9	0
									3364	45	24	3	2	3	21	8	0
3365	45	19	8	5	3	25	8	0
									3366	22	1	7	2	3	5	9	0

表4设置第二标签后的测试样本集示例

接下来，可将设置第一标签后的训练样本集和设置第二标签后的测试样本集进行合并，得到样本合集。下述表5是示出合并得到的样本合集示例。

表5样本合集示例

样本标识	特征1	特征2	特征3	特征4	特征5	特征6	特征7	标签
									0	34	23	16	2	3	6	10	0
1	35	20	16	3	3	4	6	0
									2	27	4	33	2	3	25	8	0
3	31	1	27	3	3	13	8	0
									4	19	10	16	2	3	3	11	0
…	…	…	…	…	…	…	…	…
									4204	44	3	33	2	3	8	3	1
4205	40	3	33	2	3	26	9	1
									4206	46	1	21	2	3	6	7	1
4207	27	23	3	2	3	22	6	1
									4208	44	23	16	5	3	16	9	1

在获取了如表5所示的样本合集之后，可使用交叉训练的方式，利用样本合集训练分类模型，以通过交叉训练对样本合集中的每个样本进行预测。作为示例，可使用五折交叉的方式，将样本合集均匀地分成五份，每次将其中一份排除在外，用另外四份进行模型训练(例如但不限于每次训练一个随机森林模型)，并且用训练得到的分类模型对排除在外的那份数据集进行预测，预测结果为样本属于测试样本集的概率。在上述五折交叉过程中，总共训练并预测了五次，最终在五折交叉训练结束时，能够获得样本合集中的所有样本的预测结果。下述表6是示出样本合集中的各样本的预测结果示例。

表6样本合集中的各样本的预测结果示例

接下来，由于在样本合集中，标签为0的样本均属于训练样本集，因此可从上述表6所示的样本合集中中取出标签为0的样本，得到训练样本集中的每个样本的预测结果。下述表7是示出按照预测结果由低至高的顺序排列的训练样本集示例。

表7排序后的训练样本集示例

样本标识	特征1	特征2	特征3	特征4	特征5	特征6	特征7	标签	预测结果
										2631	7	4	8	2	3	4	8	0	0.035308
2658	33	20	8	6	3	22	6	0	0.046334
										1843	17	23	8	6	3	23	6	0	0.047450
1767	18	23	8	2	3	21	6	0	0.054264
										490	45	19	8	5	3	22	6	0	0.057811
…	…	…	…	…	…	…	…	…	…
										918	43	23	16	3	3	13	9	0	0.433443
643	27	4	33	2	3	22	9	0	0.436057
										3047	20	13	25	5	3	16	9	0	0.469141
896	30	3	23	0	3	23	9	0	0.475236
										437	31	1	21	2	3	23	9	0	0.481855

接下来，可基于如表7所示的预测结果从训练样本集中确定目标样本，以删除训练样本集中的目标样本，得到目标训练集。作为示例，可将表7中预测结果小于0.1的样本确定为目标样本，并将确定的目标样本从训练样本集中删除，得到目标样本集。

根据本公开示例性实施例的样本数据处理方法，能够为训练集和测试集的样本分别设置不同的标签，并将设置标签后训练集和测试集的合集作为训练分类模型的数据集，使分类模型学习区分训练样本和测试样本，以基于训练后的分类模型确定训练集中的每个样本的预测结果，从而能够根据预测结果，自动高效地识别出在训练集中与测试集分布不一致的训练样本，并通过删除的方式来规避这种分布不一致的训练样本，进而有效缓解了利用分布不一致的训练集和测试集得到的模型上线后效果不佳的情形。

参照图2，根据本公开示例性实施例的样本数据处理装置200可包括数据获取单元210、标签设置单元220、样本合并单元230、样本预测单元240和样本删除单元250。

数据获取单元210可获取训练样本集和测试样本集。如上所述，根据本公开示例性实施例的训练样本集和测试样本集可以是表格数据。

标签设置单元220可为训练样本集中的每个样本设置第一标签，并且为测试样本集中的每个样本设置第二标签。这里，第一标签与第二标签不同。

样本合并单元230可将设置第一标签后的训练样本集和设置第二标签后的测试样本集进行合并，得到样本合集。

样本预测单元240可利用样本合集训练分类模型，以基于训练后的分类模型确定训练样本集中的每个样本的预测结果。这里，分类模型可用于区分样本合集中的属于训练样本集的样本与属于测试样本集的样本。进一步地，如上所述，分类模型可包括随机森林模型、支持向量机模型、Wide and Deep模型中的至少一个。

样本删除单元250可基于预测结果从训练样本集中确定目标样本，以删除训练样本集中的目标样本，得到目标训练集。

根据本公开的示例性实施例，预测结果可用于指示样本属于测试样本集的第一概率，或者，用于指示样本不属于测试样本集的第二概率。

根据本公开的示例性实施例，样本删除单元250可从训练样本集中选取第一概率小于第一阈值的至少一个样本，并将第一概率小于第一阈值的至少一个样本确定为目标样本；和/或，从训练样本集中选取第二概率大于第二阈值的至少一个样本，并将第二概率大于第二阈值的至少一个样本确定为目标样本。

根据本公开的示例性实施例，样本预测单元240可利用样本合集对分类模型进行交叉训练，以通过交叉训练对样本合集中的每个样本进行预测，从而得到样本合集中的每个样本的预测结果；然后，可将样本合集中对应于第一标签的各个样本的预测结果作为训练样本集中相应的各个样本的预测结果，从而得到训练样本集中的每个样本的预测结果。

根据本公开的示例性实施例，样本预测单元240还可将样本合集划分为第一数量个样本子集；在每次训练时，利用第一数量个样本子集中的第二数量个样本子集对分类模型进行训练。这里，第二数量小于第一数量。进一步地，任意一次训练时使用的第二数量个样本子集与其他次训练时使用的第二数量个样本子集不完全相同。

根据本公开的示例性实施例，样本预测单元240还可针对任意一次训练，利用该次训练得到的分类模型，对该次训练时未使用的第一数量个样本子集中的其余样本子集中的每个样本进行预测，得到其余样本子集中的每个样本的预测结果。这里，其余样本子集为第二数量个样本子集之外的样本子集。

根据本公开的示例性实施例，训练样本集可包括每个样本对应的用于目标业务的真实标签。这里，样本数据处理装置200还可包括模型训练单元(未示出)，模型训练单元可基于目标训练集和目标训练集中的每个样本对应的真实标签，对业务模型进行训练，以得到训练好的业务模型。这里，训练好的业务模型可用于执行与目标业务相关联的任务。

根据本公开示例性实施例的样本数据处理方法和装置，能够为训练集和测试集的样本分别设置不同的标签，并将设置标签后训练集和测试集的合集作为训练分类模型的数据集，使分类模型学习区分训练样本和测试样本，以基于训练后的分类模型确定训练集中的每个样本的预测结果，从而能够根据预测结果，自动高效地识别出在训练集中与测试集分布不一致的训练样本，并通过删除的方式来规避这种分布不一致的训练样本，进而有效缓解了利用分布不一致的训练集和测试集得到的模型上线后效果不佳的情形。

以上已参照图1和图2描述了根据本公开示例性实施例的样本数据处理方法和装置。

图2所示出的样本数据处理装置中的各个单元可被配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，各个单元可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，各个单元所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

此外，参照图1所描述的样本数据处理方法可通过记录在计算机可读存储介质上的程序(或指令)来实现。例如，根据本公开的示例性实施例，可提供存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行根据本公开的样本数据处理方法。

上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经在参照图1进行相关方法的描述过程中提及，因此这里为了避免重复将不再进行赘述。

应注意，根据本公开示例性实施例的样本数据处理装置中的各个单元可完全依赖计算机程序的运行来实现相应的功能，即，各个单元在计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，图2所示的各个单元也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，本公开的示例性实施例还可以实现为计算装置，该计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当计算机可执行指令集合被处理器执行时，执行根据本公开示例性实施例的样本数据处理方法。

具体说来，计算装置可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点装置上。此外，计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，计算装置并非必须是单个的计算装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在计算装置中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

根据本公开示例性实施例的样本数据处理方法中所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码，其中，存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。

此外，计算装置还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。

根据本公开示例性实施例的样本数据处理方法可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。

因此，参照图1所描述的样本数据处理方法可通过包括至少一个计算装置和至少一个存储指令的存储装置的系统来实现。

根据本公开的示例性实施例，至少一个计算装置是根据本公开示例性实施例的用于执行样本数据处理方法的计算装置，存储装置中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个计算装置执行时，执行参照图1所描述的样本数据处理方法。

以上描述了本公开的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本公开不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本公开的保护范围应该以权利要求的范围为准。

Claims

1.一种样本数据处理方法，其特征在于，包括：

获取训练样本集和测试样本集；

为所述训练样本集中的每个样本设置第一标签，并且为所述测试样本集中的每个样本设置第二标签，其中，所述第一标签与所述第二标签不同；

将设置第一标签后的训练样本集和设置第二标签后的测试样本集进行合并，得到样本合集；

利用所述样本合集训练分类模型，以基于训练后的分类模型确定所述训练样本集中的每个样本的预测结果，其中，所述分类模型用于区分所述样本合集中的属于所述训练样本集的样本与属于所述测试样本集的样本；

基于所述预测结果从所述训练样本集中确定目标样本，以删除所述训练样本集中的所述目标样本，得到目标训练集。

2.如权利要求1所述的样本数据处理方法，其特征在于，所述预测结果用于指示样本属于所述测试样本集的第一概率，或者，用于指示样本不属于所述测试样本集的第二概率。

3.如权利要求2所述的样本数据处理方法，其特征在于，所述基于所述预测结果从所述训练样本集中确定目标样本，包括：

从所述训练样本集中选取所述第一概率小于第一阈值的至少一个样本，并将所述第一概率小于第一阈值的至少一个样本确定为所述目标样本；和/或，

从所述训练样本集中选取所述第二概率大于第二阈值的至少一个样本，并将所述第二概率大于第二阈值的至少一个样本确定为所述目标样本。

4.如权利要求1所述的样本数据处理方法，其特征在于，所述利用所述样本合集训练分类模型，以基于训练后的分类模型确定所述训练样本集中的每个样本的预测结果，包括：

利用所述样本合集对所述分类模型进行交叉训练，以通过所述交叉训练对所述样本合集中的每个样本进行预测，从而得到所述样本合集中的每个样本的预测结果；

将所述样本合集中对应于所述第一标签的各个样本的预测结果作为所述训练样本集中相应的各个样本的预测结果，从而得到所述训练样本集中的每个样本的预测结果。

5.如权利要求4所述的样本数据处理方法，其特征在于，所述利用所述样本合集对所述分类模型进行交叉训练，包括：

将所述样本合集划分为第一数量个样本子集；

在每次训练时，利用所述第一数量个样本子集中的第二数量个样本子集对所述分类模型进行训练，其中，所述第二数量小于所述第一数量，

其中，任意一次训练时使用的所述第二数量个样本子集与其他次训练时使用的所述第二数量个样本子集不完全相同。

6.如权利要求5所述的样本数据处理方法，其特征在于，所述通过所述交叉训练对所述样本合集中的每个样本进行预测，从而得到所述样本合集中的每个样本的预测结果，包括：

针对任意一次训练，利用该次训练得到的分类模型，对该次训练时未使用的所述第一数量个样本子集中的其余样本子集中的每个样本进行预测，得到所述其余样本子集中的每个样本的预测结果，其中，所述其余样本子集为所述第二数量个样本子集之外的样本子集。

7.如权利要求1至6中任一项所述的样本数据处理方法，其特征在于，所述训练样本集包括每个样本对应的用于目标业务的真实标签，其中，所述样本数据处理方法还包括：

基于所述目标训练集和所述目标训练集中的每个样本对应的真实标签，对业务模型进行训练，以得到训练好的业务模型，其中，所述训练好的业务模型用于执行与所述目标业务相关联的任务。

8.一种样本数据处理装置，其特征在于，包括：

数据获取单元，被配置为：获取训练样本集和测试样本集；

标签设置单元，被配置为：为所述训练样本集中的每个样本设置第一标签，并且为所述测试样本集中的每个样本设置第二标签，其中，所述第一标签与所述第二标签不同；

样本合并单元，被配置为：将设置第一标签后的训练样本集和设置第二标签后的测试样本集进行合并，得到样本合集；

样本预测单元，被配置为：利用所述样本合集训练分类模型，以基于训练后的分类模型确定所述训练样本集中的每个样本的预测结果，其中，所述分类模型用于区分所述样本合集中的属于所述训练样本集的样本与属于所述测试样本集的样本；

样本删除单元，被配置为：基于所述预测结果从所述训练样本集中确定目标样本，以删除所述训练样本集中的所述目标样本，得到目标训练集。

9.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的样本数据处理方法。

10.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其特征在于，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的样本数据处理方法。