CN114490786B

CN114490786B - 数据排序方法及装置

Info

Publication number: CN114490786B
Application number: CN202111624648.2A
Authority: CN
Inventors: 陈实; 李宽; 王洪斌; 蒋宁; 吴海英
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2023-01-31
Anticipated expiration: 2041-12-28
Also published as: CN114490786A

Abstract

本申请实施例提供了一种数据排序方法及装置，在各特征维度下的目标特征类别对应的多个线上业务数据中，分别选取第一数量的线上业务数据，再将选取的线上业务数据输入排序模型，得到相应的排序结果，并基于排序结果确定第二数量的待处理的目标业务事件，即在每个特征维度的目标特征类别下选取输入至排序模型的线上业务数据，由于目标特征类别对应的目标精确率满足预设条件，且目标精确率能够表征在第一数量中预测正确的正样本的数量占比，因此在多个特征维度的目标特征类别下选取一定数量的线上业务数据，这样能够确保选取出更多的正样本，从而确保输入至排序模型的第二业务数据集中的正负样本的数量更加均衡，进而提升排序模型的topN精确率。

Description

数据排序方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种数据排序方法及装置。

背景技术

目前，随着机器学习技术的快速发展，机器学习在许多业务场景中得到了广泛的使用。业务提供方可以通过采集业务场景下的用户数据训练机器学习模型，使得业务提供方能够利用训练的机器学习模型预测用户的行为，从而为用户提供更优质的服务。

其中，针对一些特定的业务场景，例如投诉场景，可以利用排序模型对有可能投诉的用户进行预测，但是由于人力资源有限，每天只能处理一定数量的用户的诉求，因此，需要提供一种能够使排序模型的预测结果更加准确的技术方案。

发明内容

本申请实施例提供的一种数据排序方法及装置，能够确保选取出更多的正样本，从而确保输入至排序模型的第二业务数据集中的正负样本的数量更加均衡，进而提升排序模型的topN精确率，这样在一些特定的业务场景下，利用训练的排序模型对业务数据进行预测时，能够使排序靠前的预测结果中包含更多的正样本，进而使排序模型的预测结果更加准确。

为了实现上述技术方案，本申请实施例是这样实现的：

第一方面，本申请实施例提供的一种数据排序方法，所述方法包括：

获取目标业务的第一业务数据集；其中，所述第一业务数据集包括多个线上业务数据，每个所述线上业务数据包括多个特征维度，每个所述特征维度包括多个特征类别；

针对每个所述特征维度，在所述特征维度的目标特征类别下的多个所述线上业务数据中，选取第一数量的线上业务数据；其中，所述目标特征类别是每个所述特征维度的所述多个特征类别中目标精确率满足预设条件的特征类别，每个所述特征类别对应于一个所述目标精确率，所述目标精确率用于表征在所述第一数量中预测正确的正样本的数量占比；

基于所述第一数量的线上业务数据，确定第二业务数据集；

将所述第二业务数据集输入预先训练的排序模型中，得到所述线上业务数据的排序结果；

基于所述排序结果选取第二数量的线上业务数据对应的业务事件作为待处理的目标业务事件。

第二方面，本申请实施例提供的一种数据排序装置，所述装置包括：

第一获取模块，用于获取目标业务的第一业务数据集；其中，所述第一业务数据集包括多个线上业务数据，每个所述线上业务数据包括多个特征维度，每个所述特征维度包括多个特征类别；

第一选取模块，用于针对每个所述特征维度，在所述特征维度的目标特征类别下的多个所述线上业务数据中，选取第一数量的线上业务数据；其中，所述目标特征类别是每个所述特征维度的所述多个特征类别中目标精确率满足预设条件的特征类别，每个所述特征类别对应于一个所述目标精确率，所述目标精确率用于表征在所述第一数量中预测正确的正样本的数量占比；

第一确定模块，用于基于所述第一数量的线上业务数据，确定第二业务数据集；

排序模块，用于将所述第二业务数据集输入预先训练的排序模型中，得到所述线上业务数据的排序结果；

第二确定模块，用于基于所述排序结果选取第二数量的线上业务数据对应的业务事件作为待处理的目标业务事件。

第三方面，本申请实施例提供的一种数据排序设备，所述设备包括：

处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令被配置由所述处理器执行，所述可执行指令包括用于执行如第一方面中所述的方法中的步骤。

第四方面，本申请实施例提供的一种存储介质，其中，所述存储介质用于存储计算机可执行指令，所述可执行指令使得计算机执行如第一方面中所述的方法中的步骤。

可以看出，在本申请实施例中，在第一业务数据集中的正负样本不均衡的情况下，即若负样本的数量远高于正样本的情况，针对排序模型的使用过程中，并非直接将第一业务数据集作为排序模型的输入数据，而是先在每个特征维度的目标特征类别下选取第一数量的线上业务数据，并基于针对多个特征维度分别选取的第一数量的线上业务数据确定第二业务数据集，再将该第二业务数据集输入至预先训练的排序模型，然后，利用该排序模型对第二业务数据集中的多个线上业务数据排序，以便确定排序靠前的第二数量的待处理的目标业务事件，其中，由于目标特征类别可以是某一特征维度下的多个特征类别中目标精确率比较高的特征类别，且目标精确率能够表征在第一数量中预测正确的正样本的数量占比，因此，目标精确率越高预测正确的正样本的数量越多，这样选取目标精确率满足预设条件的特征类别作为目标特征类别，再在该目标特征类别下选取第一数量的线上业务数据，这样能够确保针对各特征维度选取的第一数量的线上业务数据包含更多的正样本，从而确保输入至排序模型的第二业务数据集中的正负样本的数量更加均衡；并且在排序模型的训练过程中，同样是先在每个特征维度的目标特征类别下选取第三数量的目标训练样本，并基于针对多个特征维度分别选取的第三数量的模型训练样本确定目标训练样本集，再基于目标训练样本集对排序模型进行训练，这样使得在排序模型训练过程中所使用的目标训练样本集与在排序模型使用过程中所输入的第二业务数据集中的数据分布具有较高的相似度，从而使得预先基于目标训练样本集训练得到的排序模型的模型参数，对第二业务数据集的排序结果更加准确，从而能够进一步提升排序模型的topN精确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的数据排序方法的第一种流程示意图；

图2为本申请实施例提供的数据排序方法的第二种流程示意图；

图3为本申请实施例提供的数据排序方法的识别模型的训练过程示意图；

图4为本申请实施例提供的数据排序方法的排序模型的训练过程示意图；

图5为本申请实施例提供的数据排序方法的排序模型的指标评估过程示意图；

图6为本申请实施例提供的数据排序方法的排序模型的使用过程示意图；

图7为本申请实施例提供的数据排序装置的模块组成示意图；

图8为本申请实施例提供的数据排序设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请的保护范围。

需要说明的是，在不冲突的情况下，本申请实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请实施例。

本申请实施例提供了一种数据排序方法及装置，在第一业务数据集中的正负样本不均衡的情况下，即若负样本的数量远高于正样本的情况，针对排序模型的使用过程中，并非直接将第一业务数据集作为排序模型的输入数据，而是先在每个特征维度的目标特征类别下选取第一数量的线上业务数据，并基于针对多个特征维度分别选取的第一数量的线上业务数据确定第二业务数据集，再将该第二业务数据集输入至预先训练的排序模型，然后，利用该排序模型对第二业务数据集中的多个线上业务数据排序，以便确定排序靠前的第二数量的待处理的目标业务事件，其中，由于目标精确率能够表征在第一数量中预测正确的正样本的数量占比，因此，目标精确率越高预测正确的正样本的数量越多，这样选取目标精确率满足预设条件的特征类别作为目标特征类别，再在该目标特征类别下选取第一数量的线上业务数据，这样能够确保针对各特征维度选取的第一数量的线上业务数据包含更多的正样本，从而确保输入至排序模型的第二业务数据集中的正负样本的数量更加均衡；并且在排序模型的训练过程中，同样是先在每个特征维度的目标特征类别下选取第三数量的目标训练样本，并基于针对多个特征维度分别选取的第三数量的模型训练样本确定目标训练样本集，再基于目标训练样本集对排序模型进行训练，这样使得在排序模型训练过程中所使用的目标训练样本集与在排序模型使用过程中所输入的第二业务数据集中的数据分布具有较高的相似度，从而使得预先基于目标训练样本集训练得到的排序模型的模型参数，对第二业务数据集的排序结果更加准确，从而能够进一步提升排序模型的topN精确率。

需要说明的是，在第一业务数据集中的正负样本不均衡的情况下，例如针对某些需要人工对用户诉求进行处理的业务场景，由于人力资源有限，每天只能对有限的用户的诉求进行处理，因此，需要在提交预设诉求的众多用户中选取出如果未及时响应其提交的预设诉求，将会发起投诉的用户，具体的，在相关技术中通常会直接将在该业务场景下采集到的多个提交预设诉求的目标用户对应的线上业务数据输入至排序模型进行排序，其中，该线上业务数据可以包括在多个特征维度下的目标用户的属性信息；然后基于排序结果选取排序靠前的一定数量的目标用户，并将该排序靠前的一定数量的目标用户作为待响应其预设诉求的目标用户；但是，因未及时响应其提交的预设诉求而发起投诉的用户数量在用户总量中占比比较少，因而存在采集到的线上业务数据集中正样本的数量远小于负样本的数量的情况，例如，正样本可以是如果未及时响应其提交的预设诉求，将会发起投诉的用户，负样本可以是如果未及时响应其提交的预设诉求，将不会发起投诉的用户，因此，会存在因输入至排序模型的线上业务数据集中的正负样本不均衡，而导致排序模型的topN精确率低的问题，例如，如果topN精确率低，将导致利用排序模型选取出的topN的目标用户中真正需要响应其诉求的用户占比少，从而导致后续接收到的投诉率增加；基于上述问题，本申请技术方案先在每个特征维度的目标特征类别下选取用于预测的线上业务数据集，由于目标特征类别对应的目标精确率满足预设条件，且目标精确率能够表征在第一数量的线上业务数据中预测正确的正样本的数量占比，因此在目标特征类别下的多个线上业务数据中选取输入至排序模型的线上业务数据集，这样能够确保选取出更多的正样本，使得输入至排序模型的待测数据中正负样本更加均衡，从而提高排序模型的topN精确率(即第二数量的线上业务数据中预测正确的正样本的数量占比)，进而使得排序模型输出的预测结果中第二数量的线上业务数据包括更多的正样本，确保排序模型的预测结果更加准确。

图1为本申请实施例提供的数据排序方法的第一种流程示意图，图1中的方法是可以由预设服务端执行，如图1所示，该方法至少包括以下步骤：

S102，获取目标业务的第一业务数据集；其中，第一业务数据集包括多个线上业务数据，每个线上业务数据包括多个特征维度对应的特征值，每个特征维度包括多个特征类别；

具体的，上述第一业务数据集包括在预设时间段内，目标业务的真实业务流量所产生的多个线上业务数据；例如，第一业务数据集可以是投诉业务的真实业务流量所产生的多个线上业务数据；也可以是咨询业务的真实业务流量所产生的多个线上业务数据。

其中，上述线上业务数据可以是在目标业务下，针对一个业务请求所生成的用户特征数据；例如，线上业务数据可以是在催收投诉业务下，针对一个业务催收请求所生成的催收用户特征数据(即催收投诉业务的真实业务流量所产生的催收用户特征数据)；也可以是在咨询业务下，针对一个业务咨询请求所生成的咨询用户特征数据(即咨询业务的真实业务流量所产生的咨询用户特征数据)。

其中，上述用户特征数据包括从用户的行为数据中提取出的多个特征维度分别对应的用户属性信息(即某一特征维度对应的特征值)，其中，每个特征维度从不同角度反映了发起业务请求的用户的行为特征；例如，特征维度可以为性别特征维度，对应的，特征值为男性或者女性；又如，特征维度可以为年龄特征维度，对应的，特征值为用户的年龄，再如，特征维度可以为职业特征维度，对应的，特征值为用户的职业。

S104，针对每个特征维度，在特征维度的目标特征类别下的多个线上业务数据中，选取第一数量的线上业务数据；

其中，每个特征维度包括多个特征类别，每个线上业务数据中的每个特征值在其对应的特征维度下属于其中一个特征类别，进一步的，针对每个特征维度，可以根据特征值的不同，将第一业务数据集中的多个线上业务数据划分至不同的特征类别，即每个特征维度下的每个特征类别均可以包括多个线上业务数据；然后在某一特征维度的目标特征类别下选取第一数量的线上业务数据。

其中，上述目标特征类别是某一特征维度下的多个特征类别中目标精确率满足预设条件的特征类别，目标精确率用于表征在第一数量中预测正确的正样本的数量占比；具体的，某一特征维度下的每个特征类别对应于一个目标精确率，可以在某一特征维度下的多个特征类别中，将目标精确率最大值对应的特征类别作为目标特征类别，即每个特征维度对应于一个目标特征类别；也可以将排序前n位的目标精确率对应的特征类别作为目标特征类别，即每个特征维度对应于多个目标特征类别；在具体实施时，每个特征维度对应的目标特征类别是在排序模型的训练过程中确定的，分别确定某一特征维度下的多个特征类别分别对应的目标精确率，再基于各特征类别对应的目标精确率，确定目标精确率满足预设条件的特征类别作为目标特征类别；然后，在排序模型的使用过程中，先针对每个特征维度，选取该特征维度的目标特征类别下的第一数量的线上业务数据，以便后续将针对各特征维度所选取的第一数量的线上业务数据，作为排序模型的输入数据。

例如，以特征维度为性别为例，该特征维度下可以包括两个特征类别，即男性和女性，将第一业务数据集中性别特征维度对应的特征值为男性的线上业务数据，确定为特征类别为男性下的多个线上业务数据，对应的，将第一业务数据集中性别特征维度对应的特征值为女性的线上业务数据，确定为特征类别为女性下的多个线上业务数据；若性别维度下女性类别对应的目标精确率1高于男性类别对应的目标精确率2的情况下，可以将性别维度下女性类别确定为性别维度对应的目标特征类别。

又如，以特征维度为年龄为例，该特征维度下可以包括多个特征类别，即按照预设年龄间隔将年龄区间划分为多个子区间，每个子区间对应于一个特征类别，如，年龄为16至25岁作为特征类别1，年龄为26至35岁作为特征类别2，年龄为36至45岁作为特征类别3，依次类推，然后，将第一业务数据集中年龄特征维度对应的特征值为16至25的线上业务数据，确定为特征类别1下的多个线上业务数据，对应的，将第一业务数据集中年龄特征维度对应的特征值为26至35的线上业务数据，确定为特征类别2下的多个线上业务数据，对应的，将第一业务数据集中年龄特征维度对应的特征值为36至45的线上业务数据，确定为特征类别3下的多个线上业务数据；若年龄维度下特征类别2对应的目标精确率2高于特征类别1对应的目标精确率1，且高于特征类别3对应的目标精确率3的情况下，可以将年龄维度下特征类别2确定为年龄维度对应的目标特征类别。

具体的，在针对某一特征维度，确定出该特征维度的目标特征类别下的多个线上业务数据之后，在各特征维度对应的目标特征类别下的多个线上业务数据中，分别选取第一数量的线上业务数据，例如，以特征维度为性别，且目标特征类别为女性为例，则在特征类别为女性下的多个线上业务数据中，选取第一数量的线上业务数据；又如，以特征维度为年龄，且目标特征类别为26至35岁年龄段为例，则在特征类别为26至35岁下的多个线上业务数据中，选取第一数量的线上业务数据；其中，由于目标特征类别可以是某一特征维度下的多个特征类别中目标精确率比较高的特征类别，且目标精确率用于表征在第一数量中预测正确的正样本的数量占比，以目标业务为投诉业务为例，正样本可以是如果未及时响应其提交的预设诉求，将会发起投诉的用户，负样本可以是如果未及时响应其提交的预设诉求，将不会发起投诉的用户，因此第一数量中预测正确的正样本的数量占比可以表征选取的第一数量中如果未及时响应其提交的预设诉求，将会发起投诉的用户(即真正需要及时安抚的催收用户)的数量的多少。

S106，基于第一数量的线上业务数据，确定第二业务数据集；

具体的，考虑到选取出的线上业务数据中可能存在重复数据的情况，先对针对各特征维度分别选取出的第一数量的线上业务数据进行预处理，得到第二业务数据集，其中，该预处理可以是去重处理、标准化处理中至少一项，并将该第二业务数据集确定为输入至预先训练的排序模型的待排序数据。

具体的，假设特征维度包括性别维度和年龄维度，其中，性别维度下的目标特征类别为男性，年龄维度下的目标特征类别为20岁至30岁；在性别维度的男性类别下包含的多个线上业务数据中，选取第一数量的第一线上业务数据，以及在年龄维度的20岁至30岁区间下包含的多个线上业务数据中，选取第一数量的第二线上业务数据；然后，对第一线上业务数据和第二线上业务数据进行预处理，将预处理后的第一线上业务数据和第二线上业务数据确定为第二业务数据集，并将该第二业务数据集确定为输入至预先训练的排序模型的待排序数据。

S108，将上述第二业务数据集输入至预先训练的排序模型中，得到各线上业务数据的排序结果；

S110，基于上述排序结果选取第二数量的线上业务数据对应的业务事件作为待处理的目标业务事件；

其中，上述排序模型是基于目标训练样本集训练得到的，该目标训练样本集包括：针对各特征维度在第一训练样本集中分别选取的目标训练样本，第一训练样本集包括多个模型训练样本，目标训练样本包括：某一特征维度的目标特征类别下的第三数量的模型训练样本。

具体的，在确定出第二业务数据集后，将第二业务数据集中的多个线上业务数据输入至预先训练的排序模型，排序模型基于该多个线上业务数据，对多个线上业务数据对应的多个业务事件进行排序，输出相应的排序结果，选取排序结果中排序靠前的第二数量的业务事件作为待处理的目标业务事件，即选取第二业务数据集中topN的线上业务数据对应的业务事件作为待处理的目标业务事件。

例如，上述目标业务为投诉业务，将第二业务数据集中的多个用户的用户特征数据输入至预先训练的排序模型，排序模型基于该多个用户特征数据，对该多个用户特征数据对应的多个用户进行排序，输出相应的排序结果，选取排序结果中排序靠前的第二数量的用户的业务请求作为待处理的目标业务事件，即选取第二业务数据集中topN的用户对应的业务请求作为待处理的目标业务事件，也即及时处理第二业务数据集中预测为正样本且排序前topN的用户的业务请求。

具体的，针对排序模型的训练过程，上述第一训练样本集包括多个模型训练样本，该模型训练样本可以是正样本，也可以是负样本，其中，正样本的数量小于第一预设阈值，负样本的数量大于第二预设阈值，第二预设阈值远大于第一预设阈值，即第一训练样本集中负样本的数量远大于正样本的数量，存在正负样本不均衡的问题，因此，直接使用第一训练样本集对排序模型的模型参数进行训练，会导致训练得到的排序模型的topN精确率低的问题，因此，通过先针对每个特征维度，在第一训练样本集中，选取该特征维度对应的目标特征类别下的第三数量的模型训练样本作为目标训练样本，以使针对每个特征维度所选取的目标训练样本中均包含更多的正样本，从而使得用于训练排序模型的目标训练样本集中的正负样本更加均衡，进而提升排序模型的topN精确率。

对应的，针对排序模型的预测过程，上述第一业务数据集包括多个线上业务数据，第一业务数据集中同样会存在正负样本不均衡的问题，因此，通过先针对每个特征维度，在第一业务数据集中，选取该特征维度对应的目标特征类别下的第一数量的线上业务数据，再基于针对各特征维度所选取的第一数量的线上业务数据生成第二业务数据集，以使第二业务数据集中包含更多的正样本，从而使输入至排序模型进行排序的第二业务数据集中的正负样本均衡，进而提升排序模型的topN精确率。

在具体实施时，预先基于在第一训练样本集中各特征维度分别对应的目标特征类别下选取出多个模型训练样本作为目标训练样本，并利用该目标训练样本对排序模型进行训练，得到预先训练的排序模型之后，再利用预先训练的排序模型，对第二业务数据集中的多个线上业务数据进行排序，确定相应的排序结果，并基于排序结果选取第二数量的线上业务数据对应的业务事件作为待处理的目标业务事件。

本申请实施例中，在第一业务数据集中的正负样本不均衡的情况下，即若负样本的数量远高于正样本的情况，针对排序模型的使用过程中，并非直接将第一业务数据集作为排序模型的输入数据，而是先在每个特征维度的目标特征类别下选取第一数量的线上业务数据，并基于针对多个特征维度分别选取的第一数量的线上业务数据确定第二业务数据集，再将该第二业务数据集输入至预先训练的排序模型，然后，利用该排序模型对第二业务数据集中的多个线上业务数据排序，以便确定排序靠前的第二数量的待处理的目标业务事件，其中，由于目标精确率能够表征在第一数量中预测正确的正样本的数量占比，因此，目标精确率越高预测正确的正样本的数量越多，这样选取目标精确率满足预设条件的特征类别作为目标特征类别，再在该目标特征类别下选取第一数量的线上业务数据，这样能够确保针对各特征维度选取的第一数量的线上业务数据包含更多的正样本，从而确保输入至排序模型的第二业务数据集中的正负样本的数量更加均衡；并且在排序模型的训练过程中，同样是先在每个特征维度的目标特征类别下选取第三数量的目标训练样本，并基于针对多个特征维度分别选取的第三数量的模型训练样本确定目标训练样本集，再基于目标训练样本集对排序模型进行训练，这样使得在排序模型训练过程中所使用的目标训练样本集与在排序模型使用过程中所输入的第二业务数据集中的数据分布具有较高的相似度，从而使得预先基于目标训练样本集训练得到的排序模型的模型参数，对第二业务数据集的排序结果更加准确，从而能够进一步提升排序模型的topN精确率。

也就是说，本申请提供的实施例中，通过先在每个特征维度的目标特征类别下选取用于预测的线上业务数据集，再将选取的线上业务数据集输入预先训练的排序模型中，以选取排序靠前的第二数量的线上业务数据对应的业务事件作为待处理的目标业务事件，由于目标特征类别对应的目标精确率满足预设条件，且目标精确率能够表征在第一数量的线上业务数据中预测正确的正样本的数量占比，因此在各特征维度的目标特征类别下选取输入至排序模型的线上业务数据，这样能够确保选取出更多的正样本，使得排序模型输出的预测结果中第二数量的线上业务数据也包括更多的正样本，进而提升排序模型的topN精确率(即第二数量的线上业务数据中预测正确的正样本的数量占比)，使排序模型的预测结果更加准确。

其中，针对在每个特征维度的目标特征类别下选取第一数量的线上业务数据的过程，如图2所示，上述S104针对每个特征维度，在特征维度的目标特征类别下的多个线上业务数据中，选取第一数量的线上业务数据，具体包括：

S1042，将每个特征维度的目标特征类别下的多个线上业务数据输入预先训练的识别模型，得到第一预测结果；其中，第一预测结果包括线上业务数据在目标特征类别下的预测概率；

其中，由于上述识别模型的主要作用是预测某一线上业务数据为正样本的概率，因此上述预先训练的识别模型可以是预先训练的分类模型，也可以是预先训练的排序模型，该排序模型用于对每个特征维度的目标特征类别下的多个线上业务数据进行预测，并得到第一预测结果，其中，该排序模型可以是与上述用于对第二业务数据集中的多个线上业务数据进行排序的排序模型为不同的排序模型。

具体的，针对每个特征维度，将该特征维度的目标特征类别下的多个线上业务数据输入至预先训练的识别模型，该识别模型的输出结果可以是第一预测结果，基于该第一预测结果可以确定出预测各线上业务数据为正样本的概率值(即第一预测概率)，该第一预测概率值越大，说明线上业务数据为正样本的可能性越大；例如，仍以目标业务为投诉业务为例，第一预测概率值越大，说明真实用户为正样本的可能性越大，即如果未及时响应其提交的业务诉求，该用户将会发起投诉，因此，需要将该真实用户对应的用户特征数据作为待预测数据输入至排序模型。

S1044，基于各线上业务数据对应的预测概率，选取第一数量的线上业务数据；其中，该第一数量的线上业务数据是对应预测概率排序靠前的线上业务数据。

具体的，针对在每个特征维度的目标特征类别下选取第一数量的线上业务数据的过程，在具体实施时，针对每个特征维度，将特征维度的目标特征类别下的多个线上业务数据输入至预先训练的识别模型，并将该预先训练的识别模型输出的多个线上业务数据分别对应的预测概率确定为第一预测结果，并按照预测概率由高到低的顺序对上述多个线上业务数据进行排序，并选取排序靠前的第一数量的线上业务数据。

在具体实施时，假设特征维度包括性别维度，其中，性别维度下的目标特征类别为男性；具体的，将性别维度的男性类别下的多个线上业务数据输入至预先训练的识别模型中，得到男性类别下的多个线上业务数据分别对应的预测概率(即线上业务数据在目标特征类别下的预测概率)，并按照预测概率由高到低的顺序对男性类别下的多个线上业务数据进行排序，选取排序靠前的第一数量的线上业务数据。

本申请实施例中，利用预先训练的识别模型，对每个特征维度的目标特征类别下多个线上业务数据进行预测，并得到相应的预测概率，以使按照预测概率由高到低的顺序对多个线上业务数据进行排序，选取排序靠前的第一数量的线上业务数据，以使最终输入至排序模型进行排序的线上业务数据中包括更多的正样本，进而提升排序模型的topN精确率。

其中，针对上述排序模型的训练过程，在上述S102，获取目标业务的第一业务数据集之前，还包括：

步骤a，将第一训练样本集输入至预先训练的识别模型，得到第二预测结果；其中，第一训练样本集包括多个模型训练样本，每个模型训练样本包括多个特征维度对应的特征值，第二预测结果包括模型训练样本在对应特征类别下的预测概率；其中，该对应特征类别是指模型训练样本在某一特征维度下的特征值所属的特征类别，以特征维度为性别维度为例，若某一模型训练样本在性别维度下的特征值为男性，则该模型训练样本的对应特征类别为男性类别；每个模型训练样本的预测概率可以认为是该模型训练样本在各特征维度的对应特征类别下的预测概率。

其中，上述第一训练样本集可以是目标业务的历史业务流量所产生的多个历史业务数据，并将该多个历史业务数据作为排序模型的模型训练样本；另外，上述步骤一所用的识别模型可以与上述步骤S1042中所用的识别模型为同一个识别模型。

具体的，将第一训练样本集中的多个模型训练样本输入至预先训练的识别模型，该识别模型的输出结果可以是第二预测结果，基于该第二预测结果可以确定出预测各模型训练样本为正样本的概率值(即第二预测概率)，该第二预测概率值越大，说明模型训练样本为正样本的可能性越大；例如，仍以目标业务为投诉业务为例，第二预测概率值越大，说明模型训练样本集中样本用户为正样本的可能性越大，如果该样本用户的真实标签为正样本，则说明该样本用户因未及时响应其提交的业务诉求而发起了投诉。

步骤b，针对每个特征维度，在该特征维度下的多个特征类别中，基于各模型训练样本对应的预测概率，确定对应特征维度的目标特征类别；其中，目标特征类别对应的目标精确率高于对应特征维度下的其他特征类别对应的目标精确率。

具体的，针对每个特征维度，可以先基于上述第二预测概率，确定各模型训练样本对应的预测标签；再针对该特征维度下的每个特征类别，在该特征类别下的多个模型训练样本中，基于第二预测概率选取第三数量的模型训练样本；然后基于该第三数量的模型训练样本的已知的真实标签和确定出的预测标签，确定各特征类别对应的目标精确率，进而基于各特征类别对应的目标精确率，确定目标精确率满足预设条件的目标特征类别。

步骤c，在目标特征类别下的多个模型训练样本中，选取第三数量的模型训练样本作为多个目标训练样本。

具体的，在基于第一训练样本集确定出各特征维度下的目标特征类别之后，针对每个特征维度，在该特征维度的目标特征类别下包含的多个模型训练样本中，基于各模型训练样本对应的预测概率，选取一定数量的目标训练样本。

步骤d，基于多个特征维度分别对应的目标训练样本，对排序模型进行训练，得到训练的排序模型。

具体的，在针对每个特征维度均选取出第三数量的目标训练样本之后，可以先对多个目标训练样本进行去重处理，将去重后的目标训练样本输入至待训练的排序模型中，然后，利用排序学习方法基于选取出的目标训练样本对预设的排序模型的模型参数进行迭代训练，得到训练的排序模型；其中，利用排序学习方法对排序模型进行训练的过程可以参照已有的排序模型训练过程，在此不再赘述。

具体的，以目标业务为投诉业务为例，将投诉业务的历史业务流量所产生的多个历史业务数据作为模型训练样本，并从中选取第一训练样本集，并将该第一训练样本集输入至预先训练的识别模型，对第一训练样本集中的多个模型训练样本进行预测，得到多个模型训练样本分别对应的预测概率(即第二预测结果)；然后，针对每个特征维度下的每个特征类别，将该特征类别下的多个模型训练样本按照预测概率由高到低的顺序，对多个模型训练样本进行排序，计算该特征类别对应的目标精确率，并将针对特征维度下多个特征类别分别计算出的目标精确率按照由高到低的顺序排序，将目标精确率最高的特征类别、或者目标精确率排在前几位的特征类别，确定为该特征维度下的目标特征类别，使得目标特征类别对应的目标精确率高于特征维度下的其他特征类别对应的目标精确率；再然后，在确定出每个特征维度的目标特征类别后，在每个特征维度的目标特征类别下的多个模型训练样本中，选取预测概率排序靠前的第三数量的模型训练样本作为多个目标训练样本，最后，基于选取出的多个目标训练样本训练得到训练后的排序模型。

本申请实施例中，首先利用预先训练的识别模型对第一训练样本进行预测，并基于预测结果在每个特征维度的多个特征类别中选取出目标精确率高于其他特征类别对应的目标精确率的特征类别作为目标特征类别，并从目标特征类别下的多模型训练样本中选取用于训练排序模型的目标训练样本，利用目标训练样本对排序模型进行训练，而不是直接基于所有模型训练样本对排序模型进行训练，进而能够提升训练的排序模型的topN精确率。

其中，针对在排序模型训练过程中，确定各特征维度的目标特征类别的过程，具体的，上述步骤b，在特征维度下的多个特征类别中，基于各模型训练样本对应的预测概率，确定对应特征维度的目标特征类别，具体包括：

步骤b1，针对特征维度下的每个特征类别，基于特征类别下的多个候选训练样本的预测概率，对多个候选训练样本进行排序，得到第一排序结果；其中，候选训练样本为第一训练样本集中的一个模型训练样本。

具体的，在利用识别模型分别确定各候选训练样本的预测概率之后，可以按照预测概率由大到小的顺序，对多个候选训练样本进行排序，以便后续将第一排序结果作为从多个候选训练样本中选取用于确定目标精确率的候选训练样本的选取依据。

步骤b2，从多个候选训练样本中，基于上述第一排序结果，选取排序靠前的第三数量的候选训练样本。

具体的，针对某一特征维度下的每个特征类别，在该特征类别下的多个候选训练样本中，选取预测概率排序靠前的第三数量的候选训练样本，然后将该第三数量的候选训练样本作为确定各特征类别的目标精确率的分析对象。

步骤b3，基于第三数量的候选训练样本的真实标签和预测标签，确定特征类别对应的目标精确率。

其中，上述真实标签是已知的，真实标签可以是正样本或负样本，上述预测标签是基于预测概率确定的，例如，预测概率大于预设概率阈值，则确定预测标签为正样本，预测概率不大于预设概率阈值，则确定预测概率为负样本。

具体的，可以先基于某一特征类别下的候选训练样本的真实标签和预测标签，确定针对该特征类别所选取的第三数量的候选训练样本中预测正确的正样本的数量，将该预测正确的正样本的数量与第三数量的比值确定为该特征类别对应的目标精确率。

步骤b4，基于特征维度下的多个特征类别对应的目标精确率，确定对应特征维度的目标特征类别。

具体的，可以将某一特征类别下目标精确率最大值对应的特征类别确定为目标特征类别，也可以将某一特征类别下目标精确率排在前几位的特征类别确定为目标特征类别，可以根据具体实际需求进行设定。

在具体实施时，在针对特征维度下的每个特征类别，基于特征类别下的多个候选训练样本的预测概率，对多个候选训练样本进行排序，得到第一排序结果之前，还需要针对第一训练样本集中的每个模型训练样本，基于该模型训练样本中多个特征维度对应的特征值，将该模型训练样本划分到各特征维度下的某一特征类别下，进而针对每个特征维度，确定该特征维度下各特征类别分别包含的多个模型训练样本，并将其确定为该特征类别下的多个候选训练样本。

具体的，以目标业务为投诉业务，且特征维度包括性别维度为例，其中，第一训练样本集为投诉业务的历史业务流量所产生的多个历史业务数据，即候选训练样本为投诉业务的历史业务流量所产生的一个历史业务数据，其中，每个候选训练样本对应于一个用户，每个候选训练样本的真实标签可以为因未及时响应其业务诉求而发起投诉的用户(即正样本)，或者为虽然未及时响应其业务诉求但未发起投诉的用户(即负样本)；性别维度下包括两个特征类别，分别为男性类别和女性类别。

其中，针对性别维度下的男性类别，基于男性类别下的多个候选训练样本的预测概率，对多个候选训练样本由高到低进行排序，得到男性类别下的第一排序结果；并从多个候选训练样本中，基于男性类别下的第一排序结果，选取排序靠前的第三数量的候选训练样本；以及基于第三数量的候选训练样本的真实标签和预测标签，确定特征类别对应的目标精确率；其中，预测标签是基于候选训练样本对应的第二预测概率确定的，当第二预测概率大于预设概率阈值时，候选训练样本对应的预测标签为正样本，当第二预测概率不大于预设概率阈值时，候选训练样本对应的预测标签为负样本；具体的，将真实标签与预测标签均为正样本的候选训练样本在第三数量的候选训练样本中的占比确定为男性类别下的目标精确率。

其中，针对性别维度下的女性类别，基于女性类别下的多个候选训练样本的预测概率，对多个候选训练样本由高到低进行排序，得到女性类别下的第一排序结果；并从多个候选训练样本中，基于女性类别下的第一排序结果，选取排序靠前的第三数量的候选训练样本；以及基于第三数量的候选训练样本的真实标签和预测标签，确定特征类别对应的目标精确率；其中，预测标签是基于候选训练样本对应的第二预测概率确定的，当第二预测概率大于预设概率阈值时，候选训练样本对应的预测标签为正样本，当第二预测概率不大于预设阈值时，候选训练样本对应的预测标签为负样本；具体的，将真实标签与预测标签均为正样本的候选训练样本在第三数量的候选训练样本中的占比确定为女性类别下的目标精确率。

具体的，基于性别维度下的男性类别对应的目标精确率和女性类别对应的目标精确率，确定性别维度下的目标特征类别，具体的，若男性类别对应的目标精确率高于女性类别对应的目标精确率(即男性类别下的候选训练样本中的正样本可能会高于女性类别下的候选训练样本中的正样本的数量)，则将男性类别确定为性别维度下的目标特征类别；若女性类别对应的目标精确率高于男性类别对应的目标精确率(即女性类别下的候选训练样本中的正样本可能会高于男性类别下的候选训练样本中的正样本的数量)，则将女性类别确定为性别维度下的目标特征类别。

在具体实施时，上述步骤b4，基于特征维度下的多个特征类别对应的目标精确率，确定对应特征维度的目标特征类别，可以包括：

基于任一特征维度下的多个特征类别对应的目标精确率，确定目标精确率最大值对应的特征类别；将确定出的特征类别确定为特征维度的目标特征类别。

本申请提供的实施例中，针对每个特征维度，均选取目标精确率高的特征类别作为目标特征类别，并从该目标特征类别下的多个模型训练样本中选取用于训练排序模型的目标训练样本，进而提升排序模型的topN精确率。

进一步的，由于无论在排序模型的使用过程中，还是在排序模型的训练过程中，均需要利用预先训练的识别模型对线上业务数据或模型样本数据进行预测，得到相应的预测概率，以便基于该预测概率执行后续的处理过程，因此，需要预先训练得到识别模型，具体的，针对识别模型的训练过程，在上述步骤a，将第一训练样本集输入至预先训练的识别模型，得到第二预测结果之前，还包括：

步骤一，获取目标业务的第二训练样本集；其中，第二训练样本集包括多个模型训练样本。

其中，上述第二训练样本集和第一训练样本集可以相同，也可以不同，针对目标业务下的历史业务数据比较少的情况下，为了确保训练样本集中模型训练样本的充足，优选地，第二训练样本集和第一训练样本集相同；而针对目标业务下的历史业务数据比较多的情况下，第二训练样本集和第一训练样本集中的模型训练样本可以是部分或全部不同。

步骤二，基于第二训练样本集，对预设的分类模型进行训练，得到训练的分类模型；其中，预设的分类模型可以是二分类模型。

其中，由于分类模型的侧重点在于对待测数据进行分类，分类模型的预测准确度受正负样本不均衡的影响较小，而排序模型的侧重点在于对待测数据进行排序，分类模型的预测准确度受正负样本不均衡的影响较大，为了提高目标特征类别的确定准确度，以及提高第一数量的线上业务数据的选取准确度，优选地，将分类模型作为识别模型；在具体实施时，分类模型可以是提升树模型XGBoost或者逻辑回归模型LR。

具体的，将第二训练样本集中的多个模型训练样本输入至预设的分类模型中，利用机器学习方法基于第二训练样本集对预设的分类模型的模型参数进行迭代训练，得到训练的分类模型；其中，利用机器学习方法对分类模型进行训练的过程可以参照已有的分类模型训练过程，在此不再赘述。

步骤三，将训练的分类模型确定为预先训练的识别模型；其中，该识别模型都可以用于对线上业务数据进行预测输出相应的第一预测概率，或者用于对模型训练样本进行预测输出相应的第二预测概率。

具体的，仍以目标业务为投诉业务为例，获取投诉业务的历史业务流量所产生的多个历史业务数据(即多个模型训练样本)，并从多个模型训练样本中确定第二训练样本集；利用机器学习方法基于第二训练样本集，对预设的分类模型进行训练，得到训练的分类模型，并将模型参数迭代更新后的分类模型确定为预先训练的识别模型，以使该预先训练的识别模型可以对投诉业务的真实业务流量所产生的线上业务数据进行识别，以得到用于表征用户为正样本的预测概率，或者输出用于表征用户为负样本的预测概率。

本申请提供的实施例中，通过预先对识别模型进行训练，进而可以利用训练后的识别模型对第一训练样本集进行预测，以使可以从每个特征维度的多个特征类别中，基于候选训练样本的预测概率，确定每个特征维度中目标精确率高的目标特征类别，并从目标特征类别下的多个候选训练样本中选取用于训练排序模型的目标训练样本，进而提升排序模型的topN精确率。

进一步的，为了提高预先训练的排序模型的排序准确度，因此，在基于第一训练样本集对排序模型进行训练之后，还可以增加对排序模型的指标进行评估的过程，以确保用于对线上业务数据进行排序的排序模型的topN精确率符合预设要求，基于此，在上述步骤d，利用排序学习方法并基于多个特征维度分别对应的目标训练样本，对排序模型进行训练，得到训练的排序模型之后，还包括：

步骤e，获取目标业务的测试样本集；其中，该测试样本集包括多个模型测试样本，每个模型测试样本包括多个特征维度对应的特征值。

步骤f，基于获取到的测试样本集，对训练的排序模型进行指标评估，得到指标评估结果。

其中，排序模型的评价指标可以包括准确率、召回率和topN精确率中至少一项，对应的，指标评估结果包括准确率、召回率和topN精确率中至少一项的取值。

步骤g，若指标评估结果为通过，则将训练的排序模型确定为最终的训练的排序模型。

具体的，上述测试样本集和第一训练样本集均为投诉业务的历史业务流量所产生的多个历史业务数据，其中，第一训练样本集中模型训练样本对应的历史业务流量的发生时间要早于测试样本集中模型测试样本对应的历史业务流量的发生时间，且第一训练样本集中模型训练样本的数量远大于测试样本集中模型测试样本的数量；例如，第一训练样本集包括第一时间段的多个历史业务数据，测试样本集包括第二时间段的多个历史业务数据，其中，第一时间段早于第二时间段，且第一时间段的时长大于第二时间段，以确保第一时间段内采集的历史业务数据多于第二时间段内采集的历史业务数据。

在具体实施时，仍以目标业务为投诉业务为例，获取投诉业务的历史业务流量所产生的多个历史业务数据，并将其确定为测试样本集；其中，测试样本集包括多个模型测试样本，每个模型测试样本包括多个特征维度对应的特征值；以评价指标为目标精确率为例，其中，针对排序模型而言，目标精确率可以是topN精确率，具体的，基于获取到的测试样本集，对训练的排序模型进行目标精确率的评估(即指标评估)，得到目标精确率的评估结果(即指标评估结果)；若训练的排序模型的topN精确率大于预设阈值，则确定指标评估结果为通过，则将该训练的排序模型确定为最终训练的排序模型；若训练的排序模型的topN精确率小于或等于预设阈值，则确定指标评估结果为不通过，则重新执行上述排序模型的训练过程，直到训练后的排序模型的评价指标符合预设要求。

进一步的，以评价指标为目标精确率为例，针对排序模型的精确率指标评估的过程，上述步骤f，基于获取到的测试样本集，对训练的排序模型进行指标评估，得到指标评估结果，具体包括：

步骤f1，将测试样本集中的多个模型测试样本输入至预先训练的识别模型中，得到第三预测结果；其中，第三预测结果包括模型测试样本在对应特征类别下的预测概率；其中，该对应特征类别是指模型测试样本在某一特征维度下的特征值所属的特征类别，以特征维度为性别维度为例，若某一模型测试样本在性别维度下的特征值为男性，则该模型测试样本的对应特征类别为男性类别；每个模型测试样本的预测概率可以认为是该模型测试样本在各特征维度的对应特征类别下的预测概率。

其中，上述测试样本集可以是目标业务在第二时间段内的历史业务流量所产生的多个历史业务数据，并将该多个历史业务数据作为用于评价排序模型的指标质量的测试样本；另外，排序模型的指标评估过程所用的识别模型可以与上述排序模型的训练过程中所用的识别模型为同一个识别模型。

具体的，将测试样本集中的多个模型测试样本输入至预先训练的识别模型，该识别模型的输出结果可以是第三预测结果，基于该第三预测结果可以确定出预测各模型测试训练样本为正样本的概率值(即第三预测概率)，该第三预测概率值越大，说明模型测试样本为正样本的可能性越大；例如，仍以目标业务为投诉业务为例，第三预测概率值越大，说明样本用户为正样本的可能性越大，如果该样本用户的真实标签为正样本，则说明该催收样本用户因未及时响应其提交的业务诉求而发起了投诉。

步骤f2，针对每个特征维度，在特征维度的多个特征类别中，基于各模型测试样本对应的预测概率，确定对应特征维度的目标特征类别；其中，目标特征类别对应的目标精确率高于该对应特征维度下的其他特征类别对应的目标精确率。

具体的，针对每个特征维度，可以先基于上述第三预测概率，确定各模型测试样本对应的预测标签，其中，若第三预测概率大于预设概率阈值，则确定模型测试样本对应的预测标签为正样本，当第三预测概率不大于预设概率阈值时，定模型测试样本对应的预测标签为负样本；再针对该特征维度下的每个特征类别，基于该特征类别下的多个候选测试样本的第三预测概率，对该多个候选测试样本进行排序，得到第二排序结果；基于该第二排序结果，选取该特征类别下第三预测概率排序靠前的第四数量的候选测试样本(即该第四数量的候选测试样本作为确定各特征类别的目标精确率的分析对象)；然后基于该第四数量的候选测试样本的已知的真实标签和确定出的预测标签，确定各特征类别对应的目标精确率，进而基于各特征类别对应的目标精确率，确定目标精确率满足预设条件的目标特征类别，其中，目标特征类别可以是目标精确率最大值对应的特征类别，也可以是目标精确率排序几位的特征类别。

其中，基于测试样本集对排序模型进行指标评估的过程中，针对每个特征维度确定的第一目标特征类别，以及基于第一训练样本集对排序模型进行训练的过程中，针对每个特征维度确定的第二目标特征类别，由于测试样本集与第一训练样本集中包含不同的样本数据，因此，该第一目标特征类别和第二目标特征类别可能相同，也可能不同，然而，在预先训练的识别模型的预测准确度满足预设要求时，第一目标特征类别通常与第二目标特征类别是相同的，这样在某种程度上也反映了用预先训练的识别模型的预测准确度。

步骤f3，在目标特征类别下的多个模型测试样本中，选取第四数量的模型测试样本作为多个目标测试样本。

具体的，在基于测试样本集确定出各特征维度对应的目标特征类别(即上述第二目标特征类别)后，针对每个特征维度，在该特征维度的目标特征类别下包含的多个模型测试样本中，基于各模型测试样本对应的预测概率，选取一定数量的目标测试样本。

步骤f4，将多个特征维度分别对应的目标测试样本输入至训练的排序模型中，得到第四预测结果。

具体的，在针对每个特征维度分别确定出对应的多个目标测试样本后，可以先对多个目标测试样本进行去重处理，将去重后的多个目标测试样本输入至已训练的排序模型，该排序模型的输出结果可以是第四预测结果，基于该第四预测结果可以确定出预测各目标测试样本为正样本的概率(即第四预测概率)，该第四预测概率值越大，说明利用已训练的排序模型对目标测试样本进行预测是，预测目标测试样本为正样本的可能性越大；例如，仍以目标业务为投诉业务为例，第四预测概率值越大，说明样本用户为正样本的可能性越大，如果该样本用户的真实标签为正样本，则说明该样本用户因未及时响应其提交的业务诉求而发起了投诉。

步骤f5，基于上述第四预测结果，确定排序模型的目标精确率，以及将目标精确率确定为指标评估结果；其中，针对需要取出最Top的前N个目标对象作为待处理的目标对象的应用场景，例如，由于人力有限，需要从众多业务事件中选取前topN个业务事件作为待处理的目标业务事件的情况，此时仅关注排序模型的topN精确率，因此，上述目标精确率可以称为topN精确率。

其中，由于利用排序模型对线上业务数据进行排序时，关注的topN精确率是针对在第一数量的线上业务数据中预测正确的正样本的数量而言的，因此，排序模型的指标评估时也需要关注在第一数量的目标测试样本中预测正确的正样本的数量，具体的，先基于上述第四预测结果中各目标测试样本的预测概率(即第四预测概率)，按照第四预测概率由大到小的顺序，选取第一数量的目标测试样本；然后，基于第一数量的目标测试样本的预测概率，确定目标测试样本的预测标签；再基于第一数量的目标测试样本的已知的真实标签和确定出的预测标签，确定排序模型的目标精确率；其中，该目标精确率为在第一数量的目标测试样本中预测正确的正样本的数量与第一数量的比值。

本申请提供的实施例中，在基于第一训练样本集对排序模型进行训练之后，还增加了基于测试样本集对排序模型的指标进行评估的过程，以确保用于对线上业务数据进行排序的排序模型的topN精确率符合预设要求，以使排序模型的topN精确率更加准确。

需要说明的是，上述排序模型的指标评估的具体实现过程可以参照上述排序模型的训练过程，重复之处不再赘述。

在具体实施时，在上述第二数量为topN的情况下，可以将上述第一数量、第三数量和第四数量设置为topN，但是考虑到第二业务数据集是通过对多个特征维度对应的第一数量的线上业务数据进行去重处理后得到的，针对特征维度的数量比较多的情况，可能导致第二业务数据集中包含的线上业务数据的数量比较多，因此，为了进一步确保第二业务数据集中的正负样本更加均衡，可以将上述第一数量、第三数量和第四数量设置为topN/M；其中，M为一个自然数，可以根据实际需求进行设定，M可以是在排序模型的训练阶段所确定的，即在排序模型的训练过程中，针对M取不同的数值，对排序模型进行训练，以及对训练后的排序模型进行指标评估，基于多个M值分别对应的模型评估结果，在多个M值对应的目标精确率中，将目标精确率最大值时所需的M值确定为最终的M的取值。

在具体实施时，以排序模型的使用过程为例，具体的，topN是指上述第二数量；topN/M是指上述第一数量；其中，考虑到需要针对每个特征维度均选取一定数量的线上业务数据，并基于针对所有特征维度所选取出的线上业务数据确定第二业务数据集，因此，为了使得用于预测的第二业务数据集中线上业务数据的数量不至于过多，且更加接近于topN，从而提高排序模型的准确度，因此，可以根据实际需求调整参数M，使得可以基于实际需求调整选取的第一数量。

进一步的，考虑到多个特征维度分别对应的第一数量的线上业务数据中可能包括重复的线上业务数据，因此，需要对重复的线上业务数据进行去重处理，基于此，上述S106，基于多个特征维度分别对应的第一数量的线上业务数据，确定第二业务数据集，具体包括：

对多个特征维度分别对应的第一数量的线上业务数据进行去重处理，得到第二业务数据集。

具体的，针对每个特征维度，在特征维度的目标特征类别下的多个线上业务数据中，选取出排序靠前的第一数量的线上业务数据后，从多个特征维度分别对应的第一数量的线上业务数据中筛选出相同的线上业务数据，针对每一组相同的线上业务数据均保留一个线上业务数据，并与不重复的线上业务数据一起组成第二业务数据集。

本申请实施例中，在基于多个特征维度分别对应的第一数量的线上业务数据，确定用于预测的第二业务数据集时，将重复的线上业务数据进行去重处理，以提升第二业务数据集，进而提升模型预测的准确性。

进一步的，每个特征维度下的多个特征类别是基于特征值确定的，考虑到在不同的特征维度下，特征值的数据类型可能不同，因此在确定各特征维度下的多个特征类别时需要采用不同的方式，基于此，在上述步骤b，针对每个特征维度，在特征维度下的多个特征类别中，基于各模型训练样本对应的预测概率，确定对应特征维度的目标特征类别之前，还包括：

若特征维度的特征值为连续型数据，则基于特征值的取值范围和特征维度对应的属性特征信息，确定该特征维度的多个特征类别；

若特征维度的特征值为离散型数据，则基于特征值的取值分类，确定该特征维度的多个特征类别。

具体的，若第一特征维度的特征值为连续型数据，例如特征维度为年龄维度，特征值为年龄，则特征值的取值范围可以为0至100，特征维度对应的属性特征信息为年龄信息，此时可以采用对连续型数据进行分箱的方式，将年龄的取值范围划分为不同的年龄区间，并将划分好的多个年龄区间，确定为年龄维度下的多个特征类别，例如，若将年龄的取值范围平均划分为五个年龄区间，则年龄维度下包括五个特征类别，分别为0岁至20岁、20岁至40岁、40岁至60岁、60岁至80岁、以及80岁至100岁。

具体的，若第二特征维度的特征值为离散型数据，例如特征维度为性别维度，特征值包括男性和女性，则可以将特征值的取值分为两类，并确定性别维度下的两个特征类别分别为男性类别和女性类别。

本申请实施例中，针对不同数据类型的特征值，可以采用不同的方式确定各特征维度下的多个特征类别，以提升不同特征维度下特征类别划分的灵活性。

进一步的，在针对每个特征维度选取第一数量的线上业务数据的过程中，考虑到各特征维度的权重系数，能够表征各特征维度的重要性，因此，特征维度重要性越高，针对该特征维度所选取出的线上业务数据的第一数量的取值越大，这样能够提高输入至排序模型的待排序的多个线上业务数据的准确度，基于此，在上述S1044，基于各线上业务数据对应的预测概率，选取第一数量的线上业务数据之前，还包括：

步骤一，基于预先训练的识别模型的模型参数信息，确定各特征维度对应的权重系数。

其中，上述各特征维度对应的权重系数是基于在针对识别模型进行模型参数的训练过程中学习到的各特征维度对应的特征权重的取值所确定的，其中，各特征维度对应的特征权重的取值能够表征特征维度的重要性。

具体的，假设每个线上业务数据中包含的特征维度的数量为z个，对应的，上述模型训练样本和模型测试样本也包含z个特征维度，以预先训练的识别模型为线性逻辑回归模型为例，Y_n＝θ^T＝θ_0nX₀+θ_1nX₁+...+θ_z-1nX_z-1，其中，θ_0n至θ_z-1n表示预先训练的识别模型的模型参数信息，即θ_z-1n表示第z个特征维度对应的特征权重(即针对识别模型进行模型参数的训练过程中学习到的第z个特征维度的特征权重的取值，该特征权重的取值表征第z个特征维度的重要性，特征权重的取值越大则第z个特征维度的重要性越高)，n表示线上业务数据的标识，Y_n表示第n个线上业务数据的预测结果，X₀至X_z-1表示多个特征维度对应的特征值；

在具体实施时，基于针对上述识别模型进行模型参数训练得到的θ_0n至θ_z-1n，确定第1个特征维度至第z+1个特征维度对应的权重系数A₀至A_z-1；具体的，若θ_0n至θ_z-1n均位于预设数值区间，该预设数值区间为【1-a，1+a】，0＜a＜b，b的取值可以是0.5，其中，0.5可以根据实际需求进行设置，即第1个特征维度至第z+1个特征维度的特征权重的取值均在1附近，则将θ_0n至θ_zn确定为第1个特征维度至第z个特征维度的权重系数A₀至A_z-1；

对应的，若θ_0n至θ_zn中至少一项不位于预设数值区间，则先基于公式

计算得到处理后的θ_0n至θ_zn，其中，E表示θ_0n至θ_zn的均值，S表示θ_0n至θ_zn的标准差，θ_jn表示任一项特征权重，将处理后的θ_0n至θ_zn确定为第1个特征维度至第z个特征维度的权重系数A₀至A_z-1。

步骤二，针对每个特征维度，基于该特征维度对应的权重系数和第二数量，确定该特征维度对应的第一数量；其中，第一数量与特征维度的权重系数成正比。

具体的，在考虑各特征维度对应的权重系数的情况下，若第二数量为topN，则可以将第一数量设置为权重系数与topN的乘积，例如，针对第z个特征维度而言，对应的第一数量为A_z-1与topN的乘积；但是同样考虑到第二业务数据集是通过对多个特征维度对应的第一数量的线上业务数据进行去重处理后得到的，针对特征维度的数量比较多的情况，可能导致第二业务数据集中包含的线上业务数据的数量比较多，因此，为了进一步确保第二业务数据集中的正负样本更加均衡，若第二数量为topN，则可以将第一数量设置为权重系数与topN/M的乘积，例如，针对第z个特征维度而言，对应的第一数量为A_z-1与topN/M的乘积；其中，M为一个自然数，可以根据实际需求进行设定，M可以是在排序模型的训练阶段所确定的，即在排序模型的训练过程中，针对M取不同的数值，对排序模型进行训练，以及对训练后的排序模型进行指标评估，基于多个M值分别对应的模型评估结果，在多个M值对应的目标精确率中，将目标精确率最大值时所需的M值确定为最终的M的取值。

也就是说，考虑到需要针对每个特征维度均选择第一数量的线上业务数据，为了确保输入至排序模型的第二业务数据集中线上业务数据的数量在预设数量范围内，且考虑到特征维度对应的权重系数不同而导致的特征维度的重要性不同，可以将各特征维度对应的权重系数作为确定各特征维度对应的第一数量的确定过程，具体的，可以基于特征维度对应的权重系数、第二数量和预先确定的M的取值，确定该特征维度对应的第一数量，其中，第一数量与特征维度的权重系数成正比，例如，第一数量可以是topN/M与权重系数的乘积，其中，topN表示第二数量，此时针对不同特征维度而言，对应的第一数量是不同的，因此，针对不同特征维度所选取的第一数量的线上业务数据的数量也是不同的。例如，若特征维度A对应的权重系数高于特征维度B对应的权重系数，则特征维度A的重要性较高，因此，在特征维度A的目标特征类别和特征维度B的目标特征类别中选取第一数量的线上业务数据时，特征维度A对应的第一数量可以大于特征维度B对应的第一数量。

另外，需要说明的是，针对排序模型的训练过程和排序模型的指标评估过程，同样涉及第三数量和第四数量的确定过程，对应的，上述第三数量和第四数量的取值可以参照上述第一数量的取值方式，在此不再赘述。

在本申请提供的实施例中，在确定每个特征维度对应的第一数量的过程中，考虑了各特征维度的权重系数，并且该权重系数是基于在针对识别模型进行模型参数的训练过程中学习到的各特征维度的权重大小，其中，由于该权重大小能够表征各特征维度的重要性，因此，使得特征维度重要性越高，针对该特征维度所选取出的线上业务数据的第一数量的取值越大，这样能够提高输入至排序模型的待排序候选对象的准确度。

在一个具体的实施例中，以目标业务为投诉业务为例，上述线上业务数据可以是用户特征数据，上述业务事件可以是用户的业务请求，上述数据排序方法，具体可以包括：

(1)针对上述识别模型的训练过程，以识别模型为分类模型为例，如图3所示，从投诉业务的历史业务数据集合中选取模型训练样本1至模型训练样本c(对应于上述第二训练样本集)，其中，模型训练样本1可以样本用户1的用户特征数据和真实标签之间的对应关系，模型训练样本c可以样本用户c的用户特征数据和真实标签之间的对应关系。

将模型训练样本1至模型训练样本c输入至待训练的分类模型中，利用机器学习方法并基于模型训练样本1至模型训练样本c，对分类模型的模型参数进行迭代训练，得到预先训练的分类模型；其中，预先训练的分类模型的模型参数为分类模型对应的第一目标函数收敛时确定的模型参数。

(2)针对上述排序模型的训练过程，如图4所示，从投诉业务的历史业务数据集合中选取模型训练样本1至模型训练样本d(对应于上述第一训练样本集)，其中，每个模型训练样本包括z个特征维度，特征维度1下包含特征类别11至特征类别1m，即特征维度1下的多个特征类别的数量为m个，特征维度z下包含特征类别z1至特征类别zf，即特征维度z下的多个特征类别的数量为f个。

将模型训练样本1至模型训练样本d输入至预先训练的分类模型中，该分类模型的输出结果包括模型训练样本1至模型训练样本d分别对应的预测概率1至预测概率d(对应于上述第二预测结果)。

针对每个特征维度下的每个特征类别，基于该特征类别下的多个候选训练样本的预测概率，选取预测概率排序靠前的第三数量的候选训练样本；以及基于该第三数量的候选训练样本的真实标签和预测标签，确定该特征类别对应的目标精确率。

针对每个特征维度，将目标精确率最大值对应的特征类别确定为该特征维度下的目标特征类别，例如，特征维度1下的目标特征类别为特征类别11，特征维度z下的目标特征类别为特征类别zf。

针对每个特征维度，在该特征维度对应的目标特征类别下的多个候选训练样本的预测概率，选取预测概率排序靠前的第三数量的目标训练样本，作为该特征维度对应的目标训练样本子集；例如，针对特征维度1所选取的第三数量的候选训练样本即为目标训练样本子集1，针对特征维度z所选取的第三数量的候选训练样本即为目标训练样本子集z。

然后，对目标训练样本子集1至z中的多个模型训练样本进行去重处理，得到目标训练样本集；将目标训练样本集输入至待训练的排序模型中，利用排序学习方法并基于目标训练样本集，对排序模型的模型参数进行迭代训练，得到预先训练的排序模型；其中，预先训练的排序模型的模型参数为排序模型对应的第二目标函数收敛时确定的模型参数。

(3)针对上述排序模型的指标评估过程，如图5所示，从投诉业务的历史业务数据集合中选取模型测试样本1至模型测试样本e(对应于上述测试样本集)，其中，每个模型测试样本同样包括z个特征维度，特征维度1下包含特征类别11至特征类别1m，即特征维度1下的多个特征类别的数量为m个，特征维度z下包含特征类别z1至特征类别zf，即特征维度z下的多个特征类别的数量为f个。

将模型测试样本1至模型测试样本e输入至预先训练的分类模型中，该分类模型的输出结果包括模型测试样本1至模型测试样本e分别对应的预测概率1至预测概率e(对应于上述第三预测结果)。

针对每个特征维度下的每个特征类别，基于该特征类别下的多个候选测试样本的预测概率，选取预测概率排序靠前的第四数量的候选测试样本；以及基于该第四数量的候选测试样本的真实标签和预测标签，确定该特征类别对应的目标精确率。

针对每个特征维度，基于该特征维度对应的目标特征类别下的多个候选测试样本的预测概率，选取预测概率排序靠前的第四数量的目标测试样本，作为该特征维度对应的目标测试样本子集；例如，针对特征维度1所选取的第四数量的目标测试样本即为目标测试样本子集1，针对特征维度z所选取的第四数量的目标测试样本即为目标测试样本子集z。

然后，对目标测试样本子集1至z中的多个模型测试样本进行去重处理，得到目标测试样本集；将目标测试样本集输入至上述预先训练的排序模型中，该排序模型的输出结果包括各目标测试样本的预测概率(对应于上述第四预测结果)。

然后，基于各目标测试样本的预测概率，按照预测概率由大到小的顺序，选取第一数量的目标测试样本；以及，基于第一数量的目标测试样本的预测概率，确定目标测试样本的预测标签；再基于第一数量的目标测试样本的已知的真实标签和确定出的预测标签，确定排序模型的topN精确率；其中，该topN精确率为在第一数量的目标测试样本中预测正确的正样本的数量与第一数量的比值；若topN精确率大于预设阈值，则确定指标评估结果为通过，则将该训练的排序模型确定为最终训练的排序模型；若topN精确率小于或等于预设阈值，则确定指标评估结果为不通过，则重新执行上述排序模型的训练过程，直到训练后的排序模型的评价指标符合预设要求。

(4)针对预先训练的排序模型的使用(预测)过程，如图6所示，获取预设时间段内用户1的用户特征数据1至用户p的用户特征数据p(对应于上述第一业务数据集)，其中，每个用户特征数据同样包括z个特征维度，特征维度1对应的目标特征类别为特征类别11，特征维度z对应的目标特征类别为特征类别zf。

针对每个特征维度，将该特征维度的目标特征类别下的多个用户的用户特征数据输入至预先训练的分类模型中，该分类模型的输出结果包括该多个用户的用户特征数据的预测概率(对应于上述第一预测结果)；例如，针对特征维度1，将特征类别11下的多个用户的用户特征数据输入至预先训练的分类模型中，得到第一预测结果1，又如，针对特征维度z，将特征类别zf下的多个用户的用户特征数据输入至预先训练的分类模型中，得到第一预测结果z。

针对每个特征维度，基于该特征维度对应的目标特征类别下的多个用户的用户特征数据的预测概率，选取预测概率排序靠前的第一数量的用户特征数据，作为该特征维度对应的目标线上数据子集；例如，针对特征维度1所选取的第一数量的用户特征数据即为目标线上数据子集1，针对特征维度z所选取的第一数量的用户特征数据即为目标线上数据子集z。

然后，对目标线上数据子集1至z中的多个用户特征数据进行去重处理，得到第二业务数据集；将第二业务数据集输入至预先训练的排序模型中，利用该排序模型并基于第二业务数据集中的多个用户特征数据，选取第二数量的用户的用户特征数据，将该第二数量的用户的业务请求作为待处理的目标业务事件。

本申请实施例中的数据排序方法，在第一业务数据集中的正负样本不均衡的情况下，即若负样本的数量远高于正样本的情况，针对排序模型的使用过程中，并非直接将第一业务数据集作为排序模型的输入数据，而是先在每个特征维度的目标特征类别下选取第一数量的线上业务数据，并基于针对多个特征维度分别选取的第一数量的线上业务数据确定第二业务数据集，再将该第二业务数据集输入至预先训练的排序模型，然后，利用该排序模型对第二业务数据集中的多个线上业务数据排序，以便确定排序靠前的第二数量的待处理的目标业务事件，其中，由于目标精确率能够表征在第一数量中预测正确的正样本的数量占比，因此，目标精确率越高预测正确的正样本的数量越多，这样选取目标精确率满足预设条件的特征类别作为目标特征类别，再在该目标特征类别下选取第一数量的线上业务数据，这样能够确保针对各特征维度选取的第一数量的线上业务数据包含更多的正样本，从而确保输入至排序模型的第二业务数据集中的正负样本的数量更加均衡；并且在排序模型的训练过程中，同样是先在每个特征维度的目标特征类别下选取第三数量的目标训练样本，并基于针对多个特征维度分别选取的第三数量的模型训练样本确定目标训练样本集，再基于目标训练样本集对排序模型进行训练，这样使得在排序模型训练过程中所使用的目标训练样本集与在排序模型使用过程中所输入的第二业务数据集中的数据分布具有较高的相似度，从而使得预先基于目标训练样本集训练得到的排序模型的模型参数，对第二业务数据集的排序结果更加准确，从而能够进一步提升排序模型的topN精确率。

对应上述图1至图6描述的数据排序方法，基于相同的技术构思，本申请实施例还提供了一种数据排序装置，图7为本申请实施例提供的数据排序装置的模块组成示意图，该装置用于执行图1至图6描述的数据排序方法，如图7所示，该装置包括：

第一获取模块702，用于获取目标业务的第一业务数据集；其中，所述第一业务数据集包括多个线上业务数据，每个所述线上业务数据包括多个特征维度，每个所述特征维度包括多个特征类别；

第一选取模块704，用于针对每个所述特征维度，在所述特征维度的目标特征类别下的多个所述线上业务数据中，选取第一数量的线上业务数据；其中，所述目标特征类别是每个所述特征维度的所述多个特征类别中目标精确率满足预设条件的特征类别，每个所述特征类别对应于一个所述目标精确率，所述目标精确率用于表征在所述第一数量中预测正确的正样本的数量占比；

第一确定模块706，用于基于所述第一数量的线上业务数据，确定第二业务数据集；

排序模块708，用于将所述第二业务数据集输入预先训练的排序模型中，得到所述线上业务数据的排序结果；

第二确定模块710，用于基于所述排序结果选取第二数量的线上业务数据对应的业务事件作为待处理的目标业务事件。

本申请实施例中的数据排序装置，在第一业务数据集中的正负样本不均衡的情况下，即若负样本的数量远高于正样本的情况，针对排序模型的使用过程中，并非直接将第一业务数据集作为排序模型的输入数据，而是先在每个特征维度的目标特征类别下选取第一数量的线上业务数据，并基于针对多个特征维度分别选取的第一数量的线上业务数据确定第二业务数据集，再将该第二业务数据集输入至预先训练的排序模型，然后，利用该排序模型对第二业务数据集中的多个线上业务数据排序，以便确定排序靠前的第二数量的待处理的目标业务事件，其中，由于目标精确率能够表征在第一数量中预测正确的正样本的数量占比，因此，目标精确率越高预测正确的正样本的数量越多，这样选取目标精确率满足预设条件的特征类别作为目标特征类别，再在该目标特征类别下选取第一数量的线上业务数据，这样能够确保针对各特征维度选取的第一数量的线上业务数据包含更多的正样本，从而确保输入至排序模型的第二业务数据集中的正负样本的数量更加均衡；并且在排序模型的训练过程中，同样是先在每个特征维度的目标特征类别下选取第三数量的目标训练样本，并基于针对多个特征维度分别选取的第三数量的模型训练样本确定目标训练样本集，再基于目标训练样本集对排序模型进行训练，这样使得在排序模型训练过程中所使用的目标训练样本集与在排序模型使用过程中所输入的第二业务数据集中的数据分布具有较高的相似度，从而使得预先基于目标训练样本集训练得到的排序模型的模型参数，对第二业务数据集的排序结果更加准确，从而能够进一步提升排序模型的topN精确率。

需要说明的是，本申请中关于数据排序装置的实施例与本申请中关于数据排序方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的数据排序方法的实施，重复之处不再赘述。

进一步地，对应上述图1至图6所示的方法，基于相同的技术构思，本申请实施例还提供了一种数据排序设备，该设备用于执行上述的数据排序方法，如图8所示。

数据排序设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器801和存储器802，存储器802中可以存储有一个或一个以上存储应用程序或数据。其中，存储器802可以是短暂存储或持久存储。存储在存储器802的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对数据排序设备中的一系列计算机可执行指令。更进一步地，处理器801可以设置为与存储器802通信，在数据排序设备上执行存储器802中的一系列计算机可执行指令。数据排序设备还可以包括一个或一个以上电源803，一个或一个以上有线或无线网络接口804，一个或一个以上输入输出接口805，一个或一个以上键盘806等。

在一个具体的实施例中，数据排序设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对数据排序设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

基于所述第一数量的线上业务数据，确定第二业务数据集；

本申请实施例中的数据排序设备，在第一业务数据集中的正负样本不均衡的情况下，即若负样本的数量远高于正样本的情况，针对排序模型的使用过程中，并非直接将第一业务数据集作为排序模型的输入数据，而是先在每个特征维度的目标特征类别下选取第一数量的线上业务数据，并基于针对多个特征维度分别选取的第一数量的线上业务数据确定第二业务数据集，再将该第二业务数据集输入至预先训练的排序模型，然后，利用该排序模型对第二业务数据集中的多个线上业务数据排序，以便确定排序靠前的第二数量的待处理的目标业务事件，其中，由于目标精确率能够表征在第一数量中预测正确的正样本的数量占比，因此，目标精确率越高预测正确的正样本的数量越多，这样选取目标精确率满足预设条件的特征类别作为目标特征类别，再在该目标特征类别下选取第一数量的线上业务数据，这样能够确保针对各特征维度选取的第一数量的线上业务数据包含更多的正样本，从而确保输入至排序模型的第二业务数据集中的正负样本的数量更加均衡；并且在排序模型的训练过程中，同样是先在每个特征维度的目标特征类别下选取第三数量的目标训练样本，并基于针对多个特征维度分别选取的第三数量的模型训练样本确定目标训练样本集，再基于目标训练样本集对排序模型进行训练，这样使得在排序模型训练过程中所使用的目标训练样本集与在排序模型使用过程中所输入的第二业务数据集中的数据分布具有较高的相似度，从而使得预先基于目标训练样本集训练得到的排序模型的模型参数，对第二业务数据集的排序结果更加准确，从而能够进一步提升排序模型的topN精确率。

需要说明的是，本申请中关于数据排序设备的实施例与本申请中关于数据排序方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的数据排序方法的实施，重复之处不再赘述。

进一步地，对应上述图1至图6所示的方法，基于相同的技术构思，本申请实施例还提供了一种存储介质，用于存储计算机可执行指令，一种具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令在被处理器执行时，能实现以下流程：

基于所述第一数量的线上业务数据，确定第二业务数据集；

本申请实施例中的存储介质存储的计算机可执行指令在被处理器执行时，通过在每个特征维度的目标特征类别下选取用于预测的线上业务数据集，由于目标精确率能够表征在第一数量的线上业务数据中预测正确的正样本的数量占比，因此在目标精确率满足预设条件的特征类别(即目标特征类别)下选取输入至排序模型的线上业务数据集，这样能够确保选取出更多的正样本，使得排序模型输出的预测结果中第二数量的线上业务数据也包括更多的正样本，进而提升排序模型的topN精确率(即第二数量的线上业务数据中预测正确的正样本的数量占比)，使排序模型的预测结果更加准确。

需要说明的是，本申请中关于存储介质的实施例与本申请中关于数据排序方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的数据排序方法的实施，重复之处不再赘述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HD Cal、JHDL(Java Hardware Description Language)、Lava、Lola、My HDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据排序方法，其特征在于，所述方法包括：

获取目标业务的第一业务数据集；其中，所述第一业务数据集包括多个线上业务数据，所述线上业务数据包括业务请求用户的用户特征数据，每个所述用户特征数据包括多个特征维度，每个所述特征维度包括多个特征类别；

针对每个所述特征维度，在所述特征维度的目标特征类别下的多个所述线上业务数据中，选取第一数量的线上业务数据；其中，所述目标特征类别是每个所述特征维度的所述多个特征类别中目标精确率满足预设条件的特征类别，每个所述特征类别对应于一个所述目标精确率，所述目标精确率是基于第三数量的候选训练样本的真实标签和预测标签确定的，所述预测标签是基于所述候选训练样本在对应特征类别下的预测概率得到的，所述第三数量的候选训练样本是基于所述预测概率在所述特征类别下的多个模型训练样本中选取的，所述目标精确率用于表征在所述第三数量中预测正确的正样本的数量占比，所述第一数量的线上业务数据包括所述线上业务数据在所述目标特征类别下的预测概率排序靠前的多个线上业务数据；

基于所述第一数量的线上业务数据，确定第二业务数据集；

2.根据权利要求1所述的方法，其特征在于，所述针对每个所述特征维度，在所述特征维度的目标特征类别下的多个所述线上业务数据中，选取第一数量的线上业务数据，包括：

将多个所述线上业务数据输入预先训练的识别模型，得到第一预测结果；其中，所述第一预测结果包括所述线上业务数据在所述目标特征类别下的预测概率；

基于所述预测概率，选取第一数量的线上业务数据。

3.根据权利要求1所述的方法，其特征在于，在获取目标业务的第一业务数据集之前，还包括：

将第一训练样本集输入预先训练的识别模型，得到第二预测结果，所述第一训练样本集包括多个模型训练样本；其中，每个所述模型训练样本包括所述多个特征维度，所述第二预测结果包括所述模型训练样本在对应特征类别下的预测概率；

针对每个所述特征维度，在所述特征维度的所述多个特征类别中，基于所述预测概率，确定对应特征维度的目标特征类别；其中，所述目标特征类别对应的目标精确率高于所述对应特征维度下的其他特征类别对应的目标精确率；以及，

在所述目标特征类别下的多个所述模型训练样本中，选取第三数量的所述模型训练样本作为多个目标训练样本；

基于所述目标训练样本，对排序模型进行训练，得到训练的排序模型。

4.根据权利要求3所述的方法，其特征在于，所述针对每个所述特征维度，在所述特征维度下的所述多个特征类别中，基于所述预测概率，确定对应特征维度的目标特征类别，包括：

针对所述特征维度下的每个特征类别，基于所述特征类别下的多个候选训练样本的所述预测概率，对所述多个候选训练样本进行排序，得到第一排序结果；其中，所述候选训练样本为所述第一训练样本集中的一个模型训练样本；

从所述多个候选训练样本中，基于所述第一排序结果，选取排序靠前的所述第三数量的候选训练样本；

基于所述第三数量的候选训练样本的真实标签和预测标签，确定所述特征类别对应的目标精确率；其中，所述预测标签是基于所述预测概率确定的；

基于所述多个特征类别对应的所述目标精确率，确定对应特征维度的目标特征类别。

5.根据权利要求4所述的方法，其特征在于，所述基于所述多个特征类别对应的所述目标精确率，确定对应特征维度的目标特征类别，包括：

基于所述多个特征类别对应的所述目标精确率，确定所述目标精确率最大值对应的所述特征类别；

将确定出的所述特征类别确定为对应特征维度的目标特征类别。

6.根据权利要求3所述的方法，其特征在于，在将第一训练样本集输入预先训练的识别模型，得到第二预测结果之前，还包括：

获取所述目标业务的第二训练样本集；其中，所述第二训练样本集包括多个模型训练样本；

基于所述第二训练样本集，对预设的分类模型进行训练，得到训练后的分类模型；

将所述训练后的分类模型确定为预先训练的识别模型。

7.根据权利要求3所述的方法，其特征在于，所述基于所述目标训练样本，对排序模型进行训练，得到训练的排序模型之后，还包括：

获取所述目标业务的测试样本集；其中，所述测试样本集包括多个模型测试样本，每个所述模型测试样本包括多个特征维度；

基于所述测试样本集，对所述训练的排序模型进行指标评估，得到指标评估结果；

若所述指标评估结果为通过，则将所述训练的排序模型确定为最终的预先训练的排序模型。

8.根据权利要求7所述的方法，其特征在于，所述基于所述测试样本集，对所述训练的排序模型进行指标评估，得到指标评估结果，包括：

将所述测试样本集输入预先训练的识别模型，得到第三预测结果；其中，所述第三预测结果包括所述模型测试样本在对应特征类别下的预测概率；

在所述目标特征类别下的多个所述模型测试样本中，选取第四数量的所述模型测试样本作为多个目标测试样本；

将所述目标测试样本输入所述训练的排序模型，得到第四预测结果；

基于所述第四预测结果，确定所述排序模型的目标精确率，以及将所述目标精确率确定为指标评估结果。

9.根据权利要求3所述的方法，其特征在于，在针对每个所述特征维度，在所述特征维度的所述多个特征类别中，基于所述预测概率，确定对应特征维度的目标特征类别之前，还包括：

若所述特征维度的特征值为连续型数据，则基于所述特征值的取值范围和所述特征维度对应的属性特征信息，确定所述特征维度的所述多个特征类别；

若所述特征维度的特征值为离散型数据，则基于所述特征值的取值分类，确定所述特征维度的所述多个特征类别。

10.根据权利要求2所述的方法，其特征在于，所述基于所述预测概率，选取第一数量的线上业务数据之前，还包括：

基于预先训练的所述识别模型的模型参数信息，确定各所述特征维度对应的权重系数；

针对每个所述特征维度，基于所述特征维度对应的所述权重系数和所述第二数量，确定所述特征维度对应的所述第一数量；其中，所述第一数量与所述特征维度的所述权重系数成正比。

11.一种数据排序装置，其特征在于，包括：

第一获取模块，用于获取目标业务的第一业务数据集；其中，所述第一业务数据集包括多个线上业务数据，所述线上业务数据包括业务请求用户的用户特征数据，每个所述用户特征数据包括多个特征维度，每个所述特征维度包括多个特征类别；

第一选取模块，用于针对每个所述特征维度，在所述特征维度的目标特征类别下的多个所述线上业务数据中，选取第一数量的线上业务数据；其中，所述目标特征类别是每个所述特征维度的所述多个特征类别中目标精确率满足预设条件的特征类别，每个所述特征类别对应于一个所述目标精确率，所述目标精确率是基于第三数量的候选训练样本的真实标签和预测标签确定的，所述预测标签是基于所述候选训练样本在对应特征类别下的预测概率得到的，所述第三数量的候选训练样本是基于所述预测概率在所述特征类别下的多个模型训练样本中选取的，所述目标精确率用于表征在所述第三数量中预测正确的正样本的数量占比，所述第一数量的线上业务数据包括所述线上业务数据在所述目标特征类别下的预测概率排序靠前的多个线上业务数据；

12.一种数据排序设备，其特征在于，所述设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令被配置由所述处理器执行，所述可执行指令包括用于执行如权利要求1-10任一项所述的方法中的步骤。

13.一种存储介质，其特征在于，所述存储介质用于存储计算机可执行指令，所述可执行指令使得计算机执行如权利要求1-10任一项所述的方法。