CN116485019A

CN116485019A - 一种数据处理方法及装置

Info

Publication number: CN116485019A
Application number: CN202310406921.7A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-07-25

Abstract

本公开涉及数据处理技术领域，提供了一种数据处理方法、装置、计算机设备及计算机可读存储介质。该方法通过预先基于学习分类模型确定历史业务信息样本对应的预测概率值，以及利用预设的权重列表中数值递增的规律和历史业务信息样本对应的预测概率值，确定预设的各个业务分数对应的精准率区间。这样，可以结合预设的权重列表中数值递增的规律，合理、准备地确定各个业务分数对应的精准率区间。这样便可利用各个业务分数对应的精准率区间，确定所述目标用户对应的业务分数，从而可以将目标用户的业务信息对应的预测概率值转换为对应的一业务分数，可以提高所确定的业务分数的准确度，可以帮助业务有序运转，降低业务的工作难度，进而提升工作效率。

Description

一种数据处理方法及装置

技术领域

本公开涉及数据处理技术领域，尤其涉及一种数据处理方法及装置。

背景技术

随着行业的发展，对于业务的管理要求越来越标准化。例如，在销售行业，项目商机运营官需要维护当前营销业务，每天会有一定数量的用户跟进任务，以便维系和利用存量用户。在整个业务流程中，每个用户对应的转化概率会通过人工规则给予分值，例如分值区间可以为1-10分，分数越高，可以认为用户认购转化率越高，以方便运营官可以根据分数调整工作重心，优先跟进认购意向度高的商机，充分利用工作时间，从而提升跟进效率。

但在实际的商机运营业务执行时，由于人工在执行人工规则给予分值的过程中可能会带有主观性以及操作失误，导致人工分数准确度不高。也就是说，虽然一用户的分值高，但是该用户的实际的认购意向度实际上并不是真的高，这样会导致人工评估的分数对商机运营各个环节的指导意义失效，导致商机运营的潜力未充分发掘。由于人工确定的转换分数不准确，商机运营官通过分数优先跟进认购意向度高用户的目的无法达成，工作难度加大。

因此，从业务角度出发，亟需提升分数转换的准确度，希望达到分数越高、认购召回率和认购召回量越高，且高分的认购转化率也越高的效果。这就需要寻求一种合理的分数映射方式。

发明内容

有鉴于此，本公开实施例提供了一种数据处理方法、装置、计算机设备及计算机可读存储介质，以解决现有技术中由于人工在执行人工规则给予分值的过程中可能会带有主观性以及操作失误，导致人工分数准确度不高，进而会导致人工评估的分数对商机运营各个环节的指导意义失效，导致商机运营的潜力未充分发掘，商机运营官通过分数优先跟进认购意向度高用户的目的无法达成，工作难度加大的问题。

本公开实施例的第一方面，提供了一种数据处理方法，所述方法包括：

获取目标用户的业务信息；

将所述目标用户的业务信息输入已训练的学习分类模型，得到所述目标用户的业务信息对应的预测概率值；其中，所述预测概率值用于反映所述目标用户完成目标任务的概率；

利用预设的各个业务分数对应的精准率区间以及所述目标用户的业务信息对应的预测概率值，确定所述目标用户对应的业务分数；

其中，所述预设的各个业务分数对应的精准率区间为根据历史业务信息样本、所述学习分类模型和预设的权重列表所确定的。

本公开实施例的第二方面，提供了一种数据处理装置，所述装置包括：

获取单元，用于获取目标用户的业务信息；

预测单元，用于将所述目标用户的业务信息输入已训练的学习分类模型，得到所述目标用户的业务信息对应的预测概率值；其中，所述预测概率值用于反映所述目标用户完成目标任务的概率；

确定单元，用于利用预设的各个业务分数对应的精准率区间以及所述目标用户的业务信息对应的预测概率值，确定所述目标用户对应的业务分数；

本公开实施例的第三方面，提供了一种计算机设备，包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在的有益效果是：本公开实施例可以先获取目标用户的业务信息。然后，可以将所述目标用户的业务信息输入已训练的学习分类模型，得到所述目标用户的业务信息对应的预测概率值；其中，所述预测概率值用于反映所述目标用户完成目标任务的概率。接着，可以利用预设的各个业务分数对应的精准率区间以及所述目标用户的业务信息对应的预测概率值，确定所述目标用户对应的业务分数；其中，所述预设的各个业务分数对应的精准率区间为根据历史业务信息样本、所述学习分类模型和预设的权重列表所确定的。可见，本实施例可以通过预先基于学习分类模型确定历史业务信息样本对应的预测概率值，以及，利用预设的权重列表中数值递增的规律和历史业务信息样本对应的预测概率值，确定预设的各个业务分数对应的精准率区间，这样，可以结合预设的权重列表中数值递增的规律，合理、准备地确定各个业务分数对应的精准率区间。这样，在获取到目标用户的业务信息对应的预测概率值后，可以利用各个业务分数对应的精准率区间，确定所述目标用户对应的业务分数，从而可以将目标用户的业务信息对应的预测概率值转换为对应的一业务分数，由此，本实施例所提供的方法可以避免由于人工在执行人工规则给予分值的过程中可能会带有主观性以及操作失误，导致人工预估的分数的准确度不高的问题，从而可以提高所确定的业务分数的准确度，即能够达到所确定的业务分数越高、认购意向度越高的目的，可以帮助业务有序运转，降低业务的工作难度，进而提升工作效率。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例的应用场景的场景示意图；

图2是本公开实施例提供的数据处理方法的流程图；

图3是本公开实施例提供的精确率-召回率曲线的示意图；

图4是本公开实施例提供的数据处理装置的框图；

图5是本公开实施例提供的计算机设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

下面将结合附图详细说明根据本公开实施例的一种数据处理方法和装置。

在现有技术中，由于在实际的商机运营业务执行时，由于人工在执行人工规则给予分值的过程中可能会带有主观性以及操作失误，导致人工分数准确度不高。也就是说，虽然一用户的分值高，但是该用户的实际的认购意向度实际上并不是真的高，这样会导致人工评估的分数对商机运营各个环节的指导意义失效，导致商机运营的潜力未充分发掘。由于人工确定的转换分数不准确，商机运营官通过分数优先跟进认购意向度高用户的目的无法达成，工作难度加大。因此，从业务角度出发，亟需提升分数转换的准确度，希望达到分数越高、认购召回率和认购召回量越高，且高分的认购转化率也越高的效果。这就需要寻求一种合理的分数映射方式。。

为了解决上述问题。本发明提供了一种数据处理方法，在本方法中，由于本实施例可以通过预先基于学习分类模型确定历史业务信息样本对应的预测概率值，以及，利用预设的权重列表中数值递增的规律和历史业务信息样本对应的预测概率值，确定预设的各个业务分数对应的精准率区间，这样，可以结合预设的权重列表中数值递增的规律，合理、准备地确定各个业务分数对应的精准率区间。这样，在获取到目标用户的业务信息对应的预测概率值后，可以利用各个业务分数对应的精准率区间，确定所述目标用户对应的业务分数，从而可以将目标用户的业务信息对应的预测概率值转换为对应的一业务分数，由此，本实施例所提供的方法可以避免由于人工在执行人工规则给予分值的过程中可能会带有主观性以及操作失误，导致人工预估的分数的准确度不高的问题，从而可以提高所确定的业务分数的准确度，即能够达到所确定的业务分数越高、认购意向度越高的目的，可以帮助业务有序运转，降低业务的工作难度，进而提升工作效率。

举例说明，本发明实施例可以应用到如图1所示的应用场景。在该场景中，可以包括终端设备1和服务器2。

终端设备1可以是硬件，也可以是软件。当终端设备1为硬件时，其可以是具有显示屏且支持与服务器2通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当终端设备1为软件时，其可以安装在如上该的电子设备中。终端设备1可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本公开实施例对此不作限制。进一步地，终端设备1上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器2可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器2可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本公开实施例对此不作限制。

需要说明的是，服务器2可以是硬件，也可以是软件。当服务器2为硬件时，其可以是为终端设备1提供各种服务的各种电子设备。当服务器2为软件时，其可以是为终端设备1提供各种服务的多个软件或软件模块，也可以是为终端设备1提供各种服务的单个软件或软件模块，本公开实施例对此不作限制。

终端设备1与服务器2可以通过网络进行通信连接。网络可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙(Bluetooth)、近场通信(Near Field Communication，NFC)、红外(Infrared)等，本公开实施例对此不作限制。

具体地，用户可以通过终端设备1输入待处理交互信息；终端设备1将目标用户的业务信息向服务器2发送。服务器2预先存储有已训练的学习分类模型，服务器2可以先将所述目标用户的业务信息输入已训练的学习分类模型，得到所述目标用户的业务信息对应的预测概率值；其中，所述预测概率值用于反映所述目标用户完成目标任务的概率。然后，服务器2可以利用预设的各个业务分数对应的精准率区间以及所述目标用户的业务信息对应的预测概率值，确定所述目标用户对应的业务分数。其中，所述预设的各个业务分数对应的精准率区间为根据历史业务信息样本、所述学习分类模型和预设的权重列表所确定的。；最后，服务器2可以将目标用户对应的业务分数向终端设备1返回，以便终端设备1可以向用户展示所述目标用户对应的业务分数。这样，由于本实施例可以通过预先基于学习分类模型确定历史业务信息样本对应的预测概率值，以及，利用预设的权重列表中数值递增的规律和历史业务信息样本对应的预测概率值，确定预设的各个业务分数对应的精准率区间，这样，可以结合预设的权重列表中数值递增的规律，合理、准备地确定各个业务分数对应的精准率区间。这样，在获取到目标用户的业务信息对应的预测概率值后，可以利用各个业务分数对应的精准率区间，确定所述目标用户对应的业务分数，从而可以将目标用户的业务信息对应的预测概率值转换为对应的一业务分数，由此，本实施例所提供的方法可以避免由于人工在执行人工规则给予分值的过程中可能会带有主观性以及操作失误，导致人工预估的分数的准确度不高的问题，从而可以提高所确定的业务分数的准确度，即能够达到所确定的业务分数越高、认购意向度越高的目的，可以帮助业务有序运转，降低业务的工作难度，进而提升工作效率。

需要说明的是，终端设备1和服务器2以及网络的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本公开实施例对此不作限制。

需要注意的是，上述应用场景仅是为了便于理解本公开而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

图2是本公开实施例提供的一种数据处理方法的流程图。图2的一种数据处理方法可以由图1的终端设备或服务器执行。如图2所示，该数据处理方法包括：

S201：获取目标用户的业务信息。

在本实施中，目标用户可以理解为需要进行分数转换处理的用户。目标用户的业务信息可以理解为目标用户在业务场景下的交互行为信息；例如，业务场景为房屋售卖场景时，目标用户的业务信息可以包括目标用户的看房记录；又例如，业务场景为商品售卖场景时，目标用户的业务信息可以包括目标用户对商品的点击次数、收藏和/或购买等交互行为信息。

S202：将所述目标用户的业务信息输入已训练的学习分类模型，得到所述目标用户的业务信息对应的预测概率值。

在本实施例中，学习分类模型可以是集成学习分类模型，这是一种基于多个分类器(弱分类器)的集成学习模型，可以用来改善分类性能。学习分类模型通过将多个分类器组合起来，以期达到更好的分类效果，而不是只使用一个分类器。在一种实现方式中，学习分类模型可以为以下至少一种：随机森林(Random Forest)、梯度提升树(GradientBoosting Tree)、AdaBoost、XGBoost(Extreme Gradient Boosting)等机器学习分类模型及深度学习分类模型。

需要说明的是，学习分类模型的输入可以为目标用户的业务信息，学习分类模型的输出可以为目标用户的业务信息对应的预测概率值。其中，所述预测概率值用于反映所述目标用户完成目标任务的概率，可以理解的是，目标用户的业务信息对应的预测概率值越高，说明所述目标用户完成目标任务的概率越高，反之，目标用户的业务信息对应的预测概率值越低，说明所述目标用户完成目标任务的概率越低。需要说明的是，目标任务可以理解为与业务信息相关的任务，例如，目标用户的业务信息包括目标用户的看房记录时，目标任务可以为房屋认购，又例如，目标用户的业务信息包括目标用户对商品的点击次数、收藏和/或购买等交互行为信息时，目标任务可以为购买商品。

以学习分类模型为XGBoost(Extreme Gradient Boosting)为例，XGBoost是一种广泛使用的模型，用于回归、分类和其他任务。XGBoost的优点是，XGBoost可以处理非线性数据，并且支持并行计算。其关键特性是可以将多个模型组合起来，以提高准确性和性能。该模型的输出为预测概率值，具体地，预测概率值可以为预测结果为0-1之间的概率值，但是，概率对使用预测结果的商机运营官来说，概率值过多且代表的含义过于模糊，需要通过一定的分数映射方式，将繁多的概率取值映射为业务更容易理解的业务分数(比如整数1-10分)。

S203：利用预设的各个业务分数对应的精准率区间以及所述目标用户的业务信息对应的预测概率值，确定所述目标用户对应的业务分数。

在本实施例中，可以预先根据历史业务信息样本、所述学习分类模型和预设的权重列表确定预设的各个业务分数对应的精准率区间。也就是说，本实施例可以通过预先基于学习分类模型确定历史业务信息样本对应的预测概率值，以及，利用预设的权重列表中数值递增的规律和历史业务信息样本对应的预测概率值，确定预设的各个业务分数对应的精准率区间，这样，可以结合预设的权重列表中数值递增的规律，合理、准备地确定各个业务分数对应的精准率区间。

在获取到目标用户的业务信息对应的预测概率值后，可以利用各个业务分数对应的精准率区间，确定所述目标用户对应的业务分数；举例来说，假设业务分数为1-10分，且每个业务分数均有对应的精准率区间，假设1分对应的精准率区间为(0，0.1)，且目标用户的业务信息对应的预测概率值为0.05，则目标用户对应的业务分数可以为1分。这样，便可以将目标用户的业务信息对应的预测概率值转换为对应的一业务分数，从而实现了将目标用户对应的业务分数映射为业务分数。

本公开实施例与现有技术相比存在的有益效果是：本公开实施例可以先获取目标用户的业务信息。然后，可以将所述目标用户的业务信息输入已训练的学习分类模型，得到所述目标用户的业务信息对应的预测概率值；其中，所述预测概率值用于反映所述目标用户完成目标任务的概率。接着，可以利用预设的各个业务分数对应的精准率区间以及所述目标用户的业务信息对应的预测概率值，确定所述目标用户对应的业务分数；其中，所述预设的各个业务分数对应的精准率区间为根据历史业务信息样本、所述学习分类模型和预设的权重列表所确定的。可见，本实施例可以通过预先基于学习分类模型确定历史业务信息样本对应的预测概率值，以及，利用预设的权重列表中数值递增的规律和历史业务信息样本对应的预测概率值，确定预设的各个业务分数对应的精准率区间，这样，可以结合预设的权重列表中数值递增的规律，合理、准备地确定各个业务分数对应的精准率区间。这样，在获取到目标用户的业务信息对应的预测概率值后，可以利用各个业务分数对应的精准率区间，确定所述目标用户对应的业务分数，从而可以将目标用户的业务信息对应的预测概率值转换为对应的一业务分数，由此，本实施例所提供的方法可以避免由于人工在执行人工规则给予分值的过程中可能会带有主观性以及操作失误，导致人工预估的分数的准确度不高的问题，从而可以提高所确定的业务分数的准确度，即能够达到所确定的业务分数越高、认购意向度越高的目的，可以帮助业务有序运转，降低业务的工作难度，进而提升工作效率。并且，本实施例通过分数划分方式，打通了模型和业务实际应用的壁垒，为算法模型赋能一线业务提供了新的思路。

接下来，将介绍预设的各个业务分数对应的精准率区间的确定方式。在一种实现方式中，预设的各个业务分数对应的精准率区间的确定方式可以包括以下步骤：

步骤a：获取多个历史业务信息样本。

在本实施例中，每个历史业务信息样本均可以包括历史业务信息和历史业务信息对应的真实标签。历史业务信息对应的真实标签可以反映用户实际是否完成目标任务，例如，历史业务信息对应的真实标签可以为已完成目标任务，或者，为未完成目标任务。

步骤b：利用所述学习分类模型，确定每个历史业务信息对应的预测概率值。

在本实施例中，针对每个历史业务信息样本，可以将该历史业务信息样本中的历史业务信息输入学习分类模型，得到该历史业务信息对应的预测概率值。这样，便可以得到每个历史业务信息样本中历史业务信息对应的预测概率值。

步骤c：根据所述多个历史业务信息样本各自分别对应的预测概率值，将所述多个历史业务信息样本划分为多个历史业务信息样本集合。

在本实施例中，在得到多个历史业务信息样本各自分别对应的预测概率值后，可以根据多个历史业务信息样本各自分别对应的预测概率值，将所述多个历史业务信息样本划分为多个历史业务信息样本集合。可以理解的是，每个历史业务信息样本集合至少包括一个历史业务信息样本。

在一种实现方式中，属于同一个历史业务信息样本集合的历史业务信息样本的预测概率值可以是相同的或者属于同一个预测概率值区间。也就是说，可以将预测概率值相同的历史业务信息样本作为一个历史业务信息样本集合，或者，可以将预测概率值属于同一个预测概率值区间的历史业务信息样本作为一个历史业务信息样本集合；这样，便可以得到多个历史业务信息样本集合。

步骤d：针对每个历史业务信息样本集合，根据所述历史业务信息样本集合中各个历史业务信息对应的预测概率值和真实标签，确定所述历史业务信息样本集合对应的精准率与召回率。

作为一种示例，针对所述历史业务信息样本集合中每个历史业务信息，可以先根据所述历史业务信息对应的预测概率值，确定所述历史业务信息对应的预测标签。例如，若历史业务信息对应的预测概率值大于或等于预设阈值，则可以确定所述历史业务信息对应的预测标签为已完成目标任务；若历史业务信息对应的预测概率值小于预设阈值，则可以确定所述历史业务信息对应的预测标签为未完成目标任务。

然后，可以根据所述历史业务信息对应的所述预测标签和所述真实标签，确定所述历史业务信息对应的样本类型。若历史业务信息对应的所述预测标签和所述真实标签均为正例(例如已完成目标任务)，则可以确定该历史业务信息对应的样本类型为真阳性(true positive，TP)；若历史业务信息对应的所述预测标签和所述真实标签均为负例(例如未完成目标任务)，则可以确定该历史业务信息对应的样本类型为真阴性(truenegative，TN)；若历史业务信息对应的所述预测标签为正例，历史业务信息对应的所述真实标签为负例，则可以确定该历史业务信息对应的样本类型为假阴性(false negative，FN)；若历史业务信息对应的所述预测标签为负例，历史业务信息对应的所述真实标签为正例，则可以确定该历史业务信息对应的样本类型为假阳性(false positive，FP)。

接着，可以根据所述历史业务信息样本集合中各个历史业务信息对应的样本类型，确定所述历史业务信息样本集合对应的精准率与召回率。具体地，可以根据所述历史业务信息样本集合中各个历史业务信息对应的样本类型，确定所述历史业务信息样本集合中样本类型为真阳性的历史业务信息、所述历史业务信息样本集合中样本类型为假阳性的历史业务信息、所述历史业务信息样本集合中样本类型为真阴性的历史业务信息、所述历史业务信息样本集合中样本类型为假阴性的历史业务信息。可以根据所述历史业务信息样本集合中样本类型为真阳性的历史业务信息、所述历史业务信息样本集合中样本类型为假阳性的历史业务信息、所述历史业务信息样本集合中样本类型为假阴性的历史业务信息，确定所述历史业务信息样本集合对应的精准率与召回率。例如，在一种实现方式中，可以通过以下公式确定历史业务信息样本集合对应的精准率与召回率：

precision＝TP/(TP+FP)；

recall＝TP/(TP+FN)；

其中，precision代表历史业务信息样本集合对应的精准率；recall代表历史业务信息样本集合对应的召回率；TP代表历史业务信息样本集合中样本类型为真阳性的历史业务信息的数量；FP代表历史业务信息样本集合中样本类型为假阳性的历史业务信息的数量；FN代表历史业务信息样本集合中样本类型为假阴性的历史业务信息的数量。

步骤e：利用所述预设的权重列表和所有历史业务信息样本集合对应的召回率，确定所述预设的各个业务分数对应的召回率阈值。

在一种实现方式中，可以预先确定预设的权重列表。所述预设的权重列表可以为斐波那契数列，其中，斐波那契数列中的项数为根据所述预设的业务分数的个数所确定的，例如，斐波那契数列中的项数为所述预设的业务分数的个数再加上1。斐波那契数列指的是这样一个数列：1，1，2，3，5，8，13，21，34，55，89…，斐波纳契数列以如下被以递归的方法定义：F(0)＝0,F(1)＝1,F(n)＝f(n-1)+F(n-2)(n>＝2,n∈N)这个数列从第三项开始，每一项都等于前两项之和。假设，预设的业务分数为1、2、3、4、5、6、7、8、9、10，则斐波那契数列可以取前10项[1，1，2，3，5，8，13，21，34，55]，接着，将0和斐波那契序列的前10个数拼在一起组成列表[0,1,1,2,3,5,8,13,21,34,55]，该列表[0,1,1,2,3,5,8,13,21,34,55]即为预设的权重列表。

在本实施例中，可以利用所述预设的权重列表和所有历史业务信息样本集合对应的召回率，确定所述预设的各个业务分数对应的召回率阈值。

作为一种实现方式，可以先根据所述预设的权重列表，确定所述预设的各个业务分数对应的第一召回率。针对第N个业务分数(由大到小排序)，可以预设的权重列表中左侧N个项数剔除后所剩下的项数的累加和与权重列表中所有项数之和的比值作为第N个业务分数对应的第一召回率。例如，权重列表转换为1分～10分对应得召回率列表(即业务分数对应的第一召回率)：结合权重列表weight_list[0,1,1,2,3,5,8,13,21,34,55]确定1～10分对应的第一召回率，10分对应的第一召回率为weight_list中从左侧剔除第一个元素(即项数)0外的其它数值(即项数)累加和除以weight_list所有数值对应得累加和即143/143＝1(即第一召回率)；9分对应的第一召回率为weight_list权重列表从左侧剔除2元素0,1以外数据的累加和除以weight_list所有数值对应得累加和即142/143＝0.993(保留3位小数)(即第一召回率)；8分对应的第一召回率为weight_list权重列表中从左侧剔除3个元素0,1,1以外数据的累加和除以weight_list所有数值对应得累加和即141/143＝0.986(保留3位小数)(即第一召回率)；依次类推，1分对应的第一召回率为weight_list权重列表从左侧剔除10元素0,1,1,2,3,5,8,13,21,34以外数据的累加和除以weight_list所有数值对应得累加和即55/143＝0.385(保留3位小数)，这样就得到了1～10分不同分值对应的第一召回率，可以将1～10分不同分值对应的第一召回率记作召回率列表r。

然后，可以针对每一业务分数，根据所述业务分数对应的第一召回率和所有历史业务信息样本集合对应的召回率，确定所述业务分数对应的召回率阈值。

作为一种示例，将所有历史业务信息样本集合对应的召回率取负以及进行升序排序，得到召回率排序列表(记作recall_list)。针对每一个业务分数，将该业务分数对应的第一召回率取负记作f_recall，将f_recall插入到recall_list(即将该业务分数对应的第一召回率与召回率排序列表中所有的召回率进行排序)；将与f_recall相邻且大于f_recall的召回率作为该业务分数对应的召回率阈值，即从高值往低值找最后一个满足f_recall值的位置local_a(即召回率)作为业务分数对应的召回率阈值。

步骤f：根据所述各个业务分数对应的召回率阈值，以及，所有历史业务信息样本集合对应的精准率与召回率，确定所述各个业务分数对应的精准率阈值。

在本实施例中，可以根据所有历史业务信息样本集合对应的精准率与召回率，生成精确率-召回率曲线(PR曲线)。例如，可以将所有历史业务信息样本集合对应的精准率(precision)作为纵坐标，将所有历史业务信息样本集合对应的召回率(recall)作为横坐标，生成精确率-召回率曲线(PR曲线)，如图3所示，也是根据分类模型预测结果不同阈值对应准召率绘制的曲线，可以用于表达分类模型的效果，辅助模型师判断模型效果。

针对每个业务分数，可以将所述业务分数对应的召回率阈值作为待查询召回率。然后，利用所述精确率-召回率曲线，确定与所述待查询召回率对应的精准率，将与所述待查询召回率对应的精准率作为所述业务分数对应的精准率阈值；也就是说，利用待查询召回率作为横坐标，确定精确率-召回率曲线中与该横坐标对应的纵坐标，并将该纵坐标作为所述业务分数对应的精准率阈值。这样，便可以得到各个业务分数对应的精准率阈值。

步骤g：根据所述各个业务分数对应的精准率阈值，确定所述各个业务分数对应的精准率区间。

在本实施例中，可以将所述各个业务分数对应的精准率阈值进行排序(例如从小到大排序)，得到排序结果。然后，可以根据所述排序结果，确定所述各个业务分数对应的精准率区间。举例来说，假设业务分数1对应的精准率阈值为0.1、业务分数2对应的精准率阈值为0.2、业务分数3对应的精准率阈值为0.3，可以将精准率阈值最小值设置为-1，最大值设置为1，共计5个数按照左开右闭进行组合成1分～3分对应的精准率区间，即业务分数1对应的精准率区间为[-1,0.1]、业务分数2对应的精准率区间为(0.1,0.2]、业务分数3对应的精准率区间为(0.2,1]。这样，学习分类模型的预测概率值在精准率区间内则为该精准率区间对应的业务分数，这样，便完成分类模型概率值到具体打分分值的转换。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图4是本公开实施例提供的数据处理装置的示意图。如图4所示，该数据处理装置包括：

获取单元401，用于获取目标用户的业务信息；

预测单元402，用于将所述目标用户的业务信息输入已训练的学习分类模型，得到所述目标用户的业务信息对应的预测概率值；其中，所述预测概率值用于反映所述目标用户完成目标任务的概率；

确定单元403，用于利用预设的各个业务分数对应的精准率区间以及所述目标用户的业务信息对应的预测概率值，确定所述目标用户对应的业务分数；

可选的，所述装置还包括生成单元，用于：

获取多个历史业务信息样本；其中，每个历史业务信息样本均包括历史业务信息和历史业务信息对应的真实标签；

利用所述学习分类模型，确定每个历史业务信息对应的预测概率值；

根据所述多个历史业务信息样本各自分别对应的预测概率值，将所述多个历史业务信息样本划分为多个历史业务信息样本集合；

针对每个历史业务信息样本集合，根据所述历史业务信息样本集合中各个历史业务信息对应的预测概率值和真实标签，确定所述历史业务信息样本集合对应的精准率与召回率；

利用所述预设的权重列表和所有历史业务信息样本集合对应的召回率，确定所述预设的各个业务分数对应的召回率阈值；

根据所述各个业务分数对应的召回率阈值，以及，所有历史业务信息样本集合对应的精准率与召回率，确定所述各个业务分数对应的精准率阈值；

根据所述各个业务分数对应的精准率阈值，确定所述各个业务分数对应的精准率区间。

可选的，所述生成单元，具体用于：

针对所述历史业务信息样本集合中每个历史业务信息，根据所述历史业务信息对应的预测概率值，确定所述历史业务信息对应的预测标签；根据所述历史业务信息对应的所述预测标签和所述真实标签，确定所述历史业务信息对应的样本类型；其中，所述样本类型为真阳性、假阳性、真阴性、假阴性；

根据所述历史业务信息样本集合中各个历史业务信息对应的样本类型，确定所述历史业务信息样本集合对应的精准率与召回率。

可选的，所述预设的权重列表为斐波那契数列，其中，斐波那契数列中的项数为根据所述预设的业务分数的个数所确定的。

可选的，所述生成单元，具体用于：

根据所述预设的权重列表，确定所述预设的各个业务分数对应的第一召回率；

针对每一业务分数，根据所述业务分数对应的第一召回率和所有历史业务信息样本集合对应的召回率，确定所述业务分数对应的召回率阈值。

可选的，所述生成单元，具体用于：

根据所有历史业务信息样本集合对应的精准率与召回率，生成精确率-召回率曲线；

针对每个业务分数，将所述业务分数对应的召回率阈值作为待查询召回率；利用所述精确率-召回率曲线，确定与所述待查询召回率对应的精准率；将与所述待查询召回率对应的精准率作为所述业务分数对应的精准率阈值。

可选的，所述生成单元，具体用于：

将所述各个业务分数对应的精准率阈值进行排序，得到排序结果；

根据所述排序结果，确定所述各个业务分数对应的精准率区间。

本公开实施例与现有技术相比存在的有益效果是：本公开实施例提供了一种数据处理装置，所述装置包括：获取单元，用于获取目标用户的业务信息；预测单元，用于将所述目标用户的业务信息输入已训练的学习分类模型，得到所述目标用户的业务信息对应的预测概率值；其中，所述预测概率值用于反映所述目标用户完成目标任务的概率；确定单元，用于利用预设的各个业务分数对应的精准率区间以及所述目标用户的业务信息对应的预测概率值，确定所述目标用户对应的业务分数；其中，所述预设的各个业务分数对应的精准率区间为根据历史业务信息样本、所述学习分类模型和预设的权重列表所确定的。可见，本实施例可以通过预先基于学习分类模型确定历史业务信息样本对应的预测概率值，以及，利用预设的权重列表中数值递增的规律和历史业务信息样本对应的预测概率值，确定预设的各个业务分数对应的精准率区间，这样，可以结合预设的权重列表中数值递增的规律，合理、准备地确定各个业务分数对应的精准率区间。这样，在获取到目标用户的业务信息对应的预测概率值后，可以利用各个业务分数对应的精准率区间，确定所述目标用户对应的业务分数，从而可以将目标用户的业务信息对应的预测概率值转换为对应的一业务分数，由此，本实施例所提供的方法可以避免由于人工在执行人工规则给予分值的过程中可能会带有主观性以及操作失误，导致人工预估的分数的准确度不高的问题，从而可以提高所确定的业务分数的准确度，即能够达到所确定的业务分数越高、认购意向度越高的目的，可以帮助业务有序运转，降低业务的工作难度，进而提升工作效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图5是本公开实施例提供的计算机设备5的示意图。如图5所示，该实施例的计算机设备5包括：处理器501、存储器502以及存储在该存储器502中并且可以在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者，处理器501执行计算机程序503时实现上述各装置实施例中各模块/模块的功能。

示例性地，计算机程序503可以被分割成一个或多个模块/模块，一个或多个模块/模块被存储在存储器502中，并由处理器501执行，以完成本公开。一个或多个模块/模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序503在计算机设备5中的执行过程。

计算机设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算机设备。计算机设备5可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解，图5仅仅是计算机设备5的示例，并不构成对计算机设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，计算机设备还可以包括输入输出设备、网络接入设备、总线等。

处理器501可以是中央处理模块(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器502可以是计算机设备5的内部存储模块，例如，计算机设备5的硬盘或内存。存储器502也可以是计算机设备5的外部存储设备，例如，计算机设备5上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器502还可以既包括计算机设备5的内部存储模块也包括外部存储设备。存储器502用于存储计算机程序以及计算机设备所需的其它程序和数据。存储器502还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能模块、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块、模块完成，即将装置的内部结构划分成不同的功能模块或模块，以完成以上描述的全部或者部分功能。实施例中的各功能模块、模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，各功能模块、模块的具体名称也只是为了便于相互区分，并不用于限制本公开的保护范围。上述系统中模块、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

在本公开所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或模块的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块/模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取目标用户的业务信息；

2.根据权利要求1所述的方法，其特征在于，所述预设的各个业务分数对应的精准率区间的确定方式包括以下步骤：

3.根据权利要求2所述的方法，其特征在于，所述根据所述历史业务信息样本集合中各个历史业务信息对应的预测概率值和真实标签，确定所述历史业务信息样本集合对应的精准率与召回率，包括：

4.根据权利要求2所述的方法，其特征在于，所述预设的权重列表为斐波那契数列，其中，斐波那契数列中的项数为根据所述预设的业务分数的个数所确定的。

5.根据权利要求4所述的方法，其特征在于，所述利用所述预设的权重列表和所有历史业务信息样本集合对应的召回率，确定所述预设的各个业务分数对应的召回率阈值，包括：

6.根据权利要求2所述的方法，其特征在于，所述根据所述各个业务分数对应的召回率阈值，以及，所有历史业务信息样本集合对应的精准率与召回率，确定所述各个业务分数对应的精准率阈值，包括：

7.根据权利要求2所述的方法，其特征在于，所述根据所述各个业务分数对应的精准率阈值，确定所述各个业务分数对应的精准率区间，包括：

8.一种数据处理装置，其特征在于，所述装置包括：

获取单元，用于获取目标用户的业务信息；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。