CN113706151A

CN113706151A - 一种数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN113706151A
Application number: CN202110376042.5A
Authority: CN
Inventors: 陈威任
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2021-11-26

Abstract

本申请实施例提出一种数据处理方法、装置、计算机设备及存储介质，应用于人工智能技术领域。该方法具体是：获取训练样本集，训练样本集包括多个训练样本；获取多个训练样本中每个训练样本的特征数据，特征数据包括初始标签数据和初始标签数据的标注时间；根据多个训练样本的初始标签数据的标注时间，对每个训练样本的初始标签数据进行调整处理，得到每个训练样本的调整后的目标标签数据，调整后的目标标签数据用于业务模型的训练。通过本方案，可以利用时间因素对标签进行平滑处理，得到调整后的目标标签数据，并用调整后的目标标签数据训练业务模型，从而提高业务模型识别效果的准确性。

Description

一种数据处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法、装置、计算机设备及存储介质。

背景技术

随着移动互联网和人工智能技术的快速发展，业务模型的训练在人工智能领域以及各个领域的应用越来越多。业务模型例如可以具体为安全模型、服务处理模型、汇兑模型、信贷模型等相关模型，通常需要通过样本数据以及标签训练业务模型之后方可投入使用。

现有技术中，由于未充分考虑标签随时间变化的因素，使得标签不够平滑，导致业务模型的训练效果不佳，影响了业务模型的识别效果。

发明内容

本申请实施例提出了一种数据处理方法、装置、计算机设备以及存储介质，可以利用时间因素对标签进行平滑处理，得到调整处理后的目标标签数据，并用调整后的目标标签数据训练业务模型，从而提高业务模型识别效果的准确性。

本申请实施例一方面提供了一种数据处理方法，包括：

获取训练样本集，所述训练样本集包括多个训练样本；

获取所述多个训练样本中每个训练样本的特征数据，所述特征数据包括初始标签数据和所述初始标签数据的标注时间；

根据所述多个训练样本的初始标签数据的标注时间，对所述每个训练样本的初始标签数据进行调整处理，得到所述每个训练样本的调整后的目标标签数据，所述调整后的目标标签数据用于业务模型的训练。

本申请实施例一方面提供了一种数据处理装置，包括：

获取单元，用于获取训练样本集，所述训练样本集包括多个训练样本；

所述获取单元，还用于获取所述多个训练样本中每个训练样本的特征数据，所述特征数据包括初始标签数据和所述初始标签数据的标注时间；

处理单元，用于根据所述多个训练样本的初始标签数据的标注时间，对所述每个训练样本的初始标签数据进行调整处理，得到所述每个训练样本的调整后的目标标签数据，所述调整后的目标标签数据用于业务模型的训练。

本申请实施例一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述各实施例中的方法。

本申请实施例一方面提供了一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行上述各实施例中的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中，计算机指令被终端设备的处理器执行时，执行上述各实施例中的方法。

通过本申请实施例提供的数据处理方法，计算机设备可以获取包括多个训练样本的训练样本集以及多个训练样本中每个训练样本的特征数据；其中，特征数据包括初始标签数据和初始标签数据的标注时间；然后，计算设备根据多个训练样本的初始标签数据的标注时间，对每个训练样本的初始标签数据进行调整处理，得到每个训练样本的调整后的目标标签数据，调整后的目标标签数据用于业务模型的训练。由于每个训练样本的目标标签数据是根据每个训练样本的标注时间进行调整处理后确定的，因此通过调整处理后的目标标签数据训练得到的业务模型考虑了时间因素带来的标签的变化，从而提高了业务模型识别效果的准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理系统的架构示意图；

图2是本申请实施例提供的一种数据处理方法的流程示意图；

图3是本申请实施例提供的一种数据清洗的流程示意图；

图4是本申请实施例提供的一种模型训练方法的流程示意图；

图5是本申请实施例提供的另一种数据处理方法的流程示意图；

图6是本申请实施例提供的一种神经网络模型的模型结构示意图；

图7是本申请实施例提供的另一种模型训练方法的流程示意图；

图8是本申请实施例提供的一种数据处理装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的，而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此，限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案属于人工智能领域下属的深度学习技术。

深度学习(Deep Learning，DL)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在本申请中，计算机设备可以获取包括多个训练样本的训练样本集以及多个训练样本中每个训练样本的特征数据；其中，特征数据包括初始标签数据和初始标签数据的标注时间；然后，计算设备根据多个训练样本的初始标签数据的标注时间，对每个训练样本的初始标签数据进行调整处理，得到每个训练样本的调整后的目标标签数据。后续，调整后的目标标签数据可以通过深度学习技术用于对业务模型的训练。

本申请可以应用到以下场景：可以通过本方案，获取训练样本对应的调整后的目标标签数据，然后通过调整后的目标标签数据训练业务模型。在业务风险预测场景中，当获取到携带业务数据的业务预测请求时，调用业务模型对业务数据进行识别处理，得到业务数据对应的风险预测概率，风险预测概率可以用于风险预测，具体来说，若风险预测概率大于或者等于参考概率阈值，则认为该业务数据在该业务场景中存在业务风险，因此当该业务数据在线上实际使用时，当检测到该业务数据之后可以实时对该业务数据进行线上打击，例如对该业务数据进行拦截或者过滤处理等等，从而达到风险控制的效果。

请参考图1，图1是本申请实施例提供的一种数据处理系统的架构示意图。该数据处理的系统架构图包括：服务器140以及计算机设备集群，其中，计算机设备集群可以包括：计算机设备110、计算机设备120、计算机设备130等等。计算机设备集群与服务器140可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

图1所示的服务器140可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

图1所示的计算机设备110、计算机设备120、计算机设备130等可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID，mobile internet device)、车辆、车载设备、路边设备、飞行器、可穿戴设备，例如智能手表、智能手环、计步器等，等具有数据处理功能的智能设备。

在一种可能的实现方式中，以计算机设备110为例，计算机设备110获取训练样本集，其中，训练样本集包括多个训练样本。然后，计算机设备110获取多个训练样本中每个训练样本的特征数据，其中，特征数据包括初始标签数据和初始标签数据的标注时间。然后，计算机设备110将训练样本集以及多个训练样本中每个训练样本的特征数据发送至服务器140，服务器140根据多个训练样本的初始标签数据的标注时间，对每个训练样本的初始标签数据进行调整处理，得到每个训练样本的调整后的目标标签数据。然后，服务器140将每个训练样本的调整后的目标标签数据发送至计算机设备110，后续，计算机设备110可以根据调整后的目标标签数据训练业务模型。

当然，根据多个训练样本的初始标签数据的标注时间，对每个训练样本的初始标签数据进行调整处理，得到每个训练样本的调整后的目标标签数据。不一定是由服务器140来执行，也可以由计算机设备110或者计算机设备集群中的其它任意计算机设备来执行。以及，根据调整后的目标标签数据训练业务模型的也不一定有计算机设备110来执行，也可以由服务器140来执行。

可以理解的是，本申请实施例描述的系统架构示意图是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

请参见图2，图2是本申请实施例提供的一种数据处理方法的流程示意图。该方法应用于计算机设备，计算机设备例如可以是智能手机、平板电脑、智能可穿戴设备、车载设备等等智能设备，计算机设备还可以由计算机设备和服务器协同完成，计算机设备还可以为服务器。如图2所示，该数据处理方法可包括步骤S210～S230。其中：

步骤S210：获取训练样本集，所述训练样本集包括多个训练样本。

具体实现时，训练样本集中可以包括多个训练样本，其中，每个训练样本还可以包括原始数据和文本数据。其中，原始数据具体可以为数值型的数据，文本数据具体可以为文本型的数据。

在一种可能的实现方式中，计算机设备获取训练样本集的详细过程如下。首先，从底层数据平台抽取原始数据。原始数据例如可以包括交易数据、安全数据等。其中，交易数据具体可以为在支付平台中进行抽取得到的数据，支付平台具体可以为信息交流中心的支付平台、购物交易支付平台等等。安全数据具体可以为在安全模型中进行抽取得到的数据，例如安全数据可以为用户A在安全模型的使用场景中产生或者上传的数据，安全数据也可以为用户A与用户B在安全模型的使用场景中相互之间进行交流的数据。另外，无论是交易数据或者安全数据，每个数据可以对应一个账户。当然，原始数据除了交易数据和安全数据之外，还可以包括业务处理数据，业务处理数据包括但不限于汇兑模型中产生的汇兑相关数据，以及信贷模型中产生的信贷相关数据等等。在本申请中，从底层数据平台抽取的原始数据只要是包括受时间因素影响的相关数据即可，并不对原始数据来源于哪些具体的业务场景进行限定。然后，按照id(每个id对应一个账户)进行多表匹配，对原始数据进行合并，再将原始数据按特定维度进行聚合(进行特征工程)其中，特征工程就是通过X，创造新的X'。基本的操作包括，衍生(升维)，筛选(降维)。

其中，按照id进行多表匹配的意思是指：例如需要取1w个样本，全量用户有10e，特征分布在不同的表a和b上，那首先需要在a表中匹配需要的1w个账户的特征，然后在b表中匹配需要的1w个账户的特征。然后把a表和b表分别匹配的不同的特征再按id合并到一张表上。将同一账户对应的特征合并在同一张表中。最后，可以利用缺失率，唯一性等原则进行对原始数据进行数据清洗然后储存到计算平台层。

具体来说，数据清洗的某些步骤如图3所示，图3是本申请实施例提供的一种数据清洗的流程示意图。其中，样本层中存储的是从底层平台抽取的训练样本，训练样本包括原始数据和文本数据。并且，针对样本层的训练样本，数据清洗的方法具体可以包括：可以将样本数据(即训练样本)缺失率大于90％的训练样本进行过滤或者删除处理等等。另外，根据训练样本进行特征工程后得到的特征数据存储于特征层。针对特征层的特征数据，数据清洗的方法具体可以包括：1、删除特征数据缺失率大于90％的特征数据；2、删除特征数据唯一率大于90％的特征数据；3、删除特征数据IV值(Information Value)小于0.02的特征数据等等。

需要说明的是，数据IV值主要用来对输入变量进行编码和预测能力评估。特征变量IV值的大小即表示该变量预测能力的强弱。IV值的取值范围是[0，正无穷)。接下来，对IV值的计算进行详细说明，由于IV值是基于证据权重(Weight Of Evidence，WOE)计算的，因此，接下来首先介绍WOE。WOE是对原始变量的一种编码形式，要对一个变量进行WOE编码，首先需要把这个变量进行分组处理，即分箱或者离散化，常用离散化的方法有等宽分组，等高分组，或者利用决策树来分组。WOE表示的含义即是"当前分组中响应客户占所有响应客户的比例"和"当前分组中没有响应的客户占所有没有响应客户的比例"的差异。IV衡量的是某一个变量的信息量，相当于是自变量WOE值的一个加权求和，其值的大小决定了自变量对于目标变量的影响程度。

通过本方案，对从底层平台抽取的原始数据进行数据清洗，即对数据进行重新审查和校验，如补齐残缺数据、删除重复数据、纠正错误数据之后，保障了数据的准确性、一致性和完整性，需要对底层数据进行清洗。

然后，从底层数据平台抽取文本数据，按id进行文本的合并，再剔除掉多余的文本如空格，标点符号等。当然，针对从底层平台获取到的文本数据同样可以进行数据清洗，数据清洗的具体步骤详细请参见前述针对原始数据进行数据清洗的步骤，然后再利用查找表将文本转换为n维01向量，将多条向量合并为特征矩阵，然后将特征矩阵存入计算平台层。具体转换方法如下表1所示：以10维的字典举例，将“我是谁”转换为10维的01向量。

表1.文本数据的数据转换

由上表1可知，根据10维的字典将文本数据“我是谁”进行转换后得到10维01向量为“0101000010”。需要说明的是，针对不同的业务场景，可以人工自定义选择或者设置不同维度的字典，例如在数据需求量较大的业务场景中，可以选择维度较大的字典，然后根据维度较大的字典对文本数据进行向量转换，这样可以使得字典中能尽可能的覆盖到所有的文本数据，提高数据转换的准确性；针对数据需求量较小的业务场景中，即可选择维度较小的字典，然后根据维度较大的字典对文本数据进行向量转换，由于数据需求量较小，对文本数据进行数据转换后得到的01向量维度偏小，因此可以节省计算机设备的存储空间，以及为后续数据计算提高处理效率。另外，除了根据具体的业务场景选择合适的字典之外，还可以采用通用的字典进行匹配和数据转换，即默认一个通用的字典，并且该通用字典的维度足够大，尽可能覆盖到所有可能出现的文本数据，针对任一业务场景，即可直接选择通用的字典进行数据转换，无需针对不同的业务场景重新设置相应的字典，节省了时间和人工成本。当然，在实际业务场景中，可根据具体情况具体分析，并选择恰当维度的字典，只要能够准确并有效的针对文本数据进行数据转换即可，本申请对此不作具体限定。

步骤S220：获取所述多个训练样本中每个训练样本的特征数据，所述特征数据包括初始标签数据和所述初始标签数据的标注时间。

具体实现时，每个训练样本包括特征数据，特征数据包括训练样本的初始标签数据和初始标签数据的标注时间。其中，初始标签数据具体是指数值型的标签，并且，初始标签数据在二分类或者多分类场景中为0或者1。标注时间是指标注该初始标签数据对应的时间。其中，初始标签数据的表达式如公式(1)所示：

公式(1)中，i表示某训练样本所属的类别，y为其中某一种类别。即训练样本属于类别y，则其对应的初始标签数据为1，若不属于类别y，则其对应的初始标签数据为0。并且除了适用于二分类场景，同样也适用于多分类场景。

其中，标注时间可以是以“天”为单位对应的时间，例如训练样本1的初始标签数据的标注时间为：2021年1月1日；标注时间也可以是以“小时”为单位对应的时间，例如训练样本1的初始标签数据的标注时间为：2021年1月1日12时。当然，标注时间也可以是以“分钟”为单位对应的时间，例如训练样本1的初始标签数据的标注时间为：2021年1月1日12：30，或者，标注时间也可以是以“月”为单位对应的时间，例如训练样本1的初始标签数据的标注时间为：2020年1月。针对不同的业务场景，可以选择合适并且恰当的时间单位(包括：月、天、小时、分钟等等)来获取相应标注时间。具体来说，如果在某业务场景中，标签数据受时间的变化较为明显，则可以选择较为精确的时间单位，例如“天”，在另一业务场景中，标签数据受时间变化不明显，则可以选择较为粗略的时间单位，例如“月”。

步骤S230：根据所述多个训练样本的初始标签数据的标注时间，对所述每个训练样本的初始标签数据进行调整处理，得到所述每个训练样本的调整后的目标标签数据。

具体实现时，对每个训练样本的初始标签数据进行调整处理具体可以包括对每个训练样本的初始标签数据进行标签平滑处理。其中，本方案中涉及到的标签平滑处理主要是针对受时间因素影响的初始标签数据进行标签平滑处理，例如标签数据为风险控制场景中的赌博标签、信贷标签等等。最后，针对每个训练样本的原始标签数据进行标签平滑处理后得到的多个训练样本的调整后的目标标签数据可以用于业务模型的训练。

在一种可能的实现方式中，计算机设备获取每个训练样本的初始标签数据的标注时间与参考时间之间的时间差。然后，计算机设备从每个训练样本分别对应的时间差中确定最大时间差。最后，计算机设备利用每个训练样本的初始标签数据的标注时间以及最大时间差，确定每个训练样本的调整后的目标标签数据。

其中，参考时间可以是指当前时间，也可以是指获取训练样本集的时间，只要是训练样本集中所有的训练样本以同一参考时间为标准即可，本申请对此不作具体限定。并且，参考时间对应的时间单位应当与标注时间对应的时间单位一致，具体来说，训练样本的初始标签数据的标注时间是以“天”为时间单位的，则参考时间同样应当以“天”为时间单位。

例如，训练样本1的初始标签数据的标注时间为：2021年1月1日，参考时间可以为当前时间，当前时间具体为2021年3月1日。然后，计算机设备计算每个训练样本的初始标注时间与参考时间之间的时间差，若训练样本集中包括10000个训练样本，则在获取到每个训练样本的初始标签数据的标注时间之后，分别计算每个训练样本的初始标签数据的标注时间与参考时间之间的时间差。假设从样本池中抽取的训练样本对应的时间差和初始标签数据如下表2：

表2.训练样本对应的时间差和初始标签

ID	时间差	初始标签
			id1	180	1
id2	170	1
			id3	160	1
id4	150	1
			id5	140	1
id6	130	1
			id7	150	0
id8	130	0
			id9	100	0
id10	120	0

其中，表2中示例性的给出了10个训练样本分别对应的时间差和初始标签，针对样本池中的所有训练样本均可以采用上述方法确定出相应的时间差，其中每个id对应一个训练样本的账户。其中，时间差具体可以为标注时间距离当前时间的天数之间的差值。然后，计算机设备从这10个训练样本中选择出最大时间差为180天。

在一种可能的实现方式中，计算机设备获取每个训练样本的初始标签数据的标注时间与最大时间差之间的比值；然后，计算机设备利用每个训练样本对应的比值和调整表达式确定每个训练样本的调整后的目标标签数据。

其中，可以将每个训练样本的初始标签数据的标注时间与最大时间差之间的比值记为f(t)，f(t)＝t/N。其中，t为每个训练样本对应的时间差，N为多个训练样本中的最大时间差。则调整表达式可以具体为公式(2)所示：

其中，K为训练样本集对应的分类数量。若在二分类的场景中，K＝2，在三分类的场景中，K＝3，以此类推。

根据公式(2)，可以将每个训练样本的原始标签数据通过标签平滑函数转换为经由时间函数平滑过的标签(即调整后的目标标签数据)。

在一种可能的实现中，若目标训练样本的目标标签数据为第一预设数值，则利用目标训练样本对应的比值以及第一调整表达式，确定目标训练样本的调整后的目标标签数据，其中，目标训练样本是多个训练样本中的任意一个。然后，若目标训练样本的目标标签数据为第二预设数值，则计算机设备利用目标训练样本对应的比值、训练样本集对应的分类数量以及第二调整表达式，确定目标训练样本的调整后的目标标签数据。

其中，第一预设数值可以具体为1，第二预设数值可以具体为0。若目标训练样本的目标标签数据为1，计算机设备利用目标训练样本对应的比值和第一调整表达式，确定目标训练样本的调整后的目标标签数据。其中，第一调整表达式可以具体为公式(3)所示：

P_i＝1-f(t) 公式(3)

同理，若目标训练样本的目标标签数据为0，计算机设备利用目标训练样本对应的比值、训练样本集对应的分类数量和第二调整表达式，确定目标训练样本的调整后的目标标签数据。其中，第二调整表达式可以具体为公式(4)所示：

其中，其中，K为训练样本集对应的分类数量。若在二分类的场景中，K＝2，在三分类的场景中，K＝3，以此类推。

举例来说，训练样本集对应的分类数量是指训练样本集中的针对多个训练样本所分类的类别数量。例如，训练样本集中包括的10个训练样本，id1，id2，id3，id4，id5，id6，id7，id8，id9，id10。其中，id1对应的分类类别为类别1，id2对应的分类类别为类别2，id3对应的分类类别为类别1，id4对应的分类类别为类别3，id5对应的分类类别为类别1，id6对应的分类类别为类别3，id7对应的分类类别为类别3，id8对应的分类类别为类别1，id9对应的分类类别为类别3，id10对应的分类类别为类别1。则在训练样本集中所包括的所有的训练样本的类别数量为3，则训练样本集对应的分类数量等于3。

举例来说，如表2中所示的训练样本，假设目标训练样本为id1，由于初始标签数据等于1，则根据第一调整表达式对id1的标签数据进行调整处理，得到id1调整后的目标标签数据：1-180/180＝0；对于id2，同样根据第一调整表达式对id2的标签数据进行调整处理，得到id2调整后的目标标签数据：1-170/180＝0.05；另外，根据第二调整表达式对id7的标签数据进行调整处理，假设K＝3，则得到id7调整后的目标标签数据：150/180*(3-1)＝0.42；以及，根据第二调整表达式对id8的标签数据进行调整处理，假设K＝3，则得到id8调整后的目标标签数据：130/180*(3-1)＝0.42。以此类推，将每个训练样本的原始标签数据通过第一调整表达式或者第二调整表达式进行调整处理后，得到相应的调整后的目标标签数据。每个训练样本的调整后的目标标签数据如表3所示：

表3.训练样本对应的调整后的目标标签

ID	时间差	调整后的目标标签
			id1	180	0
id2	170	0.05
			id3	160	0.11
id4	150	0.16
			id5	140	0.22
id6	130	0.27
			id7	150	0.42
id8	130	0.36
			id9	100	0.28
id10	120	0.33

由表2和表3可知，通过引用初始标签的标注时间来对初始标签进行平滑处理之后，得到的调整后的目标标签相比于初始标签而言更加平滑。例如，对于训练样本id2，其初始标签为1，由于距离当前时间过于久远，后续利用该训练样本id2的标签在模型训练阶段参考价值不大，因此利用时间因素将其标签由1变为0.05。又如，对于训练样本id9，其初始标签为0，由于距离当前时间过于久远，标签可能已经发生变化，因此利用时间因素将其标签由0变为0.28，后续利用该训练样本id9的标签在模型训练阶段可以占一定比例。综上所述，通过本方案，可以利用时间因素对标签进行平滑处理，得到平滑处理后的目标标签。

通过本申请实施例提供的数据处理方法，计算机设备可以获取包括多个训练样本的训练样本集以及多个训练样本中每个训练样本的特征数据；其中，特征数据包括初始标签数据和初始标签数据的标注时间；然后，计算设备根据多个训练样本的初始标签数据的标注时间，对每个训练样本的初始标签数据进行调整处理，得到每个训练样本的调整后的目标标签数据，调整后的目标标签数据用于业务模型的训练。由于每个训练样本的目标标签数据是根据每个训练样本的标注时间进行调整处理后确定的，因此通过调整处理后的目标标签数据训练得到的业务模型考虑了时间因素带来的标签的变化，从而提高了训练业务模型的准确性。

请参见图4，图4是本申请实施例提供的一种模型训练方法的流程示意图。该方法应用于计算机设备，计算机设备例如可以是智能手机、平板电脑、智能可穿戴设备、车载设备等等智能设备，计算机设备还可以由计算机设备和服务器协同完成，计算机设备还可以为服务器。如图4所示，该模型训练方法可包括步骤S410～S430。其中：

步骤S410：对所述多个训练样本中每个训练样本进行特征提取，得到所述每个训练样本的特征矩阵。

在一种可能的实现方式中，计算机设备对多个训练样本中每个训练样本进行特征提取，得到每个训练样本的特征矩阵的具体操作流程可参见图5，图5是本申请实施例提供的另一种数据处理方法的流程示意图。如图5所示，该流程示意图包括三个模块，分别为支付平台模块、计算平台模块和模型管理平台模块。其中，支付平台模块主要是用于获取训练样本，即可以从各个支付平台中抽取原始数据以及文本数据，其中，原始数据具体可以是包括数值型的数据，文本数据具体可以是包括文本型的数据，并且原始数据和文本数据可以统称为训练样本。然后，计算平台模块主要是用于对数据进行数据处理以及存储数据处理后的数据，主要是对原始数据和/或文本数据进行特征工程，特征工程具体可以包括数据清洗、数据脱敏等等操作，得到相应的数据特征，并将数据特征存储于计算平台模块，并且每个训练样本对应一个账户，每个训练样本的数据特征也对应一个账户；当然，每个训练样本均包括一个原始标签数据，在计算平台模块可以对每个训练样本的原始标签数据进行调整处理，得到每个训练样本对应的调整后的目标标签数据，调整后的目标标签数据同样存储与计算平台模块。

最后，模型管理平台模块主要是用于模型训练，每个训练样本的数据特征和相应的调整后的目标标签数据可以用于业务模型的训练，通过训练样本的数据特征和训练样本调整后的目标标签数据可以用于对业务模型的训练。由于，用于模型训练的每个训练样本的目标标签数据是通过时间函数进行调整处理过的，考虑到了其受时间因素的影响，因此，调整后的目标标签数据可以更好的训练业务模型，从而使得业务模型能够具备更准确的模型识别能力，从而提高模型的准确性。

在一种可能的实现方式中，针对文本数据的数据特征，计算机设备可以进一步地将文本数据的01矩阵转换为可供业务模型使用的输出特征。其中，具体可以利用神经网络模型对文本数据的特征进行识别处理，得到文本数据的文本特征。需要说明的是，神经网络模型具体可以为Transformer模型，RNN(循环神经网络，Recurrent Neural Network，RNN)模型，LSTM(长短期记忆网络，LSTM，Long Short-Term Memory)，GRU(门控循环神经网络，Gated Recurrent Neural network)模型，或者神经网络模型也可以为其它类型的网络模型，例如递归神经网路模型等，本发明对此不作限定。

举例来说，以神经网络模型为Transformer模型为例进行详细说明，其中，请参见图6，图6是本申请实施例提供的一种Transformer模型的模型结构示意图。如图6所示，Transformer模型包括编码器和解码器，其中输入编码器的参数可以是通过输入词嵌入模块以及位置编码处理后的输入参数，然后将经由输入词嵌入模块处理后的输入参数输入到编码器中，其中，编码器具体可以包括多头注意力模块(Multi-head Attention)、前馈神经网络模块(Feed Forward)，解码器具体可以包括多头注意力模块(Multi-headAttention)、前馈神经网络模块(Feed Forward)、掩码多头注意力模块(Masked Multi-head Attention)、归一化层以及激活函数层等等。

具体来说，假设文本数据为“我是谁”。通过图2实施例中对文本数据的数据转换处理，得到10维的01向量。即根据10维的字典将文本数据“我是谁”进行转换后得到10维01向量为“0101000010”。然后可以将“0101000010”作为Transformer模型的输入参数，通过Transformer模型的处理，得到文本数据“我是谁”对应的特征矩阵。

其中，对原始数据进行特征工程得到交易特征的具体步骤如下。首先，从底层数据平台抽取原始数据，按照id(每个id对应一个账户)进行多表匹配，对原始数据进行合并，再将原始数据按特定维度进行聚合(进行特征工程)其中，特征工程就是通过X，创造新的X'。基本的操作包括，衍生(升维)，筛选(降维)。其中，原始数据可以具体为在支付平台进行抽取得到的数据，支付平台具体可以为信息交流中心的支付平台、购物交易支付平台等等。

其中，按照id进行多表匹配的意思是指：例如需要取1w个样本，全量用户有10e，特征分布在不同的表a和b上，那首先需要在a表中匹配需要的1w个账户的特征，然后在b表中匹配需要的1w个账户的特征。然后把a表和b表分别匹配的不同的特征再按id合并到一张表上。将同一账户对应的文本特征合并在同一张表中。最后，可以利用缺失率，唯一性等原则进行对原始数据进行数据清洗然后储存到计算平台层。

然后，将原始数据进行特征工程处理后得到的交易特征与文本特征进行组合或者拼接，得到训练样本的特征矩阵。

步骤S420：根据所述每个训练样本的特征矩阵和所述每个训练样本的调整后的目标标签数据，训练业务模型。

在一种可能的实现方式中，计算机设备调用业务模型对每个训练样本的特征矩阵进行识别处理，得到每个训练样本的预测标签数据；然后，计算机设备根据每个训练样本的预测标签数据和每个训练样本的调整后的目标标签数据之间的差异，确定业务模型的损失函数；最后，计算机设备根据损失函数调整业务模型的模型参数。

在一种可能的实现方式中，业务模型具体可以为分类模型，分类模型具体可以包括XGBOOST分类模型。其中，XGBOOST分类模型的模型参数如下：

其中，eta代表学习速率，用于控制树的权重，XGBOOST分类模型在进行完每一轮迭代之后，会将叶子节点的分数乘上该系数，以便于削弱各棵树的影响，避免过拟合。

max_depth表示树的最大深度。也是用来避免过拟合的，当它的值越大时，模型会学到更具体更局部的样本，可能会导致过拟合。

Lambda是指权重的L2正则化项。这个参数是用来控制XGBoost分类模型的正则化部分的，在减少过拟合上还是可以挖掘出更多用处的。

Subsample用于控制对于每棵树，随机采样的比例。减小这个参数的值，算法会更加保守，避免过拟合。但是，如果这个值设置得过小，它可能会导致欠拟合。

当然，本申请实施例提供的业务模型除了XGBOOST分类模型之外，还可以为其它分类模型，例如GBDT模型、随机森林模型。神经网络模型、决策树算法模型等等，决策树算法模型具体可以包括：ID3算法模型，C4.5算法模型，C5.0算法模型和分类和回归树(Classification And Regression Tree，CART)算法模型等。

其中，XGBOOST分类模型可以认为是GBDT模型算法的工程实现。具体来说，GBDT模型是对多个CART决策树集成，每一颗CART决策树训练的目标都是当前损失函数的负梯度方向。在节点分裂的过程中，依然是基于最小平方误差或基于最小基尼系数做特征选择。XGBOOST分类模型也是一个加法模型，但是它结点分裂的标准发生了新的变化。无论是回归问题还是分类问题，我们都先定义一个损失函数，损失函数是可微的任意损失函数。

举例来说，以业务模型为XGBOOST分类模型为例进行详细说明。请参见图7，图7是本申请实施例提供的另一种模型训练方法的流程示意图。首先，训练过程中先设置初始参数值，训练XGBOOST分类模型，之后输出损失函数值，将此数据保存好，输入到高斯随机过程模型中进行下一轮的参数预测，并将高斯过程(Gaussian Process)预测的参数输入到XGBOOST分类模型中进行第二轮的训练，然后循环这些步骤直到损失函数降到期望数值。

通过本方案，利用每个训练样本的调整后的目标标签数据与模型预测得到的每个训练样本的预测标签数据之间的差异来调整业务模型的模型参数，由于用于模型训练的每个训练样本的目标标签数据是通过时间函数进行调整处理过的，考虑到了其受时间因素的影响，因此，调整后的目标标签数据可以更好的训练业务模型，从而使得业务模型能够具备更准确的模型识别能力，从而提高模型的准确性。

步骤S430：当训练后的业务模型满足模型收敛条件时，则停止对所述业务模型的训练。

在一种可能的实现方式中，所谓模型收敛条件可以是指：当业务模型的训练次数达到预设训练阈值时，例如100次，则业务模型满足模型收敛条件，即训练100次后则停止对业务模型的训练；当每个训练样本的预测标签数据和每个训练样本的调整后的目标标签数据之间的差异均小于误差阈值时，则业务模型满足模型收敛条件；当业务模型相邻两次训练得到的预测标签数据之间的变化小于变化阈值时，则业务模型满足模型收敛条件。其中，业务模型具体可以包括汇兑模型、信贷模型等等。

在一种可能的实现方式中，计算机设备获取业务预测请求，其中，业务预测请求中携带业务数据。然后，计算机设备对业务数据进行特征提取，得到业务数据的特征矩阵；然后，计算技设备调用业务模型对业务数据的业务特征进行识别处理，得到业务数据的风险预测概率；最后，若风险预测概率大于或者等于参考概率阈值，则将业务数据标记为风险数据。

在一种可能的实现方式中，停止对业务模型的训练之后，可以获取训练后的业务模型，其中，业务模型用于对业务数据进行风险预测。具体来说，在风险控制场景中的汇兑模型，可以利用本方案，当获取到携带业务数据的业务预测请求时，调用训练好的业务模型对业务数据进行风险预测，得到该业务数据的风险预测结果，风险预测结果具体可以为风险预测概率。若该业务数据的风险预测概率大于或者等于参考概率阈值时，则认为该业务数据存在业务风险，因此可以将该业务数据标记为风险数据，然后将标记为风险数据后的业务数据发送至业务获取请求的发送方。后续，在实际业务场景中获取到该业务数据时，即可直接对该业务数据进行拦截或者过滤处理，从而达到风险控制的效果。

通过本方案，利用每个训练样本的特征矩阵和每个训练样本的调整后的目标标签数据，训练得到的业务模型，可以用于风险控制，在风险控制场景下的汇兑模型，性能获得了提升，(Kolmogorov-Smirnov，KS)提升达到10％。其中，KS用于模型风险区分能力进行评估，指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大，KS指标越大，那么模型的风险区分能力越强。由于每个训练样本的目标标签数据是根据每个训练样本的标注时间进行调整处理后确定的，因此通过调整处理后的目标标签数据训练得到的业务模型考虑了时间因素带来的标签的变化，从而提高了训练业务模型的准确性。进一步地，训练好的业务模型在业务场景中的风险预测效果更好，提高了风险预测的准确性。

请参见图8，图8是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置800可应用于图2～图7对应的方法实施例中的计算机设备。数据处理装置800可以是运行于轻量节点中的一个计算机程序(包括程序代码)，例如该数据处理装置800为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。该数据处理装置800可包括：

获取单元810，用于获取训练样本集，所述训练样本集包括多个训练样本；

所述获取单元810，还用于获取所述多个训练样本中每个训练样本的特征数据，所述特征数据包括初始标签数据和所述初始标签数据的标注时间；

处理单元820，用于根据所述多个训练样本的初始标签数据的标注时间，对所述每个训练样本的初始标签数据进行调整处理，得到所述每个训练样本的调整后的目标标签数据，所述调整后的目标标签数据用于业务模型的训练。

在一种可能的实现方式中，处理单元820根据所述多个训练样本的初始标签数据的标注时间，对所述每个训练样本的初始标签数据进行调整处理，得到所述每个训练样本的调整后的目标标签数据，包括：

获取所述每个训练样本的初始标签数据的标注时间与参考时间之间的时间差；

从所述每个训练样本分别对应的时间差中确定最大时间差；

利用所述每个训练样本的初始标签数据的标注时间以及所述最大时间差，确定所述每个训练样本的调整后的目标标签数据。

在一种可能的实现方式中，处理单元820利用所述每个训练样本的初始标签数据的标注时间以及所述最大时间差，确定所述每个训练样本的调整后的目标标签数据，包括：

获取所述每个训练样本的初始标签数据的标注时间与所述最大时间差之间的比值；

利用所述每个训练样本对应的比值和调整表达式确定所述每个训练样本的调整后的目标标签数据。

在一种可能的实现方式中，调整表达式包括第一调整表达式和第二调整表达式，所述处理单元820利用所述每个训练样本对应的比值和调整表达式确定所述每个训练样本的调整后的目标标签数据，包括：

若目标训练样本的初始标签数据为第一预设数值，则利用所述目标训练样本对应的比值以及所述第一调整表达式，确定所述目标训练样本的调整后的目标标签数据，所述目标训练样本是所述多个训练样本中的任意一个；

若所述目标训练样本的初始标签数据为第二预设数值，则利用所述目标训练样本对应的比值、所述训练样本集对应的分类数量以及所述第二调整表达式，确定所述目标训练样本的调整后的目标标签数据。

在一种可能的实现方式中，处理单元820还用于执行以下操作：

对所述多个训练样本中每个训练样本进行特征提取，得到所述每个训练样本的特征矩阵；

根据所述每个训练样本的特征矩阵和所述每个训练样本的调整后的目标标签数据，训练业务模型；

当训练后的业务模型满足模型收敛条件时，则停止对所述业务模型的训练，并获取所述训练后的业务模型，所述训练后的业务模型用于对业务数据进行风险预测。

在一种可能的实现方式中，处理单元820根据所述每个训练样本的特征矩阵和所述每个训练样本的调整后的目标标签数据，训练业务模型，包括：

调用业务模型对所述每个训练样本的特征矩阵进行识别处理，得到所述每个训练样本的预测标签数据；

根据所述每个训练样本的预测标签数据和所述每个训练样本的调整后的目标标签数据之间的差异，确定所述业务模型的损失函数；

根据所述损失函数调整所述业务模型的模型参数。

获取业务预测请求，所述业务预测请求中携带业务数据；

对所述业务数据进行特征提取，得到所述业务数据的特征矩阵；

调用所述业务模型对所述业务数据的特征矩阵进行识别处理，得到所述业务数据的风险预测概率；

若所述风险预测概率大于或者等于参考概率阈值，则将所述业务数据标记为风险数据。

通过本申请实施例提供的数据处理装置，可以获取包括多个训练样本的训练样本集以及多个训练样本中每个训练样本的特征数据；其中，特征数据包括初始标签数据和初始标签数据的标注时间；然后，多个训练样本的初始标签数据的标注时间，对每个训练样本的初始标签数据进行调整处理，得到每个训练样本的调整后的目标标签数据，调整后的目标标签数据用于业务模型的训练。由于每个训练样本的目标标签数据是根据每个训练样本的标注时间进行调整处理后确定的，因此通过调整处理后的目标标签数据训练得到的业务模型考虑了时间因素带来的标签的变化，从而提高了业务模型识别效果的准确性。

请参见图9，图9是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备900用于执行图2～图7对应的方法实施例中计算机设备所执行的步骤，该计算机设备900包括：一个或多个处理器910；一个或多个输入设备920，一个或多个输出设备930和存储器940。上述处理器910、输入设备920、输出设备930和存储器940通过总线950连接。存储器940用于存储计算机程序，所述计算机程序包括程序指令，处理器910用于执行存储器940存储的程序指令，执行以下操作：

训练样本集，所述训练样本集包括多个训练样本；

在一种可能的实现方式中，处理器910根据所述多个训练样本的初始标签数据的标注时间，对所述每个训练样本的初始标签数据进行调整处理，得到所述每个训练样本的调整后的目标标签数据，包括：

从所述每个训练样本分别对应的时间差中确定最大时间差；

在一种可能的实现方式中，处理器910利用所述每个训练样本的初始标签数据的标注时间以及所述最大时间差，确定所述每个训练样本的调整后的目标标签数据，包括：

在一种可能的实现方式中，所述调整表达式包括第一调整表达式和第二调整表达式，所述处理器910利用所述每个训练样本对应的比值和调整表达式确定所述每个训练样本的调整后的目标标签数据，包括：

在一种可能的实现方式中，处理器910还用于执行以下操作：

在一种可能的实现方式中，处理器910根据所述每个训练样本的特征矩阵和所述每个训练样本的调整后的目标标签数据，训练业务模型，包括：

根据所述损失函数调整所述业务模型的模型参数。

在一种可能的实现方式中，处理器910还用于执行以下操作：

获取业务预测请求，所述业务预测请求中携带业务数据；

应当理解，本申请实施例中所描述的计算机设备可执行前文图2～图7所对应实施例中对数据处理方法的描述，也可执行前文图8所对应实施例中对数据处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机存储介质，且计算机存储介质中存储有前文提及的数据处理装置所执行的计算机程序，且该计算机程序包括程序指令，当处理器执行上述程序指令时，能够执行前文图2～图7所对应实施例中的方法，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可以被部署在一个计算机设备上，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可以执行前文图2～图5所对应实施例中的方法，因此，这里将不再进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取训练样本集，所述训练样本集包括多个训练样本；

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个训练样本的初始标签数据的标注时间，对所述每个训练样本的初始标签数据进行调整处理，得到所述每个训练样本的调整后的目标标签数据，包括：

从所述每个训练样本分别对应的时间差中确定最大时间差；

3.根据权利要求2所述的方法，其特征在于，所述利用所述每个训练样本的初始标签数据的标注时间以及所述最大时间差，确定所述每个训练样本的调整后的目标标签数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述调整表达式包括第一调整表达式和第二调整表达式，所述利用所述每个训练样本对应的比值和调整表达式确定所述每个训练样本的调整后的目标标签数据，包括：

5.根据权利要求1～4中任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述每个训练样本的特征矩阵和所述每个训练样本的调整后的目标标签数据，训练业务模型，包括：

根据所述损失函数调整所述业务模型的模型参数。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取业务预测请求，所述业务预测请求中携带业务数据；

8.一种数据处理装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，包括存储器以及处理器，所述存储器存储一组程序代码，所述处理器调用所述存储器中存储的程序代码，用于执行1～7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1～7中任一项所述的方法。