CN115238837B

CN115238837B - 一种数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN115238837B
Application number: CN202211162581.XA
Authority: CN
Inventors: 赵杰
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2023-04-18
Anticipated expiration: 2042-09-23
Also published as: CN115238837A

Abstract

本申请提供一种数据处理方法、装置、电子设备及存储介质，涉及智能终端技术领域，用于快速、准确地获取用于预测用户行为的样本数据。该数据处理方法包括：在获取第一样本数据，以及与第一样本数据的相似度大于预设相似度阈值的多个第二样本数据后，可以当多个第二样本数据中的异类样本数据比例处于预设数值范围时，对支付事件对应的样本数据进行过采样，以得到目标样本数据。接着，根据包括第一样本数据和目标样本数据的待训练样本数据进行模型训练，以得到预测模型，以使得基于预测模型对获取到的待预测事件进行预测，以得到预测结果。后续，当预测结果用于表示待预测事件是支付事件的概率大于预设概率时，显示支付事件对应的支付推送信息。

Description

一种数据处理方法、装置、电子设备及存储介质

技术领域

本申请涉及智能终端技术领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

随着智能终端技术的快速发展，用户使用手机支付的次数越加频繁。但是，用户在使用手机支付时，从解锁手机到支付页面，需要执行多次操作，用户体验较差。

目前，通过人工智能（Artificial Intelligence，AI）算法对用户的历史行为数据进行预测，可以提前显示支付界面或者推送支付服务卡片，进而提高用户使用手机支付的效率。

但是，通过AI算法对用户的历史行为数据进行预测时，需要获取大量的用户支付行为数据训练生成预测模型，才能提高预测模型的精度，进而通过预测模型准确的预测用户是否需要使用手机支付。在这种情况下，通用技术需要较长时间才能获取到大量的用户支付行为数据，数据收集效率低，进而导致行为预测的效率低。

发明内容

本申请提供一种数据处理方法、装置、电子设备及存储介质，涉及智能终端技术领域，用于快速、准确地获取用于预测用户行为的样本数据。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请提供一种数据处理方法，包括：

可以获取第一样本数据，以及与第一样本数据的相似度大于预设相似度阈值的多个第二样本数据。其中，第一样本数据包括支付事件对应的样本数据；多个第二样本数据中包括支付事件对应的样本数据，和/或非支付事件对应的样本数据。接着，当多个第二样本数据中的异类样本数据比例处于预设数值范围时，可以对第一样本数据和多个第二样本数据中支付事件对应的样本数据进行过采样，以得到目标样本数据。接着，可以根据包括第一样本数据和目标样本数据的待训练样本数据进行模型训练，以得到预测模型。接着，可以获取用户设备的待预测事件，并基于预测模型对待预测事件进行预测，以得到用于指示待预测事件是支付事件的概率的预测结果。后续，当预测结果用于表示待预测事件是支付事件的概率大于预设概率时，显示支付事件对应的支付推送信息。

由上可知，由于多个第二样本数据与第一样本数据比较相似，因此，通过多个第二样本数据和第一样本数据可以对支付事件对应的样本数据进行过采样，以得到目标样本数据。相比通用技术，本申请实施例提供的数据处理方法无需通过较长时间的积累，便可以直接对支付事件对应的样本数据进行过采样，进而快速、准确的获取到大量的支付事件对应的样本数据，提高了支付事件对应的样本数据的数据收集效率，进而提高了行为预测的效率。

其次，通过对支付事件对应的样本数据进行过采样，可以保证支付事件对应的样本数据和非支付事件对应的样本数据的数量接近，从而根据包括第一样本数据和目标样本数据的待训练样本数据可以进行模型训练，可以得到精度更高的预测模型，提高了行为预测的准确度。

再次，本申请实施例提供的数据处理方法，可以当多个第二样本数据中的异类样本数据比例处于预设数值范围时，生成目标样本数据。在这种情况下，多个第二样本数据中可以既可以包括支付事件对应的样本数据，也可以包括非支付事件对应的样本数据，进而使得生成的目标样本数据具有不同事件（支付事件和非支付事件）的特征。这样，AI算法通过对目标样本数据进行训练得到的预测模型可以学习不同事件的特征，提高了预测模型对支付事件和非支付事件的辨别能力，进而提高了预测模型的鲁棒性。

在一种可能的实现方式中，第一样本数据和多个第二样本数据中的每个第二样本数据均包括：数值型特征数据和离散型特征数据；上述对第一样本数据和多个第二样本数据中支付事件对应的样本数据进行过采样，以得到目标样本数据的方法具体包括：根据第一样本数据的数值型特征数据和每个第二样本数据的数值型特征数据，确定目标样本数据的数值型特征数据，以及根据每个第二样本数据中的离散型特征数据，确定目标样本数据的离散型特征数据。后续，可以根据目标样本数据的数值型特征数据和目标样本数据的离散型特征数据生成目标样本数据，即目标样本数据包括：目标样本数据的数值型特征数据和目标样本数据的离散型特征数据。

由上可知，在第一样本数据和多个第二样本数据中的每个第二样本数据均包括：数值型特征数据和离散型特征数据的情况下，可以分别根据第一样本数据的数值型特征数据和每个第二样本数据的数值型特征数据，确定目标样本数据的数值型特征数据，以及根据每个第二样本数据中的离散型特征数据，确定目标样本数据的离散型特征数据，从而生成目标样本数据，实现了快速、准确的获取用于预测用户行为的目标样本数据，提高了预测模型的精度，进而提高了行为预测的效率。

在一种可能的实现方式中，当目标样本数据的数量为预设数量时，上述根据第一样本数据的数值型特征数据和每个第二样本数据的数值型特征数据，确定目标样本数据的数值型特征数据的方法具体包括：从多个第二样本数据中选取预设数量的第二样本数据后，可以对第一样本数据的数值型特征数据，以及预设数量的第二样本数据中的任意一个第二样本数据执行目标操作，以得到目标样本数据的数值型特征数据。

上述目标操作包括：根据第一样本数据的数值型特征数据和一个第二样本数据的数值型特征数据，确定一个目标样本数据的数值型特征数据；一个目标样本数据的数值型特征数据、第一样本数据的数值型特征数据和一个第二样本数据的数值型特征数据满足下述公式：

P =A+α*|B-A|；

其中，P用于表示一个目标样本数据的数值型特征数据，A用于表示第一样本数据的数值型特征数据，B用于表示一个第二样本数据的数值型特征数据，α用于表示与一个第二样本数据对应的预设插值。

由上可知，本申请实施例提供的数据处理方法可以从多个第二样本数据中选取预设数量的第二样本数据，以便于生成的目标样本数据的数量满足训练预测模型所需要的预设数量。后续，可以通过目标操作，快速、准确的得到目标样本数据的数值型特征数据，给出了一种确定目标样本数据的数值型特征数据的具体实现方式，以便于后续快速、准确的获取用于预测用户行为的目标样本数据。

在一种可能的实现方式中，上述根据每个第二样本数据中的离散型特征数据，确定目标样本数据的离散型特征数据的方法具体包括：可以确定每个第二样本数据中的离散型特征数据的数量与多个第二样本数据的数量的比值，以得到与多个第二样本数据一一对应的多个离散型特征数据比例。后续，将多个离散型特征数据比例中比例值大于预设比例值的离散型特征数据，确定为目标样本数据的离散型特征数据。

由上可知，由于离散型特征数据是通过计数得到的，无法表示某个特征的具体数量，因此，终端可以确定每个第二样本数据中的离散型特征数据的数量与多个第二样本数据的数量的比值，以得到与多个第二样本数据一一对应的多个离散型特征数据比例，并将多个离散型特征数据比例中比例值大于预设比例值的离散型特征数据，确定为目标样本数据的离散型特征数据，给出了一种确定目标样本数据的离散型特征数据的具体实现方式，解决了通用技术无法对离散型特征数据进行过采样的技术问题。

在一种可能的实现方式中，上述获取与第一样本数据的相似度大于预设相似度阈值的多个第二样本数据的方法具体包括：在获取多个初始样本数据后，由于每个初始样本数据包括：数值型特征数据和离散型特征数据，因此，可以基于预设相似度算法、第一样本数据中的数值型特征数据、以及每个初始样本数据中的数值型特征数据，确定第一样本数据与每个初始样本数据的相似度，以得到与多个初始样本数据一一对应的多个相似度。后续，可以将多个相似度中大于预设相似度阈值的相似度对应的初始样本数据，确定为多个第二样本数据。其中，预设相似度算法包括：欧氏距离算法。

由上可知，由于数值型特征数据用于表示某个特征的具体数量，因此，在获取多个初始样本数据以及第一样本数据，并且在第一样本数据和多个初始样本数据中的每个初始样本数据都包括数值型特征数据的情况下，终端可以基于预设相似度算法、第一样本数据中的数值型特征数据、以及每个初始样本数据中的数值型特征数据，确定第一样本数据与每个初始样本数据的相似度，以得到与多个初始样本数据一一对应的多个相似度。接着，终端可以将多个相似度中大于预设相似度阈值的相似度对应的初始样本数据，确定为多个第二样本数据，给出了一种确定多个第二样本数据的具体实现方式，以便于后续根据多个第二样本数据与第一样本数据快速、准确的获取到目标样本数据，提高了预测模型的精度，进而提高了行为预测的效率。

在一种可能的实现方式中，预设数值范围的最小值大于0，且预设数值范围的最大值小于1。

由上可知，在预设数值范围的最小值大于0，且预设数值范围的最大值小于1的情况下，多个第二样本数据中既可以包括支付事件对应的样本数据，也可以包括非支付事件对应的样本数据，进而使得生成的目标样本数据具有不同事件的特征。这样，AI算法通过对目标样本数据进行训练得到的预测模型可以学习不同事件的特征，提高了预测模型对支付事件对应的样本数据和非支付事件对应的样本数据的辨别能力，进而提高了预测模型的鲁棒性。

第二方面，本申请提供一种数据处理装置，包括：获取单元和处理单元；获取单元，获取第一样本数据，以及与第一样本数据的相似度大于预设相似度阈值的多个第二样本数据；第一样本数据包括支付事件对应的样本数据；多个第二样本数据中包括支付事件对应的样本数据，和/或非支付事件对应的样本数据；处理单元，用于当多个第二样本数据中的异类样本数据比例处于预设数值范围时，对第一样本数据和多个第二样本数据中支付事件对应的样本数据进行过采样，以得到目标样本数据；异类样本数据比例用于表示多个第二样本数据中，非支付事件对应的样本数据的数量与多个第二样本数据的数量的比值；

处理单元，还用于根据待训练样本数据进行模型训练，以得到预测模型；待训练样本数据包括：第一样本数据和目标样本数据；

获取单元，还用于获取用户设备的待预测事件，并基于预测模型对待预测事件进行预测，以得到预测结果；预测结果用于指示待预测事件是支付事件的概率；

处理单元，还用于当预测结果用于表示待预测事件是支付事件的概率大于预设概率时，显示支付事件对应的支付推送信息。

在一种可能的实现方式中，第一样本数据和多个第二样本数据中的每个第二样本数据均包括：数值型特征数据和离散型特征数据；处理单元，具体用于：根据第一样本数据的数值型特征数据和每个第二样本数据的数值型特征数据，确定目标样本数据的数值型特征数据；根据每个第二样本数据中的离散型特征数据，确定目标样本数据的离散型特征数据；生成目标样本数据；目标样本数据包括：目标样本数据的数值型特征数据和目标样本数据的离散型特征数据。

在一种可能的实现方式中，当目标样本数据的数量为预设数量时，处理单元，具体用于：从多个第二样本数据中选取预设数量的第二样本数据；对第一样本数据的数值型特征数据，以及预设数量的第二样本数据中的任意一个第二样本数据执行目标操作，以得到目标样本数据的数值型特征数据；目标操作包括：根据第一样本数据的数值型特征数据和一个第二样本数据的数值型特征数据，确定一个目标样本数据的数值型特征数据；一个目标样本数据的数值型特征数据、第一样本数据的数值型特征数据和一个第二样本数据的数值型特征数据满足下述公式：

P =A+α*|B-A|；

在一种可能的实现方式中，处理单元，具体用于：确定每个第二样本数据中的离散型特征数据的数量与多个第二样本数据的数量的比值，以得到与多个第二样本数据一一对应的多个离散型特征数据比例；将多个离散型特征数据比例中比例值大于预设比例值的离散型特征数据，确定为目标样本数据的离散型特征数据。

在一种可能的实现方式中，获取单元，具体用于：获取多个初始样本数据；每个初始样本数据包括：数值型特征数据和离散型特征数据；基于预设相似度算法、第一样本数据中的数值型特征数据、以及每个初始样本数据中的数值型特征数据，确定第一样本数据与每个初始样本数据的相似度，以得到与多个初始样本数据一一对应的多个相似度；预设相似度算法包括：欧氏距离算法；将多个相似度中大于预设相似度阈值的相似度对应的初始样本数据，确定为多个第二样本数据。

第三方面，本申请提供一种电子设备，可以包括：处理器和用于存储处理器可执行指令的存储器；其中，处理器被配置为执行所述指令，以实现上述第一方面中任一种可选地数据处理方法。

第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质上存储有指令，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述第一方面中任一种可选地数据处理方法。

第五方面，本申请提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在电子设备的处理器上运行时，使得电子设备的处理器执行如第一方面中任一种可选地实现方式所述的数据处理方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

可以理解地，上述各个方面所提供的数据处理装置、电子设备、计算机可读存储介质以及计算机程序产品均应用于上文所提供的数据处理方法，因此，其所能达到的有益效果可参考上文所提供的数据处理的方法中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种数据处理系统的结构示意图；

图2为本申请实施例提供的一种数据处理方法的流程示意图一；

图3为本申请实施例提供的一种样本数据的分布示例图；

图4为本申请实施例提供的一种数据处理方法的流程示意图二；

图5为本申请实施例提供的一种数据处理方法的用户设备界面显示示意图；

图6为本申请实施例提供的一种数据处理方法的流程示意图三；

图7为本申请实施例提供的一种数据处理装置的结构示意图；

图8为本申请实施例提供的一种终端的结构示意图；

图9为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

本申请中字符“/”，一般表示前后关联对象是一种“或者”的关系。例如，A/B可以理解为A或者B。

术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

此外，本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括其他没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

另外，在本申请实施例中，“示例性的”、或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”、或者“例如”等词旨在以具体方式呈现概念。

在对本申请提供的数据处理方法进行详细介绍之前，先对本申请涉及的相关要素、应用场景、实施环境进行简单介绍。

首先，对本申请涉及的相关要素进行简单介绍。

过采样（oversampling）：着人工智能技术以及机器学习的快速发展，通过正样本和负样本训练得到的分类模型通常具有一定的分类精度。但是，在实际应用中，在对分类模型进行训练学习时，存在着大量不平衡的样本集，即某一类样本数量远大少于另一类样本数量，导致模型针对数量较少的类型的样本无法深度学习。因此，通常需要对数量较少的类型的样本进行过采样，以增加该类样本的数量。

过采样，即对样本集中少数类的样本进行“过采样”，简单来说就是对少数类的样本抽取多次，从而使正负样本数目接近，再进行学习，从而提高分类模型的分类精度。

数值型特征数据：又称为定量型特征数据，用于表示某个特征的具体数量，形式可以是数字。例如，用户设备上次执行支付事件距离当前时间有10分钟。

离散型特征数据：是通过计数得到的，用于表示某个特征的具体整数形式。例如，用户设备上次执行支付事件是上周一。

接着，对本申请的应用场景进行简单介绍。

如背景技术所描述，通过AI算法对用户的历史行为数据进行预测时，需要获取大量的用户支付行为数据训练生成预测模型，才能提高预测模型的精度，进而通过预测模型准确的预测用户是否需要使用手机支付。在这种情况下，通用技术需要较长时间才能获取到大量的用户支付行为数据，数据收集效率低，进而导致行为预测的效率低。

针对上述问题，本申请提供一种数据处理方法，可以获取第一样本数据，以及与第一样本数据的相似度大于预设相似度阈值的多个第二样本数据。其中，第一样本数据包括支付事件对应的样本数据；多个第二样本数据中包括支付事件对应的样本数据，和/或非支付事件对应的样本数据。接着，当多个第二样本数据中的异类样本数据比例处于预设数值范围时，可以对第一样本数据和多个第二样本数据中支付事件对应的样本数据进行过采样，以得到目标样本数据。接着，可以根据包括第一样本数据和目标样本数据的待训练样本数据进行模型训练，以得到预测模型。接着，可以获取用户设备的待预测事件，并基于预测模型对待预测事件进行预测，以得到用于指示待预测事件是支付事件的概率的预测结果。后续，当预测结果用于表示待预测事件是支付事件的概率大于预设概率时，显示支付事件对应的支付推送信息。

下面将结合附图对本实施例的实施环境进行详细描述。

本申请实施例提供的数据处理方法可以应用于数据处理系统。图1示出了本申请实施例提供的一种数据处理系统的结构示意图。

如图1所示，本申请实施例提供的数据处理系统包括：用于对样本数据进行过采样的第一电子设备101，以及用于向第一电子设备101提供样本数据的第二电子设备102。

其中，第一电子设备101与第二电子设备102之间通过有线网络或无线网络实现通信连接。

在实际应用中，第一电子设备101可以连接多个第二电子设备102。为了便于理解，本申请以一个第一电子设备101连接一个第二电子设备102为例进行说明。

可选的，第一电子设备101和第二电子设备102的实体设备可以是服务器，也可以是终端，还可以一个是服务器，另一个是终端，本申请实施例对此不作限定。

可选的，上述终端可以是指向用户提供语音和/或数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网（radio access network，RAN）与一个或多个核心网进行通信。无线终端可以是移动终端，如移动电话（或称为“蜂窝”电话）和具有移动终端的计算机，也可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语言和/或数据，例如，手机、平板电脑、笔记本电脑、上网本、个人数字助理（personal digital assistant，PDA）。

可选的，上述服务器可以是服务器集群（由多个服务器组成）中的一个服务器，也可以是该服务器中的芯片，还可以是该服务器中的片上系统，还可以通过部署在物理机上的虚拟机（virtual machine，VM）实现，本申请实施例对此不作限定。

可选的，当第一电子设备101和第二电子设备102为同一类型的实体设备（例如第一电子设备101和第二电子设备102均为服务器，或者均为终端）时，第一电子设备101和第二电子设备102可以是相互独立设置的两个设备，也可以集成在同一设备中。

容易理解的是，当第一电子设备101和第二电子设备102集成在同一设备时，第一电子设备101和第二电子设备102之间的通信方式为该设备内部模块之间的通信。这种情况下，二者之间的通信流程与“第一电子设备101和第二电子设备102相互独立的情况下，二者之间的通信流程”相同。

本申请实施例中，第一电子设备101可以对用户的支付行为样本数据进行过采样，从而预测用户的支付行为。在这种情况下，第一电子设备101和第二电子设备102可以集成在同一个终端（即用户设备）中。第一电子设备101可以是该终端中的数据处理模块，第二电子设备102可以是该终端中的数据采集模块。

为了便于理解，本申请以第一电子设备101和第二电子设备102集成在同一个终端为例进行说明。

下面结合附图对本申请实施例提供的技术方案进行详细说明。

本申请实施例提供的数据处理方法可以应用于终端。

图2示出了本申请实施例提供一种数据处理方法。如图2所示，该数据处理方法具体包括：

S201、终端获取第一样本数据，以及与第一样本数据的相似度大于预设相似度阈值的多个第二样本数据。

其中，第一样本数据包括支付事件对应的样本数据；多个第二样本数据中包括支付事件对应的样本数据，和/或非支付事件对应的样本数据。

在一种可以实现的方式中，由于本申请实施例提供的预测模型用于预测用户执行支付事件的概率，因此，本申请实施例中，支付事件对应的样本数据又可以称为“正样本类型的样本数据”、“正样本数据”等。

相应的，非支付事件对应的样本数据又可以称为“负样本类型的样本数据”、“负样本数据”等。

具体的，为了训练得到用于预测用户行为的预测模型，终端可以获取大量的样本数据进行模型训练。但是，在获取到的样本数据中，可能存在类型不平衡的问题。

类型不平衡是指获取到的样本数据中，正样本类型的样本数据与负样本类型的样本数据的数量差别较大。

在这种情况下，终端需要对获取到的样本数据中，类型数量较少的样本数据进行过采样，即增加类型数量较少的样本数据的数量。

结合本申请实施例，预设第一样本数据，即支付事件对应的样本数据为类型数量较少的样本数据。终端可以获取支付事件对应的样本数据，以及与第一样本数据的相似度大于预设相似度阈值的多个第二样本数据，以便于后续根据第一样本数据和多个第二样本数据，对支付事件对应的样本数据进行过采样，从而到达非支付事件对应的样本数据的数量与过采样后的支付事件对应的样本数据的数量接近的效果。

可选的，样本数据可以是用户在终端上执行的操作事件，也可以是与操作事件对应的终端数据。上述操作事件可以包括支付事件和非支付事件。

在一种可以实现的方式中，当操作事件为支付事件时，支付事件可以包括用户打开付款二维码、用户打开付款页面等操作事件。

相应的，当操作事件为支付事件时，与支付事件对应的终端数据可以包括终端执行支付事件时的位置数据、用户执行支付事件的时间数据等。

在又一种可以实现的方式中，当操作事件为非支付事件时，非支付事件可以包括用户打开视频软件、用户执行通话操作等操作事件。

相应的，当操作事件为非支付事件时，与非支付事件对应的终端数据可以包括终端执行非支付事件时的位置数据、用户执行非支付事件的时间数据等。

在一种可以实现的方式中，终端获取与第一样本数据的相似度大于预设相似度阈值的多个第二样本数据的方法具体包括：

终端可以获取多个初始样本数据。

其中，每个初始样本数据包括：数值型特征数据和离散型特征数据。

具体的，在获取与第一样本数据的相似度大于预设相似度阈值的多个第二样本数据时，终端可以先获取多个初始样本数据，以便于后续从多个初始样本数据中筛选与第一样本数据的相似度大于预设相似度阈值的多个第二样本数据。

接着，终端可以基于预设相似度算法、第一样本数据中的数值型特征数据、以及每个初始样本数据中的数值型特征数据，确定第一样本数据与每个初始样本数据的相似度，以得到与多个初始样本数据一一对应的多个相似度。

其中，预设相似度算法包括：欧氏距离算法。

可选的，预设相似度算法还可以包括但不限于：余弦相似度算法等，本申请实施例对此不作限定。

具体的，由于数值型特征数据用于表示某个特征的具体数量，因此，在获取多个初始样本数据以及第一样本数据，并且在第一样本数据和多个初始样本数据中的每个初始样本数据都包括数值型特征数据的情况下，终端可以基于预设相似度算法、第一样本数据中的数值型特征数据、以及每个初始样本数据中的数值型特征数据，确定第一样本数据与每个初始样本数据的相似度，以得到与多个初始样本数据一一对应的多个相似度。

接着，终端可以将多个相似度中大于预设相似度阈值的相似度对应的初始样本数据，确定为多个第二样本数据。

预设相似度阈值可以根据用户需求进行设定，本申请实施例对此不作限定。

示例性的，当预测模型用于预测用户在目标时刻是否有支付行为时，终端可以获取目标时刻之前一周时间内，支付事件对应的样本数据（即正样本数据）和非支付事件对应的样本数据（即负样本数据）。但是，终端在一周的时间内，可能仅获取了10个正样本数据，但获取了100个负样本数据。这就造成了正样本数据与负样本数据的数量差别较大的问题。如果直接使用上述110个样本数据（10个正样本数据和100个负样本数据）训练得到预测模型，则可能导致训练得到的预测模型的精度较差，进而无法准确的预测用户的支付行为。

基于上述问题，本申请实施例提供的数据处理方法中，终端需要对正样本数据进行过采样，即增加正样本数据的数量。在这种情况下，针对于上述10个正样本数据中的每个正样本数据（即本申请实施中的第一样本数据），终端可以获取与每个正样本数据的相似度大于预设相似度阈值的多个样本数据（即本申请实施中的多个第二样本数据），以便于后续根据每个正样本数据以及与每个正样本数据相似的多个样本数据，对每个正样本数据进行过采样，从而到达正样本数据与负样本数据的数量接近的效果。

S202、当多个第二样本数据中的异类样本数据比例处于预设数值范围时，终端对第一样本数据和多个第二样本数据中支付事件对应的样本数据进行过采样，以得到目标样本数据。

其中，异类样本数据比例用于表示多个第二样本数据中，非支付事件对应的样本数据的数量与多个第二样本数据的数量的比值。

在一种可以实现的方式中，当预设数值范围的最小值为0时，说明多个第二样本数据中不存在异类样本数据，这就导致了多个第二样本数据全部都是支付事件对应的样本数据。

相应的，当预设数值范围的最大值为1时，说明多个第二样本数据中全部都是异类样本数据，这就导致了多个第二样本数据全部都是非支付事件对应的样本数据。

也就是说，当预设数值范围的最小值为0，或者预设数值范围的最大值为1时，第二样本数据中全部都是支付事件对应，或者全部都是非支付事件对应。

在这种情况下，终端根据第一样本数据和多个第二样本数据生成的目标样本数据中，可能仅有支付事件的样本特征，或者仅有非支付事件的样本特征。如果根据上述方法生成的目标样本数据训练得到预测模型，则可能导致预测模型无法对支付事件和非支付事件的样本数据的进行准确的辨别，进而降低了预测模型的鲁棒性。

基于上述问题，本申请实施例提供的数据处理方法中，终端可以将预设数值范围确定为（0，1）范围内的任意数值范围，即预设数值范围的最小值大于0，且预设数值范围的最大值小于1。

示例性的，预设数值范围可以是（0.6，0.7），（0.6，1）等数值范围，也可以根据用户需求进行设定，本申请实施例对此不作限定。

在确定预设数值范围为（0，1）范围内的任意数值范围后，终端可以确定多个第二样本数据中，一部分的第二样本数据为支付事件对应的样本数据，另一部分的第二样本数据为非支付事件对应的样本数据。

在这种情况下，本申请实施例提供的数据处理方法中，终端可以确定多个第二样本数据中的异类样本数据比例是否处于预设数值范围。后续，终端可以在多个第二样本数据中的异类样本数据比例处于预设数值范围情况下，对第一样本数据和多个第二样本数据中支付事件对应的样本数据进行过采样，以得到目标样本数据。

相应的，在确定多个第二样本数据中的异类样本数据比例不处于预设数值范围时，终端可以获取其他的支付事件对应的样本数据，以及与其他的支付事件对应的样本数据的相似度大于预设相似度阈值的样本数据集合，并在该样本数据集合中的异类样本数据比例处于预设数值范围情况下，对其他的支付事件对应的样本数据和样本数据集合中支付事件对应的样本数据进行过采样，以得到目标样本数据。

在一种可以实现的方式中，对于区分正样本数据和负样本数据的分类任务，终端可以从多个维度对正样本数据和负样本数据进行分类。在空间表示形式上，终端可以通过坐标系的表示形式表示上述分类任务。

示例性的，图3示出了本申请实施例提供的一种样本数据的分布示例图。如图3所示，终端可以从2个维度区分正样本数据和负样本数据的分类任务：第一维度是样本数据的事件发生时间维度，第二维度是样本数据的事件类型维度。

在这种情况下，终端可以通过坐标系的横坐标表示样本数据的事件发生时间维度。样本数据的事件发生时间对应的横坐标越小，说明该样本数据为正样本数据的概率越大。相应的，样本数据的事件发生时间对应的横坐标越大，说明该样本数据为正样本数据的概率越小。

终端还可以通过坐标系的纵坐标表示样本数据的事件类型维度。样本数据的事件类型对应的纵坐标越小，说明该样本数据为正样本数据的概率越大。相应的，样本数据的事件类型对应的纵坐标越大，说明该样本数据为正样本数据的概率越大。

这样，对于分类任务的分类边界处的样本数据，可能包括正样本数据和负样本数据。在这种情况下，终端可以获取分类边界处的样本数据作为多个第二样本数据（即异类样本数据比例处于预设数值范围的多个第二样本数据），以使得多个第二样本数据中既可以包括正样本数据，也可以包括负样本数据，进而使得生成的目标样本数据具有不同样本类型的特征。这样，AI算法通过对目标样本数据进行训练得到的预测模型可以学习不同样本类型的特征，提高了预测模型对正样本类型和负样本类型的样本数据的辨别能力，进而提高了预测模型的鲁棒性。

需要说明的是，上述分类边界可以根据需求进行设定，本申请实施例对此不作限定。

示例性，终端在一周的时间内获取了10次支付事件对应的正样本数据，其中包括了正样本数据1和正样本数据2。

接着，终端获取到了与正样本数据1的相似度大于预设相似度阈值的第一相似样本集合，包括了10个相似样本数据，以及与正样本数据2的相似度大于预设相似度阈值的第二相似样本集合，包括了10个相似样本数据。

接着，终端根据第一相似样本集合中的10个相似样本数据包括的5个正样本数据和5个负样本数据，确定正样本数据1对应的异类样本数据比例为0.5。

相应的，终端根据第二相似样本集合中的10个相似样本数据包括的3个正样本数据和7个负样本数据，确定正样本数据2对应的异类样本数据比例为0.7。

当预设数值范围为（0.6，1）时，终端可以确定第一相似样本集合中的异类样本数据比例0.5不处于预设数值范围，而第二相似样本集合中的异类样本数据比例0.7处于预设数值范围。

在这种情况下，终端可以对正样本数据2（即本申请实施中的第一样本数据）和第二相似样本集合（即本申请实施中的多个第二样本数据）中正样本数据进行过采样，以得到目标样本数据，从而实现对正样本数据的过采样。

终端对第一样本数据和多个第二样本数据中支付事件对应的样本数据进行过采样，以得到目标样本数据的方法包括但不限于以下2种方式：

终端对第一样本数据和多个第二样本数据中支付事件对应的样本数据进行过采样，以得到目标样本数据的方式一：

第一样本数据和多个第二样本数据中的每个第二样本数据均包括：数值型特征数据和离散型特征数据。在这种情况下，终端对第一样本数据和多个第二样本数据中支付事件对应的样本数据进行过采样，以得到目标样本数据的方法具体包括：

终端可以先根据第一样本数据的数值型特征数据和每个第二样本数据的数值型特征数据，确定目标样本数据的数值型特征数据。然后，终端可以根据每个第二样本数据中的离散型特征数据，确定目标样本数据的离散型特征数据。后续，终端可以根据目标样本数据的数值型特征数据和目标样本数据的离散型特征数据，生成目标样本数据。即目标样本数据包括：目标样本数据的数值型特征数据和目标样本数据的离散型特征数据。

终端对第一样本数据和多个第二样本数据中支付事件对应的样本数据进行过采样，以得到目标样本数据的方式二：

终端可以按照多个第二样本数据与第一样本数据的相似度进行排序，并将排序前n（n为正整数）个第二样本数据确定为目标样本数据。

这样，在生成目标样本数据后，由于目标样本数据为对支付事件对应的样本数据进行过采样得到的，即目标样本数据包括支付事件对应的样本数据，因此，通过对支付事件对应的样本数据进行过采样，可以保证支付事件对应的样本数据和非支付事件对应的样本数据的数量接近，从而根据包括第一样本数据和目标样本数据的待训练样本数据可以进行模型训练，可以得到精度更高的预测模型，提高了行为预测的准确度。

示例性的，如图4所示，图4中的柱状图的高度代表样本数据的数量。当第一样本数据的样本类型为正样本类型（即正样本数据）时，终端获取到的正样本类型的样本数据的数量小于负样本类型的样本数据（即负样本数据）的数量。在这种情况下，基于上述数据处理方法，终端可以对正样本数据进行过采样，从而得到与负样本数据的数量接近的正样本数据。后续，终端可以根据数量接近的正样本数据和负样本数据训练得到预测模型，提高了预测模型的精度，进而提高了行为预测的效率。

S203、终端根据待训练样本数据进行模型训练，以得到预测模型。

其中，待训练样本数据包括：第一样本数据和目标样本数据。

具体的，在生成目标样本数据后，终端可以得到待训练样本数据，即数量接近的第一类型的样本数据（包括第一样本数据和目标样本数据）和第二类型的样本数据。在这种情况下，终端可以根据待训练样本数据进行模型训练，以得到预测模型。

终端进行模型训练的过程可以参考通用的模型训练过程，在此不再赘述。

S204、终端获取用户设备的待预测事件。

可选的，终端和用户设备可以是同一个设备，也可以是通信连接的两个独立的设备，本申请实施例对此不作限定。

示例性的，待预测事件可以是用户设备在10点移动到了餐厅区域。

需要说明的是，本申请实施例对于S203和S204的执行顺序不作限定，终端可以先执行S204，后执行S203；也可以先执行S203，后执行S204；还可以同时执行S203和S204。

S205、终端基于预测模型对待预测事件进行预测，以得到预测结果。

其中，预测结果用于指示待预测事件是支付事件的概率。

具体的，在获取用户设备的待预测事件，以及训练得到预测模型后，终端可以将待预测事件对应的待预测数据输入到预测模型中，以得到预测结果。

终端基于预测模型对待预测事件进行预测的过程可以参考通用的模型预测过程，在此不再赘述。

示例性的，待预测事件对应的待预测数据可以是用户设备在10点移动到了餐厅区域的位置变化数据。

结合上述示例，终端可以基于预测模型对用户设备在10点移动到了餐厅区域这一事件进行预测，以得到预测结果为：用户执行支付事件的概率为90%。在这种情况下，终端可以确定用户设备将要执行支付事件。后续，终端可以控制用户设备推送支付服务卡片（例如付款二维码等），以使得持有用户设备的用户可以快捷买单。

又一示例性的，预设终端和用户设备可以是同一个设备。如图5中的（a）所示，待预测事件为用户在12点对用户设备执行了解锁事件，即在用户设备的锁屏页面上，对解锁控件执行了触发操作。在这种情况下，用户设备可以获取到用户在12点对用户设备执行了解锁事件，并基于预测模型对上述解锁进行预测，以得到预测结果为：上述解锁事件为支付事件的概率为90%。

在这种情况下，如图5中的（b）所示，用户设备可以在当前显示页面上显示提示消息：点击显示付款二维码。

接着，如图5中的（c）所示，当用户确定需要执行支付事件时，用户可以对提示消息执行触发操作。相应的，用户设备响应于用户执行的触发操作，显示付款二维码，即支付服务卡片。

在一种可以实现的方式中，第一样本数据和多个第二样本数据中的每个第二样本数据均包括：数值型特征数据和离散型特征数据。

示例性的，预设，第一样本数据和多个第二样本数据中的每个第二样本数据的特征维度均为m（n为大于1的整数）维，则第一样本数据和多个第二样本数据中的每个第二样本数据均包括数值型特征数据：[f₁，f₂，…，f_n]。第一样本数据和多个第二样本数据中的每个第二样本数据还都包括数值型特征数据：[f_n+1，f_n+2，…，f_m]。其中，n为小于m的正整数。

示例性的，预设在预测用户是否有支付行为的场景下，第一样本数据包括支付事件对应的样本数据，即正样本类型的样本数据，多个第二样本数据中包括支付事件对应的样本数据和非支付事件对应的样本数据，即多个第二样本数据中包括正样本类型的样本数据和负样本类型的样本数据。

其中，正样本类型的样本数据中的数值型特征数据包括：终端在10点30分执行了支付事件、终端上次执行支付事件距离当前时刻10分钟等。

正样本类型的样本数据中的离散型特征数据包括：终端在周五执行了支付事件、终端上次执行支付事件的时间段为10点-11点等。

负样本类型的样本数据中的数值型特征数据包括：终端在13点执行了观看视频的事件、终端上次执行观看视频的事件距离当前时刻20分钟等。

负样本类型的样本数据中的离散型特征数据包括：终端在周五执行了观看视频的事件、终端上次执行观看视频的事件的时间段为12点-14点等。

在第一样本数据和多个第二样本数据中的每个第二样本数据均包括：数值型特征数据和离散型特征数据的情况下，结合图2，如图6所示，上述S202中，终端对第一样本数据和多个第二样本数据中支付事件对应的样本数据进行过采样，以得到目标样本数据的方法具体包括：

S601、终端根据第一样本数据的数值型特征数据和每个第二样本数据的数值型特征数据，确定目标样本数据的数值型特征数据。

具体的，在获取第一样本数据的数值型特征数据和每个第二样本数据的数值型特征数据后，由于过采样的目的是对支付事件对应的样本数据进行过采样，并且第一样本数据和多个第二样本数据中的每个第二样本数据均包括：数值型特征数据和离散型特征数据，因此，终端可以根据第一样本数据的数值型特征数据和每个第二样本数据的数值型特征数据，确定目标样本数据的数值型特征数据。

终端根据第一样本数据的数值型特征数据和每个第二样本数据的数值型特征数据，确定目标样本数据的数值型特征数据的方法包括但不限于以下2种方式：

终端根据第一样本数据的数值型特征数据和每个第二样本数据的数值型特征数据，确定目标样本数据的数值型特征数据的具体方式一：

当终端需要生成预设数量的目标样本数据时，即目标样本数据的数量为预设数量时，终端可以从多个第二样本数据中选取预设数量的第二样本数据。

可选的，终端从多个第二样本数据中选取预设数量的第二样本数据时，可以随机选取；也可以按照每个第二样本数据与第一样本数据的相似度的大小，从大到小依次选取；还可以通过其他方式从多个第二样本数据中选取预设数量的第二样本数据，本申请实施例对此不作限定。

然后，终端可以对第一样本数据的数值型特征数据，以及预设数量的第二样本数据中的任意一个第二样本数据执行目标操作，以得到目标样本数据的数值型特征数据。

上述目标操作包括：根据第一样本数据的数值型特征数据和一个第二样本数据的数值型特征数据，确定一个目标样本数据的数值型特征数据。

一个目标样本数据的数值型特征数据、第一样本数据的数值型特征数据和一个第二样本数据的数值型特征数据满足下述公式：

P =A+α*|B-A|。

其中，P用于表示一个目标样本数据的数值型特征数据，A用于表示第一样本数据的数值型特征数据，B用于表示一个第二样本数据的数值型特征数据，α用于表示与一个第二样本数据对应的预设插值。一个第二样本数据为预设数量的第二样本数据中的任意一个第二样本数据。

可选的，每个第二样本数据对应的预设插值可以相同，也可以不同，本申请实施例不作限定。

需要说明的是，α的取值范围可以是（0，1）。

示例性的，预设第一样本数据为正样本数据。预设终端训练预测模型时，获取到的正样本数据的数量为10，负样本数据为100。在这种情况下，为了提高预测模型的精度，终端需要对正样本数据进行过采样，以得到90个过采样的正样本数据。因此，终端需要生成90个正样本数据（即预设数量的目标样本数据）。

预设多个第二样本数据的数量为200个。在这种情况下，终端可以从200个第二样本数据中随机选取90个第二样本数据。接着，终端通过上述目标操作，确定90个目标样本数据对应的90个数值型特征数据。

可选的，当第一样本数据的数值型特征数据和每个第二样本数据的数值型特征数据的特征数据的维度为多维时，一个目标样本数据的数值型特征数据、第一样本数据的数值型特征数据和一个第二样本数据的数值型特征数据满足下述公式：

P_i =A_i+α*|B_i-A_i|。

其中，P_i用于表示一个目标样本数据中，第i维的数值型特征数据，A_i用于表示第一样本数据中，第i维的数值型特征数据，B_i用于表示一个第二样本数据据中，第i维的数值型特征数据，α用于表示与一个第二样本数据的第i维的数值型特征数据对应的预设插值。i为多维特征数据中的任意一个维度的特征数据，且i为正整数。

结合上述示例，预设每个正样本数据和每个第二样本数据的数值型特征数据的特征数据的维度为2维时，2个维度的特征数据可以是：终端在第一时刻执行了支付事件、终端上次执行支付事件距离当前时刻第一时长。

接着，终端通过上述目标操作，确定90个目标特征数据在第一维度的数值型特征数据：90个执行支付事件的时刻。

相应的，终端通过上述目标操作，确定90个目标特征数据在第二维度的数值型特征数据：执行支付事件距离当前时刻的90个时长。

这样，终端可以得到2个维度下，90个目标特征数据对应的90个数值型特征数据。

终端根据第一样本数据的数值型特征数据和每个第二样本数据的数值型特征数据，确定目标样本数据的数值型特征数据的具体方式二：

终端可以确定第一样本数据的数值型特征数据和每个第二样本数据的数值型特征数据之间的相似度，并按照多个第二样本数据的数值型特征数据与第一样本数据的数值型特征数据相似度进行排序，并将排序前n（n为正整数）个第二样本数据的数值型特征数据确定为目标样本数据的数值型特征数据。

S602、终端根据每个第二样本数据中的离散型特征数据，确定目标样本数据的离散型特征数据。

具体的，在获取第一样本数据的数值型特征数据和每个第二样本数据的数值型特征数据后，由于过采样的目的是对支付事件对应的样本数据进行过采样，并且第一样本数据和多个第二样本数据中的每个第二样本数据均包括：数值型特征数据和离散型特征数据，因此，终端可以根据每个第二样本数据中的离散型特征数据，确定目标样本数据的离散型特征数据。

终端根据每个第二样本数据中的离散型特征数据，确定目标样本数据的离散型特征数据的方法包括但不限于以下2种方式：

终端根据每个第二样本数据中的离散型特征数据，确定目标样本数据的离散型特征数据的具体方式一：

终端可以确定每个第二样本数据中的离散型特征数据的数量与多个第二样本数据的数量的比值，以得到与多个第二样本数据一一对应的多个离散型特征数据比例。

具体的，由于离散型特征数据是通过计数得到的，无法表示某个特征的具体数量，因此，如果终端通过每个第二样本数据中的离散型特征数据，与第一样本数据中的的离散型特征数据的相似度确定目标样本数据的离散型特征数据，则可能导致计算结果的准确度较低。在这种情况下，终端可以确定每个第二样本数据中的离散型特征数据的数量与多个第二样本数据的数量的比值，以得到与多个第二样本数据一一对应的多个离散型特征数据比例。

接着，终端将多个离散型特征数据比例中比例值大于预设比例值的离散型特征数据，确定为目标样本数据的离散型特征数据。

可选的，终端可以将多个离散型特征数据比例中比例值最大的离散型特征数据，确定为目标样本数据的离散型特征数据。

示例性的，终端获取到的10个第二样本数据中的离散型特征数据包括了：5个“终端在周一执行了支付事件”，3个“终端在周四执行了支付事件”，2个“终端在周五执行了支付事件”。在这种情况下，终端可以确定“终端在周一执行了支付事件”的离散型特征数据比例为0.5， “终端在周四执行了支付事件”的离散型特征数据比例为0.3，“终端在周五执行了支付事件”的离散型特征数据比例为0.2。

在这种情况下，终端可以将多个离散型特征数据比例中比例值为0.5的离散型特征数据：“终端在周一执行了支付事件”，确定为目标样本数据的离散型特征数据。

终端根据每个第二样本数据中的离散型特征数据，确定目标样本数据的离散型特征数据的具体方式二：

终端可以按照多个第二样本数据与第一样本数据的相似度进行排序，并将相似度数值最大的第二样本数据的离散型特征数据，确定目标样本数据的离散型特征数据。

需要说明的是，本申请实施例对于S601和S602的执行顺序不作限定，终端可以先执行S601，后执行S602；也可以先执行S602，后执行S601；还可以同时执行S601和S602。

S603、终端生成目标样本数据。

其中，目标样本数据包括：目标样本数据的数值型特征数据和目标样本数据的离散型特征数据。

具体的，在确定目标样本数据的数值型特征数据和目标样本数据的离散型特征数据后，终端可以生成包括目标样本数据的数值型特征数据和目标样本数据的离散型特征数据的目标样本数据。

在一种可以实现的方式中，结合图5，如图6所示，本申请实施例提供的数据处理方法还包括：

可以理解的，在实际实施时，本申请实施例所述的数据处理设备可以包含有用于实现前述对应数据处理方法的一个或多个硬件结构和/或软件模块，这些执行硬件结构和/或软件模块可以构成一个数据处理设备。

本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

基于这样的理解，本申请实施例还对应提供一种数据处理装置，可以应用于数据处理设备。图7示出了本申请实施例提供的数据处理装置的结构示意图。如图7所示，该数据处理装置可以包括：获取单元701和处理单元702。

获取单元701，用于获取第一样本数据，以及与第一样本数据的相似度大于预设相似度阈值的多个第二样本数据；所述第一样本数据包括支付事件对应的样本数据；所述多个第二样本数据中包括支付事件对应的样本数据，和/或非支付事件对应的样本数据。例如，结合图2，获取单元701用于执行S201。

处理单元702，用于当所述多个第二样本数据中的异类样本数据比例处于预设数值范围时，对所述第一样本数据和所述多个第二样本数据中支付事件对应的样本数据进行过采样，以得到目标样本数据；所述异类样本数据比例用于表示所述多个第二样本数据中，所述非支付事件对应的样本数据的数量与所述多个第二样本数据的数量的比值。例如，结合图2，处理单元702用于执行S202。

处理单元702，还用于根据待训练样本数据进行模型训练，以得到预测模型；所述待训练样本数据包括：所述第一样本数据和所述目标样本数据。例如，结合图2，处理单元702用于执行S203。

获取单元701，还用于获取用户设备的待预测事件，并基于所述预测模型对所述待预测事件进行预测，以得到预测结果；所述预测结果用于指示所述待预测事件是支付事件的概率。例如，结合图2，获取单元701用于执行S204。

处理单元702，还用于当所述预测结果用于表示所述待预测事件是支付事件的概率大于预设概率时，显示所述支付事件对应的支付推送信息。例如，结合图2，处理单元702用于执行S205。

在一种可以实现的方式中，第一样本数据和多个第二样本数据中的每个第二样本数据均包括：数值型特征数据和离散型特征数据；

处理单元702，具体用于：

根据第一样本数据的数值型特征数据和每个第二样本数据的数值型特征数据，确定目标样本数据的数值型特征数据。例如，结合图6，处理单元702用于执行S601。

根据每个第二样本数据中的离散型特征数据，确定目标样本数据的离散型特征数据。例如，结合图6，处理单元702用于执行S602。

生成目标样本数据；目标样本数据包括：目标样本数据的数值型特征数据和目标样本数据的离散型特征数据。例如，结合图6，处理单元702用于执行S603。

在一种可以实现的方式中，当目标样本数据的数量为预设数量时，处理单元702，具体用于：

从多个第二样本数据中选取预设数量的第二样本数据；

对第一样本数据的数值型特征数据，以及预设数量的第二样本数据中的任意一个第二样本数据执行目标操作，以得到目标样本数据的数值型特征数据；

目标操作包括：根据第一样本数据的数值型特征数据和一个第二样本数据的数值型特征数据，确定一个目标样本数据的数值型特征数据；一个目标样本数据的数值型特征数据、第一样本数据的数值型特征数据和一个第二样本数据的数值型特征数据满足下述公式：

P =A+α*|B-A|；

在一种可以实现的方式中，处理单元702，具体用于：

确定每个第二样本数据中的离散型特征数据的数量与多个第二样本数据的数量的比值，以得到与多个第二样本数据一一对应的多个离散型特征数据比例；

将多个离散型特征数据比例中比例值大于预设比例值的离散型特征数据，确定为目标样本数据的离散型特征数据。

在一种可以实现的方式中，获取单元701，具体用于：

获取多个初始样本数据；每个初始样本数据包括：数值型特征数据和离散型特征数据；

基于预设相似度算法、第一样本数据中的数值型特征数据、以及每个初始样本数据中的数值型特征数据，确定第一样本数据与每个初始样本数据的相似度，以得到与多个初始样本数据一一对应的多个相似度；预设相似度算法包括：欧氏距离算法；

将多个相似度中大于预设相似度阈值的相似度对应的初始样本数据，确定为多个第二样本数据。

在一种可以实现的方式中，预设数值范围的最小值大于0，且预设数值范围的最大值小于1。

如上所述，本申请实施例可以根据上述方法示例对数据处理设备进行功能模块的划分。其中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，还需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。

关于上述实施例中的数据处理装置，其中各个模块执行操作的具体方式、以及具备的有益效果，均已经在前述方法实施例中进行了详细描述，此处不再赘述。

本申请实施例还提供一种电子设备。该电子设备可以是终端，该终端可以是手机、电脑等用户终端。图8示出了本申请实施例提供的终端的结构示意图。

该终端可以是上述数据处理装置，包括至少一个处理器61，通信总线62，存储器63以及至少一个通信接口64。

处理器61可以是一个处理器（central processing units，CPU），微处理单元，ASIC，或一个或多个用于控制本申请方案程序执行的集成电路。作为一个示例，结合图7，数据处理设备中的处理单元702实现的功能与图8中的处理器61实现的功能相同。

通信总线62可包括一通路，在上述组件之间传送信息。

通信接口64，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如服务器、以太网，无线接入网（radio access network，RAN），无线局域网(wireless localarea networks，WLAN)等。作为一个示例，结合图7，数据处理设备中的获取单元701实现的功能与图8中的通信接口64实现的功能相同。

存储器63可以是只读存储器（read-only memory，ROM）或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器（random access memory，RAM）或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器（electricallyerasable programmable read-only memory，EEPROM）、只读光盘（compact disc read-only memory，CD-ROM）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。

其中，存储器63用于存储执行本申请方案的应用程序代码，并由处理器61来控制执行。处理器61用于执行存储器63中存储的应用程序代码，从而实现本申请方法中的功能。

在具体实现中，作为一种实施例，处理器61可以包括一个或多个CPU，例如图8中的CPU0和CPU1。

在具体实现中，作为一种实施例，终端可以包括多个处理器，例如图8中的处理器61和处理器65。这些处理器中的每一个可以是一个单核（single-CPU）处理器，也可以是一个多核（multi-CPU）处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据（例如计算机程序指令）的处理核。

在具体实现中，作为一种实施例，终端还可以包括输入设备66和输出设备67。输入设备66和输出设备67通信，可以以多种方式接受用户的输入。例如，输入设备66可以是鼠标、键盘、触摸屏设备或传感设备等。输出设备67和处理器61通信，可以以多种方式来显示信息。例如，输出设备61可以是液晶显示器（liquid crystal display，LCD），发光二级管（light emitting diode，LED）显示设备等。

本领域技术人员可以理解，图8中示出的结构并不构成对终端的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供一种电子设备，该电子设备可以是服务器。图9示出了本申请实施例提供的服务器的结构示意图。该服务器可以是数据处理装置。该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器71和一个或一个以上的存储器72。其中，存储器72中存储有至少一条指令，至少一条指令由处理器71加载并执行以实现上述各个方法实施例提供的数据处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请还提供了一种包括指令的计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述计算机可读存储介质中的指令由计算机设备的处理器执行时，使得计算机能够执行上述所示实施例提供的数据处理方法。例如，计算机可读存储介质可以为包括指令的存储器63，上述指令可由终端的处理器61执行以完成上述方法。又例如，计算机可读存储介质可以为包括指令的存储器72，上述指令可由服务器的处理器71执行以完成上述方法。可选地，计算机可读存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

本申请还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，当所述计算机指令在数据处理设备上运行时，使得所述数据处理设备执行上述图2-图6任一附图所示的数据处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对通用技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何在本申请实施例揭露的技术范围内的变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，包括：

获取第一样本数据，以及与所述第一样本数据的相似度大于预设相似度阈值的多个第二样本数据；所述第一样本数据包括支付事件对应的样本数据；所述多个第二样本数据中包括支付事件对应的样本数据和非支付事件对应的样本数据；

当所述多个第二样本数据中的异类样本数据比例处于预设数值范围时，对所述第一样本数据和所述多个第二样本数据中支付事件对应的样本数据进行过采样，以得到目标样本数据；所述异类样本数据比例用于表示所述多个第二样本数据中，所述非支付事件对应的样本数据的数量与所述多个第二样本数据的数量的比值；

根据待训练样本数据进行模型训练，以得到预测模型；所述待训练样本数据包括：所述第一样本数据和所述目标样本数据；

获取用户设备的待预测事件，并基于所述预测模型对所述待预测事件进行预测，以得到预测结果；所述预测结果用于指示所述待预测事件是支付事件的概率；

当所述预测结果用于表示所述待预测事件是支付事件的概率大于预设概率时，显示所述支付事件对应的支付推送信息。

2.根据权利要求1所述的数据处理方法，其特征在于，所述第一样本数据和所述多个第二样本数据中的每个第二样本数据均包括：数值型特征数据和离散型特征数据；

所述对所述第一样本数据和所述多个第二样本数据中支付事件对应的样本数据进行过采样，以得到目标样本数据，包括：

根据所述第一样本数据的数值型特征数据和所述每个第二样本数据的数值型特征数据，确定所述目标样本数据的数值型特征数据；

根据所述每个第二样本数据中的离散型特征数据，确定所述目标样本数据的离散型特征数据；

生成所述目标样本数据；所述目标样本数据包括：所述目标样本数据的数值型特征数据和所述目标样本数据的离散型特征数据。

3.根据权利要求2所述的数据处理方法，其特征在于，当目标样本数据的数量为预设数量时，所述根据所述第一样本数据的数值型特征数据和所述每个第二样本数据的数值型特征数据，确定所述目标样本数据的数值型特征数据，包括：

从所述多个第二样本数据中选取所述预设数量的第二样本数据；

对所述第一样本数据的数值型特征数据，以及所述预设数量的第二样本数据中的任意一个第二样本数据执行目标操作，以得到所述目标样本数据的数值型特征数据；

所述目标操作包括：根据所述第一样本数据的数值型特征数据和一个第二样本数据的数值型特征数据，确定一个目标样本数据的数值型特征数据；所述一个目标样本数据的数值型特征数据、所述第一样本数据的数值型特征数据和所述一个第二样本数据的数值型特征数据满足下述公式：

P =A+α*|B-A|；

其中，P用于表示所述一个目标样本数据的数值型特征数据，A用于表示所述第一样本数据的数值型特征数据，B用于表示所述一个第二样本数据的数值型特征数据，α用于表示与所述一个第二样本数据对应的预设插值。

4.根据权利要求2所述的数据处理方法，其特征在于，所述根据所述每个第二样本数据中的离散型特征数据，确定所述目标样本数据的离散型特征数据，包括：

确定所述每个第二样本数据中的离散型特征数据的数量与所述多个第二样本数据的数量的比值，以得到与所述多个第二样本数据一一对应的多个离散型特征数据比例；

将所述多个离散型特征数据比例中比例值大于预设比例值的离散型特征数据，确定为所述目标样本数据的离散型特征数据。

5.根据权利要求1所述的数据处理方法，其特征在于，获取与所述第一样本数据的相似度大于预设相似度阈值的多个第二样本数据，包括：

基于预设相似度算法、所述第一样本数据中的数值型特征数据、以及每个初始样本数据中的数值型特征数据，确定所述第一样本数据与所述每个初始样本数据的相似度，以得到与多个初始样本数据一一对应的多个相似度；所述预设相似度算法包括：欧氏距离算法；

将所述多个相似度中大于所述预设相似度阈值的相似度对应的初始样本数据，确定为所述多个第二样本数据。

6.根据权利要求1-5任一项所述的数据处理方法，其特征在于，所述预设数值范围的最小值大于0，且所述预设数值范围的最大值小于1。

7.一种数据处理装置，其特征在于，包括：获取单元和处理单元；

所述获取单元，用于获取第一样本数据，以及与所述第一样本数据的相似度大于预设相似度阈值的多个第二样本数据；所述第一样本数据包括支付事件对应的样本数据；所述多个第二样本数据中包括支付事件对应的样本数据和非支付事件对应的样本数据；

所述处理单元，用于当所述多个第二样本数据中的异类样本数据比例处于预设数值范围时，对所述第一样本数据和所述多个第二样本数据中支付事件对应的样本数据进行过采样，以得到目标样本数据；所述异类样本数据比例用于表示所述多个第二样本数据中，所述非支付事件对应的样本数据的数量与所述多个第二样本数据的数量的比值；

所述处理单元，还用于根据待训练样本数据进行模型训练，以得到预测模型；所述待训练样本数据包括：所述第一样本数据和所述目标样本数据；

所述获取单元，还用于获取用户设备的待预测事件，并基于所述预测模型对所述待预测事件进行预测，以得到预测结果；所述预测结果用于指示所述待预测事件是支付事件的概率；

所述处理单元，还用于当所述预测结果用于表示所述待预测事件是支付事件的概率大于预设概率时，显示所述支付事件对应的支付推送信息。

8.根据权利要求7所述的数据处理装置，其特征在于，所述第一样本数据和所述多个第二样本数据中的每个第二样本数据均包括：数值型特征数据和离散型特征数据；

所述处理单元，具体用于：

9.根据权利要求8所述的数据处理装置，其特征在于，当目标样本数据的数量为预设数量时，所述处理单元，具体用于：

P =A+α*|B-A|；

10.根据权利要求8所述的数据处理装置，其特征在于，所述处理单元，具体用于：

11.根据权利要求7所述的数据处理装置，其特征在于，所述获取单元，具体用于：

12.根据权利要求7-11任一项所述的数据处理装置，其特征在于，所述预设数值范围的最小值大于0，且所述预设数值范围的最大值小于1。

13.一种电子设备，其特征在于，所述电子设备包括：

存储器；

通信接口；

一个或多个处理器；

其中，所述存储器中存储有一个或多个计算机程序，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行如权利要求1-6中任一项所述的数据处理方法。

14.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-6中任一项所述的数据处理方法。