CN116776160B

CN116776160B - 一种数据处理方法和相关装置

Info

Publication number: CN116776160B
Application number: CN202311067178.3A
Authority: CN
Inventors: 石志林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-11-10
Anticipated expiration: 2043-08-23
Also published as: CN116776160A

Abstract

本申请实施例公开了一种数据处理方法和相关装置，可应用于人工智能中的机器学习等技术领域，从多个正样本数据中确定锚点数据，将与锚点数据之间的第一相似度大于第一预设阈值的负样本数据确定为第一困难负样本数据。在模型训练过程中，最小化锚点数据和正样本数据之间相似度差异，最大化锚点数据和第一困难负样本数据之间的相似度差异，训练得到点击行为预测模型，以便预测对象点击待推荐内容的概率。由此，有目的地选择具有代表性的第一困难负样本数据，从而在有限数量的负样本数据的前提下，点击行为预测模型不再学习过多无效的负样本数据，提高了点击行为预测模型的精度，从多个待推荐内容中确定出推荐内容，以便提高推荐内容的点击率。

Description

一种数据处理方法和相关装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种数据处理方法和相关装置。

背景技术

随着网络技术的发展，数据过载的现象愈发明显，传统的数据推荐方式很难从海量的数据中，为对象进行个性化推荐过程。

相关技术中，一般采用对比学习的方式训练得到模型，使得模型可以提取数据中的特征，从而基于数据的特征将信息推荐给对象。其中，对比学习属于自监督学习，能够在没有数据标签的场景下，通过借助对比损失，让模型在特征嵌入空间内拉近正样本数据之间的距离，推远负样本数据之间的距离的方式学习数据的特征信息。

但是，相关技术中基于对比学习的方式训练得到的模型的精度较低。

发明内容

为了解决上述技术问题，本申请提供了一种数据处理方法和相关装置，用于提高点击率预测模型的精度。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供一种数据处理方法，所述方法包括：

获取有标签训练数据集合，所述有标签训练数据集合包括多个正样本数据和多个负样本数据，所述正样本数据为对象点击的历史内容，所述负样本数据为所述对象未点击的历史内容；

从多个所述正样本数据中确定锚点数据；

分别确定所述锚点数据与多个所述负样本数据之间的第一相似度，将所述第一相似度大于第一预设阈值的负样本数据确定为第一困难负样本数据；

基于第一目标训练方向，训练得到点击行为预测模型，所述点击行为预测模型用于预测所述对象点击待推荐内容的概率，所述第一目标训练方向为最小化所述锚点数据和所述正样本数据之间的相似度差异，以及最大化所述锚点数据和所述第一困难负样本数据之间的相似度差异。

另一方面，本申请实施例提供一种数据处理装置，所述装置包括：获取单元、确定单元和训练单元；

所述获取单元，用于获取有标签训练数据集合，所述有标签训练数据集合包括多个正样本数据和多个负样本数据，所述正样本数据为对象点击的历史内容，所述负样本数据为所述对象未点击的历史内容；

所述确定单元，用于从多个所述正样本数据中确定锚点数据；

所述确定单元，还用于分别确定所述锚点数据与多个所述负样本数据之间的第一相似度，将所述第一相似度大于第一预设阈值的负样本数据确定为第一困难负样本数据；

所述训练单元，用于基于第一目标训练方向，训练得到点击行为预测模型，所述点击行为预测模型用于预测所述对象点击待推荐内容的概率，所述第一目标训练方向为最小化所述锚点数据和所述正样本数据之间的相似度差异，以及最大化所述锚点数据和所述第一困难负样本数据之间的相似度差异。

另一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

所述处理器用于根据所述计算机程序中的指令执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的方法。

由上述技术方案可以看出，获取有标签训练数据集合，有标签训练数据集合包括的训练数据均具有标签，该标签用于标识对象是否点击历史内容，从而分为正样本数据和负样本数据。从多个正样本数据中确定锚点数据，将与锚点数据之间的第一相似度大于第一预设阈值的负样本数据确定为第一困难负样本数据。由于锚点数据和正样本数据属于同一类数据，锚点数据和第一困难负样本数据属于不同类数据，故在模型训练过程中，最小化锚点数据和正样本数据之间相似度差异，最大化锚点数据和第一困难负样本数据之间的相似度差异，训练得到点击行为预测模型，以便预测对象点击待推荐内容的概率。由此，不再从同一批次数据中随机选择用于模型训练的负样本数据，而是有目的地选择具有代表性的第一困难负样本数据，即容易被模型识别为正样本数据的负样本数据，从而在有限数量的负样本数据的前提下，点击行为预测模型不再学习过多无效的负样本数据，提高了点击行为预测模型的精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的数据处理方法的应用场景示意图；

图2为本申请实施例提供的数据处理方法的流程示意图；

图3为本申请实施例提供的一种数据分布的示意图；

图4为本申请实施例提供的一种采样策略的示意图；

图5为本申请实施例提供的一种数据分布的示意图；

图6为本申请实施例提供的一种数据处理方法的应用场景示意图；

图7为本申请实施例提供的一种数据处理装置的结构示意图；

图8为本申请实施例提供的服务器的结构示意图；

图9为本申请实施例提供的终端设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关技术中，在常见的对比学习框架中，针对没有数据标签的样本数据，设置一个样本数据作为锚点数据，将与锚点数据相似的样本数据称为正样本数据，将与锚点数据不相似的样本数据称为负样本数据。其中，正样本数据一般是通过锚定的数据增强得到的，负样本数据则是从同一批次数据中随机选择的其他样本数据得到的。然后在特征嵌入空间，拉近锚点数据和正样本数据之间的距离，推远锚点数据和负样本数据之间的距离，训练得到用于特征提取的模型，随后可以在下游任务（如点击行为预测）中使用。

例如，以图像识别任务为例，选择一张狗的图片作为锚点数据。然后其他的狗的图片会被确定为正样本数据，猫、鸟、马等其他动物的图片会被确定为负样本数据。在特征嵌入空间中，训练模型能够将狗的图片（锚点数据和正样本数据）的表示拉近，将狗和猫、鸟、马等（锚点数据和负样本数据）的表示推远。

但是，负样本数据是从同一批次数据中随机选择的其他样本数据得到的，一般会导致负样本数据的数量会远高于正样本数据的数量，从而训练得到模型的预测值可能会由于少数服从多数而向负样本靠拢，导致模型的精度较低。

基于此，本申请实施例提出了一种数据处理方法，不再从同一批次数据中随机选择用于模型训练的负样本数据，而是有目的地选择具有代表性的第一困难负样本数据，即与锚点数据之间的第一相似度大于第一预设阈值的负样本数据，或者说容易被模型识别为正样本数据的负样本数据，提高点击行为预测模型的学习难度，从而在点击行为预测模型学习数量有限的负样本数据的前提下，不再学习过多无效的负样本数据，提高了点击行为预测模型的精度。

本申请实施例提供的数据处理方法是基于人工智能实现的。人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

在本申请实施例中，主要涉及的人工智能技术包括上述机器学习/深度学习等方向。

本申请提供的数据处理方法可以应用于具有数据处理能力的计算机设备，如终端设备、服务器。其中，终端设备具体可以为台式计算机、笔记本电脑、手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等，智能车载设备可以车载导航终端和车载电脑等，便携式可穿戴设备可为智能手表、智能手环、头戴设备等，但并不局限于此；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

该计算机设备还可以具备机器学习能力。机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在本申请实施例提供的数据处理方法中，采用的人工智能模型主要涉及对机器学习的应用，采样与锚点数据之间的第一相似度大于第一预设阈值的第一困难负样本数据，通过机器学习中对比学习的方式训练得到点击行为预测模型，提高点击行为预测模型的精度。

该计算机设备还可以具备大数据处理能力。大数据（Big data）是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

在本申请实施例提供的数据处理方法中，通过大数据处理能力，在大量的数据中获取训练点击行为预测模型的数据，如有标签训练数据集合、无标签训练数据等，进一步还可以通过数据挖掘技术采样得到与锚点数据之间的第一相似度大于第一预设阈值的第一困难负样本数据，提高点击行为预测模型的精度。

为了便于理解本申请实施例提供的数据处理方法，下面以该数据处理方法的执行主体为服务器为例，对该数据处理方法的应用场景进行示例性介绍。

参见图1，该图为本申请实施例提供的数据处理方法的应用场景示意图。如图1所示，该应用场景中包括终端设备110和服务器120，终端设备110与服务器120之间可以通过网络通信。

其中，终端设备110上运行用于训练模型的运营管理客户端，模型可以是用于预测对象点击待推荐内容的概率的点击行为预测模型，训练模型的运营管理客户端面向的用户是被委托展示广告的工作人员，用户通过该运营管理客户端可以触发生成适用于训练点击行为预测模型的操作。服务器120可以为用于训练模型的运营管理服务器，服务器120用于执行本申请实施例提供的数据处理方法，以训练得到点击行为预测模型。

在实际应用中，用户可以通过终端设备110上运行的用于训练模型的运营管理客户端，触发用于训练点击行为预测模型的操作，终端设备110检测到用户触发该操作后，会相应地生成点击行为预测模型训练指令，并将该点击行为预测模型训练指令通过网络发送给服务器120。

服务器120接收到终端设备110发送的点击行为预测模型训练指令后，获取有标签训练数据集合，有标签训练数据集合包括的训练数据均具有标签，该标签用于标识对象是否点击历史内容，从而分为正样本数据和负样本数据。

服务器120从多个正样本数据中采样一个正样本数据作为锚点数据，从多个负样本数据中采样得到第一困难负样本数据。其中，第一困难负样本数据不仅属于负样本数据，还与锚点数据之间的相似度大于第一预设阈值。

由于锚点数据和正样本数据属于同一类数据，锚点数据和第一困难负样本数据属于不同类数据，故服务器120在模型训练过程中，最小化锚点数据和正样本数据之间相似度差异，最大化锚点数据和第一困难负样本数据之间的相似度差异，即在特征嵌入空间，拉近锚点数据和正样本数据之间的距离，推远锚点数据和第一困难负样本数据之间的距离，训练得到点击行为预测模型，以便预测对象点击待推荐内容的概率。

由此，不再从同一批次数据中随机选择用于模型训练的负样本数据，而是有目的地选择具有代表性的第一困难负样本数据，即容易被模型识别为正样本数据的负样本数据，从而在点击行为预测模型学习数量有限的负样本数据的前提下，不再学习过多无效的负样本数据，提高了点击行为预测模型的精度。

本申请实施例所提供的数据处理方法可以由服务器执行。但是，在本申请的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本申请实施例所提供的数据处理方法，或者由终端设备和服务器共同执行本申请实施例所提供的数据处理方法，本实施例对此不做限定。

下面通过方法实施例对本申请提供的数据处理方法进行详细介绍。

参见图2，该图为本申请实施例提供的数据处理方法的流程示意图。为了便于描述，下述实施例仍以该数据处理方法的执行主体为服务器为例进行介绍。如图2所示，该数据处理方法包括S201-S204，下面具体说明。

S201：获取有标签训练数据集合。

有标签训练数据集合包括具有标签的训练数据，标签用于标识对象是否点击历史内容，历史内容是指已经向对象推荐过的内容，如在网页中向用户展示的广告等，内容是指广告、文章、视频等。基于标签可以将有标签训练数据集合包括的训练数据划分为正样本数据和负样本数据，正样本数据为对象点击的历史内容，负样本数据为用户未点击过的历史内容。例如，向用户展示10个广告，用户仅对其中2个广告有兴趣并点击，进行进一步了解，则10个广告构成了有标签数据集合包括的具有标签的训练数据，其中被点击的2个广告为正样本数据，没被点击的8个广告为负样本数据。

可以理解的是，在本申请的具体实施方式中，涉及到对象是否点击内容等与用户相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

作为一种可能的实现方式，以内容为广告为例，可以根据广告曝光和点击日志获取有标签训练数据集合。根据广告曝光和点击日志获取用户之前已经点击过的广告和未点击的广告，将用户点击过的广告作为正样本数据，将用户未点击的广告作为负样本数据。由此，可以实现对数据自动标注其对应的标签。

S202：从多个正样本数据中确定锚点数据。

锚点数据属于正样本数据，是对象点击过的内容。锚点数据是在对比学习中用作参考的数据，与锚点数据属于一类的数据（二者的相似度较高）即为正样本数据，与锚点数据不属于一类的数据（二者的相似度较低）即为负样本数据。

需要说明的是，由于锚点数据是在对比学习中用作参考的数据，以便后续可以拉近锚点数据与同类数据，推远锚点数据与非同类数据。故锚点数据也可以从负样本数据中确定，对应的，后续应该拉近锚点数据与负样本数据之间的距离，推远锚点数据与正样本数据之间的距离。

作为一种可能的实现方式，本申请实施例提供一种S202的具体实现方式，即从多个正样本数据中确定锚点数据的具体实现方式，即从多个正样本数据中选择部分正样本数据，分别作为待定锚点数据，从而将待定锚点数据分别作为锚点数据，分别执行S203，即分别确定锚点数据与各个负样本数据之间的第一相似度，将第一相似度大于第一预设阈值的负样本数据确定为第一困难负样本数据，从而通过多个锚点数据构成多对正样本对，每个正样本对对应于多对第一困难负样本数据，以便后续点击行为预测模型可以学习到更多与正样本有关的数据特征。而且，采用同一批次的训练数据构建多对正样本对和负样本对进行后续训练，不需要对同一批次的训练数据分开学习调整网络参数，能够提高学习效率。

作为一种可能的实现方式，可以基于已点击的历史内容的浏览时长确定正样本数据的类别，以便从每个类别中采样一个正样本数据作为锚点数据，从而进一步提高点击行为预测模型的精度。

S203：分别确定锚点数据与多个负样本数据之间的第一相似度，将第一相似度大于第一预设阈值的负样本数据确定为第一困难负样本数据。

相关技术中，负样本数据是从同一批次数据中随机采样的其他样本数据得到的，一般会导致负样本数据的数量会远高于正样本数据的数量，从而训练得到模型的预测值可能会由于少数服从多数而向负样本靠拢，导致模型的精度较低。基于此，相关技术中会控制负样本数据的数量，使得负样本数据的数量会减少，而且负样本数据依然是随机采样的，若采样的负样本数据与锚点数据的相似度较低，则对模型的训练作用较小，从而模型的精度较低。

基于此，本申请实施例不再随机采样负样本数据，而是采样具有代表性的负样本数据，即第一困难负样本数据。其中，将第一相似度大于第一预设阈值的负样本数据确定为第一困难负样本数据，第一相似度是指锚点数据与负样本数据之间的相似度。本申请实施例不具体限定计算相似度的方式，例如，基于欧式距离、曼哈顿距离等距离计算的方式计算相似度、基于夹角余弦的方式计算相似度、基于相关系数的方式计算相似度等。

第一困难负样本数据具有两个特点，第一，与锚点数据之间的相似度大于第一预设阈值，即第一困难负样本数据与锚点数据相似度较高，二者很难区分，使得训练过程中第一困难负样本数据对点击行为预测模型的训练作用较大，相当于在训练过程中点击行为预测模型不断学习“错题集”以提高学习能力，进而提高模型精度。第二，第一困难负样本数据为负样本数据，是基于标注得到的负样本数据，属于真负样本数据，而非假负样本数据，下面具体说明。

参见图3，该图为本申请实施例提供的一种数据分布的示意图。如图3中的相关技术，由于没有训练数据的标签，在特征嵌入空间中，从锚点数据的邻居中采样负样本，但由于会偏向于采样与锚点数据距离较近（即相似度较高）的训练数据作为负样本数据，因此可能会采样到与锚点数据属于同类别的假负样本数据，即将实际为正样本数据却作为负样本数据使用。如图3中具有斜纹的矩形代表的数据的类别为分类1，锚点数据的类别也为分类1，但是具有斜纹的矩形代表的数据被采样作为负样本数据，其实际属于假负样本数据，具有斜纹的圆形代表的数据为真负样本数据。该种采样方式得到的负样本数据可能会导致点击行为预测模型学习到错误的特征，降低模型的精度。而在本申请实施例中，基于标签从与锚点数据距离较近的负样本数据中采样得到的第一困难负样本数据，是真负样本数据的概率较大，是假负样本数据的概率较小。如图3中，由于标签的存在，采样得到的负样本数据均为真负样本数据。从而避免后续模型训练过程中，点击行为预测模型学习到错误的特征，提高了点击行为预测模型的精度。

由此，提高了不再随机采样得到负样本数据，而是基于标签和相似度采样得到第一困难负样本数据，以便在有限数量的负样本数据中，提供数据质量较高的负样本数据，使得后续点击行为预测模型可以学习到更多的特征，提高模型的精度。

作为一种可能的实现方式，本申请实施例提供一种S203的具体实现方式，即分别确定锚点数据与多个负样本数据之间的第一相似度，将第一相似度大于第一预设阈值的负样本数据确定为第一困难负样本数据的具体实现方式，具体参见S2031-S2034。

S2031：分别确定锚点数据与多个负样本数据之间的第一相似度。

S2032：将第一相似度小于第一预设阈值的负样本数据确定为待定第一困难负样本数据。

在该实施例中，不再直接将第一相似度小于第一预设阈值的负样本数据直接作为第一困难负样本数据，而是先作为待定第一困难负样本数据，即还未最终确定为第一困难负样本数据的负样本数据。

S2033：确定待定第一困难负样本数据的类别。

虽然负样本数据是对象未点击的历史内容，但是对象不点击该历史内容的原因有很多，为了挖掘得到对象不点击历史内容的原因，可以将负样本数据划分为多个类别，对应的待定第一困难负样本数据也包括多个类别。在本申请实施例中，基于未点击的历史内容的浏览时长确定待定第一困难负样本数据的类别，如虽然没点击历史内容，但是针对该历史内容浏览时长为0-20S、21S-40S、41S-60S等，基于浏览时长确定对象是否对会点击该历史内容。

此外，为了降低数据标注数量，可以不为每个负样本数据标注类别，而是在确定了待定第一困难负样本后确定各个第一困难负样本数据的类别，从而降低标注成本，提高标注效率。

S2034：根据待定第一困难负样本数据的类别，得到多个第一困难负样本数据。

作为一种可能的实现方式，可以每个类别至少采样一个待定第一困难负样本数据作为第一困难负样本数据，得到包括多个类别的多个第一困难负样本数据，以便可以使得第一困难负样本数据均匀分布，更全面学习到对象不点击的历史内容的特征，以提高后续点击行为预测模型的精度。

S204：基于第一目标训练方向，训练得到点击行为预测模型。

点击行为预测模型用于预测对象点击待推荐内容的概率，从而可以将概率较高的待推荐内容推荐给对象。

相似度差异是指两个数据之间的相似程度，或两个数据之间的差异，相似度差异越小，两个数据之间的相似度越高；相似度差异越大，两个数据之间的相似度越低。第一目标训练方向为最小化锚点数据和正样本数据之间的相似度差异，以及最大化锚点数据和第一困难负样本数据之间的相似度差异。例如，在模型训练的过程中，训练目标是拉近锚点数据和正样本数据之间的距离，推远锚点数据和第一困难负样本数据之间的距离，使得点击行为预测模型能够更好地学习样本特征，提高模型的精度。

为了方便说明，下面引入数学表示，对采样得到锚点数据和第一困难负样本数据进行说明。

假设锚点数据表示为，正样本数据表示为/>，/>表示由锚点数据和正样本数据构成的一对正样本对，正样本对来自于正样本分布/>。基于前述方式采样得到的第一困难负样本数据的数量为k个，可以表示为/>，。集合/>包括k个第一困难负样本数据，可以表示为集合。

表示所有潜在类别的集合，与每个类别/>相关联的是一个概率分布/>，该分布在输入空间/>上，/>表示数据集中类别的分布，/>是从输入空间到标签空间的标签函数。

对于训练数据，若训练数据具有标签，则/>表示/>的标签。点击行为预测模型的训练过程在/>上完成，其中，/>是一类模型表示函数/>，该函数从输入空间映射到新的向量空间/>。对于训练数据/>和集合/>，则在所有训练数据中选择的其中一条训练数据/>属于集合/>的概率可以表示为公式（1）：

其中，表示训练数据/>属于集合/>的概率，/>表示与类别/>相关联的概率分布，/>表示期望值，/>表示训练数据/>属于类别/>的期望； />表示如果则值为1，否则值为0。

最后在已知训练数据在集合/>中的前提下，选择训练数据/>的概率可以表示为公式（2）：

其中，表示在已知训练数据/>在集合/>中的前提下，选择训练数据/>的概率，/>表示训练数据/>的概率分布，/>表示集合/>的概率分布。

基于上述定义，锚点数据的采样策略，即从多个正样本数据中采样得到锚点数据可以表示为公式（3）：

其中，表示正样本分布，/>表示期望，/>表示正样本对/>属于同一类别/>的期望，/>表示锚点数据/>的概率分布，/>表示正样本数据/>的概率分布。

作为一种可能的实现方式，类根据测量/>的随机选择器而选定，即根据类目的概率分布随机选择一个分类，例如，类1出现的概率为20%，那么就有20%的概率选择类目/>。

第一困难负样本数据的采样策略，即将第一相似度大于第一预设阈值的负样本数据确定为第一困难负样本数据，其数学表示的推导过程如下。

由前述可知，第一困难负样本数据具有两个特点，下面分别进行说明。

第一，第一困难负样本数与锚点数据之间的相似度大于第一预设阈值，即第一困难负样本数据难以区分/>，二者在新的向量空间（如特征嵌入空间）中的距离较近，类似于无监督学习的数据采样方式。

由此，对于给定的锚点数据和模型表示函数/>，设/>为无监督学习的采样方式得到的训练数据集合，可以表示为公式（4）：

其中，表示无监督学习的采样方式得到的训练数据集合，/>表示锚点数据，/>表示模型表示函数，/>表示训练数据，/>；(·)表示内积；/>是正的标量温度参数；/>表示第一预设阈值，用于控制采样策略的难度。

需要说明的是，表示锚点数据/>和训练数据/>之间的距离，/>和/>越接近则的值越大，/>表示选择的训练数据/>与锚点数据/>之间的相似度大于第一预设阈值。

的值越大，锚点数据/>和训练数据/>越相似，越有利于点击行为预测模型进行训练。其中，不同的锚点数据/>和模型表示函数/>可以使用不同的/>值。作为一种可能的实现方式，可以在训练过程中，基于ROC曲线下与坐标轴围成的面积（Area Under Curve，AUC）确定。

是一个超参数，这个参数控制特征向量的缩放程度，参数/>影响了特征向量的分布和模型的稳定性。当/>的值较大时，特征向量的分布会变得更加均匀，模型的稳定性也会提高。相反如果/>的值较小，特征向量的分布可能会变得集中，这可能会导致模型过拟合。

对应的，基于公式（4）采样得到的训练数据的分布可以表示为公式（5）：

其中，表示无监督学习的采样方式得到的训练数据的概率分布，/>表示k个第一困难负样本数据中第j个第一困难负样本数据，/>表示类别/>的概率分布，/>在公式（2）中已定义。

由此，基于公式（5）可以选择来自的负样本/>，其中/> 。

第二，第一困难负样本数据为真负样本数据，可以表示为具有与/>不同的标签，类似于有监督学习的数据采样方式，可以表示为/>。

由此，对于给定的锚点数据及其相应的标签/>，设/>为有监督学习的采样方式得到的训练数据集合，其包括多个类别，可以表示为公式（6）：

其中，表示有监督学习的采样方式得到的训练数据集合，/>表示训练数据，/>表示训练数据/>的标签，/>表示锚点数据/>的标签。

对应的，基于公式（6）采样得到的训练数据的分布可以表示为公式（7）：

其中，表示有监督学习的采样方式得到的训练数据的概率分布，/>表示k个第一困难负样本数据中第j个第一困难负样本数据，/>表示类别/>的概率分布，/>在公式（2）中已定义。

由此，基于公式（7）可以选择来自中具有不同标签的负样本数据/>。

经过上述分析，基于第一困难负样本数据的两个特点，针对给定的正样本对，标签/>，模型表示函数/>和第一预设阈值/>，第一困难负样本数据的采样策略可以表示为公式（8）：

其中，表示有监督学习的采样方式得到的训练数据集合，/>表示锚点数据，/>表示模型表示函数，/>表示第一预设阈值，用于控制采样策略的难度，/>表示有监督学习的采样方式得到的训练数据集合，如公式（6），/>表示无监督学习的采样方式得到的训练数据集合，如公式（4）。

对应的，基于公式（8）采样得到的第一困难负样本数据的分布可以表示为公式（9）：

其中，表示有监督学习的采样方式得到的训练数据的概率分布，/>表示k个第一困难负样本数据中第j个第一困难负样本数据，/>表示类别/>的概率分布，在公式（2）中已定义。

作为一种可能的实现方式，本申请实施例提供一种S204的具体实现方式，即基于第一目标训练方向，训练得到点击行为预测模型的具体实现方式，具体参见A1-A2。

A1：确定第一期望损失函数。

其中，第一期望损失函数用于标识锚点数据和正样本数据之间的第二相似度，以及锚点数据和第一困难负样本数据之间的第一相似度。第二相似度是指锚点数据和正样本数据之间的相似度。第一相似度是指锚点数据和负样本数据之间的相似度，第一困难负样本数据属于负样本数据，故锚点数据和第一困难负样本数据之间的相似度为第一相似度。

作为一种可能的实现方式，为了缩短符号，将k个第一困难负样本表示为/>，以对数损失为例，对数损失函数可以表示为公式（10）：

其中，表示对数损失函数，/>表示锚点数据，/>表示正样本数据，/>表示k个第一困难负样本，/>表示模型表示函数，/>，，(·)表示内积，/>是正的标量温度参数。

由前述可知，表示正样本对/>的分布，/>表示k个第一困难负样本，/>为模型表示函数，/>表示从/>采样的第一困难负样本数据的分布，在公式（10）中定义，则第一期望损失函数/>可以表示为公式（11）：

其中，表示第一期望损失函数，/>表示正样本对的概率分布，表示k个第一困难负样本属于/>的概率分布，/>参见公式（10）。

A2：通过第一期望损失函数，基于最大化第二相似度，以及最小化第一相似度的训练方向，训练得到点击行为预测模型。

在点击行为预测模型的训练过程中，若最小化第一期望损失函数，即最小化公式（11），则需要最小化公式（10），最大化，对应的需要尽量增大/>，尽量减小/>，即最大化锚点数据和正样本数据之间的第二相似度，最小化锚点数据和第一困难负样本数据之间的第一相似度。也就是说，可以最小化第一期望损失函数，训练得到点击行为预测模型。

作为一种可能的实现方式，本申请实施例提供一种S204的具体实现方式，即基于第一目标训练方向，训练得到点击行为预测模型的具体实现方式，具体参见B1-B3。

B1：确定第一期望损失函数和第二期望损失函数。

其中，第一期望损失函数用于标识锚点数据和正样本数据之间的第二相似度，以及锚点数据和第一困难负样本数据之间的第一相似度，第二期望损失函数用于锚点数据和正样本数据之间的第二相似度，以及锚点数据和第二困难负样本数据之间的第三相似度。第三相似度是指锚点数据和第二困难负样本数据之间的相似度。

第二困难负样本数据是无标签训练数据确定的。例如，从同一批次数据中随机采样的其他样本数据得到。

作为一种可能的实现方式，可以获取多个无标签训练数据，分别确定多个无标签训练数据和锚点数据之间的第四相似度，将第四相似度小于或等于第二预设阈值的无标签数据确定为第二困难负样本数据，第四相似度为无标签训练数据和锚点数据之间的相似度。其中，第二预设阈值大于或等于第一预设阈值，若第二预设阈值大于第一预设阈值，第二困难负样本数据中可能会包括假负样本数据；若第二预设阈值等于第一预设阈值，第二困难负样本数据为第一负样本数据。

基于B1-B3方式中所用的正样本数据可以基于有标签训练数据集合得到，也可以基于无标签数据得到的，即分别确定多个无标签训练数据和锚点数据之间的第四相似度，将第四相似度大于第二预设阈值的无标签训练数据确定为正样本数据。下面结合图4进行说明。

参见图4，该图为本申请实施例提供的一种采样策略的示意图。在图4中，与锚点数据的相似度大于第二预设阈值的训练数据为真正样本数据，与锚点数据的相似度大于第一预设阈值且小于或等于第二预设阈值的训练数据包括假负样本数据和第一困难负样本数据，与锚点数据的相似度小于或等于第一预设阈值的训练数据为简单负样本数据，即与锚点数据的相似度较低的训练数据，区分度较大，点击行为预测模型易于学习的训练数据。

作为一种可能的实现方式，由于与锚点数据的相似度大于第一预设阈值且小于或等于第二预设阈值的训练数据包括假负样本数据和第一困难负样本数据才会包括两类数据，故可以仅获取第四相似度大于第一预设阈值，且第四相似度小于或等于第二预设阈值的无标签数据，并确定第四相似度大于第一预设阈值，且第四相似度小于或等于第二预设阈值的无标签数据的标签。从而可以降低数据的标注成本。

继续以前述为例，表示正样本对/>的分布，/>表示k个负样本，/>为模型表示函数，/>表示从/>采样的第二困难负样本数据的分布，/>在公式（10）中定义，则第二期望损失函数/>可以表示为公式（12）：

其中，表示第二期望损失函数，/>表示正样本对的概率分布，表示k个第一困难负样本属于/>的概率分布，/>参见公式（10）。/>

作为一种可能的实现方式，由于对象的兴趣爱好会随着时间推移而发生改变，对应的其想要点击的内容也会发生改变，故可以在同一预设时间内获取多个无标签训练数据和有标签训练数据集合包括的训练数据，以便多个无标签训练数据和有标签训练数据集合包括的训练数据为同一预设时间内的数据，避免不同时间段对象的点击行为特点不同，对象想要点击的内容的衡量标准不一致，对点击行为预测模型的精度的影响。

B2：根据第一期望损失函数和第二期望损失函数，确定总损失函数。

在某些情况下，可以使得，下面结合图5进行说明。

参见图5，该图为本申请实施例提供的一种数据分布的示意图。在图5中，为基于公式（8）采样得到的第一困难负样本数据的分布/>，仅包括真负样本数据。为基于公式（4）采样得到的训练数据的分布/>。/>为从同一批次数据中随机采样的其他样本数据，即包含满足约束条件/>的所有负样本/>。可以理解的是，理想情况下，如果标注的训练数据都是准确的，那么/>仅包括/>中所有的负样本数据（即所有的负样本数据都标注出来了，没有遗漏）。那么/>，即与/>的差集就不会存在假负样本。

由此，从图5中可以看出，在中不包括假负样本的情况下，其余情况均为/>。由此，最小化/>可以最小化/>。作为一种可能的实现方式，根据第一期望损失函数和第二期望损失函数确定的总损失函数可以表示为公式（11）。

作为一种可能的实现方式，可以获取第二期望损失函数系数，根据第一期望损失函数、第二期望损失函数和第二期望损失函数系数，确定总损失函数。其中，第二期望损失函数系数为小于1的正数，即总损失函数的主要构成为，次要构成为/>，具体可以表示为公式（13）：

其中，表示总损失函数，/>表示第一期望损失函数，如公式（11），/>表示第二期望损失函数系数，/>表示第二期望损失函数，如公式（12）。

由此，整体优化总损失函数，如果/>比较小，/>中的第一困难负样本数据计算的梯度就比较大，/>中的第二困难负样本数据计算的梯度就比较小，点击行为预测模型训练时参数的更新受第一困难负样本数据的影响更大，正倾向于拟合第一困难负样本数据。但是因为第一困难负样本数据数量有限，还需要兼顾第二困难负样本数据，所以将第二困难负样本数据作为次要优化目标。

作为一种可能的实现方式，第二期望损失函数系数β可以在模型训练过程中设置不同的值，选择训练指标AUC最高时对应的参数值作为最终的β值。

为了更好的说明，下面继续以对数损失函数为例，基于前述数学表示进行推导。

/>

当时，公式（14）等价于下式：

其中，由于证明公式中分子两边是相同的，为了方便表述，后续将省略分子进行推导。

当时，在k个值中求平均相当于在所有第一困难负样本数据中采样再求平均：

其中，计算如下，/>表示集合/>的概率：

计算如下：/>

其中，

由此，可以推导出：

因此证明完成。

B3：通过总损失函数，基于最大化第二相似度，以及最小化第一相似度和第三相似度的训练方向，训练得到点击行为预测模型。

由此，在获取没有标签的训练数据后，可以仅对一部分训练数据进行标注，得到有标签数据集合，剩下的没有标签的训练数据即为多个无标签训练数据。采用S201-S203的方式，对有标签数据集合进行处理，得到锚点数据和第一困难负样本数据，基于第四相似度确定锚点数据和第二困难负样本数据。基于第一困难负样本数据和锚点数据最小化，基于第二困难负样本数据和锚点数据最小化/>，以便最小化公式（13），得到训练好的点击行为预测模型。由此，可以降低对数据的标注成本，提高点击行为预测模型的训练速度，并且在有限数量的负样本数据的前提下，点击行为预测模型不再学习过多无效的负样本数据，提高了点击行为预测模型的精度。

可以理解的是，第二困难负样本数据虽然存在假负样本数据，但由于假负样本数据是基于距离确定的，假负样本数据比例不高，对结果的影响不是很大。本领域技术人员可以根据实际情况，即标注成本和精度对第一困难负样本数据的使用数量和第二困难负样本数据的使用数量进行确定。

作为一种可能的实现方式，由于第一困难负样本数据和第二困难负样本数据都是与正样本数据的相似度较高的负样本数据，若直接基于第一困难负样本数据和/或第二困难负样本数据训练点击行为预测模型，可能会导致点击行为预测模型较难学习，训练时间较长，或者是可能直接将第一困难负样本数据和/或第二困难负样本数据作为噪声，影响点击行为预测模型的精度。

基于此，可以先基于简单负样本数据，即与锚点数据的相似度较低的训练数据，区分度较大，点击行为预测模型易于学习的训练数据预先进行训练，得到预训练模型。其中，预训练模型（Pre-training model），也称基石模型、大模型，指具有大参量的深度神经网络（Deep neural network，DNN），在海量未标记的数据上对其进行训练，利用大参量DNN的函数近似能力使PTM在数据上提取共性特征，经微调（fine tune）、参数高效微调（PEFT）、prompt-tuning等技术，适用于下游任务。因此，预训练模型可以在小样本（Few-shot）或零样本（Zero-shot）场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型（ELMO，BERT，GPT)、视觉模型（swin-transformer，ViT，V-MOE）、语音模型（VALL-E）、多模态模型(ViBERT， CLIP，Flamingo，Gato)等，其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容（AIGC）重要工具，也可以作为连接多个具体任务模型的通用接口。

具体地，将第一相似度小于或等于第一预设阈值的负样本数据确定为简单负样本数据；基于第二目标训练方向，训练得到待定点击行为预测模型，其中，第二目标训练方向为最小化锚点数据和正样本数据之间的相似度差异，以及最大化锚点数据和简单负样本数据之间的相似度差异。对应的，前述S204可以为基于第一目标训练方向，调整待定点击行为预测模型，得到点击行为预测模型。

由此，可以先基于与锚点数据区分度较大的数据，即简单负样本数据预训练得到待定点击行为预测模型，然后基于与锚点数据区分度较小的第一困难负样本数据和/或第二困难负样本数据调整待定点击行为预测模型，得到点击行为预测模型。

作为一种可能的实现方式，在训练得到点击行为预测模型，可以直接将点击行为预测模型应用于线上，从而确定向对象推荐哪个待推荐内容。具体地，可以获取内容推荐请求，该内容推荐请求包括目标对象的对象标识，目标对象为等待展示推荐内容的对象；根据目标对象的对象标识，通过点击行为预测模型预测目标对象点击多个待推荐内容的概率，多个待推荐内容可以为等待推荐的内容，根据目标对象点击多个待推荐内容的概率，从多个待内容中确定推荐内容。

由此，可以在对象浏览一些内容的过程中，当目标对象执行点击翻页等操作后，可以向服务器实时发送内容推荐请求，以便服务器从多个待推荐内容中确定出一个或多个目标对象点击概率最高或者排在前几名的待推荐内容，将其作为推荐内容，并将推荐内容展示给目标对象，以便提高待推荐内容的点击率。

为了便于进一步理解本申请实施例提供的技术方案，下面以本申请实施例提供的数据处理方法的执行主体为服务器为例，对该数据处理方法进行整体示例性介绍。

下面先对点击行为预测模型的训练过程进行说明。

点击行为预测模型训练时批大小设置为512，训练轮次设置为200次。学习率设置为0.001，权重衰减设置为，优化器设置为Adam。第二期望损失函数系数β的集合在[0.1,5]之间进行网格搜索。计算使用NVIDIA A100 32 GB GPU，在实际的数据集上面一个点击行为预测模型（200轮）的训练时间约为十几个小时。最终模型训练好后，用于实际广告推荐和资讯推荐。

参见图6，该图为本申请实施例提供的一种数据处理方法的应用场景示意图。

S601：获取有标签训练数据集合和无标签数据集合。

其中，有标签训练数据集合包括正样本数据和负样本数据，无标签数据集合包括多个没有标签的训练数据，即无标签训练数据。

S602：从正样本数据中选择锚点数据，从负样本数据中确定第一困难负样本数据，从无标签训练数据集合中确定第二困难负样本数据。

S603：根据锚点数据、第一困难负样本数据和第二困难负样本数据，基于最小化锚点数据和正样本数据之间的相似度差异，最大化锚点数据和第一困难负样本数据之间的相似度差异，以及最大化锚点数据和第二困难负样本数据之间的相似度差异的训练方向，训练得到点击行为预测模型。

训练方向可以是最小化公式（13）的训练方向。

S604：将点击行为预测模型部署在线上。

其中，线上是指将点击行为预测模型部署到生产环境，生产环境例如可以是在负责在客户端、网页等前端推荐展示广告等内容的服务器。

S605：从客户端获取内容推荐请求。

该客户端是目标对象浏览内容所用的客户端，内容推荐请求包括目标对象的对象标识。

S606：根据目标对象的对象标识，通过点击行为预测模型预测目标对象点击多个待推荐内容的概率。

S607：根据目标对象点击多个待推荐内容的概率，从多个待内容中确定推荐内容。

S608：向客户端发送推荐内容。

针对上文描述的数据处理方法，本申请还提供了对应的数据处理装置，以使上述数据处理方法在实际中得以应用及实现。

参见图7，该图为本申请实施例提供的一种数据处理装置的结构示意图。如图7所示，该数据处理装置700包括：获取单元701、确定单元702和训练单元703；

所述获取单元701，用于获取有标签训练数据集合，所述有标签训练数据集合包括多个正样本数据和多个负样本数据，所述正样本数据为对象点击的历史内容，所述负样本数据为所述对象未点击的历史内容；

所述确定单元702，用于从多个所述正样本数据中确定锚点数据；

所述确定单元702，还用于分别确定所述锚点数据与多个所述负样本数据之间的第一相似度，将所述第一相似度大于第一预设阈值的负样本数据确定为第一困难负样本数据；

所述训练单元703，用于基于第一目标训练方向，训练得到点击行为预测模型，所述点击行为预测模型用于预测所述对象点击待推荐内容的概率，所述第一目标训练方向为最小化所述锚点数据和所述正样本数据之间的相似度差异，以及最大化所述锚点数据和所述第一困难负样本数据之间的相似度差异。

作为一种可能的实现方式，所述训练单元703，具体用于：

确定第一期望损失函数，所述第一期望损失函数用于标识所述锚点数据和所述正样本数据之间的第二相似度，以及所述锚点数据和所述第一困难负样本数据之间的第一相似度；

通过所述第一期望损失函数，基于最大化所述第二相似度，以及最小化所述第一相似度的训练方向，训练得到所述点击行为预测模型。

作为一种可能的实现方式，所述确定单元702，具体用于：

分别确定所述锚点数据与多个所述负样本数据之间的第一相似度；

将所述第一相似度小于所述第一预设阈值的负样本数据确定为待定第一困难负样本数据；

确定所述待定第一困难负样本数据的类别，所述类别是基于所述未点击的历史内容的浏览时长确定的；

根据所述待定第一困难负样本数据的类别，得到多个所述第一困难负样本数据。

作为一种可能的实现方式，所述确定单元702，具体用于：

从多个所述正样本数据中选择部分所述正样本数据，分别作为待定锚点数据；

所述训练单元703，具体用于：

将所述待定锚点数据分别作为所述锚点数据，分别确定所述锚点数据与各个所述负样本数据之间的第一相似度，将所述第一相似度大于第一预设阈值的负样本数据确定为第一困难负样本数据。

作为一种可能的实现方式，所述训练单元703，具体用于：

确定第一期望损失函数和第二期望损失函数，所述第一期望损失函数用于标识所述锚点数据和所述正样本数据之间的第二相似度，以及所述锚点数据和所述第一困难负样本数据之间的第一相似度，所述第二期望损失函数用于标识所述第二相似度，以及所述锚点数据和第二困难负样本数据之间的第三相似度，所述第二困难负样本数据是基于无标签训练数据确定的；

根据所述第一期望损失函数和所述第二期望损失函数，确定总损失函数；

通过所述总损失函数，基于最大化所述第二相似度，以及最小化所述第一相似度和所述第三相似度的训练方向，训练得到所述点击行为预测模型。

作为一种可能的实现方式，所述获取单元701，还用于获取多个所述无标签训练数据；

所述确定单元702，还用于分别确定多个所述无标签训练数据和所述锚点数据之间的第四相似度，将所述第四相似度大于所述第二预设阈值的无标签训练数据确定为所述正样本数据，将所述第四相似度小于或等于所述第二预设阈值的无标签数据确定为所述第二困难负样本数据，所述第二预设阈值大于或等于所述第一预设阈值。

作为一种可能的实现方式，所述获取单元701，还用于获取所述第四相似度大于所述第一预设阈值，且所述第四相似度小于或等于所述第二预设阈值的无标签数据；

所述确定单元702，还用于确定所述第四相似度大于所述第一预设阈值，且所述第四相似度小于或等于所述第二预设阈值的无标签数据的标签。

作为一种可能的实现方式，所述训练单元703，具体用于：

获取第二期望损失函数系数，所述第二期望损失函数系数为小于1的正数；

根据所述第一期望损失函数、所述第二期望损失函数和所述第二期望损失函数系数，确定总损失函数。

作为一种可能的实现方式，多个所述无标签训练数据和所述有标签训练数据集合包括的训练数据为同一预设时间内的数据。

作为一种可能的实现方式，所述数据处理装置700还包括预训练单元，用于：

将所述第一相似度小于或等于所述第一预设阈值的负样本数据确定为简单负样本数据；

基于第二目标训练方向，训练得到待定点击行为预测模型，所述第二目标训练方向为最小化所述锚点数据和所述正样本数据之间的相似度差异，以及最大化所述锚点数据和所述简单负样本数据之间的相似度差异；

所述训练单元703，具体用于：基于所述第一目标训练方向，调整所述待定点击行为预测模型，得到所述点击行为预测模型。

作为一种可能的实现方式，所述数据处理装置700还包括应用单元，用于：

获取内容推荐请求，所述内容推荐请求包括目标对象的对象标识；

根据所述目标对象的对象标识，通过所述点击行为预测模型预测所述目标对象点击多个所述待推荐内容的概率；

根据所述目标对象点击多个待推荐内容的概率，从多个所述待内容中确定推荐内容。

本申请实施例还提供了一种计算机设备，该计算机设备为前述介绍的计算机设备，该计算机设备可以为服务器或者终端设备，前述所述的数据处理装置可以内置于服务器或终端设备中，下面将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。其中，图8所示为服务器的结构示意图，图9所示为终端设备的结构示意图。

参见图8，该图为本申请实施例提供的一种服务器结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器1422，如中央处理器（Central Processing Units，CPU），存储器1432，一个或一个以上应用程序1442或数据1444的存储介质1430（例如一个或一个以上海量存储设备）。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如Windows Server^TM，Mac OS X^TM，Unix^TM, Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

从多个所述正样本数据中确定锚点数据；

可选的，CPU 1422还可以执行本申请实施例中数据处理方法任一具体实现方式的方法步骤。

参见图9，该图为本申请实施例提供的一种终端设备的结构示意图。图9示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图，该智能手机包括：射频（Radio Frequency，简称RF）电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真（简称WiFi）模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图9中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对智能手机的各个构成部件进行具体的介绍：

RF电路1510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1580处理；另外，将设计上行的数据发送给基站。

存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器1520的软件程序以及模块，从而实现智能手机的各种功能应用以及数据处理。

输入单元1530可用于接收输入的数字或字符信息，以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531，也称为触摸屏，可收集用户在其上或附近的触摸操作，并根据预先设定的程式驱动相应的连接装置。除了触控面板1531，输入单元1530还可以包括其他输入设备1532。具体地，其他输入设备1532可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元1540可包括显示面板1541，可选的，可以采用液晶显示器（LiquidCrystal Display，简称LCD）、有机发光二极管（Organic Light-Emitting Diode，简称OLED）等形式来配置显示面板1541。

智能手机还可包括至少一种传感器1550，比如光传感器、运动传感器以及其他传感器。至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1560、扬声器1561，传声器1562可提供用户与智能手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号，传输到扬声器1561，由扬声器1561转换为声音信号输出；另一方面，传声器1562将收集的声音信号转换为电信号，由音频电路1560接收后转换为音频数据，再将音频数据输出处理器1580处理后，经RF电路1510以发送给比如另一智能手机，或者将音频数据输出至存储器1520以便进一步处理。

处理器1580是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器1520内的软件程序和/或模块，以及调用存储在存储器1520内的数据，执行智能手机的各种功能和处理数据。可选的，处理器1580可包括一个或多个处理单元。

智能手机还包括给各个部件供电的电源1590（比如电池），优选的，电源可以通过电源管理系统与处理器1580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，智能手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该智能手机所包括的存储器1520可以存储程序代码，并将所述程序代码传输给所述处理器。

该智能手机所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的数据处理方法。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行上述实施例提供的数据处理方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的数据处理方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器（英文：Read-Only Memory，缩写：ROM）、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

从多个所述正样本数据中确定锚点数据；所述锚点数据与所述正样本数据属于同类数据；

分别确定所述锚点数据与多个所述负样本数据之间的第一相似度，将所述第一相似度大于第一预设阈值的负样本数据确定为第一困难负样本数据；所述锚点数据与所述第一困难负样本数据属于不同类数据；

通过所述总损失函数，基于最大化所述第二相似度，以及最小化所述第一相似度和所述第三相似度的训练方向，训练得到点击行为预测模型，所述点击行为预测模型用于预测所述对象点击待推荐内容的概率。

2.根据权利要求1所述的方法，其特征在于，所述分别确定所述锚点数据与多个所述负样本数据之间的第一相似度，将所述第一相似度大于第一预设阈值的负样本数据确定为第一困难负样本数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述从多个所述正样本数据中确定锚点数据，包括：

所述分别确定所述锚点数据与多个所述负样本数据之间的第一相似度，将所述第一相似度大于第一预设阈值的负样本数据确定为第一困难负样本数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多个所述无标签训练数据；

分别确定多个所述无标签训练数据和所述锚点数据之间的第四相似度，将所述第四相似度大于第二预设阈值的无标签训练数据确定为所述正样本数据，将所述第四相似度小于或等于所述第二预设阈值的无标签数据确定为所述第二困难负样本数据，所述第二预设阈值大于或等于所述第一预设阈值。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取所述第四相似度大于所述第一预设阈值，且所述第四相似度小于或等于所述第二预设阈值的无标签数据；

确定所述第四相似度大于所述第一预设阈值，且所述第四相似度小于或等于所述第二预设阈值的无标签数据的标签。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一期望损失函数和所述第二期望损失函数，确定总损失函数，包括：

7.根据权利要求1所述的方法，其特征在于，多个所述无标签训练数据和所述有标签训练数据集合包括的训练数据为同一预设时间内的数据。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述通过所述总损失函数，基于最大化所述第二相似度，以及最小化所述第一相似度和所述第三相似度的训练方向，训练得到点击行为预测模型，包括：

基于所述通过所述总损失函数，基于最大化所述第二相似度，以及最小化所述第一相似度和所述第三相似度的训练方向，调整所述待定点击行为预测模型，得到所述点击行为预测模型。

9.根据权利要求1-8任意一项所述的方法，其特征在于，所述方法还包括：

根据所述目标对象点击多个待推荐内容的概率，从多个所述待推荐内容中确定推荐内容。

10.一种数据处理装置，其特征在于，所述装置包括：获取单元、确定单元和训练单元；

所述确定单元，用于从多个所述正样本数据中确定锚点数据；所述锚点数据与所述正样本数据属于同类数据；

所述确定单元，还用于分别确定所述锚点数据与多个所述负样本数据之间的第一相似度，将所述第一相似度大于第一预设阈值的负样本数据确定为第一困难负样本数据；所述锚点数据与所述第一困难负样本数据属于不同类数据；

所述训练单元，用于确定第一期望损失函数和第二期望损失函数，所述第一期望损失函数用于标识所述锚点数据和所述正样本数据之间的第二相似度，以及所述锚点数据和所述第一困难负样本数据之间的第一相似度，所述第二期望损失函数用于标识所述第二相似度，以及所述锚点数据和第二困难负样本数据之间的第三相似度，所述第二困难负样本数据是基于无标签训练数据确定的；根据所述第一期望损失函数和所述第二期望损失函数，确定总损失函数；通过所述总损失函数，基于最大化所述第二相似度，以及最小化所述第一相似度和所述第三相似度的训练方向，训练得到点击行为预测模型，训练得到点击行为预测模型，所述点击行为预测模型用于预测所述对象点击待推荐内容的概率。

11.根据权利要求10所述的装置，其特征在于，所述确定单元，具体用于：

12.根据权利要求10所述的装置，其特征在于，所述确定单元，具体用于：

所述训练单元，具体用于：

13.根据权利要求10所述的装置，其特征在于，所述获取单元，还用于获取多个所述无标签训练数据；

所述确定单元，还用于分别确定多个所述无标签训练数据和所述锚点数据之间的第四相似度，将所述第四相似度大于第二预设阈值的无标签训练数据确定为所述正样本数据，将所述第四相似度小于或等于所述第二预设阈值的无标签数据确定为所述第二困难负样本数据，所述第二预设阈值大于或等于所述第一预设阈值。

14.根据权利要求13所述的装置，其特征在于，所述获取单元，还用于获取所述第四相似度大于所述第一预设阈值，且所述第四相似度小于或等于所述第二预设阈值的无标签数据；

所述确定单元，还用于确定所述第四相似度大于所述第一预设阈值，且所述第四相似度小于或等于所述第二预设阈值的无标签数据的标签。

15.根据权利要求10所述的装置，其特征在于，所述训练单元，具体用于：

16.根据权利要求10所述的装置，其特征在于，多个所述无标签训练数据和所述有标签训练数据集合包括的训练数据为同一预设时间内的数据。

17.根据权利要求10所述的装置，其特征在于，所述数据处理装置还包括预训练单元，用于：

所述训练单元，具体用于：基于所述通过所述总损失函数，基于最大化所述第二相似度，以及最小化所述第一相似度和所述第三相似度的训练方向，调整所述待定点击行为预测模型，得到所述点击行为预测模型。

18.根据权利要求10-17任一所述的装置，其特征在于，所述数据处理装置还包括应用单元，用于：

19.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述处理器用于根据所述计算机程序执行权利要求1-9中任意一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-9中任意一项所述的方法。

21.一种包括计算机程序的计算机程序产品，其特征在于，当其在计算机设备上运行时，使得所述计算机设备执行权利要求1-9中任意一项所述的方法。