CN117113151A

CN117113151A - 样本数据的获取方法、装置、设备以及存储介质

Info

Publication number: CN117113151A
Application number: CN202311133948.XA
Authority: CN
Inventors: 韩孟军
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-11-24

Abstract

本申请公开了一种样本数据的获取方法、装置、设备以及存储介质，属于机器学习领域。在本申请实施例中，响应于样本获取请求，获取样本对象的对象标识以及为该样本对象推荐的样本内容的内容标识，该样本内容为训练内容推荐模型时该样本对象的标注。基于该对象标识，获取该样本对象的对象特征，该对象特征包括对象行为以及对象标签。在该样本内容是有目标推荐引擎为该样本对象推荐的情况下，基于该内容标识，从该目标推荐引擎中获取该样本内容的内容特征，该内容特征为该目标推荐引擎为该样本对象推荐该样本内容时使用的内容特征，从而提高对象特征和内容特征的一致性，避免特征穿越导致训练出的内容推荐模型的内容推荐效果变差的问题。

Description

样本数据的获取方法、装置、设备以及存储介质

技术领域

本申请涉及机器学习领域，特别涉及一种样本数据的获取方法、装置、设备以及存储介质。

背景技术

随着计算机技术的发展，越来越多的厂商会使用内容推荐模型来推荐内容，训练内容推荐模型需要使用大量的样本数据，样本数据包括对象特征和内容特征，其中，对象特征为进行内容推荐的用户的特征。

相关技术中，为了降低对线上推荐业务的影响，往往会从线上获取对象特征，从线下获取内容特征。

但是，由于线下的内容特征不是实时更新的，可能导致获取到的对象特征和内容特征的一致性较差，使用这些对象特征和内容特征来训练内容推荐模型时，内容推荐模型的内容推荐效果较差。

发明内容

本申请实施例提供了一种样本数据的获取方法、装置、设备以及存储介质，能够获取的一致性较好的用户特征和内容特征，从而提高内容推荐模型的内容推荐效果，技术方案如下：

一方面，提供了一种样本数据的获取方法，所述方法包括：

响应于样本获取请求，获取样本对象的对象标识以及为所述样本对象推荐的样本内容的内容标识；

基于所述对象标识，获取所述样本对象的对象特征，所述对象特征包括对象行为以及对象标签；

在所述样本内容是由目标推荐引擎为所述样本对象推荐的情况下，基于所述内容标识，从所述目标推荐引擎中获取所述样本内容的内容特征，所述内容特征为所述目标推荐引擎为所述样本对象推荐所述样本内容时使用的内容特征；

其中，所述对象特征和所述内容特征用于训练内容推荐模型。

一方面，提供了一种样本数据的获取装置，所述装置包括：

标识获取模块，用于响应于样本获取请求，获取样本对象的对象标识以及为所述样本对象推荐的样本内容的内容标识；

对象特征获取模块，用于基于所述对象标识，获取所述样本对象的对象特征，所述对象特征包括对象行为以及对象标签；

内容特征获取模块，用于在所述样本内容是由目标推荐引擎为所述样本对象推荐的情况下，基于所述内容标识，从所述目标推荐引擎中获取所述样本内容的内容特征，所述内容特征为所述目标推荐引擎为所述样本对象推荐所述样本内容时使用的内容特征；

在一种可能的实施方式中，所述标识获取模块，用于响应于样本获取请求，从推荐结果缓存中获取所述样本对象的对象标识以及所述样本内容的内容标识，所述推荐结果缓存用于存储使用不同推荐引擎进行内容推荐的对象的对象标识以及推荐引擎推荐的内容的内容标识。

在一种可能的实施方式中，所述对象特征获取模块，用于基于所述对象标识，从实时行为数据库中获取所述样本对象的实时对象行为；基于所述对象标识，从离线对象数据库中获取所述样本对象的历史对象行为以及对象标签。

在一种可能的实施方式中，所述内容特征获取模块，用于在所述样本内容是由目标推荐引擎为所述样本对象推荐的情况下，向所述目标推荐引擎发送内容特征获取请求，所述内容特征获取请求携带所述样本内容的内容标识；从所述目标推荐引擎的内容特征缓存中获取所述样本内容的内容特征，所述内容特征缓存中存储有所述目标推荐进行推荐时使用的内容特征。

在一种可能的实施方式中，所述内容特征获取模块，还用于执行下述任一项：

在所述内容特征缓存中存储有所述样本内容的至少两个内容特征的情况下，从所述至少两个内容特征中获取与目标推荐任务匹配的内容特征，所述目标推荐任务为向所述样本对象推荐内容的推荐任务；

在所述内容特征缓存中未存储有所述样本内容的内容特征的情况下，基于所述内容标识，从内容特征字典中获取所述样本内容的内容特征。

在一种可能的实施方式中，所述装置还包括存储模块，用于将所述样本对象的对象特征与所述样本内容的内容特征进行绑定存储，所述样本内容的内容特征作为训练所述内容推荐模型时所述样本对象的对象特征对应的标注。

在一种可能的实施方式中，所述内容特征获取模块，还用于在所述样本内容不是由所述目标推荐引擎为所述样本对象推荐的情况下，基于所述内容标识，从内容特征字典中获取所述样本内容的内容特征。

一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现所述样本数据的获取方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现所述样本数据的获取方法。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述样本数据的获取方法。

通过本申请实施例提供的技术方案，响应于样本获取请求，获取样本对象的对象标识以及为该样本对象推荐的样本内容的内容标识，该样本内容为训练内容推荐模型时该样本对象的标注。基于该对象标识，获取该样本对象的对象特征，该对象特征包括对象行为以及对象标签。在该样本内容是有目标推荐引擎为该样本对象推荐的情况下，基于该内容标识，从该目标推荐引擎中获取该样本内容的内容特征，该内容特征为该目标推荐引擎为该样本对象推荐该样本内容时使用的内容特征，从而实现对象特征和内容特征在时序上的统一，提高对象特征和内容特征的一致性，避免特征穿越导致训练出的内容推荐模型的内容推荐效果变差的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种样本数据的获取方法的实施环境的示意图；

图2是本申请实施例提供的一种样本数据的获取方法的流程图；

图3是本申请实施例提供的另一种样本数据的获取方法的流程图；

图4是本申请实施例提供的又一种样本数据的获取方法的流程图；

图5是本申请实施例提供的一种样本数据的获取装置的结构示意图；

图6是本申请实施例提供的一种终端的结构示意图；

图7是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式做进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

推荐引擎：是主动发现用户当前或潜在需求的定律，并主动推送信息给用户的信息网络。挖掘用户的喜好和需求，主动向用户推荐其感兴趣或者需要的对象。

特征穿越：对于使用过去以及当下信息来预测未来的模型，特征穿越本质上是特征中包含了未来的信息。对于线上推理过程，构建特征所使用的信息只能来自当下或过去，自然不存在特征穿越问题。而对于线下训练过程，构建特征时可能会误引入样本发生时刻之后的信息，导致特征穿越。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及的对象特征是在充分授权的情况下获取的。

相关技术中，会搭建一个召回(Callback)服务来在线获取对象特征，通过线下的内容特征字典中获取内容特征。这种方式会由于线上和线下的延迟产生特征穿越的问题。比如，推荐引擎在进行内容推荐时，在0点-7点依赖A日期的字典，7点-24点依赖B日期的字典。线下的内容特征字典会在每天的8点从线上拉取最新的字典，也即是在8点拉取B日期的字典，拉取之前使用A日期的字典，那么在7点-8点之间获取内容特征时，可能推荐引擎使用了B日期的内容特征来进行内容推荐，但是获取的内容特征却是A日期的，导致特征穿越的问题。

图1是本申请实施例提供的一种样本数据的获取方法的实施环境示意图，参见图1，该实施环境中可以包括终端110和服务器140。

终端110通过无线网络或有线网络与服务器140相连。可选地，终端110是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端110安装和运行有支持样本数据获取和内容推荐模型训练的应用程序。

服务器140是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器140上部署有推荐引擎，通过推荐引擎能够实现在线的内容推荐。

本领域技术人员可以知晓，上述终端和服务器的数量可以更多或更少。比如上述终端仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

在介绍完本申请实施例的实施环境之后，下面将对本申请实施例的应用场景进行说明。

本申请实施例提供的样本数据的获取方法能够应用在训练任一类型的内容推荐模型的场景下，比如，能够应用在训练广告推荐模型的场景下，也能够应用在训练商品推荐模型的场景下，还能够应用在训练新闻推荐模型的场景下。

以本申请实施例提供的技术方案应用在训练广告推荐模型的场景下为例，响应于样本获取请求，获取样本对象的对象标识以及为该样本对象推荐的样本广告的广告标识，该样本广告为通过广告推荐引擎为该样本对象推荐的。基于该对象标识，获取该样本对象的对象特征，该对象特征包括对象行为以及对象标签，其中，对象行为是指对象与广告之间的交互行为。在该样本广告是由目标广告推荐引擎为该样本对象推荐的情况下，基于该广告标识，从该目标广告推荐引擎中获取该样本广告的广告特征，该广告特征为该目标广告推荐引擎为该样本对象推荐该样本广告时使用的广告特征，广告特征与对象特征的一致性较好，避免特征穿越的发生。后续能够基于该对象特征和该广告特征来训练一个广告推荐模型。

在介绍完本申请实施例的实施环境和应用场景之后，下面对本申请实施例提供的样本数据的获取方法进行说明，参见图2，以执行主体为终端为例，方法包括下述步骤。

201、响应于样本获取请求，终端获取样本对象的对象标识以及为该样本对象推荐的样本内容的内容标识。

其中，样本获取请求用于请求获取对象特征和内容特征，样本获取请求既可以是手动触发，也可以是自动触发，本申请实施例对此不作限定。样本对象为进行过内容推荐的对象，对象标识用于唯一标记样本对象。样本内容是为该样本对象推荐的内容，样本内容的内容标识用于唯一标记样本内容。

202、终端基于该对象标识，获取该样本对象的对象特征，该对象特征包括对象行为以及对象标签。

其中，样本对象的对象特征用于反映样本对象的对象特性，样本对象的对象行为是指样本对象与多个内容之间的交互行为，样本对象的对象标签用于对样本对象进行分类。

203、在该样本内容是由目标推荐引擎为该样本对象推荐的情况下，终端基于该内容标识，从该目标推荐引擎中获取该样本内容的内容特征，该内容特征为该目标推荐引擎为该样本对象推荐该样本内容时使用的内容特征。

其中，该对象特征和该内容特征用于训练内容推荐模型，内容推荐模型用于基于对象特征和内容特征进行内容推荐，在模型训练过程中，样本内容的内容特征可以作为样本对象的对象特征的标注。目标推荐引擎也被称为自有推荐引擎，是指厂商自行搭建的推荐引擎，目标推荐引擎进行推荐时的过程数据均可以被终端获取。与此相对的，非目标推荐引擎也被称为三方推荐引擎，三方推荐引擎进行推荐时的过程数据无法被终端获取。

上述步骤201-203是对本申请实施例提供的样本数据的获取方法的简单介绍，下面将结合一些例子，对本申请实施例提供的技术方案进行更加清楚的说明，参见图3，以执行主体为终端为例，方法包括下述步骤。

301、响应于样本获取请求，终端获取样本对象的对象标识以及为该样本对象推荐的样本内容的内容标识。

其中，样本获取请求用于请求获取对象特征和内容特征，样本获取请求既可以是手动触发，也可以是自动触发，本申请实施例对此不作限定。样本对象为进行过内容推荐的对象，对象标识用于唯一标记样本对象。样本内容是为该样本对象推荐的内容，样本内容的内容标识用于唯一标记样本内容。样本对象和样本内容的数量可以是一个或者多个，一个样本对象可以对应于一个或多个样本内容。样本对象是指样本用户，也即是进行过内容推荐的用户。样本内容是指向样本对象推荐的内容，样本内容的类型与内容推荐的场景相关，比如，在推荐广告的场景下，样本内容也即是样本广告；在推荐商品的场景下，样本内容也即是样本商品；在推荐视频的场景下，样本内容也即是样本视频，本申请实施例对于样本内容的类型不作限定。在一些实施例中，样本内容是通过推荐引擎推荐给样本对象的，推荐引擎是在线推荐引擎。在一些实施例中，对象也被称为user，内容也被称为item。

在一种可能的实施方式中，响应于样本获取请求，终端从推荐结果缓存中获取该样本对象的对象标识以及该样本内容的内容标识，该推荐结果缓存用于存储使用不同推荐引擎进行内容推荐的对象的对象标识以及推荐引擎推荐的内容的内容标识。

其中，不同推荐引擎在进行内容推荐时，每完成一次内容推荐，会将推荐的内容的内容标识以及内容推向的对象的对象标识存储在该推荐结果缓存中，从该推荐结果缓存中就能够获取对象标识和内容标识。在本申请实施例中，该推荐结果缓存中存储的对象标识所对应的对象被称为样本对象，内容标识所对应的内容被称为样本内容。在一些实施例中，该推荐结果缓存中存储的是流式数据，比如，该推荐结果缓存为消息队列，也即是以先进先出的方式来存储数据，比如，该消息队列为Kafka。

在这种实施方式下，从推荐结果缓存中就能够直接获取样本对象的对象标识以及为样本对象推荐的样本内容的内容标识，对象标识和内容标识的获取效率较高。

举例来说，响应于样本获取请求，终端通过第一服务从推荐结果缓存中获取该样本对象的对象标识以及该样本内容的内容标识，该推荐结果缓存是该终端的本地缓存。在一些实施例中，终端上还运行有结果召回服务，利用该结果召回服务能够将不同推荐引擎的推荐结果(对象标识和内容标识)召回到该推荐结果缓存中。

其中，该第一服务是终端的本地服务，也即是一个离线服务，该第一服务用于获取对象标识以及内容标识，后续还能够用于获取对象特征。在本申请实施例中，将该第一服务命名为ranker服务。

在一种可能的实施方式中，响应于样本获取请求，终端获取不同推荐引擎的推荐结果，该推荐结果包括进行内容推荐的对象的对象标识以及推荐引擎推荐的内容的内容标识。终端从该推荐结果中获取该样本对象的对象标识以及样本内容的内容标识。

其中，该推荐结果为既可以是实时推荐结果，也可以是历史推荐结果，本申请实施例对此不做限定。

在这种实施方式下，响应于样本获取请求，获取不同推荐引擎的推荐结果，从推荐结果中获取样本对象的对象标识和样本内容的内容标识，获取方式较为简单。

举例来说，响应于样本获取请求，终端向不同推荐引擎发送推荐结果获取请求。终端获取不同推荐引擎返回的推荐结果，从该推荐结果中获取该样本对象的对象标识以及样本内容的内容标识。

302、终端基于该对象标识，获取该样本对象的对象特征，该对象特征包括对象行为以及对象标签。

其中，样本对象的对象特征用于反映样本对象的对象特性，样本对象的对象行为是指样本对象与多个内容之间的交互行为，交互行为包括点击、点赞、点踩以及分享等，对象行为能够从一定程度上反映对象对于内容的喜好。样本对象的对象标签用于对样本对象进行分类，一个样本对象的对象标签的数量可以为一个或多个，本申请实施例对此不作限定。该样本对象的对象特征是向该样本对象推荐该样本内容时使用的对象特征。需要说明的是，本申请实施例获取的对象特征为特征明文(Instance)而非特征签名(Feature)，特征明文是指直接记录形成特征的信息，而特征签名是指对形成特征的信息进行抽象化处理后得到的形式，相较于特征签名，特性明文具有直观性好、扩展性强、回溯性好以及跨场景使用的优势，下面通过表1来展示特征明文和特征签名的区别。

表1

在一种可能的实施方式中，终端基于该对象标识，从实时行为数据库中获取该样本对象的实时对象行为。终端基于该对象标识，从离线对象数据库中获取该样本对象的历史对象行为以及对象标签。

其中，实时行为数据库用于存储实时对象行为，离线对象数据库用于存储历史对象行为以及对象标签，推荐引擎在进行内容推荐时，也是从该实时行为数据库和离线对象数据库中获取对象特征的。实时对象行为是指为对象进行内容推荐时该对象的对象行为，历史行为是指为对象进行内容推荐之前该对象的对象行为，对象标签会周期性的更新。该实时对象行为、历史对象行为以及该对象标签，与向该样本对象推荐该样本内容时使用的相同。在一些实施例中，该实时行为数据库和该离线对象数据库为Redis数据库，当然，在其他可能的实施方式中也可以为其他类型的数据库，本申请实施例对此不作限定。

在这种实施方式下，从实时行为数据库和离线对象数据库中能够获取样本对象的对象特征，由于推荐引擎在进行内容推荐时也是从该实时行为数据库和离线对象数据库中获取对象特征的，这样可以保证获取对象特征的方式和数据保持同步，从而提高对象特征的准确性。

举例来说，终端采用该对象标识在该实时行为数据库中进行查询，得到该对象标识对应的实时对象行为。终端采用该对象标识在该离线对象数据库中进行查询，得到该对象标识对应的历史对象行为以及对象标签。

比如，终端通过第一服务，采用该对象标识在该实时行为数据库中进行查询，得到该对象标识对应的实时对象行为。终端通过第一服务，采用该对象标识在该离线对象数据库中进行查询，得到该对象标识对应的历史对象行为以及对象标签。

在一种可能的实施方式中，终端基于该对象标识，在对象特征数据库中进行查询，得到该样本对象的对象特征，该对象特征数据库用于存储进行内容推荐时使用的对象特征。

在这种实施方式下，从对象特征数据库中能够直接获取到对象特征，对象特征的获取效率较高。

举例来说，终端采用该对象标识在对象特征数据库中进行查询，得到该对象标识对应的对象特征。其中，推荐引擎在进行内容推荐时，每调用一次对象特征，会将该对象特征存储在该对象特征数据库中以便后续查询。

可选的，在步骤302之后，终端可以根据实际情况来执行下述步骤303或304，本申请实施例对于步骤的执行顺序不作限定。

303、在该样本内容不是由该目标推荐引擎为该样本对象推荐的情况下，终端基于该内容标识，从内容特征字典中获取该样本内容的内容特征。

其中，该对象特征和该内容特征用于训练内容推荐模型，内容推荐模型用于基于对象特征和内容特征进行内容推荐，在模型训练过程中，样本内容的内容特征可以作为样本对象的对象特征的标注。目标推荐引擎也被称为自有推荐引擎，是指厂商自行搭建的推荐引擎，目标推荐引擎进行推荐时的过程数据均可以被终端获取。与此相对的，非目标推荐引擎也被称为三方推荐引擎，三方推荐引擎进行推荐时的过程数据无法被终端获取。在该样本内容不是由该目标推荐引擎为该样本对象推荐的情况下，终端也就无法直接从推荐该样本内容的推荐引擎中获取推荐该样本内容时使用的内容特征。该内容特征字典中存储有多个内容的内容特征，该内容特征字典会周期性的进行更新。在一些实施例中，内容特征包括点击率、点赞率、点踩率以及分享率等。需要说明的是，与上述对象特征同理，本申请实施例获取的内容特征也是特征明文而非特征签名。

在一种可能的实施方式中，在该样本内容的流量标识指示该样本内容不是由该目标推荐引擎为该样本对象推荐的情况下，终端采用该内容标识在内容特征字典中进行查询，得到该内容标识对应的内容特征。

其中，流量标识用于表示样本内容的来源，也即是标识推荐该样本内容的推荐引擎。

在这种实施方式下，在该样本内容不是由该目标推荐引擎为该样本对象推荐的情况下，终端能够利用内容特征字典中获取内容特征，保证内容特征获取的成功率。

举例来说，在该样本内容的流量标识指示该样本内容不是由该目标推荐引擎为该样本对象推荐的情况下，终端通过第二服务，采用该内容标识在内容特征字典中进行查询，得到该内容标识对应的内容特征。其中，该第二服务是终端的本地服务，也即是一个离线服务，该第二服务用于获取内容特征。在本申请实施例中，将该第二服务命名为kiddy服务。

304、在该样本内容是由目标推荐引擎为该样本对象推荐的情况下，终端基于该内容标识，从该目标推荐引擎中获取该样本内容的内容特征，该内容特征为该目标推荐引擎为该样本对象推荐该样本内容时使用的内容特征。

其中，在该样本内容是由该目标推荐引擎为该样本对象推荐的情况下，终端能够直接从推荐该样本内容的推荐引擎中获取推荐该样本内容时使用的内容特征。

在一种可能的实施方式中，在该样本内容是由目标推荐引擎为该样本对象推荐的情况下，终端向该目标推荐引擎发送内容特征获取请求，该内容特征获取请求携带该样本内容的内容标识。终端从该目标推荐引擎的内容特征缓存中获取该样本内容的内容特征，该内容特征缓存中存储有该目标推荐进行推荐时使用的内容特征。

其中，该目标推荐引擎在进行内容推荐的过程中，会将推荐时使用的内容特征存储在内容特征缓存中。在一些实施例中，该内容特征缓存由第三服务维护，该第三服务为在线服务，通过该第三服务能够在该内容特征缓存中增删内容特征。在本申请实施例中，将该第三服务命名为kiddy特征服务。

在这种实施方式下，在该样本内容是由目标推荐引擎为该样本对象推荐的情况下，能够直接从目标推荐引擎的内容特征缓存中获取内容特征，保证获取到的内容特征与该目标推荐引擎进行内容推荐时使用的内容特征相同，保持内容特征的一致性。

举例来说，在该样本内容的流量标识指示该样本内容是由该目标推荐引擎为该样本对象推荐的情况下，终端通过第一服务向该目标推荐引擎发送内容特征获取请求，该内容特征获取请求携带该样本内容的内容标识。该目标推荐引擎通过第三服务获取该内容特征获取请求，从该内容特征获取请求中获取该内容标识，采用该内容标识在该内容特征缓存中进行查询，得到该内容标识对应的内容特征。目标推荐引擎通过该第三服务，将该内容特征发送给终端。终端通过第一服务获取该内容特征。

除了上述实施方式之外，还能够通过下述方式获取内容特征。

在一种可能的实施方式中，在该样本内容是由目标推荐引擎为该样本对象推荐的情况下，终端向该目标推荐引擎发送内容特征获取请求，该内容特征获取请求携带该样本内容的内容标识。在该内容特征缓存中存储有该样本内容的至少两个内容特征的情况下，终端从该至少两个内容特征中获取与目标推荐任务匹配的内容特征，该目标推荐任务为向该样本对象推荐内容的推荐任务。

其中，该内容特征缓存中存储有该样本内容的至少两个内容特征，也就表示目标推荐引擎在较短时间内推荐过至少两次该样本内容，由于推荐样本内容的时间不同，该样本内容的至少两个内容特征可能也是不同的，比如，该至少两个内容特征中点击率可能是不同的。

在这种实施方式下，在该内容特征缓存中存储有样本内容的至少两个内容特征的情况下，能够从该至少两个内容特征中筛选出与目标推荐任务匹配的内容特征，该内容特征也即是目标推荐引擎向该样本对象推荐该样本内容时使用的内容特征，保证模型训练时使用的内容特征与推荐引擎推荐时使用的内容特征的一致性。

举例来说，在该样本内容的流量标识指示该样本内容是由该目标推荐引擎为该样本对象推荐的情况下，终端通过第一服务向该目标推荐引擎发送内容特征获取请求，该内容特征获取请求携带该样本内容的内容标识以及目标推荐任务的标识。该目标推荐引擎通过第三服务获取该内容特征获取请求，从该内容特征获取请求中获取该内容标识以及目标推荐任务的标识，采用该内容标识在该内容特征缓存中进行查询，得到该内容标识对应的至少两个内容特征。该目标推荐引擎通过第三服务，基于该目标推荐任务的标识对该至少两个内容特征进行筛选，得到与该目标推荐任务的标识匹配的内容特征。目标推荐引擎通过该第三服务，将该内容特征发送给终端。终端通过第一服务获取该内容特征。

在一种可能的实施方式中，在该样本内容是由目标推荐引擎为该样本对象推荐的情况下，终端向该目标推荐引擎发送内容特征获取请求，该内容特征获取请求携带该样本内容的内容标识。在该内容特征缓存中未存储有该样本内容的内容特征的情况下，终端基于该内容标识，从内容特征字典中获取该样本内容的内容特征。

其中，该内容特征缓存中未存储有该样本内容的内容特征，也就样本获取请求与该目标推荐引擎向该样本对象推荐该样本内容之间的间隔时长较长，该内容特征缓存中存储的该样本内容的内容特征已经被其他内容特征所覆盖。

在这种实施方式下，在内容特征缓存中未存储有该样本内容的内容特征的情况下，能够基于内容标识从内容特征字典中获取样本内容的内容特征，保证能够获取到该样本内容的内容特征。

举例来说，在该样本内容的流量标识指示该样本内容是由该目标推荐引擎为该样本对象推荐的情况下，终端通过第一服务向该目标推荐引擎发送内容特征获取请求，该内容特征获取请求携带该样本内容的内容标识。该目标推荐引擎通过第三服务获取该内容特征获取请求，从该内容特征获取请求中获取该内容标识，采用该内容标识在该内容特征缓存中进行查询。在未查询到该内容标识对应的内容特征的情况下，目标推荐引擎通过该第三服务向终端发送内容特征丢失信息，该内容特征丢失信息表示未查询到该样本内容的内容特征。在接收到该内容特征丢失信息的情况下，终端通过第二服务，采用该内容标识在内容特征字典中进行查询，得到该内容标识对应的内容特征。

305、终端将该样本对象的对象特征与该样本内容的内容特征进行绑定存储，该样本内容的内容特征作为训练该内容推荐模型时该样本对象的对象特征对应的标注。

其中，绑定存储包括特征拼接和落盘(Dump)，特征拼接是指将内容特征和对象特征进行拼接，落盘是指将拼接后的特征进行存储。

下面将结合图4对上述步骤301-305进行说明。

参见图4，响应于样本获取请求，终端通过第一服务(ranker服务)从推荐结果缓存(kafka1)中获取该样本对象的对象标识以及该样本内容的内容标识。终端通过第一服务(ranker服务)，采用该对象标识在该实时行为数据库中进行查询，得到该对象标识对应的实时对象行为。终端通过第一服务(ranker服务)，采用该对象标识在该离线对象数据库中进行查询，得到该对象标识对应的历史对象行为以及对象标签。在该样本内容的流量标识指示该样本内容不是由该目标推荐引擎为该样本对象推荐的情况下，终端通过第二服务(kiddy服务)，采用该内容标识在内容特征字典(item字典)中进行查询，得到该内容标识对应的内容特征。终端通过第二服务(kiddy服务)将该对象特征和内容特征绑定存储在训练数据缓存(kafka2)中。在该样本内容的流量标识指示该样本内容是由该目标推荐引擎为该样本对象推荐的情况下，终端通过第一服务(ranker服务)向该目标推荐引擎发送内容特征获取请求，该内容特征获取请求携带该样本内容的内容标识。该目标推荐引擎通过第三服务(kiddy特征服务)获取该内容特征获取请求，从该内容特征获取请求中获取该内容标识，采用该内容标识在该内容特征缓存中进行查询，得到该内容标识对应的内容特征，该目标推荐引擎还提供召回、排序以及内容推荐服务。目标推荐引擎通过该第三服务(kiddy特征服务)，将该内容特征发送给终端。终端通过第一服务(ranker服务)获取该内容特征。终端通过第一服务(ranker服务)将该对象特征和内容特征绑定存储在训练数据缓存(kafka2)中。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图5是本申请实施例提供的一种样本数据的获取装置的结构示意图，参见图5，装置包括：标识获取模块501、对象特征获取模块502以及内容特征获取模块503。

标识获取模块501，用于响应于样本获取请求，获取样本对象的对象标识以及为该样本对象推荐的样本内容的内容标识。

对象特征获取模块502，用于基于该对象标识，获取该样本对象的对象特征，该对象特征包括对象行为以及对象标签。

内容特征获取模块503，用于在该样本内容是由目标推荐引擎为该样本对象推荐的情况下，基于该内容标识，从该目标推荐引擎中获取该样本内容的内容特征，该内容特征为该目标推荐引擎为该样本对象推荐该样本内容时使用的内容特征。

其中，该对象特征和该内容特征用于训练内容推荐模型。

在一种可能的实施方式中，该标识获取模块501，用于响应于样本获取请求，从推荐结果缓存中获取该样本对象的对象标识以及该样本内容的内容标识，该推荐结果缓存用于存储使用不同推荐引擎进行内容推荐的对象的对象标识以及推荐引擎推荐的内容的内容标识。

在一种可能的实施方式中，该对象特征获取模块502，用于基于该对象标识，从实时行为数据库中获取该样本对象的实时对象行为。基于该对象标识，从离线对象数据库中获取该样本对象的历史对象行为以及对象标签。

在一种可能的实施方式中，该内容特征获取模块503，用于在该样本内容是由目标推荐引擎为该样本对象推荐的情况下，向该目标推荐引擎发送内容特征获取请求，该内容特征获取请求携带该样本内容的内容标识。从该目标推荐引擎的内容特征缓存中获取该样本内容的内容特征，该内容特征缓存中存储有该目标推荐进行推荐时使用的内容特征。

在一种可能的实施方式中，该内容特征获取模块503，还用于执行下述任一项：

在该内容特征缓存中存储有该样本内容的至少两个内容特征的情况下，从该至少两个内容特征中获取与目标推荐任务匹配的内容特征，该目标推荐任务为向该样本对象推荐内容的推荐任务。

在该内容特征缓存中未存储有该样本内容的内容特征的情况下，基于该内容标识，从内容特征字典中获取该样本内容的内容特征。

在一种可能的实施方式中，该装置还包括存储模块，用于将该样本对象的对象特征与该样本内容的内容特征进行绑定存储，该样本内容的内容特征作为训练该内容推荐模型时该样本对象的对象特征对应的标注。

在一种可能的实施方式中，该内容特征获取模块503，还用于在该样本内容不是由该目标推荐引擎为该样本对象推荐的情况下，基于该内容标识，从内容特征字典中获取该样本内容的内容特征。

需要说明的是：上述实施例提供的样本数据的获取装置在获取样本数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的样本数据的获取装置与样本数据的获取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供了一种计算机设备，用于执行上述方法，该计算机设备可以实现为终端或者服务器，下面先对终端的结构进行介绍：

图6是本申请实施例提供的一种终端的结构示意图。该终端600可以是：智能手机、平板电脑、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：一个或多个处理器601和一个或多个存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器601所执行以实现本申请中方法实施例提供的样本数据的获取方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、显示屏605、摄像头组件606、音频电路607和电源608中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。

电源608用于为终端600中的各个组件进行供电。电源608可以是交流电、直流电、一次性电池或可充电电池。

在一些实施例中，终端600还包括有一个或多个传感器609。该一个或多个传感器609包括但不限于：加速度传感器610、陀螺仪传感器611、压力传感器612、光学传感器613以及接近传感器614。

加速度传感器610可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。

陀螺仪传感器611可以终端600的机体方向及转动角度，陀螺仪传感器611可以与加速度传感器610协同采集用户对终端600的3D动作。

压力传感器612可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器612设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器612采集的握持信号进行左右手识别或快捷操作。当压力传感器612设置在显示屏605的下层时，由处理器601根据用户对显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。

光学传感器613用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器613采集的环境光强度，控制显示屏605的显示亮度。

接近传感器614用于采集用户与终端600的正面之间的距离。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述计算机设备还可以实现为服务器，下面对服务器的结构进行介绍：

图7是本申请实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)701和一个或多个的存储器702，其中，所述一个或多个存储器702中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器701加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器700还可以具有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器700还可以包括其他用于实现设备功能的部件，在此不作赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括计算机程序的存储器，上述计算机程序可由处理器执行以完成上述实施例中的样本数据的获取方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述样本数据的获取方法。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种样本数据的获取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述响应于样本获取请求，获取样本对象的对象标识以及为所述样本对象推荐的样本内容的内容标识包括：

响应于样本获取请求，从推荐结果缓存中获取所述样本对象的对象标识以及所述样本内容的内容标识，所述推荐结果缓存用于存储使用不同推荐引擎进行内容推荐的对象的对象标识以及推荐引擎推荐的内容的内容标识。

3.根据权利要求1所述的方法，其特征在于，所述基于所述对象标识，获取所述样本对象的对象特征包括：

基于所述对象标识，从实时行为数据库中获取所述样本对象的实时对象行为；

基于所述对象标识，从离线对象数据库中获取所述样本对象的历史对象行为以及对象标签。

4.根据权利要求1所述的方法，其特征在于，所述在所述样本内容是由目标推荐引擎为所述样本对象推荐的情况下，基于所述内容标识，从所述目标推荐引擎中获取所述样本内容的内容特征包括：

在所述样本内容是由目标推荐引擎为所述样本对象推荐的情况下，向所述目标推荐引擎发送内容特征获取请求，所述内容特征获取请求携带所述样本内容的内容标识；

从所述目标推荐引擎的内容特征缓存中获取所述样本内容的内容特征，所述内容特征缓存中存储有所述目标推荐进行推荐时使用的内容特征。

5.根据权利要求4所述的方法，其特征在于，所述在所述样本内容是由目标推荐引擎为所述样本对象推荐的情况下，向所述目标推荐引擎发送内容特征获取请求之后，所述方法还包括下述任一项：

6.根据权利要求1所述的方法，其特征在于，所述在所述样本内容是由目标推荐引擎为所述样本对象推荐的情况下，基于所述内容标识，从所述目标推荐引擎中获取所述样本内容的内容特征之后，所述方法还包括：

将所述样本对象的对象特征与所述样本内容的内容特征进行绑定存储，所述样本内容的内容特征作为训练所述内容推荐模型时所述样本对象的对象特征对应的标注。

7.根据权利要求1所述的方法，其特征在于，所述基于所述对象标识，获取所述样本对象的对象特征之后，所述方法还包括：

在所述样本内容不是由所述目标推荐引擎为所述样本对象推荐的情况下，基于所述内容标识，从内容特征字典中获取所述样本内容的内容特征。

8.一种样本数据的获取装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的样本数据的获取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的样本数据的获取方法。