CN115220987A

CN115220987A - 数据采集方法、装置、电子设备及存储介质

Info

Publication number: CN115220987A
Application number: CN202110421510.6A
Authority: CN
Inventors: 周石磊; 冯璐; 徐晶晶
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2022-10-21

Abstract

本发明实施例涉及一种数据采集方法、装置、电子设备及存储介质，包括：接收来自客户端的访问请求，确定待推荐对象列表，所述待推荐对象列表中包括多个待推荐对象；在各所述待推荐对象的属性信息中添加埋点信息；将所述待推荐对象列表发送给所述客户端，获取所述客户端在监测到针对任一待推荐对象的埋点事件时采集的埋点数据，所述埋点数据至少包括该任一待推荐对象的属性信息中的埋点信息。由此，可以实现无需在客户端侧进行埋点开发即可添加新的埋点信息，从而不仅实现了根据实际业务需求灵活地添加埋点信息，还能够缩短客户端的开发周期，减少客户端开发过程中的工作量。

Description

数据采集方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种数据采集方法、装置、电子设备及存储介质。

背景技术

数据埋点是指基于业务需求或者产品需求，在用户行为事件的对应位置进行开发埋点，以在检测到用户行为事件时触发埋点采集埋点数据，是一种良好的数据采集方法。

目前数据埋点的实现方式是：根据业务需求，在客户端侧对指定的埋点信息进行开发埋点，比如在推荐系统中，埋点信息包括对象ID、用户交互类型(评论、点赞、收藏、转发等)、视频内容播放时长等信息。

然而，在上述实现方式中，当有新的埋点需求时，则需要根据该新的埋点需求再次在客户端中进行开发埋点，这就导致开发人员需要重新对客户端进行开发，以及开发完成后进行发版测试，这无疑增加了开发人员的工作量，且无法灵活地增加新的埋点信息。

发明内容

鉴于此，为解决上述当有新的埋点需求时，需要根据该新的埋点需求再次在客户端中进行开发埋点，导致增加开发人员的工作量，且无法灵活地增加新的埋点信息的技术问题，本发明实施例提供一种数据采集方法、装置以及在线服务系统。

第一方面，本发明实施例提供一种数据采集方法，应用于推荐系统，包括：

接收来自客户端的访问请求，确定待推荐对象列表，所述待推荐对象列表中包括多个待推荐对象；

在各所述待推荐对象的属性信息中添加埋点信息；

将所述待推荐对象列表发送给所述客户端；

获取所述客户端在监测到针对任一待推荐对象的埋点事件时，采集的埋点数据，所述埋点数据至少包括所述任一待推荐对象的属性信息中的埋点信息。

在一可能的实施方式中，所述埋点信息至少包括下述一项或几项：

召回源、推荐模型的模型标识、对象序号、访问ID；

其中，所述推荐模型用于从所述推荐系统利用所述召回源所召回的所有对象中确定所述待推荐对象；所述对象序号是指所述待推荐对象在所述待推荐对象列表中的排列位置；所述访问ID用于标识所述访问请求。

在一可能的实施方式中，在所述埋点信息中包括所述对象序号，且所述访问请求指示用户首次进入推荐列表页面时，所述在各所述待推荐对象的属性信息中添加埋点信息，包括：

从所述待推荐列表中排在首位的待推荐对象开始，依次将从1开始的递增值设置为各所述待推荐对象的对象序号。

在一可能的实施方式中，在各所述待推荐对象的属性信息中添加埋点信息之后，所述方法还包括：

记录所述待推荐列表中排在末尾的待推荐对象被设置的对象序号；

在所述访问请求指示用户翻页时，所述在各所述待推荐对象的属性信息中添加埋点信息，包括：

从所述待推荐列表中排在首位的待推荐对象开始，依次将从N开始的递增值设置为各所述待推荐对象的对象序号，所述N指前一次记录的所述对象序号。

在一可能的实施方式中，所述方法还包括：

在所述接收来自客户端的访问请求之后，生成与所述访问请求对应的访问ID；

在所述确定待推荐对象列表之后，记录所述访问ID与本次推荐所依据的特征值之间的第一关联关系；

在所述接收来自所述客户端的所述埋点数据之后，从所述埋点数据中解析出目标访问ID，从已记录的所述第一关联关系中找到包含所述目标访问ID的目标第一关联关系；建立所述埋点数据与所述目标第一关联关系中特征值之间的第二关联关系；

根据所述第二关联关系生成训练数据，以利用所述训练数据训练所述推荐模型；其中，将所述第二关联关系中的特征值作为所述训练数据的训练特征，以及若所述第二关联关系中，埋点数据对应的埋点事件为点击事件，则将预设的第一值作为所述训练数据的训练标签，若所述第二关联关系中，埋点数据对应的埋点事件为曝光事件，则将预设的第二值作为所述训练数据的训练标签。

在一可能的实施方式中，在所述埋点信息中包括所述召回源时，所述方法还包括：

针对设定时间段内接收到的每一所述埋点数据，从所述埋点数据中解析出召回源和埋点事件，所述埋点事件包括点击事件、曝光事件；

从所述设定时间段内接收到的所有埋点数据中确定符合设定条件的目标埋点数据，所述设定条件指：所述埋点数据对应的埋点事件为点击事件；

按照召回源对所述目标埋点数据进行分组，其中，同一分组中的目标埋点数据对应的召回源相同，不同分组中的目标埋点数据对应的召回源不同；

针对每一所述分组，根据所述分组中目标埋点数据的数量确定所述分组对应的召回源的召回点击率。

在一可能的实施方式中，在所述埋点信息中包括所述推荐模型的模型名称和/或模型ID时，所述方法还包括：

针对设定时间段内接收到的每一所述埋点数据，从所述埋点数据中解析出埋点事件、模型标识，所述埋点事件包括点击事件、曝光事件；

按照模型标识所述目标埋点数据进行分组，其中，同一分组中的目标埋点数据对应的模型标识相同，不同分组中的目标埋点数据对应的模型标识不同；

针对每一所述分组，根据所述分组中目标埋点数据的数量确定所述分组对应的推荐模型的模型评价指标值。

第二方面，本发明实施例提供一种数据采集方法，应用于客户端，包括：

向推荐系统发送访问请求；

接收所述推荐系统基于所述访问请求返回的待推荐对象列表，所述待推荐对象列表中包括多个待推荐对象，所述待推荐对象的属性信息中添加有埋点信息；

在监测到针对任一待推荐对象的埋点事件时，采集埋点数据并将所述埋点数据上报给所述推荐系统，所述埋点数据至少包括所述任一待推荐对象的属性信息中的埋点信息。

召回源、推荐模型的模型标识、对象序号、访问ID；

其中，所述推荐模型用于从所述推荐系统利用一个或多个所述召回源所召回的所有对象中确定所述待推荐对象；所述对象序号是指所述待推荐对象在所述待推荐对象列表中的排列位置；所述访问ID用于标识所述访问请求。

在一可能的实施方式中，所述采集埋点数据，包括：

生成与所述埋点事件对应的日志，将所述日志作为埋点数据。

在一可能的实施方式中，所述埋点事件至少包括：

曝光事件、点击事件。

第三方面，本发明实施例提供一种数据采集装置，应用于推荐系统，包括：

请求接收模块，用于接收来自客户端的访问请求；

对象确定模块，用于确定待推荐对象列表，所述待推荐对象列表中包括多个待推荐对象；

信息添加模块，用于在各所述待推荐对象的属性信息中添加埋点信息；

对象发送模块，用于将所述待推荐对象列表发送给所述客户端；

数据获取模块，用于获取所述客户端在监测到针对任一待推荐对象的埋点事件时采集的埋点数据，所述埋点数据至少包括所述任一待推荐对象的属性信息中的埋点信息。

第四方面，本发明实施例提供一种数据采集装置，应用于客户端，包括：

请求发送模块，用于向推荐系统发送访问请求；

对象接收模块，用于接收所述推荐系统基于所述访问请求返回的待推荐对象列表，所述待推荐对象列表中包括多个待推荐对象，所述待推荐对象的属性信息中添加有埋点信息；

数据采集模块，用于在监测到针对任一待推荐对象的埋点事件时，采集埋点数据；

数据上报模块，用于将所述埋点数据上报给所述推荐系统，所述埋点数据至少包括所述任一待推荐对象的属性信息中的埋点信息。

第五方面，本发明实施例提供一种电子设备，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的数据采集程序，以实现第一方面或第二方面中任一项所述的数据采集方法。

第六方面，本发明实施例提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现第一方面或第二方面中任一项所述的数据采集方法。

本发明实施例提供的技术方案，通过在各待推荐对象的属性信息中添加埋点信息后，将待推荐对象列表发送给客户端，以使客户端在监测到针对任一待推荐对象的埋点事件时，采集埋点数据并将埋点数据上报给推荐系统，由于埋点数据至少包括该任一待推荐对象的属性信息中的埋点信息，从而实现了推荐系统能够在客户端触发埋点事件时，采集到待推荐对象的埋点信息。

进一步的，由于通过在待推荐对象的属性信息中添加埋点信息即可实现添加新的埋点信息，而无需在客户端侧进行埋点开发，因此，不仅实现了根据实际业务需求灵活地添加埋点信息，还能够缩短客户端的开发周期，减少客户端开发过程中的工作量。

附图说明

图1为本发明实施例提供的一种数据采集方法的应用场景示意图；

图2为本发明实施例提供的一种数据采集方法的实施例流程图；

图3为客户端显示界面的一种示例；

图4为本发明实施例提供的一种召回点击率分析过程的实施例流程图；

图5为本发明实施例提供的一种模型评价指标值分析过程的实施例流程图；

图6为本发明实施例提供的另一种数据采集方法的实施例流程图；

图7为本发明实施例提供的再一种数据采集方法的实施例流程图；

图8为本发明实施例提供的一种数据采集装置的实施例框图；

图9为本发明实施例提供的另一种数据采集装置的实施例框图；

图10为本发明实施例提供的一种的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，为本发明实施例提供的一种数据采集方法的应用场景示意图。图1所示应用场景中包括：客户端101、推荐系统102，客户端101与推荐系统102之间通信连接。

客户端101可以是支持具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机等，图1中以智能手机为例。推荐系统102可以是由多台服务器组成的服务器集群，图1中以一台服务器为例。

在实践中，推荐系统102可以根据用户的信息需求、兴趣等，将用户感兴趣的信息、产品等(以下统称对象)推荐给用户所使用的客户端101。

基于图1所示例的应用场景，下面结合附图以具体实施例对本发明提供的数据采集方法做进一步的解释说明，实施例并不构成对本发明实施例的限定。

参见图2，为本发明实施例提供的一种数据采集方法的实施例流程图。在一个例子中，该方法可应用于图1中所示例的推荐系统102，如图2所示，该方法可包括以下步骤：

步骤201、推荐系统接收来自客户端的访问请求，确定待推荐对象列表。

在应用中，客户端可向推荐系统发送访问请求，推荐系统接收到该访问请求后，可根据使用该客户端的用户的信息需求、兴趣等，从资源池中确定该用户对应的待推荐对象列表，待推荐对象列表中包括多个待推荐对象。

进一步的，上述访问请求可指示用户首次进入推荐系统的推荐列表页面，具体的，客户端在启动后，则向推荐系统发送指示用户首次进入推荐系统的推荐列表页面的访问请求。

上述访问请求还可以指示用户翻页，具体的，客户端在检测到推荐列表页面上的翻页功能按钮(或图标)被触发时，向推荐系统发送指示用户翻页的访问请求。

步骤202、推荐系统在各待推荐对象的属性信息中添加埋点信息。

如下述表1所示，为待推荐对象的属性信息中所包含字段的示意：

表1

字段名称	字段类型
		对象ID	String
推荐理由	String
		自定义字段	String

基于上述表1，在步骤202中，推荐系统将待推荐对象对应的埋点信息添加在属性信息中的自定义字段中，以实现在待推荐对象的属性信息中添加埋点信息。

作为一个实施例，上述埋点信息包括但不限于下述一项或几项：召回源、推荐模型的模型标识(比如模型名称、模型ID等)、对象序号、访问ID。

其中，召回源，也称召回策略，在应用中，推荐系统可采用一种或多种召回源从海量对象中进行召回。如下述表2所示，为现有技术中召回源的示意列表：

表2

召回源名称	描述
		top_click_pv	基于点击PV的热度召回
top_ctr	基于点击率的热度召回
		tag	基于内容标签召回
ucb_content_string	基于UCB的新品召回
		keywords_recall	基于关键词的相关内容召回
text_recall	基于文本的相关内容召回

推荐模型用于从推荐系统所召回的所有对象中确定最终的待推荐对象；

对象序号是指待推荐对象在待推荐对象列表中的排列位置；

访问ID用于标识步骤201中接收到的访问请求。在应用中，一个访问请求对应的访问ID是由推荐系统按照预设机制生成的唯一值。

一个例子：

至于推荐系统在待推荐对象的属性信息中添加上述埋点信息的具体实现以及意义，在下文中会有说明，这里先不做详述。

步骤203、推荐系统将待推荐对象列表发送给客户端。

步骤204、推荐系统获取客户端在监测到针对任一待推荐对象的埋点事件时采集的埋点数据，埋点数据至少包括该任一待推荐对象的属性信息中的埋点信息。

如下述表3所示，为推荐系统向客户端返回的推荐结果所包含字段的示意：

表3

字段名称	字段描述	字段描述
			resultCode	String	判断结果异常原因
resultData	List<RecommendItem>	待推荐对象列表
			resultMsg	String	异常原因的中文描述
success	String	判断是否处理成功

上述表3中，当推荐成功时，success字段的值为“true”，resultCode和resultMsg字段的值则为空；当推荐失败时，success字段的值为“false”，resultCode和resultMsg字段的值不为空。

可以理解的是，推荐系统将上述表3所示例的推荐结果发送给客户端之后，客户端将在显示界面上展示待推荐对象列表中的各个待推荐对象，比如，如图3所示，为客户端显示界面的一种示例。

后续，客户端在显示界面上展示待推荐对象时，则可以监测到针对该待推荐对象的曝光事件，此时，客户端将采集相应的埋点数据。当用户对显示界面上展示的待推荐对象做出点击操作时，将触发针对该待推荐对象的点击事件，从而客户端将监测到该点击事件。客户端监测到针对待推荐对象的点击事件时，将采集相应的埋点数据。需要说明的是，上述埋点数据至少包括待推荐对象的属性信息中的埋点信息。

进一步地，客户端可在采集到埋点数据之后，即将采集到的埋点数据上报给推荐系统；或者在接收到推荐系统的埋点数据获取请求时，将采集到的埋点数据上报给推荐系统；在或者到达预设的埋点数据上报时间时，将采集到的埋点数据上报给推荐系统。本发明实施例中对客户端向推荐系统上报埋点数据的时机不作限制。

作为一个实施例，在埋点信息中包括上述对象序号，且访问请求指示用户首次进入推荐列表页面时，推荐系统可通过以下方式在各待推荐对象的属性信息中添加埋点信息：从待推荐列表中排在首位的待推荐对象开始，依次将从1开始的递增值设置为各待推荐对象的对象序号。

在上述实施例的基础上，作为一个实施例，推荐系统在各待推荐对象的属性信息中添加埋点信息之后，还记录待推荐列表中排在末尾的待推荐对象被设置的对象序号，基于此，在访问请求指示用户翻页时，推荐系统可通过以下方式在各待推荐对象的属性信息中添加埋点信息：从待推荐列表中排在首位的待推荐对象开始，依次将从N开始的递增值设置为各待推荐对象的对象序号，N指前一次记录的对象序号。

举例来说，假设推荐系统首次确定出的待推荐对象列表中包括10个待推荐对象，则推荐系统可将该10个待推荐对象的对象序号依次设置为1～10，并记录下第10个待推荐对象被设置的对象序号10。之后，假设用户点击了显示界面上的“下一页”图标，此时客户端将向推荐系统发送指示用户翻页的访问请求，推荐系统在接收到该访问请求后，再次确定一个待推荐对象列表，并假设该待推荐对象列表中包括10个待推荐对象，按照上述描述，推荐系统可将该10个待推荐对象的对象序号依次设置为11～20。

通过在埋点信息中设置对象序号，可以使得推荐系统根据采集到的埋点数据对客户端的浏览深度进行有效分析。

作为一个实施例，在埋点信息中包括召回源时，推荐系统可通过设定时间段内接收到的埋点数据分析召回源的召回点击率。具体的，如图4所示，为本发明实施例提供的一种召回点击率分析过程的实施例流程图，包括以下步骤：

步骤401、针对设定时间段内接收到的每一埋点数据，从埋点数据中解析出召回源和埋点事件。

步骤402、从设定时间段内接收到的所有埋点数据中确定符合设定条件的目标埋点数据，设定条件指：埋点数据对应的埋点事件为点击事件。

步骤403、按照召回源对目标埋点数据进行分组，其中，同一分组中的目标埋点数据对应的召回源相同，不同分组中的目标埋点数据对应的召回源不同。

步骤404、针对每一分组，根据分组中目标埋点数据的数量确定该分组对应的召回源的召回点击率。

以下对步骤401～404进行统一说明：

首先说明，召回源的召回点击率是指：推荐系统利用该召回源召回的所有对象中被点击对象的数量，占推荐系统利用该召回源召回的所有对象数量的比例。

其中，推荐系统利用召回源召回的所有对象中被点击对象的数量的通过以下方式统计得出：首先从设定时间段内接收到的所有埋点数据中确定符合埋点事件为点击事件这一设定条件的目标埋点数据，可以理解的是，这里的目标埋点数据则对应被点击对象；然后，按照召回源对目标埋点数据进行分组，实现将上述被点击对象中，由同一召回源召回的对象所对应的目标埋点数据分到同一组中，将由不同召回源召回的对象所对应的目标埋点数据分到不同组中，如此，每一分组中，目标埋点数据的数量则为利用该分组对应的召回源召回的所有对象中被点击对象的数量。

通过图4所示流程，实现了在埋点信息中包括召回源时，通过设定时间段内接收到的埋点数据分析召回源的召回点击率。

作为一个实施例，为了验证不同推荐模型的推荐效果，可在推荐系统中设置多个推荐模型，并使用A/B test机制对用户进行分流，在该种场景下，则可在埋点信息中添加模型标识，从而推荐系统可通过设定时间段内接收到的埋点数据分析不同推荐模型的模型评价指标值。

如图5所示，为本发明实施例提供的一种模型评价指标值分析过程的实施例流程图，包括以下步骤：

步骤501、针对设定时间段内接收到的每一埋点数据，从埋点数据中解析出埋点事件、模型标识。

步骤502、从设定时间段内接收到的所有埋点数据中确定符合设定条件的目标埋点数据，设定条件指：埋点数据对应的埋点事件为点击事件。

步骤503、按照模型名称和/或模型ID对目标埋点数据进行分组，其中，同一分组中的目标埋点数据对应的模型标识相同，不同分组中的目标埋点数据对应的模型标识不同。

步骤504、针对每一分组，根据分组中目标埋点数据的数量确定分组对应的推荐模型的模型评价指标值。

以下对步骤501～504进行统一说明：

以某一个推荐模型为例，可通过用户对该推荐模型所推荐对象的点击情况来分析该推荐模型的模型评价指标值，可以理解的是，点击率越高，则意味着该推荐模型的推荐结果更精准，模型评价指标值也就越高。

据此，在图5所示流程中，首先从设定时间段内接收到的所有埋点数据中确定符合埋点事件为点击事件这一设定条件的目标埋点数据，可以理解的是，这里的目标埋点数据则对应被点击对象，然后，按照模型标识对目标埋点数据进行分组，实现将上述被点击对象中，由同一召推荐模型所推荐对象对应的目标埋点数据分到同一组中，将由不同推荐模型所推荐对象对应的目标埋点数据分到不同组中，如此，每一分组中，目标埋点数据的数量则能够反映出用户对该分组对应的推荐模型所推荐对象的点击情况。

通过图5所示流程，实现了在埋点信息中包括模型标识时，可通过设定时间段内接收到的埋点数据分析不同推荐模型的模型评价指标值。

作为一个实施例，在埋点信息中包括访问ID时，推荐系统可通过设定时间段内接收到的埋点数据自动收集训练数据，以基于该训练数据训练出上述推荐模型，或者基于该训练数据对已训练的推荐模型进行更新。具体的，可通过以下方式实现上述所描述的自动收集训练数据：

推荐系统在接收到访问请求时，为该访问请求生成访问ID，进一步的，推荐系统在确定待对象对象列表时，记录下访问ID与本次推荐所依据的用户特征和对象特征(以下简称特征值)之间的第一关联关系；再进一步的，推荐系统在接收到客户端上报的埋点数据后，从埋点数据中解析出访问ID，然后，根据解析出的访问ID查找已记录的第一关联关系，得到包含该解析出的访问ID的目标第一关联关系，建立埋点数据与目标第一关联关系中特征值之间的第二关联关系；最后，若第二关联关系中，埋点数据对应的埋点事件为点击事件，则将预设的第一值(比如1)作为训练标签，若第二关联关系中，埋点数据对应的埋点事件为曝光事件，则将预设的第二值(比如0)作为训练标签，以及以第二关联关系中的特征值作为训练特征构建一条训练数据。

参见图6，为本发明实施例提供的另一种数据采集方法的实施例流程图。在一个例子中，该方法可应用于图1中所示例的客户端101，如图6所示，该方法可包括以下步骤：

步骤601、客户端向推荐系统发送访问请求。

步骤602、客户端接收推荐系统基于访问请求返回的待推荐对象列表，待推荐对象列表中包括多个待推荐对象，待推荐对象的属性信息中添加有埋点信息。

步骤601和步骤602的详细描述可以参见上述图2所示实施例中的相关描述，这里不再赘述。

步骤603、客户端在监测到针对任一待推荐对象的埋点事件时，采集埋点数据并将埋点数据上报给推荐系统，埋点数据至少包括该任一待推荐对象的属性信息中的埋点信息。

上述埋点事件可包括曝光事件、点击事件。

在应用中，客户端在显示界面上展示待推荐对象时，则可以监测到针对该待推荐对象的曝光事件，此时，客户端采集相应的埋点数据，并将采集到的埋点数据上报给推荐系统。当用户对显示界面上展示的待推荐对象做出点击操作时，将触发针对该待推荐对象的点击事件，从而客户端将监测到该点击事件。客户端监测到针对待推荐对象的点击事件时，采集相应的埋点数据，并将采集到的埋点数据上报给推荐系统。

需要说明的是，上述埋点数据至少包括待推荐对象的属性信息中的埋点信息。

作为一个实施例，客户端在监测到针对任一待推荐对象的埋点事件时，生成与埋点事件对应的日志，将该日志作为上述埋点数据。

本发明实施例提供的技术方案，通过在各待推荐对象的属性信息中添加埋点信息后，将待推荐对象列表发送给客户端，以使客户端在监测到针对任一待推荐对象的埋点事件时，采集至少包括待推荐对象的属性信息的埋点数据并将埋点数据上报给推荐系统，实现了推荐系统能够在客户端触发埋点事件时，采集到埋点信息。

参见图7，为本发明实施例提供的一种数据采集方法的实施例流程图。在一个例子中，该方法可应用于图1中所示例的应用场景中，如图7所示，该方法可包括以下步骤：

步骤701、客户端向推荐系统发送访问请求。

步骤702、推荐系统接收来自客户端的访问请求，确定待推荐对象列表，待推荐对象列表中包括多个待推荐对象。

步骤703、推荐系统在各待推荐对象的属性信息中添加埋点信息。

步骤704、推荐系统将待推荐对象列表发送给客户端。

步骤705、客户端展示待推荐对象列表，以及客户端在监测到针对任一待推荐对象的埋点事件时，采集埋点数据并将埋点数据上报给推荐系统。

步骤706、推荐系统接收来自客户端的埋点数据。

上述步骤701～706的详细描述，可以参见上述图1和图2所示实施例中的相关描述，这里不再赘述。

与前述数据采集方法的实施例相对应，本发明还提供数据采集装置的实施例框图。

参见图8，为本发明实施例提供的一种数据采集装置的实施例框图，在一个例子中，该装置可应用于图1中所示例的推荐系统102，如图8所示，该装置可包括：

请求接收模块81，用于接收来自客户端的访问请求；

对象确定模块82，用于确定待推荐对象列表，所述待推荐对象列表中包括多个待推荐对象；

信息添加模块83，用于在各所述待推荐对象的属性信息中添加埋点信息；

对象发送模块84，用于将所述待推荐对象列表发送给所述客户端；

数据获取模块85，用于获取所述客户端在监测到针对任一待推荐对象的埋点事件时采集的埋点数据，所述埋点数据至少包括所述任一待推荐对象的属性信息中的埋点信息。

在一个可能的实施方式中，所述埋点信息至少包括下述一项或几项：

召回源、推荐模型的模型标识、对象序号、访问ID；

在一个可能的实施方式中，在所述埋点信息中包括所述对象序号，且所述访问请求指示用户首次进入推荐列表页面时，所述信息添加模块83具体用于：

在一个可能的实施方式中，所述装置还包括(图中未示出)：

序号记录模块，用于记录所述待推荐列表中排在末尾的待推荐对象被设置的对象序号；

在所述访问请求指示用户翻页时，所述信息添加模块83具体用于：

在一个可能的实施方式中，所述装置还包括(图中未示出)：

访问ID生成模块，用于在所述接收来自客户端的访问请求之后，生成与所述访问请求对应的访问ID；

关系记录模块，用于在所述确定待推荐对象列表之后，记录所述访问ID与本次推荐所依据的特征值之间的第一关联关系；

第一解析模块，用于在所述接收来自所述客户端的所述埋点数据之后，从所述埋点数据中解析出目标访问ID；

查找模块，用于从已记录的所述第一关联关系中找到包含所述目标访问ID的目标第一关联关系；

关系建立模块，用于建立所述埋点数据与所述目标第一关联关系中特征值之间的第二关联关系；

训练数据构建模块，用于根据所述第二关联关系构建训练数据，以利用所述训练数据训练所述推荐模型；其中，将所述第二关联关系中的特征值作为所述训练数据的训练特征，以及若所述第二关联关系中，埋点数据对应的埋点事件为点击事件，则将预设的第一值作为所述训练数据的训练标签，若所述第二关联关系中，埋点数据对应的埋点事件为曝光事件，则将预设的第二值作为所述训练数据的训练标签。

在一个可能的实施方式中，在所述埋点信息中包括所述召回源时，所述装置还包括(图中未示出)：

第二解析模块，用于针对设定时间段内接收到的每一所述埋点数据，从所述埋点数据中解析出召回源和埋点事件，所述埋点事件包括点击事件、曝光事件；

第一确定模块，用于从所述设定时间段内接收到的所有埋点数据中确定符合设定条件的目标埋点数据，所述设定条件指：所述埋点数据对应的埋点事件为点击事件；

第一分组模块，用于按照召回源对所述目标埋点数据进行分组，其中，同一分组中的目标埋点数据对应的召回源相同，不同分组中的目标埋点数据对应的召回源不同；

第二确定模块，用于针对每一所述分组，根据所述分组中目标埋点数据的数量确定所述分组对应的召回源的召回点击率。

在一个可能的实施方式中，在所述埋点信息中包括所述推荐模型的模型名称和/或模型ID时，所述装置还包括(图中未示出)：

第三解析模块，用于针对设定时间段内接收到的每一所述埋点数据，从所述埋点数据中解析出埋点事件、模型标识，所述埋点事件包括点击事件、曝光事件；

第三确定模块，用于从所述设定时间段内接收到的所有埋点数据中确定符合设定条件的目标埋点数据，所述设定条件指：所述埋点数据对应的埋点事件为点击事件；

第二分组模块，用于按照模型标识对所述目标埋点数据进行分组，其中，同一分组中的目标埋点数据对应的模型标识相同，不同分组中的目标埋点数据对应的模型标识不同；

第四确定模块，用于针对每一所述分组，根据所述分组中目标埋点数据的数量确定所述分组对应的推荐模型的模型评价指标值。

参见图9，为本发明实施例提供的另一种数据采集装置的实施例框图，在一个例子中，该装置可应用于图1中所示例的客户端101，如图9所示，该装置可包括：

请求发送模块91，用于向推荐系统发送访问请求；

对象接收模块92，用于接收所述推荐系统基于所述访问请求返回的待推荐对象列表，所述待推荐对象列表中包括多个待推荐对象，所述待推荐对象的属性信息中添加有埋点信息；

数据采集模块93，用于在监测到针对任一待推荐对象的埋点事件时，采集埋点数据；

数据上报模块94，用于将所述埋点数据上报给所述推荐系统，所述埋点数据至少包括所述任一待推荐对象的属性信息中的埋点信息。

召回源、推荐模型的模型标识、对象序号、访问ID；

在一个可能的实施方式中，所述数据采集模块93具体用于：

在一个可能的实施方式中，所述埋点事件至少包括：

曝光事件、点击事件。

图10为本发明实施例提供的一种的电子设备的结构示意图，图10所示的电子设备1000包括：至少一个处理器1001、存储器1002、至少一个网络接口1004和其他用户接口1003。电子设备1000中的各个组件通过总线系统1005耦合在一起。可理解，总线系统1005用于实现这些组件之间的连接通信。总线系统1005除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图10中将各种总线都标为总线系统1005。

其中，用户接口1003可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本发明实施例中的存储器1002可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-OnlyMemory，ROM)、可编程只读存储器(ProgrammableROM，PROM)、可擦除可编程只读存储器(ErasablePROM，EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(StaticRAM，SRAM)、动态随机存取存储器(DynamicRAM，DRAM)、同步动态随机存取存储器(SynchronousDRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM，DRRAM)。本文描述的存储器1002旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器1002存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统10021和应用程序10022。

其中，操作系统10021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序10022，包含各种应用程序，例如媒体播放器(MediaPlayer)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序10022中。

在本发明实施例中，通过调用存储器1002存储的程序或指令，具体的，可以是应用程序10022中存储的程序或指令，处理器1001用于执行各方法实施例所提供的方法步骤，例如包括：

接收来自客户端的访问请求，确定待推荐对象列表，所述待推荐对象列表中包括多个待推荐对象；在各所述待推荐对象的属性信息中添加埋点信息；将所述待推荐对象列表发送给所述客户端，获取所述客户端在监测到针对任一待推荐对象的埋点事件时采集的埋点数据，所述埋点数据至少包括所述任一待推荐对象的属性信息中的埋点信息。

或者，

向推荐系统发送访问请求；接收所述推荐系统基于所述访问请求返回的待推荐对象列表，所述待推荐对象列表中包括多个待推荐对象，所述待推荐对象的属性信息中添加有埋点信息；在监测到针对任一待推荐对象的埋点事件时，采集埋点数据并将所述埋点数据上报给所述推荐系统，所述埋点数据至少包括所述任一待推荐对象的属性信息中的埋点信息。

上述本发明实施例揭示的方法可以应用于处理器1001中，或者由处理器1001实现。处理器1001可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1001中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1001可以是通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(FieldProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1002，处理器1001读取存储器1002中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits，ASIC)、数字信号处理器(DigitalSignalProcessing，DSP)、数字信号处理设备(DSPDevice，DSPD)、可编程逻辑设备(ProgrammableLogicDevice，PLD)、现场可编程门阵列(Field-ProgrammableGateArray，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本实施例提供的电子设备可以是如图10中所示的电子设备，可执行如图2、图4-7中数据采集方法的所有步骤，进而实现图2、图4-7中数据采集方法的技术效果，具体请参照图2、图4-7相关描述，为简洁描述，在此不作赘述。

本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在电子设备侧执行的数据采集方法。

所述处理器用于执行存储器中存储的数据采集程序，以实现以下在电子设备侧执行的数据采集方法的步骤：

或者，

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据采集方法，应用于推荐系统，其特征在于，包括：

在各所述待推荐对象的属性信息中添加埋点信息；

将所述待推荐对象列表发送给所述客户端；

获取所述客户端在监测到针对任一待推荐对象的埋点事件时采集的埋点数据，所述埋点数据至少包括所述任一待推荐对象的属性信息中的埋点信息。

2.根据权利要求1所述的方法，其特征在于，所述埋点信息至少包括下述一项或几项：

召回源、推荐模型的模型标识、对象序号、访问ID；

3.根据权利要求2所述的方法，其特征在于，在所述埋点信息中包括所述对象序号，且所述访问请求指示用户首次进入推荐列表页面时，所述在各所述待推荐对象的属性信息中添加埋点信息，包括：

4.根据权利要求3所述的方法，其特征在于，在各所述待推荐对象的属性信息中添加埋点信息之后，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据所述第二关联关系构建训练数据，以利用所述训练数据训练所述推荐模型；其中，将所述第二关联关系中的特征值作为所述训练数据的训练特征，以及若所述第二关联关系中，埋点数据对应的埋点事件为点击事件，则将预设的第一值作为所述训练数据的训练标签，若所述第二关联关系中，埋点数据对应的埋点事件为曝光事件，则将预设的第二值作为所述训练数据的训练标签。

6.根据权利要求2所述的方法，其特征在于，在所述埋点信息中包括所述召回源时，所述方法还包括：

7.根据权利要求2所述的方法，其特征在于，在所述埋点信息中包括所述推荐模型的模型标识时，所述方法还包括：

按照模型标识对所述目标埋点数据进行分组，其中，同一分组中的目标埋点数据对应的模型标识相同，不同分组中的目标埋点数据对应的模型标识不同；

8.一种数据采集方法，应用于客户端，其特征在于，包括：

向推荐系统发送访问请求；

9.根据权利要求8所述的方法，其特征在于，所述埋点信息至少包括下述一项或几项：

召回源、推荐模型的模型标识、对象序号、访问ID；

10.根据权利要求8所述的方法，其特征在于，所述采集埋点数据，包括：

11.根据权利要求8或10所述的方法，其特征在于，所述埋点事件至少包括：

曝光事件、点击事件。

12.一种数据采集装置，应用于推荐系统，其特征在于，包括：

请求接收模块，用于接收来自客户端的访问请求；

13.一种数据采集装置，应用于客户端，其特征在于，包括：

请求发送模块，用于向推荐系统发送访问请求；

14.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的数据采集程序，以实现权利要求1～7或8～11中任一项所述的数据采集方法。

15.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1～7或8～11中任一项所述的数据采集方法。