CN110851706B

CN110851706B - 用户点击模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN110851706B
Application number: CN201910956994.7A
Authority: CN
Inventors: 万立
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2022-11-01
Anticipated expiration: 2039-10-10
Also published as: US11838377B2; JP2021064348A; JP7164072B2; US20210110303A1; CN110851706A

Abstract

本申请公开了用户点击模型的训练方法、装置、电子设备及存储介质，涉及人工智能领域。具体实现方案为：从全网用户的日志数据库中采集数条行为数据，各条所述行为数据中包括预设时间周期内一用户对网络中的资源的反馈信息；基于预先创建的头部资源库和所述数条行为数据，生成所述数条行为数据对应的数条资源访问特征；采用所述数条资源访问特征，训练用户点击模型。本申请能够提供一种无损的建模方式，与现有技术的建模方式相比，能够有效地优化用户点击模型的精度，提高用户点击模型的准确性。

Description

用户点击模型的训练方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机应用技术领域，尤其涉及人工智能技术领域，具体涉及一种用户点击模型的训练方法、装置、电子设备及存储介质。

背景技术

随着互联网的普及，电脑、手机等是生活中不可或缺的工具。各种内容服务通过网站、应用(application；app)的形式触达用户，用户通过和网站、app的交互，给云端后台反馈数据。而这些反馈数据，会被云端算法建模为用户点击模型，随着数据量增多，用户模型对用户的刻画就越深入，从而根据用户点击模型推算出更好的推荐内容，从而优化用户体验。

现有的用户点击模型的建模方案有显式tag建模和隐式向量建模。其中显式tag建模的问题在于需要极大的词袋来精确描述用户的喜好，比如“军事”、“动漫”，“百度公司”等，词袋中每一个词需要设计者有精确的设计，同时词带中不同的词可能有交叉关系和从属关系，如果词带的设计分布不均衡或有不合理，会直接严重影响最终效果。隐式向量建模主要是用多维向量来同时表示用户和资源的特征。在同一个特征空间里通过计算向量相似度来模拟用户喜好的方式，不能有效地直接表示用户的点击模型，而只是一种代理方式。

因此，基于现有技术的不足，亟需提供一种高效的用户点击模型，能够准确地预测用户的点击信息。

发明内容

本申请提供了一种用户点击模型的训练方法、装置、电子设备及存储介质，用于弥补现有技术的不足，提供一种高效、准确地用户点模型，进而可以准确地预测用户的点击信息。

本申请提供一种用户点击模型的训练方法，，包括：

从全网用户的日志数据库中采集数条行为数据，各条所述行为数据中包括预设时间周期内一用户对网络中的资源的反馈信息；

基于预先创建的头部资源库和所述数条行为数据，生成所述数条行为数据对应的数条资源访问特征；

采用所述数条资源访问特征，训练用户点击模型。

进一步可选地，如上所述的方法中，基于预先创建的头部资源库和所述数条行为数据，生成所述数条行为数据对应的数条资源访问特征之前，所述方法还包括：

根据全局资源库中的各资源的属性信息，从所述全局资源库中过滤出多个头部资源的标识；

将所述多个头部资源标识组成头部资源库。

进一步可选地，如上所述的方法中，根据全局资源库中的各资源的属性信息，从所述全局资源库中过滤出多个头部资源的标识，包括如下至少一种：

根据所述全局资源库中的各资源的质量参数，从所述全局资源库中过滤出质量参数大于预设质量参数阈值的多个资源标识，作为头部资源的标识；

根据所述全局资源库中的各资源的访问热度，从所述全局资源库中过滤出访问热度大于预设热度阈值的多个资源标识，作为头部资源的标识；和

根据所述全局资源库中的各资源的区分度，从所述全局资源库中过滤出区分度大于预设区分度阈值的多个资源标识，作为头部资源的标识；其中各所述资源的区分度等于所述资源对应的不同反馈的用户群体数量的方差；

或者，根据全局资源库中的各资源的属性信息，从所述全局资源库中过滤出多个头部资源的标识，包括如下至少一种：

根据所述全局资源库中的各资源的质量参数，从所述全局资源库中过滤出质量参数最大的Top N个资源标识，作为头部资源的标识；

根据所述全局资源库中的各资源的访问热度，从所述全局资源库中过滤出访问热度最大的Top M个资源标识，作为头部资源的标识；和

根据所述全局资源库中的各资源的区分度，从所述全局资源库中过滤出区分度最大的Top W个资源标识，作为头部资源的标识；其中所述N、M和W均为正整数。

进一步可选地，如上所述的方法中，从全网用户的日志数据库中采集数条行为数据，包括：

从所述日志数据库中，通过预设埋点的显式采集方式和/或通过分析用户的对各资源的反馈信息的隐式采集方式，采集所述数条行为数据。

进一步可选地，如上所述的方法中，基于预先创建的头部资源库和所述数条行为数据，生成所述数条行为数据对应的数条资源访问特征，包括：

获取各所述行为数据中的所述用户对所述头部资源库中的资源的正反馈信息；

基于各所述行为数据中的所述用户对所述头部资源库中的资源的正反馈信息，生成对应的所述资源访问特征，共得到数条所述资源访问特征。

进一步可选地，如上所述的方法中，采用所述数条资源访问特征，训练用户点击模型，包括：

对于各所述资源访问特征，将所述资源访问特征中的部分有效数据遮挡，得到对应的资源访问训练特征；

将所述资源访问训练特征输入至所述用户点击模型，获取所述用户点击模型输出的资源访问预测特征；

基于所述资源访问特征和对应的所述资源访问预测特征，计算交叉熵函数值；

判断所述交叉熵函数值是否等于0；

若不等于0，调整所述用户点击模型的参数，使得所述交叉熵函数值趋于0；

采用所述数条资源访问特征，按照上述方式不断地对所述用户点击模型进行训练，直到所述交叉熵函数值在连续预设次数的训练中都等于0，确定所述用户点击模型的参数，进而确定所述用户点击模型。

本申请还提供一种资源推荐方法，包括：

采集指定用户在最近邻时间片段内的实时行为数据；

根据所述实时行为数据和预先创建的头部资源库，获取所述指定用户的实时资源访问特征；

根据预先训练的用户点击模型、所述实时资源访问特征以及所述头部资源库，预测k个预测资源标识；

基于所述k个预测资源标识，对所述指定用户进行资源推荐。

进一步可选地，如上所述的方法中，根据预先训练的用户点击模型、所述实时资源访问特征以及所述头部资源库，预测k个预测资源标识，包括：

根据所述用户点击模型和所述实时资源访问特征，预测所述指定用户的预测资源访问特征；

基于所述预测资源访问特征、所述实时资源访问特征以及所述头部资源库，获取k个预测资源标识。

本申请还提供一种用户点击模型的训练装置，包括：

采集模块，用于从全网用户的日志数据库中采集数条行为数据，各条所述行为数据中包括预设时间周期内一用户对网络中的资源的反馈信息；

生成模块，用于基于预先创建的头部资源库和所述数条行为数据，生成所述数条行为数据对应的数条资源访问特征；

训练模块，用于采用所述数条资源访问特征，训练用户点击模型。

本申请还提供一种资源推荐装置，包括：

采集模块，用于采集指定用户在最近邻时间片段内的实时行为数据；

获取模块，用于根据所述实时行为数据和预先创建的头部资源库，获取所述指定用户的实时资源访问特征；

预测模块，还用于根据预先训练的用户点击模型、所述实时资源访问特征以及所述头部资源库，预测k个预测资源标识；

推荐模块，用于基于所述k个预测资源标识，对所述指定用户进行资源推荐。

本申请还提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上任一项所述的用户点击模型的训练方法，或者执行如上任一项所述的资源推荐方法。

本申请还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行如上任一项所述的用户点击模型的训练方法，或者执行如上任一项所述的资源推荐方法。

上述申请中的一个实施例具有如下优点或有益效果：通过从全网用户的日志数据库中采集数条行为数据；基于预先创建的头部资源库和数条行为数据，生成数条行为数据对应的数条资源访问特征，并采用数条资源访问特征，训练用户点击模型，能够提供一种无损的建模方式，与现有技术的建模方式相比，能够有效地优化用户点击模型的精度，提高用户点击模型的准确性。

进一步地，本申请可以根据全局资源库中的各资源的属性信息如质量参数、访问热度和/或区分度，从全局资源库中过滤出多个头部资源的标识，构建头部资源库，能够选择一些具有代表价值的资源的标识构成头部资源，作为用户点击模型内分布计算的中心点，能够更加准确地在将模型和实际场景相结合，以采用实际场景的行为数据，对用户点击模型进行更加准确地训练，进而提高用户点击模型的精度，使其可以对实际场景进行更加准确地预测。

进一步地，本申请中可以采用显式采集和隐式采集两种采集方式采集行为数据，能够有效地提高行为数据的采集效率，丰富行为数据的采集内容，保证行为数据的采集质量。

进一步地，本申请中，可以获取各行为数据中的用户对头部资源库中的资源的正反馈信息；并基于各行为数据中的用户对头部资源库中的资源的正反馈信息，生成对应的资源访问特征，可以使得资源访问特征中仅包括正反馈信息对应的特征，而不用考虑负反馈和其他，以简化模型的关注类型，提供训练的模型的准确性，以便于训练的用户点击模型能够对用户感兴趣的资源进行更加精准地预测。

本申请的资源推荐方法，通过采用上述技术方案，能够获取到准确的非常高的预测资源标识，进而能够对用户进行更加有针对性的推荐，从而可以提高推荐效率，增强用户的粘性和用户的使用体验度。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请第二实施例的示意图；

图3是根据本申请第三实施例的示意图；

图4是根据本申请第四实施例的示意图；

图5是用来实现本申请实施例的用户点击模型的训练或者资源推荐方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是本申请第一实施例提供的用户点击模型的训练方法的流程图。如图1所示，本实施例的用户点击模型的训练方法，具体可以包括如下步骤：

S101、从全网用户的日志数据库中采集数条行为数据，各条行为数据中包括预设时间周期内一用户对网络中的资源的反馈信息；

本实施例的用户点击模型的训练方法可以为用户点击模型的训练装置，该用户点击模型的训练装置可以为一电子实体如大型的计算机设备，或者也可以采用软件集成的应用系统，用于实现对用户点击模型的训练。

本实施例中，首先需要从全网用户的日志数据库中采集数条行为数据，以构造训练用户点击模型的训练数据。每一条行为数据中包括预设时间周期内一用户对网络中的资源的反馈信息；其中预设时间周期可以根据需求来取，例如可以为几分钟、几小时或者几天等等，在此不做限定。另外，本实施例的行为数据的格式可以表示为：用户标识、资源标识以及用户对该资源标识对应的资源的反馈信息，可以包括喜欢或者不喜欢反馈方式。本实施例中，将反馈信息仅分成喜欢和不喜欢两种，用户喜欢的可以必须有强烈的反馈，而用户无视的和直接表示不喜欢的都认为是不喜欢的反馈。由于一条行为数据中包括的是预设时间周期内的对资源访问的行为数据，所以每一行为数据中包括的资源信息均可以为多个，并具体记录用户对该行为数据中的每一个资源的反馈信息。

本实施例中的从全网用户的日志数据库中采集数条行为数据可以包括如下方式中至少一种：通过预设埋点的显式采集方式和/或通过分析用户的对各资源的反馈信息的隐式采集方式。

通过合理设计埋点的方式，采集行为数据时，可以包括用户对展示的资源的显式的反馈信息，此时可以直接采集用户ID、资源ID和显示的反馈信息来一起标识该用户的一条行为数据。其中，显式的反馈信息为用户反馈的喜欢或者不喜欢该资源。

隐式采集中的反馈信息需要经过一定的推理得到，例如，可以根据采集的行为数据，分析用户是否浏览完某资源、以及该资源被推荐后用户是否快速切换、以及用户在某资源的页面停留时长是否超过预设的时长阈值等中的至少一种来表示；例如，用户浏览完某资源，可以认为该用户喜欢该资源；而若用户未浏览完便切换，则认为用户不喜欢该资源。另外，该资源被推荐给用户后，用户未点击直接切换后，则认为用户不喜欢该资源，而若该资源被推荐给用户后，用户并未直接切换，还进行了一定时长的浏览，此时可以认为用户喜欢该资源。再例如，还可以检测用户在每个资源的页面的停留时长，若时长超过预设时长阈值，则认为对应的用户喜欢该资源，否则，则认为该用户不喜欢该资源。

无论采用哪种采集方式，均可以采集到数条行为数据，每条行为数据中可以包括用户ID、用户在预设时间周期内访问的多个资源ID以及用户对每个资源的反馈信息。

S102、基于预先创建的头部资源库和数条行为数据，生成数条行为数据对应的数条资源访问特征；

本实施例中预先创建的头部资源库中通过资源；粒度从全局资源库中统计并过滤出多个具有代表价值的头部资源的标识。例如，多个具有代表价值的头部资源的标识可以基于资源的属性信息，从全局资源库中过滤并获取的，其中资源的属性信息可以包括资源的质量参数、访问热度以及区分度等等。例如，在该步骤S102之前，还可以包括：根据全局资源库中的各资源的属性信息，从全局资源库中过滤出多个头部资源的标识；然后将多个头部资源标识组成头部资源库。

进一步可选地，根据全局资源库中的各资源的属性信息，从全局资源库中过滤出多个头部资源的标识，包括如下至少一种方式：

(A)根据全局资源库中的各资源的质量参数，从全局资源库中过滤出质量参数大于预设质量参数阈值的多个资源标识，作为头部资源的标识；

(B)根据全局资源库中的各资源的访问热度，从全局资源库中过滤出访问热度大于预设热度阈值的多个资源标识，作为头部资源的标识；和(C)根据全局资源库中的各资源的区分度，从全局资源库中过滤出区分度大于预设区分度阈值的多个资源标识，作为头部资源的标识；其中各资源的区分度等于资源对应的不同反馈的用户群体数量的方差。

本实施例的全局资源库中不仅记录有各资源的标识即ID，同时还记录有每个资源的各个属性信息，如质量参数、访问热度、区分度等等，其中，每个资源的区分度等于该资源对应的不同反馈的用户群体的数量的方差。例如，可以通过对一定群体的用户对各资源的喜欢反馈和不喜欢反馈的统计，并基于每个资源的喜欢用户的数量和不喜欢用户的数量，取相应的方差，作为该资源的区分度。其中各资源的质量参数，可以参考各资源提供商、资源完整度、评分、推荐指数等信息，综合为该资源所设定的一个参数值。如信誉比较号的资源提供上所提供的资源的质量参数的打分可以高一些；资源完整度好的资源的质量参数的打分也可以高一些；资源的评分较高，则表示用户对资源的认可度高，可以认为资源的质量较好，此时资源的质量参数的打分也可以高一些；同理，资源的推荐指数高的，质量参数的打分也可以高一些。例如，可以参考影响资源质量参数的各参数来加权求和，并取平均，作为综合分析得到的该资源的质量参数。当然，实际应用中，还可以采用其中某个参数的值作为质量参数，或者还可以采用其他方式来得到资源的质量参数，在此不再一一举例赘述。另外，资源的访问热度，可以取最近邻的一段时间内，各资源被访问的次数。

或者，本实施例中，从全局资源库中过滤出多个头部资源的标识，还可以包括如下至少一种方式：

(A’)根据全局资源库中的各资源的质量参数，从全局资源库中过滤出质量参数最大的Top N个资源标识，作为头部资源的标识；

(B’)根据全局资源库中的各资源的访问热度，从全局资源库中过滤出访问热度最大的Top M个资源标识，作为头部资源的标识；和

(C’)根据全局资源库中的各资源的区分度，从全局资源库中过滤出区分度最大的Top W个资源标识，作为头部资源的标识。

本实施例的N、M和W均为正整数，具体地数值可以全部相等，也可以部分相等，也可以完全不相同，在此不做限定。

本实施例中，基于上述创建的头部资源库和获取的数条行为数据，具体可以通过如下方式生成数条行为数据对应的数条资源访问特征：获取行为数据中的用户对头部资源库中的资源的正反馈信息；基于各行为数据中的用户对头部资源库中的资源的正反馈信息，生成对应的资源访问特征，共得到数条资源访问特征。

例如，本实施例的正反馈信息即表示用户喜欢该资源，而对于用户不喜欢该资源和无视该资源在本实施例中可以均不考虑。若头部资源库中包括500个头部资源标识时，可以分析各行为数据中访问500个头部资源标识中的资源标识对应的资源的反馈信息是否为正反馈，并保留相应的正反库信息和对应的头部资源标识。然后，可以生成一个1*500的向量，每一列对应一个头部资源标识，仅具有正反馈的头部资源标识对应的位置填充有效数据如1，而其他该用户未访问到的头部资源标识和负反馈对应的头部资源标识对应的位置填充均为0，这样，便可以采用该1*500的向量标识该用户访问头部资源库的资源访问特征。本实施例的有效数据表示正反馈信息对应的头部资源标识对应的位置所填充的数据，而其他位置的数据标记为0，为非有效数据。

如某一条行为数据中，对应的用户仅访问了500个头部资源标识中20个头部资源标识对应的资源，其中访问15个头部资源标识对应的资源的反馈信息是正反馈，即用户喜欢该资源。此时对应生成的1*500的向量中仅15个正反馈的头部资源标识对应的位置为1，其他位置均为0。当然，实际应用中，也可以采用其他数字来替换1，在此不做限定。另外，实际应用中，也可以基于各行为数据中的用户对头部资源库中的资源的正反馈信息，采用其他方式生成对应的资源访问特征，在此不再一一举例赘述。

本实施例中，选择一些具有代表价值的资源的标识构成头部资源，可以作为用户点击模型内分布计算的中心点。和普通聚类不同，这些中心点并非聚类中心，而只是一个高斯分布的锚点，这些锚点本身带有可学习的分值，即使初始锚点选得不够好，算法会自动通过反向传播优化这些锚点在高纬空间的分布和最大取值。按照本实施例的方式，选择最具有代表价值的锚点，可以更加准确地在将模型和实际场景相结合。

S103、采用数条资源访问特征，训练用户点击模型。

该步骤采用数条资源访问特征来训练用户点击模型。训练时，资源访问特征的数量越多，训练的用户点击模型越准确，例如，本实施例中采集的资源访问特征的数量可以达到百万级别以上，以提高用户点击模型的准确性。

例如，该步骤采用数条资源访问特征，训练用户点击模型，具体可以包括如下步骤来训练用户点击模型：

(a)对于各资源访问特征，将资源访问特征中的部分有效数据遮挡，得到对应的资源访问训练特征；

例如，头部资源库中包括的头部资源标识为500时，对应的资源访问特征为1*500的向量，其中对应行为数据中具有正反馈信息的头部资源标识对应的位置便填充有有效数据如1。为了便于后续训练，该步骤可以对该资源访问特征中部分有效数据遮挡，且遮挡后，该头部资源位置对应的数据变为0，即认为用户未访问该头部资源标识对应的资源。本实施例中，可以按照资源访问特征中包括的有效数据的总数量的一定比例来遮挡有效数据，如10％、20％或者其他比例来来遮挡部分有效数据。通过对每个资源访问特征进行该步骤的处理，可以对应得到相应的资源访问训练特征。或者如果训练数据不够多的情况下，还可以将数个资源访问特征，分别按照不同的遮挡比例，分别生成数个资源访问训练特征，从而丰富训练数据。

(b)将资源访问训练特征输入至用户点击模型，获取用户点击模型输出的资源访问预测特征；

(c)基于资源访问特征和对应的资源访问预测特征，计算交叉熵函数值；

(d)判断交叉熵函数值是否等于0；若不等于0，执行步骤(e)；若等于0；执行步骤(f)；

(e)调整用户点击模型的参数，使得交叉熵函数值趋于0；

(f)判断交叉熵函数值在连续预设次数的训练中是否都等于0；若不是，返回步骤(a)，继续采用数条资源访问特征，按照上述方式不断地对用户点击模型进行训练；若等于0，确定用户点击模型的参数，进而确定用户点击模型，训练结束。

训练前，可以随机为用户点击模型的各参数赋初始值。训练时，将任意一条资源访问训练特征输入至用户点击模型中，此时该用户点击模型可以基于该资源访问训练特征，预测并输出一个资源访问预测特征。由于每一条资源访问训练特征是基于资源访问特征得来的，理论上，如果用户点击模型预测准确的话，该资源访问预测特征应该等于该资源访问特征，因此，此时可以基于资源访问特征和对应的资源访问预测特征，计算交叉熵函数值；并判断交叉熵函数值是否等于0；若不等于0，则表示用户点击模型预测不准确，此时可以调整用户点击模型的参数，使得交叉熵函数值趋于0。然后采用上述方式不断地对用户点击模型进行训练，不断地调整用户点击模型的参数。为了避免某次训练交叉熵函数值仅仅是偶然等于0，而用户点击模型并未训练好的情况出现，本实施例中，可以取交叉熵函数值在连续预设次数的训练中都等于0，才认为该用户点击模型训练好了，此时确定用户点击模型的参数，进而确定用户点击模型。本实施例中的连续预设次数可以根据实际经验来取，例如可以取50、100或者其他数值。

另外，一条数据一条数据的训练可能导致训练耗时较长，训练效率不高，实际应用中，也可以采用一组数据一组数据同时对用户点击模型进行训练，训练原理相同，在此不再赘述。

本申请的用户点击模型，通过将用户的兴趣点隐式地建模为一个多维空间上的分布，该用户点击模型采用改进后的自编码器模型，其使用高斯平滑将用户的兴趣点进行叠加和交叉，使用该神经网络模型来建模这些兴趣点及其分布。

本申请的用户点击模型的原型采用自编码器模型，并在自编码器的压缩层和解压缩层之间增加感知层。具体地，该用户点击模型参考了平均场论来拟合资源点击的分布，从理论上达到了对任意分布的无损模拟。通过不断的数据输入，利用梯度下降的神经网络优化算法完成模型的训练。

与传统的tag建模不同的是：本申请的用户点击模型并没有使用显式的词袋这种带有人主观意识的信号，避免了用户点击模型的偏置。与传统的隐式向量建模不同，本申请并不是将用户编码为一个直接用于计算的向量，因为作为显示的字符表示，本身就有信息的压损和损耗，根据信息理论，一维向量的信息量和可表示该向量的比特数相关，空间和表示能力都是有限的。因此，本申请的技术可以优化用户点击模型的建模精度，同时减少了获得该精度所需要的数据量，极大提高了点击率的同时，减少了获得点击率提升所需要的成本。

例如，在各内容服务提供商的通用推荐系统中，可以运用本申请的这种无损建模方式，有效捕捉到了用户的对资源的点击、采纳、拒绝等行为，并高效记录在用户点击模型中，能够在很大程度上提高推荐产品的采纳率，并且能够带来使用时长和使用活跃度的增长。

另外，本申请中，为了提高训练效率，可以通过基于用户的流式日志，采集流式的行为数据，建立了训练闭环。例如，可以从全网用户的日志数据库将每个用户的日志数据按照时间先后顺序流式排列，采集行为数据时，对于同一个用户按照时间先后顺序从前向后的流式采集。对应地，步骤S103训练时，也按照各行为数据对应的资源访问特征的时间先后顺序，由前向后分别进行训练，这样可以使得用户新的交互行为数据会不断地随着反馈环触发训练，更新用户点击模型，形成闭环训练，理论上可以缩短训练时间，能够有效地提高用户点击模型的训练效果。

本实施例的用户点击模型的训练方法，通过从全网用户的日志数据库中采集数条行为数据；基于预先创建的头部资源库和数条行为数据，生成数条行为数据对应的数条资源访问特征，并采用数条资源访问特征，训练用户点击模型，能够提供一种无损的建模方式，与现有技术的建模方式相比，能够有效地优化用户点击模型的精度，提高用户点击模型的准确性。

图2是本申请第二实施例提供的资源推荐方法的流程图。如图2所示，本实施例的资源推荐方法，具体可以包括如下步骤：

S201、采集指定用户在最近邻时间片段内的实时行为数据；

本实施例的资源推荐方法为上述图1所示实施例训练的用户点击模型的一种应用，实际应用中，上述训练的用户点击模型也可以应用于其他场景中，如资源分析、资源统计等等，在此不再一一举例。

本实施例的资源推荐方法的执行主体可以为资源推荐装置，同理，该资源推荐装置可以为以独立的电子实体或者也可以为软件集成的应用系统。

实际应用中，该资源推荐装置可以独立于上述图1所示实施例的用户点击模型的训练装置，或者可以于用户点击模型的训练装置设置为一体，在此不做限定。

本实施例中，用于实现基于用户当前的实时行为数据，来预测用户未来可能访问的资源，以进行有针对性的、有目的的资源推荐。

首先，本实施例中，可以采用指定用户在最近邻时间片段内的实时行为数据，其中的最近邻时间片段，可以为当前时刻往前最近1分钟、3分钟或者其他时间长度的片段，具体可以根据实际需求来设置，但一定要符合具体场景中的实时性的要求。同理，本实施例的实时行为数据包括的信息与上述图1所示实施例中包括的行为数据相类似，详细参考上述图1所示实施例的行为数据，在此不再赘述。

S202、根据实时行为数据和预先创建的头部资源库，获取指定用户的实时资源访问特征；

本实施例中采用的预先创建的头部资源库与上述图1所示实施例相同，且参考上述图1所示实施例中的获取资源访问特征的方法，获取本实施例的实时资源访问特征，详细可以参考上述图1所示实施例的记载，在此不再赘述。

S203、根据预先训练的用户点击模型、实时资源访问特征以及头部资源库，预测k个预测资源标识；

本实施例中的k可以为任意正整数。

例如，该步骤S203根据用户点击模型、实时资源访问特征以及头部资源库，预测k个预测资源标识，具体可以包括如下步骤：

(1)根据用户点击模型和实时资源访问特征，预测指定用户的预测资源访问特征；

(2)基于预测资源访问特征、实时资源访问特征以及头部资源库，获取k个预测资源标识。

具体地，由于实时资源访问特征是基于较短的时间片段获取的，内容不够丰富，本实施例可以基于实时资源访问特征，采用用户点击模型来预测用户所有可能访问的资源的特征，即得到预测资源访问特征。例如，同样以头部资源库中包括500个头部资源标识为例，实时资源访问特征中可能仅包括20个有效数据，即表示该指定用户在最近邻时间片段内对访问的20个头部资源的反馈信息是喜欢，此时采用用户点击模型，来预测用于未来可能会点击的头部资源。但是该用户点击模型并不能直接预测未来可能会点击头部资源的标识，而是将这些头部资源的信息隐藏在预测资源访问特征中，如此时预测资源访问特征中包括的有效数据即非0数据可能有100个。

具体地，基于预测资源访问特征、实时资源访问特征以及头部资源库，获取k个预测资源标识时，可以将预测资源访问特征和实时资源访问特征进行比对，获取相对于实时资源访问特征、预测资源访问特征中新增的有效数据，然后将预测资源访问特征中新增的所有有效数据按照由大到小的顺序排列，获取top k个有效数据；并获取预测资源访问特征中该top k个有效数据分别在头部资源库中对应的资源标识，得到k个预测资源标识。如上述举例中，若预测资源访问特征中包括的有效数据有100个，除去实时资源访问特征的20个有效数据对应的位置的有效数据，则有80个新增的有效数据，将这80个有效数据按照由大到小的顺序排列，获取top k个，k可以根据需求取任意正整数，如10个、8个或者其他数值。然后结合头部资源库，获取预测资源访问特征中k个有效数据对应的头部资源的标识，作为k个预测资源标识。

S204、基于k个预测资源标识，对指定用户进行资源推荐。

本实施例的资源推荐方法，通过采用上述技术方案，能够获取到准确的非常高的预测资源标识，进而能够对用户进行更加有针对性的推荐，从而可以提高推荐效率，增强用户的粘性和用户的使用体验度。

图3为本申请第三实施例提供的用户点击模型的训练装置的结构图。如图3所示，本实施例的用户点击模型的训练装置300，具体可以包括：

采集模块301用于从全网用户的日志数据库中采集数条行为数据，各条行为数据中包括预设时间周期内一用户对网络中的资源的反馈信息；

生成模块302用于基于预先创建的头部资源库和数条行为数据，生成数条行为数据对应的数条资源访问特征；

训练模块303用于采用数条资源访问特征，训练用户点击模型。

进一步可选地，本实施例的用户点击模型的训练装置300中，还包括：

过滤模块304用于根据全局资源库中的各资源的属性信息，从全局资源库中过滤出多个头部资源的标识；

构建模块305用于将多个头部资源标识组成头部资源库。

进一步可选地，过滤模块304用于执行如下至少一种：

根据全局资源库中的各资源的质量参数，从全局资源库中过滤出质量参数大于预设质量参数阈值的多个资源标识，作为头部资源的标识；

根据全局资源库中的各资源的访问热度，从全局资源库中过滤出访问热度大于预设热度阈值的多个资源标识，作为头部资源的标识；和

根据全局资源库中的各资源的区分度，从全局资源库中过滤出区分度大于预设区分度阈值的多个资源标识，作为头部资源的标识；其中各资源的区分度等于资源对应的不同反馈的用户群体数量的方差；

或者，过滤模块304用于执行如下至少一种：

根据全局资源库中的各资源的质量参数，从全局资源库中过滤出质量参数最大的Top N个资源标识，作为头部资源的标识；

根据全局资源库中的各资源的访问热度，从全局资源库中过滤出访问热度最大的Top M个资源标识，作为头部资源的标识；和

根据全局资源库中的各资源的区分度，从全局资源库中过滤出区分度最大的TopW个资源标识，作为头部资源的标识；其中N、M和W均为正整数。

进一步可选地，本实施例的用户点击模型的训练装置300中，采集模块301具体用于：

从日志数据库中，通过预设埋点的显式采集方式和/或通过分析用户的对各资源的反馈信息的隐式采集方式，采集数条行为数据。

进一步可选地，本实施例的用户点击模型的训练装置300中，生成模块302具体用于：

获取各行为数据中的用户对头部资源库中的资源的正反馈信息；

基于各行为数据中的用户对头部资源库中的资源的正反馈信息，生成对应的资源访问特征，共得到数条资源访问特征。

进一步可选地，本实施例的用户点击模型的训练装置300中，训练模块303具体用于：

对于各资源访问特征，将资源访问特征中的部分有效数据遮挡，得到对应的资源访问训练特征；

将资源访问训练特征输入至用户点击模型，获取用户点击模型输出的资源访问预测特征；

基于资源访问特征和对应的资源访问预测特征，计算交叉熵函数值；

判断交叉熵函数值是否等于0；

若不等于0，调整用户点击模型的参数，使得交叉熵函数值趋于0；

采用数条资源访问特征，按照上述方式不断地对用户点击模型进行训练，直到交叉熵函数值在连续预设次数的训练中都等于0，确定用户点击模型的参数，进而确定用户点击模型。

本实施例的用户点击模型的训练装置300，通过采用上述模块实现用户点击模型的训练的实现原理以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图4为本申请第四实施例提供的资源推荐装置的结构图。如图4所示，本实施例的资源推荐装置400，具体可以包括：

采集模块401用于采集指定用户在最近邻时间片段内的实时行为数据；

获取模块402用于根据实时行为数据和预先创建的头部资源库，获取指定用户的实时资源访问特征；

预测模块403还用于根据预先训练的用户点击模型、实时资源访问特征以及头部资源库，预测k个预测资源标识；

推荐模块404用于基于k个预测资源标识，对指定用户进行资源推荐。

进一步可选地，本实施例的资源推荐装置400中，预测模块403具体用于：

根据用户点击模型和实时资源访问特征，预测指定用户的预测资源访问特征；

基于预测资源访问特征、实时资源访问特征以及头部资源库，获取k个预测资源标识。

本实施例的资源推荐装置400，通过采用上述模块实现资源推荐的实现原理以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的用户点击模型的训练或者资源推荐方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的用户点击模型的训练方法或者资源推荐方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的用户点击模型的训练方法或者资源推荐方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的用户点击模型的训练方法或者资源推荐方法对应的程序指令/模块(例如，附图3所示的各模块和附图4所示的各模块)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的用户点击模型的训练方法或者资源推荐方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用户点击模型的训练或者资源推荐的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至用户点击模型的训练或者资源推荐的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用户点击模型的训练方法或者资源推荐方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与用户点击模型的训练或者资源推荐的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过从全网用户的日志数据库中采集数条行为数据；基于预先创建的头部资源库和数条行为数据，生成数条行为数据对应的数条资源访问特征，并采用数条资源访问特征，训练用户点击模型，能够提供一种无损的建模方式，与现有技术的建模方式相比，能够有效地优化用户点击模型的精度，提高用户点击模型的准确性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种用户点击模型的训练方法，其特征在于，包括：

基于预先创建的头部资源库和所述数条行为数据，生成所述数条行为数据对应的数条资源访问特征；各所述行为数据对应的所述资源访问特征包括所述行为数据对应的所述用户，对所述头部资源库中的头部资源标识对应的资源是否为正反馈；

采用所述数条资源访问特征，训练用户点击模型。

2.根据权利要求1所述的方法，其特征在于，基于预先创建的头部资源库和所述数条行为数据，生成所述数条行为数据对应的数条资源访问特征之前，所述方法还包括：

将所述多个头部资源标识组成头部资源库。

3.根据权利要求2所述的方法，其特征在于，根据全局资源库中的各资源的属性信息，从所述全局资源库中过滤出多个头部资源的标识，包括如下至少一种：

4.根据权利要求1所述的方法，其特征在于，从全网用户的日志数据库中采集数条行为数据，包括：

5.根据权利要求1所述的方法，其特征在于，基于预先创建的头部资源库和所述数条行为数据，生成所述数条行为数据对应的数条资源访问特征，包括：

6.根据权利要求1所述的方法，其特征在于，采用所述数条资源访问特征，训练用户点击模型，包括：

判断所述交叉熵函数值是否等于0；

7.一种资源推荐方法，其特征在于，包括：

采集指定用户在最近邻时间片段内的实时行为数据；

根据权利要求1-6任一训练方法预先训练的用户点击模型、所述实时资源访问特征以及所述头部资源库，预测k个预测资源标识；

基于所述k个预测资源标识，对所述指定用户进行资源推荐。

8.根据权利要求7所述的方法，其特征在于，根据预先训练的用户点击模型、所述实时资源访问特征以及所述头部资源库，预测k个预测资源标识，包括：

9.一种用户点击模型的训练装置，其特征在于，包括：

生成模块，用于基于预先创建的头部资源库和所述数条行为数据，生成所述数条行为数据对应的数条资源访问特征；各所述行为数据对应的所述资源访问特征包括所述行为数据对应的所述用户，对所述头部资源库中的头部资源标识对应的资源是否为正反馈；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

过滤模块，用于根据全局资源库中的各资源的属性信息，从所述全局资源库中过滤出多个头部资源的标识；

构建模块，用于将所述多个头部资源标识组成头部资源库。

11.根据权利要求10所述的装置，其特征在于，所述过滤模块，用于执行如下至少一种：

或者，所述过滤模块，用于执行如下至少一种：

12.根据权利要求9所述的装置，其特征在于，所述采集模块，用于：

13.根据权利要求9所述的装置，其特征在于，所述生成模块，用于：

14.根据权利要求9所述的装置，其特征在于，所述训练模块，用于：

判断所述交叉熵函数值是否等于0；

15.一种资源推荐装置，其特征在于，包括：

预测模块，还用于根据权利要求9-14任一用户点击模型的训练装置预先训练的用户点击模型、所述实时资源访问特征以及所述头部资源库，预测k个预测资源标识；

16.根据权利要求15所述的装置，其特征在于，所述预测模块，具体用于：

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法，或者执行权利要求7-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法，或者执行权利要求7-8中任一项所述的方法。