CN109582862B

CN109582862B - 点击率预估方法、介质、系统和计算设备

Info

Publication number: CN109582862B
Application number: CN201811292015.4A
Authority: CN
Inventors: 唐爽硕; 魏望; 李玉鹏; 刘彦东; 刘洪彬
Original assignee: Netease Media Technology Beijing Co Ltd
Current assignee: Netease Media Technology Beijing Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2021-02-02
Anticipated expiration: 2038-10-31
Also published as: CN109582862A

Abstract

本发明的实施方式提供了一种点击率预估方法。该方法包括：获取用户的多个历史点击信息各自对应的第一基础特征信息；确定多个历史点击信息的第一隐含特征信息；组合多个历史点击信息各自对应的第一基础特征信息和第一隐含特征信息，得到第一组合特征信息；以及基于第一组合特征信息训练点击率预估模型，以预估用户对待推荐的信息的点击率。通过增加隐含特征信息，本发明的方法使得训练得到点击率预估模型能够更准确地预估用户对待推荐的信息的点击情况，从而能够显著地提高向用户推荐信息的精准度，为用户带来了更好的体验，并且能够减少用户流量的消耗。此外，本发明的实施方式提供了一种点击率预估系统、一种介质和一种计算设备。

Description

点击率预估方法、介质、系统和计算设备

技术领域

本发明的实施方式涉及数据处理领域，更具体地，本发明的实施方式涉及一种点击率预估方法及系统、一种介质和一种计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

推荐系统的主要工作是解决信息过载的问题，为用户从海量的信息中筛选出最优价值的信息。点击率预估技术在推荐系统中具有非常重要的作用，其主要任务是预测用户对某个推荐内容的点击概率。

目前，已经出现一些点击率预估方法，这些方法主要通过逻辑回归模型进行预测。逻辑回归模型是一个线性模型，需要进行大量的特征工程来获取有效的基础特征，以及组合基础特征得到对应的组合特征。在所有特征中，基于历史数据的特征虽然量级较小，但是具有非常高的特征权重。

发明内容

但是，出于技术受限的原因，现有技术基于历史数据，采用关键词简单匹配原则和数量统计技术提取特征，导致点击率预估不准确。

因此在现有技术中点击率预估不准确，这是非常令人烦恼的过程。

为此，非常需要一种改进的点击率预估方法，以提高点击率预估的准确度。

在本上下文中，本发明的实施方式期望提供一种准确地预估待推荐的内容的点击率的方法。

在本发明实施方式的第一方面中，提供了一种点击率预估方法，包括：获取用户的多个历史点击信息各自对应的第一基础特征信息，其中，每个第一基础特征信息用于表征与之对应的历史点击信息的特征属性；确定所述多个历史点击信息的第一隐含特征信息，所述第一隐含特征信息用于表征所述多个历史点击信息之间的关联关系；组合所述多个历史点击信息各自对应的第一基础特征信息和所述第一隐含特征信息，得到第一组合特征信息；以及基于所述第一组合特征信息训练点击率预估模型，以预估所述用户对待推荐的信息的点击率。

在本发明的一个实施例中，该确定所述多个历史点击信息的第一隐含特征信息包括：确定所述多个历史点击信息之间的相似度；以及将相似度确定结果作为所述多个历史点击信息的第一隐含特征信息。

在本发明的另一实施例中，该确定所述多个历史点击信息之间的相似度包括：确定所述多个历史点击信息中每个历史点击信息的词向量；以及计算每个历史点击信息的词向量与其他历史点击信息的词向量的相似度，以确定所述多个历史点击信息之间的相似度。

在本发明的又一个实施例中，该计算每个历史点击信息的词向量与其他历史点击信息的词向量的相似度包括：计算每个历史点击信息的词向量与其他历史点击信息的词向量的余弦距离，以确定每个历史点击信息的词向量与其他历史点击信息的词向量的相似度。

在本发明的再一个实施例中，该确定所述多个历史点击信息中每个历史点击信息的词向量包括：利用word2vector模型，训练每个历史点击信息，得到对应的词向量。

在本发明的再一个实施例中，该方法还包括：获取所述待推荐的信息的第二基础特征信息；确定所述待推荐的信息的第二隐含特征信息，其中，所述第二隐含特征信息用于表征所述待推荐的信息与所述多个历史点击信息的关联关系；组合所述第二基础特征信息和所述第二隐含特征信息，得到第二组合特征信息；将所述第二组合特征信息输入所述点击率预估模型；以及根据所述点击率预估模型的输出结果，预估所述用户对所述待推荐的信息的点击率。

在本发明的再一个实施例中，该确定所述待推荐的信息的第二隐含特征信息包括：确定所述待推荐的信息与所述历史点击信息的相似度；以及将相似度确定结果作为所述待推荐的信息的第二隐含特征信息。

在本发明的再一个实施例中，该确定所述待推荐的信息与所述历史点击信息的相似度包括：确定所述待推荐的信息的第一词向量；确定所述历史点击信息的第二词向量；以及计算所述第一词向量与所述第二词向量的相似度，以确定所述待推荐的信息与所述历史点击信息的相似度。

在本发明的再一个实施例中，该计算所述第一词向量与所述第二词向量的相似度包括：计算所述第一词向量与所述第二词向量的余弦距离，以确定所述第一词向量与所述第二词向量的相似度。

在本发明的再一个实施例中，该确定所述历史点击信息的第二词向量包括：利用word2vector模型，训练所述历史点击信息，得到所述第二词向量。

在本发明的再一个实施例中，该第一基础特征信息包括以下中的一种或几种：用户信息、文章信息、环境信息。

在本发明的再一个实施例中，所述用户信息包括用户的基础属性信息和用户的行为信息；所述文章信息包括文章的基础属性信息和文章的历史曝光日志和点击日志；所述环境信息包括当前的网络环境状况、用户使用的设备、用户访问的时间段。

在本发明实施方式的第二方面中，提供了一种介质，存储有计算机可执行指令，所述指令在被处理单元执行时用于实现上述任一项所述的点击率预估方法。

在本发明实施方式的第三方面中，提供了一种点击率预估系统，包括：第一获取模块，用于获取用户的多个历史点击信息各自对应的第一基础特征信息，其中，每个第一基础特征信息用于表征与之对应的历史点击信息的特征属性；第一确定模块，用于确定所述多个历史点击信息的第一隐含特征信息，所述第一隐含特征信息用于表征所述多个历史点击信息之间的关联关系；第一组合模块，用于组合所述多个历史点击信息各自对应的第一基础特征信息和所述第一隐含特征信息，得到第一组合特征信息；以及训练模块，用于基于所述第一组合特征信息训练点击率预估模型，以预估所述用户对待推荐的信息的点击率。

在本发明实施方式的第四方面中，提供了一种计算设备，包括：处理单元；以及存储单元，存储有计算机可执行指令，所述指令在被所述处理单元执行时用于实现上述任一项所述的点击率预估方法。

根据本发明实施方式的基础特征信息和隐含特征信息，可以训练出能够更准确地预估用户对待推荐的信息的点击情况的点击率预估模型，从而能够显著地提高向用户推荐信息的精准度，并且能够减少用户流量的消耗，为用户带来了更好的体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式的应用场景示意图；

图2示意性地示出了根据本发明实施例的点击率预估方法的流程图；

图3示意性地示出了根据本发明实施例的确定历史点击信息的隐含特征信息的流程图；

图4示意性示出了根据本发明实施例的确定多个历史点击信息之间的相似度的流程图；

图5示意性示出了根据本发明另一实施例的点击率预估方法的流程图；

图6示意性地示出了根据本发明实施例的确定待推荐的信息的隐含特征信息的流程图；

图7示意性地示出了根据本发明实施例的确定待推荐的信息与历史点击信息的相似度的流程图；

图8示意性地示出了根据本发明实施例的组合各特征信息的示意图；

图9示意性地示出了根据本发明实施例的点击率预估系统的框图；

图10示意性地示出了根据本发明另一实施例的用于实现点击率预估方法的程序产品示意图；以及

图11示意性地示出了根据本发明实施例的用于实现点击率预估方法的计算设备的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种点击率预估方法、介质、装置(即点击率预估系统)和计算设备。

在本文中，需要理解的是，所涉及的术语点击率表示网站或者APP上指定内容被点击次数与被曝光次数的比值，它通常是推荐系统中衡量待推荐的内容是否值得推荐给特定用户的重要指标。此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，相关技术中提供的点击率预估方法，主要是基于历史点击信息来预估某个或者某些用户对某个推荐内容的点击概率，但是相关技术中在实现点击率预估时，一般都采用关键词简单匹配原则和数量统计技术，仅仅提取了这些历史点击信息各自的基础特征信息并进行了简单组合，而没有考虑这些历史点击信息彼此之间的关联关系，导致点击率预估不准确。

基于以上分析，发明人构想到可以通过历史点击信息各自的基础特征信息并结合这些历史点击信息彼此之间的关联关系信息进行点击率预估。根据本公开的发明构想，通过获取用户的多个历史点击信息各自对应的第一基础特征信息，其中，每个第一基础特征信息用于表征与之对应的历史点击信息的特征属性；确定多个历史点击信息的第一隐含特征信息，第一隐含特征信息用于表征多个历史点击信息之间的关联关系；组合多个历史点击信息各自对应的第一基础特征信息和第一隐含特征信息，得到第一组合特征信息；以及基于第一组合特征信息训练点击率预估模型，以预估用户对待推荐的信息的点击率。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1详细阐述本发明实施例的点击率预估方法及其装置的应用场景。

图1示意性地示出了根据本发明实施方式的应用场景示意图。

如图1所示，这是网易新闻客户端的相关界面，一般情况下，系统在推荐文章、视频、图片等内容时，都会考虑用户的兴趣特征，为用户定制个性化的阅读内容。

使用本发明提供的技术方案，针对一个用户而言，可以根据以往推荐给该用户且被该用户点击的内容即历史点击信息来推测该用户的兴趣爱好，进而根据该用户的兴趣爱好预估其是否对某个待推荐的内容感兴趣。

由于通常情况下用户一般会点击自己感兴趣的内容，因此如果用户对某个内容感兴趣，则一般认为他点击该内容的可能性比较大，点击的可能性大，则意味着用户对该内容的点击率就会高。反之，如果用户对某个内容不感兴趣，则一般认为他点击该内容的可能性比较小，点击的可能性小，则意味着用户对该内容的点击率就会低。

应该理解，图1所示仅为可以应用本公开实施例的应用场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本发明示例性实施方式的点击率预估方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

图2示意性地示出了根据本发明实施例的点击率预估方法的流程图。

如图2所示，根据本发明实施例的点击率预估方法包括操作S210～操作S240，其中：

在操作S210，获取用户的多个历史点击信息各自对应的第一基础特征信息，其中，每个第一基础特征信息用于表征与之对应的历史点击信息的特征属性。

作为一种可选的实施例，第一基础特征信息包括以下中的一种或几种：用户信息、文章信息、环境信息。

更具体地，作为一种可选的实施例，用户信息包括用户的基础属性信息和用户的行为信息；文章信息包括文章的基础属性信息和文章的历史曝光日志和点击日志；环境信息包括当前的网络环境状况、用户使用的设备、用户访问的时间段。

例如，用户的基础属性信息可以包括但不限于用户姓名、性别、年龄、职业等等；用户的行为信息可以包括但不限于：用户点击了什么、没点击什么，等等。

例如，文章的基础属性信息可以包括但不限于文章的类别(如娱乐、体育、段子，等等)，文章的长度，文章的形式，文章的发布时间，文章来源，文章标题，文章在过去一段时间的点击率，等等。

例如，当前的网络环境状况可以包括但不限于用户当前使用的是WIFI、3G、还是4G网络，等等；用户使用的设备可以包括但不限于安卓机、苹果机，等等。

由于每个用户在不同的时间段内可能兴趣爱好会有所变化，因此在实际操作时，可以设定一个时间段，并获取用户在该时间段内点击的所有内容，然后获取这些内容各自的基础特征信息。

此外，在获取基础特征信息之前，可以先进行数据采集，并使用用户历史点击信息生成用户的历史点击列表，并按时间排序。

在操作S220，确定多个历史点击信息的第一隐含特征信息，第一隐含特征信息用于表征多个历史点击信息之间的关联关系。

由于每个用户一般都对涉及一类或者几类特定的事物和人的文章、视频、图片等内容感兴趣，因此挖掘并确定多个历史点击信息之间内在的关联关系如是否相似，可以帮助平台更有针对性地向用户推荐相关内容。

在操作S230，组合多个历史点击信息各自对应的第一基础特征信息和第一隐含特征信息，得到第一组合特征信息。

具体地，可以按照预定规则拼接第一基础特征信息和第一隐含特征信息，从而组成第一组合特征信息，如图8所示。其中，预定规则可以根据实际需要设定。

例如，假设每个历史点击信息的第一基础特征信息可以用8列数据表示，且在一个实施例中一共使用了N个历史点击信息，而N个历史点击信息的第一隐含特征信息也使用8列数据表示，此时，依次在一个历史点击信息后面追加另一个历史点击信息，直到追加到第N个历史点击信息，可组合所有历史点击信息的第一基础特征信息可以得到一个8N列数据，将第一隐含特征信息对应的8列数据再追加在这个8N列数据之后，就可以组合出一个(8N+8)列的第一组合特征信息。

在操作S240，基于第一组合特征信息训练点击率预估模型，以预估用户对待推荐的信息的点击率。

与现有技术训练点击率预估模型时仅仅获取各历史点击信息的基础特征信息，并将其组合成对应的组合特征信息，进而利用这一组合特征信息训练点击率预估模型，导致模型的特征不够丰富，预估结果不够准确相比，本发明实施例在训练点击率预估模型时，不仅会获取各历史点击信息的基础特征信息，而且还会深度挖掘这些历史点击信息之间内在的隐含特征信息，进而将所有的基础特征信息和对应的隐含特征信息组合在一起，从而得到内容更丰富的组合特征信息，并以此训练点击率预估模型，因而能够提高预估结果的准确度。

下面参考图3～图8，结合具体实施例对图2所示的方法做进一步说明。

图3示意性地示出了根据本发明实施例的确定历史点击信息的隐含特征信息的流程图。在该实施例中，除了包括上文参考图2描述的操作S210，以及S230～S240之外，还进一步限定了操作S220。为了描述的简洁起见，这里省略对操作S210，以及S230～S240的描述。

如图3所示，操作S220即确定多个历史点击信息的第一隐含特征信息包括操作S221～S222，其中：

在操作S221，确定多个历史点击信息之间的相似度；以及

在操作S222，将相似度确定结果作为多个历史点击信息的第一隐含特征信息。

如前文所述，由于特定用户在特定阶段一般会对特定内容比较感兴趣，因此在训练点击率预估模型的过程中，可以深度挖掘用户以往点击的信息之间的相似度，并根据该相似度确定这些信息之间的隐含特征信息。

例如，针对某个用户，通过分析发现，其最近点击的内容都是孕产相关信息，此时可以将孕产相关信息作为其最近点击的内容之间的隐含特征信息。

此外，由于事物/人的发展都具有阶段性，因此在未来的特定时间段内，还可以根据事物/人的发展的阶段性关系，并根据该阶段性关系确定这些历史点击信息之间的隐含特征信息。

例如，针对某个用户，通过分析发现，其最近点击的内容都是孕产相关信息，本阶段可以将孕产相关信息作为其最近点击的内容之间的隐含特征信息，进一步，后续阶段还可以将婴幼儿护理、教育等相关信息作为其对应的隐含特征信息。

正是由于同一用户往往会对相同类别的信息如娱乐类，体育类等感兴趣，因此通过本发明实施例，通过确定多个历史点击信息之间的相似度，可以找出这些历史点击信息之间内在的隐含特征。

图4示意性示出了根据本发明实施例的确定多个历史点击信息之间的相似度的流程图。在该实施例中，除了包括上文参考图2描述的操作S210，以及S230～S240，以及上文参考图3描述的操作S222之外，还进一步限定了操作S221。为了描述的简洁起见，这里省略对操作S210，以及S230～S240，以及操作S222的描述。

如图4所示，操作S221即确定多个历史点击信息之间的相似度包括操作S2211～S2212，其中：

在操作S2211，确定多个历史点击信息中每个历史点击信息的词向量；以及

在操作S2212，计算每个历史点击信息的词向量与其他历史点击信息的词向量的相似度，以确定多个历史点击信息之间的相似度。

由于一篇文章往往可以用一个或者几个关键词构成的关键词组描述，而关键词(或者关键词组)可以使用词向量表示，因此计算任意两篇文章之间的相似度，都可以简化为计算两篇文章对应的两个词向量之间的相似度。

进一步，作为一种可选的实施例，上述计算每个历史点击信息的词向量与其他历史点击信息的词向量的相似度，包括：计算每个历史点击信息的词向量与其他历史点击信息的词向量的余弦距离，以确定每个历史点击信息的词向量与其他历史点击信息的词向量的相似度。

由于两个向量的相似度具体可以通过余弦距离来衡量，因此在本发明实施例中，可以将向量的相似度简化为计算向量的余弦距离。

更进一步，作为一种可选的实施例，上述确定多个历史点击信息中每个历史点击信息的词向量，包括：利用word2vector模型，训练每个历史点击信息，得到对应的词向量。

word2vector模型能够基于大规模非标注的文本数据，利用滑动窗口捕捉单词实体的共现信息，为每个单词实体生成高维的嵌入式词向量即embedding向量词典，使得所生成的词向量具有词语之间的语义和语法信息。

通过本发明实施例，可以充分利用word2vector模型具有挖掘共现关系的能力来确定多个历史点击信息之间的共同关系特点。

图5示意性示出了根据本发明另一实施例的点击率预估方法的流程图。在该实施例中，除了包括上文参考图2描述的操作S210～S240之外，如图5所示，还包括操作S250～S290。为了描述的简洁起见，这里省略对操作操作S210～S240的描述。其中：

在操作S250，获取待推荐的信息的第二基础特征信息。

其中，第二基础特征信息与第一基础特征信息类似，它也包括以下中的一种或几种：用户信息、文章信息、环境信息。并且，用户信息包括用户的基础属性信息和用户的行为信息；文章信息包括文章的基础属性信息和文章的历史曝光日志和点击日志；环境信息包括当前的网络环境状况、用户使用的设备、用户访问的时间段。更详细的内容可以参照前述实施中关于第一基础特征信息的描述，在此不再赘述。

此外，与第一基础特征信息不同的是，第二基础特征信息是用于表征待推荐的信息的特征属性的。

在操作S260，确定待推荐的信息的第二隐含特征信息，其中，第二隐含特征信息用于表征待推荐的信息与多个历史点击信息的关联关系。

由于每个用户一般都对涉及一类或者几类特定的事物和人的文章、视频、图片等内容感兴趣，因此挖掘并确定待推荐的信息与各历史点击信息之间内在的关联关系如是否相似，可以帮助平台决定是否将该待推荐的信息推荐给用户。

在操作S270，组合第二基础特征信息和第二隐含特征信息，得到第二组合特征信息。

其中，组合第二基础特征信息和第二隐含特征信息的方法与组合第一基础特征信息和第一隐含特征信息的方法相同，在此不再赘述。

在操作S280，将第二组合特征信息输入点击率预估模型。

在操作S290，根据点击率预估模型的输出结果，预估用户对待推荐的信息的点击率。

由于用户都有自己的阅读喜好，因此深度挖掘待推荐的信息与已推荐的且已被用户接受的信息(即历史点击信息)之间隐含的关联关系，从而组合基础特征与新挖掘的隐含特征，并基于此进行点击率预估，可以更准确地预估待推荐的信息被用户接受的可能性的大小。

进一步，使用本发明实施例提供的点击率预估方法，能够显著地提高向用户推荐信息的精准度，并且能够减少用户流量的消耗，为用户带来了更好的体验。

图6示意性地示出了根据本发明实施例的确定待推荐的信息的隐含特征信息的流程图。在该实施例中，除了包括上文参考图2描述的操作S210～S240，以及图5描述的操作S250，以及S270～S290之外，还进一步限定了操作S260。为了描述的简洁起见，这里省略对操作操作S210～S240，以及操作S250，以及S270～S290的描述。

如图6所示，操作S260即确定待推荐的信息的第二隐含特征信息包括操作S261～S262，其中：

在操作S261，确定待推荐的信息与历史点击信息的相似度；以及

在操作S262，将相似度确定结果作为待推荐的信息的第二隐含特征信息。

其中，确定待推荐的信息与历史点击信息的相似度的方法与前文所述的确定多个历史点击信息之间的相似度的方法相同或类似，在此不再赘述。

由于同一用户往往会对相同类别的信息如娱乐类，体育类等感兴趣，因此通过本发明实施例，通过确定待推荐的信息与已推荐的且已被接受的信息的相似度，可以找出待推荐的信息与已推荐的且已被接受的信息之间内在的隐含特征。

图7示意性地示出了根据本发明实施例的确定待推荐的信息与历史点击信息的相似度的流程图。在该实施例中，除了包括上文参考图2描述的操作S210～S240，以及图5描述的操作S250，以及S270～S290，以及图6描述的操作S262之外，还进一步限定了操作S261。为了描述的简洁起见，这里省略对操作操作S210～S240，以及操作S250，以及S270～S290，以及操作S262的描述。

如图7所示，操作S261即确定待推荐的信息与历史点击信息的相似度包括操作S2611～S2613，其中：

在操作S2611，确定待推荐的信息的第一词向量；

在操作S2612，确定历史点击信息的第二词向量；以及

在操作S2613，计算第一词向量与第二词向量的相似度，以确定待推荐的信息与历史点击信息的相似度。

使用基于词向量的特征提取方式，能够增加特征的多样性，并且在AUC指标上可以提高0.7％～0.9％。

需要说明的是，AUC(area under the curve)就是ROC曲线下方的面积，分类器分类能力越好，AUC越大。ROC曲线全称是“受试者工作特征”(receiver operatingcharacteristic)。根据学习器的预测结果进行排序，然后按此顺序逐个把样本作为正例进行预测，每次计算出两个重要的值，分别以这两个值作为横纵坐标作图，就得到了ROC曲线。ROC曲线的横轴为“假正例率”(True Positive Rate，TPR)，又称为“假阳率”，纵轴为“真正例率”(False Positive Rate，FPR))，又称为“真阳率”。

由于一篇文章往往可以用一个或者几个关键词描述，而关键词(或者关键词组)可以使用词向量表示，因此在本发明实施例中，计算任意两篇文章的相似度，都可以简化为计算两篇文章对应的两个词向量的相似度。

进一步，作为一种可选的实施例，上述计算第一词向量与第二词向量的相似度，包括：计算第一词向量与第二词向量的余弦距离，以确定第一词向量与第二词向量的相似度。

由于第一词向量对应于待推荐的信息，第二词向量对应于多个历史点击信息，更具体地，对于第二词向量，可以先确定每个历史点击信息的词向量，再将所有的历史点击信息的词向量进行加和求平均计算，并将计算结果作为第二词向量。而第一词向量与第二词向量的相似度值作为隐含特征信息，可以看作一个分数值，分数值越大，说明待推荐的信息与用户的这些历史点击信息相似度越大，该用户点击该待推荐的信息可能性就越大，相反，分数值越小，说明待推荐的信息与用户的这些历史点击信息相似度越小，该用户点击该待推荐的信息可能性就越小。

此外，在求第二词向量时，为了防止数据过于稀疏，在对所有的历史点击信息的词向量进行加和求平均计算后，还可以将计算结果进行分段离散处理，例如将0～1分为10段，每0.1为一段，并将属于[0～0.1)、[0.1～0.2)、[0.2～0.3)、[0.3～0.4)、[0.4～0.5)、[0.5～0.6)、[0.6～0.7)、[0.7～0.8)、[0.8～0.9)、[0.9～1)的数据分别映射为0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9和1。

更进一步，作为一种可选的实施例，上述确定历史点击信息的第二词向量，包括：利用word2vector模型，训练历史点击信息，得到第二词向量。

如前文所述，word2vector模型能够基于大规模非标注的文本数据，利用滑动窗口捕捉单词实体的共现信息，为每个单词实体生成高维的嵌入式词向量即embedding向量词典，使得所生成的词向量具有词语之间的语义和语法信息。

通过本发明实施例，可以充分利用word2vector模型具有挖掘共现关系的能力来确定待推荐的信息与历史点击信息之间的共同关系特点。

此外，本发明实施例，采用在当前点击率预估过程中对于用户历史信息使用简单匹配以及数量统计的方式基础之上，深度挖掘更加抽象的隐式信息和协同信息(即隐含特征信息)，从而实现特征更丰富的点击率预估模型，并将其应用于对待推荐的信息进行点击率预估的场景。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图9对本发明示例性实施方式的点击率预估系统进行描述。

图9示意性地示出了根据本发明实施例的点击率预估系统的框图。

如图9所示，该点击率预估系统900包括第一获取模块910、第一确定模块920、第一组合模块930和训练模块940。

该点击率预估系统900可以用来实现参考图2～图8所示的方法。

第一获取模块910，用于获取用户的多个历史点击信息各自对应的第一基础特征信息，其中，每个第一基础特征信息用于表征与之对应的历史点击信息的特征属性；

第一确定模块920，用于确定多个历史点击信息的第一隐含特征信息，第一隐含特征信息用于表征多个历史点击信息之间的关联关系；

第一组合模块930，用于组合多个历史点击信息各自对应的第一基础特征信息和第一隐含特征信息，得到第一组合特征信息；以及

训练模块940，用于基于第一组合特征信息训练点击率预估模型，以预估用户对待推荐的信息的点击率。

具体地，作为一种可选的实施例，第一基础特征信息包括以下中的一种或几种：用户信息、文章信息、环境信息。

作为一种可选的实施例，第一确定模块包括：第一确定单元，用于确定多个历史点击信息之间的相似度；以及第二确定单元，用于将相似度确定结果作为多个历史点击信息的第一隐含特征信息。

通过本发明实施例，通过确定多个历史点击信息之间的相似度，可以找出这些历史点击信息之间内在的隐含特征。

作为一种可选的实施例，第一确定单元包括：第一确定子单元，用于确定多个历史点击信息中每个历史点击信息的词向量；以及第一计算子单元，用于计算每个历史点击信息的词向量与其他历史点击信息的词向量的相似度，以确定多个历史点击信息之间的相似度。

通过本发明实施例，可以将计算任意两篇文章之间的相似度，简化为计算两篇文章对应的两个词向量之间的相似度。

作为一种可选的实施例，计算子单元还用于：计算每个历史点击信息的词向量与其他历史点击信息的词向量的余弦距离，以确定每个历史点击信息的词向量与其他历史点击信息的词向量的相似度。

通过本发明实施例中，可以将向量的相似度简化为计算向量的余弦距离。

作为一种可选的实施例，确定子单元还用于：利用word2vector模型，训练每个历史点击信息，得到对应的词向量。

作为一种可选的实施例，如图9所示，上述系统900还包括：第二获取模块950，用于获取待推荐的信息的第二基础特征信息；第二确定模块960，用于确定待推荐的信息的第二隐含特征信息，其中，第二隐含特征信息用于表征待推荐的信息与多个历史点击信息的关联关系；第二组合模块970，用于组合第二基础特征信息和第二隐含特征信息，得到第二组合特征信息；输入模块980，用于将第二组合特征信息输入点击率预估模型；以及预估模块990，用于根据点击率预估模型的输出结果，预估用户对待推荐的信息的点击率。

作为一种可选的实施例，第二确定模块包括：第三确定单元，用于确定待推荐的信息与历史点击信息的相似度；以及第四确定单元，用于将相似度确定结果作为待推荐的信息的第二隐含特征信息。

通过本发明实施例，通过确定待推荐的信息与已推荐的且已被接受的信息的相似度，可以找出待推荐的信息与已推荐的且已被接受的信息之间内在的隐含特征。

作为一种可选的实施例，第三确定单元包括：第二确定子单元，用于确定待推荐的信息的第一词向量；第三确定子单元，用于确定历史点击信息的第二词向量；以及第二计算子单元，用于计算第一词向量与第二词向量的相似度，以确定待推荐的信息与历史点击信息的相似度。

通过本发明实施例中，可以将计算任意两篇文章的相似度，简化为计算两篇文章对应的两个词向量的相似度。

作为一种可选的实施例，第二计算子单元还用于：计算第一词向量与第二词向量的余弦距离，以确定第一词向量与第二词向量的相似度。

在本发明实施例中，可以将向量的相似度简化为计算向量的余弦距离。

作为一种可选的实施例，第三确定子单元还用于：利用word2vector模型，训练历史点击信息，得到第二词向量。

示例性介质

在介绍了本发明示例性实施方式的装置之后，接下来，参考图10对本发明示例性实施方式的、用于存储有计算机可执行指令，该指令在被处理单元执行时用于实现图2至图8中的点击率预估方法的介质进行描述。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算设备上运行时，所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的点击率预估方法中的步骤，例如，所述计算设备可以执行如图2中所示的步骤S210：获取用户的多个历史点击信息各自对应的第一基础特征信息；步骤S220：确定多个历史点击信息的第一隐含特征信息；步骤S230：组合多个历史点击信息各自对应的第一基础特征信息和第一隐含特征信息，得到第一组合特征信息；以及操作S240，基于第一组合特征信息训练点击率预估模型，以预估用户对待推荐的信息的点击率。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

图10示意性地示出了根据本发明另一实施例的用于实现点击率预估方法的程序产品示意图。

如图10所示，描述了根据本发明的实施方式的点击率预估方法的程序产品40，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆，RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言——诸如Java，C++等，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图11对本发明示例性实施方式的计算设备进行描述，该计算设备包括处理单元和存储单元，存储单元存储有计算机可执行指令，上述指令在被上述处理单元执行时用于实现图2至图8中的点击率预估方法进行描述。

本发明实施例还提供了一种计算设备。所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的点击率预估方法中的步骤。例如，所述处理单元可以执行如图2中所示的步骤S210：获取用户的多个历史点击信息各自对应的第一基础特征信息；步骤S220：确定多个历史点击信息的第一隐含特征信息；步骤S230：组合多个历史点击信息各自对应的第一基础特征信息和第一隐含特征信息，得到第一组合特征信息；以及操作S240，基于第一组合特征信息训练点击率预估模型，以预估用户对待推荐的信息的点击率。

下面参照图11来描述根据本发明的这种实施方式的用于点击率预估的计算设备50。如图11所示的计算设备50仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算设备50以通用计算设备的形式表现。计算设备50的组件可以包括但不限于：上述至少一个处理单元501、上述至少一个存储单元502、连接不同系统组件(包括存储单元502和处理单元501)的总线503。

总线503表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元502可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)5021和/或高速缓存存储器5022，还可以进一步包括只读存储器(ROM)5023。

存储单元502还可以包括具有一组(至少一个)程序模块5024的程序/实用工具5025，这样的程序模块5024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备50也可以与一个或多个外部设备504(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与计算设备50交互的设备通信，和/或与使得计算设备50能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/0)接口505进行。并且，计算设备50还可以通过网络适配器506与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器506通过总线503与计算设备50的其它模块通信。应当明白，尽管图中未示出，可以结合计算设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了系统的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种点击率预估方法，包括：

获取用户的多个历史点击信息各自对应的第一基础特征信息，其中，每个第一基础特征信息用于表征与之对应的历史点击信息的特征属性，所述第一基础特征信息包括用户的行为信息；

确定所述多个历史点击信息的第一隐含特征信息，所述第一隐含特征信息用于表征所述多个历史点击信息之间的关联关系，且所述第一隐含特征信息包括针对第一阶段的隐含特征信息和针对第二阶段的隐含特征信息，所述第二阶段为所述第一阶段的后续阶段；

组合所述多个历史点击信息各自对应的第一基础特征信息和所述第一隐含特征信息，得到第一组合特征信息；以及

基于所述第一组合特征信息训练点击率预估模型，以预估所述用户对待推荐的信息的点击率，

其中，所述确定所述多个历史点击信息的第一隐含特征信息，包括：

确定所述多个历史点击信息之间的相似度；以及

将相似度确定结果作为所述多个历史点击信息的第一隐含特征信息。

2.根据权利要求1所述的方法，其中，所述确定所述多个历史点击信息之间的相似度，包括：

确定所述多个历史点击信息中每个历史点击信息的词向量；以及

计算每个历史点击信息的词向量与其他历史点击信息的词向量的相似度，以确定所述多个历史点击信息之间的相似度。

3.根据权利要求2所述的方法，其中，所述计算每个历史点击信息的词向量与其他历史点击信息的词向量的相似度，包括：

计算每个历史点击信息的词向量与其他历史点击信息的词向量的余弦距离，以确定每个历史点击信息的词向量与其他历史点击信息的词向量的相似度。

4.根据权利要求3所述的方法，其中，所述确定所述多个历史点击信息中每个历史点击信息的词向量，包括：

利用word2vector模型，训练每个历史点击信息，得到对应的词向量。

5.根据权利要求1所述的方法，其中，所述方法还包括：

获取所述待推荐的信息的第二基础特征信息；

确定所述待推荐的信息的第二隐含特征信息，其中，所述第二隐含特征信息用于表征所述待推荐的信息与所述多个历史点击信息的关联关系；

组合所述第二基础特征信息和所述第二隐含特征信息，得到第二组合特征信息；

将所述第二组合特征信息输入所述点击率预估模型；以及

根据所述点击率预估模型的输出结果，预估所述用户对所述待推荐的信息的点击率。

6.根据权利要求5所述的方法，其中，所述确定所述待推荐的信息的第二隐含特征信息，包括：

确定所述待推荐的信息与所述历史点击信息的相似度；以及

将相似度确定结果作为所述待推荐的信息的第二隐含特征信息。

7.根据权利要求6所述的方法，其中，所述确定所述待推荐的信息与所述历史点击信息的相似度，包括：

确定所述待推荐的信息的第一词向量；

确定所述历史点击信息的第二词向量；以及

计算所述第一词向量与所述第二词向量的相似度，以确定所述待推荐的信息与所述历史点击信息的相似度。

8.根据权利要求7所述的方法，其中，所述计算所述第一词向量与所述第二词向量的相似度，包括：

计算所述第一词向量与所述第二词向量的余弦距离，以确定所述第一词向量与所述第二词向量的相似度。

9.根据权利要求7所述的方法，其中，所述确定所述历史点击信息的第二词向量，包括：

利用word2vector模型，训练所述历史点击信息，得到所述第二词向量。

10.根据权利要求1至9中任一项所述的方法，其中，所述第一基础特征信息包括以下中的一种或几种：用户信息、文章信息、环境信息。

11.根据权利要求10所述的方法，其中：

所述用户信息包括用户的基础属性信息和用户的行为信息；

所述文章信息包括文章的基础属性信息和文章的历史曝光日志和点击日志；

所述环境信息包括当前的网络环境状况、用户使用的设备、用户访问的时间段。

12.一种点击率预估系统，包括：

第一获取模块，用于获取用户的多个历史点击信息各自对应的第一基础特征信息，其中，每个第一基础特征信息用于表征与之对应的历史点击信息的特征属性，所述第一基础特征信息包括用户的行为信息；

第一确定模块，用于确定所述多个历史点击信息的第一隐含特征信息，所述第一隐含特征信息用于表征所述多个历史点击信息之间的关联关系，且所述第一隐含特征信息包括针对第一阶段的隐含特征信息和针对第二阶段的隐含特征信息，所述第二阶段为所述第一阶段的后续阶段；

第一组合模块，用于组合所述多个历史点击信息各自对应的第一基础特征信息和所述第一隐含特征信息，得到第一组合特征信息；以及

训练模块，用于基于所述第一组合特征信息训练点击率预估模型，以预估所述用户对待推荐的信息的点击率，

其中，所述第一确定模块包括：

第一确定单元，用于确定所述多个历史点击信息之间的相似度；以及

第二确定单元，用于将相似度确定结果作为所述多个历史点击信息的第一隐含特征信息。

13.根据权利要求12所述的系统，其中，所述第一确定单元包括：

第一确定子单元，用于确定所述多个历史点击信息中每个历史点击信息的词向量；以及

第一计算子单元，用于计算每个历史点击信息的词向量与其他历史点击信息的词向量的相似度，以确定所述多个历史点击信息之间的相似度。

14.根据权利要求13所述的系统，其中，所述计算子单元还用于：

15.根据权利要求14所述的系统，其中，所述确定子单元还用于：

16.根据权利要求12所述的系统，其中，所述系统还包括：

第二获取模块，用于获取所述待推荐的信息的第二基础特征信息；

第二确定模块，用于确定所述待推荐的信息的第二隐含特征信息，其中，所述第二隐含特征信息用于表征所述待推荐的信息与所述多个历史点击信息的关联关系；

第二组合模块，用于组合所述第二基础特征信息和所述第二隐含特征信息，得到第二组合特征信息；

输入模块，用于将所述第二组合特征信息输入所述点击率预估模型；以及

预估模块，用于根据所述点击率预估模型的输出结果，预估所述用户对所述待推荐的信息的点击率。

17.根据权利要求16所述的系统，其中，所述第二确定模块包括：

第三确定单元，用于确定所述待推荐的信息与所述历史点击信息的相似度；以及

第四确定单元，用于将相似度确定结果作为所述待推荐的信息的第二隐含特征信息。

18.根据权利要求17所述的系统，其中，所述第三确定单元包括：

第二确定子单元，用于确定所述待推荐的信息的第一词向量；

第三确定子单元，用于确定所述历史点击信息的第二词向量；以及

第二计算子单元，用于计算所述第一词向量与所述第二词向量的相似度，以确定所述待推荐的信息与所述历史点击信息的相似度。

19.根据权利要求18所述的系统，其中，所述第二计算子单元还用于：

20.根据权利要求18所述的系统，其中，所述第三确定子单元还用于：

21.根据权利要求12至20中任一项所述的系统，其中，所述第一基础特征信息包括以下中的一种或几种：用户信息、文章信息、环境信息。

22.根据权利要求21所述的系统，其中：

所述用户信息包括用户的基础属性信息和用户的行为信息；

23.一种介质，存储有计算机可执行指令，所述指令在被处理单元执行时用于实现权利要求1至11中任一项所述的点击率预估方法。

24.一种计算设备，包括：

处理单元；以及

存储单元，存储有计算机可执行指令，所述指令在被所述处理单元执行时用于实现权利要求1至11中任一项所述的点击率预估方法。