CN109376307B

CN109376307B - 文章推荐方法、装置和终端

Info

Publication number: CN109376307B
Application number: CN201811555387.1A
Authority: CN
Inventors: 刘峰; 王朝旭
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2021-01-26
Anticipated expiration: 2038-12-19
Also published as: CN109376307A

Abstract

本发明提出一种文章推荐方法、装置和终端，包括：获取历史展现文章集合和待推荐的候选文章集合，历史展现文章集合中包括的各历史展现文章标记有对应的类别，候选文章集合中包括的各候选文章标记有对应的类别；根据点击历史展现文章的用户特征和历史展现文章的文章特征，预测候选文章的预估点击率；根据历史展现文章对应的类别以及候选文章对应的类别，计算候选文章的多样性权重；根据候选文章的预估点击率以及候选文章的多样性权重，对各候选文章进行排序。推荐文章时，不仅预测候选文章的预估点击率，而且计算候选文章的多样性，基于上述两个因素赋予文章多样性推荐较高权重，提高整体多样性，从而解决推荐文章类别过于集中的问题。

Description

文章推荐方法、装置和终端

技术领域

本发明涉及互联网技术领域，具体涉及一种文章推荐方法、装置和终端。

背景技术

通常通过用户对文章的点击行为来获知用户兴趣，然后利用推荐算法为推荐符合用户兴趣的文章。然而，这种方式很难发现用户新的兴趣，造成推荐给用户的文章集中在某些固定的领域，用户感知多样性差。

目前，通常采用UCB(置信区间上界，Upper Conference Bound)算法给用户进行推荐。该方法的主要思想是：对某个类别的文章来说，通过该类别被展示的次数来衡量类别的不确定性，并对不确定性大的类别赋予较大的权重，不确定性小的类别赋予较小的权重。UCB算法只根据某个类别文章的展现次数来衡量该类别的文章是否应该被推荐。然而，这种推荐算法并没有考虑推荐结果的多样性，以及展现给用户的所有文章的类别分布情况，因此，无法给用户提供浏览体验单调。

发明内容

本发明实施例提供文章推荐方法、装置和终端，以至少解决现有技术中的以上技术问题。

第一方面，本发明实施例提供了一种文章推荐方法，包括：

获取历史展现文章集合和待推荐的候选文章集合，所述历史展现文章集合中包括的各历史展现文章标记有对应的类别，所述候选文章集合中包括的各候选文章标记有对应的类别；

根据点击所述历史展现文章的用户特征和所述历史展现文章的文章特征，预测所述候选文章的预估点击率；

根据所述历史展现文章对应的类别以及所述候选文章对应的类别，计算所述候选文章的多样性权重；

根据所述候选文章的预估点击率以及所述候选文章的多样性权重，对各所述候选文章进行排序。

在一种实施方式中，根据所述历史展现文章对应的类别以及所述候选文章对应的类别，计算所述候选文章的多样性权重，包括：

根据所述历史展现文章对应的类别计算类别熵；

根据所述类别熵以及所述候选文章对应的类别，计算所述候选文章的多样性权重。

在一种实施方式中，根据所述历史展现文章对应的类别计算类别熵，包括：

从所述历史展现文章集合中提取历史展现文章类别集合；

计算所述历史展现文章类别集合中各个类别在所述历史展现文章集合中的出现概率；

根据所有类别在所述历史展现文章集合中的出现概率计算所述历史展现文章集合的类别熵。

在一种实施方式中，所述历史展现文章集合表示为H，

其中，N是所述历史展现文章的数量；

所述历史展现文章类别集合表示为T，所述历史展现文章对应的类别表示为

每个类别t在所述历史展现文章集合中的出现概率表示为

利用如下计算公式计算所述类别熵：

Entropy(H)为类别熵。

在一种实施方式中，计算所述文章类别集合中各个类别在所述历史展现文章集合中的出现概率，包括：

根据第i个所述历史展现文章的展现时刻与当前时刻的时间差

以及时间阈值θ计算所述第i个历史展现文章的时间因子

当

时，

当

时，

其中，

的取值范围(0，1)；

各个类别的历史展现文章的时间因子表示为

与所有所述历史展现文章的时间因子之和表示为

进行比值，得到各个类别在所述历史展现文章集合中的出现概率

在一种实施方式中，根据所述类别熵以及所述候选文章对应的类别，计算所述候选文章的多样性权重，包括：

分别计算所述候选文章

加入所述历史展现文章集合H之前的类别熵Entropy(H)和加入之后的类别熵

计算得到类别熵的变化量

将所述类别熵的变化量

代入非线性函数

得到所述候选文章的多样性权重

在一种实施方式中，根据所述候选文章的预估点击率以及所述候选文章的多样性权重，对各所述候选文章进行排序，包括：

根据所述候选文章的预估点击率以及所述候选文章的多样性权重，得到所述候选文章的排序权重；

根据所述候选文章的排序权重对各所述候选文章进行排序，并根据排序结果进行推荐。

在一种实施方式中，根据所述候选文章的预估点击率以及所述候选文章的多样性权重，得到所述候选文章的排序权重，包括：

根据所述候选文章的预估点击率表示为CTR_i＝1...M以及所述候选文章的多样性权重

得到所述候选文章的排序权重W_i，

第二方面，本发明实施例提供了一种文章推荐装置，包括：

文章集合获取模块，用于获取历史展现文章集合和待推荐的候选文章集合，所述历史展现文章集合中包括的各历史展现文章标记有对应的类别，所述候选文章集合中包括的各候选文章标记有对应的类别；

点击率计算模块，用于根据点击所述历史展现文章的用户特征和所述历史展现文章的文章特征，预测所述候选文章的预估点击率；

多样性权重计算模块，用于根据所述历史展现文章对应的类别以及所述候选文章对应的类别，计算所述候选文章的多样性权重；

文章排序模块，用于根据所述候选文章的预估点击率以及所述候选文章的多样性权重，对各所述候选文章进行排序。

在一种实施方式中，所述多样性权重计算模块包括：

类别熵计算单元，用于根据所述历史展现文章对应的类别计算类别熵；

权重计算单元，用于根据所述类别熵以及所述候选文章对应的类别，计算所述候选文章的多样性权重。

在一种实施方式中，所述类别熵计算单元包括：

文章类别提取子单元，用于从所述历史展现文章集合中提取历史展现文章类别集合；

概率计算子单元，用于计算所述历史展现文章类别集合中各个类别在所述历史展现文章集合中的出现概率；

熵计算子单元，用于根据所有类别在所述历史展现文章集合中的出现概率计算所述历史展现文章集合的类别熵。

在一种实施方式中，所述文章排序模块包括：

排序权重计算单元，用于根据所述候选文章的预估点击率以及所述候选文章的多样性权重，得到所述候选文章的排序权重；

排序推荐单元，用于根据所述候选文章的排序权重对各所述候选文章进行排序，并根据排序结果进行推荐。

第三方面，本发明实施例提供了一种文章推荐终端，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，文章推荐终端的结构中包括处理器和存储器，所述存储器用于存储支持文章推荐终端执行上述第一方面中文章推荐方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述文章推荐终端还可以包括通信接口，用于文章推荐终端与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储文章推荐装置所用的计算机软件指令，其包括用于执行上述第一方面中文章推荐方法为文章推荐装置所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：推荐文章时，不仅预测候选文章的预估点击率，而且计算候选文章的多样性，基于上述两个因素赋予文章多样性推荐较高权重，提高整体多样性，从而解决推荐文章类别过于集中的问题。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施例提供的一种文章推荐方法流程图；

图2为本发明实施例提供的另一种文章推荐方法示意图；

图3为本发明实施例提供的一种文章推荐装置框图；

图4为本发明实施例提供的另一种文章推荐装置框图；

图5为本发明实施例提供的一种文章推荐终端示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

实施例一

在一种具体实施方式中，如图1所示，提供的一种文章推荐方法流程图，所述方法包括：

步骤S10：获取历史展现文章集合和待推荐的候选文章集合，历史展现文章集合中包括的各历史展现文章标记有对应的类别，候选文章集合中包括的各候选文章标记有对应的类别。

步骤S20：根据点击历史展现文章的用户特征和历史展现文章的文章特征，预测候选文章的预估点击率。

步骤S30：根据历史展现文章对应的类别以及候选文章对应的类别，计算候选文章的多样性权重。

步骤S40：根据候选文章的预估点击率以及候选文章的多样性权重，对各候选文章进行排序。

在一种示例中，根据选定的某一个用户或者多个用户在历史时间段内对文章的点击行为，来获取历史展现文章集合，历史展现文章集合中包括了多篇文章，每篇文章都标记有对应的类别。例如，关于音乐、足球以及互联网等多种类别，每一类类别对应至少一篇文章。预测候选文章的预估点击率之前，可以利用每个用户每次点击的文章数据作为训练数据，训练一个预测模型，之后提取历史展现文章的用户特征，例如，用户喜欢看哪方面的内容等。将提取的用户特征和历史展现文章的文章特征输入至预测模型中，预测候选文章的预估点击率。预估点击率根据标准的推荐算法得到，推荐算法包括例如矩阵分解的算法、协同过滤算法、矩阵分解算法以及深度神经网络算法等。

历史展现文章对应的类别可以包括音乐、足球、互联网等。候选文章对应的类别可以与历史展现文章对应的类别相同，也可以不同。本实施例中，利用历史展现文章对应的类别计算类别熵，通过类别熵和候选文章对应的类别，计算候选文章的多样性权重，类别熵的变化越大，此候选文章的多样性价值越高，反之，则越低。同时考虑候选文章的预估点击率和候选文章的多样性权重，计算得到候选文章的排序权重，根据从高到低的排序权重对所有的候选文章进行排序，推送给客户。提高整体多样性，从而解决推荐文章类别过于集中的问题。

在一种实施方式中，如图2所示，步骤S30包括：

步骤S301：根据历史展现文章对应的类别计算类别熵；

步骤S302：根据类别熵以及候选文章对应的类别，计算候选文章的多样性权重。

在一种示例中，首先从历史展现文章集合中提取出的历史展现文章类别集合，计算历史展现文章类别集合的类别熵。由于每个候选文章都标记有对应的类别，因此，将候选文章代入到类别熵，可以将候选文章对应的类别代入到类别熵中。通过比较候选文章代入类别熵之前和之后的结果，得到候选文章的多样性权重。

在一种实施方式中，步骤S301：包括：

从历史展现文章集合中提取历史展现文章类别集合；

计算历史展现文章类别集合中各个类别在历史展现文章集合中的出现概率；

根据所有类别在历史展现文章集合中的出现概率计算历史展现文章集合的类别熵。

在一种示例中，可以将每个类别在历史展现文章集合中的出现次数除以历史展现文章集合中的文章数量，得到此类别在历史展现文章集合中的出现概率。当然，还可以通过考虑历史展现文章距离当前时刻的远近的影响，来计算每个类别在历史展现文章集合中的出现概率，均在本实施方式的保护范围内。

具体的，利用公式表述文章推荐方法，如下所述：

在一种实施方式中，所述历史展现文章集合表示为H，

其中，N是所述历史展现文章的数量；

历史展现文章类别集合表示为T，历史展现文章对应的类别表示为

每个类别t在历史展现文章集合中的出现概率表示为

利用如下计算公式计算类别熵：

Entropy(H)为类别熵。

在一种实施方式中，考虑历史展现文章距离当前时刻的远近，对于用户有着不同的影响。用户更容易记住最近看到过的文章，而较远的文章用户比较容易淡忘。因此，把历史展现文章的时间因素也考虑进去，计算所述文章类别集合中各个类别在所述历史展现文章集合中的出现概率，包括：

根据第i个历史展现文章的展现时刻与当前时刻的时间差

以及时间阈值θ计算第i个历史展现文章的时间因子

当

时，

当

时，

其中，

的取值范围(0，1)；

各个类别的历史展现文章的时间因子表示为

与所有历史展现文章的时间因子之和表示为

进行比值，得到各个类别在历史展现文章集合中的出现概率

分别计算所述候选文章

计算得到类别熵的变化量

将类别熵的变化量

代入非线性函数

得到候选文章的多样性权重

在一种实施方式中，如图2所示，步骤S40：包括：

步骤S401：根据候选文章的预估点击率以及候选文章的多样性权重，得到候选文章的排序权重；

步骤S402：根据候选文章的排序权重对各候选文章进行排序，并根据排序结果进行推荐。

在一种实施方式中，根据候选文章的预估点击率以及所述候选文章的多样性权重，得到所述候选文章的排序权重，包括：

根据候选文章的预估点击率表示为CTR_i＝1...M以及候选文章的多样性权重

得到候选文章的排序权重W_i，

以下利用一示例进行说明：

在一种示例中，如果用户历史展现文章集合中包含五篇历史展现文章，五篇历史展现文章分别标记有对应的类别。例如，第一历史展现文章(类别：足球)、第二历史展现文章(类别：音乐)、第三历史展现文章(类别：足球)、第四历史展现文章(类别：经济)、第五历史展现文章(类别：历史)，时间因子分别为：0.8、0.2、1.0、0.9、1.0。

候选文章集合中包括有三篇候选文章，三篇候选文章分别标记有对应的类别。例如，其类别分别为第一候选文章(类别：足球)、第二候选文章(类别：历史)、第三候选文章(类别：文学)。

推荐文章时，不仅预测候选文章的预估点击率，而且计算候选文章的多样性，基于上述两个因素赋予文章多样性推荐较高权重，提高整体多样性，从而解决推荐文章类别过于集中的问题。

首先，计算每个类别在历史展现文章集合中的出现概率：p_足球＝1.8/3.9，p_音乐＝0.2/3.9，p_经济＝0.9/3.9，p_历史＝1/3.9，根据公式

计算得到类别熵Entropy(H)＝1.72624180892。具体的计算过程如下：

Entropy(H)＝1.8/3.9*log₂(1.8/3.9)+0.2/3.9*log₂(0.2/3.9)+0.9/3.9*log₂(0.9/3.9)+1/3.9*log₂(1/3.9)＝1.72624180892。

然后，将第一候选文章加入到历史展现文章的类别集合中，每个类别在历史展现文章集合中的出现概率：p'_足球＝2.8/4.9，p'_音乐＝0.2/4.9，p'_经济＝0.9/4.9，p'_历史＝1/4.9(对于此候选文章，时间因子是1)，根据公式

计算得到类别熵Entropy'(H)＝1.56665793025。

具体的计算过程示例如下：

Entropy'(H)＝2.8/4.9*log₂(2.8/4.9)+0.2/4.9*log₂(0.2/4.9)+0.9/4.9*log₂(0.9/4.9)+1/4.9*log₂(1/4.9)＝1.56665793025。

可以发现，加入所述第一候选文章后，类别熵变小。通过sigmoid函数后得到多样性的权重值：

将第二候选文章加入到历史展现文章的类别集合中，每个类别在历史展现文章集合中的出现概率：p”_足球＝1.8/4.9，p”_音乐＝0.2/4.9，p”_经济＝0.9/4.9，p”_历史＝2/4.9。

根据公式

计算得到类别熵Entropy”(H)＝1.69580092704。

具体的计算过程示例如下：

Entropy”(H)＝1.8/4.9*log₂(1.8/4.9)+0.2/4.9*log₂(0.2/4.9)+0.9/4.9*log₂(0.9/4.9)+2/4.9*log₂(2/4.9)＝1.69580092704。

可以发现，加入所述第二候选文章后，类别熵也变小，但变化幅度没有第一候选文章大。通过sigmoid函数得到多样性的权重值：

比较而言，

相对于历史展现文章来说，第二候选文章带来的多样性价值要大于第一候选文章带来的多样性价值。

将第三候选文章加入到历史展现文章的类别集合中，每个类别在历史展现文章集合中的出现概率：p”'_足球＝1.8/4.9，p”'_音乐＝0.9/4.9，p”'_经济＝0.9/4.9，p”'_历史＝1.0/4.9，p”'_文学＝1.0/4.9。

根据公式

计算得到类别熵Entropy”'(H)＝2.10396419235。

具体的计算过程示例如下：

Entropy”'(H)＝1.8/4.9*log₂(1.8/4.9)+0.2/4.9*log₂(0.2/4.9)+0.9/4.9*log₂(0.9/4.9)+1/4.9*log₂(1/4.9)+1/4.9*log₂(1/4.9)＝2.10396419235。

可以发现，加入所述第三候选文章后，类别熵变大，通过sigmoid函数得到多样性的权重值：

因此，第三候选文章的多样性权重最高，第三候选文章带来的多样性价值最大。

实施例二

在一种具体的实施方式中，如图3所示，提供了一种文章推荐装置，包括：

文章集合获取模块10，用于获取历史展现文章集合和待推荐的候选文章集合，历史展现文章集合中包括的各历史展现文章标记有对应的类别，候选文章集合中包括的各候选文章标记有对应的类别；

点击率计算模块20，用于根据点击历史展现文章的用户特征和历史展现文章的文章特征，预测候选文章的预估点击率；

多样性权重计算模块30，用于根据历史展现文章对应的类别以及候选文章对应的类别，计算候选文章的多样性权重；

文章排序模块40，用于根据候选文章的预估点击率以及候选文章的多样性权重，对各候选文章进行排序。

在一种实施方式中，如图4所示，多样性权重计算模块30包括：

类别熵计算单元301，用于根据历史展现文章对应的类别计算类别熵；

权重计算单元302，用于根据类别熵以及所述候选文章对应的类别，计算候选文章的多样性权重。

在一种实施方式中，所述类别熵计算单元301包括：

在一种实施方式中，如图4所示，文章排序模块40包括：

排序权重计算单元401，用于根据候选文章的预估点击率以及候选文章的多样性权重，得到候选文章的排序权重；

排序推荐单元402，用于根据候选文章的排序权重对各所述候选文章进行排序，并根据排序结果进行推荐。

实施例三

本发明实施例提供了一种文章推荐终端，如图5所示，包括：

存储器400和处理器500，存储器400内存储有可在处理器500上运行的计算机程序。处理器500执行所述计算机程序时实现上述实施例中的文章推荐方法。存储器400和处理器500的数量可以为一个或多个。

通信接口600，用于存储器400和处理器500与外部进行通信。

存储器400可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器400、处理器500以及通信接口600独立实现，则存储器400、处理器500以及通信接口600可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器400、处理器500以及通信接口600集成在一块芯片上，则存储器400、处理器500及通信接口600可以通过内部接口完成相互间的通信。

实施例四

一种计算机可读存储介质，其存储有计算机程序，所述程序被处理器执行时实现如实施例一包括的任一所述的文章推荐方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。