CN111723260B

CN111723260B - 推荐内容的获取方法、装置、电子设备及可读存储介质

Info

Publication number: CN111723260B
Application number: CN201910208642.3A
Authority: CN
Inventors: 王山雨; 隋冬; 张俊宇; 吴珊; 唐刚; 钱立伟; 刘晓春
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2023-08-04
Anticipated expiration: 2039-03-19
Also published as: CN111723260A

Abstract

本申请提出一种推荐内容的获取方法和装置，其中，方法包括：通过从目标页面中，提取至少一个关键词，根据历史监测到的用户行为，预测在目标页面中，对各关键词匹配的推荐内容执行用户行为的概率，根据概率，从提取到的至少一个关键词中确定目标词，获取与目标词相匹配的目标推荐内容，以在目标页面中进行展示。该方法实现了根据目标页面中的关键词确定目标词，以在目标页面中展示获取的与目标词相匹配的目标推荐内容，从而提高了页面推荐内容与目标页面的相关性，改善了用户的使用体验。

Description

推荐内容的获取方法、装置、电子设备及可读存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种推荐内容的获取方法、装置、电子设备及可读存储介质。

背景技术

随着互联网技术的快速发展，越来越多的用户在计算机设备上浏览网页以进行娱乐、学习等，由于浏览的网页主题不相同，因此，在不用网页中向用户展示的广告也不相同。

现有技术中，在网页中进行投放广告时，没有考虑到投放的广告与网页主题的相关性，只是根据网页中的关键词进行广告投放，导致投放的广告与网页主题的相关性较低，用户不会进行点击浏览，存在大量的无效投放，导致资源的浪费。

发明内容

本申请提出一种推荐内容的获取方法、装置、电子设备及可读存储介质，解决了现有技术中，在目标获取推荐内容时只是对各关键词进行排序和选择，导致推荐的内容与目标页面的相关性较低的技术问题。

本申请第一方面实施例提出了一种推荐内容的获取方法，包括：

从目标页面中，提取至少一个关键词；

根据历史监测到的用户行为，预测在所述目标页面中，对各关键词匹配的推荐内容执行用户行为的概率；

根据所述概率，从提取到的所述至少一个关键词中确定目标词；

获取与所述目标词相匹配的目标推荐内容，以在所述目标页面中进行展示。

作为本申请第一种可能的实现方式，所述根据历史监测到的用户行为，预测在所述目标页面中，对各关键词匹配的推荐内容执行用户行为的概率，包括：

将所述目标页面的主题和各关键词输入预测模型，以获取各关键词对应的概率；

其中，所述预测模型，是根据历史监测到的对各页面展示的推荐内容是否执行用户行为进行模型训练得到的，所述预测模型用于根据各页面的主题与相应页面提取到关键词之间的相关性特征，预测在相应页面下对各关键词匹配的推荐内容执行用户行为的概率。

作为本申请第二种可能的实现方式，所述预测模型采用训练样本进行训练；

所述训练样本，包括主题、标记为正的关键词和标记为负的关键词；其中，所述标记为正的关键词，用于指示在具有相应主题的页面下关键词匹配的推荐内容存在用户行为；所述标记为负的关键词，用于指示在具有相应主题的页面下关键词匹配的推荐内容不存在用户行为。

作为本申请第三种可能的实现方式，所述根据所述概率，从提取到的所述至少一个关键词中确定目标词之后，还包括：

根据所述目标词匹配的推荐内容所产生的历史收益，对所述目标词进行筛选。

作为本申请第四种可能的实现方式，所述根据所述目标词匹配的推荐内容所产生的历史收益，对所述目标词进行筛选，包括：

查询所述目标词是否处于所述目标页面对应的词表中；其中，所述词表中的关键词所匹配的推荐内容，在所述目标页面展示的各推荐内容中收益排序为前n；n为自然数；

若所述目标词处于所述目标页面对应的词表中，统计在所述目标页面内展示所产生的历史收益；

若所述目标词未处于所述目标页面对应的词表中，统计在各页面内展示所总计产生的历史收益；

根据所述历史收益，对所述目标词进行筛选。

作为本申请第五种可能的实现方式，所述根据所述历史收益，对所述目标词进行筛选，包括：

若所述目标词处于所述目标页面对应的词表中，将所述目标页面内展示所产生的历史收益与设定第一权重值相乘，得到所述目标词的预测收益；

若所述目标词未处于所述目标页面对应的词表中，将各页面内展示所总计产生的历史收益与设定第二权重值相乘，得到所述目标词的预测收益；

筛选保留所述预测收益最大的目标词。

作为本申请第六种可能的实现方式，所述根据所述概率，从提取到的所述至少一个关键词中确定目标词之后，还包括：

根据与所述目标词匹配的推荐内容的健康程度，对所述目标词进行筛选；

和/或，根据所述目标词的健康程度，对所述目标词进行筛选。

本申请实施例的推荐内容的获取方法，通过从目标页面中，提取至少一个关键词，根据历史监测到的用户行为，预测在目标页面中，对各关键词匹配的推荐内容执行用户行为的概率，根据概率，从提取到的至少一个关键词中确定目标词，获取与目标词相匹配的目标推荐内容，以在目标页面中进行展示。该方法实现了根据目标页面中的关键词确定目标词，以在目标页面中展示获取的与目标词相匹配的目标推荐内容，从而提高了页面推荐内容与目标页面的相关性，改善了用户的使用体验。

本申请第二方面实施例提出了一种推荐内容的获取装置，包括：

提取模块，用于从目标页面中，提取至少一个关键词；

预测模块，用于根据历史监测到的用户行为，预测在所述目标页面中，对各关键词匹配的推荐内容执行用户行为的概率；

确定模块，用于根据所述概率，从提取到的所述至少一个关键词中确定目标词；

获取模块，用于获取与所述目标词相匹配的目标推荐内容，以在所述目标页面中进行展示。

本申请实施例的推荐内容的获取装置，通过从目标页面中，提取至少一个关键词，根据历史监测到的用户行为，预测在目标页面中，对各关键词匹配的推荐内容执行用户行为的概率，根据概率，从提取到的至少一个关键词中确定目标词，获取与目标词相匹配的目标推荐内容，以在目标页面中进行展示。该方法实现了根据目标页面中的关键词确定目标词，以在目标页面中展示获取的与目标词相匹配的目标推荐内容，从而提高了页面推荐内容与目标页面的相关性，改善了用户的使用体验。

本申请第三方面实施例提出了一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如上述实施例中所述的推荐内容的获取方法。

本申请第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例中所述的推荐内容的获取方法。

本申请第五方面实施例提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上述实施例中所述的推荐内容的获取方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例所提供的一种推荐内容的获取方法的流程示意图；

图2为本申请实施例所提供的一种预测模型结构示意图；

图3为本申请实施例所提供的另一种推荐内容的获取方法的流程示意图；

图4为本申请实施例所提供的又一种推荐内容的获取方法的流程示意图；

图5为本申请实施例所提供的一种推荐内容的获取装置的结构示意图；

图6示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

本申请实施例中，针对现有的页面定向广告投放方法中，存在页面定向投放广告的相关性较低的问题，提出了一种推荐内容的获取方法。

本申请实施例的推荐内容的获取方法，通过从目标页面中，提取至少一个关键词，根据历史监测到的对各页面展示的推荐内容是否执行用户行为，预测在目标页面中，对各关键词匹配的推荐内容执行用户行为的概率，根据概率，从提取到的至少一个关键词中确定目标词，获取与目标词相匹配的目标推荐内容，以在目标页面中进行展示。

下面参考附图描述本申请实施例的推荐内容的获取方法和装置。

图1为本申请实施例所提供的一种推荐内容的获取方法的流程示意图。

本申请实施例的推荐内容的获取方法，可由本申请提供的推荐内容的获取装置执行，上述装置可以配置于计算机设备中，以实现根据从页面中提取的至少一个关键词以根据执行用户行为的概率确定目标词，从而获取与目标词匹配的内容以在目标页面中展示。其中，计算机设备可以为智能手机、平板电脑、个人电脑(Personal Computer，简称PC)等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该推荐内容的获取方法包括以下步骤：

步骤101，从目标页面中，提取至少一个关键词。

其中，目标页面，是指待获取推荐内容的页面。

本申请实施例中，由于用户在观看广告时，对于与实际场景关联性比较强的广告接受度比较高，因此，在页面进行广告等内容推荐时，可以提取待推荐内容的目标页面中的关键词，以根据关键词确定目标词，从而获取与目标词相匹配的推荐内容，以提高推荐内容与目标页面的相关性。由于目标页面中关键词可能不止一个，所以从目标页面中提取的关键词可能为一个，也可能为多个，提取的关键词的数目根据具体情况而定，在此不做限定。

在本申请的一个实施例中，关键词可以为页面中出现次数较多的词，此时可以采用词频-逆文档频率(Term Frequency-Inverse Document Frequency，TF-IDF)算法从目标页面中提取关键词。

其中，TF-IDF是一种统计方法，用于信息检索与数据挖掘的常用加权技术。TF-IDF技术用以评估一个词对于一个网页或一个语料库中的重要程度。词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。其中，语料库，是指经科学取样和加工的大规模电子文本库，其中存放的是在语言的实际使用中真实出现过的语言材料，并且语料库是承载语言知识的基础资源。

需要说明的是，当页面中出现次数最多的词是“的”、“是”、“在”等这些最常用的词时，这类词被称为“停止词”(stop word)，对内容推荐毫无帮助，所以必须过滤掉这些词。

那么，在将页面中的停止词过滤掉后，对页面中过滤掉停止词后的词作一个统计，得到N个词，分别计算这N个词在页面中出现的次数与页面中总词数的比值，得到每个词的词频：TF1,TF2,…,TFN。例如，页面的总词语数为1000个，而词语“雪天”出现了20次，那么“雪天”一词的词频为20/1000＝0.02。

在分别计算得到各个词的词频后，可能会存在两个词的词频相同的情况，但是这两个词的信息量是不一样的，因此，需要进一步的计算这N个词在语料库中出现的频率，即逆文档频率。

进一步的，得到这N个词的“词频”和“逆文档频率”以后，分别将“词频”和“逆文档频率”相乘，就得到了N个词的TF-IDF值。对这N个词的TF-IDF值进行排序，某个词对页面的重要性越高，它的TF-IDF值就越大。所以，排在最前面的几个词，就是页面的关键词。

需要说明的是，上述通过计算页面中各词的TF-IDF值提取关键词的方法只是作为一种可能实现的方式，还可以通过网页抓取工具对页面中的关键词进行提取，当然还可以通过其余的方法从页面中提取关键词，本实施例中对从页面中提取关键词的方法不做限定。

步骤102，根据历史监测到的用户行为，预测在目标页面中，对各关键词匹配的推荐内容执行用户行为的概率。

其中，用户行为，可以为用户对推荐内容进行点击查看、关闭、下载、收藏等操作，通过是否存在用户行为判断推荐内容，即广告，展示是否有效。

本申请实施例中，根据历史监测到的各页面展示的推荐内容的行为日志，判断是否对各页面展示的推荐内容执行过用户行为，以在目标页面中，预测对各关键词匹配的推荐内容执行用户行为的概率。

在本申请的一个实施例中，可以通过深度神经网络技术(Deep Neural Networks，简称DNN)对训练样本进行训练得到预测模型，其中，预测模型是根据历史监测到的对各页面展示的推荐内容是否执行用户行为进行模型训练得到，用于根据各页面的主题与相应页面提取到关键词之间的相关性特征，预测在相应页面下对各关键词匹配的推荐内容执行用户行为的概率。其中，页面的主题，可以通过网络爬虫技术对页面进行抓取，从而对页面标题和文章标题等核心文本进行解析后得到的。

此处，将各页面的主题与相应页面提取到的关键词之间的相关性作为预测模型的特征用于预测概率，进而学习到相关性特征和概率之间的对应关系，是因为对于页面主题感兴趣的用户，对与页面提取到的关键词匹配的推荐内容也可能感兴趣，有可能存在点击、浏览等用户行为，因此将各页面的主题与相应页面提取到的关键词之间的相关性作为预测模型的特征，以预测推荐内容是否执行用户行为。其中，各页面的主题与相应页面提取到的关键词之间的相关性是通过余弦函数计算得到的。

上述训练样本，包括主题、标记为正的关键词和标记为负的关键词。其中，标记为正的关键词，用于指示在具有相应主题的页面下关键词匹配的推荐内容存在用户行为；标记为负的关键词，用于指示在具有相应主题的页面下关键词匹配的推荐内容不存在用户行为。

可以理解为，确定页面的主题后，在具有相应主题的页面下关键词匹配的推荐内容存在用户行为时，将该关键词标记为正的关键词，同样地，在具有相应主题的页面下关键词匹配的推荐内容不存在用户行为时，将该关键词标记为负的关键词，从而得到一组训练样本。

此处，训练样本的生成过程，是以页面地址(Uniform/Universal ResourceLocator，简称URL)为中心，聚合当前页面的关键词，作为一个处理簇。具体地，在一个处理簇中，确定页面的主题后，将相应主题页面下标记为正的关键词和标记为负的关键词随机组合，得到三元组，即页面的主题、标记为正的关键词以及标记为负的关键词，进而将生成的三元组，作为训练样本。

作为一种示例，DNN模型的结构参见图2，通过在图2中的预测模型结构中训练样本，具体地，在输入层中输入训练样本，即输入页面的主题、标记为正的关键词以及标记为负的关键词，进一步的，由于DNN模型只能接受数值输入，不可能把一个单词字符串作为输入，因此我们得想个办法来表示这些单词，最常用的办法就是基于训练文档来构建我们自己的词汇表再对单词进行向量编码，即通过模型结构的嵌入层对输入的训练样本转换成向量的形式来表示，全连接层就是个矩阵乘法，相当于一个特征空间变换，可以把有用的信息提取整合，再加上激活函数的非线性映射，多层全连接层理论上可以模拟任何非线性变换，全连接层起到组合特征和分类器的功能。其中，全连接层可能为一层，也可能为多层，图2中所示的只是一种可能的实现方式。

进一步的，通过全连接层后，得到各页面的主题与相应页面提取到的关键词之间的相关性分数，最终对相关性分数进行排序，得到预测概率。其中，对相关性分数进行排序时采用损失函数作为训练目标，其中，损失函数是用来估量模型的预测概率与真实概率的不一致程度，它是一个非负实值函数，损失函数越小，模型的鲁棒性就越好。

需要说明的是，采用深度神经网络对训练样本进行训练得到预测模型的方法，可以参考现有技术，在此不再赘述。

本申请实施例中，通过对训练样本进行训练得到预测模型后，将获取到的目标页面的主题和从目标页面中提取的各关键词输入预测模型，可以获取到对各关键词匹配的推荐内容执行用户行为概率。

举例来说，假如有一目标页面，对目标页面的主题以及关键词进行提取，得到如下表1中第一列和第二列所示的页面主题和关键词，将目标页面的主题和各关键词输入预测模型中，可以获取到对各关键词匹配的推荐内容执行用户行为概率，如表1中的第三列。

表1

步骤103，根据关键词对应的概率，从提取到的至少一个关键词中确定目标词。

其中，目标词，是指匹配的推荐内容具有较高概率执行用户行为。

本申请实施例中，在上述步骤102中，预测到目标页面中对各关键词匹配的推荐内容执行用户行为的概率后，对各关键词对应的概率进行从大到小排序，将对应的概率排在前若干位的关键词确定为目标词。

例如，从目标页面中提取到三个关键词，分别为关键词A、关键词B、关键词C，预测到各关键词匹配的推荐内容执行用户行为的概率分别为0.6、0.8、0.5，则根据对应的概率，对关键词进行排序为关键词B、关键词A、关键词C，按照概率排序，将排在首位的关键词B确定为目标词。

或者，设定阈值，将该设定阈值与关键词对应的概率进行比较。若匹配的推荐内容执行用户行为的概率高于该设定阈值，将相应关键词确定为目标词。

举例来说，从目标页面中只提取到关键词时，将该目标页面的主题和关键词输入预测模型，以得到与关键词匹配的推荐内容执行用户行为的概率。进一步的，判断关键词匹配的推荐内容执行用户行为的概率是否大于0.5。当与关键词匹配的推荐内容执行用户行为的概率是大于或等于0.5时，将该关键词确定为目标词。

步骤104，获取与目标词相匹配的目标推荐内容，以在目标页面中进行展示。

本申请实施例中，根据对各关键词匹配的推荐内容执行用户行为概率确定目标词后，进一步的，获取与该目标词匹配的目标推荐内容，并将该目标推荐内容在目标页面中进行展示。

在图1所述实施例的基础上，为了进一步的提升内容推荐与页面的相关性，以及提高推荐内容带来的收益，在本申请的一个实施例中，在确定目标词后，还可以根据目标词匹配的推荐内容所产生的历史收益，对根据关键词的概率确定的目标词进行筛选。下面结合图3进行详细说明，图3为本申请实施例提供的另一种推荐内容的获取方法的流程示意图。

如图3所示，在前一实施例的步骤103之后还包括：

步骤201，判断目标词是否处于目标页面对应的词表中。

其中，词表是包含目标页面中的各关键词的词典，词表中的关键词所匹配的推荐内容，在目标页面展示的各推荐内容中收益排序为前n；n为自然数。因此，需要查询确定的目标词是否处于目标页面对应的词表中，以确定目标词所匹配的推荐内容在展示时所带来的收益。

本申请实施例中，根据关键词的概率，从提取到的至少一个关键词中确定目标词后，查询目标词是否处于目标页面对应的词表中。若查询目标词处于目标页面对应的词表中，则执行步骤203；若目标词未处于目标页面对应的词表中，则执行步骤204。

本申请实施例中，对目标页面展示的各推荐内容中的收益进行排序，将排序为前n的各推荐内容对应的各关键词以及对应的收益存入到词表中，从而可以在词表中查询是否存在目标词。

作为一种示例，可以将目标页面展示的各推荐内容中的收益排序为前5的各推荐内容对应的各关键词以及对应的收益存入到词表中，以在词表中查询是否存在目标词，以及目标词匹配的推荐内容带来的历史收益。

此处，各关键词匹配的推荐内容在目标页面展示带来的收益，可以通过千人印象成本(Cost Per Thousand Impressions，CPM)的模式统计，即在页面日志中查看其被用户的访问次数，以页面被1000次访问为收益基准统计总收益，可以理解为，总收益＝访问次数*访问1000次的收益基准/1000。其中，页面被访问1000次的收益基准是预先设定的，不同的页面收益基准不同，在此不做具体限制。

例如，某一关键词匹配的推荐内容在页面展示时，被1000人访问时的收益为10元，依次类推，有一万人访问该页面时的收益就是100元。

步骤203，目标词处于目标页面对应的词表中时，统计在目标页面内展示所产生的历史收益。

其中，历史收益，是指历史上与目标词相匹配的推荐内容在目标页面内展示时，对该推荐内容执行了用户行为后所产生的收益。

具体地，通过查询确定目标词处于目标页面对应的词表中时，统计与目标词匹配的推荐内容在目标页面内展示所产生的历史收益。

同样的，也可以采用CPM的统计模式，统计目标词匹配的推荐内容在目标页面展示时所产生的历史收益，即通过在该页面日志中查看其被用户的访问次数，以页面被1000次访问为收益基准统计总的历史收益。

步骤204，目标词未处于目标页面对应的词表中时，统计在各页面内展示所总计产生的历史收益。

具体地，通过查询确定目标词未处于目标页面对应的词表中时，统计与目标词相匹配的推荐内容在各页面内展示所总计产生的历史收益。

同样的，也可以采用CPM的统计模式，统计目标词匹配的推荐内容在各页面展示时所总计产生的历史收益，通过查询目标词展示的所有页面的页面日志，统计该推荐内容被访问的总次数，再以页面被1000次访问为收益基准计算与目标词匹配的推荐内容在各页面展示所总计产生的历史收益。

需要说明的是，上述步骤203和步骤204不是顺序执行的过程，是根据步骤202中通过查询目标词是否处于目标页面对应的词表中，确定是执行步骤203，或者执行步骤204。

步骤205，根据历史收益，对目标词进行筛选。

作为本申请的一种可能的实现方式，可以仅对处于词表中的目标词进行筛选，具体地，根据与目标词相匹配的推荐内容在目标页面内展示所产生的历史收益，根据历史收益对目标词进行筛选，筛选出历史收益最高的目标词，进一步的，获取与历史收益最高的目标词相匹配的目标推荐内容，以在目标页面中进行展示，从而使得在目标页面中展示的推荐内容能够带来最大的收益。

作为本申请的另一种可能的实现方式，对处于词表中的目标词和未处于词表中的目标词均进行筛选，具体地，根据目标词处于词表中时，与其匹配的推荐内容在目标页面内展示所产生的历史收益，以及目标词未处于词表时，与其匹配的推荐内容在各页面展示所总计产生的历史收益，根据历史收益对目标词进行筛选，筛选出历史收益最高的目标词，获取与历史收益最高的目标词相匹配的目标推荐内容，以在目标页面中进行展示。

需要说明的是，此处根据历史收益对目标词进行筛选时，将处于词表内的目标词在目标页面展示时产生的历史收益和未处于词表中的目标词在各页面展示时产生的历史收益一起进行排序，从而使得从未在目标页面中获得收益的目标词，若在其他页面中具有较高收益也有机会在该目标页面中展示，避免了在目标页面中展示目标词匹配的推荐内容时，展示的内容过于单一无法满足用户的需求。

作为又一种可能的实现方式，上述实施例中的步骤205所述的根据历史收益对目标词进行筛选，具体地，可以首先获得各目标词的预测收益，再根据各目标词的预测收益进行筛选，保留预测收益最大的目标词。下面结合图4进行详细说明，图4为本申请实施例提供的又一种推荐内容的获取方法的流程示意图。

如图4所示，步骤205还包括以下子步骤：

子步骤301，若目标词处于目标页面对应的词表中，将目标页面内展示所产生的历史收益与设定第一权重值相乘，得到目标词的预测收益。

其中，预测收益，是指与目标词相匹配的推荐内容在目标页面展示时所产生的收益的预测值。

本申请实施例中，通过查询目标页面对应的词表，确定目标词处于目标页面对应的词表中时，则将与目标词匹配的推荐内容在目标页面内展示所产生的历史收益与设定的第一权重值相乘，从而可以得到目标词的预测收益。

作为一种可能的实现方式，可通过如下公式(1)计算得到目标词的预测收益。

score1＝w1*cpm1 (1)

其中，公式(1)中score1表示处于目标页面对应的词表中的目标词的预测收益；w1为设定的第一权重值；cpml为与目标词匹配的推荐内容在目标页面内展示所产生的历史收益。此处的历史收益可以通过上述所述的CPM的统计模式计算，也可以通过公式：cpm1＝log(qcpm1)/log(10)/10计算得到；其中，qcpm1为目标词在目标页面内的千次检索收入，qcpm1＝千次访问收费基准*推荐内容的访问量/1000。

子步骤302，若目标词未处于目标页面对应的词表中，将各页面内展示所总计产生的历史收益与设定第二权重值相乘，得到目标词的预测收益。

本申请实施例中，通过查询目标页面对应的词表，确定目标词未处于目标页面对应的词表中时，则将与目标词匹配的推荐内容在各页面内展示所总计产生的历史收益与设定的第二权重值相乘，从而可以得到目标词的预测收益。

作为一种可能的实现方式，可以可通过如下公式(2)计算得到目标词的预测收益。

score2＝w2*epvp (2)

其中，公式(2)中的score2表示未处于目标页面对应的词表中的目标词的预测收益；w2为设定的第二权重值；epvp与目标词匹配的推荐内容在各页面内展示所总计产生的历史收益。

需要说明的是，第一权重值和第二权重值，是根据各目标词匹配的推荐内容在各页面内展示所产生的历史收益预先设定的，第一权重值和第二权重值可以取相同的值，也可以取不同的值，根据具体的历史收益而定。

需要说明的是，也可以先执行步骤302，再执行步骤301，步骤301和步骤302的执行顺序不受限制。

子步骤303，筛选保留预测收益最大的目标词。

具体地，得到各目标词的预测收益后，根据预测收益对目标词进行筛选，保留预测收益最大的目标词，从而使得与该目标词匹配的推荐内容在目标页面展示时，能够带来最大的收益。

本申请实施例中，在统计得到目标词的历史收益后，若目标词处于目标页面对应的词表中，将目标页面内展示所产生的历史收益与设定第一权重值相乘，得到目标词的预测收益，若目标词未处于目标页面对应的词表中，将各页面内展示所总计产生的历史收益与设定第二权重值相乘，得到目标词的预测收益，进而筛选保留预测收益最大的目标词，从而使得与该目标词匹配的推荐内容在目标页面展示时，能够带来最大的收益。

在本申请的一个实施例中，在前述实施例的步骤103之后，还包括：根据与目标词匹配的推荐内容的健康程度，对目标词进行筛选；和/或，根据目标词的健康程度，对目标词进行筛选。

由于从关键词中确定的目标词可能是不健康的词，从而导致在目标页面展示的推荐内容存在不健康的情况，因此，为了避免这种现象，在本申请的一个实施例中，需要根据目标词的健康程度对目标词进行筛选。

可以理解为，可以预先制定低俗词表，用于标记不健康的词，进一步的，查询目标词中各个词是否处于低俗词表中，统计目标词中低俗词的占比，若目标词中存在的低俗词的占比大于设定的第一阈值，则筛选掉该目标词，若目标词中存在的低俗词的占比小于设定的第一阈值，则保留该目标词。

作为另一种可能的情况，若目标词是健康的词，但是与目标词匹配的推荐内容中存在低俗词，此时，需要判断推荐内容的健康程度，以对目标词进行筛选。

可以理解为，查询与目标词匹配的推荐内容中各词是否处于低俗词表中，以统计与目标词匹配的推荐内容中低俗词的占比，若推荐内容中存在的低俗词的占比大于设定的第二阈值，说明与目标词匹配的推荐内容的健康程度较低，则筛选掉该目标词，若推荐内容中存在的低俗词的占比小于设定的第二阈值，说明与目标词匹配的推荐内容的健康程度较高，则保留该目标词。

作为另一种可能的情况，根据与目标词匹配的推荐内容的健康程度，对目标词进行筛选时，若推荐内容中存在的低俗词的占比小于设定的第二阈值，说明与目标词匹配的推荐内容的健康程度较高，此时保留该目标词，但是目标词的健康程度可能不能满足要求，因此，需要统计目标词中低俗词的占比，以确定目标词的健康程度，实现对目标词进行筛选。

由此，通过根据与目标词匹配的推荐内容的健康程度，和/或，目标词的健康程度，对目标词进行筛选，从而保留健康程度较高的目标词，避免了在目标页面中展示与目标词匹配的推荐内容时存在不健康的内容，改善了用户体验。

本申请实施例中，在根据关键词的概率，从提取到的至少一个关键词中确定目标词，并查询目标词是否处于目标页面对应的词表中，若目标词处于目标页面对应的词表中，统计在目标页面内展示所产生的历史收益，若目标词未处于目标页面对应的词表中时，统计在各页面内展示所总计产生的历史收益，根据历史收益，对目标词进行筛选。该方法根据与目标词相匹配的推荐内容所产生的历史收益对目标词进行筛选，从而使得在目标页面展示的推荐内容能带来较大的收益。

为了实现上述实施例，本申请还提出一种推荐内容的获取装置。

图5为本申请实施例提供的一种推荐内容的获取装置的结构示意图。

如图5所示，该推荐内容的获取装置100包括：提取模块110、预测模块120、确定模块130以及获取模块140。

提取模块110，用于从目标页面中，提取至少一个关键词。

预测模块120，用于根据历史监测到的用户行为，预测在目标页面中，对各关键词匹配的推荐内容执行用户行为的概率。

确定模块130，用于根据概率，从提取到的至少一个关键词中确定目标词。

获取模块140，用于获取与目标词相匹配的目标推荐内容，以在目标页面中进行展示。

作为一种可能的实现方式，预测模块120，具体用于：将目标页面的主题和各关键词输入预测模型，以获取各关键词对应的概率；其中，预测模型，是根据历史监测到的对各页面展示的推荐内容是否执行用户行为进行模型训练得到的，预测模型用于根据各页面的主题与相应页面提取到关键词之间的相关性特征，预测在相应页面下对各关键词匹配的推荐内容执行用户行为的概率。

作为另一种可能的实现方式，预测模型采用训练样本进行训练；其中，训练样本，包括主题、标记为正的关键词和标记为负的关键词；其中，标记为正的关键词，用于指示在具有相应主题的页面下关键词匹配的推荐内容存在用户行为；标记为负的关键词，用于指示在具有相应主题的页面下关键词匹配的推荐内容不存在用户行为。

作为另一种可能的实现方式，推荐内容的获取装置100，还包括：

第一筛选模块，用于根据目标词匹配的推荐内容所产生的历史收益，对目标词进行筛选。

作为另一种可能的实现方式，第一筛选模块，还包括：

查询单元，用于查询目标词是否处于目标页面对应的词表中；其中，词表中的关键词所匹配的推荐内容，在目标页面展示的各推荐内容中收益排序为前n；n为自然数。

第一统计单元，用于若目标词处于目标页面对应的词表中，统计在目标页面内展示所产生的历史收益。

第二统计单元，用于若目标词未处于目标页面对应的词表中，统计在各页面内展示所总计产生的历史收益。

筛选单元，用于根据历史收益，对目标词进行筛选。

作为另一种可能的实现方式，筛选单元，具体用于：若目标词处于目标页面对应的词表中，将目标页面内展示所产生的历史收益与设定第一权重值相乘，得到目标词的预测收益；

若目标词未处于目标页面对应的词表中，将各页面内展示所总计产生的历史收益与设定第二权重值相乘，得到目标词的预测收益；

筛选保留预测收益最大的目标词。

第二筛选模块，用于根据与目标词匹配的推荐内容的健康程度，对目标词进行筛选；和/或，根据目标词的健康程度，对目标词进行筛选。

需要说明的是，前述对推荐内容的获取方法实施例的解释说明也适用于该实施例的推荐内容的获取装置，此处不再赘述。

为了实现上述实施例，本申请还提出一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如上述实施例中所述的推荐内容的获取方法。

为了实现上述实施例，本申请还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例中所述的推荐内容的获取方法。

为了实现上述实施例，本申请还提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述实施例中所述的推荐内容的获取方法。

图6示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图6显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的推荐内容的获取方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种推荐内容的获取方法，其特征在于，所述方法包括以下步骤：

从目标页面中，提取至少一个关键词；

根据所述概率，从提取到的所述至少一个关键词中确定目标词，所述目标词是指匹配的推荐内容具有较高概率执行用户行为；

获取与所述目标词相匹配的目标推荐内容，以在所述目标页面中进行展示；

所述根据历史监测到的用户行为，预测在所述目标页面中，对各关键词匹配的推荐内容执行用户行为的概率，包括：

2.根据权利要求1所述的获取方法，其特征在于，所述预测模型采用训练样本进行训练；

3.根据权利要求1-2任一项所述的获取方法，其特征在于，所述根据所述概率，从提取到的所述至少一个关键词中确定目标词之后，还包括：

4.根据权利要求3所述的获取方法，其特征在于，所述根据所述目标词匹配的推荐内容所产生的历史收益，对所述目标词进行筛选，包括：

根据所述历史收益，对所述目标词进行筛选。

5.根据权利要求4所述的获取方法，其特征在于，所述根据所述历史收益，对所述目标词进行筛选，包括：

筛选保留所述预测收益最大的目标词。

6.根据权利要求1-2任一项所述的获取方法，其特征在于，所述根据所述概率，从提取到的所述至少一个关键词中确定目标词之后，还包括：

7.一种推荐内容的获取装置，其特征在于，所述装置包括：

提取模块，用于从目标页面中，提取至少一个关键词；

确定模块，用于根据所述概率，从提取到的所述至少一个关键词中确定目标词，所述目标词是指匹配的推荐内容具有较高概率执行用户行为；

获取模块，用于获取与所述目标词相匹配的目标推荐内容，以在所述目标页面中进行展示；

所述预测模块，具体用于：

8.根据权利要求7所述的获取装置，其特征在于，所述预测模型采用训练样本进行训练；所述训练样本，包括主题、标记为正的关键词和标记为负的关键词；其中，所述标记为正的关键词，用于指示在具有相应主题的页面下关键词匹配的推荐内容存在用户行为；所述标记为负的关键词，用于指示在具有相应主题的页面下关键词匹配的推荐内容不存在用户行为。

9.根据权利要求7-8任一项所述的获取装置，其特征在于，还包括：

第一筛选模块，用于根据所述目标词匹配的推荐内容所产生的历史收益，对所述目标词进行筛选。

10.根据权利要求9所述的获取装置，其特征在于，所述第一筛选模块，包括：

查询单元，用于查询所述目标词是否处于所述目标页面对应的词表中；其中，所述词表中的关键词所匹配的推荐内容，在所述目标页面展示的各推荐内容中收益排序为前n；n为自然数；

第一统计单元，用于若所述目标词处于所述目标页面对应的词表中，统计在所述目标页面内展示所产生的历史收益；

第二统计单元，用于若所述目标词未处于所述目标页面对应的词表中，统计在各页面内展示所总计产生的历史收益；

筛选单元，用于根据所述历史收益，对所述目标词进行筛选。

11.根据权利要求10所述的获取装置，其特征在于，所述筛选单元，具体用于：

筛选保留所述预测收益最大的目标词。

12.根据权利要求7-8任一项所述的获取装置，其特征在于，还包括：

第二筛选模块，用于根据与所述目标词匹配的推荐内容的健康程度，对所述目标词进行筛选；

13.一种计算机设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-6中任一所述的推荐内容的获取方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的推荐内容的获取方法。