CN110119511B

CN110119511B - 文章热点得分的预测方法、介质、装置和计算设备

Info

Publication number: CN110119511B
Application number: CN201910415015.7A
Authority: CN
Inventors: 聂卉; 田乐逍; 魏望
Original assignee: Netease Media Technology Beijing Co Ltd
Current assignee: Netease Media Technology Beijing Co Ltd
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2023-05-02
Anticipated expiration: 2039-05-17
Also published as: CN110119511A

Abstract

本发明的实施方式提供了一种文章热点得分的预测方法、介质、装置和计算设备。该方法包括：确定待预测文章的文章特征，所述文章特征包括文章属性特征、文章点击相关特征及文章上下文特征中的至少一项；对所述文章特征进行离散化处理，得到所述待预测文章的待预测样本；将所述待预测样本输入预先训练的热点得分预测模型，得到所述待预测文章的热点得分。本发明实施例预测出的热点得分准确率较高，并且能够适用的文章类型的范围更广。

Description

文章热点得分的预测方法、介质、装置和计算设备

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

现有的新闻热点得分计算方法中，常用的有基于用户行为统计的热点得分计算方法。这种方法能充分利用在线系统用户与新闻的实时及历史交互行为进行热点得分计算。这些交互行为包括曝光点击、曝光未点击、分享、跟帖等。

基于用户行为统计的热点得分计算方法，简单易懂，但是由于文章的很多特征(例如文章源等级、文章源等)无法被量化，在计算文章热点得分时这些无法被量化的文章特征不能被使用，导致计算出的热点得分准确率不高。

发明内容

本发明期望提供一种文章热点得分的预测方法和装置，以及一种热点得分预测模型的训练方法和装置。

在本发明实施方式的第一方面中，提供了一种文章热点得分的预测方法，包括：

确定待预测文章的文章特征，所述文章特征包括文章属性特征、文章点击相关特征及文章上下文特征中的至少一项；

对所述文章特征进行离散化处理，得到所述待预测文章的待预测样本；

将所述待预测样本输入预先训练的热点得分预测模型，得到所述待预测文章的热点得分。

在本发明的一个实施例中，所述文章属性特征包括：发布源、发布源等级、对应分类、发布时间及增量特征中的至少一项；

所述文章点击相关特征包括：前N小时每小时威尔逊置信区间点击率、前N小时总点击数、曝光数、预设时段的威尔逊置信区间点击率及跟帖数中的至少一项；其中，所述N为正数；

所述文章上下文特征包括：曝光时间戳及地理位置中的至少一项。

在本发明的一个实施例中，所述待预测文章的增量特征的确定方式为：

确定所述待预测文章所对应的至少一个兴趣点；

确定各个所述兴趣点所对应的文章增加数及各个所述兴趣点所对应的文章总数；

针对各个兴趣点，计算所述兴趣点所对应的文章增加数与所述兴趣点所对应的文章总数的比值；

比较各个兴趣点的所述比值，将数值最大的比值确定为所述待预测文章的增量特征。

在本发明的一个实施例中，所述对所述文章特征进行离散化处理，包括：

采用有监督式的分箱算法对所述文章特征进行离散化处理。

在本发明的一个实施例中，所述热点得分预测模型为逻辑回归模型。

在本发明实施方式的第二方面中，提供了一种热点得分预测模型的训练方法，包括：

确定样本文章的文章特征，所述文章特征包括文章属性特征、文章点击相关特征及文章上下文特征中的至少一项；

对所述文章特征进行离散化处理，得到所述样本文章的训练样本；

采用所述样本文章的真实热点得分及所述训练样本训练所述热点得分预测模型。

在本发明的一个实施例中，所述采用所述样本文章的真实热点得分及所述文章特征训练所述热点得分预测模型，包括：

将所述训练样本输入所述热点得分预测模型；

获取所述样本文章的预测热点得分，所述预测热点得分由所述热点得分预测模型输出；

比较所述预测热点得分及所述真实热点得分，根据比较结果调整所述热点得分预测模型的参数。

在本发明的一个实施例中，所述样本文章的增量特征的确定方式为：

确定所述样本文章所对应的至少一个兴趣点；

比较各个兴趣点的所述比值，将数值最大的比值确定为所述样本文章的增量特征。

采用有监督式的分箱算法对所述文章特征进行离散化处理。

在本发明实施方式的第三方面中，提供了一种文章热点得分的预测装置，包括：

待预测特征确定模块，用于确定待预测文章的文章特征，所述文章特征包括文章属性特征、文章点击相关特征及文章上下文特征中的至少一项；

待预测样本确定模块，用于对所述文章特征进行离散化处理，得到所述待预测文章的待预测样本；

预测模块，用于将所述待预测样本输入预先训练的热点得分预测模型，得到所述待预测文章的热点得分。

在本发明的一个实施例中，所述待预测特征确定模块用于：

确定所述待预测文章所对应的至少一个兴趣点；

在本发明的一个实施例中，所述待预测样本确定模块用于：

采用有监督式的分箱算法对所述文章特征进行离散化处理。

在本发明实施方式的第四方面中，提供了一种热点得分预测模型的训练装置，包括：

训练特征确定模块，用于确定样本文章的文章特征，所述文章特征包括文章属性特征、文章点击相关特征及文章上下文特征中的至少一项；

训练样本确定模块，对所述文章特征进行离散化处理，得到所述样本文章的训练样本；

训练模块，用于采用所述样本文章的真实热点得分及所述训练样本训练所述热点得分预测模型。

在本发明的一个实施例中，所述训练模块用于：

将所述训练样本输入所述热点得分预测模型；

在本发明的一个实施例中，所述训练特征确定模块用于：

确定所述样本文章所对应的至少一个兴趣点；

在本发明的一个实施例中，所述训练样本确定模块用于：

采用有监督式的分箱算法对所述文章特征进行离散化处理。

在本发明实施方式的第五方面中，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行实现上述文章热点得分的预测方法或热点得分预测模型的训练方法的步骤。

在本发明实施方式的第六方面中，提供了一种计算设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现文章热点得分的预测方法或热点得分预测模型的训练方法的步骤。

本发明实施方式的文章热点得分的预测方法和装置，可以根据文章特征预测文章的热点得分。由于文章特征包括文章属性特征、文章点击相关特征及文章上下文特征中的至少一项，因此在预测热点得分时使用了更多的特征，使得预测出的热点得分的准确率较高。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明一实施方式的文章热点得分的预测方法实现流程图；

图2示意性地示出了根据本发明一实施方式的文章热点得分的预测方法的步骤S11中，确定待预测文章的增量特征的实现流程图；

图3示意性地示出了根据本发明一实施方式的热点得分预测模型的训练方法实现流程图；

图4示意性地示出了根据本发明一实施方式的热点得分预测模型的训练方法中，步骤S31的实现流程图；

图5示例性地示出了根据本发明一实施方式的训练过程及预测过程实现示意图；

图6示意性地示出了根据本发明一实施方式的用于文章热点得分的预测方法或热点得分预测模型的训练方法的介质示意图；

图7示意性地示出了根据本发明一实施方式的文章热点得分的预测装置结构示意图；

图8示意性地示出了根据本发明一实施方式的热点得分预测模型的训练装置结构示意图；

图9示意性地示出了根据本发明一实施方式的计算设备结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种文章热点得分的预测方法、介质、装置和计算设备，以及一种热点得分预测模型的训练方法和装置。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，现有的文章热点得分计算方法主要是基于用户行为对文章的热点得分进行计算，很多无法被量化的文章特征无法作为计算热点得分的评分依据，导致计算出的热点得分准确率不高。

有鉴于此，本发明提供一种文章热点得分的预测方法，采用预先训练的热点得分预测模型来预测文章的热点得分。在预测时将更多的文章特征作为预测依据，因此预测的准确率较高。本发明还提供上述热点得分预测模型的训练方法。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

示例性方法

本发明实施例可以应用于新闻传播平台，例如互联网门户网站、基于数据挖掘的推荐引擎等。根据文章特征为文章预测热点得分。利用该预测出的热点得分，新闻传播平台可以将得分高的文章优先推送给用户。

下面参考图1来描述根据本发明示例性实施方式的文章热点得分的预测方法。

图1示意性地示出了根据本发明一实施方式的文章热点得分的预测方法实现流程图，包括以下步骤：

S11：确定待预测文章的文章特征，所述文章特征包括文章属性特征、文章点击相关特征及文章上下文特征中的至少一项；

S12：对所述文章特征进行离散化处理，得到所述待预测文章的待预测样本；

S13：将所述待预测样本输入预先训练的热点得分预测模型，得到所述待预测文章的热点得分。

在一种可能的实施方式中，步骤S11可以从用户点击日志和/或曝光日志中抽取文章特征。

在一种可能的实施方式中，步骤S11中的文章属性特征包括：发布源、发布源等级、对应分类、发布时间及增量特征中的至少一项。其中，发布源可以指文章发布者的名称或标识信息。发布源等级可以指文章发布平台为发布源设置的等级。对应分类可以指文章内容涉及的分类，例如体育、娱乐、财经等，一般为文章发布者自己标注。这些文章属性特征，例如可以从用户点击日志和/或曝光日志中提取出。关于增量特征，下面会有详细描述。

在一种可能的实施方式中，步骤S11中的文章点击相关特征包括：前N小时每小时威尔逊置信区间点击率、前N小时总点击数、曝光数、预设时段的威尔逊置信区间点击率及跟帖数中的至少一项；其中，所述N为正数。

预设时段的威尔逊置信区间点击率是指：预先设置的时间长度内的威尔逊置信区间点击率。例如，当前时刻为t，预先设置的时间长度为5小时，则步骤S11中的文章点击相关特征可以包括[t-5,t]时段内的威尔逊置信区间点击率。假设上述N取值为5，文章点击相关特征可以包括[t-5,t-4]、[t-4,t-3]、[t-3,t-2]、[t-2,t-1]、[t-1,t]这5个时段内的威尔逊置信区间点击率。前述时段的划分越细，越能够精确反映点击率的变化情况。当然，由于针对每个时段计算一个威尔逊置信区间点击率，时段的划分越细，则计算量越大。

在一种可能的实施方式中，威尔逊置信区间点击率的确定方式可以为：

第一步：确定当前文章点击率。可以采用文章被点击次数除以文章被曝光次数，得到当前文章点击率。可见，当前文章点击率是采用当前已有的数据计算得到的。随着后续文章被点击次数及文章被曝光次数的变化，实际的文章点击率也会发生变化，并且变化的区域在上述当前文章点击率的周围。这一变化的区域可以称为文章点击率的置信区间。

第二步：根据文章被曝光次数及上述文章点击率，计算文章点击率的置信区间。即针对一个固定的置信度，实际的文章点击率会落在上述当前文章点击率的周围的程度。置信区间的实质，就是进行可信度的修正，弥补样本量过小(即文章被点击次数及文章被曝光次数过少)的影响。如果文章被点击次数及文章被曝光次数足够多，说明计算得到的文章点击率比较可信，不需要很大的修正，所以置信区间会比较窄，下限值会比较大；如果文章被点击次数及文章被曝光次数少，就说明计算得到的文章点击率不一定可信，必须进行较大的修正，所以置信区间会比较宽，下限值会比较小。

第三步：将该置信区间的下限值作为威尔逊置信区间点击率。

例如，文章被点击次数为80，文章被曝光次数为100，计算得到文章点击率＝80/100＝80％。根据文章被曝光次数及文章点击率，计算得到文章点击率的置信区间为[70％,90％]，则70％即为该文章的威尔逊置信区间点击率。

又如，文章被点击次数为800，文章被曝光次数为1000，计算得到文章点击率＝800/1000＝80％。根据文章被曝光次数及文章点击率，计算得到文章点击率的置信区间为[75％,85％]，则75％即为该文章的威尔逊置信区间点击率。

可见，上述两个例子中，虽然计算得到的文章点击率相等，但是由于文章被曝光次数不同，使两个例子中的威尔逊置信区间点击率不同。文章被曝光次数越多，其置信区间的宽度越窄，因此威尔逊置信区间点击率越大。

在一种可能的实施方式中，步骤S11中的文章上下文特征包括：曝光时间戳及地理位置中的至少一项。其中，曝光时间戳可以为文章曝光的时间点，地理位置可以指曝光该文章的用户所在的地理位置。

图2示意性地示出了根据本发明一实施方式的文章热点得分的预测方法的步骤S11中，确定待预测文章的增量特征的实现流程图，包括：

S111：确定待预测文章所对应的至少一个兴趣点；

S112：确定各个兴趣点所对应的文章增加数及各个兴趣点所对应的文章总数；

S113：针对各个兴趣点，计算所述兴趣点所对应的文章增加数与所述兴趣点所对应的文章总数的比值；

S114：比较各个兴趣点的比值，将数值最大的比值确定为待预测文章的增量特征。

例如，在计算待预测文章A的增量特征时，执行以下步骤：

第一步，确定待预测文章A对应的所有兴趣点，假定确定出待预测文章A对应m个兴趣点。

第二步，从上述m个兴趣点中去除泛化兴趣点。泛化兴趣点可以是经常在大量文章中出现的兴趣点，例如娱乐、明星等。假定去除泛化兴趣点之后，剩余n个兴趣点。

第三步，针对剩余的每一个兴趣点，计算该兴趣点所对应的文章增加数与该兴趣点所对应的文章总数的比值。这样，针对剩余的n个兴趣点，可以得到n个比值。

第四步，将上述n个比值进行比较，确定出数值最大的比值。将该数值最大的比值作为待预测文章A的增量特征。

在一种可能的实施方式中，在上述第三步的计算中，可以以小时级别计算上述比值。例如，计算兴趣点所对应的每小时文章增加数与该兴趣点所对应的文章总数的比值。

由上述关于增量特征的确定方式可见，增量特征能够反映出文章所涉及的兴趣点受关注程度的变化速度。如果一个文章的增量特征比较大，说明该文章涉及爆发性新闻(例如关注度突然增加的新闻)。因此，将增量特征作为预测热点得分的依据，能够使得涉及爆发性新闻的文章在未积累出足够点击曝光时得到较高的热点得分，从而使该类文章被及时推出。

上述文章特征中，文章属性特征涉及文章内容及文章发布者的特征，文章点击相关特征和文章上下文特征涉及文章阅读者的特征。其中，文章点击相关特征侧重于整体阅读者对文章的曝光、阅读、回应情况，文章上下文特征涉及单个阅读者对文章的曝光情况。

在一种可能的实施方式中，上述热点得分预测模型为逻辑回归模型(LR，LogisticRegression)。

一般情况下，输入逻辑回归模型的特征是离散特征，而在上述步骤S11确定的文章特征中，有些文章特征(例如文章点击相关特征)是稠密特征。因此，本发明实施例需要在上述步骤S12中将待预测文章的文章特征进行离散化处理，得到待预测文章的待预测样本；该待预测样本的数据是离散的，能够满足得分预测模型的要求。

在一种可能的实施方式中，采用有监督式的分箱算法对所述文章特征进行离散化处理。具体地，可以采用最小描述长度准则(MDLP，Minimum Deion Length Principle)算法对文章特征进行离散化处理，将稠密特征映射到对应的分箱中，得到待预测文章的待预测样本。采用MDLP算法不仅能够将文章特征离散化，还能够消除奇异值带来的影响。

奇异值是指与其他值存在很大差异的值。例如，如果存在10篇文章，每篇文章的点击数分别为：10万、50万、15万、50万、25万、50万、20万、100万、20万、10万。在这些点击数中，“100万”这一数值与其他数值的差异很大，则“100万”这一数值可以认为是一个奇异值，在该奇异值与其他数值之间存在很大的空白区间。即，大于50万并小于100万的区间内没有数值。

如果采用传统的等距数据分箱方式，上述空白区间可能会被划分为多个分箱，但这些分箱内又不存在数值，因此这种分箱方式的效果不甚理想。例如，针对上述点击数，划分为10个分箱，包括区间(0,10]、区间(10,20]、区间(20,30]、区间(30,40]、区间(40,50]、区间(50,60]、区间(60,70]、区间(70,80]、区间(80,90]、区间(90,100]。在这些分箱中，区间(50,60]、区间(60,70]、区间(70,80]及区间(80,90]中不存在数据，因此，这4个区间的划分意义不大。然而，这样的划分又导致用于表示数据的向量的维度较高。具体地，需要采用10维向量表示点击量，向量的每个元素对应一个上述区间。如果点击数的数值在某个区间内，则向量中该区间对应的元素取值为1，其余元素取值为0。

本发明实施例采用MDLP算法，可以将“100万”这一数值划分到其他最接近的数值所在的分箱中。例如，针对上述数据，划分为6个分箱，包括区间(0,10]、区间(10,20]、区间(20,30]、区间(30,40]、区间(40,50]、区间(50,+∞]。其中，“+∞”表示正无穷大。这样，只需要6维向量就可以表示点击量，并且数据的划分也较为合理。另外，上述步骤S11确定的文章特征中，有些文章特征(例如发布源、发布源等级、对应分类等)本身就是离散的，对于这些离散的特征则不需要进行离散化处理。以发布源为例，发布源可以用一个向量表示，向量长度为发布源的个数，向量中每个元素代表一个发布源。在该向量中，文章实际的发布源所对应的元素取值为1，其余元素取值为0。

上述实施例中，每一种特征都可以采用一个向量表示。将各个向量组合起来，可以得到一个新的向量，用于表示待预测文章的文章特征。

例如，待预测文章包括X个特征。其中，

特征1的维度为m，特征1可以用V1＝(V11、V12、……、V1m)表示；

特征2的维度为n，特征2可以用V2＝(V21、V22、……、V2n)表示；

……

特征X的维度为p，特征X可以用VX＝(VX1、VX2、……、VXp)表示。

将前述特征综合起来，可以得到一个新的向量，用于表示待预测文章的文章特征。该向量的维度为前述所有特征的维度之和，文章特征向量可以用V＝(V11、V12、……、V1m、V21、V22、……、V2n、……、VX1、VX2、……、VXp)表示。

在上述实施例中，采用的热点得分预测模型是通过预先训练得到的。本发明实施例还提出一种热点得分预测模型的训练方法。图3示意性地示出了根据本发明一实施方式的热点得分预测模型的训练方法实现流程图，包括：

S31：确定样本文章的文章特征，所述文章特征包括文章属性特征、文章点击相关特征及文章上下文特征中的至少一项；

S32：对所述文章特征进行离散化处理，得到所述样本文章的训练样本；

S33：采用所述样本文章的真实热点得分及所述训练样本训练所述热点得分预测模型。

图4示意性地示出了根据本发明一实施方式的热点得分预测模型的训练方法中，步骤S33的实现流程图，包括：

S331：将训练样本输入热点得分预测模型；

S332：获取样本文章的预测热点得分，所述预测热点得分由热点得分预测模型输出；

S333：比较预测热点得分及真实热点得分，根据比较结果调整热点得分预测模型的参数。

在一种可能的实施方式中，根据最小化损失函数的原则，使用FTRL(Follow TheRegularized Leader)算法计算热点得分预测模型参数的最优解。传统的批量(Batch)算法中每次迭代对全体训练数据集进行计算(例如计算全局梯度)。

FTRL算法能够有效处理超大规模的数据和在线数据流，因此适用于本发明实施例提出的热点得分的预测模型。FTRL算法计算参数最优解的思路是每次迭代时找到让之前所有目标函数(损失函数加正则项)之和最小的参数。FTRL算法融合了正规双重平均(RDA，Regularized Dual Averaging)算法能产生模型稀疏解和前向分裂(FOBOS，Forward-Backward Splitting)算法具有较高精度的特性，处理性能更好。

在一种可能的实施方式中，样本文章的文章特征与上述待预测文章的文章特征的内容相同。

在一种可能的实施方式中，样本文章的增量特征的确定方式与上述待预测文章的增量特征的确定方式相同。

在一种可能的实施方式中，对样本文章的文章特征进行离散化处理的方式与上述对待预测文章的文章特征进行离散化处理的方式相同。

在一种可能的实施方式中，本发明实施例训练的热点得分预测模型为逻辑回归模型。

图5示例性地示出了根据本发明一实施方式的训练过程及预测过程实现示意图。在图5中，左侧部分为热点得分预测模型的训练过程，右侧部分为采用该热点得分预测模型预测文章的热点得分的过程。

在图5左侧部分所示的训练过程中，从用户的行为数据(例如点击日志、曝光日志等)中确定多个样本文章的文章特征。其中，文章特征包括文章属性特征、文章点击相关特征及文章上下文特征中的至少一项。之后，将文章特征进行离散化处理，得到样本文章的训练样本。最后，采用多个样本数据训练热点得分预测模型，每个样本数据包括一个样本文章的训练样本及该样本文章的真实热点得分。在图5右侧部分所示的预测过程中，首先获取需要预测热点得分的待预测文章，抽取该待预测文章的文章特征。其中，文章特征包括文章属性特征、文章点击相关特征及文章上下文特征中的至少一项。之后，将该文章特征进行离散化处理，得到待预测文章的待预测样本。最后，将待预测样本输入图5左侧训练得到的热点得分预测模型，由热点得分预测模型预测待预测文章的热点得分。

示例性介质

在介绍了本发明示例性实施方式的方法之后，接下来，参考图6对本发明示例性实施方式的介质进行说明。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种计算机可读介质，其上存储有程序，当所述程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的文章热点得分的预测方法或热点得分预测模型的训练方法中的步骤。

具体地，上述处理器执行上述程序时用于实现如下步骤：

或者，上述处理器执行上述程序时用于实现如下步骤：

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图6所示，描述了根据本发明的实施方式的介质60，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序，并可以在设备上运行。然而，本发明不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算设备。

示例性装置

在介绍了本发明示例性实施方式的介质之后，接下来，参考图7和图8对本发明示例性实施方式的装置进行说明。

图7示意性地示出了根据本发明一实施方式的文章热点得分的预测装置结构示意图，包括：

待预测特征确定模块701，用于确定待预测文章的文章特征，所述文章特征包括文章属性特征、文章点击相关特征及文章上下文特征中的至少一项；

待预测样本确定模块702，用于对所述文章特征进行离散化处理，得到所述待预测文章的待预测样本；

预测模块703，用于将所述待预测样本输入预先训练的热点得分预测模型，得到所述待预测文章的热点得分。

在一种可能的实施方式中，所述文章属性特征包括：发布源、发布源等级、对应分类、发布时间及增量特征中的至少一项；

在一种可能的实施方式中，所述文章点击相关特征包括：前N小时每小时威尔逊置信区间点击率、前N小时总点击数、曝光数、预设时段的威尔逊置信区间点击率及跟帖数中的至少一项；其中，所述N为正数；

在一种可能的实施方式中，所述待预测特征确定模块701用于：

确定所述待预测文章所对应的至少一个兴趣点；

在一种可能的实施方式中，所述待预测样本确定模块702用于：采用有监督式的分箱算法对所述文章特征进行离散化处理。

在一种可能的实施方式中，所述热点得分预测模型为逻辑回归模型。

图8示意性地示出了根据本发明一实施方式的热点得分预测模型的训练装置结构示意图；包括：

训练特征确定模块801，用于确定样本文章的文章特征，所述文章特征包括文章属性特征、文章点击相关特征及文章上下文特征中的至少一项；

训练样本确定模块802，对所述文章特征进行离散化处理，得到所述样本文章的训练样本；

训练模块803，用于采用所述样本文章的真实热点得分及所述训练样本训练所述热点得分预测模型。

在一种可能的实施方式中，所述训练模块803用于：

将所述训练样本输入所述热点得分预测模型；

在一种可能的实施方式中，所述训练特征确定模块801用于：

确定所述样本文章所对应的至少一个兴趣点；

在一种可能的实施方式中，所述训练样本确定模块802用于：采用有监督式的分箱算法对所述文章特征进行离散化处理。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图9对本发明示例性实施方式的计算设备进行说明。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明的各种示例性实施方式的文章热点得分的预测方法或热点得分预测模型的训练方法中的步骤。

下面参照图9来描述根据本发明的这种实施方式的计算设备90。图9显示的计算设备90仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算设备90以通用计算设备的形式表现。计算设备90的组件可以包括但不限于：上述至少一个处理单元901、上述至少一个存储单元902，连接不同系统组件(包括处理单元901和存储单元902)的总线903。

总线903包括数据总线、控制总线和地址总线。

存储单元902可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)9021和/或高速缓存存储器9022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)9023。

存储单元902还可以包括具有一组(至少一个)程序模块9024的程序/实用工具9025，这样的程序模块9024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备90也可以与一个或多个外部设备904(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口905进行。并且，计算设备90还可以通过网络适配器906与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图9所示，网络适配器906通过总线903与计算设备90的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备90使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了文章热点得分的预测装置及热点得分预测模型的训练装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种文章热点得分的预测方法，其特征在于，包括：

确定待预测文章的文章特征，所述文章特征包括文章属性特征，还包括文章点击相关特征及文章上下文特征中的至少一项，所述文章属性特征包括增量特征；

将所述待预测样本输入预先训练的热点得分预测模型，得到所述待预测文章的热点得分；

其中，所述待预测文章的增量特征的确定方式为：

确定所述待预测文章所对应的至少一个兴趣点；

2.根据权利要求1所述的方法，其特征在于，

所述文章属性特征还包括：发布源、发布源等级、对应分类及发布时间中的至少一项；

3.根据权利要求1或2所述的方法，其特征在于，所述对所述文章特征进行离散化处理，包括：

采用有监督式的分箱算法对所述文章特征进行离散化处理。

4.根据权利要求1或2所述的方法，其特征在于，所述热点得分预测模型为逻辑回归模型。

5.一种热点得分预测模型的训练方法，其特征在于，包括：

确定样本文章的文章特征，所述文章特征包括文章属性特征，还包括文章点击相关特征及文章上下文特征中的至少一项，所述文章属性特征包括增量特征；

采用所述样本文章的真实热点得分及所述训练样本训练所述热点得分预测模型；

其中，所述样本文章的增量特征的确定方式为：

确定所述样本文章所对应的至少一个兴趣点；

6.根据权利要求5所述的方法，其特征在于，所述采用所述样本文章的真实热点得分及所述文章特征训练所述热点得分预测模型，包括：

将所述训练样本输入所述热点得分预测模型；

7.根据权利要求5或6所述的方法，其特征在于，

8.根据权利要求5或6所述的方法，其特征在于，所述对所述文章特征进行离散化处理，包括：

采用有监督式的分箱算法对所述文章特征进行离散化处理。

9.根据权利要求5或6所述的方法，其特征在于，所述热点得分预测模型为逻辑回归模型。

10.一种文章热点得分的预测装置，其特征在于，包括：

待预测特征确定模块，用于确定待预测文章的文章特征，所述文章特征包括文章属性特征，还包括文章点击相关特征及文章上下文特征中的至少一项，所述文章属性特征包括增量特征；

预测模块，用于将所述待预测样本输入预先训练的热点得分预测模型，得到所述待预测文章的热点得分；

其中，所述待预测特征确定模块还用于按以下方式确定所述待预测文章的增量特征：

确定所述待预测文章所对应的至少一个兴趣点；

11.根据权利要求10所述的装置，其特征在于，

12.根据权利要求10或11所述的装置，其特征在于，所述待预测样本确定模块用于：

采用有监督式的分箱算法对所述文章特征进行离散化处理。

13.根据权利要求10或11所述的装置，其特征在于，所述热点得分预测模型为逻辑回归模型。

14.一种热点得分预测模型的训练装置，其特征在于，包括：

训练特征确定模块，用于确定样本文章的文章特征，所述文章特征包括文章属性特征，还包括文章点击相关特征及文章上下文特征中的至少一项，所述文章属性特征包括增量特征；

训练模块，用于采用所述样本文章的真实热点得分及所述训练样本训练所述热点得分预测模型；

其中，所述训练特征确定模块还用于：

确定所述样本文章所对应的至少一个兴趣点；

15.根据权利要求14所述的装置，其特征在于，所述训练模块用于：

将所述训练样本输入所述热点得分预测模型；

16.根据权利要求14或15所述的装置，其特征在于，

17.根据权利要求14或15所述的装置，其特征在于，所述训练样本确定模块用于：

采用有监督式的分箱算法对所述文章特征进行离散化处理。

18.根据权利要求14或15所述的装置，其特征在于，所述热点得分预测模型为逻辑回归模型。

19.一种介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。

20.一种计算设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。