CN105488599B

CN105488599B - 预测文章热度的方法和装置

Info

Publication number: CN105488599B
Application number: CN201511018545.6A
Authority: CN
Inventors: 李鹏
Original assignee: Hangzhou Dt Dream Technology Co Ltd
Current assignee: Hangzhou Dt Dream Technology Co Ltd
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2020-03-06
Anticipated expiration: 2035-12-29
Also published as: CN105488599A

Abstract

本发明提出一种预测文章热度的方法和装置，该预测文章热度的方法包括：根据待预测文章包含的预设参数，确定待预测文章所属的类别；根据预先建立的类别与关键字的对应关系，确定与所述类别对应的关键字，并在所述对应的关键字中获取与所述待预测文章匹配的关键字；根据预先建立的关键字与预测模型之间的对应关系，确定与所述匹配的关键字对应的预测模型；采用所述对应的预测模型，对所述待预测文章进行热度预测。该方法能够提高预测文章热度的准确度。

Description

预测文章热度的方法和装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种预测文章热度的方法和装置。

背景技术

互联网时代需要对网络舆情进行分析，以防止舆论被不法分子利用。文章热度是衡量一篇网络文章、博客等各种网络文字在一段时间内的阅读、评论以及转发等情况，描述了网络文字的影响力，是舆情分析的重要一环。

一般来说，常规的文章热度预测是通过搜集一段时间内的历史数据，根据历史数据进行大数据分析，使用回归算法对文章的热度进行模型拟合，将得到的模型用于新文章的热度预测。通过对比预测值和实际值之间的差异，就能快速发现异常情况，起到监管作用。

但是，通常的根据回归算法预测文章热度的方式会存在预测不够准确的问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种预测文章热度的方法，该方法可以提高预测文章热度的准确度。

本发明的另一个目的在于提出一种预测文章热度的装置。

为达到上述目的，本发明第一方面实施例提出的预测文章热度的方法，包括：根据待预测文章包含的预设参数，确定待预测文章所属的类别；根据预先建立的类别与关键字的对应关系，确定与所述类别对应的关键字，并在所述对应的关键字中获取与所述待预测文章匹配的关键字；根据预先建立的关键字与预测模型之间的对应关系，确定与所述匹配的关键字对应的预测模型；采用所述对应的预测模型，对所述待预测文章进行热度预测。

本发明第一方面实施例提出的预测文章热度的方法，通过确定待预测文章所属的类别，以及，确定所属类别对应的关键字中匹配的关键字，采用匹配的关键字对应的预测模型进行热度预测，可以实现采用相似文章得到的预测模型进行预测，从而提高预测准确度。

为达到上述目的，本发明第二方面实施例提出的预测文章热度的装置，包括：归类模块，用于根据待预测文章包含的预设参数，确定待预测文章所属的类别；

匹配模块，用于根据预先建立的类别与关键字的对应关系，确定与所述类别对应的关键字，并在所述对应的关键字中获取与所述待预测文章匹配的关键字；确定模块，用于根据预先建立的关键字与预测模型之间的对应关系，确定与所述匹配的关键字对应的预测模型；预测模块，用于采用所述对应的预测模型，对所述待预测文章进行热度预测。

本发明第二方面实施例提出的预测文章热度的装置，通过确定待预测文章所属的类别，以及，确定所属类别对应的关键字中匹配的关键字，采用匹配的关键字对应的预测模型进行热度预测，可以实现采用相似文章得到的预测模型进行预测，从而提高预测准确度。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的预测文章热度的方法的流程示意图；

图2是本发明另一实施例提出的预测文章热度的方法的流程示意图；

图3是本发明实施例中提取每个类别对应的关键字的流程示意图；

图4是本发明实施例中获取预选关键字对应的拟合差值的流程示意图；

图5是本发明实施例中获取每个关键字对应的预测模型的流程示意图；

图6是本发明另一实施例提出的预测文章热度的装置的结构示意图；

图7是本发明另一实施例提出的预测文章热度的装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的预测文章热度的方法的流程示意图，该方法包括：

S11：根据待预测文章包含的预设参数，确定待预测文章所属的类别。

其中，预设参数例如为作者，则可以根据作者对待预测文章进行分类，将不同作者的待预测文章分到不同的类别中。

文章例如为博客、微博等网络文章。

S12：根据预先建立的类别与关键字的对应关系，确定与所述类别对应的关键字，并在所述对应的关键字中获取与所述待预测文章匹配的关键字。

例如，待预测文章的作者是A，假设预先建立的类别与关键字的对应关系包括：A对应第一关键字、第二关键字的、第三关键字等，则与待预测文章所属的类别对应关键字是第一关键字、第二关键字和第三关键字等。

其中，类别与关键字的对应关系可以在训练阶段建立，训练阶段的流程可以参见后续描述。

在确定出对应的关键字后，可以从中获取与待预测文章匹配的关键字。

可选的，关键字的优先级可以不同，则与待预测文章匹配的关键字可以是类别对应的关键字中，待预测文章中包含的且优先级最高的关键字。每个关键字的优先级可以根据出现频率或拟合差值确定，例如，出现频率高的关键字的优先级高等。

例如，可以对每个关键字按照优先级从高到低进行排序，如第一关键字、第二关键字和第三关键字是按照优先级从高到低排序，则在确定匹配的关键字时，可以从前到后依次判断待预测文章中是否包含该关键字，将最先包含的关键字确定为匹配的关键字。例如，如果待预测文章中包含第一关键字，则匹配的关键字是第一关键字，如果待预测文章中不包含第一关键字，但包含第二关键字，则匹配的关键字是第二关键字。

S13：根据预先建立的关键字与预测模型之间的对应关系，确定与所述匹配的关键字对应的预测模型。

例如，匹配的关键字是第一关键字，假设预先建立的对应关系中，与第一关键字对应的预测模型是第一预测模型，则确定出的对应的预测模型是第一预测模型。

关键字与预测模型之间的对应关系可以在训练阶段建立，训练阶段的流程可以参见后续描述。

S14：采用所述对应的预测模型，对所述待预测文章进行热度预测。

例如，采用第一预测模型对待预测文章进行热度预测，得到预测值。

通常的文章预测方案中，是采用原始训练集，原始训练集中会包含多种类别和关键字的文章，比较离散。但是通过分析，相似文章的热度分布相对收敛，而全量文章中，呈现出更高的离散度，导致回归算法的预测准确度相对更差。

本实施例中，通过确定待预测文章所属的类别，以及，确定所属类别对应的关键字中匹配的关键字，采用匹配的关键字对应的预测模型进行热度预测，可以实现采用相似文章得到的预测模型进行预测，从而提高预测准确度。

图2是本发明另一实施例提出的预测文章热度的方法的流程示意图，该方法在上一实施例预测阶段的流程基础上，增加了训练过程的流程。其中，训练过程可以是离线预先完成的。参见图2，该方法可以包括：

S21：对原始训练集，根据预设参数进行分类，得到多个类别的训练集。

原始训练集也可以称为全量训练集，可以包括多个类别的作为训练样本的文章。

预设参数例如是作者，则可以将原始训练集分为不同作者的训练集。

S22：在每个类别的训练集中，提取关键字，并获取与每个关键字对应的预测模型。

例如，对应作者A，则可以从作者A对应的训练集中，提取出对应的关键字，以及确定每个关键字对应的预测模型。

S23：根据每个类别中提取出的关键字，建立类别与关键字的对应关系，以及，根据获取的每个关键字对应的预测模型，建立关键字与预测模型之间的对应关系。

例如，对应作者A，提取的关键字包括：第一关键字、第二关键字和第三关键字，则可以建立作者A与第一关键字、第二关键字和第三关键字之间的对应关系。

又例如，对应第一关键字确定的预测模型是第一预测模型，则可以建立第一关键字与第一预测模型之间的对应关系，类似的，还可以建立第二关键字与第二预测模型之间的对应关系等。

之后，该方法还可以包括：预测阶段执行的上述的S11-S14。

S21-S23可以在训练阶段预先完成，从而在预测阶段，可以根据上述建立的对应关系，确定关键字以及确定对应的预测模型，以便根据预测模型进行文章热度的预测。

一些实施例中，参见图3，在训练阶段，在确定出每个类别的训练集后，提取每个类别对应的关键字的流程可以包括：

S31：在组成训练集的训练样本包含的内容中，选取预选关键字，所述预选关键字包括如下项中的至少一项：主题名称、人名、采用TF-IDF算法确定的分词。

由于是针对每个类别的训练集进行处理，因此，本实施例进行提取关键字的流程以及后续确定关键字对应的预测模型的流程中，训练集都是具体指当前处理的一个类别的训练集。

训练集由训练样本组成，本实施例由于是对文章的热度进行预测，因此，训练样本是历史已存在的文章。

对应每个训练样本，可以从该训练样本的文章内容中选取预选关键字。

预选关键字的一种是主题名称和/或人名，例如，文章内容中的主题名称通常包含在两个“#”符号之间，则可以将文章内容中两个“#”符号之间的短语提取处理作为一种预选关键字。又例如，文章内容中通常用“@”符号指定一个人名，则可以将“@”后的人名提取出来作为一种预选关键字。

预选关键字的另一种是根据词频-逆文档频率(Term Frequency-InverseDocument Frequency，TF-IDF)算法确定的。TF-IDF的主要思想是：如果某个分词在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此分词具有很好的类别区分能力，适合用来分类，该分词可以作为预选关键字。

S32：判断所述预选关键字的出现频率是否大于预设频率值，若是，执行S35，否则，执行S33。

S33：获取所述预选关键字对应的拟合差值。

S34：判断拟合差值是否小于预设差值，若是，执行S35，否则执行S36。

S35：确定所述预选关键字为提取的关键字。

S36：丢弃所述预选关键字。

其中，某个类别提取的关键字的一种是出现频率较高的预选关键字，例如，某个类别的预选关键字的一种是第一关键字，第一关键字在该类别的训练集中出现的频率较高，则可以直接将第一关键字确定为该类别提取的关键字，也就是该类别对应的关键字。

另外，某个类别提取的关键字的另一种是拟合差值较小的预选关键字，例如，某个类别的预选关键字的一种是第二关键字，第二关键字在该类别的训练集中出现的频率不高(小于预设频率值)，但是，第二关键字对应的拟合差值较小，则可以将第二关键字确定为该类别提取的关键字，也就是该类别对应的关键字。

一些实施例中，参见图4，获取预选关键字对应的拟合差值的流程可以包括：

S41：在所述训练集中，选取包含所述预选关键字的训练样本。

例如，当前处理的类别的训练集是作者A对应的训练集，预选关键字是第二关键字，则可以在作者A对应的训练集中选取包含第二关键字的训练样本。

S42：根据选取的训练样本进行模型训练，得到预测模型。

在模型训练时，例如，根据训练样本的转发、评论、点赞的数量，采用回归算法进行模型训练，从而得到预测模型。

S43：采用所述预测模型对包含所述预选关键字的训练样本进行预测，得到包含所述预选关键字的训练样本的预测值。

在根据包含第二关键字的训练样本进行训练得到预测模型后，可以采用该预测模型对包含第二关键字的一个或多个训练样本进行预测，分别得到每个训练样本对应的预测值。

S44：比较包含所述预选关键字的训练样本的实际值和预测值，得到所述预选关键字对应的拟合差值。

假设采用上述的预测模型对一个训练样本D进行了预测，得到预测值是D1，由于训练样本是已知数据，因此，该训练样本的实际值是已知的，假设实际值时D2，则拟合差值可以表示为：D1-D2或者(D1-D2)的绝对值。

在得到预选关键字对应的拟合差值后，可以与预设差值进行比较，以确定预选关键字是否是最终要提取的关键字。

一些实施例中，参见图5，在训练阶段，在确定出每个类别的关键字后，获取与每个关键字对应的预测模型的流程可以包括：

S51：对应每个关键字，在所述训练集中选取包含所述关键字的训练样本。

例如，对应第一关键字，在作者A对应的训练集中，选取包含第一关键字的训练样本。

S52：根据包含所述关键字的训练样本进行模型训练，得到所述关键字对应的预测模型。

例如，根据包含第一关键字的训练样本的转发、评论、点赞的数量，采用回归算法进行模型训练，从而得到第一关键字对应的预测模型。

另外，在上述确定预选关键字或关键字的流程中，如果初步确定出的预选关键字或关键字的数量较多，则可以根据预设规则选择出数量较少的预选关键字或关键字。例如，根据拟合差值从小到大的顺序选择预设数量的关键字。

另外，在确定出关键字对应的拟合差值后，可以根据拟合差值的大小确定关键字的优先级，例如，拟合差值小的关键字是优先级高的关键字。或者，如果关键字是根据出现频率提取的，则可以将出现频率出现高的关键字确定为优先级高的关键字。根据拟合差值提取的关键字及根据出现频率提取的关键字之间的优先级关系可以设置，例如，设置所有根据出现频率提取的关键字的优先级大于所有的根据拟合差值提取的关键字，或者，设置出现频率大于某个值的关键字的优先级大于拟合差值小于某个值的关键字等，具体设置规则可以根据实际情况确定。

本实施例中，通过确定待预测文章所属的类别，以及，确定所属类别对应的关键字中匹配的关键字，采用匹配的关键字对应的预测模型进行热度预测，可以实现采用相似文章得到的预测模型进行预测，从而提高预测准确度。进一步的，通过提取上述的预选关键字，并根据预选关键字确定关键字，可以将有代表性的分词作为关键字，提高分类准确度，从而进一步提高预测准确度。

图6是本发明另一实施例提出的预测文章热度的装置的结构示意图，该装置60包括：归类模块61、匹配模块62、确定模块63和预测模块64。

归类模块61，用于根据待预测文章包含的预设参数，确定待预测文章所属的类别。

文章例如为博客、微博等网络文章。

匹配模块62，用于根据预先建立的类别与关键字的对应关系，确定与所述类别对应的关键字，并在所述对应的关键字中获取与所述待预测文章匹配的关键字。

可选的，匹配模块62用于获取与所述待预测文章匹配的关键字，包括：

将待预测文章中包含的且优先级最高的关键字，确定为匹配的关键字。

关键字的优先级可以不同，则与待预测文章匹配的关键字可以是类别对应的关键字中，待预测文章中包含的且优先级最高的关键字。每个关键字的优先级可以根据出现频率或拟合差值确定，例如，出现频率高的关键字的优先级高等。

确定模块63，用于根据预先建立的关键字与预测模型之间的对应关系，确定与所述匹配的关键字对应的预测模型。

预测模块64，用于采用所述对应的预测模型，对所述待预测文章进行热度预测。

一些实施例中，参见图7，该装置60还包括：分类模块65、获取模块66和建立模块67。

分类模块65，用于对原始训练集，根据所述预设参数进行分类，得到多个类别的训练集。

获取模块66，用于在每个类别的训练集中，提取关键字，并获取与每个关键字对应的预测模型。

建立模块67，用于根据每个类别中提取出的关键字，建立类别与关键字的对应关系，以及，根据获取的每个关键字对应的预测模型，建立关键字与预测模型之间的对应关系。

一些实施例中，所述获取模块66用于提取关键字，包括：

在组成训练集的训练样本包含的内容中，选取预选关键字，所述预选关键字包括如下项中的至少一项：主题名称、人名、采用TF-IDF算法确定的分词；

判断所述预选关键字的出现频率是否大于预设频率值；

如果所述出现频率小于预设频率值，则获取所述预选关键字对应的拟合差值；

判断所述拟合差值是否小于预设差值；

如果所述预选关键字的出现频率大于预设频率值，或者，如果所述预选关键字对应的拟合差值小于预设差值，则将所述预选关键字确定为提取的关键字。

进一步的，获取模块66用于获取所述预选关键字对应的拟合差值，包括：

在所述训练集中，选取包含所述预选关键字的训练样本；

根据选取的训练样本进行模型训练，得到预测模型；

采用所述预测模型对包含所述预选关键字的训练样本进行预测，得到包含所述预选关键字的训练样本的预测值；

比较包含所述预选关键字的训练样本的实际值和预测值，得到所述预选关键字对应的拟合差值。

一些实施例中，获取模块66用于所述获取与每个关键字对应的预测模型，包括：

对应每个关键字，在所述训练集中选取包含所述关键字的训练样本；

根据包含所述关键字的训练样本进行模型训练，得到所述关键字对应的预测模型。

上述的获取预选关键字、从预选关键字中获取关键字、计算预选关键字对应的拟合差值、以及计算关键字对应的预测模型的流程可以具体参见上述实施例中的相关描述，在此不再赘述。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种预测文章热度的方法，其特征在于，包括：

根据待预测文章包含的预设参数，确定待预测文章所属的类别；

根据预先建立的类别与关键字的对应关系，确定与所述类别对应的多个关键字，其中，所述类别与所述多个关键字的对应关系在训练阶段建立；

在所述多个关键字中获取与所述待预测文章匹配的一个关键字，其中，所述多个关键字的优先级不同，所述一个关键字是所述多个关键字中，与所述待预测文章匹配且优先级最高的关键字；

根据预先建立的关键字与预测模型之间的对应关系，确定与所述匹配的关键字对应的预测模型；

采用所述对应的预测模型，对所述待预测文章进行热度预测；

还包括：

对原始训练集，根据所述预设参数进行分类，得到多个类别的训练集，所述原始训练集包括多个类别的作为训练样本的文章；

在每个类别的训练集中，提取关键字，并获取与每个关键字对应的预测模型；

根据每个类别中提取出的关键字，建立类别与关键字的对应关系，以及，根据获取的每个关键字对应的预测模型，建立关键字与预测模型之间的对应关系。

2.根据权利要求1所述的方法，其特征在于，所述提取关键字，包括：

判断所述预选关键字的出现频率是否大于预设频率值；

判断所述拟合差值是否小于预设差值；

3.根据权利要求2所述的方法，其特征在于，所述获取所述预选关键字对应的拟合差值，包括：

在所述训练集中，选取包含所述预选关键字的训练样本；

根据选取的训练样本进行模型训练，得到预测模型；

4.根据权利要求1所述的方法，其特征在于，所述获取与每个关键字对应的预测模型，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述预设参数是文章的作者。

6.一种预测文章热度的装置，其特征在于，包括：

归类模块，用于根据待预测文章包含的预设参数，确定待预测文章所属的类别；

匹配模块，用于根据预先建立的类别与关键字的对应关系，确定与所述类别对应的多个关键字，其中，所述类别与所述多个关键字的对应关系在训练阶段建立；

所述匹配模块，还用于在所述多个关键字中获取与所述待预测文章匹配的一个关键字，其中，所述多个关键字的优先级不同，所述一个关键字是所述多个关键字中，与所述待预测文章匹配且优先级最高的关键字；

确定模块，用于根据预先建立的关键字与预测模型之间的对应关系，确定与所述匹配的关键字对应的预测模型；

预测模块，用于采用所述对应的预测模型，对所述待预测文章进行热度预测；

还包括：

分类模块，用于对原始训练集，根据所述预设参数进行分类，得到多个类别的训练集，所述原始训练集包括多个类别的作为训练样本的文章；

获取模块，用于在每个类别的训练集中，提取关键字，并获取与每个关键字对应的预测模型；

建立模块，用于根据每个类别中提取出的关键字，建立类别与关键字的对应关系，以及，根据获取的每个关键字对应的预测模型，建立关键字与预测模型之间的对应关系。

7.根据权利要求6所述的装置，其特征在于，所述获取模块用于提取关键字，包括：

判断所述预选关键字的出现频率是否大于预设频率值；

判断所述拟合差值是否小于预设差值；