CN105488193B - 文章热度的预测方法和装置 - Google Patents

文章热度的预测方法和装置 Download PDF

Info

Publication number
CN105488193B
CN105488193B CN201510887683.1A CN201510887683A CN105488193B CN 105488193 B CN105488193 B CN 105488193B CN 201510887683 A CN201510887683 A CN 201510887683A CN 105488193 B CN105488193 B CN 105488193B
Authority
CN
China
Prior art keywords
user
article
published
historical
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510887683.1A
Other languages
English (en)
Other versions
CN105488193A (zh
Inventor
璁哥ゥ
许祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN201510887683.1A priority Critical patent/CN105488193B/zh
Priority to CN202010661581.9A priority patent/CN111858934A/zh
Publication of CN105488193A publication Critical patent/CN105488193A/zh
Application granted granted Critical
Publication of CN105488193B publication Critical patent/CN105488193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种文章热度的预测方法和装置,上述文章热度的预测方法包括:根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为所述用户最新发表的文章生成第一矢量,所述第一矢量的维度等于所述关键词的个数,所述第一矢量中各维度的值分别对应每个关键词在所述用户最新发表的文章中的出现情况;通过聚类模型对所述第一矢量进行聚类判断,获得所述用户最新发表的文章所属的类别;通过所述用户最新发表的文章所属类别的回归模型对所述用户最新发表的文章的热度值进行预测。本发明在对用户发表的文章进行聚类判断之后,再根据上述文章所属的类别对上述文章的热度进行预测,提高了文章热度预测的准确度。

Description

文章热度的预测方法和装置
技术领域
本发明涉及文本分析技术领域,尤其涉及一种文章热度的预测方法和装置。
背景技术
互联网时代,每个人都可以在互联网上各抒己见。随之而来的问题是一些不法分子利用网络舆论导向来达到其个人目的。所以,需要对网络舆论进行一些监测及预测,防止网络舆论被不法分子利用。文章热度是衡量一篇网络文章、博客等各种网络文字在一段时间内的阅读、评论以及转发等情况,描述了网络文字的影响力,是舆情分析的重要一环。
一般来说,常规的文章热度预测是通过搜集一段时间内的历史文章数据,根据历史数据进行大数据分析,使用回归算法对文章的热度进行模型拟合,将得到的模型用于新文章的热度预测分析。
但是,由于文章内容的多样性,简单使用回归模型进行预测,获得的文章热度的准确度较低,不利于网络舆论的预测。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种文章热度的预测方法。该方法在对用户发表的文章进行聚类判断之后,再根据上述文章所属的类别对上述文章的热度进行预测,提高了文章热度预测的准确度。
本发明的第二个目的在于提出一种文章热度的预测装置。
为了实现上述目的,本发明第一方面实施例的文章热度的预测方法,包括:根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为所述用户最新发表的文章生成第一矢量,所述第一矢量的维度等于所述关键词的个数,所述第一矢量中各维度的值分别对应每个关键词在所述用户最新发表的文章中的出现情况;通过聚类模型对所述第一矢量进行聚类判断,获得所述用户最新发表的文章所属的类别;通过所述用户最新发表的文章所属类别的回归模型对所述用户最新发表的文章的热度值进行预测。
本发明实施例的文章热度的预测方法,根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为上述用户最新发表的文章生成第一矢量,然后通过聚类模型对上述第一矢量进行聚类判断,获得上述用户最新发表的文章所属的类别,最后通过上述用户最新发表的文章所属类别的回归模型对上述用户最新发表的文章的热度值进行预测,从而可以实现在对用户发表的文章进行聚类判断之后,再根据上述文章所属的类别对上述文章的热度值进行预测,提高了文章热度预测的准确度。
为了实现上述目的,本发明第二方面实施例的文章热度的预测装置,包括:生成模块,用于根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为所述用户最新发表的文章生成第一矢量,所述第一矢量的维度等于所述关键词的个数,所述第一矢量中各维度的值分别对应每个关键词在所述用户最新发表的文章中的出现情况;聚类模块,用于通过聚类模型对所述生成模块生成的第一矢量进行聚类判断,获得所述用户最新发表的文章所属的类别;预测模块,用于通过所述用户最新发表的文章所属类别的回归模型对所述用户最新发表的文章的热度值进行预测。
本发明实施例的文章热度的预测装置,生成模块根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为上述用户最新发表的文章生成第一矢量,然后聚类模块通过聚类模型对上述第一矢量进行聚类判断,获得上述用户最新发表的文章所属的类别,最后预测模块通过上述用户最新发表的文章所属类别的回归模型对上述用户最新发表的文章的热度值进行预测,从而可以实现在对用户发表的文章进行聚类判断之后,再根据上述文章所属的类别对上述文章的热度值进行预测,提高了文章热度预测的准确度。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明文章热度的预测方法一个实施例的流程图;
图2为本发明文章热度的预测方法另一个实施例的流程图;
图3为本发明文章热度的预测方法再一个实施例的流程图;
图4为本发明文章热度的预测方法再一个实施例的流程图;
图5为本发明文章热度的预测方法再一个实施例的流程图;
图6为本发明文章热度的预测方法再一个实施例的流程图;
图7为本发明文章热度的预测方法再一个实施例的流程图;
图8为本发明文章热度的预测装置一个实施例的结构示意图;
图9为本发明文章热度的预测装置另一个实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1为本发明文章热度的预测方法一个实施例的流程图,如图1所示,上述文章热度的预测方法可以包括:
步骤101,根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为上述用户最新发表的文章生成第一矢量。
其中,上述第一矢量的维度等于上述关键词的个数,上述第一矢量中各维度的值分别对应每个关键词在上述用户最新发表的文章中的出现情况。
举例来说,假设上述关键词的个数为10,则第一矢量为10维矢量,上述第一矢量中第一个维度的值表示第一个关键词是否在上述用户最新发表的文章中出现,如果出现,则上述第一矢量中第一个维度的值可以为“1”,如果未出现,则上述第一矢量中第一个维度的值可以为“0”,以此类推。当然,本实施例并不限定用“1”表示关键词在上述用户最新发表的文章中出现,用“0”表示关键词在上述用户最新发表的文章中未出现。
其中,上述预定时间长度可以在具体实现时根据系统性能和/或实现需求等自行设定,本实施例对上述预定时间长度的大小不作限定,举例来说,上述预定时间长度可以为6个月。
步骤102,通过聚类模型对上述第一矢量进行聚类判断,获得上述用户最新发表的文章所属的类别。
步骤103,通过上述用户最新发表的文章所属类别的回归模型对上述用户最新发表的文章的热度值进行预测。
图2为本发明文章热度的预测方法另一个实施例的流程图,如图2所示,步骤102之前,还可以包括:
步骤201,对上述第一矢量进行降维处理。
具体地,可以使用主成分分析等特征提炼方法,对第一矢量进行降维处理。
图3为本发明文章热度的预测方法再一个实施例的流程图,如图3所示,步骤101之前,还可以包括:
步骤301,获取上述用户在当前时刻之前的预定时间长度内发表的历史文章的关键词。
具体地,获取上述用户在当前时刻之前的预定时间长度内发表的历史文章的关键词可以为:获得上述用户在当前时刻之前的预定时间长度内发表的历史文章;使用分词工具从上述历史文章中获取热度排名在预定名次之前的关键词。
其中,上述预定名次可以在具体实现时根据系统性能和/或实现需求等自行设定,本实施例对上述预定名次不作限定,举例来说,上述预定名次可以为10。
图4为本发明文章热度的预测方法再一个实施例的流程图,如图4所示,步骤102之前,还可以包括:
步骤401,生成聚类模型。
其中,步骤401与步骤101可以并行执行,也可以先后执行,本实施例对步骤401与步骤101的执行顺序不作限定,但本实施例以步骤401在步骤101之前,且在步骤301之后执行为例示出。
图5为本发明文章热度的预测方法再一个实施例的流程图,如图5所示,步骤401可以包括:
步骤501,根据上述关键词,为上述用户在当前时刻之前的预定时间长度内发表的每篇历史文章生成对应的第二矢量。
其中,上述每篇历史文章对应的第二矢量的维度等于上述关键词的个数,上述每篇历史文章对应的第二矢量中各维度的值分别对应每个关键词在每篇历史文章中的出现情况。
举例来说,假设上述关键词的个数为10,则上述每篇历史文章对应的第二矢量为10维矢量,以第一篇历史文章对应的第二矢量为例,上述第一篇历史文章对应的第二矢量中第一个维度的值表示第一个关键词是否在上述第一篇历史文章中出现,如果出现,则上述第一篇历史文章对应的第二矢量中第一个维度的值可以为“1”,如果未出现,则上述第一篇历史文章对应的第二矢量中第一个维度的值可以为“0”,以此类推。当然,本实施例并不限定用“1”表示关键词在第一篇历史文章中出现,用“0”表示关键词在第一篇历史文章中未出现。
步骤502,对上述每篇历史文章对应的第二矢量进行聚类判断,生成聚类模型,以将上述用户在当前时刻之前的预定时间长度内发表的历史文章聚为预定个数的类别。
其中,上述预定个数可以在具体实现时根据上述用户在当前时刻之前的预定时间长度内发表的历史文章的篇数设定,本实施例对上述预定个数的大小不作限定,举例来说,上述预定个数可以为3。
具体地,可以使用kmeans聚类算法对上述每篇历史文章对应的第二矢量进行聚类判断,生成上述聚类模型。
可选地,步骤502之前,还可以对上述每篇历史文章对应的第二矢量进行降维处理。具体地,可以使用主成分分析等特征提炼方法,对上述每篇历史文章对应的第二矢量进行降维处理。
图6为本发明文章热度的预测方法再一个实施例的流程图,如图6所示,步骤103之前,还可以包括:
步骤601,针对上述用户在当前时刻之前的预定时间长度内发表的历史文章所属的类别,分别根据每个类别中的历史文章的热度值建立每个类别的回归模型。
这样,在步骤103,通过上述用户最新发表的文章所属类别的回归模型对上述用户最新发表的文章的热度值进行预测时,可以根据上述用户最新发表的文章所属类别中的历史文章的热度值获得上述用户最新发表的文章所属类别中的历史文章的热度值的最佳期望值,以上述最佳期望值作为上述用户最新发表的文章的热度值。
本实施例中,步骤601可以与步骤101~步骤102并行执行,也可以先后执行,本实施例对步骤601与步骤101~步骤102的执行顺序不作限定,但图6以步骤601在步骤101之前,且在步骤502之后执行为例示出。
上述文章热度的预测方法中,根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为上述用户最新发表的文章生成第一矢量,然后通过聚类模型对上述第一矢量进行聚类判断,获得上述用户最新发表的文章所属的类别,最后通过上述用户最新发表的文章所属类别的回归模型对上述用户最新发表的文章的热度值进行预测,从而可以实现在对用户发表的文章进行聚类判断之后,再根据上述文章所属的类别对上述文章的热度值进行预测,提高了文章热度预测的准确度,并且整个过程自动化完成,不需要人工干预。
图7为本发明文章热度的预测方法再一个实施例的流程图,本实施例对本发明提供的文章热度的预测方法进行举例说明,如图7所示,可以包括:
步骤701,提取出用户在当前时刻之前的6个月时间内发表的微博总计1312篇。
步骤702,使用分词工具从上述1312篇微博中获取热度排名前10的关键词。
其中,获取的前10个关键词可以如表1所示。
表1
0 程序员
1 酷勤
2 cc
3 cry
4 doge
5 Linux
6 Java
7 程序
8 CSDN
9 码农网
步骤703,根据上述关键词,为上述用户的1312篇微博生成1312个10维矢量。
其中,各矢量的10个维度的值分别对应10个关键词在该微博中的出现情况,如果出现,则对应维度的值可以为“1”;如果未出现,则对应维度的值可以为“0”。
本实施例中,由于生成的矢量的维度为10,维度较小,不做降维处理。
步骤704,使用Kmeans聚类算法,对1312个矢量进行聚类,生成聚类模型。
本实施例中,在对1312个矢量进行聚类之后,可以将上述1312篇微博聚为两类。
步骤705,根据每个类别中微博的热度值分别建立每个类别的回归模型。
步骤706,对于上述用户最新发表的微博,根据上述10个关键词为上述用户最新发表的微博生成10维矢量,使用上述聚类模型对生成的10维矢量进行聚类判断,获得上述用户最新发表的微博所属的类别,并通过上述用户最新发表的微博所属类别的回归模型对上述用户最新发表的微博的热度值进行预测。
具体地,在通过上述用户最新发表的微博所属类别的回归模型对上述用户最新发表的微博的热度值进行预测时,可以根据上述用户最新发表的微博所属类别中的历史微博的热度值获得上述用户最新发表的微博所属类别中的历史微博的热度值的最佳期望值,以上述最佳期望值作为上述用户最新发表的微博的热度值。
本发明提供的文章热度的预测方法,可以提高文章热度预测的准确度,不使用本发明提供的文章热度的预测方法时,用户的微博热度的预测准确度为1%(即100篇中有1篇可以准确预测),使用本发明提供的文章热度的预测方法之后,用户的微博热度的预测准确度可以提升到33%。
图8为本发明文章热度的预测装置一个实施例的结构示意图,本实施例中的文章热度的预测装置可以实现本发明图1~图7所示实施例的流程,如图8所示,上述文章热度的预测装置可以包括:生成模块81、聚类模块82和预测模块83;
其中,生成模块81,用于根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为上述用户最新发表的文章生成第一矢量,上述第一矢量的维度等于上述关键词的个数,上述第一矢量中各维度的值分别对应每个关键词在上述用户最新发表的文章中的出现情况。
举例来说,假设上述关键词的个数为10,则第一矢量为10维矢量,上述第一矢量中第一个维度的值表示第一个关键词是否在上述用户最新发表的文章中出现,如果出现,则上述第一矢量中第一个维度的值可以为“1”,如果未出现,则上述第一矢量中第一个维度的值可以为“0”,以此类推。当然,本实施例并不限定用“1”表示关键词在上述用户最新发表的文章中出现,用“0”表示关键词在上述用户最新发表的文章中未出现。
其中,上述预定时间长度可以在具体实现时根据系统性能和/或实现需求等自行设定,本实施例对上述预定时间长度的大小不作限定,举例来说,上述预定时间长度可以为6个月。
聚类模块82,用于通过聚类模型对生成模块81生成的第一矢量进行聚类判断,获得上述用户最新发表的文章所属的类别;
预测模块83,用于通过上述用户最新发表的文章所属类别的回归模型对上述用户最新发表的文章的热度值进行预测。
上述文章热度的预测装置中,生成模块81根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为上述用户最新发表的文章生成第一矢量,然后聚类模块82通过聚类模型对上述第一矢量进行聚类判断,获得上述用户最新发表的文章所属的类别,最后预测模块83通过上述用户最新发表的文章所属类别的回归模型对上述用户最新发表的文章的热度值进行预测,从而可以实现在对用户发表的文章进行聚类判断之后,再根据上述文章所属的类别对上述文章的热度值进行预测,提高了文章热度预测的准确度。
图9为本发明文章热度的预测装置另一个实施例的结构示意图,与图8所示的文章热度的预测装置相比,不同之处在于,图9所示的文章热度的预测装置还可以包括:
降维模块84,用于在聚类模块82通过聚类模型对上述第一矢量进行聚类判断之前,对上述第一矢量进行降维处理。具体地,降维模块84可以使用主成分分析等特征提炼方法,对第一矢量进行降维处理。
进一步地,上述文章热度的预测装置还可以包括:
获取模块85,用于在生成模块81为上述用户最新发表的文章生成第一矢量之前,获取上述用户在当前时刻之前的预定时间长度内发表的历史文章的关键词。
本实施例中,获取模块85,具体用于获得上述用户在当前时刻之前的预定时间长度内发表的历史文章,使用分词工具从上述历史文章中获取热度排名在预定名次之前的关键词。
其中,上述预定名次可以在具体实现时根据系统性能和/或实现需求等自行设定,本实施例对上述预定名次不作限定,举例来说,上述预定名次可以为10。
进一步地,聚类模块82,还用于在对上述第一矢量进行聚类判断之前,生成上述聚类模型。
本实施例中,生成模块81,还用于根据上述关键词,为上述用户在当前时刻之前的预定时间长度内发表的每篇历史文章生成对应的第二矢量;
其中,上述每篇历史文章对应的第二矢量的维度等于上述关键词的个数,上述每篇历史文章对应的第二矢量中各维度的值分别对应每个关键词在每篇历史文章中的出现情况。
举例来说,假设上述关键词的个数为10,则上述每篇历史文章对应的第二矢量为10维矢量,以第一篇历史文章对应的第二矢量为例,上述第一篇历史文章对应的第二矢量中第一个维度的值表示第一个关键词是否在上述第一篇历史文章中出现,如果出现,则上述第一篇历史文章对应的第二矢量中第一个维度的值可以为“1”,如果未出现,则上述第一篇历史文章对应的第二矢量中第一个维度的值可以为“0”,以此类推。当然,本实施例并不限定用“1”表示关键词在第一篇历史文章中出现,用“0”表示关键词在第一篇历史文章中未出现。
这时,聚类模块82,具体用于对上述每篇历史文章对应的第二矢量进行聚类,生成上述聚类模型,以将所述用户在当前时刻之前的预定时间长度内发表的历史文章聚为预定个数的类别。
其中,上述预定个数可以在具体实现时根据上述用户在当前时刻之前的预定时间长度内发表的历史文章的篇数设定,本实施例对上述预定个数的大小不作限定,举例来说,上述预定个数可以为3。
具体地,聚类模块82可以使用kmeans聚类算法对上述每篇历史文章对应的第二矢量进行聚类,生成上述聚类模型。
进一步地,上述文章热度的预测装置还可以包括:降维模块84;
降维模块84,用于在聚类模块82对上述每篇历史文章对应的第二矢量进行聚类之前,对上述每篇历史文章对应的第二矢量进行降维处理。
具体地,降维模块84可以使用主成分分析等特征提炼方法,对上述每篇历史文章对应的第二矢量进行降维处理。
进一步地,上述文章热度的预测装置还可以包括:
建立模块86,用于在预测模块83对上述用户最新发表的文章的热度值进行预测之前,针对上述用户在当前时刻之前的预定时间长度内发表的历史文章所属的类别,分别根据每个类别中的历史文章的热度值建立每个类别的回归模型。
这样,在预测模块83通过上述用户最新发表的文章所属类别的回归模型对上述用户最新发表的文章的热度值进行预测时,可以根据上述用户最新发表的文章所属类别中的历史文章的热度值获得上述用户最新发表的文章所属类别中的历史文章的热度值的最佳期望值,以上述最佳期望值作为上述用户最新发表的文章的热度值。
本实施例提供的文章热度的预测装置,可以提高文章热度预测的准确度,不使用本实施例提供的文章热度的预测装置时,用户的微博热度的预测准确度为1%(即100篇中有1篇可以准确预测),使用本实施例提供的文章热度的预测装置之后,用户的微博热度的预测准确度可以提升到33%。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种文章热度的预测方法,其特征在于,包括:
根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为所述用户最新发表的文章生成第一矢量,所述第一矢量的维度等于所述关键词的个数,所述第一矢量中各维度的值分别对应每个关键词在所述用户最新发表的文章中是否出现;
通过聚类模型对所述第一矢量进行聚类判断,获得所述用户最新发表的文章所属的类别;
通过所述用户最新发表的文章所属类别的回归模型对所述用户最新发表的文章的热度值进行预测;
所述通过所述用户最新发表的文章所属类别的回归模型对所述用户最新发表的文章的热度值进行预测之前,还包括:
针对所述用户在当前时刻之前的预定时间长度内发表的历史文章所属的类别,分别根据每个类别中的历史文章的热度值建立每个类别的回归模型。
2.根据权利要求1所述的方法,其特征在于,所述根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为所述用户最新发表的文章生成第一矢量之前,还包括:
获取所述用户在当前时刻之前的预定时间长度内发表的历史文章的关键词;
其中,所述获取所述用户在当前时刻之前的预定时间长度内发表的历史文章的关键词包括:
获得所述用户在当前时刻之前的预定时间长度内发表的历史文章;
使用分词工具从所述历史文章中获取热度排名在预定名次之前的关键词。
3.根据权利要求1所述的方法,其特征在于,所述通过聚类模型对所述第一矢量进行聚类判断之前,还包括:
生成所述聚类模型。
4.根据权利要求3所述的方法,其特征在于,所述生成所述聚类模型包括:
根据所述关键词,为所述用户在当前时刻之前的预定时间长度内发表的每篇历史文章生成对应的第二矢量,所述每篇历史文章对应的第二矢量的维度等于所述关键词的个数,所述每篇历史文章对应的第二矢量中各维度的值分别对应每个关键词在每篇历史文章中是否出现;
对所述每篇历史文章对应的第二矢量进行聚类,生成所述聚类模型,以将所述用户在当前时刻之前的预定时间长度内发表的历史文章聚为预定个数的类别。
5.一种文章热度的预测装置,其特征在于,包括:
生成模块,用于根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为所述用户最新发表的文章生成第一矢量,所述第一矢量的维度等于所述关键词的个数,所述第一矢量中各维度的值分别对应每个关键词在所述用户最新发表的文章中是否出现;
聚类模块,用于通过聚类模型对所述生成模块生成的第一矢量进行聚类判断,获得所述用户最新发表的文章所属的类别;
预测模块,用于通过所述用户最新发表的文章所属类别的回归模型对所述用户最新发表的文章的热度值进行预测;
所述的装置,还包括:
建立模块,用于在所述预测模块对所述用户最新发表的文章的热度值进行预测之前,针对所述用户在当前时刻之前的预定时间长度内发表的历史文章所属的类别,分别根据每个类别中的历史文章的热度值建立每个类别的回归模型。
6.根据权利要求5所述的装置,其特征在于,还包括:
获取模块,用于在所述生成模块为所述用户最新发表的文章生成第一矢量之前,获取所述用户在当前时刻之前的预定时间长度内发表的历史文章的关键词;
其中,所述获取模块,具体用于获得所述用户在当前时刻之前的预定时间长度内发表的历史文章,使用分词工具从所述历史文章中获取热度排名在预定名次之前的关键词。
7.根据权利要求5所述的装置,其特征在于,
所述聚类模块,还用于在对所述第一矢量进行聚类判断之前,生成所述聚类模型。
8.根据权利要求7所述的装置,其特征在于,
所述生成模块,还用于根据所述关键词,为所述用户在当前时刻之前的预定时间长度内发表的每篇历史文章生成对应的第二矢量,所述每篇历史文章对应的第二矢量的维度等于所述关键词的个数,所述每篇历史文章对应的第二矢量中各维度的值分别对应每个关键词在每篇历史文章中是否出现;
所述聚类模块,具体用于对所述每篇历史文章对应的第二矢量进行聚类,生成所述聚类模型,以将所述用户在当前时刻之前的预定时间长度内发表的历史文章聚为预定个数的类别。
CN201510887683.1A 2015-12-04 2015-12-04 文章热度的预测方法和装置 Active CN105488193B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510887683.1A CN105488193B (zh) 2015-12-04 2015-12-04 文章热度的预测方法和装置
CN202010661581.9A CN111858934A (zh) 2015-12-04 2015-12-04 文章热度的预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510887683.1A CN105488193B (zh) 2015-12-04 2015-12-04 文章热度的预测方法和装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202010661581.9A Division CN111858934A (zh) 2015-12-04 2015-12-04 文章热度的预测方法和装置

Publications (2)

Publication Number Publication Date
CN105488193A CN105488193A (zh) 2016-04-13
CN105488193B true CN105488193B (zh) 2020-08-25

Family

ID=55675167

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201510887683.1A Active CN105488193B (zh) 2015-12-04 2015-12-04 文章热度的预测方法和装置
CN202010661581.9A Pending CN111858934A (zh) 2015-12-04 2015-12-04 文章热度的预测方法和装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202010661581.9A Pending CN111858934A (zh) 2015-12-04 2015-12-04 文章热度的预测方法和装置

Country Status (1)

Country Link
CN (2) CN105488193B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182239A (zh) * 2017-12-27 2018-06-19 成都寻道科技有限公司 一种文章热度预测系统及预测方法
CN110555198B (zh) * 2018-05-31 2023-05-23 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN110119511B (zh) * 2019-05-17 2023-05-02 网易传媒科技(北京)有限公司 文章热点得分的预测方法、介质、装置和计算设备
CN115455269B (zh) * 2022-08-22 2023-08-29 华云天下(南京)科技有限公司 文章热度分析方法、装置、数据处理架构和分析系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657496A (zh) * 2015-03-09 2015-05-27 杭州朗和科技有限公司 一种计算信息热度值的方法和设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011162119A1 (ja) * 2010-06-24 2011-12-29 日本電気株式会社 注目度推定装置、注目度推定方法、及びコンピュータ読み取り可能な記録媒体
CN102937960B (zh) * 2012-09-06 2015-06-17 北京邮电大学 突发事件热点话题的识别与评估装置
CN104598632B (zh) * 2015-02-05 2017-12-01 北京航空航天大学 热点事件检测方法和装置
CN104615779B (zh) * 2015-02-28 2017-08-11 云南大学 一种Web文本个性化推荐方法
CN104915397A (zh) * 2015-05-28 2015-09-16 国家计算机网络与信息安全管理中心 一种微博传播趋势预测方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657496A (zh) * 2015-03-09 2015-05-27 杭州朗和科技有限公司 一种计算信息热度值的方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于机器学习算法的Web文本挖掘应用研究";常青;《中国优秀硕士学位论文全文数据库 信息科技辑》;20111215(第S2期);论文第3.1-3.2,3.4.2,6.2节 *

Also Published As

Publication number Publication date
CN105488193A (zh) 2016-04-13
CN111858934A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
US11860920B2 (en) System and method for providing technology assisted data review with optimizing features
KR101917006B1 (ko) 머신 러닝 기반 반도체 제조 수율 예측 시스템 및 방법
CN108509474B (zh) 搜索信息的同义词扩展方法及装置
US20150278706A1 (en) Method, Predictive Analytics System, and Computer Program Product for Performing Online and Offline Learning
US10268758B2 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
US9026550B2 (en) Temporal pattern matching in large collections of log messages
JP6109037B2 (ja) 時系列データ予測装置、時系列データ予測方法、及びプログラム
US20180060702A1 (en) Learning Based Defect Classification
CN105488193B (zh) 文章热度的预测方法和装置
JP6875179B2 (ja) システム分析装置、及びシステム分析方法
CN112889042A (zh) 机器学习中超参数的识别与应用
US20180018391A1 (en) Data classification device, data classification method, and non-transitory computer readable storage medium
CN108491302B (zh) 一种检测spark集群节点状态的方法
CN110019668A (zh) 一种文本检索方法及装置
CN105488599B (zh) 预测文章热度的方法和装置
JP7171471B2 (ja) 学習モデル生成支援装置、及び学習モデル生成支援方法
CN105893385A (zh) 用于分析用户行为的方法和设备
JP2015007975A (ja) マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法
US20140279734A1 (en) Performing Cross-Validation Using Non-Randomly Selected Cases
CN106033425A (zh) 数据处理设备和数据处理方法
CN111582488A (zh) 一种事件推演方法及装置
JP6658507B2 (ja) 負荷推定システム、情報処理装置、負荷推定方法、及び、コンピュータ・プログラム
CN104951478A (zh) 信息处理方法和信息处理装置
CN114692778B (zh) 用于智能巡检的多模态样本集生成方法、训练方法及装置
US10467530B2 (en) Searching text via function learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant