CN109063015A

CN109063015A - 热点内容的提取方法、装置及设备

Info

Publication number: CN109063015A
Application number: CN201810759178.2A
Authority: CN
Inventors: 谢忠玉
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2018-12-21
Anticipated expiration: 2038-07-11
Also published as: CN109063015B

Abstract

本发明实施例提供的一种热点内容的提取方法、装置及设备，通过统计待提取内容中热点词的种类数量；判断种类数量是否小于第一预设种类阈值；若不小于，则将待提取内容作为热点内容，可以避免将内容为重复热点词的低质量内容确定为热点内容的情况，提高了热点内容确定的准确性。

Description

热点内容的提取方法、装置及设备

技术领域

本发明涉及内容推荐技术领域，特别是涉及一种热点内容的提取方法、装置及设备。

背景技术

随着互联网技术的发展，社交网络已成为人们发布内容、获取内容的重要渠道。由于存在海量内容，因此，社交网络往往需要从海量内容中提取热点内容并展示给用户，以方便用户获取网络中的热点内容。

在传统的热点内容提取方法中，通常将内容中的文字划分为多个词语，统计这些词语中出现预设热点词的词频，如果词频大于一阈值，则确定该内容为热点内容。但是，一些低质量内容通常会重复使用预设热点词，例如，高考期间，关于高考的低质量内容中会重复出现热点词“高考”或者甚至通篇只有预设热点词“高考”，但是并不包含有意义的内容。而由于预设热点词的大量出现，这类低质量内容很有可能被提取为热点内容，导致热点内容提取不准确。

发明内容

本发明实施例的目的在于提供一种热点内容的提取方法、装置及设备，以实现提高热点内容提取准确度的目的。具体技术方案如下：

第一方面，本发明实施例提供了一种热点内容的提取方法，该方法包括：

获取待提取内容，待提取内容为预设热点内容库中的内容；

统计待提取内容中热点词的种类数量；

判断种类数量是否小于第一预设种类阈值；

若不小于，则将待提取内容作为热点内容。

第二方面，本发明实施例提供了一种热点内容的提取装置，该装置包括：

获取模块，用于获取待提取内容，待提取内容为预设热点内容库中的内容；

统计模块，用于统计所述待提取内容中热点词的种类数量；判断种类数量是否小于第一预设种类阈值；

提取模块，用于在种类数量不小于第一预设种类阈值时，将待提取内容作为热点内容。

第三方面，本发明实施例提供了一种电子设备，该设备包括：

处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序，实现上述第一方面提供的热点内容的提取方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面提供的热点内容的提取方法的步骤。

本发明实施例提供的一种热点内容的提取方法、装置及设备，通过统计待提取内容中热点词的种类数量，判断种类数量是否小于第一预设种类阈值，若不小于，则将待提取内容作为热点内容。采用第一预设种类阈值判断待提取内容中热点词的种类是否达到热点内容应具有的热点词种类数量，将热点词种类数量作为热点内容的判断标准，增加了热点内容中热点词的种类，可以避免将内容为重复热点词的低质量内容确定为热点内容的情况，提高了热点内容确定的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明一实施例的热点内容的提取方法的流程示意图；

图2为本发明另一实施例的热点内容的提取方法的流程示意图；

图3为本发明一实施例的热点内容的提取装置的结构示意图；

图4为本发明另一实施例的热点内容的提取装置的结构示意图；

图5为本发明一实施例的电子设备的结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

下面首先对本发明一实施例的热点内容的提取方法进行介绍。

如图1所示，本发明一实施例的热点内容的提取方法的流程，该方法可以包括：

S101，获取待提取内容，待提取内容为预设热点内容库中的内容。

其中，待提取内容可以是社交网络上存在文字描述的各类内容，例如用户发布在社交网络上的文章，以一段文字进行了内容简介的视频，或者新闻报道等。

实际应用中，社交网络的海量内容中有些是与热点相关的，有些是与热点无关的，因此，可以预先收集与热点相关的内容以建立预设热点内容库，预设热点内容库中的内容可以是利用爬取算法，从社交网络上爬取的、与热点相关的内容，还可以是直接从社交网络的后台数据库中获取的与热点相关的内容。

S102，统计待提取内容中热点词的种类数量。

热点词通常是根据历史经验建立的热点词库中的词语，在获取了待提取内容后，可以通过基于热点词库中的热点词，确定待提取内容中的热点词。热点词的种类为按照词语形式和语义划分的，词语形式相同、且语义相同的词语属于同一种类。例如，待提取内容中存在热点词“高考”、“2018年”以及“A市”，则该待提取内容中热点词的种类数量为3个。

S103，判断种类数量是否小于第一预设种类阈值，若不小于，则执行S104。

S104，将待提取内容作为热点内容。

其中，第一预设种类阈值可以是根据历史经验设置的。当待提取内容中热点词的种类数量不小于第一预设种类阈值时，表明待提取内容的文字内容与热点的相关度、以及文字内容的有意义程度达到了热点内容的标准，因此可以将待提取内容作为热点内容。

与基于待提取内容中热点词的词频提取热点内容的方式相比，基于待提取内容中热点词的种类数量，将热点内容的判断标准确定为待提取内容中不同种类热点词的数量，可以避免以热点词的词频作为判断标准时将存在大量重复热点词的无意义待提取内容提取为热点词的问题。

本发明实施例提供的一种热点内容的提取方法，通过统计待提取内容中热点词的种类数量；判断种类数量是否不小于第一预设种类阈值；若不小于，则将待提取内容作为热点内容。采用第一预设种类阈值判断待提取内容中热点词的种类是否达到热点内容应具有的热点词种类数量，将热点词种类数量作为热点内容的判断标准，增加了热点内容中热点词的种类，可以避免将内容为重复热点词的低质量内容确定为热点内容的情况，提高了热点内容确定的准确性。

在实际应用中，社交网络可以是按用户的社交兴趣划分为不同社交圈(例如社区或者小组等)的圈子型社交网络，例如，某一圈子型社交网络可以划分为电影小组、明星A小组等。对于圈子型社交网络，需要针对不同社交圈，提取符合该社交圈的热点内容，以便后续能够针对用户的社交兴趣，准确展示热点内容。

为了针对不同社交圈，提取符合该社交圈的热点内容，可选的，在本发明图1所示实施例的S104之后，热点内容的提取方法还可以包括：

判断热点内容中是否存在预设社交圈类别词。

其中，预设类别词为用于表明社交兴趣的词语，例如，预设类别词可以是“电影”、“读书”以及“明星A”等。可以将交网络的社交圈兴趣关键词作为预设类别词，建立预设类别词库。基于预设类别词库中的词语，判断热点内容中是的存在预设类别词。

若存在，则确定热点内容属于预设社交圈类别词对应的社交圈。

当热点内容中存在预设类别词时，表明该待提取内容的类别可以被确定为预设类别词对应的类别，该待提取内容符合预设类别词对应的类别。例如，热点内容中存在预设类别词“读书”，而“读书”对应的社交圈为“阅读小组”，因此，可以确定该热点内容属于“阅读小组”。当然，如果存在多个热点内容，可以在确定了每个热点内容所属的社交圈后，针对每个社交圈，对该社交圈的热点内容进行筛选、展示等处理。

实际应用中，社交网络中的大量待提取内容的词语数量并不相同，待提取内容的文字内容可多可少。当待提取内容的文字内容较多时，较多的文字内容使得待提取内容中词语的种类增加的概率变高。因此，对于文字内容较多的待提取内容，如果通过本发明图1所示实施例的方法提取热点内容，可能会将热点词种类多、但热点词在文字内容中占比少的待提取内容提取为热点内容。例如，某一待提取内容中有100个词语，统计出热点词的种类数量为4个，大于第一预设种类阈值3个，通过本发明图1所示实施例的方法，该待提取内容可以被提取为热点内容。但是该热点内容中热点词只有4个，表明该待提取内容与热点的相关度过低、不适合作为热点内容，热点内容提取不够准确。

因此，为了提高了热点内容提取的准确性，如图2所示，本发明另一实施例的热点内容的提取方法的流程，该方法可以包括：

S201，获取待提取内容，待提取内容为预设热点内容库中的内容。

S202，统计待提取内容中热点词的种类数量。

S201、S202与本发明图1所示实施例中的S101以及S102为相同步骤，在此不再赘述，详见本发明图1所示实施例的描述。

S203，记录预先分配的待提取内容中各预设热点词的词条权重。

实际应用中，为了获取将待提取内容中的词语，会进行分词，在分词过程中会分配用于表明各词语在待提取内容中重要性的词条权重。为了避免热点词种类满足热点内容提取条件，但热点词在待提取内容中重要性过低造成的待提取内容与热点的相关度过低问题，可以记录预先分配的待提取内容中各预设热点词的词条权重，用于提取热点内容。

S204，统计待提取内容的词语总数量。

由于社交网络中的大量待提取内容的词语数量决定了待提取内容的文字内容的多少，因此，可以统计待提取内容中的词语总数量，已用于后续确定待提取内容的文字内容的多少。

S205，判断词语总数量是否小于预设词语数量阈值，若词语总数量小于预设词语数量阈值，则执行S206，若词语总数量不小于预设词语数量阈值，则执行S207。

在统计了待提取内容中的词语总数量以后，可以通过判断词语总数量是否小于预设词语数量阈值，确定待提取内容的文字内容的多少。当词语总数量小于预设词语数量阈值时，表明待提取内容的文字内容较少。当词语总数量不小于预设词语数量阈值时，表明待提取内容的文字内容较多。由于文字内容较多的待提取内容中词语较多，因此，直接判断热点词的种类数量是否不小于第一预设种类阈值，可能会将与热点相关度较低的待提取内容提取为热点内容，因此需要执行S207。

S206，判断种类数量是否小于第一预设种类阈值，若不小于，则执行208。

由于文字内容较少的待提取内容中词语较少，因此，当热点词的种类数量不小于第一预设种类阈值时，表明待提取内容与热点相关度高，可以提取为热点内容。例如，预设词语数量阈值为10个，待提取内容【2018年高考开始】中的词语总数量为3，小于10，热点词为“2018年”和“高考”。在此基础上，判断该待提取内容中热点词的种类数量2个等于第一预设种类阈值2，因此提取该待提取内容作为热点内容。在实际应用中，可以根据历史经验设置不同的第一预设种类阈值和预设词语数量阈值。

S207，判断种类数量是否小于第二预设种类阈值，以及各热点词的词条权重之和是否大于第一预设权重阈值，若种类数量不小于第二预设种类阈值，且各热点词的词条权重之和大于第一预设权重阈值，则执行S208。

由于在词语总数量不小于预设词语数量阈值的待提取内容中，文字内容较多，因此，为了保证文字内容较多的待提取内容与热点是相关的，需要通过与第一预设种类阈值不同的第二预设种类阈值，判断待提取内容中热点词的种类数量是否达到可以被提取为热点内容的数量。具体的，考虑到不同的待提取内容中热点词的数量不同，且第二预设种类阈值用于判断热点词种类数量在待提取内容中的占比，因此，可以基于待提取内容的词语总数量，利用预设比例系数，确定第二预设种类阈值。例如，第二预设种类阈值K＝α·N，其中，K为第二预设种类阈值，α为第一预设比例系数，N为待提取内容的词语总数量。由此，将第二预设种类阈值与待提取内容的词语总数量关联，可以对不同的待提取内容有针对性地确定第二预设种类阈值，有利于提高热点内容确定的准确度。

在上述基于第二预设种类阈值判断热点词种类数量在待提取内容中的占比的基础上，为了提高确定待提取内容中热点词占比的准确度，还可以计算热点词在待提取内容的词条权重是否达到可以被提取为热点内容的大小。具体的，考虑到不同的待提取内容中热点词的词条权重不同，且第一预设权重阈值用于判断热点词在待提取内容中的词条权重，因此，可以基于待提取内容中各词语的词条权重之和，利用预设比例系数，确定第一预设权重阈值。例如，第一预设权重阈值W_term＝β·W_total，其中，W_term为第一预设权重阈值，β为第二预设比例系数，W_total为待提取内容各词语的词条权重之和。由此，将第一预设权重阈值与待提取内容中各词语的词条权重之和，可以对不同的待提取内容有针对性地确定第一预设权重阈值，有利于提高热点内容确定的准确度。

S208，将待提取内容作为热点内容。

S208与本发明图1所示实施例中的S104为相同步骤，在此不再赘述，详见本发明图1所示实施例的描述。

为了方便用户获取热点内容，还可以在提取了热点内容后，向用户展示热点内容。为此，可选的，在本发明图2所示实施例的S208之后，本发明实施例提供的热点内容的提取方法，还可以包括：

获取热点内容的用户操作信息，以及热点内容中热点词的词条权重之和。

基于用户操作信息以及热点词的词条权重之和，利用第一预设综合权重增长公式，计算得到热点词对热点内容的第一热度贡献值。

按照第一热度贡献值从大到小的顺序展示热点内容。

通常情况下，热点内容往往具有较高的用户关注度，而用户对热点内容的操作(例如评论、转发以及点赞等)可以反映用户对热点内容的关注度。同时，热点内容的展示往往与热点词所代表的热点相关联，例如，热点词为“高考”时，展示的热点内容与“高考”的相关度越高越好，而热点词在热点内容中的权重可以反映热点内容与热点词所代表的热点的相关度。因此，可以基于用户操作信息以及热点词的词条权重之和，利用第一预设综合权重增长公式，计算得到热点词对热点内容的第一热度贡献值。其中，热点词的词条权重之和代表了热点内容中所有热点词在热点内容中的权重。由于第一热度贡献值能够同时反映热点内容的关注度以及热点内容中所有热点词在热点内容中的权重，因此可以按照第一热度贡献值从大到小的顺序展示热点内容。

考虑到热点词为根据历史经验建立的热点词库中的词语，热点词库中的词语是有限的，并且社交网络中的热点会随着时间、文化等因素的变化而改变，因此，热点内容中的非热点词也有可能是未被收集在热点词库中、但是与热点相关的词，会对热点内容与热点的相关度产生影响。

因此，为了提高确定的热点内容与热点相关度的准确度，可选的，在上述按照所述第一热度贡献值和所述第二热度贡献值从大到小的顺序展示所述热点内容之前，本发明实施例提供的热点内容的提取方法，还可以包括：

记录预先分配的所述待提取内容中各非热点词的词条权重。

实际应用中，为了获取将待提取内容中的词语，会进行分词，在分词过程中会分配用于表明各词语在待提取内容中重要性的词条权重，因此，可以记录预先分配的待提取内容中各非热点词的词条权重，以便后续用于确定第二热度贡献值。

判断热点内容中非热点词的词性是否为预设词性，以及非热点词的词条权重是否大于第二预设权重阈值。

若热点内容中非热点词的词性为预设词性，且非热点词的词条权重大于第二预设权重阈值，则确定非热点词作为备用热点词。

考虑到热点内容中非热点词可能是语气词、介词等对热点内容的热度无影响的词语，因此，在确定非热点词的第二热度贡献值时，可以对热点内容中的非热点词进行筛选，剔除对热点内容的热度无影响的词语，确定可以作为备用热点词的非热点词的第二热度贡献值。具体的，可以将词性为预设词性，且词条权重大于第二预设权重阈值的非热点词作为备用热点词。其中，预设词性可以为非地名的名词、形容词、成语、习惯用语、简称以及状态词。同时，与确定热点词类似的，还需要考虑可以作为备用热点词的非热点词在热点内容中的占比，以避免将对热点内容的热度影响不高的非热点词确定为备用热点词。

基于用户操作信息和备用热点词的词条权重，利用第二预设综合权重增长公式，计算得到备用热点词对热点内容的第二热度贡献值。

与第一热度贡献值类似的，备用热点词的词条权重代表了热点内容中备用热点词在热点内容中的权重，反映了热点内容与备用热点词所代表的热点的相关度。因此，基于用户操作信息和备用热点词的词条权重，利用第二预设综合权重增长公式，计算得到的备用热点词对热点内容的第二热度贡献值，也能够同时反映热点内容的关注度以及热点内容中备用热点词在热点内容中的权重，由此，后续可以将第二热度贡献值用于展示热点内容。

将第一热度贡献值和第二热度贡献值中更高的，作为热点内容的参考热度贡献值。

按照参考热度贡献值从大到小的顺序展示热点内容。

对于同时包含热点词和备用热点词的热点内容而言，会存在第一热度贡献值和第二热度贡献值两个判断标准，对此，可以将第一热度贡献值和第二热度贡献值中更高的，作为热点内容的参考热度贡献值，用于按照参考热度贡献值从大到小的顺序展示热点内容。例如，热点内容A的第一热度贡献值A1＝0.6，第二热度贡献值A2＝0.5，热点内容B的第一热度贡献值B1＝0.5，第二热度贡献值B2＝0.7。则热点内容A的参考热度贡献值为A1＝0.6，热点内容B的参考热度贡献值为B2＝0.7。按照参考热度贡献值A1＜B2的顺序，展示热点内容的顺序为“热点内容B，热点内容A”。

可选的，上述实施例中，热点内容的用户操作信息具体可以包括：热点内容的评论数量、分享数量、点赞数量、阅读数量以及热点内容创建时刻与当前时刻的时间差。

其中，评论数量、分享数量、点赞数量、阅读数量可以反映用户对热点内容的关注度，关注度越高热点内容的热度越高，热点内容创建时刻与当前时刻的时间差可以反映热点内容的实时性，时间差越短热点内容的实时性越好，越应该被展示。例如热点内容A的创建时刻为2018年6月29日00:00，热点内容B的创建时间为2018年6月29日06:00，当前时刻为2018年6月29日08:00，那么热点内容B的实时性高，从实时性衡量，热点内容B比热点内容A更应该被展示。

上述用于计算得到第一热度贡献值的第一预设综合权重增长公式，具体可以为：

其中，ΔW₁为第一热度贡献值，total_weight为热点词的词条权重之和，N_comment为热点内容的评论数量，N_share为热点内容的分享数量，N_like为热点内容的点赞数量，N_read为热点内容的阅读数量，Δt为热点内容创建时刻与当前时刻的时间差，η为预设时间衰减系数。

上述用于计算得到第二热度贡献值的第二预设综合权重增长公式，具体可以为：

其中，ΔW₂为第二热度贡献值，termweight为备用热点词的词条权重。第二热度贡献值与第一热度贡献值的区别在于用于反映热点内容与热点相关度的词语不同，第一热度贡献值采用热度词，第二热度贡献值采用备用热点词。通过将两种词语用于确定热度贡献值，避免了热点词词库中热点词有限所造成的热点内容的与热度相关度确定的不准确。

实际应用中，受用户表达习惯的影响，还可能出现以不同词语形式表达相同语义的互为别名的词语，例如词语“复联”和词语“复仇者联盟”词语形式不同，但表达了相同的语义，为互为别名的词语。由于热点词是根据历史经验预先确定的，因此，可以将互为别名的词语确定为相同的预设热点词。而备用热点词无法预先确定，当一个描述热点内容中的备用热点词中存在互为别名的词语时，会对互为别名的词语分别计算第二热度贡献值，造成热点内容与备用热点词所代表的热点的相关度的降低，降低热点内容展示的准确度。

为此，可选的，在上述基于用户操作信息和备用热点词的词条权重，利用第二预设综合权重增长公式，计算得到备用热点词对热点内容的第二热度贡献值之后，本发明提供的热点内容的提取方法，还可以包括：

基于备用热点词，利用预设别名词库，获取备用热点词中属于预设别名词库的至少两个互为别名的词语，互为别名的词语为具有相同语义的不同词语。

例如，热点内容中的备用热点词有某一明星的名字、两个昵称“张三”、“三三”以及“三花”等，这三个备用热点词为不同的词语，但是具有相同的语义，可以确定是互为别名的词语。

将至少两个互为别名的备用热点词中、第二热度贡献值最高的词语作为合并备用热点词，并将至少两个互为别名的备用热点词的第二热度贡献值之和作为合并备用热点词的第二热度贡献值。

例如，热点内容A的第一热度贡献值A1＝0.6，同时热点内容A中存在互为别名的备用热点词“复联”和“复仇者联盟”，其中“复联”的第二热度贡献值为0.3，“复仇者联盟”的第二热度贡献值为0.4。则将“复仇者联盟”作为合并备用热点词，并确定合并备用热点词的第二热度贡献值为0.3+0.4＝0.7。相应的，根据0.7＞0.6＞0.4＞0.3，可以确定热点内容A的参考热度贡献值为合并备用热点词的第二热度贡献值0.7。与不对互为别名的备用热点词进行合并的方式相比，避免了合并热点词对热度贡献值的降低，有利于后续提高热点内容展示的准确度。例如，未合并互为别名的备用热点词时，上述热点内容A的参考热度贡献值为0.6，合并互为别名的备用热点词后，上述热点内容A的参考热度贡献值为0.7。如果热点内容B的参考热度贡献值为0.65，未合并互为别名的备用热点词时，热点内容展示顺序为“热点内容B，热点内容A”，而合并互为别名的备用热点词后，热点内容展示顺序为“热点内容A，热点内容B”。

当然，考虑到社交网络对非法信息的过滤，可选的，在上述将第一热度贡献值和第二热度贡献值中更高的，作为热点内容的参考热度贡献值之前，本发明实施例提供的热点内容的提取方法，还可以包括：

利用预设黑名单词库，将备用热点词中属于预设黑名单词库的词语删除。

由于热点词是根据历史经验预先确定的，因此，通常情况下热点词中不会出现非法词语，而备用热点词无法预先确定，因此，可以利用预设黑名单词库，将备用热点词中属于预设黑名单词库的词语删除。预设黑名单词库中的词语可以为非法词语，例如品牌名称、谩骂词语等。

可选的，上述实施例中按照参考热度贡献值从大到小的顺序展示热点内容，具体可以包括：

为了以简洁、方便的方式向用户展示尽可能多的热点内容展示页面，热点内容的提取方法还可以包括：

按照第一热度贡献值和第二热度贡献值，对热点词和备用热点词进行排序，得到热议词序列。

从热议词序列中，选择预设数量个热度贡献值大于预设贡献值的词语，作为热点内容的热议词。

按照热议词的热度贡献值，生成并展示热议词的榜单。

例如，热点内容A中由热点词“2018年”和“高考”得到的第一热度贡献值为0.7，备用热点词“准考证”、“忘带”以及“打印”的第二热度贡献值分别为0.8、0.8以及“0.5”，按照第一热度贡献值和第二热度贡献值，对热点词和备用热点词进行排序，得到热议词序列为【“忘带准考证”，2018年”，“高考”，“打印”】。从热议词序列中，选择2个热度贡献值大于预设贡献值0.5的词语，作为热点内容的热议词。按照热议词“忘带”、“准考证”的热度贡献值，生成并展示热议词的榜单为“忘带准考证”。当然，对于，可以将热度贡献值相同的热议词组合为短语，例如上述“忘带准考证”。对于热度贡献值不同的热议词，可以按照热度贡献值大小排列在榜单中，例如选择4个热度贡献值大于预设贡献值0.5的词语，作为热议词时，生成并展示热议词的榜单为【“忘带准考证”，“2018年高考”】。

上述实施例在提取热点内容的基础上，对热点内容进行了热议词提取，并将热议词用于生成热议词榜单，该热议词榜单可以作为热议内容的关键内容展示，也可以作为热议内容展示页面的入口，用户可以通过点击热议词榜单中的热议词进入该热议词所属的热点内容展示页面。

当热议词榜单作为热议内容展示页面的入口时，可选的，本发明实施例的热点内容提取的方法，还可以包括：

按照参考热度贡献值从大到小的顺序，生成热点内容的展示页，展示页的展示入口为所述热议词榜单。

其中，热点内容的展示页用于集中展示提取的热点内容，方便用户直接查看。当然热点内容展示页可以是直接显示在社交网络预设位置处的页面，也可以是向用户推送的展示页面。

相应于上述方法实施例，本发明一实施例还提供了热点内容的提取装置。

如图3所示，本发明一实施例提供的热点内容的提取装置，该装置可以包括：

获取模块301，用于获取待提取内容，待提取内容为预设热点内容库中的内容；

统计模块302，用于统计待提取内容中热点词的种类数量；判断种类数量是否不小于第一预设种类阈值；

提取模块303，用于在种类数量不小于第一预设种类阈值时，将待提取内容作为热点内容。

本发明实施例提供的一种热点内容的提取装置，通过采用第一预设种类阈值判断待提取内容中热点词的种类是否达到热点内容应具有的热点词种类数量，将热点词种类数量作为热点内容的判断标准，增加了热点内容中热点词的种类，可以避免将内容为重复热点词的低质量内容确定为热点内容的情况，提高了热点内容确定的准确性。

可选的，本发明图1所示实施例中的提取模块303，还可以用于：

判断热点内容中是否存在预设社交圈类别词；

若存在，则确定热点内容属于所述预设社交圈类别词对应的社交圈。

可选的，本发明图1所示实施例中的统计模块302，还可以用于：

统计待提取内容的词语总数量；判断词语总数量是否小于预设词语数量阈值；若词语总数量小于预设词语数量阈值，则执行判断种类数量是否小于第一预设种类阈值。

记录预先分配的待提取内容中各预设热点词的词条权重；若词语总数量不小于预设词语数量阈值，则执行以下步骤：判断种类数量是否小于第二预设种类阈值，以及各热点词的词条权重之和是否大于第一预设权重阈值；

相应的，提取模块303，还可以用于，在种类数量不小于第二预设种类阈值，且各热点词的词条权重之和大于第一预设权重阈值时，将待提取内容作为热点内容。

如图4所示，本发明另一实施例提供的热点内容的提取装置，该装置可以包括：

获取模块401，用于获取待提取内容，待提取内容为预设热点内容库中的内容；

统计模块402，用于统计待提取内容中热点词的种类数量；判断种类数量是否小于第一预设种类阈值；

提取模块403，用于在种类数量不小于第一预设种类阈值时，将待提取内容作为热点内容；

401至403与本发明图3所示实施例中的301至303为相同的模块。

热度贡献值计算模块404，用于获取热点内容的用户操作信息，以及热点内容中热点词的词条权重之和；基于用户操作信息以及热点词的词条权重之和，利用第一预设综合权重增长公式，计算得到热点词对所述热点内容的第一热度贡献值；

展示模块405，用于按照第一热度贡献值从大到小的顺序展示所述热点内容。

可选的，本发明图4所示实施例中的热度贡献值计算模块404，还可以用于：

记录预先分配的待提取内容中各非热点词的词条权重；判断热点内容中非热点词的词性是否为预设词性，以及非热点词的词条权重是否大于第二预设权重阈值；若热点内容中非热点词的词性为预设词性，且非热点词的词条权重大于第二预设权重阈值，则确定非热点词作为备用热点词；基于用户操作信息和备用热点词的词条权重，利用第二预设综合权重增长公式，计算得到备用热点词对热点内容的第二热度贡献值；将第一热度贡献值和第二热度贡献值中更高的，作为热点内容的参考热度贡献值；

相应的，展示模块405，具体用于按照参考热度贡献值从大到小的顺序展示热点内容。

可选的，上述本发明图4所示实施例中，热点内容的用户操作信息具体可以包括：热点内容的评论数量、分享数量、点赞数量、阅读数量以及热点内容创建时刻与当前时刻的时间差。

其中，第一预设综合权重增长公式可以为：

其中，ΔW₁为第一热度贡献值，total_weight为热点词的词条权重之和，N_comment为热点内容的评论数量，N_share为热点内容的分享数量，N_like为热点内容的点赞数量，N_read为热点内容的阅读数量，Δt为热点内容创建时刻与当前时刻的时间差，η为预设时间衰减系数；

第二预设综合权重增长公式为：

其中，ΔW₂为第二热度贡献值，termweight为所述备用热点词的词条权重。

基于备用热点词，利用预设别名词库，获取备用热点词中属于预设别名词库的至少两个互为别名的词语，互为别名的词语为具有相同语义的不同词语；

将至少两个互为别名的备用热点词中、第二热度贡献值最高的词语作为合并备用热点词，并将至少两个互为别名的备用热点词的第二热度贡献值之和作为所述合并备用热点词的第二热度贡献值。

利用预设黑名单词库，将备用热点词中属于所述预设黑名单词库的词语删除。

可选的，本发明图4所示实施例中的展示模块405，具体可以用于：

按照第一热度贡献值和第二热度贡献值，对热点词和备用热点词进行排序，得到热议词序列；

热议词序列中，选择预设数量个热度贡献值大于预设贡献值的词语，作为热点内容的热议词；

按照热议词的热度贡献值，生成并展示热议词的榜单。

相应于上述实施例，本发明实施例还提供了一种电子设备，如图5所示，该设备可以包括：

处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器通503过通信总线504完成相互间的通信；

存储器503，用于存放计算机程序；

处理器501，用于执行上述存储器503上所存放的计算机程序时，实现上述任一实施例中热点内容的提取方法的步骤。

本发明实施例提供的一种热点内容的提取设备，通过采用第一预设种类阈值判断待提取内容中热点词的种类是否达到热点内容应具有的热点词种类数量，将热点词种类数量作为热点内容的判断标准，增加了热点内容中热点词的种类，可以避免将内容为重复热点词的低质量内容确定为热点内容的情况，提高了热点内容确定的准确性。

上述存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离于上述处理器的存储装置。

上述处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processor，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明一实施例提供的计算机可读存储介质，包含于电子设备，该计算机可读存储介质内存储有计算机程序，该计算机程序被处理器执行时，实现上述任一施例中热点内容的提取方法的步骤。

本发明实施例提供的一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时，通过采用第一预设种类阈值判断待提取内容中热点词的种类是否达到热点内容应具有的热点词种类数量，将热点词种类数量作为热点内容的判断标准，增加了热点内容中热点词的种类，可以避免将内容为重复热点词的低质量内容确定为热点内容的情况，提高了热点内容确定的准确性。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一实施例中所述的热点内容的提取方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、DSL(Digital Subscriber Line，数字用户线)或无线(例如：红外线、无线电、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如：DVD(Digital Versatile Disc，数字通用光盘))、或者半导体介质(例如：SSD(Solid StateDisk，固态硬盘))等。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种热点内容的提取方法，其特征在于，所述方法包括：

获取待提取内容，所述待提取内容为预设热点内容库中的内容；

统计所述待提取内容中热点词的种类数量；

判断所述种类数量是否小于第一预设种类阈值；

若不小于，则将所述待提取内容作为热点内容。

2.根据权利要求1所述的方法，其特征在于，在所述判断所述种类数量是否小于第一预设种类阈值之前，所述方法还包括：

统计所述待提取内容的词语总数量；

判断所述词语总数量是否小于预设词语数量阈值；

若所述词语总数量小于所述预设词语数量阈值，则执行所述判断所述种类数量是否小于第一预设种类阈值。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

记录预先分配的所述待提取内容中各预设热点词的词条权重；

若所述词语总数量不小于所述预设词语数量阈值，则执行以下步骤：

判断所述种类数量是否小于第二预设种类阈值，以及各热点词的词条权重之和是否大于第一预设权重阈值；

若所述种类数量不小于所述第二预设种类阈值，且各热点词的词条权重之和大于所述第一预设权重阈值，则将所述待提取内容作为热点内容。

4.根据权利要求3所述的方法，其特征在于，在所述将所述待提取内容作为热点内容之后，所述方法还包括：

获取所述热点内容的用户操作信息，以及所述热点内容中热点词的词条权重之和；

基于所述用户操作信息以及所述热点词的词条权重之和，利用第一预设综合权重增长公式，计算得到所述热点词对所述热点内容的第一热度贡献值；

按照所述第一热度贡献值从大到小的顺序展示所述热点内容。

5.根据权利要求4所述的方法，其特征在于，在所述按照所述第一热度贡献值从大到小的顺序展示所述热点内容之前，所述方法还包括：

记录预先分配的所述待提取内容中各非热点词的词条权重；

判断所述热点内容中非热点词的词性是否为预设词性，以及非热点词的词条权重是否大于第二预设权重阈值；

若所述热点内容中非热点词的词性为所述预设词性，且所述非热点词的词条权重大于所述第二预设权重阈值，则确定所述非热点词作为备用热点词；

基于所述用户操作信息和所述备用热点词的词条权重，利用第二预设综合权重增长公式，计算得到所述备用热点词对所述热点内容的第二热度贡献值；

将所述第一热度贡献值和所述第二热度贡献值中更高的，作为所述热点内容的参考热度贡献值；

按照所述参考热度贡献值从大到小的顺序展示所述热点内容。

6.根据权利要求5所述的方法，其特征在于，所述热点内容的用户操作信息包括：热点内容的评论数量、分享数量、点赞数量、阅读数量以及热点内容创建时刻与当前时刻的时间差；

所述第一预设综合权重增长公式为：

其中，所述ΔW₁为所述第一热度贡献值，所述total_weight为所述热点词的词条权重之和，N_comment为所述热点内容的评论数量，N_share为所述热点内容的分享数量，N_like为所述热点内容的点赞数量，N_read为所述热点内容的阅读数量，Δt为所述热点内容创建时刻与当前时刻的时间差，η为预设时间衰减系数；

所述第二预设综合权重增长公式为：

其中，所述ΔW₂为所述第二热度贡献值，所述termweight为所述备用热点词的词条权重。

7.根据权利要求5所述的方法，其特征在于，在所述基于所述用户操作信息和所述备用热点词的词条权重，利用第二预设综合权重增长公式，计算得到所述备用热点词对所述热点内容的第二热度贡献值之后，所述方法还包括：

基于所述备用热点词，利用预设别名词库，获取所述备用热点词中属于所述预设别名词库的至少两个互为别名的词语，所述互为别名的词语为具有相同语义的不同词语；

将所述至少两个互为别名的备用热点词中、第二热度贡献值最高的词语作为合并备用热点词，并将所述至少两个互为别名的备用热点词的第二热度贡献值之和作为所述合并备用热点词的第二热度贡献值。

8.根据权利要求5所述的方法，其特征在于，在所述将所述第一热度贡献值和所述第二热度贡献值中更高的，作为所述热点内容的参考热度贡献值之前，所述方法还包括：

利用预设黑名单词库，将所述备用热点词中属于所述预设黑名单词库的词语删除。

9.根据权利要求5所述的方法，其特征在于，所述按照所述参考热度贡献值从大到小的顺序展示所述热点内容，包括：

按照所述参考热度贡献值从大到小的顺序，生成所述热点内容的展示页；

所述方法还包括：

按照所述第一热度贡献值和所述第二热度贡献值，对所述热点词和所述备用热点词进行排序，得到热议词序列；

从所述热议词序列中，选择预设数量个热度贡献值大于预设贡献值的词语，作为所述热点内容的热议词；

按照所述热议词的热度贡献值，生成并展示所述热议词的榜单。

10.根据权利要求1所述的方法，其特征在于，在所述将所述待提取内容作为热点内容之后，所述方法还包括：

判断所述热点内容中是否存在预设社交圈类别词；

若存在，则确定所述热点内容属于所述预设社交圈类别词对应的社交圈。

11.一种热点内容的提取装置，其特征在于，所述装置包括：

获取模块，用于获取待提取内容；

统计模块，用于统计所述待提取内容中热点词的种类数量；判断所述种类数量是否小于第一预设种类阈值；

提取模块，用于在所述种类数量不小于第一预设种类阈值时，将所述待提取内容作为热点内容。

12.根据权利要求11所述的装置，其特征在于，所述统计模块还用于：

统计所述待提取内容的词语总数量；判断所述词语总数量是否小于预设词语数量阈值；若所述词语总数量小于所述预设词语数量阈值，则执行所述判断所述种类数量是否小于第一预设种类阈值。

13.根据权利要求12所述的装置，其特征在于，所述统计模块还用于：

记录预先分配的所述待提取内容中各预设热点词的词条权重；若所述词语总数量不小于所述预设词语数量阈值，则执行以下步骤：判断所述种类数量是否小于第二预设种类阈值，以及各热点词的词条权重之和是否大于第一预设权重阈值；

所述提取模块还用于，在所述种类数量不小于所述第二预设种类阈值，且各热点词的词条权重之和大于所述第一预设权重阈值时，将所述待提取内容作为热点内容。

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：

热度贡献值计算模块，用于获取所述热点内容的用户操作信息，以及所述热点内容中热点词的词条权重之和；基于所述用户操作信息以及所述热点词的词条权重之和，利用第一预设综合权重增长公式，计算得到所述热点词对所述热点内容的第一热度贡献值；

展示模块，用于按照所述第一热度贡献值从大到小的顺序展示所述热点内容。

15.根据权利要求14所述的装置，其特征在于，所述热度贡献值计算模块，还用于：

记录预先分配的所述待提取内容中各非热点词的词条权重；

所述展示模块，具体用于按照所述参考热度贡献值从大到小的顺序展示所述热点内容。

16.根据权利要求15所述的装置，其特征在于，所述热点内容的用户操作信息包括：热点内容的评论数量、分享数量、点赞数量、阅读数量以及热点内容创建时刻与当前时刻的时间差；

所述第一预设综合权重增长公式为：

所述第二预设综合权重增长公式为：

17.根据权利要求15所述的装置，其特征在于，所述热度贡献值计算模块，还用于：

18.根据权利要求15所述的装置，其特征在于，所述热度贡献值计算模块，还用于：

19.根据权利要求15所述的装置，其特征在于，所述展示模块，具体用于：

20.根据权利要求11所述的装置，其特征在于，所述提取模块还用于：

判断所述热点内容中是否存在预设社交圈类别词；

21.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序，实现如权利要求1-10任一所述的方法步骤。