CN109190017B

CN109190017B - 热点信息的确定方法、装置、服务器及存储介质

Info

Publication number: CN109190017B
Application number: CN201810870702.3A
Authority: CN
Inventors: 水寒冰; 蔡慧慧; 姜国华; 花贵春; 赵兰天; 郎兵; 赵林; 胡博
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2020-11-10
Anticipated expiration: 2038-08-02
Also published as: CN109190017A

Abstract

本发明公开了一种热点信息的确定方法、装置、服务器及存储介质，属于互联网技术领域。所述方法包括：对基于当前时间窗口和历史时间窗口获取的文本信息进行处理，得到第一候选关键词集合和第二候选关键词集合；根据第一候选关键词集合和第二候选关键词集合，通过计算条件概率，确定主关键词；获取每个主关键词对应的副关键词；将每个主关键词及与其对应的副关键词组成热点信息。本发明通过对当前时间窗口和历史时间窗口获取的文本信息进行处理，得到两个候选关键词集合，并根据两个候选关键词集合，获取在当前时间窗口内具有热度的主关键词，进而将主关键词及其对应的副关键词作为热点信息。由于无需采用人工方式，因而所确定的热点信息更准确。

Description

热点信息的确定方法、装置、服务器及存储介质

技术领域

本发明涉及互联网技术领域，特别涉及一种热点信息的确定方法、装置、服务器及存储介质。

背景技术

随着互联网技术的发展，互联网逐渐成为信息传播的主要途径。虽然互联网上的海量文本信息能够给用户带来有价值的资讯，但也为用户的阅读带来了不便，这就需要从海量文本信息中确定出热门事件、热门话题等热点信息，进而基于所确定的热点信息向用户推荐时新性文本信息。

目前，主要由编辑人员根据各大新闻网站及社交平台所提供的资讯，并结合自身对热点信息的理解，确定出与热点信息有关的主关键词和副关键词，进而将该主关键词和副关键词组成热点信息。

由于相关技术所确定出的热点信息依赖于编辑人员的主观理解，而不同编辑人员对热点信息的理解可能存在一定的偏差，因此，相关技术所确定的热点信息并不准确。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种热点信息的确定方法、装置、服务器及存储介质。所述技术方案如下：

一方面，提供了一种热点信息的确定方法，所述方法包括：

获取第一语料信息集合和第二语料信息集合，所述第一语料信息集合包括至少一条发布时间位于历史时间窗口内的第一文本信息，所述第二语料信息集合包括至少一条发布时间位于当前时间窗口内的第二文本信息；

对所述第一语料信息集合中的第一文本信息和所述第二语料信息集合中的第二文本信息进行处理，得到第一候选关键词集合和第二候选关键词集合；

通过获取所述第二候选关键词集合中的每个候选关键词属于所述第一候选关键词集合的条件概率，确定至少一个主关键词；

根据每个主关键词和词向量模型，确定每个主关键词对应的副关键词，所述词向量模型用于输出与主关键词相关联的词语；

将每个主关键词及与其对应的副关键词组成热点信息。

另一方面，提供了一种热点信息的确定方法，所述方法包括：

根据预先设定的词频特征，确定每个词语在文本信息池包括的各条文本信息中的最大词频，所述文本信息池用于存储互联网上的文本信息；

根据每个词语的最大词频，获取每个词语在文本信息池中的TF-IDF(TermFrequency–Inverse Document Frequency，词频-逆文本频率指数)；

根据每个词语的TF-IDF，确定至少一个关键词；

根据所述至少一个关键词，对所述文本信息池中的文本信息进行聚类，得到至少一个第一文本信息类；

从所述至少一个第一类文本信息中，获取至少一条热点信息。

另一方面，提供了一种热点信息的确定装置，所述装置包括：

获取模块，用于获取第一语料信息集合和第二语料信息集合，所述第一语料信息集合包括至少一条发布时间位于历史时间窗口内的第一文本信息，所述第二语料信息集合包括至少一条发布时间位于当前时间窗口内的第二文本信息；

处理模块，用于对所述第一语料信息集合中的第一文本信息和所述第二语料信息集合中的第二文本信息进行处理，得到第一候选关键词集合和第二候选关键词集合；

确定模块，用于通过获取所述第二候选关键词集合中的每个候选关键词属于所述第一候选关键词集合的条件概率，确定至少一个主关键词；

所述确定模块，用于根据每个主关键词和词向量模型，确定每个主关键词对应的副关键词，所述词向量模型用于输出与主关键词相关联的词语；

组成模块，用于将每个主关键词及与其对应的副关键词组成热点信息。

确定模块，用于根据预先设定的词频特征，确定每个词语在文本信息池包括的各条文本信息中的最大词频，所述文本信息池用于存储互联网上的文本信息；

获取模块，用于根据每个词语的最大词频，获取每个词语在文本信息池中的词频-逆文本频率指数TF-IDF；

所述确定模块，用于根据每个词语的TF-IDF，确定至少一个关键词；

聚类模块，用于根据所述至少一个关键词，对所述文本信息池中的文本信息进行聚类，得到至少一个第一文本信息类；

所述获取模块，用于从所述至少一个第一类文本信息中，获取至少一条热点信息。

另一方面，提供了一种用于确定热点信息的服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现一方面所述的热点信息的确定方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现一方面所述的热点信息的确定方法。

本发明实施例提供的一个技术方案带来的有益效果是：

通过对当前时间窗口和历史时间窗口获取的文本信息进行处理，得到两个候选关键词集合，并根据两个候选关键词集合，获取在当前时间窗口内具有热度的主关键词，进而将主关键词及其对应的副关键词作为热点信息。由于无需采用人工方式，因而所确定的热点信息更准确。

本发明实施例提供的另一个技术方案带来的有益效果是：

基于预先设定的词频特征确定每个词语的最大词频，并根据每个词语的最大词频，获取每个词语的TF-IDF，进而根据每个词语的TF-IDF确定关键词，从而通过聚类得到热点信息。该过程不需要用户干预，得到的热点信息更准确。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种热点信息的确定方法所涉及的实施环境；

图2是本发明实施例提供的一种热点信息的确定方法的流程图；

图3是本发明实施例提供的一种热点信息的确定过程的流程图；

图4是本发明实施例提供的另一种热点信息的确定方法的流程图；

图5是本发明实施例提供的另一种热点信息的确定过程的流程图；

图6是本发明实施例提供的一种热点信息的确定装置的结构示意图；

图7是本发明实施例提供的一种热点信息的确定装置的结构示意图；

图8是根据一示例性实施例示出的一种用于热点信息的确定的服务器。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

请参考图1，其示出了本发明实施例提供的热点信息的确定方法所涉及的实施环境，该实施环境包括：终端101和服务器102。

其中，终端101可以为智能手机、平板电脑、笔记本电脑等，本发明实施例不对终端101的产品类型作具体的限定。终端101内安装有新闻资讯类应用，可显示服务器102推荐的热点信息，包括热门话题、热门人物、热门事件等等。

服务器102可以为新闻资讯类应用的后台服务器，能够通过新闻资讯类应用为用户提供各种资讯，以提高用户的活跃度。

本发明实施例提供了一种热点信息的确定方法，参见图2，本发明实施例提供的方法流程包括：

201、服务器获取第一语料信息集合和第二语料信息集合。

其中，第一语料信息集合包括至少一条发布时间位于历史时间窗口内的第一文本信息。历史时间窗口用于评估关键词在当前时间之前的一段时间段内的表现，该历史时间窗口的时长可根据第一文本信息所描述的事件本身的属性确定，如果第一文本信息所描述的事件持续时间较长，例如，奥运会、非典等，则可为历史时间窗口设置较长的时长，如，7天、10天、30天等；如果第一文本信息所描述的事件持续时间较短，例如，端午节、某明星的绯闻等，则可为历史时间窗口设置较短的时长，如，3天、5天等。

其中，第二语料信息集合包括至少一条发布时间位于当前时间窗口内的第二文本信息。当前时间窗口用于考察关键词在当前时间段内的表现，该当前时间窗口的时长一般较短，通常为2小时、3小时等，用以保证事件、话题的时新性。

服务器获取第一语料信息集合的方式，包括但不限于如下方式：服务器根据历史时间窗口，从文本信息池中获取发布时间位于历史时间窗口内的至少一条第一文本信息，并将至少一条第一文本信息组成第一语料信息集合。其中，文本信息池用于存储互联网上的文本信息。例如，设定历史时间窗口的时长为3天，当前时间为2018年6月4日00：00:00，服务器以2018年6月4日00:00:00为起点，从文本信息池中，选取发布时间位于2018年6月1日00:00:00至2018年6月4日00:00:00之间的至少一条第一文本信息，并将所获取的至少一条第一文本信息组成第一语料信息集合。

服务器获取第二语料信息集合的方式，包括但不限于如下方式：服务器根据当前时间窗口，从文本信息池中获取发布时间位于当前时间窗口内的至少一条第二文本信息，并将至少一条第二文本信息组成第二语料信息集合。例如，设定当前时间窗口的时长为2小时，当前时间为2018年6月4日12：00:00，服务器以2018年6月4日12：00:00为起点，从文本信息池中，选取发布时间位于2018年6月4日10:00:00至2018年6月4日12:00:00之间的至少一条第二文本信息，并将所获取的至少一条第二文本信息组成第二语料信息集合。

202、服务器对第一语料信息集合中的第一文本信息和第二语料信息集合中的第二文本信息进行处理，得到第一候选关键词集合和第二候选关键词集合。

第一候选关键词集合包括历史时间窗口内的至少一个候选关键词，该第一候选关键词集合的获取过程为：对于第一语料信息集合中的任一条第一语料信息，服务器提取该第一语料信息中的标题及标记词，并基于NLP(Natural Language Processing，自然语言处理)依次对提取的标题及标记词进行分词、去除停用词及提取实体词操作，得到第一语料信息的候选关键词，进而将所有第一语料信息的候选关键词组成第一候选关键词集合。其中，标记词为对第一语料信息进行处理时，所标记的不同词性的词语，主要包括时间、地点、人名等。停用词是指为节省存储空间和提高搜索效率，在处理文本信息之前或之后自动过滤掉的字或词，例如，限定词(例如，a、an、the、that、those等)、介词(例如，over、under、above等)。实体词主要包括名词、代词等。采用NLP依次对提取的标题及标记词进行分词、去除停用词及提取实词的过程为：获取预先建立的语料识别模型，基于所获取的语料识别模型，对第一语料信息进行标注，得到第一语料信息中每个词对应的语料标签，该语料标签包括人名、地点、时间等，然后根据标注结果，对第一语料信息进行分词，得到各个分词，接着，通过去除各个分词中的停用词，进而根据每个分词对应的语料标签，从去除停用词的各个分词中，提取实体词。其中，语料识别模型可根据人工标注的语料训练得到。

第二候选关键词集合包括当前时间窗口内的至少一个候选关键词，该第二候选关键词集合的获取过程为：对于第二语料信息集合中的任一条第二语料信息，服务器提取该第二语料信息中的标题及标记词，并基于NLP依次对提取的标题及标记词进行分词、去除停用词及实体词提取操作，得到第二语料信息的候选关键词，进而将所有第二语料信息的候选关键词组成第二候选关键词集合。

203、服务器通过获取第二候选关键词集合中的每个候选关键词属于第一候选关键词集合的条件概率，确定至少一个主关键词。

服务器通过获取第二候选关键词集合中的每个候选关键词属于第一候选关键词集合的条件概率，确定至少一个主关键词，该过程可采用如下步骤：

2031、服务器获取每个目标候选关键词在全局集合中的第一概率。

其中，目标候选关键词为同时属于第一候选关键词集合和第二候选关键词集合的候选关键词。全局集合为由第一候选关键词集合和第二候选关键词集合组成的集合。例如，第一候选关键词集合包括的关键词为“世界杯”、“足球”、“俄罗斯”、“梅西”、“C罗”等，第二候选关键词集合包括的关键词为“世界杯”、“冰岛”、“普京”等，则将将同时属于第一候选关键词集合和第二候选关键词集合的关键词“世界杯”作为目标候选关键词，将“世界杯”、“足球”、“俄罗斯”、“梅西”、“C罗”、“冰岛”、“普京”组成全局集合。

基于得到的全局集合，服务器统计全局集合中每个关键词的词频，得到全局集合中所有关键词的总词频，并计算每个目标候选关键词的词频与所有关键词的总词频的比值，得到每个目标候选关键词在全局集合中的第一概率。

2032、服务器获取每个目标候选关键词在第二候选关键词集合中的第二概率。

对于每个目标候选关键词，服务器统计每个目标候选关键词在第二候选关键词集合中的词频，并统计第二候选关键词集合中所有关键词的总词频，进而计算每个目标候选关键词的词频与所有关键词的总词频的比值，得到每个目标候选关键词在第二候选关键词集合中的第二概率。

2033、服务器将第一概率和第二概率输入到贝叶斯公式中，输出每个目标候选关键词属于第一候选关键词集合的条件概率。

其中，贝叶斯分类公式为利用概率统计知识进行分类的公式，该贝叶斯分类公式可以表示为P(C/X)*P(X)＝P(C)*P(X/C)。在本发明实施例中，C表示当前时间窗口内的目标候选关键词；P(C)表示目标候选关键词在第二候选关键词集合中的第二概率；X表示历史时间窗口内的目标候选关键词；P(X)表示目标候选关键词在第一候选关键词集合中的概率；P(X/C)表示第二候选关键词集合中的目标候选关键词属于第一候选关键词集合的概率；P(C/X)表示第一候选关键词集合中的目标候选关键词属于第二候选关键词集合的概率，由于事件C与事件X为独立事件，因此，P(X)*P(C/X)即为P(CX)。

基于所获取到的每个目标候选关键词在全局集合中的第一概率及每个目标候选关键词在第二候选关键词集合中的第二概率，服务器通过将第一概率和第二概率输入到贝叶斯公式中，可得到每个目标候选关键词在属于第二候选关键词集合的条件下属于第一候选关键词集合的条件概率，也即是，对于第二候选关键词集合中的目标候选关键词，属于第一候选关键词集合的概率。本发明实施例通过获取每个目标候选关键词在属于第二候选关键词集合的条件下属于第一候选关键词集合的条件概率，可获取到哪些在当前时间窗口和历史时间窗口内均可获取到的关键词，这些关键词也即是本发明实施例中的主关键词。

2034、服务器根据每个目标候选关键词属于第一候选关键词集合的条件概率，确定至少一个主关键词。

基于所得到的每个目标候选关键词在属于第二候选关键词集合的条件下属于第一候选关键词集合的条件概率，服务器按照由大到小的顺序对得到的各个条件概率进行排序，并根据排序结果，选取排位位于前a％的条件概率对应的目标候选关键词，进而将所选取的目标候选关键词作为至少一个主关键词。其中，a可以为5、6等，本发明实施例不对a的大小作具体的限定。

204、服务器根据每个主关键词和词向量模型，确定每个主关键词对应的副关键词。

其中，主关键词用于确定事件内容，副关键词用于对事件内容进一步限定。例如，主关键词为“世界杯”，副关键词为“俄罗斯”、“沙特”等。

其中，词向量模型用于输出与主关键词相关联的词语。词向量模型可根据第一候选关键词集合和第二候选关键词集合训练得到。具体的训练过程为：服务器从第一候选关键词集合和第二候选关键词集合中，获取来源于同一文本信息的关键词组，每个关键词组包括至少两个候选关键词，然后建立每个关键词组中候选关键词之间的对应关系，接着统计每个关键词组在全局集合中的词频，以确定不同候选关键词与同一候选关键词的关联分数，最终得到的每个关键词组中候选关键词之间的对应关系、及不同候选关键词与同一候选关键词的关联分数即为词向量模型。为了便于后续应用，服务器还将存储不同候选关键词与同一候选关键词的关联分数。

需要说明的是，服务器在训练词向量模型时，可采用全局语料训练适用于全局的词向量模型，还可采用外部来源过少的若干分类语料训练若干个词向量模型，用于对特定类别的热点信息进行发现，从而在外部信息中各个主题比例不均衡时，能够发现热点信息。例如，用户需要获取科技类热点信息，由于外部原因，很难获取到足够多的科技类文章，因此，无法及时向用户推荐科技类相关的文章。采用本发明实施例提供的方法，可针对不同的主题训练不同的词向量模型，从而能够获取到不同主题的热点信息，提高用户的体验效果。

服务器根据每个主关键词和词向量模型，确定每个主关键词对应的副关键词时，可采用如下步骤：

2041、服务器将每个主关键词输入到词向量模型中，输出与每个主关键词相关联的词语。

由于预先训练的词向量模型中存储有主关键词与其相关联的词语，因此，当服务器将每个主关键词输入到词向量模型中，可输出与每个主关键词相关联的词语。

2042、服务器按照与每个主关键词的关联程度，对与每个主关键词相关联的词语进行排序。

基于所存储的不同候选关键词与同一主关键词的关联分数，服务器按照关联分数的大小，确定不同候选关键词与每个主关键词的关联程度，进而按照与每个主关键词的关联程度，对与每个主关键词相关联的词语进行排序。

2043、服务器根据排序结果，获取预设数量个与每个主关键词对应的副关键词。

其中，预设数量可以为3个、5个等，本发明实施例不对预设数量作具体的限定。

205、服务器将每个主关键词及与其对应的副关键词组成热点信息。

基于所得到的每个主关键词及与其对应的副关键词，服务器可将每个主关键词及与其对应的副关键词组成热点信息。服务器将每个主关键词及与其对应的副关键词组成热点信息时，可将主关键词放在副关键词的前面，也可将主关键词放在副关键词的后面，本发明实施例对此不作具体的限定。

例如，主关键词为“世界杯”，副关键词为“俄罗斯”、“2018年”、“冰岛被淘汰”，则可组成“俄罗斯世界杯”、“2018年世界杯”、“世界杯冰岛被淘汰”等三条热点信息。

当获取到热点信息后，服务器根据热点信息，从文本信息池中获取对应的文本信息，并将获取到的文本信息加入到推荐信息池中，进而将推荐信息池中的文本信息推荐给用户。

本发明实施例提供的方法可应用于内容平台(kk.webdev.com)的运营模块中，基于本发明实施例的实现逻辑，可将当前热点事件相关的热门文章推荐给用户，从而保证良好的用户体验。

下述表1为采用人工方式所获取的热点信息的展示效果，表2为采用本发明实施例提供的方法获取的热点信息的展示效果。

表1

表2

以热点信息为热点事件为例，对于发明实施例提供的热点信息的确定方法，下面将以图3为例进行说明。

1、服务器将互联上的所有文章加入到文章池中。

2、服务器基于预先设置的当前时间窗口和历史时间窗口，从文章池中获取语料。

3、服务器基于NLP技术对历史时间窗口下获取的每条语料进行分词、去除停用词及实体词提取处理，得到至少一个第一候选关键词；服务器对当前时间窗口下获取的每条语料进行分词、去除停用词及实体词提取处理，得到至少一个第二候选关键词。服务器根据至少一个第一候选关键词和至少一个第二候选关键词，获取全局语料统计特征(全局集合)，以及目标候选关键词。

4、服务器基于目标候选关键词和全局语料统计特征，采用贝叶斯公式，计算目标候选关键词在当前时间窗口下针对历史时间窗口的表现，即条件概率，并对条件概率进行排序，得到至少一个主关键词。

5、服务器根据至少一个第一候选关键词和至少一个第二候选关键词，训练词向量模型，并根据至少一个主关键词和词向量模型，确定每个主关键词对应的副关键词。

6、服务器将主关键词及其对应的副关键词组成热点信息。

本发明实施例提供的方法，通过对当前时间窗口和历史时间窗口获取的文本信息进行处理，得到两个候选关键词集合，并根据两个候选关键词集合，获取在当前时间窗口内具有热度的主关键词，进而将主关键词及其对应的副关键词作为热点信息。由于无需采用人工方式，因而所确定的热点信息更准确。

本发明实施例提供了一种热点信息的确定方法，参见图4，本发明实施例提供的方法流程包括：

401、服务器根据预先设定的词频特征，确定每个词语在文本信息池包括的各条文本信息中的最大词频。

当前在采用TF-IDF方法对一条文本信息中的词频进行统计时，往往根据词语出现的次数进行确定，例如，某个词语在文本信息中出现20次，则记录该词语的词频为20。然后，在同一文本信息中多次出现的词语并不能代表该词语的重要性，如某个词语在一条文本信息中出现100，但在其他文本信息中出现0次，而另一个词语在一条文本信息中出现1次，但在其他100条文本信息中均出现，相比之下，后者更能表征词语的重要性。另外，在不同类别的文本信息中，同一实体词不应当被等权重看待，例如，“工作”是一个电影名字，在电影类文本信息中出现应当提高其权重值，而在社会类文本信息中出现时，不应当被提高权重值。

基于上述考虑，本发明实施例提供的方法可预先设置词频特征，进而根据词频特征，确定每个词语在文本信息池包括的各条文本信息中的最大词频。其中，词频特征包括词语类型及词语位置等至少一项。词语类型包括实体词、虚词等，实体词包括人名、地名、机构名、产品名、专业术语、专业实体等。词语位置包括标题位置、首句位置等。文本信息池用于存储互联网上的文本信息。

服务器根据预先设定的词频特征，确定每个词语在文本信息池包括的各条文本信息中的最大词频时，可采用如下步骤：

4011、服务器根据词语类型及词语位置中至少一项，确定每个词语在每条文本信息中的词频权重。

在执行本步骤之前，服务器可设置如下两条词频权重规则：

第一、考虑到同一实体词在不同类别的文本信息中具有不同类别，当实体词的类别与文本信息的类别相同时，增加实体词的词频权重，将其权重值设置为第一数值，该第一数值可以为2、3等。

第二、考虑到标题和首句作为文本信息的核心内容，可对标题和首句中出现的词语，增加其权重值，将其权重值设置为第二数值，该第二数值可以为5、6等。

基于预先设置的词频权重规则，服务器可确定出每个词语在每条文本信息中的词频权重。

4012、服务器根据每个词语在每条文本信息中的词频权重和每个词语在每条文本信息中的出现的次数，确定每个词语在每条文本信息中的词频。

为避免同一条文本信息中词语的词频过高，服务器根据每个词语在每条文本信息中的词频权重和每个词语在每条文本信息中的出现的次数，采用如下公式，确定出每个词语在每条文本信息中的词频TF：

TF＝log(n_i+1)

其中，n_i为词语i在一条文本信息中出现的次数。

例如，词语“科技”在一篇文章中出现的次数为5次，该文章的类别为科技类文章，词语“科技”的词频权重为3，则词语“科技”在该篇文章中的词频TF＝log(n_i+1)＝log(5*3+1)＝log16。

4013、服务器根据每个词语在各条文本信息中的词频，获取每个词语的最大词频。

服务器统计每个词语在各条文本信息中的词频，根据每个词语在各条文本信息中的词频，获取每个词语的最大词频。

402、服务器根据每个词语的最大词频，获取每个词语在文本信息池中的TF-IDF。

对于任一词语，服务器获取包括待确定词语的文本信息数量为a，并获取文本信息池包括的文本信息数量为b，进而采用公式log(b/a)，获取该词语的IDF，然后将该词语的最大词频与该词语的IDF的乘积，作为该词语在文本信息池中的TF-IDF。由于在自然语言处理领域，TF-IDF能够反应词语在文本信息池所包括的文本信息中的重要程度，TF-IDF的值越大，说明该词语的重要程度越高，该词语在各种文本信息中出现的概率越大，包括该词语的信息为热点信息的可能性越高；同理，TF-IDF的值越小，说明该词语的重要程度越低，该词语在各种文本信息中出现的概率越小，包括该词语的信息为热点信息的可能性越低，因此，本发明实施例提供的方法通过获取到的每个词语的TF-IDF，可快速获取到热点信息。

例如，词语“母牛”的最大词频为0.02，文本信息池的文章数量为100000，包括“母牛”的文章数量为1000篇，词语“母牛”的IDF为log(100000/1000)＝2，词语“母牛”在文本信息池中的TF-IDF为0.02*2＝0.04。

403、服务器根据每个词语的TF-IDF，确定至少一个关键词。

当获取到每个词语的TF-IDF后，服务器对每个词语的TF-IDF按照由大到小的顺序进行排序，并根据排序结果，将排位在前d％的TF-IDF对应的词语作为关键词。其中，d可根据服务器的处理能力确定，如果处理能力强，d可以取相对较大的数值，如果处理能力弱，d可以取相对较小的数值。

采用该种方法，能够从文本信息池中获取到在某一文本信息中出现次数较多，但涉及文本信息数量较少的词语作为关键词。

404、服务器根据至少一个关键词，对文本信息池中的文本信息进行聚类，得到至少一个第一文本信息类。

基于所得到的至少一个关键词，服务器根据至少一个关键词，对文本信息池中的文本信息进行聚类，得到至少一个第一文本信息类时，可采用如下步骤4041～4042：

4041、服务器以至少一个关键词为特征元素，根据每条文本信息中所包括的关键词，确定每条文本信息的文本特征向量。

服务器以至少一个关键词为特征元素，构建一个参考特征向量，并根据每条文本信息中关键词的存在情况，确定关键词所对应的特征元素的系数，如果文本信息包括某一关键词，则该关键词所对应的特征元素的系数为1，如果文本信息不包括某一关键词，则该关键词对应的特征元素的系数为0，采用该种方式，可得到每条文本信息的文本特征向量。

4042、服务器将文本特征向量之间的相似度满足阈值条件的至少两个文本信息聚为一个第一类文本信息。

服务器计算任意两个文本信息的文本特征向量的相似度，如果任意两个文本信息的文本特征向量之间的相似度满足大于预设阈值，则将该这两个文本信息聚为一类。服务器通过对文本信息进行相似度计算，最终将文本特征向量之间的相似度满足阈值条件的至少两个文本信息聚为一个第一类文本信息。其中，预设阈值可以为0.8、0.9等。

在本发明的另一个实施例中，为降低所加入的文本信息与第一类文本信息中其他已加入的文本信息之间的差异性，服务器在将该文本信息加入第一类文本信息时，可根据第一类文本信息中已包括的文本信息对应的文本特征向量，获取第一类文本信息的平均文本特征向量，并将平均文本特征向量作为该第一类文本信息的中心特征向量，然后计算该文本信息的文本特征向量与该第一类文本信息的中心特征向量之间的相似度，如果该文本信息的文本特征向量与该第一类文本信息的中心特征向量之间的相似度大于预设阈值，且第一类文本信息中与该文本信息的文本特征向量之间的相似度大于预设阈值的文本信息的百分比大于预设阈值，则将该文本信息加入到该第一类文本信息中。

405、服务器从至少一个第一类文本信息中，获取至少一条热点信息。

基于所得到的至少一个第一类文本信息，服务器可根据类内每条文本信息的文本特征向量与类的中心特征向量之间的相似度，将相似度最高的文本信息的标题作为该类的热点信息；服务器还可统计类内关键词出现次数，将出现次数较高的至少一个关键词作为该类的热点信息，当然，服务器还可采用其他方式获取每个第一类文本信息的热点信息，此处不再一一说明。

在本发明的另一个实施例中，服务器从至少一个第一类文本信息中，获取至少一条热点信息之前，还可根据所包括的文本信息的发布时间及数量，对至少一个第一类文本信息进行筛选。具体地，服务器可根据类内文本信息的发布时间，对类内的文本信息进行筛选，例如，若文本信息的发布时间在3天前，则淘汰该文本信息；服务器还可根据类内所包括文本信息的最早发布时间，对第一类文本信息进行筛选，例如，若类内文本信息的最早发布时间在3天前，则淘汰该第一类文本信息；服务器还可根据第一类内所包括的文本信息的最早发布时间及包括的文本信息的数量，对第一类文本信息进行筛选，例如，类内文本信息的最早发布时间距离当前时间2个小时，且该类包括的文本信息的数量小于4条，则淘汰该第一类文本信息。

本发明实施例采用凝聚层次的聚类得到的热点信息的粒度较细，因而可采用二次聚类的方式对不同的热点信息进行聚类。具体进行二次聚类时，服务器可根据每个第一类文本信息包括的文本信息的文本特征向量，获取每条热点信息的中心特征向量，并计算任意两条热点信息的中心特征向量之间的相似度，以及任意两条热点信息的中心特征向量中关键词之间的覆盖度，然后将中心特征向量之间的相似度及中心特征向量中关键词之间的覆盖度均满足阈值条件的至少两个第一类文本信息进行合并，得到至少一个第二类文本信息。

在本发明的另一个实施例中，服务器将相似度和覆盖度均满足阈值条件的至少两个第一类文本信息进行合并得到至少一个第二类文本信息后，服务器还将对至少一个第二类文本信息及每个第二类文本信息所包括的文本信息进行排序。

服务器对至少一个第二类文本信息进行排序时，可根据第二类文本信息中包括的文本信息数量、文本信息的媒体源得分、结束时间距离当前时间的远近、与人工热点信息的相似度等至少一项进行排序。

在本发明的一个实施例中，第二类文本信息包括的文本信息数量越多，说明第二类文本信息越热，排序时其权重值越高。例如，对于两个第二类文本信息A和B，如果A包括的文本信息数量为1000条，B包括的文本信息数量为10000条，则排序时B的权重值比A的权重值要高。

在本发明的另一个实施例中，第二类文本信息包括的文本信息的媒体源得分越高(可信度高，信息准确性高)，说明第二类文本信息越热，排序时其权重值越高。例如，对于两个第二类文本信息A和B，均包括10000条文本信息，A中5000条文本信息来源于第一媒体，5000条文本信息来源于第二媒体，B中1000条文本信息来源于第一媒体，9000条文本信息来源于第二媒体，如果第一媒体发布的信息相对第二媒体发布的信息质量要高，则排序时A的权重值比B的权重值要高。

在本发明的另一个实施例中，第二类文本信息结束时间距离当前时间越近话题越近，排序时其权重值越高。例如，第二类文本信息的结束时间距离当前时间在1小时内，排序时设置权重值为15，第二类文本信息的结束时间距离当前时间在1小时到2小时之间，排序时设置权重值为10，第二类文本信息的结束时间距离当前时间在2小时到4小时之间，排序时设置权重值为7，第二类文本信息的结束时间距离当前时间在4小时到24小时之间，排序时设置权重值为4，第二类文本信息的结束时间距离当前时间在24小时以上，排序时设置权重值为-1。

在本发明的另一个实施例中，第二类文本信息与人工热点信息之间的相似度越高，排序时其权重值越高。例如，人工热点信息为“2018年俄罗斯世界杯”，第二类文本信息A为“2018年世界杯”，第二类文本信息B为“世界杯”，第二类文本信息A与人工热点信息之间的相似度相对第二类文本信息B要高，排序时第二类文本信息A的权重值高于第二类文本信息B。

服务器对第二类文本信息所包括的文本信息进行排序时，可根据文本信息发布时间距离当前时间的远近、文本信息的媒体源得分、与第二类文本信息的中心特征向量之间的相似度、标题中的词语与第二类文本信息的中心特征向量包括的关键词之间的覆盖度等至少一项进行排序。

在本发明的一个实施例中，对于第二类文本信息中的条文本信息，如果该文本信息的发布时间与当前时间的距离较近，则排序时可为其设置较高的权重值。例如，文本信息A的发布时间距离当前时间1小时，文本信息B的发布时间距离当前时间2小时，则排序时为文本信息A设置的权重值要高于文本信息B的权重值。

在本发明的一个实施例中，对于任一个第二类文本信息，其所包括的文本信息的媒体源得分越高，排序时为其设置的权重值越高。例如，文本信息A的媒体源得分相对文本信息B的媒体源得分要高，则排序时为文本信息A设置的权重值要高于文本信息B的权重值。

在本发明的一个实施例中，对于任一个第二类文本信息，其所包括的文本信息与第二类文本信息的中心特征向量之间的相似度，排序时为其设置的权重值越高。

在本发明的一个实施例中，对于任一个第二类文本信息，其所包括的文本信息的标题中的词语与第二类文本信息的中心特征向量包括的关键词之间的覆盖度越高，排序时为其设置的权重值越高。

以热点信息为热点话题为例，对于本发明实施例提供的热点信息的确定方法，下面将以图5为例进行说明。

1、服务器从多角度上选择词频权重，确定每个词语的词频，进而确定出每个词语的TF-IDF。

2、服务器基于TF-IDF所确定的至少一个关键词，在凝聚层次上对文本信息池中的文本信息进行聚类。

3、服务器对聚类后的话题进行话题优化及话题淘汰。

4、服务器对优化及淘汰后的话题进行二次聚类。

5、服务器对二次聚类后的话题及话题下的文章进行排序。

本发明实施例提供的方法，基于预先设定的词频特征确定每个词语的最大词频，并根据每个词语的最大词频，获取每个词语的TF-IDF，进而根据每个词语的TF-IDF确定关键词，从而通过聚类得到热点信息。该过程不需要用户干预，得到的热点信息更准确。

参见图6，本发明实施例提供了一种热点信息的确定装置，该装置包括：

获取模块601，用于获取第一语料信息集合和第二语料信息集合，第一语料信息集合包括至少一条发布时间位于历史时间窗口内的第一文本信息，第二语料信息集合包括至少一条发布时间位于当前时间窗口内的第二文本信息；

处理模块602，用于对第一语料信息集合中的第一文本信息和第二语料信息集合中的第二文本信息进行处理，得到第一候选关键词集合和第二候选关键词集合；

确定模块603，用于通过获取第二候选关键词集合中的每个候选关键词属于第一候选关键词集合的条件概率，确定至少一个主关键词；

确定模块603，用于根据每个主关键词和词向量模型，确定每个主关键词对应的副关键词，词向量模型用于输出与主关键词相关联的词语；

组成模块604，用于将每个主关键词及与其对应的副关键词组成热点信息。

在本发明的另一个实施例中，获取模块601，用于根据历史时间窗口，从文本信息池中获取发布时间位于历史时间窗口内的至少一条第一文本信息，并将至少一条第一文本信息组成第一语料信息集合，文本信息池用于存储互联网上的文本信息；根据当前时间窗口从文本信息池中，获取发布时间位于当前时间窗口内的至少一条第二文本信息，并将至少一条第二文本信息组成第二语料信息集合。

在本发明的另一个实施例中，处理模块602，用于对于第一语料信息集合中的任一条第一语料信息，提取第一语料信息中的标题及标记词，依次对提取的标题及标记词进行分词、去除停用词及提取实体词操作，得到第一语料信息的候选关键词，将所有第一语料信息的候选关键词组成第一候选关键词集合；

处理模块602，还用于对于所述第二语料信息集合中的任一条第二语料信息，提取所述第二语料信息中的标题及标记词，依次对提取的标题及标记词进行分词、去除停用词及提取实体词操作，得到第二语料信息的候选关键词，将所有第二语料信息的候选关键词组成所述第二候选关键词集合。

在本发明的另一个实施例中，确定模块603，用于获取每个目标候选关键词在全局集合中的第一概率，目标候选关键词为同时属于第一候选关键词集合和第二候选关键词集合的候选关键词，全局集合为由第一候选关键词集合和第二候选关键词集合组成的集合；获取每个目标候选关键词在第二候选关键词集合中的第二概率；将第一概率和第二概率输入到贝叶斯公式中，输出每个目标候选关键词属于第一候选关键词集合的条件概率；根据每个目标候选关键词属于第一候选关键词集合的条件概率，确定至少一个主关键词。

在本发明的另一个实施例中，确定模块603，用于将每个主关键词输入到词向量模型中，输出与每个主关键词相关联的词语；按照与每个主关键词的关联程度，对与每个主关键词相关联的词语进行排序；根据排序结果，获取预设数量个与每个主关键词对应的副关键词。

综上，本发明实施例提供的装置，通过对当前时间窗口和历史时间窗口获取的文本信息进行处理，得到两个候选关键词集合，并根据两个候选关键词集合，获取在当前时间窗口内具有热度的主关键词，进而将主关键词及其对应的副关键词作为热点信息。由于无需采用人工方式，因而所确定的热点信息更准确。

参见图7，本发明实施例提供了一种热点信息的确定装置，该装置包括：

确定模块701，用于根据预先设定的词频特征，确定每个词语在文本信息池包括的各条文本信息中的最大词频，文本信息池用于存储互联网上的文本信息；

获取模块702，用于根据每个词语的最大词频，获取每个词语在文本信息池中的词频-逆文本频率指数TF-IDF；

确定模块701，用于根据每个词语的TF-IDF，确定至少一个关键词；

聚类模块703，用于根据至少一个关键词，对文本信息池中的文本信息进行聚类，得到至少一个第一文本信息类；

获取模块702，用于从至少一个第一类文本信息中，获取至少一条热点信息。

在本发明的另一个实施例中，确定模块701，用于根据词语类型及词语位置中至少一项，确定每个词语在每条文本信息中的词频权重；根据每个词语在每条文本信息中的词频权重和每个词语在每条文本信息中的出现的次数，确定每个词语在每条文本信息中的词频；根据每个词语在各条文本信息中的词频，获取每个词语的最大词频。

在本发明的另一个实施例中，聚类模块703，用于以至少一个关键词为特征元素，根据每条文本信息中所包括的关键词，确定每条文本信息的文本特征向量；将文本特征向量之间的相似度满足阈值条件的至少两个文本信息聚为一个第一类文本信息。

在本发明的另一个实施中，该装置还包括：

筛选模块，用于根据所包括的文本信息的发布时间及数量，对至少一个第一类文本信息进行筛选。

在本发明的另一个实施中，该装置还包括：

获取模块702，用于根据每个第一类文本信息包括的文本信息的文本特征向量，获取每条热点信息的中心特征向量；

合并模块，用于将中心特征向量之间的相似度及中心特征向量中关键词之间的覆盖度均满足阈值条件的至少两个第一类文本信息进行合并，得到至少一个第二类文本信息。

在本发明的另一个实施中，该装置还包括：

排序模块，用于对至少一个第二类文本信息及每个第二类文本信息所包括的文本信息进行排序。

本发明实施例提供的装置，基于预先设定的词频特征确定每个词语的最大词频，并根据每个词语的最大词频，获取每个词语的TF-IDF，进而根据每个词语的TF-IDF确定关键词，从而通过聚类得到热点信息。该过程不需要用户干预，得到的热点信息更准确。

图8是根据一示例性实施例示出的一种用于热点信息的确定的服务器。参照图8，服务器800包括处理组件822，其进一步包括一个或多个处理器，以及由存储器832所代表的存储器资源，用于存储可由处理组件822的执行的指令，例如应用程序。存储器832中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件822被配置为执行指令，以执行图2或图4所述的热点信息的确定方法中服务器所执行的功能。

服务器800还可以包括一个电源组件826被配置为执行服务器800的电源管理，一个有线或无线网络接口850被配置为将服务器800连接到网络，和一个输入输出(I/O)接口858。服务器800可以操作基于存储在存储器832的操作系统，例如Windows Server^TM，Mac OSX^TM，Unix^TM,Linux^TM，FreeBSD^TM或类似。

本发明实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现图2或图4所述的热点信息的确定方法。

需要说明的是：上述实施例提供的热点信息的确定装置在确定热点信息时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将热点信息的确定装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的热点信息的确定装置与热点信息的确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种热点信息的确定方法，其特征在于，所述方法包括：

将每个主关键词及与其对应的副关键词组成热点信息。

2.根据权利要求1所述的方法，其特征在于，所述获取第一语料信息集合和第二语料信息集合，包括：

根据所述历史时间窗口，从文本信息池中获取发布时间位于所述历史时间窗口内的至少一条第一文本信息，并将所述至少一条第一文本信息组成所述第一语料信息集合，所述文本信息池用于存储互联网上的文本信息；

根据所述当前时间窗口，从所述文本信息池中获取发布时间位于所述当前时间窗口内的至少一条第二文本信息，并将所述至少一条第二文本信息组成所述第二语料信息集合。

3.根据权利要求1所述的方法，其特征在于，所述对所述第一语料信息集合中的第一文本信息和所述第二语料信息集合中的第二文本信息进行处理，得到第一候选关键词集合和第二候选关键词集合，包括：

对于所述第一语料信息集合中的任一条第一语料信息，提取所述第一语料信息中的标题及标记词，依次对提取的标题及标记词进行分词、去除停用词及提取实体词操作，得到第一语料信息的候选关键词，将所有第一语料信息的候选关键词组成所述第一候选关键词集合；

对于所述第二语料信息集合中的任一条第二语料信息，提取所述第二语料信息中的标题及标记词，依次对提取的标题及标记词进行分词、去除停用词及提取实体词操作，得到第二语料信息的候选关键词，将所有第二语料信息的候选关键词组成所述第二候选关键词集合。

4.根据权利要求1所述的方法，其特征在于，所述通过获取所述第二候选关键词集合中的每个候选关键词属于所述第一候选关键词集合的条件概率，确定至少一个主关键词，包括：

获取每个目标候选关键词在全局集合中的第一概率，所述目标候选关键词为同时属于所述第一候选关键词集合和所述第二候选关键词集合的候选关键词，所述全局集合为由所述第一候选关键词集合和所述第二候选关键词集合组成的集合；

获取每个目标候选关键词在所述第二候选关键词集合中的第二概率；

将所述第一概率和所述第二概率输入到贝叶斯公式中，输出每个目标候选关键词属于所述第一候选关键词集合的条件概率；

根据每个目标候选关键词属于所述第一候选关键词集合的条件概率，确定所述至少一个主关键词。

5.根据权利要求1所述的方法，其特征在于，所述根据每个主关键词和词向量模型，确定每个主关键词对应的副关键词，包括：

将每个主关键词输入到所述词向量模型中，输出与每个主关键词相关联的词语；

按照与每个主关键词的关联程度，对与每个主关键词相关联的词语进行排序；

根据排序结果，获取预设数量个与每个主关键词对应的副关键词。

6.一种热点信息的确定装置，其特征在于，所述装置包括：

7.一种用于确定热点信息的服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至5中任一项所述的热点信息的确定方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至5中任一项所述的热点信息的确定方法。