CN108763208B

CN108763208B - 话题信息获取方法、装置、服务器和计算机可读存储介质

Info

Publication number: CN108763208B
Application number: CN201810494662.7A
Authority: CN
Inventors: 许浩然; 柯君; 玄琨; 陈晓宾; 任金明
Original assignee: Tencent Technology Shanghai Co Ltd
Current assignee: Tencent Technology Shanghai Co Ltd
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2023-09-05
Anticipated expiration: 2038-05-22
Also published as: CN108763208A

Abstract

本发明公开了一种话题信息获取方法、装置、服务器和计算机可读存储介质，属于计算机技术领域。所述方法包括：根据多个文本包含的多个词语，获取所述多个文本中每个文本的文本特征；根据所述多个文本中每个文本的文本特征，对所述多个文本进行聚类，得到多个文本集；按照所述多个文本集中每个文本集的文本数量由大到小的顺序，从所述多个文本集中获取至少一个文本集；根据所述至少一个文本集的文本内容，确定目标话题信息。本发明中多个文本集是根据文本特征聚类得到的，因而该多个文本集的聚类准确度较高，且由于是直接根据该多个文本集中的至少一个文本集的文本内容来确定目标话题信息，所以得到的目标话题信息的准确性较高。

Description

话题信息获取方法、装置、服务器和计算机可读存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种话题信息获取方法、装置、服务器和计算机可读存储介质。

背景技术

随着计算机技术的发展，诸如贴吧、社区、论坛等网络板块已经成为用户获取信息和交流沟通的重要场所，这些网络板块可以收集并提供丰富的话题信息给用户，用户可以根据所提供的话题信息来获知当前的舆论热点。

目前，获取话题信息时，可以将网络板块中发布的文本进行分词，得到多个词语，然后统计该多个词语中每个词语在文本中的出现次数，将出现次数较多的词语按照词性拼接成话题信息。例如，出现次数较多的词语为“一个”、“是”、“游戏”，则可以将这三个词语按照词性拼接成话题信息“是一个游戏”。

然而，通过上述方式获取话题信息时，由于仅是将在文本中出现次数较多的词语机械的拼接成话题信息，所以导致得到的话题信息的准确性较低。

发明内容

本发明实施例提供了一种话题信息获取方法、装置、服务器和计算机可读存储介质，可以解决相关技术中话题信息的准确性较低的问题。所述技术方案如下：

一方面，提供了一种话题信息获取方法，所述方法包括：

根据多个文本包含的多个词语，获取所述多个文本中每个文本的文本特征；

根据所述多个文本中每个文本的文本特征，对所述多个文本进行聚类，得到多个文本集；

按照所述多个文本集中每个文本集的文本数量由大到小的顺序，从所述多个文本集中获取至少一个文本集；

根据所述至少一个文本集的文本内容，确定目标话题信息。

可选地，所述根据多个文本包含的多个词语，获取所述多个文本中每个文本的文本特征之前，还包括：

获取多个初始文本；

对所述多个初始文本中的垃圾文本进行过滤，和/或，对所述多个初始文本中的重复文本进行过滤，得到所述多个文本。

可选地，所述对所述多个初始文本中的垃圾文本进行过滤，包括：

通过文本类别识别模型确定所述多个初始文本中每个初始文本的类别，所述文本类别识别模型用于根据历史垃圾文本的文本特征对初始文本的类别进行识别；

对所述多个初始文本中为垃圾文本类别的初始文本进行过滤。

可选地，所述对所述多个初始文本中的重复文本进行过滤，包括：

确定所述多个初始文本中每个初始文本的第一特征值；

对所述多个初始文本中与其它任一初始文本的第一特征值之间的相似度大于或等于第一预设相似度的初始文本进行过滤。

可选地，所述方法还包括：

确定所述多个词语中每个词语的权重和词性；

根据所述多个词语中每个词语的权重和词性，从所述多个词语中获取至少一个目标词。

可选地，所述从所述多个词语中获取至少一个目标词之后，还包括：

当接收到终端发送的目标词搜索请求时，确定所述至少一个目标词中每个目标词在所述多个文本中的热度；

将所述至少一个目标词和所述至少一个目标词中每个目标词的热度发送给所述终端，由所述终端显示所述至少一个目标词和所述至少一个目标词中每个目标词的热度。

一方面，提供了一种话题信息获取装置，所述装置包括：

第一获取模块，用于根据多个文本包含的多个词语，获取所述多个文本中每个文本的文本特征；

聚类模块，用于根据所述多个文本中每个文本的文本特征，对所述多个文本进行聚类，得到多个文本集；

第二获取模块，用于按照所述多个文本集中每个文本集的文本数量由大到小的顺序，从所述多个文本集中获取至少一个文本集；

第一确定模块，用于根据所述至少一个文本集的文本内容，确定目标话题信息。

可选地，所述装置还包括：

第三获取模块，用于获取多个初始文本；

过滤模块，用于对所述多个初始文本中的垃圾文本进行过滤，和/或，对所述多个初始文本中的重复文本进行过滤，得到所述多个文本。

可选地，所述过滤模块包括：

第一确定单元，用于通过文本类别识别模型确定所述多个初始文本中每个初始文本的类别，所述文本类别识别模型用于根据历史垃圾文本的文本特征对初始文本的类别进行识别；

第一过滤单元，用于对所述多个初始文本中为垃圾文本类别的初始文本进行过滤。

可选地，所述过滤模块包括：

第二确定单元，用于确定所述多个初始文本中每个初始文本的第一特征值；

第二过滤单元，用于对所述多个初始文本中与其它任一初始文本的第一特征值之间的相似度大于或等于第一预设相似度的初始文本进行过滤。

可选地，所述第一获取模块包括：

第一分词单元，用于对所述多个文本中每个文本进行分词处理，得到所述每个文本包含的至少一个词语；

第三确定单元，用于确定所述每个文本包含的至少一个词语中每个词语的权重；

第四确定单元，用于根据所述每个文本包含的至少一个词语中每个词语的权重，确定所述每个文本的文本特征。

可选地，所述第三确定单元包括：

获取子单元，用于获取所述至少一个词语中每个词语在多个样本文本中的逆文档频率；

第一确定子单元，用于确定所述每个词语在所述每个文本中的词频；

第二确定子单元，用于根据所述每个词语的逆文档频率和词频，确定所述每个词语的权重。

可选地，所述第四确定单元包括：

第三确定子单元，用于根据所述至少一个词语中每个词语的权重，确定预设词汇表中包括的所有词语中每个词语的权重；

组成子单元，用于按照所述预设词汇表中包括的所有词语的排列顺序，将所述预设词汇表中包括的所有词语中每个词语的权重作为元素组成目标特征向量；

第四确定子单元，用于将所述目标特征向量确定为所述每个文本的文本特征。

可选地，所述第一获取模块包括：

获取单元，用于获取所述每个文本包含的至少一个词语中一部分词语的关联词语；

第五确定单元，用于确定所述一部分词语的关联词语中每个关联词语的权重，以及确定另一部分词语中每个词语的权重，所述另一部分词语为所述每个文本包含的至少一个词语中除所述一部分词语之外的词语；

第六确定单元，用于根据所述一部分词语的关联词语中每个关联词语的权重和所述另一部分词语中每个词语的权重，确定所述每个文本的文本特征。

可选地，所述第一确定模块包括：

提取单元，用于提取所述至少一个文本集中每个文本集中文本的标题；

第七确定单元，用于将所述至少一个文本集中每个文本集中文本的标题确定为目标话题信息。

可选地，所述装置还包括：

第三获取模块，用于每隔预设周期获取在本周期内发布的多个第一文本；

第四获取模块，用于获取所述多个第一文本中每个第一文本的文本特征；

触发模块，用于根据所述多个第一文本和所述多个第一文本中每个第一文本的文本特征，更新所述多个文本集，并触发所述第二获取模块按照所述多个文本集中每个文本集的文本数量由大到小的顺序，从所述多个文本集中获取至少一个文本集。

可选地，所述装置还包括：

第二确定模块，用于从所述多个文本集中获取第一文本集，所述第一文本集中的新增文本数量大于或等于第一预设数量；根据所述第一文本集的文本内容，确定目标话题信息；

和/或，

第三确定模块，用于从所述多个文本集中获取第二文本集，所述第二文本集在至少两个连续周期内的新增文本数量均大于或等于第二预设数量；根据所述第二文本集的文本内容，确定目标话题信息。

可选地，所述装置还包括：

第四确定模块，用于确定所述多个词语中每个词语的权重和词性；

第五获取模块，用于根据所述多个词语中每个词语的权重和词性，从所述多个词语中获取至少一个目标词。

可选地，所述装置还包括：

第五确定模块，用于当接收到终端发送的目标词搜索请求时，确定所述至少一个目标词中每个目标词在所述多个文本中的热度；

第一发送模块，用于将所述至少一个目标词和所述至少一个目标词中每个目标词的热度发送给所述终端，由所述终端显示所述至少一个目标词和所述至少一个目标词中每个目标词的热度。

可选地，所述装置还包括：

第一接收模块，用于接收关联词获取请求；

第六确定模块，用于如果所述关联词获取请求携带至少一个词语，则从所述多个文本中确定至少一个第二文本，所述至少一个第二文本中的每个第二文本包含所述至少一个词语；

第七确定模块，用于确定所述至少一个第二文本包含的所有词语中每个词语在所述至少一个文本中的热度；

第六获取模块，用于按照热度由大到小的顺序，从所述至少一个文本包含的所有词语中获取关联词；

第二发送模块，用于将所述关联词和所述关联词的热度发送给所述终端，由所述终端显示所述关联词和所述关联词的热度。

可选地，所述装置还包括：

第二接收模块，用于接收关联文本获取请求；

第七获取模块，用于如果所述关联文本获取请求携带至少一个词语，则从所述多个文本中获取至少一个第二文本，所述至少一个第二文本中的每个第二文本包含所述至少一个词语；

第八确定模块，用于将所述至少一个第二文本中所述至少一个词语的出现次数大于或等于第一预设次数的文本确定为关联文本；

第三发送模块，用于将所述关联文本发送给所述终端，由所述终端显示所述关联文本。

可选地，所述装置还包括：

第三接收模块，用于接收关联话题获取请求；

第八获取模块，用于如果所述关联话题获取请求携带至少一个词语，则从所述多个文本集中获取至少一个第三文本集，所述至少一个第三文本集中每个第三文本集包含所述至少一个词语；

第九确定模块，用于根据所述至少一个第三文本集中所述至少一个词语的出现次数大于或等于第二预设次数的文本集的文本内容，确定关联话题信息；

第四发送模块，用于将所述关联话题信息发送给所述终端，由所述终端显示所述关联话题信息。

一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的话题信息获取方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的话题信息获取方法。

本发明实施例提供的技术方案，根据多个文本包含的多个词语，获取该多个文本中每个文本的文本特征后，可以根据该多个文本中每个文本的文本特征，对该多个文本进行聚类，得到多个文本集。之后，按照该多个文本集中每个文本集的文本数量由大到小的顺序，从该多个文本集中获取至少一个文本集，并根据该至少一个文本集的文本内容，确定目标话题信息。由于该多个文本集是根据文本特征聚类得到的，所以该多个文本集的聚类准确度较高，且由于是直接根据该多个文本集中的至少一个文本集的文本内容来确定目标话题信息，所以得到的目标话题信息的准确性较高。

附图说明

图1是本发明实施例提供的一种实施环境的示意图；

图2是本发明实施例提供的一种话题信息获取方法的流程图；

图3是本发明实施例提供的一种目标词的显示示意图；

图4是本发明实施例提供的另一种目标词的显示示意图；

图5是本发明实施例提供的一种话题信息获取装置的结构示意图；

图6是本发明实施例提供的另一种话题信息获取装置的结构示意图。

具体实施方式

下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细地解释说明之前，对本发明实施例涉及的应用场景和实施环境予以说明。

首先，对本发明实施例涉及的应用场景进行说明。

本发明实施例提供了一种话题信息获取方法，可以应用于话题信息获取场景，具体可以应用于海量文本下的热点话题分析场景，当然，也可以应用于其它话题信息获取场景，本发明实施例对此不作限定。

其次，对本发明实施例涉及的实施环境进行说明。

图1是本发明实施例提供的一种实施环境的示意图。参见图1，该实施环境包括：多个终端101、用于为多个终端101提供服务的服务器102，多个终端101与服务器102通过无线网络或有线网络进行连接。

多个终端101可以为能够访问服务器102的电子设备，该电子设备可以为智能手机、平板电脑等电子设备。多个终端101中可以安装有诸如贴吧、社区、论坛等网络板块，用户可以在这些网络板块中发布文本。

服务器102可以为一个服务器或服务器集群，服务器102可以从网络板块中收集话题信息。例如，服务器102可以为游戏服务器，从游戏论坛中收集游戏热点话题。进一步地，服务器102还可以具有至少一种数据库，用以存储网络板块中发布的文本、话题信息等。

接下来对本发明实施例提供的话题信息获取方法进行说明。

图2是本发明实施例提供的一种话题信息获取方法的流程图，该方法可以应用于服务器。参见图2，该方法包括：

步骤201：获取多个初始文本。

需要说明的是，该多个初始文本可以为安装有网络板块的终端生成并上传的文本，即为用户使用用户账号在网络板块中发布的文本，如可以为用户使用用户账号在贴吧、社区、论坛等网络板块中发布的帖子等。

另外，该多个初始文本可以为用户在一段时间内在网络板块中发布的所有文本，如该多个初始文本可以为用户在三天内、五天内、一周内等在网络板块中发布的所有文本。

步骤202：对该多个初始文本中的垃圾文本进行过滤，和/或，对该多个初始文本中的重复文本进行过滤，得到多个文本。

需要说明的是，垃圾文本是指包含的内容无关紧要的文本，如垃圾文本可以为无意义水帖、主题无关帖、广告帖等。重复文本是指与其它文本的重复度较高的文本，如重复文本可以为重复水帖等。垃圾文本和重复文本均为可靠性较低的文本。

另外，本发明实施例中为了避免可靠性较低的初始文本对后续话题信息获取的准确性造成影响，可以对该多个初始文本中的垃圾文本和重复文本进行过滤，来留下可靠性较高的多个文本。

其中，对该多个初始文本中的垃圾文本进行过滤时，可以通过文本类别识别模型确定该多个初始文本中每个初始文本的类别，对该多个初始文本中为垃圾文本类别的初始文本进行过滤。

需要说明的是，文本类别识别模型可以预先进行设置，且文本类别识别模型用于对文本的类别进行识别，即将某一文本输入文本类别识别模型后，文本类别识别模块将会输出该文本的类别。

另外，文本类别识别模型用于根据历史垃圾文本的文本特征对初始文本的类别进行识别，即文本类别识别模型可以是使用历史垃圾文本集对神经网络模型进行训练后得到。该历史垃圾文本集和该神经网络模型均可以预先进行设置，该历史垃圾文本集中所有的历史垃圾文本的类别均为垃圾文本类别，该神经网络模型可以为深度学习框架keras下的LSTM(Long Short-Term Memory，长短期记忆)神经网络模型，当然，也可以为其它神经网络模型，本发明实施例对此不作限定。

值得说明的是，通过文本类别识别模型实现对该多个初始文本中类别为垃圾文本类别的初始文本的过滤，即是实现对该多个初始文本中的垃圾文本的过滤，从而可以留下可靠性较高的文本。

其中，对该多个初始文本中的重复文本进行过滤时，可以确定该多个初始文本中每个初始文本的第一特征值，对该多个初始文本中与其它任一初始文本的第一特征值之间的相似度大于或等于第一预设相似度的初始文本进行过滤。

需要说明的是，某个初始文本的第一特征值与另一个初始文本的第一特征值之间的相似度大于或等于第一预设相似度时，说明这两个初始文本之间的重复度较高，此时这两个初始文本很有可能是重复文本，因而可以对这两个初始文本进行过滤。

另外，第一预设相似度可以预先进行设置，且第一预设相似度可以设置的较大，如第一预设相似度可以为0.8、0.9等。

值得说明的是，根据初始文本的第一特征值实现对该多个初始文本中与其它任一初始文本的第一特征值之间的相似度大于或等于第一预设相似度的初始文本的过滤，即是实现对该多个初始文本中的重复文本的过滤，从而可以留下可靠性较高的文本。

需要说明的是，第一特征值可以为simhash值，两个初始文本的第一特征值之间的相似度可以根据这两个初始文本的simhash值之间的海明距离得到。例如，两个初始文本的第一特征值之间的相似度可以为1-n/m，n为这两个初始文本的simhash值之间的海明距离，m为这两个初始文本中任一初始文本的simhash值的总位数。

另外，一个初始文本的simhash值与另一个初始文本的simhash值之间的海明距离为这两个初始文本的simhash值的对应位上取值不同的位数。例如，一个初始文本的simhash值为10101，另一个初始文本的simhash值为00110，从第一位开始，这两个初始文本的simhash值中依次有第一位、第四位、第五位不同，则这两个初始文本的simhash值之间的海明距离为3。

其中，确定某个初始文本的simhash值时，可以对该初始文本进行分词处理，得到多个词语；确定该多个词语中每个词语的权重；按照权重由大到小的顺序，从该多个词语中获取k个词语，k为正整数；确定该k个词语中每个词语的hash值；对于该k个词语中的某个词语，如果该词语的hash值的某个位上的值为1，则将该位上的值加上该词语的权重，如果该词语的hash值的某个位上的值为0，则将该位上的值减去该词语的权重，得到该词语的加权值；将该多个词语中每个词语的加权值进行累加，得到该初始文本的累加值；如果该初始文本的累加值的某个位上的值为正数，则将该位上的值设为1，如果该初始文本的累加值的某个位上的值为负数，则将该位上的值设为0，得到该初始文本的simhash值。

需要说明的是，对该初始文本进行分词处理，即是将该初始文本切分成一个个单独的词语。例如，该初始文本为“看见灰色外星人”，则对该初始文本进行分词处理，可以得到多个词语为“看见”、“灰色”、“外星人”。

另外，词语的权重用于指示词语对于文件集中的一份文件的重要程度，对该初始文本进行分词处理等得到的该多个词语中某个词语的权重即用于指示该词语对于该多个初始文本中该初始文本的重要程度。例如，该词语的权重可以为该词语的TF-IDF(termfrequency-inverse document frequency，词频-逆文档频率)等。

其中，确定该多个词语中某个词语的权重时，可以获取该词语在多个样本文本中的逆文档频率，确定该词语在该初始文本中的词频，根据该词语的逆文档频率和词频，确定该词语的权重。

需要说明的是，该多个样本文本可以预先进行设置，且该多个样本文本可以是从发布的所有文本中获取得到，本发明实施例对此不作限定。

另外，该词语在该初始文本中的词频即是指该词语在该初始文本中出现的频率，即该词语在该初始文本中的词频可以是将该词语在该初始文本中的出现次数除以该初始文本中包含的所有词语的出现次数之和后得到。

再者，根据该词语的逆文档频率和词频，确定该词语的权重时，可以是将该词语的逆文档频率与词频相乘后，得到该词语的权重，此时该词语的权重即为该词语的TF-IDF。

其中，获取该词语在多个样本文本中的逆文档频率时，可以将多个第二词语中与该词语相同的第二词语的逆文档频率确定为该词语在多个样本文本中的逆文档频率。

进一步地，在将多个第二词语中与该词语相同的第二词语的逆文档频率确定为该词语在多个样本文本中的逆文档频率之前，还可以获取该多个第二词语中每个第二词语的逆文档频率。具体地，可以将该多个样本文本进行分词处理，得到多个第二词语；对于该多个第二词语中的某个第二词语，根据该多个样本文本的数量和该多个样本文本中包含有该第二词语的样本文本的数量，确定该第二词语的逆文档频率。

需要说明的是，对该多个样本文本进行分词处理，即是将该多个样本文本切分成一个个单独的第二词语。例如，该多个样本文本分别为“我的是审判者”、“审判者飞刀技巧详解”，则对该多个样本文本进行分词处理，可以得到多个第二词语为“我的”、“是”、“审判者”、“飞刀”、“技巧”、“详解”。

其中，根据该多个样本文本的数量和该多个样本文本中包含有该第二词语的样本文本的数量，确定该第二词语的逆文档频率时，可以将该多个样本文本的数量除以该多个样本文本中包含有该第二词语的样本文本的数量后得到该第二词语的逆文档频率，或者，可以将该多个样本文本的数量除以该多个样本文本中包含有该第二词语的样本文本的数量后得到的数值取对数后得到该第二词语的逆文档频率。

值得注意的是，实际应用中，某个样本文本包含的第二词语可以通过该样本文本的词袋向量来表示，该样本文本的词袋向量可以是将该样本文本包含的第二词语在预设词汇表中的排列位置作为元素组成得到。

需要说明的是，预设词汇表可以预先进行设置，且预设词汇表中包括的词语是按一定的顺序进行排列的，如预设词汇表可以如下表1所示，此时预设词汇表中包括的词语的排列顺序为：“啊”-“版本”-“更新”……“貂蝉”-“王者荣耀”，且对应的排列位置为：1-2-3……9999-10000。

表1

本发明实施例仅以上表1为例对预设词汇表进行说明，上表1并不对本发明实施例构成限定。

例如，该样本文本包含的第二词语为“版本”和“更新”，且“版本”在如上表1所示的预设词汇表中的排列位置为2，“更新”在如上表1所示的预设词汇表中的排列位置为3，则可以将这两个排列位置作为元素组成该样本文本的词袋向量为[2，3]。

这种情况下，可以根据该多个样本文本中每个样本文本的词袋向量来确定该多个第二词语中每个第二词语的逆文档频率，具体地，可以将该多个样本文本中每个样本文本的词袋向量输入gensim模型中，由该gensim模型输出各个元素的逆文档频率，将各个元素的逆文档频率确定为预设词汇表中各个元素指示的排列位置上的第二词语的逆文档频率。

需要说明的是，通过上述步骤202得到多个文本后，后续即可通过步骤203-步骤205来根据该多个文本包含的多个词语，来获取目标话题信息。为了便于将该多个文本包含的词语与上述多个初始文本包含的词语和第二词语进行区分，以下将该多个文本包含的词语称为第一词语。

步骤203：根据该多个文本包含的多个第一词语，获取该多个文本中每个文本的文本特征。

具体地，步骤203可以通过如下两种方式实现：

第一种方式：对该多个文本中每个文本进行分词处理，得到该每个文本包含的至少一个第一词语；确定该每个文本包含的至少一个第一词语中每个第一词语的权重；根据该每个文本包含的至少一个第一词语中每个第一词语的权重，确定该每个文本的文本特征。

需要说明的是，对该多个文本中每个文本进行分词处理，即是将该每个文本切分成一个个单独的第一词语。例如，该每个文本为“王者荣耀是国内现在最火热的游戏”，则对该每个文本进行分词处理，得到该每个文本包含的至少一个第一词语为“王者荣耀”、“是”、“国内”、“现在”、“最”、“火热的”、“游戏”。

另外，该每个文本包含的第一词语的权重用于指示第一词语对于该多个文本中该每个文本的重要程度。例如，第一词语的权重可以为第一词语的TF-IDF等。

其中，确定该每个文本包含的至少一个第一词语中每个第一词语的权重时，可以获取该至少一个第一词语中每个第一词语在该多个样本文本中的逆文档频率，确定该每个第一词语在该每个文本中的词频，根据该每个第一词语的逆文档频率和词频，确定该每个第一词语的权重。

需要说明的是，获取该至少一个第一词语中每个第一词语在该多个样本文本中的逆文档频率的操作与上述步骤202中获取该词语在多个样本文本中的逆文档频率的操作类似，本发明实施例对此不再赘述。

另外，确定该每个第一词语在该每个文本中的词频的操作与上述步骤202中确定该词语在该初始文本中的词频的操作类似，本发明实施例对此不再赘述。

再者，根据该每个第一词语的逆文档频率和词频，确定该每个第一词语的权重的操作与上述步骤202中根据该词语的逆文档频率和词频，确定该词语的权重的操作类似，本发明实施例对此不再赘述。

其中，根据该每个文本包含的至少一个第一词语中每个第一词语的权重，确定该每个文本的文本特征时，可以根据该至少一个第一词语中每个第一词语的权重，确定预设词汇表中包括的所有词语中每个词语的权重；按照预设词汇表中包括的所有词语的排列顺序，将预设词汇表中包括的所有词语中每个词语的权重作为元素组成目标特征向量；将目标特征向量确定为该每个文本的文本特征。

需要说明的是，预设词汇表可以用于指示特征向量的各个词语维度，即预设词汇表包括的所有词语的总数量为特征向量的维数，且预设词汇表包括的某个词语的排列位置与特征向量中包括的该词语的权重的排列位置相同。

例如，预设词汇表中包括的所有词语中每个词语的权重如表2所示，则按照预设词汇表中包括的所有词语的排列顺序，将预设词汇表中包括的所有词语中每个词语的权重作为元素组成目标特征向量为[0，0.01，0.01，……，0.05，0.02]，将目标特征向量[0，0.01，0.01，……，0.05，0.02]确定为该每个文本的文本特征。

表2

位置	权重
		1	0
2	0.01
		3	0.01
……	……
		9999	0.05
10000	0.02

本发明实施例仅以上表2为例对预设词汇表中包括的所有词语中每个词语的权重进行说明，上表2并不对本发明实施例构成限定。

其中，根据该至少一个第一词语中每个第一词语的权重，确定预设词汇表中包括的所有词语中每个词语的权重时，对于预设词汇表中包括的某个词语，如果该至少一个第一词语中存在与该词语相同的第一词语，则将与该词语相同的第一词语的权重确定为该词语的权重，如果该至少一个第一词语中不存在与该词语相同的第一词语，则将0确定为该词语的权重。

第二种方式：对该多个文本中每个文本进行分词处理，得到该每个文本包含的至少一个第一词语；获取该每个文本包含的至少一个第一词语中一部分第一词语的关联词语；确定该一部分第一词语的关联词语中每个关联词语的权重，以及确定另一部分第一词语中每个第一词语的权重，该另一部分第一词语为该每个文本包含的至少一个第一词语中除该一部分第一词语之外的第一词语；根据该一部分第一词语的关联词语中每个关联词语的权重和该另一部分第一词语中每个第一词语的权重，确定该每个文本的文本特征。

需要说明的是，该一部分第一词语的关联词语为与该一部分第一词语存在关联关系的词语，即该一部分第一词语的关联词语可以为该一部分第一词语的近义词。

其中，获取该每个文本包含的至少一个第一词语中一部分第一词语的关联词语时，可以从存储的关联词语表中，获取该一部分第一词语的关联词语。

需要说明的是，该关联词语表中包括存在关联关系的词语，且可以是一个词语与另一个词语存在关联关系，也可以是多个词语与另外一个词语存在关联关系，还可以是多个词语与其它多个词语存在关联关系。该关联词语表可以是技术人员手动设置得到，也可以是通过机器学习自动得到，本发明实施例对此不作限定。

例如，该每个文本包含的至少一个第一词语为“王者荣耀”、“李白”、“大招”、“现在”、“最”、“厉害”，则可以从如下表3所示的关联词语表中，获取该每个文本包含的至少一个第一词语中一部分第一词语“王者荣耀”、“李白”和“大招”的关联词语为“青莲剑歌”。

表3

关联词语
	王者荣耀、李白、大招——青莲剑歌
王者荣耀、曹操、皮肤——烛龙
	王者荣耀、霸王别姬——虞姬、项羽
……

本发明实施例仅以上表3为例对关联词语表进行说明，上表3并不对本发明实施例构成限定。

其中，确定该一部分第一词语的关联词语中每个关联词语的权重，以及确定另一部分第一词语中每个第一词语的权重的操作与上述第一种方式中确定该每个文本包含的至少一个第一词语中每个第一词语的权重的操作类似，本发明实施例对此不再赘述。

其中，根据该一部分第一词语的关联词语中每个关联词语的权重和该另一部分第一词语中每个第一词语的权重，确定该每个文本的文本特征的操作与上述第一种方式中根据该每个文本包含的至少一个第一词语中每个第一词语的权重，确定该每个文本的文本特征的操作类似，本发明实施例对此不再赘述。

步骤204：根据该多个文本中每个文本的文本特征，对该多个文本进行聚类，得到多个文本集。

需要说明的是，该多个文本集中每个文本集均包括至少一个文本，且该多个文本集中的某个文本集包括的一个文本与该文本集包括的其它文本相似，与除该文本集之外的其它文本集包括的文本相异。

具体地，对于该多个文本中两个文本，确定这两个文本的文本特征之间的相似度，如果这两个文本的文本特征之间的相似度大于或等于第二预设相似度，则可以将这两个文本归类到同一文本集。

需要说明的是，这两个文本的文本特征之间的相似度可以为这两个文本的文本特征之间的夹角余弦(Cosine)、汉明距离(Hamming distance)、皮尔逊相关系数(Pearsoncorrelation)、杰卡德相似系数(Jaccard similarity coefficient)、布雷柯蒂斯距离(Bray Curtis Distance)、欧氏距离(Euclid Distance)等，本发明实施例对此不作限定。

另外，第二预设相似度可以预先进行设置，且第二预设相似度可以设置的较大，如第二预设相似度可以为0.8、0.9等，本发明实施例对此不作限定。

值得注意的是，可以通过两个向量的夹角大小来判断两个向量之间的相似度，即如果两个向量的夹角越小，那么两个向量越相似，如果两个向量的夹角越大，那么两个向量越不相似。可以使用余弦值来计算两个向量的夹角，即给定三角形的三个边，就可以用余弦定理求出三角形的各个角的角度，假设三角形的三条边分别为a、b、c，那么b边与c边的夹角的余弦值为此时如果b边和c边看成是以A为起点的向量，那么该公式等价于/>其中，分母表示以A为起点的向量b和向量c的长度，分子表示向量b和向量c的内积。

这种情况下，以这两个文本的文本特征之间的相似度为这两个文本的文本特征之间的夹角余弦为例，对确定这两个文本的文本特征之间的相似度的操作进行说明。具体地，可以根据这两个文本的文本特征，通过如下公式获取这两个文本的文本特征之间的相似度：

其中，cos(θ)为这两个文本的文本特征之间的相似度，这两个文本中的一个文本的文本特征为[x₁，x₂，……，x₁₀₀₀₀]，另一个文本的文本特征为[y₁，y₂，……，y₁₀₀₀₀]。

此时这两个文本的文本特征的夹角的余弦值在0到1之间，也就是说，这两个文本的夹角在0度到90度之间。当这两个文本的文本特征的夹角的余弦值等于1时，这两个文本的文本特征的夹角为零，表明这两个文本完全相同；当这两个文本的文本特征的夹角的余弦值接近于1时，表明这两个文本相似，可以认为属于同一类；当这两个文本的文本特征的夹角的余弦值趋近于零甚至于等于零时，表明这两个文本的相似度很低，甚至完全无关，可以认为是两种完全不同的文本。

步骤205：按照该多个文本集中每个文本集的文本数量由大到小的顺序，从该多个文本集中获取至少一个文本集；根据该至少一个文本集的文本内容，确定目标话题信息。

需要说明的是，目标话题信息可以为用户经常关注和讨论的话题信息，即可以为通常所说的热点话题。

另外，根据该至少一个文本集的文本内容，确定目标话题信息时，是根据该至少一个文本集中各个文本集的文本内容，确定各个文本集对应的目标话题信息，从而最终会得到至少一个目标话题信息。

再者，由于该多个文本集是根据文本特征聚类得到的，所以该多个文本集的聚类准确度较高。之后，由于是根据该多个文本集中的至少一个文本集的文本内容来确定目标话题信息，所以得到的目标话题信息的准确性较高。

其中，根据该至少一个文本集的文本内容，确定目标话题信息时，可以提取该至少一个文本集中的每个文本集中文本的标题，将该至少一个文本集中的每个文本集中文本的标题确定为目标话题信息。

值得说明的是，由于是直接提取至少一个文本集中的每个文本集中文本的标题作为目标话题信息，所以得到的目标话题信息的可读性较高。

例如，该至少一个文本集为文本集1和文本集2，则可以提取文本集1中的一个文本的标题作为文本集1对应的目标话题信息，如可以提取文本集1中发布时间最早的一个文本的标题或提取文本集1中任意一个文本的标题作为文本集1对应的目标话题信息；提取文本集2中的一个文本的标题作为文本集2对应的目标话题信息，如可以提取文本集2中发布时间最早的一个文本的标题或提取文本集2中任意一个文本的标题作为文本集2对应的目标话题信息。

进一步地，在通过上述步骤205得到目标话题信息之后，还可以通过如下步骤206-步骤207来定期将一段时间内发布的新文本与之前聚类得到的多个文本集进行聚合，以实现对多个文本集的更新，继而实现对目标话题信息的更新。

步骤206：每隔预设周期获取在本周期内发布的多个第一文本，获取该多个第一文本中每个第一文本的文本特征。

需要说明的是，预设周期可以预先进行设置，如预设周期可以为两天、三天、四天等。

另外，该多个第一文本可以为在本周期内安装有网络板块的终端生成并上传的文本，即可以为本周期内用户使用用户账号在网络板块中发布的文本。

其中，获取该多个第一文本中每个第一文本的文本特征的操作与上述步骤203中获取该多个文本中每个文本的文本特征的操作类似，本发明实施例对此不再赘述。

步骤207：根据该多个第一文本和该多个第一文本中每个第一文本的文本特征，更新多个文本集，并返回步骤205。

其中，根据该多个第一文本和该多个第一文本中每个第一文本的文本特征，更新多个文本集时，可以根据该多个第一文本和该多个第一文本中每个第一文本的文本特征，将该多个第一文本与之前聚类得到的多个文本集中的文本进行聚类，得到更新后的多个文本集。

需要说明的是，根据该多个第一文本和该多个第一文本中每个第一文本的文本特征，将该多个第一文本与之前聚类得到的多个文本集中的文本进行聚类，得到更新后的多个文本集的操作与上述步骤204中根据该多个文本中每个文本的文本特征，对该多个文本进行聚类，得到多个文本集的操作类似，本发明实施例对此不再赘述。

另外，更新多个文本集并返回步骤205后，将可以通过步骤205根据更新后的多个文本集中的至少一个文本集的文本内容确定目标话题信息，实现对目标话题信息的更新。

值得注意的是，这种情况下，不仅可以返回步骤205来确定目标话题信息，还可以根据多个文本集在每次更新时的文本数量变化来确定目标话题信息，具体可以通过如下方式1和/或方式2实现。

方式1：从该多个文本集中获取第一文本集，根据第一文本集的文本内容，确定目标话题信息。

需要说明的是，第一文本集中的新增文本数量大于或等于第一预设数量，第一预设数量可以预先进行设置，且第一预设数量可以设置的较大。

另外，第一文本集中的新增文本数量大于或等于第一预设数量，说明第一文本集的文本数量增加较多，因而第一文本集的文本内容很有可能是用户近期关注和讨论较多的内容，所以可以根据第一文本集的文本内容，确定目标话题信息。

其中，根据第一文本集的文本内容，确定目标话题信息的操作与上述步骤205中根据该至少一个文本集的文本内容，确定目标话题信息的操作类似，本发明实施例对此不再赘述。

方式2：从该多个文本集中获取第二文本集，根据第二文本集的文本内容，确定目标话题信息。

需要说明的是，第二文本集在至少两个连续周期内的新增文本数量均大于或等于第二预设数量，第二预设数量可以预先进行设置，且第二预设数量可以设置的较大。

另外，第二文本集在至少两个连续周期内的新增文本数量均大于或等于第二预设数量，说明本次更新时和上次更新时第二文本集的文本数量均增加较多，即第二文本集的文本数量一直在稳步增加，因而第二文本集的文本内容很有可能是用户近期一直关注和讨论的内容，所以可以根据第二文本集的文本内容，确定目标话题信息。

其中，根据第二文本集的文本内容，确定目标话题信息的操作与上述步骤205中根据该至少一个文本集的文本内容，确定目标话题信息的操作类似，本发明实施例对此不再赘述。

进一步地，本发明实施例不仅可以通过上述步骤201-步骤207来自动发现目标话题信息，还可以通过如下步骤3001-步骤3002来自动发现目标词。

步骤3001：确定该多个文本包含的多个第一词语中每个第一词语的权重和词性，根据该多个第一词语中每个第一词语的权重和词性，从该多个第一词语中获取至少一个目标词。

需要说明的是，该多个文本包含的多个第一词语可以是对该多个文本进行分词处理得到，即是将该多个文本切分成一个个单独的第一词语。

另外，词语的词性可以包括名词、动词、形容词、区别词、副词、代词、数词、量词、拟声词、叹词、介词、连词、助词、语气词等。

其中，根据该多个第一词语中每个第一词语的权重和词性，从该多个第一词语中获取至少一个目标词时，可以先根据各个第一词语的词性，获取各个第一词语的第二特征值，将各个第一词语的权重与第二特征值相乘，得到各个第一词语的第三特征值，按照该多个第一词语中每个第一词语的第三特征值由大到小的顺序，从该多个第一词语中获取至少一个目标词。

需要说明的是，为了便于用户对目标词的搜索，在得到至少一个目标词之后，可以将该至少一个目标词保存到搜索引擎中，该搜索引擎可以采用ElasticSearch作为底层存储，来提供准确、实时、高性能、高可用的搜索服务，当然，也可以采用其它搜索程序作为底层存储，本发明实施例对此不作限定。

其中，根据各个第一词语的词性，获取各个第一词语的第二特征值时，可以根据各个第一词语的词性，从存储的词性与第二特征值之间的对应关系中，获取对应的第二特征值作为各个第一词语的第二特征值。

步骤3002：当接收到终端发送的目标词搜索请求时，确定该至少一个目标词中每个目标词的热度，将该至少一个目标词和该至少一个目标词中每个目标词的热度发送给终端，由终端显示该至少一个目标词和该至少一个目标词中每个目标词的热度。

其中，确定该至少一个目标词中每个目标词的热度时，可以将各个目标词在该多个文本中出现的总次数作为各个目标词的热度，或者，可以将各个目标词的第二特征值与各个目标词在该多个文本中出现的总次数相乘，得到各个目标词的热度，当然，也可以通过其它方式确定该至少一个目标词中每个目标词的热度，本发明实施例对此不作限定。

需要说明的是，该目标词搜索请求中还可以携带查询词，在此情况下，可以直接将该查询词确定为目标词，并确定该查询词在该多个文本中的热度，将该查询词和该查询词的热度发送给终端，由终端显示该查询词和该查询词的热度。

另外，该目标词搜索请求中携带的查询词为终端在进行该目标词搜索请求的发送时所选中或输入的词语。

其中，确定该查询词在该多个文本中的热度的操作与上述步骤3002中确定该至少一个目标词中每个目标词的热度的操作类似，本发明实施例对此不再赘述。

进一步地，本发明实施例还可以通过如下步骤3003、步骤3004、步骤3005中来分别挖掘第一词语的关联词、关联文本和关联话题信息。

步骤3003：接收关联词获取请求；如果该关联词获取请求携带至少一个第一词语，则从该多个文本中确定至少一个第二文本，该至少一个第二文本中的每个第二文本包含该至少一个第一词语；确定该至少一个第二文本包含的所有第一词语中每个第一词语在该至少一个文本中的热度；按照热度由大到小的顺序，从该至少一个文本包含的所有第一词语中获取关联词；将该关联词和该关联词的热度发送给终端，由终端显示该关联词和该关联词的热度。

需要说明的是，关联词获取请求用于请求获取关联词获取请求携带的至少一个第一词语的关联词，该关联词获取请求携带的至少一个第一词语为终端在进行该关联词获取请求的发送时所选中或输入的词语。

例如，关联词获取请求携带的至少一个第一词语可以是从终端显示的目标词中选择得到，也可以是由用户输入得到，还可以是从终端显示的关联词中选择得到，当然，也可以一部分是从终端显示的目标词和/或关联词中选择得到，另一部分是由用户输入得到，本发明实施例对不作限定。

其中，确定该至少一个第二文本包含的所有第一词语中每个第一词语在该至少一个文本中的热度的操作与上述步骤3002中确定该至少一个目标词中每个目标词的热度的操作类似，本发明实施例对此不再赘述。

步骤3004：接收关联文本获取请求；如果该关联文本获取请求携带至少一个第一词语，则从该多个文本中获取至少一个第二文本，该至少一个第二文本中的每个第二文本包含该至少一个词语；将该至少一个第二文本中该至少一个第一词语的出现次数大于或等于第一预设次数的文本确定为关联文本；将该关联文本发送给终端，由终端显示该关联文本。

需要说明的是，关联文本获取请求用于请求获取该关联文本获取请求携带的至少一个第一词语的关联文本，该关联文本获取请求携带的至少一个第一词语为终端在进行该关联文本获取请求的发送时所选中或输入的词语。

例如，关联文本获取请求携带的至少一个第一词语可以是从终端显示的目标词中选择得到，也可以是由用户输入得到，还可以是从终端显示的关联词中选择得到，当然，也可以一部分是从终端显示的目标词和/或关联词中选择得到，另一部分是由用户输入得到，本发明实施例对不作限定。

另外，第一预设次数可以预先进行设置，且第一预设次数可以设置的较大。

进一步地，获取到关联文本之后，还可以获取该关联文本的浏览量，在将该关联文本发送给终端的同时将该关联文本的浏览量也发送给终端，由终端显示该关联文本及其浏览量。

步骤3005：接收关联话题获取请求；如果该关联话题获取请求携带至少一个第一词语，则从该多个文本集中获取至少一个第三文本集，该至少一个第三文本集中每个第三文本集包含该至少一个第一词语；根据该至少一个第三文本集中该至少一个第一词语的出现次数大于或等于第二预设次数的文本集的文本内容，确定关联话题信息；将该关联话题信息发送给终端，由终端显示该关联话题信息。

需要说明的是，关联话题获取请求用于请求获取关联话题获取请求携带的至少一个第一词语的关联话题，该关联话题获取请求携带的至少一个第一词语为终端在进行该关联话题获取请求的发送时所选中或输入的词语。

例如，关联话题获取请求携带的至少一个第一词语可以是从终端显示的目标词中选择得到，也可以是由用户输入得到，还可以是从终端显示的关联词中选择得到，当然，也可以一部分是从终端显示的目标词和/或关联词中选择得到，另一部分是由用户输入得到，本发明实施例对不作限定。

另外，第二预设次数可以预先进行设置，且第二预设次数可以设置的较大。

其中，根据该至少一个第三文本集中该至少一个第一词语的出现次数大于或等于第二预设次数的文本集的文本内容，确定关联话题信息的操作与上述步骤205中根据该至少一个文本集的文本内容，确定目标话题信息的操作类似，本发明实施例对此不再赘述。

进一步地，获取到关联话题信息之后，还可以获取该关联话题信息对应的文本集的文本数量，在将该关联话题信息发送给终端的同时将关联话题信息对应的文本集的文本数量也发送给终端，由终端显示该关联话题和该文本数量。

值得注意的是，上述步骤3003、步骤3004、步骤3005中的关联词获取请求、关联文本获取请求和关联话题获取请求可以为同一个请求，在此情况下，当接收到终端发送的这个请求时，可以同时获取该至少一个第一词语的关联词、关联文本和关联话题信息，并将该关联词、关联文本和关联话题信息同时返回给终端。

另外，实际应用中，在获取到目标词后，也可以直接获取目标词的关联词、关联文本和关联话题信息，并将目标词、目标词的关联词、目标词的关联文本和目标词的关联话题信息同时返回给终端。

例如，如图4所示，显示至少一个目标词“审判者”、“海豹突击队”、“SV”、“信誉”等及其热度。当选中目标词“审判者”时，可以显示“审判者”的关联词“海豹突击队”、“点券”、“龙啸”等及其热度，且可以显示“审判者”的关联文本“官方你把海豹突击队换成审判者”、“为什么我的就是审判者”等及其浏览量，还可以显示“审判者”的关联话题信息“海豹突击队重出江湖有没有土豪试试水的”等及其对应的文本集的文本数量。如果在“审判者”的关联词中选中“点券”，则如图5所示，可以继续显示“审判者”和“点券”的关联词“一百”、“购买”等及其热度，且可以显示“审判者”和“点券”的关联文本“又改成审判者了”等及其浏览量，还可以显示“审判者”和“点券”的关联话题信息及其对应的文本集的文本数量。

在本发明实施例中，根据多个文本包含的多个第一词语，获取该多个文本中每个文本的文本特征后，可以根据该多个文本中每个文本的文本特征，对该多个文本进行聚类，得到多个文本集。之后，按照该多个文本集中每个文本集的文本数量由大到小的顺序，从该多个文本集中获取至少一个文本集，并根据该至少一个文本集的文本内容，确定目标话题信息。由于该多个文本集是根据文本特征聚类得到的，所以该多个文本集的聚类准确度较高，且由于是直接根据该多个文本集中的至少一个文本集的文本内容来确定目标话题信息，所以得到的目标话题信息的准确性较高。另外，本发明实施例中还可以自动发现目标词，并对目标词进行主动挖掘，来发现更多与其相关联的关联词、关联文本和关联话题信息，实现方式灵活。

接下来对本发明实施例提供的话题信息获取装置进行详细地解释说明。

图5是本发明实施例提供的一种话题信息获取装置的结构示意图。参见图5，该装置包括第一获取模块501、聚类模块502、第二获取模块503和第一确定模块504。

第一获取模块501，用于根据多个文本包含的多个词语，获取多个文本中每个文本的文本特征；

聚类模块502，用于根据多个文本中每个文本的文本特征，对多个文本进行聚类，得到多个文本集；

第二获取模块503，用于按照多个文本集中每个文本集的文本数量由大到小的顺序，从多个文本集中获取至少一个文本集；

第一确定模块504，用于根据至少一个文本集的文本内容，确定目标话题信息。

可选地，该装置还包括：

第三获取模块，用于获取多个初始文本；

过滤模块，用于对多个初始文本中的垃圾文本进行过滤，和/或，对多个初始文本中的重复文本进行过滤，得到多个文本。

可选地，过滤模块包括：

第一确定单元，用于通过文本类别识别模型确定多个初始文本中每个初始文本的类别，文本类别识别模型用于根据历史垃圾文本的文本特征对初始文本的类别进行识别；

第一过滤单元，用于对多个初始文本中为垃圾文本类别的初始文本进行过滤。

可选地，过滤模块包括：

第二确定单元，用于确定多个初始文本中每个初始文本的第一特征值；

第二过滤单元，用于对多个初始文本中与其它任一初始文本的第一特征值之间的相似度大于或等于第一预设相似度的初始文本进行过滤。

可选地，第一获取模块501包括：

第一分词单元，用于对多个文本中每个文本进行分词处理，得到每个文本包含的至少一个词语；

第三确定单元，用于确定每个文本包含的至少一个词语中每个词语的权重；

第四确定单元，用于根据每个文本包含的至少一个词语中每个词语的权重，确定每个文本的文本特征。

可选地，第三确定单元包括：

获取子单元，用于获取至少一个词语中每个词语在多个样本文本中的逆文档频率；

第一确定子单元，用于确定每个词语在每个文本中的词频；

第二确定子单元，用于根据每个词语的逆文档频率和词频，确定每个词语的权重。

可选地，第四确定单元包括：

第三确定子单元，用于根据至少一个词语中每个词语的权重，确定预设词汇表中包括的所有词语中每个词语的权重；

组成子单元，用于按照预设词汇表中包括的所有词语的排列顺序，将预设词汇表中包括的所有词语中每个词语的权重作为元素组成目标特征向量；

第四确定子单元，用于将目标特征向量确定为每个文本的文本特征。

可选地，第一获取模块501包括：

获取单元，用于获取每个文本包含的至少一个词语中一部分词语的关联词语；

第五确定单元，用于确定一部分词语的关联词语中每个关联词语的权重，以及确定另一部分词语中每个词语的权重，另一部分词语为每个文本包含的至少一个词语中除一部分词语之外的词语；

第六确定单元，用于根据一部分词语的关联词语中每个关联词语的权重和另一部分词语中每个词语的权重，确定每个文本的文本特征。

可选地，第一确定模块504包括：

提取单元，用于提取至少一个文本集中每个文本集中文本的标题；

第七确定单元，用于将至少一个文本集中每个文本集中文本的标题确定为目标话题信息。

可选地，该装置还包括：

第四获取模块，用于获取多个第一文本中每个第一文本的文本特征；

触发模块，用于根据多个第一文本和多个第一文本中每个第一文本的文本特征，更新多个文本集，并触发第二获取模块503按照多个文本集中每个文本集的文本数量由大到小的顺序，从多个文本集中获取至少一个文本集。

可选地，该装置还包括：

第二确定模块，用于从多个文本集中获取第一文本集，第一文本集中的新增文本数量大于或等于第一预设数量；根据第一文本集的文本内容，确定目标话题信息；

和/或，

第三确定模块，用于从多个文本集中获取第二文本集，第二文本集在至少两个连续周期内的新增文本数量均大于或等于第二预设数量；根据第二文本集的文本内容，确定目标话题信息。

可选地，该装置还包括：

第四确定模块，用于确定多个词语中每个词语的权重和词性；

第五获取模块，用于根据多个词语中每个词语的权重和词性，从多个词语中获取至少一个目标词。

可选地，该装置还包括：

第五确定模块，用于当接收到终端发送的目标词搜索请求时，确定至少一个目标词中每个目标词在多个文本中的热度；

第一发送模块，用于将至少一个目标词和至少一个目标词中每个目标词的热度发送给终端，由终端显示至少一个目标词和至少一个目标词中每个目标词的热度。

可选地，该装置还包括：

第一接收模块，用于接收关联词获取请求；

第六确定模块，用于如果关联词获取请求携带至少一个词语，则从多个文本中确定至少一个第二文本，至少一个第二文本中的每个第二文本包含至少一个词语；

第七确定模块，用于确定至少一个第二文本包含的所有词语中每个词语在至少一个文本中的热度；

第六获取模块，用于按照热度由大到小的顺序，从至少一个文本包含的所有词语中获取关联词；

第二发送模块，用于将关联词和关联词的热度发送给终端，由终端显示关联词和关联词的热度。

可选地，该装置还包括：

第二接收模块，用于接收关联文本获取请求；

第七获取模块，用于如果关联文本获取请求携带至少一个词语，则从多个文本中获取至少一个第二文本，至少一个第二文本中的每个第二文本包含至少一个词语；

第八确定模块，用于将至少一个第二文本中至少一个词语的出现次数大于或等于第一预设次数的文本确定为关联文本；

第三发送模块，用于将关联文本发送给终端，由终端显示关联文本。

可选地，该装置还包括：

第三接收模块，用于接收关联话题获取请求；

第八获取模块，用于如果关联话题获取请求携带至少一个词语，则从多个文本集中获取至少一个第三文本集，至少一个第三文本集中每个第三文本集包含至少一个词语；

第九确定模块，用于根据至少一个第三文本集中至少一个词语的出现次数大于或等于第二预设次数的文本集的文本内容，确定关联话题信息；

第四发送模块，用于将关联话题信息发送给终端，由终端显示关联话题信息。

在本发明实施例中，根据多个文本包含的多个词语，获取该多个文本中每个文本的文本特征后，可以根据该多个文本中每个文本的文本特征，对该多个文本进行聚类，得到多个文本集。之后，按照该多个文本集中每个文本集的文本数量由大到小的顺序，从该多个文本集中获取至少一个文本集，并根据该至少一个文本集的文本内容，确定目标话题信息。由于该多个文本集是根据文本特征聚类得到的，所以该多个文本集的聚类准确度较高，且由于是直接根据该多个文本集中的至少一个文本集的文本内容来确定目标话题信息，所以得到的目标话题信息的准确性较高。

需要说明的是：上述实施例提供的话题信息获取装置在话题信息获取时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的话题信息获取装置与话题信息获取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6是本发明实施例提供的一种话题信息获取装置的结构示意图，参见图6，该装置可以为服务器600，服务器600可以是后台服务器集群中的服务器。具体来讲：

服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)601和一个或一个以上的存储器602，其中，存储器602中存储有至少一条指令，该至少一条指令由处理器601加载并执行以实现上述各个方法实施例提供的话题信息获取方法。当然，服务器600还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，服务器600还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由服务器中的处理器执行以完成上述实施例中的话题信息获取方法。例如，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种话题信息获取方法，其特征在于，所述方法包括：

根据所述至少一个文本集的文本内容，确定目标话题信息，

其中，所述根据多个文本包含的多个词语，获取所述多个文本中每个文本的文本特征，包括：

对所述多个文本中每个文本进行分词处理，得到所述每个文本包含的至少一个词语；

获取所述每个文本包含的至少一个词语中一部分词语的关联词语；

确定所述一部分词语的关联词语中每个关联词语的权重，以及确定另一部分词语中每个词语的权重，所述另一部分词语为所述每个文本包含的至少一个词语中除所述一部分词语之外的词语；

根据所述一部分词语的关联词语中每个关联词语的权重和所述另一部分词语中每个词语的权重，确定所述每个文本的文本特征。

2.如权利要求1所述的方法，其特征在于，所述确定所述一部分词语的关联词语中每个关联词语的权重，以及确定另一部分词语中每个词语的权重，包括：

获取所述每个关联词语以及所述每个词语在多个样本文本中的逆文档频率；

确定所述每个关联词语以及所述每个词语在所述每个文本中的词频；

根据所述每个关联词语以及所述每个词语各自的逆文档频率和词频，确定所述每个关联词语的权重以及所述每个词语的权重。

3.如权利要求1或2所述的方法，其特征在于，所述根据所述一部分词语的关联词语中每个关联词语的权重和所述另一部分词语中每个词语的权重，确定所述每个文本的文本特征，包括：

根据所述每个关联词语的权重以及所述每个词语的权重，确定预设词汇表中包括的所有词语中每个词语的权重；

按照所述预设词汇表中包括的所有词语的排列顺序，将所述预设词汇表中包括的所有词语中每个词语的权重作为元素组成目标特征向量；

将所述目标特征向量确定为所述每个文本的文本特征。

4.如权利要求1所述的方法，其特征在于，所述根据所述至少一个文本集的文本内容，确定目标话题信息，包括：

提取所述至少一个文本集中每个文本集中文本的标题；

将所述至少一个文本集中每个文本集中文本的标题确定为目标话题信息。

5.如权利要求1所述的方法，其特征在于，所述根据所述至少一个文本集的文本内容，确定目标话题信息之后，还包括：

每隔预设周期获取在本周期内发布的多个第一文本；

获取所述多个第一文本中每个第一文本的文本特征；

根据所述多个第一文本和所述多个第一文本中每个第一文本的文本特征，更新所述多个文本集，并返回所述按照所述多个文本集中每个文本集的文本数量由大到小的顺序，从所述多个文本集中获取至少一个文本集的步骤。

6.如权利要求5所述的方法，其特征在于，所述更新所述多个文本集之后，还包括：

从所述多个文本集中获取第一文本集，所述第一文本集中的新增文本数量大于或等于第一预设数量；根据所述第一文本集的文本内容，确定目标话题信息；

和/或，

从所述多个文本集中获取第二文本集，所述第二文本集在至少两个连续周期内的新增文本数量均大于或等于第二预设数量；根据所述第二文本集的文本内容，确定目标话题信息。

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述多个词语中每个词语的权重和词性；

8.如权利要求7所述的方法，其特征在于，所述从所述多个词语中获取至少一个目标词之后，还包括：

当接收到终端发送的目标词搜索请求时，确定所述至少一个目标词中每个目标词在所述多个文本中的热度，所述热度为每个目标词在所述多个文本中出现的总次数；

9.如权利要求1或7所述的方法，其特征在于，所述方法还包括：

接收关联词获取请求；

如果所述关联词获取请求携带至少一个词语，则从所述多个文本中确定至少一个第二文本，所述至少一个第二文本中的每个第二文本包含所述至少一个词语；

确定所述至少一个第二文本包含的所有词语中每个词语在所述至少一个文本中的热度，所述热度为每个词语在所述至少一个文本中出现的总次数；

按照热度由大到小的顺序，从所述至少一个文本包含的所有词语中获取关联词；

将所述关联词和所述关联词的热度发送给终端，由所述终端显示所述关联词和所述关联词的热度。

10.如权利要求1或7所述的方法，其特征在于，所述方法还包括：

接收关联文本获取请求；

如果所述关联文本获取请求携带至少一个词语，则从所述多个文本中获取至少一个第二文本，所述至少一个第二文本中的每个第二文本包含所述至少一个词语；

将所述至少一个第二文本中所述至少一个词语的出现次数大于或等于第一预设次数的文本确定为关联文本；

将所述关联文本发送给终端，由所述终端显示所述关联文本。

11.如权利要求1或7所述的方法，其特征在于，所述方法还包括：

接收关联话题获取请求；

如果所述关联话题获取请求携带至少一个词语，则从所述多个文本集中获取至少一个第三文本集，所述至少一个第三文本集中每个第三文本集包含所述至少一个词语；

根据所述至少一个第三文本集中所述至少一个词语的出现次数大于或等于第二预设次数的文本集的文本内容，确定关联话题信息；

将所述关联话题信息发送给终端，由所述终端显示所述关联话题信息。

12.如权利要求1所述的方法，其特征在于，所述根据多个文本包含的多个词语，获取所述多个文本中每个文本的文本特征之前，所述方法还包括：

获取多个初始文本；

13.如权利要求12所述的方法，其特征在于，所述对所述多个初始文本中的垃圾文本进行过滤，包括：

14.如权利要求12所述的方法，其特征在于，所述对所述多个初始文本中的重复文本进行过滤，包括：

确定所述多个初始文本中每个初始文本的第一特征值；

15.一种话题信息获取装置，其特征在于，所述装置包括：

第一确定模块，用于根据所述至少一个文本集的文本内容，确定目标话题信息，

其中，所述第一获取模块包括：

分词单元，用于对所述多个文本中每个文本进行分词处理，得到所述每个文本包含的至少一个词语；

第一确定单元，用于确定所述一部分词语的关联词语中每个关联词语的权重，以及确定另一部分词语中每个词语的权重，所述另一部分词语为所述每个文本包含的至少一个词语中除所述一部分词语之外的词语；

第二确定单元，用于根据所述一部分词语的关联词语中每个关联词语的权重和所述另一部分词语中每个词语的权重，确定所述每个文本的文本特征。

16.如权利要求15所述的装置，其特征在于，所述第一确定单元包括：

获取子单元，用于获取所述每个关联词语以及所述每个词语在多个样本文本中的逆文档频率；

第一确定子单元，用于确定所述每个关联词语以及所述每个词语在所述每个文本中的词频；

第二确定子单元，用于根据所述每个关联词语以及所述每个词语各自的逆文档频率和词频，确定所述每个关联词语的权重以及所述每个词语的权重。

17.如权利要求15或16所述的装置，其特征在于，所述第二确定单元包括：

第三确定子单元，用于根据所述每个关联词语的权重以及所述每个词语的权重，确定预设词汇表中包括的所有词语中每个词语的权重；

18.如权利要求15所述的装置，其特征在于，所述第一确定模块包括：

第三确定单元，用于将所述至少一个文本集中每个文本集中文本的标题确定为目标话题信息。

19.如权利要求15所述的装置，其特征在于，所述装置还包括：

20.如权利要求19所述的装置，其特征在于，所述装置还包括：

和/或，

21.如权利要求15所述的装置，其特征在于，所述装置还包括：

22.如权利要求21所述的装置，其特征在于，所述装置还包括：

第五确定模块，用于当接收到终端发送的目标词搜索请求时，确定所述至少一个目标词中每个目标词在所述多个文本中的热度，所述热度为每个目标词在所述多个文本中出现的总次数；

23.如权利要求15或21所述的装置，其特征在于，所述装置还包括：

第一接收模块，用于接收关联词获取请求；

第七确定模块，用于确定所述至少一个第二文本包含的所有词语中每个词语在所述至少一个文本中的热度，所述热度为每个词语在所述至少一个文本中出现的总次数；

第二发送模块，用于将所述关联词和所述关联词的热度发送给终端，由所述终端显示所述关联词和所述关联词的热度。

24.如权利要求15或21所述的装置，其特征在于，所述装置还包括：

第二接收模块，用于接收关联文本获取请求；

第三发送模块，用于将所述关联文本发送给终端，由所述终端显示所述关联文本。

25.如权利要求15或21所述的装置，其特征在于，所述装置还包括：

第三接收模块，用于接收关联话题获取请求；

第四发送模块，用于将所述关联话题信息发送给终端，由所述终端显示所述关联话题信息。

26.如权利要求15所述的装置，其特征在于，所述装置还包括：

第九获取模块，用于获取多个初始文本；

27.如权利要求26所述的装置，其特征在于，所述过滤模块包括：

第四确定单元，用于通过文本类别识别模型确定所述多个初始文本中每个初始文本的类别，所述文本类别识别模型用于根据历史垃圾文本的文本特征对初始文本的类别进行识别；

28.如权利要求26所述的装置，其特征在于，所述过滤模块包括：

第五确定单元，用于确定所述多个初始文本中每个初始文本的第一特征值；

29.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1-14任一所述的话题信息获取方法。

30.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1-14任一所述的话题信息获取方法。