CN110858217A

CN110858217A - 微博敏感话题的检测方法、装置及可读存储介质

Info

Publication number: CN110858217A
Application number: CN201810965144.9A
Authority: CN
Inventors: 于琳琳; 张丹; 于晓明
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2020-03-03

Abstract

本发明提供的微博敏感话题的检测方法、装置及可读存储介质，通过对采集获得的微博信息进行预处理，获得待分析的微博信息的句子特征空间，所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重；利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量，并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量；利用预设的聚类算法，对所述微博信息对应的各句子特征向量进行聚类，以获得聚类话题；根据敏感信息特征库，在各聚类话题中确定敏感话题。从而针对于微博文本词语稀疏、语义离散、用词随意的特点，有效提高了对其语义的识别准确度，进而提高了对微博敏感话题检测的准确度。

Description

微博敏感话题的检测方法、装置及可读存储介质

技术领域

本发明涉及数据处理技术，尤其涉及一种微博敏感话题的检测方法、装置及可读存储介质。

背景技术

伴随着互联网的发展，微博等网络社交软件也成为了大多数人生活中必不可少的一部分。如何在微博所发布和传播的信息中快速发现敏感信息成为一个在互联网时代的信息安全的重要课题。

目前关于微博敏感话题检测方法，主要采用层次聚类、K-means聚类、TDT话题检测与追踪等方法进行。

但是，由于微博文本词语稀疏、语义离散、用词随意等特点，导致在对微博信息文本进行聚类时无法达到类似于新闻类长文本的效果，聚类准确度不高，从而也影响了对微博敏感话题检测的准确度。

发明内容

针对上述提及的在现有技术中存在的由于微博文本词语稀疏、语义离散、用词随意等特点而导致的对微博敏感话题检测的准确度不高的问题，本发明提供了一种微博敏感话题的检测方法、装置及可读存储介质。

一方面，本发明提供了一种微博敏感话题的检测方法，包括：

对采集获得的微博信息进行预处理，获得待分析的微博信息的句子特征空间，所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重；

利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量，并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量；

利用预设的聚类算法，对所述微博信息对应的各句子特征向量进行聚类，以获得聚类话题；

根据敏感信息特征库，在各聚类话题中确定敏感话题。

在其中一种可选的实施方式中，所述利用预设的词语向量特征库构建所述微博信息中每一分词对应的语义特征向量之前，还包括：

根据采集的训练语料集以及网络常用语词典，对预设的待训练的基于表示学习的神经网络模型进行训练，获得词语向量特征库，其中所述词语向量特征库用于将所述微博信息每一分词映射为对应的语义特征向量。

在其中一种可选的实施方式中，所述对采集获得的微博信息进行预处理，获得待分析的微博信息的句子特征空间，包括：

对采集获得的微博信息进行文本提取，获得微博文本；

对所述微博文本进行中文分词处理并统计每一分词的词频，以确定待分析的微博信息的分词和相应的分词权重。

在其中一种可选的实施方式中，所述预设的聚类算法包括K-means增量聚类算法；

所述利用预设的聚类算法，对所述微博信息对应的各句子特征向量进行聚类，以获得聚类话题，包括：

根据微博信息对应的句子特征向量，确定多个聚类中心作为当前聚类中心；

针对每个当前聚类中心，计算各句子特征向量与其的相似度；

根据各句子特征向量与每个当前聚类中心相应的相似度确定每个句子特征向量所属的当前聚类中心；

重新确定多个聚类中心并作为下一聚类中心，确定每个句子特征向量所属的下一聚类中心；判断当前聚类中心和下一聚类中心之间的偏移量；

当所述偏移量符合预设条件时，则根据该下一聚类中心和属于各下一聚类中心的句子特征向量，构建聚类话题；

当所述偏移量不符合预设条件时，重复所述根据微博信息对应的句子特征向量，确定多个聚类中心作为当前聚类中心直至所述偏移量符合预设条件。

在其中一种可选的实施方式中，所述根据敏感信息特征库，在各聚类话题中确定敏感话题，包括：

根据TF-IDF算法和预设的词语向量特征库，确定每个聚类话题的关键词及相应的关键词语义特征向量；

针对于每个聚类话题的每个关键词的关键词语义特征向量，计算其与敏感信息特征库中各敏感信息的相似度；

根据相似度计算结果，确定敏感话题。

另一方面，本发明提供了一种微博敏感话题的检测装置，包括：

分词处理模块，用于对采集获得的微博信息进行预处理，获得待分析的微博信息的句子特征空间，所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重；

特征向量生成模块，用于利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量，并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量；

聚类模块，用于利用预设的聚类算法，对所述微博信息对应的各句子特征向量进行聚类，以获得聚类话题；

敏感话题确定模块，用于根据敏感信息特征库，在各聚类话题中确定敏感话题。

在其中一种可选的实施方式中，还包括词语向量特征库构建模块；

所述词语向量特征库构建模块用于在所述特征向量生成模块利用预设的词语向量特征库构建所述微博信息中每一分词对应的语义特征向量之前，据采集的训练语料集以及网络常用语词典，对预设的待训练的基于表示学习的神经网络模型进行训练，获得词语向量特征库，其中所述词语向量特征库用于将所述微博信息每一分词映射为对应的语义特征向量。

其中，所述分词处理模块，具体用于对采集获得的微博信息进行文本提取，获得微博文本；对所述微博文本进行中文分词处理并统计每一分词的词频，以确定待分析的微博信息的分词和相应的分词权重；

所述聚类模块具体用于根据微博信息对应的句子特征向量，确定多个聚类中心作为当前聚类中心；针对每个当前聚类中心，计算各句子特征向量与其的相似度；根据各句子特征向量与每个当前聚类中心相应的相似度确定每个句子特征向量所属的当前聚类中心；重新确定多个聚类中心并作为下一聚类中心，确定每个句子特征向量所属的下一聚类中心；判断当前聚类中心和下一聚类中心之间的偏移量；当所述偏移量符合预设条件时，则根据该下一聚类中心和属于各下一聚类中心的句子特征向量，构建聚类话题；当所述偏移量不符合预设条件时，重复所述根据微博信息对应的句子特征向量，确定多个聚类中心作为当前聚类中心直至所述偏移量符合预设条件；

所述敏感话题确定模块具体用于根据TF-IDF算法和预设的词语向量特征库，确定每个聚类话题的关键词及相应的关键词语义特征向量；针对于每个聚类话题的每个关键词的关键词语义特征向量，计算其与敏感信息特征库中各敏感信息的相似度；根据相似度计算结果，确定敏感话题。

再一方面，本发明提供了一种微博敏感话题的检测装置，包括：存储器、处理器以及计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如前任一项所述的方法。

最后一方面，本发明还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理执行以实现如前任一项所述的方法。

附图说明

图1为本发明所基于的网络架构示意图；

图2为本发明实施例一提供的一种微博敏感话题的检测方法的流程示意图；

图3为本发明实施例二提供的一种微博敏感话题的检测方法的流程示意图；

图4为本发明实施例三提供的一种微博敏感话题的检测装置的结构示意图；

图5为本发明实施例四提供的一种微博敏感话题的检测装置的硬件结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

因此，针对上述提及的现有技术中存在的由于微博文本词语稀疏、语义离散、用词随意等特点而导致的对微博敏感话题检测的准确度不高的问题，本发明提供了一种微博敏感话题的检测方法、装置及可读存储介质。

图1为本发明所基于的网络架构示意图，如图1所示，在本发明提供的微博敏感话题的检测方法的执行主体具体可为微博敏感话题的检测装置，该检测装置可通过硬件和/或软件的方式实现。一般可集成于微博平台所基于的云端服务器中，与微博平台所基于的存放有各类数据库的数据服务器配合使用，此外，检测装置所基于的服务器可与数据服务器为同一服务器，或者为隶属于同一服务器集群的不同服务器，本发明对此均不进行限制。

图2为本发明实施例一提供的一种微博敏感话题的检测方法的流程示意图。

如图2所示，该检测方法包括：

步骤101、对采集获得的微博信息进行预处理，获得待分析的微博信息的句子特征空间，所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重。

步骤102、利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量，并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量。

步骤103、利用预设的聚类算法，对所述微博信息对应的各句子特征向量进行聚类，以获得聚类话题。

步骤104、根据敏感信息特征库，在各聚类话题中确定敏感话题。

具体来说，用户可通过智能手机、平板电脑和台式终端在微博平台上发布各类微博信息。这些微博信息的词语稀疏、语义离散、用词随意，因此，采用现有的敏感话题检测方式获得的检测结果并不准确。

在本申请中，首先可从前述的微博平台的数据库中采集获得大量的微博信息，采集获得的方式可采用实时采集，也可在预设时间段进行采集，本实施方式对此不进行限制。

然后，对获得的微博信息进行预处理，以获得待分析的微博信息的分词。具体来说，为了提高对微博信息中敏感话题的检测的准确率，由于微博信息中一般包括网址链接、图片链接、转发信息、表情符号等无用信息，首先对先去除该微博信息中的这些无用信息，以保留其中的文本信息。随后，对提取出的纯文本进行中文分词，以获得待分析的微博信息句子特征空间，该句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重。

然后，利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量，并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量。其中词语向量特征库为预先构建的，其具体可用于将微博信息中的每一分词映射为与之对应的特征向量，而通过每一分词对应的语义特征向量和分词权重可构建微博信息的句子特征向量。

可选的，在本步骤之前还可包括：根据采集的训练语料集以及网络常用语词典，对预设的待训练的连续词袋模型进行训练，获得词语向量特征库，其中所述词语向量特征库用于将所述微博信息每一分词映射为与之对应的特征向量。

具体来说，针对微博文本用词随意、口语性强的特点，利用新词发现技术，提取出新词并经过人工标注后筛选出常见网络用语，作为网络常用语词典；随后，采用基于表示学习的方式，针对前述的每一分词，根据词频构造赫夫曼树，树的叶子结点即为词向量表示；建立深度学习模型，通过迭代训练的过程更新非叶子节点参数及叶子节点词向量，最终生成词向量组成基于学习的向量特征库，其中所述词语向量特征库用于将所述微博信息每一分词映射为与之对应的特征向量，随后根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量。

再后，利用预设的聚类算法，对所述微博信息对应的各句子特征向量进行聚类，以获得聚类话题。具体的，一般的前述的每个句子特征向量包括有多个维度的信息，其每个维度可表示文本的一个特征，通过这个向量可以刻画出分词内在语义含义。利用这一点，结合现有的一些聚类算法，可将这些句子特征向量进行有效的相似度聚类，获得聚类话题。例如，可采用改进的K-means增量聚类算法，使得对于新增的文本满足增量聚类要求的同时使聚类全局最优。

最后，根据敏感信息特征库，在各聚类话题中确定敏感话题。具体的，在得到微博信息的各聚类话题之后，可基于预设的敏感信息特征库，对聚类话题是否为敏感话题进行有效判断。

本发明提供的微博敏感话题的检测方法，通过对采集获得的微博信息进行预处理，获得待分析的微博信息的句子特征空间，所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重；利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量，并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量；利用预设的聚类算法，对所述微博信息对应的各句子特征向量进行聚类，以获得聚类话题；根据敏感信息特征库，在各聚类话题中确定敏感话题。从而针对于微博文本词语稀疏、语义离散、用词随意的特点，有效提高了对其语义的识别准确度，进而提高了对微博敏感话题检测的准确度。

在实施例一的基础上，图3为本发明实施例二提供的一种微博敏感话题的检测方法的流程示意图，如图3所示，该检测方法包括：

步骤201、对采集获得的微博信息进行文本提取，获得微博文本。

步骤202、对所述微博文本进行中文分词处理并统计每一分词的词频，以确定待分析的微博信息的分词和相应的分词权重。

步骤203、利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量，并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量。

步骤204、利用预设的聚类算法，对所述微博信息对应的各句子特征向量进行聚类，以获得聚类话题。

步骤205、根据TF-IDF算法和预设的词语向量特征库，确定每个聚类话题的关键词及相应的关键词语义特征向量。

步骤206、针对于每个聚类话题的每个关键词的关键词语义特征向量，计算其与敏感信息特征库中各敏感信息的相似度，以根据相似度计算结果，确定敏感话题。

首先可从前述的微博平台的数据库中采集获得大量的微博信息，采集获得的方式可采用实时采集，也可在预设时间段进行采集，本实施方式对此不进行限制。

随后，对采集获得的微博信息进行文本提取，获得微博文本，对所述微博文本进行中文分词处理并统计每一分词的词频，以确定待分析的微博信息的分词和相应的分词权重，利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量，并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量。

具体来说，为了提高对微博信息中敏感话题的检测的准确率，由于微博信息中一般包括网址链接、图片链接、转发信息、表情符号等无用信息，首先对先去除该微博信息中的这些无用信息，以保留其中的文本信息。然后对提取出的纯文本进行中文分词处理，并获得这些分词的特征向量，该处理可采用如下方式：

首先，根据采集的训练语料集以及网络常用语词典，对预设的待训练的连续词袋模型进行训练，获得词语向量特征库，其方式可采用实施例一所记载的方式。

随后，构建微博信息的句子特征空间，如对大规模中文微博短文本训练语料进行中文分词，统计词频，去掉停用词及词频数目过小的词语，利用剩余的词语作为基础词典，构建句子特征空间W＝{w₁，w₂，...，w_N}，其中W表示句子特征空间，w_i表示不同维度上的词语，N表示句子特征空间的维数及词典中包含的词语的个数。然后，构建微博信息的特征向量空间，如根据模块一中构建的词语向量特征库V，对于微博信息文本特征空间W中的每一个词语w_i，都可以在V中找到与之对应的词向量表示形式v_i，由此可构造微博信息的特征向量空间5＝{v₁，v₂，...，v_N}，再后，对微博信息进行分词，如建立基于HMM的分词处理系统，对于给定的观察值序列(中文短文本)，通过Viterbi算法求得可能性最大的状态值序列，即分词后的短文本序列sen＝{word₁，word₂，...，word_n}，其中sen表示中文微博信息的文本，word_i表示微博中的词语在词向量特征库中对应的向量表示形式，n表示微博信息文本中包含的词语的个数。最后，构建微博信息文本的向量，如对于任意的中文微博信息文本，首先经过中文分词得到微博信息文本的词语序列向量表示形式sen，微博信息文本向量由以下方式构建：对于句子特征向量空间构建S中的每一个词向量v_i，计算v_i与句子序列sen中的词语的相似度的最大值maxSim_i，作为最终微博信息文本向量senVec第i维上的分量值，依次类推计算出最终的微博信息文本向量表示形式senVec。

再后，利用预设的聚类算法，对所述微博信息对应的各分词的特征向量进行聚类，以获得聚类话题，具体来说，所述预设的聚类算法包括K-means增量聚类算法，可采用如下方式：根据微博信息对应的句子特征向量，确定多个聚类中心作为当前聚类中心；针对每个当前聚类中心，计算各句子特征向量与其的相似度；根据各句子特征向量与每个当前聚类中心相应的相似度确定每个句子特征向量所属的当前聚类中心；重新确定多个聚类中心并作为下一聚类中心，确定每个句子特征向量所属的下一聚类中心；判断当前聚类中心和下一聚类中心之间的偏移量；当所述偏移量符合预设条件时，则根据该下一聚类中心和属于各下一聚类中心的句子特征向量，构建聚类话题；当所述偏移量不符合预设条件时，重复所述根据微博信息对应的句子特征向量，确定多个聚类中心作为当前聚类中心直至所述偏移量符合预设条件。

例如，可将所有的微博信息的每一句子特征向量看做多维空间中的一个点，从句子特征向量集合中随机选择一个句子特征向量作为第一个聚类中心；

对于数据集中的每一个句子特征向量x，计算它与最近聚类中心的距离D(x)；选择一个新的句子特征向量作为新的聚类中心，选择的原则是：与当前有选聚类中心距离D(x)较大的句子特征向量，被选取作为聚类中心的概率较大；重复以上过程直到k个聚类中心C＝(c₁，c₁，...c_k}被选出来。对于句子特征向量集中的每一个句子特征向量x_i,计算其到k个聚类中心的距离，并记录与其距离最小的聚类中心对应的类别簇c_i及对应的相似度距离d_i，其中对于任意类别中心向量senVec₁＝(a₁，a₂，...，a_N)和微博文本向量senVec₂＝(b₁，b₂，...,b_N)，采用余弦相似度算法计算两个向量之间的相似度：

余弦值越大表示两个向量越相似，进而表明两个句子特征向量之间的语义相似度越高。随后，计算得到的相似度d，如果相似度大于阈值μ，则将句子特征向量归入该聚类话题，如果与所有聚类中心的相似度最大值仍然小于阈值μ，则将句子特征向量列为一个新的聚类中心，并创建新的聚类话题。阈值设置的不同，得到的话题粒度也不同。最后，当所有句子特征向量都聚类完毕后，需要对聚类中心进行更新，对于每个类别c_i。

对于所有属于该类别的句子特征向量x，通过重新计算其聚类中心，重复聚类和聚类中心更新，直到聚类中心的位置不再变化，得到聚类结果。

当完成聚类，得到聚类话题之后，还根据敏感信息特征库，在各聚类话题中确定敏感话题。具体来说，根据TF-IDF算法和预设的词语向量特征库，确定每个聚类话题的关键词及相应的关键词语义特征向量；针对于每个聚类话题的每个关键词的关键词语义特征向量，计算其与敏感信息特征库中各敏感信息的相似度；根据相似度计算结果，确定敏感话题。

例如，可首先对构建敏感信息特征库：基于用户业务需要及工作积累，整理敏感信息词库，获取敏感词库中词语对应的词向量表示形式，构建敏感信息特征库；然后提取聚类话题中的关键词，如针对每个聚类话题，利用TF-IDF算法提取话题下的关键词，匹配话题关键词敏感信息，如基于敏感信息特征库和关键词语义特征向量，对于关键词语义特征向量计算其与敏感信息特征库中词向量相似度的最大值，并该聚类话题对应的各相似度的最大值相加，得到相似度总和sumSim,如果sumSim的值大于指定阈值，则表明该聚类话题与用户业务所重点关注的领域匹配的相似度很高，即应该是用户在业务中重点关注和检测的敏感话题信息。

本发明提供的微博敏感话题的检测方法通过对采集获得的微博信息进行预处理，获得的待分析的微博信息的分词；利用预设的词语向量特征库构建所述微博信息中每一分词对应的特征向量；利用预设的聚类算法，对所述微博信息对应的各分词的特征向量进行聚类，以获得聚类话题；根据敏感信息特征库，在各聚类话题中确定敏感话题。从而针对于微博文本词语稀疏、语义离散、用词随意的特点，有效提高了对其语义的识别准确度，进而提高了对微博敏感话题检测的准确度。

图4为本发明实施例三提供的一种微博敏感话题的检测装置的结构示意图，如图4所示，该检测装置包括：

分词处理模块10，用于对采集获得的微博信息进行预处理，获得待分析的微博信息的句子特征空间，所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重；

特征向量生成模块20，用于利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量，并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量；

聚类模块30，用于利用预设的聚类算法，对所述微博信息对应的各句子特征向量进行聚类，以获得聚类话题；

敏感话题确定模块40，用于根据敏感信息特征库，在各聚类话题中确定敏感话题。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程以及相应的有益效果，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明提供的微博敏感话题的检测装置对采集获得的微博信息进行预处理，获得待分析的微博信息的句子特征空间，所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重；利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量，并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量；利用预设的聚类算法，对所述微博信息对应的各句子特征向量进行聚类，以获得聚类话题；根据敏感信息特征库，在各聚类话题中确定敏感话题。从而针对于微博文本词语稀疏、语义离散、用词随意的特点，有效提高了对其语义的识别准确度，进而提高了对微博敏感话题检测的准确度。

图5为本发明提实施例四提供的一种微博敏感话题的检测装置的硬件结构示意图。如图5所示，该微博敏感话题的检测装置包括：存储器41、处理器42及存储在存储器41上并可在处理器42上运行的计算机程序，处理器42运行计算机程序时执行上述任一实施例的方法。

本发明还提供一种可读存储介质，包括程序，当其在终端上运行时，使得终端执行上述任一实施例的方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种微博敏感话题的检测方法，其特征在于，包括：

根据敏感信息特征库，在各聚类话题中确定敏感话题。

2.根据权利要求1所述的微博敏感话题的检测方法，其特征在于，所述利用预设的词语向量特征库构建所述微博信息中每一分词对应的语义特征向量之前，还包括：

3.根据权利要求1所述的微博敏感话题的检测方法，其特征在于，所述对采集获得的微博信息进行预处理，获得待分析的微博信息的句子特征空间，包括：

对采集获得的微博信息进行文本提取，获得微博文本；

4.根据权利要求1所述的微博敏感话题的检测方法，其特征在于，所述预设的聚类算法包括K-means增量聚类算法；

5.根据权利要求1所述的微博敏感话题的检测方法，其特征在于，所述根据敏感信息特征库，在各聚类话题中确定敏感话题，包括：

根据相似度计算结果，确定敏感话题。

6.一种微博敏感话题的检测装置，其特征在于，包括：

7.根据权利要求6所述的微博敏感话题的检测装置，其特征在于，还包括词语向量特征库构建模块；

8.根据权利要求6所述的微博敏感话题的检测装置，其特征在于，所述预设的聚类算法包括K-means增量聚类算法；

9.一种微博敏感话题的检测装置，其特征在于，包括：存储器、处理器以及计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-5任一项所述的方法。

10.一种可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理执行以实现如权利要求1-5任一项所述的方法。