CN114579739B

CN114579739B - 文本数据流的话题检测与追踪方法

Info

Publication number: CN114579739B
Application number: CN202210033912.3A
Authority: CN
Inventors: 李崭
Original assignee: CETC 10 Research Institute
Current assignee: CETC 10 Research Institute
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2023-05-30
Anticipated expiration: 2042-01-12
Also published as: CN114579739A

Abstract

本发明公开的一种文本数据流的话题检测与追踪方法,属于自然语言处理技术领域。本发明通过以下技术方案实现：首先，将文本特征学习分为语义特征学习与时间特征学习，采用语义特征以及时序特征两种特征对文本的特征进行学习表达，将文本转化为向量特征；其次，采用标准化时间区间对文本数据流进行数据切分和时序建模，采用滑动窗口对文本数据流进行分批以及标签采样，将每个批次的数据输入到半监督文本聚类模块；然后半监督文本聚类模块根据文本的向量特征以及文本的标签，实现对文本数据集合的聚合、划分、标签传递，得到文本聚类结果；最后，通过对每个批次的文本聚类结果进行汇总，生成最终的话题检测与追踪结果。本发明简单易行,聚合性好。

Description

文本数据流的话题检测与追踪方法

技术领域

本发明属于自然语言处理技术领域，涉及一种信息处理技术，基于半监督文本聚类的话题检测与追踪方法TDT(Topic Detection and Tracking),，尤其是对文本数据流进行话题检测与追踪处理方法。

背景技术

话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性，并面向具备突发性和延续性规律的新闻语料，因此逐渐成为当前信息处理领域的研究热点。话题识别与跟踪以大规模新闻流为研究对象,通过监控新闻报道描述的话题,发现新的用户感兴趣的信息并将涉及某个话题的新闻报道组织起来以某种方式呈现给用户。话题识别与跟踪(TDT)旨在发展一系列基于事件的信息组织技术。TDT话题检测与跟踪起源于早期面向事件的检测与跟踪(Event Detection and Tracking，EDT)是近年提出的一项信息处理技术，这项技术旨在帮助人们应对日益严重的互联网信息爆炸问题，对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪。与EDT不同，TDT检测与跟踪的对象从特定时间和地点发生的事件扩展为具备更多相关性外延的话题，相应的理论与应用研究也同时从传统对于事件的识别跨越到包含突发事件及其后续相关报道的话题检测与跟踪。由于网络信息数量庞大，形式多样、传播迅速，互联网新闻报道冗余多、议题发散、易漂移，与一个话题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时间，仅仅通过这些孤立的信息，人们对某些事件难以做到全面的把握。通过话题检测与追踪可以实现新话题的自动识别和已知话题的持续跟踪，提高信息获取的价值。话题检测与追踪主要研究方向是通过对文本数据流的文本数据进行识别，对数据的边界进行划分，从而实现突发性话题的发现检测、话题的发展跟踪以及话题发展变化的探测。其中核心的研究任务包括三个部分：话题的关联性分析、话题检测以及话题追踪。

话题的关联性分析的主要任务是判断两篇文章属于同一话题，在这个方向的研究上主流采用两种思路：文本特征化方式与文本判决方式。文本特征化方式是对文章进行特征化，把文本数据流信息特征成VSM向量模型，通过向量间的相似计算，获得文本间的相似度信息。其特征化的方式主要包括：one-hot模型，LDA模型，TF-IDF模型、PCA模型、基于编码器原理的神经网络模型。现主流方式一般采用神经网络模型，通过构建上下文学习任务，对网络特征层进行学习，在通过正向传播，得到文本的特征向量。文本判决方式一般采用mention-pair的思路，即主要目标是判决两篇文章是否属于同一个话题或属于同一个话题的概率是多少，其判决的主流方式包括：基于神经网络的分类模型、回归模型、概率图模型。

话题检测的主要任务是在数据中进行数据集合的划分。从而实现话题的检测。现在此方向研究的主流技术基本都是采用聚类算法进行研究，大体包括：LDA以及其各种变种聚类算法，流聚类算法(包括DBSCAN、BIRCH、SINGLE-PASS等)、图聚类算法(包括：LCA)、最大期望聚类算法、K均值聚类算法等。通过聚类算法，在数据流中划分出不同集合，实现对数据的聚合划分，达到话题检测的效果。

话题追踪的主要任务是判断一遍文本是否属于某一个话题，在这个方向的研究主流采用三类思路：文本二分类技术，文本的多分类技术以及模式匹配技术。文本二分类技术与文本多分类技术采用的都为分类模型，二分类的任务构建主要是判断一篇文本是否属于某一个话题，多分类的任务构建主要是判断文本属于哪一个现有话题，采用的模型包括：支持向量机、决策树、感知机、深度学习相关模型等。模式匹配技术则主要是通过信息流的融合，对新产生的数据与已经产生的话题进行匹配融合，从而实现话题的追踪能力。现有技术中，在语料的采集和话题识别方面，主要使用爬虫技术从网页上爬取所需网页，然后对网页内容进行加工清洗得到可以分析的文本语料库。

传统题检测与跟踪主要通过文档的层次聚类或者关键词关于文档的分布信息的聚类实现。但这些方法存在无法处理在线文档流、存储开销大、计算复杂度高的缺陷。当前如何从海量新闻大数据流中高效动态发现新生成的热点话题，追踪特定突发话题的发展态势,形成便于读者阅读的能够反映话题发展脉络的全貌信息,成为待解决的重要研究任务。面对传统信息处理方式,如人工整编,数据检索等,无法有效形成话题脉络的困境，目前基于聚类分析的方法可以自主的划分数据，形成话题脉络。但是聚类方式通常只考虑了话题的检测，无法学习已有话题标签的文本数据，也无法实现话题追踪的任务。同时聚类方式大多采用全量学习的方式，这导致模型更新速度较慢，使得学习以及预测过程十分缓慢。增量式聚类初始时话题模型不够充分和准确,随处理报道数量增加,误检与漏检的累积效应被放大。因此，急需研究一种可以对话题检测与话题追踪进行联合分析预测，并且可以实现增量学习的话题检测与追踪算法。

发明内容

为了解决话题检测与话题追踪进行联合分析预测以及增量学习的问题，本发明提供一种简单易行,聚合性有更好的效果,计算结果更快并能大大改进报道关系识别的性能基于半监督文本聚类的话题检测与追踪方法。

为了实现上述目的，本发明提供的一种文本数据流的话题检测与追踪方法，其包括如下步骤：首先，对文本数据流中的文本数据进行特征学习，将文本特征学习分为语义特征学习与时间特征学习，采用语义特征以及时序特征两种特征对文本的特征进行学习表达，将文本转化为向量特征，采用将Skip-Ngram模型作为文本语义学习以及表达的文本语义特征模型，Skip-Ngram模型通过对输入词汇的上下文词汇进行预测，预测给定中心词的上下文词，实现语义信息的学习，采用三角核函数进行特征表达，实现时间特征学习，最后将时间特征与语义特征进行拼接，得到文本特征实现文本特征学习；其次，采用标准化时间区间对文本数据流进行数据切分，通过输入的源数据流分割成各个独立的时间序列，把对数据全量学习与预测拆分成增量学习与预测的形式，进行时序建模，构建时间滑动窗口，采用时间滑动窗口对文本数据流进行分批以及标签采样，给定一个滑动窗口的大小，采样滑动窗口已有话题标签的文本数据，并加载滑动窗口内所有没有话题标签的文本数据，在不同时间点统计的数量特征，计算滑窗内的文本数据流的文本语义特征、文本时间特征，采样加载文本话题标签，将每个批次的数据输入到半监督文本聚类模块；半监督文本聚类模块根据文本的向量特征以及文本的标签数据，基于半监督文本聚类流程对文本数据集合进行的聚合、划分、标签传递，得到文本聚类结果；最后，通过对每个批次的文本聚类结果进行汇总，生成最终的话题检测与追踪结果。

本发明与现有技术相比具有如下有益效果：

本发明将文本特征学习分为语义特征学习与时间特征学习，在特征表达上，采用了语义特征的学习表达与时序特征学习表达相结合的方式，简单易行。采用Skip-Ngram模型作为文本语义学习以及表达模型，Skip-Ngram模型通过对输入词汇的上下文词汇进行预测，实现语义信息的学习，不断提高语义特征表达能力，从而提高了文本的语义特征关联。采用三角核函数进行特征表达，实现时间特征学习；使话题在时序上的聚合性以及语义上的聚合性有更好的效果。

本发明采用标准化时间区间对文本数据流进行数据切分，把输入的源数据流分割成各个独立的时间序列，对数据全量学习与预测拆分成增量学习与预测的形式，进行时序建模，构建滑动窗口对文本数据流进行分批以及标签采样，给定一个滑动窗口的大小，采样滑动窗口已有话题标签的文本数据，并加载滑动窗口内所有没有话题标签的文本数据输入到半监督文本聚类模块。这种通过时序建模的方式把对数据全量学习与预测拆分成增量学习与预测的形式，使得计算的结果更快。计算效率就大幅度提高。

本发明根据文本的向量特征以及文本的标签数据，对文本数据集合的聚合、划分、标签传递，得到文本聚类结果；最后，通过对每个批次的文本聚类结果进行汇总，生成最终的话题检测与追踪结果。这种采用半监督文本聚类的方式，使得文本话题检测聚合时，通过标签传播同时实现了文本历史话题的追踪，实现这两个任务可以联合分析以及预测，大大改进话题检测与追踪的性能。

本发明主演针对文本数据流，自动发现检测其中的热点话题，首先，对文本数据流中的文本数据进行特征学习，采用语义特征以及时序特征两种特征对文本的特征进行学习表达，将文本转化为向量特征；其次，进行时序建模，采用滑动窗口对文本数据流进行分批以及标签采样，将每个批次的数据输入到半监督文本聚类模块；然后，半监督文本聚类模块根据文本的向量特征以及文本的标签，实现对文本数据集合的聚合、划分、标签传递，得到文本聚类结果；最后，通过对每个批次的文本聚类结果进行汇总，生成最终的话题检测与追踪结果。同时对已有的话题情况持续的跟踪。这种采用半监督文本聚类的方式，使得文本话题检测聚合时，通过标签传播同时实现了文本历史话题的追踪，实现这两个任务可以联合分析以及预测，进一步提高了综合性能。

附图说明

为了更清楚地理解本发明，将通过具体实施方案，同时参照附图来描述本发明，其中：

图1本发明文本数据流的话题检测与追踪流程示意图；

图2是语义学习模型Skip-Ngram模型示意图；

图3是本发明半监督文本聚类流程示意图。

具体实施方式

参阅图1。根据本发明，首先，对文本数据流中的文本数据进行特征学习，将文本特征学习分为语义特征学习与时间特征学习，采用语义特征以及时序特征两种特征对文本的特征进行学习表达，将文本转化为向量特征，采用将Skip-Ngram模型作为文本语义学习以及表达的文本语义特征模型，Skip-Ngram模型通过对输入词汇的上下文词汇进行预测，预测给定中心词的上下文词，实现语义信息的学习，采用三角核函数进行特征表达，实现时间特征学习，最后将时间特征与语义特征进行拼接，得到文本特征实现文本特征学习；其次，采用标准化时间区间对文本数据流进行数据切分，通过输入的源数据流分割成各个独立的时间序列，把对数据全量学习与预测拆分成增量学习与预测的形式，进行时序建模，构建时间滑动窗口，采用时间滑动窗口对文本数据流进行分批以及标签采样，给定一个滑动窗口的大小，采样滑动窗口已有话题标签的文本数据，并加载滑动窗口内所有没有话题标签的文本数据，在不同时间点统计的数量特征，计算滑窗内的文本数据流的文本语义特征、文本时间特征，采样加载文本话题标签，将每个批次的数据输入到半监督文本聚类模块；半监督文本聚类模块根据文本的向量特征以及文本的标签数据，基于半监督文本聚类流程对文本数据集合进行的聚合、划分、标签传递，得到文本聚类结果；最后，通过对每个批次的文本聚类结果进行汇总，生成最终的话题检测与追踪结果。

在数据流切分中，设定文本数据流的单位时间为t_unit，根据单位时间t_unit把文本数据流切分为N个子数据段，则数据流在时间序列上N的一个时间序列T_s＝(C_t1,C_t2,…C_t _N)_1*N，将时间滑窗的长度T_span构建为T_span＝C_span*t_unit，且T_step＜T_span，以滑动步长为T_step＝C_step*t_unit，构建时间滑窗，通过时间滑窗滑动加载新的数据进行半监督文本聚类计算，对时间滑窗滑动后计算得到的话题检测与追踪结果与历史结果进行合并，不断对时间滑窗进行滑动，直到时间滑窗滑至时间最新位置，完成话题检测与追踪的全部计算，其中，C_t _N为切分的子数据段第N段文本数据集合。根据T_step＜T_span可知滑窗在每次滑动后都会与前次窗口有重叠部分的情况，其长度为T_span-T_step，在重叠部分中部分数据在上次窗口中的计算中已经生成了话题标签，在每次滑窗内话题聚合学习上次滑窗内产生话题标签L_topictag＝C_topictag*R_topicsample，其中，C_topictag为产生话题的文本标签，R_topicsample为话题标签采样率。

文本的语义特征模型采用Skip-Ngram模型，Skip-Ngram模型首先对文本进行分词处理，对分词结果进行one-hot编码，得到维度为1*V词汇的one-hot特征向量x_k和矩阵维度为V*N的编码矩阵W^l，其次，采用随机初始化所述矩阵中的初始化参数，得到初始化编码矩阵

通过输入词汇对其上下文词汇进行预测的学习任务，实现文本语义特征学习。

Skip-Ngram模型通过计算公式：

得到one-hot特征向量x_k的特征向量h_k，通过编码矩阵/>

进行特征降维的向量，矩阵中参数初始化采用随机初始化，得到矩阵维度为1*N的初始化解码矩阵/>

通过计算公式：/>

得到词汇的解码one-hot特征向量/>

并采用函数softmax将输出的特征向量/>

进行归一化处理，得到概率分布特征向量/>

对/>

与词汇j的one-hot特征向量采用交叉熵进行误差衡量，通过最小化交叉熵对词汇的上下文学习，实现文本的语义学习，其中，k表示输入词汇的索引，j表示需要预测的上下文词汇的索引。

Skip-Ngram模型采用一个词汇，对其上下文总共C个词汇进行预测学习，其损失函数为：

然后通过最小化损失函数与BP算法，对Skip-Ngram模型的编码矩阵与解码矩阵的参数进行更新，完成模型训练，得到文本语义模型，其中，完成语义模型训练后，对文本的语义特征进行表达，通过时间特征表达得到文本时间特征V_timeemb，将文本语义特征与时间特征进行拼接，得到文本特征学习表达结果，然后对文本进行分词处理以及停用词过滤处理，再对得到的文本词汇集合进行频率统计，得到N_word个词汇，通过文本语义特征学习得到文本语义特征v_text，采用如下计算公式计算出文本特征向量v_text：

其中，x_j为词汇j的one-hot特征向量，C表示词汇k的上下文词汇，v_i为文本中的第i个特征词汇的特征向量，f_i为特征词汇的出现频率。

参阅图3。在半监督文本聚类流程中，半监督文本聚类模块设参与话题聚合的文本数量为i，每篇文章的特征向量

标签为/>

其中大部分文章没有标签，对相同标签的文本聚合成一个聚类点，对其它文本每篇单独形成一个聚类点，对聚类点初始化，形成一个簇中聚类点数量为C_clusterinit的聚类簇，完成聚类初始化。

半监督文本聚类模块根据当前聚类簇聚类中心选举及聚类点分布情况，对聚类簇进行中心点推举，推举方式采用聚类点价值评估算法，计算出局部密度pi：

将类簇中推举出的N_dis个中心点作为新的聚类中心点，以聚类点局部密度pi＞Pi_scoremin为条件推选候选中心点，首先推选候选中心点，计算出聚类点间的距离dis：/>

其次，根据推选出的K个中心点，计算每个中心点的误差评估价值：

通过误差评估价值，得到N_dis个聚类中心点，完成中心点推举，其中，N_dis为裂变的数量，Pi_scoremin为局部密度的最小阈值，e表示自然常数，dist_min为局部密度计算的最小距离，dist_a,i为聚类点a至聚类点i的距离。

半监督文本聚类模块误差评估后，通过N_dis个聚类中心点，进行类簇划分，计算聚类点间的相似度Sim：

非聚类中心点选择相似度最高的聚类中心点加入，形成类簇，类簇形成后，更新类簇中心，对非聚类中心点重新计算类簇划分，采用如下聚类中心更新计算公式迭计算聚类中心点v_center：/>

直到所有的非聚类中心点不再更新其所属类簇，完成类簇划分，形成新的N_dis个聚类簇，其中，c_ctuster为当前类簇中所有聚类点，Vec_i为当前类簇中第i个聚类点的特征向量，vec_a、vec_b分别表示文本a与文本b特征向量。

半监督文本聚类模块采用如下所示计算公式计算聚类误差Err_center：

计算出类簇划分对类簇带来的误差增益g_err：

后判断信息增益是否大于设定的聚类增益最小阈值g_errmin，当聚类增益g_err＜g_errmin，终止当前的当前类簇划分，并进行标签传播；当聚类增益g_err＞g_errmin对当前类簇进行划分，得到子类簇，同时对划分生成每个新生成的类簇进行聚类划分，直至所有类簇聚类增益g_err＜g_errmin，完成所有类簇的聚类划分，其中，/>

为划分前聚类簇的聚类簇误差，/>

为新划分的N_dis类簇的聚类误差和，c_cluster为当前类簇中所有聚类点，v_center为当前类簇的中心聚类点，vec_i为当前类簇中聚类点的特征向量。

半监督文本聚类模块在类簇中进行话题标签传播，设类簇中包含T_topic个话题标签，若T_topic＝0，则类簇为新生成话题；若T_topic＝1，则类簇中所有聚类点为追加至该话题新文本数据；若T_topic≥2，则在类簇中计算所有无标签聚类点与有标签聚类点的相似度，把无标签聚类点加入有标签聚类点，形成T_topic个新类簇，完成话题标签传播。

本发明上述实施例的附图中相同或相似的标号对应相同或相似的部件；对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种文本数据流的话题检测与追踪方法，其包括如下步骤：首先，对文本数据流中的文本数据进行特征学习，将文本特征学习分为语义特征学习与时间特征学习，采用语义特征以及时序特征两种特征对文本的特征进行学习表达，将文本转化为向量特征，将Skip-Ngram模型作为文本语义学习以及表达的文本语义特征模型，Skip-Ngram模型对输入词汇的上下文词汇进行预测，预测给定中心词的上下文词，实现语义信息的学习，采用三角核函数进行特征表达，实现时间特征学习，将时间特征与语义特征进行拼接，得到文本特征实现文本特征学习；其次，采用标准化时间区间对文本数据流进行数据切分，通过输入的源数据流分割成各个独立的时间序列，把对数据全量学习与预测拆分成增量学习与预测的形式，进行时序建模，构建时间滑动窗口，采用时间滑动窗口对文本数据流进行分批以及标签采样，给定一个滑动窗口的大小，采样滑动窗口已有话题标签的文本数据，并加载滑动窗口内所有没有话题标签的文本数据，在不同时间点统计的数量特征，计算滑窗内的文本数据流的文本语义特征、文本时间特征，采样加载文本话题标签，将每个批次的数据输入到半监督文本聚类模块；半监督文本聚类模块根据文本的向量特征以及文本的标签数据，基于半监督文本聚类流程对文本数据集合进行聚合、划分、标签传递，得到文本聚类结果；最后，通过对每个批次的文本聚类结果进行汇总，生成最终的话题检测与追踪结果。

2.根据权利要求1所述的文本数据流的话题检测与追踪方法，其特征在于：在数据流切分中，设定文本数据流的单位时间为t_unit，根据单位时间t_unit把文本数据流切分为N个子数据段，则数据流在时间序列上N的一个时间序列T_s＝(C_t1,C_t2,…C_tN)_1*N，将时间滑窗的长度T_span构建为T_span＝C_span*t_unit，且T_step＜T_span，以滑动步长为T_step＝C_step*t_unit，构建时间滑窗，通过时间滑窗滑动加载新的数据进行半监督文本聚类计算，对时间滑窗滑动后计算得到的话题检测与追踪结果与历史结果进行合并，不断对时间滑窗进行滑动，直到时间滑窗滑至时间最新位置，完成话题检测与追踪的全部计算，其中，C_tN为切分的子数据段第N段文本数据集合。

3.根据权利要求2所述的文本数据流的话题检测与追踪方法，其特征在于：根据T_step＜T_span可知滑窗在每次滑动后都会与前次窗口有重叠部分的情况，其长度为T_span-T_step，在重叠部分中部分数据在上次窗口中的计算中已经生成了话题标签，在每次滑窗内话题聚合学习上次滑窗内产生话题标签L_topictag＝C_topictag*R_topicsample，其中，C_topictag为产生话题的文本标签，R_topicsample为话题标签采样率。

4.根据权利要求1所述的文本数据流的话题检测与追踪方法，其特征在于：文本的语义特征模型采用Skip-Ngram模型，Skip-Ngram模型首先对文本进行分词处理，对分词结果进行one-hot编码，得到维度为1*V词汇的one-hot特征向量x_k和矩阵维度为V*N的编码矩阵W^l，其次，采用随机初始化所述矩阵中的初始化参数，得到初始化编码矩阵

5.根据权利要求1所述的文本数据流的话题检测与追踪方法，其特征在于：Skip-Ngram模型通过计算公式：

得到one-hot特征向量x_k的特征向量h_k，通过编码矩阵

通过计算公式：/>

得到词汇的解码one-hot特征向量/>

并采用函数softmax将输出的特征向量/>

进行归一化处理，得到概率分布特征向量/>

对/>

6.根据权利要求1所述的文本数据流的话题检测与追踪方法，其特征在于：Skip-Ngram模型采用一个词汇，对其上下文总共C个词汇进行预测学习，其损失函数为：

7.根据权利要求1所述的文本数据流的话题检测与追踪方法，其特征在于：在半监督文本聚类流程中，半监督文本聚类模块设参与话题聚合的文本数量为i，每篇文章的特征向量

标签为/>

其中大部分文章没有标签，对相同标签的文本聚合成一个聚类点，对其它文本每篇单独形成一个聚类点，对聚类点初始化，形成一个簇中聚类点数量为C_clusterinit的聚类簇，完成聚类初始化；半监督文本聚类模块根据当前聚类簇聚类中心选举及聚类点分布情况，对聚类簇进行中心点推举，推举方式采用聚类点价值评估算法，计算出局部密度pi：/>

其次，根据推选出的K个中心点，计算每个中心点的误差评估价值：/>

8.根据权利要求1所述的文本数据流的话题检测与追踪方法，其特征在于：半监督文本聚类模块误差评估后，通过N_dis个聚类中心点，进行类簇划分，计算聚类点间的相似度Sim：

9.根据权利要求1所述的文本数据流的话题检测与追踪方法，其特征在于：半监督文本聚类模块采用如下所示计算公式计算聚类误差Err_center：

计算出类簇划分对类簇带来的误差增益g_err：/>

为划分前聚类簇的聚类簇误差，/>

10.根据权利要求1所述的文本数据流的话题检测与追踪方法，其特征在于：半监督文本聚类模块在类簇中进行话题标签传播，设类簇中包含T_topic个话题标签，若T_topic＝0，则类簇为新生成话题；若T_topic＝1，则类簇中所有聚类点为追加至该话题新文本数据；若T_topic≥2，则在类簇中计算所有无标签聚类点与有标签聚类点的相似度，把无标签聚类点加入有标签聚类点，形成T_topic个新类簇，完成话题标签传播。