CN107679228B

CN107679228B - 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法

Info

Publication number: CN107679228B
Application number: CN201710994366.9A
Authority: CN
Inventors: 胡学钢; 王海燕; 李培培
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2019-09-10
Anticipated expiration: 2037-10-23
Also published as: CN107679228A

Abstract

本发明公开了一种基于主题模型和概念漂移检测的短文本数据流分类方法，包括：1从知识库中获取外部语料库构建LDA主题模型；2根据滑动窗口机制将短文本数据流划分成数据块，并用LDA主题模型扩展数据块中的短文本得到扩展后的数据流；3在扩展后的短文本数据流中对每个数据块构建online BTM主题模型，并获得每个短文本的主题表示；4选择Q个主题表示的数据块构建一个分类器，用于预测新到来数据块的类标签；5根据类标签分布将Q个主题表示的数据块划分成类别簇，计算类别簇与新到来数据块的语义距离以判断是否发生概念漂移；6根据概念漂移情况，更新分类器。本发明可用于类标签分布不断变化的短文本数据流分类问题。

Description

一种基于短文本扩展和概念漂移检测的短文本数据流分类方法

技术领域

本发明属于实际应用中文本数据流挖掘领域，特别是涉及不断变化的短文本数据流的分类问题。

背景技术

随着即时通讯和互联网技术的飞速发展，网络用户和网络服务器产生大量的短文本数据流，包括新浪微博、在线评论和即时讯息等。这些短文本数据对于科研单位、政府部门以及互联网服务提供商来说都蕴含丰富的价值。短文本数据流具有以下三个特性：1、每条短文本长度短，没有足够的信息，导致数据的稀疏性严重；2、短时间内产生的数据量巨大，容易造成严重的维度灾难；3、随时间推移文本主题会产生潜在的漂移现象。基于这三个特点，使得传统的短文本分类方法和已有的数据流分类方法面临严峻的挑战：

挑战之一：传统的短文本分类方法一般利用外部语料库扩展短文本，然后使用传统的分类方法进行分类，如朴素贝叶斯(Bayes)、支持向量机(SVMs)、决策树等，或者直接利用自身隐含的统计信息扩展短文本进行分类。它们一般属于批处理程序，很难及时处理不断到来的短文本数据。已有的数据流分类方法没有考虑短文本的稀疏性问题，很难直接应用在短文本数据上。

挑战之二：短文本数据流每时每刻都会产生大量的短文本数据，导致严重的高维问题，已有的分类方法很少去解决这个问题。

挑战之三：人们尝试扩展短文本数据以减少稀疏性，然后利用已有的数据流分类方法进行分类。由于短文本数据流常发生概念漂移的现象，已有的数据流分类很少针对这个问题，所以很难取得良好的分类效果。

发明内容

本发明为了避免上述现有技术存在的不足，提供一种基于主题模型和概念漂移检测的短文本数据流分类方法，以期能够用于检测实际应用领域短文本数据流分类问题，从而提高短文本数据流的分类准确率，达到快速适应短文本数据流的概念漂移问题。

本发明为了达到上述发明目的，采用如下技术方案：

本发明一种基于主题模型和概念漂移检测的短文本数据流分类方法的特点是按照如下步骤进行：

步骤1：根据短文本数据流的类标签分布提取关键词，并从知识库中获取外部语料库C'，进而根据所述外部语料库C'构建LDA主题模型M：

步骤1.1：给定一组短文本数据流D＝{d₁,d₂,…,d_m,…,d_|D|}，m＝1,2，…，|D|，|D|表示所述短文本数据流D的短文本总数，d_m表示第m个短文本，并有d_m＝{W_m,y_m}，W_m与y_m分别表示所述短文本数据流D中第m个短文本d_m的单词集合与类标签，且满足y_m∈Y，Y表示一组类标签集合，记为Y＝{y₁,y₂,…,y_x,…,y_X}，x＝1,2，…,X，y_x表示所述类标签集合Y的第x个类标签，X表示所述类标签集合Y的类标签个数；

步骤1.2：根据所述短文本数据流D的类标签分布，将所述短文本数据流D划分成X个数据块集合DY＝{W₁,W₂,…,W_x,…,W_X}，W_x表示所述数据块集合DY中第x个类标签y_x的短文本中所有单词的词集；

统计所述数据块集合DY中第x个类标签y_x的短文本中所有单词的词集W_x的词频，并进行降序排序，从而选择前κ个单词T_x＝{w_x,1,w_x,2,…,w_x,κ}作为所述类标签集合Y的第x个类标签y_x爬取的关键词，进而获得所述类标签集合Y中所有类标签爬取的关键词，并记为T＝{T₁,T₂,…,T_x,…,T_X}；

步骤1.3：根据所述关键词集T＝{T₁,T₂,…,T_x,…,T_X}从知识库中爬取数据，获得原始语料库C，删除所述原始语料库C中重复的网页，并删除HTML标签和HTML链接、移除停止词，从而得到外部语料库C'；

步骤1.4：设置主题总数为K且每个主题下的词集大小为M.L，并根据所述外部语料库C'构建LDA主题模型M，令M.w(k)表示所述LDA主题模型M中的第k个主题下的词集，k＝1,2,…,K；

步骤2：根据滑动窗口机制将所述短文本数据流D重新划分成数据块，并对数据块中每个短文本利用所述LDA主题模型M推断主题分布，再根据所述主题分布扩展每个短文本，从而获得扩展后的短文本数据流：

步骤2.1：根据滑动窗口机制将所述短文本数据流D划分成N个数据块，记为DC＝{D₁,D₂,…,D_i,D_i+1…,D_N}，其中D_i与D_i+1分别表示所述短文本数据流D中第i个和第i+1个数据块，并有和分别表示所述第i个数据块D_i中的第j个短文本以及所述第i+1个数据块D_i+1中的第h个短文本，并有j＝1,2,…,|D_i|，h＝1,2,…,|D_i+1|，和分别表示所述第i个数据块D_i的第j个短文本的词集以及所述第i+1个数据块D_i+1的第h个短文本的词集，和分别表示所述第i个数据块D_i中第j个短文本的类标签以及所述第i+1个数据块D_i+1中第h个短文本的类标签，且满足

步骤2.2：根据所述LDA主题模型M，对所述第i个数据块D_i进行推断，得到文档-主题分布记为表示所述第i个数据块D_i中第j个短文本主题的分布，并有表示所述第i个数据块D_i中第j个短文本的第k个主题的概率；

步骤2.3：令A＝{a₁,a₂,…,a_v-1,a_v,…,a_|A|}表示一组浮点数集合，其中a_v-1和a_v分别表示所述浮点数集A中第v-1个浮点数和第v个浮点数，且均为常数，v＝1,2,…,|A|，|A|表示所述浮点数集A的总个数；

令F＝{f₁,f₂,…,f_v-1,…,f_|A|-1}表示一组整数集合，f_v-1表示所述整数集F中第v-1个整数，且均为常数；

步骤2.4：判断所述第i个数据块D_i中第j个短文本的主题分布中第个k主题概率是否属于区间(a_v-1,a_v]，若属于，则将所述LDA主题模型M中第k个主题下词集大小为M.L的词集M.w(k)重复f_v-1次添加到所述第i个数据块D_i的第j个短文本中，否则进行下一个主题概率判断；从而对所述第i个数据块D_i中第j个短文本的主题分布中所有主题进行判断，并获得所述第i个数据块D_i的第j个短文本扩展后的短文本并有

步骤2.5：将j+1赋值给j，并返回步骤2.4，直到j＝|D_i|为止，从而获得所述第i个数据块D_i扩展后的数据块

步骤2.6：同理获得所述第i+1个数据块D_i+1扩展后的数据块

步骤3：在所述扩展后的第i个数据块D'_i上构建online BTM主题模型，并获得所述扩展后的第i个数据块D'_i中每个短文本的主题表示：

步骤3.1：将所述扩展后的第i个数据块D'_i中第j个短文本的词集中的不同单词两两组对，从而获得所述扩展后的第i个数据块D'_i中第j个短文本的词对集合其中与分别表示所述扩展后的第i个数据块D'_i中第j个短文本的词对集合中第l个词对、第l个词对的频率和所有词对总数，并有w_l,1，w_l,2分别表示所述扩展后的第i个数据块D'_i的词对集合的第l个词对中的第1个单词和第2个单词，从而获得所述扩展后的第i个数据块D'_i中所有短文本的词对集合以及总的词对总数

合并所述扩展后的第i个数据块D'_i中所有短文本的词对集合BW'ⁱ的所有词对，得到所述扩展后的第i个数据块D'_i的词对集合，记为其中b_r表示所述扩展后的第i个数据块D'_i的词对集合B_i的第r个词对，并有b_r＝{w'_r1,w'_r2}，r＝1,2,…,|B_i|，w'_r,1，w'_r,2分别表示所述扩展后的第i个数据块D'_i的词对集合B_i的第r个词对b_r中的第1个单词和第2个单词，|B_i|表示所述扩展后的第i个数据块D'_i的词对集合B_i的词对总数；

步骤3.2：定义所述扩展后的第i个数据块D'_i的主题分布和主题下的词分布分别为和其中表示所述扩展后的第i个数据块D'_i中第k'个主题的概率，表示所述扩展后的第i个数据块D'_i的第k'个主题下的词分布，并有：表示所述扩展后的第i个数据块D'_i的第k'个主题下的词分布中第p个单词的概率；

定义所述扩展后的第i个数据块D'_i的Dirichlet先验分布参数为α⁽ⁱ⁾和β⁽ⁱ⁾，且和表示所述扩展后的第i个数据块D'_i的主题分布θ⁽ⁱ⁾中的第k'个主题的先验概率，表示所述扩展后的第i个数据块D'_i的第k'个主题下词分布的先验分布；并有表示所述扩展后的第i个数据块D'_i的第k'个主题下词分布的第p个单词的先验概率；

当i＝1时，令α⁽¹⁾＝{α,α,…,α,…,α}，α和β均为常数；

步骤3.3：设置主题总数为K_B，根据所述扩展后的第i个数据块D'_i的Dirichlet先验分布参数α⁽ⁱ⁾和β⁽ⁱ⁾，利用所述扩展后的第i个数据块D'_i的词对集合B_i构建onlineBTM主题模型记为M⁽ⁱ⁾，令M⁽ⁱ⁾.n_k'表示所述扩展后的第i个数据块D'_i的第k'个主题下的词对数，M⁽ⁱ⁾.n_p,k'表示所述扩展后的第i个数据块D'_i的词集W'_i中的第p个单词属于所述onlineBTM模型M⁽ⁱ⁾中的第k'个主题的次数，k'＝1,2,…,K_B，p＝1,2,…,|W'_i|；

根据所述online BTM模型M⁽ⁱ⁾，得到所述扩展后的第i个数据块D'_i的主题分布和主题下的词分布

步骤3.4：利用式(1)和式(2)分别计算所述扩展后第i+1个数据块D'_i+1的Dirichlet先验分布参数α⁽ⁱ⁺¹⁾和β⁽ⁱ⁺¹⁾：

式(1)和式(2)中，λ是一个衰退值，且是常数；

步骤3.4：利用式(3)得到所述扩展后的第i个数据块D'_i中第j个短文本的第k'个主题的主题表示

式(3)中，表示所述扩展后的第i个数据块D'_i中第j个短文本的第k'个主题的概率，和分别表示所述扩展后的第i个数据块D'_i的第k'个主题下的词分布中单词w_l,1的概率和单词w_l,2的概率；

步骤3.5：将k'+1赋值给k'，并返回步骤3.4，直到k'＝K_B为止，从而获得所述扩展后的第i个数据块D'_i的第j个短文本的主题表示

步骤3.6：将j+1赋值给j，并返回步骤3.4，直到j＝|D'_i|为止，从而获得所述扩展后的第i个数据块D'_i的主题表示

步骤4：选择Q个主题表示的数据块构建一个分类器，用于预测下一个数据块的类标签：

步骤4.1：若i＝1，则将所述扩展后的第i个数据块D'_i的主题表示Z_i加入到集合Win_f中，记为Z_q与Q_f分别表示所述集合Win_f中的第q个数据块和数据块总数，记|Z_q|表示所述集合Win_f中的第q个数据块的短文本总数，并基于所述集合Win_f构建一个分类器λ_f后，转到步骤6.2；

若1＜i≤Q，则根据所述分类器λ_f预测所述扩展后的第i个数据块D'_i的主题表示Z_i的类标签，并将f+1赋值给f后，将所述扩展后的第i个数据块D'_i的主题表示Z_i加入到集合Win_f中，并基于所述集合Win_f重建分类器λ_f后，转到步骤6.2；

若i＞Q，则根据所述分类器λ_f预测所述扩展后的第i个数据块D'_i的主题表示Z_i的类标签；

步骤5：根据所述短文本数据流D的类标签分布，将所述集合Win_f中的每个数据块划分成类别簇，计算所划分的每个数据块的类别簇与所述扩展后的第i个数据块D'_i的主题表示Z_i的语义距离，并根据语义距离判断是否发生概念漂移：

步骤5.1：根据所述短文本数据流D的类标签分布，将所述集合Win_f中的第q个数据块Z_q划分为类别簇表示所述集合Win_f中的第q个数据块Z_q中第x个类标签y_x的短文本的主题表示集合，并有表示集合Win_f中第q个数据块Z_q中类标签为y_x的第g个短文本的主题表示，并有：表示所述集合Win_f的第q个数据块Z_q中类标签为y_x的第g个短文本的第k'个主题的主题表示，表示所述集合Win_f中第q个数据块Z_q中类标签为y_x的短文本总数；

步骤5.2：根据式(4)计算所述扩展后的第i个数据块D'_i的第j个短文本的主题表示与所述集合Win_f中的第q个数据块Z_q中类标签是y_x的类别簇的语义距离

并有：

步骤5.3：将x+1赋值给x，并返回步骤5.2，直到x＝X为止，从而得到所述扩展后的第i个数据块D'_i的第j个短文本的主题表示与所述集合Win_f中的第q个数据块Z_q中所有类别簇I^q的语义距离，记为语义距离集合

步骤5.4：选择所述语义距离集合中最小的语义距离用于代表所述扩展后的第i个数据块D'_i的第j个短文本的主题表示与所述集合Win_f中的第q个数据块Z_q的语义距离

步骤5.5：将j+1赋值给j，并返回步骤5.2，直到j＝|D_i|为止，从而获得所述扩展后的第i个数据块D'_i的所有短文本的主题表示与所述集合Win_f中的第q个数据块Z_q的语义距离；

步骤5.6：根据式(6)计算所述扩展后的第i个数据块D'_i的主题表示Z_i与所述集合Win_f中的第q个数据块Z_q的语义距离dist(Z_i,Z_q)：

步骤5.7：根据所述扩展后的第i个数据块D'_i的主题表示Z_i与所述集合Win_f中的第q个数据块Z_q的语义距离dist(Z_i,Z_q)与阈值τ比较，0＜τ＜1，若dist(Z_i,Z_q)＞τ，则表示所述扩展后的第i个数据块D'_i的主题表示Z_i相对于所述集合Win_f中的第q个数据块Z_q发生了概念漂移，并将语义距离dist(Z_i,Z_q)装入所定义的语义距离集合CD_f中，否则，则表示未发生概念漂移，并令dist(Z_i,Z_q)＝0后，再装入语义距离集合CD_f中；

步骤5.8：将q+1赋值给q，并返回步骤5.1，直到q＝Q_f为止，从而得到所述扩展后的第i个数据块D'_i的主题表示Z_i与所述集合Win_f中的Q_f个数据块的语义距离的语义距离集合CD_f＝{dist(Z_i,Z_q),q＝1,2,…,Q_f}；

步骤6：将发生概念漂移的扩展后的第i个数据块D'_i的主题表示Z_i替换所述集合Win_f中的数据块，并更新所述分类器λ_f：

步骤6.1：若所述语义距离集合CD_f中扩展后的第i个数据块D'_i的主题表示Z_i与所述集合Win_f所有数据块的距离都为0，则表示扩展后的第i个数据块D'_i的主题表示Z_i相对于所述集合Win_f所有数据块都没有发生概念漂移，从而不更新所述分类器λ_f；

若所述语义距离集合CD_f中距离dist(Z_i,Z_q)最大，则表示所述扩展后的第i个数据块D'_i的主题表示Z_i相对于所述集合Win_f中的第q个数据块Z_i发生概念漂移，从而将f+1赋值给f，并利用所述扩展后的第i个数据块D'_i的主题表示Z_i替换所述集合Win_f中的第q个数据块Z_q，再利用所述集合Win_f重建分类器λ_f；

步骤6.2：将i+1赋值给i，并返回步骤2.2，直到i＝N为止。

与已有技术相比，本发明有益效果体现如下：

1、本发明考虑每条短文本数据长度短，信息少的特性，利用爬取的Wikipedia数据作为外部语料库，借助LDA主题模型挖掘外部语料库的相关内容扩展短文本，减少了短文本的稀疏性问题，丰富了短文本的内容，从而提升了短文本分类的准确率，同时，本发明考虑了短文本数据流的高维特性，借助OnlineBTM主题模型将短文本表示为主题形式代替词袋模型(Bag-of-words)的表示形式，降低了数据流的维度，提升了短文本数据流分类的效率。

2、本发明基于数据块之间主题信息的分布差异设计了检测概念漂移的方法，根据类标签分布，将数据块划分为更小的数据块，计算新的数据块中短文本与每个数据块中子数据块的语义距离，选择最小语义距离去检测是否发生概念漂移，从而有效降低了概念漂移检测中的误报率、漏报率和延迟，有助于适应不断变化的短文本数据流，提升了分类精度。

3、本发明为了适应短文本数据流中概念漂移对分类准确率的影响，判断新数据相对于用于分类的数据块是否发生概念漂移，若发生概念漂移，则用新的数据块替换发生概念漂移的数据块，更新分类器，从而提高了短文本数据流分类的准确度。

4、本发明面向实际应用领域如：智能信息检索，把数量巨大但缺乏结构的短文本数据组织成规范的文本数据；舆情信息检测，可对互联网上的短文本数据自动分类；个性化推荐，通过归类相同类型的数据，进行个性化推荐等，应用广泛。

附图说明

图1为本发明短文本数据流分类的框架示意图；

图2为本发明主题模型M中部分主题下的词；

图3为本发明概念漂移检测的过程示意图；

具体实施方式

本实施例中，如图1所示，一种基于主题模型和概念漂移检测的短文本数据流分类方法是按如下步骤进行：

步骤1：根据短文本数据流的类标签分布提取关键词，并从知识库Wikipedia中获取外部语料库C'，进而根据外部语料库C'构建LDA主题模型M：

步骤1.1：给定一组短文本数据流D＝{d₁,d₂,…,d_m,…,d_|D|}，m＝1,2，…，|D|，|D|表示短文本数据流D的短文本总数，d_m表示第m个短文本，并有d_m＝{W_m,y_m}，W_m与y_m分别表示短文本数据流D中第m个短文本d_m的单词集合与类标签，且满足y_m∈Y，Y表示一组类标签集合，记为Y＝{y₁,y₂,…,y_x,…,y_X}，x＝1,2，…,X，y_x表示类标签集合Y的第x个类标签，X表示类标签集合Y的类标签个数；

步骤1.2：根据短文本数据流D的类标签分布，将短文本数据流D划分成X个数据块集合DY＝{W₁,W₂,…,W_x,…,W_X}，W_x表示数据块集合DY中第x个类标签y_x的短文本中所有单词的词集；

步骤1.3：初始化x＝1；

步骤1.4：统计数据块集合DY中第x个类标签y_x的短文本中所有单词的词集W_x的词频，并进行降序排序，从而选择前κ个单词T_x＝{w_x,1,w_x,2,…,w_x,κ}作为类标签集合Y的第x个类标签y_x爬取的关键词；

步骤1.5：将x+1赋值给x，返回步骤1.4，直至x＝X为止，可获得类标签集合Y中所有类标签下爬取外部语料库的关键词，表示为T＝{T₁,T₂,…,T_x,…,T_X}；

步骤1.6：根据关键词集T＝{T₁,T₂,…,T_x,…,T_X}从知识库Wikipedia中爬取数据，获得原始语料库C，删除原始语料库C中重复的网页，并删除HTML标签和HTML链接、移除停止词，从而得到外部语料库C'；

步骤1.7：设置主题总数为K且每个主题下的词集大小为M.L，并根据外部语料库C'构建LDA主题模型M，令M.w(k)表示LDA主题模型M中的第k个主题下的词集，k＝1,2,…,K；

本实施例中，如表1给定了一组含有15个示例的短文本数据流D，其中|D|＝15，Y＝{y₁＝Business,y₂＝Health,y₃＝Computer,y₄＝Sport}，X＝4；

表1某短文本数据流种15条抽样数据

根据外部语料库的获取方法，具体按如下步骤进行：

(1)将短文本数据流D按类标签分布划分，并根据词频降序排序，为每个类标签选取κ＝10个词，如表2；

表2爬取外部语料库的关键词

(2)根据表2获取的关键词从知识库Wikipedia中爬取外部语料库C，将原始语料库C删除原始网页中重复的网页，删除HTML标签和HTML链接，移除停止词，获取外部语料库C'，详细信息展示在表3；

表3外部语料库的详细信息

(3)设置主题总数K＝50，每个主题下的词集大小M.L＝5，根据获取的外部语料库C'构建LDA主题模型M，主题模型M中部分主题下的词集被展示在图2；

步骤2：根据滑动窗口机制将短文本数据流D重新划分成数据块，并对数据块中每个短文本利用LDA主题模型M推断主题分布，再根据主题分布扩展每个短文本，从而获得扩展后的短文本数据流：

步骤2.1：根据滑动窗口机制将短文本数据流D划分成N个数据块，记为DC＝{D₁,D₂,…,D_i,D_i+1…,D_N}，其中D_i与D_i+1分别表示短文本数据流D中第i个和第i+1个数据块，并有和分别表示第i个数据块D_i中的第j个短文本以及第i+1个数据块D_i+1中的第h个短文本，并有j＝1,2,…,|D_i|，h＝1,2,…,|D_i+1|，和分别表示第i个数据块D_i的第j个短文本的词集以及第i+1个数据块D_i+1的第h个短文本的词集，和分别表示第i个数据块D_i中第j个短文本的类标签以及第i+1个数据块D_i+1中第h个短文本的类标签，且满足

步骤2.2：初始化i＝1；

步骤2.3：根据主题模型M，推断第i个数据块D_i的文档-主题分布为表示第i个数据块D_i中第j个短文本的主题分布，1≤j≤|D_i|，并有表示第i个数据块D_i中第j个短文本的第k个主题的概率，1≤k≤K。

步骤2.4：令A＝{a₁,a₂,…,a_v-1,a_v,…,a_|A|}表示一组浮点数集合，其中a_v-1和a_v分别表示浮点数集A中第v-1个浮点数和第v个浮点数，且均为常数，v＝1,2,…,|A|，|A|表示浮点数集A的总个数；

令F＝{f₁,f₂,…,f_v-1,…,f_|A|-1}表示一组整数集合，f_v-1表示整数集F中第v-1个整数，且均为常数；

步骤2.5：初始化j＝1；

步骤2.6：初始化k＝1；

步骤2.7：判断第i个数据块D_i中第j个短文本的主题分布中第个k主题概率是否属于区间(a_v-1,a_v]，若属于，则将LDA主题模型M中第k个主题下词集大小为M.L的词集M.w(k)重复f_v-1次添加到第i个数据块D_i的第j个短文本中，否则进行下一个主题概率判断；

步骤2.8：将k+1赋值给k，返回步骤2.7，直至k＝K为止，获得第i个数据块D_i的第j个短文本扩展后的短文本并有

步骤2.9：将j+1赋值给j，并返回步骤2.6，直到j＝|D_i|为止，获得第i个数据块D_i扩展后的数据块

步骤2.10：同理，可获得第i+1个数据块D_i+1扩展后的数据块

步骤3：在扩展后的第i个数据块D'_i上构建online BTM主题模型，并获得扩展后的第i个数据块D'_i中每个短文本的主题表示：

步骤3.1：初始化j＝1；

步骤3.2：将扩展后的第i个数据块D'_i中第j个短文本的词集中的不同单词两两组对，从而获得扩展后的第i个数据块D'_i中第j个短文本的词对集合其中与分别表示扩展后的第i个数据块D'_i中第j个短文本的词对集合中第l个词对、第l个词对的频率和所有词对总数，并有w_l,1，w_l,2分别表示扩展后的第i个数据块D'_i的词对集合的第l个词对中的第1个单词和第2个单词；

步骤3.3：将j+1赋值给j，并返回步骤3.2，直到j＝|D_i|为止，获得扩展后的第i个数据块D'_i中所有短文本的词对集合以及总的词对数

步骤3.4：合并扩展后的第i个数据块D'_i中所有短文本的词对集合BW'ⁱ的所有词对，得到扩展后的第i个数据块D'_i的词对集合，记为其中b_r表示扩展后的第i个数据块D'_i的词对集合B_i的第r个词对，并有b_r＝{w'_r1,w'_r2}，r＝1,2,…,|B_i|，w'_r,1，w'_r,2分别表示扩展后的第i个数据块D'_i的词对集合B_i的第r个词对b_r中的第1个单词和第2个单词，|B_i|表示扩展后的第i个数据块D'_i的词对集合B_i的词对总数；

步骤3.5：定义扩展后的第i个数据块D'_i的主题分布和主题下的词分布分别为和其中表示扩展后的第i个数据块D'_i中第k'个主题的概率，表示扩展后的第i个数据块D'_i的第k'个主题下的词分布，并有：表示扩展后的第i个数据块D'_i的第k'个主题下的词分布中第p个单词的概率；

定义扩展后的第i个数据块D'_i的Dirichlet先验分布参数为α⁽ⁱ⁾和β⁽ⁱ⁾，且和表示扩展后的第i个数据块D'_i的主题分布θ⁽ⁱ⁾中的第k'个主题的先验概率，表示扩展后的第i个数据块D'_i的第k'个主题下词分布的先验分布；并有表示扩展后的第i个数据块D'_i的第k'个主题下词分布的第p个单词的先验概率；

当i＝1时，令α⁽¹⁾＝{α,α,…,α,…,α}，α和β均为常数；

步骤3.6：设置主题总数为K_B，根据扩展后的第i个数据块D'_i的Dirichlet先验分布参数α⁽ⁱ⁾和β⁽ⁱ⁾，利用扩展后的第i个数据块D'_i的词对集合B_i构建onlineBTM主题模型记为M⁽ⁱ⁾，令M⁽ⁱ⁾.n_k'表示扩展后的第i个数据块D'_i的第k'个主题下的词对数，M⁽ⁱ⁾.n_p,k'表示扩展后的第i个数据块D'_i的词集W'_i中的第p个单词属于onlineBTM模型M⁽ⁱ⁾中的第k'个主题的次数，k'＝1,2,…,K_B，p＝1,2,…,|W'_i|；

根据online BTM模型M⁽ⁱ⁾，得到扩展后的第i个数据块D'_i的主题分布和主题下的词分布

步骤3.7：初始化k'＝1；

步骤3.8：利用公式(1)计算扩展后的第i+1个数据块D'_i+1的主题分布中第k'个主题的先验概率

步骤3.9：初始化p＝1；

步骤3.10：利用公式(2)计算扩展后的第i+1个数据块D'_i+1的第k'个主题下词分布中第p个单词的先验概率

式(1)和式(2)中，λ是一个衰退值，且是常数；

步骤3.11：将p+1赋值给p，返回步骤3.10，直至p＝|W'_i|为止，得到扩展后的第i+1个数据块D'_i+1的第k'个主题下词分布的先验分布

步骤3.12：将k'+1赋值给k'，返回步骤3.8，直至k'＝K_B为止，得到扩展后第i+1个数据块D'_i+1所需要的Dirichlet先验分布α⁽ⁱ⁺¹⁾和β⁽ⁱ⁺¹⁾；

步骤3.13：初始化j＝1；

步骤3.14：初始化k'＝1；

步骤3.15：利用式(3)得到扩展后的第i个数据块D'_i中第j个短文本的第k'个主题的主题表示

式(3)中，表示扩展后的第i个数据块D'_i中第j个短文本的第k'个主题的概率，和分别表示扩展后的第i个数据块D'_i的第k'个主题下的词分布中单词w_l,1的概率和单词w_l,2的概率；

步骤3.16：将k'+1赋值给k'，并返回步骤3.4，直到k'＝K_B为止，从而获得扩展后的第i个数据块D'_i的第j个短文本的主题表示

步骤3.17：将j+1赋值给j，并返回步骤3.4，直到j＝|D'_i|为止，从而获得扩展后的第i个数据块D'_i的主题表示

步骤4.1：若i＝1，则将扩展后的第i个数据块D'_i的主题表示Z_i加入到集合Win_f中，记为Z_q与Q_f分别表示集合Win_f中的第q个数据块和数据块总数，记|Z_q|表示集合Win_f中的第q个数据块的短文本总数，并基于集合Win_f构建一个分类器λ_f后，转到步骤6.2；

若1＜i≤Q，则根据分类器λ_f预测扩展后的第i个数据块D'_i的主题表示Z_i的类标签，并将f+1赋值给f后，将扩展后的第i个数据块D'_i的主题表示Z_i加入到集合Win_f中，并基于集合Win_f重建分类器λ_f后，转到步骤6.2；

若i＞Q，则根据分类器λ_f预测扩展后的第i个数据块D'_i的主题表示Z_i的类标签；

步骤5：根据短文本数据流D的类标签分布，将集合Win_f中的每个数据块划分成类别簇，计算所划分的每个数据块的类别簇与扩展后的第i个数据块D'_i的主题表示Z_i的语义距离，并根据语义距离判断是否发生概念漂移：

步骤5.1：初始化q＝1；

步骤5.2：根据短文本数据流D的类标签分布，将集合Win_f中的第q个数据块Z_q划分为类别簇表示集合Win_f中的第q个数据块Z_q中第x个类标签y_x的短文本的主题表示集合，并有表示集合Win_f中第q个数据块Z_q中类标签为y_x的第g个短文本的主题表示，并有：表示集合Win_f的第q个数据块Z_q中类标签为y_x的第g个短文本的第k'个主题的主题表示，表示集合Win_f中第q个数据块Z_q中类标签为y_x的短文本总数；

步骤5.3：初始化j＝1；

步骤5.4：初始化x＝1；

步骤5.5：根据式(4)计算扩展后的第i个数据块D'_i的第j个短文本的主题表示与集合Win_f中的第q个数据块Z_q中类标签是y_x的类别簇的语义距离

并有：

步骤5.6：将x+1赋值给x，并返回步骤5.5，直到x＝X为止，从而得到扩展后的第i个数据块D'_i的第j个短文本的主题表示与集合Win_f中的第q个数据块Z_q中所有类别簇I^q的语义距离，记为语义距离集合

步骤5.7：根据式(6)选择语义距离集合中最小的语义距离用于代表扩展后的第i个数据块D'_i的第j个短文本的主题表示与集合Win_f中的第q个数据块Z_q的语义距离

步骤5.8：将j+1赋值给j，并返回步骤5.4，直到j＝|D_i|为止，从而获得扩展后的第i个数据块D'_i的所有短文本的主题表示与集合Win_f中的第q个数据块Z_q的语义距离；

步骤5.9：根据式(7)计算扩展后的第i个数据块D'_i的主题表示Z_i与集合Win_f中的第q个数据块Z_q的语义距离dist(Z_i,Z_q)：

步骤5.9：根据扩展后的第i个数据块D'_i的主题表示Z_i与集合Win_f中的第q个数据块Z_q的语义距离dist(Z_i,Z_q)与阈值τ比较，0＜τ＜1，若dist(Z_i,Z_q)＞τ，则表示扩展后的第i个数据块D'_i的主题表示Z_i相对于集合Win_f中的第q个数据块Z_q发生了概念漂移，并将语义距离dist(Z_i,Z_q)装入所定义的语义距离集合CD_f中，否则，则表示未发生概念漂移，并令dist(Z_i,Z_q)＝0后，再装入语义距离集合CD_f中；

步骤5.10：将q+1赋值给q，并返回步骤5.1，直到q＝Q_f为止，从而得到扩展后的第i个数据块D'_i的主题表示Z_i与集合Win_f中的Q_f个数据块的语义距离的语义距离集合CD_f＝{dist(Z_i,Z_q),q＝1,2,…,Q_f}；

步骤6：将发生概念漂移的扩展后的第i个数据块D'_i的主题表示Z_i替换集合Win_f中的数据块，并更新分类器λ_f；

步骤6.1：若语义距离集合CD_f中扩展后的第i个数据块D'_i的主题表示Z_i与集合Win_f所有数据块的距离都为0，则表示扩展后的第i个数据块D'_i的主题表示Z_i相对于集合Win_f所有数据块都没有发生概念漂移，从而不更新分类器λ_f；

若语义距离集合CD_f中距离dist(Z_i,Z_q)最大，则表示扩展后的第i个数据块D'_i的主题表示Z_i相对于集合Win_f中的第q个数据块Z_i发生概念漂移，从而将f+1赋值给f，并利用扩展后的第i个数据块D'_i的主题表示Z_i替换集合Win_f中的第q个数据块Z_q，再利用集合Win_f重建分类器λ_f；

步骤6.2：将i+1赋值给i，并返回步骤2.3，直到i＝N为止。

本实施例中，根据短文本数据流的分类方法，如图1所示，具体按如下步骤进行：

(1)基于滑动窗口机制将短文本数据流D等分成数据块DC＝{D₁,D₂,D₃}，可划分N＝3个数据块，分别记为第1个数据块、第2个数据块和第3个数据块，|D₁|＝|D₂|＝|D₃|＝5，如表4所示；

表4某短文本数据流中15条抽样数据

(2)根据主题模型M推断数据块D₁的文档-主题分布：

表5扩展后的数据块

(3)设置A＝{a₁＝0,a₂＝0.07,a₃＝0.1,a₄＝0.2,a₅＝0.5,a₆＝1}，F＝{f₁＝0,f₂＝1,f₃＝2,f₄＝3,f₅＝4}，数据块D₁中第一个短文本的第25个主题Topic25∈(a₃,a₄]，因此将Topic25下的单词重复f₃＝2次添加到短文本中，同理，Topic40∈(a₃,a₄]，也将Topic40下的单词重复f₃＝2次添加到短文本中，获得扩展后的短文本以此类推，扩展数据块D₁中的所有短文本，获得数据块D₁的扩展后的数据块D'₁，被展示在表5，这里省略部分单词内容。

(4)将扩展后的数据块D'₁的每个短文本的词集中不同单词两两组对，获得扩展后的数据块D'₁中所有短文本的词对集合以及所有词对总数

(5)合并词对集合BW'¹的所有词对数，得到扩展后的数据块D'₁的词对集合|B₁|＝L¹＝2596；

(6)初始状态下，设置α＝0.5，β＝0.01，λ＝0.5，K_B＝50利用词对集合B₁构建OnlineBTM主题模型M⁽¹⁾，并且根据M⁽¹⁾.n₁和M⁽¹⁾.n_1,1分别计算下一个数据块D'₂的主题分布θ⁽²⁾的第1个主题的Dirichlet先验分布以及下一个数据块D'₂的第1个主题的词分布的第1个单词Dirichlet先分布：

从而获得主题分布θ⁽²⁾的Dirichlet先验分布参数α⁽²⁾和词分布φ⁽²⁾的Dirichlet先验分布参数β⁽²⁾；

(7)根据扩展后的数据块D'₁的主题分布θ⁽¹⁾和主题下的词分布φ⁽¹⁾，计算扩展后的数据块D'₁中短文本的第1个主题概率：

从而计算扩展后的数据块D'₁中短文本所有主题概率，获得扩展后的数据块D'₁中短文本的主题表示同理，就可以获得数据块D'₁中所有文本的主题表示记为Z₁，被展示在表6中，部分主题概率省略；

(8)设置Q＝2，初始化f＝1，将主题表示的数据块Z₁加入到集合Win₁中，即Win₁＝{Z₁}，然后利用Z₁构建一个SVM分类器λ₁；

表6数据块的主题表示

(9)根据主题模型M推断数据块D₂的文档-主题分布θ₂，然后扩展数据块D₂中所有短文本，扩展方式与数据块D₁相同，扩展后的数据块D'₂被展示在表5，然后将扩展后的数据块D'₂中每个短文本的词集中不同单词两两组对，获得扩展后的数据块D'₂中所有短文本的词对集合合并词对集合BW'²的所有词对，得到扩展后的数据块D'₂的词对集合|B₂|＝L²＝4308，利用词对集合B₂构建OnlineBTM主题模型M⁽²⁾，并且根据M⁽²⁾.n₁和M⁽²⁾.n_1,1分别计算数据块D'₃的主题分布θ⁽³⁾的第1个主题的Dirichlet先验分布以及数据块D'₃的第1个主题的词分布的第1个单词Dirichlet先分布：

从而获得针对主题分布θ⁽³⁾的Dirichlet先验分布参数α⁽³⁾和词分布φ⁽³⁾的Dirichlet先验分布参数β⁽³⁾；

(10)根据扩展后的数据块D'₂的主题分布θ⁽²⁾和主题下的词分布φ⁽²⁾，计算扩展后的数据块D'₂中短文本的第1个主题概率：

从而获得扩展后的数据块D'₂中短文本的主题表示同理，就可以获得数据块D'₂中所有文本的主题表示记为Z₂，被展示在表6中；

(11)用分类器λ₁预测Z₂的类标签为{Business,Business,Business,Business,Business}，f＝2，Win₂＝{Z₁,Z₂}，重新构建分类器λ₂；

(12)同样的，根据主题模型M推断数据块D₃的文档-主题分布θ₃，然后扩展数据块D₃中所有短文本，扩展后的数据块D'₃被展示在表5，然后将得到的数据块D'₃中每个短文本的词集中的单词两两组对，获得所有短文本的词对集合合并词对集合BW'³的所有词对，得到扩展后的数据块D'₃的词对集合|B₃|＝L³＝2518，利用词对集合B₃构建OnlineBTM主题模型M⁽³⁾；

(13)同样的，根据扩展后的数据块D'₃的主题分布θ⁽³⁾和主题下的词分布φ⁽³⁾，计算数据块D'₃中短文本的第1个主题概率：

从而获得扩展后的数据块D'₃中短文本的主题表示同理，就可以获得数据块D'₃中所有文本的主题表示记为Z₃，被展示在表6中；

(14)用分类器λ₂预测Z₃的类标签{Business,Sport,Sport,Business,Sport}；

本实施例中，检测扩展后的数据块D'₃的主题表示Z₃相对于窗口Win₂＝{Z₁,Z₂}中的数据块Z₁是否发生概念漂移，如图3所示，同理可判断扩展后的数据块D'₃的主题表示Z₃相对于窗口Win₂＝{Z₁,Z₂}中数据块Z₂是否发生概念漂移，最后根据概念漂移更新分类器，具体按如下步骤进行；

(1)根据类标签Y＝{y₁＝Business,y₂＝Health,y₃＝Computer,y₄＝Sport}，将集合Win₂＝{Z₁,Z₂}中数据块Z₁划分为并有

(2)计算扩展后的数据块D'₃的主题表示Z₃的每个短文本与集合Win₂＝{Z₁,Z₂}中数据块Z₁的每个类别簇的语义距离，首先，计算扩展后的数据块D'₃的主题表示Z₃中第一个主题表示的文本和集合Win₂＝{Z₁,Z₂}中第一个数据块Z₁中第一个类别簇的第一个文本的语义距离如下：

同理，然后计算扩展后的数据块D'₃的主题表示Z₃中第1个文本与集合Win₂＝{Z₁,Z₂}中第一个数据块Z₁中第一个类别簇的语义距离如下：

同理，同理可获得扩展后的数据块D'₃的主题表示Z₃中其他文本与集合Win₂＝{Z₁,Z₂}中第一个数据块Z₁的类别簇和类别簇的语义距离，

(2)计算扩展后的数据块D'₃的主题表示Z₃中每个短文本与集合Win₂＝{Z₁,Z₂}中数据块Z₁的语义距离，根据如下计算方法可以获得扩展后的数据块D'₃的主题表示Z₃中短文本与集合Win₂＝{Z₁,Z₂}中数据块Z₁的语义距离：

同理，可获得

(4)计算扩展后的数据块D'₃的主题表示Z₃与集合Win₂＝{Z₁,Z₂}中数据块Z₁的语义距离如下：

(5)设置阈值dist(Z₃,Z₁)>τ，则表示扩展后的数据块D'₃的主题表示Z₃相对于集合Win₂＝{Z₁,Z₂}中数据块Z₁发生概念漂移；

(6)同理，可计算扩展后的数据块D'₃的主题表示Z₃与集合Win₂＝{Z₁,Z₂}中数据块Z₂的语义距离为dist(Z₃,Z₂)≈0.8661，根据阈值τ，dist(Z₃,Z₂)<τ，则表示扩展后的数据块D'₃的主题表示Z₃相对于集合Win₂＝{Z₁,Z₂}中数据块Z₂没有发生概念漂移；

(7)根据是否发生概念漂移，设置dist(Z₃,Z₂)＝0，则CD₂＝{dist(Z₃,Z₁),dist(Z₃,Z₂)}，f＝f+1＝3，用扩展后的数据块D'₃的主题表示Z₃替换集合Win₂＝{Z₁,Z₂}中数据块Z₁得到Win₂＝{Z₃,Z₂}，重新构建分类器λ₃。

Claims

1.一种基于主题模型和概念漂移检测的短文本数据流分类方法，其特征是按照如下步骤进行：

步骤2.1：根据滑动窗口机制将所述短文本数据流D划分成N个数据块，记为DC＝{D₁,D₂,…,D_i,D_i+1…,D_N}，其中D_i与D_i+1分别表示所述短文本数据流D中第i个和第i+1个数据块，并有和分别表示所述第i个数据块D_i中的第j个短文本以及所述第i+1个数据块D_i+1中的第h个短文本，并有h＝1,2,…,|D_i+1|，和分别表示所述第i个数据块D_i的第j个短文本的词集以及所述第i+1个数据块D_i+1的第h个短文本的词集，和分别表示所述第i个数据块D_i中第j个短文本的类标签以及所述第i+1个数据块D_i+1中第h个短文本的类标签，且满足

步骤2.6：同理获得所述第i+1个数据块D_i+1扩展后的数据块

当i＝1时，令α⁽¹⁾＝{α,α,…,α,…,α}，α和β均为常数；

步骤3.3：设置主题总数为K_B，根据所述扩展后的第i个数据块D'_i的Dirichlet先验分布参数α⁽ⁱ⁾和β⁽ⁱ⁾，利用所述扩展后的第i个数据块D'_i的词对集合B_i构建online BTM主题模型记为M⁽ⁱ⁾，令表示所述扩展后的第i个数据块D'_i的第k'个主题下的词对数，表示所述扩展后的第i个数据块D'_i的词集W'_i中的第p个单词属于所述online BTM模型M⁽ⁱ⁾中的第k'个主题的次数，k'＝1,2,…,K_B，p＝1,2,…,|W'_i|；

式(1)和式(2)中，λ是一个衰退值，且是常数；

并有：

步骤6.2：将i+1赋值给i，并返回步骤2.2，直到i＝N为止。