CN107679228B - 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法 - Google Patents
一种基于短文本扩展和概念漂移检测的短文本数据流分类方法 Download PDFInfo
- Publication number
- CN107679228B CN107679228B CN201710994366.9A CN201710994366A CN107679228B CN 107679228 B CN107679228 B CN 107679228B CN 201710994366 A CN201710994366 A CN 201710994366A CN 107679228 B CN107679228 B CN 107679228B
- Authority
- CN
- China
- Prior art keywords
- data block
- theme
- short text
- extension
- indicate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于主题模型和概念漂移检测的短文本数据流分类方法,包括:1从知识库中获取外部语料库构建LDA主题模型;2根据滑动窗口机制将短文本数据流划分成数据块,并用LDA主题模型扩展数据块中的短文本得到扩展后的数据流;3在扩展后的短文本数据流中对每个数据块构建online BTM主题模型,并获得每个短文本的主题表示;4选择Q个主题表示的数据块构建一个分类器,用于预测新到来数据块的类标签;5根据类标签分布将Q个主题表示的数据块划分成类别簇,计算类别簇与新到来数据块的语义距离以判断是否发生概念漂移;6根据概念漂移情况,更新分类器。本发明可用于类标签分布不断变化的短文本数据流分类问题。
Description
技术领域
本发明属于实际应用中文本数据流挖掘领域,特别是涉及不断变化的短文本数据流的分类问题。
背景技术
随着即时通讯和互联网技术的飞速发展,网络用户和网络服务器产生大量的短文本数据流,包括新浪微博、在线评论和即时讯息等。这些短文本数据对于科研单位、政府部门以及互联网服务提供商来说都蕴含丰富的价值。短文本数据流具有以下三个特性:1、每条短文本长度短,没有足够的信息,导致数据的稀疏性严重;2、短时间内产生的数据量巨大,容易造成严重的维度灾难;3、随时间推移文本主题会产生潜在的漂移现象。基于这三个特点,使得传统的短文本分类方法和已有的数据流分类方法面临严峻的挑战:
挑战之一:传统的短文本分类方法一般利用外部语料库扩展短文本,然后使用传统的分类方法进行分类,如朴素贝叶斯(Bayes)、支持向量机(SVMs)、决策树等,或者直接利用自身隐含的统计信息扩展短文本进行分类。它们一般属于批处理程序,很难及时处理不断到来的短文本数据。已有的数据流分类方法没有考虑短文本的稀疏性问题,很难直接应用在短文本数据上。
挑战之二:短文本数据流每时每刻都会产生大量的短文本数据,导致严重的高维问题,已有的分类方法很少去解决这个问题。
挑战之三:人们尝试扩展短文本数据以减少稀疏性,然后利用已有的数据流分类方法进行分类。由于短文本数据流常发生概念漂移的现象,已有的数据流分类很少针对这个问题,所以很难取得良好的分类效果。
发明内容
本发明为了避免上述现有技术存在的不足,提供一种基于主题模型和概念漂移检测的短文本数据流分类方法,以期能够用于检测实际应用领域短文本数据流分类问题,从而提高短文本数据流的分类准确率,达到快速适应短文本数据流的概念漂移问题。
本发明为了达到上述发明目的,采用如下技术方案:
本发明一种基于主题模型和概念漂移检测的短文本数据流分类方法的特点是按照如下步骤进行:
步骤1:根据短文本数据流的类标签分布提取关键词,并从知识库中获取外部语料库C',进而根据所述外部语料库C'构建LDA主题模型M:
步骤1.1:给定一组短文本数据流D={d1,d2,…,dm,…,d|D|},m=1,2,…,|D|,|D|表示所述短文本数据流D的短文本总数,dm表示第m个短文本,并有dm={Wm,ym},Wm与ym分别表示所述短文本数据流D中第m个短文本dm的单词集合与类标签,且满足ym∈Y,Y表示一组类标签集合,记为Y={y1,y2,…,yx,…,yX},x=1,2,…,X,yx表示所述类标签集合Y的第x个类标签,X表示所述类标签集合Y的类标签个数;
步骤1.2:根据所述短文本数据流D的类标签分布,将所述短文本数据流D划分成X个数据块集合DY={W1,W2,…,Wx,…,WX},Wx表示所述数据块集合DY中第x个类标签yx的短文本中所有单词的词集;
统计所述数据块集合DY中第x个类标签yx的短文本中所有单词的词集Wx的词频,并进行降序排序,从而选择前κ个单词Tx={wx,1,wx,2,…,wx,κ}作为所述类标签集合Y的第x个类标签yx爬取的关键词,进而获得所述类标签集合Y中所有类标签爬取的关键词,并记为T={T1,T2,…,Tx,…,TX};
步骤1.3:根据所述关键词集T={T1,T2,…,Tx,…,TX}从知识库中爬取数据,获得原始语料库C,删除所述原始语料库C中重复的网页,并删除HTML标签和HTML链接、移除停止词,从而得到外部语料库C';
步骤1.4:设置主题总数为K且每个主题下的词集大小为M.L,并根据所述外部语料库C'构建LDA主题模型M,令M.w(k)表示所述LDA主题模型M中的第k个主题下的词集,k=1,2,…,K;
步骤2:根据滑动窗口机制将所述短文本数据流D重新划分成数据块,并对数据块中每个短文本利用所述LDA主题模型M推断主题分布,再根据所述主题分布扩展每个短文本,从而获得扩展后的短文本数据流:
步骤2.1:根据滑动窗口机制将所述短文本数据流D划分成N个数据块,记为DC={D1,D2,…,Di,Di+1…,DN},其中Di与Di+1分别表示所述短文本数据流D中第i个和第i+1个数据块,并有 和分别表示所述第i个数据块Di中的第j个短文本以及所述第i+1个数据块Di+1中的第h个短文本,并有j=1,2,…,|Di|,h=1,2,…,|Di+1|,和分别表示所述第i个数据块Di的第j个短文本的词集以及所述第i+1个数据块Di+1的第h个短文本的词集,和分别表示所述第i个数据块Di中第j个短文本的类标签以及所述第i+1个数据块Di+1中第h个短文本的类标签,且满足
步骤2.2:根据所述LDA主题模型M,对所述第i个数据块Di进行推断,得到文档-主题分布记为 表示所述第i个数据块Di中第j个短文本主题的分布,并有 表示所述第i个数据块Di中第j个短文本的第k个主题的概率;
步骤2.3:令A={a1,a2,…,av-1,av,…,a|A|}表示一组浮点数集合,其中av-1和av分别表示所述浮点数集A中第v-1个浮点数和第v个浮点数,且均为常数,v=1,2,…,|A|,|A|表示所述浮点数集A的总个数;
令F={f1,f2,…,fv-1,…,f|A|-1}表示一组整数集合,fv-1表示所述整数集F中第v-1个整数,且均为常数;
步骤2.4:判断所述第i个数据块Di中第j个短文本的主题分布中第个k主题概率是否属于区间(av-1,av],若属于,则将所述LDA主题模型M中第k个主题下词集大小为M.L的词集M.w(k)重复fv-1次添加到所述第i个数据块Di的第j个短文本中,否则进行下一个主题概率判断;从而对所述第i个数据块Di中第j个短文本的主题分布中所有主题进行判断,并获得所述第i个数据块Di的第j个短文本扩展后的短文本并有
步骤2.5:将j+1赋值给j,并返回步骤2.4,直到j=|Di|为止,从而获得所述第i个数据块Di扩展后的数据块
步骤2.6:同理获得所述第i+1个数据块Di+1扩展后的数据块
步骤3:在所述扩展后的第i个数据块D'i上构建online BTM主题模型,并获得所述扩展后的第i个数据块D'i中每个短文本的主题表示:
步骤3.1:将所述扩展后的第i个数据块D'i中第j个短文本的词集中的不同单词两两组对,从而获得所述扩展后的第i个数据块D'i中第j个短文本的词对集合其中与分别表示所述扩展后的第i个数据块D'i中第j个短文本的词对集合中第l个词对、第l个词对的频率和所有词对总数,并有wl,1,wl,2分别表示所述扩展后的第i个数据块D'i的词对集合的第l个词对中的第1个单词和第2个单词,从而获得所述扩展后的第i个数据块D'i中所有短文本的词对集合以及总的词对总数
合并所述扩展后的第i个数据块D'i中所有短文本的词对集合BW'i的所有词对,得到所述扩展后的第i个数据块D'i的词对集合,记为其中br表示所述扩展后的第i个数据块D'i的词对集合Bi的第r个词对,并有br={w'r1,w'r2},r=1,2,…,|Bi|,w'r,1,w'r,2分别表示所述扩展后的第i个数据块D'i的词对集合Bi的第r个词对br中的第1个单词和第2个单词,|Bi|表示所述扩展后的第i个数据块D'i的词对集合Bi的词对总数;
步骤3.2:定义所述扩展后的第i个数据块D'i的主题分布和主题下的词分布分别为和其中表示所述扩展后的第i个数据块D'i中第k'个主题的概率,表示所述扩展后的第i个数据块D'i的第k'个主题下的词分布,并有: 表示所述扩展后的第i个数据块D'i的第k'个主题下的词分布中第p个单词的概率;
定义所述扩展后的第i个数据块D'i的Dirichlet先验分布参数为α(i)和β(i),且和 表示所述扩展后的第i个数据块D'i的主题分布θ(i)中的第k'个主题的先验概率,表示所述扩展后的第i个数据块D'i的第k'个主题下词分布的先验分布;并有 表示所述扩展后的第i个数据块D'i的第k'个主题下词分布的第p个单词的先验概率;
当i=1时,令α(1)={α,α,…,α,…,α},α和β均为常数;
步骤3.3:设置主题总数为KB,根据所述扩展后的第i个数据块D'i的Dirichlet先验分布参数α(i)和β(i),利用所述扩展后的第i个数据块D'i的词对集合Bi构建onlineBTM主题模型记为M(i),令M(i).nk'表示所述扩展后的第i个数据块D'i的第k'个主题下的词对数,M(i).np,k'表示所述扩展后的第i个数据块D'i的词集W'i中的第p个单词属于所述onlineBTM模型M(i)中的第k'个主题的次数,k'=1,2,…,KB,p=1,2,…,|W'i|;
根据所述online BTM模型M(i),得到所述扩展后的第i个数据块D'i的主题分布和主题下的词分布
步骤3.4:利用式(1)和式(2)分别计算所述扩展后第i+1个数据块D'i+1的Dirichlet先验分布参数α(i+1)和β(i+1):
式(1)和式(2)中,λ是一个衰退值,且是常数;
步骤3.4:利用式(3)得到所述扩展后的第i个数据块D'i中第j个短文本的第k'个主题的主题表示
式(3)中,表示所述扩展后的第i个数据块D'i中第j个短文本的第k'个主题的概率,和分别表示所述扩展后的第i个数据块D'i的第k'个主题下的词分布中单词wl,1的概率和单词wl,2的概率;
步骤3.5:将k'+1赋值给k',并返回步骤3.4,直到k'=KB为止,从而获得所述扩展后的第i个数据块D'i的第j个短文本的主题表示
步骤3.6:将j+1赋值给j,并返回步骤3.4,直到j=|D'i|为止,从而获得所述扩展后的第i个数据块D'i的主题表示
步骤4:选择Q个主题表示的数据块构建一个分类器,用于预测下一个数据块的类标签:
步骤4.1:若i=1,则将所述扩展后的第i个数据块D'i的主题表示Zi加入到集合Winf中,记为Zq与Qf分别表示所述集合Winf中的第q个数据块和数据块总数,记|Zq|表示所述集合Winf中的第q个数据块的短文本总数,并基于所述集合Winf构建一个分类器λf后,转到步骤6.2;
若1<i≤Q,则根据所述分类器λf预测所述扩展后的第i个数据块D'i的主题表示Zi的类标签,并将f+1赋值给f后,将所述扩展后的第i个数据块D'i的主题表示Zi加入到集合Winf中,并基于所述集合Winf重建分类器λf后,转到步骤6.2;
若i>Q,则根据所述分类器λf预测所述扩展后的第i个数据块D'i的主题表示Zi的类标签;
步骤5:根据所述短文本数据流D的类标签分布,将所述集合Winf中的每个数据块划分成类别簇,计算所划分的每个数据块的类别簇与所述扩展后的第i个数据块D'i的主题表示Zi的语义距离,并根据语义距离判断是否发生概念漂移:
步骤5.1:根据所述短文本数据流D的类标签分布,将所述集合Winf中的第q个数据块Zq划分为类别簇 表示所述集合Winf中的第q个数据块Zq中第x个类标签yx的短文本的主题表示集合,并有 表示集合Winf中第q个数据块Zq中类标签为yx的第g个短文本的主题表示,并有: 表示所述集合Winf的第q个数据块Zq中类标签为yx的第g个短文本的第k'个主题的主题表示, 表示所述集合Winf中第q个数据块Zq中类标签为yx的短文本总数;
步骤5.2:根据式(4)计算所述扩展后的第i个数据块D'i的第j个短文本的主题表示与所述集合Winf中的第q个数据块Zq中类标签是yx的类别簇的语义距离
并有:
步骤5.3:将x+1赋值给x,并返回步骤5.2,直到x=X为止,从而得到所述扩展后的第i个数据块D'i的第j个短文本的主题表示与所述集合Winf中的第q个数据块Zq中所有类别簇Iq的语义距离,记为语义距离集合
步骤5.4:选择所述语义距离集合中最小的语义距离用于代表所述扩展后的第i个数据块D'i的第j个短文本的主题表示与所述集合Winf中的第q个数据块Zq的语义距离
步骤5.5:将j+1赋值给j,并返回步骤5.2,直到j=|Di|为止,从而获得所述扩展后的第i个数据块D'i的所有短文本的主题表示与所述集合Winf中的第q个数据块Zq的语义距离;
步骤5.6:根据式(6)计算所述扩展后的第i个数据块D'i的主题表示Zi与所述集合Winf中的第q个数据块Zq的语义距离dist(Zi,Zq):
步骤5.7:根据所述扩展后的第i个数据块D'i的主题表示Zi与所述集合Winf中的第q个数据块Zq的语义距离dist(Zi,Zq)与阈值τ比较,0<τ<1,若dist(Zi,Zq)>τ,则表示所述扩展后的第i个数据块D'i的主题表示Zi相对于所述集合Winf中的第q个数据块Zq发生了概念漂移,并将语义距离dist(Zi,Zq)装入所定义的语义距离集合CDf中,否则,则表示未发生概念漂移,并令dist(Zi,Zq)=0后,再装入语义距离集合CDf中;
步骤5.8:将q+1赋值给q,并返回步骤5.1,直到q=Qf为止,从而得到所述扩展后的第i个数据块D'i的主题表示Zi与所述集合Winf中的Qf个数据块的语义距离的语义距离集合CDf={dist(Zi,Zq),q=1,2,…,Qf};
步骤6:将发生概念漂移的扩展后的第i个数据块D'i的主题表示Zi替换所述集合Winf中的数据块,并更新所述分类器λf:
步骤6.1:若所述语义距离集合CDf中扩展后的第i个数据块D'i的主题表示Zi与所述集合Winf所有数据块的距离都为0,则表示扩展后的第i个数据块D'i的主题表示Zi相对于所述集合Winf所有数据块都没有发生概念漂移,从而不更新所述分类器λf;
若所述语义距离集合CDf中距离dist(Zi,Zq)最大,则表示所述扩展后的第i个数据块D'i的主题表示Zi相对于所述集合Winf中的第q个数据块Zi发生概念漂移,从而将f+1赋值给f,并利用所述扩展后的第i个数据块D'i的主题表示Zi替换所述集合Winf中的第q个数据块Zq,再利用所述集合Winf重建分类器λf;
步骤6.2:将i+1赋值给i,并返回步骤2.2,直到i=N为止。
与已有技术相比,本发明有益效果体现如下:
1、本发明考虑每条短文本数据长度短,信息少的特性,利用爬取的Wikipedia数据作为外部语料库,借助LDA主题模型挖掘外部语料库的相关内容扩展短文本,减少了短文本的稀疏性问题,丰富了短文本的内容,从而提升了短文本分类的准确率,同时,本发明考虑了短文本数据流的高维特性,借助OnlineBTM主题模型将短文本表示为主题形式代替词袋模型(Bag-of-words)的表示形式,降低了数据流的维度,提升了短文本数据流分类的效率。
2、本发明基于数据块之间主题信息的分布差异设计了检测概念漂移的方法,根据类标签分布,将数据块划分为更小的数据块,计算新的数据块中短文本与每个数据块中子数据块的语义距离,选择最小语义距离去检测是否发生概念漂移,从而有效降低了概念漂移检测中的误报率、漏报率和延迟,有助于适应不断变化的短文本数据流,提升了分类精度。
3、本发明为了适应短文本数据流中概念漂移对分类准确率的影响,判断新数据相对于用于分类的数据块是否发生概念漂移,若发生概念漂移,则用新的数据块替换发生概念漂移的数据块,更新分类器,从而提高了短文本数据流分类的准确度。
4、本发明面向实际应用领域如:智能信息检索,把数量巨大但缺乏结构的短文本数据组织成规范的文本数据;舆情信息检测,可对互联网上的短文本数据自动分类;个性化推荐,通过归类相同类型的数据,进行个性化推荐等,应用广泛。
附图说明
图1为本发明短文本数据流分类的框架示意图;
图2为本发明主题模型M中部分主题下的词;
图3为本发明概念漂移检测的过程示意图;
具体实施方式
本实施例中,如图1所示,一种基于主题模型和概念漂移检测的短文本数据流分类方法是按如下步骤进行:
步骤1:根据短文本数据流的类标签分布提取关键词,并从知识库Wikipedia中获取外部语料库C',进而根据外部语料库C'构建LDA主题模型M:
步骤1.1:给定一组短文本数据流D={d1,d2,…,dm,…,d|D|},m=1,2,…,|D|,|D|表示短文本数据流D的短文本总数,dm表示第m个短文本,并有dm={Wm,ym},Wm与ym分别表示短文本数据流D中第m个短文本dm的单词集合与类标签,且满足ym∈Y,Y表示一组类标签集合,记为Y={y1,y2,…,yx,…,yX},x=1,2,…,X,yx表示类标签集合Y的第x个类标签,X表示类标签集合Y的类标签个数;
步骤1.2:根据短文本数据流D的类标签分布,将短文本数据流D划分成X个数据块集合DY={W1,W2,…,Wx,…,WX},Wx表示数据块集合DY中第x个类标签yx的短文本中所有单词的词集;
步骤1.3:初始化x=1;
步骤1.4:统计数据块集合DY中第x个类标签yx的短文本中所有单词的词集Wx的词频,并进行降序排序,从而选择前κ个单词Tx={wx,1,wx,2,…,wx,κ}作为类标签集合Y的第x个类标签yx爬取的关键词;
步骤1.5:将x+1赋值给x,返回步骤1.4,直至x=X为止,可获得类标签集合Y中所有类标签下爬取外部语料库的关键词,表示为T={T1,T2,…,Tx,…,TX};
步骤1.6:根据关键词集T={T1,T2,…,Tx,…,TX}从知识库Wikipedia中爬取数据,获得原始语料库C,删除原始语料库C中重复的网页,并删除HTML标签和HTML链接、移除停止词,从而得到外部语料库C';
步骤1.7:设置主题总数为K且每个主题下的词集大小为M.L,并根据外部语料库C'构建LDA主题模型M,令M.w(k)表示LDA主题模型M中的第k个主题下的词集,k=1,2,…,K;
本实施例中,如表1给定了一组含有15个示例的短文本数据流D,其中|D|=15,Y={y1=Business,y2=Health,y3=Computer,y4=Sport},X=4;
表1某短文本数据流种15条抽样数据
根据外部语料库的获取方法,具体按如下步骤进行:
(1)将短文本数据流D按类标签分布划分,并根据词频降序排序,为每个类标签选取κ=10个词,如表2;
表2爬取外部语料库的关键词
(2)根据表2获取的关键词从知识库Wikipedia中爬取外部语料库C,将原始语料库C删除原始网页中重复的网页,删除HTML标签和HTML链接,移除停止词,获取外部语料库C',详细信息展示在表3;
表3外部语料库的详细信息
(3)设置主题总数K=50,每个主题下的词集大小M.L=5,根据获取的外部语料库C'构建LDA主题模型M,主题模型M中部分主题下的词集被展示在图2;
步骤2:根据滑动窗口机制将短文本数据流D重新划分成数据块,并对数据块中每个短文本利用LDA主题模型M推断主题分布,再根据主题分布扩展每个短文本,从而获得扩展后的短文本数据流:
步骤2.1:根据滑动窗口机制将短文本数据流D划分成N个数据块,记为DC={D1,D2,…,Di,Di+1…,DN},其中Di与Di+1分别表示短文本数据流D中第i个和第i+1个数据块,并有 和分别表示第i个数据块Di中的第j个短文本以及第i+1个数据块Di+1中的第h个短文本,并有j=1,2,…,|Di|,h=1,2,…,|Di+1|,和分别表示第i个数据块Di的第j个短文本的词集以及第i+1个数据块Di+1的第h个短文本的词集,和分别表示第i个数据块Di中第j个短文本的类标签以及第i+1个数据块Di+1中第h个短文本的类标签,且满足
步骤2.2:初始化i=1;
步骤2.3:根据主题模型M,推断第i个数据块Di的文档-主题分布为 表示第i个数据块Di中第j个短文本的主题分布,1≤j≤|Di|,并有 表示第i个数据块Di中第j个短文本的第k个主题的概率,1≤k≤K。
步骤2.4:令A={a1,a2,…,av-1,av,…,a|A|}表示一组浮点数集合,其中av-1和av分别表示浮点数集A中第v-1个浮点数和第v个浮点数,且均为常数,v=1,2,…,|A|,|A|表示浮点数集A的总个数;
令F={f1,f2,…,fv-1,…,f|A|-1}表示一组整数集合,fv-1表示整数集F中第v-1个整数,且均为常数;
步骤2.5:初始化j=1;
步骤2.6:初始化k=1;
步骤2.7:判断第i个数据块Di中第j个短文本的主题分布中第个k主题概率是否属于区间(av-1,av],若属于,则将LDA主题模型M中第k个主题下词集大小为M.L的词集M.w(k)重复fv-1次添加到第i个数据块Di的第j个短文本中,否则进行下一个主题概率判断;
步骤2.8:将k+1赋值给k,返回步骤2.7,直至k=K为止,获得第i个数据块Di的第j个短文本扩展后的短文本并有
步骤2.9:将j+1赋值给j,并返回步骤2.6,直到j=|Di|为止,获得第i个数据块Di扩展后的数据块
步骤2.10:同理,可获得第i+1个数据块Di+1扩展后的数据块
步骤3:在扩展后的第i个数据块D'i上构建online BTM主题模型,并获得扩展后的第i个数据块D'i中每个短文本的主题表示:
步骤3.1:初始化j=1;
步骤3.2:将扩展后的第i个数据块D'i中第j个短文本的词集中的不同单词两两组对,从而获得扩展后的第i个数据块D'i中第j个短文本的词对集合其中与分别表示扩展后的第i个数据块D'i中第j个短文本的词对集合中第l个词对、第l个词对的频率和所有词对总数,并有wl,1,wl,2分别表示扩展后的第i个数据块D'i的词对集合的第l个词对中的第1个单词和第2个单词;
步骤3.3:将j+1赋值给j,并返回步骤3.2,直到j=|Di|为止,获得扩展后的第i个数据块D'i中所有短文本的词对集合以及总的词对数
步骤3.4:合并扩展后的第i个数据块D'i中所有短文本的词对集合BW'i的所有词对,得到扩展后的第i个数据块D'i的词对集合,记为其中br表示扩展后的第i个数据块D'i的词对集合Bi的第r个词对,并有br={w'r1,w'r2},r=1,2,…,|Bi|,w'r,1,w'r,2分别表示扩展后的第i个数据块D'i的词对集合Bi的第r个词对br中的第1个单词和第2个单词,|Bi|表示扩展后的第i个数据块D'i的词对集合Bi的词对总数;
步骤3.5:定义扩展后的第i个数据块D'i的主题分布和主题下的词分布分别为和其中表示扩展后的第i个数据块D'i中第k'个主题的概率,表示扩展后的第i个数据块D'i的第k'个主题下的词分布,并有: 表示扩展后的第i个数据块D'i的第k'个主题下的词分布中第p个单词的概率;
定义扩展后的第i个数据块D'i的Dirichlet先验分布参数为α(i)和β(i),且和 表示扩展后的第i个数据块D'i的主题分布θ(i)中的第k'个主题的先验概率,表示扩展后的第i个数据块D'i的第k'个主题下词分布的先验分布;并有 表示扩展后的第i个数据块D'i的第k'个主题下词分布的第p个单词的先验概率;
当i=1时,令α(1)={α,α,…,α,…,α},α和β均为常数;
步骤3.6:设置主题总数为KB,根据扩展后的第i个数据块D'i的Dirichlet先验分布参数α(i)和β(i),利用扩展后的第i个数据块D'i的词对集合Bi构建onlineBTM主题模型记为M(i),令M(i).nk'表示扩展后的第i个数据块D'i的第k'个主题下的词对数,M(i).np,k'表示扩展后的第i个数据块D'i的词集W'i中的第p个单词属于onlineBTM模型M(i)中的第k'个主题的次数,k'=1,2,…,KB,p=1,2,…,|W'i|;
根据online BTM模型M(i),得到扩展后的第i个数据块D'i的主题分布和主题下的词分布
步骤3.7:初始化k'=1;
步骤3.8:利用公式(1)计算扩展后的第i+1个数据块D'i+1的主题分布中第k'个主题的先验概率
步骤3.9:初始化p=1;
步骤3.10:利用公式(2)计算扩展后的第i+1个数据块D'i+1的第k'个主题下词分布中第p个单词的先验概率
式(1)和式(2)中,λ是一个衰退值,且是常数;
步骤3.11:将p+1赋值给p,返回步骤3.10,直至p=|W'i|为止,得到扩展后的第i+1个数据块D'i+1的第k'个主题下词分布的先验分布
步骤3.12:将k'+1赋值给k',返回步骤3.8,直至k'=KB为止,得到扩展后第i+1个数据块D'i+1所需要的Dirichlet先验分布α(i+1)和β(i+1);
步骤3.13:初始化j=1;
步骤3.14:初始化k'=1;
步骤3.15:利用式(3)得到扩展后的第i个数据块D'i中第j个短文本的第k'个主题的主题表示
式(3)中,表示扩展后的第i个数据块D'i中第j个短文本的第k'个主题的概率,和分别表示扩展后的第i个数据块D'i的第k'个主题下的词分布中单词wl,1的概率和单词wl,2的概率;
步骤3.16:将k'+1赋值给k',并返回步骤3.4,直到k'=KB为止,从而获得扩展后的第i个数据块D'i的第j个短文本的主题表示
步骤3.17:将j+1赋值给j,并返回步骤3.4,直到j=|D'i|为止,从而获得扩展后的第i个数据块D'i的主题表示
步骤4:选择Q个主题表示的数据块构建一个分类器,用于预测下一个数据块的类标签:
步骤4.1:若i=1,则将扩展后的第i个数据块D'i的主题表示Zi加入到集合Winf中,记为Zq与Qf分别表示集合Winf中的第q个数据块和数据块总数,记|Zq|表示集合Winf中的第q个数据块的短文本总数,并基于集合Winf构建一个分类器λf后,转到步骤6.2;
若1<i≤Q,则根据分类器λf预测扩展后的第i个数据块D'i的主题表示Zi的类标签,并将f+1赋值给f后,将扩展后的第i个数据块D'i的主题表示Zi加入到集合Winf中,并基于集合Winf重建分类器λf后,转到步骤6.2;
若i>Q,则根据分类器λf预测扩展后的第i个数据块D'i的主题表示Zi的类标签;
步骤5:根据短文本数据流D的类标签分布,将集合Winf中的每个数据块划分成类别簇,计算所划分的每个数据块的类别簇与扩展后的第i个数据块D'i的主题表示Zi的语义距离,并根据语义距离判断是否发生概念漂移:
步骤5.1:初始化q=1;
步骤5.2:根据短文本数据流D的类标签分布,将集合Winf中的第q个数据块Zq划分为类别簇 表示集合Winf中的第q个数据块Zq中第x个类标签yx的短文本的主题表示集合,并有 表示集合Winf中第q个数据块Zq中类标签为yx的第g个短文本的主题表示,并有: 表示集合Winf的第q个数据块Zq中类标签为yx的第g个短文本的第k'个主题的主题表示, 表示集合Winf中第q个数据块Zq中类标签为yx的短文本总数;
步骤5.3:初始化j=1;
步骤5.4:初始化x=1;
步骤5.5:根据式(4)计算扩展后的第i个数据块D'i的第j个短文本的主题表示与集合Winf中的第q个数据块Zq中类标签是yx的类别簇的语义距离
并有:
步骤5.6:将x+1赋值给x,并返回步骤5.5,直到x=X为止,从而得到扩展后的第i个数据块D'i的第j个短文本的主题表示与集合Winf中的第q个数据块Zq中所有类别簇Iq的语义距离,记为语义距离集合
步骤5.7:根据式(6)选择语义距离集合中最小的语义距离用于代表扩展后的第i个数据块D'i的第j个短文本的主题表示与集合Winf中的第q个数据块Zq的语义距离
步骤5.8:将j+1赋值给j,并返回步骤5.4,直到j=|Di|为止,从而获得扩展后的第i个数据块D'i的所有短文本的主题表示与集合Winf中的第q个数据块Zq的语义距离;
步骤5.9:根据式(7)计算扩展后的第i个数据块D'i的主题表示Zi与集合Winf中的第q个数据块Zq的语义距离dist(Zi,Zq):
步骤5.9:根据扩展后的第i个数据块D'i的主题表示Zi与集合Winf中的第q个数据块Zq的语义距离dist(Zi,Zq)与阈值τ比较,0<τ<1,若dist(Zi,Zq)>τ,则表示扩展后的第i个数据块D'i的主题表示Zi相对于集合Winf中的第q个数据块Zq发生了概念漂移,并将语义距离dist(Zi,Zq)装入所定义的语义距离集合CDf中,否则,则表示未发生概念漂移,并令dist(Zi,Zq)=0后,再装入语义距离集合CDf中;
步骤5.10:将q+1赋值给q,并返回步骤5.1,直到q=Qf为止,从而得到扩展后的第i个数据块D'i的主题表示Zi与集合Winf中的Qf个数据块的语义距离的语义距离集合CDf={dist(Zi,Zq),q=1,2,…,Qf};
步骤6:将发生概念漂移的扩展后的第i个数据块D'i的主题表示Zi替换集合Winf中的数据块,并更新分类器λf;
步骤6.1:若语义距离集合CDf中扩展后的第i个数据块D'i的主题表示Zi与集合Winf所有数据块的距离都为0,则表示扩展后的第i个数据块D'i的主题表示Zi相对于集合Winf所有数据块都没有发生概念漂移,从而不更新分类器λf;
若语义距离集合CDf中距离dist(Zi,Zq)最大,则表示扩展后的第i个数据块D'i的主题表示Zi相对于集合Winf中的第q个数据块Zi发生概念漂移,从而将f+1赋值给f,并利用扩展后的第i个数据块D'i的主题表示Zi替换集合Winf中的第q个数据块Zq,再利用集合Winf重建分类器λf;
步骤6.2:将i+1赋值给i,并返回步骤2.3,直到i=N为止。
本实施例中,根据短文本数据流的分类方法,如图1所示,具体按如下步骤进行:
(1)基于滑动窗口机制将短文本数据流D等分成数据块DC={D1,D2,D3},可划分N=3个数据块,分别记为第1个数据块、第2个数据块和第3个数据块,|D1|=|D2|=|D3|=5,如表4所示;
表4某短文本数据流中15条抽样数据
(2)根据主题模型M推断数据块D1的文档-主题分布:
表5扩展后的数据块
(3)设置A={a1=0,a2=0.07,a3=0.1,a4=0.2,a5=0.5,a6=1},F={f1=0,f2=1,f3=2,f4=3,f5=4},数据块D1中第一个短文本的第25个主题Topic25∈(a3,a4],因此将Topic25下的单词重复f3=2次添加到短文本中,同理,Topic40∈(a3,a4],也将Topic40下的单词重复f3=2次添加到短文本中,获得扩展后的短文本以此类推,扩展数据块D1中的所有短文本,获得数据块D1的扩展后的数据块D'1,被展示在表5,这里省略部分单词内容。
(4)将扩展后的数据块D'1的每个短文本的词集中不同单词两两组对,获得扩展后的数据块D'1中所有短文本的词对集合以及所有词对总数
(5)合并词对集合BW'1的所有词对数,得到扩展后的数据块D'1的词对集合|B1|=L1=2596;
(6)初始状态下,设置α=0.5,β=0.01,λ=0.5,KB=50利用词对集合B1构建OnlineBTM主题模型M(1),并且根据M(1).n1和M(1).n1,1分别计算下一个数据块D'2的主题分布θ(2)的第1个主题的Dirichlet先验分布以及下一个数据块D'2的第1个主题的词分布的第1个单词Dirichlet先分布:
从而获得主题分布θ(2)的Dirichlet先验分布参数α(2)和词分布φ(2)的Dirichlet先验分布参数β(2);
(7)根据扩展后的数据块D'1的主题分布θ(1)和主题下的词分布φ(1),计算扩展后的数据块D'1中短文本的第1个主题概率:
从而计算扩展后的数据块D'1中短文本所有主题概率,获得扩展后的数据块D'1中短文本的主题表示同理,就可以获得数据块D'1中所有文本的主题表示记为Z1,被展示在表6中,部分主题概率省略;
(8)设置Q=2,初始化f=1,将主题表示的数据块Z1加入到集合Win1中,即Win1={Z1},然后利用Z1构建一个SVM分类器λ1;
表6数据块的主题表示
(9)根据主题模型M推断数据块D2的文档-主题分布θ2,然后扩展数据块D2中所有短文本,扩展方式与数据块D1相同,扩展后的数据块D'2被展示在表5,然后将扩展后的数据块D'2中每个短文本的词集中不同单词两两组对,获得扩展后的数据块D'2中所有短文本的词对集合合并词对集合BW'2的所有词对,得到扩展后的数据块D'2的词对集合|B2|=L2=4308,利用词对集合B2构建OnlineBTM主题模型M(2),并且根据M(2).n1和M(2).n1,1分别计算数据块D'3的主题分布θ(3)的第1个主题的Dirichlet先验分布以及数据块D'3的第1个主题的词分布的第1个单词Dirichlet先分布:
从而获得针对主题分布θ(3)的Dirichlet先验分布参数α(3)和词分布φ(3)的Dirichlet先验分布参数β(3);
(10)根据扩展后的数据块D'2的主题分布θ(2)和主题下的词分布φ(2),计算扩展后的数据块D'2中短文本的第1个主题概率:
从而获得扩展后的数据块D'2中短文本的主题表示同理,就可以获得数据块D'2中所有文本的主题表示记为Z2,被展示在表6中;
(11)用分类器λ1预测Z2的类标签为{Business,Business,Business,Business,Business},f=2,Win2={Z1,Z2},重新构建分类器λ2;
(12)同样的,根据主题模型M推断数据块D3的文档-主题分布θ3,然后扩展数据块D3中所有短文本,扩展后的数据块D'3被展示在表5,然后将得到的数据块D'3中每个短文本的词集中的单词两两组对,获得所有短文本的词对集合合并词对集合BW'3的所有词对,得到扩展后的数据块D'3的词对集合|B3|=L3=2518,利用词对集合B3构建OnlineBTM主题模型M(3);
(13)同样的,根据扩展后的数据块D'3的主题分布θ(3)和主题下的词分布φ(3),计算数据块D'3中短文本的第1个主题概率:
从而获得扩展后的数据块D'3中短文本的主题表示同理,就可以获得数据块D'3中所有文本的主题表示记为Z3,被展示在表6中;
(14)用分类器λ2预测Z3的类标签{Business,Sport,Sport,Business,Sport};
本实施例中,检测扩展后的数据块D'3的主题表示Z3相对于窗口Win2={Z1,Z2}中的数据块Z1是否发生概念漂移,如图3所示,同理可判断扩展后的数据块D'3的主题表示Z3相对于窗口Win2={Z1,Z2}中数据块Z2是否发生概念漂移,最后根据概念漂移更新分类器,具体按如下步骤进行;
(1)根据类标签Y={y1=Business,y2=Health,y3=Computer,y4=Sport},将集合Win2={Z1,Z2}中数据块Z1划分为并有
(2)计算扩展后的数据块D'3的主题表示Z3的每个短文本与集合Win2={Z1,Z2}中数据块Z1的每个类别簇的语义距离,首先,计算扩展后的数据块D'3的主题表示Z3中第一个主题表示的文本和集合Win2={Z1,Z2}中第一个数据块Z1中第一个类别簇的第一个文本的语义距离如下:
同理,然后计算扩展后的数据块D'3的主题表示Z3中第1个文本与集合Win2={Z1,Z2}中第一个数据块Z1中第一个类别簇的语义距离如下:
同理,同理可获得扩展后的数据块D'3的主题表示Z3中其他文本与集合Win2={Z1,Z2}中第一个数据块Z1的类别簇和类别簇的语义距离,
(2)计算扩展后的数据块D'3的主题表示Z3中每个短文本与集合Win2={Z1,Z2}中数据块Z1的语义距离,根据如下计算方法可以获得扩展后的数据块D'3的主题表示Z3中短文本与集合Win2={Z1,Z2}中数据块Z1的语义距离:
同理,可获得
(4)计算扩展后的数据块D'3的主题表示Z3与集合Win2={Z1,Z2}中数据块Z1的语义距离如下:
(5)设置阈值dist(Z3,Z1)>τ,则表示扩展后的数据块D'3的主题表示Z3相对于集合Win2={Z1,Z2}中数据块Z1发生概念漂移;
(6)同理,可计算扩展后的数据块D'3的主题表示Z3与集合Win2={Z1,Z2}中数据块Z2的语义距离为dist(Z3,Z2)≈0.8661,根据阈值τ,dist(Z3,Z2)<τ,则表示扩展后的数据块D'3的主题表示Z3相对于集合Win2={Z1,Z2}中数据块Z2没有发生概念漂移;
(7)根据是否发生概念漂移,设置dist(Z3,Z2)=0,则CD2={dist(Z3,Z1),dist(Z3,Z2)},f=f+1=3,用扩展后的数据块D'3的主题表示Z3替换集合Win2={Z1,Z2}中数据块Z1得到Win2={Z3,Z2},重新构建分类器λ3。
Claims (1)
1.一种基于主题模型和概念漂移检测的短文本数据流分类方法,其特征是按照如下步骤进行:
步骤1:根据短文本数据流的类标签分布提取关键词,并从知识库中获取外部语料库C',进而根据所述外部语料库C'构建LDA主题模型M:
步骤1.1:给定一组短文本数据流D={d1,d2,…,dm,…,d|D|},m=1,2,…,|D|,|D|表示所述短文本数据流D的短文本总数,dm表示第m个短文本,并有dm={Wm,ym},Wm与ym分别表示所述短文本数据流D中第m个短文本dm的单词集合与类标签,且满足ym∈Y,Y表示一组类标签集合,记为Y={y1,y2,…,yx,…,yX},x=1,2,…,X,yx表示所述类标签集合Y的第x个类标签,X表示所述类标签集合Y的类标签个数;
步骤1.2:根据所述短文本数据流D的类标签分布,将所述短文本数据流D划分成X个数据块集合DY={W1,W2,…,Wx,…,WX},Wx表示所述数据块集合DY中第x个类标签yx的短文本中所有单词的词集;
统计所述数据块集合DY中第x个类标签yx的短文本中所有单词的词集Wx的词频,并进行降序排序,从而选择前κ个单词Tx={wx,1,wx,2,…,wx,κ}作为所述类标签集合Y的第x个类标签yx爬取的关键词,进而获得所述类标签集合Y中所有类标签爬取的关键词,并记为T={T1,T2,…,Tx,…,TX};
步骤1.3:根据所述关键词集T={T1,T2,…,Tx,…,TX}从知识库中爬取数据,获得原始语料库C,删除所述原始语料库C中重复的网页,并删除HTML标签和HTML链接、移除停止词,从而得到外部语料库C';
步骤1.4:设置主题总数为K且每个主题下的词集大小为M.L,并根据所述外部语料库C'构建LDA主题模型M,令M.w(k)表示所述LDA主题模型M中的第k个主题下的词集,k=1,2,…,K;
步骤2:根据滑动窗口机制将所述短文本数据流D重新划分成数据块,并对数据块中每个短文本利用所述LDA主题模型M推断主题分布,再根据所述主题分布扩展每个短文本,从而获得扩展后的短文本数据流:
步骤2.1:根据滑动窗口机制将所述短文本数据流D划分成N个数据块,记为DC={D1,D2,…,Di,Di+1…,DN},其中Di与Di+1分别表示所述短文本数据流D中第i个和第i+1个数据块,并有 和分别表示所述第i个数据块Di中的第j个短文本以及所述第i+1个数据块Di+1中的第h个短文本,并有h=1,2,…,|Di+1|,和分别表示所述第i个数据块Di的第j个短文本的词集以及所述第i+1个数据块Di+1的第h个短文本的词集,和分别表示所述第i个数据块Di中第j个短文本的类标签以及所述第i+1个数据块Di+1中第h个短文本的类标签,且满足
步骤2.2:根据所述LDA主题模型M,对所述第i个数据块Di进行推断,得到文档-主题分布记为 表示所述第i个数据块Di中第j个短文本主题的分布,并有 表示所述第i个数据块Di中第j个短文本的第k个主题的概率;
步骤2.3:令A={a1,a2,…,av-1,av,…,a|A|}表示一组浮点数集合,其中av-1和av分别表示所述浮点数集A中第v-1个浮点数和第v个浮点数,且均为常数,v=1,2,…,|A|,|A|表示所述浮点数集A的总个数;
令F={f1,f2,…,fv-1,…,f|A|-1}表示一组整数集合,fv-1表示所述整数集F中第v-1个整数,且均为常数;
步骤2.4:判断所述第i个数据块Di中第j个短文本的主题分布中第个k主题概率是否属于区间(av-1,av],若属于,则将所述LDA主题模型M中第k个主题下词集大小为M.L的词集M.w(k)重复fv-1次添加到所述第i个数据块Di的第j个短文本中,否则进行下一个主题概率判断;从而对所述第i个数据块Di中第j个短文本的主题分布中所有主题进行判断,并获得所述第i个数据块Di的第j个短文本扩展后的短文本并有
步骤2.5:将j+1赋值给j,并返回步骤2.4,直到j=|Di|为止,从而获得所述第i个数据块Di扩展后的数据块
步骤2.6:同理获得所述第i+1个数据块Di+1扩展后的数据块
步骤3:在所述扩展后的第i个数据块D'i上构建online BTM主题模型,并获得所述扩展后的第i个数据块D'i中每个短文本的主题表示:
步骤3.1:将所述扩展后的第i个数据块D'i中第j个短文本的词集中的不同单词两两组对,从而获得所述扩展后的第i个数据块D'i中第j个短文本的词对集合其中与分别表示所述扩展后的第i个数据块D'i中第j个短文本的词对集合中第l个词对、第l个词对的频率和所有词对总数,并有wl,1,wl,2分别表示所述扩展后的第i个数据块D'i的词对集合的第l个词对中的第1个单词和第2个单词,从而获得所述扩展后的第i个数据块D'i中所有短文本的词对集合以及总的词对总数
合并所述扩展后的第i个数据块D'i中所有短文本的词对集合BW'i的所有词对,得到所述扩展后的第i个数据块D'i的词对集合,记为其中br表示所述扩展后的第i个数据块D'i的词对集合Bi的第r个词对,并有br={w'r1,w'r2},r=1,2,…,|Bi|,w'r,1,w'r,2分别表示所述扩展后的第i个数据块D'i的词对集合Bi的第r个词对br中的第1个单词和第2个单词,|Bi|表示所述扩展后的第i个数据块D'i的词对集合Bi的词对总数;
步骤3.2:定义所述扩展后的第i个数据块D'i的主题分布和主题下的词分布分别为和其中表示所述扩展后的第i个数据块D'i中第k'个主题的概率,表示所述扩展后的第i个数据块D'i的第k'个主题下的词分布,并有: 表示所述扩展后的第i个数据块D'i的第k'个主题下的词分布中第p个单词的概率;
定义所述扩展后的第i个数据块D'i的Dirichlet先验分布参数为α(i)和β(i),且和 表示所述扩展后的第i个数据块D'i的主题分布θ(i)中的第k'个主题的先验概率,表示所述扩展后的第i个数据块D'i的第k'个主题下词分布的先验分布;并有 表示所述扩展后的第i个数据块D'i的第k'个主题下词分布的第p个单词的先验概率;
当i=1时,令α(1)={α,α,…,α,…,α},α和β均为常数;
步骤3.3:设置主题总数为KB,根据所述扩展后的第i个数据块D'i的Dirichlet先验分布参数α(i)和β(i),利用所述扩展后的第i个数据块D'i的词对集合Bi构建online BTM主题模型记为M(i),令表示所述扩展后的第i个数据块D'i的第k'个主题下的词对数,表示所述扩展后的第i个数据块D'i的词集W'i中的第p个单词属于所述online BTM模型M(i)中的第k'个主题的次数,k'=1,2,…,KB,p=1,2,…,|W'i|;
根据所述online BTM模型M(i),得到所述扩展后的第i个数据块D'i的主题分布和主题下的词分布
步骤3.4:利用式(1)和式(2)分别计算所述扩展后第i+1个数据块D'i+1的Dirichlet先验分布参数α(i+1)和β(i+1):
式(1)和式(2)中,λ是一个衰退值,且是常数;
步骤3.4:利用式(3)得到所述扩展后的第i个数据块D'i中第j个短文本的第k'个主题的主题表示
式(3)中,表示所述扩展后的第i个数据块D'i中第j个短文本的第k'个主题的概率,和分别表示所述扩展后的第i个数据块D'i的第k'个主题下的词分布中单词wl,1的概率和单词wl,2的概率;
步骤3.5:将k'+1赋值给k',并返回步骤3.4,直到k'=KB为止,从而获得所述扩展后的第i个数据块D'i的第j个短文本的主题表示
步骤3.6:将j+1赋值给j,并返回步骤3.4,直到j=|D'i|为止,从而获得所述扩展后的第i个数据块D'i的主题表示
步骤4:选择Q个主题表示的数据块构建一个分类器,用于预测下一个数据块的类标签:
步骤4.1:若i=1,则将所述扩展后的第i个数据块D'i的主题表示Zi加入到集合Winf中,记为Zq与Qf分别表示所述集合Winf中的第q个数据块和数据块总数,记|Zq|表示所述集合Winf中的第q个数据块的短文本总数,并基于所述集合Winf构建一个分类器λf后,转到步骤6.2;
若1<i≤Q,则根据所述分类器λf预测所述扩展后的第i个数据块D'i的主题表示Zi的类标签,并将f+1赋值给f后,将所述扩展后的第i个数据块D'i的主题表示Zi加入到集合Winf中,并基于所述集合Winf重建分类器λf后,转到步骤6.2;
若i>Q,则根据所述分类器λf预测所述扩展后的第i个数据块D'i的主题表示Zi的类标签;
步骤5:根据所述短文本数据流D的类标签分布,将所述集合Winf中的每个数据块划分成类别簇,计算所划分的每个数据块的类别簇与所述扩展后的第i个数据块D'i的主题表示Zi的语义距离,并根据语义距离判断是否发生概念漂移:
步骤5.1:根据所述短文本数据流D的类标签分布,将所述集合Winf中的第q个数据块Zq划分为类别簇 表示所述集合Winf中的第q个数据块Zq中第x个类标签yx的短文本的主题表示集合,并有 表示集合Winf中第q个数据块Zq中类标签为yx的第g个短文本的主题表示,并有: 表示所述集合Winf的第q个数据块Zq中类标签为yx的第g个短文本的第k'个主题的主题表示,表示所述集合Winf中第q个数据块Zq中类标签为yx的短文本总数;
步骤5.2:根据式(4)计算所述扩展后的第i个数据块D'i的第j个短文本的主题表示与所述集合Winf中的第q个数据块Zq中类标签是yx的类别簇的语义距离
并有:
步骤5.3:将x+1赋值给x,并返回步骤5.2,直到x=X为止,从而得到所述扩展后的第i个数据块D'i的第j个短文本的主题表示与所述集合Winf中的第q个数据块Zq中所有类别簇Iq的语义距离,记为语义距离集合
步骤5.4:选择所述语义距离集合中最小的语义距离用于代表所述扩展后的第i个数据块D'i的第j个短文本的主题表示与所述集合Winf中的第q个数据块Zq的语义距离
步骤5.5:将j+1赋值给j,并返回步骤5.2,直到j=|Di|为止,从而获得所述扩展后的第i个数据块D'i的所有短文本的主题表示与所述集合Winf中的第q个数据块Zq的语义距离;
步骤5.6:根据式(6)计算所述扩展后的第i个数据块D'i的主题表示Zi与所述集合Winf中的第q个数据块Zq的语义距离dist(Zi,Zq):
步骤5.7:根据所述扩展后的第i个数据块D'i的主题表示Zi与所述集合Winf中的第q个数据块Zq的语义距离dist(Zi,Zq)与阈值τ比较,0<τ<1,若dist(Zi,Zq)>τ,则表示所述扩展后的第i个数据块D'i的主题表示Zi相对于所述集合Winf中的第q个数据块Zq发生了概念漂移,并将语义距离dist(Zi,Zq)装入所定义的语义距离集合CDf中,否则,则表示未发生概念漂移,并令dist(Zi,Zq)=0后,再装入语义距离集合CDf中;
步骤5.8:将q+1赋值给q,并返回步骤5.1,直到q=Qf为止,从而得到所述扩展后的第i个数据块D'i的主题表示Zi与所述集合Winf中的Qf个数据块的语义距离的语义距离集合CDf={dist(Zi,Zq),q=1,2,…,Qf};
步骤6:将发生概念漂移的扩展后的第i个数据块D'i的主题表示Zi替换所述集合Winf中的数据块,并更新所述分类器λf:
步骤6.1:若所述语义距离集合CDf中扩展后的第i个数据块D'i的主题表示Zi与所述集合Winf所有数据块的距离都为0,则表示扩展后的第i个数据块D'i的主题表示Zi相对于所述集合Winf所有数据块都没有发生概念漂移,从而不更新所述分类器λf;
若所述语义距离集合CDf中距离dist(Zi,Zq)最大,则表示所述扩展后的第i个数据块D'i的主题表示Zi相对于所述集合Winf中的第q个数据块Zi发生概念漂移,从而将f+1赋值给f,并利用所述扩展后的第i个数据块D'i的主题表示Zi替换所述集合Winf中的第q个数据块Zq,再利用所述集合Winf重建分类器λf;
步骤6.2:将i+1赋值给i,并返回步骤2.2,直到i=N为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710994366.9A CN107679228B (zh) | 2017-10-23 | 2017-10-23 | 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710994366.9A CN107679228B (zh) | 2017-10-23 | 2017-10-23 | 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107679228A CN107679228A (zh) | 2018-02-09 |
CN107679228B true CN107679228B (zh) | 2019-09-10 |
Family
ID=61141439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710994366.9A Active CN107679228B (zh) | 2017-10-23 | 2017-10-23 | 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679228B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416032B (zh) * | 2018-03-12 | 2021-06-08 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及存储介质 |
CN108595593B (zh) * | 2018-04-19 | 2021-11-23 | 南京大学 | 基于主题模型的会议研究热点与发展趋势信息分析方法 |
CN108536868B (zh) * | 2018-04-24 | 2022-04-15 | 北京慧闻科技(集团)有限公司 | 社交网络上短文本数据的数据处理方法及装置 |
CN109509110B (zh) * | 2018-07-27 | 2021-08-31 | 福州大学 | 基于改进bbtm模型的微博热点话题发现方法 |
CN109918667B (zh) * | 2019-03-06 | 2023-03-24 | 合肥工业大学 | 基于word2vec模型的短文本数据流的快速增量式分类方法 |
CN110032741B (zh) * | 2019-05-06 | 2020-02-04 | 重庆理工大学 | 一种基于语义扩展和最大边缘相关的伪文本生成方法 |
CN111026846B (zh) * | 2019-12-09 | 2021-08-17 | 合肥工业大学 | 一种基于特征扩展的在线短文本数据流分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020288A (zh) * | 2012-12-28 | 2013-04-03 | 大连理工大学 | 一种动态数据环境下的数据流分类方法 |
CN103150470A (zh) * | 2013-02-18 | 2013-06-12 | 大连理工大学 | 一种动态数据环境下的数据流概念漂移可视化方法 |
CN106354753A (zh) * | 2016-07-31 | 2017-01-25 | 信阳师范学院 | 数据流中基于模式发现的贝叶斯分类器 |
CN106934035A (zh) * | 2017-03-14 | 2017-07-07 | 合肥工业大学 | 一种基于类与特征分布的多标签数据流中概念漂移检测方法 |
CN107193892A (zh) * | 2017-05-02 | 2017-09-22 | 东软集团股份有限公司 | 一种文档主题确定方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9069798B2 (en) * | 2012-05-24 | 2015-06-30 | Mitsubishi Electric Research Laboratories, Inc. | Method of text classification using discriminative topic transformation |
-
2017
- 2017-10-23 CN CN201710994366.9A patent/CN107679228B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020288A (zh) * | 2012-12-28 | 2013-04-03 | 大连理工大学 | 一种动态数据环境下的数据流分类方法 |
CN103150470A (zh) * | 2013-02-18 | 2013-06-12 | 大连理工大学 | 一种动态数据环境下的数据流概念漂移可视化方法 |
CN106354753A (zh) * | 2016-07-31 | 2017-01-25 | 信阳师范学院 | 数据流中基于模式发现的贝叶斯分类器 |
CN106934035A (zh) * | 2017-03-14 | 2017-07-07 | 合肥工业大学 | 一种基于类与特征分布的多标签数据流中概念漂移检测方法 |
CN107193892A (zh) * | 2017-05-02 | 2017-09-22 | 东软集团股份有限公司 | 一种文档主题确定方法及装置 |
Non-Patent Citations (1)
Title |
---|
一种面向不完全标记的文本数据流自适应分类方法;张玉红等;《计算机科学》;20161215;第43卷(第12期);全文 |
Also Published As
Publication number | Publication date |
---|---|
CN107679228A (zh) | 2018-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679228B (zh) | 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法 | |
US10552501B2 (en) | Multilabel learning via supervised joint embedding of documents and labels | |
Hu et al. | Off to a good start: Using clustering to select the initial training set in active learning | |
Xu et al. | Detecting bursts in sentiment-aware topics from social media | |
CN107577682A (zh) | 基于社交图片的用户兴趣挖掘和用户推荐方法及系统 | |
CN103838756A (zh) | 一种确定推送信息的方法及装置 | |
CN106339495A (zh) | 一种基于层次增量聚类的话题检测方法及系统 | |
Chaudhuri et al. | Sentiment analysis of customer reviews using robust hierarchical bidirectional recurrent neural network | |
CN102436512B (zh) | 一种基于偏好度的网页文本内容管控方法 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN112749330A (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN105701516B (zh) | 一种基于属性判别的自动图像标注方法 | |
CN108733669A (zh) | 一种基于词向量的个性化媒体内容推荐系统及方法 | |
Türker et al. | Knowledge-based short text categorization using entity and category embedding | |
Mathivanan et al. | A comparative study on dimensionality reduction between principal component analysis and k-means clustering | |
Nie et al. | Cross-domain semantic transfer from large-scale social media | |
Ma et al. | Book recommendation model based on wide and deep model | |
JPWO2020095357A1 (ja) | 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法 | |
Sahni et al. | Topic modeling on online news extraction | |
TW201243627A (en) | Multi-label text categorization based on fuzzy similarity and k nearest neighbors | |
Pham et al. | A neural network based model for determining overall aspect weights in opinion mining and sentiment analysis | |
Zhang et al. | Learning entity types from query logs via graph-based modeling | |
Hamdi et al. | BERT and word embedding for interest mining of instagram users | |
CN105740389A (zh) | 一种分类方法及装置 | |
Pham et al. | MASS: a semi-supervised multi-label classification algorithm with specific features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |