CN109947945B - 基于词向量和集成svm的文本数据流分类方法 - Google Patents

基于词向量和集成svm的文本数据流分类方法 Download PDF

Info

Publication number
CN109947945B
CN109947945B CN201910208573.6A CN201910208573A CN109947945B CN 109947945 B CN109947945 B CN 109947945B CN 201910208573 A CN201910208573 A CN 201910208573A CN 109947945 B CN109947945 B CN 109947945B
Authority
CN
China
Prior art keywords
classifier
text
text data
integrated
data stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910208573.6A
Other languages
English (en)
Other versions
CN109947945A (zh
Inventor
倪丽萍
夏千姿
倪志伟
朱旭辉
夏平凡
李想
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201910208573.6A priority Critical patent/CN109947945B/zh
Publication of CN109947945A publication Critical patent/CN109947945A/zh
Application granted granted Critical
Publication of CN109947945B publication Critical patent/CN109947945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于词向量和集成SVM的文本数据流分类方法,其步骤包括:1、从文本数据集中获取种子文本集;2、对种子文本集进行词向量扩充处理,获得相应的特征词典及噪声词典;3、对所述文本数据集进行特征加权向量化处理,获得相应的文本向量集;4、构建集成分类器,获得所有文本的分类结果。本发明能在降低计算复杂度的情况下,通过充分利用数据特征来提高分类结果的准确率,从而满足解决实际问题的需要。

Description

基于词向量和集成SVM的文本数据流分类方法
技术领域
本发明涉及文本数据流分类领域;具体的说是一种基于词向量和集成SVM的文本数据流分类方法。
背景技术
随着自媒体和社交网络的不断发展,从这些实时产生、数据量庞大、结构复杂的非结构化短文本数据中识别特征,进行数据分类,已经成为一个热门研究领域。由此可以帮助用户快速从中提取出有价值的信息和知识。然而,传统的KNN、SVM、NB、深度学习等方法对多分类算法存在要求大训练样本,准确率低等情况,而且以上的算法动态适应性不强。依旧存在以下问题:
社交媒体流中传播的大部分信息是无效信息;社交媒体流中的分类算法具有较高的计算成本;将文本数据转换为结构化格式的步骤在文本挖掘中起着关键作用,并对最终的实验效果产生很大的影响。而在社交媒体平台上发布的信息以非结构化文本信息为主,不能简单地用传统的定量数据算法来测量。
论文《Object detection using hybridization of static and dynamicfeature spaces and its exploitation by ensemble classification》提出一种用于数据流分类的动态极限学习机,利用在线学习机制训练极限学习机为基本分类器,训练双层隐藏层结构以提高极限学习机的性能,并设置概念漂移警告,触发时加入更多的隐藏层节点,提高分类器的泛化能力。论文《基于半监督学习的数据流集成分类算法》,利用少量已标记数据和大量未标记数据,训练和更新集成分类器,并使用多数投票方式对测试数据进行分类。论文《Online Active Learning Ensemble Framework for Drifted Data Streams》提出一种新的在线主动学习集成框架,用于基于混合标记策略的漂移数据流,包括集成分类器以及非固定标记算法,动态调整分类器以及决策阈值,当发生概念漂移时,逐渐减小阈值以优先查询最不确定的实例以尽可能地降低请求费用。以上算法,都针对目前已有的动态学习、弱分类器分类精度较低等问题有一定的改进工作,但集成学习关于构造方案复杂,需要利用大量标记数据,以及时间复杂度高等缺点,仍未能得到很好的解决,需要进一步的改进完善。
发明内容
本发明为了克服现有技术存在的不足之处,提出一种基于词向量和集成SVM的文本数据流分类方法,以期能在降低计算复杂度的情况下,通过充分利用数据特征来提高分类结果的准确率,从而满足解决实际问题的需要。
本发明为解决技术问题采用如下技术方案:
本发明一种基于词向量和集成SVM的文本数据流分类方法的特点是按如下步骤进行:
步骤1、获取文本数据集,并对所述文本数据集中部分文本进行标记,得到带标签的文本集合并作为种子文本集;
步骤2、对所述种子文本集进行词向量扩充处理,获得相应的特征词典及噪声词典;
步骤2.1、将所述种子文本集中的种子文本分割成单词;
步骤2.2、根据词频对分割后的单词进行排序,并将排序靠前的单词进行筛选,得到原始特征词以及噪声词;
步骤2.3、利用词向量算法分别对所述原始特征词和噪声词进行扩展,从而构造特征词典E和噪声词典N;
步骤3、对所述文本数据集进行特征加权向量化处理,获得相应的文本向量集;
步骤3.1、对所述文本数据集中的文本进行分词,得到每篇文本的分词结果;
步骤3.2、根据噪声词典N,从所述分词结果中剔除噪声词,得到每篇文本的去噪后的分词结果;
步骤3.3、利用词向量算法对所述去噪后的分词结果进行词向量化处理,得到每篇文本的单词词向量化表示;
步骤3.4、根据特征词典E,对每篇文本的特征词赋予权重,并利用式(1)得到文本P的向量化表示Vector(P),从而由每篇文本的向量化表示构成文本向量集:
Figure GDA0002649385740000021
式(1)中,vecw表示文本P中属于特征词典E的特征词w的词向量化结果;weightw表示特征词w的权重;vecw′表示文本P中不属于特征词典E的特征词w’的词向量化结果;|Vec(P)|表示文本P的去噪后的分词结果中的单词总个数;
步骤4、获得所有文本的分类结果:
步骤4.1、定义时间窗口为t、最大时间窗口为tmax;并初始化t=0;
定义集成分类器为EC,并初始化EC为空集,定义集成分类器EC的容量为k;
定义当前基分类器的个数为num,并初始化num=0;
定义集成分类器EC的权重为1×k维的向量Weight_EC,并初始化Weight_EC为零向量;步骤4.2、从时间窗口t的文本数据流Bt中获取n篇带标签的文本向量,记为
Figure GDA0002649385740000031
Figure GDA0002649385740000032
表示时间窗口t的第i个带标签的文本向量,1≤i≤n;
步骤4.3、若num<k,则用时间窗口t的文本数据流Bt构造第num+1个基分类器的训练集Tnum+1,并利用训练集Tnum+1对支持向量机SVM进行训练得到基分类器
Figure GDA0002649385740000033
再利用式(2)得到第num+1个基分类器
Figure GDA0002649385740000034
在文本数据流Bt中的正确率
Figure GDA0002649385740000035
执行步骤4.4;否则执行步骤4.5;
Figure GDA0002649385740000036
式(2)中,
Figure GDA0002649385740000037
表示在文本数据流Bt中分类正确文本的数量,
Figure GDA0002649385740000038
表示在文本数据流Bt中进行分类处理的文本总数;
步骤4.4、将所述正确率
Figure GDA0002649385740000039
作为第num+1个基分类器
Figure GDA00026493857400000310
的权重,并将第num+1个基分类器
Figure GDA00026493857400000311
及其权重添加到集成分类器EC中,形成时间窗口t的集成分类器
Figure GDA00026493857400000312
再将num+1赋值给num,跳转执行步骤4.16;
步骤4.5、用时间窗口t-1的集成分类器
Figure GDA00026493857400000313
对文本数据流Bt中的每个文本向量进行分类,得到k个基分类器的分类结果;
对所述k个基分类器分类结果进行加权投票,得到时间窗口t-1的集成分类器
Figure GDA00026493857400000314
的分类结果;
步骤4.6、根据时间窗口t-1的集成分类器
Figure GDA00026493857400000315
的分类结果判断文本数据流Bt中的每个文本向量的分类结果和其对应的标签是否一致,若一致,则表示时间窗口t-1的集成分类器
Figure GDA00026493857400000316
正确分类,否则表示时间窗口t-1的集成分类器
Figure GDA00026493857400000317
错误分类,并将错误分类的文本向量添加到错误分类缓冲区Errinst中;
步骤4.7、将时间窗口t-1的集成分类器
Figure GDA00026493857400000318
中各基分类器分类结果带入式(2),得到集成分类器
Figure GDA00026493857400000319
中k个基分类器在文本数据流Bt中的正确率
Figure GDA00026493857400000320
Figure GDA00026493857400000321
表示集成分类器
Figure GDA00026493857400000322
的第i个基分类器
Figure GDA00026493857400000323
在文本数据流Bt中的正确率,1≤i≤k;
将时间窗口t-1的集成分类器
Figure GDA00026493857400000324
的分类结果带入式(2),得到文本数据流Bt的正确率
Figure GDA0002649385740000041
步骤4.8、利用正确率
Figure GDA0002649385740000042
来更新集成分类器
Figure GDA0002649385740000043
的权重
Figure GDA0002649385740000044
得到集成分类器
Figure GDA0002649385740000045
的权重向量
Figure GDA0002649385740000046
步骤4.9、利用式(3)进行假设性检验,若式(3)成立,则表明在文本数据流Bt中发生概念漂移,并执行步骤4.10;反之,则说明在文本数据流Bt中未发生概念漂移,跳转执行步骤4.16;
Figure GDA0002649385740000047
式(3)中,μ0是一个常量;α为给定的假设显著性水平;
步骤4.10、使用错误分类缓冲区Errinst构造第k+1个基分类器
Figure GDA0002649385740000048
利用所述第k+1个基分类器
Figure GDA0002649385740000049
对错误分类缓冲区Errinst进行分类,得到相应的分类结果带入式(2),得到第k+1个基分类器
Figure GDA00026493857400000410
在错误分类缓冲区Errinst中的正确率为
Figure GDA00026493857400000411
步骤4.11、计算集成分类器ECBt中k个基分类器对错误分类缓冲区Errinst的分类,得到的分类结果代入式(2),得到k个基分类器在错误分类缓冲区Errinst中的正确率
Figure GDA00026493857400000412
Pi Errinst为集成分类器
Figure GDA00026493857400000413
第i个基分类器
Figure GDA00026493857400000414
在错误分类缓冲区Errinst中的正确率;
步骤4.12、计算集成分类器
Figure GDA00026493857400000415
的第i个基分类器
Figure GDA00026493857400000416
在文本数据流Bt中的正确率
Figure GDA00026493857400000417
与集成分类器ECBt第i个基分类器
Figure GDA00026493857400000418
在错误分类缓冲区Errinst中的正确率Pi Errinst的平均值,记为
Figure GDA00026493857400000419
从而得到平均值集合
Figure GDA00026493857400000420
步骤4.13、若
Figure GDA00026493857400000421
大于
Figure GDA00026493857400000422
中的最小值,则得到平均值
Figure GDA00026493857400000423
中最小值在平均值
Figure GDA00026493857400000424
中所在的位置序号j,且1≤j≤k,并在集成分类器
Figure GDA00026493857400000425
中取出位置序号j所对应的基分类器
Figure GDA00026493857400000426
及其训练集Tj;执行步骤4.14,否则跳转执行步骤4.16;
步骤4.14、利用错误分类缓冲区Errinst与训练集Tj组成第k+2个分类器的训练集Tk+2对支持向量机SVM进行训练,得到第k+2个基分类器
Figure GDA00026493857400000427
利用所述第k+2个基分类器
Figure GDA0002649385740000051
对错误分类缓冲区Errinst进行分类,得到相应的分类结果带入式(2),得到第k+2个基分类器
Figure GDA0002649385740000052
在错误分类缓冲区Errinst中的正确率为
Figure GDA0002649385740000053
步骤4.15、利用第k+2个分类器
Figure GDA0002649385740000054
和正确率
Figure GDA0002649385740000055
替换集成分类器
Figure GDA0002649385740000056
中的第j个基分类器
Figure GDA0002649385740000057
及其权重,从而获得更新的集成分类器
Figure GDA0002649385740000058
步骤4.16、将t+1赋值给t;并判断t>tmax是否成立,若成立,则表示获得集成分类器对所有时间窗口的文本数据的分类结果;否则执行步骤4.2。
与已有技术相比,本发明的有益效果体现在:
1、本发明采用滑动时间窗口思想:利用滑动时间窗口进行集成分类的优势在于每个滑动时间窗口内的数据只用来训练一个基分类器,这样极大程度上解决了集成学习需要利用大量标记数据,以及时间复杂度高等问题。且对每个时间窗口内数据进行概念漂移检测,在保证时间效率的同时,有效利用训练数据,训练集成分类器,提高了分类准确率。同时,根据可用的缓冲区大小或者实验需求等,还可以变换滑动时间窗口大小,使分类方法具有较好的伸缩性和可扩展性。
2、本发明针对非结构化短文本的特点,采用词向量技术,在表示过程中,利用特征词典与噪声词典,提高了文本向量化表示的准确性。
3、本发明采用滑动时间窗口思想,对每个滑动时间窗口内的文本数据流,只用来训练一个基分类器;由此,解决目前集成分类器中所遇到的需要利用大量标记数据,导致较高的时间复杂度;以及可根据实验具体需求,变化滑动时间窗口大小,使该方法具有较好伸缩性以及可扩展性;
4、本发明在每个时间窗口内进行概念漂移的检测,以解决目前集成分类器在适应数据概念变动特征,所带来的时间复杂度高等问题;从而,在保证时间效率的同时,有效利用训练数据来训练集成分类器,进一步提高了分类准确率;
5、本发明以均衡考虑当前数据块和错误分类实例中的基分类器分类效果,在被替换基分类器的选择中,能够选择分类效果最差的基分类器;替换分类器则将由错误分类的实例与被替换分类器的训练集共同训练得到;从而降低了该方法的整体构造复杂度。
附图说明
图1为本发明基于词向量和集成SVM的文本数据流分类方法流程图。
具体实施方式
本实施例中,如图1所示,一种基于词向量和集成SVM的文本数据流分类方法是按如下步骤进行:
1、一种基于词向量和集成SVM的文本数据流分类方法,其特征是按如下步骤进行:
步骤1、获取文本数据集,并对所述文本数据集中部分文本进行标记,得到带标签的文本集合并作为种子文本集;种子文本由随机选取10%左右总文本数据集得到。
步骤2、对所述种子文本集进行词向量扩充处理,获得相应的特征词典及噪声词典;词向量算法由维基百科语料训练谷歌公司所提出的深度学习词向量算法而得到。
步骤2.1、将所述种子文本集中的种子文本分割成单词;
步骤2.2、根据词频对分割后的单词进行排序,并将排序靠前的单词进行筛选,得到原始特征词以及噪声词;
步骤2.3、利用词向量算法分别对所述原始特征词和噪声词进行扩展,从而构造特征词典E和噪声词典N;利用词向量算法对每个原始特征词和噪声词取相似词,选取排序前十的相似词进行非重复扩展。
步骤3、对所述文本数据集进行特征加权向量化处理,获得相应的文本向量集;
步骤3.1、对所述文本数据集中的文本进行分词,得到每篇文本的分词结果;
步骤3.2、根据噪声词典N,从所述分词结果中剔除噪声词,得到每篇文本的去噪后的分词结果;
步骤3.3、利用词向量算法对所述去噪后的分词结果进行词向量化处理,得到每篇文本的单词词向量化表示;
步骤3.4、根据特征词典E,对每篇文本的特征词赋予权重,并利用式(1)得到文本P的向量化表示Vector(P),从而由每篇文本的向量化表示构成文本向量集:
Figure GDA0002649385740000061
式(1)中,vecw表示文本P中属于特征词典E的特征词w的词向量化结果;weightw表示特征词w的权重;vecw′表示文本P中不属于特征词典E的特征词w’的词向量化结果;|Vec(P)|表示文本P的去噪后的分词结果中的单词总个数;weightw是根据特征词w的词频所设置的定量。如:特征词w的词频为5,则可设置weightw为1.5。
步骤4、获得所有文本的分类结果:
步骤4.1、定义时间窗口为t、最大时间窗口为tmax;并初始化t=0;
定义集成分类器为EC,并初始化EC为空集,定义集成分类器EC的容量为k;k取参数定值9。
定义当前基分类器的个数为num,并初始化num=0;
定义集成分类器EC的权重为1×k维的向量Weight_EC,并初始化Weight_EC为零向量;步骤4.2、从时间窗口t的文本数据流Bt中获取n篇带标签的文本向量,记为
Figure GDA0002649385740000071
Figure GDA0002649385740000072
表示时间窗口t的第i个带标签的文本向量,1≤i≤n;
步骤4.3、若num<k,则用时间窗口t的文本数据流Bt构造第num+1个基分类器的训练集Tnum+1,并利用训练集Tnum+1对支持向量机SVM进行训练得到基分类器
Figure GDA0002649385740000073
再利用式(2)得到第num+1个基分类器
Figure GDA0002649385740000074
在文本数据流Bt中的正确率
Figure GDA0002649385740000075
执行步骤4.4;否则执行步骤4.5;
Figure GDA0002649385740000076
式(2)中,
Figure GDA0002649385740000077
表示在文本数据流Bt中分类正确文本的数量,
Figure GDA0002649385740000078
表示在文本数据流Bt中进行分类处理的文本总数;
步骤4.4、将所述正确率
Figure GDA0002649385740000079
作为第num+1个基分类器
Figure GDA00026493857400000710
的权重,并将第num+1个基分类器
Figure GDA00026493857400000711
及其权重添加到集成分类器EC中,形成时间窗口t的集成分类器
Figure GDA00026493857400000712
再将num+1赋值给num,跳转执行步骤4.16;
步骤4.5、用时间窗口t-1的集成分类器
Figure GDA00026493857400000713
对文本数据流Bt中的每个文本向量进行分类,得到k个基分类器的分类结果;
对所述k个基分类器分类结果进行加权投票,得到时间窗口t-1的集成分类器
Figure GDA00026493857400000714
的分类结果;加权投票规则为,当一个未知样本被分类时,最大权重的投票结果就是未知样本的类别。
步骤4.6、根据时间窗口t-1的集成分类器
Figure GDA00026493857400000715
的分类结果判断文本数据流Bt中的每个文本向量的分类结果和其对应的标签是否一致,若一致,则表示时间窗口t-1的集成分类器
Figure GDA0002649385740000081
正确分类,否则表示时间窗口t-1的集成分类器
Figure GDA0002649385740000082
错误分类,并将错误分类的文本向量添加到错误分类缓冲区Errinst中;
步骤4.7、将时间窗口t-1的集成分类器
Figure GDA0002649385740000083
中各基分类器分类结果带入式(2),得到集成分类器
Figure GDA0002649385740000084
中k个基分类器在文本数据流Bt中的正确率
Figure GDA0002649385740000085
Figure GDA0002649385740000086
表示集成分类器
Figure GDA0002649385740000087
的第i个基分类器
Figure GDA0002649385740000088
在文本数据流Bt中的正确率,1≤i≤k;
将时间窗口t-1的集成分类器
Figure GDA0002649385740000089
的分类结果带入式(2),得到文本数据流Bt的正确率
Figure GDA00026493857400000810
集成分类器的正确率与集成分类器中基分类器的正确率有不同的用法,集成分类器正确率用来衡量该时间窗口内是否发生概念漂移,而集成分类器中基分类器的正确率则用来更新通过上一时间窗口所得的的集成分类器权重,从而得到根据该时间窗口数据特征修改后的对应于该时间窗口的集成分类器。
步骤4.8、利用正确率
Figure GDA00026493857400000811
来更新集成分类器
Figure GDA00026493857400000812
的权重
Figure GDA00026493857400000813
得到集成分类器
Figure GDA00026493857400000814
的权重向量
Figure GDA00026493857400000815
步骤4.9、利用式(3)进行假设性检验,若式(3)成立,则表明在文本数据流Bt中发生概念漂移,并执行步骤4.10;反之,则说明在文本数据流Bt中未发生概念漂移,跳转执行步骤4.16;
Figure GDA00026493857400000816
式(3)中,μ0是一个常量;α为给定的假设显著性水平;μ0初始化为前五个数据块分类错误率的平均值。α为给定假设显著性水平95%。
步骤4.10、使用错误分类缓冲区Errinst构造第k+1个基分类器
Figure GDA00026493857400000817
利用所述第k+1个基分类器
Figure GDA00026493857400000818
对错误分类缓冲区Errinst进行分类,得到相应的分类结果带入式(2),得到第k+1个基分类器
Figure GDA00026493857400000819
在错误分类缓冲区Errinst中的正确率为
Figure GDA00026493857400000820
步骤4.11、计算集成分类器ECBt中k个基分类器对错误分类缓冲区Errinst的分类,得到的分类结果代入式(2),得到k个基分类器在错误分类缓冲区Errinst中的正确率
Figure GDA00026493857400000821
Pi Errinst为集成分类器
Figure GDA00026493857400000822
第i个基分类器
Figure GDA00026493857400000823
在错误分类缓冲区Errinst中的正确率;
步骤4.12、计算集成分类器
Figure GDA0002649385740000091
的第i个基分类器
Figure GDA0002649385740000092
在文本数据流Bt中的正确率
Figure GDA0002649385740000093
与集成分类器ECBt第i个基分类器
Figure GDA0002649385740000094
在错误分类缓冲区Errinst中的正确率Pi Errinst的平均值,记为
Figure GDA0002649385740000095
从而得到平均值集合
Figure GDA0002649385740000096
步骤4.13、若
Figure GDA0002649385740000097
大于
Figure GDA0002649385740000098
中的最小值,则得到平均值
Figure GDA0002649385740000099
中最小值在平均值
Figure GDA00026493857400000910
中所在的位置序号j,且1≤j≤k,并在集成分类器
Figure GDA00026493857400000911
中取出位置序号j所对应的基分类器
Figure GDA00026493857400000912
及其训练集Tj;执行步骤4.14,否则跳转执行步骤4.16;
步骤4.14、利用错误分类缓冲区Errinst与训练集Tj组成第k+2个分类器的训练集Tk+2对支持向量机SVM进行训练,得到第k+2个基分类器
Figure GDA00026493857400000913
该方法应用于数据流中,每个基分类器的训练集都是不重复的。所以当选择被替换分类器时,替换分类器将由错误分类的数据和被替换分类器的训练集构成的全新数据集,重新训练得到。
利用所述第k+2个基分类器
Figure GDA00026493857400000914
对错误分类缓冲区Errinst进行分类,得到相应的分类结果带入式(2),得到第k+2个基分类器
Figure GDA00026493857400000915
在错误分类缓冲区Errinst中的正确率为
Figure GDA00026493857400000916
步骤4.15、利用第k+2个分类器
Figure GDA00026493857400000917
和正确率
Figure GDA00026493857400000918
替换集成分类器
Figure GDA00026493857400000919
中的第j个基分类器
Figure GDA00026493857400000920
及其权重,从而获得更新的集成分类器
Figure GDA00026493857400000921
步骤4.16、将t+1赋值给t;并判断t>tmax是否成立,若成立,则表示获得集成分类器对所有时间窗口的文本数据的分类结果;否则执行步骤4.2。

Claims (1)

1.一种基于词向量和集成SVM的文本数据流分类方法,其特征是按如下步骤进行:
步骤1、获取文本数据集,并对所述文本数据集中部分文本进行标记,得到带标签的文本集合并作为种子文本集;
步骤2、对所述种子文本集进行词向量扩充处理,获得相应的特征词典及噪声词典;
步骤2.1、将所述种子文本集中的种子文本分割成单词;
步骤2.2、根据词频对分割后的单词进行排序,并将排序靠前的单词进行筛选,得到原始特征词以及噪声词;
步骤2.3、利用词向量算法分别对所述原始特征词和噪声词进行扩展,从而构造特征词典E和噪声词典N;
步骤3、对所述文本数据集进行特征加权向量化处理,获得相应的文本向量集;
步骤3.1、对所述文本数据集中的文本进行分词,得到每篇文本的分词结果;
步骤3.2、根据噪声词典N,从所述分词结果中剔除噪声词,得到每篇文本的去噪后的分词结果;
步骤3.3、利用词向量算法对所述去噪后的分词结果进行词向量化处理,得到每篇文本的单词词向量化表示;
步骤3.4、根据特征词典E,对每篇文本的特征词赋予权重,并利用式(1)得到文本P的向量化表示Vector(P),从而由每篇文本的向量化表示构成文本向量集:
Figure FDA0002649385730000011
式(1)中,vecw表示文本P中属于特征词典E的特征词w的词向量化结果;weightw表示特征词w的权重;vecw′表示文本P中不属于特征词典E的特征词w’的词向量化结果;|Vec(P)|表示文本P的去噪后的分词结果中的单词总个数;
步骤4、获得所有文本的分类结果:
步骤4.1、定义时间窗口为t、最大时间窗口为tmax;并初始化t=0;
定义集成分类器为EC,并初始化EC为空集,定义集成分类器EC的容量为k;
定义当前基分类器的个数为num,并初始化num=0;
定义集成分类器EC的权重为1×k维的向量Weight_EC,并初始化Weight_EC为零向量;
步骤4.2、从时间窗口t的文本数据流Bt中获取n篇带标签的文本向量,记为
Figure FDA0002649385730000021
Figure FDA0002649385730000022
表示时间窗口t的第i个带标签的文本向量,1≤i≤n;
步骤4.3、若num<k,则用时间窗口t的文本数据流Bt构造第num+1个基分类器的训练集Tnum+1,并利用训练集Tnum+1对支持向量机SVM进行训练得到基分类器
Figure FDA0002649385730000023
再利用式(2)得到第num+1个基分类器
Figure FDA0002649385730000024
在文本数据流Bt中的正确率
Figure FDA0002649385730000025
执行步骤4.4;否则执行步骤4.5;
Figure FDA0002649385730000026
式(2)中,
Figure FDA0002649385730000027
表示在文本数据流Bt中分类正确文本的数量,
Figure FDA0002649385730000028
表示在文本数据流Bt中进行分类处理的文本总数;
步骤4.4、将所述正确率
Figure FDA0002649385730000029
作为第num+1个基分类器
Figure FDA00026493857300000210
的权重,并将第num+1个基分类器
Figure FDA00026493857300000211
及其权重添加到集成分类器EC中,形成时间窗口t的集成分类器
Figure FDA00026493857300000212
再将num+1赋值给num,跳转执行步骤4.16;
步骤4.5、用时间窗口t-1的集成分类器
Figure FDA00026493857300000213
对文本数据流Bt中的每个文本向量进行分类,得到k个基分类器的分类结果;
对所述k个基分类器分类结果进行加权投票,得到时间窗口t-1的集成分类器
Figure FDA00026493857300000214
的分类结果;
步骤4.6、根据时间窗口t-1的集成分类器
Figure FDA00026493857300000215
的分类结果判断文本数据流Bt中的每个文本向量的分类结果和其对应的标签是否一致,若一致,则表示时间窗口t-1的集成分类器
Figure FDA00026493857300000216
正确分类,否则表示时间窗口t-1的集成分类器
Figure FDA00026493857300000217
错误分类,并将错误分类的文本向量添加到错误分类缓冲区Errinst中;
步骤4.7、将时间窗口t-1的集成分类器
Figure FDA00026493857300000218
中各基分类器分类结果带入式(2),得到集成分类器
Figure FDA00026493857300000219
中k个基分类器在文本数据流Bt中的正确率
Figure FDA00026493857300000220
Figure FDA00026493857300000221
表示集成分类器
Figure FDA00026493857300000222
的第i个基分类器
Figure FDA00026493857300000223
在文本数据流Bt中的正确率,1≤i≤k;
将时间窗口t-1的集成分类器
Figure FDA00026493857300000224
的分类结果带入式(2),得到文本数据流Bt的正确率
Figure FDA00026493857300000225
步骤4.8、利用正确率
Figure FDA0002649385730000031
来更新集成分类器
Figure FDA0002649385730000032
的权重
Figure FDA0002649385730000033
得到集成分类器
Figure FDA0002649385730000034
的权重向量
Figure FDA0002649385730000035
步骤4.9、利用式(3)进行假设性检验,若式(3)成立,则表明在文本数据流Bt中发生概念漂移,并执行步骤4.10;反之,则说明在文本数据流Bt中未发生概念漂移,跳转执行步骤4.16;
Figure FDA0002649385730000036
式(3)中,μ0是一个常量;α为给定的假设显著性水平;
步骤4.10、使用错误分类缓冲区Errinst构造第k+1个基分类器
Figure FDA0002649385730000037
利用所述第k+1个基分类器
Figure FDA0002649385730000038
对错误分类缓冲区Errinst进行分类,得到相应的分类结果带入式(2),得到第k+1个基分类器
Figure FDA0002649385730000039
在错误分类缓冲区Errinst中的正确率为
Figure FDA00026493857300000310
步骤4.11、计算集成分类器ECBt中k个基分类器对错误分类缓冲区Errinst的分类,得到的分类结果代入式(2),得到k个基分类器在错误分类缓冲区Errinst中的正确率
Figure FDA00026493857300000311
Figure FDA00026493857300000312
为集成分类器
Figure FDA00026493857300000313
第i个基分类器
Figure FDA00026493857300000314
在错误分类缓冲区Errinst中的正确率;
步骤4.12、计算集成分类器
Figure FDA00026493857300000315
的第i个基分类器
Figure FDA00026493857300000316
在文本数据流Bt中的正确率
Figure FDA00026493857300000317
与集成分类器ECBt第i个基分类器
Figure FDA00026493857300000318
在错误分类缓冲区Errinst中的正确率Pi Errinst的平均值,记为
Figure FDA00026493857300000319
从而得到平均值集合
Figure FDA00026493857300000320
步骤4.13、若
Figure FDA00026493857300000321
大于
Figure FDA00026493857300000322
中的最小值,则得到平均值
Figure FDA00026493857300000323
中最小值在平均值
Figure FDA00026493857300000324
中所在的位置序号j,且1≤j≤k,并在集成分类器
Figure FDA00026493857300000325
中取出位置序号j所对应的基分类器
Figure FDA00026493857300000326
及其训练集Tj;执行步骤4.14,否则跳转执行步骤4.16;
步骤4.14、利用错误分类缓冲区Errinst与训练集Tj组成第k+2个分类器的训练集Tk+2对支持向量机SVM进行训练,得到第k+2个基分类器
Figure FDA00026493857300000327
利用所述第k+2个基分类器
Figure FDA00026493857300000328
对错误分类缓冲区Errinst进行分类,得到相应的分类结果带入式(2),得到第k+2个基分类器
Figure FDA00026493857300000329
在错误分类缓冲区Errinst中的正确率为
Figure FDA0002649385730000041
步骤4.15、利用第k+2个分类器
Figure FDA0002649385730000042
和正确率
Figure FDA0002649385730000043
替换集成分类器
Figure FDA0002649385730000044
中的第j个基分类器
Figure FDA0002649385730000045
及其权重,从而获得更新的集成分类器
Figure FDA0002649385730000046
步骤4.16、将t+1赋值给t;并判断t>tmax是否成立,若成立,则表示获得集成分类器对所有时间窗口的文本数据的分类结果;否则执行步骤4.2。
CN201910208573.6A 2019-03-19 2019-03-19 基于词向量和集成svm的文本数据流分类方法 Active CN109947945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910208573.6A CN109947945B (zh) 2019-03-19 2019-03-19 基于词向量和集成svm的文本数据流分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910208573.6A CN109947945B (zh) 2019-03-19 2019-03-19 基于词向量和集成svm的文本数据流分类方法

Publications (2)

Publication Number Publication Date
CN109947945A CN109947945A (zh) 2019-06-28
CN109947945B true CN109947945B (zh) 2021-01-15

Family

ID=67009065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910208573.6A Active CN109947945B (zh) 2019-03-19 2019-03-19 基于词向量和集成svm的文本数据流分类方法

Country Status (1)

Country Link
CN (1) CN109947945B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889443A (zh) * 2019-11-21 2020-03-17 成都数联铭品科技有限公司 无监督文本分类系统及方法
CN111026846B (zh) * 2019-12-09 2021-08-17 合肥工业大学 一种基于特征扩展的在线短文本数据流分类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7295977B2 (en) * 2001-08-27 2007-11-13 Nec Laboratories America, Inc. Extracting classifying data in music from an audio bitstream
CN105574547B (zh) * 2015-12-22 2019-03-05 北京奇虎科技有限公司 适应动态调整基分类器权重的集成学习方法及装置
CN106294684A (zh) * 2016-08-06 2017-01-04 上海高欣计算机系统有限公司 词向量的文本分类方法及终端设备
CN108319518B (zh) * 2017-12-08 2023-04-07 中国电子科技集团公司电子科学研究院 基于循环神经网络的文件碎片分类方法及装置
CN108764322A (zh) * 2018-05-22 2018-11-06 齐鲁工业大学 一种基于概念漂移的流数据集成分类方法和装置

Also Published As

Publication number Publication date
CN109947945A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN109783818B (zh) 一种企业行业分类方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN108108351B (zh) 一种基于深度学习组合模型的文本情感分类方法
CN110309306B (zh) 一种基于wsd层级记忆网络的文档建模分类方法
CN109446332B (zh) 一种基于特征迁移和自适应学习的人民调解案例分类系统及方法
CN108932950B (zh) 一种基于标签扩增与多频谱图融合的声音场景识别方法
CN113326731B (zh) 一种基于动量网络指导的跨域行人重识别方法
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
CN111626336A (zh) 一种基于不平衡数据集的地铁故障数据分类方法
CN112632980A (zh) 一种基于大数据深度学习的企业分类方法、系统及电子设备
CN113887643B (zh) 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN111695527A (zh) 一种蒙古文在线手写体识别方法
CN102289522A (zh) 一种对于文本智能分类的方法
CN114139676A (zh) 领域自适应神经网络的训练方法
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
CN109947945B (zh) 基于词向量和集成svm的文本数据流分类方法
CN112527959B (zh) 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN103020167A (zh) 一种计算机中文文本分类方法
JP7475592B2 (ja) テキスト情報の中からターゲット単語と対応する単語を識別する方法(method for identify a word corresponding to a target word in text information)
CN110796260B (zh) 一种基于类扩张学习的神经网络模型优化方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
WO2022166578A1 (zh) 用于域自适应学习的方法、装置、设备、介质和产品
CN111191033A (zh) 一种基于分类效用的开集分类方法
Gao et al. Handwritten text recognition with convolutional prototype network and most aligned frame based CTC training

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant