CN110019654A - 一种不平衡网络文本分类优化系统 - Google Patents
一种不平衡网络文本分类优化系统 Download PDFInfo
- Publication number
- CN110019654A CN110019654A CN201710596521.1A CN201710596521A CN110019654A CN 110019654 A CN110019654 A CN 110019654A CN 201710596521 A CN201710596521 A CN 201710596521A CN 110019654 A CN110019654 A CN 110019654A
- Authority
- CN
- China
- Prior art keywords
- text
- value
- corpus
- unit
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 19
- 238000002790 cross-validation Methods 0.000 claims description 16
- 230000000694 effects Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000002123 temporal effect Effects 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 24
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种不平衡网络文本分类优化系统及方法。涉及计算机数据挖掘技术领域,其特征在于,所述系统包括:数据输入单元,用于输入文本语料:TX={t1,t2,t3,...,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;中文分词处理单元,用于对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,...,cn};特征提取单元,用于进行特征提取;模型分类单元,用于采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;根据投票级别:N,对分类后的结果进行判别;结果输出单元,用于得到每条文本语料的分类结果TC={m1,m2,m3,...,mn}。可优化不平衡网络文本小类的表示效果,提高小类的识别率;同时,通过优化集成学习的投票策略,提高小类的召回率。
Description
技术领域
本发明涉及计算机数据挖掘领域,具体而言,涉及一种不平衡网络文本分类优化系统。
背景技术
网络文本是从海量互联网信息中过滤有效信息,互联网每天会产生大量数据信息,文本挖掘装置一天采集互联网信息达5000万条,而有用的信息相对而言是非常少,通常比例会达到1000:1以上。这种分类情况属于典型的不均衡数据集的分类,传统的关键字法、分类算法等文本挖掘方式在这种情况下效果很差。
在对不平衡的分类数据集进行建模时,传统算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此,机器学习算法常常被要求应用在平衡数据集上。
发明内容
本发明的目的在于提供一种不平衡网络文本分类优化系统,可优化不平衡网络文本小类的表示效果,提高小类的识别率;同时,通过优化集成学习的投票策略,提高小类的召回率。
本发明的另一目的在于提供一种不平衡网络文本分类优化方法,具有相应效果。
为了实现上述目的,本发明实施例采用的技术方案如下:
一种不平衡网络文本分类优化系统,其特征在于,所述系统包括:。
数据输入单元,用于输入文本语料:TX={t1,t2,t3,…,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;
中文分词处理单元,用于对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,…,cn};
特征提取单元,用于进行特征提取;
模型分类单元,用于采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;根据投票级别:N,对分类后的结果进行判别;
结果输出单元,用于得到每条文本语料的分类结果TC=m1,m2,m3,…,mn}。
进一步的,所述特征提取单元包括:
不均衡文本统计单元,用于对CX={c1,c2,c3,…,cn}中所有分词进行不均衡文本统计,得到每个分词统计后的对应的不均衡文本统计量:Xn1、Xn2、Yn1和Yn2;
特征概率处理单元,用于计算每个分词对应的特征概率值;
分类训练单元,用于从min值开始,获取前N个特征词,对文本语料进行N个特征词向量表示进行分类训练;
比较判断单元,用于对所有语料进行交叉验证,得出平均召回率,判断N值大小,直到N值大于max值,将结果发送给特征输出单元;
特征输出单元,比较所有分类效果,选择召回率最大时对应的N值作为结果进行输出。
进一步的,所述分类训练单元包含:
特征词提取单元,用于从min值开始,获取前N个特征词;
SVM分类器,用于对特征词进行SVM分类;
朴素贝叶斯分类器,用于对特征词进行朴素贝叶斯分类;
KNN分类器,用于对特征词进行KNN分类。
进一步的,所述比较判断单元包括:
交叉验证单元,用于对所有文本语料进行交叉验证,得到平均召回率;
判断单元,用于判断N值释放后大于max值。
一种不平衡网络文本分类优化方法,其特征在于,所述方法包括:
步骤S1:输入文本语料:TX={t1,t2,t3,…,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;
步骤S2:对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,…,cn};
步骤S3:进行特征提取;
步骤S4:采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;
步骤S5:根据投票级别:N,对分类后的结果进行判别;
步骤S6:得到每条文本语料的分类结果TC={m1,m2,m3,…,mn}。
进一步的,所述步骤S3中进行特征提取的方法包括:
步骤S3.1:对CX={c1,c2,c3,…,cn}中所有分词进行不均衡文本统计,得到每个分词统计后的对应的不均衡文本统计量:Xn1、Xn2、Yn1和Yn2;
步骤S3.2:按照如下公式,计算每个分词对应的特征概率值为:
步骤S3.3:从min值开始,获取前N个特征词;
步骤S3.4:对文本语料进行N个特征词向量表示进行分类训练;
步骤S3.5:对所有语料进行交叉验证,得出平均召回率;
步骤S3.6:重复执行步骤S3.2-步骤S3.5,直到N值大于max值;
步骤S3.7:比较所有分类效果,选择召回率最大时对应的N值作为结果。
本发明实施例提供的一种不平衡网络文本分类优化系统,采用特征选择、集成学习方法,克服单个文本分类器的不足,采用分类器组合的方式进行分类效果增强,采用SVM、朴素贝叶斯、K近邻算法进行分类器组合,并对分类效果进行评判,对实现算法能进行逐步调优。
另一方面,本发明实施例提供的一种不平衡网络文本分类优化方法,具有相应的效果。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的不平衡网络文本分类优化系统的结构示意图。
图2示出了本发明实施例提供的不平衡网络文本分类优化系统中特征提取单元的结构示意图。
图3示出了本发明实施例提供的不平衡网络文本分类优化方法的流程示意图。
其中,100-数据输入单元,200-中文分词处理单元,300-特征提取单元,400-模型分类单元,500-结果输出单元,201-不均衡文本统计单元,202-特征概率处理单元,203-分类训练单元,204-比较判断单元,205-特征输出单元,601-步骤S1,602-步骤S2,603-步骤S3,604-步骤S4,605-步骤S5,606-步骤S6。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
第一实施例
本发明第一实施例提供了一种不平衡网络文本分类优化系统,其特征在于,所述系统包括:
数据输入单元,用于输入文本语料:TX={t1,t2,t3,…,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;
中文分词处理单元,用于对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,…,cn};
特征提取单元,用于进行特征提取;
模型分类单元,用于采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;根据投票级别:N,对分类后的结果进行判别;
结果输出单元,用于得到每条文本语料的分类结果TC=m1,m2,m3,…,mn}。
进一步的,所述特征提取单元包括:
不均衡文本统计单元,用于对CX={c1,c2,c3,…,cn}中所有分词进行不均衡文本统计,得到每个分词统计后的对应的不均衡文本统计量:Xn1、Xn2、Yn1和Yn2;
特征概率处理单元,用于计算每个分词对应的特征概率值;
分类训练单元,用于从min值开始,获取前N个特征词,对文本语料进行N个特征词向量表示进行分类训练;
比较判断单元,用于对所有语料进行交叉验证,得出平均召回率,判断N值大小,直到N值大于max值,将结果发送给特征输出单元;
特征输出单元,比较所有分类效果,选择召回率最大时对应的N值作为结果进行输出。
具体的,特征概率处理单元,计算每个分词对应的特征概率值的方法为:按照如下公式,计算每个分词对应的特征概率值为:
具体的,不均衡文本统计单元统计的Xn1代表含有某关键字的相关文本;Xn2代表含有某关键字的不相关文本;Yn1代表不含有某关键字的相关文本;Yn2代表不含有某关键字的不相关文本。
进一步的,所述分类训练单元包含:
特征词提取单元,用于从min值开始,获取前N个特征词;
SVM分类器,用于对特征词进行SVM分类;
朴素贝叶斯分类器,用于对特征词进行朴素贝叶斯分类;
KNN分类器,用于对特征词进行KNN分类。
具体的,训练三个元分类器来对所有的基本学习器的输出进行处理,对文本语料分别进行SVM、朴素贝叶斯和KNN分类,SVM分类器、朴素贝叶斯分类器和KNN分类器三个分类器从原理上不一样,并且三个分类器在文本分类方面效果较好,所以对于同一舆情再现问题的概率很小,然后用仲裁法从所有基本分类器的输出中选择合理的结果作为输出。
进一步的,所述比较判断单元包括:
交叉验证单元,用于对所有文本语料进行交叉验证,得到平均召回率;
判断单元,用于判断N值释放后大于max值。
第二实施例
本发明第二实施例提供了一种不平衡网络文本分类优化方法,其特征在于,所述方法包括:
步骤S1:输入文本语料:TX={t1,t2,t3,…,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;
步骤S2:对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,…,cn};
步骤S3:进行特征提取;
步骤S4:采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;
步骤S5:根据投票级别:N,对分类后的结果进行判别;
步骤S6:得到每条文本语料的分类结果TC={m1,m2,m3,…,mn}。
进一步的,所述步骤S3中进行特征提取的方法包括:
步骤S3.1:对CX={c1,c2,c3,…,cn}中所有分词进行不均衡文本统计,得到每个分词统计后的对应的不均衡文本统计量:Xn1、Xn2、Yn1和Yn2;
步骤S3.2:按照如下公式,计算每个分词对应的特征概率值为:
步骤S3.3:从min值开始,获取前N个特征词;
步骤S3.4:对文本语料进行N个特征词向量表示进行分类训练;
步骤S3.5:对所有语料进行交叉验证,得出平均召回率;
步骤S3.6:重复执行步骤S3.2-步骤S3.5,直到N值大于max值;
步骤S3.7:比较所有分类效果,选择召回率最大时对应的N值作为结果。
具体的,具体的,不均衡文本统计单元统计的Xn1代表含有某关键字的相关文本;Xn2代表含有某关键字的不相关文本;Yn1代表不含有某关键字的相关文本;Yn2代表不含有某关键字的不相关文本。
本发明实施例提供的一种不平衡网络文本分类优化系统,采用特征选择、集成学习方法,克服单个文本分类器的不足,采用分类器组合的方式进行分类效果增强,采用SVM、朴素贝叶斯、K近邻算法进行分类器组合,并对分类效果进行评判,对实现算法能进行逐步调优。
第三实施例
本发明实施例3一方面提供了一种不平衡网络文本分类优化系统,其特征在于,所述系统包括:
数据输入单元,用于输入文本语料:TX={t1,t2,t3,…,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;
中文分词处理单元,用于对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,…,cn};
特征提取单元,用于进行特征提取;
模型分类单元,用于采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;根据投票级别:N,对分类后的结果进行判别;
结果输出单元,用于得到每条文本语料的分类结果TC=m1,m2,m3,…,mn}。
进一步的,所述特征提取单元包括:
不均衡文本统计单元,用于对CX={c1,c2,c3,…,cn}中所有分词进行不均衡文本统计,得到每个分词统计后的对应的不均衡文本统计量:Xn1、Xn2、Yn1和Yn2;
特征概率处理单元,用于计算每个分词对应的特征概率值;
分类训练单元,用于从min值开始,获取前N个特征词,对文本语料进行N个特征词向量表示进行分类训练;
比较判断单元,用于对所有语料进行交叉验证,得出平均召回率,判断N值大小,直到N值大于max值,将结果发送给特征输出单元;
特征输出单元,比较所有分类效果,选择召回率最大时对应的N值作为结果进行输出。
具体的,特征概率处理单元,计算每个分词对应的特征概率值的方法为:按照如下公式,计算每个分词对应的特征概率值为:
具体的,不均衡文本统计单元统计的Xn1代表含有某关键字的相关文本;Xn2代表含有某关键字的不相关文本;Yn1代表不含有某关键字的相关文本;Yn2代表不含有某关键字的不相关文本。
进一步的,所述分类训练单元包含:
特征词提取单元,用于从min值开始,获取前N个特征词;
SVM分类器,用于对特征词进行SVM分类;
朴素贝叶斯分类器,用于对特征词进行朴素贝叶斯分类;
KNN分类器,用于对特征词进行KNN分类。
具体的,训练三个元分类器来对所有的基本学习器的输出进行处理,对文本语料分别进行SVM、朴素贝叶斯和KNN分类,SVM分类器、朴素贝叶斯分类器和KNN分类器三个分类器从原理上不一样,并且三个分类器在文本分类方面效果较好,所以对于同一舆情再现问题的概率很小,然后用仲裁法从所有基本分类器的输出中选择合理的结果作为输出。
进一步的,所述比较判断单元包括:
交叉验证单元,用于对所有文本语料进行交叉验证,得到平均召回率;
判断单元,用于判断N值释放后大于max值。
本发明实施例3另一方面提供了一种不平衡网络文本分类优化方法,其特征在于,所述方法包括:
步骤S1:输入文本语料:TX={t1,t2,t3,…,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;
步骤S2:对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,…,cn};
步骤S3:进行特征提取;
步骤S4:采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;
步骤S5:根据投票级别:N,对分类后的结果进行判别;
步骤S6:得到每条文本语料的分类结果TC={m1,m2,m3,…,mn}。
进一步的,所述步骤S3中进行特征提取的方法包括:
步骤S3.1:对CX={c1,c2,c3,…,cn}中所有分词进行不均衡文本统计,得到每个分词统计后的对应的不均衡文本统计量:Xn1、Xn2、Yn1和Yn2;
步骤S3.2:按照如下公式,计算每个分词对应的特征概率值为:
步骤S3.3:从min值开始,获取前N个特征词;
步骤S3.4:对文本语料进行N个特征词向量表示进行分类训练;
步骤S3.5:对所有语料进行交叉验证,得出平均召回率;
步骤S3.6:重复执行步骤S3.2-步骤S3.5,直到N值大于max值;
步骤S3.7:比较所有分类效果,选择召回率最大时对应的N值作为结果。
综上所述,采用传统的特征表示方式,最终文本语料的平均召回率72.8%,通过本发明的文本分类优化系统,分类召回率84.4%,提高了11.6个百分点。在12个大的数据集上,表现很稳定,数据总样本达到200多万,说明特征优选后,效果非常明显。本发明采用特征选择、集成学习方法,克服单个文本分类器的不足,采用分类器组合的方式进行分类效果增强,采用SVM、朴素贝叶斯、K近邻算法进行分类器组合,并对分类效果进行评判,对实现算法能进行逐步调优。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段或代码的一部分,所述单元、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能单元可以集成在一起形成一个独立的部分,也可以是各个单元单独存在,也可以两个或两个以上单元集成形成一个独立的部分。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Onl8Memor8)、随机存取存储器(RAM,RandomAccess Memor8)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
Claims (6)
1.一种不平衡网络文本分类优化系统,其特征在于,所述系统包括:。
数据输入单元,用于输入文本语料:TX={t1,t2,t3,…,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;
中文分词处理单元,用于对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,…,cn};
特征提取单元,用于进行特征提取;
模型分类单元,用于采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;根据投票级别:N,对分类后的结果进行判别;
结果输出单元,用于得到每条文本语料的分类结果TC={m1,m2,m3,…,mn}。
2.如权利要求1所述的不平衡网络文本分类优化系统,其特征在于,所述特征提取单元包括:
不均衡文本统计单元,用于对CX={c1,c2,c3,…,cn}中所有分词进行不均衡文本统计,得到每个分词统计后的对应的不均衡文本统计量:Xn1、Xn2、Yn1和Yn2;
特征概率处理单元,用于计算每个分词对应的特征概率值;
分类训练单元,用于从min值开始,获取前N个特征词,对文本语料进行N个特征词向量表示进行分类训练;
比较判断单元,用于对所有语料进行交叉验证,得出平均召回率,判断N值大小,直到N值大于max值,将结果发送给特征输出单元;
特征输出单元,比较所有分类效果,选择召回率最大时对应的N值作为结果进行输出。
3.如权利要求2所述的不平衡网络文本分类优化系统,其特征在于,所述分类训练单元包含:
特征词提取单元,用于从min值开始,获取前N个特征词;
SVM分类器,用于对特征词进行SVM分类;
朴素贝叶斯分类器,用于对特征词进行朴素贝叶斯分类;
KNN分类器,用于对特征词进行KNN分类。
4.如权利要求3所述的不平衡网络文本分类优化系统,其特征在于,所述比较判断单元包括:
交叉验证单元,用于对所有文本语料进行交叉验证,得到平均召回率;
判断单元,用于判断N值释放后大于max值。
5.一种不平衡网络文本分类优化方法,其特征在于,所述方法包括:
步骤S1:输入文本语料:TX={t1,t2,t3,…,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;
步骤S2:对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,…,cn};
步骤S3:进行特征提取;
步骤S4:采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;
步骤S5:根据投票级别:N,对分类后的结果进行判别;
步骤S6:得到每条文本语料的分类结果TC={m1,m2,m3,…,mn}。
6.如权利要求5所述的不平衡网络文本分类优化方法,其特征在于,所述步骤S3中进行特征提取的方法包括:
步骤S3.1:对CX={c1,c2,c3,…,cn}中所有分词进行不均衡文本统计,得到每个分词统计后的对应的不均衡文本统计量:Xn1、Xn2、Yn1和Yn2;
步骤S3.2:按照如下公式,计算每个分词对应的特征概率值为:
步骤S3.3:从min值开始,获取前N个特征词;
步骤S3.4:对文本语料进行N个特征词向量表示进行分类训练;
步骤S3.5:对所有语料进行交叉验证,得出平均召回率;
步骤S3.6:重复执行步骤S3.2-步骤S3.5,直到N值大于max值;
步骤S3.7:比较所有分类效果,选择召回率最大时对应的N值作为结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710596521.1A CN110019654A (zh) | 2017-07-20 | 2017-07-20 | 一种不平衡网络文本分类优化系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710596521.1A CN110019654A (zh) | 2017-07-20 | 2017-07-20 | 一种不平衡网络文本分类优化系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110019654A true CN110019654A (zh) | 2019-07-16 |
Family
ID=67185893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710596521.1A Pending CN110019654A (zh) | 2017-07-20 | 2017-07-20 | 一种不平衡网络文本分类优化系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019654A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1719436A (zh) * | 2004-07-09 | 2006-01-11 | 中国科学院自动化研究所 | 一种新的面向文本分类的特征向量权重的方法及装置 |
CN101059796A (zh) * | 2006-04-19 | 2007-10-24 | 中国科学院自动化研究所 | 基于概率主题词的两级组合文本分类方法 |
CN103886108A (zh) * | 2014-04-13 | 2014-06-25 | 北京工业大学 | 一种不均衡文本集的特征选择和权重计算方法 |
CN103955489A (zh) * | 2014-04-15 | 2014-07-30 | 华南理工大学 | 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统 |
CN104750844A (zh) * | 2015-04-09 | 2015-07-01 | 中南大学 | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 |
CN105893380A (zh) * | 2014-12-11 | 2016-08-24 | 成都网安科技发展有限公司 | 一种改良的文本分类特征选择方法 |
CN106021272A (zh) * | 2016-04-04 | 2016-10-12 | 上海大学 | 基于分布式表达词向量计算的关键词自动提取方法 |
CN106168799A (zh) * | 2016-06-30 | 2016-11-30 | 常伟 | 一种基于大数据机器学习进行电动汽车电池预测性维护的方法 |
CN106611375A (zh) * | 2015-10-22 | 2017-05-03 | 北京大学 | 一种基于文本分析的信用风险评估方法及装置 |
CN106649264A (zh) * | 2016-11-21 | 2017-05-10 | 中国农业大学 | 一种基于篇章信息的中文水果品种信息抽取方法及装置 |
CN106777957A (zh) * | 2016-12-12 | 2017-05-31 | 吉林大学 | 不平衡数据集上生物医学多参事件抽取的新方法 |
-
2017
- 2017-07-20 CN CN201710596521.1A patent/CN110019654A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1719436A (zh) * | 2004-07-09 | 2006-01-11 | 中国科学院自动化研究所 | 一种新的面向文本分类的特征向量权重的方法及装置 |
CN101059796A (zh) * | 2006-04-19 | 2007-10-24 | 中国科学院自动化研究所 | 基于概率主题词的两级组合文本分类方法 |
CN103886108A (zh) * | 2014-04-13 | 2014-06-25 | 北京工业大学 | 一种不均衡文本集的特征选择和权重计算方法 |
CN103955489A (zh) * | 2014-04-15 | 2014-07-30 | 华南理工大学 | 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统 |
CN105893380A (zh) * | 2014-12-11 | 2016-08-24 | 成都网安科技发展有限公司 | 一种改良的文本分类特征选择方法 |
CN104750844A (zh) * | 2015-04-09 | 2015-07-01 | 中南大学 | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 |
CN106611375A (zh) * | 2015-10-22 | 2017-05-03 | 北京大学 | 一种基于文本分析的信用风险评估方法及装置 |
CN106021272A (zh) * | 2016-04-04 | 2016-10-12 | 上海大学 | 基于分布式表达词向量计算的关键词自动提取方法 |
CN106168799A (zh) * | 2016-06-30 | 2016-11-30 | 常伟 | 一种基于大数据机器学习进行电动汽车电池预测性维护的方法 |
CN106649264A (zh) * | 2016-11-21 | 2017-05-10 | 中国农业大学 | 一种基于篇章信息的中文水果品种信息抽取方法及装置 |
CN106777957A (zh) * | 2016-12-12 | 2017-05-31 | 吉林大学 | 不平衡数据集上生物医学多参事件抽取的新方法 |
Non-Patent Citations (2)
Title |
---|
朱贺军: "基于规则的互联网海量短文本的分类挖掘", 《中国西部科技》 * |
王超学 等: "改进SVM-KNN的不平衡数据分类", 《计算机工程与应用》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804512B (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN108763362B (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
CN103365997B (zh) | 一种基于集成学习的观点挖掘方法 | |
CN105912716B (zh) | 一种短文本分类方法及装置 | |
CN105426356B (zh) | 一种目标信息识别方法和装置 | |
CN108363810B (zh) | 一种文本分类方法及装置 | |
CN107301171A (zh) | 一种基于情感词典学习的文本情感分析方法和系统 | |
CN105930411A (zh) | 一种分类器训练方法、分类器和情感分类系统 | |
CN109241518B (zh) | 一种基于情感分析的检测网络水军方法 | |
CN110516074B (zh) | 一种基于深度学习的网站主题分类方法及装置 | |
CN104750844A (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
CN105975518B (zh) | 基于信息熵的期望交叉熵特征选择文本分类系统及方法 | |
CN107545038B (zh) | 一种文本分类方法与设备 | |
CN106156372A (zh) | 一种互联网网站的分类方法及装置 | |
Tan et al. | Topic-weak-correlated latent dirichlet allocation | |
JP5012078B2 (ja) | カテゴリ作成方法、カテゴリ作成装置、およびプログラム | |
CN105894050A (zh) | 一种基于多任务学习的人脸图像种族和性别识别方法 | |
CN105956083A (zh) | 应用软件分类系统、应用软件分类方法及服务器 | |
CN109598307A (zh) | 数据筛选方法、装置、服务器及存储介质 | |
CN110287311A (zh) | 文本分类方法及装置、存储介质、计算机设备 | |
CN105912525A (zh) | 基于主题特征的半监督学习情感分类方法 | |
Patel et al. | Dynamic lexicon generation for natural scene images | |
CN102411592B (zh) | 一种文本分类方法和装置 | |
Antonio et al. | Sentiment analysis for covid-19 in Indonesia on Twitter with TF-IDF featured extraction and stochastic gradient descent | |
Vishwakarma et al. | A comparative study of K-means and K-medoid clustering for social media text mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190716 |