CN110019654A - 一种不平衡网络文本分类优化系统 - Google Patents

一种不平衡网络文本分类优化系统 Download PDF

Info

Publication number
CN110019654A
CN110019654A CN201710596521.1A CN201710596521A CN110019654A CN 110019654 A CN110019654 A CN 110019654A CN 201710596521 A CN201710596521 A CN 201710596521A CN 110019654 A CN110019654 A CN 110019654A
Authority
CN
China
Prior art keywords
text
value
corpus
unit
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710596521.1A
Other languages
English (en)
Inventor
陈清明
王定波
张亚琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CSG Media Co Ltd
Original Assignee
CSG Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CSG Media Co Ltd filed Critical CSG Media Co Ltd
Priority to CN201710596521.1A priority Critical patent/CN110019654A/zh
Publication of CN110019654A publication Critical patent/CN110019654A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种不平衡网络文本分类优化系统及方法。涉及计算机数据挖掘技术领域,其特征在于,所述系统包括:数据输入单元,用于输入文本语料:TX={t1,t2,t3,...,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;中文分词处理单元,用于对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,...,cn};特征提取单元,用于进行特征提取;模型分类单元,用于采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;根据投票级别:N,对分类后的结果进行判别;结果输出单元,用于得到每条文本语料的分类结果TC={m1,m2,m3,...,mn}。可优化不平衡网络文本小类的表示效果,提高小类的识别率;同时,通过优化集成学习的投票策略,提高小类的召回率。

Description

一种不平衡网络文本分类优化系统
技术领域
本发明涉及计算机数据挖掘领域,具体而言,涉及一种不平衡网络文本分类优化系统。
背景技术
网络文本是从海量互联网信息中过滤有效信息,互联网每天会产生大量数据信息,文本挖掘装置一天采集互联网信息达5000万条,而有用的信息相对而言是非常少,通常比例会达到1000:1以上。这种分类情况属于典型的不均衡数据集的分类,传统的关键字法、分类算法等文本挖掘方式在这种情况下效果很差。
在对不平衡的分类数据集进行建模时,传统算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此,机器学习算法常常被要求应用在平衡数据集上。
发明内容
本发明的目的在于提供一种不平衡网络文本分类优化系统,可优化不平衡网络文本小类的表示效果,提高小类的识别率;同时,通过优化集成学习的投票策略,提高小类的召回率。
本发明的另一目的在于提供一种不平衡网络文本分类优化方法,具有相应效果。
为了实现上述目的,本发明实施例采用的技术方案如下:
一种不平衡网络文本分类优化系统,其特征在于,所述系统包括:。
数据输入单元,用于输入文本语料:TX={t1,t2,t3,…,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;
中文分词处理单元,用于对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,…,cn};
特征提取单元,用于进行特征提取;
模型分类单元,用于采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;根据投票级别:N,对分类后的结果进行判别;
结果输出单元,用于得到每条文本语料的分类结果TC=m1,m2,m3,…,mn}。
进一步的,所述特征提取单元包括:
不均衡文本统计单元,用于对CX={c1,c2,c3,…,cn}中所有分词进行不均衡文本统计,得到每个分词统计后的对应的不均衡文本统计量:Xn1、Xn2、Yn1和Yn2
特征概率处理单元,用于计算每个分词对应的特征概率值;
分类训练单元,用于从min值开始,获取前N个特征词,对文本语料进行N个特征词向量表示进行分类训练;
比较判断单元,用于对所有语料进行交叉验证,得出平均召回率,判断N值大小,直到N值大于max值,将结果发送给特征输出单元;
特征输出单元,比较所有分类效果,选择召回率最大时对应的N值作为结果进行输出。
进一步的,所述分类训练单元包含:
特征词提取单元,用于从min值开始,获取前N个特征词;
SVM分类器,用于对特征词进行SVM分类;
朴素贝叶斯分类器,用于对特征词进行朴素贝叶斯分类;
KNN分类器,用于对特征词进行KNN分类。
进一步的,所述比较判断单元包括:
交叉验证单元,用于对所有文本语料进行交叉验证,得到平均召回率;
判断单元,用于判断N值释放后大于max值。
一种不平衡网络文本分类优化方法,其特征在于,所述方法包括:
步骤S1:输入文本语料:TX={t1,t2,t3,…,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;
步骤S2:对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,…,cn};
步骤S3:进行特征提取;
步骤S4:采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;
步骤S5:根据投票级别:N,对分类后的结果进行判别;
步骤S6:得到每条文本语料的分类结果TC={m1,m2,m3,…,mn}。
进一步的,所述步骤S3中进行特征提取的方法包括:
步骤S3.1:对CX={c1,c2,c3,…,cn}中所有分词进行不均衡文本统计,得到每个分词统计后的对应的不均衡文本统计量:Xn1、Xn2、Yn1和Yn2
步骤S3.2:按照如下公式,计算每个分词对应的特征概率值为:
步骤S3.3:从min值开始,获取前N个特征词;
步骤S3.4:对文本语料进行N个特征词向量表示进行分类训练;
步骤S3.5:对所有语料进行交叉验证,得出平均召回率;
步骤S3.6:重复执行步骤S3.2-步骤S3.5,直到N值大于max值;
步骤S3.7:比较所有分类效果,选择召回率最大时对应的N值作为结果。
本发明实施例提供的一种不平衡网络文本分类优化系统,采用特征选择、集成学习方法,克服单个文本分类器的不足,采用分类器组合的方式进行分类效果增强,采用SVM、朴素贝叶斯、K近邻算法进行分类器组合,并对分类效果进行评判,对实现算法能进行逐步调优。
另一方面,本发明实施例提供的一种不平衡网络文本分类优化方法,具有相应的效果。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的不平衡网络文本分类优化系统的结构示意图。
图2示出了本发明实施例提供的不平衡网络文本分类优化系统中特征提取单元的结构示意图。
图3示出了本发明实施例提供的不平衡网络文本分类优化方法的流程示意图。
其中,100-数据输入单元,200-中文分词处理单元,300-特征提取单元,400-模型分类单元,500-结果输出单元,201-不均衡文本统计单元,202-特征概率处理单元,203-分类训练单元,204-比较判断单元,205-特征输出单元,601-步骤S1,602-步骤S2,603-步骤S3,604-步骤S4,605-步骤S5,606-步骤S6。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
第一实施例
本发明第一实施例提供了一种不平衡网络文本分类优化系统,其特征在于,所述系统包括:
数据输入单元,用于输入文本语料:TX={t1,t2,t3,…,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;
中文分词处理单元,用于对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,…,cn};
特征提取单元,用于进行特征提取;
模型分类单元,用于采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;根据投票级别:N,对分类后的结果进行判别;
结果输出单元,用于得到每条文本语料的分类结果TC=m1,m2,m3,…,mn}。
进一步的,所述特征提取单元包括:
不均衡文本统计单元,用于对CX={c1,c2,c3,…,cn}中所有分词进行不均衡文本统计,得到每个分词统计后的对应的不均衡文本统计量:Xn1、Xn2、Yn1和Yn2
特征概率处理单元,用于计算每个分词对应的特征概率值;
分类训练单元,用于从min值开始,获取前N个特征词,对文本语料进行N个特征词向量表示进行分类训练;
比较判断单元,用于对所有语料进行交叉验证,得出平均召回率,判断N值大小,直到N值大于max值,将结果发送给特征输出单元;
特征输出单元,比较所有分类效果,选择召回率最大时对应的N值作为结果进行输出。
具体的,特征概率处理单元,计算每个分词对应的特征概率值的方法为:按照如下公式,计算每个分词对应的特征概率值为:
具体的,不均衡文本统计单元统计的Xn1代表含有某关键字的相关文本;Xn2代表含有某关键字的不相关文本;Yn1代表不含有某关键字的相关文本;Yn2代表不含有某关键字的不相关文本。
进一步的,所述分类训练单元包含:
特征词提取单元,用于从min值开始,获取前N个特征词;
SVM分类器,用于对特征词进行SVM分类;
朴素贝叶斯分类器,用于对特征词进行朴素贝叶斯分类;
KNN分类器,用于对特征词进行KNN分类。
具体的,训练三个元分类器来对所有的基本学习器的输出进行处理,对文本语料分别进行SVM、朴素贝叶斯和KNN分类,SVM分类器、朴素贝叶斯分类器和KNN分类器三个分类器从原理上不一样,并且三个分类器在文本分类方面效果较好,所以对于同一舆情再现问题的概率很小,然后用仲裁法从所有基本分类器的输出中选择合理的结果作为输出。
进一步的,所述比较判断单元包括:
交叉验证单元,用于对所有文本语料进行交叉验证,得到平均召回率;
判断单元,用于判断N值释放后大于max值。
第二实施例
本发明第二实施例提供了一种不平衡网络文本分类优化方法,其特征在于,所述方法包括:
步骤S1:输入文本语料:TX={t1,t2,t3,…,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;
步骤S2:对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,…,cn};
步骤S3:进行特征提取;
步骤S4:采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;
步骤S5:根据投票级别:N,对分类后的结果进行判别;
步骤S6:得到每条文本语料的分类结果TC={m1,m2,m3,…,mn}。
进一步的,所述步骤S3中进行特征提取的方法包括:
步骤S3.1:对CX={c1,c2,c3,…,cn}中所有分词进行不均衡文本统计,得到每个分词统计后的对应的不均衡文本统计量:Xn1、Xn2、Yn1和Yn2
步骤S3.2:按照如下公式,计算每个分词对应的特征概率值为:
步骤S3.3:从min值开始,获取前N个特征词;
步骤S3.4:对文本语料进行N个特征词向量表示进行分类训练;
步骤S3.5:对所有语料进行交叉验证,得出平均召回率;
步骤S3.6:重复执行步骤S3.2-步骤S3.5,直到N值大于max值;
步骤S3.7:比较所有分类效果,选择召回率最大时对应的N值作为结果。
具体的,具体的,不均衡文本统计单元统计的Xn1代表含有某关键字的相关文本;Xn2代表含有某关键字的不相关文本;Yn1代表不含有某关键字的相关文本;Yn2代表不含有某关键字的不相关文本。
本发明实施例提供的一种不平衡网络文本分类优化系统,采用特征选择、集成学习方法,克服单个文本分类器的不足,采用分类器组合的方式进行分类效果增强,采用SVM、朴素贝叶斯、K近邻算法进行分类器组合,并对分类效果进行评判,对实现算法能进行逐步调优。
第三实施例
本发明实施例3一方面提供了一种不平衡网络文本分类优化系统,其特征在于,所述系统包括:
数据输入单元,用于输入文本语料:TX={t1,t2,t3,…,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;
中文分词处理单元,用于对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,…,cn};
特征提取单元,用于进行特征提取;
模型分类单元,用于采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;根据投票级别:N,对分类后的结果进行判别;
结果输出单元,用于得到每条文本语料的分类结果TC=m1,m2,m3,…,mn}。
进一步的,所述特征提取单元包括:
不均衡文本统计单元,用于对CX={c1,c2,c3,…,cn}中所有分词进行不均衡文本统计,得到每个分词统计后的对应的不均衡文本统计量:Xn1、Xn2、Yn1和Yn2
特征概率处理单元,用于计算每个分词对应的特征概率值;
分类训练单元,用于从min值开始,获取前N个特征词,对文本语料进行N个特征词向量表示进行分类训练;
比较判断单元,用于对所有语料进行交叉验证,得出平均召回率,判断N值大小,直到N值大于max值,将结果发送给特征输出单元;
特征输出单元,比较所有分类效果,选择召回率最大时对应的N值作为结果进行输出。
具体的,特征概率处理单元,计算每个分词对应的特征概率值的方法为:按照如下公式,计算每个分词对应的特征概率值为:
具体的,不均衡文本统计单元统计的Xn1代表含有某关键字的相关文本;Xn2代表含有某关键字的不相关文本;Yn1代表不含有某关键字的相关文本;Yn2代表不含有某关键字的不相关文本。
进一步的,所述分类训练单元包含:
特征词提取单元,用于从min值开始,获取前N个特征词;
SVM分类器,用于对特征词进行SVM分类;
朴素贝叶斯分类器,用于对特征词进行朴素贝叶斯分类;
KNN分类器,用于对特征词进行KNN分类。
具体的,训练三个元分类器来对所有的基本学习器的输出进行处理,对文本语料分别进行SVM、朴素贝叶斯和KNN分类,SVM分类器、朴素贝叶斯分类器和KNN分类器三个分类器从原理上不一样,并且三个分类器在文本分类方面效果较好,所以对于同一舆情再现问题的概率很小,然后用仲裁法从所有基本分类器的输出中选择合理的结果作为输出。
进一步的,所述比较判断单元包括:
交叉验证单元,用于对所有文本语料进行交叉验证,得到平均召回率;
判断单元,用于判断N值释放后大于max值。
本发明实施例3另一方面提供了一种不平衡网络文本分类优化方法,其特征在于,所述方法包括:
步骤S1:输入文本语料:TX={t1,t2,t3,…,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;
步骤S2:对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,…,cn};
步骤S3:进行特征提取;
步骤S4:采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;
步骤S5:根据投票级别:N,对分类后的结果进行判别;
步骤S6:得到每条文本语料的分类结果TC={m1,m2,m3,…,mn}。
进一步的,所述步骤S3中进行特征提取的方法包括:
步骤S3.1:对CX={c1,c2,c3,…,cn}中所有分词进行不均衡文本统计,得到每个分词统计后的对应的不均衡文本统计量:Xn1、Xn2、Yn1和Yn2
步骤S3.2:按照如下公式,计算每个分词对应的特征概率值为:
步骤S3.3:从min值开始,获取前N个特征词;
步骤S3.4:对文本语料进行N个特征词向量表示进行分类训练;
步骤S3.5:对所有语料进行交叉验证,得出平均召回率;
步骤S3.6:重复执行步骤S3.2-步骤S3.5,直到N值大于max值;
步骤S3.7:比较所有分类效果,选择召回率最大时对应的N值作为结果。
综上所述,采用传统的特征表示方式,最终文本语料的平均召回率72.8%,通过本发明的文本分类优化系统,分类召回率84.4%,提高了11.6个百分点。在12个大的数据集上,表现很稳定,数据总样本达到200多万,说明特征优选后,效果非常明显。本发明采用特征选择、集成学习方法,克服单个文本分类器的不足,采用分类器组合的方式进行分类效果增强,采用SVM、朴素贝叶斯、K近邻算法进行分类器组合,并对分类效果进行评判,对实现算法能进行逐步调优。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段或代码的一部分,所述单元、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能单元可以集成在一起形成一个独立的部分,也可以是各个单元单独存在,也可以两个或两个以上单元集成形成一个独立的部分。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Onl8Memor8)、随机存取存储器(RAM,RandomAccess Memor8)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

Claims (6)

1.一种不平衡网络文本分类优化系统,其特征在于,所述系统包括:。
数据输入单元,用于输入文本语料:TX={t1,t2,t3,…,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;
中文分词处理单元,用于对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,…,cn};
特征提取单元,用于进行特征提取;
模型分类单元,用于采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;根据投票级别:N,对分类后的结果进行判别;
结果输出单元,用于得到每条文本语料的分类结果TC={m1,m2,m3,…,mn}。
2.如权利要求1所述的不平衡网络文本分类优化系统,其特征在于,所述特征提取单元包括:
不均衡文本统计单元,用于对CX={c1,c2,c3,…,cn}中所有分词进行不均衡文本统计,得到每个分词统计后的对应的不均衡文本统计量:Xn1、Xn2、Yn1和Yn2
特征概率处理单元,用于计算每个分词对应的特征概率值;
分类训练单元,用于从min值开始,获取前N个特征词,对文本语料进行N个特征词向量表示进行分类训练;
比较判断单元,用于对所有语料进行交叉验证,得出平均召回率,判断N值大小,直到N值大于max值,将结果发送给特征输出单元;
特征输出单元,比较所有分类效果,选择召回率最大时对应的N值作为结果进行输出。
3.如权利要求2所述的不平衡网络文本分类优化系统,其特征在于,所述分类训练单元包含:
特征词提取单元,用于从min值开始,获取前N个特征词;
SVM分类器,用于对特征词进行SVM分类;
朴素贝叶斯分类器,用于对特征词进行朴素贝叶斯分类;
KNN分类器,用于对特征词进行KNN分类。
4.如权利要求3所述的不平衡网络文本分类优化系统,其特征在于,所述比较判断单元包括:
交叉验证单元,用于对所有文本语料进行交叉验证,得到平均召回率;
判断单元,用于判断N值释放后大于max值。
5.一种不平衡网络文本分类优化方法,其特征在于,所述方法包括:
步骤S1:输入文本语料:TX={t1,t2,t3,…,tn};输入投票级别:N;输入最小特征数:min;输入最大特征数:max;
步骤S2:对TX进行中文分词,去掉没有意义的连词、介词和感叹词,得到CX={c1,c2,c3,…,cn};
步骤S3:进行特征提取;
步骤S4:采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类;
步骤S5:根据投票级别:N,对分类后的结果进行判别;
步骤S6:得到每条文本语料的分类结果TC={m1,m2,m3,…,mn}。
6.如权利要求5所述的不平衡网络文本分类优化方法,其特征在于,所述步骤S3中进行特征提取的方法包括:
步骤S3.1:对CX={c1,c2,c3,…,cn}中所有分词进行不均衡文本统计,得到每个分词统计后的对应的不均衡文本统计量:Xn1、Xn2、Yn1和Yn2
步骤S3.2:按照如下公式,计算每个分词对应的特征概率值为:
步骤S3.3:从min值开始,获取前N个特征词;
步骤S3.4:对文本语料进行N个特征词向量表示进行分类训练;
步骤S3.5:对所有语料进行交叉验证,得出平均召回率;
步骤S3.6:重复执行步骤S3.2-步骤S3.5,直到N值大于max值;
步骤S3.7:比较所有分类效果,选择召回率最大时对应的N值作为结果。
CN201710596521.1A 2017-07-20 2017-07-20 一种不平衡网络文本分类优化系统 Pending CN110019654A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710596521.1A CN110019654A (zh) 2017-07-20 2017-07-20 一种不平衡网络文本分类优化系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710596521.1A CN110019654A (zh) 2017-07-20 2017-07-20 一种不平衡网络文本分类优化系统

Publications (1)

Publication Number Publication Date
CN110019654A true CN110019654A (zh) 2019-07-16

Family

ID=67185893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710596521.1A Pending CN110019654A (zh) 2017-07-20 2017-07-20 一种不平衡网络文本分类优化系统

Country Status (1)

Country Link
CN (1) CN110019654A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN101059796A (zh) * 2006-04-19 2007-10-24 中国科学院自动化研究所 基于概率主题词的两级组合文本分类方法
CN103886108A (zh) * 2014-04-13 2014-06-25 北京工业大学 一种不均衡文本集的特征选择和权重计算方法
CN103955489A (zh) * 2014-04-15 2014-07-30 华南理工大学 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN105893380A (zh) * 2014-12-11 2016-08-24 成都网安科技发展有限公司 一种改良的文本分类特征选择方法
CN106021272A (zh) * 2016-04-04 2016-10-12 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN106168799A (zh) * 2016-06-30 2016-11-30 常伟 一种基于大数据机器学习进行电动汽车电池预测性维护的方法
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
CN106649264A (zh) * 2016-11-21 2017-05-10 中国农业大学 一种基于篇章信息的中文水果品种信息抽取方法及装置
CN106777957A (zh) * 2016-12-12 2017-05-31 吉林大学 不平衡数据集上生物医学多参事件抽取的新方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN101059796A (zh) * 2006-04-19 2007-10-24 中国科学院自动化研究所 基于概率主题词的两级组合文本分类方法
CN103886108A (zh) * 2014-04-13 2014-06-25 北京工业大学 一种不均衡文本集的特征选择和权重计算方法
CN103955489A (zh) * 2014-04-15 2014-07-30 华南理工大学 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统
CN105893380A (zh) * 2014-12-11 2016-08-24 成都网安科技发展有限公司 一种改良的文本分类特征选择方法
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
CN106021272A (zh) * 2016-04-04 2016-10-12 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN106168799A (zh) * 2016-06-30 2016-11-30 常伟 一种基于大数据机器学习进行电动汽车电池预测性维护的方法
CN106649264A (zh) * 2016-11-21 2017-05-10 中国农业大学 一种基于篇章信息的中文水果品种信息抽取方法及装置
CN106777957A (zh) * 2016-12-12 2017-05-31 吉林大学 不平衡数据集上生物医学多参事件抽取的新方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱贺军: "基于规则的互联网海量短文本的分类挖掘", 《中国西部科技》 *
王超学 等: "改进SVM-KNN的不平衡数据分类", 《计算机工程与应用》 *

Similar Documents

Publication Publication Date Title
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
CN103365997B (zh) 一种基于集成学习的观点挖掘方法
CN105912716B (zh) 一种短文本分类方法及装置
CN103455545B (zh) 社交网络用户的位置估计的方法和系统
CN107301171A (zh) 一种基于情感词典学习的文本情感分析方法和系统
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN110245229A (zh) 一种基于数据增强的深度学习主题情感分类方法
CN109241518B (zh) 一种基于情感分析的检测网络水军方法
CN104392006B (zh) 一种事件查询处理方法及装置
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN105975518B (zh) 基于信息熵的期望交叉熵特征选择文本分类系统及方法
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN109492075B (zh) 一种基于循环生成对抗网络的迁移学习排序方法
CN106156372A (zh) 一种互联网网站的分类方法及装置
Tan et al. Topic-weak-correlated latent dirichlet allocation
CN107545038B (zh) 一种文本分类方法与设备
CN105894050A (zh) 一种基于多任务学习的人脸图像种族和性别识别方法
JP5012078B2 (ja) カテゴリ作成方法、カテゴリ作成装置、およびプログラム
CN109598307A (zh) 数据筛选方法、装置、服务器及存储介质
CN105956083A (zh) 应用软件分类系统、应用软件分类方法及服务器
CN110990676A (zh) 一种社交媒体热点主题提取方法与系统
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190716