CN114610884A - 一种基于pca组合特征提取和近似支持向量机的分类方法 - Google Patents

一种基于pca组合特征提取和近似支持向量机的分类方法 Download PDF

Info

Publication number
CN114610884A
CN114610884A CN202210222677.4A CN202210222677A CN114610884A CN 114610884 A CN114610884 A CN 114610884A CN 202210222677 A CN202210222677 A CN 202210222677A CN 114610884 A CN114610884 A CN 114610884A
Authority
CN
China
Prior art keywords
matrix
classification
word
text
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210222677.4A
Other languages
English (en)
Inventor
吴桐
熊杰
葛启东
林欢
钱苏敏
江良剑
杨昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unit 63893 Of Pla
Original Assignee
Unit 63893 Of Pla
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unit 63893 Of Pla filed Critical Unit 63893 Of Pla
Priority to CN202210222677.4A priority Critical patent/CN114610884A/zh
Publication of CN114610884A publication Critical patent/CN114610884A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机科学技术领域,公开的一种基于PCA组合特征提取和近似支持向量机的分类方法,是搜集预料信息,从训练集合中提取出词表,从训练集合中提取总词表,建立词语特征文档矩阵A,求协方差矩阵,PCA将特征向量降维,特征词提取,重新对剩下的T个特征词重新求权重,得到的特征项及相应数据送入一种近似支持向量机分类模型进行分类训练与测试,将生成新的文本向量输入到文本分类模块中进行分类,得到最终分类结果。本发明通过近似支持向量机将分类问题归结成仅含线性等式约束的二次规划问题,有效降低了时间复杂度和空间复杂度。能够获得更好的文本分类准确率和更快的执行效率,可以较快速准确的完成文本分类,具有一定的实用意义。

Description

一种基于PCA组合特征提取和近似支持向量机的分类方法
技术领域
本发明涉及计算机科学技术领域,特别是一种基于PCA组合特征提取和近似支持向量机的分类方法。
背景技术
在知识管理中的知识获取、存储和检索及共享等关键处理过程中都需要使用到分词和文本分类技术。中文分词是机器翻译、分类、主题词提取以及信息检索的重要基础。面向知识管理的中文分词主要考察其是否有助于提高知识文本信息检索的准确度。难点主要表现在对新词的识别和歧义的解决,这对行业知识新词的识别尤为重要。传统的字典匹配分词其分词性能受限于词典的完备性,从而无法适应现实日益发展的领域知识管理需求。
分类时,通常用向量空间模型表示文本,即以一组词条作为属性向量构成的特征向量空间,传统的支持向量机算法在时间复杂度和空间复杂度上都有一定瓶颈。文本的原始特征向量空间包含全部的词条属性,具有高维性、稀疏性的特点,但并不是所有属性对分类决策都有贡献,冗余的属性不但对决策的结果无任何贡献,反而会降低决策的执行效率。
目前,文本特征提取主要是在特征文档矩阵的基础上采用某种特征评估函数对每个特征词进行评估,通过设定阈值保留一定数量的特征来完成。现有的特征选择函数主要有文档频率DF、互信息MI和χ2统计CHI等。但这些特征提取方法都是在假设特征项之间是独立的前提下进行的,并且每种方法关注的重点不同。DF强调高频词汇对文本分类的影响,其本体构建的成熟程度,关联度计算式中的参数选取以及阈值的设定都会对本体关联词集合的构建造成影响,进而影响到文本分类的准确率;MI的特征选择倾向于罕见词对文本分类的影响,但对于低维数据的处理却不尽如人意;CHI是假设词条与类别之间符合χ2分布,χ2统计量的值越高,词条和文本类别之间的相关性越强,对文本类别的贡献越大,这些应用前提假设势必会造成部分信息的丢失,影响后面文本分类的结果。
发明内容
为了避免信息的丢失,获得更好的分类准确率和更快的执行效率,本发明的目的在于提出一种基于PCA组合特征提取和近似支持向量机的分类方法。
为实现上述发明目的,本发明采用如下方法,
一种基于PCA组合特征提取和近似支持向量机的分类方法,其步骤如下:
步骤1搜集预料信息,对训练集合进行分类及预料选择处理,包括训练集合、测试集合;
步骤2从训练集合中提取出词表,对训练集合进行类别划分,对正文文本进行分词处理,获取文档的词语串序列,提取出词表;
步骤3从训练集合中取出每个文档,取出其中的词语,形成总词表;
步骤4选取文档特征,建立一个词语特征文档矩阵A;
将语料库分为训练集合和测试集合,当训练集合的文档数为N篇,设为x1,x2,…,xN,选取n个关键词a1,a2,…,an作为文档特征,则建立一个词语特征文档矩阵A:
Figure BDA0003534264730000031
其中:矩阵的一行代表一个文档的特征向量,矩阵的一列代表一个关键词在文档中出现的频率;
步骤5求协方差矩阵RA=ATA的特征向量e1,e2,…,en;即求协方差矩阵RA=ATA(n×n维)的特征值λ1≥λ2≥…≥λn≥0以及相对应的特征向量e1,e2,…,en
选择RA的m个最大特征值对应的正交特征向量e1,e2,…,em,组成最佳转换矩阵WKL=[e1,e2,…,em]T,WKL为m×n维矩阵;
步骤6利用PCA将其特征向量降维,得到最佳转换矩阵WKL;选择PCA转换后的正交空间的维度m(m≤n),式中
Figure BDA0003534264730000032
T为阈值,选择0.85,通过加大阈值T保留更多的原始信息,获得更高的文本分类准确率,需更长的计算时间;
步骤7将n维原始词语文档空间转换为m维正交特征空间,是利用转换矩阵WKL将n维原始词语—文档空间转换为m维正交特征空间,Y=(WAT)T=AWT,Y是n×m维矩阵,矩阵Y维数更低m≤n;取矩阵A的稀疏性,m<<<n,且Y是正交矩阵,能保留较多的特征信息;
步骤8特征词提取,分别使用MI、TF-IDF、CHI、IG方法计算降维后正交矩阵Y中各词的权重;将各方法计算出来的权重词按权重的大小排序成一数组,得到四个数组;
步骤9使用改进的TF-IDF方法重新对剩下的T个特征词重新求权重,以此权重值作为此特征词的最终权重组成的训练样本的词语特征—文档矩阵N×T矩阵;
步骤10以此权重值作为此特征词的最终权重组成的训练样本的词语特征—文档矩阵(N×T矩阵);
步骤11将由上述组合特征提取算法得到的特征项及相应数据送入一种近似支持向量机分类模型进行分类训练与测试;
步骤12将生成新的文本向量输入到文本分类模块中进行分类,得到最终分类结果。
由于采用如上所述的技术方案,本发明具有如下优越性:
本发明一种基于PCA组合特征取值和近似支持向量机的分类方法,通过对文档频率DF、互信息MI和χ2统计CHI算法的研究,利用其各自的优势互补,提出一种基于主成分分析(PCA)的多重组合特征提取算法,并通过近似支持向量机将分类问题归结成仅含线性等式约束的二次规划问题,有效降低了时间复杂度和空间复杂度。本发明能够获得更好的文本分类准确率和更快的执行效率,可以应用于文本管理中的本文分类,可以较快速准确的完成文本分类,具有一定的实用意义。
附图说明
图1是基于PCA组合特征提取和近似支持向量机分类方法的流程图。
具体实施方法
下面结合附图及具体实施对本发明进一步的描述。
如图1所示,一种基于PCA组合特征取值和近似支持向量机的分类方法,是通过对文档频率DF、互信息(MI)和χ2统计CHI算法的综合使用,引入基于主成分分析PCA的多重组合特征提取算法,并通过近似支持向量机将分类问题归结成仅含线性等式约束的二次规划问题,有效降低了时间复杂度和空间复杂度。其步骤如下:
1)收集预料。对训练集合进行分类与预处理;
2)从训练集合中提取出词表;
3)将语料库分为训练集合和测试集合,假设训练集合的文档数为N篇,设为x1,x2,…,xN,选取n个关键词a1,a2,…,an作为文档特征,则可建立一个词语特征文档矩阵A:
Figure BDA0003534264730000051
其中:矩阵的一行代表一个文档的特征向量,矩阵的一列代表一个关键词在文档中出现的频率;
4)求协方差矩阵RA=ATA(n×n维)的特征值λ1≥λ2≥…≥λn≥0以及相对应的特征向量e1,e2,…,en
5)选择PCA转换后的正交空间的维度m(m≤n)。一般来说
Figure BDA0003534264730000052
T为阈值,这里一般选择0.85,可以通过加大阈值T保留更多的原始信息,获得更高的文本分类准确率,但需要更长的计算时间;
6)选择RA的m个最大特征值对应的正交特征向量e1,e2,…,em,组成最佳转换矩阵WKL=[e1,e2,…,em]T,WKL为m×n维矩阵;
7)利用转换矩阵WKL可以将n维原始词语—文档空间转换为m维正交特征空间,Y=(WAT)T=AWT,Y是n×m维矩阵,矩阵Y维数更低(m≤n)。由于矩阵A的稀疏性,一般情况下m<<<n,而且Y是正交矩阵,能保留较多的特征信息。
8)特征词提取。分别使用MI、TF-IDF、CHI方法计算降维后正交矩阵Y中各词的权重;将各方法计算出来的权重词按权重的大小排序成一数组,得到四个数组。
9)使用一种改进的TF-IDF方法重新对剩下的T个特征词重新求权重,以此权重值作为此特征词的最终权重组成的训练样本的词语特征—文档矩阵(N×T矩阵)。
10)将由上述组合特征提取算法得到的特征项及相应数据送入一种近似支持向量机分类模型进行分类训练与测试,为了降低训练时间,并提高训练进度,本方法采用了一种基于降维的近似支持向量机学习模型;
11)将生成的新的文本向量输入到分类模块中进行分类,得到最终分类结果。
如图1所示,该图为基于PCA组合特征提取和近似支持向量机文本分类方法的步骤流程图,具体步骤如下:
步骤1搜集语料信息,其中部分作为训练集合,另一部分作为测试集合;
步骤2从训练集合进行类别划分,对正文文本进行分词处理,获取文档的词语串序列,提取出词表;
步骤3从训练集合中取出每个文档,取出其中的词语,形成总词表;
步骤4选取文档特征,建立一个词语特征文档矩阵A;
步骤5求协方差矩阵RA=ATA的特征向量e1,e2,…,en
步骤6利用PCA将其特征向量降维,得到最佳转换矩阵WKL
步骤7将n维原始词语文档空间转换为m维正交特征空间;
步骤8分别使用MI、TF-IDF、CHI、IG方法计算降维后正交矩阵Y中各词的权重;将各方法计算出来的权重词按权重的大小排序成一数组,得到四个数组;
步骤9使用一种改进的TF-IDF方法重新对剩下的T个特征词重新求权重;
步骤10以此权重值作为此特征词的最终权重组成的训练样本的词语特征—文档矩阵(N×T矩阵);
步骤11将由上述组合特征提取算法得到的特征项及相应数据送入一种近似支持向量机分类模型进行分类训练与测试;
步骤12将生成的新的文本向量输入到分类模块中进行分类,得到最终分类结果。
上述步骤所涉及的各个细节如下:
1、预料选择,指需要足够的语料作为训练集合,将类别进行分类。预料类别的划分将可能合理,各类别预料数据尽可能均衡。
2、特征词提取,特征词权重计算分别使用MI、TF-IDF、CHI方法计算降维后正交矩阵Y中各词的权重;将各方法计算出来的权重词按权重的大小排序成一数组,得到四个数组,其步骤如下:
(1)在各权重数组中取前T+t项(假定取T个特征词),并求出这四个数组中的交集,交集的个数为K。
(2)若K=T,转(c);若K<T,t=t+1转(a);若K>T,t=t-1转(a)。
(3)结束。
3、改进的TF-IDF方法,即TF-IDF方法结合TF和IDF,从词语在一篇文本中的频率和在文本集中的分布状况两个方面来衡量该词语在文本表示中的重要程度。其中TF(termfrequency)是对一个词语局部重要性的度量,用该词语在某一文本中出现的频率表示,频率越大,则该词语对于这篇文本的表示贡献越大;IDF(inverse document frequency)为反文本频率,表示词语t在整个文本集中的分布情况,文本集中含有词语t的文本数量越少,则词语t表示文本时越重要。
改进的TF-IDF方法对TF-IDF公式进行了适当加权处理,在计算特征频率的时候用特征频率再除以文本总的特征词数,即用
Figure BDA0003534264730000081
代替TF,其中L代表文档所包含的词数。
把各个类间的平均偏差平方De加入TF-IDF公式中,如下:
Figure BDA0003534264730000082
其中:tfi(t)代表词条在类中出现的频率;tf(t)代表词条在各个类的平均词频。
将TF-IDF改进为:
Figure BDA0003534264730000083
4、基于降维的近似支持向量机学习模型,近似支持向量机使用一个超平面w·x+b=0来分割正类和负类,其参数w和b是通过求解如下优化问题决定的:
Figure BDA0003534264730000084
其中
Figure BDA0003534264730000085
A3=Em,Em表示m阶单位矩阵,e表示m+n+1维列向量,C为式中权系数。
记A=(A1,A2,A3),x=(wT,bT,ξT)T,那么求参数w和b问题可以转换为对应的线性等式约束的二次规划问题,故可以利用将为的二次规划算法,求解其对应的最优解x。
由于传统的近似支持向量机采用基于K-T条件进行求解,计算复杂度为O(m+n)3,其中m表示训练样本的个数,n表示训练数据集的属性的维数。本文中的新的训练方法计算时间包括:降维处理和n个n变量的方程组求解时间,因此计算复杂度为O(m3+n3)。
空间复杂度相应地由传统近似支持向量机算法所需的O(m+n)3降为O(m2+n2)。因此在m和n近似时,计算复杂度可以降低为原来的1/4左右,空间复杂度减少一半。对于文本分类问题具有高维(通常大于1000维),但是训练样本数又较少的情况,本分类算法则对传统的近似支持向量机有优势。
4、二次规划算法,其二次规划算法步骤如下:
(1)方程Ax=b的增广矩阵利用Gauss列主元进行变换,得到形式为
Figure BDA0003534264730000091
的方程,并记录下
Figure BDA0003534264730000095
所在的列号S={j1,j2,…,jp}和系数矩阵A中其余的列号集S={j1,j2,…,jp}和系数矩阵A中其余的列号集R={i1,i2,…,im};
(2)根据R和S得到
Figure BDA0003534264730000092
(3)
Figure BDA0003534264730000093
最优解为
Figure BDA0003534264730000094

Claims (6)

1.一种基于PCA组合特征提取和近似支持向量机的分类方法,其特征是:其步骤如下:
步骤1搜集预料信息,对训练集合进行分类及预料选择处理,包括训练集合、测试集合;
步骤2从训练集合中提取出词表,对训练集合进行类别划分,对正文文本进行分词处理,获取文档的词语串序列,提取出词表;
步骤3从训练集合中取出每个文档,取出其中的词语,形成总词表;
步骤4选取文档特征,建立一个词语特征文档矩阵A;
将语料库分为训练集合和测试集合,当训练集合的文档数为N篇,设为x1,x2,…,xN,选取n个关键词a1,a2,…,an作为文档特征,则建立一个词语特征文档矩阵A:
Figure FDA0003534264720000011
其中:矩阵的一行代表一个文档的特征向量,矩阵的一列代表一个关键词在文档中出现的频率;
步骤5求协方差矩阵RA=ATA的特征向量e1,e2,…,en;即求协方差矩阵RA=ATA(n×n维)的特征值λ1≥λ2≥…≥λn≥0以及相对应的特征向量e1,e2,…,en
选择RA的m个最大特征值对应的正交特征向量e1,e2,…,em,组成最佳转换矩阵WKL=[e1,e2,…,em]T,WKL为m×n维矩阵;
步骤6利用PCA将其特征向量降维,得到最佳转换矩阵WKL;选择PCA转换后的正交空间的维度m(m≤n),式中
Figure FDA0003534264720000021
T为阈值,选择0.85,通过加大阈值T保留更多的原始信息,获得更高的文本分类准确率,需更长的计算时间;
步骤7将n维原始词语文档空间转换为m维正交特征空间,是利用转换矩阵WKL将n维原始词语—文档空间转换为m维正交特征空间,Y=(WAT)T=AWT,Y是n×m维矩阵,矩阵Y维数更低m≤n;取矩阵A的稀疏性,m<<<n,且Y是正交矩阵,能保留较多的特征信息;
步骤8特征词提取,分别使用MI、TF-IDF、CHI、IG方法计算降维后正交矩阵Y中各词的权重;将各方法计算出来的权重词按权重的大小排序成一数组,得到四个数组;
步骤9使用改进的TF-IDF方法重新对剩下的T个特征词重新求权重,以此权重值作为此特征词的最终权重组成的训练样本的词语特征—文档矩阵N×T矩阵;
步骤10以此权重值作为此特征词的最终权重组成的训练样本的词语特征—文档矩阵(N×T矩阵);
步骤11将由上述组合特征提取算法得到的特征项及相应数据送入一种近似支持向量机分类模型进行分类训练与测试;
步骤12将生成新的文本向量输入到文本分类模块中进行分类,得到最终分类结果。
2.根据权利要求1所述的一种基于PCA组合特征提取和近似支持向量机的分类方法,其特征是:所述预料选择为需要足够的语料作为训练集合,将类别进行分类,使预料类别的划分合理、均衡。
3.根据权利要求1所述的一种基于PCA组合特征提取和近似支持向量机的分类方法,其特征是:所述特征词提取为特征词权重计算,分别使用MI、TF-IDF、CHI方法计算降维后正交矩阵Y中各词的权重;将各方法计算出来的权重词按权重的大小排序成一数组,得到四个数组,其实施步骤如下:
(1)在各权重数组中取前T+t项,取T个特征词,并求出这四个数组中的交集,交集的个数为K;
(2)若K=T,转(c);若K<T,t=t+1转(a);若K>T,t=t-1转(a);
(3)结束。
4.根据权利要求1所述的一种基于PCA组合特征提取和近似支持向量机的分类方法,其特征是:所述改进的TF-IDF方法为TF-IDF方法结合TF和IDF组成的,用于词语在文本中的频率和在文本集中的分布状况两个方面来衡量该词语在文本表示中的重要程度;其中TFtermfrequency是对一个词语局部重要性的度量,用该词语在文本中出现的频率表示,频率越大,则该词语对于文本的表示贡献越大;IDFinverse document frequency为反文本频率,表示词语t在整个文本集中的分布情况,文本集中含有词语t的文本数量越少,则词语t表示文本时越重要;
对TF-IDF公式进行适当加权处理,在计算特征频率的时候用特征频率再除以文本总的特征词数,即用
Figure FDA0003534264720000031
代替TF,其中L代表文档所包含的词数;
把各个类间的平均偏差平方De加入TF-IDF公式中,具体如下:
Figure FDA0003534264720000032
其中:tfi(t)代表词条在类中出现的频率;tf(t)代表词条在各个类的平均词频;
将TF-IDF改进为:
Figure FDA0003534264720000041
5.根据权利要求1所述的一种基于PCA组合特征提取和近似支持向量机的分类方法,其特征是:所述降维的近似支持向量机学习模型,是用一个超平面w·x+b=0来分割正类和负类,其参数w和b是求解如下优化问题决定的:
Figure FDA0003534264720000042
其中
Figure FDA0003534264720000043
A3=Em,Em表示m阶单位矩阵,e表示m+n+1维列向量,C为式中权系数;
记A=(A1,A2,A3),x=(wT,bT,ξT)T,那么求参数w和b问题转换为对应的线性等式约束的二次规划问题,故利用二次规划算法,求解其对应的最优解x;
采用的训练方法计算时间包括:降维处理和n个n变量的方程组求解时间,因此计算复杂度为O(m3+n3);
空间复杂度相应地为O(m2+n2);因此在m和n近似时,计算复杂度为原来的1/4左右,空间复杂度减少一半;对于文本分类问题具有高维:大于1000维,在训练样本数较少的情况,本分类算法对近似支持向量机具有优势。
6.根据权利要求5所述的一种基于PCA组合特征提取和近似支持向量机的分类方法,其特征是:所述的二次规划算法,其二次规划算法步骤如下:
(1)方程Ax=b的增广矩阵利用Gauss列主元进行变换,得到形式为
Figure FDA0003534264720000044
的方程,并记录下
Figure FDA0003534264720000045
所在的列号S={j1,j2,...,jp}和系数矩阵A中其余的列号集S={j1,j2,…,jp}和系数矩阵A中其余的列号集R={i1,i2,…,im};
(2)根据R和S得到
Figure FDA0003534264720000051
(3)
Figure FDA0003534264720000052
最优解为
Figure FDA0003534264720000053
CN202210222677.4A 2022-03-07 2022-03-07 一种基于pca组合特征提取和近似支持向量机的分类方法 Pending CN114610884A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210222677.4A CN114610884A (zh) 2022-03-07 2022-03-07 一种基于pca组合特征提取和近似支持向量机的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210222677.4A CN114610884A (zh) 2022-03-07 2022-03-07 一种基于pca组合特征提取和近似支持向量机的分类方法

Publications (1)

Publication Number Publication Date
CN114610884A true CN114610884A (zh) 2022-06-10

Family

ID=81861367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210222677.4A Pending CN114610884A (zh) 2022-03-07 2022-03-07 一种基于pca组合特征提取和近似支持向量机的分类方法

Country Status (1)

Country Link
CN (1) CN114610884A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858474A (zh) * 2023-02-27 2023-03-28 环球数科集团有限公司 一种基于aigc的文件整理系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858474A (zh) * 2023-02-27 2023-03-28 环球数科集团有限公司 一种基于aigc的文件整理系统

Similar Documents

Publication Publication Date Title
CN109189925B (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN107515895B (zh) 一种基于目标检测的视觉目标检索方法与系统
Su et al. Relevance feedback in content-based image retrieval: Bayesian framework, feature subspaces, and progressive learning
Duin et al. Linear dimensionality reduction via a heteroscedastic extension of LDA: the Chernoff criterion
CN106407406B (zh) 一种文本处理方法和系统
CN112464638B (zh) 一种基于改进谱聚类算法的文本聚类方法
CN112765352A (zh) 基于具有自注意力机制的图卷积神经网络文本分类方法
Lin et al. A supervised multi-view feature selection method based on locally sparse regularization and block computing
Gribonval et al. Sketching data sets for large-scale learning: Keeping only what you need
CN115309872B (zh) 一种基于Kmeans召回的多模型熵加权检索方法及系统
CN115186069A (zh) 一种基于CNN-BiGRU的学术文本摘要自动分类方法
CN114610884A (zh) 一种基于pca组合特征提取和近似支持向量机的分类方法
CN113032573B (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
CN116611025B (zh) 一种脉冲星候选信号的多模态特征融合方法
Wei et al. Study of text classification methods for data sets with huge features
Kiranyaz et al. Multi-dimensional evolutionary feature synthesis for content-based image retrieval
CN115565001A (zh) 基于最大平均差异对抗的主动学习方法
Zhang et al. A method of dimensionality reduction by selection of components in principal component analysis for text classification
Ouyang et al. Learning dissimilarities by ranking: from SDP to QP
CN113688229B (zh) 一种文本推荐方法、系统、存储介质和设备
Molano et al. Feature Selection based on sampling and C4. 5 Algorithm to improve the Quality of Text Classification using Naïve Bayes
Han et al. Analysis of criminal case judgment documents based on deep learning
CN114529975B (zh) 一种应用于人脸识别的自适应快速无监督特征选择方法
Shadgara et al. Ontology alignment using machine learning techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination