CN113780416A - 基于图的特征排序和降维方法 - Google Patents
基于图的特征排序和降维方法 Download PDFInfo
- Publication number
- CN113780416A CN113780416A CN202111063272.2A CN202111063272A CN113780416A CN 113780416 A CN113780416 A CN 113780416A CN 202111063272 A CN202111063272 A CN 202111063272A CN 113780416 A CN113780416 A CN 113780416A
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- graph
- list
- dimension reduction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 230000009467 reduction Effects 0.000 title claims abstract description 33
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 45
- 239000013598 vector Substances 0.000 claims description 27
- 238000012217 deletion Methods 0.000 claims description 19
- 230000037430 deletion Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000007704 transition Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 8
- 108090000623 proteins and genes Proteins 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 4
- 102000004169 proteins and genes Human genes 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000010187 selection method Methods 0.000 claims description 3
- 238000000540 analysis of variance Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract description 4
- 238000011946 reduction process Methods 0.000 abstract description 3
- 230000002349 favourable effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于图的特征排序和降维方法,它属于计算机和生物学交叉领域。本发明解决了现有降维方法的通用性差,降维过程费时的问题。本发明集成了多种特征排序方法,利用这些方法之间存在的互补性,这样更有利于挖掘出数据的潜在信息,有利于去除数据的冗余特征,有利于筛选出更有利于建模的特征。将这些算法的结果以图的形式表示,相对于其他算法而言,本发明方法更具有普适性、通用性。使用户不需要去尝试测试不同的降维方法,大大节省了降维所需要的时间。本发明可以应用于计算机和生物学交叉领域。
Description
技术领域
本发明涉及计算机和生物学交叉领域,具体涉及一种基于图的特征排序和降维方法。
背景技术
随着科学技术的迅速发展,生物的数据在指数级的增长,但是这些数据往往有着噪声高,维度高等问题。如何从大量的数据中探索具有生物学意义的知识和规律,是当今时代人类面临具有重要挑战性的问题之一。同时值得注意的是,人工智能学科也有了很大的进步,越来越多的机器学习领域的方法也被应用到生物信息学领域中。由于经过特征提取后的数据存在诸多问题,降维便成了提取生物数据信息的一门重要技术。
许多降维方法会对特征的数据结构做一定假设。例如经典的降维算法主成分分析,主要通过正交变换的方法,将高维的数据转换为低维的,但是这样可能会改变数据的原有信息。另外一种方式是特征选择,它通常根据某种算法估计特征的重要性大小,进而从原本的数据中选择出分数比较高的特征实现降维。虽然上述方法能够将高维的数据降到低维,但是上述的这些技术存在通用性的问题,例如一个数据集需要用户不断的去尝试测试不同的降维方法,中间还要不断的调整参数,是一个十分费时的过程。
发明内容
本发明的目的是为解决现有降维方法的通用性差,降维过程费时的问题,而提出了一种基于图的特征排序和降维方法。
本发明为解决上述技术问题所采取的技术方案是:
一种基于图的特征排序和降维方法,所述方法具体包括以下步骤:
步骤一、读取待处理的数据文件;
步骤二、选择多种特征排序算法,再分别采用每一种特征排序算法对待处理数据文件进行处理,得到每一种特征排序算法对应的处理结果;
所述步骤二的具体过程为:
对于选择的某种特征排序算法,采用该特征排序算法计算待处理数据文件中每个特征的分数后,再根据分数由大到小对各特征进行排序,得到一个有序的列表,即得到了该特征排序算法对应的处理结果;
同理,分别得到每种特征排序算法对应的处理结果;
步骤三、采用随机删除机制对步骤二获得的各列表中的特征进行删减,获得经过删减的各列表;
步骤四、利用经过删减后的全部列表构成一张有向图,对于有向图中的任意两个特征对应的结点,若这两个特征在任意一个经过删减后的列表中存在相邻关系,则在有向图中,这两个特征对应的结点之间存在边,且边的方向是:由两个特征中分数低的特征对应的结点指向分数高的特征对应的结点;
步骤五、分别计算步骤四构成的有向图中每个特征的重要性分数,并根据重要性分数大小对特征进行重新排序;
步骤六、基于特征重新排序结果确定聚类的簇数;再对待处理数据文件中各特征的初始特征向量进行更新,得到各特征的最终特征向量;
基于确定的聚类簇数,对各特征的最终特征向量进行聚类,保留每类中的首位特征作为降维后的特征。
本发明的有益效果是:
1、本发明方法集成了多种特征排序方法,这些方法之间存在互补性,这样更有利于挖掘出数据的潜在信息,有利于去除数据的冗余特征,有利于筛选出更有利于建模的特征。将这些算法的结果以图的形式表示,相对于其他算法而言,本发明方法更具有普适性、通用性。
2、本发明使用到了多种特征排序算法,不是一种简单的投票策略,而是模拟了互联网中的网页链接关系,提出的删减有向边从而计算特征重要性分数的方法,相比于一些传统的链接分析算法,更适合应用于特征选择的研究中。
3、本发明在降维过程中应用到了聚类算法的策略,相比于不断用分类器测试模型特征组合的方法,更能提升程序的运行速度。由于本发明方法的通用性,用户不再需要去尝试测试不同的降维方法,大大节省了降维所需要的时间。
附图说明
图1是本发明的一种基于图的特征排序和降维方法的流程图;
图2a为实施例中所用CSV样本的数据格式参考图;
图2b为实施例中所用ARFF样本的数据格式参考图;
图2c为实施例中所用LibSVM样本的数据格式参考图;
图3为实施例中不同特征选择算法的分数和有序序列的示意图;
图4为实施例中特征选择算法结果组成有向图的流程图;
图5为实施例中对有向图的边进行删减前后的对比图。
具体实施方式
具体实施方式一、结合图1说明本实施方式。本实施方式所述的一种基于图的特征排序和降维方法,所述方法具体包括以下步骤:
步骤一、读取待处理的数据文件;
步骤二、选择多种特征排序算法,再分别采用每一种特征排序算法对待处理数据文件进行处理,得到每一种特征排序算法对应的处理结果;
所述步骤二的具体过程为:
对于选择的某种特征排序算法,采用该特征排序算法计算待处理数据文件中每个特征的分数后,再根据分数由大到小对各特征进行排序,得到一个有序的列表,即得到了该特征排序算法对应的处理结果;
同理,分别得到每种特征排序算法对应的处理结果;
步骤三、采用随机删除机制对步骤二获得的各列表中的特征进行删减,获得经过删减的各列表;
删减的标准是分数越低的特征被删减的概率越高。例如列表L1,列表中四个特征的分数关系为:a<b<c<d,删减后的列表L1中:a<c<d,其中a,b,c,d为四个特征的分数。
步骤四、利用经过删减后的全部列表构成一张有向图,对于有向图中的任意两个特征对应的结点,若这两个特征在任意一个经过删减后的列表中存在相邻关系,则在有向图中,这两个特征对应的结点之间存在边,且边的方向是:由两个特征中分数低的特征对应的结点指向分数高的特征对应的结点;
参考互联网中不同网页结点之间的链接指向关系,每个列表会有一个排序后的线性结果,将这些结果有序的线性列表根据低分特征指向高分特征的原则拼劲起来组成一张有向图。比如,对于经过删减获得的列表1,其中,特征a、b、c的分数大小关系为:a>b>c,对于经过删减获得的列表2,其中,特征a、b、c的分数大小关系为:a>c>b,则a对应的结点与b对应的结点、b对应的结点与c对应的结点、c对应的结点与a对应的结点之间均存在边,a对应的结点与b对应的结点之间的边是由b对应的结点指向a对应的结点,b对应的结点与c对应的结点之间的边是双向边,c对应的结点与a对应的结点之间的边是由c对应的结点指向a对应的结点。
步骤五、分别计算步骤四构成的有向图中每个特征的重要性分数,并根据重要性分数大小对特征进行重新排序;
步骤六、采用手肘法,并基于特征重新排序结果确定聚类的簇数;再对待处理数据文件中各特征的初始特征向量进行更新,得到各特征的最终特征向量;
基于确定的聚类簇数,采用高斯混合模型对各特征的最终特征向量进行聚类,保留每类中的首位特征(即重要性分数最大的特征)作为降维后的特征。
基于手肘法和高斯混合模型聚类来估计降维后特征的维度。手肘法的原理是随着簇数的增大,簇的聚合程度也会随之提高,使得数据的误差平方和逐渐变小,当误差平方和趋于稳定时即可确定聚类的簇数。高斯混合模型计算复杂度不高,并且具有无偏性。具体的方法是采用上述方法确定分类的最优簇数K,然后使用K对特征进行聚类,对于划分同一类的特征,只保留排在首位的特征删除后面的特征进而达到降维的目的。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一中,读取的待处理数据文件为特征提取后的蛋白质序列数据、基因序列数据或医学图像。
本发明可处理多种类型的数据,这些数据类型包括但不限于特征提取后蛋白质序列,基因序列,甚至图像等。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤一中,读取的待处理数据文件的格式为ARFF、LibSVM或CSV。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述多种特征排序算法包括最大相关最小冗余法、最大相关最大距离法(包括基于欧氏距离、余弦距离和谷本系数三种方式)、套索法、岭回归法、逻辑回归法、互信息法、方差分析法、递归式特征选择法、卡方法、F值法、树的特征重要性法(包括决策树、随机森林、梯度提升树)、最大互信息系数法和均值互信息法。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤三中,采用随机删除机制对步骤二获得的各列表中的特征进行删减,每个特征被删除的概率为:
在某个列表中,第i个特征被删除的概率Pi为:
其中,w2为常数,xi′为对第i个特征的索引进行缩放的结果;
其中,xi,index为第i个特征对应的索引值,maxindex为列表中特征的最大索引值,w1为权重系数;
列表中分数越低的特征被删除的概率越大。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述w2的取值为7/11,所述w1的取值为10。
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述步骤五的具体过程为:
其中,Numtotal为列表中总特征的个数,Numsave为第i个特征在各个列表结果中保留的个数,Numdelete为第i个特征在各个列表结果中删除的个数,xi为中间变量;
其它步骤及参数与具体实施方式一至六之一相同。
具体实施方式八:本实施方式与具体实施方式一至七之一不同的是,所述对待处理数据文件中各特征的初始特征向量进行更新,得到各特征的最终特征向量;其具体过程为:
步骤S1、统计有向图中保留下来的特征的列表save以及在步骤三中被删除过的特征的列表delete;
步骤S2、构建列表save的状态转移矩阵M以及列表delete的状态转移矩阵N;
状态转移矩阵M的对角线上元素全为0,若在有向图中,特征i对应的结点直接到达特征j对应的结点(即特征i对应的结点与特征j对应的结点之间存在边,且特征i对应的结点指向特征j对应的结点),则状态转移矩阵M的第i行第j列的元素mij为:
其中,i≠j,若特征i对应的结点无法到达特征j对应的结点,则mij为0;
状态转移矩阵N的第i'行第j'列的元素ni’j’为:
若在有向图中,特征i'对应的结点直接到达特征j'对应的结点,则
其中,i'≠j',否则,特征i'对应的结点无法直接到达特征j'对应的结点,则ni’j’=0,且状态转移矩阵N的对角线上元素全为0;
步骤S3、计算保留的特征对应的向量Rs:
Rs=aMR0
其中,a为超参数,R0是待处理的数据文件中各特征的初始特征向量组成的矩阵;
步骤S4、计算被删除的特征对应的向量Rd:
Rd=bNR0
其中,b为超参数;
步骤S5、构建随机向量Random_r:
步骤S6、计算新的R0:
R0=Rs+Rd+Random_r
步骤S7、利用新的R0,重复步骤S3至步骤S6的过程,直至R0的值收敛,将最后一次迭代获得的R0作为待处理的数据文件中各特征的最终特征向量组成的矩阵,即分别获得每个特征最终的特征向量。
其它步骤及参数与具体实施方式一至七之一相同。
具体实施方式九:本实施方式与具体实施方式一至八之一不同的是,所述超参数a的取值为0.5,超参数b的取值为0.3。
超参数a和b的取值也可以根据实际情况修改。
其它步骤及参数与具体实施方式一至八之一相同。
实施例
以下结合实施例对本发明的特征和性能作进一步的详细描述。
参照图1,本发明较佳的实施例提供了一种基于图的特征排序和降维方法,包括以下步骤S1-S6:
S1.读取数据文件,数据可从蛋白质,基因,医学图像等多个方向提取;
S2.采用多个特征排序算法计算数据集的中的每个特征分数,并根据大小进行排序,这样每个算法就会对应一个有序的列表;
S3.将上述得到每个列表的特征进行删减,删减的依据是分数越低的特征删减的概率越高;
S4.参考互联网的不同网页,将排序后的结果构成一张有向图,每个列表中,分数低的特征作为一个结点指向相邻的分数更高的特征;
S5.将最后得到的有向图根据各结点的链接指向关系来进一步计算每个特征的分数,并实行特征排序;
S6.在特征排序的基础上,使用聚类算法计算簇数K,该值为降后维的大小,进而删除多余的特征实现降维。
在本实施例中,本方法为了提升程序的通用性,使得程序可处理ARFF,CSV,LibSVM三种格式的数据,要求数据集第一列为类别注释,后面的为提取的特征,另外提供了一定的错误检测机制来提升程序的鲁棒性。图2a至图2c为本发明实施例所用样本的数据格式参考图。
在本实施例中,使用到了多种特征排序算法,这些方法都对应各自的一个结果。不同于普通算法中的投票机制,例如少数服从多数,本方法采用分析图的链接方式实现“投票”。类似的算法互联网中有很多,例如网页排名。这些特征选择方法包括:最大相关最小冗余、最大相关最大距离(基于欧氏距离、余弦距离和谷本系数三种方式)、套索、岭回归、逻辑回归、方差分析、基于贝叶斯递归式特征选择、卡方、F值、树的特征重要性(包括决策树、随机森林、梯度提升树)、互信息、最大互信息系数、均值互信息。具体过程如图3所示。
在本实施例中,由于用到了多种特征排序算法,并且每个方法对应一个结果,可模拟互联网中不同的网页指向关系,这里将特征选择算法中生成的有序列表根据低分特征指向高分特征的原则,组成一张有向图,利用这些特征选择算法结果组成有向图的流程如图4所示。
在本实施例中,由于按照S3中方法形成的有向图有向边过多,不符合真实互联网中的网页关系,故采取随机删除机制删除一些有向边,形成一个较为精简的有向图,如图5所示。
删除的依据是给与低分结点之间的有向边一个更大的删除概率。具体是首先选取一个特征排序算法的一个结果,然后根据有序列表获取索引,并采取缩放处理,对其缩放化:
xindex是当前特征x的当前索引,maxindex为最大索引值,w1为一权重系数,默认为10。
删除特征结点概率P的计算公式为:
P=1-x
x对应上个公式缩放后的值,w2默认值7/11。
在本实施例的步骤S5中,利用最终的有向图计算特征的重要性分数,统计S4中每个特征选择结果中留下来的分数高的特征以及被删除的特征,针对这两种结点分别构建它们的状态转移矩阵,状态转移矩阵的计算方法是首先对角线全为0,如果结点i可以直接到达结点j,则令特征的初始权重分数计算如下:
Numtotal为所有列表中结点的个数,Numsave为每个特征选择算法中被留下来的分数高的特征个数,Numdelete则是被删除的个数。
然后不断重复计算下列公式直至R收敛:
在本实施例的步骤S6中,选用聚类方法估计降维后特征的维度。具体的方法采用高斯混合模型的聚类方法结合手肘法确定分类的最优簇数K,然后使用K对特征进行聚类,对于划分同一类的特征,只保留排在首位的特征进而达到降维的目的。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (9)
1.基于图的特征排序和降维方法,其特征在于,所述方法具体包括以下步骤:
步骤一、读取待处理的数据文件;
步骤二、选择多种特征排序算法,再分别采用每一种特征排序算法对待处理数据文件进行处理,得到每一种特征排序算法对应的处理结果;
所述步骤二的具体过程为:
对于选择的某种特征排序算法,采用该特征排序算法计算待处理数据文件中每个特征的分数后,再根据分数由大到小对各特征进行排序,得到一个有序的列表,即得到了该特征排序算法对应的处理结果;
同理,分别得到每种特征排序算法对应的处理结果;
步骤三、采用随机删除机制对步骤二获得的各列表中的特征进行删减,获得经过删减的各列表;
步骤四、利用经过删减后的全部列表构成一张有向图,对于有向图中的任意两个特征对应的结点,若这两个特征在任意一个经过删减后的列表中存在相邻关系,则在有向图中,这两个特征对应的结点之间存在边,且边的方向是:由两个特征中分数低的特征对应的结点指向分数高的特征对应的结点;
步骤五、分别计算步骤四构成的有向图中每个特征的重要性分数,并根据重要性分数大小对特征进行重新排序;
步骤六、基于特征重新排序结果确定聚类的簇数;再对待处理数据文件中各特征的初始特征向量进行更新,得到各特征的最终特征向量;
基于确定的聚类簇数,对各特征的最终特征向量进行聚类,保留每类中的首位特征作为降维后的特征。
2.根据权利要求1所述的基于图的特征排序和降维方法,其特征在于,所述步骤一中,读取的待处理数据文件为特征提取后的蛋白质序列数据、基因序列数据或医学图像。
3.根据权利要求2所述的基于图的特征排序和降维方法,其特征在于,所述步骤一中,读取的待处理数据文件的格式为ARFF、LibSVM或CSV。
4.根据权利要求1所述的基于图的特征排序和降维方法,其特征在于,所述多种特征排序算法包括最大相关最小冗余法、最大相关最大距离法、套索法、岭回归法、逻辑回归法、互信息法、方差分析法、递归式特征选择法、卡方法、F值法、树的特征重要性法、最大互信息系数法和均值互信息法。
6.根据权利要求5所述的基于图的特征排序和降维方法,其特征在于,所述w2的取值为7/11,所述w1的取值为10。
8.根据权利要求7所述的基于图的特征排序和降维方法,其特征在于,所述对待处理数据文件中各特征的初始特征向量进行更新,得到各特征的最终特征向量;其具体过程为:
步骤S1、统计有向图中保留下来的特征的列表save以及在步骤三中被删除过的特征的列表delete;
步骤S2、构建列表save的状态转移矩阵M以及列表delete的状态转移矩阵N;
状态转移矩阵M的对角线上元素全为0,若在有向图中,特征i对应的结点直接到达特征j对应的结点,则状态转移矩阵M的第i行第j列的元素mij为:
其中,i≠j,若特征i对应的结点无法到达特征j对应的结点,则mij为0;
状态转移矩阵N的第i′行第j′列的元素ni’j’为:
若在有向图中,特征i′对应的结点直接到达特征j′对应的结点,则
其中,i′≠j′,否则,特征i′对应的结点无法直接到达特征j′对应的结点,则ni’j’=0,且状态转移矩阵N的对角线上元素全为0;
步骤S3、计算保留的特征对应的向量Rs:
Rs=aMR0
其中,a为超参数,R0是待处理的数据文件中各特征的初始特征向量组成的矩阵;
步骤S4、计算被删除的特征对应的向量Rd:
Rd=bNR0
其中,b为超参数;
步骤S5、构建随机向量Random_r:
步骤S6、计算新的R0:
R0=Rs+Rd+Random_r
步骤S7、利用新的R0,重复步骤S3至步骤S6的过程,直至R0的值收敛,将最后一次迭代获得的R0作为待处理的数据文件中各特征的最终特征向量组成的矩阵,即分别获得每个特征最终的特征向量。
9.根据权利要求8所述的基于图的特征排序和降维方法,其特征在于,所述超参数a的取值为0.5,超参数b的取值为0.3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111063272.2A CN113780416B (zh) | 2021-09-10 | 2021-09-10 | 基于图的特征排序和降维方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111063272.2A CN113780416B (zh) | 2021-09-10 | 2021-09-10 | 基于图的特征排序和降维方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113780416A true CN113780416A (zh) | 2021-12-10 |
CN113780416B CN113780416B (zh) | 2024-04-02 |
Family
ID=78842597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111063272.2A Active CN113780416B (zh) | 2021-09-10 | 2021-09-10 | 基于图的特征排序和降维方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113780416B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110246409A1 (en) * | 2010-04-05 | 2011-10-06 | Indian Statistical Institute | Data set dimensionality reduction processes and machines |
CN110135494A (zh) * | 2019-05-10 | 2019-08-16 | 南京工业大学 | 基于最大信息系数和基尼指标的特征选择方法 |
CN110618987A (zh) * | 2019-09-18 | 2019-12-27 | 宁夏大学 | 基于肺癌医学大数据的治疗通路关键结点信息处理方法 |
CN112818661A (zh) * | 2021-01-28 | 2021-05-18 | 中国科学院科技战略咨询研究院 | 一种专利技术关键词非监督提取方法 |
CN112818779A (zh) * | 2021-01-21 | 2021-05-18 | 南京邮电大学 | 一种基于特征优选与多种特征融合的人体行为识别方法 |
-
2021
- 2021-09-10 CN CN202111063272.2A patent/CN113780416B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110246409A1 (en) * | 2010-04-05 | 2011-10-06 | Indian Statistical Institute | Data set dimensionality reduction processes and machines |
CN110135494A (zh) * | 2019-05-10 | 2019-08-16 | 南京工业大学 | 基于最大信息系数和基尼指标的特征选择方法 |
CN110618987A (zh) * | 2019-09-18 | 2019-12-27 | 宁夏大学 | 基于肺癌医学大数据的治疗通路关键结点信息处理方法 |
CN112818779A (zh) * | 2021-01-21 | 2021-05-18 | 南京邮电大学 | 一种基于特征优选与多种特征融合的人体行为识别方法 |
CN112818661A (zh) * | 2021-01-28 | 2021-05-18 | 中国科学院科技战略咨询研究院 | 一种专利技术关键词非监督提取方法 |
Non-Patent Citations (1)
Title |
---|
岳琴;魏巍;冯凯;崔军彪;: "自适应稀疏表示引导的无监督降维", 深圳大学学报(理工版), no. 04 * |
Also Published As
Publication number | Publication date |
---|---|
CN113780416B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929029A (zh) | 一种基于图卷积神经网络的文本分类方法及系统 | |
CN111898689B (zh) | 一种基于神经网络架构搜索的图像分类方法 | |
CN108132927A (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN112232413A (zh) | 基于图神经网络与谱聚类的高维数据特征选择方法 | |
CN113822419B (zh) | 一种基于结构信息的自监督图表示学习运行方法 | |
CN115512772A (zh) | 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统 | |
Song et al. | Latent semantic analysis for vector space expansion and fuzzy logic-based genetic clustering | |
CN117009613A (zh) | 一种图数据分类方法、系统、装置及介质 | |
CN111832645A (zh) | 基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法 | |
CN113780416B (zh) | 基于图的特征排序和降维方法 | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
CN115907775A (zh) | 基于深度学习的个人征信评级方法及其应用 | |
CN114970684A (zh) | 一种结合vae的提取网络核心结构的社区检测方法 | |
CN108304546B (zh) | 一种基于内容相似度和Softmax分类器的医学图像检索方法 | |
CN114171206A (zh) | 模型训练、传感病预测方法、装置、设备及存储介质 | |
CN112765367A (zh) | 一种主题知识图谱构建方法及装置 | |
CN111310857A (zh) | 特征提取方法、电子装置及医疗案例相似度模型构建方法 | |
CN117727373B (zh) | 基于样本和特征双加权的特征约简中智c-均值聚类方法 | |
CN113221544B (zh) | 基于改进ga的深度神经网络对抗性文本生成方法及系统 | |
CN116663648B (zh) | 模型训练方法、装置、设备及存储介质 | |
Shi et al. | Factors Affecting Accuracy of Genotype Imputation Using Neural Networks in Deep Learning | |
CN106991283B (zh) | 一种基于分形技术的病案库构建方法 | |
CN116229177A (zh) | 结合加权knn和自适应elm的自训练半监督图像分类方法 | |
Xing et al. | A novel hybrid clustering algorithm incorporating K-means into canonical immune programming algorithm | |
CN116206691A (zh) | 基于图卷积网络和自注意力机制的dna存储编码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |