CN112463640B - 一种基于联合概率域适应的跨项目软件老化缺陷预测方法 - Google Patents
一种基于联合概率域适应的跨项目软件老化缺陷预测方法 Download PDFInfo
- Publication number
- CN112463640B CN112463640B CN202011476590.7A CN202011476590A CN112463640B CN 112463640 B CN112463640 B CN 112463640B CN 202011476590 A CN202011476590 A CN 202011476590A CN 112463640 B CN112463640 B CN 112463640B
- Authority
- CN
- China
- Prior art keywords
- project
- adopting
- data
- cross
- joint probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Stored Programmes (AREA)
Abstract
本发明公开了一种基于联合概率域适应的跨项目软件老化缺陷预测方法,对源项目和目标项目中的数据进行预处理,采用主成分分析法进行降维处理,采用基于聚类的合成少数类样本法缓解类不平衡问题,使用机器学习分类器(逻辑回归等)进行预测。本发明考虑了软件老化缺陷数据集源项目和目标项目间的可迁移性(不同域同一类间的距离)以及可判别性(不同域不同类之间的聚类),并进一步采用主成分分析法进行降维处理,减少特征冗余程度。本发明提高了传统跨项目软件老化缺陷预测方法的精度以及健壮性,有助于开发者在开发测试阶段发现软件老化相关缺陷并移除,一定程度上避免软件老化问题带来的损失。
Description
技术领域
本发明属于软件老化预测技术领域,具体涉及一种基于联合概率域适应的跨项目软件老化缺陷预测方法。
背景技术
长期运行的软件系统会出现逐步的性能下降或者突然失效的现象,这些现象被称为老化现象。老化现象被发现存在于多种系统,如Android、Linux、Windows等。老化现象的发生主要由软件老化相关缺陷(Aging-Related Bugs,ARB)引起,如内存泄漏,未释放的文件锁,存储问题等。老化相关缺陷激活与系统失效之间存在一段较长的延时,当老化相关缺陷被激活后,老化错误状态将在软件系统内部积累,但积累的错误状态不会立刻导致系统失效。这种延时性导致老化问题的检测具有一定的困难。故在开发测试阶段预测并移除软件老化相关缺陷能有效降低软件老化所带来的损失。
老化缺陷占比较少,如Linux老化缺陷数据集中老化缺陷仅占比0.59%。针对训练数据过少这个问题,部分学者提出了跨项目软件老化缺陷预测,利用其它项目的数据训练模型来预测目标项目的老化缺陷。其中,目前提出的主要方法是通过迁移学习来减少不同项目间的数据分布差异,并针对老化项目的严重的类不平衡问题进行处理。然而,传统的方法中仅考虑了缩小不同项目同一类之间的距离(可迁移性),忽略了增大不同项目不同类之间的距离(可判别性),降低了迁移效果。对于类不平衡问题,仅考虑了类间不平衡,未考虑类内不平衡,影响分类效果。
发明内容
为了克服上述背景技术的缺陷,本发明提供一种基于联合概率域适应的跨项目软件老化缺陷预测方法。
为了解决上述技术问题本发明的所采用的技术方案为:
本发明提供了一种基于联合概率域适应的跨项目软件老化缺陷预测方法,包括:
步骤1,对源项目和目标项目数据进行预处理;
步骤2,采用联合概率域适应(JPDA)处理预处理后的源项目和目标项目数据,减小分布差异;
步骤3,采用主成分分析法(PCA)进行降维,保留高维度数据最重要的特征,去除噪声和不重要特征;
步骤4,采用基于聚类的合成少数类样本法(Kmeans-SMOTE)处理严重的类不平衡问题;
步骤5,对步骤4处理后的数据,采用机器学习方法训练预测模型并在目标项目上进行老化缺陷预测。
其中,步骤1中采用z-score数据标准化方法进行数据预处理,每个样本的每个特征减去该项目该特征的均值后除以该项目特征度量的方差。
其中,在采用联合概率域适应(JPDA)处理预处理后的源项目和目标项目数据,减小分布差异的步骤中,减小分布差异的方式包括最小化不同域同类别之间的分布差异,以及最大化不同域不同类别间的差异。
其中,在采用主成分分析法(PCA)进行降维,保留高维度数据最重要的特征,去除噪声和不重要特征的步骤中,采用主成分分析法PCA对数据集进行降维处理,计算数据矩阵的协方差矩阵,得到协方差矩阵的特征值特征向量,选择特征值最大的5个特征所对应的特征向量组成新矩阵。
其中,在采用基于聚类的合成少数类样本法(Kmeans-SMOTE)处理严重的类不平衡问题的步骤中,对步骤3处理后的数据采用k-means方法聚类为k个组,保留具有高比例的少数类样本的簇用于过采样,分配合成的少数类样本,将更多样本分配给少数样本稀疏分布的簇。
其中,在采用机器学习方法训练预测模型并在目标项目上进行老化缺陷预测的步骤中,针对步骤4处理后的数据采用机器学习方法执行跨项目预测任务;其中分类器最佳参数的选择采用十折交叉验证法确定,所采用的机器学习方法为逻辑回归。
本发明的有益效果在于:针对老化缺陷数据量较少的问题,提出了一种基于联合概率域适应的跨项目软件老化缺陷预测方法。它解决了传统的跨项目老化缺陷预测方法中仅考虑了缩小不同域相同类之间距离(可迁移性),而忽略了增大不同域不同类之间距离(可判别性)以及类不平衡中忽略了类内不平衡的问题,具有较强的鲁棒性,综合提升了跨项目老化缺陷的预测精度,能够在一定程度上避免因软件老化而造成的损失。
附图说明
图1为本发明提供的一种基于联合概率域适应的跨项目软件老化缺陷预测方法的流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提供了一种基于联合概率域适应的跨项目软件老化缺陷预测方法,包括:
步骤1,对源项目和目标项目数据进行预处理;
步骤2,采用联合概率域适应(JPDA)处理预处理后的源项目和目标项目数据,减小分布差异;
步骤3,采用主成分分析法(PCA)进行降维,保留高维度数据最重要的特征,去除噪声和不重要特征;
步骤4,采用基于聚类的合成少数类样本法(Kmeans-SMOTE)处理严重的类不平衡问题;
步骤5,对步骤4处理后的数据,采用机器学习方法训练预测模型并在目标项目上进行老化缺陷预测。
其中,步骤1中需对源项目和目标项目中的数据采用z-score数据标准化方法进行数据预处理,每个样本的每个特征减去该项目该特征的均值后除以该项目特征度量的方差。
其中,在采用联合概率域适应(JPDA)处理预处理后的源项目和目标项目数据,减小分布差异的步骤中,减小分布差异的方式包括最小化不同域同类别之间的分布差异,以及最大化不同域不同类别间的差异。具体公式为:其中代表不同域同类别的联合概率分布差异,代表不同域不同类别的联合概率分布差异。我们采用联合概率域适应的目的为最小化此距离,其中具体计算方法由下述实施例给出。
其中,在采用主成分分析法(PCA)进行降维,保留高维度数据最重要的特征,去除噪声和不重要特征的步骤中,采用主成分分析法PCA对数据集进行降维处理,计算数据矩阵的协方差矩阵,得到协方差矩阵的特征值特征向量,选择特征值最大的5个特征所对应的特征向量组成新矩阵。
其中,在采用基于聚类的合成少数类样本法(Kmeans-SMOTE)处理严重的类不平衡问题的步骤中,对步骤3处理后的数据采用k-means方法聚类为k个组,保留具有高比例的少数类样本的簇用于过采样,分配合成的少数类样本,将更多样本分配给少数样本稀疏分布的簇。
其中一个实施例中,步骤4对步骤3处理后的数据采用k-means方法聚类为5个组。然后保留具有高比例的少数类样本的簇用于过采样。最后,分配合成的少数类样本,将更多样本分配给少数样本稀疏分布的簇。
其中,在采用机器学习方法训练预测模型并在目标项目上进行老化缺陷预测的步骤中,针对步骤4处理后的数据采用机器学习方法执行跨项目预测任务;其中分类器最佳参数的选择采用十折交叉验证法确定,所采用的机器学习方法为决策树或随机森林。其中分类器最佳参数的选择采用十折交叉验证法确定。
如图1本发明实施例的跨项目老化缺陷预测流程框图所示,首先对源项目和目标项目进行数据预处理,之后采用联合概率域适应(JPDA)减小两个项目同一类间的距离,增大两个项目不同类间的距离。针对老化特征冗余度较高,采用主成分分析法(PCA)对数据进行降维处理,去掉噪音以及不重要特征。根据老化数据集具有严重的类不平衡的特点采用基于聚类的合成少数类样本法(Kmeans-SMOTE)进行处理。最终使用训练的机器学习分类器对目标项目进行分类,输出预测结果。
下面结合实例对本发明进行详细的描述,本实施例的一种基于联合概率域适应的跨项目软件老化缺陷预测方法的具体步骤包括:
步骤1,对源项目和目标项目的数据进行数据预处理。
数据预处理主要指的是数据的标准化。该方法常用于给定所有的特征以相同的权重,它已经被广泛应用在软件缺陷预测当中。在本步骤中我们采用z-score标准化方法。首先给定源项目有标签的数据集以及目标项目无标签的数据集其中ns和nt分别代表源项目和目标项目的样本数。我们将样本i的每一个特征值xij按照公式(1)进行标准化。
其中meantest(x.j)代表目标项目(测试集)的第j个特征的均值,stdtest(x.j)代表了目标项目(测试集)第j个特征的方差。
步骤2,利用联合概率域适应(JPDA)减小不同域同一类之间的数据分布差异,增大不同域不同类之间的数据分布差异。
本步骤中我们的目标是减小源项目Ds和目标项目Dt之间的距离,距离公式为:
Xs是源项目特征矩阵,Xt是目标项目特征矩阵。Ns,Nt计算公式如下:
其中,Xs是源项目特征矩阵,Xt是目标项目特征矩阵。Ms,Mt计算公式如下:
Fs=[Ys(:,1)*(C-1),…,Ys(:,C)*(C-1)] (9)
我们将公式(3)和公式(6)相结合代入公式(2)中,
s.t.ATXHXTA=I (12)
(X(Rmin-μRmax)XT+λI)A=XHXTA (13)
其中,φ代表拉普拉斯内核。计算得到变换A。Rmin,Rmax的计算方式如下:
步骤3,采用主成分分析法(PCA)进行降维,将高维度的数据保留下最重要的特征,去除噪声和不重要特征。
软件老化缺陷数据集具有高维性,比如常用语老化缺陷预测的Linux数据集和Mysql数据集,包含82维特征,故我们需要对数据进行降维处理,在本步骤中采用主成分分析法(PCA)进行降维处理,以达到有效地消除无关和冗余特征的目的。
步骤4,采用基于聚类的合成少数类样本法(Kmeans-SMOTE)处理类不平衡问题。
软件老化缺陷预测所面临的类不平衡问题十分严重,比如常用于老化缺陷预测的Linux数据集,老化缺陷仅占比0.59%。故我们需要对类不平衡问题进行处理。在本步骤中采用k-means方法将样本聚类为k个组。然后保留具有高比例的少数类样本的簇用于过采样。最后,分配合成的少数类样本,将更多样本分配给少数样本稀疏分布的簇。本方法的目标是缓解类间不平衡以及类内不平衡。
步骤5,采用机器学习方法对目标项目进行预测。
在本步骤中,采用机器学习算法对目标项目进行预测,如朴素贝叶斯(NB),逻辑回归(LR),K-近邻(KNN),决策树(DT),随机森林(RF),支持向量机(SVM)等。分类器参数通过十折交叉验证确定。六种不同的机器学习分类器均取得较佳效果,其中使用SVM作为分类器时取得最佳效果。
以上为简单的基于联合概率域适应的跨项目软件老化缺陷预测方案分析,本发明适用于跨项目老化缺陷预测,并且能够健壮的、精确的检测老化相关缺陷。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (3)
1.一种基于联合概率域适应的跨项目软件老化缺陷预测方法,其特征在于,包括:
步骤1,对源项目和目标项目数据进行预处理;
步骤2,采用联合概率域适应JPDA处理预处理后的源项目和目标项目数据,减小分布差异;
步骤3,采用主成分分析法PCA进行降维,保留高维度数据最重要的特征,去除噪声和不重要特征;
步骤4,采用基于聚类的合成少数类样本法Kmeans-SMOTE处理严重的类不平衡问题;
步骤5,对步骤4处理后的数据,采用机器学习方法训练预测模型并在目标项目上进行老化缺陷预测;
在采用联合概率域适应JPDA处理预处理后的源项目和目标项目数据,减小分布差异的步骤中,减小分布差异的方式包括最小化不同域同类别之间的分布差异,以及最大化不同域不同类别间的差异;
在采用主成分分析法PCA进行降维,保留高维度数据最重要的特征,去除噪声和不重要特征的步骤中,采用主成分分析法PCA对数据集进行降维处理,计算数据矩阵的协方差矩阵,得到协方差矩阵的特征值特征向量,选择特征值最大的5个特征所对应的特征向量组成新矩阵;
在采用基于聚类的合成少数类样本法Kmeans-SMOTE处理严重的类不平衡问题的步骤中,对步骤3处理后的数据采用k-means方法聚类为k个组,保留具有高比例的少数类样本的簇用于过采样,分配合成的少数类样本,将更多样本分配给少数样本稀疏分布的簇。
2.根据权利要求1所述一种基于联合概率域适应的跨项目软件老化缺陷预测方法,其特征在于:所述步骤1中采用z-score数据标准化方法进行数据预处理,每个样本的每个特征减去该项目该特征的均值后除以该项目特征度量的方差。
3.根据权利要求1所述一种基于联合概率域适应的跨项目软件老化缺陷预测方法,其特征在于:在采用机器学习方法训练预测模型并在目标项目上进行老化缺陷预测的步骤中,针对步骤4处理后的数据采用机器学习方法执行跨项目预测任务;其中分类器最佳参数的选择采用十折交叉验证法确定,所采用的机器学习方法为逻辑回归。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011476590.7A CN112463640B (zh) | 2020-12-15 | 2020-12-15 | 一种基于联合概率域适应的跨项目软件老化缺陷预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011476590.7A CN112463640B (zh) | 2020-12-15 | 2020-12-15 | 一种基于联合概率域适应的跨项目软件老化缺陷预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112463640A CN112463640A (zh) | 2021-03-09 |
CN112463640B true CN112463640B (zh) | 2022-06-03 |
Family
ID=74804286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011476590.7A Active CN112463640B (zh) | 2020-12-15 | 2020-12-15 | 一种基于联合概率域适应的跨项目软件老化缺陷预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112463640B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360392A (zh) * | 2021-06-24 | 2021-09-07 | 北京邮电大学 | 一种跨项目软件缺陷预测方法及装置 |
CN114154896B (zh) * | 2021-12-09 | 2022-08-26 | 苏州捷布森智能科技有限公司 | 基于mes的智能工厂产品质量监控方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704926A (zh) * | 2017-11-23 | 2018-02-16 | 清华大学 | 一种大数据跨领域分析的深度迁移学习方法 |
CN108446711A (zh) * | 2018-02-01 | 2018-08-24 | 南京邮电大学 | 一种基于迁移学习的软件缺陷预测方法 |
CN109359704A (zh) * | 2018-12-26 | 2019-02-19 | 北京邮电大学 | 一种基于自适应平衡集成与动态分层决策的多分类方法 |
CN109933539A (zh) * | 2019-04-15 | 2019-06-25 | 燕山大学 | 一种基于主成分分析和组合采样的软件缺陷预测方法 |
CN110825644A (zh) * | 2019-11-11 | 2020-02-21 | 南京邮电大学 | 一种跨项目软件缺陷预测方法及其系统 |
CN111881023A (zh) * | 2020-07-10 | 2020-11-03 | 武汉理工大学 | 一种基于多模型对比的软件老化预测方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6849915B2 (ja) * | 2017-03-31 | 2021-03-31 | 富士通株式会社 | 比較プログラム、比較方法および比較装置 |
US11392846B2 (en) * | 2019-05-24 | 2022-07-19 | Canon U.S.A., Inc. | Local-adapted minority oversampling strategy for highly imbalanced highly noisy dataset |
-
2020
- 2020-12-15 CN CN202011476590.7A patent/CN112463640B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704926A (zh) * | 2017-11-23 | 2018-02-16 | 清华大学 | 一种大数据跨领域分析的深度迁移学习方法 |
CN108446711A (zh) * | 2018-02-01 | 2018-08-24 | 南京邮电大学 | 一种基于迁移学习的软件缺陷预测方法 |
CN109359704A (zh) * | 2018-12-26 | 2019-02-19 | 北京邮电大学 | 一种基于自适应平衡集成与动态分层决策的多分类方法 |
CN109933539A (zh) * | 2019-04-15 | 2019-06-25 | 燕山大学 | 一种基于主成分分析和组合采样的软件缺陷预测方法 |
CN110825644A (zh) * | 2019-11-11 | 2020-02-21 | 南京邮电大学 | 一种跨项目软件缺陷预测方法及其系统 |
CN111881023A (zh) * | 2020-07-10 | 2020-11-03 | 武汉理工大学 | 一种基于多模型对比的软件老化预测方法及装置 |
Non-Patent Citations (2)
Title |
---|
Cross-Project Aging-Related Bug Prediction Based on Joint Distribution Adaptation and Improved Subclass Discriminant Analysis;Bin Xu等;《2020 IEEE 31st International Symposium on Software Reliability Engineering (ISSRE)》;20201111;1-10 * |
基于深度学习的复杂交通环境下目标跟踪与轨迹预测研究;高铭;《中国博士学位论文全文数据库 (工程科技Ⅱ辑)》;20200831;C035-13 * |
Also Published As
Publication number | Publication date |
---|---|
CN112463640A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Discovering new intents with deep aligned clustering | |
Nguyen et al. | Learning pattern classification tasks with imbalanced data sets | |
CN112463640B (zh) | 一种基于联合概率域适应的跨项目软件老化缺陷预测方法 | |
Zweig et al. | Hierarchical regularization cascade for joint learning | |
Trosten et al. | Hubs and hyperspheres: Reducing hubness and improving transductive few-shot learning with hyperspherical embeddings | |
CN112906767A (zh) | 一种基于隐空间学习和流行约束的无监督特征选择方法 | |
CN111881048B (zh) | 一种跨项目软件老化缺陷预测方法 | |
Wang et al. | Fuzzy rough dimensionality reduction: a feature set partition-based approach | |
CN109902731B (zh) | 一种基于支持向量机的性能故障的检测方法及装置 | |
Kassab et al. | Incremental data-driven learning of a novelty detection model for one-class classification with application to high-dimensional noisy data | |
Cheung et al. | Unsupervised feature selection with feature clustering | |
CN114722918A (zh) | 一种基于dna甲基化的肿瘤分类方法 | |
Sapozhnikova | ART-based neural networks for multi-label classification | |
WO2023122432A1 (en) | Feature deprecation architectures for decision-tree based methods | |
Huang et al. | An empirical study on the classification of Chinese news articles by machine learning and deep learning techniques | |
Singhal et al. | Centroid selection in kernel extreme learning machine using K-means | |
WO2023122431A1 (en) | Feature deprecation architectures for neural networks | |
Zhu et al. | Multi-label learning with local similarity of samples | |
CN114443840A (zh) | 一种文本分类方法、装置及设备 | |
Delichère et al. | Neural dimensionality reduction for document processing. | |
Sindhiya et al. | Concept and term based similarity measure for text classification and clustering | |
Donat et al. | Data visualization, data reduction and classifier fusion for intelligent fault detection and diagnosis in gas turbine engines | |
Hua et al. | Bayesian weighted Dynamic Distribution of Samples-based Remote Sensing Feature Selection Method | |
Lee et al. | Ordinal-imbalanced data classification through data reduction by singular value decomposing truncation | |
Sriani et al. | Comparison of the Performance of Random Forest and K-Nearest Neighbor in Classifying Leukemia Using Principal Component Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |