CN111352966A - 一种自主航行中的数据标签标定方法 - Google Patents

一种自主航行中的数据标签标定方法 Download PDF

Info

Publication number
CN111352966A
CN111352966A CN202010111394.3A CN202010111394A CN111352966A CN 111352966 A CN111352966 A CN 111352966A CN 202010111394 A CN202010111394 A CN 202010111394A CN 111352966 A CN111352966 A CN 111352966A
Authority
CN
China
Prior art keywords
data
values
value
filling
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010111394.3A
Other languages
English (en)
Inventor
史世武
周昱城
耿雄飞
李东升
张宝晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Waterborne Transport Research Institute
Original Assignee
China Waterborne Transport Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Waterborne Transport Research Institute filed Critical China Waterborne Transport Research Institute
Priority to CN202010111394.3A priority Critical patent/CN111352966A/zh
Publication of CN111352966A publication Critical patent/CN111352966A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种自主航行中的数据标签标定方法,所述方法包括:对于遗漏标签的数据元组,根据数据元组取值的分布情况计算填充值,从而实现数据补齐;对补齐后的数据元组的数据标签,基于集成分类器的过滤方法进行噪声过滤。本发明的方法响应时间小于100ms的标签标定,支持标签滤噪,支持遗漏标签的自动标定。

Description

一种自主航行中的数据标签标定方法
技术领域
本发明涉及数据挖掘领域,具体涉及一种自主航行中的数据标签标定方法。
背景技术
现实系统中的数据由于信息的不充分、编码传递过程中的误差以及标签标定过程中的主观性等因素,使得数据中包含一定比例的噪声。根据噪声在数据中产生的位置,可以将噪声分为属性值噪声与标签噪声。前者是指观测误差仅仅发生在数据的属性值中,后者是指观测误差仅仅发生在数据的标签中。标签噪声给建模带来的影响往往大于属性值噪声。标签噪声可能会增加模型复杂度,降低数据集的利用率,降低分类精度等。
对数据挖掘来说,遗漏标签的存在,造成了以下影响:首先,系统丢失了大量的有用信息;第二,系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;第三,包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。
发明内容
本发明的目的在于克服上述技术缺陷,提出了一种自主航行中的数据标签标定方法,对每一条记录进行标签标定,进行滤噪处理,并对遗漏标签进行自动标定。
为实现上述目的,本发明提供了一种自主航行中的数据标签标定方法,所述方法包括:
对于遗漏标签的数据元组,根据数据元组取值的分布情况计算填充值,从而实现数据补齐;
对补齐后的数据元组的数据标签,基于集成分类器的过滤方法进行噪声过滤。
作为上述方法的一种改进,当采用平均值填充法,所述根据数据元组取值的分布情况计算填充值,具体包括:
如果空值是数值型的,根据该属性在其他所有对象的取值的平均值作为填充值;
如果空值是非数值型的,用该属性在其他所有对象的取值次数最多的值作为填充值。
作为上述方法的一种改进,当采用热卡填充法,所述根据数据元组取值的分布情况计算填充值,具体包括:
在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值作为填充值。
作为上述方法的一种改进,当采用K最近距离邻法,所述根据数据元组取值的分布情况计算填充值,具体包括:
根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本值,将这K个样本值加权平均作为填充值。
作为上述方法的一种改进,当采用组合完整化方法,所述根据数据元组取值的分布情况计算填充值,具体包括:
使用空缺属性值的所有可能的属性取值进行试验,并从最终属性的约简结果中选择最好的一个作为填补的属性值,即填充值。
作为上述方法的一种改进,当采用期望值最大化方法,所述根据数据元组取值的分布情况计算填充值,具体包括:
在计算极大似然估计的每一迭代循环过程中交替执行两个步骤:
E步:在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望;
M步:用极大化对数似然函数以确定参数的值,并用于下步的迭代;
在E步和M步之间不断迭代直至收敛,即两次迭代之间的参数变化小于一个预先给定的阈值时结束;
将极大似然估计作为填充值。
作为上述方法的一种改进,当采用多重填补法,所述根据数据元组取值的分布情况计算填充值,具体包括:
每个空值产生一套可能的填补值,这些值反映了无响应模型的不确定性;每个值都被用来填补数据集中的缺失值,产生若干个完整数据集合;
每个填补数据集合都用针对完整数据集的统计方法进行统计分析;
对来自各个填补数据集的结果进行综合,产生最终的统计推断,作为填充值。
作为上述方法的一种改进,所述基于集成分类器的过滤方法,具体包括:
通过集成同质或者异质分类器对数据集中的每一个样本进行基于模型的预测;
根据移除准则将数据集中的噪声数据移除。
作为上述方法的一种改进,所述移除准则包括:多数投票准则与一致性投票准则;所述多数投票准则是指一个样本被大多数分类器分错则该样本就是一个噪声数据;所述一致性投票准则是指所有的分类器都将样本错分才将该样本判定为噪声数据
本发明的优势在于:
本发明的方法响应时间小于100ms的标签标定,支持标签滤噪,支持遗漏标签的自动标定。
具体实施方式
下面对本发明的技术方案进行详细的说明。
本发明提出了一种自主航行中的数据标签标定方法,该方法包括:
步骤2)对于遗漏标签的数据元组,根据数据元组取值的分布情况计算填充值,从而实现数据补齐;
1)删除元组。也就是将存在遗漏标签值的对象(元组,记录)删除,从而得到一个完备的信息表。这种方法简单易行,在对象有多个属性缺失值、被删除的含缺失值的对象与信息表中的数据量相比非常小的情况下是非常有效的,类标号(假设是分类任务)缺少时通常使用。然而,这种方法往往存在局限性。它是以减少历史数据来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。在信息表中本来包含的对象很少的情况下,删除少量对象就足以严重影响到信息表信息的客观性和结果的正确性;当每个属性空值的百分比变化很大时,它的性能非常差。因此,当遗漏数据所占比例较大,特别当遗漏数据非随机分布时,这种方法可能导致数据发生偏离,从而引出错误的结论。
2)数据补齐。这类方法是用一定的值去填充空值,从而使信息表完备化。通常基于统计学原理,根据决策表中其余对象取值的分布情况来对一个空值进行填充,譬如用其余属性的平均值来进行补充等。常用的有以下几种补齐方法:
(1)特殊值填充(Treating Missing Attribute Values as Special values)将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值,如所有的空值都用“unknown”填充。这样操作简单高效,可能导致严重的数据偏离。
(2)平均值填充(Mean/Mode Completer)将信息表中的属性分为数值属性和非数值属性来分别进行处理。如果空值是数值型的,就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值;如果空值是非数值型的,就根据统计学中的众数原理,用该属性在其他所有对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。另外有一种与其相似的方法为条件平均值填充法(Conditional Mean Completer)。在该方法中,缺失属性值的补齐同样是靠该属性在其他对象中的取值求平均得到,但不同的是用于求平均的值并不是从信息表所有对象中取,而是从与该对象具有相同决策属性值的对象中取得。这两种数据的补齐方法,其基本的出发点都是一样的,以最大概率可能的取值来补充缺失的属性值,只是在具体方法上有一点不同。与其他方法相比,它是用现存数据的多数信息来推测缺失值。
(3)热卡填充(Hot Deck Imputation)对于一个包含空值的对象,热卡填充法在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。该方法概念上很简单,且利用了数据间的关系来进行空值估计。这个方法的缺点在于难以定义相似标准,主观因素较多。
(4)K最近距离邻法(K-Means Clustering)先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。
(5)使用所有可能的值填充(Assigning All Possible values of theAttribute)用空缺属性值的所有可能的属性取值来填充,能够得到较好的补齐效果。但是,当数据量很大或者遗漏的属性值较多时,其计算的代价很大,可能的测试方案很多。另有一种方法,填补遗漏属性值的原则是一样的,不同的只是从决策相同的对象中尝试所有的属性值的可能情况,而不是根据信息表中所有对象进行尝试,这样能够在一定程度上减小原方法的代价。
(6)组合完整化方法(Combinatorial Completer)用空缺属性值的所有可能的属性取值来试,并从最终属性的约简结果中选择最好的一个作为填补的属性值。这是以约简为目的的数据补齐方法,能够得到好的约简结果;但是,当数据量很大或者遗漏的属性值较多时,其计算的代价很大。另一种称为条件组合完整化方法(Conditional CombinatorialComplete),填补遗漏属性值的原则是一样的,不同的只是从决策相同的对象中尝试所有的属性值的可能情况,而不是根据信息表中所有对象进行尝试。条件组合完整化方法能够在一定程度上减小组合完整化方法的代价。在信息表包含不完整数据较多的情况下,可能的测试方案将巨增。
(7)回归(Regression)基于完整的数据集,建立回归方程(模型)。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。当变量不是线性相关或预测变量高度相关时会导致有偏差的估计。
(8)期望值最大化方法(Expectation Maximization)在不完全数据情况下计算极大似然估计或者后验分布的迭代算法。在每一迭代循环过程中交替执行两个步骤:E步(Expectation Step,期望步),在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望;M步(Maximization Step,极大化步),用极大化对数似然函数以确定参数的值,并用于下步的迭代。算法在E步和M步之间不断迭代直至收敛,即两次迭代之间的参数变化小于一个预先给定的阈值时结束。该方法可能会陷入局部极值,收敛速度也不是很快,并且计算很复杂。
(9)多重填补(Multiple Imputation)多重填补方法分为三个步骤:
①为每个空值产生一套可能的填补值,这些值反映了无响应模型的不确定性;每个值都被用来填补数据集中的缺失值,产生若干个完整数据集合。
②每个填补数据集合都用针对完整数据集的统计方法进行统计分析。
③对来自各个填补数据集的结果进行综合,产生最终的统计推断,这一推断考虑到了由于数据填补而产生的不确定性。该方法将空缺值视为随机样本,这样计算出来的统计推断可能受到空缺值的不确定性的影响。
步骤2)对数据标签进行噪声过滤;
噪声鲁棒性建模和基于模型预测的噪声数据过滤方法是处理标签噪声的主要方法。前者主要通过鲁棒性损失、重要性加权、集成方法以及决策树的划分准则等方式来构建鲁棒性模型。许多基于鲁棒性建模的方法在监督学习中对于标签噪声并不是完全鲁棒,其模型的表现性能依然受标签噪声的影响。因此,基于模型预测的噪声数据过滤方法更为常用,它主要通过模型预测的方法对噪声数据进行检测并移除,以达到降低噪声数据对建模影响的目的。基于模型预测的过滤噪声方法主要以单分类器或集成分类器作为具体实现措施。在单分类器的过滤方法中,由于KNN(K-Nearest Neighbor)分类器对于标签噪声比较敏感,尤其在近邻个数取值较小时,因此存在基于KNN的噪声数据的ENN(Edited NearestNeighbor)、ANN(All K-Nearest Neighbor)、CNN(Condensed Nearest Neighbor)等。由于基于近邻规则的过滤方法效率较低而且数据分布对其影响较大,相比之下,集成分类器的应用比较广泛。
基于集成分类器的过滤方法主要是通过集成同质或者异质分类器对数据集中的每一个样本进行基于模型的预测,然后根据移除准则将数据集中的噪声数据移除。常用的移除准则有两种:多数投票准则与一致性投票准则,前者是指一个样本被大多数分类器分错则该样本就是一个噪声数据,后者则需要所有的分类器都将样本错分才将该样本判定为噪声数据。ND-KNN(Noise Detection KNN)是使用同质分类器的集成过滤方法的典型代表,该方法主要利用AdaBoost对噪声的敏感性优势来构建基于不同评价标准的标签噪声过滤方法。因为噪声数据会增加模型的复杂度,所以也出现了一种基于降低模型复杂度的标签噪声过滤方法,如Prune-SF(Prune Saturation Filter)算法是通过决策树节点个数来衡量模型的复杂度,如果移除某一样本点能够降低模型的复杂度,则该样本点就是一个疑似噪声点。此外,还有一些基于主动学习思想以及其类似思想的方法如ALNR(Active LabelNoise Remove)和INNFC(Iterative Noise Filter-based on Fusion of Classifier),这两种方法主要通过多重过滤机制对标签噪声进行辨别,以此来提高噪声过滤的效果。近期,一些基于噪声数据采样方式的噪声过滤方法被提出,例如PSAM(Probabilistic Sampling)和TWE(Two-stage Ensemble Method for Detection of Class Noise)前者采用概率性采样的方法来增加预测模型的鲁棒性,而后者则采用重采样与集成学习弹性投票的方式来提高模型对于标签噪声的预测效率。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种自主航行中的数据标签标定方法,所述方法包括:
对于遗漏标签的数据元组,根据数据元组取值的分布情况计算填充值,从而实现数据补齐;
对补齐后的数据元组的数据标签,基于集成分类器的过滤方法进行噪声过滤。
2.根据权利要求1所述的自主航行中的数据标签标定方法,其特征在于,当采用平均值填充法,所述根据数据元组取值的分布情况计算填充值,具体包括:
如果空值是数值型的,根据该属性在其他所有对象的取值的平均值作为填充值;
如果空值是非数值型的,用该属性在其他所有对象的取值次数最多的值作为填充值。
3.根据权利要求1所述的自主航行中的数据标签标定方法,其特征在于,当采用热卡填充法,所述根据数据元组取值的分布情况计算填充值,具体包括:
在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值作为填充值。
4.根据权利要求1所述的自主航行中的数据标签标定方法,其特征在于,当采用K最近距离邻法,所述根据数据元组取值的分布情况计算填充值,具体包括:
根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本值,将这K个样本值加权平均作为填充值。
5.根据权利要求1所述的自主航行中的数据标签标定方法,其特征在于,当采用组合完整化方法,所述根据数据元组取值的分布情况计算填充值,具体包括:
使用空缺属性值的所有可能的属性取值进行试验,并从最终属性的约简结果中选择最好的一个作为填补的属性值,即填充值。
6.根据权利要求1所述的自主航行中的数据标签标定方法,其特征在于,当采用期望值最大化方法,所述根据数据元组取值的分布情况计算填充值,具体包括:
在计算极大似然估计的每一迭代循环过程中交替执行两个步骤:
E步:在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望;
M步:用极大化对数似然函数以确定参数的值,并用于下步的迭代;
在E步和M步之间不断迭代直至收敛,即两次迭代之间的参数变化小于一个预先给定的阈值时结束;
将极大似然估计作为填充值。
7.根据权利要求1所述的自主航行中的数据标签标定方法,其特征在于,当采用多重填补法,所述根据数据元组取值的分布情况计算填充值,具体包括:
每个空值产生一套可能的填补值,这些值反映了无响应模型的不确定性;每个值都被用来填补数据集中的缺失值,产生若干个完整数据集合;
每个填补数据集合都用针对完整数据集的统计方法进行统计分析;
对来自各个填补数据集的结果进行综合,产生最终的统计推断,作为填充值。
8.根据权利要求1-7之一所述的自主航行中的数据标签标定方法,其特征在于,所述基于集成分类器的过滤方法,具体包括:
通过集成同质或者异质分类器对数据集中的每一个样本进行基于模型的预测;
根据移除准则将数据集中的噪声数据移除。
9.根据权利要求8所述的自主航行中的数据标签标定方法,其特征在于,所述移除准则包括:多数投票准则与一致性投票准则;所述多数投票准则是指一个样本被大多数分类器分错则该样本就是一个噪声数据;所述一致性投票准则是指所有的分类器都将样本错分才将该样本判定为噪声数据。
CN202010111394.3A 2020-02-24 2020-02-24 一种自主航行中的数据标签标定方法 Pending CN111352966A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010111394.3A CN111352966A (zh) 2020-02-24 2020-02-24 一种自主航行中的数据标签标定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010111394.3A CN111352966A (zh) 2020-02-24 2020-02-24 一种自主航行中的数据标签标定方法

Publications (1)

Publication Number Publication Date
CN111352966A true CN111352966A (zh) 2020-06-30

Family

ID=71197098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010111394.3A Pending CN111352966A (zh) 2020-02-24 2020-02-24 一种自主航行中的数据标签标定方法

Country Status (1)

Country Link
CN (1) CN111352966A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269841A (zh) * 2020-09-24 2021-01-26 华控清交信息科技(北京)有限公司 一种数据生成方法、装置和用于数据生成的装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046236A (zh) * 2015-08-11 2015-11-11 南京航空航天大学 一种基于多次投票的迭代式标签噪声识别算法
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统
CN107193876A (zh) * 2017-04-21 2017-09-22 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
KR20180002229A (ko) * 2016-06-29 2018-01-08 원시스템주식회사 치매 정보 데이터베이스 구축을 위한 에이전트 장치 및 그 운영방법
CN108062363A (zh) * 2017-12-05 2018-05-22 南京邮电大学 一种面向有源配电网的数据过滤方法及系统
CN108717552A (zh) * 2018-05-17 2018-10-30 南京大学 基于新标签发现和标签增量学习的动态多标签分类方法
CN110083637A (zh) * 2019-04-23 2019-08-02 华东理工大学 一种面向桥梁病害评级数据的去噪方法
US20190259041A1 (en) * 2018-02-20 2019-08-22 James R Jackson Systems and methods for generating a relationship among a plurality of datasets to generate a desired attribute value
CN110390425A (zh) * 2019-06-20 2019-10-29 阿里巴巴集团控股有限公司 预测方法以及装置
CN110659274A (zh) * 2019-09-23 2020-01-07 东华大学 类脑分层记忆机制启发的异常数据流在线校准系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046236A (zh) * 2015-08-11 2015-11-11 南京航空航天大学 一种基于多次投票的迭代式标签噪声识别算法
KR20180002229A (ko) * 2016-06-29 2018-01-08 원시스템주식회사 치매 정보 데이터베이스 구축을 위한 에이전트 장치 및 그 운영방법
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统
CN107193876A (zh) * 2017-04-21 2017-09-22 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
CN108062363A (zh) * 2017-12-05 2018-05-22 南京邮电大学 一种面向有源配电网的数据过滤方法及系统
US20190259041A1 (en) * 2018-02-20 2019-08-22 James R Jackson Systems and methods for generating a relationship among a plurality of datasets to generate a desired attribute value
CN108717552A (zh) * 2018-05-17 2018-10-30 南京大学 基于新标签发现和标签增量学习的动态多标签分类方法
CN110083637A (zh) * 2019-04-23 2019-08-02 华东理工大学 一种面向桥梁病害评级数据的去噪方法
CN110390425A (zh) * 2019-06-20 2019-10-29 阿里巴巴集团控股有限公司 预测方法以及装置
CN110659274A (zh) * 2019-09-23 2020-01-07 东华大学 类脑分层记忆机制启发的异常数据流在线校准系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TOUSEEF AHMAD QURESHI; MAGED HABIB; ANDREW HUNTER; BASHIR AL-DIRI: "A manually-labeled, artery/vein classified benchmark for the DRIVE dataset", PROCEEDINGS OF THE 26TH IEEE INTERNATIONAL SYMPOSIUM ON COMPUTER-BASED MEDICAL SYSTEMS, pages 10 *
吴相发; 齐林海; 王红: "基于聚类与协同过滤的居民用电推荐模型研究", 电力信息与通信技术 *
李雅琴: "融合标签和时间信息的协同过滤推荐", 中国优秀硕士论文电子期刊 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269841A (zh) * 2020-09-24 2021-01-26 华控清交信息科技(北京)有限公司 一种数据生成方法、装置和用于数据生成的装置

Similar Documents

Publication Publication Date Title
US20060074828A1 (en) Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers
WO2021143175A1 (zh) 测试用例筛选方法、装置及介质
US7373332B2 (en) Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers
CN110335168B (zh) 基于gru优化用电信息采集终端故障预测模型的方法及系统
CN111796957B (zh) 基于应用日志的交易异常根因分析方法及系统
Padilla et al. Optimal nonparametric change point detection and localization
US20220245405A1 (en) Deterioration suppression program, deterioration suppression method, and non-transitory computer-readable storage medium
CN114760098A (zh) 一种基于cnn-gru的电网虚假数据注入检测方法及装置
WO2021079442A1 (ja) 推定プログラム、推定方法、情報処理装置、再学習プログラムおよび再学習方法
CN113971425A (zh) 一种异常分析方法、装置及存储介质
CN111046977A (zh) 基于em算法和knn算法的数据预处理方法
CN113626812A (zh) 基于结构特征筛选及负载扩展的机器学习木马检测方法
CN116668083A (zh) 一种网络流量异常检测方法及系统
CN111352966A (zh) 一种自主航行中的数据标签标定方法
CN113554128B (zh) 一种非常规异常检测方法、系统及存储介质
Ngufor et al. Unsupervised labeling of data for supervised learning and its application to medical claims prediction
KR20210065751A (ko) 결측값 대체 시스템 및 결측값 대체 방법
CN112882898A (zh) 基于大数据日志分析的异常检测方法、系统、设备及介质
US20060074827A1 (en) Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers
Kwok et al. Dataset Difficulty and the Role of Inductive Bias
CN111798237B (zh) 基于应用日志的异常交易诊断方法及系统
CN114186644A (zh) 一种基于优化随机森林的缺陷报告严重程度预测方法
KR102182678B1 (ko) 반도체 제조 공정에서 특징 선택 기법에 따른 멀티 분류기를 활용한 불량 패턴 예측 장치 및 방법
CN117194963B (zh) 工业fdc质量根因分析方法、设备及存储介质
US20240152133A1 (en) Threshold acquisition apparatus, method and program for the same

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination