CN111626351A - 一种用于获取数据分布的概念漂移量的方法和系统 - Google Patents

一种用于获取数据分布的概念漂移量的方法和系统 Download PDF

Info

Publication number
CN111626351A
CN111626351A CN202010452947.1A CN202010452947A CN111626351A CN 111626351 A CN111626351 A CN 111626351A CN 202010452947 A CN202010452947 A CN 202010452947A CN 111626351 A CN111626351 A CN 111626351A
Authority
CN
China
Prior art keywords
data
drift amount
cluster
concept drift
data distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010452947.1A
Other languages
English (en)
Other versions
CN111626351B (zh
Inventor
刘世霞
杨维铠
李振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010452947.1A priority Critical patent/CN111626351B/zh
Publication of CN111626351A publication Critical patent/CN111626351A/zh
Application granted granted Critical
Publication of CN111626351B publication Critical patent/CN111626351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种用于获取数据分布的概念漂移量的方法和系统。其中,该方法包括:获取包括训练数据和测试数据的全部数据;使用高斯混合模型对全部数据进行聚类,获取全部数据的多个聚类簇;分别获取多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量;利用多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量,获取全部数据的数据分布的概念漂移量。由此,能够准确地获取到数据分布的概念漂移量,以准确地判断出数据分布的变化情况,大大提高了系统的可靠性。

Description

一种用于获取数据分布的概念漂移量的方法和系统
技术领域
本发明涉及机器学习技术领域,特别涉及一种用于获取数据分布的概念漂移量的方法、系统、计算机系统以及计算机可读存储介质。
背景技术
近年来,数据驱动的机器学习在许多领域都取得了巨大的成功,如天气预测、个性化推荐、产品缺陷检测等。然而,数据驱动的机器学习方法大都显式或隐式地基于一个假设,即训练数据和测试数据属于同一数据分布。但在现实应用中,许多领域的数据分布通常会随着时间的推移不断发生变化,且这一变化可能无法提前预见。数据分布发生的变化称为概念漂移。概念漂移的出现可能导致某领域的基于历史数据进行训练并部署运行的模型在新数据上的预测结果不再可信与有效,因此需要一个可靠的方法和系统来获取衡量数据分布的概念漂移程度。
发明内容
本发明中使用数据分布的概念漂移量来衡量数据分布的概念漂移程度,提出了一种用于获取数据分布的概念漂移量的方法、系统、计算机系统以及计算机可读存储介质。
根据本发明的一个方面,提出了一种用于获取数据分布的概念漂移量的方法,该方法包括:获取包括训练数据和测试数据的全部数据;使用高斯混合模型对全部数据进行聚类,获取全部数据的多个聚类簇;分别获取多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量;利用多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量,获取全部数据的数据分布的概念漂移量。
根据本发明的另一个方面,提出了一种用于获取数据分布的概念漂移量的计算机可读存储介质,所述计算机可读存储介质具有存储其中的程序指令,所述程序指令可由计算设备执行以使得计算设备执行如上所述的方法。
根据本发明的又一个方面,提出了一种用于获取数据分布的概念漂移量的计算机系统,包括:存储器;以及至少一个处理器,其可操作地耦合到存储器并配置用于执行如上所述的方法。
根据本发明的再一个方面,提出了一种用于获取数据分布的概念漂移量的系统,所述系统包括分别用于执行如上所述的方法的各个步骤的模块。
附图说明
通过参照附图阅读下面对说明性实施例的详细说明可更好地理解发明本身以及其优选使用模式、目标、特征以及优点,在附图中:
图1为根据本发明的一个具体实施例的主板生产线上用于主板缺陷检测的10条主板产品的属性记录;
图2为根据本发明的一个实施例的用于获取数据分布的概念漂移量的计算机系统的结构示意图;
图3为根据本发明实施例的用于获取数据分布的概念漂移量的方法的流程图;;
图4为根据本发明的一个具体实施例的获取数据分布的概念漂移量的示意图。
具体实施方式
以下描述包括体现本发明技术的示例性方法、系统、技术和指令序列。然而,应该理解,在一个或多个方面,可以在没有这些具体细节的情况下实践所描述的发明。在其他情况下,没有详细示出公知的协议、结构和技术,以免模糊本发明。本领域普通技术人员将理解,所描述的技术和机制可以应用于获取数据分布的概念漂移量的各种体系结构。
下面参照附图来说明本发明的实施例。在下面的说明中,阐述了许多具体细节以便更全面地了解本发明。但是,对于本技术领域内的技术人员明显的是,本发明的实现可不具有这些具体细节中的一些。此外,应当理解的是,本发明并不限于所介绍的特定实施例。相反,可以考虑用下面的特征和要素的任意组合来实施本发明,而无论它们是否涉及不同的实施例。因此,下面的方面、特征、实施例和优点仅作说明之用而不应被看作是所附权利要求的要素或限定,除非权利要求中明确提出。
本发明的目的是获取数据分布的概念漂移量,也就是衡量数据(包括训练数据和测试数据)分布的差异度量。训练数据和测试数据的全部数据均为以下数据类型的一种或多种:表格数据、图像数据、视频数据、文本数据或其他用户指定数据(如社交数据、日志数据等)。表格数据例如多条产品属性记录、多条天气记录等等。例如,图1示出了主板生产线上用于主板缺陷检测的10条主板产品的属性记录,其中包括记录101-记录110共10条记录。记录101、记录102、记录103是三件主板类型为A(例如是无缺陷的产品)的产品的属性记录(包括长度、宽度、厚度等);记录104、记录105是两件主板类型为B(例如是有缺陷的产品)的产品的属性记录。记录101-105作为训练数据用于模型的构建。记录106、记录107是两件主板类型为A的产品的属性记录,但由于工艺发生变化,其厚度低于记录101、记录102、记录103的厚度。记录108、记录109、记录110是三件主板类型为B的产品的属性记录,其各属性和记录104、记录105一致。记录106-110作为测试数据。希望对于记录101-110,得到所有数据的数据分布的概念漂移量,并根据得到的所有数据的数据分布的概念漂移量,确定原来的机器学习模型是否可以继续使用;如果得到的概念漂移量较高,则意味着原来的机器学习模型不再适用,则需要重新训练模型;如果得到的概念漂移量较低,则意味着原来的机器学习模型可以继续使用,无需重新训练模型。
在本领域,概念漂移量没有一个明确的计算方式。任何可以衡量数据(包括训练数据与测试数据)分布差异的度量均可用为该数据(包括训练数据和测试数据)的数据分布的概念漂移量。本发明的例子中上述度量考虑使用能量距离,即将获得的该数据的能量距离作为该数据的数据分布的概念漂移量。能量距离能直接比较包括训练数据和测试数据的全部数据所构成的数据分布的差异并将差异的度量值作为概念漂移量。为了更准确地得到概念漂移量,避免因直接比较训练数据和测试数据带来的不匹配问题而造成的概念漂移量的不合适的估计,本发明考虑使用高斯混合模型对包括测试数据和训练数据的全部数据通过聚类进一步地划分为多个聚类簇,并根据划分的结果,对多个聚类簇的每个聚类簇分别计算该聚类簇中包含的所有数据(包括训练数据和测试数据)的数据分布的概念漂移量,从而最终得到该全部数据(包括训练数据和测试数据)分布的概念漂移量,并根据概念漂移量是否超出指定的阈值决定是否需要重新训练模型。
图2示出了根据本发明的实施例的一种用于获取数据分布的概念漂移量的系统200。如图2所示,获取数据分布的概念漂移量的系统200包括高斯混合模型聚类模块210,以及概念漂移量计算模块220。高斯混合模型聚类模块210获取包括训练数据201以及测试数据202的全部数据,进行聚类,得到聚类结果并产生多个聚类簇203。概念漂移量计算模块220获取包括训练数据201和测试数据202的全部数据,以及高斯混合模型聚类模块210产生的多个聚类簇203,来得到概念漂移量204。当得到的概念漂移量204超出指定的阈值时,系统200可以做进一步的操作(图2中未示出进一步的操作),例如:报警,指示用户需要重新训练模型等等。该获取数据分布的概念漂移量的系统200可实现为一般的计算机系统上的应用程序,或者实现为服务器系统上的应用程序,或者实现为网络应用程序,或者实现为云平台上的应用程序。
图3示出了根据本发明的实施例利用图2所示的用于获取数据分布的概念漂移量的计算机系统200进行概念漂移量获取的方法的流程图。如图3所示,在步骤310,高斯混合模型聚类模块210获取包括训练数据和测试数据的全部数据。在步骤320,高斯混合模型聚类模块210使用高斯混合模型对全部数据进行聚类,获取全部数据的多个聚类簇。图4示出了对图1所示的10条产品的属性记录得到的两个聚类簇。记录101、记录102、记录103、记录106、记录107都是主板类型A的产品的属性记录,彼此较为相像,因此形成聚类簇1;记录104、记录105、记录108、记录109、记录110都是主板类型B的产品的属性记录,彼此较为相像,因此形成聚类簇2。本领域技术人员可以知道,在步骤320中使用的聚类方法可以是现有的任意聚类方法(如K-Means聚类,均值漂移聚类、谱聚类等)或未来开发的任意聚类方法。
在步骤330中,概念漂移量计算模块220分别获取多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量。这一步可以使用本领域所熟知的任何可以衡量包括训练数据与测试数据的所有数据的数据分布的差异的度量作为每个聚类簇中包含的所有数据的数据分布的概念漂移量。本发明的实施例中该度量可以使用能量距离、全变差距离、Hellinger距离等。
在本发明的一个实施例中,图4示出了图1所示的10条产品的属性记录聚类得到的聚类簇1和聚类簇2及二者包含的样本记录。图4中的聚类簇1中,使用能量距离计算聚类簇1中的训练样本记录101、记录102、记录103与测试样本记录106、记录107之间的分布差异。图4的聚类簇1中,每个节点表示一条记录,每两个节点之间的连边旁的数字表示相连的两条记录之间的距离。聚类簇1中包括3个训练样本(记录101、记录102、记录103)和2个测试样本(记录106、记录107)。根据各条记录的参数可以计算(利用参数的欧式距离)得到记录101与记录102之间距离为1,记录102与记录103之间距离为1,记录101与记录103之间距离为1。则系统可以得出聚类簇1中三个训练样本内平均距离为(1+1+1)/3=1。并且根据各条记录的参数可以计算(利用参数的欧式距离)记录106与记录107之间距离为1。则系统可得两个测试样本内平均距离为1/1=1。此外,根据各条记录的参数可以计算(利用参数的欧式距离)得到记录101与记录106之间距离为10,记录101与记录107之间距离为10,记录102与记录106之间距离为10,记录102与记录107之间距离为10,记录103与记录106之间距离为10,记录103与记录107之间距离为10。则系统可得三个训练样本和两个测试样本间平均距离为(10+10+10+10+10+10)/6=10。能量距离可以被定义为:[2*(训练样本和测试样本间的平均距离)-(训练样本内的平均距离+测试样本内的平均距离)]/[2*(训练样本和测试样本间的平均距离)]。则最终得到聚类簇1的能量距离为(2*10-(1+1))/(2*10)=0.9,作为聚类簇1中包含的所有数据的数据分布的概念漂移量。在图4中的聚类簇2中,根据各条记录的参数可以计算(利用参数的欧式距离)得到任意两条记录之间的距离均为1。同样使用能量距离计算聚类簇2中的训练样本记录104、记录105和测试样本记录108、记录109、记录110之间的分布差异。系统得出训练样本内平均距离为1/1=1;测试样本内平均距离为(1+1+1)/3=1;训练样本和测试样本间平均距离为(1+1+1+1+1+1)/6=1,最终得到能量距离为(2*1-(1+1))/(2*1)=0,作为聚类簇2中包含的所有数据的数据分布的概念漂移量。
在步骤340中,利用多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量,获取全部数据的数据分布的概念漂移量。这一步可以使用多种方法。在一种实施方式中,可以选取多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量中的最大值作为全部数据的数据分布的概念漂移量。如在图4所示的例子中,聚类簇1中包含的所有数据的数据分布的概念漂移量为0.9,聚类簇2中包含的所有数据的数据分布的概念漂移量为0,最大值为0.9,则全部数据的数据分布的概念漂移量为0.9。
在另一种实施方式中,也可以将多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量的平均值作为全部数据的数据分布的概念漂移量。如在图4所示的例子中,聚类簇1中包含的所有数据的数据分布的概念漂移量为0.9,聚类簇2中包含的所有数据的数据分布的概念漂移量为0,平均值为0.45,则全部数据的数据分布的概念漂移量为0.45。
在另一种实施方式中,也可以将多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量中的中位值作为全部数据的数据分布的概念漂移量。如在图4所示的例子中,聚类簇1中包含的所有数据的数据分布的概念漂移量为0.9,聚类簇2中包含的所有数据的数据分布的概念漂移量为0,中位值为0.45,则全部数据的数据分布的概念漂移量为0.45。
在另一种实施方式中,也可以将多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量的加权平均值作为全部数据的数据分布的概念漂移量。在一种实施方式中,每个聚类簇的权重可以用该聚类簇中测试数据样本的数目来表示。如在图4所示的例子中,聚类簇1中包含的所有数据的数据分布的概念漂移量为0.9,权重为2,聚类簇2中包含的所有数据的数据分布的概念漂移量为0,权重为3,加权平均值为(2*0.9+3*0)/(2+3)=0.36,则全部数据的数据分布的概念漂移量为0.36。在另一种实施方式中,每个聚类簇的权重可以用该聚类簇中测试数据样本数目占所述聚类簇中所有样本数目的比例来表示。如在图4所示的例子中,聚类簇1中包含的所有数据的数据分布的概念漂移量为0.9,权重为2/5=0.4,聚类簇2中包含的所有数据的数据分布的概念漂移量为0,权重为3/5=0.6,加权平均值为(0.4*0.9+0.6*0)/(0.4+0.6)=0.36,则全部数据的数据分布的概念漂移量为0.36。在又一种实施方式中,每个聚类簇的权重也可以由用户指定,也就是说,每个聚类簇的权重可为用户指定的权重。
由以上描述,本领域技术人员可以知道,不同的概念漂移量的计算方法获得的概念漂移量的值也是不同的。如果关心数据分布的概念漂移量的总体水平,可以采用多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量的平均值、中位值或加权平均值得到的全部数据的数据分布的概念漂移量。如果关心发生概念漂移最严重的聚类簇,可以采用多个聚类簇的每个聚类簇包含的所有数据的数据分布的概念漂移量的最大值得到全部数据的数据分布的概念漂移量。
在一种实施方式中,图3还进一步包括步骤350:将获得的全部数据的数据分布的概念漂移量与指定的阈值相比较。图3还进一步包括步骤360:响应于全部数据的数据分布的概念漂移量大于等于指定的阈值,判定所述原来的机器学习模型可能不再适用,需要重新训练模型,该方法结束。图3还进一步包括步骤370:响应于全部数据的数据分布的概念漂移量小于指定的阈值,判定原来的机器学习模型可以继续使用,无需重新训练模型,该方法结束。具体给定的阈值可以由用户根据使用的不同的概念漂移量的计算方法设置不同的值。
针对图4,在使用加权平均值作为全部数据的数据分布的概念漂移量的一种实施方式中,得到的概念漂移量为0.36。该概念漂移值大于给定的阈值0.2,判定所述原来的机器学习模型不再适用,需要重新训练模型。具体地,可将记录106、记录107也添加为训练数据,并重新训练得到新的模型来替换旧的模型。
本发明可以是系统、方法和/或计算机可读存储介质。计算机可读存储介质上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。本发明的方法可以在独立的计算机系统上执行,也可以在分布式计算系统上执行,甚至可以在云平台上执行。
这里参照根据本发明实施例的方法、装置(系统)和计算机可读存储介质的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机可读存储介质的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (12)

1.一种用于获取数据分布的概念漂移量的方法,其特征在于,包括:
获取包括训练数据和测试数据的全部数据;
使用高斯混合模型对所述全部数据进行聚类,获取所述全部数据的多个聚类簇;
分别获取所述多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量;
利用所述多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量,获取所述全部数据的数据分布的概念漂移量。
2.根据权利要求1所述的方法,其特征在于,还包括:
将获得的所述全部数据的数据分布的概念漂移量与给定的阈值相比较;
响应于所述全部数据的数据分布的概念漂移量大于等于所述给定的阈值,判定利用所述训练数据得到的机器学习模型不再适用,需要重新训练模型。
3.根据权利要求1所述的方法,其特征在于,该方法还包括:
将获得的所述全部数据的数据分布的概念漂移量与给定的阈值相比较;
响应于所述全部数据的数据分布的概念漂移量小于所述给定的阈值,判定利用所述训练数据得到的机器学习模型能够继续使用。
4.根据权利要求1所述的方法,其特征在于,所述获取所述全部数据的数据分布的概念漂移量的步骤包括:使用所述多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量的加权平均值作为所述全部数据的数据分布的概念漂移量。
5.根据权利要求4所述的方法,其特征在于,所述加权平均值中所述多个聚类簇的每个聚类簇的权重为以下之一:
所述每个聚类簇中测试数据样本的数目;
所述每个聚类簇中测试数据样本数目占所述每个聚类簇中所有样本数目的比例;
用户指定的权重。
6.根据权利要求1所述的方法,其特征在于,所述获取所述全部数据的数据分布的概念漂移量的步骤还包括:
使用所述多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量中的最大值作为所述全部数据的数据分布的概念漂移量;或者
使用所述多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量的平均值作为所述全部数据的数据分布的概念漂移量;或者
使用所述多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量中的中位值作为所述全部数据的数据分布的概念漂移量。
7.根据权利要求1所述的方法,其特征在于,所述多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量为对应的聚类簇中包含的所有数据的以下计算结果之一:
能量距离;
全变差距离;
Hellinger距离。
8.根据权利要求1所述的方法,其特征在于,采用以下方法之一获取所述全部数据的多个聚类簇:
高斯混合模型聚类;或者
K-Means聚类;或者
均值漂移聚类;或者
谱聚类。
9.根据权利要求1-7中任一项所述的方法,其特征在于,所述包括训练数据和测试数据的全部数据包括:
表格数据;和/或
图像数据;和/或
视频数据;和/或
文本数据;和/或
用户指定数据。
10.一种用于获取数据分布的概念漂移量的计算机可读存储介质,所述计算机可读存储介质具有存储其中的程序指令,其特征在于,所述程序指令可由计算设备执行以使得计算设备执行如权利要求1-9中任一项所述的方法。
11.一种用于获取数据分布的概念漂移量的计算机系统,其特征在于,包括:
存储器;以及
至少一个处理器,可操作地耦合到所述存储器并配置用于执行如权利要求1-9中任一项所述的方法。
12.一种用于获取数据分布的概念漂移量的系统,其特征在于,所述系统包括用于执行权利要求1-9中任一项的方法的各个步骤的模块。
CN202010452947.1A 2020-05-26 2020-05-26 一种用于获取数据分布的概念漂移量的方法和系统 Active CN111626351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010452947.1A CN111626351B (zh) 2020-05-26 2020-05-26 一种用于获取数据分布的概念漂移量的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010452947.1A CN111626351B (zh) 2020-05-26 2020-05-26 一种用于获取数据分布的概念漂移量的方法和系统

Publications (2)

Publication Number Publication Date
CN111626351A true CN111626351A (zh) 2020-09-04
CN111626351B CN111626351B (zh) 2024-03-22

Family

ID=72260723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010452947.1A Active CN111626351B (zh) 2020-05-26 2020-05-26 一种用于获取数据分布的概念漂移量的方法和系统

Country Status (1)

Country Link
CN (1) CN111626351B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765324A (zh) * 2021-01-25 2021-05-07 四川虹微技术有限公司 一种概念漂移检测方法及装置
CN114401205A (zh) * 2022-01-21 2022-04-26 中国人民解放军国防科技大学 无标注多源网络流量数据漂移检测方法和装置
CN115774185A (zh) * 2023-02-13 2023-03-10 江苏泰治科技股份有限公司 一种车规级芯片dpat检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345575A (zh) * 2013-06-19 2013-10-09 华南师范大学 一种数据流概念漂移检测方法及系统
CN105069469A (zh) * 2015-07-30 2015-11-18 天津师范大学 一种基于模糊c均值聚类算法和熵理论的数据流检测方法
CN110445726A (zh) * 2019-08-16 2019-11-12 山东浪潮人工智能研究院有限公司 一种基于信息熵的自适应网络流概念漂移检测方法
US20200034692A1 (en) * 2018-07-30 2020-01-30 National Chengchi University Machine learning system and method for coping with potential outliers and perfect learning in concept-drifting environment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345575A (zh) * 2013-06-19 2013-10-09 华南师范大学 一种数据流概念漂移检测方法及系统
CN105069469A (zh) * 2015-07-30 2015-11-18 天津师范大学 一种基于模糊c均值聚类算法和熵理论的数据流检测方法
US20200034692A1 (en) * 2018-07-30 2020-01-30 National Chengchi University Machine learning system and method for coping with potential outliers and perfect learning in concept-drifting environment
CN110445726A (zh) * 2019-08-16 2019-11-12 山东浪潮人工智能研究院有限公司 一种基于信息熵的自适应网络流概念漂移检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ZENG LI ET AL.: "Drift-detection Based Incremental Ensemble for Reacting to Different Kinds of Concept Drift", 《 IEEE XPLORE》, 21 November 2019 (2019-11-21) *
储光;胡学钢;张玉红;: "基于语义的文本数据流概念漂移检测算法", 计算机工程, no. 02 *
王海燕;胡学钢;李培培;: "基于向量表示和标签传播的半监督短文本数据流分类算法", 模式识别与人工智能, no. 07 *
陈荣;: "面向非平衡与概念漂移的数据流分类的研究", 现代计算机, no. 04 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765324A (zh) * 2021-01-25 2021-05-07 四川虹微技术有限公司 一种概念漂移检测方法及装置
CN114401205A (zh) * 2022-01-21 2022-04-26 中国人民解放军国防科技大学 无标注多源网络流量数据漂移检测方法和装置
CN114401205B (zh) * 2022-01-21 2024-01-16 中国人民解放军国防科技大学 无标注多源网络流量数据漂移检测方法和装置
CN115774185A (zh) * 2023-02-13 2023-03-10 江苏泰治科技股份有限公司 一种车规级芯片dpat检测方法及装置

Also Published As

Publication number Publication date
CN111626351B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN111626351A (zh) 一种用于获取数据分布的概念漂移量的方法和系统
US7930122B2 (en) Evaluating anomaly for one-class classifiers in machine condition monitoring
US20150219530A1 (en) Systems and methods for event detection and diagnosis
CN105530122B (zh) 一种基于选择性隐朴素贝叶斯分类器的网络故障诊断方法
Pontil et al. On the noise model of support vector machines regression
CN112416643A (zh) 无监督异常检测方法与装置
CN113051822A (zh) 基于图注意力网络与lstm自动编码模型的工业系统异常检测方法
CN112529109A (zh) 一种基于无监督多模型的异常检测方法及系统
CN112416662A (zh) 多时间序列数据异常检测方法与装置
US11487640B2 (en) Replacing stair-stepped values in time-series sensor signals with inferential values to facilitate prognostic-surveillance operations
CN111984511A (zh) 一种基于二分类的多模型磁盘故障预测方法和系统
CN113516174A (zh) 调用链异常检测方法、计算机设备以及可读存储介质
CN103646114A (zh) 硬盘smart数据中特征数据提取方法和装置
CN114169398A (zh) 基于随机森林算法的光伏直流电弧故障识别方法及装置
CN114048811A (zh) 一种基于深度学习的无线传感器节点故障诊断方法和装置
Zhou et al. Performance evaluation method for network monitoring based on separable temporal exponential random graph models with application to the study of autocorrelation effects
CN117472679A (zh) 结合数据流和控制流漂移发现的异常检测方法及系统
CN114048085B (zh) 一种磁盘故障分析方法、装置、设备及可读存储介质
CN111767938B (zh) 一种异常数据检测方法、装置及电子设备
CN110443289B (zh) 检测偏离分布样本的方法和系统
CN114598627A (zh) 一种基于知识图谱的异常网络信息检测方法
CN112348049A (zh) 一种基于自动编码的图像识别模型训练方法及装置
CN117807527B (zh) 基于贝叶斯网络的机械部件故障诊断方法及系统
CN114418036B (zh) 神经网络的性能测试和训练方法、设备和存储介质
US20230086626A1 (en) System and method for detection of anomalies in test and measurement results of a device under test (dut)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant