CN110431543B

CN110431543B - 分类信息的方法和分类处理器

Info

Publication number: CN110431543B
Application number: CN201880014512.XA
Authority: CN
Inventors: 格萨·本多夫; 尼古拉斯·雷霍特; 蒂姆·里斯特
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2017-02-28
Filing date: 2018-02-26
Publication date: 2024-03-15
Anticipated expiration: 2038-02-26
Also published as: JP2020509497A; CN110431543A; JP6962665B2; EP3590052B1; EP3590052A1; US20190361921A1; EP3367261A1; KR102335038B1; ES2880202T3; KR20190117771A; WO2018158201A1

Abstract

实施例提供了一种将信息分类为第一类或第二类的方法。方法包括将第一分类技术应用于信息的步骤，以便如果信息满足第一类的分类标准，将信息分配给第一类，并且如果信息不满足第一类的分类标准，将信息分配给第二类。方法还包括将第二分类技术应用于信息的步骤，以便如果信息满足第二类的分类标准，将信息分配给第二类，并且如果信息不满足第二类的分类标准，将信息分配给第一类。方法还包括在由两种分类技术执行的信息的不同分配的情况下或者在已经达到由两种分类技术进行的信息的不同分配的预定数量的情况下，更新两种分类技术中的至少一种的分类标准的步骤。第一类和第二类不同。

Description

分类信息的方法和分类处理器

技术领域

本发明的实施例涉及分类信息的方法。进一步的实施例涉及用于分类信息的分类处理器。一些实施例涉及错误检测方法。

背景技术

许多应用领域涉及正确地分类数据，并因此以自动化方式识别例如垃圾邮件(在电子邮件业务中)、恶性肿瘤(癌症诊断)或操作的缺陷状态(技术设备)，并将所述数据与“正常数据”区分的任务。技术挑战是找到尽可能精确地执行这种分类的技术，即尽可能多地识别错误；同时，应当存在尽可能少的错误分类(误分类)。此外，困难在于框架条件可以改变，可能发生先前未知的错误，以及因此，在应用过程中必须相应地修改该技术。

原则上，存在借助于专家知识或借助于从机器学习中获得的技术来执行这种分类的可能性。每种技术本身具有特定的限制和缺点。特别地，机器学习技术通常需要大量的高质量训练数据，而专家系统在实现方面需要大量的花费并且不是非常灵活。

在文献中，详细描述了分类技术的理论，例如支持向量机、逻辑回归、贝叶斯分类器、决策树、神经网络等(参见例如Aggarwal 2014，Han等2011)。单一分类器的技术应用已经被广泛地记载并且也在专利文献(US2005/141782A1和US2006/058898A1)中描述。此外，应用各种技术的组合(US2005/097067A1)。对于垃圾邮件过滤的问题，已经描述了一种自适应方法(US2004/177110A1)。此外，元学习(US6,842,751B1)是已知的。

然而，已知的方法相对不精确，即相对大量的数据被错误分类。此外，如果这些已知方法要完全适应，则它们在适应新的或未知的数据方面非常慢。

发明内容

因此，本发明的目的是提供一种包括改进的分类精度和/或对新的或未知的数据的适应的概念。

该目的通过独立权利要求实现。

在从属权利要求中发现有利的进一步发展。

实施例提供了一种将信息分类为第一类或第二类的方法。方法包括将第一分类技术应用于信息的步骤，以便如果信息满足第一类的分类标准，将信息分配给第一类，并且如果信息不满足第一类的分类标准，将信息分配给第二类。此外，方法包括将第二分类技术应用于信息的步骤，以便如果信息满足第二类的分类标准，将信息分配给第二类，并且如果信息不满足第二类的分类标准，将信息分配给第一类。此外，方法包括在由两种分类技术执行的信息的分配彼此偏离的情况下或者在已经达到由两种分类技术进行的信息的相互偏离的分配的预定数量的情况下，更新两种分类技术中的至少一种的分类标准的步骤。在此上下文中，第一类和第二类彼此不同。

根据本发明的概念，同时将两种分类技术(例如，两种不同的、互补的或补充的分类技术)应用于信息，以便将所述信息分类到第一类或第二类，在由两种分类技术执行的信息的分类彼此偏离的情况下，或者在已经达到由两种分类技术进行的信息的相互偏离的分配的预定数量的情况下，由两种分类技术更新两种分类技术中的至少一种。

进一步实施例提供了一种用于将信息分类为第一类或第二类的分类处理器。分类处理器包括两个并行的分类级和更新级。两个分类级中的第一分类级被配置为如果信息满足第一类的分类标准，将信息分配给第一类，并且如果信息不满足第一类的分类标准，将信息分配给第二类。两个分类级中的第二分类级被配置为如果信息满足第二类的分类标准，将信息分配给第二类，并且如果信息不满足第二类的分类标准，将信息分配给第一类，第一类和第二类彼此不同。更新级被配置为在由两个分类级执行的信息的分配彼此偏离的情况下或者在已经达到由两个分类级进行的信息的相互偏离的分配的预定数量的情况下，更新两个分类级中的至少一个的分类标准。

下面将描述将信息分类为第一类或第二类的方法的优选实施例。然而，下面的描述也可以应用于分类处理器。

在实施例中，方法可以对数据分类。当然，方法还可以对数据集的数据分类，通过方法可以对数据集的数据个别地分类。

在实施例中，第一分类技术和第二分类技术可以是相互互补的。第一分类技术可被配置(例如适应或训练)为识别属于第一类的信息，而第二分类技术可被配置(例如适应或训练)为识别属于第二类的信息。未被识别的信息可以通过相应的分类技术被分配给相应的其它类。

例如，第一分类技术和第二分类技术可以不同，使得第一分类技术识别属于第一类的信息，而第二分类技术识别属于第二类的信息。例如，第一分类技术可以是离群点检测方法，而第二分类技术可以是基于规则的技术。

当然，第一分类技术和第二分类技术也可以相同，但是在训练方面不同，使得第一分类技术识别属于第一类的信息，并且第二分类技术识别属于第二类的信息。例如，两种分类技术都可以是离群点检测方法或基于规则的技术。

在实施例中，第一分类技术可以是离群点检测方法。

在这种情况下，在初始化阶段期间，可以专有地使用第一类的信息初始化第一分类技术。

在实施例中，第二分类技术可以是基于规则的技术。

在初始化阶段期间，可以专有地使用第二类的信息或使用专有地基于第二类的已知分类信息的分类标准初始化第二分类技术。

在实施例中，可以使用关于信息的实际类分配的知识来更新两种分类技术中的至少一种。

例如，在通过两种分类技术中的至少一种对信息误分类的情况下，可以更新相应的分类技术或相应分类技术的分类标准。

例如，如果第一分类技术错误地分类信息，而第二分类技术正确地分类信息，(仅)第一分类技术或第一分类技术的分类标准可以被更新。同样地，如果第一分类技术正确地分类信息，而第二分类技术错误地分类信息，则(仅)第二分类技术或第二分类技术的分类标准可以被更新。当然，如果两种分类技术或两种分类技术中的仅一种错误地分类信息，更新两种分类技术(或分类技术的分类标准)也是可能的。

在实施例中，更新步骤(例如在初始化阶段之后的训练阶段期间)可包括：如果实际上应当被分配给第一类的预定数量的信息已经由第二分类技术正确地分配给第一类，但是已经由第一分类技术错误地分配给第二类，则替换用于训练第一分类技术的训练信息集中的至少一些，以便通过对更新的训练信息集重新训练(或应用)第一分类技术来更新第一分类技术的分类标准。

在实施例中，更新步骤(例如，在初始化阶段之后的训练阶段期间)可包括：如果实际上应当被分配给第二类的预定数量的信息已经由第一分类技术正确地分配给第二类，但是已经由第二分类技术错误地分配给第一类，则替换用于训练第二分类技术的第二类的训练信息集中的至少一些，以便通过对更新的训练信息集重新训练(或应用)第二分类技术来更新第二分类技术的分类标准。

在实施例中，更新步骤(例如，在初始化阶段之后的训练阶段期间)可包括：如果实际上应当被分配给第一类的预定数量的信息已经被第一分类技术正确地分配给第一类，但是已经被第二分类技术错误地分配给第二类，则替换用于训练第二分类技术的第一类的训练信息集中的至少一些，以便通过对更新的训练信息集重新训练(或应用)第二分类技术来更新第二分类技术的分类标准。

在实施例中，更新步骤(例如，在初始化阶段之后的训练阶段期间)可包括：如果实际上应当被分配给第二分类的预定数量的信息已经被第二分类技术正确地分配给第二分类，但是已经被第一分类技术错误地分配给第一类，则替换用于训练第一分类技术的训练信息集(例如，测试数据集)中的至少一些，以便通过借助于更新的测试数据集重新训练第一分类技术来更新第一分类技术的分类标准。

附图说明

将参考附图更详细地描述本发明的实施例，其中：

图1示出根据实施例的将信息分类为第一类或第二类的方法的流程图；

图2a示出根据第一分类步骤的包括第一类数据和第二类数据的数据集的示意图，以及由包括两种分类技术的方法提供的数据的区域的分类结果的示意图，以及作为比较，由仅包括一种分类技术的方法提供的分类结果的示意图，用于说明当使用包括两种分类技术的方法时，比仅包括一种分类技术的方法需要更少的反馈；

图2b示出根据第二分类步骤的包括第一类数据和第二类数据的数据集的示意图，以及由包括两种分类技术的方法提供的数据的区域的分类结果的示意图，以及作为比较，由仅包括一种分类技术的方法提供的分类结果的示意图，用于说明当使用包括两种分类技术的方法时，比仅包括一种分类技术的方法需要更少的反馈；

图2c示出根据第三分类步骤的包括第一类数据和第二类数据的数据集的示意图，以及由包括两种分类技术的方法提供的数据的区域的分类结果的示意图，以及作为比较，由仅包括一种分类技术的方法提供的该分类结果的示意图，用于说明当使用包括两种分类技术的方法时，比仅包括一种分类技术的方法需要更少的反馈；

图3a示出根据第一分类步骤的包括第一类数据和第二类数据的数据集的示意图，以及由包括两种分类技术的方法提供的数据区域的分类结果的示意图，以及作为比较，由仅包括一种分类技术的方法提供的分类结果的示意图，用于说明当使用包括两种分类技术的方法时，比仅包括一种分类技术的方法实现了更高水平的准确度；

图3b示出根据第二分类步骤的包括第一类数据和第二类数据的数据集的示意图，以及由包括两种分类技术的方法提供的数据的区域的分类结果的示意图，以及作为比较，由仅包括一种分类技术的方法提供的分类结果的示意图，用于说明当使用包括两种分类技术的方法时，比仅包括一种分类技术的方法实现了更高水平的准确度；

图3c示出根据第三分类步骤的包括第一类数据和第二类数据的数据集的示意图，以及由包括两种分类技术的方法提供的数据的区域的分类结果的示意图，以及作为比较，由仅包括一种分类技术的方法提供的分类结果的示意图，用于说明当使用包括两种分类技术的方法时，比仅包括一种分类技术的方法实现了更高水平的准确度；以及

图4示出根据本发明的实施例的用于将信息分类为第一类或第二类的分类处理器的示意图。

具体实施方式

在本发明实施例的以下描述中，相同或作用相同的元件在附图中将被提供相同的附图标记，从而它们的描述是相互可交换的。

图1示出将信息分类为第一类或第二类的方法100的流程图。方法100包括步骤102，将第一分类技术应用于信息，以便如果信息满足第一类的分类标准，将信息分配给第一类，以及如果信息不满足第一类的分类标准，将信息分配给第二类。此外，方法100包括步骤106，将第二分类技术应用于信息，以便如果信息满足第二类的分类标准，将信息分配给第二类，以及如果信息不满足第二类的分类标准，将信息分配给第一类。此外，方法100包括步骤108，在由两种分类技术执行的信息的分配彼此偏离的情况下，或者在已经达到由两种分类技术进行的信息的相互偏离的分配的预定数量的情况下，更新两种分类技术中的至少一种的分类标准。在该上下文中，第一类和第二类彼此不同。

在实施例中，方法100可以对数据(例如，关于电子邮件的信息(发件人、收件人、参考等)、关于技术设备的信息(温度、压力、阀定位等)或关于疾病模式的信息(症状、年龄、血液值等))进行分类。当然，方法100还可以对数据集(例如，关于电子邮件、技术设备或疾病模式的信息集)的数据(例如，关于电子邮件的信息(发件人、收件人、参考等)、关于技术设备的信息(温度、压力、阀定位等)或关于疾病模式的信息(症状、年龄、血液值等))进行分类，数据集的数据可以通过该方法被个别地分类(例如，电子邮件集中的每个电子邮件被个别地分类)。

在实施例中，第一分类技术和第二分类技术可以是相互互补的。第一分类技术可被配置(例如，适应或训练)为识别属于第一类的信息，而第二分类技术可被配置(例如，适应或训练)为识别属于第二类的信息。未被识别的信息可以通过相应的分类技术被分配给相应的其它类。

因此，方法100可利用例如不同分类技术的组合，例如机器学习技术；例如，也可以结合专家知识。通过在利用期间借助于反馈来更新每种技术，在应用的过程期间可以逐渐提高准确度的水平，并且这些技术可响应于框架条件中的改变。

作为示例，下面将描述实现分类技术(其区分两个类)的两种互补方法。

第一种方法基于关于类1的从属关系的知识(例如：“正常数据”，以下被称为N数据)，其中不满足类1的标准的任何数据将被自动地分配给类2(例如，“错误数据”，以下被称为F数据)。相反，第二种方法基于关于类2的从属关系的知识，其中不满足类2的标准的任何数据将被自动分配给类1。在典型的应用情况下(例如垃圾邮件检测、肿瘤检测、错误检测)，任务是从非常大量的类从属关系1的数据(正常数据)中过滤出少数类从属关系2的数据(错误数据)。为此，上述两种方法可以明显地彼此不同：在第一种情况下，通常产生相对大量的“错误肯定”结果(类1被分类为类2)，而在第二种情况下，产生相对大量的“错误否定”结果(类2被分类为类1)。取决于应用情况，一个或另一个缺点是更容易容忍的。理想地，分类技术应该呈现尽可能低的错误肯定率(高特异性)而呈现尽可能低的错误否定率(高灵敏度)。

作为示例，方法100也可基于上述两种方法的组合。可选地，可以在应用期间获得的关于类从属关系的知识可以被结合到相应技术的连续改进中(反馈)。与使用具有连续更新的单一技术相比，组合两种(互补)技术的优点在于，通常需要较少的反馈以便实现高水平的准确度，如以下将参考图2详细描述的。另外，组合两种互补技术提供了识别每种个别技术的错误肯定和错误否定结果并通过反馈减少它们的可能性，如以下将参考图3更详细地描述的。

在左手侧，图2a示出包括第一类的数据122(或第一类数据122，例如正常数据(N))和第二类的数据124(或第二类数据124，例如错误数据(F))的数据集120的示意图，并且在初始化阶段之后，作为示例示出数据集120的区域126(其被第一分类技术(M1)识别为从属于(属于)第一类)，以及数据集120的区域128(其被第二分类技术(M2)识别为从属于第二类)，以及数据集120的数据的区域(应用区域)130(其具有应用于其的包括两种分类技术的方法100)。

在图2a中(以及在图2b和2c中)，对于数据集120的各个区域，方法100的分类结果在括号中指示，其中在括号中，第一值指示第一分类技术的分类结果，第二值指示第二分类技术的分类结果，以及第三值指示实际分类结果(或目标分类结果)。下划线处是那些通过反馈并入分类技术的更新中的区域。

如图2a的左手侧所示，位于数据集120的应用区域130内但在区域126之外，并且被第一分类技术识别为从属于第一类的数据集120的第一类(例如正常数据)的数据122的区域132由(F，N，N)指示，即第一分类技术将数据集120的区域132的数据分配给数据的第二类(例如错误数据)，而第二分类技术将数据集120的区域132的数据分配给数据的第一类(例如正常数据)。然而，实际上，数据集120的该区域132的数据应当被分配给数据的第一类(例如正常数据)，因此第一分类技术的分类结果不正确，以及因此，第一分类技术(或第一分类技术的分类标准)将在更新阶段的后续训练步骤中被调整。

位于数据集120的应用区域130内和区域126内，并且被第一分类技术识别为从属于数据的第一类(例如正常数据)的第一类(例如正常数据)的数据122的区域134由(N，N，N)指示，即第一分类技术将数据集120的区域134的数据分配给数据的第一类(例如正常数据)，并且第二分类技术也将数据集120的区域134的数据分配给数据的第一类(例如正常数据)。数据集120的区域134的数据应当被分配给第一类，以便两种分类技术的分类结果都是正确的。

位于应用区域130内的数据集120的第二类(例如错误数据)的数据124的区域136由(F，N，F)指示，即第一分类技术将数据集120的区域136的数据分配给数据的第二类(例如错误数据)，而第二分类技术将数据集120的区域136的数据分配给数据的第一类(例如正常数据)。实际上，数据集120的区域136的数据应当被分配给数据的第二类(例如错误数据)，因此第二分类技术的分类结果不正确，以及因此，第二分类技术(或第二分类技术的分类标准)将在更新阶段的后续训练步骤中被调整。

作为比较，图2a中的右手侧示出具有第一类(例如正常数据)的数据122和第二类(例如错误数据)的数据124的相同数据集120的示意图，以及在初始化阶段之后，作为示例，示出被单一分类技术(M1)识别为从属于数据的第一类(例如正常数据)的数据集的区域140，以及具有应用于其的仅包括一种单一分类技术的传统方法的数据集的数据的区域(应用区域)130。

在图2a中(以及在图2b和2c中)，对于各个区域，传统方法的分类结果在括号中指示，括号中的第一值指示单一分类技术的分类结果，而第二值指示实际分类结果(或目标分类结果)。

例如，位于数据的应用区域130内但在区域140之外，并且被单一分类技术识别为从属于数据的第一类(例如正常数据)的数据集120的第一类(例如正常数据)的数据122的区域142由(F，N)指示，即单一分类技术将数据集120的区域142的数据分配给第二类(例如错误数据)。然而，实际上，数据集120的区域142的数据应当被分配给数据的第一类(例如正常数据)，因此单一分类技术的分类结果不正确，以及因此，单一分类技术(或单一分类技术的分类标准)将在更新阶段的后续训练步骤中被调整。

位于应用区域130内和数据区域140内，并且被单一分类技术识别为从属于数据的第一类(例如正常数据)的第一类(例如正常数据)的数据122的区域144由(N，N)指示，即单一分类技术将数据集120的区域144的数据分配给数据的第一类(例如正常数据)。数据集120的区域144的数据应当被分配给数据的第一类(例如正常数据)，因此单一分类技术的分类结果是正确的。

位于应用区域130内的数据集120的第二类(例如错误数据)的数据124的区域146由(F，F)指示，即单一分类技术将数据集120的区域146的数据分配给数据的第二类(例如错误数据)。数据集120的区域136的数据应当被分配给数据的第二类(例如错误数据)，因此单一分类技术的分类结果是正确的。

在左手侧，图2b示出包括第一类(例如正常数据)的数据122和第二类(例如错误数据)的数据124的数据集120的示意图，并且在更新阶段的第一训练步骤之后，作为示例，示出现在被第一分类技术识别为从属于数据的第一类(例如正常数据)的数据的区域126、现在被第二分类技术识别为从属于数据的第二类(例如错误数据)的数据的区域128以及方法100被应用于其的数据集120的数据的区域(应用区域)13。

如图2b中可见，基于先前的分类结果更新两种分类技术(或两种分类技术的分类标准)。具体地，可以基于数据集120的先前错误检测的区域132更新第一分类技术(或第一分类技术的分类标准)，使得第一分类技术现在将数据集120的该区域132识别为第一类122的数据。此外，可以基于数据集120的先前错误检测的区域136更新第二分类技术(或第二分类技术的分类标准)，使得第二分类技术现在将数据集120的该区域136识别为第二类122的数据。现在被第一分类技术识别为从属于数据的第一类(例如正常数据)的数据集120的区域126因此与图2a相比变得更大。同样地，与图2a相比，被第二分类技术识别为从属于数据的第二类(例如错误数据)的数据集120的区域128变得更大。

在第一更新步骤之后，位于数据的应用区域130内但在区域126之外且现在被第一分类技术识别为从属于数据的第一类(例如正常数据)的数据集120的第一类(例如正常数据)的数据122的区域132在图2b中由(F，N，N)指示，即第一分类技术将数据集120的区域132的数据分配给数据的第二类(例如错误数据)，而第二分类技术将数据集120的区域132的数据分配给数据的第一类(例如正常数据)。然而，实际上，数据集120的区域132的数据应当已经被分配给数据的第一类(例如正常数据)，因此第一分类技术的分类结果不正确，以及因此，第一分类技术(或第一分类技术的分类标准)将在更新阶段的后续训练步骤中被调整。

位于数据的应用区域130内和数据的区域126内，并且现在被第一分类技术识别为从属于数据的第一类(例如正常数据)的第一类数据122的区域134由(N，N，N)指示，即第一分类技术将数据集120的区域134的数据分配给数据的第一类(例如正常数据)，以及第二分类技术也将数据集120的区域134的数据分配给数据的第一类(例如正常数据)。数据集120的区域134的数据应当被分配给数据的第一类(例如正常数据)，因此两种分类技术的分类结果是正确的。

位于数据的应用区域130内并且在区域128之外，并且现在被第二分类技术正确地识别为从属于第二类的数据集120的第二类(错误数据)的数据124的区域136由(F，N，F)指示，即第一分类技术将数据集120的该区域136的数据分配给第二类(错误数据)，而第二分类技术将数据集120的该区域136的数据分配给第一类(正常数据)。实际上，数据集120的该区域136的数据应当被分配给第二类(错误数据)，因此第二分类技术的分类结果不正确，以及因此，第二分类技术(或第二分类技术的分类标准)将在更新阶段的后续训练步骤中被调整。

位于数据的应用区域130内和区域128内，并且现在被第二分类技术正确地识别为从属于数据的第二类(例如正常数据)的第二类(例如错误数据)的数据的区域138由(F，F，F)指示，即第一分类技术将数据集120的区域138的数据分配给数据的第二类(例如错误数据)，并且第二分类技术也将数据集120的区域138的数据分配给数据的第二类(例如错误数据)。数据集120的区域138的数据应当被分配给数据的第二类，因此两种分类技术的分类结果都是正确的。

作为比较，图2b的右手侧示出相同的数据集120的示意图，数据集120包括第一类(例如正常数据)的数据122和第二类(例如错误数据)的数据124，以及在训练阶段的第一训练步骤之后，作为示例，示出现在被单一分类技术识别为从属于数据的第一类(例如正常数据)的数据的区域140，以及具有应用于其的包括单一分类技术的传统方法的数据集120的数据的区域(应用区域))130。

如在图2b的右手侧可以看到的，单一分类技术也基于数据集120的先前错误检测的区域142被调整，使得单一分类技术现在将数据集120的该区域142识别为第一类122的数据。然而，与方法100相比，这涉及附加费用，其在图2b中被标记为灰色(阴影)区域150。具体地，由于区域146(包括150)将被用于更新，而在左手侧将仅使用136(没有128)-较小的区域，因此在下一更新步骤中将感受到附加费用。

在第一更新步骤之后，位于数据集120的应用区域130内但在区域140之外，并且被单一分类技术识别为从属于第一类(例如正常数据)的数据集120的第一类(例如正常数据)的数据122的区域142由(F，N)指示，即单一分类技术将数据集120的区域142的数据分配给第二类(例如错误数据)。然而，实际上，数据集120的该区域142的数据应当被分配给第一类(例如正常数据)，因此单一分类技术的分类结果不正确，以及因此，单一分类技术(或单一分类技术的分类标准)将在更新阶段的后续训练步骤中被调整。

位于数据集120的应用区域130内和区域140内，并且被单一分类技术识别为从属于第一类(例如正常数据)的第一类(例如正常数据)的数据122的区域144由(N，N)指示，即单一分类技术将数据集120的该区域144的数据分配给第一类(例如正常数据)。数据集120的该区域144的数据应当被分配给第一类(例如，正常数据)，因此单一分类技术的分类结果是正确的。

位于应用区域130内的数据集120的第二类(例如错误数据)的数据124的区域146由(F，F)指示，即单一分类技术将数据集120的该区域146的数据分配给数据的第二类(例如错误数据)。数据集120的该区域146的数据应当被分配给数据的第二类(例如错误数据)，因此单一分类技术的分类结果是正确的。

在左手侧，图2c示出数据集120的示意图，数据集120包括第一类的数据122(N)(例如正常数据)和第二类的数据124(F)(例如错误数据)，以及根据训练阶段的第二训练步骤，作为示例，现在被第一分类技术识别为从属于数据的第一类(例如正常数据)的数据区域126(M1)，以及现在被第二分类技术识别为从属于数据的第二类(例如错误数据)的数据区域(M2)。

如图2c中可见，基于先前的分类结果来更新两种分类技术(或两种分类技术的分类标准)。具体地，第一分类技术(或第一分类技术的分类标准)可能已经基于数据集120的先前错误检测的区域132被更新，使得第一分类技术现在将数据集120的该区域132识别为第一类122的数据。此外，第二分类技术(或第二分类技术的分类标准)可能已经基于数据集120的先前错误检测的区域136而被更新，使得第二分类技术现在将数据集120的该区域136识别为第二类122的数据。因此，与图2b相比，被第一分类技术识别为从属于第一类的数据集120的区域126(M1)变得更大。同样地，与图2b相比，被第二分类技术识别为从属于第二类的数据集120的区域128(M2)变得更大。

作为比较，图2c的右手侧示出相同的数据集120的示意图，该数据集120包括第一类的数据122(例如正常数据)和第二类的数据124(例如错误数据)，以及在第二更新步骤之后，作为示例，现在被单一分类技术识别为从属于第一类的数据集的区域140(M1)。

如在图2c的右侧可以看到的，也基于数据集120的先前错误检测的区域142调整单一分类技术，使得单一分类技术现在将数据集120的该区域142识别为第一类122的数据。

换句话说，图2a至2c示出当组合两种技术M1和M2时通过反馈的更新机制的图示。作为示例，系统的整个状态空间可包括一定比例的“错误”状态(F)和“正常状态”(N)。在开始时，已知的N数据集可用于训练M1，以及可能的是，已知的F数据集或从专家知识已知的规则可用于初始化M2。对未知数据(虚线框出的区域)130执行两种技术的应用。如果M1的分类与M2的分类不匹配(下划线区域132、136、142、146)，则可以使用关于反馈的附加信息(例如专家知识)来调整一种或两种技术。在应用过程中，通过连续反馈，M1和M2可以稳定地被调整；将需要越来越少的反馈，直到理想地最终将正确地分类整个状态空间。

作为第二更新(第二更新步骤)，与一种单一方法(图2a至2c中的右手侧)相比，互补技术的组合(图2a至2c中的左手侧)的利用将取得成功，因为一种单一技术需要更多的反馈(灰色(阴影)区域)。在这种情况下，由于错误肯定结果的数量趋向于较高，所以使用M1类型的单一技术，对于所有F结果获得反馈。由于错误否定结果的数量趋向于较高，所以使用M2类型的一种单一技术(未描绘)，将对于所有N结果获得反馈。

与图2a至2c相比，作为示例，图3a至3c示出第一分类技术(M1)将第二类的数据(例如错误数据)的区域127错误分类为第一类的数据(例如正常数据)的情况。

作为分类结果，在图3a中为区域127指示(N，N，F)，即第一分类技术将区域127的数据分配给数据的第一类(例如正常数据)，以及第二分类技术也将区域127的数据分配给数据的第一类(例如正常数据)。然而，实际上，区域127的数据是第二类的数据(例如错误数据)，因此两种分类技术的分类结果都是错误的。因此，在随后的(迭代)更新步骤中，将调整两种分类技术(或两种分类技术的分类标准)。

在这种情况下，传统的分类技术产生(N，F)作为区域141的分类结果，即单一分类技术将区域127的数据分配给数据的第一类(例如正常数据)。然而，实际上，区域127的数据是第二类的数据(例如错误数据)，因此单一分类技术的分类结果是不正确的。

如图3b的左手侧所示，(N，F，F)被指示为调整之后区域127的分类结果，即第一分类技术将区域127的数据分配给数据的第一类(例如正常数据)，而第二分类技术已经将区域127的数据分配给数据的第二类(例如错误数据)。因此，第一分类技术的分类结果继续不正确，使得在随后的更新步骤中将调整第一分类技术(或第一分类技术的分类标准)。

此外，传统的分类技术仍然提供(N，F)作为图3b中区域141的分类结果，即单一分类技术将区域127的数据分配给数据的第一类(例如正常数据)。然而，实际上，区域127的数据是第二类的数据(例如错误数据)，因此单一分类技术的分类结果是不正确的。由于仅获得F结果的反馈，所以不进行调整(区域没有下划线)。

换句话说，图3a至3c示出通过反馈的更新机制的图示。详细地，图3a至3c示出两种互补技术的组合的方法与单一技术的比较。与图2a至2c相比，本文描述了M1产生错误否定结果的情况。当使用单一技术时(图3a至3c中的右手侧)，M1的校正是不可能的。然而，组合两种互补技术使能执行相应的调整(见图3c)。以此类推，在M2产生错误肯定结果的情况下，M2可被校正。

下面将描述第一分类技术和第二分类技术的示例性实现。

作为第一分类技术(技术1(M1))，可以使用用于“离群点检测”的技术。这包括各种数据挖掘和机器学习技术，例如多元线性回归、聚类(聚类形成)、定性模型等。这种技术的决定性之处在于，它是基于专有地包括类1(N数据)的训练数据集训练的。如果需要，可以借助于还包含类2的数据(F数据)的测试数据集调整用于使用的技术的参数。

作为第二分类技术(技术2(M2))，可以使用基于规则的技术；规则可以例如以人工方式(基于专家知识)来制定，或者可以使用(二元)分类技术，例如支持向量机、决策树、逻辑回归、神经网络等。甚至专家规则和自动生成的规则/分类器的组合的集合也是可能的。用于M2的训练数据集可包含F数据和N数据两者。作为从相应的训练数据集自动提取规则的技术，可以使用决策树或决策森林。对于使用专家规则来说，决定性的是它们可以基于已知的错误(从属于类2)来制定。

在下文中，将更详细地描述分类数据的方法100的(迭代或连续)更新过程。

在第一步骤中，可以使用仅包含N数据的训练数据集。第一分类技术(M1)可以在该组训练数据上被训练。M1可能需要的任何参数可以被初始估计或者通过交叉验证的方式来确定。

在第二步骤中，可能已经知道的错误可以被制定为规则。然后，这些可以形成第二分类技术(M2)的起点。否则，可以对M2使用默认值，其将每个数据点分类为N数据点。

在第三步骤中，M1和M2可以并行地应用于未知数据集(其将被分类)。对于未知数据集的每个数据点，M1和M2各自可以提供独立的分类(N或F)。确定偏离结果的数量，即其中由M1的分类≠由M2的分类。

在第四步骤中，一旦相互偏离的结果的数量超过某一指定阈值，就可以将所述结果与例如由专家、系统的用户或由任何其它源进行的实际分类(E)进行比较。随后，M1和M2可以以如下方式进行调整：

如果具有(M1＝F、M2＝N、E＝N)的结果的数量超过给定数量，则可以调整M1(调整训练数据集)，即可以用来自(M1＝F、M2＝N、E＝N)结果的相应数量的随机选择的数据点替换来自M1的训练数据集的给定数量的随机绘制的数据点。

如果具有(M1＝F、M2＝N、E＝F)的结果的数量超过给定数量，则可以调整M2(调整训练数据集)，即可以用来自(M1＝F、M2＝N、E＝F)结果的相应数量的随机选择的数据点替换来自M2的训练数据集的F数据的给定数量的随机绘制的数据点。如果迄今为止M2的训练数据集仅包含N数据，则可以将从(M1＝F、M2＝N、E＝F)结果中随机选择的给定数量的数据点添加到M2的现有训练数据集。

如果具有(M1＝N、M2＝F、E＝N)的结果的数量超过给定数量，则可以调整M2(调整训练数据集)，即用来自(M1＝N、M2＝F、E＝N)结果的相应数量的随机选择的数据点替换来自M2的训练数据集的N数据的给定数量的随机绘制的数据点。如果M2的训练数据集还不存在，则来自(M1＝N，M2＝F，E＝N)结果的给定数量的随机选择的数据点可以用作M2的初始训练数据集。

如果具有(M1＝N、M2＝F、E＝F)的结果的数量超过给定数量，则可以调整M1(调整参数)，即可以用来自(M1＝N、M2＝F、E＝F)结果的相应数量的随机选择的数据点来代替来自M1的测试数据集的F数据的给定数量的随机绘制的数据点。如果M1的测试数据集还不存在，则从(M1＝N，M2＝F，E＝F)结果中随机选择的给定数量的数据点可以用作M1的初始测试数据集。最佳参数可以通过交叉验证的方式同时考虑测试数据集来确定。

在第五步骤中，可以在新的训练数据集上或者利用新的参数训练M1和M2。

在第六步骤中，重复步骤三至六。

图4示出根据本发明的实施例的用于将信息分类为第一类或第二类的分类处理器200的示意图。分类处理器200包括两个并行的分类级202和204以及更新级206。两个分类级202和204的第一分类级202被配置为如果信息满足第一类的分类标准，将信息分配给第一类，并且如果信息不满足第一类的分类标准，将信息分配给第二类。两个分类级的第二分类级204被配置为如果信息满足第二类的分类标准，将信息分配给第二类，并且如果信息不满足第二类的分类标准，将信息分配给第一类，第一类和第二类彼此不同。更新级被配置为在由两个分类级执行的信息的分配彼此偏离的情况下或者在已经达到由两个分类级进行的信息的相互偏离的分配的预定数量的情况下，更新两个分类级中的至少一个的分类标准。

通过组合不同的、互补的技术，实施例提供了具有高度鲁棒性和准确性的分类方法(或分类处理器或分类器)。此外，连续反馈使能在应用过程中的准确性能够持续提高，并且能够适应修改的外部环境，或者检测新出现的错误。使用两种互补技术的组合的决定性优点在于，必要反馈操作的比例小于使用一种单一技术的比例，并且在应用过程中将减小。

本发明的实施例可用于垃圾邮件过滤、肿瘤检测、信用卡诈骗的识别和技术设备中的错误检测。

在实施例中，由方法100分类的信息可以是例如传感器数据(或传感器值)的集合的传感器数据(或传感器值)。

在实施例中，传感器数据可以由一个或多个外部传感器(例如技术设备)检测。

在实施例中，传感器数据可以是例如温度、压力、体积流速或致动信号。

在实施例中，当通过两种分类技术将信息分配给第一类时，可以输出第一信号。例如，第一类信息可以是正常信息(例如，位于预定传感器数据区(或目标测量值区)内的传感器数据(或测量的传感器值))；第一信号可指示(例如技术设备的)操作的正常状态。

在实施例中，当通过两种分类技术将信息分配给第二类时，可以输出第二信号。例如，第二类信息可以是错误信息(例如，位于预定传感器数据区域(或目标测量值区域)之外的传感器数据(或测量的传感器值))；第二信号可指示(例如技术设备的)操作的故障状态。

在实施例中，当通过分类技术将信息分配给不同类时，可以输出第三信号。

在实施例中，方法可以用于检测技术设备(例如服务设备)中的错误并报告错误。

在实施例中，传感器的时间序列数据(例如温度、压力、体积流速、致动信号)可以用作方法的输入数据。

在实施例中，分配给时间点的所有或选择的传感器数据可被认为是数据点。

在实施例中，每个数据点可以被该方法分类为正常、错误或未知。

在实施例中，将数据点分类为错误可指示技术设备的操作中的错误，从而可以消除所述错误。

在实施例中，当该方法的补充技术建议不同的分类时，可发生为未知的分类。

在实施例中，可以使用进一步(外部)信息(例如，关于实际类分配的知识)来对具有“未知”的分类的数据点进行分类。

在实施例中，实际分类可以用于更新，以及因此改进该方法的基础技术。例如，关于实际分类的信息可以由用户(例如，设施管理者)提供。然而，应当注意，分类标准的更新是由算法而不是由用户来执行的。

在实施例中，在应用过程中可以减少被分类为未知的数据点的数量，误分类的数据点的数量也减少。

在实施例中，该方法使能分类适应于变化的框架条件(例如，从加热切换到冷却)以及新类型的错误的检测。

在实施例中，没有任何进一步(例如，由用户提供的)(外部)信息的“未知”类的数据点可以总是被认为是错误，或者可以总是被认为是正常的。

尽管在设备的上下文中描述了一些方面，但是应当理解，所述方面也表示相应方法的描述，从而设备的块或结构组件也应当被理解为相应的方法步骤或方法步骤的特征。与之类推，已经结合方法步骤或作为方法步骤描述的方面也表示相应装置的相应块或细节或特征的描述。例如，一些或所有方法步骤可以由例如微处理器、可编程计算机或电子电路的硬件设备(或在使用硬件设备时)执行。在一些实施例中，一些或若干最重要的方法步骤可以由这样的设备执行。

根据本发明编码的信号，例如音频信号或视频信号或载波流信号，可存储在数字存储介质上，或者可以在例如无线传输介质或有线传输介质(例如因特网)的传输介质上发送。

根据本发明编码的音频信号可以存储在数字存储介质上，或者可以在例如无线传输介质或有线传输介质(例如因特网)的传输介质上发送。

取决于特定的实现要求，本发明的实施例可以以硬件或软件实现。可以使用数字存储介质实现实施，所述数字存储介质例如软盘、DVD、蓝光盘、CD、ROM、PROM、EPROM、EEPROM或闪存、硬盘或任何其它磁或光存储器，所述磁或光存储器具有存储在其上的电可读控制信号，所述电可读控制信号可以与可编程计算机系统协作或能够协作，以便执行相应的方法。这就是数字存储介质可以是计算机可读的的原因。

因此，根据本发明的一些实施例包括包含能够与可编程计算机系统协作以执行本文所述的方法中的任一个的电子可读控制信号的数据载体。

通常，本发明的实施例可被实现为具有程序代码的计算机程序产品，当该计算机程序产品在计算机上运行时，该程序代码有效地执行方法中的任一个。

例如，程序代码还可存储在机器可读载体上。

其它实施例包括用于执行本文所述的方法中的任一个的计算机程序，所述计算机程序存储在机器可读载体上。

换句话说，因此，本发明方法的实施例是计算机程序，其具有当计算机程序在计算机上运行时用于执行本文所述的方法中的任一个的程序代码。

因此，本发明方法的进一步实施例是数据载体(或数字存储介质或计算机可读介质)，在其上记录用于执行本文所述的方法中的任一个的计算机程序。数据载体、数字存储介质或计算机可读介质通常是永久的和/或非瞬态的和/或非暂时性的。

因此，本发明方法的进一步实施例是表示用于执行本文所述的方法中的任一个的计算机程序的数据流或信号序列。数据流或信号序列可被配置为例如经由数据通信链路(例如经由因特网)来传送。

进一步实施例包括处理装置，例如计算机或可编程逻辑设备，被配置为或适于执行本文所述的方法中的任一个。

进一步实施例包括计算机，其上安装有用于执行本文所述的方法中的任一个的计算机程序。

根据本发明的进一步实施例包括一种设备或系统，被配置为向接收器发送用于执行本文所述的方法中的至少一个的计算机程序。例如，该传输可以是电子的或光学的。例如，接收器可以是计算机、移动设备、存储器设备或类似设备。例如，该设备或系统可包括用于将计算机程序发送到接收器的文件服务器。

在一些实施例中，可编程逻辑设备(例如现场可编程门阵列、FPGA)可以用于执行本文所述的方法的一些或全部功能。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法中的任一个。通常，在一些实施例中，所述方法由任何硬件设备执行。所述硬件设备可以是任何通用的硬件，例如计算机处理器(CPU)或图形卡(GPU)，或者可以是专用于该方法的硬件，例如ASIC。

例如，当使用硬件装置时，或者当使用计算机时，或者当使用硬件装置和计算机的组合时，可以实现本文所述的设备。

本文所述的设备或本文所述的设备的任何组件可以至少部分地以硬件或软件(计算机程序)实现。

例如，当使用硬件装置时，或者当使用计算机时，或者当使用硬件装置和计算机的组合时，可以实现本文所述的方法。

本文所述的方法或本文所述的设备的任何组件可以至少部分地由硬件或软件执行。

上述实施例仅代表本发明原理的说明。应当理解的是，本领域的其他技术人员将理解本文所述的布置和细节的任何修改和变化。这就是本发明仅由所附权利要求的范围而不是由通过实施例的描述和讨论所呈现的特定细节来限制的原因。

Claims

1.一种将信息分类为第一类或第二类的计算机实现的方法，所述方法包括：

对所述信息应用第一分类技术，以便如果所述信息满足所述第一类的分类标准，将所述信息分配到所述第一类，以及如果所述信息不满足所述第一类的分类标准，将所述信息分配到所述第二类；

对所述信息应用第二分类技术，以便如果所述信息满足所述第二类的分类标准，将所述信息分配到所述第二类，以及如果所述信息不满足所述第二类的分类标准，将所述信息分配到所述第一类；以及

在由两种分类技术执行的所述信息的所述分配彼此偏离的情况下，或者在已经达到由所述两种分类技术执行的信息的相互偏离的分配的预定数量的情况下，更新所述两种分类技术中的至少一种的所述分类标准；

其中所述第一类和所述第二类彼此不同；

其中所述方法用于技术设备中的错误检测；

其中所述方法分类的所述信息是传感器数据；

其中所述方法还包括：

如果所述信息已经由两种分类技术分配给所述第一类，输出第一信号；

如果所述信息已经由两种分类技术分配给所述第二类，输出第二信号；以及

如果所述信息已经由两种分类技术分配给不同类，输出第三信号。

2.如权利要求1所述的计算机实现的方法，其中所述第一信号指示所述技术设备的操作的正常状态；

其中所述第二信号指示所述技术设备的操作的故障状态。

3.如权利要求1所述的计算机实现的方法，其中所述第一分类技术和所述第二分类技术相互互补。

4.如权利要求1所述的计算机实现的方法，其中使用关于所述信息的实际类分配的知识来更新所述两种分类技术中的至少一种。

5.如权利要求1所述的计算机实现的方法，其中所述信息是数据；或者其中所述信息是数据集的数据，所述数据集的数据通过所述方法被个别地分类。

6.如权利要求1所述的计算机实现的方法，其中所述第一分类技术是离群点检测技术。

7.如权利要求6所述的计算机实现的方法，所述方法包括：

在初始化阶段期间，专有地使用所述第一类的信息初始化所述第一分类技术。

8.如权利要求1所述的计算机实现的方法，其中所述第二分类技术是基于规则的技术。

9.如权利要求8所述的计算机实现的方法，所述方法包括：

在初始化阶段期间，专有地使用所述第二类的信息或使用专有地基于所述第二类的已知分类信息的分类标准初始化所述第二分类技术。

10.如权利要求1所述的计算机实现的方法，其中在初始化阶段之后的训练阶段期间，如果实际上应当被分配给所述第一类的预定数量的信息已经由所述第二分类技术正确地分配给所述第一类，但是已经由所述第一分类技术错误地分配给所述第二类，则用于训练所述第一分类技术的训练信息集中的至少一些被替换，以便通过将所述第一分类技术重新应用于替换的训练信息集来更新所述第一分类技术的所述分类标准。

11.如权利要求1所述的计算机实现的方法，其中在初始化阶段之后的训练阶段期间，如果实际上应当被分配给所述第二类的预定数量的信息已经由所述第一分类技术正确地分配给所述第二类，但是已经由所述第二分类技术错误地分配给所述第一类，则用于训练所述第二分类技术的所述第二类的训练信息集中的至少一些被替换，以便通过将所述第二分类技术重新应用于替换的训练信息集来更新所述第二分类技术的所述分类标准。

12.如权利要求1所述的计算机实现的方法，其中在初始化阶段之后的训练阶段期间，如果实际上应当被分配给所述第一类的预定数量的信息已经由所述第一分类技术正确地分配给所述第一类，但是已经由所述第二分类技术错误地分配给所述第二类，则用于训练所述第二分类技术的所述第一类的训练信息集中的至少一些被替换，以便通过将所述第二分类技术重新应用于替换的训练信息集来更新所述第二分类技术的所述分类标准。

13.如权利要求1所述的计算机实现的方法，其中在初始化阶段之后的训练阶段期间，如果实际上应当被分配给所述第二类的预定数量的信息已经由所述第二分类技术正确地分配给所述第二类，但是已经由所述第一分类技术错误地分配给所述第一类，则用于训练所述第一分类技术的训练信息集中的至少一些被替换，以便通过借助于更新的测试数据集重新训练所述第一分类技术来更新所述第一分类技术的所述分类标准。

14. 一种分类处理器，用于将信息分类为第一类或第二类，所述分类处理器包括：

两个并行的分类级，两个分类级中的第一分类级被配置为如果所述信息满足所述第一类的分类标准，将所述信息分配给所述第一类，并且如果所述信息不满足所述第一类的分类标准，将所述信息分配给所述第二类，两个分类级中的第二分类级被配置为如果所述信息满足所述第二类的分类标准，将所述信息分配给所述第二类，以及如果所述信息不满足所述第二类的分类标准，将所述信息分配给所述第一类，所述第一类和所述第二类彼此不同；以及

更新级，被配置为在由所述两个分类级执行的所述信息的所述分配彼此偏离的情况下或者在已经达到由所述两个分类级进行的信息的相互偏离的分配的预定数量的情况下，更新所述两个分类级中的至少一个的分类标准，

其中由所述分类处理器分类的所述信息是传感器数据；

其中所述分类处理器被配置为如果所述信息已经由所述两个分类级分配给所述第一类，输出第一信号；

其中所述分类处理器被配置为如果所述信息已经由所述两个分类级分配给所述第二类，输出第二信号；以及

其中所述分类处理器被配置为如果所述信息已经由所述两个分类级分配给不同类，输出第三信号。

15.如权利要求14所述的分类处理器，所述分类处理器用于技术设备中的错误检测。