CN109585023A

CN109585023A - 对噪声数据进行智能数值分类的方法和系统

Info

Publication number: CN109585023A
Application number: CN201811136977.0A
Authority: CN
Inventors: 陈德铭; 周子捷
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2017-09-29
Filing date: 2018-09-28
Publication date: 2019-04-05
Anticipated expiration: 2038-09-28
Also published as: US20190102443A1; CN109585023B; US11263230B2

Abstract

一种数据处理系统和相关的方法。所述系统(100)包括输入接口(IN)，所述输入接口用于接收要针对目标进行数据挖掘的数据。分类器(CAT)被配置为计算适合于对所述数据进行分类的一个或多个类别运算符。由所述分类器(CAT)对类别运算符的计算包括计算度量。所述系统还包括输出接口(OUT)，所述输出接口用于输出这样计算的一个或多个类别运算符。

Description

对噪声数据进行智能数值分类的方法和系统

技术领域

本发明涉及数据处理系统、数据处理方法、数据装置，并且涉及计算机程序单元和计算机可读介质。

背景技术

健康护理行业使用管理系统，诸如心血管信息系统(CVIS)或临床数据存储库(CDR)。

这样的数据管理系统可以记录针对专业领域、诸如心脏科室或其他科室中的患者的大量属性(或性质)。

在这样的数据管理系统中的数据可以由数据分析工具进行分析以找到模式，用于建模和预测性分析。

从申请人的WO2016/030436A1、WO2017/072010A1以及WO2017/072628A1中获知了针对这样的数据的视觉分析和模式发现工具，用于针对域用户以视觉和交互的方式的高级数据分析。在数据中搜索模式是数据挖掘的实例。

模式发现工具可以被用于针对少量(并且甚至稀少)目标的可解释预测性建模，其比例为总数据的低到2％(或者甚至更低)。针对这样的稀少目标的挖掘在现实应用中可能是有用的：在医学领域中稀少但是有用的目标的范例包括：不利心脏事件、不满足关键性能指示符(KPI)的情况以及健康护理中有故障的成像机器。

从历史现实数据中找到针对目标、特别是针对稀疏目标的可解释预测模型是有价值但有挑战的。在心脏科室中具有真实使用案例的一个范例是在患者经历被称为经皮冠状动脉介入术(PCI)以处置狭窄心脏血管之后找到死亡结果的模式。以数据驱动的方式，利用统计学上显著的预测能力发现的死亡结果的模式能够提供超出针对高级临床研究和潜在临床研究的常规领域经验的新(有时惊人)的发现。

为了处理混合数值和类别数据，现有的预测方法或者是通过将所有属性处置为数字而牺牲可解释性，或者是通过仅利用类别属性而牺牲潜在有价值的信息。在将所有属性处置为数字的前一种情况下，如线性或逻辑回归的范例将估计针对从打标签的历史数据获知(训练)的其预测模型中的数值属性的特定系数(权重)。

现有的模式发现系统仅仅利用类别数据属性工作，以便生成可解释的模式。针对数值数据属性，其依赖于具有变换规则的配置模块，所述配置模块利用域知识对其进行分类。例如，能够根据地方临床指南将身体质量指数(BMI)分类为正常或异常。然而，在现实应用中，数值属性未必具有针对分类的已知指南，并且一般的指南可能不捕获数据特定属性。例如，处置狭窄心血管的支架的长度没有任何指南，但是这种信息对于心脏科中预测不利临床结果仍然是有用的。

发明内容

因此，可能需要对数据的经改进的处理。

本发明的目的是由独立权利要求的主题来解决的，其中，在从属权利要求中并入了另外的实施例。应当指出，本发明的下文所描述的方面(“第一方面”)同样适用于数据处理的方法、计算机程序单元和计算机可读介质。

根据本发明的第一方面，提供了一种数据处理系统，包括：

输入接口，其用于接收要针对给定目标的模式进行数据挖掘的数据；

分类器，其被配置为计算一个或多个类别运算符，所述一个或多个类别运算符适合于对所述数据进行分类，其中，所述分类器对所述类别运算符的所述计算包括计算度量；以及

输出接口，其用于输出这样计算的一个或多个类别运算符。

如在本文中所使用的，术语“类别运算符”指代允许对数据中的给定属性进行分类的表达式。例如，类别运算符包括能由数字定义的阈值、单个范围和多个范围。阈值由作为其边界的单个数字来定义。对于(一个或多个)范围而言，需要一对或多对数字，其定义相应的上边界和下边界。如由所述类别运算符表达的比较的方式(例如，“<”相对于“>＝”等)定义其类型。

所述度量是类别运算符的参数的函数。所述参数包括针对要计算的类别运算符来定义(一个或多个)边界的类型和/或一个或多个数值变量。为了允许得到改善的结果，在优选实施例中，如在本文中设想到的，所述度量此外是目标自身的函数。

根据一个实施例，所述传统包括数据挖掘部件，所述数据挖掘部件被配置为针对模式来挖掘或帮助用户挖掘由所述一个或多个类别运算符分类的数据。

已经发现，利用一些数据挖掘工具，一些分类产生比其他分类更好的结果。数据挖掘是发现模式、亦即数据的属性与目标之间的关系的过程。目标是感兴趣的一个或多个量。

根据一个实施例，所述度量包括以下中的任一项：i)基于熵的量，特别是信息增益或Kullback–Leibler散度，ii)误分类错误，iii)Gini指数。具体地并且优选地，所述分类器被配置为通过针对度量进行优化来计算运算符，所述度量被适当地选取以表示期望的性质，诸如信息增长(在信息理论的意义上)或者允许定义希望计算的分类的期望性质的其他量。

根据一个实施例，所述分类器能够基于所述类别运算符被实施为信息增益最大化算法(或者误分类错误最小化或Kullback–Leibler散度)。

由所计算的类别运算符而分类的数据由数据挖掘部件来处理。所述数据挖掘部件运行适合的模式发现算法以发现基础模式。所述模式可以由模型构成，诸如在决策树学习算法中的构造的决策树等。备选地，所述数据挖掘部件是交互式的，因为其帮助用户发现所述模式。特别是针对所谓的“可解释”、更加图形驱动的数据挖掘工具而言，就是这种情况。针对这样的数据挖掘工具，针对当前目的的“模式”还可以包括图形表示，其经过适当的色彩编码或形状编码以表示目标与分类的属性之间的关系，所述分类基于由分类器计算的类别运算符。所设想到的可解释数据挖掘算法包括基于类别运算符的规则生成、逻辑回归等。

根据一个实施例，所述数据包括具有至少一个缺失值的至少一个记录，其中，所述分类器被配置为在计算所述一个或多个类别运算符中的至少一个类别运算符时忽略所述至少一个记录。

能够通过如上文所提到地忽略具有至少一个缺失值的记录来实现相对于数据中的噪声的鲁棒性。具体地，当运行算法以计算CO时，跳过针对相关属性的缺失值，并且所述计算仅仅基于来自其他记录的非缺失值。这防止了经由移除缺失的记录或属性而引起的信息丢失。所述分类器针对缺失值检查每种属性，并且如果发现了缺失值，则仅在非缺失值上计算类别运算符。具体地，如在本文中所提出的分类器不尝试由来自其他记录的内插或外插来填充缺失值。具体而言，在用于计算类别运算符的算法中不输入针对缺失值的替换值。这是因为，有时已经观测到以这种方式“填充”针对属性的缺失值可察觉地扭曲了类别运算符计算的结果。对于针对特定属性的缺失值，可以忽略记录，但是稍晚相对于另一属性仍然可以将其包括在内，如果在针对另一属性的记录中存在值的话。优选地，在针对不同属性的各自类别运算符的计算之间“即时”执行对缺失值的检查。换言之，缺失值检查操作和类别运算符计算是交织的。这能够在嵌套循环方案中实施。这允许快速呈现结果，即使对于大的数据集也是这样，而不是在计算所述类别运算符之前一直检查整个数据集。具体地，利用所提出的系统，在能够开始分类之前，不需要数据清洁。

根据一个实施例，所述系统包括用户界面，所述用户界面允许用户改变以下中的任一项或组合：i)数据，ii)所计算的一个或多个类别运算符，并且响应于所述改变，i)所述分类器被配置为重新计算所述一个或多个类别运算符，和/或ii)所述数据挖掘部件被配置为重新挖掘所述数据。优选地，所述用户界面是图形用户界面，其被绘制以在显示单元上显示。换言之，尽管在本文中优选设想到了分类器自动执行对类别运算符的计算，但是用户仍然能够使用所述界面对结果进行微调以例如结合域知识。

根据一个实施例，图形显示生成器被配置为在显示单元上绘制图形显示，所述图形显示包括所述模式的表示和/或所述分类数据的表示。

根据一个实施例，所述分类器被配置为计算多个所述类别运算符并且被配置为根据所述度量对所述多个类别运算符进行排序。

根据一个实施例，所述图形显示生成器被配置为实现对这样排序的类别运算符中的一些或全部类别运算符的显示。

根据一个实施例，所述系统包括转换部件，所述转换部件被配置为在所述分类器CAT计算所述类别运算符之前根据所述数据中的多个串值的频率和/或相似性将其缩减成数值的值。换言之，实现尺度缩减以加快对类别运算符的计算。

根据本发明的第二方面，提供了一种数据处理系统，包括：

分类器和/或数据挖掘部件，所述分类器被配置为计算适合于对要针对模式进行数据挖掘的数据分类的一个或多个类别运算符，所述数据挖掘部件被配置为然后针对模式对所述数据进行挖掘，以及

用户界面，其被配置为允许用户改变以下中的任一项或组合：i)数据，ii)所计算的类别运算符，并且响应于所述改变，所述分类器被配置为重新计算所述一个或多个类别运算符和/或所述数据挖掘部件被配置为重新挖掘所述数据。

根据本发明的第三方面，提供了一种数据处理的方法，包括以下步骤：

接收要针对目标进行数据挖掘的数据；

计算一个或多个类别运算符，所述一个或多个类别运算符适合于对所述数据进行分类，其中，对所述类别运算符的计算包括计算类别度量；并且

输出这样计算的一个或多个类别运算符。

根据一个实施例，所述方法包括：

提供用户界面并且通过其接收用户的请求以改变以下中的任一项或组合：i)数据，ii)所计算的一个或多个类别运算符，并且

响应于所述改变，重新计算所述一个或多个类别运算符和/或ii)所述数据挖掘部件被配置为重新挖掘所述数据。优选地，所述用户界面是图形用户界面，所述图形用户界面被绘制以在显示单元上显示。

优选地，所述用户界面是图形用户界面，并且通过在显示装置上对其进行显示来提供所述用户界面。

根据一个实施例，所述方法包括在显示单元上绘制图形显示，所述图形显示包括所述模式的表示和/或分类数据的表示。组合对所述图形用户界面的显示，可以进行对模式的显示和/或分类的数据的显示。

根据一个实施例，所述方法包括计算多个所述类别运算符并且根据所述度量对所述多个类别运算符进行排序。

根据一个实施例，所述方法包括实现对这样排序的类别运算符中的一些或全部类别运算符的显示。

根据一个实施例，所述方法包括在计算所述类别运算符之前根据其频率和/或相似性将所述数据中的多个串值缩减成数值的值。

根据本发明的第四方面，提供了一种数据处理的方法，包括以下步骤：

计算适合于对要针对模式进行数据挖掘的数据分类的一个或多个类别运算符，和/或

针对模式对所述数据进行数据挖掘，并且

生成用户界面，所述用户界面被配置为允许用户改变以下中的任一项或组合：i)所述数据，ii)所计算的类别运算符；并且

响应于所述改变，重新计算所述一个或多个类别运算符和/或重新挖掘所述数据。

根据本发明的第五方面，提供了一种装置，包括：根据先前所提到的各方面或实施例中的任一个的系统，以及保持所述数据的数据存储器。

根据本发明的第六方面，提供了一种计算机程序单元，所述计算机程序单元当由至少一个处理单元运行时适于使所述处理单元执行根据上文所提到的各方面或实施例中的任意方面或实施例的方法。

根据本发明的第七方面，提供了一种在其上存储有程序单元的计算机可读介质。

附图说明

现在将参考以下附图(并非按比例的)来描述本发明的示范性实施例，在附图中：

图1示出了数据处理系统的框图；

图1A示出了能由图1的系统处理的数据的示意图；

图2示出了根据一个实施例的由图1的系统生成的图形显示；

图3示出了用于图形用户界面的图形显示的另一实施例；

图4示出了根据针对图形用户界面的另一实施例的图形显示；并且

图5示出了数据处理的方法的流程图。

具体实施方式

参考图1，示出了用于处理被保持在数据库DB或其他存储器中的数据的计算机化的装置100的示意性框图。更具体地并且非常宽泛地讲，所述装置包括一个或多个处理单元PU，所述一个或多个处理单元提供功能，所述功能允许数据库DB中的数据的一些或全部数据被分类，并且任选地出于数据挖掘的目的而处理分类的数据，以发现在所述数据中(可能潜在地)编码的特定感兴趣模式。这样的模式例如可以包括确定性或统计学关系或规则(无论是明确或暗示的)、群集等，如将更详细描述的。

计算机化的装置100主要被设想用于处理医学数据，诸如被保持在临床数据存储库CDR中的数据，例如在心血管信息系统CVIS中的数据。CVIS保持经受心脏介入、特别是经皮介入(PCI)的患者的记录，其中，在患者的血管中放置支架以处置狭窄。尽管在本文中不排除其他医学应用，但是下文将频繁地回顾关于CVIS数据的这种特定范例。为避免疑惑，在本文中也未排除非医学领域的应用，例如，计算机或通信网络的控制或管理、其他设备和机器(例如，机器人、车辆等)的管理。

根据一个实施例，所述计算机化的装置被配置为一种具有智能自动数值分类功能的预测分析系统，其用于预测被保持在数据存储器DB中的潜在噪声数据上的感兴趣目标。换言之，所述装置允许对数据进行“智能”数值分类，因为分类是自动执行的，然而其允许用户交互地对结果进行微调或覆写(override)，从而仍然结合了用户的领域知识合并。

在描述数据处理装置100的进一步的细节之前，现在参考插图1A。图1A示出了在本文中能处理的数据集DS的示意性表示。优选地，但是未必在所有实施例中，所述数据是结构化的并且能布置成行和列，如在图1中所示的。这种数据的示范性实施例是具有不同属性A1-AM的患者记录P1-PN。在图1A的表示中，“A1”-“AM”表示字母数值串，每个字母数值串代表患者P_j可能有或者可能没有的特定属性。可能的感兴趣属性例如包括年龄、身体质量指数、所经历的医学处置的类型、所使用的医学方法以及关于在介入中所使用的医学装置的细节等。再次地，尽管在本文中将主要参考医学应用和医学患者记录，但是这仅仅是出于阐明所提出的装置100的操作原理的目的，而并非将本公开限于医学应用。跨所有记录的一些属性具有特定值v_ij。值v_ij优选为数值，并且提供对相关联的属性的量化。例如，值v_ij指示针对适用于患者P_i的属性A_j的大小或量。例如，给定患者P_i可能以具有身体质量指数(“BMI”)25。因此，数字25是针对所述患者的属性“BMI”的值。同样地，如在图1A中所指示的，并非所有记录或属性都可以实际具有值。在一些情况下，可能存在具有缺失值的记录。例如，在图1A中分别由针对记录P1、P3在属性A2、A3处的空白项指示了这种情况。换言之，一些记录可以包括一个或多个空白串或者指示未针对该患者的特定属性记录任何值。一些记录可以包括针对一些属性但是并非针对其他属性的值。具有缺失值的原因可能简单地是尚未针对属性进行特定测量，或者是由于数据捕获失败，例如，错误地未向数据库中输入数据。上文所示的数据记录中的缺失的数据构成了数据噪声的实例，并且所提出的数据处理装置被配置为噪声容忍的并且是鲁棒的，如下文将更详细解释。将意识到，数据集DS的行和列的特定表示并非是限制性的。例如，还设想到了交换行和列的转置表示，以及其他表示，诸如十字指针结构，其未必被存储成如在图1中所示的行和列形式，但是能够在需要时变换成这样。然而，设想到的是利用属性对数据集DS进行结构化。数据集DS可能是高尺度的，因为患者数量能够高达数万、数十万，并且属性的数量可以为数十、数百或者甚至数千。

能够基于二分法(阈值化处理)或者单个或多个(数值)范围或区间对属性进行分类。对属性的分类引起对基本患者记录的分类。例如，某人可能对身体质量指数属性小于25的所有那些患者感兴趣。这是针对阈值运算符“小于25”的二分法或阈值化处理的实例。如在本文中所使用的，术语类别运算符指代允许对给定属性进行分类的表达或设备。更详细地并且更形式地，类别运算符(CO)是映射CO:D->{l1,l₂,…lp}，从域(例如，所有患者的集合)到离散标签集合{l1,l₂,…lp}，每个标签表示类别中的一个类别。能按照数值比较器定义每个类别运算符，所述数值比较器诸如是：

<*,>＝*,>*,<＝,*[*,*],[*,*),(*,*],(*,*) (1)

其中，在每个占位符“*”处需要数字。表达式(1)定义类别运算符的类型。

因此，CO是以下中的任一项：

<a,>＝,>a,<＝,a[a,b],[a,b),(a,b],(a,b)，其中，a,b<∞任意有限数字 (2)

换言之，(2)为区间定义：一侧(其中，单个数值边界“a”或阈值)或者两侧具有两个数值边界，下边界“a”和上边界“b”。每个特定比较器定义类别运算符的类型。换言之，类别运算符完全由以下参数定义：i)其类型(1)，以及ii)(一个或多个)特定数字a或a、b以填充占位符“*”。一旦指定了这些参数，就根据(2)中的任一项获得类别运算符。

还设想到了通过诸如[a₁,b₁],[a₂,b₂],…等多个区间的集合来分类，并且因此，是根据任意组合中的(2)的任何类型的运算符CO的任何集合。每个比较器可以对属性进行操作。每个类别具有“幂(power)”或“尺寸”，即属性满足所述比较器的那些域元(例如，患者x)的总数。CO^-1(l_j)＝{在D中的x|CO(x)＝“真”}，其中，“^-1”指示类别运算符CO的逆镜像。例如，比较器“BMI>25”的尺寸是身体质量指数小于25的所有那些患者的数量，等等。将意识到，每个类别运算符CO能够被翻转成其逻辑互补值。例如，运算符“BMI<25”的互补值是“BMI>＝25”，亦即，身体质量指数大于或等于25，等等。如果运算符CO是单个范围，互补值是所述范围外部的所有那些值。对于从不相交的多个范围的集合形成的运算符CO而言，逻辑互补值是满足不在那些多个范围中的任何范围中的所有那些属性值的类别运算符，等等。在本文中设想到的每个类别运算符与其能够进行运算的相应一个或多个属性相关联。分类运算符完全定义了基础域的分类。亦即，对于每个患者记录而言，通过针对相关属性应用类别运算符，能够决定患者/记录落在哪个类别之下。

如在本文中所设想到的，一旦已经找到了适当的类别运算符，数据就能分类。那么，针对感兴趣属性的数据和类别运算符可以形成数据挖掘或模式发现的基础，这两个术语在本文中是可交互使用的。宽泛地讲，在本文中设想的模式发现或数据挖掘中，要求上文所指示的变量之间的关系。具体而言，用户人工选择感兴趣的一个或多个目标变量。那么，可能问的问题是：“在这些目标变量与数据中的属性之间是什么关系？”更具体而言，可以对跨数据集的属性值的配置的哪种特定组合导致选定的特定目标感兴趣。更具体而言，并且作为针对经历经皮支架部署等的患者而收集的心血管数据的应用，可以要求该目标为介入的结果。这是二元目标，结果是在给定时刻在集合DS中记录的患者是死亡还是存活。针对该目标(结果＝“死亡”或“存活”)对患者记录进行数据挖掘那么可能揭示出哪些属性或其组合(年龄、身体质量指数、所使用支架长度等)对于患者是否能在介入后存活最有决定性。然后可以对新的患者(其记录尚未被处理)产生结果。显然，对于任何健康护理系统以及对资源的高效率管理而言，这都是非常有益的。

可以按照模型给出要发现的模式。“模型”可以在属性与目标之间的公式方面是明确的，或者可以是更隐含的，诸如基于所计算的类别运算符，神经网络的节点或者所构造的在每个叶处具有询问的决策树的分支的经适当调节的权重的集合，等等。所述模型也可以是统计学的而非确定性的。所述模型优选允许预测，因此在本文中可以将所述模型称为“预测式模型”。具体而言，在给定模型的情况下，然后能够针对不在初始数据集之中的“新数据”做出预测，判断具有给定属性的新数据是否将满足目标。例如，给定患者的历史，如由其记录中的属性所编码的，可能对给定患者是否将在介入后最终存活感兴趣。

在本文中可以通过任何适当的数据处理算法，特别是但未必是机器学习算法，诸如决策树、神经网络、支持矢量机(SVM)，来实施数据挖掘或模式发现。在本文中还设想到了其他算法，诸如回归技术、主成分分析(PCA)等。

除了上文所提到的基本全自动数据挖掘算法之外，设想到了另一类数据挖掘工具，其自身未被配置为发现模式，而是被配置为帮助人类用户通过与数据交互来发现模式。由于用户涉及的水平，因此可以将这种类型的可解释数据挖掘器工具称为“半自动的”。因此，在本文中将术语“挖掘数据”理解为覆盖这两种变化(以及这两者的组合)。在此将把后一种类型的数据挖掘工具称为“可解释”数据挖掘器工具。一种这样的类型的可解释数据挖掘工具允许用户通过适当的图形显示生成器将分类的数据映射到图形元素，所述图形元素然后被显示在屏幕上。所述图形元素包括几何元素、区域、形状并且具有色彩或色调。然后，可以通过改变区域尺寸、图形元素的色彩或色调而在视觉上调节类别与其相应尺寸之间的关系，以向关系下的用户做出视觉传达。这样的数据挖掘器工具的范例是在瀑布图、饼图、直方图或者其他视觉辅助上映射类别/CO的那些。除了或替代通过图形方式绘制所述类别，还与图形辅助替代或并行地计算并显示描述性统计结果，诸如平均值、标准偏差、假阳性数量、随机基线、统计学显著性(p值)、预测力(f量度)、差异比等。这可以允许通过视觉方式找到支配性因素以更好地理解目标的因果性。用于表现目标的支配性因素可以将自身呈现为特定类别的给定目标的较大的尺寸。例如，可能发现，未存活的那些患者的大部分具有高BMI。因此，发现BMI是针对特定介入的支配性因素，并且因此，也可以在决定继续介入之前把任何将来患者的BMI考虑在内。如从上文将理解的，特别针对可解释类型的数据挖掘工具而言，可能不必获得对预测性模型的完整描述。因为类别相对于目标的适当图形表示足以对类别的聚类或支配性因素进行可视化。例如，当基础域的相对大比例落在类别之内而同时符合目标时，可以将所述类别称为“支配性”的，并且适当地选取其类别运算符。

如果以有意义的方式、亦即以更清晰地揭示模式的方式对数据进行分类，则能够有效率地使用这些算法的一些算法，并且特别是作为如在本文中主要设想到的可解释算法。

那么所提出的装置100允许自动地并且合理地发现数据的适当分类。然后，能够将分类的数据馈送到如上文所讨论的适当数据挖掘算法中，以搜索属性与目标之间的模式。更具体而言，所提出的装置实施对数据的自动数值分类，其优选直接提供针对预测目标的信息并且能由用户直接解释，如针对可解释数据挖掘工具的情况。另外，所提出的系统100优选允许灵活的交互式用户分类，其允许针对现实应用结合域知识。简言之，所提出的数据处理装置允许智能数值分类，以用于预测性分析的目的。

更详细而言，并且现在返回图1的框图，装置100包括接口IN，所述装置能够通过所述接口访问数据库或存储器DB中的结构化数据DS。然后，针对属性的全部或子部选择，对数据的用户定义的选择或整体进行分类。这种子部选择通常是由用户进行的。由分类器部件CAT优选自动地执行分类。对此，分类器CAT针对所有或子部选择的属性计算类别运算符。所述分类器然后通过输出部OUT输出所计算的类别运算符。所输出的类别运算符然后由数据挖掘部件DMC用于计算模式或者至少方便由用户发现模式。优选地，所述数据挖掘部件DMC是如上文所解释的可解释类型的数据挖掘部件，但是也设想到了其他数据挖掘算法、基于机器学习或者如上文所讨论的其他算法。换言之，所述分类器能够被用作针对现有数据挖掘器(可解释的或者不可解释的)的预处理器。

可以通过由分类器CTA支持的数值系统建立用于发现类别运算符的合理依据。发现了，一些类别比其他类别更适合在对其进行挖掘时导出针对目标的模式/支配性因素。因此，提出了选取捕获这种适当性的度量。

在一个实施例中，所述度量允许定义一种系统，以确保所计算的类别运算符在相对于该度量的定义的意义上是最优的。

在本文中在一个实施例中设想的由分类器CAT对类别运算符的计算要求用户必须针对每个感兴趣属性预先具体指出所计算的类别运算符的类型。备选地，能够预先设置或自动选择所述类型。

如在本文中所提出地根据度量来计算类别运算符可以按照阈值a的函数来公式化，或者，如果寻求范围，则按照针对范围类型的类别运算符的上边界和/或下边界来公式化。具体而言，并且在一个实施例中，将最优性标准公式化为目标函数o()，这是单个边界的函数或者是一个或多个边界的函数，o(a)或者o(a₁,b₁,…,bj,aj,…)(j≥1)。所述目标函数映射到较早提到的度量中。所述度量为数字。因此，在本文中也可以将目标函数称为计分函数或成本函数。

CAT运行优化算法以优化目标函数o()并且从而找到针对类别运算符的边界a或边界a_j、b_j(j≥1)，其优化所述度量。针对边界进行优化以找到类别运算符而是一个算法实施例，并且在本文中也设想到了其他变型。设想到了任何类型的数值优化算法，诸如共轭梯度法、Newton Raphson法。备选地或另外地，可以使用搜索算法，诸如贪婪型算法等。优化可能需要最小化或最大化。优化可能未必返回全局最优结果(最小或最大)，但是一个或多个局部最优就足够了。同样地，一旦判定已经达到了充分的收敛，就可以甚至在达到局部最优之前更早地终止优化。在一个实施例中，使用信息增益的信息理论概念作为度量以找到最优分类。具体而言，可以将分类实施为信息增益最大化算法。更一般地，可以使用其他、特别是基于熵的度量、诸如Kullback–Leibler散度来定义度量，以找到最佳类别运算符。备选地，使用分类误差最小化。另外的实施例包括信息/预测性度量/量度的最大化，诸如Gini指数或误分类比例的倒数。优选地，包括所述目标作为度量的计算的输入，以导出目标特有类别运算符。

根据优化的性质，在下文中还将所述度量称为“分数”(或“成本”)。在下文中，将主要参考“分数”，但是全部所述内容都同样适用于在将度量定义为“成本”时。当度量要被最大化时使用“分数”，而如果要将度量最小化，则可以使用成本一词。

能够根据其相应最佳度量，例如在优化中计算的高分或低成本，对针对每个属性计算的类别运算符进行排序。

如将结合方法流程图更详细所解释的，所述分类器被配置用于实现相对于数据DS中的噪声具有增强的鲁棒性。在一个实施例中，这是通过使分类器CAT的优化算法忽略在相应考虑的属性处具有缺失值的数据集来实现的。具体而言，在一个实施例中，分类器CAT被配置为在针对存在(一个或多个)缺失值的给定属性优化分数时不计算缺失值的替代值或替换值，而是跳过这些记录，并且不将这些包括作为输入。

任选地，所述数据处理装置包括转换工具CC，其允许缩减属性的数量以使类别运算符的计算容易。这可以被称为尺度缩减。这是有利的，特别是针对大量患者数据记录而言，其可以包括多个表面上不同然而实际上与相同属性相关的属性。例如，在合并来自很多数据库的数据记录之后，例如，可以由不同的属性标识符来指示患者有糖尿病的属性，诸如“DIABETES”、“DIAB”、“DIB”、“DIM”或者其其他变体。在具有不必要的大量属性的这样的数据上运行所提出的分类器和数据挖掘部件可能需要大量CPU时间。因此，转换工具CC操作用于通过将不同属性变体的串值(其未必为数值)转换成相应数值的值而将相同属性的变体合并成单个。可以根据具有特定值的记录的频率或者在数据记录DS中出现的串的串相似性做出到数字的转换。可以使用霍夫曼编码或者基于距离的编码以将字母数值串(其未必是数字)编码成数字，同时保持属性之间在频率或相似性方面的基础关系，如上文所提到的。

一旦纯粹基于串模式匹配和相似性来访问数据记录，所述转换部件就自动执行这种尺度缩减，或者用户事先指定哪些属性被认为涉及相同属性并且因此是彼此的变体。

优选地，并且特别是对于数据挖掘器工具DMC的可解释变体而言，装置100包括图形显示生成器GDC，其被配置为在显示单元DU上生成图形显示GD，所述图形显示包括所发现的模式的表示。另外，或者替代地，也可以适当地、例如在根据其分数排序的列表中显示所计算的类别运算符。

优选地，所述系统包括用户界面UI形式的动态反馈环路，用户可以通过所述用户界面提供输入，以影响分类器CAT和/或数据挖掘部件DMC的计算。用户能够改变属性值、所计算的类别运算符、特别是其类型的任一种或组合以及其他改变。

优选地但未必一定地，所述用户界面被布置为图形用户界面GUI。对此，装置100包括用户界面生成器UIG，其被配置为在显示单元DU或不同的显示单元上产生用户界面UI的图形用户界面表示GUI。用户通过该用户界面GUI能够修改属性和/或所计算的类别运算符。在本文中还设想到了其他用户交互。在本文中设想到的用户交互是动态的，因为直接响应于用户输入改变，由挖掘器DMC或分类器CAT重新计算模式和/或类别运算符。优选地，图形用户界面UIG和图形显示生成器GDG协作或者被集成以产生图形界面GUI，以包括图形显示GD，用于呈现由分类器CAT所计算的模式和/或类别运算符。用户界面UI做出的用户交互包括，但不限于：添加或删除属性、改变属性值、或者改变类别运算符的类型。例如，并非简单地进行阈值化处理，用户可以将阈值改变为单个范围或者将阈值或单个范围分解成多个范围。

具体而言，一旦类别运算符的边界值a或b或者类别运算符的类型已经被改变和/或一旦用户操纵数据集DS中的属性，就重新启动分类器CAT以响应于其而重新计算类别运算符。另外，这样的改变还基于新的属性和/或新的类别运算符由数据挖掘部件DMC触发重新挖掘。

从上文将理解，改变阈值类型运算符中的单个边界或者改变范围类型运算符中的两个边界实质上是覆写针对由CAT先前计算的(一个或多个)边界的值的动作。如果进行这种动作中的任一个动作，则不重新计算分类，而是重新运行的仅仅是模式发现器DMC。然而，对于范围类型的类别运算符而言，仅改变边界之一将触发对另一个不变边界的重新计算。同样地，通过仅仅改变阈值类型运算符中的类型并且保持单个边界不变，这也将通常触发由分类器CAT的重新计算。

在以下图2-4中，我们讨论并且描述了能由用户界面生成器UIG生成的图形用户界面GUI的各实施例。在本文中，所述图形用户界面被配置为通过指针工具(诸如鼠标、触笔)、通过触摸屏中的触摸或者手势动作，进行图形和交互输入。在这样的方案中，所述图形用户界面被绘制为交互式桌面小部件的集合，其允许通过指针工具或触摸/手势选择所述桌面小部件命令来定义事件，而调用期望的改变。在事件驱动的框架中，事件由事件处理器处理，以从库或类似物中定位和调用适当的例程或功能。尽管在本文中GUI是优选的，但是这并非强制性的，并且在备选实施例中还设想到了非图形用户界面UI变体，诸如经由键盘的基于文本的输入方案或者经由麦克风的基于语音的输入等，并且还有基于这样的图形和非图形输入元素的组合的用户输入方案。

现在参考图2，这是由图形显示生成器和用户界面生成器UIG生成的图形显示GD的示意图。所述图形显示包括两个窗格。左侧示出的一个窗格是分类窗格202，其包括属性的图形表示210，优选与其标识符相关联地显示，所有标识符都被示意性示为“XXXX”，要理解，这些串通常是不同的：与PCI相关的条目可以包括：“心率”、“身高”、“体重”、“辐射剂量”、“年龄”、“消融编号”、“所用药物洗脱支架的编号”、“所用支架的编号”、“最长支架/处置段”、“最大气囊/所用的支架”、“尝试的支架内再狭窄的编号”、“损伤成功编号”、“尝试的损伤编号”等。

优选地，还存在要执行数据挖掘的(一个或多个)目标变量214的表示。

所述图形显示还包括与属性210相关联的、由分类器CAT计算的相关联的类别运算符212。优选地但未必一定地，根据在如较早解释的基于分数的优化中计算类别运算符导致的分数对属性进行列表和排序。

例如，列表中首先示出的属性达到最高分，而其下方的属性达到较低分，等等。还设想到了适于向用户表示排序的除列表格式之外的图形表示。

任选地，有额外的窗格，即数据挖掘工具204，以显示如由挖掘工具DMC提供的数据挖掘结果。窗格204例如包括数据挖掘结果的图形表示206。在图2中所示的示范性表示是具有级联的瀑布图，级联的相应宽度表示以百分比表示的类别运算符的相应尺寸。统计学描述，诸如“假阳性”、“f量度”、p值，被示于信息子窗格208a-c中。针对相应属性201并且特别是针对类别运算符212的那些属性的桌面小部件是交互式的，从而用户能够通过定点工具动作(例如，鼠标点击)或者通过手指/手势/触摸屏动作改变属性值和/或其类型。选择特定属性的桌面小部件允许访问具有编辑选项的相关联属性的列表，编辑选项诸如是改变、删除或添加值等。可以添加稍晚的、例如来自其他数据库查询的新属性，以使库数据完整。

图3中的特写示出了所提到的类别运算符改变功能的更详细视图。在本实施例中，在利用定点工具或触摸屏或针对属性210的相应标签上的手势动作点击时，用户调用桌面小部件305，其示出了当前的类别运算符以及其(一个或多个)不同的备选类型。在一个实施例中，这种类型的选择器桌面小部件305被布置为下拉菜单，但是也设想到了备选实施例。在所示的示范性实施例中，针对属性“年龄”(“大于74.5”)的类别运算符当前是活跃的。用户能够翻转并且将这种类型改变为逻辑互补类别运算符类型，在这种情况下，其得到类别运算符“小于或等于74.5”。如果这样做，事件处理器(未示出)发现用户请求改变类别运算符的类型，并且然后将该信息传播到分类器，所述分类器基于新选择的类别运算符的类型来重新运行所述计算。这样做的结果是，类别运算符的改变最可能导致所计算的模式的改变，其被工具DMC类似地更新，并且在图2的数据挖掘窗格204中显示被示为206的经更新的表示。能够提供类似的交互式编辑功能以如上文结合图2所描述地改变编辑属性值自身。

图4是允许用户改变范围类型的类别运算符的图形用户界面桌面小部件的又一实施例。具体而言，在本实施例中，能够改变边界以实质上覆写由分类器CAT计算的边界，以便使用户结合域知识。在一个实施例中，提供边界操纵器桌面小部件405作为如本图中示范性示出的双侧滑动工具。边界操纵器405使用户通过滑动左边界桌面小部件和右边界桌面小部件(被示为圆)来改变类别运算符的范围边界，所述左边界桌面小部件和所述右边界桌面小部件沿虚拟条元件虚拟可滑动。当前，如在图中举例示出的，属性“年龄”的下边界被设定为40，而上边界为85。通过滑动针对这些边界的相应桌面小部件，能够改变这些桌面小部件中的一个或者这两者。一旦这样请求改变，就发出适当的信号并且由事件处理程序截获以实现由DMC进行数据挖掘计算，并且相应地更新在窗格挖掘窗格204中进行相关联的绘制，特别是统计学结果208a-c和示意图206。另外，并且如上文结合图3所解释的，可以提供类型选择器305以使用户不仅改变(一个或多个)边界，而且还通过在开、关和两种开关区间定义、例如“[*,*]->[*,*)->(*,*]->(*,*)”之间切换来改变类型，这种特定顺序仅仅是示范性的，在本文中类似设想到了其他顺序。如果仅改变边界(上或下)之一，而另一个保持不变，则这种一侧边界改变请求将触发对不变边界的分类器的重新计算。在阈值/二分法类型的运算符中，将类型从>或<改变为其相应逻辑互补项＝<、＝>可以触发分类器CAT的重新计算，而改变边界值a是覆写操作，其通常将不触发分类器CAT重新计算类别运算符。在这后一种情况下，可以仅触发数据挖掘器部件以针对模式进行重新挖掘。

在图2-4的所有以上实施例中，为了帮助用户跟踪所述改变，适当的指示符可以向用户指示这种属性是否被改变，例如，通过显示备注或工具提示“未编辑”。GUI还可以包括“反转”按钮以反转到初始数据和设置。

在所有以上内容中，属性或类别运算符的改变将自动、优选准实时地触发重新计算和重新绘制以更新GUI，以允许用户快速地针对模式而挖掘数据DS。具体而言，在图2-4的以上GUI实施例的任一个GUI实施例中，如果用户请求类型或边界的改变，并且分类器CAT重新计算所述边界或类型，可以向用户示出前K(≥2)个最佳结果，而不是度量驱动的优化中最上方出现的单个结果。K(≥2)个最佳结果例如以可以被以列表形式示出在叠加的下拉菜单桌面小部件中。用户然后能够从列表中选择或重新选择并且观察和利用并且试验相关联的数据挖掘结果如何导致针对来自列表的不同选择的改变。但是这并非要排除备选实施例，其中所显示的仅仅是单个最佳分类结果(边界或类型)。

应该指出的是，在上文中，在适当的通信网络中通过有线或无线连接来连接装置100的各个部件。例如，可以设想针对装置100的基于云的架构，其中分类器CIT驻留在一个服务器中，而数据挖掘部件DMC由不同的、远程定位的服务器来运行。优选地，所述图形用户生成器运行于用户的最终终端处，诸如台式计算机、膝上型计算机、个人数字助理(PDA)、平板电脑、智能电话等上。在另一实施例中，部件CAT和DMC和UIG运行在用户的计算机上，而数据库管理系统DB在远程位于中央服务器处或者自身被分布在若干不同的数据库之间，从数据库能够收集数据。在本文中还设想到了其他架构的变化，包括所有部件都集中运行于单个服务器上的一种变化。

在备选方案中，或者作为补充，装置100的一些或所有部件可以被布置于硬件中，诸如经适当编程的FPGA(现场可编程门阵列)或者被布置为硬连线的IC芯片。

现在参考图5，图5示出了用于数据处理方法的流程图，以提供关于图1中的数据处理系统工作的进一步的细节。然而，将意识到，也可以对流程图自身进行读取，并且其未必关联到如在图1-4中所示的架构。

在步骤S510处，从存储装置接收数据。所述数据优选是结构化的。所述数据可以包括特别是具有属性的至少一个数据记录。至少一个属性在所述记录的至少一个记录中具有至少一个缺失值。

在任选的步骤S520处，缩减与同一属性相关的多个属性串并且被合并成单个。

在步骤S530处，通过计算类别运算符来对数据进行分类。在一个实施例中，当计算类别运算符时，在计算中不包括针对感兴趣属性具有至少一个缺失值的任何数据记录。具体地，当针对发生缺失值的特定属性计算类别运算符时，忽略具有缺失值的记录。具体而言，当针对特定属性计算类别运算符时，忽略数据记录，但是当针对不再有缺失值(亦即，存在值)的另一属性计算类别运算符时，可以不忽略。针对不同属性计算类别运算符基于用户或通过其他方式为类别运算符预先指定的类型。

例如，在一个实施例中，用户为每个感兴趣属性指定要计算的类别运算符是阈值(二分法)类型还是双侧区间。所述分类还可以基于多个这样的不相交区间。优选地，所述分类运算符的计算基于如上文参考图1所提到的指定目标变量。所述目标稍晚被用于基于分类运算符对数据进行数据挖掘。对类别运算符的计算进一步基于表示用于计算类别运算符的优化标准的分数。

根据一个实施例，所述分数被计算为信息增益的信息理论量。如上文所提到的，还设想到了其他分数，诸如Gini指数、Kullback-Leibler散度等。优选地，还可以使用所计算的分数以在属性之间对类别运算符进行排序。

现在将结合信息增益分数更详细地解释在步骤S530处对类别运算符的计算，但是如上文所提到的，这是示范性的，并且可以替代地使用其他分数。将理解，对目标的选择是优选的，并且针对该目标定制对分数的计算。所述目标可以是数据的属性中的一个，但是未必是这样，只要能够建立即可，而不论目标变量是否适用于个体记录。

将意识到，能够通过根据属性在不同数据记录之间运行模式串匹配器来实施对具有缺失值的数据记录的跳过，以便发现并消除具有缺失记录的记录。可以针对整个数据集一直进行对缺失值的识别，但是优选与类别运算符的计算包括在一起或者“交织”在一起。宽泛地讲，运行优化算法，其尝试通过优化(例如，最大化)所述分数来发现类别运算符。能够使用不同的优化算法(最大化器或最小化器)，诸如共轭梯度等。如早前所解释的，根据所寻求的类别运算符、并且优选是目标的边界，可以将所述分数公式化为目标函数。如果优化问题被公式化为最小化，目标函数更适合被称为“成本”。

备选地，所述算法可以是搜索算法，诸如贪婪型搜索算法，其中，在给定增量下，在计算相应分数时，所述算法循环通过类别运算符的(一个或多个)边界的可能值。然后，形成具有相应分数的类别运算符列表，并且在循环期间重新排序，使得如实际情况那样，最佳分数(例如，最高分)出现在最前或最后。在迭代结束时，然后能够从列表的最后条目或第一条目读出相对于给定分数的最佳类别运算符。将意识到，可以将以上内容利用不同目标函数重新表示为使成本最小化而不是使分数最大化的一个。

可以如下用公式表示信息增益作为针对类别运算符分数的具体实施例：在本文中采用信息增益作为我们的示范性实施例中针对目标特定数值分类的信息/预测性量度。对于具有以下非缺失不同值(层级)集合{t_c}的(类别)目标属性t，能够计算层级分布d₀＝{p_c}，其中，p_c为层级t_c的概率。能够将p_c计算为满足目标属性tc的所有域元素的小部分。能够将其信息(相对熵)计算为：

对于数值属性m，在任何类型的分类之后，将所有数据记录分成两个集合：一个“在范围之内”(或<＝)，以及其互补值，亦即，“在范围之外”(或者>)，其中，跳过在m或t中具有缺失值的记录，用于无缝的“即时”处理。这样能够避免数据清除操作，数据清除操作将中断下游数据挖掘。假设两个集合分别具有计数n₁和n₂，并且记录的两个集合对应于目标层级分布d₁＝{p_c1}和d₂＝{p_c2}，其中，p_c1和p_c2分别表示目标属性t在两个集合中的概率。新的信息则为：

因此，信息增益I为：

I＝I(d₁,d₂)-I(d₀) (5)

I是非负的，并且I越大，数值分类对于目标属性t而言“信息量”越大。在本文还中包括和设想到了其他分数或度量，诸如基于“相互信息”的分数或度量，其等价于根据以上(5)式的I和/或利用基于熵的信息量化进行调制。

以下伪代码片段提供了针对选定目标属性t的二分法数值分类的实施例：

每个伪代码都包括嵌套循环结构，以适当增量在属性值上循环，并且确保信息量度I是不减小的。以这种方式，找到贪婪搜索方式的最佳边界v_i或边界(v_i、v_j)。在以上伪代码中，能够由任何其他适当的分数函数来替换I，并且通过反转所述循环和比较器，可以替代地实施使成本函数最小化(而不是使分数I最大化)的搜索。如果需要，单范围伪代码可以容易地由另一循环扩展，以覆盖多个范围。

如在伪代码的(6)、(7)、(9)、(10)行中能够看到的，跳过了缺失值，而类别运算符的计算继续进行(“即时”)以提高响应度。然而，具体的循环结构仅仅是一个实施例，并且能够由另一种适当的构造完成针对缺失值的即时记录跳过。

在(8)和(11)行中，将所计算的类别运算符应用于数据集m_i以获得分类的数据：例如，假设有数据：

m_i＝[0.5,0.6,？,1.3,2.3,？,0.4,…]。进一步假设所计算的运算符为阈值CO＝“<1”。该列然后能变换成分类的数据：

CO(m_i)＝[<1.0,<1.0,？,>＝1.0,>＝1.0,？,<1.0,…]，“？”表示缺失的值。

如在伪代码段中能够进一步看到的，d₀的计数或概率分布是目标t的函数，d₀是度量I的函数。换言之，度量I是目标t的函数。将度量配置为目标t的函数允许针对数据挖掘任务确保更定制的结果。当然，度量I与目标t之间的具体函数关系可以在实施例和实施例之间不同，并且可能未必采取如在伪代码段中所示的具体函数形式。已经说过，如上文所做的，将度量I配置为目标层级分布(或者其函数改写)的函数被证明在很宽范围的应用中是有用的。

在分类步骤S530的以上实施例的所有实施例中，在边界a或a、b上进行优化以针对给定类型找到最佳类别运算符。在以上公开内容的扩展中，可以使用放大的变量集合，其中，不仅在边界上而且也在类型上运行优化。这能够通过包括类别运算符类型上的进一步的循环而在以上伪代码中实施。

在步骤S530中使用信息增益量度与在决策树学习算法中使用其不同。在决策树算法中，在多个节点上存在迭代分裂，以先前节点中的更早分裂为条件，而出于本目的，对先前节点没有条件。

然后，可以将所计算的类别运算符应用于数据DS以对数据集DS中的属性进行分类或变换，以形成分类的数据。

使用所提出的具有诸如在申请人的WO 2017072010 A1或WO 2017072628 A1中所描述的可解释数据挖掘工具DMTC的分类法S530，在试验中已经发现，预测力提高了21％，并且胜算比提高了大约50％。

在任选的步骤S535处，如果这样计算了超过一个类别运算符，则可以根据成本或分数对这些类别运算符进行排序。

优选地，在步骤S540处输出的是针对每个属性而言最佳(相对于所使用的分数)的类别运算符。然而，在备选实施例中，输出的是每个属性最佳的K≥2个类别运算符，并且用户选择一个他们认为适合的。可以在例如下拉界面中显示K个最佳运算符，以方便用户选择，如上文结合图2-4中的GUI实施例所提到的。

在步骤S550处，使用数据挖掘算法以基于类别运算符、特别是分类的数据中的类别运算符来计算模式。在一个实施例中，使用决策树类型的算法，但是在本文中也设想到了其他变体，诸如神经网络、支持矢量机以及其他算法。简言之，设想到了需要分类的数据或者利用分类的数据能够更好工作的任何算法。备选地或另外地，使用图形驱动的、可解释类型的“半自动”数据挖掘工具，其中，能够实践所提出的方法以得到特定益处。申请人更早在WO 2016030436 A1、WO 2017072010 A1以及WO 2017072628 A1中已经描述了可解释数据挖掘器工具的示范性实施例，所有申请都并入本文。

在步骤S560处，逐个或彼此并排地显示数据挖掘的模式和/或由分类操作分类的数据的表示。

任选地，如果在步骤S565中提供用户界面，优选为图形界面，并且向用户显示，以改变初始数据，特别是操纵其中的属性和/或改变所计算的类别运算符，例如，(一个或多个)边界和/或类型。

如果在步骤S570处检测到让用户改变数据和/或属性的请求，则请求现在基于由用户请求的经更新的信息来重新计算分类和/或数据挖掘。

当用户选择改变范围值(在分类器步骤S530中较早计算的候选范围的上边界或下边界)时，所述系统可以建议选择针对不变边界的顶部的K个值。这能够通过针对范围分类改变以上伪代码来实现。例如，对于下边界建议的情况而言，这意指v_k由用户固定，并且所有v_j<＝_vk都被循环，并且根据顶部K个排序的信息量度(例如，信息增益)输出其中的K个，而不是仅找到一个最佳的v_j。类似地，对于上边界建议的情况而言，这转换成找到v_j由用户固定的顶部K个v_k的任务。

返回参考在步骤S520处的属性缩减步骤，在噪声数据中，甚至类别属性也能够具有过多层级，例如，由于健康护理系统中的人工输入变化。为了利用纯数值的值应对这种挑战，能够选择编码方案以将相同属性的串值的变体转换成反映其初始关系的数值的值。例如，假设以下数据：

输入，目标：

[糖尿病，Y]×40倍

[糖尿病，N]×10倍

…

[DM，Y]×30倍

[DM，N]×10倍

…

[变体3，Y]×2倍

[变体3，N]×2倍

…

[变体200，Y]×0倍

[变体200，N]×1倍

如在以上示范性数据中能够看到的，该列具有200个不同的变体：“糖尿病”、“DM”、“变体3”……“变体200”，其具有相应的频率，其能够这样排序：50,40,4,…,1。应用在本文中所提出的内容，能够将非数值的值编码成数值的值，以根据频率排序保持其初始关系：糖尿病->1、DM->2、变体3->3、……变体200->200。

这些值现在为数值，并且能够对这样编码的数据应用分类步骤S530。例如，假设分类步骤S530为2(>＝,<)，那么所有这些值都将被分类，并且分类的值将是“糖尿病”、“DM”以及所有其他的(对于剩余变体而言)。换言之，已经实现了尺度的缩减。

在一个实施例中，缩减步骤S520能够基于串的相似性量度。在另一实施例中，能够将成对的局部或全局对准应用于所有层级对以计算编辑距离。在计算了编辑距离的情况下，能够应用基于平均链接的分层聚类，其中，每个层级具有针对个体层级和层级组(“聚类”)两者而计算的距离。然后，能够通过设置参考值将这些距离转换成数字。

在又一实施例中，能够应用霍夫曼编码以在各层级之间分出距离，并且类似地能够通过设置参考值将距离转换成数字。

在又一实施例中，可以提供基于知识的编码方案。用户能够预定义感兴趣的主要层级的精简集合，任选地具有其距离量度和阈值。然后，将所有变体层级与具有所计算的距离的精简集合进行比较。然后，将所有变体层级转换成数值的值，其能够由上文所描述的自动数值分类来处理。一旦已经根据步骤S520缩减了属性的数量，那么能够如上文所解释地进行分类。

在本发明的另一示范性实施例中，提供了一种计算机程序或计算机程序单元，其特征在于适于在一种适当的系统上执行根据前述实施例中的一个实施例的方法的方法步骤。

所述计算机程序单元因此可能被存储在计算机单元上，所述计算机单元也可以是本发明实施例的部分。这种计算单元可以适于执行或诱发执行上文所描述的方法的步骤。此外，其可以适于上文所描述的装置的部件。所述计算单元能够适于自动地操作和/或执行用户的命令。计算机程序可以被加载到数据处理器的工作存储器中。所述数据处理器因此可以被装备成执行本发明的方法。

本发明的该示范性实施例覆盖从一开始就利用本发明的计算机程序以及通过更新将现有程序转变成使用本发明的程序的计算机程序两者。

此外，所述计算机程序单元可能能够提供所有必要的步骤以完成上述方法的示范性实施例的流程。

根据本发明的另外的示范性实施例，给出了诸如CD-ROM的计算机可读介质，其中，所述计算机可读介质在其上存储有如前面章节所描述的计算机程序单元。

一种计算机程序可以被存储和/或分布在适当介质(特别地，但是未必一定是非暂态介质)上，诸如与其他硬件一起或者作为其部分供应的光学存储介质或固态介质上，但是也可以通过其他形式分发，诸如经由因特网或者其他有线或无线电信系统。

然而，所述计算机程序也可以存在于像万维网的网络上，并且能够从这样的网络被下载到数据处理器的工作存储器中。根据本发明的另外的示范性实施例，提供了一种用于使计算机程序单元可下载的介质，所述计算机程序单元被布置成执行根据本发明前述实施例中的一个实施例的方法。

必须指出，本发明的实施例是参考不同的主题描述的。具体地，一些实施例是参考方法型权利要求来描述的，而其他实施例是参考装置型权利要求来描述的。然而，本领域技术人员将根据以上和以下描述理解，除非做出其他表述，除了属于一种类型主题的特征的任意组合之外，涉及不同主题的特征之间的任意组合也被认为与本申请一起公开。然而，可以组合所有的特征，提供超过该特征简单求和的合成效果。

尽管已经在附图和前面的描述中详细例示和描述了本发明，但是这样的例示和描述应当被视为是例示性或示范性的而非限制性的。本发明不限于所公开的实施例。通过研究附图、公开和所附权利要求，所公开实施例的其他变化可以被本领域技术人员在实践所主张发明期间理解和实现。

在权利要求中，“包括”一词不排除其他元件或步骤，不定冠词“一”或“一个”不排除多个。单个处理器或其他单元可以完成权利要求中阐述的若干项的功能。在相互不同的从属权利要求中提到特定措施的简单事实并不指示不能够有利地使用这些措施的组合。权利要求中的任何附图标记都不应当被解释为限制范围。

Claims

1.一种数据处理系统，包括：

输入接口(IN)，其用于接收要针对给定目标的模式进行数据挖掘的数据；

分类器(CAT)，其被配置为计算一个或多个类别运算符，所述一个或多个类别运算符适合于对所述数据进行分类，其中，由所述分类器(CAT)对所述类别运算符的所述计算包括计算度量；以及

输出接口(OUT)，其用于输出这样计算的一个或多个类别运算符。

2.根据权利要求1所述的系统，所述数据包括具有至少一个缺失值的至少一个记录，其中，所述分类器(CAT)被配置为当计算所述一个或多个类别运算符中的至少一个类别运算符时忽略所述至少一个记录。

3.根据前述权利要求中的任一项所述的系统，其中，所述度量包括以下中的任一项：i)基于熵的量，特别是信息增益或Kullback–Leibler散度，ii)误分类错误，iii)Gini指数。

4.根据前述权利要求中的任一项所述的系统，还包括：

数据挖掘部件(DMC)，其被配置为针对所述模式挖掘或者帮助用户挖掘由所述一个或多个类别运算符分类的所述数据。

5.根据前述权利要求中的任一项所述的系统，包括用户界面(UI)，其允许用户改变以下中的任一项或组合：i)所述数据，ii)所计算的所述一个或多个类别运算符，并且响应于所述改变，a)所述分类器(CAT)被配置为重新计算所述一个或多个类别运算符，和/或b)所述数据挖掘部件(DMC)被配置为重新挖掘所述数据。

6.根据权利要求5所述的系统，包括图形显示生成器(GDG)，其被配置为在显示单元(DU)上绘制图形显示(GD、GUI)，所述图形显示包括所述模式的表示和/或所分类的数据的表示。

7.根据前述权利要求中的任一项所述的系统，所述分类器(CAT)被配置为计算多个所述类别运算符并且被配置为根据所述度量对所述多个所述类别运算符进行排序。

8.根据权利要求7所述的系统，其中，所述图形显示生成器(GDG)被配置为实现对这样排序的所述类别运算符中的一些或全部类别运算符的显示。

9.根据前述权利要求中的任一项所述的系统，包括转换部件(CC)，其被配置为：在所述分类器CAT计算所述类别运算符之前，根据所述数据中的多个串值的频率和/或相似性，将所述数据中的多个串值缩减成数值的值。

10.一种数据处理系统，包括：

分类器(CAT)和/或数据挖掘部件(DMC)，所述分类器被配置为计算适合于对要针对模式进行数据挖掘的数据分类的一个或多个类别运算符，所述数据挖掘部件被配置为针对所述模式挖掘所述数据，以及

用户界面(UI)，其被配置为允许用户改变以下中的任一项或组合：i)所述数据，ii)所计算的类别运算符，并且响应于所述改变，所述分类器(CAT)被配置为重新计算所述一个或多个类别运算符，和/或所述数据挖掘部件(DMC)被配置为重新挖掘所述数据。

11.一种数据处理的方法，包括以下步骤：

接收(S510)要针对目标进行数据挖掘的数据；

计算(S530)一个或多个类别运算符，所述一个或多个类别运算符适合于对所述数据进行分类，其中，对所述类别运算符的所述计算包括计算类别度量；并且

输出(S540)这样计算的一个或多个类别运算符。

12.一种数据处理的方法，包括以下步骤：

计算(S530)适合于对要针对模式进行数据挖掘的数据分类的一个或多个类别运算符，和/或

针对模式对所述数据进行数据挖掘(S550)，并且

生成(S560)用户界面(UI)，所述用户界面被配置为允许用户改变以下中的任一项或组合：i)所述数据，ii)所计算的类别运算符；并且

响应于所述改变，重新计算(S570)一个或多个类别运算符和/或重新挖掘所述数据。

13.一种装置(100)，包括：

根据前述权利要求1-10的任一项所述的系统；

以及保持所述数据的数据存储器(DB)。

14.一种计算机程序单元，所述计算机程序单元当由至少一个处理单元(PU)运行时适于使所述处理单元(PU)执行根据权利要求11-12中的任一项所述的方法。

15.一种在其上存储有根据权利要求14所述的程序单元的计算机可读介质。