CN103729539B

CN103729539B - 用于检测和描述可视化上的可视特性的方法和系统

Info

Publication number: CN103729539B
Application number: CN201310473145.9A
Authority: CN
Inventors: E·坎多尔干
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-10-12
Filing date: 2013-10-11
Publication date: 2017-06-16
Anticipated expiration: 2033-10-11
Also published as: CN103729539A

Abstract

本发明涉及一种用于检测和描述可视化上的可视特性的方法和系统。本发明的各实施例涉及检测和描述可视化上的数据集的可视特性。检测视图空间内的一组数据中的可视特性。所述可视特性包括潜在数据集群和趋势。使用数据空间表征这些可视特性。在可视化上覆盖所表征的检测的特性以便支持交互并探索所述数据。跨两个或更多集群探索所检测的特性以便比较选定数据。

Description

用于检测和描述可视化上的可视特性的方法和系统

技术领域

本发明涉及数据集中的数据特性的分析和可视化。更具体地说，在视图空间内的数据集中检测可视特性，描述和标识可视特性的语义，以及支持与所描述的可视特性的交互以便指导数据集的开发和理解。

背景技术

信息可视化是一种越来越重要的工具，决策者可随意使用它将数据变成消费品。良好的可视化揭示数据中的结构和模式，并且便于探索关系。探索性可视化的挑战是表示复杂数据集（例如，具有多个维度的数据集）并与其交互。例如，对于高维数据，可视表示可以出现混乱，从而导致交互式探索的挑战。相应地，随着数据复杂性和多样性的增加，此类数据的可视化和探索的挑战也增加。

科学、政府和企业的发展取决于以下能力：分析和理解数据，并根据从此类分析获得的洞察进行决策。需要针对在整个企业内进行任何种类决策所涉及的每个人改进数据的可消费性。此类解决方案应使得各种用户、专家和非专家等能够处理和开发对复杂数据集的理解。

发明内容

本发明包括一种用于检测数据集中的可视特性和交互式探索所检测的特性的方法。

在一个方面，检测视图空间中的可视特性并支持与所检测的特性的交互。具体地说，检测视图空间内的一组数据中的可视特性。这包括标识所述视图空间中的潜在数据集群以及建议潜在数据集群以便探索。使用数据空间表征所检测的可视特性，并支持与所检测的特性的交互。所述特性的表征包括在可视化上覆盖所表征的检测的特性。所支持的交互包括跨两个或更多集群探索所检测到的特性以便比较选定数据。

在另一个方面，评估视图空间中的可视特性，并支持与所检测的特性的交互以便探索。更具体地说，一种方法通过标识所述视图空间中的一个或多个潜在数据集群，支持探索所评估的可视特性。在数据空间中表征所评估的特性，这包括定义所述潜在数据集群的特征以及覆盖所述特征以便支持交互。更具体地说，所支持的交互包括跨两个或更多数据集群探索所检测的特性以便比较选定数据。

在一个方面，提供一种用于检测和覆盖有关数据集的特性的计算机程序产品。所述计算机程序产品包括计算机可读非瞬时性存储介质，所述计算机可读非瞬时性存储介质中包含计算机可读程序代码。当执行时，所述计算机可读程序代码导致计算机检测视图空间内的一组数据中的可视特性。可视特性的检测包括标识所述视图空间中的潜在数据集群，以及建议潜在数据集群以便探索。所述计算机程序产品使用数据空间表征所检测的可视特性，以及在可视化上覆盖所表征的检测的特性以便支持交互。所支持的交互包括跨两个或更多集群探索所检测的特性以便比较选定数据。

在另一个方面，提供一种用于标识和可视化数据集特性的系统。在所述系统中提供与数据存储装置通信的处理单元，所述数据存储装置具有至少一个数据集。提供与所述处理单元通信的功能单元。所述功能单元包括用于支持数据探索的工具。所述工具包括检测管理器、表征管理器、可视化管理器和交互管理器。所述检测管理器用于检测视图空间内的一组数据中的可视特性。更具体地说，所述检测管理器标识所述视图空间中的一个或多个潜在数据集群，并建议所述潜在数据集群以便探索。所述表征管理器与所述检测管理器通信，其用于使用数据空间表征所检测的可视特性。提供与所述表征管理器通信的可视化管理器，其用于在可视化上覆盖所表征的检测的特性以支持交互。提供与所述可视化管理器通信的交互管理器，其支持交互，包括跨两个或更多集群探索所检测的特性以便比较选定数据。

在另一个方面，提供一种用于探索数据集的计算机程序产品。所述程序产品包括计算机可读存储介质，所述计算机可读存储介质具有可由处理器执行的程序代码。所述程序代码评估所述视图空间内的一组数据中的可视特性，表征所评估的可视特性，以及覆盖所述特性以便支持与其的交互。

从以下结合附图的对本发明的目前优选实施例的详细描述，本发明的其它特性和优点将变得显而易见。

附图说明

在此参考的附图形成说明书的一部分。附图中示出的特性仅表示本发明的某些示例性实施例，并非表示本发明的所有实施例，除非明确地另有所指。另外不进行相反的暗示，这些附图是：

图1是示出用于集群检测算法的方法的流程图；

图2是示出用于检测数据集中的异常值的方法的流程图；

图3示出具有方向趋势的数据集群的示意图；

图4示出具有径向趋势的数据集群的示意图；

图5是示出用于检测方向趋势的方法的流程图；

图6是示出用于表征集群以呈现分析指导的过程的流程图；

图7是示出用于计算加权总和的过程的流程图；

图8是示出嵌入计算机系统中以便支持包括可视特性的检测和表征的数据探索的工具的框图；

图9是示出用于实现本发明的一个实施例的系统的框图。

具体实施方式

将很容易地理解，本发明的组件如通常在此处附图中描述和示出的那样，可以以各种不同的配置来布置和设计。因此，以下对本发明的装置、系统和方法的实施例的详细描述如在附图中提供的那样，并非旨在限制要求保护的本发明的范围，而只是表示本发明的选定实施例。

此说明书中对“一个选定实施例”、“一个实施例”或“实施例”的引用指结合该实施例描述的特定特性、结构或特征被包括在本发明的至少一个实施例中。因此，此说明书的各种位置中出现的短语“一个选定实施例”、“在一个实施例中”或“在实施例中”并非一定都指同一实施例。

此外，所述特性、结构或特征可以以任何合适的方式组合在一个或多个实施例中。在以下描述中，提供了大量特定的详细信息，例如检测管理器、表征管理器、可视化管理器和交互管理器的实例，以便彻底理解本发明的实施例。但是，相关技术领域的技术人员将认识到，可以在没有一个或多个特定的细节的情况下实现本发明，或者可以通过其它方法、组件、材料等实现本发明。在其它情况下，未详细示出或描述公知的结构、材料或操作以避免使本发明的各个方面变得模糊不清。

通过参考附图最佳地理解本发明的所例示的实施例，其中在图中相同部件由相同标号指定。以下描述仅旨在作为实例，并且仅示出与在此要求保护的本发明一致的设备、系统和过程的某些选定实施例。

在以下实施例的描述中，对形成其一部分的附图进行参考，并且其通过示例的方式示出其中可以实现本发明的特定实施例。应该理解，可以使用其它实施例，因为可以进行结构更改而不偏离本发明的范围。

在数据挖掘中，可视集群是位于视图空间的密集区域附近的一组点，统称为任意形状的对象或结构。视图空间通常是数据集选定字段的二维或三维投影，通常在图形显示器上呈现以便用户可视化数据集。在一个实施例中，视图空间表示的数据集中的字段数量少于数据空间。同样，在一个实施例中，视图空间可以具有三维或更多维映射。从可视角度看，数据集群包括各种特征，包括但不限于分离、密度和形状。标识潜在集群并建议潜在集群以便探索。因此，数据探索的第一部分是标识一个或多个数据集群。

应该理解，数据空间包含以n维表示的数据集中的所有数据，其中n是整数。数据空间被定义为表示数据集所有字段的n维空间。视图空间是数据集所映射到的m维空间，其中m是小于或等于n的整数。在一个实施例中，视图空间是数据所映射到的二维平面。因此，集群（被定义为位于密集区域附近的一组点）可以存在于视图空间中，而不存在于数据空间中。

图1是示出集群检测算法的流程图（100）。根据数据点在视图空间中的位置，将数据点分配给相应网格单元（102）。对于每个占用的网格单元，计算平均网格单元密度（104）。在一个实施例中，平均网格单元密度的计算支持判定是否将单元标识为潜在集群候选者。为一组选定网格单元分配集群标识符（106）。在一个实施例中，集群标识符的分配被限于那些密度超过阈值的网格单元。在一个实施例中，阈值是平均网格单元密度，以便属于集群成员的每个网格单元具有超过平均网格单元密度的密度。为变量X_Total分配被分配的集群标识符数（108），并且为计数变量X分配整数1（110）。对于每个具有分配的标识符的集群_x，判定是否已将任何相邻单元分配给集群（112）。在对步骤（112）处判定的肯定响应之后，合并两个集群（114）。具体地说，将当前符合条件的单元分配给集群_x，以及将相邻单元中的任何其它符合条件的单元分配给集群_x。但是，在对步骤（112）处判定的否定响应之后，形成新集群（116）。具体地说，为与集群标识符_x关联的当前符合条件的单元分配新集群标识符（116）。在步骤（114）或（116）之后，递增计数变量X（118），然后判定是否已检查所有临时分配的集群标识符（120）。在对步骤（120）处判定的否定响应之后，返回到步骤（112），并且对步骤（120）处的判定的肯定响应将结束集群检测过程。因此，将数据点分配给单元，并且对单元进行分组以便形成集群。

如图1中所示，根据视图空间中的数据点和关联网格单元而检测集群。网格单元的大小影响密度，并且针对潜在集群成员采用的阈值也影响集群检测。此外，视图空间与原始数据集中的维度数无关。在一个实施例中，图1的集群检测算法可以使用后处理扩展现有集群，以便现有集群在密度更改倾向或数据点语义方面对附近的单元更有包含性。针对倾向，可以根据梯度合并数据点或单元，并且针对语义，可以将相邻单元中具有类似特征的单元合并到现有集群。因此，可以扩展集群形成的定义特征，以便应对超过和包含平均单元密度的特征。

集群中的模式检测方面需要检测异常值。在可视化中具有几种类型的异常值点，包括虚假肯定（false positive）、闭点和远点。可视化可以采用不同的形式，包括但不限于条形图、散点图、饼图等。虚假肯定是指以下点：位于可视特性（例如集群）中，但在语义上不属于可视特性。闭点是指以下点：在可视特性的附近，但在一个或多个维度方面不同，所述一个或多个维度可视地将该点从集群删除。远点是指以下点：远离集群的任何可视特性，并且不拥有要被标识为集群成员的重要性级别。因此，为了定义集群，需要检测异常值，并将其从集群删除或者使其成为集群成员。

图2是示出用于针对异常值检测标识虚假肯定的过程的流程图（200）。为变量X_Total分配集群中的数据点数（202），并且为计数变量X分配整数1（204）。评估集群中的每个数据点DP_x，以便评估其分配的值（206），包括针对数据集中的每个字段计算平均值。将数据点DP_x与集群的平均数据点值相比较（208）。然后判定DP_x值是否比平均数据点值低或高某一设置值（210）。在一个实施例中，该设置值是至少三个标准偏差（210）。在对步骤（210）处的判定的肯定响应之后，将数据点DP_x标记为异常值（214），并且在否定响应之后，将数据点DP_x标记为集群成员（212）。在步骤（212）或（214）之后，递增X的值（216），然后判定是否已经针对异常值状态评估集群中的所有数据点（218）。在对步骤（2108）处的判定的否定响应之后，返回到步骤（206）以便进行下一个数据点评估。相反，对步骤（218）处的判定的肯定响应将结束异常值评估。图2中所示的过程用于最初被放置在集群边界内的每个数据点。在一个实施例中，在集群的附近网格单元（例如，集群的相邻单元）中的所有数据点均可以经历对照平均值检查其值的类似过程。因此，如图所示，评估集群中的每个数据点以便确定其异常值状态。

趋势是数据中的关系形式、方向和强度的可视描绘。存在几种类型的趋势，并且它们在可视化中以不同方式揭示自身。图3是示出方向趋势（320）的集群（310）的示意图（300），方向趋势（320）对应于沿着拉长集群的方向增加的维度值。如图3中所示，集群的形状具有拉长的形状，从而显示两个或更多维度之间存在线性关系，或者存在展现方向趋势的主维度。图4是圆形的集群（410）的示意图（400），从而显示存在径向趋势。如图4中所示，存在同心趋势（420）、（422）、（424）和（426），它们对应于从集群中心径向增加的维度值。存在其它形状和趋势，包括发散趋势，其中关系可能由于数据中的更高阶关系所致。

通常通过其形状观察趋势；并且形状揭示集群中的数据元素的一个或多个维度的分布特征。用于检测趋势的高级方法需要识别集群的形状，将形状与趋势类型关联，标识展现该趋势的维度，以及确定趋势的强度。图5是示出用于检测集群中的方向趋势的过程的流程图（500）。对于集群中的每个维度，针对集群中的每个行和列计算平均数据值（502）。执行线性回归以便在纵向和横向上将直线拟合到平均值（504）。直线拟合方面判定平均值是在集群中跨行或列持续增加还是减小（506）。与拟合后的直线关联的数据表示估计的数据值，并且针对平均值采用的数据是计算的平均值。在一个实施例中，使用实际平均数据值和估计值计算与拟合的直线相比较的标准误差。具体地说，使用实际平均值和估计值计算跨行和列的标准误差（多个）（508），然后将标准误差（多个）与拟合的直线相比较（510）。然后判定实际值与估计值之间的标准误差（多个）是否低（例如小于设置值阈值），并且判定拟合直线的斜率是否大于斜率阈值（512）。对步骤（512）处的判定的肯定响应将指示具有方向趋势（514）。将拟合的直线的标准误差和斜率保存为趋势强度和方向的指示符（516）。但是，对步骤（512）处的判定的否定响应将指示未发现数据中的方向趋势（518）。因此，采用实际数据值和与直线拟合关联的数据值确定数据集群中的方向趋势。

集群的表征关乎获得表示集群中的一组数据点的语义。当针对集群获得此类语义时，将焦点放在区分与其它集群相比的特征以及突出显示集群的定义特征。定义特征通过可视化上的注释传送和解释高级结构。采用几种度量获得集群语义，包括但不限于集群中的数据值密度、与其它集群的重叠、集群中的异常值数，以及集群中的趋势强度。

图6是示出用于表征集群以便呈现分析指导的过程的流程图（600）。表征的第一部分是评估每个数据集群和其中的数据值。采用变量N_Total表示要表征的集群（602），并且将计数变量N设置为整数1（604）。针对集群_N中的每个维度获得集群密度（606）。在一个实施例中，步骤（606）处的获得包括根据标准偏差的阶梯函数计算介于0和1之间的密度得分，并且梯级0.01（非常密集）、0.05（中等密集）、0.1（稍微密集）和0.25（稀疏）分别对应于得分1、0.8、0.5和0.1。在步骤（606）之后，递增计数变量N（608），并且判定是否已经针对每个数据集群获得集群密度（610）。在对步骤（610）处的判定的否定响应之后，返回到步骤（606），并且对步骤（610）处的判定的肯定响应将结束集群密度获得。

如步骤（602）-（610）中所示，针对每个表示的集群中的每个维度获得集群密度。在步骤（610）之后，计算重叠得分，其与跨每个集群的数据值范围中的重叠度有关。在一个实施例中，采用基于标准偏差和数据值平均值的范围，以便减少集群中的最小值和最大值的极限测量。将集群计数变量N设置为整数1（612）。对于每个集群_N，计算每个集群_N+1与集群_NTotal的平均重叠度（614）。然后使用平均重叠度获得每个集群相对于每个其它集群的重叠得分（616）。在一个实施例中，重叠得分是介于0和1之间的值，0是完全重叠，1是无重叠。因此，数据集群之间的重叠度越高，描述集群的兴趣就越低。

在步骤（616）之后，针对每个集群获得异常值得分。具体地说，对于每个数据集群1至N_Total，获得每个集群的异常值比率。在一个实施例中，采用每个集群中的异常值数与数据点总数的商获得异常值比率（618）。在一个实施例中，采用阶梯函数以便异常值得分介于值0和1之间，并且梯级0.05、0.01和0.005分别对应于得分1、0.8和0.6。除了异常值得分之外，计算趋势得分。更具体地说，对于每个数据集群1至N_Total，从直线拟合的标准误差计算趋势得分（620）。图5中示出直线拟合的细节。然后判定直线拟合中的直线斜率大小是否高于阈值（622）。在对步骤（622）处的判定的肯定响应之后，针对行和列趋势计算趋势范围（624）。在一个实施例中，趋势范围是基于标准误差的阶梯函数的介于0和1之间的值。相反，在对步骤（622）处的判定的否定响应之后，为趋势得分分配0（626）。因此，对于可视化中的每个集群，计算趋势得分。

如图6中所示，针对可视化中的每个集群和数据中的每个维度，获得形式为密度、重叠、异常值和趋势的语义。在获得之后，针对可视化中的每个维度和每个集群计算加权得分总和。图7是示出用于计算加权总和的过程的流程图（700）。变量N_Total表示被表征的集群数（702），并且变量M_Total表示被表征的集群中的维度数（704）。初始化集群的计数变量N（706），并且初始化维度的计数变量M（708）。对于集群_N和维度_M，计算加权得分总和（710），如下所示：

得分_N,M=（W_密度*密度+W_重叠*重叠+W_异常值*异常值+W_行趋势*行趋势

+W_列趋势*列趋势）

在步骤（710）处的计算之后，递增维度计数变量M（712），并且判定集群_N中是否存在更多的维度M（714）。在对步骤（712）处的判定的肯定响应之后，返回到步骤（710），并且在对步骤（712）处的判定的否定响应之后，递增集群计数变量（716）。然后判定是否已处理考虑中的所有集群（718）。在对步骤（718）处的判定的否定响应之后，返回到步骤（708）。但是，对步骤（718）处的判定的肯定响应将结束对集群及其维度的考虑过程（722）。

在步骤（702）-（722）中所示的表征之后，计算每个维度的平均得分（724）。按维度对这些得分进行排序（726），并且每个高于阈值的平均维度得分形成一组重要维度的一部分（728）。因此，针对每个集群和每个重要维度，确定形式为密度、趋势和异常值的一组特征。

分析指导表示集群、趋势、异常值的特征以及将它们覆盖在可视化上，以便解释此类特性并提供交互支持。存在四种不同类型的指导，它们对应于密集集群、范围集群、异常值和趋势。在一个实施例中，密集集群适合于分类数据类型，并且范围集群适合于有序数据类型。集群可以具有多个特征。在一个实施例中，可以同步指导的呈现，以便在任何时间点，所有集群显示相同维度的指导以支持跨集群的比较。同样，在一个实施例中，可以刷新指导以便突出显示可视化中具有相同语义的数据点。在另一个实施例中，指导可以是数据的图形表示，而不是文本描述。因此，对集群的表征特征进行可视化、解释，并且这些特征支持交互。

所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、驻留软件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括—但不限于—电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括—但不限于—无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的各个方面的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网（LAN）或广域网（WAN）—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

上面参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其它设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品（article of manufacture）。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。

将此说明书中描述的功能单元（多个）标记为形式为管理器（多个）的工具。管理器可以在诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备之类的可编程硬件设备中实现。管理器（多个）还可以在软件中实现，以便由各种类型的处理器处理。标识的可执行代码的管理器可以例如包括一个或多个物理或逻辑的计算机指令块，所述块可以例如组织为对象、过程、函数或其它构造。尽管如此，标识的管理器的可执行代码不需要在物理上位于一起，而是可以包括存储在不同位置的不同指令，当所述指令被逻辑地结合时，将包括管理器并实现管理器和导向器的所声明的目的。

实际上，可执行代码的管理器可以是单个指令或多个指令，并且甚至可以分布在数个不同的代码段上、多个不同的程序中，以及跨多个存储器件。同样，操作数据可以在管理器中被标识和在此示出，并且可以包括在任何合适的形式中并组织在任何合适类型的数据结构中。操作数据可以被收集为单个数据集，或可以分布在包括不同存储器件的不同位置上，并且可以至少部分地作为电子信号存在于系统或网络中。

图8是示出嵌入计算机系统中以便支持数据表征和交互的工具的框图（800）。计算机系统（810）被示出与数据存储装置（850）通信。尽管数据存储装置在系统（810）的本地，但在一个实施例中，数据存储装置可以跨网络连接（未示出）远离计算机系统。同样，尽管示出一个数据存储单元（850），但数据存储装置可以包括任何数量的数据存储单元。计算机系统（810）具有处理单元（812），处理单元（812）跨总线（816）与存储器（814）通信。功能单元（820）具有用于支持数据表征和交互的工具。更具体地说，功能单元（820）被示出嵌入在存储器（814）中，存储器（814）与处理单元（812）通信。所述工具包括但不限于检测管理器（822）、表征管理器（824）、可视化管理器（826）和交互管理器（828）。每个管理器（822）-（828）支持用于在此描述的数据探索的功能。

检测管理器（822）用于检测视图空间内的一组数据中的可视特性。所检测的可视特性包括标识视图空间中的潜在数据集群，以及有关要探索的潜在数据集群的任何建议。在一个实施例中，视图空间与包含在数据集中的维度数无关。在一个实施例中，检测管理器（822）根据数据点在视图空间中的位置，将数据点分配给网格单元，并且针对占用的网格单元计算平均网格单元密度。当网格单元密度大于特定阈值时，可以采用网格单元密度确定所检测的可视特性。在一个实施例中，检测管理器（822）为具有高网格密度的网格单元分配集群标识符，高网格密度被确定为大于特定阈值的网格密度。在另一个实施例中，检测管理器（822）扩展现有集群的界限以便包括相邻网格单元。在另一个实施例中，检测管理器（822）检测标识的潜在集群中的任何异常值点，并且将异常值点与标识的潜在集群中的每个维度的平均网格单元密度相比较。因此，检测管理器（822）响应于特定网格单元密度而检测数据中的可视特性。

提供表征管理器（824），其与检测管理器（822）通信。具体地说，表征管理器（824）用于使用数据空间表征所检测的可视特性。提供可视化管理器（826），其与表征管理器（824）通信。具体地说，可视化管理器（826）用于在可视化上覆盖所表征和检测的特性以支持交互。如图所示，提供交互管理器（828），其与可视化管理器（826）通信。交互管理器（828）用于实现与所表示的特征的交互。在一个实施例中，所支持的交互包括跨两个或更多集群探索检测到的特性，以便比较选定数据。这种交互可以包括但不限于突出显示可视化中的数据点，以及可视化管理器（826）支持的覆盖的注释。在一个实施例中，表征管理器（824）获得从数据空间获得的可视特性的语义，并且在一个实施例中，覆盖的注释解释获得的语义。在一个实施例中，可视化管理器（826）表示潜在数据集群的特征。更具体地说，可视化管理器（826）表示任何集群信息，例如有关密集集群和范围集群的规范，以及/或者任何异常值数据点。可视化管理器（826）在可视化上覆盖这些表示的特征，以便解释所表征和检测的特性。因此，表征管理器表征所检测的可视特性，并且可视化管理器在可视化上覆盖这些表征的特性。

还可以检测数据集中的数据趋势。在一个实施例中，检测管理器（822）用于检测可视化管理器（826）支持的数据可视化中的任何趋势。在该实施例中，表征管理器（824）识别可视化管理器（826）描绘的集群中的形状，并将形状与趋势类型关联。在该实施例中，表征管理器（824）进一步标识展现趋势的一个或多个维度，并确定趋势的强度。在一个实施例中，通过所检测的趋势与形状的关联程度，确定此趋势强度。检测管理器（822）检测由数据可视化中的检测到的趋势形成的任何形状类型。所检测的形状类型定义数据维度之间的关系。因此，检测数据中的趋势，并且表征管理器根据强度和形状表征这些趋势。

现在参考图9的框图（900），针对实现本发明的一个实施例描述其它详细信息。计算机系统包括一个或多个处理器，例如处理器（902）。处理器（902）连接到通信基础架构（904）（例如，通信总线、交叉条（cross-over bar）或网络）。

计算机系统可以包括显示接口（906），其转发来自通信基础架构（904）（或来自帧缓冲器（未示出））的图形、文本和其它数据，以便在显示单元（908）上显示。计算机系统还包括主存储器（910），优选地为随机存取存储器（RAM），并且还可以包括辅助存储器（912）。辅助存储器（912）例如可以包括硬盘驱动器（914）（或备选永久性存储器件）和/或可移动存储驱动器（916），其例如表示软盘驱动器、磁带驱动器或光盘驱动器。可移动存储驱动器（916）以所属技术领域普通技术人员公知的方式来读写可移动存储单元（918）。可移动存储单元（918）例如表示软盘、压缩盘、磁带或光盘等，其可由可移动存储驱动器（916）读写。如所理解的那样，可移动存储单元（918）包括其中存储计算机软件和/或数据的计算机可读介质。

在备选实施例中，辅助存储器（912）可以包括其它类似的装置，以便允许将计算机程序或其它指令加载到计算机系统。此类装置例如可以包括可移动存储单元（920）和接口（922）。此类装置的实例可以包括程序包和包接口（例如在视频游戏设备中）、可移动存储器芯片（例如EPROM或PROM）和关联的插槽，以及允许将软件和数据从可移动存储单元（920）传输到计算机系统的其它可移动存储单元（920）和接口（922）。

计算机系统还可以包括通信接口（924）。通信接口（924）允许在计算机系统和外部设备之间传输软件和数据。通信接口（924）的实例可以包括调制解调器、网络接口（例如以太网卡）、通信端口或PCMCIA插槽和卡等。经由通信接口（924）传输的软件和数据采用信号的形式，所述信号例如可以是电、电磁、光信号或其它能够由通信接口（924）接收的信号。经由通信路径（即，信道）（926）将这些信号提供给通信接口（924）。该通信路径（926）承载信号，并且可以使用电线或电缆、光纤、电话线路、移动电话链路、射频（RF）链路和/或其它通信信道来实现。

在本文档中，术语“计算机程序介质”、“计算机可用介质”和“计算机可读介质”用于泛指介质，例如主存储器（910）和辅助存储器（912）、可移动存储驱动器（916）以及安装在硬盘驱动器或备选永久性存储器件（914）中的硬盘。

计算机程序（也称为计算机控制逻辑）被存储在主存储器（910）和/或辅助存储器（912）中。还可以经由通信接口（924）接收计算机程序。当运行时，此类计算机程序使得计算机系统能够执行在此讨论的本发明的特性。具体地说，当运行时，计算机程序使得处理器（902）能够执行计算机系统的特性。因此，此类计算机程序表示计算机系统的控制器。

附图中的流程图和框图显示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在此使用的术语只是为了描述特定的实施例并且并非旨在作为本发明的限制。如在此所使用的，单数形式“一”、“一个”和“该”旨在同样包括复数形式，除非上下文明确地另有所指。还将理解，当在此说明书中使用时，术语“包括”和/或“包含”指定了声明的特性、整数、步骤、操作、元素和/或组件的存在，但是并不排除一个或多个其它特性、整数、步骤、操作、元素、组件和/或其组的存在或增加。

以下的权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。所给出的对本发明的描述其目的在于示意和描述，并非是穷尽性的，也并非是要将本发明限定到所表述的形式。对于所属技术领域的普通技术人员来说，在不偏离本发明范围和精神的情况下，显然可以作出许多修改和变型。对实施例的选择和说明，是为了最好地解释本发明的原理和实际应用，使所属技术领域的普通技术人员能够明了，本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。相应地，增强的云计算模型支持灵活进行事务处理，包括但不限于优化存储系统，并且响应于优化后的存储系统而处理事务。

备选实施例（多个）

将理解，尽管在此出于示例目的描述了本发明的特定实施例，但可以在不偏离本发明的精神和范围的情况下进行各种修改。当用户与数据交互时，可以持续检测和表征视图空间中的可视特性，由此更改视图空间并导致重新计算、重新检测和重新表征可视特性。因此，本发明的保护范围仅由以下权利要求及其等同物来限定。

Claims

1.一种用于数据分析的方法，包括：

检测视图空间内的一组数据中的可视特性，包括标识所述视图空间中的潜在数据集群并建议所述潜在数据集群以便探索所检测的特性；

使用数据空间表征所检测的可视特性，包括定义所标识的潜在数据集群的一个或多个特征；

检测所述一组数据的可视化趋势，包括识别集群的形状，将所述形状与趋势类型关联，标识展现所述趋势的一个或多个维度，以及确定所述趋势的强度，其中，采用实际数据值和与直线拟合关联的数据值确定数据集群中的方向趋势；以及

在可视化上覆盖所表征的检测到的特性以便支持交互，所支持的交互包括跨两个或更多集群探索所检测的特性以便比较选定数据。

2.根据权利要求1的方法，其中检测一组数据中的可视特性包括：根据数据点在所述视图空间中的位置，将所述数据点分配给网格单元；针对占用的网格单元计算平均网格单元密度；以及为网格密度大于所述平均网格单元密度的网格单元分配集群标识符。

3.根据权利要求2的方法，其中所述视图空间与所述一组数据中的维度数无关。

4.根据权利要求2的方法，还包括扩展现有集群以便包括相邻网格单元。

5.根据权利要求2的方法，还包括检测所标识的潜在数据集群中的异常值点，包括将所述异常值点与所述集群中的每个维度的所述平均网格单元密度相比较。

6.根据权利要求1的方法，还包括检测由数据点集群和所检测的数据可视化趋势形成的任意形状，其中形状类型定义数据维度之间的关系。

7.根据权利要求2的方法，还包括表征所标识的潜在数据集群，包括获得表示所述一组数据的语义。

8.根据权利要求1的方法，还包括表示所述潜在数据集群的包含趋势和异常值的特征，以及在可视化上覆盖所表示的特征以便解释所检测的特性并提供交互支持，其中所述特征对应于密集集群、范围集群、异常值或趋势。

9.根据权利要求8的方法，还包括与所表示的特征交互，包括在所述可视化中突出显示数据点以及覆盖注释以便解释从数据空间获得的可视特性的语义。

10.一种用于数据分析的方法，包括：

评估视图空间内的一组数据中的可视特性，包括标识所述视图空间中的潜在数据集群并建议所述潜在数据集群以便探索所评估的可视特性；

使用数据空间表征所评估的可视特性，包括定义所标识的潜在数据集群的一个或多个特征；

覆盖所表征的评估的特性以便支持交互，所支持的交互包括跨两个或更多集群探索所检测的特性以便比较选定数据。

11.根据权利要求10的方法，还包括连续评估和表征所述视图空间中的可视特性。

12.根据权利要求11的方法，其中所述可视特性的连续评估和表征响应于与所述一组数据的交互。

13.根据权利要求11的方法，其中可视特性的连续评估和表征更改所述视图空间。

14.根据权利要求13的方法，还包括响应于所述视图空间的所述更改，重新评估所述可视特性。

15.根据权利要求14的方法，其中所述重新评估包括：重复标识所述视图空间中的潜在数据集群以及使用数据空间重新表征所重新评估的可视特性。

16.一种用于数据分析的装置，所述装置包括被配置为执行权利要求1-15中的任一权利要求的步骤的模块。

17.一种用于数据分析的系统，包括：

检测管理器，其用于检测视图空间内的一组数据中的可视特性，包括标识所述视图空间中的潜在数据集群并建议所述潜在数据集群以便探索所检测的特性；

表征管理器，其与所述检测管理器通信，所述表征管理器用于使用数据空间表征所检测的可视特性，包括定义所标识的潜在数据集群的一个或多个特征，所述表征管理器还检测所述数据的可视化趋势，包括由所述表征管理器执行以下操作：识别集群的形状，将所述形状与趋势类型关联，标识展现所述趋势的一个或多个维度，以及确定所述趋势的强度，其中，采用实际数据值和与直线拟合关联的数据值确定数据集群中的方向趋势；

可视化管理器，其与所述表征管理器通信，所述可视化管理器用于在可视化上覆盖所表征的检测到的特性以便支持交互，包括定义所标识的潜在数据集群的特征；以及

交互管理器，其与所述可视化管理器通信，所述交互管理器用于支持交互，包括跨两个或更多集群探索所检测的特性以便比较选定数据。

18.根据权利要求17的系统，所述检测管理器还执行以下操作：根据数据点在所述视图空间中的位置，将所述数据点分配给网格单元；针对占用的网格单元计算平均网格单元密度；以及为网格密度大于所述平均网格单元密度的网格单元分配集群标识符。

19.根据权利要求18的系统，其中所述视图空间与所述一组数据中的维度数无关。

20.根据权利要求18的系统，所述检测管理器还执行以下操作：扩展现有集群以便包括相邻网格单元。

21.根据权利要求18的系统，所述检测管理器还执行以下操作：检测所标识的潜在集群中的异常值点，包括将所述异常值点与所标识的潜在集群中的每个维度的所述平均网格单元密度相比较。

22.根据权利要求17的系统，所述表征管理器还执行以下操作：检测由数据点集群和所检测的数据可视化趋势形成的任意形状，其中形状类型定义数据维度之间的关系。

23.根据权利要求18的系统，所述表征管理器还执行以下操作：表征所标识的潜在数据集群，包括获得表示所述一组数据的至少一个语义。

24.根据权利要求17的系统，所述可视化管理器还执行以下操作：表示所述潜在数据集群的包含趋势和异常值的特征，以及在可视化上覆盖所表示的特征以便解释所表征的检测的特性并提供交互支持，其中所表示的特征对应于密集集群、范围集群、异常值或趋势。

25.根据权利要求24的系统，所述交互管理器还执行以下操作：实现与所表示的特征交互，包括在所述可视化中突出显示数据点，以及所述可视化管理器还执行以下操作：覆盖注释以便解释从数据空间获得的可视特性的语义。