CN105528387B

CN105528387B - 分割发现、评估和实施平台

Info

Publication number: CN105528387B
Application number: CN201510670578.2A
Authority: CN
Inventors: M·威廉斯; J·佐格比
Original assignee: Accenture Global Services Ltd
Current assignee: Accenture Global Services Ltd
Priority date: 2014-10-16
Filing date: 2015-10-15
Publication date: 2020-10-20
Anticipated expiration: 2035-10-15
Also published as: CA2907159A1; AU2015242966A1; US10102281B2; AU2017206207A1; CN105528387A; CA2907159C; US20160110442A1; EP3009969A1

Abstract

本申请的各实施例涉及分割发现、评估和实施平台。描述了支持对数据的聚类和评估的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。标识为其评估聚类求解的数据集合，该数据集合包括各自包括多个属性的多个记录。不同属性被标识，该不同属性包括目标驱动属性、聚类候选属性和简档属性。一个或者多个聚类算法被标识并且应用于数据集合以生成聚类求解。每个聚类求解基于聚类候选属性将数据集合中的记录分组成不同聚类。至少部分基于目标驱动属性、聚类候选属性和简档属性为每个聚类求解计算分数。生成用于向用户呈现的用户界面，该用户界面示出根据用于每个聚类求解的计算出的分数而组织的生成的聚类求解。

Description

分割发现、评估和实施平台

相关申请的交叉引用

本申请要求来自通过引用而结合的、提交于2014年10月16日并且名称为“Segmentation Discovery,Evaluation and Implementation Platform”的第62/064,844号美国临时申请的优先权。

技术领域

本说明书总体上描述了用于对数据进行聚类的系统和过程。

背景技术

在许多领域和行业中，收集和存储与人(例如，公司的客户、社交网络中的好友等)或者实体(例如，零售联锁的个别商店、公司、学校、政府或者其它机构)有关的不同类型的数据。分析大量数据在许多应用中是重要的。一种用于分析数据(被称为聚类)的一般方式包括基于数据内的相似和差异将数据分割成组或者聚类。

发明内容

根据本公开内容的技术可以用来基于使用由用户指定的一个或者多个评估标准对先前聚类求解的评估来适配和精化聚类求解。系统因此能够集成对数据的聚类与对聚类结果的评估以生成对用户有意义的聚类求解。

在一个方面中，一种计算机实施的方法由一个或者多个处理器执行。该方法包括标识为其评估聚类求解的数据集合，其中数据集合包括各自包括多个属性的多个记录。该方法还包括从多个属性标识目标驱动属性的集合、聚类候选属性的集合和简档属性的集合。该方法还包括确定用于应用于数据集合以标识聚类求解的一个或者多个聚类算法，以及生成用于数据集合的多个聚类求解。聚类求解中的每个聚类求解基于聚类候选属性中的一个或者多个聚类候选属性将数据集合中的记录分组成多个聚类。该方法还包括至少部分基于目标驱动属性、聚类候选属性和简档属性计算用于聚类求解中的每个聚类求解的分数，以及生成用于向用户呈现的用户界面，该用户界面示出根据用于每个聚类求解的计算出的分数而组织的生成的多个聚类求解。

在一些实现方式中，生成用于数据集合的多个聚类求解包括基于用于聚类求解的先前计算出的分数、使用机器学习算法来标识聚类求解。

在一些实现方式中，该方法还包括在生成多个聚类求解时向用户呈现报告示出生成的聚类求解的报告并且允许用户改变与数据集合关联的属性的集合。

在一些实现方式中，用于每个聚类求解的计算出的分数包括：目标驱动分量，该目标驱动分量代表每个聚类求解覆盖与目标驱动属性关联的值的范围的程度；分组分量，该分组分量代表每个聚类求解中的聚类跨聚类候选属性被如何紧密地分组；以及异构分量，该异构分量代表每个聚类求解中的聚类跨聚类候选属性和简档属性二者的异构程度。

在一些实现方式中，用于每个聚类求解的计算出的分数包括目标驱动分量、分组分量和异构分量的加权平均。

在一些实现方式中，该方法还包括在生成聚类求解之前将数据集合变换成被配置为有助于生成聚类求解的格式。

贯穿本申请描述的特征中的所有或者部分特征可以被实施为一种用计算机程序编码的计算机存储介质，该计算机程序包括可由一个或者多个处理器执行的指令。贯穿本申请描述的特征中的所有或者部分特征可以被实施为一种可以包括一个或者多个处理设备和用于存储用于实施陈述的功能的可执行指令的存储器的装置、方法或者电子系统。

在附图和以下描述中阐述一个或者多个实现方式的细节。其它特征将从描述和附图以及从权利要求变得清楚。

附图说明

图1是图示了可以执行本公开内容的实现方式的系统的示例的框图；

图2是图示了执行集成的聚类和评估的系统的部件的示例的框图；

图3是图示了将用于数据集合的属性分离成三个类型的变量的示图；

图4至图6是图示了执行集成的聚类和评估的示例的流程图；

图7至图13是图示了聚类和评估的可视化的示例的图形；

图14至图18是图示了可以由执行集成的聚类和评估的系统显示的屏幕截图的示例的示图；以及

图19是可以用于与这里描述的技术关联地描述的操作的计算机系统的示例的示意图。

在下文中，将参照附图给出示例的具体描述。应当理解，可以进行对示例的各种修改。特别地，一个示例的要素可以在其它示例中被组合和使用以形成新示例。在各种附图中的相似标号指示相似要素。

具体实施方式

对于具有许多不同特性的大量数据，可以存在用于将数据分割成聚类的许多不同方式。例如，可以存在用于特定人群体(例如，公司的客户)的许多不同潜在分组，每个人具有多个属性(例如，客户状态(活跃、不活跃等)、地址(例如，按州分组)等)。另外，在收集和存储具有显著广度(例如，关于每个个别客户而收集的属性的变化)的大量数据时，发现数据中的有意义分组可能变得耗时。此外，不同聚类算法(例如，K均值聚类、期望-最大化(EM)聚类、分级聚类等)可以产生不同分组。在这样的场景中，确定哪些聚类技术产生最有意义的一组聚类可能有困难。

作为特定示例，被称为k均值算法的聚类算法取得数据集合以及对变量和目标数目的聚类的选择作为输入，并且基于那些变量的特性返回对数据集合的分组。由k均值算法生成的可能聚类结果的数目可能庞大，并且评估结果以确定最适合分组可能有困难。例如，如果数据集合具有在用于向k均值算法中输入的75个变量之中的5个变量，则存在待评估的17,259,390个可能的聚类结果。作为另一示例，如果可用变量的总数增加至150个(即，多达两倍的选项)，则潜在求解集合增加至591,600,030(即，倍率超过34)。在一些场景中，具有从中选择的200或者更多以上的可用变量并不罕见。

因此，即使用户利用聚类算法(以及实施这些算法的软件包)以发现数据内的聚类，用户仍然可能面临一些令人气馁的任务，比如协调大规模应用和跨可能的求解的大空间评估这些算法。通常地，以自组织方式执行这样的任务，从而产生低效率工作以及经常无效的求解。

为了克服这样的困难，根据本公开内容的技术可以用来基于使用由用户指定的一个或者多个评估标准对先前聚类求解的评估来适配和精化聚类求解。系统因此能够集成对数据的聚类与对聚类结果的评估以生成对用户有意义的聚类求解。

对聚类结果的评估可以基于用户指定的标准，比如由用户指定的业务目标。作为示例，评估信息可以包括聚类的质量按照它们的业务价值而言的定量和/或定性概要，包括聚类的描述质量。这可以允许用户更容易地标识可以从某些聚类求解显现的潜在洞察力。这样，系统可以提供对原本仅通过生成聚类求解而可能的对数据的更有意义的聚类分析。

作为这一过程的示例，系统可以标识为其评估聚类求解的数据集合。数据集合可以包括多个记录，每个记录包括多个属性。系统可以从多个属性标识不同类型的属性。例如，系统可以标识目标驱动属性的集合、聚类候选属性的集合和简档属性的集合。系统也可以确定用于应用于数据集合以标识聚类求解的一个或者多个聚类算法。使用一个或者多个聚类算法，系统可以生成用于数据集合的多个聚类求解。

聚类求解中的每个聚类求解可以是基于聚类候选属性中的一个或者多个聚类候选属性将数据集合中的记录分组成多个聚类。作为示例，第一聚类求解可以包括基于特定数据分组的3个不同聚类或者组，其中每个聚类或者组包括数据中的群体的约33％。另一聚类求解可以包括根据不同数据分组的10个不同聚类或者组，其中每个聚类或者组包括数据中的群体的约10％。系统可以至少部分基于目标驱动属性、聚类候选属性和简档属性确定用于聚类求解中的每个聚类求解的评估信息(例如，计算分数)。系统然后可以生成用于向用户呈现的用户界面，该用户界面示出根据用于每个聚类求解的计算出的分数而组织的多个生成的聚类求解。

在一些实现方式中，系统可以被配置为从大数据集合选择从其计算聚类求解的变量的特定子集。例如，考虑具有75个变量的数据集合，所有这些变量可以用作用于聚类求解的候选。也假设系统被配置为在聚类计算中使用少达5个并且多达8个变量。可能的聚类求解的总数然后将等于可能的5变量求解的总数、可能的6变量求解的总数、可能的7变量求解的总数和可能的8变量求解的总数之和。因此，可以使用标准组合数学技术来如下计算可能求解的总数：

在这一示例中，存在系统可以考虑的超过190亿个求解。如果系统分析5变量至10变量求解，则将存在超过9730亿个求解。随着考虑的变量的总数增加，求解变得甚至更大。因此，系统可以被配置为在聚类求解中仅分析变量的特定子集并且也确定将考虑的这样的变量的数目的范围。作为特定示例，对于有大量数据(例如，来自客户调查)的10,000个客户的数据集合，系统可以选择来自该数据集合的变量的子集(例如，5个变量)并且生成将那些10,000个客户划分成4个不同组或者聚类的聚类求解。

在一些实现方式中，系统也可以被配置为在聚类求解中使用特定数目的聚类或者某个数目范围的聚类。在一些场景中，将用于特定数据集合的聚类的数目可以依赖于数据的质量。作为示例，特定数据集合可以产生用于3聚类或者4聚类求解的不良聚类结果以及8聚类或者更多的不良聚类结果。在一些实现方式中，系统可以被配置为确定将在聚类求解中使用的聚类的适当数目。例如，系统可以生成评估分数的图形并且支持对图形的分析以确定哪个聚类大小范围产生最佳结果。

在一些实现方式中，可以从用户或者另一来源接收将在聚类求解中使用的聚类的数目作为输入。例如，在一些场景中，公司可能想要最小化将在聚类求解中使用的聚类的数目，例如，因为生成的聚类的数目可以与公司将为不同组的客户而实施的不同程序的数目有关。无论用于判定特定聚类数目的原因如何，系统都可以被配置为接收与将在生成聚类求解时使用的聚类的特定数目或者数目范围有关的输入。

因此，在一些实现方式中，可以存在可以向系统中输入的两个不同范围：(1)可以用来生成聚类求解的变量的范围；以及(2)将在生成聚类求解时使用的聚类的数目的范围。

在一些实现方式中，生成用于数据集合的多个聚类求解包括基于用于聚类求解的先前计算出的分数、使用机器学习算法来标识聚类求解。这样，对聚类求解的评估可以被反馈到聚类引擎作为输入，并且可以支持基于对先前聚类求解的评估的对聚类引擎的自动调整和精化。

在一些情况下，在生成多个聚类求解时，系统可以向用户呈现示出生成的聚类求解的报告并且允许用户改变与数据集合关联的属性的集合。报告可以包括基于对聚类求解的评估的任何适当信息。这可以使得用户能够使聚类求解可视化并且基于在报告中呈现的评估结果调整聚类分析的一个或者多个属性。对聚类求解的评估可以基于由用户指定的一个或者多个规则，比如对用户重要的一个或者多个业务目标。

用于每个聚类求解的计算出的分数可以包括一个或者多个不同分量。例如，计算出的分数可以包括目标驱动分量、分组分量和异构分量。目标驱动分量可以代表每个聚类求解覆盖与目标驱动属性关联的值的范围的程度。分组分量可以代表在每个聚类求解中的聚类跨聚类候选属性被如何紧密地分组。异构分量可以代表在每个聚类求解中的聚类跨聚类属性和简档属性二者的异构程度。

在一些情况下，用于每个聚类求解的计算出的分数可以包括不同分量的加权平均(例如，目标驱动分量、分组分量和异构分量的加权平均)。也可以用其它方式对不同分量进行分组以产生计算出的分数。此外，也可以如适合的那样使用其它分量和其它信息以产生计算出的分数。

在生成聚类求解之前，系统可以将数据集合变换成被配置为有助于生成聚类求解的格式。例如，系统可以提供如下界面，用户可以通过该界面创建变换规则，这些变换规则在应用于数据集合的变量时将那些变量映射到将可由聚类过程使用的值。这样的变换规则可以包括作为示例的归一化、将分类数据映射到数、用规定的替换来替换遗漏数据或者异常值(极端值)等。

图1描绘了其中可以实施本公开内容的实现方式的示例系统100。在图1的示例系统100中，由用户104操作的计算设备102和由用户108操作的计算设备106可以执行聚类和评估技术的一些方面。例如，计算设备102和106可以执行允许用户探索数据和与数据交互的用户输入/输出操作和数据可视化操作。

在一些实现方式中，更密集的计算操作可以由另一计算系统(比如系统110)执行。系统110可以包括一个或者多个服务器(例如，服务器112)和存储计算机可读指令的一个或者多个存储设备(例如，存储设备114)。服务器112可以如需要的那样与计算设备102和106通信以执行聚类和评估操作。例如，系统110可以存储待聚类的数据、对数据执行聚类算法和/或存储所得聚类求解。系统110可以使用服务器侧信息和处理以在计算设备102和106执行与用户104和108交互的应用或者基于web的界面时与计算设备102和106交互(例如，实时地)。系统110可以通过任何适当通信介质(比如通信网络116)与客户端设备102和106通信。

这样，在一些实现方式中，系统使计算工作能够被发送以由外部硬件(例如，超级计算机、联网的网格等)完成，该外部硬件可以例如提供支持相对快地生成大量求解的更大计算资源。作为示例，用户可以在指派将由远程系统110(例如，“在云中”)完成的计算作业时在移动电子设备102和/或106(例如，膝上型计算机、电子平板计算机等)上执行数据可视化。

对所得聚类求解的审查和探索可以由提供高度地交互的数据可视化特征的移动电子设备(例如，设备102、106)完成，而未必需要移动设备来执行密集计算工作。这样的在总体平台中的活动的分离可以产生跨个别实体的更佳性能。

在一些实现方式中，可以存在由执行聚类和评估过程的部分的一个或者多个其他用户(例如，图1中的用户120)操作的一个或者多个附加计算设备(例如，图1中的设备118)。这样的用户可以例如与用户104和/或108结合工作以执行不同的聚类和评估操作。

计算设备102、106、110和118可以是任何适当计算设备，比如膝上型计算机或者台式计算机、智能电话、个人数字助理、可佩戴计算机、便携媒体播放器、平板计算机或者可以用来与电子通信网络通信的其它适当计算设备。此外，计算设备102、106、110和118中的一个或者多个计算设备可以如这里进一步具体讨论的那样执行客户端侧操作。计算系统110也可以包括一个或者多个计算设备，比如计算机服务器。另外，计算系统110可以代表如这里进一步具体讨论的那样一起工作以执行服务器侧操作的多于一个计算设备。

网络116可以是公共通信网络(例如，因特网、蜂窝数据网络、通过电话网络的拨号调制解调器)或者专有通信网络(例如，专有LAN、租赁线路)。网络116可以包括一个或者多个网络。网络可以提供在各种模式或者协议(比如全球移动通信系统(GSM)语音呼叫、短消息服务(SMS)、增强消息接发服务(EMS)或者多媒体消息接发服务(MMS)消息接发、码分多址(CDMA)、时分多址(TDMA)、个人数字蜂窝(PDC)、宽带码分多址(WCDMA)、CDMA2000、通用分组无线电系统(GPRS)或者一个或者多个电视或者有线网络以及其它模式或者协议)之下的通信。例如，通信可以通过射频收发器而出现。此外，近程通信可以比如使用BLUETOOTH、Wi-Fi或者其它这样的收发器而出现。

图2图示了执行聚类和评估的系统的部件的示例。可以跨多个设备和系统(例如，图1中的设备102、106、110和/或118中)以分布方式实施图2中的系统，或者可以在相同设备上安装一些(或者所有)部件。分离设备上的部件可以使用任何适当通信技术以在相互之间传输数据(由箭头代表)。例如，在一些实现方式中，系统可以被实施为协调对在具有大量变量的数据集合中的高价值分割策略的搜索和发现的分布式计算平台。

在图2的示例中，可以由数据导入模块204从数据源202访问数据。数据导入模块204可以可选地在本地数据高速缓存206中存储数据中的一些或者所有(或者无)数据。导入的数据然后可以被传递到数据关联模块208以用于在聚类之前处理。例如，数据管理模块208可以通过以有助于向聚类过程中输入数据这样的方式对数据进行分组、排序、变换和/或者“清理”来组织数据。数据管理模块208可以使用指定用于向用于处理的数据应用的一个或者多个规则的一个或者多个变换规则。在一些实现方式中，可以从存储装置(例如，从数据存储库210)访问变换规则。附加地或者备选地，变换规则可以由用户输入。例如，数据管理模块208可以向用户提供使得用户能够指定一个或者多个变换规则的用户界面212。

数据管理模块208也可以标识由用户指定的不同类型的变量或者属性，并且根据标识的类型分离变量。一些类型的变量可以用作向聚类过程的输入，而其它类型的变量可以用作用于评估所得聚类求解的评估标准。这样，系统可以不仅实现对数据的自动化的聚类而且还实现对所得聚类求解的自动化的评估。例如，系统可以跨三个不同类型分离数据中的变量：目标驱动、聚类候选和简档变量。以下参照图3描述这三个变量的细节。

数据管理模块208然后可以向计算管理模块214发送经处理的数据。计算管理模块214可以向一个或者多个计算节点216发送经处理的数据和一个或者多个选择的聚类算法以执行聚类操作。聚类操作可以标识各自包括数据的多个聚类的若干(例如，数千个或者数百万个)不同聚类求解。

计算管理模块214也可以基于由计算节点216生成的聚类求解向计算过程应用一个或者多个广义化的启发式有监督学习算法以提高求解搜索的效率。有监督学习算法可以利用由用户指定的目标驱动变量以有助于在由计算节点216生成的潜在许多聚类求解之中搜寻对用户有意义的特定聚类。作为示例，启发式优化算法可以是对仿真退火(simulatedannealing)的适配。以下参照图6提供有监督学习算法的更多细节。

计算管理模块214也可以提供用户界面218，如果利用聚类和/或搜索算法，则该用户界面218向用户示出聚类和/或搜索算法的进度，从而使得用户可以判定不同搜索算法参数是否很可能产生更佳结果。特别地，计算管理模块214可以基于用户指定的业务标准评估聚类求解，并且向用户示出评估的结果以确定哪些聚类求解与用户特别地相关。

作为示例，计算管理模块214可以使用加权打分系统来评估聚类求解的质量。计算管理模块214可以用若干方式使用分数，比如：(a)如果利用搜索算法则辅助搜索算法和/或(b)允许用户仅仔细审核具有最高总分的那些求解。在一些实现方式中，质量分数基于对已经由数据管理模块208分离的变量而评估的因素的加权组合，例如：求解如何好地覆盖来自目标驱动的值的范围；聚类跨选择的聚类候选被如何紧密地分组；以及聚类跨聚类候选和简档变量二者的总多样性或者异构。

计算管理模块214然后可以审查个别聚类求解，包括关于未被算法选择的变量的统计量。计算管理模块214可以记录所得聚类求解的观测和描述。在一些实现方式中，计算管理模块214可以基于用户指定的标准选择被视为“最优”聚类求解的一个或者多个聚类求解。计算管理模块214可以在存储器(比如结果存储库220)中存储聚类求解中的一个或者多个聚类求解。

在一些情况下，计算管理模块214可以对聚类求解中的一个或者多个聚类求解(例如，最优聚类求解)“打分”或者向该一个或者多个聚类求解指派(在先前描述的计算中未使用的)新数据记录。在一些实现方式中，计算管理模块214可以向外部系统导出或者“推送”一个或者多个聚类求解(例如，最优聚类求解)，因此它可以使用它自己的数据来向最优聚类求解指派新数据记录而未必需要系统200的进一步干预或者辅助。

计算管理模块214然后可以向可视化模块222提供一个或者多个聚类求解。可视化模块222可以提供一个或者多个用户界面(例如，示出聚合结果图形的界面224和/或示出个别求解可视化的界面226)以迅速地探索生成的聚类求解集合。

可视化模块222可以提供允许用户容易查看个别聚类求解的可视化和已经生成的聚类求解的更大汇集二者的界面(例如，224、226)。这可以例如有助于用户确定对问题(比如“存在使用相同聚类求解中的多数相同聚类求解但是具有更佳求解多样性分数的相似求解吗？”(三个主要打分度量之一)或者“在这一求解空间附近评估了什么其它变量(这些其它变量充当用于我已经发现不能使用的变量的合理替换)？”的回答。

可视化模块222然后可以向报告生成器228提供所得聚类求解和评估的结果，该报告生成器228生成将向用户输出的报告。报告可以包括关于对聚类求解的评估的各种类型的信息，并且可以使得用户能够调整系统200的一个或者多个变量或者其它输入以微调聚类操作。

在一些实现方式中，可视化模块222也可以向求解导出模块230提供聚类求解和/或评估结果。求解导出模块230然后可以向系统200或者其它系统提供反馈信息。例如，求解导出模块230可以向外部规则引擎232提供反馈信息，该外部规则引擎232可以例如使用反馈信息以适配一个或者多个变换规则。附加地或者备选地，求解导出模块230可以向外部数据源202反馈信息以例如调整数据中的一个或者多个变量或者属性。

例如，求解导出模块230可以被配置为向不同类型的外部数据库和外部系统导出关于聚类求解的信息，并且有助于外部系统实施聚类求解。在一些实现方式中，求解导出模块230可以被配置为基于生成的聚类求解导出用于对数据进行聚类的一个或者多个规则或者算法。规则或者算法可以使外部系统能够应用那些规则或者算法以向外部数据库上存储的各种类型的数据实施生成的聚类求解。在一些实现方式中，系统可以从外部系统获得数据、基于接收的数据重新调节聚类求解并且向外部系统发送关于修正的聚类求解的信息。这样，在一些实现方式中，系统可以实现比仅分析工具更多，而且实现基于反馈的和连接的企业系统。

作为具体示例，对于具有(例如，来自客户调查)的大量数据的10,000个客户的数据集合，系统可以从该数据集合选择某个变量子集(例如，5个变量)并且生成将那些10,000个客户划分成4个不同组的聚类求解。例如，聚类A可以包括生成公司的利润中的大多数利润的“高价值”客户，从而使得公司可能想要保证维持他的用于那些客户的营销预算；聚类B可以包括“中价值”客户；聚类C可以包括生成非常少利润并且可能甚至花费公司资金的“低价值”客户；以及聚类D可以包括代表新销售机会的“前瞻”客户，从而使得公司可能想要向它们更激进地营销。

现在考虑如下场景，其中在已经向四个聚类指派那些10,000个客户之后，公司想要将另外1百万个客户组织和聚类成四个聚类组。系统可以被配置为导出如下求解以例如作为基本算法，公司的计算机系统可以能够使用该求解以向四个聚类组指派新客户记录。作为示例，导出的求解可以是以可以由公司的客户数据库处理的特殊SQL函数或者可以对公司的BigData Hadoop聚类等而相似地处理的Hadoop Map-Reduce算法的形式。在一些实现方式中，导出的求解可以使公司能够以与生成聚类求解的系统独立的方式实施聚类求解，从而使得公司可以容易地在它自己的系统内本地实施聚类求解。在一些实现方式中，导出的求解可能仅需要在聚类求解计算中使用的选择的变量子集(例如，在以上示例中的5个变量)作为输入。

通过提供聚类生成和聚类评估的合成技术，系统使得用户能够同时分析许多(例如，数十个)求解的细节和细微差别而不是一次个别地分析一个求解以查看每个求解是否适合。系统200因此可以使得用户能够在比通常实践者评估更少(例如，二十四)聚类求解将花费的时间更少的时间内高效地探索大量(例如，数百万个)聚类求解。

在一些实现方式中，界面212、218、224、226可以是有助于总活动的某个部分的定制设计的用户界面，并且在一些情况下可以由具有不同角色的多个用户使用。这样，根据本公开内容的系统可以协调和有助于聚类生成和评估的分布式过程，并且将潜在地包括多个人参与的任务和角色流水线化。

例如，以上参照图2描述的操作可以包括不同人参与角色。以下给出这样的角色的一些示例和由每个角色执行的任务的示例：

系统管理员或者集成工程师。参加初始任务，该初始任务配置传入数据源和允许向外部系统“推送”最终求解的通道。

数据分析师。应用基本方法以通过组织传入数据、为遗漏数据指派替换值、在已知的自动化的方法汇集内变换变量以“预备”数据以在聚类算法中更有效、标识哪些变量应当被指明为目标驱动、聚类候选或者简档变量等来审查它并且“清理”它的分析师或者技术人员。

聚类专家。将聚类算法应用于数据并且基于已知标准评估求解的质量的专家。将利用系统工作以生成许多(例如数千个或者数百万个)求解并且向业务分析师提供候选列表。

业务分析师。在特定业务领域中的这一专家将有资格审查最高求解的简档。创新被设计为清楚地概括聚类的性质(它们的业务价值以及基于对群集和简档变量二者而评估的概要统计变量的描述质量)，从而使得业务分析师可以标识可以从某些求解显现的潜在洞察力。

公司执行人。将使用业务分析师的洞察力来审查由系统生成的报告的主要持股人。此人将基于报告做出可作用策略业务决策(无论是营销策略还是业务运营策略)。

系统使这样的多组人能够以速度和精确性一起工作并且减轻无效果和无决策的问题。特别地，系统通过标识在数据中的与在总过程中的不同操作相关的不同类型的变量来有助于不同角色。

图3是图示了系统可以在数据中标识的三个不同类型的变量的示例的略图。在这一示例中，系统指引用户跨三个不同类型(在图3中图示为三维空间300的不同轴)划分来自数据集合的变量：目标驱动、聚类候选和简档变量。

在一些实现方式中，将变量划分成这些类型使得用户能够创建描述函数，其中少数简单、立即地可用因素可以用作输入。输出可以在一些实现方式中是向如下聚类的指派，该聚类具有相对于目标驱动的固有地高或者低程度价值。

例如，给定如下潜在客户，对于该潜在客户，一些基本特性可用于系统(例如，年龄、性别、潜在客户打算购物的当天时间、潜在客户是否在郊区或者市区邻域中的商店购物等)，系统使得用户向聚类指派该潜在客户并且确定该聚类对用户的业务的重要性(例如，高消费趋势、购买具有更高利润边际的产品等)。

从聚类候选选择用作输入的特性，并且在一些实现方式中，基于效率和描述性选择使用的特性的数目，例如，小到可管理而大到可描述。向聚类指派的业务价值的质量由目标驱动描述，并且在一些实现方式中，聚类关于这些价值而显著地不同，从而使得用户知道用户可以在做出策略业务决策时聚焦于哪些高业绩者和/或低业绩者。

其余变量在一些实现方式中用来更丰富地描述聚类并且得到对聚类的性质的洞察力。对这些简档变量的分析可以例如带来对各种特性的洞察力，比如：(a)这些群体为什么造成高业务价值或者低业务价值，(b)这些群体具有的兴趣(如果用户正在对客户进行聚类)，从而使得用户可以最有效地向他们营销，或者(c)用户可能想要优化或者最小化的任何其它适当特性，比如浪费的销售层空间或者未实现的机会。

以上描述的实现方式可以例如用作自组织技术的备选，在该自组织技术中，聚类实践者从变量汇集选择一些“兴趣变量”、运行无监督机器学习算法(比如k均值聚类)，并且然后检查在所得求解中的所有变量以查看是否有任何感兴趣的特性出现在结果中。

在一些实现方式中，可以减轻这样的自组织方式出现的各种问题。这样的问题可以例如包括：

倾向于将目标驱动放入聚类求解中。

这有悖生产性，因为输入可能变得与输出混淆。例如，如果用户想要区分高利润客户与低利润客户，并且用户选择“总购物车价值”和“总销售利润”作为在聚类求解中的变量，则用户不可能产生希望的结果。在这一示例中，用户有效地查找求解“产生最多销售的人是带来最多原料的人”，该求解未产生对客户的大量洞察力。

取而代之，系统可以生成使得用户基于非目标驱动方面向不同聚类指派客户的聚类求解。例如，系统可以使得用户发现特定聚类(例如，其总业务价值高的客户)由倾向于在某些时间(例如，在中午的中间期间)购买特定类型的物品(例如，运动装备、珠宝等)的购买更大比例的名牌物品的客户标识。

倾向于将不可用或者非可作用属性放入聚类求解中。

在一些示例中，可以通过用客户的采样进行调查(例如，关于他们的购物习惯、关于价格是否太高的意见等)来获取数据。这样的数据可以从业务观点来看有洞察力(例如，在描述不同聚类中的人的特性时)，但是它们可能从聚类观点来看不可作用，因为用户不能预先调查所有客户(在他们步入门户之前)以便指出用户应当向哪些聚类指派它们。

根据本公开内容的系统可以划分变量以便仅聚焦于将倾向于预先可用和可知作为用于聚类求解的输入的那些变量。系统可以使用目标驱动以例如推导将由查找聚类求解的搜索算法(例如，启发式搜索算法)使用的评估标准。它概括由其余变量提供的信息并且将它们呈现为对所得聚类的描述以阐明用于聚类实践者和业务所有者的任何有价值洞察力。

图4至图6是图示了用于执行聚类和评估的示例过程400、500、600的流程图。示例过程400、500、600可以例如由图2中的系统200执行。

在图4中的示例过程400中，系统可以标识为其评估聚类求解的数据集合，该数据集合包括各自包括多个属性的多个记录(402)。这一步骤可以例如由图2中的数据导入模块204执行。系统然后可以从多个属性标识目标驱动属性的集合、聚类候选属性的集合和简档属性的集合(404)。系统可以确定用于应用于数据集合以标识聚类求解的一个或者多个聚类算法(406)。系统然后可以生成用于数据集合的多个聚类求解，聚类求解中的每个聚类求解基于聚类候选属性中的一个或者多个聚类候选属性将数据集合中的记录分组成多个聚类(408)。系统可以至少部分基于目标驱动属性、聚类候选属性和简档属性计算用于聚类求解中的每个聚类求解的分数(410)。步骤404至410可以例如由图2中的数据管理模块208(可能与远程计算节点216结合)执行。系统然后可以生成用于向用户呈现的用户界面，该用户界面示出根据用于每个聚类求解的计算出的分数而组织的多个生成的聚类求解(412)。这一步骤可以例如由图2中的可视化模块222执行。

图5图示了在聚类之前变换数据(例如，如由图2中的数据管理模块208执行)的附加细节的示例。在示例过程500中，在系统确定用于应用于数据集合以标识聚类求解的一个或者多个算法(例如，如在图4中的406中那样)之后，系统可以将数据集合变换成被配置为有助于生成聚类求解的格式(502)。在变换数据集合之后，系统然后可以生成用于变换的数据集合的多个聚类求解(例如，如在图4的408中那样)。虽然图5的示例图示出数据变换在确定聚类算法之后出现(406)，但是一般而言，对数据集合的变换可以在对数据集合执行聚类操作之前的任何适当时间出现。

在一些情况下，变换包括操作，比如归一化、将分类数据映射到数和/或用规定的替换来替换遗漏数据或者异常值(极端值)。系统可以提供如下界面(例如，图2中的界面212)，通过该界面212，用户可以创建变换规则，这些变换规则在应用于数据集合的变量时将那些变量映射到将可由聚类过程使用的值。基于这些变换值，可以在为聚类做预备时处理来自数据源的数据。

在一些实现方式中，系统可以使用一种允许变换数据而实现反转回到原有数据状态的“非破坏性”方式。可以存在对以上描述的实现方式的许多益处。益处的一些示例可以包括以下示例中的一个或者多个示例：

1.如果犯错，或者如果向变量的特定变换在聚类求解中未良好地工作，则可以反转变换并且可以代之以尝试不同变换。

2.所得聚类求解集合(在过程结束时)可以与用作输入的变换规则一起被存储。这使得有可能回到原有数据集合并且重复聚类实行而无需维持过渡“变换”的数据集合。

3.一旦已经发现希望的聚类求解，聚类求解就可以与数据变换规则一起被导出到外部系统(例如，数据仓库)。该外部系统然后可以通过首先应用变换规则并且然后比对希望的聚类求解对所得“数据的已处理版本”打分来向各种聚类指派将来数据记录。这可以使聚类求解可移植。

图6图示了生成多个聚类求解(例如，如在图4的408中那样)的附加细节的示例。在示例过程600中，生成多个聚类求解包括基于用于聚类求解的先前计算出的分数使用机器学习算法来标识聚类求解(602)。

聚类技术(比如k均值)可以包括无监督机器学习。在这样的技术中，对聚类求解的计算未被连结到如下度量，该度量代表基于聚类求解的质量的错误或者奖励。

根据本公开内容的系统代之以通过在启发式算法中打包聚类操作来提供改进的机器智能形式，该启发式算法使用打分系统(例如，基于目标驱动、简档变量多样性和来自聚类候选的聚类密度统计量)以辅助对于聚类求解的有向搜索。

可以使用不同启发式搜索算法，如例如仿真退火或者其它算法。在一些实现方式中，启发式搜索算法(例如，仿真退火)可以应用于更大搜索以发现在潜在地许多(例如，数十亿个)候选聚类求解之中的求解，并且可以对该结构抽象化，从而使得启发式搜索算法(例如，仿真退火)可以被任何希望的搜索算法替换。

这样，系统可以不仅生成多个聚类求解(使用聚类算法，比如k均值)而且可以基于用户指定的标准(例如，目标驱动)允许用户搜索和标识相关的特定聚类求解(使用启发式机器学习搜索算法，比如仿真退火)。通过提供集成的聚类生成、评估和标识技术，系统可以实现对潜在地大量数据的更全面分析。

图7至图14是图示了(如由图2中的用户界面218、224和/或226呈现)的数据呈现和可视化的示例的图形700至1400。图7至14中的图形图示了显示启发式求解搜索算法循环的进度(以便在聚类分析中检测潜在错误)的示例和探索全局打分常数并且检查它们在循环的搜索过程中的影响的示例。也描述了平均质心距离度量和可以在一些实现方式中改进这一度量及其在全打分过程中的有用性的附加比例归一化过程。

图7中的图形700示出了存在1000个迭代的4聚类求解。它在顶部示出了总组合分数、继而是组合分数的三个不同分量：目标驱动分量(在示图中，BV代表业务价值，这是目标驱动通常地代表的分量)、分组分量(平均质心距离)和异构分量(求解多样性分数)。在图7中示出了总分数图形的示例。

在这一示例中，在迭代772和942处的竖直线指示启发式求解搜索算法重启，因为已经达到非改进限制(在这一情况下为30)。虚线代表所有接受的求解的分数——也就是说，在运行最大值之上被视为改进的或者在仿真退火的冷却容差的范围内的所有聚类求解。更小的点代表未被启发式搜索接受的求解分数。

平均质心距离。

图8示出了图形800，该图形图示了分组分数(平均质心距离)的震荡的示例。不同于目标驱动分数(BV)和异构分数(求解多样性)，分组分数(平均质心距离)具有对它的“模糊性”。图8示范了如何出现有这一分数的总进度，但是它表现为在曲线之间的范围内震荡。

用于这一震荡的原因可以被聚类求解不断地添加和去除变量这样的事实说明。例如，在聚类求解具有5个变量时，用于在聚类中的点的平均质心距离将总是在它具有4个变量时相比的约14％。

欧几里得距离的比例

考虑n个数据点x₁,x₂,…x_n的集合，每个数据点x_i具有k个分量{x_i1,x_i2,…,x_ik}，其中每个分量x_ij已经被归一化，从而使得均值为零而方差为1(μ＝0并且σ²＝1)。对于大数n，这些数据点的欧几里得中心或者均值将迫近在0的原点。

通过应用毕达哥拉斯原理并且得到平方分量之和的平方根来计算从任何点x_i到原点的欧几里得距离(将表示为Δx_i)，或者：

如果根据正态分布(～N(0,1))来分布分量x_i(x_i1,x_i2,…,x_ik)，则距离的平方Δx_i ²将具有自由程度为k的Chi-square(χ²)分布，因为它是k个独立、正态分布的随机变量之和。

存在分布Chi(k)，该分布是具有k个自由度的χ²随机变量的平方根。如果Δx_i～Chi(x)，则期望值可以由下式给定：

这一点的结果是归一化的距离的均值将恒定并且将随着距离的维数增加而可预测地增加。作为示例，对于在4维空间中测量的归一化的距离，平均距离将是EΔx＝1.88，并且在5维空间中，EΔx＝2.13，并且在6维空间中，EΔx＝2.35。

在一些实现方式中，不能直接地比较具有不同维度的用于聚类求解的平均质心距离，因为通过简单地向数据集合添加新维度，必须向毕达哥拉斯平方之和添加新项x_k+1 ²。

然而，这些计算出的预计值可以用来创建实现直接比较不同维度的距离的缩放因子。无k均值聚类(或者利用仅1个聚类的聚类)，可以获得用于距离的预计值的确切计算。此外，由于点到它们的质心的平均距离小于到总中心的距离，所以可以定义比例因子s₁,s₂,…,s_k的集合，其中s_i是由下式给定的总平均距离的预计值(即，总平方误差之和(SSE)的平方根)：

如果对于k个变量的任何求解，平均质心距离统计量除以s_k，获得本身将落入范围(0，1)中的统计量，其中0将代表“完美聚类”(所有点确切地等于质心)并且1将代表无聚类。

按照变量数目检查平均距离

可以分离图8中所示平均质心距离的示例图形800，从而使得所有k变量求解可以被分组在一起。图10中所示的示例图形取得具有5、6、…、10个变量的求解并且将它们分组在一起。y轴标记示出了多少变量在求解中由启发式求解搜索算法选择，并且x轴标记具有平均质心距离跨这些求解的均值。

在图10的示例图形1000中，更浅色的点代表在所有接受的求解的前百分之10内具有总分数的求解，并且更深色的点代表在前百分之20中的求解。

关注在每个图形内的范围，可能难以判定应当用来“惩罚”最差求解的良好“平均质心距离限制”。例如，平均质心距离限制2.0可能看来有利于支持最佳8变量求解，但是它不会惩罚单个5或者6变量求解。甚至发现对于5变量和6变量求解而言合理地工作的良好单个阈值可能有困难。

图11中的示例图形1100具有启用的变量归一化，从而向平均质心距离计算应用缩放因子。

在图10与图11之间的示例图形1000、1100上的点是相同的，但是y轴范围现在具有相似范围，其中中值阈值约为0.75。

应用缩放的平均距离

在基于y轴刻度的图9中的图形900上的示例曲线中，线具有宽度～0.2。在一些示例中，如果大多数求解具有在5与6个之间的求解，则6求解分数可以具有平均质心距离s₆/s₅＝1.10或者比5求解分数高10％。由于总分数约为2.0，所以在这一示例中预计这一线宽度0.2。

如果每个求解的平均质心距离被提出的比例因子缩放，则在图12的示例图形1200中示出结果。

注意，avg_cent_dist线不再具有“模糊”外观而最接近地类似于“随机看走”类型，因为求解密度分数紧接地在它上方。

图13示出了图形1300，这些图形图示了使得用户能够与显示的图形交互(例如，如由图2中的可视化模块222提供的那样)的示例。在这些示例中，在最高求解列表中显示特定聚类求解，但是用户可能由于在聚类中的点之间的大间距而不喜欢在该求解中的平均质心距离(k均值拟合的质量)。用户然后可以跳跃到分数图形，并且用户界面可以将该特定求解显示为在所有四个图形中被醒目显示。

用户界面可以使得用户能够选择在邻近求解周围的框。这一聚类求解可以相似并且具有质心距离的提高。系统指示聚类求解已经在最高求解列表上(向用户给予用于跳跃到此的选项)或者它给予用于向列表添加聚类求解的选项。

在一些实现方式中，系统可以在其它场景中和出于其它原因而使用缩放因子以确定缩放的平均距离。作为示例，系统可以如以下描述的那样使用缩放因子以计算考虑遗漏数据值的缩放的平均距离。

处理具有遗漏值的数据

在一些实现方式中，系统可以被配置为处理具有遗漏值的数据。用于处置具有遗漏值的数据的一些更简单技术例如包括从处理中简单地排除数据或者利用代表有关数据的替换值(比如有关数据的中值或者均值)替换遗漏值。然而，在一些场景中，这些技术可能引入可能超过可容许数量的附加噪声和不准确性。

作为另一示例，系统可以引入校正因子以考虑遗漏数据。例如，在之前节中介绍的缩放因子可以使系统能够处理数据，即使数据中的一些数据尚未被指派值。可以例如在系统确定在如下数据汇集内的统计量(比如平均值)时使用这样的缩放技术，在该数据汇集中，数据中的一些数据具有遗漏值。缩放因子可以使系统能够协调在汇集中的不同数据点并且确定在数据汇集内的可感知统计度量。

为了考虑可能具有遗漏值的数据点的简单示例，考虑n个点的集合x₁,x₂,…x_n，其中每个点x_i是三维的并具有分量{x_i1,x_i2,x_i3}，以及其中每个分量x_ij已经被缩放和归一化成具有零均值和单位方差((μ＝0和σ²＝1)。假设特定点x_i具有它的分量{x_i1,x_i2,x_i3}中的一个或者多个分量遗漏值。

按照聚类算法(比如k均值聚类)，可以通过简单地在距离计算和聚类指派中忽略遗漏值来处置遗漏数据值。例如，假设存在数目p个“聚类”C₁,C₂,…,C_p，这些聚类的质心(也就是中心点)分别由三维点c₁,c₂,…c_p给定。标准k均值聚类算法如下向特定聚类指派给定的点x_i：它首先计算在该点x_i与质心c₁,c₂,…c_p中的每个质心之间的欧几里得距离，然后它选择其与x_i的距离最小的聚类。这些欧几里得距离由标准毕达哥拉斯公式给定：

如果x_i的分量{x_i1,x_i2,x_i3}中的一个或者多个分量遗漏值，则系统然而可以能够通过修改传统聚类算法以在数目减少的维度中计算从点x_i到每个质心c₁,c₂,…c_p的近似距离并且确定最近质心来确定聚类指派。这样，即使分量{x_i1,x_i2,x_i3}中的一个或者多个分量遗漏值，也仍然可以计算点x_i的聚类指派。例如，如果三维矢量的第一分量x_i1遗漏值，则系统仍然可以通过省略第一元素并且确定修改的二维距离来计算距离Δx_i：

系统然后可以选择其二维质心距离最小的聚类。

然而，问题在计算包括聚合不同数据点的统计数量时变得更困难，这些数据点中的一些数据点可能具有遗漏值。特别地，尽管标准聚类指派算法(比如以上描述的k均值聚类指派过程)可以不受遗漏数据值影响，但是困难在计算基于多个距离测量的统计量(、比如平均质心距离)时出现。在这样的场景中，简单地使用减少维度的距离可能是不够的，并且系统可以被配置为使用缩放因子以考虑遗漏值并且协调不同数据点。

例如，考虑由下式给定的在点x₁,x₂,…x_n与单个质心c之间的平均距离：

然而，如果点x_i中的一些点遗漏用于它们的分量中的一个或者多个分量的值，则在等式(6)中的公式将是一维、二维和三维测量的混合。如以上说明的那样，更高维的距离一般地由于它们的额外分量而大于更低维的距离。因此，在以上给定的平均距离公式中，具有遗漏值的数据点将通常地具有更小距离值，并且这些更小值将往往朝着比原本准确的平均值更小的平均值偏置平均距离。

为了解决这一问题，系统可以使用缩放因子以引入校正因子，该校正因子考虑由遗漏数据值创建的人为地小的距离。例如，系统可以使用在之前节中给定的缩放因子s₁,s₂,…,s_k：

这些缩放因子将“归一化”在距离测量之间的维数以便补偿遗漏数据值。

考虑k维的点，从而使得每个点x_i具有分量{x_i1,x_i2,…,x_ik}。考虑集合M以代表那些有遗漏值的分量，因此仅如果分量j遗漏才x_ij∈M。也令值m代表遗漏分量的数目。(继而将有(k-m)个非遗漏分量。)

将校正的距离Δ^cx_i定义为：

从而使得距离有效地被缩放因子s_k/s_m扩张。

作为示例，如果点x₁,x₂,…x_n∈R⁷(即，在七维空间中的点)并且点x_i具有用于它的七个分量中的两个分量(即m＝2)的遗漏数据，则系统将跨五个现有(非遗漏)分量使用欧几里得距离来计算从质心的距离Δx_i，然后将按照由下式计算的因子s_k/s_m来扩张距离：

在等式(9)中代入k＝7和k-m＝5，系统将通过将Δx_i乘以缩放因子来计算Δ^cx_i：

因此，在这一示例中，系统将按照20％扩张减少的5维距离以将它放大成7维等价量。

因此，在一些实现方式中，系统可以被配置为自动地检测遗漏数据分量值，并且如以上描述的那样通过按照适当缩放因子扩张距离来计算考虑遗漏数据的修改的距离。

复合变量

在一些实现方式中，数据点的一个或者多个分量可以相互有关，并且系统可以被配置为对那些分量进行分组并且将它们作为单个复合变量一起处理。作为示例，如果数据点x_i具有分量{x_i1,x_i2,x_i3,…,x_ik}，并且如果系统确定第二x_i2和第三分量x_i3应当视为复合变量，则系统可以代之以将数据点x_i表示为具有分量{x_i1,x_i2,…,x_ik-1}，其中复合变量x_i2代表x_i2和x_i3二者。以下在地理位置数据的上下文中提供具体示例。

地理位置数据

考虑数据集合x₁,x₂,…,x_n，其中每个数据点x_i具有分量{x_i1,x_i2,x_i3,…,x_ik}，并且其中每个分量x_ij代表某个测量排序。例如，数据点x_i可以代表人而分量x_i1可以是个人的高度的测量，x_i2可以是人的年收入的测量，并且x_i3可以是人花费在特定物品(比如杂货)等上的平均每周金钱数量的测量。

如以上说明的那样，在一些实现方式中，系统可以被配置为通过有选择地使用分量变量的不同子集来计算k均值。例如，系统的搜索算法可以判定选择k个分量{x_i1,x_i2,x_i3,…,x_ik}中的四个分量以例如使用四个分量{x_i2,x_i5,x_i6,x_i13}来计算聚类求解。

然而，如果数据点x_i对应于地理位置数据，则x_i4可以代表经度并且x_i5可以代表纬度。在这样的场景中，选择纬度分量x_i5作为待处理的四个分量的部分但是未选择对应经度分量x_i4可能出于至少两个原因而引起问题。

首先，通过仅使用地理位置的一个维度(比如经度而不是纬度)，聚类求解可能基于实际距离的不准确测量。例如，如果在聚类计算中未考虑纬度，则住在德州和北达科他州的两个人将表现为具有在他们之间的很小距离，即使在现实中，他们相隔甚远，因为他们的经度相似。

其次，由于地球的球形形状，在两个经度之间的距离在赤道附近比在极点附近大得多。

系统可以在一些实现方式中被配置为通过将地理位置数据标识为复合变量来解决这一问题。例如，系统可以使用极点距离计算来计算用于这些复合变量的距离。

将地理位置存储为复合变量

作为具体示例，取代在分量x_i4中存储经度而在x_i5中存储纬度，系统可以被配置为通过使单个分量x_i4成为复数变量(该复数变量有被存储为实部和虚部的经度和纬度)来在该分量中存储纬度和经度二者。在这样的场景中，分量可以被表示为x_i4＝a+bi，其中a是纬度而b是经度。在这一过程期间，系统也可以将测量从度数转换成弧度，从而使得位置41°N和92°W将被转换成0.71+4.68i(将北和东视为正方向，从而使得92°W＝360°-92°＝268°＝4.68弧度)。

系统然后可以被配置为将地理位置值一起选择作为复合变量。然而，使用复数仅用于表示概念，并且在实践中，系统可以利用任何允许变量具有多个分量的适当数据结构。

用于聚类算法的欧几里得距离

使用复合变量，计算用于聚类算法(比如k均值)的距离的系统将认识到使用复数值(或者其它相似的两部分数据结构)。在这样的场景中，取代使用标准距离计算：

系统可以代之以将地理位置分量分离成集合G并且使用极点距离函数g^Δ(x,c)来计算它们的距离。

如果

并且质心分量是

则极点距离函数g^Δ(x，c)可以基于用于距离的以下计算：

用于数据点x_i的距离然后将变成：

在以上等式(13)中，g^Δ(x,c)分量距离乘以可以使地理位置数据归一化的缩放因子R_j。这一因子可以通过首先计算整个数据集合的平均(中心)地理点并且然后为在每个点与该中心之间的距离计算标准偏差来计算。

如在前一节中描述的遗漏数据补偿实现方式中那样，可以增强基本距离计算算法，从而使得自动地检测地理位置分量并且应用适当球形距离计算。

图14至图18是图示了可以执行集成的聚类和评估的系统显示的屏幕截图的示例的示图。

图14图示了可以由系统为最高级求解探索器而显示的屏幕截图的示例，该屏幕截图示出了在分离图形中示出的4聚类、5聚类、6聚类和7聚类求解。每个图形对于每个聚类大小示出对于求解的迭代搜索的进度。在四个图形中的每个数据点代表获得的一个可能求解。四个图形的竖直轴对应于例如使用人工智能和/或启发式搜索在评估过程中使用的“总质量分数”。水平轴是评估过程已经尝试的迭代数目。在这一示例中，显示的屏幕截图如图14的最高图形中所示指示没有用于4聚类求解的稳定求解。具体而言，在4聚类求解图形中的竖直线表示在对搜索的多个迭代(例如，25个迭代)之后无法发现新的可接受求解。对于更多聚类(比如在这一示例中的五个、六个和七个聚类)，在这一示例中的屏幕截图指示更佳稳定性。例如，在图14中的屏幕截图的底部所示7聚类求解图形示出了用于数据集合的更佳总稳定性，因为系统更佳地能够在开始新迭代集合之前收敛至由每个竖直线指示的求解。

图15图示了屏幕截图的示例，该屏幕截图示出了6聚类求解的细节。在这一示例中的最高图形在竖直轴上图示总分数并且与在图14中对于6聚类求解而显示的第三图形相同。在这一示例中的其它三个图形是评估过程的一些个别分量的输出。例如，第二图形图示了由被标注为“bv_score”的竖直轴代表的跨目标驱动的区分数量。第三图形图示了由被标注为“soln_div_score”的竖直轴代表的在个别聚类之间的简档多样性数量或者在聚类之间的数据中的异构数量。第四图形图示了由被标注为“avg_centroid_dist”竖直轴代表的在聚类中的平均质心距离或者聚类的紧凑度数量。对于第四图形，更低分数指示更佳性能，因为更紧凑的聚类倾向于在将观测映射到聚类之一时产生更少误差。在这一示例中，对于正在查看的特定求解，可以在“选择的变量”之下在屏幕截图的右侧上显示为该求解而选择的那些变量和/或属性为列表。在选择的变量的列表以下可以显示使得用户能够对求解执行各种过滤操作的一个或者多个按钮。在这一示例中，显示两个按钮、“通过其过滤”按钮和“清除过滤”按钮。

图16图示了如果用户在选择对应列表中的变量中的一个或者多个变量之后点击图15中所示“通过其过滤”按钮则可以显示的屏幕截图的示例。系统基于由用户选择的变量对图15中显示的求解集合执行过滤。图16中的示例示出在过滤之后保留的所得数据点，每个数据点代表并入选择的变量“％unemployment”的6聚类求解中的一个可能求解。

图17图示了在特定6聚类求解中的六个聚类中的每个聚类的具体分解的屏幕截图的示例。这一数据可以例如对应于图14、图15或者图16中的数据点之一。显示的数据可以并入适当可视表示(比如色编码、阴影或者其它可视技术)以代表哪些聚类具有用于讨论的变量的特别地更高或者更低值，该变量对应于图17的表中的特定行。

图18图示了六个聚类的图形显示的屏幕截图的示例。在这一示例中，系统可以使得用户选择在目标驱动或者选择的变量之间的竖直和水平轴并且在选择的轴上将聚类显示为球体。这可以使得用户能够可视地确定球体如何好地跨选择的目标驱动或者选择的变量的值的总范围展开。在一些实现方式中，如果用户选择聚类之一，则系统可以显示该聚类跨所有变量的相同具体数值简档。

图19是可以用于与这里描述的技术关联地描述的操作的计算机系统1900的示例的示意图。

系统1900包括处理器1910、存储器1920、存储设备1930和输入/输出设备1940。部件1910、1920、1930和1940中的每个部件使用系统总线1950来互连。处理器1910能够处理用于在系统1900内执行的指令。在一个实现方式中，处理器1910是单线程处理器。在另一实现方式中，处理器1910是多线程处理器。处理器1910能够处理在存储器1920中或者在存储设备1930上存储的指令以在输入/输出设备1940上显示用于用户界面的图形信息。

存储器1920存储在系统1900内的信息。在一个实现方式中，存储器1920是计算机可读介质。在一个实现方式中，存储器1920是易失性存储器单元。在另一实现方式中，存储器1920是非易失性存储器单元。处理器1910和存储器1920可以执行数据操纵和生效，包括执行数据质量作业。

存储设备1930能够提供用于系统1900的海量存储装置。在一个实现方式中，存储设备1930是计算机可读介质。在各种不同实现方式中，存储设备1930可以是软盘设备、硬盘设备、光盘设备或者带设备。存储设备1930可以存储收集的监视数据和数据质量规则表示。

输入/输出设备1940提供用于系统1900的输入/输出操作。在一个实现方式中，输入/输出设备1940包括键盘和/或指点设备。在另一实现方式中，输入/输出设备1940包括用于显示图形用户界面的显示单元。输入/输出设备1940可以用来执行与源和目标数据质量管理和/或处理系统的数据交换。

可以在数字电子电路装置中或者在计算机硬件、固件、软件中或者在它们的组合中实施描述的特征。可以在信息载体中(例如，在机器可读存储设备中)有形地体现的用于由可编程处理器执行的计算机程序产品中实施该装置；并且方法步骤可以由可编程处理器执行，该可编程处理器执行指令程序以通过对输入数据操作并且生成输出来执行描述的实现方式的功能。描述的特征可以有利地被实施在可在可编程系统上执行的一个或者多个计算机程序中，该可编程系统包括至少一个可编程处理器、至少一个输入设备和至少一个输出设备，该至少一个可编程处理器被耦合用于从数据存储系统接收数据和指令以及向数据存储系统传输数据指令。计算机程序是可以在计算机中直接地或者间接地用来执行某个活动或者产生某个结果的指令集。可以在任何形式的编程语言(包括编译或者解释语言)中编写计算机程序，并且可以在任何形式中部署它，包括作为单独程序或者作为适合用于在计算环境中使用的模块、部件、子例程或者其它单元。

用于执行指令程序的适当处理器例如包括通用和专用微处理器以及任何种类的计算机的唯一处理器或者多个处理器之一。一般而言，处理器将从只读存储器或者随机存取存储器或者二者接收指令和数据。计算机的单元是用于执行指令的处理器以及用于存储指令和数据的一个或者多个存储器。一般而言，计算机也将包括用于存储数据文件的一个或者多个海量存储设备或者被操作地耦合用于与该一个或者多个海量存储设备通信；这样的设备包括磁盘，比如内部硬盘和可拆卸盘；光磁盘；以及光盘。适合用于有形地体现计算机程序指令和数据的存储设备包括所有形式的非易失性存储器，例如，包括半导体存储设备(比如EPROM、EEPROM和闪存设备)；磁盘(比如内部硬盘和可拆卸盘)；光磁盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可以由ASIC(专用集成电路)补充或者被并入在ASIC中。

为了提供与用户的交互，可以在计算机上实施特征，该计算机具有用于向用户显示信息的显示设备、比如CRT(阴极射线管)或者LCD(液晶显示器)监视器以及用户可以用来向计算机提供输入的键盘和指点设备(比如鼠标或者跟踪球)。

可以在计算机系统中实施特征，该计算机系统包括后端部件(比如数据服务器)或者包括中间件部件(比如应用服务器或者因特网服务器)或者包括前端部件(比如具有图形用户界面或者因特网浏览器的客户端计算机)或者它们的任何组合。系统的部件可以通过任何数字数据通信形式或者介质(比如通信网络)来连接。通信网络的示例例如包括LAN、WAN以及形成因特网的计算机和网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般地相互远离并且通常通过网络(比如描述的网络)交互。客户端和服务器的关系借助在相应计算机上运行并且相互具有客户端-服务器关系的计算机程序而出现。

已经描述了多个实现方式。然而，将理解可以进行各种修改而未脱离公开内容的精神实质和范围。因而，其它实现方式在所附权利要求的范围内。

Claims

1.一种用于使用云基础设施执行聚类求解评估即服务的计算机实施的方法，包括：

由基于云的聚类求解系统的一个或者多个数据导入服务器从在所述基于云的聚类求解系统外部的外部系统的客户端设备接收为其评估聚类求解的数据集合，所述数据集合包括各自包括多个属性的多个记录，所述基于云的聚类求解系统包括(i)所述一个或者多个数据导入服务器，(ii)一个或者多个数据管理服务器，(iii)一个或者多个计算管理服务器，(iv)一个或者多个计算节点服务器，(v)一个或者多个可视化模块服务器，以及(vi)一个或者多个求解导出模块服务器；

由所述基于云的聚类求解系统的一个或者多个数据管理服务器从所述多个属性标识目标驱动属性的集合、聚类候选属性的集合和简档属性的集合；

由所述聚类求解系统的一个或者多个计算管理服务器确定用于应用于所述数据集合以标识聚类求解的一个或者多个聚类算法；

由所述聚类求解系统的一个或者多个计算节点服务器生成用于所述数据集合的多个聚类求解，所述聚类求解中的每个聚类求解基于所述聚类候选属性中的一个或者多个聚类候选属性将所述数据集合中的记录分组成多个聚类；

至少部分基于以下各项，针对所述聚类求解中的每个聚类求解，由所述聚类求解系统的所述一个或者多个计算管理服务器计算聚合分数：目标驱动分数，所述目标驱动分数反映由所述聚类求解产生的聚类覆盖所述目标驱动属性的程度；聚类候选分数，所述聚类候选分数反映由所述聚类求解产生的所述聚类将所述聚类候选属性分组的紧密性；以及简档变量分数，所述简档变量分数反映由所述聚类求解产生的所述聚类跨所述聚类候选属性和所述简档属性二者的异构性；

由所述聚类求解系统的所述一个或者多个可视化模块服务器生成用于向用户呈现的用户界面，所述用户界面示出根据用于每个聚类求解的计算出的所述分数而组织的生成的所述多个聚类求解；

由所述聚类求解系统的所述一个或者多个计算管理服务器基于所述分数选择特定聚类求解；以及

由所述聚类求解系统的所述一个或者多个导出模块服务器向在所述基于云的聚类求解系统外部的所述外部系统的所述客户端设备提供所述特定聚类求解，以用于当在不需要由所述聚类求解系统的进一步干预的情况下、使用所述特定聚类求解向由所述一个或者多个计算节点服务器先前生成的所述多个聚类指派未由基于云的聚类求解系统先前接收的新数据记录时使用。

2.根据权利要求1所述的方法，其中生成用于所述数据集合的所述多个聚类求解包括基于用于聚类求解的先前计算出的分数、使用机器学习算法来标识所述聚类求解。

3.根据权利要求1所述的方法，还包括：在生成所述多个聚类求解时向用户呈现示出生成的聚类求解的报告并且允许所述用户改变与所述数据集合关联的属性的所述集合。

4.根据权利要求1所述的方法，其中用于每个聚类求解的计算出的所述分数包括所述目标驱动分数、所述聚类候选分数和所述简档变量分数的加权平均。

5.根据权利要求1所述的方法，还包括：在生成所述聚类求解之前将所述数据集合变换成被配置为有助于生成所述聚类求解的格式。

6.一种存储指令的非瞬态计算机可读介质，所述指令在被执行时可操作用于使得至少一个处理器执行操作，所述操作包括：

7.根据权利要求6所述的计算机可读介质，其中生成用于所述数据集合的所述多个聚类求解包括基于用于聚类求解的先前计算出的分数、使用机器学习算法来标识所述聚类求解。

8.根据权利要求6所述的计算机可读介质，所述操作还包括：在生成所述多个聚类求解时向用户呈现示出生成的聚类求解的报告并且允许所述用户改变与所述数据集合关联的属性的所述集合。

9.根据权利要求6所述的计算机可读介质，其中用于每个聚类求解的计算出的所述分数包括所述目标驱动分数、所述聚类候选分数和所述简档变量分数的加权平均。

10.根据权利要求6所述的计算机可读介质，所述操作还包括：在生成所述聚类求解之前将所述数据集合变换成被配置为有助于生成所述聚类求解的格式。

11.一种用于使用云基础设施执行聚类求解评估即服务的基于云的聚类求解系统，所述系统包括(i)一个或者多个数据导入服务器，(ii)一个或者多个数据管理服务器，(iii)一个或者多个计算管理服务器，(iv)一个或者多个计算节点服务器，(v)一个或者多个可视化模块服务器，以及(vi)一个或者多个求解导出模块服务器，所述系统包括：

用于存储数据的存储器；以及

可操作用于执行操作的一个或者多个处理器，所述操作包括：

由所述一个或者多个数据导入服务器从在所述基于云的聚类求解系统外部的外部系统的客户端设备接收为其评估聚类求解的数据集合，所述数据集合包括各自包括多个属性的多个记录；

由一个或者多个数据管理服务器从所述多个属性标识目标驱动属性的集合、聚类候选属性的集合和简档属性的集合；

由一个或者多个计算管理服务器确定用于应用于所述数据集合以标识聚类求解的一个或者多个聚类算法；

由一个或者多个计算节点服务器生成用于所述数据集合的多个聚类求解，所述聚类求解中的每个聚类求解基于所述聚类候选属性中的一个或者多个聚类候选属性将所述数据集合中的记录分组成多个聚类；

至少部分基于以下各项，针对所述聚类求解中的每个聚类求解，由所述一个或者多个计算管理服务器计算聚合分数：目标驱动分数，所述目标驱动分数反映由所述聚类求解产生的聚类覆盖所述目标驱动属性的程度；聚类候选分数，所述聚类候选分数反映由所述聚类求解产生的所述聚类将所述聚类候选属性分组的紧密性；以及简档变量分数，所述简档变量分数反映由所述聚类求解产生的所述聚类跨所述聚类候选属性和所述简档属性二者的异构性；

由所述一个或者多个可视化模块服务器生成用于向用户呈现的用户界面，所述用户界面示出根据用于每个聚类求解的计算出的所述分数而组织的生成的所述多个聚类求解；

由所述一个或者多个计算管理服务器基于所述分数选择特定聚类求解；以及

12.根据权利要求11所述的系统，其中生成用于所述数据集合的所述多个聚类求解包括基于用于聚类求解的先前计算出的分数、使用机器学习算法来标识所述聚类求解。

13.根据权利要求11所述的系统，所述操作还包括：在生成所述多个聚类求解时向用户呈现示出生成的聚类求解的报告并且允许所述用户改变与所述数据集合关联的属性的所述集合。

14.根据权利要求11所述的系统，其中用于每个聚类求解的计算出的所述分数包括所述目标驱动分数、所述聚类候选分数和所述简档变量分数的加权平均。

15.根据权利要求11所述的系统，所述操作还包括：在生成所述聚类求解之前将所述数据集合变换成被配置为有助于生成所述聚类求解的格式。