CN109033104B

CN109033104B - 对多维数据集之间的差异的自动分析

Info

Publication number: CN109033104B
Application number: CN201710433307.4A
Authority: CN
Inventors: 丁锐; 傅周宇; 韩石; 张海东; 张冬梅
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-06-09
Filing date: 2017-06-09
Publication date: 2022-05-13
Anticipated expiration: 2037-06-09
Also published as: US20220207062A1; US20200183955A1; US11734317B2; US11308134B2; EP3635669A1; US20230394071A1; WO2018226405A1; CN109033104A

Abstract

根据本公开的实现，提出了一种用于对多维数据集之间的差异的自动分析方案。在该方案中，接收针对第一数据集和第二数据集的分析请求，第一数据集和第二数据集各自包括与多个维度对应的数据项。响应于分析请求，比较第一数据集和第二数据集中与多个维度中的第一维度对应的数据项。基于比较确定与第一维度相关联的第一组影响因素，第一组影响因素中的每一个从相应的角度指示第一数据集与第二数据集之间的差异的原因。至少部分基于第一组影响因素，呈现与第一数据集和第二数据集之间的差异有关的分析结果。通过这种方式，实现了对不同数据集差异的自动和有效的分析。

Description

对多维数据集之间的差异的自动分析

背景技术

在如今的信息时代，随着可获得的数据源不断增长，数据变得无处不在并且在数量和维度上都有所增加。数据分析或数据探索旨在从多维数据中挖掘出用户感兴趣的信息，这在数据挖掘、商业智能等诸多应用领域发挥着越来越重要的作用。在很多使用场景中，用户对不同数据集的数据变化情况感兴趣，并且期望能够了解到可能与这样的变化有关的原因。然而，目前还缺乏能够自动且有效地分析出不同的多维数据集之间的差异的原因。用户可能需要指定如何将多维数据集继续划分为具有更少维度的子集，然后对数据量较小的子集进行人工分析。这样的分析过程不仅效率差，而且准确性也很低。因此，面对海量的多维数据，如何为用户提供更快更准确的分析结果是数据分析面临的挑战。

发明内容

根据本公开的实现，提出了一种用于对多维数据集之间的差异的自动分析方案。在该方案中，接收针对第一数据集和第二数据集的分析请求，第一数据集和第二数据集各自包括与多个维度对应的数据项。响应于分析请求，比较第一数据集和第二数据集中与多个维度中的第一维度对应的数据项。基于比较确定与第一维度相关联的第一组影响因素，第一组影响因素中的每一个因素从相应的角度指示第一数据集与第二数据集之间的差异的原因。至少部分基于第一组影响因素，呈现与第一数据集和第二数据集之间的差异有关的分析结果。通过这种方式，实现了对不同数据集差异的自动和有效的分析。

提供发明内容部分是为了简化的形式来介绍对概念的选择，其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了能够实施本公开的多个实现的计算环境的框图；

图2示出了根据本公开的一个实现的数据分析的过程的流程图；

图3示出了根据本公开的一个实现的数据子集的示例；

图4示出了根据本公开的一个实现的用于数据项的比较的过程的流程图；

图5示出了根据本公开的一个实现的基于第一分析策略的比较的过程的流程图；

图6示出了根据本公开的一个实现的基于第二分析策略的比较的过程的流程图；

图7示出了根据本公开的一个实现的基于第三分析策略的比较的过程的流程图；以及

图8示出了根据本公开的一个实现的分析结果的呈现的示意图。

这些附图中，相同或相似参考符号用于表示相同或相似元素。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本主题的范围的任何限制。

如本文中所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如本文中所使用的，术语“维度”指的是数据集或数据子集中某一类别或类型的数据。维度用于对数据集或数据子集中的不同类型的数据进行分组。多维数据集包括多个维度的数据。例如，在与电影票房收入有关的数据集中，可以包括与票房收入、放映日期、放映地点、电影名、电影体裁、电影分级等有关的各类数据，其中“票房收入”、“放映日期”、“放映地点”、“电影片名”、“电影体裁”和“电影分级”指的是该数据集的六个不同维度。这些维度中的数据组成相应的数据集。

如本文中所使用的，术语“数据项”是数据集的每个维度中的单位数据。一个维度中的数据项也可以被称为该维度的维度取值。每个数据项的含义可以由该维度以及限制该数据项的其他一个或多个维度来指示。例如，在包括与电影票房收入有关的数据集中，在“票房收入”维度中，每个数据项可以指示某个票房收入。该数据项还可以由其他维度来解释，用以表示在某个放映日期、某个放映地点、特定体裁、分级和/或电影的票房收入。在仅包括“票房收入”与“放映日期”两个维度的数据集中，“票房收入”维度中的数据项仅指示在特定放映日期的票房收入。

一般而言，数据项可以是类别数据项、次序数据项或度量数据项。例如，“放映地点”、“电影片名”、“电影体裁”和“电影分级维度”中的数据项属于类别数据项；“放映日期”维度中的数据项属于次序数据项；而“票房收入”中的数据项反映与统计有关的定量属性，因此属于度量数据项。度量数据项通常是数值。

多维数据集可以被划分为不同的数据子集。数据子集也可以被称为数据集的子空间(subspace)，可以由多维数据集的多个维度以及这些维度中的特定数据项来限定。也就是说，每个数据子集可以通过一对或多对<维度、数据项>来限定，并且包括除了用于限定的维度之外其他维度的全部数据。每个数据子集包含的其他维度的数据根据用于限定数据子集的<维度、数据项>对来确定。应当理解，从多维数据集中划分出数据子集可以采用各种数据拆分技术来实现。举例而言，在上述与电影票房收入有关的示例中，多维数据集可以按照“放映日期”维度的不同放映日期被划分为不同的数据子集，每个数据子集包含除了“放映日期”维度之外其他维度的全部数据。在另一个示例中，还可以按照“放映时间”和“放映地点”两个维度来划分不同数据子集，使得每个数据子集对应于特定放映时间和特定放映地点并且包含除了这两个维度之外其他维度的数据。

在提供各种各样类型的数据的多维数据集中，用户可能对包含同一类型数据的不同多维数据集中的数据变化(特别是度量数据的变换)感兴趣，并且因此期望探索这样的数据变化的原因。例如，用户可能观察到某一天的电影票房收入相比于前一天具有显著增长，因此期望能够获知出现这样的增长的可能原因。目前没有有效的数据分析工具能够自动地为用户提供可靠和准确的原因分析。用户可能需要手动地从与票房收入有关的多维数据集的不同维度查看数据。这样的分析过程不仅效率低、而且难以获得可靠和准确的结果。

根据本公开的实现，提出了一种用于对多维数据的分析的方案。在该方案中，响应于接收到对两个数据集的分析请求，比较两个数据集在同一维度中对应的数据项，并且基于比较来确定与该维度相关联的一个或多个影响因素。每个影响因素从相应的角度指示两个数据集之间的差异的原因。基于确定的影响因素，可以呈现与两个数据集之间的差异有关的分析结果。通过该方案，可以从分离的维度提供对两个数据集之间的差异的分析，并且对差异的分析可以由通过与预先定义的影响因素的匹配来确定。由此，实现了从个体维度来对不同数据集差异进行自动和有效的分析。

以下参考附图来说明本公开的基本原理和若干示例实现。

示例环境

图1示出了能够实施本公开的多个实现的计算环境100的框图。应当理解，图1所示出的计算环境100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。

如图1所示，计算环境100包括通用计算设备形式的计算系统/服务器102。计算系统/服务器102可以用于实施本公开的实现的数据分析(以下也称为“数据分析设备102”)。计算系统/服务器102可以接收分析请求104并且提供分析结果106。计算系统/服务器102的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算系统/服务器102的并行处理能力。

计算系统/服务器102通常包括多个计算机存储介质。这样的介质可以是计算系统/服务器102可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器120可以包括一个或多个程序模块122，这些程序模块被配置为执行本文所描述的各种实现的功能。

存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如内存、闪存驱动、磁盘或者任何其他介质，其能够用于存储信息和/或数据170(例如一个或多个多维数据集)并且可以在计算系统/服务器102内被访问。模块122可以分析数据170的部分或全部数据。在一些实现中，取代于存储在存储设备130中，数据170的部分或全部可以与模块122一起被存储在可快速访问的存储器120中。应当理解，以上描述仅仅是示例性的，数据170也可以存储在其他任何适当形式存储器中。在一个示例中，数据170可以以分布式存储的方式存储在多个存储设备中。

计算系统/服务器102可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图1中示出，可以提供用于从可拆卸、非易失性磁盘进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、语音输入设备等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算系统/服务器102还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算系统/服务器102交互的设备进行通信，或者与使得计算系统/服务器102与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

通信单元140实现通过通信介质与另外的计算设备进行通信。例如，计算系统/服务器102还可以通过通信单元140与远程的数据库通信，并且数据库中存储有数据。该数据可以是数据170的拷贝、包含数据170的一部分数据、或者是与数据170不同的数据。在一些实现中，存储设备130可以不存储数据170，并且可以通过通信单元140从外部数据库获得该数据。另外，计算系统/服务器102的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算系统/服务器102可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。

原理和示例

图2示出了根据本公开的一个实现的数据分析的总体过程200的流程图。过程200可以被实现在数据分析设备102处、例如在模块122处。在210，数据分析设备102接收针对第一数据集和第二数据集的分析请求104。接收到的分析请求104指示期望对第一和第二数据集执行数据分析任务。通常对不同数据集的分析旨在于探索不同数据集之间的差异的原因。要分析的第一数据集和第二数据集中的数据也涉及与数值有关的度量数据或者能够用数值表示的类别数据或次序数据。这样的差异可能涉及数值的增长、数值的降低、或者个体异常数值或其他类型的数据等方面。

第一和第二数据集可以包括与两个或多个维度对应的数据项。第一和第二数据集可以与同一类型的数据有关，但是所包括的数据可能不同。例如，第一和第二数据集可以均包含与电影票房收入有关的数据。在一些实现中，第一和第二数据集可以被预先独立地存储在数据分析设备102中或者由该设备从外部数据源获得。在另外一些实现中，第一和第二数据集可以是较大的多维数据集(或多维数据超集)中的两个不同数据子集。例如，第一和第二数据集可以由较大的多维数据超集的某个或某些维度对应的不同数据项限定，使得第一和第二数据集可以包括与多维数据集的其他维度对应的全部数据项。在一些实现，可以由用户指定要分析的第一和第二数据集，或者可以通过预定系统配置确定多维数据超集中要分析的第一和第二数据集。

为了解释说明的目的，以下将参照具体的数据集示例来描述本公开的一些实现。应当理解，本公开的实现也可以针对任何其他数据集进行操作。在一些示例中，假设第一和第二数据集均来自与电影票房收入有关的较大数据集(或被称为多维数据超集)，并且该多维数据超集包含“票房收入”、“放映日期”、“放映地点”、“电影片名”、“电影体裁”和“电影分级”六个维度中的数据。在该示例中，“票房收入”维度包含度量数据，因而可能期望分析票房收入在不同日期的增长、降低或者有差别的原因。

图3示出了用于展示多维数据集中在“放映日期”和“票房收入”维度中的数据的绘图300。从这个角度可以看出票房收入随放映日期的变化。在该示例中，用户可能期望分析在2011年7月15日中的票房收入301突然增长的原因，因此请求分析7月15日和14日的票房收入的差异。此时，根据这两个日期从多维数据超集中划分出第一和第二数据集，它们将分别包括在两个日期中与票房收入有关的数据，这些数据涉及除了“放映日期”之外的其他维度的全部数据。除了用户输入之外，还可以通过预定配置来实现确定要分析的两个数据集。例如，响应于分析请求，根据预定配置可以自动标识出要分析用户可能感兴趣或用户专门指定的日期(例如，7月15)与该日期之前或之后的某个日期相比的票房收入变化，并且由此划分出用于分析的两个数据集。

继续参照图2，在220，数据分析设备102响应于分析请求104而比较第一数据集和第二数据集中与第一维度对应的数据项。如以上提及的，第一和第二数据集可以各自包括与多个维度对应的数据项。为了分析出第一和第二数据集的数据项总体呈现的差异，可以从单个维度来查看和比较与个体维度对应的数据项，以尝试查找影响总体差异的潜在原因。第一和第二数据集的多个维度中可以被用于分析影响总体差异的原因，这样的维度有时可以被称为潜在影响维度。例如，在包括“票房收入”、“放映地点”、“电影片名”、“电影体裁”和“电影分级”等维度的第一和第二数据集中，除了期望分析差异的“票房收入”之外，其余维度均可以被认为是可用于分析的维度。

在本公开的实现中，可以从多个维度中选择一个维度(被称为第一维度)，并且比较第一和第二数据集中与所选择的维度有关的数据项。第一维度的选择可以由用户指定或者自动选择。例如，可以将“电影片名”维度作为第一维度来分析这两个数据集，用于比较的数据项是第一和第二数据集中与“电影片名”对应的票房收入数据。假设将第一数据集中与第一维度对应的数据项表示为列表L1＝{x1,x2,…,xn}，并且将第二数据集中与第一维度对应的数据项表示为列表L2＝{y1,y2,…,yn}，其中n表示每个数据集中数据项的数目。这两个列表L1和L2即为从第一维度进行分析时被用于比较的数据项，其中xi和yi(i∈{1,2,…,n})分别表示第一和第二数据集中与电影i对应的票房收入。注意，通常两个数据集可以在任一维度都具有一一对应的数据项(数据项的取值可能不同)，因此针对每个维度，两个数据集的数据项的数目可以相同。即使在某个数据集中不存在相应的数据项，也可以将其设置为0或空值，以保持数目相同。

根据本公开的实现，从单个维度对第一和第二数据集执行的比较过程目标在于使得比较的结果有助于分析该维度可能提供的与第一和第二数据集之间的差异有关的原因。因而，在230，数据分析设备102基于在220的比较确定与第一维度相关联的第一组影响因素。每个影响因素从相应的角度中指示第一数据集与第二数据集之间的差异的原因。

在一些实现中，可以预先定义多个影响因素，用于从不同的角度指示数据集之间的差异的原因。这样的影响因素例如可以从增长或下降趋势、异常或极值数据、对增长或下降趋势的贡献等角度来解释差异的原因。对第一和第二数据集的比较结果能够被用于协助确定两个数据集之间的差异是否可以用这些预先定义的影响因素中的一个或多个因素来解释。所确定的一个或多个影响因素组成与第一维度相关联的第一组影响因素。在下文中将会介绍影响因素的一些示例，并进而详细讨论比较过程。

在240，数据分析设备102至少部分基于第一组影响因素来呈现与第一数据集和第二数据集之间的差异有关的分析结果106。分析结果106可以例如由数据分析设备102的输出设备160呈现给用户。基于影响因素所指示的原因，分析结果106向用户呈现与第一和第二数据集之间的差异有关的详细内容。例如，如果所确定的影响因素是从第一和第二数据集的数据之间的增长趋势角度解释了差异的原因，则可以呈现指示第一和第二数据集在第一维度中表现出增长的幅度的分析结果。对于分析结果的呈现将在下文中详细描述。

以上讨论了从第一维度来比较和分析第一和第二数据集的示例实现。在一些实现中，如果第一和第二数据集具有多个影响维度，对于多个影响维度中的每个维度，均可以按照与上述第一维度类似的方式来迭代地执行比较和确定相关联的影响因素。例如，对于多个维度中的第二维度，数据分析设备102可以进一步比较第一和第二数据集中与第二维度对应的数据项，并且基于比较确定与第二维度相关联的第二组影响因素。在与电影票房收入有关的数据集的上述示例中，假设第二维度为“电影体裁”，则可以比较第一和第二数据集中与“电影体裁”对应的票房收入数据，以获得与“电影体裁”相关联的一组影响因素。在一些实现中，对于某个或某些维度，基于比较结果可能无法确定出可能的影响因素。因此，可以继续对其他维度对应的数据项比较。

如果基于比较获得与不同维度相关联的不同组影响因素(例如，第一和第二组影响因素)，数据分析设备102可以基于所确定的与各个维度相关联的影响因素，呈现与第一和第二数据集之间的差异有关的分析结果。例如，数据分析设备102可以从这些影响因素组中确定出一个因素、一些因素、一组或多组因素、或者全部影响因素，用于呈现分析结果。分析结果的呈现的详细描述将在下文阐述。

通过从数据集的不同维度来迭代地比较数据项，可以从多个方面全面地分析数据集之间的差异的原因，从而可以给出更准确和丰富的分析结果。

影响因素的示例

在本公开的实现中，分析请求104旨在于请求分析第一和第二数据集之间的差异。为了解释差异的原因，可以预先定义一个或多个影响因素用于指示从不同角度解释造成数据集之间的差异的可能原因。这样的差异可以从数据集之间的增长或下降趋势、异常或极值数据、不同数据集中的数据项对增长或下降趋势的贡献等角度来解释差异的原因。在针对一个或多个维度执行比较之后，可以基于比较的结果确定出各个维度确定相关联的一组影响因素。

在一些实现中，预先定义的影响因素可以被划分为四个类别，包括负相关性的类别、过原点回归的类别、一般回归的类别和个体分析的类别。每个类别中可以包括相应的一个或多个影响因素。负相关性的类别中的影响因素可以指示如下的情况：当第一和第二数据集之一作为目标数据集并且另一个作为参考数据集时，在某个维度上目标数据集的数据相对于参考数据集的数据呈现负相关。过原点回归的类别指示如下情况中的一些影响因素：第一和第二数据集中与第一维度对应的数据项存在整体成比例增长趋势。一般回归指示如下情况中的一些影响因素：除了负相关和整体成比例增长的趋势之外的其他趋势，例如带截距的不成比例的增长趋势。个体分析的类别中从个体数据项的角度来分析可能的影响因素。

以下表1列出了上述类别中包括的一些可能的影响因素。

表1.影响因素的列表

在表1中，影响因素所指示的个体值或数据项对应于用于分析的影响维度(例如第一或第二维度)的相关维度取值。例如当从“电影片名”维度分析第一和第二数据集时，由个体异常值或其他数据项相关的影响因素(例如索引1-4和7-9指示的影响因素)可以对应于“电影片名”维度的某些电影。与总体相关度或趋势有关的影响因素(例如索引0、5和6指示的影响因素)指示在用于分析的影响维度中(例如，在几乎全部电影中)可呈现总体相关度或趋势。为了便于理解上述影响因素，以下表2还给出了这些影响因素可能有助于解释数据集之间的差异的示例情况。应当理解，这仅仅是是为了便于理解而给出的一些示例。根据要分析的具体数据集，可以存在其他示例。

表2.影响因素可用于解释的示例

以上总结了一些在解释数据集之间的差异时可能有意义的一些影响因素。应当理解，根据需要，还可以定义其他影响因素用于解释不同数据集之间的差异。

数据项的比较和影响因素的确定

如以上提及的，为了确定可以与数据集的一个或多个维度相关联的影响因素以用于解释第一和第二数据集之间的差异的原因，数据分析设备102将第一和第二数据集中的一个或多个影响维度对应的数据项进行比较。可以采用各种方法来执行数据项的比较，以便使得比较的结果能够促进对预定义的影响因素(例如上述列出的影响因素)的确定。在一些实现中，可以采用回归拟合、聚类、个体异常数据项的标识等方法来执行数据项的比较。例如，通过回归拟合的比较方法获得的结果可以促进对上文表1列出的负相关性的类别、过原点回归的类别、一般回归的类别中的一个或多个影响因素的确定。通过聚类和个体异常数据项的直接标识的比较方法获得的结果可以促进对上文表1列出的个体分析的类别中的一个或多个影响因素的确定。

在一些实现中，这些比较方法中的一些或全部可以结合起来被用于执行比较，或者可以被单独地采用。用于比较的单个方法或者多个方法的不同组合可以组成在数据项比较时的不同分析策略。在一些实现中，对用于分析策略的选择可以基于用户对第一和第二数据集之间的差异的分析意图来确定。基于分析意图的不同，在数据项比较时可以采取不同的分析策略，以便有助于确定出更准确和更有意义的影响因素用于解释第一和第二数据集之间的差异。对第一和第二数据集的分析意图可能属于以下两种情况之一。

在一种情况中，如果第一和第二数据集的总体差量较大，可以确定用户更倾向于了解是否有个体数据项影响差量。第一和第二数据集的总体差量可以通过观察在包含这两个数据集的多维数据超集与用于限定数据集的两个数据项之间的存在明显差量(例如，增长或下降量)，可能确定用户更倾向于了解是否有个体数据项影响差量。例如，在图3的示例中，由301所指示的在2011年7月15日的总票房收入显著大于之前日期的票房收入。用户的分析意图可能侧重于从与两个日期相关的数据集中探索影响这样的突然增长的一些个体数据项。

在另一种情况中，如果第一和第二数据集的总体差量较小或基本相同，则可以侧重于通过比较过程来分析出是否在第一和第二数据集的某个维度中存在有意义的趋势或者对差量有影响的个体数据项。例如，在图3的示例中，如果观察到在两个日期中票房收入之间没有明显的差量。用户也可能期望了解这个现象背后可能的原因。这可以通过对其他维度对应的相应票房收入数据是否存在变化趋势或者异常数据项等角度来分析。

在一些实现中，可以通过选择分析请求的类型来确定用户的分析意图，进而基于分析意图而在数据项比较时采取不同的分析策略。上述第一种情况可以对应于第一类型的分析请求，并且第二种情况可以对应于第二类型的分析请求。例如，用户可以通过选择例如“请解释数据的增长/下降”的选项来向数据分析设备102输入第一类型的分析请求，该请求指示用户着重于分析上述第一种情况。用户还可以通过选择例如“请解释数据有何不同”的选项来向数据分析设备102输入第一类型的分析请求，该请求指示用户着重于分析上述第二种情况。在另外一些实现中，还可以通过自动判断用于限定第一和第二数据集的两个数据项(例如图3中的两个日期的票房收入)之间的差异来确定接收到的分析请求所对应的分析意图，进而在执行数据项的比较时采取相应的分析策略。

除了分析请求的类型之外或者备选地，还可以基于与相应维度对应的要分析的数据项的数目来采用不同的分析策略。在某些维度中，要比较的数据项的数目较少，根据聚类和回归拟合等方法来执行比较可能无法获得有意义的结果。因而，可能需要另外的分析策略来执行比较，以便能够使得比较的结果能够用于标识出预定义的一个或多个影响因素。

图4示出了根据本公开的一个实现的用于数据项的比较的过程400。过程400从分析请求的类型和待分析的数据项的数目两个方面来确定用于数据项的比较的分析策略。过程400可以被认为是过程200中在220处的比较步骤的具体示例。应当注意，对于第一和第二数据集中要分析的每个维度，均可以采用该过程400来执行比较。在图4的实现中，对于每个维度，基于根据分析请求的类型和数据项的数目可以确定将使用第一、第二和第三分析策略中的一个分析策略来执行比较。

在410，数据分析设备102确定接收到的分析请求的类型。如果分析请求为第一类型(例如，指示意图分析第一和第二数据集之间的较大差量)，则数据分析设备102在420确定数据项的数目是否小于阈值。数据项的数目指的是第一和第二数据集中与要分析的特定维度对应的数据项的数目。例如，在以上关于图3给出的示例第一和第二数据集中，与“电影片名”维度对应的数据项列表L1和L2的数据项的数目为n。如果数据项的数目较大(例如大于等于阈值)，则数据分析设备102可以在430基于第一分析策略来执行数据项的比较。如果数据项的数目较小(例如小于等于阈值)，则数据分析设备102可以在440基于第三分析策略来执行数据项的比较。阈值可以被设为任何整数值，例如4、5、7等等。

如果在410确定接收到的分析请求的类型为第二类型(例如，指示意图分析第一和第二数据集之间的较小差量)，则数据分析设备102在450确定数据项的数目是否小于阈值。在450处的确定与420处的确定类似。如果确定数据项的数目较大(例如大于等于阈值)，则数据分析设备102可以在460基于第二分析策略来执行数据项的比较。如果数据项的数目较小(例如小于等于阈值)，则数据分析设备102可以在440基于第三分析策略来执行数据项的比较。

应当理解，过程400中示出的步骤的顺序可以变换。例如，为了确定所使用的分析策略，可以首先基于数据项的数目进行判断，然后在基于分析请求的类型进行判断，或者可以同时从这两方面进行判断。在其他实现中，除了从分析请求的类型和数据项的数目两个方面来确定分析策略之外，还可以根据其他准则来确定应当如何对当前考虑的维度对应的数据项进行比较。在一些示例中，对于每个维度，可以尝试不同的比较方法来获得比较结果以用于对相关联的影响因素的确定。

以下将分别描述根据上述的第一到第三分析策略来执行数据项的比较和相关联的影响因素确定的示例实现。

基于第一分析策略的比较和对应的影响因素的确定

图5示出了根据本公开的一个实现的基于第一分析策略的比较的过程500。该过程500可以被认为是过程400中在430处的比较步骤的具体示例。根据以上关于图4的描述可知，第一分析策略着重于从第一类型的分析请求所对应的用户意图来分析在与特定维度对应的较多数据项。第一分析策略主要涉及聚类和回归拟合的比较方法。为了便于解释说明，在下文中主要描述对第一和第二数据集中与第一维度对应的数据项的比较。对于可能采用第一分析策略的其他维度，也可以类似地执行比较。

在510，数据分析设备102执行基于差值的聚类。具体地，数据分析设备102确定第一数据集中与第一维度对应的数据项和第二数据集中与第一维度对应的数据项之间的差值。为了能够确定差值，在该实现中，数据项为数值。数据分析设备102可以将由所确定的差值和第一或第二数据集中与第一维度对应的相应数值组成的配对(即<差值，数值>)进行聚类。通过这样的聚类方式获得的不同的簇(cluster)(或聚类的类别)可以指示第一和第二数据集中的一个数据集与另一个数据集的差值相同或相似的数据项。

仍然以图3为示例，第一和第二数据集中与“电影片名”维度对应的数据项由L1＝{x1,x2,…,xn}和L2＝{y1,y2,…,yn}表示。数据分析设备102可以确定对应的数据项的差值yi’＝yi-xi，其中i∈{1,2,…,n}，并且可以获得差值列表L3＝{y1’,y2’,…,yn’}。假设以第一数据集的列表L1与L3作为配对来进行聚类。可以将各个配对{xi,yi’}认为是以x为一个轴并且以y’为另一个轴组成的二维坐标系中的一个坐标点。列表L1与L3的所有配对组成该二维坐标系中的散点图。可以通过对该散点图中的各个坐标点进行聚类。

在一些实现中，可以选择第一和第二数据集中任一个的数据项用于与差值一起进行聚类。在另外一些实现中，可以由用户指定用于聚类的数据项。例如，基于用户选择，可以确定第一数据集为目标数据集，第二数据集为参考数据集，并且用户期望分析目标数据集相对于参考数据集的差异。在这种情况中，可以将第一数据集的数据项作为聚类的选择。可以采用各种已知或今后可能开发的聚类算法来执行聚类。本公开的实现在此方面不受限制。

在520，数据分析设备102可以确定在聚类之后是否存在有意义的聚类结果。在聚类之后，各个簇中包含的差值与数据项的配对(例如，{xi,yi’})指示它们的差值(例如，yi’)相同或类似并且个体数据项(例如，xi)也相同或类似。可以进一步观察聚类之后是否存在异常<差值，数值>配对。在此，异常<差值，数值>配对指的是无法与较多的其他配对指示的坐标点(散点图中的点)被聚类到一个簇中的坐标点对应的配对。也就是说，该异常<差值，数值>配对只能够被单独归类到某个簇或者与较少的其他点(少于特定阈值，例如少于1或2)一起被归类。如果存在一个或多个异常<差值，数值>配对，则说明这样的聚类结果对于第一和第二数据集之间的差异的分析而言是有潜在意义的。因此，这类聚类结果在例如经过进一步分析后可能会有助于确定出与表1中列出的索引7-8指示的正向数据项、负向数据项或极值数据项等影响因素，它们对于第一和第二数据集之间的差异有影响。

如果确定存在有意义的聚类结果，则可以在540提供该聚类结果用于确定影响因素。聚类结果可以指示一个或多个异常<差值，数值>配对。在数据分析设备102确定影响因素时(例如在230)，可以通过分析聚类结果来确定相应的影响因素。

例如，如果异常<差值，数值>配对指示较大的差值和第一数据集中较大或较小的数值，则指示第一数据集中的该数值远大于第二数据集中的对应数据项(因为差值大)且这两个数据项之间的差异也远大于两个数据集中的其他数据项之间的差异(因为没有能与之聚类的差值)。因此，第一数据集中的那个数据项对应的第一维度的维度取值可以匹配于如表1列出的影响因素7或8“正向数据项”或“负向数据项”(具体取决于第一和第二数据集的总体相对增长或下降趋势、数值的大小、相对差值的计算)。

如果异常<差值，数值>配对指示较小的差值和第一数据集中较大或较小的数值，则可以用于确定该数值对应的第一维度的维度取值是如表1列出的影响因素9的“极值数据项”。原因在于该配对中的数值(例如电影票房)在两个数据集中都非常大或非常小(因为差值小)，且与两个数据集中的其他数据项显著不同。

如果数据分析设备102在520确定在聚类之后不存在有意义的聚类结果，这表明通过聚类进行比较可能无法比较出能够帮助确定影响因素的结果，那么在530，数据分析设备102执行对第一和第二数据集中与第一维度对应的数据项的回归拟合。回归拟合在原始数据项上被执行，而不是基于差值来执行。回归拟合可以确定第一和第二维度的数据项组成的配对是否能够拟合到一条直线上。采用回归拟合的比较方法获得的结果可以被用于确定是否存在如表1所列出的三个与回归有关的类型中的影响因素。

例如，在图3的示例中，可以将第一和第二数据集中与“电影片名”维度对应的数据项L1＝{x1,x2,…,xn}和L2＝{y1,y2,…,yn}中相应的配对{xi,yi}认为是以x为一个轴并且以y为另一个轴组成的二维坐标系中的一个坐标点。列表L1与L3的所有配对组成该二维坐标系中的散点图。然后，可以对该散点图执行回归拟合。

为了能够确定出上述表1列出的影响因素，在数据项的比较中，可以采用不同的回归拟合方法来判断第一和第二数据集中与第一维度对应的数据项是否能够拟合到一条直线。不同的回归拟合包括过原点的回归拟合，有截距的回归拟合和负相关的回归拟合。在一些实现中，数据分析设备102可以尝试确定第一和第二数据集中的数据项是否能够满足这些回归拟合之一。

回归拟合的结果可以在550被提供用于确定影响因素。在确定影响因素的过程中，如果存在过原点的回归拟合结果，则可以判断第一和第二数据集在第一维度中存在整体成比例增长趋势。因此原点的回归拟合的结果有助于确定在表1列出的过原点回归的类别中的影响因素。如果存在带截距的回归拟合，则可以判断第一和第二数据集中与第一维度对应的数据项存在由截距指示的固定量的增长或下降，这样的变化是不成比例的。因此，带截距的回归拟合有助于确定在表1列出的一般回归的类别中的影响因素。如果存在负相关的回归拟合，则可以确定第一和第二数据集中的数据项之间是负相关的。这有助于确定表1列出的负相关性的类别中的影响因素。为了促进影响因素的确定，所提供的拟合结果可以包括拟合到的直线的斜率(用于确定负相关度、回归拟合的方向)、截距、拟合到的直线上的极值、无法被拟合到直线的异常值(用于确定异常值、正向异常值、负向异常值等)。

除了逐个尝试各种回归拟合之外，为了计算的效率，还可以按照不同回归拟合的优先级来有限判断某种回归拟合，并且在该回归拟合不存在的情况下再选择另一种回归拟合执行判断。例如，可以首先判断第一和第二数据集中的数据项是否满足过原点的回归拟合。如果存在良好的过原点回归拟合直线，则直接在550提供相应的拟合结果。如果不存在良好的过原点回归拟合直线，则继续在530执行带截距的回归拟合和/或负相关回归拟合。

根据上述参照图5描述的过程，可以根据第一分析策略确定第一和第二数据集中与第一维度对应的数据项的比较结果。所确定的比较结果可以用于后续对影响因素的确定。虽然在图5的示例中讨论了根据聚类的结果判断是否执行回归拟合，在其他实现中，在第一分析策略中，还可以同时基于差值的聚类和回归拟合来获得相应的聚类结果和回归拟合的结果。这些结果都可以被提供用于后续确定一个或多个影响因素。

基于第二分析策略的比较和对应的影响因素的确定

图6示出了根据本公开的一个实现的基于第二分析策略的比较的过程600。该过程600可以被认为是过程400中在460处的比较步骤的具体示例。根据以上关于图4的描述可知，第二分析策略着重于从第二类型的分析请求所对应的用户意图来分析在与特定维度对应的较多数据项。第二分析策略主要涉及聚类和回归拟合的比较方法。与第一分析策略不同，第二分析策略的聚类直接在原始数据项上进行，而不是基于数据项的差值来执行。为了便于解释说明，在下文中仍然主要描述对第一和第二数据集中与第一维度对应的数据项的比较。对于可能采用第一分析策略的其他维度，也可以类似地执行比较。

在610，数据分析设备102执行对数据项的回归拟合。由于在第二分析策略中，第一和第二数据集的总体差量较小，用户可能更希望从其他维度分析第一和第二数据集是否存在有意义的趋势或者对差量有影响的个体数据项。因此，可以优先考虑用回归拟合的方法来比较第一和第二数据集中与第一维度对应的数据项。在610处执行的回归拟合与上述过程500中在530处的回归拟合类似，在此不再赘述。

在620，数据分析设备102确定是否存在有意义的拟合结果。在此，有意义的拟合结果指的是在回归拟合后可以用于判断影响因素的结果。例如，根据所采用的回归拟合的方法，如果能够拟合到的某条直线(过原点、带截距或表示负相关的直线)或者存在无法被拟合到直线的异常值，则说明存在有意义的拟合结果。如果存在，在640，数据分析设备102提供拟合结果以用于后续确定影响因素。在此的拟合结果的提供和后续影响因素的确定与以上描述的过程500中的550类似，在此不再赘述。

如果不存在有意义的拟合结果，在630，数据分析设备102继续执行对数据项的聚类。具体地，数据分析设备102可以聚类第一数据集中与第一维度对应的数据项和第二数据集中与第一维度对应的相应数据项组成的配对(即，<数据项1，数据项2>配对)。例如，对于第一和第二数据集中与“电影片名”维度对应的数据项由L1＝{x1,x2,…,xn}和L2＝{y1,y2,…,yn}，可以将各个配对{xi,yi}认为是以x为一个轴并且以y为另一个轴组成的二维坐标系中的一个坐标点。列表L1与L2的所有配对组成该二维坐标系中的散点图。可以通过对该散点图中的各个坐标点进行聚类。

这样的聚类可以确定出第一和第二数据集中一些相似和相同的数据项，并且可能标识出异常一些数据项配对。无法被聚类的这些数据项配对可以指示第一和/或第二数据集中的异常数据项，该异常数据项可能在第一和/或第二数据集中显著高于其他数据项。对该异常数据项的确定可以被用于从例如表1的影响因素中确定例如“极值数据项”这样的影响因素。在650，数据分析设备102可以提供聚类结果以用于确定影响因素。这与以上过程500中的540类似。

根据上述参照图6描述的过程，可以根据第二分析策略确定第一和第二数据集中与第一维度对应的数据项的比较结果，并且所确定的比较结果可以用于后续对影响因素的确定。虽然在图6的示例中讨论了根据回归拟合的结果判断是否执行聚类，在其他实现中，在第二分析策略中，还可以同时基于聚类和回归拟合来获得相应的聚类结果和回归拟合的结果。这些结果都可以被提供用于确定一个或多个影响因素。

基于第三分析策略的比较和对应的影响因素的确定

图7示出了根据本公开的一个实现的基于第三分析策略的比较的过程700。该过程700可以被认为是过程400中在440处的比较步骤的具体示例。第三分析策略着重于从第一或第二类型的分析请求所对应的用户意图来分析与特定维度对应的较少数据项。第三分析策略可以涉及对个体异常数据项的识别，从而有助于确定与如表1所示的个体分析类别中的影响因素。因为可供比较的数据项数目较少，可能无法通过聚类这样的比较方法来获得，因而需要适合于从较少量的数据项中确定出异常数据项的分析过程。为了便于解释说明，在下文中主要描述对第一和第二数据集中与第一维度对应的数据项的比较。对于可能采用第一分析策略的其他维度，也可以类似地执行比较。

在710，数据分析设备102确定第一数据集中与第一维度对应的数据项和第二数据集中与第一维度对应的数据项之间的差值。在720，数据分析设备102通过将差值相比较来标识第一数据集和第二数据集中的至少一个数据集中包括的异常数据项。在这些示例中，用于比较的数据项是目标维度中的数值。异常数据项可以指示数据集中显著大或小的数值，或者与另一数据集的对应数据项之间的相对差异较大的数值。通过第三分析策略确定的目标维度中的异常数据项可以有助于解释从第一维度的角度来看造成第一和第二数据集之间的差异的个体数据项。这些个体数据项可以对应于表1中个体分析的类别中包含的影响因素。

在第三分析策略中，也可以基于不同类型的分析请求来确定不同的子分析策略。例如，对于第一类型的分析请求，由于第一和第二数据集的总体差量较大，则可以采用第一子分析策略，以能够使得比较结果被用于确定对差异做出解释的影响因素，诸如表1中的个体分析类别中的影响因素。对于第二类型的分析请求，可以采用与第二子分析策略不同的第二子分析策略，其目标在于使得比较结果被用于确定在较小差量的情况下是否仍然存在对差异做出解释的一些影响因素，诸如表1中的个体分析类别中的影响因素。

针对第一子分析策略，在710确定差值时，可以将第一数据集中的数据项与第二数据集中的数据项直接相减来计算差值。例如，对于第一和第二数据集中与“电影片名”维度对应的数据项由L1＝{x1,x2,…,xn}和L2＝{y1,y2,…,yn}，差值可以被计算为Δ_i＝_i-i，其中i∈{1,2,…,n}。然后，在720，通过比较差值的大小确定是否存在异常的正差值和/或负差值。如果存在，所确定的正差值和/或负差值对应的第一数据集和/或第二数据集中的数据项为异常数据项。

在确定异常的正差值过程中，可以确定所有差值中最大的差值是否大于0以及是否显著大于其他差值(例如，与第二大的差值之间的差异大于某个阈值)。如果最大的差值大于0并且显著大于其他差值，那么该差值对应的第一数据集中的数据项属于异常数据项。在确定异常的负差值过程中，可以确定所有差值中最小的差值是否小于0以及是否显著小于其他差值(例如，与第二小的差值之间的差异大于某个阈值)。如果最小的差值小于0并且显著小于其他差值，则该差值对应的第二数据集中的数据项属于异常数据项。

举例而言，针对“电影片名”维度，如果在2011年7月15和14日对应的第一和第二数据集中，电影A在这两天中的票房收入的增长幅度(由大于0的差值表示)显著大于其他电影，电影A在7月15日中的票房收入被认为是异常数据项。对该异常数据项的确定可以被用于在确定影响因素时指示该异常数据项在“电影片名”维度中对应的数据项(即电影A)属于个体分析类别中的特定影响因素——“正向数据项”。类似地，如果电影A在两天中的降低幅度(由小于0的差值表示)显著小于其他差值，电影A在7月14日中的票房收入被认为是异常数据项。对该异常数据项的确定可以被用于在确定影响因素时指示该异常数据项在“电影片名”维度中对应的数据项(即电影A)属于个体分析类别中的特定影响因素——“负向数据项”。

针对第二子分析策略，在710确定差值时，可以首先确定地和第二数据集中与第一维度对应的每个数据项的归一化值。例如，对于第一和第二数据集中的两个数据项列表L1＝{x1,x2,…,xn}和L2＝{y1,y2,…,yn}，可以如下确定归一化值：

其中X＝∑|x_i| (1)

其中Y＝∑|y_i| (2)

其中i∈{1,2,…,n}，并且x′i和y′_i分别表示第一和第二数据集中归一化后的数据项。然后，可以确定第一和第二数据集中的数据项的归一化值之间的差值。在基于差值进行比较的过程中，可以首先确定全部差值的平均差值。例如，平均差值(被表示为

)可以被计算为如下：

基于平均差值，可以确定平均差值是否大于阈值。如果平均差值大于阈值，则确定第一和第二数据集中的数据项的直接差值(通过将对应的数据项直接相减来计算)的绝对值是否大于该平均差值。如果绝对值大于平均差值，则意味着这两个数据集中的数据项是异常数据项，它们对应的第一维度中的数据项可以属于个体分析类别中的特定影响因素(如果直接差值为正，则可以确定出“正向数据项”，如果直接差值为负，则可以确定出“负向数据项”)。

在另外一些情况中，如果平均差值不大于阈值，则可以简单地基于第一和第二数据集中的数据项的直接差值来确定一些比较结果，以助于后续标识某些影响因素。例如，可以确定第一和第二数据集的一对数据项直接差值的绝对值是否显著大于其他差值。如果存在这样的差值，那么对应的数据项可以被确定为异常数据项。异常数据项对应的第一维度中的数据项可以属于个体分析类别中的特定影响因素。此外，还可以确定第一和第二数据集中是否存在单个数据项显著大于或小于相应集中的其他数据项。该数据项也可以被认为是异常数据项，并且由该异常数据项可以确定出与个体分析类别中“极值数据项”的影响因素。

分析结果的呈现

如以上讨论的，在一些实现中，可以从多个维度(例如第一和第二维度)来比较第一和第二数据集的对应数据项并且由此可以获得多组影响因素。在一些实现中，数据分析设备102可以将从各个维度获得的影响因素均用于呈现分析结果。在一些实现中，数据分析设备102还可以从获得的影响因素中确定对于指示第一和第二数据集之间的差异而言较为重要的影响因素，并且仅基于这些影响因素来呈现分析结果。这样可以避免向用户呈现较没有意义的内容，使得用户可以有效地获得有意义的分析结果。

在一些实现中，可以为预定的影响因素分配权重。每个影响因素的权重可以指示该影响因素对于解释两个数据集之间的差异的重要度。可以为能够更好地解释差异的影响因素分配更大的权重，并且为较不重要的影响因素分配较小的权重。权重的分配可以被预先配置或者由用户指定。数据分析设备102可以基于权重来确定与每个维度相关联的一组影响因素相对于第一和第二数据集之间的差异的重要度。然后，基于相应的重要度来确定要被用于确定分析结果的一组或多组影响因素。

在一些实现中，由于分析请求的不同类型指示了不同的用户意图并且也会影响到通过比较过程确定的影响因素，对于每个影响因素分配的权重的分配还可以基于分析请求的不同类型。针对不同类型的分析请求，一个或多个影响因素对于解释差异的重要度可能不同，因此可以被分配不同的权重。如果与某个维度相关联的一组影响因素是与分析请求的相应类型有关，那么可以基于与该类型的分析请求对应的影响因素的权重来确定该组影响因素的总体重要度。

以上述表1中列出的影响因素为例。在一个示例中，针对第一类型的分析请求，表1中的各个影响因素(索引0至9)的权重可以按照对差异的原因的解释的重要度来确定。在一个示例中，索引0至9的影响因素的权重大小排序如下：2≈7>4≈9>5>3≈8>6>0>1。作为一个具体的示例，针对第一类型的分析请求，各个影响因素的取值可以如下表3所示：

表3.针对第一类型的分析请求的影响因素的示例权重

在表3的示例中，表1中的索引2和7标识的影响因素可以直接地解释第一和第二数据集的总体较大差量，因此权重可以较高。索引4和9标识的影响因素也可以解释差量，但是具体指出第一和/或第二数据集中数值较大的数据项。索引5标识的影响因素可以解释第一和第二数据集中的总体趋势，例如增长趋势或下降趋势。索引3和8标识的影响因素可能与第一和第二数据集的总体差量无关，但是可以指示与增长或下降的总体差量相比表现出异常行为的个体数据项。例如表2中关于索引3所给出的示例。索引6标识的影响因素可以提供对于总体趋势的另外一些信息。索引0标识的影响因素可能在存在一个数据集到另一数据集之间的总体增长趋势时无法解释该趋势，但是可以解释在某个维度中与增长趋势相反的异常现象，用户可能也对此感兴趣。索引1标识的影响因素可以补充与索引0的角度相关的一些信息。

在另外的示例中，针对第二类型的分析请求，表1中的各个影响因素(索引0至9)的权重也可以按照对总体差异的原因的解释的重要度来确定。在该示例中，相较于第二类型的分析请求，一个或多个影响因素的权重大小的可能不同，以便体现出在第二类型的分析请求下影响因素相对于第一和第二数据集之间的差异的不同重要度。在一个示例中，索引0至9的影响因素的权重大小排序如下：2≈3≈7≈8>0≈1>4≈9>5≈6。作为一个具体的示例，针对第二类型的分析请求，各个影响因素的取值可以如下表4所示：

表4.针对第二类型的分析请求的影响因素的示例权重

在表4的示例中，由于第一数据集和第二数据集中与用于限定的第三维度对应的两个数据项之间不存在明显的增量，索引2、3、7和8标识的影响因素能够直接地解释造成两个数据集的总体较小差量的一些正向或负向异常值或个体数据项。索引0和1标识的影响因素也能够给出与数据集的较小总体差量有关的相关性信息。索引4和9标识的影响因素在存在或不存在回归拟合的情况下的较大数值。索引5和6标识的影响因素可以指示两个数据集中大多数数据项的趋势。

在示例实现中，针对与不同维度相关联的不同组影响因素，可以基于它们的相应权重来确定这些影响因素相对于两个数据集之间的差异的重要度。在一些实现中，对于给定维度而言，从该维度中确定出的影响因素个数越多，那么所确定的重要度可以越大。例如，可以将与每个维度相关联的一组影响因素中每个影响因素的权重相加，所得到的总和可以作为该组影响因素的总体重要度。在另外一些实现中，还可以将为每个维度相关联的影响因素确定的重要度限定在特定范围内(例如0到1的范围内)。例如，可以按照以下公式1确定给定维度的重要度：

其中Im_i指示为与第i个维度相关联的一组影响因素确定的重要度，并且

指示与第i个维度相关联的一组影响因素中第j个影响因素的权重。在公式(4)中，i的取值范围取决于在比较和影响因素的确定步骤中用于分析第一和第二数据集的维度的数目，并且j的取值与针对第i个维度所确定的影响因素的数目有关。i和j的取值大于等于1。

在一些实现中，在确定与多个维度相关联的各组影响因素的重要度之后，数据分析设备102可以按照重要度的大小选择一组或多组影响因素用于呈现分析结果。例如，可以选择重要度较大的若干组影响因素(例如，前k组影响因素)用于呈现分析结果。可以将重要度与阈值比较，并且仅选择重要度大于阈值的影响因素用于呈现分析结果。在一些实现中，可以由用户设置要选择与多少个维度相关联的影响因素组(即，设置k值)，或者设置要选择的个体影响因素的总数目。在这些实现中，可以基于用户设置来确定被用于呈现分析结果的影响因素。

以上讨论了按照影响因素的权重来确定与多个维度相关联的多组影响因素中哪些可以用于呈现分析结果。在另外一些实现中，可以不按维度来确定重要度和选择影响因素，而是可以基于针对多个维度确定的不同影响因素本身的权重来选择一个或多个影响因素用于呈现分析结果。备选地或附加地，还可以由用户指定感兴趣的一个或多个维度，并且在呈现分析结果时至少考虑所确定的与这些维度相关联的影响因素。

在一些实现中，基于所确定的影响因素，数据分析结果102可以向用户呈现与第一和第二数据集之间的差异有关的分析结果。取决于所确定的影响因素，分析结果可以包含由影响因素指示的具体值或数据项(例如表1中的索引1-4和7-9对应的影响因素)、增长或降低的趋势(例如表1中的索引0和5对应的影响因素)和/或增长或降低的固定值(例如表1中的索引6对应的影响因素)。分析结果的示例可以参照图2关于各个影响因素所列出的示例。

分析结果可以采用诸如文本、图表、视频、音频、图像等形式中的一个或多个形式来呈现。图8给出了分析结果的呈现800的示例。在该示例中，用户在图3的绘图中指示请求分析不同日期的票房收入后，可以将分析结果801呈现给用户。分析结果801以图表和文字的形式向用户指示2011年7月15日相对于前一天的票房突增的原因在于：在所有电影体裁中，科幻体裁的电影的增长对该突增的贡献最大。

根据本公开的上述示例实现，实现了对于不同数据集之间的差异的自动分析方案。应当理解，虽然以上描述了对于两个数据集的分析，在另外的实现中，也可以请求分析多维数据集的三个或更多数据集之间的差异。在分析过程中，对于三个或更多数据集中任何两个数据集之间的相对差异的原因，可以按照上述示例实现来确定，以获得用于解释差异的不同影响因素。可以将获得的影响因素聚合起来呈现与那些数据集之间的差异相关的分析结果。

示例实现方式

以下列出了本公开的一些示例实现方式。

在一方面，本公开提供了一种计算机实施的方法。该方法包括：接收针对第一数据集和第二数据集的分析请求，第一数据集和第二数据集各自包括与多个维度对应的数据项；响应于分析请求，比较第一数据集和第二数据集中与多个维度中的第一维度对应的数据项；基于比较确定与第一维度相关联的第一组影响因素，第一组影响因素中的每一个从相应的角度指示第一数据集与第二数据集之间的差异的原因；以及至少部分基于第一组影响因素，呈现与第一数据集和第二数据集之间的差异有关的分析结果。

在一些实现中，与第一数据集和第二数据集之间的差异有关的分析结果还包括：进一步比较第一数据集和第二数据集中与多个维度中的第二维度对应的数据项；基于进一步比较，确定与第二维度相关联的第二组影响因素，第二组影响因素中的每一个从相应的角度指示第一数据集与第二数据集之间的差异的原因；从第一组影响因素和第二组影响因素中确定至少一组影响因素；以及基于所确定的至少一组影响因素，呈现针对第一数据集和第二数据集的分析结果。

在一些实现中，从第一组影响因素和第二组影响因素中确定至少一组影响因素包括：基于为第一组影响因素分配的第一组预定权重，确定第一组影响因素相对于差异的第一重要度；基于为第二组影响因素分配的第二组预定权重，确定第二组影响因素相对于差异的第二重要度；以及基于第一重要度和第二重要度，从第一组影响因素和第二组影响因素中确定至少一组影响因素。

在一些实现中，第一组预定权重和第二组预定权重与分析请求的类型有关。

在一些实现中，比较第一数据集和第二数据集中与第一维度对应的数据项包括：基于以下至少一项确定分析策略：分析请求的类型，以及第一数据集或第二数据集中与第一维度对应的数据项的数目；以及基于分析策略来将第一数据集和第二数据集的第一维度对应的不同数据项相比较，以确定与第一维度相关联的第一组影响因素。

在一些实现中，比较第一数据集和第二数据集中与第一维度对应的数据项包括：对第一数据集和第二数据集中与第一维度对应的数据项执行聚类。

在一些实现中，数据项包括数值。在这些实现中，对第一数据集和第二数据集中与第一维度对应的数据项执行聚类包括：确定第一数据集中与第一维度对应的数值和第二数据集中与第一维度对应的数值之间的差值；以及聚类由差值与第一数据集或第二数据集中与第一维度对应的相应数值组成的配对。

在一些实现中，对第一数据集和第二数据集中与第一维度对应的数据项执行聚类包括：聚类由第一数据集中与第一维度对应的数据项和第二数据集中与第一维度对应的相应数据项组成的配对。

在一些实现中，比较第一数据集和第二数据集中与第一维度对应的数据项包括：确定第一数据集中与第一维度对应的数据项和第二数据集中与第一维度对应的数据项之间的回归拟合。

在一些实现中，回归拟合选自包括以下的组：过原点的回归拟合、有截距的回归拟合和负相关的回归拟合。

在一些实现中，数据项包括数值。在这些实现中，比较第一数据集和第二数据集中与第一维度对应的数据项包括：确定第一数据集中与第一维度对应的数值和第二数据集中与第一维度对应的数值之间的差值；以及通过将差值相比较来标识第一数据集和第二数据集中的至少一个数据集中包括的异常数据项。

在另一方面，本公开提供了一种设备，包括：处理单元；以及存储器，耦合至处理单元并且存储有指令，指令在由处理单元执行时执行以下动作：接收针对第一数据集和第二数据集的分析请求，第一数据集和第二数据集各自包括与多个维度对应的数据项；响应于分析请求，比较第一数据集和第二数据集中与多个维度中的第一维度对应的数据项；基于比较确定与第一维度相关联的第一组影响因素，第一组影响因素中的每一个从相应的角度指示第一数据集与第二数据集之间的差异的原因；以及至少部分基于第一组影响因素，呈现与第一数据集和第二数据集之间的差异有关的分析结果。

在又一方面，本公开提供了一种计算机程序产品，计算机程序产品被存储在非瞬态计算机存储介质中并且包括机器可执行指令，机器可执行指令在设备中运行时使设备：接收针对第一数据集和第二数据集的分析请求，第一数据集和第二数据集各自包括与多个维度对应的数据项；响应于分析请求，比较第一数据集和第二数据集中与多个维度中的第一维度对应的数据项；基于比较确定与第一维度相关联的第一组影响因素，第一组影响因素中的每一个从相应的角度指示第一数据集与第二数据集之间的差异的原因；以及至少部分基于第一组影响因素，呈现与第一数据集和第二数据集之间的差异有关的分析结果。

在一些实现中，与机器可执行指令在设备中运行时使设备：进一步比较第一数据集和第二数据集中与第二维度对应的数据项；基于进一步比较，确定与第二维度相关联的第二组影响因素，第二组影响因素中的每一个从相应的角度指示第一数据集与第二数据集之间的差异的原因；从第一组影响因素和第二组影响因素中确定至少一组影响因素；以及基于所确定的至少一组影响因素，呈现针对第一数据集和第二数据集的分析结果。

在一些实现中，机器可执行指令在设备中运行时使设备：基于为第一组影响因素分配的第一组预定权重，确定第一组影响因素相对于差异的第一重要度；基于为第二组影响因素分配的第二组预定权重，确定第二组影响因素相对于差异的第二重要度；以及基于第一重要度和第二重要度，从第一组影响因素和第二组影响因素中确定至少一组影响因素。

在一些实现中，机器可执行指令在设备中运行时使设备：基于以下至少一项确定分析策略：分析请求的类型，以及第一数据集或第二数据集中与第一维度对应的数据项的数目；以及基于分析策略来将第一数据集和第二数据集的第一维度对应的不同数据项相比较，以确定与第一维度相关联的第一组影响因素。

在一些实现中，机器可执行指令在设备中运行时使设备：对第一数据集和第二数据集中与第一维度对应的数据项执行聚类。

在一些实现中，数据项包括数值。在这些实现中，机器可执行指令在设备中运行时使设备：确定第一数据集中与第一维度对应的数值和第二数据集中与第一维度对应的数值之间的差值；以及聚类由差值与第一数据集或第二数据集中与第一维度对应的相应数值组成的配对。

在一些实现中，机器可执行指令在设备中运行时使设备：聚类由第一数据集中与第一维度对应的数据项和第二数据集中与第一维度对应的相应数据项组成的配对。

在一些实现中，机器可执行指令在设备中运行时使设备：确定第一数据集中与第一维度对应的数据项和第二数据集中与第一维度对应的数据项之间的回归拟合。

在一些实现中，数据项包括数值。在这些实现中，机器可执行指令在设备中运行时使设备：确定第一数据集中与第一维度对应的数值和第二数据集中与第一维度对应的数值之间的差值；以及通过将差值相比较来标识第一数据集和第二数据集中的至少一个数据集中包括的异常数据项。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种计算机实施的方法，包括：

接收针对第一数据集和第二数据集的分析请求，所述第一数据集和所述第二数据集各自包括与多个维度对应的数据项；

响应于所述分析请求，比较所述第一数据集和所述第二数据集中与所述多个维度中的第一维度对应的所述数据项；

基于所述比较确定与所述第一维度相关联的第一组影响因素，所述第一组影响因素中的每一个从所述第一维度的相应角度指示所述第一数据集与所述第二数据集之间的差异的原因；以及

至少部分基于所述第一组影响因素，呈现与所述第一数据集和所述第二数据集之间的所述差异有关的分析结果，其中呈现与所述第一数据集和所述第二数据集之间的所述差异有关的分析结果还包括：

进一步比较所述第一数据集和所述第二数据集中与所述多个维度中的第二维度对应的所述数据项；

基于所述进一步比较，确定与所述第二维度相关联的第二组影响因素，所述第二组影响因素中的每一个从相应的角度指示所述第一数据集与所述第二数据集之间的差异的原因；

从所述第一组影响因素和所述第二组影响因素中确定至少一组影响因素；以及

基于所确定的至少一组影响因素，呈现针对所述第一数据集和所述第二数据集的分析结果。

2.根据权利要求1所述的方法，其中从所述第一组影响因素和所述第二组影响因素中确定至少一组影响因素包括：

基于为所述第一组影响因素分配的第一组预定权重，确定所述第一组影响因素相对于所述差异的第一重要度；

基于为所述第二组影响因素分配的第二组预定权重，确定所述第二组影响因素相对于所述差异的第二重要度；以及

基于所述第一重要度和所述第二重要度，从所述第一组影响因素和所述第二组影响因素中确定至少一组影响因素。

3.根据权利要求2所述的方法，其中所述第一组预定权重和所述第二组预定权重与所述分析请求的类型有关。

4.根据权利要求1所述的方法，其中比较所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项包括：

基于以下至少一项确定分析策略：

所述分析请求的类型，以及

所述第一数据集或所述第二数据集中与所述第一维度对应的数据项的数目；以及

基于所述分析策略来将所述第一数据集和所述第二数据集的所述第一维度对应的不同数据项相比较，以确定与所述第一维度相关联的第一组影响因素。

5.根据权利要求1所述的方法，其中比较所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项包括：

对所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项执行聚类。

6.根据权利要求5所述的方法，其中所述数据项包括数值，并且其中对所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项执行聚类包括：

确定所述第一数据集中与所述第一维度对应的数值和所述第二数据集中与所述第一维度对应的数值之间的差值；以及

聚类由所述差值与所述第一数据集或所述第二数据集中与所述第一维度对应的相应数值组成的配对。

7.根据权利要求5所述的方法，其中对所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项执行聚类包括：

聚类由所述第一数据集中与所述第一维度对应的数据项和所述第二数据集中与所述第一维度对应的相应数据项组成的配对。

8.根据权利要求1所述的方法，其中比较所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项包括：

确定所述第一数据集中与所述第一维度对应的数据项和所述第二数据集中与所述第一维度对应的数据项之间的回归拟合。

9.根据权利要求8所述的方法，其中所述回归拟合选自包括以下的组：过原点的回归拟合、有截距的回归拟合和负相关的回归拟合。

10.根据权利要求1所述的方法，其中所述数据项包括数值，并且其中比较所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项包括：

通过将所述差值相比较来标识所述第一数据集和所述第二数据集中的至少一个数据集中包括的异常数据项。

11.一种电子设备，包括：

处理单元；以及

存储器，耦合至所述处理单元并且存储有指令，所述指令在由所述处理单元执行时执行以下动作：

12.根据权利要求11所述的设备，其中从所述第一组影响因素和所述第二组影响因素中确定至少一组影响因素包括：

13.根据权利要求12所述的设备，其中所述第一组预定权重和所述第二组预定权重与所述分析请求的类型有关。

14.根据权利要求11所述的设备，其中比较所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项包括：

基于以下至少一项确定分析策略：

所述分析请求的类型，以及

15.根据权利要求11所述的设备，其中比较所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项包括：

16.根据权利要求15所述的设备，其中所述数据项包括数值，并且其中对所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项执行聚类包括：

17.根据权利要求11所述的设备，其中比较所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项包括：

18.一种计算机程序产品，所述计算机程序产品被存储在非瞬态计算机存储介质中并且包括机器可执行指令，所述机器可执行指令在设备中运行时使所述设备：

至少部分基于所述第一组影响因素，呈现与所述第一数据集和所述第二数据集之间的所述差异有关的分析结果，其中所述机器可执行指令在设备中运行时使所述设备通过以下来呈现所述分析结果：