CN103136440A

CN103136440A - 数据处理方法和装置

Info

Publication number: CN103136440A
Application number: CN2011104094343A
Authority: CN
Inventors: 孙行智; 俞益琴; 徐林昊; 滕晓菲; 潘越; 沈炜嘉; 周宇辰
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2011-11-30
Filing date: 2011-11-30
Publication date: 2013-06-05
Anticipated expiration: 2031-11-30
Also published as: US20130138592A1; US9043256B2; CN103136440B

Abstract

本发明的各实施方式涉及数据处理方法和装置。在一个实施方式中，提供了一种方法，包括：计算数据集中的多个属性之间的相关性，属性是在事务处理过程中涉及的因素；利用多个属性以及多个属性之间的相关性生成关系图；以及从关系图提取子图以表示研究课题，其中研究课题描述因素对事务处理过程的影响。在一个实施方式中，提供了一种执行上述方法的装置。

Description

数据处理方法和装置

技术领域

本发明的各实施方式涉及数据处理，更具体地，涉及计算海量数据中的相关性以生成研究课题的方法、装置和相关计算机程序产品。

背景技术

在不同的技术领域中，研究课题涉及的因素是纷繁复杂的。例如，对于金属锌的冶炼技术而言，通常可以采用产率、冶炼回收率、水消耗量、电消耗量、硫酸消耗等诸多因素来评价一个冶炼方案的优劣。在本说明书中，研究课题可以描述各种因素对一项事务处理(例如，金属锌的冶炼)过程的影响。在冶炼过程期间还涉及其他因素，诸如，冶炼方法、温度、压强、反应时间、原料杂质含量、设备使用时间，等等。如何确定对于提高锌冶炼整体效率相对重要的因素，并且建立研究课题来研究这些相对重要的因素与锌冶炼效率之间的关联性，这需要全面地采集多种因素并分析各个因素之间的关系，这是一项费时费力的工作。

应当理解，建立一项研究课题的前提是该研究课题所依据的最初研究方向是正确的。例如，锌冶炼可能会受到成百甚至数千个因素的影响，然而如何确定各个因素与锌冶炼产率的相关性是一项复杂的过程。现有解决方案通常是基于人工分析样本数据(例如，一次冶炼过程中的各项因素的数值就是一个样本数据)，由经验丰富的专家基于以往的经验并依据采集的样本数据来人工建立研究课题：例如研究温度对于产率的影响。

现有技术的缺陷在于：不能准确地分析各因素之间的关联关系，尤其是当待分析因素众多(例如，达到数千甚至上万)时，基于人工处理根本不可能逐项分析各个因素；此外，由于人工处理能力的限制，对于样本数据的数量选取也存在限制；另外，由于不能保证分析的准确性，在研究课题中可能会漏掉重要的因素，或者将原本无关或相关性较小的因素误认为是重要因素而加入研究课题。

例如，选取5次冶炼过程中各项因素的数值作为样本数据，可能会发现“设备使用时间”对于冶炼效率具有重大影响，如果因此建立了一项研究课题专门研究“设备使用时间”与“产率”关系，则可能由于“设备使用时间”实际上与“产率”的关系甚微，而造成在此项研究课题中投入大量资金却毫无收获的局面。造成这一错误的原因可能是由于忽略了某项重要因素或者是由于其他因素的干扰。一旦错误地建立了不切实际的研究课题，在后期将会造成大量人力、物力和时间上的巨大损失。

又例如，对于临床数据的研究分析领域涉及的因素更为复杂，仅以糖尿病相关的临床数据为例，这些因素可以包括：平均每日胰岛素用量、最后胰岛素用量、胰岛素的类型、患者年龄、性别、民族、学历、职业，等等数据。这里，每个患者的临床数据是一个样本数据，为了保证准确性通常需要采集上千甚至更多数量的因素，并分析上万甚至更多位患者的临床数据。可以设想，如果采用一张包括行和列的普通二维表格存储数据，以每一列代表一个因素，以每一行代表一个患者的样本数据，那么基于现有的人工方法根本不可能正确分析包括数千列和数万行的数据表。

发明内容

在建立研究课题时，为了综合考虑各项因素之间的相关性，期望尽可能选取更多的样本数据，然而这一初衷与现有技术的处理能力相悖。这就迫切需要一种准确、有效的方法来分析和处理海量数据，以便准确、高效地获得各因素对于整个处理过程的影响，并建立符合客观规律的研究课题。

因此，面对人工处理无法识别海量数据中的相关性的缺陷，如何发现事务处理过程中所涉及诸多因素之间的相关性，以及如何生成候选研究课题供研究人员决策，成为一项亟待解决的问题。为此，本发明的各实施方式提供了一种用于处理海量数据的数据处理的方法、装置和计算机程序产品。

在一个实施方式中，提供了一种数据处理方法，包括：计算数据集中的多个属性之间的相关性，属性是在事务处理过程中涉及的因素；利用多个属性以及多个属性之间的相关性生成关系图；以及从关系图提取子图以表示研究课题，其中研究课题描述因素对事务处理过程的影响。

在一个实施方式中，属性的分类包括：评测指标、控制因素和干扰因素；以及属性的数据类型至少包括以下之一：数值型、名义型以及序列型。

在一个实施方式中，提供了一种数据处理装置，包括：用于计算数据集中的多个属性之间的相关性的装置，属性是在事务处理过程中涉及的因素；用于利用多个属性以及多个属性之间的相关性生成关系图的装置；以及用于从关系图提取子图以表示研究课题的装置，其中研究课题描述因素对事务处理过程的影响。

根据本发明的一个实施方式，可以向研究人员提出这些属性之间存在较强相关性的事实，以便辅助研究人员决策。这可以确保研究人员将主要精力投入课题研究而不是耗费在分析“我们的研究对象是什么？”的问题上。在研究人员认为必要的情况下，将进一步探索并研究这些属性之间的关联关系。例如，对于锌冶炼的示例，基于计算得出温度和压强对于锌冶炼的产率具有强相关性的事实，本发明的方法和装置可以辅助研究人员设立研究课题，以便进一步分析温度和压强对产率的影响并进行量化。

采用根据本发明的各实施方式，可以降低研究人员人工操作的工作量，辅助研究人员指定研究计划，并将主要精力投入课题研究。同时还可以降低在制定研究计划中投入的人力、物力和时间成本。

附图说明

结合附图并参考以下详细说明，本发明各实施方式的特征、优点及其他方面将变得更加明显，在此以示例性而非限制性的方式示出了本发明的若干实施方式。在附图中：

图1示意性示出了在数据处理过程期间涉及的多个因素之间的依赖关系；

图2示意性示出了根据本发明一个实施方式的数据处理方法的流程图；

图3示意性示出了根据本发明一个实施方式的元数据的框图；

图4A示意性示出了根据本发明一个实施方式的关系图，图4B示意性示出了根据本发明一个实施方式的过滤后的关系图；

图5示意性示出了根据本发明一个实施方式的从关系图提取子图的方法的流程图；

图6A至图6C分别示意性示出了根据本发明一个实施方式的从关系图提取的子图；

图7A示意性示出了根据本发明一个实施方式的待优化的关系图，图7B示意性示出了根据本发明一个实施方式的优化后的关系图；以及

图8示意性示出了根据本发明一个实施方式的数据处理装置的图示。

具体实施方式

下面参考附图详细描述本发明的各实施方式。附图中的流程图和框图，图示了按照本发明各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

图1示意性示出了在数据处理过程期间涉及的多个因素之间的依赖关系100。在图1中以关系图来表示各种因素401至409之间的相互影响，例如，节点401和节点405之间的边表示在因素401和因素405之间具有关联，即需要分析因素401和因素405间是否存在依赖关系。节点401分别与节点405和406连接，这表示属性401分别与属性405和406相关联；又如，节点405分别与节点401至404以及407至409连接，这表示属性405分别与属性401至404以及407至409相关联。在图1所示的具体环境中，为建立研究课题，通常的解决方案是通过人工分析关系图100并寻找各个因素之间的依赖关系，从而挑选相关性较强的因素作为研究的对象。

对于给定的数据集，期望能够高效、准确并且自动地获得该数据集中存在的有意义的研究课题，之后研究人员可以通过分析研究课题来获得决策信息。例如，面对图1所示的各因素之间错综复杂的依赖关系，研究人员虽然知晓这些因素会对事务处理产生影响，然而却并不知晓这些因素如何影响事务处理进程。即使研究人员希望设立研究课题分析各因素之间的关联关系也难以着手实现，因为研究人员根本不知道具体研究对象是什么，也即研究人员不知道应当研究哪些属性与哪些属性之间的关系。

采用本发明的方法和装置，可以理清事务处理中各个因素的依赖关系。图2示意性示出了根据本发明一个实施方式数据处理方法的流程图200，具体地，图2示出了基于属性之间的相关性生成研究课题的方法的流程图。首先，在步骤S202中，计算数据集中的多个属性之间的相关性，属性是在事务处理过程中涉及的因素。在此所述的数据集可以采用多种方式表示，例如，可以采用前文所述的包括行和列的普通二维表格的方式存储，其中以列表示属性并且以行表示样本数据。本领域技术人员还可以采用其他存储结构来表示数据集，例如，以行表示属性并且以列表示样本数据；或者当数据集规模较大时，还可以采用数据库中的多个表来存储。例如，对于上文示例中的锌冶炼过程，可以采用表1示意性示出的数据结构表示数据集。

表1针对锌冶炼过程的数据集

样本序号	产率	冶炼回收率	电消耗量	...	温度
						1	100度	70℃
2			125度		80℃
						...	...
N			120度		75℃

在步骤S204中，利用多个属性以及多个属性之间的相关性生成关系图。本发明基于属性之间的关系图来描述研究课题，在关系图中，以节点表示属性并且以节点之间的边表示两个属性之间的相关性。在执行本发明的方法的过程期间，寻找相关性较强的两个属性之间的关联关系，并且丢弃相关性较弱的两个属性之间的关联关系，以便保证在生成的研究课题中的各个属性之间存在相对较强的因果关系。

在步骤S206中，从关系图提取子图以表示研究课题，其中研究课题描述因素对事务处理过程的影响。在上文已经指出，在生成研究课题前期需要尽可能多地考虑对事务处理过程具有影响的各种属性；然而在生成研究课题时，期望过滤掉不太相关的属性并找到最具相关性的属性，以便为研究人员提供研究课题的候选。

在本发明的一个实施方式中，还包括向多个属性添加元数据以预处理多个属性。预处理可以为提取多个属性的属性值提供便利。图3示意性示出了根据本发明一个实施方式的元数据的框图300。如图3所示，元数据310包括：定义312，用于描述属性的基本情况(例如，名称等)；分类314，用于描述属性在事务处理期间所起的作用(例如，对其他属性施加影响的因素，还是受到其他因素影响而变化的因素，等等)；以及数据类型316，用于表示属性值的类型(例如，表示年龄的数值型，表示性别的名义型)。

在本发明的一个实施方式中，属性的分类包括：评测指标(Performance Indicator)、控制因素(Intervention)和干扰因素(Confounder)。评测指标是描述事务处理整体运行状况的因素，例如在锌冶炼的示例中，产率、冶炼回收率、水消耗量、电消耗量等都是描述一次锌冶炼效果优劣的评测指标。控制因素是描述在事务处理期间会对评测指标产生影响的人工可控的因素，例如，选择采用湿法冶炼、温度、压强等。干扰因素是会对评测指标产生影响的客观因素，而这些因素通常不受人工控制，例如，设备使用时间等。

对于上文所示的临床数据分析的示例，可以将属性分类如下。

表2临床数据分析中属性的分类

在本发明的一个实施方式中，属性的数据类型包括：数值型(scale)、名义型(nominal)以及序列型(ordinal)。数值型是表示数据是连续的、数据之间间隔相等、可测量、可区分大小，例如，年龄。名义型表示数据不是连续的、数据之间不可测量、不可区分大小。而序列型表示数据不是连续的、数据之间不可测量、但可区分大小。

根据本发明的一个实施方式，对属性的数据类型进行划分可以基于属性的数据类型的不同来采用不同方法计算相关性。例如，计算数据类型为数值型的两个属性的方法，可以不同于计算数据类型为名义型的两个属性的方法。在下文中详细描述。

在本发明的一个实施方式中，计算数据集中的多个属性之间的相关性进一步包括：计算分类为评测指标的属性与分类为控制因素的属性之间的相关性；以及计算分类为评测指标的属性与分类为干扰因素的属性之间的相关性。

在上文已经给出了将属性进行分类的依据，由于在事务处理过程期间，研究人员最关心的是评测指标受到哪些属性的影响，并且期望了解这些属性产生影响的大小，因而需要分别计算(评测指标，控制因素)以及(评测指标，干扰因素)这些属性之间的相关性。

例如，对于锌冶炼的示例，在相同温度(控制因素)下，由于设备存在老化而使得因设备使用时间(干扰因素)不同而导致产率(评测指标)不同。又例如对于临床数据分析的示例，采用相同的胰岛素类型(控制因素)，可能会由于患者体重指数(干扰因素)的不同而导致平均每日胰岛素用量(评测指标)不同。因而需要分别计算(评测指标，控制因素)以及(评测指标，干扰因素)这些属性之间的相关性。

在本发明的一个实施方式中，计算数据集中的多个属性之间的相关性包括：针对多个属性中的第一属性和第二属性，基于在多个样本中的每个样本的第一属性的值和第二属性的值，计算相关性。可以基于第一属性和第二属性的数据类型来计算相关性，例如可以通过下文表3所示的方法计算。应当注意，由于“序列型”是一种特殊类型的“名义型”，因而在表3中并未针对“序列型”进行特别区分，而是将“名义型”和“序列型”均作为“名义型”的数据类型进行处理。还应当注意，本发明实现了基于属性的相关性来生成研究课题，其中所涉及的统计学的原理和算法并非本发明的重点，在此不再赘述。

表3基于属性的数据类型计算相关性

在计算相关性时，是采用每个样本数据中的数值来计算的。例如针对上文表1中的示例，(100度，70℃)是针对第1次冶炼过程的采样数据，(125度，80℃)是针对第2次冶炼过程的采样数据，而(120度，75℃)是针对第N次冶炼过程的采样数据。此时，需要将针对第1至N次冶炼过程的采样数据用于计算电消耗量和温度之间的相关性。为提高计算的准确性，还可以增加样本数据的数目。

在本发明的一个实施方式中，计算相关性包括：将相关性统一地表示为相关性值。应当注意，由于多个属性的数据类型不尽相同，需要采用不同的方法来计算不同数据类型的属性之间的相关性，这继而导致了相关性的评估标准不统一的问题，难以在以多种标准表示的相关性之间进行比较。本发明提供了一种利用相关性值来统一表示不同数据类型的属性之间的相关性的方法。

在本发明的一个实施方式中，借助于统计学中的P值概念来设计本发明中的相关性值。在统计学中，P值为结果可信程度的一个递减指标。P值越大则越不能认为样本中变量的关联是总体中各变量关联的可靠指标。P值是将观察结果认为有效即具有总体代表性的犯错概率。类似于统计学中的P值，本发明以相关性值(取值范围为[0，1])来表示两个属性之间不具有关联关系的概率，例如，两个属性之间的相关性值＝0.05表示，这两个属性之间具有关联关系的概率是95％。相关性值越小，两个属性之间的相关性越强。

在本发明的一个实施方式中，利用多个属性以及多个属性之间的相关性生成关系图包括：分别利用第一属性和第二属性，构造关系图中的第一节点和第二节点；当表示第一属性和第二属性之间的相关性的相关性值低于第一阈值时，向第一节点和第二节点之间添加边，其中边的权重为相关性值。

在已经基于前述方法计算得出分类为(评测指标，控制因素)以及(评测指标，干扰因素)的属性之间的相关性之后，可以构建关系图。在事务处理期间，为了尽可能考虑较强的相关性，可以为相关性值设立阈值，以便过滤掉一些不显著的相关性。例如，可以将阈值设置为0.05，这表示仅考虑属性之间具有相关性的概率在95％以上的相关性。

图4A示意性示出了根据本发明一个实施方式的关系图400A。如图4A所示，关系图400A中的节点可以分类为3种，节点401至404表示的属性被分类为干扰因素，节点405和406表示的属性被分类为评测指标，节点407至409表示的属性被分类为控制因素。图4B示意性示出了根据本发明一个实施方式的过滤后的关系图400B。该图4B示出了以0.05为阈值过滤后的关系图，其中节点之间的边的权值为两个节点所表示属性的相关性。以箭头粗细表示相关性的强弱，权值越小则相关性越高。

在本发明的一个实施方式中，从关系图提取子图以表示研究课题包括：针对表示分类为控制因素的每个节点i，获取与节点i链接的、表示分类为评测指标的至少一个节点的集合O；获取与节点i链接的、表示分类为控制因素的节点i以外的节点的集合I；获取与节点i链接的、表示分类为干扰因素的全部节点的集合C；生成研究课题为：<评测指标＝O，控制因素＝{i}，干扰因素＝C∪I>。应当注意，在本发明的一个实施方式中，“链接”并不仅限于在两个节点之间存在直接连接的边，而是还可以包括在关系图中的两个节点之间存在一条路径的情况。换言之，“链接”可以包括通过一条边或者依次相连的多条边来连接两个节点。

图5示意性示出了根据本发明一个实施方式的从关系图提取子图的方法的流程图500。如图5示出了针对表示分类为控制因素的每个节点i的操作，图6A至图6C分别示意性示出了根据本发明一个实施方式的从关系图提取的子图600A至600C。在下文中，将结合图5的步骤和图6A至图6C示出的子图，详述如何提取子图。应当注意，从图4B所示的经过滤的关系图400B来提取子图。图5示出了针对表示分类为控制因素的每个节点i的操作，具体如下。

在步骤S502处，获取与节点i链接的、表示分类为评测指标的至少一个节点的集合O。例如针对图6A中的节点409(对应于图5中的节点i)，获取与节点409链接的、表示分类为评测指标的至少一个节点的集合O＝{406}。

在步骤S504处，获取与节点i链接的、表示分类为控制因素的节点i以外的节点的集合I。此时，与节点409链接的、表示分类为控制因素的节点409以外的节点的集合I＝{407}。

在步骤S506处，获取与节点i链接的、表示分类为干扰因素的全部节点的集合C。此时，与节点409链接的、表示分类为干扰因素的全部节点的集合C＝{402，404}。

在步骤S508中，生成研究课题为：<评测指标＝O，控制因素＝{i}，干扰因素＝C∪I>。此时，生成的研究课题为：

研究课题1＝

<评测指标＝{406}，

控制因素＝{409}，

干扰因素＝{402，404，407}>

利用图5所示的方法，当针对表示分类为控制因素的节点407进行处理时，生成的研究课题分别为：

研究课题2＝

<评测指标＝{406}，

控制因素＝{407}，

干扰因素＝{402，404，409}>，以及

研究课题3＝

<评测指标＝{405}，

控制因素＝{407}，

干扰因素＝{401，402，403}>

应当注意，在不同的研究课题中，同一个属性的分类是可以不同的。例如，在研究课题1中，节点407的分类是干扰因素，节点409的分类是控制因素；而在研究课题2中，节点407的分类是控制因素，节点409的分类是干扰因素。这是因为，存在多个控制因素时，当以一个控制因素作为当前控制因素时，相对于该控制因素而言，其他控制因素变为干扰因而被分类为干扰因素。

在本发明的一个实施方式中，还可以对已生成的研究课题进行修改，例如可以根据控制因素的取值将样本数据分组。在一个实施方式中，该方法进一步包括：选择分类为控制因素的属性作为分组属性；基于分组属性将多个样本划分为多个分组。应当注意，可以将样本数据划分成多个分组。例如，分组时可以将样本数据划分为数量大致相当的两个组，例如可以设置阈值(如，10％)并保证两组中的样本数量的差异不超过该阈值。

例如，在冶炼过程的示例中，将冶炼中温度作为控制因素可以将控制因素划分为三个分组：高温、中温、低温；在临床数据分析中，可以根据具体的每日胰岛素用量将控制因素分组为保守治疗和普通治疗。这样的分组在实际研究中更加有指导意义。当分组标准不明确时，可以根据样本数据中的某属性进行分组，分组的标准是期望评测指标中的差异最大化，同时尽量保证每个组中的样本数据数量大致相当。

在本发明的一个实施方式中，可以具体采用如下方式进行分组。首先选择分类为控制因素的某属性作为分组属性(例如，表1所示的“温度”)。可以选择该属性的取值范围{v1，v2，...vn}内的某一个值vg，如果该属性的数据类型是数值型，则可以将属性值f≤vg的样本数据划分至第一分组，而将属性值f＞vg的样本数据划分至第二分组。如果该属性的数据类型是非数值型(例如，名义型或者序列型)，则可以将属性值f＝vg的样本数据划分至第一分组，而将属性值f≠vg的样本数据划分至第二分组。针对分组属性的取值范围{v1，v2，...vn}内的每个属性值进行分组，以便找到与评测指标的相关性最强的分组方式。之后，可以依据上文所示的方法，采用该分组中的样本数据来生成研究课题。

在本发明的一个实施方式中，当研究的主要目的是评估控制因素对评测指标的影响时，还可以删除与控制因素不相关的干扰因素，以便简化计算并使得研究重点集中在分析控制因素对评测指标的影响上。这是因为如果某个干扰因素与控制因素无关，则不管采用什么样的控制值，该干扰因素对结局因素的影响都是固定的，所以当评价不同的控制因素取值对评测指标的影响时，可以忽略该干扰因素。例如，根据本发明一个实施方式的方法可以进一步包括：针对分类为干扰因素的每个属性j，计算分组属性与属性j的相关性；如果相关性值大于第二阈值，则删除属性j。

现在参照图7A和图7B详细说明。图7A示意性示出了根据本发明一个实施方式的待优化的关系图700A，图7B示意性示出了根据本发明一个实施方式的优化后的关系图700B。关系图700A是采用属性407作为分组属性进行分组后生成的关系图。分别计算分组属性407与每个干扰因素401、402和403之间的相关性值(分别如图7中的箭头A、B和C表示)。判断上述相关性值是否大于第二阈值(例如，0.05)：

相关性值A＝0.01＜0.05，因而保留属性401；

相关性值B＝0.1＞0.05，因而删除属性402；

相关性值C＝0.02＜0.05，因而保留属性403。

在删除属性402后，关系图如图7B所示。通过计算干扰因素与分组属性之间相关性值，可以丢弃与分组属性相关性较小的干扰因素以便优化关系图。例如，对于表2所示的示例，当选择“胰岛素类型”作为分类属性时，经过上述计算发现“年龄”属性与其相关性较低，则可以删除“年龄”属性，也即不再认为“年龄”是一项干扰因素。

在本发明的一个实施方式中，事务处理是金属冶炼过程或临床数据分析。

应当注意，尽管本发明的说明书中采用金属锌冶炼和临床数据分析作为具体示例，本发明的方法和装置的应用范围并不仅限于此。例如，对于可以采用湿法冶炼的任何金属冶炼，均可以采用上述方法；又例如，对于软件研发期间涉及的研发周期、研发成本、代码量、研发人员数量、年龄、学历、性别等诸多因素，同样可以采用本发明所提出的方法和装置来进行数据处理，以便生成关于软件研发的研究课题。换言之，本发明的方法和装置可以应用于需要针对各种因素对事务处理过程的影响进行分析、以便建立研究课题的各种应用环境。

图8示意性示出了根据本发明一个实施方式的数据处理装置的图示800。如图8所示，根据本发明一个实施方式的数据处理装置包括：计算装置810，配置用于计算数据集中的多个属性之间的相关性，属性是在事务处理过程中涉及的因素；生成装置820，配置用于利用多个属性以及多个属性之间的相关性生成关系图；以及提取装置830，用于从关系图提取子图以表示研究课题，其中研究课题描述因素对事务处理过程的影响。

在本发明的一个实施方式中，属性的分类包括：评测指标、控制因素和干扰因素；以及属性的数据类型至少包括以下之一：数值型、名义型以及序列型。

在本发明的一个实施方式中，计算装置810进一步包括：用于计算分类为评测指标的属性与分类为控制因素的属性之间的相关性的装置；以及用于计算分类为评测指标的属性与分类为干扰因素的属性之间的相关性的装置。

在本发明的一个实施方式中，计算装置810进一步包括：用于针对多个属性中的第一属性和第二属性、基于在多个样本中的每个样本的第一属性的值和第二属性的值、计算相关性的装置。

在本发明的一个实施方式中，计算相关性的装置包括：用于将相关性统一地表示为相关性值的装置。

在本发明的一个实施方式中，生成装置820包括：用于分别利用第一属性和第二属性、构造关系图中的第一节点和第二节点的装置；用于当表示第一属性和第二属性之间的相关性的相关性值低于第一阈值时、向第一节点和第二节点之间添加边的装置，其中边的权重为相关性值。

在本发明的一个实施方式中，提取装置830包括：针对表示分类为控制因素的每个节点i，用于获取与节点i链接的、表示分类为评测指标的至少一个节点的集合O的装置；用于获取与节点i链接的、表示分类为控制因素的节点i以外的节点的集合I的装置；用于获取与节点i链接的、表示分类为干扰因素的全部节点的集合C的装置；用于生成研究课题为：<评测指标＝O，控制因素＝{i}，干扰因素＝C∪I>的装置。

在本发明的一个实施方式中，该装置进一步包括：用于选择分类为控制因素的属性作为分组属性的装置；以及用于基于分组属性将多个样本划分为多个分组的装置。

在本发明的一个实施方式中，该装置进一步包括：针对分类为干扰因素的每个属性j，用于计算分组属性与属性j的相关性的装置；用于如果相关性值大于第二阈值、则删除属性j的装置。

在本发明的一个实施方式中，该装置进一步包括：用于向多个属性添加元数据以预处理多个属性的装置。

本发明可以采取硬件实施方式、软件实施方式或既包含硬件组件又包含软件组件的实施方式的形式。在优选实施方式中，本发明实现为软件，其包括但不限于固件、驻留软件、微代码等。

而且，本发明还可以采取可从计算机可用或计算机可读介质访问的计算机程序产品的形式，这些介质提供程序代码以供计算机或任何指令执行系统使用或与其结合使用。出于描述目的，计算机可用或计算机可读机制可以是任何有形的装置，其可以包含、存储、通信、传播或传输程序以由指令执行系统、装置或设备使用或与其结合使用。

介质可以是电的、磁的、光的、电磁的、红外线的、或半导体的系统(或装置或器件)或传播介质。计算机可读介质的例子包括半导体或固态存储器、磁带、可移动计算机磁盘、随机访问存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。目前光盘的例子包括紧凑盘-只读存储器(CD-ROM)、压缩盘-读/写(CD-R/W)和DVD。

适合于存储/或执行程序代码的数据处理系统将包括至少一个处理器，其直接地或通过系统总线间接地耦合到存储器元件。存储器元件可以包括在程序代码的实际执行期间所利用的本地存储器、大容量存储器、以及提供至少一部分程序代码的临时存储以便减少执行期间从大容量存储器必须取回代码的次数的高速缓存存储器。

输入/输出或I/O设备(包括但不限于键盘、显示器、指点设备等等)可以直接地或通过中间I/O控制器耦合到系统。

网络适配器也可以耦合到系统，以使得数据处理系统能够通过中间的私有或公共网络而耦合到其他数据处理系统或远程打印机或存储设备。调制解调器、线缆调制解调器以及以太网卡仅仅是当前可用的网络适配器类型的几个例子。

从上述描述应当理解，在不脱离本发明真实精神的情况下，可以对本发明各实施方式进行修改和变更。本说明书中的描述仅仅是用于说明性的，而不应被认为是限制性的。本发明的范围仅受所附权利要求书的限制。

Claims

1.一种数据处理方法，包括：

计算数据集中的多个属性之间的相关性，所述属性是在事务处理过程中涉及的因素；

利用所述多个属性以及所述多个属性之间的相关性生成关系图；以及

从所述关系图提取子图以表示研究课题，

其中所述研究课题描述所述因素对所述事务处理过程的影响。

2.根据权利要求1所述的方法，其中：

所述属性的分类包括：评测指标、控制因素和干扰因素；以及

所述属性的数据类型至少包括以下之一：数值型、名义型以及序列型。

3.根据权利要求2所述的方法，其中计算所述数据集中的所述多个属性之间的相关性进一步包括：

计算分类为评测指标的属性与分类为控制因素的属性之间的相关性；以及

计算分类为评测指标的属性与分类为干扰因素的属性之间的相关性。

4.根据权利要求1至3中任一项所述的方法，其中计算所述数据集中的所述多个属性之间的相关性进一步包括：针对所述多个属性中的第一属性和第二属性，基于在多个样本中的每个样本的第一属性的值和第二属性的值，计算所述相关性。

5.根据权利要求4所述的方法，其中计算所述相关性包括：将所述相关性统一地表示为相关性值。

6.根据权利要求5所述的方法，其中利用所述多个属性以及所述多个属性之间的相关性生成关系图包括：

分别利用所述第一属性和所述第二属性，构造所述关系图中的第一节点和第二节点；

当表示第一属性和第二属性之间的相关性的相关性值低于第一阈值时，向所述第一节点和所述第二节点之间添加边，其中所述边的权重为所述相关性值。

7.根据权利要求6所述的方法，其中从所述关系图提取子图以表示所述研究课题包括：

针对表示分类为控制因素的每个节点i，

获取与所述节点i链接的、表示分类为评测指标的至少一个节点的集合O；

获取与所述节点i链接的、表示分类为控制因素的所述节点i以外的节点的集合I；

获取与所述节点i链接的、表示分类为干扰因素的全部节点的集合C；

生成研究课题为：<评测指标＝O，控制因素＝{i}，干扰因素＝C∪I>。

8.根据权利要求4所述的方法，进一步包括：

选择分类为控制因素的属性作为分组属性；以及

基于所述分组属性将所述多个样本划分为多个分组。

9.根据权利要求8所述的方法，进一步包括：针对分类为干扰因素的每个属性j，

计算所述分组属性与所述属性j的相关性；

如果所述相关性值大于第二阈值，则删除所述属性j。

10.根据权利要求1至3中任一项所述的方法，进一步包括：向所述多个属性添加元数据以预处理所述多个属性。

11.根据权利要求1至3中任一项所述的方法，其中所述事务处理是金属冶炼过程或临床数据分析。

12.一种数据处理装置，包括：

用于计算数据集中的多个属性之间的相关性的装置，所述属性是在事务处理过程中涉及的因素；

用于利用所述多个属性以及所述多个属性之间的相关性生成关系图的装置；以及

用于从所述关系图提取子图以表示研究课题的装置，

13.根据权利要求12所述的装置，其中：

14.根据权利要求13所述的装置，其中用于计算所述数据集中的所述多个属性之间的相关性的装置进一步包括：

用于计算分类为评测指标的属性与分类为控制因素的属性之间的相关性的装置；以及

用于计算分类为评测指标的属性与分类为干扰因素的属性之间的相关性的装置。

15.根据权利要求12至14中任一项所述的装置，其中用于计算所述数据集中的所述多个属性之间的相关性的装置进一步包括：用于针对所述多个属性中的第一属性和第二属性、基于在多个样本中的每个样本的第一属性的值和第二属性的值、计算所述相关性的装置。

16.根据权利要求15所述的装置，其中计算所述相关性的装置进一步包括：用于将所述相关性统一地表示为相关性值的装置。

17.根据权利要求16所述的装置，其中用于利用所述多个属性以及所述多个属性之间的相关性生成关系图的装置包括：

用于分别利用所述第一属性和所述第二属性、构造所述关系图中的第一节点和第二节点的装置；

用于当表示第一属性和第二属性之间的相关性的相关性值低于第一阈值时、向所述第一节点和所述第二节点之间添加边的装置，其中所述边的权重为所述相关性值。

18.根据权利要求17所述的装置，其中用于从所述关系图提取子图以表示所述研究课题的装置包括：

针对表示分类为控制因素的每个节点i，

用于获取与所述节点i链接的、表示分类为评测指标的至少一个节点的集合O的装置；

用于获取与所述节点i链接的、表示分类为控制因素的所述节点i以外的节点的集合I的装置；

用于获取与所述节点i链接的、表示分类为干扰因素的全部节点的集合C的装置；

用于生成研究课题为：<评测指标＝O，控制因素＝{i}，干扰因素＝C∪I>的装置。

19.根据权利要求15所述的装置，进一步包括：

用于选择分类为控制因素的属性作为分组属性的装置；以及

用于基于所述分组属性将所述多个样本划分为多个分组的装置。

20.根据权利要求19所述的装置，进一步包括：针对分类为干扰因素的每个属性j，

用于计算所述分组属性与所述属性j的相关性的装置；

用于如果所述相关性值大于第二阈值、则删除所述属性j的装置。

21.根据权利要求12至14中任一项所述的装置，进一步包括：用于向所述多个属性添加元数据以预处理所述多个属性的装置。

22.根据权利要求12至14中任一项所述的装置，其中所述事务处理是金属冶炼过程或临床数据分析。