CN102918522B

CN102918522B - 用于生成统计研究信息的系统、方法以及设备

Info

Publication number: CN102918522B
Application number: CN201180017217.8A
Authority: CN
Inventors: 史蒂夫·X·陈
Original assignee: X & Y Solutions
Current assignee: X & Y Solutions
Priority date: 2010-04-05
Filing date: 2011-04-01
Publication date: 2016-05-04
Anticipated expiration: 2031-04-01
Also published as: CA2794846A1; CN102918522A; WO2011126942A3; US20140019090A1; WO2011126942A2; US20110246135A1; US8615378B2

Abstract

在一个实施例中，公开了一种用于生成统计分析输出的系统。该系统从用户接收并处理输入来执行统计分析并生成输出。该输入包括来自数据集中的多个统计变量中的至少一个统计变量，适于分析的统计模块和输出格式。该系统包括处理单元，其被配置为：自动识别数据集中的统计变量；自动生成用于获得变量分布的程序代码；选择至少一个统计变量以用于统计分析；选择至少一个统计变量的一个或多个并自动生成实现用于操纵变量的统计功能的程序；基于统计模块通过执行与模块相关的程序代码而自动执行统计分析；以及自动生成用于将统计分析的结果组织成用户所选的输出格式的程序代码。

Description

用于生成统计研究信息的系统、方法以及设备

相关申请的交叉引用

本申请依照35U.S.C.§119(e)要求于2010年7月27日递交的临时专利申请No.61/367,965和于2010年4月5日递交的美国临时专利申请No.61/320,894的权益，因此，他们中的每个通过引用被全文结合在此。

背景技术

数据集与电子数据表在构思上类似并且包括行和列。每个行被称为观察(observation)并代表一主题。每个列被称为变量并代表与主题相关的特征、特性或量度。主题ID是用于识别每个主题(诸如在临床研究中的病人)的专用变量。

变量的分布是变量的基本统计说明。对于连续变量(诸如主题以英寸为单位的高度)，通常感兴趣的统计包括平均值、标准偏差、最小值、最大值、中间值和诸如百分之十、百分之二十五等的多种百分等级。对于离散或分类变量(诸如性别和种族)，通常感兴趣的统计包括对每个离散分类的计数。

回归模型(regressionmodel)是使用独立变量(称为暴露变量(Exposures)和协变量)的统计公式来预测所感兴趣的因变量(称为结果)。以下公式是回归模型的举例：

f(SBP),其中SBP＝β₀+β₁*AGE+β₂*BMI+e

SBP是回归模型的结果(Outcome)并且表示主题病人的心脏收缩血压。AGE是独立变量并且表示病人的年龄。BMI也很是独立变量并且表示病人身体体重指数。

暴露变量是回归模型中的独立变量，观察其变化来确定其如何影响结果的变化。协变量或调节变量也是回归模型中的不是暴露变量的自变量。例如，在示例性回归模型中，BMI是AGE的协变量并且反之亦然。两个独立变量中的任一个或全部两个都可以被选作为暴露变量。

回归系数是根据结果中的变化表示暴露变量的变化率的恒量。例如，在示例性回归模型中，β₁和β₂是分别与AGE和BMI变量相关联的回归系数。例如，如果β₂等于零，则意味着在BMI的变化和SBP的变化之间不存在相关性。回归系数显示了与系数相关联的变量与回归模型的结果相关的程度。

如果发现两个变量的变化是相关的，则变量被说成与另一变量相关联。关联测试涉及拟合和测试回归模型以确定回归系数，来看是否他们中的任何一个关于结果具有显著相关性。例如，流行病学的数据分析关注于暴露变量与结果的关联，其中关联是通过调节或不调节其他协变量而被测试的。

分层法被定义为将数据分隔成不同的或不重叠的组的过程。当对学习总体的子域特别感兴趣时使用分层法。分层变量是表示从学习总体的部分组中所获得的量度的变量。

在先技术中目前可用的统计工具是围绕统计方法而不是为了容易地获得分析数据输出而设计的。例如，为了应用统计方法来分析可用的数据，用户(例如流行病学家)必须做很多编程，从这种工具的输出中提取有关信息并将信息放入报告中。

发明内容

公开主题所提供的系统和方法为用户提供了多种数据分析模块，这些模块能够产生预先设定的报告表格/图表，并允许用户修改报告表格/图表的格式，并选择适当的变量来直接生成公布的表格/图表。用户不需要知道如何调用复杂的统计方法或具有编程知识，因此，他们能够专注在统计数据的研究上而不是获得这些数据。

在一个实施例中，公开了用于生成统计分析输出的系统。该系统从用户接收并处理一组输入来执行统计分析并基于分析的结果生成输出。用户输入包括从包含在数据集中的多个统计变量中选择用来分析的至少一个统计变量，一个或多个适于特定分析的统计模块，和一个或多个输出格式。统计分析基于所选统计模块而被执行。该系统包括处理单元，其被配置为：自动识别数据集中的多个统计变量的每个；对每个识别的统计变量，自动生成用于获得变量分布的程序代码；从所识别的数据集中的变量中选择至少一个统计变量以用于基于变量分布的统计分析；如果用户输入包括对用于操纵变量的一个或多个统计功能的选择，则选择至少一个统计变量的一个或多个并自动生成实现用于操纵一个或多个所选变量的统计功能的程序代码；基于一个或多个统计模块通过执行与模块相关的程序代码而自动执行统计分析；以及自动生成用于将统计分析的结果组织成用户所选的输出格式的程序代码。

在另一实施例中，公开了一种为以下系统生成统计分析的方法，该系统从用户接收并处理一组输入来执行统计分析并基于分析的结果生成输出，其中用户输入包括从包含在数据集中的多个统计变量中选择用来分析的至少一个统计变量，一个或多个适于特定分析的统计模块，和一个或多个输出格式，并且其中统计分析基于所选统计模块而被执行。该方法包括：自动识别数据集中的多个统计变量的每个；对每个识别的统计变量，自动生成用于获得变量分布的程序代码；从所识别的数据集中的变量中选择至少一个统计变量以用于基于变量分布的统计分析；如果用户输入包括对用于操纵变量的一个或多个统计功能的选择，则选择至少一个统计变量的一个或多个并自动生成实现用于操纵一个或多个变量的所选统计功能的程序代码；基于一个或多个统计模块通过执行与模块相关的程序代码而自动执行统计分析；以及自动生成用于将统计分析的结果组织成用户所选的输出格式的程序代码。

在另一实施例中，公开了在一种或多种有形介质中编码的逻辑。该逻辑包括用于执行的代码并且当被处理器执行时可操作地执行如下操作，所述操作包括：接收一组输入，所述输入包括从包含在数据集中的多个统计变量中选择用来分析的至少一个统计变量，一个或多个适于特定分析的统计模块，和一个或多个输出格式；自动识别数据集中的多个统计变量的每个；对每个识别的统计变量，自动生成用于获得变量分布的程序代码；从所识别的数据集中的变量中选择至少一个统计变量以用于基于变量分布的统计分析；如果用户输入包括对用于操纵变量的一个或多个统计功能的选择，则选择至少一个统计变量的一个或多个并自动生成实现用于操纵一个或多个所选变量的所选统计功能的程序代码；基于一个或多个统计模块通过执行与模块相关的程序代码而自动执行统计分析；以及自动生成用于将统计分析的结果组织成用户所选的输出格式的程序代码。

公开主题的实施例可以包括一个或多个以下特征。例如，用于生成统计分析输出的系统可以进一步包括耦合到处理单元的用于储存数据集的存储器单元。该存储器单元可以也储存用户输入组。该系统还可以包括通信单元，该通信单元被配置为通过包括互联网的通信网络，从用户装置接收用户输入并将分析输出传送给所述用户装置。该系统可以进一步包括用于储存分析输出的储存单元。该系统中的处理单元可以进一步被配置为创建用于储存所识别的统计变量的变量分布的数据分布文件。该数据分布文件可以通过自动生成用于生成数据分布文件的程序代码而被创建，其可以包括含用于组织变量分布的特定格式，包含电子数据表格文件格式、文本文件格式、或图表文件格式。系统中的处理单元还可以进一步被配置为将每个所识别的统计变量分类作为连续变量和或离散变量之一。

公开主题的实施例可以进一步包括一个或多个以下特征。例如，用于生成统计分析输出的系统可以进一步包括用于通过图形用户界面显示每个识别的统计变量的变量分布的显示器。系统中的处理单元进一步被配置为自动重新计算所操纵的统计变量的分布。用户可选的用于操纵变量的统计功能包括重新编码、分类、和标准化现有统计变量以及创建新的统计变量。处理单元可以进一步被配置为自动生成用于创建包括所操纵的统计变量的单独数据集的程序代码(诸如SAS程序代码和R程序代码)。处理单元还可以被配置为将分析输出保存在一个或多个输出文件中。处理单元可以被进一步配置为使用一个或多个输出文件来修改统计分析或作出额外的统计分析。处理单元还可以被配置为将包含不同统计分析实例的输出文件结合成新的输出文件。

附图说明

图1A是根据公开主题的一个实施例的显示了分析统计数据集过程的框图。

图1B是根据公开主题的一个实施例的显示了分析统计数据集的替选过程的框图。

图2是根据公开主题的一个实施例的显示了用于生成包含在数据集中的变量的分布信息过程的框图。

图3是根据公开主题的一个实施例的显示了用于操纵包含在数据集中的变量，用于创建新变量，以及用于重新构建数据的过程的框图。

图4是根据公开主题的一个实施例的显示了用于生成数据分析输出表格和图表的过程的框图。

图5是根据公开主题的一个实施例的显示了用于自动生成数据分析输出表格和图表的过程的框图。

具体实施方式

图1A是根据公开主题的一个实施例的显示了分析统计数据集的过程100A的框图。参照图1A，输入数据集在102处被接收。在104处，为数据集中的每个变量编码并执行单独的程序以获得变量的分布。

在一些实施例中，SAS或R程序被自动编码和执行以提供变量的分布。为了获得诸如主题的年龄(AGE)的连续变量的分布，例如，在被称为“The_Dataset”的示例性数据集中，以下显示的示例性SAS程序可以被编码：

PROCUNIVARIATEdata＝The_Dataset；

varAGE；

RUN；

为了获得诸如主题的性别(GENDER)的离散变量的分布，另一方面，不同的程序可以被编码，如以下显示的：

PROCFREQdata＝The_Dataset；

tableGENDER；

RUN；

对包含在数据集中的每个变量，程序都被自动编码和执行，因而，用户不需要提供程序或具有编程的专门技术。在一些实施例中，诸如R、COBOL、C、C++、VisualBasic和Java，VBScript和JavaScript的其他编程或脚本语言被用来自动编码程序来提供变量分布。

一旦获得数据集中所有变量的分布，则单独的程序被自动编码来组织分布信息以创建数据分布文件来储存该分布信息。在一些实施例中，数据分布文件使用“.dst”扩展名并在组织分布信息中保持非常特殊的格式。在这些实施例中使用的数据分布文件可以仅仅由体现公开主题的方法和系统打开。在其他实施例中，数据分布文件被保存为可以被诸如电子数据表应用的其他数据分析应用所识别的格式。包含在数据集中的变量被自动检测并且每个变量被分类为连续的或者离散的。随后，每个变量的分布信息被获得并被保存在数据分布文件中。

在106处，在数据集中发现的变量的直观视图和每个变量的分布被显示给用户。这帮助用户快速熟悉数据。例如，用户可以确定数据集包括哪些变量和每个变量如何被编码，决定哪些变量应当被使用，和它们应当被如何使用。

在108处，用户可以选择菜单选项来操纵在数据集中发现的变量，创建新变量和重新构造数据集中的数据。例如，使得用户能够重新编码(对于离散变量)或分类(对于连续变量)，并将变量标准化。还使得用户能够创建一个或多个新变量。例如，菜单被提供给用户以从多种功能中选择特定功能，诸如重新编码、分类、标准化(对于现有变量)和创建(对于新变量)。在一些实施例中，所操纵的变量的分布在操纵完成时被自动重新计算。在一些实施例中，新变量的分布也在变量被创建之后被自动计算。在一些实施例中，还使得用户能够对变量进行标记。

在一些实施例中，还使得用户能够将变量转置(transpose)为观察(例如记录)或将观察转置为变量，例如以在多个观察或活动窗口上计算统计。例如，在纵向研究中，其中追踪200个儿童来测量每个儿童在2岁、4岁、6岁和8岁时的身高，如表1A中所示，数据最初可以被组织成每个儿童具有一个记录(一行)，每个记录具有ht₂、ht₄、ht₆、和ht₈来分别表示他/她在2岁、4岁、6岁和8岁时的身高。数据转置功能使用户能够重新改造数据，例如，如表1B中所示的，使每行代表每个测量结果，从而虽然原始数据具有200行，但是新数据现包括800(200×4)行。

表1A

表1B

在一些实施例中，使得用户能够将一个数据集与另一个数据集合并或附加。例如，一旦用户从至少两个不同数据集中选择期望的变量，则程序代码被自动生成并被执行以提供一个相干(coherent)数据集。在一些实施例中，程序代码使用SAS编程语言被自动生成。在其他实施例中，程序代码使用R编程语言被自动生成，其是用于数据分析的开源统计程序。

一旦用户选择了功能，则用户被提示选择将被操纵的一个或多个变量或命名将要创建的新变量。然后，适于所选功能和一个或多个变量的一个或多个程序被自动编码和执行，或在110处被保存以用于随后的执行。例如，假设用户希望将数据集(例如，The_Dataset)中的连续变量(例如AGE)分类为三个相等的组，则每个组具有相同或相似数量的主题(例如，ageGroup)。根据一个实施例，示例性SAS程序可以被自动编码，如下所示：

PROCRANKdata＝The_Dataset；

group＝3；

RANKSageGroup；

RUN；

在112处，更新的数据内容和相应的分布信息被保存。在一些实施例中，更新的数据内容的显示和分布视图被提供给用户。

在114处，诸如数据分析表格组和/或图表菜单的分析输出格式菜单被提供。例如，允许用户选择分析模块(例如，人口说明模块)和用户希望包括在所选分析模块中的变量组(例如，AGE(年龄)、HEIGHT(身高)、BMI(身体体重指数)、SMOKE(吸烟)、EDUCATION(教育)、OCCUPATION(职业)等)。在116处，用户的输入被用来自动编码和执行用于生成数据分析表格/图表的程序。例如，为了获得在类别(例如，SEX(性别))中分类的连续变量(例如，AGE)的平均值和标准偏差，如以下所示，示例性SAS程序被自动编码和执行。

PROCMEANSdata＝The_Dataset；

var＝AGE；

classSEX；

RUN；

在用于生成数据分析表格/图表的程序被执行之后，单独的程序被自动编码来识别来自每个程序的输出以格式化该输出并将该输出重新组织为预先设定的表格/图表。在一些实施例中，数据分析表格/图表被保存到输出文件中。在一些实施例中，输出文件被以能够被用于显示和操纵文档的应用程序(诸如图形应用程序和文字处理应用程序)识别的格式保存。

在118处，以预先设定的表格/图表格式输出的显示被提供给用户。在120处，数据分析表格/图表菜单被再次呈现给用户。用户可以通过取消选择一些之前所选择的菜单选项或通过选择新菜单选项来修改之前的选择。在122处，菜单选项被修改的选择被接收并在116处作为输入被提供用于重新生成数据分析表格/图表。

图1B是显示了根据公开主题的一个实施例的分析统计数据集的替选过程100B的框图。与图1A比较，图1B显示了能够以替选次序执行分析数据集的过程。用户可以在任何时间(例如，在选择测试模块之前或之后)操纵数据集变量(过程B)。例如，如果用户在选择UNIVARIATE模块之后决定期望新的变量，则用户可以简单地创建和选择新变量。用户可以选择多个变量并使用所有所选的多个变量来执行分析，或使用相同测试模块对多个变量中的每个或所选数据集执行多个分析。用户还可以在选择所期望的变量、选项等之后，选择不同测试模块。用户还可以为所选变量、选项等的组选择多个测试模块，其中，哪个特定的测试模块被使用在其他测试模块之前或者之后都没有关系。例如，测试模块A可以在测试模块B之前到来，并且反之亦然：特定顺序对作为结果的输出没有影响。所有分析输出可以被保存以用于随后的使用，以便用户能在任何时间调用所保存的输出并做进一步分析和修改。

参照图1B，在124处，用户开始统计分析工具，诸如MacroStats。MacroStats是由X&YSolutions，Inc出品的统计分析软件，其体现了本发明的主题。MacroStats是针对试用其用户能够轻易获得数据分析(例如，选择期望的输入并获得相关统计分析输出而不需要担心编程细节)而设计的。共同使用的(例如，预先设定的)报告表格格式被分类为多个类别(例如，人口描述，单变量分析、分层分析、多次回归等)以向用户提供选项来在多个类别的每个中改变表格开销(outlay)(例如，改变行、列的顺序等)。MacroStats提供所有可用输入(例如，变量、选项等)、获取用户的选择，并自动编码和执行程序以创建期望的报告(例如，表格、图表等)而不要求进一步的用户干预。

一旦统计分析工具在124处开始，如果用户希望开始新的统计分析项目，则用户可以在126处选择数据集。在130处，用户可以查看与数据集相关的数据内容和相应的分布信息。在一些实施例中，内容和分布浏览也提供了数据分析选项菜单组。

在132处，用户能够为新数据分析项目选择分析模块窗口形式。在136处，用户能够选择一个或多个变量和能够导致自动编码和执行用于操纵所选变量的变量操纵功能。在140处，用户能够选择一个或多个变量、用于统计分析所选变量的分析模块和所期望的分析输出格式。在144处，程序可被自动编码并执行来实现所选变量的所选统计分析并将分析结果保存为所选输出格式。在一些实施例中，分析结果被保存到文件。

另一方面，如果用户希望用现有项目工作，则用户在128处选择之前保存的数据分布文件。在130处，用户可以浏览与所选数据分布文件相关的数据内容和相应的分布信息。在一些实施例中，内容和分布浏览可以提供数据分析选项菜单组。在134处，用户能从数据分布文件内容中选择一个或多个变量和能够导致自动编码并执行用于操纵所选变量的程序的变量操纵功能。在138处，用户能够为不同的或改进的数据分析项目选择分析模块窗口形式。在142处，用户能选择一个或多个变量，一个或多个用来统计分析所选变量的分析模块和所期望的分析输出格式。在146处，程序被自动编码和执行来实现所选变量的所选统计分析并将分析结果保存为所选输出格式。在一些实施例中，数据分布文件被更新来保存额外分析的结果。

表2显示了使用示例性流行病学数据集生成的数据分析表格。

学习人口特征

特征	男	女	P值
				N	366	358
平均值±SD
				年龄(岁)	38.0±14.7	37.8±13.1	0.807
身高(m)	1.6±0.1	1.5±0.1	0.000
				体重(kg)	56.6±7.1	50.6±6.8	0.000
身体体重指数(kg/m²)	21.0±2.0	21.5±2.5	0.003
				N(％)
吸烟			0.000
				否	105(28.8)	326(91.8)
是	260(71.2)	29(8.2)
				教育			0.000
低	69(18.9)	232(65.2)
				中	134(36.6)	87(24.4)
高	163(44.5)	37(10.4)

表2

在一些实施例中，统计数据集分析过程是作为应用程序完成的，包括基于网页的应用程序。例如，分析过程可以被实现为VisualBasic程序。在一些实施例中，分析过程是作为分布在网络上的多个过程来实现的，诸如局域网(LAN)，广域网(WAN)和互联网，并包括服务器进程和客户端进程，其中服务器进程被设计用来执行数据分析和计算，而客户端进程被设计用来向用户提供图形用户界面以接收用户输入并显示数据分析输出。在一些实施例中，应用程序使得用户能够将一个或多个分析输出(诸如输出表格和/或图表)例如公布在网页上以将它们与其他合作用户或普通公众共享。

图2是根据公开的主题的实施例的显示了用来生成包含在数据集中的变量的分布信息的过程的框图。在202处，数据集中的每个变量被检测并保存以备后用。在204处，计数每个变量的离散值以确定是否变量应当作为连续变量或离散变量被处理。例如，在一些实施例中，如果变量的离散值的总计超过20，则变量作为连续变量被处理。否则，变量作为离散变量或分类变量被处理。在206处，每个变量的分布被计算。在一些实施例中，一个或多个SAS程序被自动编码和执行以用来计算变量分布。在其他实施例中，一个或多个R程序被自动编码和执行以计算变量分布。在208处，变量分布被储存在数据分布文件(例如“.dst”文件)中。在210处，变量分布被读取到存储器中以显示或提供变量列表和变量分布。在一些实施例中，VisualBasic的列表视图被用来显示变量列表和变量分布。

图3是显示了根据公开主题的实施例的用于对包含在数据集中的现有变量进行操纵(例如，记录、分类、标准化、标记、转置等)或用于创建新变量和用于通过将一个数据集合并或附加到一个或多个其他数据集而重新构造数据的过程的框图。例如，在302处，用户被提示选择一个或多个变量或数据集和预先设定的功能以用于操纵所选变量，重新构造所选数据集，或在多个观察或活动窗口上计算统计。在306处，所选变量或在所选数据集中的变量的编码和/或分布被检查。在308处，能够实现对于所选变量或数据集的所选操纵功能的一个或多个程序代码被自动生成。在一些实施例中，用户输入也可以在308处被进行错误检查，以及，如果存在错误，则提供一个或多个适当的错误消息。在一些实施例中，在304处，用户对预先设定功能的选择导致了与功能相关的形式窗口弹出以向用户显示可选变量，和/或在306处，向用户显示适合于被选择功能的选项。

在310处，更新的变量信息被提供在用户界面上。例如，如果一个或多个新变量被增加，则变量列表视图和相应的分布信息被更新。同样，数据集重新构造的过程，诸如合并、附加、转置或错误检查也被总结并且相关信息(例如，记录/变量的数目、新变量等)被报告。在312处，更新的变量信息被保存在一个或多个输出文件中用于以后查看或修订。

图4是根据公开的主题的实施例的显示了用于生成数据分析输出表格和图表的过程的框图。在402处，用户被提示选择分析模块，诸如UNIVARIATE分析和STRATIFIED分析。在一些实施例中，用户可以替代地选择自动分析器模块。在404处显示了与所选分析模块相关的窗口形式。在一些实施例中，用户对分析模块的选择导致了与分析模块相关的形式窗口弹出以向用户显示可选的变量、输出表格/图表格式的选项和其他适于运行所选分析的选项。在一些实施例中，诸如结果变量、暴露变量和协变量的变量可以被预先选择。在406处，用户能够选择将要被测试的变量组以及用于创建输出表格/图表的格式和其他选项。在408处，用户输入被进行错误检查，并且，如果存在错误，则向用户显示一个或多个错误消息。

能够生成输出表格/图表的一个或多个程序分别在410处和412处被自动生成和执行。在一些实施例中，一个或多个输出文件包括在412处被创建和保存以备后用的程序输出。在414处，来自每个程序的输出被组合并且必要的统计信息被提取和重新组织以保存到一个或多个文件(例如HTML文件或图表文件)中。在416处，文件被保存在项目输出文件列表中为以后查看或修订。

图5是根据公开主题的实施例的显示了用于自动生成数据分析输出表格和图表的过程的框图。在过程C(在图1A-B中显示)中，用户被允许从包括通常被使用的报告表格格式和图表的多个报告表格格式和图表中进行选择。然而，在程序D(图1A-B中显示)中，用户也被提供选项来选择自动分析模块，诸如MacroStats的“自动分析器模块(Auto-AnalyzerModule)”。一旦用户在502处选择了自动分析模块，则用户在504处进一步被提示选择结果、一个或多个暴露变量、协变量、分层变量和其他通用的选项，诸如输出十进制和是否采用广义估计方程(generalizedestimatingequation，GEE)。在接收用户输入之后，自动分析器模块在506处自动应用数据分析的基本原理测试所选假设(即，确定所选一个或多个暴露变量是否与一个或多个所选结果关联、该一个或多个关联如何被其他协变量影响，以及这种关联在所选的分层变量之间如何不同)。在508处，输出表格/图表被设计，能执行适当分析的程序被自动编程和执行，并且结果输出表格/图表被显示。在一些实施例中，用户被允许为结果、暴露变量、协变量和分层变量选择不同的变量，或者为相同变量选择不同选项。在510处，用户的输入被保存以备后用，以便当用户以后选择测试模块时，具有保存的输入的输入窗口形式可以被显示。

本发明的用于生成统计研究信息的系统和方法不被限制于其对过程细节的应用和在说明书中所阐述的或在附图中所示出的组件布置。本发明能够具有其他的实施例并且以多种方法被实践和被实现。同样，应当理解的是，本文中所采用的措辞和术语是为了说明的目的而不应当被认为是限制。此外，本领域所公知的某些特征没有被详细描述以便避免复杂化本发明的主题。

因此，本领域技术人员将会意识到本公开所基于的构思可以容易地被用作用于实现本发明多种目的的其他方法和系统的设计基础。因此，重要的是，本发明被认为包括目前为止与本文中所描述的那些相等同的过程而只要他们不背离本发明的精神和范围。

例如，所描述过程的特定次序可以被改变以使得某些过程被与其他过程并行的或独立的执行以达到过程不彼此相关的程度。因此，本文中所描述的步骤和/或功能的特定顺序不被认为暗示执行过程的步骤的特定顺序。对以上过程的其他改变或改进也是可以预期的。

此外，作为一个实施例的一部分所示出或描述的特征可以被用在其他实施例中以产生更进一步的实施例。此外，某些特征可以与还没有提到的仍执行相同或相似功能的相似装置或特征互换。因此，意图在于这种改进和变化被包括在本发明的总体中。

尽管本发明已经在前述示例性实施例中被描述和示出，但是应当理解的是，本公开仅仅通过举例的方法做出，并且可以对本发明的实现做出许多细节的改变而不背离本发明的精神和范围。

Claims

1.一种用于生成统计分析输出的系统，其中，所述系统从用户接收并处理一组输入来执行统计分析并基于分析的结果生成输出，其中用户输入包括从包含在数据集中的多个统计变量中选择用来分析的至少一个统计变量，一个或多个适于特定分析的统计模块和一个或多个输出格式，并且其中所述统计分析基于所选统计模块而被执行，该系统包括：

处理单元，其被配置为：

自动识别所述数据集中的多个统计变量的每个；

对每个识别的统计变量，自动生成用于获得变量分布的程序代码；

从所识别的数据集中的变量中选择至少一个统计变量以用于基于所述变量分布的统计分析；

如果用户输入包括对用于操纵所述变量的一个或多个统计功能的选择，则选择至少一个统计变量的一个或多个并自动生成实现用于操纵所述一个或多个所选变量的统计功能的程序代码；

基于所述一个或多个统计模块通过执行与所述模块相关的程序代码而自动执行统计分析；以及

自动生成用于将所述统计分析的结果组织成用户所选的输出格式的程序代码。

2.根据权利要求1所述的系统，进一步包括耦合至所述处理单元的用于储存所述数据集的存储器单元。

3.根据权利要求2所述的系统，其中所述存储器单元也储存用户输入。

4.根据权利要求1所述的系统，进一步包括通信单元，所述通信单元被配置为通过通信网络从用户装置接收用户输入并将分析输出传送给所述用户装置。

5.根据权利要求4所述的系统，其中所述通信网络包括互联网。

6.根据权利要求1所述的系统，进一步包括用于储存所述分析输出的储存单元。

7.根据权利要求1所述的系统，其中所述处理单元进一步被配置为创建用于储存所识别的统计变量的变量分布的数据分布文件。

8.根据权利要求7所述的系统，其中创建数据分布文件包括自动生成用于生成所述数据分布文件的程序代码。

9.根据权利要求7所述的系统，其中所述数据分布文件保持特定格式以用于组织变量分布。

10.根据权利要求7所述的系统，其中所述数据分布文件保持电子数据表格文件格式、文本文件格式和图表文件格式中的至少一个。

11.根据权利要求1所述的系统，其中所述处理单元进一步被配置为将每个所识别的统计变量分类为连续变量和离散变量之一。

12.根据权利要求1所述的系统，其中所述处理单元进一步被配置为自动重新计算所操纵的统计变量的分布。

13.根据权利要求1所述的系统，其中所述统计功能包括重新编码、分类、和标准化现有统计变量并创建新的统计变量。

14.根据权利要求13所述的系统，其中所述处理单元进一步被配置为自动生成用于创建包括所操纵的统计变量的单独数据集的程序代码。

15.根据权利要求1所述的系统，其中所述程序代码包括SAS程序代码和R程序代码。

16.根据权利要求1所述的系统，其中所述处理单元进一步被配置为将所述分析输出保存在一个或多个输出文件中。

17.根据权利要求1所述的系统，其中所述处理单元进一步被配置为如果用户输入包括指示用户希望公布输出的参数则公布所述统计分析输出。

18.根据权利要求17所述的系统，其中所述统计分析输出被公布在网站上。

19.在从用户接收并处理一组输入来执行统计分析并基于分析的结果生成输出的系统中的一种用于生成统计分析输出的设备，其中所述用户输入包括从包含在数据集中的多个统计变量中选择用来分析的至少一个统计变量，一个或多个适于特定分析的统计模块和一个或多个输出格式，并且其中所述统计分析基于所选统计模块而被执行，所述设备包括：

用于接收一组输入的装置，所述输入包括从包含在数据集中的多个统计变量中选择用来分析的至少一个统计变量，一个或多个适于特定分析的统计模块和一个或多个输出格式；

用于自动识别所述数据集中的多个统计变量的每个的装置；

用于对每个识别的统计变量自动生成用于获得变量分布的程序代码的装置；

用于从所识别的数据集中的变量中选择至少一个统计变量以用于基于所述变量分布的统计分析的装置；

用于如果用户输入包括对用于操纵变量的一个或多个统计功能的选择，则选择至少一个统计变量的一个或多个并自动生成实现用于操纵一个或多个所选变量的所选统计功能的程序代码的装置；

用于基于所述一个或多个统计模块通过执行与所述模块相关的程序代码而自动执行统计分析的装置；以及

用于自动生成用于将所述统计分析的结果组织成用户所选的输出格式的程序代码的装置。

20.在从用户接收并处理一组输入来执行统计分析并基于分析的结果生成输出的系统中的一种用于生成统计分析输出的方法，其中所述用户输入包括从包含在数据集中的多个统计变量中选择用来分析的至少一个统计变量，一个或多个适于特定分析的统计模块和一个或多个输出格式，并且其中所述统计分析基于所选统计模块而被执行，所述方法包括：

自动识别所述数据集中的多个统计变量的每个；

如果所述用户输入包括对用于操纵变量的一个或多个统计功能的选择，则选择至少一个统计变量的一个或多个并自动生成实现用于操纵一个或多个变量的所选统计功能的程序代码；