CN101292222A - 用于复杂分层数据的改进的处理和分析的方法和设备 - Google Patents
用于复杂分层数据的改进的处理和分析的方法和设备 Download PDFInfo
- Publication number
- CN101292222A CN101292222A CNA2006800386299A CN200680038629A CN101292222A CN 101292222 A CN101292222 A CN 101292222A CN A2006800386299 A CNA2006800386299 A CN A2006800386299A CN 200680038629 A CN200680038629 A CN 200680038629A CN 101292222 A CN101292222 A CN 101292222A
- Authority
- CN
- China
- Prior art keywords
- data
- layer
- code
- variable
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/282—Hierarchical databases, e.g. IMS, LDAP data stores or Lotus Notes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据分析领域。在一种形式上,本发明涉及分析数据库中的数据分析。优选的是,本发明涉及复杂编码数据、特别是分层数据的分析。公开了本发明的多个方面,包括但是不限于分层数据的存储、分层数据的GUI表示、分层数据卷积和解卷积、复杂数据的交叉制表,包括分段方法、偏移方法、一层方法和分段匹配方法以及用于构造分层变量的网格结构生成器。
Description
技术领域
本发明涉及数据分析领域。
在一种形式上,本发明涉及分析数据库中的数据的分析。优选地,本发明涉及在调查响应中经常发现的复杂编码数据、特别是分层数据的分析,
在下文中针对分层数据来描述本发明将是方便的,但是,应当明白,本发明不仅仅局限于此。
背景技术
整个说明书中的讨论源自发明人的认识和/或某些现有技术问题的发现。
发明人认识到,例如代表更真实的生活情景的数据会相对复杂。现有技术在分析更复杂的数据中存在困难。存在多种技术用于把数值代码分配到预定的类别,从而使得制表的处理可以减化为计数代码的数量。而且,在使用制表来作为分析工具当中使用过滤(filtering)和加权(weighting)。简单的数据比较好处理,但是处理复杂数据,如多响应、增量式和/或特别是分层数据,则相当困难。
发明人已经认识到这种困难的一个原因是数据本身的性质。虽然已经使用了各种技术,但是它们不能解决数据的复杂性方面的基本问题。
例如,将参照简单数据、多响应、增量式、分层来讨论数据复杂性。
简单(simple)
对于诸如性别和地区之类的数据,其中各类别是互斥的,对于交叉制表的处理要求相对简单。只要求对结合给定情况对每种性别代码(诸如1=女,2=男)和每个地区代码(诸如1=NE,2=NW,3=SE,4=SW)出现次数的计数。
多响应(Multi-response)
但是,有关天气事件的数据可以被编码为:
c1=雨
c2=冰雹
c3=雪
c4=风
c5=高温
某个城市可能没有这些情况,或者没有全部这些情况,因此一个城市的记录可能是空白的,而对于另一个城市,关于上述的代码,其可能是1;2;3;4。而在一天中有几次冰雹的另一个城市关于上述代码可能记录2;2;4;2。
交叉制表多响应数据要求在所有的可能的成对组合上迭代。
增量式(incremented)
每个事件可能具有增量,或者具有与其相关联的值,诸如雨量、风速。可以使用上述的表1,记录成1*30;4*55,以表示30mm的降雨和55kph的风。当制表时,该代码的该实例的特定增量被加到总数上,而不是默认的增加1。
分层(hierarchic)
复杂数据集可能通常具有自然的层次。存在许多示例:
●医生/病人/处方
●部门/计算机/安装的软件
●药物现场试验,实验室/试验编号/测试类型/结果
●品牌属性评级的市场研究
●等等
这类数据众所周知地难于分析。很显然,相对于上述的示例,研究者可能要回答的问题种类如下:
●每个医生开出多少处方?作为病人数量的百分比?多少病人有不只一个医生?在所有开出的处方中,多少比例是止痛剂、抗生素?
●在计算机的数量和所安装的应用软件的数量之间的比率是多少?那些部门具有最多的电子数据表格?多少应用软件被安装在给定的OS上等。
●哪些实验室一贯地通过特定的测试。哪些不?哪些测试最常被通过?一个试验的结果与其他试验实质不同或者非常不同?
●对于给定的品牌产品集和属性集,每个品牌的评级如何?是对品牌的子集?所有品牌中,一个属性比其他属性更通用/更不通用?
分层数据包含在几个层上的信息。记录在许多城市的天气事件的程度,涉及例如三个编码层。除了事件代码之外,城市可以被编码为1、2、3等,并且天气的程度可以被编码为1、2、3等。这个数据经常被显示为如在图1中图示的树或者一组树。
可以推断,对于20个城市、5个事件和10种程度尺度,每天可能要记录1000个不同的数据项。而且,在分层结构每个层的数据本身可以是多响应的、增量式的和/或简单的未编码的量。要允许同一类型的多个事件,通常涉及可能性的大大增加——2000、3000、5000,在允许足够多的事件和不浪费数据存储的太多的空间之间产生压力(tension)。
对于一种情况的分层数据,本质上是任何深度和复杂性的N节点树。很少有系统被认为能够经济地存储树。RDB(关系数据库)可以使用几个链接表,而卡图(card image)和其他平面形式必须对每个可能的分支组合提供空间,即使可能很少被使用。
另一个困难是:虽然通常被称为“树”,但是实际需要的是“森林”——树的集合。对于调查数据,根节点经常是概念性的,包括变量本身。在市场研究中的一个常用示例是品牌/属性/评级。例如:
问题12a:请在1-10的尺度上对每个品牌的每个下面的陈述评分,其中,“1”表示“不同意”,“10”表示“很同意”。
TimTams | Monte Carlo | Salada | |
是健康产品 | |||
物有所值 | |||
具有极好的名声 | |||
在许多零售店可以买到 |
表1
对于单个被调查者,表格可能填写为:
TimTams | Monte Carlo | Salada | |
是健康产品 | 2 | 1 | 4 |
物有所值 | 4 | 7 | 10 |
具有极好的名声 | 9 | 6 | 8 |
在许多零售店可以买到 | 10 | 8 | 7 |
表2
在图2中图示了树表示,包括概念性的根。存在许多用于读取这样树的构造精巧的算法,但是对于交叉制表,没有人认为完全满意。交叉制表(cross tabulation)
由发明人发现的问题是处理如上所述的、特别是跨越整个分层的交叉指标算法被认为相对地慢、笨拙、效率低和通常不适当。对于交叉制表,遍历速度是重要的因素。不论是在盘上或者在RAM中,使用每个节点到子节点的地址指针的现有技术方法可能是CPU密集型的,并且使得为了诊断和验证目的的而在整个树人工追踪数据链变得麻烦和困难。
特别是,如果对于所有可能,关系数据库(RDBM)很难计算可能百分比的完全集。根据调查处理惯例得出的系统一般在处理分层数据上在一定程度上略好,但是当与复杂数据相结合使用时仍然被认为引起严重的性能变差。
在现有技术中,通常通过三种方法之一来解决用于通过交叉制表来分析的分层数据的准备:
1.将所述数据划分为许多平行变量,其中,变量的总数等于在逻辑分层的每个层的类别数量的乘积。用这种技术的问题是可能有成百甚至上千的变量,其通常是稀疏分布的,每个变量需要独立的交叉制表,并且在所有数据上的查询的规范说明要求以某种方式来引用每个变量,这会在实际上难于可靠地实现。
2.通过将所有可能的代码组合的每一个映射到新变量的唯一代码来平化(flatten)分层,其中,所需要的新的代码的数量是在逻辑分层中的每个层的类别数量的乘积。这被认为仅仅是将问题从需要大量的变量转移到需要大量的代码,而在空间或者时间上的浪费上没有改进。
3.把分层的每个层存储为单个变量,以某种方式来界定,从而在交叉制表时代码可以适当地在整个分层上匹配。这被认为减少了空间和时间浪费,但是仍然需要不必要的重复(每个层必须复制其相邻层的结构),并且使得作为整体的逻辑部分的层不被链接。这要求用户方面的一些簿记工作,并且导致产生无效和无意义的并置(juxtaposition)。
发明人发现的另一个问题是在整个分层上的分析输出需要很长时间来处理,不论是按本身权利的交叉制表还是相对于另外可容易和快速获得的变量,这要求很多的人工检查,难于指定(在RDBM世界中需要许多SQL页面),并且经常难于解释。
分层数据的表示
向用户表示传统的变量通常是在树显示中进行的,所述树显示把所述变量示为文件夹,并且把它的代码作为该文件夹下的子女。分层数据呈现了由发明人发现的另一个问题:没有用来呈现它们的传统方式。解开通过数据树的所有可能路径可能导致组合爆炸。
分层数据卷积(convolution)和解卷积(devolution)
发明人还发现在带有传统数据的指定表格中,在规范说明中,代码与行和列之间存在直接的关系;每个头部代码(top code)在表格产生一列,并且每个侧部代码(side code)在表格中产生一行。分层变量呈现一个问题,因为它们最佳地表示为树结构用于说明,但是行或列的数量不与代码数量简单相关。具有三个层的变量,每层分别具有2、2和5个代码,这将产生2×2×5=20行或者列。在图3中图解了这一点。
所述情况因为可以过滤和加权表达式而进一步复杂化,这些表达式可呈现为任何变量的双亲的无限的链。另外,代码帧(codeframe)可以具有需要被保留的基本表达式和用于指示基于哪些代码的标记。这个信息也需要按照可以重构行/列嵌套和规范说明树的方式被存储在文件中来作为保存的表。
用于建立分层变量的网格构造生成器
发明人已经认识到分层变量的使用被认为是用于分析数据的良好方式,但是大多数数据集合系统不能提供它。通常,所述数据被‘原子化’。在10个程度上的5类天气事件的20个城市的记录上的数据可能达到20*5=100个不同的变量,每个变量具有1-10代码帧,或者在最坏的情况下具有1000个不同的二值变量。组织和表示这些变量利用现有技术的构造技术是可能的,但是被认为是耗时和困难的。
在本说明书中的文档、设备、动作或者知识的任何讨论都被包括以说明本发明的环境。任何这些材料构成了在本公开和权利要求书的优先权日期之时或之前在澳大利亚或其他地方的相关领域中的现有技术的部分或公知常识,不应被用来当作许可。
本发明的一个目的是缓和与现有技术相关联的至少一个缺点。
本发明的另一个目的是使得数据能够相对透明和/或相对容易提供到终端用户。
本发明的另一个目的是使得分层数据的直接交叉制表有可能、较快、相对直接和/或相对可靠。
发明内容
在本发明的一个方面,本发明提供了一种用于表示诸如来自调查响应的分层数据的数据格式和/或方法,所述分层数据包括标记串,所述串包括树深度的指示符(层)。
在本发明的第二方面,本发明提供了一种分析工具,适合于根据如在此公开那样格式化的数据来提供分析。
在本发明的第三方面,本发明提供了一种用于显示分层数据的GUI可表示的数据格式和/或方法,所述分层数据包括至少一个第一文件夹、至少一个第二文件夹,所述第二文件夹被提供在所述第一文件夹内,每个第二文件夹包括与该分层的对应层相关的一个或多个代码。
在本发明的第四方面,本发明提供了一种数据结构表示和/或方法,用于表示分层数据的结构,包括步骤:提供用于表示变量的第一文件夹;在所述第一文件夹内提供至少一个第二文件夹,每个第二文件夹表示一个层;并且在每个第二文件夹内提供用于该层的代码。
在本发明的第五方面,本发明提供了一种数据表示和/或方法,用于将以第一格式表示的数据转换为以第二格式表示的数据,包括步骤:在将第一格式转换为第二格式的处理中使用SRL。
在本发明的第六方面,本发明提供了以SRL表示的一种交叉表格规范说明。
在本发明的第七方面,本发明提供了一种模式,其适合于表示交叉表格规范说明,所述模式包括用于表示变量的第一标记和用于表示一个或多个代码的第二标记。
在本发明的第八方面,本发明提供了一种在此公开的规范说明表示语言。
在本发明的第九方面,本发明提供了一种处理数据的方法,所述方法包括步骤:提供用于表示分层的数据,所述分层具有至少两个层,每个层具有至少一个代码;并且,在作为单个单元(分段)的每个层上处理所述数据。
在本发明的第十方面,本发明提供了一种用于确定适用于具有复杂的数据结构的给定响应的表格中的行和列的方法,所述方法包括步骤:确定所述响应;确定所述变量的结构;并且,以算数方式处理所述结构,以确定用于所述响应的行或者列。
在本发明的第十一方面,本发明提供了一种用于处理响应的方法,所述方法包括步骤:确定所述层;并且,处理仅仅在该层中的一个或多个分段。
在本发明的第十二方面,本发明提供了一种通过提供数量上等同于在该层的分段树的分段而适应变量的方法。
在本发明的第十三方面,本发明提供了一种以网格配置布置变量的方法,所述方法包括步骤:选择所述变量;提供网格结构;并且,将所述变量置于所述网格中的期望位置。
其他方面和优选方面在说明书中被公开,并且/或者在所附的权利要求中被定义,所述权利要求形成本发明的申请文件的一部分。
实质上,本发明对于本发明的下述方面:
1.分层数据的存储
●提供了一种用于存储复杂数据的方式,所述方式在空间上高度有效,并且便利了快速处理。使用索引链接而将在其他方式下被存储在许多文件中的内容存储在单个文件中,每行一个情况。通过分号来分隔多响应。增量前具有星号。使用用于层的字母表来表示分层树结构。
2.分层数据的GUI表示
●提供了一种用于表示分层数据的方式,将使得直观地理解结构,同时避免可能的组合过多。分层结构别表示为树,具有层作为子女分支,各分支具有它们下面的代码,在其他方式下,需要通过链接的表格或者需要其他手段来推断,并需要一些努力来解释。
3.分层数据的卷积和解卷积
●提供了一种使用规范说明表示语言的方式,所述规范说明表示语言有效地在分层变量的直观GUI表示、在结果产生的表格上的行和列的组合过多和在文件中的这个信息的存储和检索之间调停。
4.复杂数据的交叉制表
a)分段方法
●提供了用于定义便利处理复杂数据的数据单位的方法。不是将单个代码看作这种单位,分段是在一个层点——实际上是数据树的一个节点——上的所有的响应,并且可以仅仅是单个代码,但是可以是许多代码,每个具有增量。从不同角度来看,这种处理数据的的方法代理速度和简单性方面的好处。例如,通过使用较大的数据单位,已经发现多响应和增量式数据的复杂性被分开,并且相对容易处理。
b)偏移方法
●提供了一种很快的算数方式,用于索引分层数据元素,所述数据元素仍然允许在任何层上的多响应,这比在整个表上追踪链接或者其他存储技术所需要的类似的手段快得多,并且也更可能,因为来自所有层的数据被存储在一个位置。
c)一层方法
●提供了一种方法,通过构造‘处理层’并且忽略在任何其他层上的数据来提高处理分层数据的有效性。
d)分段匹配方法
●提供一种用于准备来自不同变量的响应于以便利快速处理的方式。在处理期间,各变量可能有助于表格规范说明的头部(top)、侧部(side)、过滤(filter)和加权(weight)组件。用于处理特定情况的响应的较快的方式是如果所有的组件具有相同数量的分段。对这种情况安排这种准备,即使四个组件全部是分层的并且全部在不同的层上。这种方法使得能够扩展或者压缩在一个层上的分段,使得大致匹配在另一个层上的分段的数量。这样,在每个层上的大致相同长度的阵列,并且数据通过平行索引而不是树导航来相关。有效地,其通过引用在实际响应串中隐含的树结构而把在一个层上的过滤和/或加权结果转换为在另一个层上的等同结果。
5.用于构造分层变量的网格构造生成器
●提供一种用于组合逻辑上形成结构化分层变量的简单变量的组合爆炸。具体上是一种用于根据大量的简单变量构造单个分层变量的直观可视的方式。
已经发现本发明导致多个优点,诸如:
●使得能够以高度计算有效的方式在大多数——如果不是任何——过滤和/或加权条件下制表或者交叉制表数据类型的任何混合;
●产生被认为在功能上完整的交叉制表,功能上的完整在于可以通过任何其他变量容易地获得相对于一个、一些或者全部的分层的各层的任何组合的所有逻辑输出,而不论是在分层本身内,或者在完整分层或者其各层的任何一个的交叉制表内;
●可以“在进行中解除循环”,表示可以将许多、甚至成千上万的表格减少为1;
●可以按减少的数量、甚至一个来存储经常在许多、甚至成千上万的变量中存储的分层数据;
●规范说明(包括过滤、加权和基础化条件)可扩展;
●提高处理速度;
●在给出在此公开的各种发明方法的情况下,合理产生全部分层表格,这在以往这太麻烦,并且快速地处理表格;
●存储和规范说明的经济性被改善;
●所述数据相对简单来处理和解释;
●通过使用本发明,利用需要的更少的知识来实现更大的生产率;
●需要更少的计算资源来使用本发明,同时仍然使得能够处理相对复杂的数据;并且
●可以根据多个组件变量安全和容易地汇集分层变量。
通过下面给出的详细说明,本发明的其他适用范围将变得显然。但是,应当明白,在指示优选实施例的同时,仅仅通过图解而给出了详细说明和具体示例,因为从这个详细说明,在本发明的精神和范围内的各种改变和修改对于本领域内的技术人员将变得明显。
附图说明
通过结合附图参见下面的优选实施例的说明,本发明的其他公开、目的、优点和方面将被本领域内的技术人员更好地理解,所述优选实施例仅仅作为示例而给出,因此不是本发明的限定,其中:
图1示出了数据表示;
图2示出了市场研究调查响应的树表示;
图3图解了数据树;
图4图解了按照本发明的一个方面的分层树表示;
图5、6和7图解了按照本发明的一个方面的如何使用SRL;
图8a图解了按照本发明的一个方面的卷积的处理;
图8b图解了按照本发明的一个方面的解卷积的处理;
图9图解了按照本发明的一个方面的偏移方法;
图10a和10b图解了按照本发明的一个方面的一层方法;
图11a、11b和11c图解了按照本发明的一个方面的分段匹配;
图12a和12b图解了按照本发明的一个方面的在不同层上的过滤;
图13图解了按照本发明的一个方面的网格结构的示例;
图14-19图解了与作为一个变量的每行或者每列相关联的网格结构;以及
图20-23图解了与作为一个变量的每个单元相关联的网格结构。
具体实施方式
广义而言,存在所公开的本发明的多个方面,其至少一些是:
1.分层数据的存储;
2.分层数据的GUI表示;
3.分层数据卷积和解卷积;
4.复杂数据的交叉制表
a)分段方法;
b)偏移方法;
c)一层方法;
d)分段匹配方法。
5.用于建立分层变量的网格结构生成器
1.分层数据的存储
在图1中示出的数据树具有三个单独的树,在天气数据库中的每日一个树。图2示出了类似的带有作为单个问题各分支的三个树(每个品牌一个树)的调查数据。按照本发明的这个方面,一般,使用树深度指示符在串中存储N节点树的森林。使用字母表是方便的,但是,可以使用任何标记和/或格式。如果需要超过26个层,则可以利用大小写敏感性(case sensitivity)来允许52个层。如果需要超过52个层,则可以使用宽串(16位字符)。如果需要不受限的层,则可以通过诸如{1}...{2}...{3}...{4}...等的一些体系来表示深度。
因此,在图1中示出的信息可以被存储为单个串,即:
a1b1c2b2c4b3c9b4c10a2b1c1b2c7b3c6b4c8a3b1c4b2c10b3c8b4c7
串1
其中
‘a’表示产品(TimTams、Monte Carlo、Salada),
‘b’表示健康、价值、名声、可得性之一,并且
‘c’表示值(响应回答)。
可以以粗体来示出评级数据的项目(如上所示)。在顶级的三个品牌可以被示为a1...a2...a3。在每个品牌内,在第二层的四个陈述被表示为a1b1...b2...b3...b4...a2......。在每个陈述中,在第三层的实际评级被表示为
a1b1c2b2c4b3c9b4c10a2b1c1...等 串2
数据的这种表示使得可利用单个的遍(pass)中从左向右遍历整个树。
来自图1的天气数据可以被记录或者存储为:
a1b2c3b4c5a2b4c4b3c3a3b1c1 串3
其中,字母表示层(a、b、c...),并且,数字是在每个节点的数据。
通过使用分号定界符(或者任何其他标记)可容易地提供多响应数据,例如:
a1b2c3;5 串4
示出了城市1具有程度为3和5的两个事件2s。
通过使用在前的星号(或者任何其他的标记)而容易地提供增量式或者数值数据,即:
a1b2c3*55;5*73... 串5
因此,串5示出了城市1具有天气事件2,其具有细节3和5,带有相关联的测量值55和73,诸如具有55mm降雨(其中降雨是在层c的代码3)和73kph的风(其中风是在层c的代码5)的暴风雨(在层b的代码2)。
2.分层数据的表示
如上述,在表示树中存在问题,诸如在图3中所示的树(但是仅仅用于说明的目的)。
按照本发明的这个方面,我们给出
●树,其根文件夹表示变量
●子文件夹,按顺序表示层
●子文件夹的内容,是在该层的代码
图5图解了这一点,其中,分层变量被示为文件夹,其具有用于每个层的同层子文件夹,三个子文件夹的每个具有作为子女的它们本身的代码。这反映了分层数据的树模型,隐含每个层可以被当作独立的正常变量,并且有助于理解数据的结构。
图4的GUI表示被认为充分地描述了图3的树。而且图4的表示给出了为了规范的目的而访问全部变量(根)、三个层的每个(.Brand(品牌)、.Attribute(属性)、.Rating(评级))和2*2*5=20个可能路径的每个。这种表示的优点是,如果各由10个代码构成的层产生1,000个可能路径,则仅仅需要显示30个叶节点以用于用户选择的目的。按照本发明的这个方面的表示具有0冗余。例如,在图3中,属性1需要在图中出现两次——这被认为是冗余的。在底层r1出现四次。对于更深的树和更多的分支,冗余变得更差。
按照这个方面的表示可以被称为“交叉表规范”。
3.分层数据卷积和解卷积
进一步,可以以规范表示语言(SRL)的形式来表示交叉表规范。SRL可以用于在变量/层/代码的‘交叉表规范’样式显示与行/列的‘表格’样式显示之间关联数据。
图5图解了按照本发明的一个方面的如何使用SRL。交叉表格规范51可以经由“卷积”的处理而被表示为表格,并且表格52可以通过被称为“解卷积”的处理被表示为交叉表格规范51。通过SRL 53而能够使用卷积和解卷积,所述SRL 52被作为例如文件存储或者存储在存储器中。
图6提供了这个方面的另一个例示。具有分别具有2、2和5个代码的三个层的变量(例如如在图4/5中所示)将经由卷积而产生具有2×2×5=20个行或者列的表格。为了重新指定所述表格,需要分解二十行,并且重组树结构。这被称为“解卷积”。
图7图解了SRL。所述SRL被提供为每个行/列的完全分支的文本表示,并且所述文本表示可以用于使用“递归解卷积”算法来重组树。图7在左侧图解了被示出为树的规范说明,所述树具有过滤、加权、变量、代码、基础和陈述——一些具有百分比(其中具有%的圆圈),一些没有(其他圆圈)。
SRL是文本串,实质上以也保留来自表规范的树表示的分支信息的方式来描述在表格中的行/列向量。
行的一般形式是:
{xxx}[yyy]...var[base](%code) 串6
其中,
-xxx和yyy是分别在变量之前的修改前缀中的一个过滤和加权
-var是变量或其代码正在被制表的代码帧
-base是指示如何将数量百分比化的表达式
-code是在这个行/列中所示的代码数量或者其他参考,其中%符号的存在表示这个行/列可被百分比化。
一些示例行:
[WeightRegion25()]Occupation[cwf](cwf)
[WeightRegion25()]Occupation[cwf](%1)
[WeightRegion25()]{Location(2)}GenMar(%1:1)
[WeightRegion25()]{Location(2)}GenMar(1:avg)
可以通过读取在规范树中的向下到任何页节点的分支路径来人为地组配所述行。过滤被写入{}括号,加权被写入[]括号。这些是规范说明的早期节点,并且表示在遇到变量/代码信息之前的修改前缀。
例如,前缀{Gender(1)}[WeightRegion25()]表示在树的根的这个路径中的第一节点是过滤Gender(1),并且其下层是加权节点WeightRegion25()。可以按任何顺序存在任何数量的这些节点。
行的唯一无括号的元素是紧随修改前缀的变量参考。这可以是简单变量,并且在此被称为代码帧(codeframe)以与分层的变量区别,或者它可以是分层变量。
简单变量的代码一般是代码数量,但是也可以是两打寄存(twodozen mnemonics)的任何一个,诸如用于总数的“tot”、用于平均的“avg”和用于情况加权过滤的基础计数(cases-weighted-filtered basecount)的“cwf”。
分层变量的代码是相同的元素(代码数量或者寄存),但是现在对变量的每层有一个,通过冒号分隔。
在图7中,在右上是SRL,在此被示为这个树的卷积形式的文本表示,就像它被存储在文件中那样。引导过滤在{}中,引导加权在[]中。基础表达式在紧跟在变量名称的[]中。使用冒号隔离句法来表示分层代码。用于指示要基础化的代码的标志是%,其作为在代码括号中的第一符号。所有的行以[WeightRegion25()]开始,用于表示对于所有的其他为双亲的加权节点。最后6行以{Location(2)}继续,用于表示对于所有的GenMax节点为双亲的过滤节点。前6行以Occupation[cwf]继续,用于表示使用cwf为基础的代码帧(在这种情况下为简单变量)。虽然已经在本SRL中使用了特定的标记和/或格式,但是其仅仅是举例使用,并且SRL可以在不脱离本发明的这个方面的情况下使用任何标记和/或格式。
因此,在图7中图解的示例中,
[WeightRegion25()]Occupation[cwf](cwf)=未被百分比化的绘图cwf代码
[WeightRegion25()]Occupation[cwf](%1)=被百分比化的绘图代码1
[WeightRegion25()]{Location(2)}GenMar(%1:1)示出了分层节点1:1,用于表示Gender(性别)(1)=男,Married(已婚)(1)=是
[WeightRegion25()]{Location(2)}GenMar(1:avg)示出了分层节点2:avg,用于表示女性平均。
从这个示例,可以看出SRL的每行表示表中的一行的描述,也是在诸如图3的树表示中从根到叶的它的路径的描述。而且,SRL行的集合可以被“解卷积”以产生像在图4中那样的数据树的规范说明版本。
SRL可以如在卷积和/或解卷积处理中所要求的那样被存储和使用。
在图7中,在右下,这个信息可以在屏幕上被看为卷积的树结构,其中,已经扩展了分层变量。
规范说明树也可以包括功能表达式。这些被使用引导@存储,并且可以被隔离或者在代码帧下。
{flt(1)}[weight()]@expression
{flt(1)}[weight()]var[base](@expression)
本发明的这个方面使能在表轴规范说明树向在图7中所示的表行/列向量的列表的转换。这个说明书的向量的关键部分是规范说明表示语言行,其大致完整地描述了所述行/列向量,并且用于保存到文件。所述卷积/解卷积方法被嵌入在树遍历和树产生算法中。
从规范说明树产生向量
前面的处理获得规范说明树,并且产生作为表格的行或者列的向量。通过SRL行来完整地描述这些的每个。
主要驱动函数GenerateVectors()是递归例程,在聚集节点的树的头部开始,直到它达到调用向量的产生的特定节点,然后返回到该节点的双亲。
沿着所述路线收集的节点是过滤(Filter)和加权(Weight)节点。这些是树的早期分支,并且在后面跟随向量产生节点。当达到向量产生节点时,过滤/加权节点的集合表示了在SRL行中的过滤/加权前缀。
产生向量的节点是:
函数——产生这个函数的单个向量
代码帧——产生代码帧的每个子节点的向量
变量——产生分层各层的卷积
这些的最后一个是另一个递归函数GenerateVariableVectors(),它向下遍历分层数据的树表示,乘出所有的可能组合。这实现了卷积算法。
从向量产生规范说明树
逆处理获取那些可能已经从文件加载或者从显示的表格提供的SRL行,并且重建规范说明树。
主要驱动函数ReadVectorBlock()是递归例程,它沿着来自所提供向量的SRL行的库行走来寻找公共前缀。具有公共前缀的任何连续的一组向量被识别为块,并且再一次调用该例程以在所述块内寻找随后的公共前缀继续部分。每个块当然表示在规范说明树中的早期节点。在块内的块识别是所述例程的基础工作,每个块产生在规范说明树上的一个中间节点。
在SRL行的尾部是代码和函数,这是树中的叶节点。函数和简单代码容易被处理,每个产生单个叶节点,但是被记录为例如(3:2:4)的分层变量节点被收集以通过另一个递归函数处理,所述另一个递归函数从所述多个扩展行产生分层数据的树表示。这实现了解卷积方法。
卷积方法
获取分层数据的树表示,并且对于多个可能性的每个产生一个向量。其从第一层开始查找特定的层,并且处理在其下面发现的代码行。这些可以是在这个层的全部或者一些可用代码,并且可以包括伪代码,其表示诸如总数和平均值或者基础的统计。参见图8a,其图解了按照本发明的一个方面的卷积方法的一个示例。在处理代码中,如果它未工作在最低层上,则再一次调用例程以在下面的下一个层开始。以这种方式,每个代码与在下面的下一个层的每个代码组合,它们被再一次与在下面的下一个层的每个代码组合无穷尽地组合,直到达到最低层。当处理在最低层的代码时,它对于每个代码产生一个向量,然后返回,使得所述循环可以对于在前一个层的下一个代码再一次开始。
每次处理代码时,其值被置于在由向量产生例程使用的阵列中的正确点中,以构造SRL行。其前缀已经被组配,并且最后的步骤是以(3:2:4)的形式写入当前在阵列中的代码以完成SRL。
解卷积算法
图8b图解了按照本发明的一个方面的解卷积方法的一个示例。所述解卷积方法获得一组SRL行,并且产生分层数据的树表示。所述行已经被处理以产生直到分层数据点的树,并且被提供到这个算法的行块全部以诸如(3:2:4)的代码参考结尾。
可以明白,所产生的树将具有用于变量的引导双亲节点,所述变量之下将有每个层的子节点。本发明确定哪些代码节点作为该层节点的子女被添加。
所述方法首先组配变量的框架,即双亲节点和子女层节点,然后依次构造每个层的代码。所述方法然后查看一组终结代码参考,仅仅看着特定层的代码。经常,在此将有重复,因此所述方法仅仅注意哪些代码出现,然后以它们首先被遇到的顺序对于其中的每个构造代码树。
4.复杂数据的交叉制表
a)分段方法
b)偏移方法
c)一层方法
d)分段匹配方法
交叉制表具有头部和侧部变量,并且也可以被过滤或者加权。例如,按照事件的城市的表格可以被过滤到特定的长度,按照消费量的年代的表格可以被过滤到特定年份,并且通过性别加权以保证被调查者的平衡。
在此的处理复杂数据带来了很多的问题:规范说明(头部、侧部、过滤、加权)的四个组件可以在来自分层变量的不同的层上,并且可以是多响应和/或增量式的。本发明包括几种合作方法,用于使得有可能处理在数据中的所有的这样的变化。
a)分段方法
其他的现有技术系统一般将一个代码响应当做基本数据。在本发明的这个方面的方法中,诸如a1;2b3;4c5;6的数据被当做被称为分段(segment)的三个数据项。第一分段是a1;2,第二是b3;4,第三是c5;6。所述分段也可以包括增量,因此c3*30;4*55也仅仅是一个分段。被组织为数据树以示出分层,非增量式数据是
城市:1;2
事件“3;4
程度:5;6
一个分段也可以被看作数据树的一个节点。
这个方法已经使得有可能实现有效的交叉制表和这种数据的其他处理,而与复杂性无关。
b)偏移方法
图9图解了按照本发明的一个方面的偏移方法。在交叉制表中的基本处理是确定在表格的哪个单元中存储当前情况的数据。在交叉变量中的响应可以是代码4(列索引3),并且在侧部变量中的响应可以是代码6(行索引5)。如果侧部响应为多重,诸如6;8;11,这涉及三行。这是对于简单数据而言,但是当然,对于分层数据,则更为复杂。
注意在INDEX(索引)上,在将事物列举为人的偏好(1,2,3,4...)和列举为计算机偏好(0,1,2,3,...)之间总是存在冲突。在一个优选实施例中,索引表示基于0的系统。第一行在阵列中位于索引0,第四行位于索引3。这是为什么在所述示例中代码a4在计算中转为3。所计算的偏移也是索引,因此偏移4表示第五行。
当涉及整体分层变量时,并且因为速度是最重要的,因此使得所述偏移方法更复杂,因为其管理两个计算流,它们都涉及树结构。
核心是从分层分支计算偏移本身。例如,可以将在第四主块的第五块中的第六行的响应a4b5c6的偏移以算术方式计算为(((3xNb)+4)xNc)+5,其中,Nb和Nc是在层b和c的代码的数量。
所述算法以迅速并且允许无限的层的方式来组配这些计算。主要手段是用两个步骤在前一层上构造括号的每个层:
将偏移乘以这个层的大小
在这个层上加上响应代码-1
从0开始,所述层被构造:
offset=0
offset=offset x Na+3
offset=offset x Nb+4
offset=offset x Nc+5
因为在任何层上允许多响应,因此单个响应可以产生许多偏移。为了速度,这些全部被并行构造,并且跟踪哪个偏移正在被处理表示第二计算流。在此使用术语“扇(fan)”和“块(block)”。
扇和块
在示例响应a1;2b3;4;5c6;7;8中,每个分段都是多响应的,因此该组将产生2x3x3个偏移。
18个偏移以特定的顺序被布置,产生在算法中使用的项目。第一偏移是用于a1、b3、c6等。
a b c
1 3 6
1 3 7
1 3 8
1 4 6---- ----
1 4 7扇 |
1 4 8--- |
1 5 6 |
1 5 7 |
1 5 8 块
2 3 6 |
2 3 7 |
2 3 8 |
2 4 6--------------
2 4 7
2 4 8
考虑在第二分段b4中的第二代码。当它出现时,它在三个偏移的“扇”中,并且其随后接着出现9个偏移的“块”。对每个层的扇和块数量是
扇 9 3 1
a1;2 b3;4;5 c6;7;8
块 18 9 3
这些数量是通过逐个地把在以1开始的每个层的代码的数量相乘而清楚地产生的。一个分段的刺激大小是下一个的块大小。
在所述算法中,这些数量被首先产生和存储在阵列中,以便于快速处理。
所述算法的其余部分是每个分段、每个代码、每个扇每个块的循环的嵌套。并行地渐进地构造所有的偏移。分段(层)和代码有助于使用“乘以层的大小、加上在这个层的代码索引”的第一计算流。扇和块数量有助于跟踪哪个偏移正在被更新的第二计算流。
c)一层方法
具有三个层城市、事件和程度的分层变量可以具有被存储为a4b2c4b3c5c6a1;2b3;4c8c5;6b7c9a3b2c1c5c7的响应。在处理此以产生交叉表当中,可以有头部或者侧部变量仅仅城市、仅仅事件、仅仅程度或者全部变量(向下到程度的所有的细节)。
在确定用于存储数据的偏移(行/列)中,可以考虑在串中的数据的每个分段,因为a4b2c4表示与a5b2c4不同的行。因为其他的操作方法,这通常不是必要的。
仅仅需要向偏移例程发送所需要的层的分段。可以忽略不在所需要的层的所有分段。
例如,当使用整体分层变量时,偏移例程仅仅需要叶节点,因为它产生回到根本身的分支,并且使用其来计算偏移。在图10a中图解了这一点。
所述响应a4b2c4b3c5c6a1;1b3;4c8c5;6b7c9a3b2c1c5c7到达被划分为17个分段的处理函数(一些多响应)a4 b2 c4 b3 c5 c6 a1;2 b3;4 c8c5;6 b7 c9 a3 b2 c1 c5 c7。
所述一层方法简单地扫描这些,向偏移例程仅仅发送在所需要的层的那些,图10b图解了这一点。
d)分段匹配方法
通过确定在表格的哪个单元格中存储当前情况的数据而进行交叉制表。这看起来对于简单数据是合乎逻辑的,但是对于可以具有许多分段的复杂数据,在规范说明的四个组件(头部、侧部、过滤、加权)中的分段之间的交互需要管理。
例如,对于在图1中所示的数据,如果表格是按照事件的城市,则城市具有三个分段a1...a2...a3,并且事件具有5个分段...b2...b4...b3...b1。事实上,如图1所示,a1节点匹配前两个b2...b4节点,但是最后的...a3节点仅仅配置单个最后的...b1节点——但是从独立的串,则根本不明显。
如图11a、11b和11c中所示,按照本发明的这个方面的是分段匹配方法是在下述情况的处理数据中的准备步骤:所述情况压缩和扩展分段,从而四个组件的每个使得数据都具有相同数量的分段。处理(其中,头部和侧部分段被发送到偏移例程以确定在哪些单元中存储数据)然后是通过在所涉及的所有四个组件中的分段而步进的事情。
匹配上述的‘a’和‘b’分段可能表示扩展所述多个‘a’,因此两个串具有5个分段:
a1 a1 a2 a2 a3
b2 b4 b4 b3 b1
这种准备是相对复杂的步骤,但是其消耗的时间与在随后的处理步骤中保存时间相比较还是较小。另外,其减轻了树的另一层导航的处理步骤,使得该例程不仅更快而且更容易设计。
简单数据仅仅具有一个分段,即使是多响应的或者增量式的,因为简单变量仅仅具有一个层。分层数据可以具有多个分段,因此当其出现在头部、侧部、过滤或者加权的任何一个中时,分段必须在所需要的层匹配以具有含义。
简单变量总是匹配任何项,按要求重复单个分段以满足多分段响应。
i)处理层
在准备中的第一步骤是确定所有四个组件(头部、侧部、过滤或者加权)将被排列到的单个层。
所述头部和侧部变量可以是简单的(层a)或者来自分层变量的单个层。如果全部变量被处理,则其被看作作为最深的层。处理层是头部和侧部层的最小值。例如,按照程度的城市在层a被处理,按照程度的事件在层b被处理,按照城市的事件在层a被处理。
排列头部和侧部组件仅仅涉及注意处理层分段在头部和侧部响应的何处开始。对于要具有含义的数据,必须在头部和侧部中存在相同数量的分段,分配过滤和加权组件涉及另外的考虑。
ii)在不同层的过滤
如果过滤层比处理层更深,则如果在过滤层的任何子节点通过所述测试,那么分段将通过过滤测试,例如,从在图12a中所示的数据,如果处理层是b(事件),则我们感兴趣于在时间层的分段将有助于该表格。如果表格具有过滤程度(3)以表示‘仅仅示出了程度3’的事件’,则仅仅具有作为子女的3的哪些事件将通过。
第一事件分段(2)具有程度为3的一个子节点,因此,其通过测试。第二事件分段(4)具有两个子节点,并且其中之一是3,因此它也通过测试。最后的事件分段(1)具有两个子节点,但是没有一个是3,因此它在测试失败,并且被称为“滤出”。
当过滤层比处理层更浅时,则成功的过滤节点的所有子节点将有贡献,并且失败的过滤节点的所有子节点将被‘滤出’,并且不出现在表格中。例如,从在图12b中所示的数据,如果处理层是c(程度),则我们感兴趣于程度分段的哪些将出现在表格中。如果表格具有过滤事件(4),则其表示“仅仅示出了类型4的事件的程度”。
第一时间分段(2)未能通过过滤,因此其单个子女程度3被忽略。第二事件分段(4)通过过滤器,因此其两个子女程度节点将有助于表格。
实现这一点的方法被示出为在图11a、11b和111c的流程图。到该算法的输入是处理层、过滤层、原始响应(对于上述的示例为a1b2c3b4c5c3a2b4c4b3c3a3b1c1c4)和在过滤层的过滤结果(例如对于第一示例的TFTFTFF)。输出是与处理层匹配的过滤结果(对于第一示例为TTFTF)。有效地,其通过参见在实际响应串中明显的树结构来将在一个层的过滤结果转换为在另一个层的等同结果。
所述方法通过考虑下述简单情况而开始:简单变量仅仅具有一个分段,因此复制它以匹配在处理层的分段;如果过滤和处理层是相同的,则它们已经匹配。这样它分支到用于更深和更浅的过滤器的更复杂的例程。
使用类似的方法来压缩/扩展在不同层的加权值。
5.用于建立分层变量的网格构造生成器
本发明的这个方面提供了一种将单独的变量组配为单个网格或者分层变量的可视方式。本发明的这个方面可以用于将在一定程度上重复的相对简单的数据转换为分层数据。
参见图13,通过将18个简单变量置于网格中而从它们构造被称为Stack的分层变量。通过将这些简单变量的一些置于在表格的头部的编辑字段中而将所述网格定大小并且标注。单击‘产生’产生了3x6x6组构造行,当运行时建立分层的stack变量。
1:1:1=Stack1(1)
1:1:2=Stack(2)
…
3:6:5=Stack18(5)
3:6:6=Stack18(6)
有益效果是节省时间和工作并且在可视手段中,使得任务直观。
构造脚本是相当常见的手段,每个行表示“在左测输出代码=每当数据满足在右部的过滤条件”。在通常的情况下,代码将仅仅是单个编号,在此,它们显然是分层的。
实际上,存在网格的两种优选的解释。下面给出被采取来获得每个解释的动作,并且使用视图来使得手段的可视的、直观的特征清楚。一旦解释的含义清楚,则所述产生相当标准。
第一解释其特征在于在第三层编辑字段中没有内容。这个信号告知程序使用所提供的头部或者侧部变量而产生过滤表达式。第二解释其特征在于在第三层标记字段中具有变量。这个信号告知程序从在单元格中的变量产生过滤表达式。
在两种解释中,从组件变量(或者其说明或者依赖于上下文的代码标签)来自动获得所产生的变量的层的标签,节省了大量的时间和工作。
本质上,所述手段减少了大量的人为工作,其中,复杂性、重复性和纯粹的质量有可能产生疲劳和错误。可视的字符也使用容易理解的可视比喻替换了保持多个行的命令的认知折磨。
5a每行是一个变量或者每列是一个变量
图14示出了名称为Q10到Q13的四个变量,其中每个具有从强烈批准到强烈反对的5项的相同代码帧。你要的是一个分层变量,其具有作为党派的第一层和作为批准的第二层。
参见图15,首先,将Q10拖入顶级代码帧(深蓝)中。这将找出具有来自Q10的代码帧的标签的头部单元格,并且将头部单元格设置为5。实际上,Q10-13的任何一个将适用,因为代码帧是所需要的全部。
其次,将侧部单元格提高到4(淡蓝的圆圈),并且将Q10-13的每个置于侧部单元格中。
将层名称改变以正确地描述那里的内容——批准和党派。
单击“产生”产生在图16中所示的脚本。
如果例如确定这是错误的路线,则党派是第一层,并且批准是第二层,然后,再一次单击“网格”,并且匹配在图17中所示的。这示出了你可以逆转表格的方向以适应。
单击产生给出图18。注意从侧部变量构造过滤表达式。当这个脚本是运行时,所产生的数据被示出在图19中。顶部条以其紧凑的形式示出了每个情况的数据,并且下部条生产物被表示为树结构的第一情况。
5b每个单元格是一个变量
在其中不可存储多响应的高度原子化的系统中,产生网格问题,其中,每个单元格已经被存储为独立的变量。
在图20中所示的示例中,Q41-46保持由被调查者对于两个品牌相对于三个语句——品牌1如何吸引等——给出的评级分数。
参见图21,首先(深蓝),被拖到侧部代码帧的变量Q40Attributes体提供了表格的侧部的标签(产生分层变量的第二级),并且被拖到单元代码帧字段的变量Q41提供了第三级的标签。其次(浅蓝),设置头部层为2个代码构造了表格的大小,并且变量Q41-Q46被拖到所示的单元格中。这些提供了将产生的构造行的过滤表达式的名称。第三(品红色),被拖入头部单元格内的两个变量提供了用于表格头部(分层变量的第一级)的标签。
图22示出了结果产生的构造脚本。注意,过滤表达式来自在单元格中的变量。图23示出了来自以其紧凑形式的所产生的变量的数据和作为树结构示出的第一情况。
虽然已经结合其特定实施例而描述了本发明,但是可以明白,其能够进行进一步的修改。本申请意欲涵盖本发明的任何变化、使用或者适配,其一般遵循本发明的原理,并且包括在本发明所述的领域内的已知或者常规实践内并且可以被应用到以上给出的必要特征的与本公开的偏离。
因为可以在不脱离本发明的必要特性的精神的情况下以几种形式来体现本发明,因此应当明白,上述的实施例不限定本发明,除非另外指定,而是应当被广义地理解为在所附的权利要求限定的本发明的精神和范围内。各种修改和等同的布置意欲被包括在本发明和所附的权利要求的精神和范围内。因此,所述特定实施例被理解为说明其中可以实践本发明的许多方式。在下面的权利要求中,装置加功能的语句意欲涵盖执行所限定的功能的结构和不仅结构等同物而且等同结构。例如,虽然钉子和螺丝钉在下述方面可能不是结构等同物:定制使用圆柱表面来将木头部件紧固在一起,而螺丝钉使用螺旋编码来将木头部件紧固在一起,但是在紧固木头部件的环境中,钉子和螺丝钉是等同的结构。
在本说明书中使用的“包括”用于指定所陈述的特征、整数、步骤或者部件的存在,但是不排除一个或多个其他的特征、整数、步骤、部件或者其组合的存在或者添加。因此,除非上下文清楚地要求,在说明书和权利要求中,词“包括”应当以包含的含义来被理解,而不是排他的或者穷尽的含义;即,以“包括但是不限于”的含义。
Claims (45)
1.一种适于表示诸如来自调查响应的分层数据的数据格式,包括:
标记的串,所述串包括树深度(层)的指示符。
2.如权利要求1的数据格式,其中对每个层提供所述指示符。
3.如权利要求1或者2的数据格式,其中所述指示符通过不同的标记和/或标记格式来表示。
4.如权利要求1的数据格式,还包括:通过定界符来表示多响应数据。
5.如权利要求1的数据格式,还包括:通过定界符来表示增量式数据。
6.如权利要求4或者5的数据格式,其中所述定界符通过不同的标记和/或标记格式来表示。
7.如权利要求1-6的任意一项的数据格式,其中所述串是单个串。
8.一种适合于根据按照权利要求1-7的任意一项格式化的数据来提供分析的分析工具。
9.一种用于显示分层数据的GUI可表示数据格式,包括:
至少一个第一文件夹,以及
至少一个第二文件夹,所述第二文件夹被设置在所述第一文件夹内,
每个第二文件夹包括与所述分层的对应层相关的代码。
10.如权利要求9的数据格式,其中所述各文件夹的顺序表示分层结构。
11.如权利要求9的数据格式,其中所述第一文件夹表示所述分层的根,诸如变量。
12.如权利要求9的数据格式,其中所述至少一个第二文件夹表示所述各层,优选的是按顺序。
13.如权利要求12的数据格式,其中所述至少一个第二文件夹表示按顺序的所述各层。
14.如权利要求9的数据格式,其中所述代码是所述至少一个第二文件夹的属性。
15.一种用于表示分层数据的结构的方法,所述方法包括步骤:
提供表示变量的第一文件夹,
在所述第一文件夹内提供至少一个第二文件夹,每个第二文件夹表示层,以及
在每个第二文件夹内提供用于该层的代码。
16.如权利要求15的方法,还包括步骤:排序所述文件夹以表示所述分层结构。
17.一种用于将按第一格式表示的数据转换为按第二格式表示的数据的方法,所述方法包括步骤:
在把所述第一格式转换为所述第二格式的处理中使用SRL。
18.如权利要求17的方法,其中所述SRL存储在文件中。
19.一种用SRL表示的交叉表格规范说明。
20.一种适于表示交叉表格规范说明的模式,包括:
表示变量的第一标记,以及
表示代码的第二标记。
21.如权利要求20的模式,还包括下述项的任何一个或者下述项的任何组合:
表示加权的第三标记
表示过滤的第四标记
表示分层代码的第五标记
表示标志的第六标记
表示基础表达式的第七标记。
22.如权利要求20或者21的模式,其中所述模式的每个行描述(制表数据的)行或者列。
23.如权利要求20或者22的模式,其中所述模式的每行描述归于其根的表格规范说明节点。
24.一种规范说明表示语言,包括:
一般形式:
{xxx}[yyy]...var[base](%code)
其中,
-xxx和yyy是分别在变量之前的修改前缀中的一个过滤和加权
-var是变量或者代码帧,其代码正在被制表;
-base是表达式,指示如何将数量百分比化;
-code是在这个行/列中所示出的代码数量或者其他参考,其中%符号的存在表示这个行/列可被百分比化。
25.一种处理数据的方法,所述方法包括步骤:
提供表示分层的数据,所述分层具有至少两个层,每个层通常具有至少一个代码,以及
在作为单个单元(分段)的每个层上处理所述数据。
26.如权利要求25的方法,其中,所述数据是调查数据。
27.一种确定可用于具有复杂的数据结构的响应的表格中的行或者列的方法,所述方法包括步骤:
确定所述响应,
确定变量的结构,以及
以算术方式处理所述结构,以确定用于所述响应的行或者列。
28.如权利要求27的方法,其中所述处理包括:
偏移乘以层的大小,以及
所述偏移加上响应代码减一。
29.如权利要求27或者28的方法,还包括:首先,将所述偏移初始化为0,并且然后处理所述结构的每个层。
30.一种处理响应的方法,所述方法包括步骤:
确定层,以及,
仅仅处理在该层的各分段。
31.如权利要求30的方法,其中所述处理按照权利要求27-29的任意一项。
32.如权利要求30的方法,还包括步骤:
通过提供数量等于该层的分段数的分段而适应变量。
33.如权利要求32的方法,其中所述变量是过滤、头部、侧部、加权。
34.如权利要求32的方法,其中所述分段是附加分段。
35.如权利要求32的方法,其中压缩所述分段。
36.一种在网格构造中布置变量的方法,所述方法包括步骤:
选择所述变量,
提供网格结构,并且
将所述变量置于所述网格中的期望位置按期望的位置把所述变量置于所述网格。
37.适于表示分层数据的结构的设备,所述设备包括:
处理器装置,适于按照预定的指令集而操作,
所述设备结合所述指令集适于执行按照权利要求15、17、25、27、30、32或者36的任意一项的方法。
38.一种计算机程序产品,包括:
计算机可用介质,具有包含在所述介质上用于协调数据处理系统的计算机可读程序代码和计算机可读系统代码,所述计算机程序产品包括:
在所述计算机可用介质中的计算机可读代码,适于执行按照权利要求15、17、25、27、30、32或者36的任意一项的方法。
39.如在此公开的一种方法。
40.如在此公开的一种设备和/或装置。
41.如在此公开的一种规范说明。
42.如在此公开的一种模式。
43.如在此公开的一种数据格式。
44.如在此公开的一种规范说明表示语言。
45.如在此公开的一种分析工具。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
AU2005222571 | 2005-10-17 | ||
AU2005905708 | 2005-10-17 | ||
AU2005905708A AU2005905708A0 (en) | 2005-10-17 | A Method and Apparatus for Improved Processing and Analysis of Complex Hierarchic Data | |
US11/255,554 | 2005-10-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101292222A true CN101292222A (zh) | 2008-10-22 |
Family
ID=37949335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006800386299A Pending CN101292222A (zh) | 2005-10-17 | 2006-10-03 | 用于复杂分层数据的改进的处理和分析的方法和设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20070088731A1 (zh) |
CN (1) | CN101292222A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102117302B (zh) * | 2009-12-31 | 2013-01-23 | 南京理工大学 | 传感器数据流复杂查询结果的数据起源跟踪方法 |
CN104808980A (zh) * | 2014-01-27 | 2015-07-29 | Ls产电株式会社 | 用于能量管理系统的数据显示装置和方法 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7490289B2 (en) | 2005-06-09 | 2009-02-10 | International Business Machines Corporation | Depth indicator for a link in a document |
US20080046808A1 (en) * | 2006-08-15 | 2008-02-21 | International Business Machines Corporation | Method and apparatus for visualizing multidimensional data sets using expandable grids with hierarchically-labeled axes |
EP2375344B1 (en) | 2010-04-08 | 2020-02-12 | Accenture Global Services Limited | Digital content supply system |
US8572019B2 (en) | 2010-04-21 | 2013-10-29 | Global Market Insite, Inc. | Reducing the dissimilarity between a first multivariate data set and a second multivariate data set |
US20120089902A1 (en) | 2010-10-07 | 2012-04-12 | Dundas Data Visualization, Inc. | Systems and methods for dashboard image generation |
US20120180108A1 (en) | 2011-01-06 | 2012-07-12 | Dundas Data Visualization, Inc. | Methods and systems for providing a discussion thread to key performance indicator information |
CN103678297B (zh) * | 2012-08-30 | 2016-12-21 | 中国银联股份有限公司 | 一种数据匹配方法及装置 |
US9798783B2 (en) | 2013-06-14 | 2017-10-24 | Actuate Corporation | Performing data mining operations within a columnar database management system |
US9679000B2 (en) | 2013-06-20 | 2017-06-13 | Actuate Corporation | Generating a venn diagram using a columnar database management system |
US9600539B2 (en) | 2013-06-21 | 2017-03-21 | Actuate Corporation | Performing cross-tabulation using a columnar database management system |
CA2893912C (en) * | 2014-06-09 | 2022-10-18 | Dundas Data Visualization, Inc. | Systems and methods for optimizing data analysis |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6704736B1 (en) * | 2000-06-28 | 2004-03-09 | Microsoft Corporation | Method and apparatus for information transformation and exchange in a relational database environment |
US7290012B2 (en) * | 2004-01-16 | 2007-10-30 | International Business Machines Corporation | Apparatus, system, and method for passing data between an extensible markup language document and a hierarchical database |
-
2005
- 2005-10-21 US US11/255,554 patent/US20070088731A1/en not_active Abandoned
-
2006
- 2006-10-03 CN CNA2006800386299A patent/CN101292222A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102117302B (zh) * | 2009-12-31 | 2013-01-23 | 南京理工大学 | 传感器数据流复杂查询结果的数据起源跟踪方法 |
CN104808980A (zh) * | 2014-01-27 | 2015-07-29 | Ls产电株式会社 | 用于能量管理系统的数据显示装置和方法 |
Also Published As
Publication number | Publication date |
---|---|
US20070088731A1 (en) | 2007-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101292222A (zh) | 用于复杂分层数据的改进的处理和分析的方法和设备 | |
Duque et al. | Supervised regionalization methods: A survey | |
Sumathi et al. | Introduction to data mining and its applications | |
CN103678457B (zh) | 基于初始数据可视化确定替代性数据可视化的方法和系统 | |
Berndt et al. | The Catch data warehouse: support for community health care decision-making | |
US20160098445A1 (en) | Syntactic Graph Modeling in a Functional Information System | |
US20020103777A1 (en) | Computer based knowledge system | |
Manley et al. | A review of machine learning and big data applications in addressing ecosystem service research gaps | |
Dolk | Integrated model management in the data warehouse era | |
US10902065B1 (en) | Systems and methods for computational risk scoring based upon machine learning | |
Yu et al. | A dynamic credit index system for TSMEs in China using the delphi and analytic hierarchy process (AHP) methods | |
Boopathy et al. | Predictive analytics with data visualization | |
Huang et al. | Automotive supply chain disruption risk management: a visualization analysis based on bibliometric | |
Abasova et al. | Big data—knowledge discovery in production industry data storages—implementation of best practices | |
Sawalha et al. | Towards an efficient big data management schema for IoT | |
Balcı et al. | Hierarchies in communities of UK stock market from the perspective of Brexit | |
Alqhatani et al. | 360 Retail business analytics by adopting hybrid machine learning and a business intelligence approach | |
Gonçalves et al. | Developing Integrated Performance Dashboards Visualisations Using Power BI as a Platform | |
Usman et al. | A data mining approach to knowledge discovery from multidimensional cube structures | |
CN110309578B (zh) | 一种基于计算机数据处理的经济数据拟合系统及方法 | |
Cho et al. | Global collective dynamics of financial market efficiency using attention entropy with hierarchical clustering | |
Berndt et al. | CATCH/IT: a data warehouse to support comprehensive assessment for tracking community health. | |
Li et al. | 20 Years of research on real estate bubbles, risk and exuberance: a bibliometric analysis | |
Rios-Berrios et al. | TreeCovery: Coordinated dual treemap visualization for exploring the Recovery Act | |
Abdellatif et al. | Comparing online analytical processing and data mining tasks in enterprise resource planning systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20081022 |