CN1862541A - 丰富数据源的方法 - Google Patents

丰富数据源的方法 Download PDF

Info

Publication number
CN1862541A
CN1862541A CNA200610082525XA CN200610082525A CN1862541A CN 1862541 A CN1862541 A CN 1862541A CN A200610082525X A CNA200610082525X A CN A200610082525XA CN 200610082525 A CN200610082525 A CN 200610082525A CN 1862541 A CN1862541 A CN 1862541A
Authority
CN
China
Prior art keywords
data
implemented method
computer implemented
data source
terminal user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200610082525XA
Other languages
English (en)
Inventor
姆拉里·D·弗里德哈查拉姆
尼尔·M·凯勒
迈克尔·萨瓦
克里斯多弗·H·罗斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1862541A publication Critical patent/CN1862541A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种计算机实现的技术,允许“具体”XML元素和从外部数据源动态生成的“虚拟”XML元素的按元素混合。该技术利用附加子结构如何插入现有实例的声明扩展了XML模式语言。根据具有这种额外声明的XML模式创建的实例—称为伪元素和伪属性—由此混合了原始的XML结构和插入的结构,而不创建完整的XML实例。除非通过读包含该声明的XML模式,否则该结构的消费者不能区分原始的和插入的部分。

Description

丰富数据源的方法
技术领域
本发明最一般地涉及商业智能领域和向终端用户提供按需、动态的异常报告服务及向应用程序提供可编程接口。更具体而言,本发明涉及通过采用包含但不限于模式描述XML实例的结构化描述在包含但不限于关系和可扩展标记语言(XML)源的异类结构化企业数据源上提供决定支持异常报告能力,其中结构化描述包含原始的和计算的数据段,因此利用附加元数据动态地增强了可搜索数据,而不需要事先具体化完整的数据结构实例。本发明还涉及用于向负责增强可用的可搜索元数据的领域专家建议新计算数据段的系统与技术。
背景技术
包含关系和XML数据的结构化异类企业数据的增长增加了提供健壮但容易使用的包含异常报告能力的终端用户商业智能工具的复杂性。异常可以指造成程序或微处理器转到不同例程的状态,常常是错误。而且,异常可以商业术语定义成包含例如缺乏与协议的性能目标的兼容。为了提供关于企业广泛信息报告的有意义的深度和广度,对大多数工具来说通常是提供多种预先编程或“罐装(canned)”的报告。此外,还采用常常需要对工具和底层数据都有深入理解的特定报告工具。
先前公开的方法描述了如何在关系数据库中与关系数据一起本地地存储XML数据。为了方便基于关系数据库工具的有效查询,相关技术描述了如何使用可用的XML模式捕捉关于这种XML数据类型、继承、等价类和完整性约束的信息,以便定制这种XML数据在关系数据库中的包含。采用不同的查询方法,数据格式描述语言(DFDL)标准描述了如何将非XML数据转换成XML格式,以便使得可以利用如XPath的XML访问语言查询。
相关联合数据管理概念允许结构化查询工具利用单一的结构化原理统一地访问不同结构的数据源。联合数据管理(FDM)是作为联合企业体系结构(FEA)的一部分提供的,FEA是用于将联合政府的商业和IT范例从以代理为中心变成以商业线(LOB)为中心的综合、商业驱动框架。例如,关系结构化查询语言(SQL)可以用于通过将XML数据的拷贝存储(“撕碎”)到关系数据结构中来访问XML数据,然后关系数据结构就可以利用SQL来访问,SQLX标准描述了关系数据如何利用如Xpath的分层查询语言来访问。SQLX是SQL/XML的缩写,它定义一起使用SQL和XML的标准化机制。
此外,多种W3C标准和新出现的标准都针所对用于描述并使XML实例生效的XML模式的开发与发展。XML模式或者用于描述实际的XML数据,或者用于描述以由模式注释描述的方式完全从不同数据源生成的XML数据。但是,模式是由注释而不是由新元素的添加来增强的,只是所有数据都是虚拟的。
发明内容
通过提供允许“具体”XML元素和从外部数据源动态生成的“虚拟”XML元素的按元素混合的计算机实现技术,本发明针对以上和其它问题。该技术利用附加子结构如何插入现有实例的声明扩展了XML模式语言。根据具有这种额外声明的XML模式创建的实例-称为伪元素和伪属性-由此混合了原始的XML结构和插入的结构。除了通过读包含该声明的XML模式,否则该结构的消费者不能区分原始的和插入的部分。
扩展XML模式语言的标准方式是通过使用所谓的“注释”,这种机制还被其它新出现的标准用于描述数据的生成。例如,数据格式描述语言(DFDL)指定了声明数据应当如何从格式化(非XML)文件获得的XML模式注释。但是,与在此所公开的原始的和生成的XML结构新混合相反,其最终结果是由DFDL引擎从零开始构成的“完整”XML实例,DFDL引擎又使用该注释。
在本发明的一方面,用于丰富数据源的计算机实现方法包含为具有相关结构化数据的异类结构化企业数据源创建基于树的组织结构,在该组织结构的单个数据元素中按需包含未具体化、计算的数据段,及导航到该组织结构中的节点以便提供数据源本地化、上下文敏感的丰富。
在另一方面,提供了如上所述的计算机实现方法,其中基于树的组织结构包含虚拟模式。
还可以提供相应的程序存储设备。
附图说明
本发明的这些和其它特征、好处及优点将通过参考以下文本和附图变得显而易见,在附图中相同的标号指相同的结构,其中:
图1是显示例子系统的例子体系结构和概念性流程的示意图,包含主要的技术基础及用于股东的用户界面。
图2是显示例子系统的例子体系结构和概念性流程的示意图,包含本发明应用编程接口(API)的定位及本发明主要技术基础和用于股东的用户界面,该API可以作为web服务暴露。
图3说明了例子用户界面,其中发起人指定并修改选定的服务参数并对照与提供者的服务等级协议监视所提供异常报告服务的性能。
图4说明了例子用户界面,其中提供者指定并修改所有的服务参数并对照与发起人的服务等级协议监视所提供异常报告服务的性能。
图5说明了例子领域专家界面,其中如果可用的话,则领域专家识别未加工的XML和关系数据源及实模式以便使本发明系统能够物理访问数据。
图6提供了领域专家可用于利用本发明系统选择和使用的数据元素的样本关系表。
图7说明了例子领域专家界面,其中领域专家使用实模式创建建立由本发明系统用于用户报告的虚拟模式的元素。
图8说明了显示完整的初始虚拟模式的例子领域专家界面。
图9a-d提供了由本发明系统产生的例子初始虚拟模式。
图10说明了例子终端用户报告界面,其中终端用户从由本发明系统产生的初始虚拟模式所提供的可用模式元素和属性添加列。
图11说明了例子库函数列表,既可以由用于报告创建的终端用户界面使用,又可以由用于创建由本发明系统所使用虚拟模式元素的处理的领域专家界面使用。
图12说明了例子终端用户报告界面,其中终端用户指定对报告的约束并观察结果。
图13提供了来自样本关系数据库表的可以由领域专家用于利用本发明系统选择和使用的数据元素的例子。
图14说明了例子领域专家界面,其中领域专家基于找到本发明系统的可选相关性处理创建新的伪元素。
图15说明了显示新伪元素完整创建的例子领域专家界面。
图16a和16b提供了作为由本发明系统产生的更新虚拟模式一部分的例子伪元素。
图17说明了例子终端用户报告界面,其中终端用户向报告添加了伪元素并观察结果。
图18说明了显示基于对由本发明系统提供的“假设”能力的参数化计算创建伪元素的例子领域专家界面。
图19提供了作为由本发明系统产生的更新虚拟模式一部分的、基于参数化计算创建的例子伪元素。
图20说明了显示两个元素之间相关性实时运行的例子领域专家界面,以便考虑形成新伪元素而确定它们的关系强度。
图21说明了显示本发明系统可选定期调度的批元素相关性处理结果的例子领域专家界面。
图22说明了显示访问用户日志分析的例子领域专家界面。
图23说明了显示访问用户反馈及报告等级分级的例子领域专家界面。
图24说明了例子终端用户报告界面,其中终端用户对包含由本发明系统提供的伪元素的整个报告及单个元素分级。
图25说明了显示访问用户反馈及对单个元素等级分级的例子领域专家界面。
具体实施方式
如上面所提到的,本发明提供了允许“具体”XML元素和从外部数据源动态生成的“虚拟”XML元素按元素混合的方法与系统。尽管可以使用比树结构更丰富的结构,如OLAP的“多维图结构”,但本发明利用数据结构一个它应用的关键特征:每个节点都具有唯一的上下文。对于树,这是从根开始的路径。这使我们能以上下文敏感的方式表达丰富数据,以避免混乱。OLAP,或联机分析处理,是提供存储在数据库中的数据的分析的软件工具目录。OLAP工具可以例如通过提供时间序列和趋势分析视图使用户能够分析多维数据的不同维度。OLAP常常用在数据挖掘中。
尽管先前公开的技术针对作为商业智能提供一部分、向结构化异类企业数据的终端用户提供自适应、容易使用的异常报告能力的问题的各方面,但本发明提供了建立在目前和先前所公开技术之上的试图提供这种结构化异类数据的单一视图的端对端系统。相反,本发明保持关系和XML数据独立,而不是将它们合并到关系数据库中或完整的XML实例中,同时通过扩展可用元数据丰富可用的可搜索数据,而不是仅增强这些结构化异类数据的索引。
本发明基于例如但不限于XML文档的结构化描述可以混合已经存储为XML的数据和通过从例如数据库的其它数据提取并例如利用表达式计算而生成的数据的观点。这种合并称为虚拟XML实例,因为它呈现为单个XML文档,对于任何特定的数据段,如应用程序或编程接口的用户通常不能确定它是“原始的”还是“计算的”。
本发明将计算的元素和属性分别表示为伪元素和伪属性。这将电子表格的行/列公式化思想推广到如XML数据的树结构。基于描述这种虚拟XML实例的虚拟XML模式的这种系统不需要事先生成整个XML实例。用户能够探索数据空间中的父亲和兄弟关系并能够创建包含原始和不需要事先计算和存储的计算数据段的查询。因此,这种系统可以利用新的原始和计算数据段动态更新以增强数据空间,因为虚拟XML实例将在需要的时候动态生成。该系统可以包含编程接口,而且可以利用面向服务的体系结构设计,因此组件可以按需添加并由如发起人、服务提供者、领域专家用户或终端用户的各种股东提供或使用。此外,虚拟模式代替完整虚拟实例的使用减少了根据所请求性能等级提供异常报告服务所需的计算机资源。特别地,所需计算机资源的减少是由于数据段是当用户导航时按需、本地和动态具体化的事实。否则,伪元素就不具体化。
系统的高级概述,包含建立v.s.运行时
图1是描述例子系统100的例子体系结构和概念性流程的示意(框图),该系统100应用面向服务的体系结构和技术来提供基于发起人和服务提供者之间协商的服务等级协议的按需异常报告服务。
如图1所示,在例子实施方式中,有四种不同类型的本发明系统用户,每种用户都利用应用编程接口(API)交互:(1)领域专家110,(2)异常报告系统的终端用户120,(3)发起人130及(4)服务提供者140。该系统为每种类型的用户提供用户界面。领域专家负责设置结构化异类数据源、创建初始虚拟模式、分析用户反馈和报告、分析批相关性结果并最终通过利用新关系(例如,伪元素和属性)更新虚拟模式来丰富数据源。能看到由领域专家创建的虚拟模式的可用元素的终端用户可以选择元素并提供对元素的约束和计算以便产生有意义的异常报告。终端用户可以帮助丰富数据并通过使用反馈和对报告的分级为服务提供者度量提供有用的数据。系统的发起人指定所需服务所包含的数据和其它参数的范围。服务提供者指定并修改可选服务提供参数并对照与发起人的服务等级协议监视整体性能。
本发明的系统包含一组子系统组件,如全部可以暴露为web服务异类的结构化数据源140、函数库150、批相关性处理155、虚拟模式建立器160和API 165,及协同工作以便向终端用户提供异常报告服务的用户界面112、122、132和142。例如,见例子系统200(图2)的例子体系结构和概念性流程中的web服务210,它决定web服务210和所有本发明主要技术基础及用于股东的用户界面之间的API 165的位置。
由本发明系统提供的异常报告服务与发起人和服务提供者之间的服务等级协议(SLA)一致,并基于所包含数据的协议范围及包含如对异常报告处理的平均用户满意度、生成报告的平均终端用户循环时间和对领域专家所提供伪元素的平均终端用户满意度的度量的性能标准。
如图1所示,除了既与建立时系统又与运行时系统交互的函数库150和虚拟模式162,特定的子系统组件与建立时系统170或运行时系统180关联。
建立时系统170定义结构化数据及对数据的访问方法。它包含领域专家用户界面(UI)112,该界面通过API 165用于定义如在图5领域专家UI 500中说明的那些数据源并与虚拟模式建立器160一起构成初始虚拟模式及其后续迭代。分别见例如图7和8的领域专家UI 700和800及图9a-d的例子初始虚拟模式。建立时系统包含如图21的领域专家UI 2100所说明的可以向领域专家建议数据元素之间可能相关关系的批或离线相关性处理及如图20的领域专家UI 2000所说明的对领域专家界面中可用的所选元素之间一对一相关性的实时建议函数。可能相关关系的识别可用帮助领域专家创建附加的伪元素。在用户报告记录与反馈的连续迭代后(见例如图24的例子终端用户UI 2400和图25的例子领域专家UI 2500),建立时系统允许领域专家提炼并建立虚拟模式。建立时系统使发起人和服务提供者能够监视如平均用户满意度、对报告生成的平均终端用户循环类型或对个人提供数据元素的平均终端用户满意度的性能度量。建立时系统可选地使服务提供者能够通过图4所示的例子服务提供者UI 400修改包含但不限于数据的图形和可视表示、所采用相关性工具类型及数据更新频率的各种可选服务提供参数,从而使服务提供者能够满足他们对与同发起人服务等级协议关联的性能度量的合同义务。
运行时系统针对向终端用户提供从先前建立的虚拟模式(图9a-d)创建异常报告的能力。终端用户能够从虚拟模式选择元素,既有真的又有伪的、全部通过图10所说明的终端用户UI 1000对这些元素应用约束或计算(如图12的终端用户UI 1200所示)。终端用户能够运行这些报告,直到在报告中获得期望的结果(在图12的终端用户UI 1200中示出),在这个时候他们可以保存报告以备后用。运行时系统附加地向终端用户提供分级所提供异常查询报告结果的机会,例如图24的终端用户UI 2400中所说明的。运行时系统所有的可用功能是通过与每个股东用户界面112、122、132和142(图2)交互的API完成的。此外,还使API对允许与如图2所述系统远程交互的web服务集210可用。在这里,通过web服务210,数据源可以选择、约束可以给出、报告可以生成、度量可以分析。
本发明系统的运行是当发起人和服务提供者同意与异常报告服务传输到终端用户和可编程接口关联的性能度量时启动的,并在发起人UI 300(图3)上输入或修改服务等级协议(SLA)的细节。如图3所示,发起人UI 300使发起人能够输入或修改包含例如平均用户满意度、对报告生成的平均终端用户循环时间或对所提供数据元素的平均终端用户满意度的的性能度量。通过发起人UI 300,发起人可以附加地选择在提供给终端用户的异常报告服务界面中包含异常报告数据的图形表示和数据出口选项。
第一次用户查询之前的预处理步骤
在同意发起人和服务提供者之间对异常报告服务等级协议的性能度量之后并且在第一次查询之前,系统可以执行一些预处理步骤,包含根据如图3所说明发起人UI 300上指定的所包含数据范围的初始虚拟模式的建立。在一种可能的方法中,虚拟模式初始建立及随后更新所涉及的步骤是在领域专家通过其如图7所示的UI 700的控制之下。
给定系统中的一组可用、结构化数据,领域专家通过图5所说明的UI 500建立先前由发起人和服务提供者同意的、要包含并对从那些源检索数据的系统和访问方法可用的那些数据。图6中说明的是来自于关系数据库的数据元素的样本关系表或具体模式及一些样本数据。这种关系数据模式由领域专家用于通过图7所说明的UI 700创建初始虚拟模式。领域专家可以通过选择所描述的源(如果元素是计算的,则不可用)、命名它并指定数据类型来定义虚拟模式中的元素。图8的领域专家UI 800示出了作为表示例如在实际数据中不存在的如人元素的那些元素的“伪元素”和例如从关系数据源的BP.WW_EMP表得到的部门列的部门元素的真元素的虚拟模式的原始关系表集(图6)。图9a-d说明了由领域专家通过图5所说明的UI 500建立的初始虚拟模式。然后,使终端用户可以通过他们的界面1000(图10)获得该虚拟模式。
第一终端用户查询
终端用户通过在此参考图10所说明和描述的终端用户UI 1000与系统交互。终端用户可以通过图9a-d所示的虚拟模式选择任何可用元素来通过界面1000初始化异常报告。一旦选择了作为报告中特定一列的元素,就可以应用约束将报告过滤成有意义的数据子集。可选地,如图11例子库函数列表1100中所说明的,计算可以应用到所选的一行或多行。当终端用户对报告显示期望的过滤数据子集感到满意时,报告就可以通过图12所说明的终端用户UI 1200运行和观察。连续的其它报告列和约束可以添加,直到创建了满意的报告。在这个时候,报告可以保存,以备该终端用户或其它终端用户后用。此外,根据发起人和服务提供者之间的服务等级协议(SLA)、如平均终端用户满意度、报告生成的平均循环时间和对单个元素的平均满意等级的度量(图3)可以通过如图24所示终端用户UI 2400中的反馈分级机制从终端用户收集和从图1指示的记录服务185收集。在UI 2400中,终端用户可以通过由领域专家使之变得可用的虚拟模式分级由系统提供的整个报告及每个单独的数据元素。收集记录、用户反馈和用户分级的累加并分别通过图22、23和25的领域专家UI 2200、2300和2500使之对领域专家可用,在这个时候,例如通过使新数据源可用、添加/更新/除去元素(“伪的”或真的)、索引数据或将虚拟模式重新排列成不同的分层结构,系统可以被加强或丰富。
以下讨论说明了在生成和存储异常报告中本发明的例子使用。讨论的第一部分涉及引入作为虚拟查询表示的XML查询(XQuery),而讨论的第二部分涉及运行这种查询。
部分I:引入XQuery作为虚拟查询表示。
利用本发明系统通过web服务生成异常报告及利用用户界面存储所创建报告生成的一种途径是将整个报告生成组装在例如由XML查询编程语言表达的单个“查询”中。见http://www.w3.org/TR/xquery上日期为2005年4月4日、标题为“XQuery 1.0:An XML QueryLanguage”的W3C工作草稿。例如,员工/成本表(图12)可以通过以下XQuery表达式生成(以HTML):
<table><tr><th>Employee</th><th>Cost</th></tr>{
for $employee in/people/person[dept=”XYZ”]
return
<tr><td>{$employee/fullName}</td><td>{
sum($employee/expense[type =”Notes mail storage”]/year/month/amount)
}</td></tr>
}</table>
关于组织结构(例如,应用到“expense”元素的“type”约束)和实际的实例,XQuery表达式使得关于每个属性应当应用到哪个节点完全清楚,但这些关系隐藏在终端用户UI中(图10和12)。
以下具体描述查询是如何从UI生成的。任何人可以想像以上查询从终端用户UI生成。上下文是用户选择进行“个人异常报告”,因此我们可以假设XML模式(图9)可用于显示“创建用户报告”窗口(1010)的应用程序。然后,用户点击“添加列”按钮(1011)并在“列”对话框(1020)输入该列的标题“员工”(1021),并点击在图10中部分得到的“添加计算”按钮(1022)。因为应用程序知道当前节点将是“个人”节点,所以它在“选择列”对话框1030中建议在XML模式(图9)中声明的所有属性作为“个人”的子元素(1031和901):指示序列号的“sn”(1032和906)、“全名”(1033和903)等,及所有嵌套的属性,如实际上是由费用索引的属性族的“年”(1034和910)和由费用、年与月索引的“合计”(1035和911)。当用户选择“全名”(1033)时,我们可以通过以下XQuery捕捉单个“员工”列:
<table><tr><th>Employee</th><th>Cost</th></tr>{
for $employee in/people/person
return
<tr><td>{$employee/fullName}</td></tr>
}</table>
类似的交互用于创建第二列“成本”,对该列选择了“合计”属性。由于“合计”属性对应于一年中一个月费用(908)特定的元素,因此用户必须选择聚合原则用于这些索引中的每一个。聚合是由图11所示的函数完成的,其中用户选择“SUM”函数(1101)聚合所有的合计。结果是以下查询:
<table><tr><th>Employee</th><th>Cost</th></tr>{
for $employee in/people/person
return
<tr><td>{$employee/fullName}</td><td>{
sum($employee/expense/year/month/amount)
}</td></tr>
}</table>
最后,用户以类似方式添加两个约束,导致图12的终端用户报告界面,该图示出了在两个属性“类型”和“部门”有约束的完成的生成(1201)。通过看XML模式(图9a-d),我们看到“类型”(909)是“费用”(908)的子元素,而“部门”(904)是“个人”(901)的子元素,这意味着约束应当如下插入到XQuery中:
<table><tr><th>Employee</th><th>Cost</th></tr>{
for $employee in/people/person[dept=”XYZ”]
return
<tr><td>{$employee/fullName}</td><td>{
sum($employee/expense[type=“Notes mail storage”]/year/month/amount)
}</td></tr>
}</table>
注意,XQuery的生成仅依赖于XML模式声明,而不依赖于伪元素注释。
部分II:运行查询
在运行时,查询应用到遵循组织结构的实际数据实例。在本例中,这意味着完整的数据实例是对图9中XML模式“有效”的XML文档。在此,我们示出了对于我们的例子数据查询是如何评价的,尤其是如何只对所请求的数据部分进行查询和具体化。
在评价查询之前,文档可以如下说明
<people>
</people>
其中这里和下面的“…”指示未具体化的内容;在这种情况下,“people”元素的内容还没有具体化。查询的第一次操作是列举所有的“person”孩子元素。XML模式(图9a-d)告诉我们“people”的内容包含每个“sn”属性(906)一个“person”元素的序列,“person”元素对应于利用SQL段“from BP.WW_EMP”(902)检索的表记录,及对于内容的每一部分,它如何从表中提取。特别地,“sn”属性是通过“selectemp_ID”从表获得的(907)。对我们来说,这组合了评价SQL查询“select emp_ID from BP.WW_EMP”和假定刚好返回“123”和“456”,将文档更新成如下:
<people>
<person sn=”123”>...</person>
<person sn=”456”>...</person>
</people>
接下来,查询要求我们测试每个“person”的“dept”孩子,以便过滤仅具有值“XYZ”的那些孩子。这是通过计算与“dept”元素(904)关联的SQL表达式实现的,该计算对每个新的“dept”元素评价SQL语句“select department from BP.WW_EMP where emp_ID=’{../@sn}(905),因此文档变成:
<people>
<person sn=”123”>...<dept>ABC...</dept>...</person>
<person sn=”456”>...<dept>XYZ...</dept>...</person>
</people>
因为约束,for循环只将$employee绑定到第二个“person”元素。然后,循环体需要通过SQL查询“select fullName from BP.WW_EMPwhere emp_ID=’{../@sn}计算“fullName”孩子,它将文档扩展成如下:
<people>
<person sn=”123”>...<dept>ABC...</dept>...</person>
<person sn=”456”>…<fullName>JoeEmployee</fullName>...<dept>XYZ...</dept>...</person>
</people>
对于XQuery表达式的剩余部分,“sum($employee/expense[type=”Notes mail storage”]/year/month/amount)”,通过首先通过利用SQL“select description fromITCHGRS.US where emp_ID=’{../../@sn}计算它们的“类型”孩子列举“person”的所有“expense”元素孩子,然后对“type”字符串满足约束的每个“expense”评价其下面的“amount”元素列表来重复相同的逻辑。注意,对于如“amount”的嵌套值,父亲的约束被继承,因此,特定“year”和“month”组合下的amount是由如下的SQL语句计算的:
select amount from ITCHRGS.US where ledger_month={../text()}and ledger_year={../../text()}and type={../../../text(type)}
其中上下文的“select”声明再次作为约束出现,以确保每个实际元素的所有后代都确实特定地关于该元素。
伪元素的创建和使用
本发明系统提供了在由终端用户在创建他们的异常报告的处理中所导航的上述虚拟模式中包含未具体化、计算数据段的能力。这些“伪元素”是由领域专家根据多种输入创建的。在一种可能的场景中,终端用户通过他们的界面100(图10)观察在试图创建报告时可用的元素集。例如,由于终端用户猜测员工所持有专利的个数关于该员工所使用的邮件存储器,因此假定终端用户希望创建具有关于专利的数据的报告。在这种情况下,终端用户提交对(领域专家)请求这种数据包含的反馈。使由终端用户提供的反馈通过领域专家UI 2300(图23)对领域专家可视。例如,见陈述“没有关于专利的信息。这个数据可以添加吗?”的显示区域2310。这种反馈促使领域专家添加新的关系数据源及其对应的表1300(图13)。如图20所示,这暗示元素特征是通过他或她的界面对领域专家可用的交互性相关性处理。
可选地,领域专家可以通过图21的领域专家UI 2100运行由图1相关性处理155指示的批相关性处理。利用识别有意义相关性的任一方法,“伪元素”,mbPerPatent,可以由领域专家创建,以表示专利数和所消耗邮件存储器之间的关系。图14说明了用于根据这两个数据元素之间的关系创建伪元素的领域专家UI 1400。图15在领域专家UI 1500中说明了完整的伪元素。表示这种伪元素的更新虚拟模式部分在图16a和16b中示出。对模式的注释描述如何具体化这种新的“伪元素”。这种丰富了的数据集现在对后续的用户查询可用。图17说明了用于添加新完成伪元素的终端用户报告UI 1700。
参数化元素
虚拟模式可以表示真元素,例如直接从数据得到的那些元素,或“伪元素”,例如当根据模式中它们的上下文请求时具体化的那些元素。可以由本发明系统创建和使用的特定类型的“伪元素”是参数化元素或从用户请求输入的元素。图18中说明的是显示参数化伪元素创建的例子领域专家界面1800。这种元素的属性可以是用户输入到关于外部数据元素公式的参数。图19说明了当其包含用于计算外部元素增长率或百分比增长的参数化伪元素时的虚拟模式。输入参数和计算公式都在对虚拟模式的注释中描述。
可编程接口
应用编程接口(API)165与图1所述的每个子系统交互。API又由各用户界面112、122、132和142用于管理每个子系统。例如,通过领域专家界面112,领域专家110可以使用API中的方法创建新的数据源、更新并创建虚拟模式中的元素(或属性)、分析用户报告、反馈并记录。除了通过各界面利用API用户的交互,使API对web服务210可用(如图2所示)。通过web服务,对API的服务请求和响应是可能的。
系统调整
随着时间的推移,本发明系统开始“学习”其它用户所写的可能有意义的查询。要有意义,存在有些异常情况适用的数据子集。使所保存的查询对所有后续用户及对同一用户的后续查询可用。此外,领域专家可以使用查询日志来确认性能增强、伪元素或甚至新的数据源或对数据的视图,如在前面场景中讨论过的。
此外,本发明系统使服务提供者能够响应对异常报告服务的性能度量不足或改变商业需求按需调用附加服务。例如,如图3发起人用户界面300所指示的,如果用于对领域专家所提供伪元素的平均终端用户满意度低于在服务等级协议中达成的协议,则服务提供者可以通过图4他们的用户界面400以他们自己的费用选择提供更昂贵、定制的相关性工具,该工具以批或交互模式由领域专家在图21和20中分别说明的他们的界面2100和2000中用于识别在这些伪元素创建过程中使用的新数据源。
在另一系统调整场景中,用于平均用户满意度的度量可以通过提高数据源更新的频率来改善,以便向可能使用过时数据错误地通知他们机构中员工不可接受的异常状态的终端用户提供更新的报告。在这种情况下,服务提供者可以通过图4中他们的用户界面400提高数据源更新频率并监视相关度量中的改变。
本领域技术人员应当认识到系统的面向服务的体系结构可以利用多种不同技术实现。尽管显示并描述了被认为是本发明优选的实施方式的实施方式,但是当然应当理解在不背离本发明主旨的情况下可以容易地对形式或细节进行各种修改和改变。因此,本发明不是要限定到所描述和说明的确切形式,而应当构造成覆盖可能落在所附权利要求范围内的所有修改。

Claims (31)

1、一种用于丰富数据源的计算机实现方法,包含:
为具有相关结构化数据的异类结构化企业数据源创建基于树的组织结构;
在该组织结构中的单个数据元素中按需包含未具体化、计算的数据段;及
导航到该组织结构中的节点,以便提供数据源的本地化、上下文敏感的丰富。
2、如权利要求1所述的计算机实现方法,其中数据源包含关系数据源。
3、如权利要求1所述的计算机实现方法,其中数据源包含分层数据源。
4、如权利要求1所述的计算机实现方法,其中本地化、上下文敏感的丰富是基于数据源的标记,它允许导航到通过路径描述的单个数据元素并表达关于该路径和与沿该路径访问的数据元素关联的数据的可能导航步骤。
5、如权利要求1所述的计算机实现方法,其中所述创建、包含和导航是利用可编程接口调用执行的。
6、如权利要求5所述的计算机实现方法,其中可编程接口调用是由web服务启动的。
7、如权利要求1所述的计算机实现方法,还包含:
从发起人实体接收与为终端用户提供所请求性能等级的异常报告服务关联的性能标准的说明。
8、如权利要求7所述的计算机实现方法,还包含:
从服务提供者实体接收用于根据所请求性能等级提供异常报告服务的服务提供参数的说明。
9、如权利要求1所述的计算机实现方法,还包含:
使终端用户能够执行包含导航、选择和查询建立功能及观察来自所执行报告查询的结果的服务;及
使终端用户能够提供对服务的反馈。
10、如权利要求9所述的计算机实现方法,还包含:
监视、记录并存储建立的查询、报告结果和由终端用户提供的反馈。
11、如权利要求9所述的计算机实现方法,其中反馈包含关于所请求性能等级的分级和注释中的至少一个。
12、如权利要求9所述的计算机实现方法,其中反馈关于用于增强虚拟模式的伪元素。
13、一种用于丰富数据源的计算机实现方法,包含:
为具有相关结构化数据的异类结构化企业数据源创建包括虚拟模式的基于树的组织结构;
在该组织结构中的单个数据元素中按需包含未具体化、计算的数据段;及
导航到该组织结构中的节点,以便提供数据源的本地化、上下文敏感的丰富。
14、如权利要求13所述的计算机实现方法,还包含:
使领域专家能够对虚拟模式执行选择、建立和增强功能。
15、如权利要求13所述的计算机实现方法,其中虚拟模式包含具体元素和从数据源动态生成的计算出的伪元素的按元素混合。
16、如权利要求13所述的计算机实现方法,还包含:
使领域专家能够选择用于虚拟模式的结构化数据。
17、如权利要求13所述的计算机实现方法,还包含:
使领域专家能够建立虚拟模式。
18、如权利要求13所述的计算机实现方法,其中虚拟模式代替完整虚拟实例的使用减少了根据所请求性能等级提供异常报告服务所需的计算机资源。
19、如权利要求18所述的计算机实现方法,其中减少的所需计算机资源是源于当导航组织结构时的上下文敏感计算的。
20、如权利要求13所述的计算机实现方法,还包含:
使终端用户能够导航虚拟模式、选择结构化数据并指定建立异常报告查询的约束。
21、如权利要求20所述的计算机实现方法,其中数据元素包含可扩充参数,以便使终端用户能够在异常报告查询中包含假设的场景。
22、如权利要求20所述的计算机实现方法,还包含:
执行异常报告查询。
23、如权利要求20所述的计算机实现方法,还包含:
使终端用户能够使用库函数来包含基于异常报告查询中所选数据的合计、平均值及其它统计数据中的至少一个。
24、如权利要求20所述的计算机实现方法,其中:
结构化异类数据中从数据源按需具体化的虚拟数据的包含对终端用户是透明的。
25、如权利要求13所述的计算机实现方法,还包含:
使领域专家能够根据计算利用伪元素增强结构化数据和虚拟模式。
26、如权利要求25所述的计算机实现方法,还包含:
使终端用户能够执行导航、选择和查询建立功能、观察来自所执行报告查询的结果并提供关于所请求性能等级的反馈;及
使领域专家能够分析查询、结果和反馈,以便修改虚拟模式和伪元素,来优化由发起人和服务提供者协议的性能标准。
27、如权利要求25所述的计算机实现方法,还包含:
基于终端用户的反馈和用于识别数据元素之间可能的相关关系的可选实时或批相关性处理向领域专家建议伪元素。
28、如权利要求25所述的计算机实现方法,还包含:
使领域专家能够使用库函数来包含用于创建伪元素的公式中合计、平均值及其它统计数据中的至少一个。
29、如权利要求25所述的计算机实现方法,其中伪元素使终端用户能够探究数据中边界状态和异常状态中的至少一个。
30、一种有形地体现软件指令的程序存储设备,该软件指令适于由处理器执行来执行丰富数据源的方法,该方法包含:
为具有相关结构化数据的异类结构化企业数据源创建基于树的组织结构;
在该组织结构中的单个数据元素中按需包含未具体化、计算的数据段;及
导航到该组织结构中的节点,以便提供数据源的本地化、上下文敏感的丰富。
31、一种用于丰富数据源的计算装置,包含用于实现前面方法权利要求的任一方法的装置。
CNA200610082525XA 2005-04-29 2006-04-28 丰富数据源的方法 Pending CN1862541A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/118,137 2005-04-29
US11/118,137 US20060248092A1 (en) 2005-04-29 2005-04-29 Dynamic exception reporting service for heterogeneous structured enterprise data

Publications (1)

Publication Number Publication Date
CN1862541A true CN1862541A (zh) 2006-11-15

Family

ID=37235680

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200610082525XA Pending CN1862541A (zh) 2005-04-29 2006-04-28 丰富数据源的方法

Country Status (2)

Country Link
US (1) US20060248092A1 (zh)
CN (1) CN1862541A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105446983A (zh) * 2014-06-30 2016-03-30 国际商业机器公司 用于生成数据格式描述语言模型的方法和装置
CN111222730A (zh) * 2018-11-26 2020-06-02 上海阿米特数据系统有限公司 一种业务执行系统及实现方法
CN112749180A (zh) * 2021-01-19 2021-05-04 上海复佳信息科技有限公司 数据管理方法、电子设备及计算机可读存储介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7996443B2 (en) * 2005-02-28 2011-08-09 Microsoft Corporation Schema grammar and compilation
WO2006096812A2 (en) 2005-03-07 2006-09-14 Skytide, Inc. Analyzing and reporting extensible data from multiple sources in multiple formats
US7953734B2 (en) * 2005-09-26 2011-05-31 Oracle International Corporation System and method for providing SPI extensions for content management system
US7801926B2 (en) * 2006-11-22 2010-09-21 Microsoft Corporation Programmable logic and constraints for a dynamically typed storage system
JP5458480B2 (ja) * 2007-08-08 2014-04-02 富士通株式会社 タグ付き文書データ問い合わせ処理システムに対する問い合わせ画面生成装置
EP2141615A1 (en) * 2008-07-04 2010-01-06 Software AG Method and system for generating indexes in an XML database management system
US8239417B2 (en) * 2008-08-07 2012-08-07 Armanta, Inc. System, method, and computer program product for accessing and manipulating remote datasets
US20110167057A1 (en) * 2010-01-04 2011-07-07 Accenture Global Services Gmbh Modularized service level agreement reporting
US10679131B2 (en) 2012-07-12 2020-06-09 Eaton Intelligent Power Limited System and method for efficient data collection in distributed sensor measurement systems
WO2014055486A1 (en) 2012-10-01 2014-04-10 Cooper Technologies Company System and method for support of one-way endpoints in two-way wireless networks
US9699708B2 (en) 2014-01-17 2017-07-04 Cooper Technologies Company Dynamically-selectable multi-modal modulation in wireless multihop networks
US10120657B2 (en) * 2015-01-08 2018-11-06 Hand Held Products, Inc. Facilitating workflow application development

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5608903A (en) * 1994-12-15 1997-03-04 Novell, Inc. Method and apparatus for moving subtrees in a distributed network directory
US8200775B2 (en) * 2005-02-01 2012-06-12 Newsilike Media Group, Inc Enhanced syndication
US8200700B2 (en) * 2005-02-01 2012-06-12 Newsilike Media Group, Inc Systems and methods for use of structured and unstructured distributed data
US8347088B2 (en) * 2005-02-01 2013-01-01 Newsilike Media Group, Inc Security systems and methods for use with structured and unstructured data
US20060265489A1 (en) * 2005-02-01 2006-11-23 Moore James F Disaster management using an enhanced syndication platform

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105446983A (zh) * 2014-06-30 2016-03-30 国际商业机器公司 用于生成数据格式描述语言模型的方法和装置
CN105446983B (zh) * 2014-06-30 2019-09-10 国际商业机器公司 用于生成数据格式描述语言模型的方法和装置
CN111222730A (zh) * 2018-11-26 2020-06-02 上海阿米特数据系统有限公司 一种业务执行系统及实现方法
CN112749180A (zh) * 2021-01-19 2021-05-04 上海复佳信息科技有限公司 数据管理方法、电子设备及计算机可读存储介质
CN112749180B (zh) * 2021-01-19 2023-06-23 上海复佳信息科技有限公司 数据管理方法、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
US20060248092A1 (en) 2006-11-02

Similar Documents

Publication Publication Date Title
CN1862541A (zh) 丰富数据源的方法
US8190595B2 (en) Flexible query hints in a relational database
Lapouchnian et al. Requirements-driven design and configuration management of business processes
Bolchini et al. CARVE: Context-aware automatic view definition over relational databases
US7080066B1 (en) Systems and methods for refining a decision-making process via executable sequences
Greenshpan et al. Autocompletion for mashups
US8645905B2 (en) Development artifact searching in an integrated development environment
US7672924B1 (en) Systems and methods for generating information from a data collection to support decision-making
US8090754B2 (en) Managing relationships of heterogeneous objects
US8375041B2 (en) Processing queries against combinations of data sources
Ravat et al. Algebraic and graphic languages for OLAP manipulations
US20120059842A1 (en) Context-Based User Interface, Search, and Navigation
CN1786950A (zh) 处理抽象查询的方法和系统
US7523077B2 (en) Knowledge repository using configuration and document templates
US20120047483A1 (en) Smart Web Service Discovery
JP5001614B2 (ja) 設計変更範囲検索方法、設計変更範囲検索装置および設計変更範囲検索システム
RU2340937C2 (ru) Декларативная последовательная параметризация отчетов
US20090150866A1 (en) Enforcing legal holds of heterogeneous objects for litigation
CN1918589A (zh) 通过虚拟文档架构来促进协同编辑和承担责任的自动出版系统
CN1667609A (zh) 文档信息管理系统和文档信息管理方法
CN1877523A (zh) 一种支持异构构件的构件库统一管理方法
CN1864159A (zh) 通过查询结果扩充和结果数据反馈的迭代数据分析过程
CN1811754A (zh) 数据的图解访问以及安排
US20080016048A1 (en) Intelligent condition pruning for size minimization of dynamic, just in time tables
CN1801150A (zh) 使用拓扑结构元数据和导航路径的预定的导航

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication