CN101124578A - 包括增值和请求式数据传送的可共享多租户参考数据实用工具和储存库以及运行方法 - Google Patents

包括增值和请求式数据传送的可共享多租户参考数据实用工具和储存库以及运行方法 Download PDF

Info

Publication number
CN101124578A
CN101124578A CNA2006800021961A CN200680002196A CN101124578A CN 101124578 A CN101124578 A CN 101124578A CN A2006800021961 A CNA2006800021961 A CN A2006800021961A CN 200680002196 A CN200680002196 A CN 200680002196A CN 101124578 A CN101124578 A CN 101124578A
Authority
CN
China
Prior art keywords
source
data
information
request
storage vault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006800021961A
Other languages
English (en)
Inventor
C·E·阿布拉姆斯
R·E·阿迪诺尔菲
E·P·小卡鲁辛斯基
C·E·克劳雷
M·E·小弗雷明
T·A·克拉塞尔
J·S·科洛马达
M·赫拉布劳夫
G·D·H·亨特
K·L·琼斯
S·梅塔
F·N·帕尔
A·奥拉尼
M·A·赖斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101124578A publication Critical patent/CN101124578A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种多源多租户参考数据实用工具(1)以及用于形成和维护该实用工具的方法,其响应于来自客户(6,7,8,9)的请求传送高品质参考数据,其使用共享的基础设施实现,并使用客户的参考数据提供增值服务。还包括了通过对每个值的完整寻源跟踪对所接收的数据进行数据净化与品质保证、在允许检索并强制执行客户的基于源的资格的储存库(20)中存储结果得到的实体值、以及以支持多种客户应用需求的请求式数据集(30,31,32,33)的形式传送检索得到的数据。一种有利的实现具有用于对数据品质和使用率、商业文档存储与增值数据驱动计算的选择进行报告的附加服务。共享基础设施以及摊还数据品质保证的成本保证以更低的成本传送品质更好的数据。

Description

包括增值和请求式数据传送的可共享多租户参考数据实用工具和储存库以及运行方法
优先权
本申请在35 U.S.C§119(e)下要求2005年1月14日提交的美国临时申请序列号60/644,045、2005年1月31日提交的60/648,497、2005年2月18日提交的60/654,376、以及2005年6月28日提交的60/694,815的优先权。本申请还要求2005年12月22日提交的美国专利申请11/318,355、11/318,425、11/318,426、11/318,428的优先权。出于一切目的,这些申请通过引用其整体并入此处。
技术领域
本发明涉及数据管理实用工具(utility)服务。其具体涉及在多源多租户数据实用工具的背景中使得商业数据的请求式接收、净化、增强、存储、跟踪和提供成为可能。本发明还涉及可用于这种背景以及其他背景中的数据储存库。其还涉及请求式数据集的灵活的、可缩放的传送。
背景技术
金融市场参考数据包括关于金融工具、市场评估、利害关系人以及影响金融工具的企业行为的描述性信息。参考数据组成了金融事务处理、决策、风险测量、证券与有价证券定价以及金融市场交易操作的机能的共享基础。成千上万的数据项包括于其中,其范围从名称与地址信息及税务识别到未定权益计划、过户代理人详情、保管人合格性以及税务条约蕴含内容。产业上面临的问题之一是缺少命名标准,其扩展到如何描述不同类型的参考数据。金融工具数据包括这样的项目:这些项目描述该工具是什么、其在何时、何地以及如何进行交易、解决和澄清该工具的交易需要什么、以及多种规章和客户报告要求。包括在金融工具数据的可替代标签中的是证券工具数据、产品数据和指示性数据(“指示性”也被有些人用作表示指示性定价数据的术语)。关系人数据描述在金融事务中涉及的实体,例如企业、对等关系人、客户、交易伙伴和个体投资者。包括在关系人数据的可替代标签中的是商业数据、法律实体等级数据、客户数据以及对等关系人数据。企业行为数据反映对企业的金融工具或法律结构所作的改变,例如所有权改变或股份拆分。这里,替代物又一次包括企业事件和受托事件。
金融市场参考数据可定义公众实体的特性,例如股票报价、金融工具限定、企业致词和新闻稿,或定义私人实体的特性,包括客户识别、模型推导分析和风险计算。
公司或者通过经由交易所或数据服务卖主的传送、或者通过由应用计算或模型的推导来获取参考数据。需要这些数据的公司典型地与多个数据卖主订立合同,并为访问卖主的产品付许可费。除了原始数据的提供和捕获以外,许多公司——包括金融服务公司——专门从事于分析数据的创建,该数据又接着传播到整个产业。
金融市场参考数据被水平地嵌入由金融公司进行的商业过程的整个寿命周期中,照此,及时、准确、高品质的参考数据对这些公司具有极大价值。没有这些数据,公司将不能为他们的客户处理即使是最简单的事务或是处理他们内部的金融管理过程。
例如,对于在金融机构之间准确且完整地执行的交易,所有交易关系人必须具有对相关参考数据的同等的看法。股票交易需要在以下方面达成一致:(1)被交易工具的定义和描述;(2)交易细节和事务的正式证明文件;以及(3)参与过程的对等关系人和传送指令。具有不兼容参考数据的机构将需要额外的时间和资源来解决每个受影响的交易执行上的不同。在自动化交易环境中以及在高交易额期间增加了对参考数据的一致的需要。
因此,每个金融公司需要对高品质参考数据库的快捷访问,在该数据库中,基本参考数据可以用高级分析与定价计算的结果以及诸如合同细节、帐户信息的附加信息来增加。这种信息必须为容易且充分地在它们的商业应用的有价证券间集成的格式。在历史上,公司各自孤立于其他公司建立并维护了它们自己的信息或数据存储。随着公司的发展,无论是有组织地还是通过获取来建立或获取附加的数据存储区(silo)。这些数据库典型地通过来自外部卖主、内部应用以及人工输入与调整的自动化数据馈给的组合进行维护。
技术的进步和卖主数据源的可用性大大增加了公司可获得的信息量。结果,公司必须在大量数据中进行筛选,所述数据可能取决于源和更新的定时而不同。
金融市场参考数据的分段摄取与维护、数据管理的分散化方法、多个或冗余品质保证活动、以及重复数据存储引向了在参考数据获取与维护时增加的成本以及低的运行效率。因此,在企业层面上,数据管理的难题是由于极大的数据量而产生的成本与品质的难题。冗余购买与验证、不同的格式/工具、不一致的格式/标准/数据以及改变和/或管理卖主的困难都带来低下的效率。
这可能使得在不准确的信息上做出决策或交易对等关系人所用数据的差别。这些影响在Tower Group从2002年他们对金融市场参考数据的研究得出的发现中有清楚的例证。例如,在交易处理领域,其中,平均16.4%的交易从自动化处理程序中被拒绝,Tower Group发现这些异议(例如从自动化处理程序中被拒绝的交易)中有45%是由于有缺陷的(不完整、不标准或不准确的)参考数据(“TowerGroup Survey:Is the SecuritiesInsustry Making Progress on Reference Data Management?”2002年9月)。实际上,不准确调解导致的无效交易对国内证券产业的花费超过每年1亿美元(IBM Institute for Business Value analysis)。尽管参考数据在交易记录中包括少数数据元,但该数据准确度的问题产生了数量上不成比例的异议,无疑降低了直通处理(STP)速度。
金融公司面对的数据不一致性不可被辨别为错误或不一致信息。在许多情况下,外部卖主提供的数据包含错误,公司通过比较来自多个卖主的数据可能不会发现该事实,或者该事实作为在内部商业过程或与外部实体的事务中使用该数据的结果而被暴露。主要由于缺乏管理数据表示的行业标准,每个数据卖主有表示数据的专用方法。同样,金融服务公司使用多种格式——包括卖主或交易所特有的和专用的定义——来定义企业中的数据。
尽管行业中多种对某些数据的标准达成一致的数据标准化倡议正在发起,这些倡议中没有一种是成熟的。尽管金融服务公司可从清楚的数据标准的实现获得事务处理效率上的显著改进,但买主和证券公司在历史上将接受新数据格式的现有应用的预期改装或改编看作广泛采用的障碍。
由于金融市场数据的庞大数量和不规则的品质,金融公司有义务在数据管理上投入大量关注和资源,在许多情况下,这没有为它们提供可辨别的竞争优势。
另外,近来的规则改变要求公司更为努力地存储和跟踪金融信息。例如,Sarbanes-Oxley Act在金融服务商业之间、甚至是一个公司的部门内的信息传送上规定了严格的要求。
作为行业,金融市场参考数据缺乏标准和不一致的品质等级降低了公司之间通信的准确度和效率,为所有的事务参与方带来了增加的成本和更高风险等级。当由金融事务的端到端执行中涉及的多个关系人混合而成时,显然,数据品质和标准化的问题对金融服务行业以显著程度完成直通处理的能力具有极大的不利影响。由于跨国主权的问题,这种复杂性的影响被逐渐增加的商业的国际范围所加剧;规则和货币引入了增加的数据元以及现有数据的附加变种。
所有这些因素为金融公司在收集高品质数据、跟踪起源与数据修改历史、以及存储与管理对该数据以及可能已使用该数据被创建的任何附加信息的访问方面寻求自动化帮助提供了附加动力。
在金融服务中,存在组织和维护高品质参考数据时使用的多种当前实践。历史上,公司各自孤立于其他公司建立和维护了它们自己的信息或数据存储。金融工具描述以及相关联的数据通常被存储在被称为产品或证券主文件的数据库中。关系人和用户数据通常被存储在被称为用户主文件的数据库中,在公司之间,大部分证券与用户主文件在性质和内容上类似。
许多金融服务公司当前具有分散化的、通常是不兼容的、以及分段的数据存储。随着公司的发展,无论是有组织地还是通过获取来建立或获取附加的数据存储区。这些数据存储区通过极少协同的工作而由来自多个卖主的大量数据所填充。缺少企业范围的集成妨碍了许多商业功能充分实现大量的公司内数据的价值。另外,这种分散化的数据管理方法经常产生相同数据的冗余存储,其常常由公司内各个组织付费的重复数据馈给来创建和更新。
作为试图解决这种数据管理问题的尝试的结果,某种对数据管理外包的支持在市场上可用作为对个体客户的服务。某些特定的参考数据管理部件——包括储存库(repository)——也是可用的。然而,这些提供物的现有技术状态为:
-仅对参考数据的特定子集可用;
-不能用所述多租户/多客户支持来开发;
-作为对于单个客户的一次性服务被传送;或者
-作为对于单个客户的独立服务被实现和定价。
另外,由上述组织或为了上述组织而执行的管理其参考数据的大部分工作实际上相当普遍。因此,与参考数据管理相关联的大量工作量在金融行业部门以及其他行业之间重复。因此,存在对建立这样一种多租户参考数据实用工具的需求:其能够提供最佳的实践数据管理与处理,并通过规模经济减小个体组织的成本。然而,建立这样一种实用工具、同时适当地处理集中式实用工具方法中的某些固有复杂性(例如多源多租户的资格管理)的技术当前在市场上不能获得,而仅存在单客户、本地化的方法。
本地化技术适用的特定例子包括:
-一个组织中由其内部部门使用的基本参考数据模型的标准化;
-用于金融参考数据的特定领域的模型与标准化格式;以及
-协助将数据输入单个组织使用的数据模型的工具和自动化。
存在在金融服务参考数据管理领域具有已有技术与服务提供物的多个公司,其使用这种本地化方法。这些公司提供的解决方案通常以解决单个企业或企业中一个部门的参考数据管理问题为目标,通常在狭义问题的领域内。它们提供的软件和服务通常为单个客户/部门安装、配置、定制和操作。结果,每个用户实现实际上是一种专用的定制产品安装。因此,这些提供物可以看作对内部参考数据管理问题的独立解决方案,不能以与具有多租户能力的解决方案相同的水平提供规模经济。另外,这些解决方案不能提供共享实用工具环境所给予的附加好处,例如完全包办的数据卖家切换、请求式记账、杠杆化的人力资本等。
已经做出使用单客户解决方案来支持多客户安装的孤立尝试。然而,在现有技术中,针对多客户对这些解决方案的杠杆调节本质上需要单客户操作的多次重复。这些尝试通常在金融服务行业中是不成功的。
发明内容
A.参考数据实用工具
本发明是用于形成和维护多源多租户参考数据实用工具的方法、装置和软件,其使用共享的基础设施实现,响应于来自客户的请求传送高品质参考数据,并使用客户的参考数据提供增值服务。该方法包括:通过对每个值的寻源的充分跟踪所接收到的数据进行数据净化和品质保证、在允许检索和强制执行基于源的资格的储存库中存储结果得到的实体值、以及以支持多种客户应用需求的请求式数据集的形式传送检索得到的数据。一种有利的实现具有附加的服务,其用于对数据品质和使用率、商业文档存储和增值数据驱动计算的选择进行报告。通过在多个客户之间使用共享的基础设施并摊还数据品质保证的成本,在保证客户仅从他们被许可的数据源接收值的同时,这种参考数据实用工具以比当前可用的其他方法更低的成本传送品质更好的数据。
因此,本发明的第一方面涉及用于服务于多个接受者的参考数据实用工具,包括:数据输入,用于从多个源接收未处理的参考数据;处理器,用于处理所接收的未处理参考数据,以便生成具有增加价值处理后的参考数据;储存库,用于存储未处理参考数据与所述处理后的参考数据;以及输出生成器,用于根据接受者的说明生成用于传送到接受者的输出数据;因此,被传送的输出数据包含未处理参考数据与处理后的参考数据中接受者有资格接收的至少一个;其中,参考数据实用工具是可缩放的,以便支持增大数量的源以及增大数量的接受者。这种参考数据实用工具可被配置为多租户实用工具。这种参考数据实用工具可被实现为共享资源的系统。共享资源包括下列当中的至少一个:储存库、专家、处理、通信链路以及数据存储设施。
参考数据实用工具还可包括由租户执行对其客户的自服务管理的装置。
储存库可存储多个商业文档,且输出生成器可提供作为输出的一组被选文档。可提供对未处理参考数据进行净化的数据净化部分。参考数据实用工具还可包括:存储器部分,用于存储处理后与未处理的参考数据;并用每个未处理或处理后的参考数据元存储用于得出该元的所应用处理与数据源的记录。所述寻源与处理确定独立接受者对接收该元的资格。
接受者可以为由共享参考数据实用工具的使用的多个租户组织中的至少一个授予对特定参考数据源以及增强过程的资格的个体。接受者优选为基于它们的资格从订阅输出数据所选部分的独立个体和不同的商业组织中选出。
未处理的参考数据包括信息元,且参考数据实用工具还包括用寻源信息注释多个信息元的装置。信息元具有属性,且参考数据实用工具还包括通过寻源信息注释属性的装置。参考数据实用工具还可包括基于寻源信息维护关于接受者对信息元的资格的信息的装置。
参考数据实用工具可以由位于在地理上分散的区域中的部件组成。优选为,位于在地理上分散的区域中之一的部件足够作为独立的参考数据实用工具操作。每个独立参考数据实用工具包括本地储存库,并可包括用于在本地储存库之间交换信息的通信设施。每个独立参考数据实用工具可被专门用于提供与特定地理区域有关的信息,并可使用通信设施获得和提供来自其他地理区域中的其他独立参考数据实用工具的信息。
参考数据实用工具还可包括准确度报告器,准确度报告器用于报告由参考数据实用工具所执行的过程的准确度。其还可包括配置管理器,配置管理器用于管理参考数据实用工具的参数。
配置管理器包括下列中的至少一个:用于管理多个最大可允许并行数据增强过程的装置;用于管理在数据增强过程期间应用的单源净化过程的类型的装置;用于管理在数据增强过程期间应用的源间过程的类型的装置;用于管理将特定单源净化过程期间应用的规则的装置;以及用于管理将在特定源间过程期间应用的规则的装置。
输出生成器可包括:用于从接受者接收至少一个请求的装置;用于对所述至少一个请求进行解析以提取请求说明的装置;以及用于初始化至少一个工作流以便向接受者提供输出数据的装置。
本发明还涉及一种操作用于服务于多个接受者的参考数据实用工具的方法,包括:从多个源接收未处理的参考数据输入;处理所接收的未处理参考数据,以便生成具有增加价值的处理后的参考数据;存储未处理参考数据与处理后的参考数据;以及为特定的接受者生成输出数据;使得输出数据仅包含未处理参考数据与处理后的参考数据中接受者有资格接收的至少一个。
该方法还可包括对参考数据实用工具进行配置,以便使其对于支持增加数量的源、增加数量的接受者、增加数量的过程、以及增加数量与复杂度的资格中的至少一个是可缩放的。该方法还可包括在储存库中存储多个商业文档以及生成作为输出的文档的被选群组。优选为,该方法还包括净化未处理的参考数据。该方法还包括存储对源的访问权,其中,接受者有资格接收的数据由访问权定义。接受者是被共享参考数据实用工具的使用的多个租户组织中的至少一个授予对特定参考数据源以及增强过程的资格的个体,所述租户组织中的至少一个独立地与一个或一个以上的数据源进行商定以便具有对其数据的资格,并与参考数据实用工具进行商定以便具有将特定数据增强过程应用到所述至少一个租户组织有资格的其他参考数据得到的结果的资格。
未处理的参考数据包括信息元,且参考数据实用工具用寻源信息注释多个信息元。信息元具有属性,且参考数据实用工具用寻源信息注释属性。该方法还包括基于寻源信息维护关于接受者对信息元的资格的信息。
该方法还包括使用位于在地理上分散的区域中的装置。位于在地理上分散的区域中之一的装置可作为独立的参考数据实用工具被操作。每个独立的参考数据实用工具可包括本地储存库,且该方法还可包括在本地储存库之间传送信息。每个独立的参考数据实用工具可被专门用于提供与特定地理区域有关的信息,且该方法还可包括传送来自其他地理区域中的其他独立参考数据实用工具的信息。
该方法可包括报告由参考数据实用工具所执行的过程的准确度。源的准确度可通过记录对于从源接收到的值的品质增强动作、将新到达的参考值与该项目的当前多源推荐值进行比较、以及记录由源提供的值与推荐值的一致性的组合进行评估。
该方法还可包括管理参考数据实用工具的参数。参考数据实用工具的配置管理可包括管理下列中的至少一个:多个最大可允许并行数据增强过程;在数据增强过程期间应用的单源净化过程的类型;在数据增强过程期间应用的源间过程的类型;将在特定单源净化过程期间应用的规则;以及将在特定源间过程期间应用的规则。
生成输出可包括:从接受者接收至少一个请求;对所述至少一个请求进行解析以便提取请求说明;以及初始化至少一个工作流以便向接受者提供输出数据。
该方法还包括提供增值服务,其包括从包括下列的群组中选择的至少一个服务:基于动态传送输入数据集的数据驱动增值计算功能、商业文档的存储与检索、被存储的商业文档对商业事务的适用性的基于规则的验证、以及在支持商业事务时与商业文档相关联的参考数据的编排。
优选为,该方法还包括在参考数据实用工具的部件之间维护数据流中的时间准确度,以及维护针对每个接受者的源的总使用率的记录。可生成关于针对每个接受者的源品质与源使用率中的至少一个的报告。
该方法还包括通过以下手段创建增值计算服务的市场:建立可用服务的登记表;接受来自接受者的执行具有提供请求式数据集的输入数据的被识别的服务的请求;调用被请求的服务;使用请求式数据集将来自服务计算的结果返回到做出请求的接受者;监视服务实例以便记录报告信息。建立可用服务的登记表可包括:基于来自服务源的信息、使用服务所需的参考数据输入的说明、由每个服务计算生成的输出的说明,提供服务的描述,以及维护来自识别有资格使用服务的接受者的服务起源的资格信息。
对于增值服务实例的接受者请求可通过接收被请求服务的标识、服务所用的输入参考数据的说明以及指示来自服务的输出如何被返回到客户的传送说明而进行处理。调用被请求的服务可包括:验证使用服务的接受者资格;基于对于服务执行的原始请求的变换,通过形成并执行对传送子系统的请求式数据集请求来收集接受者指定的输入数据;验证接受者输入数据满足服务输入要求;以及执行服务实例。
可存储具有将其内容联系到参考数据值的注释的商业文档。该方法还可包括:从至少一个接受者接受具有参考数据注释的文档,在储存库中存储被注释的文档,以及基于从源到达的与注释有关的信息向接受者提供服务。验证测试可对于未处理参考数据与处理后的参考数据中至少一个的当前值执行。验证测试可应来自接受者的请求而执行。
本发明还涉及一种计算机可用介质,其具有包含于其中的计算机可读程序代码装置,所述计算机可读程序代码装置用于使计算机完成文中上面和下面所介绍的任何方法。本发明还涉及使用这种计算机可用介质的任何数据处理装置。
B.数据储存库
本发明的一个方面涉及一种对请求者有用的数据的多源多租户数据储存库,包括:数据库管理系统,该系统对数据库进行管理,该数据库包括来自多个源的描述至少一个被引用的实体的信息元;对于元的寻源信息的注释;以及请求者基于寻源信息的对信息元的资格;数据输入装置,用于将信息元放入数据库;以及数据输出装置,用于响应于来自请求者的请求基于信息元提供数据输出,,所述输出包含请求者基于资格而有资格的信息。请求者从包括以下的群组中选出:租户、客户、参考数据源、代表储存库的代理;代表租户的软件程序;以及代表储存库的软件程序。储存库还可包括用于将请求者认证为被授权于从所述储存库获取数据的装置。
资格包括下列中的至少一个:对于特定数据源所提供数据的资格;对于特定增强过程所生成的数据项的资格;以及对于来自特定过程的数据的资格,如果用于得出该数据的所有值是来自请求者有资格的数据源的话。
储存库可包括数据库部分,该部分用于存储这样的信息:该信息关于基于与数据源独立签订合同的租户对与所述储存库的租户相关联的请求者有资格接收的输出进行管理的一组资格。
信息元可包括从包括以下内容的元类型列表中取得的元类型:项目实例;版本化属性;特性;属性值;商业文档;功能定义;规则集;操作信息;媒体文档;标准描述;分层商业数据;新闻信息;结构化文档;配置信息;以及程序代码。
储存库实体可包括至少一个项目实例信息元,每个项目实例元包括至少一个版本化属性信息元。储存库实体还可包括用于在信息元选择操作中选择储存库实体的至少一个特性。项目实例可包括用于在信息元选择操作中选择项目实例的至少一个特性。
储存库可从至少一个项目实例接收用于包括在该储存库中的过程项目实例或元数据,其中,项目实例过程由储存库唯一地标识。储存库还可包括:用于形成与至少一个被引用实体对应的至少一个储存库实体的装置;以及用于基于对所述至少一个被引用实体的引用将用于被包括的项目实例或元数据与至少一个储存库实体相关联的装置。
数据库管理系统可包括:用于在数据库中将标识产生项目实例的项目实例过程的信息存储为至少一个项目实例的至少一个特性的装置;用于在数据库中以至少一个发展跟踪源数据标签的形式存储项目实例历史中的至少一个事件的装置,所述至少一个事件包括从至少一个项目实例过程接收到的所述至少一个事件的代理和源以及时间信息;用于以至少一个发展跟踪源数据标签的形式存储项目实例的版本化属性历史中的事件的装置,所述至少一个事件包括从项目实例过程接收到的所述至少一个事件的代理和源以及时间信息;用于存储每个项目实例的元数据的装置;用于存储每个储存库实体的元数据的装置;以及用于存储每个版本化属性的元数据的装置。
数据库管理系统可包括下列中的至少一个:用于在至少一个发展跟踪源数据标签中存储反映涉及项目实例的操作的至少一个事件的装置,所述至少一个事件包括所述至少一个事件的代理和源以及时间信息;用于创建新项目实例的装置;用于影响已有项目实例的装置;用于提供多个项目实例的复合处理的装置;用于向项目实例供应接收自源数据集的储存库实体的属性值的的装置;用于向项目实例供应接收自单源数据集的值增强以及品质保证产生的储存库实体的属性值的装置;以及用于向项目实例供应通过来自与同一被引用实体的同一属性有关的多个源数据集的值之间的比较和选择产生的储存库实体的属性值的装置。
数据库管理系统还可包括:用于解释请求以产生至少一个请求说明的装置;用于基于请求说明在储存库中选择被请求信息元以形成返回数据集的装置;用于将返回数据集过滤以便仅包括请求者有资格的信息元以形成过滤后的返回数据集的装置;以及用于向数据输出装置供应过滤后的返回数据集的装置。
请求者可来自包括以下内容的请求者群组:代表储存库租户的代理;代表储存库的代理;代表储存库租户的软件程序;以及代表储存库的软件程序。
用于解释的装置可产生请求说明,请求说明包括从包括以下内容的群组中采取的多个方面:请求者的标识;管理将被返回信息元的选择的选择判定;以及寻源偏好,当来自不同源的多个信息元可用于满足信息元选择判定时其包括请求者的所述至少一个偏好的优先化。
用于选择的装置可包括从包括以下内容的群组中采取的至少一个:用于选择与请求说明匹配的任何储存库实体的装置;用于选择属于与请求说明匹配的储存库实体的任何项目实例的装置;用于选择组成与请求说明匹配的项目实例的任何属性值的装置;用于选择与匹配于请求说明的任何储存库实体相关联的任何元数据的装置;用于选择与匹配于请求说明的任何项目实例相关联的任何元数据的装置;用于选择与匹配于请求说明的任何属性值相关联的任何元数据的装置;以及用于应用指定的请求者寻源偏好以形成返回数据集的装置,返回数据集包括:项目实例、属于该项目实例的属性值以及元数据。
用于过滤的装置可包括从包括以下内容的群组中采取的至少一个:用于保证所述至少一个请求者对负责生成任何被选项目实例的任何项目实例过程的资格的装置;用于保证所述至少一个请求者对任何被选属性值的资格的装置,其中,仅在请求者对提供属性值的至少一个源有资格的条件下,请求者有资格接收所述任何属性值;以及用于从返回数据集中移除请求者无资格的任何信息元的装置。
本发明还涉及一种信息处理装置,该装置包括用于维护多源多租户数据储存库的装置,其中,用于维护的装置包括:用于将所述多源多租户数据储存库形成为包括来自多个源的、对至少一个被引用实体进行描述的信息元的装置;用于在多源多租户数据储存库中用寻源信息注释来自信息元的多个元的装置;以及用于基于寻源信息对关于请求者对信息元的资格的信息进行维护的装置。
本发明还涉及一种多源多租户参考数据储存库,包括:用于向储存库输入来自多个源的关于商业工具信息、企业层次信息、企业新闻信息以及其他信息的信息的装置;用于对商业工具信息、企业层次信息、企业新闻信息和其他信息的改变以及每个改变的源进行注释的装置;用于基于对已提供或修改该信息的源和过程的资格对关于请求者获得商业工具信息、企业分级信息、企业新闻信息以及其他信息的资格的信息进行维护的装置;以及用于基于请求者指定的选择与寻源偏好并以资格为条件,响应于来自至少一个请求者的至少一个请求,返回商业工具信息、企业层次信息、企业新闻信息以及其他信息的至少一个子集的装置。
本发明还包括一种储存库装置,该装置包括:用于形成在适当的地方具有信息元结构的储存库的装置;用于将到达的信息元插入储存库的存储的装置;用于在形成每个信息元的发展跟踪源数据标签时用描述每个信息元的发展历史的注释对每个信息元进行注释的装置;用于为每个授权请求者对之有资格的储存库信息和数据源的授权请求者维护基于源的资格信息的装置;以及用于在提供对包括在储存库中的信息的资格强制执行受控访问的过程中使用发展跟踪源数据标签连同基于源的资格的装置。
本发明还涉及一种用于维护对请求者有用的数据的多源多租户数据储存库的方法,该方法包括:将多源多租户数据储存库形成为包括来自多个源的、描述至少一个被引用实体的信息元;用寻源信息注释多个元;以及基于寻源信息维护关于请求者对信息元的资格的信息。
资格包括以下当中的至少一个:对特定数据源提供的数据的资格;对特定值增强过程生成的数据项的资格;以及对来自特定过程的数据的资格,如果用于得出该数据的所有值来自请求者有资格的数据源的话。储存库的租户独立地与数据源和数据增强过程所有者签订合同,以便确定管理与租户相关联的请求者有资格接收的数据的一组资格。
该方法还可包括基于请求者指定的选择判定和寻源偏好并以至少一个请求者的资格为条件,响应于来自至少一个请求者的至少一个请求,返回一组信息元。用于响应的步骤可包括:从至少一个请求者接收至少一个请求;解释所述至少一个请求以产生至少一个请求说明;基于请求说明在多源多租户数据储存库中选择被请求的信息元以形成返回数据集;对返回数据集过滤,以便仅包括请求者有资格的信息元以形成过滤后的返回数据集;以及向请求者返回过滤后的返回数据集。
解释步骤可产生请求说明,所述请求说明包括从包括以下内容的方面群组中采取的多个方面:请求者的标识;管理被返回信息元的选择的选择判定;以及寻源偏好,其包括当来自不同源的多个信息元可用于满足信息元选择判定时对所述至少一个请求者的偏好的优先化。
选择步骤可包括从包括以下内容的群组中采取的至少一个步骤:选择与请求说明匹配的任何储存库实体;选择属于与请求说明匹配的储存库实体的任何项目实例;选择组成匹配于请求说明的项目实例的任何属性值;选择与匹配于请求说明的任何储存库实体相关联的任何元数据;选择与匹配于请求说明的任何项目实例相关联的任何元数据;选择与匹配于请求说明的任何属性值相关联的任何元数据;以及应用指定的请求者寻源偏好以形成返回数据集,该返回数据集包括:项目实例、属于该项目实例的属性值以及元数据。
过滤步骤可包括从包括以下内容的步骤群组中采取的至少一个步骤:保证所述至少一个请求者对负责生成任何被选项目实例的任何项目实例过程的的资格;保证所述至少一个请求者对任何被选属性值的资格,其中,仅在请求者对提供属性值的至少一个源有资格的条件下,请求者有资格接收所述任何属性值;以及从返回数据集中移除请求者无资格的任何信息元。
在该方法中,多源多租户数据储存库可包括从包括以下内容的信息元类型列表中采取的多个信息元类型:项目实例;版本化属性;特性;属性值;商业文档;功能定义;规则集;操作信息;媒体文档;标准描述;分层商业数据;新闻信息;结构化文档;配置信息;以及程序代码。
根据该方法,储存库实体可具有至少一个项目实例信息元,每个项目实例包括至少一个版本化属性信息元。储存库实体还可包括用于在信息元选择操作中选择储存库实体的至少一个特性。项目实例可包括用于在信息元选择操作中选择项目实例的至少一个特性。
形成多源多租户数据储存库可包括从包括以下内容的步骤群组中采取的至少一个步骤:多源多租户数据储存库从至少一个项目实例过程接收用于包括在该储存库中的项目实例或元数据,其中,项目实例过程由储存库唯一地识别;储存库形成与至少一个被引用实体对应的至少一个储存库实体;以及储存库基于对所述至少一个被引用实体的引用将用于包括的项目实例或元数据与至少一个储存库实体相关联。
注释可包括从包括以下内容的步骤群组中采取的至少一个步骤:将识别产生项目实例的项目实例过程的信息存储为至少一个项目实例的至少一个特性;以至少一个发展跟踪源数据标签的形式存储项目实例历史中的至少一个事件,所述至少一个事件包括从至少一个项目实例过程接收到的所述至少一个事件的代理和源以及时间信息;以至少一个发展跟踪源数据标签的形式存储项目实例的版本化属性历史中的事件,所述至少一个事件包括从项目实例过程接收到的所述至少一个事件的代理和源以及时间信息;存储每个项目实例的元数据;存储每个储存库实体的元数据;以及存储每个版本化属性的元数据。
储存库项目实例过程可包括从包括以下内容的步骤群组中采取的至少一个步骤:在至少一个发展跟踪源数据标签中存储反映涉及项目实例的操作的至少一个事件,所述至少一个事件包括所述至少一个事件的代理和源以及时间信息;使用创建新项目实例的过程;使用影响已有项目实例的过程;使用包括多个项目实例过程的复合过程;向项目实例供应接收自源数据集的储存库实体的属性值;向项目实例供应接收自单源数据集的值增强和品质保证产生的储存库实体的属性值;以及向项目实例供应通过来自与同一被引用实体的同一属性有关的多个源数据集的值之间的比较和选择所产生的储存库实体的属性值。
在该方法中,请求者可来自包括以下内容的请求者群组:代表储存库租户的代理;代表储存库的代理;代表储存库租户的软件程序;以及代表储存库的软件程序。
本发明还涉及一种用于维护多源多租户参考数据储存库的方法,该方法包括:将多源多租户参考数据储存库形成为包括关于来自多个源的商业工具信息、企业分层信息、企业新闻信息以及其他信息的信息;对商业工具信息、企业分层信息、企业新闻信息和其他信息的改变以及每个改变的源进行注释;基于对已提供或修改该信息的源和过程的资格,对关于请求者获取商业工具信息、企业分层信息、企业新闻信息以及其他信息的资格的信息进行维护;以及基于请求者指定的选择与寻源偏好并以资格为条件,响应于来自至少一个请求者的至少一个请求,返回商业工具信息、企业分层信息、企业新闻信息以及其他信息的至少一个子集。至少一个请求者可以是至少一个服务提供者的客户。根据该方法,
根据该方法,源可以来自包括以下内容的源的群组:商业数据的提供者;金融数据的提供者;等级数据的提供者;企业新闻数据的提供者;以及企业分层数据的提供者。金融信息可包括从包括下列内容中至少一个的数据群组中采取的数据:股票工具;债券工具;衍生工具;固定收益工具;不动产抵押工具;对等关系人信息;金融事务信息;企业事件信息;金融交易信息;金融结算信息;金融文档;其他金融工具;以及其他金融数据。
在该方法中,多源多租户参考数据储存库的形成可包括:保持商业工具信息、企业分层信息、企业新闻信息以及其他信息的历史状态的不同版本。
该方法还涉及一种数据储存库方法,包括:形成在适当的地方具有信息元结构的储存库;将到达的信息元插入储存库的存储;在形成每个信息元的发展跟踪源数据标签时用描述每个信息元的发展历史的注释对每个信息元进行注释;为每个授权请求者对其有资格的储存库信息与数据源的授权请求者维护基于源的资格信息;以及在提供对包括在储存库中的信息的资格强制执行受控访问的过程中使用发展跟踪源数据标签连同基于源的资格。
该方法还可包括作为输入到达的检索请求;且所述提供过程可包括形成将作为处理输出而返回的检索响应。
该方法还可包括使用该储存库来存储驻留于数据存储中的其他项目,所述其他项目包括下列当中的至少一个:商业增值功能、商业文档、功能规则集;操作规则集、功能日志记录、以及操作日志记录。
该方法还可包括将发展跟踪源数据标签与储存库中的至少一个信息元相关联;且所述注释可包括记录寻源信息以提供对信息元值的创建有贡献的源的可跟踪性。所述维护可包括更新作为输入接收到的资格信息。维护中的步骤可由服务提供者执行。
本发明还涉及一种计算机可用介质,该介质具有包含于其中的计算机可读程序代码装置,该计算机可读程序代码装置用于使计算机完成上文提到以及下文介绍的所有或任何方法。
本发明还与文中介绍的多源多租户参考数据实用工具一起使用,用于响应于来自客户的请求传送高品质的参考数据,其使用共享的基础设施实现,并使用客户的参考数据提供增值服务。可以利用:通过对每个值的完整寻源跟踪对所接收的数据进行数据净化与品质保证、在允许检索并强制执行基于源的资格的储存库中存储结果得到的实体值、以及以支持多种客户应用需求的请求式数据集的形式传送检索得到的数据。一种有利的实现具有用于对数据品质和使用率、商业文档存储与增值数据驱动计算的选择进行报告的附加服务。通过在多个客户之间使用共享基础设施以及摊还数据品质保证的成本,在保证客户仅从他们被许可的数据源接收值的同时,以比当前可用的其他方法更低的成本传送品质更好的数据。
C.数据值增强
本发明的一个方面涉及一种增强参考数据的值的方法,包括:使数据经受至少一个值增强过程;以及维护对参考数据的每个增值元的生成有贡献的所有数据源以及所有增强处理步骤的完整记录。该方法还包括:接收与来自第一数据源的被引用项目有关的数据;以及基于对来自多个源的同一引用项目的值的比较和处理生成增强的值。此外,该方法一般包括执行下列中的至少一个:通过手动过程与自动过程中的至少一个对数据进行验证;通过手动过程与自动过程中的至少一个对数据进行规格化;以及通过手动过程与自动过程中的至少一个对数据进行净化。
通常,参考数据包括源元,且所述验证包括:从源描述获取至少一个源元;以及执行从包括以下内容的步骤群组中采取的至少一个步骤:检测不符合源描述的任何源元;对不符合源描述的任何源元进行标识;校正不符合源描述的任何源元;以及移除不符合源描述的任何源元;以及将通过执行验证的步骤所生成的任何事件记录到至少一个发展跟踪寻源数据标签。
规格化包括:获取在源描述中的源元;将基于源描述的源元转换为基于对应的目标描述的至少一个目标信息元,其中,所述目标描述是描述储存库信息元当其被存储在储存库中时的结构、内容以及约束的信息;以及执行从包括以下内容的步骤群组中采取的至少一个步骤:检测不能被规格化的任何源元;对不能被规格化的任何源元进行标记;校正不能被规格化的任何源元;移除不能被规格化的任何源元;以及将通过执行规格化的步骤所生成的任何事件记录到至少一个发展跟踪寻源数据标签。
所述净化包括下列中的至少一个:自动化执行来自包含对源特有的净化规则的至少一个规则集中的至少一个规则;由熟悉与至少一个被引用实体有关的主题的人检查源元值;由熟悉与至少一个被引用实体有关的主题的人应用来自包含对源特有的规则的所述至少一个规则集中的任何规则;任何源元值的移除;任何源元值的增加;任何源元值的校正;任何品质关注事项的注释;向源报告关于所讨论源元的品质的查询;以及将从动作群组中所采取的任何动作生成的任何事件记录到至少一个发展跟踪寻源数据标签。
有利的是,该方法包括:选择包含描述同一被引用实体的信息的所有源元;将预定规则应用到源元与元属性中的至少一个;通过以下当中的至少一个从由不同源提供的替代物中选择优选项目或推荐项目中的一个:基于由不同源提供的属性组合创建至少一个新项目;或修改由不同的源提供的元;当创建至少一个新项目时创建新的对应的发展跟踪源数据标签;在源项目层用关于应用到项目的源间处理的信息来注释发展跟踪源数据标签。
如果已有的元已被选择但没有属性被修改,则本方法还包括:在项目的层提供注释以便指示哪些母源与所做出的选择匹配。如果发生数据在属性层的修改或新项目的创建,则该方法还包括为每个属性单独注释精确的一组源。
本发明还涉及一种数据处理方法,该方法包括产生至少一个发展跟踪源标签的数据集,其包括:从至少一个源接收至少一个源数据集,其中,源元包括源项目与源属性中的一个,每个源数据集具有至少一个源项目,每个源项目具有至少一个源属性;在至少一个发展跟踪源数据标签中记录针对每个源元的源标识,以及针对每个源数据集的源标识;获取从接收步骤与记录步骤产生的有关信息以便在至少一个发展跟踪源数据标签中形成至少一个可记录事件;以及形成所述至少一个发展跟踪源标签的数据集以包括至少一个发展跟踪源数据标签,所述至少一个发展跟踪源数据标签包括所述至少一个可记录事件,并包括所述至少一个可记录事件的至少一个源。
该方法还包括:从关于源数据集、源元、以及信息元中的至少一个的至少一个规则集中调用至少一个规则;以及获取由调用步骤发展的相关信息以便在至少一个发展跟踪源数据标签中形成至少一个其他可记录事件。
所述至少一个规则集可包括从规则群组中采取的至少一个规则,所述规则群组包括:用于检查源属性值的范围容差的规则;用于检查源属性值的改变率的规则;用于检查源属性值与其他相关源属性值的一致性的规则;用于检查源元的结构一致性的规则;用于检查源元与其他相关源元的一致性的规则;用于检查源元在多源多租户数据储存库中如目标描述所述地变换为目标信息源的适用性的规则;用于检查源元值与已有被引用实体信息的兼容性的规则;用于将源元识别为来自特定源的规则;用于在特定源间过程的背景下比较源元的规则;适用于源数据集的规则;适用于源元的规则;以及适用于信息源的规则。根据所述至少一个规则对从处理阶段群组中采取的至少一个处理阶段的适用性,所述至少一个规则被分组为至少一个规则集,所述处理阶段群组包括:验证、规格化、源特有的净化、以及源间过程。
规则可包括下列当中的至少一个:可执行测试条件;校正方法;识别规则所属于的至少一个规则集的信息。
根据该方法,可记录事件可包括从包括以下内容的数据群组中采取的数据:事件描述;事件代理;与事件有关联的时间信息;事件的至少一个源;事件的标识符;将事件与其所应用的信息元相关联所需要的信息;以及事件的分类。
所述调用步骤可包括从包括以下内容的步骤群组中采取的至少一个步骤:对至少一个源元执行验证;对所述至少一个源元执行规格化;对所述至少一个源元执行源特有的净化;以及对所述至少一个源元执行至少一个源间过程。
对所述至少一个源元执行验证的步骤可包括:从源描述获取至少一个源元;以及执行从包括以下内容的步骤群组中采取的至少一个步骤:检测不符合源描述的任何源元;对不符合源描述的任何源元进行标记;校正不符合源描述的任何源元;移除不符合源描述的任何源元;以及将执行验证的步骤所生成的任何事件记录到至少一个发展跟踪寻源数据标签。
对所述至少一个源元执行规格化的步骤包括:获取源描述中的源元;将基于源描述的源元转换为基于对应的目标描述的至少一个目标信息元,其中,所述目标描述是描述储存库信息元当其被存储在储存库中时的结构、内容以及约束的信息;以及执行从包括以下内容的步骤群组中采取的至少一个步骤:检测不能被规格化的任何源元;对不能被规格化的任何源元进行标记;校正不能被规格化的任何源元;移除不能被规格化的任何源元;以及将执行规格化的步骤所生成的任何事件记录到至少一个发展跟踪寻源数据标签。
执行源特有的净化的步骤包括从包括以下内容的动作群组中采取的动作:自动化执行来自包含对源特有的净化规则的至少一个规则集的至少一个规则;由熟悉与至少一个被引用实体有关的主题的人检查源元值;由熟悉与至少一个被引用实体有关的主题的人应用来自包含对源特有的规则的所述至少一个规则集的任何规则;任何源元值的移除;任何源元值的增加;任何源元值的校正;任何品质关注事项的注释、向源报告关于所讨论源元的品质的查询;以及将从动作群组中所采取的任何动作生成的任何事件记录到至少一个发展跟踪寻源数据标签。
执行至少一个源间过程的步骤可包括从包括以下内容的动作群组中采取的动作:检查来自引用同一被引用实体的多个数据元的源元;自动执行来自所述至少一个规则集的至少一个规则,该规则集包括对所述至少一个源间过程特有的源间过程规则;由熟悉与同一被引用实体有关的主题的人检查源元;由熟悉该主题的人应用来自包含对所述至少一个源间过程特有的源间过程规则的所述至少一个规则集的任何规则;选择作为优选值的任何源元值;任何源元的比较;任何源元值的移除;任何源元值的增加;任何源元值的修改;注释任何品质关注事项;创建至少一个项目实例以包括所述至少一个源间过程的结果;修改至少一个项目实例以包括所述至少一个源间过程的结果;将标识信息添加到至少一个项目实例以便将所述至少一个项目实例识别为所述至少一个源间过程的目标;以及将通过从该动作群组中采取的任何动作生成的任何事件记录到至少一个发展跟踪寻源数据标签。
该方法还可包括通过从包括以下内容的步骤群组中采取的至少一个步骤消除在比较源元的步骤中检测到的差别:基于商业规则自动选择源元;基于算法自动选择源元;由熟悉该主题的人基于该主题领域的知识手动选择推荐源元;由熟悉该主题的人基于自由获得的公共信息手动选择推荐源元;由熟悉该主题的人基于该主题领域的知识手动创建推荐源元;由熟悉该主题的人基于自由获得的公共信息手动创建推荐源元;以及将从步骤群组中采取的任何步骤生成的任何事件记录到至少一个发展跟踪寻源数据标签。
所述记录步骤可包括识别哪些源与被选的优选源元值匹配。另外,该方法还可包括:向熟悉该主题的人呈现所述至少一个源元;使能所述至少一个源元的手动验证的执行;执行手动验证;将执行手动规格化的步骤生成的任何事件记录到至少一个发展跟踪寻源数据标签。
该方法还可包括:向熟悉该主题的人呈现所述至少一个源元;使能所述至少一个源元的手动规格化的执行;执行手动规格化;以及将执行手动规格化的步骤所生成的任何事件记录到至少一个发展跟踪寻源数据标签。
被处理的整个一组参考数据可以关于多种不同话题,其中参考数据的源数据集被独立净化,每个源供应关于至少一个话题的源项目。
本发明还涉及用于参考数据的品质保证过程,其包括:接收来自至少一个源的源数据集中的参考数据,每个源数据集具有至少一个源项目,每个源项目具有至少一个源属性。其中,源元为源项目与源属性中的一个;在至少一个发展跟踪源数据标签中记录针对每个源元的源标识以及针对每个源数据集的源标识,使得至少一个发展跟踪源数据标签与每个源元相关联;在所述至少一个发展跟踪源数据标签中记录来自源元的验证、规格化、单源处理、及源间处理的步骤的数据发展事件;以及形成所述至少一个发展跟踪源标签的数据集以包括至少一个发展跟踪源数据标签,所述至少一个发展跟踪源数据标签包括所述至少一个数据发展事件与所述至少一个数据发展事件的源。
本发明还涉及一种制品,其包括其中含有计算机可读程序代码装置以便产生数据处理的计算机可用介质,所述制品中的计算机可读程序代码装置包括使计算机完成上面提到以及在下面详细介绍的任何一种方法的计算机可读程序代码装置。
根据又一方面,本发明涉及一种用于增强参考数据的值的装置,包括:使数据经受至少一个增值过程的装置;以及用于维护对参考数据的每一增强元的生成有贡献的所有增强处理步骤以及所有数据源的完整记录的数据库。该装置还可包括:用于从第一数据源接收关于被引用项目的数据的装置;以及基于来自对多个源的同一被引用项目的值的比较与处理生成增加值的装置。
该装置还可包括下列之中的至少一个:用于通过手动过程与自动过程中的至少一个验证该数据的验证装置;用于通过手动过程与自动过程中的至少一个对数据进行规格化的规格化装置;以及通过手动过程与自动过程中的至少一个对数据进行净化的净化装置。
通常,参考数据包括源元,且所述验证装置包括:用于从源描述获取所述至少一个源元的装置;执行选择含有以下内容的步骤群组的至少一个步骤的装置:以及用于执行从包括以下内容的步骤群组中采取的至少一个步骤的装置:检测不符合源描述的任何源元、对不符合源描述的任何源元进行标记、校正不符合源描述的任何源元、以及移除不符合源描述的任何源元;以及用于将执行验证的步骤生成的任何事件记录到至少一个发展跟踪寻源数据标签的装置。
所述规格化装置包括:用于获取源描述中的源元的装置;用于将基于源描述的源元转换为基于对应的目标描述的至少一个目标信息元的装置,其中,目标描述是描述储存库信息元当被存储在储存库中时的结构、内容与约束的信息;以及用于执行从包括以下内容的步骤群组中采取的至少一个步骤的装置:检测不能被规格化的任何源元、对不能被规格化的任何源元进行标记、校正不能被规格化的任何源元;用于移除不能被规格化的任何源元的装置;以及用于将执行规格化的步骤所生成的任何事件记录到至少一个发展跟踪寻源数据标签的装置。
所述净化装置包含下列之中的至少一个:用于自动化执行来自包含对源特有的净化规则的至少一个规则集的至少一个规则的装置;用于由熟悉与至少一个被引用实体有关的主题的人检查源元值的装置;用于由熟悉与至少一个被引用实体有关的主题的人应用来自包含对源特有的规则的所述至少一个规则集的任何规则的装置;用于任何源元值的移除的装置;用于任何源元值的增加的装置;用于任何源元值的校正的装置;用于注释任何品质关注事项的装置;用于向源报告关于所讨论源元的品质的查询的装置;以及用于将从动作群组中所采取的任何动作生成的任何事件记录到至少一个发展跟踪寻源数据标签的装置。
该装置还包括用于从多个源接收参考数据的装置以及用于通过手动过程与自动过程中的至少一个对数据进行选择和增强以产生增强值的数据的装置。
该装置可包括:用于选择包含描述同一被引用实体的信息的所有源元的装置;用于将预定规则应用到源元与元属性中的至少一个的装置;用于通过以下当中的至少一个从不同源提供的替代物中选择优选项目或推荐项目中的一个的装置:基于由不同源提供的属性的组合创建至少一个新项目、或修改由不同的源提供的元;用于当创建至少一个新项目时创建新的对应的发展跟踪源数据标签的装置;以及用于在源项目层次上用关于应用到项目的源间处理的信息注释发展跟踪源数据标签的装置。
该装置还包括:用于如果已有的元已被选择但没有属性被修改,则在项目层提供注释以指示哪些母源与所做出的选择匹配的装置。该装置还包括:用于如果发生数据在属性层的修改或新项目的创建,则为每个属性单独注释精确的一组源的装置。
根据另一方面,本发明涉及一种用于产生至少一个发展跟踪源标签的数据集的数据处理装置,其包括:用于从至少一个源接收至少一个源数据集的至少一个输入,每个源数据集具有至少一个源项目,每个源项目具有至少一个源属性;用于记录每个源属性的源标识、每个源项目的源标识以及每个源数据集的源标识的存储器;用于调用来自关于以下内容中的至少一个上的至少一个规则集的至少一个规则的装置:源数据集、源项目与属性;用于保留关于调用、接收和记录的步骤的相关信息从而产生至少一个可记录事件的装置;处理器,用于形成至少一个发展跟踪源标签的数据集以包括至少一个可记录事件以及所述至少一个可记录事件的事件发起者。
根据本发明,一种用于保证参考数据品质的数据处理装置包括:用于接收来自至少一个源的源数据集中的参考数据的装置,每个源数据集具有至少一个源项目,每个源项目具有至少一个源属性,其中,源元为源项目与源属性中的一个;用于在至少一个发展跟踪源数据标签中记录针对每个源元的源标识以及针对每个源数据集的源标识、使得至少一个发展跟踪源数据标签与每个源元相关联的装置;用于在所述至少一个发展跟踪源数据标签中记录来自源元的验证、规格化、单源处理、以及源间处理的步骤的数据发展事件的装置;以及用于形成所述至少一个发展跟踪源标签的数据集以包括至少一个发展跟踪源数据标签的装置,所述至少一个发展跟踪源数据标签包括所述至少一个数据发展事件与所述至少一个数据发展事件的源。
本发明可与文中介绍的多源多租户参考数据实用工具一起使用,用于响应于来自客户的请求传送高品质的参考数据,其使用共享的基础设施实现,并使用客户的参考数据提供增值服务。可以利用:通过对每个值的完整寻源跟踪对所接收的数据进行数据净化与品质保证、在允许检索并强制执行基于源的资格的储存库中存储结果得到的实体值、以及以支持多种客户应用需求的请求式数据集的形式传送检索得到的数据。一种有利的实现具有用于对数据品质和使用率、商业文档存储与增值数据驱动计算的选择进行报告的附加服务。通过在多个客户之间使用共享基础设施以及摊还数据品质保证的成本,在保证客户仅从他们被许可的数据源接收值的同时,以比当前可用的其他方法更低的成本传送品质更好的数据。
D.请求式数据传送
本发明的另一方面涉及一种用于满足至少一个请求式数据集请求的信息传送方法,该方法包括:处理来自至少一个请求者的所述至少一个请求式数据集请求;产生至少一个解析后的请求式数据集请求说明;配置至少一个请求式数据集产生过程以产生满足所述至少一个请求式数据集请求的至少一个请求式数据集;以及执行所述至少一个请求式数据集产生过程以便将所述至少一个请求式数据集返回到所述至少一个请求者,其中,请求式数据集被限制为从请求者有资格的源和数据增强得到的数据。
请求式数据集请求可包括使得请求者能够指定从包括以下内容的性质群组中采取的性质的至少一个请求式数据集请求说明:被返回的信息项目;被返回的信息项目的选择;在替代可用值之间进行选择的寻源偏好;传送模式;传送定时;传输协议;传输协议端口;安全令牌;优选数据格式;数据变换规则;被调用的定制功能;定制过滤规则;异常处理指令;注释指令;数据传送反馈机制指令;传送端点;传送中介;元数据处理指令;记入日志指令;路由指令;数据合并指令;以及数据分割指令。该方法还可包括从多源多租户数据储存库接收汇编在请求式数据集中的信息。
所述至少一个请求者可从包括以下内容的请求者群组中采取:多源多租户储存库的租户;代表租户的代理;代表储存库的代理;代表储存库的程序;以及代表租户的程序。
该方法还可包括使用传送模式传送所述至少一个请求式数据集,传送模式包括来自包括以下内容的传送模态群组的至少一个传送模态:准实时传送;已调度的分批传送;数据集市(mart)传送;一次性查询传送;电子邮件传送;传真传送;在线传送;打印硬拷贝传送;自动化语音传送;磁带传送;光盘传送;数字媒体传送;视频传送;以及条件触发传送。
所述至少一个请求式数据集产生过程的配置可通过针对所述至少一个请求式数据集产生过程中可分离的步骤使用至少一个动作构造块而使能。
所述至少一个动作构造块可从动作构造块集合中采取,其中,每个块使能从包括以下内容的功能群组中采取的至少一个功能:信息元选择;寻源选择;资格强制执行;数据汇编;传送调度;传输协议处理;标准格式变换;数据库加载;定制数据变换;记入日志;功能执行;过滤;注释;路由;数据分割;数据合并;以及数据发送。
至少一个请求式数据集产生过程的配置可包括:使用所述至少一个解析后的请求式数据集请求说明;选择用于包括在请求式数据集产生过程中的至少一个动作构造块,其中,所述至少一个动作构造块满足所述至少一个解析后的请求式数据集请求说明的至少一个性质;用执行参数对任何被选动作构造块进行参数化;以及将所选的参数化的动作块汇编到所述至少一个请求式数据集产生过程中。
请求式数据集产生过程的执行可包括从包括以下内容的步骤群组中采取的至少一个步骤:执行包括在请求式数据集产生过程中的汇编流的逻辑;按照所述逻辑所指示的次数执行请求式数据集产生过程的每一参数化动作构造块;向所述至少一个请求者发送所述至少一个请求式数据集;记录响应于所述至少一个请求所采取的动作的方面,以便使能在其后的时间重复所述执行步骤;以及将从包括以下内容的方面群组中采取的至少一个传送方面记入日志:传送时间;传送日期;传送内容;传送的请求者;传送模式;传送大小;传送过程的执行时间;传送的标识符;传送过程的任何错误;传送过程的任何警告;传送过程的成功;传送过程的反馈;与传送过程相关联的认可信息;传送的安全特征;以及所述至少一个请求式数据集请求。
请求式数据集请求可由从包括以下内容的动作群组中采取的动作发起:手动发起的请求;自动发起的请求;一次性请求;数据到达事件;数据可用性事件;数据删除事件;数据改变事件;数据时间事件;已调度请求;通过中介接收到的请求;以及在线发起的请求。
值得注意的是,该方法可缩放为允许通过来自多个请求者的多个传送请求的信息传送。该方法可使用信息传送请求的自动化处理,并可以对于每个传送请求的需要被特定地进行配置。
本发明还涉及响应于来自请求者的请求从多源多租户数据储存库返回参考数据的方法,其包括:接收来自请求者的至少一个请求;解析所述至少一个请求以提取请求说明;基于请求者的资格、选择标准、寻源偏好以及其他包含在请求者的请求中的偏好,对至少一个工作流进行配置,以便传送被请求的参考数据;以及执行工作流,将被请求的参考数据传送到请求者。
请求说明包括从包括以下内容的偏好群组中采取的至少一个偏好:选择标准;寻源偏好;数据格式偏好;传送传输偏好;以及对请求者特有的偏好。
所述配置可包括从包括以下内容的动作群组中采取的至少一个动作:检索被请求的参考数据;对被请求的参考数据进行过滤;以及对被请求的参考数据进行格式化。
本发明还涉及一种包括计算机可用介质的制品,该介质具有包含于其中的用于产生信息处理的计算机可读程序代码装置,所述制品中的计算机可读程序代码装置包括用于使计算机完成上面提到以及下面更为详细地介绍的任何或全部方法的计算机可读程序代码装置。
本发明还涉及一种用于满足至少一个请求式数据集请求的信息处理装置,该装置包括:处理器,用于处理来自至少一个请求者的所述至少一个请求式数据集请求;计算机程序部件,可被执行用于产生至少一个解析后的请求式数据集请求说明;程序配置装置,用于配置至少一个请求式数据集产生过程,以便产生满足所述至少一个请求式数据集请求的至少一个请求式数据集;以及计算机代码,用于执行所述至少一个请求式数据集产生过程,以便将所述至少一个请求式数据集返回到所述至少一个请求者;其中,请求式数据集被限制为从请求者有资格的源和数据增强得到的数据。
处理器处理请求式数据集请求,其包括使得请求者能够指定从包括以下内容的性质群组中采取的性质的至少一个请求式数据集请求说明:被返回的信息项目;被返回的信息项目的选择;在替代可用值之间进行选择的寻源偏好;传送模式;传送定时;传输协议;传输协议端口;安全令牌;优选数据格式;数据变换规则;被调用的定制功能;定制过滤规则;异常处理指令;注释指令;数据传送反馈机制指令;传送端点;传送中介;元数据处理指令;记入日志指令;路由指令;数据合并指令;以及数据分割指令。
在优选实施例中,该装置还包括用于从多源多租户数据储存库接收在请求式数据集中汇编的信息的装置。
该装置还包括用于从包括以下内容的请求者群组中采取的至少一个请求者接收请求式数据集请求的装置:多源多租户储存库的租户;代表租户的代理;代表储存库的代理;代表储存库的程序;以及代表租户的程序。
该装置还包括传送部件,其中,传送部件包括从包括以下内容的传送模态群组中采取的至少一个传送模态:准实时传送;已调度的分批传送;数据集市传送;一次性查询传送;电子邮件传送;传真传送;在线传送;打印硬拷贝传送;自动化语音传送;磁带传送;光盘传送;数字媒体传送;视频传送;以及条件触发传送。
该装置还可包括至少一个动作构造块,用于构造所述至少一个请求式数据集产生过程的可分离的步骤,从而配置所述至少一个请求式数据集产生过程。所述至少一个动作构造块可从动作构造块集合中采取,其中,每个块使能从包括以下内容的功能群组中采取的至少一个功能:信息元选择;寻源选择;资格强制执行;数据汇编;传送调度;传输协议处理;标准格式变换;数据库加载;定制数据变换;记入日志;功能执行;过滤;注释;路由;数据分割;数据合并;以及数据发送。
所述程序配置装置可包括:用于使用所述至少一个解析后的请求式数据集请求说明的装置;用于选择用于包括在请求式数据集产生过程中的至少一个动作构造块的装置,其中,所述至少一个动作构造块满足所述至少一个解析后的请求式数据集请求说明的至少一个性质;用于用执行参数对被选动作构造块进行参数化的装置;以及用于将被选参数化的动作块汇编到所述至少一个请求式数据集产生过程中的装置。
用于执行请求式数据集产生过程的计算机代码可包括从计算机代码部件群组中采取的至少一个计算机代码部件,其包括:用于执行包括在请求式数据集产生过程中的汇编流的逻辑的计算机代码;用于按照所述逻辑所指示的次数执行所述请求式数据集产生过程的每一参数化动作构造块的计算机代码;用于向所述至少一个请求者发送所述至少一个请求式数据集的计算机代码;用于记录响应于所述至少一个请求所采取的动作的方面,以便使能在其后的时间重复所述执行步骤的计算机代码;以及将从包括以下内容的方面群组中采取的至少一个传送方面记入日志的计算机代码:传送时间;传送日期;传送内容;传送的请求者;传送模式;传送大小;传送处理的执行时间;传送的标识符;传送过程的任何错误;传送过程的任何警告;传送过程的成功;传送过程的反馈;与传送过程相关联的认可信息;传送的安全特征;以及所述至少一个请求式数据集请求。
该装置还可包括用于响应于从包括以下内容的动作群组中采取的动作而发起请求式数据集请求的装置:手动发起的请求;自动发起的请求;一次性请求;数据到达事件;数据可用性事件;数据删除事件;数据改变事件;数据时间事件;已调度请求;通过中介接收到的请求;以及在线发起的请求。
本发明还涉及一种用于响应于来自请求者的请求从多源多租户数据储存库返回参考数据的装置,包括:用于接收来自请求者的至少一个请求的装置;用于解析所述至少一个请求以提取请求说明的装置;用于基于请求者的资格、选择标准、寻源偏好以及其他包含在请求者的请求中的偏好,对至少一个工作流进行配置以便传送被请求的参考数据的装置;用于执行工作流并将被请求的参考数据传送到请求者的装置;以及用于将请求式数据集限制在从请求者有资格的源和数据增强中得到的数据的装置。
该装置还包括响应于请求说明的装置,所述请求说明包括从包括以下内容的偏好群组中采取的至少一个偏好:选择标准;寻源偏好;数据格式偏好;传送传输偏好;以及对请求者特有的偏好。
所述用于配置的装置包括从包括以下内容的装置群组中采取的至少一个装置:用于检索被请求的参考数据的装置;用于对被请求的参考数据进行过滤的装置;以及用于对被请求的参考数据进行格式化的装置。
本发明还涉及一种用于响应于来自请求者的请求从多源多租户数据储存库返回参考数据的装置,该装置包括:用于接收来自请求者的至少一个请求的装置;用于对所述至少一个请求进行解析以提取请求说明的装置;用于基于请求者资格、选择标准、寻源偏好以及包含在请求者的请求中的其他偏好,配置至少一个工作流以便传送被请求的参考数据的装置;以及用于执行工作流并向请求者传送被请求的参考数据的装置。
本发明还与文中介绍的多源多租户参考数据实用工具一起使用,用于响应于来自客户的请求传送高品质的参考数据,其使用共享的基础设施实现,并使用客户的参考数据提供增值服务。可以利用:通过对每个值的完整寻源跟踪对所接收的数据进行数据净化与品质保证、在允许检索并强制执行基于源的资格的储存库中存储结果得到的实体值、以及以支持多种客户应用需求的请求式数据集的形式传送检索得到的数据。一种有利的实现具有用于对数据品质和使用率、商业文档存储与增值数据驱动计算的选择进行报告的附加服务。通过在多个客户之间使用共享基础设施以及摊还数据品质保证的成本,在保证客户仅从他们被许可的数据源接收值的同时,以比当前可用的其他方法更低的成本传送品质更好的数据。
附图说明
通过下面对有利实施例的详细介绍以及附图将可以更明了本发明的这些以及进一步的方面、优点和特征,在附图中:
图1A示出了该实用工具的示例部件结构。
图1B示出了参考数据实用工具储存库的示例内容。
图2示出了由实用工具进行的请求处理的最高级流程图的示例。
图3A示出了处理到达的源数据集的示例流程图。
图3B示出了处理客户传送请求的示例流程图。
图3C示出了处理源、客户与资格源数据的示例流程图。
图3D示出了处理增值服务请求的示例流程图。
图3E示出了处理报告与中央服务请求的示例流程图。
图4A示出了处理基于数据的计算服务请求的示例流程图。
图4B示出了处理商业文档存储或访问请求的示例流程图。
图4C示出了处理商业文档验证请求的示例流程图。
图4D示出了处理参考数据编排请求的示例流程图。
图5A示出了来自实用工具的示例报告类型。
图5B示出了实用工具管理服务的示例类型。
图6示出了实用工具的可缩放性、可用性和地理分散性。
图7A为在多源多租户数据储存库中对信息与相关联的基于源的资格进行管理的方法的示例。
图7B为在多源多租户数据储存库中对到达的信息、基于源的资格与检索请求进行交叉处理的流程图示例。
图8A为储存库的组织的示例.
图8B为储存库中实体的组织的示例。
图8C为实体中项目实例的组织的示例。
图8D为项目实例中版本化属性的组织的示例。
图9为用于将具有寻源注释的信息元插入储存库的流程图示例。
图10为用于维护基于源的资格信息的流程图示例。
图11A为基于请求者偏好响应于请求而返回来自储存库的信息元的流程图示例。
图11B为解释检索请求的流程图示例。
图11C为获取项目与项目信息选择判定的流程图示例。
图11D为定位被请求的信息元的流程图示例。
图11E为用于通过过滤检索所得值强制执行资格的示例流程图。
图12A示出了数据获取与品质增强部件的总体视图。
图12B示出了源间净化的总体视图。
图13示出了验证、规格化、单源净化与源间处理的流程图。
图14示出了单源数据集的验证的流程图。
图15示出了源输入流的规格化的流程图。
图16示出了源输入流的净化的流程图。
图17示出了校正验证错误的流程图。
图18A示出了校正规格化错误的流程图。
图18B示出了校正净化错误的流程图。
图19示出了源间处理的流程图。
图20A为示出响应于请求式数据集请求产生请求式数据集的流程图。
图20B为示出了请求式数据集请求说明的分析与解析中的步骤的流程图。
图21A为示出了请求式数据集产生过程的建立中的步骤的流程图。
图22A为示出了请求式数据集请求说明的结构的流程图。
图22B为示出了请求式模式案例树的流程图。
图23A为示出了请求式数据集产生过程中的处理步骤的流程图。
图23B为检索值并插入传送数据集步骤的流程图。
图23C为执行传送实例步骤的流程图。
具体实施方式
定义
属性——属性包含属性名与属性值。示例:属性名=“Exchange wheretraded”,而属性值=“NYSE”。属性中的每个属性值具有导向其创建的单个发展历史并具有至少一个源。在储存库中,同一属性的多个版本组成版本化属性。在一有利实施例中,关于每个属性的寻源与事件信息被存储在版本化属性的ETSDT中。
属性选择——属性列表或属性值的判定,其识别将作为请求的输出返回的被选储存库实体的特定属性值。
商业文档存储服务——一种在参考数据实用工具中存储商业文档并向所有者或其他有资格的客户提供对文档的访问的服务。每个商业文档可以与其验证以及数据编排功能关联在一起,所述功能在客户的商业操作中使用存储的商业文档为客户提供增值。这些增值能力可使用做出请求的客户的有资格的参考数据。
客户——参考数据实用工具的用户。每个客户与多源多租户储存库的租户相关联,在该储存库中,数据代表多客户被存储。租户可具有一个或一个以上的客户,每个客户具有租户的资格的子集。客户资格的管理被典型地留给租户,但可作为服务由实用工具提供。在任何时间点上,可以有多个代理或程序代表客户并在参考数据实用工具上进行请求。接着这些代理中的每一个被参考实用工具或参考数据实用工具的部件理解为请求者。代表客户的请求是为了获取传送数据、或是为了执行增值服务、或是为了提供报告等集中式服务或客户服务。每个客户通过定义其性质、授权、合同规约、服务级别与合同协议以及数据与服务资格的元数据请求对参考数据实用工具来说是可见的。这种信息在客户简档中概括。
客户简档——一组对参考数据实用工具客户的允许行为和偏好进行特征化的信息。其将典型地包括针对客户对身份、认证过程、合同协议、授权与授权更新过程、服务级别协议、缴费单安排、报告过程以及资格更新过程进行特征化的信息。该组客户简档由参考数据实用工具用于为其客户集合管理和配置数据与关联的服务传送。
数据净化——为每个源数据集判定到达的项目是否符合源数据集的源说明并验证在每个项目中收到的属性的完整性和正确性的过程。数据净化包括:获取、项目验证、项目规格化、源数据集特有项目净化、以及多源项目实例比较与值选择。
数据驱动计算服务——一种存储在参考数据实用工具中的商业计算或功能,其可以应来自实用工具客户的请求而调用。其是可用参考数据实用工具提供的增值服务的示例。每个数据驱动计算服务具有唯一的提供者,其使得该服务在参考数据实用工具中可用。提供者向实用工具的某组客户授予使用服务的资格。数据驱动计算服务定义包括数据输入与输出定义,其对它们作为输入需要的以及作为每个服务实例的结果返回的参考数据进行特征化。数据驱动计算服务的实例(调用)通过向请求者提供的特定组输入数据应用计算并返回一组输出数据来执行服务,该组输出数据成为请求者的特性,并被传送给请求者或为它们在储存库中进行存储。请求式数据集用于将功能提供者与每个请求者的特定输入与输出数据传送与格式需要隔离开来。示例:对复杂工具的投资组合(portfolio)计算评价功能。
数据驱动计算服务登记表(registry)——具有在此参考数据实用工具中被提供者变为可用的所有数据驱动计算服务的访问信息和描述的目录。此增值服务的登记表具有相关联的资格管理,这种资格管理是由参考数据实用工具的标准资格管理设施强制执行的,因此,数据驱动计算服务的提供者可向参考数据实用工具的特定客户授予执行它的资格。当其完成时,合适的SLA、缴费单和报告安排将被放到合适的地方。
数据驱动计算服务提供者——已经使参考数据实用工具中的至少一个数据驱动计算服务可用于实用工具客户使用的任何关系人。提供者自身可以是使得计算服务对其他人可用的实用工具客户,其可以是使得实用工具作为增值服务对某个客户可用的实用工具的代理,或者其可以是完全独立的第三方。增值计算服务的提供者控制其资格。
数据发展事件——任何导致信息元或源元变化的事件,其包括删除和创建信息元或源元。每个事件最小限度地包括标识符、时间戳、事件的至少一个源、事件的任何代理以及将事件与其属于的信息元或源元相关联的足够的信息。数据发展事件的扩展属性包括多种附加标识符、文本描述、分类等。简称“事件”也用于同样的概念。
传送数据集——作为请求式数据集的传送的一部分一次向请求者传送的数据块。传送数据集可以是大量或少量的数据。
传送实例——在一时间点上作为传送请求式数据集的一部分向请求者传输传送数据集的动作。
资格——请求者访问并接收由源和项目实例过程提供的信息的权利。如果特定的属性值由源X提供但出现在由项目实例过程P维护的项目实例中,则请求者仅在对源X与项目实例过程P都有资格时才对该项目实例属性值有资格。
资格储存库——维护含有以下内容的列表的信息储存库:所有被识别的请求者;所有源;所有项目实例过程;以及每个被识别的请求者对每个源及项目实例过程的资格。
实体选择——储存库实体或储存库实体属性判定的列表,其确定请求对之返回信息的一组实体。
发展跟踪源数据标签(ETSDT)——反映实体、项目实例或版本化属性的历史中的所有事件的信息集合。ETSDT记录这些事件的版本以及所有源和代理。在有利的实施例中,ETSDT被附着于:每个储存库实体、每个项目实例、以及每个项目实例的每个版本化属性。在替代实施例中,ETSDT可被分组、分割或附着于替代信息元。
信息元——储存库实体、项目实例、版本化属性、属性或特性中的一个。
项目实例——从单个源或项目实例过程提供的储存库实体的所有属性的信息。项目实例包括版本化属性的集合。项目实例承载识别用于创建其的源或项目实例过程的源信息。示例:基于来自卖主A、卖主B、卖主C的信息通过比较与选择过程产生的IBM股票的描述。某些项目实例是单源的,例如来自卖主A的关于特定IBM债券的数据。其他的项目实例是多源的并由项目实例过程创建,例如通过对一组源运行比较过程产生的特定IBM债券的信息。资格需要能够既授予对单独的源的访问,又授予对项目实例过程及其产生的项目实例的访问。在不同的时间从同一源到达的属性可导致:被认为是导致创建每个这种源数据集的独立项目实例的独立源数据集的属性、以及被认为是同一源数据集内的定时间隔且因此被包括为单个项目实例中的版本化值的属性。
项目实例过程——用于再检查、验证、净化、过滤或从数据集或多个数据集中进行选择以产生项目实例的过程,还有任何用于再检查、验证、净化、过滤或以其他方式影响已有项目实例的过程。项目实例过程可反映单源过程(在本文档的其他位置也称为“源特有的”)以及使用来自多个源的数据的过程。复合项目实例过程也是可行的,“规格化”和“规格化且单源净化”分别是简单与复合项目实例过程的例子。
元数据——关于信息元的描述性信息。示例:内部标识符、时间戳、分类信息、文本描述。
多源多租户数据储存库——具有多个资格授予源与多个租户的储存库,其独立地安排具有源与储存库所有者的所述资格的接收。
规格化——对于源数据集中的每个源项目,确定该项目包含关于其的信息的被引用实体并将项目中的属性转换为与对应于该引用实体的储存库实体的目标描述相兼容。这可包括将属性值改变为目标形式。
请求式数据集——响应于请求式数据集请求通过所产生的定制运行时过程动态创建和传送的数据逻辑流。请求式数据集中的数据来自从多源多租户数据储存库中检索的信息。请求式数据集或者作为单一传送实例或者作为传送实例序列被传送。
请求式数据集请求——创建并传送请求式数据集的请求。被请求数据的描述作为请求的一部分被传递。
请求式数据集请求说明——请求式数据集请求中描述被请求数据的部分。其描述请求式数据集的内容、源策略、格式以及传送详情。
请求式源——一种数据源,数据可以响应于来自实用工具客户的对该数据的请求从中被推入参考数据实用工具,通常在其被接收时具有输入处理、净化和品质保证。一旦被引入实用工具并被存储在实用工具的多源多租户储存库中,数据就可被传送到其他有资格的客户。
特性——不需要版本化的信息,因为其是公开的或以其他方式一般地可用于对储存库的所有租户的分发(例如元数据)。包含在特性中的信息典型地可用于在不需要检查资格的层次上进行针对储存库的一般请求。特性可应用于储存库实体或项目实例。示例:对查询“储存库中存在多少股票”做出响应,股票是所需要的一条分类信息。由于其是固有公开的可用数据,其可被作为特性暴露而不是作为版本化属性。
参考数据实用工具——用于作为服务从多个源向客户集合提供净化和增强后的参考信息的普通共享基础设施。其还提供增值服务和一般实用工具支持服务以及参考数据的传送。普通共享基础设施包括多源多租户储存库,其中存储原始和增强数据;其包括共享输入处理数据净化与增强,其中,所有信息源被跟踪;其包括请求式数据集传送,这允许对被授予资格的数据进行选择、检索和传送到所有匹配其传送说明的客户;其包括增值与集中式服务的提供。参考数据储存库的客户是用于为参考数据实用工具存储数据的多源多租户储存库部件的租户。术语“参考数据实用工具”常被简称为“实用工具”。
被引用实体——由存储在储存库中的信息描述的真实世界实体。示例:IBM发行的真实债券、企业、对等关系人或股票交易。
储存库——信息集合,其包括:储存库实体、增值服务与商业文档,在其中维护集合中每条信息的发展历史和有贡献的源的知识。
储存库实体——存储在储存库中的、描述单个被引用实体的信息集合。储存库实体由定义该实体的一组属性(其元数据,例如名称、特性)和项目实例的集合组成,每个项目实例包含从被识别的源或项目实例过程添加到储存库中的、关于储存库实体的附加信息。示例:储存库中对IBM所发行的特定债券、企业、对等关系人或股票交易进行特征化的信息。
储存库所有者——拥有储存库的组织或企业实体,其使得储存库数据服务对这样的租户可用:该租户受其与源的资格协议以及对储存库的项目实例过程的附加资格的控制。
储存库访问请求——来自被识别的请求者的、对存储在储存库实体中的信息进行访问的请求。处理储存库访问请求所需要的信息包括请求者标识、寻源偏好和选择判定。还可包括实体与属性选择。
请求说明——处理对多源多租户储存库的信息的请求所需的信息。在最低限度上包括请求者标识、寻源偏好和选择判定。还可包括实体与属性选择。
请求者——做出储存库访问或其他请求的代理。此代理可代表储存库客户做出动作或为储存库做出动作,或是代表这些关系人中的一个做出动作的计算机程序。对请求负责的请求者需要被识别,使得资格可响应于该请求被强制执行。请求者由请求者标识符唯一地识别。
选择判定——响应于对多源多租户储存库的信息的请求进行接收时请求者感兴趣的那些信息元的说明。请求说明的部件最常见的是指储存库实体、项目实例和版本化属性。
源——各自包含关于被引用实体的信息的一个或一个以上的源数据集的可识别供应者。源可由其源标识符唯一地识别。示例:卖家A与卖家C。
源准确度——源供应的属性值与从某些多源项目实例过程得到的被选值(推荐值)相一致的频率。这提供了储存库的不同信息源的相对品质的客观量度。
源属性——源属性组成源数据集中的源项目。参见下面对源项目的定义。例如,如果源项目将X公司的普通股票表示为从某个源接收而来,则X公司股票进行交易的交易所为源属性。源属性一般表示为名称-值对。
源数据集——来自特定的被识别源的源项目的集合;源数据集可在特定的时间点上变得可用,可变得连续可用,或可被请求序列应请求取回。示例:卖家A公开债券信息服务。源数据集由源数据集标识符唯一地识别。提供源的源标识符可以是源数据集标识符的一部分,也可以不是。
源数据集描述——描述源数据集的结构、内容以及出现在源数据集项目中的属性值的任何限制的信息。源描述由负责源数据集的源提供。
源数据集标识符——参见上面的源数据集的定义。
源元——源项目或源属性。
源标识符——参见上面对源的定义。
源项目——包含在单个源数据集中的信息,其描述特定的被引用实体。源项目是源属性的集合,其可包括被引用实体的全部或任何属性。
源使用率——特定源的客户的源使用率是来自该客户的请求导致该源提供的信息被传送的次数。其可以作为在某一固定时段内来自每个源的整体使用率被提供。注意,源的使用率可以是显式的或隐式的;显式的使用率是当该源通过识别该源的特定请求者策略被选择时;隐式的使用率是当偏好是针对某个多源项目实例且该源是该项目实例的被选值的供应者时。
源简档——源简档包含对参考数据实用工具使用的数据源的行为进行特征化的信息。其典型地将包括关于身份、认证过程、联系信息、授权、输入格式、源数据传送协议、数据校正协议、资格更新与该数据源的报告安排的信息。参考数据实用工具使用其源简档集合来管理和配置从所有数据源接收的数据的输入处理与净化。
寻源,寻源信息——数据的源;可以是项目实例过程(例如源间比较和选择过程)或特定数据提供者(例如卖家A)。
寻源偏好——源和项目实例过程的有序列表;请求者可能偏好属性和作为输出从请求返回的属性在初期以该次序从项目实例来到。由于储存库的请求处理强制执行资格,请求者将不会总是从该列表中的首选源接收属性和值,而是对于针对返回选择的值具有部分控制。
目标数据集——描述储存库实体信息的约束、内容和结构的信息,其包括存储在储存库中的属性、版本化属性以及项目实例。注意,这是仅从输入净化的观点的目标描述。储存库的客户可将目标描述看作对于储存库实体的概要(schema),其在客户的观点上看来是客户参考信息的提供者。
租户——一种安排为参考数据实体的用户或更具体地为储存库的用户的组织、个人或企业实体,且可以通过实用工具或储存库的所有者以及源安排为对信息和服务有资格。租户可向代表它们的被识别的客户传递资格。
话题(topic)——用于储存库中的分层组织的储存库实体特性。对于进一步的粒度,话题可被分为子话题。原则上,数据储存库中的每个储存库实体唯一地位于这种分层话题空间中。示例:金融工具定义或企业所有权分层是金融参考数据储存库中的话题的示例。金融工具定义话题可以分解为诸如普通股票定义以及债券定义的子话题;在债券定义中进一步分为企业债券与政府保证债券等等。
增值服务——在参考数据实用工具的背景下,为参考数据实用工具的客户提供增值的可选的服务,其与参考数据间接相关,并利用基础参考数据实用工具的性能。数据驱动计算服务与商业文档服务是可选地提供有参考数据实用工具的增值服务的示例。客户通过向参考数据实用工具发布增值服务请求来获得增值服务。有用地提供有参考数据实用工具的增值服务的示例包括数据驱动计算服务与商业文档存储服务。
增值服务请求——从客户到参考数据实用工具的获取增值服务的请求。
版本化属性——同一属性的一个或一个以上版本的集合,其中,每个版本由不同的一个或多个源产生。在有利的实施例中为属性名与一个或一个以上属性值的集合。在储存库中组织和存储版本化属性的有利实施例是属性的集合(如上所定义的),其中,集合中的所有属性具有同样的属性名。这种组织通过从一个源数据集向项目实例中的版本化属性移动或复制属性以及通过当某种增值过程创建已修改属性值时增加附加属性,而允许在储存库中构建版本化属性。版本化属性具有ETSDT,其中,关于版本化属性中的属性值的所有事件和源被记录。因此,多个“值”(有利实施例中为多个被包含的属性)可在项目实例的单个版本化属性中存在,其或者关于来自由某些项目实例过程修改的同一原始源的值,或关于从多个原始源中选择或组成的值。
一般组织
本发明将在四个部分中介绍,每个部分介绍一个单独的方面,如同上面在“发明内容”部分所用的那样。第一部分介绍具有特性的参考数据实用工具的方法和操作,该实用工具是可外包的、可共享的、能够支持多租户和多数据源并对其包含的信息强制执行资格和隐私权。每个源可向租户的任何组合授予对得自其数据的信息的资格。向每个租户授予资格的信息取决于用于得出它的源以及施加到源数据上的增强过程。该部分还介绍了可选的附加文档编排和计算服务,其可由参考数据实用工具提供以增加其对租户的价值。在有利的实施例中,参考数据实用工具包括这种增值服务。
第二部分介绍了形成与操作储存库的方法和结构,在该储存库中,信息被存储,对被存储信息的访问被授予请求者,并且与源和数据的增强处理有关的资格权通过用生成个体数据源的历史概要对个体数据源加标签来强制执行。
在有利的实施例中,参考数据实用工具将这样的储存库用作其参考数据的信息存储和访问方法。
第三部分介绍了执行到达参考信息的可缩放数据净化与增强的方法和组织,其中,支持单数据源增强处理和多数据源比较与增强处理,同时,该方法还维护对得到参考数据元时使用的所有源的完整认知。在有利的实施例中,参考数据实用工具将这种数据净化与增强处理作为其输入方法应用到来自源的到达信息。
第四部分也是最后的部分介绍了用于从储存库到请求客户的参考数据的可缩放请求式传送的方法和组织,其中容纳了对于数据传送的不同传迭内容、格式和模式的多种客户需求。在有利的实施例中,参考数据实用工具将该方法用作其输出方法以可缩放的方式从实用工具向与实用工具租户相关联的客户传送数据。
A.参考数据实用工具的操作的一般结构与方法
在第一主要方面中,本发明是一种方法和新颖的系统组织,其用于响应于来自客户的请求而形成和维护传送高品质参考数据的多源多租户参考数据实用工具,其用共享基础设施实现,并使用客户的参考数据提供增值服务。一种有利的实现提供用于报告数据品质和使用率的附加服务、增值数据驱动计算的选择和商业文档存储。
该方法实际上是一种对于参考数据的数据收集、品质保证、存储和传送的“装配线方法”。通过使得昂贵但关键的人类专业知识和再检查功能能够被集中化并高度杠杆化,被组织为自动化可扩充系统的、支持对不同话题、源、品质、模式与格式的多种客户要求的能力提供有价值的服务。该实用工具的设计允许对数据的有效率的全球寻源,产生了显著的规模经济。部件结构允许实用工具的不同功能的有效率的全球分布,这也使得随着商业的发展替换部件和对变化做出响应的能力成为可能。实用工具的客户从一个或一个以上的源通过实用工具间接接收它们的参考数据,该实用工具给它们带来重新配置其应用以便从不同的源接收参考数据的灵活性。收集和提供关于单个实用工具服务中的多种话题的参考数据的统一品质保证增加了客户的单独客户应用发现并使用最佳可用参考数据值的可能性。多源多租户共享储存库中基于源的资格的维护与强制执行允许单个共享基础设施容纳多个租户组织,在跨租户组织以及在租户组织之间具有独立的部门和应用,以便进行它们自己对来自所支持源的许可数据的安排。参考数据实用工具通过审计日志支持来保证数据源,使得实用工具的每个客户接收仅从它们被许可的源得到的值。这种可审计的保证基于为每个储存库实体值提供完全的数据透明性的方法。可获得完全的寻源文件编写;对客户的每个值传送被记入日志,其识别可用值和用户访问。处理参考数据时的规则适应性是对于每个单独的金融服务企业的昂贵事务,使用参考数据实用工具储存库通过统一的机制——其成本在所有客户组织间分摊——来提供这一事务提供了成本优势。标准的参考数据源促进了行业内部的连贯性与一致性。
通过共享储存库传送参考数据以及被跟踪的数据源与访问创建了这样的市场:其中,更高级别的金融服务提供者可向许多客户提供它们的模型并保证接收针对合同强制执行或记账的可靠的使用信息。客户使用对于储存库中它们有资格的数据的更高级别的服务,并保证数据访问规则将被强制执行并被监视以保证符合数据访问和传送规则。
参考数据实用工具提供实用工具解决方案中所预期的监视、报告和用户服务。一个有价值的创新点在于,实用工具基于其用于将来自不同源的同一属性值进行比较的过程提供不同可用数据源的准确度和品质的客观量度。
上面的能力在客户行为的安全和隐私得到维护的环境中提供。没有一个客户或数据卖家能够发现关于他人数据、查询或储存库对它们进行支持所采取的其他行动的信息。
参考数据实用工具通过用于访问操作以及实用工具中的数据和操作的集中式管理方案提供益处,其允许客户和数据卖家的适当访问以更新和自我管理在实用工具中不可见或适当地反映到其他动作者的资源。
该方法在这里被介绍为应用于金融服务企业所用的参考数据。这种用于提供多源多租户数据储存库——其提供对一组织用作参考的数据的共享访问——的方法具有许多其他可能的应用领域。对用户信用信息、政府法规和注册信息、以及电信使用信息的访问是该方法可能有用的三个附加示例。该方法将会有用的背景的特性及参考数据的特性为:(1)信息来自多个源;(2)在独立组织中可能有多个用户需要访问同一信息,但可能具有不同的源资格权利;(3)被参考信息由用户主要在只读模式下访问,除了他们参与到对无效值的校正时以外;(4)高品质且及时的信息是有价值的,对收集来说也是复杂的,因此,来自实用工具方法的高效率、共享基本设施与共享数据品质增强提供了显著的好处;(5)资格强制执行和隐私管理由储存库提供。尽管这里在金融服务参考数据——其是一个重要应用领域——的背景中介绍了本发明,但这里公开的方法使得提供满足上述要求的数据访问的有效储存库成为可能,其将在具有这些要求的任何背景下有价值。
图1A提供了参考数据实用工具的主要功能单元与部件结构及其相关联的操作环境的概图。在图1A中,多边形1描绘了参考数据实用工具的边界。代表实用工具1的客户6、7、8、9的圆圈出现在右边。代表不同类型的数据和服务源的虚线框2、3、4、5出现在左边。参考数据实用工具1可具有供给数据以及其他输入的多个源。出于说明目的,图1A使用七个数据源S1、S2、S3、S4、S5、S7和S8。这些数据源被分为三种类型,如下文所述。每个类型的源的数量不受限制。
在图1A的框2中分别被示为椭圆10、11、12的源S1、源S2和源S3代表被许可的、预先具有资格的数据源。从这些源接收的数据是专有的。每个源可独立地许可将其数据传送到参考数据实用工具1的客户。当参考数据实用工具1增强、存储和传送从这些源得到的数据时,其保有对每个所接收的数据项以及由其得到的任何值的源的认知。另外,参考数据实用工具1强制执行资格,以确保每个客户仅从其具有资格的源接收数据。在框3中用椭圆13和14表示的源S4和源S5属于由参考数据实用工具1连续使用和监视的原始源数据的未许可和公共类别。由于这种数据是公共的、未许可的,因此不预期对于这些值的分发的增加支付。这种信息典型地作为储存库实体的特性而不是实体属性——其被明确地版本化和跟踪——并入参考数据实用工具1的储存库20(下面讨论)。这种类别中的数据可由参考数据实用工具1自由使用以验证或增加其他的值与数据流。该类别中的源信息包括企业行为的新闻报告以及金融工具名称和性质的公布登记表。尽管该类别中的数据不需要跟踪以强制执行资格,但实用工具1的操作者也可出于多种原因——例如提供可审计寻源信息——选择对这种类型的数据进行跟踪,使得可以随时间对公共源的品质进行分析以消除低品质数据的公共源。
框4中用椭圆15、16表示的源S7与源S8属于提供这样的数据的请求式数据源类别:该数据仅作为来自实用工具客户的请求的结果应请求取回。因此,其与接收自规则许可数据卖家的推入数据流以及影响框3中的集中使用数据的解释的被连续监视的公共数据区分开来。关于罕见交易工具的定义与定价信息——例如地方当局或公共服务组织发布的债券——是框4代表的类别中的信息的示例。当特定的参考数据实用工具客户(最常见的是作为零售银行操作的一部分)需要这种信息时,储存库采取的行动将从适当的源请求该参考项的值并执行标准数据验证、存储和传送处理。
框5中用椭圆17和18表示的服务V1和服务V2是向实用工具1提供输入的不同类别的非数据源。通过第三方提供者使得数据驱动计算服务对实用工具1可用并用于为客户的数据增值。参考数据实用工具1提供了帮助客户寻找相关增值服务的市场并管理数据驱动计算服务对于客户数据的执行。实用工具的客户仅可使用有资格的服务,且服务当在代表客户采取行动时仅可访问客户有资格的数据。作为这种处理的一部分,服务的每个客户使用被实用工具1监视并记录。使用这种信息,参考数据实用工具1可有效率地代表并结合服务提供者从客户为它们的数据驱动计算服务使用索费和收费。在替代实施例中,实用工具对客户对计算服务的使用进行测量,且记账和支付由服务提供者处理。实用工具可综合这两种实现方式,为某些计算服务记账而不为其他计算服务记账。更高级别的增值服务是可选的。实用工具1使得它们的存在成为可能。它们增加到实用工具1上的功能为实用工具的客户提供了显著的增加值。
每个客户6、7、8、9可以为独立的企业或企业中的部门。每个客户从实用工具1接收以被传送的请求式数据集形式的高品质数据值。每个请求式数据集或者是对长期预订(代表了对特定参考项值的规则更新或准实时更新的持续兴趣)的响应,或者是对一次性特别查询的响应。每个客户还将控制数据值何时、如何、以何种形式传送。为了使实用工具能有广泛的吸引力,对大范围和灵活的数据传送服务进行限定、使得每个用户能具有以便利的格式传送给它们的数据值而不需要实用工具1内部的定制工程工作,这一点是很重要的。具有嵌入实用工具1的系统结构中的定制支持的灵活传送使得许多租户之间的数据成本的分摊成为可能,因此实现了作为有利的系统和方法的多源多租户数据实用工具1。
框19、20、21代表了数据值通过系统、从原始数据源通过传送到实用工具1的用户的流动中涉及的三个主要部件。框19代表负责将数据值收集到储存库系统并保证数据的高品质的数据获取和品质保证部件。框20代表负责储存库中所有被需要的持久信息的存储和访问管理的参考数据实用工具储存库部件。框21代表负责捕获每一请求者的请求式数据集请求说明并构建自动化传送过程以传送该信息的传送部件。
在框19中,数据获取和品质增强部件或框22、23、24分别表示对不同的数据话题T1、T2、T3的独立输入与品质处理。每个话题可具有为其提供数据的任意数量的源;单个话题可合并来自被许可的预先具有资格的数据源、自由访问数据源以及有资格的请求式源的任意组合的数据。例如,框24指示出自由源S5即椭圆14、请求式源S7即椭圆15与S8即椭圆16都供应关于话题T3的数据。框23从预先具有资格的源S3即椭圆12和自由源S4即椭圆13接收数据。框22从预先具有资格的源S1即椭圆10、源S2即椭圆11、源S3即椭圆12接收关于话题T1的数据。箭头39显示在数据获取和品质保证过程中接收或产生的数据被存储在储存库20中。为了使参考数据实用工具向用于其多个客户的数据强制执行基于源的资格,在框19的处理中必须维护对每个数据值有贡献的所有源的认知。框19的数据获取与品质增强处理还既支持单源值——其基于对描述被引用实体的一个被许可数据源的数据的分析——又支持多源值,多源值是通过将来自描述单个被引用实体属性的多个源的值进行比较并从该集中选择出优选值或推荐值而获得的。
下面介绍通过采用满足上述要求的发展跟踪源数据标签来使得参考数据的可缩放净化与值增强成为可能的方法。
数据获取与增强处理在框19中被应用于其上的所生成的数据还可作为数据驱动计算服务的输出或响应于某种客户请求从请求式数据源检索得出的数据而到达。在图1B中介绍可被存储在储存库中的这种类型的数据。
框21为客户传送部件,框30、31、32和33表示对于每个客户的请求式数据集处理。具体而言,框30为客户C1即圆圈6的传送处理,框31为客户C2即圆圈7的传送处理,框32为客户C3即圆圈8的传送处理,而框33为客户C4即圆圈9的传送处理。参考数据实用工具1可并行或串行地具有任意数量的客户。出于说明目的,使用四个客户C1、C2、C3、C4。对于每个客户,响应于来自该客户的请求的独立处理选择感兴趣的实体值并通过合适的传送协议与变换对它们进行传送。箭头41表示作为被送给参考数据实用工具1的储存库20的请求式数据集处理的一部分而生成的检索请求以及结果得到的信息返回,通过所述返回信息被存储在参考数据实用工具1的储存库20中,以便传送到客户。因此,箭头41显示,储存库20提供客户数据传送部件(框21)所需要的被请求参考数据值。
其他类型的功能被包括在实用工具的背景中。框34表示实用工具管理与报告生成服务。报告生成服务为客户和数据源创建一次性或周期性报告。这些报告提供关于利用、传送摘要、准确度和服务层报告的类似方面的信息。框35表示一般的客户服务功能,其通过操作请求、问题诊断、用户问题、对于特定参考值的关注或建议校正等等对客户进行协助。
框36表示由实用工具1提供的附加的增值服务。这包括应用在实用工具1对客户数据的请求上的数据驱动计算服务、数据集市(mart)托管和数据变换服务、以及商业文档存储服务。
椭圆37表示人工话题专家池,其为实用工具1中的手动处理提供关键决策。还可能需要这些人的专门知识参与到客户服务功能中。
箭头39示出了从数据获取与品质增强部件(框19)流入储存库20的数据。
箭头40显示,增值服务的实例在它们运行的同时使用对于被调用客户有资格的参考数据。箭头38显示,储存库20将探究(canvas)请求式数据源以收集附加信息。箭头42示出了调用参考数据实用工具1的增值服务(框36)、报告与实用工具管理(框34)以及一般服务(框35)的客户的示例。
图1B示出了参考数据实用工具储存库中存储的信息的示例。该信息包括框50中的资格管理实例数据。资格管理实体数据包括从单个源即框26得到的实体数据以及从提供替代值的多个源的比较——由这种比较已经选择出优选值或推荐值——得出的实体值,即框27。下面介绍用基于参考数据的源跟踪的资格管理提供和维护多源多租户数据储存库的方法。
图1B中的其他数据元示出了在参考数据实用工具1的储存库20中维护的信息,其并非作为资格管理实体数据被组织。适当地使用存储在被示为数据元53的资格储存库中的访问控制,对所有这种数据维护并强制执行资格。如上所述,实体数据的资格管理是基于源的,并需要维护关于对每个特定值的得出做出贡献的所有数据源的信息。对于储存库中的其他数据,资格管理包含简单访问控制,其使用现有技术中已知的技术来为每个对象记录哪些客户访问了它以及哪些操作对它们可用。所示的优选实施例包括集成到参考数据实用工具1的储存库20中的资格储存库;替代实施例在独立的资格储存库中维护同样的信息。
下面列出存储在参考数据储存库中的非实体数据结构,该储存库具有通过资格储存库提供的访问控制。数据元25代表从数据源接收的数据的日志。针对认可(non-repudiation)以及信息源跟踪维护这些日志。数据元29表示被传送到实用工具1的客户的数据的日志,其严格记录何时向每个客户传送了什么值。出于审计、透明性、符合规则以及记账的目的,对客户传送日志进行维护。数据元28表示用于合并来自独立源的输入以及确定来自多个源的信息何时描述单个被引用实体的规格化表和元数据。与图1A中的处理中使用的净化、规格化以及验证相关联的规则,框19,也可存储在参考数据实用工具1的储存库20中。数据元51代表源简档。每个源简档包含关于数据或其他输入源使用的交互协议、源格式化和编码的信息。数据元52代表客户简档。每个客户简档包含参考数据实用工具客户的租户信息、联系信息、记账与报告要求、操作授权、寻源、格式与传送策略偏好。租户简档为特定形式的客户简档,其对租户的每个客户拥有的总体资格进行特征化。源与客户简档用在参考数据实用工具1的配置操作中,以便保证对源以及客户特性更改以及对新源及客户的引入的灵活、独立的适应。
数据元54、55、56、57、58、59、60、61和62为可选的元,其用于支持与客户参考数据相关联的报告与增值服务。数据元54、55、56、61为分别对于数据源、客户功能提供者以及调节者在参考数据实用工具1的储存库20中累积和保存的报告。数据元57为增值数据驱动计算服务的登记表。数据元60代表以可执行形式的数据驱动计算功能。数据元58代表作为请求式数据集或作为数据驱动计算服务的输出而产生的客户数据集。数据元59代表商业文档储存库。数据元62管理对于参考数据实用工具的操作生成的报告。
图2以流程图的形式提供了由实用工具进行的请求处理的最高级视图。在此流程图以及下面的流程图中,实线表示控制流,虚线表示数据移动。作为此图的边界的框100与本发明的总体方法以及图1A与图1B中介绍的参考数据实用工具1的控制流对应。虚线箭头200表示由这种控制流处理的所有对参考数据实用工具处理的不同请求。
控制从左边流入框100,并进入单元201,单元201表示对于实用工具1的处理的请求的到达。对于处理的请求可由数据源、实用工具的客户、数据驱动计算服务提供者或实用工具自身的员工发起。单元201还包括唯一识别做出处理请求的人或代理的认证处理、确定请求者被授权做出请求的授权检查以及将请求记入日志以保证对实用工具所作所有处理的可审计记录。
决定单元202通过请求类型对请求处理进行区分,从而对于到达实用工具的每一类型的请求显示不同的处理路径。通过结果单元203的路径处理到达实用工具的新的源数据集。到达的源数据集在单元208中被处理,对该处理的介绍用图3A详细说明。处理203与208的结合是在图1A的方块19中执行的功能。通过结果单元204的路径处理来自客户的对于从实用工具传送参考数据的请求。客户传送请求的处理在单元209中被处理,对该处理的介绍用图3B详细说明。方块204与209的结合与图1A中方块21的处理对应。通过结果单元205的路径处理简档更新与资格更新。这些请求识别数据或增值功能的新客户、新源、新资格,或者对这些类型的先前注册信息的改变。这些请求的处理在单元210中处理,这种处理的介绍用图3C详细说明。方块205与210的处理是图1A中方块20内对数据进行处理的一部分。通过结果单元206的路径对与使用实用工具中的信息以便向客户提供可选的附加能力的增值服务相关联的处理的请求进行处理。这些请求的处理在框211中处理,并在图3D中详细说明。方块206与211的处理与图1A中方块36的处理对应。通过结果单元207的路径处理对于包括由实用工具生成报告的一般服务的请求,这些请求的处理在框212中处理并在图3E中详细说明。方块207和212的处理在图1A中用于一般服务的方块35与图1A中用于报告与实用工具管理请求的方块34之间分割。替代实施例将包含同样的功能但可将它们组织到不同的方块中。
在实用工具对于不同类型的处理请求中的每一个进行的单独请求处理后,控制流集合在决定单元213上。该决定单元确定处理是以下一个请求继续还是终止。在连续处理的情况下,控制流回到单元201,提供循环结构。从单元201到单元213的循环的每次迭代处理一个请求。在终止请求处理的情况下,控制流出框100,结束方法的流程。
为说明上的便利,图2的控制图示出了由参考数据实用工具顺序地对请求进行处理。通过使用事务处理、数据库与工作流或是本领域中其他公知技术,实用工具的替代实施例并行处理来自多个客户、源、功能提供者以及实用工具员工的请求。
从框100的处理退出可能发生以关闭实用工具。返回到单元201中的附加请求处理向参考数据实用工具1的客户提供了对其参考数据以及相关联的实用工具服务的连续可用访问。
图3A提供了示出了在对从源到达的数据集进行处理时的步骤的高级流程图。其是对图2中首先介绍的处理单元208的详细说明。到达的数据被净化并被用于生成新值,以便插入多源多租户数据储存库20(这里称为“储存库”)中。新值可触发数据向客户的附加传送。净化数据以及生成存储在储存库20中的值时的事件可被记入文档并用于更新关于数据寻源过程的实用工具报告。
单元208作为图3A中的流程的边界,其显示出该流程是对新的源数据集的处理的详细说明。控制从上方进入单元208并流向单元301,在单元301中,到达的源数据集与其源相关联。储存库20将为其正在使用的每个数据源维护说明性以及处理控制信息。关于每个数据源的信息被保存在单元51中的一组源简档中的一个源简档中。源简档中的信息包括认证令牌,实用工具可使用认证令牌来验证数据集来自期望的源、准确的源数据格式的定义、该数据源与联系安排对于处理源的误差校正过程所使用的其他传统与协议、以及对于来自该源的附加数据的请求。
数据元51是实用工具1对于源使用的一组源简档。从单元51到单元301的虚线箭头表示单元301对于提供新数据集的源选择合适的源简档并使用来自该源简档的信息改善对数据集的后面的处理的行动。在有利的实施例中,源简档被存储在参考数据实用工具1上的储存库20中,如图1B所示。
流程中的下一个步骤,单元302,提供了新源数据集中信息的净化和品质保证,并在品质保证与数据增强处理中对于储存库实体及其特性以及文档事件生成增强的值。该步骤需要用于通过增强事件跟踪对参考数据的可缩放净化和值增强的方法,例如如下面所介绍的。
净化与数据保证处理的动作之一是出于认可、源跟踪与审计目的生成从数据源接收的数据的日志。该动作用将单元302连接到被接收数据日志即数据元25的虚线箭头表示。在有利的实施例中,被接收数据日志被存储在参考数据实用工具1的储存库20,如图1B所介绍。
控制流中的下一个步骤,单元303,将从单元302得到的值存储为如数据元50示出的资格管理实体数据。用每个被存储信息元的起源信息对这种实体数据进行注释,使得当实用工具向客户传送信息时,基于源的资格可被强制执行。在有利的实施例中,如图1B所示,资格管理实体数据被存储在参考数据实用工具1的储存库20中。维护多源多租户数据储存库的一种方法以及向其中插入新值的处理步骤在下面详细介绍。
将单元303与数据元50即资格管理实体数据连接的虚线箭头显示,所得到的值被添加到该数据元中。从数据元50到(处理)单元308的第二虚线箭头示出了对资格管理实体数据的更新与插入,其触发将新值添加到请求式数据集中用以进行向客户的后续传送的传送处理。这种触发在图3B中讨论的传送处理流程中介绍。
在步骤302的处理期间,事件出现在实体值的发展历史中。示例包括:对来自源的不正确值的校正、对来自源的校正的后续确认、以及基于对来自多个源的对应值的比较对推荐值的选择。这些净化事件被捕获并承载关于从每个源到达的数据的品质的重要信息。接下来的步骤,单元304是对所捕获的源数据品质信息进行分析并将之包括在由实用工具为每个源生成的关于其所提供的数据集的品质的报告中的处理。来自单元304的虚线箭头显示该信息被传递到表示源报告的数据元54。实用工具1上进行的处理维护关于源数据品质的报告。可向每个源给予对关于其所提供的数据集的
实用工具报告的访问。
图3B提供了示出了处理客户传送请求的步骤的高级流程图。
在下面详细说明框209,以便显示在完整的实用工具背景下,响应于来自实用工具客户的请求式传送请求提供增值数据传送。
请求式数据集请求(下面称作“请求”)在框311中进入实用工具。第一个步骤是将请求式数据集请求与实用工具客户相关联并对之进行验证。这以本领域技术人员已知的标准方式进行,使用多种已知方法中的一种针对存储在实用工具的储存库中并被表示为数据元52的实用工具简档信息来验证包含在传送请求中的凭证。包含在请求者的客户简档中的信息被检索,如表示从数据元52到框311的数据流的箭头所示。
一旦请求已被验证并找到匹配的客户简档,由决定框312代表的步骤确定是否在对请求进行响应的过程之前收集附加的值,如下面所介绍。在该步骤中独立地对请求进行解析,在替代实施例中,其可以与所做的解析合并为对请求进行响应的一部分。附加值收集包括:从请求式源请求附加输入数据以及针对现有储存库数据动态执行数据驱动计算服务。在有利的实施例中,结果得到的新数据经过图1A中介绍的框19所介绍的数据获取与品质增强过程,接着被存储在参考数据实用工具1的储存库20中。照此,附加值收集构成了实用工具提供的单独服务,其具有自身的相关联的资格。因此,步骤312检查来自资格储存库即单元53的信息,以保证请求者对附加值收集服务有资格。可进行针对储存库20中的当前可用实体数据的查询,以便访问其相对于请求的状态。可以考虑其他的约束,例如客户所请求的传送时间帧是否容许附加值收集。如果需要附加值收集,则在框313中发起合适的值收集过程。这可包括从请求式数据源4请求数据。结果得到的新实体值被添加到资格管理实体数据,由从框313到数据元50的虚线箭头显示。一旦完成附加值收集,或如果不必要进行附加值收集,则对请求进行响应的过程如下面所述地发起(框314)。过程包括:从多源多租户数据储存库20即参考数据实用工具的储存库检索有资格的数据值,框50。当传送过程结束于请求式数据集的形成以及向请求者的传送之后,生成对客户传送日志的更新,即单元29。框314显示,更新被产生并被添加到数据元29中的客户传送日志。在该流程中接下来的框315创建并存储关于数据源使用以及所接收数据摘要的客户报告。将框315与数据元55连接的虚线箭头表示这种报告活动。在有利的实施例中,客户传送日志与客户报告被保留在参考数据实用工具储存库中,如图1B所示。
图3C提供了显示对到达的元数据进行处理的步骤,所述元数据对实用工具的数据源、租户、客户以及特定客户的资格进行特征化,该资格包括对来自特定源的数据的资格以及对增值服务的资格。实用工具1维护关于源、客户以及资格的当前元数据,以便对其配置进行适应,并控制其对所有其他请求的处理。图3C是在图2中首先介绍的框210的详细说明,其还被示为作为图3C中的控制流的边界的框210。
控制从上方进入框210,并流进决定单元321,该单元确定元数据请求的类型。每个元数据请求或者是结果单元322表示的关于源的新信息,或者是结果单元324表示的关于客户的新信息,或者是结果单元328表示的关于资格的新信息。
对源进行特征化的新的元数据信息在单元323中通过创建或更新源简档被处理。实用工具维护针对每个提供源数据集的源的源简档,即数据元51。这些可以是提供原始数据或过程的基本源(例如项目实例过程),其从其他的数据创建附加或增强的数据值。如果到达的元数据描述了新的源数据,则在步骤323中创建源简档。如果到达的元数据是对实用工具先前已知的源的更新,则在步骤323中对该源的简档进行更新。元数据请求也可触发在该步骤中删除不再使用的源的简档。源简档包含净化、品质增强并将数据从该源变换到储存库实体区域所需要的控制信息。这包括验证作为到达数据的起源的源的验证令牌、来自该源的接收数据集的格式、编码和协议、校正交互的联系安排、报告安排、授予代表该源的代理的数据访问与更新授权。对用于得出增强值的项目实例过程进行特征化的元数据类似于原始源数据并在同一步骤中被处理。
对实用工具的客户或租户进行特征化的新的元数据信息在单元325中通过创建或更新该客户或租户的简档被处理。实用工具为其客户中的每一个维护客户简档,即数据单元52。如果到达的元数据描述新的客户,则在步骤325中创建客户简档。如果到达的元数据是对实用工具先前已知的客户的更新,则在步骤325中更新该客户的简档。元数据请求还可触发在该步骤中删除不再有效的客户的简档。客户简档包含处理和控制来自该客户的对数据传送、增值服务、用户服务及报告的请求进行的处理所必需的信息。这包括确定请求何时通过该客户或其代理发起的验证令牌、识别和规定该客户的每个代理的操作访问权利的授权信息、适用于实用工具所提供的响应的服务层协议、该客户的定价与容量安排、将由实用工具提供的报告服务、用于与该客户交互的联系信息以及优选数据输出。
在更新源或客户简档之后,控制流到决定单元326,其测试新的源或新的客户是否已被引入。如果已被引入,处理流到步骤327,在步骤327中,用对新数据源或客户的引用更新资格储存库53。这种更新将允许新源授予的或授予新客户的基于源的资格被添加到资格储存库53中。相反地,如果决定单元326中的测试显示,元数据更新是针对现有源的简档或客户简档的,则在此时不需要对资格储存库53的改变。
如果决定单元321中的测试结果是新的元数据是资格改变,则控制流经结果单元328,流入处理方块329,在方块329中,对资格储存库53进行更新以反映这种资格元数据。
资格的改变是对原始实体数据的基于源的资格的改变、对数据增强过程的资格改变、或是对增值服务或其他实用工具对象的简单资格的改变。基于源的资格的改变采用新的修改或删除的授予的形式,其向一个或一个以上的客户授予对来自一个或一个以上的源或项目实例过程的数据的访问。这种情况下所需要的处理是进行对资格储存库中资格授予列表的适当改变。下面更详细介绍了示出了对资格储存库的更新的应用的典型流程,其对应于单元327与329。先前介绍的步骤327的处理保证对于授予源和被授予客户的有效引用已在资格储存库53中处于适当的位置。作为替代且在逻辑上等效的实施例提供了一个步骤的过程,其将开始的被授予客户列表并入对于新源的元数据更新,或将被授予的源的列表并入对于新客户的元数据更新。
步骤329还提供了对于控制客户对参考数据实用工具的增值服务或其他资源的访问的简单资格更新的资格储存库53。对于这种子情况,该过程是使用现有技术中公知的访问控制技术在资格储存库53中的简单访问控制列表更新。作为替代且等效的实施例将用于简单访问的该步骤并入新客户元数据的处理以便减少独立处理步骤的数量。
在有利的实施例中,数据元51(源简档)、52(客户简档)以及资格储存库53被存储在参考数据实用工具1的储存库20中,如图1B所示。尽管资格被描述为主要作为客户或租户组织对特定源的资格授予,但在替代实施例中,资格还可与增值服务相关联,该增值服务指示出有资格使用服务的任何人也取得对与该服务相关联的某些数据或源的资格。具有这种特性的增值服务的提供者有望获得再分配权利,以便在此基础上从数据的任何源传送对被提供给客户的数据的资格。
在对资格储存库53、客户与源简档进行适当的更新之后,控制流出框210。元数据更新的处理完成。
图3D示出了用于处理对于增值服务的请求的高级处理流程,其是图2中的框211的扩展。在参考数据实用工具的背景下,增值服务被间接关联到参考数据;例如,其将参考数据用作不同数据驱动计算服务的输入或提供对于与参考数据有关的商业文档的存储服务。增值服务与参考数据之间的关系存在,使得在单个逻辑系统(例如实用工具)中把它们放在一起是有利的。图3D示出了两种类型的增值服务:基于参考数据的数据驱动计算服务和商业文档存储服务。
决定单元331确定所接收到的增值请求是否与数据驱动计算服务即框332相关联,或者是用于商业文档存储服务即框333的。如果该请求是用于数据驱动计算服务的,则控制流到结果框332。在这种情况下,处理流到决定单元334,该单元是区分与数据驱动计算服务相关联的两类请求的测试。请求可包含来自提供者的更新后的或新的数据驱动计算服务的说明和可执行文件,该服务对参考数据实用工具1的某些用户组可用。对其的处理——用框335表示——用描述这种新近可用的数据驱动计算服务的信息更新可用增值服务的登记表,如从框335到数据元57的虚线所示。功能的可执行文件也可存储在图1B所介绍的参考数据实用工具1的储存库20中的数据驱动计算功能即数据元60的库中,如从框335到数据元的虚线所示。
在有利的实施例中,数据驱动计算服务的输入与输出数据集被指定,使得它们可以如下所介绍地产生和消耗请求式数据集。这意味着数据驱动计算服务的提供者可以将之设计和开发为接受单一格式和传送模式的输入数据;类似地,其将产生单一格式与传送模式的输出数据。参考数据实用工具客户接着可使用请求式数据集处理来将其与它们有资格的任何数据连接,并将计算结果馈给到它们自己的应用,而不需要开发定制的数据格式化和传送逻辑。
与数据驱动计算服务相关联的其他类型的请求是来自参考数据实用工具1的客户的、通过调用具有规定输入数据的特定数据驱动计算功能并将产生的结果作为请求式数据集返回而提供服务实例的请求。这种处理用框336表示,其显示数据驱动计算的输入与输出可以为请求式数据集,该数据集或者用以单元50表示的资格管理实体数据填充,或者用以单元58表示的参考数据实用工具1的储存库20中的客户数据集填充。图4A提供了关于流程图中的方块336的处理的附加细节,其示出了数据驱动计算服务的计算增值服务流程的步骤。优选实施例将请求式数据集作为增值功能的输入接受,等效的替代实施例允许增值功能请求作为其计算的一部分的请求式数据集的创建。
决定单元337在与商业文档存储服务相关联的三种不同类型的请求的处理之间进行区分。框338、339和340表示不同类型的商业文档存储服务请求。框338是将商业文档插入商业文档储存库(数据元59)或更新或检索先前存储的商业文档的简单请求。这种处理在图4B中进一步介绍。
框340表示定位适于通过特定商业事务使用或管理特定商业事务的商业文档或验证针对特定商业事务的被识别文档的适用性的请求。这种类型的商业导向文档查询的示例为:“对等当事人X与Y之间处理金融工具A与B的主交换协议存在吗?”对这些请求进行处理的这种处理在图4C中进一步介绍。
框339代表更复杂类型的商业文档存储服务请求,其涉及对客户参考数据的编排以在特定商业操作中支持一个或一个以上被存储的商业文档的使用。这种功能在图4D中更为详细地介绍。
图3E更为详细地介绍了实现图2的框212中先前所介绍的一般服务或报告请求所需要的处理。控制进行到决定单元350。对该请求进行检查,以便确定一般服务请求的类型,并将该请求作为用户服务请求即框352、实用工具报告请求即框359或实用工具管理功能即框353进行路由。用户服务请求在框354中被处理,其后,控制进行到框212外。在框358中,实用工具报告请求收集数据,其后,被请求的报告在框360中生成,其后,控制进行到框212外。在框357中执行实用工具管理功能,其后,控制进行到框212外。将框360连接到数据元54、55、56、62的虚线箭头分别表示源、客户、功能提供者以及管理报告的生成。在有利的实施例中,这些报告被保留在引用数据实用工具1的储存库20中,以便由拥有关系人进行后面的访问。
图4A提供了示例流程图,其示出了提供数据驱动计算服务的功能服务实例的步骤。该流程是对于图3D所介绍的框336的详细说明,并示出了设置和执行数据驱动计算服务的功能服务实例所涉及的详细流程。如关于图3D所介绍,对于数据驱动计算服务的请求使用与请求式数据集请求相同的一般结构。框636显示了与计算服务请求有关的请求说明的主要方面。这些方面为:1)将被调用的计算服务(功能)的标识;2)将被使用的输入数据的说明;3)将返回结果的传送模式、格式等等的说明;以及4)请求者的身份。请求者的身份以几种方式使用,其中之一是检查请求者对所请求的计算服务有资格并满足服务所施加的任何特殊要求。决定单元638使用资格储存库(数据元53)和增值功能登记表(数据元57)测试这种资格。如果请求者对被请求的计算服务没有资格,则处理停止,控制从框336的底部退出。
在成功完成检查后,该过程公式化请求式数据集请求以便为被请求的功能实例收集输入数据。这是通过计算服务请求使用与下面介绍的请求式数据集请求相同的结构而使能的。结果,诸如选择偏好与寻源偏好的数据集说明方面可被包括在计算服务请求中。计算服务可代表请求者动态地公式化一次性请求式数据集请求,并将该请求提交到实用工具1的数据传送部件。作为此请求的一部分,计算服务可规定将被返回的数据的结构和其自己的优选格式,从而移除理解预先定义的数据模型的限制。
将原始的功能调用请求映射到对数据传送子系统的新的子请求所需要的分析在框639中示出。原始请求的选择判定与寻源偏好照原来的样子被复制到所生成的请求,而格式与传送模式由计算服务直接规定以便适合接收和使用输入数据的偏好。原始请求者的身份也被传送。在框645中,所生成的请求被组成并提交到实用工具的数据传送子系统,并且响应被作为请求式数据集接收。从框50到框645的箭头表示来自资格强制执行储存库的请求式数据集的移动。由于数据是从用数据元50表示的资格强制执行储存库中提取的,所以自动保证了基于原始请求者身份对数据的资格的强制执行。这提供了附加的好处,因为其移除了进行它们自身的输入数据的资格管理对计算服务的需求。输入数据还可作为来自客户数据集的请求式数据集到达,如来自数据元58的箭头所示。
用决定单元643表示的处理中的下一个步骤进行测试,以确定满足功能要求以及请求客户资格的输入数据是否可用。如果从上一个步骤返回的数据不够,则进行适当的日志记录并绕过其余的处理,控制立即从框336流出。如果足够的数据可用,则在框640中执行功能服务实例。
框641显示出以请求式数据集的形式向原始请求者(客户)返回结果或代表请求者将它们保存在参考数据实用工具1的储存库20中作为客户数据集(数据元58)的步骤。在有利的实施例中,这使用实用工具的能力来支持如下面的部分D所述的请求式数据集传送。由于请求式数据集请求说明允许作为可能的输出格式的数据集市和客户数据集,因此可以在储存库20中存储计算服务的结果。在此情况下,结果被视为客户特有的数据流,并可如下面的部分C中所介绍的那样得到品质保证。数据驱动计算功能的执行如来自数据元60即数据驱动计算功能集的箭头所示地使用存储在参考数据实用工具1的储存库20中的可执行表示。
在有利的实施例中,数据驱动计算功能的输出可以可选地存储在资格管理数据集单元50中。
作为过程中的最后一个步骤,在框642中生成与计算服务的使用相关联的报告所需要的任何数据。报告类型包括被传送到客户(功能请求者)与功能提供者的那些报告,分别用数据元55和56表示。存在其他的报告类型。
图4B提供了示例流程图,其详细说明了对如图3D中的框338所介绍的存储或访问商业文档的请求进行处理的步骤。控制从上方流入该方块,进入决定单元420,该单元确定商业文档访问请求是向存储结果单元插入新的商业文档(421)还是检索或更新先前存储的商业文档,即结果单元422。
对于插入类型,在框423中接收将被插入的文档以及与该文档相关联的资格信息。与来自数据提供者的参考数据不同,直接从实用工具的客户接收商业文档。一个客户提交的文档可应用于一个以上的关系人,因此用于多个关系人的资格可以是想要的。在框423中所示的步骤期间,基于请求者以及请求本身中包含的信息做出资格确定。
在框424中接收伴随着文档的编目信息。该信息识别、描述并对商业文档储存库(数据元59)中的文档进行分类。该信息用于查询以及用于图4C所介绍的商业文档验证处理。
可选地可与文档一起接收附加的一组数据编排规则。数据编排规则适用于实用工具中的参考数据与正被存储的文档之间存在隐含关系的情形。例如,管理容许共同基金投资的文档可被链接到与某个风险简档匹配的金融工具。因此,可提供用于检查金融工具的风险简档是否处于商业文档所介绍的可接受范围内的规则。可选地在框425中与文档一起接收这种数据相关规则。图4D提供了更为复杂的与文档有关的过程中如何涉及数据相关规则的更多细节。
在步骤426中,文档和所伴随的编目、验证以及数据编排规则信息(如果有的话)被存储入数据元59中的商业文档储存库,控制对新文档的访问的资格信息被存入资格储存库,即数据元53。有利的实施例使用用于具有资格管理的储存库的方法,如下面在部分B中所介绍的。文档的资格可在插入时规定。文档插入过程可增加手动验证过程,以便保证插入时规定的资格符合实用工具的安全标准。替代实施例使用了标准文档管理储存库解决方案。
更新或查询文档的功能在以结果单元422开始的流程中示出。框427表示用于选择商业文档以进行访问的判定或文档标识的接收。有利的实施例使用了请求式数据集请求中的选择偏好,如下面在部分D中所介绍的。
框428是在文档储存库中定位被请求的文档并保证请求者对该文档有资格的步骤。在有利实施例中,资格管理用下面在部分B中介绍的技术处理。
如果操作是更新操作,则在框429中应用更新。更新适用于文档编目信息、数据相关规则以及相关联的商业文档。被更新的文档存储在商业文档储存库59中。在该处理步骤中,还可以存在对该商业文档的资格的更新,其给予或移除第三关系人的访问以及导致资格储存库即数据元53中的更新。
如果操作为查询操作,则框430为这样的功能:针对查询功能向请求者返回被请求的文档和/或相关联的信息。对于更新操作,可向请求者返回更新确认消息。以这样的方式准备并格式化响应:其与如下面在部分D中所介绍的对请求式数据集请求的应答一致。
图4C提供了示例流程图,其示出了处理商业文档验证请求时的步骤。该附图是对首先在图3D中介绍的处理方块340的详细说明,另外,处理块340在图4C中示为围绕控制流的框。商业文档验证定位先前保存在实用工具的商业文档存储中的商业文档,该文档可被用作特定商业事务的参考文档。在金融服务的背景下,一个示例是将根据特定程序进行的同意一对企业之间特定类别的事务的一对企业。它们通过在图4A中的插入或更新流程之后存储在实用工具的文档存储中的商业文档为该过程提供文档。它们还为验证条件提供文档,作为附加于图4B的步骤424所存储的商业文档的一组验证规则,验证条件规定该过程何时为有效且合适的过程。在管理交易的主协议的实践中,这些验证规则可能对于这样的问题是敏感的:交易项目的数量和值、正执行的交易所代表的关系人、以及办理交易的背景和市场。这些验证规则典型地涉及参考数据实用工具向诸如企业等级、金融工具定义与特性、以及对等当事人等等的事务当事人提供值的参考实体。在参考数据实用工具中存储和验证商业文档是高效率的,这是因为所包含的、对在验证过程中需要值的其他金融实体的引用,并因为文档在执行交易的客户之间共享。最后,文档验证必须具有资格。验证代表请求者进行。为使请求成功,请求者必须对验证请求、以及验证需要的所有数据与文档有资格。
验证请求的处理从图4C中的框340的上方进入并流到单元431,在单元431中,从请求当事人双方或其中一方接收对商业操作进行特征化的参数。这些参数规定需要相关联的被存储的商业文档的商业事务的特征。在上面介绍的金融交易示例的情况下,它们包括这样的信息:该信息识别被交易的项目、数量、执行的关系人、交易背景、代表其执行如上所述的操作的关系人。通过使用这种信息,步骤432检索一组的一个或一个以上存储的商业文档,其是将被用作规定商业操作的管理文档的潜在备选匹配。资格储存库即数据元53提供资格信息,且文档自身来自商业文档储存库即数据元59。
决定单元438开始循环,该循环重复进行到列表中的下一个备选文档并对之进行处理,以确定其是否为满足这种客户请求的所有验证规则的有效匹配。步骤432的处理可能没有产生请求客户有资格验证的任何备选文档。在这种情况下,控制经由“否”分支流出决定单元438并流到框437。框437到框29的虚线指示将结果记入日志。向客户报告“无匹配文档”。如果初始列表中的所有备选对象均被评估且没有找到有效的匹配,则在循环的多次迭代后也可发生用“否”出口从决定单元438离开的同样流程。
循环中在“是”分支之后退出决定单元438的步骤433进行到下一个备选文档。步骤434——其也在循环中——使用请求中提供的背景以及来自数据元50中的资格管理参考数据的参考数据对备选文档评估规定的验证规则。接着,决定单元435测试该备选文档的验证是否成功。如果成功,控制流出循环,流到方块436,方块436将被识别的当前文档作为成功匹配返回到请求者。从框436到框29的虚线指示将结果记入日志。如果当前的备选文档不满足验证规则,则控制流回循环的开头,在那里,决定单元438测试是否有更多的备选文档可用于验证。如果没有,则没找到任何匹配且其为被报告的处理结果。
替代实施例总是对所有的备选文档评估验证规则,并向请求者返回成功验证的匹配文档的列表而不是如上所述地返回第一个成功的匹配。
尽管参考数据实用工具存储、定位和返回用于管理特定商业操作的执行的有效商业文档,但是被指定的商业操作的实际执行保持客户及其交易执行系统的响应性。
图4D提供了一流程图,其示出了对编排供到关联于特定的商业事务的特定商业过程实例的参考数据的请求进行处理的步骤。该图是对图3D中首次介绍的处理框339的详细说明,处理框339还在图4D中被示为围绕控制流的框。
参考数据编排提供支持被指定的商业事务与执行所述事务的处理的当前有效参考信息。商业事务典型地在做出请求的客户的交易执行系统上执行,但将参考数据实用工具1提供的参考值用作参考数据编排。在金融服务的背景下,例如,普通股票的交易可能需要这样的信息:该股票最近的红利支付,红利支付给到买方还是卖方,对转让进行登记的对等关系人(例如股票发行者)的联系地址。还可能需要凭证储存库的联系地址以及其他感兴趣的关系人来完成转让,并可能需要知道股票被交易的地点和交易所,以便理解与该转让相关联的费用和税务问题。这些信息中的大部分作为储存库20实体的当前值和特性对参考数据实用工具1的客户可用。参考数据实用工具1使得与处理交易有关的有资格的信息对于作为其参考数据编排处理的一部分的关系人双方或一方可用。
如图4B中的步骤425所示,商业过程数据编排说明可附加于存储在商业文档储存库中的每个商业文档。参考数据编排规则指定从资格管理参考数据实用工具1中选择哪些值来支持特定的商业过程,对于该商业过程,该商业文档被用作指南。用被支持的商业事务的特性对编排值选择进行参数化。由于商业过程典型地涉及多个步骤,其中不同参考数据由不同步骤所需,所以对于给定商业过程的参考数据编排说明采取与商业过程中的步骤相关联的一组参考数据选择的形式。
例如,对于作为管理一般股票交易的主协议的商业文档,每个特定商业事务的参数包括股票代码、交易额、交易日期与时间、交易价格等等。合适的参考数据编排步骤返回股票的当前有资格的定义、其最近的红利历史与公告、对交易进行登记的对等关系人等等。这种信息被供给执行交易的实用工具客户的交易执行系统,从而提高了它们的操作的可靠性、一致性和准确性。
在图4D中,控制从上方进入并流到框440,在框440中,在请求中从实用工具的客户接收商业过程实例参数、商业文档标识以及商业过程标识。商业过程实例参数是对这种特定商业操作进行特征化的唯一特性。如上所述,示例包括交易项目、交易日期、交易额等。客户还选择特定的商业文档来管理交易执行过程。这是通过执行图4C所详细说明的商业过程文档验证请求或通过由一个或多个客户进行的商业文档的明确选择而进行的。由于可能存在与存储中的单个商业文档有关联的多个商业过程,请求参考数据编排的特定商业过程也在步骤440中识别。
下面的步骤即框441从商业文档储存库中检索被识别的商业文档,并定位由客户识别的被识别商业过程数据编排请求。在首先检查做出请求的客户有资格使用资格储存库即数据元53以及该请求中的信息对商业文档进行访问之后,从商业文档储存库即数据元59中检索商业文档。接着,决定单元446进行测试,以便确定具有匹配的编排且做出请求的客户对之有资格的文档是否已在步骤441中被返回。如果没有,则没有可能的数据编排,控制流出框339,将此报告为请求的结果。如果已经找到具有匹配的编排的商业文档,控制经由“是”出口流出该测试。
在对于特定商业过程的数据编排中可存在多个步骤,每个步骤用不同的输入数据进行参数化,且每个步骤返回不同的一组参考值用以在过程的下一步骤中使用。单元442开始一个循环。循环的每次迭代针对被识别的商业过程实例的一个步骤提供参考数据编排。单元442的动作进行到事务的下一个过程步骤。在单元443中,步骤特有的参数可从做出请求的客户接收。单元444使用在过程编排注释中提供给被存储的商业文档的步骤说明并遵循它,从与步骤输入以及步骤说明一致的资格管理储存库实体数据中检索合适的有资格的储存库实体值。这些值被返回到做出请求的一个或多个客户,用以在它们的交易执行系统中使用。如从框444到数据元29的虚线所示,对于客户传送日志进行对传送的合适的日志记录与报告。
决定单元445包含确定商业过程实例的数据编排是否完成或是否存在要处理的附加步骤。如果商业过程的数据编排完成,则控制流出框339。如果存在要处理的附加步骤,则控制返回到单元442,并处理数据编排的下一个步骤。
参考数据实用工具1向做出请求的一个或多个客户提供参考值。这些客户使用它们自己的交易执行系统来完成交易。有利的实施例用现有技术中公知的技术(诸如面向服务的体系结构与Web服务)来使不同客户交易执行系统对参考数据实用工具1的高效接口成为可能。由于每个商业过程实例步骤中提供的参考数据值是只读的,所以需要关于客户交易执行系统与参考数据实用工具1之间交互的最小状态信息。
将步骤441以及单元444与资格储存库53、资格管理储存库实体数据50、以及商业文档储存库59相连接的虚线显示这些数据源在哪里被使用。
验证和提供参考数据编排的服务是对于在参考数据实用工具存储中存储和访问商业文档的基本能力的有用的但又可选的扩展。
商业文档功能的替代实施例在存在影响商业文档储存库中客户文档的含义或有用性的参考数据改变时向客户提供警报。例如,企业所有权层级的变化可以影响一组商业文档,特别是在可以作为参与者的企业实体层级中存在改变时可能需要重新检查管理事务的主协议。通过使用请求式数据集能力,参考数据实用工具1可监视代表客户影响特定组的商业文档的改变,并在这些变化发生时向客户传送被影响的文档标识符。
图5A介绍了实用工具1可以针对客户、数据源、增值功能的提供者、调节者以及内部管理生成的报告的类型。简单的分层结构在框502中以报告类型开始。实用工具1可提供多种类型的报告:对客户的报告即框505、对数据源的报告即框511、对功能提供者的报告即框519、对调节者的报告即框520、以及用于管理实用工具的内部报告即框518。
对于调节者的报告520由相关的调节代理定义。内部报告518由实用工具操作者按照需要定义。
客户报告包括但不限于:传送日志报告即框506、源使用报告即框507、源准确度报告即框508、关于源定时的报告即框509、服务层报告即框510、以及针对用户生成的报告(用户必须将其给予调节者)即框504。客户可由不同于实用工具的代理来调节,照此,它们的报告要求可以不同。这些报告由调节代理定义并根据需要生成。
实用工具针对数据源生成三类报告:准确度报告即框512、定时报告即框513、以及品质与使用率报告即框514。这些报告被设计为通过协助识别对于源卖家的用户的关键问题来帮助源卖家改进和管理它们的数据品质。
框519中的功能提供者报告提供了由参考数据实用工具1收集的关于所提供功能的使用率的信息,以便支持来自参考数据实用工具1的、在客户使用率报账和记账上的协助。
图5B给出了框503所示的实用工具管理功能的概览。实用工具管理功能被分为三个宽泛的类别:性能即椭圆515、服务层协议即椭圆516、以及基础设施即椭圆517。性能功能允许实用工具操作者基于由操作者定义的度量监视性能。监视使得实用工具能够手动、自动或通过二者的结合对性能进行管理。服务层协议(SLA)功能允许实用工具针对其SLA承诺(commitment)来监视其性能并手动或自动管理其操作,以便如SLA所估计地那样改善实用工具性能。基础设施功能支持对处理器存储、软件以及参考数据实用工具1或其操作所用的其他信息技术的高效管理。
图6示出了影响多源多租户参考数据实用工具的高可用性问题以及地理分散性。
框601、602、603各自表示位于世界不同城市的实用工具站点;在本实例中分别为纽约、伦敦和新加坡。该技术可应用于任何地点组中的任何数量的站点。这些站点各自具有实用工具处理能力,大致对应于在图1A中用参考数据实用工具1表示的能力。在每个站点中示出了图1A中首次介绍的数据获取与品质增强部件即框19以及客户数据传送部件即框21每个储存库608、609、610中的数据值的高品质是通过人类专家池进行维护的,人类专家具有对相关话题的深入的行业知识;这些专家做出关于到达值的判断,以保证被传送到用户的数据具有最高品质。因此,实用工具的有效性取决于每个话题的最优专家以及时的方式用最低成本对该话题的信息进行处理的可用性。假设区域问题的专家位于该区域附近。椭圆605、606和607表示提供关于到达数据的这些品质保证服务以及相关联的用户服务的人类专家池。这些池中的每个池的功能对应于图1A中的椭圆37。类似地,单元608、609和610是图1A中参考数据实用工具1的储存库20的站点特有的版本。图6通过包括多个站点扩展了图1A所介绍的实用工具概念。在多站点实用工具中,对于特定子话题的数据品质增强只需要在一个站点上执行;该任务可分配给执行该任务最为高效的站点。因此,对话题或子话题进行划分,并出于主要品质保证将其各自分配给框601、602或603所表示的站点。
链路604表示连接地理上分散的站点的高速、世界范围的通信结构。这种能力保证:多站点实用工具能够像单个逻辑服务那样运行,使得数据对于客户可用而无论它们或它们的订购卖方源被连接在哪里,以及在站点禁用时保证备份服务对来自另一站点的实用工具能力可用。尽管对于一话题的参考数据在被选中的主要站点上被净化,但在有利的实施例中,出于向客户传送的方便性和速度,关于每个话题的净化后的实体数据接着被复制到所有站点。另外,更新后的资格储存库在每个站点被维护,至少覆盖附着于该站点的客户的资格。因此,在净化中涉及所有站点;到达的数据的每个项目被进行一次的获取以及品质增强,所有的实体数据对经由具有本地资格强制执行的本地储存库访问的所有有资格客户可用。用于从主要站点向其他站点传播净化后数据的有保证的消息传送系统的使用保证了更新在没有数据损失风险的情况下传播到远程站点。在替代实施例中,净化后的数据与资格被存储在数量更有限的站点上;检索和传送参考数据的请求必须被发送到数据所位于的站点中的一个。这种限制的一种形式是仅在其主要净化站点上保留和存储净化后的数据。在多个站点上存储每个数据项具有可用性、弹性、以及冗余性的优点,促使了其中每个数据项存储在一个以上的站点但不是所有站点上的中间替代实施例。
在图6中的示例中,数据源S1、S2、S3、S4、S5、S6分别用圆620、621、622、623、624、625表示,其各自连接到实用工具站点中的一个。存在一种假设,即,高速、世界范围的通信(连接链路604)允许来自每个源的数据被分发到储存库中需要输入处理、品质保证或存储的任意地方。类似地,客户C1、C2、C3(用圆611、612、613表示)附着于储存库站点A,客户C4、C5、C6(用圆614、615、616表示)附着于储存库站点B,以及客户C7、C8、C9(用圆617、618、619表示)附着于储存库站点C。这组示例客户与源的附着示出了多源多租户参考数据实用工具的性质。
参考数据实用工具将每个连接的租户看作具有可向其传送数据的特定资格的独立逻辑实体。单个企业租户可与其客户相关联,所述客户连接在多个参考数据实用工具站点上。较高层的企业所有权可反映在资格结构上以及客户简档中,但不能改变向此方法描述的每个连接客户传送所检索的数据的方法。出于传送请求式数据集并执行增值功能的目的,实用工具将每个本地客户看作客户简档的独立所有者以及请求实用工具检索并传送数据的提交者。出于报账、资格跟踪、服务层报告、合同管理与授权管理的目的,实用工具可保持对这样的分层关系的认知:该分层关系将连接客户与其所属于的、可能在地理上分散的企业实体相关联。
每个客户C1、C2……C9附着在单个站点上,但可访问分散的参考数据实用工具中它们有资格的所有参考数据,而不管用于提供关于这些值的品质保证的站点、该用户有资格的数据源的连接点的站点、该数据的主要存储站点(当使用数据划分时)或在主站点临时故障期间提供针对该话题或子话题的值的主存储与更新的故障修复或备份站点。
储存库608、609、610表示在每个实用工具站点上维护的参考数据实用工具储存库(对应于图1A中的储存库20的逻辑能力)。每个站点上的储存库认识到其是某些参考话题的主导(源)。这些话题的品质保证与数据收集结果接下来被从该站点传播到远程站点。对于其他参考话题,该站点将接收并保有来自作为主导的无论哪一其他储存库站点的值。在替代实施例中,数据在所有站点上被复制和增强。在另一替代实施例中,数据可在站点间划分,且每个数据元仅存储在单个站点上。将数据复制到所有站点提供了更好的可用性,并保证每个站点对请求数据的本地附着用户做出响应。到达的原始数据日志以及用户传送日志仅被存储在数据被接收且进行品质保证或逻辑用户被本地附着的储存库站点上是足够的。在数据被划分并在少量站点上被保有的替代实施例中,存储和数据品质保证责任的分配上的差别使得各个储存库站点不同,并使各个储存库——尽管功能类似——能够保有不同的数据。
这推断出对部分A的流程图的描述,其介绍了总体参考数据实用工具以及相关联的增值功能。在优选实施例中,工作流用于实现这里介绍的过程和流程。替代实施例使用了脚本、分散分布的过程或所有这些的组合。任何合适的机制或编程语言适用于实现这里介绍的流程和过程。
B.储存库的一般结构和操作方法
本发明的这一方面涉及具有基于参考数据值的源跟踪的资格管理的多源多租户数据储存库(下面称为“储存库”)及其操作方法。这种具有资格管理的多源多租户数据储存库是上面介绍的实用工具1的多源多租户参考数据管理服务的重要部件。其在其他的背景下同样有用。多源多租户数据储存库管理并提供储存库信息元、相关联的元数据、资格、增值功能与文档的永久存储,并可作为上面介绍的储存库20发挥功能。
贯穿始终,我们用诸如金融工具、对等关系人、企业合法实体分层结构以及企业行为事件的描述的金融参考数据的示例说明本发明的各方面。这些类别中的参考数据广泛用于金融市场。本发明的方法还适用于提供和支持具有类似特性的其他类参考数据。特别地,具有基于源的资格管理的多源多租户资格储存库在存在多个源以及这样的多个租户的任何情况下都是有用的,所述租户具有对它们有资格的值进行搜索和检索时需要但直接更新数据通常不需要的、独立的基于源的资格。
储存库还包括对请求者(例如租户或代表其采取行动的代理)可用的数据检索、访问和查询机制。将之与标准数据库区分开来的储存库部件的有利革新在于:
-储存库合并了存储属性的多个版本(版本化属性)的能力,其中,每个版本基于值、元数据、临时信息或寻源信息而被认为不同;
-储存库保留关于所有信息元的历史和寻源的完整信息。历史包括下列方面:
-关于所指信息元的所有事件;
-这些事件的所有源和代理;以及
-这些事件的时间顺序。
-储存库维护关于所有已授权请求者的以及关于从特定源到特定请求者的所有资格授予的基于源的资格信息;以及
-基于请求者的选择和寻源偏好以及源访问驱动资格,储存库合并了对其包括的信息的服务请求的能力。
对储存库中的数据进行组织以便使共享访问路径成为可能。访问路径和索引对所有请求者可用以选择感兴趣的参考项目值,且它们提供了客户特有的基于资格的对参考数据值的访问。
储存库允许独立请求者在字段级指定其对于所检索数据的优选源。此偏好将被用于在来自对于请求者有资格的不同源的可用值之间进行选择。
所有上述能力在这样的环境中提供:其中,维护用户和卖家行为的安全性和私密性。用户或数据卖家不能够发现关于另一个的数据、查询或由储存库对它们进行支持的其他动作的信息。
该方法在这里被介绍为适用于金融服务商业所用的参考数据。这种形成或组织具有基于参考数据值的源跟踪的资格管理的参考信息的多源多租户数据储存库的方法具有许多其他可能的应用领域。对用户信用信息的访问、政府规章与注册信息以及电信使用率信息是该方法已经使用的三个附加示例。参考数据以及该方法使用的背景的特性为:(1)信息来自许多源;(2)存在潜在地位于独立组织中的多个用户,其需要访问同一信息但潜在地具有不同的源资格权利;(3)被参考信息主要由用户以只读模式访问,除了在它们参与校正无效值时以外;(4)高品质及时信息的收集既是有价值的又是复杂的,因此,实用工具方法、共享基本设施和共享数据品质增强的高效率提供了显著的好处;以及(5)资格强制执行和隐私管理必须由这样的实用工具提供。尽管本发明在金融服务参考数据——其是一个重要的应用领域——的背景中介绍,但这里揭示的方法使得有效实用工具能够提供满足上面的要求的数据访问,所述方法在任何具有这些要求的背景中具有价值。
当储存库在参考数据实用工具的背景中使用时,其对应于单元50,即资格管理实体数据,其在图1B中显现为参考数据实用工具储存库20的一部分。
图7A示出了在多源多租户数据储存库中对信息与相关联的基于源的资格进行管理的方法的示例。该图表示形成、维护以及操作储存库所需要的有利过程的高级概览。在图7A中,框1100表示整个方法。其中,框1101表示用适当位置的必要信息元结构(在图8A、8B、8C、8D中详细介绍)形成储存库的起始步骤。除这些之外,储存库还用于存储驻留于数据存储内的其他项目。这些附加项目为在性质上如图1B中的框20的描述中所介绍的商业性(增值功能、商业文档等)或功能性/操作性(规则集、日志记录等)。
框1102为将到达信息插入存储、用描述其发展历史的注释对每个元进行注释的功能。这些注释称作发展跟踪源数据标签(ETSDT),并可与储存库中的任何信息元(或元组)相关联。ETSDT中的每个事件(贯穿本文档,同义地使用术语“注释”)有效地对应于在被描述的信息源上执行的某些动作,并对应于该信息源的不同版本。ETSDT中的每个事件承载重要信息,特别是事件的一个或多个源(源可以为单源或多源过程以及例如“原始文档”等原子源)、执行事件的代理、关于事件的说明信息、时间戳信息、以及事件标识符信息。其他的属性也是可能的。以这种方式记录完整寻源信息为对创建信息元值有贡献的所有源提供了完全的可跟踪性。这种完全的可跟踪历史是多源多租户数据储存库的有利使能者,其中,可保护源提供者的知识产权和数据消费者的隐私权。参见作为信息元和相关联的ETSDT的示例的图8A、8B、8C和8D。箭头1110表示作为输入到达框1102的插入步骤的信息元。
框1103表示储存库维护基于源的资格信息的能力,该信息关于数据源和储存库信息的授权请求者,所述授权请求者对所述数据源和储存库信息有资格。例如,在金融参考数据储存库中,一记录指定了:储存库租户A仅对来自源提供者A与C的金融工具数据有资格(而储存库可包括来自提供者A、B、C、D、E、F、G的数据)。箭头1111表示作为输入被接收并由框1103的资格维护过程进行处理的资格信息中的更新。框1103的实施例的一种可能的选择是用于将更新后的资格信息存储在多源多租户储存库中;替代实施例是在这里介绍的过程之后维护资格信息,但将更新后的资格信息存储在单独的储存库中。
框1104表示储存库在提供对包括在储存库中的信息的可控访问的过程中使用ETSDT连同基于源的资格的能力。这种过程将请求者的各种寻源和选择偏好考虑在内。例如,在金融参考数据储存库中,这种过程能够对返回来自所有可用源的关于兴趣列表A上的所有股票的信息的请求做出响应。在本示例中,该过程将识别请求者、检索其资格、并接着选择和返回形成请求说明和资格约束的交集的信息集。
箭头1112示出了作为输入到达框1104的处理的检索请求;箭头1113示出了作为对于该处理的输出被返回的检索响应。
因此,本发明包括一种维持多源多租户数据储存库的方法。维持步骤包括以下步骤:形成多源多租户数据储存库,以包括描述至少一个被引用实体的来自多个源的信息元;在多源多租户数据储存库中用寻源信息注释来自信息元的多个元;基于寻源信息维护关于请求者对信息元的资格的信息;以及对来自至少一个请求者的至少一个请求做出响应,以基于请求者特有的选择判定和寻源偏好并以所述至少一个请求者的资格为条件返回一组信息元。
在这里所用的金融市场示例中,该方法用于维持金融多源多租户数据储存库。维持步骤包括这样的步骤:形成金融多源多租户数据储存库,以便包括描述至少一个被引用实体的来自多个源的信息元。考虑来自卖家A、卖家B和卖家C的源馈给。该方法还包括这样的步骤:用寻源信息在多源多租户数据储存库中对来自信息元的多个元进行注释。寻源信息的示例包括:定义公司A的普通股票从卖家B的馈给中在时刻T收到的具有记录标识符R的数据记录中接收的一组特定的值。其还包括这样的步骤:基于寻源信息维护关于请求者对信息元的资格的信息。其示例包括客户C有资格接收来自卖家A和卖家C馈给而不是来自卖家B馈给的数据。其还包括这样的步骤:对来自至少一个请求者的至少一个请求做出响应,以基于请求者特有的选择判定和寻源偏好并以所述至少一个请求者的资格为条件,返回一组信息元。其示例包括向客户C返回公司A的普通股票的当前有资格的推荐定义。
图7B为一有利实施例的替代的更为详细的控制流程,该实施例针对显示每个单独的到达输入即信息元、对资格的更新或检索请求在到达先前形成的储存库时如何被处理的方法。该图显示,新的被注释信息元、资格信息的更新以及对检索其功能求得响应的插入可被交叉存取。
在图7B中,框1100又一次表示整个方法。控制从上方进入。起始步骤是形成用上面介绍的框1101建立必要的数据结构的储存库。在此时,储存库准备好接收输入。输入用箭头1110、1111、1112表示,分别表示新信息元的到达、资格信息更新以及对信息检索的请求。框1115是控制流程中所有这些到达的输入被首先处理的步骤。其开始从框1105到框1114的循环;该循环的每次迭代将处理一个到达的输入。
处理输入中的第一控制流程步骤是确定其类型。这是在决定单元1106中进行的。该方法处理三种主要类型的到达的动作提示:新的或更新后的数据元、资格更新以及信息请求。来自决定单元106的这些结果分别由以框1107、1108、1109开始的路径处理。单个到达的信息元的处理由框1102中插入和注释过程的控制实例进行处理。该处理当框1102在上面图7A中被首次介绍时讨论。单个到达的资格更新的处理由框1103所示的“维护基于源的资格”的过程的控制实例进行处理。该处理当框1103在上面图7A中被首次介绍时讨论。对储存库信息的单个请求的响应和处理由框1104所示的“响应请求以返回信息元”的过程进行处理。该处理当框1104在图7A中被首次介绍时讨论。
在完成到达信息元、资格更新或信息请求的处理后,在决定单元1114中做出是否返回循环开头来处理更多输入的选择。在储存库没有关闭的通常情况下,将采取“是”分支,控制流回动作循环的顶端,等待下一个到达的动作提示。这种动作循环的重复实例导致附加的信息元在具有注释的情况下被添加到储存库,附加的资格更新被接收并被保存,并且对存储在储存库中的信息进行检索的附加请求得到服务。
上面的流程是介绍该方法的逻辑控制流程。使用公知的事务、数据库和计算机并行技术,该方法的有利实施例能够并行处理来自不同源和请求者的多个动作。
图8A显示出储存库的顶层信息元的概念组织的示例。框1201表示整个储存库,在上面的讨论中通常表示为20。在顶层,储存库包括框1202中所示的储存库实体列表。该列表中的示例储存库实体ENT1、ENT2、ENT3分别用框1203、1204、1205表示。储存库实体(例如框1203)是信息集合,其中,所有信息描述单个被引用实体。例如,在金融参考数据储存库中,储存库实体可对应于“公司X的普通股票”。
每个实体将其与发展跟踪源数据标签(ETSDT)相关联。在有利的实施例中,ETSDT也作为注释附着于储存库中的其他低层信息元。ETSDT存储与其注释的信息元相关联的事件信息并基本地记录信息元的发展历史。这包括描述以下内容的信息:元的创建、其特性的修改、版本的创建等等。用ETSDT存储的每个事件承载各种信息(标识符、事件描述、用户ID、时间戳等),但更重要的是,每个事件具有源(或有时具有多个源)以及如果适合的话具有代理。结果得到的对每个信息元的完全寻源的历史的可用性是储存库的多元多租户方面的使能者。信息元1206、1207、1208分别表示作为注释附着于示例实体ENT1、ENT2、ENT3的ETSDT。在实体层,ETSDT记录信息以及相关联的品质增强动作,其促使这种储存库实体的创建。
图8B示出了对于储存库中的实体信息的示例组织,其更为详细地示出了实体的内容。框1203是重新绘制的,因为其在图8A中被介绍为实体ENT1。先前介绍的ENT1的实体ETSDT也在图8B中重新绘制,其作为注释附着于表示为数据元1206的ENT1。
每个储存库实体包括用框1209表示的实体特性列表和用框1216表示的实体项目实例列表。实体特性是关于实体的附加信息,其可包括关于不必与支付或其他受限源相关联的被引用实体的商业信息和元数据信息。因此,特性可以为内部标识符、非卖家所有的分类信息等。一般地,在特性中存储的信息以未受限的方式对请求者可用,并因此用于构建索引并用于通过对储存库的所有租户可用的共享访问通道定位和选择实体。指代金融工具的储存库实体的特性示例包括:工具的全名、作为股票或债券的标识、发行企业的工业部门等。这些特性或者是公开的信息,或者由于与租户和/或数据提供者的某些商业安排而对于所有租户可同等访问。如果特性需要由于任何理由的受限访问,则作为替代其应当被表示为版本化属性。
示例储存库实体ENT1被示为具有分别用框1210、1211、1212表示的三个实体特性P1、P2、P3。在本示例中,每个实体特性在与它们有关的母实体ETSDT(框1206)中具有注释。有利的实施例将特性注释放在母实体ETSDT中。替代实现可具有与特性相关联的独立ETSDT。
储存库实体包括项目实例列表。每个项目实例收集并包括由单个公共寻源提供的母实体的一组所有的属性值。一种公共寻源可以为来源于由一个源(例如数据卖家A)提供的单源数据集的项目实例的所有数据。另一种公共寻源是项目实例中的数据由单个被识别的项目实例过程(例如值比较过程B)提供。对两种类型的寻源的不同支持是重要的,因为在多源数据增强过程的情况下,项目实例过程和对该项目实例过程有贡献的数据源在确定资格中起到重要作用。这在图11E的资格强制执行处理描述中进一步介绍。
为了进一步说明项目实例过程,项目实例过程是用于创建、更新或重新检查项目实例的任何过程。项目实例过程的概念覆盖了创建项目实例和通过项目实例工作的许多公共方法。项目实例过程的示例包括:从源得到项目的馈给/数据集并向数据集应用验证、规格化和净化;使用源间过程将来自几个源的信息进行比较并基于这种比较选择优选值;使用源间过程创建包括来自多个源的属性的复合值;以及针对另一源提供的值运行算法值增强过程。每个这种不同的过程生成单独的项目实例,其被存储在合适的储存库实体下。可以具有复合的项目实例过程——因此,“规格化”和“规格化且单个元净化”是有效的项目实例过程,其中,前者是简单的项目实例过程,而后者是复合的项目实例过程,其包括规格化过程与单个元净化过程。在处理中仅使用信息的单个源还是多个源是项目实例过程的有利特性。
框1216表示包括在图2A中的示例储存库实体ENT1中的项目实例的列表。框1217、1218、1219分别表示该列表中的示例项目实例ITM1、ITM2、ITM3。其中的每一个具有作为注释附着到它的相关联的ETSTD,其在该附图中分别被表示为矩形1220、1221、1222。
在金融工具参考数据储存库的背景中,表示“公司X的普通股票”的实体的项目实例的可能示例包括:(1)关于由卖家A提供的该工具的信息,(2)关于由卖家B提供的该工具的数据,或(3)关于从储存库服务获取的该工具的数据,该储存库服务将来自多个源的数据进行比较并从这些可能中选择推荐值。
注意,替代实施例可具有对于所介绍的各种ETSDT的不同范围(例如,可以存在针对实体和项目实例具有单个逻辑ETSDT的实现,反映了两个信息元的历史中的事件)。然而,任何这种替代实现在逻辑上对应于这里介绍的结构。
图8C为更为详细地显示出其内容的项目实例的信息的示例组织。框1217表示最初在图8B中介绍的示例项目实例ITM1的扩展视图。数据元1220表示先前在图8B中介绍的项目实例的ETSDT。在图8C中,项目实例ITM1包括用框1223表示的版本化属性的列表和用框1230表示的特性的列表。特性具有存储在其母项目实例的ETSDT(框1220)中的与它们有关的注释。
版本化属性列表中的每个版本化属性包括一组属性值,该组属性值用由与母项目实例相关联的项目实例过程或源提供的值对母储存库实体进行特征化。对于先前介绍的、具有关于“公司X的普通股票”的信息的储存库实体的示例,版本化属性的示例包括:(1)当前价格,(2)进行交易的交易所,(3)宣布的红利获利日期,以及(4)宣布的红利额。
在图8C中,对于项目实例ITM1,版本化属性列表中的版本化属性VA1、VA2、VA3分别用数据元1224、1225、1226表示。这些版本化属性中的每一个具有作为注释附着于它的相关联的ETSTD,这里表示为数据元1227、1228、1229。
项目实例还具有相关联的特性,其可由请求者用于访问存储在储存库中的信息。ITM1的特性列表中的项目实例特性P4、P5、P6分别用框1231、1232、1233表示。项目实例特性的重要示例是唯一的项目实例过程标识符或对项目实例中的信息源进行特征化的源数据集标识符。项目实例特性也是信息元,并在与它们相关联的项目实例ETSDT中具有注释。
图8D示出了版本化属性的信息的示例组织,其更为详细地显示出其内容。
具有附属版本化属性ETSDT——用数据元1227表示——的扩大框1224包括此扩展图。其显示出版本化属性由属性值列表组成。框1237表示例如对于版本化属性VA1——例如分别在框1238、1239、1240中的属性值V1、V2、V3——的值的列表。
属性值是信息元的最低层次,并表示由之组成较高层次的版本化属性、项目实例以及储存库实体的商业数据的原子部分。出于以下原因之一,在项目实例中存在多个属性值:(1)几种收集和品质增强动作已被应用于原始源数据,产生几个可行的值,(2)多个值已经由针对该属性的单个源提供,或(3)给定项目实例表示由多源项目实例过程产生的数据,且可从不同的源得到该属性的替代值。
当项目实例过程多于一次地修改属性时,每次修改创建版本化属性的一个新值(版本)。允许详细跟踪这些变化的结构是版本化属性ETSDT,其包括与每个属性值有关的注释。每个注释与特定的属性值直接相关联。ETSDT中存储的信息允许每个属性修改的历史可跟踪性,更重要的是,ETSDT中存储的信息包括关于这种修改的代理以及源的信息。该知识在其后用于决定是否可向特定请求者提供该值。
为了详细说明金融工具示例(使用公司X的普通股票),项目实例过程P是自动化的源间比较和值选择过程,其创建复合项目实例。代表参考数据储存库被雇佣的雇员负责检查和校正(如果必要)结果得到的复合项目实例。过程P第一次被执行时,将在表示公司X的普通股票的储存库实体下创建新的项目实例I。关于该项目实例的特性指示出过程P是产生该项目实例的项目实例过程。由于项目实例由属性组成,所以对于I中的给定属性A,过程P包括例如由不同的源(数据提供者)提供的五个属性值V1、V2、V3、V4、V5的比较和检查。在过程P完成时,属性A的值V3被选择。在本示例中,值V3将作为版本化属性A中的单独值(版本)存在,并将在版本化属性层ETSDT中具有对应的注释,该注释陈述V3与由数据提供者DP1(源1)和数据提供者DP5(源2)提供的值匹配,并基于数据净化器DC1(代理)进行进一步证实,数据净化器DC1(代理)又基于公司X(源3)的公共文档的检查做出决定。如已经证明的,给定复杂化的潜在项目实例过程,这种寻源信息可以是复杂的。储存库的注释是这样的一种能力:其仔细对所有这些寻源历史进行跟踪并接着在请求者资格的范围内将之用作对数据请求做出响应的基础(在图11A、11B、11C、11D和11E中介绍)。
除了用相关联的特性、项目实例、版本化属性和属性值存储储存库实体以外,储存库还用于存储其他对象,例如增值功能和商业文档。也需要对这些对象进行跟踪的资格,并可以完全使用上面介绍的数据结构对之进行处理。然而,如果对于这些对象的版本化和多寻源的层次与所述方法被设计提供的层次相比简单得多,则替代和有利的实施例将在储存库的单独列表中存储每个这种对象的方法,其中相关联的ETSDT记录源和创建历史,但在简单的资格管理值框中存储所有的对象信息。这种被存储的对象还在顶层具有一般可访问的特性,使得请求者能够直接对它们进行访问。
如同在图8A中一样,应当注意,替代实施例可选择对于所介绍的不同ETSDT(例如对于项目实例特性具有单独ETSDT)具有不同的范围。然而,任何这种替代实现在逻辑上对应于这里所介绍的结构。
图9扩展了图7A中被标记为“插入具有寻源注释的信息元”的框1102,提供关于该框的有利实施例的样本控制流程的更多细节。基于被更新的数据源的类型和事件类型,存在多种控制流程,然而,它们都遵循同样的一般原理。出于说明目的,选择四种过程:创建或更新新的实体、创建或更新新的实体特性、创建或更新新的项目实例、以及创建或更新新的属性值。
当新信息元事件到达储存库时,控制流进入图9中的框1102。将被插入储存库的新信息元作为输入参数对于图9的流程可用。框1301表示输入事件的接受。决定单元1302是确定对于注释和插入储存库而呈现的新信息元类型的测试。提供与创建或更新新的实体、创建或更新实体特性、创建或更新项目实例、以及已有版本化属性的新值或更新值对应的详细流程。这些流程用从决定单元1302分别引到框1303、1306、1310、1314的结果路径表示。
图9中从框1303开始的控制路径示出了创建新储存库实体或更新已有储存库实体特性的详细流程的示例。在金融工具示例的背景下,这仅在以下时候发生:当储存库开始保存关于新金融工具的信息或改变该工具在其中被分类的诸如“行业分组”的特性时。
框1303表示这样的标识:到达的信息元定义新的实体。框1304是将新实体添加到储存库实体列表之中的动作。框1305是为新插入的实体创建注释实体ETSDT的动作。将框1305与数据元1206相连接的虚线显示该更新被应用在图8A所介绍的实体ETSDT中。
图9中从框1306开始的控制路径显示出更新或创建新的储存库实体特性的详细流程的示例。在上述金融工具示例的背景下,这仅在以下时候发生:当工具的某种分类被首先知道或改变,使得其与运输业相关联时。
框1306标注我们出正在新实体特性路径上。框1307为定位此特性描述的母实体的步骤。框1308是将接收到的特性值插入用于该实体的特性列表或更新先前的值的步骤。框1309是用记录其源和创建所接收信息的品质保证版本的路径中的其他事件的ETSDT对这种新特性进行注释的步骤。到框1213的虚线显示,该注释被存储在储存库中,如同图8B所介绍的实体特性ETSDT一样。
图9中从框1310开始的控制路径示出了用于为已有的储存库实体创建新的项目实例的详细流程的示例。在前面介绍的金融工具示例的背景中,为其被引用实体为企业债券或普通股票的储存库实体创建新项目实例仅在以下时候发生:当信息提供者即信息源或项目实例过程——例如与储存库本身相关联的多源数据品质增强过程——开始提供该债券或股票的属性值时。
框1310表示对于已有储存库实体的新项目实例的标识。框1311表示新项目实例所属于的合适的母储存库实体的位置的标识。这基于被引用实体进行,或者如果当前不存在针对被引用实体的储存库实体,则触发用于创建新储存库实体的过程。图8A中的框1216显示,项目实例的列表是每个储存库实体中的顶层数据结构。框1312表示,使用所提供的项目实例信息在该列表中创建新的项目实例,或者如果到达的元是对已有项目实例的特性更新则应用该改变。框1313是创建新的项目实例ETSDT或在已有项目实例ETSDT中对特性改变进行注释的动作。新的ETSDT记录项目实例的创建,并在该项目实例的历史中作为第一注释。将框1313与数据元1219相连的虚线显示出此更新动作与图8A所介绍的项目实例ETSDT之间的关联。
图9中从框1314开始的控制路径显示出在已有储存库实体的已有项目实例中创建或更新属性值的详细流程的实例。在较早时讨论的金融工具示例中,对新属性值进行处理的示例包括:当特定的源或项目实例过程提供对于该工具的属性的新值时,例如进行交易的交易所、到期日或债券等级、普通股票红利支付额以及获利日期。
框1314表示对于已有储存库实体的已有项目实例的新属性值的标识。框1315表示新属性值属于的母储存库实体的位置的标识。这基于被引用实体进行。框1316表示新属性值属于的母项目实例的位置的标识。这基于触发输入事件的项目实例过程进行。框1317表示新属性值属于的特定版本化属性的位置的标识。图8B中的框1223显示出版本化属性列表,其是项目实例的顶层数据结构。在前面讨论的金融工具示例中,例如进行交易的交易所、息票支付细节、等级、红利额和数据的信息是主体金融工具的不同的版本化属性。框1318表示将新值或更新值添加到版本化属性。图8D中的框1237显示,在版本化属性VA1的背景下,被包括值的列表是版本化属性的顶层数据结构。
框1319表示在版本化属性的ETSDT中对新值的注释。包括在注释中的寻源信息确切地识别新值的源。寻源信息也是存储与此事件有关的其他信息的方便的位置,所述信息例如:(1)具有新值的理由的特定文档(例如对值进行标记以便由净化引擎进行检查),(2)所采取的研究或验证动作的特定文档(例如在源A中查阅值),(3)改变的代理(例如,以对值进行检查为任务的雇员),等等。将框1319连接到数据元1231的虚线显示,在储存库实体ENT1中的项目实例ITM1中的版本化属性VA1的ETSDT的背景下,由这种标记过程影响的数据对象是如图8D所介绍的版本化属性ETSDT。
针对所述示例,控制流分别从框1305、1309、1313、1319退出框1102。
注意,储存库还可用于存储信息,例如增值功能或用户的商业文档。这些对象需要具有项目实例和版本化属性的储存库实体的全部或部分能力。可以用如这里确切地介绍的储存库和ETSDT来支持这种对象的存储。替代实施例涉及使用这些对象的简化数据结构,其包括对象的存储、用于帮助在储存库中对其进行定位的特性,以及具有管理对于对象的资格的寻源信息的单个ETSDT。处理这种对象向存储的添加以及对之进行注释需要从图9的控制流中简化和省略某些步骤。在阅读这里的材料之后,这种修改对本领域的实践者来说将是显然的。
图10扩展了图7A与7B中介绍的并标识为“维护基于源的资格信息”的框1103,其提供了对于该框的优选实施例的更为详细的控制流。
无论何时当新的基于源的资格信息作为输入到达储存库时,控制进入框1103。被接收到的资格信息更新作为输入参数被传递到该图的流程中。框1401表示接收到更新后的资格信息。决定单元1402是确定所供给的资格信息更新的类型的步骤。介绍了三种类型的更新资格信息:提供关于寻源、关于请求者或关于从源到请求者的授予的已更新信息。
框1403表示描述新的源或源过程的资格信息。每个源向储存库提供关于储存库实体的信息,并向被提供的值授予特定的被识别请求者资格。在包括关于金融工具的信息的储存库的背景下,源的示例为卖家A或卖家B。每个源做出它们自己与外部实体的合同安排,以提供原始数据以得到服务费。增强并存储来自多个源的此信息并响应于请求将之传送到多个租户组织的储存库必须能够向每个数据元提供者证明没有任何信息已被传递到没有资格接收它的请求者。
决定单元1406表示将新的寻源信息分成两种类型:值源和过程源。框1407表示值源的处理,框1409表示过程源的处理。先前提供的卖家A与卖家B的源示例表示值源的示例。以例如关于债券的信息流或关于企业层次结构的信息流的源数据集的形式,值源以这样的方式传送特定的数据服务:所提供的特定值、以及通过应用基于单源数据集的验证过程从之得到的任何值仅可以由与源明确签订合同以接收它们的请求者访问。过程源表示值增强过程,其典型地被提供为与储存库相关联的数据品质保证与增强过程。值增强过程是一种类型的项目实例过程。示例包括孤立地验证和净化单源数据集以及使用为同一被引用实体提供替代值以选择最为可靠的值的多源数据集的比较过程。请求者需要对项目实例过程以及在项目实例过程的应用中使用的属性值有资格,以便有资格接收通过将该过程应用到这些源值所生成的值。框1408和1410表示创建和维护如数据元1418所示的资格信息的一部分的、唯一地分别识别值和过程源的信息。
除了唯一地识别并特征化可授予资格的所有源(过程与值)以外,数据元1418表示的信息还识别并特征化接收资格的所有请求者。在使用这种储存库方法的参考数据实用工具的有利实现中,数据元1418表示的资格信息被保存在资格储存库中,即图1B中的数据元53中。
框1405表示描述新请求者的资格信息。维护对请求者进行特征化的信息,使得良好地形成所有的资格授予,产生可被认证的、良好定义的目标请求者。决定单元1411表示将新请求者信息分为两种类型的请求者:租户请求者(客户)和其他请求者。框1412表示租户请求者的处理,租户请求者是储存库的用户。框1413表示其他请求者的处理,其他请求者包括与储存库有关联的人员,该人员提供储存库维护或用户服务,并且在金融背景下包括代表交易所、数据提供者以及法律或适应性检查与审计功能相关联的个体或实体。框1414表示对关于所有这种请求者的信息进行维护(包括用于验证特定请求代表储存库请求者被发起的认证过程)并确保该信息被包括在由数据元1418表示的资格信息中。关于租户以及其他请求者被维护的信息以及用于对它们进行验证的方法可能不同也可能类似。
框1404表示对从特定授予者到被识别的被授予者的资格的处理。框1415表示在已经存储在由数据元1418表示的寻源列表中的信息中定位授予源。资格授予者可以为值源、源数据集或项目实例过程。框1416表示在有效请求者列表中识别需要资格的请求者,即被授予者。框1417表示从此源向此请求者创建新的或更新后的资格授予(更新可补充或调用在前的资格)以便包括在用数据元1418表示的资格信息中。如同前面所述的,这种资格信息可被存储在储存库中或单独存储。
数据元1418表示的资格信息使能在请求处理过程中强制执行当前的资格。所发布的授予以及源和请求者定义的流发生,其各自在不同的时间点上通过图10所介绍的逻辑生成单独的流程。
图11A详细介绍了储存库基于请求者偏好对信息请求做出响应所使用的整个过程。图7A与7B中介绍的框1104表示过程的整个高层流程。框1501表示接收到信息请求以及对请求进行解释,以便提取请求说明。请求来自任何请求者,请求者是代表用户或租户的任何当事人或过程,或者在储存库被使用的背景下是任何数据管理实用工具或系统的代理。
框1502表示储存库定位被请求信息元所采取的动作。
框1503表示资格应用,由此将该组返回值限制为请求者有资格的那些值。这是基于寻源进行的,其可能由于储存库中的信息元用先前所介绍的寻源信息注释。由于本发明的这种特征,框1503所表示的动作主要成为将请求者有资格的源和过程与对被请求信息有贡献的源和过程(从图11B可以看到这种过程的某些更详细细节)进行比较。这可与传统的系统形成对比,在传统系统中,资格典型地仅处理用户执行特定功能而不是从特定源访问数据的能力。
框1504表示将结果得到的数据集返回到请求者的最终步骤。如虚线箭头1113所示,其是生成对检索请求的响应并在适当时记入日志的步骤,所述响应最初被介绍为图7A与7B中整个方法1100的输出。
在图11B中,框1501——其表示接收请求并提取请求说明——被进一步分解为框1505、1506、1507。储存库接收的请求说明包括任意数量的参数,但最少包括以下内容:
-请求者的标识(用框1505表示)
-管理被返回信息元的选择的判定(用框1506表示)。选择判定可使用独立于实现的语言(例如SQL)来指定哪些信息元是请求者感兴趣的,并包括典型通过诸如兴趣列表、时间约束、条件选择等方式表示的参数。
-有序列表或其他的指定请求者对源的偏好的优先级结构,如果来自不同源的多个信息元可用于满足前面的步骤中的选择判定的话。这被称作寻源偏好(用框1507表示)。寻源偏好是本发明非常重要的一方面,因为其是用于对储存库进行导航的一段有利信息,其中来自多个源且属于多个客户的数据位于储存库中。请求者的寻源偏好与信息元的发展跟踪源数据标签以及资格相结合使用,以保证请求者仅得到他们有资格的信息。(该过程的资格强制方面在图11B中更为详细地介绍,也可参见上面对框1503的介绍)。同样重要的是要实现:某些寻源偏好可具有复杂的多层结构并在多个信息层上存在。例如,当在金融信息的背景下创建寻源偏好时,其反映了下面的复杂偏好(样本):“对于欧洲股票,偏好为:首先,单源净化卖家A;如果不可用,则为单源净化卖家B;如果不可用,则为仅规格化的卖家C。对于美国债券,偏好为:首先,仅规格化的卖家A;如果不可用,则为单源净化卖家C,除非该债券被分类为企业债券:在这种情况下,首先,单源净化卖家C,然后,净化卖家B。对于所有其他债券,偏好为来自所有三个卖家A、卖家B、卖家C的单源净化值。最后,对于美国股票,偏好为由源间比较和选择过程X生成的值。”在该示例中,寻源偏好涉及多个信息层(储存库实体、项目实例、属性和元数据)以及潜在的寻源选择,并需要多个层次的处理来满足。
图11C中示出了用于得到信息选择判定的更为详细说明的流程的示例。请求说明的选择判定部分可涉及储存库中任何层次的信息,并且同样地有效地包括涉及任何可用信息项的判定,即储存库实体(用框1509表示)、项目实例(用框1510表示)和任何属性值(用框1509表示)。一旦被执行,选择判定会得到零个或零个以上的信息元。
图11B中用框1501表示的过程的主要任务是解析、验证和从所接收的请求中提取上述项目。解析这种信息所需要的过程的细节为本领域实践者所公知。不是本发明的主题。
在图11D中,框1502被进一步分解为框1512、1513、1514、1515、1508,其更详细地显示出储存库对与上面提取的请求说明匹配的信息元进行定位所采取步骤的示例流程。该过程与关于框1501介绍的请求说明方面相结合。如所阐释的那样,请求说明的两个有利方面——即选择判定与寻源偏好——频繁用于表达相当复杂的概念。为了满足该请求,储存库首先根据需要在所有层面上——即在储存库实体层、项目实例层、版本化属性与属性值层——执行信息选择。也可以选择与这些信息元相关联的元数据。这些行为分别用框1512、1513、1514、1515表示。这种过程形成返回数据集,接着,请求者的寻源偏好被应用于该数据集,从而通常缩小了该数据集(用框1508表示)。这是通过针对每个信息项将寻源偏好中指定的源与储存库中记录的寻源信息进行比较来完成的。可能不能满足寻源偏好的某些元(例如,没有找到来自优选的数据源的信息);在这种情况下,储存库将需要把反映这一点的特殊记录包括在返回数据集中,或使用通知请求者的其他手段。在例如多租户参考数据储存库的背景下的储存库的实现中,多种最优化选项可用于使定位信息元的过程更加高效。这些包括形成允许请求、对于优选寻源选择数量上的最小要求或限制、表视图、多种储存库索引技术等受控的数据驱动方法。然而,在其功能内核上,任何这样的实现与所介绍的步骤保持一致。
在图11D中,信息的选择用框1502表示。被选信息元接着通过资格框1503被过滤。在替代实施例中,资格1503可在1502之前或作为1502的一部分发生。当这完成时,框1502中具体是1512、1513、1514、1515、1508中的所有动作服从于资格。它们各自基于请求者的资格返回响应。
图11E提供了关于图11A的框1503表示的行为的附加细节,即作为请求响应过程的一部分的强制执行资格。储存库的多源多租户性质使得对资格信息的处理与单租户数据管理应用中可能采用的简单过滤方案相比是更为复杂的任务。具体而言,在单个点上(例如在最低的数据结构层——属性)上强制执行资格是不够的,因为多源多租户数据储存库支持存储由源间过程(一种类型的项目实例过程)生成的自身可能需要资格的项目实例。另外,可以对过程有资格,而并非对该过程生成的所有值有资格,这就是为什么发生多层次资格检查的原因。例如,继续金融工具参考数据储存库的示例,其中存在储存库的参考数据实用工具可作为附加服务提供根据某种算法基于多个源产生复合记录的多源项目实例过程P。储存库的租户A订购这种服务。然而,基于驱动服务的规则,其生成的复合记录有时包括来自租户A没有资格的数据源的信息。在这些情况下,这些结果不被返回到租户A,即使租户A订购了该服务。需要两个层次的源检查(过程层次与属性值层次)来检测和正确处理这种情况。最优化包括指定不同的项目,例如“简单源”与“复杂源”,以便帮助在运行时在需要一层次资格检查与两层次资格检查的项目实例过程之间进行区分。在其功能内核上,资格检查过程明了并适应这两种可能性。
在图11E中,资格过程用在储存库实体层开始的框1503表示(即所希望的储存库实体已经被定位)。框1516表示使用图10所示的数据元1418表示的资格信息检索请求者对当前储存库实体的项目实例过程的资格。这种资格信息以及创建其所需要的步骤在图10中介绍。框1517表示基于这种资格信息的检查,以确定此请求者是否有资格访问被选的项目实例(回想每个项目实例与项目实例过程相关联)。关于生成给定项目实例的项目实例过程的信息就是在该层次上被存储。还可能需要使用存储在用于该项目实例的ETSDT中的附加信息,如将框1517与数据元1220相连的虚线所示。决定框1518表示流程检查点;如果框1517表示的检查失败,则请求者没有资格访问该项目实例;如果检查成功,则发生在属性层的进一步检查。在决定单元1518有成功结果的情况下,框1519表示从由数据元1418表示的资格信息中检索请求者对特定源的资格。在替代实现中,该步骤与用框1516表示的行为相结合。框1520表示在属性层上的实际资格检查。该检查使用来自版本化属性ETSDT(数据元1227)的寻源信息来保证仅有资格的源被用于产生所希望的值。如果检查通过(在决定框1521表示的决定点上),属性和所包含的项目实例是有资格的,并适合于返回到请求者。否则,基于项目实例过程的性质,特定的版本化属性或整个项目实例被从返回集中移除(用框1522表示)。此过程在所有被选项目实例和被选属性中进行,以产生过滤后的、返回到请求者的数据集。此过程结束于对关于本发明储存库方面的流程图的介绍。如果框1518中的测试失败,则没有有资格项目实例可用,故控制流出框1503。
C.数据净化与值增强的介绍
这一部分介绍用于执行到达的参考信息的可缩放数据净化和值增强的方法和组织,其中支持单个数据源增强处理以及多个数据源比较与增强处理,同时,该方法还维护对得到参考数据元中使用的所有源的充分知识。在参考数据实用工具的背景下,这种方法可提供图1A中框19所示的数据获取与品质增强处理。
图12A与12B一起采用时显示出用于数据净化与值增强方法(DCVE)的完整的高层次控制流程。图12A显示出DCVE的单源数据净化部分。图12B显示出多源数据处理。
在图12A中,数据的卖家源由椭圆2101、2102、2103表示。多个数据源由DCVE并行处理。在图12A中,由椭圆2101、2102、2103表示的每个源提供关于参考数据话题T1的数据集。在参考数据实用工具的背景下,这对应于图1A的框22所介绍的T1。箭头2132、2133、2134表示当单源DCVE处理完成且图12中的多源DCVE处理可被发起时的控制转移。图12A描述了在高层面上如何处理该数据集的源属性。源项目以类似的方式被处理。关于源和属性处理的更多细节在图14中给出。
一般而言,在该部件中接收和处理针对多个话题的数据。话题是使得储存库中的分层组织成为可能的特性。在金融参考数据储存库中,不同的参考话题的示例包括:
-关于金融工具的参考数据;
-企业层次与对等关系人信息;以及
-企业动作事件通知。
不同话题的DCVE处理是独立的。然而,同样的源介绍用于任何一般概念,并且在有利的实施例中,所接收到的合格参考数据值被存储在同一储存库中。源介绍包含对特定源提供的数据集中的数据的结构、内容和约束进行介绍的信息。
图12A示出了对于提供参考数据值的三种数据源——分别用椭圆2101、2102、2103表示的源S1、源S2、源S3——的DCVE处理。关于在许可卖家、自由公用源和合格请求式源中划分的特定话题,可以有任何数量的数据值源。在我们对该附图的介绍中,我们假设源为同一话题供给数据。这种假设允许我们说明图12B中的源间处理。然而,DCVE对来自多个源关于不同话题的数据并行进行处理。DCVE处理尽可能多的可用的源和话题,且不限于并行处理三个。DCVE处理将每个源看作参考数据值的独立数据集。单元2105、2111、2120、2129、2114、2123处理源S1的值,单元2106、2112、2121、2130、2115、2124处理源S2的值,而单元2107、2113、2122、2131、2116、2123处理源S3的值。储存库用单元2108、2109、2110表示。我们将其呈现为对于每个流的单独的存储,以显示出DCVE处理过程中的中间处理结果是对于各个流独立地进行管理的。在使用用于输入处理的这种DCVE方法的参考数据实用工具的有利实现中,这种存储将在图1A中的单元20所示的单个实用工具储存库中提供。每个源数据集的不同的DCVE处理使得对每个被处理值的源的记录成为可能。对于源S1值的DCVE处理更详细地进行介绍;其他源的对应处理是类似的。单个源的DCVE处理在以下步骤中进行:
-属性与项目验证以及ETSDT的创建,用针对源S1的框2105和椭圆2129表示;
-属性和项目规格化,用针对源S1的框2111和椭圆2114表示;以及
-对源特有的属性与项目值净化,用针对源S1的框2120与椭圆2123表示。
修改后的属性和项目值被存储在储存库中。所有用于创建修改后的值的事件和源被记录为也包含在储存库中的ETSDT注释。储存库用单元2108表示。这些步骤有时接着有这样的步骤:潜在地使用来自提供关于此话题的数据的多个源的数据,应用一个或一个以上的源间属性值比较过程。这在下面介绍的图12B中示出。
框2105表示DCVE部件中的第一步骤;接收和处理从源S1到达的数据集。该步骤处理接收协议,并将来自源S1的数据集获取到储存库中。属性验证处理通常包括:
  -源、肯定应答、协议和格式处理的验证;
  -向输入记录分配唯一的标识符和/或时间戳;
  -验证源属性值符合源说明;以及
  -对于不能自动验证的数据集中的任何元进行手动验证。
  在接收数据集并对之进行验证以便接受到DCVE部件中之后,被验证的属性被存储在储存库中,并将对来自源S1的属性进行验证时产生的事件如箭头2181所示作为日志记入ETSDT,其也被存储在储存库中。储存库用框2108表示。这种记入日志是通过记录作为ETSDT注释的验证结果、验证过程中采取的动作以及属性验证完成而进行的。
异常(anomaly)可能在不能被自动验证的被接收数据集中存在。当其发生时,数据集的那些部分被传递到由椭圆2129表示的手动验证,其中,具有商业知识的人在可能的情况下校正错误。在手动验证之后,被验证的属性被存储在储存库中,且在对源S1的手动验证中产生的事件被作为ETSDT注释记入日志,如箭头2151所示。
框2111表示对从源S1到达的数据的自动化属性规格化处理。该步骤处理这样的问题:特定的参考数据属性可能被不同数据集源称为不同属性名。另外,对于参考数据项目的特定属性值可在不同源中以不同的方表示。虚线箭头2171显示,来自前面的手动或自动验证步骤的被验证数据作为输入对自动规格化2111可用。
目标说明包含描述储存库实体信息的结构、内容和约束的信息,包括存储在储存库中的项目实例、版本化属性和属性。被接收到的对于参考数据项的属性被翻译成为标准表示。属性规格化处理通常包括:基于目标说明将来自源说明的源属性映射到目标属性。这种处理在源说明中查阅由源S1供给的参考数据属性,使得标准属性名被匹配。查阅和翻译属性是出于高效率原因通过应用一组查阅和自动化规则步骤来自动完成的。这包括将源属性值翻译为目标属性值。规格化的属性名和值被存储在储存库中。用于创建规格化属性名和值的事件和源被记录为ETSDT注释,如箭头2182所示。
有些时候,在自动属性规格化步骤中,属性名和值查阅失败或检测到其他异常。对于每种异常情况,问题参考数据被转发到椭圆2114表示的手动属性规格化处理步骤。在该步骤中,具有商业知识并谙熟主题话题的人决定是否接受或如何修改异常值。例如,此人决定其名称不在源描述中的金融工具实体是否为新创建类型的、以往没有见过且需要添加到源描述中的金融工具,或者该名称是否为已有的已命名工具的误拼或其他数据输入错误。规格化的属性名与值被存储在储存库中。用于创建规格化的属性名与值的事件和源被记录为ETSDT注释并存储在储存库中,如箭头2152所示。
在被接收的参考数据属性被规格化之后,通过自动处理或在检验和可能的手动校正后,规格化的属性被存储在储存库中,并且用于对来自源S1的属性进行规格化的事件被作为日志记入ETSDT,分别如箭头2182和2152所示。这种记入日志是通过将规格化结果、规格化过程中采取的动作、以及属性规格化的完成记录为ETSDT注释而完成的。
在属性规格化完成后,从源S1到达的参考数据通过对源特有的项目净化过程,如框2120、2123所示。对源特有的项目净化的目的是通过商业规则的应用验证数据内容的正确性,而不用参考任何其他的源。
第一个步骤是自动净化阶段,其用框2120表示。虚线箭头2172显示,在先前的规格化步骤中保存的规格化数据作为输入对自动净化可用。在步骤2120中,自动净化检查有没有丢失的数据、被篡改的数据、超出预期范围(容许范围)的数据值、以距离先前已知值的某种不合理偏移(变化率)所改变的数据、数据的良好构成程度、与目标项目实例的一致性(由目标说明描述)、与类似目标说明的公知被引用实体的兼容性、对近期新闻的敏感性以及其他的可编程源属性值检查。这些检查是基于包含在源与目标说明中的信息的。再一次地,出于高效率的原因,为了对将需要通过所有这些测试的大量到达数据进行过滤,使初始净化阶段自动化是有利的。净化后的属性被存储在储存库中,且用于创建净化后属性的事件和源被记录为ETSDT标签注释并也被存储在储存库中,如箭头2183所示。
某些项目对于用框2120表示的自动净化检查失败,其被作为异常分离出来并传递到用椭圆2123表示的手动净化。在此时,具有商业知识并谙熟主题话题的人重新检查异常项目,并决定接受、拒绝还是校正到达的异常规格化值。这种对源特有的项目净化仍仅参考从源S1到达的数据而进行。自由分发的公共信息用于改善、净化或增加数据,但不使用其他被出售的许可数据。为了防止污染数据所有权以及对其他源的访问权,这种限制是有必要的。自由获得的信息的使用也可被记入日志。被净化的属性被存储在储存库中,且用于创建净化属性的事件和源被记录为ETSDT标签注释并也被存储在储存库中,如箭头2153所示。
在规格化属性净化后,通过自动处理或在检验以及可能的手动校正之后,净化的规格化属性被存储在储存库中,且用于创建来自源S1的净化后的规格化属性的事件被作为日志记入ETSDT中的储存库,分别如箭头2183、2153所示。这种记入日志是通过将净化结果、净化过程中采取的动作、以及净化的完成记录为ETSDT注释而完成的。
在替代实施例中,首先进行从源到达的数据集的净化,然后进行规格化。上述排序的优点在于,用于检验和手动净化到达的数据的有价值的人力资源可更为自由地从一个源被分配到另一个源,如果他们对重新检查已规格化的值熟悉的话。
错误检查通常导致手动步骤:手动规格化(椭圆2114)、手动验证(椭圆2129)、手动净化(椭圆2123);和/或向数据源(椭圆2101)产生用箭头2135、2150以及2176表示的反馈或问题报告。典型地,如果错误或问题被发现或被认为可能在从源S1接收的参考数据值中,则通知或要求数据提供者确认或校正所提供值。
DCVE处理与源之间这种类型的反馈通过进一步地使用ETSDT进行最好的处理。已经通过DCVE处理而没有问题的值被加标签为正常。其他的值被传送以用于潜在的使用,但被加标签为“有问题”或“等待确认”。以这种方式加标签的值典型地由需要实时接收更新值而不错误的可能性的那些储存库租户使用。当源响应于从它们接收到的先前值被加标签为“有问题”的通知而提供更新或确认值时,用对应的正常标签对更新值进行处理。
在单源验证、规格化和净化完成之后,使得净化且增强的数据对一个或一个以上的多源DCVE过程可用。箭头2132显示出将单源DCVE处理的数据从源S1转移到图12B中的多源DCVE过程的控制流程。类似地,箭头2133和2134表示使得分别来自源S2和S3的单源DCVE处理数据对图12B中的同一示例的多源数据净化过程可用。对来自源S2和S3的数据的单源DCVE处理由独立并行处理进行处理,其在结构上类似于详细介绍过的、应用到对来自源A的数据的单源DCVE处理的方法。
在这里用图12A与12B示出的示例中,显示出三个源,每个源被单独净化,接着,结果被用作单源DCVE过程的输入。该方法可从这种介绍推广,并可应用于任意数量的源的单独单源净化,接着是将来自任何一个单源DCVE过程的结果传送到任意数量的多源DCVE过程的阶段。
自动化工作流管理技术可用于促进手动步骤2129、2114、2123、2130、2115、2124、2131、2116、2125的协同与管理。存在多种替代实现,例如,信号量或松耦合的分布式过程。本领域技术人员知道如何协同异步的过程。用于协同所介绍流程的独立步骤的确切机制对本过程来说不重要。存在可用于这些目的的对本领域实践者已知的许多种技术。
图12B示出了数据净化与值增强过程(DCVE)——其在对源特有的项目净化完成后被应用——的源间净化值增强部分。DCVE过程可应用一个或一个以上的源间项目比较和/或源间项目净化过程。这种源间过程的一个示例提供了对于所有源数据集中的规格化属性的推荐值的选择。该示例用于说明该附图的概念。这种过程的基本部件用框2138和椭圆2170表示。
从图12A到框2130表示的自动选择与增强步骤的箭头2132、2133、2134表示当新的单源DCVE处理数据从源S1、S2、S3变得可用时控制向着图12B的多源DCVE处理的转移。同步的方法对于本发明来说不重要。通常,一旦来自任何输入源的新数据可用,则其可与先前从之接收到的值进行比较,且可发生一级多源DCVE处理。在其他情况下,遵循某种固定的调度或当来自所有期望源的完整的一组单源净化数据对于特定参考实体可用时,成批进行多源处理可以是高效率的。框2138的处理使用来自用于该话题的源数据集的某个子集的单独的规格化以及净化值,从而应用自动化的商业规则来为此参考数据项选择优选或推荐值。箭头2191、2192、2193表示从储存库检索这些值,在该储存库中,它们在图12A的单源处理过程中被存储为用存储单元2108、2109、2110表示的已保存数据。
结果得到的推荐的源间比较与净化值接着被存储在储存库中,如箭头2194所示。在源间净化过程中使用的事件和源以及源间净化过程的完成被记录为ETSDT注释,其也由箭头2194反映。ETSDT也被存储在单元2140表示的储存库中。如上所述,该单元显示,特定多源DCVE过程的结果被保存,以便使它们可被后来的、对来自这种值创建过程的值有资格的请求者访问。在参考数据实用工具的背景下,存储单元2140与存储单元2108、2109、2110将共享用于如图1B中作为实用工具储存库20一部分的单元50所表示的资格管理实体数据的公共存储。
当自动化处理不能达到希望的结果时,使用手动干预,如单元2170所示。结果得到的推荐源间比较与净化值接着被作为日志记入ETSDT,如箭头2175所示。这种手动过程产生的事件被类似地作为ETSDT注释记入储存库2140。这种记入日志也用单元2175示出。
所有被接收、验证、规格化、净化并准备为目标数据集的源数据集以及通过源间比较和/或净化过程增强的任何属性值被单独存储在ETSDT储存库中。参考数据值的这些数据集中的每一个具有可清楚理解的寻源。DCVE中的多个源间数据集过程产生用所有被参考源加标签的ETSDT中的数据集。所有产生数据集的源间过程存储通过所有被参考源记入日志的ETSDT中采取的动作。ETSDT被存储在用单元2140表示的储存库中。在替代实施例中,在适当时可以使用不同数量的ETSDT。
自动化工作流管理技术促进了控制转移2132、2133、2134以及处理步骤2138、2170的协同与管理。存在多个替代实现,例如信号量或松耦合的分布式过程。本领域技术人员知道如何协同过程。
这里介绍了针对单个话题的DCVE处理的详细流程。这种处理对于每个参考数据话题来说是可重复的,在具有以下认识的情况下:
-可能存在性质上的不同,因为某些话题几乎全部由具有原子工具数据的许可馈给所驱动;以及
-诸如企业和对等关系人层次的话题可具有更为耦合的记录,并需要更为积极的数据收集。
不论这些强调的性质差异,数据的模式和结构、获取、品质保证和增强本质上是同样的交叉话题。数据获取、净化和增强过程的净效应是提供“生产线”方案,其用于接收和设计高品质水平的参考数据,同时完全保持对数据的可审计且透明的所有权。
图13提供了对验证、规格化、单源净化与多源的过程的高层次概览。术语“多源处理”而不是“多源净化”被用于表示多源过程在性质上变化很大且不仅包括数据的基本品质保证,还在不兼容值间进行选择,基于几个源或参考多个数据源的任何其他可编程过程生成新的值。图13特别着重于在所介绍过程的各种步骤上与相应的信息单元的ETSDT的交互。
从框2200开始的第一列介绍了验证过程。其对应于在图12A中对于自动化版本的步骤2105、2106、2107的处理,以及对于手动版本的2129、2130、2131的处理。验证典型地为应用于到达的数据集的第一过程,且其功能是进行基本结构与内容验证。第一个步骤是从数据集提取源项目,用框2201表示。这是典型地基于由数据提供者供应的源数据集说明进行的,该说明一般详细说明头部、记录结构或定界符以及类似的信息。一旦源项目被提取,就开始对每个源项目的完整跟踪历史。框2202表示创建或更新每个源项目的ETSDT,以便记录源项目历史的事件。记录在ETSDT中的前几段信息之一是项目的源,用框2203表示。由于后来项目中收集的信息可不再通过源进行分组,所以非常希望在最低可用层次上保持源信息。一旦完成这一点,验证规则就被应用到源项目,如框2204所示。这种规则是典型地基于源说明信息创建的,并在源项目层次和属性层次上存在。在某些实施例中,可能没有应用于源项目的规则。框2205表示ETSDT的注释,以反映源项目层次的规则的应用。所存储的信息包括应用哪种规则以及应用该规则的结果(例如通过/失败)。如果校正被应用,也对校正进行记录。当校正被应用时(在任何层次),原始记录不被覆盖,但被保存为先前的版本,其中ETSDT作为详细说明诸如何时、为何以及在何种过程中进行校正的信息的历史。如果校正具有特定的源(例如,如果校正被将原始商业文档用作源的雇员手动应用),这也被记录在ETSDT中。
一旦源项目层的验证规则被应用,则处理移动到属性层。与应用于从源数据集提取源项目的过程类似,框2206表示从每个源项目提取属性。这以后,为每个属性创建ETSDT,且属性的原始源被记录在ETSDT中,即分别用框2207、2208表示的动作。属性层次的规则被应用(框2209),且与规则应用相关联的所有结果得到的事件和源被记录在ETSDT中(框2210)。
对于所有的源项目和属性重复过程2200到2211。
框2211表示对ETSDT的记述,其指示出以上面的方式处理的源项目已经通过验证。验证是项目实例过程的示例,其中,数据集中的信息已经以某种方式受到储存库影响。记录已被应用到源项目的项目实例过程是希望的操作,因为这对于维护数据的可审计历史来说是必要的。
图13中以框2212开始的第二列描述了规格化的过程,其典型地在验证之后。这对应于在图12A中对于自动化版本的方块2111、2112、2113的处理,以及对于手动版本的2114、2115、2116的处理。在此时,源项目已从原始源数据集中被提取,并被逐一选择以进行规格化,即由框2213表示的过程。每个源项目(框2214)以这种方式被规格化:该方式被标准提取-转换-装载(ETL)过程使用,该过程即结构修改、代码查阅、标准应用以及类似的过程。在这种过程中做出的修改可以在源项目的层次上(例如结构上)和/或属性层次上(例如数据格式上),并在源项目层次上(如框2215所示)或属性层次上(如框2216所示)作为注释被记录在ETSDT中。与验证过程一样,保存项目的原始版本。框2217表示在规格化过程完成时项目ETSDT的注释,其指示项目已经经过规格化过程(框2217)。
以框2218开始的单源净化在第三列中示出。这对应于自动化版本中框2120、2121、2122的处理,以及手动版本中框2123、2124、2125的处理。框2219表示选择净化项目的第一步骤。由于不是所有的源项目都需要被净化,该步骤的执行根据需要基于初步标记、随机采样算法或某种其他算法。在净化过程中存在规则,该规则在源项目层次(例如与项目的不同属性之间的相关性有关的问题)或属性层次(例如价格远远高于某个阈值)上应用。如框2220所示,源项目层规则首先被应用。接着,如框221所示,在应用这些规则期间生成的事件被记录在项目层ETSDT中,如同以前一样。属性被选择,且规则在属性层次上应用,分别如框2222和2223所示。在属性层ETSDT中记录事件,如框2224所示。如同其他的过程一样,最后的框2225表示该过程完成时源项目层ETSDT的注释,以显示该项目已经通过单源净化项目实例过程。
图13的最后一列示出由框2226开始的源间处理。这对应于在图12B中自动化形式的框2138的处理以及手动形式的框2170的处理。源间处理特别有意义,因为涉及来自多个源、引用同一真实实体(被引用实体)的项目。这需要特别仔细地记录项目和属性源。
源间处理开始于选择包含描述同一被引用实体的信息的所有源项目。其用框2227表示。例如,如果IBM普通股票是被引用实体,则来自源A、源B、源C的项目——其表示由这些不同源提供的IBM普通股票——将被选择。接着,框2228表示将这些规则应用到源项目和/或项目属性。由于存在数量相当多的可能的源间过程,所以没有显示进一步的细节。然而,大多数源间过程倾向于落入下列类别中的一种:
-仅从不同源提供的替代物中选择“最优”项目或否则为优选项目或推荐项目的过程;
-基于由不同源提供的属性的某种组合创建新项目的过程;或者
-在适当的地方修改由不同源提供的项目的过程。
对于创建新的一个或多个项目的过程,创建新的对应ETSDT。这由决定框2229和框2230表示。框2231表示在源项目层上用关于应用到该项目的源间处理的信息进行ETSDT注释。在运行时,这种注释确切识别何种类型的源间过程被应用。框2232表示决定点,其区分仅从其他过程选择优选或推荐项目的源间过程的处理。如果源间过程属于这种类型,即选择已有项目但实际上不修改属性,则在源项目层进行注释,以便指示哪些母源与做出的选择匹配,如框2233所示。例如,如果选择了表示具有$95.50的价格的IBM普通股票的项目,则可能一个以上的参与源间过程的源对同一数据有贡献。在这种情况下,框2233表示的注释将包括所有这些源。作为替代,如果源间过程属于其他两种类型中的一种,也就是说,如果其包括在属性层的数据修改或新源项目的创建,则有必要为每个属性单独地注释确切的该组源。在这种情况下,框2234表示对于每个受影响的属性在属性层的适当注释。对于每个属性多个源也是可行的。
用于协同所介绍流程的不同步骤的确切机制对本过程来说不重要。存在用于这些目的的本领域实践者知道的多种技术。
图14示出了进行单源数据集验证所需的处理。这种过程在图12A的框2105中首次被介绍,并在图13的单元2200到2211中详细说明。
在这种过程期间,原始项目值和原始属性值以及对这些值的所有修改被存储在储存库中。框2320表示项目ETSDT在哪里被更新,框2321表示属性ETSDT在哪里被更新。
验证的开始用框2305表示。所有应用于此步骤的规则为对源特有的;不允许源间处理。接着,如框2307所示,源被验证,数据集被接收。如果源是无效的,则数据集被记录,且整个数据集被发送到源验证的手动处理。否则,做出数据集接收的记录,并获得验证该数据集的规则,即分别由框2309和2310所示的行为。这些规则在文件、数据库或其他合适的存储中。框2312表示从数据集提取第一个源项目。该项目及其源被记录,ETSDT被创建;框2314和2316表示这些行为。
第一个可应用规则被应用到该项目,用框2318表示。如果该项目通过规则应用,即菱形2322表示的决定,则执行附加的查询,如菱形2350所示,以便搜索附加规则。如果找到了附加规则,该规则被应用到该项目,仍用框2318表示。如果项目没有通过菱形2322表示的规则应用,则在ETSDT中记录错误,用框2325表示。在错误被记录后,基于用于校正错误的规则或被应用规则中的信息,系统试图进行自动校正,用框2330表示。试图进行的校正的成功或失败用菱形2335表示。框2345表示如果问题不能被校正则采取的动作,其中,项目被标记为需要校正。在项目标记之后,过程继续,搜索更多的规则,如上所述用菱形2350表示的同样的查询。如果项目被自动校正,则校正以及用于进行校正的规则被记录在ETSDT中,用框2340表示。过程继续,搜索更多的规则。
如果菱形2350表示的查询没有返回应用于该项目的附加规则,则发生与该项目相关联的属性的提取,用框2360表示。属性及其源被记录,并且ETSDT被创建或更新,分别用框2362和2364表示。框2366表示将第一可应用规则应用到属性。如果属性通过规则应用,即用菱形2368表示的决定,则执行附加查询以搜索附加规则,如菱形2390所示。如果找到附加规则,则将该规则应用到该项目,仍用框2366表示。如果属性没有通过菱形2368表示的规则应用,则在ETSDT中记录错误,用框2370表示。在错误被记录之后,基于包含在用于校正错误的规则或被应用规则中的信息,系统试图进行自动校正,用框2372表示。试图进行的校正的成功或失败用菱形2374表示。如果错误被自动校正,则将校正和用于进行校正的规则记录在ETSDT中,用框2378表示。过程继续,检查更多的属性规则。框2376表示如果错误没被自动校正则采取的动作,其中,属性被标记为需要校正。在项目标记之后过程继续,搜索更多规则,如上所述用菱形2390表示的同样的查询。
如果菱形2390表示的查询没有返回应用于该属性的附加规则,则过程搜索附加属性,用菱形2392表示。如果找到另一属性,则其被提取(框2360),并进行对于新属性的规则检查。如果菱形2392表示的查询没有返回对于该项目的附加属性。则过程在数据集中搜索附加项目,即用菱形2394表示的查询。如果查询找到附加项目,则如框2312所示,开始为新项目进行项目和属性检查。如果菱形2394表示的查询没有返回附加项目,则进行检查,看看在源数据集处理过程中是否找到任何错误,如菱形2396所示。如果没有找到错误,验证过程终止(方块2380)。如果找到了错误,则对被确定为需要校正的所有项目和属性进行调度,以便进行手动验证(或手动校正),用框2385表示,并且验证过程终止(方块2380)。
用于在并行地继续处理数据集中没有错误的部分的同时对手动验证进行调度以及将控制传递到它的确切机制对本过程来说不重要。存在可用于这些目的的本领域的实践者知道的多种技术。
图15示出了执行源输入流的规格化所需要的处理,其用图12A中的框2111表示。该过程在图13中的框2212到2217中详细说明。
在该过程期间,原始项目值与原始属性值以及对这些值的所有修改被存储在储存库中。框2420表示项目ETSDT在哪里被更新,框2421表示属性ETSDT在哪里被更新。
框2405表示规格化的开始,接着,如框2407所示,接收被验证的数据集。做出接收该数据集的记录,并获得用于对该数据集进行规格化的规则,分别如框2409和2410所示。由于其为单源规格化过程,所有规则是对源特有的,不依赖于来自任何其他源的数据或信息。这些规则在文件、数据集或其他合适的存储中。
从数据集中提取第一个项目,如框2412所示,接着将第一个规则应用到该项目,如框2418所示。如果项目通过规则应用,如决定菱形2422所示,则对数据集进行检查,看是否有附加的可应用规则,如菱形2450所示。如果找到附加规则,其被应用到该项目(框2418)。如果项目没有通过如决定菱形2422所示的规则应用,则错误被记录在ETSDT中,如框2425所示。在错误被记录后,基于用于校正错误的规则或被应用规则中的信息,系统试图进行自动校正,用框2430表示。试图进行的校正的成功或失败用菱形2435表示。框2445表示如果问题不能被校正所采取的动作,其中,该项目被标记为需要校正。在项目标记之后,过程继续,搜索附加规则,用上面的菱形2450表示的同样的查询。如果项目被自动校正,则校正以及用于进行校正的规则被存储在ETSDT中,如框2440表示。过程继续,搜索更多的项目规则。
如果菱形2450表示的查询没有返回应用于该项目的附加规则,则发生与该规则相关联的属性的提取,如框2460所示。第一个可应用规则被应用到该属性,如框2466所示。如果属性通过了规则应用,即菱形2468表示的决定,则对数据集进行检查,看有没有更多的属性规则,如菱形2490所示。如果找到附加规则,则将之应用到该属性(框2466)。如果属性没有通过用菱形2468表示的规则应用,则错误被记录在ETSDT中,如框2470所示。框2472表示基于包含在用于校正错误的规则或被应用规则中的信息所试图进行的对错误的自动校正。试图进行的校正的成功或失败用菱形2474表示。如果错误被成功校正,则校正该错误的规则与该校正被记录在ETSDT中,如框2478所示。过程继续检查,看有没有更多可应用的属性规则。如果错误没有被自动校正,则属性被标记为需要校正,如框2476所示。在项目标记后,过程继续进行检查,看有没有更多可应用属性规则。
如果在决定菱形2490中没有找到附加规则,则对项目进行检查,看有没有附加属性,如决定菱形2492所示。如果找到另一属性,则对之进行提取,并进行对新属性的规则检查(2460)。如果没有找到附加属性,则对数据集进行检查,看有没有附加项目,如菱形2494所示。如果找到附加项目,从数据集对之进行提取,框2412,并开始项目与属性检查。如果没有找到附加项目,则过程进行检查,看是否在源数据处理过程中找到任何错误,如菱形2496所示。如果没有找到错误,规格化处理终止(框2480)。如果找到任何错误,则对所有被确定为需要校正的项目和属性进行调度,以便进行手动规格化(或手动校正),用框2485表示,且自动规格化终止(框2480)。
用于在并行地继续对数据集中无错误部分的处理的同时对手动规格化进行调度并将控制传递到它的确切机制并不重要。存在可用于这些目的的本领域已知的许多技术。
图16显示出进行数据集净化所需要的处理,其用图12A中的框2120表示。该过程在图13中的框2218到2225中详细说明。
在该过程期间,原始项目值与原始属性值以及对这些值的所有修改被存储在储存库中。框2520表示项目ETSDT在哪里被更新,框2521表示属性ETSDT在哪里被更新。
框2505表示净化的开始。接着,框2507表示接收验证后的数据集。做出数据集接收的记录,并获取用于净化该数据集的规则,分别如框2509和2510所示。由于其为单源净化过程,所以对数据集来说,所有规则是对源特有的,不依赖于来自任何其他源的信息或数据。这些规则在文件、数据库或其他合适的存储中。
第一个项目从数据集中被提取,第一个可应用规则被应用到该项目,分别如框2512、2518所示。如果项目通过了规则应用,用决定菱形2522表示,则对数据集进行检查,看有没有更多的可应用规则,如菱形2550所示。如果找到附加规则,则在框2518中将其应用于该项目。如果项目没有通过规则应用,用决定菱形2522表示,则错误被记录在ETSDT中,如框2525所示。在错误被记录后,基于用于校正错误的规则中的信息,系统试图进行自动校正,用框2530表示。试图进行校正的成功或失败用菱形2535表示。框2545表示如果问题没有被校正则采取的动作,其中,该项目被标记为需要校正。在项目标记之后,过程继续,以搜索附加规则,即用上面的菱形2550表示的相同的查询。如果项目被自动校正,则将校正与用于进行校正的规则记录在ETSDT中,如框2540所示。接着过程继续,搜索更多的可应用项目规则。
如果菱形2550表示的查询没有返回应用于项目的附加规则,则发生与该项目相关联的属性的提取,如框2560所示。第一个可应用规则被应用到该属性,如框2566所示。如果属性通过了规则应用,即用菱形2568表示的决定,则对数据集进行检查,看有没有更多的可应用规则,如菱形2590所示。如果找到附加规则,则将之应用到该属性(框2566)。如果属性没有通过菱形2568表示的规则应用,则在ETSDT中对错误进行记录,用框2570表示。框2572表示基于包含在该规则中的信息或基于用于校正错误的规则的自动误差校正。试图进行的校正的成功或失败用菱形2574表示。如果错误被成功校正,则校正该错误的规则和校正被记录在ETSDT中,用框2578表示。接着过程继续,检查附加的可应用属性规则。如果错误没有被自动校正,则将属性标记为需要校正,如框2576所示。在项目标记之后,过程继续,以便在决定菱形2590中检查更多的可应用属性规则。
如果没有找到附加规则,则对项目进行检查,看有没有附加属性,如决定菱形2592所示。如果找到另一属性,则在框2560中对之进行提取,并且进行对新属性的规则检查。如果没有找到附加属性,则对数据集进行检查,看有没有附加项目,如菱形2594所示。如果找到附加项目,则在框2512中从数据集对之进行提取,并开始属性检查。如果没有找到附加项目,则过程进行检查,看是否在源数据处理过程中发现任何错误,如菱形2596所示。如果没有发现错误,则规格化过程终止(框2580)。如果找到任何错误,则对被确定为需要校正的所有项目和属性进行调度,以便进行手动净化(或手动校正),用框2585表示,并且自动净化终止(框2580)。
用于在并行继续对数据集中没有错误的部分的处理的同时对手动净化进行调度并将控制传递到它的确切机制不重要。存在可用于这些目的的本领域中已知的许多技术。
图17示出了校正验证错误的过程,其是一种手动验证过程,在图12A中用框2129表示。
框2605表示手动验证开始。所做的第一件事——用框2615表示——是接收验证错误列表。当这些错误被接收到时,手动验证过程的激活被记录在ETSDT中。在此之后,提取错误条目,如框2620所示。决定菱形2625将错误条目的标识表示为源项目或属性。如果错误条目是对于源项目的,则对所有相关联的属性以及任何其他相关信息进行收集,如框2630所示。否则,具有相同源项目且正被考虑的所有属性以及其他任何有关信息被收集,如框2665所示。框2655表示的收集是这样的一组属性:其具有错误,所有这些错误与同一项目相关联,但该项目没被包括,因为其不包含任何错误。如框2630所示,如果项目具有错误,则其所有属性无论有无错误都被收集。这样做是因为在某些情况下,项目错误影响属性处理。在上述任一情况下,请求人工协助,用框2635表示,且对于错误的人工劳动的特征被记录在ETSDT中。该信息被传递到对该错误进行校正的人。手动校正过程进行等待,一直等到该错误被校正,即框2640,然后,将该校正记录在ETSDT中。过程继续并进行检查,看是否有附加的错误,即用决定菱形2645表示的查询。如果存在附加错误,提取下一个错误条目。否则,所有错误已被收集,这意味着被验证,于是处理继续进行,对验证后的项目与属性进行调度以便进行自动规格化,如框2650所示。最后,手动验证终止(框2655)。
图18A示出了校正规格化错误的过程,即在图12A中用框2114表示的手动规格化过程。框2705表示手动规格化通过接收规格化错误列表而开始。手动规格化过程的激活被记录在ETSDT中。在此之后,提取错误条目,如框2715所示。决定菱形2720将错误条目的标识表示为源项目或属性。如果错误条目是针对项目的,则所有相关联的属性以及任何其他有关信息被收集,如框2725所示。否则,所有具有同一项目且正在被考虑的属性以及任何其他有关信息被收集,如框2727所示。框2727表示的收集是一组这样的属性:其具有错误,所有错误与同一项目相关联,但该项目未被包括,因为其不包含任何错误。如框2725所示,如果项目有错误,则其所有属性无论有无错误均被收集。这样做是因为在某些情况下,项目错误影响属性处理。在上述任一情况下,请求人工协助,用框2730表示,且对于错误的人工劳动的特征被记录在ETSDT中。该信息被传递到对该错误进行校正的人。手动校正过程进行等待,直到该错误被校正,即框2735,然后,将该校正记录在ETSDT中。过程继续并进行检查,看是否有附加的错误,即用决定菱形2740表示的查询。如果存在附加错误,则提取下一个错误条目。否则,所有错误已被收集,这意味着被校正,于是处理继续进行,对规格化后的项目与属性进行调度以便进行自动净化,如框2745所示。最后,手动规格化终止(框2750)。
图18B示出了校正净化错误的过程,即在图12A中用椭圆2123表示的手动净化过程。框2760表示手动净化通过接收净化错误列表而开始。手动净化过程的激活被记录在ETSDT中。在此之后,提取错误条目,如框2765所示。决定菱形2770将错误条目的标识表示为源项目或属性。如果此错误条目是针对项目的,则所有相关联的属性以及任何其他有关信息被收集,如框2775所示。否则,所有具有同一项目且正在被考虑的属性以及任何其他有关信息被收集,如框2772所示。框2772表示的收集是一组这样的属性:其具有错误,所有错误与同一项目相关联,但该项目未被包括,因为其不包含任何错误。如框2775所示,如果项目有错误,则其所有属性无论有无错误均被收集。这样做是因为在某些情况下,项目错误影响属性处理。在上述任一情况下,请求人工协助,用框2780表示,且对于错误的人工劳动的特征被记录在ETSDT中。该信息被传递到对该错误进行校正的人。手动校正过程进行等待,直到该错误被校正,即框2785,然后,将该校正记录在ETSDT中。过程继续并进行检查,看是否有附加的错误,即用决定菱形2790表示的查询。如果存在附加错误,则提取下一个错误条目。否则,所有错误已被校正,这意味着被净化,于是手动净化终止(框2795)。
图19示出了用于实现图12B中框2138表示的源间过程的一般框架的流程图。推荐值是源间过程的示例。这种描述说明在单源净化完成后的源间过程的应用。这是有利的实施例。然而,如果需要,可以在不同阶段应用源间过程。
椭圆2800表示当所有备选数据集准备好被处理时处理开始。当源数据集准备好时,标准技术发起源间过程。首先,所有净化后的备选源数据集被打开,如框2802所示。接着,框2804表示记录所有被参考数据集。如果输出为新数据集,这将需要为新数据集创建ETSDT。如果输出为对由同一过程产生的已有数据集的更新,则已有数据集的ETSDT被更新。获取用于源间过程的所有规则,如框2806所示。框2808是循环的开始,其中,在每次迭代时,一个项目从包含它的所有数据集中被提取。如果创建新的数据集,则为该新项目创建新的ETSDT,且包含该项目的数据集被记录在ETSDT中,如框2810所示。框2822表示将规则应用到可用项目,其产生新的项目值。源间处理的目的是产生值。有时先前不存在的新值被产生。其他过程通过选择先前已知值中的一个来产生它们的值。源间处理通过上述任一方法得出新值。如果项目通过用菱形2820表示的规则应用,则检查附加规则(菱形2823)。如果发现了更多的规则,则应用该规则(框2822)。
如果新项目没有通过规则应用,则错误和对之进行校正的尝试被记录,如框2830所示。接着,菱形2815表示进行检查,看校正是否成功。如果校正成功,则新值和用于进行校正的规则被记录在ETSDT中,如框2816所示。如果校正不成功,则当前值被标记以便进行干预,如框2835所示。在成功或不成功的校正的任一情况下,处理继续进行,以检查有没有更多的规则,即菱形2823表示的查询。
在涉及属性层处理的情况下,当没有发现附加规则时,框2824表示从包含被提取项目的所有数据集提取属性。属性与包含它的所有数据集被记录在ETSDT中,如框2828所示。如果该属性为新数据集被创建,则在此时创建新的属性ETSDT。如果该属性在已有数据集中更新,则进行对已有数据集的ETSDT的记录。有时针对已有的数据集找到新属性,这导致创建新的ETSDT。接着,应用规则,用框2826表示。规则应用的成功或失败用菱形2840表示。如果属性通过规则应用,则处理检查是否有附加的可应用规则,用菱形2845表示。如果找到附加规则,在框2826中应用下一个规则。如果属性没有通过规则应用,如菱形2840所示,则对错误进行记录(框2875),并试图进行校正。试图进行的校正的成功或失败用菱形2876表示。如果校正成功,则用于校正该属性的所有规则以及新属性值被记录在ETSDT中,用框2877表示。如果校正不成功,则对该属性进行标记以便进行干预,如框2878所示。在成功或失败的两种情况下,校正处理继续进行,以检查有没有更多的规则(框2845)。
如果没有找到附加规则,处理进行检查,看有没有附加属性,如决定菱形2850所示。值得注意的是,并没有假设所有源数据集在它们包含同一项目时具有与每个项目相关联的同样的属性。更多的属性将继续被处理,直到每个源数据集中的所有属性已被处理完。然而,每个属性被处理一次,无论它在多少个源数据集中出现。
如果没有找到附加属性,则处理进行检查,看有没有附加项目,如菱形2855所示。值得注意的是,并没有假设所有源数据集包含同样的项目。只要任何源数据集中仍有任何项目,菱形2855表示的查询的结果就为真。然而,每个项目被处理一次,无论多少个源数据集中包含它。有效地,一旦每个项目在包含它的源数据集中的一个中被发现,其在包含它的每个源数据集中被标记为已处理。一旦所有的项目被菱形2855表示的查询取尽,则处理继续进行,以检查有没有错误,用菱形2860表示。如果任何项目或属性已被标记为需要干预,则对手动源间校正行调度,如框2865所示。这种过程与单源校正类似,因为其请求人工干预来对错误进行校正。该过程的调度、进行干预的人以及所产生的值都被记录在ETSDT中。在手动源间校正已被调度之后,源间过程终止(框2870)。如果没有找到错误,则源间过程终止(框2870)。
此内容以对本发明的这种数据净化与品质增强方面的流程图的介绍为结束。在我们的优选实施例中,工作流用于实现这里介绍的流程以及过程。替代实施例使用脚本、离散分布式过程或所有这些的组合。任何合适的机制或编程语言可用于实现这里介绍的流程和过程。
D.请求式数据集传送处理
本发明的这一方面提供了灵活的可缩放的多租户信息检索与传送系统,该系统支持多个独立客户组织,每个组织具有自己的数据兴趣、数据资格和数据传送需求。本发明的这一方面有效地使得数据传送机制成为可能,该机制与单个储存库交互,以便服务于多个客户和/或请求者,即使每个请求者仅对多元多租户数据储存库(进一步被称为“储存库”)中的某个数据子集有资格,或者在更宽广的背景下,仅对可从参考数据实用工具获得的参考数据的某个数据子集有资格。
对信息检索和传送的请求由请求者呈现为产生和传送请求式数据集的请求。请求式数据集的说明允许请求者控制:(1)数据集中供应的信息,(2)偏好,基于该偏好,信息源用于供应针对被选择信息元的值,(3)数据传送模式,(4)数据被提供时的格式,以及(5)用于建立与请求者的连接并影响传送的通信与数据传送控制信息。满足请求式数据集请求的数据由上面在部分B中介绍的方法对多元多租户数据储存库进行检索。数据资格的强制执行——保证请求者不会从它们没资格的信息源接收值——在请求式数据集传送处理中由附加逻辑提供或由储存库提供。本发明支持的传送模式包括:(1)请求式数据集,其可包含根据需要用于点对点(ad-hoc)查询的单个一次性传送实例,(2)复现的成批传送实例,以及(3)准实时传送。
所介绍的用于请求式数据集传送的装置和方法支持多个用户,其中每个用户具有并行未解决的对于请求式数据集的多个请求。该方法具有灵活性,并能够支持大范围的请求传送和检索要求,因为该任务的不同方面已被分为请求式数据集请求说明的不同说明单位。该方法是可缩放的,以便允许多个请求的并行处理,并支持多个请求者、其中每个请求者具有多个请求,因为其利用所述的划分,以便允许对请求式数据集请求的自动化处理。每个到达的请求式数据集请求将其说明自动编译到请求式数据集产生过程中,该过程接着被执行,从而检索出所需要的数据并将之传送到请求者。本发明支持对于上面所列的单独的请求式数据集方面的被允许说明的任意组合。
本发明的这一方面还向用户提供了以用户特有的格式或行业标准格式对数据传送指定输出格式的能力。本发明允许信息向用户的传送采用将被识别的数据加载到该用户拥有的数据集市中的形式。本发明提供了保证完全的过程透明性、认可、记账与其他审计目的的审计与记入日志能力。
该方法对于参考数据的数据传送是一种有效的请求式方案。通过使复杂但关键的传送功能得到集中化和高度杠杆处理,支持被组织为自动化可扩展系统的、对不同话题、源、品质、模式与格式的多种客户要求进行支持的能力提供了有价值的服务。
所介绍的本发明支持用户与数据源隐私。由于为每个请求式数据集请求生成独立的生产过程并强制执行数据资格,所以没有用户或数据源能发现关于其他用户或数据源的数据、查询或者向它们传送和检索信息的其他动作的信息。
该方法在这里被介绍为其应用于由金融服务企业使用的参考数据。如上所述,在多源多租户数据储存库20的背景下,使得请求式数据集的灵活且可缩放的传送成为可能的方法具有许多其他可能的应用领域。多源多租户数据储存库20管理储存库信息元、相关联的元数据、资格、增值功能和文档,并为其提供永久存储。对用户信用信息、政府规章与注册信息以及电信使用率信息的访问是该方法已经使用的三个附加示例。该方法使用并具有参考数据的背景的特性为:(1)来自许多源的信息;(2)存在潜在地位于独立组织中的多个用户,其需要访问同一信息但潜在地具有不同的源资格权利;(3)被参考信息主要由用户以只读模式访问,除在它们参与校正无效值时以外;(4)高品质及时信息的收集既是有价值的又是复杂的,因此,实用工具方案、共享基本设施和共享数据品质增强的高效率提供了显著的好处;以及(5)资格强制执行和隐私管理必须由这样的实用工具提供。尽管本发明在金融服务参考数据的背景中——其是一个重要的应用领域——介绍,但这里揭示的方案使得提供满足上面的要求的数据访问的有效实用工具成为可能,其在任何具有这些要求的背景中是有价值的。
图20A为用于响应于请求式数据集请求产生请求式数据集的流程图。该图中的框3100是表示整体方法的外框。在参考数据实用工具的背景中,这对应于在图1A的方块21中首次介绍的客户数据传送处理。该流程图中开始的步骤即框3101表示接收到产生单个请求式数据集的单个请求式数据集请求。
框3101表示接收到请求式数据集请求。本发明不对通过其传递请求的信道的类型进行指定。本发明定义了请求的内容,并允许输入请求以与其被传送的方式一致的方式被格式化。本发明支持经由任何数量的通信协议和语义接收请求。请求者认证和授权在该步骤中被处理,其中未被授权的请求被记入日志并丢弃。有效请求以图22A中更为详细地介绍的数据元3116所示的内部形式被保存。出于可跟踪性和认可目的,对请求式数据集请求的接收也被记入日志。
将框3101与数据元3116相连的虚线显示,请求式数据集请求说明作为在框3101中收到的请求式数据集请求的一部分被接收。数据元3116表示的请求式数据集请求说明在后面的处理步骤中作为输入可用。
框3102表示解析、验证和分析在请求式数据集请求中接收到的请求式数据集请求说明(数据元3116)的动作。解析、验证和分析步骤在图20B中更为详细地介绍。其继以框3103,框3103表示建立产生请求式数据集的过程的动作。该过程通过由参数化的活动构造块中汇编工作流过程而创建。替代实施例是通过对用于所有请求式数据集的工作流的部分进行参数化来实现这一点。本领域技术人员明了静态或动态地为预先指定的任务构建脚本或工作流所需要的技术。框3103表示的处理在图21A中更为详细地介绍。框3104表示执行如框3103所示的被汇编或部署的请求式数据集产生过程;这将产生被请求的数据集并将之传送给请求者。决定框3105显示,该方法的外结构是一个循环;在处理请求式数据集请求之后,控制循环返回并逻辑地处理下一个对请求式数据集的请求。
图20A示出了该方法的最简单的逻辑形式,其中,对请求式数据集的请求在单个循环中被循序处理。有利的实施例使用本领域技术人员公知的并行技术扩展该图示,以允许由框3101、3102、3103、3104、3105组成的循环的多个实例并行处理。这种扩展使得该方法能够同时处理多个对请求式数据集的请求。
请求式数据集请求能够修改或终止先前的请求式数据集请求的结果。这是作为对作为先前请求的结果而创建的过程进行动态替换或终止得到处理的。如何对这些请求进行调度或者在哪里对它们进行调度或者构建允许终止或替换先前被调度的任务的调度器不是本发明的重点。这些功能对本领域技术人员来说是公知的。
图20B示出了在请求式数据集请求说明的分析与解析中的步骤的流程图,其更加详细地介绍了图20A的框3102所示的动作,其中,请求式数据集请求说明被解析、分析和验证。
图20B的外框是在图20A中首次介绍的框3102。分析与解析步骤的输出是数据的被解析块,其表示说明中的信息,但现在已经被组织用于适用于精确产生被请求数据的过程的汇编。框3106表示建立空输出结构的初始化步骤,被解析块可被添加到该结构中。请求式数据集请求说明是被组织为多个在词汇上不同的部分或节(stanza)的参数块或文本结构,每个部分或节处理请求式数据集的特定方面。每个节可望包含关于请求式数据集的一个方面的信息。框3107获得输入说明的下一个节,也是节处理循环的开头方块。决定框3108决定节类型。关键的节类型为:选择数据过程、寻源策略、传送模式说明、数据输出格式选择以及数据传送与传输特性。节类型和每个节类型中提供的信息在图22A与22B中更为详细地讨论。框3109、3110、3111、3112、3113为这些节类型的每个提供了不同的解析分析和验证逻辑。尽管这些节表示请求式数据集请求说明的关键需要的方面,但附加的节类型是可能的。该部件的结构是可扩展的。在替代实施例中,请求者特有的节类型是允许的。节类型特有的解析的结果是解析后的输出块。流程图中的框3114显示,在节类型特有的解析完成时,结果得到的解析后的输出块被添加到输出中。决定框3115测试请求式数据集请求说明是否已得到完整的处理,或者是否还有待解析的附加节。如果有更多的节可用于解析,则控制循环回到框3107以便对下一节进行处理。如果输入说明被完全解析,则控制流出框3102,解析、分析与验证完成。
请求式数据集处理的一个重要方面是请求式数据集的每个不同方面被指定并接着被单独解析。所述的分离使得请求式数据集能够满足从共享多源多租户数据储存库向许多用户提供数据传送所需的多种数据选择和传送需求。这里介绍的方法的有利实施例提供了对这些方面的每个的初步的详细说明。通过在请求式数据集的这些独立方面的每个中提供更为丰富的选项,可完成对该方法的简单扩展。
最初在图20A中介绍的数据元3116是请求者用于供应请求式数据集请求说明的数据结构。该说明是对由框3102表示的解析、分析与验证处理的输入。请求式数据集请求说明的数据结构在图22A与22B中详细说明。
数据元3117表示作为来自框3102的流程的输出产生的、解析后的请求式数据集说明。这种解析后的说明被用作图21A中的输入,其中,用于产生特定的请求式数据集的定制请求式数据集工作流被汇编。
图21A为一流程图,其示出了建立定制的请求式数据机产生过程中的步骤,其更为详细地说明了图20A介绍的框3103所示的动作。这是汇编和部署适用于如数据元3117所示的解析后的请求式数据集请求说明的要求的、定制的请求式数据集产生过程的步骤。
流程从图21A的框3201开始,其中,拾取下一个可从数据元3117获得的块。框3202从可用活动构造块的库中定位匹配的活动构造块。该库用数据元3210表示,并在图21B中更为详细地介绍。框3203表示这样的动作:将从数据元3117获得的信息和参数应用到匹配的活动构造块,以便产生适用于提供创建被请求的请求式数据集的过程阶段所需的确切功能的特定活动。框3204保存该适应性活动,使得其随后可用于汇编到完整的过程中。决定框3205是这样的测试:其确定解析后的数据中的所有块是否都被处理以及是否为所有块产生适应性活动。如果没有,控制循环返回,并在框3201上恢复,以便进行下一次迭代。
当所有解析后的说明信息已被处理并被转换为一组参数化(适应性)活动块后,到达框3206。框3206所表示的处理是将这些活动块排序为正确的顺序,插入用于没有为之供应说明的任何阶段的默认活动块,并提供产生一组适应性活动的整体控制流程,该流程是请求式数据集产生过程的基础。框3207涉及将特有的收听器(listener)添加到该过程中。
如果过程必须对从中针对请求式数据集对数据元进行选择的多源多租户数据储存库中新信息的到达敏感,需要收听器。收听器的存在使得请求式数据集产生过程对来自用户的执行时间控制命令敏感,所述命令例如附加数据何时将被传送的提示。替代实施例用于附着被包括在来自活动构造块库的单独构造块中的收听器,并针对所需的特定连接对这些收听器功能进行参数化。任何用于使能信息异步接收的技术适用于使能这些收听者。
尽管这里介绍的构造块的库和节表示请求式数据集请求说明的关键需要的方面,但附加的节类型也是可能的。
框3208表示部署被汇编的请求式数据集产生过程的动作,使得其准备好被执行用于被请求的请求式数据集的运行时产生和传送。这一点用到框3104的虚线箭头表示。框3104在图23A与23B中更为详细地介绍。
在完成框3208表示的活动之后,控制流出框3103。被部署的过程的初始化用图20A中介绍的框3100的顶层流程的框3104表示。
本领域技术人员所公知的例如工作流处理的技术用于实现和管理所生成的请求式数据集产生过程。框3103表示的该过程的有利实施例使得同样的基本过程模板适用于产生特定过程,其被定制为产生被请求的请求式数据集。对本领域技术人员来说显而易见的替代实施例用相同的逐个阶段的构造过程为每个请求式数据集请求生成单独的过程。另一替代方案使用参数化的静态工作流。另一个实施例使用编译器。本领域技术人员意识到,存在许多技术可用于产生这样的过程:该过程产生请求式数据集。合适的调度机制在框3104中使用。
图21B示出了活动构造块库的内容。基本活动构造块库在图21A中被介绍为数据元3210。针对请求式数据集产生过程的每个主要阶段提供基本活动构造块。框3212显示出针对项目选择阶段的活动构造决;框3213显示出针对寻源策略的活动构造块;框3214显示出针对传送模式的活动构造块;框3215显示出针对传送与传输阶段的活动构造块;框3216显示出针对输出格式阶段的活动构造块。
这些活动构造块的每个的特定能力在图23A与23B中更为详细地介绍,其中,详细说明了产生和传送请求式数据集的请求式数据集产生过程的阶段和步骤。
在替代实施例中,附加的活动构造块被添加到库中。附加活动构造块的示例是这样的特殊活动构造块:其处理用请求式数据集中的信息加载用户数据集市,而不是仅仅将数据如文中所介绍的那样传送到请求者。在另一实施例中,这些过程被以某种方式进行因子分解,以便将此处理的部分分发到请求者,或者,增加活动构造块的数量或减少活动构造块的数量。本发明的要点在于发生这些过程;任何特定实现中使用的确切因子分解由本领域技术人员决定。
图22A显示出请求式数据集请求说明的组织。请求表示来自一个请求者的单个请求说明。该方法允许单个人、应用或组织做出这样的请求:其同时具有多个未解决的请求式数据集请求。从传送方法的观点来看,处理来自单个终端用户的多个并行请求式数据集请求与来自独立终端用户的多个并行请求式数据集请求没有区别。
请求式数据集请求说明的单独部件被示为框3301-3305,其中的每一个在下面详细介绍。请求式数据集说明的这些部分中的每一个是单独的节,其可被图20B中的框3102表示的节处理的单独迭代进行解析和处理。这里介绍的请求式数据集请求说明的部件表示成功汇编和传送请求式数据集所必须的关键所需方面。说明中指定的附加方面也是可能的。
框3301表示选择数据指定单元。其指定这样的信息元:该信息元的值将被传送到被请求的请求式数据集中。说明单元以针对储存库实体元数据和特性的查询或过滤器的形式,其使用关于话题、子话题以及储存库实体中的其他属性与值的判定。具体而言,过滤器确定感兴趣的储存库实体以及这些储存库实体的这样的特性与属性:对于该特性与属性,值将被返回数据集中。选择标准包括对项目进行选择的任何合理的条件,诸如兴趣列表、时间约束、多种分类等。关系查询是一种可能的实现。请求者从对于每个被选储存库实体的每个被选择属性或特性的一组有资格的可用当前值接收一个或一个以上的当前值。
框3302表示源策略指定单元,有时也叫做源偏好,其中源偏好可被指定。优选实施例对于产生属性值的项目实例过程与源使用简单偏好顺序。如果对于特定元存在该请求者有资格的可用值的选择,则使用所供应的偏好顺序中的第一个这样的值。除了实际数据起源以外,项目实例过程出现在该偏好顺序中。例如,请求者指定在明确使用特定数据起源与使用通过某种输入净化与增强过程——该过程在比较从多个数据起源接收的值之后选择一个值——获得的推荐值之间的偏好顺序。在替代实施例中,提供对于源的默认排序,以便处理请求者没有对之进行指定的情况。
另一个替代实施例供应了更为复杂的寻源策略,该策略对其所应用于的信息元敏感。这种策略指定带条件的源偏好排序,其经受对于信息元的特性、属性值或元数据的判定。例如,在金融参考信息的背景中,请求者指定,关于普通股票,源A优于源B,而关于公共与政府债券,源B优于源A。通过判定灵活描述偏好。例如,请求者表达针对在特定交易所交易的股票的特定源的偏好,或者,来自特定源的最近到达的或未确认的数据可能不被信任。
复杂寻源策略的替代实施例使用一组规则,每个规则具有简单偏好顺序或对上述项目的值和特性敏感的带条件的偏好的形式。当应用寻源策略选择值以便包括在请求式数据集中时,通过寻源策略步骤依次评估这些规则,并且结果得到的优选值被选择。
框3303表示传送模式指定单元。传送模式是为请求式数据集给出响应不同请求者要求的显著灵活性的特征。其允许请求者创建具有单个一次性传送实例的请求式数据集或具有复现的传送实例的请求式数据集。下面在图22B中提供传送模式的更为完整的介绍。
框3304表示传送和传输指定单元。用户供应管理连接与通信协议的信息以及请求式数据集中的每个传送实例需要的认证检查。数据集传送与传输指定单元还为每个传送实例提供建立连接需要的网络寻址、协议和认证信息。这包括用于初始化从储存库与传送方法到请求者的传送实例连接的认证特性与“出站”连接。其还包括允许请求者连入并发起传送实例的认证信息与入站连接。如果出站连接被指定,则请求者定义在哪里、如何建立连接;如果连接是入站的,则其指定必要的认证。在任一情况下,用于对传送数据集进行传递的文件或数据传送协议被指定。在请求者供应适合的数据库加载参数的情况下,数据集市被指定为传送目标。于是,诸如表复制机制的技术适用于使能这种传送选项。
在这里介绍的有利实施例中,在传送模式指定单元的特性中提供调度信息,该信息确切管理请求式数据集的下一个传送实例何时发生。替代实施例将该信息与数据集传送传输指定单元封装在一起。
框3305表示输出格式指定单元,其允许请求者指定对请求式数据集和其包含的信息元的传送格式进行管理的传送规则和数据格式。储存库中的每个信息元具有一个或一个以上的优选数据输出格式。例如,当向请求式数据集添加金融工具数据时,使用例如市场数据描述语言(MDDL)或ISO金融工具结构20022的公共标准。输出格式单元允许请求者在标准格式之间进行选择或指定某种定制格式。
请求式数据集请求说明的值的一部分是该说明被结构化为单独的单元,以便允许所述分离。
图22B显示出请求式模式案例(case)树,其详细说明了图22A中介绍的不同传送模式。照此,其是表示传送模式指定单元的框3303的扩展描述。图22B是树状结构,树的较低层是其母单元的子案例。框3306是表示传送模式的根节点。请求式数据集或者是一次性传送、如框3307所示,或者是复现传送、如框3308所示。
框3307表示一次性传送。通过向储存库的当前状态应用一个或一个以上的检索操作、将检索后的信息进行汇编并将之传送到请求者作为对于该请求式数据集的单个传送实例,而产生具有一次性传送模式的请求式数据集。
框3308表示复现传送。具有复现传送模式的请求式数据集说明多个传送实例被请求。每个传送实例表示对储存库的信息的单独检索。用于累积数据的确切方法由其他的判定所确定。在每个传送实例中被返回到请求者的传送数据集包含随着时间已被检索并累积在传送数据集中以便准备用于此请求式数据集的下一个传送实例的信息。可替代地,当需要传送时,通过在那时的储存库状态应用一个或一个以上的检索操作,创建传送数据集。
复现传送或者是成批传送、如框3309所示,或者是准实时传送、如框3310所示。框3309表示成批传送。通过使传送方法意识到到达储存库的新的信息、通过对储存库的周期性检索操作或通过在需要传送数据集时在储存库状态上的检索动作,完成对每个传送实例的处理。框3310表示准实时传送模式。这是复现传送模式的一种情况,其中,有关的新到达信息一被检测到,就被传送到请求者。这典型地产生粒度精细的一系列传送实例,其中每个传送数据集仅包含少量数据。由于在频繁更新的传输中提供更新的信息是关键特性,所以使用术语“准实时”。
这完成了对主要传送模式的介绍。框3311、3312、3313、3314、3315表示可应用到框3309、3310、3307的附加参数。出于简化目的,在框3309的背景下对它们进行介绍。
框3311表示预先调度的批量,其中,存在固定的预定调度,其控制何时发生传送实例。框3312表示请求式传送实例的情况。在这种情况下,请求者明确地请求对传送实例进行实例化和传送。请求者还指示何时需要下一个传送实例。框3313表示数据驱动传送的情况,其基于数据状态的某种函数——例如数据量——或特定数据元的到达。
传送实例包含所有被选值的完整集合或仅包含自从上一次传送实例以来的(或在某个时间段上的)新值和改变值。这两个选项分别用框3314和3315表示。这些选项被表示为框3311所示的预调度分批传送模式的子情况,但它们显然可以适用于框3312和3313。有用性取决于背景而变化。
替代实施例包括请求式模式,其允许请求者指定将被选信息元加载到专用工作数据库还是专门为该请求者的使用而建立的数据集市。用于传送的数据集市的选择影响传送传输指定。在一次性查询中,请求式模式指示对于指定信息元当前在储存库中没有适当值的情况下是否发起附加的搜索和数据收集以收集新值。附加模式包括报警模式或摘要报告模式,在报警模式下,如果某个参考项目的值超过预先规定的阈则发送事件通知,在摘要报告模式下,以规定的时间间隔发送关于参考项目值集合的聚合摘要报告。
图23A介绍了请求式数据集产生过程的流程,该过程在运行时被使用,用于产生请求式数据集并将之传送到请求者。该过程在图20A中首次介绍,用框3104表示。图21A阐释了如何生成定制的请求式数据集产生过程以满足特定的请求式数据集说明的要求。如上所述,执行请求式数据集产生过程的作用是通过请求者的选择和寻源说明从储存库中检索信息,通过请求者、传送模式和格式说明将该信息汇编到传送数据集,接着通过其数据集传送与传输指定将该数据传送到请求者。
控制从上方进入图23A的框3104,并首先进行到框3401,在框3401中,开始下一个传送实例的处理。这反映了这样的事实:复现的请求式数据集作为顺序传送实例被传送到请求者。流程中用于产生请求式数据集的外部控制结构为循环;该循环的每次迭代导致产生作为一个传送实例被传输到请求者的一个传送数据集。
流程中的下一个步骤用框3402表示,其中,开始对下一个信息元的处理。流程中用于产生请求式数据集的下一个传送实例的内部控制结构为循环;循环的每次迭代将向传送数据集添加一个信息元。
流程中的下一个步骤用框3403表示。该步骤从多源多租户数据储存库中检索和格式化一个信息元。元仅在请求者对该信息有资格的条件下被检索。检索得到的元被插入累积的传送数据集。如将该框连接到数据框3407的虚线所示,该步骤使用来自储存库的信息。该储存库可以为如部分B所述的资格强制执行储存库,或者在参考数据实用工具的背景下更为宽广地为资格管理实体数据,即图1A中的框50。下面在图23B中提供关于框3403的处理的更多的细节。
流程中的下一个步骤用决定框3404表示,其在流程中导致:或者终止元循环并移动到传送实例处理,或者返回到框3402以便向传送数据集添加下一个信息元。当没有更多的元时,控制进行到框3405,执行传送实例。这是这样的处理:取出在等待传送实例时在临时传送数据集中累积的所有信息元,将它们组织到传送实例中并传输到请求者。用于此的逻辑在下面的图23C中更为详细地介绍。
最后,框3423表示在连续数据集的情况下对附加传送实例的查询,并且如果找到一个传送实例则对下一个传送实例进行调度。用指向解析后的请求式数据集传送说明的指针(或引用)对框3401进行调度。任何事物是否被调度是由请求式数据集的传送模式确定的。如果请求式数据集是一次性的且已经由先前的数据传送实例完整传送,则不会进行任何调度。如果需要更多的实例来完成当前可用数据的传送,或者请求式数据集是复现的且传送模式不是请求式的,则框3401被立即调度。如果请求式数据集是复现的且传送模式是请求式的,则还激活收听器,以便等待下一个传送请求。当收听器接收请求时,其调度框3401的立即执行。
如其他地方所述,用户请求用于终止已有的复现请求式数据集。当这样的请求到达时,或者下一个被调度的实例被终止,或者由于其是有效的则设置指示出不再允许更多请求的标志。最后,控制流出框3104,完成产生请求式数据集的工作流的执行。
图23B示出一流程图,其详细说明了图23A中介绍的框3403所示的处理,检索新的信息元并将之添加到累积值的传送数据集之中,以等待向请求者传送。
该流程中的第一步骤用框3410表示,其定位包含新信息元的储存库实体。通常,数据集说明的元选择单元(图22A中的框3301)提供了例如实体名或实体话题的属性值,其使得相关实体能在储存库中被定位。图20A中的框3102与3103的数据集请求说明的解析与过程汇编已经将其项目选择单元转换为对储存库的特定选择操作,其返回实体。
除了选择特定储存库实体以外,数据集说明的元选择单元指示该实体的哪些属性或特性在数据集中被返回。在特殊情况下请求所有可用属性或所有特性。特性和属性选择被编译为储存库操作,其又接着在下面用框3411表示的步骤中被执行。
框3412表示从储存库中收集请求者有资格接收的被选实体的被选特性与属性的那些值的步骤。这种处理需要知道请求者的资格以及储存库中的信息元的寻源。其可涉及从被选储存库实体的多个项目实例收集值。在有利的实施例中,资格强制执行被提供为储存库的功能。替代实施例将资格强制执行方案实现为处理块的一部分。作为框3412的处理的结果,针对被选实体的被识别的属性和特性收集有资格的值集合。请求者指定的、请求者对之无资格的任何值将不被包括。
框3413表示在源偏好单元(图22A中的框3302)中指定的寻源偏好规则的应用。因此,如果具有不同寻源的多个值对于特定属性可用,则来自在请求者偏好列表中较早出现的源的值将被选择。寻源偏好被指定为储存库中被识别的项目实例之间的偏好.例如,请求者可指定对来自推荐的值过程的值的偏好优于由特定源提供的值,反之亦可。
有利实施例允许寻源偏好的指定的多种变化。首先,寻源偏好可被指定为仅适用于特定实体的特定属性或特性。或者,偏好可被指定为统一适用于数据集中所有被选实体的所有属性。偏好还可适用于特定子类中所有实体的一个属性。一个例子是对于城市债券的等级使用一种偏好,但对于普通股票的所有定义使用不同的偏好。最后,请求者可指定来自多个有资格源的值被包括在数据集中,以便允许请求者在来自不同的源或储存库处理的值之间做出他们自己的比较。所有这些功能被包括在框3403的处理中。
控制接着流到框3414,其中,在图22A中的框3305中提供的来自请求者的格式指定之后,向从储存库获得的值应用数据格式转换。通过对作为图21A的处理组装处理的一部分的格式化活动构造块进行适应,这种格式处理被编译为可执行逻辑。请求者指定的变换规则被应用到请求式数据集,以便将之转换为所需要的传送数据格式。对于所提供数据的每个类别,请求式数据集传送支持用于将数据值传递到请求者的优选数据输出格式。例如,当传递工具数据时,使用例如市场数据说明语言(MDDL)或ISO金融工具结构ISO 20022的公共标准。
最后,框3415将格式化后的被选值添加到临时数据集中,对临时数据集进行累积,以便在下一个传送实例中传送到请求者。数据集的请求式模式也可影响此处理步骤。如果仅将传送预先调度的成批数据集的新值和改变值,则该步骤仅在值是从上一个传送实例以来的新值或改变值的条件下将之添加到临时数据集。
在框3415的处理完成后,控制流出框3403;新信息元已被格式化并添加到累积数据,等待在下一个传送实例中向请求者传送。
图23C示出了包括在图23A的框3405中最初介绍的传送实例的执行的处理步骤的流程图。该处理负责收集被选择、被格式化的值的累积传送数据集,并将之传输到请求者。
图23C的外框是框3405;以流程图的形式提供了该方块的处理的更多细节。控制从顶部进入并进行到用框3420表示的第一步骤,其中,在图22A的框3305中提供的格式指定之后,进行对累积传送数据集的最终格式化。对完整的累积数据集的这种格式化包括这样的动作:例如将整个数据集以特定方式封装、添加摘要和聚合信息。传送数据集中的独立信息元的格式化已经在该元首次被添加到累积数据中时在图23B中的框3414所示步骤的优选实施例中被处理。替代实施例重新定位格式化处理,而不会改变本发明的实质。
框3421表示在图22A中框3304所示步骤中提供的指定之后对实际传送和传输协议的处理。该处理涉及建立对位于某个已知网络地址上的请求者的网络连接、在该连接上进行认证并执行文件传输协议。可替代地,其涉及在建立一次性请求式数据集请求的调用中返回作为响应参数的数据。
框3422表示针对该传送记入日志或创建审计踪迹。这种能力保证了请求式数据集完整的可跟踪性。提供认可服务,以便保证请求式数据集的完整性。当在参考数据实用工具的背景中使用时,用图1B中的框29表示的客户传送日志将作为这种记入日志的结果被更新。在该步骤完成后,控制流出框3405。传送实例现在已被执行。
本说明以对本发明的请求式数据集传送处理方面的流程以及其他图的介绍而结束。在优选实施例中,工作流用于实现这里介绍的过程和流程。替代实施例使用脚本、分散分布式过程或所有这些的混合。任何合适的机制或编程语言可用于实现这里介绍的流程和过程。
Abrams等人的题为“Business Method for the Determination of theBest Known Value and Best Known Value Available for Security andCustomer Information as Applied to Reference Data”并被转让给本发明的受让人的已公开美国专利申请2005/0216416整体并入本文作为参考。本文档涉及参考数据设施,该设施被结构化以保证没有一个用户从他们没有与其有合同安排或他们对其数据没有资格的卖家通过获知来自该卖家的数据内容而获利或接收到数据。
本发明可以用硬件、软件或软硬件的结合实现。其可被实现为方法,该方法具有实现本发明的一个或多个功能的步骤;和/或其可被实现为装置,该装置具有实现上述本发明的方法的一个或一个以上的步骤和/或对本领域技术人员已知的部件和/或装置。根据本发明的可视化工具可以用集中的方式在一个计算机系统中实现,或者以分布的方式实现、其中不同的单元分布在几个互连的计算机系统中。任何类型的计算机系统——或适用于实现这里所介绍的方法和/或功能的其他装置——是适用的。硬件和软件的典型组合可以为通用计算机系统,该系统具有这样的计算机程序:该程序在被加载和执行时对计算机系统进行控制,使得其实现这里介绍的方法。本发明还可包含在计算机程序产品中,该程序产品包括使得这里介绍的方法能够实现的所有特征,且该程序产品当被加载在计算机系统中时能够实现这些方法。本发明的方法可以用这样的装置实现:该装置提供实现该方法的步骤的功能。本发明的装置和/或系统可以通过这样的方法实现:该方法包括产生该装置和/或系统的功能的步骤。
当前背景下的计算机程序装置或计算机程序包括这样的一组指令以任何语言、代码或符号的任何表达方式:该组指令旨在使得具有信息处理能力的系统直接或在转换为另一种语言、代码或符号和/或以不同的物质形式再现后执行特定的功能。
因此,本发明包括一种制品,该制品包括计算机可用的介质,该介质具有包含于其中的、用于产生上述一个或一个以上的功能的计算机可读程序代码装置。该制品中的计算机可读程序代码装置包括使计算机产生本发明的方法的步骤的计算机可读程序代码装置。类似地,本发明可被实现为一种计算机程序产品,该程序产品包括计算机可用介质,该介质具有包含于其中的、用于产生上述功能的计算机可读程序代码装置。计算机程序产品中的计算机可读程序代码装置包括使计算机实现本发明的一个或一个以上功能的计算机可读程序代码装置。另外,本发明可被实现为可由机器读取的程序存储装置,其有形地实现可由该机器执行的指令程序,以便执行用于产生本发明的一个或一个以上的功能的方法步骤。
注意,前述内容概述了本发明的某些较为相关的目的和实施例。本发明可用于许多应用。因此,尽管针对特定安排和方法进行了介绍,但本发明的意图和概念适用于并可应用于其他的安排和应用。对本领域技术人员来说,显然,可在不脱离本发明的精神和范围的情况下对所公开的实施例进行修改。所描述的实施例应被理解为仅对本发明的某些较为显著的特征和应用进行说明。通过以不同的方式应用所公开的发明或以本领域技术人员知道的方式修改本发明,可以实现其他有利的结果。

Claims (159)

1.一种用于服务于多个接受者的参考数据实用工具,包括:
数据输入,用于从多个源接收未处理的参考数据;
处理器,用于对所接收的所述未处理参考数据进行处理,以便生成具有增加价值的处理后的参考数据;
储存库,用于对所述未处理的参考数据以及所述处理后的参考数据进行存储;以及
输出生成器,用于根据接受者的说明生成用于传送到接受者的输出数据;使得被传送的输出数据包含未处理的参考数据以及处理后的参考数据中所述接受者有资格接收的至少一个;
其中,所述参考数据实用工具是可缩放的,以便支持增大数量的源以及增大数量的接受者。
2.根据权利要求1的参考数据实用工具,其被配置为多租户实用工具。
3.根据权利要求2的参考数据实用工具,其中,所述实用工具被实现为共享资源的系统。
4.根据权利要求3的参考数据实用工具,其中,所述共享资源包括下列当中的至少一个:储存库、专家、处理、通信链路以及数据存储设施。
5.根据权利要求1的参考数据实用工具,还包括租户执行对其客户的自服务管理的装置。
6.根据权利要求1的参考数据实用工具,其中,所述储存库还存储多个商业文档,且所述输出生成器提供作为输出的所述文档的被选群组。
7.根据权利要求1的参考数据实用工具,还包括存储器部分,该部分用于存储处理后与未处理的参考数据,并用每个未处理或处理后的参考数据元存储用于得出所述元的所应用的处理以及数据源的记录;所述寻源与处理确定独立接受者对接收所述元的资格。
8.根据权利要求7的参考数据实用工具,其中,所述接受者是被共享所述参考数据实用工具的使用的多个租户组织中的至少一个授予对特定参考数据源以及增强过程的资格的个体。
9.根据权利要求1的参考数据实用工具,其中,所述未处理的参考数据包括信息元,且所述参考数据实用工具还包括用寻源信息对多个所述信息元进行注释的装置。
10.根据权利要求9的参考数据实用工具,其中,所述信息元具有属性,且所述参考数据实用工具还包括用寻源信息对所述属性进行注释的装置。
11.根据权利要求9的参考数据实用工具,还包括基于所述寻源信息维护关于接受者对所述信息元的资格的信息的装置。
12.根据权利要求1的参考数据实用工具,包括位于在地理上分散的区域中的部件。
13.根据权利要求12的参考数据实用工具,其中,位于所述在地理上分散的区域中的一个区域的部件足够作为独立参考数据实用工具操作。
14.根据权利要求13的参考数据实用工具,其中,每个独立参考数据实用工具包括本地储存库,其还包括用于在所述本地储存库之间交换信息的通信设施。
15.根据权利要求13的参考数据实用工具,其中,每个独立参考数据实用工具被专门用于提供与特定地理区域有关的信息,并使用所述通信设施获取和提供来自其他地理区域中的其他独立参考数据实用工具的信息。
16.根据权利要求1的参考数据实用工具,还包括用于报告所述参考数据实用工具所执行过程的准确度的准确度报告器。
17.根据权利要求1的参考数据实用工具,还包括用于管理所述参考数据实用工具的参数的配置管理器。
18.根据权利要求17的参考数据实用工具,其中,所述配置管理器包括下列中的至少一个:
用于管理多个最大可允许并行数据增强过程的装置,
用于管理在数据增强过程期间应用的单源净化过程的类型的装置,
用于管理在数据增强过程期间应用的源间过程的类型的装置,
用于管理将在特定单源净化过程期间应用的规则的装置,以及
用于管理将在特定源间过程期间应用的规则的装置。
19.根据权利要求1的参考数据实用工具,其中,所述输出生成器包括:
用于从接受者接收至少一个请求的装置;
用于对所述至少一个请求进行解析以提取请求说明的装置;以及
用于初始化至少一个工作流以向所述接受者提供输出数据的装置。
20.一种操作用于服务于多个接受者的参考数据实用工具的方法,包括:
从多个源接收未处理参考数据输入;
对所接收的所述未处理参考数据进行处理,以便生成具有增加价值的处理后的参考数据;
对所述未处理的参考数据以及所述处理后的参考数据进行存储;以及
为特定的接受者生成输出数据;使得所述输出数据仅包含未处理的参考数据以及处理后的参考数据中所述接受者有资格接收的至少一个;
21.根据权利要求20的方法,还包括对所述参考数据实用工具进行配置,以便使其对于支持增加数量的源、增加数量的接受者、增加数量的过程、以及增加数量和复杂度的资格安排中的至少一个是可缩放的。
22.根据权利要求20的方法,还包括在储存库中存储多个商业文档,并生成作为输出的所述文档的被选群组。
23.根据权利要求20的方法,还包括存储对源的访问权,其中,接受者有资格接收的数据由所述访问权定义。
24.根据权利要求20的方法,其中,所述接受者是由共享所述参考数据实用工具的使用的多个租户组织中的至少一个授予对特定参考数据源以及增强过程的资格的个体,所述租户组织中的所述至少一个独立地与一个或一个以上的数据源进行商定以便对其数据有资格,并与所述参考数据实用工具进行商定以便对将特定数据增强过程应用到所述至少一个租户组织有资格的其他参考数据得到的结果有资格。
25.根据权利要求20的方法,其中,所述未处理的参考数据包括信息元,且所述参考数据实用工具用寻源信息对多个所述信息元进行注释。
26.根据权利要求25的方法,其中,所述信息元具有属性,且所述参考数据实用工具用寻源信息对所述属性进行注释。
27.根据权利要求26的方法,还包括基于所述寻源信息维护关于接受者对所述信息元的资格的信息。
28.根据权利要求20的方法,还包括使用位于在地理上分散的区域中的装置。
29.根据权利要求28的方法,还包括将位于所述在地理上分散的区域中的一个的部件作为独立参考数据实用工具操作。
30.根据权利要求29的方法,其中,每个独立参考数据实用工具包括本地储存库,其还包括在所述本地储存库之间传送信息。
31.根据权利要求19的方法,其中,每个独立参考数据实用工具被专门用于提供与特定地理区域有关的信息,其还包括传送来自其他地理区域中的其他独立参考数据实用工具的信息。
32.根据权利要求20的方法,还包括通过记录对于接收自源的值的品质增强动作、将新到达的参考值与对于该项目的当前多源推荐值进行比较、以及记录由源提供的值与推荐值匹配的一致性的组合来评估源的准确度。
33.根据权利要求20的方法,还包括通过管理下列中的至少一个来管理参考数据实用工具的配置:
多个最大可允许并行数据增强过程,
在数据增强过程期间应用的单源净化过程的类型,
在数据增强过程期间应用的源间过程的类型,
将在特定单源净化过程期间应用的规则,以及
将在特定源间过程期间应用的规则。
34.根据权利要求20的方法,其中,所述生成输出包括:
从接受者接收至少一个请求;
对所述至少一个请求进行解析以提取请求说明;
初始化至少一个工作流以向所述接受者提供所述输出数据。
35.根据权利要求20的方法,包括提供增值服务,所述增值服务包括从群组中选择的至少一个服务,所述群组包括:基于动态传送输入数据集的数据驱动增值计算功能、商业文档的存储和检索、被存储的商业文档对商业事务的适用性的基于规则的验证、以及在支持商业事务时与商业文档相关联的参考数据的编排。
36.根据权利要求20的方法,还包括在所述参考数据实用工具的部件间维护数据流中的时间准确度。
37.根据权利要求20的方法,还包括维护针对每个接受者的源的总使用率的记录。
38.根据权利要求37的方法,还包括为每个接受者生成关于源品质和源使用率的至少一个的报告。
39.根据权利要求20的方法,还包括通过以下内容创建增值计算服务的市场:
建立可用服务的登记表;
接受来自接受者的执行具有提供请求式数据集的输入数据的被识别的服务的请求;
调用被请求的服务;
使用请求式数据集将来自所述服务计算的结果返回到做出请求的所述接受者;以及
监视服务实例,以便记录报告信息。
40.根据权利要求39的方法,其中,所述建立可用服务的登记表包括:
基于来自服务源的信息、使用所述服务需要的参考数据输入的说明、由每个服务计算生成的所述输出的说明,提供所述服务的描述;以及
维护来自识别有资格使用所述服务的接受者的服务起源的资格信息。
41.根据权利要求20的方法,还包括通过接收被请求服务的标识、所述服务使用的输入参考数据的说明、以及指示来自所述服务的输出如何被返回到客户的传送说明,处理对于增值服务实例的接受者请求。
42.根据权利要求41的方法,其中,调用被请求的服务包括:
验证使用所述服务的接受者资格;
基于对于服务执行的原始请求的变换,通过形成和执行对传送子系统的请求式数据集请求,收集接受者指定的输入数据;
验证接受者输入数据满足服务输入要求;以及
执行服务实例。
43.根据权利要求20的方法,还包括存储具有将其内容联系到参考数据值的注释的商业文档。
44.根据权利要求20的方法,还包括从至少一个接受者接受具有参考数据注释的文档,在所述储存库中存储注释后的文档,以及基于从所述源到达的与所述注释有关的信息向接受者提供服务。
45.根据权利要求20的方法,还包括对于未处理参考数据与处理后的参考数据中的至少一个的当前值执行验证测试。
46.一种计算机可用介质,其具有包含于其中的计算机可读程序代码装置,所述计算机可读程序代码装置用于使计算机完成权利要求20至46中任意一项的方法。
47.一种对请求者有用的数据的多源多租户数据储存库,包括:
数据库管理系统,所述系统对数据库进行管理,该数据库包括来自多个源的描述至少一个被引用实体的信息元;对于所述元的寻源信息的注释;以及请求者基于所述寻源信息对信息元的资格;
数据输入装置,用于将所述信息元放在所述数据库中;以及
数据输出装置,用于响应于来自请求者的请求基于所述信息元提供数据输出,所述输出包含所述请求者基于所述资格而有资格的信息。
48.根据权利要求47的储存库,其中,所述请求者选自包括以下的群组:租户、客户、参考数据源、代表所述储存库的代理、代表租户的软件程序、以及代表所述储存库的软件程序。
49.根据权利要求47的储存库,还包括用于将请求者认证为被授权于从所述储存库获取数据的装置。
50.根据权利要求47的储存库,其中,所述资格包括下列中的至少一个:
对特定数据源所提供数据的资格;
对特定值增强过程所生成数据项的资格;以及
对来自特定过程的数据的资格,如果用于得出该数据的所有值来自请求者有资格的数据源的话。
51.根据权利要求50的储存库,包括数据库部分,该部分用于存储关于基于与数据源独立签订合同的租户对与所述储存库的租户相关联的请求者有资格接收的输出进行管理的一组资格的信息。
52.根据权利要求47的储存库,其中,所述信息元包括从元类型列表中采用的元类型,所述元类型包括:项目实例、版本化属性、特性、属性值、商业文档、功能定义、规则集、操作信息、媒体文档、标准描述、分层商业数据、新闻信息、结构化文档、配置信息、以及程序代码。
53.根据权利要求47的储存库,其中,储存库实体包括至少一个项目实例信息元,每个项目实例元包括至少一个版本化属性信息元。
54.根据权利要求53的储存库,其中,储存库实体具有至少一个用于在信息元选择操作中选择所述储存库实体的特性。
55.根据权利要求53的储存库,其中,项目实例包括至少一个用于在信息元选择操作中选择所述项目实例的特性。
56.根据权利要求47的储存库,其中,所述储存库从至少一个项目实例接收用于包括在所述储存库中的过程项目实例或元数据,其中,所述项目实例过程由所述储存库唯一地标识;所述储存库还包括:
用于形成与至少一个被引用实体对应的至少一个储存库实体的装置;以及
用于在对所述至少一个被引用实体的引用的基础上将用于被包括的所述项目实例或元数据关联于至少一个所述储存库实体的装置。
57.根据权利要求47的储存库,其中,所述数据库管理系统包括:
用于在所述数据库中将标识产生所述项目实例的项目实例过程的信息存储为至少一个项目实例的至少一个特性的装置;
用于在所述数据库中以至少一个发展跟踪的源数据标签的形式存储所述项目实例历史中的至少一个事件的装置,所述至少一个事件包括从至少一个项目实例过程接收到的所述至少一个事件的代理和源以及时间信息;
用于以至少一个发展跟踪的源数据标签的形式存储所述项目实例的版本化属性历史中的事件的装置,所述至少一个事件包括从项目实例过程接收到的所述至少一个事件的代理和源以及时间信息;
用于存储每个所述项目实例的元数据的装置;
用于存储每个储存库实体的元数据的装置;以及
用于存储每个所述版本化属性的元数据的装置。
58.根据权利要求47的储存库,其中,所述数据库管理系统包括下列中的至少一个:
用于在至少一个发展跟踪源数据标签中存储至少一个反映涉及项目实例的操作的事件的装置,所述至少一个事件包括所述至少一个事件的代理和源以及时间信息;
用于创建新项目实例的装置;
用于影响已有项目实例的装置;
用于提供多个项目实例的复合处理的装置;
用于向项目实例供应从源数据集接收的储存库实体的属性值的装置;
用于向项目实例供应从单源数据集接收的值增强以及品质保证产生的储存库实体的属性值的装置;以及
用于向项目实例供应通过来自与同一被引用实体的同一属性有关的多个源数据集的值之间的比较和选择产生的储存库实体的属性值的装置。
59.根据权利要求47的储存库,其中,所述数据库管理系统包括:
用于对请求进行解释以产生至少一个请求说明的装置;
用于基于所述请求说明在所述储存库中选择被请求的信息元以形成返回数据集的装置;
用于过滤所述返回数据集以便仅包括所述请求者有资格的信息元以形成过滤后的返回数据集的装置;以及
用于将所述过滤后的返回数据集供应给所述数据输出装置的装置。
60.根据权利要求59的储存库,其中,用于解释的所述装置产生请求说明,所述请求说明包括从包括以下内容的方面群组中采取的多个方面:所述请求者的标识;对将被返回的所述信息元的选择进行管理的选择判定;以及当来自不同源的多个信息元可用于满足所述信息元选择判定时包括请求者的所述至少一个偏好的优先化的寻源偏好。
61.根据权利要求58的储存库,其中,用于选择的所述装置包括从包括以下内容的群组中采取的至少一个:
用于选择与所述请求说明匹配的任何储存库实体的装置;
用于选择属于与所述请求说明匹配的所述储存库实体的任何项目实例的装置;
用于选择组成与所述请求说明匹配的所述项目实例的任何属性值的装置;
用于选择与匹配于所述请求说明的所述任何储存库实体相关联的任何元数据的装置;
用于选择与匹配于所述请求说明的所述任何项目实例相关联的任何元数据的装置;
用于选择与匹配于所述请求说明的所述任何属性值相关联的任何元数据的装置;以及
用于应用指定的请求者寻源偏好以形成返回数据集的装置,所述返回数据集包括:所述项目实例、属于所述项目实例的所述属性值、以及所述元数据。
62.根据权利要求58的储存库,其中,用于过滤的所述装置包括从包括以下内容的群组中采取的至少一个:
用于保证所述至少一个请求者对负责生成任何所选项目实例的任何项目实例过程的资格的装置;
用于保证所述至少一个请求者对任何所选属性值的资格的装置,其中,仅在所述请求者对提供所述属性值的至少一个源有资格的条件下所述请求者有资格接收所述任何属性值;以及
用于从所述返回数据集中移除所述请求者没有资格的任何信息元的装置。
63.一种信息处理装置,包括用于维护多源多租户数据储存库的装置,其中,用于维护的所述装置包括:
用于将所述多源多租户数据储存库形成为包括来自多个源的、对至少一个被引用实体进行描述的信息元的装置;
用于在所述多源多租户数据储存库中用寻源信息对来自所述信息元的多个元进行注释的装置;以及
用于基于所述寻源信息维护关于请求者对信息元的资格的信息的装置。
64.一种多源多租户参考数据储存库,包括:
用于将来自多个源的关于商业工具信息、企业层次信息、企业新闻信息以及其他信息的信息输入到所述储存库中的装置;
用于对所述商业工具信息、企业层次信息、企业新闻信息以及其他信息的改变以及每个改变的源进行注释的装置;
用于对关于请求者获取所述商业工具信息、企业层次信息、企业新闻信息以及其他信息的资格的信息进行维护的装置,这种维护是基于对已提供或修改该信息的源以及过程的资格的;以及
用于基于对请求者指定的选择和寻源偏好并以所述资格为条件,响应于来自至少一个请求者的至少一个请求,返回所述商业工具信息、企业层次信息、企业新闻信息以及其他信息的至少一个子集的装置。
65.一种储存库装置,包括:
用于形成在适当的地方具有信息元结构的储存库的装置;
用于将到达的信息元插入所述储存库的存储的装置;
用于在形成每个信息元的发展跟踪的源数据标签时用描述所述每个信息元的发展历史的注释对所述每个信息元进行注释的装置;
用于为每个授权请求者对之有资格的储存库信息和数据源的授权请求者维护基于源的资格信息的装置;以及
用于在提供对包括在所述储存库中的信息的资格强制执行受控访问的过程中使用所述发展跟踪源数据标签连同基于源的资格的装置。
66.一种用于维护对请求者有用的数据的多源多租户数据储存库的方法,包括:
将所述多源多租户数据储存库形成为包括来自多个源的、描述至少一个被引用实体的信息元;
用寻源信息对多个所述元进行注释;以及
基于所述寻源信息,维护关于请求者对信息元的资格的信息。
67.根据权利要求66的方法,其中,所述资格包括下列中的至少一个:
对由特定数据源提供的数据的资格;
对由特定值增强过程生成的数据项的资格;以及
对来自特定过程的数据的资格,如果用于得出所述数据的所有值来自请求者有资格的数据源的话。
68.根据权利要求67的方法,其中,所述储存库的租户独立与数据源以及数据增强过程所有者签订合同,以确定管理与租户相关联的请求者有资格接收的数据的一组资格。
69.根据权利要求66的方法,还包括基于请求者指定的选择判定和寻源偏好并以至少一个请求者的所述资格为条件,响应于来自所述至少一个请求者的至少一个请求,返回一组信息元。
70.根据权利要求66的方法,其中,用于响应的所述步骤包括:
从至少一个请求者接收至少一个请求;
对所述至少一个请求进行解释,以产生至少一个请求说明;
基于所述请求说明在所述多源多租户数据储存库中选择被请求的信息元,以形成返回数据集;
过滤所述返回数据集,以便仅包括所述请求者有资格的信息元以形成过滤后的返回数据集;以及
向所述请求者返回所述过滤后的返回数据集。
71.根据权利要求70的方法,其中,进行解释的所述步骤产生请求说明,所述请求说明包括从包括以下内容的方面群组中采取的多个方面:所述请求者的标识;对将被返回的信息元的选择进行管理的选择判定;以及当来自不同源的多个信息元可用于满足所述信息元选择判定时包括所述至少一个请求者的偏好的优先化的寻源偏好。
72.根据权利要求70的方法,其中,进行选择的所述步骤包括从包括以下内容的群组中采取的至少一个步骤:
选择与所述请求说明匹配的任何储存库实体;
选择属于与所述请求说明匹配的所述储存库实体的任何项目实例;
选择组成与所述请求说明匹配的所述项目实例的任何属性值;
选择与匹配于所述请求说明的所述任何储存库实体相关联的任何元数据;
选择与匹配于所述请求说明的所述任何项目实例相关联的任何元数据;
选择与匹配于所述请求说明的所述任何属性值相关联的任何元数据;以及
应用指定的请求者寻源偏好以形成返回数据集,所述返回数据集包括:所述项目实例、属于所述项目实例的所述属性值、以及所述元数据。
73.根据权利要求70的方法,其中,用于过滤的所述步骤包括从包括以下内容的步骤群组中采取的至少一个步骤:
保证所述至少一个请求者对负责生成任何所选项目实例的任何项目实例过程的资格;
保证所述至少一个请求者对任何所选属性值的资格,其中,仅在所述请求者对提供所述属性值的至少一个源有资格的条件下所述请求者有资格接收所述任何属性值;以及
从所述返回数据集中移除所述请求者没有资格的任何信息元。
74.根据权利要求66的方法,其中,所述多源多租户数据储存库包括多个信息元类型,这些类型从包括以下内容的信息元类型列表中采取:项目实例;版本化属性;特性;属性值;商业文档;功能定义;规则集;操作信息;媒体文档;标准描述;分层商业数据;新闻信息;结构化文档;配置信息;以及程序代码。
75.根据权利要求66的方法,其中,储存库实体具有至少一个项目实例信息元,每个项目实例包括至少一个版本化属性信息元。
76.根据权利要求75的方法,其中,储存库实体包括用于在信息元选择操作中选择所述储存库实体的至少一个特性。
77.根据权利要求75的方法,其中,项目实例包括用于在信息元选择操作中选择所述项目实例的至少一个特性。
78.根据权利要求66的方法,其中,所述形成包括从包括以下内容的步骤群组中采取的至少一个步骤:
所述多源多租户数据储存库从至少一个项目实例过程接收用于包括在所述储存库中的项目实例或元数据,其中,所述项目实例过程由所述储存库唯一识别;
所述储存库形成与至少一个被引用实体对应的至少一个储存库实体;以及
所述储存库基于对所述至少一个被引用实体的引用将用于包括的所述项目实例或元数据与至少一个所述储存库实体相关联。
79.根据权利要求66的方法,其中,所述注释包括从包括以下内容的步骤群组中采取的至少一个步骤:
将识别产生所述项目实例的项目实例过程的信息存储为至少一个项目实例的至少一个特性;
以至少一个发展跟踪源数据标签的形式存储所述项目实例的历史中的至少一个事件,所述至少一个事件包括从至少一个项目实例过程接收的所述至少一个事件的代理和源以及时间信息;
以至少一个发展跟踪的源数据标签的形式存储所述项目实例的版本化属性的历史中的事件,所述至少一个事件包括从项目实例过程接收的所述至少一个事件的代理和源以及时间信息;
存储每个所述项目实例的元数据;
存储每个储存库实体的元数据;以及
存储每个所述版本化属性的元数据。
80.根据权利要求78的方法,其中,所述储存库项目实例过程包括从包括下列内容的步骤群组中采取的至少一个步骤:
在至少一个发展跟踪源数据标签中存储反映涉及项目实例的操作的至少一个事件,所述至少一个事件包括所述至少一个事件的代理和源以及时间信息;
使用创建新项目实例的过程;
使用影响已有项目实例的过程;
使用包括多个项目实例过程的复合过程;
向项目实例供应接收自源数据集的储存库实体的属性值;
向项目实例供应接收自单源数据集的值增强和品质保证产生的储存库实体的属性值;以及
向项目实例供应通过来自与同一被引用实体的同一属性有关的多个源数据集的值之间的比较和选择所产生的储存库实体的属性值。
81.根据权利要求66的方法,其中,所述请求者从包括下列的请求者群组中取得:代表储存库租户的代理,代表所述储存库的代理;代表储存库租户的软件程序;以及代表所述储存库的软件程序。
82.一种用于维护多源多租户参考数据储存库的方法,包括:
将所述多源多租户数据储存库形成为包括关于以下内容的信息:来自多个源的商业工具信息、企业分层信息、企业新闻信息以及其他信息;
对所述商业工具信息、企业分层信息、企业新闻信息以及其他信息的改变以及每个改变的源进行注释;
基于对已提供或修改该信息的过程和源的资格,维护关于请求者获取所述商业工具信息、企业分层信息、企业新闻信息以及其他信息的资格的信息;以及
基于请求者指定的选择和寻源偏好并以所述资格为条件,响应于来自至少一个请求者的至少一个请求,返回所述商业工具信息、企业分层信息、企业新闻信息以及其他信息的至少一个子集。
83.根据权利要求82的方法,其中,所述源来自包括以下内容的源群组:商业数据的提供者;金融数据的提供者;等级数据的提供者;企业新闻数据的提供者;以及企业分层数据的提供者。
84.根据权利要求82的方法,其中,所述信息包括金融信息数据,该数据从包括下列内容的至少一个的数据群组中采取:股票工具;债券工具;衍生工具;固定收益工具;不动产抵押工具;对等关系人信息;金融事务信息;企业事件信息;金融交易信息;金融结算信息;金融文档;其他金融工具;以及其他金融数据。
85.根据权利要求82的方法,其中,所述形成包括:保持所述商业工具信息、企业分层信息、企业新闻信息以及其他信息的历史状态的不同版本。
86.一种数据储存库方法,包括:
形成在适当的地方具有信息元结构的储存库;
将到达的信息元插入所述储存库的存储;
在形成所述每个信息元的发展跟踪源数据标签时用描述所述每个信息元的发展历史的注释对每个信息元进行注释;
为每个授权请求者对之有资格的储存库信息和数据源的授权请求者维护基于源的资格信息;以及
在提供对包括在所述储存库中的信息的资格强制执行受控访问的过程中使用所述发展跟踪源数据标签连同基于源的资格。
87.根据权利要求86的方法,还包括作为输入到达的检索请求;且所述提供的过程包括形成将作为该处理的输出而返回的检索响应。
88.根据权利要求87的方法,还包括使用所述储存库存储驻留于数据存储内的其他项目,所述其他项目包括下列中的至少一个:商业增值功能、商业文档、功能规则集、操作规则集、功能日志记录、以及操作日志记录。
89.根据权利要求86的方法,还包括将所述发展跟踪源数据标签与所述储存库中的至少一个信息元相关联,且所述注释步骤包括记录寻源信息,以便提供对创建信息元值有贡献的源的可跟踪性。
90.一种计算机可用介质,其具有包含于其中的计算机可读程序代码装置,所述计算机可读程序代码装置用于使计算机完成权利要求66至89中任意一项的方法。
91.一种用于增强参考数据的值的方法,包括:
使所述数据经受至少一个值增强过程;以及
维护对所述参考数据的每个增强元的生成有贡献的所有数据源和所有增强处理步骤的完整记录。
92.根据权利要求91的方法,还包括:
接收与来自第一数据源的被引用项目有关的数据;以及
基于对来自多个源的同一被引用项目的值的比较和处理生成增强的值。
93.根据权利要求91的方法,还包括执行下列内容中的至少一个:
通过手动过程与自动过程中的至少一个对所述数据进行验证;
通过手动过程与自动过程中的至少一个对所述数据进行规格化;以及
通过手动过程与自动过程中的至少一个对所述数据进行净化。
94.根据权利要求93的方法,其中,所述参考数据包括源元,且所述验证包括:
从源描述获取所述至少一个源元;以及
执行从包括以下内容的步骤群组中采取的至少一个步骤:
检测任何不符合所述源描述的源元;
对任何不符合所述源描述的源元进行标记;
对任何不符合所述源描述的源元进行校正;以及
移除任何不符合所述源描述的源元;以及
将通过执行验证的所述步骤生成的任何事件记录到至少一个发展跟踪寻源数据标签。
95.根据权利要求93的方法,其中,所述参考数据包括源元,且所述规格化包括:
获得在源描述中的所述源元;
将基于所述源描述的所述源元转换为基于对应的目标描述的至少一个目标信息元,其中,所述目标描述是描述储存库信息元当被存储在储存库中时的结构、内容和约束的信息;以及
执行从包括以下内容的步骤群组中采取的至少一个步骤:
检测任何不能被规格化的源元;
对任何不能被规格化的源元进行标记;
对任何不能被规格化的源元进行校正;
移除任何不能被规格化的源元;以及
将通过执行规格化的所述步骤生成的任何事件记录到至少一个发展跟踪寻源数据标签。
96.根据权利要求93的方法,其中,所述参考数据包括源元,且所述净化包括下列中的至少一个:
自动化执行来自包含源特有的净化规则的至少一个规则集中的至少一个规则;
由熟悉关于至少一个被引用实体的主题的人检查所述源元值;
由熟悉关于至少一个被引用实体的主题的人应用来自包含源特有的规则的所述至少一个规则集中的任何规则;
任何所述源元值的移除;
任何所述源元值的增加;
任何所述源元值的校正;
任何品质关注事项的注释;
向所述源报告关于所讨论源元的品质的查询;以及
将从所述动作群组中所采取的任何动作生成的任何事件记录到至少一个发展跟踪寻源数据标签。
97.根据权利要求91的方法,还包括从多个源接收所述参考数据,以及通过手动过程与自动过程中的至少一个选择和增强所述数据,以便产生增值的数据。
98.根据权利要求97的方法,包括:
选择所有包含描述同一被引用实体的信息的源元;
将预定规则应用到所述元的属性与所述源元中的至少一个;
通过下列中的至少一个,从由不同的源提供的替代物中选择优选项目或推荐项目中的一个:
基于由所述不同源提供的属性组合,创建至少一个新项目;或者
修改由所述不同源提供的所述元;
当至少一个新项目被创建时,创建新的对应的发展跟踪源数据标签;
在源项目层用关于应用到所述项目的源间处理的信息对所述发展跟踪源数据标签进行注释。
99.根据权利要求98的方法,其中,如果已有元被选择但没有属性被修改,则该方法还包括在项目层提供注释,以便指示哪些母源与所做出的选择匹配。
100.根据权利要求98的方法,其中,如果发生了数据在属性层的修改或新项目的创建,则该方法还包括为每个属性单独注释精确的一组源。
101.一种数据处理方法,包括产生至少一个发展跟踪源标签的数据集,其包括:
从至少一个源接收至少一个源数据集,其中,源元包括源项目与源属性中的一个,每个源数据集具有至少一个源项目,每个源项目具有至少一个源属性;
在至少一个发展跟踪源数据标签中记录针对每个源元的源标识以及针对每个源数据集的源标识;
获取从所述接收步骤与所述记录步骤产生的有关信息以便在至少一个发展跟踪源数据标签中形成至少一个可记录事件;以及
形成所述至少一个发展跟踪源标签的数据集以包括至少一个发展跟踪源数据标签,所述至少一个发展跟踪源数据标签包括所述至少一个可记录事件,并包括所述至少一个可记录事件的至少一个源。
102.根据权利要求101的方法,还包括:
从关于所述源数据集、所述源元、以及信息元中的至少一个的至少一个规则集中调用至少一个规则;以及
获取由所述调用步骤发展的相关信息以便在至少一个发展跟踪源数据标签中形成至少一个其他可记录事件。
103.根据权利要求102的方法,其中,所述至少一个规则集包括从规则群组中采取的至少一个规则,所述规则群组包括:
用于检查源属性值的范围容差的规则;
用于检查源属性值的改变率的规则;
用于检查源属性值与其他相关源属性值的一致性的规则;
用于检查源元的结构一致性的规则;
用于检查源元与其他相关源元的一致性的规则;
用于检查源元在多源多租户数据储存库中如目标描述所述地变换为目标信息源的适用性的规则;
用于检查源元值与已有被引用实体信息的兼容性的规则;
用于将源元识别为来自特定源的规则;
用于在特定源间过程的背景下比较源元的规则;
适用于源数据集的规则;
适用于源元的规则;以及
适用于信息源的规则。
104.根据权利要求103的方法,其中,根据所述至少一个规则对从处理阶段群组中采取的至少一个处理阶段的适用性,所述至少一个规则被分组为至少一个规则集,所述处理阶段群组包括:验证、规格化、源特有的净化、以及源间过程。
105.根据权利要求102的方法,其中,规则包括下列当中的至少一个:可执行测试条件;校正方法;识别所述规则所属于的所述至少一个规则集的信息。
106.根据权利要求102的方法,其中,可记录事件包括从包括以下内容的数据群组中采取的数据:事件描述;事件的代理;与事件有关联的时间信息;事件的至少一个源;事件的标识符;将事件与其所应用的信息元相关联所需要的信息;以及事件的分类。
107.根据权利要求102的方法,其中,所述调用步骤包括从包括以下内容的步骤群组中采取的至少一个步骤:对至少一个源元执行验证;对所述至少一个源元执行规格化;对所述至少一个源元执行源特有的净化;以及对所述至少一个源元执行至少一个源间过程。
108.根据权利要求107的方法,其中,对所述至少一个源元执行验证的所述步骤包括:
从源描述获取所述至少一个源元;以及
执行从包括以下内容的步骤群组中采取的至少一个步骤:
检测不符合所述源描述的任何源元;
对不符合所述源描述的任何源元进行标记;
校正不符合所述源描述的任何源元;
移除不符合所述源描述的任何源元;以及
将执行验证的所述步骤所生成的任何事件记录到至少一个发展跟踪寻源数据标签。
109.根据权利要求107的方法,其中,对所述至少一个源元执行规格化的所述步骤包括:
获取源描述中的所述源元;
将基于所述源描述的所述源元转换为基于对应的目标描述的至少一个目标信息元,其中,所述目标描述是描述储存库信息元当其被存储在储存库中时的结构、内容以及约束的信息;以及
执行从包括以下内容的步骤群组中采取的至少一个步骤:
检测不能被规格化的任何源元;
对不能被规格化的任何源元进行标记;
校正不能被规格化的任何源元;
移除不能被规格化的任何源元;以及
将执行规格化的所述步骤所生成的任何事件记录到至少一个发展跟踪寻源数据标签。
110.根据权利要求107的方法,其中,执行源特有的净化的所述步骤包括从包括以下内容的动作群组中采取的动作:
自动化执行来自包含对源特有的净化规则的所述至少一个规则集的所述至少一个规则;
由熟悉与至少一个被引用实体有关的主题的人检查所述源元值;
由熟悉与至少一个被引用实体有关的主题的人应用来自包含对源特有的规则的所述至少一个规则集的任何规则;
任何所述源元值的移除;
任何所述源元值的增加;
任何所述源元值的校正;
任何品质关注事项的注释;
向源报告关于所讨论源元的品质的查询;以及
将从所述动作群组中所采取的任何动作生成的任何事件记录到至少一个发展跟踪寻源数据标签。
111.根据权利要求107的方法,其中,执行至少一个源间过程的所述步骤包括从包括以下内容的动作群组中采取的动作:
检查来自引用同一被引用实体的多个数据源的源元;
自动执行来自所述至少一个规则集的至少一个规则,该规则集包括对所述至少一个源间过程特有的源间过程规则;
由熟悉与所述同一被引用实体有关的主题的人检查所述源元;
由熟悉该主题的人应用来自包含对所述至少一个源间过程特有的源间过程规则的所述至少一个规则集的任何规则;
选择作为优选值的任何所述源元值;
任何所述源元的比较;
任何所述源元值的移除;
任何所述源元值的增加;
任何所述源元值的修改;
注释任何品质关注事项;
创建至少一个项目实例以包括所述至少一个源间过程的结果;
修改至少一个项目实例以包括所述至少一个源间过程的结果;
将标识信息添加到至少一个项目实例以便将所述至少一个项目实例识别为所述至少一个源间过程的目标;以及
将通过从所述动作群组中采取的任何动作生成的任何事件记录到至少一个发展跟踪寻源数据标签。
112.根据权利要求111的方法,还包括通过从包括以下内容的步骤群组中采取的至少一个步骤消除在比较所述源元的所述步骤中检测到的差别:
基于商业规则自动选择源元;
基于算法自动选择源元;
由熟悉该主题的人基于所述主题领域的知识手动选择推荐源元;
由熟悉该主题的人基于自由获得的公共信息手动选择推荐源元;
由熟悉该主题的人基于该主题领域的知识手动创建推荐源元;
由熟悉该主题的人基于自由获得的公共信息手动创建推荐源元;以及
将从所述步骤群组中采取的任何步骤生成的任何事件记录到至少一个发展跟踪寻源数据标签。
113.根据权利要求111的方法,其中,所述记录步骤包括识别哪些源与被选的优选源元值匹配。
114.根据权利要求108的方法,还包括:
向熟悉该主题的人呈现所述至少一个源元;
使能所述至少一个源元的手动验证的执行;
执行手动验证;以及
将执行手动规格化的所述步骤生成的任何事件记录到至少一个发展跟踪寻源数据标签。
115.根据权利要求109的方法,还包括:
向熟悉该主题的人呈现所述至少一个源元;
使能所述至少一个源元的手动规格化的执行;
执行手动规格化;以及
将执行手动规格化的所述步骤所生成的任何事件记录到至少一个发展跟踪寻源数据标签。
116.根据权利要求101的方法,其中,被处理的整个一组参考数据关于多种不同话题,其中参考数据的源数据集被独立净化,每个源供应关于至少一个话题的源项目。
117.一种用于参考数据品质保证的数据处理方法,包括:
接收来自至少一个源的源数据集中的参考数据,每个源数据集具有至少一个源项目,每个源项目具有至少一个源属性,其中,源元为源项目与源属性中的一个;
在至少一个发展跟踪源数据标签中记录针对每个源元的源标识以及针对每个源数据集的源标识,使得至少一个发展跟踪源数据标签与每个源元相关联;
在所述至少一个发展跟踪源数据标签中记录来自源元的验证、规格化、单源处理、及源间处理的步骤的数据发展事件;以及
形成所述至少一个发展跟踪源标签的数据集以包括至少一个发展跟踪源数据标签,所述至少一个发展跟踪源数据标签包括所述至少一个数据发展事件与所述至少一个数据发展事件的源。
118.一种制品,包括其中含有计算机可读程序代码装置以便产生数据处理的计算机可用介质,所述制品中的所述计算机可读程序代码装置包括使计算机完成根据权利要求91-117中任意一项的步骤的计算机可读程序代码装置。
119.一种用于增强参考数据的值的装置,包括:
使所述数据经受至少一个增值过程的装置;以及
数据库,用于维护对所述参考数据的每个增强元的生成有贡献的所有增强处理步骤以及所有数据源的完整记录。
120.根据权利要求119的装置,还包括:
用于从第一数据源接收关于被引用项目的数据的装置;以及
基于来自对多个源的同一被引用项目的值的比较与处理生成增加值的装置。
121.根据权利要求119的装置,还包括下列之中的至少一个:
用于通过手动过程与自动过程中的至少一个验证所述数据的验证装置;
用于通过手动过程与自动过程中的至少一个对所述数据进行规格化的规格化装置;以及
用于通过手动过程与自动过程中的至少一个对所述数据进行净化的净化装置。
122.根据权利要求121的装置,其中,所述参考数据包括源元,且所述验证装置包括:
用于从源描述获取所述至少一个源元的装置;以及
用于执行从包括以下内容的步骤群组中采取的至少一个步骤的装置:
检测不符合所述源描述的任何源元;
对不符合所述源描述的任何源元进行标记;
校正不符合所述源描述的任何源元;以及
移除不符合所述源描述的任何源元;以及
用于将执行验证的所述步骤生成的任何事件记录到至少一个发展跟踪寻源数据标签的装置。
123.根据权利要求121的装置,其中,所述参考数据包括源元,且所述规格化装置包括:
用于获取源描述中的所述源元的装置;
用于将基于所述源描述的所述源元转换为基于对应的目标描述的至少一个目标信息元的装置,其中,所述目标描述是描述储存库信息元当被存储在储存库中时的结构、内容与约束的信息;以及
用于执行从包括以下内容的步骤群组中采取的至少一个步骤的装置:
检测不能被规格化的任何源元;
对不能被规格化的任何源元进行标记;
校正不能被规格化的任何源元;
用于移除不能被规格化的任何源元的装置;以及
用于将执行规格化的所述步骤所生成的任何事件记录到至少一个发展跟踪寻源数据标签的装置。
124.根据权利要求121的装置,其中,所述参考数据包括源元,且所述净化装置包含下列之中的至少一个:
用于自动化执行来自包含对源特有的净化规则的至少一个规则集的至少一个规则的装置;
用于由熟悉与至少一个被引用实体有关的主题的人检查所述源元值的装置;
用于由熟悉与至少一个被引用实体有关的主题的人应用来自包含对源特有的规则的所述至少一个规则集的任何规则的装置;
用于任何所述源元值的移除的装置;
用于任何所述源元值的增加的装置;
用于任何所述源元值的校正的装置;
用于注释任何品质关注事项的装置;
用于向所述源报告关于所讨论源元的品质的查询的装置;以及
用于将从所述动作群组中所采取的任何动作生成的任何事件记录到至少一个发展跟踪寻源数据标签的装置。
125.根据权利要求119的装置,还包括:用于从多个源接收所述参考数据的装置,以及用于通过手动过程与自动过程中的至少一个对所述数据进行选择和增强以产生增强值的数据的装置。
126.根据权利要求125的装置,包括:
用于选择包含描述同一被引用实体的信息的所有源元的装置;
用于将预定规则应用到源元与元属性中的至少一个的装置;
用于通过以下当中的至少一个从不同源提供的替代物中选择优选项目或推荐项目中的一个的装置:
基于由不同源提供的属性的组合创建至少一个新项目;或
修改由不同的源提供的元;
用于当创建至少一个新项目时创建新的对应的发展跟踪源数据标签的装置;以及
用于在源项目层次上用关于应用到项目的源间处理的信息注释所述发展跟踪源数据标签的装置。
127.根据权利要求126的装置,还包括:用于如果已有的元已被选择但没有属性被修改,则在项目层提供注释以便指示哪些母源与所做出的选择匹配的装置。
128.根据权利要求126的装置,还包括:用于如果发生数据在属性层的修改或新项目的创建,则为每个属性单独注释精确的一组源的装置。
129.一种用于产生至少一个发展跟踪源标签的数据集的数据处理装置,包括:
用于从至少一个源接收至少一个源数据集的至少一个输入,每个源数据集具有至少一个源项目,每个源项目具有至少一个源属性;
用于记录每个源属性的源标识、每个源项目的源标识以及每个源数据集的源标识的存储器;
用于调用来自关于以下内容中的至少一个的至少一个规则集的至少一个规则的装置:
所述源数据集;
所述源项目;以及
所述属性;以及
用于保留关于调用、接收和记录的步骤的相关信息从而产生至少一个可记录事件的装置;以及
处理器,用于形成所述至少一个发展跟踪源标签的数据集以包括所述至少一个可记录事件以及所述至少一个可记录事件的事件发起者。
130.一种用于保证参考数据品质的数据处理装置,包括:
用于接收来自至少一个源的源数据集中的参考数据的装置,每个源数据集具有至少一个源项目,每个源项目具有至少一个源属性,其中,源元为源项目与源属性中的一个;
用于在至少一个发展跟踪源数据标签中记录针对每个源元的源标识以及针对每个源数据集的源标识、使得至少一个发展跟踪源数据标签与每个源元相关联的装置;
用于在所述至少一个发展跟踪源数据标签中记录来自源元的验证、规格化、单源处理、以及源间处理的步骤的数据发展事件的装置;以及
用于形成所述至少一个发展跟踪源标签的数据集以包括至少一个发展跟踪源数据标签的装置,所述至少一个发展跟踪源数据标签包括所述至少一个数据发展事件与所述至少一个数据发展事件的源。
131.一种用于满足至少一个请求式数据集请求的信息传送方法,包括:
处理来自至少一个请求者的所述至少一个请求式数据集请求;
产生至少一个解析后的请求式数据集请求说明;
配置至少一个请求式数据集产生过程以产生满足所述至少一个请求式数据集请求的至少一个请求式数据集;以及
执行所述至少一个请求式数据集产生过程以便将所述至少一个请求式数据集返回到所述至少一个请求者;
其中,所述请求式数据集被限制为从所述请求者有资格的源和数据增强得到的数据。
132.根据权利要求131的方法,其中,所述请求式数据集请求包括使得所述请求者能够指定从包括以下内容的性质群组中采取的性质的至少一个请求式数据集请求说明:
被返回的信息项目;被返回的信息项目的选择;在替代可用值之间进行选择的寻源偏好;传送模式;传送定时;传输协议;传输协议端口;安全令牌;优选数据格式;数据变换规则;被调用的定制功能;定制过滤规则;异常处理指令;注释指令;数据传送反馈机制指令;传送端点;传送中介;元数据处理指令;记入日志指令;路由指令;数据合并指令;以及数据分割指令。
133.根据权利要求131的方法,还包括从多源多租户数据储存库接收汇编在请求式数据集中的信息。
134.根据权利要求131的方法,其中,所述至少一个请求者从包括以下内容的请求者群组中采取:
多源多租户储存库的租户;
代表所述租户的代理;
代表所述储存库的代理;
代表所述储存库的程序;以及
代表所述租户的程序。
135.根据权利要求131的方法,还包括使用传送模式传送所述至少一个请求式数据集,所述传送模式包括来自包括以下内容的传送模态群组的至少一个传送模态:
准实时传送;已调度的分批传送;数据集市传送;一次性查询传送;电子邮件传送;传真传送;在线传送;打印硬拷贝传送;自动化语音传送;磁带传送;光盘传送;数字媒体传送;视频传送;以及条件触发传送。
136.根据权利要求131的方法,其中,配置所述至少一个请求式数据集产生过程通过针对所述至少一个请求式数据集产生过程中可分离的步骤使用至少一个动作构造块而使能。
137.根据权利要求136的方法,所述至少一个动作构造块从动作构造块集合中采取,其中,每个块使能从包括以下内容的功能群组中采取的至少一个功能:
信息元选择;寻源选择;资格强制执行;数据汇编;传送调度;传输协议处理;标准格式变换;数据库加载;定制数据变换;记入日志;功能执行;过滤;注释;路由;数据分割;数据合并;以及数据发送。
138.根据权利要求131的方法,其中,配置至少一个请求式数据集产生过程的所述步骤包括:
使用所述至少一个解析后的请求式数据集请求说明;
选择用于包括在请求式数据集产生过程中的至少一个动作构造块,其中,所述至少一个动作构造块满足所述至少一个解析后的请求式数据集请求说明的至少一个性质;
用执行参数对任何被选动作构造块进行参数化;以及
将所选的参数化的动作块汇编到所述至少一个请求式数据集产生过程中。
139.根据权利要求131的方法,其中,执行所述请求式数据集产生过程包括从包括以下内容的步骤群组中采取的至少一个步骤:
执行包括在所述请求式数据集产生过程中的汇编流的逻辑;
按照所述逻辑所指示的次数执行所述请求式数据集产生过程的每一参数化动作构造块;
向所述至少一个请求者发送所述至少一个请求式数据集;
记录响应于所述至少一个请求所采取的动作的方面,以便使能在其后的时间重复所述执行步骤;以及
将从包括以下内容的方面群组中采取的至少一个传送方面记入日志:
传送时间;传送日期;传送内容;传送的请求者;传送模式;传送大小;传送过程的执行时间;传送的标识符;传送过程的任何错误;传送过程的任何警告;传送过程的成功;传送过程的反馈;与传送过程相关联的认可信息;传送的安全特征;以及所述至少一个请求式数据集请求。
140.根据权利要求131的方法,其中,所述请求式数据集请求由从包括以下内容的动作群组中采取的动作发起:手动发起的请求;自动发起的请求;一次性请求;数据到达事件;数据可用性事件;数据删除事件;数据改变事件;数据时间事件;已调度请求;通过中介接收到的请求;以及在线发起的请求。
141.根据权利要求131的方法,该方法可缩放为允许通过来自多个请求者的多个传送请求的信息传送。该方法使用信息传送请求的自动化处理,该方法对于每个传送请求的需要被特定地进行配置。
142.一种响应于来自请求者的请求从多源多租户数据储存库返回参考数据的方法,包括:
接收来自请求者的至少一个请求;
解析所述至少一个请求以提取请求说明;
基于所述请求者的资格、选择标准、寻源偏好以及其他包含在请求者的请求中的偏好,对至少一个工作流进行配置,以便传送被请求的参考数据;以及
执行所述工作流,将所述被请求的参考数据传送到所述请求者。
143.根据权利要求142的方法,其中,所述请求说明包括从包括以下内容的偏好群组中采取的至少一个偏好:
选择标准;寻源偏好;数据格式偏好;传送传输偏好;以及对所述请求者特有的偏好。
144.根据权利要求142的方法,其中,所述配置包括从包括以下内容的动作群组中采取的至少一个动作:
检索所述被请求的参考数据;
对所述被请求的参考数据进行过滤;以及
对所述被请求的参考数据进行格式化。
145.一种包括计算机可用介质的制品,该介质具有包含于其中的用于产生信息处理的计算机可读程序代码装置,所述制品中的计算机可读程序代码装置包括用于使计算机完成权利要求131-144中任意一项的步骤的计算机可读程序代码装置。
146.一种用于满足至少一个请求式数据集请求的信息处理装置,包括:
处理器,用于处理来自至少一个请求者的所述至少一个请求式数据集请求;
计算机程序部件,可被执行用于产生至少一个解析后的请求式数据集请求说明;
程序配置装置,用于配置至少一个请求式数据集产生过程,以便产生满足所述至少一个请求式数据集请求的至少一个请求式数据集;以及
计算机代码,用于执行所述至少一个请求式数据集产生过程,以便将所述至少一个请求式数据集返回到所述至少一个请求者;
其中,所述请求式数据集被限制为从所述请求者有资格的源和数据增强得到的数据。
147.根据权利要求146的装置,其中,所述处理器处理请求式数据集请求,其包括使得所述请求者能够指定从包括以下内容的性质群组中采取的性质的至少一个请求式数据集请求说明:
被返回的信息项目;被返回的信息项目的选择;在替代可用值之间进行选择的寻源偏好;传送模式;传送定时;传输协议;传输协议端口;安全令牌;优选数据格式;数据变换规则;被调用的定制功能;定制过滤规则;异常处理指令;注释指令;数据传送反馈机制指令;传送端点;传送中介;元数据处理指令;记入日志指令;路由指令;数据合并指令;以及数据分割指令。
148.根据权利要求146的装置,还包括用于从多源多租户数据储存库接收在请求式数据集中汇编的信息的装置。
149.根据权利要求146的装置,还包括用于从包括以下内容的请求者群组中采取的至少一个请求者接收所述请求式数据集请求的装置:
多源多租户储存库的租户;
代表所述租户的代理;
代表所述储存库的代理;
代表所述储存库的程序;以及
代表所述租户的程序。
150.根据权利要求146的装置,还包括传送部件,其中,所述传送部件包括从包括以下内容的传送模态群组中采取的至少一个传送模态:
准实时传送;已调度的分批传送;数据集市传送;一次性查询传送;电子邮件传送;传真传送;在线传送;打印硬拷贝传送;自动化语音传送;磁带传送;光盘传送;数字媒体传送;视频传送;以及条件触发传送。
151.根据权利要求146的装置,还包括至少一个动作构造块,用于构造所述至少一个请求式数据集产生过程的可分离的步骤,从而配置所述至少一个请求式数据集产生过程。
152.根据权利要求151的装置,其中,所述至少一个动作构造块从动作构造块集合中采取,其中,每个块使能从包括以下内容的功能群组中采取的至少一个功能:
信息元选择;寻源选择;资格强制执行;数据汇编;传送调度;传输协议处理;标准格式变换;数据库加载;定制数据变换;记入日志;功能执行;过滤;注释;路由;数据分割;数据合并;以及数据发送。
153.根据权利要求146的装置,其中,所述程序配置装置包括:
用于使用所述至少一个解析后的请求式数据集请求说明的装置;
用于选择用于包括在请求式数据集产生过程中的至少一个动作构造块的装置,其中,所述至少一个动作构造块满足所述至少一个解析后的请求式数据集请求说明的至少一个性质;
用于用执行参数对被选动作构造块进行参数化的装置;以及
用于将被选参数化的动作块汇编到所述至少一个请求式数据集产生过程中的装置。
154.根据权利要求146的装置,其中,用于执行请求式数据集产生过程的计算机代码包括从计算机代码部件群组中采取的至少一个计算机代码部件,其包括:
用于执行包括在所述请求式数据集产生过程中的汇编流的逻辑的计算机代码;
用于按照所述逻辑所指示的次数执行所述请求式数据集产生过程的每一参数化动作构造块的计算机代码;
用于向所述至少一个请求者发送所述至少一个请求式数据集的计算机代码;
用于记录响应于所述至少一个请求所采取的动作的方面,以便使能在其后的时间重复所述执行步骤的计算机代码;以及
用于将从包括以下内容的方面群组中采取的至少一个传送方面记入日志的计算机代码:
传送时间;传送日期;传送内容;传送的请求者;传送模式;传送大小;传送过程的执行时间;传送的标识符;传送过程的任何错误;传送过程的任何警告;传送过程的成功;传送过程的反馈;与传送过程相关联的认可信息;传送的安全特征;以及所述至少一个请求式数据集请求。
155.根据权利要求146的装置,还包括用于响应于从包括以下内容的动作群组中采取的动作而发起所述请求式数据集请求的装置:
手动发起的请求;自动发起的请求;一次性请求;数据到达事件;数据可用性事件;数据删除事件;数据改变事件;数据时间事件;已调度请求;通过中介接收到的请求;以及在线发起的请求。
156.一种用于响应于来自请求者的请求从多源多租户数据储存库返回参考数据的装置,包括:
用于接收来自请求者的至少一个请求的装置;
用于解析所述至少一个请求以提取请求说明的装置;
用于基于所述请求者的资格、选择标准、寻源偏好以及其他包含在请求者的请求中的偏好,对至少一个工作流进行配置以便传送被请求的参考数据的装置;
用于执行所述工作流并将所述被请求的参考数据传送到请求者的装置;以及
用于将所述请求式数据集限制在从所述请求者有资格的源和数据增强中得到的数据的装置。
157.根据权利要求156的装置,包括响应于所述请求说明的装置,所述请求说明包括从包括以下内容的偏好群组中采取的至少一个偏好:
选择标准;寻源偏好;数据格式偏好;传送传输偏好;以及对所述请求者特有的偏好。
158.根据权利要求156的装置,其中,用于配置的所述装置包括从包括以下内容的装置群组采取的至少一个装置:
用于检索所述被请求的参考数据的装置;
用于对所述被请求的参考数据进行过滤的装置;以及
用于对所述被请求的参考数据进行格式化的装置。
159.一种用于响应于来自请求者的请求从多源多租户数据储存库返回参考数据的装置,包括:
用于接收来自请求者的至少一个请求的装置;
用于解析所述至少一个请求以提取请求说明的装置;
用于基于所述请求者资格、选择标准、寻源偏好以及包含在请求者的请求中的其他偏好,配置至少一个工作流以便传送被请求的参考数据的装置;以及
用于执行所述工作流并向所述请求者传送所述被请求的参考数据的装置。
CNA2006800021961A 2005-01-14 2006-01-13 包括增值和请求式数据传送的可共享多租户参考数据实用工具和储存库以及运行方法 Pending CN101124578A (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US64404505P 2005-01-14 2005-01-14
US60/644,045 2005-01-14
US60/648,497 2005-01-31
US60/654,376 2005-02-18
US60/694,815 2005-06-28
US11/318,428 2005-12-22
US11/318,425 2005-12-22
US11/318,355 2005-12-22
US11/318,426 2005-12-22

Publications (1)

Publication Number Publication Date
CN101124578A true CN101124578A (zh) 2008-02-13

Family

ID=39086090

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006800021961A Pending CN101124578A (zh) 2005-01-14 2006-01-13 包括增值和请求式数据传送的可共享多租户参考数据实用工具和储存库以及运行方法

Country Status (1)

Country Link
CN (1) CN101124578A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620609B (zh) * 2008-06-30 2012-03-21 国际商业机器公司 多租户数据存储和访问方法和装置
CN102542402A (zh) * 2011-12-02 2012-07-04 袁义军 财务数据处理方法及系统
CN102737020A (zh) * 2011-03-31 2012-10-17 国际商业机器公司 一种初始化多租户数据库的方法和装置
CN103154928A (zh) * 2010-06-24 2013-06-12 奥比融移动有限公司 用于处理非参数化的多维的空间和时间人类行为或普遍测量的技术观测数据的网络服务器装配及其相关方法
CN103329129A (zh) * 2011-01-12 2013-09-25 国际商业机器公司 支持云环境的多租户审计感知
CN104781839A (zh) * 2012-11-12 2015-07-15 惠普发展公司,有限责任合伙企业 吸收商业规则
CN105074702A (zh) * 2013-02-28 2015-11-18 亚马逊科技公司 提供单租户和多租户环境的数据库系统
US9613363B2 (en) 2010-08-25 2017-04-04 The Nielsen Company (Us), Llc Methods, systems and apparatus to generate market segmentation data with anonymous location data
CN107133862A (zh) * 2009-03-27 2017-09-05 邓白氏公司 动态产生增强信用评估的详细交易支付经历的方法和系统
CN107885744A (zh) * 2016-09-29 2018-04-06 微软技术许可有限责任公司 对话式的数据分析
CN108351760A (zh) * 2015-08-24 2018-07-31 艾拉物联公司 馈送服务引擎
CN108476236A (zh) * 2015-12-30 2018-08-31 康维达无线有限责任公司 物联网数据的基于语义的内容规范
CN110335148A (zh) * 2019-05-31 2019-10-15 上海芯与网络科技有限公司 证券数据并行处理系统及方法
CN111133390A (zh) * 2017-11-14 2020-05-08 千代田化工建设株式会社 工厂管理系统和管理装置
CN113168478A (zh) * 2018-07-10 2021-07-23 柯拉松简化股份公司 提供对数据内容的访问的改进的可扩展的服务器架构
US11502914B2 (en) 2009-05-08 2022-11-15 The Nielsen Company (Us), Llc Systems and methods for behavioural and contextual data analytics
CN115396498A (zh) * 2022-07-12 2022-11-25 青岛云天励飞科技有限公司 信息发布方法、装置、系统、电子设备及存储介质
US20230214360A1 (en) * 2022-01-05 2023-07-06 Jpmorgan Chase Bank, N.A. Method and system for facilitating distributed entity resolution

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620609B (zh) * 2008-06-30 2012-03-21 国际商业机器公司 多租户数据存储和访问方法和装置
CN107133862A (zh) * 2009-03-27 2017-09-05 邓白氏公司 动态产生增强信用评估的详细交易支付经历的方法和系统
US11502914B2 (en) 2009-05-08 2022-11-15 The Nielsen Company (Us), Llc Systems and methods for behavioural and contextual data analytics
CN103154928B (zh) * 2010-06-24 2016-08-03 奥比融移动有限公司 网络服务器系统及其相关方法
CN103154928A (zh) * 2010-06-24 2013-06-12 奥比融移动有限公司 用于处理非参数化的多维的空间和时间人类行为或普遍测量的技术观测数据的网络服务器装配及其相关方法
US9449279B2 (en) 2010-06-24 2016-09-20 The Nielsen Company (Us), Llc Network server arrangements for processing non-parametric, multi-dimensional, spatial and temporal human behavior or technical observations measured pervasively, and related methods for the same
US9996855B2 (en) 2010-08-25 2018-06-12 The Nielsen Company (Us), Llc Methods, systems and apparatus to generate market segmentation data with anonymous location data
US11769174B2 (en) 2010-08-25 2023-09-26 The Nielsen Company (Us), Llc Methods, systems and apparatus to generate market segmentation data with anonymous location data
US11170410B2 (en) 2010-08-25 2021-11-09 The Nielsen Company (Us), Llc Methods, systems and apparatus to generate market segmentation data with anonymous location data
US10380643B2 (en) 2010-08-25 2019-08-13 The Nielsen Company (Us), Llc Methods, systems and apparatus to generate market segmentation data with anonymous location data
US10713687B2 (en) 2010-08-25 2020-07-14 The Nielsen Company (Us), Llc Methods, systems and apparatus to generate market segmentation data with anonymous location data
US9613363B2 (en) 2010-08-25 2017-04-04 The Nielsen Company (Us), Llc Methods, systems and apparatus to generate market segmentation data with anonymous location data
CN103329129A (zh) * 2011-01-12 2013-09-25 国际商业机器公司 支持云环境的多租户审计感知
CN103329129B (zh) * 2011-01-12 2017-11-14 国际商业机器公司 支持云环境的多租户审计感知
CN102737020B (zh) * 2011-03-31 2014-08-27 国际商业机器公司 一种初始化多租户数据库的方法和装置
CN102737020A (zh) * 2011-03-31 2012-10-17 国际商业机器公司 一种初始化多租户数据库的方法和装置
CN102542402B (zh) * 2011-12-02 2015-08-26 袁义军 财务数据处理方法及系统
CN102542402A (zh) * 2011-12-02 2012-07-04 袁义军 财务数据处理方法及系统
CN104781839A (zh) * 2012-11-12 2015-07-15 惠普发展公司,有限责任合伙企业 吸收商业规则
CN105074702B (zh) * 2013-02-28 2019-01-11 亚马逊科技公司 提供单租户和多租户环境的数据库系统
CN105074702A (zh) * 2013-02-28 2015-11-18 亚马逊科技公司 提供单租户和多租户环境的数据库系统
CN108351760A (zh) * 2015-08-24 2018-07-31 艾拉物联公司 馈送服务引擎
CN108351760B (zh) * 2015-08-24 2022-09-06 艾拉物联网络(深圳)有限公司 馈送服务引擎
CN108476236B (zh) * 2015-12-30 2021-08-03 康维达无线有限责任公司 物联网数据的基于语义的内容规范
CN108476236A (zh) * 2015-12-30 2018-08-31 康维达无线有限责任公司 物联网数据的基于语义的内容规范
CN107885744B (zh) * 2016-09-29 2023-01-03 微软技术许可有限责任公司 对话式的数据分析
CN107885744A (zh) * 2016-09-29 2018-04-06 微软技术许可有限责任公司 对话式的数据分析
CN111133390A (zh) * 2017-11-14 2020-05-08 千代田化工建设株式会社 工厂管理系统和管理装置
CN113168478A (zh) * 2018-07-10 2021-07-23 柯拉松简化股份公司 提供对数据内容的访问的改进的可扩展的服务器架构
CN110335148A (zh) * 2019-05-31 2019-10-15 上海芯与网络科技有限公司 证券数据并行处理系统及方法
US20230214360A1 (en) * 2022-01-05 2023-07-06 Jpmorgan Chase Bank, N.A. Method and system for facilitating distributed entity resolution
CN115396498A (zh) * 2022-07-12 2022-11-25 青岛云天励飞科技有限公司 信息发布方法、装置、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN101124578A (zh) 包括增值和请求式数据传送的可共享多租户参考数据实用工具和储存库以及运行方法
US20060235714A1 (en) Enabling flexible scalable delivery of on demand datasets
US20060235831A1 (en) Multi-source multi-tenant entitlement enforcing data repository and method of operation
US20060235715A1 (en) Sharable multi-tenant reference data utility and methods of operation of same
US20060247944A1 (en) Enabling value enhancement of reference data by employing scalable cleansing and evolutionarily tracked source data tags
US7574379B2 (en) Method and system of using artifacts to identify elements of a component business model
Murer et al. Managed evolution: a strategy for very large information systems
US20050187866A1 (en) Method and system for executing financial transactions via a communication medium
WO2006076520A2 (en) Sharable multi-tenant reference data utility and repository, including value enhancement and on-demand data delivery and methods of operation
CN109564599A (zh) 用于创建和执行数据驱动法律合同的系统和方法
US20150154696A1 (en) Municipal bond tracking and evaluation system
Sweeney Achieving service-oriented architecture: applying an enterprise architecture approach
CN101299258A (zh) 销售处理支持系统和方法
JP2006500641A (ja) 設定可能なテンプレートを用いて指定された税則を適用することによる税の決定
CN101253531A (zh) 用于执行尽职调查以及法律、金融和其它类型的审计
Pathak Information technology auditing: an evolving agenda
US20130198109A1 (en) Municipal bond tracking and evaluation system
US20040205010A1 (en) Report Generator for Allowing Financial Entity to Monitor Securities Class Action Lawsuits and Potential Monetary Claims Resulting Therefrom
US7844533B2 (en) Report generator apparatus for allowing a financial entity to monitor securities class action lawsuits and potential monetary claims resulting therefrom
US20230274361A1 (en) Distributed ledger technology for asset-backed securities
US8775292B2 (en) Process for creating reports of noteworthy securities class action lawsuits customized to show potential monetary claims resulting from the lawsuits for securities purchased or acquired by one or more financial entities and including loss chart selection
JP4373642B2 (ja) 取引先要項システム、取引先動向表示制御方法及びプログラム
Bonnet et al. Sustainable IT architecture: the progressive way of overhauling information systems with SOA
JP2006155630A (ja) 取引先要項システム
Wan Electronic financial services: technology and management

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20080213