CN102419744B

CN102419744B - 信息的语义分析

Info

Publication number: CN102419744B
Application number: CN201110340480.2A
Authority: CN
Inventors: M·克斯拉维
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-10-20
Filing date: 2011-10-19
Publication date: 2015-07-22
Anticipated expiration: 2031-10-19
Also published as: US9076152B2; US11301523B2; EP2630592A4; US20120101975A1; WO2012054179A3; WO2012054179A2; AU2011318496A1; CN102419744A; US20150286730A1; AU2011318496B2; EP2630592A2; US20150286731A1

Abstract

本文描述了信息的语义分析。基于对保留在数据储存库中的数据集执行的语义分析来推断描述数据集的语义信息。语义分析可包括确定与数据集的字段相关联的格式，以及将字段的值与具有预定语义类型的基准数据集进行比较。基于相应的语义信息来推断数据集之间的关联。这些关联被合并到结合图形用户界面来显示的可视化中。

Description

信息的语义分析

技术领域

本公开涉及分析数据集以推断语义信息并基于其生成可视化。

背景技术

作为关于一些常规系统的背景技术，计算设备在传统上已在设备本地存储了信息以及相关联的应用和数据服务。但是，随着在线和云服务的演进，信息正越来越多地移至网络提供商，该网络提供商代表设备来不执行服务、执行服务的一些或全部。能够存储数T字节数据(且在将来潜在可能的千万亿字节、百万万亿字节数据)的网络存储场的演变创建了在云中模拟本地场景，且使主设备与外部存储分隔开的机会。

然而，没有云服务或网络存储供应商能够作为任何平台上的服务有效地提供信息，使得出版商、开发者以及消费者能以可为跟踪并审计所涉及的所有事务的方式容易地发布、专门研究和消费任何种类的数据。另外，当今，由于相异数目的内容提供商及其通常用于定义数据的专有模式(其中相异的内容提供商无法彼此协调他们针对云的发布动作)，因此存在极少的利用此类相异发布动作的集体能力的机会。实际上，为了消耗吸引发布的听众(诸如订户或开发者)，两个不同的数据集看起来它们似乎具有两个不同形状——即使在存在数据或数据类型的一些或相当重叠的情形中。

更具体而言，当前，由不同的各方上传数据的方式使得不同数据集的类似列(例如，两者都表示城市)——假使甚至没有被命名——将具有不同的名称，这些名称可以是或不是类似的。在任一情形中，人类介入底层数据和验证是用于确定什么样的列应当被相同或类似地命名，或者另外确定数据的类型或列之间可能是什么样的关系的常规方式。除不能缩放之外，这种介入底层数据对于希望保证其数据保持不变的发布者而言可能并非是合意的——对于可能被发布到云的专用数据集的主机而言亦会如此。

当今设备和数据服务的上述缺点仅仅旨在提供对常规系统的一些问题的总览，并且不旨在是穷尽性的。在仔细阅读了以下具体实施方式后，当今领域的其他问题和各非限制性性实施例的对应好处可变得显而易见。

发明内容

此处提供了简化的发明内容以帮助能够对以下更详细的描述和附图中的示例性、非限制性性实施例的各方面有基本或大体的理解。然而，本发明内容并不旨在作为详尽的或穷尽的概观。相反，本发明内容的唯一目的是以简化的形式来提出与一些示例性非限制性性实施例相关的一些概念，作为以下各实施例的更为详细的描述的序言。

可按统一方式将各种数据集存储在较大的储存库中，以提供信息即服务系统。各种数据集可由不同的发布者来各自发布，且因此，这些数据集可包括重叠字段或列。系统可对数据集执行语义分析，以推断数据集的各个字段或列的语义类型或含义。随着发现越来越多的语义，信息即服务系统可按演进方式学习并且自描述存储在数据集中数据。

另外，通过所习得的语义信息，信息即服务系统可经由重叠字段或列来发现数据集之间的关系。例如，信息即服务系统可生成例如数据集之间的联结或链接之类的混搭，其可展示数据集中的数据之间的先前未知的关联。混搭可形成被提供给系统的用户的数据关系的丰富可视化和/或用户界面的基础。

可经由一系列互补和/或补充动作来推断语义信息。动作可经由例如由手输入的人类输入之类的手动手段来验证、覆盖或增强应用于数据集的字段或列的标签。可对照具有已知语义类型的潜在有效名称的列表来检查字段名称。可应用匹配来将语义类型与字段或列进行关联。可将近似匹配呈现给用户以供进行验证。在另一分析中，可标识数据集的字段的格式以促进对语义类型的确定。基于格式或其他参数，可选择一个或多个基准数据集(例如，具有已知语义类型)来检查字段或列的值。

以下更详细地描述其他实施例和各非限制性性示例、场景和实现。

附图说明

各非限制性性实施例参考附图来进一步描述，附图中：

图1是图解用于确定与数据集相关联的语义信息的示例性非限制性实施例的流程图；

图2是图解用于对照具有已知语义类型的潜在标签检查数据集的字段名称的示例性非限制性实施例的流程图；

图3是用于基于从数据集提取的样本信息的格式来选择基准数据集的示例性非限制性实施例的流程图；

图4是图解用于对照基准数据集检查来自数据样本的值的示例性非限制性实施例的流程图；

图5是图解用于对与语义类型相关联的值的集合执行域检查的示例性非限制性实施例的流程图；

图6是图解从信息即服务系统中的所发布的数据集推断语义信息的示例性非限制性动作的框图；

图7是图解用于利用语义信息来将不同的数据集进行关联的示例性非限制性实施例的流程图；

图8是图解生成信息即服务系统中所提供的数据集之间的关系信息的示例性非限制性动作的框图；

图9是图解用于可视化信息即服务系统的数据集之间的关系的示例性非限制性动作的框图；

图10是图解结合信息即服务系统的实施例生成数据集关系和混搭的可视化的示例性非限制性动作的框图；

图11是结合信息即服务系统的实施例的数据集之间的关系的可视化的示例性非限制性例示；

图12是图解用于从任何平台提供的作为服务的信息的非限制性基础结构的示例性序列的流程图；

图13是图解用于从任何平台提供的作为服务的信息的示例性非限制性基础结构的框图；

图14是图解用于从任何平台提供的作为服务的信息的基础结构的实现具体细节的示例性非限制性集合的框图；

图15例示来自用于从任何平台提供的作为服务的信息的示例性基础结构的示例性数据消费；

图16是表示其中可实现此处所描述的各实施例的示例性、非限制性性联网环境的框图；以及

图17是表示其中可实现此处所描述的各实施例的一个或多个方面的示例性、非限制性性计算系统或操作环境的框图。

具体实施方式

概览

如背景技术中所讨论的，提供不同的数据集的不同的内容提供商通常就其数据集中所表示的信息或数据类型的可能的重叠不进行协调，因为他们通常不知晓彼此的数据集，或者没有如此进行的任何特定动机。当前，在其中存储实体的保证中的一个被依附来访问发布者所要求的限制的信息即服务系统(在此也称为从任何平台提供的作为服务的信息)中，除了通过数据集的特定内容的内部知识之外，不存在用于了解或可视化开发或消费侧上的不同数据集之间的唯一性关系的方式。另外，在信息即服务系统中，在发布之后，由存储实体提供的另一保证对底层数据集没有干扰，因此所发布的数据保持未被改变。在此类情形中，在没有开发定制应用程序的情况下，唯一性关系(若已知)当前不能被利用。

例如，内容提供商A可发布包括关于纬度、经度、以及对应的犯罪率的列的表，例如，列名为lat(纬度)、long(经度)、和cri_rate(犯罪_率)。内容提供商B可发布城市的电影院信息，且x和y坐标对应于纬度和经度——除了城市的列可替代地被称为“名称”，例如列名为_theatre(_电影院)、_Name(_名称)、_x和_y。因此，消费侧上的任何常规装置不知晓的是，通过联结两个集合，可实际上确定城市中具有最低犯罪率的电影院，因为不同列的语义含义仍是难懂的。此外，存储侧上的常规装置同样不知晓的是，可在人类不进行手动检查和分析的情况下联结两个集合。

因而，期望确定_x和_y为纬度和经度，_Name意味着城市名称，而_theatre指的是电影院名称。即，期望捕获关于列的语义信息，其中语义信息传达指示列中所包含的数据的语义含义的至少语义类型。通过使用语义信息，可系统地推导出关系信息，其使得能联结两个数据集合以容易地获得关于电影院附近的犯罪率的有用数据——在没有语义信息的情况下不能被辨别的信息。如先前所提及的，此工作在常规上是通过手来进行的。然而，在数据集包括许多条目、列或行(例如，数千、数百万、数十亿等)的情形中，手动加标签变成繁重且耗时的任务。另外，加错标签的几率也随着数据大小的增长而增加。

因此，在各个非限制性实施例中，可对储存库(诸如但不限于信息即服务系统)中所保留的数据集合执行语义分析。通过语义分析，可作出关于数据的推论，以用语义信息来扩充数据集，从而不仅通过提供原来被认为表示不同的数据/类型的列之间的映射来提高联结(例如混搭)的可能性，还改进数据和/或数据内的字段的描述。在这点上，根据各个实施例，数据集的储存库(例如，信息即服务系统)可系统地理解数据的类型，以及数据之间的连接，以增大底层数据的值，以及发现先前未知的关联。

在一个实施例中，本文中描述了一种方法，该方法包括：从存储在数据储存库中的数据集提取数据子集；标识与数据子集相对应的格式；基于格式选择至少一个基准数据集，其中该至少一个基准数据集与已知语义类型相关联；将数据子集的值与至少一个基准数据集进行比较；以及基于比较结果来推断数据集的语义信息，其中该语义信息至少指定数据集中的数据的语义类型。在一示例中，该方法还可包括向用户提供语义信息以供进行确认。在更多示例中，提取数据子集可包括提取整个数据集，随机选择数据集的值，或者从以下各项中的至少一个处提取预定数量的值：数据集的开头、数据集的末尾、或数据集的中间。

在另一示例中，方法可包括对照一个或多个域规则验证数据子集的值，其中一个或多个域规则对应于数据集中的数据的语义类型，以及向用户呈现无效值，其中无效值包括一个或多个域规则不允许的值。在进一步示例中，方法可包括从数据集提取字段名称，以及将字段名称与潜在有效标签集合作比较。作为对该示例的补充，方法可包括标识字段名称何时匹配于潜在有效标签集合中的标签，当匹配时标识与标签相关联的类型，以及按照数据集的语义类型将数据集与类型进行关联。

在进一步示例中，该方法还可包括：对照多个预配置模式评估数据子集的值的结构；标识值的结构何时匹配预配置模式，选择至少一个基准数据集其中与至少一个基准数据集相关联的已知语义类型对应于预配置模式，并且当匹配预配置模式的结构的数目超过预定阈值时，采纳已知语义类型作为数据集的数据的语义类型。

根据附加示例，比较数据子集的值可包括从值中选择一值，就该值查询至少一个基准数据集，并且当返回就该值的查询的结果时对有效命中进行计数。在另一示例中，方法可包括：标识第二数据集，该数据集包括与该数据集的语义类型相对应的至少一个字段；以及生成将数据集与第二数据集相关联的关系信息，其中该关系信息指定数据集与第二数据集之间的关联。另外，该方法还可包括：获得关系信息，该关系信息将数据储存库中的多个数据集进行关联；显示关系信息的可视化作为图形用户界面的一部分，经由图形用户界面接收输入；以及基于输入更新关系信息。

在另一实施例中，如本文所描述的，语义分析系统包括：语义分析组件，其被配置成推断与由信息即服务系统所存储的数据集的数据有关的语义信息。语义分析组件包括格式检查组件，其被配置成标识从数据集提取的样本数据的格式，以及基于该格式选择一个或多个基准数据集；以及值检查组件，其被配置成对照一个或多个基准数据集检查样本数据的值，以标识样本数据的语义类型。另外，语义分析组件基于所标识的语义类型推断语义信息。

在一示例中，系统还包括域检查组件，其被配置成确定样本数据的值是否满足域规则集。域规则集确立特定数据类型的有效数据值。在进一步示例中，该系统包括：链接组件，其被配置成基于相应的语义信息将由信息即服务系统存储的多个不同数据集进行关联；以及可视化组件，其被配置成生成由信息即服务系统存储的数据集之间的关联的可视化。可视化包括图显示，其中节点表示相应的数据集，而边表示数据集之间的关联。

在附加实施例中，本文描述了一种计算机可读存储介质，其包括计算机执行指令，该指令在被执行时导致计算设备执行以下操作：从存储在数据储存库中的数据集提取数据子集；标识与数据子集相对应的格式；基于格式选择至少一个基准数据集，其中该至少一个基准数据集与已知语义类型相关联；将数据子集的值与至少一个基准数据集进行比较；以及基于比较结果来推断数据集的语义信息，其中该语义信息至少指定数据集中的数据的语义类型。

下面提供这些和其他各示例性、非限制性性实施例和场景的进一步细节。

结合作为服务的信息确定和可视化数据集语义

如所提及的，在信息即服务的上下文中，存在对在无需智能的情况下可从数据集确定什么机器的限制。例如，这样的机器可确定数据集的第一列包括字符串，第二列包括数字，而一对其他列包括混合数据类型，例如，数字和字符串。另外，虽然人类开始针对大量数据分类数据，但是此类常规人类分类无法良好地缩放，且如果发布者重新发布具有不同语义的数据，则人类表征可能已过时。另外，人类会将数据集错误地表征为数据可看起来与特定域相关，但是人类可能缺乏足够的域知识来验证数据集。

因此，在各个实施例中，可对统一储存库中的数据集应用各种机制，以系统地生成表征数据集中所包括的数据的信息类型和/或含义的语义信息。语义信息可被用来验证、替代和补充人类表征。一种机制涉及基于数据集的数据或列名称、或其他列名称中的线索来推断数据类型或列名称。例如，可对照潜在有效标签集合来检查列或字段名称。当列名称匹配潜在有效标签集合中的有效标签时，可推断语义信息(例如，语义类型)。然而，当字段名称拼写错误时或者当字段内的数据无效(例如，落在与所匹配的有效标签相关联的域之外)时，仅有此机制会导致错误或不准确。

为了解决列名称未匹配的数据和/或为了验证所匹配的标签的准确度，可对列中的数据执行附加处理。例如，可提取列中的数据样本，以通过与已知数据模式集合的模式匹配来评估数据的格式。在非限制性示例中，具有形式xxx-xxx-xxxx或((xxx)xxx-xxxx)的数据——其中x表示任意数字——可被识别为电话号码。在一些情形中，格式检查可能不提供明确的结果。例如，城市名称的列可被模式匹配为字符串，但是可能难以获得进一步的细节，因为城市名称不具有公共或固有格式化约束。然而，在此类情形中，格式检查可通过排除不遵循所评估的格式的可能的语义类型来促进进一步的语义分析和/或语义类型的标识。例如，当格式被评估为字符串时，电话号码、纬度、经度、日期、年龄、以及其他数字类型可被排除为可能的语义类型。可向用户呈现可能的语义类型的列表，该列表提供字符串数据，诸如但不限于城市名称、国家名称、区域名称、企业名称等。另外，根据另一实施例，可能的语义类型的列表可被用来选择具有已知语义类型的数据集，该数据集将被用作用于值检验的基准数据集。

在值检验中，可对照与候选语义类型相关联的基准数据集来匹配数据集的列中的数据样本。可查询基准数据集以确定样本的值是否被包含在其中。可确立一个或多个阈值，以促进在明确匹配之间进行区分，例如，数据集的列包括候选语义类型的数据、明确失配、以及模糊结构。例如，100％验证——例如样本中的每个值在基准数据集中——可被分类为明确匹配。在另一示例中，模糊结果可被转发给用户，以供进行验证、校正、或覆盖。

在另一实施例中，与统一储存库中的数据集的列相关联的语义信息促进数据集之间的联结点的即时发现，这可被利用来生成感兴趣的数据集混搭。在示例中，可沿着重叠的城市字段将包括犯罪统计数据(可包括城市犯罪率)的第一数据集与包括城市房地产信息的第二数据集进行联结。由于如以上所描述地生成数据集的更多字段的语义信息，系统可连续地理解数据集之间的新的关联可被推导出以增加底层数据的值。

另外，关联以及混搭数据自身可被可视化，并结合用户界面来显示。例如，具有表示储存库中的数据集的节点的图形显示可被呈现给用户。当用户选择节点(例如，数据集)时，可在所选节点与其他节点(例如，数据集)之间绘制链接，其中可推导出关联。在另一示例中，用户可选择数据集之间的链接以获得混搭的可视化，例如，所生成的数据集作为两个不同的数据集的联结而生成。

图1是图解用于确定与数据集相关联的语义信息的示例性非限制性实施例的流程图。在特定非限制性示例中，数据集可被包括在由信息即服务系统管理和展示的数据储存库中。然而，应当理解，私有数据集可利用本文中所描述的实施例来以具有减少的人类输入的自动方式生成语义信息和/或感兴趣的混搭。

在100，可将数据集中的字段或列的一个或多个字段名称(例如，列名称)与潜在有效标签列表作比较。潜在有效标签包括字段名称、列名称、数据标记、标签等，其具有已知的语义含义或类型。可基于与列表中的有效标签的匹配来推断数据集中的一个或多个字段或列的语义信息。然而，可执行进一步处理以细化或验证从字段名称检查生成的语义信息。例如，在110，标识数据集的一个或多个字段的格式。作为示例，电话号码是典型数字数据，其可被相对地标识为诸如区域码括号、破折号等等(不管是变体如何)。因此，可从针对电话号码、社会保险号、日历日期、时间戳等的格式检验来推断语义信息。在其他情形中，虽然格式检验可能不能明确地标识数据集中的数据的含义或类型，但是其可通过排除与所标识的格式相关联的数据类型来减少潜在候选的数目。例如，格式检验可缩减由值检验测试的潜在候选语义类型的数目。

在120，对照至少一个基准数据集检验数据集的一个或多个字段的实际值。基准数据集包括已知语义信息，例如，数据具有已知语义类型或含义，其可被查询以确定一个或多个字段的值是否对应于已知语义类型。在130，确定与数据集的一个或多个字段相关联的语义类型。可基于字段名称检验、格式评估、和/或值检验来确定语义类型。另外，可将语义类型报告给用户以供确认，或者作为数据集的可视化的一部分。

应当理解，以上所描述的过程可按自动化方式来进行而无需用户介入。然而，在另一实施例中，可在过程中的各个步骤处提示用户确认所确定的语义信息(或迄今所确定的部分语义信息)、请求进一步处理、解决不一致的格式或值、覆盖过程、或更改所猜测的语义信息。例如，在一个示例中，可提示用户在字段名称检验期间验证密切匹配，例如，字段名称为“_fname”且有效标签列表包括“_name”或“name”。在另一示例中，可提示用户接受或校正在至少一个基准数据集中未找到的值。例如，值是由于数据集中的印刷错误而未被找到，这可由用户来识别。因此，用户输入可被用来补充和/或验证推论。

图2是图解用于对照具有已知语义类型的潜在标签检查数据集的字段名称的示例性非限制性实施例的流程图。在200，接收到来自信息储存库(例如，信息即服务系统)的数据集。在210，提取数据集的一个或多个字段名称。在220，在所提取的字段名称与潜在有效标签集合之间执行例如字符串比较之类的比较。潜在有效标签集合包括数据字段的可能的标记或名称，其中标签的语义含义或数据字段的语义类型是已知的。可用在先前对于不同数据的语义分析期间碰到的字段名称、公共用于数据集的字段名称、用户提供的标签等来填充潜在有效标签集合。在240，可作出是否存在一个或多个字段名称与列表中的有效标签之间的匹配的确定。如果不存在匹配，则语义分析可继续利用不同的机制，或者可提示用户来介入。如果存在匹配，则在240，标识与所匹配的有效标签相关联的语义类型，并将其标记为与一个或多个字段名称相关联的一个或多个字段的可能的语义类型。

图3是用于基于从数据集提取的样本信息的格式来选择基准数据集的示例性非限制性实施例的流程图。在300，从数据集中提取对应于该数据集的一个或多个字段(例如，列)的数据样本。可随机提取数据样本，或者可提取数据集的前N个条目或行、最后N个条目、或中间N个条目，其中N为大于或等于1的整数。在另一实施例中，数据样本可包括整个数据集。在310，评估数据样本的格式。在一示例中，可对照模式来匹配数据样本的每个值，以确定数据类型，例如字符串、数字、混合类型等，和/或可能的语义类型，例如，电话号码、日期、合适的名词等。例如，可将值确定为遵循诸如、MM-DD-YYYY等之类的至少一种格式的混合类型。因此，可确定数据样本包括日期。在另一示例中，可标识：值包括以大写字母为开始的字符串，即，合适的名词。

在320，可基于所评估的格式来选择至少一个基准数据集。在一些情形中，可从所评估的格式推断准确的语义类型。例如，可从所评估的格式直接推断与截然不同的格式相关联的语义类型(例如，日期、时间、电话号码等)，并且可避免附加验证(例如，值检验)。然而，应当理解，甚至具有能被容易识别的格式的数据可与各种语义类型相关联。例如，社会保险号、雇员标识号、雇主标识号等可在数据集中展现类似的表示。然而，由于此类不同数据具有不同的含义和上下文，因此进行进一步细化或验证。由此，可选择包括雇主标识号、雇员标识号等等的基准数据集。

在另一方面，诸如字符串之类的其他格式可缩减可能语义类型池，但是不提供明确的解。因此，可选择与经缩减的可能语义类型池相对应的一组基准数据集。例如，如果所评估的格式指示数据集包括合适的名词，则可选择合适的名词的集合，例如，城市名称、国家名称、名字、姓、企业名称等。

图4是图解用于对照基准数据集检查来自数据样本的值的示例性非限制性实施例的流程图。如上所讨论的，作为格式检验的结果，可选择基准数据集，或者作为交互式语义分析过程的部分，可由用户选择基准数据集。在400，从数据集中提取对应于该数据集的一个或多个字段(例如，列)的数据样本。可随机提取数据的样本，或者可提取数据集的前N个条目或行、最后N个条目、或中间N个条目，其中N为大于或等于1的整数。在另一实施例中，数据的样本可包括数据集的全部。在410，选择来自数据样本的值。在420，可查询基准数据集以探知所选值是否被包括。在430，检查是否返回查询结果。若为是，则在440，递增有效命中计数。若为否，或者在440进行递增之后，在450，作出样本中是否还剩余值的确定。若为是，则在410选择另一值，并可重复步骤420-450。

在460，可从有效命中计数标识验证水平，例如，作为命中相对于样本大小的百分比。另外，可基于验证水平推断例如样本的语义类型之类的语义信息。在一实施例中，当验证水平达到或超过阈值时，可采用基准数据集的语义类型来作为从其提取样本的数据集的语义类型。在特定的非限制性示例中，阈值可以是100％，以使得仅在所有值被验证之时才采用语义类型。在另一示例中，当验证水平低于50％，则可将数据集自动分类为与基准数据集的语义类型无关。在又一示例中，当验证水平在50％与100％之间时，可提示用户确认假设的数据集的语义类型。然而，还应理解，可针对任何验证水平或者并非100％的任何验证水平来探寻此类用户输入。例如，数据集可能的确包含城市名称，但是由于基准数据集的限制，具有低验证水平，即，基准数据集不包含样本中的城市名称。用户可覆盖并确立城市名称作为数据集的语义类型。进一步地，系统可用所习知的新的城市名称来补充基准数据集。这样，系统可继续学习并扩充其基准知识，以在将来提供越来越好的推论。

图5图解了用于对与语义类型相关联的值的集合执行域检查的示例性非限制性实施例的流程图。在500，接收值集合，例如，数据集样本或整个数据集，以及从值集合推断的候选语义类型。在510，对照与候选语义类型相对应的域规则来验证值集合。例如，考虑地球纬度的语义类型。有效纬度的范围可以是从+90°或90°N(例如，北极)到-90°或90°S(例如，南极)，其中0°对应于赤道。值137超出有效范围，并被标记为无效。在520，将无效值呈现给用户以便进行校正、接受、覆盖、不予考虑等等。

图6是图解从信息即服务系统中的所发布的数据集推断语义信息的示例性非限制性动作的框图。如图6中所示的，信息服务610(例如，信息即服务系统或从任何平台提供的作为服务的信息)可包括数据集612、数据集614和数据集616。在一实施例中，发布者(例如，内容提供商)可将数据集发布到信息服务610，本质上，关于形式没有限制。由此，会从所发布的数据集错失例如数据的含义和类型之类的语义信息。在这点上，图6示出了语义分析组件620，该语义分析组件获取信息服务610中的至少一个数据集的样本数据615，以基于其来推断语义信息625。虽然图6描绘了从数据集612提取样本数据615，但是应理解，出于解释的目的，此类描绘仅仅是例示性和示例性的，且语义分析组件620可从数据集614和/或数据集616提取样本数据615。

在一实施例中，语义分析组件620可包括配置成实现各种推断机制的各个组件。例如，语义分析组件620可包括字段名称检查组件622，该字段名称检查组件被配置成实现样本数据615中的字段名称与具有已知语义信息的标签集合之间的比较。进一步地，语义分析组件620可包括格式检查组件624，该格式检查组件624被配置成标识和评估与样本数据615相关联的格式。在一个实施例中，格式可促进对值检查组件616所采用的基准数据集的选择，该值检查组件626被配置成对照与已知语义类型相对应的一个或多个基准数据集来验证样本数据615中的值。在进一步实施例中，语义分析组件620可包括域检查组件628，该域检查组件被配置成验证样本数据615中的值遵循与特定域类型相关联的域规则。

根据其中各个数据集中的信息混搭可基于语义信息来系统地生成的进一步实施例，图7是图解用于利用语义信息来将不同数据集进行关联的示例性非限制性实施例的流程图。在700，推断第一数据集的至少一个字段的语义类型。例如，可在第一数据集上采用以上所描述的机制以确定至少一个字段的语义类型。在710，标识第二数据集的至少一个字段，其中该至少一个字段与相同的语义类型相关联。例如，第一数据集可包括城市名称字段，并且第二数据集的字段可被标识为也包括城市名称。在720，可生成第一与第二数据集之间围绕语义类型的关系信息，例如联结。关系信息可被用来将不同数据集进行关联。另外，关系信息可被用来查询不同数据集，以从多个数据集获得混合数据。

图8是图解生成信息即服务系统中所提供的数据集之间的关系信息的示例性非限制性动作的框图。如图8中所示的，信息服务810(例如，信息即服务系统或从任何平台提供的作为服务的信息)可包括数据集812、数据集814和数据集816。在非限制性且示例性的示例中，语义分析组件820可从一个或多个数据集提取样本数据815，诸如数据集812和数据集816。语义分析组件820被配置成从提取自数据集812和数据集816的样本数据815推断语义信息825。语义信息825可指定数据集812和数据集816中的一个或多个字段的语义类型或语义含义。

在一实施例中，链接组件830被配置成基于语义信息825标识不同数据集中具有相同的语义类型的字段。例如，如由语义信息825所指示的，数据集812和数据集816可各自包括字段州名称。链接组件830被配置成生成关系信息835，该关系信息按相应字段州名称将数据集812与数据集816进行关联。

根据其中可显示数据集之间的关系的可视化的实施例中，图9是图解用于可视化信息即服务系统的数据集之间的关系的示例性非限制性实施例的流程图。在900，获得将多个数据集进行关联的关系信息，例如，混搭。关系信息可指定多个数据集中可联结这多个数据集的字段。在910，可基于关系信息生成可视化。在非限制性实施例中，可视化是具有表示数据集的节点以及表示数据集之间所标识的链接(例如，关联或关系)的边的图。在920，可将可视化显示为用户界面的部分。在930，经由用户界面接收输入。输入可与对由可视化传达的关系信息的批准和不批准有关。在940，基于接收到的输入来更新关系信息。

图10是图解结合信息即服务系统的实施例生成数据集关系和混搭(mash-up)的可视化的示例性非限制性动作的框图。如图10中所示的，语义分析组件1020可从包括数据集1012、数据集1014和数据集1016的信息服务1010提取样本数据1015。语义分析组件1020产生语义信息1025，该语义信息1025可被链接组件1030用来推断关系信息1035。在一实施例中，可将关系信息1035提供给配置成生成可视化1045的可视化组件1040。在进一步的实施例中，可视化组件1040可基于关系信息1035查询信息服务1010，以获取表示多个数据集的关联的联结数据1050。在一方面，联结数据1050可被分开显示，或者结合用户界面中的可视化1045来显示。

图11是结合信息即服务系统的实施例的数据集之间的关系的可视化的示例性非限制性例示。可视化可被结合到接受用户输入的用户界面。在第一非限制性示例中，用户可选择可视化中的数据集以生成第一屏幕1100。如第一屏幕110中所示的，多个数据集被描绘为节点。用户可选择信用风险节点(数据集)来生成可用混搭的可视化。如图11中所示的，信用风险数据集与消费者债务数据集和证券报价数据相关联。在第一非限制性示例中，用户可选择房地产数据集以生成第二屏幕1102。如第二屏幕1102中所见的，房地产数据集与失业数据数据集、新闻数据集、以及另一数据集相关联。在另一实施例中，用户可选择链接1104以取消或删除关联。

结合作为服务的信息来构建语义和访问API

以下描述包含用于结合作为服务的信息来构建语义信息的替换性非限制性实施例。如所提及的，在信息即服务的上下文中，存在可在数据集中表示的有限数目个事物(例如，电话号码、城市代码、地址、城市、州、邮政编码等)，其可或者从列的名称推断或者通过对数据本身(例如，前1000个事物)进行加权匹配算法来推断。对于重要数据，虽然人类开始针对大量数据分类数据，但是此类常规人类分类无法良好地缩放，且如果发布者重新发布具有不同语义的数据，则人类表征可能已过时。

因此，在各个实施例中，分析从对数据集进行查询得到的随机样本，以确定是否可推断数据的类型。例如，内容提供商例如根据专有模式来提供一组拙劣描述的数据。基于或响应于关于数据接收到的数据请求，可从数据集提取样本集合，以应用一组算法来推断数据的语义含义，例如基于数据中的线索或列名称、或其他列名称推断数据类型或列名称。由于发布者通常不希望发布的他或她的数据被更改，因此可由系统维护一组经扩充的语义(例如，映射)来描述由系统作出的推论，例如，对于较早的示例，_x＝纬度。在这点上，结果，下一开发者被给予更多地关于查询此数据集的信息，在此情形中，可就具有经度列的其他数据集执行更多联结、过滤等，并且另外，先前包括“_x(...)”作为句法的部分的访问API目身可被更新为“latitude(...)(经度(...))”，从而使得访问API随时间成为自描述的，以进一步帮助开发者。在一个示例中，经由URL实现查询API(例如，OData)，关于其的信息可在以下找到。

在一个实施例中，基于数据的已知分布(诸如给定人口的年龄跨度)的加权算法可被用来确定给定数据集或列名称表示什么的概率，例如，确定浮点数字集合表示年龄。

由此，在没有使得比现状更难以发布数据的情况下，可通过间接方式(例如，对语义映射的维护)来对内容提供商实施诸如电话号码和地址之类的某些惯例。这样，内容提供商被鼓励来发布，但是消费者仍从数据上的一致性的意义上获益。例如，电话号码是数字数据，其可被相对容易地标识为诸如区域码括号、破折号等等(尽管存在变体)。通过基于推论的语义映射对此表征进行标准化使得除了随时间采纳访问API变得越来越自描述(例如，将列“PN”重新命名为“电话号码”或其他更描述性的)之外，开发者和订户对此数据的消费更容易。

另外，发布者也可选择参与。虽然在上传时间发布者不需要参与，但是系统可作出推论，并要求发布者验证推论，以使得可从开始展示映射信息和描述性访问API。例如，当系统推断发布者正上传工资信息时，系统可询问发布者那是正被表示的净工资还是薪资总额。

经扩充的语义使得先前无关的两个较小的表能被联结、合并、过滤等，其中推断他们包含类似的表、列、数据类型等，而不管最初不同的语义。

可使用各种算法来推断关于语义的信息，例如，可使用加权匹配技术，对查询结果的子集的手动审阅，对查询结果的子集的社区审阅(例如，类似Wikipedia批准)，对数据质量分数的指派，与数据分开地运送列的数据。如所提及的，除了推断数据表示什么之外，数据也可被“清除”。例如，可按许多不同的格式来表示时间，并且可知晓，给定列表示时间；然而，结合跨数据集操作将此类不同的格式转换成世界时间格式具有益处。如所讨论的，电话号码和地址是可跨不同的表示格式被标准化的信息的另一示例。

而且，可从实际结果集中取出随机样本的子集来作出此类推断，并且因此，系统可随时间而改进，因为作出了附加查询且样本人群变得更多和更多样。列的名称可以是决定性或者也可以是信息性的，例如，如果列被命名为citcode(城市代码)，则系统本质上知晓正表示了什么。可分级地应用以上技术中的任一个或多个来推断此类附加语义信息。在这点上，能够通过访问API调用的机制来达成此类语义更新——而非通过如发布者数据库问题所发布的整体那样检查数据集来纯粹地处理问题——在API调用开始反映所习知的信息时，在API调用的句法本身内实现动态更新以及随时间变得更准确的描述性的系统。

如所讨论的，可结合来自任何平台的作为服务的信息经由开放数据协议来通过URL上传数据。基于消费者正请求什么，可通过检查命名数据的方式并基于返回的实际数据集来执行对数据的推断。结果，在下次有更好的名称的情况下，API(由URL表示)被自动更新，以使得下次假定为http://dallas/.../_a(SEA)的查询的语义可在下次被更好的理解为http://dallas/.../City(Seattle)。换言之，保持在事实上通过URL请求和处理的数据上构建逻辑语义不仅确定列之间的映射，还改进URL的语义或更一般地访问API。

用于信息即服务的补充上下文

以下描述包含关于潜在非限制性基础结构、体系结构和/或相关联服务的补充上下文，以进一步帮助理解以上实施例中的一个或多个。在此章节中描述的任何附加特征中的任一个或多个可被纳入到以上针对来自任何平台的作为服务的信息就更新数据集语义和相对应的访问API描述的实施例中的任一个或多个中。虽然实施例或特征的此列组合是可能的，但是为了避免质疑，在本公开中所阐述的实施例不应当被理解为对本文中所描述的任何其他实施例进行限制。

作为一些附加背景，现今，虽然可通过诸如因特网之类的网络获得信息，但是现今的供应倾向于在访问和框架上的专有，并由此在第三方提供商参与方面进行限制。例如，目前，没有足够的企业模型来供商业内容提供商以不放弃此类商业内容的至少一些值的方式来发布其数据，并且由此在历史上，有价值的内容的所有者倾向于通过有限的专有手段来展示其内容。或者，在其中此类内容的存储由安全云存储提供商提供的情形中，当消费者必需在数千个表中进行跋涉来潜在地找到感兴趣的项目时，单独存储中存在很少的价值。另外，设置在云存储提供商尝试从各个提供商收集数据的情形中，最好此类提供商可包括适度、较小或不完全的数据目录。

大部分此区域中潜在增长的受阻是处理和IP(例如，版权)上的不信任的结果。简言之，大人物不信任具有王冠宝石(crown jewels)的云供应商，因为单次损害会使数据的价值消亡。另外，此类云供应商至今相对于出于其信息需要希望从这样的数据中提取值的信息工作者处于弱势，并且另外，由于这样的系统的专有特性，开发者迄今具有的扩展用于开发信息能力的工具的能力有限。

因此，以上针对一个或多个实施例描述的，提供了用于信息即服务的基础结构，其容纳所有个体类：发布者、开发者、信息工作者、和消费者。基础结构实现信息发现，例如，用于发现、获取、和消费结构化和团块数据集以加强任何平台上的任何应用和任何形状因子(例如，任何屏幕大小)的能力。该基础结构还实现经纪业务，例如，伙伴驱动的生态系统和全球到达(global reach)，用以向开发者和信息工作者递送数据和功能。基础结构还允许分析学和报告，例如，单个点击分析，以用公共数据来增大私有数据。在这点上，由于基础结构的各种实现的开放特性，任何应用开发者可开发移动、云、和/或桌面应用，以促进数据的发布、处理、查询和/或检索。

为了编写应用程序，人们可注册帐户信息(例如，用Live ID登录)并被提供藉由其来经由结构化和实时web服务的访问帐户密钥，该结构化和实时web服务是针对本文中关于一个或多个实施例描述的信息即服务的基础结构启用的。在一个方面，开发者可在编码开始之前视觉地利用API。例如，服务资源管理器模块或模块组可被开发者用来视觉地构建代表性状态传输(REST)API查询，并根据各种包来预览内容，这些包诸如但不限于可扩展标记语言(XML)、ATOM、RAW(用于团块和实时内容)、或者按表视图(例如，用于结构化数据)。例如，开发者仅仅提供他或她的帐户密钥，并选择来预览内容。

因此，开发者可在任何平台上构建移动、桌面或服务应用程序。虽然结果REST查询可被拷贝到新的开发者应用程序，信息即服务的基础结构还实现这样的能力：该能力是用于消耗自动生成的C#代理类以排除任何创建本地对象模型或者生成和理解XML或web服务代码的细节的需要。在这点上，在另一非限制性的有益方面，开发者可下载代理类，并将它们包括在开发者的应用程序中以通过少至几行代码来消耗服务数据。

在这点上，信息即服务的基础结构的各个实施例允许开发者和信息工作者即时地、周期性地、或在由应用程序开发者所指定的其他时间函数上寻找、获取、和消耗其应用程序和分析情景中的数据。如所提及的，开发者获得帐户密钥，该帐户密钥随后伴随web服务调用网络服务，从而使得如本文中关于一个或多个实施例所描述的信息即服务能够进行内容请求以及订阅感兴趣的内容。

因而，在一个方面，由本文中关于一个或多个实施例所描述的信息即服务的基础结构所提供的帐户密钥是开发者的私有密钥。此密钥使得能够对结合开发者的应用程序来使用的内容进行记账和报告。由此，此私有开发者密钥应当不打算被进行共享，并且应当采取确保密钥安全的预防措施，其中开发在移动或桌面解决方案上运行的本地应用程序并计划结合密钥作为部署的部分。例如，密码存储可被用来确保密钥未被破解。

除了被用于跟踪消耗内容的应用程序的帐户密钥之外，唯一性用户ID是全局唯一性标识符(GUID)，其表示开发者的个体用户。此字段允许对内容进行记账，其是按程序以每个用户为基础进行收费的。例如，如果开发者开发移动应用程序，且个体用户使用该应用程序，开发者在每次代表个体用户作出请求时应当返回相同的GUID。然而，如果开发者开发web门户，并代表各个用户发出web服务请求，则由开发者向访问门户的每个唯一性用户来指派新的GUID。例如，每个注册用户可被指派GUID或者每个IP地址/端口组合指派唯一性用户ID GUID等。

虽然可在任何平台上构建REST API来从如对本文中的一个或多个实施例描述的信息即服务的基础结构消费内容，在一个实施例中，可通过C#为服务动态生成代理类。达成此目的是下载目标模型、将他们添加到当前开发者项目、以及更新帐户和唯一性用户值的问题。

如果开发者想要手动发出请求，以下提供了一示例，但是对于任何服务，可使用预览功能，或者也可调用从服务资源管理器创建的URL。以下例示了对样本数据集的示例性非限制性REST请求。注意：一些或全部调用会是安全套接字层(SSL)安全的。

https://api.sqlazureservices.com/UnService.svc/UNESCO(120)

在请求的头部中放置了$accountKey和$uniqueUserId元素，例如，其看起来如下：

$accountKey＝{developer account key(开发者帐户密钥)}$uniqueUserID＝{a GUID representing the user(表示用户的GUID)}

$accountKey中的值表示开发者的帐户密钥——在帐户标签中找到，而$uniqueUserID中的值表示访问服务的用户的GUID。

本文中描述的REST API提供了用于从所描述的信息即服务的基础结构访问和消耗内容的示例性非限制性协议。可以理解，可采用其他协议，诸如用于web服务访问的简单对象访问协议(SOAP)，或用于内部部署访问和分析的表格数据流(TDS)。

以上示例认证办法是非限制性性的，因为其他认证办法也是可能的，并且由此本文中描述的各个实施例可实现任何替换性认证办法。例如，基本授权(RFC 1945)，其中帐户密钥作为口令，或者使用基于令牌的办法的接入控制服务器(ACS)，或者也可使用其他基于令牌的办法。

因此，如对本文中的一个或多个实施例描述的信息即服务的基础结构是新的服务或框架，其允许开发者和信息工作者简单地发现、购买、和管理任何平台中的优质(premium)数据订阅。基础结构是信息市场，其将来自领先商业数据提供商和权威公共数据源以及非权威发布者的数据、图像、实时web服务一起带入单个或多个位置，这些位置是在公共供应和记账框架下统一的。另外，开发者和信息工作者可基本上通过任何平台、应用和业务工作流来消费此优质内容。

用于使用本文中关于一个或多个实施例描述的信息即服务的基础结构的一些示例性非限制性的情景包括：(a)找到对于消费者和商业场景的下一代“杀手应用”的优质内容，(b)发现并许可有价值数据，以改进现有应用程序或报告；(c)以创新方式将不同数据集集合在一起，以获得对企业性能和过程的新了解，例如，聚集算法；(d)针对团块、结构化或实时web服务，即时并可视地探索跨所有内容提供商的API；以及(e)消耗现有应用程序和数据库系统(诸如现有文字处理、电子表格、数据库查询系统等)内的第三方数据，以进行丰富的报告和分析。

对于开发者而言，益处包括：(a)试用订阅允许在无需对数据使用税付费的情况下调查内容并开发应用程序；(b)简单的交易和订阅模型允许对数百万美元的数据集进行“现用现付”访问；(c)基于跨数据集的API的一致的REST促进任何平台上的开发；(d)视觉地构建和探索API，预览结果；以及(e)自动C#代理类提供即时对象模型并排除编写冗长XML和web服务代码的需要。

对于信息工作者而言，益处包括：(a)与PowerPivot整合，以便容易地与现有电子表格软件中的数据一起工作，该现有电子表格软件包括但不限于Excel；(b)用于获得内容的简单、可预测的许可模型；以及用于从SQL服务器、SQL Azure数据库、以及其他预先存在的资产消费数据的能力。

对于内容伙伴而言，益处包括：(a)容易的发布和板上加工，而不用管团块数据、结构化数据、或动态web服务；(b)开发者经由Visual Studio和.NET或其他运行时系统开发来对所选平台进行加工以使得开发变得容易；(c)将开发者内容展示给全局开发者和信息工作者社区；(d)预先存在的内容消耗和应用程序内的内容发现和整合；以及(e)可缩放云计算平台代表所有方处理存储、递送、记账和报告。

在本文中关于一个或多个实施例描述的信息即服务的基础结构的非限制性实现中，丰富的web服务的一些特征包括：(a)确保用于消费整体内容目录上的服务的基于REST的模型安全；(b)构建到API中以简化访问的动态分页；(c)标准ATOM 1.0订阅源可用于大多数服务；以及(d)跨所有服务上的一致的记账、供应和试用报告。

在本文中关于一个或多个实施例描述的信息即服务的基础结构的非限制性实现中，服务资源管理器的一些特征包括：(a)C#代理类，其被生成来简化开发；(b)对表格形式的数据的预览并且作为诸如ATOM 1.0订阅源(若支持)之类的订阅源；(c)对服务的调用，用以理解经编译的服务调用返回的结果；(d)对文档以及每个参数的样本值的发现；以及(e)对服务调用的视觉构建的URL的即时拷贝到剪贴板以使开发变得容易。

在本文中关于一个或多个实施例描述的信息即服务的基础结构的非限制性实现中，市场整合和发现门户组件的一些特征包括：(a)跨包括消费者和企业的域发现新数据；(b)对服务订阅和使用限制的管理；(c)对用于访问服务的帐户密钥的管理；以及(d)详细的访问报告，包含按日期和按帐户密钥访问、编组的服务/数据集。

基础结构向内容提供商、应用程序开发者/ISV以及向信息工作者和其他消费者/订户提供各种有价值的建议。对于内容所有者，除针对不对数据进行收费但以其他方式从此类数据的发布得到益处的数据提供商的社会效益之外，基础结构(为对数据进行收费的数据提供商)实现从数据进行货币化。由于基础结构的开放性，内容提供商享受数据对于ISV和消费者/信息工作者的更大的可用性以及抵达性，并且所有这些都是以较低的代价得到的，尤其是通过如过去一样开发专有模型。

对于应用程序开发者/ISV，基础结构实现以一致的格式访问数据、用于数据访问的可变且低成本定价模型、可预测定价、来自采用使用数据构建的应用程序的消费者/IW的得益潜力、通过任何平台和单个记账和数据源的对消费者的更广抵达。

对于信息工作者/消费者，基础结构实现来自除单个记账和数据源之外的应用程序、对当前较大对象(LOB)或IW软件中的数据的消耗、用于数据访问的可变和低成本定价模型的附加的价值。

因此，基础结构通过潜在相当可观的收入上升解决当前消费者和开发者痛点，通过鼓励数据所有者经由基础结构存储其数据来创建附带有用于建模、报告、分析和趋向的即时数据的唯一性企业智能机会，以及创建对任何平台的采纳和附着，由此鉴别基础结构的有价值的建议(在与常规云存储环境相比时)。

如图12的流程图中所示的，在1200，本文所描述的是供内容所有者或发布者来经由基础结构发布数据的各种方式。在1210，存在允许开发者开发用于经由基础结构消费数据的应用程序的各种工具。在1220，消费者或信息工作者使用应用程序或者可直接对数据进行查询以消费数据。最后，在1230，基础结构提供丰富的各种工具，这些工具能代表由交易模型启用的内容链中的所有方来实现自动管理、审计、记账等。

在这点上，基础结构中的一些密钥方包括数据所有者、应用程序开发者/ISV、和消费者/信息工作者。一般而言，数据所有者是希望对数据收费的各方的实体，或者出于其他原因想要免费提供数据或对数据实施其他条件的各方的实体。进而，应用程序开发者/ISV是希望对其应用程序进行货币化(例如，通过广告、直接支付、间接支付等)或出于一些利益原因向这类各方免费提供其应用程序的实体。信息工作者和消费者是可使用原始数据的那些人，或者是希望使用由应用程序开发者提供的应用程序的那些人。

图13是一般地示出可参与到提供本文所描述的信息即服务的生态系统中的各方的框图。例如，取决于数据的敏感性或其他特性，一组网络可访问信息服务1300提供对各种获信任或未获信任的数据存储1310的访问。如图所示，因而，数据存储1312、1314、...、1316是什么类型并非是如此重要的，因为生态系统支持任何类型的数据、团块、结构化、非结构化等。如所提及的，系统包括将数据添加到生态系统的发布者1320，消费数据的订户1330，以及通过其应用程序帮助消费数据的应用程序开发者或提供者1350。访问信息生成器1370也可通过维护或实施帐户信息、密钥信息等来管理各方对数据的访问。在这点上，内容所有者1360可横跨任意角色，因为内容所有者1360也可以是发布者1320、订户1330、和/或应用程序开发者。在一个方面，所有方的公共基础结构针对基础结构上发生的数据交易实现管理1365、审计1375、记账1375以及其他所需辅助服务。

在这点上，用于实现来自任何平台的作为服务的信息的用户友好数据平台的各个实施例是用于使得数据的消费者(IW、开发者、ISV)和数据的消费者能以简单、成本效率和方便的方式进行交易的基础结构。基础结构以负担得起的方式民主化优质(私有)和社区(公共)数据，以允许IW将快速洞悉，允许开发者以创造性的方式使用多个数据源构建革新应用，并使得开发者能够对其在任何平台上的努力进行货币化。例如，基础结构支持按使用付费以及对内容的订阅定价、对内容的支付(“零售价”——由内容所有者设置)、支付数据费(“运送和处理”)和BW、以及进一步支持数据费按照以每次逻辑交易为基础(每个报告、每个API、每次下载等)的经纪人费用。

对于信息工作者(例如，Office、SQL服务器、动态用户)，该基础结构支持订阅以允许将来的EA整合以及可预测的花费需要(以及高速缓存以支持场所内和场所外BI以及“HPC”工作负载)。因而，替换方案包括每用户每月定价的内容；其可以被捆绑或可以不被捆绑来递送内容包，或者每交易定价，例如允许云报告/企业智能按需定价，以在允许每次使用定价、或经由报告图库的垂直应用程序同时排除移动大量数据的需要。

对于内容提供商(任何数据类型；任何云)，在使用任何平台的情况下，基础结构变成有价值的建议，以激励任何特定所需平台内的销售；在没有附加代价下的自动缩放的、较高层SLA概率。对于一些非限制性示例，数据可以是安全的，并且可以是以下域中的相关联数据：位置知晓服务和数据、商业和住宅房地产、财务数据和服务等。非限制性情景可包括将数据递送到排名前30的非政府组织(NGO)数据集。另外，基础结构可包括通过“用于信息即服务的bing(必应)”、HPC等来突出展示BI和可视化的能力。也存在垂直应用程序机会。

在一个非限制性实施例中，可将数据佣金与常规实体策略作类比：例如，容量可被表示为架空间(例如，结构化和非结构化/团块数据的混合)、货物的成本(COGS)可被表示为平方英尺、(SA、平台依赖性、带宽)和内容可被表示为商品(例如，最优化内容提供商以覆盖COGS、最大化来自IW和开发者的利润)。在各个实施例中，板上加工可通过数据和服务的质量条以及容纳服务级协议(SLA)来实现。

图14是以上根据一个或多个特征描述的信息即服务的基础结构1410的示例性非限制性实现。交互侧是可经由基于SSL/REST的API 1406与基础结构通信的信息工作者1400、开发者1402和消费者1404。负载平衡器1408可被用来以最佳方式帮助操纵通信量。在这点上，输入被路由至门户web角色1420或API web角色1422。从基础结构1410到数据侧是用于访问团块数据集1442、或云存储框架1440的团块数据集1455或关系数据库框架1450的附加负载平衡1424或1426(例如，WA或SA)。代理层1428可被用来访问第三方云1460的数据1462或数据1464。内容数据抽象层(DAL)1430可被用于访问在其中可适用的内容。在这点上，可以有跨不同类型的存储的数据集的复制或重叠，例如，相同数据可被表示为团块数据和结构化数据，例如，SQL。

作为对数据的补充服务，记账和发现服务1470可包括在线记账1472(例如，MOCP)或发现服务1474(例如，定位)，并且认证服务1480可包括凭证管理1482(例如，Live ID)或内容认证1484，例如，经认证的内容服务(ACS)。帐户服务1490可包括日志记录/审计服务1486或帐户管理1488。管理和操作服务1492可包括操作仪表盘服务1494和网络操作服务1496，例如Gomez。

图15是示出根据用于实现信息即服务的一般基础结构的一个或多个实施例的从数据到数据的消费者的示例性端对端流。例如，作为服务的信息1500可包括商业数据1502和免费数据1504，其可以是各种为了营利性开发者1510、具有非利益动机的非营利性开发者以及出于生产目的而对消费数据感兴趣的其他信息工作者所感兴趣的。这些实体可适用发现服务1520来确定什么应用程序1522、1524、...、1526可能是他们所感兴趣的，以及最终将数据传送给ILA消费者1530和DLA消费者1532。

开放数据协议

本领域的技术人员可以理解，网络交互和信息服务可以用各种计算机系统配置和协议来实施。在这点上，可在本文中所描述的一个或多个实施例中使用的用于查询和更新数据的一种非限制性实现是开放数据协议(OData)。

OData是用于查询和更新数据的web协议。OData应用诸如超文本传输协议(HTTP)、原子发布协议(AtomPub)和JavaScript对象符号(JSON)之类的web技术，以提供从各种应用程序、服务和存储访问信息。对于一些通用的背景，OData是基于过去几年里在各种产品中实现AtomPub客户机和服务器的经验来有机地出现的。Odata可被用于从各个源展示和访问信息，这些源包括但不限于关系数据库、文件系统、内容管理系统、和传统web站点。已在开放规范承诺下发布了OData，以允许任何人来与OData实现自由地交互操作，以便鼓励生态系统的成长。也可将OData结合到其他协议，以形成具有用于查询和更新网络数据的类似功能的混合协议。

OData与web工作的方式相一致。在一个方面，OData使用同一资源定位符(URL)来作为标识资源的方式，并使用HTTP中心协议，该协议具有用于与那些源交互的统一接口，例如，类似于因特网工作的方式。在一个非限制性方面，在由AtomPub普及的HTTP上的规约之上构建OData，这简化了跨独立开发的系统共享数据、内容和信息的过程。OData定义附加规约，诸实现可任选地实现这些附加规约来支持基本查询和要交换的模式信息。为了简化与HTML和JavaScript客户机的整合，OData定义补充基于XML的AtomPub格式的协议的任选JSON表示。如可以理解的，可在www.odata.org上找到关于OData协议的附加实现细节或其他详细情况。

示例性联网和分布式环境

本领域普通技术人员可以理解，此处所描述的用于来自任何平台的信息即服务的基础结构的方法和设备的各个实施例以及本文中描述的相关实施例可以结合任何计算机或其它客户端或服务器设备来实现，该任何计算机或其它客户端或服务器设备可作为计算机网络的一部分来部署或者被部署在分布式计算环境中，并且可以连接到任何种类的数据存储。就此，此处所描述的各实施例可以在具有任意数量的存储器或存储单元以及出现在任意数量的存储单元上的任意数量的应用程序和进程的任何计算机系统和环境中实现。这包括但不限于具有部署在具有远程或本地存储的网络环境或分布式计算环境中的服务器计算机和客户计算机的环境。

附图16提供了示例性联网或分布式计算环境的非限制性性示意图。该分布式计算环境包括计算对象或设备1610、1612等以及计算对象或设备1620、1622、1624、1626、1628等，这些计算对象或设备可包括如由应用1630、1632、1634、1636、1638表示的程序、方法、数据存储、可编程逻辑等。可以理解，计算对象或设备1610、1612等以及计算对象或设备1620、1622、1624、1626、1628等可包括不同的设备，诸如PDA、音频/视频设备、移动电话、MP3播放器、膝上型计算机等。

每个计算对象或设备1610、1612等以及计算对象或设备1620、1622、1624、1626、1628等可经由通信网络1640或直接或间接地与一个或多个其他计算对象或设备1610、1612等以及计算对象或设备1620、1622、1624、1626、1628等通信。即使在图16中被示为单个元件，但网络1640可包括向图16的系统提供服务的其他计算对象或解释设备，和/或可表示未示出的多个互连网络。每个计算对象或设备1610、1612等或1620、1622、1624、1626、1628等还可包含诸如应用程序1630、1632、1634、1636、1638之类的应用程序，该应用程序可利用API或适用于与根据各实施例提供的来自任何平台的信息即服务的基础结构进行通信或实现这种基础结构的其他对象、软件、固件和/或硬件。

存在支持分布式计算环境的各种系统、组件和网络配置。例如，计算系统可以由有线或无线系统、本地网络或广泛分布的网络连接在一起。当前，许多网络被耦合至因特网，后者为广泛分布的计算提供了基础结构并包含许多不同的网络，但任何网络基础结构可用于变得与如各实施例中所描述的技术相关联的示例性通信。

由此，可以利用诸如客户机/服务器、对等、或混合体系结构的大量的网络拓扑结构和网络基础结构。在客户机/服务器体系结构中，尤其在联网系统中，客户机通常是访问由例如服务器的另一计算机提供的共享的网络资源的计算机。在附图16的图示中，作为非限制性性示例，计算对象或设备1620、1622、1624、1626、1628等可被认为是客户机和计算对象，或者设备1610、1612等可被认为是服务器，其中计算对象或设备1610、1612等提供数据服务，诸如从计算对象或设备1620、1622、1624、1626、1628等接收数据、存储数据、处理数据、向计算对象或设备1620、1622、1624、1626、1628发送数据等，但任何计算机都可取决于环境而被认为是客户机、服务器或两者。这些计算设备中的任一个可以处理数据，或请求可指示如此处参考一个或多个实施例描述的来自任何平台的信息即服务的基础结构以及相关技术的服务或任务。

服务器通常是可通过诸如因特网或无线网络基础结构的远程网络或本地网络可访问的远程计算机系统。客户机进程在第一计算机系统中可以是活动的，而服务器进程在第二计算机系统中可以是活动的，它们通过通信介质彼此通信，从而提供分布式功能并允许多个客户机利用服务器的信息收集能力。按照用户简档来利用的任何软件对象可以单独提供或跨多个计算设备或对象分布。

例如，在其中通信网络/总线1640是因特网的网络环境中，计算对象或设备1610、1612等可以是计算对象或设备1620、1622、1624、1626、1628等经由诸如HTTP等多种已知协议中的任一种与其通信的web服务器。如所提及的，计算对象或设备1610、1612等还可用作计算对象或设备1620、1622、1624、1626、1628等，或者相反，这可以是分布式计算环境的特性。

示例性计算设备

如所提到的那样，此处描述的各实施例适用于其中可能期望实现来自任何平台的信息即服务的基础结构的的一个或多个部分的任何设备。因此，应当理解，构思了结合此处描述的各实施例使用的手持式、便携式和其它计算设备和计算对象，即在设备可以结合来自任何平台的信息即服务的基础结构来提供某些功能的任何地方。因此，在下面的图17中描述的以下通用远程计算机仅是一个示例，且所公开的主题的各实施例可用具有网络/总线互操作性和交互的任何客户端来实现。

尽管并不是必需的，但各实施例的任意一个可以部分地经由操作系统来实现，以供设备或对象的服务开发者使用，和/或被包括在结合可操作组件来操作的应用软件中。软件可以在由诸如客户机工作站、服务器或其他设备等一个或多个计算机执行的诸如程序模块等计算机可执行指令的通用上下文中描述。本领域的技术人员可以理解，网络交互可以用各种计算机系统配置和协议来实施。

因此，图17示出了其中可实现一个或多个实施例的合适的计算系统环境1700的一个示例，但是上面已经弄清楚，计算系统环境1700仅为合适的计算环境的一个示例，并且不旨在对各实施例中的任意一个的使用范围或功能提出任何限制。也不应该将计算环境1700解释为对示例性操作环境1700中示出的任一组件或其组合有任何依赖性或要求。

参考图17，用于实现此处的一个或多个实施例的示例性远程设备可以包括手持式计算机1710形式的通用计算设备。手持式计算机1710的组件可以包括但不限于：处理单元1720、系统存储器1730和将包括系统存储器在内的各种系统组件耦合至处理单元1720的系统总线1721。

计算机1710通常包括各种计算机可读介质，并可以是可由计算机1710访问的任何可用介质。系统存储器1730可以包括诸如只读存储器(ROM)和/或随机存取存储器(RAM)等易失性和/或非易失性存储器形式的计算机存储介质。作为示例而非限制性，存储器1730还可以包括操作系统、应用程序、其他程序模块、和程序数据。

用户可以通过输入设备1740向计算机1710输入命令和信息。监视器或其他类型的显示设备也经由接口，诸如输出接口1750连接至系统总线1721。除监视器之外，计算机还可以包括其他外围输出设备，如扬声器和打印机，它们可以通过输出接口1750连接。

计算机1710可使用至一个或多个远程计算机，诸如远程计算机1770的逻辑连接在联网或分布式环境中操作。远程计算机1770可以是个人计算机、服务器、路由器、网络PC、对等设备或其他常见网络节点、或任何其他远程媒体消费或传输设备，并且可以包括上面关于计算机1710所描述的任何或全部元件。图17所描绘的逻辑连接包括诸如局域网(LAN)或广域网(WAN)等的网络1771，但也可以包括其他网络/总线。这样的联网环境在家庭、办公室、企业范围计算机网络、内联网和因特网中是常见的。

如上所述，虽然结合各计算设备、网络和广告体系结构描述了示例性实施例，但还可将底层概念应用于其中想要结合与云或网络服务的交互来发布、构建应用或消费数据的任何网络系统和任何计算设备或系统。

有多种实现此处描述的一个或多个实施例的方式，例如，使应用和服务能使用来自任何平台的信息即服务的基础结构的适当API、工具包、驱动程序代码、操作系统、控件、独立或可下载的软件对象等等。可以从API(或其他软件对象)的观点以及从便于提供根据所描述的实施例中的一个或多个的来自任何平台的信息即服务的基础结构的软件或硬件对象来构想各实施例。此处描述的各种实现和实施例可以具有完全采用硬件、部分采用硬件并且部分采用软件、以及采用软件的方面。

此处使用的词语“示例性”意味着用作示例、范例或说明。为避免疑惑，此处公开的主题不受限于这样的示例。此外，此处描述为“示例性”的任何方面或设计不必解释成优于其他方面或设计或比其他方面或设计有利，它也不旨在排除本领域的普通技术人员所知的等效示例性结构和技术。而且，就术语“包括”、“具有”、“包含”和其他类似的词语在详细描述或权利要求书中的使用而言，为避免疑惑，这样的术语旨在以类似于术语“包括”作为开放的过渡词的方式解释而在用在权利要求书中时不排除任何附加或其他元素。

如上所述，此处所述的各种技术可结合硬件或软件，或在适当时以两者的组合来实现。如在此所使用的，术语“组件”、“系统”等同样指的是计算机相关实体，或者是硬件、硬件和软件的组合、软件或执行中的软件。例如，组件可以是，但不限于是，在处理器上运行的进程、处理器、对象、可执行码、执行的线程、程序和/或计算机。作为说明，运行在计算机上的应用程序和计算机本身都可以是计算机组件。一个或多个组件可以驻留在进程和/或执行的线程中，并且组件可以位于一个计算机内和/或分布在两个或更多的计算机之间。

如前所述的系统是利用多个组件之间的交互来描述的。可以理解的是，这样的系统和组件可以包括这些组件或指定的子组件，某些指定的组件或子组件，和/或附加的组件，并根据前述的内容的各种置换和组合。子组件也可以作为可通信地耦合到其他组件的组件来实现，而不是包括在父组件内(层次性)。另外，应该注意，一个或多个组件也可以合并到提供聚合功能的单一组件中，或者也可以分成多个单独的子组件，并且，可以提供诸如管理层之类的任何一个或更多中间层，以可通信地耦合到这样的子组件，以便提供集成的功能。此处所描述的任何组件也可以与一个或多个此处没有专门描述的但本领域技术人员广泛地知道的其他组件进行交互。

鉴于以上描述的示例性系统，参考各附图的流程图将可以更好地理解依照所公开的主题实现的方法。尽管为了说明简洁起见，作为一系列框示出和描述了方法，但是，应该理解，所要求保护的主题不仅限于所描述框的顺序，一些框可以按与此处所描绘和描述的不同的顺序进行和/或与其它框并发地进行。尽管经由流程图示出了非顺序或分支的流程，但可以理解，可实现达成相同或类似结果的各种其他分支、流程路径和框次序。此外，并非全部所示出的框都是实现下面所描述的方法所必需的。

虽然在某些实施例中，说明了客户端侧观点，但要出于避免存在相对应的服务器观点的疑问来理解，反之亦然。类似地，在实施方法的地方，可以提供具有存储和被配置成经由一个或多个组件实施该方法的至少一个处理器的相对应的设备。

尽管结合各附图的优选实施例描述了各实施例，但可以理解，可以使用其他类似的实施例，或可以对所描述的实施例进行修改和添加来执行相同的功能而不背离本发明。而且，此处描述的各实施例的一个或多个方面可以在多个处理芯片或设备中实现或跨多个处理芯片或设备实现，且存储可以类似地跨多个设备来实现。因此，本发明不应限于任何单个实施例，而是应该根据所附权利要求书的广度和范围来解释。

Claims

1.一种用于语义分析的方法，包括：

从存储在数据储存库中的数据集提取数据子集；

标识与所述数据子集相对应的格式，包括对照多个预配置的模式来评估所述数据子集的值的至少一个结构；

基于所述格式选择至少一个基准数据集，其中所述至少一个基准数据集与已知语义类型相关联；

将所述数据子集的值与所述至少一个基准数据集进行比较；以及

基于所述比较的至少一个结果来推断所述存储在数据储存库中的数据集的语义信息，其中所述语义信息至少指定所述存储在数据储存库中的数据集中的数据的语义类型。

2.如权利要求1所述的方法，其特征在于，所述提取包括提取整个所述数据集。

3.如权利要求1所述的方法，其特征在于，所述提取数据子集包括随机选择所述数据集的值。

4.如权利要求1所述的方法，其特征在于，所述提取数据子集包括从所述数据集的开头、所述数据集的末尾、或所述数据集的中间中的至少一个处提取预定数目个值。

5.如权利要求1所述的方法，其特征在于，还包括：

对照一个或多个域规则验证所述数据子集的值，其中所述一个或多个域规则对应于所述存储在数据储存库中的数据集中的数据的语义类型，包括呈现无效值，所述无效值包括所述一个或多个域规则不允许的值。

6.如权利要求1所述的方法，其特征在于，还包括：

从所述存储在数据储存库中的数据集提取字段名称；以及

将所述字段名称与潜在有效标签列表作比较。

7.如权利要求1所述的方法，其特征在于，将所述数据子集的值与所述至少一个基准数据集进行比较包括：

从所述值选择一值；

就所述值查询所述至少一个基准数据集；以及

当返回就所述值的所述查询的结果时，对有效命中进行计数。

8.如权利要求1所述的方法，其特征在于，还包括：

标识第二数据集，所述第二数据集包括与所述存储在数据储存库中的数据集的数据的所述语义类型相对应的至少一个字段；以及

生成将所述存储在数据储存库中的数据集与所述第二数据集相关联的关系信息，其中所述关系信息指定所述存储在数据储存库中的数据集与所述第二数据集之间的关联。

9.如权利要求1所述的方法，其特征在于，还包括：

获得关系信息，所述关系信息将所述数据储存库中的多个数据集进行关联；以及

显示所述关系信息的可视化作为图形用户界面的一部分。

10.如权利要求1所述的方法，其特征在于，还包括输出所述语义信息以供进行外部确认。

11.一种语义分析系统，包括：

语义分析组件，其被配置成推断与由提供信息作为服务的系统存储的数据集的数据的有关的语义信息，所述语义分析组件包括：

格式检查组件，其被配置成标识从所述数据集提取的样本数据的格式，以及基于所述格式选择一个或多个基准数据集，其中标识从所述数据集提取的样本数据的格式包括对照多个预配置的模式来评估所述样本数据的值的至少一个结构；以及

值检查组件，其被配置成对照所述一个或多个基准数据集检查所述样本数据的值，以标识所述样本数据的语义类型，

其中所述语义分析组件还被配置成基于所标识的所述语义类型来推断所述语义信息。

12.如权利要求11所述的语义分析系统，其特征在于，还包括：

域检查组件，其被配置成确定所述样本数据的值是否满足域规则集，

其中所述域规则集确立特定数据类型的有效数据值。

13.如权利要求11所述的语义分析系统，其特征在于，还包括：

链接组件，其被配置成基于相应的语义信息将由所述信息即服务系统存储的多个不同数据集进行关联。

14.如权利要求11所述的语义分析系统，其特征在于，还包括：

可视化组件，其被配置成生成由所述信息即服务系统存储的数据集之间的关联的可视化，

其中所述可视化包括图显示，其中节点表示所述由所述信息即服务系统存储的数据集，而边表示所述由所述信息即服务系统存储的数据集之间的关联。

15.一种用于语义分析的装置，包括：

用于标识与从存储在数据储存库中的数据集提取的数据子集相对应的格式的装置，其中标识与从存储在数据储存库中的数据集提取的数据子集相对应的格式的装置包括对照多个预配置的模式来评估所述数据子集的值的至少一个结构的装置；

用于基于格式选择至少一个基准数据集的装置，其中该至少一个基准数据集与已知语义类型相关联；

用于将所述数据子集的值与所述至少一个基准数据集进行比较的装置；以及

用于基于所述比较的输出来推断所述存储在数据储存库中的数据集的语义信息的装置，其中所述语义信息至少指定所述存储在数据储存库中的数据集中的数据的语义类型。