CN102999561B - 数据集和数据服务的上下文趋向 - Google Patents

数据集和数据服务的上下文趋向 Download PDF

Info

Publication number
CN102999561B
CN102999561B CN201210418171.7A CN201210418171A CN102999561B CN 102999561 B CN102999561 B CN 102999561B CN 201210418171 A CN201210418171 A CN 201210418171A CN 102999561 B CN102999561 B CN 102999561B
Authority
CN
China
Prior art keywords
data set
data collection
attribute
structural data
coupling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210418171.7A
Other languages
English (en)
Other versions
CN102999561A (zh
Inventor
E·胡迪斯
C·K·埃金斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN102999561A publication Critical patent/CN102999561A/zh
Application granted granted Critical
Publication of CN102999561B publication Critical patent/CN102999561B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/213Schema design and management with details for schema evolution support

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供了数据库和数据服务的上下文趋向。通过抢先式结构化数据集管理,做出用于数据集丰富、净化和其他增强的建议。用户无需在线或在企业文件系统中查找可能有帮助的数据集,因为相关数据集和服务将自动基于从该用户的数据集强制转换而来的属性样本来建议。丰富可添加来自匹配的数据集的类型化属性、行和/或单元格值,可净化数据,并且可添加具有关于与原始数据集相同的实体的数据的另一数据集。抢先式数据集和服务匹配在安全周界内进行以保护秘密性。对所建议的修改的置信度可通过颜色差别来显示。修改可被预览和保存或在接受后回退。建议是在来自示例或从零开始场景中做出的。属性样本、预览、修改和其他模块驻留在拍卖或其他市场中的支持各种数据源和数据集服务提供者的体系结构中。

Description

数据集和数据服务的上下文趋向
技术领域
本发明涉及数据探查,尤其涉及数据库和数据服务的上下文趋向。
背景技术
数据分析员和其他人处理以各种方式和范围组织的各种各样的数字数据。一些数据值是孤立的,这意味着它们不属于(或至少不被视作属于)一组相关数据值。但许多数据值是数据值的集合的一部分。一些集合具有极少或不具有内部结构,但其他集合被组织成方便诸如特定值的检索、值比较和基于集合中的多个值的计算汇总等操作。
数据值的有组织集合在此被称为“数据集”(也被称为“数据集合”、“结构化数据”、“结构化数据集”)。因为数据集中的数据被结构化,所以能够比仅仅叙述该数据的值及其在数据集合中的成员关系更多地谈论该数据。在例如电子表格数据集中,给定数据片段不仅具有值和该组电子表格值中的成员关系,而且还具有相关联的行和列,这可以进而具有诸如名称和数据类型等特性。处于呈现目的,“结构化数据”的一些熟悉的示例包括关系数据库记录、电子表格、表和数组。相反,电子邮件或文字处理文档中的文本一般是非结构化数据或缺少标准内部结构。结构化数据可通过键入来被手动放置在数据集中,但计算能力可提供向数据集合添加值、改变数据集合中的值和以其他方式管理数据集的一定范围的其他可能性。
发明内容
通过web浏览或通过数据库搜索来找到结构化数据的可能的增强和纠正是具有挑战性的,并且可使得用户从分析其结构化数据分心。然而,本文描述的一些实施例提供了一种抢先式结构化数据集管理,这种抢先式结构化数据集管理给予数据分析员和其他用户其中抢先建议增强和其他数据服务的“试用”体验。与用户的当前上下相关的数据集和/或数据服务“趋向于”该上下文。相关数据集和/或数据服务的建议可基于诸如以下因素来做出:当前在用户的上下文中的数据集和可以在该用户的企业或其他地方的其他非本地数据集之间的计算出的相似性和/或关联;属于数据服务的期望目标的数据集属性的标识。用户无需在线或例如在企业文件系统中查找可能有帮助的数据集,而是能够在安心地知道相关非本地信息的建议将被自动提供给他们的情况下改为保持聚焦于特定数据集。
在一些实施例中,结构化数据集管理包括获取诸如电子表格、报告生成器或web浏览器的实例等用户工作上下文中的结构化数据集。结构化数据集具有至少一个类型化属性,每一个类型化属性都具有列名称和相关联的数据类型。管理将结构化数据集强制转换成具有至少一个与该结构化数据集共同的类型化属性的属性样本(samplex)。属性样本是通过计算从结构化数据集导出的。除了具有至少一个与结构化数据集共同的类型化属性之外,属性样本还可共享属性类别和/或单元格值。然而,属性样本通常避免损害结构化数据集单元格中的值的秘密性。在至少部分地基于属性样本或其他机制来标识至少一个匹配的数据集或服务之后,数据集管理使得匹配的数据集或数据服务趋向于用户的上下文。受趋向的数据集可被简单地查看并且然后被丢弃,或者该数据集可用于做出对结构化数据集的抢先式或用户确认的修改,该修改至少部分地基于匹配的数据集。匹配的数据集也是结构化的,但此处的“结构化数据集”通常指代用户的原始结构化数据集。受趋向的数据服务可被应用于用户的结构化数据集,并且结果可被查看、丢弃、暂时保存、永久保存、被合并到其他数据集中和/或以其他方式利用。
例如,数据集管理的趋向和其他方面可通过添加匹配的数据集的至少一个类型化属性来丰富结构化数据集。在某些但并非所有情况下,对添加的属性的选择至少部分地基于属性频繁项目集信息,例如,通过对外部和本地数据集进行相关采样来收集的模式成员关系和上下文集合频率统计信息。属性频繁项目集信息指示哪些类型化属性特性(名称、数据类型)倾向于在相关数据集的某一全域中一起出现。相关集合的全域可以是例如用户的部门中的某个人创建的所有数据集、用户的企业在过去N个月中使用的所有数据集、具有指定列名称的所有数据集、已经用附加元数据来标记的所有数据集(该元数据指示这些数据集具备特定的所需品质,诸如质量、合时性、可信性或流行性)或感兴趣的另一数据集全域。
作为另一示例,数据集管理可另选地或另外地通过添加匹配的数据集中的至少一行和/或通过向结构化数据集中的一行添加匹配的数据集的至少一个单元格值来丰富用户的结构化数据集。修改可另外地或另选地改变结构化数据集的至少一个单元格值以便与匹配的数据集的单元格值匹配(即,执行数据净化)。净化可包括通过趋向来将数据集与数据服务相匹配。在一些实施例中,修改可向用户工作上下文添加匹配的数据集作为另一数据集,而不是在逐个单元格、逐行和/或逐列的基础上将匹配的数据集与原始结构化数据集混合。在某些情况下,匹配的数据集与结构化数据集共享实体,例如,两个数据集可保存关于给定企业、人或其他实体的信息。实体可以在主题方面进行共享,即使数据集不共享类型化属性。
在一些实施例中,匹配的数据集标识通过计算在客户机安全周界内进行,匹配的数据集是被带到客户机周界内的数据集。在某些情况下,匹配的数据集标识通过计算在客户机安全周界内进行,但对应于匹配的数据集的数据集属性样本被带到该客户机周界内,而不是将匹配的数据集带到该周界内。在某些情况下,通过在客户机安全周界之外使用结构化数据集属性样本而不将结构化数据集本身带到该周界之外,匹配的数据集标识通过计算在客户机安全周界外进行。然而,为了保护结构化数据集的单元格值的秘密性,不将结构化数据集本身带到客户机周界外。作为对匹配数据集的这种使用的补充或替换,属性样本可用于将服务与结构化数据集相匹配。例如,一些实施例将属性样本与数据净化服务相匹配。在某些情况下,将整个匹配的数据集带到安全周界内是太麻烦或不切实际的,例如在存在许多匹配的数据集和/或匹配的数据集是大型的情况下。在某些情况下,包含要运行的算法准则或代码的服务过滤器被带到用户安全周界内,以便回头向候选服务指示该服务的期望目标和用户的上下文数据集之间的匹配有多好,而不在该安全周界外展示该用户的数据。
在一些实施例中,通过计算来实施界面能力,这通过用第一颜色显示结构化数据集的单元格值且同时用不同的第二颜色显示作为所建议的修改的另一单元格值。在一些实施例中,颜色用于指示存在所建议的修改,而不是用不同的颜色显示建议。在一些实施例中,界面能力将单元格值从第一值改为第二值,显示第二值,并且然后在不在显示第二值之后键入第一值的情况下回退到第一值。在一些实施例中,界面能力显示修改预览,即用户尚未接受的可能修改的结果的图像。一些实施例包括这些界面能力中的两个或全部三个,并且可包括以下讨论的其他界面能力。
结构化数据集管理有时在来自示例(from-example)场景中进行。即,结构化数据集已经包括具有对应的类型化属性以及填充行的一个或多个单元格值的至少一行。在来自示例场景中,建议和/或所建议的修改是在现有数据集的基础上做出的——该现有数据集是从中获取指导以做出修改建议的示例。例如,数据集管理可抢先建议结构化数据集的附加属性、结构化数据集的附加行、对至少一个单元格值的改变、附加单元格值和/或单元格值删除。
结构化数据集管理有时在从零开始(from-scratch)场景中进行,这意味着尽管结构化数据集包括至少一个类型化属性,但用户正从零开始创建数据集模式。例如,用户的数据集(至今)可以不包含单元格值。在该场景中,数据集管理可以在用户工作上下文中至少部分地基于用户输入的属性和属性频繁项目集信息,通过计算来建议结构化数据集的附加属性。
尽管上述内容中的大多数是从结构化数据集管理提供者的观点来讨论的,但应当理解,数据集管理的许多方面也可以从数据分析员或其他用户的观点来查看。例如,在某些情况下,数据分析员在用户工作上下文中提供如所讨论的结构化数据集,例如,包括具有对应的类型化属性以及填充行的一个或多个单元格值的至少一行的数据集。结构化数据集可例如通过在一实施例中的电子表格应用中打开它来提供。当数据集被打开时,该实施例自动跟踪(或被告知)电子表格和/或其他应用活动,并自动继续创建属性样本,标识匹配的数据集、做出建议等。
在某些情况下,数据分析员在用户工作上下文中通过以执行以上讨论的一个或多个修改的方式操作计算系统来修改结构化数据集。修改可以至少部分地基于匹配的数据集,并且可以在不首先在用户工作上下文中向计算系统显式地标识匹配的数据集的情况下执行。具体而言,如果用户被一企业雇用,则修改可通过基于该企业的属性频繁项目集信息添加至少一个类型化属性来丰富结构化数据集。
在一些实施例中,数据分析员和其他用户在提供结构化数据库之后接收到自动的结构化数据集修改建议,并接受该建议。然后通过计算来实现所建议的修改,例如通过添加行、改变单元格值等。
在一些实施例中,数据分析员或其他用户查看界面能力。例如,用户可查看结构化数据集中的第一颜色的单元格值,并同时查看不同的第二颜色的作为所建议的修改的另一单元格值。用户可将单元格值从第一值改为第二值,查看第二值,并且然后在不在查看第二值之后键入第一值的情况下回退到第一值。用户可查看修改预览,即用户尚未接受的修改建议的结果的图像。
在一些实施例中,数据分析员或其他用户做出选择和/或确认先前的选择。例如,在某些情况下,用户选择客户机安全周界以限制结构化数据集的分发,并且在某些情况下,该用户确认先前对用于限制结构化数据集的分发的客户机周界的人类或自动化选择。在某些情况下,用户选择数据净化服务来建议对结构化数据集的单元格值的改变,并且在某些情况下,该用户确认先前对用于建议对结构化数据集的单元格值的改变的数据净化服务的人类或自动化选择。在某些情况下,用户选择数据丰富服务来建议对结构化数据集的丰富,并且在某些情况下,该用户确认先前对用于建议对结构化数据集的丰富的数据丰富服务的人类或自动化选择。在某些情况下,用户选择共享实体数据集服务来建议与结构化数据集共享实体的数据集,并且在某些情况下,该用户确认先前对用于建议与结构化数据集共享实体的数据集的共享实体数据集服务的人类或自动化选择。
从体系结构观点来看,用于管理结构化数据集的一些实施例包括本地逻辑处理器、在操作上与本地逻辑处理器通信的本地存储器以及驻留在本地存储器中的结构化数据集。结构化数据集具有至少一个类型化属性,并且每一个类型化属性都具有列名称和相关联的数据类型。在一些实施例中,结构化数据集属性样本模块驻留在本地存储器中并且具有指令,该指令在由本地逻辑处理器执行时将自动将结构化数据集强制转换成具有至少一个与结构化数据集共同的类型化属性的属性样本。在一些实施例中,结构化数据集的属性样本驻留在本地存储器中。在一些实施例中,驻留在本地存储器中的指示基于从用户的结构化数据集强制转换而来的属性样本来指示不一定驻留在本地存储器中的候选数据集是否是结构化数据集的匹配数据集。
在一些实施例中,本地存储器完全位于安全客户机周界内。在某些情况下,以下各项中的至少一个也驻留在也在安全客户机周界内的存储器(但不一定是本地存储器)中:候选数据集、候选数据集的属性样本。
一些实施例包括结构化数据集修改模块,该模块驻留在存储器中并具有指令,该指令在由处理器执行时将自动基于属性样本来定位匹配的数据集,并基于匹配的数据集来执行以上讨论的一个或多个修改。一些实施例包括结构化数据集修改预览模块,该模块驻留在存储器中并具有指令,该指令在由处理器执行时将自动提供针对匹配的数据集的修改预览。
一些实施例包括包含指令的服务过滤器,该指令在由处理器执行时将标识例如在数据类型方面与属性样本部分或完全兼容的服务。该服务将提供一个或多个结构化数据集管理服务,诸如数据净化(纠正值)、数据去重复、数据集匹配、数据集值扩展和数据集模式扩展。
一些实施例包括驻留在本地存储器中的指令,该指令在由本地处理器执行时将执行以下界面能力实践中的至少一个:通过颜色标记来显示对结构化数据集的所建议的纠正的高置信度;提供通过将光标悬停在结构化数据集上方来控制的修改预览特征;提供控制对结构化数据集中的多个单元格的批量修改的上下文菜单。一些实施例提供这些界面能力中的不止一个,并且一些实施例提供以上讨论的其他界面能力。一给定实施例可出于一个或多个目的来将数据趋向于用户,例如作为以下各项中的一部分:修改用户数据、向用户电子表格添加数据和/或向用户提供外部信息以便临时查看并且可任选地本地地存储该外部信息。例如,用户的上下文可包括包含公司名称等的工作表。一实施例的界面可显示自动预览,该自动预览显示从工作表中识别出的公司的当前股价,以促进用户对数据含义的洞察。用户可以想要或可以不想要本地地存储这一信息,但该受趋向的数据自动可供查看,而不管它是否被本地地持久存储。
所给出的示例只是说明性的。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。相反地,提供本发明内容是为了以简化的形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明由权利要求书限定,在本发明内容与权利要求书有冲突的情况下,应该以权利要求书为准。
附图描述
将参考附图给出更具体的描述。这些附图只示出了选定的方面,且因此不完全确定覆盖或范围。
图1是示出计算机系统并且还示出经配置的存储介质实施例的框图,该计算机系统具有至少一个处理器、至少一个存储器、至少一个电子表格或浏览器或用于查看结构化数据集的其他应用以及可存在于多个网络节点上的操作环境中的其他项目;
图2是示出一示例体系结构中的结构化数据集管理的各方面的框图;
图3是示出某一过程的各步骤和经配置的存储介质实施例的流程图;以及
图4是示出另一示例体系结构中的结构化数据集管理的各方面的数据流程图。
具体实施方式
概览
尽管大量结构化数据已被发布在web上或可通过浏览器可访问的搜索界面在所谓的“深度web”中获取,但通常不清楚数据分析员或其他信息工作者如何能够找到相关数据,并且有时甚至不清楚相关数据是否存在。搜索和/或浏览web以查找结构化数据可能是极度困难且低效的,因为通常不清楚应当使用什么关键词以及如何对搜索中标识的数据集进行排名。
主要或只在大公司和其他企业中使用的数据集也存在类似挑战。虽然信息工作者原则上经常希望重用这些内部数据集,但实际上重用是罕见的,因为在企业网络内找到相关数据集的成本很高。同样,信息工作者找到很好地适合他们的数据集的数据服务(净化、去重复等)是困难且低效的。
本文描述的一些实施例提供了其中使用信息工作者当前正在处理的数据来自动生成与数据集和数据服务的资料库的相关关系的用户体验。数据集管理然后能够以无缝且低成本的方式向信息工作者建议相关数据集和数据服务。
一些实施例生成数据的属性样本以供在外部服务中用来将用户的数据集与相关的匹配数据集和数据服务相匹配。一些实施例执行候选数据集的本地(针对客户的数据上下文)匹配。一些实施例提供一种“校准(try-up)”方法以便于用户发现相关数据集和服务。在一些实施例中,在其中由作为拍卖环境的一部分的合伙人生成用于数据集管理服务的相关性度量的信息生态系统中,数据表层用作上下文生成服务。
一些实施例预先应用数据集服务以提供更清晰地定义的益处。一些实施例自动生成可以与用户自己的结构化数据相关的所建议的结构化数据。一些实施例自动将用户数据集与各种数据服务的提供者进行匹配,例如以便进行数据净化、去重复以及各种数据丰富。一些实施例自动建议数据集以便进行模式增强或数据扩展。一些实施例自动提供共享实体数据集以帮助生成通过对用户数据进行数据透视并将其与外部数据联结来获取的洞察。一些实施例提供对数据集和/或数据服务的提供者专用分析、分类和拍卖。
此处描述的某些实施例可以在较宽泛的上下文中查看。例如,诸如数据集、匹配、数据类型、添加、回退、改变和建议等概念可以与一特定实施例相关。然而,并不能从宽泛上下文的可用性中得出此处对抽象概念寻求专有权;它们并不是专有的。相反,本发明集中于提供适当具体的实施例。涉及数据集、匹配、数据类型、添加、回退、改变和/或建议的其他介质、系统以及方法在本范围之外。因此,在对本发明的正确理解下,也避免了模糊性和附带的证据问题。
现在将参考诸如附图中所示出的那些示例性实施例,并使用特定语言来对其进行描述。但是,相关技术领域的且拥有本公开内容的技术人员将想到的对此处所示出的特征的更改和进一步的修改以及对本文所示的原理的其他应用,都应该被视为在权利要求的范围内。
在本公开中阐明了各术语的含义,因此应该在仔细关注这些阐明的情况下阅读权利要求书。给出了具体示例,但是相关领域的技术人员将理解其他示例也可落在所使用的术语的含义范围内以及落在一个或多个权利要求的范围内。术语在这里不一定具有与它们在一般用途中、在特定行业的用途中、或在特定词典或词典集中所拥有的相同含义。附图标记可以与各种措词一起使用,以帮助示出术语的广度。从给定文本片段中省略附图标记不一定意味着没有通过文本讨论附图的内容。发明人声明并行使他们对他们自己的词典的权利。这里可在具体实施方式中和/或在申请文件的别处显式地或隐式地定义术语。
如此处所使用的,“计算机系统”可包括例如一个或多个服务器、主板、处理节点、个人计算机(便携式或非便携式)、个人数字助理、蜂窝或移动电话、至少具有处理器和存储器的其他移动设备、和/或提供至少部分地由指令来控制的一个或多个处理器的其他设备。指令可以采用存储器中的固件或其他软件和/或专用电路的形式。具体而言,虽然可发生许多实施例在工作站或膝上型计算机上运行,但是其他实施例也可以在其他计算设备上运行,并且任何一个或多个这样的设备都可以是给定实施例的一部分。
“多线程化”计算机系统是支持多个执行线程的计算机系统。术语“线程”应被理解为包括能够或经历调度(以及可能同步)的任何代码,并且也可以另一名称来为人所知,如“任务”、“进程”或“协同例程”等。线程可以并行地、按顺序、或以并行执行(例如,多处理)和顺序执行(例如,时间分片)的组合来运行。在各种配置中都已设计了多线程化环境。执行线程可以并行地运行,或者线程可以被组织为并行执行,但是实际上轮流按顺序执行。例如,多线程化可以通过在多处理环境中在不同核上运行不同线程、通过对单个处理器核上的不同线程进行时间分片、或者通过时间分片和多处理器线程化的某种组合来实现。线程上下文切换可以例如由内核的线程调度器、由用户空间信号、或由用户空间和内核操作的组合来发起。线程可以轮流对共享数据进行操作,或者例如每一线程都可以对其自己的数据进行操作。
“逻辑处理器”或“处理器”是单个独立硬件线程处理单元,如同时多线程实现中的核。作为另一示例,每核运行两个线程的超线程四核芯片具有8个逻辑处理器。处理器可以是通用的,或者它们可被定制用于特定用途,例如图形处理、信号处理、浮点算术处理、加密、I/O处理等等。
“多处理器”计算机系统是具有多个逻辑处理器的计算机系统。多处理器环境存在于各种配置中。在一给定配置中,所有处理器可在功能上相同,而在另一配置中,由于具有不同的硬件能力、不同的软件分配或两者,某些处理器可与其他处理器不同。取决于配置,处理器可在单个总线上紧密地彼此耦合,或它们可松散地耦合。在某些配置中,处理器共享一中央存储器,在某些配置中,它们各自具有自己的本地存储器,在某些配置中,存在共享和本地存储器两者。
“内核”包括操作系统、系统管理程序、虚拟机、BIOS代码、以及类似的硬件接口软件。
“代码”指的是处理器指令、数据(包括常量、变量、以及数据结构)、或指令和数据两者。
“程序”在本文中被广泛地使用以包括应用、内核、驱动程序、中断处理程序、库、以及程序员(也被成为开发者)编写的其他代码。
“自动地”指的是使用自动化(例如,由用于这里所讨论的特定操作的软件配置的通用计算硬件),与没有自动化相对。特别地,“自动地”执行的步骤不是由手在纸上或在人的头脑中执行的,它们是用机器执行的。然而,“自动地”不必意味着“立即地”。
“通过计算”指的是使用计算设备(至少是处理器加上存储器),且排除了仅通过人类思考或仅通过单独的人类动作而获得结果。例如,用纸和笔做算术并不是这里所理解的计算上做算术。“计算步骤”是通过计算执行的步骤。
“抢先式”意味着没有来自用户的直接请求。的确,用户甚至可能直到已经向该用户呈现一实施例中的抢先式步骤的结果才意识到该步骤是可能的。
“用户工作上下文”是用于查看(至少)结构化数据集的工具的实例。例如电子表格、报告生成器或web浏览器的实例是用户工作上下文。
贯穿本文,对任选复数“(诸)”的使用意味着一个或多个所指示的特征存在。例如,“(诸)值”意味着“一个或多个值”或等效于“至少一个值”。
贯穿本文,除非另外明确表明,否则对过程中的某一步骤的任何引用都假定该步骤可直接由所关注的一方执行和/或由该方通过介入机制和/或介入实体而间接地执行,且仍然在该步骤的范围内。也就是说,除非直接执行是被明确表明的要求,否则并不要求由关注方对步骤的直接执行。例如,涉及某一关注方的对于目的或其他主体的诸如接受、添加、带到、强制转换、改变、净化、确认、控制、显示、丰富、输入、执行、实施、扩展、标识、指示、匹配、修改、获取、打开、操作、运行、提供、接收、回退、选择、建议、提供、查看(或接受、接受的、添加、添加的等)之类的动作的步骤可涉及:诸如由某一其他方执行的转发、复制、上传、下载、编码、解码、压缩、解压、加密、解密、认证、调用等中间动作,但然被理解为是由该关注方直接执行的。
在参考数据或指令时,要理解这些项目配置了计算机可读存储器,从而将其变换为特定物品,而非简单地存在于纸张上、人的头脑中、或作为例如线路上的瞬时信号。存储器或其他计算机可读介质被假设为是非瞬时的,除非被另外明确表明。
操作环境
参考图1,用于一个实施例的操作环境100可包括计算机系统102。计算机系统102可以是多处理器计算机系统,或者也可以不是。操作环境可包括给定计算机系统中的一个或多个机器,它们可以是群集的、客户机-服务器联网的、和/或对等联网的。个体机器是一计算机系统,且一组协同操作的机器也是计算机系统。给定计算机系统102可以例如用应用被配置用于最终用户、用于管理员、作为服务器、作为分布式处理节点、和/或以其他方式配置。
人类用户104可以通过使用显示器、键盘、及其他外围设备106与计算机系统102进行交互。数据分析员、系统管理员、开发者、工程师以及终端用户各自是特定类型的用户104。代表一个或多个人操作的自动化代理也可以是用户104。在某些实施例中,存储设备和/或联网设备可以被认为是外围设备。图1中未示出的其他计算机系统可以与计算机系统102进行交互,或者例如通过网络接口设备使用到网络108的一个或多个连接与另一系统实施例进行交互。
计算机系统102包括至少一个逻辑处理器110。计算机系统102与其他合适的系统一样,还包括一个或多个计算机可读非瞬态存储介质112。介质112可以是不同的物理类型。介质112可以是易失性存储器、非易失性存储器、被安装就位的介质、可移动介质、磁介质、光学介质、和/或其他类型的非瞬态介质(而不是诸如只传播信号的线路之类的瞬态介质)。具体而言,诸如CD、DVD、记忆棒、或其他可移动非易失性存储器介质之类的经配置的介质114在被插入或以其他方式安装时可以在功能上变为计算机系统的一部分,从而使其内容可被访问以供处理器110使用。可移动的经配置的介质114是计算机可读存储介质112的示例。计算机可读存储介质112的某些其他示例包括内置RAM、ROM、硬盘、以及其他不能被用户104轻松地移走的存储设备。
介质114用可由处理器110执行的指令116来配置;“可执行”在此以宽泛的意义被使用以包括机器代码、可解释代码、以及在例如虚拟机上运行的代码。介质114还被配置有数据118,该数据通过指令116的执行被创建、修改、引用和/或以别的方式使用。指令116和数据118配置它们所驻留的介质114;当该存储器是给定计算机系统的功能部分时,指令116和数据118还配置该计算机系统。在某些实施例中,数据118的一部分代表了诸如产品特征、清单、物理测量值、设定、图像、读数、目标、卷等等之类的现实世界的项。这一数据也通过本文讨论的预览、修改和其他数据集管理操作来变换。
诸如电子表格122、浏览器124和/或用于(至少)查看结构化数据集126的其他工具等工具120以及诸如配置参数、凭证和内核软件以及各附图中示出和/或本文讨论的其他项目等用户工作上下文128的其他方面可以部分或完全驻留在一个或多个介质112内,由此配置这些介质。结构化数据集126(如果存在的话)通常将具有至少一个类型化属性130。也可存在防火墙、访问控制、认证机制和其他熟悉的数据安全工具形式的客户机安全周界132。除了处理器110和存储器/介质112之外,操作环境还可包括其他硬件,诸如显示器134、总线、电源和加速器等。
在图1中以轮廓形式示出了一个或多个项目来强调它们不一定是所示操作环境的一部分,但是可以与此处讨论的操作环境中的项目互操作。未采用轮廓形式的项在任何附图或任何实施例中也不一定是必需的。
系统
图2示出了适用于一些实施例的体系结构;在本讨论中也做出了对图1和3的支持引用。结构化数据集126具有一个或多个类型化属性130。每一个类型化属性130都具有诸如列名称等名称202和诸如串、实数、整数、地址、邮政编码、美元、欧元、日期、时间等数据类型204。尽管具有行和列的二维结构化数据集此处被用作方便的示例,但数据集通常可以是N维结构,其中数据集的给定单元格206可具有N个位置坐标,其中N>=2。
在一些实施例中,属性样本模块208包括能够从给定数据集126中计算出属性样本210的逻辑(具有支持硬件的代码)。“属性样本”是数据结构,其反映从中强制转换出该属性样本的数据集的某些、但不是全部内容,并且对于给定实施例在适当时否则符合此处的描述。
一般而言,属性样本210可以从数据集126的不同特性中强制转换而来。取决于该实施例,属性样本210可以从以下特性中的一个或多个中强制转换而来:各个属性(也被称为标签)及其数据类型、多个类型化属性的模式、属性统计数据(例如,边界限制、分布、均值以及从属性的单元格值计算出的其他统计值,而不是各个单元格值)、属性类别(例如,“地理”、“年代顺序”、“财务”或其他一般类别,而并非分别是诸如地址、出生日期、总收入等特定属性)、所选单元格值(例如,随机采样的单元格值或行N中的单元格值)。
在一些实施例中,属性样本210和结构化数据集126之间的对应关系不是一对一的。例如,一些数据集可能不具有对应的属性样本,因为尚未生成属性样本。同样,如果不同的数据集具有相同的相干特性(例如如果它们具有相同的类型化属性),则那些数据集可被强制转换成相同的属性样本,而不管它们是否具有彼此不同的单元格值。给定数据集也可由不同的实施例被强制转换成不同的属性样本。
在一些实施例中,初级属性样本可以在完成以用作属性样本210之前通过计算来根据之前的属性样本进行调整,以反映诸如历史或策略等本地情况。关于历史,对特性的一些选择在历史上可能已经在导致有帮助的服务和/或数据集匹配建议方面更具生产性,并因此被偏好包括在属性样本210中。关于策略,一些特性在属性样本中可能被要求遵守企业策略,例如与数据集服务拍卖约定兼容,并且一些特性可由企业策略来被阻止在属性样本中使用,例如以便保护商业秘密。
一些实施例包括一个或多个候选数据集212、126,每一个候选数据集都可能随后被确定或不被确定为也是匹配的数据集214、126。候选数据集212是否是匹配的数据集214在一些实施例中通过存在匹配的数据集标识符的列表或集合中的标志或通过某一其他匹配指示216来指示。“匹配的数据集”是其相干特性在指定容忍度内匹配感兴趣的给定结构化数据集126的特性的数据集。数据集之间的匹配(和不匹配)可通过比较从各自的数据集强制转换而来的属性样本来确定。
一些实施例包括一个或多个服务过滤器218,该一个或多个服务过滤器使用属性样本210来过滤(过滤得到(filterin)和/或过滤掉(filterout))候选服务220作为感兴趣的给定结构化数据集126的匹配数据集。例如,服务过滤器218可被配置成过滤得到服务220,该服务220提供对包括财务类别中的任何属性130的属性样本210的公开公司收入数据单元格206的数据净化,或者在该属性样本包括企业名称串属性130和企业报告利润货币值属性130时过滤得到服务220。
一些实施例包括数据集修改模块222,该模块具有用于修改数据集126和/或数据集的用户工作上下文128的逻辑。数据集126可通过以下方式修改:添加属性130、将单元格206添加到现有行和/或作为新添加的行中的单元格、和/或改变(例如,净化、去重复)单元格值。数据集工作上下文128可通过添加另一数据集126来修改,该另一数据集与感兴趣的原始结构化数据集共享实体,但不一定具有任一相同的属性。例如,包含关于公共企业XYZ的财务表现信息的原始数据集可以在工作上下文128中用包含一组企业的名称和交叉所有权数据的数据集来补充。
一些实施例包括数据集修改预览模块224,该模块具有用于暂时显示将通过接受所建议的修改(例如,通过允许修改模块222丰富或改变数据集或添加共享实体的数据集,如刚才所讨论的)来做出的改变中的部分或全部的逻辑。暂时(预览)修改和永久(接受)修改之间的区分在给定实施例中以各种方式进行。在一些实施例中,只在光标悬停在指定数据集元素上方时显示预览。在一些实施例中,预览对数据集的RAM缓冲副本进行操作,该副本只在用户通过某一界面322手势接受预览的修改之后被保存到非易失性存储。在一些实施例中,一次只可预览单个修改,但该修改可影响多个单元格,例如,该修改将添加若干新行,但不会也对现有行的数据进行去重复。然而,在一些实施例中,所建议的修改的影响只在做出该修改之后被看见,但在这些实施例中的某一些实施例中,该修改可以在做出后被撤消(回退)。
参考图1到3,一些实施例提供了具有逻辑处理器110和存储器介质112的计算机系统102,该存储器介质由用于通过如本文所描述的抢先建议的修改来变换结构化数据集126和/或其工作上下文128的电路、固件和/或软件(“逻辑”)来配置。
一些实施例包括用于管理结构化数据集126的计算系统102,该计算系统包括本地逻辑处理器110、在操作上与本地逻辑处理器通信的本地存储器112以及“结构化数据集”126,即用户感兴趣的数据集126。该感兴趣的数据集是至少最初由用户提供的数据集;该数据集是用户104主要关注的数据集。该感兴趣的结构化数据集有时被称为“原始数据集”;尽管该数据集先前可能已经被修改(例如,由模块222),但该数据集是原始的而不是候选或匹配数据集,因为该修改是用户104始发的。结构化数据集驻留在本地存储器中并且具有至少一个类型化属性130。在一些实施例中,每一个类型化属性都包括列名称202和相关联的数据类型204。
一些实施例包括驻留在本地存储器112中的结构化数据集属性样本模块208。模块208具有指令,该指令在由本地逻辑处理器110执行时将自动将感兴趣的结构化数据集强制转换成具有至少一个与该结构化数据集共同的类型化属性的属性样本210。
一些实施例包括感兴趣的结构化数据集的属性样本210。属性样本210也驻留在本地存储器112中。
一些实施例包括驻留在本地存储器112中的匹配指示216,该指示基于属性样本210来指示候选数据集212是否是感兴趣的结构化数据集126的匹配的数据集214。候选数据集212不一定驻留在本地存储器112中,但如果不驻留,则该候选数据集的属性样本将在本地存储器中以允许经由比较候选和原始数据集各自的属性样本来比较候选和原始数据集,以确定它们是否匹配。具体而言,在一些实施例中,本地存储器112完全位于安全客户机周界402内,并且以下各项中的至少一个也驻留在也在安全客户机周界内的存储器(不一定是本地存储器)中:候选数据集、候选数据集的属性样本。
一些实施例包括包含指令的服务过滤器218,该指令在由处理器执行时将标识与原始数据集的属性样本兼容的数据集服务220。匹配指示216可用于指示感兴趣的结构化数据集和数据集服务220之间的匹配。服务220可提供数据集服务,诸如数据净化(纠正单元格值)、数据去重复(移除重复单元格、行、列)、数据集匹配(提供有可能匹配的候选数据集和/或匹配的数据集)、数据集值扩展(添加行、列;过滤得到空单元格)和/或数据集模式扩展(添加属性)。
一些实施例包括结构化数据集修改模块222,该模块驻留在存储器中并具有指令,该指令在由处理器执行时将自动基于属性样本来定位匹配的数据集214,并基于匹配的数据集(或等效地基于匹配的数据集的属性样本)来执行一个或多个修改。例如,模块222可通过基于属性频繁项目集信息404添加至少一个类型化属性130来丰富结构化数据集126。模块222可通过添加来自匹配的数据集的至少一行和/或通过向结构化数据集的一行添加匹配的数据集的至少一个单元格值来丰富结构化数据集。模块222可净化结构化数据集的至少一个单元格值。
一些实施例包括驻留在存储器中的结构化数据集修改预览模块224。在一些实施例中,预览模块224可使得经由修改模块222的可能的任何修改的结果对用户104可见。在其他实施例中,只可预览可能的修改中的某一些(并非全部)。无论如何,预览模块224具有指令,该指令在由处理器执行时将向用户提供针对匹配的数据集的修改的预览。
在一些实施例中,系统102包括驻留在本地存储器中的指令,该指令在由本地处理器执行时将执行提供特定界面能力的操作。这些指令可以是修改模块222、预览模块224或诸如界面332代码等其他客户机406代码的一部分。一种界面能力324通过颜色标记来显示对结构化数据集的所建议的纠正的高置信度,例如通过在净化预览中用绿色背景、绿色边框或绿色字体显示经净化的单元格以显示对该净化的信任,且用黄色显示怀疑。一种界面能力324提供修改预览特征,该特征通过将光标悬停在结构化数据集上方来控制,以使得在光标处于将被修改的数据集或数据集部分的上方时显示预览结果,否则不显示。一种界面能力324提供控制对结构化数据集的多个单元格的批量修改(例如,容易受到单个建议接受的添加或净化多个单元格的修改)的上下文菜单。一些实施例实施320一种界面能力,该界面能力显示受趋向的数据集而不一定暗示对用户的原始数据集的修改,例如通过显示以便查看372匹配的数据集的至少一部分而无需或不提供或不执行基于匹配的数据集的对结构化数据集的修改。
在某些实施例中,诸如人类用户I/O设备之类的外围设备106(屏幕、键盘、鼠标、图形输入板、话筒、扬声器、运动传感器等等)将可以在操作上与一个或多个处理器110和存储器进行通信。然而,一实施例也可以深嵌入在系统中,以便没有人类用户104直接与该实施例进行交互。软件进程可以是用户104。
在某些实施例中,该系统包括通过网络连接的多个计算机。网络接口设备可以使用例如诸如分组交换网络接口卡、无线收发机或电话网络接口之类的组件提供对网络108的接入,并将存在于计算机系统中。然而,一实施例也可以通过直接存储器访问、可移动非易失性介质、或其他信息存储-检索和/或传输方法进行通信,或者,计算机系统中的一实施例可以在不与其他计算机系统进行通信的情况下操作。
某些实施例在“云”计算环境和/或“云”存储环境中操作,其中计算服务不是自有的,而是按需提供的。例如,服务过滤器218和服务220可以在联网云的多个设备/系统102上,候选数据集212可以被存储在云内的又一些其他设备上,且界面322、修改模块222和/或预览模块224可以配置另外一些其他云设备/系统102上的显示器134。
过程
图3用流程图300示出了某些过程实施例。附图中所示的过程在某些实施例中可以例如由对工具120的请求驱动的修改模块222来自动执行,该工具在脚本的控制下运行或另外需要极少或不需要同时的用户输入。除非另外指明,否则过程也可以部分自动地且部分手动地执行。在一给定实施例中,可以重复过程的零个或更多个所示出的步骤,有可能利用不同的参数或数据来操作。一实施例中的步骤也可以按照与图3中展示的自顶向下次序不同的次序来执行。步骤可以串行地、以部分重叠的方式、或完全并行地执行。遍历流程图300以指出在过程中执行的步骤的次序可以在过程的一次执行与该过程的另一次执行之间不同。流程图遍历次序也可以在一个过程实施例与另一过程实施例之间不同。各步骤还可以被省略、组合、重命名、重组、或以其他方式偏离所示出的流程,只要所执行的过程是可操作的,并符合至少一个权利要求。
此处提供了帮助示出该技术的各方面的示例,但是在本文内给出的示例并未描述所有可能的实施例。实施例不仅限于此处所提供的具体实现、排列、显示、特征、方法或情形。给定实施例可包括例如附加的或不同的特征、机制、和/或数据结构,并可以以别的方式偏离此处所提供的示例。
在数据集获取步骤302期间,一实施例获取结构化数据集126。步骤302可使用通知、消息、调用、轮询和/或告知抢先模块222或224工具120已经打开例如数据集文件的其他机制来完成。
在强制转换步骤304期间,一实施例将数据集强制转换成属性样本210,即该实施例通过计算从感兴趣的所选信息中形成(创建或更新)属性样本210。如上所述,不同的实施例可选择数据集的不同特性来包括在属性样本中。属性样本210可被实现为构造、记录、XML代码、对象或使用适于包含如本文描述的特性的其他熟悉的数据结构。也可在属性样本中包括诸如时间戳、数字签名、校验和以及元数据等附加值。
在标识步骤306期间,一实施例基于属性样本210来标识一个或多个匹配的数据集214。步骤306可通过将逐个元素地将候选数据集的属性样本与感兴趣的原始数据集的属性样本进行比较来完成。不一定需要标识每一个元素。可以为一给定元素(例如,彼此在十年内)和/或为作为整体的属性样本(例如,至少五个元素必须匹配以使得属性样本匹配,或至少80%的元素必须匹配以使得属性样本匹配)指定容忍度。
在修改执行步骤308期间,一实施例通过计算执行对结构化数据集和/或该数据集的工作上下文的修改。例如,步骤308可包括用更多行、列和/或单元格来丰富310数据集,可包括改变312单元格值314和/或可包括316向上下文128添加共享实体318的数据集。步骤308可通过以下操作来实现:对工具120的现有数据输入代码进行操作,同时向其馈送匹配的数据集或服务的新数据和/或不同数据以便修改,而不是允许其依靠用户提供的数据。
在界面能力实施步骤320期间,一实施例实施界面能力324。例如,步骤320可包括显示326所建议的修改330、显示328所建议的修改的预览332或回退334以撤消先前执行308的修改。回退334可使用内部操作历史(类似于文字处理程序、电子表格的撤消功能)以及对本文描述的修改330进行操作的其他工具。
在安全要求遵守步骤336期间,一实施例遵守安全周界条件338。例如,该实施例可将候选数据集带到周界402内,而不是允许将感兴趣的数据集带到该周界外。可使用诸如许可、文件系统访问控制、凭证、认证、防火墙等熟悉的安全机制来专门提供数据集126的安全性。
在使用步骤340、342的场景期间,一实施例分别使用来自示例场景344或从零开始场景346。一些实施例支持这两个场景,而其他实施例只支持这些场景中的一个。
在修改建议步骤348阶段,一实施例建议对感兴趣的数据集126和/或其上下文128的一个或多个修改330。一些实施例抢先建议诸如特定行添加等特定修改,而其他实施例仅仅通过对话框或通过显示例如可用修改的列表或其他汇总来警告用户修改可用。
在服务匹配步骤350期间,一实施例经由数据集的属性样本来将数据集与数据集服务220进行匹配(或尝试匹配)。服务220可具有其自己的属性样本,该属性样本定义例如该服务期望在所操作的数据集126中找到的属性。期望服务属性样本(不像数据集属性样本)通常将由服务提供者来手动生成,而不是自动生成。
在数据集提供步骤352期间,用户(或代表用户操作的实施例)提供感兴趣的结构化数据集(也被称为原始数据集)。步骤352可例如通过在工具120中打开数据集文件或通过在工具120中开始创建数据集模式来完成。
在数据集修改步骤354期间,用户(或代表用户操作的实施例)修改感兴趣的结构化数据集(也被称为原始数据集)。步骤354可通过以下操作来完成:通过脚本或通过用户界面手势来操作一实施例以使该实施例执行308修改330。
在周界选择步骤356期间,用户(或代表用户操作的实施例)选择安全周界402来包含用户提供的数据集126,例如通过使用结合步骤336描述的熟悉的安全机制。
在周界选择确认步骤358期间,用户(或代表用户操作的实施例)确认先前对周界402的选择356,例如显式地通过界面手势或隐式地通过使用其中做出选择356的实施例。
在服务选择步骤360期间,用户(或代表用户操作的实施例)选择数据集服务220,例如通过使用界面手势(鼠标点击、键按压、屏幕触摸、图标拖动等)。
在服务选择确认步骤362期间,用户(或代表用户操作的实施例)确认先前对数据集服务220的选择360,例如显式地通过界面手势或隐式地通过使用其中做出选择360的实施例。
在计算系统操作步骤364期间,用户(或代表用户操作的实施例)操作计算系统102,例如通过脚本或通过使用界面手势(鼠标点击、键按压、屏幕触摸、图标拖动等)。
在数据集文件打开步骤366期间,用户(或代表用户操作的实施例)打开包含数据集126的至少一部分的一个或多个文件,例如通过在工具120中打开数据集文件。
在建议接收步骤368期间,用户从一实施例接收修改建议330,例如作为预览的一部分或者在抢先提供的修改330的列表中。在建议接受步骤370期间,用户接受来自一实施例的修改建议330,显式地通过界面手势或隐式地通过不回退该修改。
建议330和修改330此处被指定为具有相同的附图标记330,从而意识到建议有时将被采纳并由此称为修改,并且理解在本领域技术人员的上下文中,所建议的修改和所接受的修改之间的任何合适的差别都将是清楚的。使用共享的附图标记并不意味着每一个建议都必须被接受,或者任何修改都必须首先被呈现为建议(在预览中或以其他方式)。
在单元格值查看步骤372期间,用户例如在显示器上显示的电子表格中查看单元格值214。
在建议查看步骤374期间,用户查看显示例如显示器上显示的电子表格中的所建议的修改的结果的图像。
下面将参考各实施例比较详细地讨论前面的步骤和它们的相互关系。
从一实施例的观看来看,一些实施例向用户提供用于管理结构化数据集的过程。该过程包括在用户工作上下文中获取302具有至少一个类型化属性的结构化数据集的计算步骤。在一些实施例中,每一个类型化属性都具有列名称和相关联的数据类型,但例如在N维数据集中还可使用其他标签。该过程还包括通过计算将结构化数据集强制转换304成具有至少一个与该结构化数据集共同的类型化属性的属性样本。一些实施例包括至少部分地基于属性样本来标识306至少一个匹配的数据集214和/或匹配350的数据集服务220。
一些实施例包括至少部分地基于匹配的数据集或服务来执行308一个或多个修改330。例如,一些实施例通过至少部分地基于属性频繁项目集信息来添加匹配的数据集的至少一个类型化属性来丰富310结构化数据集。一些实施例通过添加匹配的数据集的至少一行来丰富310结构化数据集。一些实施例通过向结构化数据集的一行添加匹配的数据集或服务的至少一个单元格值来丰富310结构化数据集。一些实施例改变312结构化数据集的至少一个单元格值以匹配来自匹配的数据集或服务的单元格值。一些实施例向用户工作上下文添加316匹配的数据集,该匹配的数据集与结构化数据集共享实体318且不一定与结构化数据集共享类型化属性。一些实施例将属性样本(并由此将数据集)与诸如数据净化服务等特定服务220进行匹配。
一些实施例通过经由计算执行特定步骤来实施320界面能力324。例如,一些实施例用第一颜色显示结构化数据集的单元格值,并且同时用不同的第二颜色(例如,不同的背景、边框和/或字体颜色)显示作为所建议的修改的另一单元格值。一些实施例显示存在修改建议的颜色指示,而不一定显示建议本身,除非被提示或配置成这样做。一些实施例将单元格值从第一值改312为第二值,显示第二值,并且然后在不使用户在显示第二值之后键入第一值的情况下回退334到第一值。一些实施例显示328修改预览,即用户尚未接受的可能修改的结果的图像。
在一些实施例中,强制转换步骤将结构化数据集强制转换304成属性样本,该属性样本除了具有至少一个与结构化数据集共同的类型化属性之外,还具有与结构化数据集共同的以下各项中的至少一个:属性类别、单元格值、本文描述的属性样本210的任何其他特性。
在一些实施例中,(至少部分地基于属性样本)标识306至少一个匹配的数据集或数据集服务的步骤遵守至少一个指定的周界条件338。因此,在一些实施例中,匹配的数据集标识通过计算在客户机周界内进行,匹配的数据集是被带到客户机周界内的数据集。在一些实施例中,匹配的数据集标识通过计算在客户机安全周界内进行,该匹配的数据集具有被带到客户机周界内的数据集属性样本。在一些实施例中,通过在客户机周界之外使用结构化数据集属性样本而不将结构化数据集本身带到该客户机周界之外,匹配的数据集标识通过计算在客户机周界外进行。
一些实施例使用340来自示例场景344。在这种场景中,结构化数据集126包括具有对应的类型化属性以及填充行的一个或多个单元格值的至少一行。这些实施例中的一些实施例包括用户工作上下文中的计算步骤,诸如抢先建议348结构化数据集的附加属性、结构化数据集的附加行、单元格值中的至少一个的改变、附加单元格值或单元格值删除。
一些实施例使用342从零开始场景346。在这种场景中,结构化数据集包括至少一个类型化属性,但不一定还已经包括任何单元格值,因为用户正从零开始创建模式。这些实施例中的一些实施例通过计算在用户工作上下文中建议结构化数据集的附加属性。建议330可以至少部分地基于用户输入的属性,并且可基于属性频繁项目集信息。
从用户的观点来看,一些实施例由用户完成以便在用户工作上下文中管理结构化数据集。例如,在某些情况下,用户的过程包括向用户工作上下文中的计算系统提供352原始结构化数据集126,例如通过在计算系统中的电子表格应用120中打开结构化数据集。数据集126可包括至少一个类型化属性,并且可包括具有对应的类型化属性以及填充行的一个或多个单元格值的至少一行。用户还通过操作364计算系统以执行修改330来修改原始结构化数据集或用户工作上下文(或两者)。修改可以至少部分地基于未被首先显式地向用户工作上下文中的计算系统标识(即,该相同标识匹配,而非用户)的匹配的数据集或数据集服务。
在某些情况下,该用户过程通过添加匹配的数据集的至少一个类型化属性来丰富310结构化数据集。在某些情况下,该用户过程通过添加来自匹配的数据集的至少一行来丰富310结构化数据集。在某些情况下,该用户过程通过向结构化数据集的一行添加来自匹配的数据集的至少一个单元格值来丰富310结构化数据集。在某些情况下,该用户过程改变312结构化数据集的至少一个单元格值以便与匹配的数据集或服务的单元格值相匹配。在某些情况下,该用户过程向用户工作上下文添加316匹配的数据集。匹配的数据集可以与结构化数据集共享实体318,而不与结构化数据集共享类型化属性。
在一些实施例中,用户在提供步骤352和修改步骤354之间从计算系统接收368结构化数据集修改建议330,并且然后接受370该建议。作为该定时和活动的结果,修改步骤354包括操作计算系统来实现(即,在数据集内执行)该建议。
在某些情况下,用户受雇于一“企业”,即具有至少50个雇员的公司、机构、协会或其他实体。在这些情况下,丰富310结构化数据集可涉及基于该企业的属性频繁项目集信息来添加至少一个类型化属性。即,一些属性在统计上将比其他属性更频繁地在企业中使用,并且那些统计数据——频繁项目集信息——可用于制定建议330。
在一些实施例中,该用户过程包括查看372、374界面能力324。例如,用户可查看372结构化数据集中的第一颜色的单元格值314,并同时查看374不同的第二颜色的作为所建议的修改的另一单元格值。在某些情况下,用户可将单元格值从第一值改312为第二值,查看第二值,并且然后在不在查看第二值之后键入第一值的情况下回退到第一值(常规数据输入不被认为是回退)。在某些情况下,用户可查看374修改预览,即用户尚未接受的修改建议的结果的图像。
在某些情况下,该用户过程包括选择356客户机周界来限制结构化数据集的分发,和/或确认358先前对用于限制结构化数据集的分发的客户机周界的人类或自动化选择。在某些情况下,该用户过程包括选择360数据净化、数据丰富或其他服务220,例如以便建议对结构化数据集的单元格值的改变。在某些情况下,该用户过程包括确认362先前对服务220的人类或自动化选择。在某些情况下,该用户过程包括选择360共享实体数据集服务来建议与结构化数据集共享实体的数据集;在某些情况下,该用户过程包括确认362先前对用于建议与结构化数据集共享实体的数据集的共享实体数据集服务的人类或自动化选择。
图4是示出一示例体系结构中的结构化数据集管理的各方面的数据流程图。一给定实施例不一定涵盖图4(或任何其他附图)所示的每一个项目,但总体系结构被描述为帮助理解可能的实施例及其操作和组件。
给定客户机406可以是服务器-客户机意义上的客户机,或者对等网络中的节点,或者该客户机可具有从联网观点来看的某一其他角色。无论如何,客户机406被认为是出于结构化数据集管理的目的的客户机,因为用户最直接地与该客户机交互。
所示客户机406包括逻辑,诸如属性样本引擎408、候选匹配410和试用用户体验412。属性样本引擎408可包括属性样本模块208,该模块用于生成例如属性样本210以及属性样本的库、储存库或其他集合(特别是从候选数据集212强制转换而来的那些属性样本)。候选匹配410可包括例如服务过滤器218、用于相互比较属性样本的代码以及匹配指示216。试用用户体验412可包括例如具有用于显示界面能力324的代码的界面322、预览模块224和修改模块222。这些功能在不同的实施例中可以不同地组织,并且并非每一个实施例都具有每一个功能。
在所示体系结构中,可存在各种数据服务414。数据表层服务416提供客户机406和数据表层418之间的接口(经由web服务、API等)。数据表层服务416还可包括认证、记录、记账和类似的管理功能。数据表层418可包括用于将属性样本与服务220的提供者进行匹配的试探法420,例如,用于在关于棒球的“bat”属性和关于飞行哺乳动物的“bat”属性之间进行区分并相应地建议服务220的机制。
在一些方法中,数据表层418可包括复合索引422。这可以在以下情况下出现:表层中索引的候选数据集具有不止一个表征这些数据集的“纬度”(属性)和/或用户原始数据集被多维地强制转换304成属性样本。复合索引可提供属性频繁项目集信息。
在一些方法中,数据表层418可包括拍卖框架424,其中提供候选数据集集合以供进行许可、提供数据集服务、或两者兼而有之。还可在结构化数据集管理体系结构中实现其他市场隐喻。可插并行模块可通过用户交互分数来进化以提供相关数据集和服务220。在一些实施例中,数据表层418是上下文生成服务,其输入是用户的原始数据并且其输出是包含附加相关数据的上下文中的用户数据。
在所示体系结构中,系统服务426包括复合索引管理、数据提供者管理和共享实体地图。复合索引管理提供用于复合索引和属性频繁项目集信息的储存库。数据提供者管理包括数据集集合提供者、数据集服务提供者和诸如联系信息等相关数据的注册。共享实体地图提供基于包括用户经常感兴趣的实体的共享实体的数据集和/或数据集服务之间的连接。
在所示体系结构中,客户机可访问(可能在事务费用或订阅的基础上)的数据源428包括诸如用户的企业中已经拥有或得到许可的数据集之类的私有结构化数据430。同样可用的可以是诸如商业数据提供者提供的数据集之类的精心组织的数据432(通常在特定主题内和/或具有特定质量保证)以及从公开的公共web或深度web中提取的数据434(不一定具有任何质量保证)。
在所示体系结构中,客户机可访问(可能付费)的知识服务436包括数据集服务220以及提供诸如主题、成本、新近性、提供者身份等关于数据集服务220的信息的元服务。知识服务436还可包括诸如时间线或位置线等X线试探法438。具有历史的实体318具有时间线。具有地理分布的实体318具有位置线。具有内部组织结构的实体318具有组织线,等等。一旦实体318被标识为是感兴趣的,则试探法可指示什么种类的X线是与该实体相关的并且相应地向用户提供数据集。例如,如果实体318是公共公司,则可向客户机提供包括该公共公司的集合中的公司的收入线。
更一般而言,结构化数据集管理体系结构可包括本文描述的特征的任何组合或等价方面。作为几个附加具体示例,一实施例可使用颜色标记方案来表示各种类型的所建议的信息(一般建议、高置信度纠正、丢失值、替换值等)。一实施例可保持在任何时刻回退任何值的能力,且原始值被存储在后台。对许多单元格的批量操作可由上下文菜单来支持以接受/实现建议和/或回退。在一些实施例中,“试用”预览特征允许用户悬停在数据集上方并在接受建议之前获取对附加行/列以及净化建议将看上去像什么的即时预览。一些实施例在用户正在键入列标题时自动并抢先填充模式建议。尽管主要将数据集作为本文的示例,但一些实施例也在属性样本和服务220之间进行匹配。
对于一些实施例而言,作为设计目标,用户无需搜索相关数据,因为相关数据会找到其用户。即,相关数据将在用户不直接搜索或浏览web以找到相关数据的情况下有效地趋向于用户的工作上下文。用户的原始数据看上去将其他相关数据和相关服务拉向用户,因此“试用”是客户机和用户之间的默认交互模式。
在一些实施例中,对于模式扩展,一实施例将属性样本强制转换成模式上下文同义词标准形式并且然后建议最流行的扩展。对于数据扩展,一些实施例将属性样本强制转换成模式上下文同义词标准形式,创建类似集合的列表,并使用样本/属性样本来查找最佳匹配。在一些实施例中,至于共享实体,使用属性样本来标识导致以下X线匹配的实体类型:时间线、位置线、部分线等。当然,这些细节在每一个实施例中并非是必需的。
在一些实施例中,不需要属性样本。一些实施例将外部集合上的确切属性名称值与用户的本地数据集相匹配,并且然后将那些匹配的集合作为所建议的外部数据返回给电子表格用户以供“试用”。
经配置的介质
一些实施例包括经配置的计算机可读存储介质112。介质112可包括盘(磁盘、光盘,或其他)、RAM、EEPROM或其他ROM、和/或其他可配置存储器,特别包括非瞬态计算机可读介质(而不是有线和其他传播信号介质)。经配置的存储介质可以特别地是诸如CD、DVD或闪存之类的可移动存储介质114。可以是可移动或不可移动并且可以是易失性或非易失性的通用存储器可被配置成使用数据118和指令116形式的从可移动介质114和/或诸如网络连接等另一源读取的诸如属性样本210、属性样本模块208、服务过滤器218、抢先式数据集修改模块222和/或修改预览模块224等项目来形成经配置的介质的实施方式。经配置的介质112能够使计算机系统执行用于通过如本文描述的抢先建议来变换数据集的过程步骤。如此,图1到4帮助示出了经配置的存储介质实施例和过程实施例,以及系统和过程实施例。具体而言,图3和/或图4中示出的各过程步骤中的任一步骤或本文以其他方式教导的任一步骤可被用来帮助配置存储介质来形成经配置的介质实施例。
结论
虽然具体实施例在此处被明确示出并描述为进程、已配置的介质、或系统,但是可以理解,对一种类型的实施例的讨论也一般性地延伸到其他实施例类型。例如,结合图3对过程的描述也帮助描述已配置的介质,并帮助描述类似于结合其他附图所讨论的那些的系统和产品的操作。对一个实施例的限制也不一定适用于另一个实施例。具体而言,进程不一定仅限于在讨论诸如已配置的存储器之类的系统或产品时呈现的数据结构和方案。
不是图中所示出的每一项都需要存在于每个实施例中。例如,并非每一个实施例都需要属性样本。相反,实施例可以包含图中未显式地示出的项。虽然一些可能性在此处通过具体示例在文本和附图中示出,但是各实施例可以偏离这些示例。例如,一示例的具体特征可以被省略、重命名、以不同的方式分组、重复、不同地以硬件和/或软件实例化,或是在两个或更多示例中出现的特征的混合。在某些实施例中,在一个位置处示出的功能也可以在不同的位置处提供。
通过附图标记参考了附图。在附图或文本中与给定附图标记相关联的措词中的任何显而易见的不一致性应该被理解为仅仅时拓宽该标记所引用的内容的范围。
如此处所使用的,诸如“一”和“该”等术语包括了所指示的项目或步骤中的一个或多个。具体而言,在权利要求书中,对一个项的引用一般表示至少一个这样的项存在,并且对一个步骤的引用表示执行该步骤的至少一个实例。
标题是仅出于方便起见的;关于给定话题的信息可在其标题指示该话题的节之外找到。
所提交的所有权利要求和摘要是说明书的一部分。
尽管在附图中示出并在上文中描述了示例性实施例,但本领域普通技术人员将明白,可作出多种修改而不脱离权利要求书中阐明的原理和概念,且这些修改不需要涵盖整个抽象概念。尽管用结构特征和/或过程动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于权利要求书上面所描述的具体特征或动作。不一定在给定定义或示例中标识的每一个手段或方面都在每个实施例中存在或使用。相反,所描述的具体特征和动作是作为供当实现权利要求书时考虑的示例来公开的。
无法包围整个抽象概念但落入权利要求的等效技术方案的意义和范围内的所有改变都在法律所准许的最大程度内被包含在其范围内。

Claims (12)

1.一种用于管理结构化数据集的方法,所述方法包括以下计算步骤:
在用户工作上下文中获取感兴趣的结构化数据集,所述结构化数据集具有至少一个类型化属性,每一个类型化属性都包括列名称和相关联的数据类型;
将所述结构化数据集强制转换成具有至少一个与所述结构化数据集共同的类型化属性的属性样本;
至少部分地基于所述属性样本来标识至少一个匹配的数据集或数据集服务;以及
至少部分地基于所述匹配的数据集来执行以下修改中的至少一个:
(a)通过至少部分地基于属性频繁项目集信息来添加所述匹配的数据集的至少一个类型化属性来丰富所述结构化数据集,所述属性频繁项目集信息是指示哪些属性比其他属性更频繁地使用的统计数据;
(b)通过添加所述匹配的数据集的至少一行来丰富所述结构化数据集;
(c)通过向所述结构化数据集的一行添加所述匹配的数据集的至少一个单元格值来丰富所述结构化数据集;
(d)改变所述结构化数据集的至少一个单元格值以匹配所述匹配的数据集或数据集服务的单元格值;或者
(e)向所述用户工作上下文添加所述匹配的数据集,其中所述匹配的数据集与所述结构化数据集共享实体且不与所述结构化数据集共享类型化属性。
2.如权利要求1所述的方法,其特征在于,至少部分地基于所述属性样本来标识至少一个匹配的数据集的所述步骤遵守以下条件中的至少一个:
对所述匹配的数据集的标识在客户机周界内通过计算来进行,所述匹配的数据集是被带到所述客户机周界内的数据集;
对所述匹配的数据集的标识在客户机周界内通过计算来进行,所述匹配的数据集具有被带到所述客户机周界内的数据集属性样本;
通过在客户机周界外使用所述结构化数据集属性样本而不将所述结构化数据集本身带到所述客户机周界外,对所述匹配的数据集的标识在所述客户机周界外通过计算来进行;
通过在客户机周界内使用服务过滤器,对所述匹配的数据集的标识在所述客户机周界内通过计算来进行,所述服务过滤器与位于所述客户机周界外的服务进行通信。
3.如权利要求1所述的方法,其特征在于,所述方法出现在来自示例场景中,这意味着所述结构化数据集包括具有对应的类型化属性以及填充行的一个或多个单元格值的至少一行,并且其中所述方法包括所述用户工作上下文中的以下计算步骤中的至少一个:
抢先建议所述结构化数据集的附加属性;
抢先建议所述结构化数据集的附加行;
抢先建议对至少一个单元格值的改变;
抢先建议附加单元格值;或者
抢先建议单元格值删除。
4.如权利要求1所述的方法,其特征在于,所述方法出现在从零开始场景中,这意味着所述结构化数据集包括至少一个类型化属性并且用户正在从零开始创建模式,并且其中所述方法包括在所述用户工作上下文中至少部分地基于所述用户输入的属性和属性频繁项目集信息来通过计算建议所述结构化数据集的附加属性。
5.一种供用户使用计算系统来在用户工作上下文中管理结构化数据集的方法,所述方法包括以下步骤:
向所述用户工作上下文中的计算系统提供原始结构化数据集,所述结构化数据集包括具有对应的类型化属性以及填充行的一个或多个单元格值的至少一行;以及
通过操作所述计算系统来在不首先显式地向所述用户工作上下文中的计算系统标识匹配的数据集的情况下至少部分地基于所述匹配的数据集执行以下修改中的至少一个,修改所述原始结构化数据集或所述用户工作上下文:
(a)通过添加所述匹配的数据集的至少一个类型化属性来丰富所述结构化数据集;
(b)通过添加来自所述匹配的数据集的至少一行来丰富所述结构化数据集;
(c)通过向所述结构化数据集的一行添加来自所述匹配的数据集的至少一个单元格值来丰富所述结构化数据集;
(d)改变所述结构化数据集的至少一个单元格值以匹配所述匹配的数据集的单元格值;或者
(e)向所述用户工作上下文添加所述匹配的数据集,其中所述匹配的数据集与所述结构化数据集共享实体且不与所述结构化数据集共享类型化属性。
6.如权利要求5所述的结构化数据集管理方法,其特征在于,所述方法还包括下列步骤中的至少一个:
在所述计算系统中的电子表格应用中打开所述结构化数据集;
通过基于企业的属性频繁项目集信息添加至少一个类型化属性来丰富所述结构化数据集。
7.如权利要求5所述的结构化数据集管理方法,其特征在于,所述方法还包括通过执行以下步骤中的至少一个来查看界面能力:
查看所述结构化数据集中的第一颜色的单元格值,并同时查看不同的第二颜色的作为所建议的修改的另一单元格值;
查看存在修改建议的颜色指示;
将单元格值从第一值改为第二值,查看所述第二值,并且然后在不在查看所述第二值之后键入所述第一值的情况下回退到所述第一值;或者
查看修改预览,即查看所述用户尚未接受的修改建议的结果的图像。
8.如权利要求5所述的结构化数据集管理方法,其特征在于,所述方法还包括下列步骤中的至少一个:
选择客户机周界来限制所述结构化数据集的分发;
确认先前对用于限制所述结构化数据集的分发的客户机周界的人类或自动化选择;
选择数据净化服务来建议对所述结构化数据集的单元格值的改变;
确认先前对用于建议对所述结构化数据集的单元格值的改变的数据净化服务的人类或自动化选择;
选择数据丰富服务来建议对所述结构化数据集的丰富;
确认先前对用于建议对所述结构化数据集的丰富的数据丰富服务的人类或自动化选择;
选择共享实体数据集服务来建议与所述结构化数据集共享实体的数据集;或者
确认先前对用于建议与所述结构化数据集共享实体的数据集的共享实体数据集服务的人类或自动化选择。
9.一种用于管理结构化数据集的方法,所述系统包括:
提供驻留在本地存储器中并具有至少一个类型化属性的结构化数据集,每一个类型化属性都包括列名称和相关联的数据类型;
提供驻留在所述本地存储器中并且具有指令的结构化数据集属性样本模块,所述指令在由本地逻辑处理器执行时将自动将所述结构化数据集强制转换成具有至少一个与所述结构化数据集共同的类型化属性的属性样本;
提供驻留在所述本地存储器中的所述结构化数据集的属性样本;以及
提供驻留在所述本地存储器中的指示,所述指示基于所述属性样本来指示不一定驻留在所述本地存储器中的候选数据集是否是所述结构化数据集的匹配的数据集。
10.如权利要求9所述的方法,其特征在于,还包括提供驻留在所述存储器中并具有指令的结构化数据集修改模块,所述指令在由所述处理器执行时将自动并抢先基于所述属性样本来定位匹配的数据集,并基于所述匹配的数据集来执行以下修改中的至少一个:
(a)通过基于属性频繁项目集信息添加至少一个类型化属性来丰富所述结构化数据集;
(b)通过添加来自所述匹配的数据集的至少一行来丰富所述结构化数据集;
(c)通过向所述结构化数据集的一行添加所述匹配的数据集的至少一个单元格值来丰富所述结构化数据集;或者
(d)净化所述结构化数据集的至少一个单元格值。
11.一种用于管理结构化数据集的系统,所述系统包括:
用于在用户工作上下文中获取感兴趣的结构化数据集的装置,所述结构化数据集具有至少一个类型化属性,每一个类型化属性都包括列名称和相关联的数据类型;
用于将所述结构化数据集强制转换成具有至少一个与所述结构化数据集共同的类型化属性的属性样本的装置;
用于至少部分地基于所述属性样本来标识至少一个匹配的数据集或数据集服务的装置;以及
用于至少部分地基于所述匹配的数据集来执行以下修改中的至少一个的装置:
(a)通过至少部分地基于属性频繁项目集信息来添加所述匹配的数据集的至少一个类型化属性来丰富所述结构化数据集;
(b)通过添加所述匹配的数据集的至少一行来丰富所述结构化数据集;
(c)通过向所述结构化数据集的一行添加所述匹配的数据集的至少一个单元格值来丰富所述结构化数据集;
(d)改变所述结构化数据集的至少一个单元格值以匹配所述匹配的数据集或数据集服务的单元格值;或者
(e)向所述用户工作上下文添加所述匹配的数据集,其中所述匹配的数据集与所述结构化数据集共享实体且不与所述结构化数据集共享类型化属性。
12.一种用于管理结构化数据集的系统,所述系统包括:
用于提供驻留在本地存储器中并具有至少一个类型化属性的结构化数据集的装置,每一个类型化属性都包括列名称和相关联的数据类型;
用于提供驻留在所述本地存储器中并且具有指令的结构化数据集属性样本模块的装置,所述指令在由本地逻辑处理器执行时将自动将所述结构化数据集强制转换成具有至少一个与所述结构化数据集共同的类型化属性的属性样本;
用于提供驻留在所述本地存储器中的所述结构化数据集的属性样本的装置;以及
用于提供驻留在所述本地存储器中的指示的装置,所述指示基于所述属性样本来指示不一定驻留在所述本地存储器中的候选数据集是否是所述结构化数据集的匹配的数据集。
CN201210418171.7A 2011-10-28 2012-10-26 数据集和数据服务的上下文趋向 Active CN102999561B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/284,140 2011-10-28
US13/284,140 US8538934B2 (en) 2011-10-28 2011-10-28 Contextual gravitation of datasets and data services

Publications (2)

Publication Number Publication Date
CN102999561A CN102999561A (zh) 2013-03-27
CN102999561B true CN102999561B (zh) 2015-11-18

Family

ID=47928129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210418171.7A Active CN102999561B (zh) 2011-10-28 2012-10-26 数据集和数据服务的上下文趋向

Country Status (5)

Country Link
US (1) US8538934B2 (zh)
EP (1) EP2771810A4 (zh)
CN (1) CN102999561B (zh)
TW (1) TWI549006B (zh)
WO (1) WO2013062877A1 (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9582555B2 (en) * 2012-09-06 2017-02-28 Sap Se Data enrichment using business compendium
US9619668B2 (en) * 2013-09-16 2017-04-11 Axis Ab Managing application data in distributed control systems
CN103605543B (zh) * 2013-11-19 2017-06-06 北京国双科技有限公司 验证属性转换方法和装置
US10824799B2 (en) * 2014-06-30 2020-11-03 Microsoft Technology Licensing, Llc Summary data autofill
US10891272B2 (en) 2014-09-26 2021-01-12 Oracle International Corporation Declarative language and visualization system for recommended data transformations and repairs
US10976907B2 (en) * 2014-09-26 2021-04-13 Oracle International Corporation Declarative external data source importation, exportation, and metadata reflection utilizing http and HDFS protocols
US10210246B2 (en) * 2014-09-26 2019-02-19 Oracle International Corporation Techniques for similarity analysis and data enrichment using knowledge sources
US9836488B2 (en) 2014-11-25 2017-12-05 International Business Machines Corporation Data cleansing and governance using prioritization schema
CN105786860B (zh) * 2014-12-23 2020-07-07 华为技术有限公司 一种数据建模中的数据处理方法及装置
WO2016209213A1 (en) 2015-06-23 2016-12-29 Hewlett Packard Enterprise Development Lp Recommending analytic tasks based on similarity of datasets
US10685173B2 (en) * 2015-08-17 2020-06-16 International Business Machines Corporation Formatting tables with complex patterns
US20170052988A1 (en) * 2015-08-20 2017-02-23 International Business Machines Corporation Normalizing values in data tables
WO2017145386A1 (ja) 2016-02-26 2017-08-31 株式会社日立製作所 時系列データと分析データとのうちの少なくとも一部を入力データとした分析処理を実行する分析システム及び分析方法
US10657098B2 (en) 2016-07-08 2020-05-19 International Business Machines Corporation Automatically reorganize folder/file visualizations based on natural language-derived intent
US10650000B2 (en) 2016-09-15 2020-05-12 Oracle International Corporation Techniques for relationship discovery between datasets
US10565222B2 (en) 2016-09-15 2020-02-18 Oracle International Corporation Techniques for facilitating the joining of datasets
US10445062B2 (en) 2016-09-15 2019-10-15 Oracle International Corporation Techniques for dataset similarity discovery
US10546055B2 (en) 2016-10-20 2020-01-28 Microsoft Technology Licensing, Llc Join with format modification by example
US10394815B2 (en) 2016-10-20 2019-08-27 Microsoft Technology Licensing, Llc Join with predictive granularity modification by example
US10585888B2 (en) 2016-10-20 2020-03-10 Microsoft Technology Licensing, Llc Join with predictive merging of multiple columns
US20190384762A1 (en) * 2017-02-10 2019-12-19 Count Technologies Ltd. Computer-implemented method of querying a dataset
EP3553735A4 (en) * 2017-05-02 2019-11-06 Sustainable Medicine, Inc. SAFETY SYSTEM AND NODE DEVICE USED THEREIN
TWI649660B (zh) * 2017-05-05 2019-02-01 張漢威 資料分析系統及其分析方法
US10810472B2 (en) 2017-05-26 2020-10-20 Oracle International Corporation Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network
US10936599B2 (en) 2017-09-29 2021-03-02 Oracle International Corporation Adaptive recommendations
US10885056B2 (en) 2017-09-29 2021-01-05 Oracle International Corporation Data standardization techniques
US11226974B2 (en) * 2018-05-10 2022-01-18 Sap Se Remote data blending
CN109522313B (zh) * 2018-10-15 2020-11-24 深圳云天励飞技术有限公司 搜索服务器刷索引的方法、装置、设备及可读存储介质
US11727021B2 (en) * 2018-12-14 2023-08-15 Tibco Software Inc. Process control tool for processing big and wide data
US20210165786A1 (en) * 2019-10-02 2021-06-03 Infosum Limited Accessing datasets
US11444893B1 (en) * 2019-12-13 2022-09-13 Wells Fargo Bank, N.A. Enhanced chatbot responses during conversations with unknown users based on maturity metrics determined from history of chatbot interactions
US12099561B1 (en) * 2023-10-02 2024-09-24 Braze, Inc. Systems and methods for presenting information within a software application or website
CN117812151B (zh) * 2024-02-23 2024-04-26 中国人民公安大学 一种支持多平台功能提取与统建的系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1387293A1 (en) * 2002-08-01 2004-02-04 Sun Microsystems, Inc. Data structure manipulation system

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5893123A (en) * 1995-06-22 1999-04-06 Tuinenga; Paul W. System and method of integrating a spreadsheet and external program having output data calculated automatically in response to input data from the spreadsheet
US6032153A (en) * 1997-11-13 2000-02-29 Electric Data Systems Corporation Method and system for maintaining persistence in a shared object system
US6460059B1 (en) * 1998-08-04 2002-10-01 International Business Machines Corporation Visual aid to simplify achieving correct cell interrelations in spreadsheets
US6754666B1 (en) * 1999-08-19 2004-06-22 A2I, Inc. Efficient storage and access in a database management system
US6873990B2 (en) 2001-02-07 2005-03-29 International Business Machines Corporation Customer self service subsystem for context cluster discovery and validation
WO2003014977A1 (en) * 2001-08-10 2003-02-20 Datavine Research Services Method and apparatus for access, integration and analysis of heterogeneous data sources via the manipulation of metadata objects
US8046343B2 (en) * 2001-09-29 2011-10-25 Siebel Systems, Inc. Computing system and method for automatic completion of pick field
EP1367503A1 (en) * 2002-05-24 2003-12-03 Sun Microsystems, Inc. Method for displaying and modifying a relational database schema
US7711675B2 (en) * 2002-07-22 2010-05-04 Microsoft Corporation Database simulation of data types
US7606255B2 (en) * 2003-01-08 2009-10-20 Microsoft Corporation Selectively receiving broadcast data according to one of multiple data configurations
US7117222B2 (en) * 2003-03-13 2006-10-03 International Business Machines Corporation Pre-formatted column-level caching to improve client performance
US7523128B1 (en) * 2003-03-18 2009-04-21 Troux Technologies Method and system for discovering relationships
US7363581B2 (en) * 2003-08-12 2008-04-22 Accenture Global Services Gmbh Presentation generator
CN100421107C (zh) * 2003-10-21 2008-09-24 美国联合包裹服务公司 用于关系数据库的超集的数据结构和管理系统
JP2005196893A (ja) * 2004-01-08 2005-07-21 Toshiba Corp 情報記録媒体、情報記録方法、情報再生方法、情報記録装置、情報再生装置
US7512599B2 (en) * 2004-01-13 2009-03-31 Oracle International Corporation Query duration types
US20050262070A1 (en) * 2004-05-19 2005-11-24 Christensen Barbara A Method and apparatus for combining of information across multiple datasets in a JavaScript environment
US7386565B1 (en) * 2004-05-24 2008-06-10 Sun Microsystems, Inc. System and methods for aggregating data from multiple sources
US20060010367A1 (en) * 2004-07-09 2006-01-12 Juergen Sattler System and method for spreadsheet data integration
US7415481B2 (en) * 2004-09-30 2008-08-19 Microsoft Corporation Method and implementation for referencing of dynamic data within spreadsheet formulas
US7693860B2 (en) * 2005-03-18 2010-04-06 Microsoft Corporation Method and system to associate cell and item metadata
WO2006110485A2 (en) * 2005-04-07 2006-10-19 Insightful Corporation Method and system for handling large data sets in a statistical language
US20060242104A1 (en) * 2005-04-21 2006-10-26 Microsoft Corporation Systems and methods for manipulating data in a data storage system
US8065685B2 (en) * 2005-04-27 2011-11-22 Intel Corporation Method, system and apparatus for a transformation engine for use in the processing of structured documents
US7975019B1 (en) * 2005-07-15 2011-07-05 Amazon Technologies, Inc. Dynamic supplementation of rendered web pages with content supplied by a separate source
EP1755050A1 (en) * 2005-08-18 2007-02-21 Sap Ag A data processing system and method of storing a dataset having a hierarchical data structure in a database
US20070073674A1 (en) * 2005-09-26 2007-03-29 Bea Systems, Inc. System and method for providing federated events for content management systems
US20070078873A1 (en) * 2005-09-30 2007-04-05 Avinash Gopal B Computer assisted domain specific entity mapping method and system
US20070079282A1 (en) * 2005-09-30 2007-04-05 Pawan Nachnani Browser based designer and player
US20070100862A1 (en) * 2005-10-23 2007-05-03 Bindu Reddy Adding attributes and labels to structured data
US7895223B2 (en) 2005-11-29 2011-02-22 Cisco Technology, Inc. Generating search results based on determined relationships between data objects and user connections to identified destinations
US20070156519A1 (en) 2005-12-30 2007-07-05 Shai Agassi Method and system for providing sponsored content based on previous provided content
US20080114733A1 (en) * 2006-11-14 2008-05-15 Microsoft Corporation User-structured data table indexing
US7962443B2 (en) * 2007-02-08 2011-06-14 Interactive Documents, Llc Method and system for replacing data in a structured design template
US20120117500A1 (en) * 2007-02-23 2012-05-10 Enrico Maim Method for the extraction, combination, synthesis and visualisation of multi-dimensional data from different sources
US7844609B2 (en) * 2007-03-16 2010-11-30 Expanse Networks, Inc. Attribute combination discovery
US20090089269A1 (en) * 2007-10-02 2009-04-02 Jacqueline Linder Method and system for managing information in a database
JP2010039966A (ja) * 2008-08-08 2010-02-18 Hitachi Ltd データ管理方式
AU2009322602B2 (en) * 2008-12-02 2015-06-25 Ab Initio Technology Llc Mapping instances of a dataset within a data management system
US8738618B2 (en) * 2008-12-12 2014-05-27 At&T Intellectual Property I, L.P. Methods and systems to estimate query responses based on data set sketches
US8341196B2 (en) 2009-11-23 2012-12-25 Nokia Corporation Method and apparatus for creating a contextual model based on offline user context data

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1387293A1 (en) * 2002-08-01 2004-02-04 Sun Microsystems, Inc. Data structure manipulation system

Also Published As

Publication number Publication date
CN102999561A (zh) 2013-03-27
TWI549006B (zh) 2016-09-11
US20130110792A1 (en) 2013-05-02
US8538934B2 (en) 2013-09-17
EP2771810A1 (en) 2014-09-03
EP2771810A4 (en) 2015-08-12
TW201322024A (zh) 2013-06-01
WO2013062877A1 (en) 2013-05-02

Similar Documents

Publication Publication Date Title
CN102999561B (zh) 数据集和数据服务的上下文趋向
US11435874B2 (en) Formulas
US11681694B2 (en) Systems and methods for grouping and enriching data items accessed from one or more databases for presentation in a user interface
US10733193B2 (en) Similar document identification using artificial intelligence
US10466971B2 (en) Generation of an application from data
US11966419B2 (en) Systems and methods for combining data analyses
US10877984B1 (en) Systems and methods for filtering and visualizing large scale datasets
CN112925954A (zh) 用于在图数据库中查询数据的方法和装置
US9384285B1 (en) Methods for identifying related documents
WO2014113327A2 (en) Intellectual property asset information retrieval system
CN116414854A (zh) 数据资产查询方法、装置、计算机设备和存储介质
US10776399B1 (en) Document classification prediction and content analytics using artificial intelligence
US20230376689A1 (en) Devices, systems, and methods for displaying and linking legal content
Zhu et al. A visual analysis approach for data transformation via domain knowledge and intelligent models
Goel et al. Emerging Research Trends in Data Deduplication: A Bibliometric Analysis from 2010 to 2023
EP4256491A1 (en) Data management system for use with agreements and data detailing concepts, designs, and ideas
CN114935996A (zh) 在线处理文档的方法、计算机设备、存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150728

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150728

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C14 Grant of patent or utility model
GR01 Patent grant