CN105989523A - 用于分析的基于策略的数据收集处理及协商的方法与系统 - Google Patents

用于分析的基于策略的数据收集处理及协商的方法与系统 Download PDF

Info

Publication number
CN105989523A
CN105989523A CN201610158033.8A CN201610158033A CN105989523A CN 105989523 A CN105989523 A CN 105989523A CN 201610158033 A CN201610158033 A CN 201610158033A CN 105989523 A CN105989523 A CN 105989523A
Authority
CN
China
Prior art keywords
data
request
computer processor
descriptor
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610158033.8A
Other languages
English (en)
Other versions
CN105989523B (zh
Inventor
S.A.巴塞特
邓豫
金玟暻
A.西格尔
C.O.舒尔茨
A.赛勒
王龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN105989523A publication Critical patent/CN105989523A/zh
Application granted granted Critical
Publication of CN105989523B publication Critical patent/CN105989523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了一种鉴于分析的基于本体论策略的数据收集、处理、以及数据协商的方法。所述方法在一或多个数据源中搜索与数据请求相关的数据。所述方法从一或多个数据源收集与数据请求相关的数据。所述方法确定根据数据请求所生成的一或多个属性是否与一或多个与数据请求相关的数据所关联的描述符相匹配。所述方法为与数据请求相关的数据创建一或多个带注释的本体。所述方法显示与数据请求相关的数据的一或多个带注释的本体的层次结构的视频表示。所述方法至少部分地根据对一或多个数据选择的质量的评估,更新与数据请求相关的数据的一或多带注释的本体。

Description

用于分析的基于策略的数据收集处理及协商的方法与系统
技术领域
总体上讲,本发明涉及数据分析,更具体地讲,本发明涉及鉴于分析的、基于本体论策略的数据收集、数据处理、以及数据协商。
背景技术
本体论为一种用于描述由一组类型、特征、以及关系组成的范畴的方法的模型。根据一个分类系统,本体可以代表实体、概念、和事件、以及它们的特征与关系。
域本体(即,域特定的本体)代表属于所述范畴的一部分的概念。域本体提供了适用于一个域的术语的具体含义。例如,单词“卡”具有许多不同的含义。有关扑克的域的本体可以模型化单词“卡”的“玩牌”含义,而有关计算机硬件的域的本体可以模型化“卡”的“视频卡”含义。
由于域本体以非常具体的且通常折衷方式表示概念,所以它们通常是不兼容的。当依赖于域本体的系统扩展时,它们常常需要把域本体合并成一个更一般的表示。这对本体设计者提出了挑战。由于不同的语言、对本体的不同意图的使用、以及对域的不同的理解,同一域中会产生不同的本体(取决于文化背景、教育程度、思维方式等)。
发明内容
本发明的实施例的各个方面公开了鉴于分析的基于本体论策略的数据收集、处理、以及数据协商的方法、系统、以及计算机程序产品。所述方法包括:由一或多个计算机处理器搜索一或多个与数据请求相关的数据的数据源。所述方法包括:由一或多个计算机处理器从一或多个数据源收集与数据请求相关的数据。所述方法包括:由一或多个计算机处理器确定根据数据请求所生成的一或多个属性是否与一或多个与数据请求相关的数据所关联的描述符相匹配。响应于根据数据请求所生成的一或多个属性与一或多个与数据请求相关的数据所关联的描述符相匹配的确定,所述方法包括:由一或多个计算机处理器为与数据请求相关的数据创建一或多个带注释的本体。所述方法包括:由一或多个计算机处理器显示与数据请求相关的数据的一或多个带注释的本体的层次结构的视频表示。所述方法包括:由一或多个计算机处理器至少部分地根据对一或多个数据选择的质量的评估,更新与数据请求相关的数据的一或多个带注释的本体。
附图说明
图1是说明了根据本发明实施例的数据处理环境的功能结构图(总体指定为100)。
图2是描述了根据本发明实施例的用于分析的基于策略的数据收集、处理、以及协商的数据服务的示范性过程流程的流程图(总体指定为200)。
图3是描述了根据本发明实施例的用于分析的基于策略的数据收集与预处理的数据服务的操作步骤的流程图(总体指定为300)。
图4是描述了根据本发明实施例的用于显示一或多个带注释的本体的层次结构的视频表示的数据服务操作步骤的流程图(总体指定为400)。
图5描述了根据本发明实施例的云计算节点示例的示意图(总体指定为500)。
图6描述了根据本发明实施例的说明性的云计算环境(总体指定为600)。
图7描述了根据本发明实施例的云计算环境所提供的一组功能抽象层(总体指定为700)。
具体实施方式
本发明的实施例认识到对于用于流的数据的适当的标识与选择,云数据收集具有有限的能力,因此,数据提供商通常对用于相关分析的有用点之外的数据流加以限制。本发明的实施例还认识到数据的智能标记和精细粒度选择为数据提供商和数据消费者之间的数据选择、数据收集、以及数据协商提供了机会。
本发明的实施例提供了这样的能力:鉴于基于数据提供商和数据消费者之间的协商的定制数据选择和数据收集,以基于离线策略的数据自动标记和在线小粒度数据标记支持数据提供商。本发明的实施例提供了这样的能力:鉴于基于源预览数据和与相关分析相关的本体论策略的相关分析,预处理数据。本发明的实施例提供了本体的层次结构的视频化表示,以允许数据消费者调查和选择与相关分析相关的数据。本发明的实施例提供了向数据提供商通知数据请求,以附加地手工配置本体论策略的能力。本发明的实施例向数据消费者提供了评估具体数据提供商的数据的质量的能力。
这样的实施例的实现可以采用各种形式,接下来将参照附图讨论示范性实现的细节。
以下,将参照附图详细地描述本发明。图1是说明了根据本发明实施例的数据处理环境的功能结构图(总体指定为100)。图1仅提供了对一个实现的说明,并不意味着对其中可以实现不同实施例的环境的任何限制。本领域技术人员可以在不背离权利要求所阐述的本发明的范围的情况下,对所描述的环境进行诸多修改。数据处理环境100包括网络102、服务器104、数据提供(商)装置110、以及数据消费(者)装置112。
在所述示范性实施例中,例如,服务器104可以是诸如管理服务器、web服务器的服务器计算机系统,或者能够发送与接收数据的任何其它电子设备或者计算系统。在另一个实施例中,服务器104可以为一个数据中心,该数据中心由一组网络和诸如虚拟服务器的向外方提供IT服务的服务器以及部署在虚拟服务器上的应用组成。在另一个实施例中,服务器104代表由一或多个网络互连的计算机的“云”,其中,服务器104为计算系统,当通过网络102访问时,其把成群的计算机和部件用作单一的无缝资源池。除了云计算应用之外,这是数据中心的通常的实现。在所述示范性实施例中,服务器104包括数据服务106。
在所述示范性实施例中,例如,数据提供装置110可以是诸如管理服务器、web服务器的服务器计算机系统或者能够发送与接收数据的任何其它电子设备或者计算系统。在另一个实施例中,数据提供装置110可以为一个数据中心,该数据中心由一组网络和诸如虚拟服务器的向外方提供IT服务的服务器以及部署在虚拟服务器上的应用组成。在另一个实施例中,数据提供装置110代表由一或多个网络互连的计算机的“云”,其中,数据提供装置110为计算系统,当通过网络102访问时,其把成群的计算机和部件用作单一的无缝资源池。除了云计算应用之外,这是数据中心的一个通常的实现。在所述示范性实施例中,数据提供装置110包括用户接口108(b)。在所述示范性实施例中,用户接口108(b)为传统的用户接口,用于向数据提供装置110的用户提供与一或多个电子设备进行通信的能力。在一个实施例中,数据提供装置110可以经由诸如用户接口108(b)的用户接口与数据服务106进行通信。在所述示范性实施例中,数据提供装置110向数据服务106发送进行收集和处理的诸如云系统的票据数据的数据,以用于分析。
在所述示范性实施例中,例如,数据消费装置112可以是为诸如管理服务器、web服务器的服务器计算机系统或者能够发送与接收数据的任何其它电子设备或者计算系统。在另一个实施例中,数据消费装置112可以为数据中心,该数据中心由一组网络和诸如虚拟服务器的向外方提供IT服务的服务器以及部署在虚拟服务器上的应用组成。在另一个实施例中,数据消费装置112代表由一或多个网络互连的计算机的“云”,其中,数据消费装置112为计算系统,当通过网络102访问时,其把成群的计算机和部件用作单一的无缝资源池。除了云计算应用之外,这是数据中心的通常的实现。在所述示范性实施例中,数据消费装置112包括用户接口108(a)。在所述示范性实施例中,用户接口108(a)为传统的用户接口,用于与一或多个电子设备进行交互。在所述示范性实施例中,数据消费装置112经由诸如用户接口108(a)的用户接口请求具体的数据,并且对从数据服务106中为某一分析方案所提供的数据的质量进行评估。
在所述示范性实施例中,网络102是代表了使用TCP/IP协议互相通信的网络和网关的世界范围的集合的Internet(因特网)。网络102可以包括有线电缆、无线通信链路、光缆、路由器、交换机与/或防火墙。网络102互连服务器104、数据服务106、数据提供装置110、以及数据消费装置112。网络102可以是能够支持服务器104、数据服务106、数据提供装置110、以及数据消费装置112之间的通信的连接和协议的任何组合。网络102也可以作为诸如Intranet(内联网)、局域网(LAN)、虚拟局域网(VLAN)、或者广域网(WAN)的多种不同类型的网络加以实现。
在所述示范性实施例中,数据服务106是能够针对源级(即,来自数据提供装置的源预览数据)和目标级(即,与数据消费装置的分析要求相关的策略)上的分析预处理数据的基于软件的部件。在所述示范性实施例中,鉴于基于诸如数据提供装置110和数据消费装置112的数据提供装置和数据消费装置之间的协商的定制数据选择和数据收集,数据服务106以基于离线策略的数据自动标记和在线精细粒度数据标记支持诸如数据提供装置110的数据提供装置。在所述示范性实施例中,数据服务106生成与数据请求相关的本体的层次结构的视频化表示,允许诸如数据消费装置112的数据消费装置经由诸如用户接口108(a)的用户接口调查和选择针对具体分析方案的相关数据。在所述示范性实施例中,数据服务106提供了向诸如数据提供装置110的数据提供装置通知具体数据请求,以允许数据提供装置经由诸如用户接口108(b)的用户接口手工配置与数据请求相关的本体的能力。在所述示范性实施例中,数据服务106向诸如数据消费装置112的数据消费装置提供了用于评估诸如数据提供装置110的某一具体数据提供装置的各个方面的能力,包括但不局限于,经由诸如用户接口108(a)的用户接口评估提供商数据的质量值。在所述示范性实施例中,数据服务106利用来自过去策略以及如何把提供商数据用于更新本体论策略的历史数据。
图2是描述了根据本发明实施例的用于分析的基于策略的数据收集、处理、以及协商的诸如图1中的数据服务106的数据服务示范性过程流程的流程图(总体指定为200)。
在所述示范性实施例中,数据服务106收集提供商数据202。在所述示范性实施例中,数据服务106从诸如数据提供装置110的一或多个数据源收集提供商数据202,其中,提供商数据202是一系列输入数据,包括但不局限于大数据、服务器数据、日志数据、web论坛数据、配置方案、计算机紧急情况预备队(CERT)公报、文档、电子数据表、逗号分隔的值(CSV)文件、对象表示(JSON)、以及可扩展标记语言(XML)等,诸如数据提供装置110的数据提供装置使这些数据可得。在一个实施例中,数据服务106可以主动地从一或多个数据源收集提供商数据202,例如,通过从数据流抽取输入数据。在另一个实施例中,数据服务106可以被动地从一或多个数据源收集提供商数据202,例如,通过接收从一或多个数据源直接输入的数据。例如,数据服务106可以经由数据流收集数据提供装置使其可得的日志数据。在另一个实施例中,数据服务106从诸如数据提供装置110的数据提供装置接收提供商数据202。
在所述示范性实施例中,数据服务106增殖(populate)数据描述符模板204。在所述示范性实施例中,数据描述符模板204是可配置的数据描述符模板,包括定义了具体域的一或多个本体描述符。
在所述示范性实施例中,数据服务106利用本体引擎206创建一或多个针对提供商数据202的带注释的本体。数据服务106利用本体引擎206把数据描述符、本体描述符、以及相关用户定义的数据策略规则相关联,以创建一或多个用于描述数据及其各种处理要求的本体。例如,在其中用户定义的数据策略陈述“如果IP属于公司A但口令不符,则添加日志”的信息技术(IT)配置域中,数据服务106将创建具有诸如“口令”的首选标签及其相关数据、具有“工作日志”及其相关数据的一或多个本体。在接下来的图中,将详细讨论数据服务106和本体引擎206的各个方面。
数据服务106利用数据过滤器208清理来自相关的一或多个本体的数据,以确保数据符合用户定义的数据策略规则。当完成了数据过滤时,使消费者数据210对诸如数据消费装置112的数据消费装置可用。在接下来的图中,将更详细讨论数据服务106和数据过滤器208的各个方面。
图3是描述了根据本发明实施例的用于数据选择与协商的诸如图1的数据服务106的数据服务的操作步骤的流程图(总体指定为300)。
数据服务106接收数据请求(302)。在所述示范性实施例中,数据服务106从诸如数据消费装置112的数据消费装置接收数据请求,其中,数据请求包括对于某一具体分析方案数据消费装置感兴趣的数据。在所述示范性实施例中,数据服务106经由诸如用户接口108的用户接口、或者应用程序接口(API)接收数据请求,其中,数据请求是自然语言格式或者结构化的格式等。例如,数据服务106从诸如数据消费装置112的数据消费装置接收数据请求,其中,数据请求指定某一具体分析方案所需要的数据,例如最终用户管理员或者服务提供商在动态分析它们的操作与商业数据以使消费者更好了解商业的过程中所感兴趣的数据。
数据服务106从一或多个数据源搜索与数据请求相关的数据(304)。在所述示范性实施例中,数据服务106通过根据数据请求生成属性(即,数据消费装置的数据要求)以及从一或多个数据源搜索与属性相关的可得数据,从一或多个数据源搜索与数据请求相关的可得数据。在所述示范性实施例中,一或多个数据源可以包括但不局限于数据流、服务器数据库、Internet、一或多个诸如数据提供装置110的数据提供装置、云服务提供商、数据挖掘引擎、以及能够向数据消费装置提供数据的任何其它合适的数据源。在所述示范性实施例中,数据服务106通过确定描述和标识数据请求中所请求的数据要求的一或多个属性,根据数据请求生成属性,其中,一或多个属性可以包括但不局限于关键字、主题、短语、文件类型、文件大小、域特定的描述符、系统数据集合、多个统计数据、多个消费者信息、多个雇员信息、以及能够描述和标识与数据消费装置的数据要求相关的可得数据的任何其它合适的属性。
数据服务106确定根据数据请求所生成的属性和与数据请求相关的数据所关联的描述符是否匹配(306)。在所述示范性实施例中,数据服务106通过抽取一或多个数据源(即,数据描述符)所提供的可得数据的一或多个特征,并且把所述一或多个特征与根据数据请求所生成的属性进行比较,确定根据数据请求所生成的属性和与数据请求相关的可得数据所关联的描述符(诸如图2的数据描述符模板中的描述符)是否匹配。在可得数据的一或多个特征中的至少一个与根据数据请求所生成的属性中的至少一个相关的情况下,数据服务106确定根据数据请求所生成的属性和与数据请求相关的数据所关联的描述符匹配。在可得数据的一或多个特征与根据数据请求所生成的属性中的至少一个不相关的情况下,数据服务106确定根据数据请求所生成的属性和与数据请求相关的数据所关联的描述符不匹配。
响应于对根据数据请求所生成的属性和与数据请求相关的数据所关联的描述符匹配的确定(“是”分支,306),数据服务106为与数据请求相关的数据提供一或多个带注释的本体的层次结构的视频化表示(312)。在所述示范性实施例中,数据服务106利用图4中所描述的流程图400的操作步骤,通过经由诸如用户接口108(a)的用户接口,向诸如数据消费装置112的数据消费装置显示带注释的一或多个本体的层次结构的视频化表示,针对与数据请求相关的数据的一或多个带注释的本体(诸如本体引擎206所创建的一或多个带注释的本体)提供层次结构的视频化表示,其中,针对与数据请求相关的数据的一或多个带注释的本体的层次结构的视频化表示包括按层次结构组织的本体描述符。在所述示范性实施例中,根据与数据请求相关的数据,使用一或多个文档的摘要标注一或多个带注释的本体,而且所述标注符合用于处理数据的一或多个可修改的策略规则(即,数据提供装置策略规则和数据消费装置策略规则)。在所述示范性实施例中,数据服务106经由诸如用户接口108(a)的用户接口显示层次结构的视频化表示,以允许诸如数据消费装置112的数据消费装置调查数据的不同的暴露的方面,并且根据针对某一具体分析方案的数据要求进行数据选择。图4中将更详细地讨论数据服务106用于创建与数据请求相关的数据的一或多个带注释的本体的操作步骤。
响应于对根据数据请求所生成的属性和与数据请求相关的数据所关联的描述符不匹配的确定(“否”分支,306),数据服务106发送对与数据请求相关的附加数据的请求(308)。在所述示范性实施例中,数据服务106把针对与数据请求相关的附加数据的请求发送给一或多个数据源,以评估任何与数据请求相关的附加数据的可得性。在一个实施例中,数据服务106可以从与数据请求相关的附加数据可得的一或多个数据源接收通知。在另一个实施例中,数据服务106可以从无与数据请求相关的附加数据可得的一或多个数据源接收通知。
数据服务106确定根据数据请求所生成的属性和与数据请求相关的任何附加数据所关联的描述符是否匹配(310)。在所述示范性实施例中,响应于与数据请求相关的任何附加数据的可得,数据服务106通过抽取一或多个数据源(即,数据描述符)所提供的附加数据的一或多个特征,并且把所述一或多个特征与根据数据请求所生成的属性进行比较,确定根据数据请求所生成的属性和与数据请求相关的任何附加数据所关联的描述符是否匹配。在任何附加数据的一或多个特征中的至少一个与根据数据请求所生成的属性中的至少一个相关的情况下,数据服务106确定根据数据请求所生成的属性和与数据请求相关的任何附加数据所关联的描述符匹配。在任何附加数据的一或多个特征与根据数据请求所生成的属性中的至少一个不相关的情况下,数据服务106确定根据数据请求所生成的属性和与数据请求相关的任何附加数据所关联的描述符不匹配。
响应于对根据数据请求所生成的属性和与数据请求相关的附加数据所关联的描述符不匹配的确定(“否”分支,310),数据服务106提示修改数据策略(320)。在所述示范性实施例中,数据服务106提示诸如数据消费装置112的数据消费装置经由诸如用户接口108(a)的用户接口修改现存的数据策略,以促进对与数据请求相关的可得数据更好地返回。例如,数据服务106可以提示数据消费装置通过添加附加准则拓宽数据请求中所请求的数据的类型来修改数据策略,或者通过指定较少限制的数据要求来修改数据策略。在一个实施例中,数据服务106提示诸如数据提供装置110的数据提供装置经由诸如用户接口108(b)的用户接口修改现存的数据策略,以提高与数据请求相关的可得数据的质量和数量。在一个实施例中,响应于诸如数据消费装置112的数据消费装置经由诸如用户接口108(a)的用户接口对现存的数据策略的修改,数据服务106可以在一或多个数据源中搜索与数据请求相关的数据(304)。在一个实施例中,响应于诸如数据提供装置110的数据提供装置经由诸如用户接口108(b)的用户接口对现存的数据策略的修改,数据服务106可以在一或多个数据源中搜索与数据请求相关的数据(304)。在一个实施例中,响应于诸如数据消费装置112的数据消费装置经由诸如用户接口108(a)的用户接口对现存的数据策略的修改,数据服务106可以把更新的数据策略存储在由诸如本体引擎206的本体引擎所利用(leverage)的数据库中,以利用图4的流程图400中所描述的步骤创建一或多个带注释的本体。在一个实施例中,响应于诸如数据提供装置110的数据提供装置经由诸如用户接口108(b)的用户接口对现存的数据策略的修改,数据服务106可以把更新的数据策略存储在由诸如本体引擎206的本体引擎所利用的数据库中,以利用图4的流程图400中所描述的步骤创建一或多个带注释的本体。
响应于对根据数据请求所生成的属性和与数据请求相关的附加数据所关联的描述符匹配的确定(“是”分支,310),数据服务106为与数据请求相关的数据提供一或多个带注释的本体的层次结构的视频化表示(312)。在所述示范性实施例中,数据服务106利用图4中所描述的流程图400的操作步骤,提供针对与数据请求相关的数据的一或多个带注释的本体(诸如本体引擎206所创建的一或多个带注释的本体)的层次结构的视频化表示,其中,针对与数据请求相关的数据的一或多个带注释的本体的层次结构的视频化表示包括按层次结构组织的本体描述符,其中,根据与数据请求相关的数据使用一或多个文档的摘要标注一或多个带注释的本体,而且所述标注符合用于处理数据的一或多个可修改的策略规则(即,数据提供装置策略规则和数据消费装置策略规则)。在所述示范性实施例中,数据服务106经由诸如用户接口108(a)的用户接口提供层次结构的视频化表示,以允许诸如数据消费装置112的数据消费装置调查数据的不同的暴露的方面,并且根据针对某一具体分析方案的数据要求进行数据选择。
数据服务106接收一或多个数据选择(314)。在所述示范性实施例中,数据服务106从与数据请求相关的数据的一或多个带注释的本体的层次结构的视频化表示中所提供的数据接收一或多个数据选择。在所述示范性实施例中,数据服务106经由诸如用户接口108(a)的用户接口,从诸如数据消费装置112的数据消费装置的输入接收一或多个数据选择。
数据服务106执行过滤(316)。在所述示范性实施例中,数据服务106利用诸如图2的数据过滤器208的数据过滤器,执行对来自与数据请求相关的数据的一或多个带注释的本体的数据的过滤。在所述示范性实施例中,数据服务106至少部分地根据数据消费装置的数据选择、数据消费装置数据策略、以及数据提供装置数据策略,对来自与数据请求相关的数据的一或多个带注释的本体的数据进行过滤,以根据诸如数据消费装置112和数据提供装置110的数据消费装置和数据提供装置的数据策略和各种偏好,生成数据的子集。在所述示范性实施例中,数据服务106通过使用诸如图4的流程图400中所接收的一或多个用户所定义的策略规则的可修改的数据策略规则,从数据消费装置数据策略、数据提供装置数据策略、或者这两者清理来自一或多个带注释的本体的数据,以确保数据选择符合数据策略规则。例如,可修改的数据策略规则的类型可以包括:根据特权和安全性、部分删除或者修订、IF-THEN条件、以及信息的聚集等,防止关联。在一个实施例中,响应于对来自与数据请求相关的数据的一或多个带注释的本体的数据的过滤(即,数据选择遵照可修改的数据策略规则),数据服务106向数据消费装置提供符合的数据。
数据服务106提示对一或多个数据选择的质量进行评估(318)。在所述示范性实施例中,数据服务106提示诸如数据消费装置112的数据消费装置对一或多个数据选择(即,所提供的数据)的质量进行评估,其中,对一或多个数据选择的质量的评估包括但不局限于对数据源可信度进行排序、对数据源威望进行排序、对与某一具体域相关的数据源、数据策略的有效性进行排序、以及对通过过滤更新的数据的比率进行排序。在一个实施例中,评估可以包括根据所提供的数据的类型、质量、以及数量对一或多个数据源(即,数据提供装置)进行排序。在一个实施例中,数据服务106把对一或多个数据选择的质量的评估存储在数据库(未示)中,使得数据服务106能够利用该评估作为用于更新一或多个带注释的本体的历史数据。
数据服务106提示修改数据策略(320)。在所述示范性实施例中,数据服务106提示诸如数据消费装置112的数据消费装置修改现存的数据策略,以促进对与数据请求相关的可得数据更好地返回。例如,数据服务106可以提示数据消费装置通过添加附加准则拓宽数据请求中所请求的数据的类型来修改数据策略,或者通过指定较少限制的数据要求来修改数据策略。在另一个实施例中,数据服务106可以提示诸如数据提供装置110的数据提供装置修改现存的数据策略,以促进较好的评估和提高数据消费装置的活动性。例如,根据过去的对数据质量和数量的评估,数据提供装置可以修改数据策略规则,以允许对正被提供的数据的更少的限制。
数据服务106更新一或多个带注释的本体(322)。在所述示范性实施例中,数据服务106至少部分地根据与过去的数据策略对所提供的数据的影响相关的历史数据、对数据消费装置如何针对某一具体分析方案使用数据的反馈、以及数据源和所提供的数据的各种排序,更新一或多个带注释的本体。
图4是描述了根据本发明实施例的用于显示一或多个带注释的本体的层次结构的视频表示的诸如图1的数据服务106的数据服务操作步骤的流程图(总体指定为400)。
数据服务106接收一或多个用户所定义的策略规则(402)。在所述示范性实施例中,数据服务106接收一或多个用户所定义的策略规则,其中,用户所定义的策略规则是用于处理数据的收集、预处理、传播、以及选择的可修改的数据策略规则。例如,用户所定义的策略规则可以包括与数据私有、数据开销、数据拓扑、以及数据数量、数据特征等相关的规则。在另一个示例中,用户所定义的策略规则可以指示如何针对约束、同义语、依赖性等处理数据。在所述示范性实施例中,用户所定义的策略规则是可以修改的,使得诸如数据消费装置112的数据消费装置和诸如数据提供装置110的数据提供装置能够改进数据策略规则,以满足各种需求。例如,诸如数据提供装置110的数据提供装置可以修改用户所定义的策略规则,以进一步限制为向诸如数据消费装置112的数据消费装置传播而所收集的敏感数据的类型与数量,同时拓宽为传播所收集的较少敏感数据的类型与数量。
数据服务106从一或多个数据源收集数据(404)。在所述示范性实施例中,数据服务106从一或多个数据源收集数据,其中,数据源包括但不局限于数据库、数据流、多个文件、多个文档、以及数据挖掘服务等。在所述示范性实施例中,数据提供装置110可以包括一或多个数据源。在所述示范性实施例中,数据服务106至少部分地根据来自诸如数据消费装置112的数据消费装置的数据请求来收集数据。
数据服务106从数据中抽取一或多个描述符(406)。在所述示范性实施例中,数据服务106从数据(即,所收集的数据)中抽取一或多个描述符,其中,一或多个描述符的功能是描述和标识所收集的数据。例如,数据服务106可以根据头标、典型的正则表达式、Internet协议(IP)地址、以及日志等从所收集的(即,可得的)数据抽取特征。
数据服务106增殖数据的数据描述符模板(408)。在所述示范性实施例中,数据服务106为具有一或多个从数据中抽取的描述符的数据增殖数据描述符模板,例如,图2的数据描述符模板。数据服务106至少部分地根据给定的域本体、具体的一组数据(即,所收集的数据)、以及数据提供装置数据策略来使用自动数据标记。
数据服务106确定一或多个为数据定义域的本体(410)。在所述示范性实施例中,数据服务106通过发现相关的本体描述符并且把相关的本体描述符与来自所收集的数据的相关数据描述符相关联,确定一或多个为数据定义了域的本体。例如,在其中数据服务106抽取数据描述符“社会安全号”的情况下,数据服务106可以发现诸如“SSN”的相关本体描述符,并且把相关本体描述符与相关的数据描述符“社会安全号”相关联,然后,确定定义了与社会安全号相关的数据的域的一或多个本体。
数据服务106把一或多个用户所定义的策略规则与一或多个来自数据的描述符相关联(412)。在所述示范性实施例中,数据服务106通过确定策略规则和数据描述符之间的相关度级别,把一或多个用户所定义的策略规则与一或多个来自数据的描述符相关联。例如,在用户所定义的策略包括与敏感的和保密的病人信息相关的规则的情况下,数据服务106可以确定那些规则和包括病人健康记录、社会安全号、地址、以及联系信息等的所收集的数据之间高度相关。响应于对策略规则和数据描述符之间的相关度的确定,数据服务106把一或多个用户所定义的策略规则与来自用于管理数据的保存、聚集、以及修剪的数据的一或多个描述符相关联。
数据服务106为数据创建一或多个带注释的本体(414)。在所述示范性实施例中,数据服务106通过把为数据定义域的本体和与概念相关的策略(即,用户定义的数据策略规则)相结合,为数据创建一或多个带注释的本体,以依据那些与概念相关的策略来描述数据和各种处理要求(例如,同义语、依赖性、约束、私有规则等)。例如,数据服务106可以为与健康护理事件的比率相关的数据创建带注释的本体,其中带注释的本体可以包括与健康护理事件的类型相关的数据(例如,急诊室、外伤、肿瘤学、身体检查等),但将根据所定义的策略规则排除病人数据(例如,社会安全号、名字、地址等)。在所述示范性实施例中,一或多个带注释的本体中的每一个通过数据的一或多个描述符的层次结构为所收集的数据定义域。在所述示范性实施例中,数据服务106利用从数据源(即,所收集的数据)所收集的一或多个文档的至少一个摘要来标注一或多个数据描述符,从而可以按动态、灵活、以及交互的格式提交数据。在所述示范性实施例中,利用至少一个摘要标注一或多个数据描述符包括:把搜索一或多个数据源所得到的摘要信息相关联、把数据策略规则施加于至少一个摘要、以及修改至少一个摘要,以符合相关的数据策略规则。在所述示范性实施例中,所述标注符合用户定义的数据策略规则。在所述示范性实施例中,通过经由诸如用户接口108(a)的用户接口按层次结构的视频化表示显示一或多个带注释的本体,把一或多个带注释的本体存储在诸如服务器104的服务器的一或多个存储器中,并且可以将它们提供给诸如数据消费装置112的数据消费装置。
图5描述了根据本发明说明性实施例诸如服务器104的数据处理环境100中的数据处理系统的部件的结构图(总体指定为500)。应该意识到,图5仅提供了一个实现的说明,并不意味着对其中可以实现不同实施例的环境加以任何限制。可以对所描述的环境进行诸多修改。在一个实施例中,数据处理系统500为云计算节点,并且仅为合适的云计算节点的一个示例,而且不旨在暗示对此处所描述的本发明的实施例的使用或者功能的范围的任何限制。无论如何,数据处理系统500都能够被实现和/或执行此处所阐述的任何功能。
在这一说明性的实施例中,按诸如服务器104的通用计算设备的形式描述了数据处理环境100中的计算机系统510。计算机系统510的部件可以包括但不局限于一或多个处理器或者处理单元514、存储器524、以及把包括存储器524的各种系统部件耦合于处理单元514的总线516。可以按由计算机系统执行的诸如程序模块的计算机可执行的指令的一般上下文描述计算机系统510。通常情况下,程序模块可以包括执行具体任务或者实现具体抽象数据类型的例程、程序、对象、部件、逻辑、数据结构等。可以在其中由通过通信网络链接的远程处理设备执行任务的分布式云计算环境中实践计算机系统510。在分布式云计算环境中,可以把程序模块定位在包括存储器存储设备的本地和远程计算系统存储介质中。
总线516表示几类总线体系结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中任何一种总线结构的局域总线。这些体系结构包括,例如,但不局限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外部部件互连(PCI)总线。
计算机系统510通常包括多种计算机系统可读介质。这样的介质可以为能够被计算机系统510访问的任意可得介质,其包括易失和非易失介质、可拆卸和不可拆卸介质。
存储器524可以包括易失存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)526与/或高速缓存存储器528。计算机系统510可以进一步包括其它可拆卸/不可拆卸、易失/非易失计算机系统存储介质。仅作为举例,存储系统530可以用于读写不可拆卸、非易失磁介质(未示,通常称为“硬盘驱动器”)。尽管未加以描述,也可以提供用于对可拆卸非易失磁盘(例如“软盘”)读写的磁盘驱动器,以及对可拆卸非易失光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这样的情况下,每种驱动器可以通过一或多个数据介质接口与总线516相连。存储器524可以包括至少一个计算机程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置执行本发明各实施例的功能。
可以把具有一组或多组程序模块534的程序/实用工具532存储在存储器524中,这样的程序模块534包括但不局限于例如操作系统、一或多个应用程序、其它程序模块、以及程序数据。操作系统、一或多个应用程序、其它程序模块、以及程序数据、或者它们的某一组合可以包括网络连接环境的实现。程序模块534通常执行此处所描述的本发明实施例的功能与/或方法。
计算机系统510也可以与一或多个外部设备512(例如键盘、指向设备、显示器522等)通信,还可与一或多个能使用户与计算机系统510进行交互的设备通信,以及与能使计算机系统510与一或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这样的通信可以经由输入/输出(I/O)接口520进行。并且,计算机系统510还可以经由网络适配器518与一或多个网络(例如局域网(LAN),广域网(WAN)、与/或公共网络,例如Internet)通信。如所描述的,网络适配器518经由总线516与计算机系统510的其它部件进行通信。应该意识到,尽管图中未示,其它硬件和软件部件也可以与计算机系统510一起加以使用,例如,所述其它硬件和软件部件为微代码、设备驱动器、冗余处理单元、外部盘驱动阵列、RAID系统、磁带驱动器、以及数据档案存储系统等。
现在参考图6,图6说明性地描述了根据本发明一个实施例的云计算环境60。如图中所示,云计算环境60包含云计算消费者使用的局部计算设备可以与其进行通信的一或多个云计算节点500,例如,本地计算设备可以是个人数字助理(PDA)或移动电话64A,台式计算机64B、膝上计算机64C与/或汽车计算机系统64N。云计算节点500之间可以相互通信。可以在诸如私有云、共同体云、公共云或混合云、或者它们的组合的一或多个网络中将云计算节点500进行物理或虚拟分组(图中未示)。这允许云计算环境60提供云消费者无需在本地计算设备上为其维护资源的基础设施服务(IaaS)、平台服务(PaaS)与/或软件服务(SaaS)。应该意识到,图5中所示的各类计算设备64A-N仅仅是说明性的,云计算节点500以及云计算环境60可以与任何类型网络与/或网络可寻址连接上的任何类型的计算设备通信(例如使用网络浏览器)。
现在参考图7,图7描述了根据本发明的实施例的云计算环境60所提供的一组功能抽象层。首先应该意识到,图7所示的部件、层以及功能都仅仅是说明性的,本发明的实施例并不局限于此。如图中所示,提供下列层和相应的功能:
硬件与软件层70包括硬件与软件部件。硬件部件的示例包括:大型机、基于RISC(简化指令集计算机)体系结构的服务器、服务器、刀片式服务器、存储设备、以及网络与连网部件。在某些实施例中,软件部件包括网络应用服务器软件和数据库软件。
虚拟化层72提供了抽象层,可以从该层提供下列虚拟实体的例子:虚拟服务器、虚拟存储器、虚拟网络(包括虚拟私有网络)、虚拟应用和操作系统、以及虚拟客户机。
在一个示例中,管理层74可以提供下述功能:资源供应功能,提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取;计量和定价功能,在云计算环境内对资源的使用进行成本跟踪,并为这些资源的消费提供帐单和发票。在一个例子中,所述资源可以包含应用软件许可证。安全功能,为云消费者和任务提供身份认证,以及为数据和其它资源提供保护。用户门户功能,为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能,提供云计算资源的分配和管理,以满足必需的服务水平。服务水平协议(SLA)计划和履行功能,为根据SLA预测的对云计算资源的未来需求提供预先安排和供应。
工作负载层76提供了可以利用云计算环境实现的功能的示例。在该层中,可提供的工作负载或功能的示例包括:地图绘制与导航;软件开发及生命周期管理;虚拟教室的教学提供;数据分析处理;交易处理;以及数据服务。
首先应该意识到,尽管本公开专利包括对云计算的详细描述,但此处所述的实现并不局限于云计算环境。相反,能够与目前已知的或者以后开发的任何其它类型的计算环境相结合实现本发明的实施例。
云计算是一种服务提交模型,能够方便地、以请求方式对能够以最小管理努力快速供给和释放的可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、外存、应用、虚拟机、以及服务)的共享池进行网络访问或者与服务提供商进行交互。这一云模型可以包括至少5个特征、至少3个服务模型、以及至少4个部署模型。
特征如下:
请求式自我服务:当需要时,云消费者可以自动地、在不要求人与服务提供商进行交互的情况下单方面补给诸如服务器时间和网络存储器的计算能力。
宽网络访问:在网络上可得的、并且可以通过有助于不同种类的大、小客户平台(例如,移动电话、膝上机、以及PDA等)使用的标准机构加以访问的能力。
资源池:把提供商的计算资源汇集在一起,使用多占有者模型服务于多消费者,并且具有根据请求动态分配和重新分配的不同的物理和虚拟的资源。具有消费者通常无需控制或者知晓所提供的资源的准确位置,但能够在较高的抽象层(例如,国家、州、或者数据中心)指出位置的位置独立感。
快速伸缩:在某些自动快速扩大规模以及迅速释放以快速缩小规模的情况下,可以快速和可伸缩供给的能力。对于消费者,可用于供给的能力通常无限地出现,并且能够在任何时候、按任何数量加以购买。
测量服务:云系统利用控制某一适合于服务类型(例如,存储器、处理、带宽、以及活跃用户账户)的抽象层上的度量能力,自动地控制和优化资源的使用。可以监视、控制、以及报告资源的使用情况,从而既向所用服务的提供商,也向所用服务的消费者提供了透明性。
服务模型如下:
作为服务的软件(SaaS):提供给消费者的使用运行在云基础设施上的提供商的应用的能力。可以通过诸如Web浏览器的小客户机接口(例如,基于Web的电子邮件)从各种客户机设备访问所述应用。消费者无需管理或者控制包括网络、服务器、操作系统、存储器、甚至各应用能力的下层云基础设施,可能例外的是,有限的用户指定的应用配置设置。
作为服务的平台(PaaS):提供给消费者的用于在云基础设施上部署消费者创建的或者采集的使用提供商所支持的程序设计语言和工具所创建的应用的能力。消费者无需管理或者控制包括网络、服务器、操作系统、存储器的下层云基础设施,但具有对所部署的应用以及可能的宿主环境配置的应用的控制。
作为服务的基础设施(IaaS):提供给消费者的用于供给处理、存储器、网络、以及其它基本计算资源的能力,其中,消费者能够部署和运行可以包括操作系统和应用的任意软件。消费者无需管理或者控制下层云基础设施,但具有对操作系统、存储器、所部署的应用的控制,以及对选择连网部件(例如,宿主防火墙)的可能有限的控制。
部署模型如下:
私有云:仅针对某一组织操作的云基础设施。其可以由该组织或者第三方加以管理,并且可以存在现用设备或者备用设备。
社团云:若干组织共享云基础设施,并且支持共同关注某些问题(例如,使命、安全要求、策略、以及兼容考虑)的某一具体社团。可以由所述组织或者第三方对其加以管理,并且可以存在现用设备或者备用设备。
公共云:对一般公众或者大的行业集团可用的云基础设施,并且为销售云服务的某一组织所拥有。
混合云:是两或多个云(私有、社团、或者公共)构成的云基础设施,保持了唯一的、但由能够使数据和应用可移植(例如,为了云之间的负载平衡的云裂开)的标准化的或者专有的技术将它们捆绑在一起的实体。
云计算环境是面向服务的,主要体现为无国籍、低耦合、模块化、以及语义的互操作性。云计算的核心部分为包含互相连接的节点的网络的基础设施。
以应用为基础标识此处所描述的程序,即以针对其按本发明的某一具体实施例实现所述程序的应用为基础标识所述程序。然而应该意识到,此处任何具体的程序名称的使用仅仅是出于方便,因此不应将本发明限制为仅用于由这样的名称所标识的与/或所意指的任何具体的应用。
本发明可以为一种系统、方法、与/或计算机程序产品。所述计算机程序产品可以包括其上具有致使处理器执行本发明的各个方面的计算机可读程序指令的计算机可读存储介质。
计算机可读存储介质可以为能够保持和存储指令执行设备所使用的指令的任何可触知的设备。计算机可读存储介质,例如,但不局限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述设备的任何合适的组合。计算机可读存储介质的更多具体示例的非穷举的列表包括如下:便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或者闪存)、静态随机存取存储器(SRAM)、便携式紧致盘只读存储器(CD-ROM)、数字通用盘(DVD)、存储器棒、软盘、机械编码设备(例如,其上具有所记录的指令的打孔卡或凹槽内凸起的结构的)、以及上述计算机可读存储介质的任何合适的组合。这里所使用的计算机可读存储介质不应被视为瞬时信号本身,例如,无线电波或者其它自由传播的电磁波、通过波导或者其它传输媒介传播的电磁波(例如,通过光纤电缆传输的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者经由诸如Internet、局域网、广域网与/或无线网的网络下载到外部计算机或外部存储设备。所述网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机与/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发所述计算机可读程序指令,以及其存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、依赖于机器的指令、微代码、固件指令、状态设置数据、或者以一或多种编程语言的任何组合编写的源代码或目标代码,所述一或多种编程语言包括诸如Smalltalk、C++等的面向对象的编程语言、以及诸如“C”编程语言或者类似编程语言的传统过程式编程语言。计算机可读程序指令可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分地在用户的计算机上部分地在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机或者服务器的情况下,可以通过包括局域网(LAN)或者广域网(WAN)的任何种类的网络把远程计算机连接于用户的计算机,或者,可以连接于外部计算机(例如利用Internet服务提供商,通过Internet)。在某些实施例中,例如,包括可编程逻辑电路、现场可编程门阵列(FPGA)、或者可编程逻辑阵列(PLA)的电子电路可以利用计算机可读程序指令的状态信息执行计算机可读程序指令,以个性化电子电路,从而可实现本发明的各个方面。
此处参照根据本发明的实施例的方法、装置(系统)以及计算机程序产品的流程图说明与/或结构图描述了本发明的各个方面。应当意识到,所述流程图说明与/或结构图的每个方框以及流程图说明与/或结构图中各方框的组合,均可由计算机可读程序指令加以实现。
可以把这些计算机可读程序指令提供于通用计算机、专用计算机、或者其它可编程数据处理装置的处理器,从而生产出一种机器,以致通过计算机或者其它可编程数据处理装置的处理器执行的指令能够创建用于实现流程图与/或结构图各方框中所指出的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读介质中,这些指令可以指挥计算机、其它可编程数据处理装置与/或其它设备以特定方式运作,使得具有其中存储的指令的计算机可读介质包含制造产品,该制造产品包括实现流程图与/或结构图各方框中所指出的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或者其它设备上,从而能够在计算机、其它可编程装置或者其它设备上执行一系列操作步骤,以产生计算机实现的过程,使得运行在计算机、其它可编程数据处理装置、或者其它设备上的指令能够实现流程图与/或结构图各方框中所指出的功能/动作。
附图中的流程图和结构图说明了根据本发明的不同实施例的系统、方法、以及计算机程序产品的可能实现的体系结构、功能、以及操作。就此而言,流程图或者结构图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一或多条用于实现所指定逻辑功能的可执行的指令。在某些可选的实现中,方框中所标注的功能也可以以不同于附图中所标注的次序出现。例如,两个连续描述的方框实际上可以基本上并行地执行,它们有时也可以按相反的顺序执行,取决于所涉及的功能。也要注意的是,结构图与/或流程图说明中的每个方框、以及结构图与/或流程图说明中的方框的组合,可以由执行所指定功能或动作的基于专用硬件的系统加以实现,也可以实现专用硬件与计算机指令的组合。
已经说明性地描述了本发明的各实施例,然而这些描述并不旨在穷举或者仅限于所公开的实施例。本领域技术人员将会明显意识到,可以在不背离本发明的范围与宗旨的情况下进行许多修改与变化。此处所使用的术语的选择旨在最好地解释实施例的原理、实际的应用、或者对市场中发现的技术的技术改进,或者使本领域的其他技术人员能够理解此处所公开的实施例。
此处所使用的术语仅旨在描述具体的实施例,并不旨在对本发明加以限制。应该意识到,此处所使用的任何具体名称仅仅是为了方便,不应该把本发明限制为仅用于由这样的名称所标识的与/或所意指的任何具体的功能。而且,如此处所使用的,单数形式的“一个(英文的a或者an)”以及“该或者所述(英文的(the)”也旨在包括复数形式,除非上下文明确加以表示。

Claims (15)

1.一种用于鉴于分析的、基于本体论策略的数据收集、处理、以及数据协商的方法,所述方法包含:
由一或多个计算机处理器在一或多个数据源中搜索与数据请求相关的数据;
由一或多个计算机处理器从一或多个数据源收集与数据请求相关的数据;
由一或多个计算机处理器确定根据数据请求所生成的一或多个属性是否与一或多个与数据请求相关的数据所关联的描述符相匹配;
响应于根据数据请求所生成的一或多个属性与一或多个与数据请求相关的数据所关联的描述符相匹配的确定,由一或多个计算机处理器为与数据请求相关的数据创建一或多个带注释的本体;
由一或多个计算机处理器显示与数据请求相关的数据的一或多个带注释的本体的层次结构的视频表示;以及
由一或多个计算机处理器至少部分地根据对一或多个数据选择的质量的评估,更新与数据请求相关的数据的一或多个带注释的本体。
2.根据权利要求1所述的方法,其中,在数据源中搜索一或多个与数据请求相关的数据还包含:
由一或多个计算机处理器根据数据请求生成一或多个属性;以及
由一或多个计算机处理器在一或多个数据源中搜索与一或多个属性相关的数据。
3.根据权利要求2所述的方法,其中,收集与一或多个属性相关的数据还包含:
由一或多个计算机处理器从所述数据抽取一或多个描述符,其中一或多个描述符描述和标识所述数据;
由一或多个计算机处理器为具有一或多个描述符的数据增殖数据描述符模板;以及
由一或多个计算机处理器确定一或多个为所述数据定义域的本体。
4.根据权利要求3所述的方法,其中,确定一或多个为所述数据定义域的本体还包含:
由一或多个计算机处理器发现一或多个相关本体描述符;以及
由一或多个计算机处理器把一或多个相关本体描述符与来自所述数据的一或多个描述符相关联。
5.根据权利要求1所述的方法,其中,确定根据数据请求所生成的一或多个属性是否与一或多个与数据请求相关的数据所关联的描述符相匹配至少包含下列之一:
由一或多个计算机处理器确定根据数据请求所生成的属性与一或多个与数据请求相关的数据所关联的描述符相匹配,其中,可得数据的一或多个特征的至少之一与根据数据请求所生成的一或多个属性的至少之一相关;以及
由一或多个计算机处理器确定根据数据请求所生成的属性不与一或多个与数据请求相关的数据所关联的描述符相匹配,其中,可得数据的一或多个特征的至少之一不与根据数据请求所生成的一或多个属性的至少之一相关。
6.根据权利要求1所述的方法,其中,为与数据请求相关的数据显示一或多个本体的层次结构的视频表示,还包含:
由一或多个计算机处理器把一或多个用户所定义的策略规则与来自与数据请求相关的数据的一或多个描述符相关联,其中,把一或多个用户所定义的策略规则与与数据请求相关的数据的一或多个描述符相关联包括确定策略规则和数据描述符之间的相关度级别;以及
由一或多个计算机处理器为与数据请求相关的数据创建一或多个带注释的本体,其中,创建一或多个带注释的本体包括:把一或多个为所述数据定义域的本体与一或多个可修改的数据策略规则加以组合,以根据一或多个可修改的数据策略规则描述所述数据以及所述数据的一或多个处理要求。
7.根据权利要求6所述的方法,其中,为与数据请求相关的数据创建一或多个带注释的本体,还包含:
由一或多个计算机处理器使用来自与数据请求相关的数据的一或多个文档的至少一个摘要标注一或多个数据描述符,其中,使至少一个摘要标注一或多个数据描述符包括下列中的至少一个:把通过搜索一或多个数据源所生成的摘要信息相关联、把数据策略规则施加于至少一个摘要、以及修改至少一个摘要以符合相关的数据策略规则。
8.根据权利要求1所述的方法,还包含:
由一或多个计算机处理器至少部分地根据数据选择、数据消费装置数据策略、以及数据提供装置数据策略,对来自与数据请求相关的数据的一或多个本体的数据进行过滤,其中,过滤包括:使用来自数据消费装置数据策略和数据提供装置数据策略的一或多个可修改的数据策略规则清理来自一或多个带注释的本体的数据。
9.根据权利要求1所述的方法,其中,至少部分地根据对一或多个数据选择的质量的评估,更新与数据请求相关的数据的一或多个本体,还包含:
由一或多个计算机处理器提示评估一或多个数据选择的质量,其中,一或多个数据选择的质量的评估包括下列至少之一:对数据源可信度进行排序、对数据源威望进行排序、对与某一具体域相关的数据源进行排序、以及对根据数据过滤更新的数据的比率进行排序;以及
由一或多个计算机处理器提示修改现存的数据策略。
10.一种用于鉴于分析的、基于本体论策略的数据收集、处理、以及数据协商的计算机系统产品,所述计算机系统包含执行权利要求1~9的任何方法的所有步骤的装置。
11.一种用于鉴于分析的、基于本体论策略的数据收集、处理、以及数据协商的计算机系统,所述计算机系统包含:
一或多个计算机可读存储介质;
存储在一或多个计算机可读存储介质至少之一上的程序指令,由一或多个计算机处理器至少之一加以执行,所述程序指令包含:
由一或多个计算机处理器在一或多个数据源中搜索一或多个与数据请求相关的数据的程序指令;
由一或多个计算机处理器从一或多个数据源收集与数据请求相关的数据的程序指令;
由一或多个计算机处理器确定根据数据请求所生成的一或多个属性是否与一或多个与数据请求相关的数据所关联的描述符相匹配的程序指令;
响应于根据数据请求所生成的一或多个属性与一或多个与数据请求相关的数据所关联的描述符相匹配的确定,由一或多个计算机处理器为与数据请求相关的数据创建一或多个带注释的本体的程序指令;
由一或多个计算机处理器为与数据请求相关的数据显示一或多个带注释的本体的层次结构的视频表示的程序指令;以及
由一或多个计算机处理器至少部分地根据对一或多个数据选择的质量的评估,更新与数据请求相关的数据的一或多带注释的本体的程序指令。
12.根据权利要求11所述的计算机系统,其中,为与数据请求相关的数据显示一或多个本体的层次结构的视频表示的程序指令,还包含:
由一或多个计算机处理器把一或多个用户所定义的策略规则与一或多个来自与数据请求相关的数据的描述符相关联的程序指令,其中,把一或多个用户所定义的策略规则与一或多个来自与数据请求相关的数据的描述符相关联包括:确定策略规则和数据描述符之间的相关度级别;
由一或多个计算机处理器为与数据请求相关的数据创建一或多个带注释的本体的程序指令,其中,创建一或多个带注释的本体包括:把一或多个为所述数据定义域的带注释的本体与一或多个可修改的数据策略规则加以组合,以根据一或多个可修改的数据策略规则描述所述数据以及所述数据的一或多个处理要求。
13.根据权利要求12所述的计算机系统,其中,为与数据请求相关的数据创建一或多个带注释的本体的程序指令,还包含:
由一或多个计算机处理器使用来自与数据请求相关的数据的一或多个文档的至少一个摘要标注一或多个数据描述符的程序指令,其中,使用至少一个摘要标注一或多个数据描述符包括下列中的至少一个:把通过搜索一或多个数据源所生成的摘要信息相关联、把数据策略规则施加于至少一个摘要、以及修改至少一个摘要以符合相关的数据策略规则。
14.根据权利要求11所述的计算机系统,还包含:
由一或多个计算机处理器至少部分地根据一或多个数据选择、数据消费装置数据策略、以及数据提供装置数据策略,对来自与数据请求相关的数据的一或多个本体的数据进行过滤的程序指令,其中,过滤包括:使用来自数据消费装置数据策略和数据提供装置数据策略的一或多个可修改的数据策略规则清理来自一或多个本体的数据。
15.根据权利要求11所述的计算机系统,其中,至少部分地根据一或多个数据选择的质量的评估对与数据请求相关的数据的一或多个本体进行更新的程序指令还包含:
由一或多个计算机处理器提示评估一或多个数据选择的质量的程序指令,其中,一或多个数据选择的质量的评估包括下列至少之一:对数据源可信度进行排序、对数据源威望进行排序、对与某一具体域相关的数据源进行排序、对数据选择进行排序,以及对根据数据过滤更新的数据的比率进行排序;以及
由一或多个计算机处理器提示修改现存的数据策略的程序指令。
CN201610158033.8A 2015-03-20 2016-03-18 用于分析的基于策略的数据收集处理及协商的方法与系统 Active CN105989523B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/664,225 2015-03-20
US14/664,225 US10223329B2 (en) 2015-03-20 2015-03-20 Policy based data collection, processing, and negotiation for analytics

Publications (2)

Publication Number Publication Date
CN105989523A true CN105989523A (zh) 2016-10-05
CN105989523B CN105989523B (zh) 2020-04-14

Family

ID=56924921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610158033.8A Active CN105989523B (zh) 2015-03-20 2016-03-18 用于分析的基于策略的数据收集处理及协商的方法与系统

Country Status (2)

Country Link
US (1) US10223329B2 (zh)
CN (1) CN105989523B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458743A (zh) * 2019-08-12 2019-11-15 软通动力信息技术有限公司 基于大数据分析的社区治理方法、装置、设备及存储介质
WO2023220948A1 (en) * 2022-05-18 2023-11-23 Huawei Technologies Co., Ltd. Method, apparatus and system for configurable data collection for networked data analytics and management
CN117336239A (zh) * 2023-10-18 2024-01-02 国网江苏省电力有限公司泰州供电分公司 一种光缆路由用户配置系统及其配置方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10185577B2 (en) * 2014-12-08 2019-01-22 Oracle International Corporation Run-time adaption of external properties controlling operation of applications
KR20170056331A (ko) * 2015-11-13 2017-05-23 한국전자통신연구원 정보 처리 시스템 및 그것의 정보 처리 방법
US9760606B1 (en) 2016-10-05 2017-09-12 Palantir Technologies Inc. System to generate curated ontologies
US11347703B1 (en) 2017-12-08 2022-05-31 Palantir Technologies Inc. System and methods for object version tracking and read-time/write-time data federation
US10402397B1 (en) 2018-05-09 2019-09-03 Palantir Technologies Inc. Systems and methods for accessing federated data
GB2574903A (en) * 2018-06-18 2019-12-25 Arm Ip Ltd Compilable data model
US11538287B2 (en) * 2019-09-20 2022-12-27 Sonatus, Inc. System, method, and apparatus for managing vehicle data collection
US20240073093A1 (en) * 2019-09-20 2024-02-29 Sonatus, Inc. System, method, and apparatus to execute vehicle communications using a zonal architecture
KR20220070242A (ko) * 2019-09-20 2022-05-30 소나투스, 인코포레이티드 차량에서 혼합 네트워크 통신을 지원하는 시스템, 방법 및 장치
US12094259B2 (en) 2020-03-06 2024-09-17 Sonatus, Inc. System, method, and apparatus for managing vehicle automation
US12103479B2 (en) 2020-03-06 2024-10-01 Sonatus, Inc. System, method, and apparatus for managing vehicle automation
US20220297635A1 (en) * 2020-03-06 2022-09-22 Sonatus, Inc. System, method, and apparatus for managing vehicle data collection
US11772583B2 (en) 2020-03-06 2023-10-03 Sonatus, Inc. System, method, and apparatus for managing vehicle automation
US11449516B2 (en) * 2020-11-04 2022-09-20 International Business Machines Corporation Ranking of documents belonging to different domains based on comparison of descriptors thereof
JP2024046474A (ja) * 2022-09-22 2024-04-03 富士通株式会社 情報管理プログラム、情報処理システム及び情報管理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7349896B2 (en) * 2004-12-29 2008-03-25 Aol Llc Query routing
US20120179642A1 (en) * 2008-05-01 2012-07-12 Peter Sweeney System and method for using a knowledge representation to provide information based on environmental inputs

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7890517B2 (en) 2001-05-15 2011-02-15 Metatomix, Inc. Appliance for enterprise information integration and enterprise resource interoperability platform and methods
US20030172368A1 (en) 2001-12-26 2003-09-11 Elizabeth Alumbaugh System and method for autonomously generating heterogeneous data source interoperability bridges based on semantic modeling derived from self adapting ontology
GB0228447D0 (en) 2002-12-06 2003-01-08 Nicholls Charles M System for detecting and interpreting transactions events or changes in computer systems
US8612208B2 (en) * 2004-04-07 2013-12-17 Oracle Otc Subsidiary Llc Ontology for use with a system, method, and computer readable medium for retrieving information and response to a query
US20050256752A1 (en) 2004-05-12 2005-11-17 Bala Ramachandran Method for managing and controlling stability in business activity monitoring and management systems
US20060053382A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for facilitating user interaction with multi-relational ontologies
US7657546B2 (en) * 2006-01-26 2010-02-02 International Business Machines Corporation Knowledge management system, program product and method
US10198503B2 (en) * 2008-05-01 2019-02-05 Primal Fusion Inc. System and method for performing a semantic operation on a digital social network
US8214401B2 (en) * 2009-02-26 2012-07-03 Oracle International Corporation Techniques for automated generation of ontologies for enterprise applications
EP2504779A4 (en) * 2009-11-29 2016-06-01 Kinor Technologies Inc AUTOMATED PRODUCTION OF ONTOLOGIES
US8719207B2 (en) 2010-07-27 2014-05-06 Oracle International Corporation Method and system for providing decision making based on sense and respond
US9098803B1 (en) 2012-12-21 2015-08-04 Emc Corporation Hypotheses aggregation in data analytics
US20150127607A1 (en) * 2013-01-10 2015-05-07 Unicom Systems, Inc. Distributed data system with document management and access control
US8799799B1 (en) 2013-05-07 2014-08-05 Palantir Technologies Inc. Interactive geospatial map
US10846424B2 (en) 2014-09-05 2020-11-24 Medidata Solutions, Inc. Method for multi-tiered, rule-based data sharing and ontology mapping

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7349896B2 (en) * 2004-12-29 2008-03-25 Aol Llc Query routing
US20120179642A1 (en) * 2008-05-01 2012-07-12 Peter Sweeney System and method for using a knowledge representation to provide information based on environmental inputs

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458743A (zh) * 2019-08-12 2019-11-15 软通动力信息技术有限公司 基于大数据分析的社区治理方法、装置、设备及存储介质
CN110458743B (zh) * 2019-08-12 2022-04-29 软通智慧信息技术有限公司 基于大数据分析的社区治理方法、装置、设备及存储介质
WO2023220948A1 (en) * 2022-05-18 2023-11-23 Huawei Technologies Co., Ltd. Method, apparatus and system for configurable data collection for networked data analytics and management
CN117336239A (zh) * 2023-10-18 2024-01-02 国网江苏省电力有限公司泰州供电分公司 一种光缆路由用户配置系统及其配置方法
CN117336239B (zh) * 2023-10-18 2024-08-02 国网江苏省电力有限公司泰州供电分公司 一种光缆路由用户配置系统及其配置方法

Also Published As

Publication number Publication date
CN105989523B (zh) 2020-04-14
US20160275158A1 (en) 2016-09-22
US10223329B2 (en) 2019-03-05

Similar Documents

Publication Publication Date Title
CN105989523A (zh) 用于分析的基于策略的数据收集处理及协商的方法与系统
JP7461698B2 (ja) ドメインインデックス制約リポジトリを用いた異常及びドリフトの検出
Bjeladinovic A fresh approach for hybrid SQL/NoSQL database design based on data structuredness
CN110178151A (zh) 任务主视图
Gui et al. A service brokering and recommendation mechanism for better selecting cloud services
CN106663224A (zh) 用于机器学习模型评估的交互式界面
CN110088749A (zh) 自动本体生成
CN106575246A (zh) 机器学习服务
Janković et al. Schema on read modeling approach as a basis of big data analytics integration in EIS
Rojas et al. Cities-board: a framework to automate the development of smart cities dashboards
CN109906597A (zh) 向和从云网络中存储和取回受限制的数据集和非受限制的数据集
US20140324518A1 (en) Autotagging business processes
Bocciarelli et al. A model-driven method for building distributed simulation systems from business process models
US20200233542A1 (en) Interactive dimensional hierarchy development
Corral-Plaza et al. MEdit4CEP-SP: A model-driven solution to improve decision-making through user-friendly management and real-time processing of heterogeneous data streams
Lopez-Rodriguez et al. Modeling scientometric indicators using a statistical data ontology
Won et al. An Advanced Open Data Platform for Integrated Support of Data Management, Distribution, and Analysis
Tchouangouem et al. Integration of environmental data in BIM tool & linked building data
Wang et al. A unified RGPS-based approach supporting service-oriented process customization
Ouared Towards an explicitation and a conceptualization of cost models in database systems
Sydora et al. BIM-kit: An extendible toolkit for reasoning about building information models
Kinder-Kurlanda et al. Perspective: acknowledging data work in the social media research lifecycle
US12072894B1 (en) Systems and methods for providing metadata-rich data transfers based on logical data models
US11829340B1 (en) Systems and methods for generating data transfers using programming language-agnostic data modeling platforms
JP2005122318A (ja) 特許情報管理システム、方法およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant